JP2017134675A

JP2017134675A - 情報検索装置及びプログラム

Info

Publication number: JP2017134675A
Application number: JP2016014675A
Authority: JP
Inventors: 太郎宮▲崎▼; Taro Miyazaki; 山田　一郎; Ichiro Yamada; 一郎山田; 菊佳望月; Kikuka Mochizuki; 後藤　淳; Atsushi Goto; 淳後藤
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2017-08-03
Anticipated expiration: 2036-01-28
Also published as: JP6639040B2

Abstract

【課題】検索キーと関連するコンテンツを精度よく検索する。【解決手段】上位関連語取得部は、検索キーに含まれる単語を上位関連語として取得する。下位関連語取得部は、上位関連語に関連する単語及びその単語との類似度を概念マップから読み出し、さらに、読み出された単語に関連する単語及びその単語との類似度を概念マップから読み出す処理を所定回繰り返して下位関連語を得ると、上位関連語から下位関連語に至るパスを取得する。関連度計算部は、下位関連語それぞれの関連度を、パス内で隣接する単語間の類似度と、パス内の単語に関連する他の単語の数と、パスにおける上位関連語の単語の重要度とに基づいて計算し、上位関連語それぞれの関連度を単語の重要度に基づき計算する。スコア計算部は、コンテンツに関するテキストデータに含まれる各単語の重要度及び関連度に基づきスコアを計算する。選択部は、スコアに基づいてコンテンツを選択する。【選択図】図１

Description

本発明は、情報検索装置及びプログラムに関する。

インターネットを介して番組を配信する動画配信サービスでは、（１）画面上の目につきやすい箇所に提示されたおすすめへのリンク、（２）ユーザによる番組検索、（３）システムからの番組推薦、の主に３つの方法によって、ユーザへ番組の情報を提示している。この中でも、ユーザが自発的に番組を検索する（２）の利便性は、サービス全体の使いやすさにも直結するため、重要である。

上記のような動画配信サービスには、ユーザによる番組検索の機能にｏｋａｐｉ−ＢＭ２５を利用しているものがある。ｏｋａｐｉ−ＢＭ２５は、対象文書内における単語の出現頻度などを用いて、その単語の文章への出現しやすさを考慮した重みを設定し、その重みを基に検索を行う検索技術である（例えば、非特許文献１参照）。
また、番組検索の機能に用いられる他の検索技術には、協調フィルタリングがある（例えば、非特許文献２参照）。協調フィルタリングでは、多くのユーザによる商品へのレーティング情報を基に、個人の嗜好に合わせた推薦を行う。

S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, M. Gatford, "Okapi at TREC-3," NIST SPECIAL PUBLICATION, 1995, p.109-126 Yehuda Koren, Robert Bell, Chris Volinsky, "Matrix factorization techniques for recommender systems," Computer, IEEE Computer Society, 2009, Vol. 42 Issue 8, p.30-37

非特許文献１の技術を用いた番組検索では、あるキーワードにより検索を行っても、検索結果として１件も番組が得られない場合がある。また、「風邪」というキーワードにより番組検索を行った場合、ドラマの主人公が風邪をひいた回の番組などが検索結果として得られることがある。これは、ユーザにより入力されたキーワードが番組概要文に含まれている場合に、番組概要文におけるそのキーワードの重要度に応じたスコアに基づき検索を行っているためである。非特許文献１の技術では、検索対象のデータの数が多い場合に非常に有効である。しかし、データ数が少ない中からの検索では、上記のように検索キーそのものが検索対象の文章中に出現しないために一件も検索結果が得られなかったり、文章中に検索キーが出現するものの番組の主題としては重要ではない場合でも、上位の検索結果として出力されたりすることがある。その結果、検索機能自体が使いにくいものとなってしまう可能性がある。また、ユーザが番組に対するレーティングを付けるサービスを提供していない場合、非特許文献２の技術を利用できない。

本発明は、このような事情を考慮してなされたもので、検索キーと関連するコンテンツを精度よく検索することができる情報検索装置及びプログラムを提供する。

本発明の一態様は、検索キーに含まれる単語を上位関連語として取得する上位関連語取得部と、関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得部と、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算部と、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算部により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算部と、複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算部が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択部と、を備えることを特徴とする情報検索装置である。
この態様によれば、情報検索装置は、ユーザが入力した検索キーに含まれる単語を上位関連語として取得する。情報検索装置は、上位関連語のそれぞれについて、関連する単語及びその関連する単語との類似度を概念マップから読み出し、さらに、その読み出された単語のそれぞれについて、関連する単語及びその関連する単語との類似度を概念マップから読み出す処理を所定回繰り返す。情報検索装置は、概念マップから読み出された単語である下位関連語のそれぞれについて、上位関連語からその下位関連語に至る単語を順に並べたパスを取得する。情報検索装置は、下位関連語のそれぞれについて、下位関連語が検索キーと関連する高さを表す関連度を、その下位関連語が含まれるパスにおいて隣接する単語間の類似度と、そのパスに含まれる単語に関連する他の単語の数と、そのパスの上位関連語の単語の重要度とに基づいて計算する。また、情報検索装置は、上位関連語それぞれの関連度を、その上位関連語の重要度に基づき計算する。情報検索装置は、コンテンツに関するテキストデータに含まれる単語それぞれの重要度と、その単語の関連度とに基づき、テキストデータが検索キーに関連する程度を定量的に表すスコアを計算する。情報検索装置は、コンテンツに関するテキストデータそれぞれのスコアに基づいて、複数のコンテンツの中から検索キーに関連する程度が高いコンテンツを選択する。
これにより、情報検索装置は、コンテンツに関するテキストデータに検索キーに含まれる単語が出現しなくても、検索キーと関連するコンテンツを検索結果として得ることができる。

本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、前記重要度が高いほど、前記検索キーとの関連が高いことを示す値の関連度を計算する、ことを特徴とする。
この態様によれば、情報検索装置は、下位関連語に至るパスにおいて隣接する単語間の類似度が高いほど、パスに含まれる単語に関連する他の単語の数が少ないほど、又は、パスにおける上位関連語の重要度が高いほど、検索キーとの関連が高いことを示す値の関連度を計算する。
これにより、情報検索装置は、検索キーから得られた関連語に適切な値の関連度を与え、検索キーとの関連が高いコンテンツを精度よく検索することができる。

本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する２つの単語の組毎に、前記組を構成する単語間の類似度が高いほど、又は、前記組を構成する単語それぞれに関連する他の単語の数が少ないほど前記組を構成する単語間の関連度が高いことを示す値となる単語間関連度を計算し、前記パスに含まれる全ての前記組の前記単語間関連度と前記上位関連語の前記重要度との乗算により前記下位関連語の関連度を計算する、ことを特徴とする。
この態様によれば、情報検索装置は、上位関連語から下位関連語に至るパスにおいて隣接する２つの単語の組毎に、それら単語間の類似度が高いほど、又は、それら単語それぞれに関連する他の単語の数が少ないほど、高い関連度を示す単語間関連度を計算する。情報検索装置は、下位関連語の関連度を、下位関連語に至るパスに含まれる全ての単語の組の単語間関連度と、そのパスにおける上位関連語の単語の重要度との乗算により計算する、ことを特徴とする。
これにより、情報検索装置は、検索キーから得られた下位関連語に適切な値の関連度を与え、検索キーと関連が高いコンテンツを精度よく検索することができる。

本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、同一の下位関連語に至るパスが複数ある場合、前記パス毎に計算した関連度のうち最も大きな関連度を選択する、ことを特徴とする。
この態様によれば、情報検索装置は、同一の下位関連語に至るパスが複数ある場合、各パスについて計算した関連度のうち、最も大きな関連度をその下位関連語の関連度として選択する。
これにより、情報検索装置は、検索キーから得られた下位関連語に適切な値の関連度を与え、検索キーと関連が高いコンテンツを精度よく検索することができる。

本発明の一態様は、上述した情報検索装置であって、前記スコア計算部は、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語のうち前記上位関連語又は前記下位関連語に合致する各単語について、前記単語の前記重要度と前記単語の前記関連度とを乗算し、乗算した結果の合計を、分割により得られた前記単語の数により除算して前記スコアを計算する、ことを特徴とする。
この態様によれば、情報検索装置は、コンテンツに関するテキストデータに含まれる上位関連語又は下位関連語のそれぞれについて単語の重要度と関連度とを乗算し、乗算結果の合計を、コンテンツに関するテキストデータに含まれる単語の総数により除算して、スコアを計算する。
これにより、情報検索装置は、コンテンツと検索キーの関連の高さを精度よく算出することができる。また、情報検索装置は、検索キーから得られた単語と、その単語を用いて概念マップを辿って得た単語とが、コンテンツに関するテキストデータに出現するかを判断するため、検索に用いる単語の数が少なく、高速な検索を行うことができる。

本発明の一態様は、コンピュータを、検索キーに含まれる単語を上位関連語として取得する上位関連語取得手段と、関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得手段と、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算手段と、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算手段により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算手段と、複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算手段が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択手段と、を有する情報検索装置として動作させるプログラムである。

本発明によれば、検索キーと関連するコンテンツを精度よく検索することができる。

本発明の一実施形態による情報検索装置の機能ブロック図である。同実施形態による概念マップの例を示す図である。同実施形態による情報検索装置の動作を示すフロー図である。同実施形態による情報検索装置が検索キーから得た関連語の関係を示す図である。同実施形態による検索結果データの表示例を示す図である。同実施形態による検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離を模式的に示す図である。同実施形態による検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数を模式的に表す図である。同実施形態によるパス中で経由する単語間の類似度を模式的に表す図である。同実施形態によるパス中で経由する単語につながる他の単語の数を模式的に表す図である。同実施形態による情報検索装置及び従来技術による情報検索装置を用いた実験結果を示す図である。同実施形態による情報検索装置及び従来技術による情報検索装置を用いた実験結果を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図１は、本発明の一実施形態による情報検索装置１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。情報検索装置１は、１台以上のコンピュータ装置により実現することができる。情報検索装置１を複数台のコンピュータ装置により実現する場合、いずれのコンピュータ装置によりいずれの機能部を実現するかは任意とすることができる。また、一つの機能部を複数台のコンピュータ装置により実現してもよい。

情報検索装置１は、ネットワーク９を介して表示装置５と接続される。ネットワーク９は、インターネットなどの公衆網でもよく、ＬＡＮ（Local Area Network）やＶＬＡＮ（仮想ＬＡＮ）などの私設網でもよい。表示装置５は、例えば、ユーザのパーソナルコンピュータ、スマートフォン、タブレット端末、テレビジョン受信機などである。

情報検索装置１は、記憶部１１と、検索キー受信部１２と、上位関連語取得部１３と、下位関連語取得部１４と、関連度計算部１５と、スコア計算部１６と、選択部１７と、出力部１８とを備えて構成される。

記憶部１１は、概念マップ記憶部１１１と、単語重要度記憶部１１２と、コンテンツ情報記憶部１１３とを備える。なお、概念マップ記憶部１１１、単語重要度記憶部１１２及びコンテンツ情報記憶部１１３のうち一以上が、情報検索装置１とネットワーク９を介して接続される外部のデータベース装置により実現されてもよい。

概念マップ記憶部１１１は、概念マップを記憶する。概念マップは、関連する単語と、関連する単語間の類似度とを示すデータである。以下では、ある単語に関連するとして概念マップに登録されている他の単語を、ある単語につながる単語とも記載する。
単語重要度記憶部１１２は、予め計算しておいた各単語の重要度を記憶する。単語の重要度には、大規模なテキストデータから作成したＩＤＦ（Inversed Document Frequency）などを用いる。ＩＤＦは、以下の式（１）により計算される。

式（１）において、ＩＤＦ（ｗ）は単語ｗのＩＤＦ、|｛ｄ：ｄ∈ｗ｝|は単語ｗが出現する文書数、｜Ｄ｜はテキストデータ全体の文書数である。式（１）によれば、いろいろな文章に出現する単語の重要度は、低い値となる。

コンテンツ情報記憶部１１３は、コンテンツに関する情報を記憶する。コンテンツは、例えば、動画、静止画、音声、書籍、ウェブページなどであるが、これらに限定されない。以下では、主に、コンテンツが番組（動画）である場合を例として説明する。
コンテンツが番組である場合、コンテンツ情報記憶部１１３は、コンテンツＩＤに対応付けて、コンテンツ情報を記憶する。コンテンツＩＤは、各コンテンツを一意に特定する。コンテンツ情報は、コンテンツに関する情報を記述したテキストデータを含む。例えば、コンテンツ情報は、番組のタイトル、サブタイトル、番組情報、番組配信サイトのＵＲＬ（Universal Resource Locator）などを含む。番組情報は、例えば、番組のあらすじや番組内容を示す文章である番組概要、番組の字幕、番組の原稿などを示すテキストデータである。なお、コンテンツ情報記憶部１１３は、コンテンツ本体のデジタルデータであるコンテンツデータを記憶してもよい。

検索キー受信部１２は、表示装置５からユーザが入力した検索キーを受信する。なお、検索キー受信部１２は、情報検索装置１が備える図示しないキーボードなどの入力装置によりユーザが入力した検索キーを受信してもよい。検索キーは、１以上の単語であってもよく、文章であってもよい。
上位関連語取得部１３は、検索キーに含まれる単語を上位関連語として取得する。
下位関連語取得部１４は、上位関連語それぞれについて、関連する単語、及び、その関連する単語との類似度を概念マップから読み出す。さらに、下位関連語取得部１４は、読み出された単語それぞれについて、関連する単語、及び、その関連する単語との類似度を概念マップから読み出す処理をｎ回（ｎは０以上の整数）繰り返す。下位関連語取得部１４は、概念マップから読み出された単語を下位関連語とする。以下では、上位関連語及び下位関連語を総称して関連語と記載する。下位関連語取得部１４は、上位関連語から下位関連語に至るまでの関連語を順に並べた単語の列であるパスを取得する。

関連度計算部１５は、各関連語の関連度を計算する。関連度とは、検索キーと関連語の関連の高さを定量的に表す値である。関連度計算部１５は、下位関連語の関連度を、上位関連語からその下位関連語に至るパスにおいて隣接する関連語間の類似度と、そのパスに含まれる関連語につながる単語の数と、そのパスにおける上位関連語の単語の重要度とに基づいて計算する。さらに、関連度計算部１５は、上位関連語の関連度を、その上位関連語の単語の重要度に基づき計算する。本実施形態では、関連度計算部１５は、上位関連語の関連度を、その上位関連語の単語の重要度と同じ値とする。

スコア計算部１６は、複数のコンテンツそれぞれのコンテンツ関連テキストをコンテンツ情報記憶部１１３から読み出す。コンテンツ関連テキストは、コンテンツに関するテキストデータであり、コンテンツ情報に含まれる一部又は全ての情報でもよく、コンテンツデータに含まれる一部又は全てのテキストデータでもよい。例えば、コンテンツが番組の場合、コンテンツ関連テキストとして番組概要、番組の字幕、又は、番組の原稿を用いる。また、コンテンツがウェブページである場合、コンテンツ関連テキストをウェブページに含まれるテキストデータとしてもよい。コンテンツが電子書籍であれば、コンテンツ情報が示す書籍のあらすじのテキストデータをコンテンツ関連テキストとしてもよく、電子書籍のコンテンツデータに含まれるテキストデータをコンテンツ関連テキストとしてもよい。スコア計算部１６は、コンテンツ関連テキストを単語に分割する。スコア計算部１６は、コンテンツ毎に、コンテンツ関連テキストを分割して得られた単語それぞれの重要度と、関連度計算部１５により計算された各単語（関連語）の関連度とに基づきスコアを計算する。このスコアは、コンテンツ関連テキストが検索キーに関連する程度を定量的に表す値である。

選択部１７は、複数のコンテンツそれぞれのコンテンツ関連テキストについてスコア計算部１６が計算したスコアに基づき、コンテンツに順位を付与する。選択部１７は、検索キーに関連する程度が高い所定以上の順位のコンテンツを選択する。

出力部１８は、選択部１７が選択したコンテンツの情報を示す検索結果データを表示装置５に送信し、表示させる。出力部１８は、検索結果データを、情報検索装置１が備える図示しないディスプレイに表示してもよく、情報検索装置１と接続される図示しないプリンタにより印刷してもよい。

図２は、概念マップの例を示す図である。概念マップは、例えば、ALAGINフォーラム（http://alagin.jp）が公開している「意味的関係抽出サービス」などを利用して作成可能である。同図に示すように、概念マップは、各単語とつながりがある他の単語のリストと、つながりがある２つの単語間にどのような関係があるかと、つながりがあるそれら２つの単語間の類似度とを示す。類似度は、一般的に用いられる文脈類似度や、単語の分散表現を用いたコサイン類似度などである。

例えば、単語Ａと単語Ｂとの間の文脈類似度を求める場合、学習用のデータを用いて各単語が出現する文脈について確率分布を求めておき、単語Ａと単語Ｂとの確率分布の異なり具合をJensen-Shannon Divergenceにより計算した結果をこれら単語間の類似度とする。この文脈類似度は、数値が０〜１の範囲を取り、数値が小さいほど類似した単語であることを表す。そこで、単語間の類似度として、１からJensen-Shannon Divergenceによる文脈類似度を減算した値を用いてもよい。文脈類似度の詳細については、例えば、文献「風間淳一、Stijn De Saeger、鳥澤健太郎、村田真樹、”係り受けの確率的クラスタリングを用いた大規模類似度リストの作成”、言語処理学会第１５回年次大会、２００９年、ｐ．８４−８７」に記載されている。

また、単語の分散表現の生成の技術として、例えば、ｗｏｒｄ２ｖｅｃ（例えば、「https://code.google.com/p/word2vec/」参照）などを用いることができる。ｗｏｒｄ２ｖｅｃにより生成される単語ベクトルは、大規模な学習データを用いて学習される分散表現ベクトルである。この分散表現ベクトルは、共起する単語をそれぞれ入力及び出力として学習したニューラルネットワークの中間層であり、例えば、２００〜３００次元で表される。このベクトルの各次元は、カテゴリに相当したものを表し、例えば、「音楽関連の単語はベクトルの１つめの要素が大きくなりやすい」などの傾向が得られる。そのため、単語間の類似度は、それら単語の分散表現ベクトルのコサイン類似度などにより高い精度で求めることができる。

図３は、情報検索装置１の動作を示すフロー図である。以下では、コンテンツが番組であり、コンテンツ関連テキストが番組概要である場合を例に説明する。
情報検索装置１の検索キー受信部１２は、ユーザが入力した検索キーｑを表示装置５から受信する（ステップＳ１１０）。検索キーｑは、１以上の単語を含む。検索キーｑは、文章であってもよい。なお、ある番組と類似の他の番組を検索する場合、検索キー受信部１２は、表示装置５からコンテンツＩＤを受信してもよい。検索キー受信部１２は、受信したコンテンツＩＤによりコンテンツ情報記憶部１１３に記憶されているコンテンツ情報を特定し、特定したコンテンツ情報から番組概要を読み出して検索キーｑとする。また、ユーザが番組概要を入力してもよい。

上位関連語取得部１３は、検索キーｑに含まれる単語を取得する。具体的には、上位関連語取得部１３は、概念マップに含まれる語彙を辞書として与えた場合と、概念マップに含まれる語彙を辞書として与えない場合との２種類の形態素解析を行う。形態素解析には、例えば、Mecab（例えば、「https://code.google.com/p/mecab/」参照）などを用いることができる。上位関連語取得部１３は、それぞれの形態素解析により得られた単語の重複をなくした後、それら全ての単語を上位関連語ｃ_０とする（ステップＳ１２０）。

検索キーｑが「集団的自衛権」のとき、概念マップに含まれる語彙を辞書として与えた場合の形態素解析結果は、「集団的自衛権」の１単語となる。一方、概念マップに含まれる語彙を辞書として与えなかった場合の形態素解析結果は、「集団」、「的」、「自衛」、「権」の４単語である。従って、検索キーｑ「集団的自衛権」からは５つの上位関連語ｃ_０からなる上位関連語集合｛集団的自衛権,集団,的,自衛,権｝が得られる。「集団的自衛権」は、本来独立した単語が二つ以上結合して新たに一つの単語となった複合語であり、以降「単語」と記載した場合には複合語も含める。

上位関連語取得部１３は、上位関連語集合に含まれる各上位関連語ｃ_０の単語の重要度を単語重要度記憶部１１２から読み出す（ステップＳ１３０）。上位関連語取得部１３は、上位関連語集合に、上位関連語ｃ_０の単語の重要度の情報を付加し、下位関連語取得部１４に出力する。

下位関連語取得部１４は、概念マップをたどって、上位関連語集合に含まれる上位関連語に関連のある単語を見つけ、下位関連語ｃ_ｋとする（ステップＳ１４０）。ｋは、１以上の整数であり、概念マップを辿った段数を示す。何段階まで辿るかは予め情報検索装置１に設定しておく。多くの段数を辿りすぎても精度が低下し、計算量も多くなることから、最大の段数を３程度に設定するとよい精度になることが分かっている。以下では、３段階まで辿る例を示す。なお、上位関連語ｃ_０又は下位関連語ｃ_ｋを区別しないときには、関連語ｃ又は関連語ｃ_ｉ（ｉは０以上の整数）と記載する。

図４は、情報検索装置１が検索キーから得た関連語の関係を示す図である。上位関連語集合に含まれる上位関連語「集団的自衛権」から辿る場合、下位関連語取得部１４は、図２に示す概念マップから、１段階目で「集団的自衛権」と関連する単語「自衛権」を得る。下位関連語取得部１４は、これを、下位関連語ｃ_１とする。下位関連語取得部１４は、２段階目では、概念マップから、下位関連語ｃ_１「自衛権」と関連する単語「自衛」、「権利」を得る。下位関連語取得部１４は、これらの単語を下位関連語ｃ_２とする。さらに、下位関連語取得部１４は、３段階目では、概念マップから、下位関連語ｃ_２「自衛」と関連する単語、及び、下位関連語ｃ_２「権利」と関連する単語を読み出し、下位関連語ｃ_３とする。この際、「集団的自衛権」−「自衛権」−「集団的自衛権」のように、ひとつ前の単語に戻ってしまう場合があるが、そのような単語は除外する。関連語ｃ_ｉにつながる下位関連語ｃ_ｉ＋１を、下位関連語ｃ_ｉの１段下の下位関連語ｃ_ｉ＋１と記載する。

上記により、下位関連語取得部１４は、上位関連語ｃ_０「集団的自衛権」から、上位関連語及び下位関連語を要素とする関連語集合｛集団的自衛権（ｃ_０）、自衛権（ｃ_１）、自衛（ｃ_２）、権利（ｃ_２）、アクセス権（ｃ_３）、パブリシティ権（ｃ_３）、…｝を得る。また、下位関連語取得部１４は、下位関連語ｃ_ｋのそれぞれについて、上位関連語ｃ_０からその下位関連語ｃ_ｋに至るまでにたどった関連語を順に並べたパスの情報を付加する。例えば、下位関連語ｃ_２「権利」であれば、パスは「集団的自衛権（ｃ_０）−自衛権（ｃ_１）−権利（ｃ_２）」である。

下位関連語取得部１４は、他の上位関連語ｃ_０である「集団」、「的」、「自衛」、「権」についても、上記と同様に関連語集合を得て、各下位関連語のパスの情報を付加する。下位関連語取得部１４は、上位関連語毎に関連語集合を生成するため、上位関連語ｃ_０が異なる複数のパスに同じ下位関連語が出現することもあり、その場合、各パスにおいて、その下位関連語が出現する段数が異なることもある。下位関連語取得部１４は、各上位関連語ｃ_０の関連語集合を関連度計算部１５に出力する。

図３において、関連度計算部１５は、ステップＳ１４０において得られた関連語集合の中の全ての関連語ｃについて、関連語ｃと検索キーｑとの間の関連度ｗｅｉｇｈｔ（ｃ）を計算する（ステップＳ１５０）。関連語ｃが上位関連語ｃ_０である場合、関連度ｗｅｉｇｈｔ（ｃ）を、その上位関連語ｃ_０のＩＤＦ値を用いた単語の重要度ＩＤＦ（ｃ_０）とする。一方、関連語ｃが下位関連語である場合、関連度計算部１５は、関連度ｗｅｉｇｈｔ（ｃ）を、以下の式（２）〜式（４）により計算する。

なお、式（２）において、ｍａｘ（ｗｅｉｇｈｔ_ｐａｔｈ（ｑ，ｃ））は、関連語ｃが出現する各パスについて計算したｗｅｉｇｈｔ_ｐａｔｈ（ｑ，ｃ）のうち最大値を示す。
式（３）において、ｗｅｉｇｈｔ_ｐａｔｈ（ｑ，ｃ）は、あるパスにおける関連語ｃと検索キーｑの関連度を示し、そのパスにおける関連語ｃはｎ段目に出現する。ＩＤＦ（ｃ_０）は、関連語ｃが出現するパスにおける上位関連語ｃ_０のＩＤＦ値を用いた単語の重要度である。
式（４）において、ｗｅｉｇｈｔ_ｅｄｇｅ（ｃ_ｉ，ｃ_ｉ＋１）は、あるパスにおける関連語ｃ_ｉと、その関連語ｃ_ｉの一段下の関連語ｃ_ｉ＋１との単語間関連度である。ｓｉｍ（ｃ_ｉ，ｃ_ｉ＋１）は、概念マップに登録されている関連語ｃ_ｉと関連語ｃ_ｉ＋１との類似度を示す。｜ｃ_ｉ｜は、関連語ｃ_ｉにつながる単語の数、｜ｃ_ｉ＋１｜は、関連語ｃ_ｉ＋１につながる単語の数を示す。ｍａｘ（｜ｃ_ｉ｜，｜ｃ_ｉ＋１｜）は、｜ｃ_ｉ｜と｜ｃ_ｉ＋１｜のうちのいずれか大きいほうの値を示す。

なお、ｗｅｉｇｈｔ_ｅｄｇｅの三乗根の中の分数は、｜ｃ_ｉ｜及び｜ｃ_ｉ＋１｜が両方とも１の場合に０となる。そのような場合には、概念マップを辿っても他の単語につながる可能性がなく、有用ではないために、ｗｅｉｇｈｔ_ｅｄｇｅの値を０とする。

図４を参照して関連度の計算の例を説明する。
同図では、ユーザにより入力された検索キーｑが「集団的自衛権」であり、関連語集合中の関連語ｃ「権利」にたどり着く場合の例を示している。検索キーｑ「集団的自衛権」の上位関連語から下位関連語「権利」に辿り着くパスは、パスｐ１「集団的自衛権（ｃ_０）−自衛権（ｃ_１）−権利（ｃ_２）」及びパスｐ２「自衛（ｃ_０）−自衛権（ｃ_１）−権利（ｃ_２）」の２つである。

まず、パスｐ１のときの関連語ｃ「権利」の関連度ｗｅｉｇｈｔ_ｐａｔｈ（ｑ，ｃ）の計算を行う。図２に示す概念マップから、「集団的自衛権」と「自衛権」の類似度は０．６８２６、「自衛権」と「権利」の間の類似度は０．４６７２６である。また、概念マップにおいて「集団的自衛権」につながる単語の数は１、「自衛権」につながる単語の数は２、「権利」につながる単語の数は１１９である。よって、関連語ｃ_０「集団的自衛権」と関連語ｃ_１「自衛権」の単語間類似度ｗｅｉｇｈｔ_ｅｄｇｅ（集団的自衛権，自衛権）、及び、関連語ｃ_１「自衛権」と関連語ｃ_２「権利」の単語間類似度ｗｅｉｇｈｔ_ｅｄｇｅ（自衛権，権利）はそれぞれ、以下の式（５）、式（６）のように計算される。

また、ＩＤＦ（集団的自衛権）は１４．４２１６である。よって、パスｐ１の関連語ｃ_２「権利」の関連度ｗｅｉｇｈｔ_ｐａｔｈ（集団的自衛権，権利）は、以下の式（７）のように計算される。

同様に、パスｐ２のときの関連語ｃ「権利」の関連度ｗｅｉｇｈｔ_ｐａｔｈ（ｑ，ｃ）の計算を行う。図２に示す概念マップから、「自衛」と「自衛権」の類似度は０．６４６７２６、「自衛権」と「権利」の間の類似度は０．４６７２６である。また、概念マップにおいて「自衛」につながる単語の数は１、「自衛権」につながる単語の数は２、「権利」につながる単語の数は１１９である。よって、関連語ｃ_０「自衛」と関連語ｃ_１「自衛権」の単語間類似度ｗｅｉｇｈｔ_ｅｄｇｅ（自衛，自衛権）、及び、関連語ｃ_１「自衛権」と関連語ｃ_２「権利」の単語間類似度ｗｅｉｇｈｔ_ｅｄｇｅ（自衛権，権利）はそれぞれ、以下の式（８）、式（９）のように計算される。

ＩＤＦ（自衛）は７．３３１５である。よって、パスｐ２の関連語ｃ_２「権利」の関連度ｗｅｉｇｈｔ_ｐａｔｈ（自衛，権利）は、以下の式（１０）のように計算される。

よって、最終的に得られる関連語ｃ「権利」の関連度ｗｅｉｇｈｔ（権利）は、以下の式（１１）のように計算される。

関連度ｗｅｉｇｈｔ（ｃ）は、基本的に、関連語ｃまでに辿る段数が少ないほど、関連語ｃに至るパスにおいて現れる関連語間の類似度が高いほど、関連語ｃに至るパスに表れる関連語につながる単語数が少ないほど値が大きくなり、検索キーｑとの関連が高いことを示す。関連度計算部１５は、上記のように検索キーから得られた関連語集合中の全ての関連語について関連度を計算し終えると、各関連語の関連度をスコア計算部１６に出力する。

スコア計算部１６は、検索対象となる複数のコンテンツそれぞれのコンテンツ関連テキストをコンテンツ情報記憶部１１３から読み出し、検索キーｑと関連する程度を表すスコアを計算する（ステップＳ１６０）。ここでは、スコア計算部１６は、コンテンツ関連テキストとして番組概要を読み出す。スコア計算部１６は、各コンテンツのコンテンツ関連テキストそれぞれについて、以下のようにスコアを計算する。

スコア計算部１６は、検索キーから単語を取得したときと同様の形態素解析により、コンテンツ関連テキストに含まれる単語を取得する。スコア計算部１６は、取得した各単語について、単語の重要度である重みを取得する。この重みには、ｏｋａｐｉ−ＢＭ２５や、特開２０１５−１３２８９９号公報に開示されているＣｏＭの値を用いることができる。ＣｏＭは、文中に関連する単語（類似度が高い単語）が多く出現する単語ほど、その文中で重要な単語である、という考え方に基づいた重み付け手法である。具体的には、文中に出現する各単語について、その文中の他の単語との間の類似度を計算し、類似度の平均値をＣｏＭの値とする。スコア計算部１６は、検索キーｑと番組Ｐの間のスコアｓｃｏｒｅ（ｑ,Ｐ）を、以下の式（１２）により計算する。

ＣｏＭ（Ｐ，ｗ）は、ある番組Ｐのコンテンツ関連テキスト（番組概要）の文中に出現する単語ｗのＣｏＭの値、Ｗは、番組Ｐのコンテンツ関連テキストに出現する全ての単語ｗの集合、｜Ｗ｜は、番組Ｐのコンテンツ関連テキストに出現する単語ｗの総数である。ｗｅｉｇｈｔ（ｗ）は、式（２）、式（３）及び式（４）により求められた、検索キーｑと単語ｗの間の関連度ｗｅｉｇｈｔ（ｗ）である。なお、関連語ｃとして得られなかった単語ｗの関連度ｗｅｉｇｈｔ（ｗ）＝０である。

ＣｏＭの計算方法の例について説明する。特開２０１５−１３２８９９号公報に開示されているように、ＣｏＭは文脈類似度を用いて計算することができる。また、ＣｏＭは、上述したｗｏｒｄ２ｖｅｃなどの単語の分散表現ベクトルを用いて計算することができる。上述したｗｏｒｄ２ｖｅｃなどの単語の分散表現ベクトルを用いてＣｏＭを計算する場合には、まず、コンテンツ関連テキスト全体の意味を表す分散表現ベクトルを求める。コンテンツ関連テキスト全体の意味を表す分散表現ベクトルは、コンテンツ関連テキストに出現する全ての単語の分散表現ベクトルの和を計算することで求める。そして、単語のＣｏＭは、その単語の分散表現ベクトルと、コンテンツ関連テキスト全体の意味を表す分散表現ベクトルとのコサイン類似度を計算することで求める。

具体的には、コンテンツ関連テキストＰ全体の意味を表す分散表現ベクトルＰｒｏｇＶｅｃ（Ｐ）は、以下の式（１３）に示すように、コンテンツ関連テキストＰに出現する単語集合Ｗ中の各単語ｗの分散表現ベクトルＷｏｒｄＶｅｃ（ｗ）の総和で表される。

単語ｗのＣｏＭの値は、その単語ｗの分散表現ベクトルＷｏｒｄＶｅｃ（ｗ）と、式（１３）により求めたＰｒｏｇＶｅｃ（Ｐ）とのコサイン類似度を以下の式（１４）により計算することで得られる。

式（８）により計算されたスコアは、検索キーｑと関連のある単語がコンテンツ関連テキストに多く表れるほど高くなり、検索キーｑとの関連が高いことを示す。そのため、例えば検索キーｑが「猫」であるとすると、「猫」に関連の深い単語がコンテンツ関連テキストに多く出現するときにはスコアが高くなる。一方、コンテンツ関連テキストに「猫」が出現しても、文全体としては猫に関連する言葉の数が少ない場合には、スコアは低くなる。
スコア計算部１６は、各コンテンツについて計算したスコアを選択部１７に出力する。

選択部１７は、各コンテンツをスコア計算部１６が計算したスコアを降順に並べ、スコアが高い順に高い順位を付与する。選択部１７は、所定の順位以上のコンテンツを選択する（ステップＳ１７０）。選択部１７は、選択したコンテンツのコンテンツＩＤと、そのコンテンツの順位及びスコアとを出力部１８に出力する。

出力部１８は、選択部１７が選択したコンテンツの情報を示す検索結果データを表示装置５に送信し、表示させる（ステップＳ１８０）。出力部１８は、検索結果データにコンテンツの順位を含めるが、含めなくともよい。コンテンツの順位は、コンテンツの情報の表示順によって示してもよい。また、検索結果データに設定するコンテンツの情報は、コンテンツＩＤや、コンテンツ情報記憶部１１３に記憶されているコンテンツ情報の全て又は一部の情報（例えば、タイトル、サブタイトル、番組概要、番組配信サイトのＵＲＬなど）とすることができる。コンテンツが動画や静止画を含む番組であれば、予めコンテンツ情報記憶部１１３に記憶しておいたサムネイル画像を検索結果データに含めてもよく、コンテンツが電子書籍やウェブページであれば、コンテンツデータの一部を検索結果データに含めてもよい。

さらに、検索結果データに、各コンテンツについて、式（１２）におけるｗｅｉｇｈｔ（ｗ）×ＣｏＭ（ｗ，Ｐ）が最も大きな単語ｗと、その単語ｗのｗｅｉｇｈｔ（ｗ）が得られたパスと、そのパスにおいてつながっている２単語間の関係の情報を含めてもよい。２単語間の関係は、概念マップから読み出される。これにより、「なぜその番組が検索結果として得られたのか」の理由を提示することができる。

図５は、検索結果データの表示例を示す図である。
図５（ａ）は、本実施形態によって、検索キー「猫」により検索を行った際の検索結果の表示例を示している。同図では、スコアが高い順に、コンテンツＩＤ、スコア、スコアに最も寄与した単語、その単語に至るパス及び番組概要が表示されている。「猫が出現する」、「猫−［上位下位］−ネコ」のように、本実施形態により検索を行った際に、その番組を検索結果として得るときに寄与した単語や、その単語へ至るパスを提示することで、よりユーザによって使いやすい検索システムとなると考えられる。

図５（ｂ）は、従来技術によって、検索キー「猫」により検索を行った際の検索結果の表示例を示している。同図では、猫という単語が出現するが、猫自体が情報の中心ではない番組が多く検索結果として得られている。一方、図５（ａ）では、「猫」という表記は出現しないが、猫が情報の中心となっている番組が上位に検索されている。これは、概念マップを用いた関連語集合の作成の結果、「猫」だけでなく「ネコ」のような異表記や、「イヌ」などのように関係の深そうな単語からもスコアが計算できたことによる。なお、本実施形態の情報検索装置１では検索結果として得られた「世界ネコ歩き」という番組は、検索キー「猫」という単語が出現していないため、従来技術ではスコアが計算できず、検索結果として得られない。

上述した実施形態によれば、情報検索装置１は、以下の（要素１）〜（要素４）の４つの要素によってコンテンツを順位付けし、高い順位のコンテンツを検索結果として出力する。

（要素１）検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離。
（要素２）検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数。
（要素３）パス中で経由する単語間の類似度。
（要素４）パス中で経由する単語につながる他の単語の数。

（要素１）は、式（３）における右辺の直積集合の部分に反映される。
図６は、検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離を模式的に示す図である。コンテンツマップは、検索キーから得られた関連語のつながりと、コンテンツ関連テキストに関連語が出現するコンテンツとを示す。関連語からコンテンツへの線がつながっている場合、その関連語がそのコンテンツのコンテンツ関連テキストに出現することを示す。つまり、コンテンツＡのコンテンツ関連テキストには関連語ｃ_０の「単語ｗ_ａ」が出現し、コンテンツＢのコンテンツ関連テキストには関連語ｃ_１の「単語ｗ_ｃ」及び「単語ｗ_ｅ」が出現し、コンテンツＣのコンテンツ関連テキストには関連語ｃ_１の「単語ｗ_ｆ」が出現する。この場合、コンテンツＢ、ＣよりもコンテンツＡのほうが、検索キーに含まれる単語との距離が近い。この距離が近いほど、スコアは大きくなる。

（要素２）は、式（１２）の右辺に反映される。
図７は、検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数を模式的に表す図である。同図では、コンテンツＢのコンテンツ関連テキストには関連語ｃ_１の「単語ｗ_ｃ」及び「単語ｗ_ｅ」が出現し、コンテンツＣのコンテンツ関連テキストには関連語ｃ_１の「単語ｗ_ｆ」が出現する。この場合、コンテンツＣよりもコンテンツＢのほうが、パスが多い。パスの本数が多いほど、スコアは大きくなる。

（要素３）は、式（４）におけるｓｉｍ（ｃ_ｉ，ｃ_ｉ＋１）の部分に反映される。
図８は、パス中で経由する単語間の類似度を模式的に表す図である。同図では、単語間の線の太さによって類似度を表している。コンテンツＡのコンテンツ関連テキストに含まれる単語ｗ_ｂは、１段上の単語ｗ_ａとの類似度が高く、コンテンツＢのコンテンツ関連テキストに含まれる単語ｗ_ｄは、１段上の単語ｗ_ｃとの類似度が低い。よって、パス中で経由する単語間の類似度は、コンテンツＢよりもコンテンツＡのほうが高い。この類似度が大きい程、スコアは大きくなる。

（要素４）は、式（４）におけるｌｏｇ（ｍａｘ（｜ｃ_ｉ｜，｜ｃ_ｉ＋１｜））の逆数の部分に反映される。
図９は、パス中で経由する単語につながる他の単語の数を模式的に表す図である。同図では、単語ｗ_ａ、単語ｗ_ｂにつながる単語の数は、単語ｗ_ｃ、単語ｗ_ｄにつながる単語の数よりも少ない。よって、コンテンツＡのコンテンツ関連テキストに至るパスは、コンテンツＢのコンテンツ関連テキストに至るパスよりも、パス中で経由している単語につながる他の単語の数が少ない。この数が少ないほど、スコアは大きくなる。

図１０及び図１１に、本実施形態の情報検索装置１及び従来技術による情報検索装置を用いた実験結果を示す。この実験では、ＮＨＫオンデマンドの２０１５年８月のデータ（５，０６６番組）を対象とした。被験者が検索キーとなる単語を入力し、本実施形態の情報検索装置１による番組検索と、ｏｋａｐｉ−ＢＭ２５を用いた従来技術の情報検索装置による番組検索とのそれぞれにより検索結果として得られた上位１０番組を、被験者にはいずれを用いたかわからないように提示した。被験者は、検索結果として得られた番組に、４段階の評価を与えた。評価値は、自分が検索したいものと関係がある場合は「４」、やや関係がある場合は「３」、あまり関係がない場合は「２」、関係ない場合は「１」とした。被験者６名により、１１１個の検索キーについて評価を行った。

図１０は、検索キーに対して検索結果として出力された番組数を示す。同図に示すように、本実施形態の情報検索装置１を用いた番組検索の方が、従来技術の情報検索装置を用いた番組検索よりも、検索結果として出力された番組数の平均が高かった。特に、本実施形態では、検索結果として出力された番組数が０である検索キーの数が、従来技術よりも減少している。
従来技術による番組検索では、検索結果として出力された番組数が０である１９個の検索キーについて、本実施形態の情報検索装置１が番組検索を行って得られた検索結果を評価した結果、最大の評価値が４である検索キーの個数が６、最大の評価値が３である検索キーの個数が３であった。このことから、本実施形態では、検索結果として得られる番組数が従来よりも増加し、従来技術では検索結果が０件の検索キーでも本実施形態では有用な検索結果が得られることがわかる。

図１１は、検索キーごとに検索結果として出力された番組に対する最大の評価値を示している。同図では、出力された番組数が０であるものは除いて評価した結果を示している。この結果から、本実施形態の情報検索装置１を用いた番組検索は、従来技術の情報検索装置を用いた番組検索よりも、検索結果として出力される番組数が多い上に、従来技術による番組検索と同様に高い評価値の検索結果が得られていることがわかる。

上述したように、情報検索装置１は、検索キーに含まれる単語を上位関連語として取得し、上位関連語に関連する単語及びその単語との類似度を概念マップから読み出し、さらに、読み出された単語に関連する単語及びその関連する単語との類似度を概念マップから読み出す処理を所定回繰り返す。情報検索装置１は、概念マップから読み出された単語である下位関連語毎に、上位関連語から下位関連語に至るまでに概念マップから読み出された単語を順に並べた単語の列であるパスを取得する。

情報検索装置１は、上位関連語から下位関連語に至るパスにおいて隣接する単語間の類似度と、そのパスに含まれる単語に関連する他の単語の数と、そのパスにおける上位関連語の単語の重要度とに基づいて、下位関連語毎に検索キーとの関連の高さを表す関連度を計算する。このとき、情報検索装置１は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、上位関連語の単語の重要度が高いほど、検索キーとの関連が高いことを示す値の関連度を計算する。そこで、情報検索装置１は、上位関連語から下位関連語に至る前記パスにおいて隣接する２つの単語の組毎に、２つの単語間の類似度が高いほど、又は、２つの単語のそれぞれに関連する他の単語の数が少ないほど、単語間の関連度が高いことを示す値となる単語間関連度を計算し、そのパスに含まれる全ての組の単語間関連度と上位関連語の重要度との乗算により、下位関連語の関連度を計算する。情報検索装置１は、同一の下位関連語に至るパスが複数ある場合、パス毎に計算した関連度のうち最も大きな関連度を選択する。また、情報検索装置１は、上位関連語それぞれの関連度を、その上位関連語の重要度に基づき計算する。

情報検索装置１は、コンテンツに関するテキストデータを単語に分割し、分割により得られた単語それぞれの重要度と、その単語の関連度とに基づき、テキストデータが検索キーに関連する程度を定量的に表すスコアを計算する。このとき、情報検索装置１は、分割により得られた単語のうち上位関連語又は下位関連語に合致する各単語について、単語の重要度と関連度とを乗算し、乗算した結果の合計を、分割により得られた単語の数により除算してスコアを計算する。情報検索装置１は、複数のコンテンツの中から、コンテンツに関するテキストデータそれぞれについて計算されたスコアに基づいて、検索キーに関連する程度が高いコンテンツを選択する。情報検索装置１は、選択したコンテンツの情報を出力する。

上述した実施形態によれば、情報検索装置１は、検索キーに含まれる単語と一致する単語がコンテンツ関連テキスト内に出現しない場合でも、検索キーに相応しいコンテンツを検索することが可能となる。
また、検索キーに含まれる単語がコンテンツ関連テキストに出現する場合であっても、検索キーに含まれる単語から得られた関連語が出現しない場合には相対的にスコアが低くなる。よって、情報検索装置１は、コンテンツ関連テキストに検索キーが出現する場合でも、コンテンツ関連テキストが検索キーと近い内容ではないときには、検索キーとの関連が高くないと判断することができる。換言すれば、関連語が多く出現するコンテンツのスコアが高くなるため、検索キーが主題に近いほどコンテンツの順位が高くなる。
また、情報検索装置１は、関連語集合の作成時に概念マップを活用することで、関連語集合に含まれる単語の探索スペースを狭くすることができるため、高速に検索を行うことができる。

なお、上述の情報検索装置１は、内部にコンピュータシステムを有している。そして、情報検索装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１情報検索装置
５表示装置
９ネットワーク
１１記憶部
１２検索キー受信部
１３上位関連語取得部
１４下位関連語取得部
１５関連度計算部
１６スコア計算部
１７選択部
１８出力部
１１１概念マップ記憶部
１１２単語重要度記憶部
１１３コンテンツ情報記憶部

Claims

検索キーに含まれる単語を上位関連語として取得する上位関連語取得部と、
関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得部と、
前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算部と、
コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算部により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算部と、
複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算部が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択部と、
を備えることを特徴とする情報検索装置。
前記関連度計算部は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、前記重要度が高いほど、前記検索キーとの関連が高いことを示す値の関連度を計算する、
ことを特徴とする請求項１に記載の情報検索装置。
前記関連度計算部は、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する２つの単語の組毎に、前記組を構成する単語間の類似度が高いほど、又は、前記組を構成する単語それぞれに関連する他の単語の数が少ないほど前記組を構成する単語間の関連度が高いことを示す値となる単語間関連度を計算し、前記パスに含まれる全ての前記組の前記単語間関連度と前記上位関連語の前記重要度との乗算により前記下位関連語の関連度を計算する、
ことを特徴とする請求項１又は請求項２に記載の情報検索装置。
前記関連度計算部は、同一の下位関連語に至るパスが複数ある場合、前記パス毎に計算した関連度のうち最も大きな関連度を選択する、
ことを特徴とする請求項１から請求項３のいずれか一項に記載の情報検索装置。
前記スコア計算部は、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語のうち前記上位関連語又は前記下位関連語に合致する各単語について、前記単語の前記重要度と前記単語の前記関連度とを乗算し、乗算した結果の合計を、分割により得られた前記単語の数により除算して前記スコアを計算する、
ことを特徴とする請求項１から請求項４のいずれか一項に記載の情報検索装置。
コンピュータを、
検索キーに含まれる単語を上位関連語として取得する上位関連語取得手段と、
関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得手段と、
前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算手段と、
コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算手段により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算手段と、
複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算手段が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択手段と、
を有する情報検索装置として動作させるプログラム。