JP2017134675A - 情報検索装置及びプログラム - Google Patents

情報検索装置及びプログラム Download PDF

Info

Publication number
JP2017134675A
JP2017134675A JP2016014675A JP2016014675A JP2017134675A JP 2017134675 A JP2017134675 A JP 2017134675A JP 2016014675 A JP2016014675 A JP 2016014675A JP 2016014675 A JP2016014675 A JP 2016014675A JP 2017134675 A JP2017134675 A JP 2017134675A
Authority
JP
Japan
Prior art keywords
word
words
content
relevance
related word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016014675A
Other languages
English (en)
Other versions
JP6639040B2 (ja
Inventor
太郎 宮▲崎▼
Taro Miyazaki
太郎 宮▲崎▼
山田 一郎
Ichiro Yamada
一郎 山田
菊佳 望月
Kikuka Mochizuki
菊佳 望月
後藤 淳
Atsushi Goto
淳 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016014675A priority Critical patent/JP6639040B2/ja
Publication of JP2017134675A publication Critical patent/JP2017134675A/ja
Application granted granted Critical
Publication of JP6639040B2 publication Critical patent/JP6639040B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】検索キーと関連するコンテンツを精度よく検索する。【解決手段】上位関連語取得部は、検索キーに含まれる単語を上位関連語として取得する。下位関連語取得部は、上位関連語に関連する単語及びその単語との類似度を概念マップから読み出し、さらに、読み出された単語に関連する単語及びその単語との類似度を概念マップから読み出す処理を所定回繰り返して下位関連語を得ると、上位関連語から下位関連語に至るパスを取得する。関連度計算部は、下位関連語それぞれの関連度を、パス内で隣接する単語間の類似度と、パス内の単語に関連する他の単語の数と、パスにおける上位関連語の単語の重要度とに基づいて計算し、上位関連語それぞれの関連度を単語の重要度に基づき計算する。スコア計算部は、コンテンツに関するテキストデータに含まれる各単語の重要度及び関連度に基づきスコアを計算する。選択部は、スコアに基づいてコンテンツを選択する。【選択図】図1

Description

本発明は、情報検索装置及びプログラムに関する。
インターネットを介して番組を配信する動画配信サービスでは、(1)画面上の目につきやすい箇所に提示されたおすすめへのリンク、(2)ユーザによる番組検索、(3)システムからの番組推薦、の主に3つの方法によって、ユーザへ番組の情報を提示している。この中でも、ユーザが自発的に番組を検索する(2)の利便性は、サービス全体の使いやすさにも直結するため、重要である。
上記のような動画配信サービスには、ユーザによる番組検索の機能にokapi−BM25を利用しているものがある。okapi−BM25は、対象文書内における単語の出現頻度などを用いて、その単語の文章への出現しやすさを考慮した重みを設定し、その重みを基に検索を行う検索技術である(例えば、非特許文献1参照)。
また、番組検索の機能に用いられる他の検索技術には、協調フィルタリングがある(例えば、非特許文献2参照)。協調フィルタリングでは、多くのユーザによる商品へのレーティング情報を基に、個人の嗜好に合わせた推薦を行う。
S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, M. Gatford, "Okapi at TREC-3," NIST SPECIAL PUBLICATION, 1995, p.109-126 Yehuda Koren, Robert Bell, Chris Volinsky, "Matrix factorization techniques for recommender systems," Computer, IEEE Computer Society, 2009, Vol. 42 Issue 8, p.30-37
非特許文献1の技術を用いた番組検索では、あるキーワードにより検索を行っても、検索結果として1件も番組が得られない場合がある。また、「風邪」というキーワードにより番組検索を行った場合、ドラマの主人公が風邪をひいた回の番組などが検索結果として得られることがある。これは、ユーザにより入力されたキーワードが番組概要文に含まれている場合に、番組概要文におけるそのキーワードの重要度に応じたスコアに基づき検索を行っているためである。非特許文献1の技術では、検索対象のデータの数が多い場合に非常に有効である。しかし、データ数が少ない中からの検索では、上記のように検索キーそのものが検索対象の文章中に出現しないために一件も検索結果が得られなかったり、文章中に検索キーが出現するものの番組の主題としては重要ではない場合でも、上位の検索結果として出力されたりすることがある。その結果、検索機能自体が使いにくいものとなってしまう可能性がある。また、ユーザが番組に対するレーティングを付けるサービスを提供していない場合、非特許文献2の技術を利用できない。
本発明は、このような事情を考慮してなされたもので、検索キーと関連するコンテンツを精度よく検索することができる情報検索装置及びプログラムを提供する。
本発明の一態様は、検索キーに含まれる単語を上位関連語として取得する上位関連語取得部と、関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得部と、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算部と、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算部により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算部と、複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算部が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択部と、を備えることを特徴とする情報検索装置である。
この態様によれば、情報検索装置は、ユーザが入力した検索キーに含まれる単語を上位関連語として取得する。情報検索装置は、上位関連語のそれぞれについて、関連する単語及びその関連する単語との類似度を概念マップから読み出し、さらに、その読み出された単語のそれぞれについて、関連する単語及びその関連する単語との類似度を概念マップから読み出す処理を所定回繰り返す。情報検索装置は、概念マップから読み出された単語である下位関連語のそれぞれについて、上位関連語からその下位関連語に至る単語を順に並べたパスを取得する。情報検索装置は、下位関連語のそれぞれについて、下位関連語が検索キーと関連する高さを表す関連度を、その下位関連語が含まれるパスにおいて隣接する単語間の類似度と、そのパスに含まれる単語に関連する他の単語の数と、そのパスの上位関連語の単語の重要度とに基づいて計算する。また、情報検索装置は、上位関連語それぞれの関連度を、その上位関連語の重要度に基づき計算する。情報検索装置は、コンテンツに関するテキストデータに含まれる単語それぞれの重要度と、その単語の関連度とに基づき、テキストデータが検索キーに関連する程度を定量的に表すスコアを計算する。情報検索装置は、コンテンツに関するテキストデータそれぞれのスコアに基づいて、複数のコンテンツの中から検索キーに関連する程度が高いコンテンツを選択する。
これにより、情報検索装置は、コンテンツに関するテキストデータに検索キーに含まれる単語が出現しなくても、検索キーと関連するコンテンツを検索結果として得ることができる。
本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、前記重要度が高いほど、前記検索キーとの関連が高いことを示す値の関連度を計算する、ことを特徴とする。
この態様によれば、情報検索装置は、下位関連語に至るパスにおいて隣接する単語間の類似度が高いほど、パスに含まれる単語に関連する他の単語の数が少ないほど、又は、パスにおける上位関連語の重要度が高いほど、検索キーとの関連が高いことを示す値の関連度を計算する。
これにより、情報検索装置は、検索キーから得られた関連語に適切な値の関連度を与え、検索キーとの関連が高いコンテンツを精度よく検索することができる。
本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する2つの単語の組毎に、前記組を構成する単語間の類似度が高いほど、又は、前記組を構成する単語それぞれに関連する他の単語の数が少ないほど前記組を構成する単語間の関連度が高いことを示す値となる単語間関連度を計算し、前記パスに含まれる全ての前記組の前記単語間関連度と前記上位関連語の前記重要度との乗算により前記下位関連語の関連度を計算する、ことを特徴とする。
この態様によれば、情報検索装置は、上位関連語から下位関連語に至るパスにおいて隣接する2つの単語の組毎に、それら単語間の類似度が高いほど、又は、それら単語それぞれに関連する他の単語の数が少ないほど、高い関連度を示す単語間関連度を計算する。情報検索装置は、下位関連語の関連度を、下位関連語に至るパスに含まれる全ての単語の組の単語間関連度と、そのパスにおける上位関連語の単語の重要度との乗算により計算する、ことを特徴とする。
これにより、情報検索装置は、検索キーから得られた下位関連語に適切な値の関連度を与え、検索キーと関連が高いコンテンツを精度よく検索することができる。
本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、同一の下位関連語に至るパスが複数ある場合、前記パス毎に計算した関連度のうち最も大きな関連度を選択する、ことを特徴とする。
この態様によれば、情報検索装置は、同一の下位関連語に至るパスが複数ある場合、各パスについて計算した関連度のうち、最も大きな関連度をその下位関連語の関連度として選択する。
これにより、情報検索装置は、検索キーから得られた下位関連語に適切な値の関連度を与え、検索キーと関連が高いコンテンツを精度よく検索することができる。
本発明の一態様は、上述した情報検索装置であって、前記スコア計算部は、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語のうち前記上位関連語又は前記下位関連語に合致する各単語について、前記単語の前記重要度と前記単語の前記関連度とを乗算し、乗算した結果の合計を、分割により得られた前記単語の数により除算して前記スコアを計算する、ことを特徴とする。
この態様によれば、情報検索装置は、コンテンツに関するテキストデータに含まれる上位関連語又は下位関連語のそれぞれについて単語の重要度と関連度とを乗算し、乗算結果の合計を、コンテンツに関するテキストデータに含まれる単語の総数により除算して、スコアを計算する。
これにより、情報検索装置は、コンテンツと検索キーの関連の高さを精度よく算出することができる。また、情報検索装置は、検索キーから得られた単語と、その単語を用いて概念マップを辿って得た単語とが、コンテンツに関するテキストデータに出現するかを判断するため、検索に用いる単語の数が少なく、高速な検索を行うことができる。
本発明の一態様は、コンピュータを、検索キーに含まれる単語を上位関連語として取得する上位関連語取得手段と、関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得手段と、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算手段と、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算手段により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算手段と、複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算手段が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択手段と、を有する情報検索装置として動作させるプログラムである。
本発明によれば、検索キーと関連するコンテンツを精度よく検索することができる。
本発明の一実施形態による情報検索装置の機能ブロック図である。 同実施形態による概念マップの例を示す図である。 同実施形態による情報検索装置の動作を示すフロー図である。 同実施形態による情報検索装置が検索キーから得た関連語の関係を示す図である。 同実施形態による検索結果データの表示例を示す図である。 同実施形態による検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離を模式的に示す図である。 同実施形態による検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数を模式的に表す図である。 同実施形態によるパス中で経由する単語間の類似度を模式的に表す図である。 同実施形態によるパス中で経由する単語につながる他の単語の数を模式的に表す図である。 同実施形態による情報検索装置及び従来技術による情報検索装置を用いた実験結果を示す図である。 同実施形態による情報検索装置及び従来技術による情報検索装置を用いた実験結果を示す図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による情報検索装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。情報検索装置1は、1台以上のコンピュータ装置により実現することができる。情報検索装置1を複数台のコンピュータ装置により実現する場合、いずれのコンピュータ装置によりいずれの機能部を実現するかは任意とすることができる。また、一つの機能部を複数台のコンピュータ装置により実現してもよい。
情報検索装置1は、ネットワーク9を介して表示装置5と接続される。ネットワーク9は、インターネットなどの公衆網でもよく、LAN(Local Area Network)やVLAN(仮想LAN)などの私設網でもよい。表示装置5は、例えば、ユーザのパーソナルコンピュータ、スマートフォン、タブレット端末、テレビジョン受信機などである。
情報検索装置1は、記憶部11と、検索キー受信部12と、上位関連語取得部13と、下位関連語取得部14と、関連度計算部15と、スコア計算部16と、選択部17と、出力部18とを備えて構成される。
記憶部11は、概念マップ記憶部111と、単語重要度記憶部112と、コンテンツ情報記憶部113とを備える。なお、概念マップ記憶部111、単語重要度記憶部112及びコンテンツ情報記憶部113のうち一以上が、情報検索装置1とネットワーク9を介して接続される外部のデータベース装置により実現されてもよい。
概念マップ記憶部111は、概念マップを記憶する。概念マップは、関連する単語と、関連する単語間の類似度とを示すデータである。以下では、ある単語に関連するとして概念マップに登録されている他の単語を、ある単語につながる単語とも記載する。
単語重要度記憶部112は、予め計算しておいた各単語の重要度を記憶する。単語の重要度には、大規模なテキストデータから作成したIDF(Inversed Document Frequency)などを用いる。IDFは、以下の式(1)により計算される。
Figure 2017134675
式(1)において、IDF(w)は単語wのIDF、|{d:d∈w}|は単語wが出現する文書数、|D|はテキストデータ全体の文書数である。式(1)によれば、いろいろな文章に出現する単語の重要度は、低い値となる。
コンテンツ情報記憶部113は、コンテンツに関する情報を記憶する。コンテンツは、例えば、動画、静止画、音声、書籍、ウェブページなどであるが、これらに限定されない。以下では、主に、コンテンツが番組(動画)である場合を例として説明する。
コンテンツが番組である場合、コンテンツ情報記憶部113は、コンテンツIDに対応付けて、コンテンツ情報を記憶する。コンテンツIDは、各コンテンツを一意に特定する。コンテンツ情報は、コンテンツに関する情報を記述したテキストデータを含む。例えば、コンテンツ情報は、番組のタイトル、サブタイトル、番組情報、番組配信サイトのURL(Universal Resource Locator)などを含む。番組情報は、例えば、番組のあらすじや番組内容を示す文章である番組概要、番組の字幕、番組の原稿などを示すテキストデータである。なお、コンテンツ情報記憶部113は、コンテンツ本体のデジタルデータであるコンテンツデータを記憶してもよい。
検索キー受信部12は、表示装置5からユーザが入力した検索キーを受信する。なお、検索キー受信部12は、情報検索装置1が備える図示しないキーボードなどの入力装置によりユーザが入力した検索キーを受信してもよい。検索キーは、1以上の単語であってもよく、文章であってもよい。
上位関連語取得部13は、検索キーに含まれる単語を上位関連語として取得する。
下位関連語取得部14は、上位関連語それぞれについて、関連する単語、及び、その関連する単語との類似度を概念マップから読み出す。さらに、下位関連語取得部14は、読み出された単語それぞれについて、関連する単語、及び、その関連する単語との類似度を概念マップから読み出す処理をn回(nは0以上の整数)繰り返す。下位関連語取得部14は、概念マップから読み出された単語を下位関連語とする。以下では、上位関連語及び下位関連語を総称して関連語と記載する。下位関連語取得部14は、上位関連語から下位関連語に至るまでの関連語を順に並べた単語の列であるパスを取得する。
関連度計算部15は、各関連語の関連度を計算する。関連度とは、検索キーと関連語の関連の高さを定量的に表す値である。関連度計算部15は、下位関連語の関連度を、上位関連語からその下位関連語に至るパスにおいて隣接する関連語間の類似度と、そのパスに含まれる関連語につながる単語の数と、そのパスにおける上位関連語の単語の重要度とに基づいて計算する。さらに、関連度計算部15は、上位関連語の関連度を、その上位関連語の単語の重要度に基づき計算する。本実施形態では、関連度計算部15は、上位関連語の関連度を、その上位関連語の単語の重要度と同じ値とする。
スコア計算部16は、複数のコンテンツそれぞれのコンテンツ関連テキストをコンテンツ情報記憶部113から読み出す。コンテンツ関連テキストは、コンテンツに関するテキストデータであり、コンテンツ情報に含まれる一部又は全ての情報でもよく、コンテンツデータに含まれる一部又は全てのテキストデータでもよい。例えば、コンテンツが番組の場合、コンテンツ関連テキストとして番組概要、番組の字幕、又は、番組の原稿を用いる。また、コンテンツがウェブページである場合、コンテンツ関連テキストをウェブページに含まれるテキストデータとしてもよい。コンテンツが電子書籍であれば、コンテンツ情報が示す書籍のあらすじのテキストデータをコンテンツ関連テキストとしてもよく、電子書籍のコンテンツデータに含まれるテキストデータをコンテンツ関連テキストとしてもよい。スコア計算部16は、コンテンツ関連テキストを単語に分割する。スコア計算部16は、コンテンツ毎に、コンテンツ関連テキストを分割して得られた単語それぞれの重要度と、関連度計算部15により計算された各単語(関連語)の関連度とに基づきスコアを計算する。このスコアは、コンテンツ関連テキストが検索キーに関連する程度を定量的に表す値である。
選択部17は、複数のコンテンツそれぞれのコンテンツ関連テキストについてスコア計算部16が計算したスコアに基づき、コンテンツに順位を付与する。選択部17は、検索キーに関連する程度が高い所定以上の順位のコンテンツを選択する。
出力部18は、選択部17が選択したコンテンツの情報を示す検索結果データを表示装置5に送信し、表示させる。出力部18は、検索結果データを、情報検索装置1が備える図示しないディスプレイに表示してもよく、情報検索装置1と接続される図示しないプリンタにより印刷してもよい。
図2は、概念マップの例を示す図である。概念マップは、例えば、ALAGINフォーラム(http://alagin.jp)が公開している「意味的関係抽出サービス」などを利用して作成可能である。同図に示すように、概念マップは、各単語とつながりがある他の単語のリストと、つながりがある2つの単語間にどのような関係があるかと、つながりがあるそれら2つの単語間の類似度とを示す。類似度は、一般的に用いられる文脈類似度や、単語の分散表現を用いたコサイン類似度などである。
例えば、単語Aと単語Bとの間の文脈類似度を求める場合、学習用のデータを用いて各単語が出現する文脈について確率分布を求めておき、単語Aと単語Bとの確率分布の異なり具合をJensen-Shannon Divergenceにより計算した結果をこれら単語間の類似度とする。この文脈類似度は、数値が0〜1の範囲を取り、数値が小さいほど類似した単語であることを表す。そこで、単語間の類似度として、1からJensen-Shannon Divergenceによる文脈類似度を減算した値を用いてもよい。文脈類似度の詳細については、例えば、文献「風間 淳一、Stijn De Saeger、鳥澤 健太郎、村田 真樹、”係り受けの確率的クラスタリングを用いた大規模類似度リストの作成”、言語処理学会第15回年次大会、2009年、p.84−87」に記載されている。
また、単語の分散表現の生成の技術として、例えば、word2vec(例えば、「https://code.google.com/p/word2vec/」参照)などを用いることができる。word2vecにより生成される単語ベクトルは、大規模な学習データを用いて学習される分散表現ベクトルである。この分散表現ベクトルは、共起する単語をそれぞれ入力及び出力として学習したニューラルネットワークの中間層であり、例えば、200〜300次元で表される。このベクトルの各次元は、カテゴリに相当したものを表し、例えば、「音楽関連の単語はベクトルの1つめの要素が大きくなりやすい」などの傾向が得られる。そのため、単語間の類似度は、それら単語の分散表現ベクトルのコサイン類似度などにより高い精度で求めることができる。
図3は、情報検索装置1の動作を示すフロー図である。以下では、コンテンツが番組であり、コンテンツ関連テキストが番組概要である場合を例に説明する。
情報検索装置1の検索キー受信部12は、ユーザが入力した検索キーqを表示装置5から受信する(ステップS110)。検索キーqは、1以上の単語を含む。検索キーqは、文章であってもよい。なお、ある番組と類似の他の番組を検索する場合、検索キー受信部12は、表示装置5からコンテンツIDを受信してもよい。検索キー受信部12は、受信したコンテンツIDによりコンテンツ情報記憶部113に記憶されているコンテンツ情報を特定し、特定したコンテンツ情報から番組概要を読み出して検索キーqとする。また、ユーザが番組概要を入力してもよい。
上位関連語取得部13は、検索キーqに含まれる単語を取得する。具体的には、上位関連語取得部13は、概念マップに含まれる語彙を辞書として与えた場合と、概念マップに含まれる語彙を辞書として与えない場合との2種類の形態素解析を行う。形態素解析には、例えば、Mecab(例えば、「https://code.google.com/p/mecab/」参照)などを用いることができる。上位関連語取得部13は、それぞれの形態素解析により得られた単語の重複をなくした後、それら全ての単語を上位関連語cとする(ステップS120)。
検索キーqが「集団的自衛権」のとき、概念マップに含まれる語彙を辞書として与えた場合の形態素解析結果は、「集団的自衛権」の1単語となる。一方、概念マップに含まれる語彙を辞書として与えなかった場合の形態素解析結果は、「集団」、「的」、「自衛」、「権」の4単語である。従って、検索キーq「集団的自衛権」からは5つの上位関連語cからなる上位関連語集合{集団的自衛権,集団,的,自衛,権}が得られる。「集団的自衛権」は、本来独立した単語が二つ以上結合して新たに一つの単語となった複合語であり、以降「単語」と記載した場合には複合語も含める。
上位関連語取得部13は、上位関連語集合に含まれる各上位関連語cの単語の重要度を単語重要度記憶部112から読み出す(ステップS130)。上位関連語取得部13は、上位関連語集合に、上位関連語cの単語の重要度の情報を付加し、下位関連語取得部14に出力する。
下位関連語取得部14は、概念マップをたどって、上位関連語集合に含まれる上位関連語に関連のある単語を見つけ、下位関連語cとする(ステップS140)。kは、1以上の整数であり、概念マップを辿った段数を示す。何段階まで辿るかは予め情報検索装置1に設定しておく。多くの段数を辿りすぎても精度が低下し、計算量も多くなることから、最大の段数を3程度に設定するとよい精度になることが分かっている。以下では、3段階まで辿る例を示す。なお、上位関連語c又は下位関連語cを区別しないときには、関連語c又は関連語c(iは0以上の整数)と記載する。
図4は、情報検索装置1が検索キーから得た関連語の関係を示す図である。上位関連語集合に含まれる上位関連語「集団的自衛権」から辿る場合、下位関連語取得部14は、図2に示す概念マップから、1段階目で「集団的自衛権」と関連する単語「自衛権」を得る。下位関連語取得部14は、これを、下位関連語cとする。下位関連語取得部14は、2段階目では、概念マップから、下位関連語c「自衛権」と関連する単語「自衛」、「権利」を得る。下位関連語取得部14は、これらの単語を下位関連語cとする。さらに、下位関連語取得部14は、3段階目では、概念マップから、下位関連語c「自衛」と関連する単語、及び、下位関連語c「権利」と関連する単語を読み出し、下位関連語cとする。この際、「集団的自衛権」−「自衛権」−「集団的自衛権」のように、ひとつ前の単語に戻ってしまう場合があるが、そのような単語は除外する。関連語cにつながる下位関連語ci+1を、下位関連語cの1段下の下位関連語ci+1と記載する。
上記により、下位関連語取得部14は、上位関連語c「集団的自衛権」から、上位関連語及び下位関連語を要素とする関連語集合{集団的自衛権(c)、自衛権(c)、自衛(c)、権利(c)、アクセス権(c)、パブリシティ権(c)、…}を得る。また、下位関連語取得部14は、下位関連語cのそれぞれについて、上位関連語cからその下位関連語cに至るまでにたどった関連語を順に並べたパスの情報を付加する。例えば、下位関連語c「権利」であれば、パスは「集団的自衛権(c)−自衛権(c)−権利(c)」である。
下位関連語取得部14は、他の上位関連語cである「集団」、「的」、「自衛」、「権」についても、上記と同様に関連語集合を得て、各下位関連語のパスの情報を付加する。下位関連語取得部14は、上位関連語毎に関連語集合を生成するため、上位関連語cが異なる複数のパスに同じ下位関連語が出現することもあり、その場合、各パスにおいて、その下位関連語が出現する段数が異なることもある。下位関連語取得部14は、各上位関連語cの関連語集合を関連度計算部15に出力する。
図3において、関連度計算部15は、ステップS140において得られた関連語集合の中の全ての関連語cについて、関連語cと検索キーqとの間の関連度weight(c)を計算する(ステップS150)。関連語cが上位関連語cである場合、関連度weight(c)を、その上位関連語cのIDF値を用いた単語の重要度IDF(c)とする。一方、関連語cが下位関連語である場合、関連度計算部15は、関連度weight(c)を、以下の式(2)〜式(4)により計算する。
Figure 2017134675
Figure 2017134675
Figure 2017134675
なお、式(2)において、max(weightpath(q,c))は、関連語cが出現する各パスについて計算したweightpath(q,c)のうち最大値を示す。
式(3)において、weightpath(q,c)は、あるパスにおける関連語cと検索キーqの関連度を示し、そのパスにおける関連語cはn段目に出現する。IDF(c)は、関連語cが出現するパスにおける上位関連語cのIDF値を用いた単語の重要度である。
式(4)において、weightedge(c,ci+1)は、あるパスにおける関連語cと、その関連語cの一段下の関連語ci+1との単語間関連度である。sim(c,ci+1)は、概念マップに登録されている関連語cと関連語ci+1との類似度を示す。|c|は、関連語cにつながる単語の数、|ci+1|は、関連語ci+1につながる単語の数を示す。max(|c|,|ci+1|)は、|c|と|ci+1|のうちのいずれか大きいほうの値を示す。
なお、weightedgeの三乗根の中の分数は、|c|及び|ci+1|が両方とも1の場合に0となる。そのような場合には、概念マップを辿っても他の単語につながる可能性がなく、有用ではないために、weightedgeの値を0とする。
図4を参照して関連度の計算の例を説明する。
同図では、ユーザにより入力された検索キーqが「集団的自衛権」であり、関連語集合中の関連語c「権利」にたどり着く場合の例を示している。検索キーq「集団的自衛権」の上位関連語から下位関連語「権利」に辿り着くパスは、パスp1「集団的自衛権(c)−自衛権(c)−権利(c)」及びパスp2「自衛(c)−自衛権(c)−権利(c)」の2つである。
まず、パスp1のときの関連語c「権利」の関連度weightpath(q,c)の計算を行う。図2に示す概念マップから、「集団的自衛権」と「自衛権」の類似度は0.6826、「自衛権」と「権利」の間の類似度は0.46726である。また、概念マップにおいて「集団的自衛権」につながる単語の数は1、「自衛権」につながる単語の数は2、「権利」につながる単語の数は119である。よって、関連語c「集団的自衛権」と関連語c「自衛権」の単語間類似度weightedge(集団的自衛権,自衛権)、及び、関連語c「自衛権」と関連語c「権利」の単語間類似度weightedge(自衛権,権利)はそれぞれ、以下の式(5)、式(6)のように計算される。
Figure 2017134675
Figure 2017134675
また、IDF(集団的自衛権)は14.4216である。よって、パスp1の関連語c「権利」の関連度weightpath(集団的自衛権,権利)は、以下の式(7)のように計算される。
Figure 2017134675
同様に、パスp2のときの関連語c「権利」の関連度weightpath(q,c)の計算を行う。図2に示す概念マップから、「自衛」と「自衛権」の類似度は0.646726、「自衛権」と「権利」の間の類似度は0.46726である。また、概念マップにおいて「自衛」につながる単語の数は1、「自衛権」につながる単語の数は2、「権利」につながる単語の数は119である。よって、関連語c「自衛」と関連語c「自衛権」の単語間類似度weightedge(自衛,自衛権)、及び、関連語c「自衛権」と関連語c「権利」の単語間類似度weightedge(自衛権,権利)はそれぞれ、以下の式(8)、式(9)のように計算される。
Figure 2017134675
Figure 2017134675
IDF(自衛)は7.3315である。よって、パスp2の関連語c「権利」の関連度weightpath(自衛,権利)は、以下の式(10)のように計算される。
Figure 2017134675
よって、最終的に得られる関連語c「権利」の関連度weight(権利)は、以下の式(11)のように計算される。
Figure 2017134675
関連度weight(c)は、基本的に、関連語cまでに辿る段数が少ないほど、関連語cに至るパスにおいて現れる関連語間の類似度が高いほど、関連語cに至るパスに表れる関連語につながる単語数が少ないほど値が大きくなり、検索キーqとの関連が高いことを示す。関連度計算部15は、上記のように検索キーから得られた関連語集合中の全ての関連語について関連度を計算し終えると、各関連語の関連度をスコア計算部16に出力する。
スコア計算部16は、検索対象となる複数のコンテンツそれぞれのコンテンツ関連テキストをコンテンツ情報記憶部113から読み出し、検索キーqと関連する程度を表すスコアを計算する(ステップS160)。ここでは、スコア計算部16は、コンテンツ関連テキストとして番組概要を読み出す。スコア計算部16は、各コンテンツのコンテンツ関連テキストそれぞれについて、以下のようにスコアを計算する。
スコア計算部16は、検索キーから単語を取得したときと同様の形態素解析により、コンテンツ関連テキストに含まれる単語を取得する。スコア計算部16は、取得した各単語について、単語の重要度である重みを取得する。この重みには、okapi−BM25や、特開2015−132899号公報に開示されているCoMの値を用いることができる。CoMは、文中に関連する単語(類似度が高い単語)が多く出現する単語ほど、その文中で重要な単語である、という考え方に基づいた重み付け手法である。具体的には、文中に出現する各単語について、その文中の他の単語との間の類似度を計算し、類似度の平均値をCoMの値とする。スコア計算部16は、検索キーqと番組Pの間のスコアscore(q,P)を、以下の式(12)により計算する。
Figure 2017134675
CoM(P,w)は、ある番組Pのコンテンツ関連テキスト(番組概要)の文中に出現する単語wのCoMの値、Wは、番組Pのコンテンツ関連テキストに出現する全ての単語wの集合、|W|は、番組Pのコンテンツ関連テキストに出現する単語wの総数である。weight(w)は、式(2)、式(3)及び式(4)により求められた、検索キーqと単語wの間の関連度weight(w)である。なお、関連語cとして得られなかった単語wの関連度weight(w)=0である。
CoMの計算方法の例について説明する。特開2015−132899号公報に開示されているように、CoMは文脈類似度を用いて計算することができる。また、CoMは、上述したword2vecなどの単語の分散表現ベクトルを用いて計算することができる。上述したword2vecなどの単語の分散表現ベクトルを用いてCoMを計算する場合には、まず、コンテンツ関連テキスト全体の意味を表す分散表現ベクトルを求める。コンテンツ関連テキスト全体の意味を表す分散表現ベクトルは、コンテンツ関連テキストに出現する全ての単語の分散表現ベクトルの和を計算することで求める。そして、単語のCoMは、その単語の分散表現ベクトルと、コンテンツ関連テキスト全体の意味を表す分散表現ベクトルとのコサイン類似度を計算することで求める。
具体的には、コンテンツ関連テキストP全体の意味を表す分散表現ベクトルProgVec(P)は、以下の式(13)に示すように、コンテンツ関連テキストPに出現する単語集合W中の各単語wの分散表現ベクトルWordVec(w)の総和で表される。
Figure 2017134675
単語wのCoMの値は、その単語wの分散表現ベクトルWordVec(w)と、式(13)により求めたProgVec(P)とのコサイン類似度を以下の式(14)により計算することで得られる。
Figure 2017134675
式(8)により計算されたスコアは、検索キーqと関連のある単語がコンテンツ関連テキストに多く表れるほど高くなり、検索キーqとの関連が高いことを示す。そのため、例えば検索キーqが「猫」であるとすると、「猫」に関連の深い単語がコンテンツ関連テキストに多く出現するときにはスコアが高くなる。一方、コンテンツ関連テキストに「猫」が出現しても、文全体としては猫に関連する言葉の数が少ない場合には、スコアは低くなる。
スコア計算部16は、各コンテンツについて計算したスコアを選択部17に出力する。
選択部17は、各コンテンツをスコア計算部16が計算したスコアを降順に並べ、スコアが高い順に高い順位を付与する。選択部17は、所定の順位以上のコンテンツを選択する(ステップS170)。選択部17は、選択したコンテンツのコンテンツIDと、そのコンテンツの順位及びスコアとを出力部18に出力する。
出力部18は、選択部17が選択したコンテンツの情報を示す検索結果データを表示装置5に送信し、表示させる(ステップS180)。出力部18は、検索結果データにコンテンツの順位を含めるが、含めなくともよい。コンテンツの順位は、コンテンツの情報の表示順によって示してもよい。また、検索結果データに設定するコンテンツの情報は、コンテンツIDや、コンテンツ情報記憶部113に記憶されているコンテンツ情報の全て又は一部の情報(例えば、タイトル、サブタイトル、番組概要、番組配信サイトのURLなど)とすることができる。コンテンツが動画や静止画を含む番組であれば、予めコンテンツ情報記憶部113に記憶しておいたサムネイル画像を検索結果データに含めてもよく、コンテンツが電子書籍やウェブページであれば、コンテンツデータの一部を検索結果データに含めてもよい。
さらに、検索結果データに、各コンテンツについて、式(12)におけるweight(w)×CoM(w,P)が最も大きな単語wと、その単語wのweight(w)が得られたパスと、そのパスにおいてつながっている2単語間の関係の情報を含めてもよい。2単語間の関係は、概念マップから読み出される。これにより、「なぜその番組が検索結果として得られたのか」の理由を提示することができる。
図5は、検索結果データの表示例を示す図である。
図5(a)は、本実施形態によって、検索キー「猫」により検索を行った際の検索結果の表示例を示している。同図では、スコアが高い順に、コンテンツID、スコア、スコアに最も寄与した単語、その単語に至るパス及び番組概要が表示されている。「猫が出現する」、「猫−[上位下位]−ネコ」のように、本実施形態により検索を行った際に、その番組を検索結果として得るときに寄与した単語や、その単語へ至るパスを提示することで、よりユーザによって使いやすい検索システムとなると考えられる。
図5(b)は、従来技術によって、検索キー「猫」により検索を行った際の検索結果の表示例を示している。同図では、猫という単語が出現するが、猫自体が情報の中心ではない番組が多く検索結果として得られている。一方、図5(a)では、「猫」という表記は出現しないが、猫が情報の中心となっている番組が上位に検索されている。これは、概念マップを用いた関連語集合の作成の結果、「猫」だけでなく「ネコ」のような異表記や、「イヌ」などのように関係の深そうな単語からもスコアが計算できたことによる。なお、本実施形態の情報検索装置1では検索結果として得られた「世界ネコ歩き」という番組は、検索キー「猫」という単語が出現していないため、従来技術ではスコアが計算できず、検索結果として得られない。
上述した実施形態によれば、情報検索装置1は、以下の(要素1)〜(要素4)の4つの要素によってコンテンツを順位付けし、高い順位のコンテンツを検索結果として出力する。
(要素1)検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離。
(要素2)検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数。
(要素3)パス中で経由する単語間の類似度。
(要素4)パス中で経由する単語につながる他の単語の数。
(要素1)は、式(3)における右辺の直積集合の部分に反映される。
図6は、検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離を模式的に示す図である。コンテンツマップは、検索キーから得られた関連語のつながりと、コンテンツ関連テキストに関連語が出現するコンテンツとを示す。関連語からコンテンツへの線がつながっている場合、その関連語がそのコンテンツのコンテンツ関連テキストに出現することを示す。つまり、コンテンツAのコンテンツ関連テキストには関連語cの「単語w」が出現し、コンテンツBのコンテンツ関連テキストには関連語cの「単語w」及び「単語w」が出現し、コンテンツCのコンテンツ関連テキストには関連語cの「単語w」が出現する。この場合、コンテンツB、CよりもコンテンツAのほうが、検索キーに含まれる単語との距離が近い。この距離が近いほど、スコアは大きくなる。
(要素2)は、式(12)の右辺に反映される。
図7は、検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数を模式的に表す図である。同図では、コンテンツBのコンテンツ関連テキストには関連語cの「単語w」及び「単語w」が出現し、コンテンツCのコンテンツ関連テキストには関連語cの「単語w」が出現する。この場合、コンテンツCよりもコンテンツBのほうが、パスが多い。パスの本数が多いほど、スコアは大きくなる。
(要素3)は、式(4)におけるsim(c,ci+1)の部分に反映される。
図8は、パス中で経由する単語間の類似度を模式的に表す図である。同図では、単語間の線の太さによって類似度を表している。コンテンツAのコンテンツ関連テキストに含まれる単語wは、1段上の単語wとの類似度が高く、コンテンツBのコンテンツ関連テキストに含まれる単語wは、1段上の単語wとの類似度が低い。よって、パス中で経由する単語間の類似度は、コンテンツBよりもコンテンツAのほうが高い。この類似度が大きい程、スコアは大きくなる。
(要素4)は、式(4)におけるlog(max(|c|,|ci+1|))の逆数の部分に反映される。
図9は、パス中で経由する単語につながる他の単語の数を模式的に表す図である。同図では、単語w、単語wにつながる単語の数は、単語w、単語wにつながる単語の数よりも少ない。よって、コンテンツAのコンテンツ関連テキストに至るパスは、コンテンツBのコンテンツ関連テキストに至るパスよりも、パス中で経由している単語につながる他の単語の数が少ない。この数が少ないほど、スコアは大きくなる。
図10及び図11に、本実施形態の情報検索装置1及び従来技術による情報検索装置を用いた実験結果を示す。この実験では、NHKオンデマンドの2015年8月のデータ(5,066番組)を対象とした。被験者が検索キーとなる単語を入力し、本実施形態の情報検索装置1による番組検索と、okapi−BM25を用いた従来技術の情報検索装置による番組検索とのそれぞれにより検索結果として得られた上位10番組を、被験者にはいずれを用いたかわからないように提示した。被験者は、検索結果として得られた番組に、4段階の評価を与えた。評価値は、自分が検索したいものと関係がある場合は「4」、やや関係がある場合は「3」、あまり関係がない場合は「2」、関係ない場合は「1」とした。被験者6名により、111個の検索キーについて評価を行った。
図10は、検索キーに対して検索結果として出力された番組数を示す。同図に示すように、本実施形態の情報検索装置1を用いた番組検索の方が、従来技術の情報検索装置を用いた番組検索よりも、検索結果として出力された番組数の平均が高かった。特に、本実施形態では、検索結果として出力された番組数が0である検索キーの数が、従来技術よりも減少している。
従来技術による番組検索では、検索結果として出力された番組数が0である19個の検索キーについて、本実施形態の情報検索装置1が番組検索を行って得られた検索結果を評価した結果、最大の評価値が4である検索キーの個数が6、最大の評価値が3である検索キーの個数が3であった。このことから、本実施形態では、検索結果として得られる番組数が従来よりも増加し、従来技術では検索結果が0件の検索キーでも本実施形態では有用な検索結果が得られることがわかる。
図11は、検索キーごとに検索結果として出力された番組に対する最大の評価値を示している。同図では、出力された番組数が0であるものは除いて評価した結果を示している。この結果から、本実施形態の情報検索装置1を用いた番組検索は、従来技術の情報検索装置を用いた番組検索よりも、検索結果として出力される番組数が多い上に、従来技術による番組検索と同様に高い評価値の検索結果が得られていることがわかる。
上述したように、情報検索装置1は、検索キーに含まれる単語を上位関連語として取得し、上位関連語に関連する単語及びその単語との類似度を概念マップから読み出し、さらに、読み出された単語に関連する単語及びその関連する単語との類似度を概念マップから読み出す処理を所定回繰り返す。情報検索装置1は、概念マップから読み出された単語である下位関連語毎に、上位関連語から下位関連語に至るまでに概念マップから読み出された単語を順に並べた単語の列であるパスを取得する。
情報検索装置1は、上位関連語から下位関連語に至るパスにおいて隣接する単語間の類似度と、そのパスに含まれる単語に関連する他の単語の数と、そのパスにおける上位関連語の単語の重要度とに基づいて、下位関連語毎に検索キーとの関連の高さを表す関連度を計算する。このとき、情報検索装置1は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、上位関連語の単語の重要度が高いほど、検索キーとの関連が高いことを示す値の関連度を計算する。そこで、情報検索装置1は、上位関連語から下位関連語に至る前記パスにおいて隣接する2つの単語の組毎に、2つの単語間の類似度が高いほど、又は、2つの単語のそれぞれに関連する他の単語の数が少ないほど、単語間の関連度が高いことを示す値となる単語間関連度を計算し、そのパスに含まれる全ての組の単語間関連度と上位関連語の重要度との乗算により、下位関連語の関連度を計算する。情報検索装置1は、同一の下位関連語に至るパスが複数ある場合、パス毎に計算した関連度のうち最も大きな関連度を選択する。また、情報検索装置1は、上位関連語それぞれの関連度を、その上位関連語の重要度に基づき計算する。
情報検索装置1は、コンテンツに関するテキストデータを単語に分割し、分割により得られた単語それぞれの重要度と、その単語の関連度とに基づき、テキストデータが検索キーに関連する程度を定量的に表すスコアを計算する。このとき、情報検索装置1は、分割により得られた単語のうち上位関連語又は下位関連語に合致する各単語について、単語の重要度と関連度とを乗算し、乗算した結果の合計を、分割により得られた単語の数により除算してスコアを計算する。情報検索装置1は、複数のコンテンツの中から、コンテンツに関するテキストデータそれぞれについて計算されたスコアに基づいて、検索キーに関連する程度が高いコンテンツを選択する。情報検索装置1は、選択したコンテンツの情報を出力する。
上述した実施形態によれば、情報検索装置1は、検索キーに含まれる単語と一致する単語がコンテンツ関連テキスト内に出現しない場合でも、検索キーに相応しいコンテンツを検索することが可能となる。
また、検索キーに含まれる単語がコンテンツ関連テキストに出現する場合であっても、検索キーに含まれる単語から得られた関連語が出現しない場合には相対的にスコアが低くなる。よって、情報検索装置1は、コンテンツ関連テキストに検索キーが出現する場合でも、コンテンツ関連テキストが検索キーと近い内容ではないときには、検索キーとの関連が高くないと判断することができる。換言すれば、関連語が多く出現するコンテンツのスコアが高くなるため、検索キーが主題に近いほどコンテンツの順位が高くなる。
また、情報検索装置1は、関連語集合の作成時に概念マップを活用することで、関連語集合に含まれる単語の探索スペースを狭くすることができるため、高速に検索を行うことができる。
なお、上述の情報検索装置1は、内部にコンピュータシステムを有している。そして、情報検索装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1 情報検索装置
5 表示装置
9 ネットワーク
11 記憶部
12 検索キー受信部
13 上位関連語取得部
14 下位関連語取得部
15 関連度計算部
16 スコア計算部
17 選択部
18 出力部
111 概念マップ記憶部
112 単語重要度記憶部
113 コンテンツ情報記憶部

Claims (6)

  1. 検索キーに含まれる単語を上位関連語として取得する上位関連語取得部と、
    関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得部と、
    前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算部と、
    コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算部により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算部と、
    複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算部が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択部と、
    を備えることを特徴とする情報検索装置。
  2. 前記関連度計算部は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、前記重要度が高いほど、前記検索キーとの関連が高いことを示す値の関連度を計算する、
    ことを特徴とする請求項1に記載の情報検索装置。
  3. 前記関連度計算部は、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する2つの単語の組毎に、前記組を構成する単語間の類似度が高いほど、又は、前記組を構成する単語それぞれに関連する他の単語の数が少ないほど前記組を構成する単語間の関連度が高いことを示す値となる単語間関連度を計算し、前記パスに含まれる全ての前記組の前記単語間関連度と前記上位関連語の前記重要度との乗算により前記下位関連語の関連度を計算する、
    ことを特徴とする請求項1又は請求項2に記載の情報検索装置。
  4. 前記関連度計算部は、同一の下位関連語に至るパスが複数ある場合、前記パス毎に計算した関連度のうち最も大きな関連度を選択する、
    ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報検索装置。
  5. 前記スコア計算部は、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語のうち前記上位関連語又は前記下位関連語に合致する各単語について、前記単語の前記重要度と前記単語の前記関連度とを乗算し、乗算した結果の合計を、分割により得られた前記単語の数により除算して前記スコアを計算する、
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の情報検索装置。
  6. コンピュータを、
    検索キーに含まれる単語を上位関連語として取得する上位関連語取得手段と、
    関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得手段と、
    前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算手段と、
    コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算手段により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算手段と、
    複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算手段が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択手段と、
    を有する情報検索装置として動作させるプログラム。
JP2016014675A 2016-01-28 2016-01-28 情報検索装置及びプログラム Active JP6639040B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016014675A JP6639040B2 (ja) 2016-01-28 2016-01-28 情報検索装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016014675A JP6639040B2 (ja) 2016-01-28 2016-01-28 情報検索装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2017134675A true JP2017134675A (ja) 2017-08-03
JP6639040B2 JP6639040B2 (ja) 2020-02-05

Family

ID=59505021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016014675A Active JP6639040B2 (ja) 2016-01-28 2016-01-28 情報検索装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6639040B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019121210A (ja) * 2018-01-09 2019-07-22 鹿島建設株式会社 安全情報提供システム
WO2019180546A1 (ja) * 2018-03-23 2019-09-26 株式会社半導体エネルギー研究所 文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体
KR102059743B1 (ko) * 2018-04-11 2019-12-26 한국과학기술원 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019121210A (ja) * 2018-01-09 2019-07-22 鹿島建設株式会社 安全情報提供システム
WO2019180546A1 (ja) * 2018-03-23 2019-09-26 株式会社半導体エネルギー研究所 文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体
JP2021007024A (ja) * 2018-03-23 2021-01-21 株式会社半導体エネルギー研究所 文書検索方法、文書検索システム、プログラム
JPWO2019180546A1 (ja) * 2018-03-23 2021-03-11 株式会社半導体エネルギー研究所 文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体
JP2021072102A (ja) * 2018-03-23 2021-05-06 株式会社半導体エネルギー研究所 文書検索方法、文書検索装置
JP7321143B2 (ja) 2018-03-23 2023-08-04 株式会社半導体エネルギー研究所 文書検索システム
US11789953B2 (en) 2018-03-23 2023-10-17 Semiconductor Energy Laboratory Co., Ltd. Document search system, document search method, program, and non-transitory computer readable storage medium
KR102059743B1 (ko) * 2018-04-11 2019-12-26 한국과학기술원 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템

Also Published As

Publication number Publication date
JP6639040B2 (ja) 2020-02-05

Similar Documents

Publication Publication Date Title
US10839029B2 (en) Personalization of web search results using term, category, and link-based user profiles
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
US8745039B2 (en) Method and system for user guided search navigation
JP5727512B2 (ja) 検索提案のクラスタ化及び提示
US8156120B2 (en) Information retrieval using user-generated metadata
US9323827B2 (en) Identifying key terms related to similar passages
US20070143300A1 (en) System and method for monitoring evolution over time of temporal content
US10437859B2 (en) Entity page generation and entity related searching
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
JP6346367B1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
US8943101B2 (en) Keyword acquiring device, content providing system, keyword acquiring method, a computer-readable recording medium and content providing method
JP2011103075A (ja) 抜粋文抽出方法
JP6639040B2 (ja) 情報検索装置及びプログラム
JP5197491B2 (ja) 行動推薦装置及び方法及びプログラム
JP2017117021A (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP5513929B2 (ja) 経験情報の再利用性評価装置及び方法及びプログラム
JP7042720B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2010282403A (ja) 文書検索方法
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
JP2007052693A (ja) Webページ情報表示装置,処理方法およびプログラム
JP7297855B2 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
KR100906810B1 (ko) 키워드 검색 방법
JP3861105B2 (ja) 質問応答システム
JP6488399B2 (ja) 情報提示システム、及び情報提示方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191223

R150 Certificate of patent or registration of utility model

Ref document number: 6639040

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250