JP6093200B2 - 情報検索装置及び情報検索プログラム - Google Patents

情報検索装置及び情報検索プログラム Download PDF

Info

Publication number
JP6093200B2
JP6093200B2 JP2013020265A JP2013020265A JP6093200B2 JP 6093200 B2 JP6093200 B2 JP 6093200B2 JP 2013020265 A JP2013020265 A JP 2013020265A JP 2013020265 A JP2013020265 A JP 2013020265A JP 6093200 B2 JP6093200 B2 JP 6093200B2
Authority
JP
Japan
Prior art keywords
feature vector
search
word
sentence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013020265A
Other languages
English (en)
Other versions
JP2014153744A (ja
Inventor
太郎 宮▲崎▼
太郎 宮▲崎▼
田中 英輝
英輝 田中
加藤 直人
直人 加藤
山田 一郎
一郎 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2013020265A priority Critical patent/JP6093200B2/ja
Publication of JP2014153744A publication Critical patent/JP2014153744A/ja
Application granted granted Critical
Publication of JP6093200B2 publication Critical patent/JP6093200B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索装置及び情報検索プログラムに係り、特に、高精度な検索を実現するための情報検索装置及び情報検索プログラムに関する。
例えば、文章等の所定の情報が多数蓄積されたデータベース等から所望する情報を検索する場合、検索ワードとして入力された単語と同じ単語を各文章中から探すという単純なマッチングを取るものが多い。このような検索手法では、検索結果として得られた文章に検索ワードの言葉が含まれることになるが、その文章全体の中では決して重要ではない場合にも検出されてしまう。
また、同一の意味を有するが、検索ワードとは違った表現(例えば、「地域」と「ローカル」、「ニュース」と「報道番組」等)で書かれている文章は、検出することができない。
そこで、従来では、情報を提示するユーザが過去に行った評価データを元にそのユーザの興味のありそうなものを選んで提示する手法や、情報を提示するユーザとそれ以外のユーザが行った評価を用いた情報推薦方法等が存在する(例えば、特許文献1及び2参照)。
特開2002−269143号公報 特開2012−108738号公報
しかしながら、上述したような従来手法では、ユーザ等による評価情報が必要となる。また、誰も評価を付けていない新しいコンテンツ等に対する検索や推薦を行うことが困難である。
また、一般的な検索システムでは、検索ワードでの検索は可能であるが、その入力した検索ワードそのものが現れる文章を検索することしかできない。そのため、表記の揺れに弱く、また各文章中に含まれる検索ワードの出現回数等のように表層的な部分でしかスコアリングができない。したがって、所望する情報ではなく、その検索ワードが多く出現した文章を検出してしまうことが多い。
本発明は、かかる問題を鑑み、高精度な検索を実現するための情報検索装置及び情報検索プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
一態様における情報検索装置は、入力された検索ワードを用いて対象データを検索する情報検索装置において、前記対象データに含まれる単語を所定の特徴ベクトルにより抽象化する抽象化手段と、予め設定された単語間の関係性を有する概念マップを用いて関連する単語を抽出する関連単語抽出手段と、所定の文章に含まれている可能性がある単語群を行列で定義した隠れカテゴリデータを用いて、前記検索ワードと、前記関連単語抽出手段により得られた前記関連する単語とに基づいて、前記特徴ベクトルを計算する特徴ベクトル計算手段と、前記抽象化手段により得られる特徴ベクトルと前記特徴ベクトル計算手段により得られる特徴ベクトルとの類似度を比較する特徴ベクトル比較手段と、前記特徴ベクトル比較手段により得られる比較結果に基づいて、前記検索ワードに対する検索結果を出力する検索結果出力手段と、前記特徴ベクトル比較手段により得られる類似度の上位から所定数、又は、前記類似度が予め設定された閾値以上となった対象データを出力対象として決定する出力決定手段と、を有し、前記抽象化手段は、前記隠れカテゴリデータを用いて前記対象データを特徴ベクトルにより抽象化し、前記特徴ベクトル計算手段は、前記関連単語抽出手段により得られる関連単語を用いて、前記検索ワードに対応する特徴ベクトルを計算し、ICA(独立成分分析)により得られる基底を用いて前記検索ワードの特徴ベクトルを計算することにより、上記課題を解決する。
本発明によれば、高精度な検索を実現することができる。
情報検索装置の機能構成の一例を示す図である。 事前処理の一例を示すフローチャートである。 検索処理の一例を示すフローチャートである。 検索対象文章群からの隠れカテゴリの分析内容を説明するための図(その1)である。 検索対象文章群からの隠れカテゴリの分析内容を説明するための図(その2)である。 検索対象文章群からの隠れカテゴリの分析内容を説明するための図(その3)である。 文章の特徴ベクトルの計算例を示す図である。 検索ワードの特徴ベクトルの計算例を示す図である。 コサイン類似度比較の一例を示す図である。 他の実施形態における情報検索装置の機能構成の一例を示す図である。 概念マップの一例を示す図である。 検索結果の一例を示す図である。
<本発明について>
本発明では、例えばテキストに含まれる内容(例えば、文章)等に対する高精度な検索を可能にするため、検索ワード(キーワード)をそのまま使うのではなく、抽象化して検索に利用する。
具体的には、本発明は、例えば単語毎に「どんな話題の文に現れやすいか」を予め設定しておく。この場合、1つの単語が複数の話題に含まれてもよい。また、検索ワードから「各話題との近さ」を計算し、それが似た文章を出力する。
例えば、「地域放送」に対して3つの話題(話題1,話題2,話題3)が存在し、各話題に検索ワードが現れる可能性を、(話題1,話題2,話題3)=(0.5,0.1,0.2)とする。このとき、例えば「ローカル番組について」の文章に対して上述した3つの話題に検索ワードが現れる可能性が、(話題1,話題2,話題3)=(0.4,0.1,0.3)であり、「地域限定の商品」の文章に対して上述した3つの話題に検索ワードが現れる可能性が(話題1,話題2,話題3)=(0.3,0.7,0.1)であるとすると、これらの比較により、「地域放送」と似ているのは「ローカル番組について」となる。
つまり、本発明では、検索ワードをそのまま使うのではなく、抽象化して検索に利用するため、表記の揺れに強く、また内容の近い文章を見つけることができる。また、本発明では、検索ワードとして単語ではなく、文章を入力しても近い文章を検索することができる。以下に、情報検索装置及び情報検索プログラムを好適に実施した形態について、図面等を用いて詳細に説明する。
<情報検索装置の機能構成例>
図1は、情報検索装置の機能構成の一例を示す図である。図1における情報検索装置10は、抽象化手段11と、隠れカテゴリデータ格納手段12と、検索ワード入力手段13と、特徴ベクトル計算手段14と、検索ワード特徴ベクトル格納手段15と、特徴ベクトル比較手段16と、特徴ベクトル比較結果格納手段17と、出力決定手段18と、検索結果出力手段19とを有する。
抽象化手段11は、検索対象データに対して抽象化処理を行う。抽象化手段11は、例えば検索対象のテキスト(例えば、1又は複数の文章を有するデータ)に対して、例えばICA(Independent Component Analysis;独立成分分析)等による抽象化を行う。ICAとは、例えばある観測された信号Xが、元の情報Sにある係数Aを混ぜ合わせたもの(X=SA)と仮定した場合に、その情報Sを求める手法である。また、このときのAが、独立成分行列となる。
これにより、例えば「地域放送」という検索ワードを入力した場合に、「地域放送」というワードを含む文章だけでなく、「地域放送」というワードが含まれないが、意味としては近い「ローカル番組」等の文章を抽出することができる。
本実施形態は、ICA等による抽象化により、文章内の「隠れカテゴリ」を自動生成することができるため、それを用いた情報(例えば、番組等)の推薦手法等にも適用することができる。なお、「隠れカテゴリ」とは、その文章中に含まれる単語間同士の関係性(例えば、単語1と単語2とは似たような文脈でよく使用される等)を示すものであり、上述した話題1,話題2,話題3のそれぞれの関係が隠れカテゴリに相当するが、これに限定されるものではない。
ここで、抽象化手段11は、具体的には図1に示すように、検索対象データ格納手段21と、特徴ベクトル計算手段22と、検索対象特徴ベクトル格納手段23とを有する。
検索対象データ格納手段21には、検索対象となる多数のテキストデータ(例えば、文章)等が学習データとして格納されている。なお、検索対象データ格納手段21に含まれるテキストデータは、特定の分野(ジャンル)に属するデータでもよく、複数の分野のデータでもよい。
特徴ベクトル計算手段22は、隠れカテゴリデータ格納手段12に予め格納されている隠れカテゴリデータと、検索対象データ格納手段21から得られる検索対象データとに基づいて、検索対象データの各文についての特徴ベクトルを計算する。
隠れカテゴリデータとは、例えば、所定の「話題」等に関する文章等に含まれている可能性がある単語群を行列等により定義したデータであるが、これに限定されるものではない。特徴ベクトル計算手段22により計算された特徴ベクトルは、検索対象特徴ベクトル格納手段23に格納しておく。
上述したように、抽象化手段11では、実際に検索を行う事前処理として検索対象文章群等からの隠れカテゴリの分析を行い、文章の特徴ベクトルを生成する。カテゴリの分析としては、例えばICAを使った次元の圧縮や隠れカテゴリの推定等を行う。なお、本実施形態では、ICAに限定されるものではなく、様々な「隠れカテゴリ」の推定手法があるため、それらの手法を利用してもよい。また、文章の特徴ベクトルの生成は、例えば各文章が、各隠れカテゴリにどれだけ近いかを計算して特徴ベクトルを生成することができるが、生成手法については、これに限定されるものではない。
なお、抽象化手段11は、例えば検索対象データ格納手段21に格納された検索対象データから隠れカテゴリを算出し、算出した隠れカテゴリデータを隠れカテゴリデータ格納手段12に格納する処理を行ってもよい。これにより、検索対象データが更新される度に、新しい隠れカテゴリデータを格納することができる。
検索ワード入力手段13は、ユーザから所望する情報を取得するための検索ワードの入力を受け付ける。検索ワードは、単語単位でもよく、また文章単位でもよい。なお、検索ワードは、例えばキーボードやマウス、操作ボタン等の各種入力手段によりユーザからの入力を受け付けてもよく、マイク等の音声入力手段により音声で受け付けてもよい。
特徴ベクトル計算手段14は、隠れカテゴリデータ格納手段12により格納された隠れカテゴリデータを用いて、検索ワード入力手段13により入力された検索ワードの特徴ベクトルを計算する。具体的には、特徴ベクトル計算手段14は、検索キーワードに対しても検索対象のテキストと同じようにICAによる抽象化を行う。
なお、図1の例では、上述した特徴ベクトル計算手段22と、特徴ベクトル計算手段14とは別体に構成されているが、これに限定されるものではなく、一体に構成されていてもよい。つまり、1つの特徴ベクトル計算手段が、検索対象データや検索ワードに対する特徴ベクトルを計算してもよい。計算された特徴ベクトルは、検索ワード特徴ベクトル格納手段15に格納されてもよく、直接特徴ベクトル比較手段16へ出力されてもよい。
特徴ベクトル比較手段16は、検索対象特徴ベクトル格納手段23に格納された検索対象特徴ベクトルと、検索ワード特徴ベクトル格納手段15に格納された検索ワード特徴ベクトルとを比較して類似度を計算する。なお、類似度とは、検索ワードがどれだけ各隠れベクトルに近いかの計算により得られることができ、類似度計算には例えばコサイン類似度を使用することができるが、これに限定されるものではなく、他のベクトルの類似度計算も利用することができる。また、特徴ベクトル比較手段16は、比較結果を特徴ベクトル比較結果格納手段17に出力する。
なお、特徴ベクトル比較手段16は、検索対象特徴ベクトル格納手段23にある全ての特徴ベクトルに対して検索ワード特徴ベクトルとの類似度を計算してもよいが、これに限定されるものではない。また、特徴ベクトル比較手段16は、類似度が、所定の閾値以上であった検索対象データを特徴ベクトル比較結果格納手段17に出力する。このとき、特徴ベクトル比較手段16は、類似度と対応付けて検索対象データを特徴ベクトル比較結果格納手段17に出力してもよい。
出力決定手段18は、特徴ベクトル比較結果格納手段17にある比較結果のデータを用いて類似度の高い順(上位)から所定数の検索対象データを出力対象として決定する。なお、出力決定手段18による出力対象の決定手法は、これに限定されるものではなく、例えば予め設定された閾値以上の類似度を有する所定数の検索対象データを出力対象として決定してもよく、予め設定された所定の条件を満たす検索対象データを出力対象として決定してもよい。
ここで、出力対象の例としては、例えば検索ワード(単語や文章を含む)に対応する類似単語や類似文章等であるが、これに限定されるものではない。例えば検索対象データが視聴者に提供する番組情報である場合には、その出力対象として各視聴者に対する番組の推薦情報等が決定される。番組の推薦情報の場合には、上述した類似度の他にも、所定の条件として、例えば視聴者の嗜好や興味等の情報を用いて出力対象を決定することができる。
検索結果出力手段19は、出力決定手段18により決定された検索対象データを出力する。なお、検索結果出力手段19は、出力結果を、例えばディスプレイ等の表示手段の画面に表示してもよく、プリンタ等の印刷手段から紙媒体で印刷出力してもよい。また、検索結果出力手段19は、例えばインターネットやLAN(Local Area Network)等に代表される通信ネットワークにより、情報検索装置10とデータの送受信が可能な状態で接続される外部装置(例えば、データベース)等に出力してもよく、ハードディスク等の記憶手段に記憶してもよく、USB(Universal Serial Bus)やDVD等の外部記録媒体等に記録してもよい。
上述したように、本実施形態では、検索ワードに対する特徴ベクトルを生成し、生成した検索ワードの特徴ベクトルと、抽象化手段11による事前処理で得られる検索対象データ(文章)の特徴ベクトルとの類似度を計算し、類似度の高いものを出力する。また、本実施形態では、文章や検索ワード等を直接比較するのではなく、各隠れカテゴリとの類似度である「特徴ベクトル」に変換してから比較することで表層的な単語の出現等に縛られることなく、内容の似たものを出力することが可能となる。
なお、上述した隠れカテゴリデータ格納手段12、検索対象データ格納手段21、検索対象特徴ベクトル格納手段23、検索ワード特徴ベクトル格納手段15、特徴ベクトル比較結果格納手段17は、例えば情報検索装置10が有する1つの記憶手段内で管理されていてもよく、外部装置(例えば、データベース)等で管理されていてもよい。
<情報検索処理例>
ここで、本実施形態における情報検索処理の一例について、フローチャートを用いて説明する。なお、本実施形態における情報検索処理は、事前処理と、検索処理とに大別できるため、それぞれの処理内容について説明する。
<事前処理>
図2は、事前処理の一例を示すフローチャートである。図2の例に示す事前処理において、抽象化手段11は、検索対象データを取得し(S01)、予め隠れカテゴリデータ格納手段12等に格納された隠れカテゴリデータを取得する(S02)。なお、本実施形態において、抽象化手段11は、S02の処理の前に、S01の処理で取得した検索対象データから隠れカテゴリを算出して隠れカテゴリデータ格納手段12に格納する処理を行ってもよい。
次に、抽象化手段11は、S01及びS02の処理で取得した各データを用いて抽象化するための特徴ベクトルを計算し(S03)、得られた検索対象特徴ベクトルを検索対象特徴ベクトル格納手段23等に格納する(S04)。
<検索処理>
図3は、検索処理の一例を示すフローチャートである。図3の例に示す検索処理において、検索ワード入力手段13は、ユーザからの検索ワードを受け付ける(S11)。次に、特徴ベクトル計算手段14は、予め隠れカテゴリデータ格納手段12等に格納された隠れカテゴリデータを取得し(S12)、抽象化するための特徴ベクトルを計算する(S13)。なお、計算された特徴ベクトルは、検索ワード特徴ベクトル格納手段15等に格納してもよい。
次に、特徴ベクトル比較手段16は、検索ワードと、上述した事前処理で得られた検索対象データとの類似度を比較する(S14)。なお、お互いの比較は、特徴ベクトルに基づいて行われる。
次に、出力決定手段18は、比較結果から所定の条件を満たす出力対象を決定する(S15)。検索結果出力手段19は、出力決定手段18により決定された出力対象を検索結果として出力する(S16)。
<抽象化手段11における検索対象データからの隠れカテゴリの分析例>
次に、抽象化手段11における検索対象データからの隠れカテゴリの分析例について図を用いて具体的に説明する。なお、検索対象データ格納手段21に格納されているテキストデータの一例として、検索対象文章群を用いることとするが、これに限定されるものではなく、単語レベルのデータを含んでいてもよい。
図4〜図6は、検索対象文章群からの隠れカテゴリの分析内容を説明するための図(その1〜その3)である。本実施形態では、抽象化手段11における検索対象の文章群(学習データ)から、図4に示すように、ベクトル空間モデルと呼ばれる文毎の単語の出現回数を纏めた行列を生成する。この生成したベクトルを「学習データの単語出現頻度行列」とする。図4に示す単語出現頻度行列は、例えば「(学習データに出現する単語の数)×(文数)」の要素を持つ行列である。
この場合の「文」は、例えば図4に示すようなニュース原稿(「地域放送の充実」、「放送の国際展開」)であるが、これに限定されるものではない。また、文章全体が一つの意味を表す短いものであれば、その文章全体を用いる。また、文章全体が論文等の多くの内容が含まれていて長いものであれば、例えば文章を節単位で区切り、意味の繋がるひと纏まりの文章を用いる。
また、日本語文を単語毎に区切るには、例えばmecab(http://mecab.sourceforge.net/)等の形態素解析手法を用いることができるが、文章を区切る手法については、これに限定されるものではない。抽象化手段11は、形態素解析により得られた単語のうち、例えば名詞、動詞、形容詞のみを使って行列を生成するが、使用する品詞についてはこれに限定されるものではなく、例えば名詞だけ等でもよい。
この例において、行列の各要素は、tf−idf(term frequency−inverse document frequency)の値である。tf−idfは、文中に単語の重みを設定するのに一般に使われる手法で、文中の単語の出現頻度を表すtf(文中での単語の重要度)と、単語が現れる文章数の逆数を表すidf(文章群全体での重要度であり多くの文章に出てくる単語はそれほど重要ではないという考え方)を用いて、tfとidfとの積で表される。つまり、図4に示す学習データの単語出現頻度行列におけるn行m列の要素は、文nでの単語mのtf−idfの値となる。なお、本実施形態では、tf−idfでなくてもよく、例えばtfをそのまま用いたり、「okapi bm25」等の別の尺度を用いてもよい。
また、抽象化手段11は、図4の示す学習データの単語出現頻度行列に対し、上述したようにICAを用いることにより隠れカテゴリを推定し、図5に示すような行列を生成する。つまり、単語出現頻度行列からICAで次元圧縮することにより、基底を生成する。図5に示すICAの結果の行列は、「(学習データに現れる単語の数)×(隠れカテゴリの数)」の要素を持つ行列となり、列の方向(縦方向)に圧縮される。この圧縮された行列の横ベクトル(IC(Independent Component)1,IC2,IC3,・・・)が、各隠れカテゴリの特徴を表すベクトルとなる。
なお、ICAの場合には、隠れカテゴリの数をユーザ等が設定する必要があるが、これに限定されるものではなく、予め設定しておいてもよい。
ここで、図6の例では、スポーツニュース記事からのICA基底の一例を示している。なお、図6に示す行列中の値の範囲は−1〜1であり、値が大きい方が単語間の関係性が強い。
図6に示す単語1:「ボール」、単語2:「ゴール」、・・・、単語n:「先頭」は、各隠れカテゴリの特徴を表すベクトルとなる。図6の例において、隠れカテゴリのIC1では、「ゴール」(0.40)と「先頭」(0.36)とに強い関係があるため、例えばマラソン等を表すカテゴリである可能性があることがわかる。また、隠れカテゴリのIC2では、「ボール」(0.27)と「ゴール」(0.42)に強い関係があるため、例えばサッカーのような球技を表すカテゴリである可能性があることがわかる。
更に、隠れカテゴリであるIC3では、「ボール」(0.34)の値が大きく、「ゴール」の値がそれほど大きくないため、「ゴール」という単語を使わない球技(例えば、野球等)を表すカテゴリである可能性があることがわかる。このような隠れカテゴリデータを用いて検索対象データの抽象化を行う。なお、図6に示すマイナス(−)の値は、「その単語がその隠れカテゴリ中に出てこないはずである」ということを示す尺度であり、マイナスの値を有することで、例えば「この単語が現れた場合は、この話題ではないだろう」といった方向を示すことができる。
図6に示すような隠れカテゴリデータを隠れカテゴリデータ格納手段12に格納しておき、特徴ベクトルの計算時に、この隠れカテゴリデータを取得することで、検索対象ベクトルを算出する。
<tf−idfについて>
ここで、上述したtf−idfについて説明する。tf−idfは、「tf−idf=tf/log(df)」で表現することができる。tfとは、例えば対象単語の対象文中での出現頻度である。dfとは、例えば対象単語が幾つの文に出現するかを示すものである。
なお、tf−idfは、「いろいろな場面で出てくる単語の重みを下げる」効果がある。例えば、「放送」という単語がたくさん出現する文章がある場合に、文章中の各単語による検索結果への影響を軽減することができる。また、tf−idfを用いることで、例えば「地域放送」で検索した場合に、「放送」ではなく「地域」について書かれたものが重要であるという意味を持たせることができる。
<隠れカテゴリについて>
ここで、上述した特徴ベクトル比較で用いられる隠れカテゴリについて説明する。隠れカテゴリは、対象の全文に対して出現単語を単語毎にカウントして各文の単語毎のtf−idfを計算し、tf−idfからICAを計算することで得られる。ICAで得られた行列の各行ベクトルが、隠れカテゴリを表すベクトルとなる。
<文章の特徴ベクトルの計算例>
次に、文章の特徴ベクトルの計算例について説明する。図7は、文章の特徴ベクトルの計算例を示す図である。文章の特徴ベクトルの計算は、例えば上述した隠れカテゴリベクトルへの射影で行う。
まず、図7(A)に示すように、検索対象の各文章(例えば、節単位の纏まり)から、上述した単語出現頻度行列と同様にベクトルを計算する。図7(A)の例では、文章Xから単語出現頻度ベクトル「(単語1,単語2,・・・,単語n)=(0.12,0,・・・,0.1)」を算出している。
次に、本実施形態では、図7(B)に示すように、生成した特徴ベクトルと、各隠れカテゴリを表すICA基底の行ベクトル(=隠れカテゴリベクトル)との内積を取ることで、特徴ベクトルとする。具体的には、単語出現ベクトルをICA基底に射影し、「(文章Xの単語出現ベクトル)×(ICA基底)」が文章Xの特徴ベクトル(検索対象特徴ベクトル)となる。なお、上述のTは転置行列であることを示す。
これにより、隠れカテゴリ数の要素を持つベクトルに情報を圧縮することができる。なお、図7(B)に示す特徴ベクトルから、文章Xは1番目の隠れカテゴリ(0.23)と3番目の隠れカテゴリ(0.41)と内容が近い文章であることがわかる。
<検索ワードの特徴ベクトルの生成>
次に、検索ワードの特徴ベクトルの計算例について説明する。図8は、検索ワードの特徴ベクトルの計算例を示す図である。本実施形態では、入力された検索ワードの特徴ベクトルも上述と同様に、単語出現頻度ベクトルの生成を行う。
例えば、図8(A)の例では、例えば情報検索装置10に設けられた表示手段等の画面上に予め設定された検索ワード入力領域に「地域放送」という検索ワードを入力して検索ボタン等の押下により検索を実行すると、特徴ベクトル計算手段14が、検索ワードの単語出現頻度ベクトルを計算する。図8(A)の例では、検索ワードから単語出現頻度ベクトル「(単語1,単語2,・・・,単語n)=(0.12,0,・・・,0.1)」を算出している。
その後、図8(B)に示すように隠れカテゴリベクトルであるICA基底に射影して特徴ベクトル(検索ワードベクトル)を生成する。具体的には、「(検索ワードの単語出現ベクトル)×(ICA基底)」が検索ワード特徴ベクトルとなる。なお、上述のTは転置行列であることを示す。
<各特徴ベクトルの類似度計算例>
次に、上述した検索ワード特徴ベクトルと、文章の特徴ベクトルとの類似度計算例について説明する。本実施形態では、上述した2つの特徴ベクトル間の類似度を、例えばコサイン(cos)類似度等により計算する。
コサイン類似度は、2つのベクトルの間の角度を,ベクトルの内積と絶対値とから求める手法で、2つのベクトルをx,yとすると(x・y/|x|・|y|)と表される。コサイン類似度の値は−1〜1の範囲となり、1に近いほど2つのベクトルの特徴が類似していることを表す。
このコサイン類似度が予め設定した閾値以上の場合に検索結果として出力する。閾値の設定は、例えばコサイン類似度が正であったものの平均値を用いることができるが、これに限定されるものではない。閾値は、事前に固定の値(例えば、80%以上)を設定しておいてもよく、例えば上位から所定数(例えば、10個)を予め設定しておいてもよい。
ここで、図9は、コサイン類似度比較の一例を示す図である。なお、図9に示す(i)は検索ワード特徴ベクトルの例を示し、(ii)は検索対象特徴ベクトルの例を示す。
図9(A)の例では、(i)と(ii)とのベクトルの形が似ているため、コサイン類似度は大きくなる。ベクトルの形とは、例えば同じ位置にある要素の大小の傾向や、特徴ベクトル内の連続する数値の変化の度合いを形として表現したものであるが、これに限定されるものではない。
また、図9(B)の例では、(i)と(ii)とのベクトルの形がかなり異なるため、コサイン類似度が小さくなる。本実施形態では、上述したように特徴ベクトルの類似度比較を行うことで、検索結果として適切な情報を取得することができる。
<出力対象の決定例>
次に、上述した出力決定手段18における出力対象の決定例について説明する。例えば、本実施形態では、上述したコサイン類似度が大きい順に並べ、コサイン類似度は大きいほど「より類似している」ことを表す。したがって、出力決定手段18は、類似度が大きい順に所定数の検索対象データを出力対象として決定してもよく、また予め設定された閾値以上の類似度を有する検索対象データを出力対象として決定してもよいが、これに限定されるものではない。
なお、出力対象の決定は、設定等により変更可能である。また、例えば単純な検索であれば、類似度の高い上位10件を出力するようにしてもよい。また、情報推薦等であれば、例えば「類似度が0より大きいものの平均を閾値とし、閾値その閾値以上のものを出力」等のように出力対象を決定してもよい。
推薦情報等を出力する場合には、過去の統計やユーザ毎の嗜好情報等に基づいて、検索対象データに重み付け等を行い、類似度と、統計結果、嗜好情報等に基づいて得られた順位に基づいて出力対象を決定してもよい。なお、統計を用いる場合には、最近の流行に対応した検索対象データの重みを大きくしたり、嗜好情報を用いる場合には、ユーザが好きなジャンルに対応する検索対象データの重みを大きくする等の手法があるが、これに限定されるものではない。
<他の実施形態>
次に、他の実施形態について図を用いて説明する。図10は、他の実施形態における情報検索装置の機能構成の一例を示す図である。図10に示す情報検索装置30において、上述した情報検索装置10と同様の機能を有する構成部分については、同一の符号を付するものとし、ここでの具体的な説明は省略する。
図10に情報検索装置30は、抽象化手段11と、隠れカテゴリデータ格納手段12と、検索ワード入力手段13と、特徴ベクトル計算手段14と、検索ワード特徴ベクトル格納手段15と、特徴ベクトル比較手段16と、特徴ベクトル比較結果格納手段17と、出力決定手段18と、検索結果出力手段19と、概念マップ格納手段31と、関連単語抽出手段32とを有する。また、抽象化手段11は、図10に示すように、検索対象データ格納手段21と、特徴ベクトル計算手段22と、検索対象特徴ベクトル格納手段23とを有する。
図1の例に示す情報検索装置10と、図10の例に示す情報検索装置30とを比較すると、情報検索装置30には、概念マップ格納手段31と、関連単語抽出手段32とを有している。したがって、以下の説明では、主に上述の構成について説明する。
上述した図1の例に示す情報検索装置10の場合には、隠れカテゴリデータに含まれる単語についてのカテゴリの推定ができるが、実際の使用用途によっては、隠れカテゴリデータに含まれていない単語(未知の単語)に対応させたい場合もある。そこで、図10に示す情報検索装置30では、未知の単語に対応した概念マップを用いた関連単語抽出を用い、未知語に対する問題を解消する。
ここで、図11は、概念マップの一例を示す図である。図11に示すように概念マップには、予め設定された上位概念化された各単語間の関係性が線で結合されたマップとして格納されている。
図11の例では、例えば「増税」に対して、「政策」が上位下位関係にあり、「買い控え」が因果関係にあるといったように、予め設定された単語関係情報が概念マップ上に表されている。図1の例に示す情報検索装置10では、検索用の基底を生成する際の隠れカテゴリデータに出現しない単語(例えば、隠れカテゴリを推定していない単語)について検索することができないため、そのような単語に対して検索したい場合に、図11に示すような概念マップを用いて隠れカテゴリデータが推定している単語に置き換える。
つまり、図10の例に示す情報検索装置30において、概念マップ格納手段31は、上述した図11に示すように予め設定された単語関係情報を示す概念マップを格納する。なお、概念マップは、所定の分野(ジャンル)毎に格納してもよく、ジャンルに関係なく、全単語を対象に関係情報がマップ化されていてもよい。
関連単語抽出手段32は、概念マップ格納手段31に格納された概念マップを用いて未知の単語の「他の単語との類似度」を計算し、類似度に応じて未知の単語を割り振る。例えば、「塩麹」の類似度を計算する場合、(塩,調味料,麹,・・・)=(0.23,0.06,0.20,・・・)とし、この情報を特徴ベクトル計算手段14に出力する。
これにより、特徴ベクトル計算手段14は、隠れカテゴリデータに含まれていない単語(未知語)が検索ワードに含まれている場合でも、上述した関連単語抽出手段32により得られた関連単語を用いて、未知語を隠れカテゴリデータに含まれる他の関連単語に置き換えて特徴ベクトルを計算することができる。これにより、検索ワードに未知語を含んでいる場合でも、その関連単語を用いた特徴ベクトルを用いて検索を実行することができる。
なお、本実施形態においては、概念マップに限定されるものではなく、例えば予め設定される「wordnet」や「分類語彙表」等の所定の概念辞書、意味辞書、類似語集等を用いた拡張を行うことができる。
<出力結果>
ここで、図12は、検索結果の一例を示す図である。図12では、一例として類似度と検索結果とが示されている。検索結果は、類似度に対応する検索対象データ(文章)である。なお、図12の例では、類似度の高い順に並び替えを行った結果が表示されているが、表示内容については、これに限定されるものではない。
本実施形態では、上述したように抽象化した情報(例えば、特徴ベクトル)同士の類似度に基づいて検索を行うことで、図12に示すように、関連性のある情報を適切に出力することができる。
<ICA以外の基底生成方法について>
なお、本実施形態では、上述したようにICAに基づく基底を生成したが、本実施形態においては、これに限定されるものではなく、例えばPCA(Principal Component Analysis;主成分分析)やNMF(Non−negative Matrix Factorization;非負値行列因子分解)等を用いることができる。
なお、PCA(主成分分析)には、「基底の直交条件」というものがあり、分布を最も圧縮する方向には基底を生成できるが、「話題」に最も適応した基底ができるというわけではなく、ICAの方が、分布に即した基底が生成できるため、本実施形態のような用途であればPCAよりICAの方が高い性能が期待できる。
また、NMF(非負値行列因子分解)は、例えばトピック分類等でよく使用されている手法である。ICAと同様に隠れたトピック毎に分解が可能である。なお、NMFでは、得られる基底が全て正の値になるため、「この単語が現れた場合はこの話題ではないだろう」というような方向への推定はできない。ただし、もともと単語の出現頻度等は正の値しか取らず、その方が自然と考える場合もある。また、例えば隠れカテゴリデータの行列に0が多く出る場合には、NMFの結果の行列にも要素に0の部分が多く出ることになる。
本実施形態では、上述したICA(独立成分分析)、PCA(主成分分析)、及びNMF(非負値行列因子分解)のうち、少なくとも1つを用いて抽象化を行うことができる。つまり、特徴ベクトル計算手段14,22は、ICA、PCA、及びNMFのうち、少なくとも1つの手法を用いて得られる基底を用いて検索ワードの特徴ベクトルを計算することができる。なお、特徴ベクトル計算手段14,22は、上述した統計的クラスタリング手法に限定されるものではなく、例えばPLSI(Probabilistic Latent Semantic Indexing)やLDA(Latent Dirichlet Allocation)等の手法も任意に選択して使用することができる。
<類似度計算方法>
また、類似度計算については、上述したコサイン類似度に限定されず、例えば「距離」を使った類似度計算を行うことができる。この場合、例えばユークリッド距離、マハラノビス距離等を用いることができる。なお、距離を用いた類似度計算を行った場合には、何れの手法を用いても文の長さが大きく影響する。したがって、その場合には、文の長さ(単語数)等に応じて距離を調整してもよい。
<実行プログラム>
ここで、上述した情報検索装置10,30は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置、ROM(Read Only Memory)等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
したがって、情報検索装置10,30が有する上述した各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(情報検索プログラム)を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、情報検索処理を実現することができる。なお、本実施形態における実行プログラムによる処理については、例えば上述した各処理を実現することができる。
上述したように本発明によれば、高精度な検索を実現することができる。具体的には、本実施形態では、文章内に隠れているカテゴリ(=文章の内容,意味)を用いて、それが似ているかどうかを計算することで文章同士の類似度を求めるため、出現する単語が異なっていても同じ内容の文章であれば高い類似度を出すことができる。したがって、本実施形態では、従来のテキスト検索では難しい表記の揺れ等を吸収することができ、また従来手法では検索できなかった情報を検出することができる。
また、本実施形態における検索手法により得られる結果と、従来手法による単純なキーワード検索により得られる結果とを組み合わせて新たな検索手法を提供することもできる。
なお、本実施形態の適用例としては、例えば上述した文章の類似度を用いた検索の他にも、視聴者等のユーザに対する番組の推薦等がある。番組の推薦を行う場合には、上述した文章の特徴ベクトルの算出部分で、番組の概要文等を文章として入力し、検索ワードの代わりにその人の好きなジャンル(嗜好情報)のキーワード(例えば、スポーツ等)の特徴ベクトル(興味ベクトル)を入力することで対応することができる。また、その場合には、推薦した番組に興味があったか否かにより、推薦した番組の特徴ベクトルを、そのユーザの興味ベクトル等に足したり引いたりすることで、より本人の興味に即した番組の推薦が可能となる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
10,30 情報検索装置
11 抽象化手段
12 隠れカテゴリデータ格納手段
13 検索ワード入力手段
14,22 特徴ベクトル計算手段
15 検索ワード特徴ベクトル格納手段
16 特徴ベクトル比較手段
17 特徴ベクトル比較結果格納手段
18 出力決定手段
19 検索結果出力手段
21 検索対象データ格納手段
23 検索対象特徴ベクトル格納手段
31 概念マップ格納手段
32 関連単語抽出手段

Claims (3)

  1. 入力された検索ワードを用いて対象データを検索する情報検索装置において、
    前記対象データに含まれる単語を所定の特徴ベクトルにより抽象化する抽象化手段と、
    予め設定された単語間の関係性を有する概念マップを用いて関連する単語を抽出する関連単語抽出手段と、
    所定の文章に含まれている可能性がある単語群を行列で定義した隠れカテゴリデータを用いて、前記検索ワードと、前記関連単語抽出手段により得られた前記関連する単語とに基づいて、前記特徴ベクトルを計算する特徴ベクトル計算手段と、
    前記抽象化手段により得られる特徴ベクトルと前記特徴ベクトル計算手段により得られる特徴ベクトルとの類似度を比較する特徴ベクトル比較手段と、
    前記特徴ベクトル比較手段により得られる比較結果に基づいて、前記検索ワードに対する検索結果を出力する検索結果出力手段と
    前記特徴ベクトル比較手段により得られる類似度の上位から所定数、又は、前記類似度が予め設定された閾値以上となった対象データを出力対象として決定する出力決定手段と、
    を有し、
    前記抽象化手段は、
    前記隠れカテゴリデータを用いて前記対象データを特徴ベクトルにより抽象化し、
    前記特徴ベクトル計算手段は、
    前記関連単語抽出手段により得られる関連単語を用いて、前記検索ワードに対応する特徴ベクトルを計算し、ICA(独立成分分析)により得られる基底を用いて前記検索ワードの特徴ベクトルを計算することを特徴とする情報検索装置。
  2. 前記特徴ベクトル計算手段は、
    独立成分分析、主成分分析、及び非負値行列因子分解のうち、少なくとも1つの手法を用いて得られる基底を用いて前記検索ワードの特徴ベクトルを計算することを特徴とする請求項に記載の情報検索装置。
  3. コンピュータを、請求項1または2に記載の情報検索装置として機能させるためのプログラム。
JP2013020265A 2013-02-05 2013-02-05 情報検索装置及び情報検索プログラム Active JP6093200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013020265A JP6093200B2 (ja) 2013-02-05 2013-02-05 情報検索装置及び情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013020265A JP6093200B2 (ja) 2013-02-05 2013-02-05 情報検索装置及び情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2014153744A JP2014153744A (ja) 2014-08-25
JP6093200B2 true JP6093200B2 (ja) 2017-03-08

Family

ID=51575603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013020265A Active JP6093200B2 (ja) 2013-02-05 2013-02-05 情報検索装置及び情報検索プログラム

Country Status (1)

Country Link
JP (1) JP6093200B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6440459B2 (ja) * 2014-11-05 2018-12-19 日本放送協会 検索装置、検索方法及び検索プログラム
JP6429383B2 (ja) * 2015-01-13 2018-11-28 日本放送協会 下位表現抽出装置およびプログラム
WO2016125310A1 (ja) * 2015-02-06 2016-08-11 株式会社Ubic データ分析システムおよびデータ分析方法並びにデータ分析プログラム
JP6638480B2 (ja) 2016-03-09 2020-01-29 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法
JP2019200582A (ja) * 2018-05-16 2019-11-21 ファナック株式会社 検索装置、検索方法及び検索プログラム
WO2020079751A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 文献検索方法および文献検索システム
WO2020079750A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 事例検索方法
CN111597297A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 物品召回方法、系统、电子设备及可读存储介质
JP6710007B1 (ja) * 2019-04-26 2020-06-17 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム
CN115698980A (zh) * 2020-06-11 2023-02-03 株式会社岛津制作所 用于评价文档检索的性能的方法、系统以及装置
KR102265946B1 (ko) * 2020-11-23 2021-06-17 주식회사 엠로 기계 학습 기반 유사 아이템에 관한 정보를 제공하는 방법 및 장치
CN115174997B (zh) * 2022-06-29 2023-11-28 Vidaa国际控股(荷兰)公司 显示设备和媒资推荐方法
CN116628049B (zh) * 2023-07-21 2023-12-15 深圳市秦丝科技有限公司 一种基于大数据的信息系统维护管理系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
JP2002175329A (ja) * 2000-12-07 2002-06-21 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
JP2006309377A (ja) * 2005-04-27 2006-11-09 Seiko Epson Corp 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体

Also Published As

Publication number Publication date
JP2014153744A (ja) 2014-08-25

Similar Documents

Publication Publication Date Title
JP6093200B2 (ja) 情報検索装置及び情報検索プログラム
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
CN106855876B (zh) 基于媒体内容的推荐的属性加权
US10565313B2 (en) Automatic semantic rating and abstraction of literature
CN104885081B (zh) 搜索系统和相应方法
US20150278359A1 (en) Method and apparatus for generating a recommendation page
CN106686460B (zh) 一种视频节目推荐方法及视频节目推荐装置
US20140379719A1 (en) System and method for tagging and searching documents
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
Mukherjee et al. Author-specific sentiment aggregation for polarity prediction of reviews.
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP5565568B2 (ja) 情報推薦装置、情報推薦方法およびプログラム
Schedl et al. Harvesting microblogs for contextual music similarity estimation: a co-occurrence-based framework
Mazarura et al. A Gamma‐Poisson Mixture Topic Model for Short Text
EP3706014A1 (en) Methods, apparatuses, devices, and storage media for content retrieval
D'Addio et al. A collaborative filtering approach based on user's reviews
US10380151B2 (en) Information processing to search for related expressions
Wu et al. A new approach to query segmentation for relevance ranking in web search
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
Kim et al. Building semantic concept networks by wikipedia-based formal concept analysis
CN111782880A (zh) 语义泛化方法及显示设备
Alotaibi et al. A Comparison of Topic Modeling Algorithms on Visual Social Media Networks
Bhargav Efficient features for movie recommendation systems
JP2019211884A (ja) 情報検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170210

R150 Certificate of patent or registration of utility model

Ref document number: 6093200

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250