JP2017201478A - キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム - Google Patents

キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム Download PDF

Info

Publication number
JP2017201478A
JP2017201478A JP2016093227A JP2016093227A JP2017201478A JP 2017201478 A JP2017201478 A JP 2017201478A JP 2016093227 A JP2016093227 A JP 2016093227A JP 2016093227 A JP2016093227 A JP 2016093227A JP 2017201478 A JP2017201478 A JP 2017201478A
Authority
JP
Japan
Prior art keywords
keyword
sentence
similarity
evaluation
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016093227A
Other languages
English (en)
Other versions
JP6433937B2 (ja
Inventor
淳史 大塚
Atsushi Otsuka
淳史 大塚
克人 別所
Katsuto Bessho
克人 別所
平野 徹
Toru Hirano
徹 平野
久子 浅野
Hisako Asano
久子 浅野
松尾 義博
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016093227A priority Critical patent/JP6433937B2/ja
Publication of JP2017201478A publication Critical patent/JP2017201478A/ja
Application granted granted Critical
Publication of JP6433937B2 publication Critical patent/JP6433937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】自然言語で記述された文に類似する文を精度よく検索するようにする。
【解決手段】類似度評価装置100は、第1文に含まれる単語と第2文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける第1文に含まれる単語を第1のキーワード、第2文に含まれる単語を第2のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算し、少なくとも2つの類似度の変化値の絶対値が小さいほど、第1文と第2文とが類似していると評価する。
【選択図】図1

Description

本発明は、音声又はテキストを入力とするキーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラムに関する。
情報検索システムとして、ユーザが入力したクエリに対して、キーワードマッチ等の検索処理を行い、クエリに適合する文書を検索するシステムが知られている。しかし、キーワードマッチを用いた検索処理の場合には、クエリのキーワードと文書内のキーワードが完全一致していなくてはならず、検索の再現率(Recall)が低下してしまうという問題が発生することがある。そこで、クエリ中に含まれるキーワードを拡張して増加させ、ユーザが入力したクエリを、より幅広い文書にマッチさせるクエリ拡張が行われる場合がある(特許文献1)。
また、キーワードマッチ以外の検索手法として、概念検索が知られている。概念検索は、キーワードを連続値のN次元ベクトルで表現し、N次元ベクトルの重心をクエリベクトルと見なす。同様に、文書ベクトルも文書内のキーワードベクトルの重心で表現し、クエリベクトルと文書ベクトルの類似度を計算し、類似度が高い順に検索結果を出力することで、クエリに適合する文書の検索を実行する。概念検索ではキーワードマッチと異なり、キーワードが完全一致しなくてもクエリに近い話題に関する文書が検索可能になるという利点がある(特許文献2)。
特開2010−123036号公報 特開2010−182041号公報
しかしながら、キーワードマッチ及び概念検索では、クエリをキーワードの集合(bag-of-words)とみなすことを前提としている。つまり、自然言語の形式でクエリが入力された場合、形態素解析やキーワード抽出により、自然言語からキーワードを抽出することで、クエリに近い話題を含む文書等の検索を行っている。
したがって、自然言語からキーワードを抽出してキーワード集合を生成する過程で、自然言語が本来持っていた語順や構文情報が欠落してしまう状況が発生する場合がある。
例えば、FAQ検索において、「メールが送信できない」と「送信できないメールがある」という、自然言語で表現された2つのクエリが入力されたとする。この2つのクエリが表す意味は異なるが、2つのクエリをキーワード集合に変換すると、共に「メール、送信、できない」という同じ要素を含むキーワード集合になってしまい、2つのクエリの違いが区別できなくなってしまう。このように、自然言語による情報検索を行う際には、文に含まれるキーワードのみでなく、キーワード周辺の文脈を考慮しなければならないことがある。
本発明は、上記の事情を鑑みて成されたものであり、自然言語で表される入力文に含まれるキーワードの重要度を精度よく評価することができるキーワード評価装置、キーワードの評価方法、及びプログラムを提供することを目的とする。また、自然言語で表される入力文と、比較対象となる文と、の類似度を評価し、入力文に類似する文を精度よく検索することができる類似度評価装置、検索装置、類似度の評価方法、検索方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係るキーワード評価装置は、入力された第1文から抽出された第1のキーワードと、入力された第2文の中で前記第1のキーワードと類似するキーワードである第2のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算する計算部と、前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価する評価部と、を含んで構成されている。
本発明に係る類似度評価装置は、入力された第1文に含まれる単語と入力された第2文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第1文に含まれる単語を第1のキーワード、前記第2文に含まれる単語を第2のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算する計算部と、前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価する評価部と、を含んで構成されている。
本発明に係る検索装置は、予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶する記憶部と、前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第1のキーワード、前記検索対象文に含まれるキーワードを第2のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を前記複数の検索対象文毎に計算する計算部と、前記複数の検索対象文毎に、前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価する評価部と、前記評価部による評価結果に基づいて、前記クエリ文に類似する検索対象文を検索する検索部と、を含んで構成されている。
本発明に係るキーワードの評価方法は、入力された第1文から抽出された第1のキーワードと、入力された第2文の中で前記第1のキーワードと類似するキーワードである第2のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算し、前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価する。
本発明に係る文の類似度の評価方法は、入力された第1文に含まれる単語と入力された第2文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第1文に含まれる単語を第1のキーワード、前記第2文に含まれる単語を第2のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算し、前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価する。
本発明に係る文の検索方法は、予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶し、前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第1のキーワード、前記検索対象文に含まれるキーワードを第2のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を前記複数の検索対象文毎に計算し、前記複数の検索対象文毎に、計算した前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価し、前記評価に基づいて、前記クエリ文に類似する検索対象文を検索する。
本発明に係るキーワード評価装置のプログラムは、キーワード評価装置の各部としてコンピュータを機能させるためのプログラムである。
本発明に係る類似度評価装置のプログラムは、類似度評価装置の各部としてコンピュータを機能させるためのプログラムである。
本発明に係る検索装置のプログラムは、検索装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明のキーワード評価装置、キーワードの評価方法、及びプログラムによれば、自然言語で表される入力文に含まれるキーワードの重要度を精度よく評価することができる、という効果が得られる。
また、本発明の類似度評価装置、検索装置、類似度の評価方法、検索方法、及びプログラムによれば、自然言語で表される入力文と、比較対象となる文と、の類似度を評価し、入力文に類似する文を精度よく検索することができる、という効果が得られる。
第1実施形態に係る類似度評価装置の構成例を示す概略図である。 係り受け解析の実行結果の一例について説明する図である。 類似度評価装置における類似度評価処理ルーチンの処理の一例を示すフローチャートである。 類似度評価処理ルーチンを実行した場合におけるスコアの算出過程の一例を示す図である。 第2実施形態に係るキーワード評価装置の構成例を示す概略図である。 キーワード評価装置におけるキーワード評価処理ルーチンの処理の一例を示すフローチャートである。 第3実施形態に係る検索装置の構成例を示す概略図である。 検索装置における検索処理ルーチンの処理の一例を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、以下では、同じ働きを担う構成要素又は処理には全図面を通して同じ符号を付与し、重複する説明を適宜省略する。
<第1実施形態>
第1実施形態では、自然言語で記述された第1文及び第2文の2つの文を入力とし、2つの文の類似度を数値化してスコアとして出力する類似度評価装置100について説明する。
<システム構成>
図1は、類似度評価装置100のシステム構成例を示す図である。図1に示すように、類似度評価装置100は、CPUと、RAMと、後述する類似度評価処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成され、機能的には次に示すように構成されている。
類似度評価装置100は、入力部10、演算部20、記憶部30、及び出力部40を備える。また、演算部20は、文解析部21、ベクトル生成部22、計算部23、及び評価部24を含むと共に、評価部24は、類似度変化率算出部25及び類似度評価部26を含む。
入力部10に入力される第1文及び第2文は、文解析部21に出力される。文解析部21では、第1文及び第2文の各々に対して、キーワード抽出及び文節の係り受け解析といった言語処理を行い、第1文と第2文の言語構造を解析する。
ベクトル生成部22は、文解析部21で行われた第1文と第2文の言語構造の解析結果を入力として、各々の文について、キーワード、文節、及び文節の係り受けといった異なる表現単位毎に概念ベクトルを生成する。
そして、計算部23は、ベクトル生成部22で生成された各表現単位毎の概念ベクトルを入力として、キーワード同士、文節同士、及び文節の係り受け同士の類似度を計算する。
評価部24は、計算部23で計算されたキーワード同士、文節同士、及び文節の係り受け同士の類似度を入力として、類似度変化率算出部25で類似度変化率を算出し、算出した類似度変化率に基づいて、類似度評価部26で第1文と第2文の最終的な類似度を数値化してスコアとして評価する。
出力部40は、評価部24で評価されたスコアを出力して、第1文と第2文の類似度を通知する。
なお、以降では、キーワード、文節、及び文節の係り受けといった各々の表現単位の粒度について述べる場合がある。キーワードに比べて文節の方が表現単位の粒度が粗く、文節に比べて文節の係り受けまで含めた範囲の方が表現単位の粒度が粗いため、キーワードの粒度が最も細かく、文節の係り受けの粒度が最も粗くなる。
次に、演算部20の処理内容について詳細に説明する。
<文解析部>
文解析部21は、第1文及び第2文の各文に対して言語処理を実行して、係り受け解析及びキーワード抽出を行う。
文解析部21は、第1文及び第2文の各々の文に対して、例えば係り受け解析器を用いて、文中の形態素、各形態素の品詞、文節情報(文節数、文節に含まれる形態素)、文節間の係り受け関係等の言語構造に関する情報を取得する。なお、文解析部21で用いる係り受け解析器に制限はなく、一例として上記に示した言語構造に関する情報を取得することができるものであれば、どのような係り受け解析器を用いてもよい。
図2は、文解析部21での係り受け解析の実行結果の一例を示す図であり、例えば第2文として「メールが送信できない」を受け付けた場合、「メールが」が文節1、「送信できない」が文節2であり、文節1の係り先が文節2であることが示される。また、各々の文節は形態素毎に分類されて各形態素の品詞が示される。
更に、文解析部21は、係り受け解析の結果に基づいて、キーワード抽出ルールに従って、各々の文からキーワードを抽出する。なお、文解析部21で使用するキーワード抽出ルールに特に制限はなく、文同士の類似性の評価目的に応じて自由に規定することができる。一般的には、名詞及び動詞等の自立語となる単語をキーワードとして文から抽出することが好ましい。
文解析部21は、第1文及び第2文から取得した言語構造に関する情報、並びに抽出したキーワードを、各々の文と対応付けて管理する。
<ベクトル生成部>
ベクトル生成部22は、文解析部21での第1文及び第2文の解析結果に基づいて、文同士の類似度を評価するための概念ベクトルを作成する。
ベクトル生成部22は、まず各々の文に含まれるキーワードの概念ベクトルであるキーワードベクトルを生成する。また、ベクトル生成部22は、キーワードベクトルを合成することにより、文節及び係り受けのそれぞれの概念ベクトルである文節ベクトル及び係り受けベクトルを生成する。
キーワードベクトルを生成するためには、予め概念ベクトルモデルを生成しておく必要がある。概念ベクトルモデルは、概念ベクトル生成用の文書集合を用意し、概念ベクトル生成手法を用いて生成することができる。
なお、ベクトル生成部22で用いる概念ベクトル生成用の文書集合、及び概念ベクトル生成手法に特に制限はない。概念ベクトル生成用の文書集合には、例えば第1文として入力される可能性のある文の集合(入力文集合)と内容が重複するWikipedia(登録商標)のページ集合を用いてもよく、また、例えば入力文集合から抽出したキーワードを用いてWeb検索を行った場合の検索結果に含まれるWebのページ集合等、任意の文書集合を用いることができる。
また、概念ベクトル生成手法についても、例えば特異値分解を用いた潜在意味インデックス(Latent Semantic Indexing:LSI)、トピックモデル、及びニューラルネットワークを用いたモデル等、任意の概念ベクトル生成モデルを用いることができる。この際、ベクトル生成部22で用いる概念ベクトル生成モデルでは、文に含まれるキーワードのみならず、助詞等全ての形態素のベクトルも生成するようにする。
そして、ベクトル生成部22は、文節に含まれるキーワードのキーワードベクトル、及び当該文節に含まれるキーワード以外の形態素のベクトルを合成して、キーワードを含む文節の文節ベクトルを第1文及び第2文の各文について生成する。
なお、ベクトルの合成方法に制限はなく、重心ベクトルによる合成方法の他、Recursive AutoEncoder(RAE)等のニューラルネットワークを用いたベクトルの合成方法を用いてもよい。
具体的には、重心ベクトルによる合成方法を用いる場合、ベクトル生成部22は、文節内に含まれるキーワードを含む全ての形態素のベクトルの重心を計算し、当該重心を表すベクトルを、キーワードを含む文節の文節ベクトルとする。また、RAEによる合成方法を用いる場合、ベクトル生成部22は、まず、キーワードを含む文節の先頭から数えて1番目及び2番目に現われる2つの形態素のベクトルを合成し、当該合成した形態素のベクトルを、今度は3番目に現われる形態素のベクトルと合成する。以降、ベクトル生成部22は、形態素の語順に従って、合成した形態素のベクトルと、次に現われる形態素のベクトルと、を順次合成する処理を、文節に含まれる全ての形態素のベクトルを合成するまで繰り返し、最終的に合成された形態素のベクトルを、キーワードを含む文節の文節ベクトルとする。
次に、ベクトル生成部22は、文節の係り受け関係を表す係り受けベクトルを生成する。ここで文節の係り受け関係とは、2つの文節間の依存関係を表す。したがって、ベクトル生成部22は、文節の係り元と係り先における2つの文節の文節ベクトルを合成することによって係り受けベクトルを生成する。当該文節ベクトルの合成方法については、文節ベクトルの生成時と同様に制限はなく、重心ベクトルによる合成方法の他、RAE等のニューラルネットワークを用いたベクトルの合成方法といった任意のベクトルの合成方法を用いることができる。
日本語における文節の係り受けの場合、単方向の係り受け関係となるため、述部に相当する文節以外の文節には、係り先となる文節が1つ存在する。
例えば、「横浜で赤い帽子を買った」という文では、文節「赤い」の係り先の文節は「帽子を」となるため、ベクトル生成部22は、文節「赤い」に対応する文節ベクトルと、文節「帽子を」に対応する文節ベクトルとを合成して、「赤い帽子を」に対応する係り受けベクトルを生成する。
また、文節「横浜で」及び文節「帽子を」の係り先の文節は、共に文節「買った」となるため、ベクトル生成部22は、それぞれ「横浜で買った」に対応する係り受けベクトルと、「帽子を買った」に対応する係り受けベクトルを生成する。
なお、述部に相当する文節「買った」については、係り先となる文節が存在しないため、ベクトル生成部22は、文節「買った」に対応する文節ベクトルをそのまま係り受けベクトルとして用いる。
以上の処理により、ベクトル生成部22は、第1文及び第2文の各文について、キーワードベクトル群、キーワードを含む文節の文節ベクトル群、及びキーワードを含む文節の係り受け関係を表す係り受けベクトル群を生成し、各々の文と対応づける。
<計算部>
計算部23は、ベクトル生成部22で生成したキーワードベクトル、文節ベクトル、及び係り受けベクトルに基づいて、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度を計算する。この際、第1文と第2文のどちらの文を、類似度の評価を行いたい基準の文にするかによって類似度の計算結果が異なるが、前述したように、ここでは第1文を基準の文にして類似度を計算する。
まず、計算部23は、基準となる第1文に含まれるキーワードを1つ選択する。なお、第1文に含まれるキーワードは、文解析部21によって既に第1文から抽出されている。そして、計算部23は、第1文から選択したキーワード(注目キーワード)と、第2文に含まれる全てのキーワードとの類似度を、各々のキーワードに対応するキーワードベクトルを用いて計算し、第2文に含まれるキーワードのうち、注目キーワードと最も類似度が高くなるキーワード(対応キーワード)を選択する。
なお、計算部23で用いるキーワード同士の類似度の計算方法は、計算した類似度を示す値が0以上1以下の範囲の値を取るように正規化されるものであれば、どのような計算方法を用いてもよく、例えばコサイン距離等を用いることができる。類似度を示す値が“0”の場合は、キーワード同士が類似していないことを示し、類似度を示す値が大きくなるほど、キーワード同士の類似度が高いことを示す。そして、類似度を示す値が“1”の場合は、キーワード同士の類似度が最大であることを示す。
次に、計算部23は、第1文から選択した注目キーワードを含む文節と、注目キーワードと最も類似度が高い対応キーワードを含む第2文の文節と、の類似度を、各々の文節に対応する文節ベクトルを用いて、例えばキーワード同士の類似度を計算する際に用いた計算方法と同じ計算方法で計算する。
なお、第2文において、対応キーワードを含む文節が複数存在する場合には、計算部23は、注目キーワードを含む文節と、対応キーワードを含む全ての文節と、の類似度を各々計算し、類似度を示す値が最も大きくなる文節同士の組み合わせを選択する。
そして、計算部23は、注目キーワードを含む文節の係り受け関係と、対応キーワードを含む文節の係り受け関係と、の類似度を、各々の係り受け関係に対応する係り受けベクトルを用いて、例えばキーワード同士の類似度を計算する際に用いた計算方法と同じ計算方法で計算する。
すなわち、計算部23は、第1文から選択した注目キーワードに対して、第2文に含まれる対応キーワードとの間のキーワード同士の類似度、注目キーワードを含む文節と対応キーワードを含む文節との間の文節同士の類似度、及び注目キーワードを含む文節の係り受け関係と対応キーワードを含む文節の係り受け関係との間の文節の係り受け同士の類似度の3種類の類似度を計算する。
そして、計算部23は、第1文に含まれる全てのキーワードの各々を注目キーワードとして順次選択し、第1文に含まれる各々のキーワードに対して、上記に示した3種類の類似度を計算する。
<評価部>
評価部24は、計算部23で第1文に含まれる各々のキーワードに対して計算した3種類の類似度に基づいて、第1文と第2文との類似度を評価する。
具体的には、まず、類似度変化率算出部25において、3種類の類似度における類似度変化率を算出する。
ここで類似度変化率とは、キーワードから文節、文節から文節の係り受け関係へと、第1文と第2文との類似判定単位の粒度を粗くした場合における、類似度の変化を示す尺度である。
例えば、キーワード同士の類似度に対して文節同士の類似度が低下するほど、第1文と第2文とはキーワードレベルでは類似しているが、キーワードの周辺を含めた文節の単位では類似していないことを示すことになる。すなわち、キーワードレベルより粗い単位で見た場合、キーワード同士の類似度で表されるほど、お互いの文節は類似していないことを示している。
換言すれば、キーワード同士の類似度に対する、キーワードを含む文節まで拡張した文節同士の類似度の低下の度合いが少ないほど、第1文と第2文とは、キーワードレベルでの類似性をキーワードの周辺を含めた文節の単位でも維持していることを示すことになる。
同様に、文節同士の類似度に対して、文節の係り受け同士の類似度が低下するほど、第1文と第2文とは文節レベルでは類似しているが、文節の係り受け関係まで含めた単位では類似していないことを示すことになる。すなわち、文節より粗い単位で見た場合、文節同士の類似度で表されるほど、お互いの文節の係り受け関係は類似していないことを示している。
換言すれば、文節同士の類似度に対する、文節の係り受け同士の類似度の低下の度合いが少ないほど、第1文と第2文とは、文節レベルでの類似性を文節の係り受け関係まで含めた単位でも維持していることを示すことになる。
以上をまとめれば、より粗い粒度で類似度を比較しても類似度の低下の度合いが少ない文ほど、各々の文の類似性が高いということができる。
したがって、類似度変化率は、上記に示した類似度の変化の状況と適合するように、例えば類似判定単位を粗くすることに伴って第1文と第2文との類似度が低下するほど、類似変化率の絶対値が大きくなるように設定される。具体的には、類似度変化率算出部25は、第1文に含まれる全てのキーワードに対する類似度変化率を、(1)式及び(2)式を用いて計算する。

ここで、dws(word1)は第1文に含まれる任意のキーワードword1について、キーワードから文節へ類似判定単位を粗くした場合の類似度変化率を示す。word2はキーワードword1に対応する第2文の対応キーワードであり、sim(word1,word2)は、キーワード同士の類似度を示す。また、seg1はキーワードword1を含む文節を示し seg2はキーワードword2を含む文節を示す。したがって、sim(seg1,seg2)は、対応する文節同士の類似度を示す。
また、dsd(word1)は第1文に含まれる任意のキーワードword1について、キーワードword1を含む文節から、当該文節の係り受け関係へ類似判定単位を粗くした場合の類似度変化率を示す。dep1はキーワードword1を含む文節の係り受け関係を示し、dep2はキーワードword2を含む文節の係り受け関係を示す。したがって、sim(dep1,dep2)は、対応する文節の係り受け同士の類似度を示す。
なお、(1)式及び(2)式では、より類似判定単位が粗い場合の類似度から類似判定単位が細かい場合の類似度を減算しているが、より類似判定単位が細かい場合の類似度から類似判定単位が粗い場合の類似度を減算して、dws(word1)及びdsd(word1)を算出するようにしてもよい。
類似度評価部26は、計算部23で計算したキーワード同士の類似度と、類似度変化率算出部25で算出した類似度変化率とを用いて、第1文と第2文との類似度の程度をスコアとして表す。
具体的には、類似度評価部26は、第1文と第2文との類似度の程度を示すスコアSIM(S1,S2)を(3)式を用いて計算する。
ここで、S1は第1文、S2は第2文を表す。wは第1文S1に含まれるキーワードを表し、Nは第1文S1に含まれるキーワードの個数を表す。また、w's2はキーワードwと最も類似度が高くなる第2文S2の対応キーワードを表している。(3)式からわかるように、スコアSIM(S1,S2)は、0以上1以下の範囲の値を取るように正規化され、スコアSIM(S1,S2)が“1”に近づくほど、第1文S1と第2文S2が類似していることを示す。
以上により、演算部20で第1文と第2文との類似度が算出される。
<類似度評価装置の作用>
次に、第1実施形態に係る類似度評価装置100の作用について説明する。
類似度評価装置100は、自然言語で記述された第1文及び第2文をそれぞれ入力部10で受け付けると、受け付けた第1文及び第2文を例えば記憶部30に格納する。そして、類似度評価装置100は、CPUで図3に示す類似度評価処理ルーチンを実行する。
まず、ステップS100において、係り受け解析器を用いて、第1文及び第2文に対して係り受け解析を行い、各々の文から取得した言語構造に関する情報を取得する。そして、当該言語構造に関する情報に基づいて、第1文及び第2文の各々の文からキーワードを抽出し、取得した言語構造に関する情報及びキーワードを、各々の文と対応付けて記憶部30に格納する。
ステップS102において、ステップS100で取得した、第1文及び第2文の各々の文に対応する言語構造に関する情報及びキーワードを参照して、予め定めた概念ベクトルモデルに基づいて、各々の文に含まれるキーワードの各々についてキーワードベクトルを生成する。
そして、言語構造に関する情報に含まれる文節情報を参照し、文節に含まれるキーワードのキーワードベクトル、及び当該文節に含まれるキーワード以外の形態素のベクトルを合成することによって、第1文及び第2文の各々の文に対してキーワードを含む文節の各々の文節ベクトルを生成する。
更に、言語構造に関する情報に含まれる文節の係り受け関係を参照し、係り受け関係を有する文節ベクトルを合成することによって、第1文及び第2文の各々の文に対して、文節の係り受け関係の各々の係り受けベクトルを生成する。
なお、生成したキーワードベクトル、文節ベクトル、及び係り受けベクトルは、第1文及び第2文の各々の文と対応付けて記憶部30に格納する
ステップS104において、ステップS100で第1文に対応付けられた未選択のキーワードを注目キーワードとして、記憶部30から1つ選択する。
ステップS106において、ステップS104で選択した注目キーワードに対応するキーワードベクトルを記憶部30から取得する。そして、注目キーワードに対応するキーワードベクトルと、第2文に対応付けられた全てのキーワードベクトルと、のコサイン距離を各々計算して、注目キーワードに対応するキーワードベクトルと最もコサイン距離が短い第2文に対応付けられたキーワードベクトルで表されるキーワードを、対応キーワードとして取得する。この際、注目ベクトルと対応ベクトルとのコサイン距離を、キーワード同士の類似度として記憶部30に格納する。
ステップS108において、ステップS100で取得した言語構造に関する情報を参照して、ステップS104で選択した注目キーワードを含む第1文の文節と、ステップS106で取得した対応キーワードを含む第2文の文節と、を取得する。
そして、ステップS102で生成した、注目キーワードを含む第1文の文節に対応した文節ベクトルと、対応キーワードを含む第2文の文節に対応した文節ベクトルと、のコサイン距離を文節同士の類似度として計算し、計算した文節同士の類似度を記憶部30に格納する。
なお、文節同士の類似度は、コサイン距離以外の指標で表してもよいことは言うまでもない。
ステップS110において、ステップS100で取得した言語構造に関する情報を参照して、ステップS104で選択した注目キーワードを含む第1文の文節の係り受け関係と、ステップS106で取得した対応キーワードを含む第2文の文節の係り受け関係と、を取得する。
そして、ステップS102で生成した、注目キーワードを含む第1文の文節の係り受け関係に対応した係り受けベクトルと、対応キーワードを含む第2文の文節の係り受け関係に対応した係り受けベクトルと、のコサイン距離を文節の係り受け同士の類似度として計算し、計算した文節の係り受け同士の類似度を記憶部30に格納する。
なお、文節の係り受け同士の類似度は、コサイン距離以外の指標で表してもよいことは言うまでもない。
ステップS104〜S110の処理によって、注目キーワードと最も類似する第2文の対応キーワードとの間のキーワード同士の類似度、注目キーワードを含む文節と対応キーワードを含む文節との間の文節同士の類似度、及び、注目キーワードを含む文節の係り受け関係と対応キーワードを含む文節の係り受け関係との間の文節の係り受け同士の類似度が各々算出される。
ステップS112において、ステップS104で第1文に含まれる全てのキーワードを選択したか否か判定し、まだステップS104で選択されていないキーワードが存在する場合には、ステップS104に移行する。そして、第1文に含まれるキーワードの中から未選択のキーワードがなくなるまで、第1文に含まれる未選択のキーワードを注目キーワードとして選択することを繰り返すことで、第1文に含まれる各キーワードに対して、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度が算出される。
一方、ステップS112の判定処理が肯定判定の場合、すなわち、ステップS104で第1文に含まれる全てのキーワードを選択した場合には、ステップS114に移行する。
ステップS114において、ステップS106で算出した、第1文に含まれるキーワードword1と、当該キーワードに対応する第2文の対応キーワードword2とのキーワード同士の類似度sim(word1, word2)と、ステップS108で算出した、当該各々のキーワードに対応する文節同士の類似度sim(seg1,seg2)と、に基づいて、上記(1)式に従って、類似度変化率dws(word1)を第1文に含まれるキーワードword1毎に算出する。
また、ステップS108で算出した文節同士の類似度sim(seg1,seg2)と、ステップS110で算出した、当該各々の文節seg1及び文節seg2に対応する文節の係り受け同士の類似度sim(dep1,dep2)と、に基づいて、上記(2)式に従って、類似度変化率dsd(word1)を第1文に含まれるキーワードword1毎に算出する。
そして、ステップS116において、ステップS106で算出したキーワード同士の類似度sim(word1,word2)と、ステップS114で算出した類似度変化率dws(word1)及びdsd(word1)と、に基づいて、上記(3)式に従って、第1文S1と第2文S2との類似度の程度を示すスコアSIM(S1,S2)を算出する。算出したスコアSIM(S1,S2)は、記憶部30に格納され、出力部40によって、例えばディスプレイ等の表示装置に、第1文S1と第2文S2とのスコアSIM(S1,S2)が出力される。
なお、(3)式では、スコアSIM(S1,S2)の算出に類似度変化率dws(word1)及びdsd(word1)を用いているが、例えば類似度変化率dws(word1)及びdsd(word1)の少なくとも一方を用いてスコアSIM(S1,S2)を算出するようにしてもよい。
<類似度評価装置の実行結果>
図4は、「PWの変更をしたい」を第1文、「パスワードを変えたらログインできない」を第2文とした場合の、第1実施形態に係る類似度評価装置100でのスコアSIM(S1,S2)の算出過程の一例を示した図である。
この場合、第1文のキーワードとして、例えば「PW」及び「変更」が抽出され、第2文のキーワードとして、例えば「パスワード」、「変える」、「ログイン」が抽出される。なお、「変える」は「変えたら」の標準表記である。
キーワード同士の類似度を算出した場合、「PW」と最も類似度が高い第2文のキーワードは「パスワード」であり、類似度は0.90であった。また、「変更」と最も類似度が高い第2文のキーワードは「変える」であり、類似度は0.95であった。
文節同士の類似度を算出した場合、第1文のキーワード「PW」を含む文節「PWの」と、第2文のキーワード「パスワード」を含む文節「パスワードを」との文節同士の類似度は0.75であった。また、第1文のキーワード「変更」を含む文節「変更を」と、第2文のキーワード「変える」を含む文節「変えたら」との文節同士の類似度は0.32であった。
更に、文節の係り受け同士の類似度を算出した場合、第1文の文節「PWの」の係り先を含めた係り受け関係「PWの変更を」と、第2文の文節「パスワードを」の係り先を含めた係り受け関係「パスワードを変えたら」との類似度は0.15であった。また、第1文の文節「変更を」の係り先を含めた係り受け関係「変更をしたい」と、第2文の文節「変えたら」の係り先を含めた係り受け関係「変えたらログインできない」との類似度は0.04であった。
更に、キーワード「PW」に対する類似度変化率dws(PW)は、(1)式から“-0.15”となり、類似度変化率dsd(PW)は、(2)式から“-0.60”となる。また、キーワード「変更」に対する類似度変化率dws(変更)は、(1)式から“-0.63”となり、類似度変化率dsd(変更)は、(2)式から“-0.28”となる。
したがって、第1文「PWの変更をしたい」と第2文「パスワードを変えたらログインできない」との類似度の程度を示すスコアSIM(PWの変更をしたい, パスワードを変えたらログインできない)は、(3)式から“0.59”となる。
このように第1実施形態に係る類似度評価装置100は、自然言語で記述された2つの文の類似度を評価する場合、各々の文に含まれるキーワード同士の類似性の比較だけではなく、キーワードが含まれる文節及び文節の係り受け表現の意味といった、語順や構文の類似性まで考慮して、2つの文の類似性を評価する。
したがって、類似度評価装置100は、文に含まれるキーワード同士の類似性のみによって各々の文の類似性を評価する従来の類似度評価装置と比較して、比較対象となる文に対する類似度を精度よく評価することができる。
例えば、第1文「メールが送信できなくなった」と、第2文A「メールが送信できない」及び第2文B「送信できないメールがある」と、を各々比較した場合、キーワード「メール」だけに着目すると、第2文A及び第2文B共にキーワード「メール」を含むため、第1文と第2文Aの類似度、及び第1文と第2文Bの類似度の間に違いはない。
また、類似性の判定単位を文節まで広げた場合も、第1文の文節「メールが」は、第2文Aにも第2文Bにも含まれるため、第1文と第2文Aの類似度、及び第1文と第2文Bの類似度の間に違いはない。
しかしながら、類似性の判定単位を文節の係り受け関係まで広げた場合、第1文の「メールが送信できなくなった」に対して、第2文Aは「メールが送信できない」、第2文Bは「メールがある」となる。したがって、第1文は第2文Bよりも第2文Aに類似していることがわかり、その評価値がスコアとして出力される。
なお、第1実施形態に係る類似度評価装置100では、一例として、入力部10で第1文及び第2文をテキストとして受け付けるように説明した。しかし、例えば、入力部10で第1文及び第2文に対応する音声を受け付け、受け付けた音声に対して、音声をテキストに変換する公知の音声認識を行うことで、テキスト化された第1文及び第2文を取得するようにしてもよい。
この場合、類似度評価装置100の入力インターフェースとして音声を用いることができるため、類似度を評価する内容を予めテキストにする必要がない。したがって、入力としてテキストを受け付ける場合に比べて、類似度評価装置100の操作性を向上することができる。
<第2実施形態>
第1実施形態では、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度に基づいて算出した類似度変化率の低下の度合いが少ない文同士ほど、各々の文の類似性が高いことを説明したが、換言すれば、これは、文に含まれるキーワードの中で、より粗い類似判定単位の粒度で類似度を比較しても類似度の低下の度合いが少ないキーワードほど、文の類似性の判定に与える影響が大きい重要なキーワードであることを示している。
したがって、第2実施形態では、類似する第1文及び第2文の2つの文を入力して、第1文に含まれる各々のキーワードの重要度を評価するキーワード評価装置200について説明する。
<システム構成例>
図5は、キーワード評価装置200のシステム構成例を示す図である。図5のキーワード評価装置200のシステム構成が第1実施形態に係る図1の類似度評価装置100のシステム構成例と異なる点は、類似度評価部26がキーワード重要度評価部26Aに置き換えられ、それに伴い評価部24が評価部24Aに置き換えられた点である。
なお、その他のキーワード評価装置200の構成は、類似度評価装置100のシステム構成例と同様である。
キーワード重要度評価部26Aは、計算部23で計算したキーワード同士の類似度と、類似度変化率算出部25で算出した類似度変化率と、に基づいて、第1文に含まれるキーワード毎にキーワードの重要度を計算する。
第2文S2との類似性を判定する場合において、第1文S1に含まれるキーワードwの重要度SIM(S1,w,S2)は、例えば(4)式で計算される。
ここで、w's2は、(3)式で説明したように、第1文S1に含まれるキーワードwと最も類似度が高い第2文S2の対応キーワードを表している。また、(4)式からわかるように、重要度SIM(S1,w,S2)は、0以上1以下の範囲の値を取るように正規化され、重要度SIM(S1,w,S2)が“1”に近づくほど、キーワードwの重要度が高いことを示す。
<キーワード評価装置の作用>
キーワード評価装置200は、類似する第1文及び第2文をそれぞれ入力部10で受け付けると、受け付けた第1文及び第2文を例えば記憶部30に格納する。そして、キーワード評価装置200は、CPUで図6に示すキーワード評価処理ルーチンを実行する。
図6に示すキーワード評価処理ルーチンが、図3に示した第1実施形態に係る類似度評価装置100の類似度評価処理ルーチンと異なる点は、ステップS116がステップS118に置き換えられた点であり、その他の処理は、類似度評価装置100の類似度評価処理ルーチンと同じである。したがって、以下ではステップS118の処理について説明する。
ステップS118において、ステップS106で算出したキーワード同士の類似度sim(word1,word2)と、ステップS114で算出した類似度変化率dws(word1)及びdsd(word1)と、に基づいて、上記(4)式に従って、第2文に対する第1文の類似度の判定において、判定結果に影響を与える度合いを示すキーワードwの重要度SIM(S1,w,S2)をキーワードw毎に算出する。
算出した重要度SIM(S1,w,S2)は記憶部30に格納され、出力部40によって、例えばディスプレイ等の表示装置にキーワードw毎の重要度SIM(S1,w,S2)が出力される。
なお、キーワードwの重要度SIM(S1,w,S2)を算出する(4)式は一例であり、キーワード同士の類似度と、文節同士の類似度と、の変化値の絶対値が小さいほど、重要度SIM(S1,w,S2)を高く評価し、又は、文節同士の類似度と、文節の係り受け同士の類似度と、の変化値の絶対値が小さいほど、重要度SIM(S1,w,S2)を高く評価することができれば、(4)式の代わりに他の評価式を用いて重要度SIM(S1,w,S2)を算出してもよい。
このように第2実施形態に係るキーワード評価装置200によれば、少なくとも2つの類似度変化率dws(w)及びdsd(w)の絶対値が小さいほど、キーワードwの重要度SIM(S1,w,S2)を高く評価する。
したがって、例えばキーワードを入力して文を検索する検索システム等において、キーワード評価装置200で得られた、より重要度の高いキーワードを優先的に入力すれば、目的とする文を精度よく検索することができる。
なお、キーワード評価装置200では、第1実施形態に係る類似度評価装置100と同様に、第1文及び第2文に対応する音声を受け付け、音声をテキストに変換する公知の音声認識を行うことで、テキスト化された第1文及び第2文を取得するようにしてもよい。
<第3実施形態>
第1実施形態に係る類似度評価装置100、及び第2実施形態に係るキーワード評価装置200では、文同士の異なる粒度における類似度変化率dws(w)及びdsd(w)を算出し、算出した類似度変化率dws(w)及びdsd(w)に基づいて、文同士の類似度、又は、文同士の類似度の判定に用いられるキーワードの重要度を評価した。
第3実施形態では、第1実施形態に係る類似度評価装置100、及び第2実施形態に係るキーワード評価装置200と同様に、類似度変化率dws(w)及びdsd(w)を算出し、算出した類似度変化率dws(w)及びdsd(w)に基づいて、複数の文の中から、第1文に最も類似した文を検索する検索装置300について説明する。
<システム構成例>
図7は、検索装置300のシステム構成例を示す図である。図7の検索装置300のシステム構成例が第1実施形態に係る図1の類似度評価装置100のシステム構成例と異なる点は、類似度評価部26がクエリ文類似度評価部26Bに置き換えられ、それに伴い評価部24が評価部24Bに置き換えられた点である。更に、検索装置300には検索部27が追加され、記憶部30に検索対象文DB30Aが予め構築される。
その他の検索装置300の構成は、類似度評価装置100のシステム構成例と同様である。
検索対象文DB30Aには、複数の検索対象文が、上記第1実施形態と同様に生成されたキーワードベクトル、文節ベクトル、及び係り受けベクトルと対応付けられて予め格納されているものとする。
ここで、検索対象文の各々に対応付けられるキーワードベクトル、文節ベクトル、及び係り受けベクトルは、例えば検索装置300に検索対象文を入力した場合におけるベクトル生成部22の出力結果を用いることができる。
検索装置300では、検索対象文DB30Aに予め格納される複数の検索対象文の中から、自然言語で記述されたクエリ文の内容に最も類似する検索対象文を検索する。
このように、検索装置300では、複数の検索対象文が予め検索対象文DB30Aに格納されているため、第1実施形態に係る類似度評価装置100、及び第2実施形態に係るキーワード評価装置200とは異なり、クエリ文のみが入力部10に入力される。
したがって、文解析部21は、類似度評価装置100と同様の手法によって、入力部10から受け付けたクエリ文に対して係り受け解析を実行し、係り受け解析の結果に基づいて、クエリ文からキーワードを抽出する。
そして、ベクトル生成部22は、文解析部21でクエリ文から抽出したキーワードに基づいて、類似度評価装置100と同様の手法によってキーワードベクトル、文節ベクトル、及び係り受けベクトルを生成する。
また、計算部23は、ベクトル生成部22で生成したクエリ文に対応するキーワードベクトル、文節ベクトル、及び係り受けベクトルと、検索対象文DB30Aに格納される検索対象文に対応するキーワードベクトル、文節ベクトル、及び係り受けベクトルと、に基づいて、類似度評価装置100と同様の手法によってキーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度を計算する。
クエリ文類似度評価部26Bは、第1実施形態に係る類似度評価装置100の類似度評価部26と同様に、計算部23で計算したキーワード同士の類似度と、類似度変化率算出部25で算出した類似度変化率と、に基づいて、クエリ文S1に対して、(3)式のスコアSIM(S1,S2)を検索対象文S2毎に算出する。そして、クエリ文類似度評価部26Bは、例えばスコアSIM(S1,S2)が最も“1”に近くなる検索対象文S2を、クエリ文S1の内容に類似する検索対象文S2として評価する。
しかしながら、検索装置300のように、クエリ文の内容に対応する検索対象文を検索する装置の場合、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度が高いからといって、必ずしもクエリ文の内容に対応した適切な検索対象文が検索されるとは限られない。
例えば、文中に頻繁に出現するキーワードは文の主題を表しやすい一方、複数の文に頻繁に出現するキーワードは重要なキーワードではないといった傾向が見られる。
したがって、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度に加えて、更に、文中におけるキーワードの重みを考慮することが好ましい。
文中におけるキーワードの重み算出手法には、例えばTerm Frequency-Inverse Document Frequency(TF-IDF)法、又はBM25法などの公知の手法が存在するが、クエリ文類似度評価部26Bには、こうした公知のキーワードの重み算出手法を適用することができる。
したがって、クエリ文類似度評価部26Bは、公知のキーワードの重み算出手法を用いて算出したキーワードの重みを考慮した、クエリ文S1と検索対象文S2との類似度合いを示すスコアScore(S1,S2)を、例えば(5)式を用いて計算する。
ここで、SIM(S1,w,S2)は、(4)式で表されるクエリ文S1に含まれるキーワードwの重要度、すなわち、クエリ文S1に含まれるキーワードwのみに着目した場合の、クエリ文S1と検索対象文S2との類似度である。また、weightは重み値を表す。したがって、weight(argmaxws2(sim(w,ws2)))は、クエリ文S1に含まれるキーワードwと最も類似度が高くなる検索対象文S2中のキーワードws2の重み値である。
検索部27は、クエリ文類似度評価部26Bで算出されたスコアScore(S1,S2)を用いて、例えばスコアScore(S1,S2)に関して予め定めた条件を満たす検索対象文S2を検索対象文DB30Aから検索して、出力部40に出力する。
なお、検索装置300が、例えばインターネット等のネットワークに接続される場合、検索対象文DB30Aをネットワークに接続される記憶装置等の外部装置に格納し、検索装置300が外部装置に格納された検索対象文DB30Aを参照するようにしてもよい。
<検索装置の作用>
検索装置300は、自然言語で記述されたクエリ文を入力部10で受け付けると、受け付けたクエリ文を例えば記憶部30に格納する。そして、検索装置300は、CPUで図8に示す検索処理ルーチンを実行する。
図8に示す検索処理ルーチンが、図3に示した第1実施形態に係る類似度評価装置100の類似度評価処理ルーチンと異なる点は、ステップS106の代わりにステップS107が追加された点である。また、検索処理ルーチンでは、ステップS103、ステップS120、及びS122が新たに追加される。なお、その他の処理は、類似度評価装置100の類似度評価処理ルーチンと同じである。したがって、以下では類似度評価処理ルーチンと異なる処理を中心にして、検索処理ルーチンを説明する。
ステップS103において、検索対象文DB30Aに予め記憶されている複数の検索対象文のうち、未選択の検索対象文を1つ選択する。
そして、ステップS107において、ステップS103で選択した検索対象文に対応付けられたキーワードの中から、ステップS104で選択した注目キーワードに最も類似する対応キーワードを抽出する。なお、キーワード同士の類似度は、図3におけるステップS106と同様に、例えば注目キーワードと対応キーワードとに対応する各々のキーワードベクトルのコサイン距離によって計算すればよく、計算したコサイン距離をキーワード同士の類似度として記憶部30に格納する。
以降、ステップS108及びS110で、注目キーワードを含む文節と対応キーワードを含む文節同士の類似度、及び注目キーワードを含む文節の係り受けと対応キーワードを含む文節の係り受け同士の類似度を計算し、ステップS112でクエリ文に含まれる全てのキーワードについてステップS104〜S112の処理を実行したか判定する。
そして、ステップS114において、ステップS107で算出した、クエリ文に含まれるキーワードword1と、当該キーワードに対応する検索対象文の対応キーワードword2とのキーワード同士の類似度sim(word1, word2)と、ステップS108で算出した、当該各々のキーワードに対応する文節同士の類似度sim(seg1,seg2)と、に基づいて、上記(1)式に従って、類似度変化率dws(word1)をクエリ文に含まれるキーワード毎に算出する。
また、ステップS108で算出した文節同士の類似度sim(seg1,seg2)と、ステップS110で算出した、当該各々の文節seg1及び文節seg2に対応する文節の係り受け同士の類似度sim(dep1,dep2)と、に基づいて、上記(2)式に従って、類似度変化率dsd(word1)をクエリ文に含まれるキーワード毎に算出する。
次に、ステップS116において、ステップS107で算出したキーワード同士の類似度sim(word1,word2)と、ステップS114で算出した類似度変化率dws(word1)及びdsd(word1)と、に基づいて、上記(4)式に従って、クエリ文S1に含まれるキーワードwのみに着目した場合のクエリ文S1と検索対象文S2との類似度SIM(S1,w,S2)を、クエリ文S1のキーワード毎に算出する。
更に、本ステップで算出したキーワードw毎の類似度SIM(S1,w,S2)と、クエリ文S1に含まれるキーワードwと最も類似度が高くなる検索対象文S2中のキーワードws2の重み値と、に基づいて、上記(5)式に従って、スコアScore(S1,S2)を算出する。算出したスコアScore(S1,S2)は検索対象文S2と対応付けて、例えば検索対象文DB30Aに格納する。
なお、キーワードws2の重み値は、前述したようにTF-IDF法等の公知の重み算出手法を用いて算出すればよい。
ここでは一例として、(5)式に従ってクエリ文と検索対象文との類似度を算出したが、クエリ文と検索対象文との類似度の算出方法はこれに限られない。例えば、(3)式に従って類似度を算出してもよく、また、(4)式に従って算出した、クエリ文におけるキーワード毎の重要度SIM(S1,w,S2)の和を、クエリ文と検索対象文との類似度を示すスコアとしてもよい。
ステップS120において、ステップS103で検索対象文DB30Aに含まれる全ての検索対象文を選択したか否か判定し、まだステップS103で選択されていない検索対象文が存在する場合には、ステップS103に移行する。
そして、検索対象文DB30Aに含まれる検索対象文の中から未選択の検索対象文がなくなり、ステップS120の判定処理が肯定判定になるまでステップS103で検索対象文を繰り返し選択することで、ステップS116でクエリ文S1に対する各検索対象文S2のスコアScore(S1,S2)が算出される。
一方、ステップS120の判定処理が肯定判定となる場合には、ステップS122に移行する。
ステップS122において、各々の検索対象文に対応付けられたスコアScore(S1,S2)を参照し、予め定めた閾値以上のスコアScore(S1,S2)が対応付けられた検索対象文を、検索対象文DB30Aから検索して取得する。そして、出力部40で、ステップS122で取得した検索対象文を、例えばディスプレイ等の表示装置に出力する。
なお、ステップS122で取得する検索対象文は、予め定めた閾値以上のスコアScore(S1,S2)が対応付けられた検索対象文に限られない。例えば、スコアScore(S1,S2)の大きい方から順に予め定めた数の検索対象文を検索対象文DB30Aから検索して取得するようにしてもよい。
なお、検索装置300では、入力部10でクエリ文に対応する音声を受け付け、受け付けた音声に対して、音声をテキストに変換する公知の音声認識を行うことで、テキスト化されたクエリ文を取得するようにしてもよい。
この場合、検索装置300で受け付けた音声をそのまま検索に用いることができるため、入力としてテキストを受け付ける場合に比べて、検索装置300の操作性を向上することができる。
このように第3実施形態に係る検索装置300は、クエリ文の内容に類似する検索対象文を、記憶部30に予め記憶される検索対象文DB30Aから検索する。この場合、検索装置300は、クエリ文を受け付けた場合に、クエリ文に対してのみ係り受け解析器を用いて言語構造に関する情報を取得すると共に、クエリ文に含まれるキーワードに対応するキーワードベクトル、文節ベクトル、及び係り受けベクトルを生成する。すなわち、検索対象文に関するキーワードベクトル、文節ベクトル、及び係り受けベクトルは、検索対象文DB30Aに予め格納されているため、クエリ文を受け付ける毎に検索対象文に関する各種ベクトルを生成する場合と比較して、高速にスコアScore(S1,S2)を計算することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述の類似度評価装置100、キーワード評価装置200、及び検索装置300は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めROMにインストールされている実施形態を説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10・・・入力部
20・・・演算部
21・・・文解析部
22・・・ベクトル生成部
23・・・計算部
24(24A、24B)・・・評価部
25・・・類似度変化率算出部
26・・・類似度評価部
26A・・・キーワード重要度評価部
26B・・・クエリ文類似度評価部
27・・・検索部
30・・・記憶部
40・・・出力部
100・・・類似度評価装置
200・・・キーワード評価装置
300・・・検索装置
dsd、dws・・・類似度変化率
30A・・・検索対象文DB

Claims (12)

  1. 入力された第1文から抽出された第1のキーワードと、入力された第2文の中で前記第1のキーワードと類似するキーワードである第2のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算する計算部と、
    前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価する評価部と、
    を含むキーワード評価装置。
  2. 前記評価部は、前記計算部で計算された前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価し、又は、前記計算部で計算された前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価する
    請求項1記載のキーワード評価装置。
  3. 入力された第1文に含まれる単語と入力された第2文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第1文に含まれる単語を第1のキーワード、前記第2文に含まれる単語を第2のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算する計算部と、
    前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価する評価部と、
    を含む類似度評価装置。
  4. 前記評価部は、前記計算部で計算された前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価し、又は、前記計算部で計算された前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価する
    請求項3記載の類似度評価装置。
  5. 前記計算部は、入力された前記第1文に含まれる単語の各々について、前記第1文に含まれる単語を第1のキーワード、前記第1文に含まれる単語との類似度が最も高い、前記第2文に含まれる単語を第2のキーワードとし、前記キーワード同士の類似度、前記キーワードを含む文節同士の類似度、及び前記キーワードを含む文節の係り受け同士の類似度を計算し、
    前記評価部は、前記第1文に含まれる単語の各々について、前記第1のキーワードと前記第2のキーワードとの類似度と、前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値と、前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値とに基づいて算出されるスコアの平均値に基づいて、前記第1文と前記第2文とが類似しているかを評価する
    請求項4記載の類似度評価装置。
  6. 予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶する記憶部と、
    前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第1のキーワード、前記検索対象文に含まれるキーワードを第2のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を前記複数の検索対象文毎に計算する計算部と、
    前記複数の検索対象文毎に、前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価する評価部と、
    前記評価部による評価結果に基づいて、前記クエリ文に類似する検索対象文を検索する検索部と、
    を含む検索装置。
  7. 入力された第1文から抽出された第1のキーワードと、入力された第2文の中で前記第1のキーワードと類似するキーワードである第2のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算し、
    前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価する
    キーワードの評価方法。
  8. 入力された第1文に含まれる単語と入力された第2文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第1文に含まれる単語を第1のキーワード、前記第2文に含まれる単語を第2のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算し、
    前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価する
    文の類似度の評価方法。
  9. 予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶し、
    前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第1のキーワード、前記検索対象文に含まれるキーワードを第2のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を前記複数の検索対象文毎に計算し、
    前記複数の検索対象文毎に、計算した前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価し、
    前記評価に基づいて、前記クエリ文に類似する検索対象文を検索する
    文の検索方法。
  10. 請求項1又は請求項2記載のキーワード評価装置の各部としてコンピュータを機能させるためのプログラム。
  11. 請求項3〜請求項5の何れか1項に記載の類似度評価装置の各部としてコンピュータを機能させるためのプログラム。
  12. 請求項6記載の検索装置の各部としてコンピュータを機能させるためのプログラム。
JP2016093227A 2016-05-06 2016-05-06 キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム Active JP6433937B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016093227A JP6433937B2 (ja) 2016-05-06 2016-05-06 キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016093227A JP6433937B2 (ja) 2016-05-06 2016-05-06 キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017201478A true JP2017201478A (ja) 2017-11-09
JP6433937B2 JP6433937B2 (ja) 2018-12-05

Family

ID=60264626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016093227A Active JP6433937B2 (ja) 2016-05-06 2016-05-06 キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6433937B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6689466B1 (ja) * 2019-01-31 2020-04-28 三菱電機株式会社 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
WO2020170906A1 (ja) * 2019-02-20 2020-08-27 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
WO2020261479A1 (ja) * 2019-06-27 2020-12-30 株式会社島津製作所 関連文書を検索して表示する方法およびシステム
US11630824B2 (en) 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084252A (ja) * 1999-09-10 2001-03-30 Mitsubishi Electric Corp 類似文書検索システム及び方法並びに類似文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2009017135A1 (ja) * 2007-08-02 2009-02-05 Nec Corporation 情報提供支援装置および情報提供支援方法
JP2015197722A (ja) * 2014-03-31 2015-11-09 大日本印刷株式会社 文書検索装置、文書検索方法、プログラム、及び、文書検索システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084252A (ja) * 1999-09-10 2001-03-30 Mitsubishi Electric Corp 類似文書検索システム及び方法並びに類似文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2009017135A1 (ja) * 2007-08-02 2009-02-05 Nec Corporation 情報提供支援装置および情報提供支援方法
US20110023122A1 (en) * 2007-08-02 2011-01-27 Nec Corporation Information providing support device and information providing support method
JP2015197722A (ja) * 2014-03-31 2015-11-09 大日本印刷株式会社 文書検索装置、文書検索方法、プログラム、及び、文書検索システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11630824B2 (en) 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system
JP6689466B1 (ja) * 2019-01-31 2020-04-28 三菱電機株式会社 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
WO2020157887A1 (ja) * 2019-01-31 2020-08-06 三菱電機株式会社 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
WO2020170906A1 (ja) * 2019-02-20 2020-08-27 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
JP2020135457A (ja) * 2019-02-20 2020-08-31 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
JP7103264B2 (ja) 2019-02-20 2022-07-20 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
WO2020261479A1 (ja) * 2019-06-27 2020-12-30 株式会社島津製作所 関連文書を検索して表示する方法およびシステム
JPWO2020261479A1 (ja) * 2019-06-27 2020-12-30
JP7251625B2 (ja) 2019-06-27 2023-04-04 株式会社島津製作所 関連文書を検索して表示する方法およびシステム

Also Published As

Publication number Publication date
JP6433937B2 (ja) 2018-12-05

Similar Documents

Publication Publication Date Title
Devika et al. Sentiment analysis: a comparative study on different approaches
US9280535B2 (en) Natural language querying with cascaded conditional random fields
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP6433937B2 (ja) キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
US20150199609A1 (en) Self-learning system for determining the sentiment conveyed by an input text
JP2015060243A (ja) 検索装置、検索方法、およびプログラム
US10394961B2 (en) Foreign language sentence creation support apparatus, method, and program
JP2011118689A (ja) 検索方法及びシステム
JP6729095B2 (ja) 情報処理装置及びプログラム
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
Pirovani et al. Portuguese named entity recognition using conditional random fields and local grammars
JPWO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
Wijewickrema Impact of an ontology for automatic text classification
JP2012074087A (ja) 文書検索システム、文書検索プログラム、および文書検索方法
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP6375367B2 (ja) 反論生成方法,反論生成システム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
JP5320326B2 (ja) 記号変換装置、記号変換方法、記号変換プログラム
JP2004334602A (ja) 文書検索装置、文書検索処理プログラム及び記録媒体
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181107

R150 Certificate of patent or registration of utility model

Ref document number: 6433937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150