JP2017201478A

JP2017201478A - キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム

Info

Publication number: JP2017201478A
Application number: JP2016093227A
Authority: JP
Inventors: 淳史大塚; Atsushi Otsuka; 克人別所; Katsuto Bessho; 平野　徹; Toru Hirano; 徹平野; 久子浅野; Hisako Asano; 松尾　義博; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2017-11-09
Anticipated expiration: 2036-05-06
Also published as: JP6433937B2

Abstract

【課題】自然言語で記述された文に類似する文を精度よく検索するようにする。
【解決手段】類似度評価装置１００は、第１文に含まれる単語と第２文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける第１文に含まれる単語を第１のキーワード、第２文に含まれる単語を第２のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算し、少なくとも２つの類似度の変化値の絶対値が小さいほど、第１文と第２文とが類似していると評価する。
【選択図】図１

Description

本発明は、音声又はテキストを入力とするキーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラムに関する。

情報検索システムとして、ユーザが入力したクエリに対して、キーワードマッチ等の検索処理を行い、クエリに適合する文書を検索するシステムが知られている。しかし、キーワードマッチを用いた検索処理の場合には、クエリのキーワードと文書内のキーワードが完全一致していなくてはならず、検索の再現率（Recall）が低下してしまうという問題が発生することがある。そこで、クエリ中に含まれるキーワードを拡張して増加させ、ユーザが入力したクエリを、より幅広い文書にマッチさせるクエリ拡張が行われる場合がある（特許文献１）。

また、キーワードマッチ以外の検索手法として、概念検索が知られている。概念検索は、キーワードを連続値のN次元ベクトルで表現し、N次元ベクトルの重心をクエリベクトルと見なす。同様に、文書ベクトルも文書内のキーワードベクトルの重心で表現し、クエリベクトルと文書ベクトルの類似度を計算し、類似度が高い順に検索結果を出力することで、クエリに適合する文書の検索を実行する。概念検索ではキーワードマッチと異なり、キーワードが完全一致しなくてもクエリに近い話題に関する文書が検索可能になるという利点がある（特許文献２）。

特開２０１０−１２３０３６号公報特開２０１０−１８２０４１号公報

しかしながら、キーワードマッチ及び概念検索では、クエリをキーワードの集合（bag-of-words）とみなすことを前提としている。つまり、自然言語の形式でクエリが入力された場合、形態素解析やキーワード抽出により、自然言語からキーワードを抽出することで、クエリに近い話題を含む文書等の検索を行っている。

したがって、自然言語からキーワードを抽出してキーワード集合を生成する過程で、自然言語が本来持っていた語順や構文情報が欠落してしまう状況が発生する場合がある。

例えば、FAQ検索において、「メールが送信できない」と「送信できないメールがある」という、自然言語で表現された２つのクエリが入力されたとする。この２つのクエリが表す意味は異なるが、２つのクエリをキーワード集合に変換すると、共に「メール、送信、できない」という同じ要素を含むキーワード集合になってしまい、２つのクエリの違いが区別できなくなってしまう。このように、自然言語による情報検索を行う際には、文に含まれるキーワードのみでなく、キーワード周辺の文脈を考慮しなければならないことがある。

本発明は、上記の事情を鑑みて成されたものであり、自然言語で表される入力文に含まれるキーワードの重要度を精度よく評価することができるキーワード評価装置、キーワードの評価方法、及びプログラムを提供することを目的とする。また、自然言語で表される入力文と、比較対象となる文と、の類似度を評価し、入力文に類似する文を精度よく検索することができる類似度評価装置、検索装置、類似度の評価方法、検索方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係るキーワード評価装置は、入力された第１文から抽出された第１のキーワードと、入力された第２文の中で前記第１のキーワードと類似するキーワードである第２のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算する計算部と、前記計算部で計算された前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記第１のキーワードの重要度を高く評価する評価部と、を含んで構成されている。

本発明に係る類似度評価装置は、入力された第１文に含まれる単語と入力された第２文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第１文に含まれる単語を第１のキーワード、前記第２文に含まれる単語を第２のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算する計算部と、前記計算部で計算された前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記第１文と前記第２文とが類似していると評価する評価部と、を含んで構成されている。

本発明に係る検索装置は、予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶する記憶部と、前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第１のキーワード、前記検索対象文に含まれるキーワードを第２のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を前記複数の検索対象文毎に計算する計算部と、前記複数の検索対象文毎に、前記計算部で計算された前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価する評価部と、前記評価部による評価結果に基づいて、前記クエリ文に類似する検索対象文を検索する検索部と、を含んで構成されている。

本発明に係るキーワードの評価方法は、入力された第１文から抽出された第１のキーワードと、入力された第２文の中で前記第１のキーワードと類似するキーワードである第２のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算し、前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記第１のキーワードの重要度を高く評価する。

本発明に係る文の類似度の評価方法は、入力された第１文に含まれる単語と入力された第２文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第１文に含まれる単語を第１のキーワード、前記第２文に含まれる単語を第２のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算し、前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記第１文と前記第２文とが類似していると評価する。

本発明に係る文の検索方法は、予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶し、前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第１のキーワード、前記検索対象文に含まれるキーワードを第２のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を前記複数の検索対象文毎に計算し、前記複数の検索対象文毎に、計算した前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価し、前記評価に基づいて、前記クエリ文に類似する検索対象文を検索する。

本発明に係るキーワード評価装置のプログラムは、キーワード評価装置の各部としてコンピュータを機能させるためのプログラムである。

本発明に係る類似度評価装置のプログラムは、類似度評価装置の各部としてコンピュータを機能させるためのプログラムである。

本発明に係る検索装置のプログラムは、検索装置の各部としてコンピュータを機能させるためのプログラムである。

以上説明したように、本発明のキーワード評価装置、キーワードの評価方法、及びプログラムによれば、自然言語で表される入力文に含まれるキーワードの重要度を精度よく評価することができる、という効果が得られる。
また、本発明の類似度評価装置、検索装置、類似度の評価方法、検索方法、及びプログラムによれば、自然言語で表される入力文と、比較対象となる文と、の類似度を評価し、入力文に類似する文を精度よく検索することができる、という効果が得られる。

第１実施形態に係る類似度評価装置の構成例を示す概略図である。係り受け解析の実行結果の一例について説明する図である。類似度評価装置における類似度評価処理ルーチンの処理の一例を示すフローチャートである。類似度評価処理ルーチンを実行した場合におけるスコアの算出過程の一例を示す図である。第２実施形態に係るキーワード評価装置の構成例を示す概略図である。キーワード評価装置におけるキーワード評価処理ルーチンの処理の一例を示すフローチャートである。第３実施形態に係る検索装置の構成例を示す概略図である。検索装置における検索処理ルーチンの処理の一例を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、以下では、同じ働きを担う構成要素又は処理には全図面を通して同じ符号を付与し、重複する説明を適宜省略する。

＜第１実施形態＞
第１実施形態では、自然言語で記述された第１文及び第２文の２つの文を入力とし、２つの文の類似度を数値化してスコアとして出力する類似度評価装置１００について説明する。

＜システム構成＞
図１は、類似度評価装置１００のシステム構成例を示す図である。図１に示すように、類似度評価装置１００は、ＣＰＵと、ＲＡＭと、後述する類似度評価処理ルーチンを実行するためのプログラムを記憶したＲＯＭと、を備えたコンピュータで構成され、機能的には次に示すように構成されている。

類似度評価装置１００は、入力部１０、演算部２０、記憶部３０、及び出力部４０を備える。また、演算部２０は、文解析部２１、ベクトル生成部２２、計算部２３、及び評価部２４を含むと共に、評価部２４は、類似度変化率算出部２５及び類似度評価部２６を含む。

入力部１０に入力される第１文及び第２文は、文解析部２１に出力される。文解析部２１では、第１文及び第２文の各々に対して、キーワード抽出及び文節の係り受け解析といった言語処理を行い、第１文と第２文の言語構造を解析する。

ベクトル生成部２２は、文解析部２１で行われた第１文と第２文の言語構造の解析結果を入力として、各々の文について、キーワード、文節、及び文節の係り受けといった異なる表現単位毎に概念ベクトルを生成する。

そして、計算部２３は、ベクトル生成部２２で生成された各表現単位毎の概念ベクトルを入力として、キーワード同士、文節同士、及び文節の係り受け同士の類似度を計算する。

評価部２４は、計算部２３で計算されたキーワード同士、文節同士、及び文節の係り受け同士の類似度を入力として、類似度変化率算出部２５で類似度変化率を算出し、算出した類似度変化率に基づいて、類似度評価部２６で第１文と第２文の最終的な類似度を数値化してスコアとして評価する。

出力部４０は、評価部２４で評価されたスコアを出力して、第１文と第２文の類似度を通知する。

なお、以降では、キーワード、文節、及び文節の係り受けといった各々の表現単位の粒度について述べる場合がある。キーワードに比べて文節の方が表現単位の粒度が粗く、文節に比べて文節の係り受けまで含めた範囲の方が表現単位の粒度が粗いため、キーワードの粒度が最も細かく、文節の係り受けの粒度が最も粗くなる。

次に、演算部２０の処理内容について詳細に説明する。

＜文解析部＞
文解析部２１は、第１文及び第２文の各文に対して言語処理を実行して、係り受け解析及びキーワード抽出を行う。

文解析部２１は、第１文及び第２文の各々の文に対して、例えば係り受け解析器を用いて、文中の形態素、各形態素の品詞、文節情報（文節数、文節に含まれる形態素）、文節間の係り受け関係等の言語構造に関する情報を取得する。なお、文解析部２１で用いる係り受け解析器に制限はなく、一例として上記に示した言語構造に関する情報を取得することができるものであれば、どのような係り受け解析器を用いてもよい。

図２は、文解析部２１での係り受け解析の実行結果の一例を示す図であり、例えば第２文として「メールが送信できない」を受け付けた場合、「メールが」が文節１、「送信できない」が文節２であり、文節１の係り先が文節２であることが示される。また、各々の文節は形態素毎に分類されて各形態素の品詞が示される。

更に、文解析部２１は、係り受け解析の結果に基づいて、キーワード抽出ルールに従って、各々の文からキーワードを抽出する。なお、文解析部２１で使用するキーワード抽出ルールに特に制限はなく、文同士の類似性の評価目的に応じて自由に規定することができる。一般的には、名詞及び動詞等の自立語となる単語をキーワードとして文から抽出することが好ましい。

文解析部２１は、第１文及び第２文から取得した言語構造に関する情報、並びに抽出したキーワードを、各々の文と対応付けて管理する。

＜ベクトル生成部＞
ベクトル生成部２２は、文解析部２１での第１文及び第２文の解析結果に基づいて、文同士の類似度を評価するための概念ベクトルを作成する。

ベクトル生成部２２は、まず各々の文に含まれるキーワードの概念ベクトルであるキーワードベクトルを生成する。また、ベクトル生成部２２は、キーワードベクトルを合成することにより、文節及び係り受けのそれぞれの概念ベクトルである文節ベクトル及び係り受けベクトルを生成する。

キーワードベクトルを生成するためには、予め概念ベクトルモデルを生成しておく必要がある。概念ベクトルモデルは、概念ベクトル生成用の文書集合を用意し、概念ベクトル生成手法を用いて生成することができる。

なお、ベクトル生成部２２で用いる概念ベクトル生成用の文書集合、及び概念ベクトル生成手法に特に制限はない。概念ベクトル生成用の文書集合には、例えば第１文として入力される可能性のある文の集合（入力文集合）と内容が重複するWikipedia（登録商標）のページ集合を用いてもよく、また、例えば入力文集合から抽出したキーワードを用いてWeb検索を行った場合の検索結果に含まれるWebのページ集合等、任意の文書集合を用いることができる。

また、概念ベクトル生成手法についても、例えば特異値分解を用いた潜在意味インデックス（Latent Semantic Indexing:LSI）、トピックモデル、及びニューラルネットワークを用いたモデル等、任意の概念ベクトル生成モデルを用いることができる。この際、ベクトル生成部２２で用いる概念ベクトル生成モデルでは、文に含まれるキーワードのみならず、助詞等全ての形態素のベクトルも生成するようにする。

そして、ベクトル生成部２２は、文節に含まれるキーワードのキーワードベクトル、及び当該文節に含まれるキーワード以外の形態素のベクトルを合成して、キーワードを含む文節の文節ベクトルを第１文及び第２文の各文について生成する。

なお、ベクトルの合成方法に制限はなく、重心ベクトルによる合成方法の他、Recursive AutoEncoder(RAE)等のニューラルネットワークを用いたベクトルの合成方法を用いてもよい。

具体的には、重心ベクトルによる合成方法を用いる場合、ベクトル生成部２２は、文節内に含まれるキーワードを含む全ての形態素のベクトルの重心を計算し、当該重心を表すベクトルを、キーワードを含む文節の文節ベクトルとする。また、RAEによる合成方法を用いる場合、ベクトル生成部２２は、まず、キーワードを含む文節の先頭から数えて１番目及び２番目に現われる２つの形態素のベクトルを合成し、当該合成した形態素のベクトルを、今度は３番目に現われる形態素のベクトルと合成する。以降、ベクトル生成部２２は、形態素の語順に従って、合成した形態素のベクトルと、次に現われる形態素のベクトルと、を順次合成する処理を、文節に含まれる全ての形態素のベクトルを合成するまで繰り返し、最終的に合成された形態素のベクトルを、キーワードを含む文節の文節ベクトルとする。

次に、ベクトル生成部２２は、文節の係り受け関係を表す係り受けベクトルを生成する。ここで文節の係り受け関係とは、２つの文節間の依存関係を表す。したがって、ベクトル生成部２２は、文節の係り元と係り先における２つの文節の文節ベクトルを合成することによって係り受けベクトルを生成する。当該文節ベクトルの合成方法については、文節ベクトルの生成時と同様に制限はなく、重心ベクトルによる合成方法の他、RAE等のニューラルネットワークを用いたベクトルの合成方法といった任意のベクトルの合成方法を用いることができる。

日本語における文節の係り受けの場合、単方向の係り受け関係となるため、述部に相当する文節以外の文節には、係り先となる文節が１つ存在する。

例えば、「横浜で赤い帽子を買った」という文では、文節「赤い」の係り先の文節は「帽子を」となるため、ベクトル生成部２２は、文節「赤い」に対応する文節ベクトルと、文節「帽子を」に対応する文節ベクトルとを合成して、「赤い帽子を」に対応する係り受けベクトルを生成する。

また、文節「横浜で」及び文節「帽子を」の係り先の文節は、共に文節「買った」となるため、ベクトル生成部２２は、それぞれ「横浜で買った」に対応する係り受けベクトルと、「帽子を買った」に対応する係り受けベクトルを生成する。

なお、述部に相当する文節「買った」については、係り先となる文節が存在しないため、ベクトル生成部２２は、文節「買った」に対応する文節ベクトルをそのまま係り受けベクトルとして用いる。

以上の処理により、ベクトル生成部２２は、第１文及び第２文の各文について、キーワードベクトル群、キーワードを含む文節の文節ベクトル群、及びキーワードを含む文節の係り受け関係を表す係り受けベクトル群を生成し、各々の文と対応づける。

＜計算部＞
計算部２３は、ベクトル生成部２２で生成したキーワードベクトル、文節ベクトル、及び係り受けベクトルに基づいて、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度を計算する。この際、第１文と第２文のどちらの文を、類似度の評価を行いたい基準の文にするかによって類似度の計算結果が異なるが、前述したように、ここでは第１文を基準の文にして類似度を計算する。

まず、計算部２３は、基準となる第１文に含まれるキーワードを１つ選択する。なお、第１文に含まれるキーワードは、文解析部２１によって既に第１文から抽出されている。そして、計算部２３は、第１文から選択したキーワード（注目キーワード）と、第２文に含まれる全てのキーワードとの類似度を、各々のキーワードに対応するキーワードベクトルを用いて計算し、第２文に含まれるキーワードのうち、注目キーワードと最も類似度が高くなるキーワード（対応キーワード）を選択する。

なお、計算部２３で用いるキーワード同士の類似度の計算方法は、計算した類似度を示す値が０以上１以下の範囲の値を取るように正規化されるものであれば、どのような計算方法を用いてもよく、例えばコサイン距離等を用いることができる。類似度を示す値が“０”の場合は、キーワード同士が類似していないことを示し、類似度を示す値が大きくなるほど、キーワード同士の類似度が高いことを示す。そして、類似度を示す値が“１”の場合は、キーワード同士の類似度が最大であることを示す。

次に、計算部２３は、第１文から選択した注目キーワードを含む文節と、注目キーワードと最も類似度が高い対応キーワードを含む第２文の文節と、の類似度を、各々の文節に対応する文節ベクトルを用いて、例えばキーワード同士の類似度を計算する際に用いた計算方法と同じ計算方法で計算する。

なお、第２文において、対応キーワードを含む文節が複数存在する場合には、計算部２３は、注目キーワードを含む文節と、対応キーワードを含む全ての文節と、の類似度を各々計算し、類似度を示す値が最も大きくなる文節同士の組み合わせを選択する。

そして、計算部２３は、注目キーワードを含む文節の係り受け関係と、対応キーワードを含む文節の係り受け関係と、の類似度を、各々の係り受け関係に対応する係り受けベクトルを用いて、例えばキーワード同士の類似度を計算する際に用いた計算方法と同じ計算方法で計算する。

すなわち、計算部２３は、第１文から選択した注目キーワードに対して、第２文に含まれる対応キーワードとの間のキーワード同士の類似度、注目キーワードを含む文節と対応キーワードを含む文節との間の文節同士の類似度、及び注目キーワードを含む文節の係り受け関係と対応キーワードを含む文節の係り受け関係との間の文節の係り受け同士の類似度の３種類の類似度を計算する。

そして、計算部２３は、第１文に含まれる全てのキーワードの各々を注目キーワードとして順次選択し、第１文に含まれる各々のキーワードに対して、上記に示した３種類の類似度を計算する。

＜評価部＞
評価部２４は、計算部２３で第１文に含まれる各々のキーワードに対して計算した３種類の類似度に基づいて、第１文と第２文との類似度を評価する。

具体的には、まず、類似度変化率算出部２５において、３種類の類似度における類似度変化率を算出する。

ここで類似度変化率とは、キーワードから文節、文節から文節の係り受け関係へと、第１文と第２文との類似判定単位の粒度を粗くした場合における、類似度の変化を示す尺度である。

例えば、キーワード同士の類似度に対して文節同士の類似度が低下するほど、第１文と第２文とはキーワードレベルでは類似しているが、キーワードの周辺を含めた文節の単位では類似していないことを示すことになる。すなわち、キーワードレベルより粗い単位で見た場合、キーワード同士の類似度で表されるほど、お互いの文節は類似していないことを示している。

換言すれば、キーワード同士の類似度に対する、キーワードを含む文節まで拡張した文節同士の類似度の低下の度合いが少ないほど、第１文と第２文とは、キーワードレベルでの類似性をキーワードの周辺を含めた文節の単位でも維持していることを示すことになる。

同様に、文節同士の類似度に対して、文節の係り受け同士の類似度が低下するほど、第１文と第２文とは文節レベルでは類似しているが、文節の係り受け関係まで含めた単位では類似していないことを示すことになる。すなわち、文節より粗い単位で見た場合、文節同士の類似度で表されるほど、お互いの文節の係り受け関係は類似していないことを示している。

換言すれば、文節同士の類似度に対する、文節の係り受け同士の類似度の低下の度合いが少ないほど、第１文と第２文とは、文節レベルでの類似性を文節の係り受け関係まで含めた単位でも維持していることを示すことになる。

以上をまとめれば、より粗い粒度で類似度を比較しても類似度の低下の度合いが少ない文ほど、各々の文の類似性が高いということができる。

したがって、類似度変化率は、上記に示した類似度の変化の状況と適合するように、例えば類似判定単位を粗くすることに伴って第１文と第２文との類似度が低下するほど、類似変化率の絶対値が大きくなるように設定される。具体的には、類似度変化率算出部２５は、第１文に含まれる全てのキーワードに対する類似度変化率を、（１）式及び（２）式を用いて計算する。

ここで、d_ws(word₁)は第１文に含まれる任意のキーワードword₁について、キーワードから文節へ類似判定単位を粗くした場合の類似度変化率を示す。word₂はキーワードword₁に対応する第２文の対応キーワードであり、sim(word₁,word₂)は、キーワード同士の類似度を示す。また、seg₁はキーワードword₁を含む文節を示し seg₂はキーワードword₂を含む文節を示す。したがって、sim(seg₁,seg₂)は、対応する文節同士の類似度を示す。

また、d_sd(word₁)は第１文に含まれる任意のキーワードword₁について、キーワードword₁を含む文節から、当該文節の係り受け関係へ類似判定単位を粗くした場合の類似度変化率を示す。dep₁はキーワードword₁を含む文節の係り受け関係を示し、dep₂はキーワードword₂を含む文節の係り受け関係を示す。したがって、sim(dep₁,dep₂)は、対応する文節の係り受け同士の類似度を示す。

なお、（１）式及び（２）式では、より類似判定単位が粗い場合の類似度から類似判定単位が細かい場合の類似度を減算しているが、より類似判定単位が細かい場合の類似度から類似判定単位が粗い場合の類似度を減算して、d_ws(word₁)及びd_sd(word₁)を算出するようにしてもよい。

類似度評価部２６は、計算部２３で計算したキーワード同士の類似度と、類似度変化率算出部２５で算出した類似度変化率とを用いて、第１文と第２文との類似度の程度をスコアとして表す。

具体的には、類似度評価部２６は、第１文と第２文との類似度の程度を示すスコアSIM(S₁,S₂)を（３）式を用いて計算する。

ここで、S₁は第１文、S₂は第２文を表す。wは第１文S₁に含まれるキーワードを表し、Nは第１文S₁に含まれるキーワードの個数を表す。また、w'_s2はキーワードwと最も類似度が高くなる第２文S₂の対応キーワードを表している。（３）式からわかるように、スコアSIM(S₁,S₂)は、０以上１以下の範囲の値を取るように正規化され、スコアSIM(S₁,S₂)が“１”に近づくほど、第１文S₁と第２文S₂が類似していることを示す。

以上により、演算部２０で第１文と第２文との類似度が算出される。

＜類似度評価装置の作用＞
次に、第１実施形態に係る類似度評価装置１００の作用について説明する。

類似度評価装置１００は、自然言語で記述された第１文及び第２文をそれぞれ入力部１０で受け付けると、受け付けた第１文及び第２文を例えば記憶部３０に格納する。そして、類似度評価装置１００は、ＣＰＵで図３に示す類似度評価処理ルーチンを実行する。

まず、ステップＳ１００において、係り受け解析器を用いて、第１文及び第２文に対して係り受け解析を行い、各々の文から取得した言語構造に関する情報を取得する。そして、当該言語構造に関する情報に基づいて、第１文及び第２文の各々の文からキーワードを抽出し、取得した言語構造に関する情報及びキーワードを、各々の文と対応付けて記憶部３０に格納する。

ステップＳ１０２において、ステップＳ１００で取得した、第１文及び第２文の各々の文に対応する言語構造に関する情報及びキーワードを参照して、予め定めた概念ベクトルモデルに基づいて、各々の文に含まれるキーワードの各々についてキーワードベクトルを生成する。

そして、言語構造に関する情報に含まれる文節情報を参照し、文節に含まれるキーワードのキーワードベクトル、及び当該文節に含まれるキーワード以外の形態素のベクトルを合成することによって、第１文及び第２文の各々の文に対してキーワードを含む文節の各々の文節ベクトルを生成する。

更に、言語構造に関する情報に含まれる文節の係り受け関係を参照し、係り受け関係を有する文節ベクトルを合成することによって、第１文及び第２文の各々の文に対して、文節の係り受け関係の各々の係り受けベクトルを生成する。

なお、生成したキーワードベクトル、文節ベクトル、及び係り受けベクトルは、第１文及び第２文の各々の文と対応付けて記憶部３０に格納する

ステップＳ１０４において、ステップＳ１００で第１文に対応付けられた未選択のキーワードを注目キーワードとして、記憶部３０から１つ選択する。

ステップＳ１０６において、ステップＳ１０４で選択した注目キーワードに対応するキーワードベクトルを記憶部３０から取得する。そして、注目キーワードに対応するキーワードベクトルと、第２文に対応付けられた全てのキーワードベクトルと、のコサイン距離を各々計算して、注目キーワードに対応するキーワードベクトルと最もコサイン距離が短い第２文に対応付けられたキーワードベクトルで表されるキーワードを、対応キーワードとして取得する。この際、注目ベクトルと対応ベクトルとのコサイン距離を、キーワード同士の類似度として記憶部３０に格納する。

ステップＳ１０８において、ステップＳ１００で取得した言語構造に関する情報を参照して、ステップＳ１０４で選択した注目キーワードを含む第１文の文節と、ステップＳ１０６で取得した対応キーワードを含む第２文の文節と、を取得する。

そして、ステップＳ１０２で生成した、注目キーワードを含む第１文の文節に対応した文節ベクトルと、対応キーワードを含む第２文の文節に対応した文節ベクトルと、のコサイン距離を文節同士の類似度として計算し、計算した文節同士の類似度を記憶部３０に格納する。

なお、文節同士の類似度は、コサイン距離以外の指標で表してもよいことは言うまでもない。

ステップＳ１１０において、ステップＳ１００で取得した言語構造に関する情報を参照して、ステップＳ１０４で選択した注目キーワードを含む第１文の文節の係り受け関係と、ステップＳ１０６で取得した対応キーワードを含む第２文の文節の係り受け関係と、を取得する。

そして、ステップＳ１０２で生成した、注目キーワードを含む第１文の文節の係り受け関係に対応した係り受けベクトルと、対応キーワードを含む第２文の文節の係り受け関係に対応した係り受けベクトルと、のコサイン距離を文節の係り受け同士の類似度として計算し、計算した文節の係り受け同士の類似度を記憶部３０に格納する。

なお、文節の係り受け同士の類似度は、コサイン距離以外の指標で表してもよいことは言うまでもない。

ステップＳ１０４〜Ｓ１１０の処理によって、注目キーワードと最も類似する第２文の対応キーワードとの間のキーワード同士の類似度、注目キーワードを含む文節と対応キーワードを含む文節との間の文節同士の類似度、及び、注目キーワードを含む文節の係り受け関係と対応キーワードを含む文節の係り受け関係との間の文節の係り受け同士の類似度が各々算出される。

ステップＳ１１２において、ステップＳ１０４で第１文に含まれる全てのキーワードを選択したか否か判定し、まだステップＳ１０４で選択されていないキーワードが存在する場合には、ステップＳ１０４に移行する。そして、第１文に含まれるキーワードの中から未選択のキーワードがなくなるまで、第１文に含まれる未選択のキーワードを注目キーワードとして選択することを繰り返すことで、第１文に含まれる各キーワードに対して、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度が算出される。

一方、ステップＳ１１２の判定処理が肯定判定の場合、すなわち、ステップＳ１０４で第１文に含まれる全てのキーワードを選択した場合には、ステップＳ１１４に移行する。

ステップＳ１１４において、ステップＳ１０６で算出した、第１文に含まれるキーワードword₁と、当該キーワードに対応する第２文の対応キーワードword₂とのキーワード同士の類似度sim(word₁, word₂)と、ステップＳ１０８で算出した、当該各々のキーワードに対応する文節同士の類似度sim(seg₁,seg₂)と、に基づいて、上記（１）式に従って、類似度変化率d_ws(word₁)を第１文に含まれるキーワードword₁毎に算出する。

また、ステップＳ１０８で算出した文節同士の類似度sim(seg₁,seg₂)と、ステップＳ１１０で算出した、当該各々の文節seg₁及び文節seg₂に対応する文節の係り受け同士の類似度sim(dep₁,dep₂)と、に基づいて、上記（２）式に従って、類似度変化率d_sd(word₁)を第１文に含まれるキーワードword₁毎に算出する。

そして、ステップＳ１１６において、ステップＳ１０６で算出したキーワード同士の類似度sim(word₁,word₂)と、ステップＳ１１４で算出した類似度変化率d_ws(word₁)及びd_sd(word₁)と、に基づいて、上記（３）式に従って、第１文S₁と第２文S₂との類似度の程度を示すスコアSIM(S₁,S₂)を算出する。算出したスコアSIM(S₁,S₂)は、記憶部３０に格納され、出力部４０によって、例えばディスプレイ等の表示装置に、第１文S₁と第２文S₂とのスコアSIM(S₁,S₂)が出力される。

なお、（３）式では、スコアSIM(S₁,S₂)の算出に類似度変化率d_ws(word₁)及びd_sd(word₁)を用いているが、例えば類似度変化率d_ws(word₁)及びd_sd(word₁)の少なくとも一方を用いてスコアSIM(S₁,S₂)を算出するようにしてもよい。

＜類似度評価装置の実行結果＞
図４は、「ＰＷの変更をしたい」を第１文、「パスワードを変えたらログインできない」を第２文とした場合の、第１実施形態に係る類似度評価装置１００でのスコアSIM(S₁,S₂)の算出過程の一例を示した図である。

この場合、第１文のキーワードとして、例えば「ＰＷ」及び「変更」が抽出され、第２文のキーワードとして、例えば「パスワード」、「変える」、「ログイン」が抽出される。なお、「変える」は「変えたら」の標準表記である。

キーワード同士の類似度を算出した場合、「ＰＷ」と最も類似度が高い第２文のキーワードは「パスワード」であり、類似度は0.90であった。また、「変更」と最も類似度が高い第２文のキーワードは「変える」であり、類似度は0.95であった。

文節同士の類似度を算出した場合、第１文のキーワード「ＰＷ」を含む文節「ＰＷの」と、第２文のキーワード「パスワード」を含む文節「パスワードを」との文節同士の類似度は0.75であった。また、第１文のキーワード「変更」を含む文節「変更を」と、第２文のキーワード「変える」を含む文節「変えたら」との文節同士の類似度は0.32であった。

更に、文節の係り受け同士の類似度を算出した場合、第１文の文節「ＰＷの」の係り先を含めた係り受け関係「ＰＷの変更を」と、第２文の文節「パスワードを」の係り先を含めた係り受け関係「パスワードを変えたら」との類似度は0.15であった。また、第１文の文節「変更を」の係り先を含めた係り受け関係「変更をしたい」と、第２文の文節「変えたら」の係り先を含めた係り受け関係「変えたらログインできない」との類似度は0.04であった。

更に、キーワード「ＰＷ」に対する類似度変化率d_ws(ＰＷ)は、（１）式から“-0.15”となり、類似度変化率d_sd(ＰＷ)は、（２）式から“-0.60”となる。また、キーワード「変更」に対する類似度変化率d_ws(変更)は、（１）式から“-0.63”となり、類似度変化率d_sd(変更)は、（２）式から“-0.28”となる。

したがって、第１文「ＰＷの変更をしたい」と第２文「パスワードを変えたらログインできない」との類似度の程度を示すスコアSIM(ＰＷの変更をしたい, パスワードを変えたらログインできない)は、（３）式から“0.59”となる。

このように第１実施形態に係る類似度評価装置１００は、自然言語で記述された２つの文の類似度を評価する場合、各々の文に含まれるキーワード同士の類似性の比較だけではなく、キーワードが含まれる文節及び文節の係り受け表現の意味といった、語順や構文の類似性まで考慮して、２つの文の類似性を評価する。

したがって、類似度評価装置１００は、文に含まれるキーワード同士の類似性のみによって各々の文の類似性を評価する従来の類似度評価装置と比較して、比較対象となる文に対する類似度を精度よく評価することができる。

例えば、第１文「メールが送信できなくなった」と、第２文Ａ「メールが送信できない」及び第２文Ｂ「送信できないメールがある」と、を各々比較した場合、キーワード「メール」だけに着目すると、第２文Ａ及び第２文Ｂ共にキーワード「メール」を含むため、第１文と第２文Ａの類似度、及び第１文と第２文Ｂの類似度の間に違いはない。

また、類似性の判定単位を文節まで広げた場合も、第１文の文節「メールが」は、第２文Ａにも第２文Ｂにも含まれるため、第１文と第２文Ａの類似度、及び第１文と第２文Ｂの類似度の間に違いはない。

しかしながら、類似性の判定単位を文節の係り受け関係まで広げた場合、第１文の「メールが送信できなくなった」に対して、第２文Ａは「メールが送信できない」、第２文Ｂは「メールがある」となる。したがって、第１文は第２文Ｂよりも第２文Ａに類似していることがわかり、その評価値がスコアとして出力される。

なお、第１実施形態に係る類似度評価装置１００では、一例として、入力部１０で第１文及び第２文をテキストとして受け付けるように説明した。しかし、例えば、入力部１０で第１文及び第２文に対応する音声を受け付け、受け付けた音声に対して、音声をテキストに変換する公知の音声認識を行うことで、テキスト化された第１文及び第２文を取得するようにしてもよい。

この場合、類似度評価装置１００の入力インターフェースとして音声を用いることができるため、類似度を評価する内容を予めテキストにする必要がない。したがって、入力としてテキストを受け付ける場合に比べて、類似度評価装置１００の操作性を向上することができる。

＜第２実施形態＞
第１実施形態では、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度に基づいて算出した類似度変化率の低下の度合いが少ない文同士ほど、各々の文の類似性が高いことを説明したが、換言すれば、これは、文に含まれるキーワードの中で、より粗い類似判定単位の粒度で類似度を比較しても類似度の低下の度合いが少ないキーワードほど、文の類似性の判定に与える影響が大きい重要なキーワードであることを示している。

したがって、第２実施形態では、類似する第１文及び第２文の２つの文を入力して、第１文に含まれる各々のキーワードの重要度を評価するキーワード評価装置２００について説明する。

＜システム構成例＞
図５は、キーワード評価装置２００のシステム構成例を示す図である。図５のキーワード評価装置２００のシステム構成が第１実施形態に係る図１の類似度評価装置１００のシステム構成例と異なる点は、類似度評価部２６がキーワード重要度評価部２６Ａに置き換えられ、それに伴い評価部２４が評価部２４Ａに置き換えられた点である。

なお、その他のキーワード評価装置２００の構成は、類似度評価装置１００のシステム構成例と同様である。

キーワード重要度評価部２６Ａは、計算部２３で計算したキーワード同士の類似度と、類似度変化率算出部２５で算出した類似度変化率と、に基づいて、第１文に含まれるキーワード毎にキーワードの重要度を計算する。

第２文S₂との類似性を判定する場合において、第１文S₁に含まれるキーワードwの重要度SIM(S_1,w,S₂)は、例えば（４）式で計算される。

ここで、w'_s2は、（３）式で説明したように、第１文S₁に含まれるキーワードwと最も類似度が高い第２文S₂の対応キーワードを表している。また、（４）式からわかるように、重要度SIM(S_1,w,S₂)は、０以上１以下の範囲の値を取るように正規化され、重要度SIM(S_1,w,S₂)が“１”に近づくほど、キーワードwの重要度が高いことを示す。

＜キーワード評価装置の作用＞
キーワード評価装置２００は、類似する第１文及び第２文をそれぞれ入力部１０で受け付けると、受け付けた第１文及び第２文を例えば記憶部３０に格納する。そして、キーワード評価装置２００は、ＣＰＵで図６に示すキーワード評価処理ルーチンを実行する。

図６に示すキーワード評価処理ルーチンが、図３に示した第１実施形態に係る類似度評価装置１００の類似度評価処理ルーチンと異なる点は、ステップＳ１１６がステップＳ１１８に置き換えられた点であり、その他の処理は、類似度評価装置１００の類似度評価処理ルーチンと同じである。したがって、以下ではステップＳ１１８の処理について説明する。

ステップＳ１１８において、ステップＳ１０６で算出したキーワード同士の類似度sim(word₁,word₂)と、ステップＳ１１４で算出した類似度変化率d_ws(word₁)及びd_sd(word₁)と、に基づいて、上記（４）式に従って、第２文に対する第１文の類似度の判定において、判定結果に影響を与える度合いを示すキーワードwの重要度SIM(S_1,w,S₂)をキーワードw毎に算出する。

算出した重要度SIM(S_1,w,S₂)は記憶部３０に格納され、出力部４０によって、例えばディスプレイ等の表示装置にキーワードw毎の重要度SIM(S_1,w,S₂)が出力される。

なお、キーワードwの重要度SIM(S_1,w,S₂)を算出する（４）式は一例であり、キーワード同士の類似度と、文節同士の類似度と、の変化値の絶対値が小さいほど、重要度SIM(S_1,w,S₂)を高く評価し、又は、文節同士の類似度と、文節の係り受け同士の類似度と、の変化値の絶対値が小さいほど、重要度SIM(S_1,w,S₂)を高く評価することができれば、（４）式の代わりに他の評価式を用いて重要度SIM(S_1,w,S₂)を算出してもよい。

このように第２実施形態に係るキーワード評価装置２００によれば、少なくとも２つの類似度変化率d_ws(w)及びd_sd(w)の絶対値が小さいほど、キーワードwの重要度SIM(S_1,w,S₂)を高く評価する。

したがって、例えばキーワードを入力して文を検索する検索システム等において、キーワード評価装置２００で得られた、より重要度の高いキーワードを優先的に入力すれば、目的とする文を精度よく検索することができる。

なお、キーワード評価装置２００では、第１実施形態に係る類似度評価装置１００と同様に、第１文及び第２文に対応する音声を受け付け、音声をテキストに変換する公知の音声認識を行うことで、テキスト化された第１文及び第２文を取得するようにしてもよい。

＜第３実施形態＞
第１実施形態に係る類似度評価装置１００、及び第２実施形態に係るキーワード評価装置２００では、文同士の異なる粒度における類似度変化率d_ws(w)及びd_sd(w)を算出し、算出した類似度変化率d_ws(w)及びd_sd(w)に基づいて、文同士の類似度、又は、文同士の類似度の判定に用いられるキーワードの重要度を評価した。

第３実施形態では、第１実施形態に係る類似度評価装置１００、及び第２実施形態に係るキーワード評価装置２００と同様に、類似度変化率d_ws(w)及びd_sd(w)を算出し、算出した類似度変化率d_ws(w)及びd_sd(w)に基づいて、複数の文の中から、第１文に最も類似した文を検索する検索装置３００について説明する。

＜システム構成例＞
図７は、検索装置３００のシステム構成例を示す図である。図７の検索装置３００のシステム構成例が第１実施形態に係る図１の類似度評価装置１００のシステム構成例と異なる点は、類似度評価部２６がクエリ文類似度評価部２６Ｂに置き換えられ、それに伴い評価部２４が評価部２４Ｂに置き換えられた点である。更に、検索装置３００には検索部２７が追加され、記憶部３０に検索対象文ＤＢ３０Ａが予め構築される。

その他の検索装置３００の構成は、類似度評価装置１００のシステム構成例と同様である。

検索対象文ＤＢ３０Ａには、複数の検索対象文が、上記第１実施形態と同様に生成されたキーワードベクトル、文節ベクトル、及び係り受けベクトルと対応付けられて予め格納されているものとする。

ここで、検索対象文の各々に対応付けられるキーワードベクトル、文節ベクトル、及び係り受けベクトルは、例えば検索装置３００に検索対象文を入力した場合におけるベクトル生成部２２の出力結果を用いることができる。

検索装置３００では、検索対象文ＤＢ３０Ａに予め格納される複数の検索対象文の中から、自然言語で記述されたクエリ文の内容に最も類似する検索対象文を検索する。

このように、検索装置３００では、複数の検索対象文が予め検索対象文ＤＢ３０Ａに格納されているため、第１実施形態に係る類似度評価装置１００、及び第２実施形態に係るキーワード評価装置２００とは異なり、クエリ文のみが入力部１０に入力される。

したがって、文解析部２１は、類似度評価装置１００と同様の手法によって、入力部１０から受け付けたクエリ文に対して係り受け解析を実行し、係り受け解析の結果に基づいて、クエリ文からキーワードを抽出する。

そして、ベクトル生成部２２は、文解析部２１でクエリ文から抽出したキーワードに基づいて、類似度評価装置１００と同様の手法によってキーワードベクトル、文節ベクトル、及び係り受けベクトルを生成する。

また、計算部２３は、ベクトル生成部２２で生成したクエリ文に対応するキーワードベクトル、文節ベクトル、及び係り受けベクトルと、検索対象文ＤＢ３０Ａに格納される検索対象文に対応するキーワードベクトル、文節ベクトル、及び係り受けベクトルと、に基づいて、類似度評価装置１００と同様の手法によってキーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度を計算する。

クエリ文類似度評価部２６Ｂは、第１実施形態に係る類似度評価装置１００の類似度評価部２６と同様に、計算部２３で計算したキーワード同士の類似度と、類似度変化率算出部２５で算出した類似度変化率と、に基づいて、クエリ文S₁に対して、（３）式のスコアSIM(S₁,S₂)を検索対象文S₂毎に算出する。そして、クエリ文類似度評価部２６Ｂは、例えばスコアSIM(S₁,S₂)が最も“１”に近くなる検索対象文S₂を、クエリ文S₁の内容に類似する検索対象文S₂として評価する。

しかしながら、検索装置３００のように、クエリ文の内容に対応する検索対象文を検索する装置の場合、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度が高いからといって、必ずしもクエリ文の内容に対応した適切な検索対象文が検索されるとは限られない。

例えば、文中に頻繁に出現するキーワードは文の主題を表しやすい一方、複数の文に頻繁に出現するキーワードは重要なキーワードではないといった傾向が見られる。

したがって、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度に加えて、更に、文中におけるキーワードの重みを考慮することが好ましい。

文中におけるキーワードの重み算出手法には、例えばTerm Frequency-Inverse Document Frequency(TF-IDF)法、又はBM25法などの公知の手法が存在するが、クエリ文類似度評価部２６Ｂには、こうした公知のキーワードの重み算出手法を適用することができる。

したがって、クエリ文類似度評価部２６Ｂは、公知のキーワードの重み算出手法を用いて算出したキーワードの重みを考慮した、クエリ文S₁と検索対象文S₂との類似度合いを示すスコアScore(S₁,S₂)を、例えば（５）式を用いて計算する。

ここで、SIM(S_1,w,S₂)は、（４）式で表されるクエリ文S₁に含まれるキーワードwの重要度、すなわち、クエリ文S₁に含まれるキーワードwのみに着目した場合の、クエリ文S₁と検索対象文S₂との類似度である。また、weightは重み値を表す。したがって、weight(argmax_ws2(sim(w,w_s2)))は、クエリ文S₁に含まれるキーワードwと最も類似度が高くなる検索対象文S₂中のキーワードw_s2の重み値である。

検索部２７は、クエリ文類似度評価部２６Ｂで算出されたスコアScore(S₁,S₂)を用いて、例えばスコアScore(S₁,S₂)に関して予め定めた条件を満たす検索対象文S₂を検索対象文ＤＢ３０Ａから検索して、出力部４０に出力する。

なお、検索装置３００が、例えばインターネット等のネットワークに接続される場合、検索対象文ＤＢ３０Ａをネットワークに接続される記憶装置等の外部装置に格納し、検索装置３００が外部装置に格納された検索対象文ＤＢ３０Ａを参照するようにしてもよい。

＜検索装置の作用＞
検索装置３００は、自然言語で記述されたクエリ文を入力部１０で受け付けると、受け付けたクエリ文を例えば記憶部３０に格納する。そして、検索装置３００は、ＣＰＵで図８に示す検索処理ルーチンを実行する。

図８に示す検索処理ルーチンが、図３に示した第１実施形態に係る類似度評価装置１００の類似度評価処理ルーチンと異なる点は、ステップＳ１０６の代わりにステップＳ１０７が追加された点である。また、検索処理ルーチンでは、ステップＳ１０３、ステップＳ１２０、及びＳ１２２が新たに追加される。なお、その他の処理は、類似度評価装置１００の類似度評価処理ルーチンと同じである。したがって、以下では類似度評価処理ルーチンと異なる処理を中心にして、検索処理ルーチンを説明する。

ステップＳ１０３において、検索対象文ＤＢ３０Ａに予め記憶されている複数の検索対象文のうち、未選択の検索対象文を１つ選択する。

そして、ステップＳ１０７において、ステップＳ１０３で選択した検索対象文に対応付けられたキーワードの中から、ステップＳ１０４で選択した注目キーワードに最も類似する対応キーワードを抽出する。なお、キーワード同士の類似度は、図３におけるステップＳ１０６と同様に、例えば注目キーワードと対応キーワードとに対応する各々のキーワードベクトルのコサイン距離によって計算すればよく、計算したコサイン距離をキーワード同士の類似度として記憶部３０に格納する。

以降、ステップＳ１０８及びＳ１１０で、注目キーワードを含む文節と対応キーワードを含む文節同士の類似度、及び注目キーワードを含む文節の係り受けと対応キーワードを含む文節の係り受け同士の類似度を計算し、ステップＳ１１２でクエリ文に含まれる全てのキーワードについてステップＳ１０４〜Ｓ１１２の処理を実行したか判定する。

そして、ステップＳ１１４において、ステップＳ１０７で算出した、クエリ文に含まれるキーワードword₁と、当該キーワードに対応する検索対象文の対応キーワードword₂とのキーワード同士の類似度sim(word₁, word₂)と、ステップＳ１０８で算出した、当該各々のキーワードに対応する文節同士の類似度sim(seg₁,seg₂)と、に基づいて、上記（１）式に従って、類似度変化率d_ws(word₁)をクエリ文に含まれるキーワード毎に算出する。

また、ステップＳ１０８で算出した文節同士の類似度sim(seg₁,seg₂)と、ステップＳ１１０で算出した、当該各々の文節seg₁及び文節seg₂に対応する文節の係り受け同士の類似度sim(dep₁,dep₂)と、に基づいて、上記（２）式に従って、類似度変化率d_sd(word₁)をクエリ文に含まれるキーワード毎に算出する。

次に、ステップＳ１１６において、ステップＳ１０７で算出したキーワード同士の類似度sim(word₁,word₂)と、ステップＳ１１４で算出した類似度変化率d_ws(word₁)及びd_sd(word₁)と、に基づいて、上記（４）式に従って、クエリ文S₁に含まれるキーワードwのみに着目した場合のクエリ文S₁と検索対象文S₂との類似度SIM(S_1,w,S₂)を、クエリ文S₁のキーワード毎に算出する。

更に、本ステップで算出したキーワードw毎の類似度SIM(S_1,w,S₂)と、クエリ文S₁に含まれるキーワードwと最も類似度が高くなる検索対象文S₂中のキーワードw_s2の重み値と、に基づいて、上記（５）式に従って、スコアScore(S₁,S₂)を算出する。算出したスコアScore(S₁,S₂)は検索対象文S₂と対応付けて、例えば検索対象文ＤＢ３０Ａに格納する。

なお、キーワードw_s2の重み値は、前述したようにTF-IDF法等の公知の重み算出手法を用いて算出すればよい。

ここでは一例として、（５）式に従ってクエリ文と検索対象文との類似度を算出したが、クエリ文と検索対象文との類似度の算出方法はこれに限られない。例えば、（３）式に従って類似度を算出してもよく、また、（４）式に従って算出した、クエリ文におけるキーワード毎の重要度SIM(S_1,w,S₂)の和を、クエリ文と検索対象文との類似度を示すスコアとしてもよい。

ステップＳ１２０において、ステップＳ１０３で検索対象文ＤＢ３０Ａに含まれる全ての検索対象文を選択したか否か判定し、まだステップＳ１０３で選択されていない検索対象文が存在する場合には、ステップＳ１０３に移行する。

そして、検索対象文ＤＢ３０Ａに含まれる検索対象文の中から未選択の検索対象文がなくなり、ステップＳ１２０の判定処理が肯定判定になるまでステップＳ１０３で検索対象文を繰り返し選択することで、ステップＳ１１６でクエリ文S₁に対する各検索対象文S₂のスコアScore(S₁,S₂)が算出される。

一方、ステップＳ１２０の判定処理が肯定判定となる場合には、ステップＳ１２２に移行する。

ステップＳ１２２において、各々の検索対象文に対応付けられたスコアScore(S₁,S₂)を参照し、予め定めた閾値以上のスコアScore(S₁,S₂)が対応付けられた検索対象文を、検索対象文ＤＢ３０Ａから検索して取得する。そして、出力部４０で、ステップＳ１２２で取得した検索対象文を、例えばディスプレイ等の表示装置に出力する。

なお、ステップＳ１２２で取得する検索対象文は、予め定めた閾値以上のスコアScore(S₁,S₂)が対応付けられた検索対象文に限られない。例えば、スコアScore(S₁,S₂)の大きい方から順に予め定めた数の検索対象文を検索対象文ＤＢ３０Ａから検索して取得するようにしてもよい。

なお、検索装置３００では、入力部１０でクエリ文に対応する音声を受け付け、受け付けた音声に対して、音声をテキストに変換する公知の音声認識を行うことで、テキスト化されたクエリ文を取得するようにしてもよい。

この場合、検索装置３００で受け付けた音声をそのまま検索に用いることができるため、入力としてテキストを受け付ける場合に比べて、検索装置３００の操作性を向上することができる。

このように第３実施形態に係る検索装置３００は、クエリ文の内容に類似する検索対象文を、記憶部３０に予め記憶される検索対象文ＤＢ３０Ａから検索する。この場合、検索装置３００は、クエリ文を受け付けた場合に、クエリ文に対してのみ係り受け解析器を用いて言語構造に関する情報を取得すると共に、クエリ文に含まれるキーワードに対応するキーワードベクトル、文節ベクトル、及び係り受けベクトルを生成する。すなわち、検索対象文に関するキーワードベクトル、文節ベクトル、及び係り受けベクトルは、検索対象文ＤＢ３０Ａに予め格納されているため、クエリ文を受け付ける毎に検索対象文に関する各種ベクトルを生成する場合と比較して、高速にスコアScore(S₁,S₂)を計算することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述の類似度評価装置１００、キーワード評価装置２００、及び検索装置３００は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めＲＯＭにインストールされている実施形態を説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０・・・入力部
２０・・・演算部
２１・・・文解析部
２２・・・ベクトル生成部
２３・・・計算部
２４（２４Ａ、２４Ｂ）・・・評価部
２５・・・類似度変化率算出部
２６・・・類似度評価部
２６Ａ・・・キーワード重要度評価部
２６Ｂ・・・クエリ文類似度評価部
２７・・・検索部
３０・・・記憶部
４０・・・出力部
１００・・・類似度評価装置
２００・・・キーワード評価装置
３００・・・検索装置
d_sd、d_ws・・・類似度変化率
３０Ａ・・・検索対象文ＤＢ

Claims

入力された第１文から抽出された第１のキーワードと、入力された第２文の中で前記第１のキーワードと類似するキーワードである第２のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算する計算部と、
前記計算部で計算された前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記第１のキーワードの重要度を高く評価する評価部と、
を含むキーワード評価装置。
前記評価部は、前記計算部で計算された前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値が小さいほど、前記第１のキーワードの重要度を高く評価し、又は、前記計算部で計算された前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値が小さいほど、前記第１のキーワードの重要度を高く評価する
請求項１記載のキーワード評価装置。
入力された第１文に含まれる単語と入力された第２文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第１文に含まれる単語を第１のキーワード、前記第２文に含まれる単語を第２のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算する計算部と、
前記計算部で計算された前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記第１文と前記第２文とが類似していると評価する評価部と、
を含む類似度評価装置。
前記評価部は、前記計算部で計算された前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値が小さいほど、前記第１文と前記第２文とが類似していると評価し、又は、前記計算部で計算された前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値が小さいほど、前記第１文と前記第２文とが類似していると評価する
請求項３記載の類似度評価装置。
前記計算部は、入力された前記第１文に含まれる単語の各々について、前記第１文に含まれる単語を第１のキーワード、前記第１文に含まれる単語との類似度が最も高い、前記第２文に含まれる単語を第２のキーワードとし、前記キーワード同士の類似度、前記キーワードを含む文節同士の類似度、及び前記キーワードを含む文節の係り受け同士の類似度を計算し、
前記評価部は、前記第１文に含まれる単語の各々について、前記第１のキーワードと前記第２のキーワードとの類似度と、前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値と、前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値とに基づいて算出されるスコアの平均値に基づいて、前記第１文と前記第２文とが類似しているかを評価する
請求項４記載の類似度評価装置。
予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶する記憶部と、
前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第１のキーワード、前記検索対象文に含まれるキーワードを第２のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を前記複数の検索対象文毎に計算する計算部と、
前記複数の検索対象文毎に、前記計算部で計算された前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価する評価部と、
前記評価部による評価結果に基づいて、前記クエリ文に類似する検索対象文を検索する検索部と、
を含む検索装置。
入力された第１文から抽出された第１のキーワードと、入力された第２文の中で前記第１のキーワードと類似するキーワードである第２のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算し、
前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記第１のキーワードの重要度を高く評価する
キーワードの評価方法。
入力された第１文に含まれる単語と入力された第２文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第１文に含まれる単語を第１のキーワード、前記第２文に含まれる単語を第２のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を計算し、
前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記第１文と前記第２文とが類似していると評価する
文の類似度の評価方法。
予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶し、
前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第１のキーワード、前記検索対象文に含まれるキーワードを第２のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも２つの類似度を前記複数の検索対象文毎に計算し、
前記複数の検索対象文毎に、計算した前記少なくとも２つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価し、
前記評価に基づいて、前記クエリ文に類似する検索対象文を検索する
文の検索方法。
請求項１又は請求項２記載のキーワード評価装置の各部としてコンピュータを機能させるためのプログラム。
請求項３〜請求項５の何れか１項に記載の類似度評価装置の各部としてコンピュータを機能させるためのプログラム。
請求項６記載の検索装置の各部としてコンピュータを機能させるためのプログラム。