JP7324058B2

JP7324058B2 - 文章解析方法、文章解析プログラム、および文章解析システム

Info

Publication number: JP7324058B2
Application number: JP2019106584A
Authority: JP
Inventors: 健一横手; 真岩山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2023-08-09
Anticipated expiration: 2039-06-06
Also published as: JP2020201607A; US20200387668A1; CN112052661A

Description

本発明は、概して文章解析方法、文章解析プログラム、および文章解析システムに関する。

例えば新聞記事とそれに対応するＳＮＳ（Social Networking Service）上の投稿のように、対となる二つの文書があるとき、後者の各文が、前者の何れの文に基づいて書かれたかを推定する技術がある。本技術を用いれば、例えばＳＮＳ上の投稿に対応する情報を新聞記事から収集できる。この様な情報は、投稿内容の背景を確認することや、投稿内容を信用するかどうかの意思決定に役立つ。

文と文の対応関係の推定は、一方の文に含まれる単語が他方の文にも含まれるかどうかなどで行う。例えば特許文献１および特許文献２には、二つの文における単語間の対応関係を推定する方法が開示されている。

特開２０１９－１６０７４号公報特開２０１２－１４２４５号公報

例えば、「被災者を助けるべきだ」と「被災者を救うべきだ」の二文は、「助ける」と「救う」に対応関係がある。この様に完全一致でない単語間の対応関係を推定する方法として、単語間の類似度を計測して元の単語から別の単語を抽出し、別の単語と完全一致すれば、対応関係があると判断する方法がある。この例示では、「被災者を助けるべきだ」の「助ける」から「救う」を抽出し、「被災者を救うべきだ」の「救う」との完全一致を評価することで、「助ける」と「救う」の対応関係を評価する。

単語間の類似度の計測には、概念辞書や単語分散表現を用いる方法がある。ここで、抽出時に元の単語と高い類似度が評価された別の単語を「類義語」と定義する。また、抽出時に元の単語と低い類似度が評価された別の単語を「関連語」と定義する。関連語は、「被災者が苦しんでいる」と「被災者を救うべきだ」の様に、単語間の類似度が低いが対応関係を有する二文を推定することを可能にする場合がある。一方で、「被災者が苦しんでいる」と「糖尿病患者が苦しんでいる」の二文の様に、単語間の類似度が低いことは、必ずしも二文が対応関係を有することを示すものではない。

さらに、文の対応関係を推定するための要素として不適切な関連語を「ノイズ」と定義する。前述の例示では、「被災者」から関連語として抽出した「糖尿病患者」がノイズである。関連語にはノイズが多く、対応関係を有する文を検索する際に用いると、精度を改善する効果より、精度を劣化させる影響の方が大きい。

本発明は以上の点を考慮してなされたもので、対応関係を有する文章を精度良く検索することを１つの目的とする。

かかる課題を解決するため本発明においては、１つの目的を解決する一手段として、文章解析システムが行う文章解析方法は、第一テキストおよび第二テキストのそれぞれから、要素分解処理を実行して得られるテキストの構成単位を生成し、前記第一テキストの構成単位と、前記第二テキストの構成単位との各構成単位ペアの類似度を計測する計測ステップと、前記各構成単位ペアが、前記類似度が所定値以上である類義語、および、前記類似度が前記所定値未満である関連語の何れであるかを判定する類義語関連語判定ステップと、前記類義語関連語判定ステップによって判定された類義語をもとに、前記第二テキストから前記関連語を適用する関連語適用可能領域を特定する特定ステップと、前記類義語関連語判定ステップによって判定された関連語をもとに、前記関連語適用可能領域と前記第一テキストとの対応関係を判定する対応関係判定ステップとを含んだことを特徴とする。

本発明によれば、例えば、対応関係を有する文章を精度良く検索することができる。

実施の形態に係るテキスト解析システムを実現するコンピュータのブロック図である。テキスト解析システムの機能構成を示すブロック図である。単語類似度ＤＢのデータの構成例を示す図である。類義語ＤＢのデータの構成例を示す図である。関連語ＤＢのデータの構成例を示す図である。カテゴリ情報ＤＢのデータの構成例を示す図である。関連語適用可能領域ＤＢのデータの構成例を示す図である。テキスト解析システムの全体処理手順を示すフローチャートである。単語類似度計測処理手順を示すフローチャートである。類義語判定処理手順を示すフローチャートである。関連語判定処理手順を示すフローチャートである。カテゴリ情報抽出処理手順を示すフローチャートである。関連語適用可能領域特定処理手順を示すフローチャートである。第一のテキストと第二のテキストの対応関係判定処理手順を示すフローチャートである。対応箇所可視化処理結果を示す図である。テキストＩＤと単語のインデックスの例を示す図である。

以下、図面に基づき、本発明の実施の形態を詳述する。本明細書において、各図面の同一参照番号は、同一あるいは類似の構成または処理を示す。また、後出の実施の形態の説明では前出の実施の形態との差分のみを説明し、後出の説明を省略する場合がある。また、各実施の形態は、本発明の技術思想の範囲内かつ整合する範囲内で一部または全部を組合せることができる。

［実施の形態］
（１）テキスト解析システムを実現するコンピュータ
図１は、実施の形態に係るテキスト解析システム２００を実現するコンピュータ１００のブロック図である。コンピュータ１００は、ＣＰＵ１１０、メモリ１２０、ハードディスクドライブ１３０、入力デバイス１４０、出力デバイス１５０、およびネットワークデバイス１６０等のハードウェア資源を備える。テキスト解析システム２００は、本実施の形態に係るテキスト解析プログラムが、コンピュータ１００により実行されることで実現される。

例えば、テキスト解析システム２００は、ハードディスクドライブ１３０に記憶されたテキスト解析プログラムがＣＰＵ１１０およびメモリ１２０の協働により実行されることによって実現される。テキスト解析プログラムは、頒布可能な媒体から媒体読み取り装置を介して取得され、または、ネットワークを介して外部装置から取得され、テキスト解析システム２００上で実行される。ただし、テキスト解析システム２００の実現態様は、これらに限定されない。

（２）テキスト解析システムの機能構成
図２は、テキスト解析システム２００の機能構成を示すブロック図である。テキスト解析システム２００は、ユーザ端末２０１から「第一テキスト」と「第二テキスト」の文章の入力を受け付け、「第一テキスト」の構成要素である第一単語と「第二テキスト」の構成要素である第二単語の一対の「単語ペア」から、「類義語」および「関連語」を生成する。

本実施の形態では、形態素解析に代表される、文またはフレーズの要素分解処理により分解されたテキストの構成要素を、例として「単語」と称する。しかし、テキストに対して行う要素分解処理は形態素解析に限らず、テキストの構成要素は「単語」に限らない。「類義語」は、類似度が所定閾値以上の「単語ペア」の単語である。「関連語」は、類似度が所定閾値未満の「単語ペア」の単語である。

また、テキスト解析システム２００は、ユーザ端末２０１から「カテゴリ情報」の入力を受け付ける、あるいは、単語の開始位置と終了位置で示されるテキスト内の領域に関する「カテゴリ情報」を生成する。そして、テキスト解析システム２００は、「単語」、「類義語」、および「カテゴリ情報」をもとに「第二テキスト」の「関連語適用可能領域」を特定する。

さらに、テキスト解析システム２００は、「単語」および「関連語」をもとに、「第一テキスト」が「第二テキスト」の「関連語適用可能領域」のうちの何れの領域に対応するかの対応関係を判定して、対応箇所を可視化する。

なお、「第一テキスト」と「第二テキスト」は、予め対応関係が有ることを必ずしも前提としない。また、「第一テキスト」と「第二テキスト」の呼称は便宜上のものに過ぎず、「第一テキスト」と対応関係がある「第二テキスト」の対応箇所の抽出に限らず、「第二テキスト」と対応関係がある「第一テキスト」の対応箇所の抽出であってもよい。

図２に例示するように、テキスト解析システム２００は、単語ＤＢ２１０、テキスト情報ＤＢ２２０、制御部２３０、および対応箇所可視化部２４０を有する。

単語ＤＢ２１０は、関連語適用可能領域の特定と、第一テキストと第二テキストの対応関係の判定に必要となるデータの内、単語に関連付くデータを格納する。単語ＤＢ２１０は、単語ペアの類似度情報を格納する単語類似度ＤＢ２１１と、類義語情報を格納する類義語ＤＢ２１２と、関連語情報を格納する関連語ＤＢ２１３とから構成される。各データの詳細構成は、図３、図４、および図５を参照して後述する。

なお、単語類似度ＤＢ２１１のデータは、単語類似度計測部２３１によって生成される。また、類義語ＤＢ２１２のデータは、類義語判定部２３２によって生成される。また、関連語ＤＢ２１３のデータは、関連語判定部２３３によって生成される。単語類似度計測部２３１、類義語判定部２３２、および関連語判定部２３３については後述する。

テキスト情報ＤＢ２２０は、関連語適用可能領域の特定と、第一テキストと第二テキストの対応関係の判定に必要となるデータの内、テキストに関連付くデータを格納する。テキスト情報ＤＢ２２０は、テキストのカテゴリ情報を格納するカテゴリ情報ＤＢ２２１と、第二テキストの関連語適用可能領域を格納する関連語適用可能領域ＤＢ２２２とから構成される。各データの詳細構成は、図６および図７を参照して後述する。

なお、カテゴリ情報ＤＢ２２１のデータは、カテゴリ情報抽出部２３４によって生成される。また、関連語適用可能領域ＤＢ２２２のデータは、関連語適用可能領域特定部２３５によって生成される。カテゴリ情報抽出部２３４および関連語適用可能領域特定部２３５については後述する。

単語類似度計測部２３１は、ユーザ端末２０１から入力された第一テキストと第二テキストのそれぞれから生成された単語の一対の単語ペアの全ての組合せについて、類似度を計測する。類似度は、一つの方法による計測結果に限らず、複数の方法による計測結果が保持されてもよい。計測された類似度情報は、単語類似度ＤＢ２１１へ格納される。

類義語判定部２３２は、単語類似度ＤＢ２１１を用いて、各単語ペアが類義語かどうかを判定する。類義語と判定された単語ペアに関する類義語情報は、類義語ＤＢ２１２へ格納される。関連語判定部２３３は、単語類似度ＤＢ２１１を用いて、各単語ペアが関連語かどうかを判定する。関連語と判定された単語ペアに関する関連語情報は、関連語ＤＢ２１３へ格納される。

カテゴリ情報抽出部２３４は、ユーザ端末２０１からカテゴリ情報の入力を受け付け、または、ユーザ端末２０１から入力された第一テキストと第二テキストからカテゴリ情報を抽出する。カテゴリ情報抽出部２３４は、入力が受け付けられたカテゴリ情報、または、第一テキストと第二テキストから抽出されたカテゴリ情報を、カテゴリ情報ＤＢ２２１へ格納する。

関連語適用可能領域特定部２３５は、単語類似度ＤＢ２１１、類義語ＤＢ２１２、およびカテゴリ情報ＤＢ２２１を用いて、第二テキスト中の関連語適用可能領域を特定し、関連語適用可能領域ＤＢ２２２へ格納する。

テキスト対応関係判定部２３６は、単語類似度ＤＢ２１１、関連語ＤＢ２１３、および関連語適用可能領域ＤＢ２２２を用いて、第一テキストと第二テキストの対応関係を判定し、第一テキストと対応する第二テキストの対応箇所を特定する。

対応箇所可視化部２４０は、テキスト対応関係判定部２３６による判定結果と、対応箇所を可視化するものであり、ＧＵＩを表示するディスプレイ等の出力装置を含む。

（３）テキストＩＤと単語のインデックス
ここで、単語類似度ＤＢ２１１、類義語ＤＢ２１２、関連語ＤＢ２１３、カテゴリ情報ＤＢ２２１、関連語適用可能領域ＤＢ２２２へ格納されているデータの構成の説明に先立ち、テキストＩＤと単語のインデックスについて説明する。図１６は、テキストＩＤと単語のインデックスの例を示す図である。

図１６に例示するように、「テキストＩＤ：ｎ」のテキストＴｎは、「昨日名古屋にいました。今日は東京にいます。」という文章を含んでいるとする。テキストＴｎの文章は、要素分解処理によって、「昨日」、「名古屋に」、「いました。」、「今日は」、「東京に」、「います。」という各単語へ分解されたとする。そして、各単語には、例えば「昨日：１」、「名古屋に：２」、「いました。：３」、「今日は：４」、「東京に：５」、「います。：６」の各単語の「インデックス」が付与される。

「テキストＩＤ」は、テキストを一意に識別する。また、「インデックス」は、テキスト内で単語およびその出現順序を一意に識別する。よって、「テキストＩＤ」と「インデックス」の組合せによって、単語およびその出現位置を一意に識別することができる。

（４）各種ＤＢのデータ構成
次に、単語類似度ＤＢ２１１、類義語ＤＢ２１２、関連語ＤＢ２１３、カテゴリ情報ＤＢ２２１、および関連語適用可能領域ＤＢ２２２へ格納されるデータの構成について説明する。以下では、単語類似度ＤＢ２１１、類義語ＤＢ２１２、関連語ＤＢ２１３、カテゴリ情報ＤＢ２２１、および関連語適用可能領域ＤＢ２２２へ格納されるデータは、テーブル形式であるとして説明するが、これに限らず、他のデータ形式であってもよい。

以下で説明する、単語類似度ＤＢ２１１の単語類似度ＤＢテーブル３００、類義語ＤＢ２１２の類義語ＤＢテーブル４００、関連語ＤＢ２１３の関連語ＤＢテーブル５００、カテゴリ情報ＤＢ２２１のカテゴリ情報ＤＢテーブル６００、関連語適用可能領域ＤＢ２２２の関連語適用可能領域ＤＢテーブル７００のフィールド構造やフィールドの値は、本実施の形態に限定されるものではない。

図３は、単語類似度ＤＢ２１１のデータの構成例を示す図である。図３に例示するように、単語類似度ＤＢ２１１のデータを格納する単語類似度ＤＢテーブル３００は、１以上の「単語類似度」レコードから構成される。そして、「単語類似度」レコードは、「第一単語インデックス」、「第一単語テキストＩＤ」、「第二単語インデックス」、「第二単語テキストＩＤ」、「ＷｏｒｄＮｅｔ類似度」、「Ｗｏｒｄ２Ｖｅｃ類似度」、「完全一致」等の複数のフィールドから構成される。

フィールド「第一単語インデックス」は、ユーザ端末２０１から入力された第一テキストから生成した単語のインデックスを保持する。例えば「昨日名古屋にいました。」から、「昨日」、「名古屋に」、「いました。」の３つの単語を順に生成した時、「名古屋に」に対応する単語類似度レコードの「第一単語インデックス」は“２”となる。フィールド「第一単語テキストＩＤ」は、ユーザ端末２０１から入力された第一テキストを一意に識別するための値を保持する。

また、フィールド「第二単語インデックス」は、ユーザ端末２０１から入力された第二テキストから生成した単語のインデックスを保持する。フィールド「第二単語テキストＩＤ」は、ユーザ端末２０１から入力された第二テキストを一意に識別するための値を保持する。

フィールド「ＷｏｒｄＮｅｔ類似度」は、「第一単語インデックス」および「第一単語テキストＩＤ」の値に対応する単語と、「第二単語インデックス」および「第二単語テキストＩＤ」の値に対応する単語の、概念辞書ＷｏｒｄＮｅｔの距離に基づいた類似度を保持する。フィールド「Ｗｏｒｄ２Ｖｅｃ類似度」は、「第一単語インデックス」と「第一単語テキストＩＤ」の値に対応する単語と、「第二単語インデックス」と「第二単語テキストＩＤ」の値に対応する単語の、単語分散表現Ｗｏｒｄ２Ｖｅｃの距離に基づいた類似度を保持する。

なお、「ＷｏｒｄＮｅｔ類似度」および「Ｗｏｒｄ２Ｖｅｃ類似度」は、単語の類似度の一例である。類似度は、正規化されもよい。単語類似度ＤＢテーブル３００は、単語の類似度を保持するフィールドを、１つあるいは３つ以上含んでもよい。

フィールド「完全一致」は、「第一単語インデックス」および「第一単語テキストＩＤ」の値に対応する単語と、「第二単語インデックス」および「第二単語テキストＩＤ」の値に対応する単語が完全一致しているかどうかの完全一致情報を保持する。フィールド「完全一致」は、完全一致するとき、１を保持し、完全一致でないとき、０を保持する。

図４は、類義語ＤＢ２１２のデータの構成例を示す図である。図４に例示するように、類義語ＤＢ２１２のデータを格納する類義語ＤＢテーブル４００は、１以上の「類義語」レコードから構成される。そして、「類義語」レコードは、「対象単語インデックス」、「対象単語テキストＩＤ」、「類義語インデックス」、「類義語テキストＩＤ」、「類義語スコア」等の複数のフィールドから構成される。

フィールド「対象単語インデックス」および「対象単語テキストＩＤ」と、フィールド「類義語インデックス」および「類義語テキストＩＤ」は、後述の類義語判定処理（図１１参照）により類義語と判定された、単語類似度ＤＢテーブル３００に保持される単語ペアのインデックスおよびテキストＩＤを保持する。フィールド「対象単語インデックス」および「対象単語テキストＩＤ」に第一テキストから生成された単語の「第一単語インデックス」および「第一単語テキストＩＤ」の値が保持される場合、フィールド「類義語インデックス」および「類義語テキストＩＤ」には第二テキストから生成された単語の「第二単語インデックス」および「第二単語テキストＩＤ」の値が保持される。同様に、フィールド「対象単語インデックス」および「対象単語テキストＩＤ」に第二テキストから生成された単語の「第二単語インデックス」および「第二単語テキストＩＤ」の値が保持される場合、フィールド「類義語インデックス」および「類義語テキストＩＤ」には第一テキストから生成された単語の「第一単語インデックス」および「第一単語テキストＩＤ」の値が保持される。

フィールド「類義語スコア」は、「対象単語インデックス」および「対象単語テキストＩＤ」の値に対応する単語と、「類義語インデックス」および「類義語テキストＩＤ」の値に対応する単語の、類義語関係の度合いに関する情報を保持する。

図５は、関連語ＤＢ２１３のデータの構成例を示す図である。図５に例示するように、関連語ＤＢ２１３のデータを格納する関連語ＤＢテーブル５００は、１以上の「関連語」レコードから構成される。そして、「関連語」レコードは、「対象単語インデックス」、「対象単語テキストＩＤ」、「関連語インデックス」、「関連語テキストＩＤ」、および「関連語スコア」等の複数のフィールドから構成される。

フィールド「対象単語インデックス」および「対象単語テキストＩＤ」と、フィールド「関連語インデックス」および「関連語テキストＩＤ」は、後述の関連語判定処理（図１１参照）により関連語と判定された、単語類似度ＤＢテーブル３００に保持される単語ペアのインデックスおよびテキストＩＤを保持する。フィールド「対象単語インデックス」および「対象単語テキストＩＤ」に第一テキストから生成された単語の「第一単語インデックス」および「第一単語テキストＩＤ」の値が保持される場合、フィールド「関連語インデックス」および「関連語テキストＩＤ」には第二テキストから生成された単語の「第二単語インデックス」および「第二単語テキストＩＤ」の値が保持される。同様に、フィールド「対象単語インデックス」および「対象単語テキストＩＤ」に第二テキストから生成された単語の「第二単語インデックス」および「第二単語テキストＩＤ」の値が保持される場合、フィールド「関連語インデックス」および「関連語テキストＩＤ」には第一テキストから生成された単語の「第一単語インデックス」および「第一単語テキストＩＤ」の値が保持される。

フィールド「関連語スコア」は、「対象単語インデックス」と「対象単語テキストＩＤ」の値に対応する単語と、「関連語インデックス」と「関連語テキストＩＤ」の値に対応する単語の、関連語関係の度合いに関する情報を保持する。

図６は、カテゴリ情報ＤＢ２２１のデータの構成例を示す図である。図６に例示するように、カテゴリ情報ＤＢ２２１のデータを格納するカテゴリ情報ＤＢテーブル６００は、１以上の「カテゴリ情報」レコードから構成される。そして、「カテゴリ情報」レコードは、「テキストＩＤ」、「カテゴリタイプ」、「カテゴリ値」、「開始単語インデックス」、および「終了単語インデックス」等の複数のフィールドから構成される。

フィールド「テキストＩＤ」は、ユーザ端末２０１から入力された第一テキストと第二テキストを一意に識別するための値を保持する。

フィールド「カテゴリタイプ」は、カテゴリ情報の分類を保持する。例えば、フィールド「カテゴリタイプ」は、当該「カテゴリ情報」レコードが場所に関するカテゴリ情報であるとき「場所」を保持し、年月に関するカテゴリ情報であるとき「年月」を保持する。

フィールド「カテゴリ値」は、カテゴリ情報の具体的な内容を保持する。フィールド「カテゴリ値」は、複数のカテゴリ情報を持つことができる。例えば、「昨日名古屋にいました。」という１つのテキストから、「昨日」、「名古屋に」、「いました。」の三つの単語が順に生成されたとする。この場合、「昨日」のカテゴリは「年月」であるが、「名古屋に」のカテゴリは「場所」であることから、１つのテキストが複数のカテゴリ情報を持つことができる。このように、カテゴリ情報は、テキストの内容に関連するカテゴリを示す。

フィールド「開始単語インデックス」は、当該「カテゴリ情報」レコードで特定されるカテゴリ情報のテキスト内の開始位置に関する情報を保持する。フィールド「終了単語インデックス」は、当該「カテゴリ情報」レコードで特定されるカテゴリ情報のテキスト内の終了位置に関する情報を保持する。フィールド「開始単語インデックス」および「終了単語インデックス」は、「テキストＩＤ」が第一テキストのとき単語類似度ＤＢテーブル３００の「第一単語インデックス」の値を保持し、「テキストＩＤ」が第二テキストのとき単語類似度ＤＢテーブル３００の「第二単語インデックス」の値を保持する。

図７は、関連語適用可能領域ＤＢ２２２のデータの構成例を示す図である。図７に例示するように、関連語適用可能領域ＤＢ２２２のデータを格納する関連語適用可能領域ＤＢテーブル７００は、１以上の「関連語適用可能領域」レコードから構成される。そして、「関連語適用可能領域」レコードは、「テキストＩＤ」、「開始単語インデックス」、および「終了単語インデックス」等の複数のフィールドから構成される。

フィールド「テキストＩＤ」は、ユーザ端末２０１から入力された第一のテキストと第二のテキストを一意に識別するための値を保持する。

フィールド「開始単語インデックス」は、当該「関連語適用可能領域」レコードで特定される関連語適用可能領域のテキスト内の開始位置に関する情報を保持する。フィールド「終了単語インデックス」は、当該「関連語適用可能領域」レコードで特定される関連語適用可能領域のテキスト内の終了位置に関する情報を保持する。フィールド「開始単語インデックス」および「終了単語インデックス」は、「テキストＩＤ」が第一テキストのとき単語類似度ＤＢテーブル３００の「第一単語インデックス」の値を保持し、「テキストＩＤ」が第二テキストのとき単語類似度ＤＢテーブル３００の「第二単語インデックス」の値を保持する。

（５）テキスト解析システムの処理
以下、テキスト解析システム２００の動作について説明する。

［テキスト解析処理全体］
最初に、テキスト解析処理の全体の流れについて説明する。図８は、テキスト解析システムの全体処理手順を示すフローチャートである。

先ず、ステップＳ８０１では、テキスト解析システム２００は、ユーザ端末２０１から入力された第一テキストおよび第二テキストに対して、単語類似度計測処理を行う。次に、ステップＳ８０２では、テキスト解析システム２００は、ステップＳ８０１で計測された単語類似度情報を用いて類義語を判定する。次に、ステップＳ８０３では、テキスト解析システム２００は、ステップＳ８０１で計測された単語類似度情報を用いて関連語を判定する。

次に、ステップＳ８０４では、テキスト解析システム２００は、ユーザ端末２０１から受け付けた入力を受けてカテゴリ情報を抽出する。次に、ステップＳ８０５では、テキスト解析システム２００は、ステップＳ８０４で抽出されたカテゴリ情報を用いて関連語適用可能領域の特定を行う。次に、ステップＳ８０６では、テキスト解析システム２００は、対応関係判定処理を行う。次に、ステップＳ８０７では、テキスト解析システム２００は、第一テキストと第二テキストの対応箇所の可視化処理を行う。

最後に、ステップＳ８０８では、テキスト解析システム２００は、ユーザ端末２０１から追加テキストの入力があるか否かを判定する。テキスト解析システム２００は、追加テキストの入力がある場合（ステップＳ８０８ＹＥＳ）、ステップＳ８０１に処理を戻す。一方、テキスト解析システム２００は、追加テキストの入力がない場合（ステップＳ８０８ＮＯ）、本テキスト解析処理を終了する。

［単語類似度計測処理］
図９は、単語類似度計測処理手順を示すフローチャートである。単語類似度計測処理は、図８に示すステップＳ８０１の詳細処理であり、単語類似度計測部２３１により実行される。

先ず、ステップＳ９０１では、単語類似度計測部２３１は、ユーザ端末２０１から入力された第一テキストと第二テキストを受信する。次に、ステップＳ９０２では、単語類似度計測部２３１は、第一テキストと第二テキストから単語を生成する。

次に、ステップＳ９０３では、単語類似度計測部２３１は、ステップＳ９０２で生成された第一テキストから生成された第一単語と、第二テキストから生成された第二単語とを１つずつ組合わせた全ての組合せの単語ペアを生成する。次に、ステップＳ９０４では、単語類似度計測部２３１は、ステップＳ９０３で生成された全ての組合せの単語ペアのうち、類似度が計測されていない単語ペアが存在するか否かを判定する。単語類似度計測部２３１は、類似度が計測されていない単語ペアが存在する場合（ステップＳ９０４ＹＥＳ）にステップＳ９０５へ処理を移し、全ての単語ペアの類似度が計測された場合（ステップＳ９０４ＮＯ）に本単語類似度計測処理を終了する。

ステップＳ９０５では、単語類似度計測部２３１は、類似度が計測されていない単語ペアの類似度情報、および単語ペアが完全一致するか否かの完全一致情報の生成を行う。次に、ステップＳ９０６では、単語類似度計測部２３１は、ステップＳ９０５で生成された類似度情報および完全一致情報を、第一単語インデックス、第一単語テキストＩＤ、第二単語インデックス、および第二単語テキストＩＤに対応付けて単語類似度ＤＢ２１１へ格納する。ステップＳ９０６が終了すると、単語類似度計測部２３１は、ステップＳ９０４へ処理を移す。ステップＳ９０５において類似度情報を生成する方法は、単語ペアのＷｏｒｄＮｅｔ内における距離（ＷｏｒｄＮｅｔ類似度）を計測する方法や、単語分散表現の差（Ｗｏｒｄ２Ｖｅｃ類似度）を計測する方法があるが、これらに限定されない。

［類義語判定処理］
図１０は、類義語判定処理手順を示すフローチャートである。類義語判定処理は、図８に示すステップＳ８０２の詳細処理であり、類義語判定部２３２により実行される。

先ず、ステップＳ１００１では、類義語判定部２３２は、単語類似度ＤＢ２１１を用いて、第一テキストと第二テキストから得られる単語ペアの類似度情報を取得する。次に、ステップＳ１００２では、類義語判定部２３２は、ステップＳ１００１で取得された類似度情報の中に、類義語判定処理が実行されていない単語ペアが存在するか否かを判定する。類義語判定部２３２は、類義語判定処理が実行されていない単語ペアが存在する場合（ステップＳ１００２ＹＥＳ）にステップＳ１００３へ処理を移し、全ての単語ペアが類義語判定を実行された場合（ステップＳ１００２ＮＯ）に本類義語判定処理を終了する。

ステップＳ１００３では、類義語判定部２３２は、類義語判定処理が実行されていない単語ペアの類義語判定処理を実行する。ステップＳ１００３で類義語を判定する方法の一例として、類義語判定部２３２は、単語類似度ＤＢテーブル３００のフィールド「ＷｏｒｄＮｅｔ類似度」とフィールド「Ｗｏｒｄ２Ｖｅｃ類似度」の値の和が所定閾値（例えば１）以上である場合に、この単語ペアが類義語であると判定する方法がある。しかし、類義語を判定する方法は、これに限定されない。ステップＳ１００３では、類義語判定部２３２は、類義語と判定された単語ペアの類義語スコアも算出する。類義語スコアは、例えば、「ＷｏｒｄＮｅｔ類似度」と「Ｗｏｒｄ２Ｖｅｃ類似度」の和である。

次に、ステップＳ１００４では、類義語判定部２３２は、ステップＳ１００３の判定により類義語と判定された単語ペアの単語インデックス、テキストＩＤ、および類義語スコアを含む判定結果を類義語ＤＢ２１２へ格納する。ステップＳ１００４が終了すると、類義語判定部２３２は、ステップＳ１００２へ処理を戻す。

［関連語判定処理］
図１１は、関連語判定処理手順を示すフローチャートである。関連語判定処理は、図８に示すステップＳ８０３の詳細処理であり、関連語判定部２３３により実行される。

先ず、ステップＳ１１０１では、関連語判定部２３３は、単語類似度ＤＢ２１１を用いて、第一テキストと第二テキストから得られる単語ペアの類似度情報を取得する。次に、ステップＳ１１０２では、関連語判定部２３３は、ステップＳ１１０１で取得された類似度情報の中に、関連語判定処理が実行されていない単語ペアが存在するか否かを判定する。関連語判定部２３３は、関連語判定が実行されていない単語ペアが存在する場合（ステップＳ１１０２ＹＥＳ）にステップＳ１１０３へ処理を移し、全ての単語ペアが関連語判定を実行された場合（ステップＳ１１０２ＮＯ）に本関連語判定処理を終了する。

ステップＳ１１０３では、関連語判定部２３３は、関連語判定処理が実行されていない単語ペアの関連語判定を実行する。ステップＳ１１０３で関連語を判定する方法の一例として、関連語判定部２３３は、単語類似度ＤＢテーブル３００のフィールド「ＷｏｒｄＮｅｔ類似度」とフィールド「Ｗｏｒｄ２Ｖｅｃ類似度」の値の和が所定閾値（例えば１）未満である場合に、この単語ペアが関連語であると判定する方法がある。しかし、関連語を判定する方法は、これに限定されない。ステップＳ１１０３では、関連語判定部２３３は、関連語と判定された単語ペアの関連語スコアも算出する。関連語スコアは、例えば、「ＷｏｒｄＮｅｔ類似度」と「Ｗｏｒｄ２Ｖｅｃ類似度」の和に負の符号を付与したものとする。

次に、ステップＳ１１０４では、関連語判定部２３３は、ステップＳ１１０３の判定により関連語と判定された単語ペアの単語インデックス、テキストＩＤ、および関連語スコアを含む判定結果を関連語ＤＢ２１３へ格納する。ステップＳ１１０４が終了すると、関連語判定部２３３は、ステップＳ１１０２へ処理を戻す。

［カテゴリ情報抽出処理］
図１２は、カテゴリ情報抽出処理手順を示すフローチャートである。カテゴリ情報抽出処理は、図８に示すステップＳ８０４の詳細処理であり、カテゴリ情報抽出部２３４により実行される。

先ず、ステップＳ１２０１では、カテゴリ情報抽出部２３４は、ユーザ端末２０１からカテゴリ情報の入力があるか否かを判定する。カテゴリ情報抽出部２３４は、カテゴリ情報の入力がある場合（ステップＳ１２０１ＹＥＳ）にステップＳ１２０２へ処理を移し、カテゴリ情報の入力がない場合（ステップＳ１２０１ＮＯ）にステップＳ１２０３へ処理を移す。

ステップＳ１２０２では、カテゴリ情報抽出部２３４は、ユーザ端末２０１から入力されたカテゴリ情報を受信する。カテゴリ情報抽出部２３４は、ステップＳ１２０２が終了すると、ステップＳ１２０４へ処理を移す。

ステップＳ１２０３では、カテゴリ情報抽出部２３４は、第一テキストと第二テキストからカテゴリ情報を抽出する。次に、ステップＳ１２０４では、カテゴリ情報抽出部２３４は、ステップＳ１２０２で受信またはステップＳ１２０３で抽出されたカテゴリ情報をカテゴリ情報ＤＢ２２１へ格納する。

カテゴリ情報の具体例について説明する。例えば、テキストＩＤ：１である第一テキストが「昨日名古屋にいました。今日は東京にいます。」の場合を考える。この場合、第一単語インデックスは、「昨日：１」、「名古屋に：２」、「いました。：３」、「今は：４」、「東京に：５」、「います。：６」である。このような第一テキストからカテゴリ情報を生成するルールの一例として、フィールド「テキストＩＤ」が“１”、フィールド「カテゴリタイプ」が“場所”、フィールド「カテゴリ値」が“名古屋”、フィールド「開始単語インデックス」が“１”、フィールド「終了単語インデックス」が“３”である「カテゴリ情報」レコードを生成する方法がある。この例では、第一テキスト内の「昨日名古屋にいました。」、「今日は東京にいます。」の２つの文章のうち、“名古屋”を含む第一文を「カテゴリ値」“名古屋”に該当する領域としている。ただし、カテゴリ情報とその生成方法は、これに限定されない。

［関連語適用可能領域特定処理］
図１３は、関連語適用可能領域特定処理手順を示すフローチャートである。関連語適用可能領域特定処理は、図８に示すステップＳ８０５の詳細処理であり、関連語適用可能領域特定部２３５により実行される。

先ず、ステップＳ１３０１では、関連語適用可能領域特定部２３５は、単語類似度ＤＢ２１１を用いて、第二テキストに含まれる単語のインデックス情報を取得する。次に、ステップＳ１３０２では、関連語適用可能領域特定部２３５は、ステップＳ１３０１で取得されたインデックス情報から、インデックスのペア（以下、「インデックスペア」という）を生成する。

ここで、「インデックスペア」とは、例えば、第二単語インデックスとして「１」、「２」、「３」が取得された場合、「１」と「２」、「１」と「３」、「２」と「３」のように、後者が前者より値が大きいインデックスの組合せを指す。このような開始インデックスと終了インデックスの組合せにより、テキストの全領域に対する部分領域の全てのパターンを表すことができる。ただし、「インデックスペア」は、これに限定されない。例えば、「１」のように、「インデックスペア」は、１つのインデックスのみを要素として含んでもよい。

次に、ステップＳ１３０３では、関連語適用可能領域特定部２３５は、ステップＳ１３０２で生成された全ての「インデックスペア」のうち、確信度評価が実行されていないインデックスペアが存在するか否かを判定する。関連語適用可能領域特定部２３５は、確信度評価が実行されていないインデックスペアが存在する場合（ステップＳ１３０３ＹＥＳ）にステップＳ１３０４へ処理を移し、全てのインデックスペアが確信度評価を実行された場合（ステップＳ１３０３ＮＯ）にステップＳ１３０５へ処理を移す。

ステップＳ１３０４では、関連語適用可能領域特定部２３５は、単語類似度ＤＢ２１１、類義語ＤＢ２１２、およびカテゴリ情報ＤＢ２２１を用いて、インデックスペアの確信度を評価する。関連語適用可能領域特定部２３５は、ステップＳ１３０４が終了すると、ステップＳ１３０３へ処理を戻す。カテゴリ情報ＤＢ２２１を用いることで、関連語適用可能領域をより精度よく特定できる。

ステップＳ１３０４での確信度評価方法は、一例として、次のようなものがある。例えば、ステップＳ１３０２で生成された１つの第二テキストのインデックスペアが「３」と「５」であり、単語類似度ＤＢ２１１を用いて第一テキストの第一単語インデックスが「１」から「２」まで取得された場合を考える。すなわち、第一テキストは「１」および「２」の第一単語インデックスの単語から構成され、第二テキストは「３」、「４」、および「５」の第二単語インデックスの単語から構成される場合を考える。

ここで、第一テキストの第一単語インデックスが「２」の単語と、第二テキストの第二単語インデックスが「４」の単語は、カテゴリ情報ＤＢ２２１を参照すると、共に、「カテゴリタイプ」“場所”、「カテゴリ値」“名古屋”のカテゴリ情報に該当するものであったとする。よって、カテゴリ情報が一致するので、カテゴリスコア＝１とする。他方、カテゴリ情報が一致する単語が存在しない場合には、カテゴリスコア＝０とする。カテゴリスコアは、一致するカテゴリ情報が複数の場合は、例えばそれらの和を取る。ここでは、和に限らず、積などの他の演算値や、各種統計値であってもよい。

また、類義語ＤＢ２１２を参照すると、第二テキストの第二単語インデックスが「３」の単語と、第一テキストの第一単語インデックスが「１」の単語の類義語スコアが１．５であったとする。類義語スコアは、類義語ＤＢ２１２に、第二テキストの第二単語インデックスと第一テキストの第一単語インデックスの組合せに該当する「類義語」レコードが複数存在する場合は、それらの和を取る。ここでも、和に限らず、積などの他の演算値や、最大値などの各種統計値であってもよい。

よって、例えば、「３」と「５」の第二テキストのインデックスペアの確信度は、カテゴリスコア＋類義語スコア＝１＋１．５＝２．５と評価する。確信度は、各スコアの単純和に限らず、各スコアの所定の加重和や各種統計値であってもよい。

なお、上述の確信度には、カテゴリスコアは必須ではない。また、上述の確信度には、第一単語インデックスに該当する単語と、第二単語インデックスに該当する単語との完全一致情報が含まれてもよい。この場合の確信度も、各スコアの単純和に限らず、各スコアの所定の加重和や各種統計値であってもよい。確信度に完全一致情報を含めることで、類義語スコアを補完し、確信度の精度を向上させる。

ステップＳ１３０５では、関連語適用可能領域特定部２３５は、ステップＳ１３０３およびＳ１３０４の繰り返し処理で評価した確信度が最大となるインデックスペアを特定する。次に、ステップＳ１３０６では、関連語適用可能領域特定部２３５は、ステップＳ１３０５で特定されたインデックスペアに基づいて、「関連語適用可能領域」を生成し、その「開始インデックス」と「終了インデックス」を特定する。

ステップＳ１３０６では、例えば、関連語適用可能領域特定部２３５は、インデックスペアが「３」と「４」の場合、単語インデックス「３」の値から所定値（例えば２）を減算し、単語インデックス「４」の値へ所定値（例えば２）を加算して、「開始インデックス」が「１」で「終了インデックス」が「６」の「関連語適用可能領域」を生成する。ただし、「関連語適用可能領域」は、これに限定されず、句、文、段落、節、改行等の文の構成単位を１または複数だけ加減算して生成されてもよい。

最後に、ステップＳ１３０７では、関連語適用可能領域特定部２３５は、ステップＳ１３０６で生成された「関連語適用可能領域」の「開始インデックス」と「終了インデックス」を、「関連語適用可能領域」の生成元である第二テキストのテキストＩＤと共に、関連語適用可能領域ＤＢ２２２の関連語適用可能領域ＤＢテーブル７００へ格納する。

［対応関係判定処理］
図１４は、第一のテキストと第二のテキストの対応関係判定処理手順を示すフローチャートである。第一のテキストと第二のテキストの対応関係判定処理は、図８に示すステップＳ８０６の詳細処理であり、テキスト対応関係判定部２３６により実行される。

先ず、ステップＳ１４０１では、テキスト対応関係判定部２３６は、関連語適用可能領域ＤＢ２２２を用いて、関連語適用可能領域の「開始インデックス」と「終了インデックス」を取得する。次に、ステップＳ１４０２では、テキスト対応関係判定部２３６は、ステップＳ１４０１で取得されたインデックス情報から、「インデックスペア」を生成する。

ここでの「インデックスペア」とは、例えば、フィールド「開始インデックス」が「１」で、フィールド「終了インデックス」が「３」の場合、「１」と「２」、「１」と「３」、「２」と「３」のように、後者が前者より値が大きく、かつ、「１」以上「３」以下のインデックスの組合せを指す。ただし、ここでの「インデックスペア」も、これに限定されない。例えば、「１」のように、「インデックスペア」は、１つのインデックスのみを要素として含んでもよい。

次に、ステップＳ１４０３では、テキスト対応関係判定部２３６は、ステップＳ１４０２で生成された全ての「インデックスペア」のうち、確信度評価が実行されていないインデックスペアが存在するか否かを判定する。テキスト対応関係判定部２３６は、確信度評価が実行されていないインデックスペアが存在する場合（ステップＳ１４０３ＹＥＳ）にステップＳ１４０４へ処理を移し、全てのインデックスペアが確信度評価を実行された場合（ステップＳ１４０３ＮＯ）にステップＳ１４０５へ処理を移す。

ステップＳ１４０４では、テキスト対応関係判定部２３６は、単語類似度ＤＢ２１１、関連語ＤＢ２１３を用いて、インデックスペアの確信度を評価する。テキスト対応関係判定部２３６は、ステップＳ１４０４が終了すると、ステップＳ１４０３へ処理を戻す。

ステップＳ１４０４での確信度評価方法は、一例として、次のようなものがある。例えば、ステップＳ１４０２で生成された１つの関連語適用可能領域のインデックスペアが「３」、「５」であり、単語類似度ＤＢ２１１を用いて第一テキストの第一単語インデックスが「１」から「２」まで取得された場合を考える。すなわち、第一テキストは「１」および「２」の第一単語インデックスの単語から構成され、第二テキストは「３」、「４」、および「５」の第二単語インデックスの単語から構成される場合を考える。

ここで、第二テキストの第二単語インデックスが「３」の単語と、第一テキストの第一単語インデックスが「１」の単語は、関連語ＤＢ２１３を参照すると、関連語スコアが（－０．５）であったとする。関連語スコアは、関連語ＤＢ２１３に、第二テキストの第二単語インデックスと第一テキストの第一単語インデックスの組合せに該当する「関連語」レコードが複数存在する場合は、それらの和を取る。ここでも、和に限らず、積などの他の演算値や、最大値などの各種統計値であってもよい。

よって、例えば、「３」と「５」の第二テキストのインデックスペアの確信度＝関連語スコア＝－０．５と評価する。

なお、確信度の算出の際に、カテゴリ情報ＤＢ２２１に基づくカテゴリスコアを用いてもよい。この場合の確信度は、各スコアの単純和に限らず、各スコアの所定の加重和や各種統計値であってもよい。また、確信度には、第一単語インデックスに該当する単語と、第二単語インデックスに該当する単語との完全一致情報が含まれてもよい。この場合の確信度も、各スコアの単純和に限らず、各スコアの所定の加重和や各種統計値であってもよい。確信度に完全一致情報を含めることで、関連語スコアを補完し、確信度の精度を向上させる。

ステップＳ１４０５では、テキスト対応関係判定部２３６は、ステップＳ１４０３およびＳ１４０４の繰り返し処理で評価した確信度が最大となるインデックスペアを特定し、特定されたインデックスペアを、「対応箇所」の「開始インデックス」と「終了インデックス」とする。

最後に、ステップＳ１４０６では、テキスト対応関係判定部２３６は、ステップＳ１４０５で特定された「開始インデックス」と「終了インデックス」に基づく第二テキストの「対応箇所」と、第一テキストとの対応関係を評価する。例えば、テキスト対応関係判定部２３６は、ステップＳ１４０５で最大であると特定されたインデックスペアの確信度が、所定閾値以上である場合に第一テキストと第二テキストの「対応箇所」に対応関係があると判定し、所定閾値未満である場合に第一テキストと第二テキストの「対応箇所」に対応関係がないと判定する。

［対応箇所可視化処理］
図１５は、対応箇所可視化処理結果を示す図である。対応箇所可視化処理は、図８に示すステップＳ８０７の詳細処理であり、対応箇所可視化部２４０により実行される。図８に示すように、例えば、対応箇所可視化部２４０は、所定の表示画面に、第一テキストＴ１と、第二テキストＴ２を並べて表示すると共に、第一テキストＴ１と対応関係があると判定された第二テキストの「対応箇所」を識別可能に表示してもよい。このように表示することで、第一テキストＴ１に対応する第二テキストＴ２の対応箇所を容易に識別可能となる。

上述の実施の形態では、第二テキストを検索して第一テキストとの対応箇所を判定する際に、先ず、類義語を用いて第二テキストを検索し、検索で得られた適合領域を基点とした前後の所定範囲を関連語適用可能領域として関連語を用いて検索する。このように、概念辞書や単語分散表現を用いて抽出した関連語を、対応箇所である可能性が高い適合領域に基づく関連語適用可能領域へ局所的に適用する。すなわち、第一テキストと第二テキストから得られた関連語を、ノイズを含む可能性が低い関連語適用領域に限定して利用するため、ノイズによって対応箇所の判定精度が劣化する影響を回避しつつ、関連語によって精度を改善する効果を得ることができる。

［その他の実施形態］
（１）上述の実施の形態では、「単語ペア」を分類する「類義語」と「関連語」のそれぞれについて１種類ずつとした。しかし、これに限らず、「類義語」と「関連語」のそれぞれについて、判定閾値が異なる複数のタイプを設けてもよい。

例えば「類義語」に「類義語Ｉ」と「類義語ＩＩ」があり、「関連語」に「類義語Ｉ」と「関連語ＩＩ」があるとする。そして、「第二テキスト」から「第一テキスト」の対応箇所を抽出する際に、何れかのタイプの「類義語」と「関連語」を適宜組合せて、関連語適用可能領域特定処理（図１３参照）および対応関係判定処理（図１４参照）を行う。これにより、例えば「第二テキスト」における「第一テキスト」の対応箇所として複数の候補を抽出することができ、複数候補からより最適な対応箇所を選択することができる。

（２）上述の実施の形態では、「第一テキスト」が「第二テキスト」の「関連語適用可能領域」のうちの何れの領域に対応するかの対応関係を判定するとした。しかし、これに限らず、「第一テキスト」の全ての部分領域のパターンを網羅するように第一単語インデックスを取得し、「第一テキスト」の各部分領域と対応関係がある「第二テキスト」の対応箇所を抽出することも可能である。これにより、「第一テキスト」と「第二テキスト」の各部分領域について対応箇所を抽出することができる。

以上、本発明の実施の形態について説明したが、本発明は上記した実施の形態に限定されるものではなく、様々な変形例を含む。例えば、上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、構成の追加、削除、置換、統合、または分散を行うことが可能である。また、実施の形態で示した各構成および各処理は、処理効率または実装効率に基づいて適宜分散または統合されてもよい。

１１０ＣＰＵ
１２０メモリ
２００テキスト解析システム
２０１ユーザ端末
２１０単語ＤＢ
２１１単語類似度ＤＢ
２１２類義語ＤＢ
２１３関連語ＤＢ
２２０テキスト情報ＤＢ
２２１カテゴリ情報ＤＢ
２２２関連語適用可能領域ＤＢ
２３０制御部
２３１単語類似度計測部
２３２類義語判定部
２３３関連語判定部
２３４カテゴリ情報抽出部
２３５関連語適用可能領域特定部
２３６テキスト対応関係判定部
２４０対応箇所可視化部

Claims

第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムが行う文章解析方法であって、
前記文章解析システムは、メモリと、前記メモリと協働するプロセッサと、記憶部と、を有し、
前記プロセッサが、
前記第一テキストおよび前記第二テキストに対して、テキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とをそれぞれ生成し、
前記第一構成要素と前記第二構成要素とを１つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し、該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し、
前記類義語情報における前記類義語に係る２つの前記第二構成要素の組合せのうちで、該２つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し、
前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる２つの前記第二構成要素の組合せのうちで、該２つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所と特定し、
前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所とに対応関係がないと判定する
各処理を含んだことを特徴とする文章解析方法。
前記類似度は、複数種類の類似度を含む
ことを特徴とする請求項１に記載の文章解析方法。
前記プロセッサが、
前記第一確信度が最大となる前記第二構成要素の組合せで特定される前記第二テキストの部分領域を所定範囲だけ拡大して前記関連語適用可能領域を生成する
ことを特徴とする請求項１に記載の文章解析方法。
前記プロセッサが、
ユーザによって入力された、前記第一構成要素及び前記第二構成要素に対して付与された構成要素のカテゴリのタイプ及びカテゴリ値を対応付けたカテゴリ情報を前記記憶部に格納し、
前記第一構成要素と前記第二構成要素の前記タイプ及び前記カテゴリ値が一致する場合に１を取り、一致しない場合に０を取るカテゴリスコアが定義され、前記第一構成要素と前記第二構成要素が一致する場合に１を取り、一致しない場合に０を取る一致情報が定義された場合に、
前記第一確信度は、前記類義語情報に格納されている前記類義語に係る２つの前記第二構成要素の組合せのうちで、該２つの前記第二構成要素に係る前記類義語スコアと、該２つの前記第二構成要素と前記類義語をなす前記第一構成要素に係る前記カテゴリスコア及び前記一致情報の少なくとも一方と、に基づく
ことを特徴とする請求項３に記載の文章解析方法。
前記プロセッサが、
ユーザによって入力された、前記第一構成要素及び前記第二構成要素に対して付与された構成要素のカテゴリのタイプ及びカテゴリ値を対応付けたカテゴリ情報を前記記憶部に格納し、
前記第一構成要素と前記第二構成要素の前記タイプ及び前記カテゴリ値が一致する場合に１を取り、一致しない場合に０を取るカテゴリスコアが定義され、前記第一構成要素と前記第二構成要素が一致する場合に１を取り、一致しない場合に０を取る一致情報が定義された場合に、
前記第二確信度は、前記関連語適用可能領域情報に格納されている前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる２つの前記第二構成要素の組合せのうちで、該２つの前記第二構成要素に係る前記関連語スコアと、該２つの前記第二構成要素と前記関連語をなす前記第一構成要素に係る前記カテゴリスコア及び前記一致情報の少なくとも一方と、に基づく
ことを特徴とする請求項１に記載の文章解析方法。
前記プロセッサが、
前記対応箇所を対応箇所可視化部に出力して可視化する
ことを特徴とする請求項１に記載の文章解析方法。
メモリと、前記メモリと協働するプロセッサと、記憶部と、を有するコンピュータを、第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムとして機能させるための文章解析プログラムであって、
前記プロセッサに、
前記第一テキストおよび前記第二テキストに対して、テキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とをそれぞれ生成し、
前記第一構成要素と前記第二構成要素とを１つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し、該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し、
前記類義語情報における前記類義語に係る２つの前記第二構成要素の組合せのうちで、該２つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し、
前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる２つの前記第二構成要素の組合せのうちで、該２つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所と特定し、
前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所とに対応関係がないと判定する
各処理を実行させるための文章解析プログラム。
第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムであって、
メモリと、前記メモリと協働するプロセッサと、記憶部と、を有し、
前記プロセッサは、
前記第一テキストおよび前記第二テキストに対して、テキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とをそれぞれ生成し、
前記第一構成要素と前記第二構成要素とを１つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し、該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し、
前記類義語情報における前記類義語に係る２つの前記第二構成要素の組合せのうちで、該２つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し、
前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる２つの前記第二構成要素の組合せのうちで、該２つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所と特定し、
前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所とに対応関係がないと判定する
各処理を実行することを特徴とする文章解析システム。