JP2010271819A

JP2010271819A - 語句関係抽出装置、語句関係抽出方法及びプログラム

Info

Publication number: JP2010271819A
Application number: JP2009121808A
Authority: JP
Inventors: Yasutaka Yamamoto; 康高山本; Yukitaka Kusumura; 幸貴楠村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-05-20
Filing date: 2009-05-20
Publication date: 2010-12-02

Abstract

【課題】適切な論理関係を想起させる単語のペアを抽出することができる語句関係抽出装置を提供する。
【解決手段】本発明の語句関係抽出装置は、論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、を備える。
【選択図】図２

Description

本発明は、語句関係抽出装置、語句関係抽出方法、及びプログラムに関し、特に、ある論理関係を想起させる単語のペアを抽出する語句関係抽出装置、語句関係抽出方法、及びプログラムに関する。

近年、大規模コーパスを用いて、論理関係を想起させる単語のペアを抽出する技術が報告されている。非特許文献１では、隣接する２つの文の対における「累加」、「加反」、「因果」、「並列」、「転換」、「例示」の６つの接続関係を２文間の論理関係とし、各々の関係を想起させる単語のペアを抽出する手法が記載されている。非特許文献１に係るシステムは、まず、各接続関係を想起させる接続詞で繋がれた隣接２文を抽出する。該システムは、この処理により、論理関係が明らかな隣接２文を特定する。続いて、該システムは、得られた隣接２文の各文から所定の品詞の単語を抽出し、文間で該単語を組み合わせて単語のペアを作る。

齋藤真実、山本和英、関根聡、「大規模テキストを用いた２文間接続関係の同定」、言語処理学会第12回年次大会、2006

しかしながら、非特許文献１に記載された手法は、単語のペアのみによって論理関係の特定を行っているので、異なる論理関係を想起させる単語のペアを抽出してしまうことがあった。

そのため、本発明の目的は、適切な論理関係を想起させる単語のペアを抽出することができる語句関係抽出装置を提供することにある。

上記目的を達成するために本発明の語句関係抽出装置は、論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、を有する。

また、本発明の入力支援装置は、語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、を有する。

また、本発明の入力支援システムは、論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、を備える語句関係抽出装置と、前記語句関係抽出装置により抽出された語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、を備える入力支援装置と、を有する。

また、本発明の語句関係抽出方法は、論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出し、前記論理関係文対の各文から、前記抽出された共通トピックに対応する語句を語句対として抽出する。

また、本発明の入力支援方法は、語句対、共通トピック及び論理関係を記憶し、前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する。

また、本発明の語句関係抽出プログラムは、論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出ステップと、前記論理関係文対の各文から、前記共通トピック抽出ステップにより抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出ステップと、をコンピュータに実行させる。

さらに、本発明の入力支援プログラムは、語句対、共通トピック及び論理関係を記憶する語句関係記憶ステップと、前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定ステップと、をコンピュータに実行させる。

本発明の語句関係抽出装置によれば、適切な論理関係を想起させる単語のペアを抽出することができる。

本発明の第１の実施の形態に係る語句関係抽出装置１のハードウェア構成図である。本発明の実施形態に係る入力支援システム３の機能構成を示すブロック図である。文書DB１００に記憶されているセンテンステーブルの一例である。関係文対抽出部１０２の動作を示すフローチャート（Ｓ１１）である。関係文対抽出部１０２の第1の出力例であって、論理関係文対の各文に役割が割り当てられていない場合の例示である。関係文対抽出部１０２の第2の出力例であって、論理関係文対の各文に役割が割り当てられている場合の例示である。共通トピック抽出部１０４の動作を示すフローチャート（S１１）である。共通トピック抽出部１０４の出力例である。語句対抽出部１０６の動作を示すフローチャート（S１３）である。図８に示す各共通トピック文対から語句対を抽出した結果の一例である。出現確率を計算した語句対の一例であって、閾値処理を行っていない場合の一例である。出現確率を計算した語句対の第二の例であって、閾値処理を行った場合の一例である。語句対の抽出結果を表示する出力画面の一例である。語句関係抽出装置１の全体の動作を示すフローチャート（S１４）である。推定部２０４の動作を示すフローチャート（S１５）である。推定部２０４の出力例である。出力部２０６の出力例である。ＸＭＬで記述された文書の例示である。論理関係の方向性を考慮した語句対の抽出結果の一例である。本発明の第５の実施の形態に係る入力支援装置システム５の機能構成を示すブロック図である。極性判定部１０８の動作を示すフローチャート（S５１）である。極性判定部１０８の出力例である。極性情報を含めた語句対の抽出結果の例である。第５の実施形態に係る語句関係抽出装置１の全体の動作を示すフローチャート（S５２）である。第６の実施の形態に係る本発明の機能構成を示すブロック図である。第６の実施形態の全体の動作を示すフローチャート（S６１）である。

まず、本発明の理解を容易にするために、本発明の背景と概要を説明する。ここでは品詞情報として形容詞に着目し、以下の２つの文対から、単語のペアを抽出することを想定する。
文対１：イチゴが赤い。きっと甘い。
文対２：ラーメンが赤い。でも甘かった。

文対１や文対２には、「きっと」や「でも」などの接続表現が含まれている。この場合、各文対の論理関係は、接続表現に基づいて特定される。したがって、論理関係及び単語のペアは、以下のように抽出される。
文対１：因果関係赤い：甘い
文対２：逆接関係赤い：甘い
このように、抽出された単語のペアだけに注目すると、文対１及び文対２から同じ単語のペアが抽出されたにもかかわらず、２つの単語のペアは、異なる論理関係を想起させることがある。

本発明の語句関係抽出装置は、論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する。また、本発明の語句関係抽出装置は、論理関係文対の各文から、共通トピックに対応する語句を語句対として抽出する。

語句対から想起される論理関係を語句関係という。例えば、文対１であれば、因果関係が語句関係であり、因果関係を想起させる「赤い：甘い」の対が語句対である。

ところで、「赤い：甘い」が因果関係を想起させるのは、トピックが「イチゴ」であるためである。「赤いイチゴが甘い」ことは、多くの人にとって共通認識である。この背景知識があるため、読み手は、文対１のコンテキストを違和感なく読み取れる。そのため、「赤い：甘い」という語句対とイチゴというトピックをセットにして文対から抽出すれば、語句対の抽出においてコンテキストを考慮できる。

上記の考えに基づき、本発明の語句関係抽出装置は、コンテキストを考慮した語句対の抽出を行う。例えば、文対１と文対２から、以下に示す語句対が抽出される。
文対１：因果関係＜イチゴ＞赤い：甘い
文対２：逆接関係＜ラーメン＞赤い：甘い
記号＜＞で囲まれた文字列は、各文対における共通のトピックを表す。文対１及び文対２において、語句対は共に「赤い：甘い」であるが、トピックが異なる。例えば、これらの語句対を用いて、以下の文対３の論理関係を推定することを考える。
文対３：赤いイチゴがある。甘そう。

文対１及び文対２と同様にして、文対３の共通のトピックと語句対を抽出すると「＜イチゴ＞赤い：甘い」になる。文対３とトピックが一致し、かつ、語句対も一致する文対は、文対１である。よって、文対３の論理関係は、文対１と同様、因果関係であると特定される。すなわち、共通のトピックを考慮することで、適切に論理関係を推定できる。

以下、本発明の実施の形態を説明する。

＜第１の実施の形態＞
図１は、本発明の第１の実施の形態に係る語句関係抽出装置１のハードウェア構成図である。図１に示すように、語句関係抽出装置１は、CPU１０と、メモリ１２と、ハードディスクドライブ（HDD）１４と、通信インタフェース（IF）１６と、入力装置１８と、出力装置２０とを有する。これらの構成要素は、バス２２を通して互いに接続されており、データの入出力を行う。通信IF１６は、外部のネットワークに接続するためのインタフェースである。入力装置１８は、例えば、キーボードやマウスである。出力装置２０は、例えば、ディスプレイ等である。本発明は、CPU１０が、メモリ１２又はHDD１４に記憶されているプログラムを実行することにより実現される。

なお、本発明の実施形態に係る入力支援装置２もまた、語句関係抽出装置１と同様のハードウェア構成により実現される。また、語句関係抽出装置１と入力支援装置２とは、同一の筐体に含まれても良いし、異なる筐体に含まれても良い。

図２は、本発明の実施形態に係る入力支援システム３の機能構成を示すブロック図である。図２に示すように、入力支援システム３は、語句関係抽出装置１と入力支援装置２とを有する。語句関係抽出装置１は、文書DB１００と、関係文対抽出部１０２と、共通トピック抽出部１０４と、語句対抽出部１０６とを有する。また、入力支援装置２は、語句関係辞書２００と、入力部２０２と、推定部２０４と、出力部２０６とを有する。

語句関係抽出装置１において、文書ＤＢ１００は、文書に記載されている文を記憶する。具体的には、文書ＤＢ１００は、後述するセンテンステーブル、及び形態素テーブルを記憶する。形態素テーブルは、センテンス毎に形態素解析処理が予め実行された結果であって、後述する文書IDとセンテンスIDとに基づいて所望のセンテンスの形態素解析結果を参照可能なテーブルである。文書ＤＢ１００は、関係文対抽出部１０２、共通トピック抽出部１０４、語句対抽出部１０６により参照される。文書ＤＢ１００は、例えば、メモリ１２、ＨＤＤ１４等の記憶装置により実現される。

関係文対抽出部１０２は、文書ＤＢ１００に記憶されている文を参照し、論理関係文対を抽出する。具体的には、関係文対抽出部１０２は、論理関係を有する隣接する２文及び複文等を抽出する。関係文対抽出部１０２は、抽出した論理関係文対を共通トピック抽出部１０４に出力する。

共通トピック抽出部１０４は、論理関係文対、論理関係文対から特定される論理関係、及び各文の形態素解析結果の情報を入力し、論理関係文対の共通のトピックである共通トピックを抽出する。また、共通トピック抽出部１０４は、共通トピック、共通トピックを有する論理関係文対である共通トピック文対及びその論理関係を語句対抽出部１０６に出力する。

語句対抽出部１０６は、共通トピック抽出部１０４から出力された共通トピック文対の各文から、共通トピック抽出部１０４により抽出された共通トピックに対応する語句を語句対として抽出する。語句抽出部１０６は、共通トピック、論理関係、語句対を入力支援装置２の語句関係辞書２００に格納する。

入力支援装置２において、語句関係辞書２００は、共通トピック、論理関係、語句対を記憶する。語句関係辞書２００は、例えば、メモリ１２、ＨＤＤ１４等の記憶装置により実現される。

入力部２０２は、ユーザにより入力装置１８を介して入力される文間関係が不明な２つの文を受け付ける。ここで文間関係とは、２文の間の論理関係のことである。入力部２０２は、受け付けた２つの文を、推定部２０４に出力する。

推定部２０４は、語句関係辞書２００に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する。推定部２０４は、推定結果を出力部２０６に出力する。

出力部２０６は、推定部２０４により入力された推定結果を出力する。例えば、出力部２０６は、推定結果を出力装置２０に出力する。

次に、語句関係抽出装置１の構成要素を詳細に説明する。

図３は、文書DB１００に記憶されているセンテンステーブルの一例である。

図３に示すように、センテンステーブルは、一つの文を、一つのレコード（行）として記憶する。レコードには、文書ＩＤ、センテンスＩＤ及び本文が含まれる。「文書ＩＤ」列には、各文書を特定するユニークな識別子が記録されている。ここで、文書は、一つの話題に関する文の集合を示す。例えば、文書は、新聞の各記事である。「センテンスＩＤ」列には、文書における各文を特定するユニークな識別子が記録されている。センテンスＩＤは、本文における出現順序であってもよい。「本文」列には、文の内容が記録されている。例えば、各文は、文書ＩＤとセンテンスＩＤのペアにより特定される。以降、「文書ＩＤの値：センテンスＩＤの値」によって各文を参照する。例えば、Ｄ１：Ｓ３は、図３に示されるセンテンステーブルの「このイチゴは甘そうだ。」の文を表す。文書ＤＢ１００は、人により手作業で作成されてもよいし、クローラ等により自動的に作成されてもよい。

図４は、関係文対抽出部１０２の動作を示すフローチャート（Ｓ１１）である。

図４に示すように、まず、関係文対抽出部１０２は、文書DB１００から所定のパターンを含む文対を抽出する（S110）。次に関係文対抽出部１０２は、抽出された文対を共通トピック抽出部１０４に出力する（S112）。本実施の形態では、関係文対抽出部１０２は、抽出された文対に該当する各文の文書ＩＤ、センテンスＩＤを共通トピック抽出部１０４に出力する。

図５は、関係文対抽出部１０２の第1の出力例であって、論理関係文対の各文に役割が割り当てられていない場合を例示する。図６は、関係文対抽出部１０２の第2の出力例であって、論理関係文対の各文に役割が割り当てられている場合を例示する。

図５及び図６に示すように、関係文対抽出部１０２は、文書ＩＤ、センテンスＩＤ及び論理関係をまとめ、その集合を共通トピック抽出部１０４に出力する。

関係文対抽出部１０２は、所定のパターンを含む文対を論理関係文対として抽出し、その結果を共通トピック抽出部１０４に出力する。パターンとは、予め決められた定型句である。パターンの指定方法は、ある文字列を含むという条件だけではなく、ある文字列を含まないことを条件に入れられるようにしても良い。

例えば、関係文対抽出部１０２は、「なぜならば、〜だからである」という文（文Ａ）がある場合、この文とその前文（文Ｂ）との間には、文Ａが「原因」で文Ｂが「結果」という因果関係があるとして、文Ａ及び文Ｂを抽出する。ここで、「原因」と「結果」等は、各文の役割である。図６の記号「→」は、この矢印の矢筈側が原因、矢尻側が結果の文であることを意味する。

また例えば、関係文対抽出部１０２は、１文目の文頭が「一方」であり、かつ、２文目の文頭が「他方」である場合、この２文には「対立関係」があるとして、2文を抽出する。

また例えば、関係文対抽出部１０２は、「文Ａのために、文Ｂを行った。」など、２つ以上の文が接続関係により繋がれている複文を抽出する。なお、関係文対抽出部１０２は、複文に対しては、「＊の結果、＊となった」などのパターンを用いて、接続詞前を第１文、接続詞後を第２文として、論理関係文対を抽出する。

なお、関係文対抽出部１０２は、パターンを内部情報として保持してもよいし、設定ファイルとして記録するようにし処理開始前に読み込むようにしてもよい。パターンが、設定ファイルとして記録されている場合、パターンを人が容易に変更できるという利点がある。

次に、図７及び図８を参照して、共通トピック抽出部１０４を説明する。

図７は、共通トピック抽出部１０４の動作を示すフローチャート（S１１）である。

図７に示すように、まず、共通トピック抽出部１０４は、関係文対抽出部１０２から入力された所定のパターンを含む文対、すなわち論理関係文対の各文から主語を抽出する（S120）。主語は、共通トピックになりやすいからである。次に、共通トピック抽出部１０４は、抽出された主語が共通トピックであるか否かを判定する（S122）。抽出された主語は共通トピックでないと判定した場合、共通トピック抽出部１０４は、処理を終了する。抽出された主語は共通トピックであると判定した場合、共通トピック抽出部１０４は、該共通トピックと共通トピック文対を語句対抽出部に出力する（S124）。本実施の形態では、共通トピック抽出部１０４は、共通トピックと、共通トピック文対に該当する文の文書ＩＤ、センテンスＩＤを語句対抽出部１０６に出力する。

S１２０の処理を具体的に説明する。共通トピック抽出部１０４は、論理関係文対の各文の文書ＩＤとセンテンスＩＤをキーとして、文書ＤＢ１００が記憶する形態素テーブルを参照し、形態素解析結果を取得する。共通トピック抽出部１０４は、形態素解析結果において、品詞が「係助詞」であり、単語の原型が「は」「が」「も」である単語を抽出する。共通トピック抽出部１０４は、これら係助詞よりも前方にあり、かつ、近接する名詞句を抜き出し、それを主語とみなす。共通トピック抽出部１０４は、１つ以上の連続する名詞及び格助詞「の」「における」で連結された名詞を名詞句であると判定する。

共通トピック抽出部１０４は、抽出した主語が不要単語でないかを判定し、不要単語の場合は、抽出した主語は共通トピックとみなさなくても良い。不要単語は、トピックの対象から除外する単語である。例えば、「私」「以下」「下記」「上記」「原因」「理由」等の単語である。不要単語は、正規表現を用いて指定されても良い。不要単語は、あらかじめ決められており、例えばファイル等（不要単語ファイル）に登録されている。共通トピック抽出部１０４は、共通トピックの判定処理を開始する前に不要単語ファイルを読み込む。

具体的には、共通トピック抽出部１０４は、不要単語と論理関係文対から抽出した主語とを比較し、不要単語と抽出した主語とが一致する場合には、該主語は共通トピックとみなさない。共通トピック抽出部１０４は、この判定処理において、名詞句が不要単語でない場合のみ、その語句を主語と判定する。

Ｓ１２２の処理を具体的に説明する。共通トピック抽出部１０４は、論理関係文対の各文から抽出した主語が一致している場合、前記論理関係文対は共通のトピックについて記載されていると判定する。共通トピック抽出部１０４は、主語となる語句を共通トピックとし、主語が共通する論理関係文対を共通トピック文対とする。

なお、論理関係文対の１文目にａ個の主語があり、２文目にｂ個の主語がある場合、共通トピック抽出部１０４は、ａ×ｂ回の主語の比較を行う。共通トピック抽出部１０４は、１文目の主語と２文目の主語とが一致する全ての場合において、主語を共通トピックとする。すなわち、一つの論理関係文対から、複数の共通トピックが得られることもある。

共通トピック抽出部１０４は、シソーラス辞書を用いて、抽出した共通トピックの同義語、類義語、言い換え表現を特定し、共通トピックとして追加しても良い。シソーラス辞書を用いて共通トピックを増やしておくことで、入力支援装置が行う処理において利用できるデータを増やすことができる。

以下、共通トピック抽出部１０４の行う処理を、具体例を用いて説明する。

共通トピック抽出部１０４には、例えばＤ１：Ｓ３及びＤ１：Ｓ４等、文書ＩＤとセンテンスＩＤ（図３）が入力される。共通トピック抽出部１０４は、文書DB１００が記憶する形態素テーブルを参照して、両文とも係助詞「は」を含むことがわかる。共通トピック抽出部１０４は、係助詞「は」以前の名詞句を抽出する。すなわち、共通トピック抽出部１０４は、Ｄ１：Ｓ３及びＤ１：Ｓ４の両文から、主語である「イチゴ」を抽出する。共通トピック抽出部１０４は、「イチゴ」が不要単語ではないと判定し、共通トピックであると判定する。共通トピック抽出部１０４は、シソーラス辞書を用いて、イチゴの言い換え表現である「いちご」「苺」「ストロベリー」等を共通トピックとして追加しても良い。

図８は、共通トピック抽出部１０４の出力例である。

図８に示すように、共通トピック抽出部１０４は、文書ＩＤ、センテンスＩＤ、共通トピック及び論理関係をまとめ、その集合を共通トピック抽出部１０４に出力する。本例では、「イチゴ」がシソーラス辞書を用いて拡張された結果として、「ストロベリー」が共通トピックとして追加されている。

なお、関係文対抽出部１０２と共通トピック抽出部１０４は、順序が逆であっても構わない。その場合、まず共通トピック抽出部１０４は、トピックが共通する全ての隣接２文を抽出する。その後、関係文対抽出部１０２は、共通トピックを有する隣接２文に対して、ある特定のパターンに合致する隣接２文を抽出する。

次に、図９〜図１３を参照して、語句対抽出部１０６を説明する。

図９は、語句対抽出部１０６の動作を示すフローチャート（S１３）である。

図９に示すように、まず、語句対抽出部１０６は、共通トピック抽出部１０４から入力された共通トピック文対から、共通トピックの属性を表す語句を抽出する（S130）。本実施の形態においては、共通トピックの属性を表す語句は、共通トピックが主語となっている単文の「形容詞」とする。次に、語句対抽出部１０６は、抽出された語句を文間で組み合わせて語句対を生成する（S132）。最後に、語句対抽出部１０６は、共通トピックと語句対を出力する（S134）。

S１３０の処理を具体的に説明する。語句対抽出部１０６は、共通トピック文対の各文の文書ＩＤとセンテンスＩＤをキーとして、文書DB１００が記憶する形態素テーブルを参照し、形態素解析結果を取得する。語句対抽出部１０６は、形態素解析結果において、品詞が「形容詞」である語句を抽出する。

語句対抽出部１０６は、抽出した語句がストップワードであるか否かを判定し、ストップワードである場合は、該語句は出力対象とみなさなくても良い。ストップワードは、出力対象から除外する語句である。ストップワードは例えば、「良い」「悪い」等の主観に基づく語句等でも良い。ストップワードは、予め決められており、例えばファイル等に記録されている。

S１３２の処理を具体的に説明する。語句対抽出部１０６は、共通トピック文対である各文において抽出された語句を文間で組み合わせて語句対を生成する。

なお、語句対抽出部１０６は、共通トピック文対の各文から条件を満たす語句が複数抽出された場合、各文間における全ての組み合わせの語句対を抽出する。例えば共通トピック文対において、１文目からａ個の語句、２文目からｂ個の語句が抽出された場合、語句対は、ａ×ｂ個となる。語句対抽出部１０６は、語句対を共通トピック毎に記録する。そのため、共通トピックがｃ個ある場合、語句対はａ×ｂ×ｃ個となる。

語句対抽出部１０６は、各語句対の出現確率を求めて、出現確率の高い語句対だけを所定の論理関係を想起させる語句対として抽出しても良い。語句対抽出部１０６が、出現確率の高い語句対だけを所定の論理関係を想起させる語句対として抽出する処理を以下に説明する。語句対抽出部１０６は、出現確率を以下の手順により算出する。なお、以下の手順は、所定の論理関係Ｒという関係があり、共通トピックがαである共通トピック文対において、一方が語句Ａ（又は語句Ｂ）という語句を含む場合に、他方が語句Ｂ（又は語句Ａ）を含む確率を求めるものである。
１．論理関係がＲであり、共通トピックがαである共通トピック文対を集める。この共通トピック文対の集合をＳとする。
２．集合Ｓの中で一方の文に語句Ａもしくは語句Ｂが含まれている共通トピック文対の数を数える。この数をＮとする。
３．集合Ｓの中で一方の文に語句Ａが、他方の文に語句Ｂが含まれている共通トピック文対の数を数える。この数をＭとする。
４．共通トピックがαである語句対ＡとＢの出現確率ｐをＭ／Ｎにより算出する。

語句対抽出部１０６は、出現確率が小さいものや、Ｎの値が小さいものを、語句対とみなさなくても良い。この場合、Ｎの値の閾値ならびに出現確率の閾値は、予め決められており、設定ファイル等に記録されていても良い。

以下、語句対抽出部１０６の行う処理を、具体例を用いて説明する。

語句対抽出部１０６は、共通トピック抽出部１０４の出力結果（図８）から、Ｄ１：Ｓ３及びＤ１：Ｓ４が共通トピック文対であると判定する。語句対抽出部１０６は、形態素解析結果において、品詞が「形容詞」であるものを抽出する。この結果、語句対抽出部１０６は、Ｄ１：Ｓ３に「甘い」、Ｄ１：Ｓ４に「赤い」が含まれていると判定する。語句対抽出部１０６は、「甘い」と「赤い」を抽出する。語句対抽出部１０６は、「甘い」と「赤い」を組み合わせて語句対「甘い：赤い」を生成する。

図１０は、図８に示す各共通トピック文対から語句対を抽出した結果の一例である。Ｄ１のＳ３及びＳ４の共通トピック文対においては、共通トピックが２個、１文目及び２文目から抽出される語句の数がそれぞれ１個であるため、２×１×１＝２個の語句対が抽出されることになる。語句対抽出部１０６は、語句対を共通トピック毎に記録する。また、図１０では、語句対を抽出した共通トピック文対の文間関係を語句関係として記載している。

次に、語句対抽出部１０６は、各語句対の出現確率を求めても良い。

図１１は、出現確率を計算した語句対の一例であって、閾値処理を行っていない場合を例示する。図１２は、出現確率を計算した語句対の第二の例であって、閾値処理を行った場合を例示する。

例えば、共通トピックが「イチゴ」であり、「赤い」又は「甘い」が含まれる共通トピック文対が５文対あるとする。この中で一方に「赤い」、他方に「甘い」が含まれる共通トピック文対が４文対あるとする。上記の手順に従えば、この語句対の出現確率は４／５＝０．８と計算される。

また、一般的に、共通トピックが「イチゴ」であり、一方に「青い」が含まれ、他方に「甘い」が含まれる文対は少ないと考えられる。例えば、共通トピックが「イチゴ」であり、語句対が「青い：甘い」である文対の出現確率が０．１だとする。語句対抽出部１０６は、出現確率が０．３以下のものは語句対とみなさないという処理を行っても良い。該処理により語句対抽出部１０６は、共通トピックが「イチゴ」である「青い：甘い」という語句対を削除する。

最後に、語句対抽出部１０６は、一例として図１２に示すように、語句関係、共通トピック、語句対及び出現確率をまとめ、その集合を語句関係辞書２００に出力する。

また、語句抽出辞書１０６は、文書ＩＤ、共通トピック文対のセンテンスＩＤ、共通トピック、語句対、語句関係及び出現確率をセットにして、出力装置２０等に出力しても良い。

図１３は、語句対の抽出結果を表示する出力画面の一例である。表示の際は、文書ＩＤ列の各ＩＤやセンテンスＩＤ列の各ＩＤに本文へのリンクを張っておき、ユーザが抽出結果、ならびに推定結果が正しいかを確認しやすくしておいても良い。

図１４は、語句関係抽出装置１の全体の動作を示すフローチャート（S１４）である。

図１４に示すように、まず、S１１（図４）において、関係文対抽出部１０２は、論理関係文対を抽出する。S１２（図７）において、共通トピック抽出部１０４は、論理関係文対から共通トピックを抽出する。S１３（図９）において、語句対抽出部１０６は、共通トピック文対から語句対を生成する。

次に、入力支援装置２の構成要素を詳細に説明する。

本実施の形態において入力支援装置２は、文間関係が未知の文対に対し、文間関係の推定を行う。

語句関係辞書２００は、語句対抽出部１０６から出力された語句関係、共通トピック、語句対及び出現確率を一つのレコードとして記憶する。

入力部２０２は、入力装置１８を介して、ユーザから文間関係が未知の文の入力を受け付ける。ユーザは、文間関係が未知である文を含む文書を記録した推定用文書の集合を入力しても良い。推定用文書は、人により登録されても良いし、例えばクローラ等により収集されても良い。また、推定用文書には、関係文対抽出部３０２により、論理関係文対と判定されなかった文集合が含まれても良い。なお、入力部２０２は、メモリ１２やHDD１４に記憶されている未知の文を読み込んでも良いし、通信IFを介して外部のコンピュータから文間関係が未知の文を受信しても良い。

推定部２０４は、語句関係辞書２００の記録内容に基づいて、入力された文間関係が未知の文の文間関係を推定し、その結果を出力部２０６に出力する。

出力部２０６は、推定部２０４により推定された文間関係を出力する。例えば、出力部２０６は、文間関係を出力装置２０に出力する。

次に、図１５〜図１７を参照して、推定部２０４を説明する。なお、説明を簡単にするため、入力部２０２は、推定用文書の集合を、図３と同様の形式で文書が記録されている外部のDBから通信IFを介して受信するものとする。

図１５は、推定部２０４の動作を示すフローチャート（S１５）である。

図１５に示すように、まず、推定部２０４は、入力部２０２から入力された推定用文書の集合から、共通トピックを含む隣接２文である対象文対を抽出する（S150）。具体的には、推定部２０４は、推定用文書ＤＢのセンテンステーブルから、共通トピックを含む隣接２文である対象文対を抽出する。推定部２０４は、全ての隣接２文に対して、共通トピック抽出部１０４と同様の処理を行うことによって対象文対を抽出する。なお、区別のために、抽出された対象文対の共通トピックを対象トピックと呼ぶ。

次に、推定部２０４は、抽出した対象文対から対象文対の語句対である対象語句対を生成する（S152）。具体的には、推定部２０４は、対象文対から対象文対の語句対である対象語句対を生成する。推定部２０４は、抽出した対象文対に対して語句対抽出部１０６と同様の処理を行うことによって対象語句対を生成する。本実施の形態では、語句関係辞書に記録されている語句対は形容詞により生成されているため、推定部２０４は対象文対から形容詞を抽出して対象語句対を生成する。

次に、推定部２０４は、語句関係辞書２００の記録内容に基づいて、対象文対の文間関係を推定する（S154）。具体的には、推定部２０４は、抽出された対象トピックと対象語句対を語句関係辞書２００の登録内容と比較することにより、対象文対の文間関係を推定する。

さらに、推定部２０４は、文間関係の推定結果を出力部２０６に出力する（S156）。

以下に、文間関係の推定方法を詳述する。

ある対象文対においてD個の対象語句対が抽出されたとする。推定部２０４は、対象トピックが共通トピックと一致し、かつ、対象語句対が語句対と一致するレコードを語句関係辞書２００から検索し、そのレコードを語句関係毎にまとめる。推定部２０４が語句関係辞書２００を検索した結果、仮にＮ種類の語句関係が抽出されたとする。このときｉ種類目の語句関係をＲｉとし、上記検索により、Ｒｉ毎にまとめたレコードの集合をＣｉとする。Ｃｉの要素数を｜Ｃｉ｜で定義する。｜Ｃｉ｜はＤ以下の値となる。また、ｊ番目のレコードの出現確率をｆｊで定義する。推定部２０４は、ある対象文対の文間関係がある語句関係Ｒｉである確信度を以下の式により計算する。

数１の式において、ｕは、ｆｊの最小値以下の正数であり、０でない値とする。推定部２０４は、Ｎ個得られるＣｏｎｆ（Ｒｉ）の値の中で、その値が最も高くなる語句関係Ｒｉを対象文対の文間関係とする。Ｃｏｎｆ（Ｒｉ）の値域は［０：１］である。数１の式から明らかなように、出現確率ｆｊが大きく、｜Ｃｉ｜が大きければ、Ｃｏｎｆ（Ｒｉ）は大きくなる。極端な例として、Ｃｉに属するレコードのｆｊが全て１であり、｜Ｃｉ｜がＤである場合、Ｄ−｜Ｃｉ｜を指数とするｕの項は１になり、その後のΠの項もｆｊ（＝１）をＣｉ乗するため１となるため、Ｃｏｎｆ（Ｒｉ）は最大値１を取る。逆に、｜Ｃｉ｜の値が小さいと、Ｄ−｜Ｃｉ｜の値が大きくなり、その値を指数とするｕの項が非常に小さな値をとりＣｏｎｆ（Ｒｉ）の値は小さくなる。仮に｜Ｃｉ｜が大きくてもｆｊが小さければ、Ｃｏｎｆ（Ｒｉ）の値は大きくならない。なお、数１に示す式は非常に小さな値となるため、以下の数２のように、数１の式の対数をとった式を用いてもよい。

また、推定部２０４は、対象トピック及び対象語句対が一致するレコードが一つも語句関係辞書２００に含まれていない場合は、対象文対の文間関係は未知であると判定する。さらに、共通トピック文対に対応しているＫ種類の語句関係の各Ｃｏｎｆ（Ｒｉ）の値がいずれも閾値以下である場合には、推定部２０４は、対象文対の文間関係を未知としても良い。閾値は、予め決められており、例えば設定ファイルなどに記憶されている。なお、数１及び数２の式は、Ｄの値が大きいほどＣｏｎｆ（Ｒｉ）の値が小さくなる傾向があるため、Ｄの値によって閾値を変更できるようにしておいても良い。

以下、推定部２０４の行う処理を、具体例を用いて説明する。

例として、図３に示すセンテンステーブルのＤ６に着目する。推定部２０４は、入力された形態素テーブルを参照して、Ｄ６：Ｓ１には係助詞「が」が含まれ、Ｄ６：Ｓ２には係助詞「は」が含まれていると判定する。推定部２０４は、これら係助詞の前方で近接する名詞が「ストロベリー」であり、Ｄ６：Ｓ１とＤ６：Ｓ２で共通していると判定する。推定部２０４は、該２文は主語が一致する隣接２文であると判定する。このようにして、推定部２０４は、Ｄ６：Ｓ１とＤ６：Ｓ２が「ストロベリー」を対象トピックとする対象文対であることを判定する。なお、文書Ｄ１のセンテンスＳ３とセンテンスＳ４、文書Ｄ３のセンテンスＳ１とセンテンスＳ２、文書Ｄ５のセンテンスＳ１とセンテンスＳ２は、それぞれ定型句を含む論理関係文対であるため、対象文対から除外する。

次に、推定部２０４は、形態素テーブルを参照してＤ６：Ｓ１、Ｄ６：Ｓ２に含まれる形容詞はそれぞれ「赤い」「甘い」であることを判定し、対象語句対として「赤い：甘い」を生成する。

次に、推定部２０４は、抽出した対象トピック及び生成した対象語句対に基づいて、Ｄ６：Ｓ１とＤ６：Ｓ２の対象文対の文間関係を推定する。語句対抽出部１０６によって図１２に示す情報を格納した語句関係辞書２００が構築されているものとする。また、Ｃｏｎｆ（Ｒｉ）の閾値は０．００１とする。推定部２０４は、Ｄ６：Ｓ１とＤ６：Ｓ２の対象文対の対象トピックが「ストロベリー」であり、対象語句対が「赤い：甘い」であることから、図１２に示す語句関係辞書２００の２行目のレコードが合致すると判定する。よって推定部２０４は、該対象文対の分間関係として因果関係を抽出する。数１の記号で表現すると、対象語句対数Ｄが１であり、抽出される語句関係数Ｎも１である。Ｃｉは上記２行目のレコードの語句対だけであるため、｜Ｃｉ｜は１となる。その出現確率は０．８である。数１によれば、Ｃｏｎｆ（因果関係）はｕの０乗×０．８となり０．８を得る。他の語句関係は抽出されていないため、得られるＣｏｎｆ（Ｒｉ）は一種類となる。この０．８が設定した閾値よりも高いため、推定部２０４は、対象文対の文間関係は因果関係であると推定する。

図１６は、推定部２０４の出力例である。

図１６に示すように、推定部２０４は、文書ＩＤ、センテンスＩＤ、対象トピック、推定された文間関係をまとめ、その集合を出力部２０６に出力する。出力形式は上記の情報が分かれば、いかなる形式でも構わない。

図１７は、出力部２０６の出力例である。出力部２０６は、図１７に示すように、関係文対抽出部１０２で抽出した文間関係と、推定部２０４で推定した文間関係を分けて表示しても良い。表示の際は、文書ＩＤ列の各ＩＤやセンテンスＩＤ列の各ＩＤに本文へのリンクを張っておき、ユーザが抽出結果、ならびに推定結果が正しいかを確認しやすくしておいても良い。仮に誤りがある場合は、それを修正できるように表示しても良い。抽出結果が修正された場合、その修正を語句関係辞書に反映し、推定結果を更新するようにしても良い。

以上詳述したように、本発明の第１の実施の形態によれば、語句関係抽出装置１によって適切な論理関係を想起させる単語のペアを抽出することができる。また、入力支援装置２によって、語句関係抽出装置１が抽出した語句対と共通トピックに基づいて、文間関係が未知である文対の文間関係を推定することができる。

＜第２の実施の形態＞
本発明の第２の実施の形態に係る入力支援システムは、共通トピック抽出部１０４が、さらに主語を補完して抽出する点で、第１の実施の形態に係る入力支援システムと異なる。

日本語では、主語が省略されることがある。共通トピック抽出部１０４は、論理関係文対の一方の文が、主語を含まない場合、他方の文の主語を共通トピックとして抽出する。また、共通トピック抽出部１０４は、いずれの文からも主語を抽出できない場合、第１文の前文の主語を共通トピックとして抽出する。前文からも主語が抽出できない場合、共通トピック抽出部１０４は、同一文書内で主語のある文まで遡り主語を抽出する。

例えば、論理関係文対のいずれの文にも主語がない場合、共通トピック抽出部１０４は、第１文の文書ＩＤであり、かつ、第１文のセンテンスＩＤから１ひいたセンテンスＩＤの文を、文書ＤＢ１００から抽出する。共通トピック抽出部１０４は、抽出した文から主語を抽出し、抽出した主語を第１文の主語とする。前文にも主語が見つからない場合は、共通トピック抽出部１０４は、さらに一つ前の文に対して、同様の処理を行う。この処理を再帰的に繰り返しても、同一文書ＩＤ内で主語を有する文が見つからない場合、共通トピック抽出部１０４は、第１文を主語なしと判定する。

なお、複文においては、１文中に主語が２つ含まれることもある。主語のない文の前文が主語を２つ含む文である場合、共通トピック抽出部１０４は、後方に出てきた主語で主語のない文の主語を補う。

また、共通トピック抽出部は、論理関係文対の一方の文の主語が指示代名詞である場合、他方の文から指示代名詞により指示される語句を共通トピックとして抽出する。

すなわち、論理関係文対において、「これは」など指示代名詞が主語となっている場合に、共通トピック抽出部１０４は、照応解析技術などを用いて、主語となる語句を抽出する。例えば、「イチゴが赤い」「だから、これは甘いに違いない」という論理関係文対では、１文目の主語が「イチゴ」であり、２文目の主語が「これ」である。共通トピック抽出部１０４は、２文目の「これ」が１文目の「イチゴ」に対応することを判定し、共通トピックとして「イチゴ」を抽出する。なお、特定の分野を示さない「私は」「下記は」などが主語となっている論理関係文対については、共通トピックがないものとする。

なお、共通トピック抽出部１０４は、指示代名詞の元となる名詞句を特定する処理を行う際、非特許文献２等に記載の照応解析技術を用いる。

機械学習による日本語名詞句照応解析の一手法，言語処理学会第10回年次大会，pp.761-764，2004 以上説明したように、本発明の第２の実施の形態によれば、共通トピック抽出部１０４において、主語のない文又は主語が指示代名詞である文の主語を補完するので、より精度の高い語句対の生成が可能になる。

＜第３の実施の形態＞
本発明の第３の実施の形態に係る入力支援システムは、共通トピック抽出部１０４が、見出しの語句を共通トピックとしてさらに抽出する点で、第２の実施の形態に係る入力支援システムと異なる。

共通トピック抽出部１０４は、論理関係文対が含まれる文書の見出しの語句を、見出しに関連する論理関係文対の共通トピックとして抽出する。例えば、共通トピック抽出部１０４は、新聞の各記事の論理関係文対に対して、該論理関係文対を含む記事の見出しの語句を共通トピックとして抽出する。見出しは記事全体の主題であるため、見出しには全文に共通するトピックとなる語句が含まれているためである。共通トピック抽出部１０４は、例えばタグを用いて、見出しを抽出する。

図１８は、ＸＭＬで記述された文書を例示する。

図１８に示すように、文書がＸＭＬ文などで構造化されている場合、文書ＤＢ１００（図１）は、タグをさらに記憶する。この場合、共通トピック抽出部１０４は、＜ｔｉｔｌｅ＞タグのついた文を見出しとして抽出する。共通トピック抽出部１０４は、文書中の＜ｔｉｔｌｅ＞タグの有無により見出しであるか内容の文であるかを判別する。

また、文書が構造化されていない場合、共通トピック抽出部１０４は、各文書ＩＤの最初の文が体言止めであれば、その文を見出しと判定しても良い。一般的に、見出し付文書は、（ｉ）各文書の最初の文は見出しになりやすい、（ｉｉ）見出しは体言止めされやすい、などの性質があるためである。なお、共通トピック抽出部１０４は、文書ＤＢ１００が記憶する形態素テーブルを参照し、最後の単語が名詞である文を、体言止めの文であると判定しても良い。

次に、共通トピック抽出部１０４は、見出しから共通トピックを抽出する。具体的には、共通トピック抽出部１０４は、予め決められた見出し用単語が見出しに含まれる場合、この見出し用単語を共通トピックとして抽出する。見出しは主語と述語を含む体裁で記載されにくく、主語を抽出する方法ではトピックが抽出しづらいためである。見出し用単語は、例えば、「環境問題」「教育」「経済」「政治」等である。見出し用単語は、あらかじめファイル（見出し用単語ファイル）等に登録されている。共通トピック抽出部１０４は、処理開始時に見出し用単語ファイルを読み込むようにしても良い。

また、共通トピック抽出部１０４は、見出し用単語を直接共通トピックとするのではなく、見出しに、見出し用単語の下位概念の単語が含まれている場合、上位概念にあたる見出し用単語を共通トピックとしても良い。又は、共通トピック抽出部１０４は、見出しに、見出し用単語以外の単語が含まれている場合、該単語と関連する見出し用単語を共通トピックとしても良い。

例えば「温暖化ガス」という単語が見出しに含まれている場合、共通トピック抽出部１０４は、見出しの記事の全論理関係文対に「環境問題」という共通トピックを追加する。また、「二酸化炭素」と「削減」という２つの単語が見出し中に含まれている場合、共通トピック抽出部１０４は、該見出しの記事の全論理関係文対に「環境問題」という共通トピックを追加する、等の処理を行っても良い。

以上説明したように、本発明の第３の実施の形態によれば、共通トピック抽出部１０４において、見出しの語句を共通トピックとして抽出するので、より多くの語句対を生成することができる。

＜第４の実施の形態＞
本発明の第４の実施の形態に係る入力支援システムは、語句対抽出部１０６が語句対の出現確率を計算する際に、論理関係の方向性を考慮する点で、第１〜３の実施の形態に係る入力支援システムと異なる。

例えば、論理関係が因果関係である場合、「原因」から「結果」が導かれる、というように論理関係に方向性がある。このような論理関係においては、語句対抽出部１０６は、出現確率を求める際に、この方向性を考慮する。

図１９は、論理関係の方向性を考慮した語句対の抽出結果の一例である。図１９では、語句対の方向性が、記号「→」を用いて表されている。記号「→」は、この矢印の矢筈側が原因、矢尻側が結果の文から抽出されたことを意味する。逆接関係は、語句対を「：」で繋いで表されている。なお、原因と結果が逆の語句対が存在する場合、それらは別の語句対とする。

以下では、共通トピックがαで、因果関係のある共通トピック文対において語句Ａが原因側の文に、語句Ｂが結果側の文に含まれている場合に、語句対抽出部１０６が出現確率を算出する処理を説明する。語句対抽出部１０６は、以下の手順により出現確率を算出する。
１．因果関係があり、共通トピックがαである共通トピック文対を集める。この共通トピック文対の集合をＳとする。
２．集合Ｓの中で「原因」側の文に語句Ａが含まれている共通トピック文対の数を数える。この数をＮとする。
３．集合Ｓの中で「原因」側の文に語句Ａが含まれ、かつ、「結果」側の文に語句Ｂが含まれる共通トピック文対の数を数える。この数をＭとする。
４．共通トピックがαである語句対ＡとＢの出現確率ｐをＭ／Ｎにより算出する。

出現確率ｐは、原因側にＡを含む共通トピック文対の中で結果側にＢを含む確率を表す条件付確率である。２．の処理で、語句対抽出部１０６は、共通トピック文対の文書IDとセンテンスIDをキーとして、図６に示すような役割が割り当てられている出力テーブルを参照することで、どちらが「原因」側の文であるかを判定する。例えば、センテンスＩＤ列が「Ｓ４→Ｓ３」である場合、語句対抽出部１０６は、Ｓ４側が原因を表す文であり、Ｓ３が結果を表す文であると判定する。

最後に、語句対抽出部１０６は、図１９に示すように、語句関係、共通トピック、役割が割り当てられた語句対及び出現確率をまとめ、その集合を語句関係辞書２００に出力する。また、語句抽出辞書１０６は、文書ＩＤ、共通トピック文対のセンテンスＩＤ、共通トピック、役割の割り当てられた語句対、語句関係及び出現確率をセットにして、ディスプレイ等に出力しても良い。

以上説明したように、本発明の第４の実施の形態によれば、語句対抽出部１０６において、論理関係の方向性を反映した結果を出力するので、ユーザが論理関係の方向性を一目で把握することができる。

＜第５の実施の形態＞
図２０は、本発明の第５の実施の形態に係る入力支援装置システム５の機能構成を示すブロック図である。本発明の第５の実施の形態に係る入力支援システムは、語句関係抽出装置１が、さらに極性判定部１０８を有する語句関係抽出装置４である点で、第１の実施の形態に係る入力支援システムと異なる。

語句関係抽出装置４において、文書DB１００、関係文対抽出部１０２、共通トピック抽出部１０４は実施の形態１に記載したものと同様であるため、説明を省略する。

極性判定部１０８は、共通トピック抽出部１０４から共通トピック、共通トピック文対及びその論理関係を入力する。極性判定部１０８は、所定の語句が共通トピック文対に含まれる回数に基づいて、共通トピック文対の各文の極性を判定し、その結果である極性情報及び入力された情報全部を語句対抽出部１０６に出力する。極性とは、各文が肯定文であるか否定文であるかを区別するものである。所定の語句とは、否定表現の単語又は否定表現である所定の単語の組み合わせであり、詳しくは後述する。

語句対抽出部１０６は、極性判定部１０８から共通トピック、共通トピック文対、論理関係及び極性情報が入力される。語句対抽出部１０６は、極性情報を含めた語句対を生成する。

図２１及び図２２を参照して、極性判定部１０８を説明する。

図２１は、極性判定部１０８の動作を示すフローチャート（S５１）である。

図２１に示すように、まず、極性判定部１０８は、共通トピック抽出部１０４から入力された共通トピック文対の各文の極性を判定する（S510）。次に、極性判定部１０８は判定された極性の情報を語句対抽出部１０６に出力する（S512）。

S５１０の処理を具体的に説明する。極性判定部１０８は、まず所定の語句の数を数える否定表現カウンタを０にセットする。極性判定部１０８は、共通トピック抽出部１０４から出力される共通トピック文対の各文の文書ＩＤとセンテンスＩＤをキーとして、文書DB１００が記憶する形態素テーブルを参照し、形態素解析結果を取得する。

極性判定部１０８は、形態素解析結果の品詞と原型を走査していき、予め決められた否定表現の単語又は否定表現である所定の単語の組み合わせが検出された場合に、否定表現カウンタを１インクリメントする。否定表現の単語とは、例えば、品詞が「助動詞」であり単語の原型が「ない」である単語である。また、否定表現である所定の単語の組み合わせとは、品詞が「助動詞」であり単語の原型が「ます」である単語と、品詞が「助動詞」であり単語の原型が「ん」である単語の組み合わせである。それぞれ、「〜ない。」や「〜ません。」などの表現を意図した判定条件となる。

極性判定部１０８は、各文の後方から順次探索していき、読点もしくは文頭にいたるまで上記の処理を行う。極性判定部１０８は、用いられていた否定表現の回数を否定表現カウンタに記録する。極性判定部１０８は、否定表現の回数を数えることにより、「〜ないことはない」など二重否定の文を肯定文と判定する。すなわち極性判定部１０８は、共通トピック文対の各文を、最終的に得られた否定表現カウンタの値が偶数であれば「肯定」、奇数であれば「否定」と判定する。

図２２は、極性判定部１０８の出力例である。

図２２は、図３に示すセンテンステーブルの共通トピック文対に対する極性判定後の出力結果である。記号「＋」は、上記処理により、肯定文であると判定された文であることを表す。記号「−」は、上記処理により、否定文であると判定された文であることを表す。

次に、本実施の形態において、語句対抽出部１０６が行う処理について説明する。

図２３は、極性情報を含めた語句対の抽出結果の例である。

＋及び−は、語句対の各語句の極性を表す。＋は、付与された語句の意味がそのままの意味であることを表し、−は、付与された語句の意味が該語句の否定の意味であることを表す。

例えば、「甘い−」は、「甘くない」の意味である。語句対抽出部１０６は、語句の抽出元となった文の極性を、そのまま語句の極性として付与する。語句対抽出部１０６は、語句対の出現確率を計算する際、極性の一致を判定した上で、一つの語句として数える。

図２３の例では、「青い＋：甘い−」という語句対が、文書D３のセンテンスS１とセンテンスS２から生成されている。ユーザは、図２３に示す極性を含んだ出力結果により、イチゴの青さが甘さと負の因果関係にあることを判断できる。

また、本実施の形態では、推定部２０４においても対象文対の極性を判定し、対象文対の文間関係の推定の際、さらに極性情報の一致を条件としても良い。

図２４は、第５の実施形態に係る語句関係抽出装置１の全体の動作を示すフローチャート（S５２）である。

図２４に示すように、まず、S１１（図４）において、関係文対抽出部１０２は、論理関係文対を抽出する。S１２（図７）において、共通トピック抽出部１０４は、論理関係文対から共通トピックを抽出する。S５１（図２１）において、極性判定部１０８は、共通トピック文対の各文の極性を判定する。S１３（図９）において、語句対抽出部１０６は、共通トピック文対から極性情報を含めた語句対を生成する。

以上詳述したように、本発明の第５の実施の形態によれば、極性判定部１０８が文の極性を判定することで、より正確な語句関係を抽出することが可能になる。

＜第６の実施の形態＞
図２５は、第６の実施の形態に係る本発明の機能構成を示すブロック図である。本発明が解決すべき課題は、共通トピック抽出部１０４と、語句対抽出部１０６の構成のみによっても解決することができる。

本実施の形態においては、共通トピック抽出部１０４は、論理関係が予め分かっている文対である論理関係文対、及びその形態素解析情報が入力される。共通トピック抽出部１０４は、入力された論理関係文対から、共通のトピックである共通トピックを抽出する。共通トピック抽出部１０４は抽出した共通トピックと、入力された情報をそのまま語句対抽出部１０６に出力する。

語句対抽出部１０６は、共通トピック抽出部１０４が出力した情報が入力される。語句対抽出部１０６は、論理関係文対の各文から共通トピックに対応する語句を語句対として抽出し、共通トピックと語句対を出力する。

図２６は、第６の実施形態の全体の動作を示すフローチャート（S６１）である。

図２６に示すように、まず、S１２（図７）において、共通トピック抽出部１０４は、論理関係文対から共通トピックを抽出する。S１３（図９）において、語句対抽出部１０６は、共通トピック文対から語句対を生成する。

以上説明したように、共通トピック抽出部１０４と語句対抽出部１０６の構成のみによっても、適切な論理関係を想起させる単語のペアを抽出することができる。

＜第７の実施の形態＞
本発明の第７の実施の形態は、入力支援装置の他の様々なバリエーションである。第１の実施の形態では、入力支援装置について文間関係を推定する装置として説明したが、推定部２０４が推定する対象は２文の文間関係に限られない。

例えば、推定部２０４は、ユーザが入力した文の後続文を推定しても良い。ユーザが入力部２０２に「イチゴがとても赤かった。なので、」という文を入力したとする。この場合、推定部２０４は、「なので」の文字列から論理関係が因果関係であると判定する。また、推定部２０４は、トピックが「イチゴ」であり、トピックの属性を表す語句が「赤い」であると判定する。推定部２０４は、語句関係辞書２００が記録している、語句関係が「因果関係」であり、共通トピックが「イチゴ」であり、語句対の一方が「赤い」であるレコードを参照する。例えば図１２の一列目が該当する。該レコードを参照することにより、推定部２０４は、語句対のもう一方が「甘い」であると判定する。推定部２０４は、ユーザが「イチゴがとても赤かった。なので、」という文を書いた時点で、「甘かった。」等の文が続くと推定する。推定部２０４は、「甘かった。」という文を出力部２０６に出力する。

また、推定部２０４は、入力された文章の意味を推定しても良い。この場合、入力部２０２には、ユーザが文章を入力しても良いし、通信IFを介してインターネット上のブログのテキスト等が入力されても良い。例えば入力部２０４にインターネット上のブログが入力され、該ブログのテキストに「赤いラーメンを食べた」という文があったとする。推定部２０４は、トピックが「ラーメン」であり、語句対の一方が「赤い」であると判定する。また、推定部２０４は、文章の意味を適切に推定するために、論理関係は「因果関係」であると判定する。推定部２０４は、語句関係辞書２００に記録している、語句関係が「因果関係」であり、共通トピックが「ラーメン」であり、語句対の一方が「赤い」であるレコードを参照する。推定部２０４は、該レコードを参照し、語句対のもう一方が「辛い」であると判定する。その結果、推定部２０４は、該文がそのラーメンは辛かったということを意味していると推定し、出力部２０６が推定結果を出力する。

また、推定部２０４は、入力文の接続詞の矛盾を推定しても良い。推定部２０４は、語句関係辞書２００の記録内容と異なる接続詞が用いられていた場合、その接続詞が矛盾していることを推定する。例えば、ユーザが「ラーメンが赤い。だからとれも甘かった。」という文を入力部２０２に入力したとする。推定部２０４は、トピックが「ラーメン」であり、語句対が「赤い：甘い」であり、論理関係が「因果関係」であると判定する。推定部２０４は、語句関係辞書２００が記録している、共通トピックが「ラーメン」であり、語句対が「赤い：甘い」であるレコードを参照する。推定部２０４は、例えば図１２の三列目が該当する。推定部２０４は、共通トピックが「ラーメン」であり、語句対が「赤い：甘い」である文の語句関係は「逆接関係」であることを判定し、「だから」という接続詞の矛盾を推定する。この結果、出力部２０６は『「だから」は変ではないですか』というアラートを出す。

また、推定部２０４は、検索クエリの適切な拡張を推定しても良い。ユーザがテキストを検索する際、入力部２０２に「イチゴ赤い」と入力したとする。この場合、推定部２０４は、トピックが「イチゴ」で、語句対の一方が「赤い」であると判定する。推定部２０４は、語句関係辞書２００の記録内容に基づいて、語句対のもう一方が「甘い」であることを判定し、「イチゴ甘い」が適切なクエリの拡張であると推定する。この結果、推定部２０４は、「イチゴ赤い」の入力を受けて「イチゴ甘い」も検索クエリに追加する。

以上説明したように、本発明によれば、ユーザが入力した内容を、様々なバリエーションで支援することができる。

以上説明したように、本発明は、適切な論理関係を想起させる単語のペアを抽出することができる語句関係抽出システムとして有用である。

１語句関係抽出装置
２入力支援装置
３入力支援システム
４語句関係抽出装置
５入力支援システム
１０ CPU
１２メモリ
１４ HDD
１６通信IF
１８入力装置
２０出力装置
２２バス
１００文書DB
１０２関係文対抽出部
１０４共通トピック抽出部
１０６語句対抽出部
１０８極性判定部
２００語句関係辞書
２０２入力部
２０４推定部
２０６出力部

Claims

論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、
前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、
を備える語句関係抽出装置。
前記共通トピック抽出手段は、前記論理関係文対の各文の主語をトピックとして抽出する請求項１に記載の語句関係抽出装置。
前記共通トピック抽出手段は、前記論理関係文対の一方の文の主語が指示代名詞である場合、他方の文から、前記指示代名詞により指示される語句をトピックとして抽出する請求項１又は２に記載の語句関係抽出装置。
前記共通トピック抽出手段は、前記論理関係文対の一方の文が、主語を含まない場合、他方の文の主語をトピックとして抽出する請求項１〜３のいずれかに記載の語句関係抽出装置。
前記語句対抽出手段は、共通トピックに対応する語句を品詞情報に基づいて抽出する請求項１〜４のいずれかに記載の語句関係抽出装置。
前記語句対抽出手段は、論理関係に基づいて、前記論理関係文対の各文に役割を割り当てる請求項１〜５のいずれかに記載の語句関係抽出装置。
入力されるテキストから論理関係を示す文字列を含む隣接文対又は複文を論理関係文対として抽出する関係文対抽出手段をさらに備え、
前記共通トピック抽出手段は、前記関係文対抽出手段により抽出された論理関係文対から共通トピックを抽出する請求項１〜６のいずれかに記載の語句関係抽出装置。
前記共通トピック抽出手段は、前記論理関係文対が含まれる前記テキストの見出しの語句を、見出しに関連する論理関係文対の共通トピックとして抽出する請求項７に記載の語句関係抽出装置。
前記共通トピック抽出手段は、前記共通トピックの同義語、類義語及び言い換え表現の少なくともいずれかを、前記論理関係文対の共通トピックとして追加する請求項１〜８のいずれかに記載の語句関係抽出装置。
前記語句対抽出手段は、前記共通トピックに対応する語句の前記テキストでの出現確率が閾値以上である場合、語句対として抽出する請求項７又は８に記載の語句関係抽出装置。
所定の語句が前記論理関係文対に含まれる回数に基づいて前記論理関係文対の各文の極性を判定する極性判定手段をさらに備える請求項１〜１０のいずれかに記載の語句関係抽出装置。
語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、
前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、
を備える入力支援装置。
論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、
前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、
を備える語句関係抽出装置と、
前記語句関係抽出装置により抽出された語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、
前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、
を備える入力支援装置と、
を有する入力支援システム。
論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出し、
前記論理関係文対の各文から、前記抽出された共通トピックに対応する語句を語句対として抽出する、
語句関係抽出方法。
語句対、共通トピック及び論理関係を記憶し、
前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する、
入力支援方法。
論理関係を有する２つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出ステップと、
前記論理関係文対の各文から、前記抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出ステップと、
をコンピュータに実行させる語句関係抽出プログラム。
語句対、共通トピック及び論理関係を記憶する語句関係記憶ステップと、
前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定ステップと、
をコンピュータに実行させる入力支援プログラム。