JP2010271819A - 語句関係抽出装置、語句関係抽出方法及びプログラム - Google Patents

語句関係抽出装置、語句関係抽出方法及びプログラム Download PDF

Info

Publication number
JP2010271819A
JP2010271819A JP2009121808A JP2009121808A JP2010271819A JP 2010271819 A JP2010271819 A JP 2010271819A JP 2009121808 A JP2009121808 A JP 2009121808A JP 2009121808 A JP2009121808 A JP 2009121808A JP 2010271819 A JP2010271819 A JP 2010271819A
Authority
JP
Japan
Prior art keywords
phrase
sentence
pair
common topic
logical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009121808A
Other languages
English (en)
Inventor
Yasutaka Yamamoto
康高 山本
Yukitaka Kusumura
幸貴 楠村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009121808A priority Critical patent/JP2010271819A/ja
Publication of JP2010271819A publication Critical patent/JP2010271819A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】適切な論理関係を想起させる単語のペアを抽出することができる語句関係抽出装置を提供する。
【解決手段】本発明の語句関係抽出装置は、論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、を備える。
【選択図】図2

Description

本発明は、語句関係抽出装置、語句関係抽出方法、及びプログラムに関し、特に、ある論理関係を想起させる単語のペアを抽出する語句関係抽出装置、語句関係抽出方法、及びプログラムに関する。
近年、大規模コーパスを用いて、論理関係を想起させる単語のペアを抽出する技術が報告されている。非特許文献1では、隣接する2つの文の対における「累加」、「加反」、「因果」、「並列」、「転換」、「例示」の6つの接続関係を2文間の論理関係とし、各々の関係を想起させる単語のペアを抽出する手法が記載されている。非特許文献1に係るシステムは、まず、各接続関係を想起させる接続詞で繋がれた隣接2文を抽出する。該システムは、この処理により、論理関係が明らかな隣接2文を特定する。続いて、該システムは、得られた隣接2文の各文から所定の品詞の単語を抽出し、文間で該単語を組み合わせて単語のペアを作る。
齋藤真実、山本和英、関根聡、「大規模テキストを用いた2文間接続関係の同定」、言語処理学会第12回年次大会、2006
しかしながら、非特許文献1に記載された手法は、単語のペアのみによって論理関係の特定を行っているので、異なる論理関係を想起させる単語のペアを抽出してしまうことがあった。
そのため、本発明の目的は、適切な論理関係を想起させる単語のペアを抽出することができる語句関係抽出装置を提供することにある。
上記目的を達成するために本発明の語句関係抽出装置は、論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、を有する。
また、本発明の入力支援装置は、語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、を有する。
また、本発明の入力支援システムは、論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、を備える語句関係抽出装置と、前記語句関係抽出装置により抽出された語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、を備える入力支援装置と、を有する。
また、本発明の語句関係抽出方法は、論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出し、前記論理関係文対の各文から、前記抽出された共通トピックに対応する語句を語句対として抽出する。
また、本発明の入力支援方法は、語句対、共通トピック及び論理関係を記憶し、前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する。
また、本発明の語句関係抽出プログラムは、論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出ステップと、前記論理関係文対の各文から、前記共通トピック抽出ステップにより抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出ステップと、をコンピュータに実行させる。
さらに、本発明の入力支援プログラムは、語句対、共通トピック及び論理関係を記憶する語句関係記憶ステップと、前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定ステップと、をコンピュータに実行させる。
本発明の語句関係抽出装置によれば、適切な論理関係を想起させる単語のペアを抽出することができる。
本発明の第1の実施の形態に係る語句関係抽出装置1のハードウェア構成図である。 本発明の実施形態に係る入力支援システム3の機能構成を示すブロック図である。 文書DB100に記憶されているセンテンステーブルの一例である。 関係文対抽出部102の動作を示すフローチャート(S11)である。 関係文対抽出部102の第1の出力例であって、論理関係文対の各文に役割が割り当てられていない場合の例示である。 関係文対抽出部102の第2の出力例であって、論理関係文対の各文に役割が割り当てられている場合の例示である。 共通トピック抽出部104の動作を示すフローチャート(S11)である。 共通トピック抽出部104の出力例である。 語句対抽出部106の動作を示すフローチャート(S13)である。 図8に示す各共通トピック文対から語句対を抽出した結果の一例である。 出現確率を計算した語句対の一例であって、閾値処理を行っていない場合の一例である。 出現確率を計算した語句対の第二の例であって、閾値処理を行った場合の一例である。 語句対の抽出結果を表示する出力画面の一例である。 語句関係抽出装置1の全体の動作を示すフローチャート(S14)である。 推定部204の動作を示すフローチャート(S15)である。 推定部204の出力例である。 出力部206の出力例である。 XMLで記述された文書の例示である。 論理関係の方向性を考慮した語句対の抽出結果の一例である。 本発明の第5の実施の形態に係る入力支援装置システム5の機能構成を示すブロック図である。 極性判定部108の動作を示すフローチャート(S51)である。 極性判定部108の出力例である。 極性情報を含めた語句対の抽出結果の例である。 第5の実施形態に係る語句関係抽出装置1の全体の動作を示すフローチャート(S52)である。 第6の実施の形態に係る本発明の機能構成を示すブロック図である。 第6の実施形態の全体の動作を示すフローチャート(S61)である。
まず、本発明の理解を容易にするために、本発明の背景と概要を説明する。ここでは品詞情報として形容詞に着目し、以下の2つの文対から、単語のペアを抽出することを想定する。
文対1:イチゴが赤い。きっと甘い。
文対2:ラーメンが赤い。でも甘かった。
文対1や文対2には、「きっと」や「でも」などの接続表現が含まれている。この場合、各文対の論理関係は、接続表現に基づいて特定される。したがって、論理関係及び単語のペアは、以下のように抽出される。
文対1:因果関係 赤い:甘い
文対2:逆接関係 赤い:甘い
このように、抽出された単語のペアだけに注目すると、文対1及び文対2から同じ単語のペアが抽出されたにもかかわらず、2つの単語のペアは、異なる論理関係を想起させることがある。
本発明の語句関係抽出装置は、論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する。また、本発明の語句関係抽出装置は、論理関係文対の各文から、共通トピックに対応する語句を語句対として抽出する。
語句対から想起される論理関係を語句関係という。例えば、文対1であれば、因果関係が語句関係であり、因果関係を想起させる「赤い:甘い」の対が語句対である。
ところで、「赤い:甘い」が因果関係を想起させるのは、トピックが「イチゴ」であるためである。「赤いイチゴが甘い」ことは、多くの人にとって共通認識である。この背景知識があるため、読み手は、文対1のコンテキストを違和感なく読み取れる。そのため、「赤い:甘い」という語句対とイチゴというトピックをセットにして文対から抽出すれば、語句対の抽出においてコンテキストを考慮できる。
上記の考えに基づき、本発明の語句関係抽出装置は、コンテキストを考慮した語句対の抽出を行う。例えば、文対1と文対2から、以下に示す語句対が抽出される。
文対1:因果関係 <イチゴ>赤い:甘い
文対2:逆接関係 <ラーメン>赤い:甘い
記号<>で囲まれた文字列は、各文対における共通のトピックを表す。文対1及び文対2において、語句対は共に「赤い:甘い」であるが、トピックが異なる。例えば、これらの語句対を用いて、以下の文対3の論理関係を推定することを考える。
文対3:赤いイチゴがある。甘そう。
文対1及び文対2と同様にして、文対3の共通のトピックと語句対を抽出すると「<イチゴ>赤い:甘い」になる。文対3とトピックが一致し、かつ、語句対も一致する文対は、文対1である。よって、文対3の論理関係は、文対1と同様、因果関係であると特定される。すなわち、共通のトピックを考慮することで、適切に論理関係を推定できる。
以下、本発明の実施の形態を説明する。
<第1の実施の形態>
図1は、本発明の第1の実施の形態に係る語句関係抽出装置1のハードウェア構成図である。図1に示すように、語句関係抽出装置1は、CPU10と、メモリ12と、ハードディスクドライブ(HDD)14と、通信インタフェース(IF)16と、入力装置18と、出力装置20とを有する。これらの構成要素は、バス22を通して互いに接続されており、データの入出力を行う。通信IF16は、外部のネットワークに接続するためのインタフェースである。入力装置18は、例えば、キーボードやマウスである。出力装置20は、例えば、ディスプレイ等である。本発明は、CPU10が、メモリ12又はHDD14に記憶されているプログラムを実行することにより実現される。
なお、本発明の実施形態に係る入力支援装置2もまた、語句関係抽出装置1と同様のハードウェア構成により実現される。また、語句関係抽出装置1と入力支援装置2とは、同一の筐体に含まれても良いし、異なる筐体に含まれても良い。
図2は、本発明の実施形態に係る入力支援システム3の機能構成を示すブロック図である。図2に示すように、入力支援システム3は、語句関係抽出装置1と入力支援装置2とを有する。語句関係抽出装置1は、文書DB100と、関係文対抽出部102と、共通トピック抽出部104と、語句対抽出部106とを有する。また、入力支援装置2は、語句関係辞書200と、入力部202と、推定部204と、出力部206とを有する。
語句関係抽出装置1において、文書DB100は、文書に記載されている文を記憶する。具体的には、文書DB100は、後述するセンテンステーブル、及び形態素テーブルを記憶する。形態素テーブルは、センテンス毎に形態素解析処理が予め実行された結果であって、後述する文書IDとセンテンスIDとに基づいて所望のセンテンスの形態素解析結果を参照可能なテーブルである。文書DB100は、関係文対抽出部102、共通トピック抽出部104、語句対抽出部106により参照される。文書DB100は、例えば、メモリ12、HDD14等の記憶装置により実現される。
関係文対抽出部102は、文書DB100に記憶されている文を参照し、論理関係文対を抽出する。具体的には、関係文対抽出部102は、論理関係を有する隣接する2文及び複文等を抽出する。関係文対抽出部102は、抽出した論理関係文対を共通トピック抽出部104に出力する。
共通トピック抽出部104は、論理関係文対、論理関係文対から特定される論理関係、及び各文の形態素解析結果の情報を入力し、論理関係文対の共通のトピックである共通トピックを抽出する。また、共通トピック抽出部104は、共通トピック、共通トピックを有する論理関係文対である共通トピック文対及びその論理関係を語句対抽出部106に出力する。
語句対抽出部106は、共通トピック抽出部104から出力された共通トピック文対の各文から、共通トピック抽出部104により抽出された共通トピックに対応する語句を語句対として抽出する。語句抽出部106は、共通トピック、論理関係、語句対を入力支援装置2の語句関係辞書200に格納する。
入力支援装置2において、語句関係辞書200は、共通トピック、論理関係、語句対を記憶する。語句関係辞書200は、例えば、メモリ12、HDD14等の記憶装置により実現される。
入力部202は、ユーザにより入力装置18を介して入力される文間関係が不明な2つの文を受け付ける。ここで文間関係とは、2文の間の論理関係のことである。入力部202は、受け付けた2つの文を、推定部204に出力する。
推定部204は、語句関係辞書200に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する。推定部204は、推定結果を出力部206に出力する。
出力部206は、推定部204により入力された推定結果を出力する。例えば、出力部206は、推定結果を出力装置20に出力する。
次に、語句関係抽出装置1の構成要素を詳細に説明する。
図3は、文書DB100に記憶されているセンテンステーブルの一例である。
図3に示すように、センテンステーブルは、一つの文を、一つのレコード(行)として記憶する。レコードには、文書ID、センテンスID及び本文が含まれる。「文書ID」列には、各文書を特定するユニークな識別子が記録されている。ここで、文書は、一つの話題に関する文の集合を示す。例えば、文書は、新聞の各記事である。「センテンスID」列には、文書における各文を特定するユニークな識別子が記録されている。センテンスIDは、本文における出現順序であってもよい。「本文」列には、文の内容が記録されている。例えば、各文は、文書IDとセンテンスIDのペアにより特定される。以降、「文書IDの値:センテンスIDの値」によって各文を参照する。例えば、D1:S3は、図3に示されるセンテンステーブルの「このイチゴは甘そうだ。」の文を表す。文書DB100は、人により手作業で作成されてもよいし、クローラ等により自動的に作成されてもよい。
図4は、関係文対抽出部102の動作を示すフローチャート(S11)である。
図4に示すように、まず、関係文対抽出部102は、文書DB100から所定のパターンを含む文対を抽出する(S110)。次に関係文対抽出部102は、抽出された文対を共通トピック抽出部104に出力する(S112)。本実施の形態では、関係文対抽出部102は、抽出された文対に該当する各文の文書ID、センテンスIDを共通トピック抽出部104に出力する。
図5は、関係文対抽出部102の第1の出力例であって、論理関係文対の各文に役割が割り当てられていない場合を例示する。図6は、関係文対抽出部102の第2の出力例であって、論理関係文対の各文に役割が割り当てられている場合を例示する。
図5及び図6に示すように、関係文対抽出部102は、文書ID、センテンスID及び論理関係をまとめ、その集合を共通トピック抽出部104に出力する。
関係文対抽出部102は、所定のパターンを含む文対を論理関係文対として抽出し、その結果を共通トピック抽出部104に出力する。パターンとは、予め決められた定型句である。パターンの指定方法は、ある文字列を含むという条件だけではなく、ある文字列を含まないことを条件に入れられるようにしても良い。
例えば、関係文対抽出部102は、「なぜならば、〜だからである」という文(文A)がある場合、この文とその前文(文B)との間には、文Aが「原因」で文Bが「結果」という因果関係があるとして、文A及び文Bを抽出する。ここで、「原因」と「結果」等は、各文の役割である。図6の記号「→」は、この矢印の矢筈側が原因、矢尻側が結果の文であることを意味する。
また例えば、関係文対抽出部102は、1文目の文頭が「一方」であり、かつ、2文目の文頭が「他方」である場合、この2文には「対立関係」があるとして、2文を抽出する。
また例えば、関係文対抽出部102は、「文Aのために、文Bを行った。」など、2つ以上の文が接続関係により繋がれている複文を抽出する。なお、関係文対抽出部102は、複文に対しては、「*の結果、*となった」などのパターンを用いて、接続詞前を第1文、接続詞後を第2文として、論理関係文対を抽出する。
なお、関係文対抽出部102は、パターンを内部情報として保持してもよいし、設定ファイルとして記録するようにし処理開始前に読み込むようにしてもよい。パターンが、設定ファイルとして記録されている場合、パターンを人が容易に変更できるという利点がある。
次に、図7及び図8を参照して、共通トピック抽出部104を説明する。
図7は、共通トピック抽出部104の動作を示すフローチャート(S11)である。
図7に示すように、まず、共通トピック抽出部104は、関係文対抽出部102から入力された所定のパターンを含む文対、すなわち論理関係文対の各文から主語を抽出する(S120)。主語は、共通トピックになりやすいからである。次に、共通トピック抽出部104は、抽出された主語が共通トピックであるか否かを判定する(S122)。抽出された主語は共通トピックでないと判定した場合、共通トピック抽出部104は、処理を終了する。抽出された主語は共通トピックであると判定した場合、共通トピック抽出部104は、該共通トピックと共通トピック文対を語句対抽出部に出力する(S124)。本実施の形態では、共通トピック抽出部104は、共通トピックと、共通トピック文対に該当する文の文書ID、センテンスIDを語句対抽出部106に出力する。
S120の処理を具体的に説明する。共通トピック抽出部104は、論理関係文対の各文の文書IDとセンテンスIDをキーとして、文書DB100が記憶する形態素テーブルを参照し、形態素解析結果を取得する。共通トピック抽出部104は、形態素解析結果において、品詞が「係助詞」であり、単語の原型が「は」「が」「も」である単語を抽出する。共通トピック抽出部104は、これら係助詞よりも前方にあり、かつ、近接する名詞句を抜き出し、それを主語とみなす。共通トピック抽出部104は、1つ以上の連続する名詞及び格助詞「の」「における」で連結された名詞を名詞句であると判定する。
共通トピック抽出部104は、抽出した主語が不要単語でないかを判定し、不要単語の場合は、抽出した主語は共通トピックとみなさなくても良い。不要単語は、トピックの対象から除外する単語である。例えば、「私」「以下」「下記」「上記」「原因」「理由」等の単語である。不要単語は、正規表現を用いて指定されても良い。不要単語は、あらかじめ決められており、例えばファイル等(不要単語ファイル)に登録されている。共通トピック抽出部104は、共通トピックの判定処理を開始する前に不要単語ファイルを読み込む。
具体的には、共通トピック抽出部104は、不要単語と論理関係文対から抽出した主語とを比較し、不要単語と抽出した主語とが一致する場合には、該主語は共通トピックとみなさない。共通トピック抽出部104は、この判定処理において、名詞句が不要単語でない場合のみ、その語句を主語と判定する。
S122の処理を具体的に説明する。共通トピック抽出部104は、論理関係文対の各文から抽出した主語が一致している場合、前記論理関係文対は共通のトピックについて記載されていると判定する。共通トピック抽出部104は、主語となる語句を共通トピックとし、主語が共通する論理関係文対を共通トピック文対とする。
なお、論理関係文対の1文目にa個の主語があり、2文目にb個の主語がある場合、共通トピック抽出部104は、a×b回の主語の比較を行う。共通トピック抽出部104は、1文目の主語と2文目の主語とが一致する全ての場合において、主語を共通トピックとする。すなわち、一つの論理関係文対から、複数の共通トピックが得られることもある。
共通トピック抽出部104は、シソーラス辞書を用いて、抽出した共通トピックの同義語、類義語、言い換え表現を特定し、共通トピックとして追加しても良い。シソーラス辞書を用いて共通トピックを増やしておくことで、入力支援装置が行う処理において利用できるデータを増やすことができる。
以下、共通トピック抽出部104の行う処理を、具体例を用いて説明する。
共通トピック抽出部104には、例えばD1:S3及びD1:S4等、文書IDとセンテンスID(図3)が入力される。共通トピック抽出部104は、文書DB100が記憶する形態素テーブルを参照して、両文とも係助詞「は」を含むことがわかる。共通トピック抽出部104は、係助詞「は」以前の名詞句を抽出する。すなわち、共通トピック抽出部104は、D1:S3及びD1:S4の両文から、主語である「イチゴ」を抽出する。共通トピック抽出部104は、「イチゴ」が不要単語ではないと判定し、共通トピックであると判定する。共通トピック抽出部104は、シソーラス辞書を用いて、イチゴの言い換え表現である「いちご」「苺」「ストロベリー」等を共通トピックとして追加しても良い。
図8は、共通トピック抽出部104の出力例である。
図8に示すように、共通トピック抽出部104は、文書ID、センテンスID、共通トピック及び論理関係をまとめ、その集合を共通トピック抽出部104に出力する。本例では、「イチゴ」がシソーラス辞書を用いて拡張された結果として、「ストロベリー」が共通トピックとして追加されている。
なお、関係文対抽出部102と共通トピック抽出部104は、順序が逆であっても構わない。その場合、まず共通トピック抽出部104は、トピックが共通する全ての隣接2文を抽出する。その後、関係文対抽出部102は、共通トピックを有する隣接2文に対して、ある特定のパターンに合致する隣接2文を抽出する。
次に、図9〜図13を参照して、語句対抽出部106を説明する。
図9は、語句対抽出部106の動作を示すフローチャート(S13)である。
図9に示すように、まず、語句対抽出部106は、共通トピック抽出部104から入力された共通トピック文対から、共通トピックの属性を表す語句を抽出する(S130)。本実施の形態においては、共通トピックの属性を表す語句は、共通トピックが主語となっている単文の「形容詞」とする。次に、語句対抽出部106は、抽出された語句を文間で組み合わせて語句対を生成する(S132)。最後に、語句対抽出部106は、共通トピックと語句対を出力する(S134)。
S130の処理を具体的に説明する。語句対抽出部106は、共通トピック文対の各文の文書IDとセンテンスIDをキーとして、文書DB100が記憶する形態素テーブルを参照し、形態素解析結果を取得する。語句対抽出部106は、形態素解析結果において、品詞が「形容詞」である語句を抽出する。
語句対抽出部106は、抽出した語句がストップワードであるか否かを判定し、ストップワードである場合は、該語句は出力対象とみなさなくても良い。ストップワードは、出力対象から除外する語句である。ストップワードは例えば、「良い」「悪い」等の主観に基づく語句等でも良い。ストップワードは、予め決められており、例えばファイル等に記録されている。
S132の処理を具体的に説明する。語句対抽出部106は、共通トピック文対である各文において抽出された語句を文間で組み合わせて語句対を生成する。
なお、語句対抽出部106は、共通トピック文対の各文から条件を満たす語句が複数抽出された場合、各文間における全ての組み合わせの語句対を抽出する。例えば共通トピック文対において、1文目からa個の語句、2文目からb個の語句が抽出された場合、語句対は、a×b個となる。語句対抽出部106は、語句対を共通トピック毎に記録する。そのため、共通トピックがc個ある場合、語句対はa×b×c個となる。
語句対抽出部106は、各語句対の出現確率を求めて、出現確率の高い語句対だけを所定の論理関係を想起させる語句対として抽出しても良い。語句対抽出部106が、出現確率の高い語句対だけを所定の論理関係を想起させる語句対として抽出する処理を以下に説明する。語句対抽出部106は、出現確率を以下の手順により算出する。なお、以下の手順は、所定の論理関係Rという関係があり、共通トピックがαである共通トピック文対において、一方が語句A(又は語句B)という語句を含む場合に、他方が語句B(又は語句A)を含む確率を求めるものである。
1.論理関係がRであり、共通トピックがαである共通トピック文対を集める。この共通トピック文対の集合をSとする。
2.集合Sの中で一方の文に語句Aもしくは語句Bが含まれている共通トピック文対の数を数える。この数をNとする。
3.集合Sの中で一方の文に語句Aが、他方の文に語句Bが含まれている共通トピック文対の数を数える。この数をMとする。
4.共通トピックがαである語句対AとBの出現確率pをM/Nにより算出する。
語句対抽出部106は、出現確率が小さいものや、Nの値が小さいものを、語句対とみなさなくても良い。この場合、Nの値の閾値ならびに出現確率の閾値は、予め決められており、設定ファイル等に記録されていても良い。
以下、語句対抽出部106の行う処理を、具体例を用いて説明する。
語句対抽出部106は、共通トピック抽出部104の出力結果(図8)から、D1:S3及びD1:S4が共通トピック文対であると判定する。語句対抽出部106は、形態素解析結果において、品詞が「形容詞」であるものを抽出する。この結果、語句対抽出部106は、D1:S3に「甘い」、D1:S4に「赤い」が含まれていると判定する。語句対抽出部106は、「甘い」と「赤い」を抽出する。語句対抽出部106は、「甘い」と「赤い」を組み合わせて語句対「甘い:赤い」を生成する。
図10は、図8に示す各共通トピック文対から語句対を抽出した結果の一例である。D1のS3及びS4の共通トピック文対においては、共通トピックが2個、1文目及び2文目から抽出される語句の数がそれぞれ1個であるため、2×1×1=2個の語句対が抽出されることになる。語句対抽出部106は、語句対を共通トピック毎に記録する。また、図10では、語句対を抽出した共通トピック文対の文間関係を語句関係として記載している。
次に、語句対抽出部106は、各語句対の出現確率を求めても良い。
図11は、出現確率を計算した語句対の一例であって、閾値処理を行っていない場合を例示する。図12は、出現確率を計算した語句対の第二の例であって、閾値処理を行った場合を例示する。
例えば、共通トピックが「イチゴ」であり、「赤い」又は「甘い」が含まれる共通トピック文対が5文対あるとする。この中で一方に「赤い」、他方に「甘い」が含まれる共通トピック文対が4文対あるとする。上記の手順に従えば、この語句対の出現確率は4/5=0.8と計算される。
また、一般的に、共通トピックが「イチゴ」であり、一方に「青い」が含まれ、他方に「甘い」が含まれる文対は少ないと考えられる。例えば、共通トピックが「イチゴ」であり、語句対が「青い:甘い」である文対の出現確率が0.1だとする。語句対抽出部106は、出現確率が0.3以下のものは語句対とみなさないという処理を行っても良い。該処理により語句対抽出部106は、共通トピックが「イチゴ」である「青い:甘い」という語句対を削除する。
最後に、語句対抽出部106は、一例として図12に示すように、語句関係、共通トピック、語句対及び出現確率をまとめ、その集合を語句関係辞書200に出力する。
また、語句抽出辞書106は、文書ID、共通トピック文対のセンテンスID、共通トピック、語句対、語句関係及び出現確率をセットにして、出力装置20等に出力しても良い。
図13は、語句対の抽出結果を表示する出力画面の一例である。表示の際は、文書ID列の各IDやセンテンスID列の各IDに本文へのリンクを張っておき、ユーザが抽出結果、ならびに推定結果が正しいかを確認しやすくしておいても良い。
図14は、語句関係抽出装置1の全体の動作を示すフローチャート(S14)である。
図14に示すように、まず、S11(図4)において、関係文対抽出部102は、論理関係文対を抽出する。S12(図7)において、共通トピック抽出部104は、論理関係文対から共通トピックを抽出する。S13(図9)において、語句対抽出部106は、共通トピック文対から語句対を生成する。
次に、入力支援装置2の構成要素を詳細に説明する。
本実施の形態において入力支援装置2は、文間関係が未知の文対に対し、文間関係の推定を行う。
語句関係辞書200は、語句対抽出部106から出力された語句関係、共通トピック、語句対及び出現確率を一つのレコードとして記憶する。
入力部202は、入力装置18を介して、ユーザから文間関係が未知の文の入力を受け付ける。ユーザは、文間関係が未知である文を含む文書を記録した推定用文書の集合を入力しても良い。推定用文書は、人により登録されても良いし、例えばクローラ等により収集されても良い。また、推定用文書には、関係文対抽出部302により、論理関係文対と判定されなかった文集合が含まれても良い。なお、入力部202は、メモリ12やHDD14に記憶されている未知の文を読み込んでも良いし、通信IFを介して外部のコンピュータから文間関係が未知の文を受信しても良い。
推定部204は、語句関係辞書200の記録内容に基づいて、入力された文間関係が未知の文の文間関係を推定し、その結果を出力部206に出力する。
出力部206は、推定部204により推定された文間関係を出力する。例えば、出力部206は、文間関係を出力装置20に出力する。
次に、図15〜図17を参照して、推定部204を説明する。なお、説明を簡単にするため、入力部202は、推定用文書の集合を、図3と同様の形式で文書が記録されている外部のDBから通信IFを介して受信するものとする。
図15は、推定部204の動作を示すフローチャート(S15)である。
図15に示すように、まず、推定部204は、入力部202から入力された推定用文書の集合から、共通トピックを含む隣接2文である対象文対を抽出する(S150)。具体的には、推定部204は、推定用文書DBのセンテンステーブルから、共通トピックを含む隣接2文である対象文対を抽出する。推定部204は、全ての隣接2文に対して、共通トピック抽出部104と同様の処理を行うことによって対象文対を抽出する。なお、区別のために、抽出された対象文対の共通トピックを対象トピックと呼ぶ。
次に、推定部204は、抽出した対象文対から対象文対の語句対である対象語句対を生成する(S152)。具体的には、推定部204は、対象文対から対象文対の語句対である対象語句対を生成する。推定部204は、抽出した対象文対に対して語句対抽出部106と同様の処理を行うことによって対象語句対を生成する。本実施の形態では、語句関係辞書に記録されている語句対は形容詞により生成されているため、推定部204は対象文対から形容詞を抽出して対象語句対を生成する。
次に、推定部204は、語句関係辞書200の記録内容に基づいて、対象文対の文間関係を推定する(S154)。具体的には、推定部204は、抽出された対象トピックと対象語句対を語句関係辞書200の登録内容と比較することにより、対象文対の文間関係を推定する。
さらに、推定部204は、文間関係の推定結果を出力部206に出力する(S156)。
以下に、文間関係の推定方法を詳述する。
ある対象文対においてD個の対象語句対が抽出されたとする。推定部204は、対象トピックが共通トピックと一致し、かつ、対象語句対が語句対と一致するレコードを語句関係辞書200から検索し、そのレコードを語句関係毎にまとめる。推定部204が語句関係辞書200を検索した結果、仮にN種類の語句関係が抽出されたとする。このときi種類目の語句関係をRiとし、上記検索により、Ri毎にまとめたレコードの集合をCiとする。Ciの要素数を|Ci|で定義する。|Ci|はD以下の値となる。また、j番目のレコードの出現確率をfjで定義する。推定部204は、ある対象文対の文間関係がある語句関係Riである確信度を以下の式により計算する。
Figure 2010271819
数1の式において、uは、fjの最小値以下の正数であり、0でない値とする。推定部204は、N個得られるConf(Ri)の値の中で、その値が最も高くなる語句関係Riを対象文対の文間関係とする。Conf(Ri)の値域は[0:1]である。数1の式から明らかなように、出現確率fjが大きく、|Ci|が大きければ、Conf(Ri)は大きくなる。極端な例として、Ciに属するレコードのfjが全て1であり、|Ci|がDである場合、D−|Ci|を指数とするuの項は1になり、その後のΠの項もfj(=1)をCi乗するため1となるため、Conf(Ri)は最大値1を取る。逆に、|Ci|の値が小さいと、D−|Ci|の値が大きくなり、その値を指数とするuの項が非常に小さな値をとりConf(Ri)の値は小さくなる。仮に|Ci|が大きくてもfjが小さければ、Conf(Ri)の値は大きくならない。なお、数1に示す式は非常に小さな値となるため、以下の数2のように、数1の式の対数をとった式を用いてもよい。
Figure 2010271819
また、推定部204は、対象トピック及び対象語句対が一致するレコードが一つも語句関係辞書200に含まれていない場合は、対象文対の文間関係は未知であると判定する。さらに、共通トピック文対に対応しているK種類の語句関係の各Conf(Ri)の値がいずれも閾値以下である場合には、推定部204は、対象文対の文間関係を未知としても良い。閾値は、予め決められており、例えば設定ファイルなどに記憶されている。なお、数1及び数2の式は、Dの値が大きいほどConf(Ri)の値が小さくなる傾向があるため、Dの値によって閾値を変更できるようにしておいても良い。
以下、推定部204の行う処理を、具体例を用いて説明する。
例として、図3に示すセンテンステーブルのD6に着目する。推定部204は、入力された形態素テーブルを参照して、D6:S1には係助詞「が」が含まれ、D6:S2には係助詞「は」が含まれていると判定する。推定部204は、これら係助詞の前方で近接する名詞が「ストロベリー」であり、D6:S1とD6:S2で共通していると判定する。推定部204は、該2文は主語が一致する隣接2文であると判定する。このようにして、推定部204は、D6:S1とD6:S2が「ストロベリー」を対象トピックとする対象文対であることを判定する。なお、文書D1のセンテンスS3とセンテンスS4、文書D3のセンテンスS1とセンテンスS2、文書D5のセンテンスS1とセンテンスS2は、それぞれ定型句を含む論理関係文対であるため、対象文対から除外する。
次に、推定部204は、形態素テーブルを参照してD6:S1、D6:S2に含まれる形容詞はそれぞれ「赤い」「甘い」であることを判定し、対象語句対として「赤い:甘い」を生成する。
次に、推定部204は、抽出した対象トピック及び生成した対象語句対に基づいて、D6:S1とD6:S2の対象文対の文間関係を推定する。語句対抽出部106によって図12に示す情報を格納した語句関係辞書200が構築されているものとする。また、Conf(Ri)の閾値は0.001とする。推定部204は、D6:S1とD6:S2の対象文対の対象トピックが「ストロベリー」であり、対象語句対が「赤い:甘い」であることから、図12に示す語句関係辞書200の2行目のレコードが合致すると判定する。よって推定部204は、該対象文対の分間関係として因果関係を抽出する。数1の記号で表現すると、対象語句対数Dが1であり、抽出される語句関係数Nも1である。Ciは上記2行目のレコードの語句対だけであるため、|Ci|は1となる。その出現確率は0.8である。数1によれば、Conf(因果関係)はuの0乗×0.8となり0.8を得る。他の語句関係は抽出されていないため、得られるConf(Ri)は一種類となる。この0.8が設定した閾値よりも高いため、推定部204は、対象文対の文間関係は因果関係であると推定する。
図16は、推定部204の出力例である。
図16に示すように、推定部204は、文書ID、センテンスID、対象トピック、推定された文間関係をまとめ、その集合を出力部206に出力する。出力形式は上記の情報が分かれば、いかなる形式でも構わない。
図17は、出力部206の出力例である。出力部206は、図17に示すように、関係文対抽出部102で抽出した文間関係と、推定部204で推定した文間関係を分けて表示しても良い。表示の際は、文書ID列の各IDやセンテンスID列の各IDに本文へのリンクを張っておき、ユーザが抽出結果、ならびに推定結果が正しいかを確認しやすくしておいても良い。仮に誤りがある場合は、それを修正できるように表示しても良い。抽出結果が修正された場合、その修正を語句関係辞書に反映し、推定結果を更新するようにしても良い。
以上詳述したように、本発明の第1の実施の形態によれば、語句関係抽出装置1によって適切な論理関係を想起させる単語のペアを抽出することができる。また、入力支援装置2によって、語句関係抽出装置1が抽出した語句対と共通トピックに基づいて、文間関係が未知である文対の文間関係を推定することができる。
<第2の実施の形態>
本発明の第2の実施の形態に係る入力支援システムは、共通トピック抽出部104が、さらに主語を補完して抽出する点で、第1の実施の形態に係る入力支援システムと異なる。
日本語では、主語が省略されることがある。共通トピック抽出部104は、論理関係文対の一方の文が、主語を含まない場合、他方の文の主語を共通トピックとして抽出する。また、共通トピック抽出部104は、いずれの文からも主語を抽出できない場合、第1文の前文の主語を共通トピックとして抽出する。前文からも主語が抽出できない場合、共通トピック抽出部104は、同一文書内で主語のある文まで遡り主語を抽出する。
例えば、論理関係文対のいずれの文にも主語がない場合、共通トピック抽出部104は、第1文の文書IDであり、かつ、第1文のセンテンスIDから1ひいたセンテンスIDの文を、文書DB100から抽出する。共通トピック抽出部104は、抽出した文から主語を抽出し、抽出した主語を第1文の主語とする。前文にも主語が見つからない場合は、共通トピック抽出部104は、さらに一つ前の文に対して、同様の処理を行う。この処理を再帰的に繰り返しても、同一文書ID内で主語を有する文が見つからない場合、共通トピック抽出部104は、第1文を主語なしと判定する。
なお、複文においては、1文中に主語が2つ含まれることもある。主語のない文の前文が主語を2つ含む文である場合、共通トピック抽出部104は、後方に出てきた主語で主語のない文の主語を補う。
また、共通トピック抽出部は、論理関係文対の一方の文の主語が指示代名詞である場合、他方の文から指示代名詞により指示される語句を共通トピックとして抽出する。
すなわち、論理関係文対において、「これは」など指示代名詞が主語となっている場合に、共通トピック抽出部104は、照応解析技術などを用いて、主語となる語句を抽出する。例えば、「イチゴが赤い」「だから、これは甘いに違いない」という論理関係文対では、1文目の主語が「イチゴ」であり、2文目の主語が「これ」である。共通トピック抽出部104は、2文目の「これ」が1文目の「イチゴ」に対応することを判定し、共通トピックとして「イチゴ」を抽出する。なお、特定の分野を示さない「私は」「下記は」などが主語となっている論理関係文対については、共通トピックがないものとする。
なお、共通トピック抽出部104は、指示代名詞の元となる名詞句を特定する処理を行う際、非特許文献2等に記載の照応解析技術を用いる。
機械学習による日本語名詞句照応解析の一手法,言語処理学会第10回年次大会,pp.761-764,2004 以上説明したように、本発明の第2の実施の形態によれば、共通トピック抽出部104において、主語のない文又は主語が指示代名詞である文の主語を補完するので、より精度の高い語句対の生成が可能になる。
<第3の実施の形態>
本発明の第3の実施の形態に係る入力支援システムは、共通トピック抽出部104が、見出しの語句を共通トピックとしてさらに抽出する点で、第2の実施の形態に係る入力支援システムと異なる。
共通トピック抽出部104は、論理関係文対が含まれる文書の見出しの語句を、見出しに関連する論理関係文対の共通トピックとして抽出する。例えば、共通トピック抽出部104は、新聞の各記事の論理関係文対に対して、該論理関係文対を含む記事の見出しの語句を共通トピックとして抽出する。見出しは記事全体の主題であるため、見出しには全文に共通するトピックとなる語句が含まれているためである。共通トピック抽出部104は、例えばタグを用いて、見出しを抽出する。
図18は、XMLで記述された文書を例示する。
図18に示すように、文書がXML文などで構造化されている場合、文書DB100(図1)は、タグをさらに記憶する。この場合、共通トピック抽出部104は、<title>タグのついた文を見出しとして抽出する。共通トピック抽出部104は、文書中の<title>タグの有無により見出しであるか内容の文であるかを判別する。
また、文書が構造化されていない場合、共通トピック抽出部104は、各文書IDの最初の文が体言止めであれば、その文を見出しと判定しても良い。一般的に、見出し付文書は、(i)各文書の最初の文は見出しになりやすい、(ii)見出しは体言止めされやすい、などの性質があるためである。なお、共通トピック抽出部104は、文書DB100が記憶する形態素テーブルを参照し、最後の単語が名詞である文を、体言止めの文であると判定しても良い。
次に、共通トピック抽出部104は、見出しから共通トピックを抽出する。具体的には、共通トピック抽出部104は、予め決められた見出し用単語が見出しに含まれる場合、この見出し用単語を共通トピックとして抽出する。見出しは主語と述語を含む体裁で記載されにくく、主語を抽出する方法ではトピックが抽出しづらいためである。見出し用単語は、例えば、「環境問題」「教育」「経済」「政治」等である。見出し用単語は、あらかじめファイル(見出し用単語ファイル)等に登録されている。共通トピック抽出部104は、処理開始時に見出し用単語ファイルを読み込むようにしても良い。
また、共通トピック抽出部104は、見出し用単語を直接共通トピックとするのではなく、見出しに、見出し用単語の下位概念の単語が含まれている場合、上位概念にあたる見出し用単語を共通トピックとしても良い。又は、共通トピック抽出部104は、見出しに、見出し用単語以外の単語が含まれている場合、該単語と関連する見出し用単語を共通トピックとしても良い。
例えば「温暖化ガス」という単語が見出しに含まれている場合、共通トピック抽出部104は、見出しの記事の全論理関係文対に「環境問題」という共通トピックを追加する。また、「二酸化炭素」と「削減」という2つの単語が見出し中に含まれている場合、共通トピック抽出部104は、該見出しの記事の全論理関係文対に「環境問題」という共通トピックを追加する、等の処理を行っても良い。
以上説明したように、本発明の第3の実施の形態によれば、共通トピック抽出部104において、見出しの語句を共通トピックとして抽出するので、より多くの語句対を生成することができる。
<第4の実施の形態>
本発明の第4の実施の形態に係る入力支援システムは、語句対抽出部106が語句対の出現確率を計算する際に、論理関係の方向性を考慮する点で、第1〜3の実施の形態に係る入力支援システムと異なる。
例えば、論理関係が因果関係である場合、「原因」から「結果」が導かれる、というように論理関係に方向性がある。このような論理関係においては、語句対抽出部106は、出現確率を求める際に、この方向性を考慮する。
図19は、論理関係の方向性を考慮した語句対の抽出結果の一例である。図19では、語句対の方向性が、記号「→」を用いて表されている。記号「→」は、この矢印の矢筈側が原因、矢尻側が結果の文から抽出されたことを意味する。逆接関係は、語句対を「:」で繋いで表されている。なお、原因と結果が逆の語句対が存在する場合、それらは別の語句対とする。
以下では、共通トピックがαで、因果関係のある共通トピック文対において語句Aが原因側の文に、語句Bが結果側の文に含まれている場合に、語句対抽出部106が出現確率を算出する処理を説明する。語句対抽出部106は、以下の手順により出現確率を算出する。
1.因果関係があり、共通トピックがαである共通トピック文対を集める。この共通トピック文対の集合をSとする。
2.集合Sの中で「原因」側の文に語句Aが含まれている共通トピック文対の数を数える。この数をNとする。
3.集合Sの中で「原因」側の文に語句Aが含まれ、かつ、「結果」側の文に語句Bが含まれる共通トピック文対の数を数える。この数をMとする。
4.共通トピックがαである語句対AとBの出現確率pをM/Nにより算出する。
出現確率pは、原因側にAを含む共通トピック文対の中で結果側にBを含む確率を表す条件付確率である。2.の処理で、語句対抽出部106は、共通トピック文対の文書IDとセンテンスIDをキーとして、図6に示すような役割が割り当てられている出力テーブルを参照することで、どちらが「原因」側の文であるかを判定する。例えば、センテンスID列が「S4→S3」である場合、語句対抽出部106は、S4側が原因を表す文であり、S3が結果を表す文であると判定する。
最後に、語句対抽出部106は、図19に示すように、語句関係、共通トピック、役割が割り当てられた語句対及び出現確率をまとめ、その集合を語句関係辞書200に出力する。また、語句抽出辞書106は、文書ID、共通トピック文対のセンテンスID、共通トピック、役割の割り当てられた語句対、語句関係及び出現確率をセットにして、ディスプレイ等に出力しても良い。
以上説明したように、本発明の第4の実施の形態によれば、語句対抽出部106において、論理関係の方向性を反映した結果を出力するので、ユーザが論理関係の方向性を一目で把握することができる。
<第5の実施の形態>
図20は、本発明の第5の実施の形態に係る入力支援装置システム5の機能構成を示すブロック図である。本発明の第5の実施の形態に係る入力支援システムは、語句関係抽出装置1が、さらに極性判定部108を有する語句関係抽出装置4である点で、第1の実施の形態に係る入力支援システムと異なる。
語句関係抽出装置4において、文書DB100、関係文対抽出部102、共通トピック抽出部104は実施の形態1に記載したものと同様であるため、説明を省略する。
極性判定部108は、共通トピック抽出部104から共通トピック、共通トピック文対及びその論理関係を入力する。極性判定部108は、所定の語句が共通トピック文対に含まれる回数に基づいて、共通トピック文対の各文の極性を判定し、その結果である極性情報及び入力された情報全部を語句対抽出部106に出力する。極性とは、各文が肯定文であるか否定文であるかを区別するものである。所定の語句とは、否定表現の単語又は否定表現である所定の単語の組み合わせであり、詳しくは後述する。
語句対抽出部106は、極性判定部108から共通トピック、共通トピック文対、論理関係及び極性情報が入力される。語句対抽出部106は、極性情報を含めた語句対を生成する。
図21及び図22を参照して、極性判定部108を説明する。
図21は、極性判定部108の動作を示すフローチャート(S51)である。
図21に示すように、まず、極性判定部108は、共通トピック抽出部104から入力された共通トピック文対の各文の極性を判定する(S510)。次に、極性判定部108は判定された極性の情報を語句対抽出部106に出力する(S512)。
S510の処理を具体的に説明する。極性判定部108は、まず所定の語句の数を数える否定表現カウンタを0にセットする。極性判定部108は、共通トピック抽出部104から出力される共通トピック文対の各文の文書IDとセンテンスIDをキーとして、文書DB100が記憶する形態素テーブルを参照し、形態素解析結果を取得する。
極性判定部108は、形態素解析結果の品詞と原型を走査していき、予め決められた否定表現の単語又は否定表現である所定の単語の組み合わせが検出された場合に、否定表現カウンタを1インクリメントする。否定表現の単語とは、例えば、品詞が「助動詞」であり単語の原型が「ない」である単語である。また、否定表現である所定の単語の組み合わせとは、品詞が「助動詞」であり単語の原型が「ます」である単語と、品詞が「助動詞」であり単語の原型が「ん」である単語の組み合わせである。それぞれ、「〜ない。」や「〜ません。」などの表現を意図した判定条件となる。
極性判定部108は、各文の後方から順次探索していき、読点もしくは文頭にいたるまで上記の処理を行う。極性判定部108は、用いられていた否定表現の回数を否定表現カウンタに記録する。極性判定部108は、否定表現の回数を数えることにより、「〜ないことはない」など二重否定の文を肯定文と判定する。すなわち極性判定部108は、共通トピック文対の各文を、最終的に得られた否定表現カウンタの値が偶数であれば「肯定」、奇数であれば「否定」と判定する。
図22は、極性判定部108の出力例である。
図22は、図3に示すセンテンステーブルの共通トピック文対に対する極性判定後の出力結果である。記号「+」は、上記処理により、肯定文であると判定された文であることを表す。記号「−」は、上記処理により、否定文であると判定された文であることを表す。
次に、本実施の形態において、語句対抽出部106が行う処理について説明する。
図23は、極性情報を含めた語句対の抽出結果の例である。
+及び−は、語句対の各語句の極性を表す。+は、付与された語句の意味がそのままの意味であることを表し、−は、付与された語句の意味が該語句の否定の意味であることを表す。
例えば、「甘い−」は、「甘くない」の意味である。語句対抽出部106は、語句の抽出元となった文の極性を、そのまま語句の極性として付与する。語句対抽出部106は、語句対の出現確率を計算する際、極性の一致を判定した上で、一つの語句として数える。
図23の例では、「青い+:甘い−」という語句対が、文書D3のセンテンスS1とセンテンスS2から生成されている。ユーザは、図23に示す極性を含んだ出力結果により、イチゴの青さが甘さと負の因果関係にあることを判断できる。
また、本実施の形態では、推定部204においても対象文対の極性を判定し、対象文対の文間関係の推定の際、さらに極性情報の一致を条件としても良い。
図24は、第5の実施形態に係る語句関係抽出装置1の全体の動作を示すフローチャート(S52)である。
図24に示すように、まず、S11(図4)において、関係文対抽出部102は、論理関係文対を抽出する。S12(図7)において、共通トピック抽出部104は、論理関係文対から共通トピックを抽出する。S51(図21)において、極性判定部108は、共通トピック文対の各文の極性を判定する。S13(図9)において、語句対抽出部106は、共通トピック文対から極性情報を含めた語句対を生成する。
以上詳述したように、本発明の第5の実施の形態によれば、極性判定部108が文の極性を判定することで、より正確な語句関係を抽出することが可能になる。
<第6の実施の形態>
図25は、第6の実施の形態に係る本発明の機能構成を示すブロック図である。本発明が解決すべき課題は、共通トピック抽出部104と、語句対抽出部106の構成のみによっても解決することができる。
本実施の形態においては、共通トピック抽出部104は、論理関係が予め分かっている文対である論理関係文対、及びその形態素解析情報が入力される。共通トピック抽出部104は、入力された論理関係文対から、共通のトピックである共通トピックを抽出する。共通トピック抽出部104は抽出した共通トピックと、入力された情報をそのまま語句対抽出部106に出力する。
語句対抽出部106は、共通トピック抽出部104が出力した情報が入力される。語句対抽出部106は、論理関係文対の各文から共通トピックに対応する語句を語句対として抽出し、共通トピックと語句対を出力する。
図26は、第6の実施形態の全体の動作を示すフローチャート(S61)である。
図26に示すように、まず、S12(図7)において、共通トピック抽出部104は、論理関係文対から共通トピックを抽出する。S13(図9)において、語句対抽出部106は、共通トピック文対から語句対を生成する。
以上説明したように、共通トピック抽出部104と語句対抽出部106の構成のみによっても、適切な論理関係を想起させる単語のペアを抽出することができる。
<第7の実施の形態>
本発明の第7の実施の形態は、入力支援装置の他の様々なバリエーションである。第1の実施の形態では、入力支援装置について文間関係を推定する装置として説明したが、推定部204が推定する対象は2文の文間関係に限られない。
例えば、推定部204は、ユーザが入力した文の後続文を推定しても良い。ユーザが入力部202に「イチゴがとても赤かった。なので、」という文を入力したとする。この場合、推定部204は、「なので」の文字列から論理関係が因果関係であると判定する。また、推定部204は、トピックが「イチゴ」であり、トピックの属性を表す語句が「赤い」であると判定する。推定部204は、語句関係辞書200が記録している、語句関係が「因果関係」であり、共通トピックが「イチゴ」であり、語句対の一方が「赤い」であるレコードを参照する。例えば図12の一列目が該当する。該レコードを参照することにより、推定部204は、語句対のもう一方が「甘い」であると判定する。推定部204は、ユーザが「イチゴがとても赤かった。なので、」という文を書いた時点で、「甘かった。」等の文が続くと推定する。推定部204は、「甘かった。」という文を出力部206に出力する。
また、推定部204は、入力された文章の意味を推定しても良い。この場合、入力部202には、ユーザが文章を入力しても良いし、通信IFを介してインターネット上のブログのテキスト等が入力されても良い。例えば入力部204にインターネット上のブログが入力され、該ブログのテキストに「赤いラーメンを食べた」という文があったとする。推定部204は、トピックが「ラーメン」であり、語句対の一方が「赤い」であると判定する。また、推定部204は、文章の意味を適切に推定するために、論理関係は「因果関係」であると判定する。推定部204は、語句関係辞書200に記録している、語句関係が「因果関係」であり、共通トピックが「ラーメン」であり、語句対の一方が「赤い」であるレコードを参照する。推定部204は、該レコードを参照し、語句対のもう一方が「辛い」であると判定する。その結果、推定部204は、該文がそのラーメンは辛かったということを意味していると推定し、出力部206が推定結果を出力する。
また、推定部204は、入力文の接続詞の矛盾を推定しても良い。推定部204は、語句関係辞書200の記録内容と異なる接続詞が用いられていた場合、その接続詞が矛盾していることを推定する。例えば、ユーザが「ラーメンが赤い。だからとれも甘かった。」という文を入力部202に入力したとする。推定部204は、トピックが「ラーメン」であり、語句対が「赤い:甘い」であり、論理関係が「因果関係」であると判定する。推定部204は、語句関係辞書200が記録している、共通トピックが「ラーメン」であり、語句対が「赤い:甘い」であるレコードを参照する。推定部204は、例えば図12の三列目が該当する。推定部204は、共通トピックが「ラーメン」であり、語句対が「赤い:甘い」である文の語句関係は「逆接関係」であることを判定し、「だから」という接続詞の矛盾を推定する。この結果、出力部206は『「だから」は変ではないですか』というアラートを出す。
また、推定部204は、検索クエリの適切な拡張を推定しても良い。ユーザがテキストを検索する際、入力部202に「イチゴ 赤い」と入力したとする。この場合、推定部204は、トピックが「イチゴ」で、語句対の一方が「赤い」であると判定する。推定部204は、語句関係辞書200の記録内容に基づいて、語句対のもう一方が「甘い」であることを判定し、「イチゴ 甘い」が適切なクエリの拡張であると推定する。この結果、推定部204は、「イチゴ 赤い」の入力を受けて「イチゴ 甘い」も検索クエリに追加する。
以上説明したように、本発明によれば、ユーザが入力した内容を、様々なバリエーションで支援することができる。
以上説明したように、本発明は、適切な論理関係を想起させる単語のペアを抽出することができる語句関係抽出システムとして有用である。
1 語句関係抽出装置
2 入力支援装置
3 入力支援システム
4 語句関係抽出装置
5 入力支援システム
10 CPU
12 メモリ
14 HDD
16 通信IF
18 入力装置
20 出力装置
22 バス
100 文書DB
102 関係文対抽出部
104 共通トピック抽出部
106 語句対抽出部
108 極性判定部
200 語句関係辞書
202 入力部
204 推定部
206 出力部

Claims (17)

  1. 論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、
    前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、
    を備える語句関係抽出装置。
  2. 前記共通トピック抽出手段は、前記論理関係文対の各文の主語をトピックとして抽出する請求項1に記載の語句関係抽出装置。
  3. 前記共通トピック抽出手段は、前記論理関係文対の一方の文の主語が指示代名詞である場合、他方の文から、前記指示代名詞により指示される語句をトピックとして抽出する請求項1又は2に記載の語句関係抽出装置。
  4. 前記共通トピック抽出手段は、前記論理関係文対の一方の文が、主語を含まない場合、他方の文の主語をトピックとして抽出する請求項1〜3のいずれかに記載の語句関係抽出装置。
  5. 前記語句対抽出手段は、共通トピックに対応する語句を品詞情報に基づいて抽出する請求項1〜4のいずれかに記載の語句関係抽出装置。
  6. 前記語句対抽出手段は、論理関係に基づいて、前記論理関係文対の各文に役割を割り当てる請求項1〜5のいずれかに記載の語句関係抽出装置。
  7. 入力されるテキストから論理関係を示す文字列を含む隣接文対又は複文を論理関係文対として抽出する関係文対抽出手段をさらに備え、
    前記共通トピック抽出手段は、前記関係文対抽出手段により抽出された論理関係文対から共通トピックを抽出する請求項1〜6のいずれかに記載の語句関係抽出装置。
  8. 前記共通トピック抽出手段は、前記論理関係文対が含まれる前記テキストの見出しの語句を、見出しに関連する論理関係文対の共通トピックとして抽出する請求項7に記載の語句関係抽出装置。
  9. 前記共通トピック抽出手段は、前記共通トピックの同義語、類義語及び言い換え表現の少なくともいずれかを、前記論理関係文対の共通トピックとして追加する請求項1〜8のいずれかに記載の語句関係抽出装置。
  10. 前記語句対抽出手段は、前記共通トピックに対応する語句の前記テキストでの出現確率が閾値以上である場合、語句対として抽出する請求項7又は8に記載の語句関係抽出装置。
  11. 所定の語句が前記論理関係文対に含まれる回数に基づいて前記論理関係文対の各文の極性を判定する極性判定手段をさらに備える請求項1〜10のいずれかに記載の語句関係抽出装置。
  12. 語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、
    前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、
    を備える入力支援装置。
  13. 論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、
    前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、
    を備える語句関係抽出装置と、
    前記語句関係抽出装置により抽出された語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、
    前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、
    を備える入力支援装置と、
    を有する入力支援システム。
  14. 論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出し、
    前記論理関係文対の各文から、前記抽出された共通トピックに対応する語句を語句対として抽出する、
    語句関係抽出方法。
  15. 語句対、共通トピック及び論理関係を記憶し、
    前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する、
    入力支援方法。
  16. 論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出ステップと、
    前記論理関係文対の各文から、前記抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出ステップと、
    をコンピュータに実行させる語句関係抽出プログラム。
  17. 語句対、共通トピック及び論理関係を記憶する語句関係記憶ステップと、
    前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定ステップと、
    をコンピュータに実行させる入力支援プログラム。
JP2009121808A 2009-05-20 2009-05-20 語句関係抽出装置、語句関係抽出方法及びプログラム Pending JP2010271819A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009121808A JP2010271819A (ja) 2009-05-20 2009-05-20 語句関係抽出装置、語句関係抽出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009121808A JP2010271819A (ja) 2009-05-20 2009-05-20 語句関係抽出装置、語句関係抽出方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2010271819A true JP2010271819A (ja) 2010-12-02

Family

ID=43419807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009121808A Pending JP2010271819A (ja) 2009-05-20 2009-05-20 語句関係抽出装置、語句関係抽出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2010271819A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014017023A1 (ja) * 2012-07-26 2014-01-30 日本電気株式会社 原因表現抽出装置、原因表現抽出方法および原因表現抽出プログラム
JP2015109098A (ja) * 2014-12-17 2015-06-11 洋彰 宮崎 自律型知識体系構築機
JP2015144009A (ja) * 2015-03-03 2015-08-06 洋彰 宮崎 自律型知能体系構築機
JP2015200962A (ja) * 2014-04-04 2015-11-12 日本放送協会 文書間関係抽出装置およびプログラム
JP2017027111A (ja) * 2015-07-15 2017-02-02 日本電信電話株式会社 接続表現項構造解析装置、方法、及びプログラム
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
CN117993392A (zh) * 2024-03-05 2024-05-07 北京引智科技有限公司 一种基于关键词提取的综合信息分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250085A (ja) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 事象推移予測方法および事象推移予測プログラムを記録した記録媒体
JP2006146567A (ja) * 2004-11-19 2006-06-08 Internatl Business Mach Corp <Ibm> 表現検出システム、表現検出方法、及びプログラム
US20070140386A1 (en) * 2003-05-16 2007-06-21 Ipwireless, Inc. Method and arrangement for automatic frequency control in a communication system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250085A (ja) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 事象推移予測方法および事象推移予測プログラムを記録した記録媒体
US20070140386A1 (en) * 2003-05-16 2007-06-21 Ipwireless, Inc. Method and arrangement for automatic frequency control in a communication system
JP2006146567A (ja) * 2004-11-19 2006-06-08 Internatl Business Mach Corp <Ibm> 表現検出システム、表現検出方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201000308122; 石井 裕志 外2名: '因果関係ネットワークの構築によるニュースの理解支援' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集[online] , 20090509, C5-6, 電子情報通信学会データ工学研究専門委員会 *
JPN6013022607; 石井 裕志 外2名: '因果関係ネットワークの構築によるニュースの理解支援' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集[online] , 20090509, C5-6, 電子情報通信学会データ工学研究専門委員会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014017023A1 (ja) * 2012-07-26 2014-01-30 日本電気株式会社 原因表現抽出装置、原因表現抽出方法および原因表現抽出プログラム
JP2015200962A (ja) * 2014-04-04 2015-11-12 日本放送協会 文書間関係抽出装置およびプログラム
JP2015109098A (ja) * 2014-12-17 2015-06-11 洋彰 宮崎 自律型知識体系構築機
WO2016098366A1 (ja) * 2014-12-17 2016-06-23 洋彰 宮崎 自律型知識体系構築機
JP2015144009A (ja) * 2015-03-03 2015-08-06 洋彰 宮崎 自律型知能体系構築機
WO2016139820A1 (ja) * 2015-03-03 2016-09-09 洋彰 宮崎 自律型知能体系構築機
JP2017027111A (ja) * 2015-07-15 2017-02-02 日本電信電話株式会社 接続表現項構造解析装置、方法、及びプログラム
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
CN117993392A (zh) * 2024-03-05 2024-05-07 北京引智科技有限公司 一种基于关键词提取的综合信息分析方法及系统

Similar Documents

Publication Publication Date Title
CN110892399B (zh) 自动生成主题内容摘要的系统和方法
Han et al. Lexical normalization for social media text
US10296584B2 (en) Semantic textual analysis
US9892111B2 (en) Method and device to estimate similarity between documents having multiple segments
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US10339122B2 (en) Enriching how-to guides by linking actionable phrases
US8473278B2 (en) Systems and methods for identifying collocation errors in text
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US9734238B2 (en) Context based passage retreival and scoring in a question answering system
WO2016054301A1 (en) Distant supervision relationship extractor
JP2010271819A (ja) 語句関係抽出装置、語句関係抽出方法及びプログラム
CN110647618A (zh) 对话查询应答系统
WO2009094586A1 (en) Phrase based snippet generation
Ismailov et al. A comparative study of stemming algorithms for use with the Uzbek language
CN108804418B (zh) 一种基于语义分析的文档查重方法和装置
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
Ehsan et al. Towards grammar checker development for Persian language
US20230186351A1 (en) Transformer Based Search Engine with Controlled Recall for Romanized Multilingual Corpus
Carroll et al. Word sense disambiguation using automatically acquired verbal preferences
TW202022635A (zh) 自適應性調整關連搜尋詞的系統及其方法
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
Mekki et al. Tokenization of Tunisian Arabic: a comparison between three Machine Learning models
JP2003167898A (ja) 情報検索システム
JP6375367B2 (ja) 反論生成方法,反論生成システム
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120417

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130514

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130712

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140121