以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態における含意判定装置の例を示すブロック図である。本実施形態における含意判定装置は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを備えている。
データ処理装置1は、新事実性判定手段10と、含意判定手段11とを含む。
新事実性判定手段10は、与えられた仮説を含意する文(以下、仮説含意文と記す。)において、その仮説が初めて明らかにされた事実(新事実)であるか否かをその仮説含意文に記載された特定の表現をもとに判定する。なお、新事実の判定方法については後述する。
含意判定手段11は、与えられた仮説を、仮説を含むか否かが判定される文(以下、判定対象文と記す。)が含意するか否かを判定する。そして、含意判定手段11は、仮説含意文において、与えられた仮説が新事実であると判定された場合に、判定対象文の発生日時が、その仮説含意文の発生日時よりも古い場合、与えられた仮説を判定対象文が含意しないと判定する。ここで、発生日時とは、文書(文)が作成された日時や、発行された日時など、その文書(文)が発生した日時のことを意味する。以下、判定対象文の発生日時、仮説含意文の発生日時を、それぞれ判定対象文の日時、仮説含意文の日時と記すこともある。
また、含意判定手段11は、判定対象文が仮説を含意する度合いを示す含意度(以下、仮説と判定対象文との含意度と記すこともある。)を用いて、判定対象文が仮説を含意するか否かを判定してもよい。このとき、含意判定手段11は、例えば、仮説と判定対象文とで記載が類似する度合いを含意度として用いてもよい。具体的には、判定対象文の発生日時が、与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、含意判定手段11は、与えられた仮説と判定対象文との間の含意度にペナルティを付与してもよい。また、ペナルティ付与後の含意度が予め定められた基準値を下回る場合、含意判定手段11は、その判定対象文が仮説を含意しないと判定してもよい。含意度は、例えば、仮説および判定対象文に記載された単語や係り受け組などが共通する度合いなどによって算出される。なお、含意度の算出方法については後述する。
記憶装置2は、判定対象文書記憶部20と、仮説記憶部21と、仮説含意文書記憶部22と、新事実性判定結果記憶部23と、含意度記憶部24と、含意判定結果記憶部25とを含む。判定対象文書記憶部20と、仮説記憶部21と、仮説含意文書記憶部22と、新事実性判定結果記憶部23と、含意度記憶部24と、含意判定結果記憶部25とは、それぞれ磁気ディスク等により実現される。
判定対象文書記憶部20は、判定対象文を含む文書集合を記憶する。具体的には、判定対象文書記憶部20は、判定対象文と、その判定対象文の日時とを対応付けて記憶する。判定対象文は、ユーザ等により予め判定対象文書記憶部20に記憶される。
仮説記憶部21は、判定対象とする仮説を記憶する。なお、仮説記憶部21が記憶する仮説は、1つであってもよく、複数であってもよい。仮説は、ユーザ等により予め仮説記憶部21に記憶される。
仮説含意文書記憶部22は、仮説を含意する文(すなわち、仮説含意文)を含む文書集合を格納する。具体的には、仮説含意文書記憶部22は、仮説含意文と、その仮説含意文の日時とを対応付けて記憶する。仮説含意文書記憶部22には、特定の仮説を含意することが既知の文(仮説含意文)が予め記憶される。なお、この仮説含意文は、ユーザ等により予め仮説含意文書記憶部22に記憶される。また、各仮説に対して、少なくとも1つ以上の仮説含意文を含む文書が対応する。
新事実性判定結果記憶部23は、新事実性判定手段10が判定した結果を記憶する。具体的には、新事実性判定結果記憶部23は、与えられた仮説が仮説含意文において初めて明らかにされた事実であるか否かを判定した結果を記憶する。
含意度記憶部24は、仮説と判定対象文との含意度を記憶する。
含意判定結果記憶部25は、含意判定手段11が判定した結果を記憶する。具体的には、含意判定結果記憶部25は、判定対象文が与えられた仮説を含意するか否かを判定した結果を記憶する。
新事実性判定手段10と、含意判定手段11とは、プログラム(含意判定プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、データ処理装置1の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、新事実性判定手段10及び含意判定手段11として動作してもよい。また、新事実性判定手段10と、含意判定手段11とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施形態の含意判定装置の動作を説明する。図2は、第1の実施形態における含意判定装置の動作を示すフローチャートである。また、図3及び図4は、記憶装置2が記憶する情報の例を示す説明図である。以下の説明では、判定対象文書記憶部20、仮説記憶部21および仮説含意文書記憶部22が、図3に例示するデータを記憶しているものとする。
仮説記憶部21は、図3(a)に例示するように、仮説ID項目、仮説項目、文書ID項目および文ID項目を記憶する。仮説記憶部21は、仮説ID項目として仮説の識別子(以下、仮説ID)を記憶し、仮説項目として仮説の内容を記憶する。また、仮説記憶部21は、文書ID項目として仮説を含意する文書の識別子を記憶し、文ID項目として仮説を含意する文の識別子を記憶する。以下の説明では、文の識別子を文IDと記し、文書の識別子を文書IDと記す。
仮説含意文書記憶部22は、図3(b)に例示するように、文書ID項目、文ID項目、日時項目および文内容項目を記憶する。仮説含意文書記憶部22は、文書ID項目として仮説を含意する文を含む文書の文書IDを記憶し、文ID項目として仮説を含意する文の文IDを記憶する。また、仮説含意文書記憶部22は、日時項目として文書の発生日時を記憶し、文内容項目として仮説含意文の内容を記憶する。仮説と、その仮説を含意する文との対応関係は、仮説記憶部21及び仮説含意文書記憶部22が記憶する文書IDと文IDとで判断される。図3(a)および図3(b)に示す例では、仮説記憶部21に記憶された「仮説ID=1」で特定される仮説は、仮説含意文書記憶部22に記憶された「文書ID=1」かつ「文ID=1」で特定される文が含意することを示す。
判定対象文書記憶部20は、図3(c)に例示するように、文書ID項目、文ID項目、日時項目および文内容項目を記憶する。判定対象文書記憶部20は、文書ID項目として、判定対象文を含む文書の文書IDを記憶し、文ID項目として判定対象文の文IDを記憶する。また、判定対象文書記憶部20は、日時項目として文書の発行日時を記憶し、文内容項目として判定対象文の内容を記憶する。以下、本実施形態では、判定対象文書記憶部20、仮説記憶部21および仮説含意文書記憶部22が、図3に示す情報をそれぞれ記憶している場合を例に説明する。
まず、新事実性判定手段10は、仮説が仮説含意文において初めて明らかにされた事実(すなわち、新事実)であるか否かを、その仮説含意文に含まれる特定の表現を用いて判定する(図2におけるステップS1)。具体的には、新事実性判定手段10は、仮説含意文書記憶部22に記憶された仮説含意文に対し、以下の(1)〜(5)に例示する表現を手がかりに、新事実である、または、新事実ではない、と判定する。
なお、以下の説明において、(1),(2),(3)の説明に用いる仮説Hを「QQRR容疑者が逮捕された峠道は若いころに車で通い詰めた場所である」とし、(4),(5)の説明に用いる仮説Hを「QQRRは逮捕された」とする。なお、QQは姓を表し、RRは名を表すものとする。
また、以下の説明において、(1)〜(4)の説明に用いる仮説含意文T_Hを『M本社工場(Z市XX区、W県YY町)で乗用車が社員12人をはね死傷させた事件から29日で1週間。殺人未遂容疑で逮捕されたQQRR容疑者(42)が、自ら110番して逮捕された峠道について、「若いころに車で通い詰めた思い出の場所」と供述していることが捜査本部への取材で分かった。』とし、(5)の説明に用いる仮説含意文T_Hを「QQRR容疑者が逮捕されてから29日で1週間になる。」とする。
(1)仮説含意文T_Hに「情報の発信元を示す表現が存在する」ならば、T_Hにおいて仮説Hを新事実と判定する。
上記例の場合、仮説含意文T_Hの「捜査本部への取材で」という表現が、情報の発信元を示す表現であると言える。したがって、新事実性判定手段10は、この仮説含意文T_Hにおいて仮説Hを新事実と判定する。他にも、「関係筋への取材で」という表現や、「発表した」などの表現を、情報の発信元を示す表現とすることが出来る。新事実性判定手段10は、このような表現を含んでいる場合に、仮説含意文T_Hにおいて仮説Hを新事実と判定してもよい。さらに、仮説含意文が英文の場合、「according to」,「said」,「told」,「reported」,「announced」などの表現が仮説含意文に含まれている場合、情報の発信元を示す表現とすることが出来る。
このように、新事実性判定手段10は、情報の発信元を示す所定の文字列が含まれている仮説含意文T_Hが含意する仮説Hを新事実と判定する。なお、判定に用いられる所定の文字列については、情報の発信元を示すと考えられる表現を予め定めておけばよい。
(2)仮説含意文T_Hを含む文書の「仮説Hとヘッドライン(タイトル)との類似度が高い(あらかじめ設定した閾値以上)」ならば、T_Hにおいて仮説Hを新事実と判定する。
仮説Hとヘッドラインとの間の類似度は、後述する含意度の計算方法と同様の方法で計算される。例えば、上記の例における仮説含意文T_Hのヘッドライン(見出し)が『QQRR容疑者、逮捕の峠道「思い出の場所」 元”走り屋”に何が』であるとする。仮説Hを形態素解析した結果得られた単語のうち、自立語として、「QQ」,「RR」,「容疑者」,「逮捕」,「峠道」,「若い」,「車」,「通い詰める」,「場所」の9つの単語tが選択される。同様に、仮説含意文T_Hからも単語tを選択する。仮説Hに含まれる9つの単語のうち、仮説含意文T_Hにも含まれる単語は、「QQ」,「RR」,「容疑者」,「逮捕」,「峠道」,「場所」の6つである。したがって、単語tの重要度(以下、weight(t))を全て1とした場合、Hとヘッドラインの類似度は0.67(=6/9)と算出される。ここで、仮説と判定する際の基準値(以下、仮説判定基準値と記す。)を0.5と定めた場合、本例の類似度は仮説判定基準値よりも大きいため、仮説Hは、T_Hにおいて新事実と判定される。
なお、仮説判定基準値は、ユーザ等により予め定められる。また、各仮説含意文のヘッドラインもユーザ等により予め作成され、例えば、仮説含意文書記憶部22に別項目として記憶される。また、仮説Hとヘッドラインとの類似度は、上述する方法に限定されない。このように、新事実性判定手段10は、仮説含意文T_Hのヘッドラインと仮説Hとの類似度が仮説判定基準値よりも大きい場合、その仮説含意文T_Hが含意する仮説Hを新事実と判定する。
(3)仮説含意文T_Hに「新事実を表す直接的な表現が存在する」ならば、仮説HはT_Hにおいて新事実と判定する。
上記例の場合、仮説含意文T_Hの「分かった」という表現が、新事実を示す直接的な表現に該当する。したがって、新事実性判定手段10は、この仮説含意文T_Hにおいて仮説Hを新事実と判定する。他にも、「判明した」などの表現を、新事実を示す直接的な表現とすることが出来る。このように、新事実性判定手段10は、新事実を示す直接的な所定の表現が含まれている仮説含意文T_Hが含意する仮説Hを新事実と判定する。なお、判定に用いられる所定の表現については、新事実を示すと考えられる表現を予め定めておけばよい。
(4)仮説含意文T_Hに「過去を表す時間表現が存在する」ならば、T_Hにおいて仮説Hを新事実ではないと判定する。
上記例の場合、仮説含意文T_Hの「日で○○週間」という表現が、過去を表す時間表現であると言える。したがって、新事実性判定手段10は、この仮説含意文T_Hにおいて仮説Hを新事実ではないと判定する。
例えば、過去を表す表現のパターンを事前にいくつか用意しておき、仮説含意文T_Hが、それらのパターンのいずれかと合致する場合に、新事実性判定手段10は、仮説含意文T_Hに過去を表す時間表現が存在すると判定してもよい。また、この場合、正規表現で記述されたパターンを用いてもよい。正規表現で記述されたパターンとして、例えば、「¥d+(週間|年)」という表現が該当する。ここで、¥dは数値、+は一回以上の繰り返し、(週間|年)は週間と年のいずれかを表す。上記例の場合、仮説含意文T_Hには、このパターンと合致する「1週間」という表現が含まれるので、新事実性判定手段10は、仮説Hが仮説含意文T_Hにおいて新事実ではないと判定する。
なお、過去を表す所定の時間表現が含まれているか否かを判定する方法は、上記方法に限定されない。このように、新事実性判定手段10は、過去を表す所定の時間表現が含まれている仮説含意文T_Hが含意する仮説Hを新事実ではないと判定する。
(5)仮説含意文T_Hに「仮説が挿入句として記載されている」ならば、T_Hにおいて仮説Hを新事実ではないと判定する。
ここで、「記載されている」とは、仮説Hの記載と仮説含意文T_Hに含まれる記載とが、完全に一致する場合に限られず、記載内容が極めて近い(記載内容が同等である)場合も、ここで言う「記載されている」に該当する。
上記例の場合、仮説H「QQRRは逮捕された」が、仮説含意文T_Hの「・・・殺人未遂容疑で逮捕されたQQRR容疑者(42)・・・」の部分に挿入句として記載されている。したがって、新事実性判定手段10は、この仮説含意文T_Hにおいて仮説Hを新事実ではないと判定する。
新事実性判定手段10は、仮説Hと一致する句が仮説含意文T_Hに記載されている場合に、挿入句と判定してもよい。ただし、新事実性判定手段10が挿入句を判定する方法は、内容が一致するか否かを判定する方法に限定されない。新事実性判定手段10は、仮説Hが仮説含意文T_Hの挿入句であるか否かを、例えば、仮説Hに含まれる体言と用言が、仮説含意文T_Hにおいて連体修飾関係で接続しているか否かで判定してもよい。新事実性判定手段10は、上記例の仮説H「QQRRは逮捕された」に対して、体言と用言とを入れ替えた句である「逮捕されたQQRR」を挿入句としてもよい。このように、仮説Hの記載内容と同等の記載内容を仮説含意文T_Hが含む場合、新事実性判定手段10は、その仮説Hを新事実と判定する。
以上のように、新事実性判定手段10は、仮説含意文T_Hが予め定められた表現を含む場合、その表現に応じて、その表現を含む仮説含意文T_Hにおいて仮説Hが新事実か否かを判定してもよい。
なお、新事実か否かを判定する手がかりが複数存在する場合、これらの手がかりに予め優先順位を設けておけばよい。上記(1)〜(5)の手がかりが存在する場合、例えば、優先順位を(5)、(3)、(1)、(4)、(2)の順に設け、新事実性判定手段10は、この順に判定処理を行ってもよい。また、どの手がかりにも一致しない場合、新事実性判定手段10は、仮説含意文T_Hにおいて仮説Hが新事実ではないと判定してもよい。
新事実性判定手段10は、判定した結果を新事実性判定結果記憶部23に記憶させる。図4(a)は、新事実性判定結果記憶部23が記憶する判定結果の例を示す説明図である。図4(a)に示す例は、図3に例示する状態に対して、新事実性判定手段10が判定処理を実行した結果である。図4(a)に示す例は、仮説記憶部21に格納された仮説ID=1に対する仮説含意文が仮説含意文書記憶部22の文書ID=1、文ID=1で特定される文であることを示す。
具体的には、仮説含意文書記憶部22の文書ID=1、文ID=1で特定される仮説含意文が(1)及び(3)で示す手がかりの条件に一致するため、新事実性判定手段10は、仮説Hを新事実と判定する。そのため、新事実性判定手段10は、新事実性判定結果記憶部23の判定結果項目に、新事実であることを示す情報を設定する。図4(a)に示す例では、文書ID=1、文ID=1で特定される仮説含意文において仮説ID=1で特定される仮説が新事実(判定結果=1)であることを示している。
次に、含意判定手段11は、仮説含意文で仮説が新事実であると判定された場合であって、判定対象文の発生日時が仮説含意文の発生日時よりも古い場合、その仮説を判定対象文が含意しないと判定する。なお、この場合、含意判定手段11は、その仮説とその判定対象文間の含意度にペナルティを付与してもよい(図2におけるステップS2)。
まず、ステップS2において、含意判定手段11が、仮説を判定対象文が含意しないと判定する動作を説明する。
図4(c)は、含意判定結果記憶部25が記憶する判定結果の例を示す説明図である。図4(c)に例示する判定結果は、図4(a)に例示する判定結果をもとに、含意判定手段11が判定処理を行った結果を示す。仮説記憶部21に格納された仮説ID=1で特定される仮説は、新事実性判定結果記憶部23を参照すると、文書ID=1、文ID=1で特定される仮説含意文において新事実と判定されている。また、仮説含意文書記憶部22を参照すると、文書ID=1、文ID=1で特定される仮説含意文の発生日時は「2010/04/01」である。
一方、判定対象文書記憶部20に記憶された文書ID=10、文ID=1で特定される判定対象文の日時は「2010/03/01」であるため、判定対象文の日時は仮説含意文の日時よりも古いことが分かる。したがって、含意判定手段11は、文書ID=10、文ID=1で特定される判定対象文が仮説ID=1で特定される仮説を含意しないと判定し、含意判定結果記憶部25の判定結果に0を格納する。ここで、判定結果が0とは、判定対象文が仮説を含意しないことを意味する。
次に、ステップS2において、含意判定手段11が、仮説と判定対象文間の含意度にペナルティを付与する動作を説明する。なお、含意度が用いられる場合、仮説と判定対象文との含意度は予め算出され、含意度記憶部24に記憶される。図4(b)は、含意度記憶部24が記憶する含意度の例を示す説明図である。図4(b)に示す例では、仮説記憶部21に格納された仮説ID=1に対する仮説含意文が仮説含意文書記憶部22の文書ID=1、文ID=1で特定される文であり、その仮説と仮説含意文との含意度が0.56であることを示す。なお、含意度の算出方法については後述する。
以下、仮説と判定対象文との含意度にペナルティを付与する方法を説明する。まず1つ目の方法は、含意度を一定の値または一定の割合だけ低減させる方法である。この場合、含意判定手段11は、低減後の含意度が基準値未満であればその仮説を判定対象文が含意しないと判定する。2つ目の方法は、基準値を一定の値または一定の割合だけ増加させる方法である。この場合、含意判定手段11は、含意度が増加した基準値未満であればその仮説を判定対象文が含意しないと判定する。また、これらの方法は、同時に行われてもよい。すなわち、含意度にペナルティを付与する第一の方法として、含意度の値を低減させる方法が挙げられる。また、第二の方法として、予め定められた基準値の値を増加させる方法が挙げられる。さらに、第三の方法として、含意度の値を低減させるとともに基準値の値を増加させる方法が挙げられる。
図4(a)〜図4(c)を用いて、2つ目の方法を用いてペナルティを付与した場合の判定処理を説明する。仮説記憶部21に格納された仮説ID=1で特定される仮説は、図4(a)に例示する新事実性判定結果記憶部23を参照すると、文書ID=1、文ID=1で特定される仮説含意文おいて新事実(判定結果=1)と判定されている。また、仮説含意文書記憶部22を参照すると、文書ID=1、文ID=1で特定される仮説含意文の日時は「2010/04/01」である。一方、判定対象文書記憶部20に格納された文書ID=10、文ID=1で特定される判定対象文の日時は「2010/03/01」である。
さらに、図4(b)に例示する含意度記憶部24を参照すると、仮説ID=1で特定される仮説と、文書ID=10、文ID=1で特定される判定対象文の間の含意度は0.56である。基準値を0.5、増加させる一定の値を0.2とした場合、基準値は、0.7となる。仮説ID=1で特定される仮説と文書ID=10、文ID=1で特定される判定対象文との間の含意度は0.56であり、基準値0.5に0.2を足した0.7よりも小さい。そのため、含意判定手段11は、その仮説を判定対象文が含意しないと判定し、含意判定結果記憶部25に判定結果0を格納する。
ここで、含意度の計算方法を説明する。含意度は、仮説と判定対象文の双方に含まれる単語または係り受け組の共通する割合として計算できる。具体的には、含意度は、下記の式で計算される。
Sim(H,T)=Σt⊂H∩T weight(t)/Σt⊂H weight(t)
ここで、Hは仮説を表し、Tは判定対象文を表す。またt⊂Hは、Hに含まれる単語を表し、t⊂H∩Tは、HとTに共通する単語を表し、weight(t)は単語tの重要度を表す。
仮説および判定対象文から、形態素解析により単語tを抽出すればよい。具体的には、形態素解析ソフトウェアを用いて仮説および判定対象文から単語tを抽出してもよい。形態素解析ソフトウェアを用いた場合、文が単語に分割され、それぞれの単語に品詞が付与される。この際、全ての品詞を採用するのではなく、名詞、動詞、形容詞、形容動詞等の自立語のみを単語tとして採用することが可能である。
例えば、仮説Hが「Aさんを東京で逮捕した」であれば、形態素解析によって、「Aさん」,「東京」,「逮捕」が抽出され、これらの単語が仮説Hに含まれる単語tの集合になる。なお、形態素解析ソフトウェアとして、例えば、ChaSenが利用可能である。なお、ChaSenについては、以下の参考文献1に紹介されている。
<参考文献1>”ChaSen -- 形態素解析器”、2007年、Nara Institute of Science and Technology、[online]、[平成22年10月18日検索]、インターネット〈http://chasen-legacy.sourceforge.jp/〉
最も単純な方法として、単語tの重要度weight(t)に、全て1を設定する方法がある。この場合、Sim(H,T)は、仮説Hに含まれる単語と判定対象文Tに含まれる単語が共通する割合を意味する。また、別の方法として、単語tの出現文書数を用いる方法もある。この場合、単語tの出現文書数をdf(t)、全文書数を|D|としたとき、単語tの重要度は、weigth(t)=log(|D|/df(t))で計算される。なお、logは、底を2または10とする対数である。
ここで、図3に例示する仮説記憶部21に記憶された仮説ID=1で特定される仮説Hと、判定対象文書記憶部20に記憶された文書ID=10、文ID=1で特定される判定対象文Tの間の含意度を計算する方法を説明する。仮説Hを形態素解析して抽出された単語のうち自立語を選択すると、仮説Hに含まれる単語tの集合は、「QQ」,「RR」,「容疑者」,「逮捕」,「峠道」,「若い」,「車」,「通い詰める」,「場所」になる。同様の方法で、判定対象文Tからも単語tが抽出される。仮説Hに含まれる9つの単語のうち、判定対象文Tにも含まれる単語は「峠道」,「若い」,「車」,「通い詰める」,「場所」の5つである。ここで、weight(t)を全て1とした場合、類似度は5/9=0.56と計算される。なお、このように図3に例示する状態に対して計算された含意度が、図4(b)に例示する含意度記憶部24に記憶されている
なお、上述した含意度の計算方法は、仮説と判定対象文間の含意度を計算する一例であり、上記の方式に限定されない。例えば、Sim(H,T)として、Cosine類似度や、Jaccard係数を用いても良い。
また、上記説明では、Sim(H,T)を算出する際、tとして単語を用いる方法を説明したが、単語を用いる代わりに、単語の係り受け組を用いてもよい。係り受け組とは、係り受け関係にある2つの単語の組を表す。例えば、仮説Hが、「Aさんを東京で逮捕した」である場合、係り受け組として、「Aさん−逮捕」および「東京−逮捕]が仮説Hに含まれるtの集合になる。
また、含意度の計算に分類器を用いても良い。分類器とは、データを自動的に2つのカテゴリに分類する方式であり、分類器を実装したソフトウェアも広く知られている。分類器を実装したソフトウェアを使用する際、利用者は、(i)2つのカテゴリに事前分類したデータの単語ベクトル、および、(ii)未分類のデータの単語ベクトル、の2つを事前に用意する。特徴ベクトルとは、データに含まれる単語をベクトルの次元とし、各次元の値がそのデータにおける単語の有無(0/1)または単語の重要度を表すベクトルである。
分類器を実装したソフトウェアは、学習処理および分類処理の2つの部分から構成されている。まず学習処理では、事前分類したデータの単語ベクトルを入力データとして分類器が作成される。この際、分類器では、通常、どのような単語が含まれる場合に文書が一方のカテゴリに所属する可能性が高いかを表す分類基準が決定される。次に、分類処理では、学習処理で作成された分類器を用いて、未分類のデータが2つのカテゴリのいずれかに分類される。
この分類器を実装したソフトウェアを本発明に適用するには、分類対象のデータを仮説と判定対象文の組とし、2つのカテゴリを「仮説を判定対象文が含意するか、含意しないか」とすればよい。つまり、(i)2つのカテゴリに事前分類した仮説と判定対象文の組の単語ベクトルと、(ii)未分類の仮説と判定対象文の組の単語ベクトルとを用意すれば、処理内容は上記と同様である。
なお、仮説と判定対象文それぞれの単語ベクトルの和を、仮説と判定対象文の組の単語ベクトルとすればよい。分類器を用いた結果、データが「含意する」とするカテゴリに分類された場合、そのデータの判定結果を1とし、データが「含意しない」とするカテゴリに分類された場合、そのデータの判定結果を0として、それぞれの判定結果を含意度記憶部24に記憶させる。
なお、分類器を実装したソフトウェアの例として、Support Vector Machine(SVM)を実装したSVM−Lightや、決定木を実装したC4.5などが知られている。なお、SVM−Lightについては、以下の参考文献2に紹介されている。また、C4.5については、以下の参考文献3に示すWebページからダウンロード可能である。
<参考文献2> Thorsten Joachims、”Support Vector Machine”、2008年8月14日、[online]、[平成22年10月18日検索]、インターネット〈http://svmlight.joachims.org/〉
<参考文献3>”Ross Quinlan”、[online]、[平成22年10月18日検索]、インターネット〈http://www.rulequest.com/Personal/〉
以上のように、本実施形態によれば、新事実性判定手段10が、仮説含意文T_Hにおいて、与えられた仮説Hが初めて明らかにされた事実(新事実)であるか否かを、その仮説含意文T_Hに記載された特定の表現をもとに判定する。そして、含意判定手段11が、その仮説含意文T_Hにおいて、与えられた仮説Hが新事実であると判定された場合に、判定対象文Tの発生日時とその仮説含意文T_Hの発生日時とを比較して、与えられた仮説Hを判定対象文Tが含意するか否かを判定する。
具体的には、判定対象文Tの発生日時が仮説含意文T_Hの発生日時よりも古い場合、含意判定手段11が、与えられた仮説Hを判定対象文T_Hが含意しないと判定する。このような構成により、含意判定の性能を向上させることができる。具体的には、再現率を低下させずに適合率を向上させることができる。
すなわち、仮説Hが含意判定文T_Hにおいて新事実であるかを新事実性判定手段10が事前に判定する。その仮説が新事実と判定された場合に、判定対象文Tの日付が含意判定文T_Hの日付よりも古ければ、仮説Hを判定対象文Tが含意しないと含意判定手段11が判定する。そのため、含意判定の性能を向上させることができる。
これは、仮説Hが含意判定文T_Hにおいて新事実ならば、含意判定文T_Hよりも古い判定対象文Tが仮説Hを含意することはないからである。よって、一般的な方式のように、基準値を一律に高く設定しなくても(すなわち、再現率を低下させずに)、仮説Hを含意しない判定対象文Tを正確に判定できる(すなわち、適合率を向上できる)。
例えば、非特許文献1に記載された一般的な方式では、含意度(すなわち、含意度記憶部24に記憶された含意度)のみを用いて判定処理を行う。この場合、図4(b)に例示する含意度記憶部24の内容を参照すると、仮説ID=1で特定される仮説と、文書ID=10、文ID=1で特定される判定対象文間の類似度は0.56である。ここで、基準値が0.5の場合、非特許文献1に記載された一般的な方式では、その判定対象文が仮説を含意すると判定される。しかし、この判定対象文は仮説を含意しないため誤りである。一方、本実施形態によれば、含意判定手段11は、新事実性判定手段10による判定結果を用いて判定を行うため、この判定対象文が仮説を含意しないと判定できる。
実施形態2.
図5は、本発明の第2の実施形態における含意判定装置の例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における含意判定装置は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを備えている。
データ処理装置1は、新事実性判定手段10と、含意判定手段11と、新規仮説判定手段12とを含む。このうち、新事実性判定手段10及び含意判定手段11の内容については、第1の実施形態と同様のため、説明を省略する。
新規仮説判定手段12は、いずれの判定対象文にも含意されない仮説を特定する。具体的には、新規仮説判定手段12は、含意判定手段11の判定結果をもとに、判定対象文書集合のうち、含意する判定対象文が一つも存在しない仮説を、いずれの判定対象文にも含意されない仮説と判定する。新規仮説判定手段12は、例えば、含意判定手段11が含意判定結果記憶部25に記憶させた仮説のうち、判定結果に「1」が存在しない仮説を、いずれの判定対象文にも含意されない仮説と特定してもよい。
記憶装置2は、判定対象文書記憶部20と、仮説記憶部21と、仮説含意文書記憶部22と、新事実性判定結果記憶部23と、含意度記憶部24と、含意判定結果記憶部25と、新規仮説記憶部26とを含む。このうち、判定対象文書記憶部20、仮説記憶部21、仮説含意文書記憶部22、新事実性判定結果記憶部23、含意度記憶部24、および、含意判定結果記憶部25の内容については、第1の実施形態と同様のため、説明を省略する。
新規仮説記憶部26は、新規仮説判定手段12でいずれの判定対象文にも含意されないと判定された仮説を記憶する。新規仮説記憶部26は、仮説の内容を記憶してもよく、仮説IDを記憶してもよい。新規仮説記憶部26は、例えば、磁気ディスク等により実現される。
新事実性判定手段10と、含意判定手段11と、新規仮説判定手段12とは、プログラム(含意判定プログラム)に従って動作するコンピュータのCPUによって実現される。また、新事実性判定手段10と、含意判定手段11と、新規仮説判定手段12とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施形態の含意判定装置の動作を説明する。図6は、第2の実施形態における含意判定装置の動作を示すフローチャートである。また、図7は、記憶装置2が記憶する情報の例を示す説明図である。なお、仮説が新事実か否かを新事実性判定手段10が判定し、含意判定手段11が、その仮説を判定対象文が含意するか否かを判定するまでの処理は、図2におけるステップS1〜ステップS2の処理と同様であるため、説明を省略する。
新規仮説判定手段12は、含意判定手段11の判定結果をもとに、含意する文が一つも存在しない仮説を判定対象文書集合に記載されていないと判定する(図6におけるステップS3)。
図7は、新規仮説記憶部26の内容の例を示す説明図である。図4(c)に例示する含意判定結果記憶部25には、仮説ID=1で特定される仮説が記憶されているが、判定結果=1のデータは存在しない。そのため、仮説ID=1で特定される仮説を含意する判定対象文は存在しない。したがって、新規仮説判定手段12は、いずれの判定対象文にも仮説ID=1で特定される仮説が含意されない仮説と判定し、図7に例示するように、新規仮説記憶部26に仮説ID=1を記憶させる。
以上のように、本実施形態によれば、第1の実施形態における効果に加え、仮説が判定対象文書集合に記載されているかを判別できる。その理由は、新規仮説判定手段12が、含意判定手段11の結果を参照して、含意する判定対象文が一つも存在しない仮説を判定対象文書集合に記載されていないと判定するためである。すなわち、新規仮説判定手段12が、含意判定手段11によって含意する判定対象文が存在すると判定されなかった仮説が存在する場合、その仮説をいずれの判定対象文にも含意されない仮説と判定するためである。
また、本実施形態における含意判定装置を用いることにより、Update Summarization Task(UST)における要約の候補文の選択が可能になる。USTとは、文書集合Aの記載内容を、それ以前に記述された文書集合Bの内容が既知であることを条件として要約するタスクである。文書集合Aに含まれるそれぞれの文を仮説とし、文書集合Bの文を判定対象文とすれば、本実施形態による含意判定装置が、文書集合Bに記載されていない文書集合Aに含まれる文を判定できる。このようにして判定された文を要約の候補文とすればよい。
実施形態3.
図8は、本発明の第3の実施形態における含意判定装置の例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における含意判定装置は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを備えている。
記憶装置2は、判定対象文書記憶部20と、仮説記憶部21と、仮説含意文書記憶部22と、新事実性判定結果記憶部23と、含意度記憶部24と、含意判定結果記憶部25を有する。記憶装置2の内容は、第1の実施形態と同様のため、説明を省略する。
データ処理装置1は、新事実性判定手段10と、含意判定手段11と、仮説含意文追加手段13とを含む。このうち、新事実性判定手段10及び含意判定手段11の内容については、第1の実施形態と同様のため、説明を省略する。
仮説含意文追加手段13は、含意判定手段11の判定結果をもとに、仮説を含意する判定対象文を仮説含意文として追加し、その内容を新事実性判定手段10に通知する。具体的には、含意判定手段11が与えられた仮説を判定対象文が含意すると判定した場合、仮説含意文追加手段13は、その判定対象文を仮説含意文として追加する。このとき、仮説含意文追加手段13は、仮説を含意すると判定した判定対象文の内容を仮説記憶部21および仮説含意文書記憶部22に記憶させてもよい。
新事実性判定手段10と、含意判定手段11と、仮説含意文追加手段13とは、プログラム(含意判定プログラム)に従って動作するコンピュータのCPUによって実現される。また、新事実性判定手段10と、含意判定手段11と、仮説含意文追加手段13とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施形態の含意判定装置の動作を説明する。図9は、第3の実施形態における含意判定装置の動作を示すフローチャートである。また、図10〜図13は、記憶装置2が記憶する情報の例を示す説明図である。なお、仮説が新事実か否かを新事実性判定手段10が判定し、含意判定手段11が、その仮説を判定対象文が含意するか否かを判定するまでの処理は、図2におけるステップS1〜ステップS2の処理と同様である。ただし、本動作の説明では、初期状態として図10に例示する内容が、仮説記憶部21(図10(a)参照。)、仮説含意文書記憶部22(図10(b)参照。)、判定対象文書記憶部20(図10(c)参照。)に記憶されているものとする。具体的には、仮説記憶部21が仮説ID=2で特定される仮説を記憶している点、および、判定対象文書記憶部20が文書ID=11、文ID=1で特定される文、および、文書ID=12、文ID=1で特定される文を記憶している点において、第1の実施形態と異なる。
ステップS2までの処理の結果、図11に例示する内容が、新事実性判定結果記憶部23(図11(a)参照。)、含意度記憶部24(図11(b)参照。)に記憶される。図11(a)に例示するように、仮説ID=2で特定される仮説は、文書ID=1、文ID=1で特定される仮説含意文において新事実ではない(判定結果=0)と判定されている。これは、文書ID=1、文ID=1で特定される仮説含意文が、第1の実施形態で示す手がかり(5)の条件に一致するためである。
また、含意度記憶部24には、仮説ID=2で特定される仮説と、判定対象文書記憶部20に格納された2つの判定対象文(文書ID=11、文ID=1で特定される文、および、文書ID=12、文ID=1で特定される文)との間の含意度が、第1の実施形態に記載された方法を用いて計算され、計算された含意度が事前に記憶されているものとする。図11(b)に示す例では、含意度はそれぞれ1.0と0.67である。ここで、基準値が0.5と定められている場合、いずれの含意度も基準値以上であるため、いずれの判定対象文も仮説を含意すると判定されることになる。判定された結果は、図11(c)に例示するように、共に仮説を含意する判定対象文として含意判定結果記憶部25に記憶される。
ステップS2の後、仮説含意文追加手段13は、含意判定手段11の判定結果をもとに、仮説を含意する判定対象文を仮説含意文として追加し、その内容を新事実性判定手段10に通知する(図9におけるステップS4)。このとき、仮説含意文追加手段13は、仮説記憶部21と仮説含意文書記憶部22に、判定対象文の内容を記憶させてもよい。
例えば、含意判定手段11が、仮説と判定対象文との間の含意度が0.7以上の判定対象文を仮説含意文と判定した場合、図11(b)より、仮説含意文追加手段13は、含意度が1.0である文書ID=11、文ID=1で特定される判定対象文を仮説含意文書記憶部22に記憶させる。また、仮説含意文追加手段13は、仮説記憶部21にも、仮説ID=2で特定される仮説を含意する文書ID=11、文ID=1の内容を記憶させる。この結果、仮説含意文書記憶部22の内容は、図10に例示する初期状態から、図12に例示する状態に変更される。
ステップS4において、仮説含意文が追加された場合(図9のステップS5におけるYES)、仮説が新事実か否かを判定するステップS1以降の処理を繰り返す。一方、仮説含意文が追加されていない場合(ステップS5におけるNO)、処理を終了する。
図12に例示する変更された仮説記憶部21と、仮説含意文書記憶部22とを用いて、再度、ステップS1及びステップS2を実行した結果を図13に示す。一回目との違いは、仮説ID=2で特定される仮説が、文書ID=11、文ID=1において新事実と判定されている点である。これは、文書ID=11、文ID=1で特定される仮説含意文が、第1の実施形態で示す手がかり(1)の条件に一致するためである。
以上のように、本実施形態によれば、第1の実施形態における効果に加え、含意文検索性能をさらに向上できる。その理由は、含意判定手段11が仮説を含意すると判定した判定対象文を仮説含意文追加手段13が仮説含意文として新事実性判定手段10に通知するためである。すなわち、含意判定手段11が与えられた仮説を判定対象文が含意すると判定した場合、仮説含意文追加手段13がその判定対象文を仮説含意文として追加するためである。
例えば、初期状態で、図10に例示する内容が記憶装置2に記憶されているとする。一回目の処理では、仮説ID=2で特定される仮説を、文書ID=12、文ID=1の判定対象文が含意すると判定される。しかし、これは本来誤りである。このような誤りが発生した場合であっても、一回目の処理の結果、文書ID=11、文ID=1で特定される判定対象文が仮説含意文になる。そのため、二回目の処理を実行することで、仮説ID=2で特定される仮説を、文書ID=12、文ID=1の判定対象文が含意しないと修正できる。
次に、本発明の最小構成を説明する。図14は、本発明による含意判定装置の最小構成の例を示すブロック図である。本発明による含意判定装置は、与えられた仮説(例えば、仮説H)を含意する文である仮説含意文(例えば、仮説含意文T_H)で、その仮説が初めて明らかにされた事実を示す新事実であるか否かを、その仮説含意文に記載された特定の表現(例えば、手がかり(1)〜(5)など)をもとに判定する新事実性判定手段81(例えば、新事実性判定手段10)と、与えられた仮説を、その仮説を含むか否かが判定される文である判定対象文(例えば、判定対象文T)が含意するか否かを判定する含意判定手段82(例えば、含意判定手段11)とを備えている。
含意判定手段82は、与えられた仮説が仮説含意文で新事実であると判定された場合に、判定対象文の発生日時(例えば、図3(c)における日時)とその仮説を含意する仮説含意文の発生日時(例えば、図3(b)における日時)とを比較して、与えられた仮説を判定対象文が含意するか否かを判定する。
そのような構成により、含意判定の性能を向上させることができる。
具体的には、含意判定手段82は、判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、その仮説を判定対象文が含意しないと判定してもよい。また、含意判定手段82は、判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、判定対象文がその仮説を含意する度合いを示す含意度にペナルティを付与し、予め定められた基準値とペナルティ付与後の含意度とを比較して、与えられた仮説を判定対象文が含意するか否かを判定してもよい。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)与えられた仮説を含意する文である仮説含意文で、当該仮説が初めて明らかにされた事実を示す新事実であるか否かを、当該仮説含意文に記載された特定の表現をもとに判定する新事実性判定手段と、与えられた仮説を、当該仮説を含むか否かが判定される文である判定対象文が含意するか否かを判定する含意判定手段とを備え、前記含意判定手段は、与えられた仮説が仮説含意文で新事実であると判定された場合に、前記判定対象文の発生日時と当該仮説を含意する仮説含意文の発生日時とを比較して、与えられた仮説を前記判定対象文が含意するか否かを判定することを特徴とする含意判定装置。
(付記2)含意判定手段は、判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、当該仮説を前記判定対象文が含意しないと判定する付記1記載の含意判定装置。
(付記3)含意判定手段は、判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、判定対象文が当該仮説を含意する度合いを示す含意度の値を低減させ若しくは予め定められた基準値の値を増加させ又は含意度の値を低減させるとともに前記基準値の値を増加させ、前記基準値と前記含意度とを比較して、与えられた仮説を前記判定対象文が含意するか否かを判定する付記1記載の含意判定装置。
(付記4)含意判定手段は、判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、含意度を一定の値または一定の割合低減させ、前記含意度が予め定められた基準値未満である場合、与えられた仮説を判定対象文が含意しないと判定する付記3記載の含意判定装置。
(付記5)含意判定手段は、判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、予め定められた基準値を一定の値または一定の割合増加させ、含意度が前記基準値未満である場合、与えられた仮説を判定対象文が含意しないと判定する付記3記載の含意判定装置。
(付記6)いずれの判定対象文にも含意されない仮説を特定する新規仮説判定手段を備えた付記1から付記5のうちのいずれか1つに記載の含意判定装置。
(付記7)与えられた仮説を判定対象文が含意すると判定された場合、当該判定対象文を仮説含意文として追加する仮説含意文追加手段を備えた付記1から付記6のうちのいずれか1つに記載の含意判定装置。
(付記8)与えられた仮説を含意する文である仮説含意文で、当該仮説が初めて明らかにされた事実を示す新事実であるか否かを、当該仮説含意文に記載された特定の表現をもとに判定し、与えられた仮説が前記仮説含意文で新事実であると判定された場合に、与えられた仮説を含むか否かが判定される文である判定対象文の発生日時と当該仮説を含意する仮説含意文の発生日時とを比較して、与えられた仮説を前記判定対象文が含意するか否かを判定することを特徴とする含意判定方法。
(付記9)判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、当該仮説を前記判定対象文が含意しないと判定する付記8記載の含意判定方法。
(付記10)判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、判定対象文が当該仮説を含意する度合いを示す含意度の値を低減させ若しくは予め定められた基準値の値を増加させ又は含意度の値を低減させるとともに前記基準値の値を増加させ、前記基準値と前記含意度とを比較して、与えられた仮説を前記判定対象文が含意するか否かを判定する付記8記載の含意判定方法。
(付記11)コンピュータに、与えられた仮説を含意する文である仮説含意文で、当該仮説が初めて明らかにされた事実を示す新事実であるか否かを、当該仮説含意文に記載された特定の表現をもとに判定する新事実性判定処理、および、与えられた仮説を、当該仮説を含むか否かが判定される文である判定対象文が含意するか否かを判定する含意判定処理を実行させ、前記含意判定処理で、与えられた仮説が仮説含意文で新事実であると判定された場合に、前記判定対象文の発生日時と当該仮説を含意する仮説含意文の発生日時とを比較させ、与えられた仮説を前記判定対象文が含意するか否かを判定させるための含意判定プログラム。
(付記12)コンピュータに、含意判定処理で、判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、当該仮説を前記判定対象文が含意しないと判定させる付記11記載の含意判定プログラム。
(付記13)コンピュータに、含意判定処理で、判定対象文の発生日時が与えられた仮説を含意する仮説含意文の発生日時よりも古い場合、判定対象文が当該仮説を含意する度合いを示す含意度の値を低減させ若しくは予め定められた基準値の値を増加させ又は含意度の値を低減させるとともに前記基準値の値を増加させ、前記基準値と前記含意度とを比較させて、与えられた仮説を前記判定対象文が含意するか否かを判定させる付記11記載の含意判定プログラム。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2010年10月21日に出願された日本特許出願2010−236548を基礎とする優先権を主張し、その開示の全てをここに取り込む。