JP5278327B2 - 文書分析方法、文書分析システム及び文書分析用プログラム - Google Patents

文書分析方法、文書分析システム及び文書分析用プログラム Download PDF

Info

Publication number
JP5278327B2
JP5278327B2 JP2009538074A JP2009538074A JP5278327B2 JP 5278327 B2 JP5278327 B2 JP 5278327B2 JP 2009538074 A JP2009538074 A JP 2009538074A JP 2009538074 A JP2009538074 A JP 2009538074A JP 5278327 B2 JP5278327 B2 JP 5278327B2
Authority
JP
Japan
Prior art keywords
document
proposition
proposition relevant
documents
citation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009538074A
Other languages
English (en)
Other versions
JPWO2009051068A1 (ja
Inventor
開 石川
享 赤峯
聡 中澤
俊夫 竹田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009538074A priority Critical patent/JP5278327B2/ja
Publication of JPWO2009051068A1 publication Critical patent/JPWO2009051068A1/ja
Application granted granted Critical
Publication of JP5278327B2 publication Critical patent/JP5278327B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書を分析する文書分析方法、文書分析システム及び文書分析用プログラムに関する。
利用者がある命題を検証する際に、当該命題に関して様々な発信者が意見を述べている文書情報を参考にすることができれば、命題に対してより深い理解と的確な真偽の判断とを得ることができる。
コンピュータネットワーク(例えば、インターネット)上の様々な発信者によって作成された文書情報は、簡単に大量の参考情報を収集できるという点できわめて有用である。しかし、一方でこれらの情報は、信頼性や品質といった点での保証が無いため、利用者は各情報を参照する際に、自らそれぞれの信頼性や品質を判断しながら情報を利用する必要がある。
このようにコンピュータネットワーク上の情報を利用する際に、情報の信頼性や品質を1つずつ判断しなければならないという利用者の負担を軽減するための方法が提案されている。例えば、非特許文献1には、利用者が入力するトピック語から関連文書を収集し、この収集した関連文書を命題に関する意見や根拠等の観点で分類して提示する方法が記載されている。
非特許文献1に記載された方法では、文書中の意見や根拠等の表現に対して、記述内容の同一性を自動判定する技術を用いる。そのようにすることで、同一の意見や根拠等を述べている文書毎のグループを生成することができる。また、同一の意見や根拠毎に文書をまとめて提示することで、利用者は、グループ単位で情報の閲覧を行うことが可能となり、グループ単位で情報の信頼性や品質の判断を行うことが可能となる。そのため、利用者の負担を軽減することができる。
H. Miyamori, et. al., "Evaluation Data and Prototype System WISDOM for Information Credibility Analysis", In Proc. of First International Symposium on Universal Communication(2007), pp.234-237.
しかしながら、非特許文献1に記載された関連方法では、文書中の意見や根拠等の表現に対して、記述内容の同一性を精度よく自動判別する方法が確立されていない。そのため、非特許文献1に記載された関連方法を用いたとしても、同一の意見や根拠等を述べている文書毎のグループの自動生成を十分な精度で実現することができない可能性がある。
例えば、文書中の表現から文書の記述内容の同一性を自動判別する方法の1つに、述語項構造の柔軟マッチングによる類義表現の判別方法がある。この類義表現の判別方法で記述内容の同一性を判定できるのは、判定対象とする表現の違いが類義表現レベルである場合に限られる。しかし、実際に対象とする表現の違いの判定を行う場合には、類義表現レベルの判定だけでなく、同一性の判断に前提知識や論理的な推論等のより高度な意味理解に基づく判定を要することが多い。
例えば、2つの根拠を示す表現として、「イソフラボンが脂肪燃焼を促進する効果のあるDHEAを増やす働きをするから」と、「イソフラボンやDHEAにダイエット効果がある。」との同一性を判断する場合を考える。この場合、これら2つの表現の同一性を判断するためには、「体内の脂肪燃焼の促進によってダイエット効果が生じる」や「体内の脂肪燃焼を促進する効果のある物質が体内で増えることによってダイエット効果が生じる」といった前提知識を用いた推論を行うことが必要となる。また、文書中において根拠の記述が不明瞭であったり根拠の記述自体が無かったりするような場合には、表現の同一性を判定できないという問題がある。
そこで、本発明は、文書中の意見や根拠等に関する表現を用いずに、命題に対する主張の立場とその主張に対する根拠が一致する文書グループを得ることができる文書分析方法、文書分析システム及び文書分析用プログラムを提供することを目的とする。
本発明による文書分析方法は、電子文書を含む各種情報を入力する入力手段と、該入力された各種情報に対して所定の情報処理を施す情報処理手段と、該情報処理の結果を出力する出力手段とを有する文書分析装置における文書分析方法であって、前記入力手段より前記電子文書として、所定の命題に関する主張を含む複数の命題関連文書を入力する工程と、前記情報処理手段において、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める工程と、前記情報処理手段において、前記命題関連文書各々について、該命題関連文書中で引用されている1又は2以上の引用元文書との引用関係を求める工程と、前記情報処理手段において、前記命題関連文書との間で引用関係を有する1又は2以上の引用元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書を前記命題関連文書と対応づける工程と、前記命題関連文書と該命題関連文書に対応づけられた引用元文書とをグループとして前記出力手段より出力する工程と、を備えることを特徴とする。
本発明による文書分析方法の他の態様は、電子文書を含む各種情報を入力する入力手段と、該入力された各種情報に対して所定の情報処理を施す情報処理手段と、該情報処理の結果を出力する出力手段とを有する文書分析装置における文書分析方法であって、前記入力手段より前記電子文書として、所定の命題に関する主張を含む複数の命題関連文書を入力する工程と、前記情報処理手段において、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める工程と、前記情報処理手段において、前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める工程と、前記情報処理手段において、前記命題関連文書との間で参照関係を有する1又は2以上の参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する参照元文書を前記命題関連文書と対応づける工程と、前記命題関連文書と該命題関連文書に対応づけられた参照元文書とをグループとして前記出力手段より出力する工程と、を備えることを特徴とする。
本発明による文書分析方法のさらに他の態様は、電子文書を含む各種情報を入力する入力手段と、該入力された各種情報に対して所定の情報処理を施す情報処理手段と、該情報処理の結果を出力する出力手段とを有する文書分析装置における文書分析方法であって、前記入力手段より前記電子文書として、所定の命題に関する主張を含む複数の命題関連文書を入力する工程と、前記情報処理手段において、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める工程と、前記情報処理手段において、前記命題関連文書各々について、該命題関連文書中で引用されている1又は2以上の引用元文書との引用関係を求める工程と、前記情報処理手段において、前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める工程と、前記情報処理手段において、前記命題関連文書との間で引用関係と参照関係の少なくとも1つを有する1又は2以上の引用元文書と参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書と参照元文書とを前記命題関連文書と対応づける工程と、前記命題関連文書と該命題関連文書に対応づけられた引用元文書及び参照元文書とをグループとして前記出力手段より出力する工程と、を備えることを特徴とする。
本発明による文書分析システムは、所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段と、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段と、前記命題関連文書各々について、該命題関連文書で引用されている1又は2以上の引用元文書との引用関係を求める手段と、前記命題関連文書との間で引用関係を有する1又は2以上の引用元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書を前記命題関連文書と対応づける手段と、前記命題関連文書と該命題関連文書に対応づけられた引用元文書とをグループとして出力する出力手段と、を備えることを特徴とする。
本発明による文書分析システムの他の態様は、所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段と、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段と、前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める手段と、前記命題関連文書との間で参照関係を有する1又は2以上の参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する参照元文書を前記命題関連文書と対応づける手段と、前記命題関連文書と該命題関連文書に対応づけられた参照元文書とをグループとして出力する出力手段と、を備えることを特徴とする。
本発明による文書分析システムのさらに他の態様は、所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段と、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段と、前記命題関連文書各々について、該命題関連文書で引用されている1又は2以上の引用元文書との引用関係を求める手段と、前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める手段と、前記命題関連文書との間で引用関係と参照関係の少なくとも1つを有する1又は2以上の引用元文書と参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書と参照元文書とを前記命題関連文書と対応づける手段と、前記命題関連文書と該命題関連文書に対応づけられた引用元文書及び参照元文書とをグループとして出力する出力手段と、を備えることを特徴とする。
本発明による文書分析用プログラムは、コンピュータ所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段、前記命題関連文書各々について、該命題関連文書で引用されている1又は2以上の引用元文書との引用関係を求める手段、前記命題関連文書との間で引用関係を有する1又は2以上の引用元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書を前記命題関連文書と対応づける手段、前記命題関連文書と該命題関連文書に対応づけられた引用元文書とをグループとして出力する出力手段、
として機能させるためのものである。
本発明による文書分析用プログラムの他の態様は、コンピュータ所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段、前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める手段、前記命題関連文書との間で参照関係を有する1又は2以上の参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する参照元文書を前記命題関連文書と対応づける手段、前記命題関連文書と該命題関連文書に対応づけられた参照元文書とをグループとして出力する出力手段、として機能させるためのものである。
本発明による文書分析用プログラムのさらに他の態様は、コンピュータ所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段、前記命題関連文書各々について、該命題関連文書で引用されている1又は2以上の引用元文書との引用関係を求める手段、前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める手段、前記命題関連文書との間で引用関係と参照関係の少なくとも1つを有する1又は2以上の引用元文書と参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書と参照元文書とを前記命題関連文書と対応づける手段、前記命題関連文書と該命題関連文書に対応づけられた引用元文書及び参照元文書とをグループとして出力する出力手段、として機能させるためのものである。
本発明によれば、文書中の意見や根拠等に関する表現を用いずに、命題に対する主張の立場とその主張に対する根拠が一致する文書グループを得ることができる。
本発明による文書分析システムの構成(モジュール構成)の一例を示すブロック図である。 文書分析システムが実行する処理の流れを示すフローチャートである。 命題文の例を示す説明図である。 命題関連文書メタ情報の例を示す説明図である。 命題関連文書テキストの例を示す説明図である。 命題関連文書メタ情報の例を示す説明図である。 発信情報グループの生成方法の例を示す説明図である。 命題関連文書に対して得られる発信情報グループの例を示す説明図である。 文書分析システムの最小の構成例を示すブロック図である。
符号の説明
100 入力装置
200 出力装置
300 コンピュータ
301 命題関連文書登録手段
302 命題関連文書グループ生成手段
303 命題関連文書グループ出力手段
400 記録媒体
401 命題関連文書メタ情報記憶手段
402 文書テキスト記憶手段
以下、本発明の実施形態について図面を参照して説明する。本発明による文書分析システムは、ある命題に関する主張を含む電子文書の集合を、命題に対して肯定するか否定するか、又は命題に対して中立であるかの主張の立場と、その主張の立場に対する根拠とが同じである電子文書を1つのグループにまとめる処理を行う。本発明において、文書分析システムは、利用者がある命題(例えば「納豆にはダイエット効果がある」のように、真偽を論じることができるような事柄)を検証する際に、当該命題に関して様々な発信者が意見を述べている文書情報(電子文書)を、意見の内容や根拠といった観点で分類し提示することにより、利用者の命題検討を支援することを特徴とする。なお、本実施形態において、「命題」とは、真偽を問いうる事柄のことである。
本発明による文書分析方法を用いた文書分析システムは、文書中の意見や根拠等に関する表現を用いずに、命題に対する主張の根拠に該当する引用情報や参照情報に着目して、根拠の同一性の判定を行う。すなわち、文書分析システムは、2つの文書間の意見の記述に対する引用情報や参照情報が一致する場合、両者の根拠が同一であると判定する。この場合、引用情報や参照情報としては、文書中の意見の記述時に参照した情報や、意見とその意見に対する根拠の記述の中で引用されている情報を対象とする。
以下、引用情報や参照情報を文書(引用元文書や参照元文書)として説明する場合もある。なお、引用情報や参照情報は、その実体としては、文書中の命題に関連する意見を形成する情報であれば、テキストに限らず、音声や映像等のメディア情報であってもよいものとする。
例えば、文書中に「3月3日のNKK7時のニュースによると」といった引用の記述がある場合、その記述中の「NKK7時のニュース」が引用情報に該当する。また、文章分析システムは、引用情報や参照情報が一致すると判断する際に、引用情報や参照情報が複数ある場合には、各引用情報や各参照情報が個別に一致するか否かを判断するだけでなく、それら引用情報や参照情報の組み合わせ同士が一致するか否かも判断する。さらに、文章分析システムは、引用情報や参照情報の中から再帰的に引用又は参照されている情報も、他の引用情報や参照情報と同様に、一致するか否かの判断の対象として考慮する。
次に、文書分析システムの構成について説明する。図1は、本発明による文書分析システムの構成(モジュール構成)の一例を示すブロック図である。図1に示すように、文書分析システムは、入力装置100と、出力装置200と、プログラム制御により動作するコンピュータ(中央処理装置(CPU);プロセッサ;データ処理装置)300と、記憶媒体400とを含む。
入力装置100は、例えば、キーボードやマウス等の入力デバイスによって実現され、利用者の操作に従って各種情報を入力するものである。また、入力装置100は、例えば、パーソナルコンピュータ等の情報処理装置のネットワークインタフェース部によって実現され、インターネット等の通信ネットワークを介して各種情報を入力するものであってもよい。また、入力装置100は、例えば、情報処理装置の入出力部によって実現され、情報処理装置が備えるデータベース装置から各種情報を抽出するものであってもよい。
出力装置200は、コンピュータ300の指示に従って、各種情報を出力する機能を備える。例えば、出力装置200は、ディスプレイ装置等の表示装置によって実現され、コンピュータ300の指示に従って、各種情報を表示する。また、例えば、出力装置200は、プリンタ等の印刷装置によって実現され、コンピュータ300の指示に従って、各種情報を印刷する。また、出力装置200は、例えば、情報処理装置のネットワークインタフェース部によって実現され、インターネット等の通信ネットワークを介して各種情報をファイル出力するものであってもよい。また、出力装置200は、例えば、情報処理装置の入出力部によって実現され、情報処理装置が備えるデータベース装置に各種情報をファイル出力するものであってもよい。
コンピュータ(中央処理装置;プロセッサ;データ処理装置)300は、命題関連文書登録手段301と、命題関連文書グループ生成手段302と、命題関連文書グループ出力手段303とを含む。これらの手段は、それぞれ概略以下のように動作する。
命題関連文書登録手段301は、具体的には、プログラムに従ってコンピュータ300が処理を実行することによって実現される手段である。命題関連文書登録手段301は、入力装置100を介して、命題関連文書メタ情報及び命題関連文書テキストを入力する機能を備える。なお、「命題関連文書テキスト」とは、ある命題に関連する内容を含む電子文書のテキストデータである。また、「命題関連文書メタ情報」とは、命題関連文書テキストに付加されたメタ情報(「命題関連文書テキスト」の各種属性を示す情報)である。
例えば、命題関連文書登録手段301は、命題関連文書テキストとして、入力装置100を介して、ある命題に対する意見を含む等の命題に直接関連する電子文書(以下、命題直接関連文書という)の文書テキストを入力する。また、例えば、命題関連文書登録手段301は、命題関連文書テキストとして、入力装置100を介して、引用元文書の文書テキストや参照元文書の文書テキストを入力する。なお、「引用元文書」とは、命題関連文書テキスト(命題直接関連文書や参照元文書、他の引用元文書)内において引用されている文書である。また、「参照元文書」とは、命題関連文書テキスト(命題直接関連文書や引用元文書、他の参照元文書)を作成する際に参照された文書である。
また、命題関連文書登録手段301は、入力した命題関連文書メタ情報を記録媒体400(具体的には、後述する命題関連文書メタ情報記憶手段401)に登録する機能を備える。また、命題関連文書登録手段301は、入力した命題関連文書テキストを記録媒体400(具体的には、後述する命題関連文書テキスト記憶手段402)に登録する機能を備える。なお、命題関連文書登録手段301は、例えば、入力した命題関連文書テキストを特定可能な文書IDを生成し、生成した文書IDに対応付けて命題関連文書メタ情報を記録媒体400に記憶させる。また、命題関連文書登録手段301は、生成した文書IDに対応付けて命題関連文書テキストを記録媒体400に記憶させる。
命題関連文書グループ生成手段302は、具体的には、プログラムに従ってコンピュータ300が処理を実行することによって実現される手段である。命題関連文書グループ生成手段302は、電子文書中で引用されている引用元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する機能を備える。また、命題関連文書グループ生成手段302は、電子文書の作成時に参照された参照元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する機能を備える。また、命題関連文書グループ生成手段302は、電子文書中で引用されている引用元文書、及び電子文書の作成時に参照された参照元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する機能を備える。さらに、命題関連文書グループ生成手段302は、命題に対する主張の根拠が同じであると判断した電子文書を、命題に関連する命題関連文書として含むグループを生成する機能を備える。
具体的には、命題関連文書グループ生成手段302は、命題関連文書メタ情報記憶手段401にそれぞれ記憶されている命題関連文書メタ情報に基づいて、類似する命題関連文書メタ情報をもつ発信情報(命題関連文書テキスト)をグループにまとめることにより、発信情報グループを生成する。また、命題関連文書グループ生成手段302は、生成した発信情報グループを、命題関連文書グループ出力手段303に出力する。
例えば、命題関連文書グループ生成手段302は、命題関連文書メタ情報記憶手段401に記憶されている命題関連文書メタ情報(すなわち、命題関連文書登録手段301が入力した命題関連文書メタ情報)に基づいて、電子文書中で引用されている引用元文書が共通であるか否かを判断する。そして、命題関連文書グループ生成手段302は、引用元文書が共通であると判断すると、命題に対する主張の根拠が同じであると判断する。
また、例えば、命題関連文書グループ生成手段302は、命題関連文書メタ情報記憶手段401に記憶されている命題関連文書メタ情報(すなわち、命題関連文書登録手段301が入力した命題関連文書メタ情報)に基づいて、電子文書の作成時に参照された参照元文書が共通であるか否かを判断する。そして、命題関連文書グループ生成手段302は、参照元文書が共通であると判断すると、命題に対する主張の根拠が同じであると判断する。
また、例えば、命題関連文書グループ生成手段302は、命題関連文書メタ情報記憶手段401に記憶されている命題関連文書メタ情報(すなわち、命題関連文書登録手段301が入力した命題関連文書メタ情報)に基づいて、電子文書中で引用されている引用元文書が共通であるか否かを判断する。また、命題関連文書グループ生成手段302は、命題関連文書メタ情報記憶手段401に記憶されている命題関連文書メタ情報に基づいて、電子文書の作成時に参照された参照元文書が共通であるか否かを判断する。そして、命題関連文書グループ生成手段302は、引用元文書が共通であると判断するとともに参照元文書が共通であると判断すると、命題に対する主張の根拠が同じであると判断する。
なお、命題関連文書グループ生成手段302は、例えば、引用元文書又は参照元文書をさらに引用する引用元文書、及び引用元文書又は参照元文書の作成時にさらに参照された参照元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断するようにしてもよい。
命題関連文書グループ出力手段303は、具体的には、プログラムに従ってコンピュータ300が処理を実行することによって実現される手段である。命題関連文書グループ出力手段303は、命題関連文書グループ生成手段302が生成し出力する命題関連文書グループ(発信情報グループ)を出力装置200に出力させる機能を備える。また、命題関連文書グループ出力手段303は、その発信情報グループを構成する命題関連文書テキストを特定可能な文書IDの一覧を生成し、出力装置200に出力させる機能を備える。
さらに、命題関連文書グループ出力手段303は、入力装置100を介してある文書IDの命題関連文書テキストの表示要求を入力した場合に、その入力した文書IDに対応する命題関連文書テキストを命題関連文書テキスト記憶手段402から取得(抽出)する機能を備える。また、命題関連文書グループ出力手段303は、抽出した命題関連文書テキストを出力装置200に出力させる機能を備える。
なお、本実施形態の機能に加えて、文書分析システムは、発信情報グループの生成において使用する命題関連文書メタ情報の組を利用者が指定できるように構成してもよい。また、文書分析システムは、発信情報グループを生成する際の元とする命題関連文書テキストを、利用者が命題関連文書メタ情報に関する条件によって絞り込めるように構成してもよい。さらに、文書分析システムは、発信情報のグループ化を行う際に、命題関連文書メタ情報の引用参照文書に関するオントロジーを用いるように構成してもよい。
例えば、文書分析システムは、利用者の操作に従って、入力装置100から、命題関連文書メタ情報の組の指定情報や、命題関連文書メタ情報に関する条件の指定情報、引用参照文献に関するオントロジーの指定情報を入力する手段を備えるようにしてもよい。そして、命題関連文書グループ生成手段302は、入力したこれらの情報と、命題関連文書メタ情報記憶手段401に記憶されている命題関連文書メタ情報とに基づいて、発信グループを生成するようにしてもよい。
また、例えば、文書分析システムは、利用者の指定操作に従って、特定の引用元文書又は参照元文書を指定する手段を備え、利用者によって指定された引用元文書又は参照元文書の指定情報を入力可能に構成されていてもよい。この場合、命題関連文書グループ出力手段303は、命題関連文書グループ生成手段302が生成した複数の発信情報グループのうち、利用者によって指定された引用元文書又は参照元文書に基づいて命題に対する主張が同じであると判断した命題関連文書を含むグループを、出力情報から削除するようにしてもよい。また、命題関連文書グループ出力手段303は、特定の引用元文書又は参照元文書を指定すると、命題に関する主張を含む電子文書の集合に基づいて、指定した引用元文書又は参照元文書を根拠として命題に対する主張が同じであると判断した命題関連文書を含むグループのみを出力するようにしてもよい。
記録媒体400は、具体的には、磁気ディスク装置や光ディスク装置等の記憶デバイスによって実現される。記憶媒体400は、命題関連文書メタ情報記憶手段401と、文書テキスト記憶手段402とを含む。これらの手段は、それぞれ概略以下のような情報を記憶する。
命題関連文書メタ情報記憶手段401は、命題関連文書登録手段301によって登録される命題関連文書メタ情報を記憶する。なお、命題関連文書メタ情報記憶手段401は、命題関連文書テキストを特定可能な文書IDに対応付けて、各命題関連文書メタ情報を記憶する。
文書テキスト記憶手段402は、命題関連文書登録手段301によって登録される命題関連文書テキストを記憶する。なお、文書テキスト記憶手段402は、命題関連文書テキストとして、命題直接関連文書や、引用元文書、参照元文書の文書テキストを記憶する。また、文書テキスト記憶手段402は、命題関連文書テキストを特定可能な文書IDに対応付けて、各命題関連文書テキストを記憶する。
なお、本実施形態において、文書分析システムが備える記憶装置(例えば、パーソナルコンピュータ等の情報処理装置が備えるハードディスク装置やメモリ)は、命題関連文書や引用元文書、参照元文書等の各電子文書を分析するための各種プログラムを記憶している。例えば、文書分析システムが備える記憶装置は、コンピュータに、電子文書中で引用されている電子文書である引用元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する処理を実行させるための文書分析用プログラムを記憶している。また、例えば、文書分析システムが備える記憶装置は、コンピュータに、電子文書の作成時に参照された電子文書である参照元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する処理を実行させるための文書分析用プログラムを記憶している。また、例えば、文書分析システムが備える記憶装置は、コンピュータに、電子文書中で引用されている電子文書である引用元文書と、電子文書の作成時に参照された電子文書である参照元文書の少なくとも1つが共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する処理を実行させるための文書分析用プログラムを記憶している。
次に、動作について説明する。図2は、文書分析システムが実行する処理の流れを示すフローチャートである。まず、命題関連文書登録手段301は、命題関連文書メタ情報及び命題関連文書テキストを、入力装置100を介して入力する。例えば、命題関連文書登録手段301は、利用者の入力操作に従って、命題関連文書メタ情報及び命題関連文書テキストを、入力装置100を介して入力する。すると、命題関連文書登録手段301は、入力した命題関連文書メタ情報を命題関連文書メタ情報記憶手段401に登録する。また、命題関連文書登録手段301は、入力した命題関連文書テキストを命題関連文書テキスト記憶手段402に登録する(図2に示すステップS1)。
なお、ステップS1において、命題関連文書登録手段301は、命題関連文書メタ情報を特定可能な文書IDを生成し、生成した文書IDに対応付けて命題関連文書メタ情報を命題関連文書メタ情報記憶手段401に記憶させる。また、命題関連文書登録手段301は、生成した文書IDに対応付けて命題関連文書テキストを文書テキスト記憶手段402に記憶させる。
また、命題関連文書登録手段301は、入力装置100から命題関連文書メタ情報が入力される毎に、ステップS1の処理を繰り返し実行し、命題関連文書メタ情報記憶手段401に命題関連文書メタ情報を蓄積させる。また、命題関連文書登録手段301は、入力装置100から命題関連文書テキストが入力される毎に、ステップS1の処理を繰り返し実行し、文書テキスト記憶手段402に命題関連文書テキストを蓄積させる。
次に、命題関連文書グループ生成手段302は、命題関連文書メタ情報記憶手段401にそれぞれ記憶されている命題関連文書メタ情報に基づいて、類似する命題関連文書メタ情報をもつ発信情報(命題関連文書テキスト)をグループにまとめることにより、発信情報グループを生成する(ステップS2)。例えば、命題関連文書グループ生成手段302は、利用者の指示操作に従って、発信情報グループ生成指示を入力装置100から入力すると、発信情報グループを生成する。また、例えば、命題関連文書グループ生成手段302は、予め定められた期間毎に、命題関連文書メタ情報記憶手段401に蓄積されている命題関連文書メタ情報を抽出し、発信情報グループを生成するようにしてもよい。
そして、命題関連文書グループ生成手段302は、生成した発信情報グループを、命題関連文書グループ出力手段303に出力する。
次に、命題関連文書グループ出力手段303は、命題関連文書グループ生成手段302が生成し出力する命題関連文書グループ(発信情報グループ)を出力装置200に出力させる(ステップS3)。また、命題関連文書グループ出力手段303は、その発信情報グループを構成する命題関連文書テキストを特定可能な文書IDの一覧を生成し、出力装置200に出力させる。
なお、命題関連文書グループ出力手段303は、入力装置100を介してある文書IDの命題関連文書テキストの表示要求を入力した場合、その入力した文書IDに対応する命題関連文書テキストを命題関連文書テキスト記憶手段402から取得(抽出)する。そして、命題関連文書グループ出力手段303は、抽出した命題関連文書テキストを出力装置200に出力させる。
以上のように、本実施形態によれば、命題に対する主張の立場とその主張に対する根拠が一致する文書グループを得ることができる。すなわち、本実施形態によれば、文書分析方法を用いた文書分析システムは、文書中の意見や根拠等に関する表現を用いずに、主張の根拠に該当する引用情報や参照情報に着目して、根拠の同一性の判定を行う。そして、文書分析システムは、命題に対する主張の根拠の同一性の判定結果に基づいて、命題関連文書をグループ化する。
本実施形態によれば、上記のようなグループ化の処理を行うことによって、文書中の意見や根拠等の表現に対して、記述内容の同一性を精度よく自動判別する方法が確立されていないことにより、文書グループの自動生成を十分な精度で行えないという困難を軽減することができる。また、文書中において根拠の記述が不明瞭であったり根拠の記述自体がなかったりするような場合に、同一性を判定できなくなるという問題を防止することができる。従って、文書中の意見や根拠等に関する表現を用いずに、命題に対する主張の立場とその主張に対する根拠が一致する文書グループを得ることができる。
例えば、非特許文献1に記載された記述内容の同一性の判別方法を用いた場合には、電子文書中の表現の違いが類義表現レベルである場合でなければ、同一性判定を行うことができず、文書のグループ化を行うことができない。そのため、前提知識を用いた推論を行わなければ同一性を判定できない場合や、文書中の記述が不明瞭である場合には、文書のグループ化を行えない。これに対して、本実施形態によれば、文書分析システムは、文書中の意見や根拠等に関する表現を用いずに、主張の根拠に該当する引用情報や参照情報に着目して根拠の同一性の判定を行うので、前提知識を用いた推論を行って同一性判定を行うことを可能とするとともに、文書中の記述が不明瞭であるである場合であっても同一性判定を行って、文書のグループ化を可能とすることができる。
次に、本発明の具体的な実施例を図面を参照して説明する。本実施例では、例えば、図3に示すように、利用者が「納豆にはダイエット効果がある」という命題を対象とする命題関連文書テキストを収集して分析する場合を考える。以下、文書分析システムが「納豆にはダイエット効果がある」という命題に対して命題関連文書テキストを収集し分析する動作を説明する。
まず、利用者は、文書分析システム(具体的には、パーソナルコンピュータ等の情報処理装置)を用いて、この命題に関連する文書集合(例えば、命題直接関連文書の集合)や、それらの文書が引用している引用元文書、それらの文書作成中に参照された参照元文書を予め収集する操作を行う。文書分析システムは、利用者の操作に従って、入力装置100を介して、命題直接関連文書や引用元文書、参照元文書等の命題関連文書を入力する。
次いで、文書分析システムは、利用者の操作に従って、収集した各命題関連文書のそれぞれについて、予め命題関連文書メタ情報及び命題関連文書テキストを作成する。例えば、文書分析システムは、収集した命題関連文書の1つ(例えば、文書ID=12である文書)に対して、命題関連文書メタ情報(図4参照)を予め作成する。また、例えば、文書分析システムは、収集した命題関連文書の1つ(例えば、文書ID=12である文書)に対して、命題関連文書テキスト(図5参照)を予め作成する。
図4は、命題関連文書(本例では、文書ID=12である文書)に対する命題関連文書メタ情報の例を示す説明図である。
図4に示すように、命題関連文書メタ情報は、命題に対する立場(命題関連文書の内容が、命題に対して肯定的に評価するものであるか否定的に評価するものであるかの立場)に相当する「肯定/否定の度数」を含む。また、命題関連文書メタ情報は、引用元文書を特定可能な文書ID、及び参照元文書を特定可能な文書IDを含む。
また、命題関連文書メタ情報に含まれる「肯定/否定の度数」は、正の値であれば、命題関連文書における主張が命題に対して肯定的であることを示す。また、「肯定/否定の度数」は、負の値であれば、命題関連文書における主張が命題に対して否定的であることを示す。さらに、「肯定/否定の度数」は、その絶対値が大きい程、肯定又は否定それぞれの度合いが大きいことを表現し、逆にその絶対値が小さい程、肯定又は否定の度合いが小さく中立的であることを表現する特性を持つメタ情報である。
図4に示す例では、「肯定/否定の度数」が正の値であるので、収集した命題関連文書が命題に対して肯定的な内容を含むものであることが分かる。また、「肯定/否定の度数」の絶対値が2であるので、その肯定の度合いがある程度大きい(「肯定/否定の度数」の値が「+1」の場合よりは大きい)ことが分かる。
また、命題関連文書メタ情報に含まれる「引用元文書の文書ID」は、収集した命題関連文書中で引用されている電子文書(引用元文書)を特定可能な文書IDを表す。図4に示す例では、収集した命題関連文書中で文書IDが6である電子文書が引用されていることが分かる。
また、命題関連文書メタ情報に含まれる「参照元文書の文書ID」は、収集した命題関連文書を作成する際に参照された電子文書(参照元文書)を特定可能な文書IDを表す。図4に示す例では、「参照元文書の文書ID」がNULLであるので、収集した命題関連文書を作成する際に参照された電子文書がないことが分かる。
なお、文書分析システムは、図4に示す命題関連文書メタ情報を、例えば、利用者の入力操作に従って生成する。また、例えば、文書分析システムは、利用者の操作に従って、利用者が文書作成を行う際の文書の引用参照履歴を収集し、収集した引用参照履歴に基づいて命題関連文書メタ情報を作成する。
図5は、命題関連文書(本例では、文書ID=12である文書)に対する命題関連文書テキストの例を示す説明図である。図5に示す例では、命題関連文書テキストは、その記述中に、引用元文書の名称「ほげほげバラエティー」が存在している。なお、図5に示す命題関連文書中に含まれる引用元文書は、図4に示す命題関連文書メタ情報に含まれる「引用元文書の文書ID」(本例では、文書ID=6である文書)と対応している。
なお、文書分析システムは、図5に示す命題関連文書テキストを、例えば、収集した命題関連文書中のテキストを抽出するとともに、抽出したテキストに命題関連文書を特定可能な文書IDを付加することによって生成する。
以上の処理に従って、文書分析システムは、収集した命題関連文書に基づいて命題関連文書メタ情報及び命題関連文書テキストを生成する。なお、文書分析システムとは別のシステムを用いて命題関連文書メタ情報及び命題関連文書テキストを生成し、生成した命題関連文書メタ情報及び命題関連文書テキストを文書分析システムに入力するようにしてもよい。
次いで、文書分析システムの命題関連文書登録手段301は、上記の処理に従って収集し作成した命題関連文書メタ情報及び命題関連文書テキストを、利用者の操作に従って、入力装置100を介して入力する。すると、命題関連文書登録手段301は、入力した命題関連文書メタ情報を、記録媒体400の命題関連文書メタ情報記憶手段401に登録する。また、命題関連文書登録手段301は、入力した命題関連文書テキスト(命題直接関連文書や、引用元文書、参照元文書の文書テキスト)を、記録媒体400の文書テキスト記憶手段402に登録する(図2に示すステップS1)。
なお、命題関連文書登録手段301は、入力装置100から命題関連文書メタ情報が入力される毎に、ステップS1の処理を繰り返し実行し、命題関連文書メタ情報記憶手段401に命題関連文書メタ情報を蓄積させる。また、命題関連文書登録手段301は、入力装置100から命題関連文書テキストが入力される毎に、ステップS1の処理を繰り返し実行し、文書テキスト記憶手段402に命題関連文書テキストを蓄積させる。
次に、文書分析システムの命題関連文書グループ生成手段302は、命題関連文書メタ情報記憶手段401にそれぞれ記憶されている命題関連文書メタ情報に基づいて、類似する命題関連文書メタ情報をもつ発信情報をグループにまとめることにより、発信情報グループを生成する(図2に示すステップS2)。例えば、命題関連文書グループ生成手段302は、利用者の指示操作に従って、発信情報グループ生成指示を入力装置100から入力すると、発信情報グループを生成する。また、例えば、命題関連文書グループ生成手段302は、予め定められた期間毎に、命題関連文書メタ情報記憶手段401に蓄積されている命題関連文書メタ情報を抽出し、発信情報グループを生成するようにしてもよい。
図6は、命題関連文書メタ情報記憶手段401に蓄積される命題関連文書メタ情報の例を示す説明図である。本実施例では、命題関連文書メタ情報記憶手段401が、図6に示す発信情報メタ情報(命題関連文書メタ情報)を蓄積しているものとする。本実施例では、命題関連文書グループ生成手段302は、「引用元文書ID」又は「参照元文書ID」を共有し、かつ「肯定/否定の度数」の値が同じである命題関連文書を同じグループにグルーピングすることによって、発信情報グループを生成する。
図7は、命題関連文書グループ生成手段302が実行する発信情報グループの生成方法の例を示す説明図である。図7において、数字付きのノード(図7で数字入りの箱で示したもの)は、各番号を文書IDとしてもつ命題関連文書メタ情報を表す。また、図7において、数字付きのノード間を結ぶ太い実線の矢印は、「肯定/否定の度数」の値が一致する文書間で引用又は参照の関係があることを表す。また、図7において、数字付きのノード間を結ぶ破線の矢印は、「肯定/否定の度数」の値が異なる文書間で引用又は参照の関係があることを表す。また、図7において、数字付きの1つ又は複数のノードを囲む点線の四角701、702、703、704は、命題関連文書グループ生成手段302によって生成された発信情報グループを表す。
例えば、図6に示す命題関連文書メタ情報の例では、文書IDが1である命題関連文書は、文書IDが3、6、15である命題関連文書の引用元文書や参照元文書であり、「肯定/否定の度数」の値が一致するので、図7に示すように、数字1のノードを、それぞれ数字3、6、15のノードと太い実線で結ぶ。なお、具体的には、命題関連文書グループ生成手段302は、例えば、数字3、6、15のノードに、数字1のノードに対するリンク情報を付加することにより、ノード間の対応付けの処理を行う。
また、例えば、文書IDが4である命題関連文書は、文書IDが5、8、12、13である命題関連文書の引用元文書や参照元文書であり、「肯定/否定の度数」の値が一致するので、図7に示すように、数字4のノードを、それぞれ数字5、8、12、13のノードと太い実線で結ぶ。なお、具体的には、命題関連文書グループ生成手段302は、例えば、数字5、8、12、13のノードに、数字4のノードに対するリンク情報を付加することにより、ノード間の対応付けの処理を行う。
また、例えば、文書IDが9である命題関連文書は、文書IDが10、11、14である命題関連文書の引用元文書や参照元文書であり、「肯定/否定の度数」の値が一致するので、図7に示すように、数字9のノードを、それぞれ数字10、11、14のノードと太い実線で結ぶ。なお、具体的には、命題関連文書グループ生成手段302は、例えば、数字10、11、14のノードに、数字9のノードに対するリンク情報を付加することにより、ノード間の対応付けの処理を行う。
また、例えば、文書IDが1である命題関連文書は、文書IDが2、4である命題関連文書の引用元文書や参照元文書であり、「肯定/否定の度数」の値が一致しないので、図7に示すように、数字1のノードを、それぞれ数字2、4のノードと破線で結ぶ。なお、具体的には、命題関連文書グループ生成手段302は、例えば、数字2、4のノードに、数字1のノードに対するリンク情報を付加することにより、ノード間の対応付けの処理を行う。
また、例えば、文書IDが4である命題関連文書は、文書IDが7、9である命題関連文書の引用元文書や参照元文書であり、「肯定/否定の度数」の値が一致しないので、図7に示すように、数字4のノードを、それぞれ数字7、9のノードと破線で結ぶ。なお、具体的には、命題関連文書グループ生成手段302は、例えば、数字7、9のノードに、数字4のノードに対するリンク情報を付加することにより、ノード間の対応付けの処理を行う。
そして、命題関連文書グループ生成手段302は、引用又は参照関係にあるとともに、「肯定/否定の度数」の値が合致することを条件に、図7に示すように、数字1、3、16、15を1つの発信情報グループ701とする。また、命題関連文書グループ生成手段302は、引用又は参照関係にあるとともに、「肯定/否定の度数」の値が合致することを条件に、図7に示すように、数字4、5、8、12、13を1つの発信情報グループ703とする。また、命題関連文書グループ生成手段302は、引用又は参照関係にあるとともに、「肯定/否定の度数」の値が合致することを条件に、図7に示すように、数字7、9、10、11、14を1つの発信情報グループ704とする。また、命題関連文書グループ生成手段302は、いずれのノードとも条件が合致しない数字2のノードについては、単独で発信グループ702とする。
図8は、命題関連文書(本例では、文書ID=1〜32である文書)に対して得られる発信情報グループの例を示す説明図である。命題関連文書グループ生成手段302は、図7に示す生成方法に従って、図8に示すように、発信情報グループ1〜4を得る(生成する)。そして、命題関連文書グループ生成手段302は、生成した発信情報グループを、命題関連文書グループ出力手段303に出力する。
次に、命題関連文書グループ出力手段303は、命題関連文書グループ生成手段302が生成し出力する命題関連文書グループ(発信情報グループ)を出力装置200に出力させる(図2に示すステップS3)。また、命題関連文書グループ出力手段303は、その発信情報グループを構成する命題関連文書テキストを特定可能な文書IDの一覧を生成し、出力装置200に出力させる。
なお、命題関連文書グループ出力手段303は、入力装置100を介してある文書IDの命題関連文書テキストの表示要求を入力した場合、その入力した文書IDに対応する命題関連文書テキストを、記録媒体400の命題関連文書テキスト記憶手段402から取得(抽出)する。そして、命題関連文書グループ出力手段303は、抽出した命題関連文書テキストを出力装置200に出力させる。
次に、本発明による文書分析システムの最小構成について説明する。図9は、文書分析システムの最小の構成例を示すブロック図である。図9に示すように、文書分析システムは、最小の構成要素として、命題関連文書グループ生成手段302を含む。
図9に示す最小構成の文書分析システムは、ある命題に関する主張を含む電子文書の集合を、命題に対して肯定するか否定するか、又は命題に対して中立であるかの主張の立場と、主張の立場に対する根拠とが同じである電子文書を1つのグループにまとめる処理を行う。
また、図9に示す最小構成の文書分析システムにおいて、命題関連文書グループ生成手段302は、電子文書中で引用されている引用元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する機能を備える。また、命題関連文書グループ生成手段302は、電子文書の作成時に参照された参照元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する機能を備える。また、命題関連文書グループ生成手段302は、電子文書中で引用されている引用元文書、及び電子文書の作成時に参照された参照元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する機能を備える。
なお、上記の実施形態及び実施例では、以下の(1)〜(10)に示すような文書分析システムの特徴的構成が示されている。
(1)文書分析システムは、ある命題に関する主張を含む電子文書の集合を命題に対して肯定するか否定するか、又は命題に対して中立であるかの主張の立場と、主張の立場に対する根拠とが同じである電子文書を1つのグループにまとめる文書分析システムであって、電子文書中で引用されている電子文書である引用元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する主張根拠判断手段(例えば、命題関連文書グループ生成手段302によって実現される)を備えたことを特徴とする。そのような構成によれば、引用元情報に着目して命題に対する主張の根拠の同一性を判断し、その判断結果に基づいて命題に関する主張を含む電子文書の集合をグループ化することができる。従って、文書中の意見や根拠等に関する表現を用いずに、命題に対する主張の立場とその主張に対する根拠が一致する文書グループを得ることができる。
(2)文書分析システムは、命題に関する主張を含む電子文書の属性を示す文書属性情報(例えば、命題関連文書メタ情報)を入力する文書属性入力手段(例えば、命題関連文書登録手段301によって実現される)を備え、主張根拠判断手段は、文書属性入力手段が入力した文書属性情報に基づいて、電子文書中で引用されている引用元文書が共通であるか否かを判断し、引用元文書が共通であると判断すると、命題に対する主張の根拠が同じであると判断するように構成されていてもよい。そのような構成によれば、電子文書の属性を示す文書属性情報に基づいて、容易に電子文書中で引用されている引用元文書が共通であるか否かを判断することができ、命題に対する主張の根拠が同じであるか否かの判断を容易に行うことができる。
(3)文書分析システムは、ある命題に関する主張を含む電子文書の集合を、命題に対して肯定するか否定するか、又は命題に対して中立であるかの主張の立場と、主張の立場に対する根拠とが同じである電子文書を1つのグループにまとめる文書分析システムであって、電子文書の作成時に参照された電子文書である参照元文書が共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する主張根拠判断手段(例えば、命題関連文書グループ生成手段302によって実現される)を備えたことを特徴とする。そのような構成によれば、参照元情報に着目して命題に対する主張の根拠の同一性を判断し、その判断結果に基づいて命題に関する主張を含む電子文書の集合をグループ化することができる。従って、文書中の意見や根拠等に関する表現を用いずに、命題に対する主張の立場とその主張に対する根拠が一致する文書グループを得ることができる。
(4)文書分析システムは、命題に関する主張を含む電子文書の属性を示す文書属性情報(例えば、命題関連文書メタ情報)を入力する文書属性入力手段(例えば、命題関連文書登録手段301によって実現される)を備え、主張根拠判断手段は、文書属性入力手段が入力した文書属性情報に基づいて、電子文書の作成時に参照された参照元文書が共通であるか否かを判断し、参照元文書が共通であると判断すると、命題に対する主張の根拠が同じであると判断するように構成されていてもよい。そのような構成によれば、電子文書の属性を示す文書属性情報に基づいて、容易に電子文書中で引用されている参照元文書が共通であるか否かを判断することができ、命題に対する主張の根拠が同じであるか否かの判断を容易に行うことができる。
(5)文書分析システムは、ある命題に関する主張を含む電子文書の集合を、命題に対して肯定するか否定するか、又は命題に対して中立であるかの主張の立場と、主張の立場に対する根拠とが同じである電子文書を1つのグループにまとめる文書分析システムであって、電子文書中で引用されている電子文書である引用元文書と、電子文書の作成時に参照された電子文書である参照元文書の少なくとも1つが共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断する主張根拠判断手段(例えば、命題関連文書グループ生成手段302によって実現される)を備えたことを特徴とする。そのような構成によれば、引用元情報及び参照元情報に着目して命題に対する主張の根拠の同一性を判断し、その判断結果に基づいて命題に関する主張を含む電子文書の集合をグループ化することができる。従って、文書中の意見や根拠等に関する表現を用いずに、命題に対する主張の立場とその主張に対する根拠が一致する文書グループを得ることができる。
(6)文書分析システムは、命題に関する主張を含む電子文書の属性を示す文書属性情報(例えば、命題関連文書メタ情報)を入力する文書属性入力手段(例えば、命題関連文書登録手段301によって実現される)を備え、主張根拠判断手段は、文書属性入力手段が入力した文書属性情報に基づいて、電子文書中で引用されている引用元文書が共通であるか否かを判断し、文書属性入力手段が入力した文書属性情報に基づいて、電子文書の作成時に参照された参照元文書が共通であるか否かを判断し、引用元文書と、参照元文書の少なくとも1つが共通であると判断すると、命題に対する主張の根拠が同じであると判断するように構成されていてもよい。そのような構成によれば、電子文書の属性を示す文書属性情報に基づいて、容易に電子文書中で引用されている引用元文書が共通であるか否かを判断することができ、容易に電子文書の作成時に参照された参照元文書が共通であるか否かを判断することができる。よって、命題に対する主張の根拠が同じであるか否かの判断を容易に行うことができる。
(7)文書分析システムにおいて、主張根拠判断手段は、引用元文書又は参照元文書をさらに引用する引用元文書と、引用元文書又は参照元文書の作成時にさらに参照された参照元文書の少なくとも1つが共通であるか否かに基づいて、命題に対する主張の根拠が同じであるか否かを判断するように構成されていてもよい。そのような構成によれば、さらに再帰的に引用又は参照されている文書に基づいて、命題に関する主張を含む電子文書の集合のグループ化をより精度よく行うことができる。
(8)文書分析システムにおいて、主張根拠判断手段は、命題に対する主張の根拠が同じであると判断した電子文書を、命題に関連する命題関連文書として含むグループ(例えば、発信情報グループ)を生成するように構成されていてもよい。
(9)文書分析システムは、利用者が特定の引用元文書又は参照元文書を指定すると、命題に関する主張を含む電子文書の集合から主張根拠判断手段が生成した複数のグループのうち、指定された引用元文書又は参照元文書を根拠として命題に対する主張が同じであると判断した命題関連文書を含むグループを出力から除外する出力手段(例えば、命題関連文書グループ出力手段303によって実現される)を備えるように構成されていてもよい。そのような構成によれば、予め指定された引用元文書又は参照元文書の指定情報に従って、不要な命題関連文書を含むグループを出力する手間を省くことができる。
(10)文書分析システムにおいて、出力手段は、利用者が特定の引用元文書又は参照元文書を指定すると、命題に関する主張を含む電子文書の集合から生成した複数のグループのうち、指定された引用元文書又は参照元文書を根拠として命題に対する主張が同じであると判断した命題関連文書を含むグループのみを出力するように構成されていてもよい。そのような構成によれば、予め指定された引用元文書又は参照元文書の指定情報に従って、必要な命題関連文書を含むグループのみを出力することができ、処理の効率化を図ることができる。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態及び実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2007年10月19日に出願された日本出願特願2007−272365号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、ある命題に対する意見や根拠の内容を含む電子文書に基づく文書分析を伴う様々な用途の分析システムに適用することができる。例えば、本発明は、電子文書に含まれる情報の信頼性を判断する情報信頼性判断支援システムや、電子文書に含まれる意見を分析する意見分析システム、電子文書に対する評判を分析する評判分析システムといった用途に適用できる。

Claims (18)

  1. 電子文書を含む各種情報を入力する入力手段と、該入力された各種情報に対して所定の情報処理を施す情報処理手段と、該情報処理の結果を出力する出力手段とを有する文書分析装置における文書分析方法であって、
    前記入力手段より前記電子文書として、所定の命題に関する主張を含む複数の命題関連文書を入力する工程と、
    前記情報処理手段において、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める工程と、
    前記情報処理手段において、前記命題関連文書各々について、該命題関連文書中で引用されている1又は2以上の引用元文書との引用関係を求める工程と、
    前記情報処理手段において、前記命題関連文書との間で引用関係を有する1又は2以上の引用元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書を前記命題関連文書と対応づける工程と、
    前記命題関連文書と該命題関連文書に対応づけられた引用元文書とをグループとして前記出力手段より出力する工程と、
    を備えることを特徴とする文書分析方法。
  2. 前記引用元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項1記載の文書分析方法。
  3. 電子文書を含む各種情報を入力する入力手段と、該入力された各種情報に対して所定の情報処理を施す情報処理手段と、該情報処理の結果を出力する出力手段とを有する文書分析装置における文書分析方法であって、
    前記入力手段より前記電子文書として、所定の命題に関する主張を含む複数の命題関連文書を入力する工程と、
    前記情報処理手段において、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める工程と、
    前記情報処理手段において、前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める工程と、
    前記情報処理手段において、前記命題関連文書との間で参照関係を有する1又は2以上の参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する参照元文書を前記命題関連文書と対応づける工程と、
    前記命題関連文書と該命題関連文書に対応づけられた参照元文書とをグループとして前記出力手段より出力する工程と、
    を備えることを特徴とする文書分析方法。
  4. 前記参照元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項3記載の文書分析方法。
  5. 電子文書を含む各種情報を入力する入力手段と、該入力された各種情報に対して所定の情報処理を施す情報処理手段と、該情報処理の結果を出力する出力手段とを有する文書分析装置における文書分析方法であって、
    前記入力手段より前記電子文書として、所定の命題に関する主張を含む複数の命題関連文書を入力する工程と、
    前記情報処理手段において、前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める工程と、
    前記情報処理手段において、前記命題関連文書各々について、該命題関連文書中で引用されている1又は2以上の引用元文書との引用関係を求める工程と、
    前記情報処理手段において、前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める工程と、
    前記情報処理手段において、前記命題関連文書との間で引用関係と参照関係の少なくとも1つを有する1又は2以上の引用元文書と参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書と参照元文書とを前記命題関連文書と対応づける工程と、
    前記命題関連文書と該命題関連文書に対応づけられた引用元文書及び参照元文書とをグループとして前記出力手段より出力する工程と、
    を備えることを特徴とする文書分析方法。
  6. 前記引用元文書を前記命題関連文書とした上で、再帰的に動作し、更に、前記参照元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項5記載の文書分析方法。
  7. 所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段と、
    前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段と、
    前記命題関連文書各々について、該命題関連文書で引用されている1又は2以上の引用元文書との引用関係を求める手段と、
    前記命題関連文書との間で引用関係を有する1又は2以上の引用元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書を前記命題関連文書と対応づける手段と、
    前記命題関連文書と該命題関連文書に対応づけられた引用元文書とをグループとして出力する出力手段と、
    を備えることを特徴とする文書分析システム。
  8. 前記引用元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項7記載の文書分析システム。
  9. 所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段と、
    前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段と、
    前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める手段と、
    前記命題関連文書との間で参照関係を有する1又は2以上の参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する参照元文書を前記命題関連文書と対応づける手段と、
    前記命題関連文書と該命題関連文書に対応づけられた参照元文書とをグループとして出力する出力手段と、
    を備えることを特徴とする文書分析システム。
  10. 前記参照元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項9記載の文書分析システム。
  11. 所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段と、
    前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段と、
    前記命題関連文書各々について、該命題関連文書で引用されている1又は2以上の引用元文書との引用関係を求める手段と、
    前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める手段と、
    前記命題関連文書との間で引用関係と参照関係の少なくとも1つを有する1又は2以上の引用元文書と参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書と参照元文書とを前記命題関連文書と対応づける手段と、
    前記命題関連文書と該命題関連文書に対応づけられた引用元文書及び参照元文書とをグループとして出力する出力手段と、
    を備えることを特徴とする文書分析システム。
  12. 前記引用元文書を前記命題関連文書とした上で、再帰的に動作し、更に、前記参照元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項11記載の文書分析システム。
  13. コンピュータ
    所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段、
    前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段、
    前記命題関連文書各々について、該命題関連文書で引用されている1又は2以上の引用元文書との引用関係を求める手段、
    前記命題関連文書との間で引用関係を有する1又は2以上の引用元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書を前記命題関連文書と対応づける手段、
    前記命題関連文書と該命題関連文書に対応づけられた引用元文書とをグループとして出力する出力手段、
    として機能させることを特徴とする文書分析用プログラム。
  14. 前記引用元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項13記載の文書分析用プログラム。
  15. コンピュータ
    所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段、
    前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段、
    前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める手段、
    前記命題関連文書との間で参照関係を有する1又は2以上の参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する参照元文書を前記命題関連文書と対応づける手段、
    前記命題関連文書と該命題関連文書に対応づけられた参照元文書とをグループとして出力する出力手段、
    として機能させることを特徴とする文書分析用プログラム。
  16. 前記参照元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項15記載の文書分析用プログラム。
  17. コンピュータ
    所定の命題に関する主張を含む複数の命題関連文書を入力する入力手段、
    前記命題関連文書各々について、該命題関連文書における命題に対して肯定、否定、又は中立であるかの主張の立場に対応させた度数を求める手段、
    前記命題関連文書各々について、該命題関連文書で引用されている1又は2以上の引用元文書との引用関係を求める手段、
    前記命題関連文書各々について、該命題関連文書の作成時に参照された1又は2以上の参照元文書との参照関係を求める手段、
    前記命題関連文書との間で引用関係と参照関係の少なくとも1つを有する1又は2以上の引用元文書と参照元文書のうち、前記命題関連文書と前記度数が示す肯定、否定、又は中立において一致する引用元文書と参照元文書とを前記命題関連文書と対応づける手段、
    前記命題関連文書と該命題関連文書に対応づけられた引用元文書及び参照元文書とをグループとして出力する出力手段、
    として機能させることを特徴とする文書分析用プログラム。
  18. 前記引用元文書を前記命題関連文書とした上で、再帰的に動作し、更に、前記参照元文書を前記命題関連文書とした上で、再帰的に動作し、前記グループを拡張することを特徴とする請求項17記載の文書分析用プログラム。
JP2009538074A 2007-10-19 2008-10-10 文書分析方法、文書分析システム及び文書分析用プログラム Active JP5278327B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009538074A JP5278327B2 (ja) 2007-10-19 2008-10-10 文書分析方法、文書分析システム及び文書分析用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007272365 2007-10-19
JP2007272365 2007-10-19
PCT/JP2008/068425 WO2009051068A1 (ja) 2007-10-19 2008-10-10 文書分析方法、文書分析システム及び文書分析用プログラム
JP2009538074A JP5278327B2 (ja) 2007-10-19 2008-10-10 文書分析方法、文書分析システム及び文書分析用プログラム

Publications (2)

Publication Number Publication Date
JPWO2009051068A1 JPWO2009051068A1 (ja) 2011-03-03
JP5278327B2 true JP5278327B2 (ja) 2013-09-04

Family

ID=40567335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009538074A Active JP5278327B2 (ja) 2007-10-19 2008-10-10 文書分析方法、文書分析システム及び文書分析用プログラム

Country Status (3)

Country Link
US (1) US20100218076A1 (ja)
JP (1) JP5278327B2 (ja)
WO (1) WO2009051068A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103562907B (zh) * 2011-05-10 2016-12-07 日本电气株式会社 用于评估同义表达的设备、方法和程序

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000357170A (ja) * 1999-06-15 2000-12-26 Fujitsu Ltd 文書の参照理由を用いて情報検索を行う装置
JP2002215645A (ja) * 2001-01-23 2002-08-02 Fuji Xerox Co Ltd 文書処理装置
JP2006146586A (ja) * 2004-11-19 2006-06-08 Pioneer Electronic Corp 検索データベース作成装置、情報検索装置および情報検索システム
JP2006155556A (ja) * 2004-10-27 2006-06-15 Hitachi Software Eng Co Ltd テキストマイニング方法及びテキストマイニングサーバ
JP2007328714A (ja) * 2006-06-09 2007-12-20 Hitachi Ltd 文書検索装置及び文書検索プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
KR20030024822A (ko) * 2001-05-31 2003-03-26 소니 가부시끼 가이샤 정보 처리 장치, 정보 처리 방법 및 프로그램
US20050203924A1 (en) * 2004-03-13 2005-09-15 Rosenberg Gerald B. System and methods for analytic research and literate reporting of authoritative document collections
US20060248094A1 (en) * 2005-04-28 2006-11-02 Microsoft Corporation Analysis and comparison of portfolios by citation
CA2687769A1 (en) * 2006-05-23 2007-12-06 David P. Gold System and method for organizing, processing and presenting information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000357170A (ja) * 1999-06-15 2000-12-26 Fujitsu Ltd 文書の参照理由を用いて情報検索を行う装置
JP2002215645A (ja) * 2001-01-23 2002-08-02 Fuji Xerox Co Ltd 文書処理装置
JP2006155556A (ja) * 2004-10-27 2006-06-15 Hitachi Software Eng Co Ltd テキストマイニング方法及びテキストマイニングサーバ
JP2006146586A (ja) * 2004-11-19 2006-06-08 Pioneer Electronic Corp 検索データベース作成装置、情報検索装置および情報検索システム
JP2007328714A (ja) * 2006-06-09 2007-12-20 Hitachi Ltd 文書検索装置及び文書検索プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200600726006; 霜田雄一 他: 'Blogを用いた世論調査に関する研究' 情報処理学会研究報告 Vol.2006,No.59, 20060531, p.61-68, 社団法人情報処理学会 *
CSNG200600839005; 奥村学: 'blogマイニング -インターネット上のトレンド、意見分析を目指して-' 人工知能学会誌 第21巻,第4号, 20060701, p.424-429, (社)人工知能学会 *
CSNH200700022004; 川村隆浩 他: 'ネットとリアルを結び付けるオントロジー技術"ユビdeコミミハサンダー"' 東芝レビュー 第61巻,第10号, 20061001, p.62-65, 株式会社東芝 *
JPN6013019513; 霜田雄一 他: 'Blogを用いた世論調査に関する研究' 情報処理学会研究報告 Vol.2006,No.59, 20060531, p.61-68, 社団法人情報処理学会 *
JPN6013019515; 奥村学: 'blogマイニング -インターネット上のトレンド、意見分析を目指して-' 人工知能学会誌 第21巻,第4号, 20060701, p.424-429, (社)人工知能学会 *
JPN6013019516; 川村隆浩 他: 'ネットとリアルを結び付けるオントロジー技術"ユビdeコミミハサンダー"' 東芝レビュー 第61巻,第10号, 20061001, p.62-65, 株式会社東芝 *

Also Published As

Publication number Publication date
US20100218076A1 (en) 2010-08-26
JPWO2009051068A1 (ja) 2011-03-03
WO2009051068A1 (ja) 2009-04-23

Similar Documents

Publication Publication Date Title
US11651279B2 (en) LAT based answer generation using anchor entities and proximity
US10585901B2 (en) Tailoring question answer results to personality traits
US11188819B2 (en) Entity model establishment
Morales-Ramirez et al. Exploiting user feedback in tool-supported multi-criteria requirements prioritization
JP6605022B2 (ja) 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス
Dumitrache et al. Empirical methodology for crowdsourcing ground truth
Borsje et al. Semi-automatic financial events discovery based on lexico-semantic patterns
Ali et al. Fake news detection techniques on social media: A survey
US20170206270A1 (en) Cognitive System Comparison and Recommendation Engine
WO2018182501A1 (en) Method and system of intelligent semtiment and emotion sensing with adaptive learning
Najadat et al. Detecting Arabic spam reviews in social networks based on classification algorithms
Reyero Lobo et al. Semantic Web technologies and bias in artificial intelligence: A systematic literature review
Phan et al. A sentiment analysis method of objects by integrating sentiments from tweets
Cui et al. {PoliGraph}: Automated privacy policy analysis using knowledge graphs
Anwar et al. Social relationship analysis using state-of-the-art embeddings
US10565503B2 (en) Dynamic threshold filtering for watched questions
Ceolin et al. Efficient semi-automated assessment of annotations trustworthiness
JP5278327B2 (ja) 文書分析方法、文書分析システム及び文書分析用プログラム
Assaggaf et al. Development of Graph-Based Knowledge on Ransomware Attacks Using Twitter Data
Raghavan et al. Extracting Problem and Resolution Information from Online Discussion Forums.
Bank AIM-A Social Media Monitoring System for Quality Engineering
Manasa et al. Detection of twitter spam using GLoVe vocabulary features, bidirectional LSTM and convolution neural network
Amato et al. A hybrid approach for document analysis in digital forensic domain
Parmentier et al. Learning reddit user reputation using graphical attention networks
Al-Abri et al. Aggregation and mapping of social media attribute names extracted from chat conversation for personalized e-learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130506

R150 Certificate of patent or registration of utility model

Ref document number: 5278327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150