JP6250833B2

JP6250833B2 - 文書検索システム、ディベートシステム、文書検索プログラム

Info

Publication number: JP6250833B2
Application number: JP2016556058A
Authority: JP
Inventors: 利昇三好; 利彦柳瀬; 孝介柳井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2014-10-27
Filing date: 2014-10-27
Publication date: 2017-12-20
Anticipated expiration: 2034-10-27
Also published as: WO2016067334A1; JPWO2016067334A1

Description

本発明は、文書から情報を検索する技術に関する。

文書から情報を検索する技術として、探したい情報に関連するキーワードをユーザが入力し、そのキーワードを含む情報を複数の文書の中から抽出し、文書の重要度などに基づいて検索結果をランキングして表示する方法がある。また、ユーザがキーワードを入力することを補助し、文書の抽出対象を拡張する技術として、ユーザが入力したキーワードに類似するキーワードも考慮して文書検索を実施する、連想検索技術がある。

下記特許文献１は、『ディスカッションスレッド内で、ユーザの関心に合致する重要度の高い発言を含むメッセージを、自動的に検索できるようにすること』を目的とした技術として、『各メッセージの内容に、予め登録された賛成、反対、批判、同意等を表現する語句が含まれている度合いを数値化する。賛同的、同意的な語句を含むメッセージによる返答を受けているメッセージに正のポイントを付与し、批判、反対を表す語句を含むメッセージによる返答を受けているメッセージには負のポイントを付与する。ユーザの関心に沿う語句を含むメッセージにも正のポイントを付与する。これらポイントの総合により、各メッセージの総合重要度を計算し、総合重要度の高いメッセージがユーザの関心に合致するものと判断する。』というものを開示している（要約参照）。

特開２００８−１７６７２１号公報

ある議題に関してディベートなどの議論をしようとするとき、その議題についていずれかの立場に立って議論を進める際に参考となる記事を記載した文書を、あらかじめ取得したい場合がある。上記特許文献１は、ディスカッションスレッドが既に進行している場面において、個々のメッセージの重要度を判定する際には有用であると考えられる。しかし当該ディスカッションに関連する参考資料を発見する技術については、同文献は開示していない。

本発明は、上記のような課題に鑑みてなされたものであり、ある議題についていずれかの立場に立って議論するに際して有用な参考情報を文書から検索することができる技術を提供することを目的とする。

本発明に係る文書検索システムは、価値とその価値を促進または抑制する事象との間の対応関係を記述した価値促進抑制テーブルを備え、記事が記載している前記価値に対する肯定的語句または否定的語句と、前記価値促進抑制テーブルが記述している前記対応関係とに基づき、前記記事と前記対応関係との間の整合性を判定する。

本発明に係る文書検索システムによれば、価値促進抑制テーブルが記述している対応関係に整合する記事を抽出することができる。これにより、議題に関連する価値との間の相関が強い記事を効率的に抽出することができる。

実施形態１に係る文書検索装置１００の機能ブロック図である。価値促進抑制テーブル１５１の構成とデータ例を示す図である。文書検索装置１００の動作を示すフローチャートである。単位化部１３２の処理を説明する図である。記事集計部１３３がある記事について計算した結果を例示する図である。価値促進抑制テーブル１５１をグラフ化した例を示す図である。情報マッピング部１３４によるマッピング結果を例示する図である。情報マッピング部１３４によるマッピング結果を例示する図である。ステップＳ３０７の処理例を説明する図である。実施形態２に係るディベートシステム１０００の構成図である。

＜実施の形態１：全体構成＞
図１は、本発明の実施形態１に係る文書検索装置１００の機能ブロック図である。文書検索装置１００は、与えられた議題に対して肯定または否定の立場に立って人を説得するために用いる材料（情報）を記事から検索する装置である。文書検索装置１００は、入力装置１１０、出力装置１２０、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１３０、メモリ１４０、記憶装置１５０を備える。

入力装置１１０は、マウス、キーボード、タッチパネルなどのヒューマンインターフェースであり、ユーザから文書検索装置１００に対する入力を受け付ける。出力装置１２０は、文書検索装置１００による演算結果を出力するディスプレイやプリンタである。メモリ１４０は、ＣＰＵ１３０が一時的に使用するデータを格納する。

ＣＰＵ１３０は、メモリ１４０にロードされたプログラムを実行する演算装置である。以下では記載の便宜上、各プログラムを動作主体として説明する場合があるが、実際にこれらプログラムを実行するのはＣＰＵ１３０である。

記憶装置１５０は、データを格納する記憶装置であり、例えば、不揮発性記憶媒体（磁気ディスクドライブ、不揮発性メモリなど）によって構成される。記憶装置１５０は、価値促進抑制テーブル１５１、類義語辞書１５２、上位下位関係辞書１５３を格納する。これらデータについては後述する。

ＣＰＵ１３０は、検索部１３１、単位化部１３２、記事集計部１３３、情報マッピング部１３４、情報分類部１３５、スコア計算部１３６、出力部１３７を実行する。これら機能部は、図１に示すようにＣＰＵ１３０が実行するソフトウェアとして構成することもできるし、同様の機能を実装した回路デバイスなどのハードウェアとして構成することもできる。以下の説明においては、図１に示すようにソフトウェアとしてこれら機能部を実装したものとする。これら機能部の詳細については後述する。

＜実施の形態１：価値促進抑制テーブル１５１＞
文書検索装置１００は、例えばディベートにおいて与えられた議題に関して、参加者が肯定または否定の立場に立って論述する際に、自身の立場を補強するため用いることができる材料（情報）を複数の記事から検索する。議題の例としては、（ａ）「施策Ａを導入するべき」「日本企業は新卒採用を通年にするべき」「日本は消費税を上げるべき」など、ある制度、政策、施策を導入または実施するか否かを対象とした政策議題、（ｂ）「ＡはＢよりも優れている」などのように比較目的の価値議題、などがある。ディベートの場合には、議論の対象を明らかにするために、議題を詳しく説明した議題説明文が与えられる場合もある。

参加者は、議題に対して肯定または否定の立場に立って論述する。その際に参加者は、議論となっている対象によって生じるメリット、デメリットを議論する。例えば、「施策Ａを導入するべき」という議題の肯定側に立って議論する場合には、施策Ａを導入するメリットや施策Ａを導入しないデメリットが、施策Ａを導入するデメリットや施策Ａを導入しないメリットよりも、重要であることを主張することになる。

ある対象のメリットやデメリットとは、その対象によって何らかの価値を生じる、または失うということを意味する。ここでいう価値とは、例えば健康、安全、幸福などのことである。すなわち参加者は、施策Ａを導入することによって、安全という価値が生じる（増加する）というメリット、または失われる（減少する）というデメリットを主張することになる。ディベートにおいては、施策Ａを導入することによる価値と、施策Ａを導入しないことによる価値とを比較することにより、肯定側／否定側のどちらが有利な議論を展開したかを判断する。

このように、ある議題に関して肯定または否定の立場に立って議論するためには、その議題に関連する事象が生みだす価値やその事象によって失われる価値について、比較検討する必要がある。

ある施策や制度を導入した結果として価値が導かれる過程については、具体的な施策や制度が異なったとしても、類似の議論がなされることがある。たとえば、「ＸＸを誘致すれば、雇用が促進され、地域の税収が増える」という議論の流れは、ＸＸが工場であっても、カジノであっても、同様であると考えられる。すなわち、ＸＸが雇用を促進し、雇用促進の結果として地域の税収が増える、という議論の流れは共通している。

本発明は、上記のような価値とその価値を促進または抑制する事象との間の対応関係に着目し、これを価値促進抑制テーブル１５１としてあらかじめ記述することとした。文書検索装置１００は、価値促進抑制テーブル１５１を用いることにより、議題に関連する価値について上記のような議論を記述している記事を検索する。

図２は、価値促進抑制テーブル１５１の構成とデータ例を示す図である。価値促進抑制テーブル１５１は、被促進者１５１１、被抑制者１５１２、極性１５１３、価値１５１４、促進者１５１５、抑制者１５１６を記述している。

価値１５１４は、あるコンテキストにおいて、その良し悪しが議論の前提となり得る事象（ここでは「価値」と呼ぶ）を表す語句（価値語句）を記述している。価値自身の善し悪しは問題としない。例えば、「ＸはＹを促進する（生じさせる）から、Ｘはやめるべき」という議論においては、Ｙは悪いものであるという前提で議論がされている。このときのＹに相当するものが価値１５１４である。

極性１５１３は、価値１５１４が良い（Ｐｏｓｉｔｉｖｅ）価値であるか、悪い（Ｎｅｇａｔｉｖｅ）価値であるかを記述している。例えば、一般的に健康、安全、幸福、平和などは良い価値であり、病気、事故、犯罪などは悪い価値である。良い価値１５１４に対しては極性１５１３としてＰが付与され、悪い価値１５１４に対してＮが付与される。

ここで例えば、「Ｘを導入すると銃が出回ることになるからＸはやめるべき」という議論を想定する。銃は負価値として記述され得る。ただし、このような議論が成り立つかどうかは、時代背景や地域によって異なる可能性がある。つまり、銃が負価値をもつかどうかは、コンテキストに依存する可能性がある。このように、コンテキストや例外によって極性１５１３が変わる場合は、極性１５１３が成立する条件（時間、場所など）に関する情報をテーブル内の適当なフィールドに別途保存しておいてもよい。

促進者１５１５は、価値１５１４を促進する事象を表す語句（促進語句）を記述している。抑制者１５１６は、価値１５１４を抑制する事象を表す語句（抑制語句）を記述している。促進者１５１５と抑制者１５１６についても、コンテキストや例外が存在する場合は、成立条件を併せて記述してもよい。

被促進者１５１１と被抑制者１５１２は、価値１５１４によって促進または抑制される事象を表す語句を記述している。被促進者１５１１と被抑制者１５１２は、促進者１５１５と抑制者１５１６の内容と整合するように自動的に作成することもできる。例えば、図２の３行目は価値”ｈｅａｌｔｈ”の抑制者として”ｄｉｓｅａｓｅ”を記載し、これに対応して４行目は価値”ｄｉｓｅａｓｅ”の被抑制者として”ｈｅａｌｔｈ”を記載している。

被促進者１５１１と被抑制者１５１２は、文書検索装置１００の処理上においては必ずしも必要ではない。ただし上記のように促進者１５１５／抑制者１５１６と被促進者１５１１／被抑制者１５１２を整合させて記載しておくことにより、マニュアルメンテナンス時（レコード追加、削除、編集など）においてこれらの双方からレコードを参照できるため、メンテナンスがしやすくなる。

記載の簡易のため図２においては省略しているが、価値促進抑制テーブル１５１は、価値１５１４のインパクトを表すスコアを記述している。例えば、ｌｉｆｅ（生命）はｈｅａｌｔｈ（健康）よりもスコアが高い、などが考えられる。価値促進抑制テーブル１５１はさらに、価値１５１４と促進者１５１５との間の結びつきの強さ、および価値１５１４と抑制者１５１６との間の結びつきの強さを表すスコアを記述している。例えば、ｄｉｓｅａｓｅがｈｅａｌｔｈを抑制する結び付きは、ｓｔｒｅｓｓがｈｅａｌｔｈを抑制する結び付きよりも強いため、ｄｉｓｅａｓｅとｈｅａｌｔｈとの間の結びつきのほうがスコアが高い、などが考えられる。これらスコアは必ずしもなくてもよいが、その場合には後述する処理において、これらスコアを用いる処理を省略する。

＜実施の形態１：類義語辞書１５２、上位下位関係辞書１５３＞
類義語辞書１５２は、単語またはフレーズ同士の同義関係や類義関係を格納する辞書である。例えば、「食物」と「食品」は類義関係にある。上位下位関係辞書１５３は、単語またはフレーズ同士の概念的な上位下位関係を記述したものである。例えば、「犬」は「動物」の下位概念であり、「動物」は「犬」の上位概念である。

価値促進抑制テーブル１５１、類義語辞書１５２、上位下位関係辞書１５３は、人手で作成してもよいし、機械学習などの手法を用いて作成してもよい。また、対象分野ごとに別々のものを作成しておいてもよい。

＜実施の形態１：装置動作＞
図３は、文書検索装置１００の動作を示すフローチャートである。文書検索装置１００は図３のフローチャートにしたがって、与えられた議題に関する有用な論点について述べている記事を検索する。参加者はその記事を参考資料として、自身の立場を補強する議論を展開することができる。以下図３の各ステップについて、後述する図面を参照しながら説明する。

（図３：ステップＳ３０１：議題入力）
ユーザは、入力装置１１０を用いて、文書検索装置１００に対して議題を入力する。議題に加えて、議題を詳しく説明するための議題説明文も同時に入力してもよい。さらにユーザは、当該議題について肯定側に立った場合に有用な情報を収集するか、否定側に立った場合に有用な情報を収集するかについても、併せて文書検索装置１００に対して指示する。以下の説明では議題説明文が与えられているものとして説明するが、与えられていない場合は議題説明文を用いた処理を省略する。ユーザは、抽出すべき論点（後述）の個数を併せて指定することもできるし、論点の個数については文書検索装置１００へ一任することもできる。

（図３：ステップＳ３０２：文書検索）
検索部１３１は、与えられた議題と議題説明文、および価値促進抑制テーブル１５１に基づいて、議題に対して肯定側または否定側の立場に立った場合に有用な情報を含むと考えられる文書を、記事ＤＢ１６０から検索する。記事ＤＢ１６０は、例えばニュース記事、Ｗｅｂ上の文書、論文、などのような、何らかの事項について論述する記事を収集したデータベースである。

（図３：ステップＳ３０２：検索例その１）
検索部１３１は、記事ＤＢ１６０が格納している各記事のＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）をあらかじめ計算し、記事ＤＢ１６０に格納しておく。検索部１３１は、議題をひとつの記事とみなし、記事ＤＢ１６０が格納している各記事に対する当該議題のＴＦ−ＩＤＦを計算する。検索部１３１は、議題のＴＦ−ＩＤＦと記事ＤＢ１６０が格納している各記事のＴＦ−ＩＤＦとの間のコサイン類似度を計算し、例えば類似度の上位から順に所定件数の記事を抽出する。議題説明文が与えられている場合は、議題説明文のＴＦ−ＩＤＦと記事ＤＢ１６０が格納している各文書のＴＦ−ＩＤＦとの間の類似度も計算し、類似度の上位から順に所定件数の記事を抽出する。

（図３：ステップＳ３０２：検索例その１：補足）
ＴＦ−ＩＤＦを計算する際に、各記事、議題、議題説明文に含まれる語句として、文章内に記載されている語句だけでなく、類義語辞書１５２や上位下位関係辞書１５３を用いて、それらの類義語や上位下位語のＴＦ−ＩＤＦを計算してもよい。これにより、類義語を含む議題、議題説明文、記事間の類似度が大きくなるため、語句の類義関係や上位下位関係も考慮して記事を検索することができる。

（図３：ステップＳ３０２：検索例その２）
検索部１３１は、議題と議題説明文からキーワードを抽出し、そのキーワードを検索キーとして記事ＤＢ１６０から記事を検索する。キーワードは、議題と議題説明文から重要語を抽出することによって生成する。以下に例示する３議題は、Ｄｅｂａｔａｂａｓｅ（ｈｔｔｐ：／／ｉｄｅｂａｔｅ．ｏｒｇ／）から取得した議題の例である。

（議題例１）This House would ban homework.
（議題例２）This House believes that children should be allowed to own and use mobile phones.
（議題例３）This house would censor the internet.

重要語を取り出すためには、これら議題から機能語やモダリティを表わす語、定型句（上記の場合”This house”）など、議題の特徴とはならない語を削除し、残った語句を重要語とみなす。例えば上記議題例における重要語は、以下のようになる。

（議題例１）ban homework
（議題例２）children allowed own use mobile phones
（議題例３）censor internet

検索部１３１は、これらのキーワードを用いて記事を検索する。これらのキーワードを全て含む記事件数が少ない場合は、キーワードに優先順位を付け、優先順位の高いキーワードを含み、ヒット件数が所定以上となるキーワード集合を選べばよい。その際に、名詞句を優先する、文の後方にあるキーワードを優先する、などとすることが有用である。名詞句は、議題のテーマに言及していることが多く、また文の後方にあるほど重要語である可能性が高いからである。例えば上記議題例２においてはｍｏｂｉｌｅｐｈｏｎｅが主テーマになっているが、これは名詞句であり、文の後方にあるキーワードになっているので、有用なキーワードであると考えられる。

（図３：ステップＳ３０２：検索例その２：補足）
文書検索装置１００は、議題を肯定または否定するために有用な材料となる情報を検索することを目的としている。これを効果的に実現するためには、少なくとも何らかの価値について言及している記事を検索することが必要である。すなわち、議題に含まれるキーワードを含んでいる記事であっても、そのキーワードを単に文字列として含んでいるに過ぎない（例：キーワードについて辞典のように解説している）記事は検索対象から除外し、価値について言及している記事を検索することが望ましい。そこで検索部１３１は、検索対象とする記事をフィルタリングしてもよい。例えば、価値促進抑制テーブル１５１が記載している価値語句（価値１５１４）、およびその類似語または上位下位語をいずれも含まない記事は、検索対象から除外してもよい。価値１５１４（またはその類義語や上位下位語）を含まない記事を除外することにより、価値について言及する記事を優先的に検索することができる。

（図３：ステップＳ３０３：情報単位化）
単位化部１３２は、検索部１３１が検索した記事内の文を、情報単位として整理する。文章における情報の１つの単位は文であるが、文には代名詞、指示詞などが存在し、その文のみでは意味が分からない場合がある。そこで単位化部１３２は、意味が通じる１つのまとまりとして１以上の文をまとめ、情報単位とする。例えば、照応解析により、指示詞や代名詞のように前後を参照する語句があった場合に、それが示す対象が含まれるように、文の集合をまとめる。

図４は、単位化部１３２の処理を説明する図である。文章４０１はＤｅｂａｔａｂａｓｅ（ｈｔｔｐ：／／ｉｄｅｂａｔｅ．ｏｒｇ／）から引用した文章であり、８つの文より成る。文章４０２は、単位化部１３２が文章４０１を４つの単位にまとめた結果を示す。前後を参照する語句には下線を引いてある。これら参照語句が参照している文をまとめることにより、各４単位の文章が、意味が通じるまとまりとなっている。なお、ステップＳ３０３は省略することもできる。その場合は、１つの文を情報単位とする。

（図３：ステップＳ３０４：記事マッピング）
記事集計部１３３は、検索部１３１が検索した記事を価値促進抑制テーブル１５１にマッピングする。以下では、価値促進抑制テーブル１５１が記載している、価値１５１４とその促進者１５１５の組み合わせ、または価値１５１４とその抑制者１５１６の組み合わせを、論点と呼ぶことにする。例えば、価値”ｈｅａｌｔｈ”とその促進者”ｄｏｃｔｏｒ，ｍｅｄｉｃｉｎｅ，ｅｘｅｒｃｉｓｅ，ｍｅｔａｂｏｌｉｓｍ” の組み合わせは、論点である。記事集計部１３３は、記事がどの論点について言及しているかを判定することにより、記事と論点をマッピングする。例えば、ある記事が”ｈｅａｌｔｈ”とその促進者についての論点を含んでいる場合、その記事は、その促進者によって健康が増進されるという流れで論述をしていると推定できる。

図５は、記事集計部１３３がある記事について計算した結果を例示する図である。記事集計部１３３は、価値促進抑制テーブル１５１が記載している価値１５１４、促進者１５１５、抑制者１５１６について、それら語句が記事内に現れる回数をカウントする。図５において、各フィールドに添えた括弧内に、記事集計部１３３が出現回数をカウントした結果を例示した。記事集計部１３３は、この出現回数に基づいて、記事内における出現頻度が高いキーワードを含む論点をその記事の論点としてマッピングする。

図５に示す例においては、価値”ｈｅａｌｔｈ”とその促進者の出現回数が多く、次に価値”ｈｅａｌｔｈ”とその抑制者の出現回数が多い。記事集計部１３３は、これらの組み合わせによってなる論点を、当該記事が論述している論点とみなす。論点は各記事に対して複数割り当てることもできる。例えば、所定閾値以上の出現回数がある論点を全て当該記事に対して割り当てることができる。または、所定個数の論点を出現回数上位から順に割り当てることもできる。該当する論点が見つからない場合には、当該記事の論点はなしとする。

（図３：ステップＳ３０５：情報マッピング）
情報マッピング部１３４は、価値促進抑制テーブル１５１が記載している価値１５１４、促進者１５１５、抑制者１５１６の間の関係を、グラフ化する。情報マッピング部１３４は、単位化部１３２によって整理された情報単位を、そのグラフのノードまたはエッジ（ノード間を接続する枝）にマッピングする。

図６は、価値促進抑制テーブル１５１をグラフ化した例を示す図である（ただし図６の一部は図２の例に含まれていない）。グラフのノードは、価値１５１４、促進者１５１５、抑制者１５１６のいずれかである。グラフのエッジ（矢印）は、促進者１５１５または抑制者１５１６から価値１５１４に向かっている。矢印に添えたＰ（Ｐｒｏｍｏｔｅ）またはＳ（Ｓｕｐｐｒｅｓｓ）は、接続元ノードが接続先ノードに対して促進または抑制いずれの効果を発揮するかを示す。情報マッピング部１３４は、価値１５１４、促進者１５１５、抑制者１５１６のうち、記事集計部１３３が論点として抽出したものについて、価値促進抑制テーブル１５１が記載している促進／抑制関係にしたがって図６のようにグラフ化する。情報マッピング部１３４はさらに、以下に説明する手法により、情報単位をノードまたはエッジへマッピングする。

図７Ａ〜図７Ｂは、情報マッピング部１３４によるマッピング結果を例示する図である。ここでは、「りんごを毎日食べるべきである」という議題を取り扱っており、文章７０１と７０３内に含まれる各文をグラフにマッピングする例を考える。文章７０１と７０３は、単位化部１３２によって情報単位に分解されている。便宜上、各情報単位に対して文章内の出現順に合わせて番号を付与した。

情報マッピング部１３４は、情報単位がノードのキーワード（または類義語、上位下位語などのような関連フレーズ）を含んでいる場合、情報単位をそのノードに対してマッピングする。エッジで結ばれた両ノードのキーワードを含む情報単位は、エッジに対してマッピングする。１つの情報単位を複数のノードやエッジにマッピングしてもよい。情報単位をノードやエッジに対してマッピングする手法はこれに限られるものではなく、情報単位とノードとの間の何らかの類似性や関連性に基づき、情報単位をノードやエッジに対してマッピングすることもできる。

（図３：ステップＳ３０６：情報分類）
情報分類部１３５は、情報マッピング部１３４がグラフ上のノードやエッジに対してマッピングした情報単位の役割を分類する。ここでいう役割とは、その情報単位が何らかの主張を述べている主張文であるのか、それともその主張の理由について述べている理由文であるのか、についてのものである。図７Ａ〜図７Ｂに示す例を用いて、これら役割について説明する。

（図３：ステップＳ３０６：主張について）
親ノード（矢印の接続元）に対してマッピングされた情報単位は、子ノード（矢印の接続先）に対してマッピングされた情報単位を説明する理由、根拠、例示などについて述べていると考えられる。また子ノードは価値について言及しており、正または負の価値が生じることを主張していると考えられる。つまり、同一記事内において親子ノードそれぞれに対してマッピングされている情報単位がある場合、子ノードに対してマッピングされている情報単位は、主張に分類される候補となる。主張候補の子ノードに対して別の情報単位がマッピングされていない場合、その主張候補は当該記事内の情報単位が述べている論理フローのなかで最も結論に近い位置に配置されていることになる。情報分類部１３５は、このような情報単位の役割を主張として分類する。

（図３：ステップＳ３０６：理由について）
あるノードに対してマッピングされた情報単位（Ａ）について、その子ノードに対してマッピングされた情報単位（Ｂ）が同一記事内にある場合、情報単位（Ａ）は情報単位（Ｂ）を導出する理由について述べていると考えられる。情報分類部１３５は、このような情報単位を理由の候補とする。ただし、以下に説明する手法によって情報単位ＡＢの極性を判定し、論理フローの整合性を確認する。整合性が確認された情報単位ＡＢについては、そのペアを結び付けた上で、情報単位Ａは情報単位Ｂの理由として分類し、情報単位Ｂは主張として分類する。

（図３：ステップＳ３０６：整合性チェックについて）
図７Ａに示すノードｈｙｐｅｒｔｅｎｓｉｏｎからノードｄｉｓｅａｓｅへ向かうエッジを例として説明する。ノードｈｙｐｅｒｔｅｎｓｉｏｎに対してマッピングされている文（１）は、ｈｙｐｅｒｔｅｎｓｉｏｎを下げる（抑制する）ことについて言及しているため、ノードｈｙｐｅｒｔｅｎｓｉｏｎに対して負の極性をもっている。ノードｄｉｓｅａｓｅに対してマッピングされている文（３）は、ｄｉｓｅａｓｅになるリスクを下げる（抑制する）ことについて言及しているため、ノードｄｉｓｅａｓｅに対して負の極性をもっている。グラフの論理関係は、ｈｙｐｅｒｔｅｎｓｉｏｎがｄｉｓｅａｓｅを促進することを示している。すなわち価値促進抑制テーブル１５１上においては、ｈｙｐｅｒｔｅｎｓｉｏｎを抑制すればｄｉｓｅａｓｅが抑制されることが示されている。文（１）はｈｙｐｅｒｔｅｎｓｉｏｎを抑制することを示しており、文（３）はｄｉｓｅａｓｅを抑制することを示しているため、これらの情報単位はグラフの論理関係と整合していると考えられる。

上記整合性チェックは、以下のように一般化することができる。ノード１に対してマッピングされた情報単位Ａとノード２に対してマッピングされた情報単位Ｂがあり、ノード１からノード２に向かうエッジがある場合を考える。情報単位Ａのノード１に対する極性をｐ１（正のとき１、負のとき−１、無極性または判定不能のとき０）、情報単位Ｂのノード２に対する極性をｐ２（正のとき１、負のとき−１、無極性または判定不能のとき０）、エッジの極性をｐ３（促進のとき１、抑制のとき−１）とすると、ｐ１×ｐ２×ｐ３＝１であれば、各情報単位のマッピングは整合性がとれていると考える。

情報単位のノードに対する極性は、例えば、ノードに関連するキーワードが修飾する動詞が（ａ）促進する、増やす、上げる、などのキーワードを増大させるようなワードであれば正極性とみなし、（ｂ）抑制する、下げる、消すなどのキーワードを減少させるようなワードであれば負極性とみなす、などのように判定することができる。

エッジに対してマッピングされている情報単位については、そのエッジの両端に同じ情報単位がマッピングされているとみなして、上記と同様に整合性をチェックすることができる。エッジに対してマッピングされている情報単位のうち整合性のあるものは、理由付きの主張として分類する。

理由に分類された文については、さらに、証拠、例示、引用などのように、細かく分類してもよい。このような詳細役割は、特定のキーワードの有無によって分類することができる。例えば、”Ｆｏｒｅｘａｍｐｌｅ”などの語句があった場合は、例示として分類することができる。

（図３：ステップＳ３０７：記事内パス生成）
情報マッピング部１３４は、グラフに対してマッピングした情報単位を、記事内における相関関係（例えば記事内における出現順）に応じて結び付けることにより、グラフ上のパスを拡張する。この拡張したパスは、後述するスコア計算において、論点間の距離を算出する際に用いる。

図８は、ステップＳ３０７の処理例を説明する図である。ここでは、文章７０３内の情報単位を、文章７０３内における出現順に結び付けている。例えば文（２）がグラフに対してマッピングされていない場合は、文（１）から文（３）へ向かうパスが生成される。これら拡張されたリンクを、記事内パスと呼ぶことにする。

（図３：ステップＳ３０８：スコア計算）
スコア計算部１３６は、以下に説明する手順にしたがって、論点のインパクトスコア、頑健性スコア、独立性スコアを計算する。独立性スコアは、文書検索装置１００の出力として複数の論点を抽出する場合のみ計算する。

（図３：ステップＳ３０８：インパクトスコア）
スコア計算部１３６は、価値促進抑制テーブル１５１が記述しているインパクトスコアに基づいて、価値１５１４のインパクト、価値１５１４と促進者１５１５との間の結びつきの強さを表すスコア、および抑制者１５１６との間の結びつきの強さを表すスコアを、当該論点（価値１５１４と促進者１５１５のペア、または価値１５１４と抑制者１５１６のペア）のインパクトスコアとして算出する。具体的には、スコア計算部１３６は、ステップＳ３０６で説明した原因と主張のペアに対してマッピングされているノードのスコアとエッジのスコアに基づいて、そのペアのインパクトスコアを計算する。例えば単調増加関数として、各スコアを加算する。理由付き主張に分類されている情報単位については、エッジ両端ノードのスコアとエッジのスコアを同様に計算する。スコア計算部１３６はさらに、これら各ペアのスコアと理由付き主張のスコアの単調増加関数として、論点全体のスコアを計算する。以上の処理により、価値に対する結び付きが強い情報単位が多く、かつインパクトが高い価値に対して、高いインパクトスコアを付与することができる。

（図３：ステップＳ３０８：頑健性スコア）
論点に対してマッピングされている情報単位のうち、ステップＳ３０６において整合性がとれなかったものは、当該論点のロジックと矛盾している可能性がある。スコア計算部１３６は、そのような整合性がとれなかった情報単位の個数の単調減少関数として、当該論点の頑健性スコアを算出する。整合性がとれない情報単位が多いほど、その論点は矛盾した情報や無関係な情報が多く、頑健性が低い（頑健性スコアが低い）と判断することができる。

（図３：ステップＳ３０８：独立性スコア）
複数の論点を抽出する場合、各論点が言及している事象が互いに重なり合っていると、その論点の有用性が損なわれると考えられる。そこでスコア算出部１３６は、各論点が互いにどの程度独立しているかを示す独立性スコアを算出する。すなわち、複数の論点を抽出する場合は論点間の距離が大きいほど望ましいと考え、そのような論点に対して高い独立性スコアを付与する。論点間の距離は、価値促進抑制テーブル１５１のグラフ上における価値間の距離とみなすことができるので、以下に説明する手法によって価値間の距離を算出する。

（図３：ステップＳ３０８：算出手順その１）
ノード間の結びつきが強い場合、そのノード間の距離は短いと考えることができる。そこでスコア計算部１３６は、まず各エッジ両端のノードに対してマッピングされている情報単位の個数に基づいて、各エッジ間の距離を算出する。例えば、エッジ両端の整合性ある情報単位の個数の逆数を、当該エッジ間の距離とする。情報単位がマッピングされていないノード間の距離は、例えば１とする。エッジに対して情報単位がマッピングされている場合は、その両端ノードに対して同じ情報単位がマッピングされているものとする。スコア算出部１３６は、グラフのエッジを辿って２つの価値を結び付けたとき通ったエッジの距離を全て合算したものを、その２つの価値間の距離とする。価値間の経路が複数存在する場合は、最も小さい距離を用いる。スコア算出部１３６は、各論点が言及している価値間の距離が大きいほど、その論点間の独立性スコアを高くする。

（図３：ステップＳ３０８：算出手順その２）
ステップＳ３０７において記事内パスを生成した場合、スコア算出部１３６は記事内パスもエッジとみなして上記と同様の手順を実施する。図８に示す例においては、ｄｅｌｉｃｉｏｕｓノードからｅａｓｙノードへ向かうエッジ、ｅａｓｙノードからｔｉｒｅノードへ向かうエッジ、ｔｉｒｅノードからｃａｌｏｒｉｅノードとｄｉｅｔノードへ向かうエッジをそれぞれ追加する。これにより、価値促進抑制テーブル１５１上（すなわちグラフ上）においては距離が離れている論点であっても、記事の記載内容に鑑みると距離が近い論点について、互いに結び付けることができる。すなわち、記事の記載内容に鑑みると互いに重複している論点の独立性スコアを下げることができる。

（図３：ステップＳ３０８：算出手順その３）
文書検索装置１００の出力として複数（Ｎ個）の論点を抽出する場合、スコア計算部１３６は、Ｎ個の論点に含まれる２つ論点の全組み合わせについて独立性スコアを求め、そのなかで最も小さいもの（すなわち独立性が最も低いもの）を、当該Ｎ個の論点の独立性スコアとする。

（図３：ステップＳ３０９：論点選択）
出力部１３７は、ステップＳ３０８の結果に基づき、例えばユーザが指定した個数の論点を選択する。論点のインパクトや頑健性は、高いほうが望ましい。また、議題を肯定・否定する場合には、ひとつの観点だけでなく、複数の観点からその主張と理由を述べられると、より説得力が増す。すなわち、重複する観点を根拠として主張を述べるのではなく、独立性の高い複数の観点から主張と理由を述べることが望ましい。そこで出力部１３７は、１つの論点を選択する場合はインパクトスコアと頑健性スコアが高い論点を選択し、複数の論点を選択する場合はこれらスコアに加えて独立性スコアが高い論点を選択する。

（図３：ステップＳ３０９：処理例）
出力部１３７は、インパクトスコアと頑健性スコアの単調増加関数として、論点の総合スコアを計算する。材料が多いほうが良い場合もあるため、インパクトスコアと頑健性スコアだけでなく、当該論点に対してマッピングされた情報単位の個数も加味し、３つのスコアの単調増加関数として論点の総合スコアを計算してもよい。論点をひとつだけ選択する場合には、最もスコアの高い論点を選択する。複数（Ｎ個）の論点を選択する場合は、Ｎ個の論点の独立性スコアとそのＮ個の論点の総合スコアの両方のスコアに基づいて、それらの単調増加関数の値が最も大きいＮ個の論点を選択する。総当たり探索により最もスコアが高いＮ個の論点の組み合わせを選択してもよいし、例えば探索回数に上限を設けてもよい。

（図３：ステップＳ３１０：出力）
出力部１３７は、ステップＳ３０９において選択した論点に対してマッピングされた情報単位を、当該論点とともに出力する。さらに論点ごとに、その主張と理由のペアを出力してもよい。当該論点のインパクトスコア、頑健性スコア、独立性スコアを併せて出力してもよい。出力先は、ディスプレイやプリンタなどによって構成された出力装置１２０でもよいし、出力結果を記述したデータを記憶装置１５０に格納するようにしてもよい。その他適当な出力手段を用いてもよい。

＜実施の形態１：まとめ＞
以上のように、本実施形態１に係る文書検索装置１００は、価値とその価値を促進または抑制する事象との間の対応関係を記述した価値促進抑制テーブル１５１を備え、記事が記載しているこれら語句と価値促進抑制テーブル１５１が記述している対応関係との間の整合性に基づき、整合性のとれた論点を記事から抽出する。これにより、論理フローが整合した論述をしている記事を効率的に自動抽出することができる。

本実施形態１に係る文書検索装置１００は、価値１５１４のインパクトスコア、価値１５１４と促進者１５１５との間の結びつきの強さを表すスコア、および価値１５１４と抑制者１５１６との間の結びつきの強さを表すスコアを算出し、これらスコアの高い論点を記事から抽出する。これにより、有用な論述を提供するために有用な材料を効率的に自動抽出することができる。

本実施形態１に係る文書検索装置１００は、複数の論点を抽出する場合は論点間の独立性を表す独立性スコアを算出し、互いの独立性スコアの高い複数の論点の組み合わせを抽出する。これにより、多面的観点から論述するために有用な材料を自動抽出することができる。

＜実施の形態２＞
図９は、本発明の実施形態２に係るディベートシステム１０００の構成図である。ディベートシステム１０００は、与えられた議題について意見を述べる論述文を自動生成するシステムである。ディベートシステム１０００は、文章生成システム１１００とデータ管理システム１２００を有する。文章生成システム１１００は、議題が入力されると、その議題に対する意見を述べた論述文を出力するシステムである。データ管理システム１２００は、あらかじめ処理されたデータを格納するシステムである。

文章生成システム１００は、以下に説明する９つのモジュールを順に実行する。入力部１１１０は、ユーザから議題の入力を受け付ける。議題解析部１１２０は、議題を解析し、議題の極性と検索に用いるキーワードを判定する。

例えば議題が「カジノを禁止すべき」というものだった場合、キーワードとしては名詞句である「カジノ」があげられる。さらに、極性を判定することで、「カジノ」に対して肯定的な争点語を用いるべきか、否定的な争点語を用いるべきかを決定することができる。上記の議題に対し、肯定的な意見を出力したい場合には、キーワードとして「カジノ」を、争点語としてはカジノを抑制する「抑制語」を選択して検索を行う。ここでは、議題が「カジノ」に対して否定的であるため、争点語としては「抑制語」を用いる。このように争点語とキーワードとを合わせ検索することにより、カジノに対する是否を述べている記事を検索することができる。議題から抽出したキーワードのみでは、例えばカジノについての宣伝記事や、カジノに行った感想のみを述べているブログ記事のように、ディベートにおいて考慮する必要のない記事等も多く検索結果に含まれてしまい、適切に検索することができない。

文書検索装置１００は実施形態１で説明した装置であり、議題解析部１１２０が判定したキーワードと、ディベートにおける争点を示す争点語とを用いて、記事ＤＢ１６０を検索する。争点決定部１１３０は、文書検索装置１００が出力した記事を分類し、意見を生成する際に用いる争点を決定する。文抽出部１１４０は、文書検索装置１００が出力した記事から争点について述べている文を抽出する。文並び替え部１１５０は、抽出された文を並び替えることにより文章を生成する。評価部１１６０は、生成された文を評価する。言い換え部１１７０は、適切な接続詞を挿入し、不要な表現を削除する。出力部１１８０は、評価部１１６０による評価が最も高い文章を、意見を述べた論述文として出力する。

このように、争点決定部１１３０で記事ごとに争点を判別し、文並び替え部１１５０では複数の争点についての論述文が生成されることになる。そして、次の評価部１１６０において、文並び替え部１１５０で生成された複数の論述文を評価することで、初めて最終出力文章における争点、すなわち、本システムの論述文の立場あるいは価値観が決定されることになる。このように、同じ争点と決定された記事から抜き出した文のみを用いて論述文を生成することで、一貫した立場で論ずる文章を生成することができる。

データ管理システム１２００は、４つのデータベース（ＤａｔａＢａｓｅ）とインターフェース部１２１０を備える。インターフェース部１２１０は、データベースに管理されているデータに対するアクセス手段を提供する。記事ＤＢ１６０は、実施形態１で説明したものである。アノテーションＤＢ１２２０は、記事ＤＢタ１６０が格納しているテキストに対して付与されたアノテーションを保持する。検索インデックスＤＢ１２３０は、記事ＤＢ１６０とアノテーションＤＢ１２２０を効率的に検索するためのインデックスである。争点オントロジＤＢ１２４０は、ディベートでよく議論になる争点と、その関連語を紐づけたデータベースである。

ディベートシステム１０００によれば、実施形態１で説明した文書検索装置１００が検索した論点や記事を用いて、議題に対して効果的に論述する文章を自動的に生成することができる。

＜本発明の変形例について＞
本発明は上記した実施形態の形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。

文書検索装置１００は、１つの計算機を用いて構成することもできるし、サーバとクライアント端末によって構成することもできる。文書検索装置１００は、同一の計算機上で複数のスレッドによって実装してもよいし、複数の物理的計算機資源上に構築された仮想計算機上で稼働してもよい。

ＣＰＵ１３０が実行するプログラムは、リムーバブルメディア（ＣＤ−ＲＯＭ、フラッシュメモリなど）またはネットワークを介して各計算機に対して提供され、記憶装置１５０に格納される。したがって文書検索装置１００は、リムーバブルメディアを読み込むインターフェースを備えるとよい。

記憶装置１５０は、文書検索装置１００に接続された記憶装置として構成することもできるし、外部の計算機が提供する記憶装置を文書検索装置１００から利用するようにしてもよい。記事ＤＢ１６０は、文書検索装置１００の一部として構成してもよいし、実施形態２で説明したように外部システム上に構成してもよい。

上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

１００：文書検索装置、１１０：入力装置、１２０：出力装置、１３０：ＣＰＵ、１３１：検索部、１３２：単位化部、１３３：記事集計部、１３４：情報マッピング部、１３５：情報分類部、１３６：スコア計算部、１３７：出力部、１４０：メモリ、１５０：記憶装置、１５１：価値促進抑制テーブル、１５２：類義語辞書、１５３：上位下位関係辞書、１０００：ディベートシステム、１１００：文章生成システム、１２００：データ管理システム。

Claims

与えられた議題に関連する文書を検索する文書検索システムであって、
価値を表す価値語句、前記価値を促進する促進事象を表す促進語句、および前記価値を抑制する抑制事象を表す抑制語句を記述した価値促進抑制テーブルを格納する記憶部、
前記議題を記述した議題テキスト内に含まれる議題語と、前記価値促進抑制テーブルが記述している前記価値語句とをキーワードとして記事を検索する検索部、
前記検索部が検索した前記記事内に含まれる前記価値語句、前記促進語句、および前記抑制語句を集計することにより、前記記事が言及している前記価値語句と前記促進語句の組み合わせまたは前記記事が言及している前記価値語句と前記抑制語句の組み合わせを、前記記事が論じている論点として特定する、記事集計部、
前記記事集計部が特定した前記組み合わせ内に含まれる前記価値語句、前記促進語句、または前記抑制語句に対して、前記記事が肯定的語句または否定的語句のいずれを記述しているかをカウントすることにより、前記論点と前記記事との間の論理関係がどの程度整合しているかを表す頑健性スコアを算出する、スコア計算部、
前記スコア計算部による算出結果に基づき、前記論点と前記記事との間の論理関係の整合性が高い順に前記論点とその論点に対応する前記記事とを選択し、その選択した前記論点と前記記事を出力する、出力部、
を備えることを特徴とする文書検索システム。
前記文書検索システムは、
前記価値促進抑制テーブルが記述している前記価値語句、前記促進語句、または前記抑制語句と、前記記事とを対応付ける情報マッピング部を備え、
前記情報マッピング部は、
前記価値促進抑制テーブルが記述している前記価値語句、前記促進語句、および前記抑制語句を、前記価値、前記促進事象、および前記促進事象の間の相互作用に基づきグラフ化し、
前記グラフ上におけるノードまたはエッジに割り当てられた前記価値語句、前記促進語句、および前記抑制語句と、前記記事が記述している語句とを対応付けることにより、前記価値促進抑制テーブルが記述している前記価値語句、前記促進語句、または前記抑制語句と、前記記事とを対応付け、
前記スコア計算部は、
前記情報マッピング部が前記グラフ上で対応付けた前記記事と前記論点との間の論理関係に基づき、前記頑健性スコアを算出する
ことを特徴とする請求項１記載の文書検索システム。
前記文書検索システムは、
前記ノードまたは前記エッジに対応付けられた前記記事の前記グラフ上における親子関係に基づき、前記記事の種別を、前記論点に関する主張を記述している主張記事または前記主張の理由を記述している理由記事へ分類する、情報分類部を備え、
前記出力部は、
前記情報分類部による分類結果を、前記論点とその論点に対応する前記記事とともに出力する
ことを特徴とする請求項２記載の文書検索システム。
前記スコア計算部は、
前記主張記事または前記理由記事と、前記主張記事または前記理由記事に対応付けられた前記ノードとの間の論理関係が肯定的関係である場合は、その論理関係を第１正値によって表し、否定的関係である場合はその論理関係を第１負値によって表し、
前記主張記事に対応付けられた前記ノードと、前記理由記事に対応付けられた前記ノードとの間の論理関係が肯定的関係である場合は、その論理関係を第２正値によって表し、否定的関係である場合はその論理関係を第２負値によって表し、
前記主張記事に対応する前記第１正値または前記第１負値、前記主張記事と前記理由記事との間の論理関係に対応する前記第２正値または前記第２負値、および前記理由記事に対応する前記第１正値または前記第１負値を乗算し、
その乗算結果が正であれば前記主張記事と前記理由記事との間の論理関係は整合していると判定し、負であれば整合していないと判定し、その判定結果に基づき前記頑健性スコアを算出する
ことを特徴とする請求項３記載の文書検索システム。
前記スコア計算部は、
前記主張記事と前記理由記事との間の論理関係が整合していない前記主張記事と前記理由記事の組み合わせの個数をカウントし、そのカウントした個数が多いほど前記頑健性スコアを低くする
ことを特徴とする請求項４記載の文書検索システム。
前記価値促進抑制テーブルは、
前記論点に対して前記価値語句が与える影響度を示す第１インパクトスコア、前記価値語句と前記促進語句との間の結びつきの強さを示す第２インパクトスコア、および前記価値語句と前記抑制語句との間の結びつきの強さを示す第３インパクトスコアを記述しており、
前記スコア計算部は、
前記第１インパクトスコア、前記第２インパクトスコア、および前記第３インパクトスコアを用いて前記論点の総合インパクトスコアを算出し、
前記出力部は、
前記総合インパクトスコアが高い順に前記論点を選択する
ことを特徴とする請求項１記載の文書検索システム。
前記文書検索システムは、
前記検索部が検索した前記記事が記述している文章の接続関係に基づき前記記事を１以上の情報単位に分割する単位化部を備え、
前記情報マッピング部は、
前記情報単位を前記グラフ上のノードまたはエッジと対応付けることにより、前記価値促進抑制テーブルが記述している前記価値語句、前記促進語句、または前記抑制語句と、前記記事とを対応付ける
ことを特徴とする請求項２記載の文書検索システム。
前記価値促進抑制テーブルは、
前記論点に対して前記価値語句が与える影響度を示す第１インパクトスコア、前記価値語句と前記促進語句との間の結びつきの強さを示す第２インパクトスコア、および前記価値語句と前記抑制語句との間の結びつきの強さを示す第３インパクトスコアを記述しており、
前記スコア計算部は、
前記グラフ上で前記論点に対応付けられた前記情報単位の個数をカウントし、
前記論点に対応付けられた前記情報単位の個数、前記第１インパクトスコア、前記第２インパクトスコア、および前記第３インパクトスコアを用いて、前記論点の総合インパクトスコアを算出し、
前記出力部は、
前記総合インパクトスコアが高い順に前記論点を選択する
ことを特徴とする請求項７記載の文書検索システム。
前記スコア計算部は、
前記グラフ上において各前記論点に対応付けられている前記ノード間の前記グラフ上における距離を算出することにより、複数の前記論点がそれぞれ言及している事象間の重複度を示す独立性スコアを算出し、
前記出力部は、
前記独立性スコアが高い順に前記複数の論点の組み合わせを選択する
ことを特徴とする請求項７記載の文書検索システム。
前記スコア計算部は、
前記グラフ上で前記ノードに対応付けられた前記情報単位の個数をカウントし、
前記エッジの両端に割り当てられている第１および第２の前記ノードを特定し、
前記第１のノードに対応付けられている前記情報単位の個数と前記第２のノードに対応付けられている前記情報単位の個数が多いほど、前記第１のノードと前記第２のノードとの間の前記グラフ上における距離が短いものとして取り扱う
ことを特徴とする請求項９記載の文書検索システム。
前記情報マッピング部は、
前記グラフ上のノードまたはエッジと対応付けられた前記情報単位を、前記記事上において前記情報単位が出現する順序にしたがって結び付けることにより、前記グラフ上のパスを拡張し、
前記スコア計算部は、
前記グラフ上のノードとエッジに加えて前記拡張されたパスを用いて、前記ノード間の前記グラフ上における距離を算出する
ことを特徴とする請求項９記載の文書検索システム。
前記出力部は、
複数の前記論点のなかからいずれか１以上を選択し、
前記スコア計算部は、
前記出力部が選択した複数の前記論点からなる論点グループ内に含まれる２つの前記論点の全組み合わせについて、前記論点間の前記独立性スコアを算出し、
各前記組み合わせについて算出した前記独立性スコアのなかで最も小さいものを、前記論点グループの前記独立性スコアとして取り扱う
ことを特徴とする請求項９記載の文書検索システム。
前記出力部は、
１つの前記論点を選択する場合は、前記頑健性スコアが最も高い前記論点を出力し、
複数の前記論点を選択する場合は、前記頑健性スコアと前記独立性スコアに基づき算出した総合スコアが最も高い前記論点グループを出力する
ことを特徴とする請求項１２記載の文書検索システム。
請求項１記載の文書検索システム、
前記文書検索システムが出力する論点を用いて前記議題に対する論述文を生成する文章生成システム、
を備えることを特徴とするディベートシステム。
与えられた議題に関連する文書を検索する文書検索方法をコンピュータに実行させる文書検索プログラムであって、前記コンピュータに、
価値を表す価値語句、前記価値を促進する促進事象を表す促進語句、および前記価値を抑制する抑制事象を表す抑制語句を記述した価値促進抑制テーブルを格納する記憶装置から前記価値促進抑制テーブルを読み出すステップ、
前記議題を記述した議題テキスト内に含まれる議題語と、前記価値促進抑制テーブルが記述している前記価値語句とをキーワードとして記事を検索する検索ステップ、
前記検索ステップにおいて検索した前記記事内に含まれる前記価値語句、前記促進語句、および前記抑制語句を集計することにより、前記記事が言及している前記価値語句と前記促進語句の組み合わせまたは前記記事が言及している前記価値語句と前記抑制語句の組み合わせを、前記記事が論じている論点として特定する、記事集計ステップ、
前記記事集計ステップにおいて特定した前記組み合わせ内に含まれる前記価値語句、前記促進語句、または前記抑制語句に対して、前記記事が肯定的語句または否定的語句のいずれを記述しているかをカウントすることにより、前記論点と前記記事との間の論理関係がどの程度整合しているかを表す頑健性スコアを算出する、スコア計算ステップ、
前記スコア計算ステップにおける算出結果に基づき、前記論点と前記記事との間の論理関係が整合している前記論点とその論点に対応する前記記事とを選択し、その選択した前記論点と前記記事を出力する、出力ステップ、
を実行させることを特徴とする文書検索プログラム。