JP2007241901A

JP2007241901A - 意思決定支援システム及び意思決定支援方法

Info

Publication number: JP2007241901A
Application number: JP2006066715A
Authority: JP
Inventors: Atsushi Fujii; 敦藤井; Tetsuya Ishikawa; 徹也石川; Chiharu Sasaki; 千晴佐々木
Original assignee: University of Tsukuba NUC
Current assignee: University of Tsukuba NUC
Priority date: 2006-03-10
Filing date: 2006-03-10
Publication date: 2007-09-20
Anticipated expiration: 2026-03-10
Also published as: JP4677563B2

Abstract

【課題】テキストマイニング手法を有効活用し、所与のテーマに関連する多くの世人の意見に基づいての複数の論点を参照することにより合理的且つ妥当性のある決定支援のための判断情報を提供可能な意思決定支援システムを提供する。
【課題手段】入力されたテーマに関連する意見テキスト群の中から前記テーマに関連する複数の論点を抽出する論点抽出手段と、前記複数の論点毎に、当該論点を含んでいる前記意見テキストの中から当該論点に一の立場を有する意見の割合を表す固有度を算出する固有度算出手段と、前記複数の論点毎に前記一の立場を含んでいる意見の重要度を算出する重要度算出手段と、前記複数の論点に関連する関連語を抽出する関連語抽出手段と、前記複数の論点毎に対する肯定又は否定の意見における複数の代表意見を選択する代表意見選択手段と、前記各手段から出力された前記複数の論点毎の前記固有度及び前記重要度を出力するインタフェース手段と、を備える。
【選択図】図１

Description

本発明は、人間が所与のテーマについて意思決定する際に関連する有用な情報を収集し提示して人間の意思決定を支援する意思決定支援システムに関する。

世の中を取り巻く環境やシステムの高度化及び複雑化の進展に伴って、人間が何らかの事項について合理的な判断を下すためには、多くの場合種々の観点からの評価基準に基づいて、より多くの情報を収集し整理してこれらを総合的に考慮した上で判断することが重要である。このため、従来からコンピュータとデータベースを利用した種々の意思決定支援システムが提案されている。

特開平０８−８３１８２号公報は、意思決定すべき対象に関する情報を入力し，指定された１または複数のソフトウェアによって入力対象情報を評価し，その評価結果または評価結果に基づく代替案を出力する代替案選択処理手段を備えた意思決定支援システムであって，前記代替案選択処理手段によって意思決定を行った事例を学習し，その入力対象情報および処理手順の情報を含む事例情報を抽出し、当該抽出した事例情報を蓄積し保存する事例蓄積手段を備えて、新たな意思決定のための対象に関する情報の入力に対し，入力した対象情報と前記事例蓄積手段に蓄積している事例ごとの入力対象情報とを比較し，対象情報が類似する事例を選び出して類似した事例の評価結果を，新たな意思決定のための対象に関する評価結果として出力するようにした意思決定支援システムを開示している。

また、特開２００４−１８５６１４号公報は、意思の決定を行う際の複数の条件を要素として含む入力情報を受けて、所定の複数の意味要素のそれぞれと入力情報の各要素との相関及び相関強度を決定し、入力情報の各要素の相関及び相関強度によって表される目標に応じて、所定の複数の意味要素の相関及び相関強度を最適化することによって、最適化された結果を意思の決定を行う際の意思決定支援情報として出力するようにした意思決定支援装置を開示している。
特開平０８−８３１８２号公報特開２００４−１８５６１４号公報

しかし、これらの従来の意思決定支援システムは何れも、既に蓄積された事例情報及び入手可能な大量の情報の中から当該事例に有する類似事例を抽出して当該事例に関連する情報を整理した状態で提示するものであったり、さらには、当該事例と先行事例及び類似事例においての相関強度の傾向又は法則を発見しそれに基づいて目的遂行のための最適化された結果を示そうとするものであった。

このため、従来の意思決定支援システムにおいては、意思決定の対象である事例そのものの関連情報（同一事例及び類似事例）の中から当該事例を構成する要素毎の価値判断をしようとするものであって、世の中の多くの人の考えや意見等を広く参照したものではなかったことから、当該事例に係わる多くの世人の考えや意見から遊離した情報提示や提案を行う結果となることが多かったのである。

一方、近年のインターネットの目覚しい普及及び発展に伴って、所定のテーマについてインターネットウェブサーバに掲載されているアンケート結果、意見、レビュー、感想、ブログ等を閲覧することにより、当該テーマに関連する多くの客観情報及び主観情報を得ることが可能となっている。

インターネット等で得た大量の情報の中からあるテーマに関する事項の内容を発掘して何らかの傾向等を抽出する手法をテキストマイニングと言うが、従来のテキストマイニング手法はその多くが、所与のテーマに関する客観情報と当該テーマに対する賛成又は反対等の主観情報を分類して提示するものであったことから、それを利用して意思決定のツールと使用とした場合その有用性は極めて低かったのである。

本発明は、テキストマイニング手法を有効活用し、所与のテーマに関連する多くの世人の意見に基づいての複数の論点を参照することにより合理的且つ妥当性のある決定支援のための判断情報を提供することが可能で、操作者の操作手法に左右されずに有用性に優れた意思決定支援システムの提供を目的とする。

このため、本発明は、データベースと、前記データベースにアクセスして、入力されたテーマに関連する意見テキスト群を収集し、当該意見テキスト群の中から前記テーマに関連する複数の論点を抽出する論点抽出手段と、前記複数の論点毎に、当該論点を含んでいる前記意見テキストの中から当該論点に一の立場を有する意見の割合を表す固有度を算出する固有度算出手段と、前記複数の論点毎に、前記一の立場を含んでいる意見の重要度を算出する重要度算出手段と、前記複数の論点に関連する関連語を抽出する関連語抽出手段と、前記複数の論点毎に対する肯定又は否定の意見における複数の代表意見を選択する代表意見選択手段と、前記各手段から出力された前記複数の論点、当該論点毎の前記固有度及び前記重要度を出力するインタフェース手段と、の各手段を有することを特徴とするテキストマイニングによる意思決定支援システムを提供するものである。

ここで、前記データベースは、インターネットに接続されたマルチメディア上のデータを検索するブラウザを有するウェブ検索サーバと、前記検索されたデータを収集格納するデータベースサーバとを含む。

そして、前記論点収集手段は、前記入力されたテーマに関連する意見テキスト群の中に現れる名詞句及び動詞句を抽出することにより前記テーマに関連する複数の論点を抽出するようにしている。

また、前記固有度算出手段により算出される前記固有度は、個々の前記論点に対する肯定の立場を有する意見の確率を求めることにより算出され、前記重要度算出段により前記重要度は、前記全意見テキストにおいて肯定又は否定の何れか一方の立場における全論点の出現頻度の中で、当該一方の立場での論点の出現頻度の割合を求めることにより算出されるのである。

さらに、前記関連語抽出手段により抽出される関連語は、前記論点を含んでいる意見テキストの中から重複して出現する名詞、動詞及び形容詞等の内容語の中から抽出されることとなる。

そして、前記代表意見選択手段は、ある論点を含む意見テキストの全てを形態素解析し前記内容語の出現頻度を計算することにより前記複数の代表意見を選定し、当該選定され複数の代表意見の出現頻度をスコアリングすることにより前記複数の代表意見を順位付けして出力するようにしたのである。

また、前記インタフェース手段は、前記固有度と前記重要度の２次元面上に前記複数の論点、前記関連語又は前記代表的意見をプロットした画像データを出力することにより、操作に対して、意思決定支援情報を一目で視認し易い形態で提供するのである。

本発明は、さらに、インターネットに接続されたマルチメディア上のデータを検索するブラウザを有するウェブ検索サーバと前記検索されたデータを収集格納するデータベースサーバとから成るデータベースにアクセスし、所与のテーマに関するテキストマイニングを行うことにより意思決定を支援する方法であって、（ａ）前記所与のテーマに関連する意見テキスト群を収集するステップと、（ｂ）前記意見テキスト群の中から前記テーマに関連する複数の論点を抽出するステップと、（ｃ）前記複数の論点毎に、当該論点を含んでいる前記意見テキストの中から当該論点に一の立場を有する意見の割合を表す固有度を算出するするステップと、（ｄ）前記複数の論点毎に、前記一の立場を含んでいる意見の重要度を算出するステップと、（ｅ）前記複数の論点に関連する関連語を抽出するステップと、（ｆ）前記複数の論点毎に対する肯定又は否定の意見における複数の代表意見を選択するステップと、（ｇ）少なくとも、前記複数の論点、当該論点毎の前記固有度及び前記重要度を出力するステップと、の各ステップを有することを特徴とするテキストマイニングによる意思決定支援方法を提供するものである。

このように、本発明においては、テキストマイニング手法を有効活用し、入力された所与のテーマに関連する意見テキスト群を収集し、この意見テキスト群の中から前記テーマに関連する複数の論点を抽出してその論点毎の肯定又は否定等の立場を有する意見の割合を表す固有度と、その論点毎の立場を含んでいる意見の重要度を算出することにより、当該テーマに関連する多くの世人の意見に基づいての複数の論点を参照することにより合理的且つ妥当性のある決定支援情報を提供することを可能にすると共に、操作者の操作手法に左右されずに有用性に優れた意思決定支援システムを提供することができたのである。

また、本意思決定支援システムは、最新の時事問題に係る論点を含むテーマについて特に有効であり、最新の意見テキストを収集するので収集する情報内容が固定化又は陳腐化することがなく、当該テーマに関連する多くの人の意見のトレンドに応じた決定支援のための判断情報の提供を可能としているのである。

以下、本発明に係る意思決定支援システム及び意思決定支援方法の詳細について説明する。

図１は、本発明の意思決定支援システム１０の構成機能ブロック図を示すものである。図１に示すように、本発明の意思決定支援システム１０は、データベースサーバ１１８、ウェブ検索サーバ１９及び複数の記憶装置（ディスク装置）２２乃至２４とにより構成されるデータベースを備える。

このように、本意思決定支援システム１０は、インターネットに接続されたマルチメディア上のデータを検索するブラウザを利用して、ウェブ検索サーバ１９と検索されたデータを収集するデータベースサーバ１８と所定のデータを格納しておく記憶手段２２乃至２４とから成るデータベースを有し、所与のテーマに関するテキストマイニングを行うことにより意思決定を支援するのである。

データベースサーバ１８は、ベータベース管理システム（ＤＢＭＳ）を有し、当該ＤＢＭＳの制御下において、所定の検索言語（例えばＳＱＬ）によりデータ要素が格納され、検索され加工されて出力される。尚、図１に示したファイヤーウォール２１は、ＷＷＷインターネット２５からの外部からの不正な侵入を防ぐためのものである。

本発明の意思決定支援システム１０は、上記したデータベースにアクセスして、入力手段１１により入力されたテーマに関連する意見テキスト群を収集し、この意見テキスト群の中から前記テーマに関連する複数の論点を抽出する論点抽出手段１２を有する。ここで、この論点収集手段１２は、入力されたテーマに関連する意見テキスト群の中に現れる名詞句及び動詞句を抽出することにより前記テーマに関連する複数の論点を抽出するようにしている。これにより、所与のテーマに関連する多くの世人の意見に基づいての複数の論点を参照するようにしているので、結果的に合理的且つ妥当性のある決定支援情報を提供することを可能としている。

そして、本発明の特に主要な構成として、論点抽出手段１２により収集された複数の論点毎に、これを含んでいる意見テキスト群の中から当該論点に関して是認又は否定等の何れかの立場を有する意見の割合を表す固有度を算出する固有度算出手段１３と、その複数の論点毎に、是認又は否定等の何れかの立場を含んでいる意見の重要度を算出する重要度算出手段１４とを有するのである。

ここで、この固有度算出手段１３により算出される固有度は、個々の前記論点に対する肯定の立場を有する意見の確率を求めることにより算出され、また、重要度算出段１４による前記重要度は、全意見テキストにおいて肯定又は否定の何れか一方の立場における全論点の出現頻度の中で、当該一方の立場での論点の出現頻度の割合を求めることにより算出されるのである。このようにして、論点毎の意見の傾向とその重み付けがなされるのである。

そして、本意思決定支援システムは、さらに、複数の論点に関連する関連語を抽出する関連語抽出手段１５と、当該複数の論点毎に対する肯定又は否定の意見における複数の代表意見を選択する代表意見選択手段１６を備える。ここで、関連語抽出手段１５により抽出される関連語は、前記した複数の論点を含んでいる意見テキストの中から重複して出現する名詞、動詞及び形容詞等の内容語の中から抽出するようにしている。また、代表意見選択手段１６は、ある論点を含む意見テキストの全てを形態素解析し、前記内容語の出現頻度を計算することにより前記複数の代表意見を選定し、当該選定され複数の代表意見の出現頻度をスコアリングすることにより複数の代表意見を順位付けして出力するようにしたのである。

そして、インタフェース手段１７は、表示装置の画面上において、前記固有度と前記重要度の２次元面上に前記複数の論点、前記関連語又は前記代表的意見をプロットした画像データを出力することにより、操作者に対して、意思決定支援情報を一目で視認し易い形態で表示する。これによって、操作者は、本意思決定支援システムを利用することにより、入力したテーマに関して、その操作手法に左右されずに、合理的且つ妥当性のある決定支援のための判断情報を得ることができるのである。

図２は、本意思決定支援システムにおいて、収集された意見テキスト群の中から主観情報を抽出してから、意思決定を支援する情報画面を出力に至るまでのフローを模式的に表した図である。図２において、破線で囲まれている部分は、自動処理によって事前に行う。本システムは、あるテーマに対する意見を入力する。入力する意見は、対象のテーマに対して賛成か反対に分類されているものとする。入力した意見から「論点」を抽出し、それぞれの論点について、固有度と重要度を計算する。固有度は「賛成意見と反対意見のどちらで多く論じられているか」を表す尺度である。

重要度は「どれだけ多くの人に論じられているか」を表す尺度である。また、抽出された論点それぞれについて、関連語と代表的な意見を求める。インタフェースによって、論点の分布を可視化する。

図３は「株式会社による病院経営への参入」というテーマに対して論点の分布を可視化した例である。重要度を縦軸、固有度を横軸として２次元の平面上に論点が表示されている。

図３の中央付近にある「患者」、「診療」などの論点は、賛成派でも反対派でも論じられていることを表している。「競争」、「健康保険」、「改善」などの論点は、固有度が賛成派に寄っているので、賛成派の論拠となっている論点であることを表している。「利益」、「企業」、「医療法人」などの論点は、固有度が反対派に寄っているので、反対派の論拠となっている論点であることを表している。一方の立場に偏って論じられている論点は、逆の立場にとっては不利な論点であるか、もしくは議論が不十分なために一方の立場では未だ言及されていない論点である可能性がある。固有度を求めることで、それぞれの立場で何が論拠となっているのかがわかると同時に、議論が不十分な可能性が高い論点を発見することができる。また、図３中の反対派の論点を見てみると、「医療」の重要度が最も高く、「利益」、「企業」、「営利」と続いている。これは、反対派の人々には、これらの論点を重要と考えている人が多いことを表している。重要度を求めることで、多くの人が何を重要と考え議論しているのかを発見することができる。

インタフェース上で固有度と重要度に基づいて可視化した論点を選択すると、その論点の関連語と代表的な意見が表示される。「株式会社の病院経営への参入」というテーマにおける「情報」という論点の関連語の表示例を図４に、代表的な意見の表示例を図５に示す。図４では、「情報」の周りに「営利」や「医療」などの関連語が表示されている。「医療」や「企業」といった、関連する論点も表示されている。図５では、「情報」について論じている意見の中で代表的なものが、賛成派と反対派から選択され表示されている。そこで、ユーザは、「情報」という論点が実際にどのように論じられているかを知ることができる。

Ｗｅｂ上の掲示板などで、議論に途中から参加したユーザが既に議論された点について発言することがある。それに対して、「その点は既に検討済み」や「○月○日の投稿を見よ」などの反応が返ってくることがある。過去に議論された論点を把握し、重要な論点に対する代表的な意見を拾い読みすることができれば、前述のような無駄なやり取りを回避することができる。

以下、Ａ〜Ｅで、「論点の抽出」、「固有度の計算」、「重要度の計算」、「関連語の抽出」、「代表的な意見の選択」の各処理について説明し、Ｆでインタフェースについて説明する。Ｇで多段階評価への応用について説明する。

Ａ．論点の抽出
（１）概要
システムの実装に先立ち、論点がどのような形式で表現されているのかを確認するために、ｅｗｏｍａｎとＢＳディベートに掲載された意見を人手で分析した。その結果、論点となる範囲は、「単語」、「フレーズ」、「係り受け（文）」、「文章」など、様々であることがわかった。本システムで扱う論点のモデルを複雑にすると、表現能力は増す。しかし、解析精度は低下してしまう。そこで、現在の自然言語処理技術で誤りを少なく抽出できる「単語」、「フレーズ」、「係り受け」で表現される論点を抽出対象とする。具体的には、意見中の名詞句と動詞句を抽出する。実際に、「株式会社の病院経営への参入」というテーマに対する反対意見の1つを本システムに入力した場合に抽出された論点の例を図６に示す。ここで、動詞句は助詞を削除して、「名詞_動詞」の形式に統一している。詳細は（３）で説明する。

（２）名詞句の抽出
名詞句を抽出するために、ＣｈａＳｅｎ（http://chasen.naist.jp/hiki/ChaSen）によって意見テキストを形態素解析して、品詞情報を利用する。ＣｈａＳｅｎは、入力した文を形態素解析し、形態素、読み、原形、品詞情報を出力するツールである。図７に、「情報を公開することは重要だ」と入力した場合のＣｈａＳｅｎの出力例を示す。「情報」、「公開」、「重要」の品詞として、それぞれ「名詞-一般」、「名詞-サ変接続」、「名詞-形容動詞語幹」が付された。このように、名詞に対して、さらに細かい分類まで出力される。これらの品詞情報を利用して名詞句を構成し、論点として抽出する。

具体的には、表１に挙げたパターンが意見テキストに出現したら、名詞句としてまとめる。「／」は形態素の境界を表す。表１の（ａ）〜（ｆ）は単純に連結させるパターンであり、（ｇ）は言い換えを行うパターンである。（ｇ）は、表記が異なっていても同じ意味である表現を統一するための規則である。

名詞とサ変動詞語幹の名詞との間にある助詞を省くことにより、「情報を公開」、「情報の公開」、「情報が公開」といった表現を、全て「情報公開」に統一する。（ａ）〜（ｇ）のいずれかに合致するパターンが連続している場合は、各パターンを個別に抽出する。例えば、「高い医療費を削減」という文字列からは、（ａ）（ｅ）（ｇ）によって、「医療費」、「高い医療費」、「医療費を削減」を網羅的に抽出する。これは、形容詞、形容動詞、サ変動詞を含む名詞句は、論点として抽出する範囲の判断が難しいためである。

（ａ）のパターンで構成される名詞句が３語以上の名詞で構成されている場合は、最長の名詞句だけを抽出する。例えば、「独占／禁止／法」の場合、「独占禁止」と「禁止法」は抽出せず、「独占禁止法」だけを抽出する。これは、「独占禁止法」について論じる人は常に「独占禁止法」という表現を用い、「独占禁止」や「禁止法」という表現は用いないと考えるためである。テーマに含まれる名詞句は、論点でなくても意見テキストに高頻度で出現する傾向にある。そこで、テーマに含まれる名詞句は論点として抽出しない。

また、複数の語によって構成される名詞句の他に、単独の名詞も論点として扱う。ただし、一般的な語を除くため、２文字以上の名詞のみを対象とし、賛成か反対の立場内で１回しか出現しない名詞は論点として抽出しない。

また、ＣｈａＳｅｎで「数詞」、「代名詞」、「接尾」、「非自立」、「副詞可能」、「ナイ形容詞語幹」と解析された名詞は削除する。

さらに、どのテーマにおいても「論点にはならない」語を経験的に集めてストップワードとした。ストップワードは単独では論点にならない。しかし、他の単語と共に名詞句を構成する場合には、論点として抽出されることがある。ストップワードを表２に示す。

（３）動詞句の抽出
「株式会社による病院経営への参入」というテーマについて、「利益」という名詞だけを見ても、「利益を求める」なのか「利益を無視する」のかがわからないと、論点として適切でないことがある。そこで、ＣａｂｏＣｈａ（http://chasen.org/~taku/software/cabocha/）を用いて意見テキストの係り受け解析を行い、解析結果に基づいて動詞句を抽出する。

図８に「医療は利益追求になじまない」という文をＣａｂｏＣｈａで解析した例を示す。「＊」の後にある数字が文節の番号を表し、その次の番号が、その文節が係る文節の番号を表している。各文節は形態素解析され、それぞれの形態素の品詞情報が出力される。「医療は利益追求になじまない」の場合は、「医療は」と「利益追求に」が「なじまない」に係っている。これらの情報を利用して、名詞と助詞で構成される文節が動詞に係っている表現を論点として抽出する。

ただし、主語または目的語となる名詞が「代名詞」か「非自立」である場合は抽出しない。また、助詞と動詞が「と＋する」の場合や、抽出した動詞句が「問題がある」「気にする」のような高頻度表現の場合は、論点として抽出しない。

抽出した動詞句は、「お金を払う」と「お金は払う」のように助詞が異なっていても本質的に同じ表現を統一するため、助詞を削除して「_」に置き換える。

（２）の手法では、サ変動詞を名詞句として扱うので、動詞句として扱うのはサ変動詞以外の動詞とした。例えば、「無駄を省き経費を削減する」という文からは、「無駄を省く」と「経費を削減する」という動詞句が抽出される。しかし、「経費を削減する」は、（２）の手法により「経費削減」という名詞句として抽出される。したがって、この文からは、「無駄を省く」から助詞を省いた「無駄_省く」という論点だけが抽出される。

Ｂ．固有度の計算
論点Ａの固有度とは、「論点Ａがどちらの立場で多く論じられているか」を表す尺度である。論点Ａの固有度を、「意見を１つ選んだとき、その意見が論点Ａについて論じており、かつ賛成派の意見である」という条件付き確率と、「意見を１つ選んだとき、その意見が論点Ａについて論じており、かつ反対派の意見である」という条件付き確率の差で計算する。具体的には、論点Ａの固有度を数１で計算する。

数１中の条件付き確率は、数２を用いて計算する。

ここで、数２中のXは賛成（ｐｒｏ）か反対（ｃｏｎ）のどちらかである。数１は確率の差であるから、−１以上１以下の値をとる。そのため、賛成派だけが論じている論点の固有度は１、反対派だけが論じている論点の固有度は−１となる。両方の立場で均等に論じられている論点の固有度は０に近い値をとる。

表３に、「株式会社の病院経営への参入」というテーマから抽出された論点と固有度の例を示す。固有度が１に近い「健康保険」や「顧客ニーズ」などは主に賛成派の論拠であり、固有度が−１に近い「利益追求」や「医療法人」などは主に反対派の論拠である。「美容整形」の固有度は０であるので、賛成側派と反対派の両方で論じられている中立的な論点である。

Ｃ．重要度の計算
論点の重要度は、賛成派と反対派によって異なる値を持つ。立場Ｘにおける論点Ａの重要度とは、「論点Ａが立場Ｘでどれだけ多くの人に論じられているか」を表す尺度である。

論じている人が多い論点ほど、その立場で重要な論点であると考える。
具体的には、数３を用いて計算する。

ただし、まずは数１を用いて論点Ａの固有度を計算し、固有度が大きい立場に論点Ａを固定する。そして、その立場についての重要度を計算する。しかし、固有度が０の論点は、賛成と反対の立場ごとに重要度を求め、それらを平均して最終的な重要度とする。

１つのテーマ内で、重要度が他の論点と比べて非常に高い論点は、そのテーマによく出現する一般名詞であることが多い。そこで、経験的に、重要度が２０．０×１０^−３以上の名詞は論点として抽出しない。

表４に、「株式会社の病院経営への参入」というテーマから抽出された論点と重要度の例を示す。「改善」から「顧客ニーズ」までの４件は賛成派寄りの論点であり、「医療法人」から「利益追求」までの４件は反対派寄りの論点である。「美容整形」は固有度が０であるため、賛成と反対の立場で計算した重要度の平均を重要度とする。賛成派は「改善」について主に論じており、反対派は「医療法人」について主に論じていることがわかる。

Ｄ．関連語の抽出
１つの言葉だけを見ても意味がわからない場合や、１つの言葉から様々な連想を行う場合に、「関連語」が役に立つことがある。そこで、各論点の関連語を意見中から抽出して表示する機能を持たせる。本意思決定支援システムでは、「関連する語」と「関連する論点」の２つを関連語として抽出する。賛成派と反対派の両方で論じられている論点の場合は、固有度によって立場を固定した上で関連語を抽出する。

（１）関連する内容語の抽出
「株式会社の病院経営への参入」というテーマでは、「改善」が論点として抽出される。
このテーマにおいて「改善」の対象として論じられているのは、「医療」や「医者」の現状である。したがって、「改善」という論点と「医療」や「医者」は関連が高く、同じ意見内に共出現することが多い。そこで、論点Ａが論じられている意見の中によく出現する内容語を、論点Ａの関連語として抽出する。内容語とは、本意思決定支援システムでは名詞、動詞、形容詞とする。

ただし、一般的な語を除くため、表２に挙げた名詞と、「する」や「なる」などの使用頻度が高い動詞は人手でストップワードとして定義し、関連語から排除する。

論点Ａと内容語Ｂが同じ意見内に出現する頻度を単純に計上しただけでは、正確な関連度とはならない。一方の出現頻度だけが高い場合に、ＡとＢに関連があるとは限らないからである。そこで、ＡとＢの共出現頻度も考慮する必要がある。本手法では、論点Ａと内容語Ｂの関連度は、数４に示すダイス係数によって計算する。

Ｆ（Ａ）は論点Ａが出現する立場Ｘの意見数、Ｆ（Ｂ）は内容語Ｂが出現する立場Ｘの意見数、Ｆ（Ａ，Ｂ）は論点Ａと内容語Ｂが共出現する立場Ｘの意見数を表す。数４の値が大きいほど、ＡとＢの関連度が高いと見なす。

表５に、「株式会社の病院経営への参入」というテーマから抽出された論点と関連語の例を示す。

（２）関連する論点の抽出
「株式会社の病院経営への参入」というテーマの場合、「顧客ニーズ」という論点と「美容整形」という論点は、「特に美容整形では顧客ニーズに応じた医療が展開されている」といった論調で、同じ意見内で共に論じられることが多い。このような、同じ意見の中で共に論じられることが多い論点の組を抽出する。
論点Ａと論点Ｂの関連度は、数４と同様にＤｉｃｅ係数を用いて計算する。

表６に、「株式会社の病院経営への参入」というテーマから抽出された論点と関連する論点の例を示す。１つの論点に対して、「関連する語」と「関連する論点」の両方として抽出される語がある。

Ｅ．代表的な意見の選択
ユーザが、ある論点が実際にどのような文脈で論じられているのか知りたいときに、その論点を含む意見を全て読むのは効率が悪い。そこで、ユーザが指定した論点を含んでいる意見の中から代表的な意見を選択する。

本意思決定支援システムでは、指定した論点を含む意見テキスト群の中で出現頻度が高い語を多く含む意見ほど、意見群全体の傾向を反映しており、代表的であると考える。

論点Ａを含む意見の中から代表的な意見を選択する処理は、以下の手順で行う。
１．賛成と反対の立場ごとに、論点Aを含む意見テキスト全てを形態素解析し、内容語の出現頻度を調べる。

２．数５を用いて意見Xのスコアを計算する。このスコアが高いほど重要な意見であることを表す。

長い意見ほど内容語を多く含んでいるので、有利になってしまう。そこで、その意見が含んでいる形態素の数によって正規化することで、意見の長さによる差を吸収する。

３．スコアが高い順に意見をソートし、順位付きリストとして出力する。
この処理を賛成と反対の立場でそれぞれ行い、「賛成の立場で代表的な意見」と「反対側の立場で代表的な意見」を表示する。そこで、ユーザは同じ論点について賛成派と反対派の意見を比較することができる。

数５において、逆の立場に含まれる内容語の重みを下げることによって、代表的な意見の選択精度を高められる可能性がある。しかし、さらなる検討は今後の研究課題である。

Ｆ．インタフェース
Ａ〜Ｅで説明した手法によって、入力した意見テキスト群から、「論点」、「各論点の重要度」、「各論点の固有度」、「関連語」、「代表的な意見」が得られる。これらを集約して表示するインタフェースをＦｌａｓｈによって実装した。

図３は、「株式会社の病院経営への参入」というテーマについて、固有度を横軸、重要度を縦軸として論点を表示した図である。ここで表示されている論点は、入力した意見から抽出された論点のうち、各立場における重要度が決められた閾値よりも高い論点である。

右側の操作パネルから論点の重要度の下限を指定することで、表示する論点の個数を調節することができる。

図４は、論点の関連語と関連する論点を表示させた結果である。論点をクリックすると、その周囲に関連度が高い語の上位４件が表示される。図４では、「情報」の関連語として、「営利」、「医療」、「企業」、「公開」が表示されている。関連する語は、複数の論点について同時に表示させ、比較することが可能である。右側の操作パネルには、クリックした論点の固有度と重要度の値が表示される。操作パネルから「関連する論点を表示する」を選択すると、関連度が高い論点のうち、その場に表示されているものの色が変わる。図４では、「情報」と関連する論点として、「情報公開」、「医療」、「営利」、「企業」という論点が表示されている。

図５は、指定した論点について論じている意見の中から、代表的な意見を表示した結果である。詳しく調べたい論点をクリックし、操作パネルから「代表的な意見を見る」を選択すると、その論点について論じている意見の中から、Ｅの手法で得られる順位付きリストの上位３件が表示される。指定した論点が賛成でも反対でも論じられていれば、図５のように、賛成の立場で代表的な意見と、反対の立場で代表的な意見が同時に表示される。ユーザは、指定した論点がそれぞれの立場で実際にどのように論じられているのかを比較することができる。

Ｇ．多段階評価への応用
「星５つ」のような多段階評価のレビューを星の数によって賛成派と反対派に分類することで、本システムに入力することが可能である。図９は、映画「スター・ウォーズ
エピソード3」のレビュー（http://moviessearch.yahoo.co.jp/detail?ty=mv\&id=321602）のうち、星の数が１〜３個のレビューを「反対」、４〜５個のレビューを「賛成」とみなして入力した結果である。「アナキン」や「オビワン」といった登場人物の名前や、「戦闘シーン」、「ストーリー展開」などが論点として抽出された。

Ｈ．評価実験
（１）概要
システムの評価方法には、「ブラックボックステスト」と「グラスボックステスト」と呼ばれる２つの方法がある。ブラックボックステストは、入力出力のみでシステムの性能を評価する方法である。しかし、システムが複数の要素で構成されている場合は、各要素の貢献度を個別に評価する必要がある。そこで、グラスボックステストは、システムを構成する各要素の性能を個別に評価する。システムの評価を行う場合には、これら２つの評価を行うことが必要である。

本意思決定支援システムで作成したシステムは、人間の意思決定支援を目的としている。そのため、本システムに対してブラックボックステストを行う場合、システムを被験者に使用してもらって、意思決定にどのくらい役立ったかを評価する必要がある。しかし、被験者が個人かグループかによって、意思決定がユーザに及ぼす影響は異なる。また、テーマによっても得られる結果が異なる可能性がある。すなわち、「不確定な要素」が多い。不確定要素が多い評価実験を行う例として、ＴＲＥＣ（http://trec.nist.gov/）やＮＴＣＩＲ（http://research.nii.ac.jp/index-ja.html）などの評価ワークショップがある。これらのワークショップでは、１年から１年半の期間をかけて、情報検索や自然言語処理の評価データや評価手法を開拓していく。言い換えれば、評価実験の方法を確立すること自体が１つの研究テーマである。そこで、本意思決定支援システムはブラックボックステストは行わずに、グラスボックステストだけを行った。具体的には、「論点の抽出」、「名詞句の言い換え」、「固有度の計算」、「代表的な意見の選択」を評価した。

評価用のデータには、時事問題に対する意見テキストを使用した。いずれも、不特定多数のユーザが投稿した意見情報を公開しているウェブサイトから人手で収集した。表７に、使用したテーマ、意見数、出典を示す。なお、「郵政民営化に賛成ですか」については、ｅｗｏｍａｎに掲載されていた意見３０件に、首相官邸のホームページに掲載されていた意見１８件を合わせて評価対象とした。また、以降の説明では、簡単のために表７の「略記」に示したキーワードで各テーマを区別する。評価の客観性を高めるために、各テーマにつき２名の判定者に評価を依頼した。

（２）「論点の抽出」の評価
ａ）実験方法
本意思決定支援システムは、意見中の名詞句と動詞句を論点として抽出し、論点の分布を２次元の平面上に表すことで、意見が対立する構図を可視化する。そのため、論点の抽出は、システム全体の性能に及ぼす影響が大きい。具体的には、以下の観点について評価する。

ｉ）論点を名詞句と動詞句として抽出する手法が妥当であるか
ｉｉ）人間が抽出した論点をシステムがどれだけ抽出できるか
「論点の抽出」の目的は、人間が抽出した論点を、システムによって正確かつ網羅的に抽出することである。そこで、正確性と網羅性を「精度」と「再現率」でそれぞれ求める。

テーマごとに、システムで抽出した論点と判定者が抽出した論点を比較し、数６と数７によって精度と再現率を計算する。

システムは、抽出した各論点について、まず固有度が大きい方の立場（賛成か反対）に分類する。そして、賛成と反対それぞれの立場に分類された複数の論点群を重要度に基づいてソートして、順位付きリストを作る。最後に、賛成と反対の各リストについて上位Ｎ件の論点を抽出し、精度と再現率を計算する。なお、Ｎを段階的に増やしながら精度と再現率の変化を観測する。判定者には、表７に示したテーマに対する賛成意見と反対意見のリストを渡した。

判定者は、各意見を読んで、論点だと思う箇所を抜粋した。論点とは、各意見の「賛成または反対の論拠となっている部分」と定義した。抜粋する単位は、語、句、文などを問わない。また、１つの意見に論点だと思う箇所が複数ある場合は全て挙げてもらった。

図１０に、判定者によって抽出された論点の例を示す。図１０は「株式会社の病院経営への参入」というテーマに対する反対意見の１つであり、下線部が判定者によって抽出された論点である。

ｂ）実験結果
判定者とシステムが抽出した論点数の内訳を表８に示す。「判定者」の欄にある括弧内の数字は、システムが抽出した論点と完全一致した論点数を表す。

これらの数字から、判定者ごとに精度と再現率を求め、判定者を横断して平均した値をそのテーマでの精度と再現率とした。表９に各テーマの精度とその平均を、表１０に各テーマの再現率とその平均を示す。さらに、テーマを横断して、精度と再現率をそれぞれ平均して描いた再現率・精度グラフを図１１に示す。

重要度が上位の論点ほど精度が高く、下位の論点ほど精度が低くなる傾向が出た。また、再現率は重要度が上位であるほど低く、下位にいくほど高くなった。このことから、ユーザがインタフェース上に表示される重要度の下限を調節することにより、精度と再現率のどちらかを優先して表示することが可能であることがわかった。

本システムの比較対象として、判定者の精度と再現率を計算した。具体的には、一方の判定者が抽出した論点を正解として、もう一人の判定者がそれをどれだけ正確かつ網羅的に抽出できるかを評価した。表１１にテーマごとの内訳を示す。全テーマの平均は、精度と再現率ともに０．１０であった。本システムの精度と再現率は、それぞれ０．５０と０．４８であった。

図１２〜１３に、判定者間で抽出する論点が異なった例を示す。図１２と図１３はともに、「株式会社による病院経営への参入」というテーマに対する賛成意見の１つである。図１２の下線部は判定者Ａ、図１３の下線部は判定者Ｂが抽出した論点を表している。判定者Ａ、判定者Ｂともに、「情報公開」と「モラルの低さ」を論点として抽出した。しかし、「医療ミス」と「信用」は判定者Ａだけが抽出し、「高いモラル」は判定者Ｂだけが抽出した。

判定者によって論点として抽出する単位が異なるため、完全一致する件数が少なくなった。例えば、「苛酷な労働条件が改善される」という意見から、判定者がともに「労働条件」という言葉を中心に論点を抽出していても、抽出した箇所は「苛酷な労働条件」と「労働条件が改善」というように、表記が異なってしまう。これに対し、システムは、「苛酷な労働条件」、「苛酷な労働条件改善」、「労働条件」、「労働条件改善」のように、異なる範囲を網羅的に論点を抽出する。そのため、システムの精度と再現率の方が、判定者よりも高くなった。

また、人間が抽出した論点のうち、７８．５％が名詞句、２％が動詞句、１９％がそれ以外であった。この結果から、名詞句と動詞句を論点として扱う本手法では、最高で、人間が抽出した論点の約８割を網羅することがわかる。そこで、名詞句と動詞句を論点として扱う本手法は有効であることがわかった。動詞句の割合は２％と少なかった。しかし、人間が抽出する論点の中に含まれていること、意見中に存在する絶対数が少ないことから、抽出しても特に弊害はないと考える。また、「時間が掛かる」のように、動詞句として抽出しないと意味がない論点が存在することから、動詞句の有用性は定性的に明らかである。

ｃ）誤り分析
人間が抽出した論点のうち、システムでも抽出できた論点の割合は、名詞句が６０％、動詞句が４４．３％であった。人間が抽出した論点のうち、名詞句または動詞句であるにも拘わらずシステムは抽出できなかった論点と、名詞句でも動詞句でもないために抽出できなかった論点の内訳を、「エスカレーターの片側歩行」というテーマについて、表１２〜１４に示す。

表１２〜１４に挙げた例は、いずれも、判定者は抽出したものの、システムは抽出できなかった論点である。（ａ）〜（ｊ）は、いずれも抽出対象にしていなかったことに起因する誤りである。そのため、これらのパターンを抽出規則に加えることで抽出は可能になる。しかし、副作用として、正解の数よりもノイズが増える可能性がある。特に、（ａ）、（ｅ）、（ｈ）に対応すると、論点ではない一般的な語が大量に抽出されるため、ストップワードの整備が重要となる。

（３）「名詞句の言い換え」の評価
ａ）実験方法
本意思決定支援システムで作成したシステムは、論点を抽出する際に、表記が異なっていても意味が同じ論点を統一するため、サ変動詞語幹の名詞を含む名詞句を以下のように言い換える。
名詞＋（が|を|は|の）＋サ変動詞語幹 → 名詞＋サ変動詞語幹
この規則により、例えば、「情報を公開」、「情報が公開」、「情報の公開」は全て「情報公開」に統一される。

しかし、言い換え規則の対象となる全ての名詞句が、この規則で言い換えることができるとは限らない。例えば、「他国の侵略」という名詞句において、「侵略」はサ変動詞語幹の名詞と解析されるので、本システムでは「他国侵略」と言い換えられる。しかし、言い換え前の「他国の侵略」は、「他国による侵略」という意味であるのに対して、言い換え後の「他国侵略」は「他国への侵略」という意味にも取ることができる。そこで、この規則による言い換えがどの程度妥当であるのかを評価する必要がある。

判定者が表７の各テーマに対する意見から抽出した全ての論点のうち、本システムにより言い換えが行われた論点のべ５８件を評価対象とした。各論点と抽出元の意見を共に判定者に見てもらい、抽出元である意見の文脈において言い換えが適切であるかを、以下の３段階で判定してもらった。

ｉ）Ａ：意味が変わらない、違和感がない
ｉｉ）Ｂ：違和感があるものの、許容できる
ｉｉｉ）Ｃ：意味が変わってしまう、違和感がある
どの判定者が抽出した論点であるかは問わず、言い換え対象となる全ての論点を、全ての判定者に判定してもらった。また、異なる意見から同じ論点が抽出されている場合や、異なるテーマにおいて同じ論点が抽出されている場合は、抽出元である意見の文脈ごとに判定してもらった。

ｂ）実験結果
判定者２名の判定結果の平均を正解と考えた場合の本手法の正解率を、表１５に示す。評価対象全体の正解率は、Ａだけを正解と考えた場合が４６．６％、ＡとＢを正解と考えた場合が７４．２％であった。

判定された名詞句の内訳を表１６〜１８に示す。括弧内の数字は、その論点が複数の意見から抽出された場合の意見数を表す。今回の評価対象には、名詞間の助詞が「は」であった例は存在しなかった。

異なる意見から同じ論点が抽出されている場合や、異なるテーマにおいて同じ論点が抽出されている場合は、抽出元である意見ごとに判定を行ってもらった。しかし、今回の評価実験では、同じ論点を言い換えた結果の適否が意見によって異なる例はなかった。

今回の実験結果からは、「Ａ」と「Ｃ」と判定された並びや、助詞による違いから何らかの法則性を発見することはできなかった。

現在のシステムは、言い換え規則が適用できるもの全てを言い換えている。しかし、同じテーマの中に「表記は異なっても意味は同じ」論点が存在しない場合は、そもそも言い換える必要がない。言い換えの必要がある場合のみに規則を適用することで、言い換えによる誤りを減らすことができる。また、言い換え前の名詞句と言い換え後の名詞句の出現頻度をコーパスで調べて、出現頻度が高い表現に統一する方法も有効である。

（４）「固有度の計算」の評価
ａ）実験方法
本システムでは、論点Ａの出現する確率が賛成派と反対派のどちらに多いかに基づいて、論点Ａの固有度を計算する。固有度は−１以上１以下の値をとり、正ならば賛成派に、負ならば反対派に固有な論点であることを示す。

しかし、賛成意見の中で論点Ａについて論じていても、実際は「賛成だが、Ａについては反対である」のように、逆の立場の論拠として記述されることがある。このような場合、本手法で計算する固有度は、その論点が属する「真の立場」と一致しないことがある。

また、論点Ａを含んでいる意見の中には、Ａを含んでいるだけで、実際にはＡについて論じていない意見もある。本手法では「Ａを含んでいる意見」を対象として固有度を計算するため、「Ａを論じている意見」を対象とする理想的な固有度と値が異なる場合がある。

そこで、本手法で計算する固有度がどの程度妥当であるのかを評価した。
固有度は連続値であり、「賛成もしくは反対の度合い」を表す。しかし、人間が各意見に対して「賛成もしくは反対の度合い」を判定することは難しい。そこで、間接的な評価方法として、人間が判定した論点Ａが属する立場と、本手法の固有度によって求めた論点Ａが属する立場を比較した。

判定者には、各意見から論点を抽出してもらう際に、その論点が、抽出元の意見が属する立場と逆の立場の論拠であると思う場合は、その旨を明記して抽出してもらった。例えば、「株式会社による病院経営への参入」というテーマの賛成派に属する「賛成だが、やはり利益追求に走るのではという懸念がある」という意見の場合、「利益追求」は反対派の論拠なので、「利益追求（逆）」という形で抽出してもらった。この場合、「利益追求」に対する真の立場は「反対」である。判定者による「真の立場」と、システムが決定した立場を比較した。

ｂ）実験結果
表１９に、判定者ごとの判定結果を示す。「システムも抽出した論点数」は、その判定者が抽出した論点のうち、システムが抽出した論点と完全一致した論点の数を表す。「立場が同じ論点数」は、判定者による「真の立場」と、システムが決定した立場が一致した論点の数を表す。「正解率」は、固有度による分類の正解率を表す。

テーマごとに、判定者の判定による「真の立場」とシステムが決定した立場が一致した論点数の割合を平均し、それらをさらにテーマを横断して平均し、システムの正解率を求めた。全テーマを総合した正解率は９５．６％であった。

（５）「代表的な意見の選択」の評価
ａ）実験方法
本意思決定支援システムで提案するシステムは、インタフェース上で、ユーザが選択した論点について論じている意見の中から代表的な意見を表示するという機能を持っている。「全ての意見を読まなくても議論の要点がわかる」という目的を達成するためには、より重要な意見を優先して表示する必要がある。そこで、人間が「代表的」と判定した意見と、本手法で「代表的」と判断された意見を比較し、本手法で選択する代表的な意見が本当に代表的かどうかを評価する。

「論点の抽出」の評価と同じように、判定者には表７に挙げたテーマと、それに対する賛成意見と反対意見のリストを渡した。そして、自分が意見中から抽出した論点Ａについて、論点Ａについて論じていると思う意見を全て挙げてもらった。このとき、論点Ａについて論じている意見が複数ある場合には、その中で最も重要だと思う意見を、「代表的な意見」として選んでもらった。論点Ａについて論じている意見が、賛成と反対の両方に複数ある場合は、それぞれの立場から重要だと思う意見を選択してもらった。また、重要だと思う意見が複数ある場合は全て挙げてもらった。

表記は異なっていても同じ意味を表す論点がある場合は、代表的な意見はそれらの各論点について論じている意見全ての中から選択してもらった。例えば、「情報公開」と「情報開示」が同じ意味であると判断した場合は、「情報公開」について論じている意見が３件、「情報開示」について論じている意見が２件あれば、「情報公開」と「情報開示」から成る論点群の代表的な意見は、以上の５件から選択してもらった。これは、表記の異なりごとに代表的な意見を考えた場合に、その論点について論じている意見が１件しかなく、重要だと考える比較対象がなくなるケースを防ぐためである。このため、評価実験のためのシステムへの入力も、先の「情報公開」と「情報開示」の例では、それについて論じている５件の意見と、単に「情報公開」または「情報開示」を含んでいる意見を入力とする。そして、人間が最も代表的だと判断した意見が、システムでも代表的と判断されるのかどうかを調べた。

判定者の評価によって、各意見を次のように分類した。
ｉ）Ａ：その論点について論じている意見の中で代表的な意見
ｉｉ）Ｂ：その論点について論じているものの、代表的ではない意見
ｉｉｉ）Ｃ：その論点を含んでいても、その論点について論じられていない意見
判定者は、その論点について「論じている」と判断した意見の中から代表的な意見を選ぶ。しかし、システムは、その論点を「含んでいる」意見群に重要さの順位を付けるので、含んでいるだけで論じてはいない意見（Ｃに該当）にも順位を付ける。そこで、システムが出力した順位付きリストの上位１０件について、１位から順番に、判定者が「論じている」と判断した意見、「代表的」と判断した意見に対する精度と再現率を調べた。正解は「Ａだけ」と「ＡとＢ」の２種類を考える。

順位付きリストのＮ位までをシステムの出力と見なした場合の精度と再現率は、数８と数９で計算する。

ただし、論じている意見が複数ある論点と意見の対だけを対象とし、論じている意見が１つしかない論点と意見の対は対象としなかった。

ｂ）実験結果
テーマごとに判定者間の平均を計算し、さらにテーマを横断して平均した精度と再現率を表２０〜２３に示す。全テーマの平均をとった精度と再現率のグラフを図１４に示す。

また、ランダムに意見を並べた場合の精度と本システムで順位付けした場合の精度を表２４に示す。表２４は、上位３件の意見のうち、各順位までの意見を出力とみなした場合の精度である。

図１４より、Ａだけを正解とした場合と、ＡとＢの両方を正解とした場合によらず、上位の意見ほど高い精度が得られた。また、表２４より、ランダムに意見を並べた場合よりも、本システムによって順位付けした場合の方が高い精度が得られた。しかし、再現率は、Ａだけを正解とした場合と、ＡとＢの両方を正解とした場合でほぼ同じ曲線となった。すなわち、論点Ｘを含んでいる意見内におけるＡの分布と、Ｂの分布はほぼ同じであることがわかった。Ａがより上位に分布していることが理想であるため、本手法にはまだ改善の余地がある。

表２５は、各テーマごとに、それぞれの論点を含んでいる意見数の平均と、Ａと判定された意見の平均順位を示している。それぞれの論点を含んでいる意見数とは、判定者が各テーマから抽出した論点群を含んでいる意見数を平均した値である。例えば、「成果主義」の場合は、論点Ｘを含んでいる意見数の平均が６．８２件であり、そのうち人間がＡと判断した意見が平均３．０４位であったことを表している。

表２５において、「含んでいる意見数」の括弧内にある数は、含んでいる意見数の中央値を表している。この数字は、本手法による意見の重要さの順位付けを行わず、無作為に出力した結果の平均である。全テーマに対するＡの意見の平均順位は３．２７であり、無作為の順位である２．７２を下回ってしまった。しかし、テーマごとに見ると、５件中３件のテーマ（成果主義、病院経営、郵政民営化）ではＡの平均順位が高くなった。このことから、本手法が有効に働く場合とそうではない場合があることがわかった。今後は、評価対象のテーマ数を増やして、さらなる分析を行う必要がある。

以上詳しく説明したように、本発明に係る意思決定支援システムは、テキストマイニング手法を有効活用し、入力された所与のテーマに関連する意見テキスト群を収集し、この意見テキスト群の中から前記テーマに関連する複数の論点を抽出してその論点毎の肯定又は否定等の立場を有する意見の割合を表す固有度と、その論点毎の立場を含んでいる意見の重要度を算出することにより、当該テーマに関連する多くの世人の意見に基づいての複数の論点を参照することにより合理的且つ妥当性のある決定支援情報を提供することを可能にしたのである。

また、本意思決定支援システムは、最新の時事問題に係る論点を含むテーマについて特に有効であり、最新の意見テキストを収集するので収集する情報内容が固定化又は陳腐化することがなく、当該テーマに関連する多くの人の意見のトレンドに応じた決定支援のための判断情報の提供が可能である。

本発明は、本発明は、人間が所与のテーマについて意思決定する際に関連する有用な情報を収集し提示して人間の意思決定を支援するコンピュータ及びデータベースを使用した意思決定支援システムに関するものであって、産業上の利用可能性を有する。

本発明の意思決定支援システム１０の構成機能ブロック図を示す。本意思決定支援システムにおいて、収集された意見テキスト群の中から主観情報を抽出してから、意思決定を支援する情報画面を出力に至るまでのフローを模式的に表す。論点分布の表示例を示す。関連語の表示例を示す。代表的な意見の表示例を示す。抽出された論点の例を示す。形態素解析の例を示す。係り受け解析の例を示す。多段階評価のレビューを入力した実行例を示す。判定者が抽出した論点の例を示す。論点抽出の再現率−精度グラフの例を示す。判定者Ａが抽出した論点の例を示す。判定者Ｂが抽出した論点の例を示す。全テーマに対する精度と再現率の例を示す。

符号の説明

１０：本意思決定支援システム
１１：入力手段
１２：論点抽出手段
１３：固定度算出手段
１４：重要度算出手段
１５：関連語抽出手段
１６：代表意見選択手段
１７：インタフェース手段
１８：データベースサーバ
１９：ウェブ検索サーバ
２０：ゲートウェイサーバ
２１：ファイヤーウォール
２２：記憶装置（１）
２３：記憶装置（２）
２４：記憶装置（３）
２５：ＷＷＷインターネット

Claims

データベースと、
前記データベースにアクセスして、入力されたテーマに関連する意見テキスト群を収集し、当該意見テキスト群の中から前記テーマに関連する複数の論点を抽出する論点抽出手段と、
前記複数の論点毎に、当該論点を含んでいる前記意見テキストの中から当該論点に一の立場を有する意見の割合を表す固有度を算出する固有度算出手段と、
前記複数の論点毎に、前記一の立場を含んでいる意見の重要度を算出する重要度算出手段と、
前記複数の論点に関連する関連語を抽出する関連語抽出手段と、
前記複数の論点毎に対する肯定又は否定の意見における複数の代表意見を選択する代表意見選択手段と、
前記各手段から出力された前記複数の論点、当該論点毎の前記固有度及び前記重要度を出力するインタフェース手段と、
の各手段を有することを特徴とするテキストマイニングによる意思決定支援システム。
前記データベースは、インターネットに接続されたマルチメディア上のデータを検索するブラウザを有するウェブ検索サーバと、前記検索されたデータを収集格納するデータベースサーバと、を含むことを特徴とする請求項１に記載の意思決定支援システム。
前記論点収集手段は、前記入力されたテーマに関連する意見テキスト群の中に現れる名詞句及び動詞句を抽出することにより前記テーマに関連する複数の論点を抽出することを特徴とする請求項１に記載の意思決定支援システム。
前記固有度算出手段により算出される前記固有度は、個々の前記論点に対する肯定の立場を有する意見の確率を求めることにより算出されることを特徴とする請求項１に記載の意思決定支援システム。
前記重要度算出段により前記重要度は、前記全意見テキストにおいて肯定又は否定の何れか一方の立場における全論点の出現頻度の中で、当該一方の立場での論点の出現頻度の割合を求めることにより算出されることを特徴とする請求項１に記載の意思決定支援システム。
前記関連語抽出手段により抽出される関連語は、前記論点を含んでいる意見テキストの中から重複して出現する名詞、動詞及び形容詞等の内容語の中から抽出されることを特徴とする請求項１に記載の意思決定支援システム。
前記代表意見選択手段は、ある論点を含む意見テキストの全てを形態素解析し前記内容語の出現頻度を計算することにより前記複数の代表意見を選定し、当該選定され複数の代表意見の出現頻度をスコアリングすることにより前記複数の代表意見を順位付けして出力することを特徴とする請求項６に記載の意思決定支援システム。
前記インタフェース手段は、前記固有度と前記重要度の２次元面上に前記複数の論点、前記関連語又は前記代表的意見をプロットした画像データを出力することを特徴とする請求項１又は７に記載の意思決定支援システム。
インターネットに接続されたマルチメディア上のデータを検索するブラウザを有するウェブ検索サーバと前記検索されたデータを収集格納するデータベースサーバとから成るデータベースにアクセスし、所与のテーマに関するテキストマイニングを行うことにより意思決定を支援する方法であって、
（ａ）前記所与のテーマに関連する意見テキスト群を収集するステップと、
（ｂ）前記意見テキスト群の中から前記テーマに関連する複数の論点を抽出するステップと、
（ｃ）前記複数の論点毎に、当該論点を含んでいる前記意見テキストの中から当該論点に一の立場を有する意見の割合を表す固有度を算出するするステップと、
（ｄ）前記複数の論点毎に、前記一の立場を含んでいる意見の重要度を算出するステップと、
（ｅ）前記複数の論点に関連する関連語を抽出するステップと、
（ｆ）前記複数の論点毎に対する肯定又は否定の意見における複数の代表意見を選択するステップと、
（ｇ）少なくとも、前記複数の論点、当該論点毎の前記固有度及び前記重要度を出力するステップと、
の各ステップを有することを特徴とするテキストマイニングによる意思決定支援方法。
前記ステップ（ｂ）は、前記入力されたテーマに関連する意見テキスト群の中に現れる名詞句及び動詞句を抽出することにより前記テーマに関連する複数の論点を抽出することを特徴とする請求項９に記載の意思決定支援方法。
前記ステップ（ｃ）は、個々の前記論点に対する肯定の立場を有する意見の確率を求めることにより前記固有度を算出することを特徴とする請求項９に記載の意思決定支援方法。
前記ステップ（ｄ）は、前記全意見テキストにおいて肯定又は否定の何れか一方の立場における全論点の出現頻度の中で、当該一方の立場での論点の出現頻度の割合を求めることにより前記重要度を算出することを特徴とする請求項９に記載の意思決定支援方法。
前記ステップ（ｅ）は、前記論点を含んでいる意見テキストの中から重複して出現する名詞、動詞及び形容詞等の内容語の中から前記関連語を抽出することを特徴とする請求項９に記載の意思決定支援方法。
前記ステップ（ｆ）は、
（ｆ−１）ある論点を含む意見テキストの全てを形態素解析して前記内容語の出現頻度を計算することにより前記複数の代表意見を選定するステップと、
（ｆ−２）前記選定され複数の代表意見の出現頻度をスコアリングするステップと、
（ｆ−３）前記複数の代表意見を前記スコアリングによるポイントの高い順に出力するステップと、
の各ステップを有することを特徴とする請求項１３に記載の意思決定支援方法。
前記ステップ（ｇ）は、前記固有度と前記重要度の２次元面上に前記複数の論点、前記関連語又は前記代表的意見をプロットした画像データ含を出力することを特徴とする請求項９又は１４に記載の意思決定支援方法。