JP2010211594A

JP2010211594A - テキスト分析装置および方法、並びにプログラム

Info

Publication number: JP2010211594A
Application number: JP2009057939A
Authority: JP
Inventors: Shingo Takamatsu; 慎吾高松
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-03-11
Filing date: 2009-03-11
Publication date: 2010-09-24
Anticipated expiration: 2029-03-11
Also published as: CN101833549A; CN101833549B; JP5359399B2; US20100235308A1; US8412650B2

Abstract

【課題】テキストベースの議論において、個人の意見の変遷や意見の相互作用を概観し、短時間で議論の理解をより深めることができるようにする。
【解決手段】テキストマイニングシステム１０は、ブラウザ３１からの要求（クエリ）に基づいて、議論の分析を行なう。テキスト特徴量抽出部３２が、議論のテキストデータのそれぞれの特徴量を抽出し、概念情報抽出部３３がその特徴量を分類、分析して、概念情報を生成する。学習用データ構築部３４および時系列ノードパターン抽出部３５は、隠れマルコフモデルの学習を行って、議論のテキストデータの時系列でのノードラベルの変化を得る。著者情報特定部３６、変遷特定部３７、および影響特定部３８が議論に参加した特定のユーザの意見の変遷やそれによる影響などに関する情報を生成する。マイニング結果表示部３９がその情報を分析結果としてブラウザ３１に提示する。
【選択図】図１

Description

本発明は、テキスト分析装置および方法、並びにプログラムに関し、特に、テキストベースの議論において、個人の意見の変遷や意見の相互作用を概観し、短時間で議論の理解をより深めることができるようにするテキスト分析装置および方法、並びにプログラムに関する。

近年、情報処理技術の発達により、例えば、電子掲示板などを利用してテキストベースで議論を行う機会が多くなってきた。このような場合、電子掲示板に、各ユーザの意見などが記述された文書が次々と掲載されていくことになる。

このようにテキストベースの議論として掲載された文書を全て読むのは多くの時間を費やすことが多い。また、このような議論で交わされる意見は相互に影響を与えながら時間とともに変化していく。

そこで、意見としてのテキストとその時間情報を利用することにより、議論をマイニングする技術が有用である。時間情報をもったテキスト集合をもとに、話題の変遷を概観することを目的としたマイニング手法も提案されている（例えば、特許文献１参照）。

特開平１０−１５４１５０号公報

しかしながら、従来の技術は、与えられたテキスト集合全体の傾向を概観するための技術であり、テキストベース議論における個人の意見の変遷や意見の相互作用を概観することができない。

本発明はこのような状況に鑑みてなされたものであり、テキストベースの議論において、個人の意見の変遷や意見の相互作用を概観し、短時間で議論の理解をより深めることができるようにするものである。

本発明の一側面は、所定のテーマについての議論に参加したユーザの意見のそれぞれをテキストデータとして、前記テキストデータの著者を特定する著者情報とともに記憶する記憶手段と、前記記憶手段に記憶されたテキストデータのそれぞれの特徴量データを生成する特徴量データ生成手段と、前記特徴量データに予め設定された処理を施して得られた情報に基づいて、観測時系列信号を生成する観測時系列信号生成手段と、前記観測時系列信号に基づいて前記議論の変化点を検出する変化点検出手段と、前記検出された変化点、前記著者情報に基づいて、前記議論の意見の中で、指定されたテキストデータに対応する意見が、影響を受けたとされる意見を特定する影響特定手段とを備えるテキスト分析装置である。

前記議論に参加したユーザの中で、指定されたユーザの意見を特定するユーザ意見特定手段と、前記時系列ノードパターンに基づいて、前記指定されたユーザの意見の変化を表示し、前記指定されたユーザの意見が影響を受けたとされる意見、または、前記指定されたユーザの意見から影響を受けたとされる意見を表示する表示手段とをさらに備えるようにすることができる。

前記表示手段は、さらに、前記議論に参加したユーザのそれぞれについて、前記ユーザの意見から影響を受けたとされる意見の数をカウントして表示するようにすることができる。

前記議論に参加したユーザのそれぞれについて、前記ユーザの意見の変化の回数をカウントし、前記ユーザの意見から影響を受けたとされる意見の数をカウントし、前記カウントされた変化の回数および意見の数に基づいて、前記ユーザの性格を特定するようにすることができる。

前記観測時系列信号生成手段は、前記特徴量データに基づいて、前記特徴量データに対応するテキストデータの意見について、予め設定された評価対象に対する極性情報を算出し、前記算出された極性情報に基づいて前記観測時系列信号を生成するようにすることができる。

前記観測時系列信号を学習して、前記テキストデータのそれぞれの隠れマルコフモデルのノードラベルを特定するとともに、前記ノードラベルを観測時系列信号に対応する順番で並べた時系列ノードパターンを生成する時系列ノードパターン生成手段をさらに備え、前記変化点検出手段は、前記時系列ノードパターンに基づいて、前記議論の変化点を検出するようにすることができる。

本発明の一側面は、所定のテーマについての議論に参加したユーザの意見のそれぞれをテキストデータとして、前記テキストデータの著者を特定する著者情報とともに記憶する記憶手段に記憶されたテキストデータのそれぞれの特徴量データを生成し、前記特徴量データに予め設定された処理を施して得られた情報に基づいて、観測時系列信号を生成し、前記観測時系列信号に基づいて前記議論の変化点を検出し、前記検出された変化点、前記著者情報に基づいて、前記議論の意見の中で、指定されたテキストデータに対応する意見が、影響を受けたとされる意見を特定するステップを含むテキスト分析方法である。

本発明の一側面は、コンピュータを、所定のテーマについての議論に参加したユーザの意見のそれぞれをテキストデータとして、前記テキストデータの著者を特定する著者情報とともに記憶する記憶手段と、前記記憶手段に記憶されたテキストデータのそれぞれの特徴量データを生成する特徴量データ生成手段と、前記特徴量データに予め設定された処理を施して得られた情報に基づいて、観測時系列信号を生成する観測時系列信号生成手段と、前記観測時系列信号に基づいて前記議論の変化点を検出する変化点検出手段と、前記検出された変化点、前記著者情報に基づいて、前記議論の意見の中で、指定されたテキストデータに対応する意見が、影響を受けたとされる意見を特定する影響特定手段とを備えるテキスト分析装置として機能させるプログラムである。

本発明の一側面においては、所定のテーマについての議論に参加したユーザの意見のそれぞれをテキストデータとして、前記テキストデータの著者を特定する著者情報とともに記憶する記憶手段に記憶されたテキストデータのそれぞれの特徴量データが生成され、前記特徴量データに予め設定された処理を施して得られた情報に基づいて、観測時系列信号が生成され、前記観測時系列信号に基づいて前記議論の変化点が検出され、前記検出された変化点、前記著者情報に基づいて、前記議論の意見の中で、指定されたテキストデータに対応する意見が、影響を受けたとされる意見が特定される。

本発明によれば、テキストベースの議論において、個人の意見の変遷や意見の相互作用を概観し、短時間で議論の理解をより深めることができる。

本発明の一実施の形態に係るテキストマイニングシステムの構成例を示すブロック図である。特徴量ベクトルの例を示す図である。概念情報の例を示す図である。学習用データの例を示す図である。時系列ノードパターンの例を示す図である。著者別時系列ノードパターンの抽出の例を説明する図である。議論の変化点の検出の例を説明する図である。議論の分析結果としてユーザに提示すべき情報が表示された画像の例を示す図である。議論分析処理の例を説明するフローチャートである。テキスト特徴量抽出処理の例を説明するフローチャートである。概念情報抽出処理の例を説明するフローチャートである。学習用データ生成処理の例を説明するフローチャートである。時系列ノードパターン生成処理の例を説明するフローチャートである。個人意見分析処理の例を説明するフローチャートである。ユーザの性格の分類例を示す図である。パーソナルコンピュータの構成例を示すブロック図である。

以下、図面を参照して、本発明の実施の形態について説明する。

図１は、本発明の一実施の形態に係るテキストマイニングシステムの構成例を示すブロック図である。このテキストマイニングシステム１０は、例えば、インターネット上の掲示板、SNS（social networking service）を提供するウェブサイトなどとして構成される。テキストマイニングシステム１０を構成する掲示板、ウェブサイトにおいては、複数のユーザが、例えば、所定のテーマについて議論できるようになされており、ここでの議論は、文字を記述することにより（文章により）行なわれる。すなわち、テキストマイニングシステム１０においては、ユーザによるテキストベースの議論が行なわれるようになされている。

このテキストマイニングシステム１０は、例えば、インターネットなどのネットワークに接続されたサーバなどとして構成される。なお、相互に接続された複数のサーバによりテキストマイニングシステム１０が構成されるようにしても構わない。

この例では、テキストマイニングシステム１０が、ブラウザ３１乃至データベース４０として示される機能ブロックにより構成されている。

図１の例において、例えば、テキスト特徴量抽出部３２乃至データベース４０として示される機能ブロックはサーバに実装される。また、ブラウザ３１として示される機能ブロックは、パーソナルコンピュータなどのユーザ機器に実装される。そして、ブラウザ３１を有するパーソナルコンピュータと、テキスト特徴量抽出部３２乃至データベース４０を有するサーバとが、例えば、インターネットを介して接続される。

テキストマイニングシステム１０においては、例えば、パーソナルコンピュータなどに実装されたブラウザ３１を介してサーバにアクセスした個々のユーザが自身のハンドルネームとともに、所定のテーマについての意見を入力するようになされている。サーバにアクセスしたブラウザの画面には、例えば、ＢＢＳ（Bulletin Board System）における投稿受付用のＧＵＩが表示され、また、所定のテーマについての意見であって、先に入力された意見の一覧が表示される。ここでユーザが入力する意見は、例えば、テキストデータとしてデータベース４０に記憶されるようになされている。

なお、実際には音声として発せられた意見を、音声認識技術を用いてテキストデータに変換してデータベース４０に記憶させるようにすることも可能である。

データベース４０には、各ユーザが入力した意見のテキストデータが、その意見の入力日、時刻などを表す時間情報、およびハンドルネームなどの著作者情報と対応付けられて記憶されている。なお、データベース４０に記憶されているテキストデータは、例えば、議論のテーマ別に分類されて記憶されているものとする。

また、ブラウザ３１のユーザは、テキストマイニングシステム１０によりデータベース４０に蓄積されている所定のテーマの議論の分析を行なわせることも可能である。テキストマイニングシステム１０は、ブラウザ３１のユーザからの要求に基づいて、いわゆるテキストマイニングを行うことにより、所定のテーマの議論の分析を行なう。テキストマイニングは、テキストを利用したデータマイニングのことである。

テキストマイニングは、例えば、テキストから商品やサービスの評価を数値として表すことができるようにする技術であり、テキストから有用な情報を取り出す（マイニングする）ものである。ブラウザ３１のユーザは、テキストマイニングにより議論を構成する文章を、個々に時間情報をもったテキストデータの集合として分析することにより、話題の変遷を容易に概観することが可能となる。すなわち、テキストマイニングにより、議論のテーマとなった物や人などに対する評価が時間の経過に伴って移り変わる様子を簡単に捉えることが可能になるので、話題の変遷を容易に概観することが可能となるのである。

詳細については後述するが、テキストマイニングシステム１０は、ブラウザ３１からの要求（クエリ）に基づいて、議論の分析を行なうようになされている。

まず、テキスト特徴量抽出部３２が、議論のテキストデータのそれぞれの特徴量を抽出し、概念情報抽出部３３がその特徴量を分類、分析して、各テキストデータの意見の意味に注目した概念情報を生成する。

学習用データ構築部３４および時系列ノードパターン抽出部３５は、隠れマルコフモデルの学習を行って、議論のテキストデータの時系列でのノードラベルの変化を得る。すなわち、学習用データ構築部３４が上述した概念情報に基づいて、観測時系列信号となる学習用データを生成し、時系列ノードパターン抽出部３５が観測時系列信号を学習することで隠れマルコフモデルの学習処理を行なう。このようにすることで、抽象的な概念である議論の変化を、例えば、数値情報としての時系列ノードパターンに置き換えることができるのである。

そして、時系列ノードパターンに基づいて、著者情報特定部３６、変遷特定部３７、および影響特定部３８が議論に参加した特定のユーザの意見の変遷やそれによる影響などに関する情報を生成する。マイニング結果表示部３９がその情報を分析結果としてブラウザ３１に提示するようになされている。

図１とともに、図２乃至図７を参照してさらに詳細に説明する。テキストマイニングシステム１０によりデータベース４０に蓄積されている所定のテーマの議論の分析を行なわせる場合、ブラウザ３１は、議論の分析の要求として、クエリなどをテキスト特徴量抽出部３２に送信する。クエリには、例えば、分析させる議論のテーマを特定する情報が含まれている。また、クエリに、例えば、議論に参加したユーザのうち、注目すべきユーザを特定する情報（例えば、ハンドルネームなど）が含まれるようにしてもよい。

テキスト特徴量抽出部３２は、ブラウザ３１からクエリを受信すると、そのクエリに含まれる情報に基づいて、分析すべき議論を特定し、データベース４０から、その特定した議論のテキストデータの集合を読み出す。すなわち、テキスト特徴量抽出部３２は、ブラウザ３１のユーザが指定した議論の中で投稿された全ての意見をデータベースから読み出すのである。

そして、テキスト特徴量抽出部３２は、読み出したテキストデータのそれぞれについて、形態素解析を行なうことにより、そのテキストデータに含まれる単語を抽出する。テキスト特徴量抽出部３２は、抽出した単語のそれぞれについて、例えば、データベース４０に予め記憶されている辞書情報を検索することで、それらの単語のうち、キーワードとなる単語をさらに抽出する。テキスト特徴量抽出部３２は、さらに、当該テキストデータにおいてキーワードのそれぞれの出現頻度を算出し、各キーワードの出現頻度の値を要素するベクトルを生成する。このベクトルは、当該議論の意見として読み出されたテキストデータのそれぞれについて生成され、特徴量ベクトルと称される。

図２は、特徴量ベクトルの例を示す図である。

いま、例えば、あるプロ野球チームのチーム編成をテーマとして行なわれた議論Ｄが、ブラウザ３１から送信されたクエリにより特定されて分析されるものとする。議論Ｄにおいて投稿された意見のテキストデータとして、例えば、テキスト１、テキスト２、・・・があったものとする。

テキスト１は、例えば、「○○監督は更迭すべきだ」という文章のテキストデータであったものとする。テキスト２は、例えば、「××をスタメンにしないのはおかしい」という文章のテキストデータであったものとする。

テキスト１が形態素解析されて辞書情報が検索されたことにより、「監督」、「更迭」というキーワードが抽出されたものとする。テキスト２が形態素解析されて辞書情報が検索されたことにより、「××」というキーワードが抽出されたものとする。また、テキスト１およびテキスト２以外のテキストデータが形態素解析されて辞書情報が検索されたことにより、「東京」、・・・というキーワードが抽出されたものとする。

テキスト特徴量抽出部３２は、図２に示されるように、議論Ｄの意見として読み出されたテキストデータのそれぞれについて特徴量ベクトルを生成する。同図に示されるように、テキスト１、テキスト２、・・・の特徴量ベクトルは、キーワード「監督」、「東京」、「××」、・・・「更迭」に対応する要素を有するベクトルとされる。そして、ベクトルの各要素の値は、それぞれキーワードの出現頻度を表す数値とされている。この例では、テキスト１の特徴量ベクトルのキーワード「監督」に対応する出現頻度が１とされ、キーワード「更迭」に対応する出現頻度が１とされている。また、この例では、テキスト２の特徴量ベクトルのキーワード「××」に対応する出現頻度が１とされている。

従って、この例の場合、テキスト１の特徴量ベクトルは、（１，０，０，・・・，１）となり、テキスト２の特徴量ベクトルは、（０，０，１，・・・，０）となる。

テキスト特徴量抽出部３２は、このように、特徴量ベクトルを生成する。

概念情報抽出部３３は、特徴量ベクトルを予め設定された基準により分類することで、テキストデータのそれぞれをクラスタリングする。概念情報抽出部３３は、例えば、特徴量ベクトルの要素の値の合計値などに基づいて特徴量ベクトルを１乃至４のクラスタに分類し、分類された特徴量ベクトルに対応するテキストデータにそれらのクラスタを表すクラスタラベルを付与する。

また、概念情報抽出部３３は、特徴量ベクトルを入力情報としてテキスト評価分析を行なう。なお、テキスト評価分析の詳細については、例えば、「テキストを対象とした評価情報の分析に関する研究動向.自然言語処理, Vol.13, No.3, 2006.」などの文献に開示されている。テキスト評価分析の結果、各特徴量ベクトルに対応するテキストデータの意見が、予め設定された評価対象について肯定的であるか否定的であるかを表す極性情報を得ることができる。ここで、評価対象は、例えば、「○○監督更迭」などとされ、やはりテキストデータとして設定される。極性情報は、例えば、肯定を表す数値「１」、否定を表す数値「２」、中立を表す数値「３」、意見なしを表す数値「４」として得られる。

概念情報抽出部３３は、例えば、上述したクラスタラベル、および極性情報を要素する２次元のベクトルを、各テキストデータの概念情報として生成する。図３は、概念情報の例を示す図である。

同図の例では、クラスタラベルと、「○○監督更迭」を評価対象とした極性情報とが要素とされた２次元のベクトルとして、テキスト１、テキスト２、・・・の概念情報が示されている。同図の例では、テキスト１の概念情報におけるクラスタラベルの要素の値は３とされ、極性情報の要素の値は１とされている。また、テキスト２の概念情報におけるクラスタラベルの要素の値は１とされ、極性情報の要素の値は４とされている。

概念情報は、テキストデータとして分析される意見のそれぞれが意味する内容を、数値などにより把握できるようにするために生成される情報である。後述するように、概念情報を基に学習用データを生成して隠れマルコフノードの学習処理が行われる。このようにすることで、例えば、議論の中における発言者（テキストを入力したユーザ）の立場などのような、極めて抽象的な概念を、例えば、数値情報として認識することができるようになる。

ここでは、概念情報が２次元のベクトルとされる場合の例について説明したが、クラスタラベル、極性情報の他、別の要素を追加したより多次元のベクトルとして生成されるようにしてもよい。

学習用データ構築部３４は、後述する時系列ノードパターン抽出部３５において、隠れマルコフノードを学習により特定するための学習用データを生成する。学習用データは、例えば、概念情報の要素に、時間情報を追加し、概念情報の要素のそれぞれを時系列に並べることで得られるデータとされる。

図４は、学習用データの例を示す図である。同図に示されるように、学習用データには、時間情報、クラスタラベル、および「○○監督更迭」を評価対象とした極性情報が要素として含まれている。そして、時間情報に基づいて、クラスタラベル、および「○○監督更迭」を評価対象とした極性情報が時系列に並べられている。時間情報は、上述したように、議論Ｄにおいて、・・・テキスト１、テキスト２、・・・に対応する意見が入力された時刻を表す情報とされる。

時系列ノードパターン抽出部３５は、学習用データ構築部３４により構築された学習用データを、観測時系列信号として学習することで隠れマルコフモデルの学習処理を行なう。そして、時系列ノードパターン抽出部３５は、学習用データの・・・テキスト１、テキスト２、・・・におけるノードラベルを特定する。ノードラベルは、例えば、１乃至４の数値により表される。

時系列ノードパターン抽出部３５は、このようにして特定されたノードラベルを、学習用データの時間情報に基づいて時系列に並べることで、時系列ノードパターンを抽出する。すなわち、時系列ノードパターンは、議論Ｄにおいて入力された意見である・・・テキスト１、テキスト２、・・・についての隠れマルコフモデルのノードの時間の経過に伴う変遷を示す情報となる。

例えば、ある議論において、入力された意見がテキスト１乃至テキスト４であったとし、時間的にテキスト１乃至テキスト４の順に入力されたものとする。そして、テキスト１のノードラベルが２、テキスト２のノードラベルが１、テキスト３のノードラベルが３、テキスト４のノードラベルが４であった場合、時系列ノードパターンは、「２，１，３，４」という数値列で表されることになる。なお、実際の時系列ノードパターンは、数値列の各数値（ノードラベル）には、意見を特定する情報が対応付けられて構成される。

図５に時系列ノードパターンの例を示す。この例では、議論Ｄにおいて入力された意見である・・・テキスト１、テキスト２、・・・と、それぞれの意見のノードラベルが対応付けられた情報が時系列ノードパターンのとされている。なお、議論Ｄにおいて入力された意見である・・・テキスト１、テキスト２、・・・のそれぞれは、時間的にその順番（図中上から下方向に順番に）に入力されたものである。

著者特定部３６は、時系列ノードパターンとして得られた数値列の各数値の著者情報を特定する。すなわち、時系列ノードパターンにおける各数値は、議論Ｄにおいて入力された意見についての隠れマルコフモデルのノードラベルであるから、各意見の著者情報により著者を特定することができる。

著者特定部３６は、各意見のテキストデータに対応付けられてデータベース４０に記憶されている著者情報を読み出し、時系列ノードパターンの各数値に対応付ける。例えば、上述した例のテキスト１乃至テキスト４の著者がそれぞれユーザＡ乃至ユーザＤであったとする。この場合、時系列ノードパターン「２，１，３，４」における「２」にユーザＡが対応付けられ、「１」にユーザＢが対応付けられ、「３」にユーザＣが対応付けられ、「４」にユーザＤが対応付けられる。

変遷特定部３７は、著者情報が対応付けられた時系列ノードパターンに基づいて、議論に参加した各ユーザの意見の変遷を特定する。変遷特定部３７は、時系列ノードパターンから所定の著者情報に対応付けられた数値のみを抽出し、著者別時系列ノードパターンを抽出する。

図６は、著者別時系列ノードパターンの抽出の例を説明する図である。同図に示されるように、例えば、時系列ノードパターンが「１，４，４，２，２，１，２，２，２，３，３，３，・・・」であったものとし、ユーザＡの著者別時系列ノードパターンを抽出するものとする。変遷特定部３７は、時系列ノードパターンに対応付けられた著者情報に基づいて、図中の矢印で示される数値を抽出する。この例では、ユーザＡの著者別時系列ノードパターンは、「４，２，３」となる。

このように、著者別時系列ノードパターンを抽出することで、その著者（いまの場合、ユーザＡ）の意見の変遷を認識することが可能となる。

あるいはまた、次のようにして議論に参加したユーザ全体の意見の変遷が特定されるようにしてもよい。変遷特定部３７は、著者情報が対応付けられた時系列ノードパターンを予め設定されたルールにより分析することで、時系列ノードパターンの変化点を検出する。変化点は、例えば、議論の流れが大きく変化するきっかけとなった意見とされる。ここで設定されているルールは、例えば、次のようなものである。

時系列ノードパターンの各数値（すなわち、ノードラベル）について、時刻が一番古い数値を時刻t=1、次に古い数値を時刻t=2というように、時刻tを設定する。時刻tの数値をL(t)とするとき、各時刻tにおける式（１）により微分def(t,n,m)を演算する。

式（１）におけるII(*)は、＊が真のとき０、偽のとき１となる関数とし、I(*)は*が真のとき１、偽のとき０となる関数とする。

そして、式（１）により演算された値が予め設定された閾値より大きくなるtが変化点として検出されるようにする。

例えば、式（１）において、例えば、変数ｍ=２、変数ｎ=２とし、閾値が２である場合、図６に示した時系列ノードパターンを上述したルールにより分析すると、図７に示される矢印に対応するノードラベルが変化点として検出されることになる。図７の例では、図中左から４番目の「２」と、左から１０番目の「３」が変化点として検出されている。

従って、図６に示した時系列ノードパターンの各数値（ノードラベル）のうち、左から１０番目の「３」が議論に参加したユーザ全体の意見の変化点として検出される。このようにして、変遷特定部３７は、議論に参加したユーザ全体の意見の変遷を特定することができるのである。

影響特定部３８は、変遷特定部３７により検出された変化点に基づいて、影響を受けた意見を特定する。例えば、ある意見を指定したとき、その意見と同じラベルで過去にさかのぼって最も近い変化点が影響を受けた意見とされる。

例えば、図６に示されるユーザＡの著者別時系列ノードパターンの中から所定の意見を指定することにする。ユーザＡの著者別時系列ノードパターンは、「４，２，３」だから、各ノードラベルに対応する意見を、それぞれ意見Ａ１、意見Ａ２、意見Ａ３と称することにする。例えば、意見Ａ２が指定されたものとする。

意見Ａ２は、図７において、左から５番目の「２」に対応する意見である。影響特定部３８は、この意見Ａ２と同じノードラベルで過去にさかのぼって最も近い変化点を検索する。いまの場合、図中の矢印で示されている意見が変化点であって、左から４番目の「２」が、意見Ａ２と同じノードラベルで過去にさかのぼって最も近い変化点である。これにより、意見Ａ２は、左から４番目の「２」に対応する意見に影響を受けたものであることが分かる。換言すれば、左から４番目の「２」に対応する意見が、ユーザＡの考え方に影響を与え、ユーザＡは意見Ａ２を入力したと考えることができる。

このようにして、影響特定部３８は、影響を受けた意見を特定するようになされている。

マイニング結果表示部３９は、議論の分析結果として、変遷特定部３７により特定された議論に参加した各ユーザの意見の変遷、および影響特定部３８により特定された影響を受けた意見に関する情報をユーザに提示するようになされている。マイニング結果表示部３９は、例えば、議論の分析結果としてユーザに提示すべき情報が表示された画像をブラウザ３１に表示させるために、ブラウザ３１に表示される画像の表示データを生成して送信するようになされている。

図８は、議論の分析結果としてユーザに提示すべき情報が表示された画像の例を示す図である。例えば、ブラウザ３１により、図６に示される時系列ノードパターンに対応する議論のテーマを特定する情報、および注目すべきユーザとしてユーザＡのハンドルネームが含まれたクエリが送信されたものとする。そして、議論の分析結果として図８に示される画像がブラウザ３１に表示されたものとする。

図８の例では、画像の領域１０１に「ユーザＡさんの意見は２度変化しました。」と表示されている。図６を参照して上述したように、ユーザＡの著者別時系列ノードパターンは、「４，２，３」となるので、ユーザＡの意見は、ノードラベル４であったものが、ノードラベル２に変化し、さらに、ノードラベル３に変化しているからである。

また、図８の画像の領域１０２には、「１番目の意見」と表示され、その意見の内容が表示されている。なお、図中「・・・」と表示される部分には、その意見のテキストデータから得られた文字が表示されることになる。領域１０２に表示される意見は、図６の時系列ノードパターンにおける左から２番目の「４」に対応する意見となる。

図８の画像の領域１０３には、「２番目の意見（１番目の意見から変化）」と表示され、その意見の内容が表示されている。領域１０３に表示される意見は、図６の時系列ノードパターンにおける左から５番目の「２」に対応する意見となる。

図８の画像の領域１０４には、「３番目の意見（２番目の意見からさらに変化）」と表示され、その意見の内容が表示されている。領域１０４に表示される意見は、図６の時系列ノードパターンにおける左から１０番目の「３」に対応する意見となる。

図８の画像の領域１０５には、「２番目の意見が影響を受けた意見があります。」と表示され、「ユーザＢさん」とその意見の内容が表示されている。上述したように、ユーザＡの２番目の意見である意見Ａ２は、図７において、左から４番目の「２」に対応する意見から影響を受けている。そこで、領域１０４には、左から４番目の「２」に対応する意見の著者（ユーザＢ）とともに、その意見の内容が表示されるのである。

図８の画像の領域１０６には、「３番目の意見が影響を与えた意見が２件あります。」と表示され、「ユーザＣさん」、「ユーザＢさん」、およびそれらの意見の内容が表示されている。図７に示されるように、ユーザＡの３番目の意見である意見Ａ３は、図中の矢印で示された変化点となっている。従って、図７には示されていないが、意見Ａ３は、その後入力された意見に影響を与えている可能性がある。ここでは、影響特定部３８の処理により、意見Ａ３から影響を受けた意見が２件検出されたものとする。そこで、領域１０６には、ユーザＡの３番目の意見（意見Ａ３）が影響を与えた意見の著者（ユーザＣ、ユーザＤ）とともに、それらの意見の内容が表示されるのである。

このように、議論の分析結果がユーザに提示される。このように、ある個人（例えば、ユーザＡ）の意見の変遷を全体の意見を考慮しながら特定して提示することにより、議論に参加したユーザ全体の中で、その人の意見の変遷を概観することができる。また、その人が影響を受けた意見や影響を与えた意見を抽出しに提示することにより、議論に対する理解を深めることができる。

次に、図９のフローチャートを参照して、テキストマイニングシステム１０による議論分析処理の例について説明する。

ステップＳ１００において、テキスト特徴量抽出部３２は、ブラウザ３１からクエリを受信して分析を受け付ける。ここで、クエリには、分析すべき議論を特定する情報、および注目すべきユーザのハンドルネームなどが含まれている。

ステップＳ１０１において、テキスト特徴量抽出部３２は、ステップＳ１００で受信したクエリに基づいて特定される意見を、テキストデータの集合としてデータベース４０から読み出す。

ステップＳ１０２において、テキスト特徴量抽出部３２は、図１０を参照して後述するテキスト特徴量生成処理を実行する。これにより、例えば、図２を参照して上述したような、特徴量ベクトルが生成される。

ここで、図１０のフローチャートを参照して、図９のステップＳ１０２のテキスト特徴量生成処理の詳細な例について説明する。

ステップＳ１２１において、テキスト特徴量抽出部３２は、ステップＳ１０１の処理で読み出されたテキストデータの集合のうち、１つのテキストデータを取得する。

ステップＳ１２２において、テキスト特徴量抽出部３２は、ステップＳ１２１の処理で取得したテキストデータを形態素解析する。これにより、そのテキストデータに含まれる単語が抽出される。また、抽出した単語のそれぞれについて、例えば、データベース４０に予め記憶されている辞書情報が検索され、それらの単語のうち、キーワードとなる単語がさらに抽出される。

ステップＳ１２３において、テキスト特徴量抽出部３２は、ステップＳ１２１の処理で取得したテキストデータにおいてキーワードのそれぞれの出現頻度を算出する。

ステップＳ１２４において、テキスト特徴量抽出部３２は、各キーワードの出現頻度の値を要素するベクトルを生成する。

なお、ステップＳ１２１乃至ステップＳ１２４の処理は、ステップＳ１０１の処理で読み出されたテキストデータの数に対応して繰り返し実行される。

これにより、例えば、図２に示されるような特徴量ベクトルが生成される。このようにして、テキスト特徴量生成処理が実行される。

図９に戻って、ステップＳ１０２の処理の後、処理は、ステップＳ１０３に進む。

ステップＳ１０３において、概念情報抽出部３３は、図１１を参照して後述する概念情報生成処理を実行する。これにより、例えば、図３を参照して上述したような概念情報が生成される。

ここで、図１１のフローチャートを参照して、図９のステップＳ１０３の概念情報抽出処理の詳細な例について説明する。

ステップＳ１４１において、概念情報抽出部３３は、ステップＳ１０２の処理で生成された特徴量ベクトルを取得する。

ステップＳ１４２において、概念情報抽出部３３は、ステップＳ１４１の処理で取得した特徴量ベクトルを予め設定された基準により分類することで、テキストデータのそれぞれをクラスタリングする。このとき、例えば、特徴量ベクトルの要素の値の合計値などに基づいて特徴量ベクトルが１乃至４のクラスタに分類される

ステップＳ１４３において、概念情報抽出部３３は、ステップＳ１４２の処理で分類された特徴量ベクトルに対応するテキストデータにそれらのクラスタを表すクラスタラベルを付与する。

ステップＳ１４４において、概念情報抽出部３３は、テキスト評価分析を行なうための評価対象を設定する。評価対象は、例えば、ブラウザ３１のユーザにより指定されるようにしてもよいし、自動的に設定されるようにしてもよい。

ステップＳ１４５において、概念情報抽出部３３は、ステップＳ１４１の処理で取得した特徴量ベクトルを入力情報としてテキスト評価分析を行なうことで極性情報を算出する。これにより、ステップＳ１４１の処理で取得した特徴量ベクトルに対応する意見がステップＳ１４４で設定された評価対象について肯定的であるか否定的であるかを表す極性情報が得られる。極性情報は、例えば、肯定を表す数値「１」、否定を表す数値「２」、中立を表す数値「３」、意見なしを表す数値「４」として得られる。

ステップＳ１４６において、概念情報抽出部３３は、上述したクラスタラベル、および極性情報を要素する２次元のベクトルを、各テキストデータの概念情報として生成する。

なお、ステップＳ１４１乃至ステップＳ１４６の処理は、ステップＳ１０１の処理で読み出されたテキストデータの数に対応して繰り返し実行される。

これにより、例えば、図３に示されるような概念情報が生成される。このようにして、概念情報生成処理が実行される。

図９に戻って、ステップＳ１０３の処理の後、処理は、ステップＳ１０４に進む。

ステップＳ１０４において、学習用データ構築部３４は、図１２を参照して後述する学習用データ生成処理を実行する。これにより、例えば、図４を参照して上述したような学習用データが生成される。

ここで、図１２のフローチャートを参照して、図９のステップＳ１０４の学習用データ生成処理の詳細な例について説明する。

ステップＳ１６１において、学習用データ構築部３４は、ステップＳ１０３の処理で生成された概念情報を取得する。

ステップＳ１６２において、学習用データ構築部３４は、ステップＳ１０３の処理で生成された概念情報に時間情報を追加する。

ステップＳ１６３において、学習用データ構築部３４は、概念情報の各要素を抽出する。

ステップＳ１６４において、学習用データ構築部３４は、ステップＳ１６３の処理で抽出した概念情報の要素のそれぞれを時系列に並べる。

ステップＳ１６５において、学習用データ構築部３４は、学習用情報を生成する。これにより、例えば、図４に示されるような学習用データが生成される。

このようにして、学習用データ生成処理が実行される。

図９に戻って、ステップＳ１０４の処理の後、処理は、ステップＳ１０５に進む。

ステップＳ１０５において、時系列ノードパターン抽出部３５は、図１３を参照して後述する時系列ノードパターン生成処理を実行する。これにより、上述した時系列ノードパターンが生成される。

ここで、図１３のフローチャートを参照して、図９のステップＳ１０５の時系列ノードパターン生成処理の詳細な例について説明する。

ステップＳ１８１において、時系列ノードパターン抽出部３５は、ステップＳ１０４の処理で生成された学習用データを取得する。

ステップＳ１８２において、時系列ノードパターン抽出部３５は、ステップＳ１８１の処理で取得した学習用データを、観測時系列信号として学習することで隠れマルコフモデルの学習処理を行なう。これにより、時系列ノードパターン抽出部３５は、例えば、図４の学習用データの・・・テキスト１、テキスト２、・・・におけるノードラベルを特定する。ノードラベルは、例えば、１乃至４の数値により表される。

ステップＳ１８３において、時系列ノードパターン抽出部３５は、ステップＳ１８２の処理で特定されたノードラベルを、時間情報に基づいて時系列に並べる。

ステップＳ１８４において、時系列ノードパターン抽出部３５は、時系列ノードパターンを生成する。これにより、例えば、図５に示されるような時系列ノードパターンが生成される。

このようにして、時系列ノードパターン生成処理が実行される。

図９に戻って、ステップＳ１０５の処理の後、処理は、ステップＳ１０６に進む。

ステップＳ１０６において、著者特定部３６、変遷特定部３７、および影響特定部３８は、図１４を参照して後述する個人意見分析処理を実行する。これにより、注目すべきユーザの意見の変遷、および影響を受けた意見などが特定される。

ここで、図１４のフローチャートを参照して、図９のステップＳ１０６の個人意見分析処理の詳細な例に説明する。

ステップＳ２０１において、著者特定部３６と変遷特定部３７は、著者別時系列ノードパターンを生成する。

このとき、著者特定部３６は、時系列ノードパターンとして得られた数値列の各数値の著者情報を特定する。著者特定部３６は、各意見のテキストデータに対応付けられてデータベース４０に記憶されている著者情報を読み出し、時系列ノードパターンの各数値に対応付ける。

これにより、例えば、図６を参照して説明したように、著者別時系列ノードパターンが抽出される。

ステップＳ２０２において、変遷特定部３７は、著者情報が対応付けられた時系列ノードパターンを予め設定されたルールにより分析することで、時系列ノードパターンの変化点を検出する。変化点は、例えば、議論の流れが大きく変化するきっかけとなった意見とされる。

このとき、例えば、上述した式（１）により演算された値が予め設定された閾値より大きくなるtが変化点として検出される。

ステップＳ２０３において、影響特定部３８は、ステップＳ２０２の処理で検出された変化点に基づいて、注目すべきユーザの意見が影響を受けた意見を特定する。

このとき、例えば、上述したように、ある意見を指定したとき、過去にさかのぼって最も近い変化点が影響を受けた意見とされる。また、このとき注目すべきユーザの意見が変化点であった場合、その意見が影響を与えた意見も特定されるようにしてもよい。

あるいはまた、例えば、上述したように、ある意見を指定したとき、その意見と同じラベルで過去にさかのぼって最も近い変化点が影響を受けた意見とされる。また、このとき注目すべきユーザの意見が変化点であった場合、その意見が影響を与えた意見も特定されるようにしてもよい。

このようにして、個人意見分析処理が実行される。

図９に戻って、ステップＳ１０６の処理の後、処理は、ステップＳ１０７に進む。

ステップＳ１０７において、マイニング結果表示部３９は、ステップＳ１０６の処理により得られた情報に基づいて、分析結果を表示する。

このとき、例えば、図８に示される画像の表示データが生成され、ブラウザ３１に図８のような画像が表示される。すなわち、ステップＳ１０７において、マイニング結果表示部３９は、変遷特定部３７により特定された議論に参加した各ユーザの意見の変遷、および影響特定部３８により特定された影響を受けた意見に関する情報をユーザに提示する。

このようにして、議論分析処理が実行される。このようにすることで、ブラウザ３１のユーザは、短時間でより深く議論の内容を理解することが可能となる。

例えば、従来の技術は、与えられたテキスト集合全体の傾向を概観するための技術であり、テキストベース議論における個人の意見の変遷や意見の相互作用を概観することができない。

これに対して、本発明では、個人の意見の変化点、影響を受けた意見、影響を与えた意見などが、分析結果の画像により一覧することが可能となる。従って、短時間でより深く議論の内容を理解し、議論の参加者の貢献なども簡単に把握することができる。

また、本発明のテキストマイニングシステム１０により得られた分析結果を、例えば、次のように利用することも可能である。

例えば、SNSを提供するウェブサイトでのテキストベースの議論を分析し、著者別に「影響を与えた意見」として特定された意見の数をカウントする。すなわち、その人が入力した意見が変化点となって、他のユーザの意見に影響を与えたとされる意見の数を特定するのである。そして、「影響を与えた意見」として特定された意見を多く書きこんだユーザの地位を表すポイントを上げる。

さらに、その人の意見に影響を受けた意見の数がさらにカウントされ、ポイントとして加算などされるようにしてもよい。

このようにして得られたポイントをSNSのウェブサイトに表示することで、そのSNSに参加しているユーザの貢献の度合いや権威の度合いなどを簡単に認識することが可能となる。このようにすることで、例えば、そのSNSに後から参加したユーザが、先に参加しているユーザのポイントを確認し、誰が重要人物であるかを把握した上で、議論に臨むことができるのである。

あるいはまた、ユーザ別のポイントのランキングがSNSのウェブサイトに表示されるようにしてもよい。

また、例えば、会議の様子を撮影したビデオデータの再生などにおいて、テキストマイニングシステム１０により得られた分析結果が用いられるようにしてもよい。この場合、実際に会議室で行なわれた会議での発言を、例えば、音声認識技術によりテキストデータに変換して議論の分析が行われる。そして、例えば、記録された会議の映像を再生する際に、「影響を与えた意見」の部分のみが再生されるようにしてもよい。このようにすることで、会議での議論を要約して視聴することができる。

あるいはまた、テキストマイニングシステム１０により得られた分析結果を用いてユーザの性格を分析することも可能である。例えば、テキストマイニングシステム１０により得られた分析結果に基づいて、注目すべきユーザが、「影響を与えた意見」を述べることが多いかまたは少ないかを識別する。さらに、注目すべきユーザが、意見を変えやすいかまたは変えにくいかを識別する。

意見を変え易いか否かは、例えば、上述した著者別時系列ノードパターンにおけるノードラベルの変化の回数に基づいて特定することができる。また、「影響を与えた意見」を述べることが多いかまたは少ないかは、例えば、注目すべきユーザの意見の中の変化点となる意見の数を検出することにより特定することができる。

そして、上述した識別結果に基づいて、注目すべきユーザの性格を、例えば、図１５に示されるように分類する。図１５の例では、ユーザの性格が「Analytical」、「Driver」、「Amiable」、および「Expressive」の４つのタイプに分類されている。

「影響を与えた意見」を述べることが少なく、かつ意見を変えにくいと識別されたユーザは、タイプ「Analytical」に分類される。「影響を与えた意見」を述べることが多く、かつ意見を変えにくいと識別されたユーザは、タイプ「Driver」に分類される。「影響を与えた意見」を述べることが少なく、かつ意見を変えやすいと識別されたユーザは、タイプ「Amiable」に分類される。「影響を与えた意見」を述べることが多く、かつ意見を変えやすいと識別されたユーザは、タイプ「Expressive」に分類される。

このような分類結果に基づいて、例えば、SNSのウェブサイトに表示される広告などを変更させるとさらに効果的である。例えば、意見を変えやすいとされるタイプ「Amiable」、タイプ「Expressive」のユーザがログインしたときには広告を多く提示する。広告の効果が期待できるからである。一方で、意見を変えにくいとされるタイプ「Analytical」、タイプ「Driver」がログインしたときには提示する広告を減らす。広告の効果があまり期待できないので、ユーザの煩わしさを減らす効果を狙うためである。

さらに、例えば、商品の性能や価格などについて議論するSNSのウェブサイトにおいては、タイプ「Amiable」に分類されたユーザに対して商品のセールスのメールなどを送信するようにしてもよい。タイプ「Amiable」に分類されたユーザは、最もセールスの効果が高いユーザと考えられるからである。

なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図１６に示されるような汎用のパーソナルコンピュータ７００などに、ネットワークや記録媒体からインストールされる。

図１６において、CPU（Central Processing Unit）７０１は、ROM（Read Only Memory）７０２に記憶されているプログラム、または記憶部７０８からRAM（Random Access Memory）７０３にロードされたプログラムに従って各種の処理を実行する。RAM７０３にはまた、CPU７０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU７０１、ROM７０２、およびRAM７０３は、バス７０４を介して相互に接続されている。このバス７０４にはまた、入出力インタフェース７０５も接続されている。

入出力インタフェース７０５には、キーボード、マウスなどよりなる入力部７０６、ＬＣＤ(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部７０７、ハードディスクなどより構成される記憶部７０８、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部７０９が接続されている。通信部７０９は、インターネットを含むネットワークを介しての通信処理を行う。

入出力インタフェース７０５にはまた、必要に応じてドライブ７１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部７０８にインストールされる。

上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア７１１などからなる記録媒体からインストールされる。

なお、この記録媒体は、図１６に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク（フロッピディスク（登録商標）を含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）（登録商標）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア７１１により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM７０２や、記憶部７０８に含まれるハードディスクなどで構成されるものも含む。

なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０テキストマイニングシステム，３１ブラウザ，３２テキスト特徴量抽出部，３３概念情報抽出部，３４学習用データ構築部，３５時系列ノードパターン抽出部，３６著者特定部，３７変遷特定部，３８影響特定部，３９マイニング結果表示部，４０データベース

Claims

所定のテーマについての議論に参加したユーザの意見のそれぞれをテキストデータとして、前記テキストデータの著者を特定する著者情報とともに記憶する記憶手段と、
前記記憶手段に記憶されたテキストデータのそれぞれの特徴量データを生成する特徴量データ生成手段と、
前記特徴量データに予め設定された処理を施して得られた情報に基づいて、観測時系列信号を生成する観測時系列信号生成手段と、
前記観測時系列信号に基づいて前記議論の変化点を検出する変化点検出手段と、
前記検出された変化点、前記著者情報に基づいて、前記議論の意見の中で、指定されたテキストデータに対応する意見が、影響を受けたとされる意見を特定する影響特定手段と
を備えるテキスト分析装置。
前記議論に参加したユーザの中で、指定されたユーザの意見を特定するユーザ意見特定手段と、
前記検出された変化点に基づいて、前記指定されたユーザの意見の変化を表示し、
前記指定されたユーザの意見が影響を受けたとされる意見、または、前記指定されたユーザの意見から影響を受けたとされる意見を表示する表示手段と
をさらに備える請求項１に記載のテキスト分析装置。
前記表示手段は、さらに、前記議論に参加したユーザのそれぞれについて、前記ユーザの意見から影響を受けたとされる意見の数をカウントして表示する
請求項２に記載のテキスト分析装置。
前記議論に参加したユーザのそれぞれについて、
前記ユーザの意見の変化の回数をカウントし、
前記ユーザの意見から影響を受けたとされる意見の数をカウントし、
前記カウントされた変化の回数および意見の数に基づいて、前記ユーザの性格を特定する
請求項２に記載のテキスト分析装置。
前記観測時系列信号生成手段は、
前記特徴量データに基づいて、前記特徴量データに対応するテキストデータの意見について、予め設定された評価対象に対する極性情報を算出し、
前記算出された極性情報に基づいて前記観測時系列信号を生成する
請求項１に記載のテキスト分析装置。
前記観測時系列信号を学習して、前記テキストデータのそれぞれの隠れマルコフモデルのノードラベルを特定するとともに、前記ノードラベルを観測時系列信号に対応する順番で並べた時系列ノードパターンを生成する時系列ノードパターン生成手段をさらに備え、
前記変化点検出手段は、前記時系列ノードパターンに基づいて、前記議論の変化点を検出する
請求項１に記載のテキスト分析装置。
所定のテーマについての議論に参加したユーザの意見のそれぞれをテキストデータとして、前記テキストデータの著者を特定する著者情報とともに記憶する記憶手段に記憶されたテキストデータのそれぞれの特徴量データを生成し、
前記特徴量データに予め設定された処理を施して得られた情報に基づいて、観測時系列信号を生成し、
前記観測時系列信号に基づいて前記議論の変化点を検出し、
前記検出された変化点、前記著者情報に基づいて、前記議論の意見の中で、指定されたテキストデータに対応する意見が、影響を受けたとされる意見を特定するステップ
を含むテキスト分析方法。
コンピュータを、
所定のテーマについての議論に参加したユーザの意見のそれぞれをテキストデータとして、前記テキストデータの著者を特定する著者情報とともに記憶する記憶手段と、
前記記憶手段に記憶されたテキストデータのそれぞれの特徴量データを生成する特徴量データ生成手段と、
前記特徴量データに予め設定された処理を施して得られた情報に基づいて、観測時系列信号を生成する観測時系列信号生成手段と、
前記観測時系列信号に基づいて前記議論の変化点を検出する変化点検出手段と、
前記検出された変化点、前記著者情報に基づいて、前記議論の意見の中で、指定されたテキストデータに対応する意見が、影響を受けたとされる意見を特定する影響特定手段とを備えるテキスト分析装置として機能させる
プログラム。