JP2015007920A

JP2015007920A - テキスト処理を用いた社会構造モデルの抽出

Info

Publication number: JP2015007920A
Application number: JP2013133181A
Authority: JP
Inventors: 村田　真樹; Maki Murata; 真樹村田; 竜太大竹; Ryuta Otake; 雅人徳久; Masahito Tokuhisa
Original assignee: Tottori University NUC
Current assignee: Tottori University NUC
Priority date: 2013-06-25
Filing date: 2013-06-25
Publication date: 2015-01-15

Abstract

【課題】複数の異なるテキストデータを用いて特定のキーワードについての社会構造モデルを解析する
【解決手段】複数の異なるテキストデータを取得するテキストデータ取得部１０２と、解析の対象となるキーワードを取得するキーワード取得部１０４と、それら複数の異なるテキストデータを含むテキストデータ母集団を用いて、そのキーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語群抽出部１０６と、その一連の連想単語群に含まれる単語同士の連想関係を解析して、そのキーワードによって直接的または間接的に連想される単語間の構造モデルを解析する構造モデル解析部１１０と、その構造モデルを出力する出力部１２０と、を備える、テキストデータを解析する情報解析装置１０００を提供する。
【選択図】図７

Description

本発明は、テキスト処理を用いた社会構造モデルの抽出に用いるための情報解析装置、テキストデータの解析方法およびテキストデータの解析プログラムに関する。

現在、インターネット上で様々な電子テキストが増加しており、それらの中から有益な情報を取り出すことが望まれている。また、リーマンショックや東日本大震災など、社会を揺るがす出来事も多くなり、社会構造を的確に把握する技術が望まれている。松尾ら［非特許文献１］は、Ｗｅｂ上の情報から人間関係のネットワークを抽出している。また、松村ら［非特許文献２］は、文書の主張をキーワードとし、文書の要約や文書検索のために、語の活性度に基づいたキーワード抽出法を提案している。

松尾豊，友部博教，橋田浩一，中島秀之，石塚満．Ｗｅｂ上の情報からの人間関係ネットワークの抽出．人工知能学会論文誌，Ｖｏｌ．２０，Ｎｏ．１，ｐｐ．４６-５６，２００５．松村直宏，大澤幸生，石塚満．語の活性度に基づくキーワード抽出法．人工知能学会論文誌，Ｖｏｌ．１７，Ｎｏ．４，ｐｐ．３９８-４０６，２００２．

しかしながら、上記文献記載の従来技術は、社会構造に着目したネットワークを抽出することを目的としていない。そのため、Ｗｅｂ上のテキストからキーワードに基づいて社会構造モデルを自動的に抽出することが困難である。

例えば、非特許文献１では、条件付き確率などの各種指標を用いて人名の共起の関係を調べている。また、非特許文献２では、ＰＡＩ（ＰｒｉｍｉｎｇＡｃｔｉｖａｔｉｏｎＩｎｄｅｘ）のアルゴリズムを用いて一つの文書を複数のセグメントに分割した上で、セグメント間における語の活性伝搬を調べて文書全体で主張したい単語を抽出しようとしている。
ＰＡＩのアルゴリズムを以下に示す。
ＳＴＥＰ１）前処理
文書からストップワードの除去、接尾辞の処理、熟語の処理を行う。
ＳＴＥＰ２）文書の分割
文書をセグメントＳ_ｔ（ｔ＝１，２，・・・，ｎ）に分割する。
ＳＴＥＰ３）伝搬行列Ｒ（ｔ）の導出
各セグメントＳ_ｔにおける語のネットワークの構造を伝搬行列Ｒ（ｔ）として表す。Ｒ（ｔ）は次のようにして求める。
まず、各セグメントＳ_ｔを理解する上で基本となる概念を表す語として、ＫｅｙＧｒａｐｈに倣いＳ_ｔにおける出現頻度の高い語の上位Ｎ_１個（例えば、上位２０％の値とすることができる）を選んでＫ（ｔ）とする。次に、Ｋ（ｔ）に含まれる全ての語の組ｗ_ｉ，ｗ_ｊ（ｉ≠ｊ）の連想の強さを測るために、Ｓ_ｔ内でのｗ_ｉ，ｗ_ｊの共起の強さを測る。共起の強さは下記の式で表されるｃｏ（ｗ_ｉ，ｗ_ｊ）で定義する。
｜ｘ｜_ｓはセグメントに含まれる文における語ｘの出現頻度である。ここで、Ｋ（ｔ）のＮ_１個の語を冗長なリンクなしに結び合わせるために必要最小限の枝数として、ｃｏ（ｗ_ｉ，ｗ_ｊ）の上位Ｎ_１−１個までの語の組ｗ_ｉ，ｗ_ｊの間にリンクを張ることにより，語のネットワークを構成する。
Ｒ（ｔ）は基本的にはこのネットワークを表す行列であるが、ここで更に、連想関係が強いほどプライミング効果は大きくなることと、語ｗ_ｉから１本のリンクに伝搬する活性値はｗ_ｉに接続しているリンク１本１本に均等に分かれて伝搬することを仮定する。すなわち、Ｎ_１行Ｎ_１列のＲ（ｔ）のｉ行ｊ列の要素Ｒ（ｔ）_ｉｊはｃｏ（ｗ_ｉ，ｗ_ｊ）の上位Ｎ_２までの語の組ｗ_ｉ，ｗ_ｊに対して
それ以外の成分についてはＲ（ｔ）_ｉｊ＝０とする。
ＳＴＥＰ４）活性伝搬
各セグメントＳ_ｔ（ｔ＝１，２，・・・，ｎ）について、下記式を実行し活性伝搬を行う。
ここで、ｔはモデルを活性させる活性回数であり、Ａ（ｔ）ははｔ番目のセグメントＳ_ｔまでに活性化された各語の活性値を表すベクトルであり、伝搬前の各語の活性値の初期値は１とする。なお，γ，αの値は適用する文書の種類によって異なるので、詳しくは後述する。
ＳＴＥＰ５）キーワードの抽出
文書の始めから終りまで活性伝搬させて活性値が高くなる語は、著者が一貫して強く主張したい語であると仮定する。なお、活性値はそれほど高くならない語でも、重要な概念をつないでいる語は主張を表していることが多い。重要な概念に溜まった活性値は１回の活性化でも近隣に多くの活性値をもたらすと考えられるので、重要な概念をつなぐ語は活性値を活性回数で割った値が高くなる語として得ることができる。そこで、活性値の高い語を高活性語、活性値を活性回数で割った値の高い語を鋭活性語と定義し、高活性語と鋭活性語を併せて著者の主張を表すキーワードとして取り出す。
しかしながら、非特許文献１および非特許文献２では、Ｗｅｂ上に存在する複数の異なる文書を用いて、多くのＷｅｂコンテンツの作成者の間で特定のキーワードについてどのような社会構造モデルがイメージされているのかを自動的に抽出することは困難である。

本発明は上記事情に鑑みてなされたものであり、複数の異なるテキストデータを用いて特定のキーワードについての社会構造モデルを解析することを目的とする。

本発明に係るテキストデータを解析する情報解析装置は、複数の異なるテキストデータを取得するテキストデータ取得部と、解析の対象となるキーワードを取得するキーワード取得部と、それら複数の異なるテキストデータを含むテキストデータ母集団を用いて、そのキーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語群抽出部と、その一連の連想単語群に含まれる単語同士の連想関係を解析して、そのキーワードによって直接的または間接的に連想される単語間の構造モデルを解析する構造モデル解析部と、その構造モデルを出力する出力部と、を備える。

また、その連想単語群抽出部は、そのキーワードによって直接連想される１次連想単語をそのテキストデータ母集団から抽出し、さらにｔ次連想単語（ｔは１以上の整数、そのキーワードをｔ＝１の場合のｔ次連想単語とする）によって直接連想される（ｔ＋１）次連想単語をそのテキストデータ母集団から抽出する連想単語抽出部と、そのｔ次連想単語からその（ｔ＋１）次連想単語へのエッジに重みの付与を行う重み付け部と、を有する。

そして、その連想単語抽出部は、そのテキストデータ母集団における、そのｔ次連想単語を含むテキストデータでの他の同属性の単語の頻度と、その他の同属性の単語が出現するテキストデータの個数と、の複合指標を、そのｔ次連想単語によってその他の同属性の単語が連想される度合を示す連想指標として計算する、連想指標計算部と、そのテキストデータ母集団から、そのｔ次連想単語に対するその連想指標が所定の基準を満たすその他の同属性の単語を、その（ｔ＋１）次連想単語として抽出する連想指標フィルター部と、を含む。

この構成によれば、キーワードによって直接連想される１次連想単語をテキストデータ母集団から抽出し、さらにｔ次連想単語によって直接連想される（ｔ＋１）次連想単語を連想指標を用いてテキストデータ母集団から抽出して、キーワードによって直接的または間接的に連想される一連の連想単語群を抽出するため、複数の異なるテキストデータから特定のキーワードについての社会構造モデルを解析することができる。

なお、上記の装置は本発明の一態様であり、本発明の装置は、以上の構成要素の任意の組合せであってもよい。また、本発明の方法、システム、コンピュータプログラム、記録媒体なども、同様の構成を有する。

本発明によれば、複数の異なるテキストデータから特定のキーワードについての社会構造モデルを解析することができる。

実施形態に係る情報解析装置を用いて特定のキーワードについての社会構造モデルを解析するスキームを説明するための概念図である。実施形態に係る情報解析装置を用いて特定のキーワードによって直接連想される単語をｔｆ−ｉｄｆ法を用いて抽出するスキームについて説明するための概念図である。実施形態に係る情報解析装置においてｔｆ−ｉｄｆのスコアを計算する方法について説明するための概念図である。実施形態に係る情報解析装置を用いてｔｆ−ｉｄｆのスコアを利用した重みをエッジに付与するスキームについて説明するための概念図である。実施形態に係る情報解析装置を用いて社会構造モデルの拡大を行う方法について説明するための概念図である。実施形態に係る情報解析装置を用いて活性伝搬を行う際にエッジの重みを利用して活性値を計算する方法について説明するための概念図である。実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。実施形態に係る情報解析装置の連想単語群抽出部の内部構成について説明するための機能ブロック図である。実施形態に係る情報解析装置の構造モデル解析部の内部構成について説明するための機能ブロック図である。実施形態に係る情報解析装置の動作について説明するためのフローチャートである。実施形態に係る情報解析装置の連想単語群抽出部の動作について説明するためのフローチャートである。実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。実施形態の変形例に係る情報解析装置の連想関係機械学習部及び連想強度機械学習部の構成について説明するための機能ブロック図である。キーワードを「地震」とした場合に活性化される単語をＴＤ−ＩＤＦおよび条件付き確率を用いて抽出した結果を比較して説明するための概念図である。キーワードを「地震」とした場合にどのようなネットワークが構築されるかを説明するための概念図である。キーワードを「地震」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。サポートベクトルマシン法のマージン最大化の概念を示すための概念図である。キーワードを「ギリシャショック」または「ギリシャ危機」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。キーワードを「洪水」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。テーマキーワードを別に「ギリシャショック」または「ギリシャ危機」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。キーワードを「洪水」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜社会構造モデルを解析するスキーム＞
本実施形態では、電子テキストから社会構造モデル(事物の関係情報のネットワーク)を構築する。また、本実施形態では、社会構造モデルのネットワークにおいて、活性伝搬を行い、ネットワーク上での重要な概念を考察する。以下、本実施形態において社会構造モデルを解析するスキームについて具体例を挙げて説明する。

社会構造モデルの構築
図１は、実施形態に係る情報解析装置を用いて特定のキーワードについての社会構造モデルを解析するスキームを説明するための概念図である。本実施形態では、まず、（１）最初に構築したい社会構造モデルの主となる概念をテーマとなるキーワードとして設定する。次いで、（２）そのテーマとなるキーワードに関係した電子テキストを抽出する。そして、そのテキストにおいて，テーマとなるキーワードと関係性の強い単語をｔｆ−ｉｄｆなどを利用して抽出する。その後、（３）単語間の関係によるネットワークを構成し、単語間の関係に重みを付与する。次に、（４）関係性が強いとされた単語とさらにその単語に関係性が強い単語も抽出する。このように繰り返し抽出を繰り返すことで社会構造モデルを拡大していく。より詳細な社会構造モデルの構築方法を以下で説明する。

ノード候補の抽出
本実施形態では、テーマとなるキーワードとなる単語を単語ａとする。この場合、まず、単語ａを含んだ記事群を抽出する。抽出された記事群を記事群Ａとする。次いで、形態素解析を用い記事群Ａから名詞のみを抽出する。その際に一文字、ひらがなのみ、数字のみの単語を除外する。そして、記事群Ａ内で抽出された単語の出現頻度をそれぞれ求め、抽出した名詞群の上位１００単語をモデルのノードの候補とする。

ノードの選定
図２は、実施形態に係る情報解析装置を用いて特定のテーマとなるキーワードによって活性化される単語をｔｆ−ｉｄｆ法を用いて抽出するスキームについて説明するための概念図である。得られたノードの候補の中から、ｔｆ−ｉｄｆを用いて、実際にノードに用いる単語を選定する。選定を行う際には、ｔｆ−ｉｄｆのスコアの上位５単語をキーワードと関係性の強い単語とする。

図３は、実施形態に係る情報解析装置においてｔｆ−ｉｄｆのスコアを計算する方法について説明するための概念図である。ｔｆ−ｉｄｆを用いる方法を説明する。ｔｆは抽出された対象テキスト内でのノード候補の単語の出現回数、ｄｆは新聞データ内でのノード候補の単語の出現記事数とし、Ｎは新聞データの総記事数とし、ｔｆ−ｉｄｆを下記式で表す。

この値が大きいノード候補の単語をモデルのノードとして用いる。上記の方法で選定した５単語を単語ａのノードから繋がるノードｎ（図３で示される単語Ａを含む５単語）とする。

本実施形態では、出発ノード（最初の単語）がテーマとなるキーワードに相当する。出発ノードが異なると、テーマとなるキーワードが異なるので、エッジの先のノード（単語）が同一であっても、ｔｆ−ｉｄｆの値は異なる場合がある。ｔｆは、テーマとなるキーワードを含む記事群でのエッジ先のノード（単語）の出現数のためである。これにより、ｔｆ−ｉｄｆに基いて抽出された単語であれば、適切に出発ノード（最初の単語、テーマとなるキーワード）のエッジの先のノード（単語）として利用できる。その結果、テーマとなるキーワードと同時に出現する場合を考慮してｔｆ−ｉｄｆに基いて抽出された単語を用いることにより、テーマとなるキーワードに関連した単語によって構築されるネットワークを取得できる。

一般的にｔｆ−ｉｄｆを特徴のある単語を文書群から取り出す時に用いる場合、出発ノードの単語などは意識せず、全文書において重要となる単語を取り出すという使い方がなされる。例えば、ｔｆは全文書での単語数というものを用いる場合もある。

または、全文書のうちのある文書Ｘに出現する特徴のある単語を取り出すという際にもｔｆ−ｉｄｆは利用されるが、この場合は、文書Ｘに出現する単語数がｔｆとなる。このとき、文書Ｘでの単語数をｔｆとして用いるが、この場合も出発ノードを考慮した処理でなく、本実施形態の出発ノードを考慮してｔｆ−ｉｄｆの値を産出する方法は、新規な考え方である。

エッジに重みの付与
図４は、実施形態に係る情報解析装置を用いてｔｆ−ｉｄｆのスコアを利用した重みをエッジに付与するスキームについて説明するための概念図である。図５は、実施形態に係る情報解析装置を用いて計算されたエッジの重みを利用して活性伝搬を行うスキームについて説明するための概念図である。上述のようにして抽出された単語間の関係(エッジ)に重みを付与し、単語間の関連の強さに差をつける。エッジに付与する重みを下記式に示す。

ここで，単語ｎは単語ａから抽出された５単語のうちの１単語（例えば、単語Ａ）とする。単語ａからノードｎへの重みは、ノードｎを取得する際に得られたｔｆ−ｉｄｆに基づく値を利用する。

社会構造モデルの拡大
図５は、実施形態に係る情報解析装置において社会構造モデルの拡大を行う方法について説明するための概念図である。単語ａから５つの単語が抽出される流れを上記で説明した。これによって得られた単語ｎを単語ａ'と設定し同様の手順で単語ａ'から５つの単語を抽出する。これにより単語ａから抽出された５つの単語にさらに単語ａ'から抽出された単語５つが加る。同様に各単語からの抽出を繰り返すことで社会構造モデルを拡大していく。

活性伝搬
人間の記憶のメカニズムを近似したものに活性伝搬モデルというものがある。活性伝搬は、エッジで結ばれたネットワーク構造において、活性を伝搬させ、その活性度の変化を調べることでネットワークのノードの重要度を計るという考えである。

活性伝搬では、社会構造モデルの各ノードが活性値を、そのノードに連結している他のノードに伝搬させる。伝搬した際の各ノードの活性値の変化によって考察を行う。本実施形態での活性伝搬は、下記式により行う。

ここで、ｔはモデルを活性させる活性回数であり、Ａ（ｔ）は活性回数ｔのときの各ノードの活性値を表すベクトル、Ｃはモデルに外部から注入される刺激を表すベクトル、ＩはＡ（ｔ−１）の活性値をＡ（ｔ）に伝搬させる単位行列、Ｒ（ｔ）はネットワークの構造のエッジの重みに基づき表される伝搬行列である。Ｒ（ｔ）のｉ行ｊ列の要素Ｒｉｊは単語Ｗｉと単語Ｗｊの関連の強さを表している。また、γは活性値の減衰率を表す減衰パラメータ、αはネットワークが単語の活性値に及ぼす影響力の程度を表す伝搬パラメータである。

本実施形態では、社会構造モデルはそのモデルだけで完結しており、外部からの刺激はないものとする。よって上記式の外部から注入される活性値を表すベクトルＣはＣ＝０とする。ネットワークが単語の活性値に及ぼす影響力の程度を表す伝搬パラメータαは、活性の伝搬はモデルの構造を表すベクトルＲ（ｔ）によってのみ行われるため、α＝１とする。また、減衰率を表す減衰パラメータγは、適応する文書により異なるため、減衰パラメータは０＜γ＜１において適宜設定することができる。よって、本実施形態の活性伝搬式には下記式を用いることとする。

図６は、実施形態に係る情報解析装置を用いて活性伝搬を行う際にエッジの重みを利用して活性値を計算する方法について説明するための概念図である。図６は、活性値が伝搬していく流れを表している。図６において、テーマとなるキーワードＡｋが活性した際に、その活性がエッジの重みＰａにより単語Ａに伝わって単語Ａの活性値がＡａ＝Ｐａ＊Ａｋとなることで単語Ａが活性し、単語Ａが活性することで、単語Ａのさらに下流にある別の単語が活性する。このように、起点となる単語(社会構造モデルのテーマとなるキーワード)が刺激され、活性し、その活性値がエッジの重みに基づき分散され各単語に伝わる。

＜情報解析装置の構成の説明＞
図７は、実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。本実施形態に係るテキストデータを解析する情報解析装置１０００は、複数の異なるテキストデータを取得するテキストデータ取得部１０２を備える。このテキストデータ取得部１０２は、新聞の記事またはＷｉｋｉｐｅｄｉａの記事などを外部から取得することができる。例えば、テキストデータ取得部１０２は、新聞の記事またはＷｉｋｉｐｅｄｉａの記事のテキストデータを含むデータベースが格納された外部のサーバ１２６からネットワーク１２２を介して、新聞の記事またはＷｉｋｉｐｅｄｉａの記事のテキストデータを取得する。

なお、新聞の記事またはＷｉｋｉｐｅｄｉａの記事のテキストデータが紙書類のままであり電子化されていない場合には、ＯＣＲ装置１２８を用いて紙書類を読み取って電子データ化してからネットワーク１２２を介して、新聞の記事またはＷｉｋｉｐｅｄｉａの記事のテキストデータを取得してもよい。ここで、取得された新聞の記事またはＷｉｋｉｐｅｄｉａの記事のテキストデータは、仮に標準的なデータ形式ではない場合には、標準的なデータ形式に変換されてもよい。

この情報解析装置１０００は、テキストデータ取得部１０２で取得された複数の異なるテキストデータを含むテキストデータ母集団をデータベース化して格納するためのテキストデータ母集団記憶部１０８を備える。

なお、このテキストデータ母集団に含まれるテキストデータは、形態素解析部１１２で形態素解析を行ってから用いられる。この形態素解析部１１２で用いる日本語の形態素解析エンジンとしては、以下のものを好適に活用できる。

KAKASI（kanji kana simple inverter）、kakasi.namazu.org
MeCab（和布蕪）、mecab.sourceforge.net
ChaSen（茶筌）、chasen.naist.jp
Juman、nlp.kuee.kyoto-u.ac.jp
Sen（MeCabのJava(登録商標)への移植）、ultimania.org、sen.dev.java.net
日本語形態素解析Webサービス（Yahoo!デベロッパーネットワーク）、developer.yahoo.co.jp

これらの中でも、例えば、公知の形態素解析ツールであるＣｈａｓｅｎを用いることが好ましい。Ｃｈａｓｅｎを用いれば、日本語文を分割し、さらに、各単語の品詞も推定することができる。Ｃｈａｓｅｎを用いた日本語文の分割例を説明する。例えば、「学校へ行く」を入力すると以下の結果を得る。

学校ガッコウ学校名詞− 一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本形
ＥＯＳ
各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。

なお、英語の品詞タグつけシステムとしてはBrill（Transformation-Based Error-DriVen Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol.21, No.4, p.543-565, 1995. 参照）のものが有名であり、英語文の各単語の品詞を推定することができる。

すなわち、形態素解析部１１２は、形態素解析を行なって品詞が「名詞」となった単語を抽出する。さらに、形態素解析部１１２は、複合名詞を考慮するため、隣り合う形態素の品詞が両方とも名詞であった場合、これらを１つの名詞として抽出する。また、形態素解析部１１２は、日本語の場合、カタカナで書かれた言葉は名詞であることが多いので、品詞が「未定義語−カタカナ」となった単語も抽出する。形態素解析部１１２は、こうして抽出した単語を後述する連想単語群抽出部１０６に送る。

この情報解析装置１０００は、解析の対象となるキーワードを取得するキーワード取得部１０４を備える。このキーワード取得部１０４は、後述する実施例では、解析の対象として「地震」というキーワードが操作部１２４から入力されて取得している。もっとも、この解析の対象となるキーワードは、例えば外部のサーバ１２６からネットワーク１２２を介して取得されてもよい。キーワード取得部１０４は、こうして取得したキーワードを後述する連想単語群抽出部１０６に送る。

この情報解析装置１０００は、テキストデータ母集団を用いて、キーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語群抽出部１０６を備える。その際、この連想単語群抽出部１０６は、形態素解析部１１２においてテキストデータ母集団から抽出された名詞の中から１次連想単語を抽出することが好ましい。また、この連想単語群抽出部１０６は、キーワード取得部１０４から解析の対象となるキーワードを受け取る。なお、この連想単語群抽出部１０６の内部でどのような情報処理が行われるかは後述する。この連想単語群抽出部１０６は、一連の情報処理の後に得られる連想単語群を連想単語記憶部１１４に格納する。

この情報解析装置１０００は、一連の連想単語群に含まれる単語同士の連想関係を解析してキーワードによって直接的または間接的に連想される単語間の構造モデルを解析する構造モデル解析部１１０を備える。この構造モデル解析部１１０は、キーワードによって直接的または間接的に連想される一連の連想単語群を連想単語記憶部１１４から取得する。なお、この構造モデル解析部１１０の内部でどのような情報処理が行われるかは後述する。また、この構造モデル解析部１１０は、一連の情報処理の後に得られる構造モデルを構造モデル記憶部１１６に格納する。

この情報解析装置１０００は、単語間の構造モデルを出力する出力部１２０を備える。後述する実施例では、この出力部１２０は、構造モデル解析部１１０の解析結果を一覧表などの利用しやすい形式にした上で、画像データ・数値データ・テキストデータなどのデータ形式でネットワーク１３８を介して画像表示部１３０、プリンタ１３２、サーバ１３４などに出力する。あるいは、この出力部１２０は、上記の解析結果をリアルタイムで情報解析装置１０００に接続された画像表示部１１８に出力することもできる。

図８は、実施形態に係る情報解析装置の連想単語群抽出部の内部構成について説明するための機能ブロック図である。この連想単語群抽出部１０６は、カウンタ２０８から取得するカウント数によって、すでに連想処理を何回繰り返したか（（ｔ−１）が幾らか）判定し、終了条件記憶部２１５に格納されている条件が未だ満たされていない場合には、連想処理を繰り返す。一方、この連想単語群抽出部１０６は、終了条件記憶部２１５に格納されている条件（例えば（ｔ−１）が１０以上の場合には終了する）が満たされている場合には、連想単語の抽出処理を終了する。

この連想単語群抽出部１０６は、キーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語抽出部２０２を備える。この連想単語抽出部２０２は、キーワードによって直接連想される１次連想単語をテキストデータ母集団から抽出する。また、この連想単語抽出部２０２は、ｔ次連想単語（ｔは１以上の整数、キーワードをｎ＝１の場合のｔ次連想単語とする）によって直接連想される（ｔ＋１）次連想単語をテキストデータ母集団から抽出する。

この連想単語抽出部２０２は、ある単語および他の単語の連想指標を計算する連想指標計算部２１０を備える。この連想指標計算部２１０は、連想指標計算式記憶部２１６に格納された計算式に基いて連想指標を計算する。この計算式は、テキストデータ母集団における、テキストデータ母集団における、ｔ次連想単語を含むテキストデータでの他の同属性の単語の頻度と、他の同属性の単語が出現するテキストデータの個数と、の複合指標を、ｔ次連想単語によって他の同属性の単語が連想される度合を示す連想指標として計算する。このような計算式としては、例えば、ｔｆ−ｉｄｆ法の下記計算式が挙げられる。

上記の計算式において、ｔｆは、ｔ次連想単語を含むテキストデータ群における（ｔ＋１）次連想単語の出現回数を示す。また、ｄｆは、テキストデータ母集団における（ｔ＋１）次連想単語が出現しているテキストデータ数を示す。また、Ｎは、テキストデータ母集団におけるテキストデータ総数を示す。例えば、新聞データを用いて社会構造モデルを解析する場合であれば、ｔｆは抽出された対象テキスト内でのノード候補の単語の出現回数、ｄｆは新聞データ内でのノード候補の単語の出現記事数とし、Ｎは新聞データの総記事数としてもよい。すなわち、この連想指標計算部２１０は、ｔｆ−ｉｄｆ法に基づいて算出されるｔｆ、ｄｆおよびＮの複合指標を連想指標として用いている。このように、連想指標計算部２１０では、ｔｆを使うことで、うまくｔ次連想単語および（ｔ＋１）次連想単語の共起出現を考慮できるようになっており、テキストデータ母集団における（ｔ＋１）次連想単語が出現しているテキストデータ数のｉｄｆを使うことで、どこにでも出てくるような不要語をカットできるようになっている。また、この連想指標計算部２１０は、共起回数を利用するので、その二つの連想が得られる。さらには、ｔ次連想単語を含むテキストデータ群における（ｔ＋１）次連想単語の出現回数を求めているので、ｔ次連想単語のうち、それと共起する（ｔ＋１）次連想単語の個数を算出することができる。また、ｔ次連想単語のうち、どのくらいの割合で（ｔ＋１）次連想単語と共起しているかを調べているので、ｔ次連想単語からの連想語として、（ｔ＋１）次連想単語を取得できる。

この連想単語抽出部２０２は、連想指標に基いて単語を抽出する連想指標フィルター部２０４を備える。この連想指標フィルター部２０４は、テキストデータ母集団から、ｔ次連想単語に対する連想指標が所定の基準（例えば連想指標が高い順に所定の数）を満たす他の同属性の単語を、（ｔ＋１）次連想単語として抽出する。このとき、この連想指標フィルター部２０４は、例えば、操作部１２４においてオペレータによって入力された数値（例えば５）を取得して、連想指標が高い順にその数（例えば５個）だけ（ｔ＋１）次連想単語を抽出することができる。

あるいは、キーワードによって直接的または間接的に連想される単語間の構造モデルの解析精度を向上させるためには、この連想指標フィルター部２０４は、連想指標の値が閾値以上のものを取り出してもよく、連想指標の値が大きい順に所定の個数取り出してもよい。または、連想指標が最大のものを抽出した上で、その最大の連想指標の値に対して所定の割合をかけた値を求め、その求めた値以上の連想指標を持つものを取り出してもよい。もちろん、これらの閾値、所定の値をあらかじめ定めておいてもよく、適宜ユーザが値を変更、設定することも可能である。

この活性化単語抽出部２０２は、連想された単語に次数を付与する次数付与部２０６を備える。この次数付与部２０６は、カウンタ２０８から取得するカウント数によって、すでに連想処理を何回繰り返したか（（ｔ−１）が幾らか）判定し、抽出された単語に次数を付与する。すなわち、この次数付与部２０６は、ｔ次連想単語によって直接連想された単語には、（ｔ＋１）次の次数を付与して（ｔ＋１）次連想単語とする。

この活性伝搬部１０６は、ｔ次連想単語および（ｔ＋１）次連想単語の間にエッジを形成するエッジ形成部２１７を備える。この活性伝搬部１０６は、ｔ次連想単語から（ｔ＋１）次連想単語へのエッジに重みの付与を行う重み付け部２１２を備える。

この重み付け部２１２は、連想指標の合計を算出する集計部２１４を備える。この集計部２１４は、ｔ次連想単語に対する（ｔ＋１）次連想単語の連想指標を集計して、ｔ次から（ｔ＋１）次に連想するときの連想指標の合計を算出する。また、この重み付け部２１２は、正規化された重みを算出する正規化部２２０を備える。この正規化部２２０は、正規化計算式記憶部２１８に格納された計算式に基いて正規化された重みを計算する。この計算式は、ｔ次連想単語に対する（ｔ＋１）次連想単語の連想指標を合計値で除して、ｔ次連想単語から（ｔ＋１）次連想単語へのエッジに付与するため正規化された重みを計算する。このような計算式としては、例えば、１つのｔ次連想単語によって５つの（ｔ＋１）次連想単語が連想される場合には、下記計算式を用いることができる。

上記の計算式において、単語ｎは、１つのｔ次連想単語によって直接連想された５つの（ｔ＋１）次連想単語のうちの１単語とする。ｔ次連想単語から（ｔ＋１）次連想単語への重みは、（ｔ＋１）次連想単語を取得する際に得られたｔｆ−ｉｄｆに基づく値を利用する。

そのため、この重み付け部２１２は、ｔ次連想単語に対する（ｔ＋１）次連想単語の連想指標を、ｔ次連想単語から（ｔ＋１）次連想単語へのエッジに正規化した上で重みとして付与することができる。

この活性伝搬部１０６は、単語に連想関係値値を付与する活性値付与部２２２を備える。この活性値付与部２２２は、キーワードに初期活性値を付与する。また、この活性値付与部２２２は、ｔ次連想単語に付与されているｔ次活性値（その初期活性値をｔ＝１の場合のｔ次活性値とする）と、ｔ次連想単語からその（ｔ＋１）次連想単語へのエッジに付与されている重みと、に基いて算出される（ｔ＋１）次活性値を計算（ｔ＋１）次連想単語に付与する。

図９は、実施形態に係る情報解析装置の構造モデル解析部の内部構成について説明するための機能ブロック図である。この情報解析装置１０００は、単語間の構造モデルを解析する構造モデル解析部１１０を備える。

この構造モデル解析部１１０は、重みが所定の基準を満たすエッジを重要エッジとして判定するエッジ重要度判定部３１２を備える。このエッジ重要度判定部３１２は、エッジの重要度の判定基準を格納するエッジ重要度判定基準記憶部３１８を備える。この判定基準としては、例えば、エッジに付与された重み（正規化済み）が所定の閾値以上であれば重要なエッジであると判定する基準を用いることができる。

このエッジ重要度判定部３１２は、一連の連想単語群に付与された重みを取得する重み取得部３１４を備える。この重み取得部３１４は、一連の連想単語同士を結ぶエッジに付与された重み（正規化済み）を、連想単語記憶部１１４に格納されている一連の連想単語群を含むデータベースからエッジおよび重み（正規化済み）を互いに紐付けられた状態で読み込む。

このエッジ重要度判定部３１２は、エッジに付与された重み（正規化済み）およびエッジ重要度判定基準を比較して、エッジの重要度を判定する比較判定部３２０を有する。この比較判定部３２０は、例えば、あるエッジの重み（正規化済み）がエッジ重要度判定基準を満たしていればそのエッジを重要なエッジであると判定する。

この構造モデル解析部１１０は、ネットワーク構造モデルを構築するネットワーク構築部３２２を備える。このネットワーク構築部３２２は、キーワードおよび一連の連想単語群をエッジ（正規化済み）によってつないでネットワーク構造モデルを構築する。このネットワーク構築部３２２は、連想単語記憶部１１４に格納されている一連の連想単語群を含むデータベースから一連の連想単語群およびそれらの連想単語同士を結ぶ一連のエッジに関する情報を取得する。このネットワーク構築部３２２は、それぞれの連想単語をノードとして、次数の隣合うノード同士をエッジ（リンクとも呼ばれる）でつないでネットワーク構造モデルを構築する。

この構造モデル解析部１１０は、画像データを生成する画像データ生成部３２４を備える。この画像データ生成部３２４は、ネットワーク構造モデルにおいて重要単語および重要エッジを強調表示したネットワーク構造を表示する画像データを生成する。このネットワーク構築部３２２は、重要エッジを強調されたエッジとしたネットワーク構造モデルを、グラフ化された画像データとして生成する。このネットワーク構築部３２２では解析結果を画像データとして生成できるため、その画像データを受け取った出力部１２０がユーザに直感的に理解しやすい形で解析結果を出力することが可能になる。

＜情報解析装置の動作の説明＞
図１０は、実施形態に係る情報解析装置の動作について説明するためのフローチャートである。まず、動作を開始すると、テキストデータ取得部１０２が複数の異なるテキストデータを取得する（Ｓ１０２）。次いで、キーワード取得部１０４が解析の対象となるキーワードを取得する（Ｓ１０４）。そして、連想単語群抽出部１０６が、キーワードから始まる単語間の連想処理を行う（Ｓ１０６）。その後、構造モデル解析部１１０が、キーワードによって直接的または間接的に連想される単語間の構造モデルを解析する（Ｓ１０８）。そして、出力部１２０が、構造モデルを出力して（Ｓ１１０）、一連の動作が終了する。

図１１は、実施形態に係る情報解析装置の連想単語群抽出部の動作について説明するためのフローチャートである。すなわち、この図１１を用いて説明するサブルーチンは、上記の図１０のメインルーチンにおけるステップ１０６である。

まず、活性伝搬部１０６が動作を開始すると、連想単語抽出部２０２が、ｔ次連想単語に対する他の同属性の単語の連想指標を例えばｔｆ−ｉｄｆ法に基づいて計算する（Ｓ２０２）。次いで、連想単語抽出部２０２が、その連想指標が基準を満たすかどうか（例えば、連想指標が高い順から５個以内に含まれるかどうか）判定する（Ｓ２０４）。そして、上記の基準が満たされない場合には、連想単語群抽出部１０６はＳ２０２に戻ってこれまでのステップを繰り返す。一方、上記の基準が満たされる場合には、連想単語抽出部２０２は、ｔ次連想単語に対する連想指標が上記の基準を満たす他の同属性の単語を（ｔ＋１）次連想単語として抽出する（Ｓ２０６）。

その後、重み付け部２１２が、ｔ次連想単語に対する（ｔ＋１）次連想単語の連想指標を、ｔ次連想単語から（ｔ＋１）次連想単語へのエッジに正規化した上で重みとして付与する（Ｓ２０８）。

続いて、連想単語群抽出部１０６は、すでに抽出した（ｔ＋１）次連想単語の数が基準数（例えば、連想指標が高い順から５個）以上になっているかどうか判定する（Ｓ２１２）。そして、上記の基準が満たされない場合には、連想単語群抽出部１０６はＳ２０２に戻ってこれまでのステップを繰り返す。一方、上記の基準が満たされる場合には、連想単語群抽出部１０６は、すでに連想処理を何回繰り返したか（（ｔ−１）が幾らか）を参照し、繰り返し回数（ｔの値）が終了のための終了基準数（例えば、（ｔ−１）の値が１０以上の場合は終了する）を満たすかどうか判定する（Ｓ２１４）。そして、上記の基準が満たされない場合には、連想単語群抽出部１０６は、ｔに（ｔ＋１）を代入（Ｓ２１６）した上で、もう一度Ｓ２０２に戻ってこれまでのステップをさらに繰り返す。一方、上記の基準が満たされる場合には、連想単語群抽出部１０６は一連の連想処理を終了する。

＜情報解析装置の変形例（テーマキーワードあり）の説明＞
図１２ａは、実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、キーワードとは別にテーマキーワードを用いる点を除けば上述のスキームと同じである。

すなわち、この変形例の情報解析装置１０００は、キーワードとは別にテーマキーワードを取得するテーマキーワード取得部１４６をさらに備える点で上述のスキームとは異なっている。また、連想単語群抽出部１０６が、複数の異なるテキストデータを含むテキストデータ母集団を用いて、キーワードおよびテーマキーワードの双方によって直接的または間接的に連想される一連の連想単語群を抽出するように構成されている点でも異なっている。そして、構造モデル解析部１１０が、一連の連想単語群に含まれる単語同士の連想関係を解析して、キーワードおよびテーマキーワードの双方によって直接的または間接的に連想される単語間の構造モデルを解析するように構成されている点でも異なっている。

具体的には、この変形例では、連想単語抽出部２０２は、キーワードおよびテーマキーワードの双方と直接関連する１次連想単語を前記テキストデータ母集団から抽出し、さらにｔ次連想単語（ｔは１以上の整数、キーワードおよびテーマキーワードをｔ＝１の場合のｔ次関連単語とする）によって直接連想される（ｔ＋１）次連想単語をテキストデータ母集団から抽出するように構成されている。また、連想指標計算部２１０は、キーワードおよびテーマキーワードの双方を含むテキストデータの集合における、ｔ次連想単語を含むテキストデータでの他の同属性の単語の頻度と、他の同属性の単語が出現するテキストデータの個数と、の複合指標を、ｔ次連想単語によって他の同属性の単語が連想される度合を示す連想指標として計算するように構成されている。そして、連想指標フィルター部２０４は、キーワードおよびテーマキーワードの双方を含むテキストデータの集合から、ｔ次連想単語に対する連想指標が所定の基準を満たす他の同属性の単語を、（ｔ＋１）次連想単語として抽出するように構成されている。

そのため、この変形例によれば、後述の実施例でもテーマキーワードを「ギリシャショック」または「ギリシャ危機」とした場合について、あるいはテーマキーワードを「洪水」とした場合について示すように、キーワードおよびテーマキーワードの双方に関連性の深い連想単語だけが抽出されてくるという利点がある。

＜情報解析装置の変形例（活性伝搬あり）の説明＞
図１２ｂは、実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、単語間の構造モデルを構築した後に活性伝搬を行う点を除けば上述のスキームと同じである。

すなわち、この変形例の情報解析装置１０００は、ネットワーク構造モデルを用いてキーワードから始まる単語間の活性伝搬を行う活性伝搬部１４２と、そのネットワーク構造モデルにおける単語間の活性伝搬の状態を解析する活性伝搬解析部１４４と、をさらに備える点で上述のスキームとは異なっている。

この活性伝搬部１４２は、ｔ次連想単語に付与されているｔ次活性値（その初期活性値をｔ＝１の場合のｔ次活性値とする）と、ｔ次連想単語から（ｔ＋１）次連想単語へのエッジに付与されている重み（正規化済み）と、に基いて算出した値を（ｔ＋１）次活性値とする活性伝搬処理を行うように構成されている。

なお、活性伝搬のエッジは１エッジだけではなく、複数のエッジが錯綜することが多いため、すでに過去に活性値が付与されている単語にさらに活性値が付与されることもある。その場合には、その単語への活性値はどんどん加算されていくことになる。また、複数のエッジが１つの単語にそれぞれ活性値を付与することもある。その場合には、その単語への活性値は複数のエッジからの活性値を合計して付与されることになる。

そのため、活性伝搬部１１４は、例えば、エッジの重みを利用した下記計算式を用いて（ｔ＋１）次活性値を計算することができる。

Ａ（ｔ＋１）＝Ｐ（ｔ＋１）＊Ａ（ｔ）

上記の計算式において、Ａ（ｔ＋１）は、（ｔ＋１）次連想単語の活性値を示す。また、Ｐ（ｔ＋１）は、ｔ次連想単語から（ｔ＋１）次連想単語へのエッジに付与されている重み（正規化済み）を示す。また、Ａ（ｔ）は、ｔ次連想単語の活性値を示す。

この活性伝搬解析部１４４は、一連の活性化単語群において活性値が所定の基準を満たす単語を重要単語として判定するように構成されている。この判定基準としては、例えば、活性値が所定の閾値以上であれば重要な単語であると判定する基準を用いることができる。そのため、この変形例によれば、活性伝搬を行うことによって、エッジの重要性を判定することができるだけでなく、単語の重要性についても判定することができるという利点を有する。

＜情報解析装置の変形例（機械学習あり）の説明＞
図１２ｃは、実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、あらかじめ機械学習を行って好適なパラメータを求める点を除けば上述のスキームと同じである。

すなわち、本変形例でも、キーワードから始まる単語間の活性伝搬を行うことで、キーワードに直接的または間接的に関連する単語間の構造モデルを解析できることはすでにのべた通りであるが、これの発展としてあらかじめ好適なパラメータを求めておくために機械学習を行う。この変形例では、活性伝搬部１０６が、あらかじめ互いの連想関係および連想強度の分かっている一連の単語群を含む前記複数の異なるテキストデータを用いて機械学習する機械学習部１２３を備える。

このように機械学習部１２３において、学習データを用いて単語と単語が連想関係にあるかないかを推定できるようにしておくと、その学習結果を以下のようにして活用することができる。

具体的には、あるノードＡ（単語Ａ）に対して、例えばｔｆ−ｉｄｆが大きい単語Ｂを１００個程度そのノードＡによって連想される単語の候補として取り出した場合に、単語Ａから単語Ｂが連想関係にあるかを機械学習で判定して、連想関係にあるとされたＢのみに対してＡからリンクをはることができる。

さらには、連想関係にあるかいなかを機械学習で判定する際に確信度が得られるため、その確信度も利用して、１００個の単語Ｂのうち連想関係にあると判断され、確信度が上位５個の単語Ｂに対してのみリンクをはる、または、確信度が所定の値以上の単語Ｂに対してのみリンクをはることもできる。

図１３は、実施形態の変形例に係る情報解析装置の連想関係機械学習部及び連想強度機械学習部の構成について説明するための機能ブロック図である。図１３に示すように、機械学習部１２３は、あらかじめ互いの連想関係の分かっている一連の単語群を機械学習する連想関係機械学習部３０３およびあらかじめ互いの連想強度の分かっている一連の単語群を機械学習する連想強度機械学習部３０５を備える。

すなわち、連想関係機械学習部３０３は、あらかじめ互いの連想関係の分かっている一連の単語群を機械学習して、ｔ次連想単語によって活性化される（ｔ＋１）次連想単語を抽出できるようにパラメータを学習する。そのため、あらかじめ学習データを人手で作成して準備する必要がある。具体的には、被験者実験を行い、ある単語から連想する単語にどういうものがあるかを問い、連想するとされた単語を収集しておく。そして、連想関係機械学習部３０３は、その単語をノードとして選択しやすくなるように学習させる。

すなわち、連想関係機械学習部３０３は、
問題：ある単語Ａに対して単語Ｂを連想するかいなか
解答：連想するｏｒ連想しない
を機械学習する。

この際、連想関係機械学習部３０３は、素性を問題から取得する。素性にｔｆ−ｉｄｆ、ｔｆ−ｉｄｆ、単語、単語の意味分類、単語の共起語などを用いる。具体的には、単語Ａをキーワードとした場合の単語Ｂのｔｆ−ｉｄｆ、ｔｆ−ｉｄｆなどの値を算出し、それを素性とする。単語Ａ、単語Ｂ、単語Ａおよび単語Ｂの意味分類、単語Ａおよび単語Ｂの記事中の共起語（共起語＝近くに出現する単語や同一文に出現する単語）などを素性とする。なお、数値を素性とする際、数値のまま素性にしてもよく、０から１未満、１から２未満など、数値が入った区間を素性に使ってもよい。

また、連想強度機械学習部３０５は、あらかじめ互いの連想強度の分かっている一連の単語群を機械学習して、ｔ次連想単語から（ｔ＋１）次連想単語へのエッジに付与するための重みを算出できるようにパラメータを学習する。そのため、あらかじめ、人手で作成して学習データを準備する必要がある。具体的には、被験者実験を行い、ある単語から連想する単語にどういうものがあるかを問い、連想するとされた単語を収集する。連想強度機械学習部３０５は、その連想すると答えた被験者の割合をエッジ（リンク）の重みのようにするような学習を行う。

すなわち、連想強度機械学習部３０５は、
問題：ある単語Ａから単語Ｂへのリンク
解答：ある単語Ａから単語Ｂへのリンクの重みの値
を機械学習する。

この際、連想強度機械学習部３０５は、素性を問題から取得する。素性にｔｆ−ｉｄｆ、単語、単語の意味分類、単語の共起語などを用いる。具体的には、単語Ａをキーワードとした場合の単語Ｂのｔｆ−ｉｄｆの値を算出し、それを素性とする。単語Ａ、単語Ｂ、単語Ａおよび単語Ｂの意味分類、単語Ａおよび単語Ｂの記事中の共起語（共起語＝近くに出現する単語や同一文に出現する単語）などを素性とする。なお、数値を素性とする際、数値のまま素性にしてもよく、０から１未満、１から２未満など、数値が入った区間を素性に使ってもよい。

この機械学習部１２３は、あらかじめ互いの連想関係または連想強度の分かっている一連の単語群を外部から取得することができる。例えば、この機械学習部１２３は、あらかじめ互いの連想関係または連想強度の分かっている一連の単語群を含むデータベースが格納された外部のサーバ１２６からネットワーク１２２を介して、あらかじめ互いの連想関係または連想強度の分かっている一連の単語群を取得することができる。

この場合、ランダム係数発生部１１８が乱数表を活用してランダムなパラメータを発生するので、それらのランダムなパラメータを機械学習部１２３が連想単語群抽出部１０６に伝達して、ランダムなパラメータによる連想処理が行われる。そしてその連想処理の結果は機械学習部１２３にフィードバックされて正解情報と照らし合わされるため、機械学習部１２３はランダムなパラメータの中から好適なパラメータを選択することができる。こうして選択された好適なパラメータが学習結果記憶部１２５に格納される。こうして得られた好適なパラメータは後に正解が未知の異なる複数のテキストデータを用いて構造モデルの解析を行う場合に連想単語群抽出部１０６に呼び出されて用いられる。

ここで、機械学習部１２３による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である。

すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。

機械学習部１２３は、機械学習の手法として、例えば、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。

例えば、本実施形態において、あらかじめ時系列テキストデータ取得部を介して正解情報付きの教師データを取得した場合、機械学習部１２３が、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いて正解情報に近い結果が得られる好適なパラメータを導き出す。

ｋ近傍法は、最も類似する一つの事例のかわりに、最も類似するｋ個の事例を用いて、このｋ個の事例での多数決によって分類先（解）を求める手法である。ｋは、あらかじめ定める整数の数字であって、一般的に、１から９の間の奇数を用いる。

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。

シンプルベイズ法において、文脈ｂで分類ａを出力する確率は、以下の式（４）で与えられる。

ただし、ここで文脈ｂは、あらかじめ設定しておいた素性ｆｊ（∈Ｆ，１≦ｊ≦ｋ）の集合である。ｐ（ｂ）は、文脈ｂの出現確率である。ここで、分類ａに非依存であって定数のために計算しない。Ｐ（ａ）（ここでＰはｐの上部にチルダ）とＰ（ｆｉ｜ａ）は、それぞれ教師データから推定された確率であって、分類ａの出現確率、分類ａのときに素性ｆｉを持つ確率を意味する。Ｐ（ｆｉ｜ａ）として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式（５）の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、以下の式（６）を用いてスムージングを行ったものを用いる。

ただし、ｆｒｅｑ（ｆ_ｉ，ａ）は、素性ｆ_ｉを持ちかつ分類がａである事例の個数、ｆｒｅｑ（ａ）は、分類がａである事例の個数を意味する。

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。

決定リスト方法では、あらかじめ設定しておいた素性ｆ_ｊ（∈Ｆ，１≦ｊ≦ｋ）のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈ｂで分類ａを出力する確率は以下の式によって与えられる。

ｐ（ａ｜ｂ）＝ｐ（ａ｜ｆｍａｘ）
ただし、ｆ_ｍａｘは以下の式によって与えられる。

また、Ｐ（ａｉ｜ｆｊ）（ここでＰはｐの上部にチルダ）は、素性ｆｊを文脈に持つ場合の分類ａｉの出現の割合である。

最大エントロピー法は、あらかじめ設定しておいた素性ｆ_ｊ（１≦ｊ≦ｋ）の集合をＦとするとき、以下所定の条件式（式（９））を満足しながらエントロピーを意味する式（１０）を最大にするときの確率分布ｐ（ａ，ｂ）を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。

ただし、Ａ、Ｂは分類と文脈の集合を意味し、ｇｊ（ａ，ｂ）は文脈ｂに素性ｆｊがあって、なおかつ分類がａの場合１となり、それ以外で０となる関数を意味する。また、Ｐ（ａｉ｜ｆｊ）（ここでＰはｐの上部にチルダ）は、既知データでの（ａ，ｂ）の出現の割合を意味する。

式（９）は、確率ｐと出力と素性の組の出現を意味する関数ｇをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化（確率分布の平滑化）を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献に記載されている。

非特許文献：Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997）

サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。

図１７にサポートベクトルマシン法のマージン最大化の概念を示す。図１７において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図１７（Ａ）は、正例と負例の間隔が狭い場合（スモールマージン）の概念図、図１７（Ｂ）は、正例と負例の間隔が広い場合（ラージマージン）の概念図である。

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔（マージン）が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図１７（Ｂ）に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張（カーネル関数の導入）がなされたものが用いられる。

この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。

ただし、ｘは識別したい事例の文脈（素性の集合）を、ｘ_ｉとｙ_ｊ（ｉ＝１，...，ｌ，ｙｊ∈｛１，−１｝）は学習データの文脈と分類先を意味し、関数ｓｇｎは、
ｓｇｎ（ｘ）＝１（ｘ≧０）
−１（ｏｔｈｅｒｗｉｓｅ）
であり、また、各αｉは式（１３）と式（１４）の制約のもと式（１２）を最大にする場合のものである。

また、関数Ｋはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。

Ｋ（ｘ，ｙ）＝（ｘ＊ｙ＋１）ｄ式（１５）
Ｃ、ｄは実験的に設定される定数である。例えば、Ｃはすべての処理を通して１に固定した。また、ｄは、１と２の二種類を試している。ここで、α_ｉ＞０となるｘ_ｉは、サポートベクトルと呼ばれ、通常、式（１１）の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献に記載されている。

非特許文献：Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
サポートベクトルマシン法は、分類の数が２個のデータを扱うものである。したがって、分類の数が３個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンＶＳレスト法などの手法を組み合わせて用いることになる。

ペアワイズ法は、ｎ個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア（ｎ（ｎ−１）／２個）を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、ｎ（ｎ−１）／２個の二値分類による分類先の多数決によって、分類先を求める方法である。

ワンＶＳレスト法は、例えば、ａ、ｂ、ｃという三つの分類先があるときは、分類先ａとその他、分類先ｂとその他、分類先ｃとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先ａとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、ａと推定する。

この機械学習法としては、重回帰分析（回帰分析（重回帰分析の説明変数が一つだけの場合）を含む）、ＳＶＭ回帰、ｒａｎｋｉｎｇＳＶＭなどを用いてもよい。

重回帰分析を用いる場合には、「Excel で学ぶ時系列分析と予測」（オーム社）３章の"重回帰分析"で求めてもよい。重回帰分析の場合は、「正解」を値１「不正解」を値０として求めればよい。すなわち、求める分類が２種類ならば、重回帰分析が利用できる。重回帰分析の場合は、素性の数だけ説明変数x を用意し、素性のありなしを、その説明変数x の値を１、０で表現する。目的変数（被説明変数）は、ある分類の場合を値１、他の分類の場合を値０として求めればよい。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

例えば、上記の実施形態では情報解析装置１０００の構成、動作などについて説明したが、同様の構成の方法、システム、コンピュータプログラム、記録媒体なども、同様の作用効果を有する。この場合に、上記プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えば上記コンピュータに上記プログラムをインストールすることができる。ここで、上記プログラムを記憶した記録媒体は、非一過性の記録媒体であっても良い。非一過性の記録媒体は特に限定されないが、例えばＣＤ−ＲＯＭ等の記録媒体であっても良い。

また、上記の実施形態では詳しく説明しなかったが、本実施形態の情報解析装置１０００では、単語同士の関連性について機械学習する際に、必要に応じて単語の意味分類の辞書（シソーラス）を用いることもできる。このような辞書としては、日本語のものとしては、例えば、「分類語彙表」（国立国語研究所）、「日本語語彙大系」（岩波書店）、「角川類語国語辞典」（角川書店）、「日本語大シソーラス」（大修館書店）、「ＥＤＲ概念体系辞書」（ＥＤＲプロジェクト）、「デジタル類語辞典」（ジャングル）、「ＪＳＴ科学技術用語シソーラス」（ＪＳＴ科学技術振興機構）等が存在する。また、英語のものとしては、例えば、「ロジェ類語辞典」、「ＷｏｒｄＮｅｔ」、「ＭｅＳＨ（ＭｅｄｉｃａｌＳｕｂｊｅｃｔＨｅａｄｉｎｇｓ）」等が存在する。

分類語彙表の説明
ａ）分類語彙表の構成
分類語彙表とはボトムアップ的に単語を意味に基づいて整理した表であり、各単語に対して分類番号という数字が付与される。分類語彙表の構成（国立国語研究所，分類語彙表，１９６４）は、例えば、以下のようなものである。

あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,
分類語彙表は、上記の例のように、「，」 (コンマ）で区切ってあって、それぞれ、単語の読み、単語の見出し語、単語の分類番号、単語の分類番号の下位番号１、単語の分類番号の下位番号２、標本使用頻度が７以上の単語かどうかを示す情報である。

ｂ）分類語彙表の変更の説明
下記の表は電子化された分類語彙表の説明図である。下記の表に示すように、電子化された分類語彙表では、各単語には１０桁の分類番号が与えられている（書籍判の分類語彙表では分類番号は５桁までしかないが、電子化判では１０桁存在する）。この１０桁の分類番号は７レベルの階層構造を示しており、上位５レベルは分類番号の最初の５桁で表現され、６レベル目は次の２桁、最下層のレベルは最後の３桁で表現されている。

本発明者らは、過去の研究で、このような分類語彙表の分類番号を名詞の意味素性に合わせて修正した。下記の表は名詞の意味素性と分類語彙表での分類番号の変換表である。下記の表の数字は分類番号の最初の何桁かを変換するためのものであり、例えば、１行目の "[1-3]56"や "511"は、分類番号の頭の３桁が "156"か "256"か "356"ならば511 に変換するということを意味している（[1-3] は1,2,3 を意味している）。

この分類番号の変換により、上記の電子化された分類語彙表の説明図に示した分類番号は、下記の表に示す分類語彙表の分類番号の変更例のように変換されることになる。上記の名詞の意味素性と分類語彙表での分類番号の変換表から分かるように、この変換された分類番号において、上位２桁が"５１"である単語は"動物"に関係する単語であることを意味し、上位２桁が"５２"である単語は"人間"に関係する単語であることを意味する。

また、分類語彙表の番号を素性として利用してもよい。例えば、単語寺が素性の場合、単語の分類語彙表の分類番号の最初の5桁を素性とする場合は、寺の番号が5360005022だとした場合、単語の分類語彙表の分類番号に基づく素性は、53600となり、これも素性として利用する。

以下、本発明を実施例によりさらに説明するが、本発明はこれらに限定されるものではない。

本実施例では、電子テキストから特定のキーワードに基づく関係情報（ネットワーク）を抽出する方法を行った。本実施例では、事物の関係情報をネットワークとしてまとめたものを社会構造モデルと呼ぶ。本実施例では、「地震」というキーワードに基づいて社会構造モデルの抽出を行った。本実施例では、抽出された単語の関係間のエッジに重みを持たせることで活性伝搬を用い、モデルにおいてどういった概念が特に重要であるかの分析を行った。

本実施例の主な特徴をあらかじめ整理すると以下のようになる。
（１）テキストから社会構造の把握に役立つ社会構造モデルの情報を取り出すという特色のある研究対象を扱った。
（２）実験データとして新聞とＷｉｋｉｐｅｄｉａを比較し、本実施例の実験では社会構造モデルの構築には新聞の方が役立つことを確認した。
（３）社会構造モデルのネットワークのノードの抽出には、条件付き確率よりもｔｆ−ｉｄｆの方が役立つことを確認した。
（４）地震を題材にして作成した社会構造モデルのネットワークにおいて活性伝搬を行い、地震が起きた際に特に重要となる可能性のある概念を抜き出した。

＜実験データの選定＞
図１４は、キーワードを「地震」とした場合に活性化される単語をＴＤ−ＩＤＦおよび条件付き確率を用いて抽出した結果を比較して説明するための概念図である。本実施例では事前実験として、どのようなデータが社会構造モデルの構築にふさわしいかを調べた。実験データには、新聞とＷｉｋｉｐｅｄｉａを用いた。新聞には、毎日新聞２０１１年の１年分の記事、９６、６３０記事を用いる。また、Ｗｉｋｉｐｅｄｉａには１、６０２、２０８記事が含まれる。

新聞とＷｉｋｉｐｅｄｉａの比較のためにキーワードを含む記事を抽出し、抽出された記事群内の名詞の出現頻度を利用して単語抽出を行い、比較する。本実施例では、キーワードは「地震」と「経済」とした。「地震」と「経済」の両方の単語が同時に出現した記事をキーワードに関連する記事群として抽出する。抽出された記事群は、新聞データからは５１４記事であり、Ｗｉｋｉｐｅｄｉａからは２８１８記事であった。抽出された記事群に出現する名詞を出現頻度順に整理し比較する。結果を下記の表１に示す。

Ｗｉｋｉｐｅｄｉａでは、頻度の高い単語であっても、地震、経済に直接関連しない単語が多く得られた。一方新聞データでは、地震や経済と関連の高い「原発」「事故」「安全」などの単語が抽出された。これの理由としては、以下が考えられる。

Ｗｉｋｉｐｅｄｉａでは多くの事柄の説明を簡潔に記載しているだけであり、ある重要な事柄が頻度が高く繰り返し記載されるということはないため、そのような文章の頻度では、関連の高い単語を抽出できなかったと思われる。一方新聞データでは、社会的に大きな事柄については高頻度に記述されるため、頻度により今回扱った地震、経済に関連の高い単語を抽出できたと思われる。

以上の結果より、Ｗｉｋｉｐｅｄｉａよりも新聞データの方がキーワードに近い単語の取り出しに役立つことがわかった。このため、本実施例での以降の実験では、新聞データを利用することにした。Ｗｉｋｉｐｅｄｉａには記事数が多く、抽出する記事群を減らし計算コストを削減するために「地震」「経済」をキーワードとしていた。しかし、新聞データではそこまで記事数を減らして計算コストを削減する必要はないため、以降の実験では、「地震」「経済」でなく、「地震」のみをキーワードとして用いることとした。

＜社会構造モデルの構築における条件付き確率とｔｆ−ｉｄｆの比較＞
社会構造モデルの構築では、ネットワークのノードに用いる単語の決定のために、条件付き確率やｔｆ−ｉｄｆを用いた。本実施例では、条件付き確率とｔｆ−ｉｄｆのうちどちらを利用した方が、より良い社会構造モデルを構築できるかを調べた。キーワードとして「地震」を用いる。「地震」をキーワードとし提案手法を行い、地震につながるノードに利用する単語を取得した。

条件付き確率とｔｆ−ｉｄｆによるノードの抽出
条件付き確率を用いる方法でノードに利用する単語を取得した結果を表２に示す。またｔｆ−ｉｄｆを用いる方法で取得した結果も表２に示す。それぞれ条件付き確率とｔｆ−ｉｄｆの値の上位のものを示している。

ｔｆ−ｉｄｆを用いた場合には、「津波」「原発」「避難」などの地震が起きた際に特に関連が高いと思われる語が上位に集中した。さらに「電話」という地震が起きた際に注意すべき語も上位に現れた。一方、条件付き確率を用いた場合は、「日本」「震災」「大震災」など地震には確かに関連があるがｔｆ−ｉｄｆを用いた場合ほど関連のないものが上位にきた。この結果より、ノードの抽出にはｔｆ−ｉｄｆを利用した方が良いことがわかった。以上の結果より、社会構造モデルのノードの抽出にはｔｆ−ｉｄｆを利用し、エッジに付与する重みにもｔｆ−ｉｄｆのスコアを利用することにする。

条件付き確率を用いる手法が良くない結果となった理由は以下と思われる。もともと高頻度に出現する単語は地震と共起しやすく条件付き確率が高くなる。このため、高頻度で出現するが関連性はそれほど高くない単語が上位に現れたと思われる。松尾らの人間関係ネットワークの抽出［非特許文献１］の際には、ノード間の関連性の取得に閾値つきのＳｉｍｐｓｏｎ法を利用するのが良いとされていた。

このＳｉｍｐｓｏｎ法についても、上記と同様の方法で「地震」を含む記事を抽出し、抽出された単語の出現頻度順にソートし、その上位１０単語のＳｉｍｐｓｏｎ係数をもとめたところ以下のようになった。

すなわち、このＳｉｍｐｓｏｎ法についても、条件付き確率を利用した場合と同様、日本、大震災などが上位に出現した。そのため、条件付き確率やこのＳｉｍｐｓｏｎ法よりもｔｆ−ｉｄｆの方が有効と思われる。

被験者による評価
上記のノードの抽出で得られた結果を元に、ｔｆ−ｉｄｆ法と条件付き確率法どちらが社会構造モデルを抽出するのに適しているかを判断するために人手評価を被験者８人に対して行った。上記の表２の抽出結果の一部を示し、どちらの手法が適しているかを判断してもらった。結果を表３に示す。表３に示された数字は、その手法を良いとした人数である。

以降の実験に用いるノードの抽出手法
上記の被験者による人手評価で得られた結果により、ｔｆ−ｉｄｆを用いる方が適していることがわかった。また、抽出結果の考察によっても、ｔｆ−ｉｄｆを用いる方が適していた。よって、本実施例のネットワークの抽出の手法にはｔｆ−ｉｄｆを用いることとした。また、エッジに付与する重みにもｔｆ−ｉｄｆのスコアを用いた。

＜ｔｆ−ｉｄｆを用いた社会構造モデルの構築＞
ノードの抽出結果
図１５は、キーワードを「地震」とした場合にどのようなネットワークが構築されるかを説明するための概念図である。キーワードを「地震」として、ｔｆ−ｉｄｆを用いる手法により、社会構造モデルを構築した。キーワード「地震」から得られた単語を単語ａとして同様の手順を用いて単語ａと関連性の高い単語を抽出した。これらの手順を複数繰り返し「地震」と直接つながらない単語をノードに持つモデルを構成した。単語ａに対してモデルのノードとして抽出する単語は、ｔｆ−ｉｄｆのスコア上位５単語とした。単語ａから５つの単語へのエッジのスコアは、その５つの単語のｔｆ−ｉｄｆのスコアから計算される確率で求めた。５つの単語のうちの一つである単語ｎへのエッジのスコアは下記式で表される。

この手法により社会構造モデルを自動構築した。「地震」を第一単語群、「地震」から抽出された単語を第二単語群、第二単語群から抽出された新しい単語を第三単語群、同様に第四単語群とした。その抽出結果を表４、表５、表６に示す。

エッジの重みの計算結果
次に、単語ａとした単語と、その単語につながるノードとして得られた単語を、表７、表８、表９に示す。表中の単語の後ろの括弧内の数字はその単語へつながるエッジが持つ重みである。

同様にして、第三単語群からも各単語につき５つの単語が抽出され、さらに５つの単語それぞれにｔｆ−ｉｄｆを用いた重みが付与されている。以上の結果より，「地震」を含んだ２４個のノードが抽出された。それらのノードをｔｆ−ｉｄｆを用いた確率値が繋いでいる。

抽出された社会構造モデルの一部を図１５に示す。図では、ノードは第三単語群までのものを表示した。各エッジにはｔｆ−ｉｄｆを用いた重みが付与されている。

＜活性伝搬を用いた実験＞
活性伝搬
図１６は、キーワードを「地震」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。上記の説明で構築した社会構造モデルにおいて、実際に活性伝搬を行う。下記式を用いて、活性回数ｔのときの単語の活性値を表すベクトルＡ（ｔ）の変化を求める。

活性回数とは、モデルのキーワードである地震に１を入力し、入力された１がエッジの重みによって分散され、各ノードの活性値として蓄積されていく回数である。一定の活性回数で、各ノードの活性値を比べることで単語の重要度を調査した。地震が活性した場合の結果を調べることとして、初期値Ａ（０）には地震のみ１とし他を０としたベクトルを用いた。モデル外部からの刺激は無いものとして下記式を用いて実験を行った。

また、減衰率を表す減衰パラメータを変えることで活性値の変化を比較した。影響力を表す伝搬パラメータαは、活性の伝搬はモデルの構造を表すベクトルＲ（ｔ）によってのみ行われるため、α＝１とした。減衰パラメータは０＜γ＜１において比較実験を行った。具体的には、γ＝０、γ＝０．５、γ＝１に分けて実験を行い、比較した。

伝搬行列
下記式における、伝搬行列Ｒ（ｔ）を説明する。
伝搬行列Ｒ（ｔ）はモデルの構造に基づき活性をノードからノードへ伝搬させる行列である。Ｒ（ｔ）の要素Ｒｉｊはノード間を繋ぐエッジに付与された重みである。つまり単語Ｗｉと単語Ｗｊを繋ぐエッジの重みがＲ（ｔ）の要素Ｒｉｊとなる。上記の表７、表８、表９に示した重みが伝搬行列Ｒ（ｔ）の要素となる。

活性伝搬式の比較実験
上記の活性伝搬の式において，γの値による比較実験の結果を示す．活性回数ｔは１０までとし、表１０、表１１、表１２にはｔ＝１、ｔ＝２、ｔ＝３、ｔ＝１０のときの活性値を示す。

活性伝搬結果
活性回数１０回のときの活性値を単語群ごとに調査し、活性値上位の単語の抽出を行った結果を表１３、表１４、表１５に示す。

以上のように、γの値が変化すると活性伝搬の式に基づき単語の活性値自体は変化するが、γの値が変化しても単語群内で活性値が大きくなる単語に変化はほとんど見られなかった。よって、活性伝搬の式におけるγの値は、重要な概念の抽出とはほとんど関係がないことがわかる。

活性伝播の結果例
図１６は、キーワードを「地震」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。この図１６は、上記の実験の活性伝搬を行った結果の一部を示す。キーワードである地震を活性させた際に、その活性が伝わることで活性値の大きくなった単語が太字になっている単語である。

このように活性値がエッジの重みによって伝搬されることによって、単語の重要性を考察する。太字の単語のように、活性値の高くなった単語は、モデル内において重要な概念である可能性がある。

＜結果の考察＞
実験データの選定についての考察
上記の実験では、新聞データとＷｉｋｉｐｅｄｉａからの抽出結果を比較した。Ｗｉｋｉｐｅｄｉａでは頻度の高い単語においても重要でない単語が多く抽出された。一方新聞データでは、社会的に大きな事柄については高頻度で記述されるため、抽出結果が良かった。このような結果より、本実施例では新聞データを使うのが適していると考える。

ノードの抽出における条件付き確率とｔｆ−ｉｄｆの比較についての考察
人手評価では、ｔｆ−ｉｄｆの方が適しているという結果になり、抽出結果の考察においてもｔｆ−ｉｄｆの方が適しているという結果になった。これにより、ノードの抽出方法としては、ｔｆ−ｉｄｆを用いた手法の方が有効であることが確認できた。

抽出された社会構造モデルについての考察
抽出結果として、原発、避難、復興、事故など、地震に関連した単語が抽出できたと考えている。

活性伝搬についての考察
図１６に示したような結果が活性伝搬式により計算された。活性値の大きくなった単語として原発、福島、電話、事故、ボランティア、安全などがあげられる。これらの単語は地震により関係していると考える。これによって活性伝搬により重要な事物、概念を抽出できたと考える。

以上、本発明を実施例に基づいて説明した。この実施例はあくまで例示であり、種々の変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

たとえば、上記実施例では、活性回数を１０回行ったが、特に回数を限定する趣旨ではない。例えば、活性回数は社会構造モデルの構築精度を高める上では、２回以上が好ましく、３回以上であればより好ましく、５回以上であればさらに好ましい。また、活性回数はコンピュータの負荷を減らすためには、１００００回以下であることが好ましく、１０００回以下であることがより好ましく、１００回以下であることがさらに好ましい。なお、活性回数は１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、１０００、１００００回であってもよく、これらのうち任意の２つの数値の範囲内であってもよい。

また、上記実施例では、ｔｆ−ｉｄｆの指標が高い順から５つの単語を抽出することとしたが、他の基準で抽出を行なっても良い。例えば、ｔｆ−ｉｄｆなどの連想指標が所定の閾値以上であれば個数に関係なく単語を抽出することとしてもよい。また、所定の個数の単語を抽出する場合にも、社会構造モデルの構築精度を高める上では、ｔｆ−ｉｄｆなどの連想指標によって抽出する単語の個数は、２個以上が好ましく、３個以上であればより好ましく、５個以上であればさらに好ましい。一方、コンピュータの負荷を減らすためには、ｔｆ−ｉｄｆなどの連想指標によって抽出する単語の個数は、１０００個以下であることが好ましく、１００個以下であることがより好ましく、１０個以下であることがさらに好ましい。なお、ｔｆ−ｉｄｆなどの連想指標によって抽出する単語の個数は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、１０００個であってもよく、これらのうち任意の２つの数値の範囲内であってもよい。

また、上記実施例では、エッジに正規化済みの重みを付与することとしたが、正規化されていない重みを付与してもよい。また、重みの正規化の方法も、特に限定されず、一定のルール（規則）に基づいて変形してその後の計算に利用しやすくなるのであれば、他の正規化の方法を行なっても良い。例えば、上記の実施例のように正規化済みの重みの合計が１になるように正規化を行なってもよく、あるいは二乗平均平方根が１になるように比例変換してもよく、平均が０で分散が１になるように線形変換してもよく、最大値を１として最小値を０（あるいは−１）とするような正規化を行なってもよい。

また、上記実施例では、キーワードを「地震」としたが、他のキーワードも用いることができる。他のキーワードでも同じことは可能であり、例えば「消費税」というキーワードで同じ実験を行なっても、新聞記事から「消費税」に関連した単語を抽出でき、さらに活性伝搬処理を行うことによって、「消費税」に直接的または間接的に関連する単語間の構造モデルを構築することができる。

また、例えば「ギリシャショック」または「ギリシャ危機」というキーワードを用いてもよい。図１８は、キーワードを「ギリシャショック」または「ギリシャ危機」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。このように、「ギリシャショック」または「ギリシャ危機」というキーワードで２０１０年の毎日新聞を使って同じ実験を行なっても、同様の構造モデルを構築することができる。

具体的には、ギリシャショックとギリシャ危機のどちらかが含まれる記事群を出発として、上記の実施例と同様の方法のままで（ギリシャショックまたはギリシャ危機を最初のキーワードとして）ネットワークを構築したものである。その際、自分自身（同じ単語同士）へのリンクは削除して、他へのリンクでｔｆ−ｉｄｆの上位５個までリンクをつけたものである。リンクに付与している数字は、ｔｆ−ｉｄｆの値の高い順に１，２，３，４，５として付与している。

その結果、図１８に示すように、ユーロ、ギリシャ、財政、欧州、危機、市場、ＥＵ、ドル、首相、経済、政権、予算、金融、中国、連合、加盟、米国、小沢、鳩山、民主党、政治、政府、日本、選挙、年度、銀行、日銀、企業がノードとして得られた。

上記の実施例で説明した方法では、出発ノードの単語を含む記事群でｔｆ−ｉｄｆを計算するため、純粋にそれぞれの出発ノードに対して関連のあるものが得られる。すなわち、一番最初のギリシャショックとギリシャ危機に関係するものが得られるとは限らない。このため、首相からは、小沢、鳩山、民主党、政治といったものが得られて、だいぶギリシャショックまたはギリシャ危機とは関係のないものが得られている。このあたりはギリシャショックまたはギリシャ危機と関連性は低いとかんがえられるが、それら以外は関連性が高いと考えられる単語のネットワークが得られている。

例えば、図１８の左下には、中国が得られている。ギリシャショックまたはギリシャ危機により、中国のバブル崩壊も指摘されており、ギリシャショックまたはギリシャ危機からリンクを伝って中国が得られるのは興味深い結果である。図１８の右の方では、金融、銀行、日銀、企業とあり、ギリシャショックまたはギリシャ危機に影響を受けたものが得られており、これらも興味深い結果である。

また、例えば「洪水」というキーワードを用いてもよい。図１９は、キーワードを「洪水」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。このように、「洪水」というキーワードで２０１０年の毎日新聞を使って同じ実験を行なっても、同様の構造モデルを構築することができる。

その結果、図１９に示すように、洪水を出発として、タイ、バンコク、浸水、生産、工場、ミャンマー、スーチー、政権、津波、避難、地震、被害、被災、経済、企業、市場、中国、電話、相談、福島が得られている。上記のギリシャショックまたはギリシャ危機の実験と同様に、洪水に関係しない、ミャンマー、スーチー、政権や、浸水とのつながり大きく洪水との関係はどうかわからない、地震、津波なども得られているのは興味深い。

これに対して、上記の実施例で説明した方法ではなく、基本的には上記の実施例と同じであるが、テーマキーワードを別に設定して、テーマキーワードおよびキーワードを含む文書群におけるノード候補の単語の頻度をＴＦとする方法で実験を行ってもよい。

図２０は、テーマキーワードを「ギリシャショック」または「ギリシャ危機」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。このように、テーマキーワードと同時に出現する場合を考慮する（つまり、常に、ギリシャショックまたはギリシャ危機のどちらかは含む文書群を用いる）ことにより、テーマキーワードである「ギリシャショック」または「ギリシャ危機」に関連したもののみを取得できる。その結果、図２０に示すように、それぞれ上位５個の単語を取り出すと、ユーロ、ギリシャ、財政、欧州、ＥＵが得られている。すなわち、それぞれよく似た単語を上位５個に持つので、あらたな単語があまり出ないという結果になっている。上位５個でなく、上位１０個など取り出していけば、もう少し違う種類の単語も取り出せると想定される。

図２１は、テーマキーワードを「洪水」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。このように、テーマキーワードと同時に出現する場合を考慮することにより、テーマキーワードである「洪水」に関連したネットワークを取得できる。その結果、図２１に示すように、洪水を出発として、タイ、バンコク、浸水、生産、工場、都心、工業団地、部品、停止が得られている。このように、テーマキーワードを用いる事によって、タイの大洪水関係のものがうまく取り出せる。

また、上記実施例では、複数の異なるテキストデータとして新聞記事を用いたが、他のテキストデータも用いることができる。他のテキストデータでも同じことは可能であり、例えば「インターネット上の巨大掲示板」などをテキストデータとして用いて同じ実験を行なっても、「インターネット上の巨大掲示板」からキーワードに関連した単語を抽出でき、さらに活性伝搬処理を行うことによって、キーワードに直接的または間接的に関連する単語間の構造モデルを構築することができる。

また、上記実施例では、社会的な事物について構造モデルを構築したが、他の種類の単語も同様に用いることができる。例えば、人名についても同じことは可能であり、例えば人名をキーワードとして用いて同じ実験を行なっても、ある人名に関連した他の人名を抽出でき、さらに活性伝搬処理を行うことによって、ある人物に直接的または間接的に関連する人物間の人脈モデルを構築することができる。あるいは、会社名についても同じことは可能であり、例えば会社名をキーワードとして用いて同じ実験を行なっても、ある会社名に関連した他の会社名を抽出でき、さらに活性伝搬処理を行うことによって、ある会社に直接的または間接的に関連する会社間の取引ネットワークモデルを構築することができる。

また、上記実施例では日本語データを解析対象としたが、言語横断的な解析を行っても良い。すなわち、複数の言語のテキストデータを用いることもできる。この場合、ある言語から他の言語への翻訳方法としては、訳語辞書で翻訳する方法と、既存の翻訳システムで翻訳する方法が挙げられる。訳語辞書とは、car -- 車、house -- 家のように訳語が対になって表記されているものであり、単語マッチで変換して利用することができる。具体的には、テキストデータのうち、日本語と英語の混ざっているテキストデータの場合は、例えば翻訳ソフトや、対訳の単語対を記載した表を使って、すべて日本語に翻訳してから、処理するということも可能である。

１０２テキストデータ取得部
１０４キーワード取得部
１０６連想単語群抽出部
１０８テキストデータ母集団記憶部
１１０構造モデル解析部
１１２形態素解析部
１１４連想単語群記憶部
１１６構造モデル記憶部
１１８画像表示部
１２０出力部
１２２ネットワーク
１２３機械学習部
１２４操作部
１２５学習結果記憶部
１２６サーバ
１２８ＯＣＲ装置
１３０画像表示部
１３２プリンタ
１３４サーバ
１３８ネットワーク
１４２活性伝搬部
１４４活性伝搬解析部
１４６テーマキーワード取得部
２０２連想単語抽出部
２０４連想指標フィルター部
２０６次数付与部
２０８カウンタ
２１０連想指標計算部
２１２重み付け部
２１４集計部
２１５終了条件記憶部
２１６連想指標計算式記憶部
２１７エッジ形成部
２１８正規化計算式記憶部
２２０正規化部
３０２単語重要度判定部
３０３連想関係機械学習部
３０５連想強度機械学習部
３１０比較判定部
３１２エッジ重要度判定部
３１６単語重要度判定基準記憶部
３１８エッジ重要度判定基準記憶部
３２０比較判定部
３２２ネットワーク構築部
３２４画像データ生成部
１０００情報解析装置

Claims

テキストデータを解析する情報解析装置であって、
複数の異なるテキストデータを取得するテキストデータ取得部と、
解析の対象となるキーワードを取得するキーワード取得部と、
前記複数の異なるテキストデータを含むテキストデータ母集団を用いて、前記キーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語群抽出部と、
前記一連の連想単語群に含まれる単語同士の連想関係を解析して、前記キーワードによって直接的または間接的に連想される単語間の構造モデルを解析する構造モデル解析部と、
前記構造モデルを出力する出力部と、
を備え、
前記連想単語群抽出部は、
前記キーワードによって直接連想される１次連想単語を前記テキストデータ母集団から抽出し、さらにｔ次連想単語（ｔは１以上の整数、前記キーワードをｔ＝１の場合のｔ次連想単語とする）によって直接連想される（ｔ＋１）次連想単語を前記テキストデー母集団から抽出する連想単語抽出部と、
前記ｔ次連想単語から前記（ｔ＋１）次連想単語へのエッジに重みの付与を行う重み付け部と、
を有し、
前記連想単語抽出部は、
前記テキストデータ母集団における、前記ｔ次連想単語を含むテキストデータでの他の同属性の単語の頻度と、前記他の同属性の単語が出現するテキストデータの個数と、の複合指標を、前記ｔ次連想単語によって前記他の同属性の単語が連想される度合を示す連想指標として計算する、連想指標計算部と、
前記テキストデータ母集団から、前記ｔ次連想単語に対する前記連想指標が所定の基準を満たす前記他の同属性の単語を、前記（ｔ＋１）次連想単語として抽出する連想指標フィルター部と、
を含む、
情報解析装置。
請求項１に記載の情報解析装置において、
前記複合指標は、ｔｆ−ｉｄｆ法に基づいて算出される指標である、
情報解析装置。
請求項２に記載の情報解析装置において、
前記複合指標は、下記の式で計算される指標ｗを含み、
ｗ＝ｔｆ＊ｌｏｇ（Ｎ／ｄｆ）
ｔｆは、前記ｔ次連想単語を含むテキストデータ群における前記（ｔ＋１）次連想単語の出現回数を示し、
ｄｆは、前記テキストデータ母集団における前記（ｔ＋１）次連想単語が出現しているテキストデータ数を示し、
Ｎは、前記テキストデータ母集団における前記テキストデータ総数を示す、
情報解析装置。
請求項１〜３のいずれかに記載の情報解析装置において、
前記重み付け部は、前記ｔ次連想単語に対する前記（ｔ＋１）次連想単語の連想指標を、前記ｔ次連想単語から前記（ｔ＋１）次連想単語へのエッジに正規化した上で重みとして付与するように構成されている、
情報解析装置。
請求項４に記載の情報解析装置において、
前記重み付け部は、
前記ｔ次連想単語に対する前記（ｔ＋１）次連想単語の連想指標を集計して合計値を算出する集計部と、
前記ｔ次連想単語に対する前記（ｔ＋１）次連想単語の連想指標を前記合計値で除して、前記ｔ次連想単語から前記（ｔ＋１）次連想単語へのエッジに付与するための正規化された重みを算出する正規化部と、
を含む、
情報解析装置。
請求項１〜５のいずれかに記載の情報解析装置において、
前記構造モデル解析部は、
前記重みが所定の基準を満たすエッジを重要エッジとして判定するエッジ重要度判定部を含む、
情報解析装置。
請求項６に記載の情報解析装置において、
前記構造モデル解析部は、
前記キーワードおよび前記一連の連想単語群を前記エッジによってつないで構成されるネットワーク構造モデルを構築するネットワーク構築部と、
前記ネットワーク構造モデルにおいて前記重要エッジを強調表示したネットワーク構造を表示する画像データを生成する画像データ生成部と、
を含む、
情報解析装置。
請求項１〜７のいずれかに記載の情報解析装置において、
前記ネットワーク構造モデルを用いて前記キーワードから始まる単語間の活性伝搬を行う活性伝搬部と、
前記ネットワーク構造モデルにおける単語間の活性伝搬の状態を解析する活性伝搬解析部と、
をさらに備える、
情報解析装置。
請求項１〜８のいずれかに記載の情報解析装置において、
前記連想単語群抽出部が、
あらかじめ互いの連想関係の分かっている一連の単語群を機械学習して、前記ｔ次連想単語によって直接連想される前記（ｔ＋１）次連想単語を抽出するための条件を学習する連想条件機械学習部をさらに備える、
情報解析装置。
請求項１〜９のいずれかに記載の情報解析装置において、
前記連想単語群抽出部が、
あらかじめ互いの連想関係の分かっている一連の単語群を機械学習して、前記ｔ次連想単語から前記（ｔ＋１）次連想単語へのエッジに付与するための重みを算出する条件を学習する連想強度機械学習部をさらに備える、
情報解析装置。
請求項９または１０に記載の情報解析装置において、
前記機械学習における素性として、前記あらかじめ互いの連想関係の分かっている一連の単語群における、任意の単語を含むテキストデータでの他の同属性の単語の頻度、または、他の同属性の単語が出現するテキストデータの個数を用いるように構成されている、
情報解析装置。
請求項１〜１０のいずれかに記載の情報解析装置において、
前記キーワードとは別にテーマキーワードを取得するテーマキーワード取得部をさらに備え、
前記連想単語群抽出部は、前記複数の異なるテキストデータを含むテキストデータ母集団を用いて、前記キーワードおよび前記テーマキーワードの双方によって直接的または間接的に連想される一連の連想単語群を抽出するように構成されており、
前記構造モデル解析部は、前記一連の連想単語群に含まれる単語同士の連想関係を解析して、前記キーワードおよび前記テーマキーワードの双方によって直接的または間接的に連想される単語間の構造モデルを解析するように構成されている、
情報解析装置。
請求項１１に記載の情報解析装置において、
前記連想単語抽出部は、前記キーワードおよび前記テーマキーワードの双方と直接関連する１次連想単語を前記テキストデータ母集団から抽出し、さらにｔ次連想単語（ｔは１以上の整数、前記キーワードおよび前記テーマキーワードをｔ＝１の場合のｔ次関連単語とする）によって直接連想される（ｔ＋１）次連想単語を前記テキストデータ母集団から抽出するように構成されており、
前記連想指標計算部は、前記キーワードおよび前記テーマキーワードの双方を含むテキストデータの集合における、前記ｔ次連想単語を含むテキストデータでの他の同属性の単語の頻度と、前記他の同属性の単語が出現するテキストデータの個数と、の複合指標を、前記ｔ次連想単語によって前記他の同属性の単語が連想される度合を示す連想指標として計算するように構成されており、
前記連想指標フィルター部は、前記キーワードおよび前記テーマキーワードの双方を含むテキストデータの集合から、前記ｔ次連想単語に対する前記連想指標が所定の基準を満たす前記他の同属性の単語を、前記（ｔ＋１）次連想単語として抽出するように構成されている、
情報解析装置。
テキストデータを解析する方法であって、
複数の異なるテキストデータを取得するステップと、
解析の対象となるキーワードを取得するステップと、
前記複数の異なるテキストデータを含むテキストデータ母集団を用いて、前記キーワードによって直接的または間接的に連想される一連の連想単語群を抽出するステップと、
前記一連の連想単語群に含まれる単語同士の連想関係を解析して、前記キーワードによって直接的または間接的に連想される単語間の構造モデルを解析するステップと、
前記構造モデルを出力するステップと、
を含み、
前記一連の連想単語群を抽出するステップは、
前記キーワードによって直接連想される１次連想単語を前記テキストデータ母集団から抽出し、さらにｔ次連想単語（ｔは１以上の整数、前記キーワードをｔ＝１の場合のｔ次関連単語とする）によって直接連想される（ｔ＋１）次連想単語を前記テキストデータ母集団から抽出するステップと、
前記ｔ次連想単語から前記（ｔ＋１）次連想単語へのエッジに重みの付与を行うステップと、
を含み、
前記（ｔ＋１）次連想単語を抽出するステップは、
前記テキストデータ母集団における、前記ｔ次連想単語を含むテキストデータでの他の同属性の単語の頻度と、前記他の同属性の単語が出現するテキストデータの個数と、の複合指標を、前記ｔ次連想単語によって前記他の同属性の単語が連想される度合を示す連想指標として計算するステップと、
前記テキストデータ母集団から、前記ｔ次連想単語に対する前記連想指標が所定の基準を満たす前記他の同属性の単語を、前記（ｔ＋１）次連想単語として抽出するステップと、
を含む、
方法。
テキストデータを解析するためのプログラムであって、
複数の異なるテキストデータを取得するステップと、
解析の対象となるキーワードを取得するステップと、
前記複数の異なるテキストデータを含むテキストデータ母集団を用いて、前記キーワードによって直接的または間接的に連想される一連の連想単語群を抽出するステップと、
前記一連の連想単語群に含まれる単語同士の連想関係を解析して、前記キーワードによって直接的または間接的に連想される単語間の構造モデルを解析するステップと、
前記構造モデルを出力するステップと、
を含み、
前記一連の連想単語群を抽出するステップは、
前記キーワードによって直接連想される１次関連単語を前記テキストデータ母集団から抽出し、さらにｔ次関連単語（ｔは１以上の整数、前記キーワードをｔ＝１の場合のｔ次関連単語とする）によって直接連想される（ｔ＋１）次連想単語を前記テキストデータ母集団から抽出するステップと、
前記ｔ次連想単語から前記（ｔ＋１）次連想単語へのエッジに重みの付与を行うステップと、
を含み、
前記（ｔ＋１）次連想単語を抽出するステップは、
前記テキストデータ母集団における、前記ｔ次連想単語を含むテキストデータでの他の同属性の単語の頻度と、前記他の同属性の単語が出現するテキストデータの個数と、の複合指標を、前記ｔ次連想単語によって前記他の同属性の単語が連想される度合を示す連想指標として計算するステップと、
前記テキストデータ母集団から、前記ｔ次連想単語に対する前記連想指標が所定の基準を満たす前記他の同属性の単語を、前記（ｔ＋１）次連想単語として抽出するステップと、
を含む、
方法をコンピュータに実行させる、プログラム。