JP2015007920A - テキスト処理を用いた社会構造モデルの抽出 - Google Patents

テキスト処理を用いた社会構造モデルの抽出 Download PDF

Info

Publication number
JP2015007920A
JP2015007920A JP2013133181A JP2013133181A JP2015007920A JP 2015007920 A JP2015007920 A JP 2015007920A JP 2013133181 A JP2013133181 A JP 2013133181A JP 2013133181 A JP2013133181 A JP 2013133181A JP 2015007920 A JP2015007920 A JP 2015007920A
Authority
JP
Japan
Prior art keywords
word
associative
words
text data
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013133181A
Other languages
English (en)
Inventor
村田 真樹
Maki Murata
真樹 村田
竜太 大竹
Ryuta Otake
竜太 大竹
雅人 徳久
Masahito Tokuhisa
雅人 徳久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tottori University NUC
Original Assignee
Tottori University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tottori University NUC filed Critical Tottori University NUC
Priority to JP2013133181A priority Critical patent/JP2015007920A/ja
Publication of JP2015007920A publication Critical patent/JP2015007920A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の異なるテキストデータを用いて特定のキーワードについての社会構造モデルを解析する
【解決手段】複数の異なるテキストデータを取得するテキストデータ取得部102と、解析の対象となるキーワードを取得するキーワード取得部104と、それら複数の異なるテキストデータを含むテキストデータ母集団を用いて、そのキーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語群抽出部106と、その一連の連想単語群に含まれる単語同士の連想関係を解析して、そのキーワードによって直接的または間接的に連想される単語間の構造モデルを解析する構造モデル解析部110と、その構造モデルを出力する出力部120と、を備える、テキストデータを解析する情報解析装置1000を提供する。
【選択図】図7

Description

本発明は、テキスト処理を用いた社会構造モデルの抽出に用いるための情報解析装置、テキストデータの解析方法およびテキストデータの解析プログラムに関する。
現在、インターネット上で様々な電子テキストが増加しており、それらの中から有益な情報を取り出すことが望まれている。また、リーマンショックや東日本大震災など、社会を揺るがす出来事も多くなり、社会構造を的確に把握する技術が望まれている。松尾ら[非特許文献1]は、Web上の情報から人間関係のネットワークを抽出している。また、松村ら[非特許文献2]は、文書の主張をキーワードとし、文書の要約や文書検索のために、語の活性度に基づいたキーワード抽出法を提案している。
松尾豊,友部博教,橋田浩一,中島秀之,石塚満.Web上の情報からの人間関係ネットワークの抽出.人工知能学会論文誌,Vol.20,No.1, pp.46-56,2005. 松村直宏,大澤幸生,石塚満.語の活性度に基づくキーワード抽出法.人工知能学会論文誌,Vol.17,No.4,pp.398-406,2002.
しかしながら、上記文献記載の従来技術は、社会構造に着目したネットワークを抽出することを目的としていない。そのため、Web上のテキストからキーワードに基づいて社会構造モデルを自動的に抽出することが困難である。
例えば、非特許文献1では、条件付き確率などの各種指標を用いて人名の共起の関係を調べている。また、非特許文献2では、PAI(Priming Activation Index)のアルゴリズムを用いて一つの文書を複数のセグメントに分割した上で、セグメント間における語の活性伝搬を調べて文書全体で主張したい単語を抽出しようとしている。
PAIのアルゴリズムを以下に示す。
STEP1)前処理
文書からストップワードの除去、接尾辞の処理、熟語の処理を行う。
STEP2)文書の分割
文書をセグメントS(t=1,2,・・・,n)に分割する。
STEP3)伝搬行列R(t)の導出
各セグメントSにおける語のネットワークの構造を伝搬行列R(t)として表す。R(t)は次のようにして求める。
まず、各セグメントSを理解する上で基本となる概念を表す語として、KeyGraphに倣いSにおける出現頻度の高い語の上位N個(例えば、上位20%の値とすることができる)を選んでK(t)とする。次に、K(t)に含まれる全ての語の組w,w(i≠j)の連想の強さを測るために、S内でのw,wの共起の強さを測る。共起の強さは下記の式で表されるco(w,w)で定義する。
|x|はセグメントに含まれる文における語xの出現頻度である。ここで、K(t)のN個の語を冗長なリンクなしに結び合わせるために必要最小限の枝数として、co(w,w)の上位N−1個までの語の組w,wの間にリンクを張ることにより,語のネットワークを構成する。
R(t)は基本的にはこのネットワークを表す行列であるが、ここで更に、連想関係が強いほどプライミング効果は大きくなることと、語wから1本のリンクに伝搬する活性値はwに接続しているリンク1本1本に均等に分かれて伝搬することを仮定する。すなわち、N行N列のR(t)のi行j列の要素R(t)ijはco(w,w)の上位Nまでの語の組w,wに対して
それ以外の成分についてはR(t)ij=0とする。
STEP4)活性伝搬
各セグメントS(t=1,2,・・・,n)について、下記式を実行し活性伝搬を行う。
ここで、tはモデルを活性させる活性回数であり、A(t)ははt番目のセグメントSまでに活性化された各語の活性値を表すベクトルであり、伝搬前の各語の活性値の初期値は1とする。なお,γ,αの値は適用する文書の種類によって異なるので、詳しくは後述する。
STEP5)キーワードの抽出
文書の始めから終りまで活性伝搬させて活性値が高くなる語は、著者が一貫して強く主張したい語であると仮定する。なお、活性値はそれほど高くならない語でも、重要な概念をつないでいる語は主張を表していることが多い。重要な概念に溜まった活性値は1回の活性化でも近隣に多くの活性値をもたらすと考えられるので、重要な概念をつなぐ語は活性値を活性回数で割った値が高くなる語として得ることができる。そこで、活性値の高い語を高活性語、活性値を活性回数で割った値の高い語を鋭活性語と定義し、高活性語と鋭活性語を併せて著者の主張を表すキーワードとして取り出す。
しかしながら、非特許文献1および非特許文献2では、Web上に存在する複数の異なる文書を用いて、多くのWebコンテンツの作成者の間で特定のキーワードについてどのような社会構造モデルがイメージされているのかを自動的に抽出することは困難である。
本発明は上記事情に鑑みてなされたものであり、複数の異なるテキストデータを用いて特定のキーワードについての社会構造モデルを解析することを目的とする。
本発明に係るテキストデータを解析する情報解析装置は、複数の異なるテキストデータを取得するテキストデータ取得部と、解析の対象となるキーワードを取得するキーワード取得部と、それら複数の異なるテキストデータを含むテキストデータ母集団を用いて、そのキーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語群抽出部と、その一連の連想単語群に含まれる単語同士の連想関係を解析して、そのキーワードによって直接的または間接的に連想される単語間の構造モデルを解析する構造モデル解析部と、その構造モデルを出力する出力部と、を備える。
また、その連想単語群抽出部は、そのキーワードによって直接連想される1次連想単語をそのテキストデータ母集団から抽出し、さらにt次連想単語(tは1以上の整数、そのキーワードをt=1の場合のt次連想単語とする)によって直接連想される(t+1)次連想単語をそのテキストデータ母集団から抽出する連想単語抽出部と、そのt次連想単語からその(t+1)次連想単語へのエッジに重みの付与を行う重み付け部と、を有する。
そして、その連想単語抽出部は、そのテキストデータ母集団における、そのt次連想単語を含むテキストデータでの他の同属性の単語の頻度と、その他の同属性の単語が出現するテキストデータの個数と、の複合指標を、そのt次連想単語によってその他の同属性の単語が連想される度合を示す連想指標として計算する、連想指標計算部と、そのテキストデータ母集団から、そのt次連想単語に対するその連想指標が所定の基準を満たすその他の同属性の単語を、その(t+1)次連想単語として抽出する連想指標フィルター部と、を含む。
この構成によれば、キーワードによって直接連想される1次連想単語をテキストデータ母集団から抽出し、さらにt次連想単語によって直接連想される(t+1)次連想単語を連想指標を用いてテキストデータ母集団から抽出して、キーワードによって直接的または間接的に連想される一連の連想単語群を抽出するため、複数の異なるテキストデータから特定のキーワードについての社会構造モデルを解析することができる。
なお、上記の装置は本発明の一態様であり、本発明の装置は、以上の構成要素の任意の組合せであってもよい。また、本発明の方法、システム、コンピュータプログラム、記録媒体なども、同様の構成を有する。
本発明によれば、複数の異なるテキストデータから特定のキーワードについての社会構造モデルを解析することができる。
実施形態に係る情報解析装置を用いて特定のキーワードについての社会構造モデルを解析するスキームを説明するための概念図である。 実施形態に係る情報解析装置を用いて特定のキーワードによって直接連想される単語をtf−idf法を用いて抽出するスキームについて説明するための概念図である。 実施形態に係る情報解析装置においてtf−idfのスコアを計算する方法について説明するための概念図である。 実施形態に係る情報解析装置を用いてtf−idfのスコアを利用した重みをエッジに付与するスキームについて説明するための概念図である。 実施形態に係る情報解析装置を用いて社会構造モデルの拡大を行う方法について説明するための概念図である。 実施形態に係る情報解析装置を用いて活性伝搬を行う際にエッジの重みを利用して活性値を計算する方法について説明するための概念図である。 実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。 実施形態に係る情報解析装置の連想単語群抽出部の内部構成について説明するための機能ブロック図である。 実施形態に係る情報解析装置の構造モデル解析部の内部構成について説明するための機能ブロック図である。 実施形態に係る情報解析装置の動作について説明するためのフローチャートである。 実施形態に係る情報解析装置の連想単語群抽出部の動作について説明するためのフローチャートである。 実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。 実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。 実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。 実施形態の変形例に係る情報解析装置の連想関係機械学習部及び連想強度機械学習部の構成について説明するための機能ブロック図である。 キーワードを「地震」とした場合に活性化される単語をTD−IDFおよび条件付き確率を用いて抽出した結果を比較して説明するための概念図である。 キーワードを「地震」とした場合にどのようなネットワークが構築されるかを説明するための概念図である。 キーワードを「地震」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。 サポートベクトルマシン法のマージン最大化の概念を示すための概念図である。 キーワードを「ギリシャショック」または「ギリシャ危機」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。 キーワードを「洪水」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。 テーマキーワードを別に「ギリシャショック」または「ギリシャ危機」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。 キーワードを「洪水」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
<社会構造モデルを解析するスキーム>
本実施形態では、電子テキストから社会構造モデル(事物の関係情報のネットワーク)を構築する。また、本実施形態では、社会構造モデルのネットワークにおいて、活性伝搬を行い、ネットワーク上での重要な概念を考察する。以下、本実施形態において社会構造モデルを解析するスキームについて具体例を挙げて説明する。
社会構造モデルの構築
図1は、実施形態に係る情報解析装置を用いて特定のキーワードについての社会構造モデルを解析するスキームを説明するための概念図である。本実施形態では、まず、(1)最初に構築したい社会構造モデルの主となる概念をテーマとなるキーワードとして設定する。次いで、(2)そのテーマとなるキーワードに関係した電子テキストを抽出する。そして、そのテキストにおいて,テーマとなるキーワードと関係性の強い単語をtf−idfなどを利用して抽出する。その後、(3)単語間の関係によるネットワークを構成し、単語間の関係に重みを付与する。次に、(4)関係性が強いとされた単語とさらにその単語に関係性が強い単語も抽出する。このように繰り返し抽出を繰り返すことで社会構造モデルを拡大していく。より詳細な社会構造モデルの構築方法を以下で説明する。
ノード候補の抽出
本実施形態では、テーマとなるキーワードとなる単語を単語aとする。この場合、まず、単語aを含んだ記事群を抽出する。抽出された記事群を記事群Aとする。次いで、形態素解析を用い記事群Aから名詞のみを抽出する。その際に一文字、ひらがなのみ、数字のみの単語を除外する。そして、記事群A内で抽出された単語の出現頻度をそれぞれ求め、抽出した名詞群の上位100単語をモデルのノードの候補とする。
ノードの選定
図2は、実施形態に係る情報解析装置を用いて特定のテーマとなるキーワードによって活性化される単語をtf−idf法を用いて抽出するスキームについて説明するための概念図である。得られたノードの候補の中から、tf−idfを用いて、実際にノードに用いる単語を選定する。選定を行う際には、tf−idfのスコアの上位5単語をキーワードと関係性の強い単語とする。
図3は、実施形態に係る情報解析装置においてtf−idfのスコアを計算する方法について説明するための概念図である。tf−idfを用いる方法を説明する。tfは抽出された対象テキスト内でのノード候補の単語の出現回数、dfは新聞データ内でのノード候補の単語の出現記事数とし、Nは新聞データの総記事数とし、tf−idfを下記式で表す。
この値が大きいノード候補の単語をモデルのノードとして用いる。上記の方法で選定した5単語を単語aのノードから繋がるノードn(図3で示される単語Aを含む5単語)とする。
本実施形態では、出発ノード(最初の単語)がテーマとなるキーワードに相当する。出発ノードが異なると、テーマとなるキーワードが異なるので、エッジの先のノード(単語)が同一であっても、tf−idfの値は異なる場合がある。tfは、テーマとなるキーワードを含む記事群でのエッジ先のノード(単語)の出現数のためである。これにより、tf−idfに基いて抽出された単語であれば、適切に出発ノード(最初の単語、テーマとなるキーワード)のエッジの先のノード(単語)として利用できる。その結果、テーマとなるキーワードと同時に出現する場合を考慮してtf−idfに基いて抽出された単語を用いることにより、テーマとなるキーワードに関連した単語によって構築されるネットワークを取得できる。
一般的にtf−idfを特徴のある単語を文書群から取り出す時に用いる場合、出発ノードの単語などは意識せず、全文書において重要となる単語を取り出すという使い方がなされる。例えば、tfは全文書での単語数というものを用いる場合もある。
または、全文書のうちのある文書Xに出現する特徴のある単語を取り出すという際にもtf−idfは利用されるが、この場合は、文書Xに出現する単語数がtfとなる。このとき、文書Xでの単語数をtfとして用いるが、この場合も出発ノードを考慮した処理でなく、本実施形態の出発ノードを考慮してtf−idfの値を産出する方法は、新規な考え方である。
エッジに重みの付与
図4は、実施形態に係る情報解析装置を用いてtf−idfのスコアを利用した重みをエッジに付与するスキームについて説明するための概念図である。図5は、実施形態に係る情報解析装置を用いて計算されたエッジの重みを利用して活性伝搬を行うスキームについて説明するための概念図である。上述のようにして抽出された単語間の関係(エッジ)に重みを付与し、単語間の関連の強さに差をつける。エッジに付与する重みを下記式に示す。
ここで,単語nは単語aから抽出された5単語のうちの1単語(例えば、単語A)とする。単語aからノードnへの重みは、ノードnを取得する際に得られたtf−idfに基づく値を利用する。
社会構造モデルの拡大
図5は、実施形態に係る情報解析装置において社会構造モデルの拡大を行う方法について説明するための概念図である。単語aから5つの単語が抽出される流れを上記で説明した。これによって得られた単語nを単語a'と設定し同様の手順で単語a'から5つの単語を抽出する。これにより単語aから抽出された5つの単語にさらに単語a'から抽出された単語5つが加る。同様に各単語からの抽出を繰り返すことで社会構造モデルを拡大していく。
活性伝搬
人間の記憶のメカニズムを近似したものに活性伝搬モデルというものがある。活性伝搬は、エッジで結ばれたネットワーク構造において、活性を伝搬させ、その活性度の変化を調べることでネットワークのノードの重要度を計るという考えである。
活性伝搬では、社会構造モデルの各ノードが活性値を、そのノードに連結している他のノードに伝搬させる。伝搬した際の各ノードの活性値の変化によって考察を行う。本実施形態での活性伝搬は、下記式により行う。
ここで、tはモデルを活性させる活性回数であり、A(t)は活性回数tのときの各ノードの活性値を表すベクトル、Cはモデルに外部から注入される刺激を表すベクトル、IはA(t−1)の活性値をA(t)に伝搬させる単位行列、R(t)はネットワークの構造のエッジの重みに基づき表される伝搬行列である。R(t)のi行j列の要素Rijは単語Wiと単語Wjの関連の強さを表している。また、γは活性値の減衰率を表す減衰パラメータ、αはネットワークが単語の活性値に及ぼす影響力の程度を表す伝搬パラメータである。
本実施形態では、社会構造モデルはそのモデルだけで完結しており、外部からの刺激はないものとする。よって上記式の外部から注入される活性値を表すベクトルCはC=0とする。ネットワークが単語の活性値に及ぼす影響力の程度を表す伝搬パラメータαは、活性の伝搬はモデルの構造を表すベクトルR(t)によってのみ行われるため、α=1とする。また、減衰率を表す減衰パラメータγは、適応する文書により異なるため、減衰パラメータは0<γ<1において適宜設定することができる。よって、本実施形態の活性伝搬式には下記式を用いることとする。
図6は、実施形態に係る情報解析装置を用いて活性伝搬を行う際にエッジの重みを利用して活性値を計算する方法について説明するための概念図である。図6は、活性値が伝搬していく流れを表している。図6において、テーマとなるキーワードAkが活性した際に、その活性がエッジの重みPaにより単語Aに伝わって単語Aの活性値がAa=Pa*Akとなることで単語Aが活性し、単語Aが活性することで、単語Aのさらに下流にある別の単語が活性する。このように、起点となる単語(社会構造モデルのテーマとなるキーワード)が刺激され、活性し、その活性値がエッジの重みに基づき分散され各単語に伝わる。
<情報解析装置の構成の説明>
図7は、実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。本実施形態に係るテキストデータを解析する情報解析装置1000は、複数の異なるテキストデータを取得するテキストデータ取得部102を備える。このテキストデータ取得部102は、新聞の記事またはWikipediaの記事などを外部から取得することができる。例えば、テキストデータ取得部102は、新聞の記事またはWikipediaの記事のテキストデータを含むデータベースが格納された外部のサーバ126からネットワーク122を介して、新聞の記事またはWikipediaの記事のテキストデータを取得する。
なお、新聞の記事またはWikipediaの記事のテキストデータが紙書類のままであり電子化されていない場合には、OCR装置128を用いて紙書類を読み取って電子データ化してからネットワーク122を介して、新聞の記事またはWikipediaの記事のテキストデータを取得してもよい。ここで、取得された新聞の記事またはWikipediaの記事のテキストデータは、仮に標準的なデータ形式ではない場合には、標準的なデータ形式に変換されてもよい。
この情報解析装置1000は、テキストデータ取得部102で取得された複数の異なるテキストデータを含むテキストデータ母集団をデータベース化して格納するためのテキストデータ母集団記憶部108を備える。
なお、このテキストデータ母集団に含まれるテキストデータは、形態素解析部112で形態素解析を行ってから用いられる。この形態素解析部112で用いる日本語の形態素解析エンジンとしては、以下のものを好適に活用できる。
KAKASI(kanji kana simple inverter)、kakasi.namazu.org
MeCab(和布蕪)、mecab.sourceforge.net
ChaSen(茶筌)、chasen.naist.jp
Juman、nlp.kuee.kyoto-u.ac.jp
Sen(MeCabのJava(登録商標)への移植)、ultimania.org、sen.dev.java.net
日本語形態素解析Webサービス(Yahoo!デベロッパーネットワーク)、developer.yahoo.co.jp
これらの中でも、例えば、公知の形態素解析ツールであるChasenを用いることが好ましい。Chasenを用いれば、日本語文を分割し、さらに、各単語の品詞も推定することができる。Chasenを用いた日本語文の分割例を説明する。例えば、「学校へ行く」を入力すると以下の結果を得る。
学校 ガッコウ 学校 名詞− 一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
なお、英語の品詞タグつけシステムとしてはBrill(Transformation-Based Error-DriVen Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol.21, No.4, p.543-565, 1995. 参照)のものが有名であり、英語文の各単語の品詞を推定することができる。
すなわち、形態素解析部112は、形態素解析を行なって品詞が「名詞」となった単語を抽出する。さらに、形態素解析部112は、複合名詞を考慮するため、隣り合う形態素の品詞が両方とも名詞であった場合、これらを1つの名詞として抽出する。また、形態素解析部112は、日本語の場合、カタカナで書かれた言葉は名詞であることが多いので、品詞が「未定義語−カタカナ」となった単語も抽出する。形態素解析部112は、こうして抽出した単語を後述する連想単語群抽出部106に送る。
この情報解析装置1000は、解析の対象となるキーワードを取得するキーワード取得部104を備える。このキーワード取得部104は、後述する実施例では、解析の対象として「地震」というキーワードが操作部124から入力されて取得している。もっとも、この解析の対象となるキーワードは、例えば外部のサーバ126からネットワーク122を介して取得されてもよい。キーワード取得部104は、こうして取得したキーワードを後述する連想単語群抽出部106に送る。
この情報解析装置1000は、テキストデータ母集団を用いて、キーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語群抽出部106を備える。その際、この連想単語群抽出部106は、形態素解析部112においてテキストデータ母集団から抽出された名詞の中から1次連想単語を抽出することが好ましい。また、この連想単語群抽出部106は、キーワード取得部104から解析の対象となるキーワードを受け取る。なお、この連想単語群抽出部106の内部でどのような情報処理が行われるかは後述する。この連想単語群抽出部106は、一連の情報処理の後に得られる連想単語群を連想単語記憶部114に格納する。
この情報解析装置1000は、一連の連想単語群に含まれる単語同士の連想関係を解析してキーワードによって直接的または間接的に連想される単語間の構造モデルを解析する構造モデル解析部110を備える。この構造モデル解析部110は、キーワードによって直接的または間接的に連想される一連の連想単語群を連想単語記憶部114から取得する。なお、この構造モデル解析部110の内部でどのような情報処理が行われるかは後述する。また、この構造モデル解析部110は、一連の情報処理の後に得られる構造モデルを構造モデル記憶部116に格納する。
この情報解析装置1000は、単語間の構造モデルを出力する出力部120を備える。後述する実施例では、この出力部120は、構造モデル解析部110の解析結果を一覧表などの利用しやすい形式にした上で、画像データ・数値データ・テキストデータなどのデータ形式でネットワーク138を介して画像表示部130、プリンタ132、サーバ134などに出力する。あるいは、この出力部120は、上記の解析結果をリアルタイムで情報解析装置1000に接続された画像表示部118に出力することもできる。
図8は、実施形態に係る情報解析装置の連想単語群抽出部の内部構成について説明するための機能ブロック図である。この連想単語群抽出部106は、カウンタ208から取得するカウント数によって、すでに連想処理を何回繰り返したか((t−1)が幾らか)判定し、終了条件記憶部215に格納されている条件が未だ満たされていない場合には、連想処理を繰り返す。一方、この連想単語群抽出部106は、終了条件記憶部215に格納されている条件(例えば(t−1)が10以上の場合には終了する)が満たされている場合には、連想単語の抽出処理を終了する。
この連想単語群抽出部106は、キーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語抽出部202を備える。この連想単語抽出部202は、キーワードによって直接連想される1次連想単語をテキストデータ母集団から抽出する。また、この連想単語抽出部202は、t次連想単語(tは1以上の整数、キーワードをn=1の場合のt次連想単語とする)によって直接連想される(t+1)次連想単語をテキストデータ母集団から抽出する。
この連想単語抽出部202は、ある単語および他の単語の連想指標を計算する連想指標計算部210を備える。この連想指標計算部210は、連想指標計算式記憶部216に格納された計算式に基いて連想指標を計算する。この計算式は、テキストデータ母集団における、テキストデータ母集団における、t次連想単語を含むテキストデータでの他の同属性の単語の頻度と、他の同属性の単語が出現するテキストデータの個数と、の複合指標を、t次連想単語によって他の同属性の単語が連想される度合を示す連想指標として計算する。このような計算式としては、例えば、tf−idf法の下記計算式が挙げられる。
上記の計算式において、tfは、t次連想単語を含むテキストデータ群における(t+1)次連想単語の出現回数を示す。また、dfは、テキストデータ母集団における(t+1)次連想単語が出現しているテキストデータ数を示す。また、Nは、テキストデータ母集団におけるテキストデータ総数を示す。例えば、新聞データを用いて社会構造モデルを解析する場合であれば、tfは抽出された対象テキスト内でのノード候補の単語の出現回数、dfは新聞データ内でのノード候補の単語の出現記事数とし、Nは新聞データの総記事数としてもよい。すなわち、この連想指標計算部210は、tf−idf法に基づいて算出されるtf、dfおよびNの複合指標を連想指標として用いている。このように、連想指標計算部210では、tfを使うことで、うまくt次連想単語および(t+1)次連想単語の共起出現を考慮できるようになっており、テキストデータ母集団における(t+1)次連想単語が出現しているテキストデータ数のidfを使うことで、どこにでも出てくるような不要語をカットできるようになっている。また、この連想指標計算部210は、共起回数を利用するので、その二つの連想が得られる。さらには、t次連想単語を含むテキストデータ群における(t+1)次連想単語の出現回数を求めているので、t次連想単語のうち、それと共起する(t+1)次連想単語の個数を算出することができる。また、t次連想単語のうち、どのくらいの割合で(t+1)次連想単語と共起しているかを調べているので、t次連想単語からの連想語として、(t+1)次連想単語を取得できる。
この連想単語抽出部202は、連想指標に基いて単語を抽出する連想指標フィルター部204を備える。この連想指標フィルター部204は、テキストデータ母集団から、t次連想単語に対する連想指標が所定の基準(例えば連想指標が高い順に所定の数)を満たす他の同属性の単語を、(t+1)次連想単語として抽出する。このとき、この連想指標フィルター部204は、例えば、操作部124においてオペレータによって入力された数値(例えば5)を取得して、連想指標が高い順にその数(例えば5個)だけ(t+1)次連想単語を抽出することができる。
あるいは、キーワードによって直接的または間接的に連想される単語間の構造モデルの解析精度を向上させるためには、この連想指標フィルター部204は、連想指標の値が閾値以上のものを取り出してもよく、連想指標の値が大きい順に所定の個数取り出してもよい。または、連想指標が最大のものを抽出した上で、その最大の連想指標の値に対して所定の割合をかけた値を求め、その求めた値以上の連想指標を持つものを取り出してもよい。もちろん、これらの閾値、所定の値をあらかじめ定めておいてもよく、適宜ユーザが値を変更、設定することも可能である。
この活性化単語抽出部202は、連想された単語に次数を付与する次数付与部206を備える。この次数付与部206は、カウンタ208から取得するカウント数によって、すでに連想処理を何回繰り返したか((t−1)が幾らか)判定し、抽出された単語に次数を付与する。すなわち、この次数付与部206は、t次連想単語によって直接連想された単語には、(t+1)次の次数を付与して(t+1)次連想単語とする。
この活性伝搬部106は、t次連想単語および(t+1)次連想単語の間にエッジを形成するエッジ形成部217を備える。この活性伝搬部106は、t次連想単語から(t+1)次連想単語へのエッジに重みの付与を行う重み付け部212を備える。
この重み付け部212は、連想指標の合計を算出する集計部214を備える。この集計部214は、t次連想単語に対する(t+1)次連想単語の連想指標を集計して、t次から(t+1)次に連想するときの連想指標の合計を算出する。また、この重み付け部212は、正規化された重みを算出する正規化部220を備える。この正規化部220は、正規化計算式記憶部218に格納された計算式に基いて正規化された重みを計算する。この計算式は、t次連想単語に対する(t+1)次連想単語の連想指標を合計値で除して、t次連想単語から(t+1)次連想単語へのエッジに付与するため正規化された重みを計算する。このような計算式としては、例えば、1つのt次連想単語によって5つの(t+1)次連想単語が連想される場合には、下記計算式を用いることができる。
上記の計算式において、単語nは、1つのt次連想単語によって直接連想された5つの(t+1)次連想単語のうちの1単語とする。t次連想単語から(t+1)次連想単語への重みは、(t+1)次連想単語を取得する際に得られたtf−idfに基づく値を利用する。
そのため、この重み付け部212は、t次連想単語に対する(t+1)次連想単語の連想指標を、t次連想単語から(t+1)次連想単語へのエッジに正規化した上で重みとして付与することができる。
この活性伝搬部106は、単語に連想関係値値を付与する活性値付与部222を備える。この活性値付与部222は、キーワードに初期活性値を付与する。また、この活性値付与部222は、t次連想単語に付与されているt次活性値(その初期活性値をt=1の場合のt次活性値とする)と、t次連想単語からその(t+1)次連想単語へのエッジに付与されている重みと、に基いて算出される(t+1)次活性値を計算(t+1)次連想単語に付与する。
図9は、実施形態に係る情報解析装置の構造モデル解析部の内部構成について説明するための機能ブロック図である。この情報解析装置1000は、単語間の構造モデルを解析する構造モデル解析部110を備える。
この構造モデル解析部110は、重みが所定の基準を満たすエッジを重要エッジとして判定するエッジ重要度判定部312を備える。このエッジ重要度判定部312は、エッジの重要度の判定基準を格納するエッジ重要度判定基準記憶部318を備える。この判定基準としては、例えば、エッジに付与された重み(正規化済み)が所定の閾値以上であれば重要なエッジであると判定する基準を用いることができる。
このエッジ重要度判定部312は、一連の連想単語群に付与された重みを取得する重み取得部314を備える。この重み取得部314は、一連の連想単語同士を結ぶエッジに付与された重み(正規化済み)を、連想単語記憶部114に格納されている一連の連想単語群を含むデータベースからエッジおよび重み(正規化済み)を互いに紐付けられた状態で読み込む。
このエッジ重要度判定部312は、エッジに付与された重み(正規化済み)およびエッジ重要度判定基準を比較して、エッジの重要度を判定する比較判定部320を有する。この比較判定部320は、例えば、あるエッジの重み(正規化済み)がエッジ重要度判定基準を満たしていればそのエッジを重要なエッジであると判定する。
この構造モデル解析部110は、ネットワーク構造モデルを構築するネットワーク構築部322を備える。このネットワーク構築部322は、キーワードおよび一連の連想単語群をエッジ(正規化済み)によってつないでネットワーク構造モデルを構築する。このネットワーク構築部322は、連想単語記憶部114に格納されている一連の連想単語群を含むデータベースから一連の連想単語群およびそれらの連想単語同士を結ぶ一連のエッジに関する情報を取得する。このネットワーク構築部322は、それぞれの連想単語をノードとして、次数の隣合うノード同士をエッジ(リンクとも呼ばれる)でつないでネットワーク構造モデルを構築する。
この構造モデル解析部110は、画像データを生成する画像データ生成部324を備える。この画像データ生成部324は、ネットワーク構造モデルにおいて重要単語および重要エッジを強調表示したネットワーク構造を表示する画像データを生成する。このネットワーク構築部322は、重要エッジを強調されたエッジとしたネットワーク構造モデルを、グラフ化された画像データとして生成する。このネットワーク構築部322では解析結果を画像データとして生成できるため、その画像データを受け取った出力部120がユーザに直感的に理解しやすい形で解析結果を出力することが可能になる。
<情報解析装置の動作の説明>
図10は、実施形態に係る情報解析装置の動作について説明するためのフローチャートである。まず、動作を開始すると、テキストデータ取得部102が複数の異なるテキストデータを取得する(S102)。次いで、キーワード取得部104が解析の対象となるキーワードを取得する(S104)。そして、連想単語群抽出部106が、キーワードから始まる単語間の連想処理を行う(S106)。その後、構造モデル解析部110が、キーワードによって直接的または間接的に連想される単語間の構造モデルを解析する(S108)。そして、出力部120が、構造モデルを出力して(S110)、一連の動作が終了する。
図11は、実施形態に係る情報解析装置の連想単語群抽出部の動作について説明するためのフローチャートである。すなわち、この図11を用いて説明するサブルーチンは、上記の図10のメインルーチンにおけるステップ106である。
まず、活性伝搬部106が動作を開始すると、連想単語抽出部202が、t次連想単語に対する他の同属性の単語の連想指標を例えばtf−idf法に基づいて計算する(S202)。次いで、連想単語抽出部202が、その連想指標が基準を満たすかどうか(例えば、連想指標が高い順から5個以内に含まれるかどうか)判定する(S204)。そして、上記の基準が満たされない場合には、連想単語群抽出部106はS202に戻ってこれまでのステップを繰り返す。一方、上記の基準が満たされる場合には、連想単語抽出部202は、t次連想単語に対する連想指標が上記の基準を満たす他の同属性の単語を(t+1)次連想単語として抽出する(S206)。
その後、重み付け部212が、t次連想単語に対する(t+1)次連想単語の連想指標を、t次連想単語から(t+1)次連想単語へのエッジに正規化した上で重みとして付与する(S208)。
続いて、連想単語群抽出部106は、すでに抽出した(t+1)次連想単語の数が基準数(例えば、連想指標が高い順から5個)以上になっているかどうか判定する(S212)。そして、上記の基準が満たされない場合には、連想単語群抽出部106はS202に戻ってこれまでのステップを繰り返す。一方、上記の基準が満たされる場合には、連想単語群抽出部106は、すでに連想処理を何回繰り返したか((t−1)が幾らか)を参照し、繰り返し回数(tの値)が終了のための終了基準数(例えば、(t−1)の値が10以上の場合は終了する)を満たすかどうか判定する(S214)。そして、上記の基準が満たされない場合には、連想単語群抽出部106は、tに(t+1)を代入(S216)した上で、もう一度S202に戻ってこれまでのステップをさらに繰り返す。一方、上記の基準が満たされる場合には、連想単語群抽出部106は一連の連想処理を終了する。
<情報解析装置の変形例(テーマキーワードあり)の説明>
図12aは、実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、キーワードとは別にテーマキーワードを用いる点を除けば上述のスキームと同じである。
すなわち、この変形例の情報解析装置1000は、キーワードとは別にテーマキーワードを取得するテーマキーワード取得部146をさらに備える点で上述のスキームとは異なっている。また、連想単語群抽出部106が、複数の異なるテキストデータを含むテキストデータ母集団を用いて、キーワードおよびテーマキーワードの双方によって直接的または間接的に連想される一連の連想単語群を抽出するように構成されている点でも異なっている。そして、構造モデル解析部110が、一連の連想単語群に含まれる単語同士の連想関係を解析して、キーワードおよびテーマキーワードの双方によって直接的または間接的に連想される単語間の構造モデルを解析するように構成されている点でも異なっている。
具体的には、この変形例では、連想単語抽出部202は、キーワードおよびテーマキーワードの双方と直接関連する1次連想単語を前記テキストデータ母集団から抽出し、さらにt次連想単語(tは1以上の整数、キーワードおよびテーマキーワードをt=1の場合のt次関連単語とする)によって直接連想される(t+1)次連想単語をテキストデータ母集団から抽出するように構成されている。また、連想指標計算部210は、キーワードおよびテーマキーワードの双方を含むテキストデータの集合における、t次連想単語を含むテキストデータでの他の同属性の単語の頻度と、他の同属性の単語が出現するテキストデータの個数と、の複合指標を、t次連想単語によって他の同属性の単語が連想される度合を示す連想指標として計算するように構成されている。そして、連想指標フィルター部204は、キーワードおよびテーマキーワードの双方を含むテキストデータの集合から、t次連想単語に対する連想指標が所定の基準を満たす他の同属性の単語を、(t+1)次連想単語として抽出するように構成されている。
そのため、この変形例によれば、後述の実施例でもテーマキーワードを「ギリシャショック」または「ギリシャ危機」とした場合について、あるいはテーマキーワードを「洪水」とした場合について示すように、キーワードおよびテーマキーワードの双方に関連性の深い連想単語だけが抽出されてくるという利点がある。
<情報解析装置の変形例(活性伝搬あり)の説明>
図12bは、実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、単語間の構造モデルを構築した後に活性伝搬を行う点を除けば上述のスキームと同じである。
すなわち、この変形例の情報解析装置1000は、ネットワーク構造モデルを用いてキーワードから始まる単語間の活性伝搬を行う活性伝搬部142と、そのネットワーク構造モデルにおける単語間の活性伝搬の状態を解析する活性伝搬解析部144と、をさらに備える点で上述のスキームとは異なっている。
この活性伝搬部142は、t次連想単語に付与されているt次活性値(その初期活性値をt=1の場合のt次活性値とする)と、t次連想単語から(t+1)次連想単語へのエッジに付与されている重み(正規化済み)と、に基いて算出した値を(t+1)次活性値とする活性伝搬処理を行うように構成されている。
なお、活性伝搬のエッジは1エッジだけではなく、複数のエッジが錯綜することが多いため、すでに過去に活性値が付与されている単語にさらに活性値が付与されることもある。その場合には、その単語への活性値はどんどん加算されていくことになる。また、複数のエッジが1つの単語にそれぞれ活性値を付与することもある。その場合には、その単語への活性値は複数のエッジからの活性値を合計して付与されることになる。
そのため、活性伝搬部114は、例えば、エッジの重みを利用した下記計算式を用いて(t+1)次活性値を計算することができる。
A(t+1)=P(t+1)*A(t)
上記の計算式において、A(t+1)は、(t+1)次連想単語の活性値を示す。また、P(t+1)は、t次連想単語から(t+1)次連想単語へのエッジに付与されている重み(正規化済み)を示す。また、A(t)は、t次連想単語の活性値を示す。
この活性伝搬解析部144は、一連の活性化単語群において活性値が所定の基準を満たす単語を重要単語として判定するように構成されている。この判定基準としては、例えば、活性値が所定の閾値以上であれば重要な単語であると判定する基準を用いることができる。そのため、この変形例によれば、活性伝搬を行うことによって、エッジの重要性を判定することができるだけでなく、単語の重要性についても判定することができるという利点を有する。
<情報解析装置の変形例(機械学習あり)の説明>
図12cは、実施形態の変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、あらかじめ機械学習を行って好適なパラメータを求める点を除けば上述のスキームと同じである。
すなわち、本変形例でも、キーワードから始まる単語間の活性伝搬を行うことで、キーワードに直接的または間接的に関連する単語間の構造モデルを解析できることはすでにのべた通りであるが、これの発展としてあらかじめ好適なパラメータを求めておくために機械学習を行う。この変形例では、活性伝搬部106が、あらかじめ互いの連想関係および連想強度の分かっている一連の単語群を含む前記複数の異なるテキストデータを用いて機械学習する機械学習部123を備える。
このように機械学習部123において、学習データを用いて単語と単語が連想関係にあるかないかを推定できるようにしておくと、その学習結果を以下のようにして活用することができる。
具体的には、あるノードA(単語A)に対して、例えばtf−idfが大きい単語Bを100個程度そのノードAによって連想される単語の候補として取り出した場合に、単語Aから単語Bが連想関係にあるかを機械学習で判定して、連想関係にあるとされたBのみに対してAからリンクをはることができる。
さらには、連想関係にあるかいなかを機械学習で判定する際に確信度が得られるため、その確信度も利用して、100個の単語Bのうち連想関係にあると判断され、確信度が上位5個の単語Bに対してのみリンクをはる、または、確信度が所定の値以上の単語Bに対してのみリンクをはることもできる。
図13は、実施形態の変形例に係る情報解析装置の連想関係機械学習部及び連想強度機械学習部の構成について説明するための機能ブロック図である。図13に示すように、機械学習部123は、あらかじめ互いの連想関係の分かっている一連の単語群を機械学習する連想関係機械学習部303およびあらかじめ互いの連想強度の分かっている一連の単語群を機械学習する連想強度機械学習部305を備える。
すなわち、連想関係機械学習部303は、あらかじめ互いの連想関係の分かっている一連の単語群を機械学習して、t次連想単語によって活性化される(t+1)次連想単語を抽出できるようにパラメータを学習する。そのため、あらかじめ学習データを人手で作成して準備する必要がある。具体的には、被験者実験を行い、ある単語から連想する単語にどういうものがあるかを問い、連想するとされた単語を収集しておく。そして、連想関係機械学習部303は、その単語をノードとして選択しやすくなるように学習させる。
すなわち、連想関係機械学習部303は、
問題:ある単語Aに対して単語Bを連想するかいなか
解答:連想するor連想しない
を機械学習する。
この際、連想関係機械学習部303は、素性を問題から取得する。素性にtf−idf、tf−idf、単語、単語の意味分類、単語の共起語などを用いる。具体的には、単語Aをキーワードとした場合の単語Bのtf−idf、tf−idfなどの値を算出し、それを素性とする。単語A、単語B、単語Aおよび単語Bの意味分類、単語Aおよび単語Bの記事中の共起語(共起語=近くに出現する単語や同一文に出現する単語)などを素性とする。なお、数値を素性とする際、数値のまま素性にしてもよく、0から1未満、1から2未満など、数値が入った区間を素性に使ってもよい。
また、連想強度機械学習部305は、あらかじめ互いの連想強度の分かっている一連の単語群を機械学習して、t次連想単語から(t+1)次連想単語へのエッジに付与するための重みを算出できるようにパラメータを学習する。そのため、あらかじめ、人手で作成して学習データを準備する必要がある。具体的には、被験者実験を行い、ある単語から連想する単語にどういうものがあるかを問い、連想するとされた単語を収集する。連想強度機械学習部305は、その連想すると答えた被験者の割合をエッジ(リンク)の重みのようにするような学習を行う。
すなわち、連想強度機械学習部305は、
問題:ある単語Aから単語Bへのリンク
解答:ある単語Aから単語Bへのリンクの重みの値
を機械学習する。
この際、連想強度機械学習部305は、素性を問題から取得する。素性にtf−idf、単語、単語の意味分類、単語の共起語などを用いる。具体的には、単語Aをキーワードとした場合の単語Bのtf−idfの値を算出し、それを素性とする。単語A、単語B、単語Aおよび単語Bの意味分類、単語Aおよび単語Bの記事中の共起語(共起語=近くに出現する単語や同一文に出現する単語)などを素性とする。なお、数値を素性とする際、数値のまま素性にしてもよく、0から1未満、1から2未満など、数値が入った区間を素性に使ってもよい。
この機械学習部123は、あらかじめ互いの連想関係または連想強度の分かっている一連の単語群を外部から取得することができる。例えば、この機械学習部123は、あらかじめ互いの連想関係または連想強度の分かっている一連の単語群を含むデータベースが格納された外部のサーバ126からネットワーク122を介して、あらかじめ互いの連想関係または連想強度の分かっている一連の単語群を取得することができる。
この場合、ランダム係数発生部118が乱数表を活用してランダムなパラメータを発生するので、それらのランダムなパラメータを機械学習部123が連想単語群抽出部106に伝達して、ランダムなパラメータによる連想処理が行われる。そしてその連想処理の結果は機械学習部123にフィードバックされて正解情報と照らし合わされるため、機械学習部123はランダムなパラメータの中から好適なパラメータを選択することができる。こうして選択された好適なパラメータが学習結果記憶部125に格納される。こうして得られた好適なパラメータは後に正解が未知の異なる複数のテキストデータを用いて構造モデルの解析を行う場合に連想単語群抽出部106に呼び出されて用いられる。
ここで、機械学習部123による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である。
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。
機械学習部123は、機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
例えば、本実施形態において、あらかじめ時系列テキストデータ取得部を介して正解情報付きの教師データを取得した場合、機械学習部123が、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いて正解情報に近い結果が得られる好適なパラメータを導き出す。
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の式(4)で与えられる。
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj(∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式(5)の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、以下の式(6)を用いてスムージングを行ったものを用いる。
ただし、freq(f,a)は、素性fを持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
決定リスト方法では、あらかじめ設定しておいた素性f(∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。
p(a|b)=p(a|fmax)
ただし、fmaxは以下の式によって与えられる。
また、P(ai|fj)(ここでPはpの上部にチルダ)は、素性fjを文脈に持つ場合の分類aiの出現の割合である。
最大エントロピー法は、あらかじめ設定しておいた素性f(1≦j≦k)の集合をFとするとき、以下所定の条件式(式(9))を満足しながらエントロピーを意味する式(10)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。
ただし、A、Bは分類と文脈の集合を意味し、gj(a,b)は文脈bに素性fjがあって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
式(9)は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化)を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献に記載されている。
非特許文献:Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997)
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
図17にサポートベクトルマシン法のマージン最大化の概念を示す。図17において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図17(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図17(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン)が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図17(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入)がなされたものが用いられる。
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
ただし、xは識別したい事例の文脈(素性の集合)を、xとy(i=1,...,l,yj∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise)
であり、また、各αiは式(13)と式(14)の制約のもと式(12)を最大にする場合のものである。
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。
K(x,y)=(x*y+1)d 式(15)
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、α>0となるxは、サポートベクトルと呼ばれ、通常、式(11)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献に記載されている。
非特許文献:Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、aと推定する。
この機械学習法としては、重回帰分析(回帰分析(重回帰分析の説明変数が一つだけの場合)を含む)、SVM回帰、rankingSVMなどを用いてもよい。
重回帰分析を用いる場合には、「Excel で学ぶ時系列分析と予測」(オーム社)3章の"重回帰分析"で求めてもよい。重回帰分析の場合は、「正解」を値1「不正解」を値0として求めればよい。すなわち、求める分類が2種類ならば、重回帰分析が利用できる。重回帰分析の場合は、素性の数だけ説明変数x を用意し、素性のありなしを、その説明変数x の値を1、0で表現する。目的変数(被説明変数)は、ある分類の場合を値1、他の分類の場合を値0として求めればよい。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
例えば、上記の実施形態では情報解析装置1000の構成、動作などについて説明したが、同様の構成の方法、システム、コンピュータプログラム、記録媒体なども、同様の作用効果を有する。この場合に、上記プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えば上記コンピュータに上記プログラムをインストールすることが できる。ここで、上記プログラムを記憶した記録媒体は、非一過性の記録媒体であっても良い。非一過性の記録媒体は特に限定されないが、例えば CD−ROM等の記録媒体であっても良い。
また、上記の実施形態では詳しく説明しなかったが、本実施形態の情報解析装置1000では、単語同士の関連性について機械学習する際に、必要に応じて単語の意味分類の辞書(シソーラス)を用いることもできる。このような辞書としては、日本語のものとしては、例えば、「分類語彙表」(国立国語研究所)、「日本語語彙大系」(岩波書店)、「角川類語国語辞典」(角川書店)、「日本語大シソーラス」(大修館書店)、「EDR概念体系辞書」(EDRプロジェクト)、「デジタル類語辞典」(ジャングル)、「JST科学技術用語シソーラス」(JST科学技術振興機構)等が存在する。また、英語のものとしては、例えば、「ロジェ類語辞典」、「WordNet」、「MeSH(Medical Subject Headings)」等が存在する。
分類語彙表の説明
a)分類語彙表の構成
分類語彙表とはボトムアップ的に単語を意味に基づいて整理した表であり、各単語に対して分類番号という数字が付与される。分類語彙表の構成(国立国語研究所,分類語彙表,1964)は、例えば、以下のようなものである。
あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,
分類語彙表は、上記の例のように、「,」 (コンマ)で区切ってあって、それぞれ、単語の読み、単語の見出し語、単語の分類番号、単語の分類番号の下位番号1、単語の分類番号の下位番号2、標本使用頻度が7以上の単語かどうかを示す情報である。
b)分類語彙表の変更の説明
下記の表は電子化された分類語彙表の説明図である。下記の表に示すように、電子化された分類語彙表では、各単語には10桁の分類番号が与えられている(書籍判の分類語彙表では分類番号は5桁までしかないが、電子化判では10桁存在する)。この10桁の分類番号は7レベルの階層構造を示しており、上位5レベルは分類番号の最初の5桁で表現され、6レベル目は次の2桁、最下層のレベルは最後の3桁で表現されている。
本発明者らは、過去の研究で、このような分類語彙表の分類番号を名詞の意味素性に合わせて修正した。下記の表は名詞の意味素性と分類語彙表での分類番号の変換表である。下記の表の数字は分類番号の最初の何桁かを変換するためのものであり、例えば、1行目の "[1-3]56"や "511"は、分類番号の頭の3桁が "156"か "256"か "356"ならば511 に変換するということを意味している([1-3] は1,2,3 を意味している)。
この分類番号の変換により、上記の電子化された分類語彙表の説明図に示した分類番号は、下記の表に示す分類語彙表の分類番号の変更例のように変換されることになる。上記の名詞の意味素性と分類語彙表での分類番号の変換表から分かるように、この変換された分類番号において、上位2桁が"51"である単語は"動物"に関係する単語であることを意味し、上位2桁が"52"である単語は"人間"に関係する単語であることを意味する。
また、分類語彙表の番号を素性として利用してもよい。例えば、単語 寺 が素性の場合、単語の分類語彙表の分類番号の最初の5桁を素性とする場合は、寺の番号が5360005022だとした場合、単語の分類語彙表の分類番号に基づく素性は、53600となり、これも素性として利用する。
以下、本発明を実施例によりさらに説明するが、本発明はこれらに限定されるものではない。
本実施例では、電子テキストから特定のキーワードに基づく関係情報(ネットワーク)を抽出する方法を行った。本実施例では、事物の関係情報をネットワークとしてまとめたものを社会構造モデルと呼ぶ。本実施例では、「地震」というキーワードに基づいて社会構造モデルの抽出を行った。本実施例では、抽出された単語の関係間のエッジに重みを持たせることで活性伝搬を用い、モデルにおいてどういった概念が特に重要であるかの分析を行った。
本実施例の主な特徴をあらかじめ整理すると以下のようになる。
(1)テキストから社会構造の把握に役立つ社会構造モデルの情報を取り出すという特色のある研究対象を扱った。
(2)実験データとして新聞とWikipediaを比較し、本実施例の実験では社会構造モデルの構築には新聞の方が役立つことを確認した。
(3)社会構造モデルのネットワークのノードの抽出には、条件付き確率よりもtf−idfの方が役立つことを確認した。
(4)地震を題材にして作成した社会構造モデルのネットワークにおいて活性伝搬を行い、地震が起きた際に特に重要となる可能性のある概念を抜き出した。
<実験データの選定>
図14は、キーワードを「地震」とした場合に活性化される単語をTD−IDFおよび条件付き確率を用いて抽出した結果を比較して説明するための概念図である。本実施例では事前実験として、どのようなデータが社会構造モデルの構築にふさわしいかを調べた。実験データには、新聞とWikipediaを用いた。新聞には、毎日新聞2011年の1年分の記事、96、630記事を用いる。また、Wikipediaには1、602、208記事が含まれる。
新聞とWikipediaの比較のためにキーワードを含む記事を抽出し、抽出された記事群内の名詞の出現頻度を利用して単語抽出を行い、比較する。本実施例では、キーワードは「地震」と「経済」とした。「地震」と「経済」の両方の単語が同時に出現した記事をキーワードに関連する記事群として抽出する。抽出された記事群は、新聞データからは514記事であり、Wikipediaからは2818記事であった。抽出された記事群に出現する名詞を出現頻度順に整理し比較する。結果を下記の表1に示す。
Wikipediaでは、頻度の高い単語であっても、地震、経済に直接関連しない単語が多く得られた。一方新聞データでは、地震や経済と関連の高い「原発」「事故」「安全」などの単語が抽出された。これの理由としては、以下が考えられる。
Wikipediaでは多くの事柄の説明を簡潔に記載しているだけであり、ある重要な事柄が頻度が高く繰り返し記載されるということはないため、そのような文章の頻度では、関連の高い単語を抽出できなかったと思われる。一方新聞データでは、社会的に大きな事柄については高頻度に記述されるため、頻度により今回扱った地震、経済に関連の高い単語を抽出できたと思われる。
以上の結果より、Wikipediaよりも新聞データの方がキーワードに近い単語の取り出しに役立つことがわかった。このため、本実施例での以降の実験では、新聞データを利用することにした。Wikipediaには記事数が多く、抽出する記事群を減らし計算コストを削減するために「地震」「経済」をキーワードとしていた。しかし、新聞データではそこまで記事数を減らして計算コストを削減する必要はないため、以降の実験では、「地震」「経済」でなく、「地震」のみをキーワードとして用いることとした。
<社会構造モデルの構築における条件付き確率とtf−idfの比較>
社会構造モデルの構築では、ネットワークのノードに用いる単語の決定のために、条件付き確率やtf−idfを用いた。本実施例では、条件付き確率とtf−idfのうちどちらを利用した方が、より良い社会構造モデルを構築できるかを調べた。キーワードとして「地震」を用いる。「地震」をキーワードとし提案手法を行い、地震につながるノードに利用する単語を取得した。
条件付き確率とtf−idfによるノードの抽出
条件付き確率を用いる方法でノードに利用する単語を取得した結果を表2に示す。またtf−idfを用いる方法で取得した結果も表2に示す。それぞれ条件付き確率とtf−idfの値の上位のものを示している。
tf−idfを用いた場合には、「津波」「原発」「避難」などの地震が起きた際に特に関連が高いと思われる語が上位に集中した。さらに「電話」という地震が起きた際に注意すべき語も上位に現れた。一方、条件付き確率を用いた場合は、「日本」「震災」「大震災」など地震には確かに関連があるがtf−idfを用いた場合ほど関連のないものが上位にきた。この結果より、ノードの抽出にはtf−idfを利用した方が良いことがわかった。以上の結果より、社会構造モデルのノードの抽出にはtf−idfを利用し、エッジに付与する重みにもtf−idfのスコアを利用することにする。
条件付き確率を用いる手法が良くない結果となった理由は以下と思われる。もともと高頻度に出現する単語は地震と共起しやすく条件付き確率が高くなる。このため、高頻度で出現するが関連性はそれほど高くない単語が上位に現れたと思われる。松尾らの人間関係ネットワークの抽出[非特許文献1]の際には、ノード間の関連性の取得に閾値つきのSimpson法を利用するのが良いとされていた。
このSimpson法についても、上記と同様の方法で「地震」を含む記事を抽出し、抽出された単語の出現頻度順にソートし、その上位10単語のSimpson係数をもとめたところ以下のようになった。
すなわち、このSimpson法についても、条件付き確率を利用した場合と同様、日本、大震災などが上位に出現した。そのため、条件付き確率やこのSimpson法よりもtf−idfの方が有効と思われる。
被験者による評価
上記のノードの抽出で得られた結果を元に、tf−idf法と条件付き確率法どちらが社会構造モデルを抽出するのに適しているかを判断するために人手評価を被験者8人に対して行った。上記の表2の抽出結果の一部を示し、どちらの手法が適しているかを判断してもらった。結果を表3に示す。表3に示された数字は、その手法を良いとした人数である。
以降の実験に用いるノードの抽出手法
上記の被験者による人手評価で得られた結果により、tf−idfを用いる方が適していることがわかった。また、抽出結果の考察によっても、tf−idfを用いる方が適していた。よって、本実施例のネットワークの抽出の手法にはtf−idfを用いることとした。また、エッジに付与する重みにもtf−idfのスコアを用いた。
<tf−idfを用いた社会構造モデルの構築>
ノードの抽出結果
図15は、キーワードを「地震」とした場合にどのようなネットワークが構築されるかを説明するための概念図である。キーワードを「地震」として、tf−idfを用いる手法により、社会構造モデルを構築した。キーワード「地震」から得られた単語を単語aとして同様の手順を用いて単語aと関連性の高い単語を抽出した。これらの手順を複数繰り返し「地震」と直接つながらない単語をノードに持つモデルを構成した。単語aに対してモデルのノードとして抽出する単語は、tf−idfのスコア上位5単語とした。単語aから5つの単語へのエッジのスコアは、その5つの単語のtf−idfのスコアから計算される確率で求めた。5つの単語のうちの一つである単語nへのエッジのスコアは下記式で表される。
この手法により社会構造モデルを自動構築した。「地震」を第一単語群、「地震」から抽出された単語を第二単語群、第二単語群から抽出された新しい単語を第三単語群、同様に第四単語群とした。その抽出結果を表4、表5、表6に示す。
エッジの重みの計算結果
次に、単語aとした単語と、その単語につながるノードとして得られた単語を、表7、表8、表9に示す。表中の単語の後ろの括弧内の数字はその単語へつながるエッジが持つ重みである。
同様にして、第三単語群からも各単語につき5つの単語が抽出され、さらに5つの単語それぞれにtf−idfを用いた重みが付与されている。以上の結果より,「地震」を含んだ24個のノードが抽出された。それらのノードをtf−idfを用いた確率値が繋いでいる。
抽出された社会構造モデルの一部を図15に示す。図では、ノードは第三単語群までのものを表示した。各エッジにはtf−idfを用いた重みが付与されている。
<活性伝搬を用いた実験>
活性伝搬
図16は、キーワードを「地震」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。上記の説明で構築した社会構造モデルにおいて、実際に活性伝搬を行う。下記式を用いて、活性回数tのときの単語の活性値を表すベクトルA(t)の変化を求める。
活性回数とは、モデルのキーワードである地震に1を入力し、入力された1がエッジの重みによって分散され、各ノードの活性値として蓄積されていく回数である。一定の活性回数で、各ノードの活性値を比べることで単語の重要度を調査した。地震が活性した場合の結果を調べることとして、初期値A(0)には地震のみ1とし他を0としたベクトルを用いた。モデル外部からの刺激は無いものとして下記式を用いて実験を行った。
また、減衰率を表す減衰パラメータを変えることで活性値の変化を比較した。影響力を表す伝搬パラメータαは、活性の伝搬はモデルの構造を表すベクトルR(t)によってのみ行われるため、α=1とした。減衰パラメータは0<γ<1において比較実験を行った。具体的には、γ=0、γ=0.5、γ=1に分けて実験を行い、比較した。
伝搬行列
下記式における、伝搬行列R(t)を説明する。
伝搬行列R(t)はモデルの構造に基づき活性をノードからノードへ伝搬させる行列である。R(t)の要素Rijはノード間を繋ぐエッジに付与された重みである。つまり単語Wiと単語Wjを繋ぐエッジの重みがR(t)の要素Rijとなる。上記の表7、表8、表9に示した重みが伝搬行列R(t)の要素となる。
活性伝搬式の比較実験
上記の活性伝搬の式において,γの値による比較実験の結果を示す.活性回数tは10までとし、表10、表11、表12にはt=1、t=2、t=3、t=10のときの活性値を示す。
活性伝搬結果
活性回数10回のときの活性値を単語群ごとに調査し、活性値上位の単語の抽出を行った結果を表13、表14、表15に示す。
以上のように、γの値が変化すると活性伝搬の式に基づき単語の活性値自体は変化するが、γの値が変化しても単語群内で活性値が大きくなる単語に変化はほとんど見られなかった。よって、活性伝搬の式におけるγの値は、重要な概念の抽出とはほとんど関係がないことがわかる。
活性伝播の結果例
図16は、キーワードを「地震」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。この図16は、上記の実験の活性伝搬を行った結果の一部を示す。キーワードである地震を活性させた際に、その活性が伝わることで活性値の大きくなった単語が太字になっている単語である。
このように活性値がエッジの重みによって伝搬されることによって、単語の重要性を考察する。太字の単語のように、活性値の高くなった単語は、モデル内において重要な概念である可能性がある。
<結果の考察>
実験データの選定についての考察
上記の実験では、新聞データとWikipediaからの抽出結果を比較した。Wikipediaでは頻度の高い単語においても重要でない単語が多く抽出された。一方新聞データでは、社会的に大きな事柄については高頻度で記述されるため、抽出結果が良かった。このような結果より、本実施例では新聞データを使うのが適していると考える。
ノードの抽出における条件付き確率とtf−idfの比較についての考察
人手評価では、tf−idfの方が適しているという結果になり、抽出結果の考察においてもtf−idfの方が適しているという結果になった。これにより、ノードの抽出方法としては、tf−idfを用いた手法の方が有効であることが確認できた。
抽出された社会構造モデルについての考察
抽出結果として、原発、避難、復興、事故など、地震に関連した単語が抽出できたと考えている。
活性伝搬についての考察
図16に示したような結果が活性伝搬式により計算された。活性値の大きくなった単語として原発、福島、電話、事故、ボランティア、安全などがあげられる。これらの単語は地震により関係していると考える。これによって活性伝搬により重要な事物、概念を抽出できたと考える。
以上、本発明を実施例に基づいて説明した。この実施例はあくまで例示であり、種々の変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
たとえば、上記実施例では、活性回数を10回行ったが、特に回数を限定する趣旨ではない。例えば、活性回数は社会構造モデルの構築精度を高める上では、2回以上が好ましく、3回以上であればより好ましく、5回以上であればさらに好ましい。また、活性回数はコンピュータの負荷を減らすためには、10000回以下であることが好ましく、1000回以下であることがより好ましく、100回以下であることがさらに好ましい。なお、活性回数は1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、1000、10000回であってもよく、これらのうち任意の2つの数値の範囲内であってもよい。
また、上記実施例では、tf−idfの指標が高い順から5つの単語を抽出することとしたが、他の基準で抽出を行なっても良い。例えば、tf−idfなどの連想指標が所定の閾値以上であれば個数に関係なく単語を抽出することとしてもよい。また、所定の個数の単語を抽出する場合にも、社会構造モデルの構築精度を高める上では、tf−idfなどの連想指標によって抽出する単語の個数は、2個以上が好ましく、3個以上であればより好ましく、5個以上であればさらに好ましい。一方、コンピュータの負荷を減らすためには、tf−idfなどの連想指標によって抽出する単語の個数は、1000個以下であることが好ましく、100個以下であることがより好ましく、10個以下であることがさらに好ましい。なお、tf−idfなどの連想指標によって抽出する単語の個数は、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、1000個であってもよく、これらのうち任意の2つの数値の範囲内であってもよい。
また、上記実施例では、エッジに正規化済みの重みを付与することとしたが、正規化されていない重みを付与してもよい。また、重みの正規化の方法も、特に限定されず、一定のルール(規則)に基づいて変形してその後の計算に利用しやすくなるのであれば、他の正規化の方法を行なっても良い。例えば、上記の実施例のように正規化済みの重みの合計が1になるように正規化を行なってもよく、あるいは二乗平均平方根が1になるように比例変換してもよく、平均が0で分散が1になるように線形変換してもよく、最大値を1として最小値を0(あるいは−1)とするような正規化を行なってもよい。
また、上記実施例では、キーワードを「地震」としたが、他のキーワードも用いることができる。他のキーワードでも同じことは可能であり、例えば「消費税」というキーワードで同じ実験を行なっても、新聞記事から「消費税」に関連した単語を抽出でき、さらに活性伝搬処理を行うことによって、「消費税」に直接的または間接的に関連する単語間の構造モデルを構築することができる。
また、例えば「ギリシャショック」または「ギリシャ危機」というキーワードを用いてもよい。図18は、キーワードを「ギリシャショック」または「ギリシャ危機」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。このように、「ギリシャショック」または「ギリシャ危機」というキーワードで2010年の毎日新聞を使って同じ実験を行なっても、同様の構造モデルを構築することができる。
具体的には、ギリシャショックとギリシャ危機のどちらかが含まれる記事群を出発として、上記の実施例と同様の方法のままで(ギリシャショックまたはギリシャ危機を最初のキーワードとして)ネットワークを構築したものである。その際、自分自身(同じ単語同士)へのリンクは削除して、他へのリンクでtf−idfの上位5個までリンクをつけたものである。リンクに付与している数字は、tf−idfの値の高い順に1,2,3,4,5として付与している。
その結果、図18に示すように、ユーロ、ギリシャ、財政、欧州、危機、市場、EU、ドル、首相、経済、政権、予算、金融、中国、連合、加盟、米国、小沢、鳩山、民主党、政治、政府、日本、選挙、年度、銀行、日銀、企業がノードとして得られた。
上記の実施例で説明した方法では、出発ノードの単語を含む記事群でtf−idfを計算するため、純粋にそれぞれの出発ノードに対して関連のあるものが得られる。すなわち、一番最初のギリシャショックとギリシャ危機に関係するものが得られるとは限らない。このため、首相からは、小沢、鳩山、民主党、政治といったものが得られて、だいぶギリシャショックまたはギリシャ危機とは関係のないものが得られている。このあたりはギリシャショックまたはギリシャ危機と関連性は低いとかんがえられるが、それら以外は関連性が高いと考えられる単語のネットワークが得られている。
例えば、図18の左下には、中国が得られている。ギリシャショックまたはギリシャ危機により、中国のバブル崩壊も指摘されており、ギリシャショックまたはギリシャ危機からリンクを伝って中国が得られるのは興味深い結果である。図18の右の方では、金融、銀行、日銀、企業とあり、ギリシャショックまたはギリシャ危機に影響を受けたものが得られており、これらも興味深い結果である。
また、例えば「洪水」というキーワードを用いてもよい。図19は、キーワードを「洪水」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。このように、「洪水」というキーワードで2010年の毎日新聞を使って同じ実験を行なっても、同様の構造モデルを構築することができる。
その結果、図19に示すように、洪水を出発として、タイ、バンコク、浸水、生産、工場、ミャンマー、スーチー、政権、津波、避難、地震、被害、被災、経済、企業、市場、中国、電話、相談、福島が得られている。上記のギリシャショックまたはギリシャ危機の実験と同様に、洪水に関係しない、ミャンマー、スーチー、政権や、浸水とのつながり大きく洪水との関係はどうかわからない、地震、津波なども得られているのは興味深い。
これに対して、上記の実施例で説明した方法ではなく、基本的には上記の実施例と同じであるが、テーマキーワードを別に設定して、テーマキーワードおよびキーワードを含む文書群におけるノード候補の単語の頻度をTFとする方法で実験を行ってもよい。
図20は、テーマキーワードを「ギリシャショック」または「ギリシャ危機」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。このように、テーマキーワードと同時に出現する場合を考慮する(つまり、常に、ギリシャショックまたはギリシャ危機のどちらかは含む文書群を用いる)ことにより、テーマキーワードである「ギリシャショック」または「ギリシャ危機」に関連したもののみを取得できる。その結果、図20に示すように、それぞれ上位5個の単語を取り出すと、ユーロ、ギリシャ、財政、欧州、EUが得られている。すなわち、それぞれよく似た単語を上位5個に持つので、あらたな単語があまり出ないという結果になっている。上位5個でなく、上位10個など取り出していけば、もう少し違う種類の単語も取り出せると想定される。
図21は、テーマキーワードを「洪水」とした場合にネットワーク上でどのような単語が重要であると判断されるかを説明するための概念図である。このように、テーマキーワードと同時に出現する場合を考慮することにより、テーマキーワードである「洪水」に関連したネットワークを取得できる。その結果、図21に示すように、洪水を出発として、タイ、バンコク、浸水、生産、工場、都心、工業団地、部品、停止が得られている。このように、テーマキーワードを用いる事によって、タイの大洪水関係のものがうまく取り出せる。
また、上記実施例では、複数の異なるテキストデータとして新聞記事を用いたが、他のテキストデータも用いることができる。他のテキストデータでも同じことは可能であり、例えば「インターネット上の巨大掲示板」などをテキストデータとして用いて同じ実験を行なっても、「インターネット上の巨大掲示板」からキーワードに関連した単語を抽出でき、さらに活性伝搬処理を行うことによって、キーワードに直接的または間接的に関連する単語間の構造モデルを構築することができる。
また、上記実施例では、社会的な事物について構造モデルを構築したが、他の種類の単語も同様に用いることができる。例えば、人名についても同じことは可能であり、例えば人名をキーワードとして用いて同じ実験を行なっても、ある人名に関連した他の人名を抽出でき、さらに活性伝搬処理を行うことによって、ある人物に直接的または間接的に関連する人物間の人脈モデルを構築することができる。あるいは、会社名についても同じことは可能であり、例えば会社名をキーワードとして用いて同じ実験を行なっても、ある会社名に関連した他の会社名を抽出でき、さらに活性伝搬処理を行うことによって、ある会社に直接的または間接的に関連する会社間の取引ネットワークモデルを構築することができる。
また、上記実施例では日本語データを解析対象としたが、言語横断的な解析を行っても良い。すなわち、複数の言語のテキストデータを用いることもできる。この場合、ある言語から他の言語への翻訳方法としては、訳語辞書で翻訳する方法と、既存の翻訳システムで翻訳する方法が挙げられる。訳語辞書とは、car -- 車、house -- 家のように訳語が対になって表記されているものであり、単語マッチで変換して利用することができる。具体的には、テキストデータのうち、日本語と英語の混ざっているテキストデータの場合は、例えば翻訳ソフトや、対訳の単語対を記載した表を使って、すべて日本語に翻訳してから、処理するということも可能である。
102 テキストデータ取得部
104 キーワード取得部
106 連想単語群抽出部
108 テキストデータ母集団記憶部
110 構造モデル解析部
112 形態素解析部
114 連想単語群記憶部
116 構造モデル記憶部
118 画像表示部
120 出力部
122 ネットワーク
123 機械学習部
124 操作部
125 学習結果記憶部
126 サーバ
128 OCR装置
130 画像表示部
132 プリンタ
134 サーバ
138 ネットワーク
142 活性伝搬部
144 活性伝搬解析部
146 テーマキーワード取得部
202 連想単語抽出部
204 連想指標フィルター部
206 次数付与部
208 カウンタ
210 連想指標計算部
212 重み付け部
214 集計部
215 終了条件記憶部
216 連想指標計算式記憶部
217 エッジ形成部
218 正規化計算式記憶部
220 正規化部
302 単語重要度判定部
303 連想関係機械学習部
305 連想強度機械学習部
310 比較判定部
312 エッジ重要度判定部
316 単語重要度判定基準記憶部
318 エッジ重要度判定基準記憶部
320 比較判定部
322 ネットワーク構築部
324 画像データ生成部
1000 情報解析装置

Claims (15)

  1. テキストデータを解析する情報解析装置であって、
    複数の異なるテキストデータを取得するテキストデータ取得部と、
    解析の対象となるキーワードを取得するキーワード取得部と、
    前記複数の異なるテキストデータを含むテキストデータ母集団を用いて、前記キーワードによって直接的または間接的に連想される一連の連想単語群を抽出する連想単語群抽出部と、
    前記一連の連想単語群に含まれる単語同士の連想関係を解析して、前記キーワードによって直接的または間接的に連想される単語間の構造モデルを解析する構造モデル解析部と、
    前記構造モデルを出力する出力部と、
    を備え、
    前記連想単語群抽出部は、
    前記キーワードによって直接連想される1次連想単語を前記テキストデータ母集団から抽出し、さらにt次連想単語(tは1以上の整数、前記キーワードをt=1の場合のt次連想単語とする)によって直接連想される(t+1)次連想単語を前記テキストデー母集団から抽出する連想単語抽出部と、
    前記t次連想単語から前記(t+1)次連想単語へのエッジに重みの付与を行う重み付け部と、
    を有し、
    前記連想単語抽出部は、
    前記テキストデータ母集団における、前記t次連想単語を含むテキストデータでの他の同属性の単語の頻度と、前記他の同属性の単語が出現するテキストデータの個数と、の複合指標を、前記t次連想単語によって前記他の同属性の単語が連想される度合を示す連想指標として計算する、連想指標計算部と、
    前記テキストデータ母集団から、前記t次連想単語に対する前記連想指標が所定の基準を満たす前記他の同属性の単語を、前記(t+1)次連想単語として抽出する連想指標フィルター部と、
    を含む、
    情報解析装置。
  2. 請求項1に記載の情報解析装置において、
    前記複合指標は、tf−idf法に基づいて算出される指標である、
    情報解析装置。
  3. 請求項2に記載の情報解析装置において、
    前記複合指標は、下記の式で計算される指標wを含み、
    w=tf*log(N/df)
    tfは、前記t次連想単語を含むテキストデータ群における前記(t+1)次連想単語の出現回数を示し、
    dfは、前記テキストデータ母集団における前記(t+1)次連想単語が出現しているテキストデータ数を示し、
    Nは、前記テキストデータ母集団における前記テキストデータ総数を示す、
    情報解析装置。
  4. 請求項1〜3のいずれかに記載の情報解析装置において、
    前記重み付け部は、前記t次連想単語に対する前記(t+1)次連想単語の連想指標を、前記t次連想単語から前記(t+1)次連想単語へのエッジに正規化した上で重みとして付与するように構成されている、
    情報解析装置。
  5. 請求項4に記載の情報解析装置において、
    前記重み付け部は、
    前記t次連想単語に対する前記(t+1)次連想単語の連想指標を集計して合計値を算出する集計部と、
    前記t次連想単語に対する前記(t+1)次連想単語の連想指標を前記合計値で除して、前記t次連想単語から前記(t+1)次連想単語へのエッジに付与するための正規化された重みを算出する正規化部と、
    を含む、
    情報解析装置。
  6. 請求項1〜5のいずれかに記載の情報解析装置において、
    前記構造モデル解析部は、
    前記重みが所定の基準を満たすエッジを重要エッジとして判定するエッジ重要度判定部を含む、
    情報解析装置。
  7. 請求項6に記載の情報解析装置において、
    前記構造モデル解析部は、
    前記キーワードおよび前記一連の連想単語群を前記エッジによってつないで構成されるネットワーク構造モデルを構築するネットワーク構築部と、
    前記ネットワーク構造モデルにおいて前記重要エッジを強調表示したネットワーク構造を表示する画像データを生成する画像データ生成部と、
    を含む、
    情報解析装置。
  8. 請求項1〜7のいずれかに記載の情報解析装置において、
    前記ネットワーク構造モデルを用いて前記キーワードから始まる単語間の活性伝搬を行う活性伝搬部と、
    前記ネットワーク構造モデルにおける単語間の活性伝搬の状態を解析する活性伝搬解析部と、
    をさらに備える、
    情報解析装置。
  9. 請求項1〜8のいずれかに記載の情報解析装置において、
    前記連想単語群抽出部が、
    あらかじめ互いの連想関係の分かっている一連の単語群を機械学習して、前記t次連想単語によって直接連想される前記(t+1)次連想単語を抽出するための条件を学習する連想条件機械学習部をさらに備える、
    情報解析装置。
  10. 請求項1〜9のいずれかに記載の情報解析装置において、
    前記連想単語群抽出部が、
    あらかじめ互いの連想関係の分かっている一連の単語群を機械学習して、前記t次連想単語から前記(t+1)次連想単語へのエッジに付与するための重みを算出する条件を学習する連想強度機械学習部をさらに備える、
    情報解析装置。
  11. 請求項9または10に記載の情報解析装置において、
    前記機械学習における素性として、前記あらかじめ互いの連想関係の分かっている一連の単語群における、任意の単語を含むテキストデータでの他の同属性の単語の頻度、または、他の同属性の単語が出現するテキストデータの個数を用いるように構成されている、
    情報解析装置。
  12. 請求項1〜10のいずれかに記載の情報解析装置において、
    前記キーワードとは別にテーマキーワードを取得するテーマキーワード取得部をさらに備え、
    前記連想単語群抽出部は、前記複数の異なるテキストデータを含むテキストデータ母集団を用いて、前記キーワードおよび前記テーマキーワードの双方によって直接的または間接的に連想される一連の連想単語群を抽出するように構成されており、
    前記構造モデル解析部は、前記一連の連想単語群に含まれる単語同士の連想関係を解析して、前記キーワードおよび前記テーマキーワードの双方によって直接的または間接的に連想される単語間の構造モデルを解析するように構成されている、
    情報解析装置。
  13. 請求項11に記載の情報解析装置において、
    前記連想単語抽出部は、前記キーワードおよび前記テーマキーワードの双方と直接関連する1次連想単語を前記テキストデータ母集団から抽出し、さらにt次連想単語(tは1以上の整数、前記キーワードおよび前記テーマキーワードをt=1の場合のt次関連単語とする)によって直接連想される(t+1)次連想単語を前記テキストデータ母集団から抽出するように構成されており、
    前記連想指標計算部は、前記キーワードおよび前記テーマキーワードの双方を含むテキストデータの集合における、前記t次連想単語を含むテキストデータでの他の同属性の単語の頻度と、前記他の同属性の単語が出現するテキストデータの個数と、の複合指標を、前記t次連想単語によって前記他の同属性の単語が連想される度合を示す連想指標として計算するように構成されており、
    前記連想指標フィルター部は、前記キーワードおよび前記テーマキーワードの双方を含むテキストデータの集合から、前記t次連想単語に対する前記連想指標が所定の基準を満たす前記他の同属性の単語を、前記(t+1)次連想単語として抽出するように構成されている、
    情報解析装置。
  14. テキストデータを解析する方法であって、
    複数の異なるテキストデータを取得するステップと、
    解析の対象となるキーワードを取得するステップと、
    前記複数の異なるテキストデータを含むテキストデータ母集団を用いて、前記キーワードによって直接的または間接的に連想される一連の連想単語群を抽出するステップと、
    前記一連の連想単語群に含まれる単語同士の連想関係を解析して、前記キーワードによって直接的または間接的に連想される単語間の構造モデルを解析するステップと、
    前記構造モデルを出力するステップと、
    を含み、
    前記一連の連想単語群を抽出するステップは、
    前記キーワードによって直接連想される1次連想単語を前記テキストデータ母集団から抽出し、さらにt次連想単語(tは1以上の整数、前記キーワードをt=1の場合のt次関連単語とする)によって直接連想される(t+1)次連想単語を前記テキストデータ母集団から抽出するステップと、
    前記t次連想単語から前記(t+1)次連想単語へのエッジに重みの付与を行うステップと、
    を含み、
    前記(t+1)次連想単語を抽出するステップは、
    前記テキストデータ母集団における、前記t次連想単語を含むテキストデータでの他の同属性の単語の頻度と、前記他の同属性の単語が出現するテキストデータの個数と、の複合指標を、前記t次連想単語によって前記他の同属性の単語が連想される度合を示す連想指標として計算するステップと、
    前記テキストデータ母集団から、前記t次連想単語に対する前記連想指標が所定の基準を満たす前記他の同属性の単語を、前記(t+1)次連想単語として抽出するステップと、
    を含む、
    方法。
  15. テキストデータを解析するためのプログラムであって、
    複数の異なるテキストデータを取得するステップと、
    解析の対象となるキーワードを取得するステップと、
    前記複数の異なるテキストデータを含むテキストデータ母集団を用いて、前記キーワードによって直接的または間接的に連想される一連の連想単語群を抽出するステップと、
    前記一連の連想単語群に含まれる単語同士の連想関係を解析して、前記キーワードによって直接的または間接的に連想される単語間の構造モデルを解析するステップと、
    前記構造モデルを出力するステップと、
    を含み、
    前記一連の連想単語群を抽出するステップは、
    前記キーワードによって直接連想される1次関連単語を前記テキストデータ母集団から抽出し、さらにt次関連単語(tは1以上の整数、前記キーワードをt=1の場合のt次関連単語とする)によって直接連想される(t+1)次連想単語を前記テキストデータ母集団から抽出するステップと、
    前記t次連想単語から前記(t+1)次連想単語へのエッジに重みの付与を行うステップと、
    を含み、
    前記(t+1)次連想単語を抽出するステップは、
    前記テキストデータ母集団における、前記t次連想単語を含むテキストデータでの他の同属性の単語の頻度と、前記他の同属性の単語が出現するテキストデータの個数と、の複合指標を、前記t次連想単語によって前記他の同属性の単語が連想される度合を示す連想指標として計算するステップと、
    前記テキストデータ母集団から、前記t次連想単語に対する前記連想指標が所定の基準を満たす前記他の同属性の単語を、前記(t+1)次連想単語として抽出するステップと、
    を含む、
    方法をコンピュータに実行させる、プログラム。
JP2013133181A 2013-06-25 2013-06-25 テキスト処理を用いた社会構造モデルの抽出 Pending JP2015007920A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013133181A JP2015007920A (ja) 2013-06-25 2013-06-25 テキスト処理を用いた社会構造モデルの抽出

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013133181A JP2015007920A (ja) 2013-06-25 2013-06-25 テキスト処理を用いた社会構造モデルの抽出

Publications (1)

Publication Number Publication Date
JP2015007920A true JP2015007920A (ja) 2015-01-15

Family

ID=52338147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013133181A Pending JP2015007920A (ja) 2013-06-25 2013-06-25 テキスト処理を用いた社会構造モデルの抽出

Country Status (1)

Country Link
JP (1) JP2015007920A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160134567A (ko) * 2015-05-15 2016-11-23 시냅틱스 인코포레이티드 다단 피드백 커패시터 스위칭 체계
JP2017068848A (ja) * 2015-09-30 2017-04-06 株式会社日立製作所 自動分析方法
CN111428489A (zh) * 2020-03-19 2020-07-17 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
JP2021015562A (ja) * 2019-07-16 2021-02-12 Kpmgコンサルティング株式会社 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
CN112364170A (zh) * 2021-01-13 2021-02-12 北京智慧星光信息技术有限公司 数据情感分析方法、装置、电子设备及介质
JP2022013346A (ja) * 2020-07-03 2022-01-18 楽天グループ株式会社 学習装置、推定装置、学習方法、推定方法、プログラム、及び学習済み推定モデルのプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160134567A (ko) * 2015-05-15 2016-11-23 시냅틱스 인코포레이티드 다단 피드백 커패시터 스위칭 체계
JP2017068848A (ja) * 2015-09-30 2017-04-06 株式会社日立製作所 自動分析方法
JP2021015562A (ja) * 2019-07-16 2021-02-12 Kpmgコンサルティング株式会社 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
CN111428489A (zh) * 2020-03-19 2020-07-17 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN111428489B (zh) * 2020-03-19 2023-08-29 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
JP2022013346A (ja) * 2020-07-03 2022-01-18 楽天グループ株式会社 学習装置、推定装置、学習方法、推定方法、プログラム、及び学習済み推定モデルのプログラム
JP7010337B2 (ja) 2020-07-03 2022-01-26 楽天グループ株式会社 学習装置、推定装置、学習方法、推定方法、プログラム、及び学習済み推定モデルのプログラム
CN112364170A (zh) * 2021-01-13 2021-02-12 北京智慧星光信息技术有限公司 数据情感分析方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
Li et al. Comparison of word embeddings and sentence encodings as generalized representations for crisis tweet classification tasks
Cetto et al. Graphene: Semantically-linked propositions in open information extraction
US20160357854A1 (en) Scenario generating apparatus and computer program therefor
Al-Ghadhban et al. Arabic sarcasm detection in Twitter
EP3086237A1 (en) Phrase pair gathering device and computer program therefor
US10430717B2 (en) Complex predicate template collecting apparatus and computer program therefor
Mahmoud et al. Semantic similarity analysis for corpus development and paraphrase detection in Arabic.
JP2015007920A (ja) テキスト処理を用いた社会構造モデルの抽出
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
Ding et al. Weakly supervised induction of affective events by optimizing semantic consistency
Frisoni et al. Phenomena explanation from text: Unsupervised learning of interpretable and statistically significant knowledge
JP5678774B2 (ja) テキストデータの冗長性を解析する情報解析装置
Dung Natural language understanding
Cajueiro et al. A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding
Asinthara et al. Categorizing disaster tweets using learning based models for emergency crisis management
Malandrakis et al. Sail: Sentiment analysis using semantic similarity and contrast features
Elbarougy et al. Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers.
Saharia Detecting emotion from short messages on Nepal earthquake
CN111444347A (zh) 事件演化关系分析方法及装置
Khoroshilov et al. Automatic detection and classification of information events in media texts
Pakray et al. A statistics-based semantic textual entailment system
Stańczak et al. Grammatical Gender's Influence on Distributional Semantics: A Causal Perspective
Adkins et al. Advances in automated deception detection in text-based computer-mediated communication
Polpinij Ontology-based knowledge discovery from unstructured and semi-structured text
Feng et al. Opinion Analysis Based on TNF (Textual Noise Fixing) Algorithm