JP5944809B2 - 文書解析装置、方法、及びプログラム - Google Patents

文書解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP5944809B2
JP5944809B2 JP2012238005A JP2012238005A JP5944809B2 JP 5944809 B2 JP5944809 B2 JP 5944809B2 JP 2012238005 A JP2012238005 A JP 2012238005A JP 2012238005 A JP2012238005 A JP 2012238005A JP 5944809 B2 JP5944809 B2 JP 5944809B2
Authority
JP
Japan
Prior art keywords
matrix
indicating
document
user information
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012238005A
Other languages
English (en)
Other versions
JP2014089518A (ja
Inventor
竹内 孝
孝 竹内
澤田 宏
宏 澤田
昭悟 木村
昭悟 木村
勝彦 石黒
勝彦 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012238005A priority Critical patent/JP5944809B2/ja
Publication of JP2014089518A publication Critical patent/JP2014089518A/ja
Application granted granted Critical
Publication of JP5944809B2 publication Critical patent/JP5944809B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書解析装置、方法、及びプログラムに係り、特に、著者を示すユーザ情報が付与された複数の文書を解析する文書解析装置、方法、及びプログラムに関する。
近年、マイクロブログサービス(Twitter(登録商標)など)のような短いテキストの投稿が大量に行われているウェブサイトの中から、信頼度の高い投稿者(例えば、その話題に関する専門家などの)を解析する技術の研究開発が進められている。しかし、マイクロブログの投稿は1投稿あたりの文字数が非常に短いため、投稿されたテキストそのものから得られる情報が少ないため解析が困難であるという問題がある。
非特許文献1では、マイクロブログの投稿内容自体は利用せず、一連の投稿に対して付与されたタイトルのような情報と会話の構造やユーザの関係性などを用いて、ある話題に関する専門家を発見する技術が提案されている。
S. Ghosh, N. Sharma, F. Benevenuto, N. Ganguly, and K. P. Gummadi. Cognos: "Crowdsourcing search for topic experts in microblogs," In Proceedings of SIGIR, 2012.
しかしながら、上記の非特許文献1に記載の技術では、専門家を発見できる話題が、投稿に対して予め付与されたタイトルといった限定されたテキスト中に含まれるキーワードに基づくものに限定される、という問題がある。つまり、投稿内容には含まれるがタイトルに含まれないキーワードに応じた話題についての専門家を発見するような解析を行うことができない。
本発明は、上記の事実を鑑みてなされたものであり、各トピックについて、人気がある著者と、人気がある著者の文書の中に含まれるキーワードとを発見するような解析が可能な文書解析装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る文書解析装置は、著者を示すユーザ情報が各々付与された複数の文書と、共通する話題について予め収集された複数の前記文書からなる複数の文書集合とを解析する文書解析装置であって、前記複数の文書に対して形態素解析を行った形態素解析結果、複数の文書集合に含まれる前記複数の文書に対して形態素解析結果を行った形態素解析結果、及び前記ユーザ情報毎に与えられた前記ユーザ情報が示す著者の人気度合いを示す指標に基づいて、前記ユーザ情報i(1≦i≦I,Iは1以上の整数)が付与された文書のうち、前記文書集合j(1≦j≦J,Jは1以上の整数)に含まれる文書の数を示す非負値の要素xi,jを持つI×Jの行列Xと、単語nが前記文書集合jに含まれる全ての文書において出現する回数を示す非負値の要素yn,jを持つN×J(1≦n≦N,Nは1以上の整数)の行列Yと、前記ユーザ情報iが示す著者の人気度合いを示すm番目(1≦m≦M,Mは1以上の整数)の指標を示す非負値の要素zi,mを持つI×Mの行列を生成する行列加工手段と、前記行列加工手段によって生成された前記行列X、前記行列Y、及び前記行列Zを、以下の式に示す目的関数Dを最小化するように、トピックk(1≦k≦K,Kは1以上の整数)に該当する前記文書集合に、人気がある著者を示す前記ユーザ情報iが付与された文書が含まれることを示す非負値の要素wi,kを持つI×Kの基底行列W、前記トピックkに該当する前記文書集合に含まれる、人気がある著者を示す前記ユーザ情報が付与された全ての文書において単語nが出現することを示す非負値の要素an,kを持つN×Kの基底行列A、前記文書集合jにおいて、前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iと、前記トピックkについて前記出現することを示す各要素an,kに対応する単語nとが同時に出現することを示す非負値の要素hk,jを持つK×Jの係数行列H、及び前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iが示す著者の人気度合いを示す指標mの平均値を示す非負値の要素bk,mを持つK×Mの係数行列Bに分解する行列分解手段と、を含んで構成されている。
ただし、λ、ηは予め定めた重み係数であり、dは、要素間の距離であり、Kは予め定められた値であり、^xi,j、^yn,j、^zi,mは、以下の式で表される。
本発明に係る文書解析方法は、著者を示すユーザ情報が各々付与された複数の文書と、共通する話題について予め収集された複数の前記文書からなる複数の文書集合とを解析する文書解析装置における文書解析方法であって、行列加工手段によって、前記複数の文書に対して形態素解析を行った形態素解析結果、複数の文書集合に含まれる前記複数の文書に対して形態素解析結果を行った形態素解析結果、及び前記ユーザ情報毎に与えられた前記ユーザ情報が示す著者の人気度合いを示す指標に基づいて、前記ユーザ情報i(1≦i≦I,Iは1以上の整数)が付与された文書のうち、前記文書集合j(1≦j≦J,Jは1以上の整数)に含まれる文書の数を示す非負値の要素xi,jを持つI×Jの行列Xと、単語nが前記文書集合jに含まれる全ての文書において出現する回数を示す非負値の要素yn,jを持つN×J(1≦n≦N,Nは1以上の整数)の行列Yと、前記ユーザ情報iが示す著者の人気度合いを示すm番目(1≦m≦M,Mは1以上の整数)の指標を示す非負値の要素zi,mを持つI×Mの行列を生成し、行列分解手段によって、前記行列加工手段によって生成された前記行列X、前記行列Y、及び前記行列Zを、以下の式に示す目的関数Dを最小化するように、トピックk(1≦k≦K,Kは1以上の整数)に該当する前記文書集合に、人気がある著者を示す前記ユーザ情報iが付与された文書が含まれることを示す非負値の要素wi,kを持つI×Kの基底行列W、前記トピックkに該当する前記文書集合に含まれる、人気がある著者を示す前記ユーザ情報が付与された全ての文書において単語nが出現することを示す非負値の要素an,kを持つN×Kの基底行列A、前記文書集合jにおいて、前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iと、前記トピックkについて前記出現することを示す各要素an,kに対応する単語nとが同時に出現することを示す非負値の要素hk,jを持つK×Jの係数行列H、及び前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iが示す著者の人気度合いを示す指標mの平均値を示す非負値の要素bk,mを持つK×Mの係数行列Bに分解する。
ただし、λ、ηは予め定めた重み係数であり、dは、要素間の距離であり、Kは予め定められた値であり、^xi,j、^yn,j、^zi,mは、以下の式で表される。
本発明に係るプログラムは、コンピュータを、上記の文書解析装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の文書解析装置、方法、及びプログラムによれば、共通する話題について予め収集された文書集合とユーザ情報が示す著者の人気度合いを示す指標とを用いて生成された行列X、行列Y、行列Yを、トピックkに該当する文書集合に、人気がある著者を示すユーザ情報iが付与された文書が含まれることを示す基底行列W、トピックkに該当する文書集合に含まれる、人気がある著者を示すユーザ情報が付与された全ての文書において単語nが出現することを示す基底行列A、係数行列H、及び係数行列Bに分解することにより、各トピックについて、人気がある著者と、人気がある著者の文書の中に含まれるキーワードとを発見するような解析が可能となる、という効果が得られる。
本発明の実施の形態に係る文書解析装置の構成を示す概略図である。 行列X、Y、Zを説明するための図である。 行列W、H、A、Bを説明するための図である。 本発明の実施の形態に係る文書解析装置における行列分解部の構成を示す図である。 本発明の実施の形態に係る文書解析装置における文書解析処理ルーチンの内容を示すフローチャートである。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、Twitter(登録商標)などのマイクロブログサービスの投稿文書を対象として、文書を解析する文書解析装置に、本発明を適用した場合を例に説明する。
<発明の概要>
マイクロブログサービスの投稿文書を対象として、その中から興味のある話題に関する投稿文書を1箇所に収集し(集めたものをストーリーと呼ぶ)、自分の作成したストーリーを他者と共有できるようにするソーシャルキュレーションサービス(Togetter(登録商標)など)も提供されている。ソーシャルキュレーションサービスのユーザは、信頼性の高い投稿文書を収集していると予想され、複数のユーザが収集している同じ話題に関する投稿文書の投稿者(著者)は、信頼性が高いことが予想される。
本発明では、マイクロブログサービスの投稿文書のみでなく、マイクロブログを加工して公開するソーシャルキュレーションサービスによって提供される投稿文書集合も同時に解析することで、マイクロブログサービス上で注目されている話題と、その話題に関して信頼性の高いユーザ(著者)の集団を同時に解析する。また、解析の精度をより高めるために、マイクロブログサービス上での人気度合い(友人数とリスト登録数)を更に加味した解析を行う。
ここで、複数の文書を入力とし、それらの文書に共通して現れる単語とその単語の出現頻度を表す指標とを同時に解析する手法として、非負値行列分解(NMF、参考文献1)が知られている。
参考文献1:Daniel D. Lee & H. Sebastian Seung, “Learning the parts of objects by non-negative matrix factorization”
NMFはある行列Xを非負値の基底行列Wと非負値の係数行列Hに分解する手法である。行列Xは、ある文書である単語が出現する回数を数え上げた列ベクトルからなる行列である。このような行列Xを分解すると、複数の文書で頻繁に同時に出現する単語が、基底行列Wの基底により抽出される。(例:court、government、council、culture、supreme、constitutional、rights、justiceなど)。また、ある文書において、上記の単語がどの程度同時に頻繁に現れるかを表す指標が係数行列Hに現れる。
本発明では、マイクロブログの投稿文書だけでなく、ソーシャルキュレーションサービスのストーリーのデータやマイクロブログサービス上での友人数とリスト登録数などの補助情報も入力として利用し、これらを同時に解析する必要がある。これらの情報を1つの2次元行列(X)にまとめることはできないため、NMFをそのまま適用することはできない。そこで本発明では、非負値行列分解(NMF)を拡張したStacked非負値行列分解(SNMF)を提案する。
<文書解析装置の構成>
図1に示すように、本実施の形態に係る文書解析装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書解析処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。文書解析装置100は、入力部1と、演算部2と、出力部3とを備えている。
入力部1は、ユーザにより入力された、解析対象のデータとしての、マイクロブログサービスの複数の投稿文書と、投稿文書を収集して予め生成された、ソーシャルキュレーションサービスの複数のストーリーのデータ(投稿文書集合)と、マイクロブログサービス上の各ユーザの人気度を表す指標(友人数及びリスト登録数)を受け付ける。マイクロブログサービスの投稿文書は、著者を示すユーザ情報が付与された文書データであり、文書データは、投稿文書について形態素解析を行った形態素解析結果のデータである。ソーシャルキュレーションサービスのストーリーのデータは、ある話題に共通するものとして収集された、著者を示すユーザ情報が付与された複数の投稿文書からなる投稿文書集合であり、投稿文書集合の各投稿文書のデータは、各投稿文書について形態素解析を行った形態素解析結果のデータである。ユーザの人気度を表す指標は、投稿文書の著者であるユーザの各々についての人気度を表す指標であり、友人数は、例えば、当該ユーザに対するフォロワーの数であり、リスト登録数は、当該ユーザが他のユーザによってリストに登録されているリストの数である。
マイクロブログサービスのユーザ(投稿文書の投稿者(著者))数をI人、ソーシャルキュレーションサービスのストーリーのデータ(投稿文書集合)の総数をJ個、投稿文書に含まれる単語の種類数をN種類、ユーザの人気度を表す指標の種類数をM種類とする。なお、単語の種類数やユーザの人気度を表す指標の種類数は、解析対象データに含まれる全単語や全種類の指標を対象とする必要はなく、解析したい単語や解析したい種類の指標のみを選択しても良い。ユーザを表すインデックスをi={1,…,I}、単語を表すインデックスをn={1,…,N}、ストーリーを表すインデックスをj={1,…J}、ユーザの人気度を表す指標のインデックスをm={1,…,M}とする。
演算部2は、データ記憶部21と、行列加工部22と、行列分解部23とを備えている。
データ記憶部21は、入力部1により入力された、マイクロブログサービスの複数の投稿文書と、ソーシャルキュレーションサービスの複数のストーリーのデータと、マイクロブログサービス上の各ユーザの人気度を表す指標(友人数及びリスト登録数)とを記憶している。
行列加工部22は、データ記憶部21に記憶された解析対象のデータに基づいて、図2に示すように、各ストーリーにおける各ユーザの出現回数を表現したI×J次元の行列Xと、各ストーリーにおける各単語の出現回数を表現したN×J次元の行列Yと、各ユーザの人気度を表す指標を表現したI×M次元の行列Zとを生成する。
行列Xのi行j列の要素xijは、i番目のユーザが著者となる投稿文書がj番目のストーリーで出現した回数である。行列Yのn行j列の要素ynjは、n番目の単語がj番目のストーリーに含まれる全投稿文書で出現した回数である。行列Zのi行m列の要素zimは、i番目のユーザについてのm番目の人気度を表す指標である。
ユーザの人気度を表す指標には、あるユーザのマイクロブログサービス上での友人(フォロワー)数とリスト登録数の2種類を扱う(つまり、M=2である)。これらの数値は、実際の値(フォロワー数やリスト登録数)を~zimとして、以下のようにスケーリング変換する。
行列分解部23は、行列加工部22によって生成された行列X、Y、Zを、以下の(1)式に示す目的関数Dを最小化するように基底行列W、係数行列H、基底行列A、係数行列Bへ分解する。
ここで、λとηは予め定めた重み係数である。ここで、dは以下の式に示す一般化KL距離である。
ここで、行列W、H、A、Bは図3に示すように、それぞれI×K行列、K×J行列、N×K行列、K×M行列である。I, J, N, Mの値は解析対象のデータで用いたものと同じであり、Kは任意の自然数であり予め設定された値である。
基底行列Wのi行k列の要素wi,kは、トピックkに該当するストーリーのデータに、人気があるユーザiが著者となる投稿文書が含まれる度合いを示す非負値の値である。基底行列Aのn行k列の要素an,kは、
トピックkに該当するストーリーのデータに含まれる、人気があるユーザが著者となる全ての投稿文書において単語nが出現する度合いを示す非負値の値である。係数行列Hのk行j列の要素hk,jは、ストーリーのデータjにおいて、トピックkについて上記の投稿文書が含まれることを示す各要素wi,kに対応するユーザiと、トピックkについて上記の単語が出現することを示す各要素an,kに対応する単語nとが同時に出現することを示す非負値の値である。係数行列Bのk行m列の要素bk,mは、トピックkについて上記の投稿文書が含まれることを示す各要素wi,kに対応するユーザiの人気度合いを示す指標mの平均値を示す非負値の値である。
行列分解部23の詳細構成を図4に示す。行列分解部23は、初期化部231、行列更新部232、及び計算終了評価部233を備えている。
初期化部231は、行列W、H、A、Bの各要素を乱数によって初期化する。
行列更新部232は、以下の(2)式により、行列W、H、A、B の各要素を更新する。
ここで、wi,k newは更新後の基底行列Wのi行k列の要素、hk,j newは更新後の基底行列Hのk行j列の要素、an,k newは更新後の係数行列Aのn行k列の要素、bk,m newは更新後の係数行列Bのk行m列の要素である。また、x^i,j,y^n,j,z^i,mは、以下の式で表される。
行列更新部232の最大繰り返し数をTとする。t回目の行列更新部232の計算から得られたW、H、A、BをW(t)、H(t)、A(t)、B(t)と置く。初期化部231から出力される初期化された行列はW(0)、H(0)、A(0)、B(0)とする。
計算終了評価部233は、行列更新部232の繰り返し数がTに到達した場合、もしくは、以下の式に示す条件を満たした場合に計算を終了し、行列W(t)、H(t)、A(t)、B(t)を出力部3により出力する。
上記の式は、上記(1)式の目的関数Dの変化分(t回目の計算結果と前回のt-1回目の計算結果の差分の絶対値)が、予め定めた誤差ε以下になった場合に、行列W(t)、H(t)、A(t)、B(t)が収束した(上記(1)式の目的関数Dが最小化された)と判定し、計算を終了することを意味する。
以上の処理により出力された行列W, Aは基底行列であり、行列H, Bは係数行列である。基底行列Wには、トピックk毎に、ソーシャルキュレーションサービスのトピックkに該当するストーリーに頻繁に表れるユーザで、かつ、マイクロブログデータにおいて人気度の高いユーザがその基底に現れる。また、基底行列Aには、トピックk毎に、ソーシャルキュレーションサービスのトピックkに該当するストーリーに含まれる投稿文書に頻繁に表れる単語で、かつ、マイクロブログデータにおいて人気度の高いユーザの投稿文書によく現れる単語がその基底に現れる。係数行列Hでは、トピックk毎に、ソーシャルキュレーションサービスの各ストーリーjにおいて、行列Wの当該トピックkの基底に現れるユーザと、行列Aの当該トピックkの基底に現れる各単語がどの程度同時に頻繁に現れるかを表す指標がその値に現れる。係数行列Bには、トピックk毎に、行列Wの当該トピックkの基底に現れるユーザが平均的にもつフォロワー数やリスト登録数が現れる。
<文書解析装置の作用>
次に、本実施の形態に係る文書解析装置100の作用について説明する。まず、文書解析装置100は、解析対象のデータ(マイクロブログサービスの複数の投稿文書についての形態素解析結果のデータと、ソーシャルキュレーションサービスの複数のストーリーのデータに含まれる各投稿文書についての形態素解析結果のデータと、マイクロブログサービス上の各ユーザの人気度を表す指標(友人数及びリスト登録数))が入力されると、文書解析装置100において、データ記憶部21に、入力された解析対象のデータが格納される。
そして、文書解析装置100において、図5に示す文書解析処理ルーチンが実行される。
まず、ステップS101において、データ記憶部21に記憶された解析対象のデータを読み込み、ステップS102において、上記ステップS101で読み込んだ解析対象のデータに基づいて、行列X、Y、Zを生成する。
次のステップS103では、行列W、H、A、Bの各要素を、乱数により初期化する。そして、ステップS104では、上記ステップS102で生成された行列X、Y、Zと、上記ステップS103で初期化された行列W、H、A、B、又はステップS104で前回更新された行列W、H、A、Bとに基づいて、上記(2)式に従って、行列W、H、A、Bの各要素を更新する。
ステップS105では、繰り返し回数が、予め定められた回数Tに到達したか否かを判定し、繰り返し回数がTに到達していない場合には、上記ステップS104へ戻る。一方、繰り返し回数がTに到達した場合には、上記(1)式の基準Dが最小化されたと判断し、ステップS106へ移行する。
ステップS106では、最終的に得られた行列W、H、A、Bを、出力部3により出力して、文書解析処理ルーチンを終了する。
<実施例>
以下に、実施例を示す。本発明の効果を示すために、マイクロブログサービスであるTwitter(登録商標)と、そのソーシャルキュレーションサービスの1つであるTogetter(登録商標)から得たデータセットに対して、NMFとSNMFを用いて解析を行った結果について、定量的な評価と定性的な評価を行った。
なお、NMFの場合は、本発明の分解対象である行列X,Y,ZのうちXを入力データとしてNMFにより行列WとHに分解した。パープレキシティという指標を用いて定量的な評価を行った。パープレキシティは、モデルとデータの間の誤差を表し、良いモデルほどパープレキシティの値が減少する。分解結果のパープレキシティを以下の表1に示す。

SNMF(本発明)によって、パープレキシティの改善が確認できた。
次に定性的な評価を行う。行列分解によって得られた基底行列WとAの一部を表示する。Wの基底とそのトピックに対応するAの基底から、値の大きいユーザと単語を図6に表示する。話題1では、経済に関する単語(経済、消費、政策、円、デフレ等)と経済に関してソーシャルキュレーションに頻繁に現れるユーザが見られる。ユーザに関してTwitter(登録商標)のプロフィールを確認すると、経済に関する専門家が含まれていることが確認できた。話題4に関しては東日本大震災に関する単語(町、避難、情報など)が高い値を持ち、同時にユーザの中には岩手県広報課のアカウントなどが確認できた。話題5に関しても、同様に地震に関する単語(地震、福島、震度、速報、揺れるなど)が高い値を持ち、ユーザの中には時事通信のニュースを発信するアカウントや、首相官邸のアカウントなどが含まれている。従来のNMFではこのような結果は見られない。以上から、SNMFによってマイクロブログサービス上の特定の話題とその話題に関して信頼性の高い情報を発信しているユーザを発見出来るようになったといえる。
以上説明したように、本実施の形態に係る文書解析装置によれば、複数の投稿文書と、共通する話題について予め収集されたストーリーのデータと、各ユーザの人気度合いを示す指標とを用いて生成された行列X、行列Y、行列Yを、トピックkに該当するストーリーに、人気が高いユーザiの投稿文書が含まれることを示す基底行列W、トピックkに該当するストーリーに含まれる、人気が高いユーザの投稿文書において単語nが出現することを示す基底行列A、係数行列H、及び係数行列Bに分解することにより、各トピックについて、人気が高いユーザと、人気が高ユーザの文書の中に含まれるキーワードとを発見するような解析が可能となる。
また、複数の解析対象データを同時に解析するため、Nonnegative Matrix Factorization(NMF)技術を拡張し、複数の補助情報を利用した行列分解を行えるようした。また、複数の解析対象データを同時に解析することにより、定量的にも定性的にも、より高い精度で、Twitter(登録商標)などのマイクロブログサービスの投稿データ(短いテキストの投稿が大量に蓄積されたデータ)の中から、信頼度の高いユーザ(例えばある話題に関する専門家など)を発見することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、投稿文書そのものや、ストーリーのデータ(投稿文書集合)が文書解析装置に入力されてもよい。この場合には、文書解析装置は、入力された投稿文書、及びストーリーのデータに含まれる各投稿文書に対して、形態素解析を行うようにすればよい。
また、人気度合いを示す指標として、友人数やリスト登録数以外の指標を用いてもよい。
また、目的関数Dで用いる距離dが、一般化KL距離である場合を例に説明したが、これに限定されるものではなく、他の距離を用いてもよい。
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
また、上述の文書解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 入力部
2 演算部
3 出力部
21 データ記憶部
22 行列加工部
23 行列分解部
100 文書解析装置
231 初期化部
232 行列更新部
233 計算終了評価部

Claims (7)

  1. 著者を示すユーザ情報が各々付与された複数の文書と、共通する話題について予め収集された複数の前記文書からなる複数の文書集合とを解析する文書解析装置であって、
    前記複数の文書に対して形態素解析を行った形態素解析結果、複数の文書集合に含まれる前記複数の文書に対して形態素解析結果を行った形態素解析結果、及び前記ユーザ情報毎に与えられた前記ユーザ情報が示す著者の人気度合いを示す指標に基づいて、前記ユーザ情報i(1≦i≦I,Iは1以上の整数)が付与された文書のうち、前記文書集合j(1≦j≦J,Jは1以上の整数)に含まれる文書の数を示す非負値の要素xi,jを持つI×Jの行列Xと、単語nが前記文書集合jに含まれる全ての文書において出現する回数を示す非負値の要素yn,jを持つN×J(1≦n≦N,Nは1以上の整数)の行列Yと、前記ユーザ情報iが示す著者の人気度合いを示すm番目(1≦m≦M,Mは1以上の整数)の指標を示す非負値の要素zi,mを持つI×Mの行列を生成する行列加工手段と、
    前記行列加工手段によって生成された前記行列X、前記行列Y、及び前記行列Zを、以下の式に示す目的関数Dを最小化するように、トピックk(1≦k≦K,Kは1以上の整数)に該当する前記文書集合に、人気がある著者を示す前記ユーザ情報iが付与された文書が含まれることを示す非負値の要素wi,kを持つI×Kの基底行列W、前記トピックkに該当する前記文書集合に含まれる、人気がある著者を示す前記ユーザ情報が付与された全ての文書において単語nが出現することを示す非負値の要素an,kを持つN×Kの基底行列A、前記文書集合jにおいて、前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iと、前記トピックkについて前記出現することを示す各要素an,kに対応する単語nとが同時に出現することを示す非負値の要素hk,jを持つK×Jの係数行列H、及び前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iが示す著者の人気度合いを示す指標mの平均値を示す非負値の要素bk,mを持つK×Mの係数行列Bに分解する行列分解手段と、
    を含む文書解析装置。

    ただし、λ、ηは予め定めた重み係数であり、dは、要素間の距離であり、Kは予め定められた値であり、^xi,j、^yn,j、^zi,mは、以下の式で表される。
  2. 前記行列分解手段は、
    前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bの各要素に初期値を設定する初期化手段と、
    前記初期化手段によって初期値が設定された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列B、又は前回更新された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bに基づいて、前記目的関数Dを最小化するように、前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bを更新する行列更新手段と、
    予め定められた繰り返し終了条件を満たすまで、前記行列更新手段による更新を繰り返し行う終了判定手段と、
    を含む請求項1記載の文書解析装置。
  3. 前記行列更新手段は、前記初期化手段によって初期値が設定された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列B、又は前回更新された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bに基づいて、以下の式に従って、前記基底行列Wの各要素wi,k new、前記基底行列Aの各要素an,k new、前記係数行列Hの各要素hk,j new、及び前記係数行列Bの各要素bk,m newに更新する請求項2記載の文書解析装置。
  4. 著者を示すユーザ情報が各々付与された複数の文書と、共通する話題について予め収集された複数の前記文書からなる複数の文書集合とを解析する文書解析装置における文書解析方法であって、
    行列加工手段によって、前記複数の文書に対して形態素解析を行った形態素解析結果、複数の文書集合に含まれる前記複数の文書に対して形態素解析結果を行った形態素解析結果、及び前記ユーザ情報毎に与えられた前記ユーザ情報が示す著者の人気度合いを示す指標に基づいて、前記ユーザ情報i(1≦i≦I,Iは1以上の整数)が付与された文書のうち、前記文書集合j(1≦j≦J,Jは1以上の整数)に含まれる文書の数を示す非負値の要素xi,jを持つI×Jの行列Xと、単語nが前記文書集合jに含まれる全ての文書において出現する回数を示す非負値の要素yn,jを持つN×J(1≦n≦N,Nは1以上の整数)の行列Yと、前記ユーザ情報iが示す著者の人気度合いを示すm番目(1≦m≦M,Mは1以上の整数)の指標を示す非負値の要素zi,mを持つI×Mの行列を生成し、
    行列分解手段によって、前記行列加工手段によって生成された前記行列X、前記行列Y、及び前記行列Zを、以下の式に示す目的関数Dを最小化するように、トピックk(1≦k≦K,Kは1以上の整数)に該当する前記文書集合に、人気がある著者を示す前記ユーザ情報iが付与された文書が含まれることを示す非負値の要素wi,kを持つI×Kの基底行列W、前記トピックkに該当する前記文書集合に含まれる、人気がある著者を示す前記ユーザ情報が付与された全ての文書において単語nが出現することを示す非負値の要素an,kを持つN×Kの基底行列A、前記文書集合jにおいて、前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iと、前記トピックkについて前記出現することを示す各要素an,kに対応する単語nとが同時に出現することを示す非負値の要素hk,jを持つK×Jの係数行列H、及び前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iが示す著者の人気度合いを示す指標mの平均値を示す非負値の要素bk,mを持つK×Mの係数行列Bに分解する
    文書解析方法。

    ただし、λ、ηは予め定めた重み係数であり、dは、要素間の距離であり、Kは予め定められた値であり、^xi,j、^yn,j、^zi,mは、以下の式で表される。
  5. 前記行列分解手段によって分解することは、
    初期化手段によって、前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bの各要素に初期値を設定し、
    行列更新手段によって、前記初期化手段によって初期値が設定された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列B、又は前回更新された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bに基づいて、前記目的関数Dを最小化するように、前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bを更新し、
    終了判定手段によって、予め定められた繰り返し終了条件を満たすまで、前記行列更新手段による更新を繰り返し行うこと
    を含む請求項4記載の文書解析方法。
  6. 前記行列更新手段によって更新することは、
    前記初期化手段によって初期値が設定された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列B、又は前回更新された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bに基づいて、以下の式に従って、前記基底行列Wの各要素wi,k new、前記基底行列Aの各要素an,k new、前記係数行列Hの各要素hk,j new、及び前記係数行列Bの各要素bk,m newに更新する請求項5記載の文書解析方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の文書解析装置を構成する各手段として機能させるためのプログラム。
JP2012238005A 2012-10-29 2012-10-29 文書解析装置、方法、及びプログラム Active JP5944809B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012238005A JP5944809B2 (ja) 2012-10-29 2012-10-29 文書解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012238005A JP5944809B2 (ja) 2012-10-29 2012-10-29 文書解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014089518A JP2014089518A (ja) 2014-05-15
JP5944809B2 true JP5944809B2 (ja) 2016-07-05

Family

ID=50791391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012238005A Active JP5944809B2 (ja) 2012-10-29 2012-10-29 文書解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5944809B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6092072B2 (ja) * 2013-10-29 2017-03-08 日本電信電話株式会社 データ解析装置、方法、及びプログラム
JP6175037B2 (ja) * 2014-07-29 2017-08-02 日本電信電話株式会社 クラスタ抽出装置及び方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5657338B2 (ja) * 2010-10-19 2015-01-21 株式会社中電シーティーアイ 入力情報分析装置

Also Published As

Publication number Publication date
JP2014089518A (ja) 2014-05-15

Similar Documents

Publication Publication Date Title
Kosinski et al. Mining big data to extract patterns and predict real-life outcomes.
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
Schotten et al. A brief history of Scopus: The world’s largest abstract and citation database of scientific literature
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Griffiths et al. Finding scientific topics
Abainia et al. A novel robust Arabic light stemmer
CA2578513C (en) System and method for online information analysis
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN110083683B (zh) 基于随机游走的实体语义标注方法
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
US20140297628A1 (en) Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein
US10210251B2 (en) System and method for creating labels for clusters
Mena et al. On the Bayesian mixture model and identifiability
D’Alonzo et al. Machine-learning media bias
Pargent et al. Predictive modeling with psychological panel data
Garcia-Guzman et al. Trend-based categories recommendations and age-gender prediction for pinterest and twitter users
JP5944809B2 (ja) 文書解析装置、方法、及びプログラム
US20090216739A1 (en) Boosting extraction accuracy by handling training data bias
Murtagh Semantic Mapping: Towards Contextual and Trend Analysis of Behaviours and Practices.
US8554696B2 (en) Efficient computation of ontology affinity matrices
CN101655853A (zh) 建立模型的装置和方法
JP5513929B2 (ja) 経験情報の再利用性評価装置及び方法及びプログラム
Wacewicz et al. The scientometric landscape of Evolang: A comprehensive database of the Evolang conference
Tian et al. Dynamic sampling of text streams and its application in text analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160526

R150 Certificate of patent or registration of utility model

Ref document number: 5944809

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150