JP5944809B2 - 文書解析装置、方法、及びプログラム - Google Patents
文書解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5944809B2 JP5944809B2 JP2012238005A JP2012238005A JP5944809B2 JP 5944809 B2 JP5944809 B2 JP 5944809B2 JP 2012238005 A JP2012238005 A JP 2012238005A JP 2012238005 A JP2012238005 A JP 2012238005A JP 5944809 B2 JP5944809 B2 JP 5944809B2
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- indicating
- document
- user information
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
マイクロブログサービスの投稿文書を対象として、その中から興味のある話題に関する投稿文書を1箇所に収集し(集めたものをストーリーと呼ぶ)、自分の作成したストーリーを他者と共有できるようにするソーシャルキュレーションサービス(Togetter(登録商標)など)も提供されている。ソーシャルキュレーションサービスのユーザは、信頼性の高い投稿文書を収集していると予想され、複数のユーザが収集している同じ話題に関する投稿文書の投稿者(著者)は、信頼性が高いことが予想される。
図1に示すように、本実施の形態に係る文書解析装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書解析処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。文書解析装置100は、入力部1と、演算部2と、出力部3とを備えている。
次に、本実施の形態に係る文書解析装置100の作用について説明する。まず、文書解析装置100は、解析対象のデータ(マイクロブログサービスの複数の投稿文書についての形態素解析結果のデータと、ソーシャルキュレーションサービスの複数のストーリーのデータに含まれる各投稿文書についての形態素解析結果のデータと、マイクロブログサービス上の各ユーザの人気度を表す指標(友人数及びリスト登録数))が入力されると、文書解析装置100において、データ記憶部21に、入力された解析対象のデータが格納される。
以下に、実施例を示す。本発明の効果を示すために、マイクロブログサービスであるTwitter(登録商標)と、そのソーシャルキュレーションサービスの1つであるTogetter(登録商標)から得たデータセットに対して、NMFとSNMFを用いて解析を行った結果について、定量的な評価と定性的な評価を行った。
SNMF(本発明)によって、パープレキシティの改善が確認できた。
2 演算部
3 出力部
21 データ記憶部
22 行列加工部
23 行列分解部
100 文書解析装置
231 初期化部
232 行列更新部
233 計算終了評価部
Claims (7)
- 著者を示すユーザ情報が各々付与された複数の文書と、共通する話題について予め収集された複数の前記文書からなる複数の文書集合とを解析する文書解析装置であって、
前記複数の文書に対して形態素解析を行った形態素解析結果、複数の文書集合に含まれる前記複数の文書に対して形態素解析結果を行った形態素解析結果、及び前記ユーザ情報毎に与えられた前記ユーザ情報が示す著者の人気度合いを示す指標に基づいて、前記ユーザ情報i(1≦i≦I,Iは1以上の整数)が付与された文書のうち、前記文書集合j(1≦j≦J,Jは1以上の整数)に含まれる文書の数を示す非負値の要素xi,jを持つI×Jの行列Xと、単語nが前記文書集合jに含まれる全ての文書において出現する回数を示す非負値の要素yn,jを持つN×J(1≦n≦N,Nは1以上の整数)の行列Yと、前記ユーザ情報iが示す著者の人気度合いを示すm番目(1≦m≦M,Mは1以上の整数)の指標を示す非負値の要素zi,mを持つI×Mの行列Zを生成する行列加工手段と、
前記行列加工手段によって生成された前記行列X、前記行列Y、及び前記行列Zを、以下の式に示す目的関数Dを最小化するように、トピックk(1≦k≦K,Kは1以上の整数)に該当する前記文書集合に、人気がある著者を示す前記ユーザ情報iが付与された文書が含まれることを示す非負値の要素wi,kを持つI×Kの基底行列W、前記トピックkに該当する前記文書集合に含まれる、人気がある著者を示す前記ユーザ情報が付与された全ての文書において単語nが出現することを示す非負値の要素an,kを持つN×Kの基底行列A、前記文書集合jにおいて、前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iと、前記トピックkについて前記出現することを示す各要素an,kに対応する単語nとが同時に出現することを示す非負値の要素hk,jを持つK×Jの係数行列H、及び前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iが示す著者の人気度合いを示す指標mの平均値を示す非負値の要素bk,mを持つK×Mの係数行列Bに分解する行列分解手段と、
を含む文書解析装置。
ただし、λ、ηは予め定めた重み係数であり、dは、要素間の距離であり、Kは予め定められた値であり、^xi,j、^yn,j、^zi,mは、以下の式で表される。
- 前記行列分解手段は、
前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bの各要素に初期値を設定する初期化手段と、
前記初期化手段によって初期値が設定された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列B、又は前回更新された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bに基づいて、前記目的関数Dを最小化するように、前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bを更新する行列更新手段と、
予め定められた繰り返し終了条件を満たすまで、前記行列更新手段による更新を繰り返し行う終了判定手段と、
を含む請求項1記載の文書解析装置。 - 前記行列更新手段は、前記初期化手段によって初期値が設定された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列B、又は前回更新された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bに基づいて、以下の式に従って、前記基底行列Wの各要素wi,k new、前記基底行列Aの各要素an,k new、前記係数行列Hの各要素hk,j new、及び前記係数行列Bの各要素bk,m newに更新する請求項2記載の文書解析装置。
- 著者を示すユーザ情報が各々付与された複数の文書と、共通する話題について予め収集された複数の前記文書からなる複数の文書集合とを解析する文書解析装置における文書解析方法であって、
行列加工手段によって、前記複数の文書に対して形態素解析を行った形態素解析結果、複数の文書集合に含まれる前記複数の文書に対して形態素解析結果を行った形態素解析結果、及び前記ユーザ情報毎に与えられた前記ユーザ情報が示す著者の人気度合いを示す指標に基づいて、前記ユーザ情報i(1≦i≦I,Iは1以上の整数)が付与された文書のうち、前記文書集合j(1≦j≦J,Jは1以上の整数)に含まれる文書の数を示す非負値の要素xi,jを持つI×Jの行列Xと、単語nが前記文書集合jに含まれる全ての文書において出現する回数を示す非負値の要素yn,jを持つN×J(1≦n≦N,Nは1以上の整数)の行列Yと、前記ユーザ情報iが示す著者の人気度合いを示すm番目(1≦m≦M,Mは1以上の整数)の指標を示す非負値の要素zi,mを持つI×Mの行列Zを生成し、
行列分解手段によって、前記行列加工手段によって生成された前記行列X、前記行列Y、及び前記行列Zを、以下の式に示す目的関数Dを最小化するように、トピックk(1≦k≦K,Kは1以上の整数)に該当する前記文書集合に、人気がある著者を示す前記ユーザ情報iが付与された文書が含まれることを示す非負値の要素wi,kを持つI×Kの基底行列W、前記トピックkに該当する前記文書集合に含まれる、人気がある著者を示す前記ユーザ情報が付与された全ての文書において単語nが出現することを示す非負値の要素an,kを持つN×Kの基底行列A、前記文書集合jにおいて、前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iと、前記トピックkについて前記出現することを示す各要素an,kに対応する単語nとが同時に出現することを示す非負値の要素hk,jを持つK×Jの係数行列H、及び前記トピックkについて前記文書が含まれることを示す各要素wi,kに対応するユーザ情報iが示す著者の人気度合いを示す指標mの平均値を示す非負値の要素bk,mを持つK×Mの係数行列Bに分解する
文書解析方法。
ただし、λ、ηは予め定めた重み係数であり、dは、要素間の距離であり、Kは予め定められた値であり、^xi,j、^yn,j、^zi,mは、以下の式で表される。
- 前記行列分解手段によって分解することは、
初期化手段によって、前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bの各要素に初期値を設定し、
行列更新手段によって、前記初期化手段によって初期値が設定された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列B、又は前回更新された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bに基づいて、前記目的関数Dを最小化するように、前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bを更新し、
終了判定手段によって、予め定められた繰り返し終了条件を満たすまで、前記行列更新手段による更新を繰り返し行うこと
を含む請求項4記載の文書解析方法。 - 前記行列更新手段によって更新することは、
前記初期化手段によって初期値が設定された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列B、又は前回更新された前記基底行列W、前記基底行列A、前記係数行列H、及び前記係数行列Bに基づいて、以下の式に従って、前記基底行列Wの各要素wi,k new、前記基底行列Aの各要素an,k new、前記係数行列Hの各要素hk,j new、及び前記係数行列Bの各要素bk,m newに更新する請求項5記載の文書解析方法。
- コンピュータを、請求項1〜請求項3の何れか1項記載の文書解析装置を構成する各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012238005A JP5944809B2 (ja) | 2012-10-29 | 2012-10-29 | 文書解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012238005A JP5944809B2 (ja) | 2012-10-29 | 2012-10-29 | 文書解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014089518A JP2014089518A (ja) | 2014-05-15 |
JP5944809B2 true JP5944809B2 (ja) | 2016-07-05 |
Family
ID=50791391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012238005A Active JP5944809B2 (ja) | 2012-10-29 | 2012-10-29 | 文書解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5944809B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6092072B2 (ja) * | 2013-10-29 | 2017-03-08 | 日本電信電話株式会社 | データ解析装置、方法、及びプログラム |
JP6175037B2 (ja) * | 2014-07-29 | 2017-08-02 | 日本電信電話株式会社 | クラスタ抽出装置及び方法及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5657338B2 (ja) * | 2010-10-19 | 2015-01-21 | 株式会社中電シーティーアイ | 入力情報分析装置 |
-
2012
- 2012-10-29 JP JP2012238005A patent/JP5944809B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014089518A (ja) | 2014-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kosinski et al. | Mining big data to extract patterns and predict real-life outcomes. | |
CN108628971B (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
Schotten et al. | A brief history of Scopus: The world’s largest abstract and citation database of scientific literature | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
Griffiths et al. | Finding scientific topics | |
Abainia et al. | A novel robust Arabic light stemmer | |
CA2578513C (en) | System and method for online information analysis | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN110083683B (zh) | 基于随机游走的实体语义标注方法 | |
US20110219299A1 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
US20140297628A1 (en) | Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein | |
US10210251B2 (en) | System and method for creating labels for clusters | |
Mena et al. | On the Bayesian mixture model and identifiability | |
D’Alonzo et al. | Machine-learning media bias | |
Pargent et al. | Predictive modeling with psychological panel data | |
Garcia-Guzman et al. | Trend-based categories recommendations and age-gender prediction for pinterest and twitter users | |
JP5944809B2 (ja) | 文書解析装置、方法、及びプログラム | |
US20090216739A1 (en) | Boosting extraction accuracy by handling training data bias | |
Murtagh | Semantic Mapping: Towards Contextual and Trend Analysis of Behaviours and Practices. | |
US8554696B2 (en) | Efficient computation of ontology affinity matrices | |
CN101655853A (zh) | 建立模型的装置和方法 | |
JP5513929B2 (ja) | 経験情報の再利用性評価装置及び方法及びプログラム | |
Wacewicz et al. | The scientometric landscape of Evolang: A comprehensive database of the Evolang conference | |
Tian et al. | Dynamic sampling of text streams and its application in text analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160526 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5944809 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |