JP6042790B2 - トレンド分析装置、トレンド分析方法およびトレンド分析プログラム - Google Patents
トレンド分析装置、トレンド分析方法およびトレンド分析プログラム Download PDFInfo
- Publication number
- JP6042790B2 JP6042790B2 JP2013236961A JP2013236961A JP6042790B2 JP 6042790 B2 JP6042790 B2 JP 6042790B2 JP 2013236961 A JP2013236961 A JP 2013236961A JP 2013236961 A JP2013236961 A JP 2013236961A JP 6042790 B2 JP6042790 B2 JP 6042790B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- cluster
- sub
- query
- trend
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
入力部10を介して、ユーザが入力した、ユーザの興味に応じたクエリワード群Qおよびトレンド数Kを受け付ける。
一定時間分のテキストストリームに関して、発生時間とテキスト情報をテキストストリーム記憶部20に記憶する。テキストストリーム記憶部20を含む以下の記憶部は、これらの情報が保存され、復元可能なものであれば何でもよい。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置)の特定領域に記憶されるものなどである。記憶されたテキストストリームは一定時間後削除され、再度新たに一定時間分のテキストストリームを記憶する。新たにテキストストリームが記憶される度に、テキスト関連グラフ計算部30に情報を受け渡す。なお、テキストストリームとはマイクロブログ(例えばTwitter(登録商標))などのリアルタイム性の高いテキストを想定している。
テキスト関連グラフ計算部30がテキストストリーム記憶部20に記憶されたテキストd∈Dを、形態素解析器により名詞・動詞・形容詞などの単語集合に分割する。その後、各々のテキストd∈Dの関連性を表す、テキスト関連グラフG=(V,E)を構築する。ここでDはテキスト集合であり、Gは無向グラフ、Vはノード集合、Eはエッジ集合である。グラフGの構築方法は、各テキストdをノードv∈Vとし、各テキストにおいて共通の単語が共起しているものをエッジe∈Eで接続する。
クエリベースクラスタ抽出部40が入力部10からクエリ集合Q を受け取る。受け取ったクエリ集合Qを含むテキストdのノードvを起点として、クエリと関連するテキストクラスタを抽出する。特定のノードを起点としたグラフのクラスタリングには、ローカルクラスタリングの一種であるEvoCut(非特許文献2参照)など、公知のものを用いることができる。
結合元のノード変数v´に空集合(empty set)φを代入する。尚、本明細書においては空集合を「空集合φ」と表記する。
あるノードvのテキストにおいてすべてのクエリワード群Qが含まれるか否かを判定する。判定結果がNoの場合は、L300(S)で始まる繰り返し処理の終了判定を行うL300(e)に進む。
ステップS320の判定結果がYesの場合に結合元ノードv´が空集合φであるか否かを判定する。
あるノードvのテキストにおいてすべてのクエリワード群Qが含まれる(ステップS320のYes)かつ結合元ノードv´が空集合φでない(ステップS330のNo)場合、ノードv´とノードvを一つのノードに結合しv´に代入する。その後はステップS360に進む。
結合されたノードv´に接続されるエッジも統合し、グラフGを更新する。その後はL300(e)に進む。
グラフGのすべてのノードについてループL300内のステップS320〜S360の処理を行った後、結合したノードv´を起点としてクラスタリングする。
図3のフローチャートに沿ってクエリベースクラスタ抽出部40が抽出したクラスタを、クエリベースクラスタ記憶部50に記憶する。
特徴量抽出部60がクエリベースクラスタ記憶部50から受け取ったテキスト群の特徴量を計算する。各テキストdの特徴量は、テキストを形態素解析器によって単語単位に分割した後、各テキストに関して出現する単語情報に基づき、テキストの特徴を表すベクトルfdを構築する。具体的な算出方法としては、以下の式(1)によって求められるTF−IDFなどが考えられる。
サブクラスタ抽出部70が入力部10から受け取ったトレンド数k、特徴量抽出部60から受け取ったテキスト特徴量およびテキスト情報を用いてクラスタを抽出し、類似したテキストをまとめる。そして、抽出したクラスタを、例えば図5に示す通りクラスタIDと対応付けてサブクラスタ記憶部80に記憶する。クラスタリングの手法としては、以下の式(2)に示す目的関数Eを最小化するクラスタCを算出するk−means法などが考えられる。
サブクラスタ記憶部80から受け取ったクラスタ群について、トレンドトピック計算部120がトレンドトピックを計算する。トレンドトピックは単語の集合で構成され、各々の単語はトレンドの度合を数値として保持している。トレンド度合は、あるクラスタにおいて、特徴的な単語を持つテキストが多いほどその単語はトレンドであるとみなし、以下の式(3)により算出する。
トレンドトピック計算部120が計算したトレンドトピックの単語リストを出力部130に受け渡す。出力部130は例えば図7に示す通り各クラスタの単語リストにおける上位ワードを出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信などを含む概念である。出力部120は出力デバイスのドライバソフトまたは、出力デバイスのドライバソフトと出力デバイスなどで実現され得る。
特徴量抽出部60がテキストストリームのテキストの特徴量を計算する。テキストストリームは1テキストずつ処理する。特徴量の算出は、前述のステップS410と同様の手段を用いる。
クラスタ類似度計算部90がサブクラスタ記憶部80からクラスタ群を受け取り、特徴量抽出部60から前記テキストストリームのテキスト特徴量とテキスト情報を受け取る。そして、クラスタ群とテキスト特徴量との類似度を算出する。テキストdとクラスタiとの類似度s(i,d)の算出方法としては、以下の式(4)によって求められるコサイン類似度を利用する方法などが考えられる。
クラスタ類似度計算部90が、クエリと関連度が高く、かつサブクラスタと関連度の低いテキストを非関連テキスト記憶部100に記憶する。具体的には以下の条件式(6)、(7)を満たすテキストdを記憶する。
再クラスタリング判定部110が非関連テキスト記憶部100のテキスト数Mを基に、非関連テキスト記憶部100のテキスト群をクラスタリングするか否か判定する。具体的には、しきい値σを用いて、以下の条件式(8)が成り立つ場合に、クラスタリングを行う。
サブクラスタ抽出部70が再クラスタリング判定部110の結果を受け取り、条件式が成り立つ場合に、非関連テキスト記憶部100のテキスト群をクラスタリングする。クラスタリングの方法は前述のステップS420と同様の手段を用いる。クラスタリング後、前述のステップS430、ステップS440と同様の手段によりトレンドトピック計算部120がトレンドトピックを計算し、出力部130が結果を出力する。
20…テキストストリーム記憶部
30…テキスト関連グラフ計算部
40…クエリベースクラスタ抽出部
50…クエリベースクラスタ記憶部
60…特徴量抽出部
70…サブクラスタ抽出部
80…サブクラスタ記憶部
90…クラスタ類似度計算部
100…非関連テキスト記憶部
110…再クラスタリング判定部
120…トレンドトピック計算部
130…出力部
Claims (3)
- テキストストリームにおけるトレンドを分析するトレンド分析装置であって、
テキストストリームが格納されたテキストストリーム記憶手段と、
前記テキストストリーム記憶手段に格納された各テキストをノードとし、各テキスト中に共通の単語が共起しているものをエッジとしたテキスト関連グラフを構築するテキスト関連グラフ計算手段と、
ユーザが指定したクエリ集合を入力とし、前記テキスト関連グラフ計算手段により構築されたテキスト関連グラフから、前記入力されたクエリ集合を含むテキストのノードを起点としてクエリに関連するテキストクラスタを抽出してクエリベースクラスタ記憶手段に格納するクエリベースクラスタ抽出手段と、
前記クエリベースクラスタ記憶手段に格納されたテキスト群の各テキストの特徴量と、取り込んだテキストストリームの各テキストの特徴量とを計算する特徴量抽出手段と、
前記特徴量抽出手段によって計算された、クエリベースクラスタ記憶手段に格納されたテキスト群のテキスト特徴量とユーザが入力したトレンド数とを用いてクラスタリングしサブクラスタを抽出する処理と、前記特徴量抽出手段によって計算されたテキストストリームのテキスト特徴量と前記抽出されたサブクラスタとの類似度に基づいて求められた、クエリと関連度が高く且つ前記サブクラスタと関連度の低いテキストであって、再クラスタリングを行うと判定したテキスト群と、ユーザが入力したトレンド数とを用いてクラスタリングを行う処理とを実行し、前記各クラスタリングにより抽出されたサブクラスタをサブクラスタ記憶手段に格納するサブクラスタ抽出手段と、
前記特徴量抽出手段によって計算されたテキストストリームのテキスト特徴量およびテキスト情報と、前記サブクラスタ記憶手段に格納されたクラスタ群とを入力とし、テキストと各サブクラスタの類似度と、テキストと全てのサブクラスタの類似度とを計算し、クエリと関連度が高く且つサブクラスタと関連度の低いテキストを非関連テキスト記憶手段に格納するクラスタ類似度計算手段と、
前記非関連テキスト記憶手段内に格納されたテキスト数がしきい値より大のときに再クラスタリングを行うと判定する再クラスタリング判定手段と、
前記サブクラスタ記憶手段に格納されたクラスタ群について、単語の集合であり、各単語はトレンドの度合を数値として保持しているトレンドトピックを計算するトレンドトピック計算手段と、
を備えたことを特徴とするトレンド分析装置。 - テキストストリームにおけるトレンドを分析するトレンド分析方法であって、
テキスト関連グラフ計算手段が、テキストストリームを格納したテキストストリーム記憶手段内の各テキストをノードとし、各テキスト中に共通の単語が共起しているものをエッジとしたテキスト関連グラフを構築するテキスト関連グラフ計算ステップと、
クエリベースクラスタ抽出手段が、ユーザ指定のクエリ集合を入力とし、前記テキスト関連グラフ計算手段により構築されたテキスト関連グラフから、前記入力されたクエリ集合を含むテキストのノードを起点としてクエリに関連するテキストクラスタを抽出してクエリベースクラスタ記憶手段に格納するクエリベースクラスタ抽出ステップと、
特徴量抽出手段が、前記クエリベースクラスタ記憶手段に格納されたテキスト群の各テキストの特徴量を計算する第1の特徴量抽出ステップと、
サブクラスタ抽出手段が、前記第1の特徴量抽出ステップによって計算された、クエリベースクラスタ記憶手段に格納されたテキスト群のテキスト特徴量とユーザが入力したトレンド数とを用いてクラスタリングしてサブクラスタを抽出し、サブクラスタ記憶手段に格納する第1のサブクラスタ抽出ステップと、
特徴量抽出手段が、取り込んだテキストストリームの各テキストの特徴量を計算する第2の特徴量抽出ステップと、
クラスタ類似度計算手段が、前記第2の特徴量抽出ステップによって計算されたテキストストリームのテキスト特徴量およびテキスト情報と、前記サブクラスタ記憶手段に格納されたクラスタ群とを入力とし、テキストと各サブクラスタの類似度と、テキストと全てのサブクラスタの類似度とを計算し、クエリと関連度が高く且つサブクラスタと関連度の低いテキストを非関連テキスト記憶手段に格納するクラスタ類似度計算ステップと、
再クラスタリング判定手段が、前記非関連テキスト記憶手段内に格納されたテキスト数がしきい値より大のときに再クラスタリングを行うと判定する再クラスタリング判定ステップと、
サブクラスタ抽出手段が、前記再クラスタリング判定ステップにより再クラスタリングを行うと判定されたときに、前記非関連テキスト記憶手段に格納されたテキスト群と、ユーザが入力したトレンド数とを用いてクラスタリングを行い、サブクラスタを抽出して前記サブクラスタ記憶手段に格納する第2のサブクラスタ抽出ステップと、
トレンドトピック計算手段が、前記サブクラスタ記憶手段に格納されたクラスタ群について、単語の集合であり、各単語はトレンドの度合を数値として保持しているトレンドトピックを計算するトレンドトピック計算ステップと、
を備えたことを特徴とするトレンド分析方法。 - コンピュータを請求項1に記載の各手段として機能させるトレンド分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013236961A JP6042790B2 (ja) | 2013-11-15 | 2013-11-15 | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013236961A JP6042790B2 (ja) | 2013-11-15 | 2013-11-15 | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015097026A JP2015097026A (ja) | 2015-05-21 |
JP6042790B2 true JP6042790B2 (ja) | 2016-12-14 |
Family
ID=53374290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013236961A Active JP6042790B2 (ja) | 2013-11-15 | 2013-11-15 | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6042790B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914536A (zh) * | 2020-08-06 | 2020-11-10 | 北京嘀嘀无限科技发展有限公司 | 观点分析方法、装置、设备及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009178B (zh) * | 2016-10-28 | 2021-12-10 | 上海优扬新媒信息技术有限公司 | 信息聚合方法及装置 |
CN111522863B (zh) | 2020-04-15 | 2023-07-25 | 北京百度网讯科技有限公司 | 一种主题概念挖掘方法、装置、设备以及存储介质 |
JP7019774B1 (ja) * | 2020-10-23 | 2022-02-15 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 情報処理装置、情報出力方法および情報出力プログラム |
CN117493414B (zh) * | 2023-11-03 | 2024-05-31 | 山东三木众合信息科技股份有限公司 | 一种数据管理筛选方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4342575B2 (ja) * | 2007-06-25 | 2009-10-14 | 株式会社東芝 | キーワード提示のための装置、方法、及びプログラム |
-
2013
- 2013-11-15 JP JP2013236961A patent/JP6042790B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914536A (zh) * | 2020-08-06 | 2020-11-10 | 北京嘀嘀无限科技发展有限公司 | 观点分析方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2015097026A (ja) | 2015-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Filtering out the noise in short text topic modeling | |
Nguyen et al. | Real-time event detection for online behavioral analysis of big social data | |
Shi et al. | Event detection and user interest discovering in social media data streams | |
US9785888B2 (en) | Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information | |
US9990368B2 (en) | System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
TW201839628A (zh) | 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置 | |
US9286379B2 (en) | Document quality measurement | |
JP6042790B2 (ja) | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム | |
Wang et al. | Mining multi-aspect reflection of news events in twitter: Discovery, linking and presentation | |
Magnani et al. | Conversation retrieval for microblogging sites | |
Lubis et al. | A framework of utilizing big data of social media to find out the habits of users using keyword | |
Rudrapal et al. | A Survey on Automatic Twitter Event Summarization. | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
Murthy et al. | TwitSenti: a real-time Twitter sentiment analysis and visualization framework | |
CN103218368A (zh) | 一种挖掘热词的方法与装置 | |
Kuo et al. | Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
Tarasova | Classification of hate tweets and their reasons using svm | |
CN116882414A (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
Alp et al. | Influential user detection on Twitter: Analyzing effect of focus rate | |
Alorini et al. | Machine learning enabled sentiment index estimation using social media big data | |
Wu | Study on news recommendation of social media platform based on improved collaborative filtering | |
Nazari et al. | MoGaL: Novel Movie Graph Construction by Applying LDA on Subtitle | |
Kaewpitakkun et al. | Incorporating an implicit and explicit similarity network for user-level sentiment classification of microblogging | |
Yang et al. | Comparison and modelling of country-level micro-blog user behaviour and activity in cyber-physical-social systems using weibo and twitter data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6042790 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |