JP7393923B2 - 情報収集装置およびそのプログラム - Google Patents
情報収集装置およびそのプログラム Download PDFInfo
- Publication number
- JP7393923B2 JP7393923B2 JP2019208071A JP2019208071A JP7393923B2 JP 7393923 B2 JP7393923 B2 JP 7393923B2 JP 2019208071 A JP2019208071 A JP 2019208071A JP 2019208071 A JP2019208071 A JP 2019208071A JP 7393923 B2 JP7393923 B2 JP 7393923B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- posted
- idf
- post
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013459 approach Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
例えば、放送事業者は、ソーシャルメディア上の放送番組への投稿を収集することで、視聴者の放送番組に対する意見、要望等の生の声を集めることができる。
このように、ソーシャルメディアから所望の情報を収集するには、例えば、SNSの一つであるツイッター(TWITTER:登録商標)の場合、所望の情報に関連する文字列である番組名を表すハッシュタグが付与されたツイートを収集する。
これによって、放送事業者は、所望の放送番組に関連する投稿を収集することができる。
そこで、ソーシャルメディア上の情報を収集する場合、検索語(クエリ)として、元となる検索語と、その検索語と意味的な関連が深い語句を加えて検索語を拡張(クエリ拡張)する手法が提案されている(特許文献1参照)。
例えば、放送番組として放送中のドラマに関する投稿を、ドラマ名をクエリとして収集する場合、従来の手法では、途中から登場する人物に対する投稿について、その人物名をクエリとして設定していないため、そのドラマに関連する投稿を十分に収集することができない。
このような従来の手法では、時々刻々と話題が変化する情報については、適切なクエリによる検索を行うことができないという問題がある。
また、情報収集装置は、クエリ未設定投稿取得手段によって、クエリを設定せずに、ソーシャルメディア情報提供装置から投稿文をクエリ未設定投稿文として取得する。
そして、情報収集装置は、拡張クエリ投稿取得手段によって、ソーシャルメディア情報提供装置から、拡張クエリを含む直近の時間区間に投稿された投稿文を拡張クエリ投稿文として取得する。
これによって、情報収集装置は、予め設定したクエリを含まない投稿文であっても関連がある場合には精度よく収集することができる。
なお、情報収集装置は、コンピュータを、前記した各手段として機能させるための情報収集プログラムで動作させることができる。
本発明によれば、予め設定したクエリを動的に拡張して投稿文を収集することができる。これによって、本発明は、設定したクエリに限定されずにそのクエリに関連する投稿文をより多く収集することができる。
〔情報収集装置の構成〕
図1を参照して、本発明の実施形態に係る情報収集装置1の構成について説明する。
この情報収集装置1は、IP(Internet Protocol)ネットワーク等のネットワークNtに接続されたソーシャルメディア情報提供装置2から、ユーザが予め設定したクエリ(事前設定クエリ)に対応する投稿文を収集するとともに、動的にクエリを拡張して投稿文を収集する。
なお、ここでは、情報収集装置1およびソーシャルメディア情報提供装置2を、それぞれ1台図示しているが、ネットワークNt上には、それぞれ複数接続され得る。
例えば、情報収集装置1において、ある放送番組のドラマに対する投稿文を収集する場合、事前設定クエリとして、具体的なドラマ名“ドラマX”とする。
設定クエリ投稿取得手段10は、取得した投稿文を設定クエリ投稿文Stとして、投稿文記憶手段13に記憶する。
この時間区間は、例えば、設定クエリ投稿取得手段10が、最初に設定クエリ投稿文を要求した時間から規定数の投稿文を取得した時点までの区間、それ以降においては、前回の時間区間の最後に取得した投稿文の取得時間からさらに規定数の投稿文を取得した時点までの区間とする。
ランダムに投稿文を取得する場合、クエリ未設定投稿取得手段11は、ソーシャルメディア情報提供装置2が提供するランダムの定義に従って投稿文を取得するものであってもよいし、ソーシャルメディア情報提供装置2にランダムの割合(例えば、100投稿から1投稿を抽出して提供)を要求し、その割合に応じて投稿文を取得するものであってもよい。
これによって、クエリ未設定投稿取得手段11が取得する投稿文は、ソーシャルメディア上で、動的に変化する話題に応じて、投稿文の内容も変化することになる。
クエリ未設定投稿取得手段11は、取得した投稿文をクエリ未設定投稿文Rtとして、投稿文記憶手段13に記憶する。
この拡張クエリ投稿取得手段12は、設定クエリ投稿取得手段10が規定数の投稿文を取得した時間区間において、拡張クエリを含んだ投稿文を、ソーシャルメディア情報提供装置2に要求し、ソーシャルメディア情報提供装置2から取得する。
また、ここでは、拡張クエリ投稿取得手段12は、拡張クエリ投稿文Etを投稿文記憶手段13に記憶した旨を投稿文出力手段17に通知する。
投稿文記憶手段13は、半導体メモリ等の一般的な記憶装置で構成することができる。
図2(a)は、設定クエリ投稿取得手段10が取得する投稿文の投稿状況を経時的に示している。図2(b)は、クエリ未設定投稿取得手段11が取得する投稿文の投稿状況を経時的に示している。図2(c)は、拡張クエリ投稿取得手段12が取得する投稿文の投稿状況を経時的に示している。なお、図2中、下向き矢印は、投稿文が投稿されたタイミングを示している。
それと並行して、図2(b)に示すように、クエリ未設定投稿取得手段11は、クエリを設定せずにクエリ未設定投稿文Rtをランダムに取得する。
図2(c)に示すように、拡張クエリ投稿取得手段12は、設定クエリ投稿取得手段10が設定クエリ投稿文Stを規定数Nだけ取得した時間区間T(t1,t2等)において、拡張クエリ(例えば、“人物a”,“人物b”,…)を含む拡張クエリ投稿文Etを取得する。
図1に戻って、情報収集装置1の構成について説明を続ける。
このダイナミックIDF算出手段14は、単語の重要度としてIDF(Inverse Document Frequency:逆文書頻度)を用い、時間区間ごとに動的に変化する単語のIDFを算出する。
ダイナミックIDF算出手段14は、時間区間ごとに動的に変化する単語wのIDFとして、設定クエリ投稿文Stが規定数取得された時刻tにおいて、以下の式(1)に示すダイナミックIDF(IDFD(w))を算出する。
例えば、|DFt′|は、以下の式(2)により算出された値とする。
なお、過去の時間区間がまだ存在していない場合、|DFt′|=|DFt|である。
例えば、DFt′(w)は、以下の式(3)により算出された値とする。
なお、式(3)における|DFt|および|DFt-1′|は、式(2)と同じものである。また、過去の時間区間がまだ存在していない場合、DFt′(w)=DFt(w)である。
なお、式(2)および式(3)の係数は、一例であって、係数“2”は1以上、係数“0.9”は、1未満の任意の値を用いればよい。
A1は、DFt-1′(w)を算出するために使用した投稿数を雲形状の大きさで模式的に示している。このDFt-1′(w)は、式(3)において、(t-1)の時点で算出した値である。また、B1は、(t-1)からtまでの時間区間で投稿された投稿数を雲形状の大きさで模式的に示している。
B3は、B2の投稿数を2倍した大きさを模式的に示している。このように、B2を2倍にすることで、現時間区間における投稿を強調させる。
図1に戻って、情報収集装置1の構成について説明を続ける。
また、ダイナミックIDF算出手段14は、ダイナミックIDF(IDFD)をIDF記憶手段15に記憶した段階で、後記するクエリ拡張手段16にクエリの拡張を指示する。
このIDF記憶手段15は、ダイナミックIDFと、グローバルIDFとを記憶する。
ここで、コーパスは、大量の文章からなるデータベースであって、文章の集合から単語の重要度を算出可能なデータであれば特に限定されるものではない。例えば、データベースとして、ウィキペディア(Wikipedia)の記事を用いることができる。また、データベースは、情報収集装置1が収集する投稿に関連するものであってもよい。例えば、情報収集装置1が放送番組に関する投稿を収集するものであれば、データベースとして、過去に放送済みの放送番組の字幕データを用いることができる。
グローバルIDFは、以下の式(4)により予めデータベースから単語wごとのIDFG(w)を算出したものを用いる。
このように、IDF記憶手段15には、設定クエリ投稿文Stの投稿に応じて動的に変化するダイナミックIDF(IDFD)と、予め大量のコーパスから算出した静的なグローバルIDF(IDFG)とを記憶する。
ダイナミックIDF(IDFD)およびグローバルIDF(IDFG)は、クエリ拡張手段16によって参照される。
クエリ拡張手段16は、単語スコア算出手段160と、拡張クエリ選定手段161と、を備える。
この単語スコア算出手段160は、設定クエリ投稿文Stを規定数取得した時間区間ごとに、クエリ未設定投稿文Rtの数に応じて単語スコアを算出する。
このように、単語スコア算出手段160は、設定クエリ投稿文Stの集合TWに対する単語wの投稿文の集合TW(w)の割合によって単語スコアを算出することで、時間経過による投稿数の増減の影響を抑えて、ダイナミックIDF(IDFD)およびグローバルIDF(IDFG)の単語スコアを算出することができる。
単語スコア算出手段160は、式(7)で算出した単語スコアを拡張クエリ選定手段161に出力する。
また、単語スコア算出手段160は、式(7)で算出した単語スコアを投稿文出力手段17にも出力する。
ここでは、拡張クエリ選定手段161は、単語スコア算出手段160で算出された単語スコアが大きい順で予め定めた数以内、かつ、単語スコアが予め定めた閾値よりも大きい単語を拡張クエリとして選定する。
例えば、拡張クエリ選定手段161は、単語スコアが上位の10位以内、かつ、単語スコアが1.0よりも大きい単語を拡張クエリとして選定する。
拡張クエリ選定手段161は、選定した拡張クエリを、拡張クエリ投稿取得手段12に出力する。
なお、ここでは、拡張クエリ選定手段161は、拡張クエリに事前設定クエリが含まれる場合、事前設定クエリを除外することとする。これによって、事前設定クエリを含む投稿文を二重に取得することを防止することができる。
ここでは、投稿文出力手段17は、投稿スコア算出手段170と、投稿文選定手段171と、を備える。
すなわち、投稿スコア算出手段170は、以下の式(8)に示すように、拡張クエリ投稿文Etの1投稿文ごとに、当該投稿文に含まれるすべての単語wについて、式(7)で算出された単語スコア(WordScore(w))を加算し、投稿スコア(TweetScore)を算出する。
ここでは、投稿文選定手段171は、投稿スコア算出手段170で算出された投稿スコアが予め定めた基準値を上回る拡張クエリ投稿文Etを選定する。例えば、投稿文選定手段171は、投稿スコアが単語スコアの上位の10件の平均値を上回る投稿文を選定する。これによって、投稿文選定手段171は、より事前設定クエリに関連する精度を高めた投稿文を選定することができる。
投稿文選定手段171は、拡張クエリ投稿文Etから選定した投稿文と、設定クエリ投稿文Stとを、事前設定クエリに関連する投稿文として外部に出力する。
なお、情報収集装置1は、コンピュータを、前記した各手段として機能させるための情報収集プログラムで動作させることができる。
次に、図5を参照(構成については適宜図1参照)して、本発明の実施形態に係る情報収集装置1の動作について説明する。なお、IDF記憶手段15には、予め特定のデータベースから算出したグローバルIDF(IDFG)が記憶されているものとする。
ステップS2において、設定クエリ投稿取得手段10は、ソーシャルメディア情報提供装置2から、ステップS1で入力された事前設定クエリを含む投稿文(設定クエリ投稿文St)を、予め定めた数(規定数)になるまで取得する。
ステップS10において、投稿文選定手段171は、ステップS9で選定した拡張クエリ投稿文Etと、事前設定クエリで取得した設定クエリ投稿文Stとを、事前設定クエリに関連する投稿文として外部に出力する。
ここで、まだ、投稿文の収集が終了していない場合(ステップS11でNo)、情報収集装置1は、ステップS2に戻って動作を継続する。
一方、投稿文の収集が終了した場合(ステップS11でYes)、情報収集装置1は、動作を終了する。
これによって、情報収集装置1は、例えば、事前設定クエリとして、“ドラマX”を設定した場合、時間経過に伴い投稿文の内容から、例えば、ある時点においては、ドラマ内の登場人物にクエリを拡張したり、また、別の時点においては、ドラマ内の事象にクエリを拡張したりすることができる。
このように、情報収集装置1は、事前設定クエリを設定するだけで、動的にクエリを拡張して投稿文を収集することができる。
この情報収集装置1を用いて、特定のドラマについて、投稿文を収集した結果について説明する。
例えば、ここでは、投稿文出力手段17が、拡張クエリ投稿取得手段12が取得した拡張クエリ投稿文Etから、さらに、投稿スコアを算出して投稿文を選定することした。
しかし、単に、クエリを拡張するだけであれば、投稿文出力手段17は、投稿スコアによる選定を行わず、拡張クエリ投稿文Etをそのまま出力することとしてもよい。
しかし、拡張クエリ投稿取得手段12が、拡張クエリに事前設定クエリを加えて拡張クエリ投稿文Etを取得し、投稿文出力手段17が、拡張クエリ投稿文Etを、事前設定クエリに関連する投稿文として外部に出力することとしてもよい。
10 設定クエリ投稿取得手段
11 クエリ未設定投稿取得手段
12 拡張クエリ投稿取得手段
13 投稿文記憶手段
14 ダイナミックIDF算出手段
15 IDF記憶手段
16 クエリ拡張手段
160 単語スコア算出手段
161 拡張クエリ選定手段
17 投稿文出力手段
170 投稿スコア算出手段
171 投稿文選定手段
Claims (5)
- ソーシャルメディア情報提供装置に投稿される情報である投稿文を、クエリを拡張して収集する情報収集装置であって、
予め設定されたクエリを含む投稿文を設定クエリ投稿文として取得する設定クエリ投稿取得手段と、
前記クエリを設定せずに投稿文をクエリ未設定投稿文として取得するクエリ未設定投稿取得手段と、
前記設定クエリ投稿文が予め定めた規定数に達する時間区間ごとに、直近の時間区間に近いほど前記クエリ未設定投稿文の重みを大きくした単語の逆文書頻度であるIDFを、ダイナミックIDFとして算出するダイナミックIDF算出手段と、
前記時間区間ごとに、前記ダイナミックIDFと、予め特定のコーパスから算出したIDFであるグローバルIDFとから、単語ごとの重要度である単語スコアを算出する単語スコア算出手段と、
前記単語スコア算出手段で算出された単語スコアが予め定めた基準よりも大きい単語を拡張クエリとして選定する拡張クエリ選定手段と、
前記拡張クエリ選定手段で選定された拡張クエリを含む前記直近の時間区間に投稿された投稿文を拡張クエリ投稿文として取得する拡張クエリ投稿取得手段と、
を備えることを特徴とする情報収集装置。 - 前記単語スコア算出手段は、前記ダイナミックIDFと前記グローバルIDFとを正規化して調和平均をとることで前記単語スコアを算出することを特徴とする請求項1に記載の情報収集装置。
- 前記拡張クエリ投稿文ごとに、すべての単語について前記単語スコア算出手段で算出された単語スコアを加算した投稿スコアを算出する投稿スコア算出手段と、
前記投稿スコア算出手段で算出された投稿スコアが予め定めた基準よりも大きい拡張クエリ投稿文を選定する投稿文選定手段と、
をさらに備えることを特徴とする請求項1または請求項2に記載の情報収集装置。 - 前記クエリ未設定投稿取得手段は、前記ソーシャルメディア情報提供装置に投稿された投稿文からランダムに投稿文を取得することを特徴とする請求項1から請求項3のいずれか一項に記載の情報収集装置。
- コンピュータを、請求項1から請求項4のいずれか一項に記載の情報収集装置として機能させるための情報収集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019208071A JP7393923B2 (ja) | 2019-11-18 | 2019-11-18 | 情報収集装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019208071A JP7393923B2 (ja) | 2019-11-18 | 2019-11-18 | 情報収集装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021081925A JP2021081925A (ja) | 2021-05-27 |
JP7393923B2 true JP7393923B2 (ja) | 2023-12-07 |
Family
ID=75965241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019208071A Active JP7393923B2 (ja) | 2019-11-18 | 2019-11-18 | 情報収集装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7393923B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012160206A (ja) | 2012-04-27 | 2012-08-23 | Dainippon Printing Co Ltd | ブログ収集サーバ |
JP2014044484A (ja) | 2012-08-24 | 2014-03-13 | Fuji Xerox Co Ltd | 情報検索プログラム及び情報検索装置 |
JP2014085694A (ja) | 2012-10-19 | 2014-05-12 | Kddi Corp | 検索装置、検索プログラムおよび検索方法 |
JP2015090664A (ja) | 2013-11-07 | 2015-05-11 | 株式会社Nttドコモ | 情報処理装置及び表示優先度決定方法 |
JP2015130136A (ja) | 2014-01-05 | 2015-07-16 | 株式会社ゼロストラクト | 情報処理システム、情報処理装置、その制御方法、及び制御プログラム |
-
2019
- 2019-11-18 JP JP2019208071A patent/JP7393923B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012160206A (ja) | 2012-04-27 | 2012-08-23 | Dainippon Printing Co Ltd | ブログ収集サーバ |
JP2014044484A (ja) | 2012-08-24 | 2014-03-13 | Fuji Xerox Co Ltd | 情報検索プログラム及び情報検索装置 |
JP2014085694A (ja) | 2012-10-19 | 2014-05-12 | Kddi Corp | 検索装置、検索プログラムおよび検索方法 |
JP2015090664A (ja) | 2013-11-07 | 2015-05-11 | 株式会社Nttドコモ | 情報処理装置及び表示優先度決定方法 |
JP2015130136A (ja) | 2014-01-05 | 2015-07-16 | 株式会社ゼロストラクト | 情報処理システム、情報処理装置、その制御方法、及び制御プログラム |
Non-Patent Citations (2)
Title |
---|
山本 尚央,特定ジャンルのブログに対する共起とユーザ別特徴語抽出を用いた話題抽出,FIT2010 第9回情報科学技術フォーラム 講演論文集 第2分冊 査読付き論文・一般論文 データベース 自然言語・音声・音楽 人工知能・ゲーム 生体情報科学,社団法人電子情報通信学会 一般社団法人情報処理学会,2010年08月20日,pp.503~506 |
藤木 紫乃,経時的な関連語句の変化を考慮したクエリ拡張によるTwitterからの情報抽出手法,第5回データ工学と情報マネジメントに関するフォーラム (第11回日本データベース学会年次大会) [online] ,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2013年05月31日,Internet<URL:http://db-event.jpn.org/deim2013/proceedings/pdf/c9-5.pdf> |
Also Published As
Publication number | Publication date |
---|---|
JP2021081925A (ja) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678668A (zh) | 相关搜索结果的提示方法、服务器及系统 | |
JP2018032213A (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
WO2017161749A1 (zh) | 一种信息匹配方法及装置 | |
WO2015188719A1 (zh) | 结构化数据与图片的关联方法与关联装置 | |
US8838580B2 (en) | Method and system for providing keyword ranking using common affix | |
CN106095912B (zh) | 用于生成扩展查询词的方法和装置 | |
JP6728178B2 (ja) | 検索データを処理するための方法及び装置 | |
JP6719365B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US9165038B1 (en) | Interpreting adjacent search terms based on a hierarchical relationship | |
JP7393923B2 (ja) | 情報収集装置およびそのプログラム | |
US9940408B2 (en) | Trigger query obtaining apparatus, trigger query obtaining method, and non-transitory computer readable recording medium | |
JP4496900B2 (ja) | イベント情報抽出装置及びプログラム | |
JP2013054606A (ja) | 文書検索装置及び方法及びプログラム | |
JP2014142738A (ja) | 管理方法、管理装置および管理プログラム | |
JP2017091436A (ja) | 特徴語選択装置 | |
JP5063728B2 (ja) | 複数サーバ検索装置及び方法 | |
JP6079207B2 (ja) | キーワード提示プログラム、キーワード提示方法及びキーワード提示装置 | |
JP6718288B2 (ja) | 関連語抽出支援装置 | |
Samah et al. | TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity | |
JP2015141323A (ja) | 情報収集方法、対話システム及び情報収集装置 | |
JP5856905B2 (ja) | 主題抽出装置およびそのプログラム | |
JP5810046B2 (ja) | 文書検索キーワード提示装置及び方法及びプログラム | |
JP5410359B2 (ja) | クエリ選択装置及びプログラム | |
US10031953B1 (en) | Generating query answers | |
Giachanou et al. | USI Participation at SMERP 2017 Text Retrieval Task. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7393923 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |