JP7393923B2 - 情報収集装置およびそのプログラム - Google Patents

情報収集装置およびそのプログラム Download PDF

Info

Publication number
JP7393923B2
JP7393923B2 JP2019208071A JP2019208071A JP7393923B2 JP 7393923 B2 JP7393923 B2 JP 7393923B2 JP 2019208071 A JP2019208071 A JP 2019208071A JP 2019208071 A JP2019208071 A JP 2019208071A JP 7393923 B2 JP7393923 B2 JP 7393923B2
Authority
JP
Japan
Prior art keywords
query
posted
idf
post
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019208071A
Other languages
English (en)
Other versions
JP2021081925A (ja
Inventor
太郎 宮▲崎▼
健 小早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2019208071A priority Critical patent/JP7393923B2/ja
Publication of JP2021081925A publication Critical patent/JP2021081925A/ja
Application granted granted Critical
Publication of JP7393923B2 publication Critical patent/JP7393923B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、ソーシャルメディアから情報を収集する情報収集装置およびそのプログラムに関する。
近年、ソーシャル・ネットワーキング・サービス(SNS:Social Networking Service)、ブログ(blog)等のソーシャルメディアから、所望の情報を収集して活用することが一般的に行われている。
例えば、放送事業者は、ソーシャルメディア上の放送番組への投稿を収集することで、視聴者の放送番組に対する意見、要望等の生の声を集めることができる。
このように、ソーシャルメディアから所望の情報を収集するには、例えば、SNSの一つであるツイッター(TWITTER:登録商標)の場合、所望の情報に関連する文字列である番組名を表すハッシュタグが付与されたツイートを収集する。
これによって、放送事業者は、所望の放送番組に関連する投稿を収集することができる。
しかし、所望の放送番組に関連する投稿には、ハッシュタグを用いて検索するだけでは収集しきれない関連投稿が数多く存在する。
そこで、ソーシャルメディア上の情報を収集する場合、検索語(クエリ)として、元となる検索語と、その検索語と意味的な関連が深い語句を加えて検索語を拡張(クエリ拡張)する手法が提案されている(特許文献1参照)。
なお、情報検索において、データベースを検索するためのクエリを拡張する手法としては、ユーザがクエリを検討することなく、質問文の特徴量から質問文に対するクエリを生成する手法(特許文献2参照)や、地域に合わせて、ユーザが入力したクエリに関連したクエリを追加する手法(特許文献3参照)が提案されている。
特開2016-126567号公報 特開2017-208047号公報 特開2013-45182号公報
前記した従来の手法は、ある時点におけるソーシャルメディア(あるいは静的なデータベース)から所望の情報を収集するものである。
例えば、放送番組として放送中のドラマに関する投稿を、ドラマ名をクエリとして収集する場合、従来の手法では、途中から登場する人物に対する投稿について、その人物名をクエリとして設定していないため、そのドラマに関連する投稿を十分に収集することができない。
このような従来の手法では、時々刻々と話題が変化する情報については、適切なクエリによる検索を行うことができないという問題がある。
本発明は、このような問題に鑑みてなされたものであり、ソーシャルメディアから情報を収集する際に、動的にクエリを拡張して情報を収集することが可能な情報収集装置およびそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る情報収集装置は、ソーシャルメディア情報提供装置に投稿される情報である投稿文を、クエリを拡張して収集する情報収集装置であって、設定クエリ投稿取得手段と、クエリ未設定投稿取得手段と、ダイナミックIDF算出手段と、単語スコア算出手段と、拡張クエリ選定手段と、拡張クエリ投稿取得手段と、を備える構成とした。
かかる構成において、情報収集装置は、設定クエリ投稿取得手段によって、ソーシャルメディア情報提供装置から、予め設定されたクエリを含む投稿文を設定クエリ投稿文として取得する。これによって、情報収集装置は、予め設定されたクエリを直接含む投稿文を取得することができる。
また、情報収集装置は、クエリ未設定投稿取得手段によって、クエリを設定せずに、ソーシャルメディア情報提供装置から投稿文をクエリ未設定投稿文として取得する。
そして、情報収集装置は、ダイナミックIDF算出手段によって、設定クエリ投稿文が予め定めた規定数に達する時間区間ごとに、直近の時間区間に近いほどクエリ未設定投稿文の重みを大きくした単語の逆文書頻度であるIDFをダイナミックIDFとして算出する。このダイナミックIDFは、時間区間ごとに、投稿の内容や投稿数が変化するため、動的に変化する。
そして、情報収集装置は、単語スコア算出手段によって、設定クエリ投稿文が規定数に達する時間区間ごとに、ダイナミックIDFとグローバルIDFとから、単語ごとの重要度である単語スコアを算出する。このグローバルIDFは、予め特定のコーパスから算出した時間変動のない静的なIDFである。
さらに、情報収集装置は、拡張クエリ選定手段によって、単語スコア算出手段で算出された単語スコアが予め定めた基準よりも大きい単語を拡張クエリとして選定する。これによって、情報収集装置は、予め設定されたクエリに関連して動的に出現頻度が高くなった単語を、拡張クエリとする。
そして、情報収集装置は、拡張クエリ投稿取得手段によって、ソーシャルメディア情報提供装置から、拡張クエリを含む直近の時間区間に投稿された投稿文を拡張クエリ投稿文として取得する。
さらに、情報収集装置は、投稿スコア算出手段によって、拡張クエリ投稿文ごとに、すべての単語について単語スコアを加算した投稿スコアを算出し、投稿文選定手段によって、投稿スコアが予め定めた基準よりも大きい拡張クエリ投稿文を選定することとしてもよい。
これによって、情報収集装置は、予め設定したクエリを含まない投稿文であっても関連がある場合には精度よく収集することができる。
なお、情報収集装置は、コンピュータを、前記した各手段として機能させるための情報収集プログラムで動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、予め設定したクエリを動的に拡張して投稿文を収集することができる。これによって、本発明は、設定したクエリに限定されずにそのクエリに関連する投稿文をより多く収集することができる。
本発明の実施形態に係る情報収集装置の構成を示すブロック図である。 投稿文の種類と時間区間との関係を説明するための説明図であって、(a)は設定クエリ投稿文と時間区間との関係を示す図、(b)はクエリ未設定投稿文と時間区間との関係を示す図、(c)は拡張クエリ投稿文と時間区間との関係を示す図である。 ダイナミックIDF算出手段でダイナミックIDFを算出する際の過去の時間区間の投稿数に対して、現時間区間の投稿数の重みを大きくする概念を説明するための説明図である。 単語スコア算出手段で単語スコアを算出する際のクエリ未設定投稿文の集合と、クエリ未設定投稿文における特定の単語を含む投稿文の集合との関係を説明するための説明図である。 本発明の実施形態に係る情報収集装置の動作を示すフローチャートである。
以下、本発明の実施形態について図面を参照して説明する。
〔情報収集装置の構成〕
図1を参照して、本発明の実施形態に係る情報収集装置1の構成について説明する。
情報収集装置1は、ソーシャルメディアに投稿された情報である投稿文から、検索語(以下、クエリという)に関連する投稿文を収集するものである。
この情報収集装置1は、IP(Internet Protocol)ネットワーク等のネットワークNtに接続されたソーシャルメディア情報提供装置2から、ユーザが予め設定したクエリ(事前設定クエリ)に対応する投稿文を収集するとともに、動的にクエリを拡張して投稿文を収集する。
ソーシャルメディア情報提供装置2は、ソーシャルメディアの情報を提供する装置である。例えば、ソーシャルメディア情報提供装置2が提供する情報は、SNS(例えば、ツイッター〔登録商標〕)、ブログ等の投稿文である。
なお、ここでは、情報収集装置1およびソーシャルメディア情報提供装置2を、それぞれ1台図示しているが、ネットワークNt上には、それぞれ複数接続され得る。
図1に示すように、情報収集装置1は、設定クエリ投稿取得手段10と、クエリ未設定投稿取得手段11と、拡張クエリ投稿取得手段12と、投稿文記憶手段13と、ダイナミックIDF算出手段14と、IDF記憶手段15と、クエリ拡張手段16と、投稿文出力手段17と、を備える。
設定クエリ投稿取得手段10は、ソーシャルメディア情報提供装置2から、予め設定されたクエリ(事前設定クエリ)を含む投稿文を取得するものである。なお、事前設定クエリは、図示を省略したキーボード等の入力装置を介して入力される。
例えば、情報収集装置1において、ある放送番組のドラマに対する投稿文を収集する場合、事前設定クエリとして、具体的なドラマ名“ドラマX”とする。
この設定クエリ投稿取得手段10は、事前設定クエリによる投稿文の取得をソーシャルメディア情報提供装置2に要求し、事前設定クエリを含んだ投稿文が投稿されるたびに、ソーシャルメディア情報提供装置2から投稿文を取得する。
設定クエリ投稿取得手段10は、取得した投稿文を設定クエリ投稿文Stとして、投稿文記憶手段13に記憶する。
また、設定クエリ投稿取得手段10は、取得した投稿文の数が予め定めた数(以下、規定数という)に達した段階で、後記するダイナミックIDF算出手段14にダイナミックIDFの算出を指示する。この規定数は、例えば、30件以上の任意の値とすることができる。
また、設定クエリ投稿取得手段10は、規定数の投稿文を取得した時間区間を後記する拡張クエリ投稿取得手段12に通知する。
この時間区間は、例えば、設定クエリ投稿取得手段10が、最初に設定クエリ投稿文を要求した時間から規定数の投稿文を取得した時点までの区間、それ以降においては、前回の時間区間の最後に取得した投稿文の取得時間からさらに規定数の投稿文を取得した時点までの区間とする。
クエリ未設定投稿取得手段11は、ソーシャルメディア情報提供装置2から、クエリを設定せずに投稿文を取得するものである。クエリ未設定投稿取得手段11は、投稿文を全文取得してもよいし、大量の投稿文の取得を防止するため、ランダムに投稿文を取得してもよい。
ランダムに投稿文を取得する場合、クエリ未設定投稿取得手段11は、ソーシャルメディア情報提供装置2が提供するランダムの定義に従って投稿文を取得するものであってもよいし、ソーシャルメディア情報提供装置2にランダムの割合(例えば、100投稿から1投稿を抽出して提供)を要求し、その割合に応じて投稿文を取得するものであってもよい。
クエリ未設定投稿取得手段11は、クエリを設定しないため、事前設定クエリとは関係なく、現時点で投稿される投稿文を取得することができる。もちろん、クエリ未設定投稿取得手段11が取得する投稿文には、事前設定クエリを含んだ投稿文も含まれている。
これによって、クエリ未設定投稿取得手段11が取得する投稿文は、ソーシャルメディア上で、動的に変化する話題に応じて、投稿文の内容も変化することになる。
クエリ未設定投稿取得手段11は、取得した投稿文をクエリ未設定投稿文Rtとして、投稿文記憶手段13に記憶する。
拡張クエリ投稿取得手段12は、ソーシャルメディア情報提供装置2から、事前設定クエリに対して拡張したクエリ(拡張クエリ)を含む投稿文を取得するものである。なお、拡張クエリは、後記するクエリ拡張手段16から通知される。
この拡張クエリ投稿取得手段12は、設定クエリ投稿取得手段10が規定数の投稿文を取得した時間区間において、拡張クエリを含んだ投稿文を、ソーシャルメディア情報提供装置2に要求し、ソーシャルメディア情報提供装置2から取得する。
拡張クエリ投稿取得手段12は、取得した投稿文を拡張クエリ投稿文Etとして、投稿文記憶手段13に記憶する。
また、ここでは、拡張クエリ投稿取得手段12は、拡張クエリ投稿文Etを投稿文記憶手段13に記憶した旨を投稿文出力手段17に通知する。
投稿文記憶手段13は、設定クエリ投稿取得手段10、クエリ未設定投稿取得手段11および拡張クエリ投稿取得手段12が取得した投稿文(設定クエリ投稿文St、クエリ未設定投稿文Rt、拡張クエリ投稿文Et)を記憶するものである。
投稿文記憶手段13は、半導体メモリ等の一般的な記憶装置で構成することができる。
ここで、図2を参照(適宜図1参照)して、設定クエリ投稿取得手段10、クエリ未設定投稿取得手段11および拡張クエリ投稿取得手段12が取得する投稿文の関係について説明する。なお、時刻t-2,t-1,tは、設定クエリ投稿取得手段10が取得した投稿文(設定クエリ投稿文St)の数が順次規定数に達した時刻を示す。
図2(a)は、設定クエリ投稿取得手段10が取得する投稿文の投稿状況を経時的に示している。図2(b)は、クエリ未設定投稿取得手段11が取得する投稿文の投稿状況を経時的に示している。図2(c)は、拡張クエリ投稿取得手段12が取得する投稿文の投稿状況を経時的に示している。なお、図2中、下向き矢印は、投稿文が投稿されたタイミングを示している。
図2(a)に示すように、設定クエリ投稿取得手段10は、事前設定クエリ(例えば、“ドラマX”)を含む設定クエリ投稿文Stを取得する。
それと並行して、図2(b)に示すように、クエリ未設定投稿取得手段11は、クエリを設定せずにクエリ未設定投稿文Rtをランダムに取得する。
図2(c)に示すように、拡張クエリ投稿取得手段12は、設定クエリ投稿取得手段10が設定クエリ投稿文Stを規定数Nだけ取得した時間区間T(t1,t2等)において、拡張クエリ(例えば、“人物a”,“人物b”,…)を含む拡張クエリ投稿文Etを取得する。
なお、拡張クエリ投稿取得手段12は、同じ時間区間T(例えば、T=t1)において取得される設定クエリ投稿文Stとクエリ未設定投稿文Rtとから拡張クエリが生成されたタイミングで、その時間区間T=t1において投稿された拡張クエリを含む拡張クエリ投稿文Etを取得する。
図1に戻って、情報収集装置1の構成について説明を続ける。
ダイナミックIDF算出手段14は、設定クエリ投稿文Stが規定数だけ取得された時間区間ごとに、直近の時間区間に近いほどクエリ未設定投稿文Rtの重みを大きくしたダイナミックIDF(IDF)を算出するものである。
このダイナミックIDF算出手段14は、単語の重要度としてIDF(Inverse Document Frequency:逆文書頻度)を用い、時間区間ごとに動的に変化する単語のIDFを算出する。
ダイナミックIDF算出手段14は、時間区間ごとに動的に変化する単語wのIDFとして、設定クエリ投稿文Stが規定数取得された時刻tにおいて、以下の式(1)に示すダイナミックIDF(IDF(w))を算出する。
Figure 0007393923000001
式(1)の|DF′|は、算出対象となる時間区間におけるクエリ未設定投稿文Rtの数と、過去の時間区間におけるクエリ未設定投稿文Rtの数とを、算出対象となる時間区間の重みを大きくして加算した値である。
例えば、|DF′|は、以下の式(2)により算出された値とする。
Figure 0007393923000002
式(2)の|DF|は、算出対象となる時間区間(図2のt-1~tの時間区間T=t1)におけるクエリ未設定投稿文Rtの数である。また、|DFt-1′|は、1時点前(時刻t-1)において式(2)で算出された値である。
なお、過去の時間区間がまだ存在していない場合、|DF′|=|DF|である。
また、式(1)のDF′(w)は、算出対象となる時間区間における単語wを含むクエリ未設定投稿文Rtの数と、過去の時間区間における単語wを含むクエリ未設定投稿文Rtの数とを、算出対象となる時間区間の重みを大きくして加算した値である。
例えば、DF′(w)は、以下の式(3)により算出された値とする。
Figure 0007393923000003
式(3)のDF(w)は、算出対象となる時間区間(図2のt-1~tの時間区間T=t1)における単語wを含むクエリ未設定投稿文Rtの数である。また、DF′(w)は、1時点前(時刻t-1)において式(3)で算出された値である。
なお、式(3)における|DF|および|DFt-1′|は、式(2)と同じものである。また、過去の時間区間がまだ存在していない場合、DF′(w)=DF(w)である。
これによって、ダイナミックIDF算出手段14は、現時点で投稿されているクエリ未設定投稿文Rtの数の重みを大きくして、動的にクエリ未設定投稿文Rtに含まれる単語の重要度を算出することができる。
なお、式(2)および式(3)の係数は、一例であって、係数“2”は1以上、係数“0.9”は、1未満の任意の値を用いればよい。
ここで、図3を参照し、式(3)を例として、過去の時間区間の投稿数に対して、現時間区間の投稿数の重みを大きくする概念について説明する。ここで、投稿数は、単語wを含むクエリ未設定投稿文Rtの数である。なお、式(2)の場合であれば、投稿数は、クエリ未設定投稿文Rtの数である。
A1は、DFt-1′(w)を算出するために使用した投稿数を雲形状の大きさで模式的に示している。このDFt-1′(w)は、式(3)において、(t-1)の時点で算出した値である。また、B1は、(t-1)からtまでの時間区間で投稿された投稿数を雲形状の大きさで模式的に示している。
B2は、式(3)のDF(w)に乗算する|DF|/(0.9×|DFt-1′|)によって、B1の大きさがA1のサイズになるようにスケールを合わせた状態を示している。これによって、式(3)のDF(w)とDFt-1′(w)とで、サイズが違いすぎる状態を解消させる。
A2は、A1の投稿数を0.9倍した大きさを模式的に示している。このA2は、式(3)のDFt-1′(w)に係数“0.9”を乗算したものである。これによって、過去に投稿された投稿を順次忘却させていく。
B3は、B2の投稿数を2倍した大きさを模式的に示している。このように、B2を2倍にすることで、現時間区間における投稿を強調させる。
図1に戻って、情報収集装置1の構成について説明を続ける。
ダイナミックIDF算出手段14は、式(1)で算出したダイナミックIDF(IDF)をIDF記憶手段15に記憶する。
また、ダイナミックIDF算出手段14は、ダイナミックIDF(IDF)をIDF記憶手段15に記憶した段階で、後記するクエリ拡張手段16にクエリの拡張を指示する。
IDF記憶手段15は、単語ごとの重要度であるIDFを記憶するものである。IDF記憶手段15は、半導体メモリ等の一般的な記憶装置で構成することができる。
このIDF記憶手段15は、ダイナミックIDFと、グローバルIDFとを記憶する。
ダイナミックIDF(IDF)は、ダイナミックIDF算出手段14で算出された動的に変化するクエリ未設定投稿文Rtに含まれる時刻tにおいて算出された単語wごとの重要度(IDF(w))である。
グローバルIDF(IDF)は、特定のコーパスから予め算出した単語ごとの静的な重要度である。
ここで、コーパスは、大量の文章からなるデータベースであって、文章の集合から単語の重要度を算出可能なデータであれば特に限定されるものではない。例えば、データベースとして、ウィキペディア(Wikipedia)の記事を用いることができる。また、データベースは、情報収集装置1が収集する投稿に関連するものであってもよい。例えば、情報収集装置1が放送番組に関する投稿を収集するものであれば、データベースとして、過去に放送済みの放送番組の字幕データを用いることができる。
グローバルIDFは、以下の式(4)により予めデータベースから単語wごとのIDF(w)を算出したものを用いる。
Figure 0007393923000004
式(4)の|D|は、データベース中の文書数である。また、式(4)のDF(w)は、データベースの文書中に単語wが出現する文書数である。
このように、IDF記憶手段15には、設定クエリ投稿文Stの投稿に応じて動的に変化するダイナミックIDF(IDF)と、予め大量のコーパスから算出した静的なグローバルIDF(IDF)とを記憶する。
ダイナミックIDF(IDF)およびグローバルIDF(IDF)は、クエリ拡張手段16によって参照される。
クエリ拡張手段16は、設定クエリ投稿文Stを規定数取得するごとに、IDF記憶手段15に記憶されているダイナミックIDF(IDF)およびグローバルIDF(IDF)を参照して、クエリを拡張するものである。
クエリ拡張手段16は、単語スコア算出手段160と、拡張クエリ選定手段161と、を備える。
単語スコア算出手段160は、ダイナミックIDF(IDF)およびグローバルIDF(IDF)から、投稿数に応じて正規化した単語の重要度(単語スコア)を算出するものである。
この単語スコア算出手段160は、設定クエリ投稿文Stを規定数取得した時間区間ごとに、クエリ未設定投稿文Rtの数に応じて単語スコアを算出する。
具体的には、単語スコア算出手段160は、以下の式(5)により、単語wのダイナミックIDF(IDF(w))を正規化した単語スコア(WordScore(w))を算出する。また、単語スコア算出手段160は、以下の式(6)により、単語wのグローバルIDF(IDF(w))を正規化した単語スコア(WordScore(w))を算出する。
Figure 0007393923000005
Figure 0007393923000006
この式(5)および式(6)中、|T|は、設定クエリ投稿文Stを規定数取得した時間区間におけるクエリ未設定投稿文Rtの数、|T(w)|は、|T|と同じ時間区間のクエリ未設定投稿文Rtにおける単語wを含む投稿文の数である。
図4に示すように、Tは、設定クエリ投稿文Stを規定数取得した時間区間におけるクエリ未設定投稿文Rtの集合であり、T(w)は、同時間区間のクエリ未設定投稿文Rtにおける単語wを含む投稿文の集合で、Tの部分集合である。
このように、単語スコア算出手段160は、設定クエリ投稿文Stの集合Tに対する単語wの投稿文の集合T(w)の割合によって単語スコアを算出することで、時間経過による投稿数の増減の影響を抑えて、ダイナミックIDF(IDF)およびグローバルIDF(IDF)の単語スコアを算出することができる。
そして、単語スコア算出手段160は、式(5)および式(6)で算出したダイナミックIDF(IDF)およびグローバルIDF(IDF)ごとの単語スコアを、以下の式(7)により調和平均し、単語wごとの単語スコア(WordScore(w))を算出する。
Figure 0007393923000007
ここで、調和平均をとることで、単語スコア算出手段160は、WordScore(w)およびWordScore(w)の両方の値が大きい単語について、より大きい単語スコアを求めることができる。
例えば、地震発生時には、事前設定クエリを“ドラマX”とした場合、「ドラマXを見ていたら地震がきた」というように、ドラマXの内容とは関係のない設定クエリ投稿文Stが増えることになる。しかし、「地震」という単語を含んだクエリ未設定投稿文Rtも増えるため、ダイナミックIDF(IDF)から算出される単語スコアWordScore(地震)が低くなることになる。これによって、式(7)で算出される単語スコアWordScore(地震)の値を下げることができる。
一方で、ドラマX上で地震が発生した場合、クエリ未設定投稿文Rtにおいて、「地震」を含んだ投稿文は少ないため、単語スコアWordScore(地震)の値が高くなる。これよって、式(7)で算出される単語スコアWordScore(地震)の値を上げることができる。
単語スコア算出手段160は、式(7)で算出した単語スコアを拡張クエリ選定手段161に出力する。
また、単語スコア算出手段160は、式(7)で算出した単語スコアを投稿文出力手段17にも出力する。
拡張クエリ選定手段161は、単語スコア算出手段160で算出された単語スコアに基づいて、拡張クエリを選定するものである。
ここでは、拡張クエリ選定手段161は、単語スコア算出手段160で算出された単語スコアが大きい順で予め定めた数以内、かつ、単語スコアが予め定めた閾値よりも大きい単語を拡張クエリとして選定する。
例えば、拡張クエリ選定手段161は、単語スコアが上位の10位以内、かつ、単語スコアが1.0よりも大きい単語を拡張クエリとして選定する。
拡張クエリ選定手段161は、選定した拡張クエリを、拡張クエリ投稿取得手段12に出力する。
なお、ここでは、拡張クエリ選定手段161は、拡張クエリに事前設定クエリが含まれる場合、事前設定クエリを除外することとする。これによって、事前設定クエリを含む投稿文を二重に取得することを防止することができる。
投稿文出力手段17は、事前設定クエリで取得した設定クエリ投稿文Stと、拡張クエリで取得した拡張クエリ投稿文Etとを、事前設定クエリに関連する投稿文として外部に出力するものである。
ここでは、投稿文出力手段17は、投稿スコア算出手段170と、投稿文選定手段171と、を備える。
投稿スコア算出手段170は、拡張クエリ投稿文Etの1投稿文ごとに、出現するすべての単語について、単語スコア算出手段160で算出された単語スコアを加算し、投稿文の重要度である投稿スコアを算出するものである。
すなわち、投稿スコア算出手段170は、以下の式(8)に示すように、拡張クエリ投稿文Etの1投稿文ごとに、当該投稿文に含まれるすべての単語wについて、式(7)で算出された単語スコア(WordScore(w))を加算し、投稿スコア(TweetScore)を算出する。
Figure 0007393923000008
投稿スコア算出手段170は、拡張クエリ投稿文Etと対応する投稿スコア(TweetScore)とを、投稿文選定手段171に出力する。
投稿文選定手段171は、投稿スコア算出手段170で算出された拡張クエリ投稿文Etごとの投稿スコアに基づいて、重要度の高い投稿文を選定するものである。
ここでは、投稿文選定手段171は、投稿スコア算出手段170で算出された投稿スコアが予め定めた基準値を上回る拡張クエリ投稿文Etを選定する。例えば、投稿文選定手段171は、投稿スコアが単語スコアの上位の10件の平均値を上回る投稿文を選定する。これによって、投稿文選定手段171は、より事前設定クエリに関連する精度を高めた投稿文を選定することができる。
投稿文選定手段171は、拡張クエリ投稿文Etから選定した投稿文と、設定クエリ投稿文Stとを、事前設定クエリに関連する投稿文として外部に出力する。
以上説明したように情報収集装置1を構成することで、情報収集装置1は、事前設定クエリを設定するだけで、それに関連するクエリを動的に拡張して、事前設定クエリに関連する投稿文を収集することができる。
なお、情報収集装置1は、コンピュータを、前記した各手段として機能させるための情報収集プログラムで動作させることができる。
〔情報収集装置の動作〕
次に、図5を参照(構成については適宜図1参照)して、本発明の実施形態に係る情報収集装置1の動作について説明する。なお、IDF記憶手段15には、予め特定のデータベースから算出したグローバルIDF(IDF)が記憶されているものとする。
ステップS1において、情報収集装置1は外部から事前設定クエリを入力する。
ステップS2において、設定クエリ投稿取得手段10は、ソーシャルメディア情報提供装置2から、ステップS1で入力された事前設定クエリを含む投稿文(設定クエリ投稿文St)を、予め定めた数(規定数)になるまで取得する。
また、ステップS2と並列して、ステップS3において、クエリ未設定投稿取得手段11は、ソーシャルメディア情報提供装置2から、クエリを設定せずにランダムに投稿文(クエリ未設定投稿文Rt)を取得する。
ステップS2における規定数の設定クエリ投稿文Stを取得後、ステップS4において、ダイナミックIDF算出手段14は、ステップS2で規定数の投稿文を取得した時間区間ごとに、直近の時間区間に近いほどクエリ未設定投稿文Rtの重みを大きくしたダイナミックIDF(IDF)を算出する(前記式(1)~式(3)参照)。
ステップS5において、クエリ拡張手段16の単語スコア算出手段160は、ステップS4で算出したダイナミックIDF(IDF)と、予めIDF記憶手段15に記憶されているグローバルIDF(IDF)とから、単語の重要度(単語スコア)を算出する(前記式(5)~式(7)参照)。
ステップS6において、クエリ拡張手段16の拡張クエリ選定手段161は、ステップS5で算出された単語スコアに基づいて、単語スコアが大きい順で予め定めた数以内、かつ、単語スコアが予め定めた閾値よりも大きい単語を拡張クエリとして選定する。
ステップS7において、拡張クエリ投稿取得手段12は、ソーシャルメディア情報提供装置2から、ステップS2で規定数の設定クエリ投稿文Stを取得した時間区間に投稿された、ステップS6で選定された拡張クエリを含む投稿文(拡張クエリ投稿文Et)を取得する。
ステップS8において、投稿文出力手段17の投稿スコア算出手段170は、ステップS7で取得した拡張クエリ投稿文Etの1投稿文ごとに、当該投稿文に含まれるすべての単語について、ステップS5で算出された単語スコアを加算して投稿スコアを算出する(前記式(8)参照)。
ステップS9において、投稿文選定手段171は、ステップS8で算出された投稿スコアが予め定めた基準値を上回る拡張クエリ投稿文Etを選定する。
ステップS10において、投稿文選定手段171は、ステップS9で選定した拡張クエリ投稿文Etと、事前設定クエリで取得した設定クエリ投稿文Stとを、事前設定クエリに関連する投稿文として外部に出力する。
ステップS11において、設定クエリ投稿取得手段10は、投稿文の収集を終了する旨の指示、あるいは、予め設定された終了時間により投稿文の収集の終了を判定する。
ここで、まだ、投稿文の収集が終了していない場合(ステップS11でNo)、情報収集装置1は、ステップS2に戻って動作を継続する。
一方、投稿文の収集が終了した場合(ステップS11でYes)、情報収集装置1は、動作を終了する。
以上の動作によって、情報収集装置1は、過去の時間区間で取得した投稿文の重みを低下させ、現時点の投稿文の重みを高めて、事前設定クエリに関連するクエリを動的に拡張して、事前設定クエリに関連する投稿文を収集することができる。
これによって、情報収集装置1は、例えば、事前設定クエリとして、“ドラマX”を設定した場合、時間経過に伴い投稿文の内容から、例えば、ある時点においては、ドラマ内の登場人物にクエリを拡張したり、また、別の時点においては、ドラマ内の事象にクエリを拡張したりすることができる。
このように、情報収集装置1は、事前設定クエリを設定するだけで、動的にクエリを拡張して投稿文を収集することができる。
〔性能評価〕
この情報収集装置1を用いて、特定のドラマについて、投稿文を収集した結果について説明する。
事前設定クエリをドラマ名である「#なつぞら」として、時刻08:00~08:16に取得した投稿文のうちで、「#なつぞら」を含まない投稿文について、当該投稿文が「#なつぞら」に関連するものであるか否かを2人の評価者(A,B)により人手で評価した。その結果、収集した投稿文のうち、「#なつぞら」を含む投稿文の数は“1259”であった。また、「#なつぞら」を含まない投稿文の数は“439”であった。この「#なつぞら」を含まない投稿文のうち、このドラマに関連する投稿であると評価者Aが判定した数は“321”、評価者Bが判定した数は“276”となった。
このように、情報収集装置1は、事前設定クエリを拡張して収集した投稿文において、75%程度の投稿文を、事前設定クエリに関連した投稿文として収集することができた。また、情報収集装置1は、「#なつぞら」を含む投稿文に対して25%程度取得する投稿文を増加させることができた。
以上、本発明の実施形態について説明したが、本発明はこの実施形態に限定されるものではない。
例えば、ここでは、投稿文出力手段17が、拡張クエリ投稿取得手段12が取得した拡張クエリ投稿文Etから、さらに、投稿スコアを算出して投稿文を選定することした。
しかし、単に、クエリを拡張するだけであれば、投稿文出力手段17は、投稿スコアによる選定を行わず、拡張クエリ投稿文Etをそのまま出力することとしてもよい。
また、ここでは、投稿文出力手段17が、事前設定クエリで取得した設定クエリ投稿文Stと、拡張クエリで取得した拡張クエリ投稿文Etとを、事前設定クエリに関連する投稿文として外部に出力した。
しかし、拡張クエリ投稿取得手段12が、拡張クエリに事前設定クエリを加えて拡張クエリ投稿文Etを取得し、投稿文出力手段17が、拡張クエリ投稿文Etを、事前設定クエリに関連する投稿文として外部に出力することとしてもよい。
1 情報取集装置
10 設定クエリ投稿取得手段
11 クエリ未設定投稿取得手段
12 拡張クエリ投稿取得手段
13 投稿文記憶手段
14 ダイナミックIDF算出手段
15 IDF記憶手段
16 クエリ拡張手段
160 単語スコア算出手段
161 拡張クエリ選定手段
17 投稿文出力手段
170 投稿スコア算出手段
171 投稿文選定手段

Claims (5)

  1. ソーシャルメディア情報提供装置に投稿される情報である投稿文を、クエリを拡張して収集する情報収集装置であって、
    予め設定されたクエリを含む投稿文を設定クエリ投稿文として取得する設定クエリ投稿取得手段と、
    前記クエリを設定せずに投稿文をクエリ未設定投稿文として取得するクエリ未設定投稿取得手段と、
    前記設定クエリ投稿文が予め定めた規定数に達する時間区間ごとに、直近の時間区間に近いほど前記クエリ未設定投稿文の重みを大きくした単語の逆文書頻度であるIDFを、ダイナミックIDFとして算出するダイナミックIDF算出手段と、
    前記時間区間ごとに、前記ダイナミックIDFと、予め特定のコーパスから算出したIDFであるグローバルIDFとから、単語ごとの重要度である単語スコアを算出する単語スコア算出手段と、
    前記単語スコア算出手段で算出された単語スコアが予め定めた基準よりも大きい単語を拡張クエリとして選定する拡張クエリ選定手段と、
    前記拡張クエリ選定手段で選定された拡張クエリを含む前記直近の時間区間に投稿された投稿文を拡張クエリ投稿文として取得する拡張クエリ投稿取得手段と、
    を備えることを特徴とする情報収集装置。
  2. 前記単語スコア算出手段は、前記ダイナミックIDFと前記グローバルIDFとを正規化して調和平均をとることで前記単語スコアを算出することを特徴とする請求項1に記載の情報収集装置。
  3. 前記拡張クエリ投稿文ごとに、すべての単語について前記単語スコア算出手段で算出された単語スコアを加算した投稿スコアを算出する投稿スコア算出手段と、
    前記投稿スコア算出手段で算出された投稿スコアが予め定めた基準よりも大きい拡張クエリ投稿文を選定する投稿文選定手段と、
    をさらに備えることを特徴とする請求項1または請求項2に記載の情報収集装置。
  4. 前記クエリ未設定投稿取得手段は、前記ソーシャルメディア情報提供装置に投稿された投稿文からランダムに投稿文を取得することを特徴とする請求項1から請求項3のいずれか一項に記載の情報収集装置。
  5. コンピュータを、請求項1から請求項4のいずれか一項に記載の情報収集装置として機能させるための情報収集プログラム。
JP2019208071A 2019-11-18 2019-11-18 情報収集装置およびそのプログラム Active JP7393923B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019208071A JP7393923B2 (ja) 2019-11-18 2019-11-18 情報収集装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019208071A JP7393923B2 (ja) 2019-11-18 2019-11-18 情報収集装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2021081925A JP2021081925A (ja) 2021-05-27
JP7393923B2 true JP7393923B2 (ja) 2023-12-07

Family

ID=75965241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019208071A Active JP7393923B2 (ja) 2019-11-18 2019-11-18 情報収集装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP7393923B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012160206A (ja) 2012-04-27 2012-08-23 Dainippon Printing Co Ltd ブログ収集サーバ
JP2014044484A (ja) 2012-08-24 2014-03-13 Fuji Xerox Co Ltd 情報検索プログラム及び情報検索装置
JP2014085694A (ja) 2012-10-19 2014-05-12 Kddi Corp 検索装置、検索プログラムおよび検索方法
JP2015090664A (ja) 2013-11-07 2015-05-11 株式会社Nttドコモ 情報処理装置及び表示優先度決定方法
JP2015130136A (ja) 2014-01-05 2015-07-16 株式会社ゼロストラクト 情報処理システム、情報処理装置、その制御方法、及び制御プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012160206A (ja) 2012-04-27 2012-08-23 Dainippon Printing Co Ltd ブログ収集サーバ
JP2014044484A (ja) 2012-08-24 2014-03-13 Fuji Xerox Co Ltd 情報検索プログラム及び情報検索装置
JP2014085694A (ja) 2012-10-19 2014-05-12 Kddi Corp 検索装置、検索プログラムおよび検索方法
JP2015090664A (ja) 2013-11-07 2015-05-11 株式会社Nttドコモ 情報処理装置及び表示優先度決定方法
JP2015130136A (ja) 2014-01-05 2015-07-16 株式会社ゼロストラクト 情報処理システム、情報処理装置、その制御方法、及び制御プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山本 尚央,特定ジャンルのブログに対する共起とユーザ別特徴語抽出を用いた話題抽出,FIT2010 第9回情報科学技術フォーラム 講演論文集 第2分冊 査読付き論文・一般論文 データベース 自然言語・音声・音楽 人工知能・ゲーム 生体情報科学,社団法人電子情報通信学会 一般社団法人情報処理学会,2010年08月20日,pp.503~506
藤木 紫乃,経時的な関連語句の変化を考慮したクエリ拡張によるTwitterからの情報抽出手法,第5回データ工学と情報マネジメントに関するフォーラム (第11回日本データベース学会年次大会) [online] ,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2013年05月31日,Internet<URL:http://db-event.jpn.org/deim2013/proceedings/pdf/c9-5.pdf>

Also Published As

Publication number Publication date
JP2021081925A (ja) 2021-05-27

Similar Documents

Publication Publication Date Title
CN103678668A (zh) 相关搜索结果的提示方法、服务器及系统
JP2018032213A (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2017161749A1 (zh) 一种信息匹配方法及装置
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
US8838580B2 (en) Method and system for providing keyword ranking using common affix
CN106095912B (zh) 用于生成扩展查询词的方法和装置
JP6728178B2 (ja) 検索データを処理するための方法及び装置
JP6719365B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US9165038B1 (en) Interpreting adjacent search terms based on a hierarchical relationship
JP7393923B2 (ja) 情報収集装置およびそのプログラム
US9940408B2 (en) Trigger query obtaining apparatus, trigger query obtaining method, and non-transitory computer readable recording medium
JP4496900B2 (ja) イベント情報抽出装置及びプログラム
JP2013054606A (ja) 文書検索装置及び方法及びプログラム
JP2014142738A (ja) 管理方法、管理装置および管理プログラム
JP2017091436A (ja) 特徴語選択装置
JP5063728B2 (ja) 複数サーバ検索装置及び方法
JP6079207B2 (ja) キーワード提示プログラム、キーワード提示方法及びキーワード提示装置
JP6718288B2 (ja) 関連語抽出支援装置
Samah et al. TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity
JP2015141323A (ja) 情報収集方法、対話システム及び情報収集装置
JP5856905B2 (ja) 主題抽出装置およびそのプログラム
JP5810046B2 (ja) 文書検索キーワード提示装置及び方法及びプログラム
JP5410359B2 (ja) クエリ選択装置及びプログラム
US10031953B1 (en) Generating query answers
Giachanou et al. USI Participation at SMERP 2017 Text Retrieval Task.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231127

R150 Certificate of patent or registration of utility model

Ref document number: 7393923

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150