JP2012243033A

JP2012243033A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2012243033A
Application number: JP2011111645A
Authority: JP
Inventors: Takuya Fujita; 拓也藤田; Mitsuhiro Miyazaki; 充弘宮嵜; Takehiro Hagiwara; 丈博萩原; Takahito Migita; 隆仁右田; Hiroyuki Masuda; 弘之増田; Katsuyoshi Kanemoto; 勝吉金本; Masahiro Morita; 昌裕森田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-05-18
Filing date: 2011-05-18
Publication date: 2012-12-10
Anticipated expiration: 2031-05-18
Also published as: US8983997B2; CN102789476A; US20120296931A1; US20150113016A1; US9529847B2; EP2525295A1; JP5768492B2

Abstract

【課題】検索キーワードに関連する情報を提示する。
【解決手段】本開示の情報処理装置は、検索文字列を設定する設定部と、設定された前記検索文字列を含む情報を検索する検索部と、検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定部とを備えることを特徴とする。本開示は、例えば、検索装置に適用できる。
【選択図】図１

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関し、特に、検索キーワードに関連する情報をユーザに提示できるようにした情報処理装置、情報処理方法、およびプログラムに関する。

従来、インターネット上にはwebページ、ブログの他、ツイッタ(Twitter)に代表される各種のSNS(social networking service)を用いた様々な情報が氾濫している。そして、これらの中から、任意のキーワードを含む情報を抽出するシステムが存在する。

具体的には、例えば既存の検索システムを用いることにより、ユーザが任意に設定したキーワードを検索条件として、検索条件を含む情報をユーザに提示することができる。さらに、検索キーワードを含む情報の鮮度や検索頻度に応じて、より新しい情報を提示したり、より頻繁に検索された情報を提示したりすることが可能である。

特開２００９−１５４０７号公報

上述したように、従来においても検索キーワードを含む情報を検索することは可能である。しかしながら、検索キーワードに関連した情報のうち、ユーザにとって特に関心のある情報を提示したり、世間で話題になっている情報を抽出したりする技術は確立されていない。また、一般に言語に依存した処理を含むため、特定の言語の情報に対してのみしか適用できない。

本開示はこのような状況に鑑みてなされたものであり、検索キーワードに関連する情報のうち、ユーザにとって特に関心のある情報を、言語に依存せずに提示できるようにするものである。

本開示の一側面である情報処理装置は、検索文字列を設定する設定部と、設定された前記検索文字列を含む情報を検索する検索部と、検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定部とを備える。

本開示の一側面である情報処理装置は、決定された前記共起文字列をユーザに提示して選択させる第１の提示部と、検索結果として得られる複数の前記情報のうち、選択された前記共起文字列が含まれるものをユーザに提示する第２の提示部とをさらに備えることができる。

本開示の一側面である情報処理装置は、決定された前記共起文字列に対する流行の評価値を算出して流行度を判定する判定部をさらに備えることができ、前記第１の提示部は、決定された前記共起文字列を前記評価値に基づいてユーザに提示して選択させることができる。

本開示の一側面である情報処理装置は、判定された前記流行度に基づいて前記共起文字列を選択する選択部をさらに備えることができる。

本開示の一側面である情報処理装置は、検索結果として得られる複数の前記情報からノイズを除去するノイズ除去部をさらに備えることができ、前記決定部は、検索結果として得られた、ノイズが除去された複数の前記情報から前記共起文字列候補群を抽出することができる。

前記設定手段は、ユーザが入力した文字列を前記検索文字列に設定するか、または前記ユーザの操作履歴に基づいて抽出した文字列を前記検索文字列に設定することができる。

前記設定手段は、さらに、前記検索文字列を特徴付ける１以上の対照文字列を設定することができる。

前記決定部は、さらに、前記共起文字列候補群をなす各共起文字列候補の、検索文字列を含む情報における出現回数と、対照文字列を含む情報における出現回数との比較結果に基づいて、前記共起文字列を決定することができる。

前記設定手段は、ユーザが入力した文字列を前記対照文字列に設定するか、前記ユーザの操作履歴に基づいて抽出した文字列を前記対照文字列に設定するか、または前記検索文字列に基づいて抽出した文字列を前記対照文字列に設定することができる。

本開示の一側面である情報処理方法は、情報処理装置による、検索文字列を設定する設定ステップと、設定された前記検索文字列を含む情報を検索する検索ステップと、検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定ステップとを含む。

本開示の一側面であるプログラムは、コンピュータを、検索文字列を設定する設定部と、設定された前記検索文字列を含む情報を検索する検索部と、検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定部として機能させる。

本開示の一側面においては、検索文字列が設定され、設定された検索文字列を含む情報が検索され、検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群が抽出され、抽出され共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列が決定される。

本開示の一側面によれば、検索キーワードに関連する情報のうち、ユーザにとって特に関心のある情報を、言語に依存せずに提示することができる。

本開示の実施の形態である検索装置の構成例を示すブロック図である。データベースの詳細な構成を示すブロック図である。検索装置による関連情報検索処理を説明するフローチャートである。ノイズ除去を説明するための図である。トピック抽出処理を説明するフローチャートである。トピック候補文字列を説明するための図である。検索装置のユーザインタフェースとなる画面の表示例を示す図である。検索装置のユーザインタフェースとなる画面の表示例を示す図である。頻度の測定期間を示す図である。頻度推移の一例を示す図である。図１０に対応する頻度の移動平均および移動分散を示す図である。図１０に対応する評価値を示す図である。図１０乃至図１２を統合した図である。コンピュータの構成例を示すブロック図である。

以下、本開示を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。

＜１．実施の形態＞
初めに、本開示の情報処理装置を適用した、実施の形態としての検索装置の概要について説明する。この検索装置は、インターネットまたはイントラネット上で公開されている各種文書を検索対象として、検索キーワードを含む文書を検索し、検索した複数の文書に共通して含まれる文字列（以下、共起キーワードまたはトピックと称する）を抽出する。さらに、検索キーワードと共起キーワードとを含むインターネット上の文書のうち、所定の時点において世間で話題になっているもの（流行している話題）を、検索情報に関連する情報として提示するものである。

例えばインターネット上で公開されているツイッタ(Twitter)の各ツイート（ツイッタのユーザがつぶやいた（入力した）１４０文字以内の短文を指す）を検索対象として、検索キーワードを含むツイートを検索し、検索した複数のツイートに共通して含まれる共起キーワードを抽出する。さらに、抽出した各共起キーワードに対して流行の程度を示す評価値を算出して一覧表示してユーザに選択させ、選択された共起キーワードと検索キーワードとを含むツイートをユーザに提示する。これにより、いま世間で話題になっていることに対するツイートをユーザに提示することができる。

例えば、検索キーワードを「浅草寺」とすれば、共起キーワードとして、例えば、「台東区」、「護国寺」、「が震災」、「浅草に」、「交差点」などが抽出される。抽出されたこれらの各共起キーワードからユーザが「が震災」を選択すると、選択された共起キーワード「が震災」と検索キーワード「浅草寺」とを含むツイートがユーザに提示される。

なお、検索キーワードについては、ユーザが入力する他、ユーザの操作履歴などに基づいて自動的に設定するようにしてもよい。例えば、ユーザによって作成された文書に頻出する文字列、ユーザによって作成されたプレイリストに含まれるアーティスト名や曲名、ユーザが視聴したテレビジョン番組に頻出するタレント名などを抽出し、それらを検索キーワードに設定するようにしてもよい。

また、検索キーワードと対比するための１以上の対照キーワードを設定することも可能である。対照キーワードは、検索キーワードと同様、ユーザが入力する他、自動的に設定できるようにしてもよい。対照キーワードを自動的に設定する場合、設定済みの検索キーワードに基づいて対照キーワードを決定してもよい。例えば、検索キーワードがアーティスト名である場合、インターネット上から同じ出身国の他のアーティストを検索し、そのアーティスト名を対照キーワードに決定したりすればよい。

例えば、検索キーワードとしてＡＡＡ、対照キーワードとしてＢＢＢが設定された場合、検索キーワードＡＡＡを含む複数のツイートから共起キーワードが抽出されるが、対照キーワードＢＢＢを含む複数のツイートにおける出現頻度が高いものは除外される。

なお、検索キーワードおよび対照キーワードとして、複数の文字列を設定してAND検索させることもできる。

以下、本開示においては、ツイッタの各ツイートを検索対象とした場合を例として説明する。ただし、実施の形態である検索装置の検索対象はツイッタのツイートに限定されるものではない。

また、検索対象の文書および検索キーワードは、文字列または記号列によって表現されるものであれば、日本語、英語などの自然言語によるものに限定されない。例えば、DNA情報、音素、楽譜情報、量子化して記号列に落とし込んだ実数値の一次元配列で表されるデータ、量子化して記号列に落とし込んだ実数値の多次元配列で表されるデータを一次元化したものなども検索対象の文書および検索キーワードとすることができる。

［検索装置の構成例］
図１は、実施の形態である検索装置に含まれる機能ブロックの構成例を示している。この検索装置１０は、キーワード設定部１１、文書検索部１２、ノイズ除去部１３、検索インデックス作成部１４、流行度判定部１５、トピック抽出部１６、トピック出力部１７、トピック文書出力部１８、およびデータベース２０を含む。図２は、データベース(DB)２０の詳細を示している。データベース２０は、検索文書保存データベース(DB)２１、文書検索インデックスデータベース(DB)２２、およびトピック保存データベース(DB)２３を含む。

キーワード設定部１１は、ユーザから入力される文字列を検索キーワードに設定する。また、キーワード設定部１１は、ユーザから入力される文字列を対照キーワードに設定する。なお、キーワード設定部１１は、検索キーワードまたは対照キーワードの少なくとも一方を自動的に設定することができる。

文書検索部１２は、インターネット上に公開されているツイッタの各ツイートを検索対象として、検索キーワードを含むツイートを検索する。また、文書検索部１２は、インターネット上に公開されているツイッタの各ツイートを検索対象として、対照キーワードを含むツイートを検索する。なお、検索対象とするツイートの記載日時の期間を、例えば現在から１ヶ月前までなどと制限するようにしてもよい。文書検索部１２による検索結果のツイートは、検索キーワードまたは対照キーワードに対応付けて、データベース２０の検索文書保存データベース２１に保存される。

ノイズ除去部１３は、検索結果として得られたツイートから、共起キーワードになり得ない文字列（以下、ノイズと称する）を除去する。具体的には図４を参照して後述する。

検索インデックス作成部１４は、検索文書保存データベース２０に保存された、検索結果として得られたツイートに対してSuffix Arrayによる検索インデックスを作成する。作成された検索インデックスは、データベース２０の文書検索インデックスデータベース２２に保存される。ここで検索インデックスが作成されることにより、共起キーワードを抽出する際に必要となる、トピック（共起キーワード）候補文字列の各ツイートにおける出現回数DF(Document Frequency)のカウントを高速に実施することができる。

流行度判定部１５は、検索キーワードや対照キーワードを自動的に設定するに際して、それらの候補の流行度を判定する。また、流行度判定部１５は、抽出される共起キーワード（トピック）の流行度を判定する。

トピック抽出部１６は、ノイズが除去された検索結果の各ツイートから、共起キーワード（トピック）を抽出する。抽出された共起キーワード（トピック）は、データベース２０のトピック保存データベース２３に保存される。

トピック出力部１７は、抽出された共起キーワード（トピック）を出力する。なお、トピック出力部１７に、抽出された共起キーワード（トピック）に基づいて自動的にツイートを生成してツイッタに投稿するbot生成機能を持たせるようにしてもよい。

トピック文書出力部１８は、抽出された共起キーワード（トピック）を含むツイートを検索文書保存データベース２１から取得して出力する。

［動作説明］
次に、検索装置１０の動作について説明する。図３は、検索装置１０による関連情報検索処理を説明するフローチャートである。

ステップＳ１において、キーワード設定部１１は、ユーザが入力する文字列を検索キーワードに設定する。なお、ユーザによって作成された文書に頻出する文字列、ユーザによって作成されたプレイリストに含まれるアーティスト名や曲名、ユーザが視聴したテレビジョン番組に頻出するタレント名などを抽出し、それらを検索キーワードに設定するようにしてもよい。この場合、抽出したアーティスト名などに対して、後述する流行の評価値を算出し、評価値が所定の閾値以上のものを検索キーワードに採用するようにしてもよい。

さらにステップＳ１において、キーワード設定部１１は、ユーザが入力する文字列、または自動的に決定した文字列を対照キーワードに設定する。なお、対照キーワードの設定は省略してもよい。

ステップＳ２において、文書検索部１２は、インターネット上に公開されているツイッタの各ツイートを検索対象として、検索キーワードを含むツイートを検索する。検索結果のツイートは、検索キーワードに対応付けて検索文書保存データベース２１に保存される。また、文書検索部１２は、対照キーワードが設定されている場合、インターネット上に公開されているツイッタの各ツイートを検索対象として、対照キーワードを含むツイートを検索する。検索結果のツイートは、対照キーワードに対応付けて検索文書保存データベース２１に保存される。

ステップＳ３において、ノイズ除去部１３は、検索結果として得られたツイートから、共起キーワードになり得ないノイズを除去する。

図４は、検索結果の一例であるツイートを示している。同図において下線の設けられている文字列がノイズとしてノイズ除去部１３により除去される。すなわち、検索対象がツイートである場合、リツイート(Re Tweet)を意味する「ＲＴ」、返信相手を示す先「＠ユーザ名」、URLを示す「http://・・・」、ハッシュタグを示す「＃・・・」が除去される。

図３に戻る。ステップＳ４において、検索インデックス作成部１４は、検索文書保存データベース２０に保存された、検索結果として得られたツイートに対してSuffix Arrayによる検索インデックスを作成する。作成された検索インデックスは文書検索インデックスデータベース２２に保存される。

ステップＳ５において、トピック抽出部１６は、ノイズが除去された検索結果の各ツイートから、共起キーワード（トピック）を抽出するトピック抽出処理を行う。抽出された共起キーワード（トピック）は、データベース２０のトピック保存データベース２３に保存される。

図５はトピック抽出処理を詳細に説明するフローチャートである。

ステップＳ１１において、トピック抽出部１６は、ノイズが除去された検索結果のツイート群に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した文字列群を抽出する。これは、出現回数DFが変化しない範囲で、もっとも長い部分文字列群を抽出することに相当する。この処理はSuffix Arrayによる検索インデックスを用いることによって、高速に処理することが可能である。

以下の文字の種類による規則に則したものをトピック候補文字列から除外し、残ったものをトピック候補文字列として抽出する。

[想定される文字の種類]
文字の種類としては、例えば、スペース（空白）、半角英字、ラテン文字拡張、ひらがな、カタカナ、全角記号、長音記号、半角記号、制御文字、無効文字、漢字、半角数字、句読点、ハングル、タイ文字、アラビア文字、ヘブライ文字、キリル文字、ギリシア文字などが想定される。

[トークンをトピック候補文字列から除外する規則]
トークンの前の文字（前のトークンの最後の文字）が、
長音記号である場合、トピック候補文字列としない。
トークンの初めの文字が、
スペースである場合、トピック候補文字列としない。
全角記号である場合、トピック候補文字列としない。
長音記号である場合、トピック候補文字列としない。
半角記号である場合、トピック候補文字列としない。
制御文字、無効文字である場合、トピック候補文字列としない。
句読点である場合、トピック候補文字列としない。

トークンの後の文字（後のトークンの初めの文字）が、
長音記号である場合、トピック候補文字列としない。
トークンの最後の文字が、
スペースである場合、トピック候補文字列としない。
全角記号である場合、トピック候補文字列としない。
半角記号である場合、トピック候補文字列としない。
制御文字、無効文字である場合、トピック候補文字列としない。
句読点である場合、トピック候補文字列としない。

トークンの前の文字（前のトークンの最後の文字）とトークンの初めの文字の両方、もしくは、トークンの後の文字（後のトークンの初めの文字）とトークンの最後の文字の両方が、
半角英字、ラテン文字拡張である場合、トピック候補文字列としない。
カタカナである場合、トピック候補文字列としない。
半角数字記号である場合、トピック候補文字列としない。
ハングルである場合、トピック候補文字列としない。
キリル文字である場合、トピック候補文字列としない。

例えば、図６に示されるように、ノイズ除去後のツイートが「チョコを買いだめする人は、手を挙げなさい」である場合、まず検索結果のツイート群において、全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した文字列群を抽出する。一例として、「チョ」、「チョコ」、「チョコを」の出現回数DFがそれぞれ10、10、4であった場合、「チョコ」は抽出されるが、「チョ」は抽出されない。その後さらに、トークンをトピック候補文字列から除外する規則を適用し、トピック候補文字列が抽出される。

このように、トピック抽出部１６では、出現回数DFの変化点と、文字の種類の違いに基づき、検索対象とする文書の言語に依存することなくトピック候補文字列を抽出することができる。ただし、文書の言語の特徴に基づく形態素解析を利用してトピック候補文字列を抽出するようにしてもよい。

なお、類似した文字列がトピック候補文字列として抽出された場合、それらを一つにまとめるようにしてもよい。ここで類似とは、文字列そのものの類似度が高いことのほかに、出現した文書の類似度が高いことも含む。

ステップＳ１２において、トピック抽出部１６は、文書検索インデックスデータベース２２に保存されている検索インデックスを用い、ノイズが除去された検索結果のツイートにおける各トピック候補文字列の出現回数DFを算出する。

ステップＳ１３において、トピック抽出部１６は、各トピック候補文字列の出現回数DFが所定の条件を満たすものをトピック（共起キーワード）に採用する。すなわち、検索キーワードと対照キーワードの両方が設定されている場合には、検索キーワードによる検索結果のツイートにおける出現回数DFを、対照キーワードによる検索結果のツイートにおける出現回数DFで除算した値が所定の閾値以上であるものをトピックに採用する。検索キーワードのみが設定されている場合には、検索キーワードによる検索結果のツイートにおける出現回数DFが所定の閾値以上であるものをトピックに採用する。

なお、トピックとして採用するか否かの判定に、上述したような出現回数DFの商の代わりに、Information Gain，Mutual Information，Bi-Normal separation，Fold Change，相関係数などを算出して用いるようにしてもよいし、カイ二乗検定などトピックの特異性を測る検定を行ってもよい。

このようにしてトピックが抽出された後、トピック抽出処理が終了されて、図３のステップＳ６にリターンする。

ステップＳ６において、流行度判定部１５は、ステップＳ５で抽出された各共起キーワード（トピック）に対して流行の評価値を算出する。この算出方法については、図９乃至図１３を参照して後述する。

ステップＳ７において、トピック出力部１７は、抽出された共起キーワード（トピック）とその流行の評価値をユーザに提示する。ただし、ステップＳ８において検索装置が自動的にトピックを選択する場合、提示する必要は必ずしもない。

提示された共起キーワード（トピック）がユーザによって選択されるか、流行の評価値が閾値以上のものが検索装置によって自動的に選択されると、ステップＳ８において、トピック文書出力部１８は、抽出された共起キーワード（トピック）と検索キーワードを含むツイートを検索文書保存データベース２１から取得し、検索キーワードに関連する関連情報としてユーザに提示する。なお、出得した複数のツイートが類似している場合、一つにまとめて提示するようにしてもよい。以上で、関連情報検索処理としての一連の動作が終了される。

[ユーザインタフェースとしての画面の表示例]
図７は、検索装置１０のユーザインタフェースとしての画面の表示例を示している。この画面５０には、検索キーワード入力欄５１、Get Tweetsボタン５２、Get Topic Words from Tweetsボタン５３、Show Tweetsボタン５４、トピック表示欄５５、評価値表示欄５６、およびツイート表示欄５７が設けられている。

ユーザは、検索キーワード入力欄５１に検索キーワードを入力することができる。ユーザがGet Tweetsボタン５２を操作されると、インターネット上で公開されているツイッタのツイートのうち、検索キーワードを含むものが検索される。

ユーザがGet Topic Words from Tweetsボタン５３を操作すると、検索結果のツイートから共起キーワード（トピック）が抽出されて、流行の評価値とともにトピック表示欄５５に表示される。ユーザがトピック表示欄５５に表示された共起キーワード（トピック）を選択すると、選択された共起キーワード（トピック）に対する流行の評価値の時間的推移が評価値表示欄５６に表示される。

さらに、ユーザが共起キーワード（トピック）を選択した状態でShow Tweetsボタン５４を操作すると、検索キーワードと、選択された共起キーワード（トピック）を含むツイートがツイート表示欄５７に表示される。

例えば、図７に示されるように、ユーザが検索キーワード入力欄５１に検索キーワードとして「浅草寺」を入力し、Get Tweetsボタン５２を操作すると、検索キーワード「浅草寺」を含むツイートが検索される。ここで、ユーザがGet Topic Words from Tweetsボタン５３を操作すると、トピック表示欄５５に共起キーワード（トピック）として「台東区」、「護国寺」、「が震災」、「震災発生時刻の午後二時四十六分」、「浅草に」、「交差点」が流行の評価値とともに表示される。

ユーザがトピック表示欄５５に表示された共起キーワード（トピック）のうちの「台東区」を選択すると、選択された共起キーワード（トピック）に対する流行の評価値の時間的推移が評価値表示欄５６に表示される。

さらに、ユーザが共起キーワード（トピック）「台東区」を選択した状態でShow Tweetsボタン５４を操作すると、検索キーワード「浅草寺」と、選択された共起キーワード（トピック）「台東区」を含むツイートがツイート表示欄５７に表示される。

また例えば、図８に示されるように、ユーザが検索キーワード入力欄５１に検索キーワードとして「野菜」を入力し、Get Tweetsボタン５２を操作すると、検索キーワード「野菜」を含むツイートが検索される。ここで、ユーザがGet Topic Words from Tweetsボタン５３を操作すると、トピック表示欄５５に共起キーワード（トピック）として「子どもが」、「の子ども」、「飲ませた」、「を飲ま」、「食べさせた」、「出荷制限の」、「消費者の」などが流行の評価値とともに表示される。

ユーザがトピック表示欄５５に表示された共起キーワード（トピック）のうちの「出荷制限の」を選択すると、選択された共起キーワード（トピック）に対する流行の評価値の時間的推移が評価値表示欄５６に表示される。

さらに、ユーザが共起キーワード（トピック）「出荷制限の」を選択した状態でShow Tweetsボタン５４を操作すると、検索キーワード「野菜」と、選択された共起キーワード（トピック）「出荷制限の」を含むツイートがツイート表示欄５７に表示される。

以上説明したように、検索装置１０によれば、ユーザが興味を持っている話題を含むツイートをトピック毎にまとめて提示することができる。さらに、検索キーワードを自動設定するようにすれば、ユーザが興味を持っていると推定される話題を含むツイートをトピック毎にまとめて提示することができる。

[流行の評価値の算出方法について]
次に、上述した関連情報検索処理のステップＳ６における、共起キーワードの流行の評価値を算出する方法について説明する。

まず、検索結果のツイートにおける共起キーワードの出現回数DFを、共起キーワードが出現しているツイートの投稿日時に基づいて離散系の時系列データに変換する。具体的には、共起キーワードの出現回数DFを、所定の測定期間（例えば、２４時間）における頻度に変換する。

図９は、頻度の測定期間の設定方法を示している。すなわち、同図Ａに示されるように、時間軸Ｔにおいて頻度の測定期間を重複しないように設けてもよいし、同図Ｂに示されるように、時間軸Ｔにおいて頻度の測定期間を重複するように設けてもよい。

時間軸Ｔにおいて頻度の測定期間を重複しないように設けた場合、各測定区間における頻度の総和が出現回数DFとなる。時間軸Ｔにおいて頻度の測定期間を重複するように設けた場合、短期間に多数の頻度のサンプルを取得することができる。

ある測定期間ｔにおける頻度をｘ_ｔとした場合、測定期間ｔにおける流行の評価値ｓ_ｔは、測定期間ｔと基準としてそれ以前のＮ個の測定期間ｔ，ｔ−１，ｔ−２，・・・，ｔ−Ｎ＋１における頻度ｘ_ｔ，ｘ_ｔ−１，ｘ_ｔ−２，・・・，ｘ_{ｔ−Ｎ＋１}を用いて算出される。

具体的には、移動平均ｍ_ｔ、移動偏差ｖ_ｔ、評価値ｓ_ｔの順に算出される。
移動平均ｍ_ｔ＝（Σｘ_ｉ）／Ｎ・・・（１）
移動偏差ｖ_ｔ＝√（（（Σ（ｍ_ｔ−ｘ_ｉ））／Ｎ）・・・（２）
評価値ｓ_ｔ＝ｖ_ｔ／ｖ_ｔ−１・・・（３）
なお、Σは、ｉ＝ｔからｉ＝ｔ−Ｎ＋１に対応するＮ個の値の総和を意味する。

例えば、離散系の時系列データとしての頻度ｘ_ｔが図１０に示されるように推移した場合、その移動平均ｍ_ｔは図１１に太線で示されるように推移し、移動偏差ｖ_ｔは図１１に太線を中心として細線で示される帯をして推移する。これに対して、評価値ｓ_ｔは図１２に示されるように推移する。図１３は、図１０と図１２を重ね合わせて示している。

図１３から明らかなように、評価値ｓ_ｔは頻度ｘ_ｔが急激に変化した場合に大きな値を示すことがわかる。したがって、共起キーワードに対して評価値ｓ_ｔを算出すれば、これを世間で話題になっているか（流行しているか）否かの指標として利用できる。

なお、評価値ｓ_ｔは、測定期間ｔが短ければ短期的な流行の傾向を示し、測定期間ｔが長ければ長期的な流行の傾向を示すことになる。そこで、測定期間ｔを短期（例えば、１日間＝２４時間）として算出した評価値ｓ_{ｔ（1日間）}と、測定期間ｔを長期（例えば、１ヶ月＝３０日間）として算出した評価値ｓ_{ｔ（30日間）}とを求め、これらの重み付き平均を最終的な評価値として算出するようにしてもよい。算出された最終的な評価値は、世間で話題になっているか（流行しているか）否かの短期的な流行の傾向と長期的な流行の傾向とを兼ね備えた指標として利用することができる。

[評価値の他の利用先について]
上述した評価値Ｓ_ｔは、共起キーワードの流行判定の他に様々な利用が考えられる。

例えば、様々な商品の所定期間における各売り上げ数を上記頻度ｘ_ｔとみなして評価値Ｓ_ｔを算出すれば、売れ筋の商品を判断するための指標に利用できる。

また、検索キーワードによる検索回数を上記頻度ｘ_ｔとみなして評価値Ｓ_ｔを算出すれば、世間で話題になっているキーワードを判断するための指標に利用できる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、プログラム記録媒体からインストールされる。

図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ１００において、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータ１００では、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５およびバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

１０検索装置，１１キーワード設定部，１２文書検索部，１３ノイズ除去部，１４検索インデックス作成部，１５流行度判定部，１６トピック抽出部，１７トピック出力部，１８トピック文書出力部，２０データベース，２１検索文書保存データベース，２２文書検索インデックスデータベース，２３トピック保存データベース，１００コンピュータ，１０１ CPU

さらに、ユーザが共起キーワード（トピック）「台東区」を選択した状態でShow Tweetsボタン５４を操作すると、検索キーワード「浅草寺」と、選択された共起キーワード（トピック）「台東区」を含むツイートがツイート表示欄５７に表示される。ただし、同図においては、ツイート表示欄５７におけるツイートの文章を＊（アスタリスク）で置換して示している。

さらに、ユーザが共起キーワード（トピック）「出荷制限の」を選択した状態でShow Tweetsボタン５４を操作すると、検索キーワード「野菜」と、選択された共起キーワード（トピック）「出荷制限の」を含むツイートがツイート表示欄５７に表示される。ただし、同図においても、ツイート表示欄５７におけるツイートの文章を＊（アスタリスク）で置換して示している。

Claims

検索文字列を設定する設定部と、
設定された前記検索文字列を含む情報を検索する検索部と、
検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定部と
を備える情報処理装置。
決定された前記共起文字列をユーザに提示して選択させる第１の提示部と、
検索結果として得られる複数の前記情報のうち、選択された前記共起文字列が含まれるものをユーザに提示する第２の提示部と
をさらに備える請求項１に記載の情報処理装置。
決定された前記共起文字列に対する流行の評価値を算出して流行度を判定する判定部を
さらに備え、
前記第１の提示部は、決定された前記共起文字列を前記評価値に基づいてユーザに提示して選択させる
請求項２に記載の情報処理装置。
判定された前記流行度に基づいて前記共起文字列を選択する選択部を
さらに備える請求項２に記載の情報処理装置。
検索結果として得られる複数の前記情報からノイズを除去するノイズ除去部を
さらに備え、
前記決定部は、検索結果として得られた、ノイズが除去された複数の前記情報から前記共起文字列候補群を抽出する
請求項２に記載の情報処理装置。
前記設定手段は、ユーザが入力した文字列を前記検索文字列に設定するか、または前記ユーザの操作履歴に基づいて抽出した文字列を前記検索文字列に設定する
請求項２に記載の情報処理装置。
前記設定手段は、さらに、前記検索文字列を特徴付ける１以上の対照文字列を設定する
請求項２に記載の情報処理装置。
前記決定部は、さらに、前記共起文字列候補群をなす各共起文字列候補の、検索文字列を含む情報における出現回数と、対照文字列を含む情報における出現回数との比較結果に基づいて、前記共起文字列を決定する
請求項７に記載の情報処理装置。
前記設定手段は、ユーザが入力した文字列を前記対照文字列に設定するか、前記ユーザの操作履歴に基づいて抽出した文字列を前記対照文字列に設定するか、または前記検索文字列に基づいて抽出した文字列を前記対照文字列に設定する
請求項７に記載の情報処理装置。
情報処理装置の情報処理方法において、
情報処理装置による、
検索文字列を設定する設定ステップと、
設定された前記検索文字列を含む情報を検索する検索ステップと、
検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定ステップと
を含む情報処理方法。
コンピュータを、
検索文字列を設定する設定部と、
設定された前記検索文字列を含む情報を検索する検索部と、
検索結果として得られた複数の前記情報に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した共起文字列候補群を抽出し、抽出した前記共起文字列候補群とその前後の文字に用いられている文字の種類に基づいて、前記共起文字列候補群の中から共起文字列を決定する決定部と
して機能させるプログラム。