JP6342678B2

JP6342678B2 - 関連データ生成装置、関連データ生成方法およびプログラム

Info

Publication number: JP6342678B2
Application number: JP2014045088A
Authority: JP
Inventors: 石黒　正雄; 正雄石黒; 和重廣井; 林　昭夫; 昭夫林; 澤尻　晴彦; 晴彦澤尻; 泰樹堀部
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2014-03-07
Filing date: 2014-03-07
Publication date: 2018-06-13
Anticipated expiration: 2034-03-07
Also published as: CN104899241A; JP2015170177A; US10157348B2; US20150254574A1; EP2919137A1

Description

本発明は、関連データ生成装置、関連データ生成方法およびプログラムに関する。

特許文献１には、商品カテゴリそれぞれに対応した特徴語を自動的に学習するシステムであって、カテゴリ名をクエリとして検索エンジンによって最大１０００件のＷｅｂテキストを取得する手段と、前記カテゴリ名をクエリとして得られた最大１０００件のＷｅｂテキストから、特徴語候補を抽出する手段と、抽出された特徴語候補とカテゴリとの関連度を算出する手段と、各カテゴリについて、前記関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて記憶する特徴語データベースと、を備える特徴語自動学習システムが記載されている。

特開２０１０−９３０７号公報

特許文献１のシステムは、現時点で掲載されているＷｅｂテキストを基にして特定した特徴語を特徴語データベースに記憶する。そのため、過去の時点に掲載されたＷｅｂテキストに含まれる特徴語候補も考慮して特徴語データベースを作成することができない。

そこで、本発明は、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データを生成可能な関連データ生成装置の提供を目的とする。

上記課題を解決するため、本発明に係る関連データ生成装置は、相互に異なる複数の期間に投稿された投稿データのうち、全ての期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の出現頻度とを格納した共起語データを生成する共起語データ生成部と、前記共起語の出現頻度の時間的変動が第１の閾値よりも小さく、かつ、出現頻度が第２の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成部と、を備える。

本発明に係る関連データ生成装置によれば、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データを生成することができる。

なお、上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明の一実施形態に係る関連データ生成装置を含む関連データ生成システムの概略構成の一例を示した図である。本発明の一実施形態に係る関連データ生成装置のハードウェア構成の一例を示した図である。本発明の一実施形態に係る関連データ生成装置の機能構成の一例を示した機能ブロック図である。本発明の一実施形態に係る投稿データの一例を示した図である。本発明の一実施形態に係るＰＯＩデータの一例を示した図である。本発明の一実施形態に係る共起語データおよび期間別共起語データの一例を示した図である。本発明の一実施形態に係る関連データの一例を示した図である。本発明の一実施形態に係る関連データ生成処理の流れを示したフロー図である。本発明の一実施形態に係るステップＳ００８の処理その１の流れを示したフロー図である。本発明の一実施形態に係るステップＳ００８の処理その２の流れを示したフロー図である。本発明の一実施形態に係る関連データ生成装置の表示画面の一例を示した図である。本発明の他の実施形態（第二実施形態）に係る関連データ生成処理の流れを示したフロー図である。本発明の他の実施形態（第二実施形態）に係るキーワード別共起語データ７００を用いて生成された共起語データ７１０を示した図である。本発明の他の実施形態（第二実施形態）に係るステップＳ０６０の処理の流れを示したフロー図である。本発明の他の実施形態（第二実施形態）に係る関連データ生成装置の表示画面の一例を示した図である。本発明の他の実施形態（第三実施形態）に係るトレンド度データの一例を示した図である。本発明の他の実施形態（第三実施形態）に係るトレンド度算出処理の流れを示したフロー図である。本発明の他の実施形態（第三実施形態）に係る一致度算出処理（ステップＳ０８７の処理）の流れを示したフロー図である。本発明の他の実施形態（第三実施形態）に係る一致度算出処理（ステップＳ０８８の処理）の流れを示したフロー図である。本発明の他の実施形態（第三実施形態）に係るトレンド度を示すアイコンが表示された表示画面の一例を示した図である。

以下、本発明の一実施形態に係る関連データ生成装置について説明する。

＜第１実施形態＞
図１は、本実施形態に係る関連データ生成装置１００を含む関連データ生成システムの概略構成の一例を示した図である。関連データ生成システムは、関連データ生成装置１００と、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）サーバ１０００と、ユーザ端末２０００を有している。

関連データ生成装置１００は、ＳＮＳサーバ１０００から取得した投稿データを用いて、所定のキーワードと共に投稿データ内で使用される共起語が関連語として格納された関連データを生成する装置である。なお、本実施形態では、関連データ生成装置１００による処理の一例としてＰＯＩ（ＰｏｉｎｔＯｆＩｎｔｅｒｅｓｔ）の名称をキーワードとした関連データの生成について説明する。

ＳＮＳサーバ１０００は、例えば、ソーシャル・ネットワーキング・サービス（ＳＮＳ）をユーザ（投稿者）に提供するための様々な機能を備えた装置である。ＳＮＳサーバ１０００は、ユーザ端末２０００から取得した投稿データを、サーバ１０００内の記憶装置に格納している。なお、関連データ生成システムは、このようなＳＮＳサーバ１０００と、関連データ生成装置１００およびユーザ端末２０００とがインターネットや専用回線など所定のネットワーク網Ｎで通信可能に相互接続されている。

図２は、関連データ生成装置１００のハードウェア構成の一例を示した図である。関連データ生成装置１００は、演算処理装置１と、記憶装置２と、通信装置３と、入力装置４と、表示装置５とを有している。また、関連データ生成装置１００は、通信装置３を介して、ＳＮＳサーバ１０００など外部装置と通信可能に接続されている。

演算処理装置１は、関連データ生成装置１００の様々な処理を行う中心的なユニットである。具体的には、演算処理装置１は、通信装置３を介して、所定期間内に投稿された投稿データをＳＮＳサーバ１０００から取得する。また、演算処理装置１は、投稿データを用いて、所定のキーワードと共に投稿データ内で使用される共起語を特定する。

また、演算処理装置１は、特定した共起語を関連語および関連語の類似語として関連データに格納するか否かの判定処理を行う。また、演算処理装置１は、判定処理の結果に応じて関連データを生成および更新する。

なお、演算処理装置１は、数値演算、各装置およびセンサの制御など、様々な処理を実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６と、プログラムやデータ、演算結果などを一時的に格納するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７と、プログラムやデータなどを格納するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８とを有している。また、ＣＰＵ６、ＲＡＭ７、ＲＯＭ８は、バス９によって相互に接続されている。

記憶装置２は、関連データ生成装置１００が行う処理に用いられる様々な情報を格納する。具体的には、記憶装置２は、投稿データ２００と、ＰＯＩデータ３００と、共起語データ４１０および共起語データ７１０と、期間別共起語データ４００と、キーワード別共起語データ７００と、関連データ５００と、トレンド度データ９００とを格納している。

通信装置３は、外部装置（例えば、ＳＮＳサーバ１０００）との間で通信を行う装置である。

入力装置４は、関連データ生成装置１００の管理者などから指示入力を受け付けるための装置であり、キーボード、マウスおよびタッチパネルなどである。

表示装置５は、関連データ生成装置１００の出力情報を表示するための装置であって、液晶ディスプレイなどである。

以上、関連データ生成装置１００のハードウェア構成について説明した。

次に、関連データ生成装置１００の機能ブロックについて説明する。図３は、関連データ生成装置１００の機能構成の一例を示した機能ブロック図である。なお、関連データ生成装置１００の機能ブロックは、演算処理装置１に実装されたＣＰＵ６が読み込んだ所定のプログラムを実行することにより構築される。そのため、ＲＯＭ８および記憶装置２には、各機能部の処理を実行するためのプログラムが記憶されている。

また、関連データ生成装置１００の機能ブロックは、本実施形態において実現される関連データ生成装置１００の機能を理解容易にするために、主な処理内容に応じて分類したものである。また、各機能の分類の仕方やその名称によって、本発明が制限されることはない。なお、関連データ生成装置１００の各構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、一つの構成要素がさらに多くの処理を実行するように分類することもできる。

また、関連データ生成装置１００の機能部は、ハードウェア（ＡＳＩＣなど）により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。

関連データ生成装置１００は、演算部１０と、記憶部２０と、通信部４０とを有している。また、演算部１０は、投稿データ取得部１１と、共起語データ生成部１２と、関連データ生成部１３と、表示情報生成部１５とを有している。なお、トレンド度データ生成部１４については、後述の第三実施形態で説明する。また、演算部１０は、演算処理装置１により実現される。

投稿データ取得部１１は、例えば、ＳＮＳサーバ１０００などからユーザの投稿データ２００を取得する機能部である。具体的には、投稿データ取得部１１は、ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｉｎｇＩｎｔｅｒｆａｃｅ）やクローリングといった手法により、ＳＮＳサーバ１０００などから定期的（例えば、１週間に１度）に投稿データ２００を取得する。また、投稿データ取得部１１は、取得した投稿データ２００を記憶部２０に格納する。

共起語データ生成部１２は、共起語データを生成する機能部である。具体的には、共起語データ生成部１２は、所定のキーワードおよびキーワードと共に投稿データ２００内で使用されている共起語を特定する。また、共起語データ生成部１２は、特定した共起語が格納された共起語データを生成する。

関連データ生成部１３は、関連データ５００を生成および更新する機能部である。具体的には、関連データ生成部１３は、共起語データに格納されている共起語を関連データ５００の通常関連語文字列欄または関連語類似名文字列欄に格納するか否かの判定処理を行う。また、関連データ生成部１３は、通常関連語および関連語類似名のスコアを算出する。また、関連データ生成部１３は、通常関連語文字列、関連語類似名文字列およびこれらのスコアをキーワードと対応付けて格納した関連データ５００を生成する。

表示情報生成部１５は、表示装置５やユーザ端末２０００のディスプレイに表示する表示情報を生成する機能部である。具体的には、表示情報生成部１５は、共起語を通常関連語文字列または関連語類似名文字列として関連データ５００に格納するか否かの確認メッセージを含む表示情報を生成する。

また、記憶部２０は、投稿データ取得部１１により取得された投稿データ２００と、予め記憶部２０に格納されたマスターデータであるＰＯＩデータ３００と、共起語データ生成部１２により生成された共起語データ４１０および期間別共起語データ４００と、関連データ生成部１３により生成された関連データ５００とを格納する。なお、キーワード別共起語データ７００については、後述の第二実施形態で説明する。また、トレンド度データ生成部１４により生成されたトレンド度データ９００については、後述の第三実施形態で説明する。

図４は、投稿データ２００の一例を示した図である。ＳＮＳサーバ１０００に格納されている投稿データ２００は、定期的（例えば、１週間に１度）に関連データ生成装置１００により取得され、関連データ生成装置１００の記憶装置２に格納される。投稿データ２００は、ユーザの投稿内容を含むデータである。具体的には、投稿データ２００は、日時欄２０１と、投稿者ＩＤ欄２０２と、投稿本文欄２０３とが対応付けられたレコードを有している。

日時欄２０１に格納された情報は、ＳＮＳサーバ１０００が投稿データ２００を受信した日時を特定する情報である。投稿者ＩＤ欄２０２に格納された情報は、各種のＳＮＳにおいて、ユーザごとに割り当てられたＩＤであり、一意にユーザを特定する情報である。投稿本文欄２０３に格納された情報は、投稿内容を示す文字列情報である。なお、投稿データ２００は、関連データ生成処理に用いられる。関連データ生成処理の詳細は後述する。

図５は、ＰＯＩデータ３００の一例を示した図である。ＰＯＩデータ３００は、予め記憶装置２に格納されているマスター情報である。ＰＯＩデータ３００は、興味や関心の対象となる所定施設の施設名や住所等を含む情報である。なお、興味や関心の対象はユーザ層に応じて異なるため、ＰＯＩデータ３００は、様々なカテゴリ（例えば、飲食店、エンターテイメント施設、公園など）の施設情報を含んでいる。具体的には、ＰＯＩデータ３００は、ＰＯＩＩＤ欄３０１と、ＰＯＩ名称欄３０２と、カテゴリ欄３０３と、経度欄３０４と、緯度欄３０５と、住所欄３０６とを有している。

ＰＯＩＩＤ欄３０１に格納された情報は、ＰＯＩを一意に特定するための情報である。ＰＯＩ名称欄３０２に格納された情報は、ＰＯＩの名称を特定する情報である。カテゴリ欄３０３に格納された情報は、ＰＯＩの属するカテゴリ（例えば、飲食店やエンターテイメント施設など）を特定する情報である。経度欄３０４および緯度欄３０５に格納された情報は、各々、ＰＯＩの所在位置を示す経度および緯度を特定する情報である。なお、本実施形態では、ＰＯＩの所在位置を特定する情報として経度および緯度を使用しているが、地理学的に場所を特定できる数値であれば、経度および緯度でなくても良い。住所欄３０６に格納された情報は、ＰＯＩの住所を特定する情報である。

図６は、共起語データ４１０および期間別共起語データ４００の一例を示した図である。共起語データ４１０および期間別共起語データ４００は、関連データ生成処理の中で、共起語データ生成部１２により生成される。共起語データ４１０および期間別共起語データ４００は、所定のキーワードと共に投稿データ２００内で使用される共起語を格納した情報である。具体的には、共起語データ４１０および期間別共起語データ４００は各々、キーワード表示欄４０１と、期間表示欄４０２と、共起語欄４０３と、頻度欄４０４と、を有している。

キーワード表示欄４０１に格納された情報は、投稿データ２００から共起語を検索する際の基となるキーワードを特定する情報であって、本実施形態では、所定のＰＯＩ名称が該当する。期間表示欄４０２に格納された情報は、共起語の検索対象となる投稿データ２００の投稿期間を特定する情報である。共起語欄４０３に格納された情報は、所定のキーワードを基に投稿データ２００から検索された共起語を示す情報である。頻度欄４０４に格納された情報は、対応付けられている共起語の出現頻度を示す情報である。具体的には、頻度欄４０４には、所定期間内に投稿された当該共起語を含む投稿データ２００の数が格納される。

図７は、関連データ５００の一例を示した図である。関連データ５００は、関連データ生成処理により生成および更新される。関連データ５００は、所定のキーワードと関連度が高い関連語と、所定のキーワードと類似度が高い類似語と、これらのスコアとを格納したデータである。具体的には、関連データ５００は、キーワード欄５０１と、少なくとも２組以上の通常関連語文字列欄５０２および通常関連語スコア欄５０３と、少なくとも１組以上の関連語類似名文字列欄５０４および関連語類似名スコア欄５０５とが対応付けられたレコードを有している。

キーワード欄５０１に格納された情報は、キーワードを特定するための情報であり、本実施形態では、ＰＯＩデータ３００（図５）のＰＯＩＩＤ欄３０１に格納されたＰＯＩＩＤと共通の情報が格納されている。通常関連語文字列欄５０２に格納された情報は、通常関連語を特定する文字列情報である。通常関連語スコア欄５０３に格納された情報は、当該スコア欄に対応付けられた通常関連語のスコアを示す情報である。例えば、通常関連語スコア欄５０３には、０または関連データ生成処理で算出されたスコアが格納される。なお、通常関連語スコア欄５０３に０が格納されている場合、通常関連語文字列欄５０２に通常関連語が未格納であることを意味する。関連語類似名文字列欄５０４に格納された情報は、関連語類似名を特定する文字列情報である。関連語類似名スコア欄５０５に格納された情報は、当該スコア欄が対応付けられた関連語類似名のスコアを示す情報である。関連語類似名スコア欄５０５には、０または関連データ生成処理で算出されたスコアが格納される。なお、関連語類似名スコア欄５０５に０が格納されている場合、関連語類似名欄５０４に関連語類似名が未格納であること意味する。

なお、記憶部２０は、記憶装置２、ＲＡＭ７およびＲＯＭ８により実現される。

通信部４０は、外部装置（例えば、ＳＮＳサーバ１０００）との間で通信を行う機能部である。通信部４０は、通信装置３により実現される。

以上、関連データ生成装置１００の機能ブロックについて説明した。

［動作の説明］
次に、関連データ生成処理について説明する。図８は、関連データ生成処理の流れを示したフロー図である。関連データ生成処理は、関連データ生成装置１００で実行されるバッチ処理により、定期的（例えば、１週間に１度）に行われる。

関連データ生成処理が開始されると、共起語データ生成部１２は、ＰＯＩデータ３００に含まれるＰＯＩの数（ｐ）を特定する（ステップＳ００１）。例えば、共起語データ生成部１２は、ＰＯＩデータ３００に含まれるレコード数によりＰＯＩの数（ｐ）を特定する。

次に、共起語データ生成部１２は、所定番目（Ｎ）のＰＯＩ名称を取得する（ステップＳ００２）。例えば、共起語データ生成部１２は、ＰＯＩデータ３００の最上位のレコードに格納されているＰＯＩ名称を第１番目として所定番目のＰＯＩ名称を取得する。

次に、共起語データ生成部１２は、使用する投稿データ２００の期間を設定する（ステップＳ００３）。具体的には、共起語データ生成部１２は、相互に異なる時期の所定の期間（例えば、１ヶ月間）を少なくとも２つ以上設定する。例えば、本実施形態の共起語データ生成部１２は、時期が３ヶ月異なり（例えば、４月と７月）、各々１ヶ月間（各月の１日から３１日までの１ヶ月間）の２つの期間（Ａ１およびＡ２）を設定する。なお、Ａ２は、Ａ１よりも現在に近い（最近の）期間であるものとする。また、設定する時期および期間は、予め記憶装置２またはＲＯＭ８に格納されていれば良い。

次に、共起語データ生成部１２は、設定した期間内の投稿データ２００を記憶装置２から取得する（ステップＳ００４）。

次に、共起語データ生成部１２は、投稿データ２００およびＰＯＩ名称を用いて共起語データを生成する（ステップＳ００５）。具体的には、共起語データ生成部１２は、設定した各期間に投稿された投稿データ２００から、ステップＳ００２で取得したＰＯＩ名称が含まれる投稿データ２００を抽出する。また、共起語データ生成部１２は、抽出した投稿データ２００に含まれる語彙（例えば、名詞に該当する語句）を全て抽出し、抽出した語彙が少なくとも１つ含まれている投稿データ２００の数を頻度として各語彙ごとに算出する。なお、共起語データ生成部１２は、例えば、直近の期間（Ａ２）の投稿データ２００から抽出した語彙の頻度を、直近の期間よりも前の期間（Ａ１）の投稿データ２００から抽出した語彙の頻度よりも高くする重み付けを行っても良い。

また、共起語データ生成部１２は、期間（Ａ１およびＡ２）ごとに、投稿データ２００から抽出した語彙およびその頻度を対応付けた期間別共起語データ４００を生成する。また、共起語データ生成部１２は、全ての期間別共起語データ４００に含まれる同一の語彙であって、かつ、各期間別共起語データ４００の頻度を加算した頻度の総数が多い順に所定数（例えば、５つ）の語彙を特定する。また、共起語データ生成部１２は、特定した語彙および当該語彙の頻度を対応付けて、各々、共起語欄４０３および頻度欄４０４に格納した共起語データ４１０を生成する。

次に、関連データ生成部１３は、共起語データに含まれる共起語数（ｃ）を特定する（ステップＳ００６）。例えば、関連データ生成部１３は、共起語データ４１０のレコード数から共起語データに含まれる共起語数（ｃ）を特定する。

次に、関連データ生成部１３は、所定番目（ｎ）の共起語を対象共起語として取得する（ステップＳ００７）。具体的には、関連データ生成部１３は、共起語データ４１０の最上位に格納されている共起語を第１番目として所定番目の共起語を取得する。

次に、関連データ生成部１３は、対象共起語を通常関連語として関連データ５００に格納するか否かの判定処理を行う（ステップＳ００８）。なお、かかる判定処理の詳細は後述する。

次に、関連データ生成部１３は、全ての共起語についてステップＳ００８の判定処理を行ったか否かを判定する（ステップＳ００９）。すなわち、関連データ生成部１３は、ｎ＝ｃの関係が成立するか否かを判定する。そして、全ての共起語についてステップＳ００８の判定処理を行っていないと判定した場合、すなわち、ｎ≠ｃである場合（ステップＳ００９でＮｏ）、関連データ生成部１３は、ｎに１を加算することで（ステップＳ０１０）、取得する共起語の順番を１つ繰り下げ、次番目の共起語を対象共起語として取得する（ステップＳ００７）。また、関連データ生成部１３は、全ての共起語についてステップＳ００８の判定処理を行ったと判定するまでステップＳ００７〜ステップＳ０１０の処理を繰り返し実行する。

また、全ての共起語についてステップＳ００８の判定処理を行ったと判定した場合（ステップＳ００９でＹｅｓ）、関連データ生成部１３は、全てのＰＯＩについてステップＳ００２〜ステップＳ０１０の処理を行ったか否かを判定する（ステップＳ０１１）。すなわち、関連データ生成部１３は、Ｎ＝ｐの関係が成立するか否かを判定する。そして、全てのＰＯＩについて処理を行っていない場合（ステップＳ０１１でＮｏ）、関連データ生成部１３は、Ｎに１を加算することで（ステップＳ０１２）、取得するＰＯＩ名称の順番を１つ繰り下げ、次番目のＰＯＩ名称をＰＯＩデータ３００から取得する。

一方で、全てのＰＯＩ名称について処理を行ったと判定した場合（ステップＳ０１１でＹｅｓ）、関連データ生成部１３は、本フローを終了する。

次に、対象共起語を通常関連語として関連データ５００に格納するか否かの判定処理（以下、ステップＳ００８の処理その１という）について説明する。図９は、ステップＳ００８の処理その１の流れを示したフロー図である。

かかる処理が開始されると、関連データ生成部１３は、対象共起語が通常関連語として関連データ５００に既に格納されているか否かを判定する（ステップＳ０２１）。具体的には、関連データ生成部１３は、ステップＳ００７で取得した対象共起語と、関連データ５００の通常関連語文字列欄に格納されている情報とを比較し、対象共起語が既に通常関連語文字列欄に格納されているか否かを判定する。そして、対象共起語が既に通常関連語として格納されていると判定した場合（ステップＳ０２１でＹｅｓ）、関連データ生成部１３は、「ステップＳ００８の処理その２」へ処理を移行する。なお、「ステップＳ００８の処理その２」については後述する。

一方で、対象共起語が通常関連語として格納されていないと判定した場合（ステップＳ０２１でＮｏ）、関連データ生成部１３は、処理をステップＳ０２２に移行する。

次に、関連データ生成部１３は、対象共起語は、時間的変動が小さく、かつ、頻度が高いか否かを判定する（ステップＳ０２２）。具体的には、関連データ生成部１３は、以下の数式１を用いて、かかる判定処理を行う。

なお、ｘは各期間の頻度を加算した総頻度すなわち共起語データの頻度を示す。また、σ(ｘ(ｐ))²は、ｐ番目のＰＯＩ名称の各期間（Ａ１〜ＡＮ）における頻度の分散を示す。また、ＡＮＤを挟んで右側のｘ(ｐ)の上付バーは、ｐ番目のＰＯＩ名称の各期間（Ａ１〜ＡＮ）における頻度の平均を示す。また、αおよびβは、所定の閾値（αを第１の閾値、βを第２の閾値とする）を示す。

数式１の条件を満たしている場合、関連データ生成部１３は、対象共起語は時間的変動が小さく、かつ、頻度が高いと判定する（ステップＳ０２２でＹｅｓ）。この場合、関連データ生成部１３は、対象共起語のスコアを１００として算出し（ステップＳ０２３）、処理をステップＳ０２６に移行する。

一方で、数式１の条件を満たしていない場合、関連データ生成部１３は、対象共起語は時間的変動が小さく、かつ、頻度が高いという条件の少なくともいずれか一方が満たされていないと判定する（ステップＳ０２２でＮｏ）。この場合、関連データ生成部１３は、処理をステップＳ０２４に移行する。

次に、関連データ生成部１３は、対象共起語の直近期間（Ａ２）の頻度がその前の期間（Ａ１）の頻度よりも増大しているか否かを判定する（ステップＳ０２４）。直近期間で頻度が増大している場合、一時的であっても頻度が増大しているため、通常関連語の格納候補に挙げるのが適切と考えられるからである。具体的には、関連データ生成部１３は、以下の数式２を用いて、かかる判定処理を行う。

なお、ｘ(ｐ、ｎ)は、ｐ番目のＰＯＩ名称の直近の期間（ＡＮ）の頻度を示す。ｘ(ｐ、ｎ−１)は、ｐ番目のＰＯＩ名称の直近の期間のその前期間（Ａ１）の頻度を示す。また、γおよびδは、γ＜β＜δの関係を満たす所定の閾値（γを第３の閾値、δを第４の閾値とする）を示す。

数式２の条件を満たしていない場合、関連データ生成部１３は、直近期間（Ａ２）の頻度がその前の期間（Ａ１）よりも増大していないと判定する（ステップＳ０２４でＮｏ）。この場合、関連データ生成部１３は、本フローを終了する。

一方で、数式２の条件を満たしている場合、関連データ生成部１３は、直近期間（Ａ２）の頻度がその前の期間（Ａ１）よりも増大していると判定する（ステップＳ０２４でＹｅｓ）。この場合、関連データ生成部１３は、処理をステップＳ０２５に移行する。

次に、関連データ生成部１３は、対象共起語のスコアを算出する（ステップＳ０２５）。具体的には、関連データ生成部１３は、以下の数式３を用いて対象共起語のスコアを算出する。また、関連データ生成部１３は、対象共起語のスコアを算出すると、処理をステップＳ０２６に移行する。

なお、ｍａｘ(ｘ(ｎ))は、直近期間ＡＮにおける期間別共起語データ４００に格納された共起語の頻度の最大値を示す。なお、スコアの値は、０より大きく、１以下の値をとるものとする。

次に、関連データ生成部１３は、関連データ５００に通常関連語スコアが０の組が存在するか否かを判定する（ステップＳ０２６）。そして、スコアが０の組が存在すると判定した場合（ステップＳ０２６でＹｅｓ）、関連データ生成部１３は、通常関連語スコアが０の組に対象共起語およびスコアを格納し（ステップＳ０２７）、本フローを終了する。具体的には、関連データ生成部１３は、０が格納されている通常関連語スコア欄５０３および当該スコア欄５０３と１組になっている通常関連語文字列欄５０２を特定する。また、関連データ生成部１３は、特定した通常関連語文字列欄５０２に対象共起語を格納し、特定した通常関連語スコア欄５０３にステップＳ０２３で算出したスコアまたはステップＳ０２５で算出したスコアを格納する。

一方で、関連データ５００に通常関連語スコアが０の組が存在しないと判定した場合（ステップＳ０２６でＮｏ）、関連データ生成部１３は、ステップＳ０２３またはステップＳ０２５で算出したスコアが、既に格納されている通常関連語のスコアよりも大きいか否かを判定する（ステップＳ０２８）。そして、算出したスコアが既に格納されている通常関連語のスコアよりも大きくないと判定した場合（ステップＳ０２８でＮｏ）、関連データ生成部１３は、本フローを終了する。

一方で、算出したスコアが既に格納されている通常関連語のスコアよりも大きいと判定した場合（ステップＳ０２８でＹｅｓ）、関連データ生成部１３は、通常関連語スコアが最小値の組に対象共起語およびスコアを格納する（ステップＳ０２９）。具体的には、関連データ生成部１３は、既に格納されている通常関連語スコアの値を比較し、その最小値のスコアが格納されている通常関連語スコア欄５０３および当該スコア欄５０３と１組になっている通常関連語文字列欄５０２を特定する。また、関連データ生成部１３は、特定した通常関連語文字列欄５０２に対象共起語を格納し、特定した通常関連語スコア欄５０３にステップＳ０２３で算出したスコアまたはステップＳ０２５で算出したスコアを格納する。

なお、ステップＳ０２７およびステップＳ０２９の処理において、表示情報生成部１５は、通常関連語を関連データ５００に登録するか否かを確認するメッセージ画面情報を生成しても良い。図１１は、関連データ生成装置１００の表示画面６００の一例を示した図である。表示情報生成部１５は、例えば、ＰＯＩＩＤ６０１と、ＰＯＩ名称６０２と、「通常関連語ＸＸＸレンジャーを関連データに追加しますか？」といったメッセージ６０３と、「ＹＥＳ」または「ＮＯ」の指示受付ボタン６０４とを表示する表示情報を生成し、表示装置５に出力する。関連データ生成装置１００の管理者は、かかるメッセージを確認した上で、「ＹＥＳ」の指示受付ボタン６０４を選択することにより、関連データ生成部１３は、通常関連語を関連データ５００の通常関連語文字列欄５０２に格納する。

次に、対象共起語を通常関連語として関連データ５００に格納するか否かの判定処理であって、対象共起語が通常関連語として既に格納されている場合（以下、ステップＳ００８の処理その２という）について説明する。図１０は、ステップＳ００８の処理その２の流れを示したフロー図である。

かかる処理が開始されると、関連データ生成部１３は、対象共起語と一致する通常関連語のスコアが１００であるか否かを判定する（ステップＳ０３１）。具体的には、関連データ生成部１３は、対象共起語と一致する通常関連語文字列欄５０２と１組になっている通常関連語スコア欄５０３に格納されているスコアの値が１００であるか否かを判定する。そして、かかるスコアの値が１００であると判定した場合（ステップＳ０３１でＹｅｓ）、関連データ生成部１３は、処理をステップＳ０３２に移行する。

一方で、かかるスコアの値が１００でないと判定した場合（ステップＳ０３１でＮｏ）、関連データ生成部１３は、処理をステップＳ０３５に移行する。

ステップＳ０３２では、関連データ生成部１３は、通常関連語の各期間（Ａ１、Ａ２）の頻度が所定の閾値よりも高いか否かを判定する。具体的には、関連データ生成部１３は、各期間（Ａ１、Ａ２）に投稿された投稿データ２００のうち、通常関連語を含む投稿データ２００の数により、通常関連語の各期間における頻度を算出する。また、関連データ生成部１３は、算出した通常関連語の頻度を以下の数式４に代入することにより、通常関連語の各期間（Ａ１、Ａ２）の頻度が所定の閾値よりも高いか否かを判定する。

なお、ｘ(ｐ、ｎ−１)は、前述と同様、直近期間のその前の期間（Ａ１）における通常関連語の頻度を示す。また、ｘ(ｐ、ｎ)は、前述と同様、直近期間（Ａ２）における通常関連語の頻度を示す。また、γは、前述と同様、所定の閾値を示す。

関連データ生成部１３は、算出した通常関連語の各期間における頻度が所定の閾値よりも高いと判定した場合（ステップＳ０３２でＹｅｓ）、かかる通常関連語のスコアに１００を設定する（ステップＳ０３４）。具体的には、関連データ生成部１３は、通常関連語文字列欄５０２と１組となっている通常関連語スコア欄５０３に１００を格納し、本フローを終了する。一方で、算出した通常関連語の各期間における頻度が所定の閾値よりも高くないと判定した場合（ステップＳ０３２でＮｏ）、関連データ生成部１３は、通常関連語文字列欄５０２と１組となっている通常関連語スコア欄５０３に０を格納し（ステップＳ０３３）、本フローを終了する。

また、ステップＳ０３５では、関連データ生成部１３は、通常関連語は時間的変動が小さく、かつ、頻度が高いか否かを判定する（ステップＳ０３５）。具体的には、関連データ生成部１３は、各期間（Ａ１、Ａ２）に投稿された投稿データ２００のうち、通常関連語を含む投稿データ２００の数により、通常関連語の各期間における頻度を算出する。また、関連データ生成部１３は、算出した通常関連語の各期間における頻度を前述の数式１に代入することにより、ステップＳ０３５の判定処理を行う。なお、かかる判定は、前述のステップＳ２１と同様であるため、詳細な説明は省略する。

そして、通常関連語は時間的変動が小さく、かつ、頻度が高いと判定した場合（ステップＳ０３５でＹｅｓ）、関連データ生成部１３は、通常関連語文字列欄５０２と１組となっている通常関連語スコア欄５０３に１００を設定し、本フローの処理を終了する。一方で、通常関連語は時間的変動が小さく、かつ、頻度が高いという条件の少なくともいずれか一方が満たされていないと判定した場合（ステップＳ０３５でＮｏ）、関連データ生成部１３は、処理をステップＳ０３７に移行する。

次に、関連データ生成部１３は、通常関連語の直近期間（Ａ２）の頻度がその前の期間（Ａ１）の頻度よりも増大しているか否かを判定する（ステップＳ０３７）。直近期間で頻度が増大している場合、一時的であっても頻度が増大しているため、通常関連語の格納を維持するのが適切な場合があるからである。具体的には、関連データ生成部１３は、前述のステップＳ０３２と同様に、各期間（Ａ１、Ａ２）における通常関連語の頻度を算出し、算出した頻度を前述の数式２に代入することにより判定処理を行う。

そして、数式２の条件を満たしていない場合、関連データ生成部１３は、直近期間（Ａ２）の頻度がその前の期間（Ａ１）の頻度よりも増大していないと判定する（ステップＳ０３７でＮｏ）。この場合、関連データ生成部１３は、通常関連語文字列欄５０２と１組となっている通常関連語スコア欄５０３に０を設定し（ステップＳ０３８）、本フローの処理を終了する。

一方で、数式２の条件を満たしている場合、関連データ生成部１３は、直近期間（Ａ２）の頻度がその前の期間（Ａ１）の頻度よりも増大していると判定する（ステップＳ０３７でＹｅｓ）。この場合、関連データ生成部１３は、通常関連語のスコアを算出する（ステップＳ０３９）。具体的には、関連データ生成部１３は、直近期間（Ａ２）における期間別共起語データ４００に格納された共起語の頻度の最大値を特定する。また、関連データ生成部１３は、特定した共起語の頻度の最大値と、ステップＳ０３５で算出した通常関連語の頻度とを前述の数式３に代入することにより、通常関連語のスコアを算出する。

次に、関連データ生成部１３は、算出した通常関連語のスコアを設定する（ステップＳ０４０）。具体的には、関連データ生成部１３は、算出した通常関連語のスコアを、当該通常関連語文字列欄５０２と１組となっている通常関連語スコア欄５０３に格納し、本フローを終了する。

以上、第一実施形態に係る関連データ生成処理について説明した。

このような関連データ生成装置１００によれば、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データ５００を生成することができる。特に、関連データ生成装置１００は、所定のキーワードと共に投稿データ２００内で使用される共起語が関連データ５００として登録すべきものであるか否かを判定する。具体的には、関連データ生成装置１００は、共起語の出願頻度について時間的変動が小さく、かつ、頻度が高いか否かの判定結果に応じて関連データ５００への登録を行う。

また、関連データ生成装置１００は、たとえ共起語の出現頻度について時間的変動が大きい場合や頻度が低い場合であっても、直近の期間において出現頻度が増加していれば、所定のスコアを対応付けた上で関連データ５００に登録する。これにより、関連データ５００に登録される通常関連語の中でもスコアに応じてランクを分けることができ、既に登録されている通常関連語を更新する際の比較値とすることができる。その結果、関連データ５００は、常に、鮮度の高い関連語を含んでいる状態を維持することができる。

＜第二実施形態＞
次に、本発明の第二実施形態に係る関連データ生成装置１００について説明する。前述の第一実施形態では、投稿データ２００内で所定のキーワード（例えば、ＰＯＩ名称）と共に用いられる共起語を通常関連語として関連データ５００に格納したが、本実施形態に係る関連データ生成装置１００は、所定のキーワードに類似する類似語を関連データ５００に格納する。なお、関連データ生成装置１００の基本的なハードウェア構成および機能ブロックについては前述の第一実施形態と同様であるため、これらの詳細な説明は省略する。

図１２は、第二実施形態に係る関連データ生成処理の流れを示したフロー図である。関連データ生成処理は、関連データ生成装置１００で実行されるバッチ処理により、定期的（例えば、１週間に１度）に行われる。

関連データ生成処理が開始されると、共起語データ生成部１２は、ＰＯＩデータ３００に含まれるＰＯＩの数（ｐ）を特定し（ステップＳ０５１）、所定番目（Ｎ）のＰＯＩ名称を取得する（ステップＳ０５２）。なお、これらの処理は、前述のステップＳ００１〜ステップＳ００２と同様であるため、説明は省略する。

次に、共起語データ生成部１２は、使用する投稿データ２００の期間を設定する（ステップＳ０５３）。具体的には、共起語データ生成部１２は、所定時期の所定の期間（例えば、１ヶ月間）を１つ設定する。なお、設定する時期および期間は、予め記憶装置２またはＲＯＭ８に格納されているものとする。

次に、共起語データ生成部１２は、設定した期間内の投稿データ２００を記憶装置２から取得する（ステップＳ０５４）。

次に、共起語データ生成部１２は、取得したＰＯＩ名称のＰＯＩに対応付けられている通常関連語を特定する（ステップＳ０５５）。具体的には、ステップＳ０５２で特定したＰＯＩ名称を特定するＰＯＩＩＤが格納された関連データ５００のレコードから、通常関連語文字列欄５０４に格納されている通常関連語を特定する。

次に、共起語データ生成部１２は、特定した通常関連語が２つ以上あるか否かを判定する（ステップＳ０５６）。すなわち、共起語データ生成部１２は、関連データ５００の通常関連語スコア欄５０５に０より大きい値が格納されている組が少なくとも２つ以上あるか否かを判定する。そして、通常関連語が２つ以上ないと判定した場合（ステップＳ０５６でＮｏ）、共起語データ生成部１２は、処理をステップＳ０６３に移行する。一方で、通常関連語が２つ以上あると判定した場合（ステップＳ０５６でＹｅｓ）、共起語データ生成部１２は、処理をステップＳ０５７に移行する。

次に、共起語データ生成部１２は、設定期間の投稿データ２００と、通常関連語とを用いて共起語データを生成する（ステップＳ０５７）。具体的には、共起語データ生成部１２は、ステップＳ０５５で特定した通常関連語を各々キーワードとし、当該キーワードを含む設定期間内の投稿データ２００を抽出する。また、共起語データ生成部１２は、キーワードごとに、抽出した投稿データ２００に含まれる語彙（例えば、名詞に該当する語句）を全て抽出し、抽出した語彙が少なくとも１つ含まれている投稿データ２００の数を当該語彙の頻度として算出する。

また、共起語データ生成部１２は、抽出した語彙とその頻度とをキーワード別共起語データ７００の共起語欄７０３および頻度欄７０４に対応付けて格納する。すなわち、共起語データ生成部１２は、少なくとも２つ以上のキーワード別共起語データ７００を生成する。また、共起語データ生成部１２は、全てのキーワード別共起語データ７００に含まれる同一の語彙であって、かつ、各キーワード別共起語データ７００の頻度を加算した頻度の総数が多い順に所定数（例えば、５つ）の語彙を特定する。また、共起語データ生成部１２は、特定した語彙を共起語欄７０３に格納し、算出した頻度を頻度欄７０４に格納した共起語データ７１０を生成する。

図１３は、キーワード別共起語データ７００を用いて生成された共起語データ７１０を示した図である。

次に、関連データ生成部１３は、共起語データに含まれる共起語数（ｃ）を特定し（ステップＳ０５８）、所定番目（ｎ）の共起語を対象共起語として取得する（ステップＳ０５９）。なお、ステップＳ０５８〜ステップＳ０５９の処理は前述のステップＳ００６〜ステップＳ００７の処理と同様であるため、説明を省略する。

次に、関連データ生成部１３は、対象共起語を関連語類似名として関連データ５００に格納するか否かの判定処理を行う（ステップＳ０６０）。なお、かかる判定処理の詳細は後述する。

次に、関連データ生成部１３は、全ての共起語についてステップＳ０６０の判定処理を行ったか否かを判定する（ステップＳ０６１）。すなわち、関連データ生成部１３は、ｎ＝ｃの関係が成立するか否かを判定する。そして、全ての共起語についてステップＳ０６０の判定処理を行っていないと判定した場合（ステップＳ０６１でＮｏ）、すなわち、ｎ≠ｃである場合、関連データ生成部１３は、ｎに１を加算することで（ステップＳ０６２）、取得する共起語の順番を１つ繰り下げ、次番目の共起語を対象共起語として取得する（ステップＳ０５９）。また、関連データ生成部１３は、全ての共起語についてステップＳ０６０の判定処理を行ったと判定するまでステップＳ００５９〜ステップＳ０６２の処理を繰り返し実行する。

また、全ての共起語についてステップＳ０６０の判定処理を行ったと判定した場合（ステップＳ０６１でＹｅｓ）、関連データ生成部１３は、全てのＰＯＩ名称についてステップＳ０５２〜ステップＳ０６１の処理を行ったか否かを判定する（ステップＳ０６３）。すなわち、関連データ生成部１３は、Ｎ＝ｐの関係が成立するか否かを判定する。そして、全てのＰＯＩ名称について処理を行っていないと判定した場合（ステップＳ０６３でＮｏ）、関連データ生成部１３は、Ｎに１を加算することで（ステップＳ０６４）、取得するＰＯＩ名称の順番を１つ繰り下げ、次番目のＰＯＩ名称をＰＯＩデータ３００から取得する。

一方で、全てのＰＯＩ名称について処理を行ったと判定した場合（ステップＳ０６３でＹｅｓ）、関連データ生成部１３は、本フローを終了する。

次に、対象共起語を関連語類似名として関連データ５００に格納するか否かの判定処理（以下、ステップＳ０６０の処理という）について説明する。図１４は、ステップＳ０６０の処理の流れを示したフロー図である。

かかる処理が開始されると、関連データ生成部１３は、対象共起語が関連語類似名として既に格納されているか否かを判定する（ステップＳ０７１）。具体的には、関連データ生成部１３は、ステップＳ０５９で取得した対象共起語と同一の関連語類似名が関連語類似名文字列欄５０４に格納されているか否かを判定する。そして、対象共起語が関連語類似名欄５０４に格納されていると判定した場合（ステップＳ０７１でＹｅｓ）、関連データ生成部１３は、本フローを終了する。一方で、対象共起語が関連語類似名欄５０４に格納されていないと判定した場合（ステップＳ０７１でＮｏ）、関連データ生成部１３は、対象共起語とＰＯＩ名称との類似度を算出する（ステップＳ０７２）。具体的には、関連データ生成部１３は、以下の数式５を用いて、ＰＯＩ名称に対する対象共起語の類似度を算出する。なお、類似度は、０以上１以下の値をとるものとする。

例えば、ＰＯＩ名称が「ＡＡＡＢＢＢ」であり、対象共起語が「ＡＡＡＢ」である場合、関連データ生成部１３は、類似度を４／４として算出する。また、ＰＯＩ名称が「ＡＡＡＢＢＢ」であり、対象共起語が「ＢＡＡＢ」である場合、対象共起語の先頭文字「Ｂ」はＰＯＩ名称の先頭文字「Ａ」と一致しない。そのため、関連データ生成部１３は、類似度を０／４として算出する。また、ＰＯＩ名称が「ＡＡＡＢＢＢ」であり、対象共起語が「ＡＢＣ」である場合、対象共起語の先頭以外の文字は飛ばして良いため、関連データ生成部１３は、類似度を２／３として算出する。

なお、ＰＯＩ名称や対象共起語が英語である場合、類似度は以下の数式６により算出される。

次に、関連データ生成部１３は、類似度が所定の閾値よりも大きいか否かを判定する（ステップＳ０７３）。具体的には、関連データ生成部１３は、ステップＳ０７２で算出した対象共起語の類似度が所定の閾値よりも大きいか否かを判定する。そして、かかる類似度が閾値よりも大きくないと判定した場合（ステップＳ０７３でＮｏ）、関連データ生成部１３は、本フローを終了する。一方で、類似度が閾値よりも大きいと判定した場合（ステップＳ０７３でＹｅｓ）、関連データ生成部１３は、算出した類似度を関連語類似名のスコアとする。

次に、関連データ生成部１３は、関連データ５００に関連語類似名スコアが０の組が存在するか否かを判定する（ステップＳ０７５）。具体的には、関連データ生成部１３は、関連データ５００に０が格納されている関連語類似名スコア欄５０５が存在するか否かを判定する。そして、かかる関連語類似名スコア欄５０５が存在する場合（ステップＳ０７５でＹｅｓ）、関連データ生成部１３は、０の組に対象共起語およびスコアを格納する（ステップＳ０７６）。具体的には、関連データ生成部１３は、０が格納されている関連語類似名スコア欄５０５および当該スコア欄５０５と１組となっている関連語類似名文字列欄５０４を特定する。また、関連データ生成部１３は、特定した関連語類似名文字列欄５０４に対象共起語を格納し、特定した通常関連語スコア欄５０５にステップＳ０７４で求めたスコアを格納する。また、関連データ生成部１３は、ステップＳ０７６の後で本フローを終了する。

一方で、関連データ５００に関連語類似名スコアが０の組が存在しない場合（ステップＳ０７５でＮｏ）、関連データ生成部１３は、ステップＳ０７４で求めたスコアが既に格納されている関連語類似名スコアよりも大きいか否かを判定する（ステップＳ０７７）。すなわち、関連データ生成部１３は、ステップＳ０７４で求めたスコアと、関連データ５００に既に格納されている関連語類似名スコアとを比較することにより、かかる判定を行う。そして、ステップＳ０７４で求めたスコアが関連語類似名スコアよりも大きくないと判定した場合（ステップＳ０７７でＮｏ）、関連データ生成部１３は、本フローを終了する。

一方で、ステップＳ０７４で求めたスコアが関連語類似名スコアよりも大きい場合（ステップＳ０７７でＹｅｓ）、関連データ生成部１３は、関連語類似名スコアが最小値の組に対象共起語およびスコアを格納する（ステップＳ０７８）。具体的には、関連データ生成部１３は、既に格納されている関連語類似名スコア同士を比較し、その最小値のスコアが格納されている関連語類似名スコア欄５０５および当該スコア欄５０５と１組になっている関連語類似名文字列欄５０４を特定する。また、関連データ生成部１３は、特定した関連語類似名文字列欄５０４に対象共起語を格納し、特定した関連語類似名スコア欄５０５にステップＳ０７４で求めたスコアを格納する。

また、関連語類似名およびスコアを関連データ５００に格納すると、関連データ生成部１３は、本フローを終了する。

なお、ステップＳ０７６およびステップＳ０７８の処理において、表示情報生成部１５は、関連語類似名文字列を関連データ５００に登録するか否かを確認するメッセージ画面情報を生成しても良い。図１５は、関連データ生成装置１００の表示画面８００の一例を示した図である。表示情報生成部１５は、例えば、ＰＯＩＩＤ８０１と、ＰＯＩ名称８０２と、「関連語類似名ＸＸＸレンジャーを関連データに追加しますか？」といったメッセージ８０３と、「ＹＥＳ」または「ＮＯ」の指示受付ボタン８０４とを表示する表示情報を生成し、表示装置５に出力する。関連データ生成装置１００の管理者は、かかるメッセージを確認した上で、「ＹＥＳ」の指示受付ボタン８０４を選択することにより、関連データ生成部１３は、関連語類似名を関連データ５００の関連語類似名文字列欄５０４に格納する。

このような関連データ生成装置１００によれば、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データ５００を生成することができる。特に、関連データ生成装置１００は、所定のキーワードと類似度が高い語彙を関連語類似名として関連データ５００に登録する。そのため、キーワードと共に投稿データ２００内で使用される通常関連語だけではなく、キーワードと類似する語彙すなわちキーワードの略称などについても関連データ５００に登録することができる。

＜第三実施形態＞
次に、本発明の第三実施形態に係る関連データ生成装置１００について説明する。第三実施形態に係る関連データ生成装置１００は、所定のキーワードで特定される対象（例えば、ＰＯＩなど）のトレンド度を算出する。具体的には、本実施形態に係る関連データ生成装置１００は、トレンド度データ生成部１４を機能部として有し、トレンド度データ生成部１４は、所定のキーワードと、前述の実施形態で生成した関連データ５００とを用いて、キーワードで特定される対象のトレンド度を算出する。なお、関連データ生成装置１００の基本的なハードウェア構成および機能ブロックについては前述の第一実施形態および第二実施形態と同様であるため、これらの詳細な説明は省略する。

トレンド度データ生成部１４は、所定のキーワードで特定される対象のトレンド度を含むトレンド度データ９００を生成する機能部である。具体的には、トレンド度データ生成部１４は、所定のキーワードと、当該キーワードに対応付けられた通常関連語文字列および通常関連語スコアと、関連語類似名文字列および関連語類似名スコアとを用いて、キーワードにより特定される対象のトレンド度を算出する。また、トレンド度データ生成部１４は、算出したトレンド度とキーワードとを対応付けたトレンド度データ９００を生成する。

図１６は、トレンド度データ９００の一例を示した図である。トレンド度データ９００は、トレンド度データ生成部１４により生成および更新される。トレンド度データ９００は、所定のキーワードで特定される対象のトレンド度を含む情報である。具体的には、トレンド度データ９００は、トレンド度の対象欄９０１と、トレンド度欄９０２とを有している。

トレンド度の対象欄９０１に格納された情報は、所定のキーワードにより特定される対象（例えば、所定のＰＯＩ）を特定する情報である。トレンド度欄９０２に格納された情報は、トレンドの度合いを示すトレンド度を特定する情報である。なお、トレンド度データ９００は、トレンド度データ生成処理の実行により、トレンド度データ生成部１４によって生成される。

図１７は、トレンド度算出処理の流れを示したフロー図である。トレンド度算出処理は、関連データ生成装置１００で実行されるバッチ処理により、所定のキーワードで特定される全ての対象（本実施形態ではＰＯＩ名称で特定される全てのＰＯＩ）について定期的（例えば、１週間に１度）に行われる。

トレンド度算出処理が開始されると、トレンド度データ生成部１４は、トレンド度を算出する対象のＰＯＩ（以下、対象ＰＯＩという）のＰＯＩ名称およびＰＯＩＩＤをＰＯＩデータ３００から特定する（ステップＳ０８１）。具体的には、トレンド度データ生成部１４は、バッチ処理によって特定された１つのＰＯＩのＰＯＩ名称およびＰＯＩＩＤをＰＯＩデータ３００から特定する。

次に、トレンド度データ生成部１４は、ＰＯＩＩＤが対応付けられた関連データ５００のレコードを特定する（ステップＳ０８２）。また、トレンド度データ生成部１４は、対象ＰＯＩのトレンド度をリセットする（ステップＳ０８３）。具体的には、トレンド度データ生成部１４は、トレンド度データ９００の対象ＰＯＩが格納されているレコードを特定し、特定したレコードのトレンド度欄９０２の値に０を設定する。

次に、トレンド度データ生成部１４は、所定期間内の投稿データ２００を取得する（ステップＳ０８４）。例えば、トレンド度データ生成部１４は、所定の時期（例えば、７月）における所定期間（例えば、１ヶ月間）に投稿された投稿データ２００を記憶部２０から取得する。なお、所定の時期および所定期間については、予め記憶装置２またはＲＯＭ８に格納されていれば良い。

次に、トレンド度データ生成部１４は、取得した投稿データ数（ｍ）を特定する（ステップＳ０８５）。また、トレンド度データ生成部１４は、所定番目（ｎ）の投稿データ２００を取得する（ステップＳ０８６）。具体的には、取得した各投稿データ２００に番号を割り当て、最小の番号が割り当てられている投稿データ２００を第１番目として所定番目の投稿データ２００を取得する。

次に、トレンド度データ生成部１４は、取得した投稿データ２００と、ＰＯＩ名称およびこれに対応付けられた関連語類似名との一致度（ｃ１）を算出する（ステップＳ０８７）。なお、ステップＳ０８７の一致度算出処理の詳細は後述する。

次に、トレンド度データ生成部１４は、取得した投稿データ２００と、ＰＯＩ名称に対応付けられた通常関連語との一致度（ｃ２）を算出する（ステップＳ０８８）。なお、ステップＳ０８８の一致度算出処理の詳細は後述する。

次に、トレンド度データ生成部１４は、総一致度（ｃ＝ｃ１＋ｃ２）を算出する（ステップＳ０８９）。具体的には、トレンド度データ生成部１４は、ステップＳ０８７の一致度算出処理で求めた一致度（ｃ１）と、ステップＳ０８８の一致度算出処理で求めた一致度（ｃ２）とを足し合わせることにより、総一致度を算出する。

次に、トレンド度データ生成部１４は、総トレンドに投稿日指数を乗算してトレンド度を算出する（ステップＳ０９０）。具体的には、トレンド度データ生成部１４は、投稿データ２００の投稿日に基づく所定の指数を一致度に乗算したトレンド度を算出する。なお、投稿日指数は、現在からより遠い過去の投稿データ２００ほど小さい値であり、かかる指数は予め記憶装置２またはＲＯＭ８に格納されているものする。

次に、トレンド度データ生成部１４は、全ての投稿データ２００についてステップＳ０８６〜ステップＳ０９０の処理を行ったか否かを判定する（ステップＳ０９１）。すなわち、トレンド度データ生成部１４は、ｎ＝ｍの関係が成立するか否かを判定する。そして、全ての投稿データ２００について処理を行っていないと判定した場合（ステップＳ０９１でＮｏ）、トレンド度データ生成部１４は、ｎに１を加算することで（ステップＳ０９２）、取得する投稿データ２００の順番を１つ繰り下げ、次番目の投稿データ２００を取得する。

一方で、全ての投稿データ２００について処理を行ったと判定した場合（ステップＳ０９１でＹｅｓ）、トレンド度データ生成部１４は、投稿データごとに算出した全てのトレンド度を加算した総トレンド度を算出し、トレンド度データ９００に登録する（ステップＳ０９３）。そして、ステップＳ０９３の処理が終了すると、トレンド度データ生成部１４は、本フローを終了する。

次に、一致度算出処理（ステップＳ０８７の処理）について説明する。図１８は、一致度算出処理（ステップＳ０８７の処理）の流れを示したフロー図である。かかる処理の開始に先立ち、トレンド度データ生成部１４は、例えば、ＲＡＭ７に一致度（ｃ１）を格納するための一致度格納領域を確保し、当該一致度格納領域の値に０をセットする。

次に、トレンド度データ生成部１４は、投稿データ２００の中にＰＯＩ名称が含まれているか否かを判定する（ステップＳ１０１）。具体的には、トレンド度データ生成部１４は、ステップＳ０８６で取得した投稿データ２００の投稿本文に、ステップＳ０８１で取得したＰＯＩ名称が含まれているか否かを判定する。そして、ＰＯＩ名称が含まれていると判定した場合（ステップＳ１０１でＹｅｓ）、トレンド度データ生成部１４は、一致度に１を設定し（ステップＳ１０２）、本フローを終了する。

一方で、ＰＯＩ名称が投稿データ２００に含まれていないと判定した場合（ステップＳ１０１でＮｏ）、トレンド度データ生成部１４は、ステップＳ０８２で特定したレコードに格納されている関連語類似名の数（ｓ）を特定する（ステップＳ１０３）。

次に、トレンド度データ生成部１４は、所定番目（ｎ）の関連語類似名を取得する（ステップＳ１０４）。具体的には、トレンド度データ生成部１４は、関連データ５００に格納されている関連語類似名のうち、最左列に格納されている関連語類似名を第１番目として所定番目の関連語類似名を取得する。

次に、トレンド度データ生成部１４は、投稿データ２００の中に、取得した関連語類似名が含まれているか否かを判定する（ステップＳ１０５）。具体的には、トレンド度データ生成部１４は、ステップＳ０８６で取得した投稿データ２００の投稿本文に、取得した関連語類似名文字列が含まれているか否かを判定する。そして、関連語類似名が含まれていないと判定した場合（ステップＳ１０５でＮｏ）、トレンド度データ生成部１４は、処理をステップＳ１０９に移行する。

一方で、関連語類似名文字列が投稿データ２００に含まれていると判定した場合（ステップＳ１０５でＹｅｓ）、トレンド度データ生成部１４は、関連語類似名のスコアを特定する（ステップＳ１０６）。具体的には、トレンド度データ生成部１４は、かかる関連語類似名欄５０４と１組となっている関連語類似名スコア欄５０５に格納されている値を特定する。

また、トレンド度データ生成部１４は、特定した関連語類似名のスコアが一致度（ｃ１）よりも大きいか否かを判定する（ステップＳ１０７）。例えば、一致度（ｃ１）に０がセットされた後で、最初にステップＳ１０７の判定処理が行われた場合、関連語類似名のスコアは、０が格納されている一致度（ｃ１＝０）よりも大きいことになる。したがって、トレンド度データ生成部１４は、関連語類似名のスコア＞０であると判定する。一方で、関連語類似名のスコアが後述のステップＳ１０８の処理によって既に一致度（ｃ１）に設定されている場合、トレンド度データ生成部１４は、既に設定されている一致度（ｃ１）と、今回のステップＳ１０６で特定した関連語類似名のスコアとの大小を比較する。

次に、トレンド度データ生成部１４は、全ての関連語類似名についてステップＳ１０４〜ステップＳ１０８の処理を行ったか否かを判定する（ステップＳ１０９）。すなわち、トレンド度データ生成部１４は、ｎ＝ｓの関係が成立するか否かを判定する。そして、全ての関連語類似名について処理を行っていないと判定した場合（ステップＳ１０９でＮｏ）、トレンド度データ生成部１４は、ｎに１を加算することで（ステップＳ１１０）、取得する関連語類似名の順番を１つ繰り下げ、次番目の関連語類似名を関連データ５００から取得する。

一方で、全ての関連語類似名について処理を行ったと判定した場合（ステップＳ１０９でＹｅｓ）、トレンド度データ生成部１４は、本フローを終了する。

次に、一致度算出処理（ステップＳ０８８の処理）について説明する。図１９は、一致度算出処理（ステップＳ０８８の処理）の流れを示したフロー図である。かかる処理の開始に先立ち、トレンド度データ生成部１４は、例えば、ＲＡＭ７に一致度（ｃ２）を格納するための一致度格納領域を確保し、当該一致度格納領域の値に０をセットする。

次に、トレンド度データ生成部１４は、ステップＳ０８２で特定したレコードに格納されている通常関連語の数（Ｍ）を特定する（ステップＳ１２１）。

次に、トレンド度データ生成部１４は、所定番目（ｎ）の通常関連語を取得する（ステップＳ１２２）。具体的には、トレンド度データ生成部１４は、関連データ５００に格納されている通常関連語文字列のうち、最左列に格納されている通常関連語文字列を第１番目として所定番目の通常関連語を取得する。

次に、トレンド度データ生成部１４は、投稿データ２００の中に、取得した通常関連語が含まれているか否かを判定する（ステップＳ１２３）。具体的には、トレンド度データ生成部１４は、ステップＳ０８６で取得した投稿データ２００の投稿本文に、取得した通常関連語文字列が含まれているか否かを判定する。そして、通常関連語が含まれていないと判定した場合（ステップＳ１２３でＮｏ）、トレンド度データ生成部１４は、処理をステップＳ１２８に移行する。

一方で、通常関連語文字列が投稿データ２００に含まれていると判定した場合（ステップＳ１２３でＹｅｓ）、トレンド度データ生成部１４は、通常関連語のスコアを特定する（ステップＳ１２４）。具体的には、トレンド度データ生成部１４は、かかる通常関連語文字列欄と１組となっている通常関連語スコア欄に格納されている値を特定する。

次に、トレンド度データ生成部１４は、特定した通常関連語のスコアが１００であるか否かを判定する（ステップＳ１２５）。そして、かかるスコアが１００ではないと判定した場合（ステップＳ１２５でＮｏ）、トレンド度データ生成部１４は、通常関連語のスコアを一致度（ｃ２）に加算し（ステップＳ１２７）、処理をステップＳ１２８に移行する。

一方で、かかるスコアが１００であると判定した場合（ステップＳ１２５でＹｅｓ）、トレンド度データ生成部１４は、一致度（ｃ２）に１を加算し（ステップＳ１２６）、処理をステップＳ１２８に移行する。

次に、トレンド度データ生成部１４は、全ての通常関連語についてステップＳ１２２〜ステップＳ１２７の処理を行ったか否かを判定する（ステップＳ１２８）。すなわち、トレンド度データ生成部１４は、ｎ＝ｓの関係が成立するか否かを判定する。そして、全ての通常関連語について処理を行っていないと判定した場合（ステップＳ１２８でＮｏ）、トレンド度データ生成部１４は、ｎに１を加算することで（ステップＳ１２９）、取得する通常関連語の順番を１つ繰り下げ、次番目の通常関連語を関連データ５００から取得する。

一方で、全ての通常関連語について処理を行ったと判定した場合（ステップＳ１２８でＹｅｓ）、トレンド度データ生成部１４は、本フローを終了する。

図２０は、トレンド度を示すアイコンが表示された表示画面９５０の一例を示した図である。関連データ生成装置１００の表示情報生成部１５は、通信部４０を介して、外部装置からトレンド度の取得要求信号を受信すると、表示情報を生成する。例えば、外部装置であるナビゲーション装置から、ＰＯＩのトレンド度を示す情報の取得要求信号を受信すると、表示情報生成部１５は、対応するＰＯＩのトレンド度をトレンド度データ９００から特定し、トレンド度に応じたランク分けを行い、かかるランクを示す表示情報（星の数でランクを示す情報）を生成する。また、表示情報生成部１５は、生成した表示情報を各ＰＯＩＩＤに対応付けてナビゲーション装置に送信する。

表示情報を取得したナビゲーション装置などの外部装置は、図２０に示す表示画面９５０を表示する。表示画面９５０には、各ＰＯＩ９５１と、トレンド度に応じたランクを示す星形のアイコン９５２とが表示されることになる。

このような関連データ生成装置１００によれば、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データ５００を生成することができる。特に、関連データ生成装置１００は、所定のキーワードと、当該キーワードと共に投稿データ２００内で使用される共起語である通常関連語と、当該キーワードの類似名である関連語類似名と、を用いて、キーワードが示す対象のトレンド度を求めることができる。また、関連データ生成装置１００は、トレンド度を示すアイコンなどの表示情報を生成し、これを外部に送信する。その結果、外部装置では、所定のキーワードが示す対象のトレンド度を当該対象に対応付けて表示することができる。

なお、上記の第三実施形態では、トレンド度を示すアイコンなどの表示情報を生成したが、本発明は本実施形態に限られるものではなく、関連データ生成装置１００は、トレンド度（数値）そのものを外部装置に提供しても良い。

また、上記の第一実施形態から第三実施形態では、ＰＯＩを対象とした関連データ５００の生成およびトレンド度データ９００の生成について説明したが、本発明はこれらの実施形態に限られるものではなく、例えば、テレビコマーシャルで宣伝した商品を対象として、そのトレンド度を求める処理に関連データ生成装置１００を適用させることも可能である。この場合、ＰＯＩデータ３００に代えて、商品名が登録された商品データを用いる。また、流行語などのトレンド度を求める処理に関連データ生成装置１００を適用させることもできる。この場合、ＰＯＩデータ３００や商品データに代えて、流行語が登録された流行語データを用いる。また、関連データ生成装置１００は、これら以外にも、様々な対象についてそのトレンド度を求めることができる。

また、関連データ生成装置１００は、通常関連語をキーワードの対象（上記実施形態ではＰＯＩ）に対応付けて表示する表示情報を生成するようにしても良い。具体的には、表示情報生成部１５は、関連データ５００に格納した通常関連語（例えば、「高価格ハンバーガー」や「ハンバーガーセット」など）をＰＯＩに対応付けて表示するための表示情報を生成し、これを外部装置（例えば、ナビゲーション装置）に送信する。その結果、外部装置では、ＰＯＩに対応付けて通常関連語が表示されることになる。通常関連語は、ＳＮＳなどに投稿された記事に含まれている話題の情報を示す語彙（語句）であるため、ユーザに対して非常に有益な情報の提供となる。

なお、関連データ生成装置１００の機能ブロックは、本実施形態において実現される関連データ生成装置１００の機能を理解容易にするために、主な処理内容に応じて分類したものであり、各機能の分類の仕方やその名称によって、本発明が制限されることはない。また、関連データ生成装置１００の各構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、一つの構成要素がさらに多くの処理を実行するように分類することもできる。

また、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、置換をすることが可能である。

また、上記説明では、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えて良い。

１００・・・関連データ生成装置、１０００・・・ＳＮＳサーバ、
２０００・・・ユーザ端末、Ｎ・・・ネットワーク、
１・・・演算処理装置、２・・・記憶装置、３・・・通信装置、
４・・・入力装置、５・・・表示装置、６・・・ＣＰＵ、７・・・ＲＡＭ、
８・・・ＲＯＭ、１０・・・演算部、１１・・・投稿データ取得部、
１２・・・共起語データ生成部、１３・・・関連データ生成部、
１４・・・トレンド度データ生成部、１５・・・表示情報生成部、２０・・・記憶部、
４０・・・通信部、２００・・・投稿データ、３００・・・ＰＯＩデータ、４００・・・期間別共起語データ、４１０、７１０・・・共起語データ、５００・・・関連データ、７００・・・キーワード別共起語データ、９００・・・トレンド度データ

Claims

相互に異なる複数の期間に投稿された投稿データのうち、各期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成部と、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第１の閾値よりも小さく、かつ、該出現頻度が第２の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成部と、を備え、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第１の閾値よりも大きい場合、および
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第２の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第３の閾値よりも低く、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第３の閾値よりも大きい第４の閾値より高い場合、
前記共起語を通常関連語として関連データに格納する
ことを特徴とする関連データ生成装置。
請求項１に記載の関連データ生成装置であって、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度の高さに応じて大きい値となるスコアを算出し、該スコアを該共起語に対応する前記通常関連語のスコアとして前記関連データに格納する
ことを特徴とする関連データ生成装置。
請求項２に記載の関連データ生成装置であって、
前記関連データ生成部は、
前記関連データに格納されている前記通常関連語のスコアよりも大きいスコアの前記共起語を、該通常関連語に代えて前記関連データに格納する
ことを特徴とする関連データ生成装置。
請求項２に記載の関連データ生成装置であって、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語と一致する前記通常関連語が前記関連データに登録されている場合、前記期間における該通常関連語の前記投稿データにおける出現頻度に基づいて、該通常関連語のスコアを算出し直す
ことを特徴とする関連データ生成装置。
請求項１に記載の関連データ生成装置であって、
前記共起語データ生成部は、
所定期間に投稿された前記投稿データに、相互に異なる少なくとも２つ以上の前記通常関連語の各々と共に用いられている語彙である共起語と、該共起語の前記投稿データにおける出現頻度とを格納した共起語データを生成し、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語と前記所定のキーワードとの類似度が第５の閾値よりも大きい場合、該共起語を関連語類似名として前記関連データに格納する
ことを特徴とする関連データ生成装置。
請求項５に記載の関連データ生成装置であって、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語と前記所定のキーワードとの類似度の高さに応じて大きい値となるスコアを算出し、該スコアを該共起語に対応する前記関連語類似名のスコアとして前記関連データに格納する
ことを特徴とする関連データ生成装置。
請求項５に記載の関連データ生成装置であって、
前記通常関連語を、前記所定のキーワードが示す対象と共に表示するための表示情報を生成する表示情報生成部をさらに備える
ことを特徴とする関連データ生成装置。
請求項５に記載の関連データ生成装置であって、
前記所定のキーワードまたは該キーワードが対応付けられた前記関連語類似名と、所定期間に投稿された前記投稿データに含まれる語彙とが一致する度合いを第１の一致度として算出し、
前記所定のキーワードに対応付けられた前記関連語類似名と、所定期間に投稿された前記投稿データに含まれる語彙とが一致する度合いを第２の一致度として算出し、
所定期間の全ての前記投稿データに対して算出した第１の一致度および第２の一致度を合算した値を該キーワードが示す対象のトレンド度として算出し、
前記トレンド度を前記所定のキーワードに対応付けて格納したトレンド度データを生成するトレンド度データ生成部をさらに備える
ことを特徴とする関連データ生成装置。
請求項８に記載の関連データ生成装置であって、
前記トレンド度データ生成部は、
前記所定のキーワードと前記投稿データに含まれている語彙とが一致する場合、所定値を前記第１の一致度に設定し、
前記所定のキーワードと前記投稿データに含まれている語彙とが一致しない場合、該キーワードに対応付けられた前記関連語類似名と該投稿データに含まれている語彙とが一致するか否かを判定し、
前記関連語類似名と前記投稿データに含まれている語彙とが一致する場合、前記所定値よりも小さい値であって、該語彙と一致した該関連語類似名のスコアを用いて前記第１の一致度を設定する
ことを特徴とする関連データ生成装置。
請求項８に記載の関連データ生成装置であって、
前記トレンド度データ生成部は、
前記通常関連語と前記投稿データに含まれている語彙とが一致する場合、該通常関連語に設定されているスコアに応じて異なる値を用いて前記第２の一致度を設定する
ことを特徴とする関連データ生成装置。
請求項８に記載の関連データ生成装置であって、
前記トレンド度を示す表示情報を生成する表示情報生成部をさらに備える
ことを特徴とする関連データ生成装置。
関連データ生成装置が実行する関連データ生成方法であって、
前記関連データ生成装置は、
相互に異なる複数の期間に投稿された投稿データのうち、各期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成ステップと、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第１の閾値よりも小さく、かつ、該出現頻度が第２の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成ステップと、を行い、
前記関連データ生成ステップでは、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第１の閾値よりも大きい場合、および
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第２の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第３の閾値よりも低く、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第３の閾値よりも大きい第４の閾値より高い場合、
前記共起語を通常関連語として関連データに格納する
ことを特徴とする関連データ生成方法。
コンピュータを、関連データを生成する関連データ生成装置として機能させるプログラムであって、
前記コンピュータを、
相互に異なる複数の期間に投稿された投稿データのうち、各期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成部と、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第１の閾値よりも小さく、かつ、該出現頻度が第２の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成部として機能させ、
前記関連データ生成部は、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第１の閾値よりも大きい場合、および
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第２の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第３の閾値よりも低く、
前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第３の閾値よりも大きい第４の閾値より高い場合、
前記共起語を通常関連語として関連データに格納する
ことを特徴とするプログラム。