JP6342678B2 - 関連データ生成装置、関連データ生成方法およびプログラム - Google Patents

関連データ生成装置、関連データ生成方法およびプログラム Download PDF

Info

Publication number
JP6342678B2
JP6342678B2 JP2014045088A JP2014045088A JP6342678B2 JP 6342678 B2 JP6342678 B2 JP 6342678B2 JP 2014045088 A JP2014045088 A JP 2014045088A JP 2014045088 A JP2014045088 A JP 2014045088A JP 6342678 B2 JP6342678 B2 JP 6342678B2
Authority
JP
Japan
Prior art keywords
data
word
data generation
occurrence
occurrence word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014045088A
Other languages
English (en)
Other versions
JP2015170177A (ja
Inventor
石黒 正雄
正雄 石黒
和重 廣井
和重 廣井
林 昭夫
昭夫 林
澤尻 晴彦
晴彦 澤尻
泰樹 堀部
泰樹 堀部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP2014045088A priority Critical patent/JP6342678B2/ja
Priority to US14/637,773 priority patent/US10157348B2/en
Priority to EP15157498.5A priority patent/EP2919137A1/en
Priority to CN201510098066.3A priority patent/CN104899241A/zh
Publication of JP2015170177A publication Critical patent/JP2015170177A/ja
Application granted granted Critical
Publication of JP6342678B2 publication Critical patent/JP6342678B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、関連データ生成装置、関連データ生成方法およびプログラムに関する。
特許文献1には、商品カテゴリそれぞれに対応した特徴語を自動的に学習するシステムであって、カテゴリ名をクエリとして検索エンジンによって最大1000件のWebテキストを取得する手段と、前記カテゴリ名をクエリとして得られた最大1000件のWebテキストから、特徴語候補を抽出する手段と、抽出された特徴語候補とカテゴリとの関連度を算出する手段と、各カテゴリについて、前記関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて記憶する特徴語データベースと、を備える特徴語自動学習システムが記載されている。
特開2010−9307号公報
特許文献1のシステムは、現時点で掲載されているWebテキストを基にして特定した特徴語を特徴語データベースに記憶する。そのため、過去の時点に掲載されたWebテキストに含まれる特徴語候補も考慮して特徴語データベースを作成することができない。
そこで、本発明は、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データを生成可能な関連データ生成装置の提供を目的とする。
上記課題を解決するため、本発明に係る関連データ生成装置は、相互に異なる複数の期間に投稿された投稿データのうち、全ての期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の出現頻度とを格納した共起語データを生成する共起語データ生成部と、前記共起語の出現頻度の時間的変動が第1の閾値よりも小さく、かつ、出現頻度が第2の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成部と、を備える。
本発明に係る関連データ生成装置によれば、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データを生成することができる。
なお、上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の一実施形態に係る関連データ生成装置を含む関連データ生成システムの概略構成の一例を示した図である。 本発明の一実施形態に係る関連データ生成装置のハードウェア構成の一例を示した図である。 本発明の一実施形態に係る関連データ生成装置の機能構成の一例を示した機能ブロック図である。 本発明の一実施形態に係る投稿データの一例を示した図である。 本発明の一実施形態に係るPOIデータの一例を示した図である。 本発明の一実施形態に係る共起語データおよび期間別共起語データの一例を示した図である。 本発明の一実施形態に係る関連データの一例を示した図である。 本発明の一実施形態に係る関連データ生成処理の流れを示したフロー図である。 本発明の一実施形態に係るステップS008の処理その1の流れを示したフロー図である。 本発明の一実施形態に係るステップS008の処理その2の流れを示したフロー図である。 本発明の一実施形態に係る関連データ生成装置の表示画面の一例を示した図である。 本発明の他の実施形態(第二実施形態)に係る関連データ生成処理の流れを示したフロー図である。 本発明の他の実施形態(第二実施形態)に係るキーワード別共起語データ700を用いて生成された共起語データ710を示した図である。 本発明の他の実施形態(第二実施形態)に係るステップS060の処理の流れを示したフロー図である。 本発明の他の実施形態(第二実施形態)に係る関連データ生成装置の表示画面の一例を示した図である。 本発明の他の実施形態(第三実施形態)に係るトレンド度データの一例を示した図である。 本発明の他の実施形態(第三実施形態)に係るトレンド度算出処理の流れを示したフロー図である。 本発明の他の実施形態(第三実施形態)に係る一致度算出処理(ステップS087の処理)の流れを示したフロー図である。 本発明の他の実施形態(第三実施形態)に係る一致度算出処理(ステップS088の処理)の流れを示したフロー図である。 本発明の他の実施形態(第三実施形態)に係るトレンド度を示すアイコンが表示された表示画面の一例を示した図である。
以下、本発明の一実施形態に係る関連データ生成装置について説明する。
<第1実施形態>
図1は、本実施形態に係る関連データ生成装置100を含む関連データ生成システムの概略構成の一例を示した図である。関連データ生成システムは、関連データ生成装置100と、SNS(Social Networking Service)サーバ1000と、ユーザ端末2000を有している。
関連データ生成装置100は、SNSサーバ1000から取得した投稿データを用いて、所定のキーワードと共に投稿データ内で使用される共起語が関連語として格納された関連データを生成する装置である。なお、本実施形態では、関連データ生成装置100による処理の一例としてPOI(Point Of Interest)の名称をキーワードとした関連データの生成について説明する。
SNSサーバ1000は、例えば、ソーシャル・ネットワーキング・サービス(SNS)をユーザ(投稿者)に提供するための様々な機能を備えた装置である。SNSサーバ1000は、ユーザ端末2000から取得した投稿データを、サーバ1000内の記憶装置に格納している。なお、関連データ生成システムは、このようなSNSサーバ1000と、関連データ生成装置100およびユーザ端末2000とがインターネットや専用回線など所定のネットワーク網Nで通信可能に相互接続されている。
図2は、関連データ生成装置100のハードウェア構成の一例を示した図である。関連データ生成装置100は、演算処理装置1と、記憶装置2と、通信装置3と、入力装置4と、表示装置5とを有している。また、関連データ生成装置100は、通信装置3を介して、SNSサーバ1000など外部装置と通信可能に接続されている。
演算処理装置1は、関連データ生成装置100の様々な処理を行う中心的なユニットである。具体的には、演算処理装置1は、通信装置3を介して、所定期間内に投稿された投稿データをSNSサーバ1000から取得する。また、演算処理装置1は、投稿データを用いて、所定のキーワードと共に投稿データ内で使用される共起語を特定する。
また、演算処理装置1は、特定した共起語を関連語および関連語の類似語として関連データに格納するか否かの判定処理を行う。また、演算処理装置1は、判定処理の結果に応じて関連データを生成および更新する。
なお、演算処理装置1は、数値演算、各装置およびセンサの制御など、様々な処理を実行するCPU(Central Processing Unit)6と、プログラムやデータ、演算結果などを一時的に格納するRAM(Random Access Memory)7と、プログラムやデータなどを格納するROM(Read Only Memory)8とを有している。また、CPU6、RAM7、ROM8は、バス9によって相互に接続されている。
記憶装置2は、関連データ生成装置100が行う処理に用いられる様々な情報を格納する。具体的には、記憶装置2は、投稿データ200と、POIデータ300と、共起語データ410および共起語データ710と、期間別共起語データ400と、キーワード別共起語データ700と、関連データ500と、トレンド度データ900とを格納している。
通信装置3は、外部装置(例えば、SNSサーバ1000)との間で通信を行う装置である。
入力装置4は、関連データ生成装置100の管理者などから指示入力を受け付けるための装置であり、キーボード、マウスおよびタッチパネルなどである。
表示装置5は、関連データ生成装置100の出力情報を表示するための装置であって、液晶ディスプレイなどである。
以上、関連データ生成装置100のハードウェア構成について説明した。
次に、関連データ生成装置100の機能ブロックについて説明する。図3は、関連データ生成装置100の機能構成の一例を示した機能ブロック図である。なお、関連データ生成装置100の機能ブロックは、演算処理装置1に実装されたCPU6が読み込んだ所定のプログラムを実行することにより構築される。そのため、ROM8および記憶装置2には、各機能部の処理を実行するためのプログラムが記憶されている。
また、関連データ生成装置100の機能ブロックは、本実施形態において実現される関連データ生成装置100の機能を理解容易にするために、主な処理内容に応じて分類したものである。また、各機能の分類の仕方やその名称によって、本発明が制限されることはない。なお、関連データ生成装置100の各構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、一つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、関連データ生成装置100の機能部は、ハードウェア(ASICなど)により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
関連データ生成装置100は、演算部10と、記憶部20と、通信部40とを有している。また、演算部10は、投稿データ取得部11と、共起語データ生成部12と、関連データ生成部13と、表示情報生成部15とを有している。なお、トレンド度データ生成部14については、後述の第三実施形態で説明する。また、演算部10は、演算処理装置1により実現される。
投稿データ取得部11は、例えば、SNSサーバ1000などからユーザの投稿データ200を取得する機能部である。具体的には、投稿データ取得部11は、API(Application Programing Interface)やクローリングといった手法により、SNSサーバ1000などから定期的(例えば、1週間に1度)に投稿データ200を取得する。また、投稿データ取得部11は、取得した投稿データ200を記憶部20に格納する。
共起語データ生成部12は、共起語データを生成する機能部である。具体的には、共起語データ生成部12は、所定のキーワードおよびキーワードと共に投稿データ200内で使用されている共起語を特定する。また、共起語データ生成部12は、特定した共起語が格納された共起語データを生成する。
関連データ生成部13は、関連データ500を生成および更新する機能部である。具体的には、関連データ生成部13は、共起語データに格納されている共起語を関連データ500の通常関連語文字列欄または関連語類似名文字列欄に格納するか否かの判定処理を行う。また、関連データ生成部13は、通常関連語および関連語類似名のスコアを算出する。また、関連データ生成部13は、通常関連語文字列、関連語類似名文字列およびこれらのスコアをキーワードと対応付けて格納した関連データ500を生成する。
表示情報生成部15は、表示装置5やユーザ端末2000のディスプレイに表示する表示情報を生成する機能部である。具体的には、表示情報生成部15は、共起語を通常関連語文字列または関連語類似名文字列として関連データ500に格納するか否かの確認メッセージを含む表示情報を生成する。
また、記憶部20は、投稿データ取得部11により取得された投稿データ200と、予め記憶部20に格納されたマスターデータであるPOIデータ300と、共起語データ生成部12により生成された共起語データ410および期間別共起語データ400と、関連データ生成部13により生成された関連データ500とを格納する。なお、キーワード別共起語データ700については、後述の第二実施形態で説明する。また、トレンド度データ生成部14により生成されたトレンド度データ900については、後述の第三実施形態で説明する。
図4は、投稿データ200の一例を示した図である。SNSサーバ1000に格納されている投稿データ200は、定期的(例えば、1週間に1度)に関連データ生成装置100により取得され、関連データ生成装置100の記憶装置2に格納される。投稿データ200は、ユーザの投稿内容を含むデータである。具体的には、投稿データ200は、日時欄201と、投稿者ID欄202と、投稿本文欄203とが対応付けられたレコードを有している。
日時欄201に格納された情報は、SNSサーバ1000が投稿データ200を受信した日時を特定する情報である。投稿者ID欄202に格納された情報は、各種のSNSにおいて、ユーザごとに割り当てられたIDであり、一意にユーザを特定する情報である。投稿本文欄203に格納された情報は、投稿内容を示す文字列情報である。なお、投稿データ200は、関連データ生成処理に用いられる。関連データ生成処理の詳細は後述する。
図5は、POIデータ300の一例を示した図である。POIデータ300は、予め記憶装置2に格納されているマスター情報である。POIデータ300は、興味や関心の対象となる所定施設の施設名や住所等を含む情報である。なお、興味や関心の対象はユーザ層に応じて異なるため、POIデータ300は、様々なカテゴリ(例えば、飲食店、エンターテイメント施設、公園など)の施設情報を含んでいる。具体的には、POIデータ300は、POI ID欄301と、POI名称欄302と、カテゴリ欄303と、経度欄304と、緯度欄305と、住所欄306とを有している。
POI ID欄301に格納された情報は、POIを一意に特定するための情報である。POI名称欄302に格納された情報は、POIの名称を特定する情報である。カテゴリ欄303に格納された情報は、POIの属するカテゴリ(例えば、飲食店やエンターテイメント施設など)を特定する情報である。経度欄304および緯度欄305に格納された情報は、各々、POIの所在位置を示す経度および緯度を特定する情報である。なお、本実施形態では、POIの所在位置を特定する情報として経度および緯度を使用しているが、地理学的に場所を特定できる数値であれば、経度および緯度でなくても良い。住所欄306に格納された情報は、POIの住所を特定する情報である。
図6は、共起語データ410および期間別共起語データ400の一例を示した図である。共起語データ410および期間別共起語データ400は、関連データ生成処理の中で、共起語データ生成部12により生成される。共起語データ410および期間別共起語データ400は、所定のキーワードと共に投稿データ200内で使用される共起語を格納した情報である。具体的には、共起語データ410および期間別共起語データ400は各々、キーワード表示欄401と、期間表示欄402と、共起語欄403と、頻度欄404と、を有している。
キーワード表示欄401に格納された情報は、投稿データ200から共起語を検索する際の基となるキーワードを特定する情報であって、本実施形態では、所定のPOI名称が該当する。期間表示欄402に格納された情報は、共起語の検索対象となる投稿データ200の投稿期間を特定する情報である。共起語欄403に格納された情報は、所定のキーワードを基に投稿データ200から検索された共起語を示す情報である。頻度欄404に格納された情報は、対応付けられている共起語の出現頻度を示す情報である。具体的には、頻度欄404には、所定期間内に投稿された当該共起語を含む投稿データ200の数が格納される。
図7は、関連データ500の一例を示した図である。関連データ500は、関連データ生成処理により生成および更新される。関連データ500は、所定のキーワードと関連度が高い関連語と、所定のキーワードと類似度が高い類似語と、これらのスコアとを格納したデータである。具体的には、関連データ500は、キーワード欄501と、少なくとも2組以上の通常関連語文字列欄502および通常関連語スコア欄503と、少なくとも1組以上の関連語類似名文字列欄504および関連語類似名スコア欄505とが対応付けられたレコードを有している。
キーワード欄501に格納された情報は、キーワードを特定するための情報であり、本実施形態では、POIデータ300(図5)のPOI ID欄301に格納されたPOI IDと共通の情報が格納されている。通常関連語文字列欄502に格納された情報は、通常関連語を特定する文字列情報である。通常関連語スコア欄503に格納された情報は、当該スコア欄に対応付けられた通常関連語のスコアを示す情報である。例えば、通常関連語スコア欄503には、0または関連データ生成処理で算出されたスコアが格納される。なお、通常関連語スコア欄503に0が格納されている場合、通常関連語文字列欄502に通常関連語が未格納であることを意味する。関連語類似名文字列欄504に格納された情報は、関連語類似名を特定する文字列情報である。関連語類似名スコア欄505に格納された情報は、当該スコア欄が対応付けられた関連語類似名のスコアを示す情報である。関連語類似名スコア欄505には、0または関連データ生成処理で算出されたスコアが格納される。なお、関連語類似名スコア欄505に0が格納されている場合、関連語類似名欄504に関連語類似名が未格納であること意味する。
なお、記憶部20は、記憶装置2、RAM7およびROM8により実現される。
通信部40は、外部装置(例えば、SNSサーバ1000)との間で通信を行う機能部である。通信部40は、通信装置3により実現される。
以上、関連データ生成装置100の機能ブロックについて説明した。
[動作の説明]
次に、関連データ生成処理について説明する。図8は、関連データ生成処理の流れを示したフロー図である。関連データ生成処理は、関連データ生成装置100で実行されるバッチ処理により、定期的(例えば、1週間に1度)に行われる。
関連データ生成処理が開始されると、共起語データ生成部12は、POIデータ300に含まれるPOIの数(p)を特定する(ステップS001)。例えば、共起語データ生成部12は、POIデータ300に含まれるレコード数によりPOIの数(p)を特定する。
次に、共起語データ生成部12は、所定番目(N)のPOI名称を取得する(ステップS002)。例えば、共起語データ生成部12は、POIデータ300の最上位のレコードに格納されているPOI名称を第1番目として所定番目のPOI名称を取得する。
次に、共起語データ生成部12は、使用する投稿データ200の期間を設定する(ステップS003)。具体的には、共起語データ生成部12は、相互に異なる時期の所定の期間(例えば、1ヶ月間)を少なくとも2つ以上設定する。例えば、本実施形態の共起語データ生成部12は、時期が3ヶ月異なり(例えば、4月と7月)、各々1ヶ月間(各月の1日から31日までの1ヶ月間)の2つの期間(A1およびA2)を設定する。なお、A2は、A1よりも現在に近い(最近の)期間であるものとする。また、設定する時期および期間は、予め記憶装置2またはROM8に格納されていれば良い。
次に、共起語データ生成部12は、設定した期間内の投稿データ200を記憶装置2から取得する(ステップS004)。
次に、共起語データ生成部12は、投稿データ200およびPOI名称を用いて共起語データを生成する(ステップS005)。具体的には、共起語データ生成部12は、設定した各期間に投稿された投稿データ200から、ステップS002で取得したPOI名称が含まれる投稿データ200を抽出する。また、共起語データ生成部12は、抽出した投稿データ200に含まれる語彙(例えば、名詞に該当する語句)を全て抽出し、抽出した語彙が少なくとも1つ含まれている投稿データ200の数を頻度として各語彙ごとに算出する。なお、共起語データ生成部12は、例えば、直近の期間(A2)の投稿データ200から抽出した語彙の頻度を、直近の期間よりも前の期間(A1)の投稿データ200から抽出した語彙の頻度よりも高くする重み付けを行っても良い。
また、共起語データ生成部12は、期間(A1およびA2)ごとに、投稿データ200から抽出した語彙およびその頻度を対応付けた期間別共起語データ400を生成する。また、共起語データ生成部12は、全ての期間別共起語データ400に含まれる同一の語彙であって、かつ、各期間別共起語データ400の頻度を加算した頻度の総数が多い順に所定数(例えば、5つ)の語彙を特定する。また、共起語データ生成部12は、特定した語彙および当該語彙の頻度を対応付けて、各々、共起語欄403および頻度欄404に格納した共起語データ410を生成する。
次に、関連データ生成部13は、共起語データに含まれる共起語数(c)を特定する(ステップS006)。例えば、関連データ生成部13は、共起語データ410のレコード数から共起語データに含まれる共起語数(c)を特定する。
次に、関連データ生成部13は、所定番目(n)の共起語を対象共起語として取得する(ステップS007)。具体的には、関連データ生成部13は、共起語データ410の最上位に格納されている共起語を第1番目として所定番目の共起語を取得する。
次に、関連データ生成部13は、対象共起語を通常関連語として関連データ500に格納するか否かの判定処理を行う(ステップS008)。なお、かかる判定処理の詳細は後述する。
次に、関連データ生成部13は、全ての共起語についてステップS008の判定処理を行ったか否かを判定する(ステップS009)。すなわち、関連データ生成部13は、n=cの関係が成立するか否かを判定する。そして、全ての共起語についてステップS008の判定処理を行っていないと判定した場合、すなわち、n≠cである場合(ステップS009でNo)、関連データ生成部13は、nに1を加算することで(ステップS010)、取得する共起語の順番を1つ繰り下げ、次番目の共起語を対象共起語として取得する(ステップS007)。また、関連データ生成部13は、全ての共起語についてステップS008の判定処理を行ったと判定するまでステップS007〜ステップS010の処理を繰り返し実行する。
また、全ての共起語についてステップS008の判定処理を行ったと判定した場合(ステップS009でYes)、関連データ生成部13は、全てのPOIについてステップS002〜ステップS010の処理を行ったか否かを判定する(ステップS011)。すなわち、関連データ生成部13は、N=pの関係が成立するか否かを判定する。そして、全てのPOIについて処理を行っていない場合(ステップS011でNo)、関連データ生成部13は、Nに1を加算することで(ステップS012)、取得するPOI名称の順番を1つ繰り下げ、次番目のPOI名称をPOIデータ300から取得する。
一方で、全てのPOI名称について処理を行ったと判定した場合(ステップS011でYes)、関連データ生成部13は、本フローを終了する。
次に、対象共起語を通常関連語として関連データ500に格納するか否かの判定処理(以下、ステップS008の処理その1という)について説明する。図9は、ステップS008の処理その1の流れを示したフロー図である。
かかる処理が開始されると、関連データ生成部13は、対象共起語が通常関連語として関連データ500に既に格納されているか否かを判定する(ステップS021)。具体的には、関連データ生成部13は、ステップS007で取得した対象共起語と、関連データ500の通常関連語文字列欄に格納されている情報とを比較し、対象共起語が既に通常関連語文字列欄に格納されているか否かを判定する。そして、対象共起語が既に通常関連語として格納されていると判定した場合(ステップS021でYes)、関連データ生成部13は、「ステップS008の処理その2」へ処理を移行する。なお、「ステップS008の処理その2」については後述する。
一方で、対象共起語が通常関連語として格納されていないと判定した場合(ステップS021でNo)、関連データ生成部13は、処理をステップS022に移行する。
次に、関連データ生成部13は、対象共起語は、時間的変動が小さく、かつ、頻度が高いか否かを判定する(ステップS022)。具体的には、関連データ生成部13は、以下の数式1を用いて、かかる判定処理を行う。
Figure 0006342678
なお、xは各期間の頻度を加算した総頻度すなわち共起語データの頻度を示す。また、σ(x(p))2は、p番目のPOI名称の各期間(A1〜AN)における頻度の分散を示す。また、ANDを挟んで右側のx(p)の上付バーは、p番目のPOI名称の各期間(A1〜AN)における頻度の平均を示す。また、αおよびβは、所定の閾値(αを第1の閾値、βを第2の閾値とする)を示す。
数式1の条件を満たしている場合、関連データ生成部13は、対象共起語は時間的変動が小さく、かつ、頻度が高いと判定する(ステップS022でYes)。この場合、関連データ生成部13は、対象共起語のスコアを100として算出し(ステップS023)、処理をステップS026に移行する。
一方で、数式1の条件を満たしていない場合、関連データ生成部13は、対象共起語は時間的変動が小さく、かつ、頻度が高いという条件の少なくともいずれか一方が満たされていないと判定する(ステップS022でNo)。この場合、関連データ生成部13は、処理をステップS024に移行する。
次に、関連データ生成部13は、対象共起語の直近期間(A2)の頻度がその前の期間(A1)の頻度よりも増大しているか否かを判定する(ステップS024)。直近期間で頻度が増大している場合、一時的であっても頻度が増大しているため、通常関連語の格納候補に挙げるのが適切と考えられるからである。具体的には、関連データ生成部13は、以下の数式2を用いて、かかる判定処理を行う。
Figure 0006342678
なお、x(p、n)は、p番目のPOI名称の直近の期間(AN)の頻度を示す。x(p、n−1)は、p番目のPOI名称の直近の期間のその前期間(A1)の頻度を示す。また、γおよびδは、γ<β<δの関係を満たす所定の閾値(γを第3の閾値、δを第4の閾値とする)を示す。
数式2の条件を満たしていない場合、関連データ生成部13は、直近期間(A2)の頻度がその前の期間(A1)よりも増大していないと判定する(ステップS024でNo)。この場合、関連データ生成部13は、本フローを終了する。
一方で、数式2の条件を満たしている場合、関連データ生成部13は、直近期間(A2)の頻度がその前の期間(A1)よりも増大していると判定する(ステップS024でYes)。この場合、関連データ生成部13は、処理をステップS025に移行する。
次に、関連データ生成部13は、対象共起語のスコアを算出する(ステップS025)。具体的には、関連データ生成部13は、以下の数式3を用いて対象共起語のスコアを算出する。また、関連データ生成部13は、対象共起語のスコアを算出すると、処理をステップS026に移行する。
Figure 0006342678
なお、max(x(n))は、直近期間ANにおける期間別共起語データ400に格納された共起語の頻度の最大値を示す。なお、スコアの値は、0より大きく、1以下の値をとるものとする。
次に、関連データ生成部13は、関連データ500に通常関連語スコアが0の組が存在するか否かを判定する(ステップS026)。そして、スコアが0の組が存在すると判定した場合(ステップS026でYes)、関連データ生成部13は、通常関連語スコアが0の組に対象共起語およびスコアを格納し(ステップS027)、本フローを終了する。具体的には、関連データ生成部13は、0が格納されている通常関連語スコア欄503および当該スコア欄503と1組になっている通常関連語文字列欄502を特定する。また、関連データ生成部13は、特定した通常関連語文字列欄502に対象共起語を格納し、特定した通常関連語スコア欄503にステップS023で算出したスコアまたはステップS025で算出したスコアを格納する。
一方で、関連データ500に通常関連語スコアが0の組が存在しないと判定した場合(ステップS026でNo)、関連データ生成部13は、ステップS023またはステップS025で算出したスコアが、既に格納されている通常関連語のスコアよりも大きいか否かを判定する(ステップS028)。そして、算出したスコアが既に格納されている通常関連語のスコアよりも大きくないと判定した場合(ステップS028でNo)、関連データ生成部13は、本フローを終了する。
一方で、算出したスコアが既に格納されている通常関連語のスコアよりも大きいと判定した場合(ステップS028でYes)、関連データ生成部13は、通常関連語スコアが最小値の組に対象共起語およびスコアを格納する(ステップS029)。具体的には、関連データ生成部13は、既に格納されている通常関連語スコアの値を比較し、その最小値のスコアが格納されている通常関連語スコア欄503および当該スコア欄503と1組になっている通常関連語文字列欄502を特定する。また、関連データ生成部13は、特定した通常関連語文字列欄502に対象共起語を格納し、特定した通常関連語スコア欄503にステップS023で算出したスコアまたはステップS025で算出したスコアを格納する。
なお、ステップS027およびステップS029の処理において、表示情報生成部15は、通常関連語を関連データ500に登録するか否かを確認するメッセージ画面情報を生成しても良い。図11は、関連データ生成装置100の表示画面600の一例を示した図である。表示情報生成部15は、例えば、POI ID601と、POI名称602と、「通常関連語XXXレンジャーを関連データに追加しますか?」といったメッセージ603と、「YES」または「NO」の指示受付ボタン604とを表示する表示情報を生成し、表示装置5に出力する。関連データ生成装置100の管理者は、かかるメッセージを確認した上で、「YES」の指示受付ボタン604を選択することにより、関連データ生成部13は、通常関連語を関連データ500の通常関連語文字列欄502に格納する。
次に、対象共起語を通常関連語として関連データ500に格納するか否かの判定処理であって、対象共起語が通常関連語として既に格納されている場合(以下、ステップS008の処理その2という)について説明する。図10は、ステップS008の処理その2の流れを示したフロー図である。
かかる処理が開始されると、関連データ生成部13は、対象共起語と一致する通常関連語のスコアが100であるか否かを判定する(ステップS031)。具体的には、関連データ生成部13は、対象共起語と一致する通常関連語文字列欄502と1組になっている通常関連語スコア欄503に格納されているスコアの値が100であるか否かを判定する。そして、かかるスコアの値が100であると判定した場合(ステップS031でYes)、関連データ生成部13は、処理をステップS032に移行する。
一方で、かかるスコアの値が100でないと判定した場合(ステップS031でNo)、関連データ生成部13は、処理をステップS035に移行する。
ステップS032では、関連データ生成部13は、通常関連語の各期間(A1、A2)の頻度が所定の閾値よりも高いか否かを判定する。具体的には、関連データ生成部13は、各期間(A1、A2)に投稿された投稿データ200のうち、通常関連語を含む投稿データ200の数により、通常関連語の各期間における頻度を算出する。また、関連データ生成部13は、算出した通常関連語の頻度を以下の数式4に代入することにより、通常関連語の各期間(A1、A2)の頻度が所定の閾値よりも高いか否かを判定する。
Figure 0006342678
なお、x(p、n−1)は、前述と同様、直近期間のその前の期間(A1)における通常関連語の頻度を示す。また、x(p、n)は、前述と同様、直近期間(A2)における通常関連語の頻度を示す。また、γは、前述と同様、所定の閾値を示す。
関連データ生成部13は、算出した通常関連語の各期間における頻度が所定の閾値よりも高いと判定した場合(ステップS032でYes)、かかる通常関連語のスコアに100を設定する(ステップS034)。具体的には、関連データ生成部13は、通常関連語文字列欄502と1組となっている通常関連語スコア欄503に100を格納し、本フローを終了する。一方で、算出した通常関連語の各期間における頻度が所定の閾値よりも高くないと判定した場合(ステップS032でNo)、関連データ生成部13は、通常関連語文字列欄502と1組となっている通常関連語スコア欄503に0を格納し(ステップS033)、本フローを終了する。
また、ステップS035では、関連データ生成部13は、通常関連語は時間的変動が小さく、かつ、頻度が高いか否かを判定する(ステップS035)。具体的には、関連データ生成部13は、各期間(A1、A2)に投稿された投稿データ200のうち、通常関連語を含む投稿データ200の数により、通常関連語の各期間における頻度を算出する。また、関連データ生成部13は、算出した通常関連語の各期間における頻度を前述の数式1に代入することにより、ステップS035の判定処理を行う。なお、かかる判定は、前述のステップS21と同様であるため、詳細な説明は省略する。
そして、通常関連語は時間的変動が小さく、かつ、頻度が高いと判定した場合(ステップS035でYes)、関連データ生成部13は、通常関連語文字列欄502と1組となっている通常関連語スコア欄503に100を設定し、本フローの処理を終了する。一方で、通常関連語は時間的変動が小さく、かつ、頻度が高いという条件の少なくともいずれか一方が満たされていないと判定した場合(ステップS035でNo)、関連データ生成部13は、処理をステップS037に移行する。
次に、関連データ生成部13は、通常関連語の直近期間(A2)の頻度がその前の期間(A1)の頻度よりも増大しているか否かを判定する(ステップS037)。直近期間で頻度が増大している場合、一時的であっても頻度が増大しているため、通常関連語の格納を維持するのが適切な場合があるからである。具体的には、関連データ生成部13は、前述のステップS032と同様に、各期間(A1、A2)における通常関連語の頻度を算出し、算出した頻度を前述の数式2に代入することにより判定処理を行う。
そして、数式2の条件を満たしていない場合、関連データ生成部13は、直近期間(A2)の頻度がその前の期間(A1)の頻度よりも増大していないと判定する(ステップS037でNo)。この場合、関連データ生成部13は、通常関連語文字列欄502と1組となっている通常関連語スコア欄503に0を設定し(ステップS038)、本フローの処理を終了する。
一方で、数式2の条件を満たしている場合、関連データ生成部13は、直近期間(A2)の頻度がその前の期間(A1)の頻度よりも増大していると判定する(ステップS037でYes)。この場合、関連データ生成部13は、通常関連語のスコアを算出する(ステップS039)。具体的には、関連データ生成部13は、直近期間(A2)における期間別共起語データ400に格納された共起語の頻度の最大値を特定する。また、関連データ生成部13は、特定した共起語の頻度の最大値と、ステップS035で算出した通常関連語の頻度とを前述の数式3に代入することにより、通常関連語のスコアを算出する。
次に、関連データ生成部13は、算出した通常関連語のスコアを設定する(ステップS040)。具体的には、関連データ生成部13は、算出した通常関連語のスコアを、当該通常関連語文字列欄502と1組となっている通常関連語スコア欄503に格納し、本フローを終了する。
以上、第一実施形態に係る関連データ生成処理について説明した。
このような関連データ生成装置100によれば、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データ500を生成することができる。特に、関連データ生成装置100は、所定のキーワードと共に投稿データ200内で使用される共起語が関連データ500として登録すべきものであるか否かを判定する。具体的には、関連データ生成装置100は、共起語の出願頻度について時間的変動が小さく、かつ、頻度が高いか否かの判定結果に応じて関連データ500への登録を行う。
また、関連データ生成装置100は、たとえ共起語の出現頻度について時間的変動が大きい場合や頻度が低い場合であっても、直近の期間において出現頻度が増加していれば、所定のスコアを対応付けた上で関連データ500に登録する。これにより、関連データ500に登録される通常関連語の中でもスコアに応じてランクを分けることができ、既に登録されている通常関連語を更新する際の比較値とすることができる。その結果、関連データ500は、常に、鮮度の高い関連語を含んでいる状態を維持することができる。
<第二実施形態>
次に、本発明の第二実施形態に係る関連データ生成装置100について説明する。前述の第一実施形態では、投稿データ200内で所定のキーワード(例えば、POI名称)と共に用いられる共起語を通常関連語として関連データ500に格納したが、本実施形態に係る関連データ生成装置100は、所定のキーワードに類似する類似語を関連データ500に格納する。なお、関連データ生成装置100の基本的なハードウェア構成および機能ブロックについては前述の第一実施形態と同様であるため、これらの詳細な説明は省略する。
図12は、第二実施形態に係る関連データ生成処理の流れを示したフロー図である。関連データ生成処理は、関連データ生成装置100で実行されるバッチ処理により、定期的(例えば、1週間に1度)に行われる。
関連データ生成処理が開始されると、共起語データ生成部12は、POIデータ300に含まれるPOIの数(p)を特定し(ステップS051)、所定番目(N)のPOI名称を取得する(ステップS052)。なお、これらの処理は、前述のステップS001〜ステップS002と同様であるため、説明は省略する。
次に、共起語データ生成部12は、使用する投稿データ200の期間を設定する(ステップS053)。具体的には、共起語データ生成部12は、所定時期の所定の期間(例えば、1ヶ月間)を1つ設定する。なお、設定する時期および期間は、予め記憶装置2またはROM8に格納されているものとする。
次に、共起語データ生成部12は、設定した期間内の投稿データ200を記憶装置2から取得する(ステップS054)。
次に、共起語データ生成部12は、取得したPOI名称のPOIに対応付けられている通常関連語を特定する(ステップS055)。具体的には、ステップS052で特定したPOI名称を特定するPOI IDが格納された関連データ500のレコードから、通常関連語文字列欄504に格納されている通常関連語を特定する。
次に、共起語データ生成部12は、特定した通常関連語が2つ以上あるか否かを判定する(ステップS056)。すなわち、共起語データ生成部12は、関連データ500の通常関連語スコア欄505に0より大きい値が格納されている組が少なくとも2つ以上あるか否かを判定する。そして、通常関連語が2つ以上ないと判定した場合(ステップS056でNo)、共起語データ生成部12は、処理をステップS063に移行する。一方で、通常関連語が2つ以上あると判定した場合(ステップS056でYes)、共起語データ生成部12は、処理をステップS057に移行する。
次に、共起語データ生成部12は、設定期間の投稿データ200と、通常関連語とを用いて共起語データを生成する(ステップS057)。具体的には、共起語データ生成部12は、ステップS055で特定した通常関連語を各々キーワードとし、当該キーワードを含む設定期間内の投稿データ200を抽出する。また、共起語データ生成部12は、キーワードごとに、抽出した投稿データ200に含まれる語彙(例えば、名詞に該当する語句)を全て抽出し、抽出した語彙が少なくとも1つ含まれている投稿データ200の数を当該語彙の頻度として算出する。
また、共起語データ生成部12は、抽出した語彙とその頻度とをキーワード別共起語データ700の共起語欄703および頻度欄704に対応付けて格納する。すなわち、共起語データ生成部12は、少なくとも2つ以上のキーワード別共起語データ700を生成する。また、共起語データ生成部12は、全てのキーワード別共起語データ700に含まれる同一の語彙であって、かつ、各キーワード別共起語データ700の頻度を加算した頻度の総数が多い順に所定数(例えば、5つ)の語彙を特定する。また、共起語データ生成部12は、特定した語彙を共起語欄703に格納し、算出した頻度を頻度欄704に格納した共起語データ710を生成する。
図13は、キーワード別共起語データ700を用いて生成された共起語データ710を示した図である。
次に、関連データ生成部13は、共起語データに含まれる共起語数(c)を特定し(ステップS058)、所定番目(n)の共起語を対象共起語として取得する(ステップS059)。なお、ステップS058〜ステップS059の処理は前述のステップS006〜ステップS007の処理と同様であるため、説明を省略する。
次に、関連データ生成部13は、対象共起語を関連語類似名として関連データ500に格納するか否かの判定処理を行う(ステップS060)。なお、かかる判定処理の詳細は後述する。
次に、関連データ生成部13は、全ての共起語についてステップS060の判定処理を行ったか否かを判定する(ステップS061)。すなわち、関連データ生成部13は、n=cの関係が成立するか否かを判定する。そして、全ての共起語についてステップS060の判定処理を行っていないと判定した場合(ステップS061でNo)、すなわち、n≠cである場合、関連データ生成部13は、nに1を加算することで(ステップS062)、取得する共起語の順番を1つ繰り下げ、次番目の共起語を対象共起語として取得する(ステップS059)。また、関連データ生成部13は、全ての共起語についてステップS060の判定処理を行ったと判定するまでステップS0059〜ステップS062の処理を繰り返し実行する。
また、全ての共起語についてステップS060の判定処理を行ったと判定した場合(ステップS061でYes)、関連データ生成部13は、全てのPOI名称についてステップS052〜ステップS061の処理を行ったか否かを判定する(ステップS063)。すなわち、関連データ生成部13は、N=pの関係が成立するか否かを判定する。そして、全てのPOI名称について処理を行っていないと判定した場合(ステップS063でNo)、関連データ生成部13は、Nに1を加算することで(ステップS064)、取得するPOI名称の順番を1つ繰り下げ、次番目のPOI名称をPOIデータ300から取得する。
一方で、全てのPOI名称について処理を行ったと判定した場合(ステップS063でYes)、関連データ生成部13は、本フローを終了する。
次に、対象共起語を関連語類似名として関連データ500に格納するか否かの判定処理(以下、ステップS060の処理という)について説明する。図14は、ステップS060の処理の流れを示したフロー図である。
かかる処理が開始されると、関連データ生成部13は、対象共起語が関連語類似名として既に格納されているか否かを判定する(ステップS071)。具体的には、関連データ生成部13は、ステップS059で取得した対象共起語と同一の関連語類似名が関連語類似名文字列欄504に格納されているか否かを判定する。そして、対象共起語が関連語類似名欄504に格納されていると判定した場合(ステップS071でYes)、関連データ生成部13は、本フローを終了する。一方で、対象共起語が関連語類似名欄504に格納されていないと判定した場合(ステップS071でNo)、関連データ生成部13は、対象共起語とPOI名称との類似度を算出する(ステップS072)。具体的には、関連データ生成部13は、以下の数式5を用いて、POI名称に対する対象共起語の類似度を算出する。なお、類似度は、0以上1以下の値をとるものとする。
Figure 0006342678
例えば、POI名称が「AAABBB」であり、対象共起語が「AAAB」である場合、関連データ生成部13は、類似度を4/4として算出する。また、POI名称が「AAABBB」であり、対象共起語が「BAAB」である場合、対象共起語の先頭文字「B」はPOI名称の先頭文字「A」と一致しない。そのため、関連データ生成部13は、類似度を0/4として算出する。また、POI名称が「AAABBB」であり、対象共起語が「ABC」である場合、対象共起語の先頭以外の文字は飛ばして良いため、関連データ生成部13は、類似度を2/3として算出する。
なお、POI名称や対象共起語が英語である場合、類似度は以下の数式6により算出される。
Figure 0006342678
次に、関連データ生成部13は、類似度が所定の閾値よりも大きいか否かを判定する(ステップS073)。具体的には、関連データ生成部13は、ステップS072で算出した対象共起語の類似度が所定の閾値よりも大きいか否かを判定する。そして、かかる類似度が閾値よりも大きくないと判定した場合(ステップS073でNo)、関連データ生成部13は、本フローを終了する。一方で、類似度が閾値よりも大きいと判定した場合(ステップS073でYes)、関連データ生成部13は、算出した類似度を関連語類似名のスコアとする。
次に、関連データ生成部13は、関連データ500に関連語類似名スコアが0の組が存在するか否かを判定する(ステップS075)。具体的には、関連データ生成部13は、関連データ500に0が格納されている関連語類似名スコア欄505が存在するか否かを判定する。そして、かかる関連語類似名スコア欄505が存在する場合(ステップS075でYes)、関連データ生成部13は、0の組に対象共起語およびスコアを格納する(ステップS076)。具体的には、関連データ生成部13は、0が格納されている関連語類似名スコア欄505および当該スコア欄505と1組となっている関連語類似名文字列欄504を特定する。また、関連データ生成部13は、特定した関連語類似名文字列欄504に対象共起語を格納し、特定した通常関連語スコア欄505にステップS074で求めたスコアを格納する。また、関連データ生成部13は、ステップS076の後で本フローを終了する。
一方で、関連データ500に関連語類似名スコアが0の組が存在しない場合(ステップS075でNo)、関連データ生成部13は、ステップS074で求めたスコアが既に格納されている関連語類似名スコアよりも大きいか否かを判定する(ステップS077)。すなわち、関連データ生成部13は、ステップS074で求めたスコアと、関連データ500に既に格納されている関連語類似名スコアとを比較することにより、かかる判定を行う。そして、ステップS074で求めたスコアが関連語類似名スコアよりも大きくないと判定した場合(ステップS077でNo)、関連データ生成部13は、本フローを終了する。
一方で、ステップS074で求めたスコアが関連語類似名スコアよりも大きい場合(ステップS077でYes)、関連データ生成部13は、関連語類似名スコアが最小値の組に対象共起語およびスコアを格納する(ステップS078)。具体的には、関連データ生成部13は、既に格納されている関連語類似名スコア同士を比較し、その最小値のスコアが格納されている関連語類似名スコア欄505および当該スコア欄505と1組になっている関連語類似名文字列欄504を特定する。また、関連データ生成部13は、特定した関連語類似名文字列欄504に対象共起語を格納し、特定した関連語類似名スコア欄505にステップS074で求めたスコアを格納する。
また、関連語類似名およびスコアを関連データ500に格納すると、関連データ生成部13は、本フローを終了する。
なお、ステップS076およびステップS078の処理において、表示情報生成部15は、関連語類似名文字列を関連データ500に登録するか否かを確認するメッセージ画面情報を生成しても良い。図15は、関連データ生成装置100の表示画面800の一例を示した図である。表示情報生成部15は、例えば、POI ID801と、POI名称802と、「関連語類似名XXXレンジャーを関連データに追加しますか?」といったメッセージ803と、「YES」または「NO」の指示受付ボタン804とを表示する表示情報を生成し、表示装置5に出力する。関連データ生成装置100の管理者は、かかるメッセージを確認した上で、「YES」の指示受付ボタン804を選択することにより、関連データ生成部13は、関連語類似名を関連データ500の関連語類似名文字列欄504に格納する。
このような関連データ生成装置100によれば、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データ500を生成することができる。特に、関連データ生成装置100は、所定のキーワードと類似度が高い語彙を関連語類似名として関連データ500に登録する。そのため、キーワードと共に投稿データ200内で使用される通常関連語だけではなく、キーワードと類似する語彙すなわちキーワードの略称などについても関連データ500に登録することができる。
<第三実施形態>
次に、本発明の第三実施形態に係る関連データ生成装置100について説明する。第三実施形態に係る関連データ生成装置100は、所定のキーワードで特定される対象(例えば、POIなど)のトレンド度を算出する。具体的には、本実施形態に係る関連データ生成装置100は、トレンド度データ生成部14を機能部として有し、トレンド度データ生成部14は、所定のキーワードと、前述の実施形態で生成した関連データ500とを用いて、キーワードで特定される対象のトレンド度を算出する。なお、関連データ生成装置100の基本的なハードウェア構成および機能ブロックについては前述の第一実施形態および第二実施形態と同様であるため、これらの詳細な説明は省略する。
トレンド度データ生成部14は、所定のキーワードで特定される対象のトレンド度を含むトレンド度データ900を生成する機能部である。具体的には、トレンド度データ生成部14は、所定のキーワードと、当該キーワードに対応付けられた通常関連語文字列および通常関連語スコアと、関連語類似名文字列および関連語類似名スコアとを用いて、キーワードにより特定される対象のトレンド度を算出する。また、トレンド度データ生成部14は、算出したトレンド度とキーワードとを対応付けたトレンド度データ900を生成する。
図16は、トレンド度データ900の一例を示した図である。トレンド度データ900は、トレンド度データ生成部14により生成および更新される。トレンド度データ900は、所定のキーワードで特定される対象のトレンド度を含む情報である。具体的には、トレンド度データ900は、トレンド度の対象欄901と、トレンド度欄902とを有している。
トレンド度の対象欄901に格納された情報は、所定のキーワードにより特定される対象(例えば、所定のPOI)を特定する情報である。トレンド度欄902に格納された情報は、トレンドの度合いを示すトレンド度を特定する情報である。なお、トレンド度データ900は、トレンド度データ生成処理の実行により、トレンド度データ生成部14によって生成される。
図17は、トレンド度算出処理の流れを示したフロー図である。トレンド度算出処理は、関連データ生成装置100で実行されるバッチ処理により、所定のキーワードで特定される全ての対象(本実施形態ではPOI名称で特定される全てのPOI)について定期的(例えば、1週間に1度)に行われる。
トレンド度算出処理が開始されると、トレンド度データ生成部14は、トレンド度を算出する対象のPOI(以下、対象POIという)のPOI名称およびPOI IDをPOIデータ300から特定する(ステップS081)。具体的には、トレンド度データ生成部14は、バッチ処理によって特定された1つのPOIのPOI名称およびPOI IDをPOIデータ300から特定する。
次に、トレンド度データ生成部14は、POI IDが対応付けられた関連データ500のレコードを特定する(ステップS082)。また、トレンド度データ生成部14は、対象POIのトレンド度をリセットする(ステップS083)。具体的には、トレンド度データ生成部14は、トレンド度データ900の対象POIが格納されているレコードを特定し、特定したレコードのトレンド度欄902の値に0を設定する。
次に、トレンド度データ生成部14は、所定期間内の投稿データ200を取得する(ステップS084)。例えば、トレンド度データ生成部14は、所定の時期(例えば、7月)における所定期間(例えば、1ヶ月間)に投稿された投稿データ200を記憶部20から取得する。なお、所定の時期および所定期間については、予め記憶装置2またはROM8に格納されていれば良い。
次に、トレンド度データ生成部14は、取得した投稿データ数(m)を特定する(ステップS085)。また、トレンド度データ生成部14は、所定番目(n)の投稿データ200を取得する(ステップS086)。具体的には、取得した各投稿データ200に番号を割り当て、最小の番号が割り当てられている投稿データ200を第1番目として所定番目の投稿データ200を取得する。
次に、トレンド度データ生成部14は、取得した投稿データ200と、POI名称およびこれに対応付けられた関連語類似名との一致度(c1)を算出する(ステップS087)。なお、ステップS087の一致度算出処理の詳細は後述する。
次に、トレンド度データ生成部14は、取得した投稿データ200と、POI名称に対応付けられた通常関連語との一致度(c2)を算出する(ステップS088)。なお、ステップS088の一致度算出処理の詳細は後述する。
次に、トレンド度データ生成部14は、総一致度(c=c1+c2)を算出する(ステップS089)。具体的には、トレンド度データ生成部14は、ステップS087の一致度算出処理で求めた一致度(c1)と、ステップS088の一致度算出処理で求めた一致度(c2)とを足し合わせることにより、総一致度を算出する。
次に、トレンド度データ生成部14は、総トレンドに投稿日指数を乗算してトレンド度を算出する(ステップS090)。具体的には、トレンド度データ生成部14は、投稿データ200の投稿日に基づく所定の指数を一致度に乗算したトレンド度を算出する。なお、投稿日指数は、現在からより遠い過去の投稿データ200ほど小さい値であり、かかる指数は予め記憶装置2またはROM8に格納されているものする。
次に、トレンド度データ生成部14は、全ての投稿データ200についてステップS086〜ステップS090の処理を行ったか否かを判定する(ステップS091)。すなわち、トレンド度データ生成部14は、n=mの関係が成立するか否かを判定する。そして、全ての投稿データ200について処理を行っていないと判定した場合(ステップS091でNo)、トレンド度データ生成部14は、nに1を加算することで(ステップS092)、取得する投稿データ200の順番を1つ繰り下げ、次番目の投稿データ200を取得する。
一方で、全ての投稿データ200について処理を行ったと判定した場合(ステップS091でYes)、トレンド度データ生成部14は、投稿データごとに算出した全てのトレンド度を加算した総トレンド度を算出し、トレンド度データ900に登録する(ステップS093)。そして、ステップS093の処理が終了すると、トレンド度データ生成部14は、本フローを終了する。
次に、一致度算出処理(ステップS087の処理)について説明する。図18は、一致度算出処理(ステップS087の処理)の流れを示したフロー図である。かかる処理の開始に先立ち、トレンド度データ生成部14は、例えば、RAM7に一致度(c1)を格納するための一致度格納領域を確保し、当該一致度格納領域の値に0をセットする。
次に、トレンド度データ生成部14は、投稿データ200の中にPOI名称が含まれているか否かを判定する(ステップS101)。具体的には、トレンド度データ生成部14は、ステップS086で取得した投稿データ200の投稿本文に、ステップS081で取得したPOI名称が含まれているか否かを判定する。そして、POI名称が含まれていると判定した場合(ステップS101でYes)、トレンド度データ生成部14は、一致度に1を設定し(ステップS102)、本フローを終了する。
一方で、POI名称が投稿データ200に含まれていないと判定した場合(ステップS101でNo)、トレンド度データ生成部14は、ステップS082で特定したレコードに格納されている関連語類似名の数(s)を特定する(ステップS103)。
次に、トレンド度データ生成部14は、所定番目(n)の関連語類似名を取得する(ステップS104)。具体的には、トレンド度データ生成部14は、関連データ500に格納されている関連語類似名のうち、最左列に格納されている関連語類似名を第1番目として所定番目の関連語類似名を取得する。
次に、トレンド度データ生成部14は、投稿データ200の中に、取得した関連語類似名が含まれているか否かを判定する(ステップS105)。具体的には、トレンド度データ生成部14は、ステップS086で取得した投稿データ200の投稿本文に、取得した関連語類似名文字列が含まれているか否かを判定する。そして、関連語類似名が含まれていないと判定した場合(ステップS105でNo)、トレンド度データ生成部14は、処理をステップS109に移行する。
一方で、関連語類似名文字列が投稿データ200に含まれていると判定した場合(ステップS105でYes)、トレンド度データ生成部14は、関連語類似名のスコアを特定する(ステップS106)。具体的には、トレンド度データ生成部14は、かかる関連語類似名欄504と1組となっている関連語類似名スコア欄505に格納されている値を特定する。
また、トレンド度データ生成部14は、特定した関連語類似名のスコアが一致度(c1)よりも大きいか否かを判定する(ステップS107)。例えば、一致度(c1)に0がセットされた後で、最初にステップS107の判定処理が行われた場合、関連語類似名のスコアは、0が格納されている一致度(c1=0)よりも大きいことになる。したがって、トレンド度データ生成部14は、関連語類似名のスコア>0であると判定する。一方で、関連語類似名のスコアが後述のステップS108の処理によって既に一致度(c1)に設定されている場合、トレンド度データ生成部14は、既に設定されている一致度(c1)と、今回のステップS106で特定した関連語類似名のスコアとの大小を比較する。
次に、トレンド度データ生成部14は、全ての関連語類似名についてステップS104〜ステップS108の処理を行ったか否かを判定する(ステップS109)。すなわち、トレンド度データ生成部14は、n=sの関係が成立するか否かを判定する。そして、全ての関連語類似名について処理を行っていないと判定した場合(ステップS109でNo)、トレンド度データ生成部14は、nに1を加算することで(ステップS110)、取得する関連語類似名の順番を1つ繰り下げ、次番目の関連語類似名を関連データ500から取得する。
一方で、全ての関連語類似名について処理を行ったと判定した場合(ステップS109でYes)、トレンド度データ生成部14は、本フローを終了する。
次に、一致度算出処理(ステップS088の処理)について説明する。図19は、一致度算出処理(ステップS088の処理)の流れを示したフロー図である。かかる処理の開始に先立ち、トレンド度データ生成部14は、例えば、RAM7に一致度(c2)を格納するための一致度格納領域を確保し、当該一致度格納領域の値に0をセットする。
次に、トレンド度データ生成部14は、ステップS082で特定したレコードに格納されている通常関連語の数(M)を特定する(ステップS121)。
次に、トレンド度データ生成部14は、所定番目(n)の通常関連語を取得する(ステップS122)。具体的には、トレンド度データ生成部14は、関連データ500に格納されている通常関連語文字列のうち、最左列に格納されている通常関連語文字列を第1番目として所定番目の通常関連語を取得する。
次に、トレンド度データ生成部14は、投稿データ200の中に、取得した通常関連語が含まれているか否かを判定する(ステップS123)。具体的には、トレンド度データ生成部14は、ステップS086で取得した投稿データ200の投稿本文に、取得した通常関連語文字列が含まれているか否かを判定する。そして、通常関連語が含まれていないと判定した場合(ステップS123でNo)、トレンド度データ生成部14は、処理をステップS128に移行する。
一方で、通常関連語文字列が投稿データ200に含まれていると判定した場合(ステップS123でYes)、トレンド度データ生成部14は、通常関連語のスコアを特定する(ステップS124)。具体的には、トレンド度データ生成部14は、かかる通常関連語文字列欄と1組となっている通常関連語スコア欄に格納されている値を特定する。
次に、トレンド度データ生成部14は、特定した通常関連語のスコアが100であるか否かを判定する(ステップS125)。そして、かかるスコアが100ではないと判定した場合(ステップS125でNo)、トレンド度データ生成部14は、通常関連語のスコアを一致度(c2)に加算し(ステップS127)、処理をステップS128に移行する。
一方で、かかるスコアが100であると判定した場合(ステップS125でYes)、トレンド度データ生成部14は、一致度(c2)に1を加算し(ステップS126)、処理をステップS128に移行する。
次に、トレンド度データ生成部14は、全ての通常関連語についてステップS122〜ステップS127の処理を行ったか否かを判定する(ステップS128)。すなわち、トレンド度データ生成部14は、n=sの関係が成立するか否かを判定する。そして、全ての通常関連語について処理を行っていないと判定した場合(ステップS128でNo)、トレンド度データ生成部14は、nに1を加算することで(ステップS129)、取得する通常関連語の順番を1つ繰り下げ、次番目の通常関連語を関連データ500から取得する。
一方で、全ての通常関連語について処理を行ったと判定した場合(ステップS128でYes)、トレンド度データ生成部14は、本フローを終了する。
図20は、トレンド度を示すアイコンが表示された表示画面950の一例を示した図である。関連データ生成装置100の表示情報生成部15は、通信部40を介して、外部装置からトレンド度の取得要求信号を受信すると、表示情報を生成する。例えば、外部装置であるナビゲーション装置から、POIのトレンド度を示す情報の取得要求信号を受信すると、表示情報生成部15は、対応するPOIのトレンド度をトレンド度データ900から特定し、トレンド度に応じたランク分けを行い、かかるランクを示す表示情報(星の数でランクを示す情報)を生成する。また、表示情報生成部15は、生成した表示情報を各POI IDに対応付けてナビゲーション装置に送信する。
表示情報を取得したナビゲーション装置などの外部装置は、図20に示す表示画面950を表示する。表示画面950には、各POI951と、トレンド度に応じたランクを示す星形のアイコン952とが表示されることになる。
このような関連データ生成装置100によれば、所定のキーワードに高い関連性を有し、より鮮度の高い関連語を含む関連データ500を生成することができる。特に、関連データ生成装置100は、所定のキーワードと、当該キーワードと共に投稿データ200内で使用される共起語である通常関連語と、当該キーワードの類似名である関連語類似名と、を用いて、キーワードが示す対象のトレンド度を求めることができる。また、関連データ生成装置100は、トレンド度を示すアイコンなどの表示情報を生成し、これを外部に送信する。その結果、外部装置では、所定のキーワードが示す対象のトレンド度を当該対象に対応付けて表示することができる。
なお、上記の第三実施形態では、トレンド度を示すアイコンなどの表示情報を生成したが、本発明は本実施形態に限られるものではなく、関連データ生成装置100は、トレンド度(数値)そのものを外部装置に提供しても良い。
また、上記の第一実施形態から第三実施形態では、POIを対象とした関連データ500の生成およびトレンド度データ900の生成について説明したが、本発明はこれらの実施形態に限られるものではなく、例えば、テレビコマーシャルで宣伝した商品を対象として、そのトレンド度を求める処理に関連データ生成装置100を適用させることも可能である。この場合、POIデータ300に代えて、商品名が登録された商品データを用いる。また、流行語などのトレンド度を求める処理に関連データ生成装置100を適用させることもできる。この場合、POIデータ300や商品データに代えて、流行語が登録された流行語データを用いる。また、関連データ生成装置100は、これら以外にも、様々な対象についてそのトレンド度を求めることができる。
また、関連データ生成装置100は、通常関連語をキーワードの対象(上記実施形態ではPOI)に対応付けて表示する表示情報を生成するようにしても良い。具体的には、表示情報生成部15は、関連データ500に格納した通常関連語(例えば、「高価格ハンバーガー」や「ハンバーガーセット」など)をPOIに対応付けて表示するための表示情報を生成し、これを外部装置(例えば、ナビゲーション装置)に送信する。その結果、外部装置では、POIに対応付けて通常関連語が表示されることになる。通常関連語は、SNSなどに投稿された記事に含まれている話題の情報を示す語彙(語句)であるため、ユーザに対して非常に有益な情報の提供となる。
なお、関連データ生成装置100の機能ブロックは、本実施形態において実現される関連データ生成装置100の機能を理解容易にするために、主な処理内容に応じて分類したものであり、各機能の分類の仕方やその名称によって、本発明が制限されることはない。また、関連データ生成装置100の各構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、一つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、置換をすることが可能である。
また、上記説明では、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えて良い。
100・・・関連データ生成装置、1000・・・SNSサーバ、
2000・・・ユーザ端末、N・・・ネットワーク、
1・・・演算処理装置、2・・・記憶装置、3・・・通信装置、
4・・・入力装置、5・・・表示装置、6・・・CPU、7・・・RAM、
8・・・ROM、10・・・演算部、11・・・投稿データ取得部、
12・・・共起語データ生成部、13・・・関連データ生成部、
14・・・トレンド度データ生成部、15・・・表示情報生成部、20・・・記憶部、
40・・・通信部、200・・・投稿データ、300・・・POIデータ、400・・・期間別共起語データ、410、710・・・共起語データ、500・・・関連データ、700・・・キーワード別共起語データ、900・・・トレンド度データ

Claims (13)

  1. 相互に異なる複数の期間に投稿された投稿データのうち、期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成部と、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第1の閾値よりも小さく、かつ、出現頻度が第2の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成部と、を備え
    前記関連データ生成部は、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第1の閾値よりも大きい場合、および
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第2の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
    前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第3の閾値よりも低く、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第3の閾値よりも大きい第4の閾値より高い場合、
    前記共起語を通常関連語として関連データに格納する
    ことを特徴とする関連データ生成装置。
  2. 請求項1に記載の関連データ生成装置であって、
    前記関連データ生成部は、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度の高さに応じて大きい値となるスコアを算出し、該スコアを該共起語に対応する前記通常関連語のスコアとして前記関連データに格納する
    ことを特徴とする関連データ生成装置。
  3. 請求項に記載の関連データ生成装置であって、
    前記関連データ生成部は、
    前記関連データに格納されている前記通常関連語のスコアよりも大きいスコアの前記共起語を、該通常関連語に代えて前記関連データに格納する
    ことを特徴とする関連データ生成装置。
  4. 請求項に記載の関連データ生成装置であって、
    前記関連データ生成部は、
    前記共起語データに含まれる前記共起語と一致する前記通常関連語が前記関連データに登録されている場合、前記期間における該通常関連語の前記投稿データにおける出現頻度に基づいて、該通常関連語のスコアを算出し直す
    ことを特徴とする関連データ生成装置。
  5. 請求項1に記載の関連データ生成装置であって、
    前記共起語データ生成部は、
    所定期間に投稿された前記投稿データに、相互に異なる少なくとも2つ以上の前記通常関連語の各々と共に用いられている語彙である共起語と、該共起語の前記投稿データにおける出現頻度とを格納した共起語データを生成し、
    前記関連データ生成部は、
    前記共起語データに含まれる前記共起語と前記所定のキーワードとの類似度が第5の閾値よりも大きい場合、該共起語を関連語類似名として前記関連データに格納する
    ことを特徴とする関連データ生成装置。
  6. 請求項に記載の関連データ生成装置であって、
    前記関連データ生成部は、
    前記共起語データに含まれる前記共起語と前記所定のキーワードとの類似度の高さに応じて大きい値となるスコアを算出し、該スコアを該共起語に対応する前記関連語類似名のスコアとして前記関連データに格納する
    ことを特徴とする関連データ生成装置。
  7. 請求項に記載の関連データ生成装置であって、
    前記通常関連語を、前記所定のキーワードが示す対象と共に表示するための表示情報を生成する表示情報生成部をさらに備える
    ことを特徴とする関連データ生成装置。
  8. 請求項に記載の関連データ生成装置であって、
    前記所定のキーワードまたは該キーワードが対応付けられた前記関連語類似名と、所定期間に投稿された前記投稿データに含まれる語彙とが一致する度合いを第1の一致度として算出し、
    前記所定のキーワードに対応付けられた前記関連語類似名と、所定期間に投稿された前記投稿データに含まれる語彙とが一致する度合いを第2の一致度として算出し、
    所定期間の全ての前記投稿データに対して算出した第1の一致度および第2の一致度を合算した値を該キーワードが示す対象のトレンド度として算出し、
    前記トレンド度を前記所定のキーワードに対応付けて格納したトレンド度データを生成するトレンド度データ生成部をさらに備える
    ことを特徴とする関連データ生成装置。
  9. 請求項に記載の関連データ生成装置であって、
    前記トレンド度データ生成部は、
    前記所定のキーワードと前記投稿データに含まれている語彙とが一致する場合、所定値を前記第1の一致度に設定し、
    前記所定のキーワードと前記投稿データに含まれている語彙とが一致しない場合、該キーワードに対応付けられた前記関連語類似名と該投稿データに含まれている語彙とが一致するか否かを判定し、
    前記関連語類似名と前記投稿データに含まれている語彙とが一致する場合、前記所定値よりも小さい値であって、該語彙と一致した該関連語類似名のスコアを用いて前記第1の一致度を設定する
    ことを特徴とする関連データ生成装置。
  10. 請求項に記載の関連データ生成装置であって、
    前記トレンド度データ生成部は、
    前記通常関連語と前記投稿データに含まれている語彙とが一致する場合、該通常関連語に設定されているスコアに応じて異なる値を用いて前記第2の一致度を設定する
    ことを特徴とする関連データ生成装置。
  11. 請求項に記載の関連データ生成装置であって、
    前記トレンド度を示す表示情報を生成する表示情報生成部をさらに備える
    ことを特徴とする関連データ生成装置。
  12. 関連データ生成装置が実行する関連データ生成方法であって、
    前記関連データ生成装置は、
    相互に異なる複数の期間に投稿された投稿データのうち、期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成ステップと、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第1の閾値よりも小さく、かつ、出現頻度が第2の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成ステップと、を行い、
    前記関連データ生成ステップでは、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第1の閾値よりも大きい場合、および
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第2の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
    前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第3の閾値よりも低く、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第3の閾値よりも大きい第4の閾値より高い場合、
    前記共起語を通常関連語として関連データに格納する
    ことを特徴とする関連データ生成方法。
  13. コンピュータを、関連データを生成する関連データ生成装置として機能させるプログラムであって、
    前記コンピュータを、
    相互に異なる複数の期間に投稿された投稿データのうち、期間の投稿データに所定のキーワードと共に用いられている語彙である共起語と、該共起語の該投稿データにおける出現頻度とを格納した共起語データを生成する共起語データ生成部と、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が第1の閾値よりも小さく、かつ、出現頻度が第2の閾値よりも高い場合、該共起語を通常関連語として格納した関連データを生成する関連データ生成部として機能させ
    前記関連データ生成部は、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、該出現頻度の前記各期間における時間的変動が前記第1の閾値よりも大きい場合、および
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記各期間における前記共起語の該出現頻度が前記第2の閾値よりも低い場合、の少なくともいずれか一方に該当する場合であって、
    前記期間のうち、直近期間よりも一つ前の期間における前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度が第3の閾値よりも低く、
    前記共起語データに含まれる前記共起語の前記投稿データにおける出現頻度であって、前記直近期間における前記共起語の該出現頻度が前記第3の閾値よりも大きい第4の閾値より高い場合、
    前記共起語を通常関連語として関連データに格納する
    ことを特徴とするプログラム。
JP2014045088A 2014-03-07 2014-03-07 関連データ生成装置、関連データ生成方法およびプログラム Active JP6342678B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014045088A JP6342678B2 (ja) 2014-03-07 2014-03-07 関連データ生成装置、関連データ生成方法およびプログラム
US14/637,773 US10157348B2 (en) 2014-03-07 2015-03-04 Related data generating apparatus, related data generating method, and program
EP15157498.5A EP2919137A1 (en) 2014-03-07 2015-03-04 Related data generating apparatus, related data generating method, and program
CN201510098066.3A CN104899241A (zh) 2014-03-07 2015-03-05 关联数据生成装置和关联数据生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014045088A JP6342678B2 (ja) 2014-03-07 2014-03-07 関連データ生成装置、関連データ生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015170177A JP2015170177A (ja) 2015-09-28
JP6342678B2 true JP6342678B2 (ja) 2018-06-13

Family

ID=52669465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014045088A Active JP6342678B2 (ja) 2014-03-07 2014-03-07 関連データ生成装置、関連データ生成方法およびプログラム

Country Status (4)

Country Link
US (1) US10157348B2 (ja)
EP (1) EP2919137A1 (ja)
JP (1) JP6342678B2 (ja)
CN (1) CN104899241A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019771B (zh) * 2017-07-28 2021-08-13 北京国双科技有限公司 文本处理的方法及装置
CN107861945A (zh) * 2017-11-01 2018-03-30 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
US10831994B2 (en) * 2017-12-26 2020-11-10 International Business Machines Corporation Naming convention reconciler
JP7091700B2 (ja) * 2018-02-21 2022-06-28 富士通株式会社 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法
CN110309432B (zh) * 2018-06-11 2024-06-07 腾讯科技(北京)有限公司 基于兴趣点的同义词确定方法、地图兴趣点处理方法
JP7451917B2 (ja) * 2019-09-26 2024-03-19 株式会社Jvcケンウッド 情報提供装置、情報提供方法及びプログラム
CN114817774B (zh) * 2022-05-12 2023-08-22 中国人民解放军国防科技大学 确定时空共现区、非公共场所及用户社会行为关系的方法
CN115471302B (zh) * 2022-11-14 2023-02-14 山东智豆数字科技有限公司 基于大数据分析的电子营销数据处理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004361992A (ja) * 2003-05-30 2004-12-24 Toshiba Corp 関連語抽出装置、関連語抽出方法及びプログラム
JP2006146802A (ja) * 2004-11-24 2006-06-08 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニング方法
WO2006073095A1 (ja) * 2005-01-07 2006-07-13 Matsushita Electric Industrial Co., Ltd. 連想辞書作成装置
US7698328B2 (en) * 2006-08-11 2010-04-13 Apple Inc. User-directed search refinement
JP5311378B2 (ja) 2008-06-26 2013-10-09 国立大学法人京都大学 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP2011159205A (ja) * 2010-02-03 2011-08-18 Ntt Docomo Inc 日記作成支援システム、日記作成支援方法
CN102214186B (zh) 2010-04-07 2013-04-24 腾讯科技(深圳)有限公司 展示对象关系的方法和系统
US8606565B2 (en) * 2010-11-10 2013-12-10 Rakuten, Inc. Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium
JP5542729B2 (ja) * 2011-04-13 2014-07-09 日本電信電話株式会社 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
JP2013257747A (ja) * 2012-06-13 2013-12-26 Nippon Telegr & Teleph Corp <Ntt> 自由時間推定装置、方法、及びプログラム
CN102831185A (zh) 2012-08-01 2012-12-19 北京百度网讯科技有限公司 一种词条推荐方法及装置
WO2014128253A1 (en) * 2013-02-22 2014-08-28 Adaptive Mobile Security Limited System and method for embedded mobile (em)/machine to machine (m2m) security, pattern detection, mitigation
US20140322687A1 (en) 2013-04-29 2014-10-30 Clinical Pattern Recognition Llc Computer system for providing physical therapy methods

Also Published As

Publication number Publication date
CN104899241A (zh) 2015-09-09
JP2015170177A (ja) 2015-09-28
US10157348B2 (en) 2018-12-18
US20150254574A1 (en) 2015-09-10
EP2919137A1 (en) 2015-09-16

Similar Documents

Publication Publication Date Title
JP6342678B2 (ja) 関連データ生成装置、関連データ生成方法およびプログラム
US11709829B2 (en) Retrieving context from previous sessions
JP5432243B2 (ja) メディアオブジェクト照会の送信および反応
RU2670494C2 (ru) Способ обработки поискового запроса, сервер и машиночитаемый носитель для его осуществления
US8495151B2 (en) Methods and systems for determining email addresses
US8793270B2 (en) System and method for providing personalized recommended word and computer readable recording medium recording program for implementing the method
US8321404B1 (en) Dynamic query suggestion
US8386495B1 (en) Augmented resource graph for scoring resources
KR101550327B1 (ko) 소셜-그래프 정보에 기반한 구조화된 검색 질의
US20140214711A1 (en) Intelligent job recruitment system and method
US8538973B1 (en) Directions-based ranking of places returned by local search queries
US8473293B1 (en) Dictionary filtering using market data
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
US20120295633A1 (en) Using user&#39;s social connection and information in web searching
JP2014532916A (ja) ジオデータに対するユーザベースの事前対応型の内容訂正および強化
CN102063194A (zh) 用于供用户进行文字输入的方法、设备、服务器和系统
US20180336529A1 (en) Job posting standardization and deduplication
EP3002690A1 (en) Dynamic summary generator
WO2017139247A1 (en) Inconsistency detection and correction system
US20160092838A1 (en) Job posting standardization and deduplication
CN109446417B (zh) 一种智能化检索方法和装置
CN103870501A (zh) 一种自动匹配方法及装置
CN107004167B (zh) 公开招聘标准化和重复数据删除
US10387838B2 (en) Course ingestion and recommendation
WO2015065719A1 (en) Computerized systems and methods for identifying a character string for a point of interest

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180501

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180517

R150 Certificate of patent or registration of utility model

Ref document number: 6342678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150