JP2014130445A

JP2014130445A - 情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラム

Info

Publication number: JP2014130445A
Application number: JP2012287137A
Authority: JP
Inventors: Kenta Sasaki; 健太佐々木; Shinichi Nagano; 伸一長野; Akitsugu Ueno; 晃嗣上野; Kenta Cho; 健太長
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2014-07-10
Also published as: US20140188883A1; US9195735B2

Abstract

【課題】テキストからユーザが関心のある情報を抽出できる情報抽出サーバを提供する。
【解決手段】関心キーワードが出現するテキストと、前記関心キーワードと、前記テキストの作成時刻を収集し、前記テキストに含まれる前記関心キーワード以外のキーワードと、前記作成時刻を抽出し、出現期間における前記キーワードの出現頻度から求めた時間スコアが第１閾値を超え、かつ、予め定めたローカルエリアにおける前記キーワードの出現頻度から求めたローカルスコアが第２閾値を超える前記キーワードを、ローカルホットワードとして抽出すると共に、抽出した前記キーワードの前記出現期間、前記キーワードに対応した前記関心キーワードを抽出し、抽出した前記ローカルホットワード、前記出現期間、前記関心キーワードを格納する。
【選択図】図１

Description

本発明の実施形態は、関心情報を推定する情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラムに関するものである。

ＧＰＳを搭載した携帯端末では、ＧＰＳが常時稼働しているとは限らず、位置情報が部分的にしか記録されないことがあり、また、ＧＰＳを搭載しない携帯端末も存在する。そのため、携帯端末に入力したテキストから位置情報を推定する技術が提案されている。この技術は、「鎌倉と江の島あたり」といった位置情報が曖昧な文章に対して、位置情報を可能な限り正確に地図上にマッピングする。

特開２０１０−１２８８９８号公報特開２０１０−２０７３１号公報

しかし、上記従来技術では、テキスト中に「鎌倉」「江の島」などの位置キーワードが出現することを前提としており、位置キーワードが出現しないテキストの場合には、位置を特定できない。また、位置キーワードに限らず、テレビの番組キーワードなどのユーザが関心のあるキーワードが登場しないテキストでは、その関心のあるキーワードを特定できない。

そのため、ユーザが携帯端末上で、その関心のあるキーワードを用いてテキストを検索したり、整理できない。

また、前記テキストを管理するサーバにおいても、前記関心のあるキーワードが特定されていないため、そのテキストを前記関心のあるキーワードに基づいて整理できない。

そこで本発明の実施形態は、テキストからユーザが関心のある情報を抽出できる情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラムを提供することを目的とする。

本発明の実施形態は、ユーザが関心のある関心情報を示す関心キーワードが出現するテキストと、前記関心キーワードと、前記テキストの作成時刻とを収集する収集部と、
前記テキストに含まれる前記関心キーワード以外のキーワードと、前記作成時刻とを抽出するキーワード抽出部と、前記作成時刻から直近Ｔ１時間前までの出現期間における前記キーワードの出現頻度に基づく時間スコアが第１閾値を超え、かつ、特定の話題の範囲を示すローカルエリアにおける前記キーワードの出現頻度に基づくローカルスコアが第２閾値を超える前記キーワードを、ローカルホットワードとして抽出すると共に、抽出した前記キーワードの前記出現期間と、前記キーワードに対応した前記関心キーワードとを抽出するローカル抽出部と、抽出した前記ローカルホットワードと、前記出現期間と、前記関心キーワードとを格納するローカル格納部と、を備える情報抽出サーバである。

また、本発明の実施形態は、特定の話題の範囲を示すローカルエリア内で、かつ、特定の出現期間内のキーワードであるローカルホットワードを格納したローカル格納部を有する情報抽出サーバと通信を行うことができる情報抽出クライアントであって、ユーザが生成したユーザテキストを受け付ける受け付け部と、前記ユーザテキストに含まれるユーザキーワードと、前記ユーザテキストのユーザ作成時刻とを抽出するユーザワード抽出部と、前記ユーザキーワードと、前記情報抽出サーバの前記ローカル格納部に格納された前記ローカルホットワードとが一致し、かつ、前記ユーザ作成時刻が前記ローカルホットワードの前記出現期間に含まれる場合、前記ローカルホットワードに対応する前記関心情報を、前記ユーザテキストに対応する前記関心情報として特定する特定部と、前記関心情報を前記ユーザテキストに付与する付与部と、を有する情報抽出クライアントである。

第１の実施形態の情報抽出システムのブロック図。テキスト格納部のデータを示す図。ローカルワードの抽出例。ローカル格納部のデータを示す図。カテゴリ格納部のデータを示す図。ユーザ格納部のデータを示す図。クライアントに表示するＵＩの例。クライアントのフローチャート。サーバのフローチャート。第２の実施形態の情報抽出システムのブロック図。クライアントのフローチャート。第３の実施形態の情報抽出システムのブロック図。クライアントのフローチャート。第４の実施形態のユーザ格納部のデータを示す図。

以下、一実施形態の情報抽出システム１を図面に基づいて説明する。情報抽出システム１は、ネットワークコミュニケーションを実現するためのシステムであり、情報抽出サーバ（以下、単に「サーバ」という）３と複数の情報抽出クライアント（以下、単に「クライアント」という）２から構成される。

クライアント２は、ユーザが利用する携帯端末などであって、インターネット４などのネットワークを用いて通信を行い、ユーザが作成したテキストをメールやコメントをサーバ３に送信する。

サーバ３は、ネットワークコミュニケーションを運営するサーバであって、クライアント３とインターネット４などのネットワークを介して通信を行い、ユーザが作成したメールやコメントをクライアント２から受信する。

最初に、本明細書で使用する言葉を定義する。

「ネットワークコミュニケーション」とは、例えば、ＳＮＳ（ソーシャル・ネットワーキング・サービス)、Ｔｗｉｔｔｅｒ（登録商標、以下同様）、ｍｉｘｉ（登録商標）、ｆａｃｅｂｏｏｋ（登録商標）である。

「キーワード」とは、地名、人名、イベント名などの名詞である。

「ホットワード」とは、「トレンドワード」とも言い、特定の出現期間において複数のユーザが多く書き込んだキーワード（例えば、一定数以上書き込んだキーワード）、又は、特定のローカルエリアにおいて複数のユーザが多く書き込んだキーワード（例えば、一定数以上書き込んだキーワード）である。

「ローカルエリア」とは、特定の話題の範囲、さらに説明すれば、ユーザが書き込みを行なっている話題の範囲や分野であり、例えば、「地域」、「ジャンル」、「学校」などである。「ローカルエリア」は予め設定されていてよい。

「ローカルホットワード」とは、特定のローカルエリア内で、かつ、特定の出現期間内におけるキーワードを意味し、さらに説明すれば、特定のローカルエリア内で、かつ、特定の出現期間内において複数のユーザが多く書き込んでいるキーワードを意味する。以下、単に「ローカルワード」という。

「関心キーワード」とは、ユーザが関心のあるキーワードであって「関心情報」とも言い、例えば、「位置キーワード」「番組キーワード」である。

「位置キーワード」とは、位置に関するキーワードであり、位置情報を表し、例えば、「川崎」「浜松町」などの実在の地名、又は、「渋谷駅」「東京タワー」などのランドマークのように、位置を特定できる名称からなるキーワードである。これについては、第１〜第３の実施形態で説明する。

「番組キーワード」とは、放送局が放送している番組に関するキーワードであり、例えば、ドラマの場合には、出演者、登場人物名などである。これについては、第４の実施形態で説明する。

第１の実施形態

第１の実施形態の情報抽出システム１について図１〜図９に基づいて説明する。本実施形態では、ユーザの関心事が「位置」である。

情報抽出システム１の構成について図１に基づいて説明する。図１は、情報抽出システム１のブロック図を示す。

情報抽出システム１は、サーバ３と複数のクライアント２から構成される。クライアント２は、文字入力が可能な携帯端末であり、携帯電話、スマートフォン、タブレットＰＣなどであって、サーバ３へテキストをメールやコメントとして送信できる。サーバ３は、複数のクライアント２からメールやコメントを用いてユーザからのテキストを受信でき、位置キーワードが出現するテキストを収集すると共に、そのテキストからローカルワードを抽出する。

クライアント２は、受け付け部１１、ユーザワード抽出部１２、特定部１３、付与部１４、ユーザ格納部１５を有する。

受け付け部１１は、ユーザが生成したテキスト（以下、「ユーザテキスト」という）を受け付ける。

ユーザワード抽出部１２は、ユーザテキストからキーワード（以下、「ユーザキーワード」という）と、そのユーザテキストの作成時刻を抽出する。なお、ユーザテキストの作成時刻とは、ユーザによりユーザテキストが書き込まれた時刻であってよい。

特定部１３は、サーバ３で抽出したローカルワードと、ユーザキーワードに基づいて、位置情報を特定する。

付与部１４は、特定した位置情報をユーザテキストに付与する。

ユーザ格納部１５は、受け付けたユーザテキストと、付与した位置情報とを対応させて格納するデータベースである。

サーバ３は、収集部２１、テキスト格納部２２、キーワード抽出部２３、ローカル抽出部２４、ローカル格納部２５、カテゴリ格納部２６を有する。

収集部２１は、インターネット４上のＷｅｂサイトなどから位置キーワードが出現するテキストを収集する。

テキスト格納部２２は、収集したテキストを位置情報毎に格納するデータベースである。

キーワード抽出部２３は、格納したテキストからキーワード、そのテキストの作成時刻を抽出する。

ローカル抽出部２４は、キーワードからローカルワードを抽出する。

ローカル格納部２５は、抽出したローカルワードを出現期間、位置情報（位置キーワード）毎に格納するデータベースである。

カテゴリ格納部２６は、抽出対象とする位置情報（位置キーワード）、とその位置キーワードが属するカテゴリ分類を定義したデータベースである。

情報抽出システム１のデータについて図２〜図７に基づいて説明する。

図２に示すように、テキスト格納部２２に格納されるデータは、収集部２１が収集したテキスト、収集したテキストが作成された作成時刻、その収集したテキストに含まれる位置情報（位置キーワード）から構成される。位置情報は、カテゴリ格納部２６に格納されているいずれかの位置情報と対応する。例えば、収集したテキストが「渋谷駅のＡＡＡポスターがよい」、作成時刻が「２０１１年１２月１１日１０時００分」、位置情報が「渋谷駅」である。

図４に示すように、ローカル格納部２５に格納されるデータは、ローカルワード、出現期間、位置情報（位置キーワード）から構成される。位置情報は、カテゴリ格納部２６に格納される位置情報のいずれかと対応する。例えば、ローカルワードが「ＡＡＡポスター」、出現期間が「２０１１年１２月１１日００時００分〜２３時５９分」、位置情報が「渋谷駅」であり、また、ローカルワードが「信号故障」、出現期間が「２０１１年１２月１２日００時００分〜２３時５９分」、位置情報が「渋谷駅」である。

図５に示すように、カテゴリ格納部２６に格納されるデータは、カテゴリと位置情報が格納され、各位置情報が属するカテゴリが定義されている。ローカルワードの算出は、位置情報を基本の単位とする。図５に示す例では、位置キーワード（位置情報）が駅名であり、カテゴリが、その駅名を含む路線名である。カテゴリとは、位置情報単位で算出したローカルワードの結果を集約する単位である。また、各カテゴリに対して上位カテゴリ（親カテゴリ）を定義し、カテゴリ間の親子関係を定義してもよい。例えば、「東環状線」の親カテゴリとして「東エリア鉄道会社」と定義し、「西環状線」の親カテゴリとして「西エリア鉄道会社」と定義してもよい。この場合、駅名を表す位置情報毎に算出したローカルワードを、位置情報に対応したカテゴリ（路線名）毎に集計した後、さらに親カテゴリ（例えば、鉄道会社）毎に集計してもよい。

カテゴリには属性を付与してもよい。属性とはカテゴリを特徴付ける付加的な情報である。例えば、図５のカテゴリにおいて、東環状線がサービスを行う地域を矩形で指定し、４角の緯度経度をカテゴリ「東環状線」の属性として持ってもよい。また、上記したカテゴリ間の親子関係の例では、東エリア鉄道会社がサービスを行う地域を同様に矩形で指定し、４角の緯度経度をカテゴリ「東エリア鉄道会社」の属性として持ってもよい。これらの属性は、ユーザテキストから位置情報キーワードを抽出するときに、曖昧性解消、すなわち同名称の位置情報の判別の手がかりとして利用される。例えば、「神戸駅」は、現在、兵庫県、群馬県、愛媛県に存在する。ここで、「神戸駅」が出現するユーザテキストを考える。もし同じユーザテキストに他の駅名が出現していれば、カテゴリ格納部２６の位置情報及びカテゴリを参照し、カテゴリの緯度経度を手がかりにして、どの「神戸駅」に該当するかを判定する。例えば、同じユーザテキストに「神戸駅」と「兵庫駅」が出現していれば、「兵庫駅」を含む路線「山陽本線」について言及していると判定し、兵庫県に存在する「神戸駅」であると結論付ける。

図６に示すように、ユーザ格納部１５に格納されるデータは、ユーザテキスト、作成時刻、及び、位置情報から構成される。例えば、ユーザテキストが「ＡＡＡポスターがよい」、作成時刻が「２０１１年１２月１１日１３時００分」、位置情報が「渋谷駅」である。但し、ユーザ抽出部１２が抽出するのは、ユーザテキストと作成時刻のみであり、位置情報「渋谷駅」は、付与部１４によって後から付与される。

クライアント２の表示装置に表示するＵＩ（ユーザインタフェース、User Interface）には、各ユーザテキストに対して、位置情報をメタデータとして付与する。例えば、図７に示すように、ユーザテキストを一つずつ逆時系列順に並べ、書くユーザテキストに続けて、付与した位置情報を「＃」の後に表示する。

情報抽出システム１の処理について図８と図９のフローチャートに基づいて説明する。

情報抽出システム１は、サーバ３が、テキストを収集して、この収集したテキストからローカルワードと位置情報を予め抽出しておき、それに基づいて、クライアント２がユーザテキストに位置情報を付与する。

サーバ３の処理について図９に基づいて説明する。下記で説明するサーバ３の処理は、一定期間（例えば、１０分）毎に実施しても、又は、リアルタイムに実施してもよい。

ステップｓ２０１において、サーバ３の収集部２１は、位置キーワードが出現するテキストを収集して、テキスト格納部２２に格納する。収集元は、例えば、インターネット４であり、社内イントラネットなどのプライベートな情報源でもよい。収集したテキストは、作成時刻と共に、図２に示すように、位置情報毎に格納する。位置情報は、例えば、東環状線が停車する駅のように予め集合を決めておく。なお、位置情報は、カテゴリ格納部２６に格納されている「位置情報」に対応している。例としては、収集したテキストが「渋谷駅のＡＡＡポスターがよい」、作成時刻が「２０１１年１２月１１日１０時００分」、位置情報が「渋谷駅」である。

ステップｓ２０２において、キーワード抽出部２３は、収集したテキストからキーワード、位置情報、そのテキストが作成された作成時刻を抽出する。ここで、「位置情報」は、カテゴリ格納部２６に格納されている位置情報に対応している。このときに、キーワード抽出部２３は、ステップｓ２０１において収集対象とした位置キーワードを除くキーワードを抽出する。なお、キーワードは、複数抽出してもよい。収集したテキストが「渋谷駅のＡＡＡポスターがよい」の場合には、「ＡＡＡポスター」をキーワードとして収集する。位置キーワード自身は、位置情報であって、ホットワードにはならない。

ステップｓ２０３において、ローカル抽出部２４は、キーワード抽出部２３が抽出したキーワードに関して、図３に示すように、時間軸のホットワードスコア（以下、単に「スコア」という）が閾値を超え、かつ、位置軸のスコアが閾値を超えるキーワードを、ローカルワードを抽出すると共に、そのキーワードの出現期間、位置情報も抽出する。このときに、「位置情報」は、カテゴリ格納部２６に格納されている位置情報に対応し、「出現期間」は、作成時刻から直近２４時間前の期間を設定する。例えば、作成時刻が２０１１年１２月５日２３時５９分の場合には、出現期間は、「２０１１年１２月５日００時００分〜２０１１年１２月５日２３時５９分」である。

具体的には、ローカル抽出部２４は、カテゴリ格納部２６に格納される各位置情報に対して、式（１）及び式（２）を利用して、スコアを算出する。スコアには、時間スコアＴＳとローカルスコアＬＳとがある。時間スコアＴＳは、時間軸に沿ったキーワードの出現頻度の変化の度合いを数値化したものであり、ローカルスコアＬＳは、位置軸に沿ったキーワードの出現頻度の変化の度合いを数値化したものである。

下記の式（１）は、時間スコアＴＳを算出する方法を示している。

ＴＳ＝（Tf_tgt(KW)／Tf_tgt(ALL)）／（Tf_ref(KW)／Tf_ref(ALL)）

・・・（１）

ローカル抽出部２４は、式（１）に示すように、作成時刻から遡って直近１週間分の中で、出現期間（作成時刻から遡って直近２４時間分）に偏って出現したキーワードを、キーワード抽出部２３が抽出したキーワードから検出する。

Tf_tgt(KW)は、出現期間内の全てのテキストの中で特定の位置キーワード（例えば、「渋谷駅」）とキーワードＫＷ（例えば、「ＡＡＡポスター」）とが同時に出現したテキストの数（出現頻度）である。「同時に出現」とは、共起と同じ意味である。

Tf_tgt(ALL)は、出現期間内の全てのテキストの中で特定の位置キーワード（例えば、「渋谷駅」）が出現したテキストの数（出現頻度）である。

Tf_ref(KW)は、作成時刻から遡って直近１週間分の全てのテキストの中で特定の位置キーワード（例えば、「渋谷駅」）とキーワードＫＷ（例えば、「ＡＡＡポスター」）とが同時に出現したテキストの数（出現頻度）である。

Tf_ref(ALL)は、作成時刻から遡って直近１週間分の全てのテキストの中で特定の位置キーワード（例えば、「渋谷駅」）が出現したテキストの数（出現頻度）である。

下記の式（２）は、ローカルスコアＬＳを算出する方法を示している。

ＬＳ＝（Lf_tgt(KW)／Lf_tgt(ALL)）／（Lf_ref(KW)／Lf_ref(ALL)）

・・・（２）

ローカル抽出部２４は、式（２）に示すように、カテゴリ格納部２６に格納された全ての位置情報に関連して出現するキーワードのうち、特定の位置情報との結びつきが強いものを、キーワード抽出部２３が抽出したキーワードから検出する。

Lf_tgt(KW)は、出現期間内の全てのテキストの中で特定の位置キーワード（例えば、「渋谷駅」）とキーワードＫＷ（例えば、「ＡＡＡポスター」）とが同時に出現したテキストの数（出現頻度）である。

Lf_tgt(ALL)は、出現期間の全てのテキストの中で特定の位置キーワード（例えば、「渋谷駅」）が出現したテキストの数（出現頻度）である。

Lf_ref(KW)は、出現期間内の全てのテキストの中で、予め設定されたローカルエリア（地域、例えば首都圏）内の全ての位置キーワード（例えば、首都圏の全ての駅）とキーワードＫＷ（例えば、「ＡＡＡポスター」）とが同時に出現したテキストの数（出現頻度）である。すなわち、上記したように、ローカルホットワードは、特定の出現期間とこのローカルエリア（例えば、首都圏）内で数多く書き込まれているキーワードである。

Lf_ref(ALL)は、出現期間内の全てのテキストの中で、前記ローカルエリア（例えば、首都圏）内の全ての位置キーワード（例えば、首都圏の全ての駅）が出現したテキストの数（出現頻度）である。

このように、ローカル抽出部２４は、キーワードＫＷ毎に、式（１）及び式（２）を利用して時間スコアとローカルスコアをそれぞれ算出する。

上記説明では、テキストの数（出現頻度）をベースに算出しているが、スコアを算出できる方法であれば何でもよい。

また、作成時刻から遡って直近２４時間（出現時間、Tf_tgtの時間）、又は、直近１週間の時間（Tf_refの時間）の設定は、本実施形態の適用分野（例えば鉄道情報やテレビ情報）などに応じて、変更してもよい。この場合に、Tf_tgtの時間＜Tf_refの時間が条件である。

ステップｓ２０４において、ローカル抽出部２４は、下記の式（３）、式（４）が示すように時間スコアＴＳとローカルスコアＬＳが共にそれぞれの第１閾値Ｒtime、第２閾値Ｒlocalを超えるキーワードを、ローカルワードとして抽出する。第１閾値Ｒtime、第２閾値Ｒlocalは、予め設定しておく。

ＴＳ＞Ｒtime ・・・（３）

ＬＳ＞Ｒlocal ・・・（４）

ステップｓ２０５において、ローカル抽出部２４は、キーワード抽出部２３が抽出したキーワードに関して、全ての時刻、全ての位置でローカルワードを抽出したか否かを判定する。

ローカル抽出部２４は、全てのローカルワードを抽出した場合には、処理を終了する。抽出したローカルワードは、それが有効である出現期間と共に、図４に示すように、位置情報と関連付けて１つのレコードとしてローカル格納部２５に格納される。

一方、ローカル抽出部２４が、全てのローカルワードを抽出していない場合には、ステップｓ２０３に戻り、スコアを再度算出する。

なお、カテゴリ格納部２６に格納されるデータに、カテゴリ間の親子関係を定義されている場合は、ローカル抽出部２４は、式（１）及び式（２）のそれぞれで路線毎に算出した結果と、親子関係の定義を参照して、大きなカテゴリ（例えば、鉄道会社）単位に集計してもよい。これにより、ローカル抽出部２４は、大きなカテゴリ（例えば、鉄道会社）毎のホットワードを抽出できる。

次に、クライアント２の処理について図８に基づいて説明する。

ステップｓ１０１において、クライアント２の受け付け部１１は、ユーザが生成したユーザテキストを受け付ける。例えば、受け付け部１１は、「ＡＡＡポスターの迫力がすごい」をユーザテキストとして受け付ける。なお、受け付け時間が、ユーザテキストのユーザ作成時刻となる。この受け付け方法は、必ずしもテキスト入力である必要はなく、例えば、音声入力を音声認識によりテキスト文書に書き起こしたものでもよい。

ステップｓ１０２において、ユーザワード抽出部１２は、ユーザテキストからユーザキーワードと、それに対応するユーザ作成時刻を抽出する。この抽出方法は、サーバ３のキーワード抽出部２３のキーワード抽出と同一の方法で行い、また、キーワードは複数抽出してもよい。ユーザワード抽出部１２は、ユーザキーワードとして「ＡＡＡポスター」を抽出し、ユーザ作成時刻として「２０１１年１２月１１日１３時００分」を抽出する。

ステップｓ１０３において、特定部１３は、抽出したユーザキーワードが、ローカルワードであるか否かを判定する。

具体的な判定方法について説明する。

まず、特定部１３は、サーバ３のローカル格納部２５と通信を行い、抽出したユーザキーワードと一致するローカルワードであって、かつ、前記ユーザテキストの作成時刻が出現期間に含まれるローカルワードを特定する。ユーザキーワードが「ＡＡＡポスター」、ユーザ作成時刻が「２０１１年１２月１１日１３時００分」の場合には、図４に示すように、ローカルワードの「ＡＡＡポスター」と一致し、ユーザ作成時刻も出現期間に含まれるので、特定部１３は、この「ＡＡＡポスター」はローカルワードであると判定する。

ステップｓ１０４において、特定部１３は、抽出したユーザキーワードがローカルワードである場合、そのローカルワードに対応する位置情報をローカル格納部２５から取得する。例えば、特定部１３は、「ＡＡＡポスター」がローカルワードと判定したので、その位置情報「渋谷駅」を取得する。

一方、特定部１３は、抽出したキーワードがローカルワードでない場合には、処理を終了する。この場合、ユーザテキストには位置情報が付与されない。

ステップｓ１０５において、付与部１４は、抽出した位置情報を元のユーザテキストに付与し、図６に示すようにユーザ格納部１５に格納する。例えば、付与部１４は、「ＡＡＡポスターの迫力がすごい」に位置情報「渋谷駅」を付与する。

また、付与部１４は、格納した位置情報をメタデータとして、元のユーザテキストと共に、クライアント２のＵＩに表示してもよい。例えば、図７に示すように、ユーザテキストを一つずつ逆時系列順に並べ、付与した位置情報を「＃」の後に表示する。この場合、付与部１４は、「ＡＡＡポスターの迫力がすごい。＃渋谷駅」と表示する。

本実施形態によれば、ＧＰＳ測位情報なしで、ユーザテキストを受け付けたクライアント２の位置を把握できる。これにより、ユーザの状況により沿った情報配信などの位置情報サービスの実現できる。

また、ユーザがクライアント（携帯端末）２上で、その関心のあるキーワードを用いてテキストを検索したり、整理ができる。

また、テキストを送受信するサーバ３においても、位置キーワードが特定されているので、そのテキストを位置キーワードに基づいて管理、整理ができる。

第１の実施形態の変更例としては、ユーザテキストから推定した位置情報が「首都エリア放送」であったとする。このときに、ユーザがテレビを視聴している場所が含まれる放送局の放送エリアを仮想的な位置と見なすことができる。

第２の実施形態

第２の実施形態の情報抽出システム１について図１０〜図１１に基づいて説明する。図１０は、情報抽出システム１のブロック図であり、図１１はクライアント２の処理を示すフローチャートである。

本実施形態のサーバ３の構成と処理は、第１の実施形態と同様であるので説明は省略する。

クライアント２は、第１の実施形態におけるクライアント２の構成に、前後特定部１６と判定部１７が追加され、その処理としては、前後のユーザテキストの前後の位置情報を抽出するステップｓ１０６、前後の位置情報が元の位置情報と同じカテゴリに属しているか否かを判定するステップｓ１０７が追加されている。

第１の実施形態において、ユーザテキストがローカルワードを含んでいたとしても、そのローカルワードに対応する位置に必ずしもユーザが居るとは限らない。そこで、本実施形態のクライアント２は、図１１のフローチャートに示す処理を行う。

ステップｓ１０１〜ｓ１０４において、クライアント２は、第１の実施形態と同様の処理を行って、位置情報を付与したいユーザテキスト（以下、元のユーザテキストという）の位置情報を求め、ステップｓ１０６に進む。

ステップｓ１０６において、前後特定部１６は、元のユーザテキストの前後に作成されたユーザテキストに関して、ステップｓ１０１〜ｓ１０４と同様の方法を行い、前後の位置情報を抽出して、ステップｓ１０７に進む。前後のユーザテキストのユーザ作成時刻の範囲は予め決定しておき、例えば、元のユーザテキストのユーザ作成時刻を中心にして前後３０分である。

ステップｓ１０７において、判定部１７は、元のユーザテキストから判定した元の位置情報と、前後のユーザテキストから判定した前後の位置情報が同じカテゴリに属していれば、その元の位置情報にユーザが居る可能性が高いと判定し、ステップｓ１０５に進み（ＹＥＳの場合）、同じカテゴリに属さない場合は終了する（ＮＯの場合）。

ステップＳ１０５において、付与部１４は、元のユーザテキストに元の位置情報を付与して、終了する、
例えば、ユーザテキストから判定した位置情報が「渋谷駅」であったとする。前後のユーザテキストから判定した前後（例えば、３０分前、又は、３０分後）の位置情報が「品川駅」であれば、「渋谷駅」と「品川駅」は、東環状線の駅であり、同じカテゴリに属する。そのため、ユーザは「渋谷駅」に居る可能性が高いので、判定部１７は、ユーザテキストに「渋谷駅」という位置情報を付与する（図７参照）。

一方、前後（例えば、３０分前、又は、３０分後）の位置情報が「大阪駅」であれば、「渋谷駅」と「大阪駅」は同じカテゴリに属さない。そのため、ユーザは「渋谷駅」に居る可能性は低いので、付与部１４は、ユーザテキストに「渋谷駅」という位置情報を付与しない。

前後の位置情報は、ＧＰＳなどのセンサから推定してもよい。その場合、例えば、最も直近、又は、直後にＧＰＳから取得できた位置情報を前後の位置情報とする。

第２の実施形態の変更例としては、ユーザテキストから推定した位置情報が「首都エリア放送」であったとする。ユーザがテレビを視聴している位置を考えれば、放送局の放送エリアを仮想的な位置と見なすことができる。前後のユーザテキストから推定した前後の位置情報が「東京湾放送」であれば、「首都エリア放送」と「東京湾放送」は同じカテゴリ（放送エリア＝位置）で視聴できる。そのため、ユーザは「首都エリア放送」の放送エリアに居る可能性が高いので、前後特定部１６は、ユーザテキストに「首都エリア放送」という位置情報を付与する。一方、前後の位置情報が「兵庫エリア放送」であれば、「首都エリア放送」と「兵庫エリア放送」は同じカテゴリ（放送エリア＝位置）で視聴することはできない。そのため、ユーザは「首都エリア放送」に居る可能性が低いので、前後特定部１６は、ユーザテキストに「首都エリア放送」という位置情報を付与しない。

第３の実施形態

第３の実施形態の情報抽出システム１について図１２〜図１３に基づいて説明する。図１２は情報抽出システム１のブロック図であり、図１３はクライアント２の処理を示すフローチャートである。

クライアント２は、第１の実施形態におけるクライアント２の構成に、発言特定部１８が追加され、処理としては、１次発言であるか否かを判定するステップｓ１０８が追加されている。なお、「１次発言」とは、ユーザが、ある話題や事例に対して発信した最初の発言である。

第２の実施形態で説明したように、ユーザテキストにローカルワードを含んでいたとしても、そのローカルワードに対応する位置に必ずしもユーザが居るとは限らない。そこで、本実施形態では、第２の実施形態とは異なる観点から上記問題点を解決する。

本実施形態では、ユーザテキストが１次発言である場合、ユーザテキストに位置情報を付与する。１次発言であれば、その位置情報にユーザが居る可能性が高いと判定できるからである。一般に、２次発言に位置キーワードが含まれる場合、２次発言の発言者であるユーザは当該位置には居らず、１次発言に対する意見や感想を述べたものであることが多い。

そこで、発言特定部１８は、ユーザテキスト自体の文書構造を解析することにより、そのユーザテキストが他のユーザテキストを引用している場合、又は、他のユーザへの返信である場合には、１次発言ではないと判定し、それ以外の場合、１次発言であると判定する。

例えば、「このＡＡＡポスター、どこで見たの？ＲＴ：＠ｔａｒｏＡＡＡポスターがよい。」の場合、Ｔｗｉｔｔｅｒでは「ＲＴ」より前が２次発言、「ＲＴ」より後ろが１次発言である。すなわち、他のユーザテキストを引用しているので、発言特定部１８は、１次発言ではないと判定する。

また、「＠ｔａｒｏ早くＡＡＡポスター見たいよ。」の場合、先頭に返信先のユーザ名を表す「＠＜ユーザ名＞」が含まれている。すなわち、他のユーザへの返信であるので、発言特定部１８は、１次発言ではないと判定する。

一方、「ＡＡＡポスターがよい。」であれば、「ＲＴ」を含まないため、他のユーザテキストの引用もなく、また、返信を表す「＠＜ユーザ名＞」が含まれないため、他のユーザへの返信でもない。これより、発言特定部１８は、１次発言であると判定し、元のユーザテキストに位置情報を付与する。

なお、本実施形態で説明した内容は、１次情報が表す内容についての信憑性を判定するものではなく、あくまでもテキストの文書構造を利用して、位置情報が示す場所に所在して言及した可能性が高い発言を抽出する。

１次発言であると判定されたユーザテキストは、第１の実施形態と同様に、クライアント２は、ステップｓ１０２以降のステップを実行し、ローカルワードを算出する。一方、１次発言でないと判定されたユーザテキストは、ユーザワード抽出部１２によってローカルワードの算出を行わず、以降の処理を終了する。

以上により、本実施形態は、１次発言であるか否かのフィルタ条件が、第１の実施形態の前処理として追加された形となる。

第４の実施形態

第４の実施形態の情報抽出システム１について図１４に基づいて説明する。

本実施形態のクライアント２とサーバ３の構成と処理は、第１の実施形態と同様である。第１〜第３の実施形態は、関心キーワード（関心情報）が位置キーワードで説明したが、本実施形態では、関心情報が番組名であり、関心キーワードが番組キーワードの場合について図１４に基づいて説明する。

図１４に示す例では、番組キーワード（関心情報）が、ある日ある時刻に東京で放送されるテレビの番組名であり、カテゴリが、その番組を放送している放送局名である。以下、情報抽出システム１の処理について説明する。

まず、サーバ３の収集部２１は、インターネット４などから番組キーワードが出現するテキストを収集し、収集したテキストを番組情報毎にテキスト格納部２２に格納する。

キーワード抽出部２３は、格納したテキストから番組キーワード以外のキーワード、そのテキストの作成時刻を抽出する。

カテゴリ格納部２６は、抽出対象とする番組情報（番組キーワード）、番組キーワードが属するカテゴリ分類を格納している。

ローカル抽出部２４は、キーワードから、第１の実施形態と同様に時間スコアと番組スコアがそれぞれ閾値を超えるキーワードをローカルキーワードとして抽出する。式（１）における時刻は、予め設定した出現期間であり、式（２）におけるローカルエリアは、例えば、番組のジャンル（例えば、ニュース、ドラマ、歌番組、バラエティ）である。

ローカル格納部２５は、抽出したローカルワードを出現期間毎、番組毎に格納する。

次に、ユーザは、ある番組をテレビで見ながら、携帯端末であるクライアント２でユーザテキストを入力する。例えば、受け付け部１１が「タレントＪは、かっこいい」と受け付ける。

ユーザ抽出部１２は、「タレントＪ」をユーザキーワードとして抽出し、そのユーザテキストの作成時刻も抽出する。

特定部１３は、サーバ３で抽出しローカル格納部２５で格納されているローカルワードと出現期間に基づき、ユーザキーワードから番組情報を特定する。

付与部１４は、特定した番組情報をユーザテキストに付与する。

ユーザ格納部１５は、受け付けたユーザテキストと、付与した番組情報とを対応させて格納する。

本実施形態によれば、番組名を入力することなしで、ユーザの番組情報を把握できる。

上記各実施形態の情報抽出システム１のクライアント２とサーバ３とは、ＣＰＵ（Central Processing Unit）などの制御装置と、ＲＯＭやＲＡＭなどの記憶装置と、ＨＤＤやＳＳＤなどの外部記憶装置などを備えており、通常のコンピュータを利用したハードウェア構成で実現可能となっている。また上記各実施形態の上述した各部をソフトウェア的に実現してもハードウェア的にも実現してもよい。

変更例

上記各実施形態では、関心情報として「位置情報」「番組情報」で説明したが、これに限らず、例えば、学校の授業情報（例えば、経済学の授業）、歌手の曲名情報、スポーツの選手情報、映画館で上映される映画情報、劇場で公演される公演情報、遊園地の遊技施設情報、飛行機の便名情報、自動車の車種情報などである。

上記では本発明の一実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の主旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１・・・情報抽出システム、２・・・クライアント、３・・・サーバ、１１・・・受け付け部、１２・・・ユーザ抽出部、１３・・・特定部、１４・・・付与部、１５・・・ユーザ格納部、２１・・・収集部、２２・・・テキスト格納部、２３・・・キーワード抽出部、２４・・・ローカル抽出部、２５・・・ローカル格納部、２６・・・カテゴリ格納部

Claims

ユーザが関心のある関心情報を示す関心キーワードが出現するテキストと、前記関心キーワードと、前記テキストの作成時刻とを収集する収集部と、
前記テキストに含まれる前記関心キーワード以外のキーワードと、前記作成時刻とを抽出するキーワード抽出部と、
前記作成時刻から直近Ｔ１時間前までの出現期間における前記キーワードの出現頻度に基づく時間スコアが第１閾値を超え、かつ、特定の話題の範囲を示すローカルエリアにおける前記キーワードの出現頻度に基づくローカルスコアが第２閾値を超える前記キーワードを、ローカルホットワードとして抽出すると共に、抽出した前記キーワードの前記出現期間と、前記キーワードに対応した前記関心キーワードとを抽出するローカル抽出部と、
抽出した前記ローカルホットワードと、前記出現期間と、前記関心キーワードとを格納するローカル格納部と、
を備える情報抽出サーバ。
前記ローカル抽出部は、
前記出現期間において抽出した全ての前記テキストの中から、前記関心キーワードと前記キーワードとが同時に出現した出現頻度と、前記関心キーワードが出現した出現頻度との第１比率を求め、
前記キーワードの前記作成時刻から直近Ｔ２時間分（但し、Ｔ１＜Ｔ２である）において抽出した全ての前記テキストの中から、前記関心キーワードと前記キーワードが同時に出現した出現頻度と、前記関心キーワードが出現した出現頻度との第２比率を求め、
前記第１比率と第２比率との比を前記時間スコアとして得る、
請求項１に記載の情報抽出サーバ。
前記ローカル抽出部は、
前記出現期間において抽出した全ての前記テキストの中から、前記関心キーワードと前記キーワードとが同時に出現した出現頻度と、前記関心キーワードが出現した出現頻度との第３比率を求め、
前記出現期間において抽出した全ての前記テキストの中から、前記ローカルエリアに含まれる全ての前記関心キーワードと前記キーワードとが同時に出現した出現頻度と、前記ローカルエリアに含まれる全ての前記関心キーワードが出現した出現頻度との第４比率を求め、
前記第３比率と第４比率との比を前記ローカルスコアとする、
請求項１又は２に記載の情報抽出サーバ。
前記関心キーワードが、カテゴリ毎に分類されてカテゴリ格納部に格納され、
前記ローカル抽出部は、前記カテゴリ格納部に格納された前記関心キーワードと前記カテゴリを用いて、抽出した前記ローカルホットワードを前記カテゴリ毎に集計する、
請求項１乃至３のいずれか一項に記載の情報抽出サーバ。
前記関心キーワードが、位置キーワードであり、
前記ローカルエリアが、特定の地域である、
請求項１に記載の情報抽出サーバ。
前記関心キーワードが、放送局が放送する番組名を表す番組キーワードであり、
前記ローカルエリアが、特定のジャンルである、
請求項１に記載の情報抽出サーバ。
特定の話題の範囲を示すローカルエリア内で、かつ、特定の出現期間内のキーワードであるローカルホットワードを格納したローカル格納部を有する情報抽出サーバと通信を行うことができる情報抽出クライアントであって、
ユーザが生成したユーザテキストを受け付ける受け付け部と、
前記ユーザテキストに含まれるユーザキーワードと、前記ユーザテキストのユーザ作成時刻とを抽出するユーザワード抽出部と、
前記ユーザキーワードと、前記情報抽出サーバの前記ローカル格納部に格納された前記ローカルホットワードとが一致し、かつ、前記ユーザ作成時刻が前記ローカルホットワードの前記出現期間に含まれる場合、前記ローカルホットワードに対応する前記関心情報を、前記ユーザテキストに対応する前記関心情報として特定する特定部と、
前記関心情報を前記ユーザテキストに付与する付与部と、
を有する情報抽出クライアント。
前記関心情報が付与するための元の前記ユーザテキストの前記ユーザ作成時刻と前後して作成された前後の前記ユーザテキストの前記関心情報を特定する前後特定部と、
元の前記ユーザテキストの前記関心情報と前記前後関心情報とが同じカテゴリに属するか否かを判定する判定部と、
をさらに有し、
前記付与部は、同じカテゴリに属すると判定された場合に、元の前記ユーザテキストに前記関心情報を付与する、
請求項７に記載の情報抽出クライアント。
前記ユーザテキストが１次発言であるのか否かを判定する発言特定部と、
前記付与部は、前記ユーザテキストが前記１次発言であると判定された場合に、前記関心情報を付与する、
請求項７に記載の情報抽出クライアント。
ユーザが関心のある関心情報を示す関心キーワードが出現するテキストと、前記関心キーワードと、前記テキストの作成時刻とを収集し、
前記テキストに含まれる前記関心キーワード以外のキーワードと、前記作成時刻とを抽出し、
前記作成時刻から直近Ｔ１時間前までの出現期間における前記キーワードの出現頻度に基づく時間スコアが第１閾値を超え、かつ、特定の話題の範囲を示すローカルエリアにおける前記キーワードの出現頻度に基づくローカルスコアが第２閾値を超える前記キーワードを、ローカルホットワードとして抽出すると共に、抽出した前記キーワードの前記出現期間、前記キーワードに対応した前記関心キーワードとを抽出し、
抽出した前記ローカルホットワードと、前記出現期間と、前記関心キーワードとを格納する、
情報抽出方法。
ユーザが生成したユーザテキストを受け付け、
前記ユーザテキストに含まれるユーザキーワードと、前記ユーザテキストのユーザ作成時刻とを抽出し、
前記ユーザキーワードと、前記格納された前記ローカルホットワードとが一致し、かつ、前記ユーザ作成時刻が前記ローカルホットワードの前記出現期間に含まれる場合、前記ローカルホットワードに対応する前記関心情報を、前記ユーザテキストに対応する前記関心情報として特定し、
前記関心情報を前記ユーザテキストに付与する、
請求項１０に記載の情報抽出方法。
ユーザが関心のある関心情報を示す関心キーワードが出現するテキストと、前記関心キーワードと、前記テキストの作成時刻とを収集する収集機能と、
前記テキストに含まれる前記関心キーワード以外のキーワードと、前記作成時刻とを抽出するキーワード抽出機能と、
前記作成時刻から直近Ｔ１時間前までの出現期間における前記キーワードの出現頻度に基づく時間スコアが第１閾値を超え、かつ、特定の話題の範囲を示すローカルエリアにおける前記キーワードの出現頻度に基づくローカルスコアが第２閾値を超える前記キーワードを、ローカルホットワードとして抽出すると共に、抽出した前記キーワードの前記出現期間と、前記キーワードに対応した前記関心キーワードとを抽出するローカル抽出機能と、
抽出した前記ローカルホットワードと、前記出現期間と、前記関心キーワードとを格納するローカル格納機能と、
をコンピュータに実現させるための情報抽出プログラム。
ユーザが生成したユーザテキストを受け付ける受け付け機能と、
前記ユーザテキストに含まれるユーザキーワードと、前記ユーザテキストのユーザ作成時刻とを抽出するユーザワード抽出機能と、
前記ユーザキーワードと、前記ローカル格納機能で格納された前記ローカルホットワードとが一致し、かつ、前記ユーザ作成時刻が前記ローカルホットワードの前記出現期間に含まれる場合、前記ローカルホットワードに対応する前記関心情報を、前記ユーザテキストに対応する前記関心情報として特定する特定機能と、
前記関心情報を前記ユーザテキストに付与する付与機能と、
を前記コンピュータに実現させるための請求項１２に記載の情報抽出プログラム。