JP2013077045A

JP2013077045A - テキスト位置判定装置及びテキスト位置判定方法

Info

Publication number: JP2013077045A
Application number: JP2011214949A
Authority: JP
Inventors: Keiichi Ochiai; 桂一落合; Kazunori Yamamoto; 和徳山本; Hayato Akatsuka; 隼赤塚
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-09-29
Filing date: 2011-09-29
Publication date: 2013-04-25
Anticipated expiration: 2031-09-29
Also published as: JP5731940B2

Abstract

【課題】地名等の位置を示す単語以外の単語やテキストに位置情報を付与すると共に位置情報が付与された単語やテキストを容易に利用可能とする。
【解決手段】テキスト位置判定装置１０は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する地名辞書記憶部１１及びＰＯＩ辞書記憶部１２と、テキストを取得する情報収集部１３と、取得されたテキストを単語単位に分解するワード分解部１４と、分解された単語と記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出すると共に抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、当該位置を示す単語に対応付けて記憶されている位置情報を付与するエリア判定部１６及び位置判定部１７と、位置情報に応じて当該位置情報が付与された単語を集計する集計部１９と、集計結果を出力する出力部２０とを備える。
【選択図】図１

Description

本発明は、テキストに係る位置情報を判定するテキスト位置判定装置及びテキスト位置判定方法に関する。

近年、日記や掲示板、ブログ、マイクロブログサービス、ＳＮＳ（SocialNetworking Service）などインターネット上での情報発信手段が多様化している。また、スマートフォン等のモバイル端末の普及により、モバイル端末でこれらのサービスを、いつでも、どこでも利用できる環境が整い、よりリアルタイムに今起きている事件や最新の話題などの情報入手することが可能となった。また、スマートフォンではＧＰＳ（Global Positioning System）やＷｉ−Ｆｉを利用した位置情報サービスが広まっており、ＳＮＳと位置情報を連携させたサービスも行われている。例えばＦｏｕｒｓｑｕａｒｅでは様々な施設にユーザがチェックインし、自分の友人とチェックインを共有したり、Ｔｗｉｔｔｅｒではツイートと呼ばれるコメント投稿に位置情報（ジオタグ）を付けることが可能であったりする。

これらのサービスで発信されている情報の中には、モバイル端末のＧＰＳで位置を付与したり、予め用意された位置情報タグ（店舗や施設の位置情報）を付与したりすることで、緯度経度などの位置情報が関連付けされているものも存在する。これら位置情報が関連付けされた情報は、モバイル端末で、現在位置周辺に関連する情報に絞り込んで検索するなどが容易にできるため、「その時」「その場所で」「旬な」情報を取得することが可能である。

しかしながら、これらの発信されている情報は、必ずしも位置情報が付与されていないため、「その時」「その場所で」「旬な」情報を取得する場合、取得可能な情報の対象数が発信されている情報全体に対して極めて限られてしまう。例えばＴｗｉｔｔｅｒでは投稿されるツイートの０．５％程度しかジオタグがつけられていない（２０１０年３月３１日現在）。

特許文献１では、ウェブページに出現する地名を抽出し、地名の出現回数をカウントすることで、その地名がどれくらいブログ等で話題となっているか判定を行い、地図上での地名の表示サイズやフォントを変更する方法を提供している。

特開２０１０−３２５６号公報

しかしながら、特許文献１では地名以外の単語及びテキスト（文書）全体に対しては位置情報を付与していないため、例えば、その場所で話題となっているワードを抽出しようとしても地名以外のワードに位置情報が付与されていないため抽出できない。

本発明は、上記の問題点を鑑みてなされたものであり、地名等の位置を示す単語以外の単語やテキストに位置情報を付与すると共に位置情報が付与された単語やテキストを容易に利用可能とすることができるテキスト位置判定装置及びテキスト位置判定方法を提供することを目的とする。

上記の目的を達成するために、本発明に係るテキスト位置判定装置は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、テキストを取得する取得手段と、取得手段によって取得されたテキストを単語単位に分解する単語分解手段と、単語分解手段によって分解された単語と位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出手段と、位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段と、位置情報に応じて、当該位置情報が位置情報付与手段によって付与された単語を集計する集計手段と、集計手段による集計結果を出力する出力手段と、を備える。

本発明に係るテキスト位置判定装置では、テキスト内に含まれる位置を示す単語に基づいて、それ以外の単語に位置情報を付与することができる。また、付与された位置情報に応じて単語が集計されるので容易に利用可能とすることができる。

取得手段は、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、位置単語抽出手段は、取得手段によって取得されたリンク情報によって示される場所のデータに含まれるテキストと位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、位置情報付与手段は、位置単語抽出手段によって抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに含まれる単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、こととしてもよい。テキストに含まれるＵＲＬ等のリンク情報に場所が示されるデータに、当該テキストに係る単語に関連する位置を示す単語が含まれることがあり、本構成によれば、そのような場合に適切かつ確実に単語に位置情報を対応付けることができ、適切かつ確実に本発明を実施することができる。

位置情報記憶手段は、地名を示す単語とエリアを示すエリア情報とを対応付けて記憶すると共に、ＰＯＩ（Point Of Interest）を示す単語とエリア情報と位置情報とを対応付けて記憶し、位置単語抽出手段は、単語分解手段によって分解された単語と位置情報記憶手段に記憶された地名を示す単語とを比較して、それらが一致した地名を示す単語に位置情報記憶手段に対応付けられているエリア情報を特定し、分解された単語と特定されたエリア情報に対応付けられているＰＯＩを示す単語とを比較して、それらが一致したＰＯＩを示す単語を抽出し、位置情報付与手段は、位置単語抽出手段によって抽出されたＰＯＩを示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該ＰＯＩを示す単語に対応付けて記憶されている位置情報を付与する、こととしてもよい。この構成によれば、ＰＯＩに応じて、効率的かつ適切に単語に位置情報を対応付けることができる。

テキストにはメタデータが付与されており、位置単語抽出手段は、取得手段によって取得されたテキストに付与されたメタデータにも関連する位置を示す単語を抽出する、こととしてもよい。この構成によれば、メタデータに応じて単語に適切な位置情報を対応付けることができる。

テキストには時刻が対応付けられており、集計手段は、テキストに対応付けられた時刻に応じて集計を行う、こととしてもよい。この構成によれば、例えば、特定の時間帯において関連している単語と位置情報とを対応付けることができる。

集計手段は、第１の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第１の期間よりも長い第２の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、第１の期間に係る集計結果の値から第２の期間に係る集計結果の値を減じた値を集計結果とすることとしてもよい。この構成によれば、例えば、特定の時間帯において特に関連している度合いが高まっている単語と位置情報とを対応付けることができる。

集計手段は、位置情報を含むエリア毎に単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にＴＦ値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にＩＤＦ値を計算して、算出したＴＦ値とＩＤＦ値とからエリア毎の各単語のＴＦ−ＩＤＦ値を計算して集計結果とすることとしてもよい。この構成によれば、単語の出現頻度が考慮された単語と位置情報との対応付けが可能になる。

集計手段は、複数の単語が同一のテキスト内に含まれる頻度を計算して、当該頻度に基づき単語をグループ化して集計結果を計算することとしてもよい。この構成によれば、集計結果を利便性の高いものにすることができる。

上記の目的を達成するために、本発明に係るテキスト位置判定装置は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、テキストを取得する取得手段と、取得手段によって取得されたテキストと位置情報記憶手段に記憶された位置を示す単語とを比較して、当該テキストに含まれる位置を示す単語を抽出する位置単語抽出手段と、位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段と、位置情報に応じて、当該位置情報が位置情報付与手段によって付与されたテキストを集計する集計手段と、集計手段による集計結果を出力する出力手段と、を備える。

本発明に係るテキスト位置判定装置では、テキスト内に含まれる位置を示す単語に基づいて、テキストに位置情報を付与することができる。また、付与された位置情報に応じてテキストが集計されるので容易に利用可能とすることができる。

ところで、本発明は、上記のようにテキスト位置判定装置の発明として記述できる他に、以下のようにテキスト位置判定方法の発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

即ち、本発明に係るテキスト位置判定方法は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段を備えるテキスト位置判定装置によるテキスト位置判定方法であって、テキストを取得する取得ステップと、取得ステップにおいて取得されたテキストを単語単位に分解する単語分解ステップと、単語分解ステップにおいて分解された単語と位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出ステップと、位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与ステップと、位置情報に応じて、当該位置情報が位置情報付与ステップにおいて付与された単語を集計する集計ステップと、集計ステップにおける集計結果を出力する出力ステップと、を含む。

本発明によれば、テキスト内に含まれる位置を示す単語に基づいて、それ以外の単語やテキストに位置情報を付与することができる。また、付与された位置情報に応じて単語やテキストが集計されるので容易に利用可能とすることができる。

本発明の実施形態に係るテキスト位置判定装置の機能構成を示す図である。地名辞書記憶部に格納されるデータを示す図である。ＰＯＩ辞書記憶部に格納されるデータを示す図である。ワード記憶部に格納されるデータを示す図である。位置情報付ワード記憶部に格納されるデータを示す図である。ワードのグルーピングを示す図である。本発明の実施形態に係るテキスト位置判定装置によって生成された情報の利用例を示す図である。本発明の実施形態に係るテキスト位置判定装置のハードウェア構成を示す図である。本発明の実施形態に係るテキスト位置判定装置で実行される処理（テキスト位置判定方法）を示すフローチャートである。集計処理の具体例を示すフローチャートである。本発明の実施形態に係るテキスト位置判定装置の変形例の機能構成を示す図である。

以下、図面と共に本発明に係るテキスト位置判定装置及びテキスト位置判定方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図１に本実施形態に係るテキスト位置判定装置１０を示す。テキスト位置判定装置１０は、テキストに係る位置情報を判定する装置である。より具体的には、テキスト位置判定装置１０は、テキストに含まれるワード（単語）に関連がある位置を判定して、ワードに位置情報を付与して位置情報に応じた集約を行う。テキスト位置判定装置１０の解析対象となるテキストは、例えば、インターネット上の日記、掲示板、ブログ、マイクロブログ及びＳＮＳ等のサービスにおいて、様々なユーザによって作成、投稿されたテキストである。

ユーザは、自身が位置している場所に応じたテキストを作成するので位置に応じてよく使われるワードがある。このようなワードは、位置（場所）に応じた情報であり、その位置においてどのようなものが興味を持たれているかを示すものとなる。本実施形態に係るテキスト位置判定装置１０では、テキストを分析することによって、位置に応じたワードを抽出するものである。なお、テキスト位置判定装置１０が解析対象とするテキストは、上述したインターネット上のテキストには限定されず任意のテキストが用いられてもよい。

図１に示すようにテキスト位置判定装置１０は、インターネットＮに接続されており、インターネットＮ上の装置（例えば、上述したテキストを投稿、表示するサービスを提供するサーバ）と情報の送受信を行うことができる。

図１に示すようにテキスト位置判定装置１０は、地名辞書記憶部１１と、ＰＯＩ辞書記憶部１２と、情報収集部１３と、ワード分解部１４と、ワード記憶部１５と、エリア判定部１６と、位置判定部１７と、位置情報付ワード記憶部１８と、集計部１９と、出力部２０とを備えて構成される。

地名辞書記憶部１１は、位置を示すワード（単語）と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段の一つである。具体的には、地名辞書記憶部１１は、例えば、図２に示すテーブルを用いて、位置を示すワードとして地名を示すワードと、位置を示す位置情報と、エリアを示すエリア情報とを対応付けて記憶する。地名を示すワードは、例えば、都道府県名、市区町村名、駅名等を用いる。位置情報は、具体的には、緯度、経度の情報であり、例えば、地名を示すワードで示される場所の代表的な位置（例えば、都道府県庁の所在地、市区町村役場の所在地、駅の所在地）とする。エリアは、テキスト位置判定装置１０によって位置の判定対象となる範囲を予め複数に区切った領域であり、例えば、都道府県や市区町村等の範囲である。それぞれのエリアには、エリア情報としてエリアを一意に特定するエリアＩＤが予め付与されている。地名を示すワード及び位置情報に対応付けられるエリアＩＤは、当該位置情報が含まれるエリアのエリアＩＤである。

ＰＯＩ辞書記憶部１２は、位置を示すワードと位置を示す位置情報とを対応付けて記憶する位置情報記憶手段の一つである。具体的には、ＰＯＩ辞書記憶部１２は、例えば、図３に示すテーブルを用いて、コンテンツＩＤと、位置を示すワードとしてＰＯＩを示すワードである名称と、住所と、位置情報と、エリアを示すエリア情報とを対応付けて記憶する。ＰＯＩは、ユーザが興味を持った、あるいは興味を持ちえる特定の場所であり、具体的には、特定の店舗や施設等に相当する。

コンテンツＩＤは、ＰＯＩの情報が掲載されているＷｅｂページ等のＰＯＩに係るコンテンツを特定するＩＤである。当該コンテンツは、本発明とは直接は関係しないが本発明に付随する情報の提供等に用いることができる。名称は、ＰＯＩを示すワードであり、具体的には店舗の名前や施設名等に相当する。住所は、ＰＯＩの所在地を示す住所である。位置情報は、ＰＯＩの所在地の緯度、経度の情報である。エリアＩＤは、当該位置情報が含まれるエリアのエリアＩＤである。

地名辞書記憶部１１及びＰＯＩ辞書記憶部１２に格納される情報は、予めテキスト位置判定装置１０の管理者等によって地名辞書記憶部１１及びＰＯＩ辞書記憶部１２に入力されている。

情報収集部１３は、テキスト位置判定装置１０による解析対象となる１つ以上のテキストを取得する取得手段である。情報収集部１３は、上述したインターネット上に掲載されている日記等の情報を収集する。テキストの収集は、例えば、インターネット経由で日記や掲示板等のサービスを提供すると共にテキストを保存するサーバに対して、当該サーバによって用意されているＡＰＩを利用してテキストの取得を要求して取得（受信）する。あるいは、クローリングによる収集が行われてもよく、任意のテキストの取得方法を用いることができる。情報収集部１３は、取得したテキストをワード分解部１４に出力する。

テキストは、個々のデータで（例えば、日記や掲示板等における一記事が一つのテキストデータとして）取得される。テキストには、少なくともテキスト本文を示すデータが含まれる。このテキストは、例えば、ユーザによって作成された投稿の内容を示すものである。また、テキストのデータには一意に特定するＩＤが付与されている。このＩＤは、テキストの取得時に予め付与されていてもよいし、テキストが取得された時点で情報収集部１３によって一意なＩＤを付与されてもよい。また、テキストのデータには時刻を示すデータが付与されていてもよい。この時刻は、例えば、テキストがユーザによって、日記や掲示板等のサーバに投稿（あるいは生成）された時刻である。

また、取得されるテキストのデータにはメタデータが付与されていてもよい。メタデータとしては、例えば、緯度及び経度等の位置情報がある。あるいは、テキストを作成したユーザに係る情報であってもよい。より具体的には、ユーザの所在地を示すプロフィールデータ等である。これらのメタデータは、例えば、テキストの作成時に作成に用いられた端末によって自動的にテキストに付与されるものである。情報収集部１３は、テキストに付与された時刻を示すデータやメタデータをテキストのＩＤに対応付けて後の解析に利用できるように管理する。

情報収集部１３は、取得したテキストに含まれるリンク情報によって示される場所のデータを取得することとしてもよい。その場合、情報収集部１３は、まず、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断する。リンク情報は、例えば、インターネット上のＷｅｂページ等のデータの場所を示すＵＲＬ（Uniform Resource Locator）である。あるいは、リンク情報はＵＲＬ以外のものが用いられてもよい。この判断は、テキストに対して正規表現（部分一致）で検索を行うことによって行われる。

情報収集部１３は、テキストにリンク情報が含まれていると判断した場合には当該リンク情報を抽出して、当該リンク情報によって示される場所のデータを取得する。例えば、ＵＲＬで示されるサーバに取得を要求して取得（受信）する。情報収集部１３は、リンク情報から取得された情報をテキストのＩＤに対応付けて後の解析に利用できるように管理する。

また、以降の処理において、情報収集部１３によってリンク情報から取得されたテキストを取得元のテキスト（リンク情報が含まれるテキスト）と合わせて一つのテキストとして扱うこととしてもよい。

ワード分解部１４は、情報収集部１３によって収集されたテキストをワード単位に分解する単語分解手段である。この分解は、テキストが日本語である場合には、例えば形態素解析によって行われる。形態素解析には、ＭｅＣａｂ、茶筌、ＪＴＡＧ（例えば、Japanese morphological analyzer using word co-occurrence:JTAG, Takeshi Fuchi and Shinichiro Takagi , ACL ‘98 Proceedings ofthe 36th Annual Meeting of the Association for Computational Linguistics参照）等の形態素解析エンジンが用いられてもよい。テキストが英語等のアルファベットで構成されているものである場合には、例えばスペースで区切られた文字列をワードとすることができる。

ワード分解部１４は、テキストを分解して得られたワードをテキストのＩＤと共にワード記憶部１５に出力する。また、ワード分解部１４は、分解したワードの品詞を解析して、ワードと共にそのワードの品詞を示す情報も合わせてワード記憶部１５に出力してもよい。なお、品詞の解析は、従来から用いられている技術を利用することができる。

ワード記憶部１５は、ワード分解部１４によってテキストから分解されたワードを記憶する手段である。具体的には、ワード記憶部１５は、例えば、図４（ａ）及び図４（ｂ）に示すテーブルを用いて、情報元ＩＤと、ワードとを対応付けて記憶する。情報元ＩＤは、ワードが取得された（ワードが含まれていた）テキストのＩＤである。また、ワード分解部１４による形態素解析等によってワードの品詞を示す情報が取得される場合には、図４（ｂ）に示すように、情報元ＩＤと、ワードと、品詞とを対応付けて記憶してもよい。

エリア判定部１６は、ワード分解部１４によって分解されてワード記憶部１５に記憶されているワードと、地名辞書記憶部１１に記憶された地名を示すワードとを比較して、それらが一致した地名を示すワードを抽出する位置単語抽出手段の一機能である。なお、ワード記憶部１５に記憶されているワードのうち、比較対象とする（照合に利用する）ワードを絞り込むこととしてもよい。例えば、品詞が名詞であるワードのみ、あるいは名詞及び固有名詞のみを対象とすることとしてもよい。また、固有名詞の中でも人名と判断されたものを除くこととしてもよい。これにより、精度を落とさずに効率的に処理を行うことが可能である。

エリア判定部１６は、地名辞書記憶部１１に記憶された地名を示すワードと一致した（ワード記憶部１５に記憶されている）ワードに、地名辞書記憶部１１から当該地名を示すワードに対応付けられている位置情報及びエリアＩＤを取得（特定）して付与する。また、エリア判定部１６は、一致したワード記憶部１５に記憶されているワードと同一の情報元ＩＤを有するワードにも、同様に当該地名を示すワードに対応付けられている位置情報及びエリアＩＤを付与する。即ち、エリア判定部１６は、位置を示すワードを含んでいたテキストに含まれる他のワードに、地名辞書記憶部１１に地名を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段でもある。なお、テキスト中の何れのワードも地名と一致しなかった場合には、そのテキスト中の全てのワードには、位置情報及びエリアＩＤは付与されない。エリア判定部１６は、位置情報及びエリアＩＤを対応付けたワードの情報を位置判定部１７に出力する。

エリア判定部１６は、情報収集部１３によって取得されたリンク情報によって示される場所の（リンク先の）データに含まれるテキスト（中のワード）と地名辞書記憶部１１に記憶された位置を示すワードとを比較することとしてもよい。即ち、リンク先のデータに含まれるテキストに、地名辞書記憶部１１に記憶された位置を示すワードが含まれるか判断してもよい。エリア判定部１６は、地名辞書記憶部１１に記憶された地名を示すワードと一致した、リンク先のデータに含まれるテキスト（中のワード）に、地名辞書記憶部１１に当該地名を示すワードに対応付けられている位置情報及びエリアＩＤを取得（特定）して付与する。この場合、エリア判定部１６は、リンク情報の取得元のテキストの情報元ＩＤを有するワードに、同様に当該地名を示すワードに対応付けられている位置情報及びエリアＩＤを付与する。

エリア判定部１６は、更にワードと地名とが一致した場合、その地名が全国で一つだけのものか判定することとしてもよい。この判定は、予め地名辞書記憶部１１に記憶された地名を示すワードが全国で一つものであるか否か判定しておき、判定結果を示すフラグを地名辞書記憶部１１に記憶されたデータに持たせておき当該フラグが用いられて行うこととしてもよい。あるいは、ワードと地名との一致を判断する際に一致する地名が一つだけかどうかを判断することとによって行われてもよい。

エリア判定部１６は、一致した地名が複数であると判定した場合には、それを更に絞り込むこととしてもよい。例えば、「日本橋」という地名は東京と大阪にあるためワードのみではどちらの日本橋を示すか判定ができない。エリア判定部１６は、絞り込んだ地名の位置情報及びエリアＩＤを、上記のようにテキストのワードに付与する。絞り込みは、例えば、上述したように、情報収集部１３によって取得されたリンク情報によって示される場所のデータが用いられて行われてもよい。

その場合、予め図２に示す地名辞書記憶部１１の各データに、絞り込みを行うための情報、例えば当該地名が属する都道府県名を更に対応付けておく。エリア判定部１６は、リンク情報によって示される場所のデータに含まれるテキストに都道府県名が含まれているか否か判断する。都道府県名が含まれていた場合には、エリア判定部１６は、一致した複数の地名のうち、リンク情報に係るテキストに含まれていた都道府県名と一致する都道府県名が、地名辞書記憶部１１に記憶された情報において当該一致した当該複数の地名に対応付けられているか判断する。複数の地名のうち、リンク情報に係るデータに含まれる都道府県名と対応付けられている地名がある場合、当該地名を上記の処理に採用する。そのような地名が無い場合、あるいは、リンク情報のデータに都道府県名が含まれていない場合には、絞り込みを行わずに両方の地名を採用する。

また、絞り込みは、上述したように情報収集部１３によって取得されたテキストに付与されたメタデータが用いられて行われてもよい。エリア判定部１６は、メタデータにも関連する位置を示す単語を抽出する。具体的には、リンク情報の例と同様にメタデータ（より具体的には、プロフィールや所在地の情報）から都道府県名を抽出する。エリア判定部１６は、一致した複数の地名のうち、メタデータから抽出した都道府県名と一致する都道府県名が、地名辞書記憶部１１に記憶された情報において当該一致した当該複数の地名に対応付けられているか判断する。複数の地名のうち、メタデータに含まれる都道府県名と対応付けられている地名がある場合、当該地名を上記の処理に採用する。そのような地名が無い場合、あるいは、メタデータから都道府県名を抽出できない場合には、絞り込みを行わずに両方の地名を採用する。

位置判定部１７は、エリア判定部１６から入力されたワードと、ＰＯＩ辞書記憶部１２に記憶されたＰＯＩを示すワードとを比較して、それらが一致したＰＯＩを示すワードを抽出する位置単語抽出手段の一機能である。位置判定部１７は、エリア判定部１６から入力されたワードに対応付けられているエリアＩＤと同じエリアＩＤに対応付けられてＰＯＩ辞書記憶部１２に記憶されているＰＯＩを示すワードを比較対象とする。

位置判定部１７は、ＰＯＩ辞書記憶部１２に記憶されたＰＯＩを示すワードと一致した（エリア判定部１６から入力された）ワードに、ＰＯＩ辞書記憶部１２に当該ＰＯＩを示すワードに対応付けられている位置情報及びエリアＩＤを取得（特定）して付与する。また、エリア判定部１６は、一致したエリア判定部１６から入力されたワードと同一の情報元ＩＤを有するワードにも、同様に当該ＰＯＩを示すワードに対応付けられている位置情報及びエリアＩＤを付与する。即ち、位置判定部１７は、位置を示すワードを含んでいたテキストに含まれる他のワードに、ＰＯＩ辞書記憶部１２にＰＯＩを示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段でもある。ＰＯＩを示すワードに対応付けられている位置情報の付与は、地名を示すワードに対応付けられている位置情報を更新することで行われる。

位置情報及びエリアＩＤの付与は、エリア判定部１６によって付与された位置情報及びエリアＩＤが更新されて行われる。なお、テキスト中の何れのワードもＰＯＩと一致しなかった場合には、そのテキスト中の全てのワードには、エリア判定部１６によって付与された位置情報及びエリアＩＤのままとされる。位置判定部１７は、位置情報及びエリアＩＤを対応付けたワードの情報を位置情報付ワード記憶部１８に出力する。

位置判定部１７は、エリア判定部１６と同様にリンク情報に係るテキストを用いた比較や、リンク情報に係るテキスト及びメタデータを用いたＰＯＩの絞り込みが行われてもよい。

位置情報付ワード記憶部１８は、位置判定部１７から入力された位置情報及びエリアＩＤが付与されたワードを記憶する手段である。位置情報付ワード記憶部１８が記憶するデータは、ワード毎のデータであり、例えば、図５に示すデータが格納される。図５に示すように、位置情報付ワード記憶部１８は、位置判定部１７からワードに対応付けられて入力されたエリアＩＤ、地名又は名称（ＰＯＩ）、地名又は名称の区分、品詞、並びに位置情報である緯度及び経度が、ワードに対応付けられて記憶される。

集計部１９は、位置情報付ワード記憶部１８に記憶されている位置情報が付与されたワードを、位置情報に応じて集計する集計手段である。集計は、例えば最も単純には、エリアＩＤが付与されたエリア毎にエリアに対応付けられたワードの数をカウントすることによって行われる。また、集計部１９は、テキストに対応付けられた時刻に応じて集計を行うこととしてもよい。例えば、ある時間帯のテキストのみを用いて集計を行うこととしてもよい。

更に、集計部１９は、位置情報付ワード記憶部１８に記憶されている位置情報が付与されたワードに基づき、エリア毎に各ワードのスコアを算出するような集計を行ってもよい。ここで、各ワードのスコアは、当該エリアでユーザに注目されている度合いを示す。即ち、「その場所で」「旬な」ワードである度合いを示す。また、時刻の情報を用いれば、「その時」「その場所で」「旬な」ワードである度合いを示す。

具体的には例えば、集計部１９は、以下のような集計を行うこととしてもよい。集計部１９は、第１の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第１の期間よりも長い第２の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、第１の期間に係る集計結果の値（スコア）から第２の期間に係る集計結果の値を減じた値（スコア）を集計結果とすることとしてもよい。ここで例えば、第１の期間を直近２４時間として、第２の期間を直近４８時間とする。これにより、直近２４時間でスコアが上昇した、即ち、注目度が向上した急上昇ワード（ホットワード）を抽出することができる。

集計部１９は、以下のようにスコアを算出することができる。集計部１９は、位置情報を含むエリア毎に集計対象となるワードを含むテキストの数（Ｗｔ）を当該エリアに含まれる位置情報の何れかが対応付けられた全ワードの総テキストの数（Ｗａ）で除算した値を基にＴＦ値を計算すると共に、総エリア数（Ｗａ）を当該ワードに対応付けられた位置情報が含まれるエリアの数（Ａｔ）で除算した値を基にＩＤＦ値を計算して、算出したＴＦ値とＩＤＦ値とからエリア毎の各ワードのＴＦ−ＩＤＦ値を計算して、これをスコアとすることができる。

具体的には、スコアは、以下の式により算出することができる。
スコア＝（Ｗｔ／Ｗａ）×ｌｏｇ（Ｗａ／Ａｔ＋１）
また、上記の例ではテキストの数を用いてＴＦ値を算出したが、テキストの数の代わりに、当該テキストを投稿したユーザの数を用いてもよい。テキストを投稿したユーザは、テキストに付与されたメタデータにより特定できる。ユーザの数によりＴＦ値を算出することで、特定のユーザが同一のワードについて複数回投稿した際にも、その影響を排除することができる。次に、集計部１９は、急上昇度スコアを算出する。急上昇度スコアは、以下の式によって算出することとしてもよい。
急上昇度スコア＝（直近２４時間のスコア）−（直近４８時間のスコア）

なお、上記の急上昇度スコアに、（ワードの長さ（文字数））の１．５乗を乗じたものを最終的なスコアとしてもよい。最終的なスコアが高いワードほど、注目されている度合いが高い。また、辞書として利用した市区町村名、駅名等の名詞、「〜駅」という名詞、一文字の単語、予め設定されたワード（ＮＧワード）、「ｗｗｗ」や「？！」等の記号、「なう」「Ｉ‘ｍａｔ」「ｖｉａ」等のミニブログ（Ｔｗｉｔｔｅｒ）特有の単語については、ユーザから注目されているワードとしては適切ではないので削除することが望ましい。

集計部１９は、例えば、類似するワード等のワードをグルーピングして同じグループのワードを同一のワードとして扱うこととしてもよい。例えば、集計部１９は、複数のワードが同一のテキスト内に含まれる頻度を計算して、当該頻度に基づきワードをグループ化して集計結果を計算することとしてもよい。例えば、以下の式によって、２つのワードが同一のテキスト内に含まれる頻度を示す２つのワード間のダイス係数又はコサイン距離を計算する。

ここで、ａ，ｂはそれぞれ単語を示し、Ｄ（ａ，ｂ）は単語ａと単語ｂとの間のダイス係数、Ｃ（ａ，ｂ）は単語ａと単語ｂとの間のコサイン距離、ｆｒｅｑ（ａ）は単語ａの出現頻度（全てのテキスト数に対する単語ａが登場するテキストの割合）、ｆｒｅｑ（ａ，ｂ）は単語ａと単語ｂとの共起頻度（全てのテキスト数に対する単語ａと単語ｂとが両方登場するテキストの割合）である。なお、全てのテキストは、情報収集部１３によって取得されたテキストの総数を用いてもよいし、エリア毎のテキストの総数を用いてもよい。ダイス係数又はコサイン距離が予め設定した閾値（例えば、０．５以上）である場合、同じグループ（一つのトピック）にまとめる。

グルーピングの例を、図６を用いて説明する。ここでは、上述した急上昇度スコアに基づく、ワードのランキングをホットワードランキングと呼ぶ。１位の「花火大会」を親ワード（他のワードとダイス係数を計算するワード）として、２位以下のワードのダイス係数を計算する。閾値以上であれば「花火大会」と同じグループ（同じトピック）のワードとする。例えば、「花火大会」と「ＡＢＣ新聞」とだけが同じグループにまとまったとする。次は、３位の「みなとみらい」から処理を始める。「みなとみらい」を親ワードとして、上記と同様にダイス係数を用いて処理を行う。但し、１度子ワード（別のワードとグルーピングされたワード）になったものは親ワードとしない。この時点で「みなとみらい」と「夜景」とが同じグループにまとまったとする。次は、４位の「ランドマークタワー」から処理を始める。

集計部１９は、各エリアにおける各ワードについて、位置情報を集約することとしてもよい。位置情報付ワード記憶部１８に記憶されているワードに対応付けられている位置情報である緯度及び経度は、同じエリアのワードであっても異なる緯度及び経度となっていることがある。そこで、エリア毎に各ワード毎に対応付けられる緯度及び経度を、１つあるいは予め設定した数に限定することとしてもよい。なお、上述するようにグルーピングが行われている場合は、同じグループに属するワードは同一のワードとして扱うこととしてもよい。

位置情報の集約は、例えば、エリア毎のワードに対する緯度及び経度の（ペアの）出現回数をカウントして、最も多い緯度及び経度をそのワードの緯度及び経度とすることによって行う。あるいは、ＰＯＩの名称である施設名や店舗名に基づいて付与された位置の方が、地名辞書よりも詳細な位置を表しているので、ＰＯＩの名称である施設名や店舗名に基づいて付与された位置を優先することとしてもよい。また、上記２つの方法を組み合わせてもよい。あるいは、ＰＯＩの名称である施設名や店舗名に基づいて付与された位置が、予め設定した閾値以上付与されていたら、その位置をそのワードの緯度及び経度とすることとしてもよい。

集計部１９は、集計した結果を出力部２０に出力する。集計した結果は、例えば、上述した処理によって得られたエリア毎のワードのランキング、及び当該ワードに対応付けられた緯度及び経度の情報である。

出力部２０は、集計部１９による集計結果を出力する出力手段である。この出力は、例えば、ワードのランキングを用いて、ユーザに情報の提供を行うサーバに行われる。集計部１９による集計結果（テキスト位置判定装置１０から出力される情報）を用いたサービスの例を、図７を用いて説明する。このサービスは、例えば、旅行先でエリア毎に観光地に対するホットトピック（スコアが高いワード）を表示したり、日常生活や出張時に出かけた先でエリア毎にホットトピックを表示したりするものである。

例えば、ユーザが自身の現在位置を示す情報を入力すると、当該情報からエリアが判断されて、図７の画面イメージに示されるように、テキスト位置判定装置１０から出力される情報に基づいて、当該エリアに応じたユーザの周辺のホットトピック（スコアが高いワード）が取得されて、表示される。なお、図７の画面イメージで示すように、上述したグルーピング結果も利用することができる（破線で囲まれたワード群が一つのグループに属するワード）。

また、図７に示すように、何れかのワードを選択すると、当該ワードに係るＰＯＩ情報、コンテンツプロバイダ、関連するテキスト（関連Ｔｗｅｅｔ）等を表示することとしてもよい。以上が、テキスト位置判定装置１０の機能構成である。

あるいは、出力部２０は、集計部１９による集計結果をテキスト位置判定装置１０の管理者が確認できるように、テキスト位置判定装置１０が備える表示装置に表示すること等の出力を行ってもよい。出力部２０は、その他、任意の出力を行うことができる。

図８にテキスト位置判定装置１０のハードウェア構成を示す。図８に示すようにテキスト位置判定装置１０は、ＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（RandomAccess Memory）１０２及びＲＯＭ（Read Only Memory）１０３、通信を行うための通信モジュール１０４、並びにハードディスク等の補助記憶装置１０５等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述したテキスト位置判定装置１０の機能が発揮される。以上が、テキスト位置判定装置１０の構成である。

引き続いて、図９及び図１０のフローチャートを用いて、本実施形態に係るテキスト位置判定装置１０で実行される処理であるテキスト位置判定方法を説明する。なお、本処理は、例えば、テキスト位置判定装置１０の管理者による操作とトリガとして、あるいは一定時間毎の定期的な処理として行われる。
テキスト位置判定装置１０では、情報収集部１３によって解析対象となる一つ以上のテキストが取得される（Ｓ０１、取得ステップ）。続いて、取得されたテキストにＵＲＬが含まれているか判断されて、ＵＲＬが含まれていた場合はリンク先のデータ（テキスト）が取得される（Ｓ０２、取得ステップ）。リンク先のテキストは、Ｓ０１で取得されたテキストと合わせて扱われてもよいし、後述するＳ０７の地名の絞り込みの処理のみに用いられてもよい。取得されたテキストは、情報収集部１３からワード分解部１４に出力される。

続いて、ワード分解部１４によって、情報収集部１３から入力されたテキストがワード単位に分解される（Ｓ０３、単語分解ステップ）。この際、合わせてワードの品詞が解析される。分解されたワードは、当該ワードが含まれるテキストのＩＤ及び当該ワードの品詞を示す情報と共にワード記憶部１５に出力されて記憶される。

続いて、エリア判定部１６によって、ワード記憶部１５に記憶されたワードが読み出される。この際、品詞が特定の品詞（例えば、名詞及び固有名詞）のワードのみを読み出して解析の対象とする（Ｓ０４）。続いて、エリア判定部１６によって、取得されたワードと、地名辞書記憶部１１に記憶された地名を示すワードとが比較されて、一致した地名を示すワードがあるか否かが判断される（Ｓ０５、位置単語抽出ステップ）。もし、ワード記憶部１５に記憶されたワードの中に、地名辞書記憶部１１に記憶された地名を示すワードと一致するものがなければ処理は終了する。

ワード記憶部１５に記憶されたワードの中に、地名辞書記憶部１１に記憶された地名を示すワードと一致するものがあれば、続いて、一致した地名が唯一のものか否か（全国で一つだけのものか）が判断される（Ｓ０６、位置単語抽出ステップ）。一致した地名が唯一のものでない（複数の地名が存在する）と判断された場合には、当該ワードが含まれるテキストに付与されていたメタデータ、あるいは当該ワードに含まれるＵＲＬによってＳ０２で取得されたテキストが用いられて地名の絞り込みが行われる（Ｓ０７、位置単語抽出ステップ）。

Ｓ０６において、一致した地名が唯一のものである（複数の地名が存在しない）と判断された場合、及びＳ０７において地名の絞り込みが行われた後、続いて、エリア判定部１６によって、地名と一致したワードが含まれるテキストに含まれる他のワード（ワード記憶部１５に地名と一致したワードと同一の情報元ＩＤを有するワード）に、地名辞書記憶部１１に当該地名を示すワードに対応付けられている位置情報及びエリアＩＤが付与される（Ｓ０８、位置情報付与ステップ）。位置情報及びエリアＩＤを対応付けたワードの情報は、エリア判定部１６から位置判定部１７に出力される。

続いて、位置判定部１７によって、エリア判定部１６から入力されたワードと、当該ワードに対応付けられているエリアＩＤと同じエリアＩＤに対応付けられてＰＯＩ辞書記憶部１２に記憶されているＰＯＩを示すワードとが比較されて、一致したＰＯＩを示すワードがあるか否かが判断される（Ｓ０９、位置単語抽出ステップ）。

エリア判定部１６から入力されたワードの中に、ＰＯＩ辞書記憶部１２に記憶されているＰＯＩを示すワードと一致するものがあれば、位置判定部１７によって、ＰＯＩと一致したワードが含まれるテキストに含まれる他のワード（ワード記憶部１５にＰＯＩと一致したワードと同一の情報元ＩＤを有するワード）に、ＰＯＩ辞書記憶部１２に当該ＰＯＩを示すワードに対応付けられている位置情報及びエリアＩＤが付与（地名の位置情報が更新）される（Ｓ１０、位置情報付与ステップ）。エリア判定部１６から入力されたワードの中に、ＰＯＩ辞書記憶部１２に記憶されているＰＯＩを示すワードと一致するものがなければ、ＰＯＩに係る位置情報及びエリアＩＤは付与されない（地名に係る位置情報及びエリアＩＤが付与されたままとなる）。上記のように位置判定部１７によって処理された各ワードは、位置情報付ワード記憶部１８に格納される。

続いて、集計部１９によって、位置情報付ワード記憶部１８に記憶されている位置情報及びエリアＩＤが付与されたワードが、エリア毎に集計される（Ｓ１１、集計ステップ）。

この集計は、より具体的には図１０のフローチャートに示すように行われる。まず、各ワードが含まれるテキストに対応付けられた時刻が参照されて、直近２４時間及び直近４８時間のエリア毎の各ワードのＴＦ−ＩＤＦ値が計算される（Ｓ１１０１、集計ステップ）。続いて、直近２４時間及び直近４８時間のＴＦ−ＩＤＦ値からエリア毎の各ワードのスコアが算出されて、スコア順にした急上昇ワードが生成される（Ｓ１１０２、集計ステップ）。続いて、エリア毎の各ワードがクラスタリング（グルーピング）される（Ｓ１１０３、集計ステップ）。以上が、図９のＳ１１の具体的な集計処理の例である。

続いて、集計部１９によって、エリア毎の各ワードの位置情報が集約される（Ｓ１２、集計ステップ）。上述したように、位置情報の集約は、例えば、エリア毎のワードに対する緯度及び経度の出現回数がカウントされて行われる。集計部１９による集計結果は、出力部２０に出力される。続いて、出力部２０によって、集計結果が出力される（Ｓ１３、出力ステップ）。出力は、例えば、ワードのランキングを用いて、ユーザに情報の提供を行うサーバに集計結果を送信することによって行われる。

上述したように本実施形態では、例えば、インターネット上の日記や掲示板等のテキストに対して、地名やＰＯＩ等のテキスト内に含まれる位置を示すワードに基づいて、それ以外のワードに位置情報を付与することができる。テキストは、ユーザの日記や掲示板等への投稿によるものであるので、ワードに付与される位置情報は当該ワードに関連が深い位置に係るものとなる。また、付与された位置情報に応じてワードが集計されるので、位置情報が付与されたワードを容易に利用可能とすることができる。

また、本実施形態のようにテキストに含まれるＵＲＬ等のリンク先のデータを用いて付与される位置情報が判断されてもよい。インターネット上の日記や掲示板等のテキストでは、ＵＲＬ等のリンク情報が含まれることがあり、そのような場合に適切かつ確実に単語に位置情報を対応付けることができ、適切かつ確実に本発明を実施することができる。但し、リンク情報を必ず用いる必要はない。

また、本実施形態のように地名とＰＯＩとを用いて、段階的に位置情報を付与することとしてもよい。この構成によれば、ＰＯＩに応じて、効率的かつ適切に単語に位置情報を対応付けることができる。なお、位置情報の付与は、地名のみ、あるいはＰＯＩのみが用いられて行われもよい。

また、本実施形態のようにテキストに付与されているメタデータにも基づいてワードに付与する位置情報を判断することとしてもよい。この構成によれば、メタデータに応じて単語に適切な位置情報を対応付けることができる。但し、メタデータが付与されていないテキストを解析の対象にする場合やメタデータに位置を示す情報を含むことが期待できない場合等には、必ずしもメタデータを利用する必要はない。

また、本実施形態のようにテキストに対応付けられた時刻に応じてワードの集計を行うこととしてもよい。この構成によれば、例えば、特定の時間帯において関連しているワードと位置情報とを対応付けることができる。更に、上述した実施形態のように直近２４時間及び直近４８時間の２つの時間帯の集計結果を用いて最終的な集計結果を計算することとしてもよい。この構成によれば、例えば、特定の時間帯において特に関連している度合いが高まっているワードと位置情報とを対応付けることができる。なお、上記の２４時間及び４８時間は、一例であり、２つの時間帯の幅をどのように取るかは取得したい情報に応じて任意に変更することができる。

また、本実施形態のように各ワードのＴＦ−ＩＤＦ値を算出して、それに基づいてワードの集計を行うこととしてもよい。この構成によれば、ワードの出現頻度が考慮されたワードと位置情報との対応付けが可能になる。また、本実施形態のようにワードが同一のテキスト内に含まれる頻度に基づいて、ワードをグループ化することが望ましい。この構成によれば、図７に示したように互いに関連しているワードを近くに表示させる等の利用が可能になり、集計結果を利便性の高いものにすることができる。

上述した実施形態では、位置情報が付与される対象は、テキストが分解されたワードであった。しかしながら、テキスト自体に位置情報が付与されることとしてもよい。そのような形態に係るテキスト位置判定装置１０ａを図１１に示す。テキスト位置判定装置１０ａは基本的には、テキスト位置判定装置１０と同様の構成である。

テキスト位置判定装置１０ａは、地名辞書記憶部１１と、ＰＯＩ辞書記憶部１２と、情報収集部１３と、テキスト記憶部１５ａと、エリア判定部１６ａと、位置判定部１７ａと、位置情報付テキスト記憶部１８ａと、集計部１９ａと、出力部２０ａとを備えて構成される。図１を用いて説明した実施形態では、情報収集部１３によって取得されたテキストは、ワード分解部１４によってワードに分解されて処理された。しかし、テキスト位置判定装置１０ａでは、ワードに分解されず、情報収集部１３によって取得されたテキストはそのままテキスト記憶部１５ａに記憶されテキストとして処理される。

エリア判定部１６ａ及び位置判定部１７ａは、テキストと地名辞書記憶部１１及びＰＯＩ辞書記憶部１２に記憶された地名及びＰＯＩを示す情報との比較を行って、テキストに対して位置情報を付与する。図１を用いて説明した実施形態では、ワードと地名辞書記憶部１１及びＰＯＩ辞書記憶部１２に記憶された地名及びＰＯＩを示す情報との一致が判断されたが、エリア判定部１６ａ及び位置判定部１７ａは、テキストに地名辞書記憶部１１及びＰＯＩ辞書記憶部１２に記憶された地名及びＰＯＩを示す情報が含まれるかを判断し（正規表現でテキストを検索し）、含まれていた場合には当該テキストに対応する位置情報を付与する。集計部１９ａ及び出力部２０ａも、図１を用いて説明した実施形態においてワードを単位として処理していたところを、テキストを単位として処理を行う。

本実施形態では、テキスト内に含まれる位置を示すワードに基づいて、テキストに位置情報を付与することができる。また、付与された位置情報に応じてテキストが集計されるので容易に利用可能とすることができる。

１０，１０ａ…テキスト位置判定装置、１１…地名辞書記憶部、１２…辞書記憶部、１３…情報収集部、１４…ワード分解部、１５…ワード記憶部、１５ａ…テキスト記憶部、１６，１６ａ…エリア判定部、１７，１７ａ…位置判定部、１８…位置情報付ワード記憶部、１８ａ…位置情報付テキスト記憶部、１９，１９ａ…集計部、２０，２０ａ…出力部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…通信モジュール、１０５…補助記憶装置、Ｎ…インターネット。

Claims

位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストを単語単位に分解する単語分解手段と、
前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与された単語を集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備えるテキスト位置判定装置。
前記取得手段は、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、
前記位置単語抽出手段は、前記取得手段によって取得された前記リンク情報によって示される場所のデータに含まれるテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに含まれる単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、
請求項１に記載のテキスト位置判定装置。
前記位置情報記憶手段は、地名を示す単語とエリアを示すエリア情報とを対応付けて記憶すると共に、ＰＯＩを示す単語とエリア情報と前記位置情報とを対応付けて記憶し、
前記位置単語抽出手段は、前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された地名を示す単語とを比較して、それらが一致した地名を示す単語に前記位置情報記憶手段に対応付けられている前記エリア情報を特定し、前記分解された単語と特定されたエリア情報に対応付けられているＰＯＩを示す単語とを比較して、それらが一致したＰＯＩを示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出されたＰＯＩを示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該ＰＯＩを示す単語に対応付けて記憶されている前記位置情報を付与する、
請求項１又は２に記載のテキスト位置判定装置。
前記テキストにはメタデータが付与されており、
前記位置単語抽出手段は、前記取得手段によって取得されたテキストに付与されたメタデータにも関連する位置を示す単語を抽出する、
請求項１〜３のいずれか一項に記載のテキスト位置判定装置。
前記テキストには時刻が対応付けられており、
前記集計手段は、前記テキストに対応付けられた時刻に応じて集計を行う、
請求項１〜４のいずれか一項に記載のテキスト位置判定装置。
前記集計手段は、第１の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第１の期間よりも長い第２の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、前記第１の期間に係る集計結果の値から前記第２の期間に係る集計結果の値を減じた値を集計結果とする請求項５に記載のテキスト位置判定装置。
前記集計手段は、前記位置情報を含むエリア毎に前記単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にＴＦ値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にＩＤＦ値を計算して、算出したＴＦ値とＩＤＦ値とからエリア毎の各単語のＴＦ−ＩＤＦ値を計算して集計結果とする請求項５又は６に記載のテキスト位置判定装置。
前記集計手段は、複数の前記単語が同一のテキスト内に含まれる頻度を計算して、当該頻度に基づき単語をグループ化して集計結果を計算する請求項１〜７の何れか一項に記載のテキスト位置判定装置。
位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該テキストに含まれる位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与されたテキストを集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備えるテキスト位置判定装置。
位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段を備えるテキスト位置判定装置によるテキスト位置判定方法であって、
テキストを取得する取得ステップと、
前記取得ステップにおいて取得されたテキストを単語単位に分解する単語分解ステップと、
前記単語分解ステップにおいて分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出ステップと、
前記位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与ステップと、
前記位置情報に応じて、当該位置情報が位置情報付与ステップにおいて付与された単語を集計する集計ステップと、
前記集計ステップにおける集計結果を出力する出力ステップと、
を含むテキスト位置判定方法。