JP2017107431A

JP2017107431A - 情報処理装置

Info

Publication number: JP2017107431A
Application number: JP2015241212A
Authority: JP
Inventors: 山田　渉; Wataru Yamada; 渉山田; 桂一落合; Keiichi Ochiai; 悠菊地; Yu Kikuchi; 佑介深澤; Yusuke Fukazawa; 陽平森; Yohei Mori; 健榎園; Ken Enokizono
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2017-06-15

Abstract

【課題】事物名との関連性が高い場所を特定すること。【解決手段】情報処理装置１０は、事物名と場所を示す場所情報とをそれぞれ含む複数の地域情報を記憶する地域情報ＤＢ１１と、複数の文書を記憶する文書情報ＤＢ１２と、地域情報ＤＢ１１から、同一又は類似する事物名に異なる場所情報が対応付けられている地域情報ＬＩ１及び地域情報ＬＩ２を取得する取得部１３と、文書情報ＤＢ１２から、事物集合Ｇｅ、場所集合Ｇｖ１、及び場所集合Ｇｖ２をそれぞれ抽出する抽出部１４と、特徴ベクトルＶｅ、特徴ベクトルＶｖ１及び特徴ベクトルＶｖ２をそれぞれ計算する計算部１５と、特徴ベクトルＶｅ、特徴ベクトルＶｖ１及び特徴ベクトルＶｖ２に基づいて、場所名ＶＮ１の場所及び場所名ＶＮ２の場所のいずれが事物名ＥＮ１との関連性が高い場所であるか判定し、判定結果を出力する判定部１６と、を備える。【選択図】図２

Description

本発明は、情報処理装置に関する。

従来、ユーザの外出行動を支援するために、スマートフォン等の携帯端末を介して、観光スポット、地域に関連したイベント、及び地域に関連した商品（特産品）等の地域情報を提供する地域情報サービスがある。非特許文献１に記載の技術では、ツイッター等のＳＮＳ（Social Networking Service）において、ユーザが投稿した文書から形態素解析により、イベント名称、開催場所、及び開催期間を組としたイベント情報（地域情報）が抽出される。

非特許文献１に記載の技術では、イベント名称の表記揺れを考慮して、地域情報の名寄せ処理が行われる。具体的には、開催場所ごとに作成された地域情報のペアについて、２つの地域情報のイベント名称の類似度が計算され、類似度に基づいて２つの地域情報が同一か否かが判断される。

Wataru Yamada, Daisuke Torii, Haruka Kikuchi, Hiroshi Inamura,Keiichi Ochiai, Ken Ohta, "Extracting local event information frommicro-blogs for trip planning", ICMU, 2015, 2015 Eighth InternationalConference on Mobile Computing and Ubiquitous Networking (ICMU), 2015 EighthInternational Conference on Mobile Computing and Ubiquitous Networking (ICMU)2015, pp. 7-12, doi:10.1109/ICMU.2015.7061020

しかしながら、イベント名称と複数の場所名とが含まれる文書が投稿される場合がある。非特許文献１に記載の技術では、イベント名称と複数の場所名とが文書に含まれている場合、それぞれの場所名とイベント名称とが対応付けられ、複数のイベント情報が抽出される。このため、イベント等の事物が提供される提供場所を特定することが望まれている。このように、イベント等の事物の名称に、複数の場所が関連付けられる場合に、いずれの場所が最も関連性が高い場所であるかを特定することが望まれている。

本発明は、事物名との関連性が高い場所を特定可能な情報処理装置を提供する。

本発明の一側面に係る情報処理装置は、所定の事物の名称である事物名との関連性が高い場所を特定する情報処理装置である。この情報処理装置は、事物名と場所を示す場所情報とをそれぞれ含む複数の地域情報を記憶する地域情報記憶手段と、複数の文書を記憶する文書記憶手段と、地域情報記憶手段に記憶されている複数の地域情報のうち、同一又は類似する事物名に異なる場所情報が対応付けられている第１地域情報及び第２地域情報を取得する取得手段と、文書記憶手段に記憶されている複数の文書から、第１地域情報に含まれる事物名である第１事物名又は第２地域情報に含まれる事物名である第２事物名を含む文書の集合である事物集合、第１地域情報に含まれる場所情報である第１場所情報によって示される第１場所の場所名である第１場所名を含む文書の集合である第１場所集合、第２地域情報に含まれる場所情報である第２場所情報によって示される第２場所の場所名である第２場所名を含む文書の集合である第２場所集合をそれぞれ抽出する抽出手段と、事物集合、第１場所集合、及び第２場所集合のそれぞれについて、各集合に含まれる単語毎の重要度を示す特徴ベクトルをそれぞれ計算する計算手段と、計算手段によって計算された特徴ベクトルに基づいて、第１場所及び第２場所のいずれが事物名との関連性が高い場所であるか判定し、判定結果を出力する判定手段と、を備える。

この情報処理装置では、同一又は類似する事物名に異なる場所情報が対応付けられている第１地域情報及び第２地域情報が取得され、文書記憶手段に記憶されている複数の文書から、第１地域情報の第１事物名又は第２地域情報の第２事物名を含む文書の集合である事物集合、第１地域情報の第１場所情報によって示される第１場所の第１場所名を含む文書の集合である第１場所集合、第２地域情報の第２場所情報によって示される第２場所の第２場所名を含む文書の集合である第２場所集合がそれぞれ抽出される。そして、事物集合、第１場所集合、及び第２場所集合のそれぞれについて、各集合に含まれる単語の重要度を示す特徴ベクトルが計算され、特徴ベクトルに基づいて、第１場所及び第２場所のいずれが事物名との関連性が高い場所であるかが判定される。所定の事物名と関連性が高い場所の場所名は、文書において事物名とともに用いられる可能性が高いと考えられる。このため、事物名と関連性が高い場所の場所集合ほど、事物集合と同じ文書を含む可能性が高くなる。したがって、場所集合の特徴ベクトルは、事物名と関連性が高い場所の場所集合であるほど、事物集合の特徴ベクトルと類似する。このように、特徴ベクトルを考慮して、第１場所及び第２場所のいずれが事物名との関連性が高い場所であるかを判定することができる。その結果、事物名との関連性が高い場所を特定することが可能となる。

判定手段は、事物集合の特徴ベクトルと第１場所集合の特徴ベクトルとの類似度である第１類似度、及び事物集合の特徴ベクトルと第２場所集合の特徴ベクトルとの類似度である第２類似度をそれぞれ計算し、第１類似度及び第２類似度に基づいて、第１場所及び第２場所のいずれが事物名との関連性が高い場所であるか判定してもよい。この場合、特徴ベクトルの類似度を用いて、第１場所集合及び第２場所集合のいずれの集合の特徴ベクトルが、事物集合の特徴ベクトルと類似しているかを判定することができる。このため、第１場所及び第２場所のいずれが事物名との関連性が高い場所であるかをより明確に判定することができる。その結果、事物名との関連性が高い場所の判定精度を向上することが可能となる。

判定手段は、第１場所の専有面積及び第２場所の専有面積にさらに基づいて、第１場所及び第２場所のいずれが事物名との関連性が高い場所であるか判定してもよい。場所の専有面積が大きいほど、その場所と対応付けられる事物の数が増える可能性が高くなる。このため、専有面積が大きい場所は、異なる事物であるが、同様の事物名を有する複数の事物と対応付けられる場合がある。例えば、あるイベントが所定の場所で開催される場合、その開催場所よりも大きい専有面積を有する場所では、上記開催場所と異なる場所でも同様のイベントが開催される可能性がある。このような場合、大きい専有面積を有する場所の場所集合の特徴ベクトルが、あるイベントの事物集合の特徴ベクトルと類似するおそれがある。そこで、場所の専有面積を考慮することによって、専有面積の大きさに起因した誤判定を抑制することができる。その結果、事物名との関連性が高い場所の判定精度を向上することが可能となる。

地域情報記憶手段は、事物名が、当該事物名と同一又は類似する事物名を有する事物が所定数よりも多く存在する一般事物名であるか否かを示す一般事物名情報を地域情報のそれぞれに対応付けて記憶してもよい。抽出手段は、第１地域情報の一般事物名情報が、第１事物名が一般事物名でないことを示す場合、第１事物名又は第２事物名を含む文書の集合を事物集合として抽出してもよく、第１地域情報の一般事物名情報が、第１事物名が一般事物名であることを示す場合、第１事物名又は第２事物名を含み、かつ、第１場所名又は第２場所名を含む文書の集合を事物集合として抽出してもよい。事物名が１つの場所で提供される事物に限らず、別の場所で提供される異なる事物にも用いられるような一般的な名称である場合、事物名と関連性が高い場所の数が複数になるおそれがある。このような場合に、第１事物名又は第２事物名を含む文書の集合を事物集合として抽出すると、事物集合には、事物名は同一又は類似しているものの、異なる場所と関連性が高い事物に関する文書が含まれてしまう。そこで、第１事物名が一般事物名である場合に、第１事物名又は第２事物名を含み、かつ、第１場所名又は第２場所名を含む文書の集合を事物集合として抽出することによって、異なる場所と関連性が高い事物に関する文書が、事物集合に含まれる可能性を低減することができる。その結果、事物名との関連性が高い場所の判定精度を向上することが可能となる。

取得手段は、複数の地域情報に含まれる事物名の類似度に基づいて、第１地域情報及び第２地域情報を取得してもよい。この場合、事物名の類似度を考慮して、第１地域情報及び第２地域情報が取得される。このため、事物名が同一でなくても、２つの事物名が類似していれば、同一の事物に関する地域情報と判定することができる。これにより、事物名との関連性が高い場所の候補となる場所の数を増やすことができるので、事物名との関連性が高い場所の判定精度を向上することが可能となる。

地域情報記憶手段は、場所情報によって示される場所が事物との関連性が高い場所となり得るか否かを示す除外情報を地域情報のそれぞれに対応付けて記憶してもよい。取得手段は、複数の地域情報のうち、除外情報が場所情報によって示される場所が事物との関連性が高い場所となり得ることを示す地域情報から第１地域情報及び第２地域情報を取得してもよい。この場合、事物との関連性が低い場所を示す場所情報を含む地域情報を除外して、第１地域情報及び第２地域情報が取得される。このため、事物との関連性が低い場所に対して、場所集合を抽出したり、特徴ベクトルを計算したりする必要がなくなり、処理の負荷を軽減することが可能となる。

複数の文書は、複数のユーザがそれぞれ文書を投稿し、投稿された文書を閲覧するコミュニケーションサービスにおいて投稿された文書であってもよい。抽出手段は、複数の文書のそれぞれが投稿された時刻に基づいて、事物集合、第１場所集合、及び第２場所集合を抽出してもよい。例えば、定期的に開催されるイベント等では、開催場所が異なることがある。このため、定期的に開催されるイベント等に関して投稿された文書では、同じ事物名であっても、異なる場所との関連性が高いことがある。ところで、同じ事物に関する情報は、ツイッター等のコミュニケーションサービスにおいて同時期に投稿される可能性が高い。そこで、文書が投稿された時刻を考慮して、例えば、所定の期間に投稿された文書に絞ることにより、対象としている事物の事物名との関連性が高い場所を特定することができる。その結果、事物名との関連性が高い場所の判定精度を向上することが可能となる。

本発明の別の側面に係る情報処理装置は、判定手段による判定結果に基づいて、地域情報記憶手段に記憶されている複数の地域情報を更新する更新手段をさらに備えてもよい。例えば、事物名との関連性が高い場所とそれ以外の場所とを識別可能となるように、地域情報を更新することができる。これにより、事物名と場所情報とが精度よく対応付けられた地域情報を識別することが可能となる。

本発明によれば、事物名との関連性が高い場所を特定することができる。

情報配信システムの構成を示す図である。第１実施形態の情報配信システムの機能構成を示すブロック図である。図１の情報配信サーバのハードウェア構成を示す図である。地域情報管理テーブルの一例を示す図である。専有面積管理テーブルの一例を示す図である。図２の情報処理装置による処理結果を説明するための図である。図２の情報配信サーバによって配信された地域情報の表示例を示す図である。図２の情報処理装置が行う情報処理方法の一連の処理を示すフローチャートである。第２実施形態の情報配信システムの機能構成を示すブロック図である。図９の情報配信システムにおける地域情報配信方法の一連の処理を示すシーケンス図である。地域情報管理テーブルの別の例を示す図である。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１は、情報配信システムの構成を示す図である。図１に示されるように、情報配信システム１は、地域情報を端末装置３に配信するシステムであって、情報配信サーバ２と１以上の端末装置３とを含む。地域情報とは、特定の地域に関する情報であり、例えば、地域に関連したイベント、及び地域に関連した商品（特産品）等の情報である。つまり、地域情報は、ある特定の場所と、イベント及び商品等の事物と、が対応付けられた情報である。

情報配信サーバ２は、地域情報を端末装置３に配信するサーバである。情報配信サーバ２は、例えば、ツイッター等のＳＮＳ（Social Networking Service）で投稿された文書から地域情報を抽出し、抽出した地域情報を後述の地域情報ＤＢ１１（図２参照）に記憶している。端末装置３は、ユーザによって携帯されて用いられる装置である。端末装置３は、例えば、携帯電話機、スマートフォン、タブレット端末及びノートＰＣ（Personal Computer）を含む携帯端末である。端末装置３は、ＧＰＳ（GlobalPositioning System）等の自端末の位置情報を取得する機能を有している。端末装置３は、情報配信サーバ２から地域情報を取得し、取得した地域情報を表示する。情報配信サーバ２と端末装置３とは、例えば、移動体通信網等のネットワークＮＷを介して互いに通信可能に接続されている。

地域情報は、例えば、地域において提供される事物の名称である事物名、及び事物が提供される提供場所を示す場所情報を含む。事物は、例えば、地域特有のものであり、イベント、及び特産品等を含む。提供場所は、事物の提供場所であって、事物がイベントである場合には開催場所ともいう。ＳＮＳに投稿されるような文書では、投稿するユーザによっては、１つの事物に対して複数の場所が用いられる場合がある。例えば、「三笠公園」で「桜祭り」が開催される場合、「桜祭りが三笠公園で開催されます。」と記載されることもあれば、「桜祭りが三笠駅の近くの三笠公園で開催されます。」と記載されることもある。このような場合、地域情報として、「桜祭り」及び「三笠公園」を含む地域情報、並びに、「桜祭り」及び「三笠駅」を含む地域情報が抽出される。

このように、１つの事物に対して場所名が複数用いられることによって、実際には同じ事物に関する地域情報であっても、異なる地域情報として扱われることがある。そこで、同一の事物の提供場所を特定するために、情報処理装置１０（図２参照）が用いられる。以下、情報配信サーバ２が情報処理装置１０を備える構成（第１実施形態）、及び端末装置３が情報処理装置１０を備える構成（第２実施形態）について順に説明を行う。

（第１実施形態）
第１実施形態に係る情報配信システム１について説明する。図２は、第１実施形態の情報配信システムの機能構成を示すブロック図である。図２に示されるように、情報配信サーバ２は、機能的には、情報処理装置１０と、受信部２１と、応答部２２と、を備えている。情報処理装置１０は、所定の事物名との関連性が高い場所を特定する装置であり、地域情報ＤＢ１１と、文書情報ＤＢ１２と、取得部１３と、抽出部１４と、計算部１５と、判定部１６と、更新部１７と、を備えている。所定の事物名との関連性が高い場所とは、所定の事物名に最も相応しい場所であり、例えば、事物名によって示される事物が実際に提供される提供場所である。情報配信サーバ２は、例えば、図３に示されるハードウェアによって構成されている。

図３は、情報配信サーバ２のハードウェア構成を示す図である。図３に示されるように、情報配信サーバ２は、物理的には、１又は複数のＣＰＵ（Central Processing Unit）２０１、主記憶装置であるＲＡＭ（RandomAccess Memory）２０２及びＲＯＭ（Read Only Memory）２０３、データ送受信デバイスである通信モジュール２０４、ハードディスク及びフラッシュメモリ等の補助記憶装置２０５、キーボード等のユーザの入力を受け付ける入力装置２０６、並びにディスプレイ等の出力装置２０７等を備えるコンピュータとして構成されている。図２に示される情報配信サーバ２の各機能は、ＣＰＵ２０１、ＲＡＭ２０２等のハードウェア上に１又は複数の所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ２０１の制御のもとで通信モジュール２０４、入力装置２０６、及び出力装置２０７を動作させるとともに、ＲＡＭ２０２及び補助記憶装置２０５におけるデータの読み出し及び書き込みを行うことで実現される。なお、図２に示される端末装置３も情報配信サーバ２と同様のコンピュータシステムとして構成される。

再び図２を参照して、情報配信サーバ２の各機能の詳細を説明する。地域情報ＤＢ１１は、所定の事物名と提供場所を示す場所情報とをそれぞれ含む複数の地域情報を記憶する地域情報記憶手段として機能する。地域情報は、予め地域情報ＤＢ１１に準備されている。例えば、複数のユーザがそれぞれ文書を投稿し、投稿された文書を閲覧するコミュニケーションサービス（ＳＮＳ）において投稿された文書から地域情報が抽出され、抽出された地域情報が地域情報ＤＢ１１に格納される。ＳＮＳとしては、例えば、ツイッターが挙げられる。地域情報の抽出は、公知の手法によって行われる。地域情報ＤＢ１１は、地域情報管理テーブルを有している。

図４は、地域情報管理テーブルの一例を示す図である。図４に示されるように、各地域情報は、「名称」と、「場所」と、「判定フラグ」と、を含む。「名称」は、地域において提供される事物の名称である事物名であり、例えば、イベント及び商品等の名称を示す文字列である。図４の例では、イベント名として「第１１回桜祭り」、「２１世紀のみらい展」、「２１世紀の未来展」、及び「ナイトアクアリウム」が含まれており、商品名として「しらす丼」が含まれている。

「場所」は、事物名によって示される事物が提供される提供場所を示す場所情報であり、例えば、イベントが開催される場所、及び商品が提供される場所等の場所名を示す文字列である。図４の例では、イベントの開催場所として、「三笠公園」、「三笠駅」、「六本木ヒルズ」、「六本木」、及び「○○水族館」が挙げられており、商品の提供場所として、「△△食堂」が挙げられている。場所情報は、場所名を特定可能であればよく、場所名に代えて、提供場所を一意に識別可能なＰＯＩ（Point of Interest）ＩＤが用いられてもよい。

「判定フラグ」は、場所情報が有効であるか無効であるかを示す情報である。例えば、判定フラグの値が「０」である場合、当該地域情報の場所情報は無効であることを示し、判定フラグの値が「１」である場合、当該地域情報の場所情報は有効であることを示す。文書から抽出された直後の地域情報では、判定フラグは値を有しない。

文書情報ＤＢ１２は、複数の文書を記憶する文書記憶手段として機能する。この文書は、例えば、ツイッター等のＳＮＳにおいて投稿された文書である。ＳＮＳによっては、ツイート又はコメント等とも呼ばれる。具体的には、文書情報ＤＢ１２は、文書を含む文書情報を記憶している。文書情報は、外部のＳＮＳサーバから取得され得る。文書情報は、投稿された文書ごとに記憶されており、例えば、ステータスＩＤ、ユーザＩＤ、投稿日時、及び投稿文書を含む。ステータスＩＤは、投稿された文書を一意に識別可能な識別情報である。ユーザＩＤは、文書を投稿したユーザを一意に識別可能な識別情報である。投稿日時は、文書が投稿された日時を示す情報である。投稿文書は、ユーザによって投稿された文書である。

取得部１３は、判定対象となる地域情報を取得する取得手段として機能する。取得部１３は、例えば、地域情報ＤＢ１１に記憶されている複数の地域情報のうち、同一又は類似する事物名に異なる場所情報が対応付けられている２以上の地域情報を判定対象の地域情報として取得する。具体的には、取得部１３は、地域情報ＤＢ１１に記憶されている複数の地域情報から１つの地域情報を地域情報ＬＩ_１（第１地域情報）として選択し、複数の地域情報のうち、地域情報ＬＩ_１の事物名ＥＮ_１（第１事物名）と同一又は類似する事物名を有する他の地域情報を地域情報ＬＩ_２（第２地域情報）、…地域情報ＬＩ_Ｎとして選択する。なお、以下の説明において、地域情報を包括的に示す場合には「地域情報ＬＩ」と表すことがあり、判定対象の地域情報のいずれかを示す場合には、地域情報ＬＩに下付きでその番号ｘを付して「地域情報ＬＩ_ｘ」等と表すこととする。他の情報についても、同様の表記を用いる。

取得部１３は、例えば、複数の地域情報に含まれる事物名の名称類似度ＮＳに基づいて、判定対象の地域情報を取得する。ここで、名称類似度ＮＳの計算方法について説明する。

取得部１３は、地域情報ＬＩ_１の事物名ＥＮ_１と、地域情報ＤＢ１１に記憶されている他の地域情報ＬＩ_ｉの事物名ＥＮ_ｉと、の最長共通部分列を抽出する。共通部分列とは、２つの文字列において、連続又は非連続にかかわらず同じ要素が同じ順序で出現する部分列である。最長共通部分列とは、取り得る共通部分列のうち、最も長い（最も文字数が多い）部分列である。例えば、事物名ＥＮ_１が「２１世紀の未来展」であり、事物名ＥＮ_ｉが「２１世紀のみらい展」であるとした場合、共通部分列は、「２」、「２１」、「２１世」、「２１世紀」、「２１世紀の」、及び「２１世紀の展」であり、最長共通部分列は、「２１世紀の展」である。

取得部１３は、最長共通部分列に基づいて、最長共通部分列比を計算し、最長共通部分列比を名称類似度ＮＳとする。最長共通部分列比Ｒｌｃｓは、式（１）に示されるように、２つの文字列Ｘ，Ｙの最長共通部分列の長さ（文字数）である最長共通部分列長（Length of Longest Common Subsequence；LLCS）を、２つの文字列Ｘ，Ｙのうち長い方の文字列の文字列長（文字数）で除算した値である。

上述の例では、最長共通部分列長ＬＬＣＳ（“２１世紀の未来展”，“２１世紀のみらい展”）は、最長共通部分列である「２１世紀の展」の長さであり、６である。２つの文字列「２１世紀の未来展」及び「２１世紀のみらい展」のうちの長い方の長さは９である。このため、最長共通部分列比Ｒｌｃｓは、０．６７（＝６／９）と計算される。

取得部１３は、名称類似度ＮＳと閾値ＮＳｔｈとを比較し、事物名ＥＮ_１と事物名ＥＮ_ｉとが同一又は類似しているか否かを判定する。この場合、名称類似度ＮＳの値が大きいほど、事物名ＥＮ_１と事物名ＥＮ_ｉとが類似していることを示すので、取得部１３は、例えば、名称類似度ＮＳが閾値ＮＳｔｈよりも大きい場合に、事物名ＥＮ_１と事物名ＥＮ_ｉとが同一又は類似していると判定する。

このようにして、取得部１３は、地域情報ＤＢ１１に記憶されている地域情報のうち、同一又は類似の事物名を有するＮ個の地域情報ＬＩ_１〜ＬＩ_Ｎのリストを判定対象の地域情報として取得する。取得部１３は、取得したＮ個の地域情報ＬＩ_１〜ＬＩ_Ｎのリストを抽出部１４に出力する。なお、取得部１３は、選択した地域情報ＬＩ_１の事物名ＥＮ_１と同一又は類似する事物名を有する他の地域情報が地域情報ＤＢ１１に存在しない場合に、地域情報ＬＩ_１を抽出部１４又は更新部１７に出力してもよい。

抽出部１４は、文書情報ＤＢ１２に記憶されている複数の文書から、事物集合Ｇｅ、場所集合Ｇｖ_１（第１場所集合）、場所集合Ｇｖ_２（第２場所集合）、…場所集合Ｇｖ_Ｎをそれぞれ抽出する抽出手段として機能する。事物集合Ｇｅは、地域情報ＬＩ_１〜ＬＩ_Ｎに含まれる事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含む文書の集合である。場所集合Ｇｖ_１は、地域情報ＬＩ_１に含まれる場所情報ＶＩ_１（第１場所情報）によって示される提供場所（第１場所）の場所名ＶＮ_１（第１場所名）を含む文書の集合である。場所集合Ｇｖ_２は、地域情報ＬＩ_２に含まれる場所情報ＶＩ_２（第２場所情報）によって示される提供場所（第２場所）の場所名ＶＮ_２（第２場所名）を含む文書の集合である。他の場所集合についても同様である。なお、Ｎ＝２である場合には、事物集合Ｇｅは、地域情報ＬＩ_１に含まれる事物名ＥＮ_１又は地域情報ＬＩ_２に含まれる事物名ＥＮ_２（第２事物名）を含む文書の集合である。

具体的に説明すると、抽出部１４は、まず、Ｎ個の地域情報ＬＩ_１〜ＬＩ_Ｎから、事物名ＥＮ_１〜ＥＮ_Ｎ及び場所名ＶＮ_１〜ＶＮ_Ｎを抽出する。抽出部１４は、文書情報ＤＢ１２に記憶されている文書から、事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Ｇｅとする。抽出部１４は、文書情報ＤＢ１２に記憶されている文書から、場所名ＶＮ_１を含む文書を抽出し、抽出した文書群を場所集合Ｇｖ_１とする。同様に、抽出部１４は、文書情報ＤＢ１２に記憶されている文書から、場所名ＶＮ_２〜ＶＮ_Ｎを含む文書をそれぞれ抽出し、抽出したそれぞれの文書群を場所集合Ｇｖ_２〜Ｇｖ_Ｎとする。

なお、抽出部１４は、文書情報ＤＢ１２に記憶されている文書のうち、複数の文書のそれぞれが投稿された時刻に基づいて、事物集合Ｇｅ、及び場所集合Ｇｖ_１〜Ｇｖ_Ｎを抽出してもよい。具体的には、文書情報ＤＢ１２に記憶されている文書のうち、投稿日時が所定の範囲内である文書から、事物集合Ｇｅ、及び場所集合Ｇｖ_１〜Ｇｖ_Ｎを抽出してもよい。所定の範囲は、例えば、抽出時刻の１週間前から抽出時刻までの範囲である。

抽出部１４は、文書情報ＤＢ１２に記憶されている文書のうち、投稿日時が所定の範囲内である文書を抽出し、抽出した文書群を計算用集合Ｇｒｅｆとする。所定の範囲は、例えば、抽出時刻の１週間前から抽出時刻までの範囲である。抽出部１４は、事物集合Ｇｅ、場所集合Ｇｖ_１〜Ｇｖ_Ｎ、及び計算用集合Ｇｒｅｆを計算部１５に出力する。

計算部１５は、事物集合Ｇｅ、及び場所集合Ｇｖ_１〜Ｇｖ_Ｎの特徴ベクトルＶをそれぞれ計算する計算手段として機能する。計算部１５は、事物集合Ｇｅ、及び場所集合Ｇｖ_１〜Ｇｖ_Ｎのそれぞれについて、各集合に含まれる単語毎の重要度であるスコアＳｃを計算することによって、特徴ベクトルＶを計算する。

ここで、特徴ベクトルの計算方法の一例を説明する。計算部１５は、例えば、各集合に含まれる文書の形態素解析を行って、全ての単語を抽出する。計算部１５は、例えば、式（２）に示されるように、ＴＦ（Term Frequency）−ＩＤＦ（Inverse DocumentFrequency）を用いて、各単語（例えば、「展」、「開催」、「祭」等）のスコアＳｃを計算する。この例では、スコアＳｃは、特徴ベクトルＶの計算対象となる集合（以下、「対象集合」という。）における対象となる単語（以下、「対象単語」という。）の出現頻度ｔｆと、対象単語の逆文書頻度ｉｄｆと、の積である。スコアＳｃの値が大きいほど、対象集合において対象単語が重要であることを示す。対象集合に含まれる文書において出現する対象単語の数ｍを、対象集合に含まれる文書において出現する全単語の総数Ｍで除算することによって、対象集合における対象単語の出現頻度ｔｆが求められる。計算用集合Ｇｒｅｆに含まれる文書の総件数Ｄを、対象集合に含まれる文書の件数ｄで除算した値の対数を計算することによって、対象単語の逆文書頻度ｉｄｆが求められる。

計算部１５は、対象集合に含まれる文書において出現する全単語について、スコアＳｃを計算し、所定の順序で配列された単語の順に各スコアＳｃを配列することによって、対象集合の特徴ベクトルＶを生成する。このようにして、計算部１５は、事物集合Ｇｅの特徴ベクトルＶｅ、場所集合Ｇｖ_１の特徴ベクトルＶｖ_１、場所集合Ｇｖ_２の特徴ベクトルＶｖ_２、…場所集合Ｇｖ_Ｎの特徴ベクトルＶｖ_Ｎを生成する。計算部１５は、特徴ベクトルＶｅ、及び特徴ベクトルＶｖ_１〜Ｖｖ_Ｎを判定部１６に出力する。

判定部１６は、計算部１５によって計算された特徴ベクトルＶに基づいて、場所名ＶＮ_１〜ＶＮ_Ｎによって示されるいずれの提供場所が事物名ＥＮ_１との関連性が高い場所であるか判定し、判定結果を出力する判定手段として機能する。判定部１６は、特徴ベクトルＶｅと特徴ベクトルＶｖ_１〜Ｖｖ_Ｎのそれぞれとの類似度Ｅ_１〜Ｅ_Ｎをそれぞれ計算する。

判定部１６は、例えば、特徴ベクトルＶｅと特徴ベクトルＶｖ_１〜Ｖｖ_ＮのそれぞれとのＣｏｓ類似度を類似度Ｅ_１〜Ｅ_Ｎとする。具体的には、判定部１６は、式（３）に示されるように、特徴ベクトルＶｅと特徴ベクトルＶｖとの内積を、特徴ベクトルＶｅの絶対値と特徴ベクトルＶｖの絶対値との積で除算することによって類似度Ｅを計算する。類似度Ｅの値が大きいほど特徴ベクトルＶｅと特徴ベクトルＶｖとが類似していることを示す。

判定部１６は、類似度Ｅ_１〜Ｅ_Ｎに基づいて、場所名ＶＮ_１〜ＶＮ_Ｎによって示されるいずれの提供場所が事物名ＥＮ_１との関連性が高い場所であるか判定する。類似度Ｅ_１〜Ｅ_Ｎのうちで最も大きい値の類似度Ｅに対応する特徴ベクトルＶｖが特徴ベクトルＶｅと最も類似しているので、判定部１６は、例えば、その特徴ベクトルＶｖが計算された場所集合Ｇｖの場所名ＶＮによって示される提供場所が、事物名ＥＮ_１との関連性が高い場所であると判定する。判定部１６は、事物名ＥＮ_１との関連性が高い場所を示す判定結果を更新部１７に出力する。

なお、Ｎ＝２である場合には、判定部１６は、特徴ベクトルＶｅと特徴ベクトルＶｖ_１との類似度Ｅ_１（第１類似度）と、特徴ベクトルＶｅと特徴ベクトルＶｖ_２との類似度Ｅ_２（第２類似度）と、をそれぞれ計算する。そして、判定部１６は、類似度Ｅ_１及び類似度Ｅ_２に基づいて、場所名ＶＮ_１によって示される提供場所及び場所名ＶＮ_２によって示される提供場所のいずれが事物名ＥＮ_１との関連性が高い場所であるか判定する。

また、判定部１６は、場所情報ＶＩ_１〜ＶＩ_Ｎによって示される提供場所の専有面積にさらに基づいて、いずれの提供場所が事物名ＥＮ_１との関連性が高い場所であるか判定してもよい。Ｎ＝２である場合には、判定部１６は、場所名ＶＮ_１によって示される提供場所の専有面積及び場所名ＶＮ_２によって示される提供場所の専有面積にさらに基づいて、場所名ＶＮ_１によって示される提供場所及び場所名ＶＮ_２によって示される提供場所のいずれが事物名ＥＮ_１との関連性が高い場所であるか判定する。判定部１６は、専有面積管理テーブルを有している。

図５は、専有面積管理テーブルの一例を示す図である。図５に示されるように、専有面積管理テーブルは、「場所」と、「専有面積」と、を対応付けて管理している。「場所」は、提供場所を示す場所情報であり、例えば、提供場所の場所名を示す文字列である。なお、位置情報管理テーブルにおいて、場所情報として、場所名に代えて、又は、場所名に加えて、提供場所を一意に識別可能なＰＯＩＩＤが用いられてもよい。「専有面積」は、場所情報によって示される提供場所の専有面積を示す情報である。

判定部１６は、専有面積管理テーブルから、各提供場所に対応付けられた専有面積を取得し、専有面積に基づいて、特徴ベクトルＶｅと特徴ベクトルＶｖ_１〜Ｖｖ_Ｎのそれぞれとの類似度Ｅ_１〜Ｅ_Ｎを計算する。例えば、判定部１６は、式（４）に示されるように、式（３）で示されるＣｏｓ類似度に専有面積Ａの平方根の逆数と、調整用パラメータαとを乗算することによって、類似度Ｅを計算する。

更新部１７は、判定部１６による判定結果に基づいて、地域情報ＤＢ１１に記憶されている複数の地域情報を更新する更新手段として機能する。更新部１７は、例えば、判定部１６による判定結果に基づいて、地域情報管理テーブルの判定フラグの値を更新する。具体的には、更新部１７は、Ｎ個の地域情報ＬＩ_１〜ＬＩ_Ｎのうち、事物名ＥＮ_１との関連性が高い場所であると判定された提供場所の場所情報を含む地域情報の判定フラグの値を「１」に設定し、それ以外の地域情報の判定フラグを「０」に設定する。更新部１７は、Ｎ個の地域情報ＬＩ_１〜ＬＩ_Ｎのうち、事物名ＥＮ_１との関連性が高い場所であると判定された提供場所以外の場所情報を含む地域情報を、地域情報管理テーブルから削除してもよい。

なお、取得部１３によって選択された地域情報ＬＩ_１の事物名ＥＮ_１と同一又は類似する事物名を有する他の地域情報が地域情報ＤＢ１１に存在しない場合に、抽出部１４、計算部１５及び判定部１６の処理を行うことなく、更新部１７は、地域情報ＬＩ_１の判定フラグの値を「１」に設定してもよい。

図６を参照して、情報処理装置１０による処理結果の一例を説明する。図６は、情報処理装置１０による処理結果を説明するための図である。図６に示されるように、事物名が「第１１回桜祭り」である２つの地域情報のうち、開催場所が「三笠公園」である地域情報の「判定フラグ」には「１」が付与され、開催場所が「三笠駅」である地域情報の「判定フラグ」には「０」が付与されている。このため、「第１１回桜祭り」が実際に開催される場所は、「三笠公園」に特定される。同様に、事物名が「２１世紀のみらい（未来）展」である２つの地域情報のうち、開催場所が「六本木ヒルズ」である地域情報の「判定フラグ」には「１」が付与され、開催場所が「六本木」である地域情報の「判定フラグ」には「０」が付与されている。このため、「２１世紀のみらい（未来）展」が実際に開催される場所は、「六本木ヒルズ」に特定される。

また、事物名が「ナイトアクアリウム」である地域情報は１つしか存在しないので、この地域情報の「判定フラグ」には「１」が付与されている。このため、「ナイトアクアリウム」が実際に開催される場所は、「○○水族館」に特定される。同様に、事物名が「しらす丼」である地域情報は１つしか存在しないので、この地域情報の「判定フラグ」には「１」が付与されている。このため、「しらす丼」が実際に提供される場所は、「△△食堂」に特定される。

図２に戻って、受信部２１は、端末装置３によって送信された地域情報要求を受信する受信手段として機能する。地域情報要求は、情報配信サーバ２が記憶している地域情報を取得するための要求である。受信部２１は、端末装置３の端末ＩＤ及び端末装置３の位置情報とともに地域情報要求を受信すると、端末ＩＤ、位置情報及び地域情報要求を応答部２２に出力する。なお、端末ＩＤは、端末装置３を一意に識別可能な識別情報である。

応答部２２は、地域情報要求に応答する応答手段として機能する。応答部２２は、受信部２１から端末ＩＤ、位置情報及び地域情報要求を受け取ると、地域情報ＤＢ１１から地域情報を取得する。応答部２２は、例えば、位置情報によって示される位置から所定の範囲内の提供場所を含む地域情報を取得する。応答部２２は、端末ＩＤに基づいて、地域情報要求を送信した端末装置３に地域情報を送信する。なお、応答部２２は、取得した地域情報が抽出された文書を含む文書情報を文書情報ＤＢ１２から取得し、文書情報を地域情報とともに端末装置３に送信してもよい。

続いて、端末装置３の機能について説明する。端末装置３は、機能的には、要求部３１と、受信部３２と、表示部３３と、を備えている。

要求部３１は、情報配信サーバ２に地域情報を要求する要求手段として機能する。端末装置３には、例えば、地域情報を表示するためのアプリケーションがインストールされている。アプリケーションが起動され、端末装置３の周辺の地域情報を表示するための操作がユーザによって行われると、要求部３１は、端末装置３の端末ＩＤ、及び端末装置３の位置情報とともに地域情報要求を情報配信サーバ２に送信する。なお、端末装置３の周辺の地域情報を表示するための操作は、アプリケーションに代えて、地域情報を表示するためのＷｅｂページ等において行われてもよい。

受信部３２は、地域情報を受信する受信手段として機能する。受信部３２は、情報配信サーバ２によって配信された地域情報を受信し、受信した地域情報を表示部３３に出力する。

表示部３３は、受信部３２から出力された地域情報を表示する表示手段として機能する。図７は、情報配信サーバ２によって配信された地域情報の表示例を示す図である。図７に示されるように、例えば、端末装置３の周囲の地域情報が端末装置３のディスプレイに表示される。地域ごとに、地域情報の数Ｃｌｉが地図上に表示されてもよく、地域情報ＬＩ（イベント名、開催場所、及び開催期間）が、当該地域情報ＬＩを取得した文書Ｗ１、及び地域情報ＬＩと同一又は類似するイベント名を有する他の地域情報を取得した文書Ｗ２とともに表示されてもよい。地域情報の開催場所が地図上でアイコンＰ等によって表示されてもよい。

次に、図８を参照して、情報処理装置１０における情報処理方法の一連の処理を説明する。図８は、情報処理装置１０が行う情報処理方法の一連の処理を示すフローチャートである。図８に示される一連の処理は、例えば、一定の周期で（例えば、５〜１０分ごとに）開始される。

まず、取得部１３が、地域情報ＤＢ１１に記憶されている複数の地域情報から、同一又は類似する事物名に異なる場所情報が対応付けられているＮ個の地域情報ＬＩ_１〜ＬＩ_Ｎのリストを取得する（ステップＳ０１）。具体的には、取得部１３は、地域情報ＤＢ１１に記憶されている複数の地域情報から１つの地域情報を地域情報ＬＩ_１として選択し、複数の地域情報のうち、地域情報ＬＩ_１の事物名ＥＮ_１と同一又は類似する事物名を有する他の地域情報を地域情報ＬＩ_２〜ＬＩ_Ｎとして選択する。そして、取得部１３は、取得したＮ個の地域情報ＬＩ_１〜ＬＩ_Ｎのリストを抽出部１４に出力する。

続いて、抽出部１４は、Ｎ個の地域情報ＬＩ_１〜ＬＩ_Ｎから、事物名ＥＮ_１〜ＥＮ_Ｎ及び場所名ＶＮ_１〜ＶＮ_Ｎを抽出する（ステップＳ０２）。そして、抽出部１４は、文書情報ＤＢ１２に記憶されている文書のうち、投稿日時が所定の範囲（抽出時刻の１週間前から抽出時刻までの範囲）内である文書から、事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Ｇｅとする（ステップＳ０３）。

また、抽出部１４は、文書情報ＤＢ１２に記憶されている文書のうち、投稿日時が所定の範囲（抽出時刻の１週間前から抽出時刻までの範囲）内である文書から、場所名ＶＮ_１を含む文書を抽出し、抽出した文書群を場所集合Ｇｖ_１とする。同様に、抽出部１４は、文書情報ＤＢ１２に記憶されている文書のうち、投稿日時が所定の範囲（抽出時刻の１週間前から抽出時刻までの範囲）内である文書から、場所名ＶＮ_２〜ＶＮ_Ｎを含む文書をそれぞれ抽出し、抽出したそれぞれの文書群を場所集合Ｇｖ_２〜Ｇｖ_Ｎとする（ステップＳ０４）。

さらに、抽出部１４は、文書情報ＤＢ１２に記憶されている文書のうち、投稿日時が所定の範囲（抽出時刻の１週間前から抽出時刻までの範囲）内である文書を抽出し、抽出した文書群を計算用集合Ｇｒｅｆとする（ステップＳ０５）。そして、抽出部１４は、事物集合Ｇｅ、場所集合Ｇｖ_１〜Ｇｖ_Ｎ、及び計算用集合Ｇｒｅｆを計算部１５に出力する。

続いて、計算部１５は、事物集合Ｇｅの特徴ベクトルＶｅ、及び場所集合Ｇｖ_１〜Ｇｖ_Ｎの特徴ベクトルＶｖ_１〜Ｖｖ_Ｎをそれぞれ計算する（ステップＳ０６）。具体的には、計算部１５は、式（２）を用いて、各集合に含まれる単語毎のスコアＳｃを計算する。そして、計算部１５は、全単語の予め定められた配列順に従って、各単語のスコアＳｃを配列することによって、各集合の特徴ベクトルＶを生成する。そして、計算部１５は、特徴ベクトルＶｅ、及び特徴ベクトルＶｖ_１〜Ｖｖ_Ｎを判定部１６に出力する。

続いて、判定部１６は、特徴ベクトルＶｅと特徴ベクトルＶｖ_１〜Ｖｖ_Ｎのそれぞれとの類似度Ｅ_１〜Ｅ_Ｎを計算する（ステップＳ０７）。具体的には、判定部１６は、式（３）又は式（４）を用いて、類似度Ｅ_１〜Ｅ_Ｎを計算する。そして、判定部１６は、類似度Ｅ_１〜Ｅ_Ｎに基づいて、場所名ＶＮ_１〜ＶＮ_Ｎによって示されるいずれの提供場所が事物名ＥＮ_１との関連性が高い場所であるか判定する（ステップＳ０８）。具体的には、判定部１６は、類似度Ｅ_１〜Ｅ_Ｎのうちで最も大きい値の類似度Ｅに対応する特徴ベクトルＶｖが計算された場所集合Ｇｖの場所名ＶＮによって示される提供場所が、事物名ＥＮ_１との関連性が高い場所であると判定する。そして、判定部１６は、当該判定結果を更新部１７に出力する。

続いて、更新部１７は、判定部１６による判定結果に基づいて、地域情報ＤＢ１１に記憶されている複数の地域情報を更新する（ステップＳ０９）。具体的には、更新部１７は、Ｎ個の地域情報ＬＩ_１〜ＬＩ_Ｎのうち、事物名ＥＮ_１との関連性が高い場所であると判定された提供場所の場所情報を含む地域情報の判定フラグの値を「１」に設定し、それ以外の地域情報の判定フラグを「０」に設定する。

続いて、取得部１３は、地域情報ＤＢ１１に記憶されている全ての地域情報が処理されたか否かを判定する（ステップＳ１０）。地域情報ＤＢ１１に記憶されている全ての地域情報が処理されていないと判定された場合（ステップＳ１０；Ｎｏ）、ステップＳ０１に戻って、取得部１３は、次の地域情報ＬＩ_１を選択し（ステップＳ０１）、ステップＳ０２〜ステップＳ１０が繰り返される。一方、ステップＳ１０において、地域情報ＤＢ１１に記憶されている全ての地域情報が処理されたと判定された場合（ステップＳ１０；Ｙｅｓ）、情報処理方法の一連の処理が終了する。

以上のようにして、地域情報ＤＢ１１に記憶されている複数の地域情報のうち、同一又は類似する事物名に異なる場所情報が対応付けられている地域情報が取得され、取得された地域情報の事物名を含む事物集合Ｇｅ、取得された地域情報の場所名を含む場所集合Ｇｖ_１〜Ｇｖ_Ｎが抽出される。そして、事物集合Ｇｅの特徴ベクトルＶｅ、及び場所集合Ｇｖ_１〜Ｇｖ_Ｎの特徴ベクトルＶｖ_１〜Ｖｖ_Ｎが計算される。そして、場所名ＶＮ_１〜ＶＮ_Ｎによって示されるいずれの提供場所が事物名ＥＮ_１との関連性が高い場所であるかが判定され、判定結果に基づいて地域情報管理テーブルが更新される。

次に、情報処理装置１０の作用効果を説明する。所定の事物名と関連性が高い場所の場所名は、文書において事物名とともに用いられる可能性が高いと考えられる。例えば、実際にイベントを開催している場所は、他の場所と比べて、当該イベントに関連するツイート等に含まれる割合が高いと考えられる。このため、事物名と関連性が高い場所の場所集合Ｇｖほど、事物集合Ｇｅと同じ文書を含む可能性が高くなる。したがって、場所集合Ｇｖの特徴ベクトルＶｖは、事物名と関連性が高い場所の場所集合Ｇｖであるほど、事物集合Ｇｅの特徴ベクトルＶｅと類似する。情報処理装置１０では、特徴ベクトルＶｅと特徴ベクトルＶｖとの類似度Ｅを用いて、場所集合Ｇｖ_１〜Ｇｖ_Ｎのいずれの集合の特徴ベクトルＶｖ_１〜Ｖｖ_Ｎが、事物集合Ｇｅに含まれる特徴ベクトルＶｅと類似しているかが判定される。その結果、事物名ＥＮ_１との関連性が高い場所を特定することが可能となる。

また、更新部１７によって、事物名ＥＮ_１との関連性が高い場所とそれ以外の場所とを識別可能となるように、地域情報ＬＩ_１〜ＬＩ_Ｎが更新される。これにより、事物名ＥＮ_１との関連性が高い場所（例えば、事物を実際に提供している提供場所）を示す場所情報を含む地域情報を識別することが可能となる。

また、事物名の名称類似度ＮＳを考慮して、地域情報ＬＩ_１〜ＬＩ_Ｎが取得される。このため、事物名が同一でなくても、地域情報ＬＩ_１の事物名ＥＮ_１と類似する事物名を有していれば、同一の事物に関する地域情報と判定することができる。これにより、事物名ＥＮ_１との関連性が高い場所の候補となる提供場所の数を増やすことができるので、事物名ＥＮ_１との関連性が高い場所の判定精度を向上することが可能となる。

また、定期的に開催されるイベント等では、同じイベント名であっても開催場所が異なることがある。このため、定期的に開催されるイベント等に関して投稿された文書では、同じ事物名であっても、異なる場所との関連性が高いことがある。ところで、同じ事物に関する情報は、ツイッター等のＳＮＳにおいて同時期に投稿される可能性が高い。情報処理装置１０では、文書が投稿された時刻を考慮して、例えば、所定の期間に投稿された文書に絞ることにより、対象としている事物の事物名ＥＮ_１との関連性が高い場所を特定することができる。その結果、事物名ＥＮ_１との関連性が高い場所の判定精度を向上することが可能となる。

また、提供場所の専有面積が大きいほど、その提供場所と対応付けられる事物の数が増える可能性が高くなる。このため、専有面積が大きい提供場所は、異なる事物であるが、同様の事物名を有する複数の事物と対応付けられる場合がある。例えば、「桜祭り」が「三笠公園」で開催される場合、「三笠公園」を含む広い範囲を示す場所である「横須賀」では、「三笠公園」と異なる場所でも「桜祭り」が開催される可能性がある。このような場合、対象としている「桜祭り」との関連性が高い場所は「三笠公園」であるが、「三笠公園」を含む集合の特徴ベクトルよりも「横須賀」を含む集合の特徴ベクトルが、「桜祭り」を含む集合の特徴ベクトルと類似するおそれがある。これに対し、情報処理装置１０では、提供場所の専有面積を考慮することによって、専有面積の大きさに起因した誤判定を抑制することができる。その結果、事物名ＥＮ_１との関連性が高い場所の判定精度を向上することが可能となる。

（第２実施形態）
第２実施形態に係る情報配信システム１について説明する。図９は、第２実施形態の情報配信システムの機能構成を示すブロック図である。図９に示されるように、第２実施形態に係る情報配信システム１は、第１実施形態に係る情報配信システム１と比較して、端末装置３が情報処理装置１０を備える点において主に相違する。つまり、情報配信サーバ２は、地域情報ＤＢ１１と、文書情報ＤＢ１２と、受信部２１と、応答部２２と、を備えている。端末装置３は、情報処理装置１０と、要求部３１と、受信部３２と、表示部３３と、を備えている。

第２実施形態に係る情報処理装置１０は、第１実施形態に係る情報処理装置１０と比較して、地域情報ＤＢ１１に代えて、地域情報記憶部１１Ａを備える点、及び文書情報ＤＢ１２に代えて、文書情報記憶部１２Ａを備える点において主に相違する。具体的には、地域情報記憶部１１Ａは、地域情報ＤＢ１１と同様に、複数の地域情報を記憶する地域情報記憶手段として機能し、地域情報管理テーブルを有している。地域情報記憶部１１Ａには、受信部３２によって情報配信サーバ２から受信された地域情報が格納される。このため、地域情報記憶部１１Ａは、端末装置３の周辺の地域情報を記憶している。

文書情報記憶部１２Ａは、文書情報ＤＢ１２と同様に、複数の文書を記憶する文書記憶手段として機能し、文書を含む文書情報を記憶している。文書情報記憶部１２Ａには、受信部３２によって情報配信サーバ２から受信された文書情報が格納される。このため、文書情報記憶部１２Ａは、端末装置３の周辺の地域情報に関する文書情報を記憶している。表示部３３は、地域情報記憶部１１Ａに記憶されている地域情報に基づいて、端末装置３の周囲の地域情報を表示する。表示部３３は、端末装置３の周囲の地域情報を表示する際に、さらに文書情報記憶部１２Ａに記憶されている文書を表示してもよい。

次に、図１０を参照して、第２実施形態の情報配信システム１における地域情報配信方法の一連の処理を説明する。図１０は、第２実施形態の情報配信システム１における地域情報配信方法の一連の処理を示すシーケンス図である。図１０に示される一連の処理は、例えば、端末装置３において、端末装置３の周辺の地域情報を表示するための操作がユーザによって行われることによって開始される。

まず、端末装置３において、要求部３１が、端末装置３を一意に識別可能な端末ＩＤ、及び端末装置３の位置情報とともに地域情報要求を情報配信サーバ２に送信する（ステップＳ２１）。

続いて、情報配信サーバ２において、受信部２１は、端末装置３の端末ＩＤ及び端末装置３の位置情報とともに地域情報要求を受信し、端末ＩＤ、位置情報及び地域情報要求を応答部２２に出力する。そして、応答部２２は、位置情報によって示される位置から所定の範囲内の提供場所を含む地域情報を地域情報ＤＢ１１から取得するとともに、取得した地域情報が抽出された文書を含む文書情報を文書情報ＤＢ１２から取得する。そして、応答部２２は、端末ＩＤに基づいて、地域情報要求を送信した端末装置３に地域情報及び文書情報を送信する（ステップＳ２２）。

続いて、端末装置３において、受信部３２は、情報配信サーバ２によって送信された地域情報及び文書情報を受信し、受信した地域情報を地域情報記憶部１１Ａに出力して格納するとともに、受信した文書情報を文書情報記憶部１２Ａに出力して格納する。そして、情報処理装置１０は、情報処理を行う（ステップＳ２３）。この情報処理は、図８に示される一連の処理と同様であるので、説明を省略する。そして、表示部３３は、地域情報記憶部１１Ａに記憶されている地域情報に基づいて、端末装置３の周囲の地域情報を表示する（ステップＳ２４）。

以上の第２実施形態の情報処理装置１０によっても、上述した第１実施形態の情報処理装置１０と同様の効果が奏される。

以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、上記実施形態では、地域情報に含まれる「場所」は、事物名によって示される事物が提供される提供場所を示す場所情報であるが、これに限られない。事物と何らかの関連性がある場所を示す場所情報であればよい。

また、取得部１３は、地域情報ＤＢ１１又は地域情報記憶部１１Ａに記憶されている複数の地域情報のうち、同一の事物名に異なる場所情報が対応付けられている２以上の地域情報を取得してもよい。

また、計算部１５は、各集合に含まれる単語毎のＴＦ−ＩＤＦ値を各集合の特徴ベクトルとしているが、これに限られない。特徴ベクトルは、各集合に含まれる単語の重要度を示す指標であればよく、例えば、各集合における単語の出現頻度ｔｆであってもよく、各集合における単語の出現回数であってもよい。

また、判定部１６は、特徴ベクトルＶｅと特徴ベクトルＶｖ_１〜Ｖｖ_Ｎのそれぞれとの類似度Ｅ_１〜Ｅ_Ｎをそれぞれ計算しているが、特徴ベクトルＶｅといずれの特徴ベクトルＶｖ_１〜Ｖｖ_Ｎが類似しているかを判定することができれば、類似度を計算する必要はない。また、判定部１６は、特徴ベクトルＶｅと特徴ベクトルＶｖ_１〜Ｖｖ_ＮのそれぞれとのＣｏｓ類似度を類似度Ｅ_１〜Ｅ_Ｎとしているがこれに限られない。判定部１６は、２つの特徴ベクトルの類似度を他の手法で計算してもよい。例えば、判定部１６は、２つの特徴ベクトルのユークリッド距離の逆数を、２つの特徴ベクトルの類似度としてもよい。

また、情報処理装置１０は、更新部１７に代えて、判定部１６から出力された判定結果に応じて、所定の処理を行う処理部を備えてもよい。処理部は、例えば、事物名との関連性が高い場所でないと判定された提供場所の場所情報を含む地域情報を、端末装置３の表示部３３に表示させないようにする指令を出力してもよい。

また、図１１の（ａ）に示されるように、地域情報ＤＢ１１又は地域情報記憶部１１Ａは、地域情報管理テーブルにおいて、「一般事物名フラグ」を地域情報のそれぞれに対応付けて記憶してもよい。つまり、各地域情報は、さらに「一般事物名フラグ」を含んでもよい。「一般事物名フラグ」は、「名称」によって示される事物名が、一般事物名であるか固有事物名であるか（つまり、一般事物名であるか一般事物名でないか）を示す一般事物名情報である。一般事物名とは、その事物名と同一又は類似する事物名の複数の事物が存在する名称である。固有事物名とは、その事物名と同一又は類似する事物名の事物が他には存在しないか存在しても少数である名称である。つまり、同一又は類似する事物名を有する事物が、所定数よりも多い場合に、その事物名は一般事物名であり、所定数以下である場合に、その事物名は固有事物名である。例えば、一般事物名フラグの値が「０」である場合、「名称」によって示される事物名が固有事物名であることを示し、一般事物名フラグの値が「１」である場合、「名称」によって示される事物名が一般事物名であることを示す。

一般事物名フラグの値は、予め設定される。抽出された地域情報に一般事物名フラグの値を設定する例を説明する。例えば、情報処理装置１０には、一般事物名のリストが予め記憶されており、このリストに基づいて、一般事物名フラグの値が設定されてもよい。また、情報処理装置１０は、地域情報の「名称」によって示される事物名を検索エンジンを用いて検索し、そのヒット数に応じて一般事物名フラグの値を設定してもよい。例えば、ヒット数が所定の閾値を超えた場合に、一般事物名フラグの値として「１」が設定され、ヒット数が所定の閾値以下である場合に、一般事物名フラグの値として「０」が設定される。また、事物名の文字数が多いほど、固有事物名である可能性が高い。このため、地域情報の「名称」によって示される事物名の文字数に応じて、一般事物名フラグの値が設定されてもよい。例えば、事物名の文字数が所定の閾値を超えた場合に、一般事物名フラグの値として「０」が設定され、事物名の文字数が所定の閾値以下である場合に、一般事物名フラグの値として「１」が設定される。

抽出部１４は、一般事物名フラグの値に応じて、事物集合Ｇｅを抽出してもよい。具体的には、抽出部１４は、地域情報ＬＩ_１の一般事物名フラグの値が「０」である場合、文書情報ＤＢ１２に記憶されている文書から、事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Ｇｅとしてもよい。抽出部１４は、地域情報ＬＩ_１の一般事物名フラグの値が「１」である場合、文書情報ＤＢ１２に記憶されている文書から、事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含み、かつ、場所名ＶＮ_１〜ＶＮ_Ｎの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Ｇｅとしてもよい。

なお、Ｎ＝２である場合には、抽出部１４は、地域情報ＬＩ_１の一般事物名フラグの値が「０」である場合、事物名ＥＮ_１又は事物名ＥＮ_２を含む文書の集合を事物集合Ｇｅとして抽出してもよい。また、抽出部１４は、地域情報ＬＩ_１の一般事物名フラグの値が「１」である場合、事物名ＥＮ_１又は事物名ＥＮ_２を含み、かつ、場所名ＶＮ_１又は場所名ＶＮ_２を含む文書の集合を事物集合Ｇｅとして抽出してもよい。

また、抽出部１４は、地域情報ＬＩ_１の一般事物名フラグだけでなく、判定対象の全ての地域情報の一般事物名フラグの値が「０」である場合、文書情報ＤＢ１２に記憶されている文書から、事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Ｇｅとしてもよい。抽出部１４は、判定対象の全ての地域情報の一般事物名フラグの少なくともいずれかの値が「１」である場合、文書情報ＤＢ１２に記憶されている文書から、事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含み、かつ、場所名ＶＮ_１〜ＶＮ_Ｎの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Ｇｅとしてもよい。

事物名が１つの場所で提供される事物に限らず、別の場所で提供される異なる事物にも用いられるような一般的な名称である場合、事物名と関連性が高い場所の数が複数になるおそれがある。このような場合に、事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含む文書の集合を事物集合Ｇｅとして抽出すると、事物集合Ｇｅには、事物名ＥＮ_１と同一又は類似している事物名を有するものの、異なる場所と関連性が高い事物に関する文書が含まれてしまう。そこで、事物名ＥＮ_１が一般事物名である場合に、事物名ＥＮ_１〜ＥＮ_Ｎの少なくともいずれかを含み、かつ、場所名ＶＮ_１〜ＶＮ_Ｎの少なくともいずれかを含む文書の集合を事物集合Ｇｅとして抽出することによって、異なる場所と関連性が高い事物に関する文書が、事物集合Ｇｅに含まれる可能性を低減することができる。その結果、事物名ＥＮ_１との関連性が高い場所の判定精度を向上することが可能となる。

また、図１１の（ｂ）に示されるように、地域情報ＤＢ１１又は地域情報記憶部１１Ａは、地域情報管理テーブルにおいて、「除外フラグ」を地域情報のそれぞれに対応付けて記憶してもよい。つまり、各地域情報は、さらに「除外フラグ」を含んでもよい。「除外フラグ」は、「場所」によって示される提供場所が、事物の提供場所となり得る場所であるか否かを示す除外情報である。言い換えると、「除外フラグ」は、「場所」によって示される提供場所が、事物との関連性が高い場所となり得るか否かを示す除外情報である。例えば、除外フラグの値が「０」である場合、「場所」によって示される提供場所が事物の提供場所となり得る場所であることを示し、除外フラグの値が「１」である場合、「場所」によって示される提供場所が事物の提供場所となり得えない場所であることを示す。

例えば、小さい駅等の場所では、イベント等が行われる可能性が低い。また、都道府県等の場所は、その範囲が広すぎるので、事物の提供場所として相応しくない。このため、「場所」で示される提供場所が、小さい駅及び都道府県等である場合に、除外フラグの値として「１」が設定され、それ以外の場合に除外フラグの値として「０」が設定される。情報処理装置１０には、提供場所となり得ない場所のリストが予め記憶されており、このリストに基づいて、抽出された地域情報に除外フラグの値が設定される。

取得部１３は、除外フラグの値に応じて、地域情報ＤＢ１１に記憶されている複数の地域情報のうち、同一又は類似の事物名を有するＮ個の地域情報ＬＩ_１〜ＬＩ_Ｎのリストを取得してもよい。具体的には、取得部１３は、地域情報ＤＢ１１に記憶されている複数の地域情報のうち、除外フラグの値が「１」である地域情報を取得対象から除外し、除外フラグの値が「０」である地域情報から同一又は類似の事物名を有するＮ個の地域情報ＬＩ_１〜ＬＩ_Ｎのリストを取得する。なお、Ｎ＝２である場合には、取得部１３は、地域情報ＤＢ１１に記憶されている複数の地域情報のうち、除外フラグの値が「０」である地域情報から、地域情報ＬＩ_１及び地域情報ＬＩ_２を取得する。

この場合、小さい駅及び都道府県等の事物との関連性が低い場所を示す場所情報を含む地域情報を除外して、地域情報ＬＩ_１〜ＬＩ_Ｎが取得される。このため、事物との関連性が低い場所に対して、場所集合を抽出したり、特徴ベクトルを計算したりする必要がなくなり、処理の負荷を軽減することが可能となる。

また、地域情報ＤＢ１１又は地域情報記憶部１１Ａは、地域情報管理テーブルにおいて、「一般事物名フラグ」及び「除外フラグ」を地域情報のそれぞれに対応付けて記憶してもよい。つまり、各地域情報は、「一般事物名フラグ」及び「除外フラグ」を含んでもよい。

１…情報配信システム、１０…情報処理装置、１１…地域情報ＤＢ（地域情報記憶手段）、１１Ａ…地域情報記憶部（地域情報記憶手段）、１２…文書情報ＤＢ（文書記憶手段）、１２Ａ…文書情報記憶部（文書記憶手段）、１３…取得部（取得手段）、１４…抽出部（抽出手段）、１５…計算部（計算手段）、１６…判定部（判定手段）、１７…更新部（更新手段）。

Claims

所定の事物の名称である事物名との関連性が高い場所を特定する情報処理装置であって、
前記事物名と場所を示す場所情報とをそれぞれ含む複数の地域情報を記憶する地域情報記憶手段と、
複数の文書を記憶する文書記憶手段と、
前記地域情報記憶手段に記憶されている前記複数の地域情報のうち、同一又は類似する事物名に異なる場所情報が対応付けられている第１地域情報及び第２地域情報を取得する取得手段と、
前記文書記憶手段に記憶されている前記複数の文書から、前記第１地域情報に含まれる事物名である第１事物名又は前記第２地域情報に含まれる事物名である第２事物名を含む文書の集合である事物集合、前記第１地域情報に含まれる場所情報である第１場所情報によって示される第１場所の場所名である第１場所名を含む文書の集合である第１場所集合、前記第２地域情報に含まれる場所情報である第２場所情報によって示される第２場所の場所名である第２場所名を含む文書の集合である第２場所集合をそれぞれ抽出する抽出手段と、
前記事物集合、前記第１場所集合、及び前記第２場所集合のそれぞれについて、各集合に含まれる単語毎の重要度を示す特徴ベクトルをそれぞれ計算する計算手段と、
前記計算手段によって計算された前記特徴ベクトルに基づいて、前記第１場所及び前記第２場所のいずれが前記事物名との関連性が高い場所であるか判定し、判定結果を出力する判定手段と、
を備える情報処理装置。
前記判定手段は、前記事物集合の特徴ベクトルと前記第１場所集合の特徴ベクトルとの類似度である第１類似度、及び前記事物集合の特徴ベクトルと前記第２場所集合の特徴ベクトルとの類似度である第２類似度をそれぞれ計算し、前記第１類似度及び前記第２類似度に基づいて、前記第１場所及び前記第２場所のいずれが前記事物名との関連性が高い場所であるか判定する、請求項１に記載の情報処理装置。
前記判定手段は、前記第１場所の専有面積及び前記第２場所の専有面積にさらに基づいて、前記第１場所及び前記第２場所のいずれが前記事物名との関連性が高い場所であるか判定する、請求項１又は請求項２に記載の情報処理装置。
前記地域情報記憶手段は、前記事物名が、当該事物名と同一又は類似する事物名を有する事物が所定数よりも多く存在する一般事物名であるか否かを示す一般事物名情報を前記地域情報のそれぞれに対応付けて記憶し、
前記抽出手段は、前記第１地域情報の前記一般事物名情報が、前記第１事物名が前記一般事物名でないことを示す場合、前記第１事物名又は前記第２事物名を含む文書の集合を前記事物集合として抽出し、前記第１地域情報の前記一般事物名情報が、前記第１事物名が前記一般事物名であることを示す場合、前記第１事物名又は前記第２事物名を含み、かつ、前記第１場所名又は前記第２場所名を含む文書の集合を前記事物集合として抽出する、請求項１〜請求項３のいずれか一項に記載の情報処理装置。
前記取得手段は、前記複数の地域情報に含まれる事物名の類似度に基づいて、前記第１地域情報及び前記第２地域情報を取得する、請求項１〜請求項４のいずれか一項に記載の情報処理装置。
前記地域情報記憶手段は、前記場所情報によって示される場所が事物との関連性が高い場所となり得るか否かを示す除外情報を前記地域情報のそれぞれに対応付けて記憶し、
前記取得手段は、前記複数の地域情報のうち、前記除外情報が前記場所情報によって示される場所が事物との関連性が高い場所となり得ることを示す地域情報から前記第１地域情報及び前記第２地域情報を取得する、請求項１〜請求項５のいずれか一項に記載の情報処理装置。
前記複数の文書は、複数のユーザがそれぞれ文書を投稿し、投稿された文書を閲覧するコミュニケーションサービスにおいて投稿された文書であり、
前記抽出手段は、前記複数の文書のそれぞれが投稿された時刻に基づいて、前記事物集合、前記第１場所集合、及び前記第２場所集合を抽出する、請求項１〜請求項６のいずれか一項に記載の情報処理装置。
前記判定手段による前記判定結果に基づいて、前記地域情報記憶手段に記憶されている前記複数の地域情報を更新する更新手段をさらに備える、請求項１〜請求項７のいずれか一項に記載の情報処理装置。