JP2017107431A - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP2017107431A JP2017107431A JP2015241212A JP2015241212A JP2017107431A JP 2017107431 A JP2017107431 A JP 2017107431A JP 2015241212 A JP2015241212 A JP 2015241212A JP 2015241212 A JP2015241212 A JP 2015241212A JP 2017107431 A JP2017107431 A JP 2017107431A
- Authority
- JP
- Japan
- Prior art keywords
- information
- name
- place
- thing
- area information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 91
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 230000007717 exclusion Effects 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 20
- 238000007726 management method Methods 0.000 description 17
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012384 transportation and delivery Methods 0.000 description 7
- 230000006855 networking Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000002716 delivery method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】事物名との関連性が高い場所を特定すること。【解決手段】情報処理装置10は、事物名と場所を示す場所情報とをそれぞれ含む複数の地域情報を記憶する地域情報DB11と、複数の文書を記憶する文書情報DB12と、地域情報DB11から、同一又は類似する事物名に異なる場所情報が対応付けられている地域情報LI1及び地域情報LI2を取得する取得部13と、文書情報DB12から、事物集合Ge、場所集合Gv1、及び場所集合Gv2をそれぞれ抽出する抽出部14と、特徴ベクトルVe、特徴ベクトルVv1及び特徴ベクトルVv2をそれぞれ計算する計算部15と、特徴ベクトルVe、特徴ベクトルVv1及び特徴ベクトルVv2に基づいて、場所名VN1の場所及び場所名VN2の場所のいずれが事物名EN1との関連性が高い場所であるか判定し、判定結果を出力する判定部16と、を備える。【選択図】図2
Description
本発明は、情報処理装置に関する。
従来、ユーザの外出行動を支援するために、スマートフォン等の携帯端末を介して、観光スポット、地域に関連したイベント、及び地域に関連した商品(特産品)等の地域情報を提供する地域情報サービスがある。非特許文献1に記載の技術では、ツイッター等のSNS(Social Networking Service)において、ユーザが投稿した文書から形態素解析により、イベント名称、開催場所、及び開催期間を組としたイベント情報(地域情報)が抽出される。
非特許文献1に記載の技術では、イベント名称の表記揺れを考慮して、地域情報の名寄せ処理が行われる。具体的には、開催場所ごとに作成された地域情報のペアについて、2つの地域情報のイベント名称の類似度が計算され、類似度に基づいて2つの地域情報が同一か否かが判断される。
Wataru Yamada, Daisuke Torii, Haruka Kikuchi, Hiroshi Inamura,Keiichi Ochiai, Ken Ohta, "Extracting local event information frommicro-blogs for trip planning", ICMU, 2015, 2015 Eighth InternationalConference on Mobile Computing and Ubiquitous Networking (ICMU), 2015 EighthInternational Conference on Mobile Computing and Ubiquitous Networking (ICMU)2015, pp. 7-12, doi:10.1109/ICMU.2015.7061020
しかしながら、イベント名称と複数の場所名とが含まれる文書が投稿される場合がある。非特許文献1に記載の技術では、イベント名称と複数の場所名とが文書に含まれている場合、それぞれの場所名とイベント名称とが対応付けられ、複数のイベント情報が抽出される。このため、イベント等の事物が提供される提供場所を特定することが望まれている。このように、イベント等の事物の名称に、複数の場所が関連付けられる場合に、いずれの場所が最も関連性が高い場所であるかを特定することが望まれている。
本発明は、事物名との関連性が高い場所を特定可能な情報処理装置を提供する。
本発明の一側面に係る情報処理装置は、所定の事物の名称である事物名との関連性が高い場所を特定する情報処理装置である。この情報処理装置は、事物名と場所を示す場所情報とをそれぞれ含む複数の地域情報を記憶する地域情報記憶手段と、複数の文書を記憶する文書記憶手段と、地域情報記憶手段に記憶されている複数の地域情報のうち、同一又は類似する事物名に異なる場所情報が対応付けられている第1地域情報及び第2地域情報を取得する取得手段と、文書記憶手段に記憶されている複数の文書から、第1地域情報に含まれる事物名である第1事物名又は第2地域情報に含まれる事物名である第2事物名を含む文書の集合である事物集合、第1地域情報に含まれる場所情報である第1場所情報によって示される第1場所の場所名である第1場所名を含む文書の集合である第1場所集合、第2地域情報に含まれる場所情報である第2場所情報によって示される第2場所の場所名である第2場所名を含む文書の集合である第2場所集合をそれぞれ抽出する抽出手段と、事物集合、第1場所集合、及び第2場所集合のそれぞれについて、各集合に含まれる単語毎の重要度を示す特徴ベクトルをそれぞれ計算する計算手段と、計算手段によって計算された特徴ベクトルに基づいて、第1場所及び第2場所のいずれが事物名との関連性が高い場所であるか判定し、判定結果を出力する判定手段と、を備える。
この情報処理装置では、同一又は類似する事物名に異なる場所情報が対応付けられている第1地域情報及び第2地域情報が取得され、文書記憶手段に記憶されている複数の文書から、第1地域情報の第1事物名又は第2地域情報の第2事物名を含む文書の集合である事物集合、第1地域情報の第1場所情報によって示される第1場所の第1場所名を含む文書の集合である第1場所集合、第2地域情報の第2場所情報によって示される第2場所の第2場所名を含む文書の集合である第2場所集合がそれぞれ抽出される。そして、事物集合、第1場所集合、及び第2場所集合のそれぞれについて、各集合に含まれる単語の重要度を示す特徴ベクトルが計算され、特徴ベクトルに基づいて、第1場所及び第2場所のいずれが事物名との関連性が高い場所であるかが判定される。所定の事物名と関連性が高い場所の場所名は、文書において事物名とともに用いられる可能性が高いと考えられる。このため、事物名と関連性が高い場所の場所集合ほど、事物集合と同じ文書を含む可能性が高くなる。したがって、場所集合の特徴ベクトルは、事物名と関連性が高い場所の場所集合であるほど、事物集合の特徴ベクトルと類似する。このように、特徴ベクトルを考慮して、第1場所及び第2場所のいずれが事物名との関連性が高い場所であるかを判定することができる。その結果、事物名との関連性が高い場所を特定することが可能となる。
判定手段は、事物集合の特徴ベクトルと第1場所集合の特徴ベクトルとの類似度である第1類似度、及び事物集合の特徴ベクトルと第2場所集合の特徴ベクトルとの類似度である第2類似度をそれぞれ計算し、第1類似度及び第2類似度に基づいて、第1場所及び第2場所のいずれが事物名との関連性が高い場所であるか判定してもよい。この場合、特徴ベクトルの類似度を用いて、第1場所集合及び第2場所集合のいずれの集合の特徴ベクトルが、事物集合の特徴ベクトルと類似しているかを判定することができる。このため、第1場所及び第2場所のいずれが事物名との関連性が高い場所であるかをより明確に判定することができる。その結果、事物名との関連性が高い場所の判定精度を向上することが可能となる。
判定手段は、第1場所の専有面積及び第2場所の専有面積にさらに基づいて、第1場所及び第2場所のいずれが事物名との関連性が高い場所であるか判定してもよい。場所の専有面積が大きいほど、その場所と対応付けられる事物の数が増える可能性が高くなる。このため、専有面積が大きい場所は、異なる事物であるが、同様の事物名を有する複数の事物と対応付けられる場合がある。例えば、あるイベントが所定の場所で開催される場合、その開催場所よりも大きい専有面積を有する場所では、上記開催場所と異なる場所でも同様のイベントが開催される可能性がある。このような場合、大きい専有面積を有する場所の場所集合の特徴ベクトルが、あるイベントの事物集合の特徴ベクトルと類似するおそれがある。そこで、場所の専有面積を考慮することによって、専有面積の大きさに起因した誤判定を抑制することができる。その結果、事物名との関連性が高い場所の判定精度を向上することが可能となる。
地域情報記憶手段は、事物名が、当該事物名と同一又は類似する事物名を有する事物が所定数よりも多く存在する一般事物名であるか否かを示す一般事物名情報を地域情報のそれぞれに対応付けて記憶してもよい。抽出手段は、第1地域情報の一般事物名情報が、第1事物名が一般事物名でないことを示す場合、第1事物名又は第2事物名を含む文書の集合を事物集合として抽出してもよく、第1地域情報の一般事物名情報が、第1事物名が一般事物名であることを示す場合、第1事物名又は第2事物名を含み、かつ、第1場所名又は第2場所名を含む文書の集合を事物集合として抽出してもよい。事物名が1つの場所で提供される事物に限らず、別の場所で提供される異なる事物にも用いられるような一般的な名称である場合、事物名と関連性が高い場所の数が複数になるおそれがある。このような場合に、第1事物名又は第2事物名を含む文書の集合を事物集合として抽出すると、事物集合には、事物名は同一又は類似しているものの、異なる場所と関連性が高い事物に関する文書が含まれてしまう。そこで、第1事物名が一般事物名である場合に、第1事物名又は第2事物名を含み、かつ、第1場所名又は第2場所名を含む文書の集合を事物集合として抽出することによって、異なる場所と関連性が高い事物に関する文書が、事物集合に含まれる可能性を低減することができる。その結果、事物名との関連性が高い場所の判定精度を向上することが可能となる。
取得手段は、複数の地域情報に含まれる事物名の類似度に基づいて、第1地域情報及び第2地域情報を取得してもよい。この場合、事物名の類似度を考慮して、第1地域情報及び第2地域情報が取得される。このため、事物名が同一でなくても、2つの事物名が類似していれば、同一の事物に関する地域情報と判定することができる。これにより、事物名との関連性が高い場所の候補となる場所の数を増やすことができるので、事物名との関連性が高い場所の判定精度を向上することが可能となる。
地域情報記憶手段は、場所情報によって示される場所が事物との関連性が高い場所となり得るか否かを示す除外情報を地域情報のそれぞれに対応付けて記憶してもよい。取得手段は、複数の地域情報のうち、除外情報が場所情報によって示される場所が事物との関連性が高い場所となり得ることを示す地域情報から第1地域情報及び第2地域情報を取得してもよい。この場合、事物との関連性が低い場所を示す場所情報を含む地域情報を除外して、第1地域情報及び第2地域情報が取得される。このため、事物との関連性が低い場所に対して、場所集合を抽出したり、特徴ベクトルを計算したりする必要がなくなり、処理の負荷を軽減することが可能となる。
複数の文書は、複数のユーザがそれぞれ文書を投稿し、投稿された文書を閲覧するコミュニケーションサービスにおいて投稿された文書であってもよい。抽出手段は、複数の文書のそれぞれが投稿された時刻に基づいて、事物集合、第1場所集合、及び第2場所集合を抽出してもよい。例えば、定期的に開催されるイベント等では、開催場所が異なることがある。このため、定期的に開催されるイベント等に関して投稿された文書では、同じ事物名であっても、異なる場所との関連性が高いことがある。ところで、同じ事物に関する情報は、ツイッター等のコミュニケーションサービスにおいて同時期に投稿される可能性が高い。そこで、文書が投稿された時刻を考慮して、例えば、所定の期間に投稿された文書に絞ることにより、対象としている事物の事物名との関連性が高い場所を特定することができる。その結果、事物名との関連性が高い場所の判定精度を向上することが可能となる。
本発明の別の側面に係る情報処理装置は、判定手段による判定結果に基づいて、地域情報記憶手段に記憶されている複数の地域情報を更新する更新手段をさらに備えてもよい。例えば、事物名との関連性が高い場所とそれ以外の場所とを識別可能となるように、地域情報を更新することができる。これにより、事物名と場所情報とが精度よく対応付けられた地域情報を識別することが可能となる。
本発明によれば、事物名との関連性が高い場所を特定することができる。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1は、情報配信システムの構成を示す図である。図1に示されるように、情報配信システム1は、地域情報を端末装置3に配信するシステムであって、情報配信サーバ2と1以上の端末装置3とを含む。地域情報とは、特定の地域に関する情報であり、例えば、地域に関連したイベント、及び地域に関連した商品(特産品)等の情報である。つまり、地域情報は、ある特定の場所と、イベント及び商品等の事物と、が対応付けられた情報である。
情報配信サーバ2は、地域情報を端末装置3に配信するサーバである。情報配信サーバ2は、例えば、ツイッター等のSNS(Social Networking Service)で投稿された文書から地域情報を抽出し、抽出した地域情報を後述の地域情報DB11(図2参照)に記憶している。端末装置3は、ユーザによって携帯されて用いられる装置である。端末装置3は、例えば、携帯電話機、スマートフォン、タブレット端末及びノートPC(Personal Computer)を含む携帯端末である。端末装置3は、GPS(GlobalPositioning System)等の自端末の位置情報を取得する機能を有している。端末装置3は、情報配信サーバ2から地域情報を取得し、取得した地域情報を表示する。情報配信サーバ2と端末装置3とは、例えば、移動体通信網等のネットワークNWを介して互いに通信可能に接続されている。
地域情報は、例えば、地域において提供される事物の名称である事物名、及び事物が提供される提供場所を示す場所情報を含む。事物は、例えば、地域特有のものであり、イベント、及び特産品等を含む。提供場所は、事物の提供場所であって、事物がイベントである場合には開催場所ともいう。SNSに投稿されるような文書では、投稿するユーザによっては、1つの事物に対して複数の場所が用いられる場合がある。例えば、「三笠公園」で「桜祭り」が開催される場合、「桜祭りが三笠公園で開催されます。」と記載されることもあれば、「桜祭りが三笠駅の近くの三笠公園で開催されます。」と記載されることもある。このような場合、地域情報として、「桜祭り」及び「三笠公園」を含む地域情報、並びに、「桜祭り」及び「三笠駅」を含む地域情報が抽出される。
このように、1つの事物に対して場所名が複数用いられることによって、実際には同じ事物に関する地域情報であっても、異なる地域情報として扱われることがある。そこで、同一の事物の提供場所を特定するために、情報処理装置10(図2参照)が用いられる。以下、情報配信サーバ2が情報処理装置10を備える構成(第1実施形態)、及び端末装置3が情報処理装置10を備える構成(第2実施形態)について順に説明を行う。
(第1実施形態)
第1実施形態に係る情報配信システム1について説明する。図2は、第1実施形態の情報配信システムの機能構成を示すブロック図である。図2に示されるように、情報配信サーバ2は、機能的には、情報処理装置10と、受信部21と、応答部22と、を備えている。情報処理装置10は、所定の事物名との関連性が高い場所を特定する装置であり、地域情報DB11と、文書情報DB12と、取得部13と、抽出部14と、計算部15と、判定部16と、更新部17と、を備えている。所定の事物名との関連性が高い場所とは、所定の事物名に最も相応しい場所であり、例えば、事物名によって示される事物が実際に提供される提供場所である。情報配信サーバ2は、例えば、図3に示されるハードウェアによって構成されている。
第1実施形態に係る情報配信システム1について説明する。図2は、第1実施形態の情報配信システムの機能構成を示すブロック図である。図2に示されるように、情報配信サーバ2は、機能的には、情報処理装置10と、受信部21と、応答部22と、を備えている。情報処理装置10は、所定の事物名との関連性が高い場所を特定する装置であり、地域情報DB11と、文書情報DB12と、取得部13と、抽出部14と、計算部15と、判定部16と、更新部17と、を備えている。所定の事物名との関連性が高い場所とは、所定の事物名に最も相応しい場所であり、例えば、事物名によって示される事物が実際に提供される提供場所である。情報配信サーバ2は、例えば、図3に示されるハードウェアによって構成されている。
図3は、情報配信サーバ2のハードウェア構成を示す図である。図3に示されるように、情報配信サーバ2は、物理的には、1又は複数のCPU(Central Processing Unit)201、主記憶装置であるRAM(RandomAccess Memory)202及びROM(Read Only Memory)203、データ送受信デバイスである通信モジュール204、ハードディスク及びフラッシュメモリ等の補助記憶装置205、キーボード等のユーザの入力を受け付ける入力装置206、並びにディスプレイ等の出力装置207等を備えるコンピュータとして構成されている。図2に示される情報配信サーバ2の各機能は、CPU201、RAM202等のハードウェア上に1又は複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU201の制御のもとで通信モジュール204、入力装置206、及び出力装置207を動作させるとともに、RAM202及び補助記憶装置205におけるデータの読み出し及び書き込みを行うことで実現される。なお、図2に示される端末装置3も情報配信サーバ2と同様のコンピュータシステムとして構成される。
再び図2を参照して、情報配信サーバ2の各機能の詳細を説明する。地域情報DB11は、所定の事物名と提供場所を示す場所情報とをそれぞれ含む複数の地域情報を記憶する地域情報記憶手段として機能する。地域情報は、予め地域情報DB11に準備されている。例えば、複数のユーザがそれぞれ文書を投稿し、投稿された文書を閲覧するコミュニケーションサービス(SNS)において投稿された文書から地域情報が抽出され、抽出された地域情報が地域情報DB11に格納される。SNSとしては、例えば、ツイッターが挙げられる。地域情報の抽出は、公知の手法によって行われる。地域情報DB11は、地域情報管理テーブルを有している。
図4は、地域情報管理テーブルの一例を示す図である。図4に示されるように、各地域情報は、「名称」と、「場所」と、「判定フラグ」と、を含む。「名称」は、地域において提供される事物の名称である事物名であり、例えば、イベント及び商品等の名称を示す文字列である。図4の例では、イベント名として「第11回桜祭り」、「21世紀のみらい展」、「21世紀の未来展」、及び「ナイトアクアリウム」が含まれており、商品名として「しらす丼」が含まれている。
「場所」は、事物名によって示される事物が提供される提供場所を示す場所情報であり、例えば、イベントが開催される場所、及び商品が提供される場所等の場所名を示す文字列である。図4の例では、イベントの開催場所として、「三笠公園」、「三笠駅」、「六本木ヒルズ」、「六本木」、及び「○○水族館」が挙げられており、商品の提供場所として、「△△食堂」が挙げられている。場所情報は、場所名を特定可能であればよく、場所名に代えて、提供場所を一意に識別可能なPOI(Point of Interest) IDが用いられてもよい。
「判定フラグ」は、場所情報が有効であるか無効であるかを示す情報である。例えば、判定フラグの値が「0」である場合、当該地域情報の場所情報は無効であることを示し、判定フラグの値が「1」である場合、当該地域情報の場所情報は有効であることを示す。文書から抽出された直後の地域情報では、判定フラグは値を有しない。
文書情報DB12は、複数の文書を記憶する文書記憶手段として機能する。この文書は、例えば、ツイッター等のSNSにおいて投稿された文書である。SNSによっては、ツイート又はコメント等とも呼ばれる。具体的には、文書情報DB12は、文書を含む文書情報を記憶している。文書情報は、外部のSNSサーバから取得され得る。文書情報は、投稿された文書ごとに記憶されており、例えば、ステータスID、ユーザID、投稿日時、及び投稿文書を含む。ステータスIDは、投稿された文書を一意に識別可能な識別情報である。ユーザIDは、文書を投稿したユーザを一意に識別可能な識別情報である。投稿日時は、文書が投稿された日時を示す情報である。投稿文書は、ユーザによって投稿された文書である。
取得部13は、判定対象となる地域情報を取得する取得手段として機能する。取得部13は、例えば、地域情報DB11に記憶されている複数の地域情報のうち、同一又は類似する事物名に異なる場所情報が対応付けられている2以上の地域情報を判定対象の地域情報として取得する。具体的には、取得部13は、地域情報DB11に記憶されている複数の地域情報から1つの地域情報を地域情報LI1(第1地域情報)として選択し、複数の地域情報のうち、地域情報LI1の事物名EN1(第1事物名)と同一又は類似する事物名を有する他の地域情報を地域情報LI2(第2地域情報)、…地域情報LINとして選択する。なお、以下の説明において、地域情報を包括的に示す場合には「地域情報LI」と表すことがあり、判定対象の地域情報のいずれかを示す場合には、地域情報LIに下付きでその番号xを付して「地域情報LIx」等と表すこととする。他の情報についても、同様の表記を用いる。
取得部13は、例えば、複数の地域情報に含まれる事物名の名称類似度NSに基づいて、判定対象の地域情報を取得する。ここで、名称類似度NSの計算方法について説明する。
取得部13は、地域情報LI1の事物名EN1と、地域情報DB11に記憶されている他の地域情報LIiの事物名ENiと、の最長共通部分列を抽出する。共通部分列とは、2つの文字列において、連続又は非連続にかかわらず同じ要素が同じ順序で出現する部分列である。最長共通部分列とは、取り得る共通部分列のうち、最も長い(最も文字数が多い)部分列である。例えば、事物名EN1が「21世紀の未来展」であり、事物名ENiが「21世紀のみらい展」であるとした場合、共通部分列は、「2」、「21」、「21世」、「21世紀」、「21世紀の」、及び「21世紀の展」であり、最長共通部分列は、「21世紀の展」である。
取得部13は、最長共通部分列に基づいて、最長共通部分列比を計算し、最長共通部分列比を名称類似度NSとする。最長共通部分列比Rlcsは、式(1)に示されるように、2つの文字列X,Yの最長共通部分列の長さ(文字数)である最長共通部分列長(Length of Longest Common Subsequence;LLCS)を、2つの文字列X,Yのうち長い方の文字列の文字列長(文字数)で除算した値である。
上述の例では、最長共通部分列長LLCS(“21世紀の未来展”,“21世紀のみらい展”)は、最長共通部分列である「21世紀の展」の長さであり、6である。2つの文字列「21世紀の未来展」及び「21世紀のみらい展」のうちの長い方の長さは9である。このため、最長共通部分列比Rlcsは、0.67(=6/9)と計算される。
取得部13は、名称類似度NSと閾値NSthとを比較し、事物名EN1と事物名ENiとが同一又は類似しているか否かを判定する。この場合、名称類似度NSの値が大きいほど、事物名EN1と事物名ENiとが類似していることを示すので、取得部13は、例えば、名称類似度NSが閾値NSthよりも大きい場合に、事物名EN1と事物名ENiとが同一又は類似していると判定する。
このようにして、取得部13は、地域情報DB11に記憶されている地域情報のうち、同一又は類似の事物名を有するN個の地域情報LI1〜LINのリストを判定対象の地域情報として取得する。取得部13は、取得したN個の地域情報LI1〜LINのリストを抽出部14に出力する。なお、取得部13は、選択した地域情報LI1の事物名EN1と同一又は類似する事物名を有する他の地域情報が地域情報DB11に存在しない場合に、地域情報LI1を抽出部14又は更新部17に出力してもよい。
抽出部14は、文書情報DB12に記憶されている複数の文書から、事物集合Ge、場所集合Gv1(第1場所集合)、場所集合Gv2(第2場所集合)、…場所集合GvNをそれぞれ抽出する抽出手段として機能する。事物集合Geは、地域情報LI1〜LINに含まれる事物名EN1〜ENNの少なくともいずれかを含む文書の集合である。場所集合Gv1は、地域情報LI1に含まれる場所情報VI1(第1場所情報)によって示される提供場所(第1場所)の場所名VN1(第1場所名)を含む文書の集合である。場所集合Gv2は、地域情報LI2に含まれる場所情報VI2(第2場所情報)によって示される提供場所(第2場所)の場所名VN2(第2場所名)を含む文書の集合である。他の場所集合についても同様である。なお、N=2である場合には、事物集合Geは、地域情報LI1に含まれる事物名EN1又は地域情報LI2に含まれる事物名EN2(第2事物名)を含む文書の集合である。
具体的に説明すると、抽出部14は、まず、N個の地域情報LI1〜LINから、事物名EN1〜ENN及び場所名VN1〜VNNを抽出する。抽出部14は、文書情報DB12に記憶されている文書から、事物名EN1〜ENNの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Geとする。抽出部14は、文書情報DB12に記憶されている文書から、場所名VN1を含む文書を抽出し、抽出した文書群を場所集合Gv1とする。同様に、抽出部14は、文書情報DB12に記憶されている文書から、場所名VN2〜VNNを含む文書をそれぞれ抽出し、抽出したそれぞれの文書群を場所集合Gv2〜GvNとする。
なお、抽出部14は、文書情報DB12に記憶されている文書のうち、複数の文書のそれぞれが投稿された時刻に基づいて、事物集合Ge、及び場所集合Gv1〜GvNを抽出してもよい。具体的には、文書情報DB12に記憶されている文書のうち、投稿日時が所定の範囲内である文書から、事物集合Ge、及び場所集合Gv1〜GvNを抽出してもよい。所定の範囲は、例えば、抽出時刻の1週間前から抽出時刻までの範囲である。
抽出部14は、文書情報DB12に記憶されている文書のうち、投稿日時が所定の範囲内である文書を抽出し、抽出した文書群を計算用集合Grefとする。所定の範囲は、例えば、抽出時刻の1週間前から抽出時刻までの範囲である。抽出部14は、事物集合Ge、場所集合Gv1〜GvN、及び計算用集合Grefを計算部15に出力する。
計算部15は、事物集合Ge、及び場所集合Gv1〜GvNの特徴ベクトルVをそれぞれ計算する計算手段として機能する。計算部15は、事物集合Ge、及び場所集合Gv1〜GvNのそれぞれについて、各集合に含まれる単語毎の重要度であるスコアScを計算することによって、特徴ベクトルVを計算する。
ここで、特徴ベクトルの計算方法の一例を説明する。計算部15は、例えば、各集合に含まれる文書の形態素解析を行って、全ての単語を抽出する。計算部15は、例えば、式(2)に示されるように、TF(Term Frequency)−IDF(Inverse DocumentFrequency)を用いて、各単語(例えば、「展」、「開催」、「祭」等)のスコアScを計算する。この例では、スコアScは、特徴ベクトルVの計算対象となる集合(以下、「対象集合」という。)における対象となる単語(以下、「対象単語」という。)の出現頻度tfと、対象単語の逆文書頻度idfと、の積である。スコアScの値が大きいほど、対象集合において対象単語が重要であることを示す。対象集合に含まれる文書において出現する対象単語の数mを、対象集合に含まれる文書において出現する全単語の総数Mで除算することによって、対象集合における対象単語の出現頻度tfが求められる。計算用集合Grefに含まれる文書の総件数Dを、対象集合に含まれる文書の件数dで除算した値の対数を計算することによって、対象単語の逆文書頻度idfが求められる。
計算部15は、対象集合に含まれる文書において出現する全単語について、スコアScを計算し、所定の順序で配列された単語の順に各スコアScを配列することによって、対象集合の特徴ベクトルVを生成する。このようにして、計算部15は、事物集合Geの特徴ベクトルVe、場所集合Gv1の特徴ベクトルVv1、場所集合Gv2の特徴ベクトルVv2、…場所集合GvNの特徴ベクトルVvNを生成する。計算部15は、特徴ベクトルVe、及び特徴ベクトルVv1〜VvNを判定部16に出力する。
判定部16は、計算部15によって計算された特徴ベクトルVに基づいて、場所名VN1〜VNNによって示されるいずれの提供場所が事物名EN1との関連性が高い場所であるか判定し、判定結果を出力する判定手段として機能する。判定部16は、特徴ベクトルVeと特徴ベクトルVv1〜VvNのそれぞれとの類似度E1〜ENをそれぞれ計算する。
判定部16は、例えば、特徴ベクトルVeと特徴ベクトルVv1〜VvNのそれぞれとのCos類似度を類似度E1〜ENとする。具体的には、判定部16は、式(3)に示されるように、特徴ベクトルVeと特徴ベクトルVvとの内積を、特徴ベクトルVeの絶対値と特徴ベクトルVvの絶対値との積で除算することによって類似度Eを計算する。類似度Eの値が大きいほど特徴ベクトルVeと特徴ベクトルVvとが類似していることを示す。
判定部16は、類似度E1〜ENに基づいて、場所名VN1〜VNNによって示されるいずれの提供場所が事物名EN1との関連性が高い場所であるか判定する。類似度E1〜ENのうちで最も大きい値の類似度Eに対応する特徴ベクトルVvが特徴ベクトルVeと最も類似しているので、判定部16は、例えば、その特徴ベクトルVvが計算された場所集合Gvの場所名VNによって示される提供場所が、事物名EN1との関連性が高い場所であると判定する。判定部16は、事物名EN1との関連性が高い場所を示す判定結果を更新部17に出力する。
なお、N=2である場合には、判定部16は、特徴ベクトルVeと特徴ベクトルVv1との類似度E1(第1類似度)と、特徴ベクトルVeと特徴ベクトルVv2との類似度E2(第2類似度)と、をそれぞれ計算する。そして、判定部16は、類似度E1及び類似度E2に基づいて、場所名VN1によって示される提供場所及び場所名VN2によって示される提供場所のいずれが事物名EN1との関連性が高い場所であるか判定する。
また、判定部16は、場所情報VI1〜VINによって示される提供場所の専有面積にさらに基づいて、いずれの提供場所が事物名EN1との関連性が高い場所であるか判定してもよい。N=2である場合には、判定部16は、場所名VN1によって示される提供場所の専有面積及び場所名VN2によって示される提供場所の専有面積にさらに基づいて、場所名VN1によって示される提供場所及び場所名VN2によって示される提供場所のいずれが事物名EN1との関連性が高い場所であるか判定する。判定部16は、専有面積管理テーブルを有している。
図5は、専有面積管理テーブルの一例を示す図である。図5に示されるように、専有面積管理テーブルは、「場所」と、「専有面積」と、を対応付けて管理している。「場所」は、提供場所を示す場所情報であり、例えば、提供場所の場所名を示す文字列である。なお、位置情報管理テーブルにおいて、場所情報として、場所名に代えて、又は、場所名に加えて、提供場所を一意に識別可能なPOI IDが用いられてもよい。「専有面積」は、場所情報によって示される提供場所の専有面積を示す情報である。
判定部16は、専有面積管理テーブルから、各提供場所に対応付けられた専有面積を取得し、専有面積に基づいて、特徴ベクトルVeと特徴ベクトルVv1〜VvNのそれぞれとの類似度E1〜ENを計算する。例えば、判定部16は、式(4)に示されるように、式(3)で示されるCos類似度に専有面積Aの平方根の逆数と、調整用パラメータαとを乗算することによって、類似度Eを計算する。
更新部17は、判定部16による判定結果に基づいて、地域情報DB11に記憶されている複数の地域情報を更新する更新手段として機能する。更新部17は、例えば、判定部16による判定結果に基づいて、地域情報管理テーブルの判定フラグの値を更新する。具体的には、更新部17は、N個の地域情報LI1〜LINのうち、事物名EN1との関連性が高い場所であると判定された提供場所の場所情報を含む地域情報の判定フラグの値を「1」に設定し、それ以外の地域情報の判定フラグを「0」に設定する。更新部17は、N個の地域情報LI1〜LINのうち、事物名EN1との関連性が高い場所であると判定された提供場所以外の場所情報を含む地域情報を、地域情報管理テーブルから削除してもよい。
なお、取得部13によって選択された地域情報LI1の事物名EN1と同一又は類似する事物名を有する他の地域情報が地域情報DB11に存在しない場合に、抽出部14、計算部15及び判定部16の処理を行うことなく、更新部17は、地域情報LI1の判定フラグの値を「1」に設定してもよい。
図6を参照して、情報処理装置10による処理結果の一例を説明する。図6は、情報処理装置10による処理結果を説明するための図である。図6に示されるように、事物名が「第11回桜祭り」である2つの地域情報のうち、開催場所が「三笠公園」である地域情報の「判定フラグ」には「1」が付与され、開催場所が「三笠駅」である地域情報の「判定フラグ」には「0」が付与されている。このため、「第11回桜祭り」が実際に開催される場所は、「三笠公園」に特定される。同様に、事物名が「21世紀のみらい(未来)展」である2つの地域情報のうち、開催場所が「六本木ヒルズ」である地域情報の「判定フラグ」には「1」が付与され、開催場所が「六本木」である地域情報の「判定フラグ」には「0」が付与されている。このため、「21世紀のみらい(未来)展」が実際に開催される場所は、「六本木ヒルズ」に特定される。
また、事物名が「ナイトアクアリウム」である地域情報は1つしか存在しないので、この地域情報の「判定フラグ」には「1」が付与されている。このため、「ナイトアクアリウム」が実際に開催される場所は、「○○水族館」に特定される。同様に、事物名が「しらす丼」である地域情報は1つしか存在しないので、この地域情報の「判定フラグ」には「1」が付与されている。このため、「しらす丼」が実際に提供される場所は、「△△食堂」に特定される。
図2に戻って、受信部21は、端末装置3によって送信された地域情報要求を受信する受信手段として機能する。地域情報要求は、情報配信サーバ2が記憶している地域情報を取得するための要求である。受信部21は、端末装置3の端末ID及び端末装置3の位置情報とともに地域情報要求を受信すると、端末ID、位置情報及び地域情報要求を応答部22に出力する。なお、端末IDは、端末装置3を一意に識別可能な識別情報である。
応答部22は、地域情報要求に応答する応答手段として機能する。応答部22は、受信部21から端末ID、位置情報及び地域情報要求を受け取ると、地域情報DB11から地域情報を取得する。応答部22は、例えば、位置情報によって示される位置から所定の範囲内の提供場所を含む地域情報を取得する。応答部22は、端末IDに基づいて、地域情報要求を送信した端末装置3に地域情報を送信する。なお、応答部22は、取得した地域情報が抽出された文書を含む文書情報を文書情報DB12から取得し、文書情報を地域情報とともに端末装置3に送信してもよい。
続いて、端末装置3の機能について説明する。端末装置3は、機能的には、要求部31と、受信部32と、表示部33と、を備えている。
要求部31は、情報配信サーバ2に地域情報を要求する要求手段として機能する。端末装置3には、例えば、地域情報を表示するためのアプリケーションがインストールされている。アプリケーションが起動され、端末装置3の周辺の地域情報を表示するための操作がユーザによって行われると、要求部31は、端末装置3の端末ID、及び端末装置3の位置情報とともに地域情報要求を情報配信サーバ2に送信する。なお、端末装置3の周辺の地域情報を表示するための操作は、アプリケーションに代えて、地域情報を表示するためのWebページ等において行われてもよい。
受信部32は、地域情報を受信する受信手段として機能する。受信部32は、情報配信サーバ2によって配信された地域情報を受信し、受信した地域情報を表示部33に出力する。
表示部33は、受信部32から出力された地域情報を表示する表示手段として機能する。図7は、情報配信サーバ2によって配信された地域情報の表示例を示す図である。図7に示されるように、例えば、端末装置3の周囲の地域情報が端末装置3のディスプレイに表示される。地域ごとに、地域情報の数Cliが地図上に表示されてもよく、地域情報LI(イベント名、開催場所、及び開催期間)が、当該地域情報LIを取得した文書W1、及び地域情報LIと同一又は類似するイベント名を有する他の地域情報を取得した文書W2とともに表示されてもよい。地域情報の開催場所が地図上でアイコンP等によって表示されてもよい。
次に、図8を参照して、情報処理装置10における情報処理方法の一連の処理を説明する。図8は、情報処理装置10が行う情報処理方法の一連の処理を示すフローチャートである。図8に示される一連の処理は、例えば、一定の周期で(例えば、5〜10分ごとに)開始される。
まず、取得部13が、地域情報DB11に記憶されている複数の地域情報から、同一又は類似する事物名に異なる場所情報が対応付けられているN個の地域情報LI1〜LINのリストを取得する(ステップS01)。具体的には、取得部13は、地域情報DB11に記憶されている複数の地域情報から1つの地域情報を地域情報LI1として選択し、複数の地域情報のうち、地域情報LI1の事物名EN1と同一又は類似する事物名を有する他の地域情報を地域情報LI2〜LINとして選択する。そして、取得部13は、取得したN個の地域情報LI1〜LINのリストを抽出部14に出力する。
続いて、抽出部14は、N個の地域情報LI1〜LINから、事物名EN1〜ENN及び場所名VN1〜VNNを抽出する(ステップS02)。そして、抽出部14は、文書情報DB12に記憶されている文書のうち、投稿日時が所定の範囲(抽出時刻の1週間前から抽出時刻までの範囲)内である文書から、事物名EN1〜ENNの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Geとする(ステップS03)。
また、抽出部14は、文書情報DB12に記憶されている文書のうち、投稿日時が所定の範囲(抽出時刻の1週間前から抽出時刻までの範囲)内である文書から、場所名VN1を含む文書を抽出し、抽出した文書群を場所集合Gv1とする。同様に、抽出部14は、文書情報DB12に記憶されている文書のうち、投稿日時が所定の範囲(抽出時刻の1週間前から抽出時刻までの範囲)内である文書から、場所名VN2〜VNNを含む文書をそれぞれ抽出し、抽出したそれぞれの文書群を場所集合Gv2〜GvNとする(ステップS04)。
さらに、抽出部14は、文書情報DB12に記憶されている文書のうち、投稿日時が所定の範囲(抽出時刻の1週間前から抽出時刻までの範囲)内である文書を抽出し、抽出した文書群を計算用集合Grefとする(ステップS05)。そして、抽出部14は、事物集合Ge、場所集合Gv1〜GvN、及び計算用集合Grefを計算部15に出力する。
続いて、計算部15は、事物集合Geの特徴ベクトルVe、及び場所集合Gv1〜GvNの特徴ベクトルVv1〜VvNをそれぞれ計算する(ステップS06)。具体的には、計算部15は、式(2)を用いて、各集合に含まれる単語毎のスコアScを計算する。そして、計算部15は、全単語の予め定められた配列順に従って、各単語のスコアScを配列することによって、各集合の特徴ベクトルVを生成する。そして、計算部15は、特徴ベクトルVe、及び特徴ベクトルVv1〜VvNを判定部16に出力する。
続いて、判定部16は、特徴ベクトルVeと特徴ベクトルVv1〜VvNのそれぞれとの類似度E1〜ENを計算する(ステップS07)。具体的には、判定部16は、式(3)又は式(4)を用いて、類似度E1〜ENを計算する。そして、判定部16は、類似度E1〜ENに基づいて、場所名VN1〜VNNによって示されるいずれの提供場所が事物名EN1との関連性が高い場所であるか判定する(ステップS08)。具体的には、判定部16は、類似度E1〜ENのうちで最も大きい値の類似度Eに対応する特徴ベクトルVvが計算された場所集合Gvの場所名VNによって示される提供場所が、事物名EN1との関連性が高い場所であると判定する。そして、判定部16は、当該判定結果を更新部17に出力する。
続いて、更新部17は、判定部16による判定結果に基づいて、地域情報DB11に記憶されている複数の地域情報を更新する(ステップS09)。具体的には、更新部17は、N個の地域情報LI1〜LINのうち、事物名EN1との関連性が高い場所であると判定された提供場所の場所情報を含む地域情報の判定フラグの値を「1」に設定し、それ以外の地域情報の判定フラグを「0」に設定する。
続いて、取得部13は、地域情報DB11に記憶されている全ての地域情報が処理されたか否かを判定する(ステップS10)。地域情報DB11に記憶されている全ての地域情報が処理されていないと判定された場合(ステップS10;No)、ステップS01に戻って、取得部13は、次の地域情報LI1を選択し(ステップS01)、ステップS02〜ステップS10が繰り返される。一方、ステップS10において、地域情報DB11に記憶されている全ての地域情報が処理されたと判定された場合(ステップS10;Yes)、情報処理方法の一連の処理が終了する。
以上のようにして、地域情報DB11に記憶されている複数の地域情報のうち、同一又は類似する事物名に異なる場所情報が対応付けられている地域情報が取得され、取得された地域情報の事物名を含む事物集合Ge、取得された地域情報の場所名を含む場所集合Gv1〜GvNが抽出される。そして、事物集合Geの特徴ベクトルVe、及び場所集合Gv1〜GvNの特徴ベクトルVv1〜VvNが計算される。そして、場所名VN1〜VNNによって示されるいずれの提供場所が事物名EN1との関連性が高い場所であるかが判定され、判定結果に基づいて地域情報管理テーブルが更新される。
次に、情報処理装置10の作用効果を説明する。所定の事物名と関連性が高い場所の場所名は、文書において事物名とともに用いられる可能性が高いと考えられる。例えば、実際にイベントを開催している場所は、他の場所と比べて、当該イベントに関連するツイート等に含まれる割合が高いと考えられる。このため、事物名と関連性が高い場所の場所集合Gvほど、事物集合Geと同じ文書を含む可能性が高くなる。したがって、場所集合Gvの特徴ベクトルVvは、事物名と関連性が高い場所の場所集合Gvであるほど、事物集合Geの特徴ベクトルVeと類似する。情報処理装置10では、特徴ベクトルVeと特徴ベクトルVvとの類似度Eを用いて、場所集合Gv1〜GvNのいずれの集合の特徴ベクトルVv1〜VvNが、事物集合Geに含まれる特徴ベクトルVeと類似しているかが判定される。その結果、事物名EN1との関連性が高い場所を特定することが可能となる。
また、更新部17によって、事物名EN1との関連性が高い場所とそれ以外の場所とを識別可能となるように、地域情報LI1〜LINが更新される。これにより、事物名EN1との関連性が高い場所(例えば、事物を実際に提供している提供場所)を示す場所情報を含む地域情報を識別することが可能となる。
また、事物名の名称類似度NSを考慮して、地域情報LI1〜LINが取得される。このため、事物名が同一でなくても、地域情報LI1の事物名EN1と類似する事物名を有していれば、同一の事物に関する地域情報と判定することができる。これにより、事物名EN1との関連性が高い場所の候補となる提供場所の数を増やすことができるので、事物名EN1との関連性が高い場所の判定精度を向上することが可能となる。
また、定期的に開催されるイベント等では、同じイベント名であっても開催場所が異なることがある。このため、定期的に開催されるイベント等に関して投稿された文書では、同じ事物名であっても、異なる場所との関連性が高いことがある。ところで、同じ事物に関する情報は、ツイッター等のSNSにおいて同時期に投稿される可能性が高い。情報処理装置10では、文書が投稿された時刻を考慮して、例えば、所定の期間に投稿された文書に絞ることにより、対象としている事物の事物名EN1との関連性が高い場所を特定することができる。その結果、事物名EN1との関連性が高い場所の判定精度を向上することが可能となる。
また、提供場所の専有面積が大きいほど、その提供場所と対応付けられる事物の数が増える可能性が高くなる。このため、専有面積が大きい提供場所は、異なる事物であるが、同様の事物名を有する複数の事物と対応付けられる場合がある。例えば、「桜祭り」が「三笠公園」で開催される場合、「三笠公園」を含む広い範囲を示す場所である「横須賀」では、「三笠公園」と異なる場所でも「桜祭り」が開催される可能性がある。このような場合、対象としている「桜祭り」との関連性が高い場所は「三笠公園」であるが、「三笠公園」を含む集合の特徴ベクトルよりも「横須賀」を含む集合の特徴ベクトルが、「桜祭り」を含む集合の特徴ベクトルと類似するおそれがある。これに対し、情報処理装置10では、提供場所の専有面積を考慮することによって、専有面積の大きさに起因した誤判定を抑制することができる。その結果、事物名EN1との関連性が高い場所の判定精度を向上することが可能となる。
(第2実施形態)
第2実施形態に係る情報配信システム1について説明する。図9は、第2実施形態の情報配信システムの機能構成を示すブロック図である。図9に示されるように、第2実施形態に係る情報配信システム1は、第1実施形態に係る情報配信システム1と比較して、端末装置3が情報処理装置10を備える点において主に相違する。つまり、情報配信サーバ2は、地域情報DB11と、文書情報DB12と、受信部21と、応答部22と、を備えている。端末装置3は、情報処理装置10と、要求部31と、受信部32と、表示部33と、を備えている。
第2実施形態に係る情報配信システム1について説明する。図9は、第2実施形態の情報配信システムの機能構成を示すブロック図である。図9に示されるように、第2実施形態に係る情報配信システム1は、第1実施形態に係る情報配信システム1と比較して、端末装置3が情報処理装置10を備える点において主に相違する。つまり、情報配信サーバ2は、地域情報DB11と、文書情報DB12と、受信部21と、応答部22と、を備えている。端末装置3は、情報処理装置10と、要求部31と、受信部32と、表示部33と、を備えている。
第2実施形態に係る情報処理装置10は、第1実施形態に係る情報処理装置10と比較して、地域情報DB11に代えて、地域情報記憶部11Aを備える点、及び文書情報DB12に代えて、文書情報記憶部12Aを備える点において主に相違する。具体的には、地域情報記憶部11Aは、地域情報DB11と同様に、複数の地域情報を記憶する地域情報記憶手段として機能し、地域情報管理テーブルを有している。地域情報記憶部11Aには、受信部32によって情報配信サーバ2から受信された地域情報が格納される。このため、地域情報記憶部11Aは、端末装置3の周辺の地域情報を記憶している。
文書情報記憶部12Aは、文書情報DB12と同様に、複数の文書を記憶する文書記憶手段として機能し、文書を含む文書情報を記憶している。文書情報記憶部12Aには、受信部32によって情報配信サーバ2から受信された文書情報が格納される。このため、文書情報記憶部12Aは、端末装置3の周辺の地域情報に関する文書情報を記憶している。表示部33は、地域情報記憶部11Aに記憶されている地域情報に基づいて、端末装置3の周囲の地域情報を表示する。表示部33は、端末装置3の周囲の地域情報を表示する際に、さらに文書情報記憶部12Aに記憶されている文書を表示してもよい。
次に、図10を参照して、第2実施形態の情報配信システム1における地域情報配信方法の一連の処理を説明する。図10は、第2実施形態の情報配信システム1における地域情報配信方法の一連の処理を示すシーケンス図である。図10に示される一連の処理は、例えば、端末装置3において、端末装置3の周辺の地域情報を表示するための操作がユーザによって行われることによって開始される。
まず、端末装置3において、要求部31が、端末装置3を一意に識別可能な端末ID、及び端末装置3の位置情報とともに地域情報要求を情報配信サーバ2に送信する(ステップS21)。
続いて、情報配信サーバ2において、受信部21は、端末装置3の端末ID及び端末装置3の位置情報とともに地域情報要求を受信し、端末ID、位置情報及び地域情報要求を応答部22に出力する。そして、応答部22は、位置情報によって示される位置から所定の範囲内の提供場所を含む地域情報を地域情報DB11から取得するとともに、取得した地域情報が抽出された文書を含む文書情報を文書情報DB12から取得する。そして、応答部22は、端末IDに基づいて、地域情報要求を送信した端末装置3に地域情報及び文書情報を送信する(ステップS22)。
続いて、端末装置3において、受信部32は、情報配信サーバ2によって送信された地域情報及び文書情報を受信し、受信した地域情報を地域情報記憶部11Aに出力して格納するとともに、受信した文書情報を文書情報記憶部12Aに出力して格納する。そして、情報処理装置10は、情報処理を行う(ステップS23)。この情報処理は、図8に示される一連の処理と同様であるので、説明を省略する。そして、表示部33は、地域情報記憶部11Aに記憶されている地域情報に基づいて、端末装置3の周囲の地域情報を表示する(ステップS24)。
以上の第2実施形態の情報処理装置10によっても、上述した第1実施形態の情報処理装置10と同様の効果が奏される。
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、上記実施形態では、地域情報に含まれる「場所」は、事物名によって示される事物が提供される提供場所を示す場所情報であるが、これに限られない。事物と何らかの関連性がある場所を示す場所情報であればよい。
また、取得部13は、地域情報DB11又は地域情報記憶部11Aに記憶されている複数の地域情報のうち、同一の事物名に異なる場所情報が対応付けられている2以上の地域情報を取得してもよい。
また、計算部15は、各集合に含まれる単語毎のTF−IDF値を各集合の特徴ベクトルとしているが、これに限られない。特徴ベクトルは、各集合に含まれる単語の重要度を示す指標であればよく、例えば、各集合における単語の出現頻度tfであってもよく、各集合における単語の出現回数であってもよい。
また、判定部16は、特徴ベクトルVeと特徴ベクトルVv1〜VvNのそれぞれとの類似度E1〜ENをそれぞれ計算しているが、特徴ベクトルVeといずれの特徴ベクトルVv1〜VvNが類似しているかを判定することができれば、類似度を計算する必要はない。また、判定部16は、特徴ベクトルVeと特徴ベクトルVv1〜VvNのそれぞれとのCos類似度を類似度E1〜ENとしているがこれに限られない。判定部16は、2つの特徴ベクトルの類似度を他の手法で計算してもよい。例えば、判定部16は、2つの特徴ベクトルのユークリッド距離の逆数を、2つの特徴ベクトルの類似度としてもよい。
また、情報処理装置10は、更新部17に代えて、判定部16から出力された判定結果に応じて、所定の処理を行う処理部を備えてもよい。処理部は、例えば、事物名との関連性が高い場所でないと判定された提供場所の場所情報を含む地域情報を、端末装置3の表示部33に表示させないようにする指令を出力してもよい。
また、図11の(a)に示されるように、地域情報DB11又は地域情報記憶部11Aは、地域情報管理テーブルにおいて、「一般事物名フラグ」を地域情報のそれぞれに対応付けて記憶してもよい。つまり、各地域情報は、さらに「一般事物名フラグ」を含んでもよい。「一般事物名フラグ」は、「名称」によって示される事物名が、一般事物名であるか固有事物名であるか(つまり、一般事物名であるか一般事物名でないか)を示す一般事物名情報である。一般事物名とは、その事物名と同一又は類似する事物名の複数の事物が存在する名称である。固有事物名とは、その事物名と同一又は類似する事物名の事物が他には存在しないか存在しても少数である名称である。つまり、同一又は類似する事物名を有する事物が、所定数よりも多い場合に、その事物名は一般事物名であり、所定数以下である場合に、その事物名は固有事物名である。例えば、一般事物名フラグの値が「0」である場合、「名称」によって示される事物名が固有事物名であることを示し、一般事物名フラグの値が「1」である場合、「名称」によって示される事物名が一般事物名であることを示す。
一般事物名フラグの値は、予め設定される。抽出された地域情報に一般事物名フラグの値を設定する例を説明する。例えば、情報処理装置10には、一般事物名のリストが予め記憶されており、このリストに基づいて、一般事物名フラグの値が設定されてもよい。また、情報処理装置10は、地域情報の「名称」によって示される事物名を検索エンジンを用いて検索し、そのヒット数に応じて一般事物名フラグの値を設定してもよい。例えば、ヒット数が所定の閾値を超えた場合に、一般事物名フラグの値として「1」が設定され、ヒット数が所定の閾値以下である場合に、一般事物名フラグの値として「0」が設定される。また、事物名の文字数が多いほど、固有事物名である可能性が高い。このため、地域情報の「名称」によって示される事物名の文字数に応じて、一般事物名フラグの値が設定されてもよい。例えば、事物名の文字数が所定の閾値を超えた場合に、一般事物名フラグの値として「0」が設定され、事物名の文字数が所定の閾値以下である場合に、一般事物名フラグの値として「1」が設定される。
抽出部14は、一般事物名フラグの値に応じて、事物集合Geを抽出してもよい。具体的には、抽出部14は、地域情報LI1の一般事物名フラグの値が「0」である場合、文書情報DB12に記憶されている文書から、事物名EN1〜ENNの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Geとしてもよい。抽出部14は、地域情報LI1の一般事物名フラグの値が「1」である場合、文書情報DB12に記憶されている文書から、事物名EN1〜ENNの少なくともいずれかを含み、かつ、場所名VN1〜VNNの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Geとしてもよい。
なお、N=2である場合には、抽出部14は、地域情報LI1の一般事物名フラグの値が「0」である場合、事物名EN1又は事物名EN2を含む文書の集合を事物集合Geとして抽出してもよい。また、抽出部14は、地域情報LI1の一般事物名フラグの値が「1」である場合、事物名EN1又は事物名EN2を含み、かつ、場所名VN1又は場所名VN2を含む文書の集合を事物集合Geとして抽出してもよい。
また、抽出部14は、地域情報LI1の一般事物名フラグだけでなく、判定対象の全ての地域情報の一般事物名フラグの値が「0」である場合、文書情報DB12に記憶されている文書から、事物名EN1〜ENNの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Geとしてもよい。抽出部14は、判定対象の全ての地域情報の一般事物名フラグの少なくともいずれかの値が「1」である場合、文書情報DB12に記憶されている文書から、事物名EN1〜ENNの少なくともいずれかを含み、かつ、場所名VN1〜VNNの少なくともいずれかを含む文書を抽出し、抽出した文書群を事物集合Geとしてもよい。
事物名が1つの場所で提供される事物に限らず、別の場所で提供される異なる事物にも用いられるような一般的な名称である場合、事物名と関連性が高い場所の数が複数になるおそれがある。このような場合に、事物名EN1〜ENNの少なくともいずれかを含む文書の集合を事物集合Geとして抽出すると、事物集合Geには、事物名EN1と同一又は類似している事物名を有するものの、異なる場所と関連性が高い事物に関する文書が含まれてしまう。そこで、事物名EN1が一般事物名である場合に、事物名EN1〜ENNの少なくともいずれかを含み、かつ、場所名VN1〜VNNの少なくともいずれかを含む文書の集合を事物集合Geとして抽出することによって、異なる場所と関連性が高い事物に関する文書が、事物集合Geに含まれる可能性を低減することができる。その結果、事物名EN1との関連性が高い場所の判定精度を向上することが可能となる。
また、図11の(b)に示されるように、地域情報DB11又は地域情報記憶部11Aは、地域情報管理テーブルにおいて、「除外フラグ」を地域情報のそれぞれに対応付けて記憶してもよい。つまり、各地域情報は、さらに「除外フラグ」を含んでもよい。「除外フラグ」は、「場所」によって示される提供場所が、事物の提供場所となり得る場所であるか否かを示す除外情報である。言い換えると、「除外フラグ」は、「場所」によって示される提供場所が、事物との関連性が高い場所となり得るか否かを示す除外情報である。例えば、除外フラグの値が「0」である場合、「場所」によって示される提供場所が事物の提供場所となり得る場所であることを示し、除外フラグの値が「1」である場合、「場所」によって示される提供場所が事物の提供場所となり得えない場所であることを示す。
例えば、小さい駅等の場所では、イベント等が行われる可能性が低い。また、都道府県等の場所は、その範囲が広すぎるので、事物の提供場所として相応しくない。このため、「場所」で示される提供場所が、小さい駅及び都道府県等である場合に、除外フラグの値として「1」が設定され、それ以外の場合に除外フラグの値として「0」が設定される。情報処理装置10には、提供場所となり得ない場所のリストが予め記憶されており、このリストに基づいて、抽出された地域情報に除外フラグの値が設定される。
取得部13は、除外フラグの値に応じて、地域情報DB11に記憶されている複数の地域情報のうち、同一又は類似の事物名を有するN個の地域情報LI1〜LINのリストを取得してもよい。具体的には、取得部13は、地域情報DB11に記憶されている複数の地域情報のうち、除外フラグの値が「1」である地域情報を取得対象から除外し、除外フラグの値が「0」である地域情報から同一又は類似の事物名を有するN個の地域情報LI1〜LINのリストを取得する。なお、N=2である場合には、取得部13は、地域情報DB11に記憶されている複数の地域情報のうち、除外フラグの値が「0」である地域情報から、地域情報LI1及び地域情報LI2を取得する。
この場合、小さい駅及び都道府県等の事物との関連性が低い場所を示す場所情報を含む地域情報を除外して、地域情報LI1〜LINが取得される。このため、事物との関連性が低い場所に対して、場所集合を抽出したり、特徴ベクトルを計算したりする必要がなくなり、処理の負荷を軽減することが可能となる。
また、地域情報DB11又は地域情報記憶部11Aは、地域情報管理テーブルにおいて、「一般事物名フラグ」及び「除外フラグ」を地域情報のそれぞれに対応付けて記憶してもよい。つまり、各地域情報は、「一般事物名フラグ」及び「除外フラグ」を含んでもよい。
1…情報配信システム、10…情報処理装置、11…地域情報DB(地域情報記憶手段)、11A…地域情報記憶部(地域情報記憶手段)、12…文書情報DB(文書記憶手段)、12A…文書情報記憶部(文書記憶手段)、13…取得部(取得手段)、14…抽出部(抽出手段)、15…計算部(計算手段)、16…判定部(判定手段)、17…更新部(更新手段)。
Claims (8)
- 所定の事物の名称である事物名との関連性が高い場所を特定する情報処理装置であって、
前記事物名と場所を示す場所情報とをそれぞれ含む複数の地域情報を記憶する地域情報記憶手段と、
複数の文書を記憶する文書記憶手段と、
前記地域情報記憶手段に記憶されている前記複数の地域情報のうち、同一又は類似する事物名に異なる場所情報が対応付けられている第1地域情報及び第2地域情報を取得する取得手段と、
前記文書記憶手段に記憶されている前記複数の文書から、前記第1地域情報に含まれる事物名である第1事物名又は前記第2地域情報に含まれる事物名である第2事物名を含む文書の集合である事物集合、前記第1地域情報に含まれる場所情報である第1場所情報によって示される第1場所の場所名である第1場所名を含む文書の集合である第1場所集合、前記第2地域情報に含まれる場所情報である第2場所情報によって示される第2場所の場所名である第2場所名を含む文書の集合である第2場所集合をそれぞれ抽出する抽出手段と、
前記事物集合、前記第1場所集合、及び前記第2場所集合のそれぞれについて、各集合に含まれる単語毎の重要度を示す特徴ベクトルをそれぞれ計算する計算手段と、
前記計算手段によって計算された前記特徴ベクトルに基づいて、前記第1場所及び前記第2場所のいずれが前記事物名との関連性が高い場所であるか判定し、判定結果を出力する判定手段と、
を備える情報処理装置。 - 前記判定手段は、前記事物集合の特徴ベクトルと前記第1場所集合の特徴ベクトルとの類似度である第1類似度、及び前記事物集合の特徴ベクトルと前記第2場所集合の特徴ベクトルとの類似度である第2類似度をそれぞれ計算し、前記第1類似度及び前記第2類似度に基づいて、前記第1場所及び前記第2場所のいずれが前記事物名との関連性が高い場所であるか判定する、請求項1に記載の情報処理装置。
- 前記判定手段は、前記第1場所の専有面積及び前記第2場所の専有面積にさらに基づいて、前記第1場所及び前記第2場所のいずれが前記事物名との関連性が高い場所であるか判定する、請求項1又は請求項2に記載の情報処理装置。
- 前記地域情報記憶手段は、前記事物名が、当該事物名と同一又は類似する事物名を有する事物が所定数よりも多く存在する一般事物名であるか否かを示す一般事物名情報を前記地域情報のそれぞれに対応付けて記憶し、
前記抽出手段は、前記第1地域情報の前記一般事物名情報が、前記第1事物名が前記一般事物名でないことを示す場合、前記第1事物名又は前記第2事物名を含む文書の集合を前記事物集合として抽出し、前記第1地域情報の前記一般事物名情報が、前記第1事物名が前記一般事物名であることを示す場合、前記第1事物名又は前記第2事物名を含み、かつ、前記第1場所名又は前記第2場所名を含む文書の集合を前記事物集合として抽出する、請求項1〜請求項3のいずれか一項に記載の情報処理装置。 - 前記取得手段は、前記複数の地域情報に含まれる事物名の類似度に基づいて、前記第1地域情報及び前記第2地域情報を取得する、請求項1〜請求項4のいずれか一項に記載の情報処理装置。
- 前記地域情報記憶手段は、前記場所情報によって示される場所が事物との関連性が高い場所となり得るか否かを示す除外情報を前記地域情報のそれぞれに対応付けて記憶し、
前記取得手段は、前記複数の地域情報のうち、前記除外情報が前記場所情報によって示される場所が事物との関連性が高い場所となり得ることを示す地域情報から前記第1地域情報及び前記第2地域情報を取得する、請求項1〜請求項5のいずれか一項に記載の情報処理装置。 - 前記複数の文書は、複数のユーザがそれぞれ文書を投稿し、投稿された文書を閲覧するコミュニケーションサービスにおいて投稿された文書であり、
前記抽出手段は、前記複数の文書のそれぞれが投稿された時刻に基づいて、前記事物集合、前記第1場所集合、及び前記第2場所集合を抽出する、請求項1〜請求項6のいずれか一項に記載の情報処理装置。 - 前記判定手段による前記判定結果に基づいて、前記地域情報記憶手段に記憶されている前記複数の地域情報を更新する更新手段をさらに備える、請求項1〜請求項7のいずれか一項に記載の情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015241212A JP2017107431A (ja) | 2015-12-10 | 2015-12-10 | 情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015241212A JP2017107431A (ja) | 2015-12-10 | 2015-12-10 | 情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017107431A true JP2017107431A (ja) | 2017-06-15 |
Family
ID=59060807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015241212A Pending JP2017107431A (ja) | 2015-12-10 | 2015-12-10 | 情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017107431A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021149468A (ja) * | 2020-03-18 | 2021-09-27 | ヤフー株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
2015
- 2015-12-10 JP JP2015241212A patent/JP2017107431A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021149468A (ja) * | 2020-03-18 | 2021-09-27 | ヤフー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7330919B2 (ja) | 2020-03-18 | 2023-08-22 | ヤフー株式会社 | 情報処理装置、情報処理方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105874452B (zh) | 从社交摘要中标记兴趣点 | |
TWI526963B (zh) | 目標客戶搜尋方法、目標客戶搜尋裝置及其記錄媒體 | |
US9172767B2 (en) | Mobile terminal, data distribution server, data distribution system, and data distribution method | |
US20190310098A1 (en) | Computer-implemented method for recommending booths-to-visit | |
US9158790B2 (en) | Server, dictionary creation method, dictionary creation program, and computer-readable recording medium recording the program | |
JP6599674B2 (ja) | 情報処理システム、情報処理プログラム、情報処理装置、情報処理方法、相関関係情報データ、記憶媒体、相関関係情報の生成方法 | |
JP6136702B2 (ja) | 場所推定方法、場所推定装置および場所推定プログラム | |
US20120084302A1 (en) | Media or content tagging determined by user credibility signals | |
RU2604725C2 (ru) | Система и способ генерирования информации о множестве точек интереса | |
US20230194302A1 (en) | Method of updating map data, electronic device and storage medium | |
US11676088B2 (en) | Systems and methods for distributed risk analysis | |
JP2017107431A (ja) | 情報処理装置 | |
CN111191107B (zh) | 使用标注模型召回兴趣点的系统和方法 | |
RU2636906C2 (ru) | Система и способ организации в кластеры точек интереса с использованием сетки | |
JP5969584B2 (ja) | 属性決定装置、情報抽出システム、情報配信システム、及びプログラム | |
JP7187597B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2017091090A (ja) | 情報処理装置 | |
JP2012190167A (ja) | 情報処理装置および情報処理方法 | |
KR101233902B1 (ko) | 서버, 사전 생성 방법, 및 사전 생성 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체 | |
CN117171433A (zh) | 物流信息的获取方法和装置 | |
JP5702821B2 (ja) | 目的来店商圏判定装置及び方法及びプログラム | |
JP6403842B1 (ja) | 情報処理装置、コンテンツ提供システム、情報処理方法、およびプログラム | |
KR101308607B1 (ko) | 소셜 네트워크 서비스를 이용한 명함 관리 시스템 및 그 방법 | |
JP2017211687A (ja) | 関連文書抽出装置 | |
JP5373482B2 (ja) | 地理文書検索方法、地理文書検索システム及び地理文書検索プログラム |