JP5579141B2 - 地域に関する文書専門度判定装置及び方法及びプログラム - Google Patents

地域に関する文書専門度判定装置及び方法及びプログラム Download PDF

Info

Publication number
JP5579141B2
JP5579141B2 JP2011193520A JP2011193520A JP5579141B2 JP 5579141 B2 JP5579141 B2 JP 5579141B2 JP 2011193520 A JP2011193520 A JP 2011193520A JP 2011193520 A JP2011193520 A JP 2011193520A JP 5579141 B2 JP5579141 B2 JP 5579141B2
Authority
JP
Japan
Prior art keywords
document
place name
name expression
expression
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011193520A
Other languages
English (en)
Other versions
JP2013054620A (ja
Inventor
宜仁 安田
義昌 小池
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011193520A priority Critical patent/JP5579141B2/ja
Publication of JP2013054620A publication Critical patent/JP2013054620A/ja
Application granted granted Critical
Publication of JP5579141B2 publication Critical patent/JP5579141B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、地域に関する文書専門度判定装置及び方法及びプログラムに係り、文書の難易度の設定、特に、文書を理解するにあたって、ある地点に対してどの程度の背景知識・土地勘を必要とするかという文書の地域に関する専門度を推定するための地域に関する文書専門度判定装置及び方法及びプログラムに関する。
インターネットから得られる情報等、大規模な文書を対象として、キーワードと興味対象の位置座標を与えることにより、与えたキーワードと位置と関連のある文書を検索するような文書検索が知られている(例えば、特許文献1参照)。
しかし、地域に関しては利用者の背景知識・土地勘は利用者によってもあるいは検討対象とする地域によってもまちまちであり、これらを勘案せずに一律に検索結果を提示したのでは、利用者によって理解が困難であったり、あるいは、ありきたりな情報にしか辿り着けないことになってしまう。そこで、利用者・文書双方における地域に関する詳しさや土地勘を考慮したうえで提示することができれば、単純に地点と検索クエリによる方法に比べて、その利用者によってより適切な文書を提示することが可能となるであろう。
こうした文書の地域に関する専門度の推定には、非特許文献1に示される手法を用いて文書著者の居住地を推定し、居住地内の著者が書いた文書であればその文書は当該地域に関してその文書は専門的と考えることもできるであろう。
また、従来より文書の難易度を推定する方法として、文書の可読性や文書の専門用語の難度を用いる方法が存在する(例えば、非特許文献2、特許文献2参照)。
特開2009-134463号公報 特開2009−140074号公報
Norihito Yasuda, Tsutomu Hirota, Jun Suzuki, and Hideki Isozaki. 2006. Identifying bloggers' residential areas. Proceedings of AAAI Spring Symposium on computational Approaches for Analyzing Weblogs, pp. 231-236. 中谷誠、アダムヤトフト、田中克己、2009. "理解容易性を考慮した用語説明のランキング手法", WebDB Forum 2009.
しかし、居住地を推定し、居住地域内著者が書いた文書であればその文書は当該地域に関して詳しいとする方法であっては、居住していない人が書いたがその地域に関して詳しい文書や、逆に、居住している人が書いたがその地域に詳しくない文書を適切に取り扱えないという問題がある。さらに、同一著者に関する一連の文書を必要とするため、著者のID等が記された文書が必要となるという問題もある。
また、文書の可読性や文書中の専門用語の頻度を用いる手法であっては、利用者の地域への詳しさを考慮していなかった。しかし、地域への詳しさは人によって多様であり、その地域への詳しい人にとっては特に新しい発見のないありきたりな情報へしか導けないようなキーワードを提示したり、逆にその地域に詳しくない人にとっては、込み入った情報過ぎて、その地域の主要な事柄について広く知ることができないようなキーワードを提示することになってしまう。
このため、既存技術では、文書の地域に対する専門性を適切に判定できないという課題があった。このため、結果として利用者の土地勘に応じた情報への到達可能な検索キーワードの提示ができず、利用者にとって有益な情報へ到達するまでの手数が多かった。
本発明は、上記の点に鑑みなされたもので、利用者が少ない手数で有益な情報へ到達することが可能な地域に関する文書専門度判定装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、入力された文書の地域に関する専門度を判定するための地域に関する文書専門度判定装置であって、
前記文書から地名表現と該地名の位置座標を抽出し、文書内地名表現データベースに格納する地名表現抽出手段と、
前記文書内地名表現データベースから前記地名表現を読み込み、地名表現の階層が低いほど地名表現言及専門度を高く設定し、該地名表現毎に該地名表現言及専門度を付与して該文書内地名表現データベースに格納する地名表現言及専門度算出手段と、
前記文書内地名表現データベースから、前記地名表現毎の位置座標を取得して、該位置座標の分布に基づいて、判定対象となる地理範囲を算出する文書内地理範囲算出手段と、
前記地名表現言及専門度算出手段で求められた文書内地名表現の言及専門度の総和Aと、前記判定対象となる地理範囲内の文書内地理表現の言及専門度の総和Bを求め、総和Bを総和Aで除した値を、文書内地理表現密度とする文書内言及地理表現密度算出手段と、
前記文書内地理表現密度を前記地理範囲で除した値を文書専門度とする文書専門度算出手段と、を有する。
また、本発明(請求項2)は、前記地名表現抽出手段に、前記地名表現の正規の住所と対応する代表点の座標を取得する手段を含み、
前記地名表現言及専門度算出手段に、前記地名表現が前記正規の住所である地名表現について、最上位の都道府県の階層を最上位層とし、どの階層から記述されているかによりレベルを付与する手段を含む。
また、本発明(請求項3)は、前記文書内地理範囲算出手段に、
ノイズとなる地名が取り除かれた地名表現について前記地理範囲を算出する手段を含む。
本発明によれば、文書中に著者のID情報等が含まれていなくても、文書の地域に対する専門性を適切に判定することができる。これを情報検索のためのキーワードの提示に用いることにより、利用者の土地勘に応じた情報へ到達可能な検索キーワードの提示ができるようになり、結果として利用者が少ない手数で有益な情報へ到達することが可能となる。
本発明の一実施の形態における判定装置の構成図である。 本発明の一実施の形態における判定装置の処理フローである。 本発明の一実施の形態における住所表現抽出部の出力例である。 本発明の一実施の形態における地名表現言及詳細判定フローである。 本発明の一実施の形態における地名表現言及専門度算出部の出力例である。 本発明の一実施の形態における文書の直径と密度を示す図である。
以下、図面と共に、本発明の実施の形態を説明する。
図1は、本発明の一実施の形態における判定装置の構成を示す。
同図に示す判定装置は、住所表現抽出部1、地名表現言及専門度算出部2、文書内言及地理範囲算出部3、文書内言及地理表現密度算出部4、文書専門度算出部5、文書内地名表現データベース6から構成される。
本装置への入力は文書DB(図示せず)から入力される判定対象文書と判定対象地理座標であり、出力はその文書のその座標が含まれる地域に関する文書難易度を示す数値である。
文書内地名表現データベース6は、地名表現抽出部1で抽出される文書中の地名表現に関する属性情報を格納するデータベースである。カラムとして、地名表現、正規の住所、緯度経度座標、及び地名表現言及専門度算出部4によって算出される地名言及専門度を格納する。
上記の構成の判定装置の動作を以下に説明する。
図2は、本発明の一実施の形態における判定装置の処理フローである。
ステップ101) 住所表現抽出部1は、文書DB(図示せず)中の各文書について、文書中に記述された地名と思われる表現を抽出し、正規の住所と対応する代表点の緯度経度を推定し、文書内地名表現データベース6に格納する。文書中の地名表現は必ずしも完全な住所表現でなくとも、「浜松」や「左京区北白川追分町」といった、断片的な地名でも構わない。例えば、文書中での表現が「浜松」であった場合、代表点の座標としては、静岡県浜松市の市役所の座標を抽出する。この時点で文書内地名表現データベース6に格納されるデータ例を図3に示す。文書内地名表現データベース6へ格納される出力中の正規の住所には、図3に示すように、地名階層の区切りが判別できるような目印(例えば、(/))を含めて出力する。なお、地名表現を抽出し、正規の住所と対応する代表点を推定するための技術としては、例えば、文献1「平野徹、松尾義博、菊井源一郎、「地理的距離と有名度を用いた地名の曖昧性解消」,情報処理学会全国大会講演論文集,2008.」等で示される既存技術を用いることが可能である。
ステップ102) 地名表現言及専門度算出部2は、文書内地名表現データベース6を用いて文書中の各地名表現が、どの程度その地域に詳しい情報を含意しているかを示す地名表現言及専門度を出力する。
地名表現言及専門度は、その地域に詳しくない人ほど地名について上位の階層から言及することが多く、その地域に詳しい人ほど地名の階層については省くことが多いということに着目したものであり、文書中の各地名表現について以下の地名表現言及詳細度を判定する手順を行う。
図4は、本発明の一実施の形態における地名表現言及詳細度判定フローである。
ステップ201) 地名表現言及専門度算出部2は、文書内地名表現データベース6を参照し、地名表現と正規の住所を得る。次に、地名表現と正規の住所を比較し、地名表現が正規の住所のうち、どの階層から記述されているかを得る(ステップ201)。最上位の都道府県の階層を1階層目とし、何階層目より記述されているかを、地名表現言及専門度とする(ステップ202)。その例を図5に示す。
上記の手順によって得られた値を文書内地名表現データベース6の地名言及専門度カラムに格納する(ステップ203)。
ステップ103) 文書内言及地理範囲算出部3は、文書内地名表現データベース6を用いて当該文書で言及されている地理範囲を以下の通り算出する。
文書中の代表点の緯度のうち、最大の緯度をpa、文書中の代表点の緯度のうち、最小の緯度をpb、文書中の代表点の経度のうち最大の経度をpc、文書中の代表点の経度のうち最小の経度をpdとし、以下を文書内言及地理範囲算出部3の出力とする。
(pa−pb)×(pc−pd)
また、一つの文書中に含まれる座標が多数の場合、それらの座標についてすべて誤りなく住所表現抽出部1によって正しい座標が付与されるわけではない場合には、本来であれば近接した住所についての地名表現であったものが誤って遠方の地名として取り扱われて、遠方の座標が付与されてしまうことがある。このような場合に、本来文書が言及していた地理範囲よりも過大に広い範囲を言及しているかのように取り扱ってしまうことを防ぐため、すべての地名表現を用いて文書内言及地理範囲を算出するのではなく、ノイズと思われる地名を取り除いた上で文書内言及地理範囲を算出してもよい。このようなノイズと見做せるような地名の除去については、文献2「安田宜仁、戸田浩之、"検索位置のごく周辺を対象とした地理情報検索",人工知能学会論文誌,Vol. 23, No.5, pp.364-373, 2008年7月」に示されるような、地名表現のクラスタリング手法による手法を用いることができる。
ステップ104) 文書内言及地理表現密度算出部4は、装置への入力である判定対象地理座標と、文書内地名表現データベース6を用いて、文書内言及地理表現密度を以下のように算出する。
1) まず、文書内地名表現データベース6中の各地名表現について、判定対象地理座標との距離を算出し、この距離が事前に定めた距離rt以内であるかどうかを調べる。
2) 次に、上記判定により、rt以内で判定された地名表現の言及専門度の総和sbを以下のように求める。
Figure 0005579141
3) 次に、sb/saを文書内言及地理表現密度dとして出力する。
ステップ105) 文書専門度算出部5は、文書内言及地理範囲算出部3より得られた地理範囲eと、文書内言及地理表現密度算出部4より得られた文書内言及地理表現密度dを用いて単位面積あたりの文書専門度を以下の式で求める。
Figure 0005579141
上記で求めた文書専門度(単位面積あたりの専門度)を出力する。
本発明は、上記のように、文書の直径と密度、及び、地名の言及詳細度の2つの情報に着目して地域に関する文書専門度を求める。
「文書の直径と密度」とは、離れた地点については疎に言及している文書(例えば、「鎌倉」と「奈良」)は専門度が低い。これに対し、狭い範囲の一点について密に言及している文書(例えば、横須賀市若松町」と「横須賀市本町」内で5箇所)は専門度が高い。図6は、文書に出現した地名表現の座標の散らばり度合を示している。文書Aも文書Bも横須賀関連の地名が多数出現するが、文書Aは狭い範囲を扱っていて密度が高いため、本発明の地名表現言及専門度算出部2では、文書Aをより専門度が高いと文書と判定する。
「地名言及専門度」は、地名を大きな単位から言及している場合は、土地外の人(つまりその土地に詳しくない人)であることが多いことに着目する。また、地名表現として、「京都市左京区一乗寺」という上位階層から書き始めているほど、専門度が低いとし、当該記述より「一乗寺」という記述の方が、専門度が高いと判定する。
なお、上記の図1に示す判定装置の構成要素の動作をプログラムとして構築し、判定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 住所表現抽出部
2 地名表現言及専門度算出部
3 文書内言及地理範囲算出部
4 文書内言及地理表現密度算出部
5 文書専門度算出部
6 文書内地名表現データベース

Claims (7)

  1. 入力された文書の地域に関する専門度を判定するための地域に関する文書専門度判定装置であって、
    前記文書から地名表現と該地名の位置座標を抽出し、文書内地名表現データベースに格納する地名表現抽出手段と、
    前記文書内地名表現データベースから前記地名表現を読み込み、地名表現の階層が低いほど地名表現言及専門度を高く設定し、該地名表現毎に該地名表現言及専門度を付与して該文書内地名表現データベースに格納する地名表現言及専門度算出手段と、
    前記文書内地名表現データベースから、前記地名表現毎の位置座標を取得して、該位置座標の分布に基づいて、判定対象となる地理範囲を算出する文書内地理範囲算出手段と、
    前記地名表現言及専門度算出手段で求められた文書内地名表現の言及専門度の総和Aと、前記判定対象となる地理範囲内の文書内地理表現の言及専門度の総和Bを求め、総和Bを総和Aで除した値を、文書内地理表現密度とする文書内言及地理表現密度算出手段と、
    前記文書内地理表現密度を前記地理範囲で除した値を文書専門度とする文書専門度算出手段と、
    を有することを特徴とする地域に関する文書専門度判定装置。
  2. 前記地名表現抽出手段は、
    前記地名表現の正規の住所と対応する代表点の座標を取得する手段を含み、
    前記地名表現言及専門度算出手段は、
    前記地名表現が前記正規の住所である地名表現について、最上位の都道府県の階層を最上位層とし、どの階層から記述されているかによりレベルを付与する手段を含む
    請求項1記載の地域に関する文書専門度判定装置。
  3. 前記文書内地理範囲算出手段は、
    ノイズとなる地名が取り除かれた地名表現について前記地理範囲を算出する手段を含む
    請求項1記載の地域に関する文書専門度判定装置。
  4. 入力された文書の地域に関する専門度を判定するための地域に関する文書専門度判定方法であって、
    地名表現抽出手段が、前記文書から地名表現と該地名の位置座標を抽出し、文書内地名表現データベースに格納する地名表現抽出ステップと、
    地名表現言及専門度算出手段が、前記文書内地名表現データベースから前記地名表現を読み込み、地名表現の階層が低いほど地名表現言及専門度を高く設定し、該地名表現毎に該地名表現言及専門度を付与して該文書内地名表現データベースに格納する地名表現言及専門度算出ステップと
    文書内地理範囲算出手段が、前記文書内地名表現データベースから、前記地名表現毎の位置座標を取得して、該位置座標の分布に基づいて、判定対象となる地理範囲を算出する文書内地理範囲算出ステップと、
    文書内言及地理表現密度算出手段が、前記地名表現言及専門度算出ステップで求められた文書内地名表現の言及専門度の総和Aと、前記判定対象となる地理範囲内の文書内地理表現の言及専門度の総和Bを求め、総和Bを総和Aで除した値を、文書内地理表現密度とする文書内言及地理表現密度算出ステップと、
    文書専門度算出手段が、前記文書内地理表現密度を前記地理範囲で除した値を文書専門度とする文書専門度算出ステップと、
    を有することを特徴とする地域に関する文書専門度判定方法。
  5. 前記地名表現抽出ステップにおいて、
    前記地名表現の正規の住所と対応する代表点の座標を取得し、
    前記地名表現言及専門度算出ステップにおいて、
    前記地名表現が前記正規の住所である地名表現について、最上位の都道府県の階層を最上位層とし、どの階層から記述されているかによりレベルを付与する
    請求項4記載の地域に関する文書専門度判定方法。
  6. 前記文書内地理範囲算出ステップにおいて、
    ノイズとなる地名が取り除かれた地名表現について前記地理範囲を算出する
    請求項4記載の地域に関する文書専門度判定方法。
  7. コンピュータを、
    請求項1乃至3のいずれか1項に記載の判定装置の各手段として機能させるための地域に関する文書専門度判定プログラム。
JP2011193520A 2011-09-06 2011-09-06 地域に関する文書専門度判定装置及び方法及びプログラム Expired - Fee Related JP5579141B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011193520A JP5579141B2 (ja) 2011-09-06 2011-09-06 地域に関する文書専門度判定装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011193520A JP5579141B2 (ja) 2011-09-06 2011-09-06 地域に関する文書専門度判定装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013054620A JP2013054620A (ja) 2013-03-21
JP5579141B2 true JP5579141B2 (ja) 2014-08-27

Family

ID=48131534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011193520A Expired - Fee Related JP5579141B2 (ja) 2011-09-06 2011-09-06 地域に関する文書専門度判定装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5579141B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6136702B2 (ja) * 2013-07-24 2017-05-31 富士通株式会社 場所推定方法、場所推定装置および場所推定プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4249929B2 (ja) * 2002-01-31 2009-04-08 株式会社ゼンリン 住所情報と位置座標のマッチング方法
CN101661461B (zh) * 2008-08-29 2016-01-13 阿里巴巴集团控股有限公司 确定文档中核心地理信息的方法、系统
JP5375056B2 (ja) * 2008-12-02 2013-12-25 沖電気工業株式会社 位置表現特定装置、位置表現特定方法及びプログラム

Also Published As

Publication number Publication date
JP2013054620A (ja) 2013-03-21

Similar Documents

Publication Publication Date Title
Backes et al. walk2friends: Inferring social links from mobility profiles
He et al. Using the Baidu search index to predict the incidence of HIV/AIDS in China
Drakonakis et al. Please forget where I was last summer: The privacy risks of public location (meta) data
CN110431817A (zh) 识别恶意网络设备
CN104579773B (zh) 域名系统分析方法及装置
CN111417954A (zh) 基于数据去标识过程的可允许配置的检测的数据去标识
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
JP2010020490A (ja) 未訪問地の情報提供装置及び未訪問地の情報提供方法
WO2013110357A1 (en) Social network analysis
JP2020201935A (ja) プライバシ信頼性に基づくapiアクセス
Tsou et al. Identifying data noises, user biases, and system errors in geo-tagged twitter messages (Tweets)
JP6988521B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
Oku et al. Tweet-mapping method for tourist spots based on now-tweets and spot-photos
Liu et al. Where are you tweeting? a context and user movement based approach
Liu et al. Enhancing fine-grained intra-urban dengue forecasting by integrating spatial interactions of human movements between urban regions
Guo et al. Cosolorec: Joint factor model with content, social, location for heterogeneous point-of-interest recommendation
JP5579141B2 (ja) 地域に関する文書専門度判定装置及び方法及びプログラム
Lin et al. Linking personally identifiable information from the dark web to the surface web: A deep entity resolution approach
Wang et al. A de-anonymization attack on geo-located data considering spatio-temporal influences
JP5903376B2 (ja) 情報推薦装置、情報推薦方法、及び情報推薦プログラム
Zhu et al. Structural attack to anonymous graph of social networks
JP6126516B2 (ja) 訪問poi推定装置
Risch et al. Measuring and facilitating data repeatability in web science
Routledge et al. Inference of malaria reproduction numbers in three elimination settings by combining temporal data and distance metrics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130910

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140701

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140708

R150 Certificate of patent or registration of utility model

Ref document number: 5579141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees