JP5315664B2 - 位置表現検出装置、プログラム、及び、記憶媒体 - Google Patents

位置表現検出装置、プログラム、及び、記憶媒体 Download PDF

Info

Publication number
JP5315664B2
JP5315664B2 JP2007280286A JP2007280286A JP5315664B2 JP 5315664 B2 JP5315664 B2 JP 5315664B2 JP 2007280286 A JP2007280286 A JP 2007280286A JP 2007280286 A JP2007280286 A JP 2007280286A JP 5315664 B2 JP5315664 B2 JP 5315664B2
Authority
JP
Japan
Prior art keywords
position expression
target text
expression
detection
comparison target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007280286A
Other languages
English (en)
Other versions
JP2009110159A (ja
Inventor
幸治 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2007280286A priority Critical patent/JP5315664B2/ja
Priority to US12/230,977 priority patent/US20090112537A1/en
Priority to EP08163927A priority patent/EP2058744A1/en
Priority to CNA2008101493316A priority patent/CN101425071A/zh
Publication of JP2009110159A publication Critical patent/JP2009110159A/ja
Application granted granted Critical
Publication of JP5315664B2 publication Critical patent/JP5315664B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は位置表現検出装置、プログラム、及び、記憶媒体に関し、例えば、住所の一部分などの曖昧性を有する位置表現文字列から、完全な住所文字列などの曖昧性がない位置表現文字列を得る必要のある位置表現の検出システムに適用して好適なものである。
情報処理において、テキスト中に出現する固有表現を検出する処理は既に広く行なわれている。特に、最近は、GIS(Geographic Information System)が着目を浴びていることから、地名などの位置表現に関する自動検出処理が注目されている。しかしながら、処理すべきテキスト、例えば、ニュース記事やブログ(blog)サイトなどに含まれる地名表現などの位置表現の多くは、都道府県名や市区郡名などが省略された形で表現されていることが多い。例えば、「日本橋」という地名は東京都と大阪府に存在するが、テキスト中に出現する位置表現では、単に、「日本橋」と書かれていることが多く、「東京都中央区日本橋」あるいは「大阪府大阪市浪速区日本橋」と常に記述されていることは極々稀である。
このような課題を解決する手法として、特許文献1の「従来の技術」の項にも示されているような2つの手法がある。
第1の手法は、固有な位置表現の候補の前後又は同一テキスト内に出現する共起語を参照して、固有な位置表現候補の曖昧性を解消する方法であり、「日本橋」の例であれば、例えば、「パソコン」、「メイド喫茶」などの語が「日本橋」の前後や同一テキスト内に含まれていれば、「大阪府大阪市浪速区日本橋」と判断する手法である。
第2の手法は、固有な位置表現の候補の表記を包含する位置表現を同一テキストから検索し、固有な位置表現候補の曖昧性を解消する方法である。「日本橋」の例であれば、同一テキスト内に「浪速区日本橋」のような「日本橋」を含む曖昧性のない位置表現があれば、単独の「日本橋」も「大阪府大阪市浪速区日本橋」と判断する手法である。
特許文献1の記載技術は、上述の第1又は第2の手法で、一般には同一テキスト内にとどまっていた共起語の参照又は包含する位置表現の検索の範囲を、検出対象がハイパーテキストの際に、そのテキストのリンク元及びリンク先の文書にも拡大しているに過ぎない。
特開2002−82943号公報
しかしながら、第1の手法は、それぞれの位置表現に対して予め共起辞書を作成する必要があり、どの語を共起語にするかを自動的に決定するのは困難であり、手動で決定するには多くの労力が必要とされる。また、共起語が決定できたとしても、共起表現によって位置表現(地名)を特定する確率を上げるためには、それぞれの位置表現に対し、多くの共起語を設定する必要があるため、共起辞書が巨大なものになるという課題を有する。
一方、第2の手法は、固有な位置表現の候補の表記を包含する表記が、検索範囲内に含まれなかった場合、曖昧性を解消することができない。
特許文献1の記載技術は、上述の第1又は第2の手法における検索範囲を、単にリンク関係のある文書に広げただけであるから、上述した課題を解決することができない。
本発明は、以上の点を考慮してなされたものであり、共起辞書を用いずに、また、位置表現の候補の表記を包含する位置表記がなくとも、曖昧性をもつ位置表現の曖昧性を解決することができる位置表現検出装置、プログラム、及び、記憶媒体を提供しようとしたものである。
第1の本発明の位置表現検出装置は、検出対象テキスト中に含まれる位置表現を抽出し、抽出した位置表現が複数の候補地をもつ場合に、そのいずれかに決定するものであって、(1)各種テキスト中に存在し得る位置表現と、その位置表現が規定し得る位置との対応を記憶した位置表現情報記憶部と、(2)上記位置表現情報記憶部の記憶内容を参照し、上記検出対象テキストから位置表現を抽出し、抽出した位置表現が複数の候補地を有するか否かを判別する位置表現抽出部と、(3)上記検出対象テキストにおける特徴語を抽出する検出対象テキスト特徴語抽出部と、(4)上記候補地若しくは上記特徴語の少なくとも一方を利用し、検出対象テキストの比較対象となる比較対象テキストを検索する比較対象テキスト検索部と、(5)検索された比較対象テキストに関する情報に基づいて、抽出した位置表現が複数の候補地をもつ場合に、そのいずれかに決定する位置表現特定部とを有し、(6)上記検出対象テキスト特徴語抽出部、上記比較対象テキスト検索部及び上記位置表現特定部は、少なくとも抽出した位置表現が複数の候補地をもつ場合に機能するものであり、(1)上記位置表現情報記憶部は、位置表現が規定し得る位置の座標情報も記憶しているものであり、(2)上記位置表現抽出部は、各候補地の座標情報をも取得するものであり(4)上記比較対象テキスト検索部は、上記検出対象テキストにおける特徴語を含む上記比較対象テキストを取得するものであり、(5)上記位置表現特定部は、(5−1)上記位置表現情報記憶部の記憶内容を参照し、上記比較対象テキストにおける曖昧性がない位置表現及びその位置表現の座標情報を得る比較対象テキスト内位置表現抽出部と、(5−2)上記各候補地のそれぞれについて、その座標情報と、上記比較対象テキスト内の位置情報に係る座標情報との距離を求める距離計算部と、(5−3)距離が最も短い候補地に、上記検出対象テキスト中に含まれる位置表現の位置を特定する距離判定出力部とを有することを特徴とする。
第2の本発明の位置表現検出プログラムは、検出対象テキスト中に含まれる位置表現を抽出し、抽出した位置表現が複数の候補地をもつ場合に、そのいずれかに決定するためのものであって、コンピュータを、(1)各種テキスト中に存在し得る位置表現と、その位置表現が規定し得る位置との対応並びに位置表現が規定し得る位置の座標情報を記憶した位置表現情報記憶部と、(2)上記位置表現情報記憶部の記憶内容を参照し、上記検出対象テキストから位置表現並びに座標情報を抽出し、抽出した位置表現が複数の候補地を有するか否かを判別する位置表現抽出部と、(3)上記検出対象テキストにおける特徴語を抽出する検出対象テキスト特徴語抽出部と、(4)記特徴語を利用し、検出対象テキストの比較対象となる比較対象テキストを検索する比較対象テキスト検索部と、(5)上記位置表現情報記憶部の記憶内容を参照し、上記比較対象テキストにおける曖昧性がない位置表現及びその位置表現の座標情報を得る比較対象テキスト内位置表現抽出部と、上記各候補地のそれぞれについて、その座標情報と、上記比較対象テキスト内の位置情報に係る座標情報との距離を求める距離計算部と、距離が最も短い候補地に、上記検出対象テキスト中に含まれる位置表現の位置を特定する距離判定出力部とを有し、抽出した位置表現が複数の候補地をもつ場合に、そのいずれかに決定する位置表現特定部として機能させることを特徴とする。
第3の本発明の記録媒体は、第2の本発明の位置表現検出プログラムを記憶した、コンピュータ読み取り可能なものである。
本発明によれば、共起辞書を用いずに、また、位置表現の候補の表記を包含する位置表記がなくとも、曖昧性をもつ位置表現の曖昧性を解決することができる。
(A)第1の実施形態
以下、本発明による位置表現検出装置、プログラム、及び、記憶媒体の第1の実施形態を、図面を参照しながら詳述する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る位置表現検出装置10の機能的構成を示すブロック図である。位置表現検出装置10は、例えば、テキスト処理用の専用装置の一部として構築されたものであっても良く、また、PC(パソコン)やサーバ等の汎用的な情報処理装置に位置表現検出プログラム(固定データ等を含む)をインストールすることにより構築されたものであっても良いが、機能的には、図1の構成で表すことができる。位置表現検出プログラムのインストールは、通信網を介したダウンロードによる方法に限らず、コンピュータが読取可能な記録媒体を介する方法であっても良い。
図1において、位置表現検出装置10は、検出対象テキスト20を入力し、その検出対象テキスト20に含まれている特定位置表現30を出力するものである。検出対象テキスト20の入力方法は任意である。すなわち、記録媒体からの読込み、外部装置からの通信による取込み(ダウンロードを含む)、OCRを利用した入力、キーボード入力などのいずれであっても良い。また、特定位置表現30の出力方法も任意である。すなわち、記録媒体への書込み、外部装置への送信、印刷出力、表示出力などのいずれであっても良い。
位置表現検出装置10は、機能的には、位置表現テーブル11、検出対象テキスト位置表現検出部12、検出対象テキスト特徴語抽出部13、比較対象テキスト取得部14、比較対象テキスト特徴語抽出部15、特徴語一致度計算部16及び特定位置表現出力部17を有する。
位置表現テーブル11は、例えば、図2に示すような、それぞれの位置における住所などの位置表現情報を、都道府県、市郡、区、町字などの単位でそれぞれの行(レコード)に格納したテーブルである。なお、各行にはIDが付与されている。位置表現テーブル11は、例えば、HDD(Hard Disk Drive)、ROM(Read Only Memory)等の記憶デバイスを含むハードウェア資源で実現される。
検出対象テキスト位置表現検出部12は、処理対象である検出対象テキスト20から、位置表現テーブル11を参照しつつ、位置表現の部分を検出する部分である。
検出対象テキスト特徴語抽出部13は、検出対象テキスト20から、そのテキストの特徴を表している特徴語を抽出する部分である。
比較対象テキスト取得部14は、検出対象テキスト20に含まれている、曖昧性のある位置表現の曖昧性を解決するために、比較対象とするテキストを取得する部分である。複数の比較対象テキストとなり得るテキストを、当該位置表現検出装置10用に設けられた記憶領域に格納しておき、そこから比較対象テキストを取得するようにしても良く、また、毎回、インターネット上から取得するようにしても良い。さらに、記憶領域に格納しておいたテキストから、比較対象テキストを取得できない場合に、インターネット上から取得するようにしても良い。
比較対象テキスト特徴語抽出部15は、比較対象テキストから、そのテキストの特徴を表している特徴語を抽出する部分である。
特徴語一致度計算部16は、検出対象テキストと比較対象テキストの特徴語の一致度を計算する部分である。
特定位置表現出力部17は、特徴語一致度計算部16で計算された一致度を用いて曖昧性を解決した位置表現を出力する部分である。
検出対象テキスト位置表現検出部12〜特定位置表現出力部17の部分は、専用の制御デバイス、あるいは、プログラムを実行するプロセッサ(CPU)と、そのプロセッサで実行するプログラムとデータを記憶するRAM(Random Access Memory)、ROM、HDDなどの記憶デバイスを含むハードウェア資源で実現される。
なお、ここで説明した構成は、機能別に説明したものであり、実現するハードウェアの物理構成が各部分毎に明確に分離され、独立に用意されている必要はない。例えば、検出対象テキスト位置表現検索部12〜特定位置表現出力部17の一部又は全部を実現するプロセッサとRAM、ROMは共通のものであっても良く、さらには、他の機能を実現する装置の一部を利用しても良い。また、当該位置表現検出装置10を構成する一部は、ネットワークで接続された他の場所に配置されていても良い。
(A−2)第1の実施形態の動作
次に、第1の実施形態に係る位置表現検出装置10の動作を、図面を参照しながら詳述する。ここで、図3は、位置表現検出装置10の動作を示すフローチャートである。また、図3は、与えられた検出対象テキスト20から検出されたある1個の位置表現についての処理を示しており、検出対象テキスト20に複数の位置表現が含まれている場合には、図3に示す処理が複数回実行される。
まず、検出対象テキスト位置表現検出部12において、与えられた検出対象テキスト20を、図2に示すような位置表現テーブル11を用いて解析し、位置表現を検出すると共に、位置表現の候補Xを得、候補数が2つ以上か否かを判別する(S1、S2)。検出された位置表現の候補数が1つの場合には、直ちに、位置表現について該当候補を出力して終了する(S9)。
ここで、候補が複数ある場合の例を説明する。例えば、検出対象テキスト20が図4(A)に示すようなものである場合、位置表現検出部12は、「日本橋」という位置表現を検出し、候補群Xとして、「東京都中央区日本橋」、「大阪府大阪市浪速区日本橋」、「大阪府大阪市中央区日本橋」の3つの候補を得る。
位置表現の候補数が2つ以上の場合には、検出対象テキスト特徴語抽出部13において、検出対象テキスト20から特徴語が抽出される。特徴語の抽出アルゴリズムは、任意であるが、例えば、tf(1文書内の単語の出現頻度)とidf(その単語が出現する文書数の逆数)の二つの指標で計算される、tf及びidfを使用する既存のアルゴリズムを適用可能である(例えば、特開2005−258678号公報参照)。以下では、図4(A)に示す検出対象テキスト20から、特徴語として、「メイド喫茶」、「萌々」、「パソコン」が得られたとして説明する。
ステップS4〜S8は、候補群Xに含まれる各要素Xiについて実施される繰り返し処理である。
比較対象テキスト取得部14において、候補Xiに関する比較対象テキストを取得した後(S5)、比較対象テキスト特徴語抽出部15において、取得した比較対象テキストから特徴語を抽出する(S6)。
例えば、最初に、3つの候補「東京都中央区日本橋」、「大阪府大阪市浪速区日本橋」、「大阪府大阪市中央区日本橋」のうち、「東京都中央区日本橋」に関する記述を含む比較対象テキストを検索して取得する。該当する比較対象テキストが複数存在する場合には、装置の処理能力や求められる確度に応じて決定される数に絞り込んで良い。例えば、「東京都中央区日本橋」に関する比較対象テキストとして、図4(B)に示すような比較対象テキストが得られたとすると、この中から特徴語として「明治時代」が抽出される。
なお、比較対象テキストがなかったり、十分な数を得られなかったりした場合の処理については後述する。
比較対象テキストからの特徴語の抽出が終了すると、特徴語一致度計算部16において、検出対象テキスト20から抽出された特徴語と、比較対象テキストから得られた特徴語との一致度を計算する(S7)。検出対象テキスト20の特徴語が、「メイド喫茶」、「萌々」、「パソコン」であり、比較対象テキストの特徴語が「明治時代」であれば、一致する特徴語が存在しないので、一致度は0となる。なお、比較対象テキストが複数存在する場合には、例えば、各比較対象テキストについて、ステップS6及びS7の処理を行ない、得られた一致度の平均値を最終的な一致度とする。
3つの候補「東京都中央区日本橋」、「大阪府大阪市浪速区日本橋」、「大阪府大阪市中央区日本橋」のうち、「大阪府大阪市浪速区日本橋」が処理対象となったときには(S4)、「大阪府大阪市浪速区日本橋」に関する記述を含む比較対象テキストが検索されて取得される(S5)。
しかしながら、該当する比較対象テキストがなく、又は、十分な数の比較対象テキストが得られなかったとする。この場合には、位置表現テーブル11の該当する候補に対応する行の他の列の要素の1つ又は2つ以上の組み合わせの中から、曖昧性を含む位置表現「日本橋」と組み合わさることにより曖昧性が解消される条件を使って比較対象テキストを取得する。この例における「大阪府」や「大阪市」は、「浪速区」の「日本橋」も、「中央区」の「日本橋」も含み、これらを「大阪府」や「大阪市」を用いて比較対象テキストを検索しても、得られた比較対象テキストが、「浪速区」の「日本橋」の情報を記載しているのか「中央区」の「日本橋」の情報を記載しているのかを判別できないので検索条件としては使わない。すなわち、「大阪府大阪市浪速区日本橋」及び「大阪府大阪市中央区日本橋」の「日本橋」以外の共通部分「大阪府」、「大阪市」は、比較対象テキストの検索条件としては使わない。そのため、「大阪府大阪市浪速区日本橋」で比較対象テキストが得られない場合には、「浪速区」で比較対象テキストを取得することを実行する(S5内の例外処理)。
「浪速区」で比較対象テキストを取得した際に、図4(C)に示すような比較対象テキストが得られたとする。この比較対象テキストから、特徴語として「メイド喫茶」、「萌々」が抽出されたとする(S6)。
検出対象テキスト20の特徴語が、「メイド喫茶」、「萌々」、「パソコン」であり、比較対象テキストの特徴語が、「メイド喫茶」、「萌々」であるので一致度は2となる(S7)。
3つの候補「東京都中央区日本橋」、「大阪府大阪市浪速区日本橋」、「大阪府大阪市中央区日本橋」のうち、「大阪府大阪市中央区日本橋」が処理対象となったときには(S4)、「大阪府大阪市中央区日本橋」に関する記述を含む比較対象テキストが検索されて取得される(S5)。ここでは、比較対象テキストとして、図4(D)に示すような比較対象テキストが得られたとする。この比較対象テキストからは、特徴語として「スモールカメラ」、「パソコン」が得られ(S6)、「パソコン」が検出対象テキストの特徴語として一致するので一致度は1となる(S7)。
以上のようにして全ての候補について一致度が計算されると、特定位置表現出力部17によって、各候補Xiの中で一致度の最も高いものを、検出対象に含まれた曖昧性のある位置表現の特定表記に決定して出力する(S9)。上述した例では、一致度2の「大阪府大阪市浪速区日本橋」が最も一致度が高いので、検出対象の位置表現「日本橋」は、「大阪府大阪市浪速区日本橋」であると特定する。
以上の動作説明では、理解を容易にするために、一致度は単純に特徴語の一致数として説明したが、特徴語の特徴度や出現個数などを、一致度の計算に反映させるようにしても良い。また、特徴語の類似語の一致数を一致度の評価に反映させるようにしても良い。また例えば、検出対象テキストや比較対象テキストがハイパーテキストの場合、リンク距離(直接、リンク先からのリンク、…、リンク関係なし)を一致度の評価に反映させるようにしても良い。
(A−3)第1の実施形態の効果
第1の実施形態によれば、共起辞書を用いず、また、位置表現の候補の表記を包含する位置表記がなくとも、地名表記の一部のような曖昧性をもつ位置表現の曖昧性を解決することができる。
また、包含する表記から決定する方式に、特許文献1が示すように参照する文書を増加させる仕組みを適用することも考えられるが、この考えられる方式では特定精度が低くなると推測される。上述した図4(B)〜(D)に示す3つの比較対象テキストの中で「日本橋」を含むものは、図4(C)の「東京中央区日本橋」だけであるので、検出対象テキストの「日本橋」を「東京中央区日本橋」と誤って判断してしまう。第1の実施形態によれば、このような誤判断が発生していない。
(B)第2の実施形態
次に、本発明による位置表現検出装置、プログラム、及び、記憶媒体の第2の実施形態を、図面を参照しながら詳述する。
(B−1)第2の実施形態の構成
図5は、第2の実施形態に係る位置表現検出装置100の機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一部分には同一符号を付して示している。
図5において、第2の実施形態の位置表現検出装置100は、機能的には、位置表現テーブル11、検出対象テキスト位置表現検出部12、検出対象テキスト特徴語抽出部13、比較対象テキスト件数取得部101、特徴語含有率計算部102及び特定位置表現出力部103を有する。
位置表現テーブル11、検出対象テキスト位置表現検出部12及び検出対象テキスト特徴語抽出部13は、第1の実施形態のものと同様なものである。
比較対象テキスト件数取得部101は、検出対象テキスト20に含まれている、曖昧性のある位置表現の曖昧性を解決するために、曖昧性のある位置表現に対して曖昧性を除外した位置表現候補について、以下の2種類の件数を取得するものである。比較対象テキスト件数取得部101は、第1に、各位置表現候補について、その位置表現候補の特定表現を含む比較対象テキストの件数(第1の件数)を取得する。比較対象テキスト件数取得部101は、第2に、各位置表現候補について、その位置表現候補の特定表現と検出対象テキストに係る特徴語とを共に含む比較対象テキストの件数(第2の件数)を取得する。
特徴語含有率計算部102は、比較対象テキスト件数取得部101で得られた第1及び第2の件数を用いて、各位置表現候補について、特徴語含有率を計算する部分である。
特定位置表現出力部103は、特徴語含有率計算部102で計算された、各位置表現候補についての特徴語含有率に基づいて、曖昧性を解決した位置表現を決定して出力する部分である。
第2の実施形態で新たに設けられた比較対象テキスト件数取得部101、特徴語含有率計算部102及び特定位置表現出力部103も、第1の実施形態の位置表現検出部12などと同様のハードウェア資源やソフトウェアで実現される。
(B−2)第2の実施形態の動作
次に、第2の実施形態に係る位置表現検出装置100の動作を、図面を参照しながら詳述する。ここで、図6は、位置表現検出装置100の動作を示すフローチャートである。また、図6は、与えられた検出対象テキスト20から検出されたある1個の位置表現についての処理を示しており、検出対象テキスト20に複数の位置表現が含まれている場合には、図6に示す処理が複数回実行される。
図6におけるステップS1〜S4及びS8の動作は、第1の実施形態と同様であるので、その説明を省略する。
ある位置表現についての特定位置表現の候補数が2つ以上の場合において、ある候補Xiが処理対象となると、まず、比較対象テキスト件数取得部101によって、上述した第1の件数と第2の件数とを取得する(S101、S102)。なお、第2の件数の取得は、第1の件数に係る比較対象テキストの中から得ることになる。
これら件数の取得時に用いる位置表現に係る情報は、検出対象テキスト20から検出された位置表現と、その候補Xiを表す文字列の中で、他の候補と区別できる文字列との組合せ(AND(論理積))である。比較対象テキスト件数取得部101は、位置表現テーブル11の格納内容に基づいて、他の候補と区別できる文字列を決定する。
「東京都中央区日本橋」が候補の場合には、検出された位置表現「日本橋」以外には、行政区画が小さい方から言えば、「中央区」と「東京都」とがある。「中央区」は他の候補「大阪府大阪市中央区日本橋」にも存在するので、件数の取得には利用できず、比較対象テキスト件数取得部101は、「東京都中央区日本橋」が候補の場合には「東京都 AND 日本橋」を第1及び第2の件数取得に用いる。なお、ルールを、「東京都中央区 AND 日本橋」を第1及び第2の件数取得に用いるように定めても良い。
また、「大阪府大阪市浪速区日本橋」が候補の場合には、検出された位置表現「日本橋」以外には、行政区画が小さい方から言えば、「浪速区」と「大阪市」と「大阪府」とがある。検出された位置表現「日本橋」のすぐ上の行政区画「浪速区」は、他の候補と区別できるので、比較対象テキスト件数取得部101は、「大阪府大阪市浪速区日本橋」が候補の場合には、「浪速区 AND 日本橋」を第1及び第2の件数取得に用いる。
さらに、「大阪府大阪市中央区日本橋」が候補の場合には、検出された位置表現「日本橋」以外には、行政区画が小さい方から言えば、「中央区」と「大阪市」と「大阪府」とがある。「中央区」と「大阪市」と「大阪府」は単独ではいずれも、他の候補と区別できない。そこで、行政区画が小さい方から、複数の行政区画表記をマージしたものの中から、他の候補と区別できるものを定める。その結果、比較対象テキスト件数取得部101は、「大阪府大阪市中央区日本橋」が候補の場合には、「大阪市中央区 AND 日本橋」を第1及び第2の件数取得に用いる。
なお、ステップS101の処理で、候補表記そのものを含む比較対象テキストの件数(第1の件数)を取得するようにしても良い。
ステップS102における第2の件数の取得では、検索対象テキスト20の特徴語も、第1の件数取得で用いた条件に加えて、検索式に含める。
特徴語が複数ある場合には、(1)いずれか1個だけ用いて件数取得を行っても良く(特徴語か否かを判定する評価値が最も高いものを選定する)、(2)また、複数の特徴語を全て含む比較対象テキストを1件とカウントするようにしても良く、(3)さらに、複数の特徴語を1つでも含む比較対象テキストを1件とカウントするようにしても良い。検索対象テキスト20の特徴語が「メイド喫茶」、「萌々」、「パソコン」である場合には、第1の方法では、「メイド喫茶」、「萌々」、「パソコン」のうちの1個の特徴語(例えば、「メイド喫茶」)が件数取得に用いられ、第2の方法では、「メイド喫茶」、「萌々」、「パソコン」を全て含む比較対象テキストがカウントされ、第3の方法では、「メイド喫茶」、「萌々」、「パソコン」のいずれか1個でも含む比較対象テキストがカウントされる。
第1及び第2の件数が取得されると、特徴語含有率計算部102において、両方の件数を用いて特徴語含有率が求められる(S103)。特徴語含有率を求める関数は任意であるが、例えば、単純に、(第2の件数)÷(第1の件数)で特徴語含有率を求めようにしても良い。
例えば、「東京都中央区日本橋」が候補の場合において、「東京都 AND 日本橋」で取得した第1の件数が2410件で、「メイド喫茶」だけを特徴語として利用した「東京都 AND 日本橋 AND メイド喫茶」で取得した第2の件数が87件であれば、特徴語含有率は87÷2410=0.036となる。また例えば、「大阪府大阪市浪速区日本橋」が候補の場合において、「浪速区 AND 日本橋」で取得した第1の件数が450件で、「メイド喫茶」だけを特徴語として利用した「浪速区 AND 日本橋 AND メイド喫茶」で取得した第2の件数が36件であれば、特徴語含有率は36÷450=0.080となる。さらに例えば、「大阪府大阪市中央区日本橋」が候補の場合において、「大阪市中央区 AND 日本橋」で取得した第1の件数が610件で、「メイド喫茶」だけを特徴語として利用した「大阪市中央区 AND 日本橋 AND メイド喫茶」で取得した第2の件数が16件であれば、特徴語含有率は16÷610=0.026となる。
全ての候補について特徴語含有率が得られると、特定位置表現出力部103において、特徴語含有率が最も高い候補を、検出対象テキスト20に含まれている曖昧性のある位置表現の特定表記に決定して出力する(S104)。上述の例では、特徴語含有率が0.080の「大阪府大阪市浪速区日本橋」が最も高いため、検出対象テキスト20から検出された「日本橋」の位置表現は、「大阪府大阪市浪速区日本橋」であると特定する。
候補の中で、検出対象テキスト20から抽出された特徴語を含む割合が高いほど、検出対象テキスト20の位置表現と同じ位置に関する話題の比較対象テキストと判断でき、そのため、特徴語含有率が最も高い候補を、曖昧性のある位置表現の特定表記に決定することとした。
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と同様の効果が得られる。さらに、第2の実施形態によれば、比較対象テキストの解析処理が不要である。そのため、比較対象テキストを、インターネットの検索サイトなどで検索できるテキストとする場合などでは、処理が簡単であるため有効である。
(C)第3の実施形態
次に、本発明による位置表現検出装置、プログラム、及び、記憶媒体の第3の実施形態を、図面を参照しながら詳述する。
(C−1)第3の実施形態の構成
図7は、第3の実施形態に係る位置表現検出装置200の機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一部分には同一符号を付して示している。
図7において、第3の実施形態の位置表現検出装置200は、機能的には、位置表現・位置座標テーブル201、検出対象テキスト位置表現検出経度緯度取得部202、検出対象テキスト特徴語抽出部13、比較対象テキスト取得部203、比較対象テキスト位置表現検出経度緯度取得部204、比較対象テキスト距離計算部205及び特定位置表現出力部206を有する。
位置表現・経度緯度対応情報テーブル201は、例えば、図8に示すような、それぞれの位置における住所などの位置表現情報を都道府県、市部、区、町字などの単位でそれぞれの行に格納し、さらに、それぞれの行に対し、経度、緯度を格納したテーブルであり、HDD、ROM等の記憶デバイスを含むハードウェア資源で実現することができる。なお、経度緯度は座標によって位置を規定する情報として用いており、経度緯度に代え、他の座標系による表記を用いるようにしても良い。
検出対象テキスト位置表現検出経度緯度取得部202は、検出対象テキスト20から、位置表現の部分を検出し、さらに、その位置表現に係る経度緯度を位置表現・位置座標テーブル201から取得する部分である。
検出対象テキスト特徴語抽出部13は、第1の実施形態と同様に、検出対象テキスト20から、そのテキストの特徴を表している特徴語を抽出する部分である。
比較対象テキスト取得部203は、検出対象テキスト特徴語抽出部13が抽出した特徴語を含む比較対象テキストを取得する部分である。なお、第1の実施形態の比較対象テキスト取得部14が、曖昧性を除外可能な位置表現情報に基づいて、比較対象テキストを取得しているが、この第3の実施形態は、特徴語に基づいて取得している点で、第1の実施形態のものと異なっている。
比較対象テキスト位置表現検出経度緯度取得部204は、比較対象テキストに含まれる位置表現を抽出し、さらに、その位置表現に係る経度緯度を位置表現・位置座標テーブル201から取得する部分である。
比較対象テキスト距離計算部205は、検出対象テキスト20から検出された位置表現の特定候補の経度緯度と、比較対象テキストから得られた位置表現の経度緯度との距離を取得する部分である。
特定位置表現出力部206は、比較対象テキスト距離計算部205で計算された距離を用いて曖昧性を解決した位置表現を出力する部分である。
検出対象テキスト位置表現検出経度緯度取得部202、比較対象テキスト取得部203、比較対象テキスト位置表現検出経度緯度取得部204、比較対象テキスト距離計算部205及び特定位置表現出力部206も、第1の実施形態の位置表現検出部12などと同様のハードウェア資源やソフトウェアで実現される。
(C−2)第3の実施形態の動作
次に、第3の実施形態に係る位置表現検出装置200の動作を、図面を参照しながら詳述する。ここで、図9は、位置表現検出装置200の動作を示すフローチャートである。また、図9は、与えられた検出対象テキスト20から検出されたある1個の位置表現についての処理を示しており、検出対象テキスト20に複数の位置表現が含まれている場合には、図9に示す処理が複数回実行される。
検出対象テキスト20が与えられると、検出対象テキスト位置表現検出経度緯度取得部202によって、図8に示す位置表現・位置座標テーブル201を用いて解析し、位置表現の候補群Xと、その経度緯度を得る(S201)。
検出対象テキスト20が図4(A)に示すものであれば、「東京都中央区日本橋」、「大阪府大阪市浪速区日本橋」、「大阪府大阪市中央区日本橋」が候補として検出され、それぞれの経度緯度が取得される。
その後、候補数を確認し(S2)、候補がただ一つであるならば、直ちに該当候補を曖昧性のある位置表現の特定表記に決定して出力する(S206)。一方、候補が複数の場合には、検出対象テキスト20における特徴語を抽出する(S3)。
そして、比較対象テキスト取得部203によって、検出対象テキスト20の特徴語を含む比較対象テキストを取得する(S202)。ここで、取得する比較対象テキストは、全ての特徴語を含むものとしても良く、所定数以上の特徴語を含むものとしても良い。また、条件を満たす比較対象テキストを全て抽出するようにしても良く、当該ステップS202及び後述するステップS203を繰り返し、曖昧性のない位置表現を含む比較対象テキストの数が所定数となるまで順次抽出を行うようにしても良い。
例えば、検出対象テキスト20の特徴語が「メイド喫茶」、「萌々」、「パソコン」の場合において、2つ以上の特徴語を含む比較対象テキストを取得する場合であれば、図4(C)に示す比較対象テキストが取得され、1つ以上の特徴語を含む比較対象テキストを取得する場合であれば、図4(C)及び図4(D)に示す2つの比較対象テキストが取得される。
その後、比較対象テキスト位置表現検出経度緯度取得部204によって、取得された比較対象テキストの中から、曖昧性のない位置表現を抽出し、抽出した位置表現の経度緯度を取得する(S204)。ここで、曖昧性のない位置表現の粒度が粗い場合(都道府県名や市名、区名までしか記述されていない場合など)は、代表点の経度緯度や、該当範囲の中心(厚みのない外形形状の重心位置)の経度緯度などを取得する。粒度が粗い位置表現の経度緯度も、図8に示す位置表現・位置座標テーブル201に記述しておいて経度緯度を取得するようにしても良く、また、例えば、インターネット上でサービスされている住所を経度緯度に変換するサービスを用いて粒度が粗い位置表現の経度緯度を取得するようにしても良い。
例えば、比較対象テキストが図4(C)に示すものであれば、「大阪市浪速区」が位置表現として抽出され、「大阪市浪速区」の経度緯度が取得される。
次に、比較対象テキスト距離計算部205によって、検出対象テキスト20の位置表現に係る特定位置の各候補ついて、その経度緯度と、比較対象テキストの位置表現の経度緯度との距離を求める(S205)。
上述した例であれば、「東京都中央区日本橋」、「大阪府大阪市浪速区日本橋」、「大阪府大阪市中央区日本橋」のそれぞれの経度緯度と、比較対象テキスト内の位置表現「大阪市浪速区」の経度緯度との距離が求められる。
そして、特定位置表現出力部103において、距離が最も短い候補を、検出対象テキスト20に含まれている曖昧性のある位置表現の特定表記に決定して出力する(S206)。上述の例では、比較対象テキスト内の位置表現「大阪市浪速区」の経度緯度との距離が最も短いのは、候補「大阪府大阪市浪速区日本橋」の経度緯度であるので、検出対象テキスト20から検出された「日本橋」の位置表現は、「大阪府大阪市浪速区日本橋」であると特定する。
(C−3)第3の実施形態の効果
第3の実施形態によれば、第1の実施形態と同様の効果が得られる。さらに、第3の実施形態によれば、候補と同じ位置表現が比較対象テキストに存在しなくとも、同じ特徴語が含まれる近隣若しくは包括的な位置表現を有する比較対象テキストがあれば、曖昧性のある位置表現の位置を特定することができる。
(D)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態では、位置表現が住所表記に関係する場合を示したが、本発明の住所表記はこれに限定されない。例えば、全国に存在する水族館の正式名称などをテーブルに記述しておき、検出対象テキストの「水族館」という位置表現を、特定するような場合にも本発明を適用することができる。この場合、取得する特徴語は、特徴語となり得る一覧情報を記憶しておくことにより、海獣や珍魚の名前などに制限するようにしても良い。
上記第1〜第3の実施形態の技術思想(曖昧性のある位置表現の特定方法)を、2つ若しくは3つ組み合わせて適用するようにしても良い。
例えば、第2の実施形態、第1の実施形態、第3の実施形態の方法を順に適用するようにし、第2の実施形態の方法によって、曖昧性のある位置表現の特定表記を決定できない場合(1番目及び2番目の特徴語含有率がほぼ等しい場合)に、第1の実施形態の方法を適用することとし、第1の実施形態の方法によっても、曖昧性のある位置表現の特定表記を決定できない場合(1番目及び2番目の一致度が等しい場合)に、第3の実施形態の方法を適用することとするようにしても良い。
また例えば、第1〜第3の実施形態の方法をパラレルに実行させた後、それらの処理結果を統合して、最終的に、曖昧性のある位置表現の特定表記を決定するようにしても良い。第1の実施形態における一致度A、第2の実施形態における特徴語含有率B、第3の実施形態における距離Cを反映させた評価値(例えば、A、B、Cの重み付け加算値)を算出し、この評価値によって、曖昧性のある位置表現の特定表記を決定するようにしても良い。
第1の実施形態に係る位置表現検出装置の機能的構成を示すブロック図である。 第1の実施形態における位置表現テーブルの構成例を示す説明図である。 第1の実施形態に係る位置表現検出装置の動作を示すフローチャートである。 第1の実施形態に係る位置表現検出装置の動作説明に用いる検出対象テキスト及び比較対象テキストの例を示す説明図である。 第2の実施形態に係る位置表現検出装置の機能的構成を示すブロック図である。 第2の実施形態に係る位置表現検出装置の動作を示すフローチャートである。 第3の実施形態に係る位置表現検出装置の機能的構成を示すブロック図である。 第3の実施形態における位置表現テーブルの構成例を示す説明図である。 第3の実施形態に係る位置表現検出装置の動作を示すフローチャートである。
符号の説明
10、100、200…位置表現検出装置、11…位置表現テーブル、12…検出対象テキスト位置表現検出部、13…検出対象テキスト特徴語抽出部、14…比較対象テキスト取得部、15…比較対象テキスト特徴語抽出部、16…特徴語一致度計算部、17…特定位置表現出力部、20…検出対象テキスト、30…特定位置表現、101…比較対象テキスト件数取得部、102…特徴語含有率計算部、103…特定位置表現出力部、201…位置表現・位置座標テーブル、202…検出対象テキスト位置表現検出経度緯度取得部、203…比較対象テキスト取得部、204…比較対象テキスト位置表現検出経度緯度取得部、205…比較対象テキスト距離計算部、206…特定位置表現出力部。

Claims (3)

  1. 検出対象テキスト中に含まれる位置表現を抽出し、抽出した位置表現が複数の候補地をもつ場合に、そのいずれかに決定する位置表現検出装置であって、
    各種テキスト中に存在し得る位置表現と、その位置表現が規定し得る位置との対応を記憶した位置表現情報記憶部と、
    上記位置表現情報記憶部の記憶内容を参照し、上記検出対象テキストから位置表現を抽出し、抽出した位置表現が複数の候補地を有するか否かを判別する位置表現抽出部と、
    上記検出対象テキストにおける特徴語を抽出する検出対象テキスト特徴語抽出部と、
    上記候補地若しくは上記特徴語の少なくとも一方を利用し、検出対象テキストの比較対象となる比較対象テキストを検索する比較対象テキスト検索部と、
    検索された比較対象テキストに関する情報に基づいて、抽出した位置表現が複数の候補地をもつ場合に、そのいずれかに決定する位置表現特定部とを有し、
    上記検出対象テキスト特徴語抽出部、上記比較対象テキスト検索部及び上記位置表現特定部は、少なくとも抽出した位置表現が複数の候補地をもつ場合に機能するものであり、
    上記位置表現情報記憶部は、位置表現が規定し得る位置の座標情報も記憶しているものであり、
    上記位置表現抽出部は、各候補地の座標情報をも取得するものであり、
    上記比較対象テキスト検索部は、上記検出対象テキストにおける特徴語を含む上記比較対象テキストを取得するものであり、
    上記位置表現特定部は、
    上記位置表現情報記憶部の記憶内容を参照し、上記比較対象テキストにおける曖昧性がない位置表現及びその位置表現の座標情報を得る比較対象テキスト内位置表現抽出部と、
    上記各候補地のそれぞれについて、その座標情報と、上記比較対象テキスト内の位置情報に係る座標情報との距離を求める距離計算部と、
    距離が最も短い候補地に、上記検出対象テキスト中に含まれる位置表現の位置を特定する距離判定出力部とを有する
    ことを特徴とする位置表現検出装置。
  2. 検出対象テキスト中に含まれる位置表現を抽出し、抽出した位置表現が複数の候補地をもつ場合に、そのいずれかに決定するための位置表現検出プログラムであって、
    コンピュータを、
    各種テキスト中に存在し得る位置表現と、その位置表現が規定し得る位置との対応並びに位置表現が規定し得る位置の座標情報を記憶した位置表現情報記憶部と、
    上記位置表現情報記憶部の記憶内容を参照し、上記検出対象テキストから位置表現並びに座標情報を抽出し、抽出した位置表現が複数の候補地を有するか否かを判別する位置表現抽出部と、
    上記検出対象テキストにおける特徴語を抽出する検出対象テキスト特徴語抽出部と、
    記特徴語を利用し、検出対象テキストの比較対象となる比較対象テキストを検索する比較対象テキスト検索部と、
    上記位置表現情報記憶部の記憶内容を参照し、上記比較対象テキストにおける曖昧性がない位置表現及びその位置表現の座標情報を得る比較対象テキスト内位置表現抽出部と、上記各候補地のそれぞれについて、その座標情報と、上記比較対象テキスト内の位置情報に係る座標情報との距離を求める距離計算部と、距離が最も短い候補地に、上記検出対象テキスト中に含まれる位置表現の位置を特定する距離判定出力部とを有し、抽出した位置表現が複数の候補地をもつ場合に、そのいずれかに決定する位置表現特定部と
    して機能させることを特徴とする位置表現検出プログラム。
  3. 請求項に記載の位置表現検出プログラムを記憶した、コンピュータ読み取り可能な記憶媒体。
JP2007280286A 2007-10-29 2007-10-29 位置表現検出装置、プログラム、及び、記憶媒体 Active JP5315664B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007280286A JP5315664B2 (ja) 2007-10-29 2007-10-29 位置表現検出装置、プログラム、及び、記憶媒体
US12/230,977 US20090112537A1 (en) 2007-10-29 2008-09-09 Location expression detection device and computer readable medium
EP08163927A EP2058744A1 (en) 2007-10-29 2008-09-09 Location expression detection device, program, and computer readable medium
CNA2008101493316A CN101425071A (zh) 2007-10-29 2008-09-19 位置描述检测装置、程序以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007280286A JP5315664B2 (ja) 2007-10-29 2007-10-29 位置表現検出装置、プログラム、及び、記憶媒体

Publications (2)

Publication Number Publication Date
JP2009110159A JP2009110159A (ja) 2009-05-21
JP5315664B2 true JP5315664B2 (ja) 2013-10-16

Family

ID=40328498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007280286A Active JP5315664B2 (ja) 2007-10-29 2007-10-29 位置表現検出装置、プログラム、及び、記憶媒体

Country Status (4)

Country Link
US (1) US20090112537A1 (ja)
EP (1) EP2058744A1 (ja)
JP (1) JP5315664B2 (ja)
CN (1) CN101425071A (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8628542B2 (en) 2005-05-20 2014-01-14 Neotract, Inc. Median lobe destruction apparatus and method
US7758594B2 (en) 2005-05-20 2010-07-20 Neotract, Inc. Devices, systems and methods for treating benign prostatic hyperplasia and other conditions
US8425535B2 (en) 2005-05-20 2013-04-23 Neotract, Inc. Multi-actuating trigger anchor delivery system
US10925587B2 (en) 2005-05-20 2021-02-23 Neotract, Inc. Anchor delivery system
US10195014B2 (en) 2005-05-20 2019-02-05 Neotract, Inc. Devices, systems and methods for treating benign prostatic hyperplasia and other conditions
US9504461B2 (en) 2005-05-20 2016-11-29 Neotract, Inc. Anchor delivery system
US8603106B2 (en) 2005-05-20 2013-12-10 Neotract, Inc. Integrated handle assembly for anchor delivery system
US7645286B2 (en) 2005-05-20 2010-01-12 Neotract, Inc. Devices, systems and methods for retracting, lifting, compressing, supporting or repositioning tissues or anatomical structures
US9549739B2 (en) 2005-05-20 2017-01-24 Neotract, Inc. Devices, systems and methods for treating benign prostatic hyperplasia and other conditions
US8668705B2 (en) 2005-05-20 2014-03-11 Neotract, Inc. Latching anchor device
US8945152B2 (en) 2005-05-20 2015-02-03 Neotract, Inc. Multi-actuating trigger anchor delivery system
US8285716B1 (en) * 2009-12-21 2012-10-09 Google Inc. Identifying and ranking digital resources relating to places
US9161749B2 (en) 2011-04-14 2015-10-20 Neotract, Inc. Method and apparatus for treating sexual dysfunction
US10292801B2 (en) 2012-03-29 2019-05-21 Neotract, Inc. System for delivering anchors for treating incontinence
US10130353B2 (en) 2012-06-29 2018-11-20 Neotract, Inc. Flexible system for delivering an anchor
US9674649B2 (en) 2013-01-14 2017-06-06 Qualcomm Incorporated Methods and apparatus for providing location information with private expressions
CN106570130B (zh) * 2016-10-27 2019-10-01 厦门市美亚柏科信息股份有限公司 基于rdf知识库的文本地域判断方法及其系统
EP4218632B1 (en) 2017-12-23 2024-10-30 Teleflex Life Sciences LLC Expandable tissue engagement apparatus
US12440301B2 (en) 2018-11-07 2025-10-14 Teleflex Life Sciences Llc System for delivery of a fiducial marker
CN111428497A (zh) * 2020-03-31 2020-07-17 卓尔智联(武汉)研究院有限公司 一种自动抽取出资信息的方法、装置及设备
US12167842B2 (en) 2020-08-03 2024-12-17 Teleflex Life Sciences Llc Handle and cartridge system for medical interventions

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2575788B2 (ja) * 1988-03-30 1997-01-29 富士通株式会社 住所入力方法
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JP2002024264A (ja) * 2000-06-30 2002-01-25 Sanyo Electric Co Ltd 情報検索装置
JP4200645B2 (ja) * 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
JP2005025678A (ja) 2003-07-03 2005-01-27 Koichi Wada 火災感知器

Also Published As

Publication number Publication date
CN101425071A (zh) 2009-05-06
EP2058744A1 (en) 2009-05-13
US20090112537A1 (en) 2009-04-30
JP2009110159A (ja) 2009-05-21

Similar Documents

Publication Publication Date Title
JP5315664B2 (ja) 位置表現検出装置、プログラム、及び、記憶媒体
Han et al. A stacking-based approach to twitter user geolocation prediction
Smith et al. Bootstrapping toponym classifiers
US8429204B2 (en) Short point-of-interest title generation
CN107203526B (zh) 一种查询串语义需求分析方法及装置
AU2019290018B2 (en) Computer implemented system and method for geographic subject extraction for short text
CN107491537A (zh) Poi数据挖掘、信息检索方法、装置、设备及介质
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN110046637A (zh) 一种合同段落标注模型的训练方法、装置及设备
CN108959609B (zh) 店铺地址的更新方法及装置
JP5587281B2 (ja) 注記表記変換装置、注記表記変換方法および注記表記変換プログラム
CN113626536B (zh) 一种基于深度学习的新闻地理编码方法
US20220065654A1 (en) System and method for prediction of geo-coordinates for a geographical element
JP2007249322A (ja) 文書視覚化装置及び文書視覚化プログラム
CN111914538A (zh) 一种航道通告信息智能空间匹配方法及系统
CN111814643B (zh) 黑灰url识别方法、装置、电子设备及介质
JP6106070B2 (ja) 地名推定方法、地名推定装置及び地名推定プログラム
Koswatte et al. Semantic location extraction from crowdsourced data
CN115994538A (zh) 一种实体抽取方法、装置、设备和介质
JP4510780B2 (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
Farzana et al. Towards a Scalable Geoparsing Approach for the Web
JP2008090334A (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
Yu High accuracy postal address extraction from web pages
US9495359B1 (en) Textual geographical location processing
Sukaiti et al. Unveiling GeoX Posts: Advancing Spatial and Temporal Inference from Social Media Narratives

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130624

R150 Certificate of patent or registration of utility model

Ref document number: 5315664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150