JP2022532451A - 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 - Google Patents

百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 Download PDF

Info

Publication number
JP2022532451A
JP2022532451A JP2022504557A JP2022504557A JP2022532451A JP 2022532451 A JP2022532451 A JP 2022532451A JP 2022504557 A JP2022504557 A JP 2022504557A JP 2022504557 A JP2022504557 A JP 2022504557A JP 2022532451 A JP2022532451 A JP 2022532451A
Authority
JP
Japan
Prior art keywords
place
place name
name
word
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022504557A
Other languages
English (en)
Other versions
JP7228946B2 (ja
Inventor
雪英 張
春菊 張
玉冰 陳
陳 汪
凱 張
Original Assignee
南京師範大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南京師範大学 filed Critical 南京師範大学
Publication of JP2022532451A publication Critical patent/JP2022532451A/ja
Application granted granted Critical
Publication of JP7228946B2 publication Critical patent/JP7228946B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法において、予め訓練された単語の埋め込みモデルを生成すること、Bi-LSTMとCRFとが集積した地名識別モデルを生成すること、曖昧性を解消するべき地名が所在する文書における地名を識別し単語の埋め込みを表示すること、曖昧性を有する地名字義名称及びその字義内容を取得すること、曖昧性を有する地名字義内容における地名を識別し、単語の埋め込みを表示すること、曖昧性を有する地名が所在する文書における地名リスト単語の埋め込みと、曖昧性を有する地名字義内容における地名リストの単語の埋め込みについて類似度を算出すること、曖昧性を有する地名の字義について頻度を統計すること、曖昧性を有する地名が最も指す可能な地理位置を総合的に評価することを含む。上述の方法により、位置サービスに同一の地名が複数の地理位置に対応する可能性があり、また、同一の位置が複数の記述名称を有する可能性があるという問題を効果的に解決し、「インターネット+」という時代の背景に、文書記述の地名が散在し分布して離々たる場合に極めて適合され、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどの急なニーズが満たされる。

Description

本発明は、特に、百科知識ベースと単語の埋め込みに基づく中国語地名の語義曖昧性解消方法に関する。
地名は、人々が宇宙に特定する地理実体に与えたコードであり、特定する地理実体と他の地理実体を区別するための標識である。地名は、社会に最もよく使われる公共の情報の一つとして、地理空間情報における重要な組み合わせ部分に該当しており、地理情報デジタル製品にとって不可欠な情報であり、また、大衆に最も受けられやすい位置決めの形態である。特に、現在、世界は、遍在情報社会とビッグデータの時代(出典:李徳仁、2012;Goodchild、2017;林琿、2018)に入っている。位置についてのビッグデータは、ビッグデータにおける重要な構成部分となり、世界上、80%の情報が位置と関連するものである(出典:劉経南、2014)。文書は、人々が最もよく使う自然言語であり、遍在地理のビッグデータソースの典型的な代表である。文書における地名は、位置情報の重要な構成部分であり、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどを実現するための鍵である。
文書における地名の記述は、曖昧性という現象を有しており、同じの地名が複数の地理位置に対応する可能性があり、同じのアドレスが複数の記述名称を有する可能性もある(出典:Buscaldi、2008;Leidner、2008)。例えば、「鼓楼区」という地名は、南京市鼓楼区、徐州市鼓楼区、北京市鼓楼区や福州市鼓楼区などに対応可能である。しかしながら、精度が高く、網羅率が高く、しかも、人類の認知に合致する地名データは、LBSの高効率サービスを実現するための前提や保証である。現在、地名の曖昧性を解消する方法は、以下の四つの方法に帰納され得る。(1)認知試験法は、ランドマークによるアンケート調査とサポートベクター回帰方法を設計することにより、各ランドマークが「曖昧性の地名」に該当する所属度を特定する(出典:劉瑜、2008)。(2)地名辞典と地理本体の概念の類別との間の語義情報により、地名の曖昧性を解消する。当該方法は、簡単で実行され易いと共に、曖昧性を有する地名に対する推し量ることが可能であるが、地名辞典の規模とカバレッジに制限され、正確率が高くない(出典:杜萍、2012)。(3)地名を記述するコンテキスト情報を用いて、コーパスのコンテキストにおいて地名の確率重みを算出し、又は、曖昧性を有する地名について行政仕組みの木構造図を構築し、木構造のロバスト性に基づいて曖昧性を有する地名の空間語義を判断する(出典:唐旭日、2010;王宇、2012)。地名実体が互いに違って混在し、空間情報の粒度の大きさがばらばらであり、詳しい名前を付かない地名が大量に存在するということに鑑み、地理的関連度により算出を行い、辞典と規則モデルを組み合わせた位置情報消岐と融合方法を補助的に用いることにより、位置情報を自然言語による表現から構造化や規範化の形式まで効果的に転換することができる(出典:余麗、2015;馬雷雷、2016;王星光、2017)。(4)興味のあるポイント(POI)などインターネットデータを用いて、自己適応カーネル密度のファジィ集合の方法に基づいて、場所の範囲に対する自動化抽出を構築し、都市の場所をさらに理解する曖昧な認知範囲に、可視化の解決的手段を与える(出典:王聖音、2018)。しかしながら、上記の方法は、文書記述に地名が比較的に集中する場合に適用されるが、現在、「インターネット+」という時代の背景において、文書記述に地名が散在し分布して離々たる場合に適用されない。文書記述における地名の語義情報、特に、地名における空間語義を正確に理解することは、現在、地名データベースの構築と社会的ニーズとの間の矛盾を効果的に解決して、地理位置サービスや地理情報検索の技術等などを満たすための急なニーズとなる。
本発明は、位置サービスにおいて同一の地名が複数の地理位置に対応する可能性があり、また、同一位置が複数の記述名称を有する可能性があるという問題を解決して、「インターネット+」という時代の背景において、文書記述に地名が散在し分布して離々たる場合に適用され、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどの急なニーズを満たすことができる、百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法を提供することを目的とする。
本発明は、上記した発明の目的を達成するために、以下の技術的手段を提供する。
百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法は、
オープンソースされる中国語のウィキペディアコーパスを用いて、Jiebaというツールにより切り出しを行い、Word2vecというツールを用いて訓練して、予め訓練された単語の埋め込みモデルを取得する第一ステップと、
地名記述コーパスを用いて、Bi-LSTMとCRFとが集積した地名識別モデルを訓練して、予め訓練された地名識別モデルを取得する第二ステップと、
Figure 2022532451000002
百科知識ベースに基づいて、曖昧性を有する地名を検索すると共に、ウェブクローラーの技術を用いて、百科内層のURLアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容を取得する第四ステップと、
Figure 2022532451000003
Figure 2022532451000004
Figure 2022532451000005
さらに、前記第二ステップには、具体的に、
中国大百科全書の中国地理コーパス及びマイクロソフトコーパスを含む、地名訓練コーパスを取得するステップー1と、
二つのコーパスを混ぜて、試験コーパスを、85%の訓練集合、8%の試験集合及び7%の検証集合という三つの部分に分けるステップー2と、
ステップー2における訓練コーパスをBi-LSTMにおける各タイムステップの入力として、入力層のセンテンスのシーケンスに転換して、次に、正方向LSTM隠れ出力シーケンスと逆方向LSTM隠れ入力シーケンスとを位置に従って継ぎ合せ、完全な隠れ出力シーケンスを取得して、コンテキストにおける語義記述の情報を十分に考慮して、特徴付きディープラーニングと表示を実現するステップー3と、
CRFモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終に予め訓練された地名識別モデルを取得するステップー4を含む。
さらに、前記第六ステップには、コサイン類似度の方法を用いて、曖昧性を解消するべき地名が所在する文書における地名リストと対応する単語の埋め込みと曖昧性を有する地名の各字義内容における地名リストと対応する単語の埋め込みの類似度を判断し、算出式は、
Figure 2022532451000006
Figure 2022532451000007
さらに、前記第七ステップには、字義頻度を算出する式は、
Figure 2022532451000008
Figure 2022532451000009
Figure 2022532451000010
本発明は、オンラインにリアルタイムで更新される百科知識ベースを用いて、Bi-LSTMとCRFとが集積したモデルにより、曖昧性を有する地名記述文書と字義内容の地名を識別しながら、単語の埋め込みを表示し、地名単語の埋め込みの類似度を算出し字義の頻度を統計するアルゴリズムを設計し、曖昧性を有する地名が最も指す可能な地理位置を総合的に評価し、位置サービスに同一の地名が複数の地理位置に対応する可能性があり、また、同一の位置が複数の記述名称を有する可能性があるという問題を効果的に解決し、「インターネット+」という時代の背景に、文書記述の地名が散在し分布して離々たる場合に極めて適合され、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどの急なニーズが満たされる、百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法を開示する。
本発明の実施例に係る方法のフローチャートである。 本発明の実施例に係るBi-LSTMとCRFとが集積した地名識別モデルの模式図である。 本発明の実施例に係る曖昧性を有する「人民路」という地名の例示図である。 本発明の実施例に係る予め訓練された単語の埋め込みモデルにおいて、一部の地名埋め込みを可視化させた結果の図である。 本発明の実施例に係る百科検索の字義及びその字義の内容を記述する図である。 本発明の実施例に係る「鼓楼区」という曖昧性を有する地名が最も指す可能な地理位置を判断する例示的フローチャートである。
以下、図面と実施例を参照しながら、本発明を詳しく説明する。
図1に示されるように、本発明の実施例が開示する百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法は、主に、地名を識別する技術と、曖昧性を有する地名の語義を判断することという二つの部分を含み、その基本的なステップは、以下の通りである。
第一ステップは、予め訓練された単語の埋め込みモデルの生成である。
オープンソースされる中国語のウィキペディアコーパスを用いて、Jiebaというツールにより切り出し、Word2vecというツールを用いて訓練し、予め訓練された単語の埋め込みモデルを取得する。
第二ステップは、Bi-LSTMとCRFとが集積した予め訓練された地名識別モデルの生成である。
Bi-LSTMモデルを基に、予め訓練された単語の埋め込みモデルと正則化の策略(dropout)を用いて、文書の特徴を可及的に取得し、CRFに基づいてセンテンスのシーケンス記述を予測する。具体的に、以下のことを含む。
ステップー1は、「中国大百科全書中国地理」のコーパス(単に地理百科コーパスと呼ばれ、http://www.geoip.com.cn:9004/ITIS/corpus.html)とマイクロソフトコーパスを含む、地名訓練コーパスを取得する。「中国大百科全書中国地理」のコーパスは、南京師範大学の仮想地理環境教育部重点試験室が構築した「中国語地名記述コーパス」(ほぼ118万字、人工記述10万個地名)であり、その地名の分布が比較的集合しており、記述が比較的強い規律性を有する。マイクロソフトコーパスは、ほぼ236万字であり、文書において地名実体の数が比較的少ないと共に分布が離々たり、均一でない一方、記述の形態が比較的自由である。
ステップー2は、二つのコーパスを混ぜ、試験コーパスを85%の訓練集合、8%の試験集合及び7%の検証集合という三つの部分に分ける。
ステップー3は、ステップー2における訓練コーパスをBi-LSTMにおける各タイムステップの入力として、入力層のセンテンスのシーケンス。
Figure 2022532451000011
ステップー4は、CRFモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終的に、性能が比較的良い予め訓練された地名識別モデルを取得する。
第三ステップは、曖昧性を解消するべき地名が所在する文書における地名の識別と単語の埋め込みの表示である。
Figure 2022532451000012
第四ステップは、曖昧性を有する地名字義の名称及びその字義内容の取得である。
百度百科知識ベースに基づいて、曖昧性を有する地名(例えば「人民路」)を検索しながら、ウェブクローラーの技術により、百科内層のURLアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容(つまり、各字義による記述的文書)を取得する。
第五ステップは、地名字義内容における地名の識別と単語の埋め込みの表示である。
Figure 2022532451000013
第六ステップは、曖昧性を有する地名の語義の判断である。
Figure 2022532451000014
Figure 2022532451000015
Figure 2022532451000016
ステップー2は、曖昧性を有する地名の字義頻度の統計である。
Figure 2022532451000017
式には、nは、第i個の字義名称の共起単語が、曖昧性を解消するべき文書に生成された地名リストQに現れた回数を示し、Mは、曖昧性を解消するべき文書から識別された地名の総数を示し、Nは、曖昧性を有する地名の字義名称の数を示す。
ステップー1は、曖昧性を有する地名が最も指す可能な地理位置の総合的な評価である。
Figure 2022532451000018
Figure 2022532451000019
本発明の効果を説明するためには、以下、具体的な適用例を参照しながら、本発明の実施例に係る方法をさらに説明する。曖昧性を有する地名「鼓楼区」については、「南京市の都市の中心であり、鼓楼区が国家に重要な科学技術創新センターと航運物流サービスセンターであり、国家東部地域の国際商業、金融、経済センター、華東地域高度産業及び本社企業集まり地域であり、南京の経済、文化及び教育のセンターであり、また、江蘇省委員会、省政府機構及び江蘇省軍区政治部の所在地であり、江蘇省の政治、文化、行政のセンターである」と、「福州市鼓楼区(昔、福州府▲みん▼県や侯官県であった)が福州市の市町村の西北部に位置しており、中国に、最初37個の国家サービス業総合的改革試行地区であり、福州市全体の経済、文化、政治中心及び現代金融サービス業センターであり、また、福州市の初等や中等の教育資源が最も豊か地区である。鼓楼区は、八▲みん▼における最も良い地域と呼ばれ、福建省の省政府と福州市の市政府の所在地である」という二つの段落による文書記述を例に挙げる。
(1)予め訓練された単語の埋め込みモデルの生成
オープンソースされる中国語ウィキペディアコーパスを用いて、Jiebaというツールにより切り出し、Word2vecというツールを用いて訓練して、予め訓練された単語の埋め込みモデルを取得する。Word2vecにおいては、訓練パラメータが表1に示され、予め訓練された単語の埋め込みモデルに、一部の地名埋め込みを可視化させ、可視化した結果を図4に示す。
表1 Word2vec訓練パラメータ
Figure 2022532451000020
Figure 2022532451000021
Figure 2022532451000022
(3)予め訓練された地名識別モデルを用いて、曖昧性を解消するべき文書における地名の全てを識別し、地名リストを形成し、つまり、「‘南京市’、‘華東地域’、‘南京’、‘江蘇省’」という地名リスト1と、「‘福州市’、‘福州府’、‘▲みん▼県’、‘侯官県’、‘福州市’、‘中国’、‘福州’、‘福州市’、‘福建省’、‘福州市’」という地名リスト2を取得する。上記した地名リストについて(1)における予め訓練された単語の埋め込みモデルを用いて表示し、単語の埋め込みVecQを取得する。
(4)百科知識ベースから、曖昧性を有する地名の字義名称及びその字義の内容の取得
「鼓楼区」という地名を入力し、ウェブページを解析することにより、「鼓楼区」という曖昧性を有する地名と対応する四文字の字義名称及びその字義内容を取得する。字義名称は、それぞれ、「‘南京市鼓楼区’、‘徐州市鼓楼区’、‘開封市鼓楼区’、‘福州市鼓楼区’」となり、バイドゥ百科を介して検索した字義及び当該字義の記述を図5に示す。
Figure 2022532451000023
表2 「鼓楼区」という曖昧性を有する地名の字義名称と字義内容の地名リスト
Figure 2022532451000024
Figure 2022532451000025
表3 単語の埋め込み類似度の算出結果
Figure 2022532451000026
表4 「鼓楼区」という曖昧性を有する地名における各個字義の分布頻度
Figure 2022532451000027
表5 「鼓楼区」という曖昧性を有する地名における最適な字義値の算出結果
Figure 2022532451000028
故に、「南京市の都市の中心であり、鼓楼区が国家に重要な科学技術創新センターと航運物流サービスセンターであり、国家東部地域の国際商業、金融、経済センター、華東地域高度産業及び本社企業集まり地域であり、南京の経済、文化及び教育のセンターであり、また、江蘇省委員会、省政府機構及び江蘇省軍区政治部の所在地であり、江蘇省の政治、文化、行政のセンターである」という段落によると、最適値は、南京市鼓楼区:0.7275825というものが最高となることから、係る鼓楼区が、南京市に所属される鼓楼区となる。
また、「福州市鼓楼区(昔、福州府▲みん▼県や侯官県であった)が福州市の市町村の西北部に位置しており、中国に、最初37個の国家サービス業総合的改革試行地区であり、福州市全体の経済、文化、政治中心及び現代金融サービス業センターであり、また、福州市の初等、中等教育資源が最も豊か地区である。鼓楼区は、八▲みん▼における最も良い地域と呼ばれ、福建省の省政府と福州市の市政府の所在地である」という段落によると、福州市の鼓楼区:0.741367というものが最高となることから、係る鼓楼区が福州市の鼓楼区となる。

Claims (5)

  1. オープンソースされる中国語ウィキペディアコーパスを用いて、Jiebaというツールにより切り出し、Word2vecというツールを用いて訓練し、予め訓練された単語の埋め込みモデルを取得する第一ステップと、
    地名記述コーパスを用いて、Bi-LSTMとCRFが集積した地名識別モデル訓練をして、予め訓練された地名識別モデルを取得する第二ステップと、
    Figure 2022532451000029
    百科知識ベースに基づいて、曖昧性を有する地名を検索し、ウェブクローラーの技術を用いて百科内層のURLアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容を取得する第四ステップと、
    Figure 2022532451000030
    Figure 2022532451000031
    Figure 2022532451000032
  2. 前記第二ステップには、具体的に、
    地理百科コーパスとマイクロソフトコーパスを含む、地名訓練コーパスを取得するステップ1と、
    二つのコーパスを混ぜ、試験コーパスを、85%の訓練集合、8%の試験集合及び7%の検証集合という三つの部分に分けるステップ2と、
    ステップ2における訓練コーパスをBi-LSTMにおける各個タイムステップの入力として、入力層のセンテンスのシーケンスに転換して、次に、正方向LSTM隠れ出力シーケンスと逆方向LSTM隠れ入力シーケンスとを位置に従って継ぎ合せ、完全な隠れ出力シーケンスを取得して、コンテキストにおける語義記述の情報を十分に考慮して、特徴付きディープラーニングと表示を実現するステップ3と、
    CRFモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終に予め訓練された地名識別モデルを取得するステップ4を含む、ことを特徴とする請求項1に記載の百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法。
  3. 前記第六ステップには、コサイン類似度の方法を用いて、曖昧性を解消するべき地名が所在する文書における地名リストと対応する単語の埋め込みと、曖昧性を有する地名の各字義内容における地名リストと対応する単語の埋め込みの類似度を判断し、算出式は、
    Figure 2022532451000033
  4. 前記第七ステップには、字義頻度を算出する式は、
    Figure 2022532451000034
  5. Figure 2022532451000035
JP2022504557A 2019-10-28 2020-04-22 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 Active JP7228946B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911029961.4A CN110781670B (zh) 2019-10-28 2019-10-28 基于百科知识库和词向量的中文地名语义消歧方法
CN201911029961.4 2019-10-28
PCT/CN2020/086173 WO2021082370A1 (zh) 2019-10-28 2020-04-22 基于百科知识库和词向量的中文地名语义消歧方法

Publications (2)

Publication Number Publication Date
JP2022532451A true JP2022532451A (ja) 2022-07-14
JP7228946B2 JP7228946B2 (ja) 2023-02-27

Family

ID=69386882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022504557A Active JP7228946B2 (ja) 2019-10-28 2020-04-22 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法

Country Status (3)

Country Link
JP (1) JP7228946B2 (ja)
CN (1) CN110781670B (ja)
WO (1) WO2021082370A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法
CN111428482B (zh) * 2020-03-26 2023-11-24 北京明略软件系统有限公司 一种信息识别方法和装置
CN111797628B (zh) * 2020-06-03 2024-03-08 武汉理工大学 一种基于时间地理学的游记地名消歧方法
CN112257443B (zh) * 2020-09-30 2024-04-02 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN113822057B (zh) * 2021-08-06 2022-10-18 北京百度网讯科技有限公司 地点信息确定方法、装置、电子设备以及存储介质
CN114742029B (zh) * 2022-04-20 2022-12-16 中国传媒大学 一种汉语文本比对方法、存储介质及设备
CN117610579B (zh) * 2024-01-19 2024-04-16 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076642A (ja) * 2011-01-21 2011-04-14 Nec Corp 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置
JP2017191357A (ja) * 2016-04-11 2017-10-19 株式会社Nttドコモ 単語判定装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108572960A (zh) * 2017-03-08 2018-09-25 富士通株式会社 地名消岐方法和地名消岐装置
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
US20190251122A1 (en) * 2018-02-13 2019-08-15 Oracle International Corporation Toponym disambiguation
CN110134956A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于blstm-crf的地名组织名识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984318B2 (en) * 2016-06-15 2021-04-20 University Of Ulsan Foundation For Industry Cooperation Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108446269B (zh) * 2018-03-05 2021-11-23 昆明理工大学 一种基于词向量的词义消歧方法及装置
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076642A (ja) * 2011-01-21 2011-04-14 Nec Corp 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置
JP2017191357A (ja) * 2016-04-11 2017-10-19 株式会社Nttドコモ 単語判定装置
CN108572960A (zh) * 2017-03-08 2018-09-25 富士通株式会社 地名消岐方法和地名消岐装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
US20190251122A1 (en) * 2018-02-13 2019-08-15 Oracle International Corporation Toponym disambiguation
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN110134956A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于blstm-crf的地名组织名识别方法

Also Published As

Publication number Publication date
JP7228946B2 (ja) 2023-02-27
WO2021082370A1 (zh) 2021-05-06
CN110781670A (zh) 2020-02-11
CN110781670B (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
JP2022532451A (ja) 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
Marine-Roig et al. Tourism analytics with massive user-generated content: A case study of Barcelona
Derungs et al. From text to landscape: locating, identifying and mapping the use of landscape features in a Swiss Alpine corpus
Gao et al. Newsviews: an automated pipeline for creating custom geovisualizations for news
Ju et al. Things and strings: improving place name disambiguation from short texts by combining entity co-occurrence with topic modeling
Martins et al. Extracting and exploring the geo-temporal semantics of textual resources
Alex et al. Geoparsing historical and contemporary literary text set in the City of Edinburgh
Rayson et al. A deeply annotated testbed for geographical text analysis: The corpus of lake district writing
Hamzei et al. Place questions and human-generated answers: A data analysis approach
Moncla et al. Automated geoparsing of paris street names in 19th century novels
Davies Reading geography between the lines: extracting local place knowledge from text
Yzaguirre et al. Newspaper archives+ text mining= rich sources of historical geo-spatial data
Clough et al. Linking archival data to location: a case study at the UK National Archives
Moncla et al. Mapping urban fingerprints of odonyms automatically extracted from French novels
Zhu et al. Get into the spirit of a location by mining user-generated travelogues
Chang et al. Enhancing POI search on maps via online address extraction and associated information segmentation
Varga et al. Integrating dbpedia and sentiwordnet for a tourism recommender system
Bui Automatic construction of POI address lists at city streets from geo-tagged photos and web data: a case study of San Jose City
Liu et al. Construction of a high-precision general geographical location words dataset
Irie et al. Resources for Place Name Analysis.
Efremova et al. A geo-tagging framework for address extraction from web pages
Frontini et al. Annotation of toponyms in TEI digital literary editions and linking to the web of data
Wang et al. Construction of bilingual knowledge graph based on meteorological simulation
Li et al. A Chinese geographic knowledge base for GIR
Khruahong et al. Ontology design for Thailand travel industry

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220121

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230207

R150 Certificate of patent or registration of utility model

Ref document number: 7228946

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150