JP7228946B2

JP7228946B2 - 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法

Info

Publication number: JP7228946B2
Application number: JP2022504557A
Authority: JP
Inventors: 雪英張; 春菊張; 玉冰陳; 陳汪; 凱張
Original assignee: 南京師範大学
Priority date: 2019-10-28
Filing date: 2020-04-22
Publication date: 2023-02-27
Anticipated expiration: 2040-04-22
Also published as: CN110781670B; WO2021082370A1; JP2022532451A; CN110781670A

Description

本発明は、特に、百科知識ベースと単語の埋め込みに基づく中国語地名の語義曖昧性解消方法に関する。

地名は、人々が宇宙に特定する地理実体に与えたコードであり、特定する地理実体と他の地理実体を区別するための標識である。地名は、社会に最もよく使われる公共の情報の一つとして、地理空間情報における重要な組み合わせ部分に該当しており、地理情報デジタル製品にとって不可欠な情報であり、また、大衆に最も受けられやすい位置決めの形態である。特に、現在、世界は、遍在情報社会とビッグデータの時代（出典：李徳仁、２０１２；Ｇｏｏｄｃｈｉｌｄ、２０１７；林琿、２０１８）に入っている。位置についてのビッグデータは、ビッグデータにおける重要な構成部分となり、世界上、８０％の情報が位置と関連するものである（出典：劉経南、２０１４）。文書は、人々が最もよく使う自然言語であり、遍在地理のビッグデータソースの典型的な代表である。文書における地名は、位置情報の重要な構成部分であり、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどを実現するための鍵である。

文書における地名の記述は、曖昧性という現象を有しており、同じの地名が複数の地理位置に対応する可能性があり、同じのアドレスが複数の記述名称を有する可能性もある（出典：Ｂｕｓｃａｌｄｉ、２００８；Ｌｅｉｄｎｅｒ、２００８）。例えば、「鼓楼区」という地名は、南京市鼓楼区、徐州市鼓楼区、北京市鼓楼区や福州市鼓楼区などに対応可能である。しかしながら、精度が高く、網羅率が高く、しかも、人類の認知に合致する地名データは、ＬＢＳの高効率サービスを実現するための前提や保証である。現在、地名の曖昧性を解消する方法は、以下の四つの方法に帰納され得る。（１）認知試験法は、ランドマークによるアンケート調査とサポートベクター回帰方法を設計することにより、各ランドマークが「曖昧性の地名」に該当する所属度を特定する（出典：劉瑜、２００８）。（２）地名辞典と地理本体の概念の類別との間の語義情報により、地名の曖昧性を解消する。当該方法は、簡単で実行され易いと共に、曖昧性を有する地名に対する推し量ることが可能であるが、地名辞典の規模とカバレッジに制限され、正確率が高くない（出典：杜萍、２０１２）。（３）地名を記述するコンテキスト情報を用いて、コーパスのコンテキストにおいて地名の確率重みを算出し、又は、曖昧性を有する地名について行政仕組みの木構造図を構築し、木構造のロバスト性に基づいて曖昧性を有する地名の空間語義を判断する（出典：唐旭日、２０１０；王宇、２０１２）。地名実体が互いに違って混在し、空間情報の粒度の大きさがばらばらであり、詳しい名前を付かない地名が大量に存在するということに鑑み、地理的関連度により算出を行い、辞典と規則モデルを組み合わせた位置情報消岐と融合方法を補助的に用いることにより、位置情報を自然言語による表現から構造化や規範化の形式まで効果的に転換することができる（出典：余麗、２０１５；馬雷雷、２０１６；王星光、２０１７）。（４）興味のあるポイント（ＰＯＩ）などインターネットデータを用いて、自己適応カーネル密度のファジィ集合の方法に基づいて、場所の範囲に対する自動化抽出を構築し、都市の場所をさらに理解する曖昧な認知範囲に、可視化の解決的手段を与える（出典：王聖音、２０１８）。しかしながら、上記の方法は、文書記述に地名が比較的に集中する場合に適用されるが、現在、「インターネット＋」という時代の背景において、文書記述に地名が散在し分布して離々たる場合に適用されない。文書記述における地名の語義情報、特に、地名における空間語義を正確に理解することは、現在、地名データベースの構築と社会的ニーズとの間の矛盾を効果的に解決して、地理位置サービスや地理情報検索の技術等などを満たすための急なニーズとなる。

本発明は、位置サービスにおいて同一の地名が複数の地理位置に対応する可能性があり、また、同一位置が複数の記述名称を有する可能性があるという問題を解決して、「インターネット＋」という時代の背景において、文書記述に地名が散在し分布して離々たる場合に適用され、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどの急なニーズを満たすことができる、百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法を提供することを目的とする。

本発明は、上記した発明の目的を達成するために、以下の技術的手段を提供する。
百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法は、
オープンソースされる中国語のウィキペディアコーパスを用いて、Ｊｉｅｂａというツールにより切り出しを行い、Ｗｏｒｄ２ｖｅｃというツールを用いて訓練して、予め訓練された単語の埋め込みモデルを取得する第一ステップと、
地名記述コーパスを用いて、Ｂｉ－ＬＳＴＭとＣＲＦとが集積した地名識別モデルを訓練して、予め訓練された地名識別モデルを取得する第二ステップと、

百科知識ベースに基づいて、曖昧性を有する地名を検索すると共に、ウェブクローラーの技術を用いて、百科内層のＵＲＬアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容を取得する第四ステップと、

さらに、前記第二ステップには、具体的に、
中国大百科全書の中国地理コーパス及びマイクロソフトコーパスを含む、地名訓練コーパスを取得するステップー１と、
二つのコーパスを混ぜて、試験コーパスを、８５％の訓練集合、８％の試験集合及び７％の検証集合という三つの部分に分けるステップー２と、
ステップー２における訓練コーパスをＢｉ－ＬＳＴＭにおける各タイムステップの入力として、入力層のセンテンスのシーケンスに転換して、次に、正方向ＬＳＴＭ隠れ出力シーケンスと逆方向ＬＳＴＭ隠れ入力シーケンスとを位置に従って継ぎ合せ、完全な隠れ出力シーケンスを取得して、コンテキストにおける語義記述の情報を十分に考慮して、特徴付きディープラーニングと表示を実現するステップー３と、
ＣＲＦモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終に予め訓練された地名識別モデルを取得するステップー４を含む。

さらに、前記第六ステップには、コサイン類似度の方法を用いて、曖昧性を解消するべき地名が所在する文書における地名リストと対応する単語の埋め込みと曖昧性を有する地名の各字義内容における地名リストと対応する単語の埋め込みの類似度を判断し、算出式は、

さらに、前記第七ステップには、字義頻度を算出する式は、

本発明は、オンラインにリアルタイムで更新される百科知識ベースを用いて、Ｂｉ－ＬＳＴＭとＣＲＦとが集積したモデルにより、曖昧性を有する地名記述文書と字義内容の地名を識別しながら、単語の埋め込みを表示し、地名単語の埋め込みの類似度を算出し字義の頻度を統計するアルゴリズムを設計し、曖昧性を有する地名が最も指す可能な地理位置を総合的に評価し、位置サービスに同一の地名が複数の地理位置に対応する可能性があり、また、同一の位置が複数の記述名称を有する可能性があるという問題を効果的に解決し、「インターネット＋」という時代の背景に、文書記述の地名が散在し分布して離々たる場合に極めて適合され、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどの急なニーズが満たされる、百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法を開示する。

本発明の実施例に係る方法のフローチャートである。本発明の実施例に係るＢｉ－ＬＳＴＭとＣＲＦとが集積した地名識別モデルの模式図である。本発明の実施例に係る曖昧性を有する「人民路」という地名の例示図である。本発明の実施例に係る予め訓練された単語の埋め込みモデルにおいて、一部の地名埋め込みを可視化させた結果の図である。本発明の実施例に係る百科検索の字義及びその字義の内容を記述する図である。本発明の実施例に係る「鼓楼区」という曖昧性を有する地名が最も指す可能な地理位置を判断する例示的フローチャートである。

以下、図面と実施例を参照しながら、本発明を詳しく説明する。

図１に示されるように、本発明の実施例が開示する百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法は、主に、地名を識別する技術と、曖昧性を有する地名の語義を判断することという二つの部分を含み、その基本的なステップは、以下の通りである。

第一ステップは、予め訓練された単語の埋め込みモデルの生成である。

オープンソースされる中国語のウィキペディアコーパスを用いて、Ｊｉｅｂａというツールにより切り出し、Ｗｏｒｄ２ｖｅｃというツールを用いて訓練し、予め訓練された単語の埋め込みモデルを取得する。

第二ステップは、Ｂｉ－ＬＳＴＭとＣＲＦとが集積した予め訓練された地名識別モデルの生成である。

Ｂｉ－ＬＳＴＭモデルを基に、予め訓練された単語の埋め込みモデルと正則化の策略（ｄｒｏｐｏｕｔ）を用いて、文書の特徴を可及的に取得し、ＣＲＦに基づいてセンテンスのシーケンス記述を予測する。具体的に、以下のことを含む。

ステップー１は、「中国大百科全書中国地理」のコーパス（単に地理百科コーパスと呼ばれ、ｈｔｔｐ：／／ｗｗｗ．ｇｅｏｉｐ．ｃｏｍ．ｃｎ：９００４／ＩＴＩＳ／ｃｏｒｐｕｓ．ｈｔｍｌ）とマイクロソフトコーパスを含む、地名訓練コーパスを取得する。「中国大百科全書中国地理」のコーパスは、南京師範大学の仮想地理環境教育部重点試験室が構築した「中国語地名記述コーパス」（ほぼ１１８万字、人工記述１０万個地名）であり、その地名の分布が比較的集合しており、記述が比較的強い規律性を有する。マイクロソフトコーパスは、ほぼ２３６万字であり、文書において地名実体の数が比較的少ないと共に分布が離々たり、均一でない一方、記述の形態が比較的自由である。

ステップー２は、二つのコーパスを混ぜ、試験コーパスを８５％の訓練集合、８％の試験集合及び７％の検証集合という三つの部分に分ける。

ステップー３は、ステップー２における訓練コーパスをＢｉ－ＬＳＴＭにおける各タイムステップの入力として、入力層のセンテンスのシーケンス。

ステップー４は、ＣＲＦモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終的に、性能が比較的良い予め訓練された地名識別モデルを取得する。

第三ステップは、曖昧性を解消するべき地名が所在する文書における地名の識別と単語の埋め込みの表示である。

第四ステップは、曖昧性を有する地名字義の名称及びその字義内容の取得である。

百度百科知識ベースに基づいて、曖昧性を有する地名（例えば「人民路」）を検索しながら、ウェブクローラーの技術により、百科内層のＵＲＬアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容（つまり、各字義による記述的文書）を取得する。

第五ステップは、地名字義内容における地名の識別と単語の埋め込みの表示である。

第六ステップは、曖昧性を有する地名の語義の判断である。

ステップー２は、曖昧性を有する地名の字義頻度の統計である。

式には、ｎ_ｉは、第ｉ個の字義名称の共起単語が、曖昧性を解消するべき文書に生成された地名リストＱに現れた回数を示し、Ｍは、曖昧性を解消するべき文書から識別された地名の総数を示し、Ｎは、曖昧性を有する地名の字義名称の数を示す。

ステップー１は、曖昧性を有する地名が最も指す可能な地理位置の総合的な評価である。

本発明の効果を説明するためには、以下、具体的な適用例を参照しながら、本発明の実施例に係る方法をさらに説明する。曖昧性を有する地名「鼓楼区」については、「南京市の都市の中心であり、鼓楼区が国家に重要な科学技術創新センターと航運物流サービスセンターであり、国家東部地域の国際商業、金融、経済センター、華東地域高度産業及び本社企業集まり地域であり、南京の経済、文化及び教育のセンターであり、また、江蘇省委員会、省政府機構及び江蘇省軍区政治部の所在地であり、江蘇省の政治、文化、行政のセンターである」と、「福州市鼓楼区（昔、福州府▲みん▼県や侯官県であった）が福州市の市町村の西北部に位置しており、中国に、最初３７個の国家サービス業総合的改革試行地区であり、福州市全体の経済、文化、政治中心及び現代金融サービス業センターであり、また、福州市の初等や中等の教育資源が最も豊か地区である。鼓楼区は、八▲みん▼における最も良い地域と呼ばれ、福建省の省政府と福州市の市政府の所在地である」という二つの段落による文書記述を例に挙げる。

（１）予め訓練された単語の埋め込みモデルの生成
オープンソースされる中国語ウィキペディアコーパスを用いて、Ｊｉｅｂａというツールにより切り出し、Ｗｏｒｄ２ｖｅｃというツールを用いて訓練して、予め訓練された単語の埋め込みモデルを取得する。Ｗｏｒｄ２ｖｅｃにおいては、訓練パラメータが表１に示され、予め訓練された単語の埋め込みモデルに、一部の地名埋め込みを可視化させ、可視化した結果を図４に示す。

表１Ｗｏｒｄ２ｖｅｃ訓練パラメータ

（３）予め訓練された地名識別モデルを用いて、曖昧性を解消するべき文書における地名の全てを識別し、地名リストを形成し、つまり、「‘南京市’、‘華東地域’、‘南京’、‘江蘇省’」という地名リスト１と、「‘福州市’、‘福州府’、‘▲みん▼県’、‘侯官県’、‘福州市’、‘中国’、‘福州’、‘福州市’、‘福建省’、‘福州市’」という地名リスト２を取得する。上記した地名リストについて（１）における予め訓練された単語の埋め込みモデルを用いて表示し、単語の埋め込みVec_Qを取得する。

（４）百科知識ベースから、曖昧性を有する地名の字義名称及びその字義の内容の取得
「鼓楼区」という地名を入力し、ウェブページを解析することにより、「鼓楼区」という曖昧性を有する地名と対応する四文字の字義名称及びその字義内容を取得する。字義名称は、それぞれ、「‘南京市鼓楼区’、‘徐州市鼓楼区’、‘開封市鼓楼区’、‘福州市鼓楼区’」となり、バイドゥ百科を介して検索した字義及び当該字義の記述を図５に示す。

表２「鼓楼区」という曖昧性を有する地名の字義名称と字義内容の地名リスト

表３単語の埋め込み類似度の算出結果

表４「鼓楼区」という曖昧性を有する地名における各個字義の分布頻度

表５「鼓楼区」という曖昧性を有する地名における最適な字義値の算出結果

故に、「南京市の都市の中心であり、鼓楼区が国家に重要な科学技術創新センターと航運物流サービスセンターであり、国家東部地域の国際商業、金融、経済センター、華東地域高度産業及び本社企業集まり地域であり、南京の経済、文化及び教育のセンターであり、また、江蘇省委員会、省政府機構及び江蘇省軍区政治部の所在地であり、江蘇省の政治、文化、行政のセンターである」という段落によると、最適値は、南京市鼓楼区：０．７２７５８２５というものが最高となることから、係る鼓楼区が、南京市に所属される鼓楼区となる。

また、「福州市鼓楼区（昔、福州府▲みん▼県や侯官県であった）が福州市の市町村の西北部に位置しており、中国に、最初３７個の国家サービス業総合的改革試行地区であり、福州市全体の経済、文化、政治中心及び現代金融サービス業センターであり、また、福州市の初等、中等教育資源が最も豊か地区である。鼓楼区は、八▲みん▼における最も良い地域と呼ばれ、福建省の省政府と福州市の市政府の所在地である」という段落によると、福州市の鼓楼区：０．７４１３６７というものが最高となることから、係る鼓楼区が福州市の鼓楼区となる。

Claims

コンピュータにより、以下のステップを実行することにより、百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性を解消する方法であって、前記ステップは、
オープンソースされる中国語ウィキペディアコーパスを用いて、Ｊｉｅｂａというツールにより切り出し、Ｗｏｒｄ２ｖｅｃというツールを用いて訓練し、予め訓練された単語の埋め込みモデルを取得する第一ステップと、
地名記述コーパスを用いて、Ｂｉ－ＬＳＴＭとＣＲＦが集積した地名識別モデル訓練をして、予め訓練された地名識別モデルを取得する第二ステップと、

百科知識ベースに基づいて、曖昧性を有する地名を検索し、ウェブクローラーの技術を用いて百科内層のＵＲＬアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容を取得する第四ステップと、
前記第二ステップには、具体的に、
地理百科コーパスとマイクロソフトコーパスを含む、地名訓練コーパスを取得するステップ１と、
二つのコーパスを混ぜ、試験コーパスを、８５％の訓練集合、８％の試験集合及び７％の検証集合という三つの部分に分けるステップ２と、
ステップ２における訓練コーパスをＢｉ－ＬＳＴＭにおける各個タイムステップの入力として、入力層のセンテンスのシーケンスに転換して、次に、正方向ＬＳＴＭ隠れ出力シーケンスと逆方向ＬＳＴＭ隠れ入力シーケンスとを位置に従って継ぎ合せ、完全な隠れ出力シーケンスを取得して、コンテキストにおける語義記述の情報を十分に考慮して、特徴付きディープラーニングと表示を実現するステップ３と、
ＣＲＦモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終に予め訓練された地名識別モデルを取得するステップ４を含む、ことを特徴とする請求項1に記載の百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法。
前記第六ステップには、コサイン類似度の方法を用いて、曖昧性を解消するべき地名が所在する文書における地名リストと対応する単語の埋め込みと、曖昧性を有する地名の各字義内容における地名リストと対応する単語の埋め込みの類似度を判断し、算出式は、
前記第七ステップには、字義頻度を算出する式は、