JP2023502827A - 地理知識取得方法 - Google Patents

地理知識取得方法 Download PDF

Info

Publication number
JP2023502827A
JP2023502827A JP2022505247A JP2022505247A JP2023502827A JP 2023502827 A JP2023502827 A JP 2023502827A JP 2022505247 A JP2022505247 A JP 2022505247A JP 2022505247 A JP2022505247 A JP 2022505247A JP 2023502827 A JP2023502827 A JP 2023502827A
Authority
JP
Japan
Prior art keywords
geographic
knowledge
information
map
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022505247A
Other languages
English (en)
Other versions
JP7468929B2 (ja
Inventor
雪英 張
益鵬 王
鵬 叶
Original Assignee
南京師範大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南京師範大学 filed Critical 南京師範大学
Publication of JP2023502827A publication Critical patent/JP2023502827A/ja
Application granted granted Critical
Publication of JP7468929B2 publication Critical patent/JP7468929B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、従来の地理知識取得方法で知識グラフの方法の欠けを補うことができ、本質的に、地理情報サービスが知能化し、社会化し、大衆化するように促進し、ひいては、地理情報の科学理論と適用の発展を促進することができる、地理知識取得方法を提供することを目的とする。本発明は、地理知識の由来を分析し、得られた前記地理知識の由来を自然言語と図形言語との二つの類別に分ける第一ステップと、取得された前記地理知識について特徴を分析し概念をモデリングする第二ステップと、少なくとも地理実体の識別、特徴情報の抽出及び前記地理実体と前記特徴情報との関連付けを含む、取得された前記地理知識について地理情報を抽出する第三ステップと、地理知識グラフを生成する第四ステップを含む、地理知識取得方法を開示する。

Description

本発明は、知識グラフを取得する技術分野、特に、地理知識の取得方法に関する。
知識グラフ(Knowledge Graph)は、本質的に、客観世界における概念、実体及びその相関関係を表現するための、大型のセマンティックネットワークに該当する。グーグルは、2012年、知識グラフに基づくセマンティック検索エンジンを開発し、インターネットにおいて文字列による検索から物事や内容による検索までの飛躍的な発展を促進してきた。その後、知識グラフは、速やかに、学術界や産業界から注目を幅広く浴びている。現在、知識グラフは、人間の思惟方法に良く近接することから、コンピューターの世界において、情報と知識を表現する効果的な媒体を構築し、人工知能を適用する重要なインフラストラクチャーとなり、セマンティックによる検索、知能による回答、予測・策定などの分野においてより大きな役割と価値を果たしている。
地理知識は、人間が地理の物事や現象の空間分布、進行過程又は相互作用の規律を認知する結果である。自然言語(例えば文書、音声等)と図形言語(例えば、地図、原理図、リモートセンシングの映像やビデオ等)は、地理知識を記録して広げるための主な媒体の形である。地理知識グラフは、地理の概念、実体又はその相関関係を形式的に表現する知識システムであり、構造化した体系的かつ根深い地理知識を供給でき、地理知識の理解、地理学での問題の求解、時空の予測や策定などの分野において、幅広い適用の見通しが存在している。
現在、地理知識グラフは、次第に、地理情報科学分野において研究の焦点となるが、概念を探究する段階や初期に試験する段階に位置しており、如何にして、実際の適用場面における文書や図形の情報を人々に受けられやすい地理知識グラフに転換できるかについての方法がまだ存在しない。
上記した従来の地理知識を取得する方法に存在する欠陥に鑑み、本発明者らが、長い年月にわたってこのような製品を設計して制造する仕事に従事することにより積んだリッチな実務経験及び専門知識に基づいて、学理上の応用を参照しながら、積極的に研究して創新することにより、よい良い実用性を備えた新たな地理知識取得方法を開発するように努力している。絶え間なく研究したり、設計したりすると共に、繰り返して試作したり改良したりすることにより、実用の価値を的確に有する新たな本発明がようやく開発されてきている。
本発明は、従来の地理知識の取得方法において知識グラフの方法の欠けを補うことができ、本質的に、地理情報サービスを知能化し、社会化し、大衆化するように促進し、ひいては、地理情報についての科学理論と適用の発展を促進することができる、地理知識取得方法を提供することを目的とする。
本発明は、上記した目的を達成するように、以下の技術的手段を提供する。
地理知識取得方法は、
地理知識の由来を分析し、得られた前記地理知識の由来を自然言語と図形言語との二つの類別に分ける第一ステップと、
取得された前記地理知識について特徴を分析して概念をモデリングする第二ステップと、
地理実体の識別、特徴情報の抽出及び前記地理実体と前記特徴情報との関連付けを少なくとも含む、取得された前記地理知識について地理情報を抽出する第三ステップと、
地理知識グラフを生成する第四ステップを含む。
好ましい技術的手段としては、前記第一ステップにおける前記自然言語は、少なくとも文書を含む。
前記文書における地理知識の取得には、時間情報の抽出、地理実体の識別、属性情報の抽出、地理実体関係の抽出、事件情報の抽出が少なくとも含まれる。
好ましい技術的手段としては、前記図形言語に少なくとも地図が含まれており、畳み込みニューラルネットワークを用いて前記地図における情報を抽出する。
好ましい技術的手段としては、畳み込みニューラルネットワークを用いて前記地図における情報を抽出することは、
地図情報アノテーションサンプルデータベースを構築するステップS1と、
前記地図における情報を自動識別するステップS2と、
地図符号と文書注記参照情報に基づいて、ディープ畳み込みニューラルネットワークモデルを構築して、地理実体の識別、及び、特徴情報と相関関係の抽出を実現する、ステップS3を含む。
好ましい技術的手段としては、前記ステップS1に、地図における地理情報のアノテーション内容とアノテーション規範を規定し、異なる類型、異なる内容及び異なる編成のフォーマットを有する地図雛型を選択し、前記地図情報アノテーションサンプルデータベースを構築する。
好ましい技術的手段としては、前記ステップS2に、地図学の理論に基づいて、地図における補助要素、追加説明、図形・画像要素の規則モデル、設計アルゴリズムを作成し、前記地図における情報の自動識別を実現する。
好ましい技術的手段としては、前記文書及地図における情報を統合し、
1)、地理知識の粒度と階級が一致でないという問題を解決するように、統一の概念類別体系に従って、前記文書と前記地図に表現される地理知識について概念をマッピングすること、
2)、文書と地図における地理実体の指す多義と類義の問題を解決するように、地理実体類型、文書類似度及び属性特徴に基づいて、各概念等級の地理実体リンクを作成すること、
3)、地理実体を手段として、衝突検測及び/又は真値発見技術を用いて、前記文書と前記地図における前記地理実体の関連特徴情報を処理し、この処理に、重複排除、関連付け及び合弁のうちのいずれかの一つが少なくとも含まれること、
4)、地理実体関係の拘束規則集合を構築し、前記文書及び前記地図における地理概念、インスタンス及び特徴の関連関係を再構成する、ことを含む。
好ましい技術的手段としては、前記第四ステップにおける前記地理知識グラフが畳み込みニューラルネットワーク技術に基づくものであり、
I、前記文書及び前記地図から取得された地理知識スニペットについて、地理知識表示モデルにおける知識手段構成及びその関係を参照しながら、地理知識サブグラフを構築すること、
II、時空特徴による拘束で、各グループにある前記知識サブグラフについてノードをリンクすること、
III、モデル反復と規範化処理を介して、単一の地理実体における異なる状態と関係を判断してから、時間変化と空間変化の順番に従って、地理実体の状態の転換過程を出力すること、
IV、異なる地理実体間及び異なる地理特徴間の相関関係を判断し、異なる粒度と異なる等級による地理知識グラフを生成する、を含む。
上記した技術的手段を採用することにより、以下のような技術的効果を実現することができる。
1、地理知識グラフは、言語学、人工知能及び地理情報科学などの境界領域に研究されている課題が焦点化している。本発明では、関連する学科分野における先駆的研究成果を組み合わせることにより、地理知識グラフの分野における基礎的な理論問題を解決して、共通性を有する基盤技術を提示することができ、地理表示モデル、ディープラーニングに基づく地理知識の取得及び地理知識グラフ生成方法を提示することができる。
2、本発明では、地理学により回答された基本的問題から出発して、地理知識の内包と外延について概括と抽象を行いながら、「時空をフレームワークとして地理実体をカーネルとする」という地理知識表示モデルを提出して、「地理データ-地理情報-地理知識」という転換にサポートを理論的に与えることができる。
3、言語学、地理情報科学、地図学及び人工知能などの関連学科に存在している理論と方法を総合的に用いて、文書と地図をデータソースとして、ディープラーニングモデルに基づく地理知識の取得及び地理知識グラフの生成方法を提供して、地理知識グラフを体系的、知能的及び工程的に構築するということにサポートを技術的に与えることができる。
地理知識グラフの雛型である。 地図における地理知識を取得する技術の流れの模式図である。 地図における地理知識の一部のアノテーションの雛型である。 実施例に係る「マンクット」の台風の経路の地図である。 実施例に係る地理知識サブグラフの模式図である。 実施例に係る地理知識サブグラフのリンクを予測する模式図である。 実施例に係る地理知識グラフの生成結果の雛型である。
本発明に係る目的を達成するための、本発明の採用する技術的手段及び効果をさらに説明するためには、本発明の提出する地理知識取得方法を、その具体的な実施形態、特徴及びその効果に基づいて、以下のように詳しく説明する。
本発明の開示する地理知識取得方法は、
地理知識の由来を分析し、得られた地理知識の由来を自然言語と図形言語との二つの類別に分ける、第一ステップと、
取得された地理知識について特徴を分析して概念をモデリングする第二ステップと、
地理実体の識別、特徴情報の抽出及び地理実体と特徴情報との関連付けを少なくとも含む、取得された地理知識について地理情報を抽出する第三ステップと、
地理知識グラフを生成する第四ステップを含む。
コンピューターによる環境では、地理知識を、コンピューターに受けられる符号及び記憶可能な構成として表現することが必要である。情報の世界では、地理知識の主体対象となる「地理現象又は事物」を地理実体として抽象し、それが有する各種の特徴を時間、空間、属性、状態や関係などの情報として抽象する。地理実体は、客観世界に、特定する空間範囲、形態、過程、関係及び属性を有する地理現象又は物事を人間が記載して表現できる実体化の抽象である。故に、地理実体は、コンピューターにおいて、地理知識で表示される主体の対象と中核要素である。
本発明では、知識グラフが、<実体、属性、関係>という統一のトリプルを用いて、実体/概念をノードとして関係を辺とする、セマンティックネットワークに基づく知識図の構成を作成することにより、知識の取得、知識の融合及び知識の引き出しが操作可能性や計算可能性に著しい優位性を有している。知識グラフは、知識のシステムであり、統一の形で、知識の定義(Schema)と知識のインスタンス(Instance)との二つレベルの知識を表示する。
図1は、地理知識グラフを示す雛型であり、ただし、トリプル「首都(中国、北京)」については、「首都」が関係であり、「中国」が首部の実体であり、「北京」が尾部の実体であり、各実体にさらに人口、面積、経度及び緯度などの属性情報を含む。上記した知識を表現する形は、主に、以下の二つの理由で、地理知識グラフに適用できない。まず、時空間の特徴をモデリングすることがない。次に、地理知識における特定の時空特徴と地学の構造特徴を表現できない。本質的に、知識は、事物の所在する状態及びその変化規律を主体が表現するものである。故に、通用の知識グラフでも、特定分野に係る地理知識グラフでも、時間と空間が知識を記載して表現するための基本的なフレームワークと中核視点とされるべきである。また、従来の知識グラフにおける「実体」とは、区別可能でありしかも独立して存在するある事物であり、属性値は、特定する概念と実体の属性に対応する。この「実体」は、地理知識により記載して表現された地理の現象や事物に直接的に対応しないということは、明らかである。本発明は、従来の知識グラフトリプルを基に、「時空をフレームワーク、地理実体をカーネルとする」地理知識表示モデルを構築する。具体的に、地理知識は、<時間、空間、属性、行為、状態、過程、関係、操作>というオクテットを用いて、地理実体の特徴を記載して表現し、それぞれ、異なる粒度と異なる等級を備えた地理知識のセマンティック手段を構成する。
好ましい技術的手段としては、第一ステップにおける自然言語は、少なくとも文書を含む。
文書における地理知識の取得には、少なくとも、時間情報の抽出、地理実体の識別、属性情報の抽出、地理実体関係の抽出、事件情報の抽出が含まれており、ただし、時間情報は、明示的な時間情報と潜在的な時間情報に分けられてもよい。
また、明示的な時間情報とは、例えば2018年等、比較的明確な概念を有している通用時間の表現であり、潜在的な時間とは、例えば、「地震があった場合」など、セマンティックに隠されている情報であって、固定の語彙規則を有さないものである。明示的な時間情報の文書に特徴が比較的明らかであり、専用時間の名詞の数が多くなく、規則モデル、最大エントロピーによる類別器、条件付き確率場、パターンマッチングなどのいずれかを用いると、明示的な時間情報を抽出することができる。潜在的な時間情報を抽出することは、まず、浅いセマンティックの構成から、時間語彙を抽出する文法の規則を規定し、次に、機械学習モデルに、長い距離かつコンテキストの依頼となる情報を表現する特徴を追加するという二つの段階に分けられてもよい。
地名は、自然言語において地理実体について主な表現の形であり、研究によると、70%程度の文書に地名の情報が含まれていると分かる。地名の識別とは、コンピューターにより文書から地名名称を取得することを意味しており、主に、規則モデルによる方法と機械学習モデルによる方法が採用されており、前者は、主に、地名を表現する言語表現規則をまとめることにより地名を識別し、実現がされ易く、正確性が高い利点を有する一方、比較的に、地名辞書の完全性によることから、新たな地名の識別とセマンティックの多様性の問題を解決できない。後者は、アノテーションコーパスが訓練と試験のデータであり、一般的に、隠れマルコフモデル、サポートベクターマシン、最大エントロピー、条件付き確率場などのモデルが採用される。研究によると、条件付き確率場の性能が比較的良いと共に、地名特徴字とコンテキスト特徴などの知識ベースにより、地名を識別する効果を高めるのに役立つことが分かる。近年では、畳み込みニューラルネットワーク、ディープビリーフネットワークなどのディープラーニング方法は、徐々に、地名を識別することに適してきている。
属性は、実体に係るある特徴を表記するものであり、属性値は、属性に与えた特定値である。属性を抽出することは、実体と関連する属性の類型及びその属性値を取得することが必要であり、価値が付くセマンティック手段を発見する重要な手段である。現在、地理属性情報を抽出する方法は、主に、本体セマンティックによる方法、規則マッチングによる方法、及び、教師ありラーニング方法と教師なしラーニング方法という三つの方法がある。文書から抽出された属性情報は、さらに、属性値を標準化にする必要もある。まず、地理学の分野内における指導的標準又は使用定例を参照して、統一する表現のフォーマットに転換する。次に、知識ベース法、コーパス法及び共起頻度法を用いて、類似度の大きさにより、同じ属性への類似表現をまとめる。
地理実体関係を抽出することは、文書から二つの地理実体間に存在しているセマンティック関係を識別するということであり、主に、以下の三つのことに集中している。1)時間関係は、論理的に、「同じ」、「重複的」、「その前」などの13個の時間関係が定義されている。時間は、自然的に順番付き概念であり、その自体が導出と計算の能力を有することから、常識に従って関連規則を規定すると、文書中時間関係の情報を抽出して計算することができる。2)空間関係の表現が人間の言語による基本的な機能であることから、各言語は、それぞれ、完全的に空間関係を表現する語彙の体系を有している。空間関係語彙は、一般的に、人工による帰納及びBootstrapping法が採用されており、句法のモードについて、序列対比方法を用いて、クラスタリングと汎発化を行うことができる。空間関係のアノテーションコーパスを構築することは、複雑な体系的プロジェクトであり、それに対するアノテーションの品質とデータの規模が空間関係の抽出にとって、決定的な役割を有する。現在、空間関係を抽出することは、主に、規則モデルと機械学習モデルを組み合わせた方法を採用し、通常の場合に、方向関係と距離関係を抽出する性能が、明らかに、トポロジー関係のほうよりも良い。3)セマンティック関係を抽出することは、主に、教師ありラーニング方法、半教師ありラーニング方法及び教師なしラーニング方法が含まれる。なお、外部から分野に関係しない実体知識ベース(例えばDBPedia、YAGO、OpenCyc、FreeBaseなど)を介して、高い品質である実体関係インスタンスを大規模の文書にマッピングすることにより、大幅に、実体セマンティック関係を抽出する性能を高めることができる。
事件情報を抽出することは、事件情報を含んだ文書を構造化の形で表現するということであり、事件の主題情報を探すのみならず、時間、箇所、役割や行為などの関連属性を識別することも必要である。現在、事件情報を抽出することは、主に、最大エントロピー、サポートベクターマシン、条件付き確率場及びディープラーニング方法が採用される。
好ましい技術的手段としては、図形言語に少なくとも地図が含まれており、畳み込みニューラルネットワークを用いて地図における情報を抽出する。地図知識を取得する際に、地図における符号や注記について、内容と類型で、比較的良い交換性を有して処理対象の継続的変化に適用することが必要である。故に、本発明では、言語学と地図学の関連理論を介して、文法、セマンティック及び語用という三つのレベルから、規則モデルとディープラーニングモデルからなる地図に、地理知識の取得方法を研究し、具体的な技術の流れが図2に示される。
畳み込みニューラルネットワークは、畳み込み計算を含むと共にディープ構成を有するフィードフォワードニューラルネットワークの一つであり、ディープラーニングを行う代表的なアルゴリズムの一つであり、また、画像を識別する分野における中カーネルアルゴリズムでもあり、コンピューターによる視角、自然言語による処理、リモートセンシング科学、大気科学などの分野に幅広く適用されるものである。最も典型的な畳み込みニューラルネットワークは、入力層、畳み込み層、プーリング層、全結合層及び出力層からなる。そのうち、畳み込み層は、フィルタ操作により局所的特徴を取得し、各畳み込み層が異なる複数の畳み込みカーネルに対応するものであり、各畳み込みカーネルの抽出した特徴が、最初入力におけるある種類特徴と対応するものであり、プーリング層が特徴を集めて統計することにより、畳み込み層の出力した特徴ベクトルの次元を低下する。全結合層は、従来のニューラルネットワークにおける多層パーセプトロンの隠れ層に該当しており、つまり、直前層における各ニューロンがそれぞれ直後の層に繋がり、両層間におけるあらゆるニューロンが重みで接続されている。畳み込みニューラルネットワークは、教師あり学習(Supervised Learning)と教師なし学習を行うことが可能であり、地図符号の識別と情報の抽出に適用されてもよい。
好ましい技術的手段としては、畳み込みニューラルネットワークを用いて地図における情報を抽出することは、
地図情報アノテーションサンプルデータベースを構築するステップS1と、
地図における情報を自動識別するステップS2と、
地図符号と文書注記参照情報に基づいて、ディープ畳み込みニューラルネットワークモデルを構築し、地理実体の識別、特徴情報及び相関関係の抽出を実現するステップS3を含む。
好ましい技術的手段としては、ステップS1に、地図における地理情報のアノテーション内容とアノテーション規範を規定し、図3に示すように、異なる類型、異なる内容及び異なる編成形式を有する地図雛型を選択し、地図情報アノテーションサンプルデータベースを構築する。
好ましい技術的手段としては、ステップS2に、地図学の理論に基づいて、地図における補助要素、追加説明、図形・画像要素の規則モデル、設計アルゴリズムを作成し、地図における情報の自動識別を実現する。
好ましい技術的手段としては、文書及地図における情報を統合し、
1)、地理知識の粒度と階級が一致でないという問題を解決するように、統一の概念類別体系に従って、文書と地図に表現される地理知識について概念をマッピングすること、
2)、文書と地図における地理実体の指す多義と類義の問題を解決するように、地理実体類型、文書類似度及び属性特徴に基づいて、各概念等級の地理実体リンクを作成すること、
3)、地理実体を手段として、衝突検測及び/又は真値発見技術を用いて、文書と地図における地理実体の関連特徴情報を処理し、この処理に少なくとも重複排除、関連付け及び合弁のうちのいずれかの一つが少なくとも含まれること、
4)、地理実体関係の拘束規則集合を構築し、文書及び地図における地理概念、インスタンス及び特徴の関連関係を再構成する、ことを含む。
好ましい技術的手段としては、ステップ4における地理知識グラフが畳み込みニューラルネットワーク技術に基づくものであり、
I、文書及び地図から取得された地理知識スニペットについて、地理知識表示モデルにおける知識手段構成及びその関係を参照しながら、地理知識サブグラフを構築すること、
II、時空特徴拘束で、各グループ知識サブグラフについてノードをリンクすること、
III、モデル反復と規範化処理を介して、単一の地理実体の異なる状態と関係を判断してから、時間変化と空間変化の順番に従って、地理実体の状態転換過程を出力すること、
IV、異なる地理実体間及び異なる地理特徴間の相関関係を判断し、異なる粒度と異なる等級による地理知識グラフを生成することを含む。
以下には、具体的な実施例に基づいて、地理知識の取得とグラフの生成方法を模擬する。
実施例
<文書の雛型>
台風は、赤道北や国際日付変更線西に位置するアジア太平洋の国家や地域が熱帯低気圧について定めるレベルである。2018年9月7日20時、台風マンクット(Mangkhut)は、西北太平洋上に生成した。9月15日、台風マンクットは、フィリピンの北部に上陸した。15日18時、広東省洪水旱魃総指揮部は、台風への備えと応急応答についてIIレベルをIレベルに引き上げることにした。16日17時、広東台山海宴鎮に上陸した。上陸時、中心付近における最大の強さが14階級であり、中心の最低気圧が955ヘクトパスカルでした。2018年9月18日17時まで、台風マンクットは、広東、広西、海南、湖南、貴州の5省(地域)において、ほぼ300万人災害を受け、5人死亡、1人行方不明、160.1万人が、緊急避難のため移転と安置がされたということになった。応急応答の管理機構の担当者によると、台風マンクットにより、さらに、5省(地域)の1200余り棟の家が倒壊、800余り棟の家が厳重に破壊され、約3500棟の家が軽く破壊され、農作物の被災面積が174.4千ヘクタールとなり、ただし、無収穫となった面積が3.3千ヘクタールとなり、直接的な経済損失が52憶元となった。(注、緑色は時間情報、黄色は空間情報を示す。)
<地図の雛型>
図4は、東莞市の気象台が公表した「マンクット」の台風の路径の詳しい地図である。
以下に、当該実施例により、地理知識を取得する過程が以下の通りである。
図5に示されるように、文書と地図の雛型における地理の情報を抽出して整合してから、地理知識サブグラフを対応的に形成する。図6に示されるように、サブグラフ頂点と他のノードを参照しながら、知識手段における概念の類型と時空の特徴を表現し、畳み込みニューラルネットワークを用いてサブグラフについて頂点をリンクして予測する。図7に示されるように、サブグラフ頂点について、合弁や相関などの操作を介して、「マンクット」の台風の事件について知識グラフを生成する。故に、本発明が提示する地理知識グラフは、物事、事件及び現象からの異なる抽象等級による地理知識を表現でき、しかも、関連する特徴知識を異なる粒度で細分化させることから、常識性と専門性が付く地理知識を異なる利用者が適用するニーズを満たすことができる。
開示された実施例に係る上記の説明は、当業者が本発明を実現し又は使用するためのものである。これらの実施例について数多くの補正が当業者にとって明らかなものであり、本明細書に定義されている一般的な原理が、本発明の趣旨又は範囲を逸脱しない限り、他の実施例にも実現され得る。従って、本発明は、本明細書に開示されるこれらの実施例に限定されておらず、本明細書の開示する原理と新規性に合致する最も広い範囲に含まれる。

Claims (8)

  1. 地理知識の由来を分析し、得られた前記地理知識の由来を自然言語と図形言語との二つの類別に分ける第一ステップ、
    取得された前記地理知識について特徴を分析して概念をモデリングする第二ステップと、
    少なくとも、地理実体の識別、特徴情報の抽出及び前記地理実体と前記特徴情報との関連付けを含む、取得された前記地理知識について地理情報を抽出する第三ステップと、
    地理知識グラフを生成する第四ステップと、を含む、ことを特徴とする地理知識取得方法。
  2. 前記第一ステップにおける前記自然言語は、少なくとも文書を含み、
    前記文書における前記地理知識の取得には、少なくとも、時間情報の抽出、前記地理実体の識別、属性情報の抽出、地理実体関係の抽出、事件情報の抽出が含まれる、ことを特徴とする請求項1に記載の地理知識取得方法。
  3. 前記図形言語に少なくとも地図が含まれており、畳み込みニューラルネットワークを用いて前記地図における情報を抽出する、ことを特徴とする請求項1又は2に記載の地理知識取得方法。
  4. 畳み込みニューラルネットワークを用いて前記地図における前記情報を抽出することは、
    地図情報アノテーションサンプルデータベースを構築するステップS1と、
    前記地図における前記情報を自動識別するステップS2と、
    地図符号と文書注記参照情報に基づいて、ディープ畳み込みニューラルネットワークモデルを構築し、前記地理実体の識別、前記特徴情報及び相関関係の抽出を実現する、ステップS3を含む、ことを特徴とする請求項3に記載の地理知識取得方法。
  5. 前記ステップS1であって、前記地図における前記地理情報のアノテーション内容とアノテーション規範を規定し、異なる類型、異なる内容及び異なる編成形式を有する地図雛型を選択し、前記地図情報アノテーションサンプルデータベースを構築する、ことを特徴とする請求項4に記載の地理知識取得方法。
  6. 前記ステップS2であって、地図学理論に基づいて、前記地図における補助要素、追加説明、図形・画像要素の規則モデル、設計アルゴリズムを作成し、前記地図における情報の自動識別を実現する、ことを特徴とする請求項4に記載の地理知識取得方法。
  7. 文書及前記地図における前記情報を統合することは、
    統一の概念類別体系に従って、前記文書と前記地図に表現される前記地理知識について概念をマッピングすること、
    地理実体類型、文書類似度及び属性特徴に基づいて、各概念等級の地理実体リンクを作成すること、
    前記地理実体を手段として、衝突検測及び/又は真値発見技術を用いて、前記文書と前記地図における前記地理実体の関連特徴情報を処理し、この処理に少なくとも重複排除、関連付け及び合弁のうちのいずれかの一つが少なくとも含まれること、
    地理実体関係の拘束規則集合を構築し、前記文書及び前記地図における地理概念、インスタンス及び特徴の関連関係を再構成する、ことを含む、ことを特徴とする請求項4に記載の地理知識取得方法。
  8. 前記第四ステップにおける前記地理知識グラフが畳み込みニューラルネットワーク技術に基づくものであり、
    I、文書及び地図から取得された地理知識スニペットについて、地理知識表示モデルにおける知識手段構成及びその関係を参照しながら、地理知識サブグラフを構築すること、
    II、時空特徴による拘束で、各グループにある前記地理知識サブグラフについてノードをリンクすること、
    III、モデル反復と規範化処理を介して、単一の前記地理実体における異なる状態と関係を判断してから、時間変化と空間変化の順番に従って、前記地理実体の状態転換過程を出力すること、
    IV、異なる前記地理実体間及び異なる地理特徴間の相関関係を判断し、異なる粒度と異なる等級による前記地理知識グラフを生成する、ことを含む、ことを特徴とする請求項1に記載の地理知識取得方法。
JP2022505247A 2020-10-30 2021-01-20 地理知識取得方法 Active JP7468929B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011189625.9 2020-10-30
CN202011189625.9A CN112256888A (zh) 2020-10-30 2020-10-30 地理知识获取方法
PCT/CN2021/072793 WO2022088526A1 (zh) 2020-10-30 2021-01-20 地理知识获取方法

Publications (2)

Publication Number Publication Date
JP2023502827A true JP2023502827A (ja) 2023-01-26
JP7468929B2 JP7468929B2 (ja) 2024-04-16

Family

ID=74269085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022505247A Active JP7468929B2 (ja) 2020-10-30 2021-01-20 地理知識取得方法

Country Status (3)

Country Link
JP (1) JP7468929B2 (ja)
CN (1) CN112256888A (ja)
WO (1) WO2022088526A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167440A (zh) * 2023-04-26 2023-05-26 北京大学 基于网格时空知识图谱的时空知识规则判定方法及相关设备

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065000B (zh) * 2021-03-29 2021-10-22 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法
CN113139065B (zh) * 2021-04-25 2022-07-22 杭州电子科技大学 一种融合地理知识的混合知识图谱构建方法
CN112988946B (zh) * 2021-05-07 2021-08-31 泰瑞数创科技(北京)有限公司 一种地理实体数据库用户定制化方法
CN113505234B (zh) * 2021-06-07 2023-11-21 中国科学院地理科学与资源研究所 一种生态文明地理知识图谱的构建方法
CN113297395B (zh) * 2021-07-08 2021-09-24 中国人民解放军国防科技大学 时空多模态混合数据处理方法、关联方法与索引方法
CN113486136B (zh) * 2021-08-04 2022-06-17 泰瑞数创科技(北京)有限公司 一种地理实体服务按需组装的方法及系统
CN114153928A (zh) * 2021-12-03 2022-03-08 中国电信股份有限公司 城市地理语义知识网络的构建方法、系统、设备及介质
CN114138923B (zh) * 2021-12-03 2024-06-07 吉林大学 一种构建地质图知识图谱的方法
CN114564966A (zh) * 2022-03-04 2022-05-31 中国科学院地理科学与资源研究所 一种基于知识图谱的空间关系语义分析的方法
CN115269751B (zh) * 2022-05-10 2023-05-30 泰瑞数创科技(北京)股份有限公司 地理实体时空知识图谱本体库构建方法
CN114707004B (zh) * 2022-05-24 2022-08-16 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统
CN115048478B (zh) * 2022-08-12 2022-10-21 深圳市其域创新科技有限公司 智能设备地理信息图谱的构建方法、设备和系统
CN116450765B (zh) * 2023-06-16 2023-08-25 山东省国土测绘院 一种多形态地理实体编码一致性处理方法及系统
CN117332091B (zh) * 2023-08-29 2024-03-29 泰瑞数创科技(北京)股份有限公司 一种基于语义关系的地理实体时空知识图谱构建方法
CN117852637B (zh) * 2024-03-07 2024-05-24 南京师范大学 一种基于定义的学科概念知识体系自动构建方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007141243A (ja) * 2005-11-15 2007-06-07 Nec (China) Co Ltd 交通情報収集・検索システム、交通情報収集・検索方法、交通情報収集装置、交通情報収集方法
JP2012252391A (ja) * 2011-05-31 2012-12-20 Fujitsu Ltd 情報処理装置、情報処理方法、及びプログラム
US20190155961A1 (en) * 2017-11-17 2019-05-23 Microsoft Technology Licensing, Llc Resource-Efficient Generation of a Knowledge Graph
US20200057946A1 (en) * 2018-08-16 2020-02-20 Oracle International Corporation Techniques for building a knowledge graph in limited knowledge domains
CN111488467A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理知识图谱的构建方法、装置、存储介质及计算机设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348815B1 (en) * 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
US10496678B1 (en) * 2016-05-12 2019-12-03 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN106547880B (zh) * 2016-10-26 2020-05-12 重庆邮电大学 一种融合地理区域知识的多维度地理场景识别方法
CN107133220B (zh) * 2017-06-07 2020-11-24 东南大学 一种地理学科领域命名实体识别方法
CN110472066B (zh) * 2019-08-07 2022-03-25 北京大学 一种城市地理语义知识图谱的构建方法
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007141243A (ja) * 2005-11-15 2007-06-07 Nec (China) Co Ltd 交通情報収集・検索システム、交通情報収集・検索方法、交通情報収集装置、交通情報収集方法
JP2012252391A (ja) * 2011-05-31 2012-12-20 Fujitsu Ltd 情報処理装置、情報処理方法、及びプログラム
US20190155961A1 (en) * 2017-11-17 2019-05-23 Microsoft Technology Licensing, Llc Resource-Efficient Generation of a Knowledge Graph
US20200057946A1 (en) * 2018-08-16 2020-02-20 Oracle International Corporation Techniques for building a knowledge graph in limited knowledge domains
CN111488467A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理知识图谱的构建方法、装置、存储介质及计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167440A (zh) * 2023-04-26 2023-05-26 北京大学 基于网格时空知识图谱的时空知识规则判定方法及相关设备
CN116167440B (zh) * 2023-04-26 2023-09-05 北京大学 基于网格时空知识图谱的时空知识规则判定方法及相关设备

Also Published As

Publication number Publication date
CN112256888A (zh) 2021-01-22
JP7468929B2 (ja) 2024-04-16
WO2022088526A1 (zh) 2022-05-05

Similar Documents

Publication Publication Date Title
JP7468929B2 (ja) 地理知識取得方法
CN112200317B (zh) 多模态知识图谱构建方法
CN110727839B (zh) 自然语言查询的语义解析
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN114064918A (zh) 一种多模态事件知识图谱构建方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN112559907A (zh) 基于时空标签时空关联的基础数据检索与集成展示方法
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
Mishra et al. A study of various approaches and tools on ontology
Zhan et al. Survey on event extraction technology in information extraction research area
Ince Automatic and intelligent content visualization system based on deep learning and genetic algorithm
Shi et al. Heterogeneous graph representation learning and applications
Chen et al. Construction and application of COVID-19 infectors activity information knowledge graph
Zhang et al. From vision to content: Construction of domain-specific multi-modal knowledge graph
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
Song et al. Scalable distributed semantic network for knowledge management in cyber physical system
Wang et al. Understanding the spatial dimension of natural language by measuring the spatial semantic similarity of words through a scalable geospatial context window
CN114091464B (zh) 一种融合五维特征的高普适性多对多关系三元组抽取方法
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
Zhu et al. Construction of transformer substation fault knowledge graph based on a depth learning algorithm
Wu et al. A summary of the latest research on knowledge graph technology
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
Liang et al. A semantic‐driven generation of 3D Chinese opera performance scenes
CN113449517A (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240328

R150 Certificate of patent or registration of utility model

Ref document number: 7468929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150