JP2023519049A - Poi状態情報を取得する方法、及び装置 - Google Patents

Poi状態情報を取得する方法、及び装置 Download PDF

Info

Publication number
JP2023519049A
JP2023519049A JP2022521351A JP2022521351A JP2023519049A JP 2023519049 A JP2023519049 A JP 2023519049A JP 2022521351 A JP2022521351 A JP 2022521351A JP 2022521351 A JP2022521351 A JP 2022521351A JP 2023519049 A JP2023519049 A JP 2023519049A
Authority
JP
Japan
Prior art keywords
poi
text
semantic
semantic unit
vector representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022521351A
Other languages
English (en)
Other versions
JP7362998B2 (ja
Inventor
フアン、ジジョウ
スン、イボ
ワン、ハイフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023519049A publication Critical patent/JP2023519049A/ja
Application granted granted Critical
Publication of JP7362998B2 publication Critical patent/JP7362998B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、人工知能技術の分野のビッグデータ技術に関するPOI状態情報を取得する方法、及び装置を開示する。具体的な実現案は、インターネットから予め設定された期間内のPOI情報を含むテキストを取得し、予めトレーニングされたPOI状態識別モデルを使用してテキストを識別し、テキスト内の2つ組を取得し、POI状態識別モデルは、テキスト内の各第1のセマンティック単位のベクトル表現を取得し、テキストのセマンティック依存情報に基づいてテキスト内の各第2のセマンティック単位のベクトル表現を取得し、各第1のセマンティック単位のベクトル表現と各第2のセマンティック単位のベクトル表現を融合処理し、各第1のセマンティック単位の融合ベクトル表現を取得し、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行う。本開示の技術案は、人件費を節約し、時効性と精度を向上させることができる。

Description

本開示は出願日が2021年02月22日であり、出願番号が202110199748.9であり、発明の名称が「POI状態情報を取得する方法、及び装置」である中国特許出願の優先権を主張する。
本開示は、コンピュータ技術の分野に関し、特に、人工知能技術の分野におけるビッグデータ技術に関する。
POI(Point of Interest)は関心地点を指し、地理情報システムの用語であり、一般的にはポイントとして抽象できる地理的オブジェクトを指し、1つのPOIは1つの家、1つの商店、1つのポスト、1つのバス停留所、1つの学校、1つの病院などであってよい。POIのは、主に、物事又はイベントの位置を記述することによって、物事又はイベントの位置の記述能力と照会能力を強化することである。
インターネット地図類のアプリケーションにおいて、POIは非常に重要な役割を果たしている。POIを使用することによって、ユーザは地図から興味のある場所及びその場所に到着するルートを容易に見つけることができる。しかし、都市計画とその他の要因の影響で、時間の経過とともに、新規のPOI、移転のPOI、改名のPOI、閉鎖のPOIなどのように、一部のPOIの情報が変化する。POIデータベースをタイムリーに更新できなければ、ユーザが地図を使用して検索する時に興味のある情報が見つからず、ユーザに誤導をもたらす可能性がある。例えば、ユーザがデパートにナビゲーションされた後、はじめて当該デパートが既に移転したり休業したりしていることに気づいたら、明らかにユーザに非常に悪い体験をもたらすことになる。
現在、POI状態情報の取得は、主に人力で成し遂げ、例えば、職員が現場で収集したり、又はユーザーが自発的に報告したりする。しかし、これらの方式は、人力的資源を浪費し、コストが高く、且つ、人の能動性に大きく依存し、時効性と精度を確保することが困難である。
本開示は、人件費を節約し、時効性と精度を向上させるために、POI状態情報を取得する方法、装置、機器、コンピュータ記憶媒体、及びコンピュータプログラム製品を提供する。
本開示の第1の態様によれば、POI状態情報を取得する方法を提供し、
インターネットから予め設定された期間内のPOI情報を含むテキストを取得するステップと、
予めトレーニングされたPOI状態識別モデルを使用して前記テキストを識別し、前記テキスト内の2つ組を取得するステップであって、前記2つ組は、POI名称と当該POI名称に対応するPOI状態情報を含むステップと、を含み、
前記POI状態識別モデルは、前記テキスト内の各第1のセマンティック単位のベクトル表現を取得し、前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得し、前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得し、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行う。
本開示の第2の態様によれば、POI状態識別モデルを確立する方法を提供し、
トレーニングデータを取得するステップであって、前記トレーニングデータは、テキストと、当該テキストに含まれるPOI名称とPOI状態のラベルラベリング結果とを含むステップと、
前記テキストをPOI状態識別モデルの入力とし、前記テキストに含まれるPOI名称とPOI状態のラベルラベリング結果を前記POI状態識別モデルのターゲット予測結果として、前記POI状態識別モデルをトレーニングするステップと、を含み、
前記POI状態識別モデルは、前記テキスト内の各第1のセマンティック単位のベクトル表現を取得し、前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得し、前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得し、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行う。
本開示の第3の態様によれば、POI状態情報を取得する装置を提供し、
インターネットから予め設定された期間内のPOI情報を含むテキストを取得するテキスト取得ユニットと、
予めトレーニングされたPOI状態識別モデルを使用して前記テキストを識別し、前記テキスト内の2つ組を取得する状態識別ユニットであって、前記2つ組は、POI名称と当該POI名称に対応するPOI状態情報を含む状態識別ユニットと、を含み、
前記POI状態識別モデルは、
前記テキスト内の各第1のセマンティック単位のベクトル表現を取得するセマンティック表現モジュールと、
前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得するセマンティック依存表現モジュールと、
前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得する表現融合モジュールと、
各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うラベル予測モジュールと、を含む。
本開示の第4の態様によれば、POI状態識別モデルを確立する装置を提供し、
トレーニングデータを取得するための取得ユニットであって、前記トレーニングデータは、テキストと、当該テキストに含まれるPOI名称とPOI状態のラベルラベリング結果とを含む取得ユニットと、
前記テキストをPOI状態識別モデルの入力とし、前記テキストに含まれるPOI名称とPOI状態のラベルラベリング結果を前記POI状態識別モデルのターゲット予測結果として、前記POI状態識別モデルをトレーニングするトレーニングユニットと、を含み、
前記POI状態識別モデルは、
前記テキスト内の各第1のセマンティック単位のベクトル表現を取得するセマンティック表現モジュールと、
前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得するセマンティック依存表現モジュールと、
前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得する表現融合モジュールと、
各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うラベル予測モジュールと、を含む。
本開示の第5の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
本開示の第6の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。
本開示の第7の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の方法を実現する。
以上の技術案から分かるように、本開示は、POI情報を含むインターネットテキストからPOI名称とPOI名称に対応するPOI状態情報をマイニングすることによって、POI状態変更イベントに対するインターネットのタイムリー反映を十分に使用し、状態変更が発生するPOI情報を人工的に決定する方式と比較して、人件費を節約し、時効性と精度を向上させる。
本明細書で説明された内容は、本開示の実施例のキー又は重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
上記の選択可能な方式によるその他の効果については、以下、具体的な実施例を組み合わせて説明する。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の実施例に適用できる方法又は装置の例示的なシステムアーキテクチャを示す。 本開示の実施例により提供されるPOI状態識別モデルを確立する方法のフローチャートである。 本開示の実施例により提供されるトレーニングデータを取得する方法のフローチャートである。 本開示の実施例により提供されるPOI状態識別モデルの概略図である。 本開示の実施例により提供されるPOI状態情報を取得する方法のフローチャートである。 本開示の実施例により提供されるテキストに対してラベル予測を行う例示的な図である。 本開示の実施例により提供されるPOI状態識別モデルを確立する装置の構造図である。 本開示の実施例により提供されるPOI状態情報を取得する装置の構造図である。 本開示の実施例を実現するための電子機器のブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識できるはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は本開示の実施例に適用できる方法又は装置の例示的なシステムアーキテクチャを示す。図1に示すように、当該システムアーキテクチャは、端末デバイス101及び102、ネットワーク103、及びサーバ104を含むことができる。ネットワーク103は、端末デバイス101、102とサーバ104との間の通信リンクのための媒体を提供する。ネットワーク103は、有線、無線通信リンク、又は光ファイバケーブルなどの様々な接続タイプを含むことができる。
ユーザは、端末デバイス101及び102を使用してネットワーク103を介してサーバ104とインタラクションすることができる。端末デバイス101及び102には、地図類アプリケーション、ウェブブラウザアプリケーション、通信類アプリケーションなどの様々なアプリケーションがインストールされてもよい。
端末デバイス101及び102は地図類アプリケーションを実行する様々な電子機器であってもよい。スマートフォン、タブレット、PC、スマートテレビなどが含まれるが、これらに限定されない。本開示により提供される関心地点POI状態情報を取得する装置とPOI状態識別モデルを確立する装置は、上記のサーバ104に設置して実行することができ、サーバ104と独立した機器に実行することもできる。複数のソフトウェア又はソフトウェアモジュール(例えば、分散サービスを提供するために)として実現することができ、単一のソフトウェア又はソフトウェアモジュールとして実現することもでき、ここでは具体的に限定しない。サーバ104は、POIデータベース105との間インタラクションを行うことができる、具体的には、サーバ104は、POIデータベース105からデータを取得することができ、データをPOIデータベース105に記憶することもできる。POIデータベース105にPOI情報を含む地図データが記憶されている。
例えば、POI状態情報を取得する装置は、上記のサーバ104に設置して実行し、サーバ104は、本開示の実施例により提供される方法を使用してPOIの状態情報を取得し、次に、取得されたPOIの状態情報を使用してPOIデータベース105を更新する。サーバ104は、端末デバイス101、102の照会要求に応答して、POIデータベース105を照会し、端末デバイス101、102に照会されたPOIの情報を返す。
サーバ104は、単一のサーバであってもよく、複数のサーバによって構成されるサーバグループであってもよい。104はサーバの形式として存在する以外、より高いコンピューティング性能を有する他のコンピュータシステム又はプロセッサであってもよい。理解すべきことは、図1の端末デバイス、ネットワーク及びサーバの数は単なる例示的なものであることを理解することができる。実現ニーズに応じて、任意の数を有する端末デバイス、ネットワーク、サーバ、及びデータベースであってもよい。
本開示は、インターネットビッグデータの豊富さとリアルタイム性に基づいて、インターネットビッグデータをデータソースとし、インターネットテキストからPOI状態情報をマイニングする。コアアイデアは、インターネットから予め設定された期間内のPOI情報を含むテキストを取得し、予めトレーニングされたPOI状態識別モデルを使用して前記テキストを識別し、テキスト内の2つ組を取得し、2つ組は、POI名称と当該POI名称に対応するPOI状態情報を含む。本開示の全体的な解決策から見ると、2つの部分に関し、1つは、POI状態識別モデルを確立することであり、もう1つは、POI状態識別モデルを使用してPOI状態情報を取得することである。以下は実施例を組み合わせてこの2つの部分をそれぞれ詳細に説明する。
図2は本開示の実施例により提供されるPOI状態識別モデルを確立する方法のフローチャートである。図2に示すように、当該方法は以下のステップを含むことができ、
201では、トレーニングデータを取得し、トレーニングデータは、テキストと、当該テキストに含まれるPOI名称とPOI状態のラベルラベリング結果とを含む。
202では、テキストをPOI状態識別モデルの入力とし、当該テキストに含まれるPOI名称とPOI状態のラベルラベリング結果をPOI状態識別モデルのターゲット予測結果として、当該POI状態識別モデルをトレーニングする。
POI状態識別モデルは、テキスト内の各第1のセマンティック単位のベクトル表現を取得し、当該テキストのセマンティック依存情報に基づいて当該テキスト内の各第2のセマンティック単位のベクトル表現を取得し、各第1のセマンティック単位のベクトル表現と各第2のセマンティック単位のベクトル表現を融合処理し、各第1のセマンティック単位の融合ベクトル表現を取得し、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行う。
以下は、実施例を組み合わせて上記のステップ201、すなわち「トレーニングデータを取得する」を詳細に説明する。
トレーニングデータを取得する時、人工的にラベリングする方式を使用していくつかのPOI名称とPOI状態を含むテキストに対してラベリングしてトレーニングデータとすることができる。しかし、このような方式は人力の制限によって少量のデータしか生成できず、モデルトレーニングの精度に一定の制約をもたらす。ここで、好ましい実施方式として、図3に示す方式を使用してトレーニングデータを取得することができ、具体的には、以下のステップを含み、
301では、予めトレーニングされたPOI識別器を使用してインターネットからPOI名称を含むテキストを取得する。
ウェブページからインターネットテキストをクロールし、テキストに含まれるPOI情報を確保するために、1つのPOI識別器をトレーニングし、POI識別器によってPOI情報を含むテキストが識別されて保持することができる。
POI識別器を予めトレーニングするプロセスは、POIデータベースからPOI情報を抽出し、抽出されたPOI情報は、人気のあるPOI情報であってもよく、すなわち検索人気がある程度を超えるPOI情報であってもよく、例えば、設定期間内の検索回数が予め設定された回数の閾値を超えるPOI情報であってもよく、次に、抽出されたPOI情報を使用してインターネットで検索し、検索されたテキストと対応するPOI情報を使用してラベル予測モデルをトレーニングし、POI識別器を取得する。POI識別器がテキストを入力した後、当該テキストに含まれるPOI情報を出力することができる。その中、POI情報はPOI名称を含むことができる。なお、本開示では、POI名称は、中国語名称、英語名称、名称略語などの、1つのPOIを表記及び区分することができる情報を指す。
POI識別器をトレーニングするプロセスで使用されるラベル予測モデルは、双方向LSTM(Long Short-Term Memory、長短期記憶ネットワーク)とCRF(conditional random field、条件付き確率場)で構成される構造である。もちろん、他のタイプの構造を使用することもでき、ここでは一つ一つ列挙して詳細に説明しない。
302では、予め確立された辞書を使用してPOI名称を含むテキストからPOI状態変化情報を含まないテキストをフィルタリングし、シードテキストを取得する。
辞書はPOI状態変化情報を含む単語を含む。テキストにPOI状態変化を説明する情報を含むことを確保するために、1つの辞書を予め確立し、この辞書内の単語のセマンティックはPOI状態変化に関連する。POI状態変化は、新規、移転、改名、及び閉鎖などを含むことができる。
上記の301と302の処理後、取得されたシードテキストにはいずれもPOI名称とPOI状態変化情報が含まれる。上記の301と302は、シードテキストを取得する好ましい実施方式であり、上記の方式以外、テキストを人工的に確立する方式を簡単に使用してシードテキストを取得することもできる。
303では、シードテキストに含まれるPOI名称と当該POI名称に対応するPOI状態のラベルラベリング結果を取得する。
本ステップで取得されたシードテキストの数が多くないと、人工的にラベリングする方式を使用することができる。しかし、数が多くないシードテキストをトレーニングデータとしてPOI状態識別モデルのトレーニングを行う場合、POI状態識別モデルの精度が十分に高くない可能性がある。トレーニング効果をさらに向上させるために、この基礎でPOIデータベースを使用してシードテキストに対してデータ増強を行うことができる。すなわち、304では、POIデータベースにおけるシードテキストに含まれるPOI名称と同じタイプであるPOI名称を使用して、シードテキスト内のPOI名称を置き換え、拡張テキストを取得する。
具体的には、分類モデルを使用してシードテキストに含まれるPOI名称とPOIデータベース内のPOI名称をそれぞれ分類することができる。分類によって取得されたカテゴリは、レストラン類、会社類、住宅類などのPOIの特性を区分するために使用される。
例えば、1つのシードテキストが「A社は既に移転し、移転期間中は業務を一時停止する」であり、シードテキストに含まれるPOI名称「A社」が会社類である場合、POIデータベースから同じタイプのPOI名称「B社」、「C社」などを見つけることができ、これらの名称をそれぞれ使用してシードテキスト内の「A」会社を置き換えた後、拡張テキスト:「B社は既に移転し、移転期間中は業務を一時停止する」、及び「C社は既に移転し、移転期間中は業務を一時停止する」などを取得することができる。
分類モデルは、POIデータベース内の大量の(POI名称、タイプラベル)ペアを予め使用してトレーニングを行うことができ、分類モデルの構造は、例えば、双方向LSTMとsoftmaxを使用して構成される構造であってもよい。
305では、シードテキストと拡張テキストからトレーニングデータを取得する。
シードテキストに対して拡張した後、大量の拡張テキストを取得し、次に、これらのシードテキストと拡張テキストを合わせてトレーニングデータを構成することができる。これらのトレーニングデータは、テキストと、テキストに含まれるPOI名称と、当該POI名称に対応するPOI状態のラベルラベリング結果を含む。
以下は、実施例を組み合わせて上記のステップ202、すなわち「テキストをPOI状態識別モデルの入力とし、当該テキストに含まれるPOI名称とPOI状態のラベルラベリング結果をPOI状態識別モデルのターゲット予測結果として、当該POI状態識別モデルをトレーニングする」を詳細に説明する。
本開示に関するPOI状態識別モデルでは、図4に示すように、主に、4つの部分:セマンティック表現モジュール、セマンティック依存表現モジュール、表現融合モジュール、及びラベル予測モジュールを含む。
セマンティック表現モジュールは、テキスト内の各第1のセマンティック単位のベクトル表現を取得するために使用される。本開示では、第1のセマンティック単位は文字であってもよく、文字は中国語で一般的に見られる。英語では、第1のセマンティック単位は1つの単語(word)であってもよく、より細かい粒度の、例えば、複合語中の各「文字」であってもよい。例えば、「yellowstone」を1つの第1のセマンティック単位とすることができ、「yellow」と「stone」をそれぞれ第1のセマンティック単位とすることもできる。
従来のword2vecモデル、gloveモデルなどを使用してテキスト内の各文字に対するセマンティック特徴抽出を実現することができる。しかし、POI名称は常にロングテールワードを使用するため、従来のモデルを使用すると各文字に対するセマンティックをうまく表現できない。従って、本開示では好ましい実施方式を使用し、ERNIE(Enhanced Representation from kNowledge IntEgration、知識増強意味表現 )、BERT(Bidirectional Encoder Representations from Transformers、Transformerの双方向エンコーダ表現)などのプリトレーニング言語モデルによってテキストに対応する単語シーケンスに対してセマンティック特徴の抽出を行う。ERNIEモデルはsubword戦略を使用し、すなわち采用BPE(Byte-Pair Encoding、2バイトエンコーディング)アルゴリズムを使用してPOI名称をより細かい粒度の文字に分解するため、ロングテールワードの問題を効率的に解決する。
トレーニングデータ内のあるテキストDに対応するワードシーケンスを{x、x、…、x}として表し、その中、rはD内の文字の数であると仮定する。{x、x、…、x}をERNIEモデルの入力とし、ERNIEモデルはセマンティック特徴を抽出した後に隠れ層ベクトルシーケンス{h、h、…、h}を出力する。その中、hは、文字xに対応するベクトル表現である。
セマンティック依存表現モジュールは、テキストのセマンティック依存情報に基づいて当該テキスト内の各第2のセマンティック単位のベクトル表現を取得するために用いられる。
具体的には、テキストに対して構文分析を行ってテキストのセマンティック依存ツリーを取得し、次に、セマンティック依存ツリーに対応する有向グラフを取得し、有向グラフ内の各ノードは各第2のセマンティック単位であり、RGCN(Relational Graph Convolutional Network、リレーショナルグラフ畳み込みニューラルネットワーク)を使用して有向グラフ内の各ノードのベクトル表現を取得することができる。
依存構文パーサーを使用してテキストを分析してテキストのセマンティック依存ツリーを取得することができる。依存構文分析は、自然言語処理のコアテクノロジーの1つであり、文内の単語間の依存関係を分析することによって文の構文構造を決定することを目的とする。通常、テキストに対して単語のセグメンテーション、品詞ラベリング、ネーミングエンティティ識別、文法分析などの処理を行うことを含む。依存構文パーサーは、現在比較的に成熟したツールであり、本開示ではこのようなツールを直接使用して実現することができる。
本開示の第2のセマンティック単位は単語であってもよい。それ以外にも、フレーズ、単語の組み合わせなどであってもよい。ここでは単語を例とする。
セマンティック依存ツリーでは、ノードは、テキスト内の単語であり、エッジは、単語間のセマンティック関係である。セマンティック依存ツリーを有向グラフに変換することができる。有向グラフ内のノードは、テキスト内の単語であり、エッジは、単語間のセマンティック関係を反映する。
次に、有向グラフをRGCNの入力とし、RGCNから有向グラフ内の各ノードのベクトル表現を出力する。
セマンティック依存表現モジュールにとって、Dに対応する単語シーケンスを{y、y、…、y}として表し、その中、mはD内の単語の数である。セマンティック依存表現モジュールを経た後、各単語に対応するベクトル表現を{l、l、…、l}としてそれぞれ取得する。
表現融合モジュールは、各第1のセマンティック単位のベクトル表現と各第2のセマンティック単位のベクトル表現を融合処理し、各第1のセマンティック単位の融合ベクトル表現を取得するために用いられる。
その中、表現融合モジュールは、以下の2つの方式を使用することができるが、これらに限定しない。
第1の方式:第2のセマンティック単位が第1のセマンティック単位を含む場合、当該第1のセマンティック単位のベクトル表現と当該第2のセマンティック単位のベクトル表現をスプライシングした後に、当該第1のセマンティック単位の融合ベクトルを取得する。
第1のセマンティック単位が文字であり、第2のセマンティック単位がワードであることを例とし、ワードAが文字A1と文字A2で構成されていると仮定すると、文字A1のベクトル表現とワードAのベクトル表現をスプライシングした後に文字A1の融合ベクトル表現を取得し、A2のベクトル表現とワードAのベクトル表現をスプライシングした後に文字A2の融合ベクトル表現を取得する。
第2の方式:各第2のセマンティック単位のベクトル表現が第1のセマンティック単位に対して注意力処理を行う場合、当該第1のセマンティック単位の融合ベクトル表現を取得する。
第1のセマンティック単位が文字であり、第2のセマンティック単位がワードであることを例とし、取得されたすべてのワードのベクトル表現を文字A1のベクトル表現に対してAttention(注意力)処理を行う。第2のセマンティック単位は有向グラフから取得されるので、実際には、有向グラフ全体を使用して文字A1に対してAttentionを行って、有向グラフ全体が当該文字A1に対するベクトル表現を取得することに相当する。すなわち、文字のベクトル表現をqueryとし、各ワードのベクトル表現をそれぞれkeyとして、Attentionを行うことができる。
ラベル予測モジュールは、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うために用いられる。
ここで、例えば、CRF(条件付き確率場)などのシーケンス予測モデルを使用してラベル予測を行うことができる。n個の文字を含むドキュメントD:D={x、x、…、x}に対して、上記の表現融合モジュールの融合を経た後、各文字の融合ベクトル表現、すなわちシーケンス
Figure 2023519049000002
を取得する。ドキュメント内の各文字xについて、ラベル予測モジュールのタスクは、そのラベルtを予測することであり、その中、t∈Tである。ラベル予測を行う時、文字xのラベルについて当該文字xがPOI名称とPOI状態であるか否かを示し、つまり、1つのラベルは、POI名称とPOI状態情報に対して同時に示す。例えば、ラベル集合は、以下を使用することができ、
={B-NEW、I-NEW、B-RELOCATE、I-RELOCATE、B-RENAME、I-RENAME、B-CLOSE、I-CLOSE、B-NONE、I-NONE、O}
その中、B、I、及びOは、当該文字がPOI名称の開始、中間、及び非POI名称であることを示す。
NEW、RELOCATE、RENAME、CLOSE、及びNONEは、それぞれPOI状態が新規、改名、移転、閉鎖、及び識別されていないPOI状態を示す。
従って、ラベルB-NEWは、当該文字がPOI名称の開始であり、且つPOI状態が新規であることを示し、ラベルI-NEWは、当該文字がPOI名称の中間であり、且つPOI状態が新規であることを示し、他のラベルは類似する。
当該モデルによって出力された予測シーケンスがT={t、t、…、t}である場合、このシーケンスのスコアを取得することができ、
Figure 2023519049000003
その中、
Figure 2023519049000004

Figure 2023519049000005
は、重みパラメータであり、モデルパラメータのうちの1つである。
Figure 2023519049000006
、その中、
Figure 2023519049000007
は、実数ドメインを表し、dは、
Figure 2023519049000008
の次元であり、cは、モデル出力ラベルの数である。
Figure 2023519049000009
は、tからti+1までの遷移確率行列を表す。
最終に、softmax層を使用して各予測シーケンスTの確率を取得することができ、
Figure 2023519049000010
その中、Tは、すべての予測シーケンスで構成された集合である。
トレーニング段階で使用される損失関数は:
Figure 2023519049000011
である。
トレーニングプロセス中に、トレーニング終了条件に達するまで、損失関数の値を使用して、セマンティック表現モジュール、セマンティック依存表現モジュール、表現融合モジュール、及びラベル予測モジュールのパラメータ値を含むモデルパラメータを更新する。トレーニング終了条件は、損失関数の値が予め設定された損失関数の閾値以下であることと、反復回数が予め設定された回数の閾値に達するなどを含むことができる。
最終にトレーニングされたPOI状態識別モデルは、入力されたテキストを識別し、テキスト内の2つ組を取得することができ、当該2つ組は、POI名称とPOI名称に対応するPOI状態情報を含み、(POI名称、状態情報)として表す。
図5は本開示の実施例により提供されるPOI状態情報を取得する方法のフローチャートである。当該方法は、図2に示すフローに基づいて確立したPOI状態識別モデルである。図5に示すように、当該方法は以下のステップを含むことができ、
501では、インターネットから予め設定された期間内のPOI情報を含むテキストを取得する。
POI状態情報のリアルタイム性を確保するために、インターネットから最近の一定期間のテキストをクロールし、次に、予めトレーニングされたPOI識別器を使用して取得されたテキストに対してPOI情報識別を行い、POI情報を含むテキストを保持することができる。
POI識別器の関連する記載について、上記の実施例のステップ301の関連する記載を参照することができ、ここでは省略する。
502では、予めトレーニングされたPOI状態識別モデルを使用して当該テキストを識別して、当該テキスト内の2つ組、すなわち(POI名称、状態情報)を取得する。
POI状態識別モデルは、テキスト内の各第1のセマンティック単位のベクトル表現を取得し、テキストのセマンティック依存情報に基づいて当該テキスト内の各第2のセマンティック単位のベクトル表現を取得し、各第1のセマンティック単位のベクトル表現と各第2のセマンティック単位のベクトル表現を融合処理し、各第1のセマンティック単位の融合ベクトル表現を取得し、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行う。
ステップ502では、図4に示すPOI状態識別モデルを使用してテキストを識別することができる。
セマンティック表現モジュールは、テキスト内の各第1のセマンティック単位のベクトル表現を取得するために使用される。本開示では、第1のセマンティック単位は文字であってもよく、文字は中国語で一般的に見られる。英語では、第1のセマンティック単位は1つの単語(word)であってもよく、より細かい粒度の、例えば、複合語中の各「文字」であってもよい。
従来のword2vecモデル、gloveモデルなどを使用してテキスト内の各文字に対するセマンティック特徴抽出を実現することができる。しかし、POI名称は常にロングテールワードを使用するため、従来のモデルを使用すると各文字に対するセマンティックをうまく表現できない。従って、本開示では好ましい実施方式を使用し、ERNIE、BERTなどのプリトレーニング言語モデルによってテキストに対応する単語シーケンスに対してセマンティック特徴の抽出を行う。ERNIEモデルはsubword戦略を使用し、すなわちBPEアルゴリズムを使用してPOI名称をより細かい粒度の文字に分解するため、ロングテールワードの問題を効率的に解決する。
セマンティック依存表現モジュールは、テキストのセマンティック依存情報に基づいて当該テキスト内の各第2のセマンティック単位のベクトル表現を取得するために用いられる。
具体的には、テキストに対して構文分析を行ってテキストのセマンティック依存ツリーを取得し、次に、セマンティック依存ツリーに対応する有向グラフを取得し、有向グラフ内の各ノードが各第2のセマンティック単位であり、RGCNを使用して有向グラフ内の各ノードのベクトル表現を取得することができる。
表現融合モジュールは、各第1のセマンティック単位のベクトル表現と各第2のセマンティック単位のベクトル表現を融合処理し、各第1のセマンティック単位の融合ベクトル表現を取得するために用いられる。
表現融合モジュールは、以下の2つの方式を使用することができるが、これらに限定しない。
第1の方式:第2のセマンティック単位が第1のセマンティック単位を含む場合、当該第1のセマンティック単位のベクトル表現と当該第2のセマンティック単位のベクトル表現をスプライシングした後に、当該第1のセマンティック単位の融合ベクトルを取得する。
第2の方式:各第2のセマンティック単位のベクトル表現が第1のセマンティック単位に対して注意力処理を行う場合、当該第1のセマンティック単位の融合ベクトル表現を取得する。
ラベル予測モジュールは、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うために用いられる。ここでは、例えば、CRF(条件付き確率場)などのシーケンス予測モデルを使用してラベル予測を行うことができる。予測されたラベルは、POI名称とPOI状態情報に対して同時に示す。
上記のPOI状態識別モデルにおける各モジュールの具体的な実現方式は、図2に示す実施例の関連する記載を参照することができ、ここでは詳しく説明しない。
例えば:
テキスト「坪山図書館の開館の続き、坪山芸術博物館も3月30日に正式に開館した
Figure 2023519049000012
」を入力すると仮定する。
POI状態識別モデルの予測の後、付けたラベルは図6に示す。2つ組(坪山図書館、新規)と(坪山芸術博物館、新規)を決定することができる。
インターネットテキストに対して一連の2つ組をマイニングした後、マイニングされた2つ組と、POIデータベースに記録されたPOI名称とそれに対応するPOI状態情報を比較することができ、一致しない場合、マイニングされた2つ組を使用してPOIデータベースに記録されたPOI名称とそれに対応するPOI状態情報を更新することができる。
更新する時、マイニングされた2つ組の出現回数に基づいて2つ組の精度を測定することができ、例えば、出現回数が予め設定された回数の閾値より大きい2つ組は、正確であるとみなし、正確な2つ組を使用してPOIデータベースを更新することができる。
以上は本開示で提供される方法の詳細の説明であり、以下は実施例を組み合わせて本開示により提供される装置について詳細に説明する。
図7は本開示の実施例により提供されるPOI状態識別モデルを確立する装置の構造図である。図7に示すように、当該装置は、取得ユニット01とトレーニングユニット02を含むことができ、各構成ユニットの主な機能は以下であり、
取得ユニット01は、トレーニングデータを取得するために用いられ、トレーニングデータは、テキストと、当該テキストに含まれるPOI名称とPOI状態のラベルラベリング結果とを含む。
取得ユニット01は、シードテキストと、シードテキストに含まれるPOI名称と当該POI名称に対応するPOI状態のラベルラベリング結果を取得し、POIデータベースにおけるシードテキストに含まれるPOI名称と同じタイプであるPOI名称を使用して、シードテキスト内のPOI名称を置き換え、拡張テキストを取得し、シードテキストと拡張テキストからトレーニングデータを取得することができる。
取得ユニット01は、シードテキストを取得する時、インターネットからPOI名称を含むテキストを取得し、予め確立された辞書を使用して前記POI名称を含むテキストからPOI状態変化情報を含まないテキストをフィルタリングし、前記シードテキストを取得することができ、前記辞書は、POI状態変化情報を表す単語を含む。
トレーニングユニット02は、テキストをPOI状態識別モデルの入力とし、テキストに含まれるPOI名称とPOI状態のラベルラベリング結果をPOI状態識別モデルのターゲット予測結果として、POI状態識別モデルをトレーニングするために用いられる。
POI状態識別モデルは、図4に示すように、以下を含むことができ、
セマンティック表現モジュールは、テキスト内の各第1のセマンティック単位のベクトル表現を取得するために用いられる。
具体的には、セマンティック表現モジュールは、例えば、ERNIE、BERTなどのプリトレーニング言語モデルを使用してテキスト内の各第1のセマンティック単位に対してセマンティック特徴の抽出を行い、各第1のセマンティック単位のベクトル表現を取得することができる。
セマンティック依存表現モジュールは、テキストのセマンティック依存情報に基づいてテキスト内の各第2のセマンティック単位のベクトル表現を取得するために用いられる。
好ましい実施方式として、セマンティック依存表現モジュールは、テキストに対して構文分析を行ってテキストのセマンティック依存ツリーを取得し、セマンティック依存ツリーに対応する有向グラフを取得し、有向グラフ内の各ノードは、各第2のセマンティック単位であり、RGCNを使用して有向グラフ内の各ノードのベクトル表現を取得することができる。
表現融合モジュールは、各第1のセマンティック単位のベクトル表現と各第2のセマンティック単位のベクトル表現を融合処理し、各第1のセマンティック単位の融合ベクトル表現を取得するために用いられる。
表現融合モジュールは、以下の2つの方式を使用することができるが、これらに限定しない。
第1の方式:第2のセマンティック単位が第1のセマンティック単位を含む場合、当該第1のセマンティック単位のベクトル表現と当該第2のセマンティック単位のベクトル表現をスプライシングした後に当該第1のセマンティック単位の融合ベクトル表現を取得する。
第2の方式:各第2のセマンティック単位のベクトル表現を第1のセマンティック単位に対して注意力処理を行い、当該第1のセマンティック単位の融合ベクトル表現を取得する。
ラベル予測モジュールは、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うために用いられる。
好ましい実施方式として、ラベル予測モジュールは、CRFモデルを使用して各第1のセマンティック単位の融合ベクトルをマッピングし、各第1のセマンティック単位のラベルを取得することができ、ラベルは、POI名称とPOI状態であるか否かを示す。
図8は本開示の実施例により提供されるPOI状態情報を取得する装置の構造図である。図8に示すように、当該装置は、テキスト取得ユニット11と状態識別ユニット12を含むことができ、更新ユニット13をさらに含むこともでき。各構成ユニットの主な機能は以下であり、
テキスト取得ユニット11は、インターネットから予め設定された期間内のPOI情報を含むテキストを取得するために用いられる。
その中の1つの実現方式として、テキスト取得ユニット11は、インターネットから予め設定された期間内のテキストを取得し、予めトレーニングされたPOI識別器を使用して取得されたテキストに対してPOI情報識別を行い、POI情報を含むテキストを保持することができる。
状態識別ユニット12は、予めトレーニングされたPOI状態識別モデルを使用してテキストを識別し、テキスト内の2つ組を取得するために用いられ、2つ組は、POI名称と当該POI名称に対応するPOI状態情報を含む。
POI状態識別モデルは、図4に示すように、セマンティック表現モジュールと、セマンティック依存表現モジュールと、表現融合モジュールと、ラベル予測モジュールと、を含むことができ、
セマンティック表現モジュールは、テキスト内の各第1のセマンティック単位のベクトル表現を取得するために用いられる。
具体的には、セマンティック表現モジュールは、例えば、ERNIE、BERTなどのプリトレーニング言語モデルを使用してテキスト内の各第1のセマンティック単位に対してセマンティック特徴の抽出を行い、各第1のセマンティック単位のベクトル表現を取得することができる。
セマンティック依存表現モジュールは、テキストのセマンティック依存情報に基づいてテキスト内の各第2のセマンティック単位のベクトル表現を取得するために用いられる。
好ましい実施方式として、セマンティック依存表現モジュールは、テキストに対して構文分析を行ってテキストのセマンティック依存ツリーを取得し、セマンティック依存ツリーに対応する有向グラフを取得し、有向グラフ内の各ノードは、各第2のセマンティック単位であり、RGCNを使用して有向グラフ内の各ノードのベクトル表現を取得することができる。
表現融合モジュールは、各第1のセマンティック単位のベクトル表現と各第2のセマンティック単位のベクトル表現を融合処理し、各第1のセマンティック単位の融合ベクトル表現を取得するために用いられる。
表現融合モジュールは、以下の2つの方式を使用することができるが、これらに限定しない。
第1の方式:第2のセマンティック単位が第1のセマンティック単位を含む場合、当該第1のセマンティック単位のベクトル表現と当該第2のセマンティック単位のベクトル表現をスプライシングした後に当該第1のセマンティック単位の融合ベクトル表現を取得する。
第2の方式:各第2のセマンティック単位のベクトル表現を第1のセマンティック単位に対して注意力処理を行い、当該第1のセマンティック単位の融合ベクトル表現を取得する。
ラベル予測モジュールは、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うために用いられる。
好ましい実施方式として、ラベル予測モジュールは、CRFモデルを使用して各第1のセマンティック単位の融合ベクトルをマッピングし、各第1のセマンティック単位のラベルを取得することができ、ラベルは、POI名称とPOI状態であるか否かを示す。
更新ユニット13は、取得された2つ組を使用してPOIデータベースを更新するために用いられる。
インターネットテキストに対して一連の2つ組をマイニングした後、更新ユニット13は、マイニングされた2つ組と、POIデータベースに記録されたPOI名称とそれに対応するPOI状態情報を比較することができ、一致しない場合、マイニングされた2つ組を使用してPOIデータベースに記録されたPOI名称とそれに対応するPOI状態情報を更新することができる。
更新ユニット13は、更新する時、マイニングされた2つ組の出現回数に基づいて2つ組の精度を測定することができ、例えば、出現回数が予め設定された回数の閾値より大きい2つ組は、正確であるとみなし、正確な2つ組を使用してPOIデータベースを更新することができる。
以下は具体的な応用例を示し:
インターネットから最近1ヶ月以外のPOI情報を含むテキストを取得し、これらのテキストは、数が多い可能性があり、いくつかの例を示し:
インターネットテキスト1:上海大学科学技術パークと上海望源企業発展有限会社は在宝山区羅森宝ビジネスセンターに上大望源科学技術パークを開設した。
インターネットテキスト2:その前に火岩大峡谷は景勝地を申告する時、既に烏龍山大峡谷に改名した。
インターネットテキスト3:嵩明県不動産登録センターは2019年6月28日に秀嵩街66号に移転し、移転期間中は業務を一時停止した。
インターネットテキスト4:三江源の自然生態環境を保護するために、年保玉則景勝地は既に全面的に閉鎖した。
取得されたPOI情報を含むインターネットテキストをPOI状態識別モデルにそれぞれ入力し、当該POI状態識別モデルは、テキストにおける単語のセマンティック依存関係に基づいて、その中の2つ組をより正確に識別する。識別結果は、以下のようであり、
インターネットテキスト1に対応する2つ組:(上大望源科学技術パーク、新規);
インターネットテキスト2に対応する2つ組:(火岩大峡谷、改名);
インターネットテキスト3に対応する2つ組:(嵩明県不動産登録センター、移転)
インターネットテキスト4に対応する2つ組:(年保玉則景勝地、閉鎖)。
取得された大量2つ組について、出現回数の方式を使用してその精度を決定することができる、例えば、ある2つ組が識別された回数が予め設定された閾値を超える場合、正確であると見なし、それを使用してPOIデータベースを更新することができる。人工的に検証する方式で、取得された2つ組でその精度を検証することもできる。
上記のプロセスによって、インターネットドキュメントから、新規、改名、移転、及び閉鎖などの変化が発生したPOI状態情報を自動的かつタイムリーにマイニングすることができ、POIデータベースをタイムリーに更新して、POIデータベースを使用して提供されるサービスが正確なPOI情報に基づくため、ユーザ体験を向上させる。
以上の実施例から分かるように、本開示は以下の利点を備えることができ、
1)本開示ではPOI情報を含むインターネットテキストからPOI名称とPOI名称に対応するPOI状態情報をマイニングすることによって、POI状態変更イベントに対するインターネットのタイムリー反映を十分に使用し、状態変更が発生するPOI情報を人工的に決定する方式と比較して、人件費を節約し、時効性と精度を向上させる。
2)本開示ではインターネットテキストに含まれる了POI状態変化情報を識別するだけでなく、POI名称に変化が発生した具体的なPOI状態情報を識別することもできる。
3)本開示では確立されたPOI状態識別モデルにセマンティック依存情報を組み込み、モデルがテキスト内のPOI名称をより正確に識別し、各POIの状態を理解し、識別精度を向上させることを支援する。
4)本開示ではPOI状態識別モデルをトレーニングする時、POIデータベースを使用してシードテキストに対してデータ拡張を行ってトレーニングデータを取得し、トレーニングテキストの数を拡大して、POI状態識別モデルの精度を向上させる。
5)本開示のPOI状態識別モデルでは、ERNIEモデルを使用して入力されたテキストに対応する単語シーケンスに対してセマンティック特徴の抽出を行って、POI名称におけるロングテールワードの問題を効率的に解決する。
6)本開示ではマイニングによって取得された2つ組を使用してPOIデータベースを更新して、後続のPOIデータベースに基づいて提供されるサービスがより正確であるため、ユーザ体験を向上する。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図9に示すように、本開示の実施例に係るPOI状態情報を取得する方法又はPOI状態識別モデルを確立する方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図9に示すように、機器900は計算ユニット901を含み、計算ユニット901は、読み取り専用メモリ(ROM)902に記憶されているコンピュータプログラム又は記憶ユニット908からランダムアクセスメモリ(RAM)903にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM903には、機器900が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット901、ROM902、及びRAM903は、バス904を介してお互いに接続される。入出力(I/O)インターフェース905もバス904に接続される。
機器900内の複数のコンポーネントは、I/Oインターフェース905に接続されており、キーボード、マウスなどの入力ユニット906と、様々なタイプのディスプレイ、スピーカなどの出力ユニット307と、ディスク、光ディスクなどの記憶ユニット908と、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909と、を含む。通信ユニット909は、機器900が、インターネットなどのコンピュータネットワーク、及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット901は、様々な処理と計算能力を備える汎用及び/又は専用の処理コンポーネントである。計算ユニット901のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット901は、POI状態情報を取得する方法又はPOI状態識別モデルを確立する方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、POI状態情報を取得する方法又はPOI状態識別モデルを確立する方法は、記憶ユニット908などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。
いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信ユニット909を介して機器900にローディング及び/又はインストールされる。コンピュータプログラムがRAM903にローディングされて計算ユニット901によって実行される場合、上記のPOI状態情報を取得する方法又はPOI状態識別モデルを確立する方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット901は、他の任意の適切な方式(例えば、ファームウェアによって)を介してPOI状態情報を取得する方法又はPOI状態識別モデルを確立する方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ローディングプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、又は完全にリモート機械又はサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又は機器の使用、又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つ又は複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (31)

  1. インターネットから予め設定された期間内のPOI情報を含むテキストを取得するステップと、
    予めトレーニングされたPOI状態識別モデルを使用して前記テキストを識別し、前記テキスト内の2つ組を取得するステップであって、前記2つ組は、POI名称と当該POI名称に対応するPOI状態情報を含むステップと、を含み、
    前記POI状態識別モデルは、前記テキスト内の各第1のセマンティック単位のベクトル表現を取得し、前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得し、前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得し、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行う、
    関心地点POI状態情報を取得する方法。
  2. インターネットから予め設定された期間内のPOI情報を含むテキストを取得するステップは、
    インターネットから予め設定された期間内のテキストを取得するステップと、
    予めトレーニングされたPOI識別器を使用して、取得されたテキストに対してPOI情報識別を行うステップと、
    POI情報を含むテキストを保持するステップと、を含む、
    請求項1に記載の関心地点POI状態情報を取得する方法。
  3. 前記POI識別器は、
    POIデータベースからPOI情報を抽出し、
    抽出されたPOI情報を使用してインターネットで検索し、
    検索されたテキストと対応するPOI情報を使用してラベル予測モデルをトレーニングすることにより、取得される
    請求項2に記載の関心地点POI状態情報を取得する方法。
  4. 前記テキスト内の各第1のセマンティック単位のベクトル表現を取得するステップは、
    プリトレーニング言語モデルを使用して前記テキスト内の各第1のセマンティック単位に対してセマンティック特徴の抽出を行い、各第1のセマンティック単位のベクトル表現を取得するステップを含む、
    請求項1に記載の関心地点POI状態情報を取得する方法。
  5. 前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得するステップは、
    前記テキストに対して構文分析を行って前記テキストのセマンティック依存ツリーを取得するステップと、
    前記セマンティック依存ツリーに対応する有向グラフを取得するステップであって、前記有向グラフ内の各ノードは、前記各第2のセマンティック単位であるステップと、
    リレーショナルグラフ畳み込みニューラルネットワークRGCNを使用して前記有向グラフ内の各ノードのベクトル表現を取得するステップと、を含む、
    請求項1に記載の関心地点POI状態情報を取得する方法。
  6. 前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得するステップは、
    第2のセマンティック単位が第1のセマンティック単位を含む場合、当該第1のセマンティック単位のベクトル表現と当該第2のセマンティック単位のベクトル表現をスプライシングした後に当該第1のセマンティック単位の融合ベクトル表現を取得するステップと、又は、
    各第2のセマンティック単位のベクトル表現を第1のセマンティック単位に対して注意力処理を行い、当該第1のセマンティック単位の融合ベクトル表現を取得するステップと、を含む、
    請求項1に記載の関心地点POI状態情報を取得する方法。
  7. 前記各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うステップは、
    条件付き確率場CRFモデルを使用して各第1のセマンティック単位の融合ベクトルをマッピングし、各第1のセマンティック単位のラベルを取得するステップを含み、前記ラベルは、対応する第1のセマンティック単位がPOI名称とPOI状態であるか否かを示す、
    請求項1に記載の関心地点POI状態情報を取得する方法。
  8. 前記第1のセマンティック単位は文字であり、前記第2のセマンティック単位は単語である、
    請求項1~7のいずれか一項に記載の関心地点POI状態情報を取得する方法。
  9. トレーニングデータを取得するステップであって、前記トレーニングデータは、テキストと、当該テキストに含まれるPOI名称とPOI状態のラベルラベリング結果とを含むステップと、
    前記テキストをPOI状態識別モデルの入力とし、前記テキストに含まれるPOI名称とPOI状態のラベルラベリング結果を前記POI状態識別モデルのターゲット予測結果として、前記POI状態識別モデルをトレーニングするステップと、を含み、
    前記POI状態識別モデルは、
    前記テキスト内の各第1のセマンティック単位のベクトル表現を取得し、前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得し、前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得し、各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行う、
    POI状態識別モデルを確立する方法。
  10. トレーニングデータを取得するステップは、
    シードテキストと、前記シードテキストに含まれるPOI名称と当該POI名称に対応するPOI状態のラベルラベリング結果を取得するステップと、
    POIデータベースにおける前記シードテキストに含まれるPOI名称と同じタイプであるPOI名称で、前記シードテキスト内のPOI名称を置き換え、拡張テキストを取得するステップと、
    前記シードテキストと前記拡張テキストから前記トレーニングデータを取得するステップと、を含む、
    請求項9に記載のPOI状態識別モデルを確立する方法。
  11. 前記シードテキストを取得するステップは、
    インターネットからPOI名称を含むテキストを取得するステップと、
    POI状態変化情報を表す単語を含む予め確立された辞書を使用して前記POI名称を含むテキストからPOI状態変化情報を含まないテキストをフィルタリングし、前記シードテキストを取得するステップと、を含み、
    請求項10に記載のPOI状態識別モデルを確立する方法。
  12. 前記テキスト内の各第1のセマンティック単位のベクトル表現を取得するステップは、
    プリトレーニング言語モデルを使用して前記テキスト内の各第1のセマンティック単位に対してセマンティック特徴の抽出を行い、各第1のセマンティック単位のベクトル表現を取得するステップを含む、
    請求項9に記載のPOI状態識別モデルを確立する方法。
  13. 前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得するステップは、
    前記テキストに対して構文分析を行って前記テキストのセマンティック依存ツリーを取得するステップと、
    前記セマンティック依存ツリーに対応する有向グラフを取得するステップであって、前記有向グラフ内の各ノードは、前記各第2のセマンティック単位であるステップと、
    リレーショナルグラフ畳み込みニューラルネットワークRGCNを使用して前記有向グラフ内の各ノードのベクトル表現を取得するステップと、を含む、
    請求項9に記載のPOI状態識別モデルを確立する方法。
  14. 前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得するステップは、
    第2のセマンティック単位が第1のセマンティック単位を含む場合、当該第1のセマンティック単位のベクトル表現と当該第2のセマンティック単位のベクトル表現をスプライシングした後に当該第1のセマンティック単位の融合ベクトル表現を取得するステップと、又は、
    各第2のセマンティック単位のベクトル表現を第1のセマンティック単位に対して注意力処理を行い、当該第1のセマンティック単位の融合ベクトル表現を取得するステップと、を含む、
    請求項9に記載のPOI状態識別モデルを確立する方法。
  15. 前記各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うステップは、
    条件付き確率場CRFモデルを使用して各第1のセマンティック単位の融合ベクトルをマッピングし、各第1のセマンティック単位のラベルを取得するステップを含み、前記ラベルは、POI名称とPOI状態であるか否かを示す、
    請求項9に記載のPOI状態識別モデルを確立する方法。
  16. インターネットから予め設定された期間内のPOI情報を含むテキストを取得するテキスト取得ユニットと、
    予めトレーニングされたPOI状態識別モデルを使用して前記テキストを識別し、前記テキスト内の2つ組を取得する状態識別ユニットであって、前記2つ組は、POI名称と当該POI名称に対応するPOI状態情報を含む状態識別ユニットと、を含み、
    前記POI状態識別モデルは、
    前記テキスト内の各第1のセマンティック単位のベクトル表現を取得するセマンティック表現モジュールと、
    前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得するセマンティック依存表現モジュールと、
    前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得する表現融合モジュールと、
    各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うラベル予測モジュールと、を含む、
    POI状態情報を取得する装置。
  17. 前記テキスト取得ユニットは、インターネットから予め設定された期間内のテキストを取得し、予めトレーニングされたPOI識別器を使用して、取得されたテキストに対してPOI情報識別を行い、POI情報を含むテキストを保持する、
    請求項16に記載のPOI状態情報を取得する装置。
  18. 前記セマンティック表現モジュールは、プリトレーニング言語モデルを使用して前記テキスト内の各第1のセマンティック単位に対してセマンティック特徴の抽出を行い、各第1のセマンティック単位のベクトル表現を取得する、
    請求項16に記載のPOI状態情報を取得する装置。
  19. 前記セマンティック依存表現モジュールは、前記テキストに対して構文分析を行って前記テキストのセマンティック依存ツリーを取得し、前記セマンティック依存ツリーに対応する有向グラフを取得し、前記有向グラフ内の各ノードは、前記各第2のセマンティック単位であり、リレーショナルグラフ畳み込みニューラルネットワークRGCNを使用して前記有向グラフ内の各ノードのベクトル表現を取得する、
    請求項16に記載のPOI状態情報を取得する装置。
  20. 前記表現融合モジュールは、第2のセマンティック単位が第1のセマンティック単位を含む場合、当該第1のセマンティック単位のベクトル表現と当該第2のセマンティック単位のベクトル表現をスプライシングした後に当該第1のセマンティック単位の融合ベクトル表現を取得するか、又は、各第2のセマンティック単位のベクトル表現を第1のセマンティック単位に対して注意力処理を行い、当該第1のセマンティック単位の融合ベクトル表現を取得する、
    請求項16に記載のPOI状態情報を取得する装置。
  21. 前記ラベル予測モジュールは、条件付き確率場CRFモデルを使用して各第1のセマンティック単位の融合ベクトルをマッピングし、各第1のセマンティック単位のラベルを取得し、前記ラベルは、対応する第1のセマンティック単位がPOI名称とPOI状態であるか否かを示す、
    請求項16に記載のPOI状態情報を取得する装置。
  22. 前記第1のセマンティック単位は文字であり、前記第2のセマンティック単位は単語である、
    請求項16から21のいずれか一項に記載のPOI状態情報を取得する装置。
  23. トレーニングデータを取得する取得ユニットであって、前記トレーニングデータは、テキストと、当該テキストに含まれるPOI名称とPOI状態のラベルラベリング結果とを含む取得ユニットと、
    前記テキストをPOI状態識別モデルの入力とし、前記テキストに含まれるPOI名称とPOI状態のラベルラベリング結果を前記POI状態識別モデルのターゲット予測結果として、前記POI状態識別モデルをトレーニングするトレーニングユニットと、を含み、
    前記POI状態識別モデルは、
    前記テキスト内の各第1のセマンティック単位のベクトル表現を取得するセマンティック表現モジュールと、
    前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第2のセマンティック単位のベクトル表現を取得するセマンティック依存表現モジュールと、
    前記各第1のセマンティック単位のベクトル表現と前記各第2のセマンティック単位のベクトル表現を融合処理し、前記各第1のセマンティック単位の融合ベクトル表現を取得する表現融合モジュールと、
    各第1のセマンティック単位の融合ベクトル表現に基づいてPOI名称とPOI状態のラベル予測を行うラベル予測モジュールと、を含む、
    POI状態識別モデルを確立する装置。
  24. 前記取得ユニットは、シードテキストと、前記シードテキストに含まれるPOI名称と当該POI名称に対応するPOI状態のラベルラベリング結果を取得し、POIデータベースにおける前記シードテキストに含まれるPOI名称と同じタイプであるPOI名称で、前記シードテキスト内のPOI名称を置き換え、拡張テキストを取得し、前記シードテキストと前記拡張テキストから前記トレーニングデータを取得する、
    請求項23に記載のPOI状態識別モデルを確立する装置。
  25. 前記セマンティック表現モジュールは、プリトレーニング言語モデルを使用して前記テキスト内の各第1のセマンティック単位に対してセマンティック特徴の抽出を行い、各第1のセマンティック単位のベクトル表現を取得する、
    請求項23に記載のPOI状態識別モデルを確立する装置。
  26. 前記セマンティック依存表現モジュールは、前記テキストに対して構文分析を行って前記テキストのセマンティック依存ツリーを取得し、前記セマンティック依存ツリーに対応する有向グラフを取得し、前記有向グラフ内の各ノードは、前記各第2のセマンティック単位であり、リレーショナルグラフ畳み込みニューラルネットワークRGCNを使用して前記有向グラフ内の各ノードのベクトル表現を取得する、
    請求項23に記載のPOI状態識別モデルを確立する装置。
  27. 前記表現融合モジュールは、第2のセマンティック単位が第1のセマンティック単位を含む場合、当該第1のセマンティック単位のベクトル表現と当該第2のセマンティック単位のベクトル表現をスプライシングした後に当該第1のセマンティック単位の融合ベクトル表現を取得するか、又は、各第2のセマンティック単位のベクトル表現を第1のセマンティック単位に対して注意力処理を行い、当該第1のセマンティック単位の融合ベクトル表現を取得する、
    請求項23に記載のPOI状態識別モデルを確立する装置。
  28. 前記ラベル予測モジュールは、条件付き確率場CRFモデルを使用して各第1のセマンティック単位の融合ベクトルをマッピングし、各第1のセマンティック単位のラベルを取得し、前記ラベルは、POI名称とPOI状態であるか否かを示す、
    請求項23に記載のPOI状態識別モデルを確立する装置。
  29. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1から15のいずれか一つに記載の方法を実行する、
    電子機器。
  30. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1から15のいずれか一つに記載の方法を実行させる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  31. プロセッサによって実行される時に請求項1から15のいずれか一つに記載の方法を実現する、
    コンピュータプログラム。
JP2022521351A 2021-02-22 2021-07-20 Poi状態情報を取得する方法、及び装置 Active JP7362998B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110199748.9 2021-02-22
CN202110199748.9A CN112925995B (zh) 2021-02-22 2021-02-22 获取poi状态信息的方法及装置
PCT/CN2021/107381 WO2022174552A1 (zh) 2021-02-22 2021-07-20 获取poi状态信息的方法及装置

Publications (2)

Publication Number Publication Date
JP2023519049A true JP2023519049A (ja) 2023-05-10
JP7362998B2 JP7362998B2 (ja) 2023-10-18

Family

ID=76170181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022521351A Active JP7362998B2 (ja) 2021-02-22 2021-07-20 Poi状態情報を取得する方法、及び装置

Country Status (6)

Country Link
US (1) US11977574B2 (ja)
EP (1) EP4075303A4 (ja)
JP (1) JP7362998B2 (ja)
KR (1) KR20220120545A (ja)
CN (1) CN112925995B (ja)
WO (1) WO2022174552A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925995B (zh) 2021-02-22 2022-01-28 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN113838461B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 智能语音交互方法、装置、设备和计算机存储介质
CN113807102B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 建立语义表示模型的方法、装置、设备和计算机存储介质
CN118016058A (zh) * 2022-11-10 2024-05-10 脸萌有限公司 语音识别方法、装置及电子设备
CN116595992B (zh) * 2023-07-19 2023-09-19 江西师范大学 一种术语及类型的二元组单步抽取方法及其模型
CN117093661B (zh) * 2023-10-16 2024-03-15 腾讯科技(深圳)有限公司 地图数据的处理方法、装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010008142A (ja) * 2008-06-25 2010-01-14 Aisin Aw Co Ltd 車載ナビゲーション装置
CN109145219A (zh) * 2018-09-10 2019-01-04 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN110851738A (zh) * 2019-10-28 2020-02-28 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892355B2 (en) * 2011-12-21 2014-11-18 Telenav, Inc. Navigation system with point of interest validation mechanism and method of operation thereof
CN110709828A (zh) * 2017-06-08 2020-01-17 北京嘀嘀无限科技发展有限公司 使用条件随机域模型确定文本属性的系统及方法
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN110020224B (zh) 2017-12-28 2021-07-23 中国移动通信集团辽宁有限公司 地图兴趣点数据的关联方法、装置、设备及介质
US10803253B2 (en) * 2018-06-30 2020-10-13 Wipro Limited Method and device for extracting point of interest from natural language sentences
CN109145315B (zh) * 2018-09-05 2022-03-18 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN111191107B (zh) * 2018-10-25 2023-06-30 北京嘀嘀无限科技发展有限公司 使用标注模型召回兴趣点的系统和方法
JP6832322B2 (ja) 2018-11-02 2021-02-24 株式会社トヨタマップマスター 探索装置、探索方法、探索プログラムおよび記録媒体
CN110276023B (zh) * 2019-06-20 2021-04-02 北京百度网讯科技有限公司 Poi变迁事件发现方法、装置、计算设备和介质
CN111339774B (zh) * 2020-02-07 2022-11-29 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
US11774264B2 (en) * 2020-02-13 2023-10-03 Naver Corporation Method and system for providing information to a user relating to a point-of-interest
CN111444726B (zh) * 2020-03-27 2024-02-09 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
US11297466B1 (en) * 2020-04-24 2022-04-05 Allstate Insurance Company Systems for predicting and classifying location data based on machine learning
US11983716B2 (en) * 2020-05-26 2024-05-14 Paypal, Inc. Evaluating user status via natural language processing and machine learning
CN111783416B (zh) 2020-06-08 2024-05-03 青岛科技大学 一种利用先验知识构建文档图像数据集的方法
US20210390392A1 (en) * 2020-06-15 2021-12-16 Naver Corporation System and method for processing point-of-interest data
CN111783461A (zh) * 2020-06-16 2020-10-16 北京工业大学 一种基于句法依存关系的命名实体识别方法
US11720346B2 (en) * 2020-10-02 2023-08-08 International Business Machines Corporation Semantic code retrieval using graph matching
CN112925995B (zh) 2021-02-22 2022-01-28 北京百度网讯科技有限公司 获取poi状态信息的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010008142A (ja) * 2008-06-25 2010-01-14 Aisin Aw Co Ltd 車載ナビゲーション装置
CN109145219A (zh) * 2018-09-10 2019-01-04 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN110851738A (zh) * 2019-10-28 2020-02-28 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
六瀬 聡宏 外: "Twitterを用いた大規模災害時における情報提供システム", FIT2013 第12回情報科学技術フォーラム 講演論文集 第4分冊, JPN6023018301, 20 August 2013 (2013-08-20), JP, pages 651 - 652, ISSN: 0005054956 *

Also Published As

Publication number Publication date
US11977574B2 (en) 2024-05-07
US20230409626A1 (en) 2023-12-21
CN112925995B (zh) 2022-01-28
KR20220120545A (ko) 2022-08-30
CN112925995A (zh) 2021-06-08
WO2022174552A1 (zh) 2022-08-25
EP4075303A4 (en) 2022-11-09
JP7362998B2 (ja) 2023-10-18
EP4075303A1 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
JP7362998B2 (ja) Poi状態情報を取得する方法、及び装置
US11709999B2 (en) Method and apparatus for acquiring POI state information, device and computer storage medium
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN107210035B (zh) 语言理解系统和方法的生成
JP7283009B2 (ja) 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体
WO2021232724A1 (zh) 提取地理位置点空间关系的方法、训练提取模型的方法及装置
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN108363698A (zh) 兴趣点关系识别方法及装置
JP2009037603A (ja) クエリー要件展開器およびクエリー要件展開方法
KR102593171B1 (ko) 정보 처리 방법, 장치, 전자 기기 및 저장 매체
CN111274358A (zh) 文本处理方法、装置、电子设备及存储介质
US20130232147A1 (en) Generating a taxonomy from unstructured information
WO2021212826A1 (zh) 用于检索地理位置的相似度模型建立方法和装置
WO2021212827A1 (zh) 检索地理位置的方法、装置、设备和计算机存储介质
JP2022091122A (ja) 汎化処理方法、装置、デバイス、コンピュータ記憶媒体及びプログラム
CN115017425A (zh) 地点检索方法、装置、电子设备以及存储介质
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN117010398A (zh) 一种基于多层知识感知的地址实体识别方法
Mehta et al. Natural Language processing approach and geospatial clustering to explore the unexplored geotags using media
Qiu et al. Integrating NLP and Ontology Matching into a Unified System for Automated Information Extraction from Geological Hazard Reports
CN108959555B (zh) 查询式的扩展方法、装置、计算机设备及存储介质
Wang et al. Construction of bilingual knowledge graph based on meteorological simulation
Chen et al. Construction Methods of Knowledge Mapping for Full Service Power Data Semantic Search System
CN112905884B (zh) 生成序列标注模型的方法、设备、介质及程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230912

R150 Certificate of patent or registration of utility model

Ref document number: 7362998

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150