JP2022511593A

JP2022511593A - Ｐｏｉ状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体

Info

Publication number: JP2022511593A
Application number: JP2021514573A
Authority: JP
Inventors: フアン、ジジョウ; スン、イボ; リ、イン; リウ、ミン; チン、ビン
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2019-10-28
Filing date: 2020-05-13
Publication date: 2022-02-01
Anticipated expiration: 2040-05-13
Also published as: US11709999B2; CN110851738A; EP3842963A1; CN110851738B; JP7214949B2; EP3842963A4; US20220253612A1; WO2021082397A1

Abstract

本出願は、ビッグデータ分野に関し、関心ポイント(POI)状態情報を取得する方法、装置、デバイス、プログラムおよびコンピュータ記憶媒体を開示する。具体的な実現方案は、インターネットから予め設定された期間内にPOI情報を含むテキストを取得し、予め訓練されたPOI状態認識モデルを用いて前記テキストを認識してPOI名および前記POI名に対応するPOI状態情報を含む前記テキストの中のチュープルを取得し、前記POI状態認識モデルは、前記テキストに対応する単語シーケンスに対してPOI名のラベル予測とPOI状態のラベル予測とをそれぞれ行い、POI名のラベル予測結果とPOI状態のラベル予測結果とをアラインメントして前記チュープルを得る。本出願は、人件費を節約し、時効性と正確度を向上させることができる。【選択図】図５

Description

本願は、出願日が2019年10月28日、出願番号が201911029247.5、発明名称が「POI状態情報を取得する方法、装置、デバイス及びコンピュータ記憶媒体」である中国特許出願の優先権を請求した。
本出願は、コンピュータ技術分野に関し、特にビッグデータの分野においてPOI状態情報を取得する方法、装置、デバイスおよびコンピュータ記憶媒体に関する。

POI（Point of Interest）は関心ポイントを指し、地理情報システムにおける用語であり、ポイントとして抽象化できるすべての地理的な対象を一般的に指す。POIは、住宅、店舗、郵便ポスト、バス停、学校、病院などであって良い。POIの主な用途は、事物またはイベントの位置を記述することにより、事物またはイベントの位置に対する記述能力および検索能力を高めることにある。

POIは，インターネット地図のようなアプリケーションにおいて非常に重要な役割を果たす。POIを利用することにより、ユーザは地図上で興味のある場所やその場所までの経路を容易に見つけることができる。しかし、都市計画及び他の要素の影響を受けるため、時間の経過とともに一部のPOIの情報が変化することがある。例えば、新設されたPOI、移転されたPOI、名称変更されたPOI、閉鎖されたPOIなどである。POIデータベースを適時に更新できないと、ユーザは地図検索を使用する場合に興味のある情報を見つけることができず、ユーザに誤って案内することさえある。たとえば，ユーザがあるショッピングモールにナビゲートした後、そのショッピングモールがすでに移転していたり、廃業していたりすることは、明らかにユーザに非常に悪い体験を与えることになる。

現在、POI状態情報の取得は主に人手に依存しており、例えば、従業員が現場に行って収集したり、ユーザが自発的に報告したりしている。しかし、これらの方法は、一方では人的資源を浪費し、コストが高くなり、他方では人為的な自発性に大きく依存しており、時効性と正確度を確保し難い。

これに鑑み、本出願は、人件費を節約し、時効性および正確性を向上させるPOI状態情報を取得する方法、装置、デバイス、およびコンピュータ記憶媒体を提供する。

第1の局面では、本出願は、予め設定された期間内にPOI情報を含むテキストをインターネットから取得し、予め訓練されたPOI状態認識モデルを用いて前記テキストを認識して、POI名および上記POI名に対応するPOI状態情報を含む前記テキストにおけるチュープルを取得し、前記POI状態認識モデルは、前記テキストに対応する単語シーケンスに対してPOI名のラベル予測とPOI状態のラベル予測とをそれぞれ行い、POI名のラベル予測結果とPOI状態のラベル予測結果とをアラインメントして前記チュープルを得る、ことを含む関心ポイントPOI状態情報を取得する方法を提供する。

本出願の好ましい実施形態によれば、予め設定された期間内にPOI情報を含むテキストをインターネットから取得することは、インターネットから予め設定された期間内のテキストを取得し、事前に訓練されたPOI認識器を用いて、取得されたテキストに対してPOI情報認識を行い、POI情報を含むテキストを保留することを含む。

本明細書の好ましい実施形態によれば、前記POI認識器は、POIデータベースから人気のあるPOI情報を抽出し、抽出されたPOI情報を利用してインターネットで検索し、検索により得られたテキストおよび対応するPOI情報を用いてラベル予測モデルを訓練して前記POI認識器を得る、
ことにより訓練された。

本明細書の好ましい実施形態によれば、前記POI状態認識モデルは、前記テキストに対応する単語シーケンスに対してPOI名のラベル予測とPOI状態のラベル予測をそれぞれ行うことは、前記POI状態認識モデルを用いて、前記テキストに対応する単語シーケンスに対して語義特徴の抽出を行って隠れ層ベクトルシーケンスを取得し、前記隠れ層ベクトルシーケンスに対してPOI名のラベル予測を行い、前記隠れ層ベクトルシーケンスに対してPOI状態のラベル予測を行うことを含む。

本出願の好ましい実施形態によれば、前記POI名のラベル予測結果とPOI状態のラベル予測結果とをアラインメントして前記チュープルを得ることは、予測された各POI名のラベル境界を特定し、POI名のラベル境界内に対応するPOI状態ラベルを特定し、投票メカニズムに基づいて、上記境界内で最も多く出現したPOI状態ラベルを用いて上記POI名に対応するPOI状態を特定することを含む。

本出願の好ましい実施形態によれば、上記方法は、さらに、得られたチュープルを用いてPOIデータベースを更新することを含む。

第2の局面では、本出願は、テキストと、上記テキストに含まれるPOI名およびPOI状態に対するラベル標識結果とを含む訓練データを取得し、テキストに対応する単語シーケンスを用いて第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を取得し、上記テキストに含まれるPOI名のラベル標識結果を前記第1のラベル予測サブモデルの出力目標とし、前記テキストに含まれるPOI状態のラベル標識結果を前記第2のラベル予測サブモデルの出力目標として、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを訓練し、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを含むPOI状態認識モデルを取得し、構築された前記POI状態認識モデルは、入力されたテキストを認識してPOI名と上記POI名に対応するPOI状態情報とを含む前記テキストにおけるチュープルを得る、ことを含むPOI状態認識モデルを構築する方法を提供する。

本明細書の好ましい実施形態によれば、前記訓練データを取得することは、シードテキスト、および前記シードテキストに含まれるPOI名およびPOI名に対応するPOI状態に対するラベル標識結果を取得し、POIデータベースにおける前記シードテキストに含まれるPOI名と同じタイプのPOI名を使用して、前記シードテキストにおけるPOI名を置換して拡張テキストを取得し、前記シードテキストおよび前記拡張テキストにより前記訓練データを得る、ことを含む。

本明細書の好ましい実施形態によれば、前記シードテキストを取得することは、予め訓練されたPOI認識器を使用してインターネットからPOI名を含むテキストを取得し、予め構築されたPOI状態変化情報を表す単語が含まれる辞書により、前記POI名を含むテキストからPOI状態変化情報を含まないテキストをフィルタリングして前記シードテキストを得ることを含む。

本出願の好ましい実施形態によれば、前記テキストに対応する単語シーケンスを使用して第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を得ることは、テキストに対応する単語シーケンスに対して語義特徴の抽出を行って上記テキストの隠れ層ベクトルシーケンスを取得し、前記隠れ層ベクトルシーケンスをそれぞれ前記第1のラベル予測サブモデルの入力と前記第2のラベル予測サブモデルの入力とすることを含む。

本出願の好ましい実施形態によれば、前記テキストに対応する単語シーケンスに対して語義特徴の抽出を行うことは、知識強化語義表現ERNIEモデルを用いて、テキストに対応する単語シーケンスに対して語義特徴の抽出を行うことを含む。

本明細書の好ましい実施形態によれば、前記訓練データは、テキストにおける支援POI名に対するラベル標識結果を更に含み、前記支援POI名はテキスト内に対応するPOI状態記述がないPOI名であり、上記方法は、更に、テキストの隠れ層ベクトルシーケンスを第3の予測サブモデルの入力とし、上記テキストの支援POI名のラベル標識結果を第3の予測サブモデルの出力目標とし、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを訓練する際に、前記第3のラベル予測サブモデルも併せて訓練することを含む。

本出願の好ましい実施形態によれば、前記第1のラベル予測サブモデルおよび前記第2のラベル予測サブモデルは、条件付き確率場CRFメカニズムを採用する。

第3の局面では、予め設定された期間内にPOI情報を含むテキストをインターネットから取得するテキスト取得ユニットと、予め訓練されたPOI状態認識モデルを用いて前記テキストを認識してPOI名および上記POI名に対応するPOI状態情報を含む前記テキストにおけるチュープルを得る状態認識ユニットと、を備え、前記POI状態認識モデルは、前記テキストに対応する単語シーケンスに対してPOI名のラベル予測とPOI状態のラベル予測とをそれぞれ行い、POI名のラベル予測結果とPOI状態のラベル予測結果とをアラインメントして前記チュープルを得る、POI状態情報を取得する装置を提供する。

第4の局面では、本出願は、テキストと、上記テキストに含まれるPOI名およびPOI状態に対するラベル標識結果とを含む訓練データを取得する取得ユニットと、テキストに対応する単語シーケンスを用いて第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を取得し、上記テキストに含まれるPOI名のラベル標識結果を前記第1のラベル予測サブモデルの出力目標とし、前記テキストに含まれるPOI状態のラベル標識結果を前記第2のラベル予測サブモデルの出力目標として、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを訓練して前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを含むPOI状態認識モデルを得る訓練ユニットと、を備え、構築された前記POI状態認識モデルは、入力されたテキストを認識してPOI名と上記POI名に対応するPOI状態情報を含む前記テキストにおけるチュープルを得る、POI状態認識モデルを構築する装置を提供する。

第5の局面では、本出願は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を備え、前記メモリに前記少なくとも一つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサに前記の方法を実行させる電子デバイスを提供する。

第6の局面では、本出願は、コンピュータに前記方法を実行させるコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体を提供する。

以上の技術案からわかるように、本出願は、POI情報を含むインターネットテキストからPOI名及びPOI名に対応するPOI状態情報をマイニングすることにより、POI状態変化イベントに対するインターネットの即時な反応を十分に利用し、状態変化が発生したPOI情報を人工で確定する方式と比較して、人件費を節約し、時効性及び正確性を向上した。

本出願は、インターネットテキストにPOI状態変化情報が含まれていることを認識するだけでなく、どのPOI名に変化が発生した具体的なPOI状態情報を認識することができる。

本願では、POI状態認識モデルは、従来の各サブタスクの流れ作業の形式、即ちテキストからPOI名を認識してからPOI名のPOI状態情報を認識することではなく、複数のサブタスクを並列かつ関連して処理する方式、即ちテキストのPOI名の予測とPOI状態の予測を並列に実行してから、2つの予測結果をアラインメント処理してチュープルを得ることを採用する。

本出願では、テキスト中に同時に複数のPOI名が含まれているが、何れか一つのPOI名のみに状態変化が存在する場合に対して、POI状態認識モデルに支援POI名に対する予測サブモデルを統合して併せて訓練を行うことにより、テキスト中に本当に状態変化が存在するPOI名を正確に認識して、支援POI名の干渉を排除することができる。

本願では、POI状態認識モデルを訓練する際に、POIデータベースを用いてシードテキストをデータ拡張して訓練データを得ることにより、訓練テキストの数を拡大してPOI状態認識モデルの正確度を向上させた。

本願のPOI状態認識モデルでは、ERNIEモデルを用いて入力テキストに対応する単語シーケンスに対して語義特徴の抽出することにより、POI名におけるロングワードの問題を効率的に解決することができる。

本出願は、マイニングされたチュープルを使用してPOIデータベースを更新することにより、後続のPOIデータベースによるサービスがより正確になり、ユーザの体験を向上させた。

前記選択可能な方式における他の効果は、以下で具体的な実施例と合わせて説明する。

本出願の実施形態が適用され得る方法または装置の例示的なシステムアーキテクチャを示す。本出願の実施形態により提供されるPOI状態認識モデルを構築する方法のフローチャートである。本出願の実施形態により提供される訓練データを取得する方法のフローチャートである。本出願の実施形態により提供されるPOI状態認識モデルの模式図である。本出願の実施形態により提供されるPOI状態情報を取得する方法のフローチャートである。本出願の実施形態により提供されるテキストに対してラベル予測を行う実例図である。本出願の実施形態により提供されるPOI状態認識モデルを構築するための装置構成図である。本出願の実施形態四により提供されるPOI状態情報を取得するための装置構成図である。本出願の実施形態を実現するための電子デバイスのブロック図である。

以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図1は、本出願の実施形態が適用され得る方法または装置の例示的なシステムアーキテクチャを示した。図1に示されたように、上記システムアーキテクチャは、端末デバイス101および102、ネットワーク103、およびサーバ104を含むことができる。ネットワーク103は、端末デバイス101、102とサーバ104との間に通信リンクの媒体を提供する。ネットワーク103は、有線、無線通信リンク、または光ファイバケーブルなどの様々なタイプの接続を含むことができる。

ユーザは、端末デバイス101、102を用いて、ネットワーク103を介してサーバ104とインタラクションすることができる。端末デバイス101,102には、地図系アプリケーション、ウェブブラウザアプリケーション、通信系アプリケーション等の各種のアプリケーションをインストールすることができる。

端末デバイス101および102は、地図系アプリケーションを実行できる様々な種類のユーザデバイスであってよい。スマートフォン、タブレット、PC、スマートテレビなどを含むが、これらに限定されない。本明細書により提供される関心ポイントPOI状態情報を取得する装置およびPOI状態認識モデルを構築する装置は、前記サーバ104内に設置、実行されてもよく、サーバ104と別のデバイスに実行されても良い。これは、複数のソフトウェアまたはソフトウェアモジュールとして実現されても良く（例えば、分散的なサービスを提供する）、単一のソフトウェアまたはソフトウェアモジュールとして実現されても良いが、ここで限定されない。サーバ104は、POIデータベース105とインタラクションすることができる。具体的には、サーバ104は、POIデータベース105からデータを取得しても良く、POIデータベース105にデータを格納しても良い。POIデータベース105には、POI情報を含む地図データが格納される。

例えば、前記のサーバ104にPOIの状態情報を取得する装置が設置されて動作しており、サーバ104は、本出願の実施形態により提供された方法でPOIの状態情報を取得し、次に取得されたPOIの状態情報でPOIデータベース105を更新する。サーバ104は、端末デバイス101、102の検索リクエストに応答してPOIデータベース105を検索し、検索されたPOIの情報を端末デバイス101、102に返信することができる。

サーバ104は、単一のサーバであってもよく、複数のサーバからなるサーバ群であってもよい。また、104は、サーバとして存在することに加えて、より高い演算性能を有する他のコンピュータシステムまたはプロセッサであってもよい。理解すべきなのは、図1における端末デバイス、ネットワーク、サーバ、およびデータベースの数は、単なる例示的なものである。実現の必要に応じて、任意の数の端末デバイス、ネットワーク、サーバ、およびデータベースを有することができる。

本出願は、インターネットビッグデータが有する豊富性とリアルタイム性に基づいて、インターネットビッグデータをデータソースとして、インターネットテキストからPOI状態情報をマイニングする。その主旨は、インターネットから予め設定された期間内にPOI情報を含むテキストを取得し、予め訓練されたPOI状態認識モデルを用いて前記テキストを認識してPOI名と上記POI名に対応するPOI状態情報とを含む前記テキストにおけるチュープルを得ることにある。なお、本出願の全体的な態様から見ると、POI状態認識モデルの構築と、POI状態認識モデルを用いたPOI状態情報の取得との2つの部分に関連する。これら2つの部分は、それぞれ実施形態に関連して以下に詳細に説明される。

実施形態一

図2は、本明細書の実施形態により提供されるPOI状態認識モデルを構築するための方法のフローチャートであり、図2に示されたように、上記方法は以下のステップを含むことができる。

201において、テキストと、テキストに含まれるPOI名およびPOI状態に対するラベル標識結果とを含む訓練データが取得される。

訓練データを取得する際に、人工標識の方式によりPOI名およびPOI状態を含むテキストのいくつかを訓練データとして標識することができる。しかし、この方式は人手の制約から少量のデータしか生成できず、モデル訓練の正確性に一定の制約を与える。ここで、好適な実施形態として、図3に示された方式で訓練データを取得することができ、具体的には、以下を含む。

301において、予め訓練されたPOI認識器を用いて、POI名を含むテキストをインターネットから取得する。

ウェブページからインターネットテキストをクロールし、テキストにPOI情報が含まれることを確実にするために、一つのPOI認識器を訓練し、且つPOI認識器により認識されたPOI情報が含まれているテキストを保留することができる。

なお、POI認識器を予め訓練する過程は、POIデータベースから人気のあるPOI情報を抽出した後に、抽出したPOI情報を用いてインターネットで検索し、検索して得られたテキストと対応するPOI情報を用いてラベル予測モデルを訓練することによりPOI認識器を得る。なお、人気のあるPOI情報は、検索の人気度がある程度を超えたPOI情報、例えば設定された期間内の検索回数が予め設定された回数閾値を超えたPOI情報であって良い。POI認識器は、テキストが入力された後、そのテキストに含まれるPOI情報を出力することができる。なお、POI情報は、POI名を含むことができる。説明すべきなのは、本出願では、POI名は、POIを明示して区分できる情報を指し、例えば、「マクドナルド」、「McDonald's」、「MC」等の文字列や認識子等をPOI名とすることができる。

POI認識器を訓練する過程で採用するラベル予測モデルは、双方向LSTM（Long Short-Term Memory、長短期記憶ネットワーク）とCRF（conditional random field、条件付き確率場）からなる構造であってよい。もちろん、他のタイプの構造を採用してもよいが、ここでは詳しく説明しない。

302において、予め構築された辞書を用いてPOI名を含むテキストからPOI状態変化情報を含まないテキストをフィルタリングしてシードテキストを得る。

ここで、辞書にはPOI状態変化情報を含む単語が含まれる。POIの状態変化を記述する情報をテキストに確実に含めるために、POIの状態変化に相関する語義を持つ辞書を予め構築しておく。なお、POI状態変化には、新設、移転、名称変更、閉鎖などが含まれて良い。

前記の301と302の処理を経て得られたシードテキストには、POI名とPOI状態変化情報が含まれている。前記301および302は、シードテキストを取得するための一つの好ましい実施形態であり、前記の方法に加えて、簡単に人工でテキストを構築する方法を採用してシードテキストを取得しても良い。

303において、シードテキストに含まれるPOI名と、そのPOI名に対応するPOI状態に対するラベル標識結果を取得する。

本ステップで取得するシードテキストの数は多くなく、人工による標識が可能である。しかし、数の少ないシードテキストを訓練データとしてPOI状態認識モデルの訓練を行うと、POI状態認識モデルの精度が十分でない可能性がある。訓練効果をさらに高めるために、この上でPOIデータベースを用いてシードテキストをデータ強化することができる。つまり、304において、POIデータベースにおけるシードテキストに含まれるPOI名と同じタイプのPOI名を用いて、シードテキストの中のPOI名を置換して拡張テキストを得る。

具体的には、分類モデルを用いてシードテキストに含まれるPOI名とPOIデータベースにおけるPOI名とをそれぞれ分類することができる。分類されたカテゴリ、例えばレストランクラス、会社クラス、住宅クラスなどは、POIの特性を区別するために用いられる。

例えば、シードテキストが「A社は移転したので、移転期間中は業務を中止しました」であり、シードテキストに含まれているPOI名「A社」が会社クラスである場合に、POIデータベースから同じタイプのPOI名「B社」、「C社」などを見つけ、これらの名称をそれぞれ利用してシードテキストの中の「A」社を置換して、「B社は移転したので、移転期間中は業務を中止しました」、「C社は移転したので、移転期間中は業務を中止しました」などの拡張テキストを得ることができる。

ここで、分類モデルは、予めPOIデータベースにおける多数の（POI名、タイプラベル）ペアを用いて訓練することができ、分類モデルの構造は、例えば双方向LSTMやsoftmaxからなる構造を採用することができる。

305において、シードテキストおよび拡張テキストにより訓練データを得る。

シードテキストを拡張すると、大量の拡張テキストが得られ、これらのシードテキストと拡張テキストを合わせて訓練データを構成する。これらの訓練データには、テキストと、テキストに含まれるPOI名とそのPOI名に対応するPOI状態に対するラベル標識結果が含まれる。

図2を継続して参照し、図3に示す手順を経て訓練データが得られた後、202において、テキストに対応する単語シーケンスを用いて、第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を取得し、このテキストに含まれるPOI名のラベル標識結果を前記第1のラベル予測サブモデルの出力目標とし、前記テキストに含まれるPOI状態のラベル標識結果を前記第2のラベル予測サブモデルの出力目標とし、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを訓練して前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを含むPOI状態認識モデルを得る。

本出願で訓練されたPOI状態認識モデルは、少なくとも、テキストに含まれるPOI名を予測する第1のラベル予測サブモデルと、テキストに含まれるPOI状態変化情報を予測する第2のラベル予測サブモデルにより構成される結合モデルである。両者は並行して動作する。しかし、実際には、一つのテキストに複数のPOI名が含まれている可能性があるが、状態変化が存在するPOI名はそのうちの一つであるため、「支援POI」と呼ばれる他のPOI名は認識に干渉することになり、即ちテキストにPOI状態記述に対応するPOI名が存在しない。上記干渉の問題を解決するために、本出願の実施形態では、結合モデルにさらに支援POI名を認識する第3のラベル予測サブモデルを備え、訓練データにさらにテキストの中の支援POIに対するラベル標識結果が含まれる、という好適な実施形態が提供される。ここでは、このような好適な実施形態を例にしてPOI状態認識モデルの訓練を説明する。

POI状態認識モデルの全体について、入力全体は訓練データの中のテキストに対応する単語シーケンスである。図4に示されたように、POI状態認識モデルでは、まずテキストに対応する単語シーケンスに対して語義特徴の抽出を行ってテキストの隠れ層ベクトルシーケンスを得る。従来のword2vecモデル、gloveモデルなどを用いて単語シーケンスの語義特徴の抽出を実現することができるが、POI名にロングワードが良く用いられるため、従来のモデルでは単語シーケンスの語義をうまく表現することができない。したがって、本出願では、ERNIE（Enhanced Representation from kNowledge IntEgration、知識強化語義表現）モデルによりテキストに対応する単語シーケンスに対して語義特徴の抽出を行うという好適な実施形態が採用された。ERNIEモデルは、subword（サブワード）ポリシー、即ちBPE（Byte-Pair Encoding、バイト対符号化）アルゴリズムを用いてPOI名をより細かい粒度の単語に分解するため、ロングワードの問題を効率的に解決した。

訓練データの中のあるテキストXに対応する単語シーケンスは

で示すと仮定する。ここで、ｎはXにおける単語の数である。

をERNIEモデルの入力とする場合に、ERNIEモデルは、語義特徴を抽出した後に隠れ層ベクトルシーケンス

を出力する。

図4に示されたように、隠れ層ベクトルシーケンス

は、それぞれ第1のラベル予測サブモデル、第2のラベル予測サブモデル、第3のラベル予測サブモデルへの入力とする。

第1ラベル予測サブモデルの出力目標は、そのテキストに含まれるPOI名のラベル標識結果である。第2ラベル予測サブモデルの出力目標は、そのテキストに含まれるPOIの状態変化情報のラベル標識結果である。第3のラベル予測サブモデルの出力目標は、そのテキストの中の支援POIのラベル標識結果である。3つのサブモデルを全体として結合訓練を行い、反復訓練の過程で各モデルのパラメータを継続的に更新する。

前記の第1のラベル予測サブモデル、第2のラベル予測サブモデル、および第3のラベル予測サブモデルは、基本的に同じ原理で動作する。共有された隠れ層ベクトルシーケンス

が得られた後、CRFを用いてラベル予測を行うことができ、各サブモデルの基本原理は以下の通りである。

上記サブモデルが出力した予測列が

である場合、この列のスコア、即ち

を得ることができる。

ここで、

であり、

はモデルパラメータの一つである重みパラメータである。

であり、

は実数域を表し、dは

の次元、cはモデルの出力ラベルの数である。

は

から

への遷移確率マトリックスを表す。

最終的には、softmax層を使用して、各予測列Yの確率

を得ることができる。

ここでは、

はすべての予測列からなる集合である。

訓練段階で用いた損失関数は、

である。

第1のラベル予測サブモデル、第2のラベル予測サブモデル、第3のラベル予測サブモデルの損失関数は、それぞれ

、

であり、形式的には同じであるが、それぞれ異なるモデルパラメータを含んでいる場合に、訓練過程において、結合損失関数

の導関数を用いて、時間逆伝播(BPTT)によりすべてのモデルパラメータを訓練することができる。

ここでは、

は、

という公式を用いてよい。

はすべてのモデルパラメータ集合を表し、

は正則化されたパラメータである。

前記のCRFメカニズム以外にも、各ラベル予測サブモデルにSoftmaxなどの他のメカニズムを用いることができ、ここでは詳しく説明しない。

前記の結合損失関数を用いて訓練を行った後に、最終的なPOI状態認識モデルを得る。POI状態認識モデルは、入力されたテキストを認識してテキストの中のチュープルを得ることができる。上記チュープルは、POI名とPOI名に対応するPOI状態情報とを含み、（POI名、状態情報）として表される。

実施形態二

図5は、本出願の実施形態により提供されるPOI状態情報を取得する方法のフローチャートである。上記方法は、図2に示されたフローにより構築されたPOI状態認識モデルに基づく。図5に示されたように、上記方法は以下のステップを含むことができる。

501において、インターネットから予め設定された期間内にPOI情報を含むテキストを取得する。

POI状態情報のリアルタイム性を確保するために、インターネットから最近のテキストをクロールした後、予め訓練されたPOI認識器を用いて取得されたテキストに対してPOI情報認識を行い、POI情報を含むテキストを保留することができる。

POI認識器に関する記述は、実施形態一のステップ301に関する記述を参照することができ、ここでは言及しない。

502において、訓練により得られたPOI状態認識モデルを用いて上記テキストを認識して上記テキストの中のチュープル、すなわち（POI名、状態情報）を得る。

なお、POI状態認識モデルは、テキストに対応する単語シーケンスに対してPOI名のラベル予測とPOI状態のラベル予測をそれぞれ行い、POI名のラベル予測とPOI状態のラベル予測の結果をアラインメントしてチュープルを得る。

まずPOI状態認識モデルはテキストに対応する単語シーケンスに対して語義特徴の抽出を行い、例えば図4中のERNIEモデルにより入力テキストに対応する単語シーケンスに対して語義特徴の抽出を行って隠れ層ベクトルシーケンスを取得し、次に第1のラベル予測サブモデルにより得られた隠れ層ベクトルシーケンスに対してPOI名のラベル予測を行い、第2のラベル予測サブモデルにより前記隠れ層ベクトルシーケンスに対してPOI状態のラベル予測を行う。

前記のアラインメント処理は、テキストに対応する単語シーケンスについて予測された各POI名のラベル境界を特定し、POI名のラベル境界内に対応するPOI状態ラベルを特定し、投票メカニズムに基づいて、上記境界内で最も多く出現したPOI状態ラベルを用いて上記POI名に対応するPOI状態を特定することを含んで良い。

例えば、入力テキストを「

（坪山図書館開業に続き、坪山芸術博物館も3月30日に正式開業、該館は坪山中心公園内に位置する）」と仮定する。

POI状態認識モデルの予測を経て付与されたラベルは図6に示された。ここで、「O」は、関連するラベルがないこと、またはPOI名およびPOI状態が認識されていないラベルであることを意味する。「B」はPOI名の開始ラベルを示し、「I」はPOI名の中間ラベルを示し、即ち「B」はPOI名ラベルの開始境界を示し、連続する最後のIはPOI名の終了境界を示す。「new」は、POI状態情報の中の「新設」状態ラベルを示す。

以上のことからわかるように、このうち2つの「new」ラベルは「坪山図書館」に対応するPOI名称ラベル境界内にあり、2つの「new」による投票結果は「new」であることから、一つのチュープル（坪山図書館、新設）を特定することができる。他の3つの「new」ラベルは「坪山芸術博物館」に対応するPOI名称ラベル境界内にあり、3つの「new」による投票結果は「new」であるため、一つのグループ（坪山芸術博物館、新設）を特定することができる。一方、POI状態認識モデルの認識過程では、「坪山中心公園」もPOI名であるが、支援POIであるため、POI状態ラベルは標識されない。

説明すべきなのは、前記の例では単語の粒度でラベル予測を行っているが、文字の粒度でラベル予測を行ってもよい。

503において、得られたチュープルを用いてPOIデータベースを更新する。

インターネットテキストに対して一連のチュープルをマイニングした後、マイニングされたチュープルをPOIデータベースに記録されたPOI名およびそれに対応するPOI状態情報と照合することができ、不一致がある場合には、マイニングされたチュープルを使用してPOIデータベースに記録されたPOI名およびそれに対応するPOI状態情報を更新することができる。

ここで、更新を行う際には、マイニングされたチュープルの出現回数に基づいてチュープルの正確性を評価することができ、例えば、出現回数が予め設定された回数閾値よりも大きいチュープルは正確であると考えられ、正確なチュープルを用いてPOIデータベースを更新することができる。

以上は、本出願により提供される方法を詳しく説明した。以下は、実施形態と合わせて本出願により提供される装置を詳しく説明する。

実施形態三
図7は、本出願の実施形態により提供されるPOI状態認識モデルを構築するための装置構成図である。図7に示されたように、上記装置は、取得ユニット01と訓練ユニット02とを備えることができ、各構成ユニットの主な機能は以下の通りである。

取得部01は、テキストと、上記テキストに含まれるPOI名およびPOI状態に対するラベル標識結果とを含む訓練データを取得する。

具体的には、取得ユニット01は、まず、シードテキストと、シードテキストに含まれるPOI名およびPOI名に対応するPOI状態に対するラベル標識結果とを取得した後に、POIデータベースにおけるシードテキストに含まれるPOI名と同じタイプのPOI名を用いて、シードテキストの中のPOI名を置換して拡張テキストを取得し、シードテキストと拡張テキストにより訓練データを得られる。

なお、シードテキストを取得する際には、予め訓練されたPOI認識器を利用してインターネットからPOI名を含むテキストを取得し、予め構築された辞書を用いて、POI名を含むテキストからPOI状態変化情報を含まないテキストをフィルタリングしてシードテキストを得られる。ここで、辞書にはPOI状態変化情報を表す単語が含まれる。

訓練ユニット02は、テキストに対応する単語シーケンスを用いて第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を取得し、このテキストに含まれるPOI名のラベル標識結果を第1ラベル予測サブモデルの出力目標とし、テキストに含まれるPOI状態のラベル標識結果を第2のラベル予測サブモデルの出力目標とし、第1のラベル予測サブモデル及び第2のラベル予測サブモデルを訓練して第1のラベル予測サブモデル及び第2のラベル予測サブモデルを含むPOI状態認識モデルを得る。

具体的には、訓練ユニット02は、テキストに対応する単語シーケンスを用いて第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を得る際に、具体的に、テキストに対応する単語シーケンスに対して語義特徴の抽出を行って上記テキストの隠れ層ベクトルシーケンスを取得し、隠れ層ベクトルシーケンスをそれぞれ第1のラベル予測サブモデルの入力と第2のラベル予測サブモデルの入力とする。

なお、ERNIEモデルを用いてテキストに対応する単語シーケンスに対して語義特徴の抽出を行うことにより、ロングワードに対する語義特徴の抽出の正確度を向上させることができる。

好ましい実施形態として、前記訓練データは、テキストの中の支援POI名に対するラベル標識結果をさらに含む。支援POI名は、テキストの中に対応するPOI状態の記述が存在しないPOI名である。

それに応じて、訓練ユニット02は、更に、テキストの隠れ層ベクトルシーケンスを第3の予測サブモデルの入力とし、上記テキストの支援POI名のラベル標識結果を第3の予測サブモデルの出力目標とし、第1のラベル予測サブモデル及び第2のラベル予測サブモデルを訓練する際に、第3のラベル予測サブモデルも併せて訓練する。

なお、第1のラベル予測サブモデル、第2のラベル予測サブモデル、および第3のラベル予測サブモデルは、いずれもCRFメカニズムを採用し、且つ結合損失関数による結合訓練を行うことができる。

実施形態四
図8は、本実施形態四により提供されるPOI状態情報を取得するための装置構成図である。図8に示されたように、上記装置は、テキスト取得ユニット11と状態認識ユニット12とを備えて良く、更に更新ユニット13を備えても良い。なお、各構成要素の主な機能は以下のとおりである。

テキスト取得ユニット11は、インターネットから予め設定された期間内にPOI情報を含むテキストを取得する。

具体的には、テキスト取得ユニット11は、インターネットから予め設定された期間内のテキストを取得し、予め訓練により得られたPOI認識器を用いて、取得されたテキストに対してPOI情報認識を行い、POI情報を含むテキストを保留することができる。

なお、POI認識器は、予め認識器訓練ユニット（未図示）により事前に訓練されて良い。認識器訓練ユニットは、POIデータベースから人気のあるPOI情報を抽出し、抽出されたPOI情報を用いてインターネットで検索し、探索により得られたテキストと対応するPOI情報を用いてラベル予測モデルを訓練してPOI認識器を得る。

状態認識ユニット12は、予め訓練されたPOI状態認識モデルを用いてテキストを認識してPOI名とそのPOI名に対応するPOI状態情報とを含むテキストの中のチュープルを得る。POI状態認識モデルは、テキストに対応する単語シーケンスに対して、POI名のラベル予測とPOI状態のラベル予測とをそれぞれ行い、POI名のラベル予測結果とPOI状態のラベル予測結果とをアラインメントしてチュープルを得る。

具体的には、状態認識ユニット12は、POI状態認識モデルを用いて、テキストに対応する単語シーケンスに対して語義特徴の抽出を行って隠れ層ベクトルシーケンスを取得し、隠れ層ベクトルシーケンスに対してPOI名のラベル予測を行い、隠れ層ベクトルシーケンスに対してPOI状態のラベル予測を行うことができる。

ここで、状態認識ユニット12は、アライメントの処理を行う際に、具体的に、予測された各POI名のラベル境界を特定し、POI名のラベル境界内で対応するPOI状態ラベルを特定し、投票メカニズムに基づいて、上記境界内で最も多く出現したPOI状態ラベルを用いて、上記POI名に対応するPOI状態を特定する。

更新ユニット13は、得られたチュープルを用いてPOIデータベースを更新する。

インターネットテキストに対して一連のチュープルをマイニングした後、更新ユニット13は、マイニングされたチュープルをPOIデータベースに記録されたPOI名及びそれに対応するPOI状態情報と照合し、不一致があれば、マイニングされたチュープルを用いてPOIデータベースに記録されたPOI名及びそれに対応するPOI状態情報を更新することができる。

なお、更新ユニット13は、更新の際に、マイニングされたチュープルの出現回数に基づいてチュープルの正確度を評価することができ、例えば、出現回数が予め設定された回数閾値よりも大きいチュープルを正確とみなし、正確なチュープルを用いてPOIデータベースを更新することができる。

以下で具体的な応用例を列挙する。

インターネットから最近1か月間のPOI情報を含むテキストを取得する。これらのテキストは膨大な数になる可能性がある。ここでは、その例をいくつか示す。

インターネットテキスト1:上海大学科学技術園区と上海望源企業発展有限公司は宝山区の羅森宝商務センターで上海大学望源科学技術園を設立した。

インターネットテキスト2: 以前に火岩グランドキャニオンは、景勝地を宣言したときに烏龍山グランドキャニオンに名称が変更された。

インターネットテキスト3:嵩明県不働産登記センターは2019年6月28日に秀嵩街66号に移転し、移転期間中は業務を一時停止する。

インターネットテキスト4:三江源の自然生態環境を保護するため、年保玉則景勝地は全面的に閉鎖された。

取得されたPOI情報を含むインターネットテキストをそれぞれPOI状態認識モデルに入力し、POI状態認識モデルはインターネットテキストのそれぞれについてその中のチュープルを認識する。認識結果は、インターネットテキスト1に対応するチュープル：（上海大学望源科学技術園、新設）、インターネットテキスト2に対応するチュープル:（火岩グランドキャニオン、名称変更）、インターネットテキスト3に対応するチュープル:（嵩明県不動産登記センター、移転）、インターネットテキスト4に対応するチュープル:（年保玉則景勝地、閉鎖）になる。

取得された多数のチュープルについては、出現回数によって正確度を判定することができ、例えば、あるチュープルが認識された回数が予め設定された閾値を超えた場合に正確であるとみなし、それの更新を利用してPOIデータベースを更新することができる。また、人工で検証することにより、取得されたチュープルの正確度を検証することもできる。

以上のプロセスを使用すると、インターネットドキュメントから、新設、名称変更、移転、閉鎖などの変化したPOI状態情報を自動的かつ即時に抽出し、且つPOIデータベースを即時に更新することにより、POIデータベースを使用して提供されるサービスが正確なPOI情報に基づくものになり、ユーザの体験を向上させることができる。

本出願の実施形態によれば、本出願は更に、電子デバイスおよび可読記憶媒体を提供する。

図9は、本出願の実施形態に係る電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本出願の実現を限定することが意図されない。

図9に示すように、この電子デバイスは、一つ又は複数のプロセッサ901、メモリ902、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図9において、一つのプロセッサ901を例とする。

メモリ902は、本出願で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供されたPOI状態認識モデルの構築またはPOI状態情報の取得の方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記憶媒体は、本願に提供されたPOI状態認識モデルの構築またはPOI状態情報の取得の方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ902は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例におけるPOI状態認識モデルの構築またはPOI状態情報の取得の方法に対応するプログラムコマンド/ユニットを記憶するために用いられる。プロセッサ901は、メモリ902に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるPOI状態認識モデルの構築またはPOI状態情報の取得の方法を実現する。

メモリ902は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域はPOI状態認識モデルの構築またはPOI状態情報の取得による電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ902は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ902は、プロセッサ901に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

POI状態認識モデルの構築またはPOI状態情報の取得の方法の電子デバイスは、更に、入力装置903と出力装置904とを備えても良い。プロセッサ901、メモリ902、入力装置903及び出力装置904は、バス又は他の手段により接続されても良く、図9においてバスによる接続を例とする。

入力装置903は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置904は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。上記表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、上記記憶システム、上記少なくとも一つの入力装置、及び上記少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり取得し、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、上記グラフィカルユーザインターフェースもしくは上記ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。

以上の技術案から分かるように、本出願により提供される方法、装置、デバイスおよびコンピュータ記憶媒体は、以下の利点を有する。

1）本出願は、POI情報を含むインターネットテキストからPOI名及びPOI名に対応するPOI状態情報をマイニングすることにより、POI状態変化イベントに対するインターネットの即時な反応を十分に利用し、状態変化が発生したPOI情報を人工で確定する方式と比較して、人件費を節約し、時効性及び正確性を向上した。

2）本出願は、インターネットテキストにPOI状態変化情報が含まれていることを認識するだけでなく、どのPOI名に具体的にどんなPOI状態変化が発生したか、例えば新設、移転、名称変更及び閉鎖を認識することができる。

3）本願では、POI状態認識モデルは、従来の各サブタスクの流れ作業の形式、即ちテキストからPOI名を認識してからPOI名のPOI状態情報を認識することではなく、複数のサブタスクを並列かつ関連して処理する方式、即ちテキストのPOI名の予測とPOI状態の予測を並列に実行してから、2つの予測結果をアラインメント処理してチュープルを得ることを採用する。

4）本出願では、テキスト中に同時に複数のPOI名が含まれているが、何れか一つのPOI名のみに状態変化が存在する場合に対して、POI状態認識モデルに支援POI名に対する予測サブモデルを統合して併せて訓練を行うことにより、テキスト中に本当に状態変化が存在するPOI名を正確に認識して、支援POI名の干渉を排除することができる。

5）POI状態認識モデルを訓練する際に、POIデータベースを用いてシードテキストをデータ拡張して訓練データを得ることにより、訓練テキストの数を拡大してPOI状態認識モデルの正確度を向上させた。

6）POI状態認識モデルでは、ERNIEモデルを用いて入力テキストに対応する単語シーケンスに対して語義特徴の抽出する。ERNIEモデルは、subwordポリシーを使用し、即ちBPEアルゴリズムを用いてPOI名をより細かい粒度の単語に分解するため、ロングワードの問題を効率的に解決した。

7）マイニングされたチュープルを使用してPOIデータベースを更新することにより、後続のPOIデータベースによるサービスがより正確になり、ユーザの体験を向上させた。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims

関心ポイントPOI状態情報を取得する方法であって、
予め設定された期間内にPOI情報を含むテキストをインターネットから取得し、
予め訓練されたPOI状態認識モデルを用いて前記テキストを認識して、POI名および前記POI名に対応するPOI状態情報を含む、前記テキストにおけるチュープルを取得する、ことを含み、
前記POI状態認識モデルは、前記テキストに対応する単語シーケンスに対してPOI名のラベル予測とPOI状態のラベル予測とをそれぞれ行い、POI名のラベル予測結果とPOI状態のラベル予測結果とをアラインメントして前記チュープルを得る、方法。
前記予め設定された期間内にPOI情報を含むテキストをインターネットから取得することは、
インターネットから予め設定された期間内のテキストを取得し、
事前に訓練されたPOI認識器を用いて、取得されたテキストに対してPOI情報認識を行い、
POI情報を含むテキストを保留すること、
を含む請求項1に記載の方法。
前記POI認識器は、
POIデータベースから人気のあるPOI情報を抽出し、
抽出されたPOI情報を利用してインターネットで検索し、
検索により得られたテキストおよび対応するPOI情報を用いてラベル予測モデルを訓練して前記POI認識器を得る、ことにより訓練された、
請求項2に記載の方法。
前記POI状態認識モデルが、前記テキストに対応する単語シーケンスに対してPOI名のラベル予測とPOI状態のラベル予測をそれぞれ行うことは、
前記POI状態認識モデルを用いて、前記テキストに対応する単語シーケンスに対して語義特徴の抽出を行って、隠れ層ベクトルシーケンスを取得し、
前記隠れ層ベクトルシーケンスに対してPOI名のラベル予測を行い、且つ、前記隠れ層ベクトルシーケンスに対してPOI状態のラベル予測を行うこと、
を含む請求項１から３の何れか一項に記載の方法。
前記POI名のラベル予測結果とPOI状態のラベル予測結果とをアラインメントして前記チュープルを得ることは、
予測された各POI名のラベル境界を特定し、
POI名のラベル境界内に対応するPOI状態ラベルを特定し、投票メカニズムに基づいて、前記ラベル境界内で最も多く出現したPOI状態ラベルを用いて前記POI名に対応するPOI状態を特定することを、
含む請求項１から４の何れか一項に記載の方法。
得られたチュープルを用いてPOIデータベースを更新することをさらに含む請求項1から5の何れか1項に記載の方法。
POI状態認識モデルを構築する方法であって、
テキストと、前記テキストに含まれるPOI名およびPOI状態に対するラベル標識結果とを含む訓練データを取得し、
テキストに対応する単語シーケンスを用いて第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を取得し、前記テキストに含まれるPOI名のラベル標識結果を前記第1のラベル予測サブモデルの出力目標とし、前記テキストに含まれるPOI状態のラベル標識結果を前記第2のラベル予測サブモデルの出力目標として、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを訓練して、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを含むPOI状態認識モデルを得る、ことを含み、
構築された前記POI状態認識モデルは、入力されたテキストを認識してPOI名と前記POI名に対応するPOI状態情報とを含む、前記テキストにおけるチュープルを得る、方法。
前記訓練データを取得することは、
シードテキスト、および前記シードテキストに含まれるPOI名および前記POI名に対応するPOI状態に対するラベル標識結果を取得し、
POIデータベースにおける前記シードテキストに含まれるPOI名と同じタイプのPOI名を使用して、前記シードテキストにおけるPOI名を置換して拡張テキストを取得し、
前記シードテキストおよび前記拡張テキストにより前記訓練データを得る、ことを含む請求項7に記載の方法。
前記シードテキストを取得することは、
予め訓練されたPOI認識器を使用してインターネットからPOI名を含むテキストを取得し、
POI状態変化情報を表す単語が含まれる、予め構築された辞書により、前記POI名を含むテキストからPOI状態変化情報を含まないテキストをフィルタリングして前記シードテキストを得ることを、
含む請求項8に記載の方法。
前記テキストに対応する単語シーケンスを使用して第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を得ることは、
テキストに対応する単語シーケンスに対して語義特徴の抽出を行って前記テキストの隠れ層ベクトルシーケンスを取得し、
前記隠れ層ベクトルシーケンスをそれぞれ前記第1のラベル予測サブモデルの入力と前記第2のラベル予測サブモデルの入力とすることを、
含む請求項７から９の何れか一項に記載の方法。
前記テキストに対応する単語シーケンスに対して語義特徴の抽出を行うことは、
知識強化語義表現ERNIEモデルを用いて、テキストに対応する単語シーケンスに対して語義特徴の抽出を行うことを、含む請求項10に記載の方法。
前記訓練データは、テキストにおける支援POI名に対するラベル標識結果を更に含み、前記支援POI名はテキスト内に対応するPOI状態記述がないPOI名であり、
テキストの隠れ層ベクトルシーケンスを第3のラベル予測サブモデルの入力とし、前記テキストの支援POI名のラベル標識結果を第3のラベル予測サブモデルの出力目標とし、
前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを訓練する際に、前記第3のラベル予測サブモデルも併せて訓練することを、更に含む請求項１０または１１に記載の方法。
前記第1のラベル予測サブモデルおよび前記第2のラベル予測サブモデルは、条件付き確率場CRFメカニズムを採用する、請求項７から１２の何れか一項に記載の方法。
POI状態情報を取得する装置であって、
予め設定された期間内にPOI情報を含むテキストをインターネットから取得するテキスト取得ユニットと、
予め訓練されたPOI状態認識モデルを用いて前記テキストを認識して、POI名および前記POI名に対応するPOI状態情報を含む前記テキストにおけるチュープルを得る状態認識ユニットと、を備え、
前記POI状態認識モデルは、前記テキストに対応する単語シーケンスに対してPOI名のラベル予測とPOI状態のラベル予測とをそれぞれ行い、POI名のラベル予測結果とPOI状態のラベル予測結果とをアラインメントして前記チュープルを得る、装置。
前記テキスト取得ユニットは、具体的に、インターネットから予め設定された期間内のテキストを取得し、事前に訓練されたPOI認識器を用いて、取得されたテキストに対してPOI情報認識を行い、POI情報を含むテキストを保留する、請求項14に記載の装置。
前記状態認識ユニットは、具体的に、前記POI状態認識モデルを用いて、前記テキストに対応する単語シーケンスに対して語義特徴の抽出を行って、隠れ層ベクトルシーケンスを取得し、前記隠れ層ベクトルシーケンスに対してPOI名のラベル予測を行い、且つ、前記隠れ層ベクトルシーケンスに対してPOI状態のラベル予測を行う、請求項１４または１５に記載の装置。
前記状態認識ユニットは、前記アラインメントを行う場合に、具体的に、予測された各POI名のラベル境界を特定し、POI名のラベル境界内に対応するPOI状態ラベルを特定し、投票メカニズムに基づいて、前記ラベル境界内で最も多く出現したPOI状態ラベルを用いて前記POI名に対応するPOI状態を特定する、請求項１４から１６の何れか一項に記載の装置。
得られたチュープルを用いてPOIデータベースを更新する更新ユニットを更に備える、請求項１４から１７の何れか一項に記載の装置。
POI状態認識モデルを構築する装置であって、
テキストと、前記テキストに含まれるPOI名およびPOI状態に対するラベル標識結果とを含む訓練データを取得する取得ユニットと、
テキストに対応する単語シーケンスを用いて第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を取得し、前記テキストに含まれるPOI名のラベル標識結果を前記第1のラベル予測サブモデルの出力目標とし、前記テキストに含まれるPOI状態のラベル標識結果を前記第2のラベル予測サブモデルの出力目標として、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを訓練して、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを含むPOI状態認識モデルを得る訓練ユニットと、を備え、
構築された前記POI状態認識モデルは、入力されたテキストを認識してPOI名と前記POI名に対応するPOI状態情報を含む、前記テキストにおけるチュープルを得る、装置。
前記取得ユニットは、具体的に、
シードテキスト、および前記シードテキストに含まれるPOI名および前記POI名に対応するPOI状態に対するラベル標識結果を取得し、
POIデータベースにおける前記シードテキストに含まれるPOI名と同じタイプのPOI名を使用して、前記シードテキストにおけるPOI名を置換して拡張テキストを取得し、
前記シードテキストおよび前記拡張テキストにより前記訓練データを得る、
請求項19に記載の装置。
前記訓練ユニットは、テキストに対応する単語シーケンスを使用して第1のラベル予測サブモデルおよび第2のラベル予測サブモデルの入力を得る場合に、具体的に、
テキストに対応する単語シーケンスに対して語義特徴の抽出を行って前記テキストの隠れ層ベクトルシーケンスを取得し、
前記隠れ層ベクトルシーケンスをそれぞれ前記第1のラベル予測サブモデルの入力と前記第2のラベル予測サブモデルの入力とする、請求項１９または２０に記載の装置。
前記訓練データは、テキストにおける支援POI名に対するラベル標識結果を更に含み、前記支援POI名はテキスト内に対応するPOI状態記述がないPOI名であり、
前記訓練ユニットは、更に、テキストの隠れ層ベクトルシーケンスを第3のラベル予測サブモデルの入力とし、前記テキストの支援POI名のラベル標識結果を第3のラベル予測サブモデルの出力目標とし、前記第1のラベル予測サブモデル及び前記第2のラベル予測サブモデルを訓練する際に、前記第3のラベル予測サブモデルも併せて訓練する、請求項１９から２１の何れか一項に記載の装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも一つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサに請求項1～13の何れか一項に記載の方法を実行させる電子デバイス。
コンピュータに請求項1～13の何れか1項に記載の方法を実行させるためのコンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体。