JP2023519049A

JP2023519049A - Ｐｏｉ状態情報を取得する方法、及び装置

Info

Publication number: JP2023519049A
Application number: JP2022521351A
Authority: JP
Inventors: フアン、ジジョウ; スン、イボ; ワン、ハイフェン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-22
Filing date: 2021-07-20
Publication date: 2023-05-10
Anticipated expiration: 2041-07-20
Also published as: US11977574B2; US20230409626A1; CN112925995B; KR20220120545A; CN112925995A; WO2022174552A1; EP4075303A4; JP7362998B2; EP4075303A1

Abstract

本開示は、人工知能技術の分野のビッグデータ技術に関するＰＯＩ状態情報を取得する方法、及び装置を開示する。具体的な実現案は、インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得し、予めトレーニングされたＰＯＩ状態識別モデルを使用してテキストを識別し、テキスト内の２つ組を取得し、ＰＯＩ状態識別モデルは、テキスト内の各第１のセマンティック単位のベクトル表現を取得し、テキストのセマンティック依存情報に基づいてテキスト内の各第２のセマンティック単位のベクトル表現を取得し、各第１のセマンティック単位のベクトル表現と各第２のセマンティック単位のベクトル表現を融合処理し、各第１のセマンティック単位の融合ベクトル表現を取得し、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行う。本開示の技術案は、人件費を節約し、時効性と精度を向上させることができる。

Description

本開示は出願日が２０２１年０２月２２日であり、出願番号が２０２１１０１９９７４８．９であり、発明の名称が「ＰＯＩ状態情報を取得する方法、及び装置」である中国特許出願の優先権を主張する。
本開示は、コンピュータ技術の分野に関し、特に、人工知能技術の分野におけるビッグデータ技術に関する。

ＰＯＩ（ＰｏｉｎｔｏｆＩｎｔｅｒｅｓｔ）は関心地点を指し、地理情報システムの用語であり、一般的にはポイントとして抽象できる地理的オブジェクトを指し、１つのＰＯＩは１つの家、１つの商店、１つのポスト、１つのバス停留所、１つの学校、１つの病院などであってよい。ＰＯＩのは、主に、物事又はイベントの位置を記述することによって、物事又はイベントの位置の記述能力と照会能力を強化することである。

インターネット地図類のアプリケーションにおいて、ＰＯＩは非常に重要な役割を果たしている。ＰＯＩを使用することによって、ユーザは地図から興味のある場所及びその場所に到着するルートを容易に見つけることができる。しかし、都市計画とその他の要因の影響で、時間の経過とともに、新規のＰＯＩ、移転のＰＯＩ、改名のＰＯＩ、閉鎖のＰＯＩなどのように、一部のＰＯＩの情報が変化する。ＰＯＩデータベースをタイムリーに更新できなければ、ユーザが地図を使用して検索する時に興味のある情報が見つからず、ユーザに誤導をもたらす可能性がある。例えば、ユーザがデパートにナビゲーションされた後、はじめて当該デパートが既に移転したり休業したりしていることに気づいたら、明らかにユーザに非常に悪い体験をもたらすことになる。

現在、ＰＯＩ状態情報の取得は、主に人力で成し遂げ、例えば、職員が現場で収集したり、又はユーザーが自発的に報告したりする。しかし、これらの方式は、人力的資源を浪費し、コストが高く、且つ、人の能動性に大きく依存し、時効性と精度を確保することが困難である。

本開示は、人件費を節約し、時効性と精度を向上させるために、ＰＯＩ状態情報を取得する方法、装置、機器、コンピュータ記憶媒体、及びコンピュータプログラム製品を提供する。

本開示の第１の態様によれば、ＰＯＩ状態情報を取得する方法を提供し、
インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得するステップと、
予めトレーニングされたＰＯＩ状態識別モデルを使用して前記テキストを識別し、前記テキスト内の２つ組を取得するステップであって、前記２つ組は、ＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態情報を含むステップと、を含み、
前記ＰＯＩ状態識別モデルは、前記テキスト内の各第１のセマンティック単位のベクトル表現を取得し、前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得し、前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得し、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行う。

本開示の第２の態様によれば、ＰＯＩ状態識別モデルを確立する方法を提供し、
トレーニングデータを取得するステップであって、前記トレーニングデータは、テキストと、当該テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果とを含むステップと、
前記テキストをＰＯＩ状態識別モデルの入力とし、前記テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果を前記ＰＯＩ状態識別モデルのターゲット予測結果として、前記ＰＯＩ状態識別モデルをトレーニングするステップと、を含み、
前記ＰＯＩ状態識別モデルは、前記テキスト内の各第１のセマンティック単位のベクトル表現を取得し、前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得し、前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得し、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行う。

本開示の第３の態様によれば、ＰＯＩ状態情報を取得する装置を提供し、
インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得するテキスト取得ユニットと、
予めトレーニングされたＰＯＩ状態識別モデルを使用して前記テキストを識別し、前記テキスト内の２つ組を取得する状態識別ユニットであって、前記２つ組は、ＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態情報を含む状態識別ユニットと、を含み、
前記ＰＯＩ状態識別モデルは、
前記テキスト内の各第１のセマンティック単位のベクトル表現を取得するセマンティック表現モジュールと、
前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得するセマンティック依存表現モジュールと、
前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得する表現融合モジュールと、
各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行うラベル予測モジュールと、を含む。

本開示の第４の態様によれば、ＰＯＩ状態識別モデルを確立する装置を提供し、
トレーニングデータを取得するための取得ユニットであって、前記トレーニングデータは、テキストと、当該テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果とを含む取得ユニットと、
前記テキストをＰＯＩ状態識別モデルの入力とし、前記テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果を前記ＰＯＩ状態識別モデルのターゲット予測結果として、前記ＰＯＩ状態識別モデルをトレーニングするトレーニングユニットと、を含み、
前記ＰＯＩ状態識別モデルは、
前記テキスト内の各第１のセマンティック単位のベクトル表現を取得するセマンティック表現モジュールと、
前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得するセマンティック依存表現モジュールと、
前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得する表現融合モジュールと、
各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行うラベル予測モジュールと、を含む。

本開示の第５の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。

本開示の第６の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。

本開示の第７の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の方法を実現する。

以上の技術案から分かるように、本開示は、ＰＯＩ情報を含むインターネットテキストからＰＯＩ名称とＰＯＩ名称に対応するＰＯＩ状態情報をマイニングすることによって、ＰＯＩ状態変更イベントに対するインターネットのタイムリー反映を十分に使用し、状態変更が発生するＰＯＩ情報を人工的に決定する方式と比較して、人件費を節約し、時効性と精度を向上させる。

本明細書で説明された内容は、本開示の実施例のキー又は重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。

上記の選択可能な方式によるその他の効果については、以下、具体的な実施例を組み合わせて説明する。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の実施例に適用できる方法又は装置の例示的なシステムアーキテクチャを示す。本開示の実施例により提供されるＰＯＩ状態識別モデルを確立する方法のフローチャートである。本開示の実施例により提供されるトレーニングデータを取得する方法のフローチャートである。本開示の実施例により提供されるＰＯＩ状態識別モデルの概略図である。本開示の実施例により提供されるＰＯＩ状態情報を取得する方法のフローチャートである。本開示の実施例により提供されるテキストに対してラベル予測を行う例示的な図である。本開示の実施例により提供されるＰＯＩ状態識別モデルを確立する装置の構造図である。本開示の実施例により提供されるＰＯＩ状態情報を取得する装置の構造図である。本開示の実施例を実現するための電子機器のブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識できるはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図１は本開示の実施例に適用できる方法又は装置の例示的なシステムアーキテクチャを示す。図１に示すように、当該システムアーキテクチャは、端末デバイス１０１及び１０２、ネットワーク１０３、及びサーバ１０４を含むことができる。ネットワーク１０３は、端末デバイス１０１、１０２とサーバ１０４との間の通信リンクのための媒体を提供する。ネットワーク１０３は、有線、無線通信リンク、又は光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末デバイス１０１及び１０２を使用してネットワーク１０３を介してサーバ１０４とインタラクションすることができる。端末デバイス１０１及び１０２には、地図類アプリケーション、ウェブブラウザアプリケーション、通信類アプリケーションなどの様々なアプリケーションがインストールされてもよい。

端末デバイス１０１及び１０２は地図類アプリケーションを実行する様々な電子機器であってもよい。スマートフォン、タブレット、ＰＣ、スマートテレビなどが含まれるが、これらに限定されない。本開示により提供される関心地点ＰＯＩ状態情報を取得する装置とＰＯＩ状態識別モデルを確立する装置は、上記のサーバ１０４に設置して実行することができ、サーバ１０４と独立した機器に実行することもできる。複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するために）として実現することができ、単一のソフトウェア又はソフトウェアモジュールとして実現することもでき、ここでは具体的に限定しない。サーバ１０４は、ＰＯＩデータベース１０５との間インタラクションを行うことができる、具体的には、サーバ１０４は、ＰＯＩデータベース１０５からデータを取得することができ、データをＰＯＩデータベース１０５に記憶することもできる。ＰＯＩデータベース１０５にＰＯＩ情報を含む地図データが記憶されている。

例えば、ＰＯＩ状態情報を取得する装置は、上記のサーバ１０４に設置して実行し、サーバ１０４は、本開示の実施例により提供される方法を使用してＰＯＩの状態情報を取得し、次に、取得されたＰＯＩの状態情報を使用してＰＯＩデータベース１０５を更新する。サーバ１０４は、端末デバイス１０１、１０２の照会要求に応答して、ＰＯＩデータベース１０５を照会し、端末デバイス１０１、１０２に照会されたＰＯＩの情報を返す。

サーバ１０４は、単一のサーバであってもよく、複数のサーバによって構成されるサーバグループであってもよい。１０４はサーバの形式として存在する以外、より高いコンピューティング性能を有する他のコンピュータシステム又はプロセッサであってもよい。理解すべきことは、図１の端末デバイス、ネットワーク及びサーバの数は単なる例示的なものであることを理解することができる。実現ニーズに応じて、任意の数を有する端末デバイス、ネットワーク、サーバ、及びデータベースであってもよい。

本開示は、インターネットビッグデータの豊富さとリアルタイム性に基づいて、インターネットビッグデータをデータソースとし、インターネットテキストからＰＯＩ状態情報をマイニングする。コアアイデアは、インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得し、予めトレーニングされたＰＯＩ状態識別モデルを使用して前記テキストを識別し、テキスト内の２つ組を取得し、２つ組は、ＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態情報を含む。本開示の全体的な解決策から見ると、２つの部分に関し、１つは、ＰＯＩ状態識別モデルを確立することであり、もう１つは、ＰＯＩ状態識別モデルを使用してＰＯＩ状態情報を取得することである。以下は実施例を組み合わせてこの２つの部分をそれぞれ詳細に説明する。

図２は本開示の実施例により提供されるＰＯＩ状態識別モデルを確立する方法のフローチャートである。図２に示すように、当該方法は以下のステップを含むことができ、
２０１では、トレーニングデータを取得し、トレーニングデータは、テキストと、当該テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果とを含む。

２０２では、テキストをＰＯＩ状態識別モデルの入力とし、当該テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果をＰＯＩ状態識別モデルのターゲット予測結果として、当該ＰＯＩ状態識別モデルをトレーニングする。

ＰＯＩ状態識別モデルは、テキスト内の各第１のセマンティック単位のベクトル表現を取得し、当該テキストのセマンティック依存情報に基づいて当該テキスト内の各第２のセマンティック単位のベクトル表現を取得し、各第１のセマンティック単位のベクトル表現と各第２のセマンティック単位のベクトル表現を融合処理し、各第１のセマンティック単位の融合ベクトル表現を取得し、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行う。

以下は、実施例を組み合わせて上記のステップ２０１、すなわち「トレーニングデータを取得する」を詳細に説明する。

トレーニングデータを取得する時、人工的にラベリングする方式を使用していくつかのＰＯＩ名称とＰＯＩ状態を含むテキストに対してラベリングしてトレーニングデータとすることができる。しかし、このような方式は人力の制限によって少量のデータしか生成できず、モデルトレーニングの精度に一定の制約をもたらす。ここで、好ましい実施方式として、図３に示す方式を使用してトレーニングデータを取得することができ、具体的には、以下のステップを含み、
３０１では、予めトレーニングされたＰＯＩ識別器を使用してインターネットからＰＯＩ名称を含むテキストを取得する。

ウェブページからインターネットテキストをクロールし、テキストに含まれるＰＯＩ情報を確保するために、１つのＰＯＩ識別器をトレーニングし、ＰＯＩ識別器によってＰＯＩ情報を含むテキストが識別されて保持することができる。

ＰＯＩ識別器を予めトレーニングするプロセスは、ＰＯＩデータベースからＰＯＩ情報を抽出し、抽出されたＰＯＩ情報は、人気のあるＰＯＩ情報であってもよく、すなわち検索人気がある程度を超えるＰＯＩ情報であってもよく、例えば、設定期間内の検索回数が予め設定された回数の閾値を超えるＰＯＩ情報であってもよく、次に、抽出されたＰＯＩ情報を使用してインターネットで検索し、検索されたテキストと対応するＰＯＩ情報を使用してラベル予測モデルをトレーニングし、ＰＯＩ識別器を取得する。ＰＯＩ識別器がテキストを入力した後、当該テキストに含まれるＰＯＩ情報を出力することができる。その中、ＰＯＩ情報はＰＯＩ名称を含むことができる。なお、本開示では、ＰＯＩ名称は、中国語名称、英語名称、名称略語などの、１つのＰＯＩを表記及び区分することができる情報を指す。

ＰＯＩ識別器をトレーニングするプロセスで使用されるラベル予測モデルは、双方向ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長短期記憶ネットワーク）とＣＲＦ（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ、条件付き確率場）で構成される構造である。もちろん、他のタイプの構造を使用することもでき、ここでは一つ一つ列挙して詳細に説明しない。

３０２では、予め確立された辞書を使用してＰＯＩ名称を含むテキストからＰＯＩ状態変化情報を含まないテキストをフィルタリングし、シードテキストを取得する。

辞書はＰＯＩ状態変化情報を含む単語を含む。テキストにＰＯＩ状態変化を説明する情報を含むことを確保するために、１つの辞書を予め確立し、この辞書内の単語のセマンティックはＰＯＩ状態変化に関連する。ＰＯＩ状態変化は、新規、移転、改名、及び閉鎖などを含むことができる。

上記の３０１と３０２の処理後、取得されたシードテキストにはいずれもＰＯＩ名称とＰＯＩ状態変化情報が含まれる。上記の３０１と３０２は、シードテキストを取得する好ましい実施方式であり、上記の方式以外、テキストを人工的に確立する方式を簡単に使用してシードテキストを取得することもできる。

３０３では、シードテキストに含まれるＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態のラベルラベリング結果を取得する。

本ステップで取得されたシードテキストの数が多くないと、人工的にラベリングする方式を使用することができる。しかし、数が多くないシードテキストをトレーニングデータとしてＰＯＩ状態識別モデルのトレーニングを行う場合、ＰＯＩ状態識別モデルの精度が十分に高くない可能性がある。トレーニング効果をさらに向上させるために、この基礎でＰＯＩデータベースを使用してシードテキストに対してデータ増強を行うことができる。すなわち、３０４では、ＰＯＩデータベースにおけるシードテキストに含まれるＰＯＩ名称と同じタイプであるＰＯＩ名称を使用して、シードテキスト内のＰＯＩ名称を置き換え、拡張テキストを取得する。

具体的には、分類モデルを使用してシードテキストに含まれるＰＯＩ名称とＰＯＩデータベース内のＰＯＩ名称をそれぞれ分類することができる。分類によって取得されたカテゴリは、レストラン類、会社類、住宅類などのＰＯＩの特性を区分するために使用される。

例えば、１つのシードテキストが「Ａ社は既に移転し、移転期間中は業務を一時停止する」であり、シードテキストに含まれるＰＯＩ名称「Ａ社」が会社類である場合、ＰＯＩデータベースから同じタイプのＰＯＩ名称「Ｂ社」、「Ｃ社」などを見つけることができ、これらの名称をそれぞれ使用してシードテキスト内の「Ａ」会社を置き換えた後、拡張テキスト：「Ｂ社は既に移転し、移転期間中は業務を一時停止する」、及び「Ｃ社は既に移転し、移転期間中は業務を一時停止する」などを取得することができる。

分類モデルは、ＰＯＩデータベース内の大量の（ＰＯＩ名称、タイプラベル）ペアを予め使用してトレーニングを行うことができ、分類モデルの構造は、例えば、双方向ＬＳＴＭとｓｏｆｔｍａｘを使用して構成される構造であってもよい。

３０５では、シードテキストと拡張テキストからトレーニングデータを取得する。

シードテキストに対して拡張した後、大量の拡張テキストを取得し、次に、これらのシードテキストと拡張テキストを合わせてトレーニングデータを構成することができる。これらのトレーニングデータは、テキストと、テキストに含まれるＰＯＩ名称と、当該ＰＯＩ名称に対応するＰＯＩ状態のラベルラベリング結果を含む。

以下は、実施例を組み合わせて上記のステップ２０２、すなわち「テキストをＰＯＩ状態識別モデルの入力とし、当該テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果をＰＯＩ状態識別モデルのターゲット予測結果として、当該ＰＯＩ状態識別モデルをトレーニングする」を詳細に説明する。

本開示に関するＰＯＩ状態識別モデルでは、図４に示すように、主に、４つの部分：セマンティック表現モジュール、セマンティック依存表現モジュール、表現融合モジュール、及びラベル予測モジュールを含む。

セマンティック表現モジュールは、テキスト内の各第１のセマンティック単位のベクトル表現を取得するために使用される。本開示では、第１のセマンティック単位は文字であってもよく、文字は中国語で一般的に見られる。英語では、第１のセマンティック単位は１つの単語（ｗｏｒｄ）であってもよく、より細かい粒度の、例えば、複合語中の各「文字」であってもよい。例えば、「ｙｅｌｌｏｗｓｔｏｎｅ」を１つの第１のセマンティック単位とすることができ、「ｙｅｌｌｏｗ」と「ｓｔｏｎｅ」をそれぞれ第１のセマンティック単位とすることもできる。

従来のｗｏｒｄ２ｖｅｃモデル、ｇｌｏｖｅモデルなどを使用してテキスト内の各文字に対するセマンティック特徴抽出を実現することができる。しかし、ＰＯＩ名称は常にロングテールワードを使用するため、従来のモデルを使用すると各文字に対するセマンティックをうまく表現できない。従って、本開示では好ましい実施方式を使用し、ＥＲＮＩＥ（ＥｎｈａｎｃｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍｋＮｏｗｌｅｄｇｅＩｎｔＥｇｒａｔｉｏｎ、知識増強意味表現）、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、Ｔｒａｎｓｆｏｒｍｅｒの双方向エンコーダ表現）などのプリトレーニング言語モデルによってテキストに対応する単語シーケンスに対してセマンティック特徴の抽出を行う。ＥＲＮＩＥモデルはｓｕｂｗｏｒｄ戦略を使用し、すなわち采用ＢＰＥ（Ｂｙｔｅ－ＰａｉｒＥｎｃｏｄｉｎｇ、２バイトエンコーディング）アルゴリズムを使用してＰＯＩ名称をより細かい粒度の文字に分解するため、ロングテールワードの問題を効率的に解決する。

トレーニングデータ内のあるテキストＤに対応するワードシーケンスを｛ｘ_１、ｘ_２、…、ｘ_ｎ｝として表し、その中、ｒ_ｉはＤ内の文字の数であると仮定する。｛ｘ_１、ｘ_２、…、ｘ_ｎ｝をＥＲＮＩＥモデルの入力とし、ＥＲＮＩＥモデルはセマンティック特徴を抽出した後に隠れ層ベクトルシーケンス｛ｈ_１、ｈ_２、…、ｈ_ｎ｝を出力する。その中、ｈ_ｉは、文字ｘ_ｉに対応するベクトル表現である。

セマンティック依存表現モジュールは、テキストのセマンティック依存情報に基づいて当該テキスト内の各第２のセマンティック単位のベクトル表現を取得するために用いられる。

具体的には、テキストに対して構文分析を行ってテキストのセマンティック依存ツリーを取得し、次に、セマンティック依存ツリーに対応する有向グラフを取得し、有向グラフ内の各ノードは各第２のセマンティック単位であり、ＲＧＣＮ（ＲｅｌａｔｉｏｎａｌＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、リレーショナルグラフ畳み込みニューラルネットワーク）を使用して有向グラフ内の各ノードのベクトル表現を取得することができる。

依存構文パーサーを使用してテキストを分析してテキストのセマンティック依存ツリーを取得することができる。依存構文分析は、自然言語処理のコアテクノロジーの１つであり、文内の単語間の依存関係を分析することによって文の構文構造を決定することを目的とする。通常、テキストに対して単語のセグメンテーション、品詞ラベリング、ネーミングエンティティ識別、文法分析などの処理を行うことを含む。依存構文パーサーは、現在比較的に成熟したツールであり、本開示ではこのようなツールを直接使用して実現することができる。

本開示の第２のセマンティック単位は単語であってもよい。それ以外にも、フレーズ、単語の組み合わせなどであってもよい。ここでは単語を例とする。

セマンティック依存ツリーでは、ノードは、テキスト内の単語であり、エッジは、単語間のセマンティック関係である。セマンティック依存ツリーを有向グラフに変換することができる。有向グラフ内のノードは、テキスト内の単語であり、エッジは、単語間のセマンティック関係を反映する。

次に、有向グラフをＲＧＣＮの入力とし、ＲＧＣＮから有向グラフ内の各ノードのベクトル表現を出力する。

セマンティック依存表現モジュールにとって、Ｄに対応する単語シーケンスを｛ｙ_１、ｙ_２、…、ｙ_ｍ｝として表し、その中、ｍはＤ内の単語の数である。セマンティック依存表現モジュールを経た後、各単語に対応するベクトル表現を｛ｌ_１、ｌ_２、…、ｌ_ｍ｝としてそれぞれ取得する。

表現融合モジュールは、各第１のセマンティック単位のベクトル表現と各第２のセマンティック単位のベクトル表現を融合処理し、各第１のセマンティック単位の融合ベクトル表現を取得するために用いられる。

その中、表現融合モジュールは、以下の２つの方式を使用することができるが、これらに限定しない。
第１の方式：第２のセマンティック単位が第１のセマンティック単位を含む場合、当該第１のセマンティック単位のベクトル表現と当該第２のセマンティック単位のベクトル表現をスプライシングした後に、当該第１のセマンティック単位の融合ベクトルを取得する。

第１のセマンティック単位が文字であり、第２のセマンティック単位がワードであることを例とし、ワードＡが文字Ａ１と文字Ａ２で構成されていると仮定すると、文字Ａ１のベクトル表現とワードＡのベクトル表現をスプライシングした後に文字Ａ１の融合ベクトル表現を取得し、Ａ２のベクトル表現とワードＡのベクトル表現をスプライシングした後に文字Ａ２の融合ベクトル表現を取得する。

第２の方式：各第２のセマンティック単位のベクトル表現が第１のセマンティック単位に対して注意力処理を行う場合、当該第１のセマンティック単位の融合ベクトル表現を取得する。

第１のセマンティック単位が文字であり、第２のセマンティック単位がワードであることを例とし、取得されたすべてのワードのベクトル表現を文字Ａ１のベクトル表現に対してＡｔｔｅｎｔｉｏｎ（注意力）処理を行う。第２のセマンティック単位は有向グラフから取得されるので、実際には、有向グラフ全体を使用して文字Ａ１に対してＡｔｔｅｎｔｉｏｎを行って、有向グラフ全体が当該文字Ａ１に対するベクトル表現を取得することに相当する。すなわち、文字のベクトル表現をｑｕｅｒｙとし、各ワードのベクトル表現をそれぞれｋｅｙとして、Ａｔｔｅｎｔｉｏｎを行うことができる。

ラベル予測モジュールは、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行うために用いられる。

ここで、例えば、ＣＲＦ（条件付き確率場）などのシーケンス予測モデルを使用してラベル予測を行うことができる。ｎ個の文字を含むドキュメントＤ：Ｄ＝｛ｘ_１、ｘ_２、…、ｘ_ｎ｝に対して、上記の表現融合モジュールの融合を経た後、各文字の融合ベクトル表現、すなわちシーケンス

を取得する。ドキュメント内の各文字ｘ_ｉについて、ラベル予測モジュールのタスクは、そのラベルｔ_ｉを予測することであり、その中、ｔ_ｉ∈Ｔ^ｐである。ラベル予測を行う時、文字ｘ_ｉのラベルについて当該文字ｘ_ｉがＰＯＩ名称とＰＯＩ状態であるか否かを示し、つまり、１つのラベルは、ＰＯＩ名称とＰＯＩ状態情報に対して同時に示す。例えば、ラベル集合は、以下を使用することができ、
Ｔ^ｐ＝｛Ｂ－ＮＥＷ、Ｉ－ＮＥＷ、Ｂ－ＲＥＬＯＣＡＴＥ、Ｉ－ＲＥＬＯＣＡＴＥ、Ｂ－ＲＥＮＡＭＥ、Ｉ－ＲＥＮＡＭＥ、Ｂ－ＣＬＯＳＥ、Ｉ－ＣＬＯＳＥ、Ｂ－ＮＯＮＥ、Ｉ－ＮＯＮＥ、Ｏ｝
その中、Ｂ、Ｉ、及びＯは、当該文字がＰＯＩ名称の開始、中間、及び非ＰＯＩ名称であることを示す。

ＮＥＷ、ＲＥＬＯＣＡＴＥ、ＲＥＮＡＭＥ、ＣＬＯＳＥ、及びＮＯＮＥは、それぞれＰＯＩ状態が新規、改名、移転、閉鎖、及び識別されていないＰＯＩ状態を示す。

従って、ラベルＢ－ＮＥＷは、当該文字がＰＯＩ名称の開始であり、且つＰＯＩ状態が新規であることを示し、ラベルＩ－ＮＥＷは、当該文字がＰＯＩ名称の中間であり、且つＰＯＩ状態が新規であることを示し、他のラベルは類似する。

当該モデルによって出力された予測シーケンスがＴ＝｛ｔ_１、ｔ_２、…、ｔ_ｎ｝である場合、このシーケンスのスコアを取得することができ、

その中、

、

は、重みパラメータであり、モデルパラメータのうちの１つである。

、その中、

は、実数ドメインを表し、ｄは、

の次元であり、ｃは、モデル出力ラベルの数である。

は、ｔ_ｉからｔ_ｉ＋１までの遷移確率行列を表す。

最終に、ｓｏｆｔｍａｘ層を使用して各予測シーケンスＴの確率を取得することができ、

その中、Ｔ_Ｄは、すべての予測シーケンスで構成された集合である。

トレーニング段階で使用される損失関数は：

である。

トレーニングプロセス中に、トレーニング終了条件に達するまで、損失関数の値を使用して、セマンティック表現モジュール、セマンティック依存表現モジュール、表現融合モジュール、及びラベル予測モジュールのパラメータ値を含むモデルパラメータを更新する。トレーニング終了条件は、損失関数の値が予め設定された損失関数の閾値以下であることと、反復回数が予め設定された回数の閾値に達するなどを含むことができる。

最終にトレーニングされたＰＯＩ状態識別モデルは、入力されたテキストを識別し、テキスト内の２つ組を取得することができ、当該２つ組は、ＰＯＩ名称とＰＯＩ名称に対応するＰＯＩ状態情報を含み、（ＰＯＩ名称、状態情報）として表す。

図５は本開示の実施例により提供されるＰＯＩ状態情報を取得する方法のフローチャートである。当該方法は、図２に示すフローに基づいて確立したＰＯＩ状態識別モデルである。図５に示すように、当該方法は以下のステップを含むことができ、
５０１では、インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得する。

ＰＯＩ状態情報のリアルタイム性を確保するために、インターネットから最近の一定期間のテキストをクロールし、次に、予めトレーニングされたＰＯＩ識別器を使用して取得されたテキストに対してＰＯＩ情報識別を行い、ＰＯＩ情報を含むテキストを保持することができる。

ＰＯＩ識別器の関連する記載について、上記の実施例のステップ３０１の関連する記載を参照することができ、ここでは省略する。

５０２では、予めトレーニングされたＰＯＩ状態識別モデルを使用して当該テキストを識別して、当該テキスト内の２つ組、すなわち（ＰＯＩ名称、状態情報）を取得する。

ＰＯＩ状態識別モデルは、テキスト内の各第１のセマンティック単位のベクトル表現を取得し、テキストのセマンティック依存情報に基づいて当該テキスト内の各第２のセマンティック単位のベクトル表現を取得し、各第１のセマンティック単位のベクトル表現と各第２のセマンティック単位のベクトル表現を融合処理し、各第１のセマンティック単位の融合ベクトル表現を取得し、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行う。

ステップ５０２では、図４に示すＰＯＩ状態識別モデルを使用してテキストを識別することができる。

セマンティック表現モジュールは、テキスト内の各第１のセマンティック単位のベクトル表現を取得するために使用される。本開示では、第１のセマンティック単位は文字であってもよく、文字は中国語で一般的に見られる。英語では、第１のセマンティック単位は１つの単語（ｗｏｒｄ）であってもよく、より細かい粒度の、例えば、複合語中の各「文字」であってもよい。

従来のｗｏｒｄ２ｖｅｃモデル、ｇｌｏｖｅモデルなどを使用してテキスト内の各文字に対するセマンティック特徴抽出を実現することができる。しかし、ＰＯＩ名称は常にロングテールワードを使用するため、従来のモデルを使用すると各文字に対するセマンティックをうまく表現できない。従って、本開示では好ましい実施方式を使用し、ＥＲＮＩＥ、ＢＥＲＴなどのプリトレーニング言語モデルによってテキストに対応する単語シーケンスに対してセマンティック特徴の抽出を行う。ＥＲＮＩＥモデルはｓｕｂｗｏｒｄ戦略を使用し、すなわちＢＰＥアルゴリズムを使用してＰＯＩ名称をより細かい粒度の文字に分解するため、ロングテールワードの問題を効率的に解決する。

具体的には、テキストに対して構文分析を行ってテキストのセマンティック依存ツリーを取得し、次に、セマンティック依存ツリーに対応する有向グラフを取得し、有向グラフ内の各ノードが各第２のセマンティック単位であり、ＲＧＣＮを使用して有向グラフ内の各ノードのベクトル表現を取得することができる。

表現融合モジュールは、以下の２つの方式を使用することができるが、これらに限定しない。
第１の方式：第２のセマンティック単位が第１のセマンティック単位を含む場合、当該第１のセマンティック単位のベクトル表現と当該第２のセマンティック単位のベクトル表現をスプライシングした後に、当該第１のセマンティック単位の融合ベクトルを取得する。

ラベル予測モジュールは、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行うために用いられる。ここでは、例えば、ＣＲＦ（条件付き確率場）などのシーケンス予測モデルを使用してラベル予測を行うことができる。予測されたラベルは、ＰＯＩ名称とＰＯＩ状態情報に対して同時に示す。

上記のＰＯＩ状態識別モデルにおける各モジュールの具体的な実現方式は、図２に示す実施例の関連する記載を参照することができ、ここでは詳しく説明しない。

例えば：
テキスト「坪山図書館の開館の続き、坪山芸術博物館も３月３０日に正式に開館した

」を入力すると仮定する。

ＰＯＩ状態識別モデルの予測の後、付けたラベルは図６に示す。２つ組（坪山図書館、新規）と（坪山芸術博物館、新規）を決定することができる。

インターネットテキストに対して一連の２つ組をマイニングした後、マイニングされた２つ組と、ＰＯＩデータベースに記録されたＰＯＩ名称とそれに対応するＰＯＩ状態情報を比較することができ、一致しない場合、マイニングされた２つ組を使用してＰＯＩデータベースに記録されたＰＯＩ名称とそれに対応するＰＯＩ状態情報を更新することができる。

更新する時、マイニングされた２つ組の出現回数に基づいて２つ組の精度を測定することができ、例えば、出現回数が予め設定された回数の閾値より大きい２つ組は、正確であるとみなし、正確な２つ組を使用してＰＯＩデータベースを更新することができる。

以上は本開示で提供される方法の詳細の説明であり、以下は実施例を組み合わせて本開示により提供される装置について詳細に説明する。

図７は本開示の実施例により提供されるＰＯＩ状態識別モデルを確立する装置の構造図である。図７に示すように、当該装置は、取得ユニット０１とトレーニングユニット０２を含むことができ、各構成ユニットの主な機能は以下であり、
取得ユニット０１は、トレーニングデータを取得するために用いられ、トレーニングデータは、テキストと、当該テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果とを含む。

取得ユニット０１は、シードテキストと、シードテキストに含まれるＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態のラベルラベリング結果を取得し、ＰＯＩデータベースにおけるシードテキストに含まれるＰＯＩ名称と同じタイプであるＰＯＩ名称を使用して、シードテキスト内のＰＯＩ名称を置き換え、拡張テキストを取得し、シードテキストと拡張テキストからトレーニングデータを取得することができる。

取得ユニット０１は、シードテキストを取得する時、インターネットからＰＯＩ名称を含むテキストを取得し、予め確立された辞書を使用して前記ＰＯＩ名称を含むテキストからＰＯＩ状態変化情報を含まないテキストをフィルタリングし、前記シードテキストを取得することができ、前記辞書は、ＰＯＩ状態変化情報を表す単語を含む。

トレーニングユニット０２は、テキストをＰＯＩ状態識別モデルの入力とし、テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果をＰＯＩ状態識別モデルのターゲット予測結果として、ＰＯＩ状態識別モデルをトレーニングするために用いられる。

ＰＯＩ状態識別モデルは、図４に示すように、以下を含むことができ、
セマンティック表現モジュールは、テキスト内の各第１のセマンティック単位のベクトル表現を取得するために用いられる。

具体的には、セマンティック表現モジュールは、例えば、ＥＲＮＩＥ、ＢＥＲＴなどのプリトレーニング言語モデルを使用してテキスト内の各第１のセマンティック単位に対してセマンティック特徴の抽出を行い、各第１のセマンティック単位のベクトル表現を取得することができる。

セマンティック依存表現モジュールは、テキストのセマンティック依存情報に基づいてテキスト内の各第２のセマンティック単位のベクトル表現を取得するために用いられる。

好ましい実施方式として、セマンティック依存表現モジュールは、テキストに対して構文分析を行ってテキストのセマンティック依存ツリーを取得し、セマンティック依存ツリーに対応する有向グラフを取得し、有向グラフ内の各ノードは、各第２のセマンティック単位であり、ＲＧＣＮを使用して有向グラフ内の各ノードのベクトル表現を取得することができる。

表現融合モジュールは、以下の２つの方式を使用することができるが、これらに限定しない。
第１の方式：第２のセマンティック単位が第１のセマンティック単位を含む場合、当該第１のセマンティック単位のベクトル表現と当該第２のセマンティック単位のベクトル表現をスプライシングした後に当該第１のセマンティック単位の融合ベクトル表現を取得する。

第２の方式：各第２のセマンティック単位のベクトル表現を第１のセマンティック単位に対して注意力処理を行い、当該第１のセマンティック単位の融合ベクトル表現を取得する。

好ましい実施方式として、ラベル予測モジュールは、ＣＲＦモデルを使用して各第１のセマンティック単位の融合ベクトルをマッピングし、各第１のセマンティック単位のラベルを取得することができ、ラベルは、ＰＯＩ名称とＰＯＩ状態であるか否かを示す。

図８は本開示の実施例により提供されるＰＯＩ状態情報を取得する装置の構造図である。図８に示すように、当該装置は、テキスト取得ユニット１１と状態識別ユニット１２を含むことができ、更新ユニット１３をさらに含むこともでき。各構成ユニットの主な機能は以下であり、
テキスト取得ユニット１１は、インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得するために用いられる。

その中の１つの実現方式として、テキスト取得ユニット１１は、インターネットから予め設定された期間内のテキストを取得し、予めトレーニングされたＰＯＩ識別器を使用して取得されたテキストに対してＰＯＩ情報識別を行い、ＰＯＩ情報を含むテキストを保持することができる。

状態識別ユニット１２は、予めトレーニングされたＰＯＩ状態識別モデルを使用してテキストを識別し、テキスト内の２つ組を取得するために用いられ、２つ組は、ＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態情報を含む。

ＰＯＩ状態識別モデルは、図４に示すように、セマンティック表現モジュールと、セマンティック依存表現モジュールと、表現融合モジュールと、ラベル予測モジュールと、を含むことができ、
セマンティック表現モジュールは、テキスト内の各第１のセマンティック単位のベクトル表現を取得するために用いられる。

更新ユニット１３は、取得された２つ組を使用してＰＯＩデータベースを更新するために用いられる。

インターネットテキストに対して一連の２つ組をマイニングした後、更新ユニット１３は、マイニングされた２つ組と、ＰＯＩデータベースに記録されたＰＯＩ名称とそれに対応するＰＯＩ状態情報を比較することができ、一致しない場合、マイニングされた２つ組を使用してＰＯＩデータベースに記録されたＰＯＩ名称とそれに対応するＰＯＩ状態情報を更新することができる。

更新ユニット１３は、更新する時、マイニングされた２つ組の出現回数に基づいて２つ組の精度を測定することができ、例えば、出現回数が予め設定された回数の閾値より大きい２つ組は、正確であるとみなし、正確な２つ組を使用してＰＯＩデータベースを更新することができる。

以下は具体的な応用例を示し：
インターネットから最近１ヶ月以外のＰＯＩ情報を含むテキストを取得し、これらのテキストは、数が多い可能性があり、いくつかの例を示し：
インターネットテキスト１：上海大学科学技術パークと上海望源企業発展有限会社は在宝山区羅森宝ビジネスセンターに上大望源科学技術パークを開設した。
インターネットテキスト２：その前に火岩大峡谷は景勝地を申告する時、既に烏龍山大峡谷に改名した。
インターネットテキスト３：嵩明県不動産登録センターは２０１９年６月２８日に秀嵩街６６号に移転し、移転期間中は業務を一時停止した。
インターネットテキスト４：三江源の自然生態環境を保護するために、年保玉則景勝地は既に全面的に閉鎖した。

取得されたＰＯＩ情報を含むインターネットテキストをＰＯＩ状態識別モデルにそれぞれ入力し、当該ＰＯＩ状態識別モデルは、テキストにおける単語のセマンティック依存関係に基づいて、その中の２つ組をより正確に識別する。識別結果は、以下のようであり、
インターネットテキスト１に対応する２つ組：（上大望源科学技術パーク、新規）；
インターネットテキスト２に対応する２つ組：（火岩大峡谷、改名）；
インターネットテキスト３に対応する２つ組：（嵩明県不動産登録センター、移転）
インターネットテキスト４に対応する２つ組：（年保玉則景勝地、閉鎖）。

取得された大量２つ組について、出現回数の方式を使用してその精度を決定することができる、例えば、ある２つ組が識別された回数が予め設定された閾値を超える場合、正確であると見なし、それを使用してＰＯＩデータベースを更新することができる。人工的に検証する方式で、取得された２つ組でその精度を検証することもできる。

上記のプロセスによって、インターネットドキュメントから、新規、改名、移転、及び閉鎖などの変化が発生したＰＯＩ状態情報を自動的かつタイムリーにマイニングすることができ、ＰＯＩデータベースをタイムリーに更新して、ＰＯＩデータベースを使用して提供されるサービスが正確なＰＯＩ情報に基づくため、ユーザ体験を向上させる。

以上の実施例から分かるように、本開示は以下の利点を備えることができ、
１）本開示ではＰＯＩ情報を含むインターネットテキストからＰＯＩ名称とＰＯＩ名称に対応するＰＯＩ状態情報をマイニングすることによって、ＰＯＩ状態変更イベントに対するインターネットのタイムリー反映を十分に使用し、状態変更が発生するＰＯＩ情報を人工的に決定する方式と比較して、人件費を節約し、時効性と精度を向上させる。

２）本開示ではインターネットテキストに含まれる了ＰＯＩ状態変化情報を識別するだけでなく、ＰＯＩ名称に変化が発生した具体的なＰＯＩ状態情報を識別することもできる。

３）本開示では確立されたＰＯＩ状態識別モデルにセマンティック依存情報を組み込み、モデルがテキスト内のＰＯＩ名称をより正確に識別し、各ＰＯＩの状態を理解し、識別精度を向上させることを支援する。

４）本開示ではＰＯＩ状態識別モデルをトレーニングする時、ＰＯＩデータベースを使用してシードテキストに対してデータ拡張を行ってトレーニングデータを取得し、トレーニングテキストの数を拡大して、ＰＯＩ状態識別モデルの精度を向上させる。

５）本開示のＰＯＩ状態識別モデルでは、ＥＲＮＩＥモデルを使用して入力されたテキストに対応する単語シーケンスに対してセマンティック特徴の抽出を行って、ＰＯＩ名称におけるロングテールワードの問題を効率的に解決する。

６）本開示ではマイニングによって取得された２つ組を使用してＰＯＩデータベースを更新して、後続のＰＯＩデータベースに基づいて提供されるサービスがより正確であるため、ユーザ体験を向上する。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。

図９に示すように、本開示の実施例に係るＰＯＩ状態情報を取得する方法又はＰＯＩ状態識別モデルを確立する方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図９に示すように、機器９００は計算ユニット９０１を含み、計算ユニット９０１は、読み取り専用メモリ（ＲＯＭ）９０２に記憶されているコンピュータプログラム又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ９０３には、機器９００が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット９０１、ＲＯＭ９０２、及びＲＡＭ９０３は、バス９０４を介してお互いに接続される。入出力（Ｉ／Ｏ）インターフェース９０５もバス９０４に接続される。

機器９００内の複数のコンポーネントは、Ｉ／Ｏインターフェース９０５に接続されており、キーボード、マウスなどの入力ユニット９０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット３０７と、ディスク、光ディスクなどの記憶ユニット９０８と、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット９０９と、を含む。通信ユニット９０９は、機器９００が、インターネットなどのコンピュータネットワーク、及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット９０１は、様々な処理と計算能力を備える汎用及び／又は専用の処理コンポーネントである。計算ユニット９０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット９０１は、ＰＯＩ状態情報を取得する方法又はＰＯＩ状態識別モデルを確立する方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、ＰＯＩ状態情報を取得する方法又はＰＯＩ状態識別モデルを確立する方法は、記憶ユニット９０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。

いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介して機器９００にローディング及び／又はインストールされる。コンピュータプログラムがＲＡＭ９０３にローディングされて計算ユニット９０１によって実行される場合、上記のＰＯＩ状態情報を取得する方法又はＰＯＩ状態識別モデルを確立する方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット９０１は、他の任意の適切な方式（例えば、ファームウェアによって）を介してＰＯＩ状態情報を取得する方法又はＰＯＩ状態識別モデルを確立する方法を実行するように構成されることができる。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ローディングプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び／又はブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、又は完全にリモート機械又はサーバ上で実行されたりすることができる。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又は機器の使用、又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つ又は複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記の内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得するステップと、
予めトレーニングされたＰＯＩ状態識別モデルを使用して前記テキストを識別し、前記テキスト内の２つ組を取得するステップであって、前記２つ組は、ＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態情報を含むステップと、を含み、
前記ＰＯＩ状態識別モデルは、前記テキスト内の各第１のセマンティック単位のベクトル表現を取得し、前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得し、前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得し、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行う、
関心地点ＰＯＩ状態情報を取得する方法。
インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得するステップは、
インターネットから予め設定された期間内のテキストを取得するステップと、
予めトレーニングされたＰＯＩ識別器を使用して、取得されたテキストに対してＰＯＩ情報識別を行うステップと、
ＰＯＩ情報を含むテキストを保持するステップと、を含む、
請求項１に記載の関心地点ＰＯＩ状態情報を取得する方法。
前記ＰＯＩ識別器は、
ＰＯＩデータベースからＰＯＩ情報を抽出し、
抽出されたＰＯＩ情報を使用してインターネットで検索し、
検索されたテキストと対応するＰＯＩ情報を使用してラベル予測モデルをトレーニングすることにより、取得される
請求項２に記載の関心地点ＰＯＩ状態情報を取得する方法。
前記テキスト内の各第１のセマンティック単位のベクトル表現を取得するステップは、
プリトレーニング言語モデルを使用して前記テキスト内の各第１のセマンティック単位に対してセマンティック特徴の抽出を行い、各第１のセマンティック単位のベクトル表現を取得するステップを含む、
請求項１に記載の関心地点ＰＯＩ状態情報を取得する方法。
前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得するステップは、
前記テキストに対して構文分析を行って前記テキストのセマンティック依存ツリーを取得するステップと、
前記セマンティック依存ツリーに対応する有向グラフを取得するステップであって、前記有向グラフ内の各ノードは、前記各第２のセマンティック単位であるステップと、
リレーショナルグラフ畳み込みニューラルネットワークＲＧＣＮを使用して前記有向グラフ内の各ノードのベクトル表現を取得するステップと、を含む、
請求項１に記載の関心地点ＰＯＩ状態情報を取得する方法。
前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得するステップは、
第２のセマンティック単位が第１のセマンティック単位を含む場合、当該第１のセマンティック単位のベクトル表現と当該第２のセマンティック単位のベクトル表現をスプライシングした後に当該第１のセマンティック単位の融合ベクトル表現を取得するステップと、又は、
各第２のセマンティック単位のベクトル表現を第１のセマンティック単位に対して注意力処理を行い、当該第１のセマンティック単位の融合ベクトル表現を取得するステップと、を含む、
請求項１に記載の関心地点ＰＯＩ状態情報を取得する方法。
前記各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行うステップは、
条件付き確率場ＣＲＦモデルを使用して各第１のセマンティック単位の融合ベクトルをマッピングし、各第１のセマンティック単位のラベルを取得するステップを含み、前記ラベルは、対応する第１のセマンティック単位がＰＯＩ名称とＰＯＩ状態であるか否かを示す、
請求項１に記載の関心地点ＰＯＩ状態情報を取得する方法。
前記第１のセマンティック単位は文字であり、前記第２のセマンティック単位は単語である、
請求項１～７のいずれか一項に記載の関心地点ＰＯＩ状態情報を取得する方法。
トレーニングデータを取得するステップであって、前記トレーニングデータは、テキストと、当該テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果とを含むステップと、
前記テキストをＰＯＩ状態識別モデルの入力とし、前記テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果を前記ＰＯＩ状態識別モデルのターゲット予測結果として、前記ＰＯＩ状態識別モデルをトレーニングするステップと、を含み、
前記ＰＯＩ状態識別モデルは、
前記テキスト内の各第１のセマンティック単位のベクトル表現を取得し、前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得し、前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得し、各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行う、
ＰＯＩ状態識別モデルを確立する方法。
トレーニングデータを取得するステップは、
シードテキストと、前記シードテキストに含まれるＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態のラベルラベリング結果を取得するステップと、
ＰＯＩデータベースにおける前記シードテキストに含まれるＰＯＩ名称と同じタイプであるＰＯＩ名称で、前記シードテキスト内のＰＯＩ名称を置き換え、拡張テキストを取得するステップと、
前記シードテキストと前記拡張テキストから前記トレーニングデータを取得するステップと、を含む、
請求項９に記載のＰＯＩ状態識別モデルを確立する方法。
前記シードテキストを取得するステップは、
インターネットからＰＯＩ名称を含むテキストを取得するステップと、
ＰＯＩ状態変化情報を表す単語を含む予め確立された辞書を使用して前記ＰＯＩ名称を含むテキストからＰＯＩ状態変化情報を含まないテキストをフィルタリングし、前記シードテキストを取得するステップと、を含み、
請求項１０に記載のＰＯＩ状態識別モデルを確立する方法。
前記テキスト内の各第１のセマンティック単位のベクトル表現を取得するステップは、
プリトレーニング言語モデルを使用して前記テキスト内の各第１のセマンティック単位に対してセマンティック特徴の抽出を行い、各第１のセマンティック単位のベクトル表現を取得するステップを含む、
請求項９に記載のＰＯＩ状態識別モデルを確立する方法。
前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得するステップは、
前記テキストに対して構文分析を行って前記テキストのセマンティック依存ツリーを取得するステップと、
前記セマンティック依存ツリーに対応する有向グラフを取得するステップであって、前記有向グラフ内の各ノードは、前記各第２のセマンティック単位であるステップと、
リレーショナルグラフ畳み込みニューラルネットワークＲＧＣＮを使用して前記有向グラフ内の各ノードのベクトル表現を取得するステップと、を含む、
請求項９に記載のＰＯＩ状態識別モデルを確立する方法。
前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得するステップは、
第２のセマンティック単位が第１のセマンティック単位を含む場合、当該第１のセマンティック単位のベクトル表現と当該第２のセマンティック単位のベクトル表現をスプライシングした後に当該第１のセマンティック単位の融合ベクトル表現を取得するステップと、又は、
各第２のセマンティック単位のベクトル表現を第１のセマンティック単位に対して注意力処理を行い、当該第１のセマンティック単位の融合ベクトル表現を取得するステップと、を含む、
請求項９に記載のＰＯＩ状態識別モデルを確立する方法。
前記各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行うステップは、
条件付き確率場ＣＲＦモデルを使用して各第１のセマンティック単位の融合ベクトルをマッピングし、各第１のセマンティック単位のラベルを取得するステップを含み、前記ラベルは、ＰＯＩ名称とＰＯＩ状態であるか否かを示す、
請求項９に記載のＰＯＩ状態識別モデルを確立する方法。
インターネットから予め設定された期間内のＰＯＩ情報を含むテキストを取得するテキスト取得ユニットと、
予めトレーニングされたＰＯＩ状態識別モデルを使用して前記テキストを識別し、前記テキスト内の２つ組を取得する状態識別ユニットであって、前記２つ組は、ＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態情報を含む状態識別ユニットと、を含み、
前記ＰＯＩ状態識別モデルは、
前記テキスト内の各第１のセマンティック単位のベクトル表現を取得するセマンティック表現モジュールと、
前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得するセマンティック依存表現モジュールと、
前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得する表現融合モジュールと、
各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行うラベル予測モジュールと、を含む、
ＰＯＩ状態情報を取得する装置。
前記テキスト取得ユニットは、インターネットから予め設定された期間内のテキストを取得し、予めトレーニングされたＰＯＩ識別器を使用して、取得されたテキストに対してＰＯＩ情報識別を行い、ＰＯＩ情報を含むテキストを保持する、
請求項１６に記載のＰＯＩ状態情報を取得する装置。
前記セマンティック表現モジュールは、プリトレーニング言語モデルを使用して前記テキスト内の各第１のセマンティック単位に対してセマンティック特徴の抽出を行い、各第１のセマンティック単位のベクトル表現を取得する、
請求項１６に記載のＰＯＩ状態情報を取得する装置。
前記セマンティック依存表現モジュールは、前記テキストに対して構文分析を行って前記テキストのセマンティック依存ツリーを取得し、前記セマンティック依存ツリーに対応する有向グラフを取得し、前記有向グラフ内の各ノードは、前記各第２のセマンティック単位であり、リレーショナルグラフ畳み込みニューラルネットワークＲＧＣＮを使用して前記有向グラフ内の各ノードのベクトル表現を取得する、
請求項１６に記載のＰＯＩ状態情報を取得する装置。
前記表現融合モジュールは、第２のセマンティック単位が第１のセマンティック単位を含む場合、当該第１のセマンティック単位のベクトル表現と当該第２のセマンティック単位のベクトル表現をスプライシングした後に当該第１のセマンティック単位の融合ベクトル表現を取得するか、又は、各第２のセマンティック単位のベクトル表現を第１のセマンティック単位に対して注意力処理を行い、当該第１のセマンティック単位の融合ベクトル表現を取得する、
請求項１６に記載のＰＯＩ状態情報を取得する装置。
前記ラベル予測モジュールは、条件付き確率場ＣＲＦモデルを使用して各第１のセマンティック単位の融合ベクトルをマッピングし、各第１のセマンティック単位のラベルを取得し、前記ラベルは、対応する第１のセマンティック単位がＰＯＩ名称とＰＯＩ状態であるか否かを示す、
請求項１６に記載のＰＯＩ状態情報を取得する装置。
前記第１のセマンティック単位は文字であり、前記第２のセマンティック単位は単語である、
請求項１６から２１のいずれか一項に記載のＰＯＩ状態情報を取得する装置。
トレーニングデータを取得する取得ユニットであって、前記トレーニングデータは、テキストと、当該テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果とを含む取得ユニットと、
前記テキストをＰＯＩ状態識別モデルの入力とし、前記テキストに含まれるＰＯＩ名称とＰＯＩ状態のラベルラベリング結果を前記ＰＯＩ状態識別モデルのターゲット予測結果として、前記ＰＯＩ状態識別モデルをトレーニングするトレーニングユニットと、を含み、
前記ＰＯＩ状態識別モデルは、
前記テキスト内の各第１のセマンティック単位のベクトル表現を取得するセマンティック表現モジュールと、
前記テキストのセマンティック依存情報に基づいて前記テキスト内の各第２のセマンティック単位のベクトル表現を取得するセマンティック依存表現モジュールと、
前記各第１のセマンティック単位のベクトル表現と前記各第２のセマンティック単位のベクトル表現を融合処理し、前記各第１のセマンティック単位の融合ベクトル表現を取得する表現融合モジュールと、
各第１のセマンティック単位の融合ベクトル表現に基づいてＰＯＩ名称とＰＯＩ状態のラベル予測を行うラベル予測モジュールと、を含む、
ＰＯＩ状態識別モデルを確立する装置。
前記取得ユニットは、シードテキストと、前記シードテキストに含まれるＰＯＩ名称と当該ＰＯＩ名称に対応するＰＯＩ状態のラベルラベリング結果を取得し、ＰＯＩデータベースにおける前記シードテキストに含まれるＰＯＩ名称と同じタイプであるＰＯＩ名称で、前記シードテキスト内のＰＯＩ名称を置き換え、拡張テキストを取得し、前記シードテキストと前記拡張テキストから前記トレーニングデータを取得する、
請求項２３に記載のＰＯＩ状態識別モデルを確立する装置。
前記セマンティック表現モジュールは、プリトレーニング言語モデルを使用して前記テキスト内の各第１のセマンティック単位に対してセマンティック特徴の抽出を行い、各第１のセマンティック単位のベクトル表現を取得する、
請求項２３に記載のＰＯＩ状態識別モデルを確立する装置。
前記セマンティック依存表現モジュールは、前記テキストに対して構文分析を行って前記テキストのセマンティック依存ツリーを取得し、前記セマンティック依存ツリーに対応する有向グラフを取得し、前記有向グラフ内の各ノードは、前記各第２のセマンティック単位であり、リレーショナルグラフ畳み込みニューラルネットワークＲＧＣＮを使用して前記有向グラフ内の各ノードのベクトル表現を取得する、
請求項２３に記載のＰＯＩ状態識別モデルを確立する装置。
前記表現融合モジュールは、第２のセマンティック単位が第１のセマンティック単位を含む場合、当該第１のセマンティック単位のベクトル表現と当該第２のセマンティック単位のベクトル表現をスプライシングした後に当該第１のセマンティック単位の融合ベクトル表現を取得するか、又は、各第２のセマンティック単位のベクトル表現を第１のセマンティック単位に対して注意力処理を行い、当該第１のセマンティック単位の融合ベクトル表現を取得する、
請求項２３に記載のＰＯＩ状態識別モデルを確立する装置。
前記ラベル予測モジュールは、条件付き確率場ＣＲＦモデルを使用して各第１のセマンティック単位の融合ベクトルをマッピングし、各第１のセマンティック単位のラベルを取得し、前記ラベルは、ＰＯＩ名称とＰＯＩ状態であるか否かを示す、
請求項２３に記載のＰＯＩ状態識別モデルを確立する装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１から１５のいずれか一つに記載の方法を実行する、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１から１５のいずれか一つに記載の方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される時に請求項１から１５のいずれか一つに記載の方法を実現する、
コンピュータプログラム。