JP7112536B2

JP7112536B2 - テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7112536B2
Application number: JP2021003861A
Authority: JP
Inventors: シュワン，; カーシンレン，; シャオハンヂャン，; ヂーファンフォン，; ヤンヂャン，; ヨンヂュ，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2021-01-14
Publication date: 2022-08-03
Anticipated expiration: 2041-01-14
Also published as: CN111274815A; US20210216715A1; JP2021111413A; EP3852002A1; KR102554121B1; KR20210092147A; US11775761B2; CN111274815B

Description

本開示に係る実施例はコンピュータ技術分野に関しており、具体的には、テキストデータ処理の技術分野に関し、特に、テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラムに関している。

インターネット技術の発展に従い、ソーシャル・プラットフォームなどのネットワーキング・アプリケーションにおいてショートテキストは数多く現れている。テキストにおける実体注目点はテキスト情報に含まれている実体、および実体をめぐって表現される実体属性、関係話題やイベントなどの注目点情報を表すものである。実体注目点のラベリングとはテキストデータから主な表現実体および対応する実体注目点を明確化する技術である。実体注目点のラベリング結果はテキストコンテンツを迅速に抽出し、解釈可能な情報を推薦するために用いられるものである。

従来の実体注目点ラベリング技術案としては、主にキーワードの識別により実体キーワードおよび注目点キーワードを抽出する。このような方法はキーワードリポジトリの作成に依存するので、テキストにおける実体をよくカバーすることができず、且つ、実体と注目点との間の関係を判定できない。

本開示に係る実施例はテキストにおける実体注目点のマイニング方法および装置、電子機器およびコンピュータ読取可能な記憶媒体並びにコンピュータプログラムを提供する。

第１の態様において、本開示の実施例は、入力テキストに対しワード・フレーズ特徴を抽出するステップと、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るステップと、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理して、入力テキストにおけるコア実体の位置を予測するステップと、入力テキストにおけるコア実体の位置に基づき、入力テキストにおけるコア実体に対応するサブシーケンスを入力テキストのコーディングシーケンスから抽出するステップと、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって予測するステップと、を含む、テキストにおける実体注目点のマイニング方法を提供する。

いくつかの実施例において、上述した入力テキストに対しワード・フレーズ特徴を抽出するステップは、入力テキストに対応するワードシーケンスに対してワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得るステップと、入力テキストに対応するワードシーケンスにおける各キャラクタに対し位置埋め込み処理をして、対応する位置特徴ベクトルを取得するステップと、入力テキストに対し固有表現認識を行って、固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するステップと、入力テキストに対応するワード特徴ベクトル、位置特徴ベクトル、および固有表現タイプ特徴ベクトルを接続して入力テキストのワード・フレーズ特徴ベクトルを形成するステップと、を含む。

いくつかの実施例において、上述した固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するステップは、入力テキストにおける目標フレーズの固有表現のタイプが抽出されていないことに応じて、目標フレーズについて品詞ラベリングを行い、入力テキストから抽出された固有表現のタイプおよび目標フレーズの品詞ラベリング結果に基づき、固有表現タイプ特徴ベクトルを生成するステップを、含む。

いくつかの実施例において、上述したコア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理して、入力テキストにおけるコア実体の位置を予測するステップは、入力テキストのコーディングシーケンスをコア実体ラベリングネットワークに入力して、入力テキストにおける各文字列がコア実体となる確率を予測するとともに、入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングするステップを、含む。

いくつかの実施例において、上述した入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークにより、入力テキストにおけるコア実体に対応する注目点の位置を予測するステップは、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得するステップと、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストの第１の注目点特徴を生成し、入力テキストの第１の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップと、を含む。

いくつかの実施例において、上述した入力テキストの第１の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップは、
入力テキストにおける各文字列がコア実体の注目点となる確率を予測するように入力テキストの第１の注目点特徴を注目点ラベリングネットワークに入力するとともに、入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をそれぞれダブルポインタにてラベリングするステップを、含む。

いくつかの実施例において、上述した入力テキストはコア実体および対応する注目点のラベリング情報を含み、上述した方法は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするための訓練済みのモデルを取得するようにコア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整するステップをさらに含んでおり、コア実体注目点をラベリングするためのモデルは、テキストコーディングネットワーク、コア実体ラベリングネットワーク、および注目点ラベリングネットワークを含む。

いくつかの実施例において、上述した方法は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを得るステップをさらに含み、上述した入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって予測するステップは、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得するステップと、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続して、入力テキストにおけるコア実体のコーディングシーケンスを得るステップと、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、入力テキストの第２の注目点特徴を生成し、入力テキストの第２の注目点特徴を注目点ラベリングネットワークに入力し、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップとを、含む。

第２の態様において、本開示の実施例は、入力テキストに対しワード・フレーズ特徴を抽出するように構成されている第１の抽出ユニットと、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るように構成されているコーディングユニットと、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測するように構成されている第１のラベリングユニットと、入力テキストにおけるコア実体の位置に基づき、入力テキストにおけるコア実体に対応するサブシーケンスを入力テキストのコーディングシーケンスから抽出するように構成されている第２の抽出ユニットと、入力テキストのコーディングシーケンス、および入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを介して入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている第２のラベリングユニットと、を備える、テキストにおける実体注目点のマイニング装置を提供する。

いくつかの実施例において、上述した第１の抽出ユニットは、入力テキストに対応するワードシーケンスに対しワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得、入力テキストに対応するワードシーケンスにおける各キャラクタに対し位置埋め込み処理をして、対応する位置特徴ベクトルを得、入力テキストに対し固有表現認識を実行し、固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成し、入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して入力テキストのワード・フレーズ特徴ベクトルを形成する、というように入力テキストに対しワード・フレーズ特徴を抽出するように構成されている。

いくつかの実施例において、上述した第１の抽出ユニットはさらに、入力テキストにおける目標フレーズの固有表現のタイプが抽出されていないことに応じて、目標フレーズについて品詞ラベリングを行い、入力テキストから抽出された固有表現的タイプおよび目標フレーズの品詞ラベリング結果に基づき、固有表現タイプ特徴ベクトルを生成する、というように固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するように構成されている。

いくつかの実施例において、上述した第１のラベリングユニットは、入力テキストのコーディングシーケンスをコア実体ラベリングネットワークに入力して、入力テキストにおける各文字列がコア実体となる確率を予測するとともに、入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングする、というように入力テキストにおけるコア実体の位置を予測するように構成されている。

いくつかの実施例において、上述した第２のラベリングユニットは、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得し、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストの第１の注目点特徴を生成し、入力テキストの第１の注目点特徴を注目点ラベリングネットワークに入力し、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、というように入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。

いくつかの実施例において、上述した第２のラベリングユニットは、さらに、
入力テキストにおける各文字列がコア実体の注目点となる確率を予測するように入力テキストの第１の注目点特徴を注目点ラベリングネットワークに入力するとともに、入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をそれぞれダブルポインタにてラベリングする、というようにコア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するように構成されている。

いくつかの実施例において、上述した入力テキストはコア実体および対応する注目点のラベリング情報を含み、上述した装置は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするための訓練済みのモデルを取得するようにコア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整するように構成されている反復調整ユニットをさらに備えており、コア実体注目点をラベリングするためのモデルは、テキストコーディングネットワーク、コア実体ラベリングネットワークおよび注目点ラベリングネットワークを含む。

いくつかの実施例において、上述した装置は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを取得するように構成されている第３の抽出ユニットをさらに備え、上述した第２のラベリングユニットはさらに、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得し、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続して入力テキストにおけるコア実体的コーディングシーケンスを得、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、入力テキストの第２の注目点特徴を生成し、入力テキストの第２の注目点特徴を注目点ラベリングネットワークに入力し、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、というように入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。

第３の態様において、本開示の実施例は、１つ以上のプロセッサと、１つ以上のプログラムを記憶するための記憶装置と、を備えており、前記１つ以上のプログラムが前記１つ以上のプロセッサにより実行されるにあたり、前記１つ以上のプロセッサに第１の態様に記載のテキストにおける実体注目点のマイニング方法を実現させる、電子機器を提供する。

第４の態様において、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ読取可能な記憶媒体であって、前記プログラムがプロセッサにより実行される際に、第１の態様に記載のテキストにおける実体注目点のマイニング方法を実現する、コンピュータ読取可能な記憶媒体を提供する。

第５の態様において、本開示の実施例は、コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、第１の態様に記載のテキストにおける実体注目点のマイニング方法を実現する、コンピュータプログラムを提供する。

本開示に係る上記の実施例のテキストにおける実体注目点のマイニング方法および装置は、入力テキストに対しワード・フレーズ特徴を抽出することにより、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得る。コア実体ラベリングネットワークにより入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測する。入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出する。入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを用いて入力テキストにおけるコア実体に対応する注目点の位置を予測することにより、テキストにおける実体注目点の精確かつ全面的な抽出が図られる。

限定的ではない実施例について下記の図面を参照して行われる詳細的な記載を閲覧することにより、本開示の他の特徴、目的および長所はさらに明らかになる。

本開示に係る実施例を適用可能なシステム構成を模式的に示す図である。本開示に係るテキストにおける実体注目点のマイニング方法に基づく一実施例を示すフローチャートである。本開示に係るテキストにおける実体注目点のマイニング方法に基づく他の一実施例を示すフローチャートである。図３に示すテキストにおける実体注目点のマイニング方法の一例示の実現原理の流れを示す模式図である。本開示に係るテキストにおける実体注目点のマイニング装置の一実施例の構造を示す模式図である。本開示に係る実施例を実現するための電子機器に適用するコンピュータシステムを示す構造模式図である。

以下、本開示について図面および実施例を組合わせて更に詳細的に説明する。ここに提示される具体的な実施例は関係発明の解釈のみに用いられ、該発明を限定するものではないことを理解すべきである。なお、記載の便宜を図るために、図面には関係発明に関連する部分しか示されていない。

なお、主旨に違反しない場合には、本開示に係る実施例および実施例の特徴を互いに組合わせることができる。以下、本開示について図面を参照するとともに実施例を組合わせて詳細に説明する。

図１は本開示に係るテキストにおける実体注目点のマイニング方法又はテキストにおける実体注目点のマイニング装置の例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含み得る。ネットワーク１０４は端末装置１０１、１０２、１０３とサーバ１０５との間で通信リンクの媒体を提供するために用いられる。ネットワーク１０４は各種の接続タイプ、例えば、有線・無線通信リンク又は光ファイバケーブル等を含み得る。

メッセージなどを受送信するように端末装置１０１、１０２、１０３はサーバ１０５とネットワーク１０４を介して相互作用する。各種のクライアントアプリケーション、例えば、ソーシャル・プラットフォームアプリケーション、ニュース情報アプリケーション、電子商取引類アプリケーションなどがインストールされ得る端末装置１０１、１０２、１０３はクライアントデバイスであってもよい。

端末装置１０１、１０２、１０３はハードウェアであってもよいしソフトウェアであってもよい。端末装置１０１、１０２、１０３はハードウェアである場合、スマートフォン、タブレットＰＣ、電子ブックリーダー、ラップトップコンピュータおよびデスクトップコンピュータなどを含むがこれらに限定されない各種の電子機器であってもよい。一方、端末装置１０１、１０２、１０３はソフトウェアである場合、上記のように挙げられている電子機器にインストールされ得るものであり、複数のソフトウェア又はソフトウェアモジュール（例えば、分散型サービスを提供するための複数のソフトウェア又はソフトウェアモジュール）として構成されてもよいし、単数のソフトウェア又はソフトウェアモジュールとして構成されてもよい。ここで、具体的に限定を行わない。

サーバ１０５は各種のサービスを実行するサーバ、例えば、ソーシャル・プラットフォームアプリケーションのバックグラウンドサーバであってもよい。ソーシャル・プラットフォームアプリケーションのバックグラウンドサーバは、ユーザが発表したコンテンツデータ、発表されたコンテンツに対するユーザによる操作データなどを含む、端末装置１０１、１０２、１０３におけるソーシャル・プラットフォームアプリケーションで生成されるソーシャル・プラットフォームデータを取得することができる。例えば、ソーシャル・プラットフォームアプリケーションのバックグラウンドサーバは、取得されたデータをデータマイニングして主要情報を抽出することができる。

さらに、サーバ１０５は例えばネットワークデータマイニング処理サービスを提供するサーバ、例えば、検索エンジンサーバであってもよい。サーバ１０５はネットワークにおける各発信局のウェブサイトのコンテンツを取得して、ウェブサイトのコンテンツをデータマイニングして主要情報を抽出することができる。

本開示の応用シーンにおいて、サーバ１０５は端末装置１０１、１０２、１０３から取得されたテキストデータ、または、ページの発信局から取得されたテキストデータについて実体注目点をマイニングすることができる。

なお、通常、本開示に係る実施例が提供するテキストにおける実体注目点のマイニング方法はサーバ１０５により実行され、これに応じて、通常、テキストにおける実体注目点のマイニング装置はサーバ１０５に設置される。

一部の状況において、サーバ１０５はデータベース、メモリ又は他のサーバ（例えば、ウェブサイトサーバ）から処理対象であるテキストデータを取得することができる。このとき、例示的なシステムアーキテクチャ１００には端末装置１０１、１０２、１０３がなくてもよい。

なお、サーバ１０５はハードウェアであってもよいしソフトウェアであってもよい。サーバ１０５は、ハードウェアである場合、複数のサーバからなる分散型サーバクラスターとして構成されてもよいし、単数のサーバとして構成されてもよい。サーバ１０５は、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として構成されてもよいし、単数のソフトウェア又はソフトウェアモジュールとして構成されてもよい。ここで、具体的に限定しない。

図１に示す端末装置、ネットワークおよびサーバの数は例示でしかなく、実際のニーズに応じて、任意の数であってもよいことを理解すべきである。

引き続き、図２を参照すると、これは本開示に係るテキストにおける実体注目点のマイニング方法の一実施例の流れ２００を示している。該テキストにおける実体注目点のマイニング方法は下記のステップ２０１～２０５を含む。

ステップ２０１において、入力テキストについてワード・フレーズ特徴を抽出する。

テキストにおける実体注目点とはテキストが主に表現する実体および実体の属性、関連実体、関連話題やイベントなどのある方面の情報を指す。本実施例においては、テキストにおける実体注目点のマイニング方法の実行主体は、入力テキストとしてマイニング対象であるテキストを取得することができる。入力テキストはソーシャル・プラットフォームにおけるユーザが発表したテキストコンテンツであってもよいし、ネットワークページにおけるテキストコンテンツであってもよい。代わりに、本開示の実施例に係る入力テキストはインスタント・メッセージや、フォーラム又はソーシャル・プラットフォームでのメッセージなどのタイプのショートテキストであってもよい。

本実施例においては、入力テキストをワードシーケンスに分割してから、入力テキストのワードシーケンスについて特徴抽出および特徴の数学的表現を行い、入力テキストを対応するベクトル列に変換させることができる。具体的には、入力テキストのワードシーケンスにフレーズを埋め込んで入力テキストに対応するベクトル列を取得することができる。あるいは、話題モデル、ＴＦ－ＩＤＦ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ－ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ、単語出現頻度－逆文書頻度）などの方法を用いて入力テキストの特徴を抽出することができる。

代わりに、入力テキストについて下記のような方式にてワード・フレーズ特徴を抽出してもよい。

先ず、入力テキストに対応するワードシーケンスについてワード・フレーズの混合埋め込みを実施して対応するワード特徴ベクトルを取得する。実体注目点をラベリングするにあたり、テキストについて実体と注目点との境界を正確的に分割しなければならないので、境界分割ミスをできる限り回避するために、ワード単位で特徴を抽出して符号化する。これとともに、シングルワードは有効な意味情報を記憶することが難しいので、フレーズ埋め込みの方法を組み合わせて入力テキストの特徴を抽出しなければならない。

具体的には、先ず、入力テキストのワードシーケンスに対してワード単位でワード埋め込み処理を行ってワードベクトル列を得てから、入力テキストに対してフレーズ分割を実行し、対応するフレーズベクトルをＷｏｒｄ２Ｖｅｃモデルで抽出し、そして、各フレーズのフレーズベクトルをＮ回（Ｎがフレーズに含まれるワードの数である）繰り返し、フレーズベクトルをマトリックスを介してワードベクトルと同じ次元に変換させるとともにＮ個のフレーズベクトルを対応するＮ個のワードベクトルと混合させる。

例を挙げて説明しておく。入力テキストのフレーズ分割後、そのうちの一つのフレーズが「長江大橋」である場合、それに対してワード埋め込み処理を行って「長」、「江」、「大」、「橋」といった四つのシングルワードのワード埋め込みベクトルをそれぞれ得て、フレーズ埋め込み処理をして「長江大橋」のフレーズ埋め込みベクトルを得、「長江大橋」のフレーズ埋め込みベクトルを四回繰り返して、「長」、「江」、「大」、「橋」といった四つのシングルワードのワード埋め込みベクトルを用いて「長江大橋」のフレーズ埋め込みベクトルと混合して該フレーズ「長江大橋」に対応するワードベクトル列を生成することができる。

そして、入力テキストに対応するワードシーケンスにおける各キャラクタに対して位置埋め込み処理を実行して対応する位置特徴ベクトルを得る。ここで、位置埋め込みは各フレーズの入力テキストでの位置を表す。例えば、一つのショートテキストは１０個のワードを含む場合、フレーズＸが第３、４、５番目のワードを占めると、対応する位置埋め込み結果は１０次元ベクトルとして示すことができ、ここで、第３、４、５次元のベクトルの値が１であり、その他の次元のベクトルの値が０である。

その後、入力テキストに対して固有表現認識を行なって、固有表現認識の結果に基づき固有表現のタイプを表現する固有表現タイプ特徴ベクトルを生成する。

固有表現ベースに基づき、ＮＥＲ（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ、固有表現認識）モデルを用いて入力テキストにおける固有表現のタイプを識別することができる。そして、固有表現のタイプを対応する特徴ベクトルに変換する。

固有表現認識はテキストにおける人物、組織、位置、時間数量などを表す一部の動詞又は名詞を分類してラベリングすることができる。ある状況において、テキストには固有表現のタイプでラベリングされ得ないフレーズ、例えば、「バスケットボールをする」が一部存在可能である。本実施例の一部の選択可能な実現形態においては、入力テキストにおける目標フレーズの固有表現のタイプが識別されていないことに応じて、目標フレーズの品詞をラベリングすることができる。入力テキストにはＮＥＲモデルにて実体タイプを識別不能な目標フレーズがある場合、例えば、「動詞」、「名詞」、「動名詞」などのようにその品詞をラベリングすることができる。このとき、入力テキストから識別された固有表現のタイプ、および、目標フレーズの品詞のラベリング結果に基づき、固有表現タイプ特徴ベクトルを生成することができる。固有表現認識および品詞ラベリングによって、各フレーズの意味特徴を抽出することができる。

最後に、入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して、入力テキストのワード・フレーズ特徴ベクトルを形成する。

上記の入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して、具体的には、上記の入力テキストに対応するワード特徴ベクトル、位置特徴ベクトル、および固有表現タイプ特徴ベクトルを同じ次元に変換させてから接続して入力テキストのワード・フレーズ特徴ベクトルを形成することができる。

なお、上記のワード・フレーズ混合埋め込み方法と類似するように、本実施例においては、固有表現認識および品詞ラベリングによって抽出された特徴ベクトルをＮ回繰り返し（ここで、Ｎが対応するフレーズに含まれるワードの数である）、フレーズにおけるＮ個のシングルワードのワードベクトルと整合してからそれぞれ対応するフレーズにおける各シングルワードのワードベクトルと混合することにより、入力テキストに対応するワード特徴ベクトルを固有表現タイプ特徴ベクトルと混合し接続する。

入力テキストのワード・フレーズ特徴ベクトルには、各シングルワード位置を表す位置特徴ベクトルおよび固有表現タイプ特徴ベクトルが含まれているので、入力テキストのワード・フレーズ特徴ベクトルには豊富な意味特徴情報が含まれている。このようにして、この後、実体注目点ラベリングを行なう際にフレーズ同士間の意味関連性を正確に分析することに役立ち、さらに、実体注目点の位置を正確にラベリングすることができる。

ステップ２０２において、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得る。

テキストコーディングネットワークは畳み込みニューラルネットワーク、再帰型ニューラルネットワークなどに基づき作成される、テキストの特徴をコードに変換させるためのニューラルネットワークモデルであってもよい。本実施例においては、テキストコーディングネットワークとして拡張ゲート畳み込みニューラルネットワークを用いることができる。拡張ゲート畳み込みニューラルネットワークは各ニューロンの受容野を拡張させ得、各層のニューロンにその先の層より大きい範囲のニューロンの出力を捕捉させ得、各ニューロンの出力に何れも比較的大きい範囲の情報を含むことで、比較的長いシーケンス情報における距離が比較的遠いシーケンス元素同士間の依存関係を効果的に抽出することができる。テキストコーディングネットワークとして拡張ゲート畳み込みニューラルネットワークを適用することにより、入力テキストにおける距離が比較的遠いワード又はフレーズ同士間の依存関係を正確に抽出することができる。

実際に適用するにあたり、上記のテキストコーディングネットワークは予めサンプルに基づいて訓練されたニューラルネットワークであってもよい。テキストコーディングネットワークを含む実体注目点ラベリングモデルの訓練に本実施例に係る方法を適用する際に、上記のテキストコーディングネットワークは訓練にてネットワークパラメータが最適化されようとするニューラルネットワークであってもよい。

ステップ２０３において、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測する。

コア実体ラベリングネットワークは、入力テキストにおけるコア実体の位置をラベリングするために用いられるものである。ステップ２０２において入力テキストのワード・フレーズ特徴を符号化して得られたコーディングシーケンスをコア実体ラベリングネットワークに入力して、コア実体の位置をラベリングすることができる。ここで、コア実体の位置はコア実体の開始位置を含んでもよいし、コア実体の開始位置および終了位置を含んでもよいし、コア実体でカバーされているあらゆるシングルワードの位置を含んでもよい。

実際に適用するにあたり、コア実体ラベリングネットワークは予め訓練されたニューラルネットワークであってもよい。コア実体ラベリングネットワークを含む実体注目点ラベリングモデルの訓練に本実施例に係る方法を適用する際に、コア実体ラベリングネットワークは、ネットワークパラメータが訓練により最適化されようとするニューラルネットワークであってもよい。

入力テキストにおけるコア実体は、入力テキストに記載されている主題の主な実体を表現するものである。例えば、港珠澳大橋の開通についてのニューステキストには「港珠澳大橋」、「大橋」、「広東」などの実体が含まれており、「港珠澳大橋」がコア実体である。

本実施例の一部の選択可能な実現方式によれば、ステップ２０３において、入力テキストのコーディングシーケンスをコア実体ラベリングネットワークに入力することにより入力テキストにおける各文字列がコア実体となる確率を予測し、入力テキストにおける各文字列がコア実体となる確率に基づきコア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングするというように、入力テキストにおけるコア実体の位置を予測することができる。

ここで、ダブルポインタは開始位置をラベリングするためのポインタおよび終了位置をラベリングするためのポインタを含む。具体的には、上記のコア実体ラベリングネットワークによって入力テキストにおける各ワードがコア実体の開始位置となる確率、およびコア実体の終了位置となる確率を予測することができる。そして、各ワードがコア実体の開始位置となる確率およびコア実体の終了位置となる確率に基づき、コア実体である文字列は特定される。１つの２項分類モデルにて各ワードがコア実体の開始位置であるか否かを判定し、他の２項分類モデルにて各ワードがコア実体の終了位置であるか否かを判定する。

ダブルポインタにてコア実体の開始位置および終了位置をラベリングすることにより埋め込まれた実体を効果的にラベリングすることができる。例えば、入力テキストにおける「北京市海澱区学区住宅」という１文字列については、コア実体ラベリングネットワークは「北京市」、「北京市海澱区」、「北京市海淀区学区住宅」といった３つの実体をラベリングすることができ、このようにして、ラベリングする際に重要な実体が漏れることを回避でき、比較的長い実体についての予測結果はより正確になる。

代わりに、上記のコア実体ラベリングネットワークは注意層を有し得、該注意層がＳｅｌｆＡｔｔｅｎｔｉｏｎ（自己注意）層であってもよい。注意層は入力テキストのコーディングシーケンスに注意情報、具体的には、それぞれのシングルワード又は各フレーズ同士の注意点数情報を添加することができる。上記のコア実体ラベリングネットワークは、少なくとも１つの全結合層からなるＤｅｎｓｅネットワーク又は畳み込みニューラルネットワークを有し得る。注意層の出力結果は該Ｄｅｎｓｅネットワークまたは畳み込みニューラルネットワークに伝送されてコア実体位置の予測に用いられる。

ステップ２０４において、入力テキストにおけるコア実体の位置に基づき、入力テキストにおけるコア実体に対応するサブシーケンスを入力テキストのコーディングシーケンスから抽出する。

コア実体ラベリングネットワークによりラベリングされたコア実体の位置に基づき、コア実体に対応するサブシーケンスとしてステップ２０２で得られた入力テキストのコーディングシーケンスからコア実体における各シングルワードに対応するコードを抽出することができる。

ステップ２０５において、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって出力する。

本実施例においては、上記のコア実体に対応するサブシーケンスにはコア実体的コーディング情報が有され、入力テキストのコーディングシーケンスおよび該入力テキストから予測されたコア実体に対応するサブシーケンスは注目点ラベリングネットワークに入力され、注目点ラベリングネットワークにより入力テキストにおける各文字列がコア実体に対応する注目点となる確率が演算され、且つ、該確率に基づき２項分類して各文字列がコア実体に対応する注目点であるか否かの予測結果が得られることによって、コア実体に対応する注目点の位置がラベリングされる。

代わりに、上記の注目点ラベリングネットワークは上記の予測されたコア実体の注目点の開始位置および終了位置をダブルポインタ方法にてラベリングすることができる。

注目点ラベリングネットワークは予め訓練された、注目点位置をラベリングするためのニューラルネットワークであってもよい。訓練する際に、注目点ラベリングネットワークはコア実体および対応する注目点がラベリングされたテキストをサンプルとして、訓練期間にコア実体とコア実体の注目点との関係を学習することができる。

このようにして、注目点ラベリングネットワークを介して、入力テキストにおけるコア実体の注目点の位置はラベリングされ得、これにより、入力テキストにおけるコア実体注目点のマイニングが図られる。

上記のテキストにおけるコア実体注目点をマイニングする方法によれば、先ず、入力テキストに対しワード・フレーズ特徴を抽出してから、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化して、入力テキストのコーディングシーケンスを得て、そして、コア実体ラベリングネットワークを介して入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測し、引き続き、入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出し、最後に、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークによって入力テキストにおけるコア実体に対応する注目点の位置を予測する。これにより、テキストにおける実体注目点の正確且つ迅速な抽出が図られる一方、該方法は実体キーワードベースの作成に依存しないので、テキストにおける実体を効果的にカバーし、実体と注目点との間の関係を効果的に抽出することができ、これにより、テキストコンテンツの正確な抽出が図られる。

一部の実施例において、上記の方法はステップ２０５より前に、入力テキストのコーディングシーケンスを注意ネットワークに入力し注意情報を添加して入力テキストの注意コーディングシーケンスを得るステップをさらに含む。ここで、注意ネットワークはＳｅｌｆＡｔｔｅｎｔｉｏｎ（自己注意）ネットワークであってもよく、該注意ネットワークは入力テキストにおける各シングルワードまたは各フレーズ同士の関係を表す注意特徴を入力テキストのコーディングシーケンスに添加し入力テキストの注意コーディングシーケンスを得るものである。

一部の実施例において、上記のステップ２０５は下記のように実行され得るものである。

先ず、前記コア実体の注目点リポジトリに基づき作成された入力テキストにおけるコア実体の注目点の先験的特徴を取得し、ここで、コア実体の注目点の先験的特徴がコア実体の注目点リポジトリから上記の入力テキストにおけるコア実体の関連知識を選別するとともに特徴を抽出することによって得られるものである。代わりに、上記の入力テキストにおけるコア実体の注目点の先験的特徴はコア実体ラベリングネットワークによって予測され得る。

次に、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストの第１の注目点特徴を生成し、入力テキストの第１の注目点特徴を前記注目点ラベリングネットワークに入力し、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測することができる。

具体的には、コア実体の注目点の先験的特徴をコーディングするとともにコア実体コーディングネットワークによって入力テキストにおけるコア実体に対応するサブシーケンスを符号化して、入力テキストにおけるコア実体のコーディングシーケンスを得る。代わりに、注意ネットワークに入力テキストのコーディングシーケンスを入力し注意情報を添加して入力テキストの注意コーディングシーケンスを得た後、入力テキストのコーディングシーケンス又は入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンス、および入力テキストにおけるコア実体に対応するコーディングシーケンスを接続してなるシーケンスを入力テキストを生成する第１の注目点特徴とするか、又は、上記の入力テキストのコーディングシーケンスまたは入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンス、および入力テキストにおけるコア実体に対応するコーディングシーケンスの加重合計を入力テキストの第１の注目点特徴とすることによって、入力テキストの第１の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測することもできる。

コア実体の注目点の先験的特徴はリポジトリおよび大規模のデータマイニングに基づき生成された一部の実体注目点の特徴を表すことができ、例えば、一部の実体と一部の注目点とはある依存関係に基づく場合、これらの注目点はこれらの実体の注目点とする信頼度が比較的高くなっている。例えば、「映画ムーランの予告編」の場合、入力テキストからコア実体である「映画ムーラン」が予測され、且つ、入力テキストには「予告編」が現れると、先験的特徴に基づいて、「予告編」が「映画ムーラン」に対応する注目点となる確率は比較的高いことが判定され得る。

具体的には、上記のコア実体の注目点の先験的特徴はリポジトリからマイニングされたコア実体の各注目点の現れる確率を含んでもよい。

コア実体コーディングネットワークはコア実体に対応するサブシーケンスを再符号化するニューラルネットワークであってもよい。実際に適用する状況において、コア実体コーディングネットワークは予め訓練されたネットワークであってもよく、コア実体コーディングネットワークを含むコア実体注目点ラベリングモデルを訓練する状況に適用される場合、コア実体コーディングネットワークはパラメータが訓練により最適化されるべきニューラルネットワークを含んでもよい。代わりに、コア実体コーディングネットワークは双方向ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ長・短期記憶ネットワーク）であってもよい。

コア実体コーディングネットワークがコア実体に対応するサブシーケンスを符号化して得られたコア実体に対応するコーディングシーケンスを、上記の入力テキストの注意コーディングシーケンスと接続して第１の接続シーケンスを生成する。上記の注目点ラベリングネットワークは該第１の接続シーケンスに基づきコア実体に対応する注目点の位置を予測することができる。

代わりに、上記の第１の注目点特徴を注目点ラベリングネットワークに入力して、入力テキストにおける各文字列がコア実体の注目点となる確率を予測するとともに、入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をダブルポインタにてそれぞれラベリングすることができる。

上記の注目点ラベリングネットワークは２項分類モデルを２つ含んでもよい。２つの２項分類モデルはそれぞれ入力テキストにおける各ワードがコア実体の注目点の開始位置および終了位置であるか否かについて分類する。

上記の注目点ラベリングネットワークは少なくとも１つの全結合層からなるニューラルネットワーク、例えば、Ｄｅｎｓｅネットワーク、畳み込みニューラルネットワークなどを含んでもよい。

本実施例においては、注目点ラベリングネットワークの入力にコア実体の注目点の先験的知識を加えることにより、コア実体注目点のラベリング結果の正確性をさらに向上することができる。更に、一段落のテキストにはコア実体の複数の注目点が含まれるときに、複数の注目点を同時にラベリングすることができ、キーワードベースに依存しないままより多くの実体注目点をカバーでき、テキストコンテンツの全面的な改良が図られる。

一部の実施例において、上記のテキストにおける実体注目点のマイニング方法は、コア実体注目点をラベリングするためのモデルの訓練に適用可能である。このとき、上記のテキストにおける実体注目点のマイニング方法におけるコア実体予測および対応する注目点予測の操作を反復実行することにより、コア実体予測ネットワークおよび注目点予測ネットワークを含む、コア実体注目点をラベリングするためのモデルを訓練することができる。

図３を参照すると、これは本開示に係るテキストにおける実体注目点のマイニング方法に基づく他の一実施例を示すフローチャートである。図３に示すように、本実施例に係るテキストにおける実体注目点のマイニング方法の流れ３００は下記のステップ３０１～３０６を含む。

ステップ３０１において、入力テキストについてワード・フレーズ特徴を抽出する。

本実施例においては、テキストにおける実体注目点のマイニング方法の実行主体は入力テキストを取得することができる。ここで、入力テキストは、コア実体注目点をラベリングするためのモデルの訓練サンプルとして用いられ、コア実体および対応する注目点のラベリング情報を含む。

テキストにおけるコア実体および対応する注目点を手動でラベリングすることにより、コア実体注目点をラベリングするためのモデルの訓練サンプルとして、コア実体および対応する注目点ラベリング情報を含む入力テキストを取得することができる。

本実施例においては、コア実体注目点をラベリングするためのモデルは、上記のテキストコーディングネットワーク、コア実体ラベリングネットワーク、注目点ラベリングネットワークを含んでもよい。代わりに、注意ネットワーク、コア実体コーディングネットワークをさらに含んでもよい。

入力テキストに対してワード・フレーズ特徴を抽出する本実施例に係る方法は、前述実施例に提示されるステップ２０１の方法と同じ、フレーズ埋め込みなどの方法にて入力テキストをベクトルに変換させ得る。代わりに、ステップ２０１に記載のワード・フレーズ混合埋め込み、位置埋め込み、固有表現タイプ埋め込みの方法にて入力テキストのワード・フレーズ混合特徴、位置特徴、固有表現タイプ特徴を抽出することもできる。

ステップ３０２において、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得る。

ステップ３０３において、コア実体ラベリングネットワークを介して入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測する。

ステップ３０４において、入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出する。

ステップ３０５において、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを介して入力テキストにおけるコア実体に対応する注目点の位置を予測する。

本実施例におけるステップ３０２ないしステップ３０５は前述実施例におけるステップ２０２ないしステップ２０５と一致しており、ステップ３０２ないしステップ３０５の具体的な実現方式としては、前述実施例におけるステップ２０２ないしステップ２０５の記載をそれぞれ参照してもよく、ここでは詳細に説明しない。

ステップ３０６において、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整することにより、コア実体注目点をラベリングするための訓練済みのモデルを取得する。

反復期間毎に、コア実体注目点をラベリングするためのモデルの現在の予測誤差として、コア実体ラベリングネットワークに予測された入力テキストにおけるコア実体と、入力テキストに含まれるラベリング情報の示すコア実体との偏差、および注目点ラベリングネットワークに予測された入力テキストにおけるコア実体の注目点と、入力テキストに含まれるラベリング情報の示す対応する注目点との偏差を演算することができ、予測誤差が所定の収束条件に達していないと判定した場合、コア実体注目点をラベリングするためのモデルのパラメータを勾配降下法にて調整し、予測誤差をモデルの予測に逆伝播し、パラメータが調整された、コア実体注目点をラベリングするためのモデルによって、ステップ３０１ないしステップ３０５を改めて実行して新たな予測誤差を得て、モデルの予測誤差が予め設定された収束条件に達するまでこのように数回反復してモデルのパラメータを連続的に最適化し、モデルのパラメータを確定し、コア実体注目点をラベリングするための訓練済みのモデルを得る。なお、コア実体注目点をラベリングするためのモデルのパラメータはコア実体注目点をラベリングするためのモデルに含まれる各ネットワークのパラメータを含んでもよく、モデルパラメータを更新する度に、モデルにおける各ネットワークのパラメータを同時に更新することができる。

本実施例のいくつかの選択可能な実現方式において、上記方法の流れ３００は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを得るステップをさらに含んでもよい。

具体的には、入力テキストのラベリング情報の示すコア実体と対応する注目点との相対位置関係を相対位置埋め込み方法を用いてベクトル化し、畳み込みニューラルネットワークなどに基づいて作成されたコーディングネットワークによって、該相対位置関係を表すベクトルを符号化して相対位置特徴シーケンスを得る。

このとき、下記のように上記のステップ３０５を実行することができる。

先ず、コア実体の注目点リポジトリに基づいて作成された上記の入力テキストにおけるコア実体の注目点の先験的特徴を取得し、ここで、コア実体の注目点の先験的特徴はコア実体の注目点リポジトリから上記の入力テキストにおけるコア実体の関連知識を選別するとともに特徴を抽出することにより取得され得るものである。代わりに、上記の入力テキストにおけるコア実体の注目点の先験的特徴は訓練対象であるコア実体ラベリングネットワークから予測され得るものである。

そして、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と、相対位置特徴シーケンスとを接続して、入力テキストにおけるコア実体のコーディングシーケンスを得ることができる。

代わりに、上記のコア実体注目点をラベリングするためのモデルは、コア実体コーディングネットワークをさらに含んでもよい。コア実体コーディングネットワークは、コア実体に対応するサブシーケンスを再符号化するためのニューラルネットワークであってもよい。代わりに、コア実体コーディングネットワークは双方向ＬＳＴＭであってもよい。

最後に、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、入力テキストの第２の注目点特徴を生成し、入力テキストの第２の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する。

代わりに、上記のコア実体注目点をラベリングするためのモデルは、注意ネットワークをさらに含んでもよい。注意ネットワークは、入力テキストのコーディングシーケンスに、入力テキストにおけるシングルワード同士、またはフレーズ同士の潜在的な依存関係を表す注意情報を添加するために用いられる。このとき、前記入力テキストのコーディングシーケンスを注意ネットワークに入力して注意情報を添加し、入力テキストの注意コーディングシーケンスを得る。入力テキストのコーディングシーケンス又は入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンス、および、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続してなる上記の入力テキストにおけるコア実体に対応するコーディングシーケンスを接続して得られたシーケンスを入力テキストの第２の注目点特徴とすることもできるし、または、入力テキストのコーディングシーケンス又は入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンス、および、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続して得られたコア実体に対応するコーディングシーケンスの加重合計を上記の入力テキストの第２の注目点特徴とすることもできる。

実践中、入力テキストから予測されたコア実体のコーディングシーケンスと上記の相対位置特徴シーケンスとを接続して、入力テキストのコーディングシーケンスと長さが等しいベクトル列を得、そして、入力テキストの注意コーディングシーケンス、該コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンスを接続して第２の接続シーケンスを形成する。このようにして得られた第２の接続シーケンスは、入力テキストの特徴、コア実体の位置特徴を含むだけでなく、コア実体と対応する注目点との相対位置特徴、コア実体の注目点の先験的特徴をも含むので、注目点ラベリングネットワークにおいて第２の接続シーケンスを処理した後より正確な注目点予測結果が得られる。

上記の実現形態において、コア実体注目点をラベリングするためのモデルに含まれる各ネットワークに基づいて、コア実体注目点をラベリングするためのモデルの予測誤差を表す損失関数の式が作成され得る。コア実体注目点をラベリングするためのモデルにおける各ネットワークのパラメータを反復調整して損失関数の値を収束させることにより、訓練期間に各ネットワークのパラメータを次第に最適化する。

引き続き、図４を参照すると、これは図３に示すテキストにおける実体注目点のマイニング方法の一例示の実現原理の流れを示す模式図であり、具体的には、コア実体注目点をラベリングするためのモデルによる入力テキストに対する処理流れを示している。

図４に示すように、先ず、入力テキストに対して、ワード・フレーズ混合埋め込み、位置埋め込み、及び固有表現タイプ埋め込みの処理を実行し、次に、拡張ゲート畳み込みネットワークにより埋め込み処理をして得られた特徴を符号化してコーディングされたシーケンスＥを得る。その後、シーケンスＥを１つの注意ネットワークに伝送した後に全結合ネットワーク（ＤｅｎｓｅＮｅｔ）に出力結果を伝送し、コア実体ｓの開始位置および終了位置をダブルポインタラベリング法にてラベリングする。コア実体ｓに対応するシーケンスＥのサブシーケンスを１つの双方向ＬＳＴＭに伝送してコア実体ｓのコーディングシーケンスを得、そして、コア実体ｓのコーディングシーケンスに、注目点と実体との相対位置特徴を加えて、入力テキストのコーディングシーケンスＥと長さが等しい１つのベクトル列を得る。そして、シーケンスＥを他の注意ネットワークに伝送して、該注意ネットワークの出力を、前のステップで得られたシーケンスＥと長さが等しいベクトル列、および実体注目点リポジトリにより作成された実体の注目点の先験的特徴コーディングと接続させる。接続結果を全結合ネットワーク（ＤｅｎｓｅＮｅｔ）に入力して、注目点の開始位置および終了位置をダブルポインタラベリング法にてラベリングし、最後に、コア実体注目点のラベリング結果を出力する。

本実施例に係るテキストにおける実体注目点のマイニング方法により、コア実体注目点を正確にラベリングできるニューラルネットワークモデルを取得することができる。且つ、一部の実現方式において、該ニューラルネットワークモデルは、入力特徴としてコア実体と注目点との相対位置を学習することができ、訓練して得られたコア実体注目点をラベリングするためのモデルの正確性および訓練効率を同時に向上することができる。

図５を参照して、上記のテキストにおける実体注目点のマイニング方法を実現するために、本開示はテキストにおける実体注目点のマイニング装置の一実施例を提供しており、該装置実施例が図２、図３に示す方法実施例に対応し、具体的には、該装置が各種の電子機器に適用可能である。

図５に示すように、本実施例に係るテキストにおける実体注目点のマイニング装置５００は、第１の抽出ユニット５０１、コーディングユニット５０２、第１のラベリングユニット５０３、第２の抽出ユニット５０４、および第２のラベリングユニット５０５を備える。ここで、第１の抽出ユニット５０１は、入力テキストに対しワード・フレーズ特徴を抽出するように構成されている。コーディングユニット５０２は、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るように構成されている。第１のラベリングユニット５０３は、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測するように構成されている。第２の抽出ユニット５０４は入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出するように構成されている。第２のラベリングユニット５０５は、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを用いて入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。

一部の実施例において、上記の第１の抽出ユニット５０１は、入力テキストに対応するワードシーケンスに対しワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得、入力テキストに対応するワードシーケンスにおける各キャラクタを位置埋め込み処理して対応する位置特徴ベクトルを得、入力テキストを固有表現認識して固有表現認識の結果に基づき固有表現的タイプを表す固有表現タイプ特徴ベクトルを生成し、入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して入力テキストのワード・フレーズ特徴ベクトルを形成することによって、入力テキストに対しワード・フレーズ特徴を抽出するように構成されている。

一部の実施例において、上記の第１の抽出ユニット５０１は、さらに、識別されていない入力テキストにおける目標フレーズの固有表現のタイプに応じて、目標フレーズについて品詞をラベリングし、入力テキストから識別された固有表現のタイプおよび目標フレーズの品詞ラベリング結果に基づき、固有表現タイプ特徴ベクトルを生成することによって、固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するように構成されている。

一部の実施例において、上記の第１のラベリングユニット５０３は、入力テキストのコーディングシーケンスをコア実体ラベリングネットワークに入力することにより、入力テキストにおける各文字列がコア実体となる確率を予測するとともに、入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングすることによって、入力テキストにおけるコア実体の位置を予測するように構成されている。

一部の実施例において、上記の第２のラベリングユニット５０５は、コア実体の注目点リポジトリに基づいて作成されるコア実体の注目点の先験的特徴を取得し、入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングサブシーケンスに基づき、入力テキストの第１の注目点特徴を生成し、入力テキストの第１の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測することによって、入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。

一部の実施例において、上記の第２のラベリングユニット５０５は、さらに、入力テキストの第１の注目点特徴を注目点ラベリングネットワークに入力して、入力テキストにおける各文字列がコア実体の注目点となる確率を予測するとともに、入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をダブルポインタにてそれぞれラベリングすることによって、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するように構成されている。

一部の実施例において、上記の入力テキストは、コア実体および対応する注目点のラベリング情報を含む。上記の装置５００は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整することにより、コア実体注目点をラベリングするための訓練済みのモデルを取得するように構成されている反復調整ユニットをさらに備えており、コア実体注目点をラベリングするためのモデルがテキストコーディングネットワーク、コア実体ラベリングネットワーク、および注目点ラベリングネットワークを含む。

一部の実施例において、上記の装置は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出するとともに符号化して相対位置特徴シーケンスを得るように構成されている第３の抽出ユニットをさらに備える。なお、上記の第２のラベリングユニット５０５は、さらに、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得し、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続して、入力テキストにおけるコア実体のコーディングシーケンスを得、入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、入力テキストの第２の注目点特徴を生成し、入力テキストの第２の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、という方式にて入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。

上記の装置５００が備えるユニットは図２、図３に示す方法におけるステップに対応している。これにより、テキストにおける実体注目点のマイニング方法をめぐって記載されている上記の操作、特徴、および達成可能な技術效果は、同様に、装置５００およびそれが備えるユニットに適用可能であり、ここで詳細に説明しない。

引き続き、図６を参照すると、これは本開示に係る実施例を実現するための電子機器（例えば、図１に示すサーバ）６００の構造模式図である。図６に示される電子機器は例示でしかなく、本開示に係る実施例の機能および使用範囲を限定するものではない。

図６に示すように、電子機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されたプログラム、または、記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にローディングされたプログラムに従い各種の適宜な動作および処理を実行可能な処理装置（例えば、中央処理装置、グラフィック処理装置など）６０１を含んでもよい。ＲＡＭ６０３には、電子機器６００の動作に要する各種のプログラムおよびデータがさらに記憶されている。処理装置６０１、ＲＯＭ６０２およびＲＡＭ６０３はバス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

一般的には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどのような入力装置６０６、液晶表示装置（ＬＣＤ）、スピーカー、振動器などのような出力装置６０７、ハードディスクなどのような記憶装置６０８、および通信装置６０９は、Ｉ／Ｏインターフェース６０５に接続可能である。通信装置６０９は、電子機器６００が他のデバイスと無線または有線の通信をしてデータを交換することを可能にする。図６は各種の装置を備える電子機器６００を示しているが、示される装置のすべてを実行または具備することを要求しておらず、代わりにより少ない又はより多くの装置を実行または具備することもできることを理解するべきである。図６に示されるブロックはそれぞれ１つの装置を表してもよいし、必要に応じて複数の装置を表してもよい。

特に、本開示に係る実施例に従い、フローチャートを参照して記載された上記のプロセスはコンピュータソフトウェアプログラムとして実現可能なものである。例えば、本開示に係る実施例は、コンピュータ読取可能な媒体に担持されている、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラム製品を備える。このような実施例において、該コンピュータプログラムは通信装置６０９によってネットワークからダウンロードおよびインストールされたり、記憶装置６０８からインストールされたり、ＲＯＭ６０２からインストールされたりしてもよい。該コンピュータプログラムが処理装置６０１により実行される際に、本開示に係る実施例の方法に規定される上記の機能を実行する。なお、本開示に係る実施例に記載のコンピュータ読取可能な媒体はコンピュータ読み取り可能な信号媒体であってもよいし、コンピュータ読み取り可能な記憶媒体であってもよいし、両者の任意の組合であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線の、あるいは、半導体のシステム、装置またはデバイス、あるいは、これらの任意の組合であってもよいがこれらに限定されるものではない。より具体的な例としてはコンピュータ読み取り可能な記憶媒体は、１つまたは複数のリード線を有する電気的接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、携帯式コンパクト磁気ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光メモリ、磁気メモリ、またはこれらの任意の適宜な組合を含むが、これらに限定されない。本開示に係る実施例において、コンピュータ読み取り可能な記憶媒体は、プログラムを具備または記憶する如何なる有形媒体であってもよく、該プログラムが指令実行システム、装置またはデバイスにより使用されたりそれと組み合わせられたりしてもよい。本開示に係る実施例において、コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードが担持されている、ベースバンドにおけるデータ信号、または、キャリアの一部として伝搬されるデータ信号を含んでもよい。この伝搬データ信号は複数の形式があり、電磁信号、光信号、または、これらの任意の適宜な組合を含むがこれらに限定されない。コンピュータ読み取り可能な信号媒体はコンピュータ読み取り可能な記憶媒体以外の如何なるコンピュータ読取可能な媒体であってもよく、該コンピュータ読み取り可能な信号媒体は指令実行システム、装置またはデバイスに用いられる、または、それらと組み合わせて用いられるプログラムを送信、伝搬または伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは如何なる適宜な媒体により伝送され得、電線、光ケーブル、ＲＦ（無線周波数）など、または、これらの任意の適宜な組合を含むがこれらに限定されない。

上記のコンピュータ読取可能な媒体は上記の電子機器に含まれるものであってもよいし、単独に存在し該電子機器にインストールされていないものであってもよい。上記のコンピュータ読取可能な媒体には１つまたは複数のプログラムが担持され、上記の１つまたは複数のプログラムが該電子機器により実行される際に、該電子機器に、入力テキストに対しワード・フレーズ特徴を抽出するステップ、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力し符号化して入力テキストのコーディングシーケンスを得るステップ、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測するステップ、入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出するステップ、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークにより入力テキストにおけるコア実体に対応する注目点の位置を予測するステップを実行させる。

本開示に係る実施例の操作を実行するためのコンピュータプログラムコードは１種以上のプログラミング言語またはそれらの組合にてコンパイルされ得る。プログラミング言語はオブジェクト指向のプログラミング言語、例えば、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋を含み、さらに、通常の手続き型のプログラミング言語、例えば、「Ｃ」言語または類似のプログラミング言語も含む。プログラムコードは、ユーザコンピュータで完全に実行されたり、ユーザコンピュータで部分的に実行されたり、１つの独立のソフトウェアパッケージとして実行されたり、一部がユーザコンピュータで一部がリモート・コンピューターで実行されたり、リモート・コンピューターまたはサーバで完全に実行されたりしてもよい。リモート・コンピューターに関する場合には、リモート・コンピューターは、ローカルエリア・ネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザコンピュータに接続されたり、外部コンピュータ（例えば、インターネットサービス提供事業者によりインターネットで接続される）に接続されたりしてもよい。

図面におけるローチャートおよびブロック図は、本開示に係る各種の実施例のシステム、方法およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を示している。このことについては、フローチャートまたはブロック図におけるブロックはそれぞれ１つのモジュール、プログラムセグメント、またはコードの一部を代表でき、該モジュール、プログラムセグメント、またはコードの一部が１つ以上の、所定のロジック機能を果たすための実行可能な指令を含む。代替例として、ブロックに示される機能は図面に示される順序と異なる順で実行され得ることに注意すべきである。例えば、連続的に示されるブロックは実際にだいたい並行的に実行され得るが、かかる機能に応じて時には反対の順序で実行され得る。ブロック図および／またはフローチャートにおけるそれぞれのブロック、およびブロック図および／またはフローチャートにおけるブロックの組合は、所定の機能または操作を実行するための、ハードウェアに基づく特定用途向けシステムにより実現され得、または、特定用途向けハードウェアとコンピュータ指令との組合にて実現され得るということにも注意すべきである。

本開示に記載される実施例に関わるユニットはソフトウェアにより実現されてもよいし、ハードウェアにより実現されてもよい。かかるユニットはプロセッサに設置され得、例えば、プロセッサであって、第１の抽出ユニット、コーディングユニット、第１のラベリングユニット、第２の抽出ユニットおよび第２のラベリングユニットを備えるというように記載され得る。ここで、ある場合にはこれらのユニットの名称は該ユニット自体を限定せず、例えば、第１の抽出ユニットは「入力テキストに対しワード・フレーズ特徴を抽出するユニット」のように記載され得る。

上述した内容は、本開示の比較的良い実施例および用いられる技術原理についての説明でしかない。当業者は、本開示の関する発明の範囲が上記の技術特徴の特別な組合でなる技術方案に限定されず、上記の発明主旨から逸脱しない場合、上記の技術特徴または均等の特徴を任意に組み合わせてなる他の技術案、例えば、上記の特徴と本願に開示されている（しかしながら、これに限定されない）類似の機能を有する技術特徴とを互いに取り替えてなる技術方案も含むべきであることを理解するべきである。

Claims

テキストにおける実体注目点のマイニング装置により実行される方法であって、
入力テキストに対しワード・フレーズ特徴を抽出するステップと、
抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るステップと、
コア実体ラベリングネットワークによって前記入力テキストのコーディングシーケンスを処理して、前記入力テキストにおけるコア実体の位置を予測するステップと、
前記入力テキストにおけるコア実体の位置に基づき、前記入力テキストにおけるコア実体に対応するサブシーケンスを前記入力テキストのコーディングシーケンスから抽出するステップと、
前記入力テキストのコーディングシーケンスおよび前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、前記入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって予測するステップと、
を含む、方法。
前記入力テキストに対しワード・フレーズ特徴を抽出するステップは、
前記入力テキストに対応するワードシーケンスに対してワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得るステップと、
前記入力テキストに対応するワードシーケンスにおける各キャラクタに対し位置埋め込み処理をして、対応する位置特徴ベクトルを取得するステップと、
前記入力テキストに対し固有表現認識を行って、固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するステップと、
前記入力テキストに対応するワード特徴ベクトル、位置特徴ベクトル、および固有表現タイプ特徴ベクトルを接続して前記入力テキストのワード・フレーズ特徴ベクトルを形成するステップと、を含む請求項１に記載の方法。
前記固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するステップは、
前記入力テキストにおける目標フレーズの固有表現のタイプが抽出されていないことに応じて、前記目標フレーズについて品詞ラベリングを行い、前記入力テキストから抽出された固有表現のタイプおよび前記目標フレーズの品詞ラベリング結果に基づき、前記固有表現タイプ特徴ベクトルを生成するステップを、含む請求項２に記載の方法。
コア実体ラベリングネットワークによって前記入力テキストのコーディングシーケンスを処理して、前記入力テキストにおけるコア実体の位置を予測するステップは、
前記入力テキストのコーディングシーケンスを前記コア実体ラベリングネットワークに入力して、前記入力テキストにおける各文字列がコア実体となる確率を予測するとともに、前記入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングするステップを、含む請求項１に記載の方法。
前記入力テキストのコーディングシーケンスおよび前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークにより、前記入力テキストにおけるコア実体に対応する注目点の位置を予測するステップは、
前記コア実体の注目点リポジトリに基づき作成された前記コア実体の注目点の先験的特徴を取得するステップと、
前記入力テキストのコーディングシーケンス、前記コア実体の注目点の先験的特徴、および前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、前記入力テキストの第１の注目点特徴を生成し、前記入力テキストの第１の注目点特徴を前記注目点ラベリングネットワークに入力して、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップと、を含む請求項１に記載の方法。
前記入力テキストの第１の注目点特徴を前記注目点ラベリングネットワークに入力して、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップは、
前記入力テキストにおける各文字列がコア実体の注目点となる確率を予測するように前記入力テキストの第１の注目点特徴を前記注目点ラベリングネットワークに入力するとともに、前記入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をそれぞれダブルポインタにてラベリングするステップを、含む請求項５に記載の方法。
前記入力テキストはコア実体および対応する注目点のラベリング情報を含み、
前記方法は、
前記入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、前記入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするための訓練済みのモデルを取得するようにコア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整するステップをさらに含んでおり、
前記コア実体注目点をラベリングするためのモデルは、前記テキストコーディングネットワーク、前記コア実体ラベリングネットワーク、および前記注目点ラベリングネットワークを含む、
請求項１～６のいずれか１項に記載の方法。
前記方法は、前記入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを得るステップをさらに含み、
前記入力テキストのコーディングシーケンスおよび前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、前記入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって予測するステップは、
前記コア実体の注目点リポジトリに基づき作成された前記コア実体の注目点の先験的特徴を取得するステップと、
前記入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と前記相対位置特徴シーケンスとを接続して、前記入力テキストにおけるコア実体のコーディングシーケンスを得るステップと、
前記入力テキストのコーディングシーケンス、前記コア実体の注目点の先験的特徴、および前記入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、前記入力テキストの第２の注目点特徴を生成し、前記入力テキストの第２の注目点特徴を前記注目点ラベリングネットワークに入力し、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップとを、含む請求項７に記載の方法。
入力テキストに対しワード・フレーズ特徴を抽出するように構成されている第１の抽出ユニットと、
抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るように構成されているコーディングユニットと、
コア実体ラベリングネットワークによって前記入力テキストのコーディングシーケンスを処理し、前記入力テキストにおけるコア実体の位置を予測するように構成されている第１のラベリングユニットと、
前記入力テキストにおけるコア実体の位置に基づき、前記入力テキストにおけるコア実体に対応するサブシーケンスを前記入力テキストのコーディングシーケンスから抽出するように構成されている第２の抽出ユニットと、
前記入力テキストのコーディングシーケンス、および前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを介して前記入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている第２のラベリングユニットと、を備える、テキストにおける実体注目点のマイニング装置。
前記第１の抽出ユニットは、
前記入力テキストに対応するワードシーケンスに対しワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得、
前記入力テキストに対応するワードシーケンスにおける各キャラクタに対し位置埋め込み処理をして、対応する位置特徴ベクトルを得、
前記入力テキストに対し固有表現認識を実行し、固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成し、
前記入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して前記入力テキストのワード・フレーズ特徴ベクトルを形成する、
というように入力テキストに対しワード・フレーズ特徴を抽出するように構成されている、請求項９に記載の装置。
前記第１の抽出ユニットはさらに、
前記入力テキストにおける目標フレーズの固有表現のタイプが抽出されていないことに応じて、前記目標フレーズについて品詞ラベリングを行い、前記入力テキストから抽出された固有表現的タイプおよび前記目標フレーズの品詞ラベリング結果に基づき、前記固有表現タイプ特徴ベクトルを生成する、
というように固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するように構成されている、請求項１０に記載の装置。
前記第１のラベリングユニットは、
前記入力テキストのコーディングシーケンスを前記コア実体ラベリングネットワークに入力して、前記入力テキストにおける各文字列がコア実体となる確率を予測するとともに、前記入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングする、というように前記入力テキストにおけるコア実体の位置を予測するように構成されている、請求項９に記載の装置。
前記第２のラベリングユニットは、
前記コア実体の注目点リポジトリに基づき作成された前記コア実体の注目点の先験的特徴を取得し、
前記入力テキストのコーディングシーケンス、前記コア実体の注目点の先験的特徴、および前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、前記入力テキストの第１の注目点特徴を生成し、前記入力テキストの第１の注目点特徴を前記注目点ラベリングネットワークに入力し、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、というように前記入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている、請求項９に記載の装置。
前記第２のラベリングユニットは、さらに、
前記入力テキストにおける各文字列がコア実体の注目点となる確率を予測するように前記入力テキストの第１の注目点特徴を前記注目点ラベリングネットワークに入力するとともに、前記入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をそれぞれダブルポインタにてラベリングする、というように前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するように構成されている、請求項１３に記載の装置。
前記入力テキストはコア実体および対応する注目点のラベリング情報を含み、
前記装置は、
前記入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、前記入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするための訓練済みのモデルを取得するようにコア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整するように構成されている反復調整ユニットをさらに備えており、
前記コア実体注目点をラベリングするためのモデルは、前記テキストコーディングネットワーク、前記コア実体ラベリングネットワークおよび前記注目点ラベリングネットワークを含む、請求項９～１４のいずれか１項に記載の装置。
前記装置は、
前記入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを取得するように構成されている第３の抽出ユニットをさらに備え、
前記第２のラベリングユニットはさらに、
前記コア実体の注目点リポジトリに基づき作成された前記コア実体の注目点の先験的特徴を取得し、
前記入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と前記相対位置特徴シーケンスとを接続して前記入力テキストにおけるコア実体的コーディングシーケンスを得、
前記入力テキストのコーディングシーケンス、前記コア実体の注目点の先験的特徴、および前記入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、前記入力テキストの第２の注目点特徴を生成し、前記入力テキストの第２の注目点特徴を前記注目点ラベリングネットワークに入力し、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、というように前記入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている、請求項１５に記載の装置。
１つ以上のプロセッサと、
１つ以上のプログラムを記憶するための記憶装置と、を備えており、
前記１つ以上のプログラムが前記１つ以上のプロセッサにより実行されるにあたり、前記１つ以上のプロセッサに請求項１～８のいずれか１項に記載の方法を実現させる、電子機器。
コンピュータプログラムが記憶されているコンピュータ読取可能な記憶媒体であって、
前記プログラムがプロセッサにより実行される際に、請求項１～８のいずれか１項に記載の方法を実現する、コンピュータ読取可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１～８のいずれか１項に記載の方法を実現する、コンピュータプログラム。