JP7112536B2 - テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム - Google Patents

テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7112536B2
JP7112536B2 JP2021003861A JP2021003861A JP7112536B2 JP 7112536 B2 JP7112536 B2 JP 7112536B2 JP 2021003861 A JP2021003861 A JP 2021003861A JP 2021003861 A JP2021003861 A JP 2021003861A JP 7112536 B2 JP7112536 B2 JP 7112536B2
Authority
JP
Japan
Prior art keywords
input text
interest
core
entity
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021003861A
Other languages
English (en)
Other versions
JP2021111413A (ja
Inventor
シュ ワン,
カーシン レン,
シャオハン ヂャン,
ヂーファン フォン,
ヤン ヂャン,
ヨン ヂュ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021111413A publication Critical patent/JP2021111413A/ja
Application granted granted Critical
Publication of JP7112536B2 publication Critical patent/JP7112536B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本開示に係る実施例はコンピュータ技術分野に関しており、具体的には、テキストデータ処理の技術分野に関し、特に、テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラムに関している。
インターネット技術の発展に従い、ソーシャル・プラットフォームなどのネットワーキング・アプリケーションにおいてショートテキストは数多く現れている。テキストにおける実体注目点はテキスト情報に含まれている実体、および実体をめぐって表現される実体属性、関係話題やイベントなどの注目点情報を表すものである。実体注目点のラベリングとはテキストデータから主な表現実体および対応する実体注目点を明確化する技術である。実体注目点のラベリング結果はテキストコンテンツを迅速に抽出し、解釈可能な情報を推薦するために用いられるものである。
従来の実体注目点ラベリング技術案としては、主にキーワードの識別により実体キーワードおよび注目点キーワードを抽出する。このような方法はキーワードリポジトリの作成に依存するので、テキストにおける実体をよくカバーすることができず、且つ、実体と注目点との間の関係を判定できない。
本開示に係る実施例はテキストにおける実体注目点のマイニング方法および装置、電子機器およびコンピュータ読取可能な記憶媒体並びにコンピュータプログラムを提供する。
第1の態様において、本開示の実施例は、入力テキストに対しワード・フレーズ特徴を抽出するステップと、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るステップと、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理して、入力テキストにおけるコア実体の位置を予測するステップと、入力テキストにおけるコア実体の位置に基づき、入力テキストにおけるコア実体に対応するサブシーケンスを入力テキストのコーディングシーケンスから抽出するステップと、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって予測するステップと、を含む、テキストにおける実体注目点のマイニング方法を提供する。
いくつかの実施例において、上述した入力テキストに対しワード・フレーズ特徴を抽出するステップは、入力テキストに対応するワードシーケンスに対してワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得るステップと、入力テキストに対応するワードシーケンスにおける各キャラクタに対し位置埋め込み処理をして、対応する位置特徴ベクトルを取得するステップと、入力テキストに対し固有表現認識を行って、固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するステップと、入力テキストに対応するワード特徴ベクトル、位置特徴ベクトル、および固有表現タイプ特徴ベクトルを接続して入力テキストのワード・フレーズ特徴ベクトルを形成するステップと、を含む。
いくつかの実施例において、上述した固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するステップは、入力テキストにおける目標フレーズの固有表現のタイプが抽出されていないことに応じて、目標フレーズについて品詞ラベリングを行い、入力テキストから抽出された固有表現のタイプおよび目標フレーズの品詞ラベリング結果に基づき、固有表現タイプ特徴ベクトルを生成するステップを、含む。
いくつかの実施例において、上述したコア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理して、入力テキストにおけるコア実体の位置を予測するステップは、入力テキストのコーディングシーケンスをコア実体ラベリングネットワークに入力して、入力テキストにおける各文字列がコア実体となる確率を予測するとともに、入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングするステップを、含む。
いくつかの実施例において、上述した入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークにより、入力テキストにおけるコア実体に対応する注目点の位置を予測するステップは、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得するステップと、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストの第1の注目点特徴を生成し、入力テキストの第1の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップと、を含む。
いくつかの実施例において、上述した入力テキストの第1の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップは、
入力テキストにおける各文字列がコア実体の注目点となる確率を予測するように入力テキストの第1の注目点特徴を注目点ラベリングネットワークに入力するとともに、入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をそれぞれダブルポインタにてラベリングするステップを、含む。
いくつかの実施例において、上述した入力テキストはコア実体および対応する注目点のラベリング情報を含み、上述した方法は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするための訓練済みのモデルを取得するようにコア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整するステップをさらに含んでおり、コア実体注目点をラベリングするためのモデルは、テキストコーディングネットワーク、コア実体ラベリングネットワーク、および注目点ラベリングネットワークを含む。
いくつかの実施例において、上述した方法は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを得るステップをさらに含み、上述した入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって予測するステップは、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得するステップと、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続して、入力テキストにおけるコア実体のコーディングシーケンスを得るステップと、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、入力テキストの第2の注目点特徴を生成し、入力テキストの第2の注目点特徴を注目点ラベリングネットワークに入力し、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップとを、含む。
第2の態様において、本開示の実施例は、入力テキストに対しワード・フレーズ特徴を抽出するように構成されている第1の抽出ユニットと、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るように構成されているコーディングユニットと、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測するように構成されている第1のラベリングユニットと、入力テキストにおけるコア実体の位置に基づき、入力テキストにおけるコア実体に対応するサブシーケンスを入力テキストのコーディングシーケンスから抽出するように構成されている第2の抽出ユニットと、入力テキストのコーディングシーケンス、および入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを介して入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている第2のラベリングユニットと、を備える、テキストにおける実体注目点のマイニング装置を提供する。
いくつかの実施例において、上述した第1の抽出ユニットは、入力テキストに対応するワードシーケンスに対しワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得、入力テキストに対応するワードシーケンスにおける各キャラクタに対し位置埋め込み処理をして、対応する位置特徴ベクトルを得、入力テキストに対し固有表現認識を実行し、固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成し、入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して入力テキストのワード・フレーズ特徴ベクトルを形成する、というように入力テキストに対しワード・フレーズ特徴を抽出するように構成されている。
いくつかの実施例において、上述した第1の抽出ユニットはさらに、入力テキストにおける目標フレーズの固有表現のタイプが抽出されていないことに応じて、目標フレーズについて品詞ラベリングを行い、入力テキストから抽出された固有表現的タイプおよび目標フレーズの品詞ラベリング結果に基づき、固有表現タイプ特徴ベクトルを生成する、というように固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するように構成されている。
いくつかの実施例において、上述した第1のラベリングユニットは、入力テキストのコーディングシーケンスをコア実体ラベリングネットワークに入力して、入力テキストにおける各文字列がコア実体となる確率を予測するとともに、入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングする、というように入力テキストにおけるコア実体の位置を予測するように構成されている。
いくつかの実施例において、上述した第2のラベリングユニットは、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得し、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストの第1の注目点特徴を生成し、入力テキストの第1の注目点特徴を注目点ラベリングネットワークに入力し、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、というように入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。
いくつかの実施例において、上述した第2のラベリングユニットは、さらに、
入力テキストにおける各文字列がコア実体の注目点となる確率を予測するように入力テキストの第1の注目点特徴を注目点ラベリングネットワークに入力するとともに、入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をそれぞれダブルポインタにてラベリングする、というようにコア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するように構成されている。
いくつかの実施例において、上述した入力テキストはコア実体および対応する注目点のラベリング情報を含み、上述した装置は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするための訓練済みのモデルを取得するようにコア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整するように構成されている反復調整ユニットをさらに備えており、コア実体注目点をラベリングするためのモデルは、テキストコーディングネットワーク、コア実体ラベリングネットワークおよび注目点ラベリングネットワークを含む。
いくつかの実施例において、上述した装置は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを取得するように構成されている第3の抽出ユニットをさらに備え、上述した第2のラベリングユニットはさらに、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得し、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続して入力テキストにおけるコア実体的コーディングシーケンスを得、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、入力テキストの第2の注目点特徴を生成し、入力テキストの第2の注目点特徴を注目点ラベリングネットワークに入力し、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、というように入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。
第3の態様において、本開示の実施例は、1つ以上のプロセッサと、1つ以上のプログラムを記憶するための記憶装置と、を備えており、前記1つ以上のプログラムが前記1つ以上のプロセッサにより実行されるにあたり、前記1つ以上のプロセッサに第1の態様に記載のテキストにおける実体注目点のマイニング方法を実現させる、電子機器を提供する。
第4の態様において、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ読取可能な記憶媒体であって、前記プログラムがプロセッサにより実行される際に、第1の態様に記載のテキストにおける実体注目点のマイニング方法を実現する、コンピュータ読取可能な記憶媒体を提供する。
第5の態様において、本開示の実施例は、コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、第1の態様に記載のテキストにおける実体注目点のマイニング方法を実現する、コンピュータプログラムを提供する。
本開示に係る上記の実施例のテキストにおける実体注目点のマイニング方法および装置は、入力テキストに対しワード・フレーズ特徴を抽出することにより、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得る。コア実体ラベリングネットワークにより入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測する。入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出する。入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを用いて入力テキストにおけるコア実体に対応する注目点の位置を予測することにより、テキストにおける実体注目点の精確かつ全面的な抽出が図られる。
限定的ではない実施例について下記の図面を参照して行われる詳細的な記載を閲覧することにより、本開示の他の特徴、目的および長所はさらに明らかになる。
本開示に係る実施例を適用可能なシステム構成を模式的に示す図である。 本開示に係るテキストにおける実体注目点のマイニング方法に基づく一実施例を示すフローチャートである。 本開示に係るテキストにおける実体注目点のマイニング方法に基づく他の一実施例を示すフローチャートである。 図3に示すテキストにおける実体注目点のマイニング方法の一例示の実現原理の流れを示す模式図である。 本開示に係るテキストにおける実体注目点のマイニング装置の一実施例の構造を示す模式図である。 本開示に係る実施例を実現するための電子機器に適用するコンピュータシステムを示す構造模式図である。
以下、本開示について図面および実施例を組合わせて更に詳細的に説明する。ここに提示される具体的な実施例は関係発明の解釈のみに用いられ、該発明を限定するものではないことを理解すべきである。なお、記載の便宜を図るために、図面には関係発明に関連する部分しか示されていない。
なお、主旨に違反しない場合には、本開示に係る実施例および実施例の特徴を互いに組合わせることができる。以下、本開示について図面を参照するとともに実施例を組合わせて詳細に説明する。
図1は本開示に係るテキストにおける実体注目点のマイニング方法又はテキストにおける実体注目点のマイニング装置の例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は端末装置101、102、103、ネットワーク104、およびサーバ105を含み得る。ネットワーク104は端末装置101、102、103とサーバ105との間で通信リンクの媒体を提供するために用いられる。ネットワーク104は各種の接続タイプ、例えば、有線・無線通信リンク又は光ファイバケーブル等を含み得る。
メッセージなどを受送信するように端末装置101、102、103はサーバ105とネットワーク104を介して相互作用する。各種のクライアントアプリケーション、例えば、ソーシャル・プラットフォームアプリケーション、ニュース情報アプリケーション、電子商取引類アプリケーションなどがインストールされ得る端末装置101、102、103はクライアントデバイスであってもよい。
端末装置101、102、103はハードウェアであってもよいしソフトウェアであってもよい。端末装置101、102、103はハードウェアである場合、スマートフォン、タブレットPC、電子ブックリーダー、ラップトップコンピュータおよびデスクトップコンピュータなどを含むがこれらに限定されない各種の電子機器であってもよい。一方、端末装置101、102、103はソフトウェアである場合、上記のように挙げられている電子機器にインストールされ得るものであり、複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するための複数のソフトウェア又はソフトウェアモジュール)として構成されてもよいし、単数のソフトウェア又はソフトウェアモジュールとして構成されてもよい。ここで、具体的に限定を行わない。
サーバ105は各種のサービスを実行するサーバ、例えば、ソーシャル・プラットフォームアプリケーションのバックグラウンドサーバであってもよい。ソーシャル・プラットフォームアプリケーションのバックグラウンドサーバは、ユーザが発表したコンテンツデータ、発表されたコンテンツに対するユーザによる操作データなどを含む、端末装置101、102、103におけるソーシャル・プラットフォームアプリケーションで生成されるソーシャル・プラットフォームデータを取得することができる。例えば、ソーシャル・プラットフォームアプリケーションのバックグラウンドサーバは、取得されたデータをデータマイニングして主要情報を抽出することができる。
さらに、サーバ105は例えばネットワークデータマイニング処理サービスを提供するサーバ、例えば、検索エンジンサーバであってもよい。サーバ105はネットワークにおける各発信局のウェブサイトのコンテンツを取得して、ウェブサイトのコンテンツをデータマイニングして主要情報を抽出することができる。
本開示の応用シーンにおいて、サーバ105は端末装置101、102、103から取得されたテキストデータ、または、ページの発信局から取得されたテキストデータについて実体注目点をマイニングすることができる。
なお、通常、本開示に係る実施例が提供するテキストにおける実体注目点のマイニング方法はサーバ105により実行され、これに応じて、通常、テキストにおける実体注目点のマイニング装置はサーバ105に設置される。
一部の状況において、サーバ105はデータベース、メモリ又は他のサーバ(例えば、ウェブサイトサーバ)から処理対象であるテキストデータを取得することができる。このとき、例示的なシステムアーキテクチャ100には端末装置101、102、103がなくてもよい。
なお、サーバ105はハードウェアであってもよいしソフトウェアであってもよい。サーバ105は、ハードウェアである場合、複数のサーバからなる分散型サーバクラスターとして構成されてもよいし、単数のサーバとして構成されてもよい。サーバ105は、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)として構成されてもよいし、単数のソフトウェア又はソフトウェアモジュールとして構成されてもよい。ここで、具体的に限定しない。
図1に示す端末装置、ネットワークおよびサーバの数は例示でしかなく、実際のニーズに応じて、任意の数であってもよいことを理解すべきである。
引き続き、図2を参照すると、これは本開示に係るテキストにおける実体注目点のマイニング方法の一実施例の流れ200を示している。該テキストにおける実体注目点のマイニング方法は下記のステップ201~205を含む。
ステップ201において、入力テキストについてワード・フレーズ特徴を抽出する。
テキストにおける実体注目点とはテキストが主に表現する実体および実体の属性、関連実体、関連話題やイベントなどのある方面の情報を指す。本実施例においては、テキストにおける実体注目点のマイニング方法の実行主体は、入力テキストとしてマイニング対象であるテキストを取得することができる。入力テキストはソーシャル・プラットフォームにおけるユーザが発表したテキストコンテンツであってもよいし、ネットワークページにおけるテキストコンテンツであってもよい。代わりに、本開示の実施例に係る入力テキストはインスタント・メッセージや、フォーラム又はソーシャル・プラットフォームでのメッセージなどのタイプのショートテキストであってもよい。
本実施例においては、入力テキストをワードシーケンスに分割してから、入力テキストのワードシーケンスについて特徴抽出および特徴の数学的表現を行い、入力テキストを対応するベクトル列に変換させることができる。具体的には、入力テキストのワードシーケンスにフレーズを埋め込んで入力テキストに対応するベクトル列を取得することができる。あるいは、話題モデル、TF-IDF(term frequency-inverse document frequency、単語出現頻度-逆文書頻度)などの方法を用いて入力テキストの特徴を抽出することができる。
代わりに、入力テキストについて下記のような方式にてワード・フレーズ特徴を抽出してもよい。
先ず、入力テキストに対応するワードシーケンスについてワード・フレーズの混合埋め込みを実施して対応するワード特徴ベクトルを取得する。実体注目点をラベリングするにあたり、テキストについて実体と注目点との境界を正確的に分割しなければならないので、境界分割ミスをできる限り回避するために、ワード単位で特徴を抽出して符号化する。これとともに、シングルワードは有効な意味情報を記憶することが難しいので、フレーズ埋め込みの方法を組み合わせて入力テキストの特徴を抽出しなければならない。
具体的には、先ず、入力テキストのワードシーケンスに対してワード単位でワード埋め込み処理を行ってワードベクトル列を得てから、入力テキストに対してフレーズ分割を実行し、対応するフレーズベクトルをWord2Vecモデルで抽出し、そして、各フレーズのフレーズベクトルをN回(Nがフレーズに含まれるワードの数である)繰り返し、フレーズベクトルをマトリックスを介してワードベクトルと同じ次元に変換させるとともにN個のフレーズベクトルを対応するN個のワードベクトルと混合させる。
例を挙げて説明しておく。入力テキストのフレーズ分割後、そのうちの一つのフレーズが「長江大橋」である場合、それに対してワード埋め込み処理を行って「長」、「江」、「大」、「橋」といった四つのシングルワードのワード埋め込みベクトルをそれぞれ得て、フレーズ埋め込み処理をして「長江大橋」のフレーズ埋め込みベクトルを得、「長江大橋」のフレーズ埋め込みベクトルを四回繰り返して、「長」、「江」、「大」、「橋」といった四つのシングルワードのワード埋め込みベクトルを用いて「長江大橋」のフレーズ埋め込みベクトルと混合して該フレーズ「長江大橋」に対応するワードベクトル列を生成することができる。
そして、入力テキストに対応するワードシーケンスにおける各キャラクタに対して位置埋め込み処理を実行して対応する位置特徴ベクトルを得る。ここで、位置埋め込みは各フレーズの入力テキストでの位置を表す。例えば、一つのショートテキストは10個のワードを含む場合、フレーズXが第3、4、5番目のワードを占めると、対応する位置埋め込み結果は10次元ベクトルとして示すことができ、ここで、第3、4、5次元のベクトルの値が1であり、その他の次元のベクトルの値が0である。
その後、入力テキストに対して固有表現認識を行なって、固有表現認識の結果に基づき固有表現のタイプを表現する固有表現タイプ特徴ベクトルを生成する。
固有表現ベースに基づき、NER(Named Entity Recognition、固有表現認識)モデルを用いて入力テキストにおける固有表現のタイプを識別することができる。そして、固有表現のタイプを対応する特徴ベクトルに変換する。
固有表現認識はテキストにおける人物、組織、位置、時間数量などを表す一部の動詞又は名詞を分類してラベリングすることができる。ある状況において、テキストには固有表現のタイプでラベリングされ得ないフレーズ、例えば、「バスケットボールをする」が一部存在可能である。本実施例の一部の選択可能な実現形態においては、入力テキストにおける目標フレーズの固有表現のタイプが識別されていないことに応じて、目標フレーズの品詞をラベリングすることができる。入力テキストにはNERモデルにて実体タイプを識別不能な目標フレーズがある場合、例えば、「動詞」、「名詞」、「動名詞」などのようにその品詞をラベリングすることができる。このとき、入力テキストから識別された固有表現のタイプ、および、目標フレーズの品詞のラベリング結果に基づき、固有表現タイプ特徴ベクトルを生成することができる。固有表現認識および品詞ラベリングによって、各フレーズの意味特徴を抽出することができる。
最後に、入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して、入力テキストのワード・フレーズ特徴ベクトルを形成する。
上記の入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して、具体的には、上記の入力テキストに対応するワード特徴ベクトル、位置特徴ベクトル、および固有表現タイプ特徴ベクトルを同じ次元に変換させてから接続して入力テキストのワード・フレーズ特徴ベクトルを形成することができる。
なお、上記のワード・フレーズ混合埋め込み方法と類似するように、本実施例においては、固有表現認識および品詞ラベリングによって抽出された特徴ベクトルをN回繰り返し(ここで、Nが対応するフレーズに含まれるワードの数である)、フレーズにおけるN個のシングルワードのワードベクトルと整合してからそれぞれ対応するフレーズにおける各シングルワードのワードベクトルと混合することにより、入力テキストに対応するワード特徴ベクトルを固有表現タイプ特徴ベクトルと混合し接続する。
入力テキストのワード・フレーズ特徴ベクトルには、各シングルワード位置を表す位置特徴ベクトルおよび固有表現タイプ特徴ベクトルが含まれているので、入力テキストのワード・フレーズ特徴ベクトルには豊富な意味特徴情報が含まれている。このようにして、この後、実体注目点ラベリングを行なう際にフレーズ同士間の意味関連性を正確に分析することに役立ち、さらに、実体注目点の位置を正確にラベリングすることができる。
ステップ202において、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得る。
テキストコーディングネットワークは畳み込みニューラルネットワーク、再帰型ニューラルネットワークなどに基づき作成される、テキストの特徴をコードに変換させるためのニューラルネットワークモデルであってもよい。本実施例においては、テキストコーディングネットワークとして拡張ゲート畳み込みニューラルネットワークを用いることができる。拡張ゲート畳み込みニューラルネットワークは各ニューロンの受容野を拡張させ得、各層のニューロンにその先の層より大きい範囲のニューロンの出力を捕捉させ得、各ニューロンの出力に何れも比較的大きい範囲の情報を含むことで、比較的長いシーケンス情報における距離が比較的遠いシーケンス元素同士間の依存関係を効果的に抽出することができる。テキストコーディングネットワークとして拡張ゲート畳み込みニューラルネットワークを適用することにより、入力テキストにおける距離が比較的遠いワード又はフレーズ同士間の依存関係を正確に抽出することができる。
実際に適用するにあたり、上記のテキストコーディングネットワークは予めサンプルに基づいて訓練されたニューラルネットワークであってもよい。テキストコーディングネットワークを含む実体注目点ラベリングモデルの訓練に本実施例に係る方法を適用する際に、上記のテキストコーディングネットワークは訓練にてネットワークパラメータが最適化されようとするニューラルネットワークであってもよい。
ステップ203において、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測する。
コア実体ラベリングネットワークは、入力テキストにおけるコア実体の位置をラベリングするために用いられるものである。ステップ202において入力テキストのワード・フレーズ特徴を符号化して得られたコーディングシーケンスをコア実体ラベリングネットワークに入力して、コア実体の位置をラベリングすることができる。ここで、コア実体の位置はコア実体の開始位置を含んでもよいし、コア実体の開始位置および終了位置を含んでもよいし、コア実体でカバーされているあらゆるシングルワードの位置を含んでもよい。
実際に適用するにあたり、コア実体ラベリングネットワークは予め訓練されたニューラルネットワークであってもよい。コア実体ラベリングネットワークを含む実体注目点ラベリングモデルの訓練に本実施例に係る方法を適用する際に、コア実体ラベリングネットワークは、ネットワークパラメータが訓練により最適化されようとするニューラルネットワークであってもよい。
入力テキストにおけるコア実体は、入力テキストに記載されている主題の主な実体を表現するものである。例えば、港珠澳大橋の開通についてのニューステキストには「港珠澳大橋」、「大橋」、「広東」などの実体が含まれており、「港珠澳大橋」がコア実体である。
本実施例の一部の選択可能な実現方式によれば、ステップ203において、入力テキストのコーディングシーケンスをコア実体ラベリングネットワークに入力することにより入力テキストにおける各文字列がコア実体となる確率を予測し、入力テキストにおける各文字列がコア実体となる確率に基づきコア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングするというように、入力テキストにおけるコア実体の位置を予測することができる。
ここで、ダブルポインタは開始位置をラベリングするためのポインタおよび終了位置をラベリングするためのポインタを含む。具体的には、上記のコア実体ラベリングネットワークによって入力テキストにおける各ワードがコア実体の開始位置となる確率、およびコア実体の終了位置となる確率を予測することができる。そして、各ワードがコア実体の開始位置となる確率およびコア実体の終了位置となる確率に基づき、コア実体である文字列は特定される。1つの2項分類モデルにて各ワードがコア実体の開始位置であるか否かを判定し、他の2項分類モデルにて各ワードがコア実体の終了位置であるか否かを判定する。
ダブルポインタにてコア実体の開始位置および終了位置をラベリングすることにより埋め込まれた実体を効果的にラベリングすることができる。例えば、入力テキストにおける「北京市海澱区学区住宅」という1文字列については、コア実体ラベリングネットワークは「北京市」、「北京市海澱区」、「北京市海淀区学区住宅」といった3つの実体をラベリングすることができ、このようにして、ラベリングする際に重要な実体が漏れることを回避でき、比較的長い実体についての予測結果はより正確になる。
代わりに、上記のコア実体ラベリングネットワークは注意層を有し得、該注意層がSelf Attention(自己注意)層であってもよい。注意層は入力テキストのコーディングシーケンスに注意情報、具体的には、それぞれのシングルワード又は各フレーズ同士の注意点数情報を添加することができる。上記のコア実体ラベリングネットワークは、少なくとも1つの全結合層からなるDenseネットワーク又は畳み込みニューラルネットワークを有し得る。注意層の出力結果は該Denseネットワークまたは畳み込みニューラルネットワークに伝送されてコア実体位置の予測に用いられる。
ステップ204において、入力テキストにおけるコア実体の位置に基づき、入力テキストにおけるコア実体に対応するサブシーケンスを入力テキストのコーディングシーケンスから抽出する。
コア実体ラベリングネットワークによりラベリングされたコア実体の位置に基づき、コア実体に対応するサブシーケンスとしてステップ202で得られた入力テキストのコーディングシーケンスからコア実体における各シングルワードに対応するコードを抽出することができる。
ステップ205において、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって出力する。
本実施例においては、上記のコア実体に対応するサブシーケンスにはコア実体的コーディング情報が有され、入力テキストのコーディングシーケンスおよび該入力テキストから予測されたコア実体に対応するサブシーケンスは注目点ラベリングネットワークに入力され、注目点ラベリングネットワークにより入力テキストにおける各文字列がコア実体に対応する注目点となる確率が演算され、且つ、該確率に基づき2項分類して各文字列がコア実体に対応する注目点であるか否かの予測結果が得られることによって、コア実体に対応する注目点の位置がラベリングされる。
代わりに、上記の注目点ラベリングネットワークは上記の予測されたコア実体の注目点の開始位置および終了位置をダブルポインタ方法にてラベリングすることができる。
注目点ラベリングネットワークは予め訓練された、注目点位置をラベリングするためのニューラルネットワークであってもよい。訓練する際に、注目点ラベリングネットワークはコア実体および対応する注目点がラベリングされたテキストをサンプルとして、訓練期間にコア実体とコア実体の注目点との関係を学習することができる。
このようにして、注目点ラベリングネットワークを介して、入力テキストにおけるコア実体の注目点の位置はラベリングされ得、これにより、入力テキストにおけるコア実体注目点のマイニングが図られる。
上記のテキストにおけるコア実体注目点をマイニングする方法によれば、先ず、入力テキストに対しワード・フレーズ特徴を抽出してから、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化して、入力テキストのコーディングシーケンスを得て、そして、コア実体ラベリングネットワークを介して入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測し、引き続き、入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出し、最後に、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークによって入力テキストにおけるコア実体に対応する注目点の位置を予測する。これにより、テキストにおける実体注目点の正確且つ迅速な抽出が図られる一方、該方法は実体キーワードベースの作成に依存しないので、テキストにおける実体を効果的にカバーし、実体と注目点との間の関係を効果的に抽出することができ、これにより、テキストコンテンツの正確な抽出が図られる。
一部の実施例において、上記の方法はステップ205より前に、入力テキストのコーディングシーケンスを注意ネットワークに入力し注意情報を添加して入力テキストの注意コーディングシーケンスを得るステップをさらに含む。ここで、注意ネットワークはSelf Attention(自己注意)ネットワークであってもよく、該注意ネットワークは入力テキストにおける各シングルワードまたは各フレーズ同士の関係を表す注意特徴を入力テキストのコーディングシーケンスに添加し入力テキストの注意コーディングシーケンスを得るものである。
一部の実施例において、上記のステップ205は下記のように実行され得るものである。
先ず、前記コア実体の注目点リポジトリに基づき作成された入力テキストにおけるコア実体の注目点の先験的特徴を取得し、ここで、コア実体の注目点の先験的特徴がコア実体の注目点リポジトリから上記の入力テキストにおけるコア実体の関連知識を選別するとともに特徴を抽出することによって得られるものである。代わりに、上記の入力テキストにおけるコア実体の注目点の先験的特徴はコア実体ラベリングネットワークによって予測され得る。
次に、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するサブシーケンスに基づき、入力テキストの第1の注目点特徴を生成し、入力テキストの第1の注目点特徴を前記注目点ラベリングネットワークに入力し、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測することができる。
具体的には、コア実体の注目点の先験的特徴をコーディングするとともにコア実体コーディングネットワークによって入力テキストにおけるコア実体に対応するサブシーケンスを符号化して、入力テキストにおけるコア実体のコーディングシーケンスを得る。代わりに、注意ネットワークに入力テキストのコーディングシーケンスを入力し注意情報を添加して入力テキストの注意コーディングシーケンスを得た後、入力テキストのコーディングシーケンス又は入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンス、および入力テキストにおけるコア実体に対応するコーディングシーケンスを接続してなるシーケンスを入力テキストを生成する第1の注目点特徴とするか、又は、上記の入力テキストのコーディングシーケンスまたは入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンス、および入力テキストにおけるコア実体に対応するコーディングシーケンスの加重合計を入力テキストの第1の注目点特徴とすることによって、入力テキストの第1の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測することもできる。
コア実体の注目点の先験的特徴はリポジトリおよび大規模のデータマイニングに基づき生成された一部の実体注目点の特徴を表すことができ、例えば、一部の実体と一部の注目点とはある依存関係に基づく場合、これらの注目点はこれらの実体の注目点とする信頼度が比較的高くなっている。例えば、「映画ムーランの予告編」の場合、入力テキストからコア実体である「映画ムーラン」が予測され、且つ、入力テキストには「予告編」が現れると、先験的特徴に基づいて、「予告編」が「映画ムーラン」に対応する注目点となる確率は比較的高いことが判定され得る。
具体的には、上記のコア実体の注目点の先験的特徴はリポジトリからマイニングされたコア実体の各注目点の現れる確率を含んでもよい。
コア実体コーディングネットワークはコア実体に対応するサブシーケンスを再符号化するニューラルネットワークであってもよい。実際に適用する状況において、コア実体コーディングネットワークは予め訓練されたネットワークであってもよく、コア実体コーディングネットワークを含むコア実体注目点ラベリングモデルを訓練する状況に適用される場合、コア実体コーディングネットワークはパラメータが訓練により最適化されるべきニューラルネットワークを含んでもよい。代わりに、コア実体コーディングネットワークは双方向LSTM(Long Short-Term Memory長・短期記憶ネットワーク)であってもよい。
コア実体コーディングネットワークがコア実体に対応するサブシーケンスを符号化して得られたコア実体に対応するコーディングシーケンスを、上記の入力テキストの注意コーディングシーケンスと接続して第1の接続シーケンスを生成する。上記の注目点ラベリングネットワークは該第1の接続シーケンスに基づきコア実体に対応する注目点の位置を予測することができる。
代わりに、上記の第1の注目点特徴を注目点ラベリングネットワークに入力して、入力テキストにおける各文字列がコア実体の注目点となる確率を予測するとともに、入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をダブルポインタにてそれぞれラベリングすることができる。
上記の注目点ラベリングネットワークは2項分類モデルを2つ含んでもよい。2つの2項分類モデルはそれぞれ入力テキストにおける各ワードがコア実体の注目点の開始位置および終了位置であるか否かについて分類する。
上記の注目点ラベリングネットワークは少なくとも1つの全結合層からなるニューラルネットワーク、例えば、Denseネットワーク、畳み込みニューラルネットワークなどを含んでもよい。
本実施例においては、注目点ラベリングネットワークの入力にコア実体の注目点の先験的知識を加えることにより、コア実体注目点のラベリング結果の正確性をさらに向上することができる。更に、一段落のテキストにはコア実体の複数の注目点が含まれるときに、複数の注目点を同時にラベリングすることができ、キーワードベースに依存しないままより多くの実体注目点をカバーでき、テキストコンテンツの全面的な改良が図られる。
一部の実施例において、上記のテキストにおける実体注目点のマイニング方法は、コア実体注目点をラベリングするためのモデルの訓練に適用可能である。このとき、上記のテキストにおける実体注目点のマイニング方法におけるコア実体予測および対応する注目点予測の操作を反復実行することにより、コア実体予測ネットワークおよび注目点予測ネットワークを含む、コア実体注目点をラベリングするためのモデルを訓練することができる。
図3を参照すると、これは本開示に係るテキストにおける実体注目点のマイニング方法に基づく他の一実施例を示すフローチャートである。図3に示すように、本実施例に係るテキストにおける実体注目点のマイニング方法の流れ300は下記のステップ301~306を含む。
ステップ301において、入力テキストについてワード・フレーズ特徴を抽出する。
本実施例においては、テキストにおける実体注目点のマイニング方法の実行主体は入力テキストを取得することができる。ここで、入力テキストは、コア実体注目点をラベリングするためのモデルの訓練サンプルとして用いられ、コア実体および対応する注目点のラベリング情報を含む。
テキストにおけるコア実体および対応する注目点を手動でラベリングすることにより、コア実体注目点をラベリングするためのモデルの訓練サンプルとして、コア実体および対応する注目点ラベリング情報を含む入力テキストを取得することができる。
本実施例においては、コア実体注目点をラベリングするためのモデルは、上記のテキストコーディングネットワーク、コア実体ラベリングネットワーク、注目点ラベリングネットワークを含んでもよい。代わりに、注意ネットワーク、コア実体コーディングネットワークをさらに含んでもよい。
入力テキストに対してワード・フレーズ特徴を抽出する本実施例に係る方法は、前述実施例に提示されるステップ201の方法と同じ、フレーズ埋め込みなどの方法にて入力テキストをベクトルに変換させ得る。代わりに、ステップ201に記載のワード・フレーズ混合埋め込み、位置埋め込み、固有表現タイプ埋め込みの方法にて入力テキストのワード・フレーズ混合特徴、位置特徴、固有表現タイプ特徴を抽出することもできる。
ステップ302において、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得る。
ステップ303において、コア実体ラベリングネットワークを介して入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測する。
ステップ304において、入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出する。
ステップ305において、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを介して入力テキストにおけるコア実体に対応する注目点の位置を予測する。
本実施例におけるステップ302ないしステップ305は前述実施例におけるステップ202ないしステップ205と一致しており、ステップ302ないしステップ305の具体的な実現方式としては、前述実施例におけるステップ202ないしステップ205の記載をそれぞれ参照してもよく、ここでは詳細に説明しない。
ステップ306において、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整することにより、コア実体注目点をラベリングするための訓練済みのモデルを取得する。
反復期間毎に、コア実体注目点をラベリングするためのモデルの現在の予測誤差として、コア実体ラベリングネットワークに予測された入力テキストにおけるコア実体と、入力テキストに含まれるラベリング情報の示すコア実体との偏差、および注目点ラベリングネットワークに予測された入力テキストにおけるコア実体の注目点と、入力テキストに含まれるラベリング情報の示す対応する注目点との偏差を演算することができ、予測誤差が所定の収束条件に達していないと判定した場合、コア実体注目点をラベリングするためのモデルのパラメータを勾配降下法にて調整し、予測誤差をモデルの予測に逆伝播し、パラメータが調整された、コア実体注目点をラベリングするためのモデルによって、ステップ301ないしステップ305を改めて実行して新たな予測誤差を得て、モデルの予測誤差が予め設定された収束条件に達するまでこのように数回反復してモデルのパラメータを連続的に最適化し、モデルのパラメータを確定し、コア実体注目点をラベリングするための訓練済みのモデルを得る。なお、コア実体注目点をラベリングするためのモデルのパラメータはコア実体注目点をラベリングするためのモデルに含まれる各ネットワークのパラメータを含んでもよく、モデルパラメータを更新する度に、モデルにおける各ネットワークのパラメータを同時に更新することができる。
本実施例のいくつかの選択可能な実現方式において、上記方法の流れ300は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを得るステップをさらに含んでもよい。
具体的には、入力テキストのラベリング情報の示すコア実体と対応する注目点との相対位置関係を相対位置埋め込み方法を用いてベクトル化し、畳み込みニューラルネットワークなどに基づいて作成されたコーディングネットワークによって、該相対位置関係を表すベクトルを符号化して相対位置特徴シーケンスを得る。
このとき、下記のように上記のステップ305を実行することができる。
先ず、コア実体の注目点リポジトリに基づいて作成された上記の入力テキストにおけるコア実体の注目点の先験的特徴を取得し、ここで、コア実体の注目点の先験的特徴はコア実体の注目点リポジトリから上記の入力テキストにおけるコア実体の関連知識を選別するとともに特徴を抽出することにより取得され得るものである。代わりに、上記の入力テキストにおけるコア実体の注目点の先験的特徴は訓練対象であるコア実体ラベリングネットワークから予測され得るものである。
そして、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と、相対位置特徴シーケンスとを接続して、入力テキストにおけるコア実体のコーディングシーケンスを得ることができる。
代わりに、上記のコア実体注目点をラベリングするためのモデルは、コア実体コーディングネットワークをさらに含んでもよい。コア実体コーディングネットワークは、コア実体に対応するサブシーケンスを再符号化するためのニューラルネットワークであってもよい。代わりに、コア実体コーディングネットワークは双方向LSTMであってもよい。
最後に、入力テキストのコーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、入力テキストの第2の注目点特徴を生成し、入力テキストの第2の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する。
代わりに、上記のコア実体注目点をラベリングするためのモデルは、注意ネットワークをさらに含んでもよい。注意ネットワークは、入力テキストのコーディングシーケンスに、入力テキストにおけるシングルワード同士、またはフレーズ同士の潜在的な依存関係を表す注意情報を添加するために用いられる。このとき、前記入力テキストのコーディングシーケンスを注意ネットワークに入力して注意情報を添加し、入力テキストの注意コーディングシーケンスを得る。入力テキストのコーディングシーケンス又は入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンス、および、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続してなる上記の入力テキストにおけるコア実体に対応するコーディングシーケンスを接続して得られたシーケンスを入力テキストの第2の注目点特徴とすることもできるし、または、入力テキストのコーディングシーケンス又は入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンス、および、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続して得られたコア実体に対応するコーディングシーケンスの加重合計を上記の入力テキストの第2の注目点特徴とすることもできる。
実践中、入力テキストから予測されたコア実体のコーディングシーケンスと上記の相対位置特徴シーケンスとを接続して、入力テキストのコーディングシーケンスと長さが等しいベクトル列を得、そして、入力テキストの注意コーディングシーケンス、該コア実体の注目点の先験的特徴を符号化して得られたコーディングシーケンスを接続して第2の接続シーケンスを形成する。このようにして得られた第2の接続シーケンスは、入力テキストの特徴、コア実体の位置特徴を含むだけでなく、コア実体と対応する注目点との相対位置特徴、コア実体の注目点の先験的特徴をも含むので、注目点ラベリングネットワークにおいて第2の接続シーケンスを処理した後より正確な注目点予測結果が得られる。
上記の実現形態において、コア実体注目点をラベリングするためのモデルに含まれる各ネットワークに基づいて、コア実体注目点をラベリングするためのモデルの予測誤差を表す損失関数の式が作成され得る。コア実体注目点をラベリングするためのモデルにおける各ネットワークのパラメータを反復調整して損失関数の値を収束させることにより、訓練期間に各ネットワークのパラメータを次第に最適化する。
引き続き、図4を参照すると、これは図3に示すテキストにおける実体注目点のマイニング方法の一例示の実現原理の流れを示す模式図であり、具体的には、コア実体注目点をラベリングするためのモデルによる入力テキストに対する処理流れを示している。
図4に示すように、先ず、入力テキストに対して、ワード・フレーズ混合埋め込み、位置埋め込み、及び固有表現タイプ埋め込みの処理を実行し、次に、拡張ゲート畳み込みネットワークにより埋め込み処理をして得られた特徴を符号化してコーディングされたシーケンスEを得る。その後、シーケンスEを1つの注意ネットワークに伝送した後に全結合ネットワーク(Dense Net)に出力結果を伝送し、コア実体sの開始位置および終了位置をダブルポインタラベリング法にてラベリングする。コア実体sに対応するシーケンスEのサブシーケンスを1つの双方向LSTMに伝送してコア実体sのコーディングシーケンスを得、そして、コア実体sのコーディングシーケンスに、注目点と実体との相対位置特徴を加えて、入力テキストのコーディングシーケンスEと長さが等しい1つのベクトル列を得る。そして、シーケンスEを他の注意ネットワークに伝送して、該注意ネットワークの出力を、前のステップで得られたシーケンスEと長さが等しいベクトル列、および実体注目点リポジトリにより作成された実体の注目点の先験的特徴コーディングと接続させる。接続結果を全結合ネットワーク(Dense Net)に入力して、注目点の開始位置および終了位置をダブルポインタラベリング法にてラベリングし、最後に、コア実体注目点のラベリング結果を出力する。
本実施例に係るテキストにおける実体注目点のマイニング方法により、コア実体注目点を正確にラベリングできるニューラルネットワークモデルを取得することができる。且つ、一部の実現方式において、該ニューラルネットワークモデルは、入力特徴としてコア実体と注目点との相対位置を学習することができ、訓練して得られたコア実体注目点をラベリングするためのモデルの正確性および訓練効率を同時に向上することができる。
図5を参照して、上記のテキストにおける実体注目点のマイニング方法を実現するために、本開示はテキストにおける実体注目点のマイニング装置の一実施例を提供しており、該装置実施例が図2、図3に示す方法実施例に対応し、具体的には、該装置が各種の電子機器に適用可能である。
図5に示すように、本実施例に係るテキストにおける実体注目点のマイニング装置500は、第1の抽出ユニット501、コーディングユニット502、第1のラベリングユニット503、第2の抽出ユニット504、および第2のラベリングユニット505を備える。ここで、第1の抽出ユニット501は、入力テキストに対しワード・フレーズ特徴を抽出するように構成されている。コーディングユニット502は、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るように構成されている。第1のラベリングユニット503は、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測するように構成されている。第2の抽出ユニット504は入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出するように構成されている。第2のラベリングユニット505は、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを用いて入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。
一部の実施例において、上記の第1の抽出ユニット501は、入力テキストに対応するワードシーケンスに対しワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得、入力テキストに対応するワードシーケンスにおける各キャラクタを位置埋め込み処理して対応する位置特徴ベクトルを得、入力テキストを固有表現認識して固有表現認識の結果に基づき固有表現的タイプを表す固有表現タイプ特徴ベクトルを生成し、入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して入力テキストのワード・フレーズ特徴ベクトルを形成することによって、入力テキストに対しワード・フレーズ特徴を抽出するように構成されている。
一部の実施例において、上記の第1の抽出ユニット501は、さらに、識別されていない入力テキストにおける目標フレーズの固有表現のタイプに応じて、目標フレーズについて品詞をラベリングし、入力テキストから識別された固有表現のタイプおよび目標フレーズの品詞ラベリング結果に基づき、固有表現タイプ特徴ベクトルを生成することによって、固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するように構成されている。
一部の実施例において、上記の第1のラベリングユニット503は、入力テキストのコーディングシーケンスをコア実体ラベリングネットワークに入力することにより、入力テキストにおける各文字列がコア実体となる確率を予測するとともに、入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングすることによって、入力テキストにおけるコア実体の位置を予測するように構成されている。
一部の実施例において、上記の第2のラベリングユニット505は、コア実体の注目点リポジトリに基づいて作成されるコア実体の注目点の先験的特徴を取得し、入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングサブシーケンスに基づき、入力テキストの第1の注目点特徴を生成し、入力テキストの第1の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測することによって、入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。
一部の実施例において、上記の第2のラベリングユニット505は、さらに、入力テキストの第1の注目点特徴を注目点ラベリングネットワークに入力して、入力テキストにおける各文字列がコア実体の注目点となる確率を予測するとともに、入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をダブルポインタにてそれぞれラベリングすることによって、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するように構成されている。
一部の実施例において、上記の入力テキストは、コア実体および対応する注目点のラベリング情報を含む。上記の装置500は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整することにより、コア実体注目点をラベリングするための訓練済みのモデルを取得するように構成されている反復調整ユニットをさらに備えており、コア実体注目点をラベリングするためのモデルがテキストコーディングネットワーク、コア実体ラベリングネットワーク、および注目点ラベリングネットワークを含む。
一部の実施例において、上記の装置は、入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出するとともに符号化して相対位置特徴シーケンスを得るように構成されている第3の抽出ユニットをさらに備える。なお、上記の第2のラベリングユニット505は、さらに、コア実体の注目点リポジトリに基づき作成されたコア実体の注目点の先験的特徴を取得し、入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と相対位置特徴シーケンスとを接続して、入力テキストにおけるコア実体のコーディングシーケンスを得、入力テキストの注意コーディングシーケンス、コア実体の注目点の先験的特徴、および入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、入力テキストの第2の注目点特徴を生成し、入力テキストの第2の注目点特徴を注目点ラベリングネットワークに入力して、コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、という方式にて入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている。
上記の装置500が備えるユニットは図2、図3に示す方法におけるステップに対応している。これにより、テキストにおける実体注目点のマイニング方法をめぐって記載されている上記の操作、特徴、および達成可能な技術效果は、同様に、装置500およびそれが備えるユニットに適用可能であり、ここで詳細に説明しない。
引き続き、図6を参照すると、これは本開示に係る実施例を実現するための電子機器(例えば、図1に示すサーバ)600の構造模式図である。図6に示される電子機器は例示でしかなく、本開示に係る実施例の機能および使用範囲を限定するものではない。
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に記憶されたプログラム、または、記憶装置608からランダムアクセスメモリ(RAM)603にローディングされたプログラムに従い各種の適宜な動作および処理を実行可能な処理装置(例えば、中央処理装置、グラフィック処理装置など)601を含んでもよい。RAM603には、電子機器600の動作に要する各種のプログラムおよびデータがさらに記憶されている。処理装置601、ROM602およびRAM603はバス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
一般的には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどのような入力装置606、液晶表示装置(LCD)、スピーカー、振動器などのような出力装置607、ハードディスクなどのような記憶装置608、および通信装置609は、I/Oインターフェース605に接続可能である。通信装置609は、電子機器600が他のデバイスと無線または有線の通信をしてデータを交換することを可能にする。図6は各種の装置を備える電子機器600を示しているが、示される装置のすべてを実行または具備することを要求しておらず、代わりにより少ない又はより多くの装置を実行または具備することもできることを理解するべきである。図6に示されるブロックはそれぞれ1つの装置を表してもよいし、必要に応じて複数の装置を表してもよい。
特に、本開示に係る実施例に従い、フローチャートを参照して記載された上記のプロセスはコンピュータソフトウェアプログラムとして実現可能なものである。例えば、本開示に係る実施例は、コンピュータ読取可能な媒体に担持されている、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラム製品を備える。このような実施例において、該コンピュータプログラムは通信装置609によってネットワークからダウンロードおよびインストールされたり、記憶装置608からインストールされたり、ROM602からインストールされたりしてもよい。該コンピュータプログラムが処理装置601により実行される際に、本開示に係る実施例の方法に規定される上記の機能を実行する。なお、本開示に係る実施例に記載のコンピュータ読取可能な媒体はコンピュータ読み取り可能な信号媒体であってもよいし、コンピュータ読み取り可能な記憶媒体であってもよいし、両者の任意の組合であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線の、あるいは、半導体のシステム、装置またはデバイス、あるいは、これらの任意の組合であってもよいがこれらに限定されるものではない。より具体的な例としてはコンピュータ読み取り可能な記憶媒体は、1つまたは複数のリード線を有する電気的接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、携帯式コンパクト磁気ディスク読み出し専用メモリ(CD-ROM)、光メモリ、磁気メモリ、またはこれらの任意の適宜な組合を含むが、これらに限定されない。本開示に係る実施例において、コンピュータ読み取り可能な記憶媒体は、プログラムを具備または記憶する如何なる有形媒体であってもよく、該プログラムが指令実行システム、装置またはデバイスにより使用されたりそれと組み合わせられたりしてもよい。本開示に係る実施例において、コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードが担持されている、ベースバンドにおけるデータ信号、または、キャリアの一部として伝搬されるデータ信号を含んでもよい。この伝搬データ信号は複数の形式があり、電磁信号、光信号、または、これらの任意の適宜な組合を含むがこれらに限定されない。コンピュータ読み取り可能な信号媒体はコンピュータ読み取り可能な記憶媒体以外の如何なるコンピュータ読取可能な媒体であってもよく、該コンピュータ読み取り可能な信号媒体は指令実行システム、装置またはデバイスに用いられる、または、それらと組み合わせて用いられるプログラムを送信、伝搬または伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは如何なる適宜な媒体により伝送され得、電線、光ケーブル、RF(無線周波数)など、または、これらの任意の適宜な組合を含むがこれらに限定されない。
上記のコンピュータ読取可能な媒体は上記の電子機器に含まれるものであってもよいし、単独に存在し該電子機器にインストールされていないものであってもよい。上記のコンピュータ読取可能な媒体には1つまたは複数のプログラムが担持され、上記の1つまたは複数のプログラムが該電子機器により実行される際に、該電子機器に、入力テキストに対しワード・フレーズ特徴を抽出するステップ、抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力し符号化して入力テキストのコーディングシーケンスを得るステップ、コア実体ラベリングネットワークによって入力テキストのコーディングシーケンスを処理し、入力テキストにおけるコア実体の位置を予測するステップ、入力テキストにおけるコア実体の位置に基づき、入力テキストのコーディングシーケンスから入力テキストにおけるコア実体に対応するサブシーケンスを抽出するステップ、入力テキストのコーディングシーケンスおよび入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークにより入力テキストにおけるコア実体に対応する注目点の位置を予測するステップを実行させる。
本開示に係る実施例の操作を実行するためのコンピュータプログラムコードは1種以上のプログラミング言語またはそれらの組合にてコンパイルされ得る。プログラミング言語はオブジェクト指向のプログラミング言語、例えば、Java、Smalltalk、C++を含み、さらに、通常の手続き型のプログラミング言語、例えば、「C」言語または類似のプログラミング言語も含む。プログラムコードは、ユーザコンピュータで完全に実行されたり、ユーザコンピュータで部分的に実行されたり、1つの独立のソフトウェアパッケージとして実行されたり、一部がユーザコンピュータで一部がリモート・コンピューターで実行されたり、リモート・コンピューターまたはサーバで完全に実行されたりしてもよい。リモート・コンピューターに関する場合には、リモート・コンピューターは、ローカルエリア・ネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続されたり、外部コンピュータ(例えば、インターネットサービス提供事業者によりインターネットで接続される)に接続されたりしてもよい。
図面におけるローチャートおよびブロック図は、本開示に係る各種の実施例のシステム、方法およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を示している。このことについては、フローチャートまたはブロック図におけるブロックはそれぞれ1つのモジュール、プログラムセグメント、またはコードの一部を代表でき、該モジュール、プログラムセグメント、またはコードの一部が1つ以上の、所定のロジック機能を果たすための実行可能な指令を含む。代替例として、ブロックに示される機能は図面に示される順序と異なる順で実行され得ることに注意すべきである。例えば、連続的に示されるブロックは実際にだいたい並行的に実行され得るが、かかる機能に応じて時には反対の順序で実行され得る。ブロック図および/またはフローチャートにおけるそれぞれのブロック、およびブロック図および/またはフローチャートにおけるブロックの組合は、所定の機能または操作を実行するための、ハードウェアに基づく特定用途向けシステムにより実現され得、または、特定用途向けハードウェアとコンピュータ指令との組合にて実現され得るということにも注意すべきである。
本開示に記載される実施例に関わるユニットはソフトウェアにより実現されてもよいし、ハードウェアにより実現されてもよい。かかるユニットはプロセッサに設置され得、例えば、プロセッサであって、第1の抽出ユニット、コーディングユニット、第1のラベリングユニット、第2の抽出ユニットおよび第2のラベリングユニットを備えるというように記載され得る。ここで、ある場合にはこれらのユニットの名称は該ユニット自体を限定せず、例えば、第1の抽出ユニットは「入力テキストに対しワード・フレーズ特徴を抽出するユニット」のように記載され得る。
上述した内容は、本開示の比較的良い実施例および用いられる技術原理についての説明でしかない。当業者は、本開示の関する発明の範囲が上記の技術特徴の特別な組合でなる技術方案に限定されず、上記の発明主旨から逸脱しない場合、上記の技術特徴または均等の特徴を任意に組み合わせてなる他の技術案、例えば、上記の特徴と本願に開示されている(しかしながら、これに限定されない)類似の機能を有する技術特徴とを互いに取り替えてなる技術方案も含むべきであることを理解するべきである。

Claims (19)

  1. テキストにおける実体注目点のマイニング装置により実行される方法であって、
    入力テキストに対しワード・フレーズ特徴を抽出するステップと、
    抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るステップと、
    コア実体ラベリングネットワークによって前記入力テキストのコーディングシーケンスを処理して、前記入力テキストにおけるコア実体の位置を予測するステップと、
    前記入力テキストにおけるコア実体の位置に基づき、前記入力テキストにおけるコア実体に対応するサブシーケンスを前記入力テキストのコーディングシーケンスから抽出するステップと、
    前記入力テキストのコーディングシーケンスおよび前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、前記入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって予測するステップと、
    を含む、方法。
  2. 前記入力テキストに対しワード・フレーズ特徴を抽出するステップは、
    前記入力テキストに対応するワードシーケンスに対してワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得るステップと、
    前記入力テキストに対応するワードシーケンスにおける各キャラクタに対し位置埋め込み処理をして、対応する位置特徴ベクトルを取得するステップと、
    前記入力テキストに対し固有表現認識を行って、固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するステップと、
    前記入力テキストに対応するワード特徴ベクトル、位置特徴ベクトル、および固有表現タイプ特徴ベクトルを接続して前記入力テキストのワード・フレーズ特徴ベクトルを形成するステップと、を含む請求項1に記載の方法。
  3. 前記固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するステップは、
    前記入力テキストにおける目標フレーズの固有表現のタイプが抽出されていないことに応じて、前記目標フレーズについて品詞ラベリングを行い、前記入力テキストから抽出された固有表現のタイプおよび前記目標フレーズの品詞ラベリング結果に基づき、前記固有表現タイプ特徴ベクトルを生成するステップを、含む請求項2に記載の方法。
  4. コア実体ラベリングネットワークによって前記入力テキストのコーディングシーケンスを処理して、前記入力テキストにおけるコア実体の位置を予測するステップは、
    前記入力テキストのコーディングシーケンスを前記コア実体ラベリングネットワークに入力して、前記入力テキストにおける各文字列がコア実体となる確率を予測するとともに、前記入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングするステップを、含む請求項1に記載の方法。
  5. 前記入力テキストのコーディングシーケンスおよび前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークにより、前記入力テキストにおけるコア実体に対応する注目点の位置を予測するステップは、
    前記コア実体の注目点リポジトリに基づき作成された前記コア実体の注目点の先験的特徴を取得するステップと、
    前記入力テキストのコーディングシーケンス、前記コア実体の注目点の先験的特徴、および前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、前記入力テキストの第1の注目点特徴を生成し、前記入力テキストの第1の注目点特徴を前記注目点ラベリングネットワークに入力して、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップと、を含む請求項1に記載の方法。
  6. 前記入力テキストの第1の注目点特徴を前記注目点ラベリングネットワークに入力して、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップは、
    前記入力テキストにおける各文字列がコア実体の注目点となる確率を予測するように前記入力テキストの第1の注目点特徴を前記注目点ラベリングネットワークに入力するとともに、前記入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をそれぞれダブルポインタにてラベリングするステップを、含む請求項5に記載の方法。
  7. 前記入力テキストはコア実体および対応する注目点のラベリング情報を含み、
    前記方法は、
    前記入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、前記入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするための訓練済みのモデルを取得するようにコア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整するステップをさらに含んでおり、
    前記コア実体注目点をラベリングするためのモデルは、前記テキストコーディングネットワーク、前記コア実体ラベリングネットワーク、および前記注目点ラベリングネットワークを含む、
    請求項1~6のいずれか1項に記載の方法。
  8. 前記方法は、前記入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを得るステップをさらに含み、
    前記入力テキストのコーディングシーケンスおよび前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、前記入力テキストにおけるコア実体に対応する注目点の位置を注目点ラベリングネットワークによって予測するステップは、
    前記コア実体の注目点リポジトリに基づき作成された前記コア実体の注目点の先験的特徴を取得するステップと、
    前記入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と前記相対位置特徴シーケンスとを接続して、前記入力テキストにおけるコア実体のコーディングシーケンスを得るステップと、
    前記入力テキストのコーディングシーケンス、前記コア実体の注目点の先験的特徴、および前記入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、前記入力テキストの第2の注目点特徴を生成し、前記入力テキストの第2の注目点特徴を前記注目点ラベリングネットワークに入力し、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するステップとを、含む請求項7に記載の方法。
  9. 入力テキストに対しワード・フレーズ特徴を抽出するように構成されている第1の抽出ユニットと、
    抽出されたワード・フレーズ特徴をテキストコーディングネットワークに入力して符号化し、入力テキストのコーディングシーケンスを得るように構成されているコーディングユニットと、
    コア実体ラベリングネットワークによって前記入力テキストのコーディングシーケンスを処理し、前記入力テキストにおけるコア実体の位置を予測するように構成されている第1のラベリングユニットと、
    前記入力テキストにおけるコア実体の位置に基づき、前記入力テキストにおけるコア実体に対応するサブシーケンスを前記入力テキストのコーディングシーケンスから抽出するように構成されている第2の抽出ユニットと、
    前記入力テキストのコーディングシーケンス、および前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、注目点ラベリングネットワークを介して前記入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている第2のラベリングユニットと、を備える、テキストにおける実体注目点のマイニング装置。
  10. 前記第1の抽出ユニットは、
    前記入力テキストに対応するワードシーケンスに対しワード・フレーズ混合埋め込み処理をして対応するワード特徴ベクトルを得、
    前記入力テキストに対応するワードシーケンスにおける各キャラクタに対し位置埋め込み処理をして、対応する位置特徴ベクトルを得、
    前記入力テキストに対し固有表現認識を実行し、固有表現認識の結果に基づき固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成し、
    前記入力テキストに対応するワード特徴ベクトル、位置特徴ベクトルおよび固有表現タイプ特徴ベクトルを接続して前記入力テキストのワード・フレーズ特徴ベクトルを形成する、
    というように入力テキストに対しワード・フレーズ特徴を抽出するように構成されている、請求項9に記載の装置。
  11. 前記第1の抽出ユニットはさらに、
    前記入力テキストにおける目標フレーズの固有表現のタイプが抽出されていないことに応じて、前記目標フレーズについて品詞ラベリングを行い、前記入力テキストから抽出された固有表現的タイプおよび前記目標フレーズの品詞ラベリング結果に基づき、前記固有表現タイプ特徴ベクトルを生成する、
    というように固有表現のタイプを表す固有表現タイプ特徴ベクトルを生成するように構成されている、請求項10に記載の装置。
  12. 前記第1のラベリングユニットは、
    前記入力テキストのコーディングシーケンスを前記コア実体ラベリングネットワークに入力して、前記入力テキストにおける各文字列がコア実体となる確率を予測するとともに、前記入力テキストにおける各文字列がコア実体となる確率に基づき、コア実体の開始位置および終了位置をダブルポインタにてそれぞれラベリングする、というように前記入力テキストにおけるコア実体の位置を予測するように構成されている、請求項9に記載の装置。
  13. 前記第2のラベリングユニットは、
    前記コア実体の注目点リポジトリに基づき作成された前記コア実体の注目点の先験的特徴を取得し、
    前記入力テキストのコーディングシーケンス、前記コア実体の注目点の先験的特徴、および前記入力テキストにおけるコア実体に対応するサブシーケンスに基づき、前記入力テキストの第1の注目点特徴を生成し、前記入力テキストの第1の注目点特徴を前記注目点ラベリングネットワークに入力し、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、というように前記入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている、請求項9に記載の装置。
  14. 前記第2のラベリングユニットは、さらに、
    前記入力テキストにおける各文字列がコア実体の注目点となる確率を予測するように前記入力テキストの第1の注目点特徴を前記注目点ラベリングネットワークに入力するとともに、前記入力テキストにおける各文字列がコア実体の注目点となる確率に基づき、コア実体の注目点の開始位置および終了位置をそれぞれダブルポインタにてラベリングする、というように前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測するように構成されている、請求項13に記載の装置。
  15. 前記入力テキストはコア実体および対応する注目点のラベリング情報を含み、
    前記装置は、
    前記入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、前記入力テキストにおけるコア実体と対応する注目点との位置の予測誤差を確定し、コア実体注目点をラベリングするための訓練済みのモデルを取得するようにコア実体注目点をラベリングするためのモデルにおけるパラメータを誤差逆伝播法にて反復調整するように構成されている反復調整ユニットをさらに備えており、
    前記コア実体注目点をラベリングするためのモデルは、前記テキストコーディングネットワーク、前記コア実体ラベリングネットワークおよび前記注目点ラベリングネットワークを含む、請求項9~14のいずれか1項に記載の装置。
  16. 前記装置は、
    前記入力テキストにおけるコア実体および対応する注目点のラベリング情報に基づき、コア実体と対応する注目点との相対位置特徴を抽出し符号化して相対位置特徴シーケンスを取得するように構成されている第3の抽出ユニットをさらに備え、
    前記第2のラベリングユニットはさらに、
    前記コア実体の注目点リポジトリに基づき作成された前記コア実体の注目点の先験的特徴を取得し、
    前記入力テキストにおけるコア実体に対応するサブシーケンスを符号化した結果と前記相対位置特徴シーケンスとを接続して前記入力テキストにおけるコア実体的コーディングシーケンスを得、
    前記入力テキストのコーディングシーケンス、前記コア実体の注目点の先験的特徴、および前記入力テキストにおけるコア実体に対応するコーディングシーケンスに基づき、前記入力テキストの第2の注目点特徴を生成し、前記入力テキストの第2の注目点特徴を前記注目点ラベリングネットワークに入力し、前記コア実体ラベリングネットワークに予測されたコア実体に対応する注目点の位置を予測する、というように前記入力テキストにおけるコア実体に対応する注目点の位置を予測するように構成されている、請求項15に記載の装置。
  17. 1つ以上のプロセッサと、
    1つ以上のプログラムを記憶するための記憶装置と、を備えており
    前記1つ以上のプログラムが前記1つ以上のプロセッサにより実行されるにあたり、前記1つ以上のプロセッサに請求項1~8のいずれか1項に記載の方法を実現させる、電子機器。
  18. コンピュータプログラムが記憶されているコンピュータ読取可能な記憶媒体であって、
    前記プログラムがプロセッサにより実行される際に、請求項1~8のいずれか1項に記載の方法を実現する、コンピュータ読取可能な記憶媒体。
  19. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1~8のいずれか1項に記載の方法を実現する、コンピュータプログラム。
JP2021003861A 2020-01-15 2021-01-14 テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム Active JP7112536B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010042233.3A CN111274815B (zh) 2020-01-15 2020-01-15 用于挖掘文本中的实体关注点的方法和装置
CN202010042233.3 2020-01-15

Publications (2)

Publication Number Publication Date
JP2021111413A JP2021111413A (ja) 2021-08-02
JP7112536B2 true JP7112536B2 (ja) 2022-08-03

Family

ID=71002187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021003861A Active JP7112536B2 (ja) 2020-01-15 2021-01-14 テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11775761B2 (ja)
EP (1) EP3852002A1 (ja)
JP (1) JP7112536B2 (ja)
KR (1) KR102554121B1 (ja)
CN (1) CN111274815B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090987B (zh) * 2019-12-27 2021-02-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111460083B (zh) * 2020-03-31 2023-07-25 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN111813828B (zh) * 2020-06-30 2024-02-27 北京百度网讯科技有限公司 一种实体关系挖掘方法、装置、电子设备及存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN112069821A (zh) * 2020-09-10 2020-12-11 北京明略昭辉科技有限公司 一种命名实体的提取方法、装置、电子设备及存储介质
CN112487812B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN114548102A (zh) * 2020-11-25 2022-05-27 株式会社理光 实体文本的序列标注方法、装置及计算机可读存储介质
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112836052B (zh) * 2021-02-19 2023-04-07 中国第一汽车股份有限公司 一种汽车评论文本观点挖掘方法、设备及存储介质
CN113051926B (zh) * 2021-03-01 2023-06-23 北京百度网讯科技有限公司 文本抽取方法、设备和存储介质
CN116089602B (zh) * 2021-11-04 2024-05-03 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质和程序产品
CN114595686B (zh) * 2022-03-11 2023-02-03 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
US11615247B1 (en) * 2022-04-24 2023-03-28 Zhejiang Lab Labeling method and apparatus for named entity recognition of legal instrument
CN116629387B (zh) * 2023-07-24 2023-10-27 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统
CN117251650B (zh) * 2023-11-20 2024-02-06 之江实验室 地理热点中心识别方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129938A1 (en) 2016-11-04 2018-05-10 Salesforce.Com, Inc. Dynamic coattention network for question answering
CN109408812A (zh) 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN110046350A (zh) 2019-04-12 2019-07-23 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质
CN110472242A (zh) 2019-08-05 2019-11-19 腾讯科技(深圳)有限公司 一种文本处理方法、装置和计算机可读存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478420B2 (en) * 2006-07-12 2013-07-02 Cyberonics, Inc. Implantable medical device charge balance assessment
KR101009924B1 (ko) 2010-06-25 2011-01-20 한국과학기술정보연구원 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 개체명 사전 또는 마이닝 규칙 데이터베이스 갱신 장치 및 방법
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
CN106570179B (zh) * 2016-11-10 2019-11-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN106776555B (zh) * 2016-12-09 2019-11-15 中国科学院信息工程研究所 一种基于字模型的评论文本实体识别方法及装置
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN108334490B (zh) * 2017-04-07 2021-05-07 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN109388793B (zh) * 2017-08-03 2023-04-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
WO2019079180A1 (en) * 2017-10-16 2019-04-25 Illumina, Inc. NEURONAL NETWORKS WITH DEEP CONVOLUTION OF VARIANT CLASSIFICATION
KR102017227B1 (ko) * 2017-11-02 2019-09-02 서강대학교산학협력단 과학문서의 핵심어구 추출방법 및 장치
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置
KR102075505B1 (ko) * 2018-03-29 2020-02-10 네이버 주식회사 핵심 키워드 추출 방법 및 시스템
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109299457B (zh) * 2018-09-06 2023-04-28 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
US20210397926A1 (en) * 2018-09-29 2021-12-23 VII Philip Alvelda Data representations and architectures, systems, and methods for multi-sensory fusion, computing, and cross-domain generalization
CN110162749B (zh) * 2018-10-22 2023-07-21 哈尔滨工业大学(深圳) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN109582975B (zh) * 2019-01-31 2023-05-23 北京嘉和海森健康科技有限公司 一种命名实体的识别方法及装置
CN110008469B (zh) * 2019-03-19 2022-06-07 桂林电子科技大学 一种多层次命名实体识别方法
CN109933801B (zh) * 2019-03-25 2022-03-29 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN109918510B (zh) * 2019-03-26 2022-10-28 中国科学技术大学 跨领域关键词提取方法
CN110110330B (zh) * 2019-04-30 2023-08-11 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110263323B (zh) * 2019-05-08 2020-08-28 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110377748A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 实体关注点挖掘方法、装置、计算机设备及存储介质
CN110210038B (zh) * 2019-06-13 2023-01-10 北京百度网讯科技有限公司 核心实体确定方法及其系统、服务器和计算机可读介质
CN110263174B (zh) * 2019-06-27 2020-10-23 成都冰鉴信息科技有限公司 —基于焦点关注的主题类别分析方法
CN110399616A (zh) * 2019-07-31 2019-11-01 国信优易数据有限公司 命名实体检测方法、装置、电子设备及可读存储介质
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129938A1 (en) 2016-11-04 2018-05-10 Salesforce.Com, Inc. Dynamic coattention network for question answering
CN109408812A (zh) 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN110046350A (zh) 2019-04-12 2019-07-23 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质
CN110472242A (zh) 2019-08-05 2019-11-19 腾讯科技(深圳)有限公司 一种文本处理方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN111274815A (zh) 2020-06-12
US20210216715A1 (en) 2021-07-15
JP2021111413A (ja) 2021-08-02
EP3852002A1 (en) 2021-07-21
KR102554121B1 (ko) 2023-07-10
KR20210092147A (ko) 2021-07-23
US11775761B2 (en) 2023-10-03
CN111274815B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
JP7112536B2 (ja) テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN107491534B (zh) 信息处理方法和装置
CN107679039B (zh) 用于确定语句意图的方法和装置
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112633947B (zh) 文本生成模型生成方法、文本生成方法、装置及设备
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
WO2020182123A1 (zh) 用于推送语句的方法和装置
WO2023165538A1 (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN111382261B (zh) 摘要生成方法、装置、电子设备及存储介质
CN114385780B (zh) 程序接口信息推荐方法、装置、电子设备和可读介质
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN114676234A (zh) 一种模型训练方法及相关设备
US20240078385A1 (en) Method and apparatus for generating text
CN111339789A (zh) 一种翻译模型训练方法、装置、电子设备及存储介质
CN115640815A (zh) 翻译方法、装置、可读介质及电子设备
CN113408507B (zh) 基于履历文件的命名实体识别方法、装置和电子设备
WO2023011260A1 (zh) 翻译处理方法、装置、设备及介质
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN112328751A (zh) 用于处理文本的方法和装置
CN112464654A (zh) 关键词生成方法、装置、电子设备和计算机可读介质
CN117131152B (zh) 信息存储方法、装置、电子设备和计算机可读介质
CN114385781B (zh) 基于语句模型的接口文件推荐方法、装置、设备和介质
KR102621869B1 (ko) 한국어 문서-수준 관계 추출 데이터셋 구축 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220722

R150 Certificate of patent or registration of utility model

Ref document number: 7112536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150