JP2021111416A - コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2021111416A
JP2021111416A JP2021004630A JP2021004630A JP2021111416A JP 2021111416 A JP2021111416 A JP 2021111416A JP 2021004630 A JP2021004630 A JP 2021004630A JP 2021004630 A JP2021004630 A JP 2021004630A JP 2021111416 A JP2021111416 A JP 2021111416A
Authority
JP
Japan
Prior art keywords
entity
character
target text
vector sequence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021004630A
Other languages
English (en)
Other versions
JP7110416B2 (ja
Inventor
シュー ワン,
Shu Wang
シュー ワン,
ケシン レン,
Kexin Ren
ケシン レン,
シャオハン ヂャン,
Xiaohan Zhang
シャオハン ヂャン,
ジーファン フェン,
Zhifan Feng
ジーファン フェン,
ヤン ヂャン,
Yang Zhang
ヤン ヂャン,
ヨン ヂュ,
Yong Zhu
ヨン ヂュ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021111416A publication Critical patent/JP2021111416A/ja
Application granted granted Critical
Publication of JP7110416B2 publication Critical patent/JP7110416B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Molds, Cores, And Manufacturing Methods Thereof (AREA)
  • Road Signs Or Road Markings (AREA)

Abstract

【課題】コアエンティティをタグ付け可能な方法及び装置を提供する。【解決手段】方法は、目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストに対する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するステップと、目標テキストに対する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対する目標ベクトルシーケンスを生成するステップと、予め設定されたネットワークモデルを用いて目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定するステップと、開始文字と終了文字としての確率に基づいて目標テキストのコアエンティティを決定するステップと、を含む。【選択図】図1

Description

本出願は、コンピュータ技術分野に関し、特にスマート検索の技術分野に関し、コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
情報技術の発展に伴って、テキストデータが爆発的に増加し、大量のテキスト内容に直面して、手動処理だけで、その中からコア内容を抽出することができず、従って、テキスト内容のインテリジェントな理解を実現し、テキスト内容の作成、処理及び配信の推奨を自動的かつインテリジェントに実現するように、コンピュータ技術が急務となっている。その中では、エンティティ理解は、テキスト理解の重要な部分であり、コアエンティティのタグ付けによって、対応するエンティティの側面、話題などの他の細粒度のテキスト理解結果を拡張でき、それにより、ユーザがウェブページテキストリソースをよりよく理解し、またはユーザ意図に基づいてユーザニーズに一致するテキストリソースを推薦することに寄与する。
関連技術では、通常、短いテキストのコア内容を説明可能なキーワードを抽出することによって、短いテキストのコア内容を特徴付ける。しかし、キーワードが必ずしもエンティティワードではないため、決定された短いテキストのコア内容に意味情報がなく、様々な応用の要件を満たすことが困難である。
本出願に係るコアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラムは、短いテキストのキーワードを抽出することで、短いテキストのコア内容を特徴付ける方式においては、キーワードが必ずしもエンティティワードではないため、決定された短いテキストのコア内容に意味情報がなく、様々な応用の要件を満たすことが困難であるという関連技術における課題を解決するために用いられる。
本出願の1つの態様の実施例に係るコアエンティティのタグ付け方法は、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するステップであって、前記文字ベクトルシーケンスが前記目標テキスト中の各文字に対応する文字ベクトルを含み、前記第1の単語ベクトルシーケンスが前記目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスが前記目標テキスト中の各エンティティに対応するエンティティベクトルを含むステップと、前記目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、前記目標テキストに対応する目標ベクトルシーケンスを生成するステップと、予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化・復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップと、各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率に基づいて、前記目標テキストのコアエンティティを決定するステップと、を含む。
本出願の別の態様の実施例に係るコアエンティティのタグ付け装置は、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するための第1の取得モジュールであって、前記文字ベクトルシーケンスが前記目標テキスト中の各文字に対応する文字ベクトルを含み、前記第1の単語ベクトルシーケンスが前記目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスが前記目標テキスト中の各エンティティに対応するエンティティベクトルを含む第1の取得モジュールと、前記目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、前記目標テキストに対応する目標ベクトルシーケンスを生成するための生成モジュールと、予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化・復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するための第1の決定モジュール、各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率に基づいて、前記目標テキストのコアエンティティを決定するための第2の決定モジュールと、を備える。
本出願のまた別の態様の実施例に係る電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが上記に記載のコアエンティティのタグ付け方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本出願のまた別の態様の実施例に係る、コンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体は、前記コンピュータ命令が、前記コンピュータに上記に記載のコアエンティティのタグ付け方法を実行させるために用いられることを特徴とする。
上記出願のいずれかの実施例は、以下の利点または有益な効果を有する。目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデルを利用して、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定することで、テキスト中のコアエンティティを正確に抽出することを実現し、テキストのコア内容の意味情報を豊かにし、汎用性が高い。それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得し、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定するという技術手段を用いるため、短いテキストのキーワードを抽出することで、短いテキストのコア内容を特徴付ける方式において、抽出されるコア内容に意味情報がなく、様々な応用の要件を満たすことが困難であるという課題を解消し、さらにテキスト中のコアエンティティを正確に抽出し、テキストのコア内容の意味情報を豊かにし、汎用性が高いという技術的効果を実現する。
上記選択可能な形態が持っている他の効果について、具体的な実施例を参照しながら以下に説明する。
図面は、本技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
本出願の実施例に係るコアエンティティのタグ付け方法の概略フローチャートである。 本出願の実施例に係る別のコアエンティティのタグ付け方法の概略フローチャートである。 本出願の実施例に係る別のコアエンティティのタグ付け方法の概略フローチャートである。 本出願の実施例に係るコアエンティティのタグ付け装置の概略構成図である。 本出願の実施例に係る電子機器の概略構成図である。
以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更や修正を行うことができることを理解すべきである。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構成の説明を省略する。
本出願の実施例は、関連技術では、短いテキストのキーワードを抽出することで、短いテキストのコア内容を特徴付ける方式において、キーワードが必ずしもエンティティワードではないため、決定された短いテキストのコア内容に意味情報がなく、様々な応用の要件を満たすことが困難であるという課題に対して、コアエンティティのタグ付け方法を提供する。
図面を参照して、本出願に係るコアエンティティのタグ付け方法、装置、電子機器及び記憶媒体について以下に詳細に説明する。
図1を参照しながら、本出願の実施例に係るコアエンティティのタグ付け方法について以下に詳細に説明する。
図1は、本出願の実施例に係るコアエンティティのタグ付け方法の概略フローチャートである。
図1に示すように、該コアエンティティのタグ付け方法は、以下のステップを含む。
ステップ101:それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得する。文字ベクトルシーケンスは目標テキスト中の各文字に対応する文字ベクトルを含み、第1の単語ベクトルシーケンスは目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスは目標テキスト中の各エンティティに対応するエンティティベクトルを含む。
なお、コンピュータ技術によりテキスト内容のインテリジェントな理解を実現し、自動的かつインテリジェントなテキスト内容の作成、処理及び配信の推奨を実現するとき、テキストのキーワードを抽出することで、テキストのコア内容を説明することができるが、キーワードは必ずしもエンティティ単語ではないため、決定されたテキストのコア内容に意味情報がなく、様々な応用の要件を満たすことは困難である。構築された知識ベース(例えば、ナレッジグラフ)中のエンティティを利用してテキストのコア内容を表現するときに、知識ベースに大量のエンティティが含まれるだけでなく、各エンティティの概念情報、各エンティティの関係などの情報も含まれるため、テキストのコア内容の意味情報を豊かにすることができる。
目標テキストは、現在、その含まれるコアエンティティをタグ付けする必要があるテキスト情報であり、ニュースタイトル、ビデオタイトル、ウェブページ文章などの任意のテキストデータであってもよい。
文字ベクトルマッピングは、目標テキスト中の各文字に対応する文字ベクトルを決定するプロセスであり、単語ベクトルマッピングは、目標テキスト中の各単語に対応する単語ベクトルを決定するプロセスであり、エンティティベクトルマッピングは、知識ベース情報を利用して目標テキスト中のエンティティ及び各エンティティに対応するエンティティベクトルを決定するプロセスである。
本出願の実施例では、目標テキスト中の各文字を単位として、目標テキストに対して単語分割処理を行い、各文字を事前にトレーニングされた文字ベクトルマッピングモデルに入力して、目標テキスト中の各文字に対応する文字ベクトルを決定し、さらに各文字に対応する文字ベクトルに基づいて目標テキストに対応する文字ベクトルシーケンスを生成することができる。すなわち、目標テキストに対応する文字ベクトルシーケンス中の各要素(ベクトル)は、1つの文字に対応する文字ベクトルである。
1つの可能な実現形態としては、採用される文字ベクトルマッピングモデルは、トランスフォーマーからの双方向エンコーダ表現(Bidirectional Encoder Representations from Transformers、BERTと略称)モデルであってもよく、BERTモデルはテキストの意味情報を良好に表現することができる。ただし、実際の使用では、事前にトレーニングされた文字ベクトルマッピングモデルは、文字ベクトルを生成可能な任意の自然言語処理モデルであってもよく、本出願の実施例はこれを限定しない。
本出願の実施例では、先ず意味のある単語を単位として、目標テキストに対して単語分割処理を行い、単語分割処理後に取得された複数の分割された単語を事前にトレーニングされた単語ベクトルマッピングモデルに入力し、目標テキスト中の各分割された単語のそれぞれに対応する単語ベクトルを決定し、さらに目標テキスト中の各分割された単語のそれぞれに対応する単語ベクトルを利用して目標テキストに対応する単語ベクトルシーケンスを生成することができる。すなわち、目標テキストに対応する単語ベクトルシーケンス中の各要素(ベクトル)は、1つの分割された単語に対応する単語ベクトルである。
1つの可能な実現形態としては、採用される単語ベクトルマッピングモデルはWord2Vecモデルであってもよい。ただし、実際の使用では、事前にトレーニングされた単語ベクトルマッピングモデルは、分割された単語ベクトルを生成可能な任意の自然言語処理モデルであってもよく、本出願の実施例はこれを限定しない。
本出願の実施例では、予め構築された知識ベースを利用して、目標テキスト中の各分割された単語の知識ベースでのそれぞれ対応するエンティティを決定して、目標テキスト中の各エンティティを決定することができ、さらに知識ベースに含まれる各エンティティに対応するエンティティベクトルに基づいて、目標テキスト中の各エンティティに対応するエンティティベクトルを決定し、各エンティティのそれぞれに対応するエンティティベクトルを利用して目標テキストに対応するエンティティベクトルシーケンスを生成する。
具体的には、目標テキスト中の各分割された単語の知識ベースでの対応するエンティティを決定するときに、各分割された単語に対応する単語ベクトルと知識ベース中の各エンティティに対応するエンティティベクトルとの類似度(例えば、コサイン類似度など)に基づいて、各分割された単語に対応するエンティティを決定することができる。例えば、類似度閾値を予め設定し、各分割された単語に対応する単語ベクトルの類似度が類似度閾値よりも大きいエンティティベクトルに対応するエンティティを、該分割された単語に対応するエンティティとして決定することができる。
1つの可能な実現形態としては、予め構築された知識ベースは、一般的なナレッジグラフで構築され得る。具体的には、予め構築された知識ベースは、一般的なナレッジグラフ、及びナレッジグラフ中の各エンティティに対応するエンティティベクトルを含み得る。ナレッジグラフ中の各エンティティが通常単語または短い句であるため、各エンティティに対応するエンティティベクトルは、Word2Vecモデルなどの事前にトレーニングされた単語ベクトルマッピングモデルを利用して取得され得る。
例として、目標テキストが「血糖不正常的標準是多少」の場合、先ず文字を単位として、目標テキストに対して単語分割処理を行い、目標テキスト中の各文字「血」、「糖」、「不」、「正」、「常」、「的」「標」、「準」、「是」、「多」、「少」を取得し、各文字をBERTモデルに入力して、各文字のそれぞれに対応する文字ベクトルを決定し、さらに各文字ベクトルを利用して目標テキストに対応する文字ベクトルシーケンスを生成することができる。その後、意味を有する単語を単位として、目標テキストに対して単語分割処理を行い、目標テキスト中の各分割された単語「血糖」、「不」、「正常」、「的」、「標準」、「是」、「多少」を取得し、各分割された単語をWord2Vecモデルに入力して、各分割された単語のそれぞれに対応する単語ベクトルを決定し、さらに各単語ベクトルを利用して目標テキストに対応する単語ベクトルシーケンスを生成し、最後に、目標テキスト中の各分割された単語に対応する単語ベクトルのそれぞれと予め構築された知識ベース中の各エンティティのエンティティベクトルとの類似度を決定し、さらに目標テキスト中の各エンティティ「血糖」、「不」、「正常」、「的」、「標準」、「是」、「多少」のそれぞれに対応するエンティティベクトルを決定し、各エンティティベクトルを利用して目標テキストに対応するエンティティベクトルシーケンスを生成する。
ステップ102:目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成する。
本出願の実施例では、目標テキストに対して単語分割を行うときに、境界分割のエラーを最大限に回避するために、文字を基本単位として選択し、目標テキストに対応する文字ベクトルシーケンスを取得することができる。ただし、単純な文字は効果的な意味情報を格納することが困難であるため、取得された文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを融合して、目標テキストの意味情報をより効果的に融合することができる。
1つの可能な実現形態としては、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスをスプライスし、目標テキストに対応する目標ベクトルシーケンスを生成することができる。具体的には、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスは、すべてマトリクスと見なすことができる。文字ベクトルシーケンスの行数は目標テキスト中の文字の数であり、列数は文字ベクトルの要素の数である。第1の単語ベクトルシーケンスの行数は目標テキスト中の分割された単語の数であり、列数は単語ベクトルの要素の数である。エンティティベクトルシーケンスの行数は目標テキスト中のエンティティの数であり、列数はエンティティベクトルの要素の数である。文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスの次元数が異なる可能性があるため、先ず第1の単語ベクトルシーケンスとエンティティベクトルシーケンスをマトリクス変換し、変換後の第1の単語ベクトルシーケンスとエンティティベクトルシーケンスの次元数を文字ベクトルシーケンスと同じにし、さらに文字ベクトルシーケンス中の各行の要素と、変換後の第1の単語ベクトルシーケンス中の対応する行の要素と、変換後のエンティティベクトルシーケンス中の対応する行の要素とをスプライス処理し、目標テキストに対応する目標ベクトルシーケンスを生成することができる。すなわち、目標ベクトルシーケンス中の各目標ベクトルは、文字ベクトルシーケンス、変換後の第1の単語ベクトルシーケンス、及びエンティティベクトルシーケンス中の対応する行の要素をスプライスすることによって形成される。
1つの可能な実現形態としては、さらに、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスの平均値を、目標テキストに対応する目標ベクトルシーケンスとして決定することができる。すなわち、第1の単語ベクトルシーケンスとエンティティベクトルシーケンスをマトリクス変換した後、文字ベクトルシーケンス中の各行の文字ベクトルと、変換後の第1の単語ベクトルシーケンス中の対応する行の単語ベクトルと、変換後のエンティティベクトルシーケンス中の対応する行のエンティティベクトルとの平均値を決定し、該平均値を目標ベクトルシーケンス中の各目標ベクトルとして決定する。
さらに、目標テキスト中の各分割された単語が複数の文字を含む可能性があるため、取得された第1の単語ベクトルシーケンスの次元数は通常文字ベクトルシーケンスの次元数より小さく、それにより、第1の単語ベクトルシーケンス中の単語ベクトルを繰り返し、第1の単語ベクトルを文字ベクトルと揃えることができる。すなわち、本出願の実施例の可能な実現形態では、上記ステップ102は、第1の単語ベクトルシーケンス中の第1の単語ベクトルに対応する第1の分割された単語に含まれる文字の数がNである場合、第1の単語ベクトルをN回繰り返して、第2の単語ベクトルシーケンスを生成するステップと、第2の単語ベクトルシーケンスをマトリクス変換し、次元数が目標テキストに対応する文字ベクトルシーケンスの次元数と同じである第3の単語ベクトルシーケンスを生成するステップと、第3の単語ベクトルシーケンスを目標テキストに対応する文字ベクトルシーケンスと合成し、前処理ベクトルシーケンスを生成するステップと、目標テキストに対応するエンティティベクトルシーケンスを揃えてマトリクス変換し、次元数が前処理ベクトルシーケンスと同じである変換ベクトルシーケンスを生成するステップと、変換ベクトルシーケンスを前処理ベクトルシーケンスと合成し、目標ベクトルシーケンスを生成するステップと、を含むことができる。
1つの可能な実現形態としては、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを混合し、目標テキストに対応する目標ベクトルシーケンスを生成するときに、先ず第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを文字ベクトルシーケンスと揃えてからマトリクス変換することができる。それにより、文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを混合するときに、各文字ベクトルと対応する第1の単語ベクトル、エンティティベクトルとの関連性をより強くし、コアエンティティのタグ付けの精度を向上させる。
具体的には、第1のベクトル中の各第1の単語ベクトルに対して、第1の単語ベクトルに対応する第1の分割された単語に含まれる文字の数に基づいて、各第1の単語ベクトルを繰り返し、すなわち、対応する第1の分割された単語に含まれる文字の数がNの第1の単語ベクトルをN回繰り返して、文字ベクトルシーケンスと揃えられる第2の単語ベクトルシーケンスを生成することができる。すなわち、第2の単語ベクトルに含まれる単語ベクトルの数は文字ベクトルに含まれる文字ベクトルの数と同じである。
また、目標テキストの文字ベクトルシーケンスを取得するために使用される自然言語処理モデルは、第1の単語ベクトルシーケンスを取得するために使用される自然言語処理モデルと異なる可能性があるため、文字ベクトルシーケンス中の文字ベクトルと第2の単語ベクトルシーケンス中の単語ベクトルの次元数は異なる可能性があり、すなわち、文字ベクトルシーケンスと第2の単語ベクトルシーケンスの列数は異なり、それにより、第2の単語ベクトルシーケンスをさらにマトリクス変換し、文字ベクトルシーケンスの次元数と同じである第3の単語ベクトルシーケンスを生成することができる。その後、文字ベクトルシーケンスを第3の単語ベクトルシーケンスと合成して、目標ベクトルシーケンスを生成することができる。
なお、文字ベクトルシーケンスを第3の単語ベクトルシーケンスと合成するときに、ベクトルシーケンスを第3の単語ベクトルシーケンスとスプライス処理し、目標ベクトルシーケンスを生成してもよく、または、文字ベクトルシーケンス中の各文字ベクトルと第3の単語ベクトル中の対応する行の単語ベクトルとの平均値を、前処理ベクトルシーケンス中の各前処理ベクトルとして決定し、前処理ベクトルシーケンスを生成してもよい。
例として、目標テキストが「去吃飯バ」である場合、目標テキストに含まれる各文字は、「去」、「吃」、「飯」、「バ」であり、含まれる各分割された単語は、「去」、「吃飯」、「バ」であり、それにより、取得可能な文字ベクトルシーケンスはA=[a]である。a、a、a、aはそれぞれ、文字の「去」、「吃」、「飯」、「バ」のそれぞれに対応する文字ベクトルである。取得された第1の単語ベクトルシーケンスはB=[b]であり、bはそれぞれ、分割された単語の「去」、「吃飯」、「バ」のそれぞれに対応する単語ベクトルである。第2の単語ベクトルシーケンスはB=[b]である。前処理ベクトルシーケンスが文字ベクトルシーケンス及び第2の単語ベクトルシーケンスのスプライスである場合、前処理ベクトルシーケンスがC=[a]であることを決定することができる。前処理ベクトルシーケンスが文字ベクトルシーケンスと第2の単語ベクトルシーケンスとの平均値である場合、前処理ベクトルシーケンスがC=[(a+b)/2 (a+b)/2 (a+b)/2 (a+b)/2]であることを決定することができる。なお、「去吃飯バ」の「バ」は、くちへんに「馬」である。
対応して、第1の単語ベクトルシーケンスと同じ処理方式を採用して、エンティティベクトルシーケンスを揃えてマトリクス変換することによって、次元数が前処理ベクトルシーケンスと同じである(すなわち、文字ベクトルシーケンスの次元数と同じである)変換ベクトルを生成し、さらに変換ベクトルシーケンスを前処理ベクトルシーケンスと合成して、目標ベクトルシーケンスを生成することができる。
なお、前処理ベクトルシーケンスが文字ベクトルシーケンスと第2の単語ベクトルシーケンスをスプライスすることによって生成される場合、変換ベクトルシーケンスを前処理ベクトルシーケンスとスプライス処理し、目標ベクトルシーケンスを生成することができる。前処理ベクトルシーケンスの各前処理ベクトルが、文字ベクトルシーケンス中の各文字ベクトルと第2の単語ベクトルシーケンス中の対応する行の単語ベクトルとの平均値である場合、変換ベクトルシーケンス中の各変換ベクトルと前処理ベクトルシーケンス中の対応する行の前処理ベクトルとの平均値を、目標ベクトルシーケンス中の各目標ベクトルとして決定し、目標ベクトルシーケンスを生成することができる。
ステップ103:予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定する。
予め設定されたネットワークモデルは、拡張ゲート畳み込みニューラルネットワークモデルなどの事前にトレーニングされたニューラルネットワークモデルであってもよい。
本出願の実施例では、ダブルポインタのタグ付けの方法で目標テキスト中のコアエンティティの開始位置と終了位置をタグ付けすることができる。すなわち、目標テキストに対応する目標ベクトルシーケンスを予め設定されたネットワークモデルに入力し、予め設定されたネットワークモデルに目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を出力させることができる。それにより、目標テキスト中のコアエンティティのダブルポインタのタグ付けを実現して、コアエンティティのタグ付けの精度を向上させる。
ステップ104:各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。
本出願の実施例では、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定することができる。
任意的には、確率閾値を予め設定して、コアエンティティの開始文字としての確率が確率閾値以上の目標テキスト中の第1の文字、及びコアエンティティの終了文字としての確率が確率閾値以上の第2の文字を決定し、さらに第1の文字を目標テキスト中のコアエンティティの開始文字とし、第1の文字の後に位置する第2の文字を目標テキスト中のコアエンティティの終了文字とし、目標テキスト中の各コアエンティティを決定することができる。
例として、予め設定された確率閾値が0.8であり、目標テキストが「夏至未至:陸之昂和七七開始吃了起来,七七太能吃!」の場合、目標テキスト中の「陸」という文字のコアエンティティの開始文字としての確率が0.8より大きく、文字「昂」のコアエンティティの終了文字としての確率が0.8より大きく、文字「七」のコアエンティティの開始文字としての確率及びコアエンティティの終了文字としての確率がすべて0.8より大きいと決定すると、目標テキスト中のコアエンティティが「陸之昂」、「七七」、「陸之昂和七七」を含むことを確定することができる。
本出願の実施例の技術案によれば、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得し、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデルを利用して、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定することで、テキスト中のコアエンティティを正確に抽出することを実現し、テキストのコア内容の意味情報を豊かにし、汎用性が高い。
本出願の1つの可能な実現形態では、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定するときに、目標テキスト中の各エンティティのコアエンティティとしての事前確率を融合することができ、それにより、コアエンティティのタグ付けの精度をさらに向上させる。
以下、図2を参照しながら、本出願の実施例に係るコアエンティティのタグ付け方法をさらに説明する。
図2は、本出願の実施例に係る別のコアエンティティのタグ付け方法概略フローチャートである。
図2に示すように、該コアエンティティのタグ付け方法は、以下のステップを含む。
ステップ201:それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得する。文字ベクトルシーケンスは目標テキスト中の各文字に対応する文字ベクトルを含み、第1の単語ベクトルシーケンスは目標テキスト中の各分割された単語に対応する単語ベクトルを含み、エンティティベクトルシーケンスは目標テキスト中の各エンティティに対応するエンティティベクトルを含む。
ステップ202:目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成する。
上記ステップ201〜202の具体的な実現プロセス及び原理については、上記実施例の詳細な説明を参照することができ、ここで詳しく説明しない。
ステップ203:目標テキスト中の各エンティティに対応するコアエンティティの事前確率を取得する。
エンティティに対応するコアエンティティの事前確率は、前の予め設定されたネットワークモデルを利用して該エンティティをコアエンティティとしてタグ付けする履歴使用データに基づいて、該エンティティをコアエンティティとしてタグ付けする予測確率であってもよい。
1つの可能な実現形態としては、目標テキストに含まれる各エンティティに基づいて、毎回目標テキスト中の各エンティティをコアエンティティとして決定するときに、予め設定されたネットワークモデルにより決定された各エンティティに対応する開始文字のコアエンティティの開始文字としての確率、及び各エンティティに対応する終了文字のコアエンティティの終了文字としての確率を、予め設定されたネットワークモデルの履歴使用データから取得し、さらに各エンティティが毎回コアエンティティとして決定されるときに対応する開始文字確率と終了文字確率の平均値を、各エンティティに対応するコアエンティティの事前確率として決定する。
例として、目標テキスト中のエンティティAに対して、予め設定されたネットワークモデルの履歴データから、エンティティAがコアエンティティとして三回決定されると決定する。最初にコアエンティティとして決定されるときに、エンティティAに対応する開始文字のコアエンティティの開始文字としての確率が0.8であり、エンティティAに対応する終了文字のコアエンティティの終了文字としての確率が0.9である。2回目にコアエンティティとして決定されるときに、エンティティAに対応する開始文字のコアエンティティの開始文字としての確率が0.9であり、エンティティAに対応する終了文字のコアエンティティの終了文字としての確率が0.9である。3回目にコアエンティティとして決定されるときに、エンティティAに対応する開始文字のコアエンティティの開始文字としての確率が0.9であり、エンティティAに対応する終了文字のコアエンティティの終了文字としての確率が1である。それにより、エンティティAに対応するコアエンティティの事前確率が(0.8+0.9+0.9+0.9+0.9+1)/6=0.9であることを決定することができる。
なお、目標テキスト中の各エンティティに対応するコアエンティティの事前確率の決定方式は、上記の言及したケースを含むがこれに限定されない。実際の使用では、実際の需要及び具体的な応用シーンに基づいてコアエンティティの事前確率の決定方式を選択することができ、本出願の実施例はこれを限定しない。
ステップ204:目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、目標テキストに対応する事前シーケンスベクトルを決定する。
本出願の実施例では、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を決定した後、各エンティティに対応するコアエンティティの事前確率を全結合処理して、各エンティティに対応するコアエンティティの事前確率を組み合わせ、目標テキストに対応する事前シーケンスベクトルを生成することができる。すなわち、事前シーケンスベクトル中の各要素はそれぞれ、目標テキスト中の各エンティティのそれぞれに対応するコアエンティティの事前確率である。
ステップ205:予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定する。
目標ベクトルシーケンスに対応する目標シーケンスベクトルは、目標ベクトルシーケンス中の各ベクトルをスプライスすることによって生成されたベクトルであってもよく、または、目標ベクトルシーケンス中の各ベクトルを加重平均してマージすることによって生成されるベクトルであってもよい。
本出願の実施例では、予め設定されたネットワークモデル中の平均マージ層を利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定することができる。
ステップ206:予め設定されたネットワークモデルを利用して、目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定する。
本出願の実施例では、予め設定されたネットワークモデルを利用して目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理することができ、それにより、目標シーケンスベクトルに基づいて各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定するときに、事前シーケンスベクトルを参照して、予め設定されたネットワークモデルが出力した結果はより正確になる。
ステップ207:各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。
上記ステップ207の具体的な実現プロセス及び原理については、上記実施例の詳細な説明を参照することができ、ここで詳しく説明しない。
ステップ208:各コアエンティティ中の開始文字確率及び終了文字確率に基づいて、各コアエンティティのスコアを決定する。
本出願の実施例では、さらに、決定された各コアエンティティを評点することができ、必要がある場合、各コアエンティティのスコアに基づいて、コアエンティティをスクリーニング処理することができ、それにより、本出願の実施例のコアエンティティのタグ付け方法の応用シーンを拡張し、汎用性をさらに改善することができる。
1つの可能な実現形態としては、各コアエンティティ中の開始文字確率及び終了文字確率の平均値を、各コアエンティティのスコアとして決定することができる。
例として、コアエンティティAに対して、該コアエンティティの開始文字確率が0.9であり、終了文字確率が0.8である場合、コアエンティティAのスコアは(0.9+0.8)/2=0.85である。
さらに、本出願の実施例のコアエンティティのタグ付け方法は、ダブルポインタのタグ付けのメカニズムを採用するため、決定されたコアエンティティ結果においてカバレッジ及び交差部分が存在することを容易に引き起こす。従って、決定されたコアエンティティ結果における冗長確率を低減させるために、各コアエンティティのスコアに基づいて、各コアエンティティをスクリーニングし、冗長なコアエンティティを削除することができる。すなわち、本出願の実施例の1つの可能な実現形態では、目標テキストのコアエンティティが複数含まれると確定される場合、上記ステップ208の後、目標テキストの複数のコアエンティティに交差するエンティティが含まれるか否かを判断するステップと、第1のエンティティがそれぞれ第2のエンティティ及び第3のエンティティと交差する場合、第1のエンティティのスコアが、第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きいか否かを判断するステップと、第1のエンティティのスコアが、第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きい場合、第2のエンティティ及び第3のエンティティを目標テキストのコアエンティティから削除するステップと、第2のエンティティのスコアと第3のエンティティのスコアとの総和が、第1のエンティティのスコアより大きい場合、第1のエンティティを目標テキストのコアエンティティから削除するステップと、を含んでもよい。
第1のエンティティが第2のエンティティ及び第3のエンティティと交差することは、第1のエンティティが第2のエンティティ及び第3のエンティティを含むことを意味してもよい。例えば、第1のエンティティが「陸之昂和七七」であり、第2のエンティティが「陸之昂」であり、第3のエンティティが「七七」である。
1つの可能な実現形態としては、目標テキストに複数のコアエンティティが含まれると確定される場合、各コアエンティティに交差するコアエンティティが含まれるか否かを判断し、さらに、各コアエンティティのスコアに基づいて、スコアの低いコアエンティティを削除することができる。
具体的には、第1のエンティティのスコアが第2のエンティティと第3のエンティティのスコアとの総和より大きい場合、第1のエンティティのコアエンティティとしての信頼性が、第2のエンティティと第3のエンティティが共同してコアエンティティとしての信頼性より大きいことを確定することができ、それにより、第2のエンティティ及び第3のエンティティを目標テキストのコアエンティティから削除することができる。第2のエンティティと第3のエンティティとのスコアの総和が第1のエンティティのスコアより大きい場合、第2のエンティティと第3のエンティティが共同してコアエンティティとしての信頼性が、第1のエンティティのコアエンティティとしての信頼性より大きいことを確定することができ、それにより、第1のエンティティを目標テキストのコアエンティティから削除することができる。
例として、目標テキストが「夏至未至:陸之昂和七七開始吃了起来、七七太能吃!」の場合、決定された目標テキストのコアエンティティが「陸之昂」、「七七」、「陸之昂和七七」であり、エンティティ「陸之昂」のスコアが0.7であり、エンティティ「七七」のスコアが0.8であり、エンティティ「陸之昂和七七」のスコアが0.9であると、エンティティ「陸之昂」とエンティティ「七七」とのスコアの総和が、エンティティ「陸之昂和七七」のスコアより大きいことを確定することができ、それにより、エンティティ「陸之昂和七七」を目標テキストのコアエンティティから削除することができる。
本出願の実施例の技術案によれば、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、目標テキストに対応する事前シーケンスベクトルを決定し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定し、目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティ及び各コアエンティティのスコアを決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデル及びコアエンティティの事前特徴を利用し、目標テキストのコアエンティティ及び各コアエンティティのスコアを決定することで、テキストのコア内容の意味情報を豊かにするとともに、コアエンティティタグ付けの精度及び汎用性をさらに向上させる。
本出願の1つの可能な実現形態では、並列している複数のエンティティが目標テキストに含まれる場合、さらに並列している複数のエンティティのうちの1つのみに対してエンティティベクトルマッピングを行ってもよく、該エンティティの認識結果に基づいて、それと並列している他のエンティティがコアエンティティである否かを決定し、コアエンティティタグ付けの演算複雑度を低減させる。
以下、図3を参照しながら、本出願の実施例に係るコアエンティティのタグ付け方法についてさらに説明する。
図3は、本出願の実施例に係る別のコアエンティティのタグ付け方法の概略フローチャートである。
図3に示すように、該コアエンティティのタグ付け方法は、以下のステップを含む。
ステップ301:目標テキストを認識し、目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断する。
予め設定された記号は、読点など、並列関係を表し可能な記号であってもよい。実際の使用では、実際の需要に応じて予め設定された記号を設定してもよい。
本出願の実施例では、アルゴリズムの複雑度を低減させるために、目標テキストに並列している複数のエンティティが含まれる場合、そのうちの1つのエンティティを認識し、さらに該エンティティの認識結果に基づいて、それと並列している他のエンティティがコアエンティティであるか否かを決定することができる。
1つの可能な実現形態としては、目標テキストに対して認識処理を行って、目標テキストに予め設定された記号が含まれるか否かを決定し、目標テキストに予め設定された記号が含まれると決定すると、予め設定された記号の前後に位置するエンティティを並列している複数のエンティティとして決定することができる。
なお、目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断するとき、予め設定された記号に対応する文字ベクトルと目標テキスト中の各文字に対応する文字ベクトルとを比較してもよく、目標テキスト中の各文字に対応する文字ベクトルに、予め設定された記号に対応する文字ベクトルとマッチングする文字ベクトルが含まれると、目標テキストに予め設定された記号が含まれると決定し、目標テキスト中の、予め設定された記号の前後に位置するエンティティを、目標テキスト中の、予め設定された記号で分離された複数のエンティティとして決定することができる。
ステップ302:それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピングを行い、1番目の予め設定された記号の前の第4のエンティティ、及び目標テキスト中の、予め設定された記号で分離された複数のエンティティ以外の第5のエンティティに対してエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得する。
第4のエンティティは、目標テキスト中の、予め設定された記号で分離された複数のエンティティのうち、初めて出現するエンティティであり、第5のエンティティは、目標テキスト中の、予め設定された記号で分離された複数のエンティティ以外の他のエンティティである。例えば、予め設定された記号が「読点」であり、目標テキストにエンティティA、エンティティB、エンティティC、エンティティD、エンティティEが含まれ、エンティティA、エンティティB、エンティティCが順に目標テキストに出現して読点で分離されたと、第4のエンティティがエンティティAであり、第5のエンティティがエンティティD及びエンティティEである。
本出願の実施例では、目標テキストに予め設定された記号で分離された複数の並列しているエンティティが存在すると、目標テキストに対してエンティティベクトルマッピングを行うとき、並列しているエンティティのうち、初めて出現する第4のエンティティのみに対してエンティティベクトルマッピングを行い、第5のエンティティに対してエンティティベクトルマッピングを行い、目標テキストに対応するエンティティベクトルシーケンスを決定し、それにより、目標テキストのエンティティベクトルマッピングの演算量を簡略化し、コアエンティティタグ付けの効率を向上させる。
上記ステップ302の他の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
ステップ303:目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成する。
ステップ304:予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定する。
ステップ305:各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。
上記ステップ303〜305の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
ステップ306:第4のエンティティがコアエンティティであるか否かを判断する。
ステップ307:第4のエンティティがコアエンティティである場合、第4のエンティティと予め設定された記号で分離された他の各エンティティを目標テキストのコアエンティティとして決定する。
本出願の実施例では、目標テキストのコアエンティティを決定した後、さらに目標テキストのコアエンティティに第4のエンティティが含まれるか否かを判断することができる。含まれる場合、第4のエンティティと予め設定された記号で分離された他の各エンティティも目標テキストのコアエンティティとして決定することができ、第4のエンティティがコアエンティティではない場合、第4のエンティティと予め設定された記号で分離された他のエンティティも目標テキストのコアエンティティではない。
本出願の実施例の技術案によれば、目標テキストに予め設定された記号で分離された複数のエンティティが含まれる場合、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピングを行い、1番目の予め設定された記号の前の第4のエンティティ、及び目標テキスト中の、予め設定された記号で分離された複数のエンティティ以外の第5のエンティティに対してエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得し、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成する。この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定し、さらに第4のエンティティがコアエンティティである場合、第4のエンティティと予め設定された記号で分離された他の各エンティティを目標テキストのコアエンティティとして決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、並列している複数のエンティティのうちの1つに対してエンティティベクトルマッピングを行い、予め設定されたネットワークモデル及びそのうち1つの並列しているエンティティの認識結果を利用して、目標テキストのコアエンティティを決定し、それにより、テキストのコア内容の意味情報を豊かにするとともに、コアエンティティタグ付けの精度及び汎用性を向上させ、コアエンティティタグ付けの効率を向上させる。
上記実施例を実現するために、本出願は、コアエンティティのタグ付け装置をさらに提供する。
図4は、本出願の実施例に係るコアエンティティのタグ付け装置の概略構成図である。
図4に示すように、該コアエンティティのタグ付け装置40は、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するための第1の取得モジュール41であって、文字ベクトルシーケンスが目標テキスト中の各文字に対応する文字ベクトルを含み、第1の単語ベクトルシーケンスが目標テキスト中の各分割された単語に対応する単語ベクトルを含み、エンティティベクトルシーケンスが目標テキスト中の各エンティティに対応するエンティティベクトルを含む第1の取得モジュール41と、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成するための生成モジュール42と、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定するための第1の決定モジュール43と、各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定するための第2の決定モジュール44と、を備える。
実際の使用では、本出願の実施例に係るコアエンティティのタグ付け装置は、前述したコアエンティティのタグ付け方法を実行するために、任意の電子機器に配置されてもよい。
本出願の実施例の技術案によれば、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得し、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデルを利用して、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定することで、テキスト中のコアエンティティを正確に抽出することを実現し、テキストのコア内容の意味情報を豊かにし、汎用性が高い。
本出願の1つの可能な実現形態では、上記コアエンティティのタグ付け装置40は、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を取得するための第2の取得モジュールと、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、目標テキストに対応する事前シーケンスベクトルを決定するための第3の決定モジュールと、をさらに備え、上記第1の決定モジュール43は、具体的には、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定し、予め設定されたネットワークモデルを利用して、目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定するために用いられる。
さらに、本出願の別の可能な実現形態では、上記生成モジュール42は、具体的には、第1の単語ベクトルシーケンス中の第1の単語ベクトルに対応する第1の分割された単語に含まれる文字の数がNである場合、第1の単語ベクトルをN回繰り返して、第2の単語ベクトルシーケンスを生成し;第2の単語ベクトルシーケンスをマトリクス変換し、次元数が目標テキストに対応する文字ベクトルシーケンスの次元数と同じである第3の単語ベクトルシーケンスを生成し;第3の単語ベクトルシーケンスを目標テキストに対応する文字ベクトルシーケンスと合成し、前処理ベクトルシーケンスを生成し;目標テキストに対応するエンティティベクトルシーケンスを揃えてマトリクス変換し、次元数が前処理ベクトルシーケンスと同じである変換ベクトルシーケンスを生成し;変換ベクトルシーケンスを前処理ベクトルシーケンスと合成し、目標ベクトルシーケンスを生成するために用いられる。
さらに、本出願の別の可能な実現形態では、上記生成モジュール42は、さらに、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスをスプライス処理し、目標テキストに対応する目標ベクトルシーケンスを生成するために用いられる。
さらに、本出願の別の可能な実現形態では、上記コアエンティティのタグ付け装置40は、各コアエンティティ中の開始文字確率及び終了文字確率に基づいて、各コアエンティティのスコアを決定するための第4の決定モジュールをさらに備える。
さらに、本出願の他の可能な実現形態では、上記目標テキストのコアエンティティが複数含まれると決定する場合、上記コアエンティティのタグ付け装置40は、目標テキストの複数のコアエンティティに交差するエンティティが含まれるか否かを判断するための第1の判断モジュールと、第1のエンティティがそれぞれ第2のエンティティ及び第3のエンティティと交差する場合、第1のエンティティのスコアが、第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きいか否かを判断するための第2の判断モジュールと、第1のエンティティのスコアが、第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きい場合、第2のエンティティ及び第3のエンティティを目標テキストのコアエンティティから削除するための第1の削除モジュールと、第1のエンティティのスコアが、第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きい場合、第2のエンティティ及び第3のエンティティを目標テキストのコアエンティティから削除するための第2の削除モジュールと、をさらに備える。
さらに、本出願の別の可能な実現形態では、上記コアエンティティのタグ付け装置40は、目標テキストを認識し、目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断する第3の判断モジュールをさらに備える。これに対応して、上記第1の取得モジュール41は、さらに、含まれる場合、1番目の予め設定された記号の前の第4のエンティティ、及び目標テキスト中の、予め設定された記号で分離された複数のエンティティ以外の第5のエンティティに対してエンティティベクトルマッピングを行うために用いられる。これに対応して、上記コアエンティティのタグ付け装置40は、第4のエンティティがコアエンティティであるか否かを判断するための第4の判断モジュールと、第4のエンティティがコアエンティティである場合、第4のエンティティと予め設定された記号で分離された他の各エンティティを目標テキストのコアエンティティとして決定するための第5の決定モジュールと、をさらに備える。
なお、図1、図2、図3に示すコアエンティティのタグ付け方法の実施例についての前述した説明は、該実施例のコアエンティティのタグ付け装置40に適用でき、ここで繰り返し説明しない。
本出願の実施例の技術案によれば、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、目標テキストに対応する事前シーケンスベクトルを決定し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定し、目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティ及び各コアエンティティのスコアを決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデル及びコアエンティティの事前特徴を利用して、目標テキストのコアエンティティ及び各コアエンティティのスコアを決定し、それにより、テキストのコア内容の意味情報を豊かにするとともに、コアエンティティタグ付けの精度及び汎用性をさらに向上させる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図5に示すように、本出願の実施例によるコアエンティティのタグ付け方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/または要求される本出願の実現を制限することを意図したものではない。
図5に示すように、該電子機器は、1つのまたは複数のプロセッサ501と、メモリ502と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、または必要に応じて他の方式で取り付けることができる。プロセッサは、メモリ内またはメモリ上において外部入力/出力装置(例えば、インターフェースにカップリングされた表示機器)にGUIのグラフィック情報を表示する命令を含んだ、電子機器内に実行される命令を処理する。他の実施形態では、必要であれば、複数のプロセッサ及び/または複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーババンク、1群のブレードサーバ、またはマルチプロセッサシステムとして)を提供することができる。図5では、1つのプロセッサ501を例とする。
メモリ502は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願に係るコアエンティティのタグ付け方法を実行できるように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願に係るコアエンティティのタグ付け方法を実行させるためのコンピュータ命令が記憶されている。
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係るコアエンティティのタグ付け方法に対応するプログラム命令/モジュール(例えば、図4に示す第1の取得モジュール41、生成モジュール42、第1の決定モジュール43及び第2の決定モジュール44)などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するように構成される。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例のコアエンティティのタグ付け方法を実現する。
メモリ502は、プログラム記憶領域とデータ記憶領域と、を含むことができる。ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、コアエンティティのタグ付け方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、非一時的なメモリをさらに含んでもよく、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に設けられたメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介してコアエンティティのタグ付け方法の電子機器に接続されてもよい。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
コアエンティティのタグ付け方法の電子機器は、さらに、入力装置503及び出力装置504を備えてもよい。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バスまたは他の方式を介して接続することができ、図5では、バスを介して接続することを例とする。
入力装置503は、入力された数字またはキャラクタ情報を受信し、コアエンティティのタグ付け方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成してもよく、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つのまたは複数のマウスキー、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、バイブラモータ)などを含んでもよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでもよいがこれらに限られない。いくつかの実施形態では、表示機器は、タッチスクリーンであり得る。
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組合せで実現することができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムで実施されること、を含むことができ、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/または解釈でき、該プログラマブルプロセッサは、特定用途向けまたは汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、該ストレージシステム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも称される)は、プログラマブルプロセッサに対するマシン命令を含み、高度レベル手続き型及び/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/マシン言語で実装することができる。本明細書で使用される際、「マシン読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、マシン命令及び/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))であり、マシン読み取り可能な信号であるマシン命令を受信する機器読み取り可能な媒体を含む。用語の「マシン読み取り可能な信号」とは、マシン命令及び/またはデータをプログラマブルプロセッサに提供するための任意の信号である。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、該コンピュータは、ユーザに情報を表示するための表示機器(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、該キーボード及び該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力と、を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザは、該グラフィカルユーザインタフェースまたは該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、及びフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
コンピュータシステムは、クライアント側とサーバと、を含むことができる。クライアント側とサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。
本出願の実施例の技術案によれば、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得し、目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデルを利用して、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定することで、テキスト中のコアエンティティを正確に抽出することを実現し、テキストのコア内容の意味情報を豊かにし、汎用性が高い。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。本出願の要旨と原則内で行われる任意の修正、同等の置換や改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (17)

  1. コアエンティティのタグ付け方法であって、
    それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するステップであって、前記文字ベクトルシーケンスが前記目標テキスト中の各文字に対応する文字ベクトルを含み、前記第1の単語ベクトルシーケンスが前記目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスが前記目標テキスト中の各エンティティに対応するエンティティベクトルを含むステップと、
    前記目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、前記目標テキストに対応する目標ベクトルシーケンスを生成するステップと、
    予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化・復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップと、
    各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率に基づいて、前記目標テキストのコアエンティティを決定するステップと、を含む、コアエンティティのタグ付け方法。
  2. 前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップの前に、
    前記目標テキスト中の各エンティティに対応するコアエンティティの事前確率を取得するステップと、
    前記目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、前記目標テキストに対応する事前シーケンスベクトルを決定するステップと、をさらに含み、
    前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップは、
    予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化処理し、前記目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定するステップと、
    前記予め設定されたネットワークモデルを利用して、前記目標シーケンスベクトル及び前記事前シーケンスベクトルを復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップと、を含む、請求項1に記載の方法。
  3. 前記目標テキストに対応する目標ベクトルシーケンスを生成するステップは、
    前記第1の単語ベクトルシーケンス中の第1の単語ベクトルに対応する第1の分割された単語に含まれる文字の数がNである場合、前記第1の単語ベクトルをN回繰り返して、第2の単語ベクトルシーケンスを生成するステップと、
    前記第2の単語ベクトルシーケンスをマトリクス変換し、次元数が前記目標テキストに対応する文字ベクトルシーケンス次元数と同じである第3の単語ベクトルシーケンスを生成するステップと、
    前記第3の単語ベクトルシーケンスを前記目標テキストに対応する文字ベクトルシーケンスと合成し、前処理ベクトルシーケンスを生成するステップと、
    前記目標テキストに対応するエンティティベクトルシーケンスを揃えてマトリクス変換し、次元数が前記前処理ベクトルシーケンスと同じである変換ベクトルシーケンスを生成するステップと、
    前記変換ベクトルシーケンスを前記前処理ベクトルシーケンスと合成し、前記目標ベクトルシーケンスを生成するステップと、を含む、請求項1に記載の方法。
  4. 前記目標テキストに対応する目標ベクトルシーケンスを生成するステップは、
    前記目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスをスプライス処理し、前記目標テキストに対応する目標ベクトルシーケンスを生成するステップを含む、請求項1に記載の方法。
  5. 前記目標テキストのコアエンティティを決定するステップの後に、
    各コアエンティティ中の開始文字確率及び終了文字確率に基づいて、各コアエンティティのスコアを決定するステップをさらに含む、請求項1から請求項4のいずれか1項に記載の方法。
  6. 前記目標テキストのコアエンティティが複数含まれると決定する場合、各コアエンティティのスコアを決定するステップの後、
    前記目標テキストの複数のコアエンティティに交差するエンティティが含まれるか否かを判断するステップと、
    第1のエンティティがそれぞれ第2のエンティティ及び第3のエンティティと交差する場合、前記第1のエンティティのスコアが第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きいか否かを判断するステップと、
    前記第1のエンティティのスコアが第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きい場合、前記第2のエンティティ及び第3のエンティティを前記目標テキストのコアエンティティから削除するステップと、
    第2のエンティティのスコアと第3のエンティティのスコアとの総和が前記第1のエンティティのスコアより大きい場合、前記第1のエンティティを前記目標テキストのコアエンティティから削除するステップと、をさらに含む、請求項5に記載の方法。
  7. 前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するステップの前、
    前記目標テキストを認識し、前記目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断するステップを含み、
    目標テキストに対してエンティティベクトルマッピングを行うステップは、
    含まれる場合、1番目の前記予め設定された記号の前の第4のエンティティ、及び前記目標テキスト中の、予め設定された記号で分離された前記複数のエンティティ以外の第5のエンティティに対してエンティティベクトルマッピングを行うステップを含み、
    前記目標テキストのコアエンティティを決定するステップの後、
    前記第4のエンティティがコアエンティティであるか否かを判断するステップと、
    前記第4のエンティティがコアエンティティである場合、前記第4のエンティティと予め設定された記号で分離された他の各エンティティを前記目標テキストのコアエンティティとして決定するステップと、を含む、請求項1から請求項4のいずれか1項に記載の方法。
  8. コアエンティティのタグ付け装置であって、
    それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するための第1の取得モジュールであって、前記文字ベクトルシーケンスが前記目標テキスト中の各文字に対応する文字ベクトルを含み、前記第1の単語ベクトルシーケンスが前記目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスが前記目標テキスト中の各エンティティに対応するエンティティベクトルを含む第1の取得モジュールと、
    前記目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、前記目標テキストに対応する目標ベクトルシーケンスを生成するための生成モジュールと、
    予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化・復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するための第1の決定モジュールと、
    各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率に基づいて、前記目標テキストのコアエンティティを決定するための第2の決定モジュールと、を備える、コアエンティティのタグ付け装置。
  9. 前記目標テキスト中の各エンティティに対応するコアエンティティの事前確率を取得するための第2の取得モジュールと、
    前記目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、前記目標テキストに対応する事前シーケンスベクトルを決定するための第3の決定モジュールと、をさらに備え、
    前記第1の決定モジュールは、具体的には、
    予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化処理し、前記目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定し、
    前記予め設定されたネットワークモデルを利用して、前記目標シーケンスベクトル及び前記事前シーケンスベクトルを復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するために用いられる、請求項8に記載の装置。
  10. 前記生成モジュールは、具体的には、
    前記第1の単語ベクトルシーケンス中の第1の単語ベクトルに対応する第1の分割された単語に含まれる文字の数がNである場合、前記第1の単語ベクトルをN回繰り返して、第2の単語ベクトルシーケンスを生成し、
    前記第2の単語ベクトルシーケンスをマトリクス変換し、次元数が前記目標テキストに対応する文字ベクトルシーケンス次元数と同じである第3の単語ベクトルシーケンスを生成し、
    前記第3の単語ベクトルシーケンスを前記目標テキストに対応する文字ベクトルシーケンスと合成し、前処理ベクトルシーケンスを生成し、
    前記目標テキストに対応するエンティティベクトルシーケンスを揃えてマトリクス変換し、次元数が前記前処理ベクトルシーケンスと同じである変換ベクトルシーケンスを生成し、
    前記変換ベクトルシーケンスを前記前処理ベクトルシーケンスと合成し、前記目標ベクトルシーケンスを生成するために用いられる、請求項8に記載の装置。
  11. 前記生成モジュールは、さらに、
    前記目標テキストに対応する文字ベクトルシーケンス、第1の単語ベクトルシーケンス及びエンティティベクトルシーケンスをスプライス処理し、前記目標テキストに対応する目標ベクトルシーケンスを生成するために用いられる、
    請求項8に記載の装置。
  12. 各コアエンティティ中の開始文字確率及び終了文字確率に基づいて、各コアエンティティのスコアを決定するための第4の決定モジュールをさらに備える、請求項8から請求項11のいずれか1項に記載の装置。
  13. 前記目標テキストのコアエンティティが複数含まれると決定する場合、
    前記目標テキストの複数のコアエンティティに交差するエンティティが含まれるか否かを判断するための第1の判断モジュールと、
    第1のエンティティがそれぞれ第2のエンティティ及び第3のエンティティと交差する場合、前記第1のエンティティのスコアが第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きいか否かを判断するための第2の判断モジュールと、
    前記第1のエンティティのスコアが第2のエンティティのスコアと第3のエンティティのスコアとの総和より大きい場合、前記第2のエンティティ及び第3のエンティティを前記目標テキストのコアエンティティから削除するための第1の削除モジュールと、
    第2のエンティティのスコアと第3のエンティティのスコアとの総和が前記第1のエンティティのスコアより大きい場合、前記第1のエンティティを前記目標テキストのコアエンティティから削除するための第2の削除モジュールと、をさらに備える、請求項12に記載の装置。
  14. 前記目標テキストを認識し、前記目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断するための第3の判断モジュールと、
    含まれる場合、1番目の前記予め設定された記号の前の第4のエンティティ、及び前記目標テキスト中の、予め設定された記号で分離された前記複数のエンティティ以外の第5のエンティティに対してエンティティベクトルマッピングを行うための前記第1の取得モジュールと、をさらに備え、
    前記第4のエンティティがコアエンティティであるか否かを判断するための第4の判断モジュールと、
    前記第4のエンティティがコアエンティティである場合、前記第4のエンティティと予め設定された記号で分離された他の各エンティティを前記目標テキストのコアエンティティとして決定するための第5の決定モジュールと、をさらに備える、請求項8から請求項11のいずれか1項に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1から請求項7のいずれか1項に記載の方法を実行できる、電子機器。
  16. コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1から請求項7のいずれか1項に記載の方法を実行させるために用いられる、非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータ上で動作しているときに、請求項1から請求項7のいずれか1項に記載の方法を前記コンピュータに実行させる、コンピュータプログラム。
JP2021004630A 2020-01-15 2021-01-15 コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム Active JP7110416B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010042343.X 2020-01-15
CN202010042343.XA CN111241832B (zh) 2020-01-15 2020-01-15 核心实体标注方法、装置及电子设备

Publications (2)

Publication Number Publication Date
JP2021111416A true JP2021111416A (ja) 2021-08-02
JP7110416B2 JP7110416B2 (ja) 2022-08-01

Family

ID=70868853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021004630A Active JP7110416B2 (ja) 2020-01-15 2021-01-15 コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210216712A1 (ja)
EP (1) EP3862907A1 (ja)
JP (1) JP7110416B2 (ja)
KR (1) KR102466399B1 (ja)
CN (1) CN111241832B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114586038A (zh) * 2020-09-28 2022-06-03 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质
CN112347769B (zh) * 2020-10-30 2024-01-23 北京百度网讯科技有限公司 实体识别模型的生成方法、装置、电子设备及存储介质
CN112434510B (zh) * 2020-11-24 2024-03-29 北京字节跳动网络技术有限公司 一种信息处理方法、装置、电子设备和存储介质
CN112989829B (zh) * 2021-02-10 2024-03-08 卡奥斯数字科技(上海)有限公司 一种命名实体识别方法、装置、设备及存储介质
CN113704481B (zh) * 2021-03-11 2024-05-17 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113204615B (zh) * 2021-04-29 2023-11-24 北京百度网讯科技有限公司 实体抽取方法、装置、设备和存储介质
CN112988979B (zh) * 2021-04-29 2021-10-08 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读介质及电子设备
CN114330357B (zh) * 2021-08-04 2024-05-10 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN113641799B (zh) * 2021-10-13 2022-02-11 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114091458A (zh) * 2021-11-12 2022-02-25 北京明略软件系统有限公司 基于模型融合的实体识别方法和系统
CN114036281B (zh) * 2021-11-22 2024-04-16 华南农业大学 基于知识图谱的柑橘管控问答模块构建方法及问答系统
CN114792092B (zh) * 2022-06-24 2022-09-13 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN116486420B (zh) * 2023-04-12 2024-01-12 北京百度网讯科技有限公司 文档图像的实体抽取方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492217A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109753660A (zh) * 2019-01-07 2019-05-14 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN109902307A (zh) * 2019-03-15 2019-06-18 北京金山数字娱乐科技有限公司 命名实体识别方法、命名实体识别模型的训练方法及装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN103365934A (zh) * 2012-04-11 2013-10-23 腾讯科技(深圳)有限公司 复杂命名实体抽取方法及装置
JP5646792B2 (ja) * 2012-12-06 2014-12-24 楽天株式会社 単語分割装置、単語分割方法、及び単語分割プログラム
US9542652B2 (en) * 2013-02-28 2017-01-10 Microsoft Technology Licensing, Llc Posterior probability pursuit for entity disambiguation
RU2571373C2 (ru) * 2014-03-31 2015-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Метод анализа тональности текстовых данных
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US10304444B2 (en) * 2016-03-23 2019-05-28 Amazon Technologies, Inc. Fine-grained natural language understanding
KR20180055189A (ko) * 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
CN107633842B (zh) * 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
KR102017227B1 (ko) * 2017-11-02 2019-09-02 서강대학교산학협력단 과학문서의 핵심어구 추출방법 및 장치
US11017173B1 (en) * 2017-12-22 2021-05-25 Snap Inc. Named entity recognition visual context and caption data
KR102118603B1 (ko) * 2018-03-20 2020-06-05 (주)에어사운드 딥러닝 알고리즘 기반의 핵심문장 추출 방법
CN110287477B (zh) * 2018-03-16 2021-05-25 北京国双科技有限公司 实体情感分析方法及相关装置
KR102075505B1 (ko) * 2018-03-29 2020-02-10 네이버 주식회사 핵심 키워드 추출 방법 및 시스템
US11314787B2 (en) * 2018-04-18 2022-04-26 Forcepoint, LLC Temporal resolution of an entity
CN108959256B (zh) * 2018-06-29 2023-04-07 北京百度网讯科技有限公司 短文本的生成方法、装置、存储介质和终端设备
CN109697289B (zh) * 2018-12-28 2023-01-13 北京工业大学 一种改进的用于命名实体识别的主动学习方法
CN109918647A (zh) * 2019-01-30 2019-06-21 中国科学院信息工程研究所 一种安全领域命名实体识别方法及神经网络模型
CN110008469B (zh) * 2019-03-19 2022-06-07 桂林电子科技大学 一种多层次命名实体识别方法
CN110472063B (zh) * 2019-07-12 2022-04-08 新华三大数据技术有限公司 社交媒体数据处理方法、模型训练方法及相关装置
CN110399616A (zh) * 2019-07-31 2019-11-01 国信优易数据有限公司 命名实体检测方法、装置、电子设备及可读存储介质
US10789532B1 (en) * 2019-10-29 2020-09-29 Capital One Services, Llc Computer-based systems configured for detecting and splitting data types in a data file and methods of use thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492217A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109753660A (zh) * 2019-01-07 2019-05-14 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN109902307A (zh) * 2019-03-15 2019-06-18 北京金山数字娱乐科技有限公司 命名实体识别方法、命名实体识别模型的训练方法及装置

Also Published As

Publication number Publication date
CN111241832A (zh) 2020-06-05
KR102466399B1 (ko) 2022-11-10
US20210216712A1 (en) 2021-07-15
EP3862907A1 (en) 2021-08-11
CN111241832B (zh) 2023-08-15
KR20210092152A (ko) 2021-07-23
JP7110416B2 (ja) 2022-08-01

Similar Documents

Publication Publication Date Title
JP2021111416A (ja) コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
JP7122365B2 (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
KR102448129B1 (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111078865B (zh) 文本标题生成方法和装置
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
WO2022095563A1 (zh) 文本纠错的适配方法、装置、电子设备及存储介质
JP7312799B2 (ja) 情報抽出方法、抽出モデル訓練方法、装置及び電子機器
JP7159248B2 (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
KR102573637B1 (ko) 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
KR102521586B1 (ko) 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN111950256A (zh) 断句处理方法、装置、电子设备和计算机存储介质
JP2022008207A (ja) トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
JP2023012522A (ja) クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
CN112397050B (zh) 韵律预测方法、训练方法、装置、电子设备和介质
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
CN115130470B (zh) 一种文本关键词的生成方法、装置、设备及介质
CN111339314A (zh) 一种三元组数据的生成方法、装置和电子设备
CN114880520B (zh) 视频标题生成方法、装置、电子设备和介质
CN112328710A (zh) 实体信息处理方法、装置、电子设备和存储介质
CN111597458A (zh) 场景元素的抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220720

R150 Certificate of patent or registration of utility model

Ref document number: 7110416

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150