JP7398402B2 - 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents
実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDFInfo
- Publication number
- JP7398402B2 JP7398402B2 JP2021052044A JP2021052044A JP7398402B2 JP 7398402 B2 JP7398402 B2 JP 7398402B2 JP 2021052044 A JP2021052044 A JP 2021052044A JP 2021052044 A JP2021052044 A JP 2021052044A JP 7398402 B2 JP7398402 B2 JP 7398402B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- entity
- embedding vector
- text
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 61
- 238000004590 computer program Methods 0.000 title claims description 9
- 239000013598 vector Substances 0.000 claims description 346
- 230000004927 fusion Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 16
- 230000002787 reinforcement Effects 0.000 claims description 16
- 238000012790 confirmation Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 239000002585 base Substances 0.000 description 22
- 239000010410 layer Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- -1 Wikipedia Substances 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
本実施形態において、実体リンキング方法の実行主体(例えば、図1に示されるサーバ105)は有線接続又は無線接続方式により対象テキストを取得できる。上記対象テキストはユーザが端末で入力したテキストであってもよい。対象テキストは1つの検索文であってもよく、少なくとも1つの実体言及が含まれ得る。例えば、対象テキストは「この夏はどこに行けばいいですか」であってもよい。
実行主体は対象テキストを取得した後、対象テキストに対して様々な処理を行い、対象テキストに含まれた少なくとも1つの実体言及(entity mention)を確定することができる。例えば、実行主体は対象テキストに対して単語分割処理を行い、取得された名詞を実体言及とすることができる。或いは、実行主体は対象テキストに対して固有表現抽出を行い、取得された固有表現を実体言及としてもよい。ここで、実体言及は実体のテキスト表現形式を指し、固有表現、普通の名詞フレーズ、代名詞であってもよい。例えば、実体である「復旦大学」に対して、その実体言及は「復旦大学」、「復旦」、「旦大」などを含み得る。
ステップ402、対象テキストのテキスト埋め込みベクトル及び関連特徴ベクトルを確定する。
実行主体は融合ベクトルを取得した後、少なくとも1つの実体言及を確定できる。具体的に、実行主体は上記融合ベクトルを分類関数に入力して、少なくとも1つの実体言及を取得することができる。上記分類関数はsoftmax関数であってもよく、sigmod関数であってもよい。実行主体は分類結果に基づいて、少なくとも1つの実体言及を確定することができる。
本実施形態において、付加特徴情報は実体埋め込みベクトルを含んでもよい。各候補実体に対して、実行主体は具体的に以下のステップによって該候補実体の実体埋め込みベクトルを確定することができる。
本実施形態において、実行主体は、まず該候補実体の記述情報を取得することができる。記述情報は、実行主体が任意方式により取得した、候補実体を記述するための情報であってもよい。例えば、実行主体は、知識ベースから記述情報を取得してもよく、さらに検索エンジンから記述情報を取得してもよい。ここでの記述情報はステップ406における記述テキストと同じであってもよく、異なってもよい。
実行主体は、さらに該候補実体に関連するトリプルシーケンスを取得することができる。具体的に、実行主体は知識グラフから上記トリプルシーケンスを取得してもよい。上記トリプルシーケンスは複数のトリプルシーケンスを含んでもよく、各トリプルシーケンスは主語-述語-目的語、即ちSubject-Predicate-Objectとして示されてもよい。例えば、張三-出演-長征(張三は「長征」で役を演じた)。
実体言及確定ユニット802は、対象テキストに含まれた少なくとも1つの実体言及を確定するように構成される。
図9に示されるように、本出願の実施形態に係る実体リンキング方法を実行するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータおよびその他の適切なコンピュータなどの様々な形式のデジタルコンピュータを指すことを旨とする。電子機器はさらに、個人デジタル処理、スマートフォン、ウェアラブル装置およびその他の類似する計算装置等の様々な形態のモバイルデバイスを示すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで説明および/または要求した本出願の実現を限定することを意図するものではない。
Claims (19)
- 実体リンキング装置により実行される方法であって、
対象テキスト取得ユニットが対象テキストを取得することと、
実体言及確定ユニットが、前記対象テキストを認識して、前記対象テキストに含まれた少なくとも1つの実体言及を抽出することと、
候補実体確定ユニットが、予め設定された知識ベースから、各前記実体言及に対応する候補実体を探し出すことと、
付加情報確定ユニットが、前記知識ベースにおける前記各前記候補実体に関連する記述情報を用いて、各前記候補実体の参照テキスト及び各前記候補実体の付加特徴情報を生成することと、
実体リンキング確定ユニットが、前記対象テキスト、各前記参照テキスト及び各前記付加特徴情報に基づいて、前記候補実体から実体リンキング結果を特定し、特定した実体リンキング結果を端末装置にフィードバックすることと、を含み、
前記付加特徴情報は、実体埋め込みベクトルを含み、
各前記候補実体の付加特徴情報を生成することは、
各候補実体に対して、前記知識ベースから該候補実体の記述情報を取得することと、
前記知識ベースから該候補実体に関連するトリプルシーケンスを取得することと、
前記候補実体、前記記述情報を、予めトレーニングされたベクトル確定モデルの第1確定サブモデルに入力して、前記第1確定サブモデルから出力されたベクトルを得ることと、
前記出力されたベクトルと、前記トリプルシーケンスとを前記ベクトル確定モデルの第2確定サブモデルに入力して、前記第2確定サブモデルから出力された該候補実体の実体埋め込みベクトルを得ることと、を含む、
方法。 - 前記の、前記対象テキストを認識して、前記対象テキストに含まれた少なくとも1つの実体言及を抽出することは、
対象テキストを、予めトレーニングされた言語認識モデルに入力して、前記対象テキストのテキスト埋め込みベクトル及び関連特徴ベクトルを得ることであって、前記テキスト埋め込みベクトルは、前記対象テキストにおける各文字の埋め込みベクトルを有し、前記関連特徴ベクトルは、各文字の品詞又は各文字が実体に属する確率を表す、ことと、
前記テキスト埋め込みベクトル及び前記関連特徴ベクトルを融合して、融合ベクトルを取得することと、
前記融合ベクトルを所定の分類関数に入力して、前記少なくとも1つの実体言及を得ることと、を備える請求項1に記載の方法。 - 前記の、前記融合ベクトルを所定の分類関数に入力して、前記少なくとも1つの実体言及を得ることは、
前記融合ベクトルに対して注意強化を行い、強化ベクトルを取得することと、
前記分類関数により、前記強化ベクトルに対して分類を2回行い、それぞれ各実体言及の先頭位置と末尾位置を得ることと、
得られた先頭位置と末尾位置に基づいて、各実体言及を確定することと、を備える請求項2に記載の方法。 - 前記の、各前記候補実体の参照テキストを生成することは、
各候補実体に対して、該候補実体の少なくとも1つの記述テキストを取得することと、
各記述テキストを接続して、該候補実体の参照テキストを取得することと、を備える請求項1に記載の方法。 - 前記付加特徴情報は、少なくとも1つの上位コンセプトと上位コンセプトのそれぞれに対応する確率を含み、
前記の、各前記候補実体の付加特徴情報を確定することは、
各候補実体に対して、該候補実体及び予め設定されたコンセプト予測モデルに基づいて、該候補実体の少なくとも1つの上位コンセプトと上位コンセプトのそれぞれに対応する確率を確定して、確率シーケンスを取得することを備える請求項1に記載の方法。 - 前記の、前記対象テキスト、各前記参照テキスト及び各前記付加特徴情報に基づいて、前記前記候補実体から実体リンキング結果を特定することは、
前記対象テキストの第1埋め込みベクトル、前記対象テキストの第2埋め込みベクトル、各前記参照テキストの第1埋め込みベクトルおよび各前記参照テキストの第2埋め込みベクトルをそれぞれ確定することであって、前記第1埋め込みベクトル及び前記第2埋め込みベクトルは、それぞれ、アルゴリズムの異なるベクトル確定モジュールにより得られた、ことと、
前記対象テキストの第1埋め込みベクトル、前記対象テキストの第2埋め込みベクトル、各前記参照テキストの第1埋め込みベクトル、各前記参照テキストの第2埋め込みベクトル、各前記付加特徴情報に基づいて、前記前記候補実体から実体リンキング結果を特定することと、を備える請求項1に記載の方法。 - 前記の、前記対象テキストの第1埋め込みベクトル、前記対象テキストの第2埋め込みベクトル、各前記参照テキストの第1埋め込みベクトルおよび各前記参照テキストの第2埋め込みベクトルをそれぞれ確定することは、
前記対象テキストの単語埋め込みベクトル、前記対象テキストの文字埋め込みベクトル、各前記参照テキストの単語埋め込みベクトルおよび各前記参照テキストの文字埋め込みベクトルをそれぞれ確定することと、
前記対象テキストの単語埋め込みベクトル、前記対象テキストの文字埋め込みベクトル及び第1事前設定ベクトル確定モデルに基づいて、前記対象テキストの第1埋め込みベクトルを確定することと、
前記対象テキスト及び第2事前設定ベクトル確定モデルに基づいて、前記対象テキストの第2埋め込みベクトルを確定することと、
各参照テキストに対して、該参照テキストの単語埋め込みベクトル、該参照テキストの文字埋め込みベクトル及び前記第1事前設定ベクトル確定モデルに基づいて、該参照テキストの第1埋め込みベクトルを確定し、該参照テキスト及び前記第2事前設定ベクトル確定モデルに基づいて、該参照テキストの第2埋め込みベクトルを確定することと、を備える請求項6に記載の方法。 - 前記の、前記対象テキストの第1埋め込みベクトル、前記対象テキストの第2埋め込みベクトル、各前記参照テキストの第1埋め込みベクトル、各前記参照テキストの第2埋め込みベクトル、各前記付加特徴情報に基づいて、実体リンキング結果を確定することは、
各参照テキストに対して、該参照テキストの第1埋め込みベクトル、該参照テキストの第2埋め込みベクトル及び該参照テキストに対応する候補実体の付加特徴情報を接続して、第1接続ベクトルを取得することと、
前記対象テキストの第1埋め込みベクトル、前記対象テキストの第2埋め込みベクトル及び各第1接続ベクトルを接続して、第2接続ベクトルを取得することと、
各前記第1接続ベクトル、前記第2接続ベクトル及び予め設定された分類モデルに基づいて、各前記候補実体と前記実体言及とのリンキング確率を確定することと、を備える請求項6に記載の方法。 - 対象テキストを取得するように構成される対象テキスト取得ユニットと、
前記対象テキストを認識して、前記対象テキストに含まれた少なくとも1つの実体言及を抽出するように構成される実体言及確定ユニットと、
予め設定された知識ベースから、各前記実体言及に対応する候補実体を探し出すように構成される候補実体確定ユニットと、
前記知識ベースにおける前記各前記候補実体に関連する記述情報を用いて、各前記候補実体の参照テキスト及び各前記候補実体の付加特徴情報を生成するように構成される付加情報確定ユニットと、
前記対象テキスト、各前記参照テキスト及び各前記付加特徴情報に基づいて、前記候補実体から実体リンキング結果を特定し、特定した実体リンキング結果を端末装置にフィードバックするように構成される実体リンキング確定ユニットと、を備え、
前記付加特徴情報は、実体埋め込みベクトルを含み、
前記付加情報確定ユニットは、
各候補実体に対して、前記知識ベースから該候補実体の記述情報を取得し、
前記知識ベースから該候補実体に関連するトリプルシーケンスを取得し、
前記候補実体、前記記述情報を、予めトレーニングされたベクトル確定モデルの第1確定サブモデルに入力して、前記第1確定サブモデルから出力されたベクトルを得、
前記出力されたベクトルと、前記トリプルシーケンスとを前記ベクトル確定モデルの第2確定サブモデルに入力して、前記第2確定サブモデルから出力された該候補実体の実体埋め込みベクトルを得るように構成される、
実体リンキング装置。 - 前記実体言及確定ユニットは、
対象テキストを、予めトレーニングされた言語認識モデルに入力して、前記対象テキストのテキスト埋め込みベクトル及び関連特徴ベクトルを得るように構成されるベクトル確定モジュールであって、であって、前記テキスト埋め込みベクトルは、前記対象テキストにおける各文字の埋め込みベクトルを有し、前記関連特徴ベクトルは、各文字の品詞又は各文字が実体に属する確率を表す、モジュールと、
前記テキスト埋め込みベクトル及び前記関連特徴ベクトルを融合して、融合ベクトルを取得するように構成されるベクトル融合モジュールと、
前記融合ベクトルを所定の分類関数に入力して、前記少なくとも1つの実体言及を得るように構成される実体言及確定モジュールと、を備える請求項9に記載の装置。 - 前記実体言及確定モジュールはさらに、
前記融合ベクトルに対して注意強化を行い、強化ベクトルを取得し、
前記分類関数により、前記強化ベクトルに対して分類を2回行い、それぞれ各実体言及の先頭位置と末尾位置を得、
得られた先頭位置と末尾位置に基づいて、各実体言及を確定するように構成される請求項10に記載の装置。 - 前記付加情報確定ユニットは、
各候補実体に対して、該候補実体の少なくとも1つの記述テキストを取得し、各記述テキストを接続して、該候補実体の参照テキストを取得するように構成される参照テキスト確定モジュールを備える、請求項9に記載の装置。 - 前記付加特徴情報は、少なくとも1つの上位コンセプトと上位コンセプトのそれぞれに対応する確率を含み、及び
前記付加情報確定ユニットは、
各候補実体に対して、該候補実体及び予め設定されたコンセプト予測モデルに基づいて、該候補実体の少なくとも1つの上位コンセプトと上位コンセプトのそれぞれに対応する確率を確定し、確率シーケンスを取得するように構成されるコンセプト予測モジュールを備える、
請求項9に記載の装置。 - 前記実体リンキング確定ユニットは、
前記対象テキストの第1埋め込みベクトル、前記対象テキストの第2埋め込みベクトル、各前記参照テキストの第1埋め込みベクトルおよび各前記参照テキストの第2埋め込みベクトルをそれぞれ確定するように構成される埋め込みベクトル確定モジュールであって、前記第1埋め込みベクトル及び前記第2埋め込みベクトルは、それぞれ、アルゴリズムの異なるベクトル確定モジュールにより得られた、モジュールと、
前記対象テキストの第1埋め込みベクトル、前記対象テキストの第2埋め込みベクトル、各前記参照テキストの第1埋め込みベクトル、各前記参照テキストの第2埋め込みベクトル、各前記付加特徴情報に基づいて、前記前記候補実体から実体リンキング結果を特定するように構成される実体リンキング確定モジュールと、を備える請求項9に記載の装置。 - 前記埋め込みベクトル確定モジュールはさらに、
前記対象テキストの単語埋め込みベクトル、前記対象テキストの文字埋め込みベクトル、各前記参照テキストの単語埋め込みベクトルおよび各前記参照テキストの文字埋め込みベクトルをそれぞれ確定し、
前記対象テキストの単語埋め込みベクトル、前記対象テキストの文字埋め込みベクトル及び第1事前設定ベクトル確定モデルに基づいて、前記対象テキストの第1埋め込みベクトルを確定し、
前記対象テキスト及び第2事前設定ベクトル確定モデルに基づいて、前記対象テキストの第2埋め込みベクトルを確定し、
各参照テキストに対して、該参照テキストの単語埋め込みベクトル、該参照テキストの文字埋め込みベクトル及び前記第1事前設定ベクトル確定モデルに基づいて、該参照テキストの第1埋め込みベクトルを確定し、該参照テキスト及び前記第2事前設定ベクトル確定モデルに基づいて、該参照テキストの第2埋め込みベクトルを確定するように構成される請求項14に記載の装置。 - 前記実体リンキング確定モジュールはさらに、
各参照テキストに対して、該参照テキストの第1埋め込みベクトル、該参照テキストの第2埋め込みベクトル及び該参照テキストに対応する候補実体の付加特徴情報を接続して、第1接続ベクトルを取得し、
前記対象テキストの第1埋め込みベクトル、前記対象テキストの第2埋め込みベクトル及び各第1接続ベクトルを接続して、第2接続ベクトルを取得し、
各前記第1接続ベクトル、前記第2接続ベクトル及び予め設定された分類モデルに基づいて、各前記候補実体と前記実体言及とのリンキング確率を確定するように構成される請求項14に記載の装置。 - 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続される記憶装置とを備えており、
前記記憶装置に、前記少なくとも1つのプロセッサにより実行可能な指令が格納され、前記指令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~8のいずれか一項に記載の方法が実行される電子機器。 - コンピュータ指令が格納される非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに請求項1~8のいずれか一項に記載の方法を実行させることに用いられる非一時的なコンピュータ可読記憶媒体。 - プロセッサにより実行されると、請求項1~8のいずれか一項に記載の方法が実行される、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010326675.0 | 2020-04-23 | ||
CN202010326675.0A CN111523326B (zh) | 2020-04-23 | 2020-04-23 | 实体链指方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021168124A JP2021168124A (ja) | 2021-10-21 |
JP7398402B2 true JP7398402B2 (ja) | 2023-12-14 |
Family
ID=71903467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021052044A Active JP7398402B2 (ja) | 2020-04-23 | 2021-03-25 | 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11704492B2 (ja) |
EP (1) | EP3859559A3 (ja) |
JP (1) | JP7398402B2 (ja) |
KR (1) | KR102504699B1 (ja) |
CN (1) | CN111523326B (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931509A (zh) * | 2020-08-28 | 2020-11-13 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN112257443B (zh) * | 2020-09-30 | 2024-04-02 | 华泰证券股份有限公司 | 一种结合知识库的基于mrc的公司实体消歧方法 |
CN112307752A (zh) * | 2020-10-30 | 2021-02-02 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112464669B (zh) * | 2020-12-07 | 2024-02-09 | 宁波深擎信息科技有限公司 | 股票实体词消歧方法、计算机设备及存储介质 |
CN112989235B (zh) * | 2021-03-09 | 2023-08-01 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN113033205B (zh) * | 2021-03-24 | 2023-07-25 | 北京百度网讯科技有限公司 | 实体链接的方法、装置、设备以及存储介质 |
CN113204685A (zh) * | 2021-04-25 | 2021-08-03 | Oppo广东移动通信有限公司 | 资源信息获取方法及装置、可读存储介质、电子设备 |
CN113220900B (zh) * | 2021-05-10 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 实体消歧模型的建模方法和实体消歧预测方法 |
CN113505587B (zh) * | 2021-06-23 | 2024-04-09 | 科大讯飞华南人工智能研究院(广州)有限公司 | 实体抽取方法及相关装置、设备和存储介质 |
CN113609291A (zh) * | 2021-07-27 | 2021-11-05 | 科大讯飞(苏州)科技有限公司 | 实体分类方法、装置、电子设备和存储介质 |
US11842153B2 (en) * | 2021-07-28 | 2023-12-12 | Microsoft Technology Licensing, Llc | Computing system for auto-identification of secondary insights using reverse extraction |
CN113626613B (zh) * | 2021-08-18 | 2022-07-05 | 中山大学附属第一医院 | 基于融入知识图谱子图信息及实体信息的实体链接方法 |
CN114048736A (zh) * | 2021-10-21 | 2022-02-15 | 盐城金堤科技有限公司 | 执行主体的提取方法、装置、存储介质和电子设备 |
CN114218404A (zh) * | 2021-12-29 | 2022-03-22 | 北京百度网讯科技有限公司 | 内容检索方法、检索库的构建方法、装置和设备 |
CN114021572B (zh) * | 2022-01-05 | 2022-03-22 | 苏州浪潮智能科技有限公司 | 一种自然语言处理方法、装置、设备及可读存储介质 |
CN114647739B (zh) * | 2022-02-25 | 2023-02-28 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN115169326A (zh) * | 2022-04-15 | 2022-10-11 | 山西长河科技股份有限公司 | 一种中文关系抽取方法、装置、终端及存储介质 |
CN115982352B (zh) * | 2022-12-12 | 2024-04-02 | 北京百度网讯科技有限公司 | 文本分类方法、装置以及设备 |
CN116127334A (zh) * | 2023-02-22 | 2023-05-16 | 佛山科学技术学院 | 一种半结构化文本匹配方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262412A1 (en) | 2007-10-17 | 2017-09-14 | Vcvc Iii Llc | Nlp-based entity recognition and disambiguation |
US20180232443A1 (en) | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
JP2018180866A (ja) | 2017-04-11 | 2018-11-15 | 富士通株式会社 | 判別方法、判別プログラム及び判別装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108569A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体 |
US8595245B2 (en) * | 2006-07-26 | 2013-11-26 | Xerox Corporation | Reference resolution for text enrichment and normalization in mining mixed data |
WO2016210203A1 (en) * | 2015-06-26 | 2016-12-29 | Microsoft Technology Licensing, Llc | Learning entity and word embeddings for entity disambiguation |
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与系统 |
CN106940702A (zh) * | 2016-01-05 | 2017-07-11 | 富士通株式会社 | 连接短文本中实体提及与语义知识库中实体的方法和设备 |
CN107092605B (zh) * | 2016-02-18 | 2019-12-31 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN105976056A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向rnn的信息提取系统 |
US11907858B2 (en) * | 2017-02-06 | 2024-02-20 | Yahoo Assets Llc | Entity disambiguation |
CN108280061B (zh) * | 2018-01-17 | 2021-10-26 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN110569496B (zh) * | 2018-06-06 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置及存储介质 |
CN110147421B (zh) * | 2019-05-10 | 2022-06-21 | 腾讯科技(深圳)有限公司 | 一种目标实体链接方法、装置、设备及存储介质 |
CN110275966B (zh) * | 2019-07-01 | 2021-10-01 | 科大讯飞(苏州)科技有限公司 | 一种知识抽取方法及装置 |
CN111428443B (zh) * | 2020-04-15 | 2022-09-13 | 中国电子科技网络信息安全有限公司 | 一种基于实体上下文语义交互的实体链接方法 |
-
2020
- 2020-04-23 CN CN202010326675.0A patent/CN111523326B/zh active Active
-
2021
- 2021-03-24 KR KR1020210038105A patent/KR102504699B1/ko active IP Right Grant
- 2021-03-25 JP JP2021052044A patent/JP7398402B2/ja active Active
- 2021-03-26 US US17/213,927 patent/US11704492B2/en active Active
- 2021-03-29 EP EP21165606.1A patent/EP3859559A3/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262412A1 (en) | 2007-10-17 | 2017-09-14 | Vcvc Iii Llc | Nlp-based entity recognition and disambiguation |
US20180232443A1 (en) | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
JP2018180866A (ja) | 2017-04-11 | 2018-11-15 | 富士通株式会社 | 判別方法、判別プログラム及び判別装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111523326A (zh) | 2020-08-11 |
KR102504699B1 (ko) | 2023-02-27 |
US20210216716A1 (en) | 2021-07-15 |
US11704492B2 (en) | 2023-07-18 |
KR20210040319A (ko) | 2021-04-13 |
CN111523326B (zh) | 2023-03-17 |
JP2021168124A (ja) | 2021-10-21 |
EP3859559A3 (en) | 2021-10-20 |
EP3859559A2 (en) | 2021-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7398402B2 (ja) | 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN112507715B (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
JP7112536B2 (ja) | テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム | |
KR102451496B1 (ko) | 텍스트 주제 생성 방법, 장치 및 전자기기 | |
JP7108675B2 (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP2021190087A (ja) | テキスト認識処理方法、装置、電子機器及び記憶媒体 | |
JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
KR20210075825A (ko) | 시맨틱 표현 모델의 처리 방법, 장치, 전자 기기 및 저장 매체 | |
KR20210152924A (ko) | 엔티티 연결 방법, 장치, 기기 및 저장 매체 | |
US11403468B2 (en) | Method and apparatus for generating vector representation of text, and related computer device | |
CN112000792A (zh) | 自然灾害事件的抽取方法、装置、设备以及存储介质 | |
KR20220010436A (ko) | 다국어 시멘틱 표현 모델의 훈련 방법, 장치, 전자 기기 및 기록 매체 | |
JP2022013600A (ja) | イベント関係の生成方法、装置、電子機器及び記憶媒体 | |
US11321370B2 (en) | Method for generating question answering robot and computer device | |
JP2021108098A (ja) | レビュー情報の処理方法、装置、コンピュータ機器及び媒体 | |
CN114444462B (zh) | 模型训练方法及人机交互方法、装置 | |
CN112329429B (zh) | 文本相似度学习方法、装置、设备以及存储介质 | |
CN111651988B (zh) | 用于训练模型的方法、装置、设备以及存储介质 | |
CN112487815B (zh) | 核心实体抽取方法、装置以及电子设备 | |
US20210081803A1 (en) | On-Demand Knowledge Resource Management | |
JP2022020056A (ja) | 音声認識方法、装置、電子機器及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7398402 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |