JP2022013602A - テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 - Google Patents
テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2022013602A JP2022013602A JP2020217680A JP2020217680A JP2022013602A JP 2022013602 A JP2022013602 A JP 2022013602A JP 2020217680 A JP2020217680 A JP 2020217680A JP 2020217680 A JP2020217680 A JP 2020217680A JP 2022013602 A JP2022013602 A JP 2022013602A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- trigger word
- labeling
- character
- input text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 308
- 238000002372 labelling Methods 0.000 claims description 138
- 239000013598 vector Substances 0.000 claims description 112
- 230000015654 memory Effects 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 20
- 230000007704 transition Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 abstract description 8
- 238000012549 training Methods 0.000 description 8
- 239000013604 expression vector Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 240000006413 Prunus persica var. persica Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
入力テキストを取得するステップと、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップと、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップと、前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、を含む。
入力テキストを取得するための取得モジュールと、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するためのトリガーワード抽出モジュールと、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するための論元抽出モジュールと、前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するための決定モジュールと、を含む。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが本出願のテキスト中のイベント抽出方法を実行する。
ステップ101:入力テキストを取得する。
ステップ201:トリガーワード抽出結果に基づいて、入力テキスト中のトリガーワードを決定する。
ステップ301:入力テキストをワード分割して、入力テキストの字シーケンスを取得する。
ステップ401:第1の意味特徴ベクトルシーケンスに基づいて、各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定する。
ステップ501:入力テキストをワード分割して、入力テキストの字シーケンスを取得する。
ステップ601:第2の意味特徴ベクトルシーケンスに基づいて、各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定する。
まず、トリガーワード抽出モデルの入力レイヤは、入力テキストの語彙特徴ベクトル(Token Embedding)、上下文の特徴ベクトル(Segment Embedding)及び位置特徴ベクトル(Position Embedding)を構築し、入力テキストの語彙特徴ベクトル、上下文の特徴ベクトル及び位置特徴ベクトルを加算処理し、取得された融合特徴ベクトルを加算処理する。
次いで、融合特徴ベクトルを第1のERNIEモデルに入力して、予めトレーニングされた出力層ベクトルを計算して取得する。
そして、第1のERNIEモデルにおける出力層ベクトルを第1のCRFネットワークに入力して、トリガーワードラベリングシーケンスを取得する。
ここで、図7でAとラベリングされた部分は、入力テキスト「李栄浩は楊丞琳に求婚した」に対応するトリガーワードラベリング結果である。
最後に、トリガーワードラベリングシーケンスに基づいて、入力テキストにおけるトリガーワードは「求婚」であることを決定することができる。
まず、センテンス入力モデルは、語彙特徴(Token Embedding)、上下文の特徴(Segment Embedding)、位置特徴(Position Embedding)及びトリガーワード特徴が含まれる特徴を構築し、シーケンスラベリングに基づくトリガーワード抽出モデルで予測して取得されたトリガーワードを特徴として追加し、追加方式は、当該位置の語彙はトリガーワードとして識別される場合、1に設定し、識別されない場合、0に設定してから、ベクトルembeddingの形式に変換する。
次いで、上記4種類の特徴ベクトルをベクトル加算処理して、融合特徴ベクトルを取得し、融合特徴ベクトルを第2のERNIEモデルに入力して、予めトレーニングされた出力層ベクトルを計算して取得する。
そして、第2のERNIEモデルの出力層ベクトルを第2のcrfネットワークに入力して、論元ラベリング結果を取得する。
最後に、論元ラベリング結果に基づいて、入力テキストにおける論元を決定する。
これにより、深層学習のイベント抽出方式に完全に基づいて、イベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
取得モジュール110は、入力テキストを取得することに用いられる。
トリガーワード抽出モジュール120は、入力テキストをトリガーワード抽出モデルに入力して、入力テキストのトリガーワード抽出結果を取得することに用いられる。
論元抽出モジュール130は、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得することに用いられる。
決定モジュール140は、トリガーワード抽出結果及び論元抽出結果に基づいて、入力テキストのイベント抽出結果を決定することに用いられる。
トリガーワード抽出結果に基づいて、入力テキスト中のトリガーワードを決定するための第1の決定サブモジュール141と、
トリガーワードに基づいて、トリガーワードが属するイベントタイプを決定するための第2の決定サブモジュール142と、
論元抽出結果に基づいて、入力テキスト中の論元を決定するための第3の決定サブモジュール143と、
イベントタイプに基づいて、論元がイベントタイプで属する論元役割を決定するための第4の決定サブモジュール144と、
トリガーワード、イベントタイプ、論元及び論元役割に基づいて、入力テキストのイベント抽出結果を決定するための第5の決定サブモジュール145と、を含むことができる。
入力テキストをワード分割して、入力テキストの字シーケンスを取得するための第1の字分割サブモジュール121と、
字シーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得するための第1の意味特徴表現サブモジュール122と、
第1の意味特徴ベクトルシーケンスを第1のシーケンスラベリングネットワークに入力して、字シーケンスのトリガーワードラベリングシーケンスを取得するための第1のラベリングサブモジュール123と、
トリガーワードラベリングシーケンスに基づいて、入力テキストのトリガーワード抽出結果を決定するための第6の結果サブモジュール124と、を含む。
第1の意味特徴ベクトルシーケンスに基づいて、各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するための第1の決定ユニット1231と、
第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するための第1の取得ユニット1232と、
第1のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するための第2の決定ユニット1233と、
複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを字シーケンスのトリガーワードラベリングシーケンスとして取得するための第2の取得ユニット1234と、を含む。
入力テキストをワード分割して、入力テキストの字シーケンスを取得するための第2の字分割サブモジュール131と、
トリガーワード抽出結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するための第7の決定サブモジュール132と、
字シーケンスに基づいて、字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するための第8の決定サブモジュール133と、
テキスト特徴ベクトルシーケンスとトリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するための融合サブモジュール134と、
融合特徴ベクトルシーケンスを第2の予めトレーニングされた言語モデルに入力して、字シーケンスの第2の意味特徴ベクトルシーケンスを取得するための第2の意味特徴表現サブモジュール135と、
第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、字シーケンスの論元ラベリングシーケンスを取得するための第2のラベリングサブモジュール136と、
論元ラベリングシーケンスに基づいて、入力テキストの論元を決定するための第9の決定サブモジュール137と、を含む。
第2の意味特徴ベクトルシーケンスに基づいて、各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第3の決定ユニット1361と、
第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するための第3の取得ユニット1362と、
第2のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するための第4の決定ユニット1363と、
複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを字シーケンスの論元ラベリングシーケンスとして取得するための第4の取得モジュール1364と、を含むことができる。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記テキスト中のイベント抽出方法が実行される。
Claims (17)
- テキスト中のイベント抽出方法であって、
入力テキストを取得するステップと、
前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップと、
前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップと、
前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、
を含む、
ことを特徴とするテキスト中のイベント抽出方法。 - 前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップは、
前記トリガーワード抽出結果に基づいて、前記入力テキスト中のトリガーワードを決定するステップと、
前記トリガーワードに基づいて、前記トリガーワードが属するイベントタイプを決定するステップと、
前記論元抽出結果に基づいて、前記入力テキスト中の論元を決定するステップと、
前記イベントタイプに基づいて、前記論元が前記イベントタイプで属する論元役割を決定するステップと、
前記トリガーワード、前記イベントタイプ、前記論元及び前記論元役割に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、
を含む、
ことを特徴とする請求項1に記載の方法。 - 前記トリガーワード抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含み、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップは、
前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するステップと、
前記字シーケンスを第1の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第1の意味特徴ベクトルシーケンスを取得するステップと、
前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するステップと、
前記トリガーワードラベリングシーケンスに基づいて、前記入力テキストのトリガーワード抽出結果を決定するステップと、
を含む、
ことを特徴とする請求項1に記載の方法。 - 前記第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含み、前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するステップは、
前記第1の意味特徴ベクトルシーケンスに基づいて、前記各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するステップと、
前記第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するステップと、
前記第1のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するステップと、
前記複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを前記字シーケンスのトリガーワードラベリングシーケンスとして取得するステップと、
を含む、
ことを特徴とする請求項3に記載の方法。 - 前記論元抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含み、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップは、
前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するステップと、
前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップと、
前記字シーケンスに基づいて、前記字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するステップと、
前記テキスト特徴ベクトルシーケンスと前記トリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するステップと、
前記融合特徴ベクトルシーケンスを前記第2の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第2の意味特徴ベクトルシーケンスを取得するステップと、
前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するステップと、
前記論元ラベリングシーケンスに基づいて、前記入力テキストの論元を決定するステップと、
を含む、
ことを特徴とする請求項1に記載の方法。 - 前記第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含み、前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するステップは、
前記第2の意味特徴ベクトルシーケンスに基づいて、前記各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するステップと、
前記第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するステップと、
前記第2のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するステップと、
前記複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを前記字シーケンスの論元ラベリングシーケンスとして取得するステップと、
を含む、
ことを特徴とする請求項5に記載の方法。 - 前記トリガーワード抽出結果は、前記入力テキストにおける各字のトリガーワード識別結果を含み、前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップは、
前記各字のトリガーワード識別結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップを含む、
ことを特徴とする請求項5に記載の方法。 - テキスト中のイベント抽出装置であって、
入力テキストを取得するための取得モジュールと、
前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するためのトリガーワード抽出モジュールと、
前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するための論元抽出モジュールと、
前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するための決定モジュールと、
を含む、
ことを特徴とするテキスト中のイベント抽出装置。 - 前記決定モジュールは、
前記トリガーワード抽出結果に基づいて、前記入力テキスト中のトリガーワードを決定するための第1の決定サブモジュールと、
前記トリガーワードに基づいて、前記トリガーワードが属するイベントタイプを決定するための第2の決定サブモジュールと、
前記論元抽出結果に基づいて、前記入力テキスト中の論元を決定するための第3の決定サブモジュールと、
前記イベントタイプに基づいて、前記論元が前記イベントタイプで属する論元役割を決定するための第4の決定サブモジュールと、
前記トリガーワード、前記イベントタイプ、前記論元及び前記論元役割に基づいて、前記入力テキストのイベント抽出結果を決定するための第5の決定サブモジュールと、
を含む、
ことを特徴とする請求項8に記載の装置。 - 前記トリガーワード抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含み、前記トリガーワード抽出モジュールは、
前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するための第1の字分割サブモジュールと、
前記字シーケンスを第1の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第1の意味特徴ベクトルシーケンスを取得するための第1の意味特徴表現サブモジュールと、
前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するための第1のラベリングサブモジュールと、
前記トリガーワードラベリングシーケンスに基づいて、前記入力テキストのトリガーワード抽出結果を決定するための第6の結果サブモジュールと、
を含む、
ことを特徴とする請求項8に記載の装置。 - 前記第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含み、前記第1のラベリングサブモジュールは、
前記第1の意味特徴ベクトルシーケンスに基づいて、前記各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するための第1の決定ユニットと、
前記第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するための第1の取得ユニットと、
前記第1のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するための第2の決定ユニットと、
前記複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを前記字シーケンスのトリガーワードラベリングシーケンスとして取得するための第2の取得ユニットと、
を含む、
ことを特徴とする請求項10に記載の装置。 - 前記論元抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含み、前記論元抽出モジュールは、
前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するための第2の字分割サブモジュールと、
前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するための第7の決定サブモジュールと、
前記字シーケンスに基づいて、前記字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するための第8の決定サブモジュールと、
前記テキスト特徴ベクトルシーケンスと前記トリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するための融合サブモジュールと、
前記融合特徴ベクトルシーケンスを前記第2の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第2の意味特徴ベクトルシーケンスを取得するための第2の意味特徴表現サブモジュールと、
前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するための第2のラベリングサブモジュールと、
前記論元ラベリングシーケンスに基づいて、前記入力テキストの論元を決定するための第9の決定サブモジュールと、
を含む、
ことを特徴とする請求項8に記載の装置。 - 前記第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含み、前記第2のラベリングサブモジュールは、
前記第2の意味特徴ベクトルシーケンスに基づいて、前記各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第3の決定ユニットと、
前記第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するための第3の取得ユニットと、
前記第2のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するための第4の決定ユニットと、
前記複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを前記字シーケンスの論元ラベリングシーケンスとして取得するための第4の取得モジュールと、
を含む、
ことを特徴とする請求項12に記載の装置。 - 前記トリガーワード抽出結果は、前記入力テキストにおける各字のトリガーワード識別結果を含み、前記第7の決定サブモジュールは、具体的に、
前記各字のトリガーワード識別結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定することに用いられる、
ことを特徴とする請求項12に記載の装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項1~7のいずれかに記載の方法を実行する、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれかに記載の方法を実行させる、
ことを特徴とするコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1~7のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608577.6 | 2020-06-30 | ||
CN202010608577.6A CN111967268B (zh) | 2020-06-30 | 2020-06-30 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022013602A true JP2022013602A (ja) | 2022-01-18 |
JP7481251B2 JP7481251B2 (ja) | 2024-05-10 |
Family
ID=73361071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020217680A Active JP7481251B2 (ja) | 2020-06-30 | 2020-12-25 | テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11625539B2 (ja) |
EP (1) | EP3933660A1 (ja) |
JP (1) | JP7481251B2 (ja) |
KR (1) | KR102577512B1 (ja) |
CN (1) | CN111967268B (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507700A (zh) * | 2020-11-26 | 2021-03-16 | 北京百度网讯科技有限公司 | 事件抽取方法、装置、电子设备及存储介质 |
CN112487826A (zh) * | 2020-11-30 | 2021-03-12 | 北京百度网讯科技有限公司 | 信息抽取方法、抽取模型训练方法、装置以及电子设备 |
CN112560460B (zh) * | 2020-12-08 | 2022-02-25 | 北京百度网讯科技有限公司 | 抽取结构化信息的方法、装置、电子设备和可读存储介质 |
CN112612885A (zh) * | 2020-12-18 | 2021-04-06 | 成都三零凯天通信实业有限公司 | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 |
CN115151903A (zh) * | 2020-12-25 | 2022-10-04 | 京东方科技集团股份有限公司 | 文本抽取方法及装置、计算机可读存储介质以及电子设备 |
CN112632223B (zh) * | 2020-12-29 | 2023-01-20 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112733507B (zh) * | 2021-01-16 | 2023-06-09 | 江苏网进科技股份有限公司 | 一种自动生成法律文本标记事件的方法 |
CN112860852B (zh) * | 2021-01-26 | 2024-03-08 | 北京金堤科技有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN112817561B (zh) * | 2021-02-02 | 2023-08-18 | 山东省计算中心(国家超级计算济南中心) | 软件需求文档的事务类功能点结构化抽取方法及系统 |
CN112906391A (zh) * | 2021-03-16 | 2021-06-04 | 合肥讯飞数码科技有限公司 | 元事件抽取方法、装置、电子设备和存储介质 |
CN112861527A (zh) * | 2021-03-17 | 2021-05-28 | 合肥讯飞数码科技有限公司 | 一种事件抽取方法、装置、设备及存储介质 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113064983B (zh) * | 2021-04-23 | 2024-04-26 | 深圳壹账通智能科技有限公司 | 语义检测方法、装置、计算机设备及存储介质 |
CN113255322B (zh) * | 2021-06-10 | 2021-10-01 | 深圳追一科技有限公司 | 事件抽取方法、装置、计算机设备和计算机可读存储介质 |
CN113468889A (zh) * | 2021-06-29 | 2021-10-01 | 上海犀语科技有限公司 | 一种基于bert预训练模型信息提取的方法和装置 |
CN113407610B (zh) * | 2021-06-30 | 2023-10-24 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备和可读存储介质 |
CN113722461B (zh) * | 2021-09-02 | 2022-05-06 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113779182B (zh) * | 2021-11-12 | 2022-02-15 | 航天宏康智能科技(北京)有限公司 | 从文本数据抽取事件的方法及装置 |
CN113779227B (zh) * | 2021-11-12 | 2022-01-25 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
CN114936559B (zh) * | 2022-01-05 | 2023-04-07 | 华能贵诚信托有限公司 | 一种基于多模型融合的多级事件抽取方法和抽取系统 |
CN114168716B (zh) * | 2022-02-11 | 2022-05-24 | 华南理工大学 | 基于深度学习的工程造价自动抽取和分析方法及装置 |
CN114239536B (zh) * | 2022-02-22 | 2022-06-21 | 北京澜舟科技有限公司 | 一种事件抽取方法、系统及计算机可读存储介质 |
CN114298053B (zh) * | 2022-03-10 | 2022-05-24 | 中国科学院自动化研究所 | 一种基于特征和注意力机制融合的事件联合抽取系统 |
CN114297394B (zh) * | 2022-03-11 | 2022-07-01 | 中国科学院自动化研究所 | 对文本中的事件论元进行抽取的方法和电子设备 |
CN114741473B (zh) * | 2022-04-17 | 2023-04-18 | 中国人民解放军国防科技大学 | 一种基于多任务学习的事件抽取方法 |
CN114610866B (zh) * | 2022-05-12 | 2023-05-05 | 湖南警察学院 | 基于全局事件类型的序列到序列联合事件抽取方法和系统 |
CN114841162B (zh) * | 2022-05-20 | 2024-01-05 | 中国电信股份有限公司 | 文本处理方法、装置、设备及介质 |
CN115048486A (zh) * | 2022-05-24 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 事件抽取方法、装置、计算机程序产品、存储介质及设备 |
CN114861677B (zh) * | 2022-05-30 | 2023-04-18 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备以及存储介质 |
CN115238045B (zh) * | 2022-09-21 | 2023-01-24 | 北京澜舟科技有限公司 | 一种生成式事件论元抽取方法、系统及存储介质 |
CN115759036B (zh) * | 2022-10-28 | 2023-08-04 | 中国矿业大学(北京) | 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 |
CN116205220B (zh) * | 2023-04-23 | 2024-02-06 | 北京邮电大学 | 一种触发词和论元的抽取方法、系统、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019212292A (ja) * | 2018-06-01 | 2019-12-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | イベント発見方法、装置、機器及びプログラム |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9501467B2 (en) * | 2007-12-21 | 2016-11-22 | Thomson Reuters Global Resources | Systems, methods, software and interfaces for entity extraction and resolution and tagging |
KR100987214B1 (ko) * | 2008-09-11 | 2010-10-12 | 고려대학교 산학협력단 | 논항 분석 장치, 논항 분석 방법 및 논항 분석 기반 정보 제공 시스템 |
US8606564B2 (en) * | 2010-11-01 | 2013-12-10 | Yahoo! Inc. | Extracting rich temporal context for business entities and events |
CN102298635B (zh) * | 2011-09-13 | 2013-09-04 | 苏州大学 | 事件信息融合方法和系统 |
CN104169909B (zh) | 2012-06-25 | 2016-10-05 | 株式会社东芝 | 上下文解析装置及上下文解析方法 |
CN104598510A (zh) * | 2014-10-16 | 2015-05-06 | 苏州大学 | 一种事件触发词识别方法及装置 |
CN104572958B (zh) * | 2014-12-29 | 2018-10-02 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
KR101646159B1 (ko) | 2015-04-23 | 2016-08-05 | 한림대학교 산학협력단 | Srl 기반의 문장 분석 방법 및 장치 |
US20170075904A1 (en) * | 2015-09-16 | 2017-03-16 | Edgetide Llc | System and method of extracting linked node graph data structures from unstructured content |
KR101831058B1 (ko) * | 2016-01-11 | 2018-02-21 | 한국과학기술원 | 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 |
US20180061256A1 (en) * | 2016-01-25 | 2018-03-01 | Wespeke, Inc. | Automated digital media content extraction for digital lesson generation |
US9812028B1 (en) * | 2016-05-04 | 2017-11-07 | Wespeke, Inc. | Automated generation and presentation of lessons via digital media content extraction |
CN106445999A (zh) * | 2016-07-27 | 2017-02-22 | 天津海量信息技术股份有限公司 | 一种基于事件要素的事件抽取方法及系统 |
CN106776523B (zh) * | 2017-01-22 | 2020-04-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的新闻速报生成方法及装置 |
CN108304365A (zh) * | 2017-02-23 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 关键词提取方法及装置 |
CN107122416B (zh) * | 2017-03-31 | 2021-07-06 | 北京大学 | 一种中文事件抽取方法 |
EP3407209A1 (en) * | 2017-05-22 | 2018-11-28 | Fujitsu Limited | Apparatus and method for extracting and storing events from a plurality of heterogeneous sources |
JP6907703B2 (ja) | 2017-05-24 | 2021-07-21 | 富士通株式会社 | 解析装置、解析方法、および解析プログラム |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN107220352B (zh) * | 2017-05-31 | 2020-12-08 | 北京百度网讯科技有限公司 | 基于人工智能构建评论图谱的方法和装置 |
JP2018206263A (ja) | 2017-06-08 | 2018-12-27 | 日本電信電話株式会社 | 述語項構造モデル生成装置、述語項構造解析装置、方法、及びプログラム |
CN108897989B (zh) * | 2018-06-06 | 2020-05-19 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN108829801B (zh) * | 2018-06-06 | 2020-11-20 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN109582949B (zh) * | 2018-09-14 | 2022-11-22 | 创新先进技术有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110019843B (zh) * | 2018-09-30 | 2020-11-06 | 北京国双科技有限公司 | 知识图谱的处理方法及装置 |
RU2721190C1 (ru) * | 2018-12-25 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами |
CN110134720B (zh) * | 2019-05-17 | 2021-02-09 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
US11144721B2 (en) * | 2019-05-31 | 2021-10-12 | Accenture Global Solutions Limited | System and method for transforming unstructured text into structured form |
CN110489520B (zh) * | 2019-07-08 | 2023-05-16 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN110941692B (zh) * | 2019-09-28 | 2022-07-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN111428049B (zh) * | 2020-03-20 | 2023-07-21 | 北京百度网讯科技有限公司 | 一种事件专题的生成方法、装置、设备和存储介质 |
US11687385B2 (en) * | 2020-05-21 | 2023-06-27 | International Business Machines Corporation | Unsupervised event extraction |
US11860684B2 (en) * | 2020-06-01 | 2024-01-02 | Asapp, Inc. | Few-shot named-entity recognition |
-
2020
- 2020-06-30 CN CN202010608577.6A patent/CN111967268B/zh active Active
- 2020-12-07 US US17/113,748 patent/US11625539B2/en active Active
- 2020-12-10 EP EP20213084.5A patent/EP3933660A1/en not_active Withdrawn
- 2020-12-24 KR KR1020200183500A patent/KR102577512B1/ko active IP Right Grant
- 2020-12-25 JP JP2020217680A patent/JP7481251B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019212292A (ja) * | 2018-06-01 | 2019-12-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | イベント発見方法、装置、機器及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20220002051A (ko) | 2022-01-06 |
KR102577512B1 (ko) | 2023-09-12 |
US11625539B2 (en) | 2023-04-11 |
CN111967268B (zh) | 2024-03-19 |
US20210406476A1 (en) | 2021-12-30 |
EP3933660A1 (en) | 2022-01-05 |
JP7481251B2 (ja) | 2024-05-10 |
CN111967268A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022013602A (ja) | テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 | |
KR102497945B1 (ko) | 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 | |
JP7228662B2 (ja) | イベント抽出方法、装置、電子機器及び記憶媒体 | |
KR102466399B1 (ko) | 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기 | |
EP3916611A1 (en) | Method, apparatus, computer program, and storage medium for training text generation model | |
KR20210092148A (ko) | 시계열 지식그래프 생성 방법, 장치, 기기 및 매체 | |
JP7194150B2 (ja) | ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器 | |
JP7264866B2 (ja) | イベント関係の生成方法、装置、電子機器及び記憶媒体 | |
JP7108675B2 (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP2021099886A (ja) | イベント引数抽出方法、装置及び電子デバイス | |
CN111259671B (zh) | 文本实体的语义描述处理方法、装置及设备 | |
EP3879427A2 (en) | Information extraction method, extraction model training method, apparatus and electronic device | |
KR102521765B1 (ko) | 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체 | |
JP7149993B2 (ja) | 感情分析モデルの事前トレーニング方法、装置及び電子機器 | |
JP2021184255A (ja) | 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム | |
US11216615B2 (en) | Method, device and storage medium for predicting punctuation in text | |
CN111144108A (zh) | 情感倾向性分析模型的建模方法、装置和电子设备 | |
CN111241838B (zh) | 文本实体的语义关系处理方法、装置及设备 | |
KR20210157342A (ko) | 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 | |
CN111950292A (zh) | 文本纠错模型的训练方法、文本纠错处理方法和装置 | |
JP2022028897A (ja) | 文章翻訳方法、装置、電子機器及び記憶媒体 | |
US11562150B2 (en) | Language generation method and apparatus, electronic device and storage medium | |
CN112269884B (zh) | 信息抽取方法、装置、设备及存储介质 | |
US20220028370A1 (en) | Method and apparatus for recognizing speech, electronic device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220608 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230113 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20230113 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230120 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20230124 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20230303 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20230314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240425 |