JP2022013602A - テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 - Google Patents

テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022013602A
JP2022013602A JP2020217680A JP2020217680A JP2022013602A JP 2022013602 A JP2022013602 A JP 2022013602A JP 2020217680 A JP2020217680 A JP 2020217680A JP 2020217680 A JP2020217680 A JP 2020217680A JP 2022013602 A JP2022013602 A JP 2022013602A
Authority
JP
Japan
Prior art keywords
sequence
trigger word
labeling
character
input text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020217680A
Other languages
English (en)
Other versions
JP7481251B2 (ja
Inventor
ルウ パン
Lu Pan
ユーグアン チェン
Yuguang Chen
ファーユアン リ
Fayuan Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022013602A publication Critical patent/JP2022013602A/ja
Application granted granted Critical
Publication of JP7481251B2 publication Critical patent/JP7481251B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】イベント抽出の構築コストを低減し、入力テキストのイベント抽出精度を向上可能なイベント抽出方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。【選択図】図1

Description

本出願は、人工知能技術分野に関し、具体的に知識グラフ、深層学習、自然言語処理技術分野に関し、特にテキスト中のイベント抽出方法、装置、電子機器及び記憶媒体に関する。
インターネットの普及と発展に伴い、ネットワーク中の情報規模は爆発的に増加しており、大量の自然言語文書から必要な情報をタイムリかつ正確に見つけることがますます差し迫っている。情報抽出技術(Information Extraction、IE)は、ルーズで構造化されていない通常のテキストから、指定されたタイプのエンティティ、関係、イベントなどの事実情報を抽出し、構造化データを出力する。ここで、イベント抽出(Event Extraction)は、情報抽出研究で最も困難なタスクの1つであり、主に、構造化されていない自然言語テキストから、イベントの種類、イベントの参加者、発生時間と場所などのイベントの基本情報を抽出し、構造化された形式で提示する方法を研究する。したがって、どのようにテキストからイベントを正確かつ迅速に抽出を行うかは、緊急に解決する必要がある技術的な問題である。
本出願の実施例は、テキスト中のイベント抽出のための方法、装置、電子機器及び記憶媒体を提供する。
本出願の一態様によれば、テキスト中のイベント抽出方法を提供し、
入力テキストを取得するステップと、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップと、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップと、前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、を含む。
本出願の別の態様によれば、テキスト中のイベント抽出装置を提供し、
入力テキストを取得するための取得モジュールと、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するためのトリガーワード抽出モジュールと、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するための論元抽出モジュールと、前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するための決定モジュールと、を含む。
本出願の別の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが本出願のテキスト中のイベント抽出方法を実行する。
本出願の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、前記コンピュータに本出願の実施例により開示された電子機器のテキスト中のイベント抽出方法を実行させる。 本出願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、第1の態様の実施例に記載のテキスト中のイベント抽出方法が実行される。
上記出願における一つの実施例は、以下のような利点または有益な効果を有する。入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
なお、発明の概要に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定することを意図するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するために使用されており、本出願の限定を構造するものではない。
本出願の第1の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。 本出願の第2の実施例に係るテキスト中のイベント抽出方法のフローチャートである。 本出願の第3の実施例に係るテキスト中のイベント抽出方法のフローチャートである。 本出願の第4の実施例に係るテキスト中のイベント抽出方法のフローチャートである。 本出願の第5の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。 本出願の第6の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。 本出願の第7の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。 本出願の第8の実施例により提供されるテキスト中のイベント抽出装置の概略構造図である。 本出願の第9の実施例により提供されるテキスト中のイベント抽出装置の概略構造図である。 本出願の実施例のテキスト中のイベント抽出方法を実現するための電子機器のブロック図である。
以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、図面を参照して本出願の実施例のテキスト中のイベント抽出方法、装置、電子機器及び記憶媒体を説明する。
図1は本出願の第1の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。
図1に示すように、当該テキスト中のイベント抽出方法は、以下のようなステップを含むことができる。
ステップ101:入力テキストを取得する。
ここで、なお、本実施例のテキスト中のイベント抽出方法の実行主体は、キスト中のイベント抽出装置であり、当該キスト中のイベント抽出装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、当該実施例におけるキスト中のイベント抽出装置は、電子機器に配置されることができ、本実施例における電子機器は、端末デバイスおよびサーバなどを含むことができ、当該実施例は、電子機器に限定されない。
ここで、本実施例における入力テキストの言語は、中国語、英語、またはその他の言語タイプであってもよく、本実施例は、入力テキストの言語タイプに具体的に限定されない。ここで、なお、本実施例は、入力テキストが中国語である入力テキストを例として説明する。
ここで、本実施例における入力テキストは、イベント抽出待ちテキストを指し、当該入力テキストは任意の領域のテキストであってもよく、例えば、入力テキストは「モモ会社が杭州に科学研究センターを設立した」であってもよいし、または、入力テキストは「グランドキャニオンコーポレーションは本日破産を宣言しました」であってもよいし、当該実施例は、入力テキストに具体的に限定されない。
ステップ102:入力テキストをトリガーワード抽出モデルに入力して、入力テキストのトリガーワード抽出結果を取得する。
本実施例において、入力テキストをトリガーワード抽出モデルに入力した後、トリガーワード抽出モデルは、当該入力テキスト中の文字によってコンテキスト特徴及び意味分析を行い、当該入力テキストの分析結果に基づいて、当該入力テキストからトリガーワード抽出結果を抽出する。
ここで、なお、本実施例におけるトリガーワード抽出モデルは、トレーニングデータに基づいて予め取得される。一つの可能的な実現方式をとして、トリガーワード抽出モデルをトレーニングするプロセスは、トレーニングデータを取得し、ここで、トレーニングデータはサンプルテキストとサンプルテキストのトリガーワードラベリング結果とを含み、サンプルテキストとサンプルテキストのトリガーワードラベリング結果に基づいて、初期のトリガーワード抽出モデルをトレーニングして、トリガーワード抽出モデルを取得する。
ここで、本実施例におけるトリガーワード抽出モデルは、入力レイヤ、ネットワークレイヤ、ラベリングレイヤ、および出力レイヤを含むことができ、本実施例のネットワークレイヤのネットワークは、ディープニューラルネットワークであってもよく、本実施例におけるラベリングレイヤは、ランダム条件付きフィールド(Conditional Random Field、CRF)ネットワークを含むことができる。
ステップ103:入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得する。
ここで、なお、本実施例における論元抽出モデルは、予めトレーニングされたものであり、論元抽出モデルをトレーニングする一つの可能的な実現方式は、トレーニングデータを取得し、ここで、トレーニングデータはサンプルテキストとサンプルテキストのトリガーワードラベリング結果と、サンプルテキストの論元ラベリング結果と、を含み、サンプルテキストとサンプルテキストのトリガーワードラベリング結果を初期の論元抽出モデルの入力として、サンプルテキストの論元ラベリング結果を初期の論元抽出モデルの出力として、初期の論元抽出モデルをトレーニングして、論元抽出モデルを取得する。
本実施例において、論元抽出モデルが入力テキスト及びトリガーワード抽出結果を取得した後、論元抽出モデル内の一つの可能的な処理方式は、入力テキストをワード分割し、当該入力テキストの字シーケンスを取得し、当該字シーケンスのテキスト特徴ベクトルシーケンスを決定し、トリガーワード抽出結果に基づいて、当該字シーケンスのトリガーワード特徴ベクトルシーケンスを決定し、そして、テキスト特徴ベクトルシーケンス及びトリガーワード特徴ベクトルシーケンスに基づいて、融合特徴ベクトルシーケンスを決定し、そして、論元抽出モデルにおけるネットワークレイヤは融合特徴ベクトルシーケンスに基づいて、当該字シーケンスの意味表現ベクトルシーケンスを決定し、そして、論元抽出モデルにおけるラベリングネットワークは、意味表現ベクトルシーケンスに基づいて、当該字シーケンスのラベリング結果を決定し、字シーケンスのラベリング結果に基づいて、当該入力テキストのトリガーワード抽出結果を取得する。
ステップ104:トリガーワード抽出結果及び論元抽出結果に基づいて、入力テキストのイベント抽出結果を決定する。
なお、関連技術でテキストからイベント抽出を行う際に、人工的に構築された特徴(例えば、人工的に構築されたルール及びテンプレート)に基づいてイベント抽出を行う方式と比較して、本実施例は、トリガーワード抽出モデル及び論元抽出モデルによって、入力テキストのイベント抽出を実現することができ、イベント抽出のパフォーマンスを効果的に向上させるだけでなく、イベント抽出の構築コストを低減し、人工的な特徴の構築は必要がない。
本出願の実施例のテキスト中のイベント抽出方法は、入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
ここで、なお、本実施例のイベント抽出方法の応用シーンはたくさんあり、例えば、イベント抽出結果を取得した後、構造化された形式でイベントを表示および表現することができ、大捜索およびFeedストリームのイベントコンテキストでイベントを表示して、ユーザがイベントをすばやく理解できるようにする。また例えば、本実施例のイベント抽出は、金融分野のシーンに適用することができ、会社のイベントを抽出することにより、効果的なリスクコントロールを行い、本実施例の応用シーンは上記の例の2つの応用シーンを限定しなく、当該実施例は、イベント抽出の応用シーンに限定されない。
本出願の一つの実施例において、入力テキスト中のイベント抽出結果を正確に決定するために、図2に示すように、本実施例のトリガーワード抽出結果及び論元抽出結果に基づいて、入力テキストのイベント抽出結果を決定するステップは、以下のステップを含む。
ステップ201:トリガーワード抽出結果に基づいて、入力テキスト中のトリガーワードを決定する。
本実施例におけるトリガーワード抽出結果は、各字のトリガーワード識別結果を含むことができる。対応的に、各字のトリガーワード識別結果に基づいて、入力テキスト中のトリガーワードを決定する。
例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、トリガーワード抽出結果によって、当該入力テキスト中のトリガーワードは、「求」はトリガーワードの冒頭として識別され、「婚」はトリガーワードの中間ワードとして識別されることを決定する。トリガーワード抽出結果に基づいて、「求婚」を入力テキスト中のトリガーワードとして決定する。
ステップ202:トリガーワードに基づいて、トリガーワードが属するイベントタイプを決定する。
具体的に、予め保存された各サンプルトリガーワードとイベントタイプの間の対応関係に基づいて、当該トリガーワードが属するイベントタイプを決定することができる。
ここで、なお、本実施例における入力テキスト中のトリガーワードは、1つまたは複数を含むことができる。
いくつかの実施例において、本実施例の複数のトリガーワードは、同じイベントタイプに対応してもよいし、または各トリガーワードはそれぞれ1つのイベントタイプに対応してもよいし、当該実施例はこれに限定されない。例えば、入力テキストに存在する2つのトリガーワードは「車の事故」、「追突」であり、トリガーワードとイベントタイプの対応関係に基づいて、この2つのトリガーワードに対応するイベントタイプは「交通事故」であることを決定することができる。例えば、入力テキストは2つのトリガーワードを含み、トリガーワード1は「暴露」であり、トリガーワード2は「離婚」であり、トリガーワード1に対応するイベントタイプは暴露イベントであり、トリガーワード2に対応するイベントタイプは離婚イベントであることを決定することができる。
また例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、トリガーワード抽出結果によって、当該入力テキスト中のトリガーワードは「求婚」であることを決定し、トリガーワード「求婚」に基づいて、当該トリガーワード「求婚」が属するイベントタイプは「求婚イベント」であることを決定する。
ステップ203:論元抽出結果に基づいて、入力テキスト中の論元を決定する。
例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、論元抽出結果は各字の論元識別結果を含むことができ、論元抽出結果は当該字が論元であり、または、当該字が論元ではないということであり、論元抽出結果に基づいて、入力テキスト中の論元は「張三三」及び「楊依依」であることを決定することができる。
ステップ204:イベントタイプに基づいて、論元がイベントタイプで属する論元役割を決定する。
上記の例に続いて、当該入力テキストのイベントタイプは「求婚イベント」であり、論元「張三三」が「求婚イベント」で属する論元役割は求婚者であることを決定し、論元「楊依依」が「求婚イベント」で属する論元役割は求婚相手であることを決定する。
ステップ205:トリガーワード、イベントタイプ、論元及び論元役割に基づいて、入力テキストのイベント抽出結果を決定する。
本実施例において、トリガーワード、イベントタイプ、論元及び論元役割を取得した後、トリガーワード、イベントタイプ、論元及び論元役割に基づいて、完全なイベント構造を取得することができ、入力テキストのイベント抽出結果を正確に決定することができ、さらに当該入力テキストのイベント抽出結果を正確に出力することができる。
本出願の一つの実施例において、入力テキストからトリガーワードを正確に抽出するために、本実施例におけるトリガーワード抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含むことができ、図3に示すように、本実施例のステップ102は、以下のステップを含むことができる。
ステップ301:入力テキストをワード分割して、入力テキストの字シーケンスを取得する。
ステップ302:字シーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得する。
具体的に、字シーケンスのテキスト特徴ベクトルシーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得する。
ここで、本実施例におけるテキスト特徴ベクトルは、字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、を含むことができる。
具体的に、字シーケンスの字特徴ベクトルシーケンスと、位置特徴ベクトルシーケンスと、コンテキスト特徴ベクトルシーケンスとを加算して、字シーケンスの融合特徴ベクトルシーケンスを取得し、融合特徴ベクトルシーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得する。
ここで、本実施例における第1の予めトレーニングされた言語モデル及び後続実施例における第2の予めトレーニングされた言語モデルは、BERT(Bidirectional Encoder Representantions from Transformers、変圧器に基づく双方向コーディング表現)モデル、ERNIE(Enhanced Representation from kNowledge IntEgration、知識増強意味表現モデル)などであり、当該実施例はこれに限定されない。
ステップ303:第1の意味特徴ベクトルシーケンスを第1のシーケンスラベリングネットワークに入力して、字シーケンスのトリガーワードラベリングシーケンスを取得する。
ステップ304:トリガーワードラベリングシーケンスに基づいて、入力テキストのトリガーワード抽出結果を決定する。
ここで、本実施例におけるラベリングモードは、任意のタイプのラベリングモードであってもよく、例えば、ラベリングモードはBI0モードである。BI0モードはテキストにおける各字をラベリングする。Bーtypeは現在の字がトリガーワードの1番目の字であり、トリガーワードでトリガーされたイベントタイプがtypeであることを示し、Iーtypeは現在の字がトリガーワードに位置し、トリガーワードでトリガーされたイベントタイプがtypeであることを示し、0は現在の字がトリガーワードにないことを示す。例えば、入力テキスト「張三三は楊依依に求婚した」に対応するトリガーワードラベリングシーケンスは、張/0、三/0、三/0、は/0、楊/0、依/0、依/0、に/0、求/B、婚/I、し/0、た/0であり、当該トリガーワードラベリングシーケンスに基づいて、入力テキストにおける「求婚」は入力テキスト中のトリガーワードであることを決定することができる。
本実施例は、字シーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの意味表現ベクトルシーケンスを取得し、シーケンスラベリングネットワークを組み合わせて意味表現ベクトルシーケンスを正確にラベリングして、字シーケンスのトリガーワードラベリングシーケンスを取得し、トリガーワードラベリングシーケンスを組み合わせて、入力テキストのトリガーワード抽出結果を正確に決定する。
本出願の一つの実施例において、抽出されたトリガーワードの正確性をさらに向上させるために、本実施例における第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含むことができ、図4に示すように、上記ステップ303は以下のステップを含むことができる。
ステップ401:第1の意味特徴ベクトルシーケンスに基づいて、各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定する。
ステップ402:第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得する。
ここで、第1のラベル遷移確率行列は、あるトリガーワードラベリングラベルが別のトリガーワードラベリングラベルに転送される確率を含む。
ステップ403:第1のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定する。
ステップ404:複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを字シーケンスのトリガーワードラベリングシーケンスとして取得する。
本出願の一つの実施例において、入力テキストから論元を抽出する正確性を向上させるために、本実施例における論元抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含むことができ、具体的に、第2の予めトレーニングされた言語モデルで出力された意味表現ベクトルシーケンスを組み合わせて、第2のシーケンスラベリングネットワークにより意味表現ベクトルシーケンスをラベルラベリングして、ラベルラベリング結果に基づいて、入力テキストにおける論元を正確に決定する。以下、図5を組み合わせて上記ステップ103の一つの可能的な実現方式を説明する。
図5に示すように、上記ステップ103は、以下のステップを含むことができる。
ステップ501:入力テキストをワード分割して、入力テキストの字シーケンスを取得する。
ステップ502:トリガーワード抽出結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定する。
本実施例におけるトリガーワード抽出結果は、入力テキストにおける各字のトリガーワード識別結果を含み、トリガーワード抽出結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定する一つの可能的な実現方式は、各字のトリガーワード識別結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定する。これにより、字シーケンスのトリガーワード特徴ベクトルシーケンスを正確に取得する。
具体的に、字シーケンスにおける各字に対して、各字のトリガーワード識別結果に基づいて、各字に対応するトリガーワード特徴ベクトルを決定し、各字に対応するトリガーワード特徴ベクトルに基づいて、当該字シーケンスのトリガーワード特徴ベクトルシーケンスを形成する。
ステップ503:字シーケンスに基づいて、字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定する。
ステップ504:テキスト特徴ベクトルシーケンスとトリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得する。
ここで、本実施例におけるテキスト特徴ベクトルは、字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、を含むことができる。
具体的に、字シーケンスの字特徴ベクトルシーケンスと、位置特徴ベクトルシーケンスと、コンテキスト特徴ベクトルシーケンスと、トリガーワード特徴ベクトルシーケンスと、を加算して、字シーケンスの融合特徴ベクトルシーケンスを取得する。
ステップ505:融合特徴ベクトルシーケンスを第2の予めトレーニングされた言語モデルに入力して、字シーケンスの第2の意味特徴ベクトルシーケンスを取得する。
例えば、字シーケンスの融合特徴ベクトルシーケンスを第2のERNIEモデルに入力して、当該字シーケンスの第2の意味特徴ベクトルシーケンスを取得する。
ステップ506:第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、字シーケンスの論元ラベリングシーケンスを取得する。
ステップ507:論元ラベリングシーケンスに基づいて、入力テキストの論元を決定する。
例えば、入力テキストは「張三三は楊依依に求婚した」であり、トリガーワードが「求婚」であると仮定し、対応する論元ラベリングシーケンスは、張/B、三/I、三/I、は/0、楊/B、依/I、依/I、に/0、求/0、婚/0、し/0、た/0であり、ここで、Bは現在の字の論元の1番目の字を示し、Iは現在の字が論元に位置することを示し、0は現在の字が論元にないことを示し、当該論元ラベリングシーケンスに基づいて、入力テキストにおける「張三三」及び「楊依依」は入力テキスト中の論元であることを決定することができる。
本実施例は、字シーケンス及びトリガーワード抽出結果を第2の予めトレーニングされた言語モデルに入力して、字シーケンスの意味表現ベクトルシーケンスを取得し、第2のシーケンスラベリングネットワークを組み合わせて意味表現ベクトルシーケンスの論元を正確にラベリングして、字シーケンスの論元ラベリングシーケンスを取得し、論元ラベリング結果を組み合わせて、入力テキストの論元を正確に決定する。
本出願の一つの実施例において、抽出された論元の正確性をさらに向上させるために、本実施例における第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含むことができ、図6に示すように、上記ステップ507は以下のステップを含むことができる。
ステップ601:第2の意味特徴ベクトルシーケンスに基づいて、各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定する。
ステップ602:第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得する。
ここで、第2のラベル遷移確率行列は、ある論元ラベリングラベルが別の論元ラベリングラベルに転送される確率を含む。例えば、BI0モードを論元ラベリングラベルとして、ここで、第2の論元遷移確率行列は、Bラベリングラベルと、Iラベリングラベルと、0ラベリングラベルとの三者の間の遷移確率を含む。
ステップ603:第2のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定する。
ステップ604:複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを字シーケンスの論元ラベリングシーケンスとして取得する。
当業者に本出願を明確に理解させるために、以下は図7を組み合わせて本実施例におけるテキスト中のイベント抽出方法を説明する。
ここで、図7では第1の予めトレーニングされた言語モデル及び第2の予めトレーニングされた言語モデルはERNIEモデルであることを例として説明し、入力テキストは「李栄浩は楊丞琳に求婚した」であることを例として説明する。
入力テキストをシーケンスラベリングに基づくトリガーワード抽出モデルに入力し、対応的に、シーケンスラベリングに基づくトリガーワード抽出モデルの例示的な実現プロセスは、
まず、トリガーワード抽出モデルの入力レイヤは、入力テキストの語彙特徴ベクトル(Token Embedding)、上下文の特徴ベクトル(Segment Embedding)及び位置特徴ベクトル(Position Embedding)を構築し、入力テキストの語彙特徴ベクトル、上下文の特徴ベクトル及び位置特徴ベクトルを加算処理し、取得された融合特徴ベクトルを加算処理する。
次いで、融合特徴ベクトルを第1のERNIEモデルに入力して、予めトレーニングされた出力層ベクトルを計算して取得する。
そして、第1のERNIEモデルにおける出力層ベクトルを第1のCRFネットワークに入力して、トリガーワードラベリングシーケンスを取得する。
ここで、図7でAとラベリングされた部分は、入力テキスト「李栄浩は楊丞琳に求婚した」に対応するトリガーワードラベリング結果である。
最後に、トリガーワードラベリングシーケンスに基づいて、入力テキストにおけるトリガーワードは「求婚」であることを決定することができる。
シーケンスラベリングに基づく論元抽出モデル:
まず、センテンス入力モデルは、語彙特徴(Token Embedding)、上下文の特徴(Segment Embedding)、位置特徴(Position Embedding)及びトリガーワード特徴が含まれる特徴を構築し、シーケンスラベリングに基づくトリガーワード抽出モデルで予測して取得されたトリガーワードを特徴として追加し、追加方式は、当該位置の語彙はトリガーワードとして識別される場合、1に設定し、識別されない場合、0に設定してから、ベクトルembeddingの形式に変換する。
次いで、上記4種類の特徴ベクトルをベクトル加算処理して、融合特徴ベクトルを取得し、融合特徴ベクトルを第2のERNIEモデルに入力して、予めトレーニングされた出力層ベクトルを計算して取得する。
そして、第2のERNIEモデルの出力層ベクトルを第2のcrfネットワークに入力して、論元ラベリング結果を取得する。
最後に、論元ラベリング結果に基づいて、入力テキストにおける論元を決定する。
ここで、図7から見ることができ、本実施例におけるトリガーワード抽出モデル及び論元抽出モデルで採用されたラベリングモードは、すべてBI0形式のラベリングモードである。
本例示において、図7でBとラベリングされた部分は、入力テキスト「李栄浩は楊丞琳に求婚した」に対応する論元ラベリング結果であり、論元ラベリング結果に基づいて、入力テキスト「李栄浩は楊丞琳に求婚した」における論元は「李栄浩」及び「楊丞琳」であることを決定することができる。
シーケンスラベリングに基づくトリガーワード抽出モデルとシーケンスラベリングに基づく論元抽出モデルの結果は、イベント構造schemaに基づいて結果の関連付けを行い、入力テキストのイベント抽出結果を産出する。
具体的に、トリガーワードに基づいて、トリガーワードが属するイベントタイプは「求婚イベント」であることを決定し、対応的に、求婚イベントにおける論元「李栄浩」の論元役割は「求婚者」であることを決定し、対応的に、求婚イベントにおける論元「楊丞琳」の論元役割は「被求婚者」または「求婚相手」であることを決定する。
本出願の実施例のテキスト中のイベント抽出方法は、シーケンスをラベリングするトリガーワード抽出モデルによって、入力テキストに対してトリガーワード抽出を行って、入力テキストにおけるトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果をラベリングシーケンスに基づく論元抽出モデルに入力して、当該入力テキストの論元抽出結果を取得し、対応的に、論元抽出結果及びトリガーワード抽出結果に基づいて、イベント構造に基づいて結果の関連付けを行い、当該入力テキストのイベント抽出結果を産出する。
これにより、深層学習のイベント抽出方式に完全に基づいて、イベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
上記実施例を実現するために、本出願の実施例は、テキスト中のイベント抽出装置をさらに提供する。
図8は本出願の第8の実施例により提供されるテキスト中のイベント抽出装置である。
図8に示すように、当該テキスト中のイベント抽出装置10は、取得モジュール110と、トリガーワード抽出モジュール120と、論元抽出モジュール130と、決定モジュール140と、を含むことができる。
取得モジュール110は、入力テキストを取得することに用いられる。
トリガーワード抽出モジュール120は、入力テキストをトリガーワード抽出モデルに入力して、入力テキストのトリガーワード抽出結果を取得することに用いられる。
論元抽出モジュール130は、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得することに用いられる。
決定モジュール140は、トリガーワード抽出結果及び論元抽出結果に基づいて、入力テキストのイベント抽出結果を決定することに用いられる。
ここで、なお、上記のテキスト中のイベント抽出方法の実施例の説明は、本実施例のテキスト中のイベント抽出装置にも適用され、ここでは説明を省略する。
本出願の実施例のテキスト中のイベント抽出装置は、入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
本出願の一つの実施例において、図8に示す装置の実施例に基づいて、図9に示すように、決定モジュール140は、
トリガーワード抽出結果に基づいて、入力テキスト中のトリガーワードを決定するための第1の決定サブモジュール141と、
トリガーワードに基づいて、トリガーワードが属するイベントタイプを決定するための第2の決定サブモジュール142と、
論元抽出結果に基づいて、入力テキスト中の論元を決定するための第3の決定サブモジュール143と、
イベントタイプに基づいて、論元がイベントタイプで属する論元役割を決定するための第4の決定サブモジュール144と、
トリガーワード、イベントタイプ、論元及び論元役割に基づいて、入力テキストのイベント抽出結果を決定するための第5の決定サブモジュール145と、を含むことができる。
本出願の一つの実施例において、トリガーワード抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含み、トリガーワード抽出モジュール120は、
入力テキストをワード分割して、入力テキストの字シーケンスを取得するための第1の字分割サブモジュール121と、
字シーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得するための第1の意味特徴表現サブモジュール122と、
第1の意味特徴ベクトルシーケンスを第1のシーケンスラベリングネットワークに入力して、字シーケンスのトリガーワードラベリングシーケンスを取得するための第1のラベリングサブモジュール123と、
トリガーワードラベリングシーケンスに基づいて、入力テキストのトリガーワード抽出結果を決定するための第6の結果サブモジュール124と、を含む。
本出願の一つの実施例において、第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含み、第1のラベリングサブモジュール123は、
第1の意味特徴ベクトルシーケンスに基づいて、各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するための第1の決定ユニット1231と、
第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するための第1の取得ユニット1232と、
第1のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するための第2の決定ユニット1233と、
複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを字シーケンスのトリガーワードラベリングシーケンスとして取得するための第2の取得ユニット1234と、を含む。
本出願の一つの実施例において、論元抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含み、論元抽出モジュール130は、
入力テキストをワード分割して、入力テキストの字シーケンスを取得するための第2の字分割サブモジュール131と、
トリガーワード抽出結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するための第7の決定サブモジュール132と、
字シーケンスに基づいて、字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するための第8の決定サブモジュール133と、
テキスト特徴ベクトルシーケンスとトリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するための融合サブモジュール134と、
融合特徴ベクトルシーケンスを第2の予めトレーニングされた言語モデルに入力して、字シーケンスの第2の意味特徴ベクトルシーケンスを取得するための第2の意味特徴表現サブモジュール135と、
第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、字シーケンスの論元ラベリングシーケンスを取得するための第2のラベリングサブモジュール136と、
論元ラベリングシーケンスに基づいて、入力テキストの論元を決定するための第9の決定サブモジュール137と、を含む。
本出願の一つの実施例において、トリガーワード抽出結果は、入力テキストにおける各字のトリガーワード識別結果を含み、第7の決定サブモジュール132は、具体的に、各字のトリガーワード識別結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定することに用いられる。
具体的に、字シーケンスにおける各字に対して、第7の決定サブモジュール132は、各字のトリガーワード識別結果に基づいて、各字に対応するトリガーワード特徴ベクトルを決定し、各字に対応するトリガーワード特徴ベクトルに基づいて、当該字シーケンスのトリガーワード特徴ベクトルシーケンスを形成する。
本出願の一つの実施例において、第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含み、第2のラベリングサブモジュール136は、
第2の意味特徴ベクトルシーケンスに基づいて、各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第3の決定ユニット1361と、
第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するための第3の取得ユニット1362と、
第2のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するための第4の決定ユニット1363と、
複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを字シーケンスの論元ラベリングシーケンスとして取得するための第4の取得モジュール1364と、を含むことができる。
本出願の実施例のテキスト中のイベント抽出装置は、入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記テキスト中のイベント抽出方法が実行される。
図10に示すように、それは本出願の実施例に係るテキスト中のイベント抽出方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図10に示すように、当該電子機器は、一つ又は複数のプロセッサ1001と、メモリ1002と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図10では、一つのプロセッサ1001を例とする。
メモリ1002は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本出願により提供されるテキスト中のイベント抽出方法を実行することができるようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供されるテキスト中のイベント抽出方法を実行するためのコンピュータ命令を記憶する。
メモリ1002は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるテキスト中のイベント抽出方法に対応するプログラム命令/モジュール(例えば、図8に示す取得モジュール110、トリガーワード抽出モジュール120、論元抽出モジュール130、及び決定モジュール140)ように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ1001は、メモリ1002に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるテキスト中のイベント抽出方法を実現する。
メモリ1002は、ストレージプログラム領域とストレージデータ領域とを含むことができ、その中、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、テキスト中のイベント抽出方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ1002は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ1002は、プロセッサ1001に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してテキスト中のイベント抽出方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。
テキスト中のイベント抽出方法の電子機器は、入力装置1003と出力装置1004とをさらに含むことができる。プロセッサ1001、メモリ1002、入力装置1003、及び出力装置1004は、バス又は他の方式を介して接続することができ、図10では、バスを介して接続することを例とする。
入力装置1003は、入力された数字又は文字情報を受信することができ、及びテキスト中のイベント抽出方法の電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1004は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願の実施例の発明によれば、入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims (17)

  1. テキスト中のイベント抽出方法であって、
    入力テキストを取得するステップと、
    前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップと、
    前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップと、
    前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、
    を含む、
    ことを特徴とするテキスト中のイベント抽出方法。
  2. 前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップは、
    前記トリガーワード抽出結果に基づいて、前記入力テキスト中のトリガーワードを決定するステップと、
    前記トリガーワードに基づいて、前記トリガーワードが属するイベントタイプを決定するステップと、
    前記論元抽出結果に基づいて、前記入力テキスト中の論元を決定するステップと、
    前記イベントタイプに基づいて、前記論元が前記イベントタイプで属する論元役割を決定するステップと、
    前記トリガーワード、前記イベントタイプ、前記論元及び前記論元役割に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記トリガーワード抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含み、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップは、
    前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するステップと、
    前記字シーケンスを第1の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第1の意味特徴ベクトルシーケンスを取得するステップと、
    前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するステップと、
    前記トリガーワードラベリングシーケンスに基づいて、前記入力テキストのトリガーワード抽出結果を決定するステップと、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含み、前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するステップは、
    前記第1の意味特徴ベクトルシーケンスに基づいて、前記各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するステップと、
    前記第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するステップと、
    前記第1のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するステップと、
    前記複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを前記字シーケンスのトリガーワードラベリングシーケンスとして取得するステップと、
    を含む、
    ことを特徴とする請求項3に記載の方法。
  5. 前記論元抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含み、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップは、
    前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するステップと、
    前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップと、
    前記字シーケンスに基づいて、前記字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するステップと、
    前記テキスト特徴ベクトルシーケンスと前記トリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するステップと、
    前記融合特徴ベクトルシーケンスを前記第2の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第2の意味特徴ベクトルシーケンスを取得するステップと、
    前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するステップと、
    前記論元ラベリングシーケンスに基づいて、前記入力テキストの論元を決定するステップと、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  6. 前記第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含み、前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するステップは、
    前記第2の意味特徴ベクトルシーケンスに基づいて、前記各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するステップと、
    前記第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するステップと、
    前記第2のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するステップと、
    前記複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを前記字シーケンスの論元ラベリングシーケンスとして取得するステップと、
    を含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記トリガーワード抽出結果は、前記入力テキストにおける各字のトリガーワード識別結果を含み、前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップは、
    前記各字のトリガーワード識別結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップを含む、
    ことを特徴とする請求項5に記載の方法。
  8. テキスト中のイベント抽出装置であって、
    入力テキストを取得するための取得モジュールと、
    前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するためのトリガーワード抽出モジュールと、
    前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するための論元抽出モジュールと、
    前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するための決定モジュールと、
    を含む、
    ことを特徴とするテキスト中のイベント抽出装置。
  9. 前記決定モジュールは、
    前記トリガーワード抽出結果に基づいて、前記入力テキスト中のトリガーワードを決定するための第1の決定サブモジュールと、
    前記トリガーワードに基づいて、前記トリガーワードが属するイベントタイプを決定するための第2の決定サブモジュールと、
    前記論元抽出結果に基づいて、前記入力テキスト中の論元を決定するための第3の決定サブモジュールと、
    前記イベントタイプに基づいて、前記論元が前記イベントタイプで属する論元役割を決定するための第4の決定サブモジュールと、
    前記トリガーワード、前記イベントタイプ、前記論元及び前記論元役割に基づいて、前記入力テキストのイベント抽出結果を決定するための第5の決定サブモジュールと、
    を含む、
    ことを特徴とする請求項8に記載の装置。
  10. 前記トリガーワード抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含み、前記トリガーワード抽出モジュールは、
    前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するための第1の字分割サブモジュールと、
    前記字シーケンスを第1の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第1の意味特徴ベクトルシーケンスを取得するための第1の意味特徴表現サブモジュールと、
    前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するための第1のラベリングサブモジュールと、
    前記トリガーワードラベリングシーケンスに基づいて、前記入力テキストのトリガーワード抽出結果を決定するための第6の結果サブモジュールと、
    を含む、
    ことを特徴とする請求項8に記載の装置。
  11. 前記第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含み、前記第1のラベリングサブモジュールは、
    前記第1の意味特徴ベクトルシーケンスに基づいて、前記各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するための第1の決定ユニットと、
    前記第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するための第1の取得ユニットと、
    前記第1のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するための第2の決定ユニットと、
    前記複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを前記字シーケンスのトリガーワードラベリングシーケンスとして取得するための第2の取得ユニットと、
    を含む、
    ことを特徴とする請求項10に記載の装置。
  12. 前記論元抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含み、前記論元抽出モジュールは、
    前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するための第2の字分割サブモジュールと、
    前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するための第7の決定サブモジュールと、
    前記字シーケンスに基づいて、前記字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するための第8の決定サブモジュールと、
    前記テキスト特徴ベクトルシーケンスと前記トリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するための融合サブモジュールと、
    前記融合特徴ベクトルシーケンスを前記第2の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第2の意味特徴ベクトルシーケンスを取得するための第2の意味特徴表現サブモジュールと、
    前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するための第2のラベリングサブモジュールと、
    前記論元ラベリングシーケンスに基づいて、前記入力テキストの論元を決定するための第9の決定サブモジュールと、
    を含む、
    ことを特徴とする請求項8に記載の装置。
  13. 前記第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含み、前記第2のラベリングサブモジュールは、
    前記第2の意味特徴ベクトルシーケンスに基づいて、前記各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第3の決定ユニットと、
    前記第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するための第3の取得ユニットと、
    前記第2のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するための第4の決定ユニットと、
    前記複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを前記字シーケンスの論元ラベリングシーケンスとして取得するための第4の取得モジュールと、
    を含む、
    ことを特徴とする請求項12に記載の装置。
  14. 前記トリガーワード抽出結果は、前記入力テキストにおける各字のトリガーワード識別結果を含み、前記第7の決定サブモジュールは、具体的に、
    前記各字のトリガーワード識別結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定することに用いられる、
    ことを特徴とする請求項12に記載の装置。
  15. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項1~7のいずれかに記載の方法を実行する、
    ことを特徴とする電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれかに記載の方法を実行させる、
    ことを特徴とするコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムにおける命令が実行された場合に、請求項1~7のいずれかに記載の方法が実行される、
    ことを特徴とするコンピュータプログラム。
JP2020217680A 2020-06-30 2020-12-25 テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 Active JP7481251B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010608577.6 2020-06-30
CN202010608577.6A CN111967268B (zh) 2020-06-30 2020-06-30 文本中的事件抽取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022013602A true JP2022013602A (ja) 2022-01-18
JP7481251B2 JP7481251B2 (ja) 2024-05-10

Family

ID=73361071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020217680A Active JP7481251B2 (ja) 2020-06-30 2020-12-25 テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US11625539B2 (ja)
EP (1) EP3933660A1 (ja)
JP (1) JP7481251B2 (ja)
KR (1) KR102577512B1 (ja)
CN (1) CN111967268B (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507700A (zh) * 2020-11-26 2021-03-16 北京百度网讯科技有限公司 事件抽取方法、装置、电子设备及存储介质
CN112487826A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 信息抽取方法、抽取模型训练方法、装置以及电子设备
CN112560460B (zh) * 2020-12-08 2022-02-25 北京百度网讯科技有限公司 抽取结构化信息的方法、装置、电子设备和可读存储介质
CN112612885A (zh) * 2020-12-18 2021-04-06 成都三零凯天通信实业有限公司 一种基于bert类模型的阅读理解式新闻文本事件抽取方法
CN115151903A (zh) * 2020-12-25 2022-10-04 京东方科技集团股份有限公司 文本抽取方法及装置、计算机可读存储介质以及电子设备
CN112632223B (zh) * 2020-12-29 2023-01-20 天津汇智星源信息技术有限公司 案事件知识图谱构建方法及相关设备
CN112733507B (zh) * 2021-01-16 2023-06-09 江苏网进科技股份有限公司 一种自动生成法律文本标记事件的方法
CN112860852B (zh) * 2021-01-26 2024-03-08 北京金堤科技有限公司 信息分析方法及装置、电子设备和计算机可读存储介质
CN112817561B (zh) * 2021-02-02 2023-08-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及系统
CN112906391A (zh) * 2021-03-16 2021-06-04 合肥讯飞数码科技有限公司 元事件抽取方法、装置、电子设备和存储介质
CN112861527A (zh) * 2021-03-17 2021-05-28 合肥讯飞数码科技有限公司 一种事件抽取方法、装置、设备及存储介质
CN113392213A (zh) * 2021-04-19 2021-09-14 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置
CN113064983B (zh) * 2021-04-23 2024-04-26 深圳壹账通智能科技有限公司 语义检测方法、装置、计算机设备及存储介质
CN113255322B (zh) * 2021-06-10 2021-10-01 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和计算机可读存储介质
CN113468889A (zh) * 2021-06-29 2021-10-01 上海犀语科技有限公司 一种基于bert预训练模型信息提取的方法和装置
CN113407610B (zh) * 2021-06-30 2023-10-24 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN113722461B (zh) * 2021-09-02 2022-05-06 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113779182B (zh) * 2021-11-12 2022-02-15 航天宏康智能科技(北京)有限公司 从文本数据抽取事件的方法及装置
CN113779227B (zh) * 2021-11-12 2022-01-25 成都数之联科技有限公司 案情事实抽取方法及系统及装置及介质
CN113901170A (zh) * 2021-12-07 2022-01-07 北京道达天际科技有限公司 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN114936559B (zh) * 2022-01-05 2023-04-07 华能贵诚信托有限公司 一种基于多模型融合的多级事件抽取方法和抽取系统
CN114168716B (zh) * 2022-02-11 2022-05-24 华南理工大学 基于深度学习的工程造价自动抽取和分析方法及装置
CN114239536B (zh) * 2022-02-22 2022-06-21 北京澜舟科技有限公司 一种事件抽取方法、系统及计算机可读存储介质
CN114298053B (zh) * 2022-03-10 2022-05-24 中国科学院自动化研究所 一种基于特征和注意力机制融合的事件联合抽取系统
CN114297394B (zh) * 2022-03-11 2022-07-01 中国科学院自动化研究所 对文本中的事件论元进行抽取的方法和电子设备
CN114741473B (zh) * 2022-04-17 2023-04-18 中国人民解放军国防科技大学 一种基于多任务学习的事件抽取方法
CN114610866B (zh) * 2022-05-12 2023-05-05 湖南警察学院 基于全局事件类型的序列到序列联合事件抽取方法和系统
CN114841162B (zh) * 2022-05-20 2024-01-05 中国电信股份有限公司 文本处理方法、装置、设备及介质
CN115048486A (zh) * 2022-05-24 2022-09-13 支付宝(杭州)信息技术有限公司 事件抽取方法、装置、计算机程序产品、存储介质及设备
CN114861677B (zh) * 2022-05-30 2023-04-18 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备以及存储介质
CN115238045B (zh) * 2022-09-21 2023-01-24 北京澜舟科技有限公司 一种生成式事件论元抽取方法、系统及存储介质
CN115759036B (zh) * 2022-10-28 2023-08-04 中国矿业大学(北京) 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法
CN116205220B (zh) * 2023-04-23 2024-02-06 北京邮电大学 一种触发词和论元的抽取方法、系统、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019212292A (ja) * 2018-06-01 2019-12-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド イベント発見方法、装置、機器及びプログラム

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9501467B2 (en) * 2007-12-21 2016-11-22 Thomson Reuters Global Resources Systems, methods, software and interfaces for entity extraction and resolution and tagging
KR100987214B1 (ko) * 2008-09-11 2010-10-12 고려대학교 산학협력단 논항 분석 장치, 논항 분석 방법 및 논항 분석 기반 정보 제공 시스템
US8606564B2 (en) * 2010-11-01 2013-12-10 Yahoo! Inc. Extracting rich temporal context for business entities and events
CN102298635B (zh) * 2011-09-13 2013-09-04 苏州大学 事件信息融合方法和系统
CN104169909B (zh) 2012-06-25 2016-10-05 株式会社东芝 上下文解析装置及上下文解析方法
CN104598510A (zh) * 2014-10-16 2015-05-06 苏州大学 一种事件触发词识别方法及装置
CN104572958B (zh) * 2014-12-29 2018-10-02 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
KR101646159B1 (ko) 2015-04-23 2016-08-05 한림대학교 산학협력단 Srl 기반의 문장 분석 방법 및 장치
US20170075904A1 (en) * 2015-09-16 2017-03-16 Edgetide Llc System and method of extracting linked node graph data structures from unstructured content
KR101831058B1 (ko) * 2016-01-11 2018-02-21 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
US20180061256A1 (en) * 2016-01-25 2018-03-01 Wespeke, Inc. Automated digital media content extraction for digital lesson generation
US9812028B1 (en) * 2016-05-04 2017-11-07 Wespeke, Inc. Automated generation and presentation of lessons via digital media content extraction
CN106445999A (zh) * 2016-07-27 2017-02-22 天津海量信息技术股份有限公司 一种基于事件要素的事件抽取方法及系统
CN106776523B (zh) * 2017-01-22 2020-04-07 百度在线网络技术(北京)有限公司 基于人工智能的新闻速报生成方法及装置
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
CN107122416B (zh) * 2017-03-31 2021-07-06 北京大学 一种中文事件抽取方法
EP3407209A1 (en) * 2017-05-22 2018-11-28 Fujitsu Limited Apparatus and method for extracting and storing events from a plurality of heterogeneous sources
JP6907703B2 (ja) 2017-05-24 2021-07-21 富士通株式会社 解析装置、解析方法、および解析プログラム
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN107220352B (zh) * 2017-05-31 2020-12-08 北京百度网讯科技有限公司 基于人工智能构建评论图谱的方法和装置
JP2018206263A (ja) 2017-06-08 2018-12-27 日本電信電話株式会社 述語項構造モデル生成装置、述語項構造解析装置、方法、及びプログラム
CN108897989B (zh) * 2018-06-06 2020-05-19 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN108829801B (zh) * 2018-06-06 2020-11-20 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN110209807A (zh) * 2018-07-03 2019-09-06 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
CN109582949B (zh) * 2018-09-14 2022-11-22 创新先进技术有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN110019843B (zh) * 2018-09-30 2020-11-06 北京国双科技有限公司 知识图谱的处理方法及装置
RU2721190C1 (ru) * 2018-12-25 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами
CN110134720B (zh) * 2019-05-17 2021-02-09 苏州大学 融合局部特征与深度学习的事件联合抽取方法
US11144721B2 (en) * 2019-05-31 2021-10-12 Accenture Global Solutions Limited System and method for transforming unstructured text into structured form
CN110489520B (zh) * 2019-07-08 2023-05-16 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110597994A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 事件元素识别方法和装置
CN110941692B (zh) * 2019-09-28 2022-07-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 互联网政治外交类新闻事件抽取方法
CN111428049B (zh) * 2020-03-20 2023-07-21 北京百度网讯科技有限公司 一种事件专题的生成方法、装置、设备和存储介质
US11687385B2 (en) * 2020-05-21 2023-06-27 International Business Machines Corporation Unsupervised event extraction
US11860684B2 (en) * 2020-06-01 2024-01-02 Asapp, Inc. Few-shot named-entity recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019212292A (ja) * 2018-06-01 2019-12-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド イベント発見方法、装置、機器及びプログラム

Also Published As

Publication number Publication date
KR20220002051A (ko) 2022-01-06
KR102577512B1 (ko) 2023-09-12
US11625539B2 (en) 2023-04-11
CN111967268B (zh) 2024-03-19
US20210406476A1 (en) 2021-12-30
EP3933660A1 (en) 2022-01-05
JP7481251B2 (ja) 2024-05-10
CN111967268A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
JP2022013602A (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
JP7228662B2 (ja) イベント抽出方法、装置、電子機器及び記憶媒体
KR102466399B1 (ko) 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기
EP3916611A1 (en) Method, apparatus, computer program, and storage medium for training text generation model
KR20210092148A (ko) 시계열 지식그래프 생성 방법, 장치, 기기 및 매체
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2021099886A (ja) イベント引数抽出方法、装置及び電子デバイス
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
EP3879427A2 (en) Information extraction method, extraction model training method, apparatus and electronic device
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
JP7149993B2 (ja) 感情分析モデルの事前トレーニング方法、装置及び電子機器
JP2021184255A (ja) 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム
US11216615B2 (en) Method, device and storage medium for predicting punctuation in text
CN111144108A (zh) 情感倾向性分析模型的建模方法、装置和电子设备
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
CN111950292A (zh) 文本纠错模型的训练方法、文本纠错处理方法和装置
JP2022028897A (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
US11562150B2 (en) Language generation method and apparatus, electronic device and storage medium
CN112269884B (zh) 信息抽取方法、装置、设备及存储介质
US20220028370A1 (en) Method and apparatus for recognizing speech, electronic device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220608

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230113

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230113

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230120

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230124

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230303

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240425