JP2022013602A

JP2022013602A - テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022013602A
Application number: JP2020217680A
Authority: JP
Inventors: ルウパン; Lu Pan; ユーグアンチェン; Yuguang Chen; ファーユアンリ; Fayuan Li
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-12-25
Publication date: 2022-01-18
Anticipated expiration: 2040-12-25
Also published as: KR20220002051A; KR102577512B1; US11625539B2; CN111967268B; US20210406476A1; EP3933660A1; JP7481251B2; CN111967268A

Abstract

【課題】イベント抽出の構築コストを低減し、入力テキストのイベント抽出精度を向上可能なイベント抽出方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。【選択図】図１

Description

本出願は、人工知能技術分野に関し、具体的に知識グラフ、深層学習、自然言語処理技術分野に関し、特にテキスト中のイベント抽出方法、装置、電子機器及び記憶媒体に関する。

インターネットの普及と発展に伴い、ネットワーク中の情報規模は爆発的に増加しており、大量の自然言語文書から必要な情報をタイムリかつ正確に見つけることがますます差し迫っている。情報抽出技術（ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎ、ＩＥ）は、ルーズで構造化されていない通常のテキストから、指定されたタイプのエンティティ、関係、イベントなどの事実情報を抽出し、構造化データを出力する。ここで、イベント抽出（ＥｖｅｎｔＥｘｔｒａｃｔｉｏｎ）は、情報抽出研究で最も困難なタスクの１つであり、主に、構造化されていない自然言語テキストから、イベントの種類、イベントの参加者、発生時間と場所などのイベントの基本情報を抽出し、構造化された形式で提示する方法を研究する。したがって、どのようにテキストからイベントを正確かつ迅速に抽出を行うかは、緊急に解決する必要がある技術的な問題である。

本出願の実施例は、テキスト中のイベント抽出のための方法、装置、電子機器及び記憶媒体を提供する。

本出願の一態様によれば、テキスト中のイベント抽出方法を提供し、
入力テキストを取得するステップと、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップと、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップと、前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、を含む。

本出願の別の態様によれば、テキスト中のイベント抽出装置を提供し、
入力テキストを取得するための取得モジュールと、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するためのトリガーワード抽出モジュールと、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するための論元抽出モジュールと、前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するための決定モジュールと、を含む。

本出願の別の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが本出願のテキスト中のイベント抽出方法を実行する。

本出願の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、前記コンピュータに本出願の実施例により開示された電子機器のテキスト中のイベント抽出方法を実行させる。本出願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、第１の態様の実施例に記載のテキスト中のイベント抽出方法が実行される。

上記出願における一つの実施例は、以下のような利点または有益な効果を有する。入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。

なお、発明の概要に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定することを意図するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するために使用されており、本出願の限定を構造するものではない。
本出願の第１の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。本出願の第２の実施例に係るテキスト中のイベント抽出方法のフローチャートである。本出願の第３の実施例に係るテキスト中のイベント抽出方法のフローチャートである。本出願の第４の実施例に係るテキスト中のイベント抽出方法のフローチャートである。本出願の第５の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。本出願の第６の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。本出願の第７の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。本出願の第８の実施例により提供されるテキスト中のイベント抽出装置の概略構造図である。本出願の第９の実施例により提供されるテキスト中のイベント抽出装置の概略構造図である。本出願の実施例のテキスト中のイベント抽出方法を実現するための電子機器のブロック図である。

以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構造の説明を省略する。

以下、図面を参照して本出願の実施例のテキスト中のイベント抽出方法、装置、電子機器及び記憶媒体を説明する。

図１は本出願の第１の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。

図１に示すように、当該テキスト中のイベント抽出方法は、以下のようなステップを含むことができる。
ステップ１０１：入力テキストを取得する。

ここで、なお、本実施例のテキスト中のイベント抽出方法の実行主体は、キスト中のイベント抽出装置であり、当該キスト中のイベント抽出装置は、ソフトウェア及び／又はハードウェアの方式を採用して実現することができ、当該実施例におけるキスト中のイベント抽出装置は、電子機器に配置されることができ、本実施例における電子機器は、端末デバイスおよびサーバなどを含むことができ、当該実施例は、電子機器に限定されない。

ここで、本実施例における入力テキストの言語は、中国語、英語、またはその他の言語タイプであってもよく、本実施例は、入力テキストの言語タイプに具体的に限定されない。ここで、なお、本実施例は、入力テキストが中国語である入力テキストを例として説明する。

ここで、本実施例における入力テキストは、イベント抽出待ちテキストを指し、当該入力テキストは任意の領域のテキストであってもよく、例えば、入力テキストは「モモ会社が杭州に科学研究センターを設立した」であってもよいし、または、入力テキストは「グランドキャニオンコーポレーションは本日破産を宣言しました」であってもよいし、当該実施例は、入力テキストに具体的に限定されない。

ステップ１０２：入力テキストをトリガーワード抽出モデルに入力して、入力テキストのトリガーワード抽出結果を取得する。

本実施例において、入力テキストをトリガーワード抽出モデルに入力した後、トリガーワード抽出モデルは、当該入力テキスト中の文字によってコンテキスト特徴及び意味分析を行い、当該入力テキストの分析結果に基づいて、当該入力テキストからトリガーワード抽出結果を抽出する。

ここで、なお、本実施例におけるトリガーワード抽出モデルは、トレーニングデータに基づいて予め取得される。一つの可能的な実現方式をとして、トリガーワード抽出モデルをトレーニングするプロセスは、トレーニングデータを取得し、ここで、トレーニングデータはサンプルテキストとサンプルテキストのトリガーワードラベリング結果とを含み、サンプルテキストとサンプルテキストのトリガーワードラベリング結果に基づいて、初期のトリガーワード抽出モデルをトレーニングして、トリガーワード抽出モデルを取得する。

ここで、本実施例におけるトリガーワード抽出モデルは、入力レイヤ、ネットワークレイヤ、ラベリングレイヤ、および出力レイヤを含むことができ、本実施例のネットワークレイヤのネットワークは、ディープニューラルネットワークであってもよく、本実施例におけるラベリングレイヤは、ランダム条件付きフィールド（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ、ＣＲＦ）ネットワークを含むことができる。

ステップ１０３：入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得する。

ここで、なお、本実施例における論元抽出モデルは、予めトレーニングされたものであり、論元抽出モデルをトレーニングする一つの可能的な実現方式は、トレーニングデータを取得し、ここで、トレーニングデータはサンプルテキストとサンプルテキストのトリガーワードラベリング結果と、サンプルテキストの論元ラベリング結果と、を含み、サンプルテキストとサンプルテキストのトリガーワードラベリング結果を初期の論元抽出モデルの入力として、サンプルテキストの論元ラベリング結果を初期の論元抽出モデルの出力として、初期の論元抽出モデルをトレーニングして、論元抽出モデルを取得する。

本実施例において、論元抽出モデルが入力テキスト及びトリガーワード抽出結果を取得した後、論元抽出モデル内の一つの可能的な処理方式は、入力テキストをワード分割し、当該入力テキストの字シーケンスを取得し、当該字シーケンスのテキスト特徴ベクトルシーケンスを決定し、トリガーワード抽出結果に基づいて、当該字シーケンスのトリガーワード特徴ベクトルシーケンスを決定し、そして、テキスト特徴ベクトルシーケンス及びトリガーワード特徴ベクトルシーケンスに基づいて、融合特徴ベクトルシーケンスを決定し、そして、論元抽出モデルにおけるネットワークレイヤは融合特徴ベクトルシーケンスに基づいて、当該字シーケンスの意味表現ベクトルシーケンスを決定し、そして、論元抽出モデルにおけるラベリングネットワークは、意味表現ベクトルシーケンスに基づいて、当該字シーケンスのラベリング結果を決定し、字シーケンスのラベリング結果に基づいて、当該入力テキストのトリガーワード抽出結果を取得する。

ステップ１０４：トリガーワード抽出結果及び論元抽出結果に基づいて、入力テキストのイベント抽出結果を決定する。

なお、関連技術でテキストからイベント抽出を行う際に、人工的に構築された特徴（例えば、人工的に構築されたルール及びテンプレート）に基づいてイベント抽出を行う方式と比較して、本実施例は、トリガーワード抽出モデル及び論元抽出モデルによって、入力テキストのイベント抽出を実現することができ、イベント抽出のパフォーマンスを効果的に向上させるだけでなく、イベント抽出の構築コストを低減し、人工的な特徴の構築は必要がない。

本出願の実施例のテキスト中のイベント抽出方法は、入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。

ここで、なお、本実施例のイベント抽出方法の応用シーンはたくさんあり、例えば、イベント抽出結果を取得した後、構造化された形式でイベントを表示および表現することができ、大捜索およびＦｅｅｄストリームのイベントコンテキストでイベントを表示して、ユーザがイベントをすばやく理解できるようにする。また例えば、本実施例のイベント抽出は、金融分野のシーンに適用することができ、会社のイベントを抽出することにより、効果的なリスクコントロールを行い、本実施例の応用シーンは上記の例の２つの応用シーンを限定しなく、当該実施例は、イベント抽出の応用シーンに限定されない。

本出願の一つの実施例において、入力テキスト中のイベント抽出結果を正確に決定するために、図２に示すように、本実施例のトリガーワード抽出結果及び論元抽出結果に基づいて、入力テキストのイベント抽出結果を決定するステップは、以下のステップを含む。
ステップ２０１：トリガーワード抽出結果に基づいて、入力テキスト中のトリガーワードを決定する。

本実施例におけるトリガーワード抽出結果は、各字のトリガーワード識別結果を含むことができる。対応的に、各字のトリガーワード識別結果に基づいて、入力テキスト中のトリガーワードを決定する。

例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、トリガーワード抽出結果によって、当該入力テキスト中のトリガーワードは、「求」はトリガーワードの冒頭として識別され、「婚」はトリガーワードの中間ワードとして識別されることを決定する。トリガーワード抽出結果に基づいて、「求婚」を入力テキスト中のトリガーワードとして決定する。

ステップ２０２：トリガーワードに基づいて、トリガーワードが属するイベントタイプを決定する。

具体的に、予め保存された各サンプルトリガーワードとイベントタイプの間の対応関係に基づいて、当該トリガーワードが属するイベントタイプを決定することができる。

ここで、なお、本実施例における入力テキスト中のトリガーワードは、１つまたは複数を含むことができる。

いくつかの実施例において、本実施例の複数のトリガーワードは、同じイベントタイプに対応してもよいし、または各トリガーワードはそれぞれ１つのイベントタイプに対応してもよいし、当該実施例はこれに限定されない。例えば、入力テキストに存在する２つのトリガーワードは「車の事故」、「追突」であり、トリガーワードとイベントタイプの対応関係に基づいて、この２つのトリガーワードに対応するイベントタイプは「交通事故」であることを決定することができる。例えば、入力テキストは２つのトリガーワードを含み、トリガーワード１は「暴露」であり、トリガーワード２は「離婚」であり、トリガーワード１に対応するイベントタイプは暴露イベントであり、トリガーワード２に対応するイベントタイプは離婚イベントであることを決定することができる。

また例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、トリガーワード抽出結果によって、当該入力テキスト中のトリガーワードは「求婚」であることを決定し、トリガーワード「求婚」に基づいて、当該トリガーワード「求婚」が属するイベントタイプは「求婚イベント」であることを決定する。

ステップ２０３：論元抽出結果に基づいて、入力テキスト中の論元を決定する。

例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、論元抽出結果は各字の論元識別結果を含むことができ、論元抽出結果は当該字が論元であり、または、当該字が論元ではないということであり、論元抽出結果に基づいて、入力テキスト中の論元は「張三三」及び「楊依依」であることを決定することができる。

ステップ２０４：イベントタイプに基づいて、論元がイベントタイプで属する論元役割を決定する。

上記の例に続いて、当該入力テキストのイベントタイプは「求婚イベント」であり、論元「張三三」が「求婚イベント」で属する論元役割は求婚者であることを決定し、論元「楊依依」が「求婚イベント」で属する論元役割は求婚相手であることを決定する。

ステップ２０５：トリガーワード、イベントタイプ、論元及び論元役割に基づいて、入力テキストのイベント抽出結果を決定する。

本実施例において、トリガーワード、イベントタイプ、論元及び論元役割を取得した後、トリガーワード、イベントタイプ、論元及び論元役割に基づいて、完全なイベント構造を取得することができ、入力テキストのイベント抽出結果を正確に決定することができ、さらに当該入力テキストのイベント抽出結果を正確に出力することができる。

本出願の一つの実施例において、入力テキストからトリガーワードを正確に抽出するために、本実施例におけるトリガーワード抽出モデルは、第１の予めトレーニングされた言語モデルと、第１のシーケンスラベリングネットワークと、を含むことができ、図３に示すように、本実施例のステップ１０２は、以下のステップを含むことができる。
ステップ３０１：入力テキストをワード分割して、入力テキストの字シーケンスを取得する。

ステップ３０２：字シーケンスを第１の予めトレーニングされた言語モデルに入力して、字シーケンスの第１の意味特徴ベクトルシーケンスを取得する。

具体的に、字シーケンスのテキスト特徴ベクトルシーケンスを第１の予めトレーニングされた言語モデルに入力して、字シーケンスの第１の意味特徴ベクトルシーケンスを取得する。

ここで、本実施例におけるテキスト特徴ベクトルは、字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、を含むことができる。

具体的に、字シーケンスの字特徴ベクトルシーケンスと、位置特徴ベクトルシーケンスと、コンテキスト特徴ベクトルシーケンスとを加算して、字シーケンスの融合特徴ベクトルシーケンスを取得し、融合特徴ベクトルシーケンスを第１の予めトレーニングされた言語モデルに入力して、字シーケンスの第１の意味特徴ベクトルシーケンスを取得する。

ここで、本実施例における第１の予めトレーニングされた言語モデル及び後続実施例における第２の予めトレーニングされた言語モデルは、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｎｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、変圧器に基づく双方向コーディング表現）モデル、ＥＲＮＩＥ（ＥｎｈａｎｃｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍｋＮｏwｌｅｄｇｅＩｎｔＥｇｒａｔｉｏｎ、知識増強意味表現モデル）などであり、当該実施例はこれに限定されない。

ステップ３０３：第１の意味特徴ベクトルシーケンスを第１のシーケンスラベリングネットワークに入力して、字シーケンスのトリガーワードラベリングシーケンスを取得する。

ステップ３０４：トリガーワードラベリングシーケンスに基づいて、入力テキストのトリガーワード抽出結果を決定する。

ここで、本実施例におけるラベリングモードは、任意のタイプのラベリングモードであってもよく、例えば、ラベリングモードはＢＩ０モードである。ＢＩ０モードはテキストにおける各字をラベリングする。Ｂーｔｙｐｅは現在の字がトリガーワードの１番目の字であり、トリガーワードでトリガーされたイベントタイプがｔｙｐｅであることを示し、Ｉーｔｙｐｅは現在の字がトリガーワードに位置し、トリガーワードでトリガーされたイベントタイプがｔｙｐｅであることを示し、０は現在の字がトリガーワードにないことを示す。例えば、入力テキスト「張三三は楊依依に求婚した」に対応するトリガーワードラベリングシーケンスは、張／０、三／０、三／０、は／０、楊／０、依／０、依／０、に／０、求／Ｂ、婚／Ｉ、し／０、た／０であり、当該トリガーワードラベリングシーケンスに基づいて、入力テキストにおける「求婚」は入力テキスト中のトリガーワードであることを決定することができる。

本実施例は、字シーケンスを第１の予めトレーニングされた言語モデルに入力して、字シーケンスの意味表現ベクトルシーケンスを取得し、シーケンスラベリングネットワークを組み合わせて意味表現ベクトルシーケンスを正確にラベリングして、字シーケンスのトリガーワードラベリングシーケンスを取得し、トリガーワードラベリングシーケンスを組み合わせて、入力テキストのトリガーワード抽出結果を正確に決定する。

本出願の一つの実施例において、抽出されたトリガーワードの正確性をさらに向上させるために、本実施例における第１のシーケンスラベリングネットワークは、第１の条件ランダムフィールドレイヤを含むことができ、図４に示すように、上記ステップ３０３は以下のステップを含むことができる。
ステップ４０１：第１の意味特徴ベクトルシーケンスに基づいて、各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定する。

ステップ４０２：第１の条件ランダムフィールドレイヤに対応する第１のラベル遷移確率行列を取得する。

ここで、第１のラベル遷移確率行列は、あるトリガーワードラベリングラベルが別のトリガーワードラベリングラベルに転送される確率を含む。

ステップ４０３：第１のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定する。

ステップ４０４：複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを字シーケンスのトリガーワードラベリングシーケンスとして取得する。

本出願の一つの実施例において、入力テキストから論元を抽出する正確性を向上させるために、本実施例における論元抽出モデルは、第２の予めトレーニングされた言語モデルと、第２のシーケンスラベリングネットワークと、を含むことができ、具体的に、第２の予めトレーニングされた言語モデルで出力された意味表現ベクトルシーケンスを組み合わせて、第２のシーケンスラベリングネットワークにより意味表現ベクトルシーケンスをラベルラベリングして、ラベルラベリング結果に基づいて、入力テキストにおける論元を正確に決定する。以下、図５を組み合わせて上記ステップ１０３の一つの可能的な実現方式を説明する。

図５に示すように、上記ステップ１０３は、以下のステップを含むことができる。
ステップ５０１：入力テキストをワード分割して、入力テキストの字シーケンスを取得する。

ステップ５０２：トリガーワード抽出結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定する。

本実施例におけるトリガーワード抽出結果は、入力テキストにおける各字のトリガーワード識別結果を含み、トリガーワード抽出結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定する一つの可能的な実現方式は、各字のトリガーワード識別結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定する。これにより、字シーケンスのトリガーワード特徴ベクトルシーケンスを正確に取得する。

具体的に、字シーケンスにおける各字に対して、各字のトリガーワード識別結果に基づいて、各字に対応するトリガーワード特徴ベクトルを決定し、各字に対応するトリガーワード特徴ベクトルに基づいて、当該字シーケンスのトリガーワード特徴ベクトルシーケンスを形成する。

ステップ５０３：字シーケンスに基づいて、字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定する。

ステップ５０４：テキスト特徴ベクトルシーケンスとトリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得する。

具体的に、字シーケンスの字特徴ベクトルシーケンスと、位置特徴ベクトルシーケンスと、コンテキスト特徴ベクトルシーケンスと、トリガーワード特徴ベクトルシーケンスと、を加算して、字シーケンスの融合特徴ベクトルシーケンスを取得する。

ステップ５０５：融合特徴ベクトルシーケンスを第２の予めトレーニングされた言語モデルに入力して、字シーケンスの第２の意味特徴ベクトルシーケンスを取得する。

例えば、字シーケンスの融合特徴ベクトルシーケンスを第２のＥＲＮＩＥモデルに入力して、当該字シーケンスの第２の意味特徴ベクトルシーケンスを取得する。

ステップ５０６：第２の意味特徴ベクトルシーケンスを第２のシーケンスラベリングネットワークに入力して、字シーケンスの論元ラベリングシーケンスを取得する。

ステップ５０７：論元ラベリングシーケンスに基づいて、入力テキストの論元を決定する。

例えば、入力テキストは「張三三は楊依依に求婚した」であり、トリガーワードが「求婚」であると仮定し、対応する論元ラベリングシーケンスは、張／Ｂ、三／Ｉ、三／Ｉ、は／０、楊／Ｂ、依／Ｉ、依／Ｉ、に／０、求／０、婚／０、し／０、た／０であり、ここで、Ｂは現在の字の論元の１番目の字を示し、Ｉは現在の字が論元に位置することを示し、０は現在の字が論元にないことを示し、当該論元ラベリングシーケンスに基づいて、入力テキストにおける「張三三」及び「楊依依」は入力テキスト中の論元であることを決定することができる。

本実施例は、字シーケンス及びトリガーワード抽出結果を第２の予めトレーニングされた言語モデルに入力して、字シーケンスの意味表現ベクトルシーケンスを取得し、第２のシーケンスラベリングネットワークを組み合わせて意味表現ベクトルシーケンスの論元を正確にラベリングして、字シーケンスの論元ラベリングシーケンスを取得し、論元ラベリング結果を組み合わせて、入力テキストの論元を正確に決定する。

本出願の一つの実施例において、抽出された論元の正確性をさらに向上させるために、本実施例における第２のシーケンスラベリングネットワークは、第２の条件ランダムフィールドレイヤを含むことができ、図６に示すように、上記ステップ５０７は以下のステップを含むことができる。
ステップ６０１：第２の意味特徴ベクトルシーケンスに基づいて、各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定する。

ステップ６０２：第２の条件ランダムフィールドレイヤに対応する第２のラベル遷移確率行列を取得する。

ここで、第２のラベル遷移確率行列は、ある論元ラベリングラベルが別の論元ラベリングラベルに転送される確率を含む。例えば、ＢＩ０モードを論元ラベリングラベルとして、ここで、第２の論元遷移確率行列は、Ｂラベリングラベルと、Ｉラベリングラベルと、０ラベリングラベルとの三者の間の遷移確率を含む。

ステップ６０３：第２のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定する。

ステップ６０４：複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを字シーケンスの論元ラベリングシーケンスとして取得する。

当業者に本出願を明確に理解させるために、以下は図７を組み合わせて本実施例におけるテキスト中のイベント抽出方法を説明する。

ここで、図７では第１の予めトレーニングされた言語モデル及び第２の予めトレーニングされた言語モデルはＥＲＮＩＥモデルであることを例として説明し、入力テキストは「李栄浩は楊丞琳に求婚した」であることを例として説明する。

入力テキストをシーケンスラベリングに基づくトリガーワード抽出モデルに入力し、対応的に、シーケンスラベリングに基づくトリガーワード抽出モデルの例示的な実現プロセスは、
まず、トリガーワード抽出モデルの入力レイヤは、入力テキストの語彙特徴ベクトル（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ）、上下文の特徴ベクトル（ＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇ）及び位置特徴ベクトル（ＰｏｓｉｔｉｏｎＥｍｂｅｄｄｉｎｇ）を構築し、入力テキストの語彙特徴ベクトル、上下文の特徴ベクトル及び位置特徴ベクトルを加算処理し、取得された融合特徴ベクトルを加算処理する。
次いで、融合特徴ベクトルを第１のＥＲＮＩＥモデルに入力して、予めトレーニングされた出力層ベクトルを計算して取得する。
そして、第１のＥＲＮＩＥモデルにおける出力層ベクトルを第１のＣＲＦネットワークに入力して、トリガーワードラベリングシーケンスを取得する。
ここで、図７でＡとラベリングされた部分は、入力テキスト「李栄浩は楊丞琳に求婚した」に対応するトリガーワードラベリング結果である。
最後に、トリガーワードラベリングシーケンスに基づいて、入力テキストにおけるトリガーワードは「求婚」であることを決定することができる。

シーケンスラベリングに基づく論元抽出モデル：
まず、センテンス入力モデルは、語彙特徴（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ）、上下文の特徴（ＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇ）、位置特徴（ＰｏｓｉｔｉｏｎＥｍｂｅｄｄｉｎｇ）及びトリガーワード特徴が含まれる特徴を構築し、シーケンスラベリングに基づくトリガーワード抽出モデルで予測して取得されたトリガーワードを特徴として追加し、追加方式は、当該位置の語彙はトリガーワードとして識別される場合、１に設定し、識別されない場合、０に設定してから、ベクトルｅｍｂｅｄｄｉｎｇの形式に変換する。
次いで、上記４種類の特徴ベクトルをベクトル加算処理して、融合特徴ベクトルを取得し、融合特徴ベクトルを第２のＥＲＮＩＥモデルに入力して、予めトレーニングされた出力層ベクトルを計算して取得する。
そして、第２のＥＲＮＩＥモデルの出力層ベクトルを第２のｃｒｆネットワークに入力して、論元ラベリング結果を取得する。
最後に、論元ラベリング結果に基づいて、入力テキストにおける論元を決定する。

ここで、図７から見ることができ、本実施例におけるトリガーワード抽出モデル及び論元抽出モデルで採用されたラベリングモードは、すべてＢＩ０形式のラベリングモードである。

本例示において、図７でＢとラベリングされた部分は、入力テキスト「李栄浩は楊丞琳に求婚した」に対応する論元ラベリング結果であり、論元ラベリング結果に基づいて、入力テキスト「李栄浩は楊丞琳に求婚した」における論元は「李栄浩」及び「楊丞琳」であることを決定することができる。

シーケンスラベリングに基づくトリガーワード抽出モデルとシーケンスラベリングに基づく論元抽出モデルの結果は、イベント構造ｓｃｈｅｍａに基づいて結果の関連付けを行い、入力テキストのイベント抽出結果を産出する。

具体的に、トリガーワードに基づいて、トリガーワードが属するイベントタイプは「求婚イベント」であることを決定し、対応的に、求婚イベントにおける論元「李栄浩」の論元役割は「求婚者」であることを決定し、対応的に、求婚イベントにおける論元「楊丞琳」の論元役割は「被求婚者」または「求婚相手」であることを決定する。

本出願の実施例のテキスト中のイベント抽出方法は、シーケンスをラベリングするトリガーワード抽出モデルによって、入力テキストに対してトリガーワード抽出を行って、入力テキストにおけるトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果をラベリングシーケンスに基づく論元抽出モデルに入力して、当該入力テキストの論元抽出結果を取得し、対応的に、論元抽出結果及びトリガーワード抽出結果に基づいて、イベント構造に基づいて結果の関連付けを行い、当該入力テキストのイベント抽出結果を産出する。
これにより、深層学習のイベント抽出方式に完全に基づいて、イベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。

上記実施例を実現するために、本出願の実施例は、テキスト中のイベント抽出装置をさらに提供する。

図８は本出願の第８の実施例により提供されるテキスト中のイベント抽出装置である。

図８に示すように、当該テキスト中のイベント抽出装置１０は、取得モジュール１１０と、トリガーワード抽出モジュール１２０と、論元抽出モジュール１３０と、決定モジュール１４０と、を含むことができる。
取得モジュール１１０は、入力テキストを取得することに用いられる。
トリガーワード抽出モジュール１２０は、入力テキストをトリガーワード抽出モデルに入力して、入力テキストのトリガーワード抽出結果を取得することに用いられる。
論元抽出モジュール１３０は、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得することに用いられる。
決定モジュール１４０は、トリガーワード抽出結果及び論元抽出結果に基づいて、入力テキストのイベント抽出結果を決定することに用いられる。

ここで、なお、上記のテキスト中のイベント抽出方法の実施例の説明は、本実施例のテキスト中のイベント抽出装置にも適用され、ここでは説明を省略する。

本出願の実施例のテキスト中のイベント抽出装置は、入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。

本出願の一つの実施例において、図８に示す装置の実施例に基づいて、図９に示すように、決定モジュール１４０は、
トリガーワード抽出結果に基づいて、入力テキスト中のトリガーワードを決定するための第１の決定サブモジュール１４１と、
トリガーワードに基づいて、トリガーワードが属するイベントタイプを決定するための第２の決定サブモジュール１４２と、
論元抽出結果に基づいて、入力テキスト中の論元を決定するための第３の決定サブモジュール１４３と、
イベントタイプに基づいて、論元がイベントタイプで属する論元役割を決定するための第４の決定サブモジュール１４４と、
トリガーワード、イベントタイプ、論元及び論元役割に基づいて、入力テキストのイベント抽出結果を決定するための第５の決定サブモジュール１４５と、を含むことができる。

本出願の一つの実施例において、トリガーワード抽出モデルは、第１の予めトレーニングされた言語モデルと、第１のシーケンスラベリングネットワークと、を含み、トリガーワード抽出モジュール１２０は、
入力テキストをワード分割して、入力テキストの字シーケンスを取得するための第１の字分割サブモジュール１２１と、
字シーケンスを第１の予めトレーニングされた言語モデルに入力して、字シーケンスの第１の意味特徴ベクトルシーケンスを取得するための第１の意味特徴表現サブモジュール１２２と、
第１の意味特徴ベクトルシーケンスを第１のシーケンスラベリングネットワークに入力して、字シーケンスのトリガーワードラベリングシーケンスを取得するための第１のラベリングサブモジュール１２３と、
トリガーワードラベリングシーケンスに基づいて、入力テキストのトリガーワード抽出結果を決定するための第６の結果サブモジュール１２４と、を含む。

本出願の一つの実施例において、第１のシーケンスラベリングネットワークは、第１の条件ランダムフィールドレイヤを含み、第１のラベリングサブモジュール１２３は、
第１の意味特徴ベクトルシーケンスに基づいて、各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するための第１の決定ユニット１２３１と、
第１の条件ランダムフィールドレイヤに対応する第１のラベル遷移確率行列を取得するための第１の取得ユニット１２３２と、
第１のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するための第２の決定ユニット１２３３と、
複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを字シーケンスのトリガーワードラベリングシーケンスとして取得するための第２の取得ユニット１２３４と、を含む。

本出願の一つの実施例において、論元抽出モデルは、第２の予めトレーニングされた言語モデルと、第２のシーケンスラベリングネットワークと、を含み、論元抽出モジュール１３０は、
入力テキストをワード分割して、入力テキストの字シーケンスを取得するための第２の字分割サブモジュール１３１と、
トリガーワード抽出結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するための第７の決定サブモジュール１３２と、
字シーケンスに基づいて、字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するための第８の決定サブモジュール１３３と、
テキスト特徴ベクトルシーケンスとトリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するための融合サブモジュール１３４と、
融合特徴ベクトルシーケンスを第２の予めトレーニングされた言語モデルに入力して、字シーケンスの第２の意味特徴ベクトルシーケンスを取得するための第２の意味特徴表現サブモジュール１３５と、
第２の意味特徴ベクトルシーケンスを第２のシーケンスラベリングネットワークに入力して、字シーケンスの論元ラベリングシーケンスを取得するための第２のラベリングサブモジュール１３６と、
論元ラベリングシーケンスに基づいて、入力テキストの論元を決定するための第９の決定サブモジュール１３７と、を含む。

本出願の一つの実施例において、トリガーワード抽出結果は、入力テキストにおける各字のトリガーワード識別結果を含み、第７の決定サブモジュール１３２は、具体的に、各字のトリガーワード識別結果に基づいて、字シーケンスのトリガーワード特徴ベクトルシーケンスを決定することに用いられる。

具体的に、字シーケンスにおける各字に対して、第７の決定サブモジュール１３２は、各字のトリガーワード識別結果に基づいて、各字に対応するトリガーワード特徴ベクトルを決定し、各字に対応するトリガーワード特徴ベクトルに基づいて、当該字シーケンスのトリガーワード特徴ベクトルシーケンスを形成する。

本出願の一つの実施例において、第２のシーケンスラベリングネットワークは、第２の条件ランダムフィールドレイヤを含み、第２のラベリングサブモジュール１３６は、
第２の意味特徴ベクトルシーケンスに基づいて、各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第３の決定ユニット１３６１と、
第２の条件ランダムフィールドレイヤに対応する第２のラベル遷移確率行列を取得するための第３の取得ユニット１３６２と、
第２のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するための第４の決定ユニット１３６３と、
複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを字シーケンスの論元ラベリングシーケンスとして取得するための第４の取得モジュール１３６４と、を含むことができる。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記テキスト中のイベント抽出方法が実行される。

図１０に示すように、それは本出願の実施例に係るテキスト中のイベント抽出方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図１０に示すように、当該電子機器は、一つ又は複数のプロセッサ１００１と、メモリ１００２と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図１０では、一つのプロセッサ１００１を例とする。

メモリ１００２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本出願により提供されるテキスト中のイベント抽出方法を実行することができるようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供されるテキスト中のイベント抽出方法を実行するためのコンピュータ命令を記憶する。

メモリ１００２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるテキスト中のイベント抽出方法に対応するプログラム命令／モジュール（例えば、図８に示す取得モジュール１１０、トリガーワード抽出モジュール１２０、論元抽出モジュール１３０、及び決定モジュール１４０）ように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ１００１は、メモリ１００２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるテキスト中のイベント抽出方法を実現する。

メモリ１００２は、ストレージプログラム領域とストレージデータ領域とを含むことができ、その中、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、テキスト中のイベント抽出方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ１００２は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ１００２は、プロセッサ１００１に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してテキスト中のイベント抽出方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。

テキスト中のイベント抽出方法の電子機器は、入力装置１００３と出力装置１００４とをさらに含むことができる。プロセッサ１００１、メモリ１００２、入力装置１００３、及び出力装置１００４は、バス又は他の方式を介して接続することができ、図１０では、バスを介して接続することを例とする。

入力装置１００３は、入力された数字又は文字情報を受信することができ、及びテキスト中のイベント抽出方法の電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置１００４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳIＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

本出願の実施例の発明によれば、入力テキストのイベント抽出を行う場合、トリガーワード抽出モジュールによって入力テキストに対してトリガーワード抽出を行って、当該入力テキストのトリガーワード抽出結果を取得し、入力テキスト及びトリガーワード抽出結果を論元抽出モデルに入力して、入力テキストの論元抽出結果を取得し、トリガーワード抽出結果と論元抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、トリガーワード抽出結果と論元抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims

テキスト中のイベント抽出方法であって、
入力テキストを取得するステップと、
前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップと、
前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップと、
前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、
を含む、
ことを特徴とするテキスト中のイベント抽出方法。
前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップは、
前記トリガーワード抽出結果に基づいて、前記入力テキスト中のトリガーワードを決定するステップと、
前記トリガーワードに基づいて、前記トリガーワードが属するイベントタイプを決定するステップと、
前記論元抽出結果に基づいて、前記入力テキスト中の論元を決定するステップと、
前記イベントタイプに基づいて、前記論元が前記イベントタイプで属する論元役割を決定するステップと、
前記トリガーワード、前記イベントタイプ、前記論元及び前記論元役割に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、
を含む、
ことを特徴とする請求項１に記載の方法。
前記トリガーワード抽出モデルは、第１の予めトレーニングされた言語モデルと、第１のシーケンスラベリングネットワークと、を含み、前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するステップは、
前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するステップと、
前記字シーケンスを第１の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第１の意味特徴ベクトルシーケンスを取得するステップと、
前記第１の意味特徴ベクトルシーケンスを前記第１のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するステップと、
前記トリガーワードラベリングシーケンスに基づいて、前記入力テキストのトリガーワード抽出結果を決定するステップと、
を含む、
ことを特徴とする請求項１に記載の方法。
前記第１のシーケンスラベリングネットワークは、第１の条件ランダムフィールドレイヤを含み、前記第１の意味特徴ベクトルシーケンスを前記第１のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するステップは、
前記第１の意味特徴ベクトルシーケンスに基づいて、前記各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するステップと、
前記第１の条件ランダムフィールドレイヤに対応する第１のラベル遷移確率行列を取得するステップと、
前記第１のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するステップと、
前記複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを前記字シーケンスのトリガーワードラベリングシーケンスとして取得するステップと、
を含む、
ことを特徴とする請求項３に記載の方法。
前記論元抽出モデルは、第２の予めトレーニングされた言語モデルと、第２のシーケンスラベリングネットワークと、を含み、前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するステップは、
前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するステップと、
前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップと、
前記字シーケンスに基づいて、前記字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するステップと、
前記テキスト特徴ベクトルシーケンスと前記トリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するステップと、
前記融合特徴ベクトルシーケンスを前記第２の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第２の意味特徴ベクトルシーケンスを取得するステップと、
前記第２の意味特徴ベクトルシーケンスを第２のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するステップと、
前記論元ラベリングシーケンスに基づいて、前記入力テキストの論元を決定するステップと、
を含む、
ことを特徴とする請求項１に記載の方法。
前記第２のシーケンスラベリングネットワークは、第２の条件ランダムフィールドレイヤを含み、前記第２の意味特徴ベクトルシーケンスを第２のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するステップは、
前記第２の意味特徴ベクトルシーケンスに基づいて、前記各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するステップと、
前記第２の条件ランダムフィールドレイヤに対応する第２のラベル遷移確率行列を取得するステップと、
前記第２のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するステップと、
前記複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを前記字シーケンスの論元ラベリングシーケンスとして取得するステップと、
を含む、
ことを特徴とする請求項５に記載の方法。
前記トリガーワード抽出結果は、前記入力テキストにおける各字のトリガーワード識別結果を含み、前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップは、
前記各字のトリガーワード識別結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するステップを含む、
ことを特徴とする請求項５に記載の方法。
テキスト中のイベント抽出装置であって、
入力テキストを取得するための取得モジュールと、
前記入力テキストをトリガーワード抽出モデルに入力して、前記入力テキストのトリガーワード抽出結果を取得するためのトリガーワード抽出モジュールと、
前記入力テキスト及び前記トリガーワード抽出結果を論元抽出モデルに入力して、前記入力テキストの論元抽出結果を取得するための論元抽出モジュールと、
前記トリガーワード抽出結果及び前記論元抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するための決定モジュールと、
を含む、
ことを特徴とするテキスト中のイベント抽出装置。
前記決定モジュールは、
前記トリガーワード抽出結果に基づいて、前記入力テキスト中のトリガーワードを決定するための第１の決定サブモジュールと、
前記トリガーワードに基づいて、前記トリガーワードが属するイベントタイプを決定するための第２の決定サブモジュールと、
前記論元抽出結果に基づいて、前記入力テキスト中の論元を決定するための第３の決定サブモジュールと、
前記イベントタイプに基づいて、前記論元が前記イベントタイプで属する論元役割を決定するための第４の決定サブモジュールと、
前記トリガーワード、前記イベントタイプ、前記論元及び前記論元役割に基づいて、前記入力テキストのイベント抽出結果を決定するための第５の決定サブモジュールと、
を含む、
ことを特徴とする請求項８に記載の装置。
前記トリガーワード抽出モデルは、第１の予めトレーニングされた言語モデルと、第１のシーケンスラベリングネットワークと、を含み、前記トリガーワード抽出モジュールは、
前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するための第１の字分割サブモジュールと、
前記字シーケンスを第１の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第１の意味特徴ベクトルシーケンスを取得するための第１の意味特徴表現サブモジュールと、
前記第１の意味特徴ベクトルシーケンスを前記第１のシーケンスラベリングネットワークに入力して、前記字シーケンスのトリガーワードラベリングシーケンスを取得するための第１のラベリングサブモジュールと、
前記トリガーワードラベリングシーケンスに基づいて、前記入力テキストのトリガーワード抽出結果を決定するための第６の結果サブモジュールと、
を含む、
ことを特徴とする請求項８に記載の装置。
前記第１のシーケンスラベリングネットワークは、第１の条件ランダムフィールドレイヤを含み、前記第１のラベリングサブモジュールは、
前記第１の意味特徴ベクトルシーケンスに基づいて、前記各トリガーワードラベリングラベルで字シーケンスにおける各字の確率値を決定するための第１の決定ユニットと、
前記第１の条件ランダムフィールドレイヤに対応する第１のラベル遷移確率行列を取得するための第１の取得ユニットと、
前記第１のラベル遷移確率行列及び各トリガーワードラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補トリガーワード抽出結果の確率値を決定するための第２の決定ユニットと、
前記複数の候補トリガーワードシーケンスから確率値が最も大きい候補トリガーワードラベリングシーケンスを前記字シーケンスのトリガーワードラベリングシーケンスとして取得するための第２の取得ユニットと、
を含む、
ことを特徴とする請求項１０に記載の装置。
前記論元抽出モデルは、第２の予めトレーニングされた言語モデルと、第２のシーケンスラベリングネットワークと、を含み、前記論元抽出モジュールは、
前記入力テキストをワード分割して、前記入力テキストの字シーケンスを取得するための第２の字分割サブモジュールと、
前記トリガーワード抽出結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定するための第７の決定サブモジュールと、
前記字シーケンスに基づいて、前記字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するための第８の決定サブモジュールと、
前記テキスト特徴ベクトルシーケンスと前記トリガーワード特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するための融合サブモジュールと、
前記融合特徴ベクトルシーケンスを前記第２の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第２の意味特徴ベクトルシーケンスを取得するための第２の意味特徴表現サブモジュールと、
前記第２の意味特徴ベクトルシーケンスを第２のシーケンスラベリングネットワークに入力して、前記字シーケンスの論元ラベリングシーケンスを取得するための第２のラベリングサブモジュールと、
前記論元ラベリングシーケンスに基づいて、前記入力テキストの論元を決定するための第９の決定サブモジュールと、
を含む、
ことを特徴とする請求項８に記載の装置。
前記第２のシーケンスラベリングネットワークは、第２の条件ランダムフィールドレイヤを含み、前記第２のラベリングサブモジュールは、
前記第２の意味特徴ベクトルシーケンスに基づいて、前記各論元ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第３の決定ユニットと、
前記第２の条件ランダムフィールドレイヤに対応する第２のラベル遷移確率行列を取得するための第３の取得ユニットと、
前記第２のラベル遷移確率行列及び各論元ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補論元ラベリングシーケンスの確率値を決定するための第４の決定ユニットと、
前記複数の候補論元シーケンスから確率値が最も大きい候補論元ラベリングシーケンスを前記字シーケンスの論元ラベリングシーケンスとして取得するための第４の取得モジュールと、
を含む、
ことを特徴とする請求項１２に記載の装置。
前記トリガーワード抽出結果は、前記入力テキストにおける各字のトリガーワード識別結果を含み、前記第７の決定サブモジュールは、具体的に、
前記各字のトリガーワード識別結果に基づいて、前記字シーケンスのトリガーワード特徴ベクトルシーケンスを決定することに用いられる、
ことを特徴とする請求項１２に記載の装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項１～７のいずれかに記載の方法を実行する、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１～７のいずれかに記載の方法を実行させる、
ことを特徴とするコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項１～７のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータプログラム。