JP2021099883A - イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品 - Google Patents

イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP2021099883A
JP2021099883A JP2021044655A JP2021044655A JP2021099883A JP 2021099883 A JP2021099883 A JP 2021099883A JP 2021044655 A JP2021044655 A JP 2021044655A JP 2021044655 A JP2021044655 A JP 2021044655A JP 2021099883 A JP2021099883 A JP 2021099883A
Authority
JP
Japan
Prior art keywords
question information
information
vector
question
verbs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021044655A
Other languages
English (en)
Other versions
JP7412382B2 (ja
Inventor
禄 潘
Lu Pan
禄 潘
玉光 陳
Yuguang Chen
玉光 陳
法遠 李
Fayuan Li
法遠 李
翠雲 韓
Cuiyun Han
翠雲 韓
遠▲セン▼ 劉
Yuanzhen Liu
遠▲セン▼ 劉
佳艶 黄
Juayan Huang
佳艶 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021099883A publication Critical patent/JP2021099883A/ja
Application granted granted Critical
Publication of JP7412382B2 publication Critical patent/JP7412382B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

【課題】テキストからのイベント抽出方法の速度及び精度を向上させるイベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品を提供する。【解決手段】イベント抽出方法は、テキスト情報を取得し、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定し、優先順番に従って、複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得し、各質問情報の抽出情報に基づいて、テキスト情報のイベント結果を決定する。【効果】抽出モデルによりテキスト情報を複数の質問情報に対して抽出する際に、各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて後に抽出される質問情報の正解を決定するときに、先に抽出される質問情報の正解を除外し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができる。【選択図】図1

Description

本願は、コンピュータ技術分野におけるデータ処理技術に関し、特にイベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品に関する。
情報抽出は、大量のデータ処理において非常に有用な役割を果たし、そのうち、イベント抽出は、情報抽出分野の重要な研究方向であり、イベント抽出タスクは、テキストからイベントのタイプ、イベントトリガー、イベントの引数役割を含む構造化されたイベント情報を抽出することである。イベント抽出は幅広く応用されており、金融金野では、さまざまな金融活動の位置づけ、定量、定性的分析を行い、人的資源の問題を大幅に解決することができ、医療分野では、診断取扱書及び患者による症状の説明によって、患者の病状を素早く把握し、患者の病状への理解をより明確にすることができる。
しかし、現在のイベント抽出方法は、抽出効果が悪く、イベント抽出によって得られる構造化された情報の精度が低い。
本願は、イベント抽出によって得られる情報の精度が低いという問題を解決するために、イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品を提供する。
上記の技術的課題を解決するために、本願は以下の通り実現する。
本願の第1態様は、テキスト情報を取得することと、前記テキスト情報に基づいて、優先順番を有する複数の質問情報を決定することと、前記優先順番に従って、正解マークベクトルを含む複数の前記質問情報のベクトル情報を抽出モデルに順次入力し、各前記質問情報の抽出情報を取得することと、各前記質問情報の前記抽出情報に基づいて、前記テキスト情報のイベント抽出結果を決定することとを含むイベント抽出方法を提供する。
上記態様においては、複数の前記質問情報のうち1番目に並べ替えられた第1質問情報について、該第1質問情報の正解マークベクトルは、前記テキスト情報の初期マークに基づいて決定され、複数の前記質問情報のうち前記第1質問情報の後に並べ替えられた第2質問情報について、該第2質問情報の正解マークベクトルは、前記第2質問情報の前に並べ替えられた少なくとも1つの前記質問情報の前記抽出情報に基づいて決定されてもよい。
また、上記態様においては、前記ベクトル情報は、位置ベクトルをさらに含み、前記テキスト情報に基づいて、前記優先順番を有する複数の前記質問情報を決定した後であって、前記優先順番に従って、複数の前記質問情報のそれぞれの前記ベクトル情報を前記抽出モデルに順次入力し、複数の前記抽出情報を取得する前に、複数の前記質問情報のそれぞれについて、前記質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得することと、少なくとも1つの前記対象単語のそれぞれの位置ベクトルを取得することと、少なくとも1つの前記対象単語のそれぞれの前記位置ベクトルに基づいて、前記質問情報の位置ベクトルを決定することとをさらに含んでいてもよい。
また、上記態様においては、少なくとも1つの前記対象単語のそれぞれの前記位置ベクトルを取得することは、前記質問情報に含まれる実体の個数がM(Mは正の整数である)以上であり、且つ前記質問情報に含まれる動詞の個数がN(Nは正の整数である)以上である場合、前記質問情報におけるM個の実体及びN個の動詞を取得することと、少なくとも1つの前記対象単語のそれぞれについて、前記対象単語から前記M個の実体までのM個の第1相対的位置、及び前記対象単語から前記N個の動詞までのN個の第2相対的位置をそれぞれ計算することと、前記M個の第1相対的位置、前記N個の第2相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得することと、前記M個の第1位置ベクトルを前記質問情報における前記M個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得することと、前記N個の第2位置ベクトルを前記質問情報における前記N個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得することと、前記第1ステッチベクトル及び前記第2ステッチベクトルをステッチし、ステッチ結果を前記対象単語の位置ベクトルとすることとを含んでいてもよい。
また、上記態様においては、前記質問情報に含まれる前記実体の個数が前記M以上であり、且つ前記質問情報に含まれる前記動詞の個数が前記N以上である場合、前記質問情報における前記M個の実体及び前記N個の動詞を取得することは、前記質問情報に含まれる実体の個数が前記Mより大きく、且つ前記質問情報に含まれる動詞の個数が前記N以上であり、或いは、前記質問情報に含まれる動詞の個数が前記Nより大きく、且つ前記質問情報に含まれる実体の個数が前記M以上である場合、前記質問情報に対して文法依存分析を行い、複数の依存ペアを取得することと、複数の前記依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、m個(mは正の整数である)の実体及びn個(nは正の整数である)の動詞を取得することと、前記mが前記Mより小さい場合、前記質問情報の前記m個の実体以外の実体から、i個(iは前記Mと前記mとの差分である)の実体を選択し、i個の実体を取得することと、前記nが前記Nより小さい場合、前記質問情報の前記n個の動詞以外の動詞から、j個(jは前記Nと前記nとの差分である)の動詞を選択し、j個の動詞を取得することとを含んでいてもよい。
また、上記態様においては、前記テキスト情報に基づいて、前記優先順番を有する複数の前記質問情報を決定することは、前記テキスト情報に基づいて、前記テキスト情報のイベントタイプを決定することと、該イベントタイプに基づいて、複数のイベント引数役割を決定することと、前記イベントタイプを複数の前記イベント引数役割のそれぞれとステッチし、複数の質問を決定することと、複数の前記質問のそれぞれを前記テキスト情報とステッチし、複数の前記質問情報を取得することと、前記イベントタイプにおける各前記イベント引数役割の順番に従って、各前記イベント引数役割に対応する前記質問情報を並べ替え、前記優先順番を有する複数の前記質問情報を決定することとを含んでいてもよい。
本願の第2態様は、テキスト情報を取得する第1取得モジュールと、前記テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する第1決定モジュールと、前記優先順番に従って、正解マークベクトルを含む複数の前記質問情報のベクトル情報を抽出モデルに順次入力し、各前記質問情報の抽出情報を取得する第2取得モジュールと、各前記質問情報の前記抽出情報に基づいて、前記テキスト情報のイベント抽出結果を決定する第2決定モジュールとを備えるイベント抽出装置を提供する。
上記態様においては、複数の前記質問情報のうち1番目に並べ替えられた第1質問情報について、該第1質問情報の正解マークベクトルは前記テキスト情報の初期マークに基づいて決定され、複数の前記質問情報のうち前記第1質問情報の後に並べ替えられた第2質問情報について、該第2質問情報の正解マークベクトルは、前記第2質問情報の前に並べ替えられた少なくとも1つの前記質問情報の前記抽出情報に基づいて決定されてもよい。
また、上記態様においては、前記ベクトル情報は、位置ベクトルをさらに含み、複数の前記質問情報のそれぞれについて、前記質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得する単語分割モジュールと、少なくとも1つの前記対象単語のそれぞれの位置ベクトルを取得する第3取得モジュールと、少なくとも1つの前記対象単語のそれぞれの前記位置ベクトルに基づいて、前記質問情報の位置ベクトルを決定する第3決定モジュールとをさらに備えていてもよい。
また、上記態様においては、前記第3取得モジュールは、前記質問情報に含まれる実体の個数がM(Mは正の整数である)以上であり、且つ前記質問情報に含まれる動詞の個数がN(Nは正の整数である)以上である場合、前記質問情報におけるM個の実体及びN個の動詞を取得する第1取得サブモジュールと、少なくとも1つの前記対象単語のそれぞれについて、前記対象単語から前記M個の実体までのM個の第1相対的位置、及び前記対象単語から前記N個の動詞までのN個の第2相対的位置をそれぞれ計算する計算サブモジュールと、前記M個の第1相対的位置、前記N個の第2相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得するマッピングサブモジュールと、前記M個の第1位置ベクトルを前記質問情報における前記M個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得する第2取得サブモジュールと、前記N個の第2位置ベクトルを前記質問情報における前記N個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得する第3取得サブモジュールと、前記第1ステッチベクトル及び前記第2ステッチベクトルをステッチし、ステッチ結果を前記対象単語の位置ベクトルとする第4取得サブモジュールとを備えていてもよい。
また、上記態様においては、前記第1取得サブモジュールは、前記質問情報に含まれる前記実体の個数が前記Mより大きく、且つ前記質問情報に含まれる前記動詞の個数が前記N以上であり、或いは、前記質問情報に含まれる前記動詞の個数が前記Nより大きく、且つ前記質問情報に含まれる前記実体の個数が前記M以上である場合、前記質問情報に対して文法依存分析を行い、複数の依存ペアを取得する第1取得ユニットと、複数の前記依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、m個(mは正の整数である)の実体及びn個(nは正の整数である)の動詞を取得する第2取得ユニットと、前記mが前記Mより小さい場合、前記質問情報の前記m個の実体以外の実体から、i個(iは前記Mと前記mとの差分である)の実体を選択し、i個の実体を取得する第3取得ユニットと、前記nが前記Nより小さい場合、前記質問情報の前記n個の動詞以外の動詞から、j個(jは前記Nと前記nとの差分である)の動詞を選択し、j個の動詞を取得する第4取得ユニットとを備えていてもよい。
また、上記態様においては、前記第1取得モジュールは、前記テキスト情報に基づいて、前記テキスト情報のイベントタイプを決定する第1決定サブモジュールと、前記イベントタイプに基づいて、複数のイベント引数役割を決定する第2決定サブモジュールと、前記イベントタイプを複数の前記イベント引数役割のそれぞれとステッチし、複数の質問を決定する第3決定サブモジュールと、複数の前記質問のそれぞれを前記テキスト情報とステッチし、複数の前記質問情報を取得するステッチサブモジュールと、前記イベントタイプにおける各前記イベント引数役割の順番に従って、各前記イベント引数役割に対応する前記質問情報を並べ替え、前記優先順番を有する複数の前記質問情報を決定する第4決定サブモジュールとを備えていてもよい。
本願の第3態様は、少なくとも1つのプロセッサと、少なくとも1つの該プロセッサに通信可能に接続されたメモリとを備え、少なくとも1つの前記プロセッサにより実行されると、上記のイベント抽出方法を少なくとも1つの前記プロセッサに実行させる、少なくとも1つの前記プロセッサによって実行可能な命令が前記メモリに記憶されている電子デバイスを提供する。
本願の第4態様は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、上記のイベント抽出方法をコンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
本願の第5態様は、プロセッサによって実行されると、上記のイベント抽出方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本出願の一実施例は、以下のような利点及び有益な効果を有する。
抽出モデルによりテキスト情報を抽出する際に、複数の質問情報を順次抽出し、各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて後に抽出される質問情報の正解を決定する時に、先に抽出される質問情報の正解を除外し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。
また、抽出モデルによりテキスト情報を抽出する際に、第2質問情報の抽出情報を取得する時に、第2質問情報の前に並べ替えられた少なくとも1つの質問情報の抽出情報が考慮され、各質問情報に対応するが正解が異なるため、他の質問情報の正解に基づいて第2質問情報を決定する時に、他の質問情報の正解を除外し、第2質問情報の抽出情報を決定する時の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。
また、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する時に、テキスト情報のイベントタイプに含まれる複数のイベント引数役割に基づいて、複数の質問情報を構成し、イベントタイプにおける複数のイベント引数役割の順番に従って、複数の質問情報の順番を決定することで、後で複数の質問情報の順番に従って、質問情報の正解を順次決定することを容易にする。そして、現在の質問情報の正解を決定する時に、質問情報の前に並べ替えられた他の質問情報の正解を除外し、現在の質問情報の正解の検索範囲を絞り込み、それにより、効率及び精度を向上させる。
また、ベクトル情報は、質問情報の位置ベクトルをさらに含み、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得し、少なくとも1つの対象単語のそれぞれの位置ベクトルを取得し、少なくとも1つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定する。質問情報の位置ベクトルには、質問情報の各対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、対象単語のそれぞれと実体及び動詞との関係が十分に利用され、それにより、情報抽出の精度をさらに向上させることができる。
また、対象単語の位置ベクトルには、対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、質問情報の位置ベクトルが対象単語のそれぞれと実体及び動詞との関係を十分に利用し、それにより、情報抽出の精度をさらに向上させることができる。
また、質問情報に含まれる実体の個数がMより大きく、且つ質問情報に含まれる動詞の個数がN以上であり、或いは、質問情報に含まれる動詞の個数がNより大きく、且つ質問情報に含まれる実体の個数がM以上である場合、質問情報に対して文法依存分析を行い、複数の依存ペアを取得し、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を優先的に選択し、後続の情報抽出の精度を向上させる。
上記の選択可能な形態が有する他の効果は、以下具体的な実施例を参照しながら説明される。
図面は、本技術案をより理解易くするためであり、本願を制限するものではない。
本願の一実施例に係るイベント抽出方法のフローチャートである。 本願の一実施例に係る抽出モデルの各層の構造概略図である。 本願におけるイベント引数役割に基づいて決定される複数の質問情報の処理順番の概略図である。 本願の一実施例に係るイベント抽出装置の構造図である。 本願の一実施例のイベント抽出方法を実現するための電子デバイスのブロック図である。
以下では、図面を参照しながら本願の例示的な実施例を説明するが、この説明には、理解を容易にするために本願の実施例の様々な詳細が含まれるが、これらは単に例示的なものであると考えるべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここで記載される実施例に様々な変更及び修正を加えることができる。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために説明を省略する。
図1を参照すると、図1は、本願の一実施例に係るイベント抽出方法のフローチャートであり、図1に示されるように、本実施例は、電子デバイスに適用されるイベント抽出方法を提供する。イベント抽出方法は、ステップ101〜ステップ104を含む。
ステップ101において、テキスト情報を取得する。
テキスト情報は、ユーザが入力した情報でもよく、検索エンジンがユーザにより入力されたクエリ情報に基づいてクエリを行って取得した検索結果情報であってもよい。テキスト情報は、文字の段落であってもよい。
ステップ102において、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する。
イベント抽出は、一般的に、イベントトリガー(event trigger)に対する抽出及びイベント引数(event argument)に対する抽出を含む。テキスト情報のイベントトリガーにより、イベントタイプを定義することができる。各イベントタイプには、それに対応する役割(role)、即ちイベント引数役割がある。
テキスト情報に基づいて複数の質問情報を決定し、たとえば、テキスト情報のイベントタイプにおけるイベント引数役割に基づいて質問情報を決定し、イベント引数役割ごとに、1つの質問情報が決定され、イベントタイプにおける各イベント引数役割の順番に従って、各質問情報の順番が決定される。
ステップ103において、優先順番に従って、正解マークベクトルを含む複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得する。
複数の質問情報のうち1番目に並べ替えられた第1質問情報について、第1質問情報の正解マークベクトルは、テキスト情報の初期マークに基づいて決定される。複数の質問情報のうち第1質問情報の後に並べ替えられた第2質問情報について、第2質問情報の正解マークベクトルは、第2質問情報の前に並べ替えられた少なくとも1つの質問情報の抽出情報に基づいて決定される。このように、第2質問情報の抽出情報を取得する時に、第2質問情報の前に並べ替えられた少なくとも1つの質問情報の抽出情報が考慮され、各質問情報に対応する正解が異なるため、他の質問情報の正解に基づいて第2質問情報を決定する時に、他の質問情報の正解を除外し、第2質問情報の抽出情報を決定する時の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させることができる。
質問情報の正解マークベクトルは、質問情報の前に並べ替えられた他の質問情報の抽出情報に基づいて決定される。質問情報に対応する抽出情報に基づいて、質問情報に対応する正解を決定することができ、当該正解はテキスト情報における文字である。
複数の質問情報は優先順番を有するため、ランキングにおける2番目以降の正解マークベクトルは、質問情報の前に並べ替えられた他の質問情報の抽出情報により決定され得る。たとえば、複数の質問情報は、順次並べ替えられた第1質問情報、第2質問情報及び第3質問情報である。第2質問情報の正解マークベクトルは第1質問情報の抽出情報に基づいて決定され、第3質問情報の正解マークベクトルは第1質問情報及び第2質問情報の抽出情報に基づいて決定される。
1番目に並べ替えられた質問情報の正解マークベクトルについて、テキスト情報の初期マークに基づいて決定することができ、たとえば、テキスト情報における各文字の初期マークが0であれば、テキスト情報の初期マークに基づいて第1質問情報の正解マークベクトルを決定することができる。ある文字が第2質問情報の前に並べ替えられた質問情報の正解である場合、テキスト情報における当該文字マークは1(第2質問情報の前に並べ替えられた質問情報の正解以外の部分は依然として0とマークされる)とマークされ、その後、第2質問情報の正解マークベクトルはマークに基づいて決定される。即ち、複数の質問情報のベクトル情報は抽出モデルに順次入力され、1回に1つの質問情報のベクトル情報は抽出モデルに入力され、抽出モデルは質問情報の抽出情報を出力し、これは1ラウンドの抽出として見なすことができる。抽出情報は、テキスト情報における正解の開始位置及び終了位置を含むことができ、テキスト情報の具体的な位置が抽出情報に基づいて特定され、抽出内容(文字、フレーズ等)が取得され、抽出内容は質問情報の正解として見なすことができる。
テキスト情報において1つ前のラウンドの抽出で取得した正解をマークし、たとえば、テキスト情報における1つ前のラウンドの質問情報の正解に属する単語(たとえば、単語の下にマークする)を1とマークし、1つ前のラウンドの質問情報の正解以外のものを0とマークする。このように、マークした後のテキスト情報に基づいて元の質問の新しい正解マークベクトルを取得し、抽出情報は、テキスト情報における質問情報の正解の開始位置及び終了位置あってもよく、テキスト情報における具体的な位置が抽出情報に基づいて決定され、さらに質問情報の正解が決定される。
ステップ104として、各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果を決定する。
各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果である質問情報の正解を取得する。
抽出モデルの訓練サンプルは、訓練コーパスに基づいて取得したベクトル情報であってもよく、訓練コーパスに基づいて取得したベクトル情報を用いてニューラルネットワークモデルを訓練し、抽出モデルを取得する。訓練コーパスに基づいてベクトル情報を取得する方法は、本願においてテキスト情報に基づいてベクトル情報を取得する方法と一致するため、説明を省略する。
本実施例において、テキスト情報を取得し、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定し、優先順番に従って、正解マークベクトルを含む複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得し、各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果を決定し、抽出モデルによりテキスト情報を抽出し、複数の質問情報を順次抽出する。各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて、後に抽出される質問情報正解を決定する時に、先に抽出される質問情報の正解を除外し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。
本願の一実施例において、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定することは、テキスト情報に基づいて、テキスト情報のイベントタイプを決定することと、イベントタイプに基づいて、複数のイベント引数役割を決定することと、イベントタイプを複数のイベント引数役割のそれぞれとステッチし、複数の質問を決定することと、複数の質問のそれぞれをテキスト情報とステッチし、複数の質問情報を決定することと、イベントタイプにおける各イベント引数役割の順番に従って、各イベント引数役割に対応する質問情報を並べ替え、優先順番を有する複数の質問情報を決定することとを含む。
本実施例は、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する実施形態を提供する。
先ず、テキスト情報に基づいて、テキスト情報のイベントタイプを決定し、テキスト情報のイベントトリガーにより、イベントタイプを定義することができる。ACEでは、大体7個のメインイベントタイプ及び30個のイベントサブタイプ(subtype)が定義されており、TACでは、8個のメインイベントタイプ及び15個のイベントサブタイプ(subtype)が定義されている。各種のイベントタイプには、対応する役割(role)、即ちイベント引数役割がある。
各イベント引数役割により1つの質問を決定することができ、たとえば、イベントタイプをそれぞれ各イベント引数役割とステッチし、複数の質問を取得する。ステッチする際に、イベントタイプの名称を1つのイベント引数役割の名称とステッチし、1つの質問を取得することができる。さらに、各質問をそれぞれテキスト情報とステッチし、複数の質問情報を取得する。各質問情報において、質問の末端及びテキスト情報の末端の両方ともに予め設定されたキャラクターで標識することができ、たとえば、所定のキャラクター(SEP)で末端位置をマークしてもよい。質問情報は、テキストの段落として見なされてもよい。
イベントタイプに基づいて決定された複数のイベント引数役割同士は優先順番を有し、これにより、イベントタイプにおける各イベント引数役割の順番に従って、各イベント引数役割に対応する質問情報を並べ替え、優先順番を有する複数の質問情報を決定する。たとえば、イベントタイプがAであり、Aが3つのイベント引数役割を有し、これらの順番はイベント引数役割1、イベント引数役割2及びイベント引数役割3であり、イベント引数役割1、イベント引数役割2及びイベント引数役割3のそれぞれにより、質問情報1、質問情報2、質問情報3という3つの質問情報が構成可能であり、そうすると、この3つの質問情報の順番はそれぞれ質問情報1、質問情報2、質問情報3となる。
本実施例において、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する際に、テキスト情報のイベントタイプに含まれる複数のイベント引数役割に基づいて、複数の質問情報を構成し、イベントタイプにおける複数のイベント引数役割の順番に従って、複数の質問情報の順番を決定することで、後続で複数の質問情報の順番に従って質問情報の正解を順次決定することを容易にし、且つ現在の質問情報の正解を決定する際に、質問情報の前に並べ替えられた他の質問情報の正解を除外し、現在の質問情報の正解の検索範囲を絞り込み、それにより、効率及び精度を向上させる。
本願の一実施例において、ベクトル情報は位置ベクトルをさらに含み、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定した後であって、優先順番に従って、複数の質問情報における各質問情報のベクトル情報を抽出モデルに順次入力し、複数の抽出情報を取得する前に、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得することと、少なくとも1つの対象単語のそれぞれの位置ベクトルを取得することと、少なくとも1つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定することとをさらに含む。
質問情報をテキストの段落と見なすことができ、質問情報のいずれについてもその位置ベクトルを取得することができ、取得方法として、先ず、質問情報に対して単語分割を行い、少なくとも1つの単語を取得し、単語分割処理を行って取得した各単語のいずれも対象単語としてもよい。たとえば、質問情報が「小明が中華街に来た」である場合、単語分割処理により「小明が」、「中華街に」、「来た」との3つの単語が取得され、この3つの単語は3つの対象単語となる。その後、対象単語ごとに位置ベクトルを取得し、対象単語ごとに1つの位置ベクトルを取得する。対象単語の位置ベクトルは、対象単語のそれぞれと質問情報における実体及び動詞との間の距離に基づいて決定され、たとえば、質問情報における、対象単語と実体との間の距離、対象単語と動詞との間の距離に基づいて決定される。質問情報において人物、組織、場所又は機関等を示す単語は実体として見なされてもよい。最後に、各対象単語の位置ベクトルをステッチし、1つの質問情報の位置ベクトルを取得する。たとえば、位置ベクトルがそれぞれA及びBである2つの対象単語が質問情報に含まれている場合、A及びBに対してキャラクターのステッチを行い、質問情報の位置ベクトルを取得することができる。ここで、符号A及びBを用いて2つの位置ベクトルを表すが、A及びBが位置ベクトルの表示式であることに限定するわけではない。各質問情報について、取得過程を繰り返すことで、各質問情報に対応する位置ベクトルを取得することができる。
質問情報のベクトル情報は、単語ベクトル及び品詞性ベクトルをさらに含んでもよい。単語ベクトルの取得過程は、訓練サンプルにニュースタイトル及び本文を含む教師なしモデルに対象単語を入力して対象単語の単語ベクトルを取得し、その後、各対象単語の単語ベクトルをステッチし、質問情報の単語ベクトルを取得することを含む。品詞性ベクトル(POS Embedding)は、対象単語の品詞性を多次元ベクトルにマッピングしたものを指し、同じ品詞性は同じベクトルを用いて初期化し、認識モデルの訓練において、訓練コーパス及び対象に応じて品詞性ベクトルの値を最適化し、その後、各対象単語の品詞性ベクトルをステッチし、質問情報の品詞性ベクトルを取得する。
さらに、質問情報のベクトル情報は、名詞ベクトル及び指示語ベクトルをさらに含んでいてもよい。名詞は、言語ツールにより抽出され、たとえば人物、機関、地方等の実体名詞であってもよく、たとえば彼、彼女、あいつなどの指示語は、規則に従って取得する。
本実施例において、ベクトル情報は、質問情報の位置ベクトルをさらに含み、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得し、少なくとも1つの対象単語のそれぞれの位置ベクトルを取得し、少なくとも1つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定する。質問情報の位置ベクトルには、質問情報の対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、対象単語のそれぞれと実体及び動詞との関係が十分に利用され、それにより、情報抽出の精度をさらに向上させることができる。
本願の一実施例において、少なくとも1つの対象単語のそれぞれの位置ベクトルを取得することは、質問情報に含まれる実体の個数がM(Mは正の整数である)以上であり、且つ質問情報に含まれる動詞の個数がN(Nは正の整数である)以上である場合、質問情報におけるM個の実体及びN個の動詞を取得することと、少なくとも1つの対象単語のそれぞれについて、対象単語からM個の実体までのM個の第1相対的位置、及び対象単語からN個の動詞までのN個の第2相対的位置をそれぞれ計算することと、M個の第1相対的位置、N個の第2相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得することと、M個の第1位置ベクトルを質問情報におけるM個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得することと、N個の第2位置ベクトルを質問情報におけるN個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得することと、第1ステッチベクトル及び第2ステッチベクトルをステッチし、ステッチ結果を対象単語の位置ベクトルとすることとを含む。
本実施例において、M及びNは、予め設定された値であり、予め設定することができ、たとえば、Mを2に設定し、Nを1に設定する。好ましくは、Mは3であり、Nは2である。質問情報に含まれる実体の個数がM以上であり、且つ質問情報に含まれる動詞の個数がN以上である場合、即ち、質問情報に含まれる実体の個数及び動詞の個数がいずれもそれぞれの予め設定された値以上である場合、質問情報からM個の実体及びN個の動詞を取得することができる。
少なくとも1つの対象単語のそれぞれについて、対象単語からM個の実体までのM個の第1相対的位置、及び対象単語からN個の動詞までのN個の第2相対的位置をそれぞれ計算する。たとえば、少なくとも1つの対象単語が第1対象単語及び第2対象単語を含み、実体が第1実体及び第2実体を含み、動詞が第1動詞を含む場合、第1対象単語と第1実体との間の第1相対的位置、及び第1対象単語と第2実体との間の第2相対的位置を計算し、2つの第1相対的位置を取得し、第1対象単語と第1動詞との間の第2相対的位置を計算し、1つの第2相対的位置を取得する。
同様に、第2対象単語について、第2対象単語と第1実体との間の第1相対的位置、及び第2対象単語と第2実体との間の第2相対的位置を計算し、2つの第1相対的位置を取得し、第2対象単語と第1動詞との間の第2相対的位置を計算し、1つの第2相対的位置を取得する。
次に、各対象単語について、対象単語に対応するM個の第1相対的位置、N個の第2相対的位置を予め設定された次元の正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得する。予め設定された次元は、実際の状況に応じて設定することができ、ここで限定されない。
さらに、対象単語に対応するM個の第1位置ベクトルを、質問情報におけるM個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得し、対象単語に対応するN個の第2位置ベクトルを質問情報におけるN個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得する。ステッチは、キャラクター列に対するステッチとして理解でき、即ち、キャラクター列のようにM個の第1位置ベクトルの首尾をそれぞれステッチする。
その後、対象単語に対応する第1ステッチベクトル及び第2ステッチベクトルをステッチし、ステッチ結果を対象単語の位置ベクトルとする。本願において、ステッチは、キャラクター列の形で第1ステッチベクトル及び第2ステッチベクトルの首尾をそれぞれステッチするものとして理解してもよい。
本実施例において、質問情報からM個の実体及びN個の動詞を選択し、その後少なくとも1つの対象単語のそれぞれついて、対象単語からM個の実体までのM個の第1相対的位置、及び対象単語からN個の動詞までのN個の第2相対的位置をそれぞれ計算し、その後、M個の第1相対的位置、N個の第2相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得し、さらにM個の第1位置ベクトルを質問情報におけるM個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得し、N個の第2位置ベクトルを質問情報におけるN個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得し、最後に、第1ステッチベクトル及び第2ステッチベクトルをステッチし、ステッチ結果を対象単語の位置ベクトルとする。このように、対象単語の位置ベクトルには、対象単語のそれぞれと質問情報の実体及び動詞との間の相対的位置が含まれており、このように、質問情報の位置ベクトルは、対象単語のそれぞれと実体及び動詞との関係を十分に利用することができ、それによって、情報抽出の精度さらに向上させることができる。
本願の一実施例において、質問情報に含まれる実体の個数がM以上であり、且つ質問情報に含まれる動詞の個数がN以上である場合、質問情報におけるM個の実体及びN個の動詞を取得することは、質問情報に含まれる実体の個数がMより大きく、且つ質問情報に含まれる動詞の個数がN以上であり、或いは、質問情報に含まれる動詞の個数がNより大きく、且つ質問情報に含まれる実体の個数がM以上である場合、質問情報に対して文法依存(Syntactic dependency)分析を行い、複数の依存ペアを取得することと、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、m個(mは正の整数である)の実体及びn個(nは正の整数である)の動詞を取得することと、mがMより小さい場合、質問情報のm個の実体以外の実体からi個(iはMとmとの差分である)の実体を選択し、i個の実体を取得することと、nがNより小さい場合、質問情報のn個の動詞以外の動詞からj個(jはNとnとの差分であるの動詞を選択し、j個)の動詞を取得することとを含む。
本実施例において、質問情報の実体の個数がMより大きく、且つ動詞の個数がN以上であり、或いは、質問情報の動詞の個数がNより大きく、且つ実体の個数がM以上である場合、質問情報の実体及び動詞からM個の実体及びN個の動詞を選択する。
選択する際に、同一依存ペアにおける実体及び動詞を優先的に選択し、即ち実体と動詞との間に依存関係が直接発生し、1つの依存ペアが構成される。たとえば、張三が王五を呼んでくれるように李四を呼ぶ場合、「張三」と「呼んでくれる」との間には直接関係があり、同一依存ペアにおいて、「張三」と「呼んでくれる」との間には直接関係がなく、この場合、同一依存ペアにおける実体「張三」及び動詞「呼ぶ」が優先的に選択される。
同一依存ペアにおける全ての実体及び動詞を選択した後、実体の個数がMより少ない場合、最終的に選択した実体の総数がM個となるように、質問情報の残りの実体からi個の実体を選択する。質問情報の残りの実体からi個の実体を選択する場合、残りの実体の重要性に基づいて選択してもよく、又は質問情報における残りの実体の優先順番に従って選択してもよく、ここで限定しない。
動詞の個数がNより少ない場合、最終的に選択した動詞の総数がN個となるように、質問情報の残りの動詞からj個の動詞を選択する。質問情報の残りの動詞からj個の動詞を選択する場合、残りの動詞の重要性の得点数に基づいて選択してもよく、又は質問情報における残りの動詞の優先順番に従って選択してもよく、ここで限定しない。
本実施例において、質問情報に含まれる実体の個数がMより大きく、且つ質問情報に含まれる動詞の個数がN以上であり、或いは、質問情報に含まれる動詞の個数がNより大きく、且つ質問情報に含まれる実体の個数がM以上である場合、質問情報に対して文法依存分析を行い、複数の依存ペアを取得し、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を優先的に選択し、それにより、後続の情報抽出の精度を向上させる。
本願の一実施例において、少なくとも1つの対象単語のそれぞれの位置情報を取得することは、少なくとも1つの対象単語のそれぞれについて、質問情報に含まれる実体の個数U(Uは正の整数である)がM(Mは正の整数である)より少ない場合、対象単語からU個の実体までのU個の第1相対的位置を取得することと、0ベクトルを用いてU個の第1相対的位置を初期化し、M個の第1相対的位置を取得することと、質問情報に含まれる動詞の個数V(Vは正の整数である)がN(Nは正の整数である)より少ない場合、対象単語からV個の動詞までのV個の第2相対的位置を取得することと、0ベクトルを用いてV個の第2相対的位置を初期化し、N個の第2相対的位置を取得することと、M個の第1相対的位置、N個の第2相対的位置をそれぞれ正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得することと、M個の第1位置ベクトルを質問情報におけるM個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得することと、N個の第2位置ベクトルを質問情報におけるN個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得することと、第1ステッチベクトル及び第2ステッチベクトルをステッチし、ステッチ結果を対象単語の位置ベクトルとすることとを含む。
本実施例は、質問情報に含まれる実体の個数又は動詞の個数が予め設定された値より少ない場合である。M及びNは予め設定された値であり、予め設定することができ、好ましくは、Mは3であり、Nは2である。
質問情報に含まれる実体の個数UがMより少ない場合、対象単語からU個の実体までのU個の第1相対的位置を取得し、その後、0ベクトルを用いてU個の第1相対的位置を初期化し、M個の第1相対的位置を取得し、初期化する際に、少なくとも1つの0ベクトルを用いてU個の第1相対的位置に対して充填を行い、M個の第1相対的位置を取得することができる。1つの0ベクトルの長さ及び1つの位置ベクトルの長さは同じである。質問情報に含まれる実体の個数VがNより少ない場合、対象単語からV個の実体までのV個の第2相対的位置を取得し、その後、0ベクトルを用いてV個の第2相対的位置を初期化し、N個の第2相対的位置を取得し、初期化する際に、少なくとも1つの0ベクトルを用いてV個の第2相対的位置に対して充填を行い、N個の第2相対的位置を取得することができる。1つの0ベクトルの長さ及び1つの位置ベクトルの長さは同じである。最後に、M個の第1相対的位置、N個の第2相対位置をそれぞれ正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得する。M個の第1位置ベクトルを質問情報におけるM個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得し、N個の第2位置ベクトルを質問情報におけるN個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得し、第1ステッチベクトル及び第2ステッチベクトルをステッチし、ステッチ結果を対象単語の位置ベクトルとする。質問情報における全ての対象単語について、いずれも上記の方式で処理し、各対象単語に対応する位置ベクトルを取得することができる。
本実施例において、質問情報に含まれる実体の個数又は動詞の個数が予め設定された値より少ない場合、0ベクトルを用いてU個の第1相対的位置又はV個の第2相対的位置を初期化し、M個の第1相対的位置及びN個の第2相対的位置を取得し、最終的に対象単語に対応する位置ベクトルを取得する。質問情報の位置ベクトルには、質問情報の各対象単語のそれぞれと質問情報の実体及び動詞との間の相対的位置が含まれており、このように、対象単語のそれぞれと実体及び動詞との関係が十分に利用され、それにより、情報抽出の精度をさらに向上させることができる。
本実施例において、質問情報に基づいて取得した単語ベクトル、位置ベクトル及び正解マークベクトルは、抽出モデルの訓練段階に適用することができる。図2は、抽出モデルの各層の構造概略図であり、図2に示されるように、入力層:構築された質問−ドキュメントペア<質問,ドキュメント>に基づいて取得した単語ベクトル、位置ベクトル及び正解マークベクトルを入力する。ここで、質問は、訓練コーパスのイベントタイプ及び1つのイベント引数役割の名称をステッチしたものであり、ドキュメント(即ち訓練コーパス)は、イベント引数の正解を潜在的に含む内容である。1つの質問及びドキュメントがステッチされて1つの文(即ち質問情報)となり、質問及びドキュメントの末端位置が(SEP)で標識される。ステッチにより得られた文について単語分割処理を行い、それぞれいずれも単語ベクトル及び位置ベクトルを有する対象単語を取得し、各対象単語の単語ベクトル及び位置ベクトルのそれぞれに基づいて、文の単語ベクトル及び位置ベクトルを取得することができる。また、文の正解マークベクトル、即ちドキュメントにおける1つ前のラウンドの質問に対する正解の位置をさらに取得し、回答済みの位置に1をマークし、回答していない位置に0をマークし、その後、マークした後のドキュメントをベクトルに変換して正解マークベクトルとする。モデルネットワーク:基本的なニューラルネットワークモデルを用いることができる。
出力層:本ラウンドの質問情報の正解のドキュメントにおける開始位置及び終了位置である。
図3は、イベントタイプにおいてイベント引数役割に基づいて決定される複数の質問情報の処理の概略図であり、図3に示すように、質問を問い合わせる順番は、先ず、イベントのイベントトリガーを問い合わせ、次に、イベントの全てのイベント引数役割を問い合わせ、役割の順番は固定であるものであり、本回の問い合わせにおいて、以前問い合わせて出力した正解を統合し、現在の問い合わせ条件下での履歴回答のマークを生成し、訓練コーパス(又はテキスト情報)におけるあるキャラクターが以前の問い合わせ過程での正解である場合、キャラクター位置に1をマークし、それ以外の場合は0をマークする。
図3から分かるように、前に並べ替えられたイベント引数役割(具体的には、イベント引数役割に基づいて決定された質問情報)の出力結果(即ち抽出情報)は、後に並べ替えられたイベント引数役割の出力結果に影響する。
本願は、イベント引数役割を基礎とする質問を構築することにより、読解術を利用して対象正解を学習し、また、同じ正解に複数の役割が割り当てられないため、異なる役割の正解を取得すると、回答済みの正解を特徴の一部とし、それにより、抽出モデルの候補項を減らし、モデル効果をさらに向上させることができる。テキスト情報に対してイベント抽出を行って構造化情報を得ることで、テキスト内容に対する電子デバイスの理解能力を向上させ、大量の情報を減らし、作業效率をさらに向上させることができる。
図4を参照すると、図4は、本願の一実施例に係るイベント抽出装置の構造図であり、図4に示されるように、本実施例に係るイベント抽出装置400は、テキスト情報を取得する第1取得モジュール401と、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する第1決定モジュール402と、優先順番に従って、正解マークベクトルを含む複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得する第2取得モジュール403と、各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果を決定する第2決定モジュール404とを備える。
本願の一実施例において、複数の質問情報のうち1番目に並べ替えられた第1質問情報について、第1質問情報の正解マークベクトルはテキスト情報の初期マークに基づいて決定され、複数の質問情報のうち第1質問情報の後に並べ替えられた第2質問情報について、第2質問情報の正解マークベクトルは、第2質問情報の前に並べ替えられた少なくとも1つの質問情報の抽出情報に基づいて決定される。
本願の一実施例において、ベクトル情報は、位置ベクトルをさらに含み、イベント抽出装置は、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得する単語分割モジュールと、少なくとも1つの対象単語のそれぞれの位置ベクトルを取得する第3取得モジュールと、少なくとも1つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定する第3決定モジュールとをさらに備える。
本願の一実施例において、第3取得モジュールは、質問情報に含まれる実体の個数がM(Mは正の整数である)以上であり、且つ質問情報に含まれる動詞の個数がN(Nは正の整数である)以上である場合、質問情報におけるM個の実体及びN個の動詞を取得する第1取得サブモジュールと、少なくとも1つの対象単語のそれぞれについて、対象単語からM個の実体までのM個の第1相対的位置、対象単語からN個の動詞までのN個の第2相対的位置をそれぞれ計算する計算サブモジュールと、M個の第1相対的位置、N個の第2相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルをそれぞれ取得するマッピングサブモジュールと、M個の第1位置ベクトルを質問情報におけるM個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得する第2取得サブモジュールと、N個の第2位置ベクトルを質問情報におけるN個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得する第3取得サブモジュールと、第1ステッチベクトル及び第2ステッチベクトルをステッチし、ステッチ結果を対象単語の位置ベクトルとする第4取得サブモジュールとを備える。
本願の一実施例において、第1取得サブモジュールは、質問情報に含まれる実体の個数がMより大きく、且つ質問情報に含まれる動詞の個数がN以上であり、或いは、質問情報に含まれる動詞の個数がNより大きく、且つ質問情報に含まれる実体の個数がM以上である場合、質問情報に対して文法依存分析を行い、複数の依存ペアを取得する第1取得ユニットと、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、m個(mは正の整数である)の実体及びn個(nは正の整数である)の動詞を取得する第2取得ユニット、mがMより小さい場合、質問情報のm個の実体以外の実体から、i個(iはMとmとの差分である)の実体を選択し、i個の実体を取得する第3取得ユニットと、nがNより小さい場合、質問情報のn個の動詞以外の動詞から、j個(jはNとnとの差分である)の動詞を選択し、j個の動詞を取得する第4取得ユニットとを備える。
本願の一実施例において、第1取得モジュールは、テキスト情報に基づいて、テキスト情報のイベントタイプを決定する第1決定サブモジュールと、イベントタイプに基づいて、複数のイベント引数役割を決定する第2決定サブモジュールと、イベントタイプを複数のイベント引数役割のそれぞれとステッチし、複数の質問を決定する第3決定サブモジュールと、複数の質問のそれぞれをテキスト情報とステッチし、複数の質問情報を取得するステッチサブモジュールと、イベントタイプにおける各イベント引数役割の順番に従って、各イベント引数役割に対応する質問情報を並べ替え、優先順番を有する複数の質問情報を決定する第4決定サブモジュールとを備える。
イベント抽出装置400は、図1に示すイベント抽出方法の実施例における電子デバイスが実現する各過程を実現することができ、重複を回避するために、ここでは、説明を省略する。
本願の実施例のイベント抽出装置400は、テキスト情報を取得し、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定し、優先順番に従って、正解マークベクトルを含む複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得し、各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果を決定する。抽出モデルによりテキスト情報を抽出する際に、複数の質問情報を順次抽出し、各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて後に抽出される質問情報の正解を決定する時に、先に抽出される質問情報の正解を排除し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。
本願の一実施例において、本願は、電子デバイス及び読み取り可能な記憶媒体をさらに提供する。
図5には、本願の一実施例に係るイベント抽出方法の電子デバイスのブロック図が示されている。電子デバイスは、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを指すことを意図している。
電子デバイスは、たとえば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他の類似のコンピューティング装置など、様々な形式の移動装置を示してもよい。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる一例であるが、本明細書の説明及び/又は要求される本願の実現を制限する意図はしない。
図5に示されるように、この電子デバイスは、少なくとも1つのプロセッサ501、メモリ502、及び高速インターフェースと低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースを含む。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ、又は必要に応じて他の方式で取り付けられ得る。プロセッサは電子デバイス内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力/出力装置(たとえば、インターフェースに結合された表示デバイスなど)にGUIのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び/又は複数のバスを、必要に応じて、複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続することができ、各デバイスは必要な操作の一部(たとえば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)を提供する。図5では、1つのプロセッサ501の場合が例示されている。
メモリ502は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。メモリは、本願の一実施例に係るイベント抽出方法を少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行可能な命令を格納している。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願の一実施例に係るイベント抽出方法をコンピュータに実行させるためのコンピュータ命令を格納している。
非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ502は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、たとえば、本願の一実施例に係るイベント抽出方法に対応するプログラム命令/モジュール(たとえば、図4に示す第1取得モジュール401、第1決定モジュール402、第2取得モジュール405及び第2決定モジュール404)を格納することができる。プロセッサ501は、メモリ502に格納された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記実施例におけるイベント抽出方法を実現する。
メモリ502は、プログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域は、オペレーティングシステム、及び少なくとも1つの機能に必要なアプリケーションプログラムを格納し、データ記憶領域は、イベント抽出方法を実現する電子デバイスの使用に従って作成されたデータなどを格納する。さらに、メモリ502は、高速ランダムアクセスメモリを含み、さらに、たとえば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。他の実施例として、メモリ502は、プロセッサ501に対して遠隔的に設置されるメモリを選択的に含んでいてもよく、これらの遠隔メモリは、ネットワークを介してイベント抽出方法を実現する電子デバイスに接続され得る。上記ネットワークの一例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
イベント抽出方法を実現する電子デバイスは、入力装置503及び出力装置504をさらに含んでいてもよい。プロセッサ501、メモリ502、入力装置503及び出力装置504はバス又はその他の方式で接続してもよく、図5には、バスによる接続が例示されている。
入力装置503は、入力される数字又はキャラクター情報を受信すること、イベント抽出方法を実現する電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成することができる。入力装置としては、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック等の入力装置がある。出力装置504は、表示デバイス、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含む。この表示デバイスは、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示デバイスはタッチスクリーンであり得る。
ここで説明するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASMC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、少なくとも1つのコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)には、プログラム可能なプロセッサの機械命令が含まれ、高度なプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械語を用いてこれらのコンピューティングプログラムを実施できる。たとえば、本明細書で使用される「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサの任意のコンピュータプログラム製品、デバイス、及び/又は装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))に提供するものを指し、機械読み取り可能な信号としての機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラム可能なプロセッサに機械命令及び/又はデータを提供するために使用される任意の信号を指す。
ユーザと対話できるように、ここで説明するシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(たとえば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(たとえば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
ここで説明するシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインターフェース又はWEBブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのWEBブラウザーを介してここで説明するシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して互いに会話するのが一般的である。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント−サーバの関係を持つコンピュータプログラムによって生成される。
本願の一実施例の技術案によれば、以下の有益な効果を含む。
抽出モデルによりテキスト情報を抽出する際に、複数の質問情報を順次抽出し、各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて後に抽出される質問情報の正解を決定する時に、先に抽出される質問情報の正解を除外し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。
抽出モデルによりテキスト情報を抽出する際に、第2質問情報の抽出情報を取得する時に、第2質問情報の前に並べ替えられた少なくとも1つの質問情報の抽出情報が考慮され、各質問情報に対応するが正解が異なるため、他の質問情報の正解に基づいて第2質問情報を決定する時に、他の質問情報の正解を除外し、第2質問情報の抽出情報を決定する時の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。
テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する時に、テキスト情報のイベントタイプに含まれる複数のイベント引数役割に基づいて、複数の質問情報を構成し、イベントタイプにおける複数のイベント引数役割の順番に従って、複数の質問情報の順番を決定することで、後で複数の質問情報の順番に従って、質問情報の正解を順次決定することを容易にし、現在の質問情報の正解を決定する時に、質問情報の前に並べ替えられた他の質問情報の正解を除外し、現在の質問情報の正解の検索範囲を絞り込み、それにより、効率及び精度を向上させる。
ベクトル情報は、質問情報の位置ベクトルをさらに含み、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得し、少なくとも1つの対象単語のそれぞれの位置ベクトルを取得し、少なくとも1つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定する。質問情報の位置ベクトルには、質問情報の各対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、対象単語のそれぞれと実体及び動詞との関係が十分に利用され、それにより、情報抽出の精度をさらに向上させることができる。
対象単語の位置ベクトルには、対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、質問情報の位置ベクトルが対象単語のそれぞれと実体及び動詞との関係を十分に利用し、それにより、情報抽出の精度をさらに向上させることができる。
質問情報に含まれる実体の個数がMより大きく、且つ質問情報に含まれる動詞の個数がN以上であり、或いは、質問情報に含まれる動詞の個数がNより大きく、且つ質問情報に含まれる実体の個数がM以上である場合、質問情報に対して文法依存分析を行い、複数の依存ペアを取得し、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を優先的に選択することで、後続の情報抽出の精度を向上させる。
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。たとえば、本願に記載の各ステップは、本願開示の技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順序で実施してもよく、本明細書では、それについて限定しない。
上記の特定実施形態は、本願の特許範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができる。本願の精神及び原則の範囲内で行われた修正、同等の置換、及び改良であれば、本願の特許範囲に含まれるものとする。

Claims (15)

  1. テキスト情報を取得することと、
    前記テキスト情報に基づいて、優先順番を有する複数の質問情報を決定することと、
    前記優先順番に従って、正解マークベクトルを含む複数の前記質問情報のベクトル情報を抽出モデルに順次入力し、各前記質問情報の抽出情報を取得することと、
    各前記質問情報の前記抽出情報に基づいて、前記テキスト情報のイベント抽出結果を決定することとを含むイベント抽出方法。
  2. 複数の前記質問情報のうち1番目に並べ替えられた第1質問情報について、該第1質問情報の正解マークベクトルは、前記テキスト情報の初期マークに基づいて決定され、
    複数の前記質問情報のうち前記第1質問情報の後に並べ替えられた第2質問情報について、該第2質問情報の正解マークベクトルは、前記第2質問情報の前に並べ替えられた少なくとも1つの前記質問情報の前記抽出情報に基づいて決定される請求項1に記載のイベント抽出方法。
  3. 前記ベクトル情報は、位置ベクトルをさらに含み、
    前記テキスト情報に基づいて、前記優先順番を有する複数の前記質問情報を決定した後であって、前記優先順番に従って、複数の前記質問情報のそれぞれの前記ベクトル情報を前記抽出モデルに順次入力し、複数の前記抽出情報を取得する前に、
    複数の前記質問情報のそれぞれについて、前記質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得することと、
    少なくとも1つの前記対象単語のそれぞれの位置ベクトルを取得することと、
    少なくとも1つの前記対象単語のそれぞれの前記位置ベクトルに基づいて、前記質問情報の位置ベクトルを決定することとをさらに含む請求項1に記載のイベント抽出方法。
  4. 少なくとも1つの前記対象単語のそれぞれの前記位置ベクトルを取得することは、
    前記質問情報に含まれる実体の個数がM(Mは正の整数である)以上であり、且つ前記質問情報に含まれる動詞の個数がN(Nは正の整数である)以上である場合、前記質問情報におけるM個の実体及びN個の動詞を取得することと、
    少なくとも1つの前記対象単語のそれぞれについて、前記対象単語から前記M個の実体までのM個の第1相対的位置、及び前記対象単語から前記N個の動詞までのN個の第2相対的位置をそれぞれ計算することと、
    前記M個の第1相対的位置、前記N個の第2相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得することと、
    前記M個の第1位置ベクトルを前記質問情報における前記M個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得することと、
    前記N個の第2位置ベクトルを前記質問情報における前記N個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得することと、
    前記第1ステッチベクトル及び前記第2ステッチベクトルをステッチし、ステッチ結果を前記対象単語の位置ベクトルとすることとを含む請求項3に記載のイベント抽出方法。
  5. 前記質問情報に含まれる前記実体の個数が前記M以上であり、且つ前記質問情報に含まれる前記動詞の個数が前記N以上である場合、前記質問情報における前記M個の実体及び前記N個の動詞を取得することは、
    前記質問情報に含まれる実体の個数が前記Mより大きく、且つ前記質問情報に含まれる動詞の個数が前記N以上であり、或いは、前記質問情報に含まれる動詞の個数が前記Nより大きく、且つ前記質問情報に含まれる実体の個数が前記M以上である場合、前記質問情報に対して文法依存分析を行い、複数の依存ペアを取得することと、
    複数の前記依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、m個(mは正の整数である)の実体及びn個(nは正の整数である)の動詞を取得することと、
    前記mが前記Mより小さい場合、前記質問情報の前記m個の実体以外の実体から、i個(iは前記Mと前記mとの差分である)の実体を選択し、i個の実体を取得することと、
    前記nが前記Nより小さい場合、前記質問情報の前記n個の動詞以外の動詞から、j個(jは前記Nと前記nとの差分である)の動詞を選択し、j個の動詞を取得することとを含む請求項4に記載のイベント抽出方法。
  6. 前記テキスト情報に基づいて、前記優先順番を有する複数の前記質問情報を決定することは、
    前記テキスト情報に基づいて、前記テキスト情報のイベントタイプを決定することと、
    該イベントタイプに基づいて、複数のイベント引数役割を決定することと、
    前記イベントタイプを複数の前記イベント引数役割のそれぞれとステッチし、複数の質問を決定することと、
    複数の前記質問のそれぞれを前記テキスト情報とステッチし、複数の前記質問情報を取得することと、
    前記イベントタイプにおける各前記イベント引数役割の順番に従って、各前記イベント引数役割に対応する前記質問情報を並べ替え、前記優先順番を有する複数の前記質問情報を決定することとを含む請求項1に記載のイベント抽出方法。
  7. テキスト情報を取得する第1取得モジュールと、
    前記テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する第1決定モジュールと、
    前記優先順番に従って、正解マークベクトルを含む複数の前記質問情報のベクトル情報を抽出モデルに順次入力し、各前記質問情報の抽出情報を取得する第2取得モジュールと、
    各前記質問情報の前記抽出情報に基づいて、前記テキスト情報のイベント抽出結果を決定する第2決定モジュールとを備えるイベント抽出装置。
  8. 複数の前記質問情報のうち1番目に並べ替えられた第1質問情報について、該第1質問情報の正解マークベクトルは前記テキスト情報の初期マークに基づいて決定され、
    複数の前記質問情報のうち前記第1質問情報の後に並べ替えられた第2質問情報について、該第2質問情報の正解マークベクトルは、前記第2質問情報の前に並べ替えられた少なくとも1つの前記質問情報の前記抽出情報に基づいて決定される請求項7に記載のイベント抽出装置。
  9. 前記ベクトル情報は、位置ベクトルをさらに含み、
    複数の前記質問情報のそれぞれについて、前記質問情報に対して単語分割処理を行い、少なくとも1つの対象単語を取得する単語分割モジュールと、
    少なくとも1つの前記対象単語のそれぞれの位置ベクトルを取得する第3取得モジュールと、
    少なくとも1つの前記対象単語のそれぞれの前記位置ベクトルに基づいて、前記質問情報の位置ベクトルを決定する第3決定モジュールとをさらに備える請求項7に記載のイベント抽出装置。
  10. 前記第3取得モジュールは、
    前記質問情報に含まれる実体の個数がM(Mは正の整数である)以上であり、且つ前記質問情報に含まれる動詞の個数がN(Nは正の整数である)以上である場合、前記質問情報におけるM個の実体及びN個の動詞を取得する第1取得サブモジュールと、
    少なくとも1つの前記対象単語のそれぞれについて、前記対象単語から前記M個の実体までのM個の第1相対的位置、及び前記対象単語から前記N個の動詞までのN個の第2相対的位置をそれぞれ計算する計算サブモジュールと、
    前記M個の第1相対的位置、前記N個の第2相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、M個の第1位置ベクトル及びN個の第2位置ベクトルを取得するマッピングサブモジュールと、
    前記M個の第1位置ベクトルを前記質問情報における前記M個の実体の優先順番に従ってステッチし、第1ステッチベクトルを取得する第2取得サブモジュールと、
    前記N個の第2位置ベクトルを前記質問情報における前記N個の動詞の優先順番に従ってステッチし、第2ステッチベクトルを取得する第3取得サブモジュールと、
    前記第1ステッチベクトル及び前記第2ステッチベクトルをステッチし、ステッチ結果を前記対象単語の位置ベクトルとする第4取得サブモジュールとを備える請求項9に記載のイベント抽出装置。
  11. 前記第1取得サブモジュールは、
    前記質問情報に含まれる前記実体の個数が前記Mより大きく、且つ前記質問情報に含まれる前記動詞の個数が前記N以上であり、或いは、前記質問情報に含まれる前記動詞の個数が前記Nより大きく、且つ前記質問情報に含まれる前記実体の個数が前記M以上である場合、前記質問情報に対して文法依存分析を行い、複数の依存ペアを取得する第1取得ユニットと、
    複数の前記依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、m個(mは正の整数である)の実体及びn個(nは正の整数である)の動詞を取得する第2取得ユニットと、
    前記mが前記Mより小さい場合、前記質問情報の前記m個の実体以外の実体から、i個(iは前記Mと前記mとの差分である)の実体を選択し、i個の実体を取得する第3取得ユニットと、
    前記nが前記Nより小さい場合、前記質問情報の前記n個の動詞以外の動詞から、j個(jは前記Nと前記nとの差分である)の動詞を選択し、j個の動詞を取得する第4取得ユニットとを備える請求項10に記載のイベント抽出装置。
  12. 前記第1取得モジュールは、
    前記テキスト情報に基づいて、前記テキスト情報のイベントタイプを決定する第1決定サブモジュールと、
    前記イベントタイプに基づいて、複数のイベント引数役割を決定する第2決定サブモジュールと、
    前記イベントタイプを複数の前記イベント引数役割のそれぞれとステッチし、複数の質問を決定する第3決定サブモジュールと、
    複数の前記質問のそれぞれを前記テキスト情報とステッチし、複数の前記質問情報を取得するステッチサブモジュールと、
    前記イベントタイプにおける各前記イベント引数役割の順番に従って、各前記イベント引数役割に対応する前記質問情報を並べ替え、前記優先順番を有する複数の前記質問情報を決定する第4決定サブモジュールとを備える請求項7に記載のイベント抽出装置。
  13. 少なくとも1つのプロセッサと、
    少なくとも1つの該プロセッサに通信可能に接続されたメモリとを備え、
    少なくとも1つの前記プロセッサにより実行されると、請求項1から請求項6のいずれかに記載のイベント抽出方法を少なくとも1つの前記プロセッサに実行させる、少なくとも1つの前記プロセッサによって実行可能な命令が前記メモリに記憶されている電子デバイス。
  14. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、請求項1から請求項6のいずれかに記載のイベント抽出方法をコンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  15. プロセッサによって実行されると、請求項1から請求項6のいずれかに記載のイベント抽出方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品。
JP2021044655A 2020-03-19 2021-03-18 イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品 Active JP7412382B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010195577.8 2020-03-19
CN202010195577.8A CN111401033B (zh) 2020-03-19 2020-03-19 事件抽取方法、事件抽取装置和电子设备

Publications (2)

Publication Number Publication Date
JP2021099883A true JP2021099883A (ja) 2021-07-01
JP7412382B2 JP7412382B2 (ja) 2024-01-12

Family

ID=71431015

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021044655A Active JP7412382B2 (ja) 2020-03-19 2021-03-18 イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品

Country Status (5)

Country Link
US (1) US11928435B2 (ja)
EP (1) EP3882806A1 (ja)
JP (1) JP7412382B2 (ja)
KR (1) KR20210038853A (ja)
CN (1) CN111401033B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507700A (zh) * 2020-11-26 2021-03-16 北京百度网讯科技有限公司 事件抽取方法、装置、电子设备及存储介质
CN112612885A (zh) * 2020-12-18 2021-04-06 成都三零凯天通信实业有限公司 一种基于bert类模型的阅读理解式新闻文本事件抽取方法
CN113032520A (zh) * 2021-02-26 2021-06-25 北京金堤征信服务有限公司 信息分析方法及装置、电子设备和计算机可读存储介质
CN112905868A (zh) * 2021-03-22 2021-06-04 京东方科技集团股份有限公司 事件抽取方法、装置、设备及存储介质
US11893345B2 (en) 2021-04-06 2024-02-06 Adobe, Inc. Inducing rich interaction structures between words for document-level event argument extraction
US20230127652A1 (en) * 2021-10-25 2023-04-27 Adobe Inc. Event understanding with deep learning
CN114741516A (zh) * 2021-12-08 2022-07-12 商汤国际私人有限公司 一种事件抽取方法和装置、电子设备及存储介质
CN113901793A (zh) * 2021-12-08 2022-01-07 北京来也网络科技有限公司 结合rpa和ai的事件抽取方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085381A (ja) * 2004-09-15 2006-03-30 Toshiba Corp 情報提示装置、情報提示方法およびプログラム
JP2016024545A (ja) * 2014-07-17 2016-02-08 株式会社Nttドコモ 情報管理装置、情報管理システム、及び情報管理方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
JP5126068B2 (ja) * 2006-12-22 2013-01-23 日本電気株式会社 文言い換え方法、プログラムおよびシステム
JP5070860B2 (ja) * 2007-01-31 2012-11-14 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
BG66255B1 (en) * 2007-11-14 2012-09-28 Ivaylo Popov Natural language formalization
CA2738428A1 (en) * 2010-04-30 2011-10-30 Iliv Technologies Inc. Collaboration tool
CA2892471C (en) * 2013-01-11 2023-02-21 Db Networks, Inc. Systems and methods for detecting and mitigating threats to a structured data storage system
US20140372102A1 (en) * 2013-06-18 2014-12-18 Xerox Corporation Combining temporal processing and textual entailment to detect temporally anchored events
JP6150282B2 (ja) * 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6248523B2 (ja) * 2013-10-07 2017-12-20 富士通株式会社 データ処理管理方法、情報処理装置およびデータ処理管理プログラム
US9875296B2 (en) * 2015-03-25 2018-01-23 Google Llc Information extraction from question and answer websites
US10387408B2 (en) * 2015-10-30 2019-08-20 Splunk Inc. Search interface with search query history based functionality
US10528607B2 (en) * 2016-07-29 2020-01-07 Splunk Inc. Syntax templates for coding
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
US10432468B2 (en) * 2017-04-20 2019-10-01 Facebook, Inc. Notification policies
US10853124B2 (en) * 2017-09-25 2020-12-01 Splunk Inc. Managing user data in a multitenant deployment
CN108446320A (zh) * 2018-02-09 2018-08-24 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
US10789755B2 (en) * 2018-04-03 2020-09-29 Sri International Artificial intelligence in interactive storytelling
US11709939B2 (en) * 2018-05-04 2023-07-25 New York University Anomaly detection in real-time multi-threaded processes on embedded systems and devices using hardware performance counters and/or stack traces
CN108681574B (zh) * 2018-05-07 2021-11-05 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN109582949B (zh) 2018-09-14 2022-11-22 创新先进技术有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN110032641B (zh) 2019-02-14 2024-02-13 创新先进技术有限公司 计算机执行的、利用神经网络进行事件抽取的方法及装置
CN110134757B (zh) 2019-04-19 2020-04-07 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
US11531824B2 (en) * 2019-05-17 2022-12-20 Raytheon Bbn Technologies Corp. Cross-lingual information retrieval and information extraction
US11227128B2 (en) * 2019-06-07 2022-01-18 Raytheon Bbn Technologies Corp. Linguistically rich cross-lingual text event embeddings
CN110543631B (zh) * 2019-08-23 2023-04-28 深思考人工智能科技(上海)有限公司 机器阅读理解的实现方法、装置、存储介质及电子设备
CN110795543B (zh) * 2019-09-03 2023-09-22 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110647629B (zh) * 2019-09-20 2021-11-02 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110704598B (zh) * 2019-09-29 2023-01-17 北京明略软件系统有限公司 一种语句信息的抽取方法、抽取装置及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085381A (ja) * 2004-09-15 2006-03-30 Toshiba Corp 情報提示装置、情報提示方法およびプログラム
JP2016024545A (ja) * 2014-07-17 2016-02-08 株式会社Nttドコモ 情報管理装置、情報管理システム、及び情報管理方法

Also Published As

Publication number Publication date
US11928435B2 (en) 2024-03-12
EP3882806A1 (en) 2021-09-22
CN111401033B (zh) 2023-07-25
JP7412382B2 (ja) 2024-01-12
US20210295095A1 (en) 2021-09-23
CN111401033A (zh) 2020-07-10
KR20210038853A (ko) 2021-04-08

Similar Documents

Publication Publication Date Title
JP2021099883A (ja) イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品
CN111414482B (zh) 一种事件论元抽取方法、装置以及电子设备
JP7228662B2 (ja) イベント抽出方法、装置、電子機器及び記憶媒体
US20210397947A1 (en) Method and apparatus for generating model for representing heterogeneous graph node
JP2022013602A (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
US9043300B2 (en) Input method editor integration
JP7269913B2 (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111488740B (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
JP7113097B2 (ja) テキストエンティティの語義記述処理方法、装置及び機器
US11573992B2 (en) Method, electronic device, and storage medium for generating relationship of events
JP7262571B2 (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
JP7386827B2 (ja) セマンティック処理方法、装置、電子機器及び媒体
CN111737954B (zh) 文本相似度确定方法、装置、设备和介质
JP7395445B2 (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
EP3822842A2 (en) Method and apparatus for generating semantic representation model, electronic device, and storage medium
JP2022050379A (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US11853689B1 (en) Computer-implemented presentation of synonyms based on syntactic dependency
EP3852013A1 (en) Method, apparatus, and storage medium for predicting punctuation in text
WO2020155747A1 (zh) 问题答案推荐方法、装置、存储介质及服务器
CN111858880B (zh) 获取查询结果的方法、装置、电子设备和可读存储介质
JP2021082306A (ja) 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
CN111563198B (zh) 一种物料召回方法、装置、设备及存储介质
JP2022028889A (ja) 対話生成方法、装置、電子機器及び記憶媒体
JP2021157842A (ja) 質問の答えの決定方法、装置、機器及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220831

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230320

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230320

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230324

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230328

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231226

R150 Certificate of patent or registration of utility model

Ref document number: 7412382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150