JP7146986B2 - 情報抽出方法、情報抽出装置及び電子機器 - Google Patents

情報抽出方法、情報抽出装置及び電子機器 Download PDF

Info

Publication number
JP7146986B2
JP7146986B2 JP2021042217A JP2021042217A JP7146986B2 JP 7146986 B2 JP7146986 B2 JP 7146986B2 JP 2021042217 A JP2021042217 A JP 2021042217A JP 2021042217 A JP2021042217 A JP 2021042217A JP 7146986 B2 JP7146986 B2 JP 7146986B2
Authority
JP
Japan
Prior art keywords
tuple
tuples
relation
main
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021042217A
Other languages
English (en)
Other versions
JP2021108140A (ja
Inventor
▲シン▼ 王
明明 孫
平 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021108140A publication Critical patent/JP2021108140A/ja
Application granted granted Critical
Publication of JP7146986B2 publication Critical patent/JP7146986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)

Description

本願は、コンピュータの技術分野におけるデータマイニングの技術に関し、特に情報抽出方法、情報抽出装置及び電子機器に関する。
情報抽出は、人工知能アプリケーションにおいて非常に重要な役割を果たし、ますます多くの上位アプリケーションは、情報抽出の結果に依存する。例えば、知識ベースの構築、イベントグラフの構築は、いずれもエンティティ関係の抽出、イベントの抽出、因果関係の抽出の技術に依存する。法律、医療などの分野の照会・決定支援システムの構築も情報抽出の返信の結果に依存する。
情報抽出の結果は関係タプルの形で存在することが多い。しかしながら、タプルの欠落、タプル内のパラメータの漏れ及びエラーは、情報抽出の結果に異なる程度で影響を与える。つまり、従来の情報抽出方法は、情報抽出の確度及び全面度が低い。
本願の実施例は、従来の情報抽出の確度及び全面度が低いという課題を解決するために、情報抽出方法、情報抽出装置及び電子機器を提供する。
上記技術的課題を解決するために、本願は、このようにして実現される。
本願の第1様態に係る情報抽出方法は、テキスト情報を取得することと、前記テキスト情報における第1主関係タプルを取得することと、前記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得することと、前記第1主関係タプル及び前記N個の主関係タプルに基づいて、前記テキスト情報の情報抽出結果を決定することと、を含み、前記第1主関係タプルが、前記テキスト情報における他の関係タプルに含まれていない関係タプルであり、前記第2主関係タプルが、前記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。
さらに、前記N個の主関係タプルは、前記第2主関係タプルのパラメータから得られた、前記第2主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである少なくとも1つの第3主関係タプルをさらに含む。
さらに、前期のN個の主関係タプルを取得することは、前記第1主関係タプルのパラメータから、前記少なくとも1つの第2主関係タプルを取得することと、前記N個の主関係タプルのうち、i回目に取得された主関係タプルのパラメータに対して主関係タプル抽出を実行して、i+1回目に取得された主関係タプルを取得することと、を含み、前記第2主関係タプルが、前記N個の主関係タプルのうち、1回目に取得された主関係タプルであり、前記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータが、主関係タプルを含まず、iが前記N以下の正整数である。
さらに、前期の前記テキスト情報における第1主関係タプルを取得することが、前記テキスト情報をニューラルネットワークモデルに入力し、前記テキスト情報の第1主関係タプルを取得することを含み、前記ニューラルネットワークモデルが、前記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、前記エンコーディング特徴に基づいて前記テキスト情報の第1主関係タプルを取得するデコーダとを備える。
さらに、前記エンコーダは、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定される。
本願の第2様態に係る情報抽出装置は、テキスト情報を取得する第1取得モジュールと、前記テキスト情報における第1主関係タプルを取得する第2取得モジュールと、前記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得する第3取得モジュールと、前記第1主関係タプル及び前記N個の主関係タプルに基づいて、前記テキスト情報の情報抽出結果を決定する決定モジュールと、を備え、前記第1主関係タプルが、前記テキスト情報における他の関係タプルに含まれていない関係タプルであり、前記第2主関係タプルが、前記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。
さらに、前記N個の主関係タプルが、前記第2主関係タプルのパラメータから得られた、前記第2主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである少なくとも1つの第3主関係タプルをさらに含む。
さらに、前記第3取得モジュールが、前記第1主関係タプルのパラメータから、前記少なくとも1つの第2主関係タプルを取得する第1取得サブモジュールと、前記N個の主関係タプルのうち、i回目に取得された主関係タプルのパラメータに対して主関係タプル抽出を実行して、i+1回目に取得された主関係タプルを取得する第2取得サブモジュールと、を備え、前記第2主関係タプルが、前記N個の主関係タプルのうち、1回目に取得された主関係タプルであり、前記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータが、主関係タプルを含まず、iが前記N以下の正整数である。
さらに、前記第2取得モジュールが、前記テキスト情報をニューラルネットワークモデルに入力し、前記テキスト情報の第1主関係タプルを取得することに用いられ、前記ニューラルネットワークモデルが、前記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、前記エンコーディング特徴に基づいて前記テキスト情報の第1主関係タプルを取得するデコーダとを備える。
さらに、前記エンコーダが、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定される。
本願の第3様態に係る電子機器は、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに第1様態に記載の方法を実行させる命令が記憶されている。
本願の第4態様に係る非一時的なコンピュータ可読記憶媒体において、第1様態に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。
上記出願における1つの実施例は、以下の利点又は有益な効果を有する。
テキスト情報を取得し、前記テキスト情報における第1主関係タプルを取得し、前記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得し、前記第1主関係タプル及び前記N個の主関係タプルに基づいて、前記テキスト情報の情報抽出結果を決定し、前記第1主関係タプルは、前記テキスト情報における他の関係タプルに含まれていない関係タプルであり、前記第2主関係タプルは、前記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。テキスト情報を抽出する際には、まず、テキスト情報の第1主関係タプルを抽出し、次に第1主関係タプルのパラメータに対して主関係タプル抽出を実行する。このような広範囲から小範囲までの(すなわち、主関係タプル抽出を実行する対象に含まれるテキスト長は徐々に短くなる)漸次的抽出方法は、抽出のカバー範囲をより細かくすることにより、より完全で、より正確な抽出結果を取得することができる。
第2主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、より多くの主関係タプルを取得することができる。このように取得された主関係タプルのパラメータに対して主関係タプル抽出を実行する方式で、前記抽出のカバー範囲をより細かくすることにより、より完全で、より正確な抽出結果を取得することができる。
テキスト情報に対して主関係タプルを抽出して、取得された主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、テキスト情報における全ての成分(各文字、ワード)を網羅することが保証されるとともに、他の関係タプルに含まれる関係タプルも同様に識別されて処理されることが保証される。また、漸次的抽出過程において、抽出対象(すなわち、パラメータ)が徐々に短くなるため、文法や構文の長距離のカスケードエラーを効果的に回避し、情報抽出の正確率を向上させる。
ニューラルネットワークモデルは、エンコーダ及びデコーダを備える。ニューラルネットワークモデルでテキスト情報に対して主関係タプル抽出を実行することにより、抽出の正確率を向上させることができる。
エンコーダは、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定することができる。このようなエンコーダの決定方式は、ニューラルネットワークモデルを構築するデータ構築コストを低減することができる。
以下、上記好ましい形態が有する他の効果を具体的な実施例と組み合わせて説明する
図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。
本願の実施例に係る情報抽出方法のフローチャートである。 本願の実施例に係る反復分解装置の概略図である。 本願の実施例に係る情報抽出装置の構成図である。 本願の実施例に係る情報抽出方法を実現する電子機器のブロック図である。
以下、図面を参照しながら、本願の例示的な実施例を説明し、理解を容易にするために、本願の実施例の様々な詳細を含み、それらが例示的なものであると見なされるべきである。したがって、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び修正を実行することができることは、当業者によって認識される。同様に、以下の説明では、明確さと簡潔さのために、公知の機能及び構造についての説明は省略される。
図1を参照すると、図1は、本願の実施例に係る情報抽出方法のフローチャートであり、図1に示すように、本実施例に係る、電子機器に適用される情報抽出方法は、以下のステップ101~104を含む。
ステップ101では、テキスト情報を取得する。
テキスト情報は、ユーザが入力した情報であってもよく、ユーザが入力したクエリ情報に基づいて検索エンジンが照会して取得した検索結果情報であってもよく、ここでは限定しない。テキスト情報は、テキストにおける一段落の文字であってよい。
ステップ102では、上記テキスト情報における第1主関係タプルを取得する。上記第1主関係タプルは、上記テキスト情報における他の関係タプルに含まれていない関係タプルである。
第1主関係タプルは、テキスト情報における他の関係タプルに含まれていない関係タプルであり、例えば、テキスト情報が複数の関係タプルを含むと、該複数の関係タプルにおいて、1つのみの主関係タプルが存在する。第1主関係タプルは、該複数の関係タプルのうちの、他の関係タプルに含まれていない関係タプルであり、例えば、テキスト情報がA、B及びCという3つの関係タプルを含み、AがB及びCを含むと、Aは、第1主関係タプルである。テキスト情報は、最大で1つの第1主関係タプルを含む。
第1主関係タプルも関係タプルであり、関係タプルの特徴を有し、すなわち、第1主関係タプルは、コアワード及び少なくとも1つのパラメータを含む。例えば、テキスト情報が
Figure 0007146986000001
であると、該テキスト情報の第1主関係タプルのコアワードは
Figure 0007146986000002
であり、第1主関係タプルのパラメータは、
Figure 0007146986000003

Figure 0007146986000004
であり、「{0}」は1番目のパラメータである
Figure 0007146986000005
を表し、{1}は、2番目のパラメータである
Figure 0007146986000006
を表す。
ステップ103では、上記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得する。上記第2主関係タプルは、上記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。
第1主関係タプルのパラメータに基づいて第2主関係タプルを取得する。第2主関係タプルは、上記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。第1主関係タプルは、1つ以上のパラメータを含み、各パラメータに対して主関係タプル抽出を実行し、第2主関係タプルを取得することができる。各パラメータから、最大で1つの第2主関係タプルを取得し、1つのパラメータが複数の関係タプルを含むと、該複数の関係タプルにおいて、1つのみの主関係タプルが存在する。第2主関係タプルは、この複数の関係タプルのうちの他の関係タプルに含まれていない関係タプルである。
ステップ102での例によれば、第1主関係タプルのパラメータの
Figure 0007146986000007
に対して主関係タプル抽出を実行し、取得された第2主関係タプルのコアワードは
Figure 0007146986000008
、パラメータは「他哥哥(彼の兄)」、「兵(兵士)」であり、ここで、「{0}」は1番目のパラメータである「他哥哥(彼の兄)」を表し、{1}は2番目のパラメータである「兵(兵士)」を表す。
第1主関係タプルのパラメータに対して主関係タプル抽出を実行し、第2主関係タプルを取得する。同様に、第2主関係タプルのパラメータに対して主関係タプル抽出を実行し、より多くの主関係タプルを取得することができる。N個の主関係タプルは、第2主関係タプルを含み、第2主関係タプルのパラメータを抽出して取得した主関係タプルをさらに含むことができる。
ステップ104では、上記第1主関係タプル及び上記N個の主関係タプルに基づいて、上記テキスト情報の情報抽出結果を決定する。
取得された第1主関係タプル及びN個の主関係タプルを、テキスト情報の情報抽出結果とする。テキスト情報を抽出する際には、まず、テキスト情報の第1主関係タプルを抽出し、次に第1主関係タプルのパラメータに対して主関係タプル抽出を実行する。このような広範囲から小範囲までの漸次的抽出方法は、抽出のカバー範囲をより細かくすることにより、より完全で、より正確な抽出結果を取得することができる。
本実施例では、テキスト情報を取得し、上記テキスト情報における第1主関係タプルを取得し、上記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得し、上記第1主関係タプル及び上記N個の主関係タプルに基づいて、上記テキスト情報の情報抽出結果を決定し、上記第1主関係タプルは、上記テキスト情報における他の関係タプルに含まれていない関係タプルであり、上記第2主関係タプルは、上記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。テキスト情報を情報抽出する際には、まずテキスト情報の第1主関係タプルを抽出し、その後に第1主関係タプルのパラメータに対して主関係タプル抽出を実行する。このような広範囲から小範囲までの(すなわち、主関係タプル抽出を実行する対象に含まれるテキスト長は徐々に短くなる)漸次的抽出方法は、抽出のカバー範囲をより細かくすることにより、より完全で、より正確な抽出結果を取得することができる。
本願の一実施例では、上記N個の主関係タプルは、上記第2主関係タプルのパラメータから得られた、上記第2主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである少なくとも1つの第3主関係タプルをさらに含む。
本実施例では、第2主関係タプルを取得した後に、第2主関係タプルのパラメータに対して主関係タプルを抽出し続けて、より多くの主関係タプルを取得することができる。N個の主関係タプルは、第2主関係タプルを含み、第2主関係タプルのパラメータを抽出して取得した主関係タプル、すなわち、第3主関係タプルをさらに含む。
本実施例では、第2主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、より多くの主関係タプルを取得することができる。このように取得した主関係タプルのパラメータに対して主関係タプル抽出を実行する方式で、上記抽出のカバー範囲をより細かくすることにより、より完全で、より正確な抽出結果を取得することができる。
本願の一実施例では、上記のN個の主関係タプルを取得することが、上記第1主関係タプルのパラメータから、上記少なくとも1つの第2主関係タプルを取得することと、上記N個の主関係タプルのうち、i回目に取得された主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、i+1回目に取得された主関係タプルを取得することと、を含み、上記第2主関係タプルは、上記N個の主関係タプルのうち、1回目に取得された主関係タプルであり、上記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータは、主関係タプルを含まず、iが上記N以下の正整数である。
本実施例では、N個の主関係タプルは、第1主関係タプルのパラメータから取得された第2主関係タプルを含み、第2主関係タプルのパラメータから取得された第3主関係タプルをさらに含み、新たに取得された主関係タプルのパラメータが主関係タプルを含まないまで、取得された第3主関係タプルのパラメータに対して主関係タプルを抽出し続ける。つまり、上記第2主関係タプルは、上記N個の主関係タプルにおいて1回目に取得された主関係タプルであり、上記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータは、主関係タプルを含まず、iが上記N以下の正整数である。
以下、
Figure 0007146986000009
のテキスト情報に対して主関係タプルを漸次的に抽出することを例として説明する。表1に示すように、
Figure 0007146986000010
のテキスト情報を抽出し、取得された第1主関係タプルのパラメータは、
Figure 0007146986000011
及び
Figure 0007146986000012
を含み、第1主関係タプルのパラメータの
Figure 0007146986000013

Figure 0007146986000014
をそれぞれ抽出し、1番目の第2主関係タプルのパラメータの「他哥哥(彼の兄)」及び「兵(兵士)」、及び2番目の第2主関係タプルのパラメータの
Figure 0007146986000015
及び
Figure 0007146986000016
を取得し、そして、第2主関係タプルのパラメータの「他哥哥(彼の兄)」と、「兵(兵士)」と、
Figure 0007146986000017
と、
Figure 0007146986000018
とをそれぞれ抽出し、今回の抽出において主関係タプルを抽出せず、抽出過程が終了する。
Figure 0007146986000019
上記抽出過程は、反復過程であり、反復分解装置を使用して抽出することができる。図2に示すように、反復分解装置は、主関係分解器及びメモリを含む。反復分解装置は、テキスト情報とその派生パラメータ(すなわち、主関係タプルから取得されたパラメータ)とに対して順に主関係分解(すなわち、主関係タプル抽出)を行い、コアワードとパラメータとからなる主関係タプルを取得する反復器と見なされることができる。分解結果を出力すると同時に、分解結果におけるパラメータをメモリに記憶する。メモリが空になるまで、反復器がメモリにおける全ての派生パラメータを取り出し、再び主関係分解器に入力して処理を行う。
本願の抽出過程をさらに説明するために、表2は、より詳細な抽出過程を示している。ここで、抽出回数と抽出順序とが完全に一致しない。抽出過程において、まずテキスト情報に対して主関係タプル抽出を実行して(すなわち、第1層のテキスト情報を抽出する)、少なくとも1つのパラメータを取得し、次に少なくとも1つのパラメータのうちの各パラメータに対して主関係タプル抽出を実行して(すなわち、第2層のパラメータを抽出する)、少なくとも1つの第2主関係タプルを取得し、さらに少なくとも1つの第2主関係タプルの各パラメータに対して主関係タプル抽出を実行して(すなわち、第3層のテキスト情報を抽出する)、少なくとも1つの第3主関係タプルを取得する。このように、新たに取得された主関係タプルのパラメータが主関係タプルを含まないまで、取得された主関係タプルのパラメータに対して主関係タプル抽出を順に実行する。
Figure 0007146986000020
表1及び表2は、テキスト情報を反復分解して情報抽出を実現する例である。テキスト情報を分解してコアワード及びパラメータを取得して、パラメータから新たなパラメータを派生しなくなる(すなわち、メモリは空である)までメモリに記憶されているパラメータに対して主関係タプルを抽出し続ける。
本実施例では、テキスト情報に対して主関係タプルを抽出して、取得された主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、テキスト情報における全ての成分(各文字、ワード)を網羅することが保証されるとともに、他の関係タプルに含まれる関係タプルも同様に識別されて処理されることが保証される。また、漸次的抽出過程において、抽出対象(すなわち、パラメータ)が徐々に短くなるため、文法や構文の長距離のカスケードエラーを効果的に回避し、情報抽出の正確率を向上させる。
本願の一実施例では、上記のテキスト情報における第1主関係タプルを取得することは、上記テキスト情報をニューラルネットワークモデルに入力して、上記テキスト情報の第1主関係タプルを取得することを含み、上記ニューラルネットワークモデルは、上記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、上記エンコーディング特徴に基づいて上記テキスト情報の第1主関係タプルを取得するデコーダとを含む。
本実施例では、テキスト情報の第1主関係タプルを取得する際に、ニューラルネットワークモデル(主関係分解器とも呼ぶこともできる)により実現することができる。テキスト情報には関係タプルが含まれていなくてもよく、1つ以上の関係タプルが含まれていてもよい。テキスト情報が複数の関係タプルを含まれば、1つのみが主関係タプルである。主関係分解器は、テキスト情報に関係タプルが存在するか否かを識別し、主関係タプルを識別して抽出する。
本実施例では、上記ニューラルネットワークモデルは、上記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、上記エンコーディング特徴に基づいて上記テキスト情報の第1主関係タプルを取得するデコーダとを備える。上記エンコーダは、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定される。エンコーダのトレーニング過程は、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行って、トレーニングコーパスのエンコーディング特徴を決定することである。トレーニング過程は、エンコーダのパラメータを調整する過程である。
エンコーダは、教師なし方式で大量のトレーニングコーパスから学習したものであり、学習過程においてワードの自然言語におけるコンテキスト情報をエンコーディングし、トランスフォーマーからの双方向のエンコーダ表現(Bidirectional Encoder Representations from Transformers、略称BERT)、言語モデルからの埋め込み(Embeddings from Language Models、略称ELMo)、知識統合からの拡張表現(Enhanced Representation from knowledge Integration、略称ERNIE)などのニューラルネットワーク構造をトレーニングすることにより、エンコーダとして、ニューラルネットワークモデルをトレーニングする際に、小規模なデータのみを注釈し、小規模なデータで微調整し、高精度の結果を取得することができる。上記エンコーダの決定方式は、ニューラルネットワークモデルを構築するデータ構築コストを低減することができる。デコーダは、コピーメカニズムを備えたエンドツーエンドのニューラルネットワークのデコーダを使用することができる。
上記ニューラルネットワークモデルのトレーニング過程は、注釈コーパスを基礎モデルに入力して、注釈コーパスの主関係タプルを取得することと、注釈コーパスの主関係タプル及び上記注釈コーパスの主関係注釈結果に基づいて、上記基礎モデルのパラメータを調整して、ニューラルネットワークモデルを取得することと、を含む。注釈コーパスの主関係注釈結果は、事前に注釈された主関係タプルであり、該主関係タプルと、基礎モデルにより取得された主関係タプルとに基づいて、基礎モデルのパラメータを調整して、ニューラルネットワークモデルを取得する。
さらに、N個の主関係タプルを取得する際に、上記第1主関係タプルのパラメータをニューラルネットワークモデルに入力して、第2主関係タプルを取得する。取得された主関係タプルのパラメータを抽出する際には、主関係タプルのパラメータをニューラルネットワークモデルに入力して、新たな主関係タプルを取得する。
本実施例では、ニューラルネットワークモデルは、全ての関係タプルに注目せず、主関係タプルのみを抽出し、他の関係タプルを無視する。ニューラルネットワークモデルの入力は、文に限らず、名詞句又は任意の形式のテキストセグメントも含む。分解器が注目する関係は、動詞で記述される関係に限らず、接続詞、副詞、さらには句読点で記述又は表現される因果、転換、条件、並列などの論理的関係を含む。分解器は、暗黙的関係の抽出を自動的に実現することができ、例えば、名詞句
Figure 0007146986000021
から
Figure 0007146986000022
を推定する。
図3を参照すると、図3は、本願の実施例に係る情報抽出装置の構成図であり、図3に示すように、本実施例に係る情報抽出装置300は、テキスト情報を取得する第1取得モジュールと、上記テキスト情報における第1主関係タプルを取得する第2取得モジュールと、上記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得する第3取得モジュールと、上記第1主関係タプル及び上記N個の主関係タプルに基づいて、上記テキスト情報の情報抽出結果を決定する決定モジュールと、を備え、上記第1主関係タプルは、上記テキスト情報における他の関係タプルに含まれていない関係タプルであり、上記第2主関係タプルは、上記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。
本願の一実施例では、上記N個の主関係タプルは、上記第2主関係タプルのパラメータから得られた、上記第2主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである少なくとも1つの第3主関係タプルをさらに含む。
本願の一実施例では、上記第3取得モジュールは、上記第1主関係タプルのパラメータから、上記少なくとも1つの第2主関係タプルを取得する第1取得サブモジュールと、上記N個の主関係タプルのうち、i回目に取得された主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、i+1回目に取得された主関係タプルを取得する第2取得サブモジュールと、を備え、上記第2主関係タプルは、上記N個の主関係タプルのうち、1回目に取得された主関係タプルであり、上記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータは、主関係タプルを含まず、iが上記N以下の正整数である。
本願の一実施例では、上記第2取得モジュールは、上記テキスト情報をニューラルネットワークモデルに入力して、上記テキスト情報の第1主関係タプルを取得し、上記ニューラルネットワークモデルは、上記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、上記エンコーディング特徴に基づいて上記テキスト情報の第1主関係タプルを取得するデコーダとを備える。
本願の一実施例では、上記エンコーダは、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定される。
情報抽出装置300は、図1に示す方法の実施例における電子機器が実現する各過程を実現することができ、重複を避けるため、ここでは説明を省略する。
本願の実施例に係る情報抽出装置300は、テキスト情報を取得し、上記テキスト情報における第1主関係タプルを取得し、上記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得し、上記第1主関係タプル及び上記N個の主関係タプルに基づいて、上記テキスト情報の情報抽出結果を決定し、上記第1主関係タプルは、上記テキスト情報における他の関係タプルに含まれていない関係タプルであり、上記第2主関係タプルは、上記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。テキスト情報を情報抽出する際には、まず、テキスト情報の第1主関係タプルを抽出し、次に第1主関係タプルのパラメータに対して主関係タプル抽出を実行する。このような広範囲から小範囲までの(すなわち、主関係タプル抽出を実行する対象に含まれるテキスト長は徐々に短くなる)漸次的抽出方法は、抽出のカバー範囲をより細かくすることにより、より完全で、より正確な抽出結果を取得することができる。
本願の実施例によれば、本願は、さらに電子機器及び可読記憶媒体を提供する。
図4は、本願の実施例に係る情報抽出方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなどの、様々な形態のデジタルコンピュータを表すことを意図する。電子機器は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及びその他の類似の計算装置などの、様々な形態のモバイル装置を表してもよい。本明細書で示された部材、それらの接続及び関係、並びにそれらの機能は、単なる例に過ぎず、本明細書で説明及び/又は要求された本願の実現を限定することを意図しない。
図4に示すように、該電子機器は、1つ以上のプロセッサ401と、メモリ402と、高速インタフェース及び低速インタフェースを備える、各部材を接続するインタフェースとを備える。各部材は、異なるバスを用いて互いに接続され、かつ共通マザーボード上に取り付けるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行された、外部入力/出力装置(例えば、インタフェースに結合された表示機器)上にGUIのグラフィック情報を表示するようにメモリ内又はメモリ上に記憶されている命令を含む命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと共に使用してよい。同様に、複数の電子機器を接続してよく、各機器は、(例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとする)必要な動作の一部を提供する。図4では、1つのプロセッサ401を例とする。
メモリ402は、本願に係る非一時的なコンピュータ可読記憶媒体である。上記メモリには、少なくとも1つのプロセッサに実行可能で、少なくとも1つのプロセッサに本願に係る情報抽出方法を実行させる命令が記憶されている。本願の非一時的なコンピュータ可読記憶媒体は、本願に係る情報抽出方法をコンピュータに実行させるためのコンピュータ命令を記憶している。
メモリ402は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例における情報抽出方法に対応するプログラム命令/モジュール(例えば、図3に示す第1取得モジュール301、第2取得モジュール302、第3取得モジュール303及び決定モジュール304)を記憶することができる。プロセッサ401は、メモリ402内に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例における情報抽出方法を実現する。
メモリ402は、オペレーティングシステム及び機能に必要な少なくとも1つのアプリケーションプログラムを記憶可能なプログラム記憶領域と、情報抽出方法を実現する電子機器の使用により作成されたデータなどを記憶可能なデータ記憶領域とを備えてもよい。また、メモリ402は、高速ランダムアクセスメモリを備えてもよく、少なくとも1つの磁気ディスクメモリ素子、フラッシュメモリ素子などの非一時的なメモリ又は他の非一時的な固体メモリ素子を備えてもよい。いくつかの実施例では、メモリ402は、好ましくは、プロセッサ401に対して遠隔に配置されたメモリを備え、これらの遠隔メモリは、ネットワークを介して情報抽出方法を実現する電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。
情報抽出方法を実現する電子機器は、入力装置403及び出力装置404をさらに備えてもよい。プロセッサ401、メモリ402、入力装置403及び出力装置404は、バス又は他の方式で接続でき、図4では、バスによる接続を例とする。
入力装置403は、入力された数字又は文字情報を受信するとともに、情報抽出方法を実現する電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置404は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを備えてもよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイなどを備えてもよいが、それらに限定されない。いくつかの実施形態では、表示機器は、タッチスクリーンであってよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ以上のコンピュータプログラムにおける実施を含んでよく、該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈されてよく、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及び命令を受信するとともに、データ及び命令を該記憶システム、該少なくとも1つの入力装置及び該少なくとも1つの出力装置に伝送することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高レベルなプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械言語により実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、機械命令及び/又はデータをプログラマブルプロセッサに供給する任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指す。「機械可読信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに供給する任意の信号を意味する。
ユーザとの対話を供給するために、コンピュータ上で、本明細書で説明されたシステム及び技術を実施でき、該コンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有し、ユーザは、該キーボード及び該ポインティング装置により、入力をコンピュータに供給することができる。他の種類の装置も、ユーザとの対話を供給してよく、例えば、ユーザに供給されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック又は触覚フィードバック)であってよく、また、任意の形式(音響入力、音声入力又は触覚入力を含む)を用いてユーザからの入力を受信することができる。
本明細書で説明されたシステム及び技術は、バックエンド部材を備える計算システム(例えば、データサーバとする)、ミドルウェア部材を備える計算システム(例えば、アプリケーションサーバ)、フロントエンド部材を備える計算システム(例えば、ユーザが本明細書で説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)、或いはこのようなバックエンド部材、ミドルウェア部材又はフロントエンド部材の任意の組み合わせを備える計算システムにおいて実施することができる。システムの部材は、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)により互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを備えてもよい。クライアント及びサーバは、一般的に、互いに離れ、かつ、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって生成される。
本願の実施例の技術手段は、以下の有益な効果を達成することができる。
テキスト情報を取得し、上記テキスト情報における第1主関係タプルを取得し、上記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得し、上記第1主関係タプル及び上記N個の主関係タプルに基づいて、上記テキスト情報の情報抽出結果を決定し、上記第1主関係タプルは、上記テキスト情報における他の関係タプルに含まれていない関係タプルであり、上記第2主関係タプルは、上記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである。テキスト情報を抽出する際には、まず、テキスト情報の第1主関係タプルを抽出し、次に第1主関係タプルのパラメータに対して主関係タプル抽出を実行する。このような広範囲から小範囲までの(すなわち、主関係タプル抽出を実行する対象に含まれるテキスト長は徐々に短くなる)漸次的抽出方法は、抽出のカバー範囲をより細かくすることにより、より完全で、より正確な抽出結果を取得することができる。
第2主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、より多くの主関係タプルを取得することができ、このようにして取得された主関係タプルのパラメータに対して主関係タプル抽出を実行する方式で、上記抽出カバーの範囲をより細かくすることにより、より完全で、より正確な抽出結果を取得することができる。
テキスト情報に対して主関係タプルを抽出して、取得された主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、テキスト情報における全ての成分(各文字、ワード)を網羅することが保証されるとともに、他の関係タプルに含まれる関係タプルも同様に識別されて処理されることが保証される。また、漸次的抽出過程において、抽出対象(すなわち、パラメータ)が徐々に短くなるため、文法や構文の長距離のカスケードエラーを効果的に回避し、情報抽出の正確率を向上させる。
ニューラルネットワークモデルは、エンコーダ及びデコーダを備え、ニューラルネットワークモデルによりテキスト情報に対して主関係タプル抽出を実行し、抽出の正確率を向上させることができる。
エンコーダは、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定することができ、このようなエンコーダの決定方式は、ニューラルネットワークモデルを構築するデータ構築コストを低減することができる。
上記様々な形式のプローを用いて、ことを再順序付けたり、追加したり、削除したりしてよいことを理解されたい。例えば、本願に記載された各ことは、本願に開示された技術手段の所望の結果を達成できる限り、並列的に実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよいが、本明細書ではこれらを限定しない。
上記発明を実施するための形態は、本願の保護範囲を限定するものではない。設計要件及びその他の要因に応じて、様々な修正、組み合わせ、部分組み合わせ及び置換を行うことができることは、当業者に理解されるところである。本願の精神及び原則内に行われる任意の修正、同等置換及び改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims (13)

  1. テキスト情報を取得することと、
    前記テキスト情報における第1主関係タプルを取得することと、
    前記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得することと、
    前記第1主関係タプル及び前記N個の主関係タプルに基づいて、前記テキスト情報の情報抽出結果を決定することと、
    を含み、
    前記第1主関係タプルが、前記テキスト情報における他の関係タプルに含まれていない関係タプルであり、前記第2主関係タプルが、前記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである情報抽出方法。
  2. 前記N個の主関係タプルが、前記第2主関係タプルのパラメータから得られた、前記第2主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである少なくとも1つの第3主関係タプルを含む請求項1に記載の情報抽出方法。
  3. 前記N個の主関係タプルを取得することが、
    前記第1主関係タプルのパラメータから、前記少なくとも1つの第2主関係タプルを取得することと、
    前記N個の主関係タプルのうち、i回目に取得された主関係タプルのパラメータに対して主関係タプル抽出を実行して、i+1回目に取得された主関係タプルを取得することと、
    を含み、
    前記第2主関係タプルが、前記N個の主関係タプルのうち、1回目に取得された主関係タプルであり、前記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータが、主関係タプルを含まず、iが前記N以下の正整数である請求項1に記載の情報抽出方法。
  4. 前記テキスト情報における第1主関係タプルを取得することが、前記テキスト情報をニューラルネットワークモデルに入力し、前記テキスト情報の第1主関係タプルを取得することを含み、
    前記ニューラルネットワークモデルが、前記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、前記エンコーディング特徴に基づいて前記テキスト情報の第1主関係タプルを取得するデコーダとを備える請求項1に記載の情報抽出方法。
  5. 前記エンコーダが、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定される請求項4に記載の情報抽出方法。
  6. テキスト情報を取得する第1取得モジュールと、
    前記テキスト情報における第1主関係タプルを取得する第2取得モジュールと、
    前記第1主関係タプルのパラメータに基づいて取得された少なくとも1つの第2主関係タプルを含むN(Nは正整数である)個の主関係タプルを取得する第3取得モジュールと、
    前記第1主関係タプル及び前記N個の主関係タプルに基づいて、前記テキスト情報の情報抽出結果を決定する決定モジュールと、
    を備え、
    前記第1主関係タプルが、前記テキスト情報における他の関係タプルに含まれていない関係タプルであり、前記第2主関係タプルが、前記第1主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである情報抽出装置。
  7. 前記N個の主関係タプルが、前記第2主関係タプルのパラメータから得られた、前記第2主関係タプルのパラメータにおける他の関係タプルに含まれていない関係タプルである少なくとも1つの第3主関係タプルを含む請求項6に記載の情報抽出装置。
  8. 前記第3取得モジュールが、
    前記第1主関係タプルのパラメータから、前記少なくとも1つの第2主関係タプルを取得する第1取得サブモジュールと、
    前記N個の主関係タプルのうち、i回目に取得された主関係タプルのパラメータに対して主関係タプル抽出を実行することにより、i+1回目に取得された主関係タプルを取得第2取得サブモジュールと、
    を含み、
    前記第2主関係タプルが、前記N個の主関係タプルのうち、1回目に取得された主関係タプルであり、前記N個の主関係タプルのうち、最後に取得された主関係タプルにおけるパラメータが、主関係タプルを含まず、iが前記N以下の正整数である請求項6に記載の情報抽出装置。
  9. 前記第2取得モジュールが、前記テキスト情報をニューラルネットワークモデルに入力し、前記テキスト情報の第1主関係タプルを取得することに用いられ、
    前記ニューラルネットワークモデルが、前記テキスト情報に基づいてエンコーディング特徴を取得するエンコーダと、前記エンコーディング特徴に基づいて前記テキスト情報の第1主関係タプルを取得するデコーダとを備える請求項6に記載の情報抽出装置。
  10. 前記エンコーダが、注釈が付されていないトレーニングコーパスに対してコンテキスト予測を行うことにより決定される請求項9に記載の情報抽出装置。
  11. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1から5のいずれか一項に記載の方法を実行させる命令が記憶されている電子機器。
  12. 請求項1から5のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体。
  13. プロセッサによって実行されると、請求項1から5のいずれか一項に記載の方法が実現されるコンピュータプログラム。
JP2021042217A 2020-03-16 2021-03-16 情報抽出方法、情報抽出装置及び電子機器 Active JP7146986B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010183085.7 2020-03-16
CN202010183085.7A CN111400451B (zh) 2020-03-16 2020-03-16 信息抽取方法、信息抽取装置和电子设备

Publications (2)

Publication Number Publication Date
JP2021108140A JP2021108140A (ja) 2021-07-29
JP7146986B2 true JP7146986B2 (ja) 2022-10-04

Family

ID=71428941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021042217A Active JP7146986B2 (ja) 2020-03-16 2021-03-16 情報抽出方法、情報抽出装置及び電子機器

Country Status (4)

Country Link
EP (1) EP3869353A3 (ja)
JP (1) JP7146986B2 (ja)
KR (1) KR102663523B1 (ja)
CN (1) CN111400451B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7495162B1 (ja) 2023-02-14 2024-06-04 Necプラットフォームズ株式会社 ボタン電話システム、ボタン電話装置、避難誘導メッセージ出力方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144706A (ja) 2018-02-16 2019-08-29 日本電信電話株式会社 関係性推定モデル学習装置、方法、及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304870B1 (en) * 1997-12-02 2001-10-16 The Board Of Regents Of The University Of Washington, Office Of Technology Transfer Method and apparatus of automatically generating a procedure for extracting information from textual information sources
US20060009966A1 (en) 2004-07-12 2006-01-12 International Business Machines Corporation Method and system for extracting information from unstructured text using symbolic machine learning
US8504490B2 (en) 2010-04-09 2013-08-06 Microsoft Corporation Web-scale entity relationship extraction that extracts pattern(s) based on an extracted tuple
CN106372038A (zh) * 2015-07-23 2017-02-01 北京国双科技有限公司 关键词的抽取方法及装置
CN107220238A (zh) * 2017-05-24 2017-09-29 电子科技大学 一种基于混合网络模型的文本对象抽取方法
CN107608949B (zh) * 2017-10-16 2019-04-16 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107808011B (zh) * 2017-11-20 2021-04-13 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN108038426A (zh) * 2017-11-29 2018-05-15 阿博茨德(北京)科技有限公司 一种提取文件中图表信息的方法及装置
CN107957991B (zh) * 2017-12-05 2021-06-01 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN110717034A (zh) * 2018-06-26 2020-01-21 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN109063159B (zh) * 2018-08-13 2021-04-23 桂林电子科技大学 一种基于神经网络的实体关系抽取方法
CN110046351B (zh) * 2019-04-19 2022-06-14 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110348003B (zh) * 2019-05-22 2023-10-17 安徽省泰岳祥升软件有限公司 文本有效信息的抽取方法及装置
CN110196982B (zh) * 2019-06-12 2022-12-27 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备
CN110427623B (zh) * 2019-07-24 2021-09-21 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144706A (ja) 2018-02-16 2019-08-29 日本電信電話株式会社 関係性推定モデル学習装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Lei Cui et al.,"Neural Open Information Extraction",arXiv.org [online],arXiv:1805.04270v1,Cornell University,2018年,[令和4年2月14日 検索], インターネット:<https://arxiv.org/pdf/1805.04270v1>
Nikita Bhutani et al.,"Nested Propositions in Open Information Extraction",Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016年,pp.55-64,[令和4年2月14日 検索], インターネット:<URL:https://aclanthology.org/D16-1006.pdf>

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7495162B1 (ja) 2023-02-14 2024-06-04 Necプラットフォームズ株式会社 ボタン電話システム、ボタン電話装置、避難誘導メッセージ出力方法およびプログラム

Also Published As

Publication number Publication date
CN111400451A (zh) 2020-07-10
KR102663523B1 (ko) 2024-05-03
EP3869353A3 (en) 2021-09-15
KR20210036316A (ko) 2021-04-02
CN111400451B (zh) 2023-05-09
EP3869353A2 (en) 2021-08-25
JP2021108140A (ja) 2021-07-29

Similar Documents

Publication Publication Date Title
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
KR102541306B1 (ko) 텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기
US20210397947A1 (en) Method and apparatus for generating model for representing heterogeneous graph node
JP7293543B2 (ja) 自然言語処理モデルの訓練方法、装置、電子デバイス、コンピュータ可読記憶媒体及びプログラム
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
JP7178441B2 (ja) 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体
US20210209309A1 (en) Semantics processing method, electronic device, and medium
JP7267342B2 (ja) 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体
JP7242993B2 (ja) 多言語語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
KR102538467B1 (ko) 모델의 증류 방법, 장치, 전자기기 및 저장매체
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN110427627A (zh) 基于语义表示模型的任务处理方法和装置
JP7397903B2 (ja) インテリジェント対話方法、装置、電子機器及び記憶媒体
JP2021099798A (ja) 構造化処理方法、装置、コンピュータ機器及び媒体
KR102606514B1 (ko) 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램
WO2020000764A1 (zh) 一种面向印地语的多语言混合输入方法及装置
KR102561951B1 (ko) 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
CN113160822A (zh) 语音识别处理方法、装置、电子设备以及存储介质
JP7186255B2 (ja) 医療衝突の検出方法、装置、電子デバイス及び記憶媒体
JP7146986B2 (ja) 情報抽出方法、情報抽出装置及び電子機器
KR102531507B1 (ko) 정보 출력 방법, 장치, 기기 및 저장 매체
US11900918B2 (en) Method for training a linguistic model and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220921

R150 Certificate of patent or registration of utility model

Ref document number: 7146986

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150