JP2022151838A - 低リソース言語からのオープン情報の抽出 - Google Patents

低リソース言語からのオープン情報の抽出 Download PDF

Info

Publication number
JP2022151838A
JP2022151838A JP2022048435A JP2022048435A JP2022151838A JP 2022151838 A JP2022151838 A JP 2022151838A JP 2022048435 A JP2022048435 A JP 2022048435A JP 2022048435 A JP2022048435 A JP 2022048435A JP 2022151838 A JP2022151838 A JP 2022151838A
Authority
JP
Japan
Prior art keywords
data structure
head
entity
resource language
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022048435A
Other languages
English (en)
Inventor
ブシャン・コトニス
Kotnis Bhushan
キリル・ガシュテオヴスキー
Gashteovski Kiril
カロリン・ローレンス
Lawrence Carolin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories Europe GmbH
Original Assignee
NEC Laboratories Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories Europe GmbH filed Critical NEC Laboratories Europe GmbH
Publication of JP2022151838A publication Critical patent/JP2022151838A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出するための方法を提供すること。【解決手段】方法は、高リソース言語データ構造のコーパスを取得するステップ810と、高リソース言語データ構造のコーパスをフィルタリングするステップ820と、各フィルタリングされたデータ構造について、エンティティタイプを取得するステップ830と、各エンティティを同じタイプのエンティティと置き換えることによってタイプ置換を行うステップ840と、コードスイッチングされた文を生成するために、データ構造コードスイッチングを行うステップ850と、補完されたデータ構造コーパスを生成するステップ860と、マルチヘッド自己注意トランスフォーマモデルをトレーニングするステップ870と、低リソース言語データ構造を生成するために構造化されていないデータ構造を与えるステップ880と、を含む。【選択図】図8

Description

関連出願の相互参照
2021年3月25日に出願された米国特許仮出願第63/165,755号に対する優先権が主張され、その開示全体が参照により本明細書によって本明細書に組み込まれる。
本発明は、人工知能および機械学習に関し、詳細には、1つまたは複数の高リソース言語からの転移学習を用いて、低リソース言語から機械可読データ構造の形態で情報を抽出するための方法、システム、およびコンピュータ可読媒体に関する。
構造化されているデータを構造化されていないテキストから(主語、動詞、目的語)トリプル(triple)の形態で抽出する技術的な課題は、ナレッジグラフ作成、文書要約、リンク予測、および質問回答など、幅広くアプリケーションが広がっていることにより、知能学習および機械学習のアプリケーションの領域において重要になってきている。そのようなアプリケーションの1つの例が、ニュース記事からニュースの出来事および事実をナレッジグラフの形態で抽出し、リンク予測を用いて追加情報を推論することである。既存のオープン情報抽出(open information extraction、OpenIE)方法は、教師ありの方法および教師なしの方法を用いて、主に英語言語に重点を置いている。それぞれ参照により本明細書によって本明細書に組み込まれているRo, Youngbinら、“Multi2OIE: Multilingual Open Information Extraction based on Multi-Head Attention with BERT”、arXivプレプリントarXiv:2009. 08128(2020年10月7日)、およびKolluru, Keshavら、“OpenIE6: Iterative Grid Labeling and Coordination Analysis for Open Information Extraction”、arXivプレプリントarXiv:2010. 03147(2020年10月7日)においては、いくつかの既存のOpenIE方法が記載されている。
Ro, Youngbinら、"Multi2OIE: Multilingual Open Information Extraction based on Multi-Head Attention with BERT"、arXivプレプリントarXiv:2009. 08128(2020年10月7日) Kolluru, Keshavら、"OpenIE6: Iterative Grid Labeling and Coordination Analysis for Open Information Extraction"、arXivプレプリントarXiv:2010. 03147(2020年10月7日)
一実施形態によれば、構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出するための方法が提供される。本方法は、高リソース言語データ構造のコーパスを取得するステップと、高リソース言語データ構造のフィルタリングされたコーパスを取得するために、高リソース言語データ構造のコーパスをフィルタリングするステップと、各フィルタリングされた高リソース言語データ構造の各エンティティについて、エンティティタイプを取得するステップと、タイプ置換されたデータ構造を生成するために、各取得されたエンティティについて、各エンティティを同じタイプのエンティティと置き換えることによってタイプ置換を行うステップと、コードスイッチングされた文を生成するために、各エンティティを等価な対応する低リソース言語データ構造エンティティと置き換えるステップとを含む。方法は、タイプ置換されたデータ構造およびコードスイッチングされた文をフィルタリングされた高リソース言語データ構造コーパスと組み合わせるステップを含む、補完された(augmented)データ構造コーパスを生成するステップと、補完されたデータ構造コーパスを用いて、動的反復タグ付けおよび勾配降下アルゴリズムによりマルチヘッド自己注意トランスフォーマモデル(multi-head self-attention transformer model)をトレーニングするステップと、機械可読データ構造を抽出するために、構造化されていない低リソース言語入力テキストをトレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えるステップとをさらに含む。
本発明の諸実施形態について、例示的な図に基づいてさらにより詳細に後述する。本発明は、例示的な実施形態に限定するものではない。本明細書において説明および/または図示したすべての特徴は、本発明の諸実施形態において、単独で使用することも、または異なる組合せで組み合わせることもできる。本発明の様々な実施形態の特徴および利点は、以下を例示する添付の図面を参照して、以下の詳細な説明を読むことによって明らかになるであろう。
本発明の一実施形態による、入力文からトリプルを抽出するための方法およびシステムを概略的に示す図である。 本発明の一実施形態による、曖昧さが除去された項(arguments)を有する英語のトリプルを選定するための方法およびシステムを概略的に示す図である。 主語と目的語との両方について補完されたトリプルの例を示す図である。 本発明の一実施形態による、高リソース言語トリプルから補完されたデータを生成するための方法およびシステムを概略的に示す図である。 本発明の一実施形態による、補完されたデータを生成し、補完されたデータを用いてトリプルを抽出するための組み合わさった方法およびシステムを概略的に示す図である。 ニュース記事に対する、本発明の一実施形態の例示的なアプリケーションを図式的に示す図である。 本発明の一実施形態による、システム全体におけるマルチヘッド自己注意トランスフォーマモデルの動作を示すフローチャートである。 本発明の一実施形態による、構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出するデータ方法のフローチャートを示す図である。
本発明の諸実施形態は、構造化されていない低リソース言語(たとえば、日本語、韓国語、ヒンディー語など)のテキストから、機械可読データ構造、たとえば(主語、動詞、目的語)トリプルの形態で情報を抽出するための方法、システム、およびコンピュータ可読媒体を提供する。本明細書において説明する方法、システム、およびコンピュータ可読記録媒体は、データ補完および反復ヘッド予測技法を利用することによって高リソース言語(たとえば、英語)からの転移学習を採用する。既存の手法とは対照的に、本明細書に説明する技法は、高リソース言語から低リソース言語への言語転移を可能にするために、コードスイッチングされたデータをタイプスイッチングおよび補完された連接とともに活用する最初のものである。コードスイッチングされたデータは、多数の言語からのエンティティを含む構造化されていないテキストおよび/または構造化されているデータを示す。たとえば、コードスイッチングされた文は、複数の言語からのエンティティ単語を含んでいる文であり、たとえば“Москва is the capital of Россия”および“Wien is the capital of Osterreich”は、コードスイッチングされた文の例である。タイプスイッチングされたデータは、エンティティが、同じタイプの他のエンティティとスイッチングされた場合の文を示す。たとえば、“London is the capital of Russia”は、“Moscow”というエンティティが、同じタイプ(たとえば、タイプ“city”)の異なるエンティティ(すなわち“London”)とスイッチングされた場合のタイプスイッチングされた文である。同様に、(London, is capital of, Russia) は、“Moscow”というエンティティが、“London”というエンティティとスイッチングされた場合のタイプスイッチングされたデータ構造である。補完された連接は、追加のエンティティが連接を使用している場合の文を示す。たとえば、“Rhine flows through Karlsruhe”という構造化されていないテキストで始めて、追加のエンティティをそれに追加して、“Rhine flows through Karlsruhe and Mannheim and Frankfurt and Berlin”という補完された連接を取得することができることになる。元の構造化されていないテキストは、連接を使用して同じタイプ(たとえば、タイプ“city”)に属するエンティティによって補完される。
トレーニングデータおよび言語的専門知識の不足に起因して、OpenIE(すなわち、Open Information Extraction)方法は、低リソース言語向けには開発されてこなかった。しかしながら、本明細書に説明する技法により、英語などの高リソース言語からのデータを活用して、言語的知識を低リソース言語に転移させることが可能になる。具体的には、本明細書に説明する方法は、低リソース言語トレーニングデータを用いてモデルをトレーニングする必要なく、本発明のデータ補完および反復ヘッドタグ付けの手順を用いて低リソース言語テキストからトリプルを正確に抽出する。低リソース言語におけるトレーニングデータは、通常、入手できないので、低リソース言語におけるトレーニングデータの必要なく、構造化されていない低リソース言語テキストから機械可読データ構造、たとえば(主語、動詞、目的語)トリプルまたは(主語、述語、目的語)トリプルの形態で情報を抽出することができることにより、有意な技術的進歩がもたらされる。
第1の態様によれば、構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出するための方法が提供される。本方法は、高リソース言語データ構造のコーパスを取得するステップと、高リソース言語データ構造のフィルタリングされたコーパスを取得するために、高リソース言語データ構造をフィルタリングするステップと、各フィルタリングされた高リソース言語データ構造の各エンティティについて、エンティティタイプを取得するステップとを含む。方法は、タイプ置換されたデータ構造を生成するために、各取得されたエンティティについて、各エンティティを同じタイプのエンティティと置き換えることによってタイプ置換を行うステップと、コードスイッチングされた文を生成するために、各エンティティを等価な低リソース言語データ構造と置き換えるステップと、タイプ置換されたデータ構造およびコードスイッチングされた文をフィルタリングされた高リソース言語データ構造コーパスと組み合わせるステップを含む、補完されたデータ構造コーパスを生成するステップとをさらに含む。加えて、方法は、補完されたデータ構造コーパスを用いて、動的反復タグ付けおよび勾配降下アルゴリズムによりマルチヘッド自己注意トランスフォーマモデルをトレーニングするステップと、機械可読データ構造を抽出するために、構造化されていない低リソース言語入力テキストをトレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えるステップとを含む。
構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出するための方法の実装形態は、高リソース言語(主語、動詞、目的語)トリプルのコーパスを取得し、次いでトリプルのフィルタリングされたコーパスを取得するために特定のトリプルをフィルタ除去するステップを含むことができる。本方法は、フィルタリングされたトリプルコーパスの各それぞれのトリプルにおける各エンティティについて、エンティティタイプを取得するステップをさらに含む。エンティティタイプは、エンティティ(すなわち、言語単位)が属する、定義された任意の分類学的ランクまたは分類レベル、たとえばクラス/サブクラス/グルーピング/などとすることができる。たとえば、“Amazon”という言語単位の場合、“river”、“body of fresh water”、“flowing body of water”、および“body of water”というタイプを取得することが可能になる。
その後、本方法は、タイプ置換手順を行うステップを含み、それによって、フィルタリングされたトリプルコーパスのトリプルのエンティティは、タイプ置換されたトリプルを取得するために、同じタイプのエンティティと置き換えられる。たとえば、項のペア(すなわち、主語と目的語)、および項間の関係(すなわち、述語)を構成する(主語、述語、目的語)トリプルでは、項は、タイプ置換された(主語、述語、目的語)トリプルを取得するために、同じタイプの他の項と置き換えられる。たとえば、タイプ置換手順は、高リソース言語トリプルである(Alps, are located in, Europe)および(London, is capital of, United Kingdom)から、タイプ置換されたトリプルである(Alps, are located in, Africa)、(Himalayas, are located in, North America)、(Andes, are located in, Europe)と、タイプ置換されたトリプルである(Mexico City, is capital of, United Kingdom)、(Moscow, is capital of, China)、および(London, is capital of, Germany)とを生成することを含むことが可能になる。それぞれの場合において、タイプ置換手順は、エンティティタイプ(たとえば、“mountain ranges”)が取得されたトリプルのエンティティ(たとえば、“Alps”)を、同じタイプの別のエンティティ(たとえば、“Himalayas”または“Andes”)と置き換えることを含む。後で説明するトランスフォーマモデルのトレーニング段階中、特定のトリプルの項間の関係が真であるか、偽であるかは問題でない。後続の動作段階中、トランスフォーマモデルがコヒーレントなトリプルを抽出することができる性能は、真か偽かに関係なく、有効な関係を追加することによって向上することになる。
本方法は、コードスイッチングされた文を取得するために、エンティティを、それらの等価な低リソース言語名称と置き換えるステップを追加的に含む。たとえば、(Vienna, is capital of, Austria)および(Moscow, is capital of, Russia)というトリプルから始めて、“Москва is the capital of Россия”および“Wien is the capital of Osterreich”というコードスイッチングされた文が取得可能である。同様に、“Wien is the capital of Deutschland”というコードスイッチングされた文は、タイプスイッチングされたデータ構造(Vienna, is capital of, Germany)から取得可能になる。
一旦、タイプ置換されたトリプルおよびコードスイッチングされた文が取得されると、それらは、フィルタリングされたコーパスに追加されて、補完されたデータ構造コーパスが提供される。注目すべきは、補完されたデータ構造コーパスは、高リソース言語データ構造、たとえば高リソース言語(主語、動詞、目的語)トリプルと、低リソース言語データ構造、たとえば低リソース言語(主語、動詞、目的語)トリプルとの両方を含んでいることである。補完されたデータ構造コーパスが取得された後、第1の態様による方法は、補完されたデータ構造コーパスを使用することによって、勾配降下アルゴリズム、たとえば確率的勾配降下アルゴリズムを用いて、動的反復タグ付けによるマルチヘッド自己注意トランスフォーマモデルをトレーニングするステップをさらに含む。手短に言えば、マルチヘッド自己注意トランスフォーマモデルをトレーニングするために、高リソース言語データ構造コーパスが取得され、タイプスイッチングされたデータ構造を提供するためにタイプスイッチングが行われ、次いでコードスイッチングされた構造化されていないテキストが、タイプスイッチングされたデータ構造から作成される。次いで、コードスイッチングされた構造化されていないテキストは、高リソース言語トリプルに対応する基となる文(provenance sentence)と一緒に、トレーニングデータとして提供される。トレーニング中のトランスフォーマモデルの出力を評価するためには、タイプスイッチングされたデータ構造および元の高リソース言語データ構造が使用される。
最後に、トレーニング後、方法は、構造化されていない入力テキストから機械可読データ構造、たとえば(主語、動詞、目的語)トリプルを抽出するために、高リソース言語テキスト、低リソース言語テキスト、またはそれらの組合せを含む構造化されていない入力テキストを文に分けるステップと、その文をトレーニングされたモデルに入力するステップとを含む。
そのため、高リソース言語の構造化されていない入力テキストまたは低リソース言語の構造化されていない入力テキストのいずれかから、低リソース言語(主語、述語、目的語)トリプルを抽出するための方法は、高リソース言語データを補完するステップと、補完された高リソース言語データを用いて、マルチヘッド自己注意トランスフォーマモデルをトレーニングするステップと、構造化されていない入力テキストをトレーニングされたマルチヘッド自己注意トランスフォーマモデルに入力するステップとを含む。
高リソース言語トリプルは、少なくとも1つのオープン情報交換(open information exchange、OIE)システム、たとえば一般公開されているコーパスから取得することができる。フィルタリングされた高リソース言語データ構造のそれぞれについて取得されたエンティティタイプも、そのようなオープン情報交換システムから取得することができる。
マルチヘッド自己注意トランスフォーマモデルをトレーニングするステップは、マルチヘッド自己注意トランスフォーマモデルに、補完されたデータ構造コーパスの高リソース言語トリプルを含む、補完されたデータ構造コーパスを入力するステップと、ヘッドに複数回タグ付けするステップを用いて、トークンに動的かつ反復的にタグ付けするステップとを含む。タグ付けするステップに続いて、マルチヘッド自己注意トランスフォーマモデルの重みは、たとえば勾配降下アルゴリズムを用いて更新される。トレーニング中のトランスフォーマへの入力は、タグとともに補完されたデータセット(すなわち、コードスイッチングされた構造化されていないテキスト、および高リソース言語トリプルに対応する基となる文)からの文であり、トレーニング段階中の出力は、勾配降下最適化を用いて取得されるトレーニングされたモデルである。マルチヘッド自己注意トランスフォーマモデルの重みは、たとえばトレーニング中の勾配降下アルゴリズムおよびクロスエントロピー損失を用いて更新され、それは、たとえば検証データセットに関する取得されたスコア、たとえばF1スコアが向上しなくなるまでトレーニングデータセット全体について複数回行うことが可能である。
構造化されていない高リソース言語テキストおよび/または低リソース言語テキストをトレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えるステップは、高リソース言語テキストおよび/または低リソース言語テキストを個々の高リソース言語文および/または低リソース言語文に分離するステップと、機械可読データ構造、たとえば(主題、動詞、目的)トリプルを取得するために、個々の文をトレーニングされたマルチヘッド自己注意トランスフォーマモデルに入力するステップとを含む。
高リソース言語データ構造コーパスの高リソース言語トリプルは、特定のエンティティタイプにそれぞれが対応する主語、動詞、および目的語について、フィールドを有する。各トリプルの各フィールドのエンティティタイプは、トリプルが取得されるOIEシステムから取得できる。オープン情報交換システムは、インターネットデータベース、データセット、およびナレッジベースを含み、それらは、オープンデータ、リンク付けされたデータ、またはリンク付けされたオープンデータの形態のデータを含む。
方法の一実施形態によれば、高リソース言語データ構造は、主語、動詞、目的語トリプルを含み、フィルタリングされた高リソース言語データ構造の各エンティティについてのエンティティタイプは、少なくとも1つのオープン情報交換(OIE)システムから取得され、補完されたデータ構造コーパスは、高リソース言語データ構造および低リソース言語データ構造を含む。高リソース言語データ構造についてのエンティティタイプは、たとえば主語および目的語の分類子を含むことができる。少なくとも1つのOIEシステムは、たとえばオープンデータ、リンク付けされたデータ、またはリンク付けされたオープンデータのデータベースを含むことができる。
方法の一実施形態によれば、マルチヘッド自己注意トランスフォーマモデルをトレーニングするステップは、勾配降下アルゴリズムおよびクロスエントロピー損失を用いて、マルチヘッド自己注意トランスフォーマモデルの重みを更新するステップと、検証データセットに関して取得されたスコアが向上しなくなるまで更新するステップを複数回繰り返すステップとを含む。トランスフォーマモデルの重みを更新するステップは、たとえば高リソース言語トリプルの主語トークンヘッド、動詞トークンヘッド、または目的語トークンヘッドの最初のトークンヘッドにタグ付けし、次いで主語トークンヘッド、動詞トークンヘッド、および目的語トークンヘッドのうちの別のトークンヘッドにタグ付けし、次いで主語トークンヘッド、動詞トークンヘッド、または目的語トークンヘッドのうちの残りのトークンヘッドにタグ付けするステップを含む、動的反復タグ付けを行うステップを含むことができる。高リソース言語トリプルの動的ヘッドトークンタグ付けの順序は、エントロピーを用いて動的に行われる。エントロピーは、ソフトマックス演算を用いて最小から最大までのヘッドトークンの予測精度信頼度を測定し、ヘッドトークンタグ付けの順序の決定は、高言語リソーストリプルの正のヘッドトークンタグをもたらすオーバーヘッドトークン(over head tokens)のみを集約することによって行われる。第1の動的予測順序を用いて動的ヘッドトークンタグ付けを行った後、高リソース言語トリプルの少なくとも1つの追加の動的ヘッドトークンタグ付けが、別の動的予測順序を用いて行われ、複数回行われた動的予測順序によって予測されたトリプルは、高信頼度トリプルとマーク付けされる。動的ヘッドトークンタグ付け順序は、ランダムに選択することができる。
方法の一実施形態によれば、構造化されていない低リソース言語入力テキストをトレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えるステップは、構造化されていない低リソース言語入力テキストを個々の低リソース言語文に分離するステップと、主語、動詞、目的語トリプルを取得するために、個々の低リソース言語文をトレーニングされたマルチヘッド自己注意トランスフォーマモデルに入力するステップとを含む。
方法の一実施形態によれば、マルチヘッド自己注意モデルのトレーニングは、エンティティをリンク付けする単言語および/または多言語のナレッジグラフを生成する。方法の一実施形態によれば、構造化されていない低リソース言語入力テキストは、コード混在文であり、前記コード混在文は、言語が混在している文を含む。方法の一実施形態によれば、構造化されていない低リソース言語入力テキストは、第1の低リソース言語のテキストを含み、抽出された機械可読データ構造は、第1の低リソース言語のためのデータ構造を含む。
第2の態様によれば、本開示においては、構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出するための方法を行うための命令を記憶した非一時的コンピュータ可読媒体について説明する。方法は、高リソース言語データ構造のコーパスを取得するステップと、高リソース言語データ構造のフィルタリングされたコーパスを取得するために、高リソース言語データ構造をフィルタリングするステップと、各フィルタリングされた高リソース言語データ構造の各エンティティについて、エンティティタイプを取得するステップとを含む。方法は、タイプ置換されたデータ構造を生成するために、各取得されたエンティティについて、各エンティティを同じタイプのエンティティと置き換えることによってタイプ置換を行うステップと、コードスイッチングされた文を生成するために、各エンティティを等価な低リソース言語データ構造と置き換えるステップと、タイプ置換されたデータ構造およびコードスイッチングされた文をフィルタリングされた高リソース言語データ構造コーパスと組み合わせるステップを含む、補完されたデータ構造コーパスを生成するステップとをさらに含む。加えて、方法は、補完されたデータ構造コーパスを用いて、動的反復タグ付けおよび勾配降下アルゴリズムによりマルチヘッド自己注意トランスフォーマモデルをトレーニングするステップと、機械可読データ構造を抽出するために、構造化されていない低リソース言語入力テキストをトレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えるステップとを含む。
第3の態様によれば、本開示は、構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出するためのシステムを提供する。このシステムは、高リソース言語データ構造のコーパスを取得することと、高リソース言語データ構造のフィルタリングされたコーパスを取得するために、高リソース言語データ構造をフィルタリングすることと、各フィルタリングされた高リソース言語データ構造の各エンティティについて、エンティティタイプを取得することとを行うように構成される1つまたは複数のプロセッサを含む。1つまたは複数のプロセッサは、タイプ置換されたデータ構造を生成するために、各取得されたエンティティについて、各エンティティを同じタイプのエンティティと置き換えることによってタイプ置換を行うことと、コードスイッチングされた文を生成するために、各エンティティを等価な低リソース言語データ構造と置き換えることと、タイプ置換されたデータ構造およびコードスイッチングされた文をフィルタリングされた高リソース言語データ構造コーパスと組み合わせることを含む、補完されたデータ構造コーパスを生成することとを行うようにさらに構成されている。加えて、1つまたは複数のプロセッサは、補完されたデータ構造コーパスを用いて、動的反復タグ付けおよび勾配降下アルゴリズムによりマルチヘッド自己注意トランスフォーマモデルをトレーニングすることと、機械可読データ構造を抽出するために、構造化されていない低リソース言語入力テキストをトレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えることとを行うように構成されている。
図1は、本発明の実施形態に従って、さらに後述する、データ補完方法からの補完されたデータを用いてトリプルを抽出するための方法およびシステムを概略的に示している。システムは、3つのトークン分類ヘッド、すなわち、主語ヘッド、述語ヘッド、および目的語ヘッドを含むトランスフォーマモデルなどの自己注意ベースのニューラルシーケンスモデルを有するOpenIE抽出モデルに基づいている。トークン分類ヘッドは、密な(線形)層であり、その後に、入力文のすべてのトークンに対するソフトマックス演算の適用が続く。
入力文は、トランスフォーマモデルなどの自己注意ベースのニューラルシーケンスモデルに与えられ、モデルは、入力文を一連の埋込みに変換し、各埋込みは、文の中の単語に対応する。埋込みが出力層で取得された後、3つのトークン分類ヘッドが動的に適用される。図1は、入力文に対する1つのそのような入力シーケンスの一例を示している。まず、入力文におけるすべての主語にマーク付けする主語ヘッドが適用される。マーク付けされた主語ごとに、マーク付けされた主語をもつ同じ入力文が、モデルにフィードされ、次いで目的語ヘッドなどの別のトークン分類ヘッドに与えられる。目的語ヘッドは、目的語にマーク付けし、ここで、マーク付けされた主語および目的語をもつ入力文は、述語にタグ付けするために、再度、モデルにフィードされる。
本発明の一実施形態によれば、トークン分類ヘッドの順序は、エントロピーなどの様々な測定基準を用いて動的に選択される(たとえば、ヘッド予測は、最小から最大までエントロピー(それぞれのトークン分類ヘッドがその予測においてどれほどの信頼度があるかについての尺度)によって順序付けされる)。トークン分類ヘッドのエントロピー、すなわちシャノンエントロピー(Shannon entropy)は、正のラベル(主語、目的語、または述語のいずれか)をもたらすオーバートークンのみを集約することによってコンピュータ計算される。エントロピーは、たとえば各ヘッドが3つのクラスを有する出力ヘッドからのソフトマックス出力を用いて、次いでシャノンエントロピー方程式を用いて、コンピュータ計算される。ある予測順序を用いてトリプルを抽出した後、文は、異なる予測順序を用いてトリプルを抽出するモデルに再度、入力される。これは、複数回行われることが好ましく、順序は、ランダムに選択されることが好ましい。複数の予測順序によって予測されるトリプルは、高信頼度トリプルとマーク付けされる。
図1の例においては、補完されたデータからの入力文は、トランスフォーマモデルに渡される。補完されたデータは、たとえば高リソース言語データ構造(たとえば、(主語、述語、目的語)トリプル)、およびそのようなデータ構造に対応する基となる文、ならびにタイプスイッチングされた/コードスイッチングされたデータ構造および構造化されていない言語テキストを含む。このモデルは、入力文の中の各単語を埋込みベクトルにマッピングし、次いで自己注意を適用する。自己注意の適用には、完全結合グラフが利用される。完全結合グラフは、あらゆるトークンベクトルに他のあらゆるトークンベクトルを乗じることによって生成される。各トークンベクトルは、単語を表すベクトルであり、トークンベクトルは、まずテキストを「トークン化する(tokenizing)」(文を単語またはトークンに分割する)こと、次いで行列の乗算を用いて各単語をベクトルにマッピングすることによってコンピュータ計算される。
トランスフォーマモデルの自己注意層の出力は、各単語についてのベクトル表現ν(すなわち、符号化されたベクトル)である。次いで、ベクトル表現のシーケンスは、主語、述語、および目的語の予測のために3つのトークン分類ヘッドのそれぞれに渡される。予測に基づいて、システムは、トークン分類ヘッドのうちの1つを動的に選択し、このヘッドの予測を進める。各ヘッドについて、エントロピーが、(たとえば、上述したように)コンピュータ計算され、予測の順序は、エントロピーが最も低いヘッドを選択することによって決定される。トークン分類ヘッドの予測は、実際の単語の形態で出力されるとともに、エントロピーは、ソフトマックスに働く。具体的には、ソフトマックスは、出力されたヘッドに適用され、次いでエントロピーがコンピュータ計算され、次いで順序が選択され、その順序に基づいてトリプルが予測される。次いで、このトークン分類ヘッドが、予測したすべてのトークンにマーク付けした新しい文が、モデルに入力し直される。次いで、手順は、残りの2つのトークン分類ヘッドについて繰り返される。フィードバックは、トレーニング段階中のみ与えられ、主語/目的語/述語にタグ付けする分類ヘッドに対してのみ与えられる。システムは、トリプル全体がタグ付けされるのを待たずに、ヘッドのうちの1つが単語にタグ付けした場合でも、それ自体を更新する。
図7は、上記の図1で説明したものなどのマルチヘッド自己注意トランスフォーマモデルの動作のフローチャート700を示している。まず、710で、補完されたデータ、たとえば高リソース言語の文またはテキストが、マルチヘッド自己注意トランスフォーマモデルの入力層または入力エンコーダに入力される。次に、720で、入力エンコーダは、入力された補完されたデータの各単語を、対応する個々の埋込みベクトルにマッピングする。次に、730で、トランスフォーマモデルは、符号化されたベクトルを提供するために、各埋込みベクトルに自己注意を適用する。トランスフォーマモデルは、このステップを行う際に、完全結合ナレッジグラフを利用する。次に、740で、トランスフォーマモデルは、符号化されたベクトルを各埋め込まれた単語についてのベクトル表現「ν」として出力し、これにより、補完されたデータの入力された単語についての符号化されたベクトルのセットが提供される。
次に、ステップ750で、トランスフォーマモデルは、符号化された単語ベクトルを、トランスフォーマモデルの密な(線形)層であるトークン分類ヘッド層に入力する。次のステップ760aで、ソフトマックス演算が、出力された分類ヘッドに関して行われる。ステップ760bで、主語トークンヘッド、述語トークンヘッド、または目的語トークンヘッドが、最初に入力された補完されたデータの符号化された単語ベクトルにタグ付けするために、および最初に入力された補完されたデータから主語、述語、または目的語トリプルを生成するために使用されることになるかどうかを決定する最初のヘッドトークンタグ付け順序を動的に選択するためにエントロピー測定基準が適用される。このステップにおいては、ヘッド予測は、エントロピー(ヘッドがその予測においてどれほどの信頼度があるかについての尺度)によって最小から最大まで順序付けられる。次のステップ770で、主語、述語、または目的語トリプルが、この最初のトークン分類ヘッドタグ付けシーケンスから生成される。次いで、ステップ780で、主語、述語、または目的語トリプルが、タグ付けされたトークンヘッドから生成され、高信頼度トリプルとマーク付けされる。最後に、ステップ790で、トランスフォーマモデルは、トークンヘッドタグ付け主語、述語、または目的語トリプルを含む補完されたデータをトランスフォーマモデルに再入力し、上述した動作を再度、反復して行って、残りの主語、述語、または目的語トリプルを生成し、この動作は、複数回、ランダムに選定された異なる順序で行ってもよく、この動作は、すべてのトリプルおよびトリプルタイプがタグ付けされ生成されるまで、各(主語、述語、目的語)トリプルタイプについて複数回この形で行ってもよい。一旦、すべてのトリプルが生成されると、それらは、出力される。本発明の一実施形態による、補完されたデータを取得するためのデータ補完方法は、2つの部分、すなわち、1)曖昧さが除去された項を含む英語のOpenIEトリプルを選定する部分(図2参照)と、2)英語のOpenIEトリプルを用いて、低リソース言語、たとえば日本語の項を含むOpenIEトリプルを生成する部分(図3参照)とを含む。
図2は、一般公開されているOpenIEコーパスから始まる、曖昧さが除去された項を含む英語のOpenIEトリプルを選定するための方法およびシステムを概略的に示している。このOpenIEコーパスは、項の曖昧さ除去IDをもつOpenIEトリプルを含んでいるものとする。曖昧さ除去IDは、実際には、一意のウィキペディアURLである。そのため、そのような曖昧さ除去リンクは、任意のウィキペディア生成ナレッジグラフ(たとえば、DBペディア、YAGO、またはウィキデータ)に直接、マッピング可能である。その上、そのようなリンクは、エンティティメンション(entity mention)に直接、マッピング可能である(たとえば、リンクJoe_Bidenは、文字列“Joe Biden”と書き換えることができる)。次に、本発明の実施形態は、OpenIEコーパスのいくつかのサブセット、すなわち、1)ゴールデントリプル、2)高信頼度トリプル、および3)トークンオーバーラップトリプルを利用する。ゴールデントリプルは、人間によってマーク付けされるトリプルである。これについては、まず、OpenIEトリプルのランダムなサンプルが読み出される。次いで、人間注釈者が、それらのトリプルに、「正しく抽出された」または「誤って抽出された」のいずれかとラベル付けする。次いで、本発明の実施形態は、正しく抽出されたトリプルのみを選定する。ゴールデントリプルを使用することは有利である可能性があるが、人間の注釈ステップは、トリプルを本発明の実施形態に従って抽出できるようにすることは必要とされない。高信頼度トリプルは、信頼度スコア>0.95のトリプルである。信頼度スコアは、OpenIEコーパスを生成するOpenIEシステムから取得される。トークンオーバーラップトリプルは、元の文からのトークンをすべて含んでいる(すなわち、トリプルと文がともにバッグオブワーズ(bag of words)であると仮定した場合、基となる文からのトークンは、トリプルからのトークンとオーバーラップする)。
一実施形態によれば、一般公開されているコーパスからのすべてのトリプルが収集され、「汎用フィルタ(generic filter)」がそれらに適用される。汎用フィルタは、1)両方の項についてエンティティタイプがDBペディアに1つもないトリプル、または2)項のうちの少なくとも一方の項について“Thing”という汎用エンティティタイプをDBペディアに有し、他方の項については1つも項がないトリプルを除去するフィルタである。重複は、フィルタ除去される。
図4の例においては、補完されたデータが、英語のOpenIEトリプルから生成される。この処理により、それぞれのOpenIEトリプルおよびその基となる文(すなわち、それぞれのOpenIEトリプルが抽出された抽出元の構造化されていないテキスト/自然言語文)ごとに、トリプル/文のペアに変換される。一旦、トリプル/文のペアが提供されると、タイプ置換を行うことができ、それによって、トリプル/文の各ペアの1つまたは複数のエンティティが、同じタイプの別のエンティティと置換される。その後、コードスイッチングが行われ、ここでは、高リソース言語からのエンティティが、低リソース言語からのエンティティと置き換えられる。この処理は、英語のOpenIEトリプルの各トリプルから始まる。次いで、英語のOpenIEトリプルの各それぞれのトリプルの主語について、1)同じエンティティタイプを有し、2)低リソース言語DBペディアで利用可能である、n個(たとえば、3個または4個)のDBペディアエンティティがランダムにサンプリングされる。次に、主語における、および基となる文におけるテキストが、主語の新しいエンティティ(すなわち、主語の同じエンティティタイプを有し低リソース言語で利用可能である、n個のランダムにサンプリングされたDBペディアエンティティのうちの1つ)、ならびに目的語の古いエンティティの低リソース言語テキストと置き換えられる(図3参照)。同じ手順が、目的語について繰り返される。最後に、低リソース言語のOpenIEトリプルとその基となる文とのペアが記憶される。これにより、結果的に、低リソース言語の項とコードスイッチングされた文とを含むトリプルのペアがもたらされ、それにより、モデルは、低リソース言語におけるトリプルを抽出することが可能になる。
図8におけるフローチャート800は、構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出する方法を示している。最初のステップ810において、主語、述語または動詞、および目的語トリプルを含む高リソース言語データ構造コーパスが取得される。次に、ステップ820で、高リソース言語データ構造コーパスは、フィルタリングされた高リソース言語データ構造コーパスを取得するために、トリプルを含む、誤って抽出された(たとえば、ヘッドトークンタグ付けされた)データ構造などの特定のデータ構造をフィルタ除去するようにフィルタリングされる。次に、ステップ830で、特定のエンティティタイプを含むエンティティが、フィルタリングされたコーパスの各それぞれのデータ構造における各エンティティについて取得される。その後、ステップ840で、タイプ置換手順が行われ、それによって、タイプ置換されたデータ構造を取得するために、フィルタリングされたコーパスのデータ構造のエンティティが、同じタイプのエンティティと置き換えられる。次に、ステップ850で、コードスイッチングされた文を取得するために、タイプ置換されたデータ構造のそれぞれのエンティティが、単語または名称など、等価な低リソース言語エンティティと置き換えることを含む、データ構造コードスイッチング処理が行われる。次に、ステップ860で、タイプ置換されたデータ構造およびコードスイッチングされた文は、取得された後、補完されたデータ構造のコーパスを提供するために、フィルタリングされたコーパスに追加される。補完されたデータ構造コーパスが取得された後、ステップ870で、勾配降下アルゴリズムを用いた動的反復タグ付けによるマルチヘッド自己注意トランスフォーマモデルがトレーニングされる。最後に、ステップ880で、文の形態の構造化されていない入力テキストが、トレーニングされたモデルに入力され、機械可読データ構造が、構造化されていない入力テキストから抽出される。
一実施形態においては、本発明は、たとえば企業データの多言語ナレッジグラフを生成するために適用することができる。この特定の実施形態においては、方法は、英語に関する多言語トレーニングデータ、ならびに企業の投資文書および企業情報などの企業データに関する低リソース言語テキストを生成するために使用することができる。その結果が、企業、製品、投資資産、CEO、資産などをリンク付けするナレッジグラフである。システムは、異なる言語でトリプルを抽出することになる。異なる言語により、システムは、様々なソースから情報を取り込むことが可能になる。これにより、たとえばバイリンガルの投資アナリストが、投資判断を計画するために、企業、商品、および資産が互いにどのようにリンク付けされているかをチェックすることが可能になる。
一実施形態においては、本発明は、たとえば国際的な空港、港、および鉄道踏切における国境管理のための入国検問システムを提供するために、公共の安全に向けた多言語OpenIEシステムにおいて適用することができる。国境から入りたがっている、または国境から出たがっている個人の名前とソーシャルメディアのハンドルを受け取ると、システムは、異なる言語でソーシャルメディアフィードからトリプルを抽出することになる多言語OpenIEシステムを呼び出すことになる。トリプルは、ナレッジグラフを作成するために抽出され、その人が、これまでに暴力行為および違法行為を支持、容認、または助長させたことがあったかどうかを示す用語が含まれているかどうかを自動的にチェックされることになる。そうである場合、システムは、自動的にその人物が国境から入ること、または国境から出ることを禁止し、さらに処理するように国境警備隊に通報することが可能になる。システムの多言語機能の技術的な利点は、それにより、システムが、従来はできなかった個人のソーシャルメディアフィードの徹底的なバックグラウンドチェックを異なる言語で行うことが可能になることである。
一実施形態においては、本発明は、インターネット記事におけるヘイトスピーチを特定するために適用することができる。ヘイトスピーチの蔓延は、インターネットにおける大きな問題である。公的機関は、ヘイトスピーチを特定し除去する際に、多大な時間と計算的リソースを費やす。この種の作業は、人間の作業者の助けを得て行われることが多く、それは、時間がかかり、また、作業者に精神的な影響を与える可能性がある。対照的に、本発明の諸実施形態は、文書、記事、さらにはソーシャルメディアからトリプルを自動的に抽出してナレッジグラフを作成することを可能にし、そのような抽出は、多言語において可能である。ナレッジグラフにおけるこうしたトリプルは、ヘイトスピーチを助長させるとして自動的に分類されるか、または文書全体を読む必要がなくなり、トリプルとそれらのつながりのみを見てその文書がヘイトスピーチであるか否かを迅速に判定するヘイトスピーチフィルタリングエージェントに示されるかのいずれかが可能である。このシステムを利用すると、かなりの時間および計算的リソース、ならびに関連のコストが削減されることになる。
一実施形態においては、本発明は、ニュース記事などのテキストを要約するために適用することができる。図6は、オープンナレッジグラフを用いて日本語のニュース記事を要約し、抽出されたトリプルを比較する例示的なアプリケーションを示す図である。この例における仕事は、地政学に関するニュース記事の要約を抽出し、次いで抽出したトリプルを他のニュース記事から抽出したトリプルと比較して、どの事実が共通であり、どの事実が共通でないかをチェックすることである。そのようなシステムは、情報アナリストが、一般公開されているニュース記事から取得したオープンソースの情報データを追跡するために使用可能になる。このシステムは、ニュース記事からの構造化された事実、およびそれらが他のニュース記事からの事実とどれほど類似しているかについてアナリストに提示し、その結果、仕事の精度が向上すると同時に、記事全体を手作業で読む、または処理する必要をなくすことによって、および類似した事実を有する記事をスキップすることを可能にすることによって、アナリストの時間が大幅に節約される。
一実施形態においては、本発明は、たとえば企業情報、企業資産、売上、コスト、株主価値の抽出を目的とする財務ニュースおよび企業報告書から、ナレッジグラフを抽出するために適用することができる。システムは、企業、製品、資産、サービスが互いにどのようにリンク付けされているかに関するナレッジグラフを作成することになる。これをリンク予測アルゴリズムにおいて使用して、将来、企業の業績がその株式評価の観点でどのようになるかを予測することになる。
本発明の諸実施形態は、次の改良点を提供する。
1. 多言語トリプルを抽出するためにマルチヘッド動的反復手順を使用すること。
2. 高リソース言語から低リソース言語へのナレッジの転移を容易にする高リソース言語と低リソース言語との間のコードスイッチングされたデータを使用するデータ補完。
3. モデルが異なる言語でエンティティを抽出できるようにするタイプ置換を用いたデータ補完。
高リソース言語が英語であり、低リソース言語が日本語である例示的な実施形態においては、本発明は、次のステップを含む、入力テキストからトリプルを抽出するための方法を提供する。
1. 任意の一般公開されているOIEシステムからOpen IEトリプルをフィルタリングする。
2. フィルタリングされたトリプルから、各トリプルについて、DBペディアにおけるエンティティタイプを取得する。
3. タイプ置換されたトリプルを取得するために、エンティティ(主語および目的語)を同じタイプからのエンティティと置き換える。これらのトリプルを元のフィルタリングされたトリプルに追加する。
4. コードスイッチングされた文を取得するために、エンティティ(主語および目的語)をDBペディアにおいて利用可能なそれらの日本語の名称と置き換える。これらのトリプルを元のフィルタリングされたトリプルに追加する。
5. 補完されたデータを用いて、動的反復タグ付けによりおよび勾配降下アルゴリズムを用いてマルチヘッド自己注意モデルをトレーニングする。
6. 英語または日本語の文書を文に分け、その文をトレーニングされたモデルに入力し、トリプルを取得する。
したがって、本発明の諸実施形態は、日本語などの低リソース言語で書かれたテキストからトリプルを抽出することを可能にする。日本語などの低リソース言語で主語、動詞、目的語トリプルを抽出することができる既存のシステムは1つも存在しない。その上、本発明の諸実施形態は、補完されたデータの追加、また反復ヘッド予測方法により、現行の教師ありおよび教師なしの英語トリプル抽出システムよりも性能が優れている。本発明の実施形態によって提供される別の改良点は、コード混在文(すなわち、言語が混在している文)を扱うことができることであり、主語、目的語、および述語が異なる言語である場合でも、トリプルを抽出することを可能にできることである。その上、本発明の諸実施形態は、100を超える言語からの文を、性能の向上を伴って受け入れることができる。たとえば、モデルが、コードスイッチングされた文に関してトレーニングされることによって、性能および精度が向上する。同様に、予測ヘッドを動的に選択すると、やはり性能および精度が向上する。
本発明を説明する文脈で(特に、添付の特許請求の範囲の文脈で)、「a」、および「an」、および「the」、および「at least one」という用語、ならびに同様の指示物の使用は、本明細書において別段示されない限り、または文脈によって明らかに矛盾していない限り、単数形と複数形の両方をカバーすると解釈すべきである。1つまたは複数の項目のリスト(たとえば、「AおよびBのうちの少なくとも1つ(at least one of A and B)」)が後に続く「少なくとも1つ(at least one)」という用語の使用は、本明細書において別段示されない限り、または文脈によって明らかに矛盾していない限り、リストされた項目から選定される1つの項目(AまたはB)、またはリストされた項目のうちの2つ以上の任意の組合せ(AおよびB)を意味すると解釈すべきである。「備える(comprising)」、「有する(having)」、「含む(including)」、および「含んでいる(containing)」という用語は、別段注記されない限り、オープンエンドの用語(すなわち、「含むが、限定しない(including, but not limited to)」を意味する)と解釈すべきである。本明細書において説明したすべての方法は、本明細書において別段示されない限り、または文脈によって明らかに矛盾していない限り、任意の適切な順序で行うことができる。本明細書において提供される任意のおよびすべての例、または例示的な文言(たとえば、「など(such as)」)の使用は、単に本発明をより良く明らかにすることを意図しているにすぎず、別段特許請求の範囲に記載がない限り、本発明の範囲に限定をもたらすものではない。本明細書におけるいかなる文言も、特許請求されていないいずれの要素も本発明の実施に不可欠であると示すものと解釈すべきではない。
本発明の諸実施形態を図面および前述の説明において詳細に図示および説明してきたが、そのような図示および説明は、図示または例示であるとみなすべきであり、限定とみなすべきではない。当業者によって変更および修正を行うことは可能であることが理解されよう。具体的には、本発明は、異なる実施形態からの特徴の任意の組合せを含むさらなる実施形態をカバーする。さらには、本発明を特徴付ける本明細書における記述は、本発明の一実施形態を示しており、必ずしもすべての実施形態を示しているわけではない。
700 フローチャート
800 フローチャート

Claims (15)

  1. 構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出する方法であって、
    高リソース言語データ構造のコーパスを取得するステップと、
    高リソース言語データ構造のフィルタリングされたコーパスを取得するために、高リソース言語データ構造の前記コーパスをフィルタリングするステップと、
    各フィルタリングされた高リソース言語データ構造の各エンティティについて、エンティティタイプを取得するステップと、
    タイプ置換されたデータ構造を生成するために、各取得されたエンティティについて、各エンティティを同じタイプのエンティティと置き換えることによってタイプ置換を行うステップと、
    コードスイッチングされた文を生成するために、各エンティティを対応する低リソース言語エンティティと置き換えるステップと、
    前記タイプ置換されたデータ構造および前記コードスイッチングされた文を前記フィルタリングされた高リソース言語データ構造コーパスと組み合わせるステップを含む、補完されたデータ構造コーパスを生成するステップと、
    前記補完されたデータ構造コーパスを用いて、動的反復タグ付けおよび勾配降下アルゴリズムによりマルチヘッド自己注意トランスフォーマモデルをトレーニングするステップと、
    前記機械可読データ構造を抽出するために、前記構造化されていない低リソース言語入力テキストを前記トレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えるステップと
    を含む、方法。
  2. 前記高リソース言語データ構造が、主語、動詞、目的語トリプルを含み、
    前記フィルタリングされた高リソース言語データ構造の各エンティティについての前記エンティティタイプが、少なくとも1つのオープン情報交換(OIE)システムから取得され、
    前記補完されたデータ構造コーパスが、高リソース言語データ構造および低リソース言語データ構造を含む、
    請求項1に記載の方法。
  3. 前記マルチヘッド自己注意トランスフォーマモデルをトレーニングするステップが、
    勾配降下アルゴリズムおよびクロスエントロピー損失を用いて、前記マルチヘッド自己注意トランスフォーマモデルの重みを更新するステップと、
    検証データセットに関して取得されたスコアが向上しなくなるまで前記更新するステップを複数回繰り返すステップと
    を含む、請求項1に記載の方法。
  4. 前記構造化されていない低リソース言語入力テキストを前記トレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えるステップが、
    前記構造化されていない低リソース言語入力テキストを個々の低リソース言語文に分離するステップと、
    主語、動詞、目的語トリプルを取得するために、前記個々の低リソース言語文を前記トレーニングされたマルチヘッド自己注意トランスフォーマモデルに入力するステップと
    をさらに含む、請求項1に記載の方法。
  5. 前記高リソース言語データ構造についての前記エンティティタイプが、主語および目的語の分類子を含む、請求項2に記載の方法。
  6. 前記少なくとも1つのOIEシステムが、オープンデータ、リンク付けされたデータ、またはリンク付けされたオープンデータのデータベースを含む、請求項2に記載の方法。
  7. 前記マルチヘッド自己注意モデルの前記トレーニングが、エンティティをリンク付けする単言語および/または多言語のナレッジグラフを生成する、請求項1に記載の方法。
  8. 前記マルチヘッド自己注意トランスフォーマモデルの前記重みを更新するステップが、前記高リソース言語トリプルの主語トークンヘッド、動詞トークンヘッド、または目的語トークンヘッドの最初のトークンヘッドにタグ付けし、次いで前記主語トークンヘッド、前記動詞トークンヘッド、および前記目的語トークンヘッドのうちの別のトークンヘッドにタグ付けし、次いで前記主語トークンヘッド、前記動詞トークンヘッド、および前記目的語トークンヘッドのうちの残りのトークンヘッドにタグ付けするステップを含む、動的反復タグ付けを行うステップを含む、請求項3に記載の方法。
  9. 前記高リソース言語トリプルの動的ヘッドトークンタグ付けの順序が、エントロピーを用いて動的に行われ、前記エントロピーが、ソフトマックス演算を用いて最小から最大までのヘッドトークンの予測精度信頼度の測定を行い、
    前記ヘッドトークンタグ付けの前記順序の決定が、前記高言語リソーストリプルの正のヘッドトークンタグをもたらすオーバーヘッドトークンのみを集約することによって行われる、
    請求項3に記載の方法。
  10. 第1の動的予測順序を用いて前記動的ヘッドトークンタグ付けを行った後、前記高リソース言語トリプルの少なくとも1つの追加の動的ヘッドトークンタグ付けが、別の動的予測順序を用いて行われ、複数回行われた動的予測順序によって予測された前記トリプルが、高信頼度トリプルとマーク付けされる、請求項9に記載の方法。
  11. 前記動的ヘッドトークンタグ付け順序が、ランダムに選択される、請求項9に記載の方法。
  12. 前記構造化されていない低リソース言語入力テキストが、コード混在文であり、前記コード混在文は、言語が混在している文を含む、請求項1に記載の方法。
  13. 前記構造化されていない低リソース言語入力テキストが、第1の低リソース言語のテキストを含み、前記抽出された機械可読データ構造が、前記第1の低リソース言語のためのデータ構造を含む、請求項1に記載の方法。
  14. プロセッサによって実行されると、前記プロセッサに、構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出する方法を行わせるプロセッサ実行可能命令を記憶した非一時的コンピュータ可読記録媒体であって、前記方法が、
    高リソース言語データ構造のコーパスを取得するステップと、
    高リソース言語データ構造のフィルタリングされたコーパスを取得するために、高リソース言語データ構造の前記コーパスをフィルタリングするステップと、
    各フィルタリングされた高リソース言語データ構造の各エンティティについて、エンティティタイプを取得するステップと、
    タイプ置換されたデータ構造を生成するために、各取得されたエンティティについて、各エンティティを同じタイプのエンティティと置き換えることによってタイプ置換を行うステップと、
    コードスイッチングされた文を生成するために、各エンティティを対応する低リソース言語エンティティと置き換えるステップと、
    前記タイプ置換されたデータ構造および前記コードスイッチングされた文を前記フィルタリングされた高リソース言語データ構造コーパスと組み合わせるステップを含む、補完されたデータ構造コーパスを生成するステップと、
    前記補完されたデータ構造コーパスを用いて、動的反復タグ付けおよび勾配降下アルゴリズムによりマルチヘッド自己注意トランスフォーマモデルをトレーニングするステップと、
    前記機械可読データ構造を抽出するために、前記構造化されていない低リソース言語入力テキストを前記トレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えるステップと
    を含む、非一時的コンピュータ可読記録媒体。
  15. 構造化されていない低リソース言語入力テキストから機械可読データ構造を抽出するためのシステムであって、
    高リソース言語データ構造のコーパスを取得することと、
    高リソース言語データ構造のフィルタリングされたコーパスを取得するために、高リソース言語データ構造の前記コーパスをフィルタリングすることと、
    各フィルタリングされた高リソース言語データ構造の各エンティティについて、エンティティタイプを取得することと、
    タイプ置換されたデータ構造を生成するために、各取得されたエンティティについて、各エンティティを同じタイプのエンティティと置き換えることによってタイプ置換を行うことと、
    コードスイッチングされた文を生成するために、各エンティティを対応する低リソース言語エンティティと置き換えることと、
    前記タイプ置換されたデータ構造および前記コードスイッチングされた文を前記フィルタリングされた高リソース言語データ構造コーパスと組み合わせることを含む、補完されたデータ構造コーパスを生成することと、
    前記補完されたデータ構造コーパスを用いて、動的反復タグ付けおよび勾配降下アルゴリズムによりマルチヘッド自己注意トランスフォーマモデルをトレーニングすることと、
    前記機械可読データ構造を抽出するために、前記構造化されていない低リソース言語入力テキストを前記トレーニングされたマルチヘッド自己注意トランスフォーマモデルに与えることと
    を行うように構成される1つまたは複数のプロセッサを備える、システム。
JP2022048435A 2021-03-25 2022-03-24 低リソース言語からのオープン情報の抽出 Pending JP2022151838A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163165755P 2021-03-25 2021-03-25
US63/165,755 2021-03-25
US17/342,575 2021-06-09
US17/342,575 US11741318B2 (en) 2021-03-25 2021-06-09 Open information extraction from low resource languages

Publications (1)

Publication Number Publication Date
JP2022151838A true JP2022151838A (ja) 2022-10-07

Family

ID=83363458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022048435A Pending JP2022151838A (ja) 2021-03-25 2022-03-24 低リソース言語からのオープン情報の抽出

Country Status (2)

Country Link
US (1) US11741318B2 (ja)
JP (1) JP2022151838A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230244706A1 (en) * 2022-02-03 2023-08-03 Naver Corporation Model globalization for long document summarization
CN116129117B (zh) * 2023-02-03 2023-07-14 中国人民解放军海军工程大学 基于多头注意力的声呐小目标半监督语义分割方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645289B2 (en) * 2010-12-16 2014-02-04 Microsoft Corporation Structured cross-lingual relevance feedback for enhancing search results
US9779085B2 (en) * 2015-05-29 2017-10-03 Oracle International Corporation Multilingual embeddings for natural language processing
EP3616083A4 (en) * 2017-04-23 2021-01-13 Nuance Communications, Inc. MULTILINGUAL SEMANTIC ANALYZER BASED ON TRANSFERRED LEARNING
US10657332B2 (en) * 2017-12-21 2020-05-19 Facebook, Inc. Language-agnostic understanding
CN110008467A (zh) 2019-03-04 2019-07-12 昆明理工大学 一种基于迁移学习的缅甸语依存句法分析方法
CN111695361A (zh) 2020-04-29 2020-09-22 平安科技(深圳)有限公司 中英双语语料库的构建方法、及其相关设备
CN111581988B (zh) 2020-05-09 2022-04-29 浙江大学 一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统

Also Published As

Publication number Publication date
US11741318B2 (en) 2023-08-29
US20220309254A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
Dahouda et al. A deep-learned embedding technique for categorical features encoding
CN106933804B (zh) 一种基于深度学习的结构化信息抽取方法
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
JP2022151838A (ja) 低リソース言語からのオープン情報の抽出
Cui et al. Sentiment analysis via integrating distributed representations of variable-length word sequence
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
JP6614152B2 (ja) テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラム
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
Deußer et al. KPI-EDGAR: A novel dataset and accompanying metric for relation extraction from financial documents
Sabbah et al. Support vector machine based approach for quranic words detection in online textual content
Liao et al. Doctr: Document transformer for structured information extraction in documents
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN115408506B (zh) 联合语义解析和语义成分匹配的nl2sql的方法
Hendriks et al. Recognizing and Linking Entities in Old Dutch Text: A Case Study on VOC Notary Records.
Higazy et al. Web-based Arabic/English duplicate record detection with nested blocking technique
KR102203895B1 (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
CN110472243B (zh) 一种中文拼写检查方法
Huaqiang et al. The research of domain ontology recommendation method with its applications in requirement traceability
Zhou et al. Nested causality extraction on traffic accident texts as question answering
Markus et al. Leveraging Researcher Domain Expertise to Annotate Concepts Within Imbalanced Data
Fatma et al. Canonicalizing knowledge bases for recruitment domain
Wang et al. Global Semantics with Boundary Constraint Knowledge Graph for Chinese Financial Event Detection
Munyaradzi et al. Quality assessment in crowdsourced indigenous language transcription
Nasib References validation in scholarly articles using RoBERTa