JP2022003544A - 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品 - Google Patents

業界テキスト増分方法、関連装置、およびコンピュータプログラム製品 Download PDF

Info

Publication number
JP2022003544A
JP2022003544A JP2021149074A JP2021149074A JP2022003544A JP 2022003544 A JP2022003544 A JP 2022003544A JP 2021149074 A JP2021149074 A JP 2021149074A JP 2021149074 A JP2021149074 A JP 2021149074A JP 2022003544 A JP2022003544 A JP 2022003544A
Authority
JP
Japan
Prior art keywords
text
industry
subject
predicate
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021149074A
Other languages
English (en)
Other versions
JP7291181B2 (ja
Inventor
ジョウ ファン,
Zhou Fang
ヤービン シー,
Yabing Shi
イェ ジァン,
Ye Jiang
チュングァン チャイ,
Chunguang Chai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022003544A publication Critical patent/JP2022003544A/ja
Application granted granted Critical
Publication of JP7291181B2 publication Critical patent/JP7291181B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】遠隔監視方法を使用して、低リソースのターゲット業界テキストがより効果的なサンプル増分を実現するのに役立てる業界テキスト増分方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム製品を提供する。【解決手段】方法は、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することを含む。業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す。方法はさらに、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が、第一プリセットレベル以上である第二プリセットレベルよりも大きい増分済み業界テキストを取得することを含む。【選択図】図2

Description

本願は、データ処理技術の分野、具体的には深層学習、自然言語処理、ナレッジグラフ構築、インテリジェントな質問回答などの人工知能技術分野、特に業界テキスト増分方法、装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム製品に関する。
情報抽出技術は、情報処理および情報検索に依存する業界でのインテリジェントな質問回答、インテリジェントなカスタマーサービスなどのニーズを支援するために使用され得る。人工知能と深層学習技術の発展のおかげで、情報抽出などの自然言語処理関連技術は、近年飛躍的に発展してきている。従来の機械学習モデルとは異なり、深層学習モデルは、人為的に定義された高度な特徴に依存する必要がない。基本的な特徴、適切な深層学習モデル構造の設定、および大規模なラベル付きデータの訓練によってのみ、情報抽出タスクは、高い精度と再現率を達成することができる。
深層学習モデルに依存する従来の解決手段は、モデル訓練のための大量の標準データを必要とする場合が多く、業界コーパスのラベル付けコストが高く、低リソースの場合に優れた抽出効果を達成するのが困難である。
本願の実施例は、業界テキスト増分方法、装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム製品を提供する。
第一様態では、本願の実施例は、業界テキスト増分方法を提供する。この方法は、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指すことと、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することであって、第二プリセットレベルが第一プリセットレベル以上であることと、を含む。
第二様態では、本願の実施例は、業界テキスト増分装置を提供する。それは、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得するように構成された低リソース業界テキスト取得ユニットであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す低リソース業界テキスト取得ユニットと、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得するように構成されたサンプル増分ユニットであって、第二プリセットレベルが第一プリセットレベル以上であるサンプル増分ユニットと、を含む。
第三様態では、本願の実施例は、電子デバイスを提供する。この電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、このメモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、この命令は、少なくとも1つのプロセッサが第一様態の任意の実施形態に記載の業界テキスト増分方法を実行できるように少なくとも1つのプロセッサによって実行される。
第四様態では、本願の実施例は、第一様態の任意の実施形態に記載の業界テキスト増分方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体を提供する。
第五態様では、本願の実施例は、プロセッサによって実行されると、第一様態の任意の実施形態に記載の業界テキスト増分方法を実行するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本願の実施例によって提供される業界テキスト増分方法、装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム製品は、まず、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指すことを実行し、次に、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することであって、この第二プリセットレベルがこの第一プリセットレベル以上であることを実行する。
オリジナル業界テキストの保有量が第一プリセットレベルよりも小さいターゲット業界分野について、本願は、遠隔監視方法を使用して、サンプル増分を実現する。この遠隔監視方法は、オリジナル業界テキストの名詞間の関連付けに基づいて、他の業界分野またはパブリックコーパスから、要件を満たす新しいテキストを検索して増分テキストとして決定し、さらにサンプルレベルの拡大を実現し、さらに、低リソースのターゲット業界テキストも、サンプル増分技術の助けを借りて、主語・述語・目的語のトリプルを正確に抽出するために使用される精度要件を満たすモデルを訓練できるようにすることができる。
このセクションで説明される内容は、本願の実施例の主要または重要な特徴を特定することを意図するものではなく、また、本願の範囲を限定することを意図するものでもないことを理解されたい。本願の他の特徴は、以下の説明から容易に理解されるであろう。
本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。
本願が適用され得る例示的なシステムアーキテクチャである。 本願の実施例によって提供される業界テキスト増分方法のフローチャートである。 本願の実施例によって提供される別の業界テキスト増分方法のフローチャートである。 本願の実施例によって提供される主語・述語・目的語のトリプル抽出方法のフローチャートである。 本願の実施例によって提供される適用シナリオにおける業界テキスト増分方法の概略フローチャートである。 本願の実施例によって提供される業界テキスト増分装置の構造ブロック図である。 本願の実施例によって提供される業界テキスト増分方法を実行するのに適した電子デバイスの構造概略図である。
本願の例示的な実施例は、理解を容易にするための本願の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者に理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。
図1は、本願の業界テキスト増分方法、装置、電子デバイス、およびコンピュータ可読記憶媒体の実施例を適用することができる例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供するための媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105と対話して、メッセージなどを送受信することができる。端末装置101、102、103およびサーバ105には、サンプル増分アプリケーション、テキスト処理アプリケーション、インスタントメッセージングアプリケーションなど、両者間の情報通信を実現するための様々なアプリケーションがインストールされ得る。
端末装置101、102、103およびサーバ105は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を備えた様々な電子デバイスであり得る。端末装置101、102、103がソフトウェアである場合、それらは、複数のソフトウェアまたはソフトウェアモジュールとして、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る上記の電子デバイスにインストールされ得るが、ここでは特に限定されない。サーバ105がハードウェアである場合、それは、複数のサーバからなる分散型サーバクラスタとして実装され得るか、または単一のサーバとして実装され得る。サーバがソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュールとして実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得るが、ここでは特に限定されない。
サーバ105は、様々な組み込みアプリケーションを介して様々なサービスを提供することができる。低リソース業界テキストのためのサンプル増分サービスを提供するサンプル増分アプリケーションを例にとると、サーバ105は、このサンプル増分アプリケーションを実行するときに、以下の効果を実現することができる:まず、ネットワーク104を介して、端末装置101、102、103によって共有されるターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指すことを実行し、次に、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することであって、この第二プリセットレベルがこの第一プリセットレベル以上であることを実行する。
さらに、サーバ105は、上記サンプル増分アプリケーションを介してサンプル増分タスクを完了した後、テキスト処理アプリケーションを介して、増分済み業界テキストに基づいて、未処理業界テキストから主語・述語・目的語のトリプルを正確に抽出するためのモデルを訓練することもできる。
なお、ネットワーク104を介して端末装置101、102、103から取得され得ることに加えて、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストはまた、様々な方法でサーバ105のローカルに事前に記憶され得る。従って、サーバ105は、これらのデータ(例えば、処理開始前に保存された未処理サンプル増分タスク)がローカルに記憶されたことを検出する場合、これらのデータは、ローカルから直接取得され得る。この場合、例示的なシステムアーキテクチャ100は、端末装置101、102、103およびネットワーク104を含まなくてもよい。
サンプル増分が多くの計算リソースおよび強力な計算能力を必要とするので、本願の後続の各実施例によって提供される業界テキスト増分方法は、一般に、強力な計算能力および多くの計算リソースを備えたサーバ105によって実行される。同様に、業界テキスト増分装置は、一般に、サーバ105にも設置される。ただし、端末装置101、102、103も要件を満たす計算能力および計算リソースを備えている場合、端末装置101、102、103も、それらにインストールされたサンプル増分アプリケーションを介して、元々サーバ105に割り当てられた上記の様々な計算を完了し、さらにサーバ105と同じ結果を出力することができる。特に、異なる計算能力を備えた端末装置が同時に複数存在するが、サンプル増分アプリケーションが、端末装置が強力な計算能力および多くの計算リソースを備えていると判断する場合、端末装置は、上記計算を実行して、サーバ105の計算圧力を適切に低減することができる。同様に、業界テキスト増分装置は、端末装置101、102、103に設置され得る。この場合、例示的なシステムアーキテクチャ100は、サーバ105およびネットワーク104を含まなくてもよい。
図1中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。
図2を参照すると、図2は、本願の実施例によって提供される業界テキスト増分方法のフローチャートであり、プロセス200は、以下のステップを含む。
ステップ201:ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得する。
このステップは、業界テキスト増分方法の実行主体(例えば、図1に示すサーバ105)が、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することを目的とする。
業界テキストとは、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す。第一プリセットレベルは、プリセットの臨界値として設定される。この臨界値は、実際のレベルがこれよりも小さい業界テキストの属する業界分野を、低リソース業界分野として決定するために使用される。この低リソース業界分野とは、この業界分野でのカレント保有量のオリジナル業界テキストのレベルが、精度要件を満たすモデルを従来の方法で訓練することができないことを指す。訓練されたモデルは、実業界テキストから、エンティティ識別、主語・述語・目的語のトリプル抽出、意味分析などの実際のタスクを実行するために使用され得る。
ステップ202:遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得する。
ステップ201に基づいて、このステップは、上記実行主体が、遠隔監視方法をサンプル増分方法として使用して、レベルが要件を満たさないオリジナル業界テキストに対してサンプル増分を実行し、最終的に、保有量が要件を満たす増分済み業界テキストを取得することを目的とする。
具体的には、本願では、保有量が第一プリセットレベルよりも小さい場合は、それが要件を満たさないことを意味するが、増分処理後の保有量が第二プリセットレベルよりも大きい場合は、それが要件を満たすことを意味し、即ち、第一プリセットレベルと第二プリセットレベルとの大きさの関係は、この第二プリセットレベルがこの第一プリセットレベル以上であり、即ち、最小の第二プリセットレベルが第一プリセットレベルと同じである必要があるということであり、この場合の第一プリセットレベルは、要件を満たす保有量の臨界値、および要件を満たさない保有量の臨界値として同時に使用される。
インターネット上の自然言語情報を分析や処理に便利な構造化形式にするために、研究者は様々な関係抽出方法を提供する。関係抽出とは、テキストコンテンツからエンティティ間の明瞭または不明瞭な関係を検出し、それらを分類することを指す。機械学習におけるサンプル取得の観点から考えると、テキストから関係事実を抽出するための方法には、主に、三つの方法、即ち、完全教師あり学習、半教師あり学習、および教師なし学習がある。完全教師あり学習とは、初期サンプルデータを手動でラベル付けし、次にラベル付きデータを使用して分類器を訓練し、最後に訓練された分類器を使用して、新しい文に特定の関係を有する2つのエンティティがあるか否かを識別することを指す。完全教師あり学習方法は、主に、特徴に基づく方法およびカーネル方法を含む。半教師あり学習とは、非常に小さなデータシードインスタンスまたはパターンをガイド学習に使用し、大量のテキストからいくつかの新しいパターンを抽出し、次にこれらのパターンを使用して新しいインスタンスを抽出し、新しいインスタンスを使用してより新しいパターンを抽出し、このように繰り返し実行し、最後にデータを取得することを指す。教師なし学習とは、初期データセットを必要とせずに大量のテキストから2つのエンティティ間の文字列を抽出し、次にそれらの文字列を集約および簡略化して、関係文字列を取得することを指す。
ビッグデータの時代の到来とともに、関係抽出タスクに直面する適用可能な分野はよりオープンで複雑になる。大量の異種データに直面して、研究者は遠隔監視方法を提供する。この方法では、被抽出関係を自然文とヒューリスティックに整列させて、関係抽出を完了する。本願は、この原理に基づいてその特性をさらに使用して、それを低リソースサンプルのためのサンプル増分に適用する。サンプル増分原理については、抽出関係/location(地点)/country(国家)/capital(首都)を例としたインスタンスを参照されたい。ナレッジベースにはインスタンス(A、B)があり、テキストセットに「A is the capital of B(AはBの首都である)...」という文がある場合、システムは、遠隔監視方法を使用してそれらを自動的に照合して、{capital(A、B)、A is the capital of B、...}という訓練インスタンスを形成する。さらに、この訓練インスタンスがインスタンス(A、B)と同様の他のインスタンスとともに新しい文を形成するようにできる。
具体的には、上記の遠隔監視方法に加えて、サンプル増分方法はまた、同義語置換方法、逆翻訳方法、ランダム生成方法など、他の技術原理を採用して同様の効果を実現する方法を含む。実際の適用シナリオでのニーズに応じて、遠隔監視方法を使用した上で他の方法を追加するか否かを選択することができるが、ここでは特に限定されない。
オリジナル業界テキストの保有量が第一プリセットレベルよりも小さいターゲット業界分野について、本願の実施例によって提供される業界テキスト増分方法は、遠隔監視方法を使用して、サンプル増分を実現する。この遠隔監視方法は、オリジナル業界テキストの名詞間の関連付けに基づいて、他の業界分野またはパブリックコーパスから、要件を満たす新しいテキストを検索して増分テキストとして決定し、さらにサンプルレベルの拡大を実現し、さらに、低リソースのターゲット業界テキストも、サンプル増分技術の助けを借りて、主語・述語・目的語のトリプルを正確に抽出するために使用される精度要件を満たすモデルを訓練できるようにすることができる。
図3を参照すると、図3は、本願の実施例によって提供される別の業界テキスト増分方法のフローチャートであり、プロセス300は、以下のステップを含む。
ステップ301:ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得する。
このステップは、図2に示すステップ201と同じである。内容の同じ部分については、前の実施例の対応する部分を参照されたいが、ここでは繰り返さない。
ステップ302:遠隔監視方法を使用して、オリジナル業界テキストに対して一次サンプル増分処理を実行し、一次増分済み業界テキストを取得する。
増分済み業界テキストを生成するための遠隔監視方法を含むがこれらに限定されない方法は、以下のとおりであり得る。
まず、ターゲット業界分野のオリジナル業界テキストから、最初の主語・述語・目的語のトリプルを抽出し、次に、ターゲット業界分野にない他の業界テキストおよびパブリックコーパスから、最初の主語・述語・目的語のトリプルの主語と述語が存在するテキストをターゲットテキストとして決定し、最後に、オリジナル業界テキストを遠隔監視方法で処理した後の増分済み業界テキストとして、ターゲットテキストを決定する。
ステップ303:主語・目的語置換方法および/または逆翻訳方法を使用して、オリジナル業界テキストおよび一次増分済み業界テキストに対してサンプル増分処理をそれぞれ実行し、二次増分済み業界テキストを取得する。
主語・目的語置換方法とは、主語・述語・目的語のトリプルの述語によって提供される主語・目的語関係を維持しながら、オリジナルの主語と目的語を新しい主語と目的語に置換することを指す。理解を深めるために、下記の例を参照されたい。
ラベル付けされた訓練データを統計して、同じカテゴリの主語(Subject、略記S−Predication)辞書、および目的語(Object、略記O)辞書を取得する。船舶業界テキストを例にとると、以下の辞書、即ち、船舶M1、M2、M3...および原産国A1、A2、A3...を取得することができる。これによれば、主語(S)と目的語(O)のランダムな置換により、複数の新しいサンプルを生成することができる。例えば:
オリジナルサンプル:M1はA1の大型商用貨物船であり、その満載排水量は他をはるかに上回る(S:M1 P:原産国 O:A1)。
生成された新しいサンプル:M2はA2の大型商用貨物船であり、その満載排水量は他をはるかに上回る(S:M2 P:原産国 O:A2)。
逆翻訳方法とは、中国語−英語−中国語などのように、文を翻訳して再翻訳することにより、わずかに異なる表現を持つ新しいサンプルを取得することができることを指す。即ち、主に、異なる言語間の文の翻訳プロセスにおけるわずかな歪みにより、オリジナルの文と同じ意味または異なる表現を持つ新しいサンプルをサンプルとして生成する。
ステップ304:一次増分済み業界テキストおよび二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得する。
ステップ302に基づいて、それが主語・目的語置換方法、逆翻訳方法、遠隔監視方法であるか否かにかかわらず、それは、増分によって生成された新しいサンプルに、特に遠隔監視方法で実行された二次増分処理に様々なエラーを発生させる可能性がある。このステップは、上記実行主体が、一次増分済み業界テキストおよび二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、可能な限り使用できる増分済み業界テキストを取得することを目的とする。
さらに、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除した後の増分済み業界テキストの保有量が第二プリセットレベル以下である場合、保有量が第二プリセットレベルよりも大きくなるまで、処理された増分済み業界テキストに基づいて増分処理を上記増分方法で再実行することもできる。当然のことながら、増分済み業界テキストに基づいて後続の増分処理を再実行する場合、サンプルの有効性の原則を維持して後続の訓練済みモデルの信頼性を確保するために、より厳密な検査を実行する必要がある。
ステップ305:増分済み業界テキストに基づいて言語モデルを訓練する。
ステップ304に基づいて、このステップは、増分済み業界テキストを訓練テキストとして使用して、初期言語モデルを訓練することにより、最終的に訓練された言語モデルを取得することを目的とする。
具体的には、特定のニーズに応じて、様々な特性を持つ言語モデルフレームワークを、訓練に参加するための初期言語モデルとして選択することができる。また、活性化関数および損失関数は、実際のコーパス特性およびニーズ特性に応じて調整され得るが、ここでは特に限定されない。
ステップ306:訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出する。
ステップ305に基づいて、このステップは、上記実行主体が、訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出することを目的とする。主語・述語・目的語のトリプル(英語ではSPOトリプルと略記)の抽出は通常、文を単位とするものであることを理解されたい。即ち、1つの文から1つのSPOトリプルを抽出できるはずであり、この文から抽出されたSPOトリプルは通常、この文で表現されるコンテンツのコアとして存在し、キーコンテンツを簡潔に表現でき、このようにして他の要因の影響を除去できると同時に、SPOトリプルで具体化された対応関係に基づいて、業界テキストのコンテンツに対して様々な構造化処理を直接実行することを容易にすることもできる。
前の実施例とは異なり、本実施例は、ステップ302−ステップ303により、具体的なサンプル増分および増分済みサンプル処理方法を提供して、十分かつ効果的な増分済みサンプルを可能な限り多くの方法で可能な限り迅速に取得するだけでなく、ステップ304−ステップ305により、増分済みサンプル訓練モデル、および訓練済みモデルに基づいて業界テキストのSPOトリプルを抽出する解決手段を提供して、解決手段が可能な限り実用的にされ、具体的な適用シナリオで実用的な効果を発揮し、即ち、SPOトリプル抽出精度を向上させるようにもする。
前の実施例では、増分済み業界テキストに基づいて言語モデルを訓練する解決手段が提供される。訓練サンプルとしての増分処理後の増分済み業界テキストを除いて、モデル訓練段階では従来の方法が使用される。ただし、従来の方法が元々、実際のサンプル数がレベル要件を満たすように設計されることを考慮すると、従来の訓練方法は、増分処理後の増分済み業界テキストに同じ程度の影響(即ち、通常はモデルの精度を指す)を直接与えることができない場合がある。従って、複雑なネスト型関係を含む実業界テキストの現在の状況を目指して、本願は、図4を通じて、このような低リソースサンプルの場合により適したモデル訓練およびSPOトリプル抽出手段を提供する。プロセス400は、以下のステップを含む。
ステップ401:未処理業界テキストを訓練された言語モデルに入力し、文脈的特徴を含む出力されたテキストベクトルを取得する。
本実施例では、増分済み業界テキストに基づいて訓練された言語モデルが、未処理業界テキストと、文脈的特徴を含むテキストベクトルとの間の関係を特徴付けるために使用されるため、訓練された言語モデルは、文脈的特徴を含むテキストベクトルを入力することができる。
ステップ402:プリセットのマルチポインタモデルを使用して、テキストベクトルから第一結果を抽出する。
このマルチポインタモデルは、テキストベクトルとそこに存在する多層ネスト型関係の関係ペアの開始・終了位置との間の対応関係を特徴付ける。
ステップ403:プリセットの予測サブモデルを使用して、テキストベクトルから第二結果を予測する。
この予測サブモデルは、ラベル付けされたラベルカテゴリに従って、未処理業界テキストに含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも1つを予測するために使用される。
ステップ404:プリセットのモデル重み付け係数に基づいて、第一結果および第二結果を重み付けし、重み付けされた包括的な結果から主語・述語・目的語のトリプルを抽出する。
本実施例におけるステップ401−ステップ404によって提供される技術的解決手段は、複雑なネスト型関係を持つ業界テキスト関係ペアを従来から適応させるために使用されるマルチポインタモデルに基づいて、プリセットサブモデルも増設して、それと結びつけて、含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも1つを予測し、マルチポインタモデルの結果を統合する。統合プロセスは本質的に、統合結果から抽出された主語・述語・目的語のトリプルをより正確にする相互検証と精度向上のプロセスである。
主語・述語・目的語のトリプルを抽出する技術的解決手段を提供する上記のいくつかの実施例に基づいて、ナレッジグラフによるナレッジクエリ、インテリジェントな質問回答などの後続のニーズを満たすために、抽出された主語・述語・目的語のトリプルに基づいてターゲット業界分野のナレッジグラフを構築することもできる。例えば、ナレッジクエリリクエストを受信したことに応答して、ナレッジクエリリクエストに基づいて、それが属する実業界分野を決定し、実業界分野のナレッジグラフを呼び出して、ナレッジクエリリクエストに対応するターゲットナレッジをクエリしてフィードバックする。
理解を深めるために、本願は、特定の適用シナリオと結びつけて、特定の実施形態をさらに提供する。図5に示す概略図を参照されたい。
1)サーバは、「X号の製造は1899年1月24日にY国のZ社によって開始される」の未処理業界テキスト(この業界は船舶製造業界であることがわかる)を受信する。
2)サーバは、この未処理業界テキストの先頭に、分類特徴を特徴付けるための「CLS」(Class、クラス)を入力層に追加する。
3)サーバは、処理された未処理業界テキストを事前に訓練された言語モデル(図4の実施例に示される言語モデルと同等)に入力して、出力されたテキストベクトルを取得する。
図5において、ERNIEの事前に訓練された言語モデルおよびパラメータは具体的に使用される。このモデルは、入力された未処理業界テキストを、文脈的特徴を含むテキストベクトルに変換することができる。ここでは主にtransformer(変換)ユニットを使用する。このモデルには複数層のtransformerユニットがあり、各層の各transformerユニットは入力層における1つのユニットに対応し、同じ層のtransformerユニットは相互に接続されておらず、異なる層間のtransformerユニットはペアで接続される(図面には2層のみのtransformerの接続状況が概略的に示される)。
4)サーバは、出力されたテキストベクトルを事前に訓練されたマルチポインタモデル(図4に示すマルチポインタモデルと同等)に入力し、ネストされた各層の関係ペアの開始・終了位置を出力する。
事前に定義されたschema(制約)に従って、合計2(M+N)個の分類器を生成する。ここでは、Mはstype−p(一番層の関係ペアと同等に理解され得る)ペアの数であり、各stype−pは、stype−p制約を満たすエンティティの開始・終了位置を学習するためにそれぞれ使用される2つの分類器に対応する。同様に、各otype−p(二番層の関係ペアと同等に理解され得る)も、otype−p制約を満たす属性値の開始・終了位置を学習するためにそれぞれ使用される2つの分類器に対応する。図5に示すように、例えば、一番目の分類器は、テキストにおける船舶−メーカーのエンティティの一番目のtokenが開始位置であることを示すことができ、二番目の分類器は、テキストにおける船舶−メーカーのエンティティの三番目のtokenが終了位置であることを示すことができる。k番目の分類器は、テキストにおけるメーカー−組織機構の値の18番目のtokenが開始位置であることを示すことができ、k+1番目の分類器は、テキストにおけるメーカー−組織機構の値の25番目のtokenが終了位置であることを示すことができる。
5)マルチポインタモデルは、予測された開始・終了位置を取得し、開始・終了位置に対応するテキストを抽出してつなぎ合わせ、最終的にそれらを出力する。
前の層によって予測された開始・終了位置に従って、それを最終的なエンティティ−属性−属性値出力としてつなぎ合わせる。上記の例のように、船舶−メーカーの位置が1−3であり、メーカー−組織機構の位置が18−25であると予測した場合、最終的なエンティティ−属性出力、即ち、X号−メーカー−Z社を取得することができる。
最終的に、上記ステップにより、入力された「X号の製造は1899年1月24日にY国のZ社によって開始される」のショートテキストシーケンスから、「X号−メーカー−Z社」、「X号−原産国−Y国」、および「X−製造時間−1899年1月24日」という3つの異なる主語・述語・目的語のトリプルを抽出することができる。
6)同時に、Softmax関数を主要部分とするマルチ分類モデル(図4の予測サブモデルと同等)を使用して、入力された未処理業界テキストに含まれる述語(Predication、略記P)関係の数を予測し、最終的に結果「3」を取得する。2段階の検証から、予測結果が実際に抽出されたSPOトリプルの実際の状況と一致することがわかる。
さらに、上記抽出された主語・述語・目的語のトリプルを「船舶製造」業界のナレッジグラフに入力し、ユーザが開始したインテリジェントな質問回答をさらに満たすことができる。例えば、ユーザが開始したクエリ質問が「X号はどの国で製造されるか」である場合、上記ナレッジグラフに記載のナレッジに基づいて、それを「Y国」の回答に直接返送することができる。
さらに図6を参照すると、上記の各図に示す方法の実施形態として、本願は、業界テキスト増分装置の実施例を提供する。この装置の実施例は、図2に示す方法の実施例に対応する。この装置は、様々な電子デバイスに特に適用できる。
図6に示すように、本実施例の業界テキスト増分装置600は、低リソース業界テキスト取得ユニット601、およびサンプル増分ユニット602を含む。低リソース業界テキスト取得ユニット601は、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得するように構成された低リソース業界テキスト取得ユニットであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す低リソース業界テキスト取得ユニットである。サンプル増分ユニット602は、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得するように構成されたサンプル増分ユニットであって、第二プリセットレベルが第一プリセットレベル以上であるサンプル増分ユニットである。
本実施例では、業界テキスト増分装置600の低リソース業界テキスト取得ユニット601、およびサンプル増分ユニット602の具体的な処理とその技術的効果については、それぞれ図2に対応する実施例のステップ201−202の関連説明を参照されたいが、ここでは繰り返さない。
本実施例のいくつかの代替的な実施形態では、サンプル増分ユニット602は、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行するように構成された遠隔監視増分サブユニットを含み、この遠隔監視増分サブユニットは、
ターゲット業界分野のオリジナル業界テキストから、最初の主語・述語・目的語のトリプルを抽出することと、
ターゲット業界分野にない他の業界テキストおよびパブリックコーパスから、最初の主語・述語・目的語のトリプルの主語と述語が存在するテキストをターゲットテキストとして決定することと、
オリジナル業界テキストを遠隔監視方法で処理した後の増分済み業界テキストとして、ターゲットテキストを決定することと、を実行するようにさらに構成され得る。
本実施例のいくつかの代替的な実施形態では、サンプル増分ユニット602は、
遠隔監視方法を使用して、オリジナル業界テキストに対して一次サンプル増分処理を実行し、一次増分済み業界テキストを取得することと、
主語・目的語置換方法および/または逆翻訳方法を使用して、オリジナル業界テキストおよび一次増分済み業界テキストに対してサンプル増分処理をそれぞれ実行し、二次増分済み業界テキストを取得することであって、主語・目的語置換方法が、主語・述語・目的語のトリプルの述語によって提供される主語・目的語関係を維持しながら、オリジナルの主語と目的語を新しい主語と目的語に置換することを指すことと、
一次増分済み業界テキストおよび二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することと、を実行するようにさらに構成され得る。
本実施例のいくつかの代替的な実施形態では、業界テキスト増分装置600は、
増分済み業界テキストに基づいて言語モデルを訓練するように構成された言語モデル訓練ユニットと、
訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出するように構成された主語・述語・目的語のトリプル抽出ユニットと、をさらに含む、
本実施例のいくつかの代替の実施形態では、この主語・述語・目的語のトリプル抽出ユニットは、
未処理業界テキストを訓練された言語モデルに入力し、文脈的特徴を含む出力されたテキストベクトルを取得することと、
プリセットのマルチポインタモデルを使用して、テキストベクトルから第一結果を抽出することであって、マルチポインタモデルが、テキストベクトルとそこに存在する多層ネスト型関係の関係ペアの開始・終了位置との間の対応関係を特徴付けることと、
プリセットの予測サブモデルを使用して、テキストベクトルから第二結果を予測することであって、予測サブモデルが、ラベル付けされたラベルカテゴリに従って、未処理業界テキストに含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも1つを予測するために使用されることと、
プリセットのモデル重み付け係数に基づいて、第一結果および第二結果を重み付けし、重み付けされた包括的な結果から主語・述語・目的語のトリプルを抽出することと、を実行するように構成され得る。
本実施例のいくつかの代替的な実施形態では、業界テキスト増分装置600は、
抽出された主語・述語・目的語のトリプルに基づいて、ターゲット業界分野のナレッジグラフを構築するように構成されたナレッジグラフ構築ユニットをさらに含み得る。
本実施例のいくつかの代替的な実施形態では、業界テキスト増分装置600は、
ナレッジクエリリクエストを受信したことに応答して、ナレッジクエリリクエストに基づいて、それが属する実業界分野を決定するように構成された実業界分野決定ユニットと、
実業界分野のナレッジグラフを呼び出して、ナレッジクエリリクエストに対応するターゲットナレッジをクエリしてフィードバックするように構成されたナレッジグラフによるクエリ・フィードバックユニットと、をさらに含み得る。
本実施例は、上記方法の実施例に対応する装置の実施例として存在する。オリジナル業界テキストの保有量が第一プリセットレベルよりも小さいターゲット業界分野について、本願の実施例によって提供される業界テキスト増分装置は、遠隔監視方法を使用して、サンプル増分を実現する。この遠隔監視方法は、オリジナル業界テキストの名詞間の関連付けに基づいて、他の業界分野またはパブリックコーパスから、要件を満たす新しいテキストを検索して増分テキストとして決定し、さらにサンプルレベルの拡大を実現し、さらに、低リソースのターゲット業界テキストも、サンプル増分技術の助けを借りて、主語・述語・目的語のトリプルを正確に抽出するために使用される精度要件を満たすモデルを訓練できるようにすることができる。
本願の実施例によれば、本願は、電子デバイス、可読記憶媒体、およびコンピュータプログラム製品をさらに提供する。
図7は、本願の実施例を実施するために使用され得る例示的な電子デバイス700の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本願の実施形態を限定することを意図したものではない。
図7に示すように、デバイス700は、リードオンリーメモリ(ROM)702に記憶されたコンピュータプログラム、または記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って、各種の適切な動作および処理を実行することができる計算ユニット701を含む。RAM703には、デバイス700の動作に必要な各種のプログラムおよびデータも記憶され得る。計算ユニット701、ROM702、およびRAM703は、バス704を介して互いに接続される。入力/出力(I/O)インターフェース705も、バス704に接続される。
デバイス700内の複数のコンポーネントは、I/Oインターフェース705に接続されており、キーボード、マウスなどの入力ユニット706と、各種のディスプレイ、スピーカーなどの出力ユニット707と、磁気ディスク、光ディスクなどの記憶ユニット708と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709と、を含む。通信ユニット709は、デバイス700が、インターネットなどのコンピュータネットワーク、および/または様々な通信ネットワークを介して、他の装置との間で情報/データを交換することを可能にする。
計算ユニット701は、処理能力および計算能力を備えた様々な汎用および/または専用の処理コンポーネントであり得る。計算ユニット701のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上記様々な方法および処理、例えば、業界テキスト増分方法を実行する。例えば、いくつかの実施例では、業界テキスト増分方法は、記憶ユニット708などの機械可読媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM702および/または通信ユニット709を介して、デバイス700にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM703にロードされ、計算ユニット701によって実行されると、上記業界テキスト増分方法の1つまたは複数のステップが実行され得る。あるいは、他の実施例では、計算ユニット701は、他の任意の適切な手段(例えば、ファームウェア)を介して、業界テキスト増分方法を実行するように構成され得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途用標準品(ASSP)、システムオンチップ(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
本願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供され得るので、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図で指定された機能/動作が実行される。プログラムコードは、完全にマシン上で実行され得るか、または部分的にマシン上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され得るか、または完全にリモートマシンまたはサーバ上で実行され得る。
本願の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリーメモリ(CD−ROM)、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント−サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、クラウドコンピューティングサービスシステムのホスト製品として、従来の物理ホストおよび仮想プライベートサーバ(VPS、Virtual Private Server)のサービスにおける、管理の難しさが高く、サービスの拡張性が低いという欠点を解決する。
オリジナル業界テキストの保有量が第一プリセットレベルよりも小さいターゲット業界分野について、本願の実施例は、遠隔監視方法を使用して、サンプル増分を実現する。この遠隔監視方法は、オリジナル業界テキストの名詞間の関連付けに基づいて、他の業界分野またはパブリックコーパスから、要件を満たす新しいテキストを検索して増分テキストとして決定し、さらにサンプルレベルの拡大を実現し、さらに、低リソースのターゲット業界テキストも、サンプル増分技術の助けを借りて、主語・述語・目的語のトリプルを正確に抽出するために使用される精度要件を満たすモデルを訓練できるようにすることができる。
ステップの並べ替え、追加、または削除は、上記様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本開示に記載の各ステップは、本願に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行され得るが、本明細書に限定されない。
上記特定の実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本願の精神と原則の範囲内で行われた修正、同等置換、改良などは、本願の保護範囲に含まれるべきである。

Claims (17)

  1. ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指すことと、
    遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することであって、前記第二プリセットレベルが前記第一プリセットレベル以上であることと、を含む、
    業界テキスト増分方法。
  2. 前述した遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行することは、
    前記ターゲット業界分野のオリジナル業界テキストから、最初の主語・述語・目的語のトリプルを抽出することと、
    前記ターゲット業界分野にない他の業界テキストおよびパブリックコーパスから、前記最初の主語・述語・目的語のトリプルの主語と述語が存在するテキストをターゲットテキストとして決定することと、
    前記オリジナル業界テキストを遠隔監視方法で処理した後の増分済み業界テキストとして、前記ターゲットテキストを決定することと、を含む、
    請求項1に記載の方法。
  3. 前述した遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することは、
    遠隔監視方法を使用して、前記オリジナル業界テキストに対して一次サンプル増分処理を実行し、一次増分済み業界テキストを取得することと、
    主語・目的語置換方法および/または逆翻訳方法を使用して、前記オリジナル業界テキストおよび前記一次増分済み業界テキストに対してサンプル増分処理をそれぞれ実行し、二次増分済み業界テキストを取得することであって、前記主語・目的語置換方法が、主語・述語・目的語のトリプルの述語によって提供される主語・目的語関係を維持しながら、オリジナルの主語と目的語を新しい主語と目的語に置換することを指すことと、
    前記一次増分済み業界テキストおよび前記二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、保有量が前記第二プリセットレベルよりも大きい増分済み業界テキストを取得することと、を含む、
    請求項1に記載の方法。
  4. 前記増分済み業界テキストに基づいて言語モデルを訓練することと、
    訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出することと、をさらに含む、
    請求項1−3のいずれか一項に記載の方法。
  5. 前述した訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出することは、
    未処理業界テキストを訓練された言語モデルに入力し、文脈的特徴を含む出力されたテキストベクトルを取得することと、
    プリセットのマルチポインタモデルを使用して、前記テキストベクトルから第一結果を抽出することであって、前記マルチポインタモデルが、テキストベクトルとそこに存在する多層ネスト型関係の関係ペアの開始・終了位置との間の対応関係を特徴付けることと、
    プリセットの予測サブモデルを使用して、前記テキストベクトルから第二結果を予測することであって、前記予測サブモデルが、ラベル付けされたラベルカテゴリに従って、前記未処理業界テキストに含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも1つを予測するために使用されることと、
    プリセットのモデル重み付け係数に基づいて、前記第一結果および前記第二結果を重み付けし、重み付けされた包括的な結果から前記主語・述語・目的語のトリプルを抽出することと、を含む、
    請求項4に記載の方法。
  6. 抽出された主語・述語・目的語のトリプルに基づいて、前記ターゲット業界分野のナレッジグラフを構築することをさらに含む、
    請求項5に記載の方法。
  7. ナレッジクエリリクエストを受信したことに応答して、前記ナレッジクエリリクエストに基づいて、それが属する実業界分野を決定することと、
    前記実業界分野のナレッジグラフを呼び出して、前記ナレッジクエリリクエストに対応するターゲットナレッジをクエリしてフィードバックすることと、をさらに含む、
    請求項6に記載の方法。
  8. ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得するように構成された低リソース業界テキスト取得ユニットであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す低リソース業界テキスト取得ユニットと、
    遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得するように構成されたサンプル増分ユニットであって、前記第二プリセットレベルが前記第一プリセットレベル以上であるサンプル増分ユニットと、を含む、
    業界テキスト増分装置。
  9. 前記サンプル増分ユニットは、遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行するように構成された遠隔監視増分サブユニットを含み、前記遠隔監視増分サブユニットは、
    前記ターゲット業界分野のオリジナル業界テキストから、最初の主語・述語・目的語のトリプルを抽出することと、
    前記ターゲット業界分野にない他の業界テキストおよびパブリックコーパスから、前記最初の主語・述語・目的語のトリプルの主語と述語が存在するテキストをターゲットテキストとして決定することと、
    前記ターゲットテキストを、遠隔監視方法で処理された前記オリジナル業界テキストの増分業界テキストとして決定することと、を実行するようにさらに構成される、
    請求項8に記載の装置。
  10. 前記サンプル増分ユニットは、
    遠隔監視方法を使用して、前記オリジナル業界テキストに対して一次サンプル増分処理を実行し、一次増分済み業界テキストを取得することと、
    主語・目的語置換方法および/または逆翻訳方法を使用して、前記オリジナル業界テキストおよび前記一次増分済み業界テキストに対してサンプル増分処理をそれぞれ実行し、二次増分済み業界テキストを取得することであって、前記主語・目的語置換方法が、主語・述語・目的語のトリプルの述語によって提供される主語・目的語関係を維持しながら、オリジナルの主語と目的語を新しい主語と目的語に置換することを指すことと、
    前記一次増分済み業界テキストおよび前記二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、保有量が前記第二プリセットレベルよりも大きい増分済み業界テキストを取得することと、を含む、
    請求項8に記載の装置。
  11. 前記増分済み業界テキストに基づいて言語モデルを訓練するように構成された言語モデル訓練ユニットと、
    訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出するように構成された主語・述語・目的語のトリプル抽出ユニットと、をさらに含む、
    請求項8−10のいずれか一項に記載の装置。
  12. 前記主語・述語・目的語のトリプル抽出ユニットは、
    未処理業界テキストを訓練された言語モデルに入力し、文脈的特徴を含む出力されたテキストベクトルを取得することと、
    プリセットのマルチポインタモデルを使用して、前記テキストベクトルから第一結果を抽出することであって、前記マルチポインタモデルが、テキストベクトルとそこに存在する多層ネスト型関係の関係ペアの開始・終了位置との間の対応関係を特徴付けることと、
    プリセットの予測サブモデルを使用して、前記テキストベクトルから第二結果を予測することであって、前記予測サブモデルが、ラベル付けされたラベルカテゴリに従って、前記未処理業界テキストに含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも1つを予測するために使用されることと、
    プリセットのモデル重み付け係数に基づいて、前記第一結果および前記第二結果を重み付けし、重み付けされた包括的な結果から前記主語・述語・目的語のトリプルを抽出することと、を含む、
    請求項11に記載の装置。
  13. 抽出された主語・述語・目的語のトリプルに基づいて、前記ターゲット業界分野のナレッジグラフを構築するように構成されたナレッジグラフ構築ユニットをさらに含む、
    請求項12に記載の装置。
  14. ナレッジクエリリクエストを受信したことに応答して、前記ナレッジクエリリクエストに基づいて、それが属する実業界分野を決定するように構成された実業界分野決定ユニットと、
    前記実業界分野のナレッジグラフを呼び出して、前記ナレッジクエリリクエストに対応するターゲットナレッジをクエリしてフィードバックするように構成されたナレッジグラフによるクエリ・フィードバックユニットと、をさらに含む、
    請求項13に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが請求項1−7のいずれか一項に記載の業界テキスト増分方法を実行できるように前記少なくとも1つのプロセッサによって実行される、
    電子デバイス。
  16. 請求項1−7のいずれか一項に記載の業界テキスト増分方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1−7のいずれか一項に記載の業界テキスト増分方法を実行するコンピュータプログラムを含むコンピュータプログラム製品。
JP2021149074A 2021-02-19 2021-09-14 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品 Active JP7291181B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110189733.4 2021-02-19
CN202110189733.4A CN112906368B (zh) 2021-02-19 2021-02-19 行业文本增量方法、相关装置及计算机程序产品

Publications (2)

Publication Number Publication Date
JP2022003544A true JP2022003544A (ja) 2022-01-11
JP7291181B2 JP7291181B2 (ja) 2023-06-14

Family

ID=76123840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021149074A Active JP7291181B2 (ja) 2021-02-19 2021-09-14 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品

Country Status (5)

Country Link
US (1) US20220027766A1 (ja)
EP (1) EP3920074A3 (ja)
JP (1) JP7291181B2 (ja)
KR (1) KR102608867B1 (ja)
CN (1) CN112906368B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115619192B (zh) * 2022-11-10 2023-10-03 国网江苏省电力有限公司物资分公司 一种面向需求计划规则的混合式关系提取方法
CN115577713B (zh) * 2022-12-07 2023-03-17 中科雨辰科技有限公司 一种基于知识图谱的文本处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241813A (zh) * 2020-04-29 2020-06-05 同盾控股有限公司 语料扩展方法、装置、设备及介质
US20200372395A1 (en) * 2019-05-20 2020-11-26 International Business Machines Corporation Data augmentation for text-based ai applications

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3018581B1 (en) * 2014-11-06 2017-03-08 Fujitsu Limited Data staging management system
CN107145503A (zh) * 2017-03-20 2017-09-08 中国农业大学 基于word2vec的远监督非分类关系提取方法及系统
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
CN109871428B (zh) * 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质
CN109885697B (zh) * 2019-02-01 2022-02-18 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN111339407B (zh) * 2020-02-18 2023-12-05 北京航空航天大学 一种信息抽取云平台的实现方法
CN111597795A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种远监督关系抽取方法、装置、设备及存储介质
CN111651614A (zh) * 2020-07-16 2020-09-11 宁波方太厨具有限公司 药膳知识图谱的构建方法、系统、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372395A1 (en) * 2019-05-20 2020-11-26 International Business Machines Corporation Data augmentation for text-based ai applications
CN111241813A (zh) * 2020-04-29 2020-06-05 同盾控股有限公司 语料扩展方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MIKE MINTZ, ET AL.: "Distant supervision for relation extraction without labeled data", PROCEEDINGS OF THE JOINT CONFERENCE OF THE 47TH ANNUAL MEETING OF THE ACL AND THE 4TH INTERNATIONAL, vol. P09-1113, JPN7022005746, August 2009 (2009-08-01), pages 1003 - 1011, XP058131918, ISSN: 0004943223 *

Also Published As

Publication number Publication date
EP3920074A2 (en) 2021-12-08
EP3920074A3 (en) 2022-04-06
KR20210125449A (ko) 2021-10-18
CN112906368A (zh) 2021-06-04
JP7291181B2 (ja) 2023-06-14
CN112906368B (zh) 2022-09-02
KR102608867B1 (ko) 2023-11-30
US20220027766A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
Torfi et al. Natural language processing advancements by deep learning: A survey
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
US20220100963A1 (en) Event extraction from documents with co-reference
CN111310441A (zh) 基于bert的语音识别后文本修正方法、装置、终端及介质
US20220100772A1 (en) Context-sensitive linking of entities to private databases
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
US20220100967A1 (en) Lifecycle management for customized natural language processing
US20240111956A1 (en) Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor
JP7337979B2 (ja) モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム
JP7291181B2 (ja) 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品
US20230004819A1 (en) Method and apparatus for training semantic retrieval network, electronic device and storage medium
CN115809887B (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
CN113987174A (zh) 分类标签的核心语句提取方法、系统、设备及存储介质
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN117807482B (zh) 海关报关单的分类方法、装置、设备及存储介质
CN115114419A (zh) 问答处理方法、装置、电子设备和计算机可读介质
CN114861758A (zh) 多模态数据处理方法、装置、电子设备及可读存储介质
EP4222635A1 (en) Lifecycle management for customized natural language processing
CN111723583B (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN110309278B (zh) 关键词检索方法、装置、介质及电子设备
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN111858899B (zh) 语句处理方法、装置、系统和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230602

R150 Certificate of patent or registration of utility model

Ref document number: 7291181

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150