JP2022003544A

JP2022003544A - 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品

Info

Publication number: JP2022003544A
Application number: JP2021149074A
Authority: JP
Inventors: ジョウファン，; Zhou Fang; ヤービンシー，; Yabing Shi; イェジァン，; Ye Jiang; チュングァンチャイ，; Chunguang Chai
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-19
Filing date: 2021-09-14
Publication date: 2022-01-11
Anticipated expiration: 2041-09-14
Also published as: EP3920074A2; EP3920074A3; KR20210125449A; CN112906368A; JP7291181B2; CN112906368B; KR102608867B1; US20220027766A1

Abstract

【課題】遠隔監視方法を使用して、低リソースのターゲット業界テキストがより効果的なサンプル増分を実現するのに役立てる業界テキスト増分方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム製品を提供する。【解決手段】方法は、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することを含む。業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す。方法はさらに、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が、第一プリセットレベル以上である第二プリセットレベルよりも大きい増分済み業界テキストを取得することを含む。【選択図】図２

Description

本願は、データ処理技術の分野、具体的には深層学習、自然言語処理、ナレッジグラフ構築、インテリジェントな質問回答などの人工知能技術分野、特に業界テキスト増分方法、装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム製品に関する。

情報抽出技術は、情報処理および情報検索に依存する業界でのインテリジェントな質問回答、インテリジェントなカスタマーサービスなどのニーズを支援するために使用され得る。人工知能と深層学習技術の発展のおかげで、情報抽出などの自然言語処理関連技術は、近年飛躍的に発展してきている。従来の機械学習モデルとは異なり、深層学習モデルは、人為的に定義された高度な特徴に依存する必要がない。基本的な特徴、適切な深層学習モデル構造の設定、および大規模なラベル付きデータの訓練によってのみ、情報抽出タスクは、高い精度と再現率を達成することができる。

深層学習モデルに依存する従来の解決手段は、モデル訓練のための大量の標準データを必要とする場合が多く、業界コーパスのラベル付けコストが高く、低リソースの場合に優れた抽出効果を達成するのが困難である。

本願の実施例は、業界テキスト増分方法、装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム製品を提供する。

第一様態では、本願の実施例は、業界テキスト増分方法を提供する。この方法は、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指すことと、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することであって、第二プリセットレベルが第一プリセットレベル以上であることと、を含む。

第二様態では、本願の実施例は、業界テキスト増分装置を提供する。それは、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得するように構成された低リソース業界テキスト取得ユニットであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す低リソース業界テキスト取得ユニットと、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得するように構成されたサンプル増分ユニットであって、第二プリセットレベルが第一プリセットレベル以上であるサンプル増分ユニットと、を含む。

第三様態では、本願の実施例は、電子デバイスを提供する。この電子デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、このメモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶し、この命令は、少なくとも１つのプロセッサが第一様態の任意の実施形態に記載の業界テキスト増分方法を実行できるように少なくとも１つのプロセッサによって実行される。

第四様態では、本願の実施例は、第一様態の任意の実施形態に記載の業界テキスト増分方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体を提供する。

第五態様では、本願の実施例は、プロセッサによって実行されると、第一様態の任意の実施形態に記載の業界テキスト増分方法を実行するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本願の実施例によって提供される業界テキスト増分方法、装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム製品は、まず、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指すことを実行し、次に、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することであって、この第二プリセットレベルがこの第一プリセットレベル以上であることを実行する。

オリジナル業界テキストの保有量が第一プリセットレベルよりも小さいターゲット業界分野について、本願は、遠隔監視方法を使用して、サンプル増分を実現する。この遠隔監視方法は、オリジナル業界テキストの名詞間の関連付けに基づいて、他の業界分野またはパブリックコーパスから、要件を満たす新しいテキストを検索して増分テキストとして決定し、さらにサンプルレベルの拡大を実現し、さらに、低リソースのターゲット業界テキストも、サンプル増分技術の助けを借りて、主語・述語・目的語のトリプルを正確に抽出するために使用される精度要件を満たすモデルを訓練できるようにすることができる。

このセクションで説明される内容は、本願の実施例の主要または重要な特徴を特定することを意図するものではなく、また、本願の範囲を限定することを意図するものでもないことを理解されたい。本願の他の特徴は、以下の説明から容易に理解されるであろう。

本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。
本願が適用され得る例示的なシステムアーキテクチャである。本願の実施例によって提供される業界テキスト増分方法のフローチャートである。本願の実施例によって提供される別の業界テキスト増分方法のフローチャートである。本願の実施例によって提供される主語・述語・目的語のトリプル抽出方法のフローチャートである。本願の実施例によって提供される適用シナリオにおける業界テキスト増分方法の概略フローチャートである。本願の実施例によって提供される業界テキスト増分装置の構造ブロック図である。本願の実施例によって提供される業界テキスト増分方法を実行するのに適した電子デバイスの構造概略図である。

本願の例示的な実施例は、理解を容易にするための本願の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者に理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。

図１は、本願の業界テキスト増分方法、装置、電子デバイス、およびコンピュータ可読記憶媒体の実施例を適用することができる例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供するための媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話して、メッセージなどを送受信することができる。端末装置１０１、１０２、１０３およびサーバ１０５には、サンプル増分アプリケーション、テキスト処理アプリケーション、インスタントメッセージングアプリケーションなど、両者間の情報通信を実現するための様々なアプリケーションがインストールされ得る。

端末装置１０１、１０２、１０３およびサーバ１０５は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を備えた様々な電子デバイスであり得る。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、複数のソフトウェアまたはソフトウェアモジュールとして、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る上記の電子デバイスにインストールされ得るが、ここでは特に限定されない。サーバ１０５がハードウェアである場合、それは、複数のサーバからなる分散型サーバクラスタとして実装され得るか、または単一のサーバとして実装され得る。サーバがソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュールとして実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得るが、ここでは特に限定されない。

サーバ１０５は、様々な組み込みアプリケーションを介して様々なサービスを提供することができる。低リソース業界テキストのためのサンプル増分サービスを提供するサンプル増分アプリケーションを例にとると、サーバ１０５は、このサンプル増分アプリケーションを実行するときに、以下の効果を実現することができる：まず、ネットワーク１０４を介して、端末装置１０１、１０２、１０３によって共有されるターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指すことを実行し、次に、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することであって、この第二プリセットレベルがこの第一プリセットレベル以上であることを実行する。

さらに、サーバ１０５は、上記サンプル増分アプリケーションを介してサンプル増分タスクを完了した後、テキスト処理アプリケーションを介して、増分済み業界テキストに基づいて、未処理業界テキストから主語・述語・目的語のトリプルを正確に抽出するためのモデルを訓練することもできる。

なお、ネットワーク１０４を介して端末装置１０１、１０２、１０３から取得され得ることに加えて、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストはまた、様々な方法でサーバ１０５のローカルに事前に記憶され得る。従って、サーバ１０５は、これらのデータ（例えば、処理開始前に保存された未処理サンプル増分タスク）がローカルに記憶されたことを検出する場合、これらのデータは、ローカルから直接取得され得る。この場合、例示的なシステムアーキテクチャ１００は、端末装置１０１、１０２、１０３およびネットワーク１０４を含まなくてもよい。

サンプル増分が多くの計算リソースおよび強力な計算能力を必要とするので、本願の後続の各実施例によって提供される業界テキスト増分方法は、一般に、強力な計算能力および多くの計算リソースを備えたサーバ１０５によって実行される。同様に、業界テキスト増分装置は、一般に、サーバ１０５にも設置される。ただし、端末装置１０１、１０２、１０３も要件を満たす計算能力および計算リソースを備えている場合、端末装置１０１、１０２、１０３も、それらにインストールされたサンプル増分アプリケーションを介して、元々サーバ１０５に割り当てられた上記の様々な計算を完了し、さらにサーバ１０５と同じ結果を出力することができる。特に、異なる計算能力を備えた端末装置が同時に複数存在するが、サンプル増分アプリケーションが、端末装置が強力な計算能力および多くの計算リソースを備えていると判断する場合、端末装置は、上記計算を実行して、サーバ１０５の計算圧力を適切に低減することができる。同様に、業界テキスト増分装置は、端末装置１０１、１０２、１０３に設置され得る。この場合、例示的なシステムアーキテクチャ１００は、サーバ１０５およびネットワーク１０４を含まなくてもよい。

図１中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。

図２を参照すると、図２は、本願の実施例によって提供される業界テキスト増分方法のフローチャートであり、プロセス２００は、以下のステップを含む。

ステップ２０１：ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得する。

このステップは、業界テキスト増分方法の実行主体（例えば、図１に示すサーバ１０５）が、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することを目的とする。

業界テキストとは、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す。第一プリセットレベルは、プリセットの臨界値として設定される。この臨界値は、実際のレベルがこれよりも小さい業界テキストの属する業界分野を、低リソース業界分野として決定するために使用される。この低リソース業界分野とは、この業界分野でのカレント保有量のオリジナル業界テキストのレベルが、精度要件を満たすモデルを従来の方法で訓練することができないことを指す。訓練されたモデルは、実業界テキストから、エンティティ識別、主語・述語・目的語のトリプル抽出、意味分析などの実際のタスクを実行するために使用され得る。

ステップ２０２：遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得する。

ステップ２０1に基づいて、このステップは、上記実行主体が、遠隔監視方法をサンプル増分方法として使用して、レベルが要件を満たさないオリジナル業界テキストに対してサンプル増分を実行し、最終的に、保有量が要件を満たす増分済み業界テキストを取得することを目的とする。

具体的には、本願では、保有量が第一プリセットレベルよりも小さい場合は、それが要件を満たさないことを意味するが、増分処理後の保有量が第二プリセットレベルよりも大きい場合は、それが要件を満たすことを意味し、即ち、第一プリセットレベルと第二プリセットレベルとの大きさの関係は、この第二プリセットレベルがこの第一プリセットレベル以上であり、即ち、最小の第二プリセットレベルが第一プリセットレベルと同じである必要があるということであり、この場合の第一プリセットレベルは、要件を満たす保有量の臨界値、および要件を満たさない保有量の臨界値として同時に使用される。

インターネット上の自然言語情報を分析や処理に便利な構造化形式にするために、研究者は様々な関係抽出方法を提供する。関係抽出とは、テキストコンテンツからエンティティ間の明瞭または不明瞭な関係を検出し、それらを分類することを指す。機械学習におけるサンプル取得の観点から考えると、テキストから関係事実を抽出するための方法には、主に、三つの方法、即ち、完全教師あり学習、半教師あり学習、および教師なし学習がある。完全教師あり学習とは、初期サンプルデータを手動でラベル付けし、次にラベル付きデータを使用して分類器を訓練し、最後に訓練された分類器を使用して、新しい文に特定の関係を有する２つのエンティティがあるか否かを識別することを指す。完全教師あり学習方法は、主に、特徴に基づく方法およびカーネル方法を含む。半教師あり学習とは、非常に小さなデータシードインスタンスまたはパターンをガイド学習に使用し、大量のテキストからいくつかの新しいパターンを抽出し、次にこれらのパターンを使用して新しいインスタンスを抽出し、新しいインスタンスを使用してより新しいパターンを抽出し、このように繰り返し実行し、最後にデータを取得することを指す。教師なし学習とは、初期データセットを必要とせずに大量のテキストから２つのエンティティ間の文字列を抽出し、次にそれらの文字列を集約および簡略化して、関係文字列を取得することを指す。

ビッグデータの時代の到来とともに、関係抽出タスクに直面する適用可能な分野はよりオープンで複雑になる。大量の異種データに直面して、研究者は遠隔監視方法を提供する。この方法では、被抽出関係を自然文とヒューリスティックに整列させて、関係抽出を完了する。本願は、この原理に基づいてその特性をさらに使用して、それを低リソースサンプルのためのサンプル増分に適用する。サンプル増分原理については、抽出関係／ｌｏｃａｔｉｏｎ（地点）／ｃｏｕｎｔｒｙ（国家）／ｃａｐｉｔａｌ（首都）を例としたインスタンスを参照されたい。ナレッジベースにはインスタンス（Ａ、Ｂ）があり、テキストセットに「ＡｉｓｔｈｅｃａｐｉｔａｌｏｆＢ（ＡはＢの首都である）．．．」という文がある場合、システムは、遠隔監視方法を使用してそれらを自動的に照合して、｛ｃａｐｉｔａｌ（Ａ、Ｂ）、ＡｉｓｔｈｅｃａｐｉｔａｌｏｆＢ、．．．｝という訓練インスタンスを形成する。さらに、この訓練インスタンスがインスタンス（Ａ、Ｂ）と同様の他のインスタンスとともに新しい文を形成するようにできる。

具体的には、上記の遠隔監視方法に加えて、サンプル増分方法はまた、同義語置換方法、逆翻訳方法、ランダム生成方法など、他の技術原理を採用して同様の効果を実現する方法を含む。実際の適用シナリオでのニーズに応じて、遠隔監視方法を使用した上で他の方法を追加するか否かを選択することができるが、ここでは特に限定されない。

オリジナル業界テキストの保有量が第一プリセットレベルよりも小さいターゲット業界分野について、本願の実施例によって提供される業界テキスト増分方法は、遠隔監視方法を使用して、サンプル増分を実現する。この遠隔監視方法は、オリジナル業界テキストの名詞間の関連付けに基づいて、他の業界分野またはパブリックコーパスから、要件を満たす新しいテキストを検索して増分テキストとして決定し、さらにサンプルレベルの拡大を実現し、さらに、低リソースのターゲット業界テキストも、サンプル増分技術の助けを借りて、主語・述語・目的語のトリプルを正確に抽出するために使用される精度要件を満たすモデルを訓練できるようにすることができる。

図３を参照すると、図３は、本願の実施例によって提供される別の業界テキスト増分方法のフローチャートであり、プロセス３００は、以下のステップを含む。

ステップ３０１：ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得する。

このステップは、図２に示すステップ２０１と同じである。内容の同じ部分については、前の実施例の対応する部分を参照されたいが、ここでは繰り返さない。

ステップ３０２：遠隔監視方法を使用して、オリジナル業界テキストに対して一次サンプル増分処理を実行し、一次増分済み業界テキストを取得する。

増分済み業界テキストを生成するための遠隔監視方法を含むがこれらに限定されない方法は、以下のとおりであり得る。

まず、ターゲット業界分野のオリジナル業界テキストから、最初の主語・述語・目的語のトリプルを抽出し、次に、ターゲット業界分野にない他の業界テキストおよびパブリックコーパスから、最初の主語・述語・目的語のトリプルの主語と述語が存在するテキストをターゲットテキストとして決定し、最後に、オリジナル業界テキストを遠隔監視方法で処理した後の増分済み業界テキストとして、ターゲットテキストを決定する。

ステップ３０３：主語・目的語置換方法および／または逆翻訳方法を使用して、オリジナル業界テキストおよび一次増分済み業界テキストに対してサンプル増分処理をそれぞれ実行し、二次増分済み業界テキストを取得する。

主語・目的語置換方法とは、主語・述語・目的語のトリプルの述語によって提供される主語・目的語関係を維持しながら、オリジナルの主語と目的語を新しい主語と目的語に置換することを指す。理解を深めるために、下記の例を参照されたい。

ラベル付けされた訓練データを統計して、同じカテゴリの主語（Ｓｕｂｊｅｃｔ、略記Ｓ−Ｐｒｅｄｉｃａｔｉｏｎ）辞書、および目的語（Ｏｂｊｅｃｔ、略記Ｏ）辞書を取得する。船舶業界テキストを例にとると、以下の辞書、即ち、船舶Ｍ１、Ｍ２、Ｍ３．．．および原産国Ａ１、Ａ２、Ａ３．．．を取得することができる。これによれば、主語（Ｓ）と目的語（Ｏ）のランダムな置換により、複数の新しいサンプルを生成することができる。例えば：

オリジナルサンプル：Ｍ１はＡ１の大型商用貨物船であり、その満載排水量は他をはるかに上回る（Ｓ：Ｍ１Ｐ：原産国Ｏ：Ａ１）。

生成された新しいサンプル：Ｍ２はＡ２の大型商用貨物船であり、その満載排水量は他をはるかに上回る（Ｓ：Ｍ２Ｐ：原産国Ｏ：Ａ２）。

逆翻訳方法とは、中国語−英語−中国語などのように、文を翻訳して再翻訳することにより、わずかに異なる表現を持つ新しいサンプルを取得することができることを指す。即ち、主に、異なる言語間の文の翻訳プロセスにおけるわずかな歪みにより、オリジナルの文と同じ意味または異なる表現を持つ新しいサンプルをサンプルとして生成する。

ステップ３０４：一次増分済み業界テキストおよび二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得する。

ステップ３０２に基づいて、それが主語・目的語置換方法、逆翻訳方法、遠隔監視方法であるか否かにかかわらず、それは、増分によって生成された新しいサンプルに、特に遠隔監視方法で実行された二次増分処理に様々なエラーを発生させる可能性がある。このステップは、上記実行主体が、一次増分済み業界テキストおよび二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、可能な限り使用できる増分済み業界テキストを取得することを目的とする。

さらに、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除した後の増分済み業界テキストの保有量が第二プリセットレベル以下である場合、保有量が第二プリセットレベルよりも大きくなるまで、処理された増分済み業界テキストに基づいて増分処理を上記増分方法で再実行することもできる。当然のことながら、増分済み業界テキストに基づいて後続の増分処理を再実行する場合、サンプルの有効性の原則を維持して後続の訓練済みモデルの信頼性を確保するために、より厳密な検査を実行する必要がある。

ステップ３０５：増分済み業界テキストに基づいて言語モデルを訓練する。

ステップ３０４に基づいて、このステップは、増分済み業界テキストを訓練テキストとして使用して、初期言語モデルを訓練することにより、最終的に訓練された言語モデルを取得することを目的とする。

具体的には、特定のニーズに応じて、様々な特性を持つ言語モデルフレームワークを、訓練に参加するための初期言語モデルとして選択することができる。また、活性化関数および損失関数は、実際のコーパス特性およびニーズ特性に応じて調整され得るが、ここでは特に限定されない。

ステップ３０６：訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出する。

ステップ３０５に基づいて、このステップは、上記実行主体が、訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出することを目的とする。主語・述語・目的語のトリプル（英語ではＳＰＯトリプルと略記）の抽出は通常、文を単位とするものであることを理解されたい。即ち、１つの文から１つのＳＰＯトリプルを抽出できるはずであり、この文から抽出されたＳＰＯトリプルは通常、この文で表現されるコンテンツのコアとして存在し、キーコンテンツを簡潔に表現でき、このようにして他の要因の影響を除去できると同時に、ＳＰＯトリプルで具体化された対応関係に基づいて、業界テキストのコンテンツに対して様々な構造化処理を直接実行することを容易にすることもできる。

前の実施例とは異なり、本実施例は、ステップ３０２−ステップ３０３により、具体的なサンプル増分および増分済みサンプル処理方法を提供して、十分かつ効果的な増分済みサンプルを可能な限り多くの方法で可能な限り迅速に取得するだけでなく、ステップ３０４−ステップ３０５により、増分済みサンプル訓練モデル、および訓練済みモデルに基づいて業界テキストのＳＰＯトリプルを抽出する解決手段を提供して、解決手段が可能な限り実用的にされ、具体的な適用シナリオで実用的な効果を発揮し、即ち、ＳＰＯトリプル抽出精度を向上させるようにもする。

前の実施例では、増分済み業界テキストに基づいて言語モデルを訓練する解決手段が提供される。訓練サンプルとしての増分処理後の増分済み業界テキストを除いて、モデル訓練段階では従来の方法が使用される。ただし、従来の方法が元々、実際のサンプル数がレベル要件を満たすように設計されることを考慮すると、従来の訓練方法は、増分処理後の増分済み業界テキストに同じ程度の影響（即ち、通常はモデルの精度を指す）を直接与えることができない場合がある。従って、複雑なネスト型関係を含む実業界テキストの現在の状況を目指して、本願は、図４を通じて、このような低リソースサンプルの場合により適したモデル訓練およびＳＰＯトリプル抽出手段を提供する。プロセス４００は、以下のステップを含む。

ステップ４０１：未処理業界テキストを訓練された言語モデルに入力し、文脈的特徴を含む出力されたテキストベクトルを取得する。

本実施例では、増分済み業界テキストに基づいて訓練された言語モデルが、未処理業界テキストと、文脈的特徴を含むテキストベクトルとの間の関係を特徴付けるために使用されるため、訓練された言語モデルは、文脈的特徴を含むテキストベクトルを入力することができる。

ステップ４０２：プリセットのマルチポインタモデルを使用して、テキストベクトルから第一結果を抽出する。

このマルチポインタモデルは、テキストベクトルとそこに存在する多層ネスト型関係の関係ペアの開始・終了位置との間の対応関係を特徴付ける。

ステップ４０３：プリセットの予測サブモデルを使用して、テキストベクトルから第二結果を予測する。

この予測サブモデルは、ラベル付けされたラベルカテゴリに従って、未処理業界テキストに含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも１つを予測するために使用される。

ステップ４０４：プリセットのモデル重み付け係数に基づいて、第一結果および第二結果を重み付けし、重み付けされた包括的な結果から主語・述語・目的語のトリプルを抽出する。

本実施例におけるステップ４０１−ステップ４０４によって提供される技術的解決手段は、複雑なネスト型関係を持つ業界テキスト関係ペアを従来から適応させるために使用されるマルチポインタモデルに基づいて、プリセットサブモデルも増設して、それと結びつけて、含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも１つを予測し、マルチポインタモデルの結果を統合する。統合プロセスは本質的に、統合結果から抽出された主語・述語・目的語のトリプルをより正確にする相互検証と精度向上のプロセスである。

主語・述語・目的語のトリプルを抽出する技術的解決手段を提供する上記のいくつかの実施例に基づいて、ナレッジグラフによるナレッジクエリ、インテリジェントな質問回答などの後続のニーズを満たすために、抽出された主語・述語・目的語のトリプルに基づいてターゲット業界分野のナレッジグラフを構築することもできる。例えば、ナレッジクエリリクエストを受信したことに応答して、ナレッジクエリリクエストに基づいて、それが属する実業界分野を決定し、実業界分野のナレッジグラフを呼び出して、ナレッジクエリリクエストに対応するターゲットナレッジをクエリしてフィードバックする。

理解を深めるために、本願は、特定の適用シナリオと結びつけて、特定の実施形態をさらに提供する。図５に示す概略図を参照されたい。

１）サーバは、「Ｘ号の製造は１８９９年１月２４日にＹ国のＺ社によって開始される」の未処理業界テキスト（この業界は船舶製造業界であることがわかる）を受信する。

２）サーバは、この未処理業界テキストの先頭に、分類特徴を特徴付けるための「ＣＬＳ」（Ｃｌａｓｓ、クラス）を入力層に追加する。

３）サーバは、処理された未処理業界テキストを事前に訓練された言語モデル（図４の実施例に示される言語モデルと同等）に入力して、出力されたテキストベクトルを取得する。

図５において、ＥＲＮＩＥの事前に訓練された言語モデルおよびパラメータは具体的に使用される。このモデルは、入力された未処理業界テキストを、文脈的特徴を含むテキストベクトルに変換することができる。ここでは主にｔｒａｎｓｆｏｒｍｅｒ（変換）ユニットを使用する。このモデルには複数層のｔｒａｎｓｆｏｒｍｅｒユニットがあり、各層の各ｔｒａｎｓｆｏｒｍｅｒユニットは入力層における１つのユニットに対応し、同じ層のｔｒａｎｓｆｏｒｍｅｒユニットは相互に接続されておらず、異なる層間のｔｒａｎｓｆｏｒｍｅｒユニットはペアで接続される（図面には２層のみのｔｒａｎｓｆｏｒｍｅｒの接続状況が概略的に示される）。

４）サーバは、出力されたテキストベクトルを事前に訓練されたマルチポインタモデル（図４に示すマルチポインタモデルと同等）に入力し、ネストされた各層の関係ペアの開始・終了位置を出力する。

事前に定義されたｓｃｈｅｍａ（制約）に従って、合計２（Ｍ＋Ｎ）個の分類器を生成する。ここでは、Ｍはｓｔｙｐｅ−ｐ（一番層の関係ペアと同等に理解され得る）ペアの数であり、各ｓｔｙｐｅ−ｐは、ｓｔｙｐｅ−ｐ制約を満たすエンティティの開始・終了位置を学習するためにそれぞれ使用される２つの分類器に対応する。同様に、各ｏｔｙｐｅ−ｐ（二番層の関係ペアと同等に理解され得る）も、ｏｔｙｐｅ−ｐ制約を満たす属性値の開始・終了位置を学習するためにそれぞれ使用される２つの分類器に対応する。図５に示すように、例えば、一番目の分類器は、テキストにおける船舶−メーカーのエンティティの一番目のｔｏｋｅｎが開始位置であることを示すことができ、二番目の分類器は、テキストにおける船舶−メーカーのエンティティの三番目のｔｏｋｅｎが終了位置であることを示すことができる。ｋ番目の分類器は、テキストにおけるメーカー−組織機構の値の１８番目のｔｏｋｅｎが開始位置であることを示すことができ、ｋ＋１番目の分類器は、テキストにおけるメーカー−組織機構の値の２５番目のｔｏｋｅｎが終了位置であることを示すことができる。

５）マルチポインタモデルは、予測された開始・終了位置を取得し、開始・終了位置に対応するテキストを抽出してつなぎ合わせ、最終的にそれらを出力する。

前の層によって予測された開始・終了位置に従って、それを最終的なエンティティ−属性−属性値出力としてつなぎ合わせる。上記の例のように、船舶−メーカーの位置が１−３であり、メーカー−組織機構の位置が１８−２５であると予測した場合、最終的なエンティティ−属性出力、即ち、Ｘ号−メーカー−Ｚ社を取得することができる。

最終的に、上記ステップにより、入力された「Ｘ号の製造は１８９９年１月２４日にＹ国のＺ社によって開始される」のショートテキストシーケンスから、「Ｘ号−メーカー−Ｚ社」、「Ｘ号−原産国−Ｙ国」、および「Ｘ−製造時間−１８９９年１月２４日」という３つの異なる主語・述語・目的語のトリプルを抽出することができる。

６）同時に、Ｓｏｆｔｍａｘ関数を主要部分とするマルチ分類モデル（図４の予測サブモデルと同等）を使用して、入力された未処理業界テキストに含まれる述語（Ｐｒｅｄｉｃａｔｉｏｎ、略記Ｐ）関係の数を予測し、最終的に結果「３」を取得する。２段階の検証から、予測結果が実際に抽出されたＳＰＯトリプルの実際の状況と一致することがわかる。

さらに、上記抽出された主語・述語・目的語のトリプルを「船舶製造」業界のナレッジグラフに入力し、ユーザが開始したインテリジェントな質問回答をさらに満たすことができる。例えば、ユーザが開始したクエリ質問が「Ｘ号はどの国で製造されるか」である場合、上記ナレッジグラフに記載のナレッジに基づいて、それを「Ｙ国」の回答に直接返送することができる。

さらに図６を参照すると、上記の各図に示す方法の実施形態として、本願は、業界テキスト増分装置の実施例を提供する。この装置の実施例は、図２に示す方法の実施例に対応する。この装置は、様々な電子デバイスに特に適用できる。

図６に示すように、本実施例の業界テキスト増分装置６００は、低リソース業界テキスト取得ユニット６０１、およびサンプル増分ユニット６０２を含む。低リソース業界テキスト取得ユニット６０１は、ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得するように構成された低リソース業界テキスト取得ユニットであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す低リソース業界テキスト取得ユニットである。サンプル増分ユニット６０２は、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得するように構成されたサンプル増分ユニットであって、第二プリセットレベルが第一プリセットレベル以上であるサンプル増分ユニットである。

本実施例では、業界テキスト増分装置６００の低リソース業界テキスト取得ユニット６０１、およびサンプル増分ユニット６０２の具体的な処理とその技術的効果については、それぞれ図２に対応する実施例のステップ２０１−２０２の関連説明を参照されたいが、ここでは繰り返さない。

本実施例のいくつかの代替的な実施形態では、サンプル増分ユニット６０２は、遠隔監視方法を使用して、オリジナル業界テキストに対してサンプル増分処理を実行するように構成された遠隔監視増分サブユニットを含み、この遠隔監視増分サブユニットは、

ターゲット業界分野のオリジナル業界テキストから、最初の主語・述語・目的語のトリプルを抽出することと、

ターゲット業界分野にない他の業界テキストおよびパブリックコーパスから、最初の主語・述語・目的語のトリプルの主語と述語が存在するテキストをターゲットテキストとして決定することと、

オリジナル業界テキストを遠隔監視方法で処理した後の増分済み業界テキストとして、ターゲットテキストを決定することと、を実行するようにさらに構成され得る。

本実施例のいくつかの代替的な実施形態では、サンプル増分ユニット６０２は、

遠隔監視方法を使用して、オリジナル業界テキストに対して一次サンプル増分処理を実行し、一次増分済み業界テキストを取得することと、

主語・目的語置換方法および／または逆翻訳方法を使用して、オリジナル業界テキストおよび一次増分済み業界テキストに対してサンプル増分処理をそれぞれ実行し、二次増分済み業界テキストを取得することであって、主語・目的語置換方法が、主語・述語・目的語のトリプルの述語によって提供される主語・目的語関係を維持しながら、オリジナルの主語と目的語を新しい主語と目的語に置換することを指すことと、

一次増分済み業界テキストおよび二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することと、を実行するようにさらに構成され得る。

本実施例のいくつかの代替的な実施形態では、業界テキスト増分装置６００は、

増分済み業界テキストに基づいて言語モデルを訓練するように構成された言語モデル訓練ユニットと、

訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出するように構成された主語・述語・目的語のトリプル抽出ユニットと、をさらに含む、

本実施例のいくつかの代替の実施形態では、この主語・述語・目的語のトリプル抽出ユニットは、

未処理業界テキストを訓練された言語モデルに入力し、文脈的特徴を含む出力されたテキストベクトルを取得することと、

プリセットのマルチポインタモデルを使用して、テキストベクトルから第一結果を抽出することであって、マルチポインタモデルが、テキストベクトルとそこに存在する多層ネスト型関係の関係ペアの開始・終了位置との間の対応関係を特徴付けることと、

プリセットの予測サブモデルを使用して、テキストベクトルから第二結果を予測することであって、予測サブモデルが、ラベル付けされたラベルカテゴリに従って、未処理業界テキストに含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも１つを予測するために使用されることと、

プリセットのモデル重み付け係数に基づいて、第一結果および第二結果を重み付けし、重み付けされた包括的な結果から主語・述語・目的語のトリプルを抽出することと、を実行するように構成され得る。

抽出された主語・述語・目的語のトリプルに基づいて、ターゲット業界分野のナレッジグラフを構築するように構成されたナレッジグラフ構築ユニットをさらに含み得る。

ナレッジクエリリクエストを受信したことに応答して、ナレッジクエリリクエストに基づいて、それが属する実業界分野を決定するように構成された実業界分野決定ユニットと、

実業界分野のナレッジグラフを呼び出して、ナレッジクエリリクエストに対応するターゲットナレッジをクエリしてフィードバックするように構成されたナレッジグラフによるクエリ・フィードバックユニットと、をさらに含み得る。

本実施例は、上記方法の実施例に対応する装置の実施例として存在する。オリジナル業界テキストの保有量が第一プリセットレベルよりも小さいターゲット業界分野について、本願の実施例によって提供される業界テキスト増分装置は、遠隔監視方法を使用して、サンプル増分を実現する。この遠隔監視方法は、オリジナル業界テキストの名詞間の関連付けに基づいて、他の業界分野またはパブリックコーパスから、要件を満たす新しいテキストを検索して増分テキストとして決定し、さらにサンプルレベルの拡大を実現し、さらに、低リソースのターゲット業界テキストも、サンプル増分技術の助けを借りて、主語・述語・目的語のトリプルを正確に抽出するために使用される精度要件を満たすモデルを訓練できるようにすることができる。

本願の実施例によれば、本願は、電子デバイス、可読記憶媒体、およびコンピュータプログラム製品をさらに提供する。

図７は、本願の実施例を実施するために使用され得る例示的な電子デバイス７００の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および／または請求される本願の実施形態を限定することを意図したものではない。

図７に示すように、デバイス７００は、リードオンリーメモリ（ＲＯＭ）７０２に記憶されたコンピュータプログラム、または記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラムに従って、各種の適切な動作および処理を実行することができる計算ユニット７０１を含む。ＲＡＭ７０３には、デバイス７００の動作に必要な各種のプログラムおよびデータも記憶され得る。計算ユニット７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース７０５も、バス７０４に接続される。

デバイス７００内の複数のコンポーネントは、Ｉ／Ｏインターフェース７０５に接続されており、キーボード、マウスなどの入力ユニット７０６と、各種のディスプレイ、スピーカーなどの出力ユニット７０７と、磁気ディスク、光ディスクなどの記憶ユニット７０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット７０９と、を含む。通信ユニット７０９は、デバイス７００が、インターネットなどのコンピュータネットワーク、および／または様々な通信ネットワークを介して、他の装置との間で情報／データを交換することを可能にする。

計算ユニット７０１は、処理能力および計算能力を備えた様々な汎用および／または専用の処理コンポーネントであり得る。計算ユニット７０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット７０１は、上記様々な方法および処理、例えば、業界テキスト増分方法を実行する。例えば、いくつかの実施例では、業界テキスト増分方法は、記憶ユニット７０８などの機械可読媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ７０２および／または通信ユニット７０９を介して、デバイス７００にロードおよび／またはインストールされ得る。コンピュータプログラムがＲＡＭ７０３にロードされ、計算ユニット７０１によって実行されると、上記業界テキスト増分方法の１つまたは複数のステップが実行され得る。あるいは、他の実施例では、計算ユニット７０１は、他の任意の適切な手段（例えば、ファームウェア）を介して、業界テキスト増分方法を実行するように構成され得る。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途用標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈され得る１つまたは複数のコンピュータプログラムに実装されることを含み得る。

本願の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供され得るので、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図で指定された機能／動作が実行される。プログラムコードは、完全にマシン上で実行され得るか、または部分的にマシン上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され得るか、または完全にリモートマシンまたはサーバ上で実行され得る。

本願の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリーメモリ（ＣＤ−ＲＯＭ）、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス（例えば、マウスまたはトラックボール）とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック）をユーザに提供したり、任意の形態（音響入力、音声入力、および触覚入力を含む形態）を使用してユーザからの入力を受信したりするために使用され得る。

本明細書に記載のシステムおよび技術は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、フロントエンドコンポーネント（例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ）を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）を介して互いに接続され得る。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント−サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、クラウドコンピューティングサービスシステムのホスト製品として、従来の物理ホストおよび仮想プライベートサーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）のサービスにおける、管理の難しさが高く、サービスの拡張性が低いという欠点を解決する。

オリジナル業界テキストの保有量が第一プリセットレベルよりも小さいターゲット業界分野について、本願の実施例は、遠隔監視方法を使用して、サンプル増分を実現する。この遠隔監視方法は、オリジナル業界テキストの名詞間の関連付けに基づいて、他の業界分野またはパブリックコーパスから、要件を満たす新しいテキストを検索して増分テキストとして決定し、さらにサンプルレベルの拡大を実現し、さらに、低リソースのターゲット業界テキストも、サンプル増分技術の助けを借りて、主語・述語・目的語のトリプルを正確に抽出するために使用される精度要件を満たすモデルを訓練できるようにすることができる。

ステップの並べ替え、追加、または削除は、上記様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本開示に記載の各ステップは、本願に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行され得るが、本明細書に限定されない。

上記特定の実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本願の精神と原則の範囲内で行われた修正、同等置換、改良などは、本願の保護範囲に含まれるべきである。

Claims

ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得することであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指すことと、
遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することであって、前記第二プリセットレベルが前記第一プリセットレベル以上であることと、を含む、
業界テキスト増分方法。
前述した遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行することは、
前記ターゲット業界分野のオリジナル業界テキストから、最初の主語・述語・目的語のトリプルを抽出することと、
前記ターゲット業界分野にない他の業界テキストおよびパブリックコーパスから、前記最初の主語・述語・目的語のトリプルの主語と述語が存在するテキストをターゲットテキストとして決定することと、
前記オリジナル業界テキストを遠隔監視方法で処理した後の増分済み業界テキストとして、前記ターゲットテキストを決定することと、を含む、
請求項１に記載の方法。
前述した遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得することは、
遠隔監視方法を使用して、前記オリジナル業界テキストに対して一次サンプル増分処理を実行し、一次増分済み業界テキストを取得することと、
主語・目的語置換方法および／または逆翻訳方法を使用して、前記オリジナル業界テキストおよび前記一次増分済み業界テキストに対してサンプル増分処理をそれぞれ実行し、二次増分済み業界テキストを取得することであって、前記主語・目的語置換方法が、主語・述語・目的語のトリプルの述語によって提供される主語・目的語関係を維持しながら、オリジナルの主語と目的語を新しい主語と目的語に置換することを指すことと、
前記一次増分済み業界テキストおよび前記二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、保有量が前記第二プリセットレベルよりも大きい増分済み業界テキストを取得することと、を含む、
請求項１に記載の方法。
前記増分済み業界テキストに基づいて言語モデルを訓練することと、
訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出することと、をさらに含む、
請求項１−３のいずれか一項に記載の方法。
前述した訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出することは、
未処理業界テキストを訓練された言語モデルに入力し、文脈的特徴を含む出力されたテキストベクトルを取得することと、
プリセットのマルチポインタモデルを使用して、前記テキストベクトルから第一結果を抽出することであって、前記マルチポインタモデルが、テキストベクトルとそこに存在する多層ネスト型関係の関係ペアの開始・終了位置との間の対応関係を特徴付けることと、
プリセットの予測サブモデルを使用して、前記テキストベクトルから第二結果を予測することであって、前記予測サブモデルが、ラベル付けされたラベルカテゴリに従って、前記未処理業界テキストに含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも１つを予測するために使用されることと、
プリセットのモデル重み付け係数に基づいて、前記第一結果および前記第二結果を重み付けし、重み付けされた包括的な結果から前記主語・述語・目的語のトリプルを抽出することと、を含む、
請求項４に記載の方法。
抽出された主語・述語・目的語のトリプルに基づいて、前記ターゲット業界分野のナレッジグラフを構築することをさらに含む、
請求項５に記載の方法。
ナレッジクエリリクエストを受信したことに応答して、前記ナレッジクエリリクエストに基づいて、それが属する実業界分野を決定することと、
前記実業界分野のナレッジグラフを呼び出して、前記ナレッジクエリリクエストに対応するターゲットナレッジをクエリしてフィードバックすることと、をさらに含む、
請求項６に記載の方法。
ターゲット業界分野での保有量が第一プリセットレベルよりも小さいオリジナル業界テキストを取得するように構成された低リソース業界テキスト取得ユニットであって、業界テキストが、対応する業界分野の排他的オブジェクトを説明するためのテキストコンテンツを指す低リソース業界テキスト取得ユニットと、
遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行し、保有量が第二プリセットレベルよりも大きい増分済み業界テキストを取得するように構成されたサンプル増分ユニットであって、前記第二プリセットレベルが前記第一プリセットレベル以上であるサンプル増分ユニットと、を含む、
業界テキスト増分装置。
前記サンプル増分ユニットは、遠隔監視方法を使用して、前記オリジナル業界テキストに対してサンプル増分処理を実行するように構成された遠隔監視増分サブユニットを含み、前記遠隔監視増分サブユニットは、
前記ターゲット業界分野のオリジナル業界テキストから、最初の主語・述語・目的語のトリプルを抽出することと、
前記ターゲット業界分野にない他の業界テキストおよびパブリックコーパスから、前記最初の主語・述語・目的語のトリプルの主語と述語が存在するテキストをターゲットテキストとして決定することと、
前記ターゲットテキストを、遠隔監視方法で処理された前記オリジナル業界テキストの増分業界テキストとして決定することと、を実行するようにさらに構成される、
請求項８に記載の装置。
前記サンプル増分ユニットは、
遠隔監視方法を使用して、前記オリジナル業界テキストに対して一次サンプル増分処理を実行し、一次増分済み業界テキストを取得することと、
主語・目的語置換方法および／または逆翻訳方法を使用して、前記オリジナル業界テキストおよび前記一次増分済み業界テキストに対してサンプル増分処理をそれぞれ実行し、二次増分済み業界テキストを取得することであって、前記主語・目的語置換方法が、主語・述語・目的語のトリプルの述語によって提供される主語・目的語関係を維持しながら、オリジナルの主語と目的語を新しい主語と目的語に置換することを指すことと、
前記一次増分済み業界テキストおよび前記二次増分済み業界テキストから、コンテンツエラーテキスト、論理エラーテキストおよび重複テキストを削除し、保有量が前記第二プリセットレベルよりも大きい増分済み業界テキストを取得することと、を含む、
請求項８に記載の装置。
前記増分済み業界テキストに基づいて言語モデルを訓練するように構成された言語モデル訓練ユニットと、
訓練された言語モデルを使用して、実業界テキストから主語・述語・目的語のトリプルを抽出するように構成された主語・述語・目的語のトリプル抽出ユニットと、をさらに含む、
請求項８−１０のいずれか一項に記載の装置。
前記主語・述語・目的語のトリプル抽出ユニットは、
未処理業界テキストを訓練された言語モデルに入力し、文脈的特徴を含む出力されたテキストベクトルを取得することと、
プリセットのマルチポインタモデルを使用して、前記テキストベクトルから第一結果を抽出することであって、前記マルチポインタモデルが、テキストベクトルとそこに存在する多層ネスト型関係の関係ペアの開始・終了位置との間の対応関係を特徴付けることと、
プリセットの予測サブモデルを使用して、前記テキストベクトルから第二結果を予測することであって、前記予測サブモデルが、ラベル付けされたラベルカテゴリに従って、前記未処理業界テキストに含まれる述語カテゴリの数、主語・述語・目的語のトリプルの数、およびエンティティタイプのうちの少なくとも１つを予測するために使用されることと、
プリセットのモデル重み付け係数に基づいて、前記第一結果および前記第二結果を重み付けし、重み付けされた包括的な結果から前記主語・述語・目的語のトリプルを抽出することと、を含む、
請求項１１に記載の装置。
抽出された主語・述語・目的語のトリプルに基づいて、前記ターゲット業界分野のナレッジグラフを構築するように構成されたナレッジグラフ構築ユニットをさらに含む、
請求項１２に記載の装置。
ナレッジクエリリクエストを受信したことに応答して、前記ナレッジクエリリクエストに基づいて、それが属する実業界分野を決定するように構成された実業界分野決定ユニットと、
前記実業界分野のナレッジグラフを呼び出して、前記ナレッジクエリリクエストに対応するターゲットナレッジをクエリしてフィードバックするように構成されたナレッジグラフによるクエリ・フィードバックユニットと、をさらに含む、
請求項１３に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが請求項１−７のいずれか一項に記載の業界テキスト増分方法を実行できるように前記少なくとも１つのプロセッサによって実行される、
電子デバイス。
請求項１−７のいずれか一項に記載の業界テキスト増分方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１−７のいずれか一項に記載の業界テキスト増分方法を実行するコンピュータプログラムを含むコンピュータプログラム製品。