JP2022118263A

JP2022118263A - 自然言語処理モデルの訓練方法、自然言語処理方法、装置、電子機器、記憶媒体及びプログラム

Info

Publication number: JP2022118263A
Application number: JP2022102621A
Authority: JP
Inventors: 思宇丁; Siyu Ding; 超 ▲ぱん▼; Chao Pang; 碩寰王; Shuohuan Wang; 晏彬趙; Yanbin Zhao; 駿遠尚; Junyuan Shang; 宇孫; Yu Sun; 仕坤馮; Shikun Feng; 浩田; Hao Tian; 華呉; Hua Wu; 海峰王; Haifeng Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2022-06-27
Publication date: 2022-08-12
Also published as: US20220293092A1; CN113361285A; CN113361285B

Abstract

【課題】自然言語処理モデルの訓練方法及びその装置、自然言語処理方法及びその装置、電子機器及び記憶媒体を提供する。【解決手段】本出願は、自然言語処理モデルの訓練方法を提供し、人工知能分野に関し、特に自然言語処理の分野に関する。具体的な実現案は以下の通りである。入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得することと、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を得ることと、各分岐タスクに対する第１の出力結果に基づいて、各分岐タスクに対する損失を計算することと、各分岐タスクに対する損失に基づいて、自然言語処理モデルのパラメータを調整することと、を含む。本出願は、自然言語処理モジュールの訓練装置、自然言語処理方法およびその装置、電子機器、記憶媒体及びプログラムをさらに提供する。【選択図】図２

Description

本開示は、人工知能技術分野に関し、特に自然言語処理技術に関する。より具体的には、本開示は、自然言語処理モデルの訓練方法及びその装置、自然言語処理方法及びその装置、電子装置、記憶媒体及びプログラムを提供する。

近年、自然言語処理技術の発展に伴い、大規模コーパスに基づく予備訓練言語モデルは既にクラシックフレームになっている。現在、業界内の語意理解及び言語生成などの異なるタスクの言語モデルに関する研究は一般的に独立して行われ、語意理解モデルは言語を生成する能力を備えず、逆も同様である。

したがって、どのように一つのモデルに同時に語意理解と言語生成の能力を備えさせるかは解決しようとする問題となる。

本開示は、自然言語処理モデルの訓練方法及びその装置、自然言語処理方法及びその装置、電子機器及び記憶媒体を提供する。

第一態様によれば、自然言語処理モデルの訓練方法を提供し、入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得することと、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を得ることと、各分岐タスクに対する第１の出力結果に基づいて、各分岐タスクに対する損失を計算することと、各分岐タスクに対する損失に基づいて、自然言語処理モデルのパラメータを調整することと、を含む。

第二態様によれば、自然言語処理方法を提供し、予め設定された分岐タスクに対する処理すべきテキストを取得することと、自然言語処理モデルを使用して前記処理すべきテキストに対してマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得し、語意特徴に基づいて予め設定された分岐タスクに対する特徴学習を行い、予め設定された分岐タスクに対する処理結果を取得することと、を含み、ここで、マルチタスクが、予め設定された分岐タスクを含み、自然言語処理モデルは、上記自然言語処理モジュールの訓練方法によって訓練される。

第三態様によれば、自然言語処理モデルの訓練装置を提供し、入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得する語意学習モジュールと、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を得る特徴学習モジュールと、各分岐タスクに対する第１の出力結果に基づいて、各分岐タスクに対する損失を計算する損失計算モジュールと、各分岐タスクに対する損失に基づいて、前記自然言語処理モデルのパラメータを調整するパラメータ調整モジュールと、を含む。

第四態様によれば、自然言語処理装置を提供し、予め設定された分岐タスクに対する処理すべきテキストを取得する取得モジュールと、自然言語処理モデルを使用して前記処理すべきテキストに対してマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得し、語意特徴に基づいて予め設定された分岐タスクに対する特徴学習を行い、予め設定された分岐タスクに対する処理結果を取得する取得モジュールと、を含み、ここで、マルチタスクは、予め設定された分岐タスクを含み、自然言語処理モデルは、上記自然言語処理モジュールの訓練方法によって訓練される。

第五態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリは、少なくとも一つのプロセッサにより実行可能な命令を記憶し、命令は少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが本開示に提供される方法を実行することができる。

第六態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令が、コンピュータに本開示に提供される方法を実行させるために用いられる。

第七態様によれば、プロセッサにより実行される時に本開示に提供される方法を実現するコンピュータプログラムを提供する。

理解すべきことは、本部分に記載された内容は、本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。

図面は本技術案をよりよく理解するために用いられ、本開示を限定するものではない。

図１Ａは、本開示の一実施例に係る統一予備訓練言語モデルの構造原理図である。図１Ｂは、本開示の一実施例に係る自然言語処理モデルの訓練方法及び／又は自然言語処理方法のシステム原理図である。図２は、本開示の一実施例に係る自然言語処理モデルの訓練方法のフローチャートである。図３Ａは、本開示の一実施例に係る上記自然言語処理モデルに基づいて異なる分岐タスクを実現する原理図である。図３Ｂは、本開示の一実施例に係る上記自然言語処理モデルに基づいて異なる分岐タスクを実現する原理図である。図３Ｃは、本開示の一実施例に係る上記自然言語処理モデルに基づいて異なる分岐タスクを実現する原理図である。図４Ａは、本開示の一実施例に係る上記自然言語処理モデルに基づいて実現された語意生成タスクの原理図である。図４Ｂは、本開示の一実施例に係る上記自然言語処理モデルに基づいて実現された語意生成タスクの原理図である。図５は、本開示の別の実施例に係る自然言語処理モデルの訓練方法及び／又は自然言語処理方法のシステム原理図である。図６は、本開示の一実施例に係る自然言語処理方法のフローチャートである。図７は、本開示の一実施例に係る自然言語処理モデルの訓練装置のブロック図である。図８は、本開示の一実施例に係る自然言語処理装置のブロック図である。図９は、本開示の一実施例に係る自然言語処理モデルの訓練方法および／または自然言語処理方法の電子機器のブロック図である。

以下に図面を参照して本開示の例示的な実施例を説明し、理解しやすくするように、ここで本開示の実施例の様々な詳細を含み、それらを例示的なものと考えるべきである。したがって、当業者であれば、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。

本開示の技術案において、関連するユーザ個人情報の取得、記憶及び応用等は、いずれも相関法律規則の規定に適合し、かつ公序良俗に反するものではない。

自然言語処理モデルの応用はますます広くなり、語意理解及び言語生成は、自然言語処理の分岐としてそれぞれの研究分野において顕著な進歩を遂げている。例えば、語意理解分野において、ＢＥＲＴ、ＥＲＮＩＥ及びＸＬＮｅｔなどのクラシック予備訓練言語モデルを生成し、様々な自然語意理解タスク（例えばテキストマッチング、感情分類、検索など）の効果を大幅に向上させる。言語生成分野において、ＧＰＴ、ＢＡＲＴ及びＴ５などのクラシック予備訓練言語モデルを生成し、様々な自然言語生成タスク（例えばテキスト生成、テキスト要約生成、生成式質問応答など）の効果を大幅に向上させる。

しかし、現在業界内の語意理解及び言語生成などの異なるタスクの言語モデルに関する研究は一般的に独立して行われ、語意理解モデルは言語を生成する能力を備えず、逆も同様である。したがって、語意理解と言語生成能力を同時に必要とするシーンに直面する場合、二つのモデルを訓練する必要があり、これは資源及び時間の消費を大幅に増加させる。

現在業界では統一予備訓練言語モデルを用いて語意理解タスク及び言語生成タスクの共同訓練を実現する解決手段が既に提案されている。例えば、ＵＮＩＬＭ（ＵＮＩ－ｔｒａｉｎｅｄＬａｎｇｕａｇｅＭｏｄｅｌ）は、ＢＥＲＴに基づいてＳｅｑ２Ｓｅｑ（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅ、シーケンスからシーケンスへの変換モデルを融合し、Ｓ２Ｓと略称する）タスクを融合し、語意理解と言語生成の共同訓練を初期的に実現する。それは、ＢＥＲＴをモデル構造とし、Ｍａｓｋメカニズムを利用し、単方向Ｍａｓｋ言語モデル、双方向Ｍａｓｋ言語モデル及びＳｅｑ２Ｓｅｑの三種類のモデルを統一する。

図１Ａは、本開示の一実施例に係る統一予備訓練言語モデルの構造原理図である。
図１Ａに示すように、統一予備訓練言語モデル（例えばＵＮＬＭ）は、埋め込み層１１１及びＴｒａｎｓｆｏｒｍｅｒ層１１２を含むことができる。例えば、Ｘ_１、Ｘ_２……Ｘ_５を入力テキストとし、埋め込み層１１１は、入力テキストに特徴抽出及び特徴のベクトル化表現を行い、入力テキストの特徴ベクトルを出力することに用いられる。Ｔｒａｎｓｆｏｒｍｅｒ層１１２は、入力テキストの特徴ベクトルに基づいて語意学習を行い、語意特徴ｈ_１、ｈ_２…ｈ_５を出力することに用いられる。

例えば、埋め込み層１１１は語句埋め込み層（ＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇ）、位置情報埋め込み層（ＰｏｓｉｔｉｏｎＥｍｂｅｄｄｉｎｇ）及び字埋め込み層（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ）を含み、それぞれ入力テキストに対して語句ベクトル化表現、入力テキストにおける各字の位置情報ベクトル化表現、及び各字ベクトル化表現を行い、語句特徴、位置特徴及び字特徴を出力する。

例えば、Ｔｒａｎｓｆｏｒｍｅｒ層１１２は、多層Ｔｒａｎｓｆｏｒｍｅｒモジュールを含むことができ、Ｔｒａｎｓｆｏｒｍｅｒモジュールは、自然言語処理分野におけるクラシックモデルアーキテクチャであり、センテンスにおける字と字（又は単語と単語）との間の関連性を学習することができる。入力テキストの語句特徴、位置特徴及び字特徴は、多層Ｔｒａｎｓｆｏｒｍｅｒモジュールにより、入力テキストの意味を示すための語意特徴を出力することができる。

理解すべきことは、統一予備訓練言語モデルは、語意理解タスク及び言語生成タスクの共同訓練に用いることができ、異なる言語処理タスクに対して、入力テキストＸ_１、Ｘ_２……Ｘ_５に対する計算過程が異なり、出力された語意特徴ｈ_１、ｈ_２…ｈ_５の意味も異なる。しかし、異なる言語処理タスクは、統一予備訓練言語モデルのパラメータを共有し、すなわち異なる言語処理タスクの訓練は、統一予備訓練言語モデルのパラメータを共通に影響し、訓練された統一予備訓練言語モデルは、語意理解のタスクを行ってもよく言語生成のタスクを行ってもよい。

統一予備訓練言語モデルは、モデルパラメータを完全に共有することにより語意理解タスク及び言語生成タスクの統一的な訓練を実現するが、二種類の異なる研究モードとして、語意理解と言語生成は同じ部分があり、異なる部分もある。同じ部分について、モデルパラメータの共有は相補的な役割を果たすことができるが、異なる部分について依然としてモデルパラメータを共有すると負作用をもたらす。

具体的には、統一予備訓練言語モデルは、完全に同一のパラメータで複数種類のタスクを学習し、複数種類のタスクに対して、基礎特徴を抽出するためのモデル底層にパラメータを共有することは互いに影響しないが、タスクの特定の特徴を抽出する場合にパラメータを共有すると負影響を与える。

これに鑑みて、本開示の実施例は、自然言語処理モデルの訓練方法及び自然言語処理方法を提供する。

図１Ｂは、本開示の一実施例に係る自然言語処理モデルの訓練方法及び／又は自然言語処理方法のシステム原理図である。

図１Ｂに示すように、該自然言語処理モデルの訓練方法及び／又は自然言語処理方法のシステムは、統一訓練層１１０、接続層１２０及び独立訓練層１３０を含むことができ、独立訓練層１３０は複数のタスクサブ層を含むことができ、各タスクサブ層は一つの言語処理分岐タスクに対応し、例えば独立訓練層１３０は語意理解タスクサブ層１３１及び言語生成タスクサブ層１３２などを含む。

統一訓練層１１０は、統一予備訓練言語モデルを含むことができ、複数の言語処理分岐タスクの統一訓練に用いられる。接続層１２０は、統一訓練層１１０と独立訓練層１３０を接続し、かつ異なるタスクに対して、統一訓練層１１０の出力結果を独立訓練層１３０における対応的なタスクサブ層に伝送するために用いられる。

独立訓練層１３０における各タスクサブ層は、異なる分岐タスクに対して独立して訓練するためのモデル（分岐タスクモデルと呼ばれる）を含むことができ、各分岐タスクモデルは複数のＴｒａｎｓｆｏｒｍｅｒモジュールを含むことができ、語意特徴を分析し計算し、言語処理分岐タスクを実現するために用いられる。

本開示の実施例によれば、統一予備訓練言語モデルに基づいてそれぞれ各分岐タスクの独立訓練を行い、マルチタスクにおける同じ部分に対して共通訓練を行い、異なる部分に対して独立訓練を行う目的を達成し、各言語処理タスクに対する自然言語処理モデルの処理効果を向上させる。

理解すべきように、本開示の実施例は、統一訓練層と独立訓練層との協調統一予備訓練フレームを提供し、複数種類のタスクが統一訓練層を共同に訓練して基礎特徴情報を抽出し、各種類のタスクが自分の特定のタスク分岐を訓練してタスクに必要な上位層語意情報を抽出し、それにより同一モデルが複数種類のタスクに良好な効果を有するということを実現する。

図２は、本開示の一実施例に係る自然言語処理モデルの訓練方法のフローチャートである。

図２に示すように、該自然言語処理モデルの訓練方法２００は、操作Ｓ２１０～操作Ｓ２４０を含むことができる。

操作Ｓ２１０において、入力テキストに対してマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得する。

例えば、マルチタスクは、複数種類のタスクを含み、各種類のタスクは一つの分岐に対応する。例えば語意理解タスク、言語生成タスク、常識推論タスク及びナレッジグラフのタスクなどであり、これらのタスクは自然言語処理の分岐タスクである。自然言語処理モデルは、統一予備訓練言語モデル（例えばＵＮＬＭ）を含み、統一予備訓練言語モデルにより該複数の分岐タスク（すなわち複数種類のタスク）を共同で訓練する。

例えば、入力テキストは、少なくとも一つの語句を含み、各語句は少なくとも一つの字を含む。異なる分岐タスクに対して、タスクの形式が異なるため、入力テキストに対する計算過程が異なるため、統一予備訓練言語モデルが出力した語意特徴が表す意味が異なる。統一予備訓練言語モデルは、入力テキストに対して語句ベクトル化表現、入力テキストにおける各字の位置情報ベクトル化表現、及び各字ベクトル化表現を行い、語句特徴、位置特徴及び字特徴を取得し、かつ入力テキストの語句特徴、位置特徴及び字特徴に基づいて字と字（又は単語と単語）との間の関連性の学習を行い、語意特徴を出力することができる。

例えば、語意理解タスクに対して、出力された語意特徴は、入力テキストの語意理解情報を表すことができる。また例えば、言語生成タスクについて、出力された語意特徴は入力テキストの後文情報を表すことができる。

操作Ｓ２２０において、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を取得する。

例えば、自然言語処理モデルはさらに複数の分岐タスクモデルを含み、各分岐タスクモデルは対応的な分岐タスクの独立訓練を実現するために用いられる。異なる分岐タスクに対して、統一予備訓練言語モデルに基づいて出力された語意特徴を対応的な分岐タスクモデルに入力し、該分岐タスクモデルを使用して該分岐タスクに対する独立訓練を行い、複数の分岐タスクの同じ部分に共通訓練を行い、異なる部分に独立訓練を行う目的を達成することができる。

理解すべきように、統一予備訓練言語モデルは複数の分岐タスクの訓練を共同で訓練し、複数の分岐タスクが統一予備訓練言語モデルのパラメータを共有し、すなわち複数の分岐タスクの訓練が統一予備訓練言語モデルのパラメータに共通に影響を与える。したがって、統一予備訓練言語モデルから出力される語意特徴は、異なる分岐タスクに対する意味を示すことができるが、異なる分岐タスクの影響を受ける。

本開示の実施例は、統一予備訓練言語モデルの出力する語意特徴に基づいて、各分岐タスクに対して独立訓練を行い、複数の分岐タスクの同じ部分に共同訓練を行い、異なる部分に独立訓練を行う目的を達成し、異なる分岐タスクの間の自然言語処理モデルのパラメータへの負影響を回避し、自然言語処理モデルの各分岐タスクに対する処理効果を向上させることができる。

操作Ｓ２３０において、各分岐タスクに対する第１の出力結果に基づいて、各分岐タスクに対する損失を計算する。

例えば、各分岐タスクモデルに対して、各分岐タスクに対して独立訓練を行い、各分岐タスクに対する第１の出力結果を出力することができる。各分岐タスクに対する入力テキストのタグと第１の出力結果との間の差異に基づいて、各分岐タスクに対する損失を計算することができる。

例えば、語意理解タスクに対して、入力テキストは語意理解情報を表すタグを有し、統一予備訓練言語モデルの統一訓練を経て、かつ語意理解分岐タスクの独立訓練を経た後、第１の出力結果を出力し、この第１の出力結果は、該自然言語処理モデルが予測した入力テキストの語意理解情報を示す。タグに示された語意理解情報と予測された語意理解情報との間の差異に基づいて、自然言語処理モデルによって語意理解タスクを処理する損失、すなわち語意理解タスクに対する損失を算出する。

同様に、言語に対してタスクを生成する損失、常識推論タスクに対する損失及びナレッジグラフのタスクに対する損失などを取得することができる。

操作Ｓ２４０において、各分岐タスクに対する損失に基づいて、自然言語処理モデルのパラメータを調整する。

例えば、語意理解タスクに対する損失、言語生成タスクに対する損失、常識推論タスクに対する損失及びナレッジグラフのタスクに対する損失などの各分岐タスクが独立訓練を行って生じる損失の和に基づいて、自然言語処理モデルのパラメータを調整することにより、自然言語処理モデルを更新することができる。予め設定された条件を満たすまで、更新された自然言語処理モデルを使用して次の入力テキストに対して、入力テキストに対してマルチタスクに対する語意学習を行うステップに返し、該予め設定された条件は、各分岐タスクに対する損失の和が収束することであってもよい。

理解すべきように、自然言語処理モデルを調整するパラメータは、統一予備訓練言語モデルを調整しかつ各分岐タスクに対して独立訓練を行うための分岐タスクモデルを調整するパラメータのうちの少なくとも一つを含むことができる。

本開示の実施例によれば、統一予備訓練言語モデルに基づいて各分岐タスクの独立訓練を行い、複数の分岐タスクの同じ部分に共通訓練を行い、異なる部分に独立訓練を行う目的を達成し、自然言語処理モデルの各言語処理分岐タスクに対する処理効果を向上させる。

以下に、図３Ａ～図３Ｃを参照して上記自然言語処理モデルに基づいて実現された異なる分岐タスクをそれぞれ説明する。

図３Ａは、本開示の一実施例に係る上記自然言語処理モデルに基づいて語意理解タスクを実現する原理図である。

図３Ｂは、本開示の一実施例に係る上記自然言語処理モデルに基づいて字レベルの語意生成タスクを実現する原理図である。

図３Ｃは、本開示の一実施例に係る上記自然言語処理モデルに基づいて語句レベルの語意生成タスクを実現する原理図である。

上記自然言語処理モデルは、統一予備訓練言語モデル及び各分岐タスクを実現するための複数の分岐タスクモデルを含み、各分岐タスクモデルは、複数のＴｒａｎｓｆｏｒｍｅｒモジュールを含み、語意特徴に基づいて分析及び計算を行い、言語処理分岐タスクを実現する。

図３Ａ～３Ｃに示すように、Ｓ_１及びＳ_２は、入力テキストにおける二つのセンテンス（又は語句）であり、Ｓ_１は字（又は単語）Ｘ_１、Ｘ_２及びＸ_３を含み、Ｓ_２は字（又は単語）Ｘ_４及びＸ_５を含む。各ブロックは一つの字（又は単語）の意味を示すことができ、ブロックが白色であることは、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算により該ブロックで示された字の意味が分かることを示し、ブロックが灰色であることは、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算により該ブロックで示された字の意味が知られていないことを示す。

図３Ａに対して、語意理解を実現するための分岐タスクモデルは、双方向ＭＬＭ（ＭａｓｋＬａｎｇｕａｇｅＭｏｄｅｌ、Ｍａｓｋ言語モデル）であってもよい。その原理は、入力テキストに対して予め設定された百分率（例えば１５％）の字（又は単語）をランダムに遮断し、符号化した後にＴｒａｎｓｆｏｒｍｅｒモジュールに入力し、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算により入力テキストにおける全ての字（又は単語）の情報を取得することができる。

図３Ａに示すように、Ｘ_１に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算によりＸ_１……Ｘ_５の意味を取得することができる。同様に、Ｘ_２に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算によりＸ_１……Ｘ_５の意味を取得することもできる。すなわち、入力テキストにおける各字に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールは、該字の前文情報及び後文情報を出力することができ、すなわちＴｒａｎｓｆｏｒｍｅｒモジュールの出力は、入力テキストの各字の意味を含み、入力テキスト全体の語意として理解することができ、それにより入力テキストの語意理解を実現する。

例えば、語意理解を実現するための分岐タスクモデルは、さらに入力テキストにおける各字の前文情報及び後文情報に基づいてセンテンスレベルの語意理解タスクを行うことができる。例えば、語句Ｓ_１とＳ_２との間の論理距離を計算し、論理距離はセンテンス間に論理的順序があるか否かを示す。また例えば、複数の語句を含む入力テキストに対して、各語句の間の論理順序を決定することにより、複数の語句に再配列等を行う。

図３Ｂに対して、例えば、字レベルの語意生成を実現するための分岐タスクモデルは、単方向ＭＬＭ（単方向Ｍａｓｋ言語モデル）であってもよい。単方向ＭＬＭは、左から右への言語モデル（Ｌｅｆｔ－ｔｏ－ＲｉｇｈｔＬａｎｇｕａｇｅＭｏｄｅｌ、L ２ＲＬＭ）と、右から左への言語モデル（Ｒｉｇｈｔ－ｔｏ－ＬｅｆｔＬａｎｇｕａｇｅＭｏｄｅｌ、Ｒ２ＬＬＭ）とを含む。

図３Ｂは、左から右への言語モデルの原理図であってもよく、その原理は、入力テキストに対して予め設定された百分率（例えば０～１００％）の字（又は単語）をランダムに遮断し、符号化した後にＴｒａｎｓｆｏｒｍｅｒモジュールに入力し、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算により該字（又は単語）及び該字の前に位置する全ての字（又は単語）の情報、すなわち前文情報（又は履歴情報）を取得することができることである。

図３Ｂに示すように、Ｘ_５に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算により、Ｘ_１……Ｘ_５の意味を取得することができる。同様に、Ｘ_４に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールにより、Ｘ_１……Ｘ_４の意味を取得することができる。すなわち入力テキストにおける各字に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールは、該字及び該字の前文情報を出力することができ、すなわちＴｒａｎｓｆｏｒｍｅｒモジュールの出力は全ての前文情報を含み、前文情報に基づいて後文情報を予測することができ、単方向ＭＬＭに基づく字レベルの言語生成タスクを実現する。

同様に、右から左への言語モデルは、その原理が入力テキストに対して予め設定された百分率（例えば０～１００％）の字（又は単語）をランダムに遮断し、符号化した後にＴｒａｎｓｆｏｒｍｅｒモジュールに入力し、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算により該字（又は単語）及び該字の後に位置する全ての字（又は単語）の情報、すなわち後文情報を取得することができ、後文情報に基づいて前文情報を予測し、単方向ＭＬＭに基づく字レベルの言語生成タスクを実現することができる。

図３Ｃに対して、例えば、センテンスレベルの語意生成を実現するための分岐タスクモデルは、Ｓｅｑ２Ｓｅｑ言語モデル（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬａｎｇｕａｇｅＭｏｄｅｌ、Ｓ２ＳＬＭ）であってもよい。その原理は、入力テキストの二番目のセンテンスに対して予め設定された百分率（例えば０～１００％）の字（又は単語）をランダムに遮蔽し、符号化した後にＴｒａｎｓｆｏｒｍｅｒモジュールに入力し、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算により、一番目のセンテンスにおける各字（又は単語）は、いずれも一番目のセンテンスにおける他の全ての字（又は単語）の意味を得ることができるが、二番目のセンテンスにおける字（又は単語）の意味を取得することができない。二番目の語句における遮蔽された単語は一番目のセンテンスの全ての字（又は単語）の意味及び二番目のセンテンスにおける該字の前に位置する前文情報を取得することができ、すなわちＴｒａｎｓｆｏｒｍｅｒモジュールの出力は一番目のセンテンスの全ての字（又は単語）の意味を含み、かつ二番目のセンテンスにおける遮蔽された字（又は単語）の前文情報を含み、したがって、語句レベルの後文情報の予測に用いることができ、センテンスレベルの言語生成タスクを実現する。

図３Ｃに示すように、一番目の語句Ｓ_１における各字に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算により全ての字Ｘ_１、Ｘ_２及びＸ_３の意味を取得することができる。二番目の語句Ｓ_２におけるＸ_４に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算によりＸ_１、Ｘ_２、Ｘ_３及びＸ_４の意味を取得することができる。二番目の語句Ｓ_２におけるＸ_５に対して、Ｔｒａｎｓｆｏｒｍｅｒモジュールの計算によりＸ_１、Ｘ_２、Ｘ_３、Ｘ_４及びＸ_５の意味を取得することができる。すなわちＴｒａｎｓｆｏｒｍｅｒモジュールの出力は、一番目の語句の意味及び二番目の語句における全ての遮蔽された字の前文情報を含み、これにより次の語句を予測し、センテンスレベルの言語生成タスクを実現することができる。

説明すべきものとして、双方向ＭＬＭタスクの特徴は、毎回１５％の字（ｔｏｋｅｎ）の参加訓練を訓練し、単方向ＭＬＭタスクとＳ２ＳＬＭタスクの特性は、１００％のｔｏｋｅｎの予測を行うことができることである。統一予備訓練言語モデルは、双方向ＭＬＭ、単方向ＭＬＭ及びＳｅｑ２Ｓｅｑという三種類の言語処理モデルを統一するが、異なるタスクを適応するために、タスクの訓練形式に対していくつかの調整を行う必要がある。例えば、単方向ＭＬＭタスク及びＳ２ＳＬＭタスクの毎回の訓練は１５％の字（ｔｏｋｅｎ）のみが訓練に参加する必要があり、これはオリジナルのＭＬＭタスク及びＳ２ＳＬＭタスクの訓練と８５％の損失を有するため、モデルの収束が遅く、さらにリソース及び時間浪費の問題が生じる。

本開示の実施例は、統一予備訓練言語モデルに基づいてそれぞれ各分岐タスクに対する独立訓練を行い、すなわち各分岐タスクはそれぞれのタスク特性を保留することができ、訓練時に適合性調整を行う必要がない。例えば単方向ＭＬＭタスク及びＳ２ＳＬＭタスクの特性は１００％のｔｏｋｅｎの予測を行うことができ、誤差を回避し、モデル訓練効率を向上させる。

説明すべきものとして、上記自然言語処理モデルに基づいて実現された語意生成タスクは、後文情報又は前文情報のうちの一つ又は複数の字の予測を実現するために用いられる。

図４Ａは、本開示の一実施例に係る上記自然言語処理モデルに基づいて実現される語意生成タスクの原理図である。

図４Ｂは、本開示の別の実施例に係る上記自然言語処理モデルに基づいて実現された語意生成タスクの原理図である。

自然言語処理モデルには、統一予備訓練言語モデルと、各分岐タスクを実現するための複数の分岐タスクモデルとが含まれる。語意生成を実現するための分岐タスクモデルは左から右への言語モデルであってもよく、左から右への言語モデルは、入力テキストの各字（又は単語）をいずれも学習することにより、各字（又は単語）は、自身及び自身の前文情報しか取得できず、前文情報に基づいて後文情報を予測し、言語生成タスクを実現することができる。

左から右への言語モデルはさらに左から右へＮ－Ｇｒａｍ言語モデル（Ｎ－ＧｒａｍＬａｎｇｕａｇｅＭｏｄｅｌ、Ｎ－ＧＬＭ）を含み、従来の左から右への言語モデルは前文情報に基づいて後文情報における一つの字（又は単語）を予測することができ、左から右へのＮ－Ｇｒａｍ言語モデルは、前文情報に基づいて後文情報における複数の字（又は単語）を同時に予測することができる。

図４Ａに示すように、後文情報における一つの字（又は単語）を予測する原理図である。例えば、入力テキストは「ハルビンは黒竜江の州都である」であり、入力テキストにおける各字に対して、左から右への言語モデル（例えばＧＰＴ－３）のＴｒａｎｓｆｏｒｍｅｒモジュール４１０の語意学習により、該字の後に位置する一つの字を予測することができる。例えば、「ハ」に対して「ル」を予測することができ、「ル」に対して「ビン」を予測することができ、これによって類推する。

図４Ｂに示すように、後文情報における複数の字（又は単語）を同時に予測する原理図である。入力テキストは「ハルビンは黒竜江の州都である」であり、入力テキストにおける各字に対して、左から右へのＮ－Ｇｒａｍ言語モデル（例えばＥＲＮＩＥ３.０）のＴｒａｎｓｆｏｒｍｅｒモジュール４２０の語意学習により、該字の後に位置する複数の字を同時に予測することができる。例えば、「黒」に対して「竜江」を予測することができ、「州」に対して「都」を予測することができる。

本開示の実施例によれば、統一予備訓練言語モデルに基づいて言語生成タスクの訓練を行い、入力テキストにおける各字に対して後文情報のうちの一つ又は複数の字を出力することができ、言語生成タスクを実現する。

図５は、本開示の別の実施例に係る自然言語処理モデルの訓練方法及び／又は自然言語処理方法のシステム原理図である。

図５に示すように、該自然言語処理モデルの訓練方法及び／又は自然言語処理方法のシステムは統一訓練層５１０、接続層５２０、独立訓練層５３０及び連合損失計算層５４０を含むことができる。

独立訓練層５３０は、複数のタスクサブ層を含むことができ、各タスクサブ層は一つの言語処理分岐タスクに対応し、例えば独立訓練層５３０は、語意理解タスクサブ層５３１、言語生成タスクサブ層５３２及び常識推論タスクサブ層５３３などを含む。説明すべきものとして、独立訓練層５３０は、さらにリアルタイム必要に応じて、より多くの分岐タスクを拡張することができ、例えばナレッジグラフのタスクサブ層などである。

一方、入力テキストに対して、統一訓練層５１０の統一訓練を経た後、出力された語意特徴を接続層５２０を介して独立訓練層５３０における対応的なタスクサブ層に伝送することができる。例えば、語意理解タスクの入力テキストに対して、統一訓練層５１０を介して語意理解タスクに対する語意特徴を出力し、接続層５２０は該語意特徴を語意理解タスクサブ層５３１に入力して語意理解タスクに対する独立訓練を行う。各タスクサブ層の独立訓練を経た出力結果は第１の出力結果５０１である。

他方、入力テキストに対して、統一訓練層５１０の統一訓練を経た後、得られた語意特徴を第２の出力結果５０２とすることができる。異なる分岐タスクに対して、第２の出力結果５０２は異なる意味を示す。

連合損失計算層５４０は、第１の出力結果５０１及び第２の出力結果５０２に基づいて連合損失の計算を行うことができ、このように独立訓練の損失と統一訓練の損失を総合して、上記自然言語処理モデルの全体的な損失とし、上記自然言語処理モデルのパラメータを調整し、自然言語処理モデルをより速く収束させ、自然言語処理モデルの訓練効率を向上させることができる。

図６は、本開示の一実施例に係る自然言語処理方法のフローチャートである。
図６に示すように、該自然言語処理方法６００は操作Ｓ６１０～Ｓ６２０を含む。

操作Ｓ６１０において、予め設定された分岐タスクに対する処理すべきテキストを取得する。

操作Ｓ６２０において、自然言語処理モデルを使用して処理すべきテキストに対して、マルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得し、語意特徴に基づいて予め設定された分岐タスクに対する特徴学習を行い、予め設定された分岐タスクに対する処理結果を取得する。

マルチタスクは、複数の分岐タスクを含み、予め設定された分岐タスクは、複数の分岐タスクのうちの一つである。自然言語処理モデルは、上記自然言語処理モデルの訓練方法に従って訓練されたものである。

例えば、予め設定された分岐タスクは語意理解タスクであり、語意理解タスクに対する入力テキストを上記自然言語処理モデルに入力し、自然言語処理モデルは入力テキストに対してマルチタスクに対する語意学習を行い、語意理解タスクに対する語意特徴を出力し、該語意特徴に基づいて語意理解タスクに対する独立特徴学習を行い、語意理解タスクに対する処理結果を取得し、該処理結果は入力テキストの語意を示すことができる。

本開示の実施例によれば、入力テキストに対してマルチタスクに対する語意学習を行って得られた語意特徴に対して分岐タスクに対する特徴学習を行い、マルチタスクの同じ部分に共同学習を行い、異なる部分に独立学習を行う目的を達成し、自然言語処理に対する各分岐タスクの処理効果を向上させる。

図７は、本開示の一実施例に係る自然言語処理モデルの訓練装置のブロック図である。
図７に示すように、該自然言語処理モデルの訓練装置７００は、語意学習モジュール７０１、特徴学習モジュール７０２、損失計算モジュール７０３及びパラメータ調整モジュール７０４を含むことができる。

語意学習モジュール７０１は、入力テキストに対してマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得するために用いられ、ここで、マルチタスクは複数の分岐タスクを含む。

特徴学習モジュール７０２は、語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を得るために用いられる。

損失計算モジュール７０３は、各分岐タスクに対する第１の出力結果に基づいて、各分岐タスクに対する損失を計算するために用いられる。

パラメータ調整モジュール７０４は、各分岐タスクに対する損失に基づいて、自然言語処理モデルのパラメータを調整するために用いられる。

本開示の実施例によれば、マルチタスクは、語意理解のための第１の分岐タスクを含み、特徴学習モジュール７０２は、第１の決定ユニット及び第２の決定ユニットを含む。

第１の決定ユニットは、入力テキストにおける各字に対して、語意特徴に基づいて字の前に位置する前文情報及び字の後に位置する後文情報を決定するために用いられる。

第２の決定ユニットは、前文情報及び後文情報に基づいて、入力テキストの語意理解情報を決定し、第１の分岐タスクに対する第１の出力結果とするために用いられる。

本開示の実施例によれば、特徴学習モジュール７０２はさらに第１の計算ユニット及び第３の決定ユニットを含む。

第１の計算ユニットは、前文情報と後文情報に基づいて、入力テキストにおける複数の語句間の論理距離を計算し、第１の分岐タスクに対する第１の出力結果とするために用いられる。

第３の決定ユニットは、前文情報及び後文情報に基づいて、入力テキストにおける複数の語句間の論理順序を決定し、第１の分岐タスクに対する第１の出力結果とするために用いられる。

本開示の実施例によれば、マルチタスクは、言語を生成するための第２の分岐タスクを含み、特徴学習モジュール７０２は、第４の決定ユニット及び予測ユニットを含む。

第４の決定ユニットは、入力テキストにおける各字に対して、語意特徴に基づいて字の前に位置する前文情報を決定するために用いられる。

予測ユニットは、前文情報に基づいて、字の後に位置する後文情報を予測し、第２の分岐タスクに対する第１の出力結果とするために用いられる。

本開示の実施例によれば、該自然言語処理モデルの訓練装置７００はさらに決定モジュールを含む。

決定モジュールは、語意特徴に基づいて各分岐タスクに対する第２の出力結果をそれぞれ決定するために用いられる。

本開示の実施例によれば、損失計算モジュール７０３は、各分岐タスクに対する第１の出力結果及び第２の出力結果に基づいて、各分岐タスクに対する損失を計算するために用いられる。

本開示の実施例によれば、マルチタスクは、語意を理解するための第１の分岐タスクを含み、決定モジュールは、語意特徴に基づいて、入力テキストの語意理解情報を決定し、第１の分岐タスクに対する第２の出力結果とすることと、語意特徴に基づいて、入力テキストにおける複数の語句間の論理距離を計算し、第１の分岐タスクに対する第２の出力結果とすることと、語意特徴に基づいて、入力テキストにおける複数の語句間の論理順序を決定し、第１の分岐タスクに対する第２の出力結果とすることと、のうちの一つを実行するために用いられ、
本開示の実施例によれば、マルチタスクは、言語を生成するための第２の分岐タスクを含み、決定モジュールは、入力テキストにおける各字に対して、語意特徴に基づいて字の後文情報を予測し、第２の分岐タスクに対する第２の出力結果とするために用いられる。

図８は、本開示の他の実施例に係る自然言語処理装置のブロック図である。
図８に示すように、該自然言語処理８００は、取得モジュール８０１及び処理モジュール８０２を含むことができる。

取得モジュール８０１は、予め設定された分岐タスクに対する処理すべきテキストを取得することに用いられる。

処理モジュール８０２は、自然言語処理モデルを用いて処理すべきテキストにマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得し、語意特徴に基づいて予め設定された分岐タスクに対する特徴学習を行い、予め設定された分岐タスクに対する処理結果を取得することに用いられる。

本開示の実施例によれば、マルチタスクは、予め設定された分岐タスクを含み、自然言語処理モデルは上記自然言語処理モデルに基づく訓練方法を利用して訓練される。

本開示の実施例によれば、本開示は、さらに電子機器、読み取り可能な記憶媒体及びコンピュータプログラムを提供する。

図９は、本開示の実施例を実施することが可能な電子機器９００の一例を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器は、さらに様々な形式の移動装置を表示することができ、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図９に示すように、機器９００は、計算ユニット９０１を含み、それはリードオンリーメモリ（ＲＯＭ）９０２に記憶されたコンピュータプログラム又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ９０３には、さらに機器９００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット９０１、ＲＯＭ９０２、およびＲＡＭ９０３は、バス９０４により相互に接続されている。入出力（I/O）インタフェース９０５もバス９０４に接続されている。

機器９００における複数の部品は、Ｉ／Ｏインタフェース９０５に接続され、例えばキーボード、マウスなどの入力ユニット９０６と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット９０７と、例えば磁気ディスク、光ディスクなどの記憶ユニット９０８と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット９０９と、を含む。通信ユニット９０９は、機器９００がインターネット等のコンピュータネットワークや各種の電気通信ネットワークを介して他の機器と情報／データをやり取りすることを可能にする。

計算ユニット９０１は、各種の処理や演算能力を有する汎用及び／又は専用の処理モジュールであってもよい。計算ユニット９０１のいくつかの例示としては、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、各種専用の人工知能（ＡＩ）計算チップ、各種機械学習モデルアルゴリズムを運行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット９０１は、上記の各方法及び処理、例えば自然言語処理モデルの訓練方法及び／又は自然言語処理方法を実行する。例えば、いくつかの実施例において、自然言語処理モデルの訓練方法及び／又は自然言語処理方法は、コンピュータソフトウェアプログラムとして実現され、それは、機械可読媒体、例えば記憶ユニット９０８に有形定的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介して機器９００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ９０３にロードされかつ計算ユニット９０１により実行される場合、上記した自然言語処理モデルの訓練方法及び／又は自然言語処理方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット９０１は他の任意の適切な方式（例えば、ファームウェア）により自然言語処理モデルの訓練方法及び／又は自然言語処理方法を実行するように構成されてもよい。

本明細書で説明したシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、チップ上システムのシステム（ＳＯＣ）、負荷プログラマブルロジック装置（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下を含むことができ、少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び／又は解釈される一つ又は複数のコンピュータプログラムに実施され、該プログラム可能なプロセッサは、専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは一つ又は複数のコーディング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードは、プロセッサ又はコントローラにより実行される時にフローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、機械に完全に実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして機械で部分的に実行されかつ遠隔機械で部分的に実行され、又は完全に遠隔機械又はサーバで実行されることができる。

本開示の明細書において、機械可読媒体は、有形の媒体であってもよく、それは命令実行システム、装置又は装置が使用され又は命令実行システム、装置又は装置が組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外的、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むがそれらに限定されない。機械可読記憶媒体のより具体的な例示は一つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、便利式コンパクトフラッシュ（登録商標）メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（声音入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバとは一般的に離れており、通常は通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、対応するコンピュータ上で動作し、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。

理解すべきことは、以上に示した様々な形式のフローを使用し、ステップを改めてソーティングし、追加し、又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよい。本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきように、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることである。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得することと、
前記語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を得ることと、
各分岐タスクに対する第１の出力結果に基づいて、各分岐タスクに対する損失を計算することと、
各分岐タスクに対する損失に基づいて、前記自然言語処理モデルのパラメータを調整することと、を含む
自然言語処理モデルの訓練方法。
前記マルチタスクは、語意理解のための第１の分岐タスクを含み、
前記語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を得ることは、
前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の前に位置する前文情報及び前記字の後に位置する後文情報を決定することと、
前記前文情報及び後文情報に基づいて、前記入力テキストの語意理解情報を決定し、前記第１の分岐タスクに対する第１の出力結果とすることと、を含む
請求項１に記載の方法。
前記前文情報及び後文情報に基づいて、前記入力テキストにおける複数の語句間の論理距離を計算し、第１の分岐タスクに対する第１の出力結果とすることをさらに含む
請求項２に記載の方法。
前記前文情報及び後文情報に基づいて、前記入力テキストにおける複数の語句間の論理順序を決定し、第１の分岐タスクに対する第１の出力結果とすることをさらに含む
請求項２に記載の方法。
前記マルチタスクは、言語生成のための第２の分岐タスクを含み、
前記語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を得ることは、前記入力テキストにおける各字に対して、
前記語意特徴に基づいて前記字の前に位置する前文情報を決定することと、
前記前文情報に基づいて、前記字の後に位置する後文情報を予測し、第２の分岐タスクに対する第１の出力結果とすることと、を含む
請求項１に記載の方法。
前記語意特徴に基づいて各分岐タスクに対する第２の出力結果をそれぞれ決定することをさらに含む
請求項１に記載の方法。
各分岐タスクに対する第１の出力結果に基づいて、各分岐タスクに対する損失を計算することは、
前記各分岐タスクに対する第１の出力結果及び第２の出力結果に基づいて、各分岐タスクに対する損失を計算することを含む
請求項６に記載の方法。
前記マルチタスクは、語意理解のための第１の分岐タスクを含み、
前記語意特徴に基づいて各分岐タスクに対する第２の出力結果をそれぞれ決定することは、
前記語意特徴に基づいて、前記入力テキストの語意理解情報を決定し、第１の分岐タスクに対する第２の出力結果とすることと、
前記語意特徴に基づいて、前記入力テキストにおける複数の語句間の論理距離を計算し、第１の分岐タスクに対する第２の出力結果とすることと、
前記語意特徴に基づいて、前記入力テキストにおける複数の語句間の論理順序を決定し、第１の分岐タスクに対する第２の出力結果とすること、のうちの１つを含む
請求項６に記載の方法。
前記マルチタスクは、言語生成のための第２の分岐タスクを含み、
前記語意特徴に基づいて各分岐タスクに対する第２の出力結果をそれぞれ決定することは、
前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の後文情報を予測し、第２の分岐タスクに対する第２の出力結果とすることを含む
請求項６に記載の方法。
予め設定された分岐タスクに対する処理すべきテキストを取得することと、
自然言語処理モデルを使用して前記処理すべきテキストに対してマルチタスクに対する語意学習を行い、前記マルチタスクに対する語意特徴を取得し、前記語意特徴に基づいて前記予め設定された分岐タスクに対する特徴学習を行い、前記予め設定された分岐タスクに対する処理結果を取得することと、を含み、
ここで、前記マルチタスクは、前記予め設定された分岐タスクを含み、前記自然言語処理モデルは、請求項１～９のいずれか一項に記載の方法によって訓練される
自然言語処理方法。
入力テキストに対して、複数の分岐タスクを含むマルチタスクに対する語意学習を行い、マルチタスクに対する語意特徴を取得する語意学習モジュールと、
前記語意特徴に基づいて各分岐タスクに対する特徴学習をそれぞれ行い、各分岐タスクに対する第１の出力結果を得る特徴学習モジュールと、
各分岐タスクに対する第１の出力結果に基づいて、各分岐タスクに対する損失を計算する損失計算モジュールと、
各分岐タスクに対する損失に基づいて、前記自然言語処理モデルのパラメータを調整するパラメータ調整モジュールと、を含む
自然言語処理モデルの訓練装置。
前記マルチタスクは、語意理解のための第１の分岐タスクを含み、
前記特徴学習モジュールは、
前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の前に位置する前文情報及び前記字の後に位置する後文情報を決定する第１の決定ユニットと、
前記前文情報及び後文情報に基づいて、前記入力テキストの語意理解情報を決定し、前記第１の分岐タスクに対する第１の出力結果とする第２の決定ユニットと、を含む
請求項１１に記載の装置。
前記特徴学習モジュールは、
前記前文情報及び後文情報に基づいて、前記入力テキストにおける複数の語句間の論理距離を計算し、第１の分岐タスクに対する第１の出力結果とする第１の計算ユニットをさらに含む
請求項１２に記載の装置。
前記特徴学習モジュールは、
前記前文情報及び後文情報に基づいて、前記入力テキストにおける複数の語句間の論理順序を決定し、第１の分岐タスクに対する第１の出力結果とする第３の決定ユニットをさらに含む
請求項１２に記載の装置。
前記マルチタスクは、言語生成のための第２の分岐タスクを含み、
前記特徴学習モジュールは、
前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の前に位置する前文情報を決定する第４の決定ユニットと、
前記前文情報に基づいて、前記字の後に位置する後文情報を予測し、第２の分岐タスクに対する第１の出力結果とする予測ユニットと、を含む
請求項１１に記載の装置。
前記語意特徴に基づいて各分岐タスクに対する第２の出力結果をそれぞれ決定する決定モジュールをさらに含む
請求項１１に記載の装置。
前記損失計算モジュールは、前記各分岐タスクに対する第１の出力結果及び第２の出力結果に基づいて、各分岐タスクに対する損失を計算する
請求項１６に記載の装置。
前記マルチタスクは、語意理解のための第１の分岐タスクを含み、
前記決定モジュールは、
前記語意特徴に基づいて、前記入力テキストの語意理解情報を決定し、第１の分岐タスクに対する第２の出力結果とすることと、
前記語意特徴に基づいて、前記入力テキストにおける複数の語句間の論理距離を計算し、第１の分岐タスクに対する第２の出力結果とすることと、
前記語意特徴に基づいて、前記入力テキストにおける複数の語句間の論理順序を決定し、第１の分岐タスクに対する第２の出力結果とすること、のうちの１つを実行する
請求項１６に記載の装置。
前記マルチタスクは、言語生成のための第２の分岐タスクを含み、
前記決定モジュールは、前記入力テキストにおける各字に対して、前記語意特徴に基づいて前記字の後文情報を予測し、第２の分岐タスクに対する第２の出力結果とする
請求項１６に記載の装置。
予め設定された分岐タスクに対する処理すべきテキストを取得する取得モジュールと、
自然言語処理モデルを使用して前記処理すべきテキストに対してマルチタスクに対する語意学習を行い、前記マルチタスクに対する語意特徴を取得し、前記語意特徴に基づいて前記予め設定された分岐タスクに対する特徴学習を行い、前記予め設定された分岐タスクに対する処理結果を取得する処理モジュールと、を含み、
ここで、前記マルチタスクは、前記予め設定された分岐タスクを含み、前記自然言語処理モデルは、請求項１～９のいずれか一項に記載の方法によって訓練される
自然言語処理装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項１～１０のいずれか一項に記載の方法を実行することができる
電子機器。
コンピュータ命令が、前記コンピュータに請求項１～１０のいずれか一項に記載の方法を実行させるために用いられる
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行される時に請求項１～１０のいずれか一項に記載の方法を実現する
コンピュータプログラム。