JP2023025126A

JP2023025126A - 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム

Info

Publication number: JP2023025126A
Application number: JP2022190230A
Authority: JP
Inventors: 鵬至高; peng zhi Gao; 中軍何; Zhongjun He; 芝李; Zhi Li; 華呉; Hua Wu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-11-29
Publication date: 2023-02-21
Also published as: CN114564971B; US20230088360A1; CN114564971A

Abstract

【課題】深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。【解決手段】トレーニング方法は、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得ることと、第１の出力値及び第２の出力値に基づいて、正則化関数値を特定することと、正則化関数値に基づいて、深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得ることと、を含む。【選択図】図１

Description

本開示は、人工知能の技術分野に関し、特に自然言語処理の技術分野及び機械翻訳の技術分野に関する。より具体的に、本開示は、深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供している。

自然言語処理の技術に基づいて、一種の自然言語テキストを別種の自然言語テキストに翻訳することができる。

本開示は、深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供している。

第１の局面によれば、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得ることと、前記第１の出力値及び第２の出力値に基づいて、正則化関数値を特定することと、前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得ることとを含む、深層学習モデルのトレーニング方法を提供している。

いくつかの実施例において、前記サンプルソースデータは第１の言語テキストデータを含み、前記サンプルターゲットデータは第２の言語テキストデータを含む。

第２の局面によれば、テキストデータを深層学習モデルに入力して、処理結果を得ることを含むテキストデータ処理方法であって、前記深層学習モデルは本開示により提供される方法を用いてトレーニングされるものである、テキストデータ処理方法を提供している。

第３の局面によれば、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得るための第１の取得モジュールと、前記第１の出力値及び第２の出力値に基づいて、正則化関数値を特定するための特定モジュールと、前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得るための第１の調整モジュールとを含む、深層学習モデルのトレーニング装置を提供している。

第４の局面によれば、テキストデータを深層学習モデルに入力して、処理結果を得るための第４の取得モジュールを含むテキストデータ処理装置であって、前記深層学習モデルは本開示により提供される装置を用いてトレーニングされるものである、テキストデータ処理装置を提供している。

第５の局面によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信接続されたメモリとを含む電子機器であって、メモリには、少なくとも１つのプロセッサにより実行可能な命令が記憶されており、命令は、少なくとも１つのプロセッサが本開示により提供される方法を実行することができるように、少なくとも１つのプロセッサにより実行される、電子機器を提供している。

第６の局面によれば、コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、該コンピュータ命令は、コンピュータに本開示により提供される方法を実行させるために用いられる、記憶媒体を提供している。

第７の局面によれば、プロセッサにより実行される場合に、本開示により提供される方法を実現するコンピュータプログラムを提供している。

理解されるべきこととして、本部分に記載されたコンテンツは、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

図面の簡単な説明
ここで、図面は、本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。図２は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。図３は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。図４は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。図５は、本開示の一実施例による深層学習モデルのトレーニング方法の原理図である。図６は、本開示の一実施例によるテキストデータ処理方法のフローチャートである。図７は、本開示の一実施例による深層学習モデルのトレーニング装置のブロック図である。図８は、本開示の一実施例によるテキスト処理装置のブロック図である。図９は、本開示の一実施例による深層学習モデルのトレーニング方法及び／又はテキストデータ処理方法を適用できる電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

自然言語処理の技術に基づいて、深層学習モデルを用いて翻訳することができる。トレーニングデータ量を増やす方式によって、関連する深層学習モデルの性能を向上させることができる。しかし、既存のコーパストレーニングサンプルの数は限られているので、深層学習モデルの性能をさらに向上させることは困難である。

図１は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。

図１に示すように、該方法１００は操作Ｓ１１０～操作Ｓ１３０を含んでよい。
操作Ｓ１１０において、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得る。

本開示の実施例において、サンプルソースデータは第１の言語テキストデータを含んでよく、サンプルターゲットデータは第２の言語テキストデータを含んでよい。

例えば、第１の言語テキストデータは一種の自然言語のテキストであってもよく、第２の言語テキストデータは別種の自然言語のテキストであってもよい。

例えば、サンプルソースデータは中国語テキストデータであり、サンプルターゲットデータは英語テキストデータである。一つの例示において、サンプルソースデータｘは「今天天气很好（今日はいい天気です）」であり、サンプルターゲットデータｙは「Ｔｈｅｗｅａｔｈｅｒｉｓｇｏｏｄｔｏｄａｙ」である。

また例えば、サンプルソースデータｘを深層学習モデルに入力して、第１の基準出力値f（x，y；Θ）を得てよい。また、サンプルターゲットデータｙを深層学習モデルに入力して、第２の基準出力値f（y，x；Θ）を得てよい。第１の基準出力値f（x，y；Θ）及び第２の基準出力値f（y，x；Θ）を、第１の出力値としてよい。一つの例示において、Θは深層学習モデルの１つ又は複数のパラメータを表してもよい。

本開示の実施例において、サンプルソースデータを処理して、処理後のサンプルソースデータを得てよい。サンプルターゲットデータを処理して、処理後のサンプルターゲットデータを得てよい。

例えば、処理後のサンプルソースデータｘ＿ｐｒｏｃを深層学習モデルに入力して、第１の処理後の出力値f（x＿proc，y＿proc；Θ）を得てよい。処理後のサンプルターゲットデータｙ＿ｐｒｏｃを深層学習モデルに入力して、第２の処理後の出力値f（y＿proc，x＿proc；Θ）を得てよい。

第１の処理後の出力値f（x＿proc，y＿proc；Θ）及び第２の処理後の出力値f（y＿proc，x＿proc；Θ）を、第２の出力値としてよい。

操作Ｓ１２０において、第１の出力値及び第２の出力値に基づいて、正則化関数値を特定する。

例えば、第１の基準出力値f（x，y；Θ）と第１の処理後の出力値f（x＿proc，y＿proc；Θ）との間の差異を特定してよく、並びに、第２の基準出力値f（y，x；Θ）と第２の処理後の出力値f（y＿proc，x＿proc；Θ）との間の差異を特定してよい。この２つの差異に基づいて、正則化関数値を特定してよい。一つの例示において、正則化関数値は一致性の正則化関数値であってもよい。

操作Ｓ１３０において、正則化関数値に基づいて、深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得る。

例えば、正則化関数値が所定条件を満たすように、深層学習モデルのパラメータを調整することにより、プリトレーニングされた深層学習モデルを得てよい。

本開示の実施例により、深層学習モデルの性能をさらに向上させることができる。特に、双方向プリトレーニングに基づく深層学習モデルの性能を向上させることができる。

いくつかの実施例において、上述した所定条件は、所定閾値よりも小さいことであってよい。

いくつかの実施例において、各種のテキストデータ拡張方式を用いて、サンプルソースデータ又はサンプルターゲットデータに基づいて、処理後のサンプルソースデータ又は処理後のサンプルターゲットデータを得てよい。

いくつかの実施例において、前記サンプルソースデータは第１の言語テキストデータを含み、前記サンプルターゲットデータは第２の言語テキストデータを含む。例えば、第１の言語テキストデータは中国語テキストデータであってもよく、第２の言語テキストデータは英語テキストデータであってもよい。また例えば、第１の言語テキストデータは英語テキストデータであってもよく、第２の言語テキストデータは中国語テキストデータであってもよい。

図２は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。

図２に示すように、方法２１０は深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得てよい。以下、操作Ｓ２１１～操作Ｓ２１４を参照して詳細的に説明する。

操作Ｓ２１１において、サンプルソースデータ及びサンプルターゲットデータを深層学習モデルにそれぞれ入力して、第１の出力値として第１の基準出力値及び第２の基準出力値を得る。

例えば、上述したように、サンプルソースデータｘを深層学習モデルに入力して、第１の基準出力値f（x，y；Θ）を得てよい。また、サンプルターゲットデータｙを深層学習モデルに入力して、第２の基準出力値f（y，x；Θ）を得てよい。

操作Ｓ２１２において、サンプルソースデータ及びサンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得る。

例えば、サンプルソースデータｘである「今天天气很好（今日はいい天気です）」に対して、ワードセグメンテーションを行って、複数のソースデータセグメントを得る。一つの例示において、複数のソースデータセグメントのうち１つのソースデータセグメントは「天气（天気）」である。

例えば、サンプルターゲットデータｙである「Ｔｈｅｗｅａｔｈｅｒｉｓｇｏｏｄｔｏｄａｙ」に対して、ワードセグメンテーションを行って、複数のターゲットデータセグメントを得る。一つの例示において、複数のターゲットデータセグメントのうち１つのターゲットデータセグメントは「ｔｏｄａｙ」。

操作Ｓ２１３において、複数のソースデータセグメントのうちの少なくとも一部及び複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得る。

例えば、ソースデータセグメントである「天气（天気）」をマスキングして、マスキングされたソースデータｘ＿ｃｕｔを得てよい。ターゲットデータセグメントである「ｔｏｄａｙ」をマスキングして、マスキングされたターゲットデータｙ＿ｃｕｔを得てよい。

操作Ｓ２１４において、マスキングされたソースデータ及びマスキングされたターゲットデータを深層学習モデルにそれぞれ入力して、第２の出力値として第１のマスキング出力値及び第２のマスキング出力値を得る。

例えば、マスキングされたソースデータｘ＿ｃｕｔを深層学習モデルに入力して、第１のマスキング出力値f（x＿cut，y＿cut；Θ）を得てよい。マスキングされたターゲットデータｙ＿ｃｕｔを深層学習モデルに入力して、第２のマスキング出力値f（y＿cut，x＿cut；Θ）を得てよい。

なお、操作Ｓ２１１が実行されてから、操作Ｓ２１２～操作Ｓ２１４が実行されてよい。しかし、本開示の実施例はこれに限定されるものではなく、これら２組の操作は、他の順序で実行されてもよく、例えば、操作Ｓ２１１と操作Ｓ２１２～操作Ｓ２１４とが並行に実行されてもよく、または、操作Ｓ２１２～操作Ｓ２１４が実行されてから、操作Ｓ２１１が実行されてもよい。

いくつかの実施例において、サンプルソースデータは第１のラベルを有する。サンプルターゲットデータは第２のラベルを有する。

図３は、本開示の別の実施例による深層学習モデルのトレーニング方法のフローチャートである。

図３に示すように、方法３２０は第１の出力値及び第２の出力値に基づいて、正則化関数値を特定してよい。以下、操作Ｓ３２１乃至操作Ｓ３２５を参照して詳細的に説明する。

操作Ｓ３２１において、第１の基準出力値と第１のマスキング出力値との間の第１の相対エントロピーを特定する。

一つの例示において、KL(*)はＫｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散関数である。
操作Ｓ３２２において、第２の基準出力値と第２のマスキング出力値との間の第２の相対エントロピーを特定する。

操作Ｓ３２３において、第１の基準出力値と第１のラベルとの間の第１のクロスエントロピーを特定する。

操作Ｓ３２４において、第２の基準出力値と第２のラベルとの間の第２のクロスエントロピーを特定する。

操作Ｓ３２５において、第１のクロスエントロピー、第２のクロスエントロピー、第１の相対エントロピー及び第２の相対エントロピーに基づいて、正則化関数値を特定する。

例えば、以下の数式で正則化関数値Ｅを特定してよい。

図４は、本開示の別の実施例による深層学習モデルのトレーニング方法のフローチャートである。

図４に示すように、該方法４００は上述した操作Ｓ１３０の後で実行されてよい。以下、操作Ｓ４４０～操作Ｓ４６０を参照して詳細的に説明する。

操作Ｓ４４０において、サンプルソースデータをプリトレーニングされた深層学習モデルに入力して、第３の基準出力値を得る。

例えば、サンプルソースデータｘをプリトレーニングされた深層学習モデルに入力して、第３の基準値f(x，y；Θ')を得る。Θ'はプリトレーニングされた深層学習モデルの１つ又は複数のパラメータを表してもよい。

操作Ｓ４５０において、マスキングされたソースデータをプリトレーニングされた深層学習モデルに入力して、第３のマスキング出力値を得る。

例えば、マスキングされたソースデータｘ＿ｃｕｔをプリトレーニングされた深層学習モデルに入力して、第３のマスキング出力値f（x_cut，y_cut；Θ'）を得る。

操作Ｓ４６０において、第３の基準出力値及び第３のマスキング出力値に基づいて、プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得る。

例えば、以下の数式で関数値Ｅ’を特定してよい。

本開示の実施例により、プリトレーニングされた深層学習モデルを単方向に微調整することにより、モデルの性能をさらに向上させることができる。

図５は、本開示の別の実施例による深層学習モデルのトレーニング方法の原理図である。

図５に示すように、深層学習モデル５００は処理層５１０及びＳｏｆｔｍａｘ層５２０を含む。処理層５１０は自己注意層５１１及びフィードフォワード層５１２を含んでよい。

例えば、深層学習モデル５００は、それぞれ、上述したサンプルソースデータｘである「今天天气很好（今日はいい天気です）」及び上述したサンプルターゲットデータｙである「Ｔｈｅｗｅａｔｈｅｒｉｓｇｏｏｄｔｏｄａｙ」を入力として、第１の基準出力値f（x，y；Θ）及び第２の基準出力値f（y，x；Θ）を出力してよい。

また例えば、深層学習モデルは、それぞれ、上述したマスキングされたソースデータｘ＿ｃｕｔ及び上述したマスキングされたターゲットデータｙ＿ｃｕｔを入力として、第１のマスキング出力値f（x＿cut，y＿cut；Θ）及び第２のマスキング出力値f（y＿cut，x＿cut；Θ）を出力してよい。一つの例示において、マスキングされたソースデータｘ＿ｃｕｔは、例えば、「今天＜ＭＡＳＫ＞很好（今日はいい＜ＭＡＳＫ＞です）」であってもよい。マスキングされたターゲットデータｙ＿ｃｕｔは、例えば、「Ｔｈｅｗｅａｔｈｅｒｉｓｇｏｏｄ＜ＭＡＳＫ＞」であってもよい。

一つの例示において、自己注意層５１１及びフィードフォワード層５１２は、順にサンプルソースデータｘを処理して、１つの中間出力値を出力してよい。Ｓｏｆｔｍａｘ層５２０は、該中間出力値を処理して、第１の基準出力値f（x，y；Θ）を出力する。類似的に、深層学習モデル５００は、サンプルターゲットデータｙ、マスキングされたソースデータｘ＿ｃｕｔ及びマスキングされたターゲットデータｙ＿ｃｕｔを処理してもよい。

図６は、本開示の一実施例によるテキストデータ処理方法のフローチャートである。
図６に示すように、該方法６００は操作Ｓ６１０を含んでよい。

操作Ｓ６１０において、テキストデータを深層学習モデルに入力して、処理結果を得る。

例えば、深層学習モデルは本開示により提供される方法を用いてトレーニングされるものである。

例えば、中国語テキストデータを深層学習モデルに入力して、得られた処理結果が英語テキストデータである。また例えば、英語テキストデータを深層学習モデルに入力して、得られた処理結果が中国語テキストデータである。

図７は、本開示の一実施例による深層学習モデルのトレーニング装置のブロック図である。

図７に示すように、該装置７００は第１の取得モジュール７１０、特定モジュール７２０及び第１の調整モジュール７３０を含んでよい。

第１の取得モジュール７１０は、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得るためのものである。

特定モジュール７２０は、前記第１の出力値及び第２の出力値に基づいて、正則化関数値を特定するためのものである。

第１の調整モジュール７３０は、前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得るためのものである。

いくつかの実施例において、前記第１の取得モジュールは、前記サンプルソースデータ及び前記サンプルターゲットデータを前記深層学習モデルにそれぞれ入力して、第１の出力値として第１の基準出力値及び第２の基準出力値を得るための第１の取得サブモジュールと、前記サンプルソースデータ及び前記サンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得るためのワードセグメンテーションサブモジュールと、前記複数のソースデータセグメントのうちの少なくとも一部及び前記複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得るためのマスキングモジュールと、前記マスキングされたソースデータ及び前記マスキングされたターゲットデータを前記深層学習モデルにそれぞれ入力して、第２の出力値として第１のマスキング出力値及び第２のマスキング出力値を得るための第２の取得サブモジュールとを含む。

いくつかの実施例において、前記特定モジュールは、前記第１の基準出力値と前記第１のマスキング出力値との間の第１の相対エントロピーを特定するための第１の特定サブモジュールと、前記第２の基準出力値と前記第２のマスキング出力値との間の第２の相対エントロピーを特定するための第２の特定サブモジュールと、前記第１の相対エントロピー及び第２の相対エントロピーに基づいて、前記正則化関数値を特定するための第３の特定サブモジュールとを含む。

いくつかの実施例において、前記サンプルソースデータは第１のラベルを有し、前記サンプルターゲットデータは第２のラベルを有しており、前記特定モジュールは、前記第１の基準出力値と前記第１のラベルとの間の第１のクロスエントロピーを特定するための第５の特定サブモジュールと、前記第２の基準出力値と前記第２のラベルとの間の第２のクロスエントロピーを特定するための第６の特定サブモジュールと、前記第１のクロスエントロピー、前記第２のクロスエントロピー、前記第１の相対エントロピー及び前記第２の相対エントロピーに基づいて、前記正則化関数値を特定するための第７の特定サブモジュールとをさらに含む。

いくつかの実施例において、装置７００は、前記サンプルソースデータを前記プリトレーニングされた深層学習モデルに入力して、第３の基準出力値を得るための第２の取得モジュールと、前記マスキングされたソースデータを前記プリトレーニングされた深層学習モデルに入力して、第３のマスキング出力値を得るための第３の取得モジュールと、前記第３の基準出力値及び前記第３のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得るための第２の調整モジュールとをさらに含む。

いくつかの実施例において、前記第２の調整モジュールは、前記第３の基準出力値と第１のラベルとの間の第３のクロスエントロピーを特定するための第８の特定サブモジュールと、前記第３の基準出力値と前記第３のマスキング出力値との間の第３の相対エントロピーを特定するための第９の特定サブモジュールと、前記第３のクロスエントロピー及び前記第３の相対エントロピーに基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整するための調整サブモジュールとを含む。

図８は、本開示の別の実施例によるテキストデータ処理装置のブロック図である。
図８に示すように、該装置８００は第４の取得モジュール８１０を含んでよい。

第４の取得モジュール８１０は、テキストデータを深層学習モデルに入力して、処理結果を得るためのものである。

ただし、前記深層学習モデルは本開示により提供される装置を用いてトレーニングされるものである。

本開示の技術案では、係られたユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用などの処理は、いずれも関連法律や法規の規定に合致しており、必要なセキュリティ対策を採用しており、公序良俗に反していない。本開示の技術案において、ユーザ個人情報を取得又は収集する前に、ユーザの許可又は同意を得ている。

本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。

図９は、本開示の実施例を実行することが可能な例示的電子機器９００の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似的な演算装置である。本明細書に示された部品、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定しない。

図９に示すように、機器９００は、計算手段９０１を含み、計算手段９０１は、リードオンリーメモリ（ＲＯＭ）９０２に記憶されたコンピュータプログラム又は記憶手段９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。ＲＡＭ９０３には、さらに機器９００の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段９０１、ＲＯＭ９０２、及びＲＡＭ９０３は、バス９０４を介して相互に接続される。入出力（Ｉ／Ｏ）インターフェース９０５も、バス９０４に接続される。

機器９００における複数の部品は、Ｉ／Ｏインターフェース９０５に接続され、例えばキーボード、マウス等の入力手段９０６と、例えば様々な種類のディスプレイ、スピーカ等の出力手段９０７と、例えば磁気ディスク、光ディスク等の記憶手段９０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段９０９とを含む。通信手段９０９は、機器９００がインターネット等のコンピュータネットワーク及び／又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。

計算手段９０１は、処理及び演算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算手段９０１の幾つかの例として、中央処理ユニット（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段９０１は、前文で記載された各方法及び処理、例えば深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法を実行する。例えば、幾つかの実施例において、深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法は、例えば記憶ユニット９０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信手段９０９を介して機器９００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ９０３にロードされて計算手段９０１により実行される場合、前文に記載の深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法の１つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段９０１は、他の任意の適切な方式（例えば、ファームウェアを介する）により深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法を実行するように構成されてもよい。

本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び／又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ-ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得ることと、
前記第１の出力値及び第２の出力値に基づいて、正則化関数値を特定することと、
前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得ることとを含む、
深層学習モデルのトレーニング方法。
前記深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得ることは、
前記サンプルソースデータ及び前記サンプルターゲットデータを前記深層学習モデルにそれぞれ入力して、第１の出力値として第１の基準出力値及び第２の基準出力値を得ることと、
前記サンプルソースデータ及び前記サンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得ることと、
前記複数のソースデータセグメントのうちの少なくとも一部及び前記複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得ることと、
前記マスキングされたソースデータ及び前記マスキングされたターゲットデータを前記深層学習モデルにそれぞれ入力して、第２の出力値として第１のマスキング出力値及び第２のマスキング出力値を得ることとを含む、
請求項１に記載の方法。
前記第１の出力値及び第２の出力値に基づいて、正則化関数値を特定することは、
前記第１の基準出力値と前記第１のマスキング出力値との間の第１の相対エントロピーを特定することと、
前記第２の基準出力値と前記第２のマスキング出力値との間の第２の相対エントロピーを特定することと、
前記第１の相対エントロピー及び第２の相対エントロピーに基づいて、前記正則化関数値を特定することとを含む、
請求項２に記載の方法。
前記サンプルソースデータは第１のラベルを有し、前記サンプルターゲットデータは第２のラベルを有しており、
前記第１の出力値及び第２の出力値に基づいて、正則化関数値を特定することは、
前記第１の基準出力値と前記第１のラベルとの間の第１のクロスエントロピーを特定することと、
前記第２の基準出力値と前記第２のラベルとの間の第２のクロスエントロピーを特定することと、
前記第１のクロスエントロピー、前記第２のクロスエントロピー、前記第１の相対エントロピー及び前記第２の相対エントロピーに基づいて、前記正則化関数値を特定することとをさらに含む、
請求項３に記載の方法。
前記サンプルソースデータを前記プリトレーニングされた深層学習モデルに入力して、第３の基準出力値を得ることと、
前記マスキングされたソースデータを前記プリトレーニングされた深層学習モデルに入力して、第３のマスキング出力値を得ることと、
前記第３の基準出力値及び前記第３のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得ることとをさらに含む、
請求項２～４のいずれか一項に記載の方法。
前記第３の基準出力値及び前記第３のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得ることは、
前記第３の基準出力値と第１のラベルとの間の第３のクロスエントロピーを特定することと、
前記第３の基準出力値と前記第３のマスキング出力値との間の第３の相対エントロピーを特定することと、
前記第３のクロスエントロピー及び前記第３の相対エントロピーに基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整することとを含む、
請求項５に記載の方法。
テキストデータを深層学習モデルに入力して、処理結果を得ることを含むテキストデータ処理方法ものであって、
前記深層学習モデルは、請求項１～６のいずれか一項に記載の方法を用いてトレーニングされるものである、
テキストデータ処理方法。
深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第１の出力値及び第２の出力値を得るための第１の取得モジュールと、
前記第１の出力値及び第２の出力値に基づいて、正則化関数値を特定するための特定モジュールと、
前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得るための第１の調整モジュールとを含む、
深層学習モデルのトレーニング装置。
前記第１の取得モジュールは、
前記サンプルソースデータ及び前記サンプルターゲットデータを前記深層学習モデルにそれぞれ入力して、第１の出力値として第１の基準出力値及び第２の基準出力値を得るための第１の取得サブモジュールと、
前記サンプルソースデータ及び前記サンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得るためのワードセグメンテーションサブモジュールと、
前記複数のソースデータセグメントのうちの少なくとも一部及び前記複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得るためのマスキングモジュールと、
前記マスキングされたソースデータ及び前記マスキングされたターゲットデータを前記深層学習モデルにそれぞれ入力して、第２の出力値として第１のマスキング出力値及び第２のマスキング出力値を得るための第２の取得サブモジュールとを含む、
請求項８に記載の装置。
前記特定モジュールは、
前記第１の基準出力値と前記第１のマスキング出力値との間の第１の相対エントロピーを特定するための第１の特定サブモジュールと、
前記第２の基準出力値と前記第２のマスキング出力値との間の第２の相対エントロピーを特定するための第２の特定サブモジュールと、
前記第１の相対エントロピー及び第２の相対エントロピーに基づいて、前記正則化関数値を特定するための第３の特定サブモジュールとを含む、
請求項９に記載の装置。
前記サンプルソースデータは第１のラベルを有し、前記サンプルターゲットデータは第２のラベルを有しており、
前記特定モジュールは、
前記第１の基準出力値と前記第１のラベルとの間の第１のクロスエントロピーを特定するための第５の特定サブモジュールと、
前記第２の基準出力値と前記第２のラベルとの間の第２のクロスエントロピーを特定するための第６の特定サブモジュールと、
前記第１のクロスエントロピー、前記第２のクロスエントロピー、前記第１の相対エントロピー及び前記第２の相対エントロピーに基づいて、前記正則化関数値を特定するための第７の特定サブモジュールとをさらに含む、
請求項１０に記載の装置。
前記サンプルソースデータを前記プリトレーニングされた深層学習モデルに入力して、第３の基準出力値を得るための第２の取得モジュールと、
前記マスキングされたソースデータを前記プリトレーニングされた深層学習モデルに入力して、第３のマスキング出力値を得るための第３の取得モジュールと、
前記第３の基準出力値及び前記第３のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得るための第２の調整モジュールとをさらに含む、
請求項９～１１のいずれか一項に記載の装置。
前記第２の調整モジュールは、
前記第３の基準出力値と第１のラベルとの間の第３のクロスエントロピーを特定するための第８の特定サブモジュールと、
前記第３の基準出力値と前記第３のマスキング出力値との間の第３の相対エントロピーを特定するための第９の特定サブモジュールと、
前記第３のクロスエントロピー及び前記第３の相対エントロピーに基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整するための調整サブモジュールとを含む、
請求項１２に記載の装置。
テキストデータを深層学習モデルに入力して、処理結果を得るための第４の取得モジュールを含むテキストデータ処理装置であって、
前記深層学習モデルは、請求項８～１３のいずれか一項に記載の装置を用いてトレーニングされるものである、
テキストデータ処理装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、
前記命令は、前記少なくとも１つのプロセッサが請求項１～７のいずれか一項に記載の方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１～７のいずれか一項に記載の方法を実行させるために用いられる、
記憶媒体。
プロセッサにより実行される場合に、請求項１～７のいずれか一項に記載の方法を実現するコンピュータプログラム。