JP7297038B2

JP7297038B2 - ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体

Info

Publication number: JP7297038B2
Application number: JP2021197896A
Authority: JP
Inventors: ル，ウシャン; リュウ，ジャシャン; チン，シュイ; フェン，シクン; ワン，シュオファン; ソン，ウ; ファン，シウェイ; ヘ，ジンソウ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-04
Filing date: 2021-12-06
Publication date: 2023-06-23
Anticipated expiration: 2041-12-06
Also published as: KR102635800B1; US20220129753A1; JP2022020006A; KR20210131923A; EP4033415A1; CN113033801A

Description

本出願は、ＮＬＰ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、自然言語処理）、深層学習などのＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）技術の分野に関し、具体的には、本出願は、ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体を提供する。

世界経済の急速な発展、国際文化交流の日々の頻繁化、及びインターネット技術の高速発展に伴い、グローバル情報化の度合いが急速に高まっており、従来の人工翻訳に依存する方法はすでに人々の日常の異言語間コミュニケーションの需要を満たすことができなくなっている。

機械翻訳モデルは１つの言語を別の言語に自動翻訳することができ、言語障害の問題を解決する最も有力な手段の１つである。機械翻訳モデルの予測効果を向上させるために、機器翻訳モデルをトレーニングする必要がある。

本出願は、ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体を提供する。

本出願の一様態によれば、ニューラルネットワークモデルの事前トレーニング方法を提供し、事前トレーニングデータを取得するステップと、前記事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするステップであって、前記第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有するステップと、前記初期ニューラルネットワークモデルの損失値を取得するステップと、前記初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で前記初期ニューラルネットワークモデルの事前トレーニングを続けるステップであって、前記第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有するステップと、を含む。

本出願の別の様態によれば、ニューラルネットワークモデルの事前トレーニング装置を提供し、事前トレーニングデータを取得するための第１取得モジュールと、前記事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするための第１トレーニングモジュールであって、前記第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有する第１トレーニングモジュールと、前記初期ニューラルネットワークモデルの損失値を取得するための第２取得モジュールと、前記初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で前記初期ニューラルネットワークモデルの事前トレーニングを続けるための第２トレーニングモジュールであって、前記第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する第２トレーニングモジュールと、を含む。

本出願の別の様態によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが本出願の上記実施例によって提供されるニューラルネットワークモデルの事前トレーニング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本出願の別の様態によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本出願の上記実施例によって提出されるニューラルネットワークモデルの事前トレーニング方法を実行させる。

本出願の別の様態によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本出願の上記実施例によって提出されるニューラルネットワークモデルの事前トレーニング方法を実現する。

なお、この部分に記載されている内容は、本出願の実施例の肝心または重要な特徴を特定することを意図しておらず、本出願の範囲を限定することも意図していないことを理解されたい。本出願の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
異なるパラメータ量でモデルに対応する困惑度合い曲線の概略図である。従来のＴｒａｎｓｆｏｒｍｅｒを基本構造とする事前トレーニング済み言語モデルによって使用されたＰｏｓｔＬＮの概略構造図である。異なるパラメータ量でモデルに対応する収束効果の概略図である。Ｔｒａｎｓｆｏｒｍｅｒを基本構造とする事前トレーニング済み言語モデルによって使用されたＰｒｅＬＮの概略構造図である。異なるパラメータ量の規模でモデルに対応する収束効果の概略図である。本出願の実施例１によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。本出願の実施例２によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。本出願の実施例３によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。本出願の実施例において非循環構造と循環構造をそれぞれ使用してモデルを事前にトレーニングした後の収束効果の概略図である。本出願の実施例４によって提供されるニューラルネットワークモデルの事前トレーニング装置の概略構造図である。本出願の実施例を実行するための例示的な電子機器の概略ブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒ、機器翻訳に基づく双方向エンコード表現）を代表とする事前トレーニング済み言語モデルが出現した後、Ｔｒａｎｓｆｏｒｍｅｒを基本構造とする事前トレーニング済み言語モデルは自然言語処理の分野の研究ホットスポットになっている。研究によって発見されたように、事前トレーニング済み言語モデルの規模を増大し、例えば、モデルのパラメータ量またはモデルの層数を増大することによって、モデルの予測効果を向上させることができる。

一例として、モデルのパラメータ量をそれぞれ３５５Ｍ、２．５Ｇ、８．３Ｇとして、モデルをトレーニングして得られたモデルの困惑度合いは図１に示され、ここで、３５５Ｍのパラメータ量に対応する困惑度合い曲線は曲線１であり、２．５Ｇのパラメータ量に対応する困惑度合い曲線は曲線２であり、８．３Ｇのパラメータ量に対応する困惑度合い曲線は曲線３である。ここで、困惑度合いが低いほど、モデルの効果がよくなる。図１から分かるように、モデルのパラメータ量が増加する時、モデルの困惑度合いが低減し、モデルの予測効果が向上する。

従来のＴｒａｎｓｆｏｒｍｅｒを基本構造とする事前トレーニング済み言語モデルによって使用された構造は、図２に示すようなＰｏｓｔＬＮ（Ｐｏｓｔ－ＬａｙｅｒＮｏｒｍ、ポスト－層正規化）構造であり、しかしながら、モデルパラメータ量が大きい場合、例えば７００Ｍより大きい場合、ＰｏｓｔＬＮ構造によってモデルがトレーニング時に収束できなくなる可能性があり、すなわちモデルの安定性が低い。例えば、パラメータ量を７５２Ｍ及び３３６Ｍとして、ＰｏｓｔＬＮ構造のモデルをトレーニングして、モデルが収束できるか否かを決定し、取得されたテスト結果は図３に示され、ここで、７５２Ｍのパラメータ量に対応するテスト結果は図３の曲線２に示され、３３６Ｍのパラメータ量に対応するテスト結果は図３の曲線３に示される。これから分かるように、パラメータ量が７５２Ｍである場合、ＰｏｓｔＬＮ構造のモデルは正常に収束できないが、パラメータ量が３３６Ｍである場合、ＰｏｓｔＬＮ構造のモデルは正常に収束できる。

関連技術では、モデルの構造を図４に示すようなＰｒｅＬＮ（Ｐｒｅ－ＬａｙｅｒＮｏｒｍ、プリー－層正規化）構造に改善でき、パラメータ量を７５２Ｍとして、ＰｒｅＬＮ構造のモデルをトレーニングして、モデルが収束できるか否かを決定し、取得されたテスト結果は図３の曲線１に示される。図３の曲線１から分かるように、パラメータ量が７５２Ｍである場合、ＰｒｅＬＮ構造のモデルは正常に収束できる。

図２及び図４におけるＭＬＰは多層パーセプトロン（Ｍｕｌｔｉ－ＬａｙｅｒｅｄＰｅｒｃｅｐｔｒｏｎ）を指し、ＬａｙｅｒＮｏｒｍは層正規化を指し、ＳｅｌｆＡｔｔｅｎｔｉｏｎは自己注意力メカニズムを指す。

ＰｒｅＬＮ構造のモデルが、モデルパラメータ量が多い場合収束できるが、収束可能なパラメータ範囲内では、ＰｏｓｔＬＮ構造のモデルの収束効果はいずれもＰｒｅＬＮ構造のモデルより優れている。

一例として、ＰｏｓｔＬＮ構造のモデル、ＰｒｅＬＮ構造のモデル及びＲｅａｌＦｒｏｍｅｒ（ＲｅｓｉｄｕａｌＡｔｔｅｎｔｉｏｎＴｒａｎｓｆｏｒｍｅｒ、残差を注意力行列に転送するＴｒａｎｓｆｏｒｍｅｒモデル）をそれぞれ、小規模パラメータ量（ＢＥＲＴ－Ｓｍａｌｌ）、基本規模パラメータ量（ＢＥＲＴ－Ｂａｓｅ）、大規模パラメータ量（ＢＥＲＴ－Ｌａｒｇｅ）と超大規模パラメータ量（ＢＥＲＴ－ＸＬａｒｇｅ）でテストし、取得されたテスト結果は図５に示される。図５から分かるように、収束可能なパラメータ範囲内では、ＰｏｓｔＬＮ構造のモデルの収束効果はＰｒｅＬＮ構造のモデルより優れている。

モデルのパラメータ量を向上させるとともに、モデルの収束効果をさらに向上させることを実現するために、本出願は、ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体を提案する。

以下、図面を参照して、本出願の実施例に係るニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体について説明する。

図６は、本出願の実施例１によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。

本出願の実施例は、当該ニューラルネットワークモデルの事前トレーニング方法がニューラルネットワークモデルの事前トレーニング装置に配置されることを例として説明し、当該ニューラルネットワークモデルの事前トレーニング装置は、電子機器がニューラルネットワークモデルの事前トレーニング機能を実行できるように、任意の電子機器に適用されてもよい。

ここで、電子機器は任意の計算能力を備えたデバイス、例えばＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パーソナルコンピューター）、モバイルデバイス、サーバなどであってもよく、モバイルデバイスは、例えば携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント、ウェアデバイス、車載デバイスなどの様々なオペレーティングシステム、タッチスクリーン及び／又はディスプレイを備えたハードウェアデバイスであってもよい。

図６に示すように、当該ニューラルネットワークモデルの事前トレーニング方法は以下のステップ６０１～６０４を含むことができる。

ステップ６０１において、事前トレーニングデータを取得する。

本出願の実施例では、事前トレーニングデータは翻訳需要に応じて選択されてもよく、ここで、各事前トレーニングデータのテキスト情報は同じ言語に属するテキスト情報であってもよいし、異なる言語に属するテキスト情報であってもよい。

例えば、当該ニューラルネットワークモデルが、第１言語のテキスト情報を第２言語のテキスト情報に翻訳する場合、第１言語と第２言語とは異なり、例えば第１言語は中国語であってもよく、第２言語は英語であってもよく、または、第１言語は中国語であってもよく、第２言語はフランス語であってもよいなど、この時、各事前トレーニングデータのテキスト情報の言語は第１言語であってもよい。

また例えば、当該ニューラルネットワークモデルが第１言語と第２言語の相互翻訳のシナリオで使用される場合、例えば中国語と英語の相互翻訳シナリオで使用される場合、事前トレーニングデータは、第１言語に属するテキスト情報を含む事前トレーニングデータ、及び／又は、第２言語に属するテキスト情報を含む事前トレーニングデータを含むことができ、すなわち各事前トレーニングデータのテキスト情報の言語は第１言語であってもよいし、第２言語であってもよいし、第１言語と第２言語を同時に含んでもよく、本出願はこれに対して限定しない。

本出願の実施例では、翻訳需要に応じて、事前トレーニングデータを選択することができる。例えば、事前トレーニングデータをオンラインで収集してもよく、または事前トレーニングデータをオフラインで収集してもよく、または事前トレーニングデータは電子機器にローカルに記憶されているテキスト情報であってもよく、または既存のテストデータセットから事前トレーニングデータを取得してもよく、本出願の実施例はこれに対して限定しない。

ステップ６０２において、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有する。

なお、本出願では、初期ニューラルネットワークモデルの構造を限定せず、例えば、当該初期ニューラルネットワークモデルの構造はＴｒａｎｓｆｏｒｍｅｒ構造であってもよく、または、他の構造であってもよい。また、本出願では、初期ニューラルネットワークモデルのタイプも限定せず、例えば、当該初期ニューラルネットワークモデルは自己注意力モデル、循環ニューラルネットワークモデルを含むことができるが、これらに限定されない。

本出願の実施例では、事前トレーニングデータが取得された後、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングすることができ、第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有する。

これにより、初期ニューラルネットワークモデルが事前にトレーニングされる場合、各層の隠れ層が同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができる。

ステップ６０３において、初期ニューラルネットワークモデルの損失値を取得する。

本出願の実施例では、事前トレーニング中に、初期ニューラルネットワークモデルの損失値を取得することができ、損失値が小さいほど、モデルのトレーニング効果がよくなる。

ステップ６０４において、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する。

本出願の実施例では、予め設定された閾値は予め設定され、実際のアプリケーション需要とアプリケーションシナリオに応じて当該予め設定された閾値を設定することができる。なお、予め設定された閾値は小さい値である。

本出願の実施例では、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、この時、モデルの予測精度は相対的に高く、この時、モデルの予測効果をさらに向上させるために、第２トレーニング方式で、初期ニューラルネットワークモデルの事前トレーニングを続けることができ、第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する。

これにより、事前トレーニングを２つの段階に分け、第１段階では各層の隠れ層によって同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができ、第２段階では各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することで、モデルの予測効果を向上させることができ、すなわち、当該方法は、モデルの収束効果を向上させるだけでなく、モデルの予測効果も向上させることができる。

本出願の実施例に係るニューラルネットワークモデルの事前トレーニング方法は、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有し、初期ニューラルネットワークモデルの損失値を取得し、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する。これにより、事前トレーニングを２つの段階に分け、第１段階では各層の隠れ層が同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができ、第２段階では各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することで、モデルの予測効果を向上させることができ、すなわち、当該方法は、モデルの収束効果を向上させるだけでなく、モデルの予測効果も向上させることができる。

本出願の実施例の１つの可能な実現形態では、事前トレーニングデータの一部のデータをマスクし、初期ニューラルネットワークモデルによってマスク位置にある文字を予測し、初期ニューラルネットワークモデルの予測結果とマスク位置にある実際のマスク文字に基づいて、初期ニューラルネットワークモデルの損失値を生成することができる。以下、図７と組み合わせて、上記プロセスを詳細に説明する。

図７は、本出願の実施例２によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。

図７に示すように、当該ニューラルネットワークモデルの事前トレーニング方法は、以下のステップ７０１～７０６を含むことができる。

ステップ７０１において、事前トレーニングデータを取得する。

ステップ７０２において、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有する。

ステップ７０１～７０２の実行プロセスは前記実施例におけるステップ１０１～１０２の実行プロセスを参照することができ、ここでは説明を省略する。

ステップ７０３において、事前トレーニングデータの一部のデータをマスクする。

本出願の実施例では、マスクとは、事前トレーニングデータの一部のデータ（例えば１つまたは複数の文字）を除去することを意味してもよく、または、マスクとは、事前トレーニングデータの一部のデータを置き換えることを意味してもよく、本出願はこれを限定しない。

一例として、マスク処理が事前トレーニングデータの一部のデータを除去することであることを例として、事前トレーニングデータが「元宵節の風習は団子を食べることである」であると仮定すると、当該事前トレーニングデータの「宵」を除去し、マスクされた事前トレーニングデータが「元節の風習は団子を食べる」であることを取得する。

別の例として、マスク処理が事前トレーニングデータの一部のデータを置き換えることであることを例として、事前トレーニングデータが「元宵節の風習は団子を食べることである」であると仮定すると、当該事前トレーニングデータの「宵」を「旦」に置き換え、マスクされた事前トレーニングデータが「元旦節の風習は団子を食べることである」であることを取得する。

ステップ７０４において、マスクされた事前トレーニングデータを初期ニューラルネットワークモデルに入力して予測して、予測値を生成する。

ここで、予測値とは、初期ニューラルネットワークモデルによって予測して得られたマスク位置にあるマスク文字を意味する。

本出願の実施例では、初期ニューラルネットワークモデルを使用してマスクされた事前トレーニングデータを予測して、マスク位置にある予測値を生成することができる。

依然として上記一例として、初期ニューラルネットワークモデルが、マスクされた事前トレーニングデータを予測し、生成された予測値は「宵」であってもよい。

ステップ７０５において、予測値とマスク位置の初期値を比較して、初期ニューラルネットワークモデルの損失値を生成する。

本出願の実施例では、初期値とは、事前トレーニングデータにおけるマスク位置にある実際のマスク文字を意味する。

本出願の実施例の１つの可能な実現形態では、予測値と初期値との間の相違に基づいて、初期ニューラルネットワークモデルの損失値を生成することができ、ここで、初期ニューラルネットワークモデルの損失値は上記相違と正の関係にあり、すなわち、予測値と初期値との間の相違が小さいほど、損失値が小さくなる。

本出願の実施例の１つの可能な実現形態では、類似度計算アルゴリズムに基づいて、予測値と初期値との間の類似度を算出し、類似度に基づいて、予測値と初期値との間の相違を決定することができ、ここで、類似度は相違と逆の関係にある。その後、予測値と初期値との間の相違に基づいて、初期ニューラルネットワークモデルの損失値を決定することができ、損失値は上記相違と正の関係にある。

なお、初期ニューラルネットワークモデルが、マスクされた事前トレーニングデータを予測し、予測が正しい場合、すなわち予測によって取得されたマスク文字と実際のマスク文字との間の相違が０である場合、モデルの予測精度は高く、予測が正しくない場合、予測によって取得されたマスク文字と実際のマスク文字の間の相違が大きく、この時、モデルの予測効果はよくない、初期ニューラルネットワークモデルを事前にトレーニングして、モデルの予測効果を向上させる必要がある。

ステップ７０６において、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する。

ステップ７０６の実行プロセスは上記実施例におけるステップ１０４の実行プロセスを参照することができ、ここでは説明を省略する。

本出願の実施例に係るニューラルネットワークモデルの事前トレーニング方法は、初期ニューラルネットワークモデルの予測結果とマスク位置にある実際のマスク文字に基づいて、初期ニューラルネットワークモデルの損失値を生成し、生成された損失値が初期ニューラルネットワークモデルの予測精度を示すことができ、これによって損失値で示された初期ニューラルネットワークモデルの予測精度が低い場合、モデルを事前にトレーニングし続けて、モデルの予測効果を向上させることができる。

本出願の実施例の１つの可能な実現形態では、第１トレーニング方式で初期ニューラルネットワークモデルをトレーニングする場合、循環の方式でニューラルネットワークモデルを事前にトレーニングして、モデルの予測効果を向上させることができる。以下、図８と組み合わせて、上記プロセスを詳細に説明する。

図８は、本出願の実施例３によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。

図８に示すように、当該ニューラルネットワークモデルの事前トレーニング方法は、以下のステップ８０１～８０６を含むことができる。

ステップ８０１において、事前トレーニングデータを取得する。

ステップ８０１の実行プロセスは上記実施例におけるステップ１０１の実行プロセスを参照することができ、ここでは説明を省略する。

ステップ８０２において、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、隠れ層の層数を取得する。

本出願の実施例では、初期ニューラルネットワークモデルの構造に基づいて、隠れ層の層数を決定することができる。

例えば、初期ニューラルネットワークモデルがＴｒａｎｓｆｏｒｍｅｒ構造の事前トレーニング済み言語モデルであることを例として、通常、Ｔｒａｎｓｆｏｒｍｅｒ構造の事前トレーニング済み言語モデルはＬ（ｎ）Ｈ（ｍ）で表されてもよく、ここで、ＬはＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒの層数であり、すなわちｎ層のＴｒａｎｓｆｏｒｍｅｒＥｃｏｄｅｒが積層され、すなわち隠れ層の層数はｎである。ＨはＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒのＨｉｄｄｅｎｓｉｚｅであり、すなわち隠れ層の幅はｍである。初期ニューラルネットワークモデルがＬ４８Ｈ４０９６であることを例として、当該初期ニューラルネットワークモデルは、４８層の隠れ層を有し、且つ隠れ層の幅Ｈｉｄｄｅｎｓｉｚｅが４０９６であるＴｒａｎｓｆｏｒｍｅｒモデルである。

ステップ８０３において、隠れ層の層数に基づいて、第１トレーニング方式で循環する循環回数を生成する。

ここで、第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有する。

本出願の実施例では、第１トレーニング方式で循環トレーニングする循環回数は、隠れ層の層数に基づいて決定されてもよい。ここで、上記循環回数は隠れ層の層数と正の関係にあり、すなわち、隠れ層の層数が大きいほど、循環回数が多くなり、これによってモデルの予測精度を向上させる。例えば、上記循環回数は隠れ層の層数と同じであってもよい。

ステップ８０４において、循環回数に基づいて、第１トレーニング方式で初期ニューラルネットワークモデルに対して循環事前トレーニングを行う。

本出願の実施例では、循環回数に基づいて、第１トレーニング方式で初期ニューラルネットワークモデルに対して循環事前トレーニングを行うことができる。選択可能に、循環回数をＮとしてマークする。

本出願の実施例の１つの可能な実現形態では、最初回の循環の時、各層の隠れ層は初期の隠れ層パラメータを共有の隠れ層パラメータとして事前にトレーニングでき、事前トレーニング中に、各層の隠れ層は自体で生成された勾配値を上記共有の隠れ層パラメータに累算でき、すなわち各層の隠れ層は共に共有の隠れ層パラメータを修正でき、モデルの最初回の循環の出力を第２回の循環の入力とし、第２回の循環の時、各層の隠れ層は更新された共有の隠れ層パラメータを使用して事前にトレーニングでき、事前トレーニング中に、各層の隠れ層は引き続き自体で生成された勾配値を更新された共有の隠れ層パラメータに累算でき、すなわち各層の隠れ層は共に更新された共有の隠れ層パラメータを修正でき、モデルの第２回の循環の出力を第３回の循環の入力とし、以下同様であり、モデルの第Ｎ－１回の循環の出力を第Ｎ回の循環の入力とし、第Ｎ－１回の循環中に、各層の隠れ層は自体で生成された勾配値を共有の隠れ層パラメータに累算して取得された更新された共有の隠れ層パラメータを、第Ｎ回の循環で各層の隠れ層によって使用された共有の隠れ層パラメータとし、これによって第Ｎ回の循環の時、各層の隠れ層は更新された共有の隠れ層パラメータを使用して事前にトレーニングでき、事前トレーニング中に、各層の隠れ層は引き続き自体で生成された勾配値を上記更新された共有の隠れ層パラメータに累算でき、すなわち各層の隠れ層は引き続き共に更新された共有の隠れ層パラメータを修正できる。これにより、毎回の循環中に、共有の隠れ層パラメータを修正することにより、モデルのトレーニング効果を確保することができる。

本出願では、多層隠れ層は同一の隠れ層パラメータを共有し、多層の計算は入力と出力を循環することによって行われ、すなわち、最初回の循環の入力はｉｎｐｕｔ＿１であり、出力はｏｕｔｐｕｔ＿１であり、第２回の循環の入力はｏｕｔｐｕｔ＿１であり、出力はｏｕｔｐｕｔ＿２であり、第３回の循環の入力はｏｕｔｐｕｔ＿２であり、出力はｏｕｔｐｕｔ＿３であり、以下同様であり、最終回の出力はｏｕｔｐｕｔ＿Ｎである。これにより、循環の方式を使用して、初期ニューラルネットワークモデルを事前にトレーニングし、循環構造を使用するため、勾配の間の依存が強くなり、勾配が消えるという問題をある程度解決することができ、これによって収束の有効性を確保する。

ステップ８０５において、初期ニューラルネットワークモデルの損失値を取得する。

ステップ８０５の実行プロセスは上記実施例におけるステップ１０３の実行プロセスを参照することができ、または、上記実施例におけるステップ２０３～２０５の実行プロセスを参照することもでき、ここでは説明を省略する。

ステップ８０６において、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する。

本出願の実施例の１つの可能な実現形態では、第２トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングする場合、各層の隠れ層で使用された初期隠れ層パラメータは、第１トレーニング方式で初期ニューラルネットワークモデルに対して最後の循環事前トレーニングを行った後、取得された更新された共有の隠れ層パラメータであってもよい。第２トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続ける中に、各層の隠れ層がそれぞれ使用された隠れ層パラメータを更新することができる。

すなわち、多層循環構造を展開させることができ、各層の隠れ層の間で隠れ層パラメータを循環共有しなくなり、各層の隠れ層の初期パラメータは前に共有されたパラメータであってもよく、事前トレーニング中に、各層の隠れ層はいずれも自体の勾配に基づいて、それぞれに対応する隠れ層パラメータを更新する。

以上のように、本出願では、事前トレーニングは２つの段階を含み、第１段階では、循環共有パラメータ構造を使用して、初期ニューラルネットワークモデルを事前にトレーニングし、毎回の循環中に、各隠れ層が自体で生成された勾配を共有の同一の隠れ層パラメータに累算することで、パラメータの更新を安定させ、モデルが正常に収束できるようにする。循環共有パラメータ構造を使用して、初期ニューラルネットワークモデルをトレーニングすることで、当該モデルの損失値が相対的に低いレベルにあるようにする。第２段階では、循環共有パラメータ構造を展開させ、収束するまでモデルをトレーニングし続ける。

一例として、初期ニューラルネットワークモデルの構造がＰｏｓｔＬＮ構造であることを例として、非循環構造と循環構造をそれぞれ使用して当該モデルをトレーニングし、トレーニングされた収束効果は図９に示される。これから分かるように、循環構造を使用してモデルをトレーニングすることにより、収束効果がよくなり、パラメータ量が大きい場合、ＰｏｓｔＬＮ構造のモデルが正常に収束できないという問題を効果的に解決することができる。

本出願の実施例に係るニューラルネットワークモデルの事前トレーニングは、循環方式で初期ニューラルネットワークモデルを事前にトレーニングし、循環構造を使用するため、勾配間の依存が強くなり、勾配が消えるという問題をある程度解決でき、これによって収束の有効性を確保する。

本出願の実施例では、ＡＩ分野における深層学習方法または機器学習方法を使用して、初期ニューラルネットワークモデルを事前にトレーニングすることができ、ここで、人工知能は、コンピュータに人間のある思惟過程と知能行為（学習、推理、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能のハードウェア技術は一般にセンサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの主要な方向を含む。

上記図６～図８の実施例によって提供されるニューラルネットワークモデルの事前トレーニング方法に対応し、本出願は、ニューラルネットワークモデルの事前トレーニング装置をさらに提供し、本出願の実施例によって提供されるニューラルネットワークモデルの事前トレーニング装置が上記図６～図８の実施例によって提供されるニューラルネットワークモデルの事前トレーニング方法に対応するため、ニューラルネットワークモデルの事前トレーニング方法の実施形態は本出願の実施例によって提供されるニューラルネットワークモデルの事前トレーニング装置にも適用され、本出願の実施例では詳細に説明しない。

図１０は、本出願の実施例４によって提供されるニューラルネットワークモデルの事前トレーニング装置の概略構造図である。

図１０に示すように、当該ニューラルネットワークモデルの事前トレーニング装置１０００は、第１取得モジュール１０１０、第１トレーニングモジュール１０２０、第２取得モジュール１０３０及び第２トレーニングモジュール１０４０を含むことができる。

第１取得モジュール１０１０は、事前トレーニングデータを取得する。

第１トレーニングモジュール１０２０は、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有する。

第２取得モジュール１０３０は、初期ニューラルネットワークモデルの損失値を取得する。

第２トレーニングモジュール１０４０は、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する。

本出願の実施例の１つの可能な実現形態では、第１トレーニングモジュール１０２０は、隠れ層の層数を取得し、隠れ層の層数に基づいて、第１トレーニング方式で循環する循環回数を生成し、循環回数に基づいて、第１トレーニング方式で初期ニューラルネットワークモデルに対して循環事前トレーニングを行う。

本出願の実施例の１つの可能な実現形態では、循環回数は隠れ層の層数である。

本出願の実施例の１つの可能な実現形態では、各層の隠れ層が自体で生成された勾配値を共有の隠れ層パラメータに累算する。

本出願の実施例の１つの可能な実現形態では、第２取得モジュール１０３０は、具体的に、事前トレーニングデータの一部のデータをマスクし、マスクされた事前トレーニングデータを初期ニューラルネットワークモデルに入力して予測して、予測値を生成し、予測値とマスク位置の初期値を比較して損失値を生成する。

本出願の実施例に係るニューラルネットワークモデルの事前トレーニング装置は、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有し、初期ニューラルネットワークモデルの損失値を取得し、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する。これにより、事前トレーニングを２つの段階に分け、第１段階では、各層の隠れ層が同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができ、第２段階では、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することで、モデルの予測効果を向上させることができ、すなわち、当該装置は、モデルの収束効果を向上させるだけでなく、モデルの予測効果も向上させることができる。

上記実施例を実現するために、本出願は、電子機器をさらに提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが本出願の上記のいずれかの実施例によって提案されるニューラルネットワークモデルの事前トレーニング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

上記実施例を実現するために、本出願は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令は、コンピュータに本出願の上記のいずれかの実施例によって提案されるニューラルネットワークモデルの事前トレーニング方法を実行させる。

上記実施例を実現するために、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本出願の上記のいずれかの実施例によって提案されるニューラルネットワークモデルの事前トレーニング方法を実現する。

本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。

図１１は、本出願の実施例を実行するための例示的な電子機器１１００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図１１に示すように、デバイス１１００は、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ，読み取り専用メモリ）１１０２に記憶されたコンピュータプログラムまたは記憶ユニット１１０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ランダムアクセス／メモリ）１１０３にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行する計算ユニット１１０１を含む。ＲＡＭ１１０３には、機器１１００の動作に必要な各種プログラムやデータも記憶されてもよい。計算ユニット１１０１、ＲＯＭ１１０２、およびＲＡＭ１１０３は、バス１１０４を介して互いに接続されておる。パスには、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）インターフェース１１０５も接続されている。

機器１１００の複数のコンポーネントはＩ／Ｏインターフェース１１０５に接続され、キーボード、マウスなどの入力ユニット１１０６、各タイプのディスプレイ、スピーカなどの出力ユニット１１０７、磁気ディスク、光ディスクなどの記憶ユニット１１０８、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１１０９を含む。通信ユニット１１０９は、デバイス１１００が、インタネットなどのコンピュータネットワーク及び／又は各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット１１０１は、処理および計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット１１０１のいくつかの例は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，中央処理ユニット）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、グラフィック処理ユニット）（ＧＰＵ）、各種の専用のＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、デジタル信号プロセッサ）、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１１０１は、上記ニューラルネットワークモデルの事前トレーニング方法を実行する。例えば、在いくつかの実施例では、上記ニューラルネットワークモデルの事前トレーニング方法を、記憶ユニット１１０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はＲＯＭ１１０２および／または通信ユニット１１０９を介してデバイス１１００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ１１０３にロードされ、計算ユニット１１０１によって実行される場合、上記に記載されたニューラルネットワークモデルの事前トレーニング方法の１つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット１１０１は上記ニューラルネットワークモデルの事前トレーニング方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって配置されてもよい。

本明細書で記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，特定用途向け集積回路）、ＡＳＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰｒｏｄｕｃｔ，特定用途向け標準製品）、ＳＯＣ（ＳｙｓｔｅｍＯｎＣｈｉｐ，システムオンチップ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ，コンプレックス・プログラマブル・ロジック・デバイス）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本出願の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び／又はブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。

本出願のコンテキストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記内容のいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－Ｏｎｌｙ－Ｍｅｍｏｒｙ，消去可能プログラマブルリードオンリーメモリ）又はフラッシュメモリ、光ファイバ、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ，ポータブルコンパクトディスクリードオンリーメモリ）光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（Ｃａｔｈｏｄｅ－ＲａｙＴｕｂｅ，陰極線管）又はＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ，液晶ディスプレイ）モニタ）、及びキーボードとポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実行することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ローカルエリアネットワーク）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ワイドエリアネットワーク）、インターネット、ブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であって、従来の物理ホストとＶＰＳサービス（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ，仮想専用サーバ）に存在する管理の難しさ、業務拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、またはブロックチェーンと組み合わせたサーバであってもよい。

なお、人工知能は、コンピュータに人間のある思惟過程と知能行為（学習、推理、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能のハードウェア技術は、一般にセンサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの主要な方向を含む。

本出願の実施例の技術案によれば、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有し、初期ニューラルネットワークモデルの損失値を取得し、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する。これにより、事前トレーニングを２つの段階に分け、第１段階では、各層の隠れ層が同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができ、第２段階では、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することで、モデルの予測効果を向上させることができ、すなわち、当該方法は、モデルの収束効果を向上させるだけでなく、モデルの予測効果も向上させることができる。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解すべきである。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

コンピュータによって実行されるニューラルネットワークモデルの事前トレーニング方法であって、
事前トレーニングデータを取得するステップと、
前記事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするステップであって、前記第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有するステップと、
前記初期ニューラルネットワークモデルの損失値を取得するステップと、
前記初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で前記初期ニューラルネットワークモデルの事前トレーニングを続けるステップであって、前記第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有するステップと、を含む、
ことを特徴とするニューラルネットワークモデルの事前トレーニング方法。
前記第１トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするステップは、
前記隠れ層の層数を取得するステップと、
前記隠れ層の層数に基づいて、前記第１トレーニング方式で循環する循環回数を生成するステップと、
前記循環回数に基づいて、第１トレーニング方式で前記初期ニューラルネットワークモデルに対して循環事前トレーニングを行うステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記循環回数は前記隠れ層の層数である、
ことを特徴とする請求項２に記載の方法。
前記各層の隠れ層が、自体で生成された勾配値を前記共有の隠れ層パラメータに累算する、
ことを特徴とする請求項１に記載の方法。
前記初期ニューラルネットワークモデルの損失値を取得するステップは、
前記事前トレーニングデータの一部のデータをマスクするステップと、
マスクされた前記事前トレーニングデータを前記初期ニューラルネットワークモデルに入力して予測して、予測値を生成するステップと、
前記予測値とマスク位置の初期値を比較して、前記損失値を生成するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
ニューラルネットワークモデルの事前トレーニング装置であって、
事前トレーニングデータを取得するための第１取得モジュールと、
前記事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第１トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするための第１トレーニングモジュールであって、前記第１トレーニング方式では多層隠れ層が１つの隠れ層パラメータを共有する第１トレーニングモジュールと、
前記初期ニューラルネットワークモデルの損失値を取得するための第２取得モジュールと、
前記初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第２トレーニング方式で前記初期ニューラルネットワークモデルの事前トレーニングを続けるための第２トレーニングモジュールであって、前記第２トレーニング方式では多層隠れ層の各層がそれぞれ１つの隠れ層パラメータを有する第２トレーニングモジュールと、を含む、
ことを特徴とするニューラルネットワークモデルの事前トレーニング装置。
前記第１トレーニングモジュールが、
前記隠れ層の層数を取得し、
前記隠れ層の層数に基づいて、前記第１トレーニング方式で循環する循環回数を生成し、
前記循環回数に基づいて、第１トレーニング方式で前記初期ニューラルネットワークモデルに対して循環事前トレーニングを行う、
ことを特徴とする請求項６に記載の装置。
前記循環回数は前記隠れ層の層数である、
ことを特徴とする請求項７に記載の装置。
前記各層の隠れ層が、自体で生成された勾配値を前記共有の隠れ層パラメータに累算する、
ことを特徴とする請求項６に記載の装置。
前記第２取得モジュールが、
前記事前トレーニングデータの一部のデータをマスクし、
マスクされた前記事前トレーニングデータを前記初期ニューラルネットワークモデルに入力して予測して、予測値を生成し、
前記予測値とマスク位置の初期値を比較して、前記損失値を生成する、
ことを特徴とする請求項６に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～５のいずれかに記載のニューラルネットワークモデルの事前トレーニング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５のいずれかに記載のニューラルネットワークモデルの事前トレーニング方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～５のいずれかに記載のニューラルネットワークモデルの事前トレーニング方法を実現する、
ことを特徴とするコンピュータプログラム。