JP7297038B2 - ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体 - Google Patents

ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体 Download PDF

Info

Publication number
JP7297038B2
JP7297038B2 JP2021197896A JP2021197896A JP7297038B2 JP 7297038 B2 JP7297038 B2 JP 7297038B2 JP 2021197896 A JP2021197896 A JP 2021197896A JP 2021197896 A JP2021197896 A JP 2021197896A JP 7297038 B2 JP7297038 B2 JP 7297038B2
Authority
JP
Japan
Prior art keywords
training
neural network
network model
initial neural
hidden layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021197896A
Other languages
English (en)
Other versions
JP2022020006A (ja
Inventor
ル,ウシャン
リュウ,ジャシャン
チン,シュイ
フェン,シクン
ワン,シュオファン
ソン,ウ
ファン,シウェイ
ヘ,ジンソウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022020006A publication Critical patent/JP2022020006A/ja
Application granted granted Critical
Publication of JP7297038B2 publication Critical patent/JP7297038B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Description

本出願は、NLP(Natural Language Processing、自然言語処理)、深層学習などのAI(Artificial Intelligence、人工知能)技術の分野に関し、具体的には、本出願は、ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体を提供する。
世界経済の急速な発展、国際文化交流の日々の頻繁化、及びインターネット技術の高速発展に伴い、グローバル情報化の度合いが急速に高まっており、従来の人工翻訳に依存する方法はすでに人々の日常の異言語間コミュニケーションの需要を満たすことができなくなっている。
機械翻訳モデルは1つの言語を別の言語に自動翻訳することができ、言語障害の問題を解決する最も有力な手段の1つである。機械翻訳モデルの予測効果を向上させるために、機器翻訳モデルをトレーニングする必要がある。
本出願は、ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体を提供する。
本出願の一様態によれば、ニューラルネットワークモデルの事前トレーニング方法を提供し、事前トレーニングデータを取得するステップと、前記事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするステップであって、前記第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有するステップと、前記初期ニューラルネットワークモデルの損失値を取得するステップと、前記初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で前記初期ニューラルネットワークモデルの事前トレーニングを続けるステップであって、前記第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有するステップと、を含む。
本出願の別の様態によれば、ニューラルネットワークモデルの事前トレーニング装置を提供し、事前トレーニングデータを取得するための第1取得モジュールと、前記事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするための第1トレーニングモジュールであって、前記第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有する第1トレーニングモジュールと、前記初期ニューラルネットワークモデルの損失値を取得するための第2取得モジュールと、前記初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で前記初期ニューラルネットワークモデルの事前トレーニングを続けるための第2トレーニングモジュールであって、前記第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する第2トレーニングモジュールと、を含む。
本出願の別の様態によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本出願の上記実施例によって提供されるニューラルネットワークモデルの事前トレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本出願の別の様態によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本出願の上記実施例によって提出されるニューラルネットワークモデルの事前トレーニング方法を実行させる。
本出願の別の様態によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本出願の上記実施例によって提出されるニューラルネットワークモデルの事前トレーニング方法を実現する。
なお、この部分に記載されている内容は、本出願の実施例の肝心または重要な特徴を特定することを意図しておらず、本出願の範囲を限定することも意図していないことを理解されたい。本出願の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
異なるパラメータ量でモデルに対応する困惑度合い曲線の概略図である。 従来のTransformerを基本構造とする事前トレーニング済み言語モデルによって使用されたPostLNの概略構造図である。 異なるパラメータ量でモデルに対応する収束効果の概略図である。 Transformerを基本構造とする事前トレーニング済み言語モデルによって使用されたPreLNの概略構造図である。 異なるパラメータ量の規模でモデルに対応する収束効果の概略図である。 本出願の実施例1によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。 本出願の実施例2によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。 本出願の実施例3によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。 本出願の実施例において非循環構造と循環構造をそれぞれ使用してモデルを事前にトレーニングした後の収束効果の概略図である。 本出願の実施例4によって提供されるニューラルネットワークモデルの事前トレーニング装置の概略構造図である。 本出願の実施例を実行するための例示的な電子機器の概略ブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
BERT(Bidirectional Encoder Representations from Transformer、機器翻訳に基づく双方向エンコード表現)を代表とする事前トレーニング済み言語モデルが出現した後、Transformerを基本構造とする事前トレーニング済み言語モデルは自然言語処理の分野の研究ホットスポットになっている。研究によって発見されたように、事前トレーニング済み言語モデルの規模を増大し、例えば、モデルのパラメータ量またはモデルの層数を増大することによって、モデルの予測効果を向上させることができる。
一例として、モデルのパラメータ量をそれぞれ355M、2.5G、8.3Gとして、モデルをトレーニングして得られたモデルの困惑度合いは図1に示され、ここで、355Mのパラメータ量に対応する困惑度合い曲線は曲線1であり、2.5Gのパラメータ量に対応する困惑度合い曲線は曲線2であり、8.3Gのパラメータ量に対応する困惑度合い曲線は曲線3である。ここで、困惑度合いが低いほど、モデルの効果がよくなる。図1から分かるように、モデルのパラメータ量が増加する時、モデルの困惑度合いが低減し、モデルの予測効果が向上する。
従来のTransformerを基本構造とする事前トレーニング済み言語モデルによって使用された構造は、図2に示すようなPostLN(Post-Layer Norm、ポスト-層正規化)構造であり、しかしながら、モデルパラメータ量が大きい場合、例えば700Mより大きい場合、PostLN構造によってモデルがトレーニング時に収束できなくなる可能性があり、すなわちモデルの安定性が低い。例えば、パラメータ量を752M及び336Mとして、PostLN構造のモデルをトレーニングして、モデルが収束できるか否かを決定し、取得されたテスト結果は図3に示され、ここで、752Mのパラメータ量に対応するテスト結果は図3の曲線2に示され、336Mのパラメータ量に対応するテスト結果は図3の曲線3に示される。これから分かるように、パラメータ量が752Mである場合、PostLN構造のモデルは正常に収束できないが、パラメータ量が336Mである場合、PostLN構造のモデルは正常に収束できる。
関連技術では、モデルの構造を図4に示すようなPreLN(Pre-Layer Norm、プリー-層正規化)構造に改善でき、パラメータ量を752Mとして、PreLN構造のモデルをトレーニングして、モデルが収束できるか否かを決定し、取得されたテスト結果は図3の曲線1に示される。図3の曲線1から分かるように、パラメータ量が752Mである場合、PreLN構造のモデルは正常に収束できる。
図2及び図4におけるMLPは多層パーセプトロン(Multi-Layered Perceptron)を指し、LayerNormは層正規化を指し、Self Attentionは自己注意力メカニズムを指す。
PreLN構造のモデルが、モデルパラメータ量が多い場合収束できるが、収束可能なパラメータ範囲内では、PostLN構造のモデルの収束効果はいずれもPreLN構造のモデルより優れている。
一例として、PostLN構造のモデル、PreLN構造のモデル及びRealFromer(Residual Attention Transformer、残差を注意力行列に転送するTransformerモデル)をそれぞれ、小規模パラメータ量(BERT-Small)、基本規模パラメータ量(BERT-Base)、大規模パラメータ量(BERT-Large)と超大規模パラメータ量(BERT-XLarge)でテストし、取得されたテスト結果は図5に示される。図5から分かるように、収束可能なパラメータ範囲内では、PostLN構造のモデルの収束効果はPreLN構造のモデルより優れている。
モデルのパラメータ量を向上させるとともに、モデルの収束効果をさらに向上させることを実現するために、本出願は、ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体を提案する。
以下、図面を参照して、本出願の実施例に係るニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体について説明する。
図6は、本出願の実施例1によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。
本出願の実施例は、当該ニューラルネットワークモデルの事前トレーニング方法がニューラルネットワークモデルの事前トレーニング装置に配置されることを例として説明し、当該ニューラルネットワークモデルの事前トレーニング装置は、電子機器がニューラルネットワークモデルの事前トレーニング機能を実行できるように、任意の電子機器に適用されてもよい。
ここで、電子機器は任意の計算能力を備えたデバイス、例えばPC(Personal Computer、パーソナルコンピューター)、モバイルデバイス、サーバなどであってもよく、モバイルデバイスは、例えば携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント、ウェアデバイス、車載デバイスなどの様々なオペレーティングシステム、タッチスクリーン及び/又はディスプレイを備えたハードウェアデバイスであってもよい。
図6に示すように、当該ニューラルネットワークモデルの事前トレーニング方法は以下のステップ601~604を含むことができる。
ステップ601において、事前トレーニングデータを取得する。
本出願の実施例では、事前トレーニングデータは翻訳需要に応じて選択されてもよく、ここで、各事前トレーニングデータのテキスト情報は同じ言語に属するテキスト情報であってもよいし、異なる言語に属するテキスト情報であってもよい。
例えば、当該ニューラルネットワークモデルが、第1言語のテキスト情報を第2言語のテキスト情報に翻訳する場合、第1言語と第2言語とは異なり、例えば第1言語は中国語であってもよく、第2言語は英語であってもよく、または、第1言語は中国語であってもよく、第2言語はフランス語であってもよいなど、この時、各事前トレーニングデータのテキスト情報の言語は第1言語であってもよい。
また例えば、当該ニューラルネットワークモデルが第1言語と第2言語の相互翻訳のシナリオで使用される場合、例えば中国語と英語の相互翻訳シナリオで使用される場合、事前トレーニングデータは、第1言語に属するテキスト情報を含む事前トレーニングデータ、及び/又は、第2言語に属するテキスト情報を含む事前トレーニングデータを含むことができ、すなわち各事前トレーニングデータのテキスト情報の言語は第1言語であってもよいし、第2言語であってもよいし、第1言語と第2言語を同時に含んでもよく、本出願はこれに対して限定しない。
本出願の実施例では、翻訳需要に応じて、事前トレーニングデータを選択することができる。例えば、事前トレーニングデータをオンラインで収集してもよく、または事前トレーニングデータをオフラインで収集してもよく、または事前トレーニングデータは電子機器にローカルに記憶されているテキスト情報であってもよく、または既存のテストデータセットから事前トレーニングデータを取得してもよく、本出願の実施例はこれに対して限定しない。
ステップ602において、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有する。
なお、本出願では、初期ニューラルネットワークモデルの構造を限定せず、例えば、当該初期ニューラルネットワークモデルの構造はTransformer構造であってもよく、または、他の構造であってもよい。また、本出願では、初期ニューラルネットワークモデルのタイプも限定せず、例えば、当該初期ニューラルネットワークモデルは自己注意力モデル、循環ニューラルネットワークモデルを含むことができるが、これらに限定されない。
本出願の実施例では、事前トレーニングデータが取得された後、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングすることができ、第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有する。
これにより、初期ニューラルネットワークモデルが事前にトレーニングされる場合、各層の隠れ層が同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができる。
ステップ603において、初期ニューラルネットワークモデルの損失値を取得する。
本出願の実施例では、事前トレーニング中に、初期ニューラルネットワークモデルの損失値を取得することができ、損失値が小さいほど、モデルのトレーニング効果がよくなる。
ステップ604において、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する。
本出願の実施例では、予め設定された閾値は予め設定され、実際のアプリケーション需要とアプリケーションシナリオに応じて当該予め設定された閾値を設定することができる。なお、予め設定された閾値は小さい値である。
本出願の実施例では、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、この時、モデルの予測精度は相対的に高く、この時、モデルの予測効果をさらに向上させるために、第2トレーニング方式で、初期ニューラルネットワークモデルの事前トレーニングを続けることができ、第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する。
これにより、事前トレーニングを2つの段階に分け、第1段階では各層の隠れ層によって同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができ、第2段階では各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することで、モデルの予測効果を向上させることができ、すなわち、当該方法は、モデルの収束効果を向上させるだけでなく、モデルの予測効果も向上させることができる。
本出願の実施例に係るニューラルネットワークモデルの事前トレーニング方法は、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有し、初期ニューラルネットワークモデルの損失値を取得し、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する。これにより、事前トレーニングを2つの段階に分け、第1段階では各層の隠れ層が同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができ、第2段階では各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することで、モデルの予測効果を向上させることができ、すなわち、当該方法は、モデルの収束効果を向上させるだけでなく、モデルの予測効果も向上させることができる。
本出願の実施例の1つの可能な実現形態では、事前トレーニングデータの一部のデータをマスクし、初期ニューラルネットワークモデルによってマスク位置にある文字を予測し、初期ニューラルネットワークモデルの予測結果とマスク位置にある実際のマスク文字に基づいて、初期ニューラルネットワークモデルの損失値を生成することができる。以下、図7と組み合わせて、上記プロセスを詳細に説明する。
図7は、本出願の実施例2によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。
図7に示すように、当該ニューラルネットワークモデルの事前トレーニング方法は、以下のステップ701~706を含むことができる。
ステップ701において、事前トレーニングデータを取得する。
ステップ702において、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有する。
ステップ701~702の実行プロセスは前記実施例におけるステップ101~102の実行プロセスを参照することができ、ここでは説明を省略する。
ステップ703において、事前トレーニングデータの一部のデータをマスクする。
本出願の実施例では、マスクとは、事前トレーニングデータの一部のデータ(例えば1つまたは複数の文字)を除去することを意味してもよく、または、マスクとは、事前トレーニングデータの一部のデータを置き換えることを意味してもよく、本出願はこれを限定しない。
一例として、マスク処理が事前トレーニングデータの一部のデータを除去することであることを例として、事前トレーニングデータが「元宵節の風習は団子を食べることである」であると仮定すると、当該事前トレーニングデータの「宵」を除去し、マスクされた事前トレーニングデータが「元節の風習は団子を食べる」であることを取得する。
別の例として、マスク処理が事前トレーニングデータの一部のデータを置き換えることであることを例として、事前トレーニングデータが「元宵節の風習は団子を食べることである」であると仮定すると、当該事前トレーニングデータの「宵」を「旦」に置き換え、マスクされた事前トレーニングデータが「元旦節の風習は団子を食べることである」であることを取得する。
ステップ704において、マスクされた事前トレーニングデータを初期ニューラルネットワークモデルに入力して予測して、予測値を生成する。
ここで、予測値とは、初期ニューラルネットワークモデルによって予測して得られたマスク位置にあるマスク文字を意味する。
本出願の実施例では、初期ニューラルネットワークモデルを使用してマスクされた事前トレーニングデータを予測して、マスク位置にある予測値を生成することができる。
依然として上記一例として、初期ニューラルネットワークモデルが、マスクされた事前トレーニングデータを予測し、生成された予測値は「宵」であってもよい。
ステップ705において、予測値とマスク位置の初期値を比較して、初期ニューラルネットワークモデルの損失値を生成する。
本出願の実施例では、初期値とは、事前トレーニングデータにおけるマスク位置にある実際のマスク文字を意味する。
本出願の実施例の1つの可能な実現形態では、予測値と初期値との間の相違に基づいて、初期ニューラルネットワークモデルの損失値を生成することができ、ここで、初期ニューラルネットワークモデルの損失値は上記相違と正の関係にあり、すなわち、予測値と初期値との間の相違が小さいほど、損失値が小さくなる。
本出願の実施例の1つの可能な実現形態では、類似度計算アルゴリズムに基づいて、予測値と初期値との間の類似度を算出し、類似度に基づいて、予測値と初期値との間の相違を決定することができ、ここで、類似度は相違と逆の関係にある。その後、予測値と初期値との間の相違に基づいて、初期ニューラルネットワークモデルの損失値を決定することができ、損失値は上記相違と正の関係にある。
なお、初期ニューラルネットワークモデルが、マスクされた事前トレーニングデータを予測し、予測が正しい場合、すなわち予測によって取得されたマスク文字と実際のマスク文字との間の相違が0である場合、モデルの予測精度は高く、予測が正しくない場合、予測によって取得されたマスク文字と実際のマスク文字の間の相違が大きく、この時、モデルの予測効果はよくない、初期ニューラルネットワークモデルを事前にトレーニングして、モデルの予測効果を向上させる必要がある。
ステップ706において、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する。
ステップ706の実行プロセスは上記実施例におけるステップ104の実行プロセスを参照することができ、ここでは説明を省略する。
本出願の実施例に係るニューラルネットワークモデルの事前トレーニング方法は、初期ニューラルネットワークモデルの予測結果とマスク位置にある実際のマスク文字に基づいて、初期ニューラルネットワークモデルの損失値を生成し、生成された損失値が初期ニューラルネットワークモデルの予測精度を示すことができ、これによって損失値で示された初期ニューラルネットワークモデルの予測精度が低い場合、モデルを事前にトレーニングし続けて、モデルの予測効果を向上させることができる。
本出願の実施例の1つの可能な実現形態では、第1トレーニング方式で初期ニューラルネットワークモデルをトレーニングする場合、循環の方式でニューラルネットワークモデルを事前にトレーニングして、モデルの予測効果を向上させることができる。以下、図8と組み合わせて、上記プロセスを詳細に説明する。
図8は、本出願の実施例3によって提供されるニューラルネットワークモデルの事前トレーニング方法の概略フローチャートである。
図8に示すように、当該ニューラルネットワークモデルの事前トレーニング方法は、以下のステップ801~806を含むことができる。
ステップ801において、事前トレーニングデータを取得する。
ステップ801の実行プロセスは上記実施例におけるステップ101の実行プロセスを参照することができ、ここでは説明を省略する。
ステップ802において、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、隠れ層の層数を取得する。
本出願の実施例では、初期ニューラルネットワークモデルの構造に基づいて、隠れ層の層数を決定することができる。
例えば、初期ニューラルネットワークモデルがTransformer構造の事前トレーニング済み言語モデルであることを例として、通常、Transformer構造の事前トレーニング済み言語モデルはL(n)H(m)で表されてもよく、ここで、LはTransformer Encoderの層数であり、すなわちn層のTransformer Ecoderが積層され、すなわち隠れ層の層数はnである。HはTransformer EncoderのHidden sizeであり、すなわち隠れ層の幅はmである。初期ニューラルネットワークモデルがL48H4096であることを例として、当該初期ニューラルネットワークモデルは、48層の隠れ層を有し、且つ隠れ層の幅Hidden sizeが4096であるTransformerモデルである。
ステップ803において、隠れ層の層数に基づいて、第1トレーニング方式で循環する循環回数を生成する。
ここで、第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有する。
本出願の実施例では、第1トレーニング方式で循環トレーニングする循環回数は、隠れ層の層数に基づいて決定されてもよい。ここで、上記循環回数は隠れ層の層数と正の関係にあり、すなわち、隠れ層の層数が大きいほど、循環回数が多くなり、これによってモデルの予測精度を向上させる。例えば、上記循環回数は隠れ層の層数と同じであってもよい。
ステップ804において、循環回数に基づいて、第1トレーニング方式で初期ニューラルネットワークモデルに対して循環事前トレーニングを行う。
本出願の実施例では、循環回数に基づいて、第1トレーニング方式で初期ニューラルネットワークモデルに対して循環事前トレーニングを行うことができる。選択可能に、循環回数をNとしてマークする。
本出願の実施例の1つの可能な実現形態では、最初回の循環の時、各層の隠れ層は初期の隠れ層パラメータを共有の隠れ層パラメータとして事前にトレーニングでき、事前トレーニング中に、各層の隠れ層は自体で生成された勾配値を上記共有の隠れ層パラメータに累算でき、すなわち各層の隠れ層は共に共有の隠れ層パラメータを修正でき、モデルの最初回の循環の出力を第2回の循環の入力とし、第2回の循環の時、各層の隠れ層は更新された共有の隠れ層パラメータを使用して事前にトレーニングでき、事前トレーニング中に、各層の隠れ層は引き続き自体で生成された勾配値を更新された共有の隠れ層パラメータに累算でき、すなわち各層の隠れ層は共に更新された共有の隠れ層パラメータを修正でき、モデルの第2回の循環の出力を第3回の循環の入力とし、以下同様であり、モデルの第N-1回の循環の出力を第N回の循環の入力とし、第N-1回の循環中に、各層の隠れ層は自体で生成された勾配値を共有の隠れ層パラメータに累算して取得された更新された共有の隠れ層パラメータを、第N回の循環で各層の隠れ層によって使用された共有の隠れ層パラメータとし、これによって第N回の循環の時、各層の隠れ層は更新された共有の隠れ層パラメータを使用して事前にトレーニングでき、事前トレーニング中に、各層の隠れ層は引き続き自体で生成された勾配値を上記更新された共有の隠れ層パラメータに累算でき、すなわち各層の隠れ層は引き続き共に更新された共有の隠れ層パラメータを修正できる。これにより、毎回の循環中に、共有の隠れ層パラメータを修正することにより、モデルのトレーニング効果を確保することができる。
本出願では、多層隠れ層は同一の隠れ層パラメータを共有し、多層の計算は入力と出力を循環することによって行われ、すなわち、最初回の循環の入力はinput_1であり、出力はoutput_1であり、第2回の循環の入力はoutput_1であり、出力はoutput_2であり、第3回の循環の入力はoutput_2であり、出力はoutput_3であり、以下同様であり、最終回の出力はoutput_Nである。これにより、循環の方式を使用して、初期ニューラルネットワークモデルを事前にトレーニングし、循環構造を使用するため、勾配の間の依存が強くなり、勾配が消えるという問題をある程度解決することができ、これによって収束の有効性を確保する。
ステップ805において、初期ニューラルネットワークモデルの損失値を取得する。
ステップ805の実行プロセスは上記実施例におけるステップ103の実行プロセスを参照することができ、または、上記実施例におけるステップ203~205の実行プロセスを参照することもでき、ここでは説明を省略する。
ステップ806において、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する。
本出願の実施例の1つの可能な実現形態では、第2トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングする場合、各層の隠れ層で使用された初期隠れ層パラメータは、第1トレーニング方式で初期ニューラルネットワークモデルに対して最後の循環事前トレーニングを行った後、取得された更新された共有の隠れ層パラメータであってもよい。第2トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続ける中に、各層の隠れ層がそれぞれ使用された隠れ層パラメータを更新することができる。
すなわち、多層循環構造を展開させることができ、各層の隠れ層の間で隠れ層パラメータを循環共有しなくなり、各層の隠れ層の初期パラメータは前に共有されたパラメータであってもよく、事前トレーニング中に、各層の隠れ層はいずれも自体の勾配に基づいて、それぞれに対応する隠れ層パラメータを更新する。
以上のように、本出願では、事前トレーニングは2つの段階を含み、第1段階では、循環共有パラメータ構造を使用して、初期ニューラルネットワークモデルを事前にトレーニングし、毎回の循環中に、各隠れ層が自体で生成された勾配を共有の同一の隠れ層パラメータに累算することで、パラメータの更新を安定させ、モデルが正常に収束できるようにする。循環共有パラメータ構造を使用して、初期ニューラルネットワークモデルをトレーニングすることで、当該モデルの損失値が相対的に低いレベルにあるようにする。第2段階では、循環共有パラメータ構造を展開させ、収束するまでモデルをトレーニングし続ける。
一例として、初期ニューラルネットワークモデルの構造がPostLN構造であることを例として、非循環構造と循環構造をそれぞれ使用して当該モデルをトレーニングし、トレーニングされた収束効果は図9に示される。これから分かるように、循環構造を使用してモデルをトレーニングすることにより、収束効果がよくなり、パラメータ量が大きい場合、PostLN構造のモデルが正常に収束できないという問題を効果的に解決することができる。
本出願の実施例に係るニューラルネットワークモデルの事前トレーニングは、循環方式で初期ニューラルネットワークモデルを事前にトレーニングし、循環構造を使用するため、勾配間の依存が強くなり、勾配が消えるという問題をある程度解決でき、これによって収束の有効性を確保する。
本出願の実施例では、AI分野における深層学習方法または機器学習方法を使用して、初期ニューラルネットワークモデルを事前にトレーニングすることができ、ここで、人工知能は、コンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能のハードウェア技術は一般にセンサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの主要な方向を含む。
上記図6~図8の実施例によって提供されるニューラルネットワークモデルの事前トレーニング方法に対応し、本出願は、ニューラルネットワークモデルの事前トレーニング装置をさらに提供し、本出願の実施例によって提供されるニューラルネットワークモデルの事前トレーニング装置が上記図6~図8の実施例によって提供されるニューラルネットワークモデルの事前トレーニング方法に対応するため、ニューラルネットワークモデルの事前トレーニング方法の実施形態は本出願の実施例によって提供されるニューラルネットワークモデルの事前トレーニング装置にも適用され、本出願の実施例では詳細に説明しない。
図10は、本出願の実施例4によって提供されるニューラルネットワークモデルの事前トレーニング装置の概略構造図である。
図10に示すように、当該ニューラルネットワークモデルの事前トレーニング装置1000は、第1取得モジュール1010、第1トレーニングモジュール1020、第2取得モジュール1030及び第2トレーニングモジュール1040を含むことができる。
第1取得モジュール1010は、事前トレーニングデータを取得する。
第1トレーニングモジュール1020は、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有する。
第2取得モジュール1030は、初期ニューラルネットワークモデルの損失値を取得する。
第2トレーニングモジュール1040は、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する。
本出願の実施例の1つの可能な実現形態では、第1トレーニングモジュール1020は、隠れ層の層数を取得し、隠れ層の層数に基づいて、第1トレーニング方式で循環する循環回数を生成し、循環回数に基づいて、第1トレーニング方式で初期ニューラルネットワークモデルに対して循環事前トレーニングを行う。
本出願の実施例の1つの可能な実現形態では、循環回数は隠れ層の層数である。
本出願の実施例の1つの可能な実現形態では、各層の隠れ層が自体で生成された勾配値を共有の隠れ層パラメータに累算する。
本出願の実施例の1つの可能な実現形態では、第2取得モジュール1030は、具体的に、事前トレーニングデータの一部のデータをマスクし、マスクされた事前トレーニングデータを初期ニューラルネットワークモデルに入力して予測して、予測値を生成し、予測値とマスク位置の初期値を比較して損失値を生成する。
本出願の実施例に係るニューラルネットワークモデルの事前トレーニング装置は、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有し、初期ニューラルネットワークモデルの損失値を取得し、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する。これにより、事前トレーニングを2つの段階に分け、第1段階では、各層の隠れ層が同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができ、第2段階では、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することで、モデルの予測効果を向上させることができ、すなわち、当該装置は、モデルの収束効果を向上させるだけでなく、モデルの予測効果も向上させることができる。
上記実施例を実現するために、本出願は、電子機器をさらに提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本出願の上記のいずれかの実施例によって提案されるニューラルネットワークモデルの事前トレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
上記実施例を実現するために、本出願は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令は、コンピュータに本出願の上記のいずれかの実施例によって提案されるニューラルネットワークモデルの事前トレーニング方法を実行させる。
上記実施例を実現するために、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本出願の上記のいずれかの実施例によって提案されるニューラルネットワークモデルの事前トレーニング方法を実現する。
本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
図11は、本出願の実施例を実行するための例示的な電子機器1100の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図11に示すように、デバイス1100は、ROM(Read-Only Memory,読み取り専用メモリ)1102に記憶されたコンピュータプログラムまたは記憶ユニット1108からRAM(Random Access Memory,ランダムアクセス/メモリ)1103にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行する計算ユニット1101を含む。RAM1103には、機器1100の動作に必要な各種プログラムやデータも記憶されてもよい。計算ユニット1101、ROM1102、およびRAM1103は、バス1104を介して互いに接続されておる。パスには、I/O(Input/Output、入力/出力)インターフェース1105も接続されている。
機器1100の複数のコンポーネントはI/Oインターフェース1105に接続され、キーボード、マウスなどの入力ユニット1106、各タイプのディスプレイ、スピーカなどの出力ユニット1107、磁気ディスク、光ディスクなどの記憶ユニット1108、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1109を含む。通信ユニット1109は、デバイス1100が、インタネットなどのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット1101は、処理および計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット1101のいくつかの例は、CPU(Central Processing Unit,中央処理ユニット)、GPU(Graphic Processing Units、グラフィック処理ユニット)(GPU)、各種の専用のAI(Artificial Intelligence、人工知能)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor、デジタル信号プロセッサ)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1101は、上記ニューラルネットワークモデルの事前トレーニング方法を実行する。例えば、在いくつかの実施例では、上記ニューラルネットワークモデルの事前トレーニング方法を、記憶ユニット1108などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 1102および/または通信ユニット1109を介してデバイス1100にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 1103にロードされ、計算ユニット1101によって実行される場合、上記に記載されたニューラルネットワークモデルの事前トレーニング方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット1101は上記ニューラルネットワークモデルの事前トレーニング方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって配置されてもよい。
本明細書で記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、FPGA(Field Programmable Gate Array,フィールドプログラマブルゲートアレイ)、ASIC(Application-Specific Integrated Circuit,特定用途向け集積回路)、ASSP(Application Specific Standard Product,特定用途向け標準製品)、SOC(System On Chip,システムオンチップ)、CPLD(Complex Programmable Logic Device,コンプレックス・プログラマブル・ロジック・デバイス)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本出願の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
本出願のコンテキストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記内容のいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,消去可能プログラマブルリードオンリーメモリ)又はフラッシュメモリ、光ファイバ、CD-ROM(Compact Disc Read-Only Memory,ポータブルコンパクトディスクリードオンリーメモリ)光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(Cathode-Ray Tube,陰極線管)又はLCD(Liquid Crystal Display,液晶ディスプレイ)モニタ)、及びキーボードとポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実行することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、LAN(Local Area Network,ローカルエリアネットワーク)、WAN(Wide Area Network、ワイドエリアネットワーク)、インターネット、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であって、従来の物理ホストとVPSサービス(Virtual Private Server,仮想専用サーバ)に存在する管理の難しさ、業務拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、またはブロックチェーンと組み合わせたサーバであってもよい。
なお、人工知能は、コンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能のハードウェア技術は、一般にセンサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの主要な方向を含む。
本出願の実施例の技術案によれば、事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で初期ニューラルネットワークモデルを事前にトレーニングし、第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有し、初期ニューラルネットワークモデルの損失値を取得し、初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で初期ニューラルネットワークモデルの事前トレーニングを続け、第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する。これにより、事前トレーニングを2つの段階に分け、第1段階では、各層の隠れ層が同じ隠れ層パラメータを共有することで、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することに比べて、パラメータが相対的に減少し、したがって、事前トレーニングの場合、パラメータ更新時の不安定性を低減し、モデルの収束効果を向上させることができ、第2段階では、各層の隠れ層がそれぞれに対応する隠れ層パラメータを使用することで、モデルの予測効果を向上させることができ、すなわち、当該方法は、モデルの収束効果を向上させるだけでなく、モデルの予測効果も向上させることができる。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解すべきである。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (13)

  1. コンピュータによって実行されるニューラルネットワークモデルの事前トレーニング方法であって、
    事前トレーニングデータを取得するステップと、
    前記事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするステップであって、前記第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有するステップと、
    前記初期ニューラルネットワークモデルの損失値を取得するステップと、
    前記初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で前記初期ニューラルネットワークモデルの事前トレーニングを続けるステップであって、前記第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有するステップと、を含む、
    ことを特徴とするニューラルネットワークモデルの事前トレーニング方法。
  2. 前記第1トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするステップは、
    前記隠れ層の層数を取得するステップと、
    前記隠れ層の層数に基づいて、前記第1トレーニング方式で循環する循環回数を生成するステップと、
    前記循環回数に基づいて、第1トレーニング方式で前記初期ニューラルネットワークモデルに対して循環事前トレーニングを行うステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記循環回数は前記隠れ層の層数である、
    ことを特徴とする請求項2に記載の方法。
  4. 前記各層の隠れ層が、自体で生成された勾配値を前記共有の隠れ層パラメータに累算する、
    ことを特徴とする請求項1に記載の方法。
  5. 前記初期ニューラルネットワークモデルの損失値を取得するステップは、
    前記事前トレーニングデータの一部のデータをマスクするステップと、
    マスクされた前記事前トレーニングデータを前記初期ニューラルネットワークモデルに入力して予測して、予測値を生成するステップと、
    前記予測値とマスク位置の初期値を比較して、前記損失値を生成するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  6. ニューラルネットワークモデルの事前トレーニング装置であって、
    事前トレーニングデータを取得するための第1取得モジュールと、
    前記事前トレーニングデータを初期ニューラルネットワークモデルに入力し、第1トレーニング方式で前記初期ニューラルネットワークモデルを事前にトレーニングするための第1トレーニングモジュールであって、前記第1トレーニング方式では多層隠れ層が1つの隠れ層パラメータを共有する第1トレーニングモジュールと、
    前記初期ニューラルネットワークモデルの損失値を取得するための第2取得モジュールと、
    前記初期ニューラルネットワークモデルの損失値が予め設定された閾値未満である場合、第2トレーニング方式で前記初期ニューラルネットワークモデルの事前トレーニングを続けるための第トレーニングモジュールであって、前記第2トレーニング方式では多層隠れ層の各層がそれぞれ1つの隠れ層パラメータを有する第2トレーニングモジュールと、を含む、
    ことを特徴とするニューラルネットワークモデルの事前トレーニング装置。
  7. 前記第1トレーニングモジュールが、
    前記隠れ層の層数を取得し、
    前記隠れ層の層数に基づいて、前記第1トレーニング方式で循環する循環回数を生成し、
    前記循環回数に基づいて、第1トレーニング方式で前記初期ニューラルネットワークモデルに対して循環事前トレーニングを行う、
    ことを特徴とする請求項6に記載の装置。
  8. 前記循環回数は前記隠れ層の層数である、
    ことを特徴とする請求項7に記載の装置。
  9. 前記各層の隠れ層が、自体で生成された勾配値を前記共有の隠れ層パラメータに累算する、
    ことを特徴とする請求項6に記載の装置。
  10. 前記第2取得モジュールが、
    前記事前トレーニングデータの一部のデータをマスクし、
    マスクされた前記事前トレーニングデータを前記初期ニューラルネットワークモデルに入力して予測して、予測値を生成し、
    前記予測値とマスク位置の初期値を比較して、前記損失値を生成する、
    ことを特徴とする請求項6に記載の装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれかに記載のニューラルネットワークモデルの事前トレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~5のいずれかに記載のニューラルネットワークモデルの事前トレーニング方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~5のいずれかに記載のニューラルネットワークモデルの事前トレーニング方法を実現する、
    ことを特徴とするコンピュータプログラム。
JP2021197896A 2021-03-04 2021-12-06 ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体 Active JP7297038B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110242141.4A CN113033801A (zh) 2021-03-04 2021-03-04 神经网络模型的预训练方法、装置、电子设备和介质
CN202110242141.4 2021-03-04

Publications (2)

Publication Number Publication Date
JP2022020006A JP2022020006A (ja) 2022-01-27
JP7297038B2 true JP7297038B2 (ja) 2023-06-23

Family

ID=76467676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021197896A Active JP7297038B2 (ja) 2021-03-04 2021-12-06 ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体

Country Status (5)

Country Link
US (1) US20220129753A1 (ja)
EP (1) EP4033415A1 (ja)
JP (1) JP7297038B2 (ja)
KR (1) KR102635800B1 (ja)
CN (1) CN113033801A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553864B (zh) * 2021-06-30 2023-04-07 北京百度网讯科技有限公司 翻译模型的训练方法、装置、电子设备及存储介质
CN113554280B (zh) * 2021-06-30 2023-06-16 北京百度网讯科技有限公司 电网系统调度模型的训练方法、装置、设备和存储介质
CN113408638A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 模型训练方法、装置、设备和计算机存储介质
CN115186771A (zh) * 2022-09-09 2022-10-14 西安热工研究院有限公司 基于dbn-elm的设备耗电特征分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159694A (ja) 2018-03-12 2019-09-19 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
US20200110994A1 (en) 2018-10-04 2020-04-09 International Business Machines Corporation Neural networks using intra-loop data augmentation during network training
JP2020154076A (ja) 2019-03-19 2020-09-24 国立研究開発法人情報通信研究機構 推論器、学習方法および学習プログラム
CN111709248A (zh) 2020-05-28 2020-09-25 北京百度网讯科技有限公司 文本生成模型的训练方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN111310905B (zh) * 2020-05-11 2020-08-18 创新奇智(南京)科技有限公司 神经网络模型训练方法、装置及暖通系统能效优化方法
CN112364160A (zh) * 2020-06-02 2021-02-12 湖北大学 一种结合ALBERT和BiGRU的专利文本分类方法
CN111667069B (zh) * 2020-06-10 2023-08-04 中国工商银行股份有限公司 预训练模型压缩方法、装置和电子设备
CN111539227B (zh) * 2020-07-06 2020-12-18 北京百度网讯科技有限公司 训练语义表示模型的方法、装置、设备和计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159694A (ja) 2018-03-12 2019-09-19 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
US20200110994A1 (en) 2018-10-04 2020-04-09 International Business Machines Corporation Neural networks using intra-loop data augmentation during network training
JP2020154076A (ja) 2019-03-19 2020-09-24 国立研究開発法人情報通信研究機構 推論器、学習方法および学習プログラム
CN111709248A (zh) 2020-05-28 2020-09-25 北京百度网讯科技有限公司 文本生成模型的训练方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
川崎 拳人,非構造化データの構造化における情報抽出,情報処理学会 研究報告 音声言語情報処理(SLP) 2020-SLP-134 [online] ,日本,情報処理学会,2020年11月25日,第1頁-第6頁,ISSN:2188-8663

Also Published As

Publication number Publication date
KR102635800B1 (ko) 2024-02-13
US20220129753A1 (en) 2022-04-28
JP2022020006A (ja) 2022-01-27
KR20210131923A (ko) 2021-11-03
EP4033415A1 (en) 2022-07-27
CN113033801A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
JP7297038B2 (ja) ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体
US20220004892A1 (en) Method for training multivariate relationship generation model, electronic device and medium
JP7283009B2 (ja) 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体
EP3937060A1 (en) Method and apparatus for training semantic representation model, device and computer storage medium
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
JP7358698B2 (ja) 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
KR20210124938A (ko) 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체
JP7262571B2 (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
EP3971761A1 (en) Method and apparatus for generating summary, electronic device and storage medium thereof
JP2023039889A (ja) モデルトレーニング方法および字庫作成方法、デバイス、設備ならびに記憶媒体
JP7044839B2 (ja) エンドツーエンドモデルのトレーニング方法および装置
JP2022151649A (ja) 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
JP7414907B2 (ja) 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体
JP7230304B2 (ja) 対話生成方法、装置、電子機器、プログラム及び記憶媒体
JP2023039888A (ja) モデルトレーニング及び字庫作成の方法、装置、機器、及び記憶媒体
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
CN113963110B (zh) 纹理图生成方法、装置、电子设备及存储介质
JP7279138B2 (ja) 多言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
JP7337979B2 (ja) モデル訓練方法および装置、テキスト予測方法および装置、電子デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム
CN113641830B (zh) 模型预训练方法、装置、电子设备和存储介质
JP7357114B2 (ja) 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体
JP2023533404A (ja) 駆動可能3dキャラクター生成方法、装置、電子機器、及び記憶媒体
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230613

R150 Certificate of patent or registration of utility model

Ref document number: 7297038

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150