JP2023025126A - 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム - Google Patents

深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム Download PDF

Info

Publication number
JP2023025126A
JP2023025126A JP2022190230A JP2022190230A JP2023025126A JP 2023025126 A JP2023025126 A JP 2023025126A JP 2022190230 A JP2022190230 A JP 2022190230A JP 2022190230 A JP2022190230 A JP 2022190230A JP 2023025126 A JP2023025126 A JP 2023025126A
Authority
JP
Japan
Prior art keywords
output value
deep learning
learning model
source data
entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022190230A
Other languages
English (en)
Inventor
鵬 至 高
peng zhi Gao
中 軍 何
Zhongjun He
芝 李
Zhi Li
華 呉
Hua Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023025126A publication Critical patent/JP2023025126A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

【課題】深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。【解決手段】トレーニング方法は、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得ることと、第1の出力値及び第2の出力値に基づいて、正則化関数値を特定することと、正則化関数値に基づいて、深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得ることと、を含む。【選択図】図1

Description

本開示は、人工知能の技術分野に関し、特に自然言語処理の技術分野及び機械翻訳の技術分野に関する。より具体的に、本開示は、深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供している。
自然言語処理の技術に基づいて、一種の自然言語テキストを別種の自然言語テキストに翻訳することができる。
本開示は、深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供している。
第1の局面によれば、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得ることと、前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定することと、前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得ることとを含む、深層学習モデルのトレーニング方法を提供している。
いくつかの実施例において、前記サンプルソースデータは第1の言語テキストデータを含み、前記サンプルターゲットデータは第2の言語テキストデータを含む。
第2の局面によれば、テキストデータを深層学習モデルに入力して、処理結果を得ることを含むテキストデータ処理方法であって、前記深層学習モデルは本開示により提供される方法を用いてトレーニングされるものである、テキストデータ処理方法を提供している。
第3の局面によれば、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得るための第1の取得モジュールと、前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定するための特定モジュールと、前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得るための第1の調整モジュールとを含む、深層学習モデルのトレーニング装置を提供している。
第4の局面によれば、テキストデータを深層学習モデルに入力して、処理結果を得るための第4の取得モジュールを含むテキストデータ処理装置であって、前記深層学習モデルは本開示により提供される装置を用いてトレーニングされるものである、テキストデータ処理装置を提供している。
第5の局面によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、命令は、少なくとも1つのプロセッサが本開示により提供される方法を実行することができるように、少なくとも1つのプロセッサにより実行される、電子機器を提供している。
第6の局面によれば、コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、該コンピュータ命令は、コンピュータに本開示により提供される方法を実行させるために用いられる、記憶媒体を提供している。
第7の局面によれば、プロセッサにより実行される場合に、本開示により提供される方法を実現するコンピュータプログラムを提供している。
理解されるべきこととして、本部分に記載されたコンテンツは、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面の簡単な説明
ここで、図面は、本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。 図2は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。 図3は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。 図4は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。 図5は、本開示の一実施例による深層学習モデルのトレーニング方法の原理図である。 図6は、本開示の一実施例によるテキストデータ処理方法のフローチャートである。 図7は、本開示の一実施例による深層学習モデルのトレーニング装置のブロック図である。 図8は、本開示の一実施例によるテキスト処理装置のブロック図である。 図9は、本開示の一実施例による深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法を適用できる電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
自然言語処理の技術に基づいて、深層学習モデルを用いて翻訳することができる。トレーニングデータ量を増やす方式によって、関連する深層学習モデルの性能を向上させることができる。しかし、既存のコーパストレーニングサンプルの数は限られているので、深層学習モデルの性能をさらに向上させることは困難である。
図1は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。
図1に示すように、該方法100は操作S110~操作S130を含んでよい。
操作S110において、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得る。
本開示の実施例において、サンプルソースデータは第1の言語テキストデータを含んでよく、サンプルターゲットデータは第2の言語テキストデータを含んでよい。
例えば、第1の言語テキストデータは一種の自然言語のテキストであってもよく、第2の言語テキストデータは別種の自然言語のテキストであってもよい。
例えば、サンプルソースデータは中国語テキストデータであり、サンプルターゲットデータは英語テキストデータである。一つの例示において、サンプルソースデータxは「今天天气很好(今日はいい天気です)」であり、サンプルターゲットデータyは「The weather is good today」である。
また例えば、サンプルソースデータxを深層学習モデルに入力して、第1の基準出力値f(x,y;Θ)を得てよい。また、サンプルターゲットデータyを深層学習モデルに入力して、第2の基準出力値f(y,x;Θ)を得てよい。第1の基準出力値f(x,y;Θ)及び第2の基準出力値f(y,x;Θ)を、第1の出力値としてよい。一つの例示において、Θは深層学習モデルの1つ又は複数のパラメータを表してもよい。
本開示の実施例において、サンプルソースデータを処理して、処理後のサンプルソースデータを得てよい。サンプルターゲットデータを処理して、処理後のサンプルターゲットデータを得てよい。
例えば、処理後のサンプルソースデータx_procを深層学習モデルに入力して、第1の処理後の出力値f(x_proc,y_proc;Θ)を得てよい。処理後のサンプルターゲットデータy_procを深層学習モデルに入力して、第2の処理後の出力値f(y_proc,x_proc;Θ)を得てよい。
第1の処理後の出力値f(x_proc,y_proc;Θ)及び第2の処理後の出力値f(y_proc,x_proc;Θ)を、第2の出力値としてよい。
操作S120において、第1の出力値及び第2の出力値に基づいて、正則化関数値を特定する。
例えば、第1の基準出力値f(x,y;Θ)と第1の処理後の出力値f(x_proc,y_proc;Θ)との間の差異を特定してよく、並びに、第2の基準出力値f(y,x;Θ)と第2の処理後の出力値f(y_proc,x_proc;Θ)との間の差異を特定してよい。この2つの差異に基づいて、正則化関数値を特定してよい。一つの例示において、正則化関数値は一致性の正則化関数値であってもよい。
操作S130において、正則化関数値に基づいて、深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得る。
例えば、正則化関数値が所定条件を満たすように、深層学習モデルのパラメータを調整することにより、プリトレーニングされた深層学習モデルを得てよい。
本開示の実施例により、深層学習モデルの性能をさらに向上させることができる。特に、双方向プリトレーニングに基づく深層学習モデルの性能を向上させることができる。
いくつかの実施例において、上述した所定条件は、所定閾値よりも小さいことであってよい。
いくつかの実施例において、各種のテキストデータ拡張方式を用いて、サンプルソースデータ又はサンプルターゲットデータに基づいて、処理後のサンプルソースデータ又は処理後のサンプルターゲットデータを得てよい。
いくつかの実施例において、前記サンプルソースデータは第1の言語テキストデータを含み、前記サンプルターゲットデータは第2の言語テキストデータを含む。例えば、第1の言語テキストデータは中国語テキストデータであってもよく、第2の言語テキストデータは英語テキストデータであってもよい。また例えば、第1の言語テキストデータは英語テキストデータであってもよく、第2の言語テキストデータは中国語テキストデータであってもよい。
図2は、本開示の一実施例による深層学習モデルのトレーニング方法のフローチャートである。
図2に示すように、方法210は深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得てよい。以下、操作S211~操作S214を参照して詳細的に説明する。
操作S211において、サンプルソースデータ及びサンプルターゲットデータを深層学習モデルにそれぞれ入力して、第1の出力値として第1の基準出力値及び第2の基準出力値を得る。
例えば、上述したように、サンプルソースデータxを深層学習モデルに入力して、第1の基準出力値f(x,y;Θ)を得てよい。また、サンプルターゲットデータyを深層学習モデルに入力して、第2の基準出力値f(y,x;Θ)を得てよい。
操作S212において、サンプルソースデータ及びサンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得る。
例えば、サンプルソースデータxである「今天天气很好(今日はいい天気です)」に対して、ワードセグメンテーションを行って、複数のソースデータセグメントを得る。一つの例示において、複数のソースデータセグメントのうち1つのソースデータセグメントは「天气(天気)」である。
例えば、サンプルターゲットデータyである「The weather is good today」に対して、ワードセグメンテーションを行って、複数のターゲットデータセグメントを得る。一つの例示において、複数のターゲットデータセグメントのうち1つのターゲットデータセグメントは「today」。
操作S213において、複数のソースデータセグメントのうちの少なくとも一部及び複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得る。
例えば、ソースデータセグメントである「天气(天気)」をマスキングして、マスキングされたソースデータx_cutを得てよい。ターゲットデータセグメントである「today」をマスキングして、マスキングされたターゲットデータy_cutを得てよい。
操作S214において、マスキングされたソースデータ及びマスキングされたターゲットデータを深層学習モデルにそれぞれ入力して、第2の出力値として第1のマスキング出力値及び第2のマスキング出力値を得る。
例えば、マスキングされたソースデータx_cutを深層学習モデルに入力して、第1のマスキング出力値f(x_cut,y_cut;Θ)を得てよい。マスキングされたターゲットデータy_cutを深層学習モデルに入力して、第2のマスキング出力値f(y_cut,x_cut;Θ)を得てよい。
なお、操作S211が実行されてから、操作S212~操作S214が実行されてよい。しかし、本開示の実施例はこれに限定されるものではなく、これら2組の操作は、他の順序で実行されてもよく、例えば、操作S211と操作S212~操作S214とが並行に実行されてもよく、または、操作S212~操作S214が実行されてから、操作S211が実行されてもよい。
いくつかの実施例において、サンプルソースデータは第1のラベルを有する。サンプルターゲットデータは第2のラベルを有する。
Figure 2023025126000002
図3は、本開示の別の実施例による深層学習モデルのトレーニング方法のフローチャートである。
図3に示すように、方法320は第1の出力値及び第2の出力値に基づいて、正則化関数値を特定してよい。以下、操作S321乃至操作S325を参照して詳細的に説明する。
操作S321において、第1の基準出力値と第1のマスキング出力値との間の第1の相対エントロピーを特定する。
Figure 2023025126000003
一つの例示において、KL(*)はKullback-Leibler発散関数である。
操作S322において、第2の基準出力値と第2のマスキング出力値との間の第2の相対エントロピーを特定する。
Figure 2023025126000004
操作S323において、第1の基準出力値と第1のラベルとの間の第1のクロスエントロピーを特定する。
Figure 2023025126000005
操作S324において、第2の基準出力値と第2のラベルとの間の第2のクロスエントロピーを特定する。
Figure 2023025126000006
操作S325において、第1のクロスエントロピー、第2のクロスエントロピー、第1の相対エントロピー及び第2の相対エントロピーに基づいて、正則化関数値を特定する。
例えば、以下の数式で正則化関数値Eを特定してよい。
Figure 2023025126000007
Figure 2023025126000008
図4は、本開示の別の実施例による深層学習モデルのトレーニング方法のフローチャートである。
図4に示すように、該方法400は上述した操作S130の後で実行されてよい。以下、操作S440~操作S460を参照して詳細的に説明する。
操作S440において、サンプルソースデータをプリトレーニングされた深層学習モデルに入力して、第3の基準出力値を得る。
例えば、サンプルソースデータxをプリトレーニングされた深層学習モデルに入力して、第3の基準値f(x,y;Θ')を得る。Θ'はプリトレーニングされた深層学習モデルの1つ又は複数のパラメータを表してもよい。
操作S450において、マスキングされたソースデータをプリトレーニングされた深層学習モデルに入力して、第3のマスキング出力値を得る。
例えば、マスキングされたソースデータx_cutをプリトレーニングされた深層学習モデルに入力して、第3のマスキング出力値f(x_cut,y_cut;Θ')を得る。
操作S460において、第3の基準出力値及び第3のマスキング出力値に基づいて、プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得る。
例えば、以下の数式で関数値E’を特定してよい。
Figure 2023025126000009
本開示の実施例により、プリトレーニングされた深層学習モデルを単方向に微調整することにより、モデルの性能をさらに向上させることができる。
図5は、本開示の別の実施例による深層学習モデルのトレーニング方法の原理図である。
図5に示すように、深層学習モデル500は処理層510及びSoftmax層520を含む。処理層510は自己注意層511及びフィードフォワード層512を含んでよい。
例えば、深層学習モデル500は、それぞれ、上述したサンプルソースデータxである「今天天气很好(今日はいい天気です)」及び上述したサンプルターゲットデータyである「The weather is good today」を入力として、第1の基準出力値f(x,y;Θ)及び第2の基準出力値f(y,x;Θ)を出力してよい。
また例えば、深層学習モデルは、それぞれ、上述したマスキングされたソースデータx_cut及び上述したマスキングされたターゲットデータy_cutを入力として、第1のマスキング出力値f(x_cut,y_cut;Θ)及び第2のマスキング出力値f(y_cut,x_cut;Θ)を出力してよい。一つの例示において、マスキングされたソースデータx_cutは、例えば、「今天<MASK>很好(今日はいい<MASK>です)」であってもよい。マスキングされたターゲットデータy_cutは、例えば、「The weather is good <MASK>」であってもよい。
一つの例示において、自己注意層511及びフィードフォワード層512は、順にサンプルソースデータxを処理して、1つの中間出力値を出力してよい。Softmax層520は、該中間出力値を処理して、第1の基準出力値f(x,y;Θ)を出力する。類似的に、深層学習モデル500は、サンプルターゲットデータy、マスキングされたソースデータx_cut及びマスキングされたターゲットデータy_cutを処理してもよい。
図6は、本開示の一実施例によるテキストデータ処理方法のフローチャートである。
図6に示すように、該方法600は操作S610を含んでよい。
操作S610において、テキストデータを深層学習モデルに入力して、処理結果を得る。
例えば、深層学習モデルは本開示により提供される方法を用いてトレーニングされるものである。
例えば、中国語テキストデータを深層学習モデルに入力して、得られた処理結果が英語テキストデータである。また例えば、英語テキストデータを深層学習モデルに入力して、得られた処理結果が中国語テキストデータである。
図7は、本開示の一実施例による深層学習モデルのトレーニング装置のブロック図である。
図7に示すように、該装置700は第1の取得モジュール710、特定モジュール720及び第1の調整モジュール730を含んでよい。
第1の取得モジュール710は、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得るためのものである。
特定モジュール720は、前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定するためのものである。
第1の調整モジュール730は、前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得るためのものである。
いくつかの実施例において、前記第1の取得モジュールは、前記サンプルソースデータ及び前記サンプルターゲットデータを前記深層学習モデルにそれぞれ入力して、第1の出力値として第1の基準出力値及び第2の基準出力値を得るための第1の取得サブモジュールと、前記サンプルソースデータ及び前記サンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得るためのワードセグメンテーションサブモジュールと、前記複数のソースデータセグメントのうちの少なくとも一部及び前記複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得るためのマスキングモジュールと、前記マスキングされたソースデータ及び前記マスキングされたターゲットデータを前記深層学習モデルにそれぞれ入力して、第2の出力値として第1のマスキング出力値及び第2のマスキング出力値を得るための第2の取得サブモジュールとを含む。
いくつかの実施例において、前記特定モジュールは、前記第1の基準出力値と前記第1のマスキング出力値との間の第1の相対エントロピーを特定するための第1の特定サブモジュールと、前記第2の基準出力値と前記第2のマスキング出力値との間の第2の相対エントロピーを特定するための第2の特定サブモジュールと、前記第1の相対エントロピー及び第2の相対エントロピーに基づいて、前記正則化関数値を特定するための第3の特定サブモジュールとを含む。
いくつかの実施例において、前記サンプルソースデータは第1のラベルを有し、前記サンプルターゲットデータは第2のラベルを有しており、前記特定モジュールは、前記第1の基準出力値と前記第1のラベルとの間の第1のクロスエントロピーを特定するための第5の特定サブモジュールと、前記第2の基準出力値と前記第2のラベルとの間の第2のクロスエントロピーを特定するための第6の特定サブモジュールと、前記第1のクロスエントロピー、前記第2のクロスエントロピー、前記第1の相対エントロピー及び前記第2の相対エントロピーに基づいて、前記正則化関数値を特定するための第7の特定サブモジュールとをさらに含む。
いくつかの実施例において、装置700は、前記サンプルソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3の基準出力値を得るための第2の取得モジュールと、前記マスキングされたソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3のマスキング出力値を得るための第3の取得モジュールと、前記第3の基準出力値及び前記第3のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得るための第2の調整モジュールとをさらに含む。
いくつかの実施例において、前記第2の調整モジュールは、前記第3の基準出力値と第1のラベルとの間の第3のクロスエントロピーを特定するための第8の特定サブモジュールと、前記第3の基準出力値と前記第3のマスキング出力値との間の第3の相対エントロピーを特定するための第9の特定サブモジュールと、前記第3のクロスエントロピー及び前記第3の相対エントロピーに基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整するための調整サブモジュールとを含む。
図8は、本開示の別の実施例によるテキストデータ処理装置のブロック図である。
図8に示すように、該装置800は第4の取得モジュール810を含んでよい。
第4の取得モジュール810は、テキストデータを深層学習モデルに入力して、処理結果を得るためのものである。
ただし、前記深層学習モデルは本開示により提供される装置を用いてトレーニングされるものである。
本開示の技術案では、係られたユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用などの処理は、いずれも関連法律や法規の規定に合致しており、必要なセキュリティ対策を採用しており、公序良俗に反していない。本開示の技術案において、ユーザ個人情報を取得又は収集する前に、ユーザの許可又は同意を得ている。
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。
図9は、本開示の実施例を実行することが可能な例示的電子機器900の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似的な演算装置である。本明細書に示された部品、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
図9に示すように、機器900は、計算手段901を含み、計算手段901は、リードオンリーメモリ(ROM)902に記憶されたコンピュータプログラム又は記憶手段908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM903には、さらに機器900の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段901、ROM902、及びRAM903は、バス904を介して相互に接続される。入出力(I/O)インターフェース905も、バス904に接続される。
機器900における複数の部品は、I/Oインターフェース905に接続され、例えばキーボード、マウス等の入力手段906と、例えば様々な種類のディスプレイ、スピーカ等の出力手段907と、例えば磁気ディスク、光ディスク等の記憶手段908と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段909とを含む。通信手段909は、機器900がインターネット等のコンピュータネットワーク及び/又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
計算手段901は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算手段901の幾つかの例として、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段901は、前文で記載された各方法及び処理、例えば深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法を実行する。例えば、幾つかの実施例において、深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法は、例えば記憶ユニット908のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信手段909を介して機器900にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM903にロードされて計算手段901により実行される場合、前文に記載の深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段901は、他の任意の適切な方式(例えば、ファームウェアを介する)により深層学習モデルのトレーニング方法及び/又はテキストデータ処理方法を実行するように構成されてもよい。
本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス (CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. 深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得ることと、
    前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定することと、
    前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得ることとを含む、
    深層学習モデルのトレーニング方法。
  2. 前記深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得ることは、
    前記サンプルソースデータ及び前記サンプルターゲットデータを前記深層学習モデルにそれぞれ入力して、第1の出力値として第1の基準出力値及び第2の基準出力値を得ることと、
    前記サンプルソースデータ及び前記サンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得ることと、
    前記複数のソースデータセグメントのうちの少なくとも一部及び前記複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得ることと、
    前記マスキングされたソースデータ及び前記マスキングされたターゲットデータを前記深層学習モデルにそれぞれ入力して、第2の出力値として第1のマスキング出力値及び第2のマスキング出力値を得ることとを含む、
    請求項1に記載の方法。
  3. 前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定することは、
    前記第1の基準出力値と前記第1のマスキング出力値との間の第1の相対エントロピーを特定することと、
    前記第2の基準出力値と前記第2のマスキング出力値との間の第2の相対エントロピーを特定することと、
    前記第1の相対エントロピー及び第2の相対エントロピーに基づいて、前記正則化関数値を特定することとを含む、
    請求項2に記載の方法。
  4. 前記サンプルソースデータは第1のラベルを有し、前記サンプルターゲットデータは第2のラベルを有しており、
    前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定することは、
    前記第1の基準出力値と前記第1のラベルとの間の第1のクロスエントロピーを特定することと、
    前記第2の基準出力値と前記第2のラベルとの間の第2のクロスエントロピーを特定することと、
    前記第1のクロスエントロピー、前記第2のクロスエントロピー、前記第1の相対エントロピー及び前記第2の相対エントロピーに基づいて、前記正則化関数値を特定することとをさらに含む、
    請求項3に記載の方法。
  5. 前記サンプルソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3の基準出力値を得ることと、
    前記マスキングされたソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3のマスキング出力値を得ることと、
    前記第3の基準出力値及び前記第3のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得ることとをさらに含む、
    請求項2~4のいずれか一項に記載の方法。
  6. 前記第3の基準出力値及び前記第3のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得ることは、
    前記第3の基準出力値と第1のラベルとの間の第3のクロスエントロピーを特定することと、
    前記第3の基準出力値と前記第3のマスキング出力値との間の第3の相対エントロピーを特定することと、
    前記第3のクロスエントロピー及び前記第3の相対エントロピーに基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整することとを含む、
    請求項5に記載の方法。
  7. テキストデータを深層学習モデルに入力して、処理結果を得ることを含むテキストデータ処理方法ものであって、
    前記深層学習モデルは、請求項1~6のいずれか一項に記載の方法を用いてトレーニングされるものである、
    テキストデータ処理方法。
  8. 深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得るための第1の取得モジュールと、
    前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定するための特定モジュールと、
    前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得るための第1の調整モジュールとを含む、
    深層学習モデルのトレーニング装置。
  9. 前記第1の取得モジュールは、
    前記サンプルソースデータ及び前記サンプルターゲットデータを前記深層学習モデルにそれぞれ入力して、第1の出力値として第1の基準出力値及び第2の基準出力値を得るための第1の取得サブモジュールと、
    前記サンプルソースデータ及び前記サンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得るためのワードセグメンテーションサブモジュールと、
    前記複数のソースデータセグメントのうちの少なくとも一部及び前記複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得るためのマスキングモジュールと、
    前記マスキングされたソースデータ及び前記マスキングされたターゲットデータを前記深層学習モデルにそれぞれ入力して、第2の出力値として第1のマスキング出力値及び第2のマスキング出力値を得るための第2の取得サブモジュールとを含む、
    請求項8に記載の装置。
  10. 前記特定モジュールは、
    前記第1の基準出力値と前記第1のマスキング出力値との間の第1の相対エントロピーを特定するための第1の特定サブモジュールと、
    前記第2の基準出力値と前記第2のマスキング出力値との間の第2の相対エントロピーを特定するための第2の特定サブモジュールと、
    前記第1の相対エントロピー及び第2の相対エントロピーに基づいて、前記正則化関数値を特定するための第3の特定サブモジュールとを含む、
    請求項9に記載の装置。
  11. 前記サンプルソースデータは第1のラベルを有し、前記サンプルターゲットデータは第2のラベルを有しており、
    前記特定モジュールは、
    前記第1の基準出力値と前記第1のラベルとの間の第1のクロスエントロピーを特定するための第5の特定サブモジュールと、
    前記第2の基準出力値と前記第2のラベルとの間の第2のクロスエントロピーを特定するための第6の特定サブモジュールと、
    前記第1のクロスエントロピー、前記第2のクロスエントロピー、前記第1の相対エントロピー及び前記第2の相対エントロピーに基づいて、前記正則化関数値を特定するための第7の特定サブモジュールとをさらに含む、
    請求項10に記載の装置。
  12. 前記サンプルソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3の基準出力値を得るための第2の取得モジュールと、
    前記マスキングされたソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3のマスキング出力値を得るための第3の取得モジュールと、
    前記第3の基準出力値及び前記第3のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得るための第2の調整モジュールとをさらに含む、
    請求項9~11のいずれか一項に記載の装置。
  13. 前記第2の調整モジュールは、
    前記第3の基準出力値と第1のラベルとの間の第3のクロスエントロピーを特定するための第8の特定サブモジュールと、
    前記第3の基準出力値と前記第3のマスキング出力値との間の第3の相対エントロピーを特定するための第9の特定サブモジュールと、
    前記第3のクロスエントロピー及び前記第3の相対エントロピーに基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整するための調整サブモジュールとを含む、
    請求項12に記載の装置。
  14. テキストデータを深層学習モデルに入力して、処理結果を得るための第4の取得モジュールを含むテキストデータ処理装置であって、
    前記深層学習モデルは、請求項8~13のいずれか一項に記載の装置を用いてトレーニングされるものである、
    テキストデータ処理装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
    前記命令は、前記少なくとも1つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される、
    電子機器。
  16. コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれか一項に記載の方法を実行させるために用いられる、
    記憶媒体。
  17. プロセッサにより実行される場合に、請求項1~7のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022190230A 2022-02-28 2022-11-29 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム Pending JP2023025126A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210189268.9A CN114564971B (zh) 2022-02-28 2022-02-28 深度学习模型的训练方法、文本数据处理方法和装置
CN202210189268.9 2022-02-28

Publications (1)

Publication Number Publication Date
JP2023025126A true JP2023025126A (ja) 2023-02-21

Family

ID=81715030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022190230A Pending JP2023025126A (ja) 2022-02-28 2022-11-29 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230088360A1 (ja)
JP (1) JP2023025126A (ja)
CN (1) CN114564971B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358392B (zh) * 2022-10-21 2023-05-05 北京百度网讯科技有限公司 深度学习网络的训练方法、文本检测方法及装置
CN117391076B (zh) * 2023-12-11 2024-02-27 东亚银行(中国)有限公司 敏感数据的识别模型的获取方法、装置、电子设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3371749A1 (en) * 2015-11-06 2018-09-12 Google LLC Regularizing machine learning models
CN110134772B (zh) * 2019-04-18 2023-05-12 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110647920A (zh) * 2019-08-29 2020-01-03 北京百度网讯科技有限公司 机器学习中的迁移学习方法及装置、设备与可读介质
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备
CN113360751A (zh) * 2020-03-06 2021-09-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备和介质
CN112926322A (zh) * 2021-04-28 2021-06-08 河南大学 融合自注意力机制和深度学习的文本分类方法及系统

Also Published As

Publication number Publication date
CN114564971B (zh) 2023-05-12
US20230088360A1 (en) 2023-03-23
CN114564971A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
US20220318275A1 (en) Search method, electronic device and storage medium
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
US20230023789A1 (en) Method for identifying noise samples, electronic device, and storage medium
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
JP2022006173A (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
US20230004798A1 (en) Intent recognition model training and intent recognition method and apparatus
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
JP2022173453A (ja) ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
US20230103728A1 (en) Method for sample augmentation
KR102608867B1 (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
CN114861637A (zh) 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN112560846B (zh) 纠错语料的生成方法、装置及电子设备
US20230081015A1 (en) Method and apparatus for acquiring information, electronic device and storage medium
US20230070966A1 (en) Method for processing question, electronic device and storage medium
CN115730590A (zh) 意图识别方法以及相关设备
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN115357710A (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN115359323A (zh) 图像的文本信息生成方法和深度学习模型的训练方法
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质
CN114490969A (zh) 基于表格的问答方法、装置以及电子设备
CN113591492B (zh) 语料生成方法、装置、电子设备以及存储介质
CN114282552B (zh) 非自回归翻译模型的训练方法及其装置
CN114662469B (zh) 情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240313