JP2023025126A - 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム - Google Patents
深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2023025126A JP2023025126A JP2022190230A JP2022190230A JP2023025126A JP 2023025126 A JP2023025126 A JP 2023025126A JP 2022190230 A JP2022190230 A JP 2022190230A JP 2022190230 A JP2022190230 A JP 2022190230A JP 2023025126 A JP2023025126 A JP 2023025126A
- Authority
- JP
- Japan
- Prior art keywords
- output value
- deep learning
- learning model
- source data
- entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 title claims abstract description 27
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000004590 computer program Methods 0.000 title claims abstract description 13
- 230000006870 function Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 30
- 230000000873 masking effect Effects 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
ここで、図面は、本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。
操作S110において、深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得る。
操作S322において、第2の基準出力値と第2のマスキング出力値との間の第2の相対エントロピーを特定する。
図6に示すように、該方法600は操作S610を含んでよい。
図8に示すように、該装置800は第4の取得モジュール810を含んでよい。
Claims (17)
- 深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得ることと、
前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定することと、
前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得ることとを含む、
深層学習モデルのトレーニング方法。 - 前記深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得ることは、
前記サンプルソースデータ及び前記サンプルターゲットデータを前記深層学習モデルにそれぞれ入力して、第1の出力値として第1の基準出力値及び第2の基準出力値を得ることと、
前記サンプルソースデータ及び前記サンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得ることと、
前記複数のソースデータセグメントのうちの少なくとも一部及び前記複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得ることと、
前記マスキングされたソースデータ及び前記マスキングされたターゲットデータを前記深層学習モデルにそれぞれ入力して、第2の出力値として第1のマスキング出力値及び第2のマスキング出力値を得ることとを含む、
請求項1に記載の方法。 - 前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定することは、
前記第1の基準出力値と前記第1のマスキング出力値との間の第1の相対エントロピーを特定することと、
前記第2の基準出力値と前記第2のマスキング出力値との間の第2の相対エントロピーを特定することと、
前記第1の相対エントロピー及び第2の相対エントロピーに基づいて、前記正則化関数値を特定することとを含む、
請求項2に記載の方法。 - 前記サンプルソースデータは第1のラベルを有し、前記サンプルターゲットデータは第2のラベルを有しており、
前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定することは、
前記第1の基準出力値と前記第1のラベルとの間の第1のクロスエントロピーを特定することと、
前記第2の基準出力値と前記第2のラベルとの間の第2のクロスエントロピーを特定することと、
前記第1のクロスエントロピー、前記第2のクロスエントロピー、前記第1の相対エントロピー及び前記第2の相対エントロピーに基づいて、前記正則化関数値を特定することとをさらに含む、
請求項3に記載の方法。 - 前記サンプルソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3の基準出力値を得ることと、
前記マスキングされたソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3のマスキング出力値を得ることと、
前記第3の基準出力値及び前記第3のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得ることとをさらに含む、
請求項2~4のいずれか一項に記載の方法。 - 前記第3の基準出力値及び前記第3のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得ることは、
前記第3の基準出力値と第1のラベルとの間の第3のクロスエントロピーを特定することと、
前記第3の基準出力値と前記第3のマスキング出力値との間の第3の相対エントロピーを特定することと、
前記第3のクロスエントロピー及び前記第3の相対エントロピーに基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整することとを含む、
請求項5に記載の方法。 - テキストデータを深層学習モデルに入力して、処理結果を得ることを含むテキストデータ処理方法ものであって、
前記深層学習モデルは、請求項1~6のいずれか一項に記載の方法を用いてトレーニングされるものである、
テキストデータ処理方法。 - 深層学習モデルを用いてサンプルソースデータ及び対応するサンプルターゲットデータをそれぞれ処理して、第1の出力値及び第2の出力値を得るための第1の取得モジュールと、
前記第1の出力値及び第2の出力値に基づいて、正則化関数値を特定するための特定モジュールと、
前記正則化関数値に基づいて、前記深層学習モデルのパラメータを調整して、プリトレーニングされた深層学習モデルを得るための第1の調整モジュールとを含む、
深層学習モデルのトレーニング装置。 - 前記第1の取得モジュールは、
前記サンプルソースデータ及び前記サンプルターゲットデータを前記深層学習モデルにそれぞれ入力して、第1の出力値として第1の基準出力値及び第2の基準出力値を得るための第1の取得サブモジュールと、
前記サンプルソースデータ及び前記サンプルターゲットデータに対してそれぞれワードセグメンテーションを行って、複数のソースデータセグメント及び複数のターゲットデータセグメントを得るためのワードセグメンテーションサブモジュールと、
前記複数のソースデータセグメントのうちの少なくとも一部及び前記複数のターゲットデータセグメントのうちの少なくとも一部をそれぞれマスキングして、マスキングされたソースデータ及びマスキングされたターゲットデータを得るためのマスキングモジュールと、
前記マスキングされたソースデータ及び前記マスキングされたターゲットデータを前記深層学習モデルにそれぞれ入力して、第2の出力値として第1のマスキング出力値及び第2のマスキング出力値を得るための第2の取得サブモジュールとを含む、
請求項8に記載の装置。 - 前記特定モジュールは、
前記第1の基準出力値と前記第1のマスキング出力値との間の第1の相対エントロピーを特定するための第1の特定サブモジュールと、
前記第2の基準出力値と前記第2のマスキング出力値との間の第2の相対エントロピーを特定するための第2の特定サブモジュールと、
前記第1の相対エントロピー及び第2の相対エントロピーに基づいて、前記正則化関数値を特定するための第3の特定サブモジュールとを含む、
請求項9に記載の装置。 - 前記サンプルソースデータは第1のラベルを有し、前記サンプルターゲットデータは第2のラベルを有しており、
前記特定モジュールは、
前記第1の基準出力値と前記第1のラベルとの間の第1のクロスエントロピーを特定するための第5の特定サブモジュールと、
前記第2の基準出力値と前記第2のラベルとの間の第2のクロスエントロピーを特定するための第6の特定サブモジュールと、
前記第1のクロスエントロピー、前記第2のクロスエントロピー、前記第1の相対エントロピー及び前記第2の相対エントロピーに基づいて、前記正則化関数値を特定するための第7の特定サブモジュールとをさらに含む、
請求項10に記載の装置。 - 前記サンプルソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3の基準出力値を得るための第2の取得モジュールと、
前記マスキングされたソースデータを前記プリトレーニングされた深層学習モデルに入力して、第3のマスキング出力値を得るための第3の取得モジュールと、
前記第3の基準出力値及び前記第3のマスキング出力値に基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整して、トレーニングされた深層学習モデルを得るための第2の調整モジュールとをさらに含む、
請求項9~11のいずれか一項に記載の装置。 - 前記第2の調整モジュールは、
前記第3の基準出力値と第1のラベルとの間の第3のクロスエントロピーを特定するための第8の特定サブモジュールと、
前記第3の基準出力値と前記第3のマスキング出力値との間の第3の相対エントロピーを特定するための第9の特定サブモジュールと、
前記第3のクロスエントロピー及び前記第3の相対エントロピーに基づいて、前記プリトレーニングされた深層学習モデルのパラメータを調整するための調整サブモジュールとを含む、
請求項12に記載の装置。 - テキストデータを深層学習モデルに入力して、処理結果を得るための第4の取得モジュールを含むテキストデータ処理装置であって、
前記深層学習モデルは、請求項8~13のいずれか一項に記載の装置を用いてトレーニングされるものである、
テキストデータ処理装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
前記命令は、前記少なくとも1つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。 - コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれか一項に記載の方法を実行させるために用いられる、
記憶媒体。 - プロセッサにより実行される場合に、請求項1~7のいずれか一項に記載の方法を実現するコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210189268.9A CN114564971B (zh) | 2022-02-28 | 2022-02-28 | 深度学习模型的训练方法、文本数据处理方法和装置 |
CN202210189268.9 | 2022-02-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023025126A true JP2023025126A (ja) | 2023-02-21 |
Family
ID=81715030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022190230A Pending JP2023025126A (ja) | 2022-02-28 | 2022-11-29 | 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230088360A1 (ja) |
JP (1) | JP2023025126A (ja) |
CN (1) | CN114564971B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115358392B (zh) * | 2022-10-21 | 2023-05-05 | 北京百度网讯科技有限公司 | 深度学习网络的训练方法、文本检测方法及装置 |
CN117391076B (zh) * | 2023-12-11 | 2024-02-27 | 东亚银行(中国)有限公司 | 敏感数据的识别模型的获取方法、装置、电子设备及介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3371749A1 (en) * | 2015-11-06 | 2018-09-12 | Google LLC | Regularizing machine learning models |
CN110134772B (zh) * | 2019-04-18 | 2023-05-12 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110647920A (zh) * | 2019-08-29 | 2020-01-03 | 北京百度网讯科技有限公司 | 机器学习中的迁移学习方法及装置、设备与可读介质 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN113360751A (zh) * | 2020-03-06 | 2021-09-07 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备和介质 |
CN112926322A (zh) * | 2021-04-28 | 2021-06-08 | 河南大学 | 融合自注意力机制和深度学习的文本分类方法及系统 |
-
2022
- 2022-02-28 CN CN202210189268.9A patent/CN114564971B/zh active Active
- 2022-11-28 US US18/059,389 patent/US20230088360A1/en active Pending
- 2022-11-29 JP JP2022190230A patent/JP2023025126A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN114564971B (zh) | 2023-05-12 |
US20230088360A1 (en) | 2023-03-23 |
CN114564971A (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220350965A1 (en) | Method for generating pre-trained language model, electronic device and storage medium | |
US20220318275A1 (en) | Search method, electronic device and storage medium | |
JP2023025126A (ja) | 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
US20230023789A1 (en) | Method for identifying noise samples, electronic device, and storage medium | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
JP2022006173A (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
US20230004798A1 (en) | Intent recognition model training and intent recognition method and apparatus | |
US20220374678A1 (en) | Method for determining pre-training model, electronic device and storage medium | |
JP2022173453A (ja) | ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム | |
US20230114673A1 (en) | Method for recognizing token, electronic device and storage medium | |
US20230103728A1 (en) | Method for sample augmentation | |
KR102608867B1 (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
CN114861637A (zh) | 拼写纠错模型生成方法和装置、拼写纠错方法和装置 | |
CN112560846B (zh) | 纠错语料的生成方法、装置及电子设备 | |
US20230081015A1 (en) | Method and apparatus for acquiring information, electronic device and storage medium | |
US20230070966A1 (en) | Method for processing question, electronic device and storage medium | |
CN115730590A (zh) | 意图识别方法以及相关设备 | |
CN115565186A (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN115357710A (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 | |
CN115359323A (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 | |
CN114119972A (zh) | 模型获取及对象处理方法、装置、电子设备及存储介质 | |
CN114490969A (zh) | 基于表格的问答方法、装置以及电子设备 | |
CN113591492B (zh) | 语料生成方法、装置、电子设备以及存储介质 | |
CN114282552B (zh) | 非自回归翻译模型的训练方法及其装置 | |
CN114662469B (zh) | 情感分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240313 |