JP7262537B2 - 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体 - Google Patents
機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体 Download PDFInfo
- Publication number
- JP7262537B2 JP7262537B2 JP2021144744A JP2021144744A JP7262537B2 JP 7262537 B2 JP7262537 B2 JP 7262537B2 JP 2021144744 A JP2021144744 A JP 2021144744A JP 2021144744 A JP2021144744 A JP 2021144744A JP 7262537 B2 JP7262537 B2 JP 7262537B2
- Authority
- JP
- Japan
- Prior art keywords
- attention
- machine learning
- characters
- learning model
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Character Discrimination (AREA)
Description
訓練サンプルの入力情報を取得するステップと、
前記入力情報内の複数の入力文字のそれぞれに対して特徴抽出を行って、前記複数の入力文字の特徴を取得するステップと、
前記複数の入力文字の特徴を機械学習モデルに入力して、前記機械学習モデルの注意層を使用して前記複数の入力文字に対して注意重みキャプチャを行うステップと、
前記注意層によってキャプチャされた注意重みを擾乱して、前記機械学習モデルが擾乱された注意重みに基づいて予測文字を出力するようにするステップと、
前記予測文字と前記訓練サンプルのラベル付け文字との間の差に基づいて、前記機械学習モデルを訓練するステップと、を含む。
訓練サンプルの入力情報を取得するための取得モジュールと、
前記入力情報内の複数の入力文字のそれぞれに対して特徴抽出を行って、前記複数の入力文字の特徴を取得するための抽出モジュールと、
前記複数の入力文字の特徴を機械学習モデルに入力して、前記機械学習モデルの注意層を使用して前記複数の入力文字に対して注意重みキャプチャを行うための入力モジュールと、
前記注意層によってキャプチャされた注意重みを擾乱して、前記機械学習モデルが擾乱された注意重みに基づいて予測文字を出力するようにするための擾乱モジュールと、
前記予測文字と前記訓練サンプルのラベル付け文字との間の差に基づいて、前記機械学習モデルを訓練するための訓練モジュールと、を含む。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、ただし、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本出願の上記実施例にて提案される機械学習モデルの敵対的訓練方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本出願のさらなる態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに本出願の上記実施例にて提案される機械学習モデルの敵対的訓練方法を実行させる。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される機械学習モデルの敵対的訓練方法を実行させる。
Claims (13)
- 機械学習モデルの敵対的訓練方法であって、
訓練サンプルの入力情報を取得するステップと、
前記入力情報内の複数の入力文字のそれぞれに対して特徴抽出を行って、前記複数の入力文字の特徴を取得するステップと、
前記複数の入力文字の特徴を機械学習モデルに入力して、前記機械学習モデルの注意層を使用して前記複数の入力文字に対して注意重みキャプチャを行うステップと、
前記注意層によってキャプチャされた注意重みを擾乱して、前記機械学習モデルが擾乱された注意重みに基づいて予測文字を出力するようにするステップと、
前記予測文字と前記訓練サンプルのラベル付け文字との間の差に基づいて、前記機械学習モデルを訓練するステップと、
前記複数の入力文字のうちの少なくとも1つの入力文字の特徴に対して特徴擾乱を行うステップと、を含む、
ことを特徴とする機械学習モデルの敵対的訓練方法。 - 前記注意重みは行列状であり、
前記注意層によってキャプチャされた注意重みを擾乱するステップは、
予め設定された範囲内で第1乱数を生成し、前記第1乱数に基づいて、前記行列内の1つ又は複数の次元の重み成分を置き換えるステップを含む、
ことを特徴とする請求項1に記載の方法。 - 前記注意重みは行列状であり、
前記注意層によってキャプチャされた注意重みを擾乱するステップは、
第2乱数を生成し、前記第2乱数を使用して、前記行列内の1つ又は複数の次元の重み成分を更新するステップを含む、
ことを特徴とする請求項1に記載の方法。 - 前記機械学習モデルは複数の注意層を含み、
前記注意層によってキャプチャされた注意重みを擾乱するステップは、
前記複数の注意層から少なくとも1つのターゲット注意層をランダムに選択するステップと、
前記ターゲット注意層から出力された注意重みを擾乱するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記注意重みは、前記複数の入力文字のうちの各入力文字の他の文字に対する注目度を表す、
ことを特徴とする請求項1~4のいずれか1項に記載の方法。 - 機械学習モデルの敵対的訓練装置であって、
訓練サンプルの入力情報を取得するための取得モジュールと、
前記入力情報内の複数の入力文字のそれぞれに対して特徴抽出を行って、前記複数の入力文字の特徴を取得するための抽出モジュールと、
前記複数の入力文字の特徴を機械学習モデルに入力して、前記機械学習モデルの注意層を使用して前記複数の入力文字に対して注意重みキャプチャを行うための入力モジュールと、
前記注意層によってキャプチャされた注意重みを擾乱して、前記機械学習モデルが擾乱された注意重みに基づいて予測文字を出力するようにするための擾乱モジュールと、
前記予測文字と前記訓練サンプルのラベル付け文字との間の差に基づいて、前記機械学習モデルを訓練するための訓練モジュールと、を含み、
前記擾乱モジュールが、
前記複数の入力文字のうちの少なくとも1つの入力文字の特徴に対して特徴擾乱を行う、
ことを特徴とする機械学習モデルの敵対的訓練装置。 - 前記注意重みは行列状であり、
前記擾乱モジュールが、
予め設定された範囲内で第1乱数を生成し、前記第1乱数に基づいて、前記行列内の1つ又は複数の次元の重み成分を置き換える、
ことを特徴とする請求項6に記載の装置。 - 前記注意重みは行列状であり、
前記擾乱モジュールが、
第2乱数を生成し、前記第2乱数を使用して、前記行列内の1つ又は複数の次元の重み成分を更新する、
ことを特徴とする請求項6に記載の装置。 - 前記機械学習モデルは複数の注意層を含み、
前記擾乱モジュールが、
前記複数の注意層から少なくとも1つのターゲット注意層をランダムに選択し、
前記ターゲット注意層から出力された注意重みを擾乱する、
ことを特徴とする請求項6に記載の装置。 - 前記注意重みは、前記複数の入力文字のうちの各入力文字の他の文字に対する注目度を表す、
ことを特徴とする請求項9に記載の装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれか1項に記載の機械学習モデルの敵対的訓練方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~5のいずれか1項に記載の機械学習モデルの敵対的訓練方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項1~5のいずれか1項に記載の機械学習モデルの敵対的訓練方法を実行させる、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011488742.5A CN112580822B (zh) | 2020-12-16 | 2020-12-16 | 机器学习模型的对抗训练方法装置、电子设备和介质 |
CN202011488742.5 | 2020-12-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021192289A JP2021192289A (ja) | 2021-12-16 |
JP7262537B2 true JP7262537B2 (ja) | 2023-04-21 |
Family
ID=75135820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021144744A Active JP7262537B2 (ja) | 2020-12-16 | 2021-09-06 | 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210334659A1 (ja) |
JP (1) | JP7262537B2 (ja) |
CN (1) | CN112580822B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221163B (zh) * | 2021-04-29 | 2023-05-23 | 深圳大学 | 一种训练模型的方法及系统 |
CN114021645A (zh) * | 2021-11-03 | 2022-02-08 | 北京百度网讯科技有限公司 | 视觉模型降秩方法、装置、设备、存储介质以及程序产品 |
CN115358343A (zh) * | 2022-09-06 | 2022-11-18 | 河海大学 | 基于对抗和伪标签学习的小样本洪水预报方法 |
CN115392259B (zh) * | 2022-10-27 | 2023-04-07 | 暨南大学 | 一种基于对抗训练融合bert的微博文本情感分析方法及系统 |
CN115392326B (zh) * | 2022-10-27 | 2024-03-19 | 中国人民解放军国防科技大学 | 基于联合多模态信息与域对抗神经网络的调制识别方法 |
CN115909354B (zh) * | 2022-11-11 | 2023-11-10 | 北京百度网讯科技有限公司 | 文本生成模型的训练方法、文本获取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019087033A1 (en) | 2017-11-01 | 2019-05-09 | International Business Machines Corporation | Protecting cognitive systems from gradient based attacks through the use of deceiving gradients |
JP2020506466A (ja) | 2017-05-23 | 2020-02-27 | グーグル エルエルシー | アテンションベースのシーケンス変換ニューラルネットワーク |
US20200081982A1 (en) | 2017-12-15 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Translation model based training method and translation method, computer device, and storage medium |
WO2020123207A1 (en) | 2018-12-11 | 2020-06-18 | Salesforce.Com, Inc. | Structured text translation |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2568660B (en) * | 2017-10-20 | 2020-10-14 | Graphcore Ltd | Generating Random Numbers Based on a Predetermined Probaility Distribution in an Execution Unit |
US11461628B2 (en) * | 2017-11-03 | 2022-10-04 | Samsung Electronics Co., Ltd. | Method for optimizing neural networks |
CN109190661A (zh) * | 2018-07-26 | 2019-01-11 | 安徽师范大学 | 一种基于差分隐私保护的谱聚类方法 |
US11568211B2 (en) * | 2018-12-27 | 2023-01-31 | Intel Corporation | Defending neural networks by randomizing model weights |
CN109948658B (zh) * | 2019-02-25 | 2021-06-15 | 浙江工业大学 | 面向特征图注意力机制的对抗攻击防御方法及应用 |
US11507878B2 (en) * | 2019-04-10 | 2022-11-22 | Adobe Inc. | Adversarial training for event sequence analysis |
CN110334548B (zh) * | 2019-07-16 | 2023-04-07 | 桂林电子科技大学 | 一种基于差分隐私的数据异常检测方法 |
CN111325205B (zh) * | 2020-03-02 | 2023-10-10 | 北京三快在线科技有限公司 | 文档图像方向识别方法、装置及模型的训练方法、装置 |
CN111401415A (zh) * | 2020-03-02 | 2020-07-10 | 北京三快在线科技有限公司 | 计算机视觉任务模型的训练方法、装置、设备和存储介质 |
CN111651992A (zh) * | 2020-04-24 | 2020-09-11 | 平安科技(深圳)有限公司 | 命名实体标注方法、装置、计算机设备和存储介质 |
-
2020
- 2020-12-16 CN CN202011488742.5A patent/CN112580822B/zh active Active
-
2021
- 2021-07-07 US US17/369,699 patent/US20210334659A1/en active Pending
- 2021-09-06 JP JP2021144744A patent/JP7262537B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020506466A (ja) | 2017-05-23 | 2020-02-27 | グーグル エルエルシー | アテンションベースのシーケンス変換ニューラルネットワーク |
WO2019087033A1 (en) | 2017-11-01 | 2019-05-09 | International Business Machines Corporation | Protecting cognitive systems from gradient based attacks through the use of deceiving gradients |
US20200081982A1 (en) | 2017-12-15 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Translation model based training method and translation method, computer device, and storage medium |
WO2020123207A1 (en) | 2018-12-11 | 2020-06-18 | Salesforce.Com, Inc. | Structured text translation |
Non-Patent Citations (1)
Title |
---|
BAAN Joris et al.,Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?,arXiv [online],2019年07月08日,[2022年9月22日検索], インターネット<URL: https://arxiv.org/abs/1907.00570v2> |
Also Published As
Publication number | Publication date |
---|---|
JP2021192289A (ja) | 2021-12-16 |
US20210334659A1 (en) | 2021-10-28 |
CN112580822B (zh) | 2023-10-17 |
CN112580822A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7262537B2 (ja) | 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体 | |
KR102497945B1 (ko) | 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 | |
JP7250052B2 (ja) | 自然言語及び知識グラフに基づく表現学習方法及び装置 | |
CN111428507B (zh) | 实体链指方法、装置、设备以及存储介质 | |
EP3889830A1 (en) | Cross-modality processing method and apparatus, electronic device and computer storage medium | |
JP7113097B2 (ja) | テキストエンティティの語義記述処理方法、装置及び機器 | |
JP7228662B2 (ja) | イベント抽出方法、装置、電子機器及び記憶媒体 | |
KR102484617B1 (ko) | 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램 | |
JP7262571B2 (ja) | 知識グラフのベクトル表現生成方法、装置及び電子機器 | |
JP7264866B2 (ja) | イベント関係の生成方法、装置、電子機器及び記憶媒体 | |
JP7309798B2 (ja) | 対話意図の認識方法及び装置、電子機器並びに記憶媒体 | |
JP2021184237A (ja) | データセット処理方法、装置、電子機器及び記憶媒体 | |
JP7267342B2 (ja) | 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 | |
CN112347769B (zh) | 实体识别模型的生成方法、装置、电子设备及存储介质 | |
KR102565673B1 (ko) | 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
JP7149993B2 (ja) | 感情分析モデルの事前トレーニング方法、装置及び電子機器 | |
KR20210040885A (ko) | 정보 생성 방법 및 장치 | |
JP2022020582A (ja) | 自然言語処理モデルの訓練方法、装置、デバイス及び記憶媒体 | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
JP2021108115A (ja) | 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体 | |
KR102635800B1 (ko) | 신경망 모델의 사전 훈련 방법, 장치, 전자 기기 및 매체 | |
CN112528669B (zh) | 多语言模型的训练方法、装置、电子设备和可读存储介质 | |
JP7133002B2 (ja) | 句読点予測方法および装置 | |
CN114154550B (zh) | 域名对抗样本生成方法以及装置 | |
CN111831814A (zh) | 摘要生成模型的预训练方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7262537 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |