JP7566969B2 - 軽量モデルトレーニング方法、画像処理方法、軽量モデルトレーニング装置、画像処理装置、電子デバイス、記憶媒体及びコンピュータプログラム - Google Patents
軽量モデルトレーニング方法、画像処理方法、軽量モデルトレーニング装置、画像処理装置、電子デバイス、記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7566969B2 JP7566969B2 JP2023070644A JP2023070644A JP7566969B2 JP 7566969 B2 JP7566969 B2 JP 7566969B2 JP 2023070644 A JP2023070644 A JP 2023070644A JP 2023070644 A JP2023070644 A JP 2023070644A JP 7566969 B2 JP7566969 B2 JP 7566969B2
- Authority
- JP
- Japan
- Prior art keywords
- loss function
- probability
- output value
- determining
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7792—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being an automated module, e.g. "intelligent oracle"
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
Claims (17)
- コンピュータにより実行される、第1取得モジュールと、データ拡張モジュールと、予測モジュールと、第1決定モジュールと、第2決定モジュールと、トレーニングモジュールと、第3決定モジュールと、を備える、軽量モデルトレーニング装置において、
前記第1取得モジュールが、e回目の反復に用いられる第1拡張確率、第2拡張確率、及び蒸留項損失値の重みである目標重みを取得することであって、前記eは最大反復回数であるE以下の正の整数であり、前記Eは1より大きい正の整数である、取得することと、
前記データ拡張モジュールが、それぞれ前記第1拡張確率と前記第2拡張確率とに基づいて、データセットに対してデータ拡張を行って、第1データセットと第2データセットとを得ることと、
前記予測モジュールが、前記第1データセットに基づいて軽量モデルである生徒モデルの第1出力値と教師モデルの第2出力値とを得、前記第2データセットに基づいて前記生徒モデルの第3出力値と前記教師モデルの第4出力値とを得ることと、
前記第1決定モジュールが、前記第1出力値と前記第2出力値とに基づいて蒸留損失関数を決定し、前記第3出力値と前記第4出力値とに基づいて真値損失関数を決定することと、
第2決定モジュールが、前記蒸留損失関数と前記真値損失関数とに基づいて目標損失関数を決定することと、
前記トレーニングモジュールが、前記目標損失関数に基づいて前記生徒モデルをトレーニングし、前記第3決定モジュールが、前記eが前記Eよりも小さい場合に、e+1回目の反復に用いられるべき第1拡張確率または目標重みを決定することと、を含む、
軽量モデルトレーニング方法。 - 前記軽量モデルトレーニング装置は、第2取得モジュールと、第4決定モジュールと、をさらに備え、
前記軽量モデルトレーニング方法は、
前記第2取得モジュールが、最大拡張確率を取得することと、
前記第4決定モジュールが、前記最大拡張確率と、前記最大反復回数と、前記第1拡張確率とに基づいて、前記第2拡張確率を決定することと、をさらに含む、
請求項1に記載の軽量モデルトレーニング方法。 - 前記第3決定モジュールが、前記e+1回目の反復に用いられるべき第1拡張確率を決定することは、
前記最大拡張確率と、前記最大反復回数と、前記e回目の前記第1拡張確率とに基づいて、前記e+1回目の反復に用いられるべき第1拡張確率を決定すること、を含む、
請求項2に記載の軽量モデルトレーニング方法。 - 前記軽量モデルトレーニング装置は、第3取得モジュールをさらに備え、
前記軽量モデルトレーニング方法は、
前記第3取得モジュールが、最大目標重みを取得すること、を含み、
前記第3決定モジュールが、前記e+1回目の反復に用いられるべき目標重みを決定することは、
前記最大目標重みと、前記最大反復回数と、前記e回目の前記目標重みとに基づいて、前記e+1回目の反復に用いられるべき目標重みを決定すること、を含む、
請求項1に記載の軽量モデルトレーニング方法。 - 前記第2決定モジュールが、前記蒸留損失関数と前記真値損失関数とに基づいて目標損失関数を決定することは、
前記目標重みが最大目標重み以上である場合に、または前記蒸留損失関数が前記真値損失関数以上である場合に、前記蒸留損失関数を前記目標損失関数として決定する一方、そうでない場合に、前記真値損失関数を前記目標損失関数として決定すること、を含む、
請求項1に記載の軽量モデルトレーニング方法。 - 前記第1決定モジュールが、前記第1出力値と前記第2出力値とに基づいて蒸留損失関数を決定することは、
下記の式により前記蒸留損失関数を決定すること、を含み、
- 前記第1決定モジュールが、前記第3出力値と前記第4出力値とに基づいて真値損失関数を決定することは、
下記の式により前記真値損失関数を決定すること、を含み、
- e回目の反復に用いられる第1拡張確率、第2拡張確率、及び蒸留項損失値の重みである目標重みを取得するための第1取得モジュールであって、前記eは最大反復回数であるE以下の正の整数であり、前記Eは1より大きい正の整数である第1取得モジュールと、
それぞれ前記第1拡張確率と前記第2拡張確率とに基づいて、データセットに対してデータ拡張を行って、第1データセットと第2データセットとを得るためのデータ拡張モジュールと、
前記第1データセットに基づいて軽量モデルである生徒モデルの第1出力値と教師モデルの第2出力値とを得、前記第2データセットに基づいて前記生徒モデルの第3出力値と前記教師モデルの第4出力値とを得るための予測モジュールと、
前記第1出力値と前記第2出力値とに基づいて蒸留損失関数を決定し、前記第3出力値と前記第4出力値とに基づいて真値損失関数を決定するための第1決定モジュールと、
前記蒸留損失関数と前記真値損失関数とに基づいて目標損失関数を決定するための第2決定モジュールと、
前記目標損失関数に基づいて前記生徒モデルをトレーニングするためのトレーニングモジュールと、
前記eが前記Eよりも小さい場合に、e+1回目の反復に用いられるべき第1拡張確率または目標重みを決定するための第3決定モジュールと、を備える、
軽量モデルトレーニング装置。 - 前記軽量モデルトレーニング装置は、
最大拡張確率を取得するための第2取得モジュールと、
前記最大拡張確率と、前記最大反復回数と、前記第1拡張確率とに基づいて、前記第2拡張確率を決定するための第4決定モジュールと、をさらに備える、
請求項8に記載の軽量モデルトレーニング装置。 - 前記第3決定モジュールは、
最大拡張確率と、前記最大反復回数と、前記e回目の前記第1拡張確率とに基づいて、前記e+1回目の反復に用いられるべき第1拡張確率を決定するための第1決定サブユニット、を備える、
請求項8に記載の軽量モデルトレーニング装置。 - 前記軽量モデルトレーニング装置は、
最大目標重みを取得するための第3取得モジュール、をさらに備え、
前記第3決定モジュールは、
前記最大目標重みと、前記最大反復回数と、前記e回目の前記目標重みとに基づいて、前記e+1回目の反復に用いられるべき目標重みを決定するための第2決定サブユニット、を備える、
請求項8に記載の軽量モデルトレーニング装置。 - 前記第2決定モジュールは、
前記目標重みが最大目標重み以上である場合に、または前記蒸留損失関数が前記真値損失関数以上である場合に、前記蒸留損失関数を前記目標損失関数として決定する一方、そうでない場合に、前記真値損失関数を前記目標損失関数として決定するための第3決定サブユニット、を備える、
請求項8に記載の軽量モデルトレーニング装置。 - 前記第1決定モジュールは、
下記の式により前記蒸留損失関数を決定するための第4決定サブユニット、を備え、
請求項8に記載の軽量モデルトレーニング装置。 - 前記第1決定モジュールは、
下記の式により前記真値損失関数を決定するための第5決定サブユニット、を備え、
請求項8に記載の軽量モデルトレーニング装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサで実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、請求項1から請求項7のいずれか1項に記載の方法を実行させる、
電子デバイス。 - コンピュータに請求項1から請求項7のいずれか1項に記載の方法を実行させるコンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体。
- プロセッサにより実行されると、請求項1から請求項7のいずれか1項に記載の方法を実現するコンピュータプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211059602.5A CN115456167B (zh) | 2022-08-30 | 2022-08-30 | 轻量级模型训练方法、图像处理方法、装置及电子设备 |
| CN202211059602.5 | 2022-08-30 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024035052A JP2024035052A (ja) | 2024-03-13 |
| JP7566969B2 true JP7566969B2 (ja) | 2024-10-15 |
Family
ID=84300516
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023070644A Active JP7566969B2 (ja) | 2022-08-30 | 2023-04-24 | 軽量モデルトレーニング方法、画像処理方法、軽量モデルトレーニング装置、画像処理装置、電子デバイス、記憶媒体及びコンピュータプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US12380328B2 (ja) |
| JP (1) | JP7566969B2 (ja) |
| CN (1) | CN115456167B (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025024193A1 (en) * | 2023-07-21 | 2025-01-30 | Krisp Technologies, Inc. | Pre-trained machine learning models for real-time speech form conversion |
| CN117853876B (zh) * | 2024-03-08 | 2024-06-11 | 合肥晶合集成电路股份有限公司 | 一种晶圆缺陷检测模型的训练方法以及系统 |
| CN118093832B (zh) * | 2024-04-17 | 2024-09-13 | 北京澜舟科技有限公司 | 一种大模型蒸馏方法、装置和存储介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021044591A1 (ja) | 2019-09-05 | 2021-03-11 | 日本電気株式会社 | モデル生成装置、モデル生成方法、及び、記録媒体 |
| CN112990342A (zh) | 2021-04-08 | 2021-06-18 | 重庆大学 | 一种半监督sar目标识别方法 |
| CN113592023A (zh) | 2021-08-11 | 2021-11-02 | 杭州电子科技大学 | 一种基于深度模型框架的高效细粒度图像分类模型 |
| WO2022132967A1 (en) | 2020-12-15 | 2022-06-23 | Mars, Incorporated | Systems and methods for assessing pet radiology images |
| CN114863248A (zh) | 2022-03-02 | 2022-08-05 | 武汉大学 | 一种基于深监督自蒸馏的图像目标检测方法 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111738401A (zh) * | 2019-03-25 | 2020-10-02 | 北京三星通信技术研究有限公司 | 模型优化方法、分组压缩方法、相应的装置、设备 |
| CN111242297A (zh) * | 2019-12-19 | 2020-06-05 | 北京迈格威科技有限公司 | 基于知识蒸馏的模型训练方法、图像处理方法及装置 |
| US20230214670A1 (en) * | 2020-05-26 | 2023-07-06 | Indeed, Inc. | Knowledge distillation in multi-arm bandit, neural network models for real-time online optimization |
| US20220076136A1 (en) * | 2020-09-09 | 2022-03-10 | Peyman PASSBAN | Method and system for training a neural network model using knowledge distillation |
| US20220101185A1 (en) * | 2020-09-29 | 2022-03-31 | International Business Machines Corporation | Mobile ai |
| US20220101184A1 (en) * | 2020-09-29 | 2022-03-31 | International Business Machines Corporation | Mobile ai |
| CN114463798A (zh) * | 2020-10-22 | 2022-05-10 | 北京鸿享技术服务有限公司 | 人脸识别模型的训练方法、装置、设备及存储介质 |
| US11809523B2 (en) * | 2021-02-18 | 2023-11-07 | Irida Labs S.A. | Annotating unlabeled images using convolutional neural networks |
| CN112966744A (zh) * | 2021-03-08 | 2021-06-15 | 北京百度网讯科技有限公司 | 模型训练方法、图像处理方法、装置和电子设备 |
| US12067777B2 (en) * | 2021-03-17 | 2024-08-20 | Qualcomm Incorporated | Efficient video processing via dynamic knowledge propagation |
| US20230005165A1 (en) * | 2021-06-24 | 2023-01-05 | Qualcomm Incorporated | Cross-task distillation to improve depth estimation |
| CN113807390A (zh) * | 2021-08-04 | 2021-12-17 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及存储介质 |
| CN114897160A (zh) * | 2022-05-18 | 2022-08-12 | 四川云从天府人工智能科技有限公司 | 模型训练方法、系统及计算机存储介质 |
-
2022
- 2022-08-30 CN CN202211059602.5A patent/CN115456167B/zh active Active
-
2023
- 2023-02-13 US US18/108,956 patent/US12380328B2/en active Active
- 2023-04-24 JP JP2023070644A patent/JP7566969B2/ja active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021044591A1 (ja) | 2019-09-05 | 2021-03-11 | 日本電気株式会社 | モデル生成装置、モデル生成方法、及び、記録媒体 |
| WO2022132967A1 (en) | 2020-12-15 | 2022-06-23 | Mars, Incorporated | Systems and methods for assessing pet radiology images |
| CN112990342A (zh) | 2021-04-08 | 2021-06-18 | 重庆大学 | 一种半监督sar目标识别方法 |
| CN113592023A (zh) | 2021-08-11 | 2021-11-02 | 杭州电子科技大学 | 一种基于深度模型框架的高效细粒度图像分类模型 |
| CN114863248A (zh) | 2022-03-02 | 2022-08-05 | 武汉大学 | 一种基于深监督自蒸馏的图像目标检测方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2024035052A (ja) | 2024-03-13 |
| CN115456167A (zh) | 2022-12-09 |
| CN115456167B (zh) | 2024-03-12 |
| US12380328B2 (en) | 2025-08-05 |
| US20240070454A1 (en) | 2024-02-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7566969B2 (ja) | 軽量モデルトレーニング方法、画像処理方法、軽量モデルトレーニング装置、画像処理装置、電子デバイス、記憶媒体及びコンピュータプログラム | |
| WO2023138188A1 (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
| US20250384560A1 (en) | Model construction method and apparatus, image segmentation method and apparatus, device and medium | |
| CN110826507B (zh) | 人脸检测方法、装置、设备及存储介质 | |
| EP3933708A2 (en) | Model training method, identification method, device, storage medium and program product | |
| JP7793886B2 (ja) | 画像スタイルの遷移方法、装置、電子機器及び記憶媒体 | |
| CN114202648B (zh) | 文本图像矫正方法、训练方法、装置、电子设备以及介质 | |
| US20220004849A1 (en) | Image processing neural networks with dynamic filter activation | |
| JP7552000B2 (ja) | マルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法及び装置 | |
| CN112949818A (zh) | 模型蒸馏方法、装置、设备以及存储介质 | |
| CN115409855B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
| JP2024537258A (ja) | 音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
| CN113361621B (zh) | 用于训练模型的方法和装置 | |
| CN118550708A (zh) | 用于大语言模型的任务执行方法、装置、设备和存储介质 | |
| KR20250050980A (ko) | 이미지 처리 방법 및 장치, 기기와 매체 | |
| CN115082598B (zh) | 文本图像生成、训练、文本图像处理方法以及电子设备 | |
| CN115578583A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
| CN113052771B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
| WO2023092383A1 (en) | Apparatus, method, device and medium for accelerating computation of process engine | |
| CN114495236A (zh) | 图像分割方法、装置、设备、介质及程序产品 | |
| CN114662688A (zh) | 模型的训练方法、数据处理方法、装置、电子设备及介质 | |
| CN119476386B (zh) | 多模态大模型的训练方法、装置及电子设备 | |
| US20250117734A1 (en) | Method and apparatus for target business model generation and data processing based on large model | |
| US20230360638A1 (en) | Method of processing speech information, method of training model, and wake-up method | |
| CN118297186B (zh) | 模型训练方法、装置、设备及计算机程序产品 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230424 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240527 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240723 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240925 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241002 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7566969 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |