JP2021507397A - 画像処理方法、訓練方法、装置、機器、媒体及びプログラム - Google Patents
画像処理方法、訓練方法、装置、機器、媒体及びプログラム Download PDFInfo
- Publication number
- JP2021507397A JP2021507397A JP2020533824A JP2020533824A JP2021507397A JP 2021507397 A JP2021507397 A JP 2021507397A JP 2020533824 A JP2020533824 A JP 2020533824A JP 2020533824 A JP2020533824 A JP 2020533824A JP 2021507397 A JP2021507397 A JP 2021507397A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- feature data
- floating
- image
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 177
- 238000012549 training Methods 0.000 title claims abstract description 135
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 679
- 238000007667 floating Methods 0.000 claims description 169
- 238000012545 processing Methods 0.000 claims description 163
- 230000008569 process Effects 0.000 claims description 85
- 238000001514 detection method Methods 0.000 claims description 57
- 238000012544 monitoring process Methods 0.000 claims description 41
- 238000013139 quantization Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
本願は、2018年4月25日に中国特許局に提出された、出願番号CN201810380453.X、発明の名称「画像処理方法、ニューラルネットワークの訓練方法、装置、機器及び媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
図1は、本願の画像処理方法の1つの実施例のフローチャートである。図1に示すように、前記実施例の方法は、操作S100及び操作S110を備える。以下、図1における各操作のそれぞれについて詳しく説明する。
図12は本願を実現するのに適する例示的装置1200を示し、装置1200は自動車に配置されるコントロールシステム/電子システム、携帯端末(例えば、スマートフォン等)、パーソナルコンピュータ(PC、例えば、デスクトップコンピュータ又はノートパソコン等)、タブレット型コンピュータ及びサーバ等であってよい。図12において装置1200は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、1つ又は複数の中央処理ユニット(CPU)1201、及び/又はニューラルネットワークを用いて画像を処理する1つ又は複数の画像プロセッサ(GPU)1213などであり、プロセッサは、読み取り専用メモリ(ROM)1202に記憶された実行可能コマンド又は記憶部1208からランダムアクセスメモリ(RAM)1203にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信パート1212はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。プロセッサは読み取り専用メモリ1202及び/又はランダムアクセスメモリ1203と通信して実行可能コマンドを実行し、通信バス1204を介して通信パート1212に接続され、通信パート1212を介して他のターゲットデバイスと通信してよく、それにより本願の対応の操作を完成する。
Claims (41)
- 被処理画像をニューラルネットワークに入力する工程と、
前記ニューラルネットワークを介して前記被処理画像の離散的特徴データを形成する工程と、
を備え、
前記ニューラルネットワークは、ガイド情報に基づいて訓練されたものであり、且つ訓練中に、生徒ニューラルネットワークとされ、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの前記画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とする画像処理方法。 - 前記ニューラルネットワークは、大きさが2Mを超えないニューラルネットワークを含むことを特徴とする請求項1に記載の方法。
- 前記ニューラルネットワークを介して前記被処理画像の離散的特徴データを形成する前記工程は、
前記ニューラルネットワークを介して前記被処理画像の浮動小数点特徴データを形成し、前記浮動小数点特徴データを前記被処理画像の離散的特徴データに量子化する工程を含むことを特徴とする請求項1〜2の何れか1項に記載の方法。 - 前記ニューラルネットワークを介して前記被処理画像の浮動小数点特徴データを形成する前記工程は、
前記ニューラルネットワークを介して前記被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して、前記被処理画像の浮動小数点特徴データを形成する工程を含むことを特徴とする請求項3に記載の方法。 - 前記抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換する前記工程は、
前記浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換する工程、及び/又は、
前記浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する工程を含むことを特徴とする請求項4に記載の方法。 - 前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う工程を更に備えることを特徴とする請求項1〜5の何れか1項に記載の方法。
- 前記ガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を更に含むことを特徴とする請求項6に記載の方法。
- 前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う前記工程は、
前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して分類処理を行う工程、又は、
前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して物体検出処理を行う工程を更に含むことを特徴とする請求項6に記載の方法。 - 前記ガイド情報は、
前記生徒ニューラルネットワークの画像サンプルに対して出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異、又は、
前記生徒ニューラルネットワークの画像サンプルに対して出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を更に含むことを特徴とする請求項8に記載の方法。 - 前記ニューラルネットワークの訓練過程は、
画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する工程と、
生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成する工程と、
ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程と、
を含み、
前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とする請求項1〜9の何れか1項に記載の方法。 - 前記ニューラルネットワークの訓練過程は、
前記生徒ニューラルネットワークを介して、前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程を更に含み、
前記ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程は、
教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程を含むことを特徴とする請求項10に記載の方法。 - 前記教師ニューラルネットワークは、
入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、
浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、
を含むことを特徴とする請求項1〜11の何れか1項に記載の方法。 - 前記教師ニューラルネットワークの訓練過程は、
画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力する工程と、
うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、
ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行う工程と、
を含むことを特徴とする請求項12に記載の方法。 - 前記浮動小数点教師ニューラルネットワークの訓練過程は、
画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力する工程と、
被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、
前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行う工程と、
を含むことを特徴とする請求項12〜13の何れか1項に記載の方法。 - 被訓練のニューラルネットワークが訓練中に、生徒ニューラルネットワークとされるニューラルネットワークの訓練方法であって、
画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する工程と、
生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成する工程と、
ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程と、
を備え、
前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とするニューラルネットワークの訓練方法。 - 前記ニューラルネットワークが生徒ニューラルネットワークとされる訓練過程は、
前記生徒ニューラルネットワークを介して、前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程を含み、
前記ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程は、
教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程を含むことを特徴とする請求項15に記載の方法。 - 前記教師ニューラルネットワークは、
入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、
浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、
を含むことを特徴とする請求項15〜16の何れか1項に記載の方法。 - 前記教師ニューラルネットワークの訓練過程は、
画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力する工程と、
うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、
ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行う工程と、
を含むことを特徴とする請求項17に記載の方法。 - 前記浮動小数点教師ニューラルネットワークの訓練過程は、
画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力する工程と、
被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、
前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行う工程と、
を含むことを特徴とする請求項17〜18の何れか1項に記載の方法。 - 被処理画像をニューラルネットワークに入力するための入力画像モジュールと、
前記被処理画像の離散的特徴データを形成するためのニューラルネットワークと、
を含み、
前記ニューラルネットワークは、ガイド情報に基づいて訓練されたものであり、且つ訓練中に、生徒ニューラルネットワークとされ、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの前記画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とする画像処理装置。 - 前記ニューラルネットワークは、大きさが2Mを超えないニューラルネットワークを含むことを特徴とする請求項20に記載の装置。
- 前記ニューラルネットワークは、更に、
前記被処理画像の浮動小数点特徴データを形成して前記被処理画像の離散的特徴データに量子化する工程に用いられることを特徴とする請求項20〜21の何れか1項に記載の装置。 - 前記ニューラルネットワークは、前記被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して、前記被処理画像の浮動小数点特徴データを形成することを特徴とする請求項22に記載の装置。
- 前記ニューラルネットワークは、前記浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換し、及び/又は、
前記浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換することを特徴とする請求項23に記載の装置。 - 前記ニューラルネットワークは、更に、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う工程に用いられることを特徴とする請求項20〜24の何れか1項に記載の装置。
- 前記ガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を更に含むことを特徴とする請求項25に記載の装置。
- 前記ニューラルネットワークは、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して分類処理を行い、又は、
前記ニューラルネットワークは、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して物体検出処理を行うことを特徴とする請求項25に記載の装置。 - 前記ガイド情報は、
前記生徒ニューラルネットワークの画像サンプルに対して出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異、又は、
前記生徒ニューラルネットワークの画像サンプルに対して出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を更に含むことを特徴とする請求項27に記載の装置。 - 画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力して、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成するための入力画像サンプルモジュールと、
ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行うための監視モジュールと、
を更に含み、
前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とする請求項20〜28の何れか1項に記載の装置。 - 前記生徒ニューラルネットワークが前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる場合、
前記監視モジュールは、更に、
教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程に用いられることを特徴とする請求項29に記載の装置。 - 前記教師ニューラルネットワークは、
入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、
浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、
を含むことを特徴とする請求項20〜30の何れか1項に記載の装置。 - 前記教師ニューラルネットワークを訓練するための教師訓練モジュールを更に含み、
前記教師訓練モジュールは、
画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力して、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第1ユニットと、
ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行うための第1監視ユニットと、
を含むことを特徴とする請求項31に記載の装置。 - 前記教師訓練モジュールは、
画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力して、被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第2ユニットと、
前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行うための第2監視ユニットと、
を更に含むことを特徴とする請求項32に記載の装置。 - 被訓練のニューラルネットワークが生徒ニューラルネットワークとされるニューラルネットワークの訓練装置であって、
画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力して、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成するための入力画像サンプルモジュールと、
ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行うための監視モジュールと、
を含み、
前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とするニューラルネットワークの訓練装置。 - 前記生徒ニューラルネットワークが前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる場合、
前記監視モジュールは、更に、
教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程に用いられることを特徴とする請求項34に記載の装置。 - 前記教師ニューラルネットワークは、
入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、
浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、
を含むことを特徴とする請求項34〜35の何れか1項に記載の装置。 - 前記教師ニューラルネットワークを訓練するための教師訓練モジュールを更に含み、
前記教師訓練モジュールは、
画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力して、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第1ユニットと、
ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行うための第1監視ユニットと、
を含むことを特徴とする請求項36に記載の装置。 - 前記教師訓練モジュールは、
画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力して、被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第2ユニットと、
前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行うための第2監視ユニットと、
を更に含むことを特徴とする請求項37に記載の装置。 - コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶されるコンピュータプログラムを実行することに用いられ、且つ前記コンピュータプログラムが実行される場合、上記請求項1〜19の何れか1項に記載の方法を実現するプロセッサと、
を含むことを特徴とする電子機器。 - コンピュータプログラムが記憶されるコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラムがプロセッサにより実行される場合、上記請求項1〜19の何れか1項に記載の方法を実現することを特徴とするコンピュータ読み取り可能記憶媒体。
- コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令が機器のプロセッサにおいて動作される場合、上記請求項1〜19の何れか1項に記載の方法を実現することを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810380453.X | 2018-04-25 | ||
CN201810380453.XA CN108830288A (zh) | 2018-04-25 | 2018-04-25 | 图像处理方法、神经网络的训练方法、装置、设备及介质 |
PCT/CN2018/116574 WO2019205604A1 (zh) | 2018-04-25 | 2018-11-21 | 图像处理方法、训练方法、装置、设备、介质及程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021507397A true JP2021507397A (ja) | 2021-02-22 |
Family
ID=64155627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020533824A Pending JP2021507397A (ja) | 2018-04-25 | 2018-11-21 | 画像処理方法、訓練方法、装置、機器、媒体及びプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11334763B2 (ja) |
JP (1) | JP2021507397A (ja) |
KR (1) | KR102478000B1 (ja) |
CN (1) | CN108830288A (ja) |
SG (1) | SG11201912721YA (ja) |
WO (1) | WO2019205604A1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
CN108830288A (zh) * | 2018-04-25 | 2018-11-16 | 北京市商汤科技开发有限公司 | 图像处理方法、神经网络的训练方法、装置、设备及介质 |
CN110598840B (zh) * | 2018-06-13 | 2023-04-18 | 富士通株式会社 | 知识迁移方法、信息处理设备以及存储介质 |
CN109583576B (zh) * | 2018-12-17 | 2020-11-06 | 上海联影智能医疗科技有限公司 | 一种医学图像处理装置及方法 |
WO2020125806A1 (en) | 2018-12-17 | 2020-06-25 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for image segmentation |
CN111383157B (zh) * | 2018-12-29 | 2023-04-14 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、车载运算平台、电子设备及系统 |
CN111383156B (zh) * | 2018-12-29 | 2022-08-02 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、智能驾驶系统和车载运算平台 |
CN109800821A (zh) * | 2019-01-31 | 2019-05-24 | 北京市商汤科技开发有限公司 | 训练神经网络的方法、图像处理方法、装置、设备和介质 |
CN110009052B (zh) * | 2019-04-11 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 一种图像识别的方法、图像识别模型训练的方法及装置 |
CN110363297A (zh) * | 2019-07-05 | 2019-10-22 | 上海商汤临港智能科技有限公司 | 神经网络训练及图像处理方法、装置、设备和介质 |
CN112784978A (zh) * | 2019-11-08 | 2021-05-11 | 佳能株式会社 | 训练神经网络的方法、装置和系统及存储指令的存储介质 |
CN111027551B (zh) * | 2019-12-17 | 2023-07-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、设备和介质 |
CN113052768B (zh) * | 2019-12-27 | 2024-03-19 | 武汉Tcl集团工业研究院有限公司 | 一种处理图像的方法、终端及计算机可读存储介质 |
CN111144417B (zh) * | 2019-12-27 | 2023-08-01 | 创新奇智(重庆)科技有限公司 | 基于教师学生网络的智能货柜小目标检测方法及检测系统 |
CN113128661A (zh) * | 2020-01-15 | 2021-07-16 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN111340964B (zh) * | 2020-03-05 | 2023-03-24 | 长春中国光学科学技术馆 | 一种基于迁移学习的3d模型图像的构建方法 |
CN111382870A (zh) * | 2020-03-06 | 2020-07-07 | 商汤集团有限公司 | 训练神经网络的方法以及装置 |
CN111488476B (zh) * | 2020-04-03 | 2023-06-27 | 北京爱芯科技有限公司 | 图像推送方法、模型训练方法及对应装置 |
CN111598793A (zh) * | 2020-04-24 | 2020-08-28 | 云南电网有限责任公司电力科学研究院 | 一种用于输电线路图像去雾的方法、系统及存储介质 |
CN113627456B (zh) * | 2020-05-09 | 2024-03-19 | 杭州海康威视数字技术股份有限公司 | 生成基准数据的方法和装置 |
CN111724306B (zh) * | 2020-06-19 | 2022-07-08 | 福州大学 | 一种基于卷积神经网络的图像缩小方法及系统 |
CN111967597A (zh) * | 2020-08-18 | 2020-11-20 | 上海商汤临港智能科技有限公司 | 神经网络训练及图像分类方法、装置、存储介质、设备 |
CN111767711B (zh) * | 2020-09-02 | 2020-12-08 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
CN112801298B (zh) * | 2021-01-20 | 2023-09-01 | 北京百度网讯科技有限公司 | 异常样本检测方法、装置、设备和存储介质 |
CN112819050B (zh) * | 2021-01-22 | 2023-10-27 | 北京市商汤科技开发有限公司 | 知识蒸馏和图像处理方法、装置、电子设备和存储介质 |
CN113065638A (zh) * | 2021-02-27 | 2021-07-02 | 华为技术有限公司 | 一种神经网络压缩方法及其相关设备 |
CN113052868B (zh) * | 2021-03-11 | 2023-07-04 | 奥比中光科技集团股份有限公司 | 一种抠图模型训练、图像抠图的方法及装置 |
CN114037056A (zh) * | 2021-11-05 | 2022-02-11 | 北京市商汤科技开发有限公司 | 一种生成神经网络的方法、装置、计算机设备和存储介质 |
CN115082690B (zh) * | 2022-07-12 | 2023-03-28 | 北京百度网讯科技有限公司 | 目标识别方法、目标识别模型训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017040972A (ja) * | 2015-08-17 | 2017-02-23 | 日本電信電話株式会社 | 特徴量生成装置、方法、及びプログラム |
CN107247989A (zh) * | 2017-06-15 | 2017-10-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10579923B2 (en) * | 2015-09-15 | 2020-03-03 | International Business Machines Corporation | Learning of classification model |
KR102492318B1 (ko) * | 2015-09-18 | 2023-01-26 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
US10755172B2 (en) * | 2016-06-22 | 2020-08-25 | Massachusetts Institute Of Technology | Secure training of multi-party deep neural network |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
WO2018126213A1 (en) * | 2016-12-30 | 2018-07-05 | Google Llc | Multi-task learning using knowledge distillation |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
US11195093B2 (en) * | 2017-05-18 | 2021-12-07 | Samsung Electronics Co., Ltd | Apparatus and method for student-teacher transfer learning network using knowledge bridge |
CN107358293B (zh) * | 2017-06-15 | 2021-04-02 | 北京图森智途科技有限公司 | 一种神经网络训练方法及装置 |
KR102570278B1 (ko) * | 2017-07-31 | 2023-08-24 | 삼성전자주식회사 | 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법 |
US10885900B2 (en) * | 2017-08-11 | 2021-01-05 | Microsoft Technology Licensing, Llc | Domain adaptation in speech recognition via teacher-student learning |
CN107578453B (zh) * | 2017-10-18 | 2019-11-01 | 北京旷视科技有限公司 | 压缩图像处理方法、装置、电子设备及计算机可读介质 |
CN107743235B (zh) * | 2017-10-27 | 2019-09-27 | 厦门美图之家科技有限公司 | 图像处理方法、装置及电子设备 |
JP7022195B2 (ja) * | 2018-02-28 | 2022-02-17 | 富士フイルム株式会社 | 機械学習装置、方法およびプログラム並びに記録媒体 |
US10643602B2 (en) * | 2018-03-16 | 2020-05-05 | Microsoft Technology Licensing, Llc | Adversarial teacher-student learning for unsupervised domain adaptation |
CN108830288A (zh) * | 2018-04-25 | 2018-11-16 | 北京市商汤科技开发有限公司 | 图像处理方法、神经网络的训练方法、装置、设备及介质 |
KR20200129639A (ko) * | 2019-05-09 | 2020-11-18 | 삼성전자주식회사 | 모델 학습 방법 및 장치 |
-
2018
- 2018-04-25 CN CN201810380453.XA patent/CN108830288A/zh active Pending
- 2018-11-21 KR KR1020207016931A patent/KR102478000B1/ko active IP Right Grant
- 2018-11-21 WO PCT/CN2018/116574 patent/WO2019205604A1/zh active Application Filing
- 2018-11-21 SG SG11201912721YA patent/SG11201912721YA/en unknown
- 2018-11-21 JP JP2020533824A patent/JP2021507397A/ja active Pending
-
2019
- 2019-12-02 US US16/700,348 patent/US11334763B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017040972A (ja) * | 2015-08-17 | 2017-02-23 | 日本電信電話株式会社 | 特徴量生成装置、方法、及びプログラム |
CN107247989A (zh) * | 2017-06-15 | 2017-10-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
Non-Patent Citations (3)
Title |
---|
ADRIANA ROMERO ET AL.: ""FitNets: Hints for Thin Deep Nets"", ARXIV, vol. pp.1-13, JPN7021003126, 19 December 2014 (2014-12-19), US, ISSN: 0004650758 * |
PETE WARDEN: ""How to Quantize Neural Networks with TensorFlow"", PETE WARDEN'S BLOG, JPN7021003125, 3 May 2016 (2016-05-03), US, ISSN: 0004650756 * |
西行 健太、外2名: ""階層型Knowledge DistillationによるDNNのコンパクト化"", 電子情報通信学会技術研究報告, vol. 117, no. 238, JPN6021031137, 5 October 2017 (2017-10-05), JP, pages 175 - 180, ISSN: 0004650757 * |
Also Published As
Publication number | Publication date |
---|---|
KR20200087807A (ko) | 2020-07-21 |
SG11201912721YA (en) | 2020-01-30 |
WO2019205604A1 (zh) | 2019-10-31 |
US20200104642A1 (en) | 2020-04-02 |
KR102478000B1 (ko) | 2022-12-15 |
CN108830288A (zh) | 2018-11-16 |
US11334763B2 (en) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021507397A (ja) | 画像処理方法、訓練方法、装置、機器、媒体及びプログラム | |
WO2020221013A1 (zh) | 一种图像处理方法、装置、电子设备以及存储介质 | |
CN110929780B (zh) | 视频分类模型构建、视频分类的方法、装置、设备及介质 | |
US11816710B2 (en) | Identifying key-value pairs in documents | |
CN111386536A (zh) | 语义一致的图像样式转换 | |
CN113822428A (zh) | 神经网络训练方法及装置、图像分割方法 | |
CN111915480B (zh) | 生成特征提取网络的方法、装置、设备和计算机可读介质 | |
CN112183492A (zh) | 一种人脸模型精度矫正方法、装置及存储介质 | |
US20220245764A1 (en) | Method for image super-resolution, device and storage medium | |
CN114037985A (zh) | 信息提取方法、装置、设备、介质及产品 | |
JP2023547010A (ja) | 知識の蒸留に基づくモデルトレーニング方法、装置、電子機器 | |
CN113837965B (zh) | 图像清晰度识别方法、装置、电子设备及存储介质 | |
CN114781499A (zh) | 一种构建基于ViT模型的密集预测任务适配器的方法 | |
CN116958919A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 | |
CN115546554A (zh) | 敏感图像的识别方法、装置、设备和计算机可读存储介质 | |
CN114707638A (zh) | 模型训练、对象识别方法及装置、设备、介质和产品 | |
CN111444331B (zh) | 基于内容的分布式特征提取方法、装置、设备及介质 | |
CN114429602A (zh) | 语义分割方法、装置、电子设备及存储介质 | |
CN115861605A (zh) | 一种图像数据处理方法、计算机设备以及可读存储介质 | |
CN112861940A (zh) | 双目视差估计方法、模型训练方法以及相关设备 | |
CN112215853A (zh) | 图像分割方法、装置、电子设备和计算机可读介质 | |
CN116168398B (zh) | 基于图像识别的试卷审批方法、装置和设备 | |
CN117272965B (zh) | 演示稿件生成方法、装置、电子设备和计算机可读介质 | |
CN111881778B (zh) | 文本检测的方法、装置、设备和计算机可读介质 | |
CN113239943B (zh) | 基于部件语义图的三维部件提取组合方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200618 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211026 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211130 |