JP2021507397A - 画像処理方法、訓練方法、装置、機器、媒体及びプログラム - Google Patents

画像処理方法、訓練方法、装置、機器、媒体及びプログラム Download PDF

Info

Publication number
JP2021507397A
JP2021507397A JP2020533824A JP2020533824A JP2021507397A JP 2021507397 A JP2021507397 A JP 2021507397A JP 2020533824 A JP2020533824 A JP 2020533824A JP 2020533824 A JP2020533824 A JP 2020533824A JP 2021507397 A JP2021507397 A JP 2021507397A
Authority
JP
Japan
Prior art keywords
neural network
feature data
floating
image
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020533824A
Other languages
English (en)
Inventor
イー ウェイ
イー ウェイ
ホンウェイ チン
ホンウェイ チン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021507397A publication Critical patent/JP2021507397A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本願の実施形態は画像処理方法、訓練方法、装置、機器、媒体及びプログラム、画像処理方法を開示し、画像処理方法は、被処理画像をニューラルネットワークに入力する工程と、前記ニューラルネットワークを介して前記被処理画像の離散的特徴データを形成する工程と、を備え、前記ニューラルネットワークは、ガイド情報に基づいて訓練されたものであり、且つ訓練中に、生徒ニューラルネットワークとされ、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの前記画像サンプルに対して形成した離散的特徴データとの間の差異を含む。本願の提供する技術案は、ニューラルネットワークの規模を小さくし、ニューラルネットワークの動作速度を向上させる上で、ニューラルネットワークの出力結果の正確性を向上させることに有利であり、つまりニューラルネットワークの性能の向上に有利である。

Description

(関連出願の相互参照)
本願は、2018年4月25日に中国特許局に提出された、出願番号CN201810380453.X、発明の名称「画像処理方法、ニューラルネットワークの訓練方法、装置、機器及び媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願は、コンピュータビジョン技術に関し、特に、画像処理方法、画像処理装置、ニューラルネットワークの訓練方法、ニューラルネットワークの訓練装置、電子機器、コンピュータ読み取り可能記憶媒体及びコンピュータプログラムに関する。
ニューラルネットワーク(例えば、畳み込みニューラルネットワーク等)は、数多くのコンピュータビジョンタスクにおいて、広く適用されている。
現在、いくつかのニューラルネットワークは、その膨大な計算量やパラメータ量等の要素により、そのままスマートホンやデジタルカメラ等の電子機器に適用できない。圧縮技術は、一般的に、ニューラルネットワークの規模を小さくし、ニューラルネットワークの動作速度を向上させることができるが、ニューラルネットワークの正確性を悪くする場合が多い。
如何にニューラルネットワークの規模を小さくし、ニューラルネットワークの動作速度を向上させる上で、ニューラルネットワークの一定の正確性を保証するかは、注目される技術問題である。
本願の実施形態は、画像処理及びニューラルネットワークの訓練の技術案を提供する。
本願の実施形態における1つの態様によれば、被処理画像をニューラルネットワークに入力する工程と、前記ニューラルネットワークを介して前記被処理画像の離散的特徴データを形成する工程と、を備え、前記ニューラルネットワークは、ガイド情報に基づいて訓練されたものであり、且つ訓練中に、生徒ニューラルネットワークとされ、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの前記画像サンプルに対して形成した離散的特徴データとの間の差異を含む画像処理方法を提供する。
本願の一実施形態において、前記ニューラルネットワークは、大きさが2Mを超えないニューラルネットワークを含む。
本願のまた1つの実施形態において、前記ニューラルネットワークを介して前記被処理画像の離散的特徴データを形成する前記工程は、前記ニューラルネットワークを介して前記被処理画像の浮動小数点特徴データを形成して前記被処理画像の離散的特徴データに量子化する工程を含む。
本願のもう1つの実施形態において、前記ニューラルネットワークを介して前記被処理画像の浮動小数点特徴データを形成する前記工程は、前記ニューラルネットワークを介して前記被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して、前記被処理画像の浮動小数点特徴データを形成する工程を含む。
本願のもう1つの実施形態において、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換する前記工程は、前記浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換する工程、及び/又は、前記浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する工程を含む。
本願のもう1つの実施形態において、前記方法は、前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う工程を更に備える。
本願のもう1つの実施形態において、前記ガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を更に含む。
本願のもう1つの実施形態において、前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う前記工程は、前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して分類処理を行う工程、又は、前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して物体検出処理を行う工程を更に含む。
本願のもう1つの実施形態において、前記ガイド情報は、前記生徒ニューラルネットワークの画像サンプルに対して出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異、又は、前記生徒ニューラルネットワークの画像サンプルに対して出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を更に含む。
本願のもう1つの実施形態において、前記ニューラルネットワークの訓練過程は、画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する工程と、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成する工程と、ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程と、を含み、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含む。
本願のもう1つの実施形態において、前記ニューラルネットワークの訓練過程は、前記生徒ニューラルネットワークを介して、前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程を更に含み、前記ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程を含む。
本願のもう1つの実施形態において、前記教師ニューラルネットワークは、入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、を含む。
本願のもう1つの実施形態において、前記教師ニューラルネットワークの訓練過程は、画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力する工程と、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行う工程と、を含む。
本願のもう1つの実施形態において、前記浮動小数点教師ニューラルネットワークの訓練過程は、画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力する工程と、被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行う工程と、を含む。
本願の実施形態における別の態様によれば、被訓練のニューラルネットワークが訓練中に、生徒ニューラルネットワークとされるニューラルネットワークの訓練方法であって、画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する工程と、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成する工程と、ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程と、を備え、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むニューラルネットワークの訓練方法を提供する。
本願の一実施形態において、前記ニューラルネットワークが生徒ニューラルネットワークとされる訓練過程は、前記生徒ニューラルネットワークを介して、前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程を含み、前記ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程を含む。
本願のまた1つの実施形態において、前記教師ニューラルネットワークは、入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、を含む。
本願のもう1つの実施形態において、前記教師ニューラルネットワークの訓練過程は、画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力する工程と、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行う工程と、を含む。
本願のもう1つの実施形態において、前記浮動小数点教師ニューラルネットワークの訓練過程は、画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力する工程と、被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行う工程と、を含む。
本願の実施形態におけるまた1つの態様によれば、被処理画像をニューラルネットワークに入力するための入力画像モジュールと、前記被処理画像の離散的特徴データを形成するためのニューラルネットワークと、を含み、前記ニューラルネットワークは、ガイド情報に基づいて訓練されたものであり、且つ訓練中に、生徒ニューラルネットワークとされ、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの前記画像サンプルに対して形成した離散的特徴データとの間の差異を含む画像処理装置を提供する。
本願の一実施形態において、前記ニューラルネットワークは、大きさが2Mを超えないニューラルネットワークを含む。
本願のまた1つの実施形態において、前記ニューラルネットワークは、更に、前記被処理画像の浮動小数点特徴データを形成して前記被処理画像の離散的特徴データに量子化する工程に用いられる。
本願のもう1つの実施形態において、前記ニューラルネットワークは、前記被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して、前記被処理画像の浮動小数点特徴データを形成する。
本願のもう1つの実施形態において、前記ニューラルネットワークは、前記浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換し、及び/又は、前記浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する。
本願のもう1つの実施形態において、前記ニューラルネットワークは、更に、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う工程に用いられる。
本願のもう1つの実施形態において、前記ガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を更に含む。
本願のもう1つの実施形態において、前記ニューラルネットワークは、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して分類処理を行い、又は、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して物体検出処理を行う。
本願のもう1つの実施形態において、前記ガイド情報は、前記生徒ニューラルネットワークの画像サンプルに対して出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異、又は、前記生徒ニューラルネットワークの画像サンプルに対して出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を更に含む。
本願のもう1つの実施形態において、前記装置は、画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力して、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成するための入力画像サンプルモジュールと、ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行うための監視モジュールと、を更に含み、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含む。
本願のもう1つの実施形態において、前記生徒ニューラルネットワークが前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる場合、前記監視モジュールは、更に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程に用いられる。
本願のもう1つの実施形態において、前記教師ニューラルネットワークは、入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、を含む。
本願のもう1つの実施形態において、前記装置は、前記教師ニューラルネットワークを訓練するための教師訓練モジュールを更に含み、前記教師訓練モジュールは、画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力して、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第1ユニットと、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行うための第1監視ユニットと、を含む。
本願のもう1つの実施形態において、前記教師訓練モジュールは、画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力して、被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第2ユニットと、前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行うための第2監視ユニットと、を更に含む。
本願の実施形態におけるもう1つの態様によれば、被訓練のニューラルネットワークが生徒ニューラルネットワークとされるニューラルネットワークの訓練装置において、画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力して、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成するための入力画像サンプルモジュールと、ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行うための監視モジュールと、を含み、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むニューラルネットワークの訓練装置を提供する。
本願の一実施形態において、前記生徒ニューラルネットワークが前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる場合、前記監視モジュールは、更に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程に用いられる。
本願のまた1つの実施形態において、前記教師ニューラルネットワークは、入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、を含む。
本願のもう1つの実施形態において、前記装置は、前記教師ニューラルネットワークを訓練するための教師訓練モジュールを更に含み、前記教師訓練モジュールは、画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力して、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第1ユニットと、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行うための第1監視ユニットと、を含む。
本願のもう1つの実施形態において、前記教師訓練モジュールは、画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力して、被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第2ユニットと、前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行うための第2監視ユニットと、を更に含む。
本願の実施形態におけるもう1つの態様によれば、コンピュータプログラムを記憶するためのメモリと、前記メモリに記憶されるコンピュータプログラムを実行することに用いられ、且つ前記コンピュータプログラムが実行される場合、本願の何れの方法の実施形態を実現するプロセッサと、を含む電子機器を提供する。
本願の実施形態におけるまた1つの態様によれば、コンピュータプログラムが記憶されるコンピュータ読み取り可能記憶媒体において、前記コンピュータプログラムがプロセッサにより実行される場合、本願の何れの方法の実施形態を実現するコンピュータ読み取り可能記憶媒体を提供する。
本願の実施形態におけるまた1つの態様によれば、コンピュータ命令を含むコンピュータプログラムにおいて、前記コンピュータ命令が機器のプロセッサにおいて動作される場合、本願の何れの方法の実施形態を実現するコンピュータプログラムを提供する。
本願の提供する画像処理方法、画像処理装置、ニューラルネットワーク訓練方法、ニューラルネットワーク訓練装置、電子機器、コンピュータ読み取り可能記憶媒体及びコンピュータプログラムに基づいて、ニューラルネットワークの訓練中、被訓練のニューラルネットワークを生徒ニューラルネットワークとして、ガイド情報が教師ニューラルネットワークの形成した離散的特徴データと生徒ニューラルネットワークの形成した離散的特徴データとの間の差異を含むようにすることで、教師ニューラルネットワーク及び生徒ニューラルネットワークのそれぞれの形成した離散的特徴データのマッチング確率の向上に有利であり、教師ニューラルネットワークの知識を生徒ニューラルネットワークに遷移させることに有利である。本願は、生徒ニューラルネットワークのネットワークパラメータが必ず固定小数点ネットワークパラメータであると制限しないので、本願のニューラルネットワークは、特定の命令セット及び特定の機器により制限されないことができる。これにより、本願の提供する技術案は、ニューラルネットワークの規模を小さくし、ニューラルネットワークの動作速度を向上させる上で、ニューラルネットワークの出力結果の正確性を向上させることに有利であり、つまりニューラルネットワークの性能の向上に有利であることが判明される。また、本願の提供する技術案は、ニューラルネットワークの適用範囲の向上にも有利である。
以下、図面及び実施形態を通じて本願の技術的手段をさらに詳しく説明する。
本願の画像処理方法の1つの実施例のフローチャートである。 本願の画像処理方法の別の実施例のフローチャートである。 本願の画像処理方法のまた別の実施例のフローチャートである。 本願の画像処理方法のまた1つの実施例のフローチャートである。 本願のニューラルネットワークの訓練方法の1つの実施例のフローチャートである。 本願のニューラルネットワークの訓練方法の別の実施例のフローチャートである。 本願のニューラルネットワークの訓練方法のまた別の実施例のフローチャートである。 本願の教師ニューラルネットワークの訓練方法の1つの実施例のフローチャートである。 本願の浮動小数点教師ニューラルネットワークの訓練方法の1つの実施例のフローチャートである。 本願の画像処理装置の1つの実施例の構造模式図である。 本願のニューラルネットワークの訓練装置の1つの実施例の構造模式図である。 本願の実施例を実現する例示的な機器のブロック図である。
明細書の一部を構成する図面は、本願の実施形態を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及び操作の相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例は端末装置、コンピュータシステム及びサーバなどの電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末装置、コンピュータシステム及びサーバなどの電子機器との併用に適する公知の端末装置、計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末装置、コンピュータシステム及びサーバなどの電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
<例示的実施例>
図1は、本願の画像処理方法の1つの実施例のフローチャートである。図1に示すように、前記実施例の方法は、操作S100及び操作S110を備える。以下、図1における各操作のそれぞれについて詳しく説明する。
S100において、被処理画像をニューラルネットワークに入力する。
1つの選択可能な一例において、本願における被処理画像は、静的状態であるピクチャ又は写真等の画像であってもよいし、例えば、撮像装置で撮像されたビデオにおけるビデオフレーム等のような、動的状態であるビデオにおけるビデオフレームであってもよい。前記被処理画像は、被処理原画像の一部(つまり被処理原画像から切り出された、被処理原画像の一部の内容を含む画像ブロック)であってもよいし、完全な被処理原画像を含んでもよい。もちろん、前記被処理画像は、被処理原画像の所定の処理が行われた画像の一部であってもよいし、被処理原画像の所定の処理が行われた画像の全内容を含んでもよい。本願は、被処理画像の表現形態を制限しない。
1つの選択可能な一例において、本願における被処理画像の大きさは、一般的に、ニューラルネットワークの入力画像に対する大きさ要求に関連し、例えば、256×256等であってよい。所定の大きさを有する被処理画像を取得するために、本願は、被処理画像に対して相応の比率の拡縮処理を行ってよい。本願は、被処理画像の大きさ及び拡縮処理の実現形態を制限しない。
1つの選択可能な一例において、本願におけるニューラルネットワークは、大きさが2Mを超えないニューラルネットワークであってよい。つまり、前記ニューラルネットワークの記憶空間は2Mを超えなくてよい。従来の数十メガ、ひいては数百メガの大きさのニューラルネットワークに比べると、本願におけるニューラルネットワークは、極めて小さいニューラルネットワークと呼ばれてもよい。
1つの選択可能な一例において、本願のニューラルネットワークは、畳み込み層、非線形Relu層、プーリング層及び全接続層等を含んでもよいが、それらに限定されない。前記ニューラルネットワークは、ディープニューラルネットワークであってよく、それに含まれる層数が多いほど、ネットワークが深い。本願のニューラルネットワークは、畳み込みニューラルネットワークであってよい。本願のニューラルネットワークのネットワーク構造は、実際のビジョンタスクの要求に応じて、柔軟的に設計されてよく、本願の実施例により制限されない。例えば、本願のニューラルネットワークのネットワーク構造としては、ALexNet、デプスレジデュアルネットワーク(Deep Residual Network、ResNet)又はVGGnet(Visual Geometry Group Network、視覚幾何学グループネットワーク)等のニューラルネットワークに用いられるネットワーク構造を採用してよいが、それらに限定されない。
1つの選択可能な一例において、本願におけるニューラルネットワークは、知識遷移の形態に基づいて訓練されたものである。つまり、本願におけるニューラルネットワークは、訓練中に、生徒ニューラルネットワークとされている。また、前記ニューラルネットワークの訓練中に、用いられるガイド情報は、一般的に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含む。つまり、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データは、生徒ニューラルネットワークを訓練する監視信号とされている。ニューラルネットワークの訓練に用いられる損失関数は、L2損失関数等を含んでよい。前記ニューラルネットワークの訓練過程については、下記図5〜図7についての記述を参照してよいので、ここで繰り返して説明しない。また説明すべきなのは、本願における離散的特徴データは、固定小数点特徴データと呼ばれてもよい。本願において、特徴データは、少なくとも1つの特徴ベクトル、少なくとも1つの特徴マップ又は他の形態を含んでよい。
1つの選択可能な一例において、本願における教師ニューラルネットワークのネットワークパラメータは、必ずしも固定小数点ネットワークパラメータである必要はなく、つまり、浮動小数点ネットワークパラメータであってもよく、教師ニューラルネットワークは、浮動小数点演算を行うことができるが、教師ニューラルネットワークの最終的に形成する特徴データは離散的特徴データであり、即ち、教師ニューラルネットワークの画像に対して抽出した浮動小数点特徴データが量子化処理された後で、離散的特徴データを形成する。これにより、本願の教師ニューラルネットワークは、量子化教師ニューラルネットワークと呼ばれてもよいことが判明される。量子化教師ニューラルネットワークによって生徒ニューラルネットワークを訓練することで、量子化教師ニューラルネットワークの知識を生徒ニューラルネットワークに遷移させることができ、且つ生徒ニューラルネットワークのネットワークパラメータも必ずしも固定小数点ネットワークパラメータである必要はなく、つまり、浮動小数点ネットワークパラメータであってもよく、生徒ニューラルネットワークは、浮動小数点演算を行うことができるので、うまく訓練された後で、特定の命令セット及び特定の機器に制限されないことができ、ニューラルネットワークの適用範囲の向上に有利である。
1つの選択可能な一例において、前記操作S100は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される入力画像モジュール1000により実行されてもよい。
S110において、ニューラルネットワークを介して被処理画像の離散的特徴データを形成する。
1つの選択可能な一例において、本願におけるニューラルネットワークは、まず被処理画像の浮動小数点特徴データを形成し、その後、前記浮動小数点特徴データを離散的特徴データに量子化し、量子化された離散的特徴データはニューラルネットワークの形成した被処理画像の離散的特徴データである。本願におけるニューラルネットワークが被処理画像の浮動小数点特徴データを形成する1つの選択可能な一例としては、ニューラルネットワークは、被処理画像に対して、浮動小数点特徴データを抽出して、浮動小数点特徴データ(下記で初期浮動小数点特徴データと称する)を取得し、一般的には、前記初期浮動小数点特徴データが予め浮動小数点特徴データに対して規定された所定の要求を満たしていないので、取得した初期浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換することができ、所定の要求を満たしている前記浮動小数点特徴データはニューラルネットワークの形成した被処理画像の浮動小数点特徴データである。
1つの選択可能な一例において、本願におけるニューラルネットワークが浮動小数点特徴データを離散的特徴データに量子化する形態としては、特徴データにおける浮動小数点数を相応の固定小数点数に転換させることを含んでよく、例えば、特徴データにおける[k−0.5、k+0.5]の区間にある浮動小数点数を全てkに転換させ、kは整数である。本願は、ニューラルネットワークが浮動小数点特徴データを離散的特徴データに量子化する実現形態を制限しない。
1つの選択可能な一例において、本願における所定の要求は、実際の要求に応じて柔軟的に設計されてよく、例えば、チャンネル数に対する要求及び特徴データの大きさに対する要求等の少なくとも1つを含んでよい。選択的に、所定の要求は、特徴データが所定のチャンネル数を有すべきであることを規定し、且つ特徴データが所定の大きさを有すべきであることを規定してよく、即ち、特徴データの長さ及び幅は要求を満たすべきである。
1つの選択可能な一例において、本願のニューラルネットワークの形成した初期浮動小数点特徴データのチャンネル数は、実際の要求に応じて設置されてよく、例えば、VGG(Visual Geometry Group、視覚幾何学グループ)ニューラルネットワークのチャンネル数の32分の1であってよく、転換された離散的特徴データのチャンネル数はVGGニューラルネットワークのチャンネル数であってよい。本願は、畳み込み層等の技術によって、初期浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換することができる。本願は、初期浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換する実現形態を制限しない。
1つの選択可能な一例において、本願は、アップサンプリング等の技術によって、初期浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換することができる。アップサンプリングは、逆畳み込み層によって実現されてよい。本願は、初期浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する実現形態を制限しない。
1つの選択可能な一例において、本願のニューラルネットワークは、被処理画像の離散的特徴データを形成することのみならず、被処理画像の離散的特徴データに基づいて被処理画像に対して相応のビジョンタスク処理を行うことにも用いられる。本願におけるビジョンタスク処理は、実際の要求に応じて柔軟的に設けられてよく、例えば、分類処理又は物体検出処理等であってよい。つまり、本願におけるニューラルネットワークは、その形成した被処理画像の離散的特徴データに基づいて、被処理画像に対して分類処理を行って、被処理画像の属するカテゴリ(例えば、猫又は犬又は人又は車両等のカテゴリ)を確定することができる。本願におけるニューラルネットワークは、その形成した被処理画像の離散的特徴データに基づいて、被処理画像に対して物体検出処理を行って、被処理画像における検出枠の位置やカテゴリ(例えば、検出枠の対角線における2つの頂点の座標及び検出枠のカテゴリ)を確定することができる。本願における検出枠は、外接枠等と呼ばれてもよい。本願は、ビジョンタスク処理の表現形態を制限しない。
1つの選択可能な一例において、本願のニューラルネットワークが被処理画像に対して相応のビジョンタスク処理を行う場合、本願のニューラルネットワークの訓練に用いられるガイド情報は、一般的に、ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を含む。つまり、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データが生徒ニューラルネットワークを訓練する監視信号とされていると共に、画像サンプルのタグ付け情報も同様に生徒ニューラルネットワークを訓練する監視信号とされている。
1つの選択可能な一例において、本願のニューラルネットワークが被処理画像の離散的特徴データを形成することのみならず、被処理画像の離散的特徴データに基づいて、被処理画像に対して分類処理を行うことに用いられる場合、ニューラルネットワークの訓練中、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データ及び画像サンプルの分類タグ付け情報の何れも、生徒ニューラルネットワークを訓練する監視信号とされている。つまり、生徒ニューラルネットワークの出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異、及び教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異の何れも、訓練生徒ニューラルネットワークのガイド情報とされている。
1つの選択可能な一例において、本願のニューラルネットワークが被処理画像の離散的特徴データを形成することのみならず、被処理画像の離散的特徴データに基づいて、被処理画像に対して物体検出処理を行うことに用いられる場合、ニューラルネットワークの訓練中、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データ及び画像サンプルの検出枠タグ付け情報の何れも、生徒ニューラルネットワークを訓練する監視信号とされている。つまり、生徒ニューラルネットワークの出力した物体検出処理結果(例えば、検出枠の位置や分類情報)と画像サンプルの検出枠タグ付け情報(例えば、検出枠の位置タグ付け情報や分類タグ付け情報)との間の差異、及び教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異の何れも、訓練生徒ニューラルネットワークのガイド情報とされている。
1つの選択可能な一例において、前記操作S110は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作されるニューラルネットワーク1010によって実行されてもよい。
図2は、本願の画像処理方法の別の実施例のフローチャートである。図2に示すように、前記実施例の方法は、操作S200、操作S210及び操作S220を備える。以下、図2における各操作のそれぞれについて詳しく説明する。
S200において、被処理画像をニューラルネットワークに入力する。
1つの選択可能な一例において、本願のニューラルネットワークは、一般的に、大きさが2Mを超えないニューラルネットワークを含む。前記ニューラルネットワークは、訓練中に、生徒ニューラルネットワークとされている。前記ニューラルネットワークの訓練中に、用いられるガイド情報は、一般的に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの画像サンプルに対してビジョンタスク処理を行ったビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を含む。つまり、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データ及び画像サンプルのタグ付け情報は、生徒ニューラルネットワークを訓練する監視信号とされている。ニューラルネットワークの訓練に用いられる損失関数は、L2損失関数等を含んでよい。前記操作に関連するネットワーク構造及び被処理画像等の内容については、上記方法の実施形態におけるS100についての記述を参照してよいので、ここで詳しく説明しない。
1つの選択可能な一例において、前記操作S200は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される入力画像モジュール1000により実行されてもよい。
S210において、ニューラルネットワークを介して被処理画像の離散的特徴データを形成する。
1つの選択可能な一例において、前記ニューラルネットワークは、まず前記被処理画像の浮動小数点特徴データを形成してよく、選択的に、被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して(例えば、浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換し、別の例として、浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する)、被処理画像の浮動小数点特徴データを形成する。ニューラルネットワークは、被処理画像の浮動小数点特徴データを形成した後でまた被処理画像の離散的特徴データに量子化し、例えば、浮動小数点特徴データにおける浮動小数点数を相応の固定小数点数に転換する等となる。前記操作の内容については、上記方法の実施形態におけるS110についての関連記述を参照してよいので、ここで詳しく説明しない。
S220において、ニューラルネットワークを介して、被処理画像の離散的特徴データに基づいて被処理画像に対して相応のビジョンタスク処理を行う。前記ビジョンタスク処理は、実際の要求に応じて柔軟的に設けられてよく、前記操作の内容については、上記方法の実施形態におけるS110についての関連記述を参照してよいので、ここで詳しく説明しない。
1つの選択可能な一例において、前記操作S210及びS220は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作されるニューラルネットワーク1010によって実行されてもよい。
図3は、本願の画像処理方法のまた別の実施例のフローチャートである。図3に示すように、前記実施例の方法は、操作S300、操作S310及び操作S320を備える。以下、図3における各操作のそれぞれについて詳しく説明する。
S300において、被処理画像をニューラルネットワークに入力する。
1つの選択可能な一例において、本願のニューラルネットワークは、一般的に、大きさが2Mを超えないニューラルネットワークを含む。前記ニューラルネットワークは、訓練中に、生徒ニューラルネットワークとされている。前記ニューラルネットワークの訓練中に、用いられるガイド情報は、一般的に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの画像サンプルに対して行われた分類処理の分類処理結果と画像サンプルの分類タグ付け情報との間の差異を含む。つまり、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データ及び画像サンプルの分類タグ付け情報は、生徒ニューラルネットワークを訓練する監視信号とされている。ニューラルネットワークの訓練に用いられる損失関数は、L2損失関数等を含んでよい。前記操作に関連するネットワーク構造及び被処理画像等の内容については、上記方法の実施形態におけるS100についての記述を参照してよいので、ここで詳しく説明しない。
1つの選択可能な一例において、前記操作S300は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される入力画像モジュール1000により実行されてもよい。
S310において、ニューラルネットワークを介して被処理画像の離散的特徴データを形成する。
1つの選択可能な一例において、前記ニューラルネットワークは、まず前記被処理画像の浮動小数点特徴データを形成してよく、選択的に、被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して(例えば、浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換し、別の例として、浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する)、被処理画像の浮動小数点特徴データを形成する。ニューラルネットワークは、被処理画像の浮動小数点特徴データを形成した後でまた被処理画像の離散的特徴データに量子化し、例えば、浮動小数点特徴データにおける浮動小数点数を相応の固定小数点数に転換する等となる。前記操作の内容については、上記方法の実施形態におけるS110についての関連記述を参照してよいので、ここで詳しく説明しない。
S320において、ニューラルネットワークを介して、被処理画像の離散的特徴データに基づいて、被処理画像に対して分類処理を行う。前記分類処理のカテゴリの数や内容は、実際の要求に応じて柔軟的に設置されてよい。
1つの選択可能な一例において、前記操作S310及びS320は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作されるニューラルネットワーク1010によって実行されてもよい。
図4は、本願の画像処理方法のまた1つの実施例のフローチャートである。図4に示すように、前記実施例の方法は、操作S400、操作S410及び操作S420を備える。以下、図4における各操作のそれぞれについて詳しく説明する。
S400において、被処理画像をニューラルネットワークに入力する。
1つの選択可能な一例において、本願のニューラルネットワークは、一般的に、大きさが2Mを超えないニューラルネットワークを含む。前記ニューラルネットワークは、訓練中に、生徒ニューラルネットワークとされている。前記ニューラルネットワークの訓練中に、用いられるガイド情報は、一般的に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの画像サンプルに対して行われた物体検出処理の物体検出処理結果と画像サンプルの検出枠タグ付け情報(例えば、検出枠の位置タグ付け情報やカテゴリタグ付け情報等)との間の差異を含む。つまり、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データ及び画像サンプルの検出枠タグ付け情報の何れも、生徒ニューラルネットワークを訓練する監視信号とされている。ニューラルネットワークの訓練に用いられる損失関数は、L2損失関数等を含んでよい。前記操作に関連するネットワーク構造及び被処理画像等の内容については、上記方法の実施形態におけるS100についての記述を参照してよいので、ここで詳しく説明しない。
1つの選択可能な一例において、前記操作S400は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される入力画像モジュール1000により実行されてもよい。
S410において、ニューラルネットワークを介して被処理画像の離散的特徴データを形成する。
1つの選択可能な一例において、前記ニューラルネットワークは、まず前記被処理画像の浮動小数点特徴データを形成してよく、選択的に、被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して(例えば、浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換し、別の例として、浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する)、被処理画像の浮動小数点特徴データを形成する。ニューラルネットワーク型は、被処理画像の浮動小数点特徴データを形成した後でまた被処理画像の離散的特徴データに量子化し、例えば、浮動小数点特徴データにおける浮動小数点数を相応の固定小数点数に転換する等となる。前記操作の内容については、上記方法の実施形態におけるS110についての関連記述を参照してよいので、ここで詳しく説明しない。
S420において、ニューラルネットワークを介して、被処理画像の離散的特徴データに基づいて、被処理画像に対して物体検出処理を行う。前記物体検出処理に関連する検出枠のカテゴリの数や内容は、実際の要求に応じて柔軟的に設置されてよい。
1つの選択可能な一例において、前記操作S410及びS420は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作されるニューラルネットワーク1010によって実行されてもよい。
図5は、本願のニューラルネットワークの訓練方法の1つの実施例のフローチャートである。被訓練のニューラルネットワークは、訓練中に、生徒ニューラルネットワークとされている。図5に示すように、前記実施例の方法は、操作S500、操作S510及び操作S520を備える。以下、図5における各操作のそれぞれについて詳しく説明する。
S500において、画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する。
1つの選択可能な一例において、本願は、訓練データセットから画像サンプルを取得することができる。本願における訓練データセットにはニューラルネットワークを訓練するための複数の画像サンプルを含み、一般的には、各々の画像サンプルの何れにも相応のビジョンタスクに関連するタグ付け情報が設置されている。例えば、画像サンプルのタグ付け情報は、画像サンプルの分類タグ付け情報を含んでよい。別の例として、画像サンプルのタグ付け情報は、画像サンプルの検出枠の位置タグ付け情報や分類タグ付け情報等を含んでもよい。本願は、ランダムに読み取るように、又は画像サンプルの配列順序によって順次に読み取るように、一度に訓練データセットから1つ又は複数の画像サンプルを読み取ってよい。
1つの選択可能な一例において、本願の生徒ニューラルネットワーク及び教師ニューラルネットワークに提供する画像サンプルの大きさは、一般的に、ニューラルネットワークの入力画像に対する大きさ要求に関連し、例えば、画像サンプルの大きさは256×256等であってよい。所定の大きさを有する画像サンプルを取得するために、本願は、読み取られた画像サンプルに対して拡縮処理を行って、生徒ニューラルネットワーク及び教師ニューラルネットワークに提供された各々の画像サンプルがそれぞれ所定の大きさを有するようにすることができる。本願は、画像サンプルの大きさ及び拡縮処理の実現形態を制限しない。
1つの選択可能な一例において、本願における教師ニューラルネットワークのネットワークパラメータは、必ずしも固定小数点ネットワークパラメータである必要はなく、つまり、浮動小数点ネットワークパラメータであってもよく、教師ニューラルネットワークは、浮動小数点演算を行うことができるが、教師ニューラルネットワークの最終的に形成する特徴データは離散的特徴データであり、即ち、教師ニューラルネットワークの画像サンプルに対して抽出された浮動小数点特徴データが量子化処理された後で、離散的特徴データを形成する。本願は、離散的特徴データを形成する教師ニューラルネットワークによって生徒ニューラルネットワークを訓練することで、教師ニューラルネットワークの知識を生徒ニューラルネットワークに遷移させることができ、且つ生徒ニューラルネットワークのネットワークパラメータも必ずしも固定小数点ネットワークパラメータである必要はなく、つまり、浮動小数点ネットワークパラメータであってもよく、生徒ニューラルネットワークは、浮動小数点演算を行うことができるので、うまく訓練された後で、特定の命令セット及び特定の機器に制限されないことができ、ニューラルネットワークの適用範囲の向上に有利である一方、浮動小数点演算で取得した浮動小数点特徴データが量子化によって離散的特徴データに転換された後で、離散的特徴データに良好な正確性を保持させることができ、且つ教師ニューラルネットワークの出力した離散的特徴データと生徒ニューラルネットワークの出力した離散的特徴データとのマッチングに有利であるので、教師ニューラルネットワークの知識を生徒ニューラルネットワークに良好に遷移させることに有利であり、ニューラルネットワークの性能の向上に有利である。
S510において、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ画像サンプルの離散的特徴データを形成する。
1つの選択可能な一例において、生徒ニューラルネットワークは、まず前記画像サンプルの浮動小数点特徴データを形成し、選択的に、画像サンプルに対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して(例えば、浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換し、別の例として、浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する)、画像サンプルの浮動小数点特徴データを形成してよい。生徒ニューラルネットワークは、画像サンプルの浮動小数点特徴データを形成してから、前記浮動小数点特徴データを画像サンプルの離散的特徴データに量子化し、例えば、浮動小数点特徴データにおける浮動小数点数を相応の固定小数点数に転換する等となる。同様に、教師ニューラルネットワークは、まず前記画像サンプルの浮動小数点特徴データを形成し、選択的に、画像サンプルに対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して(例えば、浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換し、別の例として、浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する)、画像サンプルの浮動小数点特徴データを形成してよい。教師ニューラルネットワークは、画像サンプルの浮動小数点特徴データを形成してから、前記浮動小数点特徴データを画像サンプルの離散的特徴データに量子化し、例えば、浮動小数点特徴データにおける浮動小数点数を相応の固定小数点数に転換する等となる。
1つの選択可能な一例において、前記操作S500及びS510は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される入力画像サンプルモジュール1020により実行されてもよい。
S520において、ガイド情報に基づいて、生徒ニューラルネットワークに対して教師あり学習を行う。
1つの選択可能な一例において、本願のガイド情報は、一般的に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含む。また、本願のガイド情報は、一般的に、生徒ニューラルネットワークの出力した相応のビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を更に含む。つまり、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データは、生徒ニューラルネットワークを訓練する監視信号とされていると共に、画像サンプルのタグ付け情報も同様に生徒ニューラルネットワークを訓練する監視信号とされている。本願は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を小さくし、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を小さくするために、相応の損失関数(例えば、L2損失関数)によって、生徒ニューラルネットワークに対して教師あり学習を行うことができる。
1つの選択可能な一例において、生徒ニューラルネットワークに対する訓練が所定の反複条件を達成する場合、今回、訓練過程は終了する。本願における所定の反複条件は、生徒ニューラルネットワークの出力した離散的特徴データと教師ニューラルネットワークの出力した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異の何れも所定の差異要求を満たしていることを含んでよい。差異が前記所定の差異要求を満たしている場合、今回、生徒ニューラルネットワークはうまく訓練されて終了する。本願における所定の反複条件は、生徒ニューラルネットワークに対して訓練を行って、用いられる画像サンプルの数が所定の数の要求に達成すること等を含んでもよい。使用される画像サンプルの数が所定の数の要求を達成したが、差異が所定の差異要求を満たしていない場合、今回、生徒ニューラルネットワークはうまく訓練されていない。うまく訓練されて終了した生徒ニューラルネットワークは、被処理画像の離散的特徴データの形成やビジョンタスク処理に用いられることができる。
1つの選択可能な一例において、前記操作S520は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される監視モジュール1030によって実行されてもよい。
図6は、本願のニューラルネットワークの訓練方法の別の実施例のフローチャートである。被訓練のニューラルネットワークは、訓練中に、生徒ニューラルネットワークとされている。図6に示すように、前記実施例の方法は、操作S600、操作S610、操作S620及び操作S630を備える。以下、図6における各操作のそれぞれについて詳しく説明する。
S600において、画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する。前記操作の内容については、上記方法の実施形態におけるS500についての関連記述を参照してよいので、ここで詳しく説明しない。
S610において、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ画像サンプルの離散的特徴データを形成する。前記操作の内容については、上記方法の実施形態におけるS510についての関連記述を参照してよいので、ここで詳しく説明しない。
1つの選択可能な一例において、前記操作S600及びS610は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される入力画像サンプルモジュール1020により実行されてもよい。
S620において、生徒ニューラルネットワークを介して、生徒ニューラルネットワークの形成した画像サンプルの離散的特徴データに基づいて、画像サンプルに対して分類処理を行う。
S630において、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異を、ガイド情報として、生徒ニューラルネットワークに対して教師あり学習を行う。
1つの選択可能な一例において、本願は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を小さくし、及び生徒ニューラルネットワークの出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異を小さくするために、相応の損失関数(例えば、L2損失関数)によって、生徒ニューラルネットワークに対して教師あり学習を行うことができる。
1つの選択可能な一例において、生徒ニューラルネットワークに対する訓練が所定の反複条件を達成する場合、今回、訓練過程は終了する。本願における所定の反複条件は、生徒ニューラルネットワークの出力した離散的特徴データと教師ニューラルネットワークの出力した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異の何れも所定の差異要求を満たしていることを含んでよい。差異が前記所定の差異要求を満たしている場合、今回、生徒ニューラルネットワークはうまく訓練されて終了する。本願における所定の反複条件は、生徒ニューラルネットワークに対して訓練を行って、用いられる画像サンプルの数が所定の数の要求に達成すること等を含んでもよい。使用される画像サンプルの数が所定の数の要求を達成したが、差異が所定の差異要求を満たしていない場合、今回、生徒ニューラルネットワークはうまく訓練されていない。うまく訓練されて終了した生徒ニューラルネットワークは、被処理画像の離散的特徴データの形成や分類処理に用いられることができる。
1つの選択可能な一例において、前記操作S620及びS630は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される監視モジュール1030によって実行されてもよい。
図7は、本願のニューラルネットワークの訓練方法のまた1つの実施例のフローチャートである。被訓練のニューラルネットワークは、訓練中に、生徒ニューラルネットワークとされている。図7に示すように、前記実施例の方法は、操作S700、操作S710、操作S720及び操作S730を備える。以下、図7における各操作のそれぞれについて詳しく説明する。
S700において、画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する。前記操作の内容については、上記方法の実施形態におけるS500についての関連記述を参照してよいので、ここで詳しく説明しない。
S710において、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ画像サンプルの離散的特徴データを形成する。前記操作の内容については、上記方法の実施形態におけるS510についての関連記述を参照してよいので、ここで詳しく説明しない。
1つの選択可能な一例において、前記操作S700及びS710は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される入力画像サンプルモジュール1020により実行されてもよい。
S720において、生徒ニューラルネットワークを介して、生徒ニューラルネットワークの形成した画像サンプルの離散的特徴データに基づいて、画像サンプルに対して物体検出処理を行う。
S730において、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を、ガイド情報として、生徒ニューラルネットワークに対して教師あり学習を行う。
1つの選択可能な一例において、生徒ニューラルネットワークの出力した物体検出処理結果は、検出枠の位置情報(例えば、検出枠の対角線における2つの頂点の座標)やカテゴリ等を含んでよい。本願は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を小さくし、及び生徒ニューラルネットワークの出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を小さくするために、相応の損失関数(例えば、L2損失関数)によって、生徒ニューラルネットワークに対して教師あり学習を行うことができる。本願の画像サンプルの検出枠タグ付け情報は、検出枠の位置タグ付け情報(例えば、検出枠の対角線における2つの頂点の座標ラベル)やカテゴリラベル等を含んでよい。
1つの選択可能な一例において、生徒ニューラルネットワークに対する訓練が所定の反複条件を達成する場合、今回、訓練過程は終了する。本願における所定の反複条件は、生徒ニューラルネットワークの出力した離散的特徴データと教師ニューラルネットワークの出力した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異の何れも所定の差異要求を満たしていることを含んでよい。差異が前記所定の差異要求を満たしている場合、今回、生徒ニューラルネットワークはうまく訓練されて終了する。本願における所定の反複条件は、生徒ニューラルネットワークに対して訓練を行って、用いられる画像サンプルの数が所定の数の要求に達成すること等を含んでもよい。使用される画像サンプルの数が所定の数の要求を達成したが、差異が所定の差異要求を満たしていない場合、今回、生徒ニューラルネットワークはうまく訓練されていない。うまく訓練されて終了した生徒ニューラルネットワークは、被処理画像の離散的特徴データの形成及び物体検出処理に用いられることができる。
1つの選択可能な一例において、本願における知識遷移用の教師ニューラルネットワークは、主に、一般的に入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対して相応のビジョンタスク処理(例えば、分類処理又は物体検出処理等)を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、主に、浮動小数点教師ニューラルネットワークの出力した浮動小数点特徴データを離散的特徴データに転換して、離散的特徴データを浮動小数点教師ニューラルネットワークに提供するための量子化補助ユニットと、の2つの部分を含む。量子化補助ユニットの入力は浮動小数点教師ニューラルネットワークにおける相応層(例えば、第N層)の出力であり、量子化補助ユニットの出力は浮動小数点教師ニューラルネットワークにおける相応層(例えば、第N+1層)の入力である。これにより、本願における量子化補助ユニットは浮動小数点教師ニューラルネットワークに挿入される層と見なされてよいことが判明される。教師ニューラルネットワークに対する訓練過程は、実際に、浮動小数点教師ニューラルネットワークのネットワークパラメータに対する微調整過程である。
1つの選択可能な一例において、前記操作S720及びS730は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される監視モジュール1030によって実行されてもよい。
本願の教師ニューラルネットワークの訓練過程の1つの実施例のフローチャートを、図8に示す。
図8において、前記訓練過程は、操作S800、操作S810及び操作S820を備える。以下、図8における各操作のそれぞれについて詳しく説明する。
S800において、画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力する。前記うまく訓練された浮動小数点教師ニューラルネットワークは、予め画像サンプルによってうまく訓練された相応のビジョンタスクを実現するためのニューラルネットワークである。前記浮動小数点教師ニューラルネットワークの訓練過程の1つの実施例を図9に示す。
S810において、うまく訓練された浮動小数点教師ニューラルネットワークを介して、入力された画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う。例えば、うまく訓練された浮動小数点教師ニューラルネットワークが画像サンプルの離散的特徴データに基づいて、画像サンプルに対して分類処理又は物体検出処理等を行う。
1つの選択可能な一例において、前記操作S800及びS810は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される教師訓練モジュール1040の第1ユニットによって実行されてもよい。
S820において、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整(つまりネットワークパラメータの微調整)を行う。
1つの選択可能な一例において、前記操作は、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対して教師あり学習を行うことと考えてもよい。本願は、うまく訓練された浮動小数点教師ニューラルネットワークの離散的特徴データに基づいて出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を小さくするために、相応の損失関数(例えば、L2損失関数等)によって、うまく訓練された浮動小数点教師ニューラルネットワークのネットワークパラメータに対して微調整を行うことができる。ネットワークパラメータ微調整の収束条件は、一般的に、うまく訓練された浮動小数点教師ニューラルネットワークの離散的特徴データに基づいて出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異が所定の差異要求を満たしていることを含む。
1つの選択可能な一例において、前記操作S820は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される教師訓練モジュール1040の第1監視ユニットによって実行されてもよい。
本願は、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータ微調整を行うことで、浮動小数点教師ニューラルネットワーク(つまり教師ニューラルネットワーク)の離散的特徴データに基づいて出力したビジョンタスク処理結果をより正確にすることができるので、知識遷移によって、本願のニューラルネットワークの形成した離散的特徴データがビジョンタスク処理を正確に終了することにより有利であるようにすることができる。
本願の浮動小数点教師ニューラルネットワークの訓練過程の1つの実施例のフローチャートを、図9に示す。図9において、前記訓練過程は、操作S900、操作S910及び操作S920を備える。以下、図9における各操作のそれぞれについて詳しく説明する。
S900において、画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力する。前記被訓練の浮動小数点教師ニューラルネットワークのネットワークパラメータは一般的に浮動小数点ネットワークパラメータであり、前記浮動小数点教師ニューラルネットワークは一般的に畳み込みニューラルネットワーク等である。
S910において、被訓練の浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出して、浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う。例えば、被訓練の浮動小数点教師ニューラルネットワークは、浮動小数点特徴データに基づいて、画像サンプルに対して分類処理又は物体検出処理等を行う。
1つの選択可能な一例において、前記操作S900及びS910は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される教師訓練モジュール1040の第2ユニットによって実行されてもよい。
S920において、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行う。
1つの選択可能な一例において、画像サンプルのタグ付け情報は、画像サンプルの分類タグ付け情報や検出枠タグ付け情報等であってよい。本願は、被訓練の浮動小数点教師ニューラルネットワークの浮動小数点特徴データに基づいて出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を小さくするために、相応の損失関数(例えば、L2損失関数等)によって、被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行うことができる。訓練の所定の反複条件は、一般的に、被訓練の浮動小数点教師ニューラルネットワークの浮動小数点特徴データに基づいて出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異が所定の差異要求を満たしていることを含む。
1つの選択可能な一例において、前記操作S920は、プロセッサによってメモリに記憶される相応の命令を呼び出して実行されてもよいし、プロセッサにより動作される教師訓練モジュール1040の第2監視ユニットにより実行されてもよい。
本願の実施例により提供されたいずれか一項の方法は、データ処理能力を有するいかなる適切な装置により実行されてもよく、前記装置は、端末装置及びサーバを含むが、これらに限定されない。又は、本願の実施例により提供されたいずれか一項の方法は、プロセッサにより実行されてもよく、例えば、プロセッサは、メモリに記憶された対応のコマンドを呼び出すことで本願の実施例により提供されたいずれか一項の方法を実行されてもよい。以下、詳細な説明を省略する。
当業者であれば、上記方法の実施例を実現する全てまたは一部の操作はプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例の操作を実行する。
図10は、本願の画像処理装置の1つの実施例の構造模式図である。図10に示す画像処理装置は、入力画像モジュール1000及びニューラルネットワーク1010を含む。選択的に、前記装置は、入力画像サンプルモジュール1020、監視モジュール1030、教師訓練モジュール1040を更に含んでもよい。
入力画像モジュール1000は、被処理画像をニューラルネットワーク1010に入力することに用いられる。
ニューラルネットワーク1010は、被処理画像の離散的特徴データを形成することに用いられる。
本願におけるニューラルネットワークは、ガイド情報に基づいて訓練されたものであり、且つ訓練中に、生徒ニューラルネットワークとされ、ニューラルネットワークを訓練するためのガイド情報は、一般的に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含む。
1つの選択可能な一例において、本願のニューラルネットワークは、大きさが2Mを超えないニューラルネットワークを含む。
1つの選択可能な一例において、本願のニューラルネットワークは、更に、被処理画像の浮動小数点特徴データを形成して被処理画像の離散的特徴データに量子化する工程に用いられる。例えば、ニューラルネットワークは、被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して、被処理画像の浮動小数点特徴データを形成する。
1つの選択可能な一例において、ニューラルネットワークは、浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換することができる。別の選択可能な一例において、ニューラルネットワークは、浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換することができる。
1つの選択可能な一例において、ニューラルネットワークは、更に、被処理画像の離散的特徴データに対して続けて処理を行い、例えば、被処理画像の離散的特徴データに基づいて被処理画像に対して相応のビジョンタスク処理を行うことができる。ニューラルネットワークがビジョンタスク処理を続けて実行する必要がある場合、前記ニューラルネットワークを訓練するためのガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を更に含む。
1つの選択可能な一例において、ニューラルネットワークを続けて実行するビジョンタスク処理は、分類処理であってもよいし、物体検出処理等であってもよい。つまり、ニューラルネットワークは、被処理画像の離散的特徴データに基づいて、被処理画像に対して分類処理を行ってよい。ニューラルネットワークは、被処理画像の離散的特徴データに基づいて、被処理画像に対して物体検出処理を行ってもよい。
ニューラルネットワークが被処理画像の離散的特徴データに基づいて、被処理画像に対して分類処理を行う必要がある場合、前記ニューラルネットワークを訓練するためのガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異を更に含んでよい。
ニューラルネットワークが被処理画像の離散的特徴データに基づいて、被処理画像に対して物体検出処理を行う必要がある場合、前記ニューラルネットワークを訓練するためのガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を更に含んでよい。
入力画像モジュール1000及びニューラルネットワーク1010の実行する操作については、上記方法の実施形態における図1〜図4についての記述を参照してよい。入力画像サンプルモジュール1020、監視モジュール1030及び教師訓練モジュール1040の実行する操作については、図11についての下記記述を参照してよい。ここで何れも繰り返して説明しない。
図11は、本願のニューラルネットワークの訓練装置の1つの実施例の構造模式図である。図11に示す訓練装置は、入力画像サンプルモジュール1020、監視モジュール1030及び教師訓練モジュール1040を含む。
入力画像サンプルモジュール1020は、画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力して、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ画像サンプルの離散的特徴データを形成することに用いられる。
監視モジュール1030は、ガイド情報に基づいて生徒ニューラルネットワークに対して教師あり学習を行うことに用いられる。ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含む。
1つの選択可能な一例において、生徒ニューラルネットワークが画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる場合、監視モジュール1030は、更に、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、生徒ニューラルネットワークに対して教師あり学習を行うことに用いられる。
1つの選択可能な一例において、本願における教師ニューラルネットワークは、うまく訓練された浮動小数点教師ニューラルネットワーク及び量子化補助ユニットを含む。うまく訓練された浮動小数点教師ニューラルネットワークは、入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにすることに用いられる。量子化補助ユニットは、浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにすることに用いられる。
1つの選択可能な一例において、本願における教師訓練モジュール1040は、教師ニューラルネットワークを訓練することに用いられ、第1ユニット及び第1監視ユニットを含む。第1ユニットは、画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力して、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる。第1監視ユニットは、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行うことに用いられる。
1つの選択可能な一例において、前記教師訓練モジュール1040は、第2ユニット及び第2監視ユニットを更に含んでよい。第2ユニットは、画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力して、被訓練の浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出して、浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる。第2監視ユニットは、ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行うことに用いられる。
入力画像サンプルモジュール1020、監視モジュール1030及び教師訓練モジュール1040の実行する操作については、上記方法の実施形態における図5〜図9についての記述を参照してよい。ここで繰り返して説明しない。
<例示的装置>
図12は本願を実現するのに適する例示的装置1200を示し、装置1200は自動車に配置されるコントロールシステム/電子システム、携帯端末(例えば、スマートフォン等)、パーソナルコンピュータ(PC、例えば、デスクトップコンピュータ又はノートパソコン等)、タブレット型コンピュータ及びサーバ等であってよい。図12において装置1200は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、1つ又は複数の中央処理ユニット(CPU)1201、及び/又はニューラルネットワークを用いて画像を処理する1つ又は複数の画像プロセッサ(GPU)1213などであり、プロセッサは、読み取り専用メモリ(ROM)1202に記憶された実行可能コマンド又は記憶部1208からランダムアクセスメモリ(RAM)1203にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信パート1212はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。プロセッサは読み取り専用メモリ1202及び/又はランダムアクセスメモリ1203と通信して実行可能コマンドを実行し、通信バス1204を介して通信パート1212に接続され、通信パート1212を介して他のターゲットデバイスと通信してよく、それにより本願の対応の操作を完成する。
上記各コマンドに実行される操作については上記の方法の実施例での関連説明を参照してもよく、ここで詳細な説明を省略する。また、RAM1203には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU1201、ROM1202及びRAM1203は、通信バス1204を介して相互に接続される。
RAM1203を有する場合に、ROM1202は選択可能なモジュールである。RAM1203は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM1202に書き込み、実行可能コマンドによって中央処理ユニット1201に上記物体分割方法に対応する操作を実行させる。入力/出力(I/O)インタフェース1205も通信バス1204に接続される。通信パート1212は、統合的に設置されてもよく、それぞれバスに接続される複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置されてもよい。
キーボード、マウスなどを含む入力部1206と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部1207と、ハードディスクなどを含む記憶部1208と、LANカード、モデムなどのネットワークインタフェースカードを含む通信部1209とがI/Oインタフェース1205に接続されている。通信部1209は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ1210も必要に応じてI/Oインタフェース1205に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体1211は、必要に応じてドライブ1210上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部308にインストールする。
なお、図12に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図12の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてよく、通信部は分離設置するか、またはCPUやGPUに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す操作を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法の操作を対応して実行する対応のコマンドを含んでよい。
このような実施例では、該コンピュータプログラムは通信部1209によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体1211からインストールされ得る。中央処理ユニット(CPU)1201によって該コンピュータプログラムを実行する時に、本願に記載の上記対応操作を実現するコマンドを実行する。
1つ又は複数の選択可能な実施形態では、本願の実施例は、コンピュータ読み取り可能命令を記憶するためのコンピュータプログラム製品であって、前記命令が実行される場合に、コンピュータに上記のいずれか1つの実施例に記載の画像処理方法又はニューラルネットワークの訓練方法を実行させるコンピュータプログラム製品を更に提供する。
該コンピュータプログラム製品はハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品はコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は、例えばソフトウェア開発キット(Software Development Kit:SDK)などのソフトウェア製品として実現される。
1つ又は複数の選択可能な実施形態では、本願の実施例は、別の画像処理方法とニューラルネットワークの訓練方法及びそれらに対応する装置と電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供し、前記方法は、第1装置から、第2装置に上記のいずれか1つの可能な実施例における画像処理方法又はニューラルネットワークの訓練方法を実行させる画像処理指示又はニューラルネットワーク訓練指示を第2装置に送信する工程と、第1装置により第2装置から送信される画像処理結果又はニューラルネットワーク訓練結果を受信する工程と、を含む。
いくつかの実施例では、該画像処理指示又はニューラルネットワーク訓練指示は呼び出し命令であってよく、第1装置は、呼び出すことで第2装置に画像処理操作又はニューラルネットワーク訓練操作を実行させるように指示することができ、それに対して、呼び出し命令が受信されたことに応じて、第2装置は上記画像処理方法又はニューラルネットワークの訓練方法のいずれか1つの実施例における操作及び/又はフローを実行することができる。
本願の実施例における「第1の」、「第2の」などの用語は区別するためのものに過ぎず、本願の実施例に対する限定と理解してはならないことを理解すべきである。更に、本願では、「複数の」は2つ又は2つ以上を指してよく、「少なくとも1つの」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。更に、本願で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解すべきである。更に、本願ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。
本願の方法及び装置、電子機器並びにコンピュータ読み取り可能記憶媒体は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本願の方法及び装置、電子機器並びにコンピュータ読み取り可能記憶媒体を実現することができる。方法の操作のための上記順序は説明することのみを目的とし、本願の方法の操作は、特に断らない限り、以上で説明した順序に限定されない。また、いくつかの実施形態では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形は明らかなものであろう。実施形態は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施形態を設計可能にするように選択され説明されたものである。

Claims (41)

  1. 被処理画像をニューラルネットワークに入力する工程と、
    前記ニューラルネットワークを介して前記被処理画像の離散的特徴データを形成する工程と、
    を備え、
    前記ニューラルネットワークは、ガイド情報に基づいて訓練されたものであり、且つ訓練中に、生徒ニューラルネットワークとされ、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの前記画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とする画像処理方法。
  2. 前記ニューラルネットワークは、大きさが2Mを超えないニューラルネットワークを含むことを特徴とする請求項1に記載の方法。
  3. 前記ニューラルネットワークを介して前記被処理画像の離散的特徴データを形成する前記工程は、
    前記ニューラルネットワークを介して前記被処理画像の浮動小数点特徴データを形成し、前記浮動小数点特徴データを前記被処理画像の離散的特徴データに量子化する工程を含むことを特徴とする請求項1〜2の何れか1項に記載の方法。
  4. 前記ニューラルネットワークを介して前記被処理画像の浮動小数点特徴データを形成する前記工程は、
    前記ニューラルネットワークを介して前記被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して、前記被処理画像の浮動小数点特徴データを形成する工程を含むことを特徴とする請求項3に記載の方法。
  5. 前記抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換する前記工程は、
    前記浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換する工程、及び/又は、
    前記浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換する工程を含むことを特徴とする請求項4に記載の方法。
  6. 前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う工程を更に備えることを特徴とする請求項1〜5の何れか1項に記載の方法。
  7. 前記ガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を更に含むことを特徴とする請求項6に記載の方法。
  8. 前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う前記工程は、
    前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して分類処理を行う工程、又は、
    前記ニューラルネットワークを介して、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して物体検出処理を行う工程を更に含むことを特徴とする請求項6に記載の方法。
  9. 前記ガイド情報は、
    前記生徒ニューラルネットワークの画像サンプルに対して出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異、又は、
    前記生徒ニューラルネットワークの画像サンプルに対して出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を更に含むことを特徴とする請求項8に記載の方法。
  10. 前記ニューラルネットワークの訓練過程は、
    画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する工程と、
    生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成する工程と、
    ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程と、
    を含み、
    前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とする請求項1〜9の何れか1項に記載の方法。
  11. 前記ニューラルネットワークの訓練過程は、
    前記生徒ニューラルネットワークを介して、前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程を更に含み、
    前記ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程は、
    教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程を含むことを特徴とする請求項10に記載の方法。
  12. 前記教師ニューラルネットワークは、
    入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、
    浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、
    を含むことを特徴とする請求項1〜11の何れか1項に記載の方法。
  13. 前記教師ニューラルネットワークの訓練過程は、
    画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力する工程と、
    うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、
    ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行う工程と、
    を含むことを特徴とする請求項12に記載の方法。
  14. 前記浮動小数点教師ニューラルネットワークの訓練過程は、
    画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力する工程と、
    被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、
    前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行う工程と、
    を含むことを特徴とする請求項12〜13の何れか1項に記載の方法。
  15. 被訓練のニューラルネットワークが訓練中に、生徒ニューラルネットワークとされるニューラルネットワークの訓練方法であって、
    画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力する工程と、
    生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成する工程と、
    ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程と、
    を備え、
    前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とするニューラルネットワークの訓練方法。
  16. 前記ニューラルネットワークが生徒ニューラルネットワークとされる訓練過程は、
    前記生徒ニューラルネットワークを介して、前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程を含み、
    前記ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行う工程は、
    教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程を含むことを特徴とする請求項15に記載の方法。
  17. 前記教師ニューラルネットワークは、
    入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、
    浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、
    を含むことを特徴とする請求項15〜16の何れか1項に記載の方法。
  18. 前記教師ニューラルネットワークの訓練過程は、
    画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力する工程と、
    うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、
    ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行う工程と、
    を含むことを特徴とする請求項17に記載の方法。
  19. 前記浮動小数点教師ニューラルネットワークの訓練過程は、
    画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力する工程と、
    被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行う工程と、
    前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行う工程と、
    を含むことを特徴とする請求項17〜18の何れか1項に記載の方法。
  20. 被処理画像をニューラルネットワークに入力するための入力画像モジュールと、
    前記被処理画像の離散的特徴データを形成するためのニューラルネットワークと、
    を含み、
    前記ニューラルネットワークは、ガイド情報に基づいて訓練されたものであり、且つ訓練中に、生徒ニューラルネットワークとされ、前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの前記画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とする画像処理装置。
  21. 前記ニューラルネットワークは、大きさが2Mを超えないニューラルネットワークを含むことを特徴とする請求項20に記載の装置。
  22. 前記ニューラルネットワークは、更に、
    前記被処理画像の浮動小数点特徴データを形成して前記被処理画像の離散的特徴データに量子化する工程に用いられることを特徴とする請求項20〜21の何れか1項に記載の装置。
  23. 前記ニューラルネットワークは、前記被処理画像に対して、浮動小数点特徴データの抽出を行って、抽出された浮動小数点特徴データを所定の要求を満たしている浮動小数点特徴データに転換して、前記被処理画像の浮動小数点特徴データを形成することを特徴とする請求項22に記載の装置。
  24. 前記ニューラルネットワークは、前記浮動小数点特徴データを所定のチャンネル数を有する浮動小数点特徴データに転換し、及び/又は、
    前記浮動小数点特徴データを所定の大きさを有する浮動小数点特徴データに転換することを特徴とする請求項23に記載の装置。
  25. 前記ニューラルネットワークは、更に、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して相応のビジョンタスク処理を行う工程に用いられることを特徴とする請求項20〜24の何れか1項に記載の装置。
  26. 前記ガイド情報は、生徒ニューラルネットワークの画像サンプルに対して出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を更に含むことを特徴とする請求項25に記載の装置。
  27. 前記ニューラルネットワークは、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して分類処理を行い、又は、
    前記ニューラルネットワークは、前記被処理画像の離散的特徴データに基づいて、前記被処理画像に対して物体検出処理を行うことを特徴とする請求項25に記載の装置。
  28. 前記ガイド情報は、
    前記生徒ニューラルネットワークの画像サンプルに対して出力した分類処理結果と画像サンプルの分類タグ付け情報との間の差異、又は、
    前記生徒ニューラルネットワークの画像サンプルに対して出力した物体検出処理結果と画像サンプルの検出枠タグ付け情報との間の差異を更に含むことを特徴とする請求項27に記載の装置。
  29. 画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力して、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成するための入力画像サンプルモジュールと、
    ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行うための監視モジュールと、
    を更に含み、
    前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とする請求項20〜28の何れか1項に記載の装置。
  30. 前記生徒ニューラルネットワークが前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる場合、
    前記監視モジュールは、更に、
    教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程に用いられることを特徴とする請求項29に記載の装置。
  31. 前記教師ニューラルネットワークは、
    入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、
    浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、
    を含むことを特徴とする請求項20〜30の何れか1項に記載の装置。
  32. 前記教師ニューラルネットワークを訓練するための教師訓練モジュールを更に含み、
    前記教師訓練モジュールは、
    画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力して、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第1ユニットと、
    ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行うための第1監視ユニットと、
    を含むことを特徴とする請求項31に記載の装置。
  33. 前記教師訓練モジュールは、
    画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力して、被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第2ユニットと、
    前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行うための第2監視ユニットと、
    を更に含むことを特徴とする請求項32に記載の装置。
  34. 被訓練のニューラルネットワークが生徒ニューラルネットワークとされるニューラルネットワークの訓練装置であって、
    画像サンプルをそれぞれ生徒ニューラルネットワーク及び教師ニューラルネットワークに入力して、生徒ニューラルネットワーク及び教師ニューラルネットワークを介して、それぞれ前記画像サンプルの離散的特徴データを形成するための入力画像サンプルモジュールと、
    ガイド情報に基づいて、前記生徒ニューラルネットワークに対して教師あり学習を行うための監視モジュールと、
    を含み、
    前記ガイド情報は、教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異を含むことを特徴とするニューラルネットワークの訓練装置。
  35. 前記生徒ニューラルネットワークが前記画像サンプルの離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うことに用いられる場合、
    前記監視モジュールは、更に、
    教師ニューラルネットワークの画像サンプルに対して形成した離散的特徴データと前記生徒ニューラルネットワークの画像サンプルに対して形成した離散的特徴データとの間の差異、及び生徒ニューラルネットワークの出力したビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異を、ガイド情報として、前記生徒ニューラルネットワークに対して教師あり学習を行う工程に用いられることを特徴とする請求項34に記載の装置。
  36. 前記教師ニューラルネットワークは、
    入力画像に対して浮動小数点特徴データを形成して、前記浮動小数点特徴データに基づいて、入力画像に対してビジョンタスク処理を行うためのうまく訓練された浮動小数点教師ニューラルネットワークと、
    浮動小数点教師ニューラルネットワークの形成した浮動小数点特徴データを離散的特徴データに転換して、前記離散的特徴データを浮動小数点教師ニューラルネットワークに提供し、浮動小数点教師ニューラルネットワークが前記離散的特徴データに基づいて、入力画像に対してビジョンタスク処理を行うようにするための量子化補助ユニットと、
    を含むことを特徴とする請求項34〜35の何れか1項に記載の装置。
  37. 前記教師ニューラルネットワークを訓練するための教師訓練モジュールを更に含み、
    前記教師訓練モジュールは、
    画像サンプルをうまく訓練された浮動小数点教師ニューラルネットワークに入力して、うまく訓練された浮動小数点教師ニューラルネットワークを介して画像サンプルの浮動小数点特徴データを抽出し、量子化補助ユニットを介して浮動小数点特徴データを離散的特徴データに転換し、またうまく訓練された浮動小数点教師ニューラルネットワークを介して前記離散的特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第1ユニットと、
    ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、うまく訓練された浮動小数点教師ニューラルネットワークに対してネットワークパラメータの調整を行うための第1監視ユニットと、
    を含むことを特徴とする請求項36に記載の装置。
  38. 前記教師訓練モジュールは、
    画像サンプルを被訓練の浮動小数点教師ニューラルネットワークに入力して、被訓練の浮動小数点教師ニューラルネットワークを介して前記画像サンプルの浮動小数点特徴データを抽出して、前記浮動小数点特徴データに基づいて、画像サンプルに対してビジョンタスク処理を行うための第2ユニットと、
    前記ビジョンタスク処理結果と画像サンプルのタグ付け情報との間の差異をガイド情報として、前記被訓練の浮動小数点教師ニューラルネットワークに対して教師あり学習を行うための第2監視ユニットと、
    を更に含むことを特徴とする請求項37に記載の装置。
  39. コンピュータプログラムを記憶するためのメモリと、
    前記メモリに記憶されるコンピュータプログラムを実行することに用いられ、且つ前記コンピュータプログラムが実行される場合、上記請求項1〜19の何れか1項に記載の方法を実現するプロセッサと、
    を含むことを特徴とする電子機器。
  40. コンピュータプログラムが記憶されるコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラムがプロセッサにより実行される場合、上記請求項1〜19の何れか1項に記載の方法を実現することを特徴とするコンピュータ読み取り可能記憶媒体。
  41. コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令が機器のプロセッサにおいて動作される場合、上記請求項1〜19の何れか1項に記載の方法を実現することを特徴とするコンピュータプログラム。
JP2020533824A 2018-04-25 2018-11-21 画像処理方法、訓練方法、装置、機器、媒体及びプログラム Pending JP2021507397A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810380453.X 2018-04-25
CN201810380453.XA CN108830288A (zh) 2018-04-25 2018-04-25 图像处理方法、神经网络的训练方法、装置、设备及介质
PCT/CN2018/116574 WO2019205604A1 (zh) 2018-04-25 2018-11-21 图像处理方法、训练方法、装置、设备、介质及程序

Publications (1)

Publication Number Publication Date
JP2021507397A true JP2021507397A (ja) 2021-02-22

Family

ID=64155627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533824A Pending JP2021507397A (ja) 2018-04-25 2018-11-21 画像処理方法、訓練方法、装置、機器、媒体及びプログラム

Country Status (6)

Country Link
US (1) US11334763B2 (ja)
JP (1) JP2021507397A (ja)
KR (1) KR102478000B1 (ja)
CN (1) CN108830288A (ja)
SG (1) SG11201912721YA (ja)
WO (1) WO2019205604A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN108830288A (zh) * 2018-04-25 2018-11-16 北京市商汤科技开发有限公司 图像处理方法、神经网络的训练方法、装置、设备及介质
CN110598840B (zh) * 2018-06-13 2023-04-18 富士通株式会社 知识迁移方法、信息处理设备以及存储介质
CN109583576B (zh) * 2018-12-17 2020-11-06 上海联影智能医疗科技有限公司 一种医学图像处理装置及方法
WO2020125806A1 (en) 2018-12-17 2020-06-25 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for image segmentation
CN111383157B (zh) * 2018-12-29 2023-04-14 北京市商汤科技开发有限公司 图像处理方法、装置、车载运算平台、电子设备及系统
CN111383156B (zh) * 2018-12-29 2022-08-02 北京市商汤科技开发有限公司 图像处理方法、装置、智能驾驶系统和车载运算平台
CN109800821A (zh) * 2019-01-31 2019-05-24 北京市商汤科技开发有限公司 训练神经网络的方法、图像处理方法、装置、设备和介质
CN110009052B (zh) * 2019-04-11 2022-11-18 腾讯科技(深圳)有限公司 一种图像识别的方法、图像识别模型训练的方法及装置
CN110363297A (zh) * 2019-07-05 2019-10-22 上海商汤临港智能科技有限公司 神经网络训练及图像处理方法、装置、设备和介质
CN112784978A (zh) * 2019-11-08 2021-05-11 佳能株式会社 训练神经网络的方法、装置和系统及存储指令的存储介质
CN111027551B (zh) * 2019-12-17 2023-07-07 腾讯科技(深圳)有限公司 图像处理方法、设备和介质
CN113052768B (zh) * 2019-12-27 2024-03-19 武汉Tcl集团工业研究院有限公司 一种处理图像的方法、终端及计算机可读存储介质
CN111144417B (zh) * 2019-12-27 2023-08-01 创新奇智(重庆)科技有限公司 基于教师学生网络的智能货柜小目标检测方法及检测系统
CN113128661A (zh) * 2020-01-15 2021-07-16 富士通株式会社 信息处理装置和信息处理方法
CN111340964B (zh) * 2020-03-05 2023-03-24 长春中国光学科学技术馆 一种基于迁移学习的3d模型图像的构建方法
CN111382870A (zh) * 2020-03-06 2020-07-07 商汤集团有限公司 训练神经网络的方法以及装置
CN111488476B (zh) * 2020-04-03 2023-06-27 北京爱芯科技有限公司 图像推送方法、模型训练方法及对应装置
CN111598793A (zh) * 2020-04-24 2020-08-28 云南电网有限责任公司电力科学研究院 一种用于输电线路图像去雾的方法、系统及存储介质
CN113627456B (zh) * 2020-05-09 2024-03-19 杭州海康威视数字技术股份有限公司 生成基准数据的方法和装置
CN111724306B (zh) * 2020-06-19 2022-07-08 福州大学 一种基于卷积神经网络的图像缩小方法及系统
CN111967597A (zh) * 2020-08-18 2020-11-20 上海商汤临港智能科技有限公司 神经网络训练及图像分类方法、装置、存储介质、设备
CN111767711B (zh) * 2020-09-02 2020-12-08 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
CN112801298B (zh) * 2021-01-20 2023-09-01 北京百度网讯科技有限公司 异常样本检测方法、装置、设备和存储介质
CN112819050B (zh) * 2021-01-22 2023-10-27 北京市商汤科技开发有限公司 知识蒸馏和图像处理方法、装置、电子设备和存储介质
CN113065638A (zh) * 2021-02-27 2021-07-02 华为技术有限公司 一种神经网络压缩方法及其相关设备
CN113052868B (zh) * 2021-03-11 2023-07-04 奥比中光科技集团股份有限公司 一种抠图模型训练、图像抠图的方法及装置
CN114037056A (zh) * 2021-11-05 2022-02-11 北京市商汤科技开发有限公司 一种生成神经网络的方法、装置、计算机设备和存储介质
CN115082690B (zh) * 2022-07-12 2023-03-28 北京百度网讯科技有限公司 目标识别方法、目标识别模型训练方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017040972A (ja) * 2015-08-17 2017-02-23 日本電信電話株式会社 特徴量生成装置、方法、及びプログラム
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579923B2 (en) * 2015-09-15 2020-03-03 International Business Machines Corporation Learning of classification model
KR102492318B1 (ko) * 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
US10755172B2 (en) * 2016-06-22 2020-08-25 Massachusetts Institute Of Technology Secure training of multi-party deep neural network
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
WO2018126213A1 (en) * 2016-12-30 2018-07-05 Google Llc Multi-task learning using knowledge distillation
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US11195093B2 (en) * 2017-05-18 2021-12-07 Samsung Electronics Co., Ltd Apparatus and method for student-teacher transfer learning network using knowledge bridge
CN107358293B (zh) * 2017-06-15 2021-04-02 北京图森智途科技有限公司 一种神经网络训练方法及装置
KR102570278B1 (ko) * 2017-07-31 2023-08-24 삼성전자주식회사 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
US10885900B2 (en) * 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN107578453B (zh) * 2017-10-18 2019-11-01 北京旷视科技有限公司 压缩图像处理方法、装置、电子设备及计算机可读介质
CN107743235B (zh) * 2017-10-27 2019-09-27 厦门美图之家科技有限公司 图像处理方法、装置及电子设备
JP7022195B2 (ja) * 2018-02-28 2022-02-17 富士フイルム株式会社 機械学習装置、方法およびプログラム並びに記録媒体
US10643602B2 (en) * 2018-03-16 2020-05-05 Microsoft Technology Licensing, Llc Adversarial teacher-student learning for unsupervised domain adaptation
CN108830288A (zh) * 2018-04-25 2018-11-16 北京市商汤科技开发有限公司 图像处理方法、神经网络的训练方法、装置、设备及介质
KR20200129639A (ko) * 2019-05-09 2020-11-18 삼성전자주식회사 모델 학습 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017040972A (ja) * 2015-08-17 2017-02-23 日本電信電話株式会社 特徴量生成装置、方法、及びプログラム
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADRIANA ROMERO ET AL.: ""FitNets: Hints for Thin Deep Nets"", ARXIV, vol. pp.1-13, JPN7021003126, 19 December 2014 (2014-12-19), US, ISSN: 0004650758 *
PETE WARDEN: ""How to Quantize Neural Networks with TensorFlow"", PETE WARDEN'S BLOG, JPN7021003125, 3 May 2016 (2016-05-03), US, ISSN: 0004650756 *
西行 健太、外2名: ""階層型Knowledge DistillationによるDNNのコンパクト化"", 電子情報通信学会技術研究報告, vol. 117, no. 238, JPN6021031137, 5 October 2017 (2017-10-05), JP, pages 175 - 180, ISSN: 0004650757 *

Also Published As

Publication number Publication date
KR20200087807A (ko) 2020-07-21
SG11201912721YA (en) 2020-01-30
WO2019205604A1 (zh) 2019-10-31
US20200104642A1 (en) 2020-04-02
KR102478000B1 (ko) 2022-12-15
CN108830288A (zh) 2018-11-16
US11334763B2 (en) 2022-05-17

Similar Documents

Publication Publication Date Title
JP2021507397A (ja) 画像処理方法、訓練方法、装置、機器、媒体及びプログラム
WO2020221013A1 (zh) 一种图像处理方法、装置、电子设备以及存储介质
CN110929780B (zh) 视频分类模型构建、视频分类的方法、装置、设备及介质
US11816710B2 (en) Identifying key-value pairs in documents
CN111386536A (zh) 语义一致的图像样式转换
CN113822428A (zh) 神经网络训练方法及装置、图像分割方法
CN111915480B (zh) 生成特征提取网络的方法、装置、设备和计算机可读介质
CN112183492A (zh) 一种人脸模型精度矫正方法、装置及存储介质
US20220245764A1 (en) Method for image super-resolution, device and storage medium
CN114037985A (zh) 信息提取方法、装置、设备、介质及产品
JP2023547010A (ja) 知識の蒸留に基づくモデルトレーニング方法、装置、電子機器
CN113837965B (zh) 图像清晰度识别方法、装置、电子设备及存储介质
CN114781499A (zh) 一种构建基于ViT模型的密集预测任务适配器的方法
CN116958919A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN115546554A (zh) 敏感图像的识别方法、装置、设备和计算机可读存储介质
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品
CN111444331B (zh) 基于内容的分布式特征提取方法、装置、设备及介质
CN114429602A (zh) 语义分割方法、装置、电子设备及存储介质
CN115861605A (zh) 一种图像数据处理方法、计算机设备以及可读存储介质
CN112861940A (zh) 双目视差估计方法、模型训练方法以及相关设备
CN112215853A (zh) 图像分割方法、装置、电子设备和计算机可读介质
CN116168398B (zh) 基于图像识别的试卷审批方法、装置和设备
CN117272965B (zh) 演示稿件生成方法、装置、电子设备和计算机可读介质
CN111881778B (zh) 文本检测的方法、装置、设备和计算机可读介质
CN113239943B (zh) 基于部件语义图的三维部件提取组合方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211026

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211130