JP2022172362A - 画像処理方法、顔認識モデルトのレーニング方法、装置及び機器 - Google Patents
画像処理方法、顔認識モデルトのレーニング方法、装置及び機器 Download PDFInfo
- Publication number
- JP2022172362A JP2022172362A JP2022144409A JP2022144409A JP2022172362A JP 2022172362 A JP2022172362 A JP 2022172362A JP 2022144409 A JP2022144409 A JP 2022144409A JP 2022144409 A JP2022144409 A JP 2022144409A JP 2022172362 A JP2022172362 A JP 2022172362A
- Authority
- JP
- Japan
- Prior art keywords
- image
- network
- layer
- pruning
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 title claims abstract description 31
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000013138 pruning Methods 0.000 claims abstract description 182
- 230000000007 visual effect Effects 0.000 claims abstract description 166
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000006243 chemical reaction Methods 0.000 claims abstract description 30
- 238000005520 cutting process Methods 0.000 claims abstract description 15
- 230000009466 transformation Effects 0.000 claims description 133
- 230000001815 facial effect Effects 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 abstract description 42
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Image Input (AREA)
- Collating Specific Patterns (AREA)
Abstract
【課題】プロセスにおける計算力の消費を削減し、画像処理の効率を向上させる画像処理方法、顔認識モデルトのレーニング方法、装置及び機器を提供する。【解決手段】方法は、処理対象の顔画像を取得し、処理対象の顔画像を複数の画像ブロックに切断し、処理対象の顔画像内の各画像ブロックの重要度情報を決定し、予め設定された視覚変換モデルの枝刈り率を取得し、複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得し、視覚変換モデルの出力結果に基づいて、処理対象の顔画像の特徴ベクトルを決定する。【選択図】図2
Description
本開示は、人工知能技術の分野に関し、具体的にコンピュータビジョンと深層学習技術の分野に関し、画像処理、画像認識などのシナリオに適用可能であり、特に画像処理方法、顔認識モデルトのレーニング方法、装置及び機器に関する。
最近、視覚変換(Vision Transformer、ViT)モデルは大きな発展を遂げ、トランスフォーマーと呼ばれる変換モデル(Transformer)はさまざまな視野競技で優れた結果が得られている。ただし、畳み込みニューラルネットワークモデルと比較すると、Transformerモデルは一般に、推論と展開に巨大な計算力を必要とするため、Transformerモデルを小型化して圧縮することが急務である。
本開示は、画像処理方法、顔認識モデルトのレーニング方法、装置及び機器を提供する。
本開示の第1の態様によれば、処理対象の顔画像を取得し、前記処理対象の顔画像を複数の画像ブロックに切断するステップと、 前記処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップと、 予め設定された視覚変換モデルの枝刈り率を取得するステップと、 前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得するステップと、 前記視覚変換モデルの出力結果に基づいて、前記処理対象の顔画像の特徴ベクトルを決定するステップと、を含む画像処理方法を提供する。
本開示の第2の態様によれば、 顔画像サンプルを取得し、前記顔画像サンプルを複数の画像ブロックに切断するステップと、 前記顔画像サンプルの各画像ブロックの重要度情報を決定するステップと、 視覚変換モデルの枝刈り率を取得するステップと、 前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得するステップと、 前記視覚変換モデルの出力結果に基づいて、前記顔画像サンプルの特徴ベクトルを決定し、前記特徴ベクトルに基づいて顔認識結果を取得するステップと、 前記顔認識結果に基づいて前記視覚変換モデルをトレーニングするステップと、を含む顔認識モデルのトレーニング方法を提供する。
本開示の第3の態様によれば、 処理対象の顔画像を取得し、前記処理対象の顔画像を複数の画像ブロックに切断する第1の取得モジュールと、 前記処理対象の顔画像内の各画像ブロックの重要度情報を決定する第1の決定モジュールと、 視覚変換モデルの枝刈り率を取得する第2の取得モジュールと、 前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得する枝刈りモジュールと、 前記視覚変換モデルの出力結果に基づいて、前記処理対象の顔画像の特徴ベクトルを決定する第2の決定モジュールと、を含む画像処理装置を提供する。
本開示の第4の態様によれば、 顔画像サンプルを取得し、前記顔画像サンプルを複数の画像ブロックに切断する第1の取得モジュールと、 前記顔画像サンプルの各画像ブロックの重要度情報を決定する第1の決定モジュールと、 視覚変換モデルの枝刈り率を取得する第2の取得モジュールと、 前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得する枝刈りモジュールと、 前記視覚変換モデルの出力結果に基づいて、前記顔画像サンプルの特徴ベクトルを決定し、前記特徴ベクトルに基づいて顔認識結果を取得する第2の決定モジュールと、 前記顔認識結果に基づいて前記視覚変換モデルをトレーニングするトレーニングモジュールと、を含む顔認識モデルのトレーニング装置を提供する。
本開示の第5の態様によれば、電子機器を提供し、 少なくとも1つのプロセッサと、 前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、 前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが上記の第1の態様に記載の方法、及び/又は、上記の第2の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の第6の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、ここで、前記コンピュータ命令は、コンピュータに上記の第1の態様に記載の方法、及び/又は、上記の第2の態様に記載の方法を実行させる。
本開示の第7の態様によれば、コンピュータプログラムが含まれるコンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の第1の態様に記載の方法、及び/又は、上記の第2の態様に記載の方法が実現される。
本開示の技術案により、処理対象の顔画像の複数の画像ブロックを予め設定された視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うことにより、視覚変換モデルの各層のネットワークの入力特徴を低減することで、顔画像の特徴抽出に影響を与えることなく、視覚変換モデルの計算力消費(又は演算リソースの消費)を低減することができ、画像処理の効率を高めることができる。
なお、この欄に記載の内容は、本開示の実施例の要旨または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例による視覚変換モデルの概略構成図である。
本開示の実施例によって提供される画像処理方法のフローチャートである。
本開示の実施例による各層のネットワーク入力に対する枝刈り処理のフローチャートである。
本開示の実施例による各層のネットワーク入力に対する別の枝刈り処理のフローチャートである。
本開示の実施例によって提供される各層のネットワーク入力に対する更なる枝刈り処理のフローチャートである。
本開示の実施例による各層のネットワーク入力に対する枝刈り処理の例示的な図である。
本開示の実施例によって提供される顔認識モデルのトレーニング方法である。
本開示の実施例によって提供される画像処理装置の構造ブロック図である。
本開示の実施例によって提供される別の画像処理装置の構造ブロック図である。
本開示の実施例の電子機器を実現するためのブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示として見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
本開示の技術案では、関連するユーザ個人情報の取得、記憶および応用などは、いずれも関連法律法規の規定に準拠し、且つ公序良俗には反しない。関連するユーザの個人情報は、ユーザの同意を得て取得、保存、および適用される。
なお、本開示のいくつかの実施例では、視覚変換モデルとはVision Transformer(ViT)モデルを指す。最近、視覚変換(Vision Transformer、ViT)モデルは大きな発展を遂げ、変換モデル(Transformer)はさまざまな視野競技で優れた結果が得られている。ただし、畳み込みニューラルネットワークモデルと比較すると、Transformerモデルは一般に、推論と展開に巨大な計算力を必要とするため、Transformerモデルを小型化して圧縮することが急務である。
ここで、視覚変換モデル構造は、図1に示すように、Transformerでは、画像は複数の画像ブロック(patch)に分割され、各画像ブロックはネットワークの入力位置に対応する。Multi transformer encoder(多層変換モデルのエンコーダー)は、多層のTransformer Encoder(変換モデル内のエンコーダー)モジュールをスタックし、このモジュールには、2つのnorm(正規化)モジュール、1つのMHA(Multi Head Attention、マルチヘッドアテンション)モジュール、1つのMLP(Multilayer Perceptron、多層パーセプトロン)モジュールがある。
ここで、関連する枝刈り技術は主に視覚変換モデルの層数とヘッド(head)の数を枝刈りし、これらのスキームは計算過程でディメンションの一部のみを枝刈りする。計算過程では、画像ブロックの数もモデルの計算量に影響を与えることがわかる。
しかしながら、画像ブロックの枝刈りの場合、一般的な分類タスクには大きな制限があり、画像内のオブジェクトは任意の位置に現れる可能性があるため、画像ブロックの枝刈りは、レイヤー間の情報転送を集約できるように、特別なアグリゲーション操作を実行する必要がある場合があるが、そのような操作は計算量を増やすが、必ずしも情報を統合および集約するわけではない。
しかしながら、顔認識モデルの場合、画像がモデルに入力される前に、検出および位置合わせなどの操作が画像に対して実行されて、最高の精度を達成する。これらの操作の後、顔画像はほぼ同じ構造になるため、顔画ブロックの重要性もほぼ同じ順序になる。したがって、画像ブロックの重要性に応じて画像ブロックを枝刈りし、重要でない画像ブロックのモデルの計算を減らし、それによってモデルの計算力消費を減らすことができる。
上記の問題及び発見に基づいて、本開示は、画像処理方法を提供し、モデルの各層のネットワークの入力に対して枝刈り処理を行うことにより、画像処理プロセスにおける計算力消費を削減する。
図2は、本開示の実施例によって提供される画像処理方法のフローチャートである。この画像処理方法は、画像処理方法は主に顔画像の処理に適用され、処理プロセスにおける顔認識モデルがトレーニングされ、この顔認識モデルには視覚変換モデルが含まれ、つまり、視覚変換モデルもトレーニングされている。なお、本開示の実施例における画像処理方法は、本開示の実施例における画像処理装置に適用することができ、この装置は、電子機器に配置することができる。図2に示すように、この画像処理方法は、以下のステップ201~205を含む。
ステップ201では、処理対象の顔画像を取得し、処理対象の顔画像を複数の画像ブロックに切断する。
なお、モデルが処理対象の顔画像の特徴を完全に抽出できるようにするために、処理対象の顔画像を複数の画像ブロックに切断することができ、複数の切断された画像ブロックのサイズは等しく、切断後の画像ブロックの数は、予め設定された視覚変換モデルの画像ブロックの入力数と同じである。
ステップ202では、処理対象の顔画像内の各画像ブロックの重要度情報を決定する。
なお、処理対象の顔画像内のすべての画像ブロックに顔の重要度特徴が含まれているわけではなく、一部の画像ブロックは顔画像の背景のみである可能性があり、顔の特徴の抽出にはあまり影響しない。したがって、視覚変換モデルが、処理される顔の各画像ブロックに対して、学習を通じて特徴を抽出する場合、一部の重要でない画像ブロックで一定量の計算力が浪費される。
同時に、顔認識モデルの場合、画像がモデルに入力される前に、検出および位置合わせなどの操作が実行されるため、これらの操作の後、各顔画像は、ほぼ同じパターンを有し、つまり、各顔画像内の各画像ブロックの重要度分布はほぼ同じであるため、多数の顔画像に基づく統計分析により、各画像ブロックの重要度情報を決定することができる。
本開示のいくつかの実施例では、複数の顔画像を事前に取得することができ、各顔画像を予め設定された数の画像ブロックに切断し、トレーニングされた顔特徴抽出モデルを使用して、各画像ブロックに含まれる特徴情報を決定する。各画像内の各画像ブロックの特徴情報を組み合わせ、各顔画像の位置1の画像ブロックに顔の特徴情報が多く含まれ、位置3の画像ブロックに顔の特徴情報がほとんど含まれていない場合は、位置1の画像ブロックの重要度が位置3の画像ブロックの重要度よりも高いと決定されるため、異なる位置の各画像ブロックの重要度情報を取得することができ、この重要度情報をすべての顔画像に適用することができるため、処理対象の顔画像内の各画像ブロックの重要度情報が決定される。
実施形態として、視覚変換モデルのTransformer Encoder層の計算プロセスにおいて、注意力行列は、画像ブロックと画像ブロックとの関係の重要性を反映する。したがって、画像ブロック間の重要度情報は、視覚変換モデルの各層のネットワークから出力される注意力行列に基づいて決定することができる。実施形態は、複数の顔画像サンプルを視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得するステップと、得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得するステップと、各画像ブロックサンプルの重みに基づいて、処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップとを含む。ここで、注意力行列の値はsoftmax(最大正規化活性化関数)処理の結果であるため、softmaxの結果は画像ブロックの重要度確率であり、複数の画像サンプルの画像ブロックの重要度確率をマージして、各画像ブロックの重みを決定することができる。そのマージ方法は、行列軸に沿って各画像サンプルの注意力行列を加算すること、または実際の応用シナリオで各層のネットワークの違いに応じて加重和を実行することであってもよく、または、実際のニーズに応じて他のマージ方法を採用することもできる。
ステップ203では、予め設定された視覚変換モデルの枝刈り率を取得する。
本開示のいくつかの実施例では、視覚変換モデルの枝刈り率は、多層ネットワークコンピューティングにおいて削減されると予想される計算量の割合を指す。これは、対話型インターフェースの入力によって取得され、またはインターフェースを介してパラメータを渡すことによって取得され、または実際の応用シナリオのプリセット値に基づいて取得され、または実際の応用シナリオに基づいて他の方法で取得することができるが、本開示に限定されない。
ステップ204では、複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する。
なお、本開示の実施例では、視覚変換モデルの出力結果は、顔認識モデルにおけるノードの出力であり、この出力結果は、顔認識モデルの後続のノードの入力情報として使用される。
つまり、処理対象の顔画像内の複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と、処理対象の顔画像内の各画像ブロックの重要度情報とに基づいて、各層のネットワークの入力に対して枝刈り処理を行って、モデルの特徴抽出に影響を与えずに、各層のネットワークの計算量を低減することができる。
一例として、各層のネットワークの入力で刈られる画像ブロックの数は、枝刈り率に基づいて決定することができ、次に、各画像ブロックの重要度情報に基づいて、レイヤーごとに重要度の低い画像ブロックを枝刈りされる画像ブロックとして選択することにより、各層のネットワークの入力で枝刈りされる画像ブロックの特徴情報に対して枝刈り処理を行って、ひいては視覚変換モデルの出力結果を取得することができる。
別の例として、各画像ブロックの重要度情報に基づいて、処理対象の顔画像内の複数の画像ブロックを並べ替え、例えば、各画像ブロックを重要度の降順で並べ替えることができ、各層のネットワークの入力で刈られる画像ブロックの決定された数に基づいて、各層のネットワークの入力で最後に対応する数の画像ブロックの特徴を刈り、重要でない画像ブロックに対する枝刈り処理を実現し、これにより、視覚変換モデルによって処理対象の顔画像の特徴抽出に影響を与えない。
なお、本開示のいくつかの実施例では、視覚変換モデルの各層のネットワークは、視覚変換モデルの各層のTransformer Encoder層を指す。
ステップ205では、視覚変換モデルの出力結果に基づいて、処理対象の顔画像の特徴ベクトルを決定する。
本開示のいくつかの実施例では、処理対象の顔画像の複数の画像ブロックが視覚変換モデルに入力される場合、視覚変換モデルは仮想画像ブロックを補足することができ、この仮想画像ブロックがTransformer Encoder層を通過した結果が、処理対象の顔画像の全体的な情報表現として使用されるため、視覚変換モデルの出力結果において、仮想画像ブロック内の対応する特徴ベクトルを、処理対象の顔画像の特徴ベクトルとして使用することができる。さらに、一部の視覚変換モデルは、処理対象の顔画像の全体的な情報を学習するための仮想画像ブロックを補足しないため、この場合、視覚変換モデルの出力結果を、処理対象の顔画像の特徴ベクトルとして直接使用することができる。
本開示の実施例の画像処理方法によれば、処理対象の顔画像の複数の画像ブロックを視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うことにより、視覚変換モデルの各層のネットワークの入力特徴を低減することで、顔画像の特徴抽出に影響を与えることなく、画像処理の効率を高めることができる。
上記の実施例に基づいて、本開示は、視覚変換モデルの各層のネットワーク入力に対する枝刈り処理の方法の別の実施例を提供する。
図3は、本開示の実施例における各層のネットワーク入力の枝刈り処理のフローチャートである。図3に示すように、この枝刈り処理プロセスは、以下のステップ301~303を含む。
ステップ301では、枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定する。
視覚変換モデルは多層ネットワークを含むため、特徴抽出に対する枝刈り処理の影響を低減するために、枝刈り処理をレイヤーごとに実行することができ、すなわち、モデルがレイヤーごとに実行されているときに、枝刈り処理が段階的に実行され、特定のレイヤーのネットワークの入力で刈られる情報が多すぎるため、このレイヤーのネットワークと後続のネットワークの特徴抽出に影響を与えることを回避することができる。
本開示のいくつかの実施例では、各層のネットワークの枝刈りされる画像ブロックの数は、この枝刈り率に基づく、各層のネットワークで刈る必要がある画像ブロックの数を指す。各層のネットワークの枝刈りされる画像ブロックの数は、枝刈り率によって計算することができ、各層の刈られる画像ブロックの数は、同じでも異なっていてもよく、実際の状況に応じて決定することができる。一例として、視覚変換モデルによって入力される画像ブロックの数と枝刈り率とに基づいて、視覚変換モデルの枝刈りされる画像ブロックの総数を計算することができる。入力された画像ブロックの数が120で、視覚変換モデルに合計10層のネットワークがある場合、枝刈り処理が実行されていない場合、各層のネットワーク入力は120個の画像ブロックの特徴を持ち、枝刈り率が10%である場合、このモデルの枝刈りされる画像ブロックの総数=120*10*10%=120である。このように、各層のネットワークで実際に刈られた画像ブロックの数の累積合計は、120個の画像ブロックである。第1層の枝刈りされる画像ブロックの数が2であり、第2層の枝刈りされる画像ブロックの数も2である場合、第2層の画像ブロックの実際の枝刈りの数は4になり、以下同様に、このモデルの各層のネットワークの実際の枝刈りの数の累積合計は120個の画像ブロックになるまで行われ、この枝刈り率に達する。なお、各層のネットワークで刈られる画像ブロックの数は同じであり、必要に応じて、異なる数の枝刈りされる画像ブロックを設定することができる。
ステップ302では、各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定する。
なお、各画像ブロックの重要度情報によると、どの画像ブロックに対して枝刈り操作を実行するかを決定することができるため、各層のネットワークで枝刈りされる画像ブロックの数に基づいて、各層のネットワークの枝刈りされる画像ブロックをさらに決定することができる。
一例として、入力された画像ブロックの数が9であり、各層のネットワークの枝刈りされる画像ブロックの数が1であり、各画像ブロックの重要度情報が、位置3の画像ブロック<位置9の画像ブロック<位置2の画像ブロック<位置1の画像ブロック<位置4の画像ブロック<位置5の画像ブロック<位置6の画像ブロック<位置7の画像ブロック<位置8の画像ブロックである場合、第1層ネットワーク入力の枝刈りされる画像ブロックが位置3の画像ブロックであり、第2層ネットワーク入力の枝刈りされる画像ブロックが位置9の画像ブロックであり、第3層ネットワーク入力の枝刈りされる画像ブロックが位置2の画像ブロックであると決定され、以下同様である。説明を簡単にするために、以下では「画像ブロック+番号」の形式を使用して、さまざまな位置の画像ブロックを表し、たとえば、画像ブロック3は位置3の画像ブロックを表す。
ステップ303では、各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
つまり、各層のネットワークの入力特徴を刈り、次に刈られた特徴を対応するレイヤーのネットワークに入力し、各層のネットワークの入力を減らすことにより、視覚変換モデルの計算量を削減する。
本開示のいくつかの実施例では、各層のネットワークの入力特徴は前の層のネットワークの出力特徴に相当する。例えば、第3層ネットワークの場合、第3層ネットワークの入力特徴は第2層ネットワークの出力特徴に相当する。つまり、本開示の実施例では、各層のネットワークの入力特徴をネットワークに入力する前に、この入力特徴を枝刈りし、そして、刈った後に得られた特徴を対応する層のネットワークに入力する。
例えば、上記の例における第3層ネットワークの入力特徴については、最初に、この入力特徴のうち位置2にある画像ブロックに対応する特徴を刈り、次に、刈った後に得られた特徴を第3層ネットワークに入力する。
本開示の実施例によって提供される画像処理方法は、枝刈り率に基づいて各層のネットワークの枝刈りされる画像ブロックの数を決定し、各画像ブロックの重要度情報に基づいて、各層のネットワークの枝刈りされる画像ブロックを決定し、各層のネットワークの入力特徴について、枝刈りされる画像ブロックに対応する特徴を刈り、現在の層のネットワークに入力し、つまり、不要な画像ブロックに対する各層のネットワークの情報の入力を減らすことで、各層のネットワークの計算量を減らすことができるため、特徴情報が失われないことを確保することを前提として、視覚変換モデルの計算力消費を低減するという目的を達成することができる。
上記の実施例に基づいて、本開示は、各層のネットワークの入力の枝刈り処理に対して別の実施例をさらに提供する。
図4は、本開示の実施例における各層のネットワーク入力に対する別の枝刈り処理のフローチャートである。図4に示すように、この枝刈り処理のプロセスは、以下のステップ401~404を含む。
ステップ401では、各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替える。
つまり、各画像ブロックの重要度情報に基づいて、重要度に応じて各画像ブロックを並べ替える。
本開示のいくつかの実施例では、処理対象の顔画像を複数の画像ブロックに切断した後、処理対象の顔画像内の位置に基づいて各画像ブロックを配置し、つまり、処理対象の顔画像を複数の画像ブロックに切断することは、処理対象の顔画像を異なる行と列に分割することに相当し、処理対象の顔画像内の位置に基づいて各画像ブロックを配置することは、行と列の順序で、上から下、左から右に配置することであってもよい。
各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替えることは、元の位置配置順序をシャッフルすることに相当し、重要度の高い画像ブロックを前に並べて順次類推してもよいし、重要度の高い画像ブロックを後に並べて順次類推してもよい。一例として、切断後の画像ブロックは120個あり、切断後の各画像ブロックは、{画像ブロック1、画像ブロック2、 画像ブロック3、 画像ブロック4、…、 画像ブロック120}のように並べ替え、各画像ブロックの重要度情報が、画像ブロック3<画像ブロック10< 画像ブロック11< 画像ブロック34<画像ブロック1<画像ブロック2 <画像ブロック115<画像ブロック13…< 画像ブロック44 < 画像ブロック45 < 画像ブロック47である場合、各画像ブロックの重要度情報によると、各画像ブロックを重要度に基づいて並べ替えた結果は、{ 画像ブロック47、画像ブロック45、画像ブロック44、…、画像ブロック13、画像ブロック115、画像ブロック2、画像ブロック1、画像ブロック34、画像ブロック11、画像ブロック10、 画像ブロック3 }であり得る。
ステップ402では、各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力する。
ステップ403では、枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定する。
ステップ404では、各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴からこの枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
つまり、各層のネットワークの入力特徴については、ネットワーク層を入力する前に、まず、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、そして、刈った後に得られた特徴を対応する層のネットワークに入力する。
例えば、上記の示例に基づいて、重要度の高いものから低いものへと各画像ブロックを並べ替えた結果が、{画像ブロック47、画像ブロック45、画像ブロック44、…、画像ブロック13、画像ブロック115、画像ブロック2、画像ブロック1、画像ブロック34、画像ブロック11、画像ブロック10、 画像ブロック3}であり、第1層ネットワークの枝刈りされる画像ブロックの数が1である場合、第1層ネットワークに入力される前の入力特徴は、{ 画像ブロック47、画像ブロック45、画像ブロック44、…、画像ブロック13、画像ブロック115、画像ブロック2、画像ブロック1、画像ブロック34、画像ブロック11、画像ブロック10 画像ブロック3}の初期特徴であり、この並べ替え結果に基づいて、最後の画像ブロックに対応する特徴を刈る場合、刈られた特徴は、{ 画像ブロック47、画像ブロック45、画像ブロック44、…、画像ブロック13、画像ブロック115、画像ブロック2、画像ブロック1、画像ブロック34、画像ブロック11、画像ブロック10}の初期特徴であり、この処理後の特徴を第1層ネットワークに入力し、第2層ネットワークの枝刈りされる画像ブロックの数が3である場合、第2層ネットワークに入力される前の入力特徴は、{画像ブロック47、画像ブロック45、画像ブロック44、…、画像ブロック13、画像ブロック115、画像ブロック2、画像ブロック1、画像ブロック34、画像ブロック11、画像ブロック10}に対応する第1の特徴であり、この第1の特徴は、学習と計算を通じて第1層ネットワークによって出力される特徴を指し、この刈られた特徴が{ 画像ブロック47、画像ブロック45、画像ブロック44、…、画像ブロック13、画像ブロック115、画像ブロック2、画像ブロック1 }に対応する第1の特徴である場合、この刈られた特徴を第2層ネットワークに入力する。
本開示の実施例の画像処理方法によれば、最初に、各画像ブロックの重要度情報に基づいて、処理対象の顔画像の各画像ブロックを並べ替え、この並べ替えに基づいて、各層の入力特徴から、対応する数の画像ブロックに対応する特徴を刈り、そして、刈った後に得られた特徴を対応するネットワーク層に入力し、これにより、刈る場合、並べ替えに基づいて、前のいくつかの画像ブロックの特徴または後のいくつかの画像ブロックの特徴を直接刈ることができ、刈りプロセスの計算量をさらに削減することができ、刈り効率を向上させることができ、画像処理の効率をさらに向上させることができる。
顔画像の特徴抽出に対する各層のネットワーク入力の刈り処理の影響をさらに回避するために、本開示の実施例は、さらに別の実施形態を提供する。
図5は、本開示の実施例によって提供される各層のネットワーク入力に対する更なる枝刈り処理のフローチャートである。説明の便宜上、本開示の実施例では、Nは、視覚変換モデルにおけるネットワーク層の数を表すために使用され、ここで、Nは、1より大きい整数である。図5に示すように、この枝刈り処理プロセスは、以下のステップ501~504を含む。
ステップ501では、枝刈り率に基づいて、第i層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、iは、0より大きくN-1以下の整数である。
つまり、本開示の実施例では、前のN-1層のネットワークの枝刈りされる画像ブロックの数は、枝刈り率のみに基づいて決定され、第N層のネットワークの入力は枝刈りされない。
ステップ502では、各画像ブロックの重要度情報と第i層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第i層のネットワークで枝刈りされる画像ブロックを決定する。
ステップ503では、第i層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第i層のネットワークに入力する。
ここで、ステップ502およびステップ503における、前のN-1層のネットワーク入力の刈り処理の実現方法は、図3のステップ302およびステップ303における、前のN-1層のネットワーク入力の刈り処理の実現方法と一致し、ここでは説明を省略する。
ステップ504では、第N層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第N層のネットワークに入力する。
つまり、第N-1層のネットワークの出力特徴を、前のN-1層のネットワークの入力のすべての刈られた画像ブロックの特徴とスプライスすることによって得られた特徴を第N層のネットワークに入力することで、前のN-1層のネットワークの計算力消費を低減することができるとともに、処理対象の顔画像の特徴抽出に対する刈り処理の影響をさらに低減することができる。
理解を容易にするために、本開示の実施例の実施形態を図6に示すことができ、視覚変換モデルが合計6層のネットワークを有し、前の5層の入力の各層は、1つの画像ブロックに対応する特徴を刈る場合、第6層のネットワークの入力は、第5層のネットワークの出力特徴を、前の5層のネットワークで刈られた画像ブロックに対応する特徴とスプライスすることによって得られた特徴となり、つまり、視覚変換モデルを実行するプロセスでは、各枝刈りプロセスで刈られた画像ブロックに対応する特徴を保存する必要があり、最後のレイヤーまで実行すると、刈られた画像ブロックの特徴が呼び出される。
なお、第N層のネットワークの入力は、処理対象の顔画像のすべての特徴を統合することに相当し、計算量を減らしながら、顔画像の特徴を失われないようにすることができる。
本開示の実施例の画像処理方法によれば、N層のネットワークの視覚変換モデルについて、前のN-1層のネットワークの入力のそれぞれに対して枝刈り処理を行って、第N-1層のネットワークの出力特徴を、前のN-1層のネットワークの入力で刈られた画像ブロックに対応する特徴とスプライスし、スプライスされた特徴を第N層のネットワークに入力し、一方では、顔画像の特徴抽出に対する枝刈り処理の影響をさらに減らすことができ、他方では、前のN-1層のネットワークを枝刈りすることによって、モデルの計算量を減らすことができ、これにより、画像処理に対する枝刈り処理の効果をさらに向上させることができる。
本開示の実施例は、顔認識モデルのトレーニング方法をさらに提供する。
図7は、本開示の実施例によって提供される顔認識モデルのトレーニング方法であり、この顔認識モデルは視覚変換モデルを含む。なお、本開示の実施例の顔認識モデルのトレーニング方法は、本開示の実施例の顔認識モデルのトレーニング装置に適用可能であり、かつ、この装置は電子機器に配置することができる。図7に示すように、このトレーニング方法は、以下のステップ701~706を含む。
ステップ701では、顔画像サンプルを取得し、顔画像サンプルを複数の画像ブロックに切断する。
なお、モデルが処理対象の顔画像サンプルの特徴を完全に抽出できるようにするために、顔画像サンプルの各顔画像を複数の画像ブロックに切断することができ、複数の切断された画像ブロックのサイズは等しく、切断後の画像ブロックの数は、視覚変換モデルの画像ブロックの入力数と同じである。
ステップ702では、顔画像サンプルの各画像ブロックの重要度情報を決定する。
なお、処理対象の顔画像内のすべての画像ブロックに顔の重要度特徴が含まれているわけではなく、一部の画像ブロックは顔画像の背景のみである可能性があり、顔の特徴の抽出にはあまり影響しない。したがって、視覚変換モデルが、顔画像サンプルの各画像ブロックに対して、学習を通じて特徴を抽出する場合、一部の重要でない画像ブロックで一定量の計算力が浪費される。
同時に、顔認識モデルの場合、画像がモデルに入力される前に、検出および位置合わせなどの操作が実行されるため、これらの操作の後、各顔画像は、ほぼ同じパターンを有し、つまり、各顔画像内の各画像ブロックの重要度分布はほぼ同じであるため、多数の顔画像に基づく統計分析により、各画像ブロックの重要度情報を決定することができる。
本開示のいくつかの実施例では、複数の顔画像を事前に取得することができ、各顔画像を予め設定された数の画像ブロックに切断し、トレーニングされた顔特徴抽出モデルを使用して、各画像ブロックに含まれる特徴情報を決定する。各画像内の各画像ブロックの特徴情報を組み合わせ、各顔画像の位置1の画像ブロックに顔の特徴情報が多く含まれ、位置3の画像ブロックに顔の特徴情報がほとんど含まれていない場合は、位置1の画像ブロックの重要度が位置3の画像ブロックの重要度よりも高いと決定されるため、異なる位置の各画像ブロックの重要度情報を取得することができ、この重要度情報をすべての顔画像に適用することができるため、処理対象の顔画像内の各画像ブロックの重要度情報が決定される。
実施形態として、視覚変換モデルのTransformer Encoder層の計算プロセスにおいて、注意力行列は、画像ブロックと画像ブロックとの間の関係の重要性を反映する。したがって、画像ブロック間の重要度情報は、視覚変換モデルの各層のネットワークから出力される注意力行列に基づいて決定することができる。実施形態は、複数の顔画像を視覚変換モデルに入力し、各層のネットワークから出力される各顔画像に対応する注意力行列を取得するステップと、得られたすべての注意力行列をマージし、顔画像の画像ブロックの重みを取得するステップと、各顔画像の画像ブロックの重みに基づいて、顔画像サンプルの各顔画像の各画像ブロックの重要度情報を決定するステップとを含む。ここで、注意力行列の値はsoftmax(最大正規化活性化関数)処理の結果であるため、softmaxの結果は画像ブロックの重要度確率であり、複数の画像サンプルの画像ブロックの重要度確率をマージして、各画像ブロックの重みを決定することができる。そのマージ方法は、行列軸に沿って各画像サンプルの注意力行列を加算すること、または実際の応用シナリオで各層のネットワークの違いに応じて加重和を実行することであってもよく、または、実際のニーズに応じて他のマージ方法を採用することもできる。
ステップ703では、視覚変換モデルの枝刈り率を取得する。
本開示のいくつかの実施例では、視覚変換モデルの枝刈り率は、多層ネットワークコンピューティングにおいて削減されると予想される計算量の割合を指す。これは、対話型インターフェースの入力によって取得され、またはインターフェースを介してパラメータを渡すことによって取得され、または実際の応用シナリオのプリセット値に基づいて取得され、または実際の応用シナリオに基づいて他の方法で取得することができるが、本開示に限定されない。
ステップ704では、複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する。
なお、本開示の実施例では、視覚変換モデルの出力結果は、顔認識モデルにおけるノードの出力であり、この出力結果は、顔認識モデルの後続のノードの入力情報として使用される。ここで、顔認識モデルは、関連するトレーニング方法によってトレーニングされたモデルであり、つまり、視覚変換モデルも、関連するトレーニング方法によってトレーニングされたモデルである。
顔認識モデルを適用する際の計算量を減らし、枝刈り処理後のモデルの精度を確保するために、本開示の実施例における顔認識モデルのトレーニング方法は、各ネットワーク層の入力の枝刈り処理に基づく微調整プロセスに相当する。
実施形態として、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行う実現方法は、次のようになり、枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
別の実施形態として、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行う実現方法は、次のようになり、各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替え、各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力し、枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
さらに別の実施形態として、説明を容易にするために、Nは視覚的変換モデルのネットワークの層の数を示すために使用される。各層のネットワーク入力に対する枝刈り処理の実現方法は、次のようになり、枝刈り率に基づいて、第i層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、iは、0より大きくN-1以下の整数であり、各画像ブロックの重要度情報と第i層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第i層のネットワークで枝刈りされる画像ブロックを決定し、第i層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第i層のネットワークに入力し、第N層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第N層のネットワークに入力する。
上記の枝刈り処理に基づいて、視覚変換のモデルの最後の層のネットワークの出力結果は、視覚変換モデルの出力結果である。
ステップ705では、視覚変換モデルの出力結果に基づいて、顔画像サンプルの特徴ベクトルを決定し、特徴ベクトルに基づいて顔認識結果を取得する。
本開示のいくつかの実施例では、顔画像サンプルの複数の画像ブロックが視覚変換モデルに入力される場合、視覚変換モデルは仮想画像ブロックを補足することができ、この仮想画像ブロックがTransformer Encoder層を通過した結果が、顔画像サンプルの対応する画像の全体的な情報表現として使用されるため、視覚変換モデルの出力結果において、仮想画像ブロック内の対応する特徴ベクトルを、顔画像サンプルの特徴ベクトルとして使用することができる。さらに、一部の視覚変換モデルは、顔画像サンプルの対応する画像の全体的な情報を学習するための仮想画像ブロックを補足しないため、この場合、視覚変換モデルの出力結果を、顔画像サンプルの特徴ベクトルとして直接使用することができる。
この前、視覚変換モデルによって得られた顔画像サンプルの特徴ベクトルが顔認識プロセスのノードに相当するため、この特徴ベクトルは、顔認識モデルの後続のノードによって引き続き学習され、この特徴ベクトルに基づいて、顔画像サンプルに対応する顔認識結果を取得する。
ステップ706では、顔認識結果に基づいて顔認識モデルをトレーニングする。
つまり、対応する損失値は、この顔認識結果と顔画像サンプルの実際の結果に基づいて計算され、損失値に基づいて、顔認識モデルのパラメータを微調整し、このモデルパラメータを対応する枝刈り方法に適用できるようにする。
なお、本開示の実施例における視覚変換モデルの各層のネットワークの枝刈り処理の詳細な説明は、上記の画像処理方法の実施例において提示されており、ここでは繰り返されない。
本開示の実施例によって提供される顔認識モデルのトレーニング方法は、顔画像サンプルの複数の画像ブロックを視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、枝刈り処理後に視覚変換モデルによって得られた特徴ベクトルに基づいて、顔認識結果を決定することにより、顔認識結果に基づいて視覚変換モデルをトレーニングすることができ、つまり、顔認識結果に基づいて顔認識モデルをトレーニングすることができ、このモデルのパラメータをこの枝刈り方法に適用することができ、視覚変換モデルを使用する顔認識モデルは、計算力の消費を節約し、顔認識の効率を向上させることもできる。
上記実施例を実現するために、本開示は、画像処理装置を提供する。
図8は、本開示の実施例によって提供される画像処理装置の構造ブロック図である。図8に示すように、この装置は、
処理対象の顔画像を取得し、処理対象の顔画像を複数の画像ブロックに切断する第1の取得モジュール801と、
処理対象の顔画像内の各画像ブロックの重要度情報を決定する第1の決定モジュール802と、
視覚変換モデルの枝刈り率を取得する第2の取得モジュール803と、
複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する枝刈りモジュール804と、
視覚変換モデルの出力結果に基づいて、処理対象の顔画像の特徴ベクトルを決定する第2の決定モジュール805と、を含む。
処理対象の顔画像を取得し、処理対象の顔画像を複数の画像ブロックに切断する第1の取得モジュール801と、
処理対象の顔画像内の各画像ブロックの重要度情報を決定する第1の決定モジュール802と、
視覚変換モデルの枝刈り率を取得する第2の取得モジュール803と、
複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する枝刈りモジュール804と、
視覚変換モデルの出力結果に基づいて、処理対象の顔画像の特徴ベクトルを決定する第2の決定モジュール805と、を含む。
ここで、第1の決定モジュール802は、具体的には、
複数の顔画像サンプルを視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得し、
得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得し、
各画像ブロックサンプルの重みに基づいて、処理対象の顔画像内の各画像ブロックの重要度情報を決定する。
複数の顔画像サンプルを視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得し、
得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得し、
各画像ブロックサンプルの重みに基づいて、処理対象の顔画像内の各画像ブロックの重要度情報を決定する。
本開示のいくつかの実施例では、枝刈りモジュール804は、具体的には、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、
各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、
各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
本開示のいくつかの実施例では、枝刈りモジュール804は、具体的には、
各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替え、
各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力し、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替え、
各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力し、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
本開示のいくつかの実施例では、視覚変換モデルにはN層のネットワークが含まれ、Nは1よりも大きい整数であり、枝刈りモジュール804は、具体的には、
枝刈り率に基づいて、第i層のネットワークの枝刈りされる画像ブロックの数を決定し、iは、0より大きくN-1以下の整数であり、
各画像ブロックの重要度情報と第i層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第i層のネットワークで枝刈りされる画像ブロックを決定し、
第i層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第i層のネットワークに入力し、
第N層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第N層のネットワークに入力する。
枝刈り率に基づいて、第i層のネットワークの枝刈りされる画像ブロックの数を決定し、iは、0より大きくN-1以下の整数であり、
各画像ブロックの重要度情報と第i層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第i層のネットワークで枝刈りされる画像ブロックを決定し、
第i層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第i層のネットワークに入力し、
第N層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第N層のネットワークに入力する。
本開示の実施例によって提供される画像処理装置は、処理対象の顔画像の複数の画像ブロックを視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うことにより、視覚変換モデルの各層のネットワークの入力特徴を低減することで、顔画像の特徴抽出に影響を与えることなく、視覚変換モデルの計算力消費を低減することができ、画像処理の効率を高めることができる。
上記実施例を実現するために、本開示は顔認識モデルのトレーニング装置を提供する。
図9は、本開示の実施例によって提供される顔認識モデルのトレーニング装置の構造ブロック図である。ここで、本開示の実施例における顔認識モデルは視覚変換モデルを含む。図9に示すように、この装置は、
顔画像サンプルを取得し、顔画像サンプルを複数の画像ブロックに切断する第1の取得モジュール901と、
顔画像サンプルの各画像ブロックの重要度情報を決定する第1の決定モジュール902と、
視覚変換モデルの枝刈り率を取得する第2の取得モジュール903と、
複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する枝刈りモジュール904と、
視覚変換モデルの出力結果に基づいて、顔画像サンプルの特徴ベクトルを決定し、特徴ベクトルに基づいて顔認識結果を取得する第2の決定モジュール905と、
顔認識結果に基づいて顔認識モデルをトレーニングするトレーニングモジュール906とを含む。
顔画像サンプルを取得し、顔画像サンプルを複数の画像ブロックに切断する第1の取得モジュール901と、
顔画像サンプルの各画像ブロックの重要度情報を決定する第1の決定モジュール902と、
視覚変換モデルの枝刈り率を取得する第2の取得モジュール903と、
複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する枝刈りモジュール904と、
視覚変換モデルの出力結果に基づいて、顔画像サンプルの特徴ベクトルを決定し、特徴ベクトルに基づいて顔認識結果を取得する第2の決定モジュール905と、
顔認識結果に基づいて顔認識モデルをトレーニングするトレーニングモジュール906とを含む。
ここで、第1の決定モジュール902は、具体的には、
複数の顔画像を視覚変換モデルに入力し、各層のネットワークから出力される各顔画像に対応する注意力行列を取得し、
得られたすべての注意力行列をマージし、顔画像内の画像ブロックの重みを取得し、
顔画像内の画像ブロックの重みに基づいて、顔画像サンプルの各顔画像内の各画像ブロックの重要度情報を決定する。
複数の顔画像を視覚変換モデルに入力し、各層のネットワークから出力される各顔画像に対応する注意力行列を取得し、
得られたすべての注意力行列をマージし、顔画像内の画像ブロックの重みを取得し、
顔画像内の画像ブロックの重みに基づいて、顔画像サンプルの各顔画像内の各画像ブロックの重要度情報を決定する。
本開示のいくつかの実施例では、枝刈りモジュール904は、具体的には、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、各顔画像サンプルの複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、
各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、各顔画像サンプルの複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、
各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
本開示のいくつかの実施例では、枝刈りモジュール904は、具体的には、
各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替え、
各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力し、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替え、
各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力し、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。
本開示のいくつかの実施例では、視覚変換モデルにはN層のネットワークが含まれ、Nは1よりも大きい整数であり、枝刈りモジュール904は、具体的には、
枝刈り率に基づいて、第i層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、iは、0より大きくN-1以下の整数であり、
各画像ブロックの重要度情報と第i層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第i層のネットワークで枝刈りされる画像ブロックを決定し、
第i層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第i層のネットワークに入力し、
第N層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第N層のネットワークに入力する。
枝刈り率に基づいて、第i層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、iは、0より大きくN-1以下の整数であり、
各画像ブロックの重要度情報と第i層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第i層のネットワークで枝刈りされる画像ブロックを決定し、
第i層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第i層のネットワークに入力し、
第N層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第N層のネットワークに入力する。
本開示の実施例の顔認識モデルのトレーニング装置によれば、顔画像サンプルの複数の画像ブロックを視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、枝刈り処理後に視覚変換モデルによって得られた特徴ベクトルに基づいて、顔認識結果を決定することにより、顔認識結果に基づいて視覚変換モデルをトレーニングすることができ、ひいては顔認識結果に基づいて顔認識モデルをトレーニングすることができ、このモデルのパラメータをこの枝刈り方法に適用することができ、視覚変換モデルを使用する顔認識モデルは、計算力の消費を節約し、顔認識の効率を向上させることもできる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
図10は、本開示の実施例を実施するための例示的な電子機器1000の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目のとする。電子機器は、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び /または求められる本願の実現を限定することを意図しない。
図10に示すように、電子機器1000は、リードオンリメモリ(ROM)1002に記憶されたコンピュータプログラム、または記憶ユニット1008からランダムアクセスメモリ(RAM)1003にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット1001を含む。RAM1003には、電子機器1000の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット1001と、ROM1002と、RAM1003とは、バス1004を介して互いに接続されている。入力/出力(I/O)インターフェース1005もバス1004に接続されている。
電子機器1000における複数のコンポーネントは、I/Oインターフェース1005に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット1006と、種々なディスプレイやスピーカなどの出力ユニット1007と、磁気ディスクや光学ディスクなどの記憶ユニット1008と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット1009と、を備える。通信ユニット1009は、電子機器1000がインターネットのようなコンピュータネット及び /または種々なキャリアネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット1001は、処理及び計算能力を有する様々な汎用及び/または専用の処理コンポーネントであってもよい。計算ユニット1001のいくつかの例としては、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット1001は、上記で説明された各方法及び処理、例えば本開示の第1の態様の実施例に記載の画像処理方法、及び/又は、顔認識モデルのトレーニング方法を実行する。例えば、いくつかの実施形態では、画像処理方法、及び/又は、顔認識モデルのトレーニング方法を、記憶ユニット1008のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施形態では、コンピュータプログラムの一部または全ては、ROM1002及び /または通信ユニット1009を介して、電子機器1000にロード及び /またはインストールされてもよい。コンピュータプログラムがRAM1003にロードされて計算ユニット1001によって実行される場合に、前述した画像処理方法、及び/又は、顔認識モデルのトレーニング方法の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット1001は、他の任意の適当な方式(例えば、ファームウェア)により画像処理方法、及び/又は、顔認識モデルのトレーニング方法を実行するように構成されてもよい。
ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電サブ回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び/または解釈される1つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも1つの入力デバイス、及び当該少なくとも1つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されるとされた際に、フローチャート及び /またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラム可能な人間の画像復元装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用されるために、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子の、磁気の、光学の、電磁の、赤外線の、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、1または複数のラインに基づく電気の接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラム可能なリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線チューブ)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよいし、分散システムのサーバまたはブロックチェーンを結合したサーバであってもよい。
なお、上記のした様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよい。本明細書は制限されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組合、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる修正、同などの置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
Claims (15)
- 画像処理方法であって、
処理対象の顔画像を取得し、前記処理対象の顔画像を複数の画像ブロックに切断するステップと、
前記処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップと、
予め設定された視覚変換モデルの枝刈り率を取得するステップと、
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得するステップと、
前記視覚変換モデルの出力結果に基づいて、前記処理対象の顔画像の特徴ベクトルを決定するステップと、を含む、
画像処理方法。 - 前記処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップは、
複数の顔画像サンプルを前記視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得するステップと、
得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得するステップと、
前記各画像ブロックサンプルの重みに基づいて、前記処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップと、を含む、
請求項1に記載の画像処理方法。 - 前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うステップは、
前記枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定するステップと、
前記各画像ブロックの重要度情報と前記各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、前記複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定するステップと、
各層のネットワークの入力特徴について、前記入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた前記特徴を現在の層のネットワークに入力するステップと、を含む、
請求項1に記載の画像処理方法。 - 前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うステップは、
前記各画像ブロックの重要度情報に基づいて、前記各画像ブロックを並べ替えるステップと、
前記各画像ブロックと前記各画像ブロックの並べ替え結果を前記視覚変換モデルに入力するステップと、
前記枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定するステップと、
各層のネットワークの入力特徴について、前記各画像ブロックの並べ替え結果に基づいて、前記入力特徴から前記枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた前記特徴を現在の層のネットワークに入力するステップと、を含む、
請求項1に記載の画像処理方法。 - 前記視覚変換モデルにはN層のネットワークが含まれ、前記Nは1よりも大きい整数であり、
前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うステップは、
前記枝刈り率に基づいて、第i層のネットワークの枝刈りされる画像ブロックの数を決定するステップであって、iは、0より大きくN-1以下の整数であるステップと、
前記各画像ブロックの重要度情報と前記第i層のネットワークの枝刈りされる画像ブロックの数とに基づいて、前記複数の画像ブロックのうち、前記第i層のネットワークで枝刈りされる画像ブロックを決定するステップと、
第i層のネットワークの入力特徴について、前記入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた前記特徴を第i層のネットワークに入力するステップと、
第N層のネットワークの入力特徴について、前記入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第N層のネットワークに入力する、
請求項1に記載の画像処理方法。 - 顔認識モデルトのレーニング方法であって、
前記顔認識モデルは視覚変換モデルを含み、
顔画像サンプルを取得し、前記顔画像サンプルを複数の画像ブロックに切断するステップと、
前記顔画像サンプルの各画像ブロックの重要度情報を決定するステップと、
前記視覚変換モデルの枝刈り率を取得するステップと、
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得するステップと、
前記視覚変換モデルの出力結果に基づいて、前記顔画像サンプルの特徴ベクトルを決定し、前記特徴ベクトルに基づいて顔認識結果を取得するステップと、
前記顔認識結果に基づいて前記顔認識モデルをトレーニングするステップと、を含む、
顔認識モデルトのレーニング方法。 - 画像処理装置であって、
処理対象の顔画像を取得し、前記処理対象の顔画像を複数の画像ブロックに切断する第1の取得モジュールと、
前記処理対象の顔画像内の各画像ブロックの重要度情報を決定する第1の決定モジュールと、
視覚変換モデルの枝刈り率を取得する第2の取得モジュールと、
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得する枝刈りモジュールと、
前記視覚変換モデルの出力結果に基づいて、前記処理対象の顔画像の特徴ベクトルを決定する第2の決定モジュールと、を含む、
画像処理装置。 - 前記第1の決定モジュールは、
複数の顔画像サンプルを前記視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得し、
得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得し、
前記各画像ブロックサンプルの重みに基づいて、前記処理対象の顔画像内の各画像ブロックの重要度情報を決定する、
請求項7に記載の画像処理装置。 - 前記枝刈りモジュールは、
前記枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
前記各画像ブロックの重要度情報と前記各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、前記複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、
各層のネットワークの入力特徴について、前記入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた前記特徴を現在の層のネットワークに入力する、
請求項7に記載の画像処理装置。 - 前記枝刈りモジュールは、
前記各画像ブロックの重要度情報に基づいて、前記各画像ブロックを並べ替え、
前記各画像ブロックと前記各画像ブロックの並べ替え結果を前記視覚変換モデルに入力し、
前記枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各層のネットワークの入力特徴について、前記各画像ブロックの並べ替え結果に基づいて、前記入力特徴から前記枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた前記特徴を現在の層のネットワークに入力する、
請求項7に記載の画像処理装置。 - 前記視覚変換モデルにはN層のネットワークが含まれ、前記Nは1よりも大きい整数であり、
前記枝刈りモジュールは、
前記枝刈り率に基づいて、第i層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、iは、0より大きくN-1以下の整数であり、
前記各画像ブロックの重要度情報と前記第i層のネットワークの枝刈りされる画像ブロックの数とに基づいて、前記複数の画像ブロックのうち、前記第i層のネットワークで枝刈りされる画像ブロックを決定し、
第i層のネットワークの入力特徴について、前記入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた前記特徴を第i層のネットワークに入力し、
第N層のネットワークの入力特徴について、前記入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を前記第N層のネットワークに入力する、
請求項7に記載の画像処理装置。 - 顔認識モデルのトレーニング装置であって、
前記顔認識モデルは、視覚変換モデルを含み、
顔画像サンプルを取得し、前記顔画像サンプルを複数の画像ブロックに切断する第1の取得モジュールと、
前記顔画像サンプルの各画像ブロックの重要度情報を決定する第1の決定モジュールと、
前記視覚変換モデルの枝刈り率を取得する第2の取得モジュールと、
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得する枝刈りモジュールと、
前記視覚変換モデルの出力結果に基づいて、前記顔画像サンプルの特徴ベクトルを決定し、前記特徴ベクトルに基づいて顔認識結果を取得する第2の決定モジュールと、
前記顔認識結果に基づいて前記顔認識モデルをトレーニングするトレーニングモジュールと、を含む、
顔認識モデルのトレーニング装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~5および/または請求項6のいずれかに記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~5および/または請求項6のいずれか一項に記載の方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムが含まれるコンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~5および/または請求項6のいずれか一項に記載の方法が実現される、
コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111157086.5A CN113901904A (zh) | 2021-09-29 | 2021-09-29 | 图像处理方法、人脸识别模型训练方法、装置及设备 |
CN202111157086.5 | 2021-09-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022172362A true JP2022172362A (ja) | 2022-11-15 |
Family
ID=79189682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022144409A Pending JP2022172362A (ja) | 2021-09-29 | 2022-09-12 | 画像処理方法、顔認識モデルトのレーニング方法、装置及び機器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230103013A1 (ja) |
JP (1) | JP2022172362A (ja) |
KR (1) | KR20220130630A (ja) |
CN (1) | CN113901904A (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953654A (zh) * | 2022-03-24 | 2023-04-11 | 北京字跳网络技术有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN114693977A (zh) * | 2022-04-06 | 2022-07-01 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、装置、设备及介质 |
KR102504007B1 (ko) * | 2022-09-07 | 2023-02-27 | (주)내스타일 | 분할 이미지를 통해 컨텍스트 벡터를 생성하는 컨텍스트 벡터 추출 모듈 및 이의 동작 방법 |
KR102646073B1 (ko) | 2022-12-13 | 2024-03-12 | 인하대학교 산학협력단 | 선박 이미지 재구성 방법 |
CN116132818B (zh) * | 2023-02-01 | 2024-05-24 | 辉羲智能科技(上海)有限公司 | 用于自动驾驶的图像处理方法及系统 |
CN116342964B (zh) * | 2023-05-24 | 2023-08-01 | 杭州有朋网络技术有限公司 | 针对于电子商务平台的图片宣传的风控系统及其方法 |
CN116611477B (zh) * | 2023-05-31 | 2024-05-17 | 北京百度网讯科技有限公司 | 数据剪枝方法和序列模型的训练方法、装置、设备和介质 |
CN116612435B (zh) * | 2023-07-18 | 2023-10-27 | 吉林隆源农业服务有限公司 | 一种玉米高产栽培方法 |
CN116844217B (zh) * | 2023-08-30 | 2023-11-14 | 成都睿瞳科技有限责任公司 | 用于生成人脸数据的图像处理系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005346472A (ja) * | 2004-06-03 | 2005-12-15 | Canon Inc | 情報処理方法、情報処理装置、撮像装置 |
US20170337467A1 (en) * | 2016-05-18 | 2017-11-23 | Nec Laboratories America, Inc. | Security system using a convolutional neural network with pruned filters |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004059051A1 (de) * | 2004-12-07 | 2006-06-08 | Deutsche Telekom Ag | Verfahren und modellbasiertes Audio- und Videosystem zur Darstellung einer virtuellen Figur |
US20170309004A1 (en) * | 2014-09-09 | 2017-10-26 | Thomson Licensing | Image recognition using descriptor pruning |
CN105354571B (zh) * | 2015-10-23 | 2019-02-05 | 中国科学院自动化研究所 | 基于曲线投影的畸变文本图像基线估计方法 |
CN108229533A (zh) * | 2017-11-22 | 2018-06-29 | 深圳市商汤科技有限公司 | 图像处理方法、模型剪枝方法、装置及设备 |
CN108764046A (zh) * | 2018-04-26 | 2018-11-06 | 平安科技(深圳)有限公司 | 车辆损伤分类模型的生成装置、方法及计算机可读存储介质 |
CN110659582A (zh) * | 2019-08-29 | 2020-01-07 | 深圳云天励飞技术有限公司 | 图像转换模型训练方法、异质人脸识别方法、装置及设备 |
CN111428583B (zh) * | 2020-03-05 | 2023-05-12 | 同济大学 | 一种基于神经网络和触觉点阵的视觉补偿方法 |
CN111985340A (zh) * | 2020-07-22 | 2020-11-24 | 深圳市威富视界有限公司 | 基于神经网络模型的人脸识别方法、装置和计算机设备 |
CN112183747B (zh) * | 2020-09-29 | 2024-07-02 | 华为技术有限公司 | 神经网络训练的方法、神经网络的压缩方法以及相关设备 |
CN112489396B (zh) * | 2020-11-16 | 2022-12-16 | 中移雄安信息通信科技有限公司 | 一种行人尾随行为检测方法、装置、电子设备和存储介质 |
CN112927173B (zh) * | 2021-04-12 | 2023-04-18 | 平安科技(深圳)有限公司 | 模型压缩方法、装置、计算设备及存储介质 |
CN113361540A (zh) * | 2021-05-25 | 2021-09-07 | 商汤集团有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113361363B (zh) * | 2021-05-31 | 2024-02-06 | 北京百度网讯科技有限公司 | 人脸图像识别模型的训练方法、装置、设备及存储介质 |
-
2021
- 2021-09-29 CN CN202111157086.5A patent/CN113901904A/zh active Pending
-
2022
- 2022-09-07 KR KR1020220113617A patent/KR20220130630A/ko unknown
- 2022-09-12 JP JP2022144409A patent/JP2022172362A/ja active Pending
- 2022-09-28 US US17/936,109 patent/US20230103013A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005346472A (ja) * | 2004-06-03 | 2005-12-15 | Canon Inc | 情報処理方法、情報処理装置、撮像装置 |
US20170337467A1 (en) * | 2016-05-18 | 2017-11-23 | Nec Laboratories America, Inc. | Security system using a convolutional neural network with pruned filters |
Non-Patent Citations (3)
Title |
---|
YAOYAO ZHONG, WEIHONG DENG: "Face Transformer for Recognition", ARXIV PREPRINT, vol. arXiv:2103.14803v2, JPN7023003790, 13 April 2021 (2021-04-13), US, pages 1 - 5, ISSN: 0005170656 * |
YEHUI TANG, KAI HAN, YUNHE WANG, CHANG XU, JIANYUAN GUO, CHAO XU, DACHENG TAO: "Patch Slimming for Efficient Vision Transformers", ARXIV PREPRINT, vol. arXiv:2106.02852v1, JPN7023003789, 5 June 2021 (2021-06-05), US, pages 1 - 11, ISSN: 0005170655 * |
西野 駿佑, 数藤 恭子: "プルーニングと行列分解による全結合パラメータの削減とTransformerへの適用展開", 映像情報メディア学会技術報告, vol. ME2021-77 (Sep. 2021), JPN6023041156, 27 August 2021 (2021-08-27), JP, pages 25 - 26, ISSN: 0005170657 * |
Also Published As
Publication number | Publication date |
---|---|
US20230103013A1 (en) | 2023-03-30 |
KR20220130630A (ko) | 2022-09-27 |
CN113901904A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022172362A (ja) | 画像処理方法、顔認識モデルトのレーニング方法、装置及び機器 | |
WO2022022173A1 (zh) | 药物分子属性确定方法、装置及存储介质 | |
JP7291183B2 (ja) | モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品 | |
JP2022018095A (ja) | マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体 | |
US20220004928A1 (en) | Method and apparatus for incrementally training model | |
US20230090590A1 (en) | Speech recognition and codec method and apparatus, electronic device and storage medium | |
KR102635800B1 (ko) | 신경망 모델의 사전 훈련 방법, 장치, 전자 기기 및 매체 | |
JP2023547010A (ja) | 知識の蒸留に基づくモデルトレーニング方法、装置、電子機器 | |
EP4287074A1 (en) | Mixture-of-experts model implementation method and system, electronic device, and storage medium | |
US20220374678A1 (en) | Method for determining pre-training model, electronic device and storage medium | |
JP2021176022A (ja) | オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN114020950A (zh) | 图像检索模型的训练方法、装置、设备以及存储介质 | |
CN113963176A (zh) | 一种模型蒸馏方法、装置、电子设备及存储介质 | |
CN116704291A (zh) | 分片并行的模型训练方法、装置、设备及存储介质 | |
CN115101085A (zh) | 一种卷积增强外部注意力的多说话人时域语音分离方法 | |
JP2023085353A (ja) | 特徴抽出モデル訓練方法、画像分類方法および関連装置 | |
CN113657468A (zh) | 预训练模型的生成方法、装置、电子设备和存储介质 | |
CN113657466A (zh) | 预训练模型的生成方法、装置、电子设备和存储介质 | |
CN115953651B (zh) | 一种基于跨域设备的模型训练方法、装置、设备及介质 | |
JP7352609B2 (ja) | ニューラルネットワーク加速器のデータ処理方法、装置、機器及び記憶媒体 | |
WO2023019996A1 (zh) | 图像特征的融合方法、装置、电子设备和存储介质 | |
US20230030471A1 (en) | Text processing method and apparatus, electronic device and storage medium | |
CN112669861B (zh) | 音频数据处理方法、装置、设备和存储介质 | |
CN113361621B (zh) | 用于训练模型的方法和装置 | |
CN113240780B (zh) | 生成动画的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240507 |