JP2022172362A

JP2022172362A - 画像処理方法、顔認識モデルトのレーニング方法、装置及び機器

Info

Publication number: JP2022172362A
Application number: JP2022144409A
Authority: JP
Inventors: リ，ジェンウェイ; Jianwei Li
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2022-09-12
Publication date: 2022-11-15
Also published as: US20230103013A1; KR20220130630A; CN113901904A

Abstract

【課題】プロセスにおける計算力の消費を削減し、画像処理の効率を向上させる画像処理方法、顔認識モデルトのレーニング方法、装置及び機器を提供する。【解決手段】方法は、処理対象の顔画像を取得し、処理対象の顔画像を複数の画像ブロックに切断し、処理対象の顔画像内の各画像ブロックの重要度情報を決定し、予め設定された視覚変換モデルの枝刈り率を取得し、複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得し、視覚変換モデルの出力結果に基づいて、処理対象の顔画像の特徴ベクトルを決定する。【選択図】図２

Description

本開示は、人工知能技術の分野に関し、具体的にコンピュータビジョンと深層学習技術の分野に関し、画像処理、画像認識などのシナリオに適用可能であり、特に画像処理方法、顔認識モデルトのレーニング方法、装置及び機器に関する。

最近、視覚変換（ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ、ＶｉＴ）モデルは大きな発展を遂げ、トランスフォーマーと呼ばれる変換モデル（Ｔｒａｎｓｆｏｒｍｅｒ）はさまざまな視野競技で優れた結果が得られている。ただし、畳み込みニューラルネットワークモデルと比較すると、Ｔｒａｎｓｆｏｒｍｅｒモデルは一般に、推論と展開に巨大な計算力を必要とするため、Ｔｒａｎｓｆｏｒｍｅｒモデルを小型化して圧縮することが急務である。

本開示は、画像処理方法、顔認識モデルトのレーニング方法、装置及び機器を提供する。

本開示の第１の態様によれば、処理対象の顔画像を取得し、前記処理対象の顔画像を複数の画像ブロックに切断するステップと、前記処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップと、予め設定された視覚変換モデルの枝刈り率を取得するステップと、前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得するステップと、前記視覚変換モデルの出力結果に基づいて、前記処理対象の顔画像の特徴ベクトルを決定するステップと、を含む画像処理方法を提供する。

本開示の第２の態様によれば、顔画像サンプルを取得し、前記顔画像サンプルを複数の画像ブロックに切断するステップと、前記顔画像サンプルの各画像ブロックの重要度情報を決定するステップと、視覚変換モデルの枝刈り率を取得するステップと、前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得するステップと、前記視覚変換モデルの出力結果に基づいて、前記顔画像サンプルの特徴ベクトルを決定し、前記特徴ベクトルに基づいて顔認識結果を取得するステップと、前記顔認識結果に基づいて前記視覚変換モデルをトレーニングするステップと、を含む顔認識モデルのトレーニング方法を提供する。

本開示の第３の態様によれば、処理対象の顔画像を取得し、前記処理対象の顔画像を複数の画像ブロックに切断する第１の取得モジュールと、前記処理対象の顔画像内の各画像ブロックの重要度情報を決定する第１の決定モジュールと、視覚変換モデルの枝刈り率を取得する第２の取得モジュールと、前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得する枝刈りモジュールと、前記視覚変換モデルの出力結果に基づいて、前記処理対象の顔画像の特徴ベクトルを決定する第２の決定モジュールと、を含む画像処理装置を提供する。

本開示の第４の態様によれば、顔画像サンプルを取得し、前記顔画像サンプルを複数の画像ブロックに切断する第１の取得モジュールと、前記顔画像サンプルの各画像ブロックの重要度情報を決定する第１の決定モジュールと、視覚変換モデルの枝刈り率を取得する第２の取得モジュールと、前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得する枝刈りモジュールと、前記視覚変換モデルの出力結果に基づいて、前記顔画像サンプルの特徴ベクトルを決定し、前記特徴ベクトルに基づいて顔認識結果を取得する第２の決定モジュールと、前記顔認識結果に基づいて前記視覚変換モデルをトレーニングするトレーニングモジュールと、を含む顔認識モデルのトレーニング装置を提供する。

本開示の第５の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが上記の第１の態様に記載の方法、及び／又は、上記の第２の態様に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の第６の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、ここで、前記コンピュータ命令は、コンピュータに上記の第１の態様に記載の方法、及び／又は、上記の第２の態様に記載の方法を実行させる。

本開示の第７の態様によれば、コンピュータプログラムが含まれるコンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の第１の態様に記載の方法、及び／又は、上記の第２の態様に記載の方法が実現される。

本開示の技術案により、処理対象の顔画像の複数の画像ブロックを予め設定された視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うことにより、視覚変換モデルの各層のネットワークの入力特徴を低減することで、顔画像の特徴抽出に影響を与えることなく、視覚変換モデルの計算力消費（又は演算リソースの消費）を低減することができ、画像処理の効率を高めることができる。

なお、この欄に記載の内容は、本開示の実施例の要旨または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。

図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例による視覚変換モデルの概略構成図である。本開示の実施例によって提供される画像処理方法のフローチャートである。本開示の実施例による各層のネットワーク入力に対する枝刈り処理のフローチャートである。本開示の実施例による各層のネットワーク入力に対する別の枝刈り処理のフローチャートである。本開示の実施例によって提供される各層のネットワーク入力に対する更なる枝刈り処理のフローチャートである。本開示の実施例による各層のネットワーク入力に対する枝刈り処理の例示的な図である。本開示の実施例によって提供される顔認識モデルのトレーニング方法である。本開示の実施例によって提供される画像処理装置の構造ブロック図である。本開示の実施例によって提供される別の画像処理装置の構造ブロック図である。本開示の実施例の電子機器を実現するためのブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示として見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

本開示の技術案では、関連するユーザ個人情報の取得、記憶および応用などは、いずれも関連法律法規の規定に準拠し、且つ公序良俗には反しない。関連するユーザの個人情報は、ユーザの同意を得て取得、保存、および適用される。

なお、本開示のいくつかの実施例では、視覚変換モデルとはＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ（ＶｉＴ）モデルを指す。最近、視覚変換（ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ、ＶｉＴ）モデルは大きな発展を遂げ、変換モデル（Ｔｒａｎｓｆｏｒｍｅｒ）はさまざまな視野競技で優れた結果が得られている。ただし、畳み込みニューラルネットワークモデルと比較すると、Ｔｒａｎｓｆｏｒｍｅｒモデルは一般に、推論と展開に巨大な計算力を必要とするため、Ｔｒａｎｓｆｏｒｍｅｒモデルを小型化して圧縮することが急務である。

ここで、視覚変換モデル構造は、図１に示すように、Ｔｒａｎｓｆｏｒｍｅｒでは、画像は複数の画像ブロック（ｐａｔｃｈ）に分割され、各画像ブロックはネットワークの入力位置に対応する。Ｍｕｌｔｉｔｒａｎｓｆｏｒｍｅｒｅｎｃｏｄｅｒ（多層変換モデルのエンコーダー）は、多層のＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ（変換モデル内のエンコーダー）モジュールをスタックし、このモジュールには、２つのｎｏｒｍ（正規化）モジュール、１つのＭＨＡ（ＭｕｌｔｉＨｅａｄＡｔｔｅｎｔｉｏｎ、マルチヘッドアテンション）モジュール、１つのＭＬＰ（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ、多層パーセプトロン）モジュールがある。

ここで、関連する枝刈り技術は主に視覚変換モデルの層数とヘッド（ｈｅａｄ）の数を枝刈りし、これらのスキームは計算過程でディメンションの一部のみを枝刈りする。計算過程では、画像ブロックの数もモデルの計算量に影響を与えることがわかる。

しかしながら、画像ブロックの枝刈りの場合、一般的な分類タスクには大きな制限があり、画像内のオブジェクトは任意の位置に現れる可能性があるため、画像ブロックの枝刈りは、レイヤー間の情報転送を集約できるように、特別なアグリゲーション操作を実行する必要がある場合があるが、そのような操作は計算量を増やすが、必ずしも情報を統合および集約するわけではない。

しかしながら、顔認識モデルの場合、画像がモデルに入力される前に、検出および位置合わせなどの操作が画像に対して実行されて、最高の精度を達成する。これらの操作の後、顔画像はほぼ同じ構造になるため、顔画ブロックの重要性もほぼ同じ順序になる。したがって、画像ブロックの重要性に応じて画像ブロックを枝刈りし、重要でない画像ブロックのモデルの計算を減らし、それによってモデルの計算力消費を減らすことができる。

上記の問題及び発見に基づいて、本開示は、画像処理方法を提供し、モデルの各層のネットワークの入力に対して枝刈り処理を行うことにより、画像処理プロセスにおける計算力消費を削減する。

図２は、本開示の実施例によって提供される画像処理方法のフローチャートである。この画像処理方法は、画像処理方法は主に顔画像の処理に適用され、処理プロセスにおける顔認識モデルがトレーニングされ、この顔認識モデルには視覚変換モデルが含まれ、つまり、視覚変換モデルもトレーニングされている。なお、本開示の実施例における画像処理方法は、本開示の実施例における画像処理装置に適用することができ、この装置は、電子機器に配置することができる。図２に示すように、この画像処理方法は、以下のステップ２０１～２０５を含む。

ステップ２０１では、処理対象の顔画像を取得し、処理対象の顔画像を複数の画像ブロックに切断する。

なお、モデルが処理対象の顔画像の特徴を完全に抽出できるようにするために、処理対象の顔画像を複数の画像ブロックに切断することができ、複数の切断された画像ブロックのサイズは等しく、切断後の画像ブロックの数は、予め設定された視覚変換モデルの画像ブロックの入力数と同じである。

ステップ２０２では、処理対象の顔画像内の各画像ブロックの重要度情報を決定する。

なお、処理対象の顔画像内のすべての画像ブロックに顔の重要度特徴が含まれているわけではなく、一部の画像ブロックは顔画像の背景のみである可能性があり、顔の特徴の抽出にはあまり影響しない。したがって、視覚変換モデルが、処理される顔の各画像ブロックに対して、学習を通じて特徴を抽出する場合、一部の重要でない画像ブロックで一定量の計算力が浪費される。

同時に、顔認識モデルの場合、画像がモデルに入力される前に、検出および位置合わせなどの操作が実行されるため、これらの操作の後、各顔画像は、ほぼ同じパターンを有し、つまり、各顔画像内の各画像ブロックの重要度分布はほぼ同じであるため、多数の顔画像に基づく統計分析により、各画像ブロックの重要度情報を決定することができる。

本開示のいくつかの実施例では、複数の顔画像を事前に取得することができ、各顔画像を予め設定された数の画像ブロックに切断し、トレーニングされた顔特徴抽出モデルを使用して、各画像ブロックに含まれる特徴情報を決定する。各画像内の各画像ブロックの特徴情報を組み合わせ、各顔画像の位置１の画像ブロックに顔の特徴情報が多く含まれ、位置３の画像ブロックに顔の特徴情報がほとんど含まれていない場合は、位置１の画像ブロックの重要度が位置３の画像ブロックの重要度よりも高いと決定されるため、異なる位置の各画像ブロックの重要度情報を取得することができ、この重要度情報をすべての顔画像に適用することができるため、処理対象の顔画像内の各画像ブロックの重要度情報が決定される。

実施形態として、視覚変換モデルのＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ層の計算プロセスにおいて、注意力行列は、画像ブロックと画像ブロックとの関係の重要性を反映する。したがって、画像ブロック間の重要度情報は、視覚変換モデルの各層のネットワークから出力される注意力行列に基づいて決定することができる。実施形態は、複数の顔画像サンプルを視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得するステップと、得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得するステップと、各画像ブロックサンプルの重みに基づいて、処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップとを含む。ここで、注意力行列の値はｓｏｆｔｍａｘ（最大正規化活性化関数）処理の結果であるため、ｓｏｆｔｍａｘの結果は画像ブロックの重要度確率であり、複数の画像サンプルの画像ブロックの重要度確率をマージして、各画像ブロックの重みを決定することができる。そのマージ方法は、行列軸に沿って各画像サンプルの注意力行列を加算すること、または実際の応用シナリオで各層のネットワークの違いに応じて加重和を実行することであってもよく、または、実際のニーズに応じて他のマージ方法を採用することもできる。

ステップ２０３では、予め設定された視覚変換モデルの枝刈り率を取得する。

本開示のいくつかの実施例では、視覚変換モデルの枝刈り率は、多層ネットワークコンピューティングにおいて削減されると予想される計算量の割合を指す。これは、対話型インターフェースの入力によって取得され、またはインターフェースを介してパラメータを渡すことによって取得され、または実際の応用シナリオのプリセット値に基づいて取得され、または実際の応用シナリオに基づいて他の方法で取得することができるが、本開示に限定されない。

ステップ２０４では、複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する。

なお、本開示の実施例では、視覚変換モデルの出力結果は、顔認識モデルにおけるノードの出力であり、この出力結果は、顔認識モデルの後続のノードの入力情報として使用される。

つまり、処理対象の顔画像内の複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と、処理対象の顔画像内の各画像ブロックの重要度情報とに基づいて、各層のネットワークの入力に対して枝刈り処理を行って、モデルの特徴抽出に影響を与えずに、各層のネットワークの計算量を低減することができる。

一例として、各層のネットワークの入力で刈られる画像ブロックの数は、枝刈り率に基づいて決定することができ、次に、各画像ブロックの重要度情報に基づいて、レイヤーごとに重要度の低い画像ブロックを枝刈りされる画像ブロックとして選択することにより、各層のネットワークの入力で枝刈りされる画像ブロックの特徴情報に対して枝刈り処理を行って、ひいては視覚変換モデルの出力結果を取得することができる。

別の例として、各画像ブロックの重要度情報に基づいて、処理対象の顔画像内の複数の画像ブロックを並べ替え、例えば、各画像ブロックを重要度の降順で並べ替えることができ、各層のネットワークの入力で刈られる画像ブロックの決定された数に基づいて、各層のネットワークの入力で最後に対応する数の画像ブロックの特徴を刈り、重要でない画像ブロックに対する枝刈り処理を実現し、これにより、視覚変換モデルによって処理対象の顔画像の特徴抽出に影響を与えない。

なお、本開示のいくつかの実施例では、視覚変換モデルの各層のネットワークは、視覚変換モデルの各層のＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ層を指す。

ステップ２０５では、視覚変換モデルの出力結果に基づいて、処理対象の顔画像の特徴ベクトルを決定する。

本開示のいくつかの実施例では、処理対象の顔画像の複数の画像ブロックが視覚変換モデルに入力される場合、視覚変換モデルは仮想画像ブロックを補足することができ、この仮想画像ブロックがＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ層を通過した結果が、処理対象の顔画像の全体的な情報表現として使用されるため、視覚変換モデルの出力結果において、仮想画像ブロック内の対応する特徴ベクトルを、処理対象の顔画像の特徴ベクトルとして使用することができる。さらに、一部の視覚変換モデルは、処理対象の顔画像の全体的な情報を学習するための仮想画像ブロックを補足しないため、この場合、視覚変換モデルの出力結果を、処理対象の顔画像の特徴ベクトルとして直接使用することができる。

本開示の実施例の画像処理方法によれば、処理対象の顔画像の複数の画像ブロックを視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うことにより、視覚変換モデルの各層のネットワークの入力特徴を低減することで、顔画像の特徴抽出に影響を与えることなく、画像処理の効率を高めることができる。

上記の実施例に基づいて、本開示は、視覚変換モデルの各層のネットワーク入力に対する枝刈り処理の方法の別の実施例を提供する。

図３は、本開示の実施例における各層のネットワーク入力の枝刈り処理のフローチャートである。図３に示すように、この枝刈り処理プロセスは、以下のステップ３０１～３０３を含む。

ステップ３０１では、枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定する。

視覚変換モデルは多層ネットワークを含むため、特徴抽出に対する枝刈り処理の影響を低減するために、枝刈り処理をレイヤーごとに実行することができ、すなわち、モデルがレイヤーごとに実行されているときに、枝刈り処理が段階的に実行され、特定のレイヤーのネットワークの入力で刈られる情報が多すぎるため、このレイヤーのネットワークと後続のネットワークの特徴抽出に影響を与えることを回避することができる。

本開示のいくつかの実施例では、各層のネットワークの枝刈りされる画像ブロックの数は、この枝刈り率に基づく、各層のネットワークで刈る必要がある画像ブロックの数を指す。各層のネットワークの枝刈りされる画像ブロックの数は、枝刈り率によって計算することができ、各層の刈られる画像ブロックの数は、同じでも異なっていてもよく、実際の状況に応じて決定することができる。一例として、視覚変換モデルによって入力される画像ブロックの数と枝刈り率とに基づいて、視覚変換モデルの枝刈りされる画像ブロックの総数を計算することができる。入力された画像ブロックの数が１２０で、視覚変換モデルに合計１０層のネットワークがある場合、枝刈り処理が実行されていない場合、各層のネットワーク入力は１２０個の画像ブロックの特徴を持ち、枝刈り率が１０％である場合、このモデルの枝刈りされる画像ブロックの総数＝１２０＊１０＊１０％＝１２０である。このように、各層のネットワークで実際に刈られた画像ブロックの数の累積合計は、１２０個の画像ブロックである。第１層の枝刈りされる画像ブロックの数が２であり、第２層の枝刈りされる画像ブロックの数も２である場合、第２層の画像ブロックの実際の枝刈りの数は４になり、以下同様に、このモデルの各層のネットワークの実際の枝刈りの数の累積合計は１２０個の画像ブロックになるまで行われ、この枝刈り率に達する。なお、各層のネットワークで刈られる画像ブロックの数は同じであり、必要に応じて、異なる数の枝刈りされる画像ブロックを設定することができる。

ステップ３０２では、各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定する。

なお、各画像ブロックの重要度情報によると、どの画像ブロックに対して枝刈り操作を実行するかを決定することができるため、各層のネットワークで枝刈りされる画像ブロックの数に基づいて、各層のネットワークの枝刈りされる画像ブロックをさらに決定することができる。

一例として、入力された画像ブロックの数が９であり、各層のネットワークの枝刈りされる画像ブロックの数が１であり、各画像ブロックの重要度情報が、位置３の画像ブロック＜位置９の画像ブロック＜位置２の画像ブロック＜位置１の画像ブロック＜位置４の画像ブロック＜位置５の画像ブロック＜位置６の画像ブロック＜位置７の画像ブロック＜位置８の画像ブロックである場合、第１層ネットワーク入力の枝刈りされる画像ブロックが位置３の画像ブロックであり、第２層ネットワーク入力の枝刈りされる画像ブロックが位置９の画像ブロックであり、第３層ネットワーク入力の枝刈りされる画像ブロックが位置２の画像ブロックであると決定され、以下同様である。説明を簡単にするために、以下では「画像ブロック＋番号」の形式を使用して、さまざまな位置の画像ブロックを表し、たとえば、画像ブロック３は位置３の画像ブロックを表す。

ステップ３０３では、各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。

つまり、各層のネットワークの入力特徴を刈り、次に刈られた特徴を対応するレイヤーのネットワークに入力し、各層のネットワークの入力を減らすことにより、視覚変換モデルの計算量を削減する。

本開示のいくつかの実施例では、各層のネットワークの入力特徴は前の層のネットワークの出力特徴に相当する。例えば、第３層ネットワークの場合、第３層ネットワークの入力特徴は第２層ネットワークの出力特徴に相当する。つまり、本開示の実施例では、各層のネットワークの入力特徴をネットワークに入力する前に、この入力特徴を枝刈りし、そして、刈った後に得られた特徴を対応する層のネットワークに入力する。

例えば、上記の例における第３層ネットワークの入力特徴については、最初に、この入力特徴のうち位置２にある画像ブロックに対応する特徴を刈り、次に、刈った後に得られた特徴を第３層ネットワークに入力する。

本開示の実施例によって提供される画像処理方法は、枝刈り率に基づいて各層のネットワークの枝刈りされる画像ブロックの数を決定し、各画像ブロックの重要度情報に基づいて、各層のネットワークの枝刈りされる画像ブロックを決定し、各層のネットワークの入力特徴について、枝刈りされる画像ブロックに対応する特徴を刈り、現在の層のネットワークに入力し、つまり、不要な画像ブロックに対する各層のネットワークの情報の入力を減らすことで、各層のネットワークの計算量を減らすことができるため、特徴情報が失われないことを確保することを前提として、視覚変換モデルの計算力消費を低減するという目的を達成することができる。

上記の実施例に基づいて、本開示は、各層のネットワークの入力の枝刈り処理に対して別の実施例をさらに提供する。

図４は、本開示の実施例における各層のネットワーク入力に対する別の枝刈り処理のフローチャートである。図４に示すように、この枝刈り処理のプロセスは、以下のステップ４０１～４０４を含む。

ステップ４０１では、各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替える。

つまり、各画像ブロックの重要度情報に基づいて、重要度に応じて各画像ブロックを並べ替える。

本開示のいくつかの実施例では、処理対象の顔画像を複数の画像ブロックに切断した後、処理対象の顔画像内の位置に基づいて各画像ブロックを配置し、つまり、処理対象の顔画像を複数の画像ブロックに切断することは、処理対象の顔画像を異なる行と列に分割することに相当し、処理対象の顔画像内の位置に基づいて各画像ブロックを配置することは、行と列の順序で、上から下、左から右に配置することであってもよい。

各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替えることは、元の位置配置順序をシャッフルすることに相当し、重要度の高い画像ブロックを前に並べて順次類推してもよいし、重要度の高い画像ブロックを後に並べて順次類推してもよい。一例として、切断後の画像ブロックは１２０個あり、切断後の各画像ブロックは、｛画像ブロック１、画像ブロック２、画像ブロック３、画像ブロック４、…、画像ブロック１２０｝のように並べ替え、各画像ブロックの重要度情報が、画像ブロック３＜画像ブロック１０＜画像ブロック１１＜画像ブロック３４＜画像ブロック１＜画像ブロック２＜画像ブロック１１５＜画像ブロック１３…＜画像ブロック４４＜画像ブロック４５＜画像ブロック４７である場合、各画像ブロックの重要度情報によると、各画像ブロックを重要度に基づいて並べ替えた結果は、｛画像ブロック４７、画像ブロック４５、画像ブロック４４、…、画像ブロック１３、画像ブロック１１５、画像ブロック２、画像ブロック１、画像ブロック３４、画像ブロック１１、画像ブロック１０、画像ブロック３｝であり得る。

ステップ４０２では、各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力する。

ステップ４０３では、枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定する。

ステップ４０４では、各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴からこの枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。

つまり、各層のネットワークの入力特徴については、ネットワーク層を入力する前に、まず、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、そして、刈った後に得られた特徴を対応する層のネットワークに入力する。

例えば、上記の示例に基づいて、重要度の高いものから低いものへと各画像ブロックを並べ替えた結果が、｛画像ブロック４７、画像ブロック４５、画像ブロック４４、…、画像ブロック１３、画像ブロック１１５、画像ブロック２、画像ブロック１、画像ブロック３４、画像ブロック１１、画像ブロック１０、画像ブロック３｝であり、第１層ネットワークの枝刈りされる画像ブロックの数が１である場合、第１層ネットワークに入力される前の入力特徴は、｛画像ブロック４７、画像ブロック４５、画像ブロック４４、…、画像ブロック１３、画像ブロック１１５、画像ブロック２、画像ブロック１、画像ブロック３４、画像ブロック１１、画像ブロック１０画像ブロック３｝の初期特徴であり、この並べ替え結果に基づいて、最後の画像ブロックに対応する特徴を刈る場合、刈られた特徴は、｛画像ブロック４７、画像ブロック４５、画像ブロック４４、…、画像ブロック１３、画像ブロック１１５、画像ブロック２、画像ブロック１、画像ブロック３４、画像ブロック１１、画像ブロック１０｝の初期特徴であり、この処理後の特徴を第１層ネットワークに入力し、第２層ネットワークの枝刈りされる画像ブロックの数が３である場合、第２層ネットワークに入力される前の入力特徴は、｛画像ブロック４７、画像ブロック４５、画像ブロック４４、…、画像ブロック１３、画像ブロック１１５、画像ブロック２、画像ブロック１、画像ブロック３４、画像ブロック１１、画像ブロック１０｝に対応する第１の特徴であり、この第１の特徴は、学習と計算を通じて第１層ネットワークによって出力される特徴を指し、この刈られた特徴が｛画像ブロック４７、画像ブロック４５、画像ブロック４４、…、画像ブロック１３、画像ブロック１１５、画像ブロック２、画像ブロック１｝に対応する第１の特徴である場合、この刈られた特徴を第２層ネットワークに入力する。

本開示の実施例の画像処理方法によれば、最初に、各画像ブロックの重要度情報に基づいて、処理対象の顔画像の各画像ブロックを並べ替え、この並べ替えに基づいて、各層の入力特徴から、対応する数の画像ブロックに対応する特徴を刈り、そして、刈った後に得られた特徴を対応するネットワーク層に入力し、これにより、刈る場合、並べ替えに基づいて、前のいくつかの画像ブロックの特徴または後のいくつかの画像ブロックの特徴を直接刈ることができ、刈りプロセスの計算量をさらに削減することができ、刈り効率を向上させることができ、画像処理の効率をさらに向上させることができる。

顔画像の特徴抽出に対する各層のネットワーク入力の刈り処理の影響をさらに回避するために、本開示の実施例は、さらに別の実施形態を提供する。

図５は、本開示の実施例によって提供される各層のネットワーク入力に対する更なる枝刈り処理のフローチャートである。説明の便宜上、本開示の実施例では、Ｎは、視覚変換モデルにおけるネットワーク層の数を表すために使用され、ここで、Ｎは、１より大きい整数である。図５に示すように、この枝刈り処理プロセスは、以下のステップ５０１～５０４を含む。

ステップ５０１では、枝刈り率に基づいて、第ｉ層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、ｉは、０より大きくＮ－１以下の整数である。

つまり、本開示の実施例では、前のＮ－１層のネットワークの枝刈りされる画像ブロックの数は、枝刈り率のみに基づいて決定され、第Ｎ層のネットワークの入力は枝刈りされない。

ステップ５０２では、各画像ブロックの重要度情報と第ｉ層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第ｉ層のネットワークで枝刈りされる画像ブロックを決定する。

ステップ５０３では、第ｉ層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第ｉ層のネットワークに入力する。

ここで、ステップ５０２およびステップ５０３における、前のＮ－１層のネットワーク入力の刈り処理の実現方法は、図３のステップ３０２およびステップ３０３における、前のＮ－１層のネットワーク入力の刈り処理の実現方法と一致し、ここでは説明を省略する。

ステップ５０４では、第Ｎ層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第Ｎ層のネットワークに入力する。

つまり、第Ｎ－１層のネットワークの出力特徴を、前のＮ－１層のネットワークの入力のすべての刈られた画像ブロックの特徴とスプライスすることによって得られた特徴を第Ｎ層のネットワークに入力することで、前のＮ－１層のネットワークの計算力消費を低減することができるとともに、処理対象の顔画像の特徴抽出に対する刈り処理の影響をさらに低減することができる。

理解を容易にするために、本開示の実施例の実施形態を図６に示すことができ、視覚変換モデルが合計６層のネットワークを有し、前の５層の入力の各層は、１つの画像ブロックに対応する特徴を刈る場合、第６層のネットワークの入力は、第５層のネットワークの出力特徴を、前の５層のネットワークで刈られた画像ブロックに対応する特徴とスプライスすることによって得られた特徴となり、つまり、視覚変換モデルを実行するプロセスでは、各枝刈りプロセスで刈られた画像ブロックに対応する特徴を保存する必要があり、最後のレイヤーまで実行すると、刈られた画像ブロックの特徴が呼び出される。

なお、第Ｎ層のネットワークの入力は、処理対象の顔画像のすべての特徴を統合することに相当し、計算量を減らしながら、顔画像の特徴を失われないようにすることができる。

本開示の実施例の画像処理方法によれば、Ｎ層のネットワークの視覚変換モデルについて、前のＮ－１層のネットワークの入力のそれぞれに対して枝刈り処理を行って、第Ｎ－１層のネットワークの出力特徴を、前のＮ－１層のネットワークの入力で刈られた画像ブロックに対応する特徴とスプライスし、スプライスされた特徴を第Ｎ層のネットワークに入力し、一方では、顔画像の特徴抽出に対する枝刈り処理の影響をさらに減らすことができ、他方では、前のＮ－１層のネットワークを枝刈りすることによって、モデルの計算量を減らすことができ、これにより、画像処理に対する枝刈り処理の効果をさらに向上させることができる。

本開示の実施例は、顔認識モデルのトレーニング方法をさらに提供する。

図７は、本開示の実施例によって提供される顔認識モデルのトレーニング方法であり、この顔認識モデルは視覚変換モデルを含む。なお、本開示の実施例の顔認識モデルのトレーニング方法は、本開示の実施例の顔認識モデルのトレーニング装置に適用可能であり、かつ、この装置は電子機器に配置することができる。図７に示すように、このトレーニング方法は、以下のステップ７０１～７０６を含む。

ステップ７０１では、顔画像サンプルを取得し、顔画像サンプルを複数の画像ブロックに切断する。

なお、モデルが処理対象の顔画像サンプルの特徴を完全に抽出できるようにするために、顔画像サンプルの各顔画像を複数の画像ブロックに切断することができ、複数の切断された画像ブロックのサイズは等しく、切断後の画像ブロックの数は、視覚変換モデルの画像ブロックの入力数と同じである。

ステップ７０２では、顔画像サンプルの各画像ブロックの重要度情報を決定する。

なお、処理対象の顔画像内のすべての画像ブロックに顔の重要度特徴が含まれているわけではなく、一部の画像ブロックは顔画像の背景のみである可能性があり、顔の特徴の抽出にはあまり影響しない。したがって、視覚変換モデルが、顔画像サンプルの各画像ブロックに対して、学習を通じて特徴を抽出する場合、一部の重要でない画像ブロックで一定量の計算力が浪費される。

実施形態として、視覚変換モデルのＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ層の計算プロセスにおいて、注意力行列は、画像ブロックと画像ブロックとの間の関係の重要性を反映する。したがって、画像ブロック間の重要度情報は、視覚変換モデルの各層のネットワークから出力される注意力行列に基づいて決定することができる。実施形態は、複数の顔画像を視覚変換モデルに入力し、各層のネットワークから出力される各顔画像に対応する注意力行列を取得するステップと、得られたすべての注意力行列をマージし、顔画像の画像ブロックの重みを取得するステップと、各顔画像の画像ブロックの重みに基づいて、顔画像サンプルの各顔画像の各画像ブロックの重要度情報を決定するステップとを含む。ここで、注意力行列の値はｓｏｆｔｍａｘ（最大正規化活性化関数）処理の結果であるため、ｓｏｆｔｍａｘの結果は画像ブロックの重要度確率であり、複数の画像サンプルの画像ブロックの重要度確率をマージして、各画像ブロックの重みを決定することができる。そのマージ方法は、行列軸に沿って各画像サンプルの注意力行列を加算すること、または実際の応用シナリオで各層のネットワークの違いに応じて加重和を実行することであってもよく、または、実際のニーズに応じて他のマージ方法を採用することもできる。

ステップ７０３では、視覚変換モデルの枝刈り率を取得する。

ステップ７０４では、複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する。

なお、本開示の実施例では、視覚変換モデルの出力結果は、顔認識モデルにおけるノードの出力であり、この出力結果は、顔認識モデルの後続のノードの入力情報として使用される。ここで、顔認識モデルは、関連するトレーニング方法によってトレーニングされたモデルであり、つまり、視覚変換モデルも、関連するトレーニング方法によってトレーニングされたモデルである。

顔認識モデルを適用する際の計算量を減らし、枝刈り処理後のモデルの精度を確保するために、本開示の実施例における顔認識モデルのトレーニング方法は、各ネットワーク層の入力の枝刈り処理に基づく微調整プロセスに相当する。

実施形態として、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行う実現方法は、次のようになり、枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。

別の実施形態として、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行う実現方法は、次のようになり、各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替え、各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力し、枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。

さらに別の実施形態として、説明を容易にするために、Ｎは視覚的変換モデルのネットワークの層の数を示すために使用される。各層のネットワーク入力に対する枝刈り処理の実現方法は、次のようになり、枝刈り率に基づいて、第ｉ層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、ｉは、０より大きくＮ－１以下の整数であり、各画像ブロックの重要度情報と第ｉ層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第ｉ層のネットワークで枝刈りされる画像ブロックを決定し、第ｉ層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第ｉ層のネットワークに入力し、第Ｎ層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第Ｎ層のネットワークに入力する。

上記の枝刈り処理に基づいて、視覚変換のモデルの最後の層のネットワークの出力結果は、視覚変換モデルの出力結果である。

ステップ７０５では、視覚変換モデルの出力結果に基づいて、顔画像サンプルの特徴ベクトルを決定し、特徴ベクトルに基づいて顔認識結果を取得する。

本開示のいくつかの実施例では、顔画像サンプルの複数の画像ブロックが視覚変換モデルに入力される場合、視覚変換モデルは仮想画像ブロックを補足することができ、この仮想画像ブロックがＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ層を通過した結果が、顔画像サンプルの対応する画像の全体的な情報表現として使用されるため、視覚変換モデルの出力結果において、仮想画像ブロック内の対応する特徴ベクトルを、顔画像サンプルの特徴ベクトルとして使用することができる。さらに、一部の視覚変換モデルは、顔画像サンプルの対応する画像の全体的な情報を学習するための仮想画像ブロックを補足しないため、この場合、視覚変換モデルの出力結果を、顔画像サンプルの特徴ベクトルとして直接使用することができる。

この前、視覚変換モデルによって得られた顔画像サンプルの特徴ベクトルが顔認識プロセスのノードに相当するため、この特徴ベクトルは、顔認識モデルの後続のノードによって引き続き学習され、この特徴ベクトルに基づいて、顔画像サンプルに対応する顔認識結果を取得する。

ステップ７０６では、顔認識結果に基づいて顔認識モデルをトレーニングする。

つまり、対応する損失値は、この顔認識結果と顔画像サンプルの実際の結果に基づいて計算され、損失値に基づいて、顔認識モデルのパラメータを微調整し、このモデルパラメータを対応する枝刈り方法に適用できるようにする。

なお、本開示の実施例における視覚変換モデルの各層のネットワークの枝刈り処理の詳細な説明は、上記の画像処理方法の実施例において提示されており、ここでは繰り返されない。

本開示の実施例によって提供される顔認識モデルのトレーニング方法は、顔画像サンプルの複数の画像ブロックを視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、枝刈り処理後に視覚変換モデルによって得られた特徴ベクトルに基づいて、顔認識結果を決定することにより、顔認識結果に基づいて視覚変換モデルをトレーニングすることができ、つまり、顔認識結果に基づいて顔認識モデルをトレーニングすることができ、このモデルのパラメータをこの枝刈り方法に適用することができ、視覚変換モデルを使用する顔認識モデルは、計算力の消費を節約し、顔認識の効率を向上させることもできる。

上記実施例を実現するために、本開示は、画像処理装置を提供する。

図８は、本開示の実施例によって提供される画像処理装置の構造ブロック図である。図８に示すように、この装置は、
処理対象の顔画像を取得し、処理対象の顔画像を複数の画像ブロックに切断する第１の取得モジュール８０１と、
処理対象の顔画像内の各画像ブロックの重要度情報を決定する第１の決定モジュール８０２と、
視覚変換モデルの枝刈り率を取得する第２の取得モジュール８０３と、
複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する枝刈りモジュール８０４と、
視覚変換モデルの出力結果に基づいて、処理対象の顔画像の特徴ベクトルを決定する第２の決定モジュール８０５と、を含む。

ここで、第１の決定モジュール８０２は、具体的には、
複数の顔画像サンプルを視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得し、
得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得し、
各画像ブロックサンプルの重みに基づいて、処理対象の顔画像内の各画像ブロックの重要度情報を決定する。

本開示のいくつかの実施例では、枝刈りモジュール８０４は、具体的には、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、
各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。

本開示のいくつかの実施例では、枝刈りモジュール８０４は、具体的には、
各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替え、
各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力し、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。

本開示のいくつかの実施例では、視覚変換モデルにはＮ層のネットワークが含まれ、Ｎは１よりも大きい整数であり、枝刈りモジュール８０４は、具体的には、
枝刈り率に基づいて、第ｉ層のネットワークの枝刈りされる画像ブロックの数を決定し、ｉは、０より大きくＮ－１以下の整数であり、
各画像ブロックの重要度情報と第ｉ層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第ｉ層のネットワークで枝刈りされる画像ブロックを決定し、
第ｉ層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第ｉ層のネットワークに入力し、
第Ｎ層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第Ｎ層のネットワークに入力する。

本開示の実施例によって提供される画像処理装置は、処理対象の顔画像の複数の画像ブロックを視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うことにより、視覚変換モデルの各層のネットワークの入力特徴を低減することで、顔画像の特徴抽出に影響を与えることなく、視覚変換モデルの計算力消費を低減することができ、画像処理の効率を高めることができる。

上記実施例を実現するために、本開示は顔認識モデルのトレーニング装置を提供する。

図９は、本開示の実施例によって提供される顔認識モデルのトレーニング装置の構造ブロック図である。ここで、本開示の実施例における顔認識モデルは視覚変換モデルを含む。図９に示すように、この装置は、
顔画像サンプルを取得し、顔画像サンプルを複数の画像ブロックに切断する第１の取得モジュール９０１と、
顔画像サンプルの各画像ブロックの重要度情報を決定する第１の決定モジュール９０２と、
視覚変換モデルの枝刈り率を取得する第２の取得モジュール９０３と、
複数の画像ブロックを視覚変換モデルに入力し、枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、視覚変換モデルの出力結果を取得する枝刈りモジュール９０４と、
視覚変換モデルの出力結果に基づいて、顔画像サンプルの特徴ベクトルを決定し、特徴ベクトルに基づいて顔認識結果を取得する第２の決定モジュール９０５と、
顔認識結果に基づいて顔認識モデルをトレーニングするトレーニングモジュール９０６とを含む。

ここで、第１の決定モジュール９０２は、具体的には、
複数の顔画像を視覚変換モデルに入力し、各層のネットワークから出力される各顔画像に対応する注意力行列を取得し、
得られたすべての注意力行列をマージし、顔画像内の画像ブロックの重みを取得し、
顔画像内の画像ブロックの重みに基づいて、顔画像サンプルの各顔画像内の各画像ブロックの重要度情報を決定する。

本開示のいくつかの実施例では、枝刈りモジュール９０４は、具体的には、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各画像ブロックの重要度情報と各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、各顔画像サンプルの複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、
各層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。

本開示のいくつかの実施例では、枝刈りモジュール９０４は、具体的には、
各画像ブロックの重要度情報に基づいて、各画像ブロックを並べ替え、
各画像ブロックと各画像ブロックの並べ替え結果を視覚変換モデルに入力し、
枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各層のネットワークの入力特徴について、各画像ブロックの並べ替え結果に基づいて、入力特徴から枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた特徴を現在の層のネットワークに入力する。

本開示のいくつかの実施例では、視覚変換モデルにはＮ層のネットワークが含まれ、Ｎは１よりも大きい整数であり、枝刈りモジュール９０４は、具体的には、
枝刈り率に基づいて、第ｉ層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、ｉは、０より大きくＮ－１以下の整数であり、
各画像ブロックの重要度情報と第ｉ層のネットワークの枝刈りされる画像ブロックの数とに基づいて、複数の画像ブロックの第ｉ層のネットワークで枝刈りされる画像ブロックを決定し、
第ｉ層のネットワークの入力特徴について、入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた特徴を第ｉ層のネットワークに入力し、
第Ｎ層のネットワークの入力特徴について、入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第Ｎ層のネットワークに入力する。

本開示の実施例の顔認識モデルのトレーニング装置によれば、顔画像サンプルの複数の画像ブロックを視覚変換モデルに入力し、モデルの枝刈り率と各画像ブロックの重要度情報とに基づいて、視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、枝刈り処理後に視覚変換モデルによって得られた特徴ベクトルに基づいて、顔認識結果を決定することにより、顔認識結果に基づいて視覚変換モデルをトレーニングすることができ、ひいては顔認識結果に基づいて顔認識モデルをトレーニングすることができ、このモデルのパラメータをこの枝刈り方法に適用することができ、視覚変換モデルを使用する顔認識モデルは、計算力の消費を節約し、顔認識の効率を向上させることもできる。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。

図１０は、本開示の実施例を実施するための例示的な電子機器１０００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目のとする。電子機器は、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／または求められる本願の実現を限定することを意図しない。

図１０に示すように、電子機器１０００は、リードオンリメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム、または記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット１００１を含む。ＲＡＭ１００３には、電子機器１０００の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット１００１と、ＲＯＭ１００２と、ＲＡＭ１００３とは、バス１００４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース１００５もバス１００４に接続されている。

電子機器１０００における複数のコンポーネントは、Ｉ／Ｏインターフェース１００５に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット１００６と、種々なディスプレイやスピーカなどの出力ユニット１００７と、磁気ディスクや光学ディスクなどの記憶ユニット１００８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット１００９と、を備える。通信ユニット１００９は、電子機器１０００がインターネットのようなコンピュータネット及び／または種々なキャリアネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット１００１は、処理及び計算能力を有する様々な汎用及び／または専用の処理コンポーネントであってもよい。計算ユニット１００１のいくつかの例としては、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット１００１は、上記で説明された各方法及び処理、例えば本開示の第１の態様の実施例に記載の画像処理方法、及び／又は、顔認識モデルのトレーニング方法を実行する。例えば、いくつかの実施形態では、画像処理方法、及び／又は、顔認識モデルのトレーニング方法を、記憶ユニット１００８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施形態では、コンピュータプログラムの一部または全ては、ＲＯＭ１００２及び／または通信ユニット１００９を介して、電子機器１０００にロード及び／またはインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１によって実行される場合に、前述した画像処理方法、及び／又は、顔認識モデルのトレーニング方法の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット１００１は、他の任意の適当な方式（例えば、ファームウェア）により画像処理方法、及び／又は、顔認識モデルのトレーニング方法を実行するように構成されてもよい。

ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電サブ回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び／または解釈される１つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも１つの入力デバイス、及び当該少なくとも１つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されるとされた際に、フローチャート及び／またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラム可能な人間の画像復元装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用されるために、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子の、磁気の、光学の、電磁の、赤外線の、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、１または複数のラインに基づく電気の接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラム可能なリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線チューブ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、またはミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよいし、分散システムのサーバまたはブロックチェーンを結合したサーバであってもよい。

なお、上記のした様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよい。本明細書は制限されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組合、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる修正、同などの置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

画像処理方法であって、
処理対象の顔画像を取得し、前記処理対象の顔画像を複数の画像ブロックに切断するステップと、
前記処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップと、
予め設定された視覚変換モデルの枝刈り率を取得するステップと、
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得するステップと、
前記視覚変換モデルの出力結果に基づいて、前記処理対象の顔画像の特徴ベクトルを決定するステップと、を含む、
画像処理方法。
前記処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップは、
複数の顔画像サンプルを前記視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得するステップと、
得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得するステップと、
前記各画像ブロックサンプルの重みに基づいて、前記処理対象の顔画像内の各画像ブロックの重要度情報を決定するステップと、を含む、
請求項１に記載の画像処理方法。
前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うステップは、
前記枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定するステップと、
前記各画像ブロックの重要度情報と前記各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、前記複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定するステップと、
各層のネットワークの入力特徴について、前記入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた前記特徴を現在の層のネットワークに入力するステップと、を含む、
請求項１に記載の画像処理方法。
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うステップは、
前記各画像ブロックの重要度情報に基づいて、前記各画像ブロックを並べ替えるステップと、
前記各画像ブロックと前記各画像ブロックの並べ替え結果を前記視覚変換モデルに入力するステップと、
前記枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定するステップと、
各層のネットワークの入力特徴について、前記各画像ブロックの並べ替え結果に基づいて、前記入力特徴から前記枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた前記特徴を現在の層のネットワークに入力するステップと、を含む、
請求項１に記載の画像処理方法。
前記視覚変換モデルにはＮ層のネットワークが含まれ、前記Ｎは１よりも大きい整数であり、
前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行うステップは、
前記枝刈り率に基づいて、第ｉ層のネットワークの枝刈りされる画像ブロックの数を決定するステップであって、ｉは、０より大きくＮ－１以下の整数であるステップと、
前記各画像ブロックの重要度情報と前記第ｉ層のネットワークの枝刈りされる画像ブロックの数とに基づいて、前記複数の画像ブロックのうち、前記第ｉ層のネットワークで枝刈りされる画像ブロックを決定するステップと、
第ｉ層のネットワークの入力特徴について、前記入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた前記特徴を第ｉ層のネットワークに入力するステップと、
第Ｎ層のネットワークの入力特徴について、前記入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を第Ｎ層のネットワークに入力する、
請求項１に記載の画像処理方法。
顔認識モデルトのレーニング方法であって、
前記顔認識モデルは視覚変換モデルを含み、
顔画像サンプルを取得し、前記顔画像サンプルを複数の画像ブロックに切断するステップと、
前記顔画像サンプルの各画像ブロックの重要度情報を決定するステップと、
前記視覚変換モデルの枝刈り率を取得するステップと、
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得するステップと、
前記視覚変換モデルの出力結果に基づいて、前記顔画像サンプルの特徴ベクトルを決定し、前記特徴ベクトルに基づいて顔認識結果を取得するステップと、
前記顔認識結果に基づいて前記顔認識モデルをトレーニングするステップと、を含む、
顔認識モデルトのレーニング方法。
画像処理装置であって、
処理対象の顔画像を取得し、前記処理対象の顔画像を複数の画像ブロックに切断する第１の取得モジュールと、
前記処理対象の顔画像内の各画像ブロックの重要度情報を決定する第１の決定モジュールと、
視覚変換モデルの枝刈り率を取得する第２の取得モジュールと、
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得する枝刈りモジュールと、
前記視覚変換モデルの出力結果に基づいて、前記処理対象の顔画像の特徴ベクトルを決定する第２の決定モジュールと、を含む、
画像処理装置。
前記第１の決定モジュールは、
複数の顔画像サンプルを前記視覚変換モデルに入力し、各層のネットワークから出力される各顔画像サンプルに対応する注意力行列を取得し、
得られたすべての注意力行列をマージし、各画像ブロックサンプルの重みを取得し、
前記各画像ブロックサンプルの重みに基づいて、前記処理対象の顔画像内の各画像ブロックの重要度情報を決定する、
請求項７に記載の画像処理装置。
前記枝刈りモジュールは、
前記枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
前記各画像ブロックの重要度情報と前記各層のネットワークの枝刈りされる画像ブロックの数とに基づいて、前記複数の画像ブロックのうち、各層のネットワークで枝刈りされる画像ブロックを決定し、
各層のネットワークの入力特徴について、前記入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた前記特徴を現在の層のネットワークに入力する、
請求項７に記載の画像処理装置。
前記枝刈りモジュールは、
前記各画像ブロックの重要度情報に基づいて、前記各画像ブロックを並べ替え、
前記各画像ブロックと前記各画像ブロックの並べ替え結果を前記視覚変換モデルに入力し、
前記枝刈り率に基づいて、各層のネットワークの枝刈りされる画像ブロックの数を決定し、
各層のネットワークの入力特徴について、前記各画像ブロックの並べ替え結果に基づいて、前記入力特徴から前記枝刈りされる画像ブロックの数の画像ブロックに対応する特徴を刈り、刈った後に得られた前記特徴を現在の層のネットワークに入力する、
請求項７に記載の画像処理装置。
前記視覚変換モデルにはＮ層のネットワークが含まれ、前記Ｎは１よりも大きい整数であり、
前記枝刈りモジュールは、
前記枝刈り率に基づいて、第ｉ層のネットワークの枝刈りされる画像ブロックの数を決定し、ここで、ｉは、０より大きくＮ－１以下の整数であり、
前記各画像ブロックの重要度情報と前記第ｉ層のネットワークの枝刈りされる画像ブロックの数とに基づいて、前記複数の画像ブロックのうち、前記第ｉ層のネットワークで枝刈りされる画像ブロックを決定し、
第ｉ層のネットワークの入力特徴について、前記入力特徴のうちの枝刈りされる画像ブロックの特徴を刈り、刈った後に得られた前記特徴を第ｉ層のネットワークに入力し、
第Ｎ層のネットワークの入力特徴について、前記入力特徴をすべての刈られた画像ブロックの特徴とスプライスし、スプライス処理後に得られた特徴を前記第Ｎ層のネットワークに入力する、
請求項７に記載の画像処理装置。
顔認識モデルのトレーニング装置であって、
前記顔認識モデルは、視覚変換モデルを含み、
顔画像サンプルを取得し、前記顔画像サンプルを複数の画像ブロックに切断する第１の取得モジュールと、
前記顔画像サンプルの各画像ブロックの重要度情報を決定する第１の決定モジュールと、
前記視覚変換モデルの枝刈り率を取得する第２の取得モジュールと、
前記複数の画像ブロックを前記視覚変換モデルに入力し、前記枝刈り率と前記各画像ブロックの重要度情報とに基づいて、前記視覚変換モデルの各層のネットワークの入力に対して枝刈り処理を行って、前記視覚変換モデルの出力結果を取得する枝刈りモジュールと、
前記視覚変換モデルの出力結果に基づいて、前記顔画像サンプルの特徴ベクトルを決定し、前記特徴ベクトルに基づいて顔認識結果を取得する第２の決定モジュールと、
前記顔認識結果に基づいて前記顔認識モデルをトレーニングするトレーニングモジュールと、を含む、
顔認識モデルのトレーニング装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～５および／または請求項６のいずれかに記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５および／または請求項６のいずれか一項に記載の方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムが含まれるコンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～５および／または請求項６のいずれか一項に記載の方法が実現される、
コンピュータプログラム。