JP7167244B2

JP7167244B2 - 遮蔽された画像の検出方法、装置、及び媒体

Info

Publication number: JP7167244B2
Application number: JP2021083271A
Authority: JP
Inventors: リュウ，ルオユ; ク，ジ; チャン，ヤセン; ソン，ヤン; ゲ，ジペン
Original assignee: ペキンシャオミパインコーンエレクトロニクスカンパニー，リミテッド
Priority date: 2020-09-28
Filing date: 2021-05-17
Publication date: 2022-11-08
Anticipated expiration: 2041-05-17
Also published as: US11961278B2; EP3975046B1; KR102545408B1; JP2022055302A; CN112200040A; EP3975046A1; US20220101028A1; KR20220043004A

Description

本開示はカメラ制御の分野に関し、特に遮蔽された画像の検出方法、装置、及び媒体に関する。

データ拡張は限られたデータを利用してより多くの等価データを生成する技術であり、ディープネットワークモデルの正確度及び汎用性を向上させる重要な技術であり、画像分類、目標識別及び意味分割などのコンピュータビジョンのタスクにおいて大きな役割を果たす。従来のデータ拡張技術には、例えば回転、トリミング、アフィン変換、色ジッターなどの画像変換方法を採用することが多い。

ユーザが携帯電話を手で持って横向きに撮影する時、撮影習慣などの原因により、レンズのエッジが指により遮蔽されやすいことで、写真のエッジに小さい遮蔽領域がある。このような遮蔽に即時に気付きにくいため、ユーザは、通常、撮り直すことがなく、それにより、完璧な写真を得ることができず、残念に思われる。遮蔽検出のタスクは、撮影後に、この画像が遮蔽されるか否かを即時に判断し、遮蔽された画像を検出した後に撮り直しをユーザにリアルタイムに促すことである。

遮蔽検出において、遮蔽された画像は人間が実際のシーンをシミュレーションして収集する必要がある。実際のシーンでは、遮蔽された領域は、写真を占めた面積が小さく、且つ片隅に位置するため、収集するには大量の労力を費やすことが必要である。また、従来のデータ拡張方法は、遮蔽された領域の歪みを引き起こすことにより、有効なトレーニングデータを生成することができないため、これらの方法は遮蔽検出タスクに適用しない。

関連技術に存在する問題を解消するために、本開示は遮蔽された画像の検出方法、装置、及び媒体を提供する。

本開示の実施例の第１の態様によれば、遮蔽された画像の検出方法を提供し、前記方法は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、前記画像検出結果を出力するステップと、を含む。

前記方法は、前記元の遮蔽された画像及び前記遮蔽されない画像を取得するステップと、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップと、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップと、をさらに含む。

前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップであって、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であるステップと、トレーニングデータグループを生成するステップであって、各グループのトレーニングデータは１枚の指テンプレート画像と、１枚の指ではない画像と、１枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングするステップと、を含む。

前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップは、前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得するステップと、前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成するステップと、を含む。

前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成するステップと、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行うステップと、毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得するステップと、前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定するステップと、をさらに含む。

前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップは、前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得するステップであって、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であるステップと、前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成するステップと、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行うステップであって、前記遮蔽された画像の検出モデルは前記分類ネットワークを含むステップと、前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定するステップと、を含む。

前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである。

前記データ特徴拡張ネットワークは敵対的生成ネットワークである。

本開示の実施例の第２の態様によれば、遮蔽された画像の検出装置を提供し、前記装置は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするように構成される取得モジュールと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するように構成される入力モジュールと、画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮断された画像であるか否かを判断するように構成される前記遮蔽された画像の検出モデルであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるものと、前記画像検出結果を出力するように構成される出力モジュールと、を含む。

前記遮蔽された画像の検出モデルはトレーニングモジュールによってトレーニングされ、前記トレーニングモジュールは、前記元の遮蔽された画像及び前記遮蔽されない画像を取得し、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングし、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成される。

前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成し、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であり、トレーニングデータグループを生成し、各グループのトレーニングデータは１枚の指テンプレート画像と、１枚の指ではない画像と、１枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングする。

前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するように構成され、前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得し、前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成する。

前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行い、毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得し、前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定する。

前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成され、前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得し、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であり、前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行い、前記遮蔽された画像の検出モデルは前記分類ネットワークを含み、前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定する。

本開示の実施例の第３の態様によれば、遮蔽された画像の検出装置を提供し、前記装置は、プロセッサと、プロセッサが実行可能な命令を記憶するためのメモリと、を含み、ここで、前記プロセッサは、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とし、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力し、ここで、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであり、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断し、前記画像検出結果を出力するように構成される。

本開示の実施例の第４の態様によれば、非一時的コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令がルータのプロセッサによって実行される場合、遮蔽された画像の検出方法を実行できる非一時的コンピュータ読み取り可能な記憶媒体を提供し、前記方法は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、前記画像検出結果を出力するステップと、を含む。

本開示は遮蔽された画像の検出方法を提供する。ここで、カメラによって画像を撮影した後、この画像を検出対象の画像とし、トレーニング後の遮蔽された画像の検出モデルに入力する。続いて、遮蔽された画像の検出モデルにより、検出対象の画像が遮蔽された画像であるか否かを判断し、画像検出結果を出力する。ここで、遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものである。

したがって、本開示の方法は以下の有益な効果を有する。
（１）少量のマスクマーク付きの指により遮蔽された画像を利用して、遮蔽された画像の特徴を生成するように生成モデルを安定的にトレーニングすることができ、それにより、指による遮蔽を検出するモデルのトレーニングにおけるポジティブサンプルが足りないという問題を効果的に解決することができ、大量のポジティブサンプルの収集コストを節約する。
（２）遮蔽された画像の高レベル特徴を生成することは、画像生成詳細の不足によるノイズがモデルの精度に与える影響を効果的に回避することができる。したがって、生成された特徴をトレーニングに追加すると、検出の正確さが顕著に向上する。
（３）生成された特徴は指による遮蔽を検出するモデルの分類ネットワークのみに対して再最適化を行い、導入された余計なトレーニングのコストが小さい。そして、既存の指による遮蔽を検出するモデルを十分に利用し且つ少量のパラメータを微調整することができ、余計なオーバーヘッドが小さい。
（４）ネットワークモデルパラメータが少なく、大量の記憶及び計算リソースを節約することができる。
（５）この方法は、拡張性及び汎用性が高く、他の分類タスクへ容易に拡張することができる。

以上の一般的な説明及び後続する詳細説明は単なる例示的且つ解釈的なものであり、本開示を限定するものではないことを理解すべきである。

ここでの図面は、明細書に組み込まれ、本明細書の一部を構成し、本発明に符合する実施例を示し、明細書とともに本発明の原理を解釈するために用いられる。
例示的な実施例による遮蔽された画像の検出方法のフローチャートである。例示的な実施例によるデータ特徴拡張ネットワークをトレーニングする概略図である。例示的な実施例による遮蔽された画像の検出モデルをトレーニングする概略図である。例示的な実施例によるトレーニング後の遮蔽された画像の検出モデルの概略図である。例示的な実施例による遮蔽された画像の検出方法のフローチャートである。例示的な実施例による遮蔽された画像の検出装置のブロック図である。例示的な実施例による装置のブロック図である。例示的な実施例による装置のブロック図である。

ここで、例示的な実施例について詳細に説明し、その例を図面において表示する。以下の説明が図面にかかわる場合、特に断りのない限り、異なる図における同じ数字は同一又は類似の要素を表す。以下の例示的な実施例において説明される実施形態は、本発明に一致するすべての実施形態を示すものではない。これに対して、それらは、特許請求の範囲に詳しく記載されるような、本発明のいくつかの態様に一致する装置及び方法の例にすぎない。

ユーザが携帯電話を手で持って横向きに撮影する時、レンズのエッジが指により遮蔽されやすいことで、写真のエッジに小さい遮蔽領域がある。このような遮蔽に即時に気付きにくいため、ユーザは、通常、撮り直すことがなく、それにより、完璧な写真を得ることができず、残念に思われる。指による遮蔽の検出のタスクは、撮影後に、この画像が遮蔽されるか否かを即時に判断し、遮蔽された画像を検出した後に撮り直しをユーザにリアルタイムに促すことである。

現在、上記問題を解決するために、新たな画像を生成して直接あるタイプのサンプルとしてモデルのトレーニングに追加することが提供されたが、このような方法には、（１）このタイプのアルゴリズムは指により遮蔽された領域という厳密な意味内容の画像を有効に生成することができないため、指による遮蔽の検出のタスクに適用せず、（２）画像を直接生成するには、生成ネットワーク及び識別ネットワークが大量のパラメータを持つことが必要であり、ネットワークトレーニングの計算コスト及び時間コストを増加させることになる、という問題が存在する。

本開示は遮蔽された画像の検出方法を提供する。この方法では、カメラによって画像を撮影した後、この画像を検出対象の画像とし、トレーニング後の遮蔽された画像の検出モデルに入力する。続いて、遮蔽された画像の検出モデルにより、検出対象の画像が遮蔽された画像であるか否かを判断し、画像検出結果を出力する。ここで、遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものである。

本開示の方法は特に以下のような応用シーンに適用される。
（１）ポジティブサンプルである（指により遮蔽された）画像の取得難易度が高く、大量の時間と労力を費やすことが必要である。
（２）ポジティブサンプルは簡単なデータ拡張技術を利用してデータ拡張を行うことが困難であり、すなわち、トリミング、変形、ノイズ付加などの手段を利用して元の画像により新たな画像を生成する時、画像を遮蔽する指部分を破壊して歪みを引き起こし、それにより、指により遮蔽された部分が実際の状況に合致しないことになる。
（３）ポジティブサンプルである画像は敵対的生成ネットワークを利用して生成しにくく、大量の詳細情報を失うとともに、大量のノイズを導入することになり、それにより、モデルの精度低下を引き起こす。これは、いくつかの応用シーンにおいて、指による遮蔽の検出はデータに対する要求が非常に高く、遮蔽された画像のデータ分布に対して非常に敏感であり、敵対的生成ネットワークの技術を用いれば指により遮蔽された画像を有りのままシミュレーションして生成することができないためである。
（４）従来の画像拡張生成アルゴリズムはネットワーク規模が大きく、そして、大量のトレーニングデータを必要とし、そのため、大量の記憶及び計算リソースを必要とし、大規模なトレーニングに不利である。特に、ポジティブサンプルである画像が取得しにくい場合には、このような画像拡張生成アルゴリズムを適用しない。

本開示の方法は、例えば携帯電話、ＰＡＤ、ウェアラブルデバイスなど、カメラが配置された電子製品に適用される。

本開示は遮蔽された画像の検出方法を提供する。図１は例示的な実施例による遮蔽された画像の検出のフローチャートであり、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップ１０１と、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップ１０２と、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップ１０３と、前記画像検出結果を出力するステップ１０４と、を含む。

この方法では、カメラによって撮影された画像を取得し、それを検出対象の画像とし、続いて、この検出対象の画像をトレーニング後の画像検出モデルに入力する。このトレーニング後の遮蔽された画像の検出モデルにより検出対象の画像が遮蔽された画像であるか否かを判断する。当業者であれば、遮蔽された画像の検出モデルはトレーニングされた後、画像に関する遮蔽特性を学習することができることが分かる。

遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものである。遮蔽された画像の検出モデルをトレーニングする時、元の遮蔽された画像のトレーニングデータ特徴拡張ネットワークにより、データ特徴拡張ネットワークは画像の元の特徴に接近する遮蔽された画像の特徴を合成することができ、すなわち、元の遮蔽された画像とマスク画像によって画像の特徴を合成することができる。続いて、元の遮蔽された画像により、元の遮蔽された画像の特徴を取得し、合成した遮蔽された画像の特徴及び元の遮蔽された画像の特徴により、遮蔽された画像の検出モデルをトレーニングする。

ここでの画像の特徴とは、一般的に、画像を入力とし、特徴ネットワークを経由して処理した後に得た出力であり、それは、画像が圧縮された後に得た高レベル意味情報を有する特徴付けの形式に相当する。

上記方法を用いれば、遮蔽された画像の特徴を合成する時に、少量のマスクマーク付きの遮蔽された画像を利用して、生成モデルを安定的にトレーニングして、遮蔽された画像の特徴を合成し、このように、遮蔽検出モデルのトレーニングにおけるポジティブサンプルが足りないという問題を効果的に解決することができ、大量のポジティブサンプルの収集コストを節約する。また、ここでは、遮蔽された画像の特徴を合成し、すなわち、遮蔽された画像の高レベル特徴を合成するものとし、このように、画像生成詳細の不足によるノイズがモデルの精度に与える影響を効果的に回避することができる。したがって、トレーニングに合成された特徴を追加すると、検出の正確さが顕著に向上する。

また、この方法では、データ特徴拡張ネットワークにより、遮蔽された画像でなく、遮蔽された画像の特徴を合成し、これは、画像から特徴へのモデル部分を減らすことに相当し、したがって、本方法におけるネットワークモデルは、画像を生成するネットワークモデルよりはるかに小さい。

ここでは、遮蔽された画像の検出モデルのトレーニングにおいて、トレーニングデータグループを複数のロットに分割し、損失関数が収束するまで、勾配降下法を用いてモデルをトレーニングする。このトレーニングプロセスは当業者が従来のトレーニング方法を用いて実現することができ、ここでは説明を省略する。

マスクマーク付きの遮蔽された画像により遮蔽された画像の特徴を合成する方法については、以下の実施形態と結合して説明する。

任意選択的な実施形態では、前記方法は、さらに、前記元の遮蔽された画像及び前記遮蔽されない画像を取得するステップと、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップと、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップと、を含む。

上記のように、遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものである。したがって、遮蔽された画像の検出モデルをトレーニングする前に、まず、データ特徴拡張ネットワークをトレーニングする必要がある。この実施形態では、取得した元の遮蔽された画像に基づいてデータ特徴拡張ネットワークをトレーニングする。トレーニングされたデータ特徴拡張ネットワークは画像の元の特徴に接近する遮蔽された画像の特徴を合成することができる。

このように、遮蔽検出モデルのトレーニングにおけるポジティブサンプルが足りないという問題を解決することができ、大量のポジティブサンプルの収集コストを節約し、また、遮蔽された画像の高レベル特徴を合成することにより、画像生成詳細の不足によるノイズがモデルの精度に与える影響を効果的に回避することができる。

任意選択的な実施形態では、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップであって、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であるステップと、トレーニングデータグループを生成するステップであって、各グループのトレーニングデータは１枚の指テンプレート画像と、１枚の指ではない画像と、１枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングするステップと、を含む。

図２はデータ特徴拡張ネットワークをトレーニングするプロセスを示す。ここで、Ａは指テンプレート画像を示し、Ｂは指ではない画像を示し、Ｃは元の指により遮蔽された画像を示す。前述したように、その中の特徴ネットワークは遮蔽された画像の検出モデルに含まれる。データ特徴拡張ネットワークによって合成された遮蔽された画像の特徴及び特徴ネットワークによって抽出された元の遮蔽された画像の特徴を識別ネットワークに入力する。ネットワークはデータ特徴拡張ネットワークのトレーニングを補助するために用いられ、すなわち、トレーニングプロセスにおいて合成された遮蔽された画像の特徴と元の遮蔽された画像の特徴との間の差を減少し、それにより、データ特徴拡張ネットワークにより、拡張された遮蔽された画像の特徴を取得する。識別ネットワークはデータ特徴拡張ネットワークのトレーニングのみに用いられ、遮蔽された画像の検出モデルのトレーニングに用いられない。

任意選択的な実施形態では、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップは、前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得するステップと、前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成するステップと、を含む。

例えば、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するプロセスは、元の遮蔽された画像のマスクデータによって実現することができる。元の遮蔽された画像を取得した後、各画像中の指部分のマスクを手動でマークし、それにより、遮蔽された画像データ及びマスクデータを取得する。ここで、マスクデータは、元の遮蔽された画像の大きさと同じであり、遮蔽された領域に１が付けられ、指により遮蔽されない領域に０が付けられる画像である。各枚の元の遮蔽された画像及び対応するマスクデータで構成される画像に対して、トリミング及びアライメント操作により両者の大きさ及び対応する画素位置を一致させる。元の遮蔽された画像に対して、マスクデータの指により遮蔽されない領域の画素を０にセットすることにより、指テンプレート画像を取得し、元の遮蔽された画像に対して、マスクデータの指により遮蔽された領域の画素を０にセットすることにより、指ではない画像を取得する。

元の遮蔽された画像の数が遮蔽されない画像の数よりはるかに少ないため、非常に多くの労力を費やして手動でマークする必要がない。本方法により、大量の遮蔽された画像の特徴を合成して、元の遮蔽された画像の特徴の不足を補うことができる。

任意選択的な実施形態では、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、さらに、前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行うステップと、毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得するステップと、前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定するステップと、を含む。

前述したように、指テンプレート画像、指ではない画像及び元の遮蔽された画像を１グループのトレーニングデータとして構成する。指テンプレート画像及び指ではない画像が元の遮蔽された画像及びマスクデータによって生成されるため、指テンプレート画像、指ではない画像、マスクデータ及び元の遮蔽された画像を１グループのトレーニングデータとして構成することもできる。つまり、複数グループのトレーニングデータによりデータ特徴拡張ネットワークをトレーニングする。データ特徴拡張ネットワークの各回のトレーニングにおいて、複数グループのトレーニングデータをランダムに抽出し、データ特徴拡張ネットワークを１回トレーニングする。トレーニングプロセスにおいて、データ特徴拡張ネットワーク及び前記識別ネットワークの損失関数を取得し、その損失関数が収束した場合、データ特徴拡張ネットワークのトレーニングが完了したと決定する。ここでの損失関数は、例えばＨｉｎｇｅバージョンの敵対的損失関数であり、ここでは説明を省略する。

任意選択的な実施形態では、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップは、前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得するステップであって、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であるステップと、前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成するステップと、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行うステップであって、前記遮蔽された画像の検出モデルは前記分類ネットワークを含むステップと、前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定するステップと、を含む。

この実施形態における遮蔽された画像の検出モデルのトレーニングプロセスは図３を参照することができる。図３は遮蔽された画像の検出モデルをトレーニングするプロセスを示す。ここで、データ特徴拡張ネットワーク、特徴ネットワーク及び分類ネットワーク（識別ネットワークと呼ばれてもよい）を含み、遮蔽された画像の検出モデルは特徴ネットワーク及び分類ネットワークを含む。データ特徴拡張ネットワークは拡張特徴、すなわち遮蔽された画像の特徴を合成するために用いられ、ここでの拡張特徴はネットワークによる画像特徴への識別の正確さを補強するために用いられ、特徴ネットワークは画像特徴を抽出するために用いられ、分類ネットワークは画像の特徴を分類するために用いられる。ここでＡは指テンプレート画像を示し、Ｂは指ではない画像を示し、Ｃは元の遮蔽された画像を示し、Ｄは拡張特徴セットを示す。データ特徴拡張ネットワークにより遮蔽された画像の特徴を合成し、特徴ネットワークにより元の遮蔽された画像の元の特徴を取得し、合成特徴と元の特徴は拡張特徴セットを構成して、遮蔽された画像の検出モデルをトレーニングする。具体的にトレーニングする時に、遮蔽された画像の検出モデルの損失関数が収束するまで、勾配降下法を用いてトレーニングを行うことができる。ここでの遮蔽された画像の検出モデルの損失関数は特徴ネットワーク及び分類ネットワークを共同で最適化する損失関数であることが分かる。

図４はトレーニング後の遮蔽された画像の検出モデルを示し、特徴ネットワーク及び分類ネットワークを含む。検出対象の画像をこのトレーニング後の遮蔽された画像の検出モデルに入力し、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断し、検出結果を出力する。

この実施形態では、生成特徴は遮蔽検出モデルの分類ネットワークのみを最適化し、ネットワーク全体を最適化する必要がなく、最適化のコスト上から全体的最適化と比べると、計算リソース及び時間コストがいずれもはるかに小さく、したがって、導入された余計なトレーニングコストが小さい。トレーニング時、既存の遮蔽検出モデルを十分に利用し且つ少量のパラメータを微調整することができ、余計なオーバーヘッドが小さい。また、分類タスクはいずれも「特徴抽出＋特徴分類」という問題としてモデリングすることができ、したがって、他の分類タスクに対して、本開示における特徴拡張後に特徴分類ネットワークを最適化するという方法を採用することができ、したがって、この方法の拡張性及び汎用性が高く、他の分類タスクへ容易に拡張することができる。

任意選択的な実施形態では、前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである。

具体的には、畳み込みニューラルネットワークモデルはｓｈｕｆｆｌｅｎｅｔｖ２を用いることができる。このネットワークモデルのパラメータが少なく、大量の記憶及び計算リソースを節約することができる。

任意選択的な実施形態では、前記データ特徴拡張ネットワークは敵対的生成ネットワークである。

データ特徴拡張ネットワークは敵対的生成ネットワークであり、具体的には自己注意敵対的生成ネットワークである。当業者が分かるように、敵対的生成ネットワークは生成ネットワーク及び識別ネットワークを含む。

以下、本開示による遮蔽された画像の検出の具体的な実施例について詳細に説明する。ここで、データ特徴拡張ネットワークは自己注意敵対的生成ネットワークであり、遮蔽された画像の検出モデルはＳｈｕｆｆｌｅＮｅｔｖ２ネットワークモデルであり、遮蔽された画像は指により遮蔽された画像である。図５に示すように、この実施例は、以下のステップ５０１～５０９を含む。

ステップ５０１において、複数枚の元の指により遮蔽された画像及び遮蔽されない画像を取得し、手動マークの方法によりこれらの元の指により遮蔽された画像のマスクデータを取得する。

ステップ５０２において、元の指により遮蔽された画像及び対応するマスクデータに基づいて、それぞれの元の指により遮蔽された画像の指テンプレート画像及び指ではない画像を取得する。

ステップ５０３において、各枚の元の指により遮蔽された画像、対応する指テンプレート画像及び指ではない画像を１グループのトレーニングデータとして構成する。

ステップ５０４において、データ特徴拡張ネットワークの各回のトレーニングにおいて、以上得られたトレーニングデータから複数グループのトレーニングデータをランダムに選択し、指テンプレート画像及び指ではない画像をデータ特徴拡張ネットワークに入力し、元の指により遮蔽された画像を特徴ネットワークに入力し、トレーニングを行う。

ステップ５０５において、毎回のトレーニングのデータ特徴拡張ネットワーク及び識別ネットワークの損失関数を取得し、損失関数が収束した場合、データ特徴拡張ネットワークのトレーニングが完了したと決定する。

ステップ５０６において、トレーニング後のデータ特徴拡張ネットワークにより遮蔽されない画像の生成特徴を合成し、特徴ネットワークにより元の遮蔽された画像の元の特徴を抽出する。

ステップ５０７において、生成特徴及び元の特徴を分類ネットワークに入力して遮蔽された画像の検出モデルをトレーニングする。

ステップ５０８において、遮蔽された画像の検出モデルの損失関数が収束する時、トレーニングを完了する。

ステップ５０９において、検出対象の画像をトレーニング後の指により遮蔽された画像の検出モデルに入力することで、前記検出対象の画像が指により遮蔽された画像であるか否かを決定する。

この実施例では、トレーニング後の遮蔽された画像の検出モデルを用いて検出対象の画像を検出する前に、２つのトレーニングプロセスを実行する必要がある。１つはデータ特徴拡張ネットワークをトレーニングすることであり、もう１つはトレーニング後のデータ特徴拡張ネットワークを用いて遮蔽された画像の検出モデルをトレーニングすることである。データ特徴拡張ネットワークのトレーニングは図２を参照することができ、遮蔽された画像の検出モデルのトレーニングは図３を参照することができる。

本開示は、さらに、遮蔽された画像の検出装置を提供し、図６に示すように、前記装置は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするように構成される取得モジュール６０１と、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するように構成される入力モジュール６０２と、画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮断された画像であるか否かを判断するように構成される前記遮蔽された画像の検出モデル６０３であって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるものと、前記画像検出結果を出力するように構成される出力モジュール６０４と、を含む。

任意選択的な実施形態では、前記遮蔽された画像の検出モデル６０３はトレーニングモジュールによってトレーニングされ、前記トレーニングモジュールは、前記元の遮蔽された画像及び前記遮蔽されない画像を取得し、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングし、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成される。

任意選択的な実施形態では、前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成し、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であり、トレーニングデータグループを生成し、各グループのトレーニングデータは１枚の指テンプレート画像と、１枚の指ではない画像と、１枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングする。

任意選択的な実施形態では、前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するように構成され、前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得し、前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成する。

任意選択的な実施形態では、前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行い、毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得し、前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定する。

任意選択的な実施形態では、前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成され、前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得し、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であり、前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行い、前記遮蔽された画像の検出モデルは前記分類ネットワークを含み、前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定する。

上記実施例における装置について、その中の各モジュールが操作を実行する具体的な方式は、この方法に係る実施例において詳細に説明され、ここでは詳細に説明しない。

本開示の方法は、以下の有益な効果を有する。
（１）少量のマスクマーク付きの指により遮蔽された画像を利用して、遮蔽された画像の特徴を生成するように生成モデルを安定的にトレーニングすることができ、それにより、指による遮蔽を検出するモデルのトレーニングにおけるポジティブサンプルが足りないという問題を効果的に解決することができ、大量のポジティブサンプルの収集コストを節約する。
（２）遮蔽された画像の高レベル特徴を直接生成することは、画像生成詳細の不足によるノイズがモデルの精度に与える影響を効果的に回避することができる。すなわち、生成された特徴をトレーニングに追加すると、検出の正確さが顕著に向上する。
（３）生成された特徴は指による遮蔽を検出するモデルの分類ネットワークのみに対して再最適化を行い、導入された余計なトレーニングのコストが小さい。そして、既存の指による遮蔽を検出するモデルを十分に利用し且つ少量のパラメータを微調整することができ、余計なオーバーヘッドが小さい。
（４）ネットワークモデルパラメータが少なく、大量の記憶及び計算リソースを節約することができる。
（５）この方法は、拡張性及び汎用性が高く、他の分類タスクへ容易に拡張することができる。

図７は例示的な実施例による遮蔽された画像の検出装置７００のブロック図である。

図７に示すように、装置７００は、処理コンポーネント７０２、メモリ７０４、電力コンポーネント７０６、マルチメディアコンポーネント７０８、オーディオコンポーネント７１０、入力／出力（Ｉ／Ｏ）インタフェース７１２、センサコンポーネント７１４、及び通信コンポーネント７１６のうち１つ又は複数のコンポーネントを含むことができる。

処理コンポーネント７０２は、一般的に、表示、電話呼び出し、データ通信、カメラ操作及び記録操作に関連する操作のような装置７００の全体操作を制御するものである。処理コンポーネント７０２は１つ又は複数のプロセッサ７２０を含んで命令を実行することで、上記方法の全部又は一部のステップを完了することができる。また、処理コンポーネント７０２は１つ又は複数のモジュールを含むことができ、処理コンポーネント７０２と他のコンポーネントとの間のインタラクションを容易にする。例えば、マルチメディアコンポーネント７０８と処理コンポーネント７０２との間のインタラクションを容易にするように、処理コンポーネント７０２はマルチメディアモジュールを含むことができる。

メモリ７０４は、装置７００での操作をサポートするように、各種のデータを記憶するように構成される。これらのデータの例は、装置７００上で操作されるいかなるアプリケーションプログラムや方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャ、映像などを含む。メモリ７０４は、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）、プログラマブルリードオンリーメモリ（ＰＲＯＭ）、リードオンリーメモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクのようなあらゆる種類の揮発性若しくは不揮発性記憶機器又はそれらの組み合わせにより実現することができる。

電力コンポーネント７０６は、装置７００の各種のコンポーネントに電力を供給する。電力コンポーネント７０６は、電源管理システム、１つ又は複数の電源、及び装置７００のために電力を生成し、管理し、分配することに関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント７０８は前記装置７００とユーザとの間にある、出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ（ＬＣＤ）とタッチパネル（ＴＰ）を含むことができる。画面がタッチパネルを含む場合、画面はタッチパネルとして実現されることで、ユーザからの入力信号を受信することができる。タッチパネルは、タッチ、スライド及びタッチパネル上のジェスチャを感知するように、１つ又は複数のタッチセンサを含む。前記タッチセンサはタッチ又はスライド動作の境界を感知するだけでなく、さらに前記タッチ又はスライド動作に関連する持続時間及び圧力を検出することができる。いくつかの実施例では、マルチメディアコンポーネント７０８は１つのフロントカメラ及び／又はリアカメラを含む。装置７００が、例えば撮影モード又は映像モードのような操作モードにある場合、フロントカメラ及び／又はリアカメラは外部のマルチメディアデータを受信することができる。それぞれのフロントカメラ及びリアカメラは、固定した光学レンズシステム、又は焦点距離及び光学ズーム機能を有するものであってもよい。

オーディオコンポーネント７１０は、音声信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント７１０は、１つのマイク（ＭＩＣ）を含み、装置７００が、例えば呼び出しモード、記録モード及び音声認識モードのような操作モードにある場合、マイクは外部音声信号を受信するように構成される。受信した音声信号は、さらに、メモリ７０４に記憶するか、又は通信コンポーネント７１６を介して送信することができる。いくつかの実施例では、オーディオコンポーネント７１０は、さらに、音声信号を出力するために、１つのスピーカを含む。

Ｉ／Ｏインタフェース７１２は処理コンポーネント７０２と周辺インタフェースモジュールとの間にインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されるものではない。

センサコンポーネント７１４は、装置７００に各態様の状態評価を提供するために、１つ又は複数のセンサを含む。例えば、センサコンポーネント７１４は、装置７００のオン／オフ状態、コンポーネントの相対的な位置決めを検出することができ、例えば、前記コンポーネントは装置７００のディスプレイ及びキーボードであり、センサコンポーネント７１４は、さらに、装置７００又は装置７００の１つのコンポーネントの位置変化、ユーザと装置７００が接触するか否か、装置７００の方位又は加速／減速、及び装置７００の温度変化を検出することができる。センサコンポーネント７１４は、いかなる物理的接触がない場合に付近の物体の存在を検出するために構成される近接センサを含むことができる。センサコンポーネント７１４は、さらに、例えばＣＭＯＳやＣＣＤイメージセンサのような、イメージング応用に使用するための光センサを含むことができる。いくつかの実施例では、このセンサコンポーネント７１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサをさらに含むことができる。

通信コンポーネント７１６は、装置７００と他の装置との間の有線又は無線方式の通信を容易にするように構成される。装置７００は、例えばＷｉＦｉ、２Ｇ若しくは３Ｇ、又はそれらの組み合わせのような、通信規格に基づく無線ネットワークにアクセスすることができる。例示的な一実施例では、通信コンポーネント７１６は、ブロードキャストチャネルを介して、外部ブロードキャスト管理システムからのブロードキャスト信号又はブロードキャスト関連情報を受信する。例示的な一実施例では、近距離通信を促進するように、前記通信コンポーネント７１６は、さらに、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ；登録商標）技術及びその他の技術に基づいて実現することができる。

例示的な実施例では、装置７００は１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子部品によって実現され、上記方法を実行するために用いることができる。

例示的な実施例では、さらに、命令を含む非一時的コンピュータ読み取り可能な記憶媒体を提供し、例えば命令を含むメモリ７０４が挙げられ、上記命令は装置７００のプロセッサ７２０によって実行されることで上記方法を完了することができる。例えば、前記非一時的コンピュータ読み取り可能な記憶媒体はＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、及び光データ記憶装置などであってもよい。

非一時的コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令が移動端末のプロセッサによって実行される場合、移動端末は遮蔽された画像の検出方法を実行することができ、前記方法は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、前記画像検出結果を出力するステップと、を含む。

図８は例示的な実施例による遮蔽された画像の検出装置８００のブロック図である。例えば、装置８００はサーバとして提供することができる。図８に示すように、装置８００は、処理コンポーネント８２２を含み、それは、さらに、１つ又は複数のプロセッサと、メモリ８３２に代表されるメモリリソースであって、処理コンポーネント８２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するためのものとを含む。メモリ８３２に記憶されるアプリケーションプログラムは、それぞれが１グループの命令に対応する１つ以上のモジュールを含むことができる。また、処理コンポーネント８２２は、命令を実行することで、上記方法を実行するように構成され、上記方法は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とし、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力し、ここで、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであり、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断し、前記画像検出結果を出力することである。

装置８００は、さらに、装置８００の電源管理を実行するように構成される１つの電源コンポーネント８２６と、装置８００をネットワークに接続するように構成される１つの有線又は無線ネットワークインタフェース８５０と、入出力（Ｉ／Ｏ）インタフェース８５８と、を含むことができる。装置８００はメモリ８３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭ又は類似するものを操作することができる。

当業者は、明細書を考慮し、ここで開示された発明を実施すると、本発明の他の実施形態を容易に想到し得る。本願は本発明のいずれかの変形、用途又は適応的変化をカバーすることを意図しており、これらの変形、用途又は適応的変化は本発明の一般的な原理に従い、本開示に開示されていない本技術分野における周知の知識又は慣用技術手段を含む。明細書及び実施例は単なる例示的なものとして見なされ、本発明の真の範囲及び趣旨は特許請求の範囲によって示される。

本発明は、以上に記載され且つ図面において示された精確な構造に制限されるものではなく、その範囲から逸脱せず、様々な補正及び変化を行うことができる。本発明の範囲は、添付の特許請求の範囲のみによって制限される。

Claims

遮蔽された画像の検出方法であって、
カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、
検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、
前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、
前記画像検出結果を出力するステップと、
前記元の遮蔽された画像及び前記遮蔽されない画像を取得するステップと、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップと、
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップと、を含み、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップであって、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であるステップと、
トレーニングデータグループを生成するステップであって、各グループのトレーニングデータは１枚の指テンプレート画像と、１枚の指ではない画像と、１枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングするステップと、を含む、
ことを特徴とする遮蔽された画像の検出方法。
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップは、
前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得するステップと、
前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、さらに、
前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成するステップと、
前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、
前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行うステップと、
毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得するステップと、
前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップは、
前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得するステップであって、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であるステップと、
前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成するステップと、
前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、
前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行うステップであって、前記遮蔽された画像の検出モデルは前記分類ネットワークを含むステップと、
前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定するステップと、を含む、
ことを特徴とする請求項２に記載の方法。
前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである、
ことを特徴とする請求項１に記載の方法。
前記データ特徴拡張ネットワークは敵対的生成ネットワークである、
ことを特徴とする請求項１に記載の方法。
遮蔽された画像の検出装置であって、
カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするように構成される取得モジュールと、
検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するように構成される入力モジュールと、
画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮断された画像であるか否かを判断するように構成される前記遮蔽された画像の検出モデルであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるものと、
前記画像検出結果を出力するように構成される出力モジュールと、を含み、
前記遮蔽された画像の検出モデルはトレーニングモジュールによってトレーニングされ、前記トレーニングモジュールは、
前記元の遮蔽された画像及び前記遮蔽されない画像を取得し、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングし、
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成され、
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成し、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であり、
トレーニングデータグループを生成し、各グループのトレーニングデータは１枚の指テンプレート画像と、１枚の指ではない画像と、１枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングする、
ことを特徴とする遮蔽された画像の検出装置。
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するように構成され、
前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得し、
前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成する、
ことを特徴とする請求項７に記載の装置。
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、
前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成し、
前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、
前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行い、
毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得し、
前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定する、
ことを特徴とする請求項７に記載の装置。
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成され、
前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得し、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であり、
前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成し、
前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、
前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行い、前記遮蔽された画像の検出モデルは前記分類ネットワークを含み、
前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定する、
ことを特徴とする請求項８に記載の装置。
前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである、
ことを特徴とする請求項７に記載の装置。
前記データ特徴拡張ネットワークは敵対的生成ネットワークである、
ことを特徴とする請求項７に記載の装置。
遮蔽された画像の検出装置であって、
プロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、
カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とし、
検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力し、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであり、
前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断し、
前記画像検出結果を出力し、
前記元の遮蔽された画像及び前記遮蔽されない画像を取得し、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングし、
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成され、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングすることは、
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成し、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であることと、
トレーニングデータグループを生成し、各グループのトレーニングデータは１枚の指テンプレート画像と、１枚の指ではない画像と、１枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングすることと、を含む、
ことを特徴とする遮蔽された画像の検出装置。
非一時的コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令がルータのプロセッサによって実行される場合、遮蔽された画像の検出方法を実行でき、前記方法は、
カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、
検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、
前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、
前記画像検出結果を出力するステップと、
前記元の遮蔽された画像及び前記遮蔽されない画像を取得するステップと、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップと、
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップと、を含み、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップであって、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であるステップと、
トレーニングデータグループを生成するステップであって、各グループのトレーニングデータは１枚の指テンプレート画像と、１枚の指ではない画像と、１枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングするステップと、を含む、
非一時的コンピュータ読み取り可能な記憶媒体。