JP2023531350A

JP2023531350A - サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法

Info

Publication number: JP2023531350A
Application number: JP2022552961A
Authority: JP
Inventors: ワン，ユンハオ; ジャン，ビン; シン，イン; ファン，ユアン; ハン，シュミン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-07
Filing date: 2022-01-30
Publication date: 2023-07-24
Also published as: CN112949767B; US20230008696A1; WO2022213718A1; CN112949767A

Abstract

本開示はサンプル画像を増分する方法、画像検出モデルの訓練方法、画像検出方法、及び対応する装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供しており、コンピュータ視覚及び深層学習などの人工知能分野に関し、スマートクラウド及び工業品質検査のシーンに適用することができる。一実施形態では、元のサンプル画像の第１の畳み込み特徴を取得するステップと、領域提案ネットワーク及び第１の畳み込み特徴に基づいて、候補領域と、候補領域に目標対象物が存在する第１の確率とを決定するステップと、第１の確率に基づいて、候補領域において注目候補領域を決定し、注目候補領域を元のサンプル画像にマッピングして、中間画像を得るステップと、中間画像内の注目候補領域に対応する部分に対して画像強調処理を行い、および／または、中間画像内の注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得るステップと、を含む。この実施形態により生成される増分サンプル画像は、より高い利用可能性を有する。【選択図】図１

Description

＜関連出願の相互参照＞
本出願は、２０２１年４月７日に提出された、出願番号が２０２１１０３７１３４２．４で、発明の名称が「サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本出願に組み込む。

本開示は人工知能分野に関し、具体的には、コンピュータ視覚及び深層学習技術に関し、インテリジェントクラウド及び製造業の品質検査のシーンに適用することができ、特に、サンプル画像を増分する方法、画像検出モデルの訓練方法、画像検出方法、並びに対応する装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。

対象物検出の分野では、訓練済みモデルを用いて、実物のサンプルに対して対象物検出を行うために、機械学習アルゴリズムは、一般に、大量のアノテーションされた訓練サンプルを学習する必要がある。

幾つかの技術分野では、対象物が疎らで、又は、対象物の取得が極めて難しいため、訓練サンプルを十分に収集することが困難であり、訓練済みモデルの認識能力が確保できない。

従来技術では、通常に、サンプル画像を回転するなどの変換手段や、敵対的生成ネットワーク（Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ）または遷移学習に基づく手段により、小さなサンプルに対するサンプルの増分を達成する。

本開示の実施形態は、サンプル画像を増分する方法、画像検出モデルの訓練方法、画像検出方法、並びに対応する装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラム製品を提供する。

第１の態様では、本開示の実施形態は、サンプル画像を増分する方法であって、元のサンプル画像の第１の畳み込み特徴を取得するステップと、領域提案ネットワーク及び第１の畳み込み特徴に基づいて、候補領域と、候補領域に目標対象物が存在する第１の確率とを決定するステップと、第１の確率に基づいて、候補領域において注目候補領域を決定し、注目候補領域を元のサンプル画像にマッピングして、中間画像を得るステップと、中間画像内の注目候補領域に対応する部分に対して画像強調処理を行い、および／または、中間画像内の注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得るステップと、を含む方法を提供する。

第２の態様では、本開示の実施形態は、サンプル画像を増分する装置であって、元のサンプル画像の第１の畳み込み特徴を取得するように構成される第１の畳み込み特徴量取得ユニットと、領域提案ネットワーク及び第１の畳み込み特徴に基づいて、候補領域と候補領域に目標対象物が存在することの第１の確率とを決定するように構成される候補領域・確率決定ユニットと、第１の確率に基づいて、候補領域において注目候補領域を決定し、注目候補領域を元のサンプル画像にマッピングして、中間画像を得るように構成される注目候補領域決定・マッピングユニットと、中間画像内の注目候補領域に対応する部分に対して画像強調処理を行い、および／または、中間画像内の注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得るように構成される中間画像処理ユニットと、を備える装置を提供する。

第３の態様では、本開示の実施形態は、画像検出モデルの訓練方法であって、増分サンプル画像の第２の畳み込み特徴を取得するステップであって、増分サンプル画像は第１の態様のいずれかの実施形態により取得された増分サンプル画像であるステップと、領域提案ネットワーク及び第２の畳み込み特徴に基づいて、新しい候補領域と、新しい候補領域に目標対象物が存在することの第２の確率とを決定するステップと、第１の確率に対応する第１の損失値、及び前記第２の確率に対応する第２の損失値を取得するステップと、重み付け後の第１の損失値と第２の損失値に基づいて、統合損失値を決定するステップと、統合損失値が予め設定された要求を満たすことにより、訓練済み画像検出モデルを得るステップと、を含む方法を提供する。

第４の態様では、本開示の実施形態は、画像検出モデルの訓練装置であって、増分サンプル画像の第２の畳み込み特徴を取得するように構成される第２の畳み込み特徴量取得ユニットであって、増分サンプル画像は第２の態様のいずれかの実施形態より取得された増分サンプル画像であるユニットと、領域提案ネットワーク及び第２の畳み込み特徴に基づいて、新しい候補領域と、新しい候補領域に目標対象物が存在することの第２の確率とを決定するように構成される新候補領域・確率決定ユニットと、第１の確率に対応する第１の損失値、及び第２の確率に対応する第２の損失値を取得するように構成される損失値取得ユニットと、重み付け後の第１の損失値と第２の損失値に基づいて、統合損失値を決定するように構成される統合損失値決定ユニットと、統合損失値が予め設定された要求を満たすことにより、訓練済み画像検出モデルを得るように構成される画像検出モデル訓練ユニットと、を備える装置を提供する。

第５の態様では、本開示の実施形態は、画像検出方法であって、検出待ちの画像を受信するステップと、画像検出モデルを呼び出して、検出待ちの画像を検出するステップであって、画像検出モデルは、第３の態様のいずれかの実施形態により得られた画像検出モデルであるステップと、を含む方法を提供する。

第６の態様では、本開示の実施形態は、画像検出装置であって、検出待ちの画像を受信するように構成される検出待ち画像受信ユニットと、画像検出モデルを呼び出して、検出待ちの画像を検出するように構成される画像検出ユニットであって、画像検出モデルは、第３の態様のいずれかの画像検出モデルの訓練方法により得られた画像検出モデルであるユニットと、を備える画像検出装置を提供する。

第７の態様では、本開示の実施形態は、電子機器であって、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続され、少なくとも１つのプロセッサによって実行可能な指令が格納されたメモリと、を備え、当該指令は、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに、第１の態様のいずれか１つの実施形態に記載のサンプル画像を増分する方法、および／または、第３の態様のいずれか１つの実施形態に記載の画像検出モデルの訓練方法、および／または、第５の態様のいずれか１つの実施形態に記載の画像検出方法を実行させる電子機器を提供する。

第８の態様では、本開示の実施形態は、コンピュータ指令を記憶した非一時的なコンピュータ可読記憶媒体であって、当該コンピュータ指令は、第１の態様のいずれか１つの実施形態に記載のサンプル画像を増分する方法および／または第３の態様のいずれか１つの実施形態に記載の画像検出モデルの訓練方法および／または第５の態様のいずれか１つの実施形態に記載のの画像検出方法を前記コンピュータに実行させる非一時的なコンピュータ可読記憶媒体を提供する。

第９の態様では、本開示の実施形態は、コンピュータプログラムを含むコンピュータプログラム製品であって、当該コンピュータプログラムは、プロセッサによって実行されると、第１の態様のいずれか１つの実施形態に記載のサンプル画像を増分する方法、および／または、第３の態様のいずれか１つの実施形態に記載の画像検出モデルの訓練方法、および／または、第５の態様のいずれか１つの実施形態に記載の画像検出方法を実現するコンピュータプログラム製品を提供する。

本開示の実施形態によるサンプル画像を増分する方法、画像検出モデルの訓練方法、画像検出方法、及び対応する装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品は、まず、元のサンプル画像の第１の畳み込み特徴を取得し、それから、領域提案ネットワーク及び第１の畳み込み特徴に基づいて、候補領域と、候補領域に目標対象物が存在する第１の確率とを決定し、その後、第１の確率に基づいて、候補領域において注目候補領域を決定し、注目候補領域を元のサンプル画像にマッピングして、中間画像を得、最後に、中間画像内の注目候補領域に対応する部分に対して画像強調処理を行い、および／または、中間画像内の注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得る。

本開示による技術的解決手段は、領域提案ネットワークを用いて対象物が存在する疑いのある候補領域を決定し、その後、候補領域から、存在する可能性の高い候補領域を注目候補領域とし、その注目候補領域を元の画像にマッピングして、元の画像の内の注目候補領域に対応する部分に対して鮮明化処理を行い、および／または、非注目候補領域に対応する部分に対して不鮮明化処理を行うことにより、目標対象物を可能な限り強調した増分サンプル画像を得る、サンプル画像を増分する方法を提供する。当該技術的解決手段によれば、元のサンプル画像のかなめの部分を損なうことなく、高い可用性の増分サンプル画像を生成することができる。

なお、発明の概要に記載の内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解される。

本出願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施形態に関する詳細な説明により、より明らかになる。

本開示を適用可能な例示的なシステムアーキテクチャである。本開示の実施形態によるサンプル画像を増分する方法のフローチャートである。本開示の実施形態による別のサンプル画像を増分する方法のフローチャートである。本開示の実施形態による画像検出モデルの訓練方法のフローチャートである。本開示の実施形態による適用シーンにおけるサンプル画像を増分する方法のフローを示す概要図である。本開示の実施形態によるサンプル画像を増分する装置の構成を示すブロック図である。本開示の実施形態による画像検出モデルの訓練装置の構成を示すブロック図である。本開示の実施形態による画像検出装置の構成を示すブロック図である。本開示の実施形態による、サンプル画像を増分する方法および／または画像検出モデルの訓練方法および／または画像検出方法を実行するのに適用する電子機器の構成を示す概略図である。

以下は、図面を参照して本開示の例示的な実施形態を説明し、ここでは理解に役立つため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎないと理解すべきである。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更や修正を行うことができることは、従業者にとって自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

本開示の技術的解決手段において、関係するユーザ個人情報の取得、記憶及び使用等は、関連する法律及び法規の規定に合致するように、必要な機密保持措置が講じられており、且つ、公序良俗に反するものではない。

まず、図１は、本開示のサンプル画像を増分する方法、画像検出モデルの訓練方法、画像検出方法、並びに対応する装置、電子機器、及びコンピュータ可読記憶媒体を適用可能な実施形態の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４、及びサーバ１０５を含むようにしてもよい。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供するために使用される媒体である。ネットワーク１０４には、有線又は無線通信リンク、または光ファイバケーブルなどの様々な接続手段が利用されてもよい。

ユーザは、端末機器１０１、１０２、１０３を用いて、ネットワーク１０４を介して、サーバ１０５と対話して、メッセージなどを受送信することができる。端末機器１０１、１０２、１０３及びサーバ１０５には、例えば、画像伝送用のアプリケーション、サンプル画像を増分する用のアプリケーション、対象物検出モデルの訓練用のアプリケーション等、端末機器及びサーバの間で情報の通信を行うための様々なアプリケーションがインストールされていてもよい。

端末機器１０１、１０２、１０３及びサーバ１０５は、ハードウェアであってもよく、ソフトウェアであってもよい。端末機器１０１、１０２、１０３がハードウェアである場合、表示画面を有する様々な電子機器であってもよく、スマートフォン、タブレット、ラップトップコンピュータ、デスクトップコンピュータなどが挙げられるが、これらに限定されない。端末機器１０１、１０２、１０３がソフトウェアである場合、上述の電子機器にインストールされ、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよいが、これらに限定されない。サーバ１０５がハードウェアである場合、複数のサーバから構成される分散型サーバクラスタとして実装されてもよく、単一のサーバとして実装されてもよい。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。

サーバ１０５は、それに内蔵された各種のアプリケーションにより様々なサービスを提供することができる。サンプル画像を増分するサービスを提供可能な画像の増分用のアプリケーションを例にすると、サーバ１０５は、当該画像の増分用のアプリケーションを実行すると、以下の効果を奏することができる。まず、ネットワーク１０４を介して、端末機器１０１、１０２、１０３から元のサンプル画像を受信し、次に、通常の特徴抽出ネットワークによってその第１の畳み込み特徴を抽出し、その後、領域提案ネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）と第１の畳み込み特徴とに基づいて、候補領域と、当該候補領域に目標対象物が存在することの第１の確率とを決定し、それから、第１の確率に基づいて、候補領域において注目候補領域を決定し、注目候補領域を元のサンプル画像にマッピングして、中間画像を得、最後に、中間画像内の、注目候補領域に対応する部分に対して画像の強調処理を行い、および／または、中間画像内の、非注目候補領域に対応する部分に対して画像のぼかし処理を行って、増分サンプル画像を得る。

さらに、サーバ１０５は、生成した増分サンプル画像を利用して、対応する画像検出モデルを訓練することができる。例えば、サーバ１０５は、モデル訓練用のアプリケーションを実行すると、以下の効果を実現することができる。増分サンプル画像の第２の畳み込み特徴を取得し、領域提案ネットワークと第２の畳み込み特徴とに基づいて、新たな候補領域と、当該新たな候補領域に目標対象物が存在することの第２の確率とを決定し、第１の確率に対応する第１の損失値、及び第２の確率に対応する第２の損失値を取得し、重み付け後の第１の損失値及び第２の損失値に基づいて、統合損失値を決定し、統合損失値が予め設定された要求を満たしたことにより、訓練済み画像検出モデルを得る。

さらに、サーバ１０５は、上述の訓練方法による訓練済み画像検出モデルを得た後、画像検出モデルに基づく画像検出サービスを外部に提供するようにしてもよい。即ち、当該画像検出モデルを呼び出すことにより検査待ちの画像を検査し、検査した結果を返すようにしてもよい。

なお、元のサンプル画像は、端末機器１０１、１０２、１０３によりネットワーク１０４を介して取得してもよく、様々な手段でサーバ１０５にローカルに格納しておいてもよい。よって、サーバ１０５は、ローカルにこれらのデータ（例えば、処理を開始する前に残っている処理待ちのサンプル画像を増分するのタスク）が格納されていることを検出すると、データをローカルから直接取得するようにしてもよい。この場合、例示的なシステムアーキテクチャ１００は、端末機器１０１、１０２、１０３およびネットワーク１０４を有しなくてもよい。さらに、元のサンプル画像の第１の畳み込み特徴を、特徴抽出ネットワークにより事前抽出しておき、その後、事前抽出したものを直接取得して使用するようにしてもよい。

画像の増分には、多くの演算リソースと強い演算力が必要となるため、本開示の後述の各実施形態によるサンプル画像を増分する方法は、一般に、強い演算力と多くの演算リソースを持つサーバ１０５に実行される。それに対応して、サンプル画像を増分する装置は、一般にサーバ１０５に配置される。ただし、留意されたいのは、端末機器１０１、１０２、１０３が、要求を満たす演算能力と演算リソースを持っている場合に、端末機器１０１、１０２、１０３は、それらにインストールされた画像の増分用のアプリケーションにより、上述の本サーバ１０５による各演算を実行してもよく、これにより、サーバ１０５と同様の結果を出力することができる。特に、異なる演算力を持つ複数の端末機器が同時に存在する場合でも、画像の増分用のアプリケーションにより、所在する端末機器が強い演算力を持ち、且つ、多くの演算リソースが残っているとの判断がなされた場合には、サーバ１０５の演算負荷を適切に軽減するために、上記の演算を端末機器に実行させるようにしてもよい。それに対応じて、サンプル画像を増分する装置は、端末機器１０１、１０２、１０３に配置されるようにしてもよい。この場合、例示的なシステムアーキテクチャ１００は、サーバ１０５およびネットワーク１０４を含まなくてもよい。

なお、図１における端末機器、ネットワーク、及びサーバの数はただ例示的である。実装の必要に応じて、端末機器、ネットワーク、及びサーバは、任意の数備えられてもよい。

図２を参照する。図２は、本開示の実施形態によるサンプル画像を増分する方法のフローチャートであり、ここで、フロー２００は、以下のステップ２０１～２０４を含む。

ステップ２０１：元のサンプル画像の第１の畳み込み特徴を取得する。

本ステップは、サンプル画像を増分する方法の実行主体（例えば、図１に示すサーバ１０５）が、元のサンプル画像の第１の畳み込み特徴を取得することを旨とする。

ここで、特徴抽出ネットワークによって元のサンプル画像から第１の畳み込み特徴を抽出するようにしてもよい。特徴抽出ネットワークのタイプは、特に限定されない。元のサンプル画像は、目標対象物を含む画像であり、目標対象物は、実際の必要によって異なり、顕微鏡による観察での金属材料の割れ目や、ある運動状態にある微生物等のような、小さなサンプルのシーンの様々な物体であり得る。

ステップ２０２：領域提案ネットワーク及び第１の畳み込み特徴に基づいて、候補領域と、候補領域に目標対象物が存在する第１の確率とを決定する。

本ステップは、ステップ２０１の上で、上述の実行主体が、第１の畳み込み特徴を領域提案ネットワークに入力することにより、領域提案ネットワークを使用して、目標対象物が存在する疑いのある候補領域、および各候補領域内に目標対象物が存在することの第１の確率を決定することを旨とする。具体的には、この第１の確率は、属する候補領域に実に対象物体が存在する可能性を記述するために用いられ、さらに、確率スコアとして数値化されてもよい。候補領域は、畳み込み特徴（グラフ）に基づいて領域提案ネットワークによって決定され、目標対象物が存在し得る領域である。即ち、領域提案ネットワークは、目標対象物の畳み込み特徴を識別する機能を有すべきである。

ステップ２０３：第１の確率に基づいて、候補領域において、注目候補領域を決定し、注目候補領域を元のサンプル画像にマッピングして、中間画像を得る。

本ステップは、ステップ２０２の上で、上述の実行主体が、候補領域に与えられた第１の確率に基づいて、候補領域から、目標対象物が存在する確率が比較的に高い候補領域を注目候補領域として決定し、そして、注目候補領域を元のサンプル画像にマッピングして、存在する疑いのある目標対象物がフレーミング（ｆｒａｍｉｎｇ）された中間画像を得ることを旨とする。枠付け

なお、候補領域は、元のサンプル画像から抽出された畳み込み特徴（マップ）に基づいて決定されるので、元のサンプル画像上の領域ではなく、畳み込み特徴マップ上の領域であるが、畳み込み特徴と元のサンプル画像との間の対応関係により、注目候補領域を元のサンプル画像にマッピングし返すことにより、元のサンプル画像上で、目標対象物をフレーミングすることにより、目標対象物の存在する境界を特定することができる。ただし、目標対象物の境界の特定が正確か否かは、領域提案ネットワークによる候補領域の抽出及び第１の確率の決定の実行精度に依存することは理解されるべきである。

ステップ２０４：中間画像内の注目候補領域に対応する部分に対して画像強調処理を行い、および／または、中間画像内の非注目候補領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得る。

本ステップは、ステップ２０３の上で、上述の実行主体が、中間画像においてフレーミングされた目標対象物の存在する部分、および／または、目標対象物が存在しない部分に対して、異なる画像処理手段を採用し、さらに処理後の増分サンプル画像を得ることを旨とする。

本ステップは、具体的に以下の３つの実施態様を含む。

第１の実施態様において、中間画像内の注目候補領域に対応する部分に対する画像強調処理しかを行わないようにし、画像強調処理後の中間画像を増分サンプル画像とする。

第２の実施態様において、中間画像内の非注目候補領域に対応する部分に対する画像ぼかし処理しか行わないようにし、画像ぼかし処理後の中間画像を増分サンプル画像とする。

第３の実施態様において、中間画像内の注目候補領域に対応する部分に対する画像強調処理と、非注目候補領域に対応する部分に対する画像ぼかし処理との両方を行うようにし、画像強調処理及び画像ぼかし処理を行った後の中間画像を増分サンプル画像とする。

上記のいずれの実施態様でも、できる限り目標対象物が存在する一部の領域を強調することを目的としている。

なお、画像強調処理は、画像の鮮明さを向上させるための画像処理手段であり、ぼかし処理は、画像の鮮明さを低下させるための画像処理手段であり、画像が鮮明になるほど、目標対象物が存在するか否かを正確に認識することが容易になる。

本開示の実施形態は、領域提案ネットワークを用いて対象物が存在する疑いのある候補領域を決定し、その後、候補領域から、存在する可能性の高い候補領域を注目候補領域とし、その注目候補領域を元の画像にマッピングし、元の画像の内の注目候補領域に対応する部分に対して鮮明化処理を行い、および／または、非注目候補領域に対応する部分に対して不鮮明化処理を行うことにより、目標対象物を可能な限り強調した増分サンプル画像を得る、サンプル画像を増分する方法を提供する。当該技術的解決手段によれば、元のサンプル画像のかなめの部分を損なうことなく、高い可用性の増分サンプル画像を生成することができる。

図３を参照する。図３は、本開示の実施形態による別のサンプル画像を増分する方法のフローチャートであり、ここで、フロー３００は、以下のステップ３０１～３０７を含む。

ステップ３０１：元のサンプル画像の第１の畳み込み特徴を取得する。

ステップ３０２：領域提案ネットワーク及び第１の畳み込み特徴に基づいて、候補領域と、候補領域に目標対象物が存在する第１の確率とを決定する。

上記ステップ３０１～３０２は、図２に示すステップ２０１～２０２と同じであり、同一の部分については、前の実施形態の対応する部分を参照されたいが、ここでは記述を省略する。

ステップ３０３：第１の確率が予め設定された確率より大きい候補領域を注目候補領域として決定し、注目候補領域を元のサンプル画像にマッピングして、中間画像を得る。

ステップ２０３の上で、本実施形態は、本ステップによれば、注目候補領域を選び出すための具体的な実施態様を提供する。即ち、高確率と低確率とを区別するための確率値を（例えば、７０％）予め設定することです。これにより、目標対象物が存在する確率の高い注目候補領域を選び出すには、各候補領域の第１の確率を予め設定された確率と比較するとよい。

ステップ３０３による予め設定された確率に基づいて注目候補領域を決定する態様に加えて、第１の確率の大きさの上位数（上位Ｎは、確率値が大きいＮ個を意味する）の候補領域を注目候補領域として決定する態様を採用してもよく、又は、上位パーセントなどに基づいて、注目候補領域を選び出すようにしてもよい。即ち、いずれの態様も、目標対象物の存在する確率がなるべく高い候補領域を注目候補領域として決定し、注目候補領域を元のサンプル画像にマッピングし返した後に、元のサンプル画像の内の目標対象物をなるべく正確にフレーミングすることを目的とする。

ステップ３０４：中間画像内の非注目候補領域に対応する部分に対してガウスぼかし処理を行う。

本ステップは、ステップ３０３の上で、上述の実行主体が、中間画像内の非注目候補領域に対応する部分にガウスぼかし処理を行うことを旨とする。

ガウス平滑化とも呼ばれるガウスぼかしは、通常、画像ノイズの低減や、ディテールレベルの低減に使用される。このような暈し技術によって生成された画像は、磨りガラスを通して見た画像のような視覚的効果を有する。それは、レンズの焦点外結像によるぼかした画像や、一般的な照明の影の効果とは明らかに異なる。ガウス平滑化は、コンピュータ視覚アルゴリズムの前処理段階にも使用されて、異なるスケール・サイズで画像の画像効果を向上させる。数学的な見方では、画像のがオシアン暈しのプロセスは、画像を正規分布で畳み込むことである。正規分布はガウス分布とも呼ばれるので、この技術はガウスぼかしと呼ばれる。画像を円形のボックスぼかし（Ｂｏｘｂｌｕｒ）で畳み込むと、より精確な焦点外結像効果が得られる。ガウス関数のフーリエ変換は別のガウス関数となるので、ガウスぼかしは、画像の低域通過フィルタである。

ステップ３０５：中間画像内の第１の注目領域に対して第１の画像強調処理を行う。

ステップ３０６：中間画像内の第２の注目領域に対して第２の画像強調処理を行う。

ステップ３０３の上で、ステップ３０５およびステップ３０６は、異なる注目領域の画像強調効果を区別するように、中間画像における第１の注目領域および第２の注目領域に対して、それぞれ異なる画像強調の強度で画像強調処理を行うようにする。

ここで、第１の注目領域は、少なくとも２つの注目候補領域を元のサンプル画像にマッピングした重複部分であり、第１の注目領域とは区別さる第２の注目領域は、単一の注目候補領域を元のサンプル画像にマッピングした部分である。なお、元のサンプル画像の同じ位置にマッピングされた注目候補領域が多いほど、当該位置に目標対象物が存在するとの判定の正確さを高める一方、逆は、元の判定の正確さを維持するしかないことが理解すべきである。そこで、本実施形態では、ステップ３０５およびステップ３０６により、目標対象物が存在する可能性の高い一部の領域に対しては、画像強調の強度が高い画像強調手段を採用する一方、目標対象物が存在する可能性が普通な一部の領域に対しては、画像強調の強度が普通な画像強調手段を採用する。

ステップ３０７：処理後の画像を増分サンプル画像とする。

前の実施形態による技術的解決手段の上で、本実施形態は、ステップ３０３によれば、第１の確率に基づいて注目候補領域を決定する具体的な方法を提供しており、ステップ３０４によれば、中間画像内の非注目候補領域に対応する部分に対して具体的にガウスぼかしを採用する画像ぼかし処理の態様を提供しており、ステップ３０５及びステップ３０６によれば、中間画像内の非注目候補領域に対応する部分に対して、複数の注目候補領域が重複したものであるか否かに応じて、異なる画像強調の強度の画像強調処理を採用することで、目標対象物を可能な限り強調する。

なお、ステップ３０３、ステップ３０４、ステップ３０５及びステップ３０６のいずれの具体的な実施態様も、フロー２００に示される実施形態と別個に組み合わせて、異なる実施形態を形成することができ、それぞれの間に因果関係や依存関係がない。したがって、本実施形態は、実際には、３つの具体的な態様を共に実施した好ましい実施形態にすぎない。

上記の任意の実施形態は、異なるサンプル画像を増分する方法を提供し、さらに、上記の増分サンプル画像を生成する技術的手段に関連して、訓練して対象物検出モデルを得するためのモデル訓練方法を提供する。一実施態様では、図４に示されるフローチャート図を参照すると、そのフロー４００は、以下のステップ４０１～４０５を含むようにしもよいが、これに限らない。

ステップ４０１：増分サンプル画像の第２の畳み込み特徴を取得する。

第２の畳み込み特徴は、強調サンプル画像から抽出される。第２の畳み込み特徴の抽出は、元のサンプル画像から第１の畳み込み特徴を抽出すると同じように行ってもよく、例えば、同じ特徴抽出ネットワークを使用してもよい。

ステップ４０２：領域提案ネットワーク及び第２の畳み込み特徴に基づいて新しい候補領域と、新しい候補領域に前記目標対象物が存在する第２の確率とを決定する。

新しい候補領域及び関連する第２の確率に対応するのは、増分サンプル画像であるのに対し、候補領域及び関連する第１の確率に対応するのは、元のサンプル画像であるという区別点を除き、新しい候補領域及び関連する第２の確率は、候補領域および関連する第１の確率と同様である。

ステップ４０３：第１の確率に対応する第１の損失値、及び第２の確率に対応する第２の損失値を取得する。

本ステップは、ステップ４０２の上で、モデル訓練を指導するための損失値をそれぞれ取得することを旨とする。元のサンプル画像および増分サンプル画像が存在するので、第１の確率および第２の確率に基づいて、それぞれ対応する損失値を決定するようにする。

ステップ４０４：重み付け後の第１の損失値と第２の損失値に基づいて、統合損失値を決定する。

本ステップは、ステップ４０３の上で、重み付け後の第１および第２の損失値を統合して、より合理的な統合損失値を決定することを旨とする。ここで、第１の損失値に付ける重みと、第２の損失値に付ける重みとを、同一にしもよく、実装の必要に応じて柔軟に調整してもよい。

一実施態様では、重み付け後の第１の損失値と重み付け後の第２の損失値との和を、統合損失値とするようにしてもよいが、これに限らない。

ステップ４０５：統合損失値が予め設定された要求を満たすことにより、訓練済み画像検出モデルを得る。

本ステップは、ステップ４０４の上で、上述の実行主体が、統合損失値が予め設定された要件を満たすことにより、訓練済み画像検出モデルを得ることを旨とする。

一実施態様では、統合損失値が、予め設定された回数で訓練を繰り返して得た最小値となることに応答して、訓練済み画像検出モデルを出力するようにしてもよいが、これに限らない。このようにして、統合損失値を最小に制御することを訓練目標としており、統合損失値が小さいほど、モデルの検出精度が高くなることが分かる。

図４に示される実施形態は、前の各実施形態の上で、さらに、増分したサンプル画像を用いて、対象物検出モデルを訓練し、その後、訓練済み対象物検出モデルを直接使用して、検出待ちの画像内に対象物が存在するか否かを正確かつ効率的に検出することができる。

画像検出方法は以下のとおりである。

まず、検出待ちの画像を受信し、その後、検出待ちの画像を検出するために画像検出モデルを呼び出す。その後、得られた検出結果を返すこともできる。

よりよく理解されるように、本開示は、具体的な適用シーンにより、図５に示されるフロチャートを参照しながら、具体的な実施態様を更に提供する。

サンプル画像数が少ない現実の対象物検出のシーンに対して、本実施形態は、領域領域選定に基づいて強調する対象物検出方法を提供しており、当該方法は、候補領域の選定によるデータ強調を行い、既存の様々なサンプル増分技術をも利用することで、多方面にわたって増分サンプルの可用性を総合的に向上させ、最後に増分後のサンプルセットに基づいて検出効果がよりよい対象物検出モデルを訓練することを旨とする。対象物検出方法は、以下の通りである。
１）元の画像Ａに対して畳み込みニューラルネットワークにより畳み込み特徴を抽出する。
２）領域提案ネットワークにより、抽出した畳み込み特徴に対して、対象物が存在する可能性のある候補領域と、各候補領域に対象物が存在することの確率スコアを決定する。
３）ステップ２）で得た候補領域と、ステップ１）で抽出した畳み込み特徴に対して、通常のＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ、関心領域）プーリングを行ってから、二つの全結合層に入力して、数千の分類確率を得ており、それぞれの分類確率はその対応する回帰の決定境界を有し、それらを分類確率ａ１及び回帰の決定境界ａ２と記す。
４）ステップ２）で得た候補領域を確率スコアの高い順にソートし、上位Ｎ個の候補領域を選び出して元の画像にマッピングして（Ｎの値は５０であり、該パラメータは具体的なタスクに応じて調整可能である）、Ｎ個の検出枠が付けられた中間画像を得ることができる。
５）ステップ４）で得た中間画像内の検出枠外の領域を背景領域とし、当該背景領域に対してガウスぼかしを行い、検出枠内の前景領域に対して画像強調を行って鮮明さを向上させて画像Ｂを得る。
６）画像Ｂを畳み込み特徴抽出ネットワークに入力すると、最終に、分類確率ｂ１及び回帰の決定境界ｂ２を得ることができる。
７）分類確率ａ１と分類確率ａ２とを重み付けて合計して最終的な分類確率を求め、所定の閾値に応じて、分類確率に対応する回帰の決定境界（ｂ１およびｂ２）を、検出待ちの元の画像にマッピングして、最終の検出結果を得る。

処理中に、候補領域がマッピングされた画像に対して、背景のぼかしをするので、候補領域が画像内のすべての検出すべき対象物を含む場合に限り、候補領域がマッピングされた画像では、訓練中の損失値がより収束する。

上記の方法は、領域提案ネットワークに基づく既存の方法に活用することもでき、さらに実用性を高めるために、他の小さなサンプルの検出技術と協力することで検出効果を高めることもできる。

本開示は、上記各図に示される方法の実装として、それぞれに対する装置の実施形態を提供する。即ち、図２に示されるサンプル画像を増分する方法に対応するサンプル画像を増分する装置、図４に示される画像検出モデルの訓練方法に対応する画像検出モデルの訓練装置、画像検出方法に対応する画像検出装置を提供する。それぞれの装置は、各種の電子機器に具体化することができる。

図６に示すように、本実施形態のサンプル画像を増分する装置６００は、第１の畳み込み特徴量取得ユニット６０１と、候補領域・確率決定ユニット６０２と、注目候補領域決定・マッピングユニット６０３と、中間画像処理ユニット６０４とを備えるようにしてもよい。そのうち、第１の畳み込み特徴取得ユニット６０１は、元のサンプル画像の第１の畳み込み特徴を取得するように構成され、候補領域・確率決定ユニット６０２は、領域提案ネットワーク及び第１の畳み込み特徴に基づいて候補領域と、候補領域に目標対象物が存在することの第１の確率とを決定するように構成され、注目候補領域決定・マッピングユニット６０３は、第１の確率に基づいて、候補領域において注目候補領域を決定し、注目候補領域を元のサンプル画像にマッピングして中間画像を得るように構成され、中間画像処理ユニット６０４は、中間画像内の注目候補領域に対応する部分に対して画像強調処理を行い、および／または、中間画像内の非注目候補領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得るように構成される。

本実施形態では、サンプル画像を増分する装置６００において、第１の畳み込み特徴量取得ユニット６０１、候補領域・確率決定ユニット６０２、注目候補領域決定・マッピングユニット６０３、中間画像処理ユニット６０４の具体的な処理、及びそれらによる技術的効果については、それぞれ図２の対応する実施形態におけるステップ２０１～２０４に関連する説明を参照できるので、ここでは説明を省略する。

本実施形態のいくつかの代替的な実施形態では、中間画像処理ユニット６０４は、中間画像内の非注目候補領域に対応する部分に対して画像ぼかし処理を行うぼかし処理サブユニットを備えるようにしてもよい。ぼかし処理サブユニットは、さらに、中間画像内の非注目候補領域に対応する部分に対してガウスぼかし処理を行うように構成される。

本実施形態のいくつかの代替的な実装形態では、注目候補領域決定・マッピングユニット６０３は、第１の確率に基づいて、候補領域において注目候補領域を決定するように構成される注目候補領域決定サブユニットを備えるようにしてもよい。注目候補領域決定サブユニットは、さらに、第１確率が予め設定された確率よりも大きい候補領域を、注目候補領域として決定するように構成される。

本実施形態のいくつかの代替的な実装形態では、中間画像処理ユニット６０４は、中間画像内の注目候補領域に対する部分に対して画像強調処理を行う強調処理サブユニットを備えてもよい。強調処理サブユニットは、中間画像内の第１の注目領域に対して第１の画像強調処理を行い、中間画像内の第２の注目領域に対して第２の画像強調処理を行うように構成され、第１の注目領域は、少なくとも２つの注目候補領域を元のサンプル画像にマッピングした重複部分であり、第２の注目領域は、単一の注目候補領域を元のサンプル画像にマッピングした部分であり、第１の画像強調処理の画像強調の強度は、第２の画像強調処理の画像強調の強度よりも大きい。

図７に示すように、本実施形態の画像検出モデル訓練装置７００は、第２の畳み込み特徴量取得ユニット７０１と、新候補領域・確率決定ユニット７０２と、損失値取得ユニット７０３と、統合損失値決定ユニット７０４と、画像検出モデル訓練ユニット７０５とを備えるようにしてもよい。そのうち、第２の畳み込み特徴取得ユニット７０１は、増分サンプル画像の第２の畳み込み特徴を取得するように構成される。そのうち、増分サンプル画像は、図６に示されるサンプル画像を増分する装置によって取得される。新しい候補領域・確率決定ユニット７０２は、領域提案ネットワーク及び第２の畳み込み特徴に基づいて、新しい候補領域と、新しい候補領域に目標対象物が存在することの第２の確率とを決定するように構成あれる。損失値取得ユニット７０３は、第１の確率に対応する第１の損失値と、第２の確率に対応する第２の損失値とを取得するように構成される。統合損失値決定ユニット７０４は、重み付け後の第１の損失値及び第２の損失値に基づいて、統合損失値を決定するように構成される。画像検出モデル訓練ユニット７０５は、統合損失値が予め設定された要件を満たすことにより、訓練済み画像検出モデルを得るように構成される。

本実施例のいくつかの代替的な実装形態では、統合損失値決定ユニットは、さらに、重み付け後の第１の損失値と重み付け後の第２の損失値との和を統合損失値とするように構成される。

本実施例のいくつかの代替的な実装形態では、画像検出モデル訓練ユニットは、さらに統合損失値が予め設定された回数で繰り返し訓練をして得た最小値となることに応答して、訓練済み画像検出モデルを出力する。

図８に示すように、本実施形態の画像検出装置８００は、検出待ち画像受信ユニット８０１と、画像検出ユニット８０２とを備えるようにしてもよい。そのうち、検出待ち画像受信ユニット８０１は、検出待ちの画像を受信するように構成され、画像検出ユニット８０２は、図７に示すような画像検出モデル訓練装置によって得られた画像検出モデルを呼び出して検出待ちの画像を検出するように構成されている。

本実施形態は、上述の方法の実施形態に対応する装置の実施形態として存在する。本開示の実施形態によるサンプル画像を増分する装置は、領域提案ネットワークを用いて対象物が存在する疑いのある候補領域を決定し、その後、候補領域から、存在する可能性の高い候補領域を注目候補領域とし、その注目候補領域を元の画像にマッピングして、元の画像の内の注目候補領域に対応する部分に対して鮮明化処理を行い、および／または、非注目候補領域に対応する部分に対して不鮮明化処理を行うことにより、目標対象物を可能な限り強調した増分サンプル画像を得る、サンプル画像を増分する方法を提供する。当該技術的解決手段によれば、元のサンプル画像のかなめの部分を損なうことなく、高い可用性の増分サンプル画像を生成することができる。

本発明の実施形態によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。

図９は、本開示の実施形態を実施するために使用できる例示的な電子機器９００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本開示の実施形態を限定することを意図するものではない。

図９に示すように、電子機器９００は、読み出し専用メモリ（ＲＯＭ）９０２に記憶されているコンピュータプログラムまたは記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット９０１を備える。ＲＡＭ９０３には、電子機器９００の動作に必要な様々なプログラムおよびデータが更に格納されてもよい。計算ユニット９０１、ＲＯＭ９０２およびＲＡＭ９０３は、バス９０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インターフェース９０５もバス９０４に接続されている。

電子機器９００において、キーボード、マウスなどの入力ユニット９０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット９０７と、磁気ディスク、光ディスクなどの記憶ユニット９０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット９０９とを備える複数のコンポーネントは、Ｉ／Ｏインターフェース９０５に接続されている。通信ユニット９０９は、機器９００がインターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。

計算ユニット９０１は、処理および計算機能を有する様々な汎用および／または専用処理コンポーネントであってもよい。計算ユニット９０１のいくつかの例示としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット９０１は、上述したサンプル画像を増分する方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、サンプル画像を増分する方法は、記憶ユニット９０８などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ９０２および／または通信ユニット９０９を介して電子機器９００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ９０３にロードされ、計算ユニット９０１によって実行されると、上述のサンプル画像を増分する方法の１つまたは複数のステップを実行可能である。あるいは、他の実施形態において、計算ユニット９０１は、他の任意の適切な方式によって（例えば、ファームウェアを介して）サンプル画像を増分する方法を実行するように構成されていてもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現されてもよい。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、当該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも１つの入力装置および当該少なくとも１つの出力装置に伝送することを含み得る。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ?ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく）、且つ音入力、音声入力または、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。サーバはクラウドサーバであってもよく、クラウドサーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに存在する管理難度が高く、サービスの拡張性が低いという欠点を解決するためのものである。

本開示の実施形態による技術的解決手段は、領域提案ネットワークを用いて対象物が存在する疑いのある候補領域を決定し、その後、候補領域から、存在する可能性の高い候補領域を注目候補領域とし、その注目候補領域を元の画像にマッピングして、元の画像の内の注目候補領域に対応する部分に対して鮮明化処理を行い、および／または、非注目候補領域に対応する部分に対して不鮮明化処理を行うことにより、目標対象物を可能な限り強調した増分サンプル画像を得る、サンプル画像を増分する方法を提供する。当該技術的解決手段によれば、元のサンプル画像のかなめの部分を損なうことなく、高い可用性の増分サンプル画像を生成することができる。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術的解決方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。

本開示は人工知能分野に関し、具体的には、コンピュータ視覚及び深層学習技術に関し、インテリジェントクラウド及び製造業の品質検査のシーンに適用することができ、特に、サンプル画像を増分する方法、画像検出モデルの訓練方法、画像検出方法、並びに対応する装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。

本開示の実施形態は、サンプル画像を増分する方法、画像検出モデルの訓練方法、画像検出方法、並びに対応する装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提供する。

第９の態様では、本開示の実施形態は、コンピュータプログラムであって、当該コンピュータプログラムは、プロセッサによって実行されると、第１の態様のいずれか１つの実施形態に記載のサンプル画像を増分する方法、および／または、第３の態様のいずれか１つの実施形態に記載の画像検出モデルの訓練方法、および／または、第５の態様のいずれか１つの実施形態に記載の画像検出方法を実現するコンピュータプログラムを提供する。

本開示の実施形態によるサンプル画像を増分する方法、画像検出モデルの訓練方法、画像検出方法、及び対応する装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムは、まず、元のサンプル画像の第１の畳み込み特徴を取得し、それから、領域提案ネットワーク及び第１の畳み込み特徴に基づいて、候補領域と、候補領域に目標対象物が存在する第１の確率とを決定し、その後、第１の確率に基づいて、候補領域において注目候補領域を決定し、注目候補領域を元のサンプル画像にマッピングして、中間画像を得、最後に、中間画像内の注目候補領域に対応する部分に対して画像強調処理を行い、および／または、中間画像内の注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得る。

第２の畳み込み特徴は、増分サンプル画像から抽出される。第２の畳み込み特徴の抽出は、元のサンプル画像から第１の畳み込み特徴を抽出すると同じように行ってもよく、例えば、同じ特徴抽出ネットワークを使用してもよい。

本発明の実施形態によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。

Claims

サンプル画像を増分する方法であって、
元のサンプル画像の第１の畳み込み特徴を取得するステップと、
領域提案ネットワーク及び前記第１の畳み込み特徴に基づいて、候補領域と、前記候補領域に目標対象物が存在する第１の確率とを決定するステップと、
前記第１の確率に基づいて、前記候補領域において注目候補領域を決定し、前記注目候補領域を前記元のサンプル画像にマッピングして、中間画像を得るステップと、
前記中間画像内の前記注目候補領域に対応する部分に対して画像強調処理を行い、および／または、前記中間画像内の前記注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得るステップと
を含む方法。
前記中間画像内の前記注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行うことは、
前記中間画像内の前記注目候補領域以外の領域に対応する部分に対してガウスぼかし処理を行うステップを含む、請求項１に記載の方法。
前記第１の確率に基づいて、前記候補領域において注目候補領域を決定することは、
前記第１の確率が予め設定された確率よりも大きい候補領域を、注目候補領域として決定するステップを含む、請求項１に記載の方法。
前記中間画像内の前記注目候補領域に対応する部分に対して画像強調処理を行うことは、
前記中間画像内の第１の注目領域に対して第１の画像強調処理を行うステップであって、前記第１の注目領域は、少なくとも２つの前記注目候補領域を前記元のサンプル画像にマッピングした重複部分であるステップと、
前記中間画像内の第２の注目領域に対して第２の画像強調処理を行うステップであって、前記第２の注目領域は、単一の前記注目候補領域を前記元のサンプル画像にマッピングした部分であり、前記第１の画像強調処理の画像強調の強度は、前記第２の画像強調処理の画像強調の強度よりも大きいステップと
を含む、請求項１に記載の方法。
画像検出モデルの訓練方法であって、
増分サンプル画像の第２の畳み込み特徴を取得するステップであって、前記増分サンプル画像は請求項１～４のいずれか１項に記載のサンプル画像を増分する方法により取得されたものであるステップと、
領域提案ネットワーク及び前記第２の畳み込み特徴に基づいて、新しい候補領域と、前記新しい候補領域に目標対象物が存在する第２の確率とを決定するステップと、
第１の確率に対応する第１の損失値、及び前記第２の確率に対応する第２の損失値を取得するステップと、
重み付け後の第１の損失値と第２の損失値に基づいて、統合損失値を決定するステップと、
前記統合損失値が予め設定された要求を満たすことにより、訓練済み画像検出モデルを得るステップと
を含む方法。
前記重み付け後の第１の損失値と第２の損失値に基づいて、統合損失値を決定するステップは、
重み付け後の第１の損失値と重み付け後の第２の損失値との和を、前記統合損失値とするステップを含む、請求項５に記載の画像検出モデルの訓練方法。
前記統合損失値が予め設定された要求を満たすことにより、訓練済み画像検出モデルを得るステップは、
前記統合損失値が、予め設定された回数で訓練を繰り返して得た統合損失値のうちの最小値となることに応答して、訓練済み画像検出モデルを出力するステップを含む、請求項５に記載の画像検出モデルの訓練方法。
画像検出方法であって、
検出待ちの画像を受信するステップと、
画像検出モデルを呼び出して、前記検出待ちの画像を検出するステップであって、前記画像検出モデルは、請求項５～７のいずれか１項に記載の画像検出モデルの訓練方法により得られた画像検出モデルであるステップと
を含む方法。
サンプル画像を増分する装置であって、
元のサンプル画像の第１の畳み込み特徴を取得するように構成される第１の畳み込み特徴量取得ユニットと、
領域提案ネットワーク及び前記第１の畳み込み特徴に基づいて、候補領域と、前記候補領域に目標対象物が存在する第１の確率とを決定するように構成される、候補領域・確率決定ユニットと、
前記第１の確率に基づいて、前記候補領域において注目候補領域を決定し、前記注目候補領域を前記元のサンプル画像にマッピングして、中間画像を得るように構成される注目候補領域決定・マッピングユニットと、
前記中間画像内の前記注目候補領域に対応する部分に対して画像強調処理を行い、および／または、前記中間画像内の前記注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行って、増分サンプル画像を得るように構成される中間画像処理ユニットと
を備える装置。
前記中間画像処理ユニットは、前記中間画像内の前記注目候補領域以外の領域に対応する部分に対して画像ぼかし処理を行うぼかし処理サブユニットを備え、
前記ぼかし処理サブユニットは、さらに、
前記中間画像内の前記注目候補領域以外の領域に対応する部分に対してガウスぼかし処理を行うように構成される、請求項９に記載の装置。
前記注目候補領域決定・マッピングユニットは、前記第１の確率に基づいて、前記候補領域において注目候補領域を決定するように構成された注目候補領域決定サブユニットを備え、
前記注目候補領域決定サブユニットは、さらに、
前記第１の確率が予め設定された確率よりも大きい候補領域を、注目候補領域として決定するように構成される、請求項９に記載の装置。
前記中間画像処理ユニットは、前記中間画像内の前記注目候補領域に対する部分に対して画像強調処理を行う強調処理サブユニットを備え、
前記強調処理サブユニットは、さらに、
前記中間画像内の第１の注目領域に対して第１の画像強調処理を行い、
前記中間画像内の第２の注目領域に対して第２の画像強調処理を行うように構成され、
前記第１の注目領域は、少なくとも２つの前記注目候補領域を前記元のサンプル画像にマッピングした重複部分であり、
前記第２の注目領域は、単一の前記注目候補領域を前記元のサンプル画像にマッピングした部分であり、前記第１の画像強調処理の画像強調の強度は、前記第２の画像強調処理の画像強調の強度よりも大きい、請求項９に記載の装置。
画像検出モデルの訓練装置であって、
増分サンプル画像の第２の畳み込み特徴を取得するように構成される第２の畳み込み特徴量取得ユニットであって、前記増分サンプル画像は請求項９～１２のいずれか１項に記載のサンプル画像を増分する装置により取得されたものであるユニットと、
領域提案ネットワーク及び前記第２の畳み込み特徴に基づいて、新しい候補領域と、前記新しい候補領域に目標対象物が存在する第２の確率とを決定するように構成される新候補領域・確率決定ユニットと、
第１の確率に対応する第１の損失値、及び前記第２の確率に対応する第２の損失値を取得するように構成される損失値取得ユニットと、
重み付け後の第１の損失値と第２の損失値に基づいて、統合損失値を決定するように構成される統合損失値決定ユニットと、
前記統合損失値が予め設定された要求を満たすことにより、訓練済み画像検出モデルを得るように構成される画像検出モデル訓練ユニットと
を備える装置。
前記統合損失値決定ユニットは、さらに、
重み付け後の第１の損失値と重み付け後の第２の損失値との和を、前記統合損失値とするように構成される、請求項１３に記載の画像検出モデルの訓練装置。
前記画像検出モデル訓練ユニットは、さらに、
前記統合損失値が、予め設定された回数で訓練を繰り返して得た統合損失値のうちの最小値となることに応答して、訓練済み画像検出モデルを出力するように構成される、請求項１３に記載の画像検出モデルの訓練装置。
画像検出装置であって、
検出待ちの画像を受信するように構成される検出待ち画像受信ユニットと、
画像検出モデルを呼び出して、前記検出待ちの画像を検出するように構成される画像検出ユニットであって、前記画像検出モデルは、請求項１３～１５のいずれか１項に記載の画像検出モデルの訓練方法により得られた画像検出モデルであるユニットと
を備える装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続され、前記少なくとも１つのプロセッサによって実行可能な指令が格納されたメモリと
を備えた電子機器であって、
前記指令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、請求項１～４のいずれか１項に記載のサンプル画像を増分する方法、および／または、請求項５～７のいずれか１項に記載の画像検出モデルの訓練方法、および／または、請求項８に記載の画像検出方法を実行させる電子機器。
コンピュータ指令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、請求項１～４のいずれか１項に記載のサンプル画像を増分する方法、および／または、請求項５～７のいずれか１項に記載の画像検出モデルの訓練方法、および／または、請求項８に記載の画像検出方法を前記コンピュータに実行させる非一時的なコンピュータ可読記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、
前記コンピュータプログラムは、プロセッサによって実行されると、請求項１～４のいずれか１項に記載のサンプル画像を増分する方法、および／または、請求項５～７のいずれか１項に記載の画像検出モデルの訓練方法、および／または、請求項８に記載の画像検出方法を実現するコンピュータプログラム製品。