JP7262503B2

JP7262503B2 - 小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP7262503B2
Application number: JP2021051677A
Authority: JP
Inventors: ガンヘ
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2021-03-25
Publication date: 2023-04-21
Anticipated expiration: 2041-03-25
Also published as: KR102523886B1; JP2021179971A; CN111626208B; CN111626208A; KR20210042275A

Description

本開示の実施例は、コンピュータ技術の分野に関し、具体的には小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。

目標の検出は、自動運転分野における重要な研究の方向である。その主な検出の目標は、静止目標および運動目標の２種類に分類される。静止目標として、信号、交通標識、車道、障害物などが挙げられ、運動目標として、車、歩行者、非自動車などが挙げられる。ここで、交通標識の検出は、無人運転車が走行中に豊富かつ必要なナビゲーション情報を提供するものであり、重要な意味を持つ基礎的な仕事である。

ＡＲナビゲーションなどのアプリケーションでは、現在の区間の交通標識をリアルタイムで検出し、ユーザーに対して相応のヒントを与えることが重要である。車載ビデオでは、交通標識のサイズ分布範囲が広く、かつ大量の小目標（２０画素以下）が存在し、小目標の検出は、検出アルゴリズムそのものだけでなく、画像の高い解像度を維持することも求め、これは車載マシンの有限な計算の性能に対しても大きな試練である。

交通標識の認識の実効性を保証するために、既存の方式の多くは、ＹＯＬＯモデルを使って入力画像をトレーニングし、得られた予測値から交通標識が属する分類を予測することによって識別する。ＹＯＬＯモデルのトレーニングネットワークがＣ１ーＣ７の計７層の畳み込みトレーニング層と２層の全結合層を含むＣＮＮモデルであるため、比較的速い速度で認識を完成できるが、交通標識が通常、収集されたオリジナル画像のごく一部を占めるだけであり、特徴マップが畳み込み層を通過するたびにサイズが縮小され、したがって、既存のＹＯＬＯモデルを採用する方法では、多層の畳み込みを通過した後に小さい画像の特徴を失いやすく、交通標識の認識の成功率に影響を与える。

本開示の実施例は、小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムを提案する。

第１態様において、本開示の実施例は、小目標を含むオリジナル画像を取得することと、オリジナル画像を低解像度画像に縮小することと、軽量級の分割ネットワークを用いて、低解像度画像から小目標を含む候補領域を識別することと、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定することと、を含む小目標を検出するための方法に関する。

いくつかの実施例において、検出モデルは、次のような方法でトレーニングされ、即ち、初期検出モデルのネットワーク構造を確定し、且つ初期検出モデルのネットワークパラメータを初期化し、トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも１つの方法で強化し、強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ初期検出モデルの入力および所望の出力とし、初期検出モデルを機械学習方法でトレーニングし、トレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定する。

いくつかの実施例において、トレーニングサンプルを以下のように編集し、即ち、サンプル画像から小目標を抽出し、小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る。

いくつかの実施例において、当該方法は、分割ネットワークのトレーニングサンプルを作成する際には、タスクを検出するための矩形枠内の画素点を正のサンプルに設定し、矩形枠外の画素点を負のサンプルに設定することと、長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠を外側に広げることと、外側に広げられた矩形枠内の画素をいずれも正のサンプルに設定することと、をさらに含む。

いくつかの実施例において、検出モデルは、ディープニューラルネットワークである。

いくつかの実施例において、各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する。

第２態様において、本開示の実施例は、小目標を含むオリジナル画像を取得するように配置された取得ユニットと、オリジナル画像を低解像度画像に縮小するように配置された縮小ユニットと、軽量級の分割ネットワークを用いて、低解像度画像から小目標を含む候補領域を識別するように配置された第１の検出ユニットと、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定するように配置された第２の検出ユニットと、を含む小目標を検出するための装置に関する。

いくつかの実施例において、本開示の実施例に係る装置は、以下のように配置されたトレーニングユニットをさらに含み、即ち、初期検出モデルのネットワーク構造を確定し、且つ初期検出モデルのネットワークパラメータを初期化し、トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも１つの方法で強化し、強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ初期検出モデルの入力および所望の出力とし、初期検出モデルを機械学習方法でトレーニングし、トレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定する。

いくつかの実施例において、トレーニングユニットは、さらに、サンプル画像から小目標を抽出し、小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る、ように配置される。

いくつかの実施例において、第１の検出ユニットは、さらに、分割ネットワークのトレーニングサンプルを作成する際には、タスクを検出するための矩形枠内の画素点を正のサンプルに設定し、矩形枠外の画素点を負のサンプルに設定し、長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠を外側に広げ、外側に広げられた矩形枠内の画素をいずれも正のサンプルに設定する、ように配置される。

第３態様において、本開示の実施例は、１つ以上のプロセッサと、１つ以上のプログラムが記憶された記憶装置と、を含み、１つ以上のプログラムが１つ以上のプロセッサによって実行されるとき、第１態様のいずれかに記載の方法を１つ以上のプロセッサに実現させる小目標を検出するための電子機器に関する。

第４態様において、本開示の実施例は、コンピュータプログラムが記憶されたコンピュータ可読媒体であって、コンピュータプログラムがプロセッサによって実行されるとき、第１態様のいずれかに記載の方法を実現するコンピュータ可読記憶媒体に関する。

第５態様において、本開示の実施例は、コンピュータプログラムであって、コンピュータプログラムがプロセッサによって実行されると、第１態様のいずれかに記載の方法を実現するコンピュータプログラムに関する。

本開示の実施例による小目標を検出するための方法及び装置は、主にトレーニング方法、モデル構造、２段階の検出の３つの方面から解決され、ここで、トレーニング方法とモデル構造は、主にモデルの小目標に対する検出能力を向上させるために用いられ、２段階の検出は、画像に関係ない領域での計算量を減少させるために用いられ、この結果、演算速度を向上させる。

本発明は、ＡＲナビゲーションプロジェクトにリアルタイムの交通標識検出アルゴリズムを提供することができ、小目標の検出においてより良いパフォーマンスを示し、ユーザのナビゲーション体験を向上させることができる。

本開示のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。
本開示の一実施例が適用可能な例示的なシステムアーキテクチャ図である。本開示による小目標を検出するための方法の一実施例のフローチャートである。本開示による小目標を検出するための方法の一応用シーンを示す概略図である。本開示による小目標を検出するための方法の別の実施例のフローチャートである。本開示による小目標を検出するための方法の検出モデルのネットワーク構成図である。本開示による小目標を検出するための装置の一実施例の概略構成図である。本開示の実施例を実現するために適用される電子機器のコンピュータシステムの概略構成図である。

以下、図面及び実施例を参照して本開示についてより詳細に説明する。ここで説明された具体的な実施例は、関連する発明を説明するためだけのものであり、この発明を制限するものではないことを理解できる。なお、説明を容易にするために、図面には関連する発明に関連する部分のみを示している。

なお、矛盾しない場合には、本開示の実施例及び実施例における特徴が互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本開示を詳細に説明する。

図１には、本発明が適用され得る、小目標を検出するための方法又は小目標を検出するための装置の実施例の例示的なシステムアーキテクチャ１００が示されている。

図１に示すように、システムアーキテクチャ１００は、車両１０１と交通標識１０２とを含むことができる。

車両１０１は、普通の自動車であってもよいし、無人運転車であってもよい。車両１０１に、コントローラ１０１１、ネットワーク１０１２およびセンサ１０１３が取り付けられてもよい。ネットワーク１０１２は、コントローラ１０１１とセンサ１０１３との間に通信リンクの媒体を提供するために使用される。ネットワーク１０１２は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

コントローラ（車載脳とも呼ばれる）１０１１は、車両１０１の知能制御を担当する。コントローラ１０１１は、例えばプログラマブルロジックコントローラ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＣｏｎｔｒｏｌｌｅｒ、ＰＬＣ）、ワンチップマイクロコンピュータ、産業用制御機などのような個別に配置されたコントローラであってもよいし、入出力ポートを有し、演算制御機能を有する他の電子デバイスで構成された装置であってもよいし、車両運転制御類のアプリケーションがインストールされたコンピュータデバイスであってもよい。コントローラには、トレーニングされた分割ネットワークと検出モデルが設置されている。

センサ１０１３は、例えば、カメラ、重力センサ、ホイール速度センサ、温度センサ、湿度センサ、レーザレーダ、ミリ波レーダーなどの様々なセンサであってもよい。場合によっては、車両１０１にはＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ、グローバル衛星ナビゲーションシステム）機器やＳＩＮＳ（Ｓｔｒａｐ-ｄｏｗｎＩｎｅｒｔｉａｌＮａｖｉｇａｔｉｏｎＳｙｓｔｅｍ、ストラップダウン方式の慣性ナビゲーションシステム）などが搭載されてもよい。

車両１０１は、走行中に交通標識１０２を撮影する。遠距離で撮影された画像でも、近距離で撮影された画像でも、画像における交通標識は、いずれも小目標である。

車両１０１は、撮影した交通標識を含むオリジナル画像をコントローラに識別させることにより、交通標識の位置を確定する。ＯＣＲ識別を行うことにより、交通標識の内容を識別することもできる。そして、交通標識の内容を音声や文字の形で出力する。

なお、本発明の実施例による小目標を検出するための方法は、一般的にコントローラ１０１１によって実行され、これに対応して、小目標を検出するための装置は、一般的にコントローラ１０１１に配置される。

図１のコントローラ、ネットワーク、およびセンサの数は単なる例示であることを理解すべきである。必要に応じて、任意の数のコントローラ、ネットワーク、およびセンサを備えることができる。

続けて図２を参照すると、本開示による小目標を検出するための方法の一実施例のフロー２００が示されている。当該小目標を検出するための方法は、以下のステップを含む。

ステップ２０１において、小目標を含むオリジナル画像を取得する。

本実施例において、小目標を検出するための方法の実行主体（例えば図１に示されたコントローラ）は、車載カメラを介して前方画像を収集することができ、収集されたオリジナル画像には小目標が含まれる。小目標とは、縦横の画素数が所定値(例えば２０)未満の目標物体の画像を指す。

ステップ２０２において、オリジナル画像を低解像度画像に縮小する。

本実施例において、オリジナル画像の縦横方向をそれぞれ４(または他の倍数)で除算することにより、低解像度画像を得ることができる。縮小中においてアスペクト比を変更しない。

ステップ２０３において、軽量級の分割ネットワークを用いて、低解像度画像から小目標を含む候補領域を識別する。

本実施例において、第１の段階の検出の際に、目標が存在する可能性のある大体の位置を特定するだけでよく、正確な外枠を必要としないため、軽量級の分割ネットワークを用いて実現し、その最終的な出力ヒートマップにおける一定の閾値より大きい点をターゲットの存在が疑わしい点とみなす。Ｕ-Ｎｅｔのような分割ネットワークを採用することができ、バックボーンネットワークは軽量化のためにｓｈｕｆｆｌｅｎｅｔを採用する。

分割ネットワークのトレーニングサンプルを作成する際には、タスクを検出するための矩形枠内の画素点を正のサンプルに設定し、矩形枠外の画素点を負のサンプルに設定する。縦横方向のスケーリングがあるので、小目標に関するリコール率を保証するために、トレーニングサンプルを作成する際に、長さおよび幅方向の画素数が所定値、例えば２０画素より小さい目標の矩形枠を外側に１倍に広げ、この後、外側に広げられた矩形枠内の画素をいずれも正のサンプルに設定する。

ステップ２０４において、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定する。

本実施例において、分割ネットワークから出力された結果におけるノイズポイントをフィルタリングした後、残りのすべての疑似的な目標点を囲む最小の外接矩形を形成し、当該矩形のスケールされない高解像度画像における対応する領域を関心領域とする。この後、検出モデルを当該関心領域上で実行すると、高解像度画像の一部の領域のみを処理する必要があり、この結果、計算量を低減することができる。

前述のように、小目標をより良く検出するために、より高い解像度を維持する必要があり、画像が大きいと計算量が倍になり、車載マシンの環境ではリアルタイム処理を実現することが困難である。一方、交通標識が画像上で占める割合は小さく、ほとんどは背景領域であり、背景領域での計算量は全体の計算量のかなりの割合を占め、高解像度で背景領域を処理するのは時間がかかり、無意味である。したがって、本発明は、２段階の検出方式を採用し、まず軽量級の分割ネットワークを介して低解像度の画像上で疑わしい目標の大体の位置を特定し、この後、すべての疑わしい目標を含む最小の外接矩形を求め、最後に、当該最小の外接矩形に対応する高解像度画像ブロック上で検出モデルを実行することにより、小目標に対する検出率を保証する場合、計算量を減らす。

上記の２つの段階の処理を経て、検出モデルの平均計算量は元の計算量の２５％ぐらいに減少し、２つのモデルを合わせた平均計算量は、約元の計算量の４５％ぐらいになる。

続けて図４を参照すると、図４は、本実施例による小目標を検出するための方法の応用シーンを示す概略図である。図４の応用シーンにおいて、車両は走行中に前方画像をリアルタイムで収集する。取得されたオリジナル画像の縦横をそれぞれ４で除算した後、低解像度画像に縮小する。低解像度画像を軽量級の分割ネットワークに入力して、交通標識を含む候補領域を識別する。この後、オリジナル画像から候補領域に対応するオリジナル画像の領域を関心領域として見出す。関心領域の画像を抽出し、予めトレーニングされた検出モデルを入力して、点線の枠に示されるように、オリジナル画像における交通標識の具体的な位置を確定する。

本開示の上記実施例による方法は、二次検出によって、計算量を低減し、識別速度と正確率を向上させる。

さらに図４を参照して、小目標を検出するための方法の別の実施例のフロー４００が示されている。当該小目標を検出するための方法のフロー４００は、以下のステップを含む。

ステップ４０１において、初期検出モデルのネットワーク構造を確定し、且つ初期検出モデルのネットワークパラメータを初期化する。

本実施例において、小目標を検出するための方法が実行される電子装置（例えば、図１に示されたコントローラ）は、検出モデルをトレーニングすることができる。サードパーティのサーバで検出モデルをトレーニングした後、車両のコントローラにインストールすることもできる。検出モデルは、ニューラルネットワークモデルであり、目標の検出のための既存のいずれかのニューラルネットワークであってもよい。

本実施例のいくつかの選択可能な実施形態において、検出モデルは、例えばＹＯＬＯ系ネットワークなどのディープニューラルネットワークである。ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）は、ディープニューラルネットワークに基づくオブジェクト識別および位置特定アルゴリズムであり、その最大の特徴は、動作速度が速く、リアルタイムシステムに利用できることである。現在、ＹＯＬＯはＶ３バージョン（ＹＯＬＯ３）に発展したが、新バージョンも元のバージョンに基づいてどんどん進化したものである。ＹＯＬＯ３のオリジナルの構造設計では、アップサンプリングにより低解像度特徴マップと高解像度特徴マップを融合する。しかしながら、このような融合は、高解像度特徴マップのみで発生し、異なるスケールの特徴を十分に融合することができなかった。

異なる階層の特徴をより良く融合するために、本発明は、まず、バックボーンネットワークにおけるサブサンプリングの８倍、１６倍、および３２倍の特徴を基本的な特徴として選択し、この後、異なるサイズの目標を予測するために、予測特徴マップのサイズをそれぞれ画像のサブサンプリングの８倍、１６倍、および３２倍のサイズに設定し、各予測特徴マップの特徴は、いずれも３つの基本的な特徴層からのものであり、サブサンプリングまたはアップサンプリングにより同一のサイズに統一してから融合する。画像のサブサンプリングの１６倍の予測層を例にとると、その特徴は、それぞれ３つの基本的な特徴層からのものであり、同一のサイズに統一するために、サブサンプリングの８倍の基本的な特徴層に対して１倍のサブサンプリングを行い、サブサンプリングの３２倍の基本的な特徴層に対して１倍のアップサンプリングを行い、この後、２つの特徴層とサブサンプリングの１６倍の基本的な特徴層とを融合する。

単純に異なるスケールの特徴を融合すると、３つの予測層において特徴の比率は同じであり、それぞれの異なる予測目標に従って偏重して使用することができない。したがった、各予測層の特徴融合の後にアテンションモジュールをさらに導入し、異なるチャネルの特徴に対し適切な重み付けを学習し、これにより、各予測層は、自分が必要とする予測目標の特性に応じて、融合された後の特徴を偏重して使用することができる。ネットワーク構造を図５に示す。アテンションモジュールのパラメータの学習方式は先行技術であるため、ここでは説明を省略する。

本開示では、ＹＯＬＯ３を検出ネットワークとして採用することができ、このようなアンカ（ａｎｃｈｏｒ）に基づく検出方法においてａｎｃｈｏｒの設計と割り当ては非常に重要であり、小目標に合致できるａｎｃｈｏｒの数が少ないため、モデルによる小目標の学習が不十分になり、小目標をうまく検出できなくなる。このために、動的なａｎｃｈｏｒマッチングメカニズムを採用し、ｇｒｏｕｎｄｔｒｕｔｈ（基本真理値）の大きさに応じてａｎｃｈｏｒとｇｒｏｕｎｄｔｒｕｔｈがマッチングしたときのＩＯＵ（信頼度スコア）閾値を適応的に選択し、目標が小さい場合、ＩＯＵの閾値を下げて、より多くの小目標がトレーニングに参加できるようにして、小目標の検出におけるモデルの性能を向上させる。トレーニングサンプルを作成する際には、目標の大きさをすでに知り、目標の大きさに応じて適切なＩＯＵの閾値を選択する。

ステップ４０２において、トレーニングサンプルセットを取得する。

本実施例において、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含む。

ステップ４０３において、トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも１つの方法で強化する。

本実施例において、これは主に、トレーニングデータ内の小目標の数が不十分な場合の策略である。データセットにおける小目標を含む画像を複数コピーすることにより、データにおける小目標の数を直接に増やす一方、画像における小目標を抽出してスケールや回転を行った後、画像における他の位置にランダムに貼り付けることで、小目標の数を増やすだけでなく、より多くの変化を導入し、トレーニングデータの分布を豊かにすることができる。

選択肢として、トレーニング画像を異なるスケールにスケールした後にトレーニングすることにより、元のデータセットにおける目標スケール変化を豊かにすることができ、モデルを異なるスケールの目標の検出タスクに適合させることができる。

ステップ４０４において、強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ初期検出モデルの入力および所望の出力とし、初期検出モデルを機械学習方法でトレーニングする。

本実施例において、実行主体は、トレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像を初期検出モデルに入力することにより、当該サンプル画像における小目標の位置情報を得ることができ、当該トレーニングサンプルにおけるアノテーション情報を初期検出モデルの所望の出力とし、初期検出モデルを機械学習方法でトレーニングする。具体的には、まず、プリセットされた損失関数を用いて、得られた位置情報と当該トレーニングサンプルにおけるアノテーション情報との差異を計算することができ、例えば、Ｌ２ノルムを損失関数として用いて、得られた位置情報と当該トレーニングサンプルにおけるアノテーション情報との差異を計算することができる。この後、計算によって得られた差異に基づいて、初期検出モデルのネットワークパラメータを調整することができ、プリセットされたトレーニング終了条件を満たした場合、訓練を終了する。例えば、ここでプリセットされたトレーニング終了条件は、トレーニング時間がプリセット時間を超えること、トレーニング回数がプリセット回数を超えること、計算によって得られた差異がプリセット差異閾値より小さいことの少なくとも１つを含むことができるがこれに限定されない。

ここで、様々な実施形態で、生成された位置情報と当該トレーニングサンプルにおけるアノテーション情報との差異に基づいて、初期検出モデルのネットワークパラメータを調整することができる。例えば、ＢＰ（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ、逆伝播）アルゴリズムまたはＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ、ランダム勾配降下）アルゴリズムを用いて、初期検出モデルのネットワークパラメータを調整することができる。

ステップ４０５において、トレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定する。

本実施例において、トレーニングステップの実行主体は、ステップ４０４でトレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定することができる。

さらに図６を参照して、上記の各図に示された方法の実現として、本発明は小目標を検出するための装置の一実施例を提供し、当該装置の実施例は、図２に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。

図６に示すように、本実施例に係る小目標を検出するための装置６００は、取得ユニット６０１と、縮小ユニット６０２と、第１の検出ユニット６０３と、第２の検出ユニット６０４とを含む。ここで、取得ユニット６０１は、小目標を含むオリジナル画像を取得するように配置され、縮小ユニット６０２は、オリジナル画像を低解像度画像に縮小するように配置され、第１の検出ユニット６０３は、軽量級の分割ネットワークを用いて、低解像度画像から小目標を含む候補領域を識別するように配置され、第２の検出ユニット６０４は、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定するように配置される。

本実施例において、小目標を検出するための装置６００の取得ユニット６０１、縮小ユニット６０２、第１の検出ユニット６０３、及び第２の検出ユニット６０４の具体的な処理について、図２の対応する実施例におけるステップ２０１、ステップ２０２、ステップ２０３、およびステップ２０４を参照することができる。

本実施例のいくつかの選択可能な実施形態において、装置６００は、以下のように配置されたトレーニングユニット（図示せず）をさらに含み、即ち、初期検出モデルのネットワーク構造を確定し、且つ初期検出モデルのネットワークパラメータを初期化し、トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも１つの方法で強化し、強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ初期検出モデルの入力および所望の出力とし、初期検出モデルを機械学習方法でトレーニングし、トレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定する。

本実施例のいくつかの選択可能な実施形態において、トレーニングユニットは、さらに、サンプル画像から小目標を抽出し、小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る、ように配置される。

本実施例のいくつかの選択可能な実施形態において、第１の検出ユニットは、さらに、分割ネットワークのトレーニングサンプルを作成する際には、タスクを検出するための矩形枠内の画素点を正のサンプルに設定し、矩形枠外の画素点を負のサンプルに設定し、長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠を外側に広げ、外側に広げられた矩形枠内の画素をいずれも正のサンプルに設定する、ように配置される。

本実施例のいくつかの選択可能な実施形態において、検出モデルは、ディープニューラルネットワークである。

本実施例のいくつかの選択可能な実施形態において、各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する。

以下、図７を参照して、本開示の実施例を実現するために適用される電子機器（例えば図１に示されたコントローラ）７００の概略構成図が示されている。図７に示されたコントローラは、単なる例にすぎ、本開示の実施例の機能および使用範囲を制限するものではない。

図７に示すように、電子機器７００は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されているプログラムまたは記憶部７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムに従って各種の適切な動作と処理を行うことができる処理装置（例えば中央処理装置、グラフィックスプロセッサなど）７０１を含むことができる。ＲＡＭ７０３には、電子機器７００の操作に必要な様々なプログラムとデータが記憶されている。処理装置７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４によって相互に接続されている。入力/出力(Ｉ/Ｏ)インターフェース７０５もバス７０４に接続されている。

通常、Ｉ/Ｏインターフェース７０５には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含む入力装置７０６と、例えば液晶ディスプレイ（ＬＣＤ）、スピーカー、振動器などを含む出力装置７０７と、例えば磁気テープ、ハードディスクなどを含む記憶装置７０８と、通信装置７０９とが接続されている。通信装置７０９は、データを交換するために電子機器７００が他の機器と無線通信または有線通信することを許可できる。図７は、様々な装置を有する電子機器７００を示しているが、図示されたすべての装置を実施または備えることが要求されないことを理解されたい。代わりに、より多くまたはより少ない装置を実施または備えることができる。図７に示した各ブロックは、１つの装置を表してもよく、必要に応じて複数の装置を表してもよい。

特に、本開示の実施例によると、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアのプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置７０９を介してネットワークからダウンロードされてインストールされ、または記憶装置７０８からインストールされ、またはＲＯＭ７０２からインストールされることができる。このコンピュータプログラムが処理装置７０１によって実行されるときに、本開示の実施例の方法で限定された上記の機能を実行する。なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、あるいはコンピュータ可読記憶媒体、または上記の両方の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、あるいは半導体のシステム、装置またはデバイス、あるいは上記の任意の組合せであってもよいが、これらに限らない。コンピュータ可読記憶媒体のより具体的な例には、１本以上のワイヤによる電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、または上記の任意の組み合わせが含まれるが、これらに限らない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含むかまたは記憶する任意の有形の媒体であることができ、このプログラムは、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されることができる。本開示の実施例では、コンピュータが読み取り可能な信号媒体は、コンピュータが読み取り可能なプログラムコードを担持した、ベースバンド内でまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されたデータ信号は、多種の形式を採用でき、電磁気信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータが読み取り可能な信号媒体は、コンピュータ可読記憶媒体以外のいかなるコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されることができ、ワイヤ、光ファイバケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むが、これらに限らない。

上記コンピュータ可読媒体は、上記電子機器に含まれてもよく、個別に存在しこの電子機器に組み込まれなくてもよい。上記のコンピュータ可読媒体は、１つ以上のプログラムを担持し、上記の１つ以上のプログラムが当該電子機器によって実行されたとき、当該電子機器は、小目標を含むオリジナル画像を取得し、オリジナル画像を低解像度画像に縮小し、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定する。

本開示の実施例の操作を実行するためのコンピュータプログラムコードを、１以上のプログラミング言語またはそれらの組み合わせで書くことができ、前記プログラミング言語には、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語を含み、さらに「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語も含まれる。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上、１つの単独のソフトウェアパッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモートコンピュータ上で、あるいは完全に遠隔コンピュータまたはサーバー上で実行されることができる。遠隔コンピュータに関する場合には、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または、外部のコンピュータに接続されることができる（例えばインターネットサービスプロバイダを利用してインターネットを介して接続する）。

図の中のフローチャートおよびブロック図には、本開示の様々な実施例によるシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作が示されている。この点で、フローチャート又はブロック図の各ブロックは、１つのモジュール、プログラミングのセグメント、またはコードの一部を代表でき、当該モジュール、プログラミングのセグメント、またはコードの一部は、所定のロジック機能を実現するための１つ以上の実行可能指令を含む。また、いくつかの代替の実施例では、ブロックに示されている機能は、図面に示された順序と異なる順序で発生してもよいことに留意されたい。例えば、連続して示す２つのブロックは実際に並行して実行されてもよく、それらは係る機能に応じて時に逆の順序で実行されてもよい。ブロック図および／またはフローチャートの各ブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、特定の機能または操作を実行する専用のハードウェアによるシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよいことにも留意されたい。

本開示の実施例に係るユニットは、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明されたユニットは、プロセッサに設置されてもよく、例えば、「取得ユニットと、縮小ユニットと、第１の検出ユニットと、第２の検出ユニットとを含むプロセッサである」と記載してもよい。ここで、これらのユニットの名は、ある場合にはそのユニット自体を限定しなくて、例えば、取得ユニットを「ユーザのウェブページ閲覧要求を受信するユニット」と記載してもよい。

上記の説明は、本開示の好ましい実施例および応用された技術の原理の説明にすぎない。本開示の実施例に係る発明の範囲が、上記の技術的特徴を組み合わせて得られた技術案に限定されず、同時に上記の発明の概念から逸脱しない場合に、上記の技術的特徴またはこれと同等の技術的特徴を任意に組み合わせて得られた他の技術案を含むべきであることを当業者は理解すべきである。例えば、上記の特徴が本開示において開示されているもの（しかしこれに限らず）と類似した機能を有する技術的特徴と相互に入れ替わって形成された技術案が挙げられる。

Claims

小目標を含むオリジナル画像を取得することと、
前記オリジナル画像を低解像度画像に縮小することと、
軽量級の分割ネットワークを用いて、前記低解像度画像から前記小目標を含む候補領域を識別することと、
前記候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを前記関心領域上で実行することにより、前記オリジナル画像における前記小目標の位置を確定することと、
を含み、
前記分割ネットワークのトレーニングサンプルを作成する際に、タスクを検出するための矩形枠内の画素点を正のサンプルとし、矩形枠外の画素点を負のサンプルとすることと、
長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠の長さおよび幅を外側へ所定のサイズ広げ、外側へ広げられた矩形枠内の画素をいずれも正のサンプルとすることと、
をさらに含む小目標を検出するための方法。
前記検出モデルは、次のような方法でトレーニングされ、即ち、
初期検出モデルのネットワーク構造を確定し、且つ前記初期検出モデルのネットワークパラメータを初期化し、
トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、
前記トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも１つの方法で強化し、
強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ前記初期検出モデルの入力および所望の出力とし、前記初期検出モデルを機械学習方法でトレーニングし、
トレーニングによって得られた前記初期検出モデルを、前記予めトレーニングされた検出モデルとして確定する、
請求項１に記載の方法。
トレーニングサンプルを以下のように編集し、即ち、
サンプル画像から小目標を抽出し、
小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る、
請求項２に記載の方法。
前記検出モデルは、ディープニューラルネットワークである請求項１から３のいずれか１項に記載の方法。
各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する請求項４に記載の方法。
小目標を含むオリジナル画像を取得するように配置された取得ユニットと、
前記オリジナル画像を低解像度画像に縮小するように配置された縮小ユニットと、
軽量級の分割ネットワークを用いて、前記低解像度画像から前記小目標を含む候補領域を識別するように配置された第１の検出ユニットと、
前記候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを前記関心領域上で実行することにより、前記オリジナル画像における前記小目標の位置を確定するように配置された第２の検出ユニットと、
を含み、
前記第１の検出ユニットは、さらに
前記分割ネットワークのトレーニングサンプルを作成する際に、タスクを検出するための矩形枠内の画素点を正のサンプルとし、矩形枠外の画素点を負のサンプルとし、
長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠の長さおよび幅を外側へ所定のサイズ広げ、外側へ広げられた矩形枠内の画素をいずれも正のサンプルとするように構成される小目標を検出するための装置。
以下のように配置されたトレーニングユニットをさらに含み、即ち、
初期検出モデルのネットワーク構造を確定し、且つ前記初期検出モデルのネットワークパラメータを初期化し、
トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、
前記トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも１つの方法で強化し、
強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ前記初期検出モデルの入力および所望の出力とし、前記初期検出モデルを機械学習方法でトレーニングし、
トレーニングによって得られた前記初期検出モデルを、前記予めトレーニングされた検出モデルとして確定する、
請求項６に記載の装置。
前記トレーニングユニットは、さらに、
サンプル画像から小目標を抽出し、
小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る、
ように配置される、
請求項７に記載の装置。
前記検出モデルは、ディープニューラルネットワークである請求項６から８のいずれか１項に記載の装置。
各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する請求項９に記載の装置。
１つ以上のプロセッサと、
１つ以上のプログラムが記憶された記憶装置と、
を含み、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるとき、請求項１から５のいずれか１項に記載の方法を前記１つ以上のプロセッサに実現させる、
小目標を検出するための電子機器。
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるとき、請求項１から５のいずれか１項に記載の方法を実現する、
コンピュータ可読媒体。
コンピュータプログラムであって、
プロセッサによって実行されると、請求項１から５のいずれか１項に記載の方法を実現する、コンピュータプログラム。