JP2022522375A

JP2022522375A - 画像収集制御方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022522375A
Application number: JP2021552212A
Authority: JP
Inventors: 佳彬馬; 哲▲チィー▼ 何; 坤王; 星宇曽
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2019-06-28
Filing date: 2020-06-19
Publication date: 2022-04-18
Also published as: CN112149707A; KR20210119532A; WO2020259416A1; CN112149707B; US20220114396A1

Abstract

本発明の実施形態は、画像収集制御方法および装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラムを提供する。当該画像収集制御方法は、第１画像サンプルセットを第１ニューラルネットワークに提供するステップと、前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、前記第１画像サンプルセット中から第１困難サンプルを選別するステップと、前記第１困難サンプルに基づいて確定前記困難サンプルの収集環境情報；前記収集環境情報に基づいて、第２困難サンプルを含む第２画像サンプルセットの収集を指示するための画像収集制御情報を生成するステップと、を含む。【選択図】図１

Description

本発明は、コンピュータビジョン技術に関し、特に、画像収集制御方法、画像収集制御装置、電子デバイス、コンピュータ可読記憶媒体、及びコンピュータプログラムに関する。

困難サンプルとは、一般的に、ニューラルネットワークをトレーニングする過程で、ニューラルネットワークにエラーを発生させやすい画像サンプルを指す。困難サンプルを収集し、困難サンプルを利用してニューラルネットワークに対してトレーニングを実行すると、ニューラルネットワークの性能の向上に有利である。

本発明の実施形態の１態様によると、画像収集制御方法を提供し、当該方法は、第１画像サンプルセットを第１ニューラルネットワークに提供するステップと、前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、前記第１画像サンプルセット中から第１困難サンプルを選別するステップと、前記第１困難サンプルに基づいて前記第１困難サンプルの収集環境情報を確定するステップと、前記収集環境情報に基づいて、第２困難サンプルを含む第２画像サンプルセットの収集を指示するための画像収集制御情報を生成するステップと、を含む。

本発明の１実施形態において、前記第１画像サンプルセットは、ラベル情報を有さない第１画像サンプルを含む。

本発明のもう１実施形態において、前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、前記第１画像サンプルセット中から第１困難サンプルを選別するステップは、前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出するステップと、検出された不正確な処理結果に対応する第１画像サンプルに基づいて前記第１困難サンプルを確定するステップと、を含む。

本発明の別の１実施形態において、前記第１画像サンプルセットは、時系列で連続する複数のビデオフレームサンプルを含み、前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出するステップは、前記第１ニューラルネットワークが前記複数のビデオフレームサンプルに基づいてそれぞれ出力した複数の目標対象検出結果に対して、目標対象連続性検出を実行するステップと、前記複数の目標対象検出結果中の所定の連続性用件を満たさない１つまたは複数の目標対象検出結果を前記不正確な処理結果とするステップと、を含む。

本発明の別の１実施形態において、前記方法は、前記第１画像サンプルセットを第２ニューラルネットワークに提供するステップをさらに含み、前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出するステップは、前記第２ニューラルネットワークの前記第１画像サンプルに対する第２処理結果と前記第１ニューラルネットワークの前記第１画像サンプルに対する処理第１結果との間の差異を確定するステップと、前記差異が所定の差異用件を満たさない場合、前記第１処理結果を前記不正確な処理結果とするステップと、を含む。

本発明の別の１実施形態において、前記検出された不正確な処理結果に対応する第１画像サンプルに基づいて前記第１困難サンプルを確定するステップは、前記不正確な処理結果に対応するエラータイプを取得するステップと、ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第１画像サンプルを、前記第１困難サンプルとするステップと、を含む。

本発明の別の１実施形態において、前記第１ニューラルネットワークは、前記第１画像サンプル中の目標対象の検出に用いられ、前記画像収集制御方法は、前記不正確な処理結果に対応するエラータイプが、前記第１ニューラルネットワークが前記第１画像サンプルを検出して得た目標対象検出枠が不正確であることを表す場合、前記第１ニューラルネットワークに含まれた前記目標対象検出枠を検出するためのモジュールを調整するステップをさらに含む。

本発明の別の１実施形態において、前記方法は、前記不正確な処理結果に対応するエラータイプが撮影装置要因に関連している場合、前記撮影装置を変更するプロンプト情報を送信するステップをさらに含む。

本発明の別の１実施形態において、前記収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも１つを含む。

本発明の別の１実施形態において、前記収集環境情報は、道路区間情報を含み、前記収集環境情報に基づいて画像収集制御情報を生成するステップは、前記道路区間情報に基づいて前記第１困難サンプルとマッチングされる収集道路区間を確定するステップと、確定された前記収集道路区間を利用して、データ収集経路を生成し、撮影装置が前記データ収集経路に従って前記第２画像サンプルセットを収集するように指示するように、前記データ収集経路を画像収集制御情報中に含ませるステップを含む。

本発明の別の１実施形態において、前記方法は、前記第１困難サンプルをトレーニングサンプルセットに追加するステップと、前記トレーニングサンプルセットを利用して、前記第１ニューラルネットワークに対してトレーニングを実行して、調整後の第１ニューラルネットワークを得るステップと、をさらに含む。

本発明の別の１実施形態において、前記第１困難サンプルをトレーニングサンプルセットに追加するステップは、ラベル情報を有する第１困難サンプルを前記トレーニングサンプルセットに追加するステップを含み、前記トレーニングサンプルセットを利用して前記第１ニューラルネットワークに対してトレーニングを実行して、調整後の第１ニューラルネットワークを得るステップは、前記トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを前記第１ニューラルネットワークに提供するステップと、前記第１ニューラルネットワークのラベル情報を有する各々の第１困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、前記第１ニューラルネットワークのパラメータを調整し、調整後の第１ニューラルネットワークを得るステップと、を含む。

本発明の別の１実施形態において、前記方法は、前記第２画像サンプルセットを取得するステップと、前記第２画像サンプルセットを前記調整後の第１ニューラルネットワークに提供するステップと、前記調整後の第１ニューラルネットワークの前記第２画像サンプルセット中の各々の第２画像サンプルに対する処理結果に基づいて、前記第２画像サンプルセット中から前記第２困難サンプルを選別するステップと、をさらに含む。

本発明の実施形態の別の１態様によると、画像収集制御装置を提供し、当該装置は、第１画像サンプルセットを第１ニューラルネットワークに提供するための提供モジュールと、前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、前記第１画像サンプルセット中から第１困難サンプルを選別するための選別モジュールと、前記第１困難サンプルに基づいて前記第１困難サンプルの収集環境情報を確定するための環境確定モジュールと、前記収集環境情報に基づいて、第２困難サンプルを含む第２画像サンプルセットの収集を指示するための画像収集制御情報を生成するための収集制御モジュールと、を備える。

本発明のもう１実施形態において、前記選別モジュールは、前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出するための第１サブモジュールと、検出された不正確な処理結果に対応する第１画像サンプルに基づいて前記第１困難サンプルを確定するための第２サブモジュールと、を備える。

本発明の別の１実施形態において、前記第１画像サンプルセットは、時系列で連続する複数のビデオフレームサンプルを含み、前記第１サブモジュールは、さらに、前記第１ニューラルネットワークが前記複数のビデオフレームサンプルに基づいてそれぞれ出力した複数の目標対象検出結果に対して、目標対象連続性検出を実行し、前記複数の目標対象検出結果中の所定の連続性用件を満たさない１つまたは複数の目標対象検出結果を、前記不正確な処理結果とする。

本発明の別の１実施形態において、前記提供モジュールは、さらに、前記第１画像サンプルセットを第２ニューラルネットワークに提供し、前記第１サブモジュールは、さらに、前記第１画像サンプルセット中の各々の第１画像サンプルに対して、前記第２ニューラルネットワークの前記第１画像サンプルに対する第２処理結果と前記第１ニューラルネットワークの前記第１画像サンプルに対する第１処理結果との間の差異を確定し、前記差異が所定の差異用件を満たさない場合、前記第１処理結果を前記不正確な処理結果とする。

本発明の別の１実施形態において、前記第２サブモジュールは、さらに、前記不正確な処理結果に対応するエラータイプを取得し、ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第１画像サンプルを、前記第１困難サンプルとする。

本発明の別の１実施形態において、前記第１ニューラルネットワークが前記第１画像サンプル中の目標対象の検出に用いられる場合、前記装置は、前記不正確な処理結果に対応するエラータイプが、前記第１ニューラルネットワークが前記第１画像サンプルを検出して得た目標対象検出枠が不正確であることを表す場合、前記第１ニューラルネットワークに含まれた前記目標対象検出枠を検出するためのモジュールを調整するための最適化モジュールをさらに備える。

本発明の別の１実施形態において、前記第２サブモジュールは、さらに、前記不正確な処理結果に対応するエラータイプが撮影装置要因に関連している場合、前記撮影装置を変更するプロンプト情報を送信する。

本発明の別の１実施形態において、前記収集環境情報は、道路区間情報を含み、前記収集制御モジュールは、さらに、前記道路区間情報に基づいて前記第１困難サンプルとマッチングされる収集道路区間を確定し、確定された前記収集道路区間を利用して、データ収集経路を生成し、撮影装置が前記データ収集経路に従って前記第２画像サンプルセットを収集するように指示するように、前記データ収集経路を画像収集制御情報中に含ませる。

本発明の別の１実施形態において、前記装置は、トレーニングモジュールをさらに備え、当該トレーニングモジュールは、前記第１困難サンプルをトレーニングサンプルセットに追加し、前記トレーニングサンプルセットを利用して、前記第１ニューラルネットワークに対してトレーニングを実行して、調整後の第１ニューラルネットワークを得る。

本発明の別の１実施形態において、前記トレーニングモジュールは、さらに、ラベル情報を有する第１困難サンプルを前記トレーニングサンプルセットに追加し、前記トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを前記第１ニューラルネットワークに提供し、前記第１ニューラルネットワークのラベル情報を有する各々の第１困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、前記第１ニューラルネットワークのパラメータを調整し、調整後の第１ニューラルネットワークを得る。

本発明の別の１実施形態において、前記提供モジュールは、さらに、前記第２画像サンプルセットを取得し、前記第２画像サンプルセットを前記調整後の第１ニューラルネットワークに提供し、前記選別モジュールは、さらに、前記調整後の第１ニューラルネットワークの前記第２画像サンプルセット中の各々の第２画像サンプルに対する処理結果に基づいて、前記第２画像サンプルセット中から前記第２困難サンプルを選別する。

本発明の実施形態の他の１態様によると、電子デバイスを提供し、当該電子デバイスは、コンピュータプログラムを記憶するためのメモリと、前記メモリに記憶されているコンピュータプログラムを実行することによって、本発明の任意の方法の実施形態を実現するためのプロセッサと、を備える。

本発明の実施形態の別の１態様によると、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、当該コンピュータプログラムがプロセッサによって実行されることによって、本発明の任意の方法の実施形態が実現される。

本発明の実施形態の別の１態様によると、コンピュータ命令を含むコンピュータプログラムを提供し、前記コンピュータ命令がプロセッサによって実行されることによって、本発明の任意の方法の実施形態が実現される。

本発明によって提供される画像収集制御方法および装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラムによると、本発明は、第１画像サンプルセットを第１ニューラルネットワークに提供し、その後、第１ニューラルネットワークの各々の第１画像サンプルに対する処理結果を利用して、第１画像サンプルセット中の第１困難サンプルを選別し、さらに、第１困難サンプルの収集環境情報を確定し、当該収集環境情報を利用して画像収集制御情報を生成することができ、本発明によって生成された画像収集制御情報の指示に従って、第２困難サンプルを含む第２画像サンプルセットを得ることができ、このような方式によって、得られた第１困難サンプルに基づいて、第２困難サンプルを得る方式を迅速かつ便利に確定でき、得られた第２困難サンプルと第１困難サンプルとの間には一定の関連が存在するため、関連される困難サンプルの収集効率を向上させ、いっそう多い困難サンプルを得ることができる。

また、本発明によって得られたいっそう多い困難サンプルは、ニューラルネットワークに対する最適化調整に使用され、ニューラルネットワークの処理性能を向上させることができる。

また、本発明は、第１画像サンプルに対してラベル付けを実行する必要なしに、ニューラルネットワークの第１画像サンプルに対する処理結果に基づいて第１困難サンプルを選別することができ、手作業によるラベル付けのコストの削減に有利であり、困難サンプルを確定する処理効率を改善できる。

以下、図面および実施形態によって、本発明のいくつかの実施例をさらに詳細に説明する。

以下の図面を参照する本発明のいくつかの実施例に対する詳細な叙述は、本発明をいっそう明確に理解するようにする。
本発明の実施例に係る画像収集制御方法のフローチャートである。本発明の実施例に係るエラーを検出する１つのビデオフレームサンプルを例示した。本発明の実施例に係るニューラルネットワークトレーニング方法のフローチャートである。本発明の実施例に係る画像収集制御装置のブロック図である。本発明の実施例に係る電子デバイスのブロック図である。

現在、図面を参照して本発明の各種の例示的な実施例を詳細に説明する。注意すべきことは、別途詳細に説明しない限り、これらの実施例に叙述された部品とステップの相対的な配置、数値条件式、及び数値は、本発明の範囲を制限しない。

同時に、理解すべきことは、叙述の便宜上、図面に示される各部分の寸法が実際の縮尺に応じて描かれるとは限らない。

以下では、少なくとも１例示的な実施例の叙述が実に説明的なものに過ぎず、決して本発明及びその応用や使用に対する如何なる制限にもならない。

当業者にとって既知の技術、方法及び機器について詳細に議論しないが、適切な場合には、前記技術、方法及び機器が明細書の一部と見なされるべきである。

注意すべきことは、類似する符号及びアルファベットが後の図面において類似する要素を示すため、ある要素が、１つの図面で定義されると、後の図面においてさらに議論される必要がない。

本発明の実施例は、端末デバイス、コンピュータシステム、サーバなどの電子デバイスに適用されることができ、他の多くの汎用または専用の計算システム環境または構成と一緒に動作することができる。端末デバイス、コンピュータシステム、および、サーバなどの電子デバイスとの一緒に使用に適した周知の端末デバイス、計算システム、環境、および／または、構成の例は、パーソナルコンピュータシステム、サーバーコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップ、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な消費電子製品、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム、および上記のシステムのいずれかを含む分散型クラウドコンピューティングテクノロジ環境などが含まれますが、これらに限定されない。

端末デバイス、コンピュータシステム、および、サーバなどの電子デバイスは、コンピュータシステムによって実行されるコンピュータシステムの実行可能な命令（プログラムモジュールなど）の一般的なコンテキストで説明できる。一般に、プログラムモジュールは、特定のタスクを実行し、特定の抽象データタイプを実装するルーチン、プログラム、対象プログラム、コンポーネント、ロジック、データ構造などを含む。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境に実現されることができる。分散型クラウドコンピューティング環境で、タスクは、通信ネットワークを介してリンクされたリモート処理装置によって実行される。分散型クラウドコンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカルまたはリモートコンピューティングシステムの記憶媒体に配置できる。

図１は、本発明の実施例に係る画像収集制御方法のフローチャートである。図１に示すように、当該実施例の方法は、ステップＳ１００とＳ１１０とＳ１２０とＳ１３０とを含む。以下、各ステップを詳細に説明する。

Ｓ１００において、第１画像サンプルセットを第１ニューラルネットワークに提供する。

ここで、本発明における第１画像サンプルセットは、撮影装置を利用して撮影した複数枚の写真、または、撮影装置を利用して撮影した時系列で連続する複数のビデオフレームなどを含むが、これらに限定されない。例えば、移動可能な物体上に配置された撮影装置によって撮影された複数枚の写真、または、撮影された複数のビデオフレームなどを含むが、これらに限定されない。上記の移動可能な物体は、車両、ロボット、機械臂、スライドレールなどを含むが、これらに限定されない。選択的に、本発明における撮影装置は、赤外線（Ｉｎｆｒａｒｅｄ、ＩＲ）カメラ、または、赤緑青（ＲｅｄＧｒｅｅｎＢｌｕｅ、ＲＧＢ）カメラなどを含んでもよいが、これらに限定されない。選択的に、複数の第１画像サンプルが複数のビデオフレームである場合、本発明の実施例において、複数の第１画像サンプルを、各ビデオフレーム間の時系列関係に従って、第１ニューラルネットワークに入力することができる。

選択的な１例において、本発明における第１ニューラルネットワークは、目標対象を検出するための第１ニューラルネットワークを含むが、これらに限定されない。当該第１ニューラルネットワークは、入力された第１画像サンプルセット中の第１画像サンプルに対して、目標対象の第１画像サンプルおける位置情報と分類情報を出力できるニューラルネットワークであり得る。選択的に、当該第１ニューラルネットワークは、残留ニューラルネットワーク、および、領域を有するいっそう高速な畳み込みニューラルネットワーク（Ｒｅｓｎｅｔ＋ＦａｓｔｅｒＲＣＮＮ）構成を使用するニューラルネットワークであり得、例えば、Ｒｅｓｎｅｔ５０＋ＦａｓｔｅｒＲＣＮＮ構成を使用するニューラルネットワークであり得る。上記の位置情報は、目標対象の第１画像サンプルおける画像領域を表す。当該位置情報は、目標対象の検出枠の対角線上に位置する２個の頂点の座標を含むが、これらに限定されない。上記の分類情報は、目標対象が属されている種類を表す。当該種類は、歩行者、車両、樹木、建物、交通標識などを含むが、これらに限定されない。

選択的な１例において、本発明における第１画像サンプルセットは、ラベル情報を有さない第１画像サンプルを含んでもよい。第１画像サンプルがラベル情報を有さない場合、本発明の実施例は、ラベル情報を有さない複数の第１画像サンプルの中から第１困難サンプルを選び出すことができる。したがって、第１ニューラルネットワークを利用して第１画像サンプルセット中のラベル情報を有する第１画像サンプルに対してテストを実行し、テスト結果に基づいて第１困難サンプルを確定する実現形態と比較すると、本発明の実施例は、第１画像サンプルセット中の複数の第１画像サンプルに対してそれぞれラベル付けを実行する必要がないため、ラベル付けの作業量の削減に有利であり、さらに、困難サンプルを得るコストの削減に有利であり、また困難サンプルを得る効率の向上に有利である。

Ｓ１１０において、上記の第１ニューラルネットワークの第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、第１画像サンプルセット中から第１困難サンプルを選別する。

選択的な１例において、本発明は、第１ニューラルネットワークの第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出することによって、不正確な処理結果に対応する第１画像サンプルを得ることができ、検出された不正確な出力結果に対応する第１画像サンプルに基づいて、第１困難サンプルを確定することができる。

例えば、本発明は、検出された不正確な処理結果に対応する第１画像サンプルを直接第１困難サンプルとすることができる。本発明によると、検出された不正確な処理結果に対応する第１画像サンプルを直接第１困難サンプルとすることによって、各第１画像サンプルに対してラベル付けを実行する必要なしに、第１画像サンプルの中から第１困難サンプルを選び出すことができ、困難サンプルを得るコストの削減に有利である。

本発明においては、第１困難サンプルと下記に記載の第２困難サンプルとを困難サンプルとして総称することができることを理解すべきである。例示的に、困難サンプルは、画像サンプル収集段階でランダムに収集して得ることが非常に難しい画像サンプルとして理解することができる。第１ニューラルネットワークのトレーニング過程で、このような困難サンプルは、第１ニューラルネットワークの処理結果によりよくエラーが発生されるようにし、第１ニューラルネットワークの処理性能に影響を及ぼすため、第１ニューラルネットワークのトレーニング過程で、一定の量の困難サンプルを含むトレーニングサンプルセットを利用して第１ニューラルネットワークをトレーニングすると、トレーニングされた第１ニューラルネットワークの処理性能を向上させるのに役立つ。

さらに、例えば、本発明は、検出された不正確な処理結果に対応する第１画像サンプルのエラータイプ基づいて、複数の不正確な処理結果にそれぞれに対応する各第１画像サンプル中から第１困難サンプルを選び取ることができる。本発明は、エラータイプを利用して、複数の不正確な処理結果にそれぞれに対応する各第１画像サンプル中から第１困難サンプルを選び取ることによって、各第１画像サンプルに対してラベル付けを実行する必要なしに、第１画像サンプルセット中からいっそう精確に第１困難サンプルを選び出すことができ、困難サンプルを得るコストの削減に有利であり、また困難サンプルを得る正確性の向上に有利である。

選択可能な１形態において、本発明において、第１ニューラルネットワークの第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出する実現形態は、複数の形態があり得る。以下、２個の具体的な例を挙げる。

選択的な１例において、第１画像サンプルセットが時系列で連続する複数のビデオフレームサンプルを含む場合、本発明は、第１ニューラルネットワークが複数のビデオフレームサンプルに対して出力した目標対象検出結果に対して、目標対象連続性検出を実行し、所定の連続性用件を満たさない目標対象検出結果を、不正確な処理結果とすることができる。その後に、不正確な処理結果に対応する第１画像サンプルに基づいて、第１困難サンプルを確定することができる。

本発明における目標対象連続性検出は、目標対象フラッシュ出現検出とも呼ばれえる。つまり、複数のビデオフレームサンプルが時系列で連続されているため、複数のビデオフレームサンプル中の目標対象の存在も、一般的には、連続されている。例えば、１つの目標対象が時系列で連続する１０個のビデオフレームサンプル内でいずれも存在し、その位置に変化が発生される可能性がある。もし、１つの目標対象が１つのビデオフレームサンプル中のみで出現され、その隣接する他のビデオフレームサンプル中で出現されていないと、当該目標対象が当該ビデオフレームサンプル中でフラッシュ出現されたと見なすことができ、当該ビデオフレームサンプル中に当該目標対象が存在しない可能性が大きい。第１ニューラルネットワークのエラー識別によって、当該ビデオフレームサンプル中に当該目標対象が存在すると見なすことになる。本発明は、目標対象フラッシュ出現検出を実行することによって、複数のビデオフレームサンプルの中から目標対象がフラッシュ出現されたビデオフレームサンプルを迅速に選び出すことによって、複数のビデオフレームサンプルに対してラベル付けを実行する必要なしに、複数のビデオフレームサンプルの中から第１困難サンプルを迅速に選び出すことができる。

もう選択的な１例において、上記の第１ニューラルネットワークは、コンピュータ、車載デバイス、携帯電話などにデバイスに配置することができ、配置される第１ニューラルネットワークは、一般的に、ネットワーク構成がより簡単であり、例えば、畳み込み層やプーリング層の数がより少ない。本発明は、第２ニューラルネットワークを別途に配置することができ、ここで、第２ニューラルネットワークのネットワーク複雑度は、第１ニューラルネットワークよりも高く、例えば、より多い深層の畳み込み層やプーリング層などを含む。このような場合、当該第２ニューラルネットワークが第１画像サンプルに対して処理を実行する精確度は、第１ニューラルネットワークが第１画像サンプルに対して処理を実行する精確度よりも高いことができる。したがって、本発明は、第１画像サンプルセット中の第１画像サンプルをそれぞれ第１ニューラルネットワークおよび第２ニューラルネットワークに提供することができ、第２ニューラルネットワークの精確度が第１ニューラルネットワークの精確度よりも高いため、第２ニューラルネットワークの第１画像サンプルに対する処理結果を標準として、第１ニューラルネットワークの第１画像サンプルに対する処理結果をチェックすることによって、第２ニューラルネットワークの複数の第１画像サンプルに対する処理結果と第１ニューラルネットワークの複数の第１画像サンプルに対する処理結果との間の差異を得、さらに、所定の差異用件を満たさない差異に対応する処理結果を不正確な処理結果とすることができる。その後に、不正確な処理結果に対応する第１画像サンプルに基づいて、第１困難サンプルを確定することができる。

選択的に、本発明における処理結果の差異は、目標対象の数の差異、目標対象の位置の差異、および、目標対象が属されている種類の中の少なくとも１つを含んでもよいが、これらに限定されない。

１番目の例において、任意の第１画像サンプルに対して、第２ニューラルネットワークが当該第１画像サンプルに対して検出した目標対象の数を取得し、また第１ニューラルネットワークが当該第１画像サンプルに対して検出した目標対象の数を取得し、この２個の数が同一でないと、当該数の差異が所定の差異用件を満たさないと見なし、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとすることができる。

２番目の例において、任意の第１画像サンプルに対して、第２ニューラルネットワークが当該第１画像サンプルに対して検出した各目標対象の位置情報（以下、第１位置情報と呼ぶ）を取得し、また第１ニューラルネットワークが当該第１画像サンプルに対して検出した各目標対象の位置情報（以下、第２位置情報と呼ぶ）を取得し、任意の第１位置情報に対して、当該第１位置情報と各第２位置情報との間の距離をそれぞれ算出し、その中から最小の距離を選択し、当該最小の距離が所定の最小の距離未満ではないと、距離差異が所定の差異用件を満たさないと見なして、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとすることができる。

３番目の例において、任意の第１画像サンプルに対して、第２ニューラルネットワークが当該第１画像サンプルに対して検出した各目標対象が属されている種類（以下、第１種類と呼ぶ）を取得し、第１ニューラルネットワークが当該第１画像サンプルに対して検出した各目標対象が属されている種類（以下、第２種類と呼ぶ）を取得する。任意の第２種類に対して、第１種類から構成されたセット中に当該第２種類と同一な種類が存在するか否かを判断し、同一な種類が存在しないと、当該種類差異が所定の差異用件を満たさないと見なして、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとすることができる。例示的に、第１画像サンプル中のコンテナに対して、第２ニューラルネットワークは、コンテナに対応する検出枠の種類がコンテナであると正確な識別することができ、第１ニューラルネットワークは、コンテナに対応する検出枠の種類をトラックとして識別する可能性があり、上記の判別方式を利用して、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとして確定することができる。

例えば、１つのビデオフレームサンプルに対して、第１ニューラルネットワークによって当該ビデオフレームサンプル中の柱状の隔離物体が歩行者として検出され、これは、第２ニューラルネットワークによって検出された隔離物体と一致せず、したがって、当該ビデオフレームサンプルを第１困難サンプルとすることができる。

さらに、例えば、図２に示した１つのビデオフレームサンプルの場合、第１ニューラルネットワークによって当該ビデオフレームサンプル中のトンネル口がトラックとして検出され、これは、第２ニューラルネットワークによって検出されたトンネルと一致せず、したがって、当該ビデオフレームサンプルを第１困難サンプルとすることができる。

選択的に、上記の３個の例は、任意に組み合わせて使用されることができる。

例えば、任意の第１画像サンプルに対して、第２ニューラルネットワークが当該第１画像サンプルに対して検出した目標対象の数と各目標対象の第１位置情報とを取得し、また第１ニューラルネットワークが当該第１画像サンプルに対して検出した目標対象の数と各目標対象の第２位置情報とを取得する。本発明は、この２個の数が同一でないと、当該数の差異が所定の差異用件を満たさないと見なして、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとすることができる。この２個の数が同一であると、本発明は、任意の第１位置情報に対して、当該第１位置情報と各第２位置情報との間の距離をそれぞれ算出し、その中から最小の距離を選択し、当該最小の距離が所定の最小の距離未満ではないと、距離差異が所定の差異用件を満たさないと見なして、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとすることができる。

さらに、例えば、任意の第１画像サンプルに対して、第２ニューラルネットワークが当該第１画像サンプルに対して検出した目標対象の数、各目標対象の第１位置情報、および、第１種類を取得し、また第１ニューラルネットワークが当該第１画像サンプルに対して検出した目標対象の数、各目標対象の第２位置情報、および、第２種類を取得する。本発明は、この２個の数が同一でないと、当該数の差異が所定の差異用件を満たさないと見なし、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとすることができる。本発明は、この２個の数が同一であると、任意の第１位置情報に対して、当該第１位置情報と各第２位置情報との間の距離をそれぞれ算出し、その中から最小の距離を選択し、当該最小の距離が所定の最小の距離未満ではないと、距離差異が所定の差異用件を満たさないと見なして、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとすることができる。本発明は、当該最小の距離が所定の最小の距離未満であると、当該最小の距離に関連する第１位置情報および第２位置情報にそれぞれに対応する目標対象の第１種類と第２種類とが同一であるか否かを判断し、同一ではないと、種類差異が所定の差異用件を満たさないと見なして、当該第１画像サンプルを不正確な処理結果に対応する第１画像サンプルとすることができる。

ここでは、互いに組み合わせる例を再度１つずつ説明しない。本発明は、第２ニューラルネットワークの第１画像サンプルに対する処理結果を標準として、第１ニューラルネットワークの第１画像サンプルに対する処理結果が正確であるか否かを判断することによって、第１画像サンプルセット中から不正確な処理結果に対応する第１画像サンプルを迅速かつ正確に選び出すことに有利であり、第１画像サンプルセット中から第１困難サンプルを迅速かつ正確に選び出すことに有利である。また、第２ニューラルネットワークを使用する実現形態において、本発明における第１画像サンプルセットは、時系列関係を有さない複数枚の画像を含んでもよいし、時系列関係を有する複数のビデオフレームサンプルを含んでもよく、したがって、困難サンプルが収集した適用範囲の改善に有利である。

選択的な１例において、本発明は、検出された不正確な処理結果に対応する各第１画像サンプルのエラータイプに基づいて、不正確な処理結果に対応する各第１画像サンプルの中から第１困難サンプルを選び取る１つの例は、以下であり得る。

まず、不正確な処理結果に対応するエラータイプを取得し、その後、ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第１画像サンプルを第１困難サンプルとする。本発明におけるエラータイプは、ニューラルネットワーク処理エラーのようなエラータイプに加えて、例えば、第１ニューラルネットワークが第１画像サンプルに対して検出を実行して得た目標対象検出枠が不正確であること、撮影装置要因などの、複数の種類のエラータイプをさらに含んでもよい。本発明は、これに対して限定しない。

選択的に、本発明は、目標対象が第１画像サンプル中で位置停滞現象が出現されたと判断すると、該当するエラータイプが、第１ニューラルネットワークが当該第１画像サンプルに対して検出を実行して得た目標対象検出枠が不正確であると見なすことができる。位置停滞現象とは、目標対象が撮影装置の視角範囲をすでに離したが、該当する第１画像サンプル中で当該目標対象が依然として存在すると検出されることを指すことができる。本発明は、第１画像サンプルに検出枠追跡アルゴリズムエラーが存在すると確定した場合、第１ニューラルネットワークに含まれた目標対象検出枠を検出するためのモジュールを調整することによって、第１ニューラルネットワークの検出枠追跡性能の向上に有利であり、いくつかの第１画像サンプルが誤って第１困難サンプルとされる現象の回避に有利であり、第１困難サンプルを得る正確性の向上に有利である。

選択的に、本発明は、第１画像サンプルに撮影装置要因のエラータイプが存在すると判断した場合、撮影装置を変更するプロンプト情報を送信することができる。１つの例として、撮影装置の原因によって、第１画像サンプル中の目標対象の色が歪まれると、撮影装置を交換するようにプロンプトすることができる。例えば、撮影装置によって撮影されたビデオフレームサンプル中の交通灯の色が歪まれていると（例えば、赤灯が黄灯の色に似ているなど）、撮影装置を交換するように提案することができる。本発明は、ビデオフレームサンプル中の該当する位置のところのピクセルグレー値などを検出する方式によって、色の歪み現象が存在するか否かを確定することができる。別の１つの例において、外光が強すぎるなどの原因で、第１画像サンプル中の目標対象の色が歪んでいると（例えば、ビデオフレームサンプル中の交通灯の色が歪まれるなどであり、本発明は、ビデオフレームサンプルのすべてのピクセルのグレー値の平均値を検出するなどの方式によって、外光が強すぎるなどの原因が存在する否かを確定する）、目標対象を判別する条件をさらに改善することができ、例えば、点灯している位置に基づいて交通灯が現在点灯されている色を判断することができる。

本発明は、第１画像サンプルに撮影装置要因のエラータイプが存在すると確定した場合、該当する是正措置を実行することによって、ニューラルネットワークの目標対象検出性能の向上に有利であり、またいくつかの第１画像サンプルが誤って第１困難サンプルとされる現象の回避に有利であり、第１困難サンプルを得る正確性の向上に有利である。

また、本発明は、第１画像サンプル中で検出された複数の地面標識の一致性に基づいて、当該第１画像サンプルに情況が複雑で判断し難いエラータイプが存在するか否かを判断することができ、例えば、第１ニューラルネットワークは、１つのビデオフレームサンプル中の地面上の複数の異なる方向の矢印（たとえば、左方向への矢印、右方向への矢印、および、前方向への矢印）がいずれも誤って前方向への矢印として検出されるため、当該ビデオフレームサンプルに情況が複雑で判断し難いエラータイプが存在すると判断することができる。本発明は、さらに、第１ニューラルネットワーク中に第１画像サンプルの矢印方向に対する識別処理過程を増加することによって、情況が複雑な現象を対処することができる。当然ながら、類似な第１困難サンプルを利用して第１ニューラルネットワークに対してトレーニングを繰り返して実行することによって、第１ニューラルネットワークが矢印の方向を正確に判断できるようにする。

選択的な１例において、本発明は、第１困難サンプルをトレーニングサンプルセットに追加し、その後、第１困難サンプルが含まれたトレーニングサンプルセットを利用して第１ニューラルネットワークに対してトレーニングを実行して、調整後の第１ニューラルネットワークを得ることができる。

例示的に、現在得られた第１困難サンプルに対してラベル付け処理を実行し、ラベル付け処理後の第１困難サンプルをトレーニングサンプルセットに追加して、第１ニューラルネットワークの最適化に利用することができる。

１実施形態において、トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを第１ニューラルネットワークに提供し、その後、第１ニューラルネットワークのラベル情報を有する各々の第１困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、第１ニューラルネットワークのパラメータを調整し、調整後の第１ニューラルネットワークを得ることができる。

もう１実施形態において、さらに、サンプルデータセット中の画像サンプルを利用してニューラルネットワークに対して前トレーニングを実行した後に、トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを利用して第１ニューラルネットワークに対してさらなるトレーニングを実行することによって、第１ニューラルネットワークのパラメータをさらに最適化することができる。さらに、例えば、第１ニューラルネットワークに対して前トレーニングを実行する過程で、一定の比率の第１困難サンプルを使用することができる。前トレーニングが終了した後、トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを利用して第１ニューラルネットワークに対してさらなるトレーニングを実行することによって、第１ニューラルネットワークのパラメータをさらに最適化し、調整後の第１ニューラルネットワークを得ることができる。

本発明における第１画像サンプルは、ラベル情報を有さないでもよく、したがって、本発明は、第１画像サンプルセット中から選び出した第１困難サンプルにのみラベル付けを実行することによって、第１画像サンプルセット中の各々の第１画像サンプルに対していずれもラベル付けを実行することを回避することができる。その後、ラベル付け後の第１画像サンプルを第１ニューラルネットワークに提供し、第１ニューラルネットワークによって出力された処理結果とラベル情報とに基づいて、第１画像サンプルセット中の第１困難サンプルを確定する。したがって、本発明は、困難サンプルを発見するためにラベル付けを実行する作業量を大幅に削減することができ、したがって、困難サンプルを得るコストの削減に有利であり、また困難サンプルを得る効率の向上に有利である。

Ｓ１２０において、第１困難サンプルに基づいて第１困難サンプルの収集環境情報を確定する。

選択的な１例において、本発明における収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも１つを含む。ここで、道路区間情報とは、第１困難サンプルを取得するときに、撮影装置が位置している道路情報を指すことができる。ここで、天気情報とは、撮影装置が第１困難サンプルを取得するときの天気状況を指すことができ、例えば、晴れ、曇り、雨、雪、季節、温度などであり得る。ここで、光強度情報とは、撮影装置が第１困難サンプルを取得するときに、撮影時間、撮影位置などの要因によって引き起こされる逆光や強い光の照射などの現象を指すことができる。

選択的な１例において、本発明は、ビデオの備考情報または写真の備考情報などに基づいて、第１困難サンプルの収集環境情報を確定することができる。本発明は、手動識別方式を使用して第１困難サンプルの収集環境情報を確定することができる。本発明は、第１困難サンプルの収集環境情報を確定する具体的な実現形態に対して限定しない。

Ｓ１３０において、収集環境情報に基づいて、第２困難サンプルを含む第２画像サンプルセットの収集を指示するための画像収集制御情報を生成する。

画像収集制御情報は、道路区間情報に基づいて生成したデータ収集経路、天気情報に基づいて生成したデータ収集天気環境、光強度情報に基づいて生成したデータ収集光照環境の中の少なくとも１種を含んでもよいが、これらに限定されない。

選択的な１例において、本発明は、収集環境情報が道路区間情報を含む場合、まず、第１困難サンプルが属されている道路区間情報に基づいて、データ収集経路の計画操作を実行することによって、データ収集経路を形成することができる。第１困難サンプルの数が複数であると、本発明によって形成されたデータ収集経路は、一般的に、複数の第１困難サンプルが属されている道路区間を含むことになる。例えば、本発明は、第１困難サンプルが属されている道路区間をいずれも入力として、地図ナビゲーションプリケーションに提供することによって、地図ナビゲーションプリケーションを利用して１本の経路を出力することができ、当該経路は複数の第１困難サンプルが属されている道路区間を含む。当該経路がデータ収集経路である。

選択的に、本発明は、撮影装置を有するデータ収集車を利用して当該データ収集経路に沿って走行し、走行過程で撮影を実行し、たとえば、写真またはビデオなどを撮影することによって、データ収集操作を実行することができる。また、データ収集操作を実行するとき、第１困難サンプルの収集環境情報中の天気、光強度などを考慮して、データ収集操作を実行する天気環境、光線環境などを決定することができる。例えば、晴れの日の朝で、データ収集車がデータ収集経路を沿って走行しながら撮影するようにすることによって、照射角度がより低い日光を向かって撮影された当該ストリートビューの複数枚の写真またはビデオを得ることができる。さらに、例えば、曇りの日の夕方で、データ収集車がデータ収集経路を沿って走行しながら撮影するようにすることによって、薄暗い当該ストリートビューの複数枚の写真またはビデオを得ることができる。

選択的な１例において、本発明は、画像収集制御情報を利用して収集された第２画像サンプルセット（たとえば、複数枚の写真またはビデオなど）を取得することができる。１実施形態において、第２画像サンプルセットを取得した後に、第２画像サンプルセットを調整後の第１ニューラルネットワークに提供し、さらに、調整後の第１ニューラルネットワークの第２画像サンプルセット中の各々の第２画像サンプルに対する処理結果に基づいて、第２画像サンプルセット中から第２困難サンプルを選別することができる。

本発明は、今回得た第２困難サンプルを利用して、再度上記のＳ１００～Ｓ１３０を実行し、ここで、Ｓ１００～Ｓ１３０を実行する過程で使用した第１ニューラルネットワークは、現在得た第１困難サンプルを含むトレーニングサンプルセットを利用してトレーニングを実行した後に得られた調整後の第１ニューラルネットワークであり得る。本発明によって提供される方法は、反復に実行することができ、第２画像サンプルセット中から第２困難サンプルを得、さらに、再度第３画像サンプルセット中から第３困難サンプルを得る。本発明は、上記のＳ１００～Ｓ１３０を複数回繰り返した後（すなわち、本発明の方法を複数回反復した後）、困難サンプルの迅速な蓄積を実現することができる。

本発明は、現在得た第１困難サンプルの収集環境情報に基づいて確定した画像収集制御情報に基づいて、データ収集操作（たとえば、第１困難サンプルが属されている道路区間に基づいてデータ収集経路を計画するなど）を実行するため、第１困難サンプルと類似な写真またはビデオフレームを得る機会がいっそう多く、つまり、得た第２画像サンプルセットが第２困難サンプルを含む確率がいっそう高く、すなわち、本発明は類似な困難サンプルを再現させることができる。したがって、本発明は、困難サンプルの迅速な蓄積に有利であり、さらに、困難サンプルを得るコストの削減に有利であり、また困難サンプルを得る効率の向上に有利である。

図３は、本発明のニューラルネットワークのトレーニング方法の１実施例のフローチャートである。ニューラルネットワークが第１ニューラルネットワークである例を挙げる。図３に示すように、当該実施例の方法は、Ｓ３００とＳ３１０とを含む。以下、各ステップを詳細に説明する。

Ｓ３００において、トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを第１ニューラルネットワークに提供する。

選択的に、本発明におけるトレーニングサンプルセット中の第１困難サンプルは、上記の方法の実施形態に記載のステップを利用して得た第１困難サンプルを含む。トレーニングサンプルセット中の第１困難サンプルは、いずれもラベル情報を有する。

選択的に、本発明における第１ニューラルネットワークは、前トレーニングを実行した後のニューラルネットワークであり得る。また、当該第１ニューラルネットワークは、目標対象を検出するためのニューラルネットワークであり得、例えば、目標対象の位置と種類を検出するためのニューラルネットワークであり得る。

Ｓ３１０において、第１ニューラルネットワークのラベル情報を有する各々の第１困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、第１ニューラルネットワークのパラメータを調整し、調整後の第１ニューラルネットワークを得る。

選択的に、本発明は、第１ニューラルネットワークの複数の困難サンプルに対する出力、および、複数の第１困難サンプルのラベル情報に基づいて、損失を確定し、当該損失に基づいて第１ニューラルネットワークのパラメータを調整することができる。本発明におけるパラメータは、畳み込みカーネルパラメータ、および／または、マトリックス重みなどを含んでもよいが、これらに限定されない。

選択的な１例において、第１ニューラルネットワークに対するトレーニングが所定の反復条件に達した場合、今回のトレーニング過程を終了する。本発明における所定の反復条件は、第１ニューラルネットワークの第１困難サンプルに対する出力と第１困難サンプルのラベル情報との間の差異が所定の差異用件を満たすことを含んでもよい。当該差異が所定の差異用件を満たす場合、今回の第１ニューラルネットワークに対するトレーニングが正常に完成される。本発明における所定の反復条件は、さらに、第１ニューラルネットワークに対してトレーニングを実行するのに使用した第１困難サンプルの数が所定の数用件に達したことなどを含んでもよい。トレーニングを正常に完成した第１ニューラルネットワークは、目標対象の検出に使用されることができる。

図４は、本発明の画像収集制御装置の１実施例の構成の模式図である。図４に示した装置は、提供モジュール４００と、選別モジュール４１０と、環境確定モジュール４２０と、収集制御モジュール４３０と、備える。選択的に、当該装置は、最適化モジュール４４０と、トレーニングモジュール４５０と、をさらに備えてもよい。以下、各モジュールをそれぞれ詳細に説明する。

提供モジュール４００は、第１画像サンプルセットを第１ニューラルネットワークに提供する。ここでの第１画像サンプルセットは、ラベル情報を有さない第１画像サンプルを含んでもよい。提供モジュール４００が具体的に実行する操作は、上記の方法の実施形態でのＳ１００に対する説明を参照することができる。

選別モジュール４１０は、第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、第１画像サンプルセット中から第１困難サンプルを選別する。選択的に、選別モジュール４１０は、第１サブモジュールと第２サブモジュールとを備えてもよい。ここで、第１サブモジュールは、第１ニューラルネットワークの第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出する。例えば、第１サブモジュールは、第１画像サンプルセットが時系列で連続する複数のビデオフレームサンプルを含む場合、第１ニューラルネットワークが前記複数のビデオフレームサンプルに基づいて出力した目標対象検出結果に対して、目標対象連続性検出を実行し、所定の連続性用件を満たさない目標対象検出結果を、不正確な処理結果とすることができる。さらに、例えば、提供モジュール４００が第１画像サンプルを第２ニューラルネットワークに提供する場合、第１サブモジュールは、第２ニューラルネットワークの第１画像サンプルに対する処理結果と第１ニューラルネットワークの第１画像サンプルに対する処理結果との間の差異を確定し、所定の差異用件を満たさない差異に対応する処理結果を、不正確な処理結果とすることができる。ここで、第２サブモジュールは、検出された不正確な処理結果に対応する第１画像サンプルに基づいて第１困難サンプルを確定する。例えば、第２サブモジュールは、不正確な処理結果に対応するエラータイプを取得し、ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第１画像サンプルを、第１困難サンプルとすることができる。選別モジュール４１０および当該モジュールに含まれるサブモジュールが具体的に実行する操作は、上記の方法の実施形態でのＳ１１０に対する説明を参照することができる。

環境確定モジュール４２０は、第１困難サンプルに基づいて第１困難サンプルの収集環境情報を確定する。ここでの収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも１つを含む。環境確定モジュール４２０が具体的に実行する操作は、上記の方法の実施形態でのＳ１２０に対する説明を参照することができる。

収集制御モジュール４３０は、収集環境情報に基づいて、第２困難サンプルを含む第２画像サンプルセットの収集を指示するための画像収集制御情報を生成する。選択的に、収集制御モジュール４３０は、収集環境情報が道路区間情報を含む場合、収集環境情報に含まれた道路区間情報に基づいて、第１困難サンプルとマッチングされる収集道路区間を確定し、確定された収集道路区間を利用して、データ収集経路を生成し、データ収集経路は、撮影装置がデータ収集経路にしたがって第２画像サンプルセットを収集するように指示する。

第１ニューラルネットワークが第１画像サンプル中の目標対象の検出に使用される場合、最適化モジュール４４０は、不正確な処理結果に対応するエラータイプが、第１ニューラルネットワークが第１画像サンプルに対して検出を実行して得た目標対象検出枠が不正確であることの場合、第１ニューラルネットワークに含まれた目標対象検出枠を検出するためのモジュールを調整する。このとき、第２サブモジュールは、不正確な処理結果に対応するエラータイプが撮影装置要因である場合、撮影装置を変更するプロンプト情報を送信する。最適化モジュール４４０が具体的に実行する操作は、上記の方法の実施形態での関連説明を参照することができる。

トレーニングモジュール４５０は、第１困難サンプルをトレーニングサンプルセットに追加し、第１困難サンプルが含まれたトレーニングサンプルセットを利用して、第１ニューラルネットワークに対してトレーニングを実行して、調整後の第１ニューラルネットワークを得る。また、トレーニングモジュール４５０は、さらに、第１困難サンプルに対してラベル付け処理を実行し、ラベル情報を有する第１困難サンプルをトレーニングサンプルセットに追加し、トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを第１ニューラルネットワークに提供し、第１ニューラルネットワークのラベル情報を有する各々の第１困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、第１ニューラルネットワークのパラメータを調整し、調整後の第１ニューラルネットワークを得ることができる。トレーニングモジュール４５０が具体的に実行する操作は、上記の方法の実施形態での図３に対する関連説明を参照することができる。

本発明における提供モジュール４００は、さらに、第２画像サンプルセットを取得し、第２画像サンプルセットを調整後の第１ニューラルネットワークに提供することができる。選別モジュール４１０は、さらに、調整後の第１ニューラルネットワークの第２画像サンプルセット中の各々の第２画像サンプルに対する処理結果に基づいて、第２画像サンプルセット中から第２困難サンプルを選別することができる。収集制御モジュール４３０が具体的に実行する操作は、上記の方法の実施形態でのＳ１３０に対する説明を参照することができる。

図５は、本発明の実現に適した例示的な電子デバイス５００である。電子デバイス５００は、自動車に配置された制御システム／電子システム、移動端末（例えば、スマートフォンなど）、パーソナルコンピュータ（ＰＣ、例えば、デスクトップコンピュータまたはノートブックコンピュータなど）、タブレットコンピュータ、サーバなどであり得る。図５において、電子デバイス５００は、１つまたは複数のプロセッサおよび通信部品を備える。前記１つまたは複数のプロセッサは、例えば、１つまたは複数の中央処理ユニット（ＣＰＵ）５０１、および／または、１つまたは複数のグラフィックス処理ユニット（ＧＰＵ）５１３などである。前記プロセッサは、読み取り専用メモリ（ＲＯＭ）５０２内の実行可能命令、または、記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされる実行可能命令に応じて、さまざまな適切な動作および処理を実行することができる。通信部５１２は、ネットワークカードを含むことができるが、これに限定されない。前記ネットワークカードは、ＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されない。プロセッサは、読み取り専用メモリ５０２および／またはランダムアクセスメモリ５０３と通信して実行可能命令を実行し、バス５０４を介して通信部５１２に接続され、通信部５１２を介して他の目標デバイスと通信することができる。それにより、本発明の該当する動作を完了する。

上記の各命令によって実行される操作は、上記の方法の実施例中の関連説明を参照すればよく、ここでは再度詳細に説明しない。なお、ＲＡＭ５０３は、装置の操作に必要なさまざまなプログラムやデータを記憶することができる。ＣＰＵ５０１、ＲＯＭ５０２、および、ＲＡＭ５０３は、バス５０４を介して相互に接続される。

ＲＡＭ５０３がある場合、ＲＯＭ５０２は、オプションのモジュールである。ＲＡＭ５０３は、実行可能命令を記憶するか、または、実行するときにＲＯＭ５０２に対する実行可能命令の書き込みを実行する。実行可能命令により、プロセッサ５０１は前記の通信方法に対応する操作を実行する。入力／出力（Ｉ／Ｏ）インターフェース５０５もバス５０４に接続される。通信部５１２は、統合されて配置されてもよいし、複数のサブモジュール（例えば、複数のＩＢネットワークカード）を有し、バスを介して接続されてもよい。

キーボード、マウスなどを含む入力部５０６、カソード光線管（ＣＲＴ）、液晶ディスプレイ（ＬＤＣ）などおよびスピーカーなどを含む出力部５０７、ハードディスクなどを含む記憶部５０８、およびＬＡＮカード、モデムなどのネットワークインターフェースカードを含む通信部５０９が、コンポーネントがＩ／Ｏインターフェース５０５に接続される。通信部５０９は、インターネットなどのネットワークを介して通信処理を実行する。また、ドライバ５１０は、必要に応じてＩ／Ｏインターフェース５０５に接続される。必要に応じて、磁気ディスク、光ディスク、磁気光学ディスク、半導体メモリなどの取り外し可能な媒体５１１がドライバ５１０に装着される。その結果、読み取られたコンピュータプログラムが必要に応じて記憶部５０８にインストールされる。

なお、図５に示されるアーキテクチャは、１つのオプションの実現形態であり、具体的な実行プロセスでは、上述の図５の構成要素の数およびタイプは、実際の必要に応じて、選択、削除、増加、または置換することができる。異なる機能部品の設定について、分離可能な設定および統合可能な設定などの実現形態を採用でき、たとえば、ＧＰＵとＣＰＵを分離可能に設定するか、または、ＧＰＵをＣＰＵに統合可能な設定し、通信部を分離可能な設定するか、または、ＣＰＵやＧＰＵに統合可能な設定してもよい。これらの切り替え可能な実施形態は、いずれも本発明の保護範囲内に入ることを特に説明するよう必要がある。

特に、本開示の実施形態によれば、上記のフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施形態は、機械読取可能媒体に有形に含まれるコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含み、プログラムコードは、本発明の実施形態によって提供される方法のステップを実行するステップに対応する命令を含むことができる。

そのような実施形態では、コンピュータプログラムは、通信部５０９を介してネットワークからダウンロードしてインストールされるか、および／または、取り外し可能媒体５１１からインストールされる。このコンピュータプログラムが中央処理装置(ＣＰＵ)５０１によって実行されるとき、本発明の方法で規定された上述した機能が実行される。

１つまたは複数の選択的な実施形態において、本発明の実施例は、コンピュータ可読命令を記憶するためのコンピュータプログラム製品をさらに提供し、前記命令が実行されるときに、コンピュータが上記の任意の実施例に記載の画像収集制御方法または、ニューラルネットワークトレーニング方法を実行するようにする。

当該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェア、または、その組み合わせの方式によって実現できる。選択的な１例において、前記コンピュータプログラム製品は、具体的に、コンピュータ記憶媒体として具体化され、選択的なもう１例において、前記コンピュータプログラム製品は、具体的に、ソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などの、ソフトウェア製品として具体化される。

１つまたは複数の選択的な実施形態において、本発明の実施例は、画像収集制御方法とニューラルネットワークトレーニング方法及び対応する装置、電子デバイス、コンピュータ記憶媒体、コンピュータプログラム、並びにコンピュータプログラム製品をさらに提供し、ここでの方法は、第１装置が第２装置に画像収集制御の指示またはニューラルネットワークトレーニングの指示を送信するステップであって、当該指示は、第２装置が、上記の任意の可能の実施例中の画像収集制御方法またはニューラルネットワークトレーニング方法を実行するようにするステップと、第１装置が第２装置によって送信された画像収集制御の処理結果またはニューラルネットワークトレーニングの結果を受信するステップと、を含む。

いくつかの実施例において、当該画像収集制御の指示またはニューラルネットワークトレーニングの指示は、具体的に、呼び出し命令であり得る。第１装置は、呼び出す方式によって、第２装置が、画像収集制御操作またはニューラルネットワークトレーニング操作を実行するように指示することができる。これに応じて、第２装置は、呼び出し命令が受信されたことに応答して、上記の画像収集制御方法またはニューラルネットワークトレーニング方法の中の任意の実施例中のステップおよび／またはフローを実行することができる。

本発明の実施例においての「第１」、「第２」などの用語は、区分するためのもので過ぎず、本発明の実施例に対する限定として理解してはいけないことを理解すべきである。さらに、本発明において、「複数」は、２つ以上を表し、「少なくとも１つ」は、１つまたは２つの以上を表すことができることを理解すべきである。さらに、本発明で言及された任意の１つの部品、データ、または、構成は、明確に限定されなかったか、または、前後の記述で反対の示唆がない場合、一般的に、１つまたは複数に理解され得ることを理解すべきである。さらに、本発明は、各々の実施例の説明に対して、主に各々の実施例同士の間の差異を強調し、同一または類似な部分は互いに参考でき、簡素化のために、1つずつ繰り返して説明しないことを理解すべきである。

本発明の方法および装置、電子デバイス、並びにコンピュータ可読記憶媒体は、多くの方法で実施することができる。例えば、本発明の方法、装置、および、システムは、ソフトウェア、ハードウェア、ファームウェア、または、ソフトウェアとハードウェアとファームウェアとの任意の組み合わせによって実現することができる。上記の方法のステップの順序は、説明するためのものであり、本明細書に記載の方法のステップは、上記で特に説明されていない限り、上記で特に説明された順序に限定されない。さらに、いくつかの実施形態で、本発明は、記録媒体に記録されたプログラムとして実施されることもでき、これらのプログラムは、本発明による方法を実施するための機械可読命令を含む。したがって、本発明は、本発明による方法を実行するためのプログラムを記憶する記録媒体もカバーする。

本発明の説明は、例示および説明のために提供されたものであり、漏れがないわけではないし、また、本発明は開示された形態に限定されるものではない。多くの修正と変化は、当業者にとって明らかである。実施形態の選択および記述は、本発明の原理および実際の応用をより良く説明し、当業者が、本発明を理解して、特定の用途に適した様々な修正を伴う様々な実施形態を設計できるようにする。

本発明は、出願日が２０１９年６月２８日であり、出願番号が２０１９１０５７９１４７.３であり、発明名称が「画像収集制御方法、装置、媒体、及びデバイス」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み入れられる。

Claims

画像収集制御方法であって、
第１画像サンプルセットを第１ニューラルネットワークに提供するステップと、
前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、前記第１画像サンプルセット中から第１困難サンプルを選別するステップと、
前記第１困難サンプルに基づいて前記第１困難サンプルの収集環境情報を確定するステップと、
前記収集環境情報に基づいて、第２困難サンプルを含む第２画像サンプルセットの収集を指示するための画像収集制御情報を生成するステップと、を含む
ことを特徴とする前記方法。
前記第１画像サンプルセットは、ラベル情報を有さない第１画像サンプルを含む
ことを特徴とする請求項１に記載の画像収集制御方法。
前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、前記第１画像サンプルセット中から第１困難サンプルを選別するステップは、
前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出するステップと、
検出された不正確な処理結果に対応する第１画像サンプルに基づいて前記第１困難サンプルを確定するステップと、を含む
ことを特徴とする請求項２に記載の画像収集制御方法。
前記第１画像サンプルセットは、時系列で連続する複数のビデオフレームサンプルを含み、
前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出するステップは、
前記第１ニューラルネットワークが前記複数のビデオフレームサンプルに基づいてそれぞれ出力した複数の目標対象検出結果に対して、目標対象連続性検出を実行するステップと、
前記複数の目標対象検出結果中の所定の連続性用件を満たさない１つまたは複数の目標対象検出結果を、前記不正確な処理結果とするステップと、を含む
ことを特徴とする請求項３に記載の画像収集制御方法。
前記第１画像サンプルセットを第２ニューラルネットワークに提供するステップをさらに含み、
前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出するステップは、
前記第２ニューラルネットワークの当該第１画像サンプルに対する第２処理結果と前記第１ニューラルネットワークの当該第１画像サンプルに対する第１処理結果との間の差異を確定するステップと、
前記差異が所定の差異用件を満たさない場合、前記第１処理結果を前記不正確な処理結果とするステップと、を含む
ことを特徴とする請求項３に記載の画像収集制御方法。
前記検出された不正確な処理結果に対応する第１画像サンプルに基づいて前記第１困難サンプルを確定するステップは、
前記不正確な処理結果に対応するエラータイプを取得するステップと、
ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第１画像サンプルを、前記第１困難サンプルとするステップと、を含む
ことを特徴とする請求項３乃至５の何れか１項に記載の画像収集制御方法。
前記第１ニューラルネットワークは、前記第１画像サンプル中の目標対象の検出に用いられ、
前記画像収集制御方法は、
前記不正確な処理結果に対応するエラータイプが、前記第１ニューラルネットワークが前記第１画像サンプルを検出して得た目標対象検出枠が不正確であることを表す場合、前記第１ニューラルネットワークに含まれた前記目標対象検出枠を検出するためのモジュールを調整するステップをさらに含む
ことを特徴とする請求項６に記載の画像収集制御方法。
前記不正確な処理結果に対応するエラータイプが撮影装置要因に関連している場合、前記撮影装置を変更するプロンプト情報を送信するステップをさらに含む
ことを特徴とする請求項６に記載の画像収集制御方法。
前記収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも１つを含む
ことを特徴とする請求項１乃至８の何れか１項に記載の画像収集制御方法。
前記収集環境情報は、道路区間情報を含み、
前記収集環境情報に基づいて画像収集制御情報を生成するステップは、
前記道路区間情報に基づいて前記第１困難サンプルとマッチングされる収集道路区間を確定するステップと、
確定された前記収集道路区間を利用して、データ収集経路を生成し、撮影装置が前記データ収集経路に従って前記第２画像サンプルセットを収集するように指示するように、前記データ収集経路を画像収集制御情報中に含ませるステップを含む
ことを特徴とする請求項９に記載の画像収集制御方法。
前記第１困難サンプルをトレーニングサンプルセットに追加するステップと、
前記トレーニングサンプルセットを利用して前記第１ニューラルネットワークに対してトレーニングを実行して、調整後の第１ニューラルネットワークを得るステップと、をさらに含む
ことを特徴とする請求項１乃至１０の何れか１項に記載の画像収集制御方法。
前記第１困難サンプルをトレーニングサンプルセットに追加するステップは、
ラベル情報を有する第１困難サンプルを前記トレーニングサンプルセットに追加するステップを含み、
前記トレーニングサンプルセットを利用して前記第１ニューラルネットワークに対してトレーニングを実行して、調整後の第１ニューラルネットワークを得るステップは、
前記トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを前記第１ニューラルネットワークに提供するステップと、
前記第１ニューラルネットワークのラベル情報を有する各々の第１困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、前記第１ニューラルネットワークのパラメータを調整し、調整後の第１ニューラルネットワークを得るステップと、を含む
ことを特徴とする請求項１１に記載の画像収集制御方法。
前記第２画像サンプルセットを取得するステップと、
前記第２画像サンプルセットを前記調整後の第１ニューラルネットワークに提供するステップと、
前記調整後の第１ニューラルネットワークの前記第２画像サンプルセット中の各々の第２画像サンプルに対する処理結果に基づいて、前記第２画像サンプルセット中から前記第２困難サンプルを選別するステップと、をさらに含む
ことを特徴とする請求項１１または１２に記載の前記方法。
画像収集制御装置であって、
第１画像サンプルセットを第１ニューラルネットワークに提供するための提供モジュールと、
前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果に基づいて、前記第１画像サンプルセット中から第１困難サンプルを選別するための選別モジュールと、
前記第１困難サンプルに基づいて前記第１困難サンプルの収集環境情報を確定するための環境確定モジュールと、
前記収集環境情報に基づいて、第２困難サンプルを含む第２画像サンプルセットの収集を指示するための画像収集制御情報を生成するための収集制御モジュールと、を備える
ことを特徴とする請求項に記載の画像収集制御装置。
前記第１画像サンプルセットは、ラベル情報を有さない第１画像サンプルを含む
ことを特徴とする請求項１４に記載の画像収集制御装置。
前記選別モジュールは、
前記第１ニューラルネットワークの前記第１画像サンプルセット中の各々の第１画像サンプルに対する処理結果が正確であるか否かを検出するための第１サブモジュールと、
検出された不正確な処理結果に対応する第１画像サンプルに基づいて前記第１困難サンプルを確定するための第２サブモジュールと、を備える
ことを特徴とする請求項１５に記載の画像収集制御装置。
前記第１画像サンプルセットは、時系列で連続する複数のビデオフレームサンプルを含み、
前記第１サブモジュールは、
前記第１ニューラルネットワークが前記複数のビデオフレームサンプルに基づいてそれぞれ出力した複数の目標対象検出結果に対して、目標対象連続性検出を実行し、
前記複数の目標対象検出結果中の所定の連続性用件を満たさない１つまたは複数の目標対象検出結果を、前記不正確な処理結果とする
ことを特徴とする請求項１６に記載の画像収集制御装置。
前記提供モジュールは、さらに、前記第１画像サンプルセットを第２ニューラルネットワークに提供し、
前記第１サブモジュールは、前記第１画像サンプルセット中の各々の第１画像サンプルに対して、
前記第２ニューラルネットワークの当該第１画像サンプルに対する第２処理結果と前記第１ニューラルネットワークの当該第１画像サンプルに対する第１処理結果との間の差異を確定し、
前記差異が所定の差異用件を満たさない場合、前記第１処理結果を前記不正確な処理結果とする
ことを特徴とする請求項１６に記載の画像収集制御装置。
前記第２サブモジュールは、
前記不正確な処理結果に対応するエラータイプを取得し、
ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第１画像サンプルを、前記第１困難サンプルとする
ことを特徴とする請求項１６乃至１８の何れか１項に記載の画像収集制御装置。
前記第１ニューラルネットワークは、前記第１画像サンプル中の目標対象の検出に用いられ、
前記画像収集制御装置は、
前記不正確な処理結果に対応するエラータイプが、前記第１ニューラルネットワークが前記第１画像サンプルを検出して得た目標対象検出枠が不正確であることを表す場合、前記第１ニューラルネットワークに含まれた前記目標対象検出枠を検出するためのモジュールを調整するための最適化モジュールをさらに備える
ことを特徴とする請求項１９に記載の画像収集制御装置。
前記第２サブモジュールは、さらに、
前記不正確な処理結果に対応するエラータイプが撮影装置要因に関連している場合、前記撮影装置を変更するプロンプト情報を送信する
ことを特徴とする請求項１９に記載の画像収集制御装置。
前記収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも１つを含む
ことを特徴とする請求項１４乃至２１の何れか１項に記載の画像収集制御装置。
前記収集環境情報は、道路区間情報を含み、
前記収集制御モジュールは、
前記道路区間情報に基づいて前記第１困難サンプルとマッチングされる収集道路区間を確定し、
確定された前記収集道路区間を利用して、データ収集経路を生成し、撮影装置が前記データ収集経路に従って前記第２画像サンプルセットを収集するように指示するように、前記データ収集経路を画像収集制御情報中に含ませる
ことを特徴とする請求項２２に記載の画像収集制御装置。
トレーニングモジュールをさらに備え、
トレーニングモジュールは、
前記第１困難サンプルをトレーニングサンプルセットに追加し、
前記トレーニングサンプルセットを利用して前記第１ニューラルネットワークに対してトレーニングを実行して、調整後の第１ニューラルネットワークを得る
ことを特徴とする請求項１４乃至２３の何れか１項に記載の画像収集制御装置。
前記トレーニングモジュールは、
ラベル情報を有する第１困難サンプルを前記トレーニングサンプルセットに追加し、
前記トレーニングサンプルセット中のラベル情報を有する第１困難サンプルを前記第１ニューラルネットワークに提供し、
前記第１ニューラルネットワークのラベル情報を有する各々の第１困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、前記第１ニューラルネットワークのパラメータを調整し、調整後の第１ニューラルネットワークを得る
ことを特徴とする請求項２４に記載の画像収集制御装置。
前記提供モジュールは、さらに、
前記第２画像サンプルセットを取得し、
前記第２画像サンプルセットを前記調整後の第１ニューラルネットワークに提供し、
前記選別モジュールは、さらに、
前記調整後の第１ニューラルネットワークの前記第２画像サンプルセット中の各々の第２画像サンプルに対する処理結果に基づいて、前記第２画像サンプルセット中から前記第２困難サンプルを選別する
ことを特徴とする請求項２４または２５に記載の画像収集制御装置。
電子デバイスであって、
コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶されているコンピュータプログラムを実行することによって、請求項１乃至１３の何れか１項に記載の画像収集制御方法を実現するためのプロセッサと、を備える
ことを特徴とする電子デバイス。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
当該コンピュータプログラムがプロセッサによって実行されることによって、請求項１乃至１３の何れか１項に記載の画像収集制御方法が実現される
ことを特徴とするコンピュータ可読記憶媒体。
コンピュータ命令を含むコンピュータプログラムであって、
前記コンピュータ命令がプロセッサによって実行されることによって、請求項１乃至１３の何れか１項に記載の画像収集制御方法が実現される
ことを特徴とするコンピュータプログラム。