JP2022522375A - 画像収集制御方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム - Google Patents

画像収集制御方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022522375A
JP2022522375A JP2021552212A JP2021552212A JP2022522375A JP 2022522375 A JP2022522375 A JP 2022522375A JP 2021552212 A JP2021552212 A JP 2021552212A JP 2021552212 A JP2021552212 A JP 2021552212A JP 2022522375 A JP2022522375 A JP 2022522375A
Authority
JP
Japan
Prior art keywords
image
neural network
sample
image sample
processing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021552212A
Other languages
English (en)
Inventor
佳彬 馬
哲▲チィー▼ 何
坤 王
星宇 曽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime Group Ltd
Original Assignee
Sensetime Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime Group Ltd filed Critical Sensetime Group Ltd
Publication of JP2022522375A publication Critical patent/JP2022522375A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本発明の実施形態は、画像収集制御方法および装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラムを提供する。当該画像収集制御方法は、第1画像サンプルセットを第1ニューラルネットワークに提供するステップと、前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、前記第1画像サンプルセット中から第1困難サンプルを選別するステップと、前記第1困難サンプルに基づいて確定前記困難サンプルの収集環境情報;前記収集環境情報に基づいて、第2困難サンプルを含む第2画像サンプルセットの収集を指示するための画像収集制御情報を生成するステップと、を含む。【選択図】図1

Description

本発明は、コンピュータビジョン技術に関し、特に、画像収集制御方法、画像収集制御装置、電子デバイス、コンピュータ可読記憶媒体、及びコンピュータプログラムに関する。
困難サンプルとは、一般的に、ニューラルネットワークをトレーニングする過程で、ニューラルネットワークにエラーを発生させやすい画像サンプルを指す。困難サンプルを収集し、困難サンプルを利用してニューラルネットワークに対してトレーニングを実行すると、ニューラルネットワークの性能の向上に有利である。
本発明の実施形態の1態様によると、画像収集制御方法を提供し、当該方法は、第1画像サンプルセットを第1ニューラルネットワークに提供するステップと、前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、前記第1画像サンプルセット中から第1困難サンプルを選別するステップと、前記第1困難サンプルに基づいて前記第1困難サンプルの収集環境情報を確定するステップと、前記収集環境情報に基づいて、第2困難サンプルを含む第2画像サンプルセットの収集を指示するための画像収集制御情報を生成するステップと、を含む。
本発明の1実施形態において、前記第1画像サンプルセットは、ラベル情報を有さない第1画像サンプルを含む。
本発明のもう1実施形態において、前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、前記第1画像サンプルセット中から第1困難サンプルを選別するステップは、前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出するステップと、検出された不正確な処理結果に対応する第1画像サンプルに基づいて前記第1困難サンプルを確定するステップと、を含む。
本発明の別の1実施形態において、前記第1画像サンプルセットは、時系列で連続する複数のビデオフレームサンプルを含み、前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出するステップは、前記第1ニューラルネットワークが前記複数のビデオフレームサンプルに基づいてそれぞれ出力した複数の目標対象検出結果に対して、目標対象連続性検出を実行するステップと、前記複数の目標対象検出結果中の所定の連続性用件を満たさない1つまたは複数の目標対象検出結果を前記不正確な処理結果とするステップと、を含む。
本発明の別の1実施形態において、前記方法は、前記第1画像サンプルセットを第2ニューラルネットワークに提供するステップをさらに含み、前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出するステップは、前記第2ニューラルネットワークの前記第1画像サンプルに対する第2処理結果と前記第1ニューラルネットワークの前記第1画像サンプルに対する処理第1結果との間の差異を確定するステップと、前記差異が所定の差異用件を満たさない場合、前記第1処理結果を前記不正確な処理結果とするステップと、を含む。
本発明の別の1実施形態において、前記検出された不正確な処理結果に対応する第1画像サンプルに基づいて前記第1困難サンプルを確定するステップは、前記不正確な処理結果に対応するエラータイプを取得するステップと、ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第1画像サンプルを、前記第1困難サンプルとするステップと、を含む。
本発明の別の1実施形態において、前記第1ニューラルネットワークは、前記第1画像サンプル中の目標対象の検出に用いられ、前記画像収集制御方法は、前記不正確な処理結果に対応するエラータイプが、前記第1ニューラルネットワークが前記第1画像サンプルを検出して得た目標対象検出枠が不正確であることを表す場合、前記第1ニューラルネットワークに含まれた前記目標対象検出枠を検出するためのモジュールを調整するステップをさらに含む。
本発明の別の1実施形態において、前記方法は、前記不正確な処理結果に対応するエラータイプが撮影装置要因に関連している場合、前記撮影装置を変更するプロンプト情報を送信するステップをさらに含む。
本発明の別の1実施形態において、前記収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも1つを含む。
本発明の別の1実施形態において、前記収集環境情報は、道路区間情報を含み、前記収集環境情報に基づいて画像収集制御情報を生成するステップは、前記道路区間情報に基づいて前記第1困難サンプルとマッチングされる収集道路区間を確定するステップと、確定された前記収集道路区間を利用して、データ収集経路を生成し、撮影装置が前記データ収集経路に従って前記第2画像サンプルセットを収集するように指示するように、前記データ収集経路を画像収集制御情報中に含ませるステップを含む。
本発明の別の1実施形態において、前記方法は、前記第1困難サンプルをトレーニングサンプルセットに追加するステップと、前記トレーニングサンプルセットを利用して、前記第1ニューラルネットワークに対してトレーニングを実行して、調整後の第1ニューラルネットワークを得るステップと、をさらに含む。
本発明の別の1実施形態において、前記第1困難サンプルをトレーニングサンプルセットに追加するステップは、ラベル情報を有する第1困難サンプルを前記トレーニングサンプルセットに追加するステップを含み、前記トレーニングサンプルセットを利用して前記第1ニューラルネットワークに対してトレーニングを実行して、調整後の第1ニューラルネットワークを得るステップは、前記トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを前記第1ニューラルネットワークに提供するステップと、前記第1ニューラルネットワークのラベル情報を有する各々の第1困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、前記第1ニューラルネットワークのパラメータを調整し、調整後の第1ニューラルネットワークを得るステップと、を含む。
本発明の別の1実施形態において、前記方法は、前記第2画像サンプルセットを取得するステップと、前記第2画像サンプルセットを前記調整後の第1ニューラルネットワークに提供するステップと、前記調整後の第1ニューラルネットワークの前記第2画像サンプルセット中の各々の第2画像サンプルに対する処理結果に基づいて、前記第2画像サンプルセット中から前記第2困難サンプルを選別するステップと、をさらに含む。
本発明の実施形態の別の1態様によると、画像収集制御装置を提供し、当該装置は、第1画像サンプルセットを第1ニューラルネットワークに提供するための提供モジュールと、前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、前記第1画像サンプルセット中から第1困難サンプルを選別するための選別モジュールと、前記第1困難サンプルに基づいて前記第1困難サンプルの収集環境情報を確定するための環境確定モジュールと、前記収集環境情報に基づいて、第2困難サンプルを含む第2画像サンプルセットの収集を指示するための画像収集制御情報を生成するための収集制御モジュールと、を備える。
本発明の1実施形態において、前記第1画像サンプルセットは、ラベル情報を有さない第1画像サンプルを含む。
本発明のもう1実施形態において、前記選別モジュールは、前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出するための第1サブモジュールと、検出された不正確な処理結果に対応する第1画像サンプルに基づいて前記第1困難サンプルを確定するための第2サブモジュールと、を備える。
本発明の別の1実施形態において、前記第1画像サンプルセットは、時系列で連続する複数のビデオフレームサンプルを含み、前記第1サブモジュールは、さらに、前記第1ニューラルネットワークが前記複数のビデオフレームサンプルに基づいてそれぞれ出力した複数の目標対象検出結果に対して、目標対象連続性検出を実行し、前記複数の目標対象検出結果中の所定の連続性用件を満たさない1つまたは複数の目標対象検出結果を、前記不正確な処理結果とする。
本発明の別の1実施形態において、前記提供モジュールは、さらに、前記第1画像サンプルセットを第2ニューラルネットワークに提供し、前記第1サブモジュールは、さらに、前記第1画像サンプルセット中の各々の第1画像サンプルに対して、前記第2ニューラルネットワークの前記第1画像サンプルに対する第2処理結果と前記第1ニューラルネットワークの前記第1画像サンプルに対する第1処理結果との間の差異を確定し、前記差異が所定の差異用件を満たさない場合、前記第1処理結果を前記不正確な処理結果とする。
本発明の別の1実施形態において、前記第2サブモジュールは、さらに、前記不正確な処理結果に対応するエラータイプを取得し、ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第1画像サンプルを、前記第1困難サンプルとする。
本発明の別の1実施形態において、前記第1ニューラルネットワークが前記第1画像サンプル中の目標対象の検出に用いられる場合、前記装置は、前記不正確な処理結果に対応するエラータイプが、前記第1ニューラルネットワークが前記第1画像サンプルを検出して得た目標対象検出枠が不正確であることを表す場合、前記第1ニューラルネットワークに含まれた前記目標対象検出枠を検出するためのモジュールを調整するための最適化モジュールをさらに備える。
本発明の別の1実施形態において、前記第2サブモジュールは、さらに、前記不正確な処理結果に対応するエラータイプが撮影装置要因に関連している場合、前記撮影装置を変更するプロンプト情報を送信する。
本発明の別の1実施形態において、前記収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも1つを含む。
本発明の別の1実施形態において、前記収集環境情報は、道路区間情報を含み、前記収集制御モジュールは、さらに、前記道路区間情報に基づいて前記第1困難サンプルとマッチングされる収集道路区間を確定し、確定された前記収集道路区間を利用して、データ収集経路を生成し、撮影装置が前記データ収集経路に従って前記第2画像サンプルセットを収集するように指示するように、前記データ収集経路を画像収集制御情報中に含ませる。
本発明の別の1実施形態において、前記装置は、トレーニングモジュールをさらに備え、当該トレーニングモジュールは、前記第1困難サンプルをトレーニングサンプルセットに追加し、前記トレーニングサンプルセットを利用して、前記第1ニューラルネットワークに対してトレーニングを実行して、調整後の第1ニューラルネットワークを得る。
本発明の別の1実施形態において、前記トレーニングモジュールは、さらに、ラベル情報を有する第1困難サンプルを前記トレーニングサンプルセットに追加し、前記トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを前記第1ニューラルネットワークに提供し、前記第1ニューラルネットワークのラベル情報を有する各々の第1困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、前記第1ニューラルネットワークのパラメータを調整し、調整後の第1ニューラルネットワークを得る。
本発明の別の1実施形態において、前記提供モジュールは、さらに、前記第2画像サンプルセットを取得し、前記第2画像サンプルセットを前記調整後の第1ニューラルネットワークに提供し、前記選別モジュールは、さらに、前記調整後の第1ニューラルネットワークの前記第2画像サンプルセット中の各々の第2画像サンプルに対する処理結果に基づいて、前記第2画像サンプルセット中から前記第2困難サンプルを選別する。
本発明の実施形態の他の1態様によると、電子デバイスを提供し、当該電子デバイスは、コンピュータプログラムを記憶するためのメモリと、前記メモリに記憶されているコンピュータプログラムを実行することによって、本発明の任意の方法の実施形態を実現するためのプロセッサと、を備える。
本発明の実施形態の別の1態様によると、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、当該コンピュータプログラムがプロセッサによって実行されることによって、本発明の任意の方法の実施形態が実現される。
本発明の実施形態の別の1態様によると、コンピュータ命令を含むコンピュータプログラムを提供し、前記コンピュータ命令がプロセッサによって実行されることによって、本発明の任意の方法の実施形態が実現される。
本発明によって提供される画像収集制御方法および装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラムによると、本発明は、第1画像サンプルセットを第1ニューラルネットワークに提供し、その後、第1ニューラルネットワークの各々の第1画像サンプルに対する処理結果を利用して、第1画像サンプルセット中の第1困難サンプルを選別し、さらに、第1困難サンプルの収集環境情報を確定し、当該収集環境情報を利用して画像収集制御情報を生成することができ、本発明によって生成された画像収集制御情報の指示に従って、第2困難サンプルを含む第2画像サンプルセットを得ることができ、このような方式によって、得られた第1困難サンプルに基づいて、第2困難サンプルを得る方式を迅速かつ便利に確定でき、得られた第2困難サンプルと第1困難サンプルとの間には一定の関連が存在するため、関連される困難サンプルの収集効率を向上させ、いっそう多い困難サンプルを得ることができる。
また、本発明によって得られたいっそう多い困難サンプルは、ニューラルネットワークに対する最適化調整に使用され、ニューラルネットワークの処理性能を向上させることができる。
また、本発明は、第1画像サンプルに対してラベル付けを実行する必要なしに、ニューラルネットワークの第1画像サンプルに対する処理結果に基づいて第1困難サンプルを選別することができ、手作業によるラベル付けのコストの削減に有利であり、困難サンプルを確定する処理効率を改善できる。
以下、図面および実施形態によって、本発明のいくつかの実施例をさらに詳細に説明する。
以下の図面を参照する本発明のいくつかの実施例に対する詳細な叙述は、本発明をいっそう明確に理解するようにする。
本発明の実施例に係る画像収集制御方法のフローチャートである。 本発明の実施例に係るエラーを検出する1つのビデオフレームサンプルを例示した。 本発明の実施例に係るニューラルネットワークトレーニング方法のフローチャートである。 本発明の実施例に係る画像収集制御装置のブロック図である。 本発明の実施例に係る電子デバイスのブロック図である。
現在、図面を参照して本発明の各種の例示的な実施例を詳細に説明する。注意すべきことは、別途詳細に説明しない限り、これらの実施例に叙述された部品とステップの相対的な配置、数値条件式、及び数値は、本発明の範囲を制限しない。
同時に、理解すべきことは、叙述の便宜上、図面に示される各部分の寸法が実際の縮尺に応じて描かれるとは限らない。
以下では、少なくとも1例示的な実施例の叙述が実に説明的なものに過ぎず、決して本発明及びその応用や使用に対する如何なる制限にもならない。
当業者にとって既知の技術、方法及び機器について詳細に議論しないが、適切な場合には、前記技術、方法及び機器が明細書の一部と見なされるべきである。
注意すべきことは、類似する符号及びアルファベットが後の図面において類似する要素を示すため、ある要素が、1つの図面で定義されると、後の図面においてさらに議論される必要がない。
本発明の実施例は、端末デバイス、コンピュータシステム、サーバなどの電子デバイスに適用されることができ、他の多くの汎用または専用の計算システム環境または構成と一緒に動作することができる。端末デバイス、コンピュータシステム、および、サーバなどの電子デバイスとの一緒に使用に適した周知の端末デバイス、計算システム、環境、および/または、構成の例は、パーソナルコンピュータシステム、サーバーコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップ、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な消費電子製品、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム、および上記のシステムのいずれかを含む分散型クラウドコンピューティングテクノロジ環境などが含まれますが、これらに限定されない。
端末デバイス、コンピュータシステム、および、サーバなどの電子デバイスは、コンピュータシステムによって実行されるコンピュータシステムの実行可能な命令(プログラムモジュールなど)の一般的なコンテキストで説明できる。一般に、プログラムモジュールは、特定のタスクを実行し、特定の抽象データタイプを実装するルーチン、プログラム、対象プログラム、コンポーネント、ロジック、データ構造などを含む。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境に実現されることができる。分散型クラウドコンピューティング環境で、タスクは、通信ネットワークを介してリンクされたリモート処理装置によって実行される。分散型クラウドコンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカルまたはリモートコンピューティングシステムの記憶媒体に配置できる。
図1は、本発明の実施例に係る画像収集制御方法のフローチャートである。図1に示すように、当該実施例の方法は、ステップS100とS110とS120とS130とを含む。以下、各ステップを詳細に説明する。
S100において、第1画像サンプルセットを第1ニューラルネットワークに提供する。
ここで、本発明における第1画像サンプルセットは、撮影装置を利用して撮影した複数枚の写真、または、撮影装置を利用して撮影した時系列で連続する複数のビデオフレームなどを含むが、これらに限定されない。例えば、移動可能な物体上に配置された撮影装置によって撮影された複数枚の写真、または、撮影された複数のビデオフレームなどを含むが、これらに限定されない。上記の移動可能な物体は、車両、ロボット、機械臂、スライドレールなどを含むが、これらに限定されない。選択的に、本発明における撮影装置は、赤外線(Infrared、IR)カメラ、または、赤緑青(Red Green Blue、RGB)カメラなどを含んでもよいが、これらに限定されない。選択的に、複数の第1画像サンプルが複数のビデオフレームである場合、本発明の実施例において、複数の第1画像サンプルを、各ビデオフレーム間の時系列関係に従って、第1ニューラルネットワークに入力することができる。
選択的な1例において、本発明における第1ニューラルネットワークは、目標対象を検出するための第1ニューラルネットワークを含むが、これらに限定されない。当該第1ニューラルネットワークは、入力された第1画像サンプルセット中の第1画像サンプルに対して、目標対象の第1画像サンプルおける位置情報と分類情報を出力できるニューラルネットワークであり得る。選択的に、当該第1ニューラルネットワークは、残留ニューラルネットワーク、および、領域を有するいっそう高速な畳み込みニューラルネットワーク(Resnet+FasterRCNN)構成を使用するニューラルネットワークであり得、例えば、Resnet50+FasterRCNN構成を使用するニューラルネットワークであり得る。上記の位置情報は、目標対象の第1画像サンプルおける画像領域を表す。当該位置情報は、目標対象の検出枠の対角線上に位置する2個の頂点の座標を含むが、これらに限定されない。上記の分類情報は、目標対象が属されている種類を表す。当該種類は、歩行者、車両、樹木、建物、交通標識などを含むが、これらに限定されない。
選択的な1例において、本発明における第1画像サンプルセットは、ラベル情報を有さない第1画像サンプルを含んでもよい。第1画像サンプルがラベル情報を有さない場合、本発明の実施例は、ラベル情報を有さない複数の第1画像サンプルの中から第1困難サンプルを選び出すことができる。したがって、第1ニューラルネットワークを利用して第1画像サンプルセット中のラベル情報を有する第1画像サンプルに対してテストを実行し、テスト結果に基づいて第1困難サンプルを確定する実現形態と比較すると、本発明の実施例は、第1画像サンプルセット中の複数の第1画像サンプルに対してそれぞれラベル付けを実行する必要がないため、ラベル付けの作業量の削減に有利であり、さらに、困難サンプルを得るコストの削減に有利であり、また困難サンプルを得る効率の向上に有利である。
S110において、上記の第1ニューラルネットワークの第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、第1画像サンプルセット中から第1困難サンプルを選別する。
選択的な1例において、本発明は、第1ニューラルネットワークの第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出することによって、不正確な処理結果に対応する第1画像サンプルを得ることができ、検出された不正確な出力結果に対応する第1画像サンプルに基づいて、第1困難サンプルを確定することができる。
例えば、本発明は、検出された不正確な処理結果に対応する第1画像サンプルを直接第1困難サンプルとすることができる。本発明によると、検出された不正確な処理結果に対応する第1画像サンプルを直接第1困難サンプルとすることによって、各第1画像サンプルに対してラベル付けを実行する必要なしに、第1画像サンプルの中から第1困難サンプルを選び出すことができ、困難サンプルを得るコストの削減に有利である。
本発明においては、第1困難サンプルと下記に記載の第2困難サンプルとを困難サンプルとして総称することができることを理解すべきである。例示的に、困難サンプルは、画像サンプル収集段階でランダムに収集して得ることが非常に難しい画像サンプルとして理解することができる。第1ニューラルネットワークのトレーニング過程で、このような困難サンプルは、第1ニューラルネットワークの処理結果によりよくエラーが発生されるようにし、第1ニューラルネットワークの処理性能に影響を及ぼすため、第1ニューラルネットワークのトレーニング過程で、一定の量の困難サンプルを含むトレーニングサンプルセットを利用して第1ニューラルネットワークをトレーニングすると、トレーニングされた第1ニューラルネットワークの処理性能を向上させるのに役立つ。
さらに、例えば、本発明は、検出された不正確な処理結果に対応する第1画像サンプルのエラータイプ基づいて、複数の不正確な処理結果にそれぞれに対応する各第1画像サンプル中から第1困難サンプルを選び取ることができる。本発明は、エラータイプを利用して、複数の不正確な処理結果にそれぞれに対応する各第1画像サンプル中から第1困難サンプルを選び取ることによって、各第1画像サンプルに対してラベル付けを実行する必要なしに、第1画像サンプルセット中からいっそう精確に第1困難サンプルを選び出すことができ、困難サンプルを得るコストの削減に有利であり、また困難サンプルを得る正確性の向上に有利である。
選択可能な1形態において、本発明において、第1ニューラルネットワークの第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出する実現形態は、複数の形態があり得る。以下、2個の具体的な例を挙げる。
選択的な1例において、第1画像サンプルセットが時系列で連続する複数のビデオフレームサンプルを含む場合、本発明は、第1ニューラルネットワークが複数のビデオフレームサンプルに対して出力した目標対象検出結果に対して、目標対象連続性検出を実行し、所定の連続性用件を満たさない目標対象検出結果を、不正確な処理結果とすることができる。その後に、不正確な処理結果に対応する第1画像サンプルに基づいて、第1困難サンプルを確定することができる。
本発明における目標対象連続性検出は、目標対象フラッシュ出現検出とも呼ばれえる。つまり、複数のビデオフレームサンプルが時系列で連続されているため、複数のビデオフレームサンプル中の目標対象の存在も、一般的には、連続されている。例えば、1つの目標対象が時系列で連続する10個のビデオフレームサンプル内でいずれも存在し、その位置に変化が発生される可能性がある。もし、1つの目標対象が1つのビデオフレームサンプル中のみで出現され、その隣接する他のビデオフレームサンプル中で出現されていないと、当該目標対象が当該ビデオフレームサンプル中でフラッシュ出現されたと見なすことができ、当該ビデオフレームサンプル中に当該目標対象が存在しない可能性が大きい。第1ニューラルネットワークのエラー識別によって、当該ビデオフレームサンプル中に当該目標対象が存在すると見なすことになる。本発明は、目標対象フラッシュ出現検出を実行することによって、複数のビデオフレームサンプルの中から目標対象がフラッシュ出現されたビデオフレームサンプルを迅速に選び出すことによって、複数のビデオフレームサンプルに対してラベル付けを実行する必要なしに、複数のビデオフレームサンプルの中から第1困難サンプルを迅速に選び出すことができる。
もう選択的な1例において、上記の第1ニューラルネットワークは、コンピュータ、車載デバイス、携帯電話などにデバイスに配置することができ、配置される第1ニューラルネットワークは、一般的に、ネットワーク構成がより簡単であり、例えば、畳み込み層やプーリング層の数がより少ない。本発明は、第2ニューラルネットワークを別途に配置することができ、ここで、第2ニューラルネットワークのネットワーク複雑度は、第1ニューラルネットワークよりも高く、例えば、より多い深層の畳み込み層やプーリング層などを含む。このような場合、当該第2ニューラルネットワークが第1画像サンプルに対して処理を実行する精確度は、第1ニューラルネットワークが第1画像サンプルに対して処理を実行する精確度よりも高いことができる。したがって、本発明は、第1画像サンプルセット中の第1画像サンプルをそれぞれ第1ニューラルネットワークおよび第2ニューラルネットワークに提供することができ、第2ニューラルネットワークの精確度が第1ニューラルネットワークの精確度よりも高いため、第2ニューラルネットワークの第1画像サンプルに対する処理結果を標準として、第1ニューラルネットワークの第1画像サンプルに対する処理結果をチェックすることによって、第2ニューラルネットワークの複数の第1画像サンプルに対する処理結果と第1ニューラルネットワークの複数の第1画像サンプルに対する処理結果との間の差異を得、さらに、所定の差異用件を満たさない差異に対応する処理結果を不正確な処理結果とすることができる。その後に、不正確な処理結果に対応する第1画像サンプルに基づいて、第1困難サンプルを確定することができる。
選択的に、本発明における処理結果の差異は、目標対象の数の差異、目標対象の位置の差異、および、目標対象が属されている種類の中の少なくとも1つを含んでもよいが、これらに限定されない。
1番目の例において、任意の第1画像サンプルに対して、第2ニューラルネットワークが当該第1画像サンプルに対して検出した目標対象の数を取得し、また第1ニューラルネットワークが当該第1画像サンプルに対して検出した目標対象の数を取得し、この2個の数が同一でないと、当該数の差異が所定の差異用件を満たさないと見なし、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとすることができる。
2番目の例において、任意の第1画像サンプルに対して、第2ニューラルネットワークが当該第1画像サンプルに対して検出した各目標対象の位置情報(以下、第1位置情報と呼ぶ)を取得し、また第1ニューラルネットワークが当該第1画像サンプルに対して検出した各目標対象の位置情報(以下、第2位置情報と呼ぶ)を取得し、任意の第1位置情報に対して、当該第1位置情報と各第2位置情報との間の距離をそれぞれ算出し、その中から最小の距離を選択し、当該最小の距離が所定の最小の距離未満ではないと、距離差異が所定の差異用件を満たさないと見なして、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとすることができる。
3番目の例において、任意の第1画像サンプルに対して、第2ニューラルネットワークが当該第1画像サンプルに対して検出した各目標対象が属されている種類(以下、第1種類と呼ぶ)を取得し、第1ニューラルネットワークが当該第1画像サンプルに対して検出した各目標対象が属されている種類(以下、第2種類と呼ぶ)を取得する。任意の第2種類に対して、第1種類から構成されたセット中に当該第2種類と同一な種類が存在するか否かを判断し、同一な種類が存在しないと、当該種類差異が所定の差異用件を満たさないと見なして、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとすることができる。例示的に、第1画像サンプル中のコンテナに対して、第2ニューラルネットワークは、コンテナに対応する検出枠の種類がコンテナであると正確な識別することができ、第1ニューラルネットワークは、コンテナに対応する検出枠の種類をトラックとして識別する可能性があり、上記の判別方式を利用して、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとして確定することができる。
例えば、1つのビデオフレームサンプルに対して、第1ニューラルネットワークによって当該ビデオフレームサンプル中の柱状の隔離物体が歩行者として検出され、これは、第2ニューラルネットワークによって検出された隔離物体と一致せず、したがって、当該ビデオフレームサンプルを第1困難サンプルとすることができる。
さらに、例えば、図2に示した1つのビデオフレームサンプルの場合、第1ニューラルネットワークによって当該ビデオフレームサンプル中のトンネル口がトラックとして検出され、これは、第2ニューラルネットワークによって検出されたトンネルと一致せず、したがって、当該ビデオフレームサンプルを第1困難サンプルとすることができる。
選択的に、上記の3個の例は、任意に組み合わせて使用されることができる。
例えば、任意の第1画像サンプルに対して、第2ニューラルネットワークが当該第1画像サンプルに対して検出した目標対象の数と各目標対象の第1位置情報とを取得し、また第1ニューラルネットワークが当該第1画像サンプルに対して検出した目標対象の数と各目標対象の第2位置情報とを取得する。本発明は、この2個の数が同一でないと、当該数の差異が所定の差異用件を満たさないと見なして、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとすることができる。この2個の数が同一であると、本発明は、任意の第1位置情報に対して、当該第1位置情報と各第2位置情報との間の距離をそれぞれ算出し、その中から最小の距離を選択し、当該最小の距離が所定の最小の距離未満ではないと、距離差異が所定の差異用件を満たさないと見なして、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとすることができる。
さらに、例えば、任意の第1画像サンプルに対して、第2ニューラルネットワークが当該第1画像サンプルに対して検出した目標対象の数、各目標対象の第1位置情報、および、第1種類を取得し、また第1ニューラルネットワークが当該第1画像サンプルに対して検出した目標対象の数、各目標対象の第2位置情報、および、第2種類を取得する。本発明は、この2個の数が同一でないと、当該数の差異が所定の差異用件を満たさないと見なし、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとすることができる。本発明は、この2個の数が同一であると、任意の第1位置情報に対して、当該第1位置情報と各第2位置情報との間の距離をそれぞれ算出し、その中から最小の距離を選択し、当該最小の距離が所定の最小の距離未満ではないと、距離差異が所定の差異用件を満たさないと見なして、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとすることができる。本発明は、当該最小の距離が所定の最小の距離未満であると、当該最小の距離に関連する第1位置情報および第2位置情報にそれぞれに対応する目標対象の第1種類と第2種類とが同一であるか否かを判断し、同一ではないと、種類差異が所定の差異用件を満たさないと見なして、当該第1画像サンプルを不正確な処理結果に対応する第1画像サンプルとすることができる。
ここでは、互いに組み合わせる例を再度1つずつ説明しない。本発明は、第2ニューラルネットワークの第1画像サンプルに対する処理結果を標準として、第1ニューラルネットワークの第1画像サンプルに対する処理結果が正確であるか否かを判断することによって、第1画像サンプルセット中から不正確な処理結果に対応する第1画像サンプルを迅速かつ正確に選び出すことに有利であり、第1画像サンプルセット中から第1困難サンプルを迅速かつ正確に選び出すことに有利である。また、第2ニューラルネットワークを使用する実現形態において、本発明における第1画像サンプルセットは、時系列関係を有さない複数枚の画像を含んでもよいし、時系列関係を有する複数のビデオフレームサンプルを含んでもよく、したがって、困難サンプルが収集した適用範囲の改善に有利である。
選択的な1例において、本発明は、検出された不正確な処理結果に対応する各第1画像サンプルのエラータイプに基づいて、不正確な処理結果に対応する各第1画像サンプルの中から第1困難サンプルを選び取る1つの例は、以下であり得る。
まず、不正確な処理結果に対応するエラータイプを取得し、その後、ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第1画像サンプルを第1困難サンプルとする。本発明におけるエラータイプは、ニューラルネットワーク処理エラーのようなエラータイプに加えて、例えば、第1ニューラルネットワークが第1画像サンプルに対して検出を実行して得た目標対象検出枠が不正確であること、撮影装置要因などの、複数の種類のエラータイプをさらに含んでもよい。本発明は、これに対して限定しない。
選択的に、本発明は、目標対象が第1画像サンプル中で位置停滞現象が出現されたと判断すると、該当するエラータイプが、第1ニューラルネットワークが当該第1画像サンプルに対して検出を実行して得た目標対象検出枠が不正確であると見なすことができる。位置停滞現象とは、目標対象が撮影装置の視角範囲をすでに離したが、該当する第1画像サンプル中で当該目標対象が依然として存在すると検出されることを指すことができる。本発明は、第1画像サンプルに検出枠追跡アルゴリズムエラーが存在すると確定した場合、第1ニューラルネットワークに含まれた目標対象検出枠を検出するためのモジュールを調整することによって、第1ニューラルネットワークの検出枠追跡性能の向上に有利であり、いくつかの第1画像サンプルが誤って第1困難サンプルとされる現象の回避に有利であり、第1困難サンプルを得る正確性の向上に有利である。
選択的に、本発明は、第1画像サンプルに撮影装置要因のエラータイプが存在すると判断した場合、撮影装置を変更するプロンプト情報を送信することができる。1つの例として、撮影装置の原因によって、第1画像サンプル中の目標対象の色が歪まれると、撮影装置を交換するようにプロンプトすることができる。例えば、撮影装置によって撮影されたビデオフレームサンプル中の交通灯の色が歪まれていると(例えば、赤灯が黄灯の色に似ているなど)、撮影装置を交換するように提案することができる。本発明は、ビデオフレームサンプル中の該当する位置のところのピクセルグレー値などを検出する方式によって、色の歪み現象が存在するか否かを確定することができる。別の1つの例において、外光が強すぎるなどの原因で、第1画像サンプル中の目標対象の色が歪んでいると(例えば、ビデオフレームサンプル中の交通灯の色が歪まれるなどであり、本発明は、ビデオフレームサンプルのすべてのピクセルのグレー値の平均値を検出するなどの方式によって、外光が強すぎるなどの原因が存在する否かを確定する)、目標対象を判別する条件をさらに改善することができ、例えば、点灯している位置に基づいて交通灯が現在点灯されている色を判断することができる。
本発明は、第1画像サンプルに撮影装置要因のエラータイプが存在すると確定した場合、該当する是正措置を実行することによって、ニューラルネットワークの目標対象検出性能の向上に有利であり、またいくつかの第1画像サンプルが誤って第1困難サンプルとされる現象の回避に有利であり、第1困難サンプルを得る正確性の向上に有利である。
また、本発明は、第1画像サンプル中で検出された複数の地面標識の一致性に基づいて、当該第1画像サンプルに情況が複雑で判断し難いエラータイプが存在するか否かを判断することができ、例えば、第1ニューラルネットワークは、1つのビデオフレームサンプル中の地面上の複数の異なる方向の矢印(たとえば、左方向への矢印、右方向への矢印、および、前方向への矢印)がいずれも誤って前方向への矢印として検出されるため、当該ビデオフレームサンプルに情況が複雑で判断し難いエラータイプが存在すると判断することができる。本発明は、さらに、第1ニューラルネットワーク中に第1画像サンプルの矢印方向に対する識別処理過程を増加することによって、情況が複雑な現象を対処することができる。当然ながら、類似な第1困難サンプルを利用して第1ニューラルネットワークに対してトレーニングを繰り返して実行することによって、第1ニューラルネットワークが矢印の方向を正確に判断できるようにする。
選択的な1例において、本発明は、第1困難サンプルをトレーニングサンプルセットに追加し、その後、第1困難サンプルが含まれたトレーニングサンプルセットを利用して第1ニューラルネットワークに対してトレーニングを実行して、調整後の第1ニューラルネットワークを得ることができる。
例示的に、現在得られた第1困難サンプルに対してラベル付け処理を実行し、ラベル付け処理後の第1困難サンプルをトレーニングサンプルセットに追加して、第1ニューラルネットワークの最適化に利用することができる。
1実施形態において、トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを第1ニューラルネットワークに提供し、その後、第1ニューラルネットワークのラベル情報を有する各々の第1困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、第1ニューラルネットワークのパラメータを調整し、調整後の第1ニューラルネットワークを得ることができる。
もう1実施形態において、さらに、サンプルデータセット中の画像サンプルを利用してニューラルネットワークに対して前トレーニングを実行した後に、トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを利用して第1ニューラルネットワークに対してさらなるトレーニングを実行することによって、第1ニューラルネットワークのパラメータをさらに最適化することができる。さらに、例えば、第1ニューラルネットワークに対して前トレーニングを実行する過程で、一定の比率の第1困難サンプルを使用することができる。前トレーニングが終了した後、トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを利用して第1ニューラルネットワークに対してさらなるトレーニングを実行することによって、第1ニューラルネットワークのパラメータをさらに最適化し、調整後の第1ニューラルネットワークを得ることができる。
本発明における第1画像サンプルは、ラベル情報を有さないでもよく、したがって、本発明は、第1画像サンプルセット中から選び出した第1困難サンプルにのみラベル付けを実行することによって、第1画像サンプルセット中の各々の第1画像サンプルに対していずれもラベル付けを実行することを回避することができる。その後、ラベル付け後の第1画像サンプルを第1ニューラルネットワークに提供し、第1ニューラルネットワークによって出力された処理結果とラベル情報とに基づいて、第1画像サンプルセット中の第1困難サンプルを確定する。したがって、本発明は、困難サンプルを発見するためにラベル付けを実行する作業量を大幅に削減することができ、したがって、困難サンプルを得るコストの削減に有利であり、また困難サンプルを得る効率の向上に有利である。
S120において、第1困難サンプルに基づいて第1困難サンプルの収集環境情報を確定する。
選択的な1例において、本発明における収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも1つを含む。ここで、道路区間情報とは、第1困難サンプルを取得するときに、撮影装置が位置している道路情報を指すことができる。ここで、天気情報とは、撮影装置が第1困難サンプルを取得するときの天気状況を指すことができ、例えば、晴れ、曇り、雨、雪、季節、温度などであり得る。ここで、光強度情報とは、撮影装置が第1困難サンプルを取得するときに、撮影時間、撮影位置などの要因によって引き起こされる逆光や強い光の照射などの現象を指すことができる。
選択的な1例において、本発明は、ビデオの備考情報または写真の備考情報などに基づいて、第1困難サンプルの収集環境情報を確定することができる。本発明は、手動識別方式を使用して第1困難サンプルの収集環境情報を確定することができる。本発明は、第1困難サンプルの収集環境情報を確定する具体的な実現形態に対して限定しない。
S130において、収集環境情報に基づいて、第2困難サンプルを含む第2画像サンプルセットの収集を指示するための画像収集制御情報を生成する。
画像収集制御情報は、道路区間情報に基づいて生成したデータ収集経路、天気情報に基づいて生成したデータ収集天気環境、光強度情報に基づいて生成したデータ収集光照環境の中の少なくとも1種を含んでもよいが、これらに限定されない。
選択的な1例において、本発明は、収集環境情報が道路区間情報を含む場合、まず、第1困難サンプルが属されている道路区間情報に基づいて、データ収集経路の計画操作を実行することによって、データ収集経路を形成することができる。第1困難サンプルの数が複数であると、本発明によって形成されたデータ収集経路は、一般的に、複数の第1困難サンプルが属されている道路区間を含むことになる。例えば、本発明は、第1困難サンプルが属されている道路区間をいずれも入力として、地図ナビゲーションプリケーションに提供することによって、地図ナビゲーションプリケーションを利用して1本の経路を出力することができ、当該経路は複数の第1困難サンプルが属されている道路区間を含む。当該経路がデータ収集経路である。
選択的に、本発明は、撮影装置を有するデータ収集車を利用して当該データ収集経路に沿って走行し、走行過程で撮影を実行し、たとえば、写真またはビデオなどを撮影することによって、データ収集操作を実行することができる。また、データ収集操作を実行するとき、第1困難サンプルの収集環境情報中の天気、光強度などを考慮して、データ収集操作を実行する天気環境、光線環境などを決定することができる。例えば、晴れの日の朝で、データ収集車がデータ収集経路を沿って走行しながら撮影するようにすることによって、照射角度がより低い日光を向かって撮影された当該ストリートビューの複数枚の写真またはビデオを得ることができる。さらに、例えば、曇りの日の夕方で、データ収集車がデータ収集経路を沿って走行しながら撮影するようにすることによって、薄暗い当該ストリートビューの複数枚の写真またはビデオを得ることができる。
選択的な1例において、本発明は、画像収集制御情報を利用して収集された第2画像サンプルセット(たとえば、複数枚の写真またはビデオなど)を取得することができる。1実施形態において、第2画像サンプルセットを取得した後に、第2画像サンプルセットを調整後の第1ニューラルネットワークに提供し、さらに、調整後の第1ニューラルネットワークの第2画像サンプルセット中の各々の第2画像サンプルに対する処理結果に基づいて、第2画像サンプルセット中から第2困難サンプルを選別することができる。
本発明は、今回得た第2困難サンプルを利用して、再度上記のS100~S130を実行し、ここで、S100~S130を実行する過程で使用した第1ニューラルネットワークは、現在得た第1困難サンプルを含むトレーニングサンプルセットを利用してトレーニングを実行した後に得られた調整後の第1ニューラルネットワークであり得る。本発明によって提供される方法は、反復に実行することができ、第2画像サンプルセット中から第2困難サンプルを得、さらに、再度第3画像サンプルセット中から第3困難サンプルを得る。本発明は、上記のS100~S130を複数回繰り返した後(すなわち、本発明の方法を複数回反復した後)、困難サンプルの迅速な蓄積を実現することができる。
本発明は、現在得た第1困難サンプルの収集環境情報に基づいて確定した画像収集制御情報に基づいて、データ収集操作(たとえば、第1困難サンプルが属されている道路区間に基づいてデータ収集経路を計画するなど)を実行するため、第1困難サンプルと類似な写真またはビデオフレームを得る機会がいっそう多く、つまり、得た第2画像サンプルセットが第2困難サンプルを含む確率がいっそう高く、すなわち、本発明は類似な困難サンプルを再現させることができる。したがって、本発明は、困難サンプルの迅速な蓄積に有利であり、さらに、困難サンプルを得るコストの削減に有利であり、また困難サンプルを得る効率の向上に有利である。
図3は、本発明のニューラルネットワークのトレーニング方法の1実施例のフローチャートである。ニューラルネットワークが第1ニューラルネットワークである例を挙げる。図3に示すように、当該実施例の方法は、S300とS310とを含む。以下、各ステップを詳細に説明する。
S300において、トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを第1ニューラルネットワークに提供する。
選択的に、本発明におけるトレーニングサンプルセット中の第1困難サンプルは、上記の方法の実施形態に記載のステップを利用して得た第1困難サンプルを含む。トレーニングサンプルセット中の第1困難サンプルは、いずれもラベル情報を有する。
選択的に、本発明における第1ニューラルネットワークは、前トレーニングを実行した後のニューラルネットワークであり得る。また、当該第1ニューラルネットワークは、目標対象を検出するためのニューラルネットワークであり得、例えば、目標対象の位置と種類を検出するためのニューラルネットワークであり得る。
S310において、第1ニューラルネットワークのラベル情報を有する各々の第1困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、第1ニューラルネットワークのパラメータを調整し、調整後の第1ニューラルネットワークを得る。
選択的に、本発明は、第1ニューラルネットワークの複数の困難サンプルに対する出力、および、複数の第1困難サンプルのラベル情報に基づいて、損失を確定し、当該損失に基づいて第1ニューラルネットワークのパラメータを調整することができる。本発明におけるパラメータは、畳み込みカーネルパラメータ、および/または、マトリックス重みなどを含んでもよいが、これらに限定されない。
選択的な1例において、第1ニューラルネットワークに対するトレーニングが所定の反復条件に達した場合、今回のトレーニング過程を終了する。本発明における所定の反復条件は、第1ニューラルネットワークの第1困難サンプルに対する出力と第1困難サンプルのラベル情報との間の差異が所定の差異用件を満たすことを含んでもよい。当該差異が所定の差異用件を満たす場合、今回の第1ニューラルネットワークに対するトレーニングが正常に完成される。本発明における所定の反復条件は、さらに、第1ニューラルネットワークに対してトレーニングを実行するのに使用した第1困難サンプルの数が所定の数用件に達したことなどを含んでもよい。トレーニングを正常に完成した第1ニューラルネットワークは、目標対象の検出に使用されることができる。
図4は、本発明の画像収集制御装置の1実施例の構成の模式図である。図4に示した装置は、提供モジュール400と、選別モジュール410と、環境確定モジュール420と、収集制御モジュール430と、備える。選択的に、当該装置は、最適化モジュール440と、トレーニングモジュール450と、をさらに備えてもよい。以下、各モジュールをそれぞれ詳細に説明する。
提供モジュール400は、第1画像サンプルセットを第1ニューラルネットワークに提供する。ここでの第1画像サンプルセットは、ラベル情報を有さない第1画像サンプルを含んでもよい。提供モジュール400が具体的に実行する操作は、上記の方法の実施形態でのS100に対する説明を参照することができる。
選別モジュール410は、第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、第1画像サンプルセット中から第1困難サンプルを選別する。選択的に、選別モジュール410は、第1サブモジュールと第2サブモジュールとを備えてもよい。ここで、第1サブモジュールは、第1ニューラルネットワークの第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出する。例えば、第1サブモジュールは、第1画像サンプルセットが時系列で連続する複数のビデオフレームサンプルを含む場合、第1ニューラルネットワークが前記複数のビデオフレームサンプルに基づいて出力した目標対象検出結果に対して、目標対象連続性検出を実行し、所定の連続性用件を満たさない目標対象検出結果を、不正確な処理結果とすることができる。さらに、例えば、提供モジュール400が第1画像サンプルを第2ニューラルネットワークに提供する場合、第1サブモジュールは、第2ニューラルネットワークの第1画像サンプルに対する処理結果と第1ニューラルネットワークの第1画像サンプルに対する処理結果との間の差異を確定し、所定の差異用件を満たさない差異に対応する処理結果を、不正確な処理結果とすることができる。ここで、第2サブモジュールは、検出された不正確な処理結果に対応する第1画像サンプルに基づいて第1困難サンプルを確定する。例えば、第2サブモジュールは、不正確な処理結果に対応するエラータイプを取得し、ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第1画像サンプルを、第1困難サンプルとすることができる。選別モジュール410および当該モジュールに含まれるサブモジュールが具体的に実行する操作は、上記の方法の実施形態でのS110に対する説明を参照することができる。
環境確定モジュール420は、第1困難サンプルに基づいて第1困難サンプルの収集環境情報を確定する。ここでの収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも1つを含む。環境確定モジュール420が具体的に実行する操作は、上記の方法の実施形態でのS120に対する説明を参照することができる。
収集制御モジュール430は、収集環境情報に基づいて、第2困難サンプルを含む第2画像サンプルセットの収集を指示するための画像収集制御情報を生成する。選択的に、収集制御モジュール430は、収集環境情報が道路区間情報を含む場合、収集環境情報に含まれた道路区間情報に基づいて、第1困難サンプルとマッチングされる収集道路区間を確定し、確定された収集道路区間を利用して、データ収集経路を生成し、データ収集経路は、撮影装置がデータ収集経路にしたがって第2画像サンプルセットを収集するように指示する。
第1ニューラルネットワークが第1画像サンプル中の目標対象の検出に使用される場合、最適化モジュール440は、不正確な処理結果に対応するエラータイプが、第1ニューラルネットワークが第1画像サンプルに対して検出を実行して得た目標対象検出枠が不正確であることの場合、第1ニューラルネットワークに含まれた目標対象検出枠を検出するためのモジュールを調整する。このとき、第2サブモジュールは、不正確な処理結果に対応するエラータイプが撮影装置要因である場合、撮影装置を変更するプロンプト情報を送信する。最適化モジュール440が具体的に実行する操作は、上記の方法の実施形態での関連説明を参照することができる。
トレーニングモジュール450は、第1困難サンプルをトレーニングサンプルセットに追加し、第1困難サンプルが含まれたトレーニングサンプルセットを利用して、第1ニューラルネットワークに対してトレーニングを実行して、調整後の第1ニューラルネットワークを得る。また、トレーニングモジュール450は、さらに、第1困難サンプルに対してラベル付け処理を実行し、ラベル情報を有する第1困難サンプルをトレーニングサンプルセットに追加し、トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを第1ニューラルネットワークに提供し、第1ニューラルネットワークのラベル情報を有する各々の第1困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、第1ニューラルネットワークのパラメータを調整し、調整後の第1ニューラルネットワークを得ることができる。トレーニングモジュール450が具体的に実行する操作は、上記の方法の実施形態での図3に対する関連説明を参照することができる。
本発明における提供モジュール400は、さらに、第2画像サンプルセットを取得し、第2画像サンプルセットを調整後の第1ニューラルネットワークに提供することができる。選別モジュール410は、さらに、調整後の第1ニューラルネットワークの第2画像サンプルセット中の各々の第2画像サンプルに対する処理結果に基づいて、第2画像サンプルセット中から第2困難サンプルを選別することができる。収集制御モジュール430が具体的に実行する操作は、上記の方法の実施形態でのS130に対する説明を参照することができる。
図5は、本発明の実現に適した例示的な電子デバイス500である。電子デバイス500は、自動車に配置された制御システム/電子システム、移動端末(例えば、スマートフォンなど)、パーソナルコンピュータ(PC、例えば、デスクトップコンピュータまたはノートブックコンピュータなど)、タブレットコンピュータ、サーバなどであり得る。図5において、電子デバイス500は、1つまたは複数のプロセッサおよび通信部品を備える。前記1つまたは複数のプロセッサは、例えば、1つまたは複数の中央処理ユニット(CPU)501、および/または、1つまたは複数のグラフィックス処理ユニット(GPU)513などである。前記プロセッサは、読み取り専用メモリ(ROM)502内の実行可能命令、または、記憶部508からランダムアクセスメモリ(RAM)503にロードされる実行可能命令に応じて、さまざまな適切な動作および処理を実行することができる。通信部512は、ネットワークカードを含むことができるが、これに限定されない。前記ネットワークカードは、IB(Infiniband)ネットワークカードを含むことができるが、これに限定されない。プロセッサは、読み取り専用メモリ502および/またはランダムアクセスメモリ503と通信して実行可能命令を実行し、バス504を介して通信部512に接続され、通信部512を介して他の目標デバイスと通信することができる。それにより、本発明の該当する動作を完了する。
上記の各命令によって実行される操作は、上記の方法の実施例中の関連説明を参照すればよく、ここでは再度詳細に説明しない。なお、RAM503は、装置の操作に必要なさまざまなプログラムやデータを記憶することができる。CPU501、ROM502、および、RAM 503は、バス504を介して相互に接続される。
RAM503がある場合、ROM502は、オプションのモジュールである。RAM503は、実行可能命令を記憶するか、または、実行するときにROM502に対する実行可能命令の書き込みを実行する。実行可能命令により、プロセッサ501は前記の通信方法に対応する操作を実行する。入力/出力(I/O)インターフェース505もバス504に接続される。通信部512は、統合されて配置されてもよいし、複数のサブモジュール(例えば、複数のIBネットワークカード)を有し、バスを介して接続されてもよい。
キーボード、マウスなどを含む入力部506、カソード光線管(CRT)、液晶ディスプレイ(LDC)などおよびスピーカーなどを含む出力部507、ハードディスクなどを含む記憶部508、およびLANカード、モデムなどのネットワークインターフェースカードを含む通信部509が、コンポーネントがI/Oインターフェース505に接続される。通信部509は、インターネットなどのネットワークを介して通信処理を実行する。また、ドライバ510は、必要に応じてI/Oインターフェース505に接続される。必要に応じて、磁気ディスク、光ディスク、磁気光学ディスク、半導体メモリなどの取り外し可能な媒体511がドライバ510に装着される。その結果、読み取られたコンピュータプログラムが必要に応じて記憶部508にインストールされる。
なお、図5に示されるアーキテクチャは、1つのオプションの実現形態であり、具体的な実行プロセスでは、上述の図5の構成要素の数およびタイプは、実際の必要に応じて、選択、削除、増加、または置換することができる。異なる機能部品の設定について、分離可能な設定および統合可能な設定などの実現形態を採用でき、たとえば、GPUとCPUを分離可能に設定するか、または、GPUをCPUに統合可能な設定し、通信部を分離可能な設定するか、または、CPUやGPUに統合可能な設定してもよい。これらの切り替え可能な実施形態は、いずれも本発明の保護範囲内に入ることを特に説明するよう必要がある。
特に、本開示の実施形態によれば、上記のフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施形態は、機械読取可能媒体に有形に含まれるコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含み、プログラムコードは、本発明の実施形態によって提供される方法のステップを実行するステップに対応する命令を含むことができる。
そのような実施形態では、コンピュータプログラムは、通信部509を介してネットワークからダウンロードしてインストールされるか、および/または、取り外し可能媒体511からインストールされる。このコンピュータプログラムが中央処理装置(CPU)501によって実行されるとき、本発明の方法で規定された上述した機能が実行される。
1つまたは複数の選択的な実施形態において、本発明の実施例は、コンピュータ可読命令を記憶するためのコンピュータプログラム製品をさらに提供し、前記命令が実行されるときに、コンピュータが上記の任意の実施例に記載の画像収集制御方法または、ニューラルネットワークトレーニング方法を実行するようにする。
当該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェア、または、その組み合わせの方式によって実現できる。選択的な1例において、前記コンピュータプログラム製品は、具体的に、コンピュータ記憶媒体として具体化され、選択的なもう1例において、前記コンピュータプログラム製品は、具体的に、ソフトウェア開発キット(Software Development Kit、SDK)などの、ソフトウェア製品として具体化される。
1つまたは複数の選択的な実施形態において、本発明の実施例は、画像収集制御方法とニューラルネットワークトレーニング方法及び対応する装置、電子デバイス、コンピュータ記憶媒体、コンピュータプログラム、並びにコンピュータプログラム製品をさらに提供し、ここでの方法は、第1装置が第2装置に画像収集制御の指示またはニューラルネットワークトレーニングの指示を送信するステップであって、当該指示は、第2装置が、上記の任意の可能の実施例中の画像収集制御方法またはニューラルネットワークトレーニング方法を実行するようにするステップと、第1装置が第2装置によって送信された画像収集制御の処理結果またはニューラルネットワークトレーニングの結果を受信するステップと、を含む。
いくつかの実施例において、当該画像収集制御の指示またはニューラルネットワークトレーニングの指示は、具体的に、呼び出し命令であり得る。第1装置は、呼び出す方式によって、第2装置が、画像収集制御操作またはニューラルネットワークトレーニング操作を実行するように指示することができる。これに応じて、第2装置は、呼び出し命令が受信されたことに応答して、上記の画像収集制御方法またはニューラルネットワークトレーニング方法の中の任意の実施例中のステップおよび/またはフローを実行することができる。
本発明の実施例においての「第1」、「第2」などの用語は、区分するためのもので過ぎず、本発明の実施例に対する限定として理解してはいけないことを理解すべきである。さらに、本発明において、「複数」は、2つ以上を表し、「少なくとも1つ」は、1つまたは2つの以上を表すことができることを理解すべきである。さらに、本発明で言及された任意の1つの部品、データ、または、構成は、明確に限定されなかったか、または、前後の記述で反対の示唆がない場合、一般的に、1つまたは複数に理解され得ることを理解すべきである。さらに、本発明は、各々の実施例の説明に対して、主に各々の実施例同士の間の差異を強調し、同一または類似な部分は互いに参考でき、簡素化のために、1つずつ繰り返して説明しないことを理解すべきである。
本発明の方法および装置、電子デバイス、並びにコンピュータ可読記憶媒体は、多くの方法で実施することができる。例えば、本発明の方法、装置、および、システムは、ソフトウェア、ハードウェア、ファームウェア、または、ソフトウェアとハードウェアとファームウェアとの任意の組み合わせによって実現することができる。上記の方法のステップの順序は、説明するためのものであり、本明細書に記載の方法のステップは、上記で特に説明されていない限り、上記で特に説明された順序に限定されない。さらに、いくつかの実施形態で、本発明は、記録媒体に記録されたプログラムとして実施されることもでき、これらのプログラムは、本発明による方法を実施するための機械可読命令を含む。したがって、本発明は、本発明による方法を実行するためのプログラムを記憶する記録媒体もカバーする。
本発明の説明は、例示および説明のために提供されたものであり、漏れがないわけではないし、また、本発明は開示された形態に限定されるものではない。多くの修正と変化は、当業者にとって明らかである。実施形態の選択および記述は、本発明の原理および実際の応用をより良く説明し、当業者が、本発明を理解して、特定の用途に適した様々な修正を伴う様々な実施形態を設計できるようにする。
本発明は、出願日が2019年6月28日であり、出願番号が201910579147.3であり、発明名称が「画像収集制御方法、装置、媒体、及びデバイス」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み入れられる。

Claims (29)

  1. 画像収集制御方法であって、
    第1画像サンプルセットを第1ニューラルネットワークに提供するステップと、
    前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、前記第1画像サンプルセット中から第1困難サンプルを選別するステップと、
    前記第1困難サンプルに基づいて前記第1困難サンプルの収集環境情報を確定するステップと、
    前記収集環境情報に基づいて、第2困難サンプルを含む第2画像サンプルセットの収集を指示するための画像収集制御情報を生成するステップと、を含む
    ことを特徴とする前記方法。
  2. 前記第1画像サンプルセットは、ラベル情報を有さない第1画像サンプルを含む
    ことを特徴とする請求項1に記載の画像収集制御方法。
  3. 前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、前記第1画像サンプルセット中から第1困難サンプルを選別するステップは、
    前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出するステップと、
    検出された不正確な処理結果に対応する第1画像サンプルに基づいて前記第1困難サンプルを確定するステップと、を含む
    ことを特徴とする請求項2に記載の画像収集制御方法。
  4. 前記第1画像サンプルセットは、時系列で連続する複数のビデオフレームサンプルを含み、
    前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出するステップは、
    前記第1ニューラルネットワークが前記複数のビデオフレームサンプルに基づいてそれぞれ出力した複数の目標対象検出結果に対して、目標対象連続性検出を実行するステップと、
    前記複数の目標対象検出結果中の所定の連続性用件を満たさない1つまたは複数の目標対象検出結果を、前記不正確な処理結果とするステップと、を含む
    ことを特徴とする請求項3に記載の画像収集制御方法。
  5. 前記第1画像サンプルセットを第2ニューラルネットワークに提供するステップをさらに含み、
    前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出するステップは、
    前記第2ニューラルネットワークの当該第1画像サンプルに対する第2処理結果と前記第1ニューラルネットワークの当該第1画像サンプルに対する第1処理結果との間の差異を確定するステップと、
    前記差異が所定の差異用件を満たさない場合、前記第1処理結果を前記不正確な処理結果とするステップと、を含む
    ことを特徴とする請求項3に記載の画像収集制御方法。
  6. 前記検出された不正確な処理結果に対応する第1画像サンプルに基づいて前記第1困難サンプルを確定するステップは、
    前記不正確な処理結果に対応するエラータイプを取得するステップと、
    ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第1画像サンプルを、前記第1困難サンプルとするステップと、を含む
    ことを特徴とする請求項3乃至5の何れか1項に記載の画像収集制御方法。
  7. 前記第1ニューラルネットワークは、前記第1画像サンプル中の目標対象の検出に用いられ、
    前記画像収集制御方法は、
    前記不正確な処理結果に対応するエラータイプが、前記第1ニューラルネットワークが前記第1画像サンプルを検出して得た目標対象検出枠が不正確であることを表す場合、前記第1ニューラルネットワークに含まれた前記目標対象検出枠を検出するためのモジュールを調整するステップをさらに含む
    ことを特徴とする請求項6に記載の画像収集制御方法。
  8. 前記不正確な処理結果に対応するエラータイプが撮影装置要因に関連している場合、前記撮影装置を変更するプロンプト情報を送信するステップをさらに含む
    ことを特徴とする請求項6に記載の画像収集制御方法。
  9. 前記収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも1つを含む
    ことを特徴とする請求項1乃至8の何れか1項に記載の画像収集制御方法。
  10. 前記収集環境情報は、道路区間情報を含み、
    前記収集環境情報に基づいて画像収集制御情報を生成するステップは、
    前記道路区間情報に基づいて前記第1困難サンプルとマッチングされる収集道路区間を確定するステップと、
    確定された前記収集道路区間を利用して、データ収集経路を生成し、撮影装置が前記データ収集経路に従って前記第2画像サンプルセットを収集するように指示するように、前記データ収集経路を画像収集制御情報中に含ませるステップを含む
    ことを特徴とする請求項9に記載の画像収集制御方法。
  11. 前記第1困難サンプルをトレーニングサンプルセットに追加するステップと、
    前記トレーニングサンプルセットを利用して前記第1ニューラルネットワークに対してトレーニングを実行して、調整後の第1ニューラルネットワークを得るステップと、をさらに含む
    ことを特徴とする請求項1乃至10の何れか1項に記載の画像収集制御方法。
  12. 前記第1困難サンプルをトレーニングサンプルセットに追加するステップは、
    ラベル情報を有する第1困難サンプルを前記トレーニングサンプルセットに追加するステップを含み、
    前記トレーニングサンプルセットを利用して前記第1ニューラルネットワークに対してトレーニングを実行して、調整後の第1ニューラルネットワークを得るステップは、
    前記トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを前記第1ニューラルネットワークに提供するステップと、
    前記第1ニューラルネットワークのラベル情報を有する各々の第1困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、前記第1ニューラルネットワークのパラメータを調整し、調整後の第1ニューラルネットワークを得るステップと、を含む
    ことを特徴とする請求項11に記載の画像収集制御方法。
  13. 前記第2画像サンプルセットを取得するステップと、
    前記第2画像サンプルセットを前記調整後の第1ニューラルネットワークに提供するステップと、
    前記調整後の第1ニューラルネットワークの前記第2画像サンプルセット中の各々の第2画像サンプルに対する処理結果に基づいて、前記第2画像サンプルセット中から前記第2困難サンプルを選別するステップと、をさらに含む
    ことを特徴とする請求項11または12に記載の前記方法。
  14. 画像収集制御装置であって、
    第1画像サンプルセットを第1ニューラルネットワークに提供するための提供モジュールと、
    前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果に基づいて、前記第1画像サンプルセット中から第1困難サンプルを選別するための選別モジュールと、
    前記第1困難サンプルに基づいて前記第1困難サンプルの収集環境情報を確定するための環境確定モジュールと、
    前記収集環境情報に基づいて、第2困難サンプルを含む第2画像サンプルセットの収集を指示するための画像収集制御情報を生成するための収集制御モジュールと、を備える
    ことを特徴とする請求項に記載の画像収集制御装置。
  15. 前記第1画像サンプルセットは、ラベル情報を有さない第1画像サンプルを含む
    ことを特徴とする請求項14に記載の画像収集制御装置。
  16. 前記選別モジュールは、
    前記第1ニューラルネットワークの前記第1画像サンプルセット中の各々の第1画像サンプルに対する処理結果が正確であるか否かを検出するための第1サブモジュールと、
    検出された不正確な処理結果に対応する第1画像サンプルに基づいて前記第1困難サンプルを確定するための第2サブモジュールと、を備える
    ことを特徴とする請求項15に記載の画像収集制御装置。
  17. 前記第1画像サンプルセットは、時系列で連続する複数のビデオフレームサンプルを含み、
    前記第1サブモジュールは、
    前記第1ニューラルネットワークが前記複数のビデオフレームサンプルに基づいてそれぞれ出力した複数の目標対象検出結果に対して、目標対象連続性検出を実行し、
    前記複数の目標対象検出結果中の所定の連続性用件を満たさない1つまたは複数の目標対象検出結果を、前記不正確な処理結果とする
    ことを特徴とする請求項16に記載の画像収集制御装置。
  18. 前記提供モジュールは、さらに、前記第1画像サンプルセットを第2ニューラルネットワークに提供し、
    前記第1サブモジュールは、前記第1画像サンプルセット中の各々の第1画像サンプルに対して、
    前記第2ニューラルネットワークの当該第1画像サンプルに対する第2処理結果と前記第1ニューラルネットワークの当該第1画像サンプルに対する第1処理結果との間の差異を確定し、
    前記差異が所定の差異用件を満たさない場合、前記第1処理結果を前記不正確な処理結果とする
    ことを特徴とする請求項16に記載の画像収集制御装置。
  19. 前記第2サブモジュールは、
    前記不正確な処理結果に対応するエラータイプを取得し、
    ニューラルネットワーク処理エラーに属するエラータイプの処理結果に対応する第1画像サンプルを、前記第1困難サンプルとする
    ことを特徴とする請求項16乃至18の何れか1項に記載の画像収集制御装置。
  20. 前記第1ニューラルネットワークは、前記第1画像サンプル中の目標対象の検出に用いられ、
    前記画像収集制御装置は、
    前記不正確な処理結果に対応するエラータイプが、前記第1ニューラルネットワークが前記第1画像サンプルを検出して得た目標対象検出枠が不正確であることを表す場合、前記第1ニューラルネットワークに含まれた前記目標対象検出枠を検出するためのモジュールを調整するための最適化モジュールをさらに備える
    ことを特徴とする請求項19に記載の画像収集制御装置。
  21. 前記第2サブモジュールは、さらに、
    前記不正確な処理結果に対応するエラータイプが撮影装置要因に関連している場合、前記撮影装置を変更するプロンプト情報を送信する
    ことを特徴とする請求項19に記載の画像収集制御装置。
  22. 前記収集環境情報は、道路区間情報、天気情報、および、光強度情報の中の少なくとも1つを含む
    ことを特徴とする請求項14乃至21の何れか1項に記載の画像収集制御装置。
  23. 前記収集環境情報は、道路区間情報を含み、
    前記収集制御モジュールは、
    前記道路区間情報に基づいて前記第1困難サンプルとマッチングされる収集道路区間を確定し、
    確定された前記収集道路区間を利用して、データ収集経路を生成し、撮影装置が前記データ収集経路に従って前記第2画像サンプルセットを収集するように指示するように、前記データ収集経路を画像収集制御情報中に含ませる
    ことを特徴とする請求項22に記載の画像収集制御装置。
  24. トレーニングモジュールをさらに備え、
    トレーニングモジュールは、
    前記第1困難サンプルをトレーニングサンプルセットに追加し、
    前記トレーニングサンプルセットを利用して前記第1ニューラルネットワークに対してトレーニングを実行して、調整後の第1ニューラルネットワークを得る
    ことを特徴とする請求項14乃至23の何れか1項に記載の画像収集制御装置。
  25. 前記トレーニングモジュールは、
    ラベル情報を有する第1困難サンプルを前記トレーニングサンプルセットに追加し、
    前記トレーニングサンプルセット中のラベル情報を有する第1困難サンプルを前記第1ニューラルネットワークに提供し、
    前記第1ニューラルネットワークのラベル情報を有する各々の第1困難サンプルに対する処理結果と、対応するラベル情報との間の差異に基づいて、前記第1ニューラルネットワークのパラメータを調整し、調整後の第1ニューラルネットワークを得る
    ことを特徴とする請求項24に記載の画像収集制御装置。
  26. 前記提供モジュールは、さらに、
    前記第2画像サンプルセットを取得し、
    前記第2画像サンプルセットを前記調整後の第1ニューラルネットワークに提供し、
    前記選別モジュールは、さらに、
    前記調整後の第1ニューラルネットワークの前記第2画像サンプルセット中の各々の第2画像サンプルに対する処理結果に基づいて、前記第2画像サンプルセット中から前記第2困難サンプルを選別する
    ことを特徴とする請求項24または25に記載の画像収集制御装置。
  27. 電子デバイスであって、
    コンピュータプログラムを記憶するためのメモリと、
    前記メモリに記憶されているコンピュータプログラムを実行することによって、請求項1乃至13の何れか1項に記載の画像収集制御方法を実現するためのプロセッサと、を備える
    ことを特徴とする電子デバイス。
  28. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
    当該コンピュータプログラムがプロセッサによって実行されることによって、請求項1乃至13の何れか1項に記載の画像収集制御方法が実現される
    ことを特徴とするコンピュータ可読記憶媒体。
  29. コンピュータ命令を含むコンピュータプログラムであって、
    前記コンピュータ命令がプロセッサによって実行されることによって、請求項1乃至13の何れか1項に記載の画像収集制御方法が実現される
    ことを特徴とするコンピュータプログラム。
JP2021552212A 2019-06-28 2020-06-19 画像収集制御方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム Pending JP2022522375A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910579147.3 2019-06-28
CN201910579147.3A CN112149707B (zh) 2019-06-28 2019-06-28 图像采集控制方法、装置、介质及设备
PCT/CN2020/097232 WO2020259416A1 (zh) 2019-06-28 2020-06-19 图像采集控制方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
JP2022522375A true JP2022522375A (ja) 2022-04-18

Family

ID=73891383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021552212A Pending JP2022522375A (ja) 2019-06-28 2020-06-19 画像収集制御方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220114396A1 (ja)
JP (1) JP2022522375A (ja)
KR (1) KR20210119532A (ja)
CN (1) CN112149707B (ja)
WO (1) WO2020259416A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733666A (zh) * 2020-12-31 2021-04-30 湖北亿咖通科技有限公司 一种难例图像的搜集、及模型训练方法、设备及存储介质
CN113688975A (zh) * 2021-08-24 2021-11-23 北京市商汤科技开发有限公司 神经网络的训练方法、装置、电子设备及存储介质
CN114418021B (zh) * 2022-01-25 2024-03-26 腾讯科技(深圳)有限公司 模型优化方法、装置及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018060268A (ja) * 2016-10-03 2018-04-12 株式会社日立製作所 認識装置および学習システム
WO2018105122A1 (ja) * 2016-12-09 2018-06-14 富士通株式会社 教師データ候補抽出プログラム、教師データ候補抽出装置、及び教師データ候補抽出方法
JP2018206108A (ja) * 2017-06-06 2018-12-27 株式会社デンソー 情報処理システム、サーバおよび通信方法
JP2019087044A (ja) * 2017-11-07 2019-06-06 オムロン株式会社 検査装置、データ生成装置、データ生成方法及びデータ生成プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536178B2 (en) * 2012-06-15 2017-01-03 Vufind, Inc. System and method for structuring a large scale object recognition engine to maximize recognition accuracy and emulate human visual cortex
CN104361366B (zh) * 2014-12-08 2018-10-30 深圳市捷顺科技实业股份有限公司 一种车牌识别方法及车牌识别设备
CN105184226A (zh) * 2015-08-11 2015-12-23 北京新晨阳光科技有限公司 数字识别方法和装置及神经网络训练方法和装置
CN107220618B (zh) * 2017-05-25 2019-12-24 中国科学院自动化研究所 人脸检测方法及装置、计算机可读存储介质、设备
CN107403141B (zh) * 2017-07-05 2020-01-10 中国科学院自动化研究所 人脸检测方法及装置、计算机可读存储介质、设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018060268A (ja) * 2016-10-03 2018-04-12 株式会社日立製作所 認識装置および学習システム
WO2018105122A1 (ja) * 2016-12-09 2018-06-14 富士通株式会社 教師データ候補抽出プログラム、教師データ候補抽出装置、及び教師データ候補抽出方法
JP2018206108A (ja) * 2017-06-06 2018-12-27 株式会社デンソー 情報処理システム、サーバおよび通信方法
JP2019087044A (ja) * 2017-11-07 2019-06-06 オムロン株式会社 検査装置、データ生成装置、データ生成方法及びデータ生成プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LONG CHEN ET AL.: ""Deep Integration: A Multi-Label Architecture for Road Scene Recognition"", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 28, no. 10, JPN6022040614, 7 May 2019 (2019-05-07), US, pages 4883 - 4898, ISSN: 0004890042 *
藤田 一弥、高原 歩, 実装 ディープラーニング, vol. 第1版, JPN6022040615, 30 November 2016 (2016-11-30), JP, pages 47 - 80, ISSN: 0004890041 *

Also Published As

Publication number Publication date
CN112149707A (zh) 2020-12-29
KR20210119532A (ko) 2021-10-05
WO2020259416A1 (zh) 2020-12-30
CN112149707B (zh) 2024-06-14
US20220114396A1 (en) 2022-04-14

Similar Documents

Publication Publication Date Title
US11361428B1 (en) Technology for analyzing images depicting vehicles according to base image models
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110059608B (zh) 一种物体检测方法、装置、电子设备和存储介质
US9886771B1 (en) Heat map of vehicle damage
US10319094B1 (en) Technology for capturing, transmitting, and analyzing images of objects
US20220245792A1 (en) Systems and methods for image quality detection
US10657647B1 (en) Image processing system to detect changes to target objects using base object models
US11288789B1 (en) Systems and methods for repairing a damaged vehicle using image processing
US10706321B1 (en) Image processing system to align a target object in a target object image with an object model
US10636148B1 (en) Image processing system to detect contours of an object in a target object image
EP3937481A1 (en) Image display method and device
CN110956597A (zh) 用于车辆中的自动图像改善的设备和方法
JP2022522375A (ja) 画像収集制御方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
US9846927B2 (en) Systems and methods for haziness detection
JP2018092628A (ja) 航空画像からの自動物体検出のための方法およびシステム
CN110651301A (zh) 用于自动为夜视图像着色的方法和系统
CN110622211B (zh) 用于减少图像中的低频不均匀性的系统和方法
CN112862702A (zh) 图像增强方法、装置、设备及存储介质
CN113870263B (zh) 一种路面缺陷损伤实时监测方法及系统
CN115631344B (zh) 一种基于特征自适应聚合的目标检测方法
CN111881984A (zh) 一种基于深度学习的目标检测方法和装置
CN112132753B (zh) 多尺度结构引导图像的红外图像超分辨率方法及系统
CN113033715B (zh) 目标检测模型训练方法和目标车辆检测信息生成方法
US20210272300A1 (en) Automatic co-registration of thermal and visible image pairs
CN113272855B (zh) 用于重叠多图像应用的响应归一化

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210902

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230425