JP2021193552A

JP2021193552A - 広範囲の光強度を有するシーン内でのオブジェクト検出のためにニューラルネットワークを使用すること

Info

Publication number: JP2021193552A
Application number: JP2021072546A
Authority: JP
Inventors: アンドレアスムーアベック，; Muhrbeck Andreas; アントンヤコブソン，; Jakobsson Anton; ニクラススヴェンソン，; Svensson Niclas
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2020-05-07
Filing date: 2021-04-22
Publication date: 2021-12-23
Also published as: CN113627226A; KR20210136857A; TW202143119A; US20210350129A1

Abstract

【課題】高ダイナミックレンジ画像内のオブジェクトを検出する方法、システム及び非一時的コンピュータ可読記憶媒体を提供する。【解決手段】方法は、カメラによって記録されるシーンの、長露光画像および短露光画像をを含んだ画像のセットを受診するステップ１０２と、画像データ内のオブジェクト検出、オブジェクト分類及びオブジェクト認識のうちの１つ又は複数を実施する訓練済みニューラルネットワークによって画像のセットを処理するステップ１０４とを含む。長露光画像及び短露光画像は、非常に近接するか又はオーバーラップする時間にカメラによって記録される。ニューラルネットワークは、画像のセット内のオブジェクトを検出するために長露光画像と短露光画像の両方からの画像データを使用する。【選択図】図１

Description

本発明はカメラに関し、より具体的には、高ダイナミックレンジ（ＨＤＲ：ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅ）画像内のオブジェクトを検出すること、分類すること、および／または認識することに関する。

画像センサは、画像を取り込むために、携帯電話、カメラ、およびコンピュータ等の電子デバイス内で一般に使用される。典型的な配置構成において、電子デバイスは、単一画像センサおよび対応する単一レンズを備える。広範囲の光強度を有するシーンの静止画像またはビデオ画像を収集するとき等の、特定の用途において、飽和（すなわち、明る過ぎること）によって、または、従来のカメラによって取り込まれる画像の低い信号対雑音比（すなわち、暗過ぎること）によって、データを喪失しないために、ＨＤＲ画像を取り込むことが望ましい場合がある。ＨＤＲ画像を使用することによって、従来画像において普通なら失われるであろう、ハイライトおよび陰影詳細を保持することができる。

ＨＤＲ撮像は、典型的には、同じシーンの短露光と長露光をマージすることによって機能する。時として、２回以上の露光を含むことができる。複数回の露光が同じセンサによって取り込まれるため、露光はわずかに異なる時刻に取り込まれる必要があり、それは、モーションアーチファクトまたはゴースティング（ｇｈｏｓｔｉｎｇ）に関して時間的問題を引き起こす可能性がある。ＨＤＲ画像に関する別の問題は、トーンマッピングの副作用であるとすることができるコントラストアーチファクトである。そのため、ＨＤＲは、高コントラスト環境で画像を取り込むことに関連する問題の一部を軽減することができるが、対処される必要がある問題の異なるセットを同様に導入する。

第１の態様によれば、本発明は、シーンをモニターするカメラによって記録される画像を処理するための、コンピュータシステム内の方法に関する。方法は、
・画像のセットを受信することであって、画像のセットは、カメラによって記録されるシーンの、異なって露光された画像を含む、受信すること、および、
・画像データ内のオブジェクト検出、オブジェクト分類、およびオブジェクト認識のうちの１つまたは複数を実施するように構成される訓練済みニューラルネットワークによって画像のセットを処理することを含み、ニューラルネットワークは、画像のセット内のオブジェクトを検出するために、画像のセット内の少なくとも２つの異なって露光された画像からの画像データを使用する。

これは、少数の例を挙げると、モーションアーチファクト、ゴースティング、およびコントラスアーチファクトの形態の一般的なＨＤＲ画像問題を同時に回避しながら、ＨＤＲ撮像が慣例的に使用されることになるシーン内のオブジェクトを、検出する、分類する、および／または認識するための技法を改善する方法を提供する。マージされたＨＤＲ画像に対してではなく、カメラから受信された画像のセットに対して操作することによって、ニューラルネットワークは、より多くの情報にアクセスすることになり、また、オブジェクトをより正確に検出する、分類する、および／または認識することができる。ニューラルネットワークは、必要に応じて、サブネットワークを用いて拡張することができる。例えば、１つの実装態様において、オブジェクトの検出および分類用のニューラルネットワーク、ならびに、例えば、既知のオブジェクトインスタンスのデータベースを参照することによって、オブジェクトを認識するための別のサブネットワークが存在する場合がある。これは、本発明を、例えば、顔認識アプリケーションにおいて等、画像内のオブジェクトまたは人のアイデンティティが決定される必要があるアプリケーションにおいて適するようにさせる。方法は、有利には、モニタリングカメラ内に実装することができる。これは有利である。なぜならば、画像がカメラから送信されるときに、画像が、送信に適する形式にコーディングされなければならず、このコーディングプロセスにおいて、ニューラルネットワークがオブジェクトを検出し分類するために有用である情報の減少（ｌｏｓｓ）が存在する可能性があるからである。さらに、画像センサに非常に近接して方法を実装することは、良好な画像を得るために、画像センサ、光学部品、ＰＴＺモーター等のようなカメラ構成要素に対して調整が行われる必要がある場合に、いずれのレイテンシーも最小にする。そのような調整は、種々の実施形態によって、ユーザーが始動することができる、または、システムが自動的に始動することができる。

１つの実施形態によれば、画像のセットを処理することは、各画像について輝度チャネルのみを処理することを含むことができる。輝度チャネルは、オブジェクト検出および分類を可能にするのに十分な情報をしばしば含み、結果として、画像内の他のカラー空間情報を廃棄することができる。これは、ニューラルネットワークに送信される必要があるデータの量を低減するとともに、ニューラルネットワークのサイズも低減する。なぜならば、１画像当たり１チャネルのみが使用されるからである。

１つの実施形態によれば、画像のセットを処理することは、各画像について３つのチャネルを処理することを含むことができる。これは、ＲＧＢ、ＨＳＶ、ＹＵＶ等のような３つのカラー平面でコーディングされる画像が、画像のいずれのタイプの前処理を行う必要なく、ニューラルネットワークによって直接処理されることを可能にする。

１つの実施形態によれば、画像のセットは、異なる露光時間を有する３つの画像を含むことができる。多くの場合、ＨＤＲ画像を生成するカメラは、いろいろな露光時間を用いて画像を取り込む１つまたは複数のセンサを使用する。個々の画像は、（それらの画像をスティッチングしてＨＤＲ画像にするのではなく）ニューラルネットワークへの入力として使用することができる。

１つの実施形態によれば、処理することは、さらなる画像処理を実施する前にカメラ内で実施することができる。上記で述べたように、これは有利である。なぜならば、それが、カメラから送信される画像が処理されるときに起こる場合があるデータのいずれの損失（ｌｏｓｓ）も回避するからである。

１つの実施形態によれば、画像のセット内の画像は、画像センサからの未処理ベイヤー（Ｂａｙｅｒ）画像データを示す。ニューラルネットワークは、画像を「観察する（ｖｉｅｗ）」必要があるのではなく、値に対して操作するため、人が観察し理解することができる画像が作成される必要がないことになる場合が存在する。代わりに、ニューラルネットワークは、センサから出力される未処理ベイヤー画像データに対して直接操作することができ、それは、本発明の精度をなおさらに改善することができる。なぜならば、本発明が、ニューラルネットワークに画像センサデータが達する前に、さらに別の処理ステップを取り除くことができるからである。

１つの実施形態によれば、オブジェクトを検出するようにニューラルネットワークを訓練することは、いろいろな露光および変位条件下で描写される既知のオブジェクトのニューラルネットワークによって生成される画像を給送することによって行うことができる。既知のオブジェクトのアノテーション付き画像を含む公表されている多くの画像データバンクが存在する。これらの画像は、画像センサからニューラルネットワークへの到来データがどのようなものかをシミュレートするように、従来技法を使用して扱うことができる。そうして、また、どんなオブジェクトが画像内で描写されるかに関する情報と共に、これらの画像をニューラルネットワークに給送することによって、ニューラルネットワークを、カメラによって取り込まれるシーン内で現れる可能性があるオブジェクトを検出するように訓練することができる。さらに、この訓練は、大幅に自動化することができ、それは、訓練の効率を上げることになる。

１つの実施形態によれば、オブジェクトは移動オブジェクトであるとすることができる。すなわち、本発明の種々の実施形態は、静的オブジェクトだけでなく、移動オブジェクトにも適用することができ、それは、本発明の多用途性を増す。

１つの実施形態によれば、画像のセットは、時間的オーバーラップまたは時間的近接性を有する画像のシーケンス、異なる信号対雑音比を有する１つまたは複数のセンサから得られる画像のセット、異なる飽和レベルを有する画像のセット、および異なる解像度を有する２つ以上のセンサから得られる画像のセットであるとすることができる。例えば、いろいろな解像度またはいろいろなサイズを有する幾つかのセンサが存在する場合がある（大きいセンサは、単位面積当たりより多くの光子を受信し、しばしば光感受性が高い）。別の例として、１つのセンサは、「黒白（ｂｌａｃｋ−ａｎｄ−ｗｈｉｔｅ）」センサ、すなわち、カラーフィルターなしのセンサである場合があり、それは、より高い解像度およびより高い光感受性を提供することになる。さらに別の例として、２センサセットアップにおいて、センサの一方は、他のセンサより２倍速く、２つの「短露光画像（ｓｈｏｒｔｅｘｐｏｓｕｒｅｉｍａｇｅ）」を記録することができ、一方、「長露光画像（ｌｏｎｇｅｘｐｏｓｕｒｅｉｍａｇｅ）」は他のセンサによって記録される。すなわち、本発明は、任意の特定のタイプの画像に限定されるのではなく、代わりに、同じタイプの状況についてニューラルネットワークが訓練される限り、関心のシーンにおいてどんな撮像条件が利用可能であってもその撮像条件に適合することができる。

１つの実施形態によれば、オブジェクトは、人々、顔、乗り物、およびナンバープレートの１つまたは複数を含むことができる。これらは、正確な検出、分類、および認識を有することが重要であるシーンおよびアプリケーションにおいて一般に識別されるオブジェクトである。一般的に言えば、本明細書で述べる方法は、目の前にある特定の使用事例について対象となる場合がある任意のオブジェクトに適用することができる。この文脈における乗り物は、少数の例を挙げると、自動車、バス、モペッド、オートバイ、スクーター等のような任意のタイプの乗り物を指すことができる。

第２の態様によれば、本発明は、シーンをモニターするカメラによって記録される画像を処理するためのシステムに関する。メモリは、プロセッサによって実行されると、プロセッサに方法を実施するようにさせる命令を含み、方法は、
・画像のセットを受信することであって、画像のセットは、カメラによって記録されるシーンの、異なって露光された画像を含む、受信すること、および、
・画像データ内のオブジェクト検出、オブジェクト分類、およびオブジェクト認識のうちの１つまたは複数を実施するように構成される訓練済みニューラルネットワークによって画像のセットを処理することを含み、ニューラルネットワークは、画像のセット内のオブジェクトを検出するために、画像のセット内の少なくとも２つの異なって露光された画像からの画像データを使用する。

システムの利点は、方法の利点に対応し、また、同様に変動することができる。

第３の態様によれば、本発明は、シーンをモニターするカメラによって記録される画像を処理するためのコンピュータプログラムに関する。コンピュータプログラムは、
・画像のセットを受信するステップであって、画像のセットは、カメラによって記録されるシーンの、異なって露光された画像を含む、受信するステップ、および、
・画像データ内のオブジェクト検出、オブジェクト分類、およびオブジェクト認識の１つまたは複数を実施するように構成される訓練済みニューラルネットワークによって画像のセットを処理するステップであって、ニューラルネットワークは、画像のセット内のオブジェクトを検出するために、画像のセット内の少なくとも２つの異なって露光された画像からの画像データを使用する、処理するステップ
に対応する命令を含む。

コンピュータプログラムは、方法の利点に対応する利点を含み、同様に変動する場合がある。

本発明の１つまたは複数の実施形態の詳細は、添付図面および以下の説明において述べられる。本発明の他の特徴および利点は、説明および図面からまた特許請求の範囲から明らかになる。

１つの実施形態による、シーンをモニターするカメラによって記録される画像内のオブジェクトを検出し分類するための方法を示すフローチャートである。１つの実施形態による、シーンを取り込むカメラおよび画像データを処理するためのニューラルネットワークを示す概略図である。

種々の図面内の同様の参照符号は同様の要素を示す。

概要
上述したように、本発明の種々の実施形態に関する目標は、ＨＤＲ撮像状況において、オブジェクトを検出する、分類する、および／または認識するための改良型技法を提供することである。本発明は、画像内のオブジェクトを検出するように訓練することができる畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）が、同じシーンを描写するが、異なる露光を用いて取り込まれる画像のセット内のオブジェクトを、画像のセット内の画像を共に処理することによって、検出するように訓練することもできるという認識に端を発する。すなわち、ＣＮＮは、従来のアプリケーションの場合にそうであるように、最初にＨＤＲ画像を作成しなければならず、その後、ＨＤＲ画像内でオブジェクトを検出するのではなく、入力画像のセットに対して直接操作することができる。結果として、本明細書で述べる種々の実施形態による、特別に設計され訓練されたＣＮＮと連携するカメラシステムは、従来のＣＮＮと共にＨＤＲカメラを使用する現行のシステムと比べて、異なる照明条件を扱うことができる。さらに、作成されたＨＤＲ画像と対照的に幾つかの画像を使用することによって、種々のタイプの画像解析をそれに対して行うことができるより多くのデータが利用可能であり、それは、従来の技法と比較して、より正確なオブジェクト検出、分類、および認識につながる可能性がある。上記で述べたように、画像センサに非常に近接して方法を実装することは、良好な画像を得るために、画像センサ、光学部品、ＰＴＺモーター等のようなカメラ構成要素に対して調整が行われる必要がある場合に、いずれのレイテンシーも最小にすることを可能にする。

ＣＮＮのための訓練用データは、例えば、オブジェクトの人工的に適用される異なる露光および移動を有する画像のセットを達成するために、雑音モデルおよびデジタル利得または飽和ならびに異なるフレーム間で起こる場合があるオブジェクト移動をシミュレートするためのオブジェクトについての移動を、アノテーション付き画像を有するオープンデータセットに適用することによって、生成することができる。当業者が認識するように、訓練は、カメラによってモニターされるシーン内の目の前にある特定の監視状況のために適合することもできる。種々の実施形態は、ここで、例としてまた図を参照してさらに詳細に述べられる。

用語
用語の以下のリストは、種々の実施形態を述べるときに以下で使用される。

シーン−そのサイズおよび形状が、シーンを記録するカメラの視野によって規定される３次元物理的空間。

オブジェクト−見て触れることができる物質的なもの。シーンは、典型的には、１つまたは複数のオブジェクトを含む。オブジェクトは、静止している（例えば、建物および他の構造）かまたは移動している（例えば、乗り物）とすることができる。本明細書で使用されるオブジェクトはまた、人々、および、動物、木等のような他の生体を含む。オブジェクトは、オブジェクトが共有する一般的な特徴に基づいて、クラスに分割することができる。例えば、１つのクラスは「自動車（ｃａｒ）」であるとすることができ；別のクラスは「人々（ｐｅｏｐｌｅ）」であるとすることができ；さらに別のクラスは「家具（ｆｕｒｎｉｔｕｒｅ）」であるとすることができる等である。各クラス内に、益々細かいレベルのサブクラスが存在することができる。

畳み込みニューラルネットワーク（ＣＮＮ）−視覚心像（ｖｉｓｕａｌｉｍａｇｅｒｙ）を解析することに対して最も一般的に適用されるディープニューラルネットワークのクラス。ＣＮＮは、入力画像を収集し、画像内の種々のオブジェクトに重要性（学習可能な重みおよびバイアス）を割り当て、１つのオブジェクトを別のオブジュエクトから区別する。ＣＮＮは、当業者によく知られており、したがって、それらの内部の働きは、本明細書で詳細に規定されるのではなく、むしろ、本発明の文脈におけるそれらのアプリケーションが以下で述べられるであろう。

オブジェクト検出−画像（典型的には、シーンを記録するカメラからの画像）内の１つまたは複数のオブジェクトを検出するためにＣＮＮを使用するプロセス。すなわち、ＣＮＮは、「取り込まれる画像は何を示すか？」、またはより具体的には、「所定のクラスのオブジェクト（例えば、自動車、猫、犬、建物等）が画像内のどこに存在するか？」という質問に答える。

オブジェクト分類−１つまたは複数の検出されるオブジェクトの特定のインスタンスのアイデンティティではなく、そのクラスを決定するためにＣＮＮを使用するプロセス。すなわち、ＣＮＮは、「画像内の検出された犬はラブラドールであるかまたはチワワであるか？」または「画像内の検出された自動車はボルボであるかまたはメルセデスであるか？」等の質問に答えるが、「この個人は、アントンであるか、キクラスであるか、アンドレアスであるか？」等の質問に答えることができない。

オブジェクト認識−典型的には、一意のオブジェクトインスタンスの参照セットとの比較によって、オブジェクトのインスタンスのアイデンティティを決定するプロセス。すなわち、ＣＮＮは、画像内の人として分類されたオブジェクトを、既知の人のセットと比較し、「この画像内の人はアンドレアスである」可能性を決定することができる。

オブジェクトを検出し分類すること
以下の例の実施形態は、カメラによって記録されるシーン内のオブジェクトを検出し分類するために本発明をどのように使用することができるかを示す。図１は、１つの実施形態による、オブジェクトを検出し分類するための方法１００を示すフローチャートである。図２は、本発明を実装することができる実施形態を概略的に示す。方法１００は、カメラによってモニターされるシーン内のオブジェクトを効率的に検出し分類するために、特定のモニタリングシーンが要求すると、連続してまたは種々の間隔で自動的に実施することができる。

図２に見ることができるように、カメラ２０２は、人が存在するシーン２００をモニターする。方法１００は、カメラ２０２からシーン２００の画像を受信することによって始まる、ステップ１０２。示す実施形態において、３つの画像２０４、２０６、および２０８は、それぞれカメラから受信される。これらの画像は全て、同じシーン２００を描写するが、いろいろな露光条件下で描写する。例えば、画像２０４は短露光画像であるとすることができ、画像２０６は中間露光画像であるとすることができ、画像２０８は長露光画像であるとすることができる。典型的には、従来のＣＭＯＳセンサは、当業者によく知られているように、画像を取り込むためにカメラ２０２内で使用することができる。画像は、時間的に近い、すなわち、単一センサによって、互いに時間的に近くで取り込むことができる。画像は、例えば、カメラがデュアルセンサを使用する、例えば、長露光画像が取り込まれている間に、短露光画像が取り込まれる場合、時間的にオーバーラップすることもできる。多くの変形を、モニタリングシーンの目の前の特定の状況に基づいて実装することができる。

当業者によく知られているように、画像は、ＲＧＢ、ＹＵＶ、ＨＳＶ、ＹＣＢＣＲ等のような種々のカラー空間を使用して示すことができる。図２に示す実装態様において、画像２０４、２０６、および２０８内のカラー情報は、無視され、それぞれの画像についての輝度チャネル（Ｙ）のみが、ＣＮＮ２１０への入力として使用される。輝度チャネルは、オブジェクトを検出し分類するために使用することができる特徴に関して全ての「関連（ｒｅｌｅｖａｎｔ）」情報を含むため、カラー情報を廃棄することができる。さらに、これは、ＣＮＮ２１０のテンソル（すなわち、入力）の数を低減する。例えば、図２に示す特定の状況において、ＣＮＮ２１０は、３つのテンソル、すなわち、単一ＲＧＢ画像を処理するために慣例的に使用されることになる同じ数のテンソルを有することができる。

しかしながら、本発明の一般原理を、本質的に任意のカラー空間に拡張することができることが認識されるべきである。例えば、１つの実装態様において、ＣＮＮ２１０への入力として３つの画像のそれぞれについて単一輝度チャネルを提供する代わりに、ＣＮＮ２１０に、３つのＲＧＢ画像を給送することができ、その場合、ＣＮＮ２１０は、９のテンソルを有する必要があることになる。すなわち、入力としてＲＧＢ画像を使用することは、より大きいＣＮＮ２１０を必要とすることになるが、同じ一般原理が依然として適用されることになり、ＣＮＮ２１０に対する主要な設計変更は、１画像当たり１チャネルのみが使用されるときと比較して必要とされないことになる。

この一般的な考えは、なおさらに拡張することができ、それにより、幾つかの実装態様において、全てのピクセルについてＲＧＢ表現になるように、カメラ内の画像センサからの未処理データ（例えば、ベイヤーデータ）を補間する必要性が存在しない場合さえある。代わりに、センサからの未処理データそれ自身は、ＣＮＮ２１０のテンソルへの入力として役立つことができ、それにより、ＣＮＮ２１０をセンサそれ自身のさらに近くに移動させ、センサデータをＲＧＢ表現に変換するときに起こる場合があるデータ損失をさらに低減する。

次に、ＣＮＮ２１０は、受信画像データを処理して、オブジェクトを検出し分類する、ステップ１０４。これは、例えば、異なる露光を連結方式で（ｉｎｃｏｎｃａｔｅｎａｔｅｄｍａｎｎｅｒ）（すなわち、別個の連続チャネル、例えば、ｒロング、ｇロング、ｂロング、ｒショート、ｇショート、ｂショート内のデータを加算して）ＣＮＮ２１０に給送することによって行うことができる。ＣＮＮ２１０は、その後、異なる露光を用いて採取された情報にアクセスし、したがって、シーンについてのより豊かな理解を形成する。ＣＮＮ２１０は、その後、続けて、訓練済み畳み込みカーネルを使用することによって、異なる露光からのデータを抽出し処理し、結果として、最良の露光（複数可）からの情報で重み付けする。こうして画像データを処理するために、ＣＮＮ２１０は、ＣＮＮ２１０が受信する特定のタイプの入力に基づいてオブジェクトを検出し分類するように訓練されなければならない。ＣＮＮ２１０の事前訓練は、次のセクションで述べられる。

最後に、ＣＮＮ２１０による処理からの結果は、シーン内の分類済みオブジェクトのセット２１２として出力され、ステップ１０６、それはプロセスを終了させる。分類済みオブジェクトのセット２１２は、例えば、オブジェクト認識および同様のタスクを実施するために、人のユーザーによる検討または他のシステム構成要素によるさらなる処理を可能にすることになる任意の形態で出力することができる。一般的なアプリケーションは、人々および乗り物を検出し認識することを含むが、もちろん、本明細書で述べる原理は、カメラ２０２によって取り込まれるシーン２０２内に現れる場合がある任意の種類、タイプのオブジェクトを認識するために使用することができる。

ニューラルネットワークを訓練すること
上記で述べたように、ＣＮＮ２１０は、カメラ２０２によって取り込まれる画像内のオブジェクトを検出し分類するために使用することができる前に、訓練されなければならない。ＣＮＮ２１０のための訓練用データは、ＨＤＲカメラが慣例的に使用されることになる状況において起こる場合がある状態をシミュレートするために、アノテーション付き画像を有するオープンデータセットを使用し、種々のタイプの雑音モデルおよびデジタル利得／飽和ならびにオブジェクト移動を画像に適用することによって、生成することができる。「真値（ｇｒｏｕｎｄｔｒｕｔｈ）」（すなわち、顔、ナンバープレート、人間等のようなオブジェクトのタイプ）を同様にわかっていながら、人工的に適用される露光および移動を有する画像のセットを有することによって、ＣＮＮ２１０は、上記で論じたように、実際のＨＤＲ画像データを受信すると、オブジェクトを検出し分類することを学習することができる。幾つかの実施形態において、ＣＮＮ２１０は、有利には、現実の世界のセットアップで起こることになる雑音モデルおよびデジタル利得／飽和パラメータを使用して訓練される。換言すれば、ＣＮＮ２１０は、シーンにおいて使用されることになるカメラ、画像センサ、またはシステムを示す特定のパラメータを使用して変更される画像のオープンデータセットを使用して訓練される。

結びの言葉
上記の実施形態が、短、中間、および長露光時間を有する画像に関してそれぞれ述べられたが、同じ原理を、同じシーンの本質的に任意のタイプのいろいろな露光に適用することができることが留意されるべきである。例えば、センサ内の異なるアナログ利得は、（典型的には）センサからの読み出しにおける雑音レベルを低減することができる。同時に、シーンの或るより明るい部分は、露光時間が延長されるときに行われることと同様である方法で調整される。これは、画像内で異なるＳＮＲおよび飽和レベルをもたらし、それらは、本発明の種々の実装態様において使用することができる。同様に、上記の方法が、好ましくはカメラ２０２それ自身内で実施されるが、これが要件ではなく、画像データを、カメラ２０２から、おそらくはさらなる処理機器と共にＣＮＮ２１０がそこに位置する別の処理に送信することができることが留意されるべきである。

上記技法は単一ＣＮＮ２１０に関して述べられたが、これが例証のためにだけ行われること、および、現実の世界の実装態様において、ＣＮＮがニューラルネットワークの幾つかのサブセットを含むことができることが認識されるべきである。例えば、バックボーンニューラルネットワークは、特徴（例えば、「自動車」を示す特徴対「顔」を示す特徴）を見出すために使用することができる。別のニューラルネットワークは、シーン内に幾つかのオブジェクト（例えば、２台の自動車および３つの顔）が存在するか否かを判定することができる。さらに別のネットワークは、画像内のどのピクセルがどのオブジェクトに属するかを決定するために付加することができる等である。そのため、上記技法が顔認識のために使用される実装態様において、ニューラルネットワークの多数のサブセットが存在する場合がある。それによって、上記ＣＮＮ２１０を参照するとき、これが多数のニューラルネットワークを含むことができることが明らかであるべきである。

当業者によって認識されるように、本発明の態様は、システム、方法、またはコンピュータプログラム製品として具現化することができる。したがって、本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マクロコードなどを含む）、または、ソフトウェア態様およびハードウェア態様を組み合わせる実施形態の形態をとることができ、それら全てを、全体として本明細書で「回路（ｃｉｒｃｕｉｔ）」、「モジュール（ｍｏｄｕｌｅ）」、または「システム（ｓｙｓｔｅｍ）」と呼ぶことができる。さらに、本発明の態様は、コンピュータ可読プログラムコードがそこで具現化されている１つまたは複数のコンピュータ可読媒体（複数可）で具現化されるコンピュータプログラム製品の形態をとることができる。

１つまたは複数のコンピュータ可読媒体（複数可）の任意の組み合わせを利用することができる。コンピュータ可読媒体はコンピュータ可読信号媒体またはコンピュータ可読記憶媒体であるとすることができる。コンピュータ可読記憶媒体は、例えば、限定はしないが、電子、磁気、光、電磁、赤外、または半導体のシステム、装置、またはデバイス、あるいは上記の任意の適切な組み合わせであるとすることができる。コンピュータ可読記憶媒体のより特定の例（非網羅的リスト）は、以下：１つまたは複数のワイヤを有する電気接続、可搬型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、可搬型コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせを含むことになる。本文書の文脈で、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによってまたはそれに関連して使用するためのプログラムを収容または記憶することができる任意の有形媒体であるとすることができる。

コンピュータ可読信号媒体は、例えばベースバンドのまたは搬送波の一部としての、その中で具現されたコンピュータ可読プログラムコードを有する伝搬データ信号を含むことができる。そのような伝搬信号は、限定はしないが、電磁、光、またはその任意の適切な組み合わせを含む種々の形態の任意の形態をとることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、またはデバイスによってまたはそれに関連して使用するためのプログラムを、通信、伝搬、または輸送することができる任意のコンピュータ媒体であるとすることができる。

コンピュータ可読媒体上で具現化されるプログラムコードは、限定はしないが、無線、有線、光ファイバケーブル、ＲＦなど、または上記の任意の適切な組み合わせを含む任意の適切な媒体を使用して伝送することができる。本発明の態様についての動作を実施するためのコンピュータプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせで書くことができ、プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋、または同様なものなどのオブジェクト指向プログラミング言語、および、「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、ユーザーのコンピュータ上で完全に、ユーザーのコンピュータ上で部分的に、独立型ソフトウェアパッケージとして、ユーザーのコンピュータ上で部分的にかつリモートコンピュータ上で部分的に、あるいはリモートコンピュータまたはサーバー上で完全に実行することができる。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通してユーザーのコンピュータに接続することができる、または、接続は、（例えば、インターネットサービスプロバイダーを使用するインターネットを通して）外部コンピュータに対して行うことができる。

本発明の態様は、本発明の実施形態による、方法、装置（システム）、およびコンピュータプログラム製品のフローチャート図および／またはブロックダイヤグラムを参照して述べられる。フローチャート図および／またはブロックダイヤグラムの各ブロックならびにフローチャート図および／またはブロックダイヤグラム内のブロックの組み合わせは、コンピュータプログラム命令によって実装することができる。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータのプロセッサ、または他のプログラム可能データ処理装置に提供されて、コンピュータのプロセッサまたは他のプログラム可能データ処理装置によって実行される命令が、フローチャートおよび／またはブロックダイヤグラムの１つまたは複数のブロックで指定される機構／行為を実装するための手段を作成するような機械を生み出すことができる。

これらのコンピュータプログラム命令は同様に、コンピュータ可読媒体に記憶することができ、コンピュータプログラム命令は、コンピュータ可読媒体に記憶された命令が、フローチャートおよび／またはブロックダイヤグラムの１つまたは複数のブロックで指定される機構／行為を実装する命令を含む製造品を生み出すような特定の方法で機能するように、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスに指令することができる。

コンピュータプログラム命令は同様に、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされて、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、または他のデバイス上で実施させ、それにより、コンピュータまたは他のプログラム可能データ処理装置上で実行される命令が、フローチャートおよび／またはブロックダイヤグラムの１つまたは複数のブロックで指定される機構／行為を実装するためのプロセスを提供するようなコンピュータ実装式プロセスを生み出すことができる。

図のフローチャートおよび／またはブロックダイヤグラムは、本発明の種々の実施形態による、システム、方法、およびコンピュータプログラム製品の考えられる実装態様のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロックダイヤグラム内の各ブロックは、指定された論理機能（複数可）を実装するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の所定の部分を表すことができる。幾つかの代替の実装態様において、ブロックにおいて述べる機能は、図で述べる順序から外れて起こる場合がある。例えば、連続して示す２つのブロックは、実際には、実質的に同時に実行することができる、または、ブロックは、時として、関係する機能に応じて、逆順で実行することができる。ブロックダイヤグラムおよび／またはフローチャート図の各ブロックおよびブロックダイヤグラムおよび／またはフローチャート図内のブロックの組み合わせが、指定された機能または行為を実施するあるいは専用ハードウェアおよびコンピュータ命令の組み合わせを実施する専用ハードウェアベースシステムによって実装することができることも留意されるであろう。

本発明の種々の実施形態の説明は、例示のために提示されたが、網羅的であることまたは開示する実施形態に限定されることを意図されない。多くの修正および変形が、述べる実施形態の範囲および趣旨から逸脱することなく、当業者に明らかになるであろう。そのため、特許請求項の範囲に入る多くの他の変形を、当業者が想定することができる。

上記の実装態様が、例としてまたＣＮＮを参照して述べられたが、他のタイプのニューラルネットワークまたは他のタイプのアルゴリズムを使用し、同じまたは類似の結果を達成する実装態様が存在することもできることが留意されるべきである。そのため、他の実装態様はまた、添付特許請求項の範囲に入る。

本明細書で使用する用語は、実施形態の原理、実用的な用途、または市場で見出される技術に勝る技術的改善を最もよく説明するために、また、当業者が、本明細書で開示される実施形態を理解することを可能にするために選択された。

Claims

シーン（２００）をモニターするカメラ（２０２）によって記録される画像を処理するための方法であって、
画像（２０４、２０６、２０８）のセットを受信することであって、画像（２０４、２０６、２０８）の前記セットは前記シーン（２００）の長露光画像および短露光画像を含み、前記長露光画像および前記短露光画像は、非常に近接するかまたはオーバーラップする時間に前記カメラ（２０２）によって記録される、受信すること、および、
画像データ内のオブジェクト検出、オブジェクト分類、およびオブジェクト認識のうちの１つまたは複数を実施するように構成される訓練済みニューラルネットワーク（２１０）によって画像（２０４、２０６、２０８）の前記セットを処理することを含み、前記ニューラルネットワーク（２１０）は、画像（２０４、２０６、２０８）の前記セット内のオブジェクトを検出するために前記長露光画像と前記短露光画像の両方からの画像データを使用する、方法。
画像（２０４、２０６、２０８）の前記セットを処理することは、各画像について輝度チャネルのみを処理することを含む、請求項１に記載の方法。
画像（２０４、２０６、２０８）の前記セットを処理することは、各画像について３つのチャネルを処理することを含む、請求項１に記載の方法。
画像（２０４、２０６、２０８）の前記セットは、異なる露光時間を有する３つの画像を含む、請求項１から３のいずれか一項に記載の方法。
前記処理することは、さらなる画像処理を実施する前に前記カメラ（２０２）内で実施される、請求項１から４のいずれか一項に記載の方法。
画像（２０４、２０６、２０８）の前記セット内の前記画像は、画像センサからの未処理ベイヤー画像データを示す、請求項１に記載の方法。
いろいろな露光および変位条件下で描写される既知のオブジェクトのニューラルネットワークによって生成される画像を給送することによって、オブジェクトを検出するように前記ニューラルネットワーク（２１０）を訓練することをさらに含む、請求項１から６のいずれか一項に記載の方法。
前記オブジェクトは移動オブジェクトである、請求項１から７のいずれか一項に記載の方法。
画像（２０４、２０６、２０８）の前記セットは、時間的オーバーラップまたは時間的近接性を有する画像のシーケンス、異なる信号対雑音比を有する１つまたは複数のセンサから得られる画像のセット、異なる飽和レベルを有する画像のセット、および異なる解像度を有する２つ以上のセンサから得られる画像のセットのうちの１つである、請求項１から８のいずれか一項に記載の方法。
前記オブジェクトは、人々、顔、乗り物、およびナンバープレートの１つまたは複数を含む、請求項１から９のいずれか一項に記載の方法。
シーン（２００）をモニターするカメラ（２０２）によって記録される画像を処理するためのシステムであって、
メモリと、
プロセッサとを備え、
前記メモリは、前記プロセッサによって実行されると、前記プロセッサに方法を実施するようにさせる命令を含み、前記方法は、
画像（２０４、２０６、２０８）のセットを受信することであって、画像（２０４、２０６、２０８）の前記セットは、前記カメラ（２０２）によって記録される前記シーン（２００）の異なって露光された画像（２０４、２０６、２０８）を含む、受信すること、および、
画像データ内のオブジェクト検出、オブジェクト分類、およびオブジェクト認識のうちの１つまたは複数を実施するように構成される訓練済みニューラルネットワーク（２１０）によって画像（２０４、２０６、２０８）の前記セットを処理することを含み、前記ニューラルネットワーク（２１０）は、画像（２０４、２０６、２０８）の前記セット内のオブジェクトを検出するために、画像（２０４、２０６、２０８）の前記セット内の少なくとも２つの異なって露光された画像からの画像データを使用する、システム。
非一時的コンピュータ可読記憶媒体であって、プログラム命令が非一時的コンピュータ可読記憶媒体によって具現化されており、前記プログラム命令は、方法であって、
画像（２０４、２０６、２０８）のセットを受信することであって、画像（２０４、２０６、２０８）の前記セットは、カメラ（２０２）によって記録されるシーン（２００）の異なって露光された画像を含む、受信すること、および、
画像データ内のオブジェクト検出、オブジェクト分類、およびオブジェクト認識のうちの１つまたは複数を実施するように構成される訓練済みニューラルネットワーク（２１０）によって画像（２０４、２０６、２０８）の前記セットを処理することであって、前記ニューラルネットワーク（２１０）は、画像（２０４、２０６、２０８）の前記セット内のオブジェクトを検出するために、画像（２０４、２０６、２０８）の前記セット内の少なくとも２つの異なって露光された画像からの画像データを使用する、処理すること
を含む、方法を実施するようにプロセッサによって実行可能である、非一時的コンピュータ可読記憶媒体。