JP6842395B2

JP6842395B2 - ニューラルネットワークにトレーニングデータを提供するための画像解析アルゴリズムの使用

Info

Publication number: JP6842395B2
Application number: JP2017182561A
Authority: JP
Inventors: ニクラスダニエルソン，; ファン，シンダニエルソン
Original assignee: アクシスアーベー
Priority date: 2016-10-04
Filing date: 2017-09-22
Publication date: 2021-03-17
Anticipated expiration: 2037-09-22
Also published as: CN107895359A; EP3306528A1; KR20180037593A; US10496903B2; US20180096232A1; TW201814596A; CN107895359B; EP3306528B1; KR102203694B1; TWI735669B; JP2018101406A

Description

本発明は一般に、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするための方法、コンピュータプログラム、コンピュータ、およびシステムに関する。

画像処理では、多くのアプリケーションは、さまざまな画像領域に対してリソースの割り当てを変えることが必要となる。たとえば、圧縮パラメータは、画像のある種の特性に基づいて選択することが可能であり、或いは、画像領域は、送信信頼性と効率等との間のトレードオフを最適なものにするために、さまざまな程度のエラー修正を受けることがあり得る。特定の画像領域に割り当てられるべきリソースの量を決定するための画像領域の関連度の自動識別は、重要な問題であり、そのようなアルゴリズムを実行することはまた、貴重なＣＰＵ時間を必要とする場合もある。これは、たとえば多数のプログラムが、監視カメラのような組み込みプラットフォーム上で限られたリソースをめぐって競合する場合には、問題を生じる可能性がある。

したがって、このような状況において改善の必要がある。

欧州特許第３０２１５８３号明細書

上記のことを考慮して、本発明の目的は、上記で説明されている欠点の１つまたは複数を、解決するかまたは少なくとも低減することである。概して、上記の目的は、添付の独立請求項によって達成される。

第１の態様によれば、本発明は、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするための方法により実現される。方法は、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第１の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。

「ニューラルネットワーク」という用語は、本明細書のコンテキストでは、脳内のニューロンの巨大なネットワークと類似した、相互接続されたノード群として理解されたい。ニューラルネットワークはまた、「人工ニューラルネットワーク」（ＡＮＮ）と称されることもある。このコンテキストで使用され得るニューラルネットワークの特定のタイプは、畳み込みニューラルネットワーク（ＣＮＮ）である。「ディープラーニング」という用語もまた一般に使用される。

「関連度」という用語は、本明細書のコンテキストでは、画像内の対応する領域の画像コンテンツの（たとえばユーザにとっての）関心度の格付けとして理解されたい。言い換るならば、関連度は、画像内の領域（ピクセル群）に対応し、関連度は、その領域の画像コンテンツが画像の閲覧者にとってどの程度関心を引くものであるかを規定する。これは有利なことに、画像のビットレートバジェットを分配するために使用されてもよい。たとえば、関連度は、圧縮レベルの設定を通じて、対応する領域の圧縮度を制御するため、またはエンコーダがその領域のコーディングをどの程度積極的にスキップすべきかを決定するために使用されてもよい。関連度はさらに、たとえばエンコードされた画像を送信する際のエラー修正の度合いを決定するための、エラーコーディングの目的で使用されてもよい。画像の特定の領域の比較的高い関連度は、ビットレートバジェットのより大きい部分が、関連度のより低い別の画像領域と比較して、その特定の領域に費やされ得ることを意味する。

従来技術において関連度に代わって使用されることもあるその他の用語として、「関心領域」すなわち「ＲＯＩ」を挙げることができる。

「ピクセル群に関連度を自動的にラベル付けするように構成された画像解析アルゴリズム」という表現は、本明細書のコンテキストでは、その部分の画像特性（つまり画像解析）に基づいて画像の対応する領域（たとえばマクロブロック）の画像コンテンツの（たとえばユーザにとっての）関心度を自動的に（たとえば、コンピュータを用いて、人間の補助なしに）格付けするために使用され得る任意の適切なアルゴリズムとして理解されたい。画像特性は、たとえばデジタル画像の一部に存在するエッジ、ノイズの存在、繰り返しテクスチャ加工された部分、顔認識、オブジェクト検出などのように、空間的であってもよい。画像特性はまた、たとえば動き検出のように、時間的なものであってもよい。適切な画像解析アルゴリズムの例は、ＡｘｉｓＣｏｍｍｕｎｉｃａｔｉｏｎにより提供されるＺｉｐｓｔｒｅａｍアルゴリズムである。このアルゴリズムの一部は、たとえば欧州特許第３０２１５８３号明細書において説明されている。

本発明者らは、上記で説明されている既存の画像解析アルゴリズムを使用してトレーニングされるニューラルネットワークを採用することがいくつかの利点を有することに注目した。たとえば、ニューラルネットワークは極めて反復的ではあるが、極めて単純な膨大な量の計算によって機能するため、ニューラルネットワークの設計は、極めて単純で、ハードウェアの実装に十分に順応することができる。さらに、モデル圧縮の分野で現在進行中の研究は、監視カメラのような組み込みプラットフォーム上に置くことが徐々に実現可能になりつつあるニューラルネットワークを利用する。このように、監視カメラのような組み込みプラットフォームでニューラルネットワークを使用することは、カメラで実際の画像解析アルゴリズムを実行することよりも有利となり得る。

一部の実施形態によれば、第１の画像解析アルゴリズムは、ピクセル群の空間的統計測定値を計算することと、複数のデジタルトレーニング画像の画像シーケンスに時間フィルタリングを適用することによって、ピクセル群の時間的統計測定値を計算することであって、画像シーケンスは特定のデジタルトレーニング画像を含む、ピクセル群の時間的統計測定値を計算することと、を行うことにより、ピクセル群に関連度を自動的にラベル付けするように構成される。

次いで、２つの統計測定値は、ピクセル群の時間的統計測定値および空間的統計測定値を重み付けすることによって重み付け統計測定値を計算して、重み付け統計測定値に基づいてピクセル群に関連度をラベル付けするために使用され得る。使用される重みは、たとえば０．５、０．３、０．７のような静的な重みであってもよく、または関与する画像領域の画像特性に応じて異なっていてもよい。

一部の実施形態によれば、トレーニングデータセットを決定することは、第２の複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第２の画像解析アルゴリズムを使用することにより、第２の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することを含み、第２の画像解析アルゴリズムは第１の画像解析アルゴリズムとは異なる。

たとえば、（より少ない）複数の画像について、より複雑または特殊化された画像解析アルゴリズムが、たとえばデジタル画像の特定のコンテンツに関係するトレーニングデータをニューラルネットワークに提供するために採用されてもよい。そのような特定のコンテンツの例は、交通量を示す画像コンテンツか、または多くの人々がカメラのそばを通り過ぎるエントランスを示す画像コンテンツなどであってもよい。

本発明の実施形態の利点は、ニューラルネットワークが、正しくトレーニングされる場合、第１の画像解析アルゴリズムのような手作りのアルゴリズムと比較して、はるかに優れたパフォーマンスを有する可能性があることである。本発明の実施形態の利点は、膨大な量のトレーニングデータが、第１の画像解析アルゴリズムとの間で生成されて、そのアルゴリズムと同程度で実行するためのアルゴリズムを迅速に獲得できることである。その後、ニューラルネットワークは、第２の複数の画像およびそのレベル（第２の画像解析アルゴリズムによって決定される）のような、その他のより「高度な」トレーニングデータで微調整されてもよい。また、微調整が必要とするデータは通常、初期トレーニング（つまり、第１の複数の画像を使用すること）よりもはるかに少なくてすむ。言い換えるならば、第２のトレーニングを行う目的は、ユーザ固有の関連度を提供することである。画像のある区域は、一部のユーザにとっては重要であるが、その他のタイプの使用事例では関心を引くものではない。この第２のトレーニング（第２の複数の画像および第２の画像解析アルゴリズムを使用する）を追加することで、ビットレートバジェットはユーザの関連分野で容易に費やすことができる。

第２の複数のデジタルトレーニング画像は、第１の複数のデジタルトレーニング画像の一部である少なくとも１つのデジタルトレーニング画像を備えることができる。第２の複数のデジタルトレーニング画像は、たとえば、第１の複数のデジタルトレーニング画像のサブセットで構成されてもよい。第２の複数のデジタルトレーニング画像はまた、第１の複数のデジタルトレーニング画像の一部ではない少なくとも１つのデジタルトレーニング画像を備えることができる、つまり第２の複数のデジタルトレーニング画像は第１の複数のデジタルトレーニング画像のサブセットではない。

一部の実施形態によれば、トレーニングデータセットは、第１の複数のデジタルトレーニング画像の中の少なくとも１つのデジタルトレーニング画像のピクセル群に関連度を手動でラベル付けすることによってさらに決定される。その他の実施形態によれば、トレーニングデータセットは、第２の複数のデジタルトレーニング画像の中の少なくとも１つのデジタルトレーニング画像のピクセル群に関連度を手動でラベル付けすることによってさらに決定される。トレーニングデータセットの画像の中のピクセル群に手動でラベル付けすることは、トレーニングデータセットを微調整するために使用されてもよい。第２の複数の画像および第２の画像解析アルゴリズムの使用と併せて、上記で説明されているものと同じ論拠を使用すると、この実施形態では、ビットレートバジェットはユーザの関連分野で容易に費やすことができる。

第２の態様において、本発明は、処理機能を有するデバイスによって実行されるとき、第１の態様の方法を遂行するように適合された命令を伴うコンピュータ可読記憶媒体を備えるコンピュータプログラム製品を提供する。

第３の態様によれば、本発明は、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを備えるコンピュータを提供する。ニューラルネットワークのトレーニングは、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第１の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。

第４の態様において、本発明は、ビデオカメラおよびコンピュータを備えるシステムを提供する。コンピュータは、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを有し、ニューラルネットワークのトレーニングは、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第１の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。プロセッサは、結果として得られたトレーニングされたニューラルネットワークをカメラに提供するようにさらに構成され、カメラは、トレーニングされたニューラルネットワークを受信するように構築される。カメラは、複数のデジタル画像を取り込み、複数のデジタル画像の画像データをトレーニングされたニューラルネットワークに提供し、複数のデジタル画像の各特定のデジタル画像について、特定のデジタル画像のピクセル群に各々対応する複数の関連度を取得するように、さらに構築される。

「トレーニングされたニューラルネットワーク」という用語は、本明細書のコンテキストでは、たとえば、ニューラルネットワーク内のノードのセットアップ（ノードが相互接続される方法）、およびニューラルネットワークにおいて使用される重み（フィルタ、重みバンクなど）を指定するテキストファイルとして理解されたい。たとえばバイナリファイルを介するなど、コンピュータとカメラとの間でトレーニングされたニューラルネットワークを提供するその他の方法が、同様に可能である。

一部の実施形態によれば、カメラは、取得された関連度に従って特定のデジタル画像の圧縮度を制御することによって特定のデジタル画像をエンコードするようにさらに構築される。

圧縮度は、画像の特定の部分（領域、区域など）について圧縮比を設定することによって制御されてもよい。圧縮比は、たとえば０〜５１（Ｈ．２６４）、１〜２５５（ＶＰ９）、または１〜１００の範囲の、量子化パラメータ値、ＱＰ値によって具現化されてもよい。この説明において、「圧縮度」、「圧縮比」、および「圧縮レベル」という用語は、広い意味で、元の、圧縮解除された、ピクセルの表現よりも少ないビットを使用するピクセルのエンコーディングを示すために同義的に使用されることに留意されたい。上記で説明されているように、エンコーディングプロセスのその他の部分は、たとえば関連度に基づいてエンコードされた画像を送信する際のエラー修正の度合いを決定するために、エラーコーディングのような、関連度に基づいてもよい。

第２、第３、および第４の態様は概して、第１の態様と同じ特徴および利点を有することができる。

本発明の上記、ならびに追加の目的、特徴、および利点は、同じ参照番号が類似する要素について使用される添付の図面を参照して、本発明の実施形態の以下の例示的かつ非限定的な詳細な説明を通じてさらに深く理解されるであろう。

畳み込みニューラルネットワークを概略的に示す図である。実施形態によるニューラルネットワークがトレーニングされる方法を示す図である。実施形態によるビデオカメラおよびコンピュータを備えるシステムを示す図である。実施形態によるニューラルネットワークをトレーニングする方法を示す図である。

図１は、一例として畳み込みニューラルネットワーク（ＣＮＮ）１００を示す。この明細書のコンテキストでは、入力用デジタル画像におけるピクセル群の関連度を決定するためのＣＮＮの使用は単に一例に過ぎないことに留意されたい。たとえば別のタイプのフィードフォワードニューラルネットワーク（つまりＣＮＮ以外）、再帰型ネットワークなど、任意の適切なニューラルネットワークアーキテクチャが、この目的で採用されてもよい。ＣＮＮ１００において、畳み込みレイヤ１０２、および完全接続レイヤ１０４という２つのタイプのレイヤが存在することができる。完全接続レイヤは、２つ以上の出力を有するレイヤで置き換えられてもよいことが想定される。ＣＮＮ１００において、任意の数の２つの異なるレイヤが存在することができる。図１において、２つの畳み込みレイヤ１０２ａ、１０２ｂが存在する。畳み込みレイヤ１０２には、２つの回帰ヘッド１０４が追加される。回帰ヘッド１０４は、この例において、畳み込みレイヤ１０２から出力１０６を供給される完全接続レイヤ１０４ａ〜ｂ、１０４ｃ〜ｄのセットである。このコンテキストにおけるＣＮＮの利点は、（画像解析の目的に適合されたフィルタおよびフィルタ重みで構成された）畳み込みレイヤ１０２の同じセットが、関連度を決定する目的のために使用され得ることであってもよい。このセット１０２には、追加の回帰ヘッド１０４が追加されてもよい（畳み込みレイヤ１０２のセットはその他の画像解析の目的でトレーニングされたその他の回帰ヘッドにすでに接続されている）。次いで、追加の回帰ヘッドは、畳み込みレイヤ１０２からの出力データ１０６を使用して関連度を決定するためにトレーニングされてもよい。回帰ヘッド１０４の計算複雑性は、畳み込みレイヤ１０２のセットと比較すると低い場合が多く、そのためニューラルネットワーク１００を実行するハードウェアに追加の要求を加えることはほとんどない。

図２は、ニューラルネットワーク１００をトレーニングするように構築されたデバイス２００を一例として示す。トレーニングの実施形態は、これ以降、図２および図４と併せて説明される。デバイス２００は、処理機能を有する任意のデバイスであってもよく、これ以降、コンピュータ２００と称される。コンピュータ２００は、最初に複数のデジタルトレーニング画像２０８を受信することによって、トレーニングデータセット２１２を決定することができる。次いで、デジタルトレーニング画像２０８は、デジタルトレーニング画像２０８の各々におけるピクセル群に対する関連度を決定しＳ４０２、自動的にラベル付けするように構成される第１の画像解析アルゴリズム２０４に供給されてもよい。第１の画像解析アルゴリズム２０４は、一部の実施形態に従ってデジタルトレーニング画像の空間的統計測定値に重点を置くことができる。この場合、各デジタルトレーニング画像は、第１の画像解析アルゴリズム２０４によって個別に処理されてもよい。通常の空間的統計測定値は、エッジ検出、色分布、顔検出、および空間ノイズ検出であってもよい。代替的に、または追加的に、第１の画像解析アルゴリズム２０４はまた、デジタルトレーニング画像のシーケンスのオブジェクトの動きのような、デジタルトレーニング画像の時間的特徴を考慮に入れることもできる。この理由から、第１の画像解析アルゴリズムは、複数のデジタルトレーニング画像の画像シーケンスに時間的フィルタリングを適用することによって、各特定のデジタルトレーニング画像におけるピクセル群の時間的統計測定値を計算するように構成されてもよく、画像シーケンスは特定のデジタルトレーニング画像を含む。この場合、第１の画像解析アルゴリズム２０４は、アルゴリズムの１つの実行において、つまり特定のデジタルトレーニング画像における特定のピクセル群の時間的統計測定値を計算する際に、複数のデジタルトレーニング画像を考慮する必要がある。時間的統計測定値の例は、動き検出、時間ノイズ検出、画像間の照明条件の変化の検出などである。

空間的統計測定値および時間的統計測定値の両方がピクセルの特定群について計算される場合、第１の画像解析アルゴリズム２０４は、ピクセル群の時間的統計測定値および空間的統計測定値を重み付けすることによって重み付け統計測定値を計算し、重み付け統計測定値に基づいてピクセル群に関連度をラベル付けするように構成されてもよい。適用される重みは、０から１の任意の値であってもよく（時間的統計測定値および空間的統計測定値が正規化される場合、それ以外の場合はその他の範囲の重みが適用する）、第１の画像解析アルゴリズム２０４の対象分野に応じて決まる。

たとえば、第１の画像解析アルゴリズム２０４が、移動する人物を含む画像の部分にビットレートバジェットを費やすように適合される場合、アルゴリズムは、画像のそのような部分に高い関連度をラベル付けすべきである。第１の画像解析アルゴリズムは、この実施形態において、画像内のピクセル群が移動する人物に対応するかどうかを決定するために、対応する空間的および時間的統計測定値を計算する必要がある。もう１つの例は、第１の画像解析アルゴリズム２０４が街路を細部にわたり表示する保存区域に重点を置くように構築される（つまりビットレートバジェットがそのような区域に費やされる）ものであってもよく、この場合、計算される必要があるのは空間的統計測定値のみであってもよい。

要約すると、第１の画像解析アルゴリズム２０４は、各デジタルトレーニング画像２０８の特定のピクセル群に関連度を自動的にラベル付けするように構成される。この目的で第１の画像解析アルゴリズム２０４のみが使用される実施形態について、複数のデジタルトレーニング画像２０８および計算されたラベルは、トレーニングデータセット２１２を形成する。

一部の実施形態によれば、トレーニングデータセット２１２を決定することは、第２の複数のデジタルトレーニング画像を第２の画像解析アルゴリズム２０６を通じて実行することを含む。

第２の複数のデジタルトレーニング画像は、第１の複数のデジタルトレーニング画像２０８のサブセットであってもよい。

あるいは、第２の複数のデジタルトレーニング画像は、第１の複数のデジタルトレーニング画像２０８のサブセットではない。

たとえば、第２の複数のデジタルトレーニング画像は、たとえば交通状況、カジノ、小売店、銀行、航空機監視など、ニューラルネットワークのアプリケーションの特定の範囲を対象としてもよい。この理由により、これらの特定の状況も対象とすることができる第２の画像解析アルゴリズム２０６を使用してそのような状況を表示する画像２１０を解析することは有利となり得る。すなわち、一部の実施形態によれば、第１の画像解析アルゴリズム２０４は、各種の画像コンテンツで良好に機能するより汎用のアルゴリズムであってもよく、第２の画像解析アルゴリズム２０６は、特定の画像コンテンツを対象とする。一部の実施形態によれば、第１の画像解析アルゴリズム２０４は、計算複雑性がさほど高くはなく、そのため膨大な画像（たとえば＞１００００または＞１００００００）で実行することが可能であってもよく、第２の画像解析アルゴリズム２０６は、計算複雑性がより高くてもよい。

したがって、コンピュータ２００は、第２の複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第２の画像解析アルゴリズムを使用することにより、第２の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定するＳ４０４ように構築されてもよく、第２の画像解析アルゴリズムは第１の画像解析アルゴリズムとは異なる。上記で説明されているように、第１の画像解析アルゴリズムは、あらゆるタイプの入力画像で等しく良好に機能する汎用アルゴリズムであってもよく、第２の画像解析アルゴリズムは、よりプロファイルベースの解析を提供する（つまり一部の特定のコンテンツを備えるかまたは特定の状況を表示する画像を対象とする）ことができる。

一部の実施形態によれば、トレーニングデータセット２１２は、第１の複数のデジタルトレーニング画像の中の少なくとも１つのデジタルトレーニング画像のピクセル群に関連度を手動で（人物２１４により）ラベル付けすることによってさらに決定されるＳ４０６。代替的に、または追加的に、トレーニングデータセット２１２は、第２の複数のデジタルトレーニング画像の中の少なくとも１つのデジタルトレーニング画像のピクセル群に関連度を手動でラベル付けすることによってさらに決定される。この実施形態は、第１および／または第２の画像解析アルゴリズム２０４、２０６が関連度を正しくラベル付けできなかったデジタルトレーニング画像の一部の特定の特徴に対して、トレーニングデータセットが微調整される必要がある場合に有利となりうる。トレーニングデータセット２１２は、一部の実施形態により、少なくとも１つのさらなるデジタルトレーニング画像（第１／第２の複数のデジタルトレーニング画像の一部ではない）のピクセル群に関連度を手動でラベル付けすることによってさらに決定されてもよく、少なくとも１つのさらなるデジタルトレーニング画像および対応するラベルをトレーニングデータセットに含む。この実施形態は、図２には含まれていない。

したがって、トレーニングデータセット２１２は、第１および／または第２の画像解析アルゴリズム２０４、２０６によって解析された複数のデジタルトレーニング画像、および場合によっては人物２１４によって微調整されたラベルを備える。

次いで、トレーニングデータセット２１２は、ニューラルネットワーク１００をトレーニングするＳ４０８ために使用される。トレーニングデータセット２１２を使用してニューラルネットワーク１００をトレーニングすることは、当業者に実施が任せられ、使用されるニューラルネットワーク１００のアーキテクチャに従って行なわれる。一般に、ニューラルネットワークは、各入力用デジタル画像の関連度のマップを、トレーニングデジタル画像のピクセル群に対するグラウンドトゥルースとして損失関数およびラベルを使用して、その内部重みを調整することによって提供するようにトレーニングされる。損失関数は、たとえば、平均二乗誤差の最小化をもたらす、Ｌ２ノルムに基づいてもよい。損失関数は、たとえば、可能な関連度の数、入力データのサイズなどに基づいて規定されてもよい。損失関数が規定されている場合、重みは通常、たとえばオプティマイザの確率的勾配降下法アルゴリズムと共に標準化誤差逆伝播法を通じて更新される。当業者に知られているように、確率的勾配降下法は、トレーニング中の入力画像に基づいて望ましい出力を生成することに可能な限り近いモデルを取得するように、ニューラルネットワークの重みをいかにして更新するかを計算するための最もよく知られている方法である。

第２の複数のトレーニング画像がトレーニングに使用され、第１の複数のトレーニング画像のサブセットである場合、第２の複数のデジタルトレーニング画像およびその対応するラベルは通常、ニューラルネットワークが第１の複数のデジタルトレーニング画像でトレーニングされた後にニューラルネットワークのトレーニングに使用されることに留意されたい。

たとえば、トレーニング中に何万もの画像がニューラルネットワーク１００に入力され、トレーニングデジタル画像の一部ではないデジタル画像上で、ただしはるかに迅速かつ計算複雑性の低い方法で、第１および／または第２の画像解析アルゴリズム２０４、２０６に相当する（またはより良い）結果を生成することができるまで、ニューラルネットワーク１００の内部重みが調整される。

ニューラルネットワークの設計により、有利な使用領域は、特定用途向集積回路（ＡＳＩＣ）のような、ニューラルネットワークを実行するように特に設計されたハードウェアを備えるビデオカメラなどの低い使用可能計算リソース（たとえば、第１／第２の画像アルゴリズムを実行するのに十分ではない）を有し得るデバイスにある。そのため、デバイス２００は、そのようなデバイス３０４に、トレーニングされたニューラルネットワークを、たとえば無線ネットワーク３０２を介して提供するように構築されてもよく、それによってデバイスはトレーニングされたニューラルネットワークで構成されるＳ４１０。これは、図３に示される。トレーニングされたニューラルネットワークが、内部フィルタおよびトレーニングされたニューラルネットワークの重みを備えるテキストファイルのような、任意の適切な方法で配布されてもよいことに留意されたい。また、コンピュータメモリ（たとえば、ＵＳＢ）または有線接続のような、トレーニングされたニューラルネットワークのカメラへの配布の任意のその他の手段が使用されてもよいことに留意されたい。次いで、カメラは、カメラ３０４によって取り込まれ、次いで適宜にエンコードされた画像の関連度を決定するために、トレーニングされたニューラルネットワークを使用するように構築される。そのため、カメラ３０４は、
複数のデジタル画像を取り込み、
複数のデジタル画像の画像データをトレーニングされたニューラルネットワークに提供し、複数のデジタル画像の各特定のデジタル画像について、特定のデジタル画像のピクセル群に各々対応する複数の関連度を取得するように構築されてもよい。

一部の実施形態によれば、カメラは、取得された複数の関連度に従って特定のデジタル画像の圧縮度を制御することによって特定のデジタル画像をエンコードするように構築されてもよい。関連度と圧縮度との間のマッピングは線形であってもよい、つまり比較的高い関連度は常に、比較的低い関連度と比べて、対応するピクセル群のより低い圧縮度に対応してもよい。その他の実施形態によれば、マッピングは段階的なものである、つまり関連度の範囲は、同じ圧縮度にマップする。画像の多数の区域、または画像シーケンスが、関連すると見なされる画像コンテンツを含む場合には、使用可能な帯域幅を超えることがないように、マッピングはまた、使用可能な帯域幅を検討する必要がある。

上記で説明されているように、一部の実施形態によれば、カメラ３０４は、ニューラルネットワークを実行するために専用のハードウェアを備えることができる。その他の実施形態によれば、ニューラルネットワークのソフトウェア実施は、使用されるべき関連度を取得するために使用される。いずれにせよ、上記で説明されているニューラルネットワークを使用することにより達成される結果は、関連度を取得するために第１／第２の画像解析アルゴリズム２０４、２０６を実際に実行する場合と比較して、大幅に改善され得る。

１００ニューラルネットワーク
１０２畳み込みレイヤ
１０２ａ畳み込みレイヤ
１０２ｂ畳み込みレイヤ
１０４回帰ヘッド
１０４ａ完全接続レイヤ
１０４ｂ完全接続レイヤ
１０４ｃ完全接続レイヤ
１０４ｄ完全接続レイヤ
１０６出力
２００デバイス、コンピュータ
２０８デジタルトレーニング画像
２１２トレーニングデータセット
２０４第１の画像解析アルゴリズム
２０６第２の画像解析アルゴリズム
２１４人物
２１０画像
３０２無線ネットワーク
３０４カメラ

Claims

エンコーディングプロセス中に、画像にビットレートバジェットを分配するときにビデオカメラで使用される、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のマクロブロックの関連度を決定するためのデータを前記特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするためのコンピュータプログラムであって、
第１の複数のデジタルトレーニング画像について、前記マクロブロック内の画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第１の画像解析アルゴリズムを使用することによって、前記複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定することと（Ｓ４０２）、
ユーザが特定した状況を表示する第２の複数のデジタルトレーニング画像について、マクロブロックの画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第２の画像解析アルゴリズムを使用することにより、前記第２の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定すること（Ｓ４０４）、
によってトレーニングデータセットを決定することであって、
前記第２の画像解析アルゴリズムは、前記ユーザが特定した状況を表示する画像を解析するように特別に適合されている点で、第１の画像解析アルゴリズムとは異なり、
比較的高い関連度のマクロブロックは、より低い関連度を有するマクロブロックと比較して、エンコーディングプロセス中にそのマクロブロックに前記ビットレートバジェットのより大きい部分が費やされることをビデオカメラに示す、前記トレーニングデータセットを決定すること、
前記第１および第２の複数のデジタルトレーニング画像および前記関連するラベルを前記トレーニングデータセットとして含めること、および
前記ニューラルネットワークのトレーニング（Ｓ４０８）に前記トレーニングデータセットを使用すること、
を含み、
前記第１の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークを最初にトレーニングするのに使用され、その後、前記第２の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークの前記トレーニングを前記ユーザが特定した状況に微調整するのに使用される、コンピュータプログラム。
前記第１の画像解析アルゴリズムが、
前記マクロブロックの空間的統計測定値を計算することと、
前記複数のデジタルトレーニング画像の画像シーケンスに時間的フィルタリングを適用することによって、前記マクロブロックの時間的統計測定値を計算することであって、前記画像シーケンスは前記特定のデジタルトレーニング画像を含む、前記マクロブロックの時間的統計測定値を計算することと、
前記マクロブロックの前記時間的統計測定値および前記空間的統計測定値を重み付けすることによって重み付け統計測定値を計算して、前記重み付け統計測定値に基づいて前記マクロブロックに関連度をラベル付けすることと
を行うことにより、前記マクロブロックに関連度を自動的にラベル付けするように構成される、請求項１に記載のコンピュータプログラム。
前記第２の複数のデジタルトレーニング画像が、前記第１の複数のデジタルトレーニング画像の一部である少なくとも１つのデジタルトレーニング画像を含む、請求項１または２に記載のコンピュータプログラム。
前記第２の複数のデジタルトレーニング画像が、前記第１の複数のデジタルトレーニング画像の一部ではない少なくとも１つのデジタルトレーニング画像を含む、請求項１から３のいずれか一項に記載のコンピュータプログラム。
前記トレーニングデータセットが、前記第１の複数のデジタルトレーニング画像の中の少なくとも１つのデジタルトレーニング画像のマクロブロックに関連度を手動でラベル付けすること（Ｓ４０６）によってさらに決定される、請求項１から４のいずれか一項に記載のコンピュータプログラム。
前記トレーニングデータセットが、前記第２の複数のデジタルトレーニング画像の中の少なくとも１つのデジタルトレーニング画像のマクロブロックに関連度を手動でラベル付けすることによってさらに決定される、請求項１から５のいずれか一項に記載のコンピュータプログラム。
請求項１から６のいずれか一項に記載のコンピュータプログラムを収容した、コンピュータ可読記憶媒体。
エンコーディングプロセス中に、画像にビットレートバジェットを分配するときにビデオカメラで使用される、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のマクロブロックの関連度を決定するためのデータを前記特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを備えるコンピュータであって、前記ニューラルネットワークの前記トレーニングが、
第１の複数のデジタルトレーニング画像について、前記マクロブロック内の画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第１の画像解析アルゴリズムを使用することによって、前記複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定することと、
ユーザが特定した状況を表示する第２の複数のデジタルトレーニング画像について、マクロブロックの画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第２の画像解析アルゴリズムを使用することにより、前記第２の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定すること（Ｓ４０４）、
とによってトレーニングデータセットを決定することであって、
前記第２の画像解析アルゴリズムは、前記ユーザが特定した状況を表示する画像を解析するように特別に適合されている点で、第１の画像解析アルゴリズムとは異なり、
比較的高い関連度のマクロブロックは、より低い関連度を有するマクロブロックと比較して、エンコーディングプロセス中にそのマクロブロックに前記ビットレートバジェットのより大きい部分が費やされることをビデオカメラに示す、前記トレーニングデータセットを決定すること、
前記第１および第２の複数のデジタルトレーニング画像および前記関連するラベルを前記トレーニングデータセットとして含めること、および
前記ニューラルネットワークのトレーニングに前記トレーニングデータセットを使用すること、
を含み、
前記第１の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークを最初にトレーニングするのに使用され、その後、前記第２の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークの前記トレーニングを前記ユーザが特定した状況に微調整するのに使用される、コンピュータ。
ビデオカメラと請求項８に記載のコンピュータとを備えるシステムであって、
前記プロセッサが、結果として得られたトレーニングされたニューラルネットワークを前記カメラに提供する（Ｓ４１０）ようにさらに構成され、
前記カメラが、
前記トレーニングされたニューラルネットワークを受信し、
複数のデジタル画像を取り込み、前記複数のデジタル画像の画像データを前記トレーニングされたニューラルネットワークに供給し、前記複数のデジタル画像の各特定のデジタル画像について、前記特定のデジタル画像のマクロブロックに各々対応する複数の関連度を取得するように構成された、システム。
前記カメラが、
前記取得された関連度に従って前記特定のデジタル画像の圧縮度を制御することによって前記特定のデジタル画像をエンコードするようにさらに構成された、請求項９に記載のシステム。