JP2018101406A5

JP2018101406A5 -

Info

Publication number: JP2018101406A5
Application number: JP2017182561A
Authority: JP
Filing date: 2017-09-22
Publication date: 2020-08-20
Anticipated expiration: 2037-09-22

Claims

エンコーディングプロセス中に、画像にビットレートバジェットを分配するときにビデオカメラで使用される、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のマクロブロックの関連度を決定するためのデータを前記特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするための方法であって、
第１の複数のデジタルトレーニング画像について、前記マクロブロック内の画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第１の画像解析アルゴリズムを使用することによって、前記複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定することと（Ｓ４０２）、
ユーザが特定した状況を表示する第２の複数のデジタルトレーニング画像について、マクロブロックの画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第２の画像解析アルゴリズムを使用することにより、前記第２の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定すること（Ｓ４０４）、
によってトレーニングデータセットを決定することであって、
前記第２の画像解析アルゴリズムは、前記ユーザが特定した状況を表示する画像を解析するように特別に適合されている点で、第１の画像解析アルゴリズムとは異なり、
比較的高い関連度のマクロブロックは、より低い関連度を有するマクロブロックと比較して、エンコーディングプロセス中にそのマクロブロックに前記ビットレートバジェットのより大きい部分が費やされることをビデオカメラに示す、前記トレーニングデータセットを決定すること、
前記第１および第２の複数のデジタルトレーニング画像および前記関連するラベルを前記トレーニングデータセットとして含めること、および
前記ニューラルネットワークのトレーニング（Ｓ４０８）に前記トレーニングデータセットを使用すること、
を含み、
前記第１の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークを最初にトレーニングするのに使用され、その後、前記第２の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークの前記トレーニングを前記ユーザが特定した状況に微調整するのに使用される、方法。
前記第１の画像解析アルゴリズムが、
前記マクロブロックの空間的統計測定値を計算することと、
前記複数のデジタルトレーニング画像の画像シーケンスに時間的フィルタリングを適用することによって、前記マクロブロックの時間的統計測定値を計算することであって、前記画像シーケンスは前記特定のデジタルトレーニング画像を含む、前記マクロブロックの時間的統計測定値を計算することと、
前記マクロブロックの前記時間的統計測定値および前記空間的統計測定値を重み付けすることによって重み付け統計測定値を計算して、前記重み付け統計測定値に基づいて前記マクロブロックに関連度をラベル付けすることと
を行うことにより、前記マクロブロックに関連度を自動的にラベル付けするように構成される、請求項１に記載の方法。
前記第２の複数のデジタルトレーニング画像が、前記第１の複数のデジタルトレーニング画像の一部である少なくとも１つのデジタルトレーニング画像を含む、請求項１または２に記載の方法。
前記第２の複数のデジタルトレーニング画像が、前記第１の複数のデジタルトレーニング画像の一部ではない少なくとも１つのデジタルトレーニング画像を含む、請求項１から３のいずれか一項に記載の方法。
前記トレーニングデータセットが、前記第１の複数のデジタルトレーニング画像の中の少なくとも１つのデジタルトレーニング画像のマクロブロックに関連度を手動でラベル付けすること（Ｓ４０６）によってさらに決定される、請求項１から４のいずれか一項に記載の方法。
前記トレーニングデータセットが、前記第２の複数のデジタルトレーニング画像の中の少なくとも１つのデジタルトレーニング画像のマクロブロックに関連度を手動でラベル付けすることによってさらに決定される、請求項１から５のいずれか一項に記載の方法。
処理能力を有するデバイスによって実行されるとき、請求項１から６のいずれか一項に記載の方法を遂行するように適合された命令を伴うコンピュータ可読記憶媒体を備えるコンピュータプログラム製品。
エンコーディングプロセス中に、画像にビットレートバジェットを分配するときにビデオカメラで使用される、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のマクロブロックの関連度を決定するためのデータを前記特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを備えるコンピュータであって、前記ニューラルネットワークの前記トレーニングが、
第１の複数のデジタルトレーニング画像について、前記マクロブロック内の画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第１の画像解析アルゴリズムを使用することによって、前記複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定することと、
ユーザが特定した状況を表示する第２の複数のデジタルトレーニング画像について、マクロブロックの画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第２の画像解析アルゴリズムを使用することにより、前記第２の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定すること（Ｓ４０４）、
とによってトレーニングデータセットを決定することであって、
前記第２の画像解析アルゴリズムは、前記ユーザが特定した状況を表示する画像を解析するように特別に適合されている点で、第１の画像解析アルゴリズムとは異なり、
比較的高い関連度のマクロブロックは、より低い関連度を有するマクロブロックと比較して、エンコーディングプロセス中にそのマクロブロックに前記ビットレートバジェットのより大きい部分が費やされることをビデオカメラに示す、前記トレーニングデータセットを決定すること、
前記第１および第２の複数のデジタルトレーニング画像および前記関連するラベルを前記トレーニングデータセットとして含めること、および
前記ニューラルネットワークのトレーニングに前記トレーニングデータセットを使用すること、
を含み、
前記第１の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークを最初にトレーニングするのに使用され、その後、前記第２の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークの前記トレーニングを前記ユーザが特定した状況に微調整するのに使用される、コンピュータ。
ビデオカメラと請求項８に記載のコンピュータとを備えるシステムであって、
前記プロセッサが、結果として得られたトレーニングされたニューラルネットワークを前記カメラに提供する（Ｓ４１０）ようにさらに構成され、
前記カメラが、
前記トレーニングされたニューラルネットワークを受信し、
複数のデジタル画像を取り込み、前記複数のデジタル画像の画像データを前記トレーニングされたニューラルネットワークに供給し、前記複数のデジタル画像の各特定のデジタル画像について、前記特定のデジタル画像のマクロブロックに各々対応する複数の関連度を取得するように構築された、システム。
前記カメラが、
前記取得された関連度に従って前記特定のデジタル画像の圧縮度を制御することによって前記特定のデジタル画像をエンコードするようにさらに構築された、請求項９に記載のシステム。