JP2021089711A

JP2021089711A - 動画ブレの検出方法及び装置

Info

Publication number: JP2021089711A
Application number: JP2020134860A
Authority: JP
Inventors: ティエンバオユイ; Tianbao Yu; ティエンショントン; Tiansheng Deng; ポントゥ; Peng Du; ティンユン; Ting Yun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-18
Filing date: 2020-08-07
Publication date: 2021-06-10
Anticipated expiration: 2040-08-07
Also published as: US20210195170A1; CN110971895A; CN110971895B; EP3817392A1; JP7079294B2; US11546577B2

Abstract

【課題】検出の正確率及びロバスト性を向上させる動画ブレの検出方法及び装置を提供する。【解決手段】動画ブレの検出方法は、動画を取得するステップＳ１０１と、動画を検出モデルに入力し、動画のブレの程度を示すための動画の評価値を得るステップＳ１０２を含み、検出モデルは、動画サンプルセット中の動画サンプルを入力とし、動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。【選択図】図１

Description

本発明は、データ処理技術の分野に関し、特に、動画ブレの検出方法及び装置に関する。

近年、情報取得、レクリエーションの方式が徐々に変化しており、動画関連製品に対するニーズが急速に伸びている。動画において画面ブレの現象があれば、動画を見るユーザに悪い体験を与えることがある。

動画ブレの検出方法には、通常、画像変位に基づくオプティカルフローの方法、特徴点のマッチングの方法及び画像の濃淡レベルの度数分布の特徴に基づく動画ブレの検出方法がある。動画ブレで画面がある程度で揺れるので、画像変位に基づくオプティカルフローの方法は、画像フレーム間のオプティカルフローにより画面の移動方向を識別することで、動画ブレがあるか否かを検出する。特徴点のマッチングの方法は、特徴点のマッチングアルゴリズムを用いて画像における物体の移動方向を識別することで、動画ブレがあるか否かを検出する。画像の濃淡レベルの度数分布の特徴に基づく動画ブレの検出方法は、行の濃淡レベルの度数の期待値と二乗偏差及び列の濃淡レベルの度数の期待値と二乗偏差を取得することにより、行方向及び列方向においてそれぞれ仮説検定を行うことで、動画ブレがあるか否かを検出する。

上記の方法はいずれも画像処理技術を用いて動画に対して検出を行うもので、演算が複雑であり、正確率が低く、ロバスト性が悪い。

本発明は、動画ブレの検出の正確率及びロバスト性を向上させる動画ブレの検出方法及び装置を提供する。

本発明の第１の態様の実施例にて提供される動画ブレの検出方法は、
動画を取得することと、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得ることと、を含み、前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。

好ましくは、前記動画を検出モデルに入力する前に、さらに、
前記動画の時間の長さを取得することと、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第１の動画を取得することと、を含み、
前記動画を検出モデルに入力することは、
前記第１の動画を検出モデルに入力することを含む。

好ましくは、前記動画から第１の動画を取得することは、
前記動画の開始時刻から、前記動画から前記第１の動画を取得すること、又は
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第１の動画とすることを含む。

好ましくは、前記動画サンプルセットは第１のサブセット及び第２のサブセットを含み、前記第１のサブセットに含まれる動画サンプルに評価値が付けられており、前記第２のサブセットに含まれる動画サンプルに評価値が付けられておらず、
前記動画を検出モデルに入力する前に、さらに、
前記検出モデルをトレーニングすることを含み、
前記検出モデルをトレーニングすることは、
前記第１のサブセット中の動画サンプルを入力とし、前記第１のサブセット中の動画サンプルの評価値を出力として、トレーニングして第１のモデルを得ることと、
前記第２のサブセット中の動画サンプルを前記第１のモデルに入力し、前記第２のサブセット中の動画サンプルの評価値を得ることと、
前記第２のサブセット中の評価値が第１の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第２のサブセットを取得することであって、前記補正後の第２のサブセット中の動画サンプルに評価値が付けられている、取得することと、
前記第１のサブセット中の動画サンプル及び前記補正後の第２のサブセット中の動画サンプルを入力とし、前記第１のサブセット中の動画サンプル及び前記補正後の第２のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得ることと、を含む。

好ましくは、評価値が付けられていない複数の動画サンプルを含む第３のサブセットを取得することと、
前記第３のサブセット中の動画サンプルを前記検出モデルに入力し、前記第３のサブセット中の動画サンプルの評価値を得ることと、
前記第３のサブセットから、前記検出モデルにより得られた評価値が第２の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第２の数値より小さい第３の数値より小さい動画サンプルである校正サンプルを取得することと、
前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正することとをさらに含む。

好ましくは、前記第１のサブセットに含まれる動画サンプルの数は前記第２のサブセットに含まれる動画サンプルの数より小さい。

本発明の第２の態様の実施例にて提供される動画ブレの検出装置は、
動画を取得するための取得モジュールと、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得るための検出モジュールと、を含み、前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。

好ましくは、前記取得モジュールはさらに、
前記動画の時間の長さを取得し、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第１の動画を取得するために用いられ、
前記検出モジュールは、具体的に、前記第１の動画を検出モデルに入力するために用いられる。

好ましくは、前記取得モジュールは、具体的に、
前記動画の開始時刻から、前記動画から前記第１の動画を取得するか、又は
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第１の動画とするために用いられる。

好ましくは、前記動画サンプルセットは第１のサブセット及び第２のサブセットを含み、前記第１のサブセットに含まれる動画サンプルに評価値が付けられており、前記第２のサブセットに含まれる動画サンプルに評価値が付けられておらず、
トレーニングモジュールをさらに含み、前記トレーニングモジュールは、
前記第１のサブセット中の動画サンプルを入力とし、前記第１のサブセット中の動画サンプルの評価値を出力として、トレーニングして第１のモデルを得て、
前記第２のサブセット中の動画サンプルを前記第１のモデルに入力し、前記第２のサブセット中の動画サンプルの評価値を得て、
前記第２のサブセット中の評価値が第１の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第２のサブセットを取得し、前記補正後の第２のサブセット中の動画サンプルに評価値が付けられており、
前記第１のサブセット中の動画サンプル及び前記補正後の第２のサブセット中の動画サンプルを入力とし、前記第１のサブセット中の動画サンプル及び前記補正後の第２のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得るために用いられる。

好ましくは、前記トレーニングモジュールはさらに、
評価値が付けられていない複数の動画サンプルを含む第３のサブセットを取得し、
前記第３のサブセット中の動画サンプルを前記検出モデルに入力し、前記第３のサブセット中の動画サンプルの評価値を得て、
前記第３のサブセットから、前記検出モデルにより得られた評価値が第２の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第２の数値より小さい第３の数値より小さい動画サンプルである校正サンプルを取得し、
前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正するために用いられる。

本発明の第３の態様の実施例にて提供される動画ブレの検出装置は、メモリと、プロセッサとを含み、
前記メモリは、プログラムコマンドを記憶するために用いられ、
前記プロセッサは、前記メモリに記憶された前記プログラムコマンドを呼び出して本発明の第１の態様のいずれかの実施形態にて提供される方法を実施するために用いられる。

本発明の第４の態様の実施例にて提供されるコンピュータ可読記憶媒体は、可読記憶媒体と、コンピュータプログラムとを含み、前記コンピュータプログラムは、本発明の第１の態様のいずれかの実施形態にて提供される方法を実施するために用いられる。

本発明の第５の態様の実施例にて提供されるプログラム製品は、可読記憶媒体に記憶されたコンピュータプログラム（即ち、実行コマンド）を含む。プロセッサは可読記憶媒体から当該コンピュータプログラムを読み取ることができ、プロセッサは、本発明の第１の態様のいずれかの実施形態にて提供される方法を実施するために、当該コンピュータプログラムを実行する。

本発明は、動画ブレの検出方法及び装置を提供し、検出対象である動画を検出モデルに入力し、検出モデルにより動画の評価値を得ることができ、それにより、動画ブレがあるか否かを確定する。検出モデルは大量のサンプルに基づいてトレーニングされたモデルであるため、本発明にて提供される動画ブレの検出方法は、適用場面がより広く、動画ブレの検出の正確率及びロバスト性を向上させる。

本発明の実施例又は従来技術における技術的解決手段をより明確に説明するために、以下、実施例又は従来技術の説明に用いる必要がある図面について簡単に紹介する。当然ながら、以下の説明における図面は、本発明のいくつかの実施例であり、当業者であれば、創造的な労力を要せず、これらの図面に基づいて他の図面を得ることができる。
本発明の実施例にて提供される動画ブレの検出方法のフローチャートである。本発明の実施例にて提供される動画ブレの検出方法の別のフローチャートである。本発明の実施例にて提供される動画ブレの検出装置の構造模式図である。本発明の実施例にて提供される動画ブレの検出装置の別の構造模式図である。本発明の実施例にて提供される本発明の実施例を実現するための例示的なコンピュータシステム／サーバの構造模式図である。

本発明の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本発明の実施例における図面を用いて、本発明の実施例における技術的解決手段について、明確で完全に説明する。当然ながら、説明される実施例は、本発明の実施例の一部であり、実施例の全部ではない。本発明における実施例に基づき、当業者が創造的な労力を要せずに得る他の実施例は、すべて本発明の保護範囲に属する。

本発明の明細書及び図面における「第１」、「第２」、「第３」、「第４」などの用語（あれば）は、類似の対象を区別するものであり、一定の順序又は前後の順を説明するものではない。このように用いられる用語は、ここで説明される本発明の実施例がここで図示又は説明される順序以外の順序で実施できるように、適当に交換してもよいことが理解される。また、用語の「含む」、「有する」及びこれらの任意の変形は、排他的でない包含を含めることを意図するものであり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明らかに挙げられたステップ又はユニットに限定されず、明らかに挙げられないか、又はこれらのプロセス、方法、製品又は機器に対して固有の他のステップ又はユニットを含んでもよい。

以下、具体的な実施例を用いて本発明の技術的解決手段について詳細に説明する。以下のようないくつかの具体的な実施例は互いに結び合ってもよく、同じ若しくは類似の概念又はプロセスについて、いくつかの実施例において重複する説明は省略することがある。

図１は本発明の実施例にて提供される動画ブレの検出方法のフローチャートである。本実施例にて提供される動画ブレの検出方法は、実行主体を動画ブレの検出装置としてもよい。図１に示すように、本実施例にて提供される動画ブレの検出方法は、Ｓ１０１とＳ１０２とを含んでもよい。

Ｓ１０１、動画を取得する。

Ｓ１０２、動画を検出モデルに入力し、動画のブレの程度を示すための動画の評価値を得る。

ただし、検出モデルは動画サンプルセット中の動画サンプルを入力とし、動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。

具体的には、検出対象である動画を取得し、検出モデルにより、エンドツーエンドで検出対象である動画に対応する評価値を得て、さらに、動画の評価値に基づいて動画にブレの現象があるか否かを確定することができる。検出モデルは、大量の動画サンプルを入力とし、各動画サンプルに対応する評価値を出力として、トレーニングして得られたエンドツーエンドのモデルであるため、動画に動画ブレがあるか否か、動画ブレがある場合における動画ブレの程度について、良好な判定効果があり、従来技術における画像処理技術に基づいて動画にブレがあるか否かを検出することに比べて、演算の複雑さを低下させ、各種の動画の検出に適用でき、適用範囲を拡大し、動画ブレの検出の正確率及びロバスト性を向上させる。

なお、本実施例は、取得する動画の大きさ、ファイルフォーマット、動画の長さなどについて限定しない。

なお、本実施例は評価値の実現について限定しない。好ましくは、評価値は有限個の離散値を含んでもよい。例を挙げて説明する。評価値は、ブレ無しと、ブレありとを含んでもよい。評価値は、ブレ無しと、軽微なブレありと、ひどいブレありとを含んでもよい。評価値は、０と、１とを含んでもよく、ここで、０はブレ無しを表し、１はブレありを表す。評価値は、０と、１と、２とを含んでもよく、ここで、０はブレ無しを表し、１は軽微なブレありを表し、２はひどいブレありを表す。好ましくは、評価値を連続する範囲における数値としてもよい。例を挙げて説明する。評価値の値の範囲を０以上、且つ１００以下としてもよい。評価値の値が大きいほど、動画がよりぶれることが説明される。例えば、評価値が８０である動画は、評価値が６０である動画よりもブレがひどい。又は、評価値の値が小さいほど、動画がよりぶれることが説明される。本実施例は評価値の値の範囲について限定せず、例えば、評価値の値の範囲を０以上、且つ１以下としてもよい。好ましくは、評価値に一定の値の範囲を有する場合、プリセット数値を設定してもよい。当該プリセット数値は、動画ブレがあるか否かを確定するために用いられる。例えば、評価値の値の範囲が０以上、且つ１以下であり、評価値の値が大きいほど、動画がよりぶれることが説明される。０．７をプリセット数値としてもよい。動画の評価値が０．７より大きい場合、動画ブレに確定し、動画の評価値が０．７以下である場合、動画ブレ無しに確定する。本実施例はプリセット数値の値について限定しない。

なお、本実施例は、動画サンプルセットに含まれる動画サンプルの数について限定しない。ただし、検出モデルの正確性の向上及びトレーニングの過程における過剰適合問題の解決のために、動画サンプルの数を可能な限り大きくする。例えば、動画サンプルの数を１万個より多くしてもよく、例えば、１．７万個とする。

なお、本実施例は、検出モデルのタイプについて限定しない。好ましくは、検出モデルのタイプは、ニューラルネットワークモデル、ディープラーニングアルゴリズムモデル及び機械アルゴリズムモデルのうちいずれか１つであってもよい。好ましくは、ニューラルネットワークモデルは、完全畳み込みネットワーク（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ、ＦＣＮ）モデル、生体医用画像セグメンテーション用の畳み込みネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＢｉｏｍｅｄｉｃａｌＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ、Ｕ−ｎｅｔ）モデルを含んでもよいが、これらに限定されない。

好ましくは、Ｓ１０２において、動画を検出モデルに入力する前に、動画の時間の長さを取得することと、動画の時間の長さがプリセット時間の長さより大きければ、動画から、時間の長さがプリセット時間の長さに等しい第１の動画を取得することとをさらに含んでもよい。

それに対応して、Ｓ１０２において、動画を検出モデルに入力することは、第１の動画を検出モデルに入力することを含んでもよい。

具体的には、検出対象である動画の長さが長すぎると、検出の時間を増加させることがある。そして、通常、動画の撮影環境が一般的に変化しないため、検出対象である動画が長すぎる場合、動画中の一部を検出するだけで動画ブレがあるか否かを検出でき、通常、完全な動画に対して検出する必要がない。したがって、検出対象である動画の時間の長さがプリセット時間の長さより大きい場合、検出対象である動画から、プリセット時間の長さの第１の動画を取得し、第１の動画を検出モデルに入力し、動画ブレがあるか否かを確定することで、演算量を低下させ、検出時間を短縮させ、検出効率を向上させる。

なお、本実施例はプリセット時間の長さの値について限定しない。例えば、プリセット時間の長さを４０秒としてもよい。

好ましくは、１つの実現形態において、動画から第１の動画を取得することは、動画の開始時刻から、動画から第１の動画を取得することを含んでもよい。

例を挙げて説明する。プリセット時間の長さを４０秒とし、検出対象である動画の時間の長さを３分間とすれば、検出対象である動画の最初の４０秒の動画を第１の動画とする。

ユーザが動画を見る習慣に従って、通常、動画をクリックした後、最初から見始める。動画が最初からぶれると、ユーザが動画を見る気持ちに影響を及ぼすことになる。このため、動画の開始時刻から第１の動画を取得することは、ユーザの見る習慣を考慮し、動画検出の正確性及び有効性を向上させ、ユーザの気持ちにより近い。

好ましくは、別の実現形態において、動画から第１の動画を取得することは、動画から複数の短い動画を取得し、複数の短い動画の間に時間間隔が置かれ、複数の短い動画を接続した後に、第１の動画とすることを含んでもよい。

例を挙げて説明する。プリセット時間の長さを４０秒とし、検出対象である動画の時間の長さを３分間とすれば、第１の動画は、検出対象である動画中の０〜２０秒、６０〜７０秒、１２０〜１３０秒の期間、又は０〜２０秒、６０〜８０秒の期間を含んでもよい。

ユーザが動画を見る習慣に従って、通常、動画をクリックした後、最初から見始め、見る途中で何度もジャンプして動画の異なる部分を見ることがある。したがって、動画中の複数の短い動画を第１の動画とすることは、ユーザの見る習慣を考慮し、動画検出の正確性及び有効性を向上させ、ユーザの気持ちにより近い。

なお、本実施例は、短い動画の数、短い動画の持続時間の長さ及び検出対象である動画における位置について限定しない。

好ましくは、Ｓ１０２において、動画を検出モデルに入力する前に、検出モデルをトレーニングすることをさらに含んでもよい。

なお、本実施例は検出モデルのトレーニング方法について限定せず、モデルのタイプにより異なってもよい。例えば、トレーニングの過程において、動画に対してフレーム切り出しの処理を行ってもよく、１秒ごとに５フレームを切り出し、動画フレームを２２４＊２２４のサイズにスケーリングし、フォーマットを三原色（Ｒｅｄ‐Ｇｒｅｅｎ‐Ｂｌｕｅ、ＲＧＢ）画像とする。

以上から分かるように、本実施例は、動画ブレの検出方法を提供し、検出対象である動画を検出モデルに入力し、検出モデルにより動画の評価値を得ることができ、それにより、動画ブレがあるか否かを確定する。検出モデルは大量のサンプルに基づいてトレーニングされたモデルであるため、本実施例にて提供される動画ブレの検出方法は、適用場面がより広く、動画ブレの検出の正確率及びロバスト性を向上させる。

図２は本発明の実施例にて提供される動画ブレの検出方法の別のフローチャートである。本実施例は検出モデルのトレーニングの過程について説明する。本実施例において、動画サンプルセットは第１のサブセット及び第２のサブセットを含んでもよく、第１のサブセットに含まれる動画サンプルに評価値が付けられており、第２のサブセットに含まれる動画サンプルに評価値が付けられていない。図２に示すように、検出モデルをトレーニングすることは、Ｓ２０１〜Ｓ２０４を含んでもよい。

Ｓ２０１、第１のサブセット中の動画サンプルを入力とし、第１のサブセット中の動画サンプルの評価値を出力として、トレーニングして第１のモデルを得る。

Ｓ２０２、第２のサブセット中の動画サンプルを第１のモデルに入力し、第２のサブセット中の動画サンプルの評価値を得る。

Ｓ２０３、第２のサブセット中の評価値が第１の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第２のサブセットを取得し、補正後の第２のサブセット中の動画サンプルに評価値が付けられている。

Ｓ２０４、第１のサブセット中の動画サンプル及び補正後の第２のサブセット中の動画サンプルを入力とし、第１のサブセット中の動画サンプル及び補正後の第２のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして検出モデルを得る。

以下、例を用いて説明する。

動画サンプルセットが合計で１．７万個の動画サンプルを含むと仮定する。ただし、第１のサブセットは１０００個の動画サンプルを含み、この１０００個の動画サンプルに評価値が付けられている。本実施例は、第１のサブセット中の動画サンプルの評価値の取得方式について限定せず、例えば、人工で付けてもよい。第２のサブセットは１．６万個の動画サンプルを含み、この１．６万個の動画サンプルに評価値が付けられていない。

検出モデルのトレーニングの過程は以下を含んでもよく、
第１のサブセット中の１０００個の動画サンプルを入力とし、この１０００個の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして第１のモデルを得る。次に、第２のサブセット中の１．６万個の動画サンプルを第１のモデルに入力し、この１．６万個の動画サンプルにそれぞれ対応する評価値を得る。続いて、第２のサブセットに対応する補正後の第２のサブセットを取得する。具体的には、人工補正の方式により、第２のサブセット中の評価値が第１の数値より大きい動画サンプルに対して評価値の人工補正を行う。説明の便宜上、第２のサブセット中の動画サンプルの評価値に対して、第１のモデルにより得られた評価値を評価値Ｐ１として表し、人工補正の方式により得られた評価値を評価値Ｐ２として表す。例えば、第１の数値は０．７である。第２のサブセット中の動画サンプル１の評価値Ｐ１は０．８である。動画サンプル１に対して人工補正を行うことにより、動画サンプル１の評価値Ｐ２が得られ、０．６であることが可能である。最後に、第１のサブセット中の１０００個の動画サンプル及び補正後の第２のサブセット中の１．６万個の動画サンプルを入力とし、各動画サンプルの評価値を出力として、トレーニングして検出モデルを得る。

以上から分かるように、第１のモデルは、動画サンプルセット中の一部の動画サンプルのトレーニングにより得られたものであり、さらに正確率の向上に余地がある。第２のサブセットに含まれる動画サンプルに評価値が付けられておらず、まず、第１のモデルにより各動画サンプルの評価値を得ることができる。第１のモデルに誤差が存在する可能性があるため、人工補正の方式により、第１のモデルが出力した評価値がより高い動画サンプルに対して補正を行う。続いて、第１のサブセット及び補正後の第２のサブセット中の動画サンプルにより、第１のモデルを基としてトレーニングを続け、正確な検出モデルを得る。

ただし、Ｓ２０３〜Ｓ２０４は複数回繰り返して実行してもよく、本実施例は実行の回数について限定しない。

ただし、本実施例は第１の数値の値について限定しない。

好ましくは、第１のサブセットに含まれる動画サンプルの数を第２のサブセットに含まれる動画サンプルの数より小さくしてもよく、第１のサブセットの取得の難易度を低減させる。

好ましくは、Ｓ２０４の後に、さらに、
評価値が付けられていない複数の動画サンプルを含む第３のサブセットを取得することと、
第３のサブセット中の動画サンプルを検出モデルに入力し、第３のサブセット中の動画サンプルの評価値を得ることと、
第３のサブセットから、検出モデルにより得られた評価値が第２の数値より大きく、且つ評価値の人工補正により得られた評価値が第２の数値より小さい第３の数値より小さい動画サンプルである校正サンプルを取得することと、
第１のサブセット中の動画サンプル、補正後の第２のサブセット中の動画サンプル及び校正サンプルを入力とし、第１のサブセット中の動画サンプル、補正後の第２のサブセット中の動画サンプル及び校正サンプルにそれぞれ対応する評価値を出力として、検出モデルをトレーニングすることにより検出モデルを補正することとを含む。

以下、上記の例と組み合わせて説明する。

第３のサブセットは１万個の動画サンプルを含み、この１万個の動画サンプルに評価値が付けられていないと仮定する。

検出モデルのトレーニングの過程は以下をさらに含んでもよく、
第３のサブセット中の１万個の動画サンプルを検出モデルに入力し、この１万個の動画サンプルにそれぞれ対応する評価値を得る。第３のサブセットから校正サンプルを取得する。具体的には、第３のサブセット中の検出モデルにより得られた評価値が第２の数値より大きい動画サンプルに対して人工補正を行う。説明の便宜上、第３のサブセット中の動画サンプルの評価値に対して、検出モデルにより得られた評価値を評価値Ｑ１として表し、人工補正の方式により得られた評価値を評価値Ｑ２として表す。例えば、第２の数値は０．７である。第３のサブセット中の動画サンプル１の評価値Ｑ１は０．８である。動画サンプル１に対して人工補正を行うことにより、動画サンプル１の評価値Ｑ２が得られ、０．６であることが可能である。動画サンプル１が校正サンプルである。校正サンプルの数は２０００個であると仮定する。最後に、第１のサブセット中の１０００個の動画サンプル、補正後の第２のサブセット中の１．６万個の動画サンプル及び２０００個の校正サンプルを入力とし、各動画サンプルの評価値を出力として、検出モデルをトレーニングすることにより検出モデルを補正する。

以上から分かるように、第３のサブセットにより検出モデルを補正すると、検出モデルの正確性をさらに向上させる。

図３は本発明の実施例にて提供される動画ブレの検出装置の構造模式図である。本実施例にて提供される動画ブレの検出装置は、図１〜図２に示す実施例にて提供される動画ブレの検出方法を実行するために用いられる。図３に示すように、本実施例にて提供される動画ブレの検出装置は、
動画を取得するための取得モジュール３１と、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得るための検出モジュール３２と、を含み、ただし、前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。

好ましくは、前記取得モジュール３１はさらに、
前記動画の時間の長さを取得し、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第１の動画を取得するために用いられる。
前記検出モジュール３２は、具体的に、前記第１の動画を検出モデルに入力するために用いられる。

好ましくは、前記取得モジュール３１は、具体的に、
前記動画の開始時刻から、前記動画から前記第１の動画を取得するか、又は、
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第１の動画とするために用いられる。

好ましくは、前記トレーニングモジュールは、さらに、
評価値が付けられていない複数の動画サンプルを含む第３のサブセットを取得し、
前記第３のサブセット中の動画サンプルを前記検出モデルに入力し、前記第３のサブセット中の動画サンプルの評価値を得て、
前記第３のサブセットから、前記検出モデルにより得られた評価値が第２の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第２の数値より小さい第３の数値より小さい動画サンプルである校正サンプルを取得し、
前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正するために用いられる。

本実施例にて提供される動画ブレの検出装置は、図１〜図２に示す実施例にて提供される動画ブレの検出方法を実行するために用いられ、その技術原理及び技術効果が類似するため、ここで重複する説明は省略する。

図４は本発明の実施例にて提供される動画ブレの検出装置の別の構造模式図である。図４に示すように、動画ブレの検出装置は、プロセッサ４１とメモリ４２とを含んでもよい。前記メモリ４２はコマンドを記憶するために用いられ、前記プロセッサ４１は、前記メモリ４２に記憶されたコマンドを実行することにより、前記動画ブレの検出装置に図１〜図２に示す実施例にて提供される動画ブレの検出方法を実行させるために用いられ、技術原理及び技術効果が類似するため、ここで重複する説明は省略する。

なお、本発明は、動画ブレの検出装置の機器形態及び具体的な構造について限定しない。

一例として、図５は本発明の実施例にて提供される本発明の実施例を実現するための例示的なコンピュータシステム／サーバの構造模式図である。図５に示されるコンピュータシステム／サーバ０１２は一例にすぎず、本発明の実施例の機能及び使用範囲を限定するものではない。

図５に示すように、コンピュータシステム／サーバ０１２は汎用計算機器の形態で示されている。コンピュータシステム／サーバ０１２のコンポーネントは、１つ以上のプロセッサ又は処理ユニット０１６と、システムメモリ０２８と、異なるシステムコンポーネント（システムメモリ０２８とプロセッサ０１６とを含む）を接続させるバス０１８とを含んでもよいが、これらに限定されない。

バス０１８はいくつかのタイプのバス構造のうちの１種又は多種を表し、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多種のバス構造のうちの任意のバス構造を用いるローカルバスを含む。例を挙げると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＡＣ）バス、拡張型ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス及びペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスを含むが、これらに限定されない。

典型的に、コンピュータシステム／サーバ０１２は多種のコンピュータシステム可読媒体を含む。これらの媒体はコンピュータシステム／サーバ０１２がアクセス可能であるあらゆる使用可能な媒体であってもよく、揮発性及び不揮発性媒体と、持ち運び可能及び持ち運び不可能な媒体とを含む。

システムメモリ０２８は揮発性メモリ形態のコンピュータシステム可読媒体、例えばランダムアクセスメモリ（ＲＡＭ）０３０及び／又はキャッシュメモリ０３２を含んでもよい。コンピュータシステム／サーバ０１２は、他の持ち運び可能／持ち運び不可能な、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。一例として、記憶システム０３４は、持ち運び不可能な、不揮発性磁気媒体（図５に示せず、通常は「ハードディスクドライブ」と呼ばれる）をリード／ライトするために用いられる。図５に示さなくても、持ち運び可能な不揮発性磁気ディスク（例えば「ソフトディスク」）をリード／ライトするための磁気ディスクドライブ、及び持ち運び可能な不揮発性光ディスク（例えばコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタルビデオディスクＲＯＭ（ＤＶＤ−ＲＯＭ）又は他の光媒体）をリード／ライトするための光ディスクドライブを提供してもよい。このような場合に、各ドライブは１つ又は複数のデータ媒体インタフェースを介してバス０１８に接続することができる。メモリ０２８は少なくとも１つのプログラム製品を含んでもよく、当該プログラム製品は１セット（例えば少なくとも１つ）のプログラムモジュールを有し、これらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置される。

１セット（少なくとも１つ）のプログラムモジュール０４２を有するプログラム／ユーティリティツール０４０は、例えばメモリ０２８に記憶してもよく、このようなプログラムモジュール０４２は、オペレーティングシステム、１つ又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含むが、これらに限定されず、これらの例のうち、それぞれ又はある組み合わせには、ネットワーク環境の実現を含む可能性がある。通常、プログラムモジュール０４２は本発明に記載される実施例における機能及び／又は方法を実行する。

コンピュータシステム／サーバ０１２は、１つ又は複数の外付けデバイス０１４（例えばキーボード、ポインティングデバイス、ディスプレイ０２４など）と通信してもよいし、ユーザが当該コンピュータシステム／サーバ０１２と対話できるようにさせる１つ又は複数のデバイスと通信し、及び／又は当該コンピュータシステム／サーバ０１２が１つ又は複数の他の計算機器と通信できるようにさせるあらゆるデバイス（例えばネットワークカード、モデムなど）と通信してもよい。このような通信は、入力／出力（Ｉ／Ｏ）インタフェース０２２を介して行ってもよい。そして、コンピュータシステム／サーバ０１２は、さらに、ネットワークアダプタ０２０を介して、１つ又は複数のネットワーク（例えばローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及び／又はパブリックネットワーク、例えばインターネット）と通信してもよい。図５に示すように、ネットワークアダプタ０２０はバス０１８を介してコンピュータシステム／サーバ０１２の他のモジュールと通信する。図５に示さなくても、コンピュータシステム／サーバ０１２と組み合わせて、マイクロコード、デバイスドライバ、冗長プロセッサ、外付けディスクアレイ、独立したディスクの冗長アレイ（ＲＡＩＤ）システム、テープドライブ、及びデータバックアップ記憶システムなどを含むがこれらに限定されない他のハードウェア及び／又はソフトウェアモジュールを用いてもよいことを理解すべきである。

プロセッサ０１６は、システムメモリ０２８に記憶されるプログラムを実行することにより、本発明に記載される実施例における機能及び／又は方法を実行する。

上記のコンピュータプログラムはコンピュータ記憶媒体に配置されてもよく、即ち、当該コンピュータ記憶媒体にはコンピュータプログラムがコーディングされており、当該プログラムが１つ又は複数のコンピュータにより実行されると、１つ又は複数のコンピュータに本発明の上記の実施例に示される方法のフロー及び／又は装置の操作を実行させる。

当業者であれば、上記の各方法に係る実施例のステップの全部又は一部の実施はプログラムコマンドに関連するハードウェアにより完了できることを理解すべきである。前記プログラムはコンピュータ可読記憶媒体に記憶することができる。当該プログラムが実行されると、上記の各方法に係る実施例のステップが実行される。前記記憶媒体は、ＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種媒体を含む。

なお、以上の各実施例は、本発明の実施例の技術的解決手段を限定するものではく、説明するために用いられる。前記各実施例を参照しながら本発明の実施例を詳細に説明したが、当業者であれば、前記各実施例に記載された技術的解決手段を補正するか、又はそのうち一部又は全部の技術的解決手段に対して等価置換を行うことができ、これらの補正又は置換が対応する技術的解決手段の本質を本発明の実施例の技術的解決手段の範囲から逸脱させないことが理解されるべきである。

Claims

動画を取得することと、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得ることと、を含み、
前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルであることを特徴とする、動画ブレの検出方法。
前記動画を検出モデルに入力する前に、さらに、
前記動画の時間の長さを取得することと、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第１の動画を取得することと、を含み、
前記動画を検出モデルに入力することは、
前記第１の動画を検出モデルに入力することを含むことを特徴とする、請求項１に記載の動画ブレの検出方法。
前記動画から第１の動画を取得することは、
前記動画の開始時刻から、前記動画から前記第１の動画を取得すること、又は
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第１の動画とすることを含むことを特徴とする、請求項２に記載の動画ブレの検出方法。
前記動画サンプルセットは第１のサブセット及び第２のサブセットを含み、前記第１のサブセットに含まれる動画サンプルに評価値が付けられており、前記第２のサブセットに含まれる動画サンプルに評価値が付けられておらず、
前記動画を検出モデルに入力する前に、さらに、
前記検出モデルをトレーニングすることを含み、
前記検出モデルをトレーニングすることは、
前記第１のサブセット中の動画サンプルを入力とし、前記第１のサブセット中の動画サンプルの評価値を出力として、トレーニングして第１のモデルを得ることと、
前記第２のサブセット中の動画サンプルを前記第１のモデルに入力し、前記第２のサブセット中の動画サンプルの評価値を得ることと、
前記第２のサブセット中の評価値が第１の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第２のサブセットを取得することであって、前記補正後の第２のサブセット中の動画サンプルに評価値が付けられている、取得することと、
前記第１のサブセット中の動画サンプル及び前記補正後の第２のサブセット中の動画サンプルを入力とし、前記第１のサブセット中の動画サンプル及び前記補正後の第２のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得ることと、を含むことを特徴とする、請求項１から請求項３のいずれか一項に記載の動画ブレの検出方法。
評価値が付けられていない複数の動画サンプルを含む第３のサブセットを取得することと、
前記第３のサブセット中の動画サンプルを前記検出モデルに入力し、前記第３のサブセット中の動画サンプルの評価値を得ることと、
前記第３のサブセットから、前記検出モデルにより得られた評価値が第２の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第２の数値より小さい第３の数値より小さい動画サンプルである校正サンプルを取得することと、
前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正することと、をさらに含むことを特徴とする、請求項４に記載の動画ブレの検出方法。
前記第１のサブセットに含まれる動画サンプルの数は前記第２のサブセットに含まれる動画サンプルの数より小さいことを特徴とする、請求項４に記載の動画ブレの検出方法。
動画を取得するための取得モジュールと、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得るための検出モジュールと、を含み、
前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルであることを特徴とする、動画ブレの検出装置。
前記取得モジュールはさらに、
前記動画の時間の長さを取得し、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第１の動画を取得するために用いられ、
前記検出モジュールは、前記第１の動画を検出モデルに入力するために用いられることを特徴とする、請求項７に記載の動画ブレの検出装置。
前記取得モジュールは、
前記動画の開始時刻から、前記動画から前記第１の動画を取得するか、又は
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第１の動画とするために用いられることを特徴とする、請求項８に記載の動画ブレの検出装置。
前記動画サンプルセットは第１のサブセット及び第２のサブセットを含み、前記第１のサブセットに含まれる動画サンプルに評価値が付けられており、前記第２のサブセットに含まれる動画サンプルに評価値が付けられておらず、
トレーニングモジュールをさらに含み、前記トレーニングモジュールは、
前記第１のサブセット中の動画サンプルを入力とし、前記第１のサブセット中の動画サンプルの評価値を出力として、トレーニングして第１のモデルを得て、
前記第２のサブセット中の動画サンプルを前記第１のモデルに入力し、前記第２のサブセット中の動画サンプルの評価値を得て、
前記第２のサブセット中の評価値が第１の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第２のサブセットを取得し、前記補正後の第２のサブセット中の動画サンプルに評価値が付けられており、
前記第１のサブセット中の動画サンプル及び前記補正後の第２のサブセット中の動画サンプルを入力とし、前記第１のサブセット中の動画サンプル及び前記補正後の第２のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得るために用いられることを特徴とする、請求項７から請求項９のいずれか一項に記載の動画ブレの検出装置。
前記トレーニングモジュールはさらに、
評価値が付けられていない複数の動画サンプルを含む第３のサブセットを取得し、
前記第３のサブセット中の動画サンプルを前記検出モデルに入力し、前記第３のサブセット中の動画サンプルの評価値を得て、
前記第３のサブセットから、前記検出モデルにより得られた評価値が第２の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第２の数値より小さい第３の数値より小さい動画サンプルである校正サンプルを取得し、
前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第１のサブセット中の動画サンプル、前記補正後の第２のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正するために用いられることを特徴とする、請求項１０に記載の動画ブレの検出装置。
前記第１のサブセットに含まれる動画サンプルの数は前記第２のサブセットに含まれる動画サンプルの数より小さいことを特徴とする、請求項１０に記載の動画ブレの検出装置。
メモリと、プロセッサとを含み、
前記メモリは、プログラムコマンドを記憶するために用いられ、
前記プロセッサは、前記メモリに記憶された前記プログラムコマンドを呼び出して請求項１から請求項６のいずれか一項に記載の動画ブレの検出方法を実施するために用いられることを特徴とする、動画ブレの検出装置。
可読記憶媒体と、コンピュータプログラムとを含み、前記コンピュータプログラムは請求項１から請求項６のいずれか一項に記載の動画ブレの検出方法を実施するために用いられることを特徴とする、コンピュータ可読記憶媒体。