JP6928041B2

JP6928041B2 - 動画を処理するための方法および装置

Info

Publication number: JP6928041B2
Application number: JP2019161973A
Authority: JP
Inventors: ▲杯飛▼ ▲刑▼; 加良王; 慧▲鋒▼ 沈; 菲菲曹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2019-09-05
Publication date: 2021-09-01
Anticipated expiration: 2039-09-05
Also published as: CN109286825B; JP2020096342A; CN109286825A; KR102235590B1; KR20200074845A; US10897620B2; US20200195934A1

Description

本発明の実施例は、コンピュータ技術の分野に関し、具体的には動画を処理するための方法および装置に関する。

動画トランスコーディング（Ｖｉｄｅｏｔｒａｎｓｃｏｄｉｎｇ）とは、異なるネットワーク帯域幅、異なる端末処理能力、または異なるユーザニーズに適応するために、エンコードされて圧縮された動画コードストリームを別の動画コードストリームに変換することである。

関連するコンテンツ適応型のエンコード技術は、基本的には複数回エンコードする方式を利用し、すなわち、まずＣＲＦ (ｃｏｎｓｔａｎｔｒａｔｅｆａｃｔｏｒ、一定の品質を保証してビットレートを知能的に配布する)のエンコードを使用して動画全体の複雑度因子を計算し、次に動画全体のエンコードパラメータを調整し、つまり、コンテンツ適応型の基本は、タイトル（ｔｉｔｌｅ）のレベルである。

しかしながら、長さの異なる動画コンテンツについて、その中のシーンは頻繁に変わる可能性があり、異なるシーンはより細かい粒度のコンテンツ適応型の精度を意味する。

本発明の実施例は、動画を処理するための方法および装置を提案する。

第１側面において、本発明の実施例は、処理待ちの動画を取得し、動画をシーンに応じて少なくとも１つの動画セグメントに区分することと、少なくとも１つの動画セグメントにおける動画セグメントに対し、当該動画セグメントの特徴を抽出することと、特徴および目標動画品質を予め訓練されたエンコードパラメータ予測モデルに入力して、当該動画セグメントのエンコードパラメータを取得し、ここで、エンコードパラメータ予測モデルは、動画セグメントの特徴と目標動画品質におけるエンコードパラメータとの対応関係を表すために使用されることと、少なくとも１つの動画セグメントにおける動画セグメントに対応するエンコードパラメータに基づいて動画をエンコード処理し、エンコードされた動画を生成することと、を含む動画を処理するための方法に関する。

いくつかの実施例において、当該方法は、エンコードされた動画の動画品質を確定することと、確定された動画品質は目標動画品質と一致しないことに応答して、所定の情報を出力することと、をさらに含む。

いくつかの実施例において、当該動画セグメントの特徴を抽出することは、当該動画セグメントをデコードし、当該動画セグメントの時間領域特徴および／または周波数領域特徴を抽出することを含む。

いくつかの実施例において、エンコードパラメータ予測モデルは、以下のステップで訓練されることによって得られ、ステップは、サンプル動画セットを取得し、サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示することと、サンプル動画セットにおけるサンプル動画に対し、当該サンプル動画の特徴を抽出し、当該サンプル動画の特徴に基づいて、当該サンプル動画の複雑度因子を確定することと、複雑度因子に基づいて、サンプル動画セットにおけるサンプル動画を少なくとも１つのカテゴリに分類することと、少なくとも１つのカテゴリにおけるカテゴリに対し、当該カテゴリに属するサンプル動画のエンコードパラメータと動画品質を回帰させ、エンコードパラメータと動画品質との関係曲線を得ることと、を含む。

いくつかの実施例において、サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示することは、サンプル動画セットにおけるサンプル動画に対し、所定の一定品質の値に基づいて当該サンプル動画をエンコードし、エンコードプロセスにおけるエンコードパラメータ、動画品質を標示することを含む。

いくつかの実施例において、複雑度因子は、エンコードされたサンプル動画のピクセル深度に関連する。

第２側面において、本発明の実施例は、処理待ちの動画を取得し、動画をシーンに応じて少なくとも１つの動画セグメントに区分するように構成された区分ユニットと、少なくとも１つの動画セグメントにおける動画セグメントに対し、当該動画セグメントの特徴を抽出するように構成された抽出ユニットと、特徴および目標動画品質を予め訓練された動画セグメントの特徴と目標動画品質におけるエンコードパラメータとの対応関係を表すために使用されるエンコードパラメータ予測モデルに入力して、当該動画セグメントのエンコードパラメータを取得するように構成された入力ユニットと、少なくとも１つの動画セグメントにおける動画セグメントに対応するエンコードパラメータに基づいて動画をエンコード処理し、エンコードされた動画を生成するように構成された処理ユニットと、を含む動画を処理するための装置に関する。

いくつかの実施例において、当該装置は、エンコードされた動画の動画品質を確定し、確定された動画品質は目標動画品質と一致しないことに応答して、所定の情報を出力するように構成された検証ユニットをさらに含む。

いくつかの実施例において、抽出ユニットは、さらに、当該動画セグメントをデコードし、当該動画セグメントの時間領域特徴および／または周波数領域特徴を抽出するように構成される。

いくつかの実施例において、当該装置は、サンプル動画セットを取得し、サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示し、サンプル動画セットにおけるサンプル動画に対し、当該サンプル動画の特徴を抽出し、当該サンプル動画の特徴に基づいて、当該サンプル動画の複雑度因子を確定し、複雑度因子に基づいて、サンプル動画セットにおけるサンプル動画を少なくとも１つのカテゴリに分類し、少なくとも１つのカテゴリにおけるカテゴリに対し、当該カテゴリに属するサンプル動画のエンコードパラメータと動画品質を回帰させ、エンコードパラメータと動画品質との関係曲線を得るように構成された訓練ユニットをさらに含む。

いくつかの実施例において、訓練ユニットは、さらに、サンプル動画セットにおけるサンプル動画に対し、所定の一定品質の値に基づいて当該サンプル動画をエンコードし、エンコードプロセスにおけるエンコードパラメータ、動画品質を標示するように構成される。

第３側面において、本発明の実施例は、１つ以上のプロセッサと、１つ以上のプログラムが記憶された記憶装置と、を含み、１つ以上のプログラムが１つ以上のプロセッサによって実行されるとき、第１側面のいずれかの実施形態に記載の方法を１つ以上のプロセッサに実現させる、電子機器に関する。

第４側面において、本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読媒体であって、コンピュータプログラムがプロセッサによって実行されるとき、第１側面のいずれかの実施形態に記載の方法を実現するコンピュータ可読媒体に関する。

本発明の実施例に係る動画を処理するための方法と装置は、シーンに基づいて動画をセグメント化し、マシンで学んだエンコードパラメータ予測モデルによって目標動画品質におけるエンコードパラメータを予測する。予測されたエンコードパラメータに基づいて動画に対しコンテンツ適応型のエンコードを行う。よって、圧縮率を高め、動画の品質を向上させる。

本発明のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。
本発明の一実施例が適用され得る例示的なシステムアーキテクチャ図である。本発明に係る動画を処理するための方法の一実施例のフローチャートである。本発明に係る動画を処理するための方法の一適用状況の概略図である。本発明に係る動画を処理するための方法の別の一実施例のフローチャートである。本発明に係る動画を処理するための方法のエンコードパラメータと動画品質との関係曲線である。本発明に係る動画を処理するための方法のエンコードパラメータと動画品質との関係曲線である。本発明に係る動画を処理するための装置の一実施例の概略構造図である。本発明の実施例を実現するための電子機器のコンピュータシステムの概略構造図である。

以下、図面及び実施例を参照して本発明についてより詳細に説明する。ここで説明された具体的な実施例は、関連する発明を説明するためだけのものであり、この発明を制限するものではないことを理解できる。なお、説明を容易にするために、図面には関連する発明に関連する部分のみを示している。

なお、矛盾しない場合には、本発明の実施例及び実施例における特徴を互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本発明を詳細に説明する。

図１には、本発明が適用され得る、動画を処理するための方法又は動画を処理するための装置の実施例の例示的なシステムアーキテクチャ１００が示されている。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４およびサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクの媒体を提供するために使用される。ネットワーク１０４は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５とインタラクティブすることにより、メッセージなどを送受信することができる。端末装置１０１、１０２、１０３には、例えばウェブブラウザアプリケーション、動画プレーヤ、検索アプリケーション、即時通信ツール、メールクライアント、社交プラットフォームソフトウェアなどの様々なクライアントアプリケーションがインストールされることができる。

端末装置１０１、１０２、１０３は、ハードウェアでもソフトウェアでもよい。端末装置１０１、１０２、１０３がハードウェアである場合、ディスプレイを備え、ウェブページの閲覧をサポートする様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダ、ＭＰ３プレーヤ（Moving Picture Experts Group Audio Layer III、エムペグオーディオレイヤー３）、ＭＰ４プレーヤ（Moving Picture Experts Group Audio Layer IV、エムペグオーディオレイヤー４）、ラップトップパソコン、デスクトップコンピュータなどを含むがこれらに限定されない。端末装置１０１、１０２、１０３がソフトウェアである場合、上記に挙げられた電子機器にインストールされることができる。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供する）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

サーバ１０５は、様々なサービスを提供するサーバであってもよく、例えば、端末装置１０１、１０２、１０３に標示された動画を処理する動画処理サーバである。動画処理サーバは、受信したトランスコーディング待ち動画などのデータに対し解析などの処理を行い、処理結果（例えば、トランスコーディングされた動画セグメント）を端末装置にフィードバックしてもよい。

なお、サーバは、ハードウェアでもソフトウェアでもよい。サーバがハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現されてもよく、単一のサーバとして実現されてもよい。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

なお、本発明の実施例に係る動画を処理するための方法は、一般的に、サーバ１０５によって実行される。それに対応して、動画を処理するための装置は、一般的に、サーバ１０５に配置される。

図１の端末装置、ネットワーク、およびサーバの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の端末装置、ネットワーク、およびサーバを備えることができる。

続けて図２を参照すると、本発明による動画を処理するための方法の一実施例のフロー２００が示されている。当該動画を処理するための方法は、以下のステップを含む。

ステップ２０１において、処理待ちの動画を取得し、動画をシーンに応じて少なくとも１つの動画セグメントに区分する。

本実施例において、電子機器（例えば、図１に示されるサーバ）で動画を処理するための方法を実行し、有線接続または無線接続によって処理待ち（すなわち、トランスコーディング待ち）の動画を取得し、処理待ちの動画をシーンに応じて少なくとも１つの動画セグメントに区分することができる。シーンに基づいてセグメント化する方法には多くの公知の技術があり、例えば、一つの指標としてフレーム間標準差分、平均二乗差分などを用いて、一つの閾値を固定し、一つの閾値より大きい場合には一つのシーンの分割の境界とすることができる。いわゆる一つのシーンとは、一つのシーン内でこのシーンは連続的に変換された一つのシーンであると考えられ、複雑さは比較的に一致していると考えられている。

ステップ２０２において、少なくとも１つの動画セグメントにおける動画セグメントに対し、当該動画セグメントの特徴を抽出する。

本実施例において、シーンをセグメント化トランスコーディングの基本単位として、このシーン内の動画をデコードし、動画の時間領域特徴または周波数領域特徴を抽出する。これらの特徴は、隣接するフレーム間のｍｏｔｉｏｎ（動き）情報、ＶＩＦ（ｖｉｓｕａｌｉｎｆｏｒｍａｔｉｏｎｆｉｄｅｌｉｔｙ、視覚情報忠実度）、ＤＬＭ（ｄｅｔａｉｌｌｏｓｓｍｅａｓｕｒｅ、詳細損失測定）などを含むことができる。

動画の特徴に基づいて動画の複雑度因子を確定することによって動画を分類することができる。各シーンのセグメント化は、与えられた一定品質の値に従ってＣＲＦのトランスコーディングを行い、トランスコーディングした後、トランスコーディングされたすべてのフレームの各ピクセルの占有するビット数ＢＰＰ（ｂｉｔｓｐｅｒｐｉｘｅｌ、１ピクセルあたりのビット数、すなわちピクセル深度）を統計し、次にＢＰＰの値から特定の数学演算（例えばＬｏｇ１０）を行って、この値を動画の複雑度係数として一定の範囲内に収める。一つの動画におけるすべての動画セグメントの動画複雑度係数の平均値を平均複雑度係数として統計し、次に各動画セグメントの複雑度因子を算出する：

複雑度因子＝複雑度係数／（平均複雑度係数）。

ステップ２０３において、特徴および目標動画品質を予め訓練されたエンコードパラメータ予測モデルに入力して、当該動画セグメントのエンコードパラメータを取得する。

本実施例において、エンコードパラメータ予測モデルはディープニューラルネットワーク予測器とすることができる。エンコードパラメータ予測モデルは、動画セグメントの特徴と目標動画品質におけるエンコードパラメータとの対応関係を表すために使用される。具体的に、例として、エンコードパラメータ予測モデルは、技術者が多くの特徴および異なる動画品質におけるエンコードパラメータに対する統計に基づいて事前に作成したもので、そこに多くの特徴と異なる動画品質におけるエンコードパラメータとの対応関係を表すための対応関係表が記憶されてもよく、また、技術者が大量のデータに対する統計に基づいて事前設定され上記電子機器に記憶されている、異なる動画品質におけるエンコードパラメータの１つまたは複数の値を回帰させ、得られた回帰曲線であってもよい。動画の特徴から確定された複雑度因子に基づいて分類し、異なる回帰曲線を照会することができ、各回帰曲線は、一つの複雑度因子の動画の異なる動画品質におけるエンコードパラメータを表す。エンコードパラメータは、ビットレート、解像度、ＣＲＦなどを含むことができる。

動画の品質は、ＰＳＮＲ (ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ、ピーク信号対雑音比)、ＶＭＡＦ (ＶｉｓｕａｌＭｕｌｔｉｍｅｔｈｏｄＡｓｓｅｓｓｍｅｎｔＦｕｓｉｏｎ)、ＭＯＳ (ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ、平均オピニオン値) によって表すことができる。目標動画品質とは、ユーザが所望する動画品質を指す。

ステップ２０４において、少なくとも１つの動画セグメントにおける動画セグメントに対応するエンコードパラメータに基づいて動画をエンコード処理し、エンコードされた動画を生成する。

本実施例において、異なる動画セグメントについて、異なるエンコード方式を採用し、各動画セグメントについて、対応するエンコード方式でそれぞれにエンコードした後に、完全なビデオに結合される。

本実施例のいくつかの選択可能な実施形態において、当該方法は、エンコードされた動画の動画品質を確定することを含む。確定された動画品質は目標動画品質と一致しないことに応答して、所定の情報を出力する。エンコードパラメータ予測モデルの不正確さによる不良結果を防止するために、予測されたエンコードパラメータを検証する。所定の情報は、エンコードされた動画品質が目標動画品質に達していないことを示すための情報であってもよい。

続けて図３を参照すると、図３は、本実施例に係る動画を処理するための方法の一適用状況の概略図である。図３の適用状況では、まず、サーバ３０１は端末装置３０２から送信されたトランスコーディング待ち動画３０３を取得し、トランスコーディング待ち動画３０３をシーンに応じて２つのトランスコーディング待ち動画セグメント３０３１および３０３２に区分することができる。次に、トランスコーディング待ち動画セグメント３０３１およびトランスコーディング待ち動画セグメント３０３２に対し、以下のステップを実行することができ、すなわち、トランスコーディング待ち動画セグメント３０３１とトランスコーディング待ち動画セグメント３０３２の特徴を確定する。生成された特徴をそれぞれ予め訓練されたエンコードパラメータ予測モデルに入力する同時に、目標動画品質を入力して、目標動画品質におけるトランスコーディング待ち動画セグメント３０３１の最適エンコードパラメータおよび目標動画品質におけるトランスコーディング待ち動画セグメント３０３２の最適エンコードパラメータが得られる。次に、得られたエンコードパラメータに基づいて、サーバ３０１は、トランスコーディング待ち動画セグメント３０３１のトランスコーディング用ビットレート３０４とトランスコーディング待ち動画セグメント３０３２のトランスコーディング用ビットレート３０５を確定することができる。最後に、サーバ３０１は、確定されたトランスコーディング用ビットレート３０４、３０５に基づいて、トランスコーディング待ち動画セグメント３０３１および３０３２をそれぞれトランスコーディングし、トランスコーディングされた動画セグメント３０６および３０７を生成することができる。そして、動画セグメント３０６および３０７をトランスコーディングされた動画３０８に合併して、端末装置３０２に返す。

本発明の上記実施例に係る方法は、シーンに応じてトランスコーディング待ちの動画を動画セグメントに区分してから、それぞれ予め訓練されたエンコードパラメータ予測モデルに入力することによって、異なる動画セグメントのエンコードパラメータを得る。次に、各動画セグメントについて、それぞれのエンコードパラメータに基づいてエンコードした後、トランスコーディングされた動画に合併する。コンテンツの複雑度に基づいてエンコードパラメータの設定を行い、エンコードの圧縮効率を高め、動画品質を向上させる目的を実現する。

さらに図４を参照すると、動画を処理するための方法の別の一実施例のフロー４００が示されている。当該動画を処理するための方法のフロー４００は、以下のステップを含む。

ステップ４０１において、サンプル動画セットを取得し、サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示する。

本実施例において、電子機器（例えば、図１に示されるサーバ）で動画を処理するための方法を実行し、有線接続または無線接続によって第三者サーバからサンプル動画セットを取得することができる。サンプル動画は、指定されたテストシーケンスであってもよく、各テストシーケンスは、異なる空間複雑度（ＳＩ、ＳｐａｔｉａｌｐｅｒｃｅｐｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）および時間複雑度（ＴＩ、ＴｅｍｐｏｒａｌｐｅｒｃｅｐｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）を特徴付ける。ＴＩ、ＳＩの計算方法は国際標準ＩＴＵ-ＴＰ.９１０で提案されている。

サンプル動画セットの構築は、開放されたデータセットによるものであってもよく、実際のオンラインサンプル動画セットによるものであってもよい。これらのデータセットは様々な異なるカテゴリに分類され、または、各動画は独自の複雑度を持っている。同じ空間複雑度および時間複雑度を持つ動画は、動画エンコードアルゴリズムによって圧縮された動画と同一のエンコード複雑度を持つと考えられる。マニュアル標示または自動標示でサンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示することができる。

本実施例のいくつかの選択可能な実施形態において、サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示することは、サンプル動画セットにおけるサンプル動画に対し、所定の一定品質の値に基づいて当該サンプル動画をエンコードし、エンコードプロセスにおけるエンコードパラメータ、動画品質を標示することを含む。同じ複雑度（時間、空間）の動画については、同じエンコード特性を持ち、例えば、同じＣＲＦ（例えばＣＲＦ＝２３）でエンコードされた動画は同じビットレートを持ち、同時に同じ動画品質を持つ可能性もある。

ＣＲＦ＝８、１０、１２、…４９これらの離散的な値をそれぞれ採用して、サンプル動画セットにおけるサンプル動画をエンコードしてから、エンコード生成ビットレートのビットレート（ｂｐｓ）、動画品質を統計する（例えば、ＰＳＮＲ、ＶＭＡＦまたはＭＯＳ）。このようにして、すべてのサンプル動画に対する標示作業が実現される。ＳＩやＴＩも標示可能である。

ステップ４０２において、サンプル動画セットにおけるサンプル動画に対し、当該サンプル動画の特徴を抽出し、当該サンプル動画の特徴に基づいて、当該サンプル動画の複雑度因子を確定する。

本実施例において、サンプル動画セットにおける各サンプル動画に対し、このサンプル動画をデコードし、動画の時間領域特徴または周波数領域特徴を抽出する。これらの特徴は、隣接するフレーム間のｍｏｔｉｏｎ（動き）情報、ＶＩＦ（ｖｉｓｕａｌｉｎｆｏｒｍａｔｉｏｎｆｉｄｅｌｉｔｙ、視覚情報忠実度）、ＤＬＭ（ｄｅｔａｉｌｌｏｓｓｍｅａｓｕｒｅ、詳細損失測定）などを含むことができる。

動画の特徴に基づいて動画の複雑度因子を確定することによって動画を分類することができる。各シーンのセグメント化は、与えられた一定品質の値に従ってＣＲＦのトランスコーディングを行い、トランスコーディングした後、トランスコーディングされたすべてのフレームの各ピクセルの占有するビット数ＢＰＰ（ｂｉｔｓｐｅｒｐｉｘｅｌ、ピクセル深度）を統計し、次にＢＰＰの値から特定の数学演算（例えばＬｏｇ１０）を行って、この値を動画の複雑度係数として一定の範囲内に収める。一つの動画におけるすべての動画セグメントの動画複雑度の平均値を平均複雑度係数として統計し、次に各動画セグメントの複雑度因子を算出する：

複雑度因子＝複雑度係数／（平均複雑度係数）。

ステップ４０３において、複雑度因子に基づいて、サンプル動画セットにおけるサンプル動画を少なくとも１つのカテゴリに分類する。

本実施例において、複雑度因子が同じサンプル動画を１つのカテゴリに分類する。次に、各カテゴリのサンプル動画の動画品質とエンコードパラメータに対し、回帰解析を行うことによって、回帰曲線が確定される。

ステップ４０４において、少なくとも１つのカテゴリにおけるカテゴリに対し、当該カテゴリに属するサンプル動画のエンコードパラメータと動画品質を回帰させ、エンコードパラメータと動画品質との関係を得る。

本実施例において、従来の回帰方式を用いて曲線フィッティングを行うことによって、エンコードパラメータと動画品質との関係曲線を得ることができる。図５ａ、図５ｂに示したように、右側は異なる動画コンテンツ（ＢＱ-１０８０、ＢＩ-１０８０などは異なる動画シーケンスを表す）を標示し、異なる動画コンテンツは異なる複雑度因子を有し、各複雑度因子は１つの曲線に対応する。横座標はエンコードパラメータ(ＣＲＦまたはビットレート(ｂｉｔｒａｔｅ)であり、縦座標は動画品質（ＶＭＡＦ）である。

図４から分かるように、図２に対応する実施例と比較して、本実施例における動画を処理するための方法のフロー４００には、エンコードパラメータ予測モデルを訓練するステップが示されている。したがって、本実施例で説明した態様は、より多くの種類の動画複雑度のビデオに関するデータを導入することができる。これにより、より包括的な動画エンコードパラメータ予測が実現される。

さらに図６を参照し、上記の各図面に示す方法の実現として、本発明は動画を処理するための装置の一実施例を提供する。当該装置の実施例は、図２に示す方法の実施例に対応し、具体的に様々な電子機器に適用できる。

図６に示すように、本実施例に係る動画を処理するための装置６００は、区分ユニット６０１と、抽出ユニット６０２と、入力ユニット６０３と、処理ユニット６０４とを含む。区分ユニット６０１は、処理待ちの動画を取得し、動画をシーンに応じて少なくとも１つの動画セグメントに区分するように構成される。抽出ユニット６０２は、少なくとも１つの動画セグメントにおける動画セグメントに対し、当該動画セグメントの特徴を抽出するように構成される。入力ユニット６０３は、特徴および目標動画品質を予め訓練された動画セグメントの特徴と目標動画品質におけるエンコードパラメータとの対応関係を表すために使用されるエンコードパラメータ予測モデルに入力して、当該動画セグメントのエンコードパラメータを取得するように構成される。処理ユニット６０４は、少なくとも１つの動画セグメントにおける動画セグメントに対応するエンコードパラメータに基づいて動画をエンコード処理し、エンコードされた動画を生成するように構成される。

本実施例において、動画を処理するための装置６００の区分ユニット６０１、抽出ユニット６０２、入力ユニット６０３、処理ユニット６０４の具体的な処理について、図２の対応する実施例のステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４を参照することができる。

本実施例のいくつかの選択可能な実施形態において、装置６００は、エンコードされた動画の動画品質を確定し、確定された動画品質は前記目標動画品質と一致しないことに応答して、所定の情報を出力するように構成された検証ユニット（図示せず）をさらに含む。

本実施例のいくつかの選択可能な実施形態において、抽出ユニット６０２は、さらに、当該動画セグメントをデコードし、当該動画セグメントの時間領域特徴および／または周波数領域特徴を抽出するように構成される。

本実施例のいくつかの選択可能な実施形態において、装置６００は訓練ユニット（図示せず）をさらに含み、訓練ユニットは、サンプル動画セットを取得し、サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示し、サンプル動画セットにおけるサンプル動画に対し、当該サンプル動画の特徴を抽出し、当該サンプル動画の特徴に基づいて、当該サンプル動画の複雑度因子を確定し、複雑度因子に基づいて、サンプル動画セットにおけるサンプル動画を少なくとも１つのカテゴリに分類し、少なくとも１つのカテゴリにおけるカテゴリに対し、当該カテゴリに属するサンプル動画のエンコードパラメータと動画品質を回帰させ、エンコードパラメータと動画品質との関係曲線を得るように構成される。

本実施例のいくつかの選択可能な実施形態において、訓練ユニットは、さらに、サンプル動画セットにおけるサンプル動画に対し、所定の一定品質の値に基づいて当該サンプル動画をエンコードし、エンコードプロセスにおけるエンコードパラメータ、動画品質を標示するように構成される。

本実施例のいくつかの選択可能な実施形態において、複雑度因子は、エンコードされたサンプル動画のピクセル深度に関連する。

以下、図７には、本発明の実施例を実現するための電子機器（例えば図１に示したサーバ）のコンピュータシステム７００の概略構造図が示されている。図７に示した電子機器は一例であり、本発明の実施例の機能と使用範囲を限定するものではない。

図７に示すように、コンピュータシステム７００は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されているプログラムまたは記憶部７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムに従って各種の適切な動作と処理を行うことができる中央処理装置（ＣＰＵ）７０１を含む。ＲＡＭ７０３には、システム７００の操作に必要な様々なプログラムとデータが記憶されている。ＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４によって相互に接続されている。入力/出力(Ｉ/Ｏ)インターフェース７０５もバス７０４に接続されている。

Ｉ/Ｏインターフェース７０５には、キーボード、マウスなどを含む入力部７０６と、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、スピーカなどを含む出力部７０７と、ハードディスクなどを含む記憶部７０８と、ＬＡＮカード、デモジュレータなどのネットワークインターフェースカードを含む通信部７０９とが接続されている。通信部７０９は、インターネットのようなネットワークを介して通信処理を行う。ドライバ７１０も必要に応じてＩ/Ｏインターフェース７０５に接続されている。ディスク、光ディスク、磁気ディスク、半導体メモリなどの着脱可能な媒体７１１は、必要に応じてドライバ７１０に取り付けられることにより、そこから読み出されるコンピュータプログラムが必要に応じて記憶部７０８にインストールされる。

特に、本発明の実施例によると、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアのプログラムとして実現されることができる。例えば、本発明の実施例は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信部７０９を介してネットワークからダウンロードされてインストールされ、および／または着脱可能な媒体７１１からインストールされることができる。このコンピュータプログラムが中央処理装置（ＣＰＵ）７０１によって実行されるときに、本発明のシステムで限定された上記の機能を実行する。なお、本発明に示したコンピュータ可読媒体は、コンピュータ可読信号媒体、あるいはコンピュータ可読記憶媒体、または上記の両方の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、あるいは半導体のシステム、装置またはデバイス、あるいは上記の任意の組合せであってもよいが、これらに限らない。コンピュータ可読記憶媒体のより具体的な例には、１本以上のワイヤによる電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ-ＲＯＭ）、光記憶装置、磁気記憶装置、または上記の任意の組み合わせが含まれるが、これらに限らない。本発明では、コンピュータ可読記憶媒体は、プログラムを含むかまたは記憶する任意の有形の媒体であることができ、このプログラムは、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されることができる。本発明では、コンピュータが読み取り可能な信号媒体は、コンピュータが読み取り可能なプログラムコードを担持した、ベースバンド内でまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されたデータ信号は、多種の形式を採用でき、電磁気信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータが読み取り可能な信号媒体は、コンピュータ可読記憶媒体以外のいかなるコンピュータ可読媒体であってもよく、このコンピュータ可読媒体は、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されることができ、無線、ワイヤ、光ファイバケーブル、RFなど、または上記の任意の適切な組み合わせを含むが、これらに限らない。

本発明の操作を実行するためのコンピュータプログラムコードを、１以上のプログラミング言語またはそれらの組み合わせで書くことができ、前記プログラミング言語には、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語を含み、さらに「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語も含まれる。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上、１つの単独のソフトウェアパッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモートコンピュータ上で、あるいは完全に遠隔コンピュータまたはサーバ上で実行されることができる。遠隔コンピュータに関する場合には、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または、外部のコンピュータに接続されることができる（例えばインターネットサービスプロバイダを利用してインターネットを介して接続する）。

図の中のフローチャートおよびブロック図には、本発明の様々な実施例によるシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作が示されている。この点で、フローチャート又はブロック図の各ブロックは、１つのモジュール、プログラミングのセグメント、またはコードの一部を代表でき、このモジュール、プログラミングのセグメント、またはコードの一部は、所定のロジック機能を実現するための１つ以上の実行可能指令を含む。また、いくつかの代替の実施例では、ブロックに示されている機能は、図面に示された順序と異なる順序で発生してもよいことに留意されたい。例えば、連続して示す２つのブロックは実際に並行して実行されてもよく、それらは係る機能に応じて時に逆の順序で実行されてもよい。ブロック図および／またはフローチャートの各ブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、特定の機能または操作を実行する専用のハードウェアによるシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよいことにも留意されたい。

本発明の実施例に係るユニットは、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明されたユニットは、プロセッサに設置されてもよく、例えば、「区分ユニットと、入力ユニットと、処理ユニットとを含むプロセッサである」と記載してもよい。ここで、これらのユニットの名は、ある場合にはそのユニット自体を限定しないで、例えば、区分ユニットを「処理待ちの動画を取得し、動画をシーンに応じて少なくとも１つの動画セグメントに区分するユニット」と記載してもよい。

別の側面において、本発明は、コンピュータ可読媒体をさらに提供し、このコンピュータ可読媒体は、上記の実施形例で説明された装置に含まれてもよく、個別に存在しこの装置に組み込まれなくてもよい。上記のコンピュータ可読媒体は、１つ以上のプログラムを担持し、上記の１つ以上のプログラムが一つのこの電子機器によって実行されたとき、当該装置は、処理待ちの動画を取得し、動画をシーンに応じて少なくとも１つの動画セグメントに区分し、少なくとも１つの動画セグメントにおける動画セグメントに対し、当該動画セグメントの特徴を抽出し、特徴および目標動画品質を予め訓練された動画セグメントの特徴と目標動画品質におけるエンコードパラメータとの対応関係を表すために使用されるエンコードパラメータ予測モデルに入力して、当該動画セグメントのエンコードパラメータを取得し、少なくとも１つの動画セグメントにおける動画セグメントに対応するエンコードパラメータに基づいて動画をエンコード処理し、エンコードされた動画を生成する。

上記の説明は、本発明の好ましい実施例および応用された技術の原理の説明にすぎない。本発明に係る発明の範囲が、上記の技術的特徴を組み合わせて得られた技術案に限定されず、同時に上記の発明の概念から逸脱しない場合に、上記の技術的特徴またはこれと同等の技術的特徴を任意に組み合わせて得られた他の技術案を含むべきであることを当業者は理解すべきである。例えば、上述の特徴が本発明において開示されているもの（しかしこれに限らず）と類似した機能を有する技術的特徴と相互に入れ替わって形成された技術案が挙げられる。

Claims

処理待ちの動画を取得し、前記動画をシーンに応じて少なくとも１つの動画セグメントに区分することと、
前記少なくとも１つの動画セグメントにおける動画セグメントに対し、当該動画セグメントの特徴を抽出することと、
前記特徴および目標動画品質を予め訓練されたエンコードパラメータ予測モデルに入力して、当該動画セグメントのエンコードパラメータを取得し、ここで、前記エンコードパラメータ予測モデルは、動画セグメントの特徴と目標動画品質におけるエンコードパラメータとの対応関係を表すために使用されることと、
前記少なくとも１つの動画セグメントにおける動画セグメントに対応するエンコードパラメータに基づいて前記動画をエンコード処理し、エンコードされた動画を生成することと、
を含み、
前記エンコードパラメータ予測モデルは、
サンプル動画セットを取得し、前記サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示することと、
前記サンプル動画セットにおけるサンプル動画に対し、当該サンプル動画の特徴を抽出し、当該サンプル動画の特徴に基づいて、当該サンプル動画の複雑度因子を確定することと、
複雑度因子に基づいて、前記サンプル動画セットにおけるサンプル動画を少なくとも１つのカテゴリに分類することと、
前記少なくとも１つのカテゴリにおけるカテゴリに対し、当該カテゴリに属するサンプル動画のエンコードパラメータと動画品質を回帰させ、エンコードパラメータと動画品質との関係曲線を得ることと、
を含むステップで訓練されることによって得られる、
動画を処理するための方法。
エンコードされた動画の動画品質を確定することと、
確定された動画品質は前記目標動画品質と一致しないことに応答して、所定の情報を出力することと、
をさらに含む請求項１に記載の方法。
前記当該動画セグメントの特徴を抽出することは、
当該動画セグメントをデコードし、当該動画セグメントの時間領域特徴および／または周波数領域特徴を抽出することを含む、
請求項１に記載の方法。
前記サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示することは、
前記サンプル動画セットにおけるサンプル動画に対し、所定の一定品質の値に基づいて当該サンプル動画をエンコードし、エンコードプロセスにおけるエンコードパラメータ、動画品質を標示することを含む、
請求項１に記載の方法。
前記複雑度因子は、エンコードされたサンプル動画のピクセル深度に関連する請求項１に記載の方法。
処理待ちの動画を取得し、前記動画をシーンに応じて少なくとも１つの動画セグメントに区分するように構成された区分ユニットと、
前記少なくとも１つの動画セグメントにおける動画セグメントに対し、当該動画セグメントの特徴を抽出するように構成された抽出ユニットと、
前記特徴および目標動画品質を予め訓練された動画セグメントの特徴と目標動画品質におけるエンコードパラメータとの対応関係を表すために使用されるエンコードパラメータ予測モデルに入力して、当該動画セグメントのエンコードパラメータを取得するように構成された入力ユニットと、
前記少なくとも１つの動画セグメントにおける動画セグメントに対応するエンコードパラメータに基づいて前記動画をエンコード処理し、エンコードされた動画を生成するように構成された処理ユニットと、
サンプル動画セットを取得し、前記サンプル動画セットにおけるサンプル動画のエンコードパラメータと動画品質を標示し、
前記サンプル動画セットにおけるサンプル動画に対し、当該サンプル動画の特徴を抽出し、当該サンプル動画の特徴に基づいて、当該サンプル動画の複雑度因子を確定し、
複雑度因子に基づいて、前記サンプル動画セットにおけるサンプル動画を少なくとも１つのカテゴリに分類し、
前記少なくとも１つのカテゴリにおけるカテゴリに対し、当該カテゴリに属するサンプル動画のエンコードパラメータと動画品質を回帰させ、エンコードパラメータと動画品質との関係曲線を得る、ように構成された訓練ユニットと、
を含む動画を処理するための装置。
エンコードされた動画の動画品質を確定し、
確定された動画品質は前記目標動画品質と一致しないことに応答して、所定の情報を出力する、
ように構成された検証ユニットをさらに含む請求項６に記載の装置。
前記抽出ユニットは、さらに、当該動画セグメントをデコードし、当該動画セグメントの時間領域特徴および／または周波数領域特徴を抽出するように構成される、
請求項６に記載の装置。
前記訓練ユニットは、さらに、前記サンプル動画セットにおけるサンプル動画に対し、所定の一定品質の値に基づいて当該サンプル動画をエンコードし、エンコードプロセスにおけるエンコードパラメータ、動画品質を標示するように構成される、
請求項６に記載の装置。
前記複雑度因子は、エンコードされたサンプル動画のピクセル深度に関連する請求項６に記載の装置。
１つ以上のプロセッサと、
１つ以上のプログラムが記憶された記憶装置と、
を含み、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるとき、請求項１から５のいずれか１項に記載の方法を前記１つ以上のプロセッサに実現させる、
電子機器。
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるとき、請求項１から５のいずれか１項に記載の方法を実現する、
コンピュータ可読媒体。