JP2023509301A

JP2023509301A - ビデオデータ処理方法、装置、機器及びコンピュータプログラム

Info

Publication number: JP2023509301A
Application number: JP2022533403A
Authority: JP
Inventors: シュー，シシェン; ウー，ジンラン; ジャオ，ジュン; マー，ジュンチェン; リー，ヤチン; ツー，チェンジエ; ワン，リアン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2020-02-24
Filing date: 2020-11-05
Publication date: 2023-03-08
Anticipated expiration: 2040-11-05
Also published as: WO2021169392A1; CN111277827A; US11871017B2; US20220248040A1; EP4024862A1; CN111277827B; JP7427090B2; EP4024862A4

Abstract

【要約】本出願の実施例は、ビデオデータ処理方法、装置、機器及び可読記憶媒体を提供し、当該方法は、ターゲットビデオのビデオ特徴を取得し、前記ビデオ特徴は背景特徴、及びキーパーツ領域特徴を含み、前記ターゲットビデオに対応するキーパーツ期待品質を取得し、前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定し、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし、且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定し、前記背景予測トランスコーディングパラメータ、及び前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングすることを含む。

Description

本出願は、２０２０年２月２４日に中国専利局に提出した、出願番号が２０２０１０１１２２０８．８であって、発明の名称が「ビデオデータ処理方法、装置、機器及び可読記憶媒体」である中国特許出願の優先権を主張し、本出願は、それらの全体が参照によりここに組み込まれる。

本出願は、コンピュータ技術分野に関し、特に、ビデオデータ処理方法、装置、機器及びコンピュータプログラムに関する。

放送技術およびネットワークビデオアプリケーションの発展につれて、ビデオは人々の日常生活においてキーパーツとなっており、人々はビデオを学習や娯楽に使用する。様々なネットワーク帯域幅、様々な端末処理能力、および様々なユーザ要件に適応するには、ビデオをトランスコーディングすることは非常に重要視されている。

ビデオをトランスコーディングする場合、ビデオ全体のコンテンツが主に考慮されるものであり、ビデオ全体のコンテンツに基づいて、ビデオの特徴を抽出し、そして、ビデオの特徴に応じて、目標品質におけるビデオのビットレートを予測し、そして、予測されたビットレートに応じてビデオをトランスコーディングする。

本出願の実施例は、ビデオトランスコーディングされたキーパーツ領域の品質を改善可能なビデオデータ処理方法、装置、機器及びコンピュータプログラムを提供する。

本出願の実施例の一態様は、ビデオデータ処理方法を提供し、
ターゲットビデオのビデオ特徴を取得し、前期ビデオ特徴は背景特徴及びキーパーツ領域特徴を含み、
前記ターゲットビデオに対応するキーパーツ期待品質を取得し、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値であり、
前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定し、前記背景予測トランスコーディングパラメータは、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値である背景期待品質にマッチングし、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし、且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定し、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングすることを含む。

本出願の実施例の一態様は、ビデオデータ処理装置を提供し、
ターゲットビデオのビデオ特徴を取得するために用いられ、前記ビデオ特徴は、背景特徴及びキーパーツ領域特徴を含む特徴取得モジュールと、
前記ターゲットビデオに対応するキーパーツ期待品質を取得するために用いられ、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値である品質取得モジュールと、
前記背景特徴に基づいて、前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するために用いられ、前記背景予測トランスコーディングパラメータは、背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値であるトランスコーディングパラメータ決定モジュールと、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するための予測値決定モジュールと、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするためのビデオトランスコーディングモジュールと、を含む。

なお、前記特徴取得モジュールは、
ターゲットビデオを取得するためのターゲットビデオ取得ユニットと、
前記ターゲットビデオにおいてキーパーツ領域を取得するためのキーパーツ領域取得ユニットと、
特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記のターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するためのビデオ仮符号化ユニットと、を含む。

なお、前記背景特徴は、解像度、ビットレート、フレームレート、参照フレーム、ピーク信号対雑音比ＰＳＮＲ、構造的類似性指数ＳＳＩＭ、ビデオマルチメソッドアセスメントフュージョンＶＭＡＦのうちの１つまたは複数を含み、
前記キーパーツ領域特徴は、キーパーツ領域のピーク信号対雑音比ＰＳＮＲ、キーパーツ領域の構造的類似性指数ＳＳＩＭ、キーパーツ領域のビデオマルチメソッドアセスメントフュージョンＶＭＡＦ、ビデオフレームの総数におけるキーパーツフレームの数に対するキーパーツが現れるキービデオフレームの数の比、キービデオフレームの総面積のキーパーツ面積に対するキーパーツが現れるキービデオフレームにおけるキーパーツ領域の面積の比、キーパーツ領域の平均ビットレートのうちの１つまたは複数を含む。

なお、前記ビデオ仮符号化ユニットは、
前記特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するための符号化パラメータ取得サブユニットと、
前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するためのキービデオフレーム決定サブユニットと、
前記特徴符号化パラメータに応じて、前記キービデオフレーム、及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するためのキーパーツ領域特徴決定サブユニットと、を含む。

なお、前記キーパーツ領域特徴決定サブユニットは、さらに、特徴符号化パラメータに応じて前記キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得するために用いられ、
前記キーパーツ領域特徴決定サブユニットは、さらに、前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数におけるキーパーツフレーム数比を決定するために用いられ、
前記キーパーツ領域特徴決定サブユニットは、さらに、前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するために用いられ、
前記キーパーツ領域特徴決定サブユニットは、さらに、前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するために用いられる。

なお、前記ターゲットビデオ取得ユニットは、
初期ビデオを取得するための初期ビデオ取得サブユニットと
前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するためのスイッチングフレーム決定サブユニットと、
前記シーンスイッチングフレームに応じて、前記初期ビデオを、少なくとも２つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップのうちターゲットビデオクリップを、前記ターゲットビデオとして取得するためのビデオセグメント化サブユニットとを含む。

前記予測値決定モジュールは、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより、少なくとも２つの初期トランスコーディングパラメータ予測値を出力するために用いられ、前記初期トランスコーディングパラメータ予測値のそれぞれは、異なるキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値出力ユニットと、
キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するためのターゲットトランスコーディングパラメータ予測値決定ユニットとを含む。

なお、前記初期トランスコーディングパラメータ予測値出力ユニットは、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルの全結合層に入力し、前記全結合層に融合特徴を生成するための融合特徴生成サブユニットと、
少なくとも２つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するための標準値取得サブユニットと、
前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定するための初期トランスコーディングパラメータ予測値決定サブユニットと、を含む。

なお、前記ターゲットトランスコーディングパラメータ予測値決定ユニットは、
前記キーパーツ期待品質と前記キーパーツ品質標準値集合とをマッチングするための品質マッチングサブユニットと、
前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも２つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するためのターゲットトランスコーディングパラメータ予測値決定サブユニットと、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するために用いられる。

なお、前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値のうち、最小キーパーツ品質標準値を決定するために用いられ、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するために用いられ、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するために用いられ、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するために用いられる。

トレーニングすべきトランスコーディングパラメータ予測モデルを取得するための予測モデル取得モジュールと、
サンプルビデオのサンプルビデオ特徴、及び少なくとも２つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するためのサンプル取得モジュールと、
前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも２つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するためのサンプル予測値出力モジュールと、
ラベルマッピング表から、前記少なくとも２つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するためのトランスコーディングパラメータラベル取得モジュールと、
前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するためのトランスコーディングパラメータ予測誤差決定モジュールと、
前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしている場合、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるためのトレーニング完了モジュールと、
前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていない場合、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するためのパラメータ調整モジュールと、をさらに含む。

複数の背景テストトランスコーディングパラメータ、及び複数のキーパーツテストトランスコーディングパラメータを取得するためのテストトランスコーディングパラメータ取得モジュールと、
前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれにおいて、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれに対応するキーパーツテスト品質を取得するためのテスト品質決定モジュールと、
前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するためのマッピング表構築モジュールとを含む。

なお、前記マッピング表構築モジュールは、さらに、前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも２つのキーパーツ品質標準値を含む場合、前記ラベルマッピング表における当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを決定し、当該キーパーツテストトランスコーディングパラメータを前記キーパーツ標準トランスコーディングパラメータラベルとし、
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも２つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するために用いられる。

本出願の実施例の一態様は、プロセッサー及びメモリを含むコンピュータ機器であって、前記メモリにコンピュータプログラムが記憶されており、前記コンピュータプログラムは、前記プロセッサーによって実行されると、本出願の実施例における方法を前記プロセッサーに実行させるコンピュータ機器を提供する。

本出願の実施例の一態様は、プログラムコマンドを含むコンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記プログラムコマンドは、プロセッサーによって実行されると、本出願の実施例における方法を実行させるコンピュータ可読記憶媒体。

本出願の実施例又は従来技術における技術案を明らかに説明するために、以下は、実施例又は従来技術の記載の必要な図面を簡単に紹介し、明らかに、以下に記載の図面は本出願のいくつかの実施例のみであり、当業者にとって、進歩性に値する労働をしない前提で、これらの図面に基づき、他の図面を取得することができる。
本出願の実施例で提供されるネットワークアーキテクチャの構成概略図である。本出願の実施例で提供されるターゲットトランスコーディングパラメータ予測値を決定するシーンの概略図である。本出願の実施例で提供されるビデオデータ処理方法の流れの概略図である。本出願の実施例で提供されるトランスコーディングパラメータ予測モデルによって初期トランスコーディングパラメータ予測値を出力する概略図である。本出願の実施例で提供されるターゲットビデオのビデオ特徴を取得する流れの概略図である。本出願の実施例で提供されるトランスコーディングパラメータ予測モデルをトレーニングする流れの概略図である。本出願の実施例で提供される背景テストトランスコーディングパラメータに対応する背景画質を得る概略図である。本出願の実施例で提供されるラベルマッピング表を構築する概略図である。本出願の実施例で提供されるトランスコーディングパラメータ予測モデルをトレーニングするシーンの概略図である。本出願の実施例で提供されるシステムアーキテクチャ図である。本出願の実施例で提供される背景予測トランスコーディングパラメータとターゲットトランスコーディングパラメータ予測値に基づいてビデオをトランスコーディングするシーンの概略図である。本出願の実施例で提供されるビデオデータ処理装置の構成概略図である。本出願の実施例で提供されるコンピュータ機器の構成概略図である。

以下、本出願の実施例の図面を参照して、本出願の実施例の技術案を明瞭かつ完全に説明する。明らかに、説明される実施例は、本出願の実施例の全部ではなく、本出願の実施例の一部にすぎない。当業者が創造的な労働をせずに本発明の実施例に基づいて得るすべての他の実施例は、本出願の保護範囲に属する。

通常、ビデオをトランスコーディングする場合、ビデオ全体のコンテンツは主に考慮されるものであり、ビデオ全体のコンテンツに基づいて、ビデオの特徴を抽出し、そしてビデオの特徴に応じて、目標品質におけるビデオのビットレートを予測され、そして予測されたビットレートに応じて、ビデオをトランスコーディングする。このような方法は、ビデオのフレーム画像全体の品質を制御可能であるが、ビデオの一部の領域（例えば、顔の領域）の品質を制御することが困難である。従って、トランスコーディングされたビデオの一部の領域の品質はおそらく高くない。

本出願の実施例は、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし且つキーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値をキーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。

図１を参照して、本出願の実施例で提供されるネットワークアーキテクチャの構成概略図である。図１に示されるように、このネットワークアーキテクチャは、サービスサーバ１０００およびユーザ端末クラスタを含んでもよく、当該ユーザ端末クラスタは、複数のユーザ端末を含んでもよく、図１に示すように、具体的には、ユーザ端末１００ａ、ユーザ端末１００ｂ、ユーザ端末１００ｃ、…、ユーザ端末１００ｎを含んでもよい。各ユーザ端末はバックエンドサーバに対応し、各バックエンドサーバは、サービスサーバ１０００とデータのやり取りを行うように、ネットワークを介してサービスサーバ１０００に接続することができ、サービスサーバ１０００は、各ユーザ端末からのサービスデータを便利に受信できる。

図１に示すように、各ユーザ端末には、ターゲットアプリケーションが統合して実装されてもよい。ターゲットアプリケーションが各ユーザ端末で実行されると、各ユーザ端末に対応するバックエンドサーバは、アプリケーションにおけるサービスデータを格納し、図１に示すサービスサーバ１０００とデータのやり取りを行うことができる。当該ターゲットアプリケーションには、テキスト、画像、音声、動画などのデータ情報を表示する機能を備えたアプリケーションを含んでもよい。当該ターゲットアプリケーションは、自動化などの分野のサービス処理アプリケーションであり、ユーザが入力したデータを自動処理するために使用することができ、例えば、当該ターゲットアプリケーションは、エンターテインメントアプリケーションのビデオ再生アプリケーションであってもよい。

本出願の実施例は、複数のユーザ端末から、１つのユーザ端末をターゲットユーザ端末として選択し、当該ターゲットユーザ端末は、スマートフォン、タブレットコンピューター、デスクトップコンピュータなどのデータ情報を表示および再生する機能を備えたスマート端末を含んでもよい。例えば、本出願の実施例は、図１に示すユーザ端末１００ａを当該ターゲットユーザ端末としてもよく、当該ターゲットユーザ端末に前述のターゲットアプリケーションを集積することができ、この場合、当該ターゲットユーザ端末に対応するバックエンドサーバは、サービスサーバ１０００とデータのやり取りを行うことができる。例えば、ユーザ端末１００ａを例として、ユーザＡがターゲットビデオをトランスコーディングすることを意図し、トランスコーディングされたキーパーツの品質（すなわち、キーパーツ期待品質）が９０であることを望む場合、ユーザＡは、ユーザ端末１００ａのターゲットアプリケーションにターゲットビデオをアップロードすることができ、ユーザ端末１００ａのバックエンドサーバは、ターゲットビデオをキーパーツ期待品質とともにサービスサーバ１０００に送信することができる。サービスサーバ１０００は、当該ターゲットビデオのビデオ特徴（背景特徴とキーパーツ領域特徴を含む）を取得でき、当該ターゲットビデオの背景特徴に応じて、サービスサーバ１０００は、当該ターゲットビデオの背景予測トランスコーディングパラメータを予測でき、当該背景予測トランスコーディングパラメータは、前記背景期待品質にマッチングし、当該背景特徴、キーパーツ領域特徴、および背景予測トランスコーディングパラメータに応じて、サービスサーバ１０００は、当該キーパーツ期待品質とマッチングするターゲットトランスコーディングパラメータ予測値を決定し、当該ターゲットトランスコーディングパラメータ予測値に応じてターゲットビデオをトランスコーディングし、トランスコーディングされたターゲットビデオをユーザ端末１００ａのバックエンドサーバに返すことにより、ユーザ端末１００ａは、トランスコーディングされたターゲットビデオを表示でき、ユーザＡはトランスコーディングされたターゲットビデオを見ることができる。

幾つかの実施例において、サービスサーバ１０００は、バックエンドサーバでの多数のビデオを収集し、これらのビデオのビデオ特徴を取得し、ビデオ特徴に応じて各ビデオに対応するトランスコーディングパラメータ予測値を決定し、当該トランスコーディングパラメータの予測値に応じてビデオをトランスコーディングし、トランスコーディングされたビデオをビデオストリームに入れてもよい。このようにして、後続でユーザがユーザ端末を使用してビデオをブラウズする場合に、ユーザに対してトランスコーディングされたビデオを再生することができる。

幾つかの実施例において、バックエンドサーバは、ターゲットビデオのビデオ特徴、及びキーパーツ期待品質を取得し、ビデオ特徴に応じて当該キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を予測することもできることを理解されたく、ここでのバックエンドサーバがターゲットトランスコーディングパラメータ予測値を予測する具体的な実現方式は、前記サービスサーバ１０００によるターゲットトランスコーディングパラメータ予測値の予測についての説明を参照でき、ここで再度説明されない。

本出願の実施例で提供される方法は、コンピュータ機器によって実行され得、コンピュータ機器は、端末またはサーバを含むが、これらに限定されないことを理解されたい。

さらに、理解の都合上で、図１を参照し、本出願の実施例で提供されるターゲットトランスコーディングパラメータ予測値を決定するシーン概略図である。図２に示すように、ユーザＡは端末Ａのターゲットアプリケーションを介してビデオ２０ａをアップロードし、キーパーツ期待品質を９０として入力することができ、なお、ここでのキーパーツは人間の顔を指す。端末Ａのバックエンドサーバは、当該ビデオ２０ａ及び当該ビデオ２０ａのキーパーツ期待品質（例えば、顔期待品質）９０をサービスサーバ２０００に送信することができる。サービスサーバ２０００は、当該ビデオ２０ａを特徴エンコーダに入力し、当該特徴エンコーダにおいて当該ビデオ２０ａのキーパーツ領域（例えば、顔領域）を領域Ｂとして決定することができる。サービスサーバ２０００は、取得された特徴符号化パラメータに応じて、当該特徴エンコーダにおいて当該ビデオ２０ａを仮符号化することで、当該ビデオ２０ａの背景特徴を得ることができ、ビデオは、連続するイメージシーケンスであり、連続するビデオフレームからなり、１つのビデオフレームは１枚の画像であり、ここでの仮符号化とは、特徴エンコーダにおいて、ビデオ２０ａ内のビデオフレームの画像属性情報（例えば、解像度、フレームレート、ビットレート、画質など）を統計することを意味し得る。サービスサーバ２０００は、当該ビデオ２０ａのビデオフレームを取得し、そしてこれらのビデオフレームのうち、キーパーツを含むビデオフレームをキービデオフレームとして決定し、前記特徴符号化パラメータに応じて、前記特徴エンコーダにおいて前記キービデオフレーム及び前記キーパーツ領域を仮符号化することで、ビデオ２０ａのキーパーツ領域特徴（例えば、顔領域特徴）を得ることができ、サービスサーバ２０００は、前記背景特徴に応じて、背景予測トランスコーディングパラメータを取得でき、当該背景予測トランスコーディングパラメータ、当該背景特徴及び当該キーパーツ領域特徴に応じて、サービスサーバ２０００は前記キーパーツ期待品質９０にマッチングするターゲットトランスコーディングパラメータ予測値を決定することができる。続いて、サービスサーバ２０００は、ビデオ２０ａをトランスコーディングする際、配置オプションにおけるトランスコーディングパラメータを当該ターゲットトランスコーディングパラメータ予測値として設置することにより、トランスコーディングされたビデオ２０ｂを取得でき、当該ビデオ２０ｂのキーパーツ領域の品質は当該キーパーツ期待品質に合わせる。

さらに、図３を参照して、本出願の実施例で提供されるビデオデータ処理方法の流れ概略図である。図３に示すように、当該方法は以下のステップを含んでもよい。

ステップＳ１０１において、ターゲットビデオのビデオ特徴を取得し、前記ビデオ特徴は、背景特徴及びキーパーツ領域特徴を含む。

本出願の実施例では、当該ビデオ特徴は背景特徴及びキーパーツ領域特徴を含んでもよく、ここでのキーパーツとは、あるオブジェクトに属する構成部位を指し、ここでのキーパーツ領域とは、当該キーパーツを含む領域を指し得る。さらに、当該オブジェクトは、動物（例えば、人間、猫、犬など）、植物（例えば、木、花など）、建物（例えば、ビル、住宅など）を指し、当該オブジェクトが動物の場合、当該キーパーツは顔、手、脚などの部位であってもよい。当該オブジェクトが植物であり、例えば、オブジェクトが木である場合、当該キーパーツは葉、枝などの部位であってもよい。つまり、当該キーパーツは、オブジェクトの多様性により異なるタイプを有することがある。当該ビデオ特徴は、特徴エンコーダによって一定の特徴符号化パラメータに応じてターゲットビデオを仮符号化することで取得されることができる。なお、ここでの背景特徴は、当該特徴符号化パラメータに応じてターゲットビデオを仮符号化することで取得されることができ、ここでのキーパーツ領域特徴は、当該特徴符号化パラメータに応じてターゲットビデオにおけるキーパーツ領域を仮符号化することで取得されることができる。つまり、当該背景特徴はキーパーツ領域を含むビデオ全体のコンテンツから取得され、当該キーパーツ領域特徴は、ターゲットビデオにおけるキーパーツ領域から取得され、当該背景特徴はキーパーツ領域特徴よりも粗いであるが、ビデオ全体のコンテンツを表すことができ、当該キーパーツ領域特徴は、キーパーツ領域のみを表すことができ、背景特徴よりも具体的であり、即ち、キーパーツ領域特徴は、キーパーツ領域におけるより多い詳細特徴を含み得る。

本出願では、背景特徴は、解像度、ビットレート、フレームレート、参照フレーム、ピーク信号対雑音比（ＰＳＮＲ）、構造的類似性指数（ＳＳＩＭ）、ビデオマルチメソッドアセスメントフュージョン（ＶＭＡＦ）などのフレームレベルの画像特徴であってもよく、当該キーパーツ領域特徴は、キーパーツ領域のＰＳＮＲ、キーパーツ領域のＳＳＩＭ、キーパーツ領域のＶＭＡＦ、ビデオフレームの総数におけるキーパーツフレームの数に対するキーパーツが現れるキービデオフレームの数の比、キービデオフレームの総面積のキーパーツ面積に対するキーパーツが現れるキービデオフレームにおけるキーパーツ領域の面積の比、キーパーツ領域の平均ビットレートなどであってもよい。

ターゲットビデオを特徴エンコーダに入力し、当該特徴エンコーダは当該ターゲットビデオのビデオフレームを仮符号化して、当該ターゲットビデオの解像度、ビットレート、フレームレート及び参照フレームを決定し、各ビデオフレームのＰＳＮＲ、ＳＳＩＭ、ＶＭＡＦの３つの特徴値を統計し、次に、ビデオフレームの数に応じてＰＳＮＲ、ＳＳＩＭ及びＶＭＡＦのそれぞれに対応する平均値を決定し、前記解像度、ビットレート、フレームレート、参照フレーム、及びＰＳＮＲ、ＳＳＩＭ及びＶＭＡＦの平均値をターゲットビデオの背景特徴とすることができることを理解されたい。例えば、ＶＭＡＦ、及びターゲットビデオに３つのビデオフレームがあることを例として、これらの３つのビデオフレームは、それぞれ、ビデオフレームＡ、ビデオフレームＢ及びビデオフレームＣであり、特徴エンコーダはこれらの３つのビデオフレームを仮符号化した後に、ビデオフレームＡのＶＭＡＦは８０、ビデオフレームＢのＶＭＡＦは８０、ビデオフレームＣのＶＭＡＦは９０であると、ビデオフレームＡ、ビデオフレームＢ及びビデオフレームＣの総数である３に応じて、ＶＭＡＦのような特徴での当該ターゲットビデオの最終値は（８０＋８０＋９０）／３＝８３．３となる。当該特徴エンコーダにおいて、キーパーツが現れるビデオフレームをキービデオフレームとして決定し、キービデオフレームにキーパーツ領域を決定し、当該キービデオフレーム及び当該キーパーツ領域を仮符号化することで、各キービデオフレームにおけるキーパーツ領域のＰＳＮＲ、ＳＳＩＭ及びＶＭＡＦの３つの特徴値を統計し、次に、キービデオフレームの数に応じて各特徴値の平均値を、当該ターゲットビデオのキーパーツ領域特徴として決定することができるとともに、当該キーパーツビデオフレームの数、及び当該ターゲットビデオのビデオフレームの総数に応じて、１つのキーパーツフレーム数比を取得でき、当該キーパーツフレーム数比を当該ターゲットビデオのキーパーツ領域特徴とすることができ、各キービデオフレームにおけるキーパーツ領域の面積、及び当該キービデオフレームの総面積に応じて、単一のキービデオフレームのキーパーツ面積比を取得でき、次に、当該キービデオフレームの総数に応じて、単一のキーパーツ面積比の最終値を取得でき、当該キーパーツ面積比の最終の値を当該ターゲットビデオのキーパーツ領域特徴とすることができる。例えば、ターゲットビデオに３つのビデオフレームがあることを例として、これらの３つのビデオフレームは、それぞれ、ビデオフレームＡ、ビデオフレームＢ及びビデオフレームＣであり、その中、当該ビデオフレームＡ及びビデオフレームＢはキービデオフレーム（つまり、ビデオフレームＡとビデオフレームＢの両方にキーパーツが現れる）、キービデオフレームＡとキービデオフレームＢの数２、及び当該ターゲットビデオのビデオフレーム総数３に応じて、キーパーツフレーム数比は２／３＝６６．７％となり、当該キービデオフレームＡにおけるキーパーツ領域の面積は３であり、当該キービデオフレームＡの総面積は９であると、当該キービデオＡのキーパーツ面積比は３３．３％となり、当該キービデオＢにおけるキーパーツ領域の面積は２であり、当該キービデオフレームＢの総面積は８であると、当該キービデオＢのキーパーツ面積比は２５％となり、キービデオフレームの総数２（１つのキービデオＡ＋１つのキービデオフレームＢ）に応じて、当該キーパーツ面積比の最終値は３３．３％＋２５％）／２＝２９．２％となり、キーパーツフレーム数比６６．７％及びキーパーツ面積比２９．２％も当該ターゲットビデオのキーパーツ領域特徴とする。

ステップＳ１０２において、前記ターゲットビデオに対応するキーパーツ期待品質を取得する。

本出願の実施例では、当該キーパーツ期待品質とは、ターゲットビデオをトランスコーディングし、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値を指し得る。当該キーパーツ期待品質は、人為的に定められた値であってもよいし、手動で入力された品質範囲に基づいてサーバによってランダムに生成された１つの値であってもよい。

ステップＳ１０３において、前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定する。

本出願の実施例では、トランスコーディングパラメータとは、ターゲットビデオをトランスコーディングする際の配置オプションパラメータを指し得、つまり、当該トランスコーディングパラメータは、ターゲットビデオをトランスコーディングするために用いられてもよく、当該トランスコーディングパラメータは、ビットレート、フレームレート、参照フレームなどを含むがそれらに限定されない。当該背景予測は背景期待品質に対応し、前記背景特徴に応じて、背景期待品質にマッチングする背景予測トランスコーディングパラメータを取得することができる。つまり、当該背景予測トランスコーディングパラメータは、ターゲットビデオ全体のコンテンツに適用する１つのパラメータであり、当該背景予測トランスコーディングパラメータに応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオ全体の品質は背景期待品質に合わせるようにすることができる。なお、当該背景期待品質とは、ターゲットビデオをトランスコーディングし、トランスコーディングされたターゲットビデオ全体の画質に対する期待値を指し得る。当該背景期待品質は人為的に定められた値であってもよいし、手動で入力された品質範囲に基づいてサーバによってランダムに生成された１つの値であってもよい。

ステップＳ１０４において、前記背景特徴、前記キーパーツ領域特徴及び前記背景予測トランスコーディングパラメータに応じて、前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定する。

本出願の実施例では、当該ターゲットトランスコーディングパラメータ予測値は前記キーパーツ期待品質に対応し、前記背景予測トランスコーディングパラメータ、背景特徴及びキーパーツ領域特徴をトランスコーディングパラメータ予測モデルに一緒に入力し、当該トランスコーディングパラメータ予測モデルの全結合層により、融合特徴を生成でき、なお、前記背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータは、合計でＭ個の特徴を含み得、ここでの融合特徴とは、前記背景特徴のそれぞれ、キーパーツ領域特徴のそれぞれ及び背景予測トランスコーディングパラメータのそれぞれを、全て１つの入力値として、当該トランスコーディングパラメータ予測モデルに同時に入力し、即ち、Ｍ個の特徴的値をトランスコーディングパラメータ予測モデルに入力することを意味し得る。当該トランスコーディングパラメータ予測モデルの全結合層により、これらのＭ個の特徴の値を融合することで、Ｎ個の初期トランスコーディングパラメータ予測値を出力することができる。なお、ＭとＮの両方は０よりも大きい整数であり、且つ、Ｎの値は、キーパーツ品質標準値集合におけるキーパーツ品質標準値数に依存し、つまり、Ｎの値はキーパーツ品質標準値数と一致する。ここでのキーパーツ品質標準値集合は、ビデオ特徴をトランスコーディングパラメータ予測モデルに入力する前に、トランスコーディングパラメータ予測モデルに入力された品質の範囲であり、トランスコーディングパラメータ予測モデルが当該キーパーツ品質標準値集合におけるキーパーツ品質標準値数に応じて出力する初期トランスコーディングパラメータ予測値の数を決定し、及び当該キーパーツ品質標準値に基づいて出力すべき初期トランスコーディングパラメータ予測値を決定するために用いられてもよい。

続いて、キーパーツ品質標準値集合を取得し、当該キーパーツ品質標準値集合には、少なくとも２つのキーパーツ品質標準値を含み、当該キーパーツ品質標準値とは、ターゲットビデオをトランスコーディングし、トランスコーディングされたターゲットビデオにおけるキーパーツ領域の画質に対する予測値を指し得る。当該キーパーツ品質標準値は、人為的に定められた値であってもよいし、人為的に与えられた範囲に基づいてサーバによってランダムに生成された少なくとも２つの値であってもよい。例えば、人為的に与えられた範囲は、８０～１００であると、サーバは、８０～１００の値から少なくとも２つの数値をランダムし選択でき、例えば、選択された数値は、８５、８８、９２、９６であり、これらの４つの数値（例えば、８５、８８、９２、９６）を全てキーパーツ品質標準値とし、｛８５、８８、９２、９６｝をキーパーツ標準値集合とする。前記キーパーツ品質標準値集合におけるキーパーツ品質標準値数、及び前記融合特徴に応じて、前記各キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定することができる。

理解の都合上、図４を参照し、本出願の実施例で提供される通過トランスコーディングパラメータ予測モデルが初期トランスコーディングパラメータ予測値を出力する概略図であり、図４に示すように、背景特徴、キーパーツ領域特徴は、特徴４００ａ、特徴４００ｂ、…、特徴４００ｎであってもよく、特徴４００ａ、特徴４００ｂ、…、特徴４００ｎ、及び背景予測トランスコーディングパラメータ４００ｍの合計Ｍ個の入力値を、トランスコーディングパラメータ予測モデル４０００に入力し、当該トランスコーディングパラメータ予測モデルは、入力層４０１、全結合層４０２、全結合層４０３及び出力層４０４を含む。キーパーツ品質標準値集合４００を当該トランスコーディングパラメータ予測モデル４０００に入力し、当該トランスコーディングパラメータ予測モデル４０００における全結合層４０２及び全結合層４０３により、当該特徴４００ａ、特徴４００ｂ、…、特徴４００ｎ、及び背景予測トランスコーディングパラメータ４００ｍに対して畳み込み計算を行うことができ、つまり、当該特徴４００ａ、特徴４００ｂ、…、特徴４００ｎ、及び背景予測トランスコーディングパラメータ４００ｍを融合することで、前記キーパーツ品質標準値集合４００におけるキーパーツ品質値のそれぞれに対応する初期トランスコーディングパラメータ予測値を融合により生成し、当該トランスコーディングパラメータ予測モデルの出力層４０４により、初期トランスコーディングパラメータ予測値１、初期トランスコーディングパラメータ予測値２及び初期トランスコーディングパラメータ予測値３を出力できる。なお、初期トランスコーディングパラメータ予測値１はキーパーツ品質標準値１に対応し、初期トランスコーディングパラメータ予測値２はキーパーツ品質標準値２に対応し、初期トランスコーディングパラメータ予測値３はキーパーツ品質標準値３に対応する。当該トランスコーディングパラメータ予測モデル４０００によって出力された各初期トランスコーディングパラメータ予測値は１つのキーパーツ品質標準値に対応するため、当該トランスコーディングパラメータ予測モデル４０００が特徴を融合した後に、出力した初期トランスコーディングパラメータ予測値の数はキーパーツ品質標準値集合におけるキーパーツ品質標準値の数に依存する。

なお、１つの背景予測トランスコーディングパラメータは１つのビデオ全体の品質（フレームレベルの画質）に対応する。背景予測トランスコーディングパラメータを、背景特徴及びキーパーツ領域特徴とともに、トランスコーディングパラメータ予測モデルに入力する目的は、当該背景予測トランスコーディングパラメータを前提として、ビデオ全体の品質が当該背景予測トランスコーディングパラメータに対応する品質であることに基づいて、キーパーツ領域のキーパーツ期待品質に必要なキーパーツ予測トランスコーディングパラメータに達することである。

続いて、キーパーツ期待品質を取得し、当該キーパーツ期待品質を前記キーパーツ品質標準値集合にマッチングする。当該キーパーツ品質標準値集合に当該キーパーツ期待品質と同じキーパーツ品質標準値が存在すると、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係（即ち、初期トランスコーディングパラメータ予測値とキーパーツ品質標準値との１対１対応関係）に応じて、前記初期トランスコーディングパラメータ予測値において、当該キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、当該ターゲットトランスコーディングパラメータ予測値として決定する。

例えば、前記トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値は２０、３０、４０であり、初期トランスコーディングパラメータ予測値２０はキーパーツ品質標準値８６に対応し、初期トランスコーディングパラメータ予測値３０はキーパーツ品質標準値８９に対応し、初期トランスコーディングパラメータ予測値４０はキーパーツ品質標準値９２に対応し、取得されたキーパーツ期待品質は８９である場合、キーパーツ期待品質８９をキーパーツ品質標準値集合｛８６、８９、９２｝とマッチングしたマッチング結果、キーパーツ品質標準値８９がキーパーツ期待品質８９と同じであり、キーパーツ品質標準値８９に対応する初期トランスコーディングパラメータ予測値は３０であるため、初期トランスコーディングパラメータ予測値３０をターゲットトランスコーディングパラメータ予測値とする。

当該キーパーツ品質標準値集合に当該キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、当該線形関数及び当該キーパーツ期待品質に応じてターゲットトランスコーディングパラメータ予測値を決定することができる。なお、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、線形関数を決定する具体的な実現方式は、以下通りである。前記キーパーツ品質標準値集合のうち、当該キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、当該キーパーツ期待品質よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値を決定し、前記キーパーツ品質標準値集合のうち、当該キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、当該キーパーツ期待品質よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値を決定する。つまり、当該最小キーパーツ品質標準値、及び当該最大キーパーツ品質標準値は、当該キーパーツ品質標準値集合のうち、当該キーパーツ期待品質に最も近い大小の２つの値である。初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定し、当該最大キーパーツ品質標準値、当該最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、当該最小キーパーツ品質標準値、及び当該最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、線形関数を決定する。線形関数に応じてターゲットトランスコーディングパラメータ予測値を決定する具体的な方法は、数式（１）に示す。

その中で、
（外１）

はキーパーツ期待品質
（外２）

に対応するターゲットトランスコーディングパラメータ予測値であり、
（外３）

はキーパーツ期待品質よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値であり、
（外４）

はキーパーツ期待品質よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値であり、
（外５）

はキーパーツ期待品質よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、
（外６）

はキーパーツ期待品質よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値である。

例えば、トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値は２０、３０、４０、５０であることを例として、初期トランスコーディングパラメータ予測値２０はキーパーツ品質標準値８５に対応し、初期トランスコーディングパラメータ予測値３０はキーパーツ品質標準値８６に対応し、初期トランスコーディングパラメータ予測値４０はキーパーツ品質標準値８９に対応し、初期トランスコーディングパラメータ予測値５０はキーパーツ品質標準値９２に対応し、取得されたキーパーツ期待品質は８８であり、即ち、前記数式（１）における
（外２）

は８８であり、キーパーツ期待品質８８をキーパーツ品質標準値集合｛８５、８６、８９、９２｝とマッチングするマッチング結果、当該キーパーツ品質標準値集合に当該キーパーツ期待品質８８と同じ値が存在しないことになり、当該キーパーツ品質標準値集合｛８５、８６、８９、９２｝において取得されたキーパーツ期待品質８８よりも大きいキーパーツ品質標準値は８９、９２であり、なお、８９は９２よりも小さいので、キーパーツ品質標準値８９を、当該キーパーツ期待品質８８よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値として決定する。つまり、前記数式（１）における
（外３）

は８９であり、当該キーパーツ品質標準値集合｛８５、８６、８９、９２｝において取得されたキーパーツ期待品質８８よりも小さいキーパーツ品質標準値は８５、８６であり、８６は８５よりも大きいので、キーパーツ品質標準値８６を、当該キーパーツ期待品質８８よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値として決定する。つまり、前記数式（１）における
（外４）

は８６であり、当該キーパーツ品質標準値集合｛８５、８６、８９、９２｝において、当該キーパーツ品質標準値８６とキーパーツ品質標準値８９とは、キーパーツ期待品質８８に最も近い大小の２つの値であることが分かる。取得されたキーパーツ品質標準値８６に対応する初期トランスコーディングパラメータ予測値は３０であり、つまり、前記数式（１）における
（外６）

は３０であり、キーパーツ品質標準値８９に対応する初期トランスコーディングパラメータ予測値は４０であり、つまり、前記数式（１）における
（外５）

は４０である。前記数式（１）に従って、キーパーツ期待品質８８に対応するターゲットトランスコーディングパラメータ予測値

を得ることができる。即ち

となる。

幾つかの実施例において、当該キーパーツ期待品質が当該キーパーツ品質標準値集合に対応する範囲にない場合、当該キーパーツ期待品質が当該キーパーツ品質標準値集合における最大キーパーツ品質標準値よりも大きい場合、当該キーパーツ品質標準値集合において、最大キーパーツ品質標準値、及び２番目に大きいキーパーツ品質標準値を取得し、当該最大キーパーツ品質標準値、最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、２番目に大きいキーパーツ品質標準値及び当該２番目に大きいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を取得して、線形関数を決定し、さらに、線形関数に応じてターゲットトランスコーディングパラメータ予測値を決定し、前記数式（１）における
（外３）

は当該最大キーパーツ品質標準値であり、前記数式（１）における
（外４）

は当該２番目に大きいキーパーツ品質標準値であり、前記数式（１）における
（外５）

は、当該最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、前記数式（１）における
（外６）

は当該２番目に大きいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であることを理解されたい。当該キーパーツ期待品質が当該キーパーツ品質標準値集合における最小キーパーツ品質標準値よりも小さい場合、当該キーパーツ品質標準値集合において、最大キーパーツ品質標準値、及び２番目に小さいキーパーツ品質標準値を取得し、当該最小キーパーツ品質標準値、当該最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、当該２番目に小さいキーパーツ品質標準値、及び当該２番目に小さいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を取得して、線形関数を決定し、さらに、線形関数に応じてターゲットトランスコーディングパラメータ予測値を決定し、つまり、前記数式（１）における
（外３）

は当該２番目に小さいキーパーツ品質標準値であり、前記数式（１）における
（外４）

は当該最小キーパーツ品質標準値であり、前記数式（１）における
（外５）

は当該２番目に小さいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、前記数式（１）における
（外６）

は、当該最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値である。例えば、トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値は２０、３０、４０、５０であることを例として、初期トランスコーディングパラメータ予測値２０はキーパーツ品質標準値８５に対応し、初期トランスコーディングパラメータ予測値３０はキーパーツ品質標準値８６に対応し、初期トランスコーディングパラメータ予測値４０はキーパーツ品質標準値８９に対応し、初期トランスコーディングパラメータ予測値５０はキーパーツ品質標準値９２に対応し、キーパーツ品質標準値集合は｛８５、８６、８９、９２｝となることが分かる。取得されたキーパーツ期待品質は９４であり、つまり、前記数式（１）における
（外２）

は９４である。キーパーツ期待品質９４をキーパーツ品質標準値集合｛８５、８６、８９、９２｝とマッチングしたマッチング結果、当該キーパーツ品質標準値集合｛８５、８６、８９、９２｝に当該キーパーツ期待品質９４と同じ値がなく、且つ当該キーパーツ期待品質９４が当該キーパーツ品質標準値集合｛８５、８６、８９、９２｝における最大キーパーツ品質標準値９２よりも大きいことである。取得できた当該キーパーツ品質標準値集合｛８５、８６、８９、９２｝における最大キーパーツ品質標準値は９２であり、２番目に大きいキーパーツ品質標準値は８９であり、８９を前記数式（１）における
（外４）

に代入し、９２を前記数式（１）における
（外３）

に代入し、キーパーツ品質標準値８９に対応する初期トランスコーディングパラメータ予測値は４０であり、キーパーツ品質標準値９２に対応する初期トランスコーディングパラメータ予測値は５０であるため、４０を前記数式（１）における
（外６）

に代入し、５０を前記数式（１）における
（外５）

に代入し、前記数式（１）に従って、取得されたキーパーツ期待品質９４に対応するターゲットトランスコーディングパラメータ予測値は

となり、即ち、

である

ステップＳ１０５において、前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングする。

本出願の実施例では、当該ターゲットトランスコーディングパラメータ予測値に応じて、ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオにおけるキーパーツ領域が表示する画質は前記キーパーツ期待品質に合わせるようにすることができる。そして、トランスコーディングされたターゲットビデオ全体が表示する画質は前記背景予測トランスコーディングパラメータに対応する背景期待品質に合わせる。

本出願の実施例では、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし、且つキーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値は、背景期待品質を満たすことに加えて、キーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。

さらに、図５を参照し、本出願の実施例で提供されるターゲットビデオのビデオ特徴を取得する流れ概略図である。図５に示すように、当該流れは以下のステップを含むことができる。

ステップＳ２０１において、ターゲットビデオを取得し、前記ターゲットビデオにおいてキーパーツ領域を取得する。

本出願の実施例では、ターゲットビデオは、所定の持続時間閾値内の短いビデオ又はビデオクリップであってもよい。当該持続時間閾値は、人為的に定められた値、例えば、０ｓ、２５ｓなどであってもよい。取得された初期元のビデオの持続時間が過度に長い場合、即ち、持続時間閾値よりも大きい場合、初期ビデオをセグメント化することができる。初期ビデオをセグメント化する具体的な方法は、当該初期ビデオをセッション特徴エンコーダに入力し、当該セッション特徴エンコーダにおいて当該初期ビデオのシーンスイッチングフレームを決定し、当該シーンスイッチングフレームに応じて、当該初期ビデオを少なくとも２つの異なるビデオクリップにセグメント化し、当該少なくとも２つの異なるビデオクリップにおいてターゲットビデオクリップを当該ターゲットビデオとして取得することであってもよい。なお、当該シーンスイッチングフレームとは、シーンの異なるビデオフレームを指し得、例えば、隣接する２つのビデオフレームにおけるシーンは異なると、この２つのシーンの異なるビデオフレームを、シーンスイッチングフレームとして決定することができる。なお、当該ビデオフレームにおけるシーンは、単純または複雑なテクスチャ、暴力的または穏やかな動きなどのシーンを含んでもよく、当該シーンは、建物、環境、キャラクターの行動などを含む。例えば、ビデオフレームａとビデオフレームｂは隣接するビデオフレームであり、ビデオフレームａはバスケットボール選手がダンキングしているスタジアムシーンであり、ビデオフレームｂは観客が叫んでいる講堂シーンであり、ビデオフレームａのシーンはビデオフレームｂのシーンとは異なるため、ビデオフレームａとビデオフレームｂの両方をシーンスイッチングフレームとし、ビデオフレームａとビデオの間でビデオをセグメント化することができる。

ステップＳ２０２において、特徴符号化パラメータ、及び前記キーパーツ領域に応じて、前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得する。

本出願の実施例では、特徴符号化パラメータとは、特徴エンコーダにおける配置パラメータを指し得、人為的に定められた値であってもよい。当該特徴符号化パラメータに応じて、前記ターゲットビデオを仮符号化することで、当該ターゲットビデオの背景特徴を取得することができ、当該背景特徴は、ビデオ全体のコンテンツに基づいて得られた全体特徴であり、当該ターゲットビデオのビデオフレームのうち、キーパーツ（例えば、顔、手、足など）を含むビデオフレームフレームをキービデオフレームとして決定し、当該特徴符号化パラメータに応じて、当該キービデオフレーム及び当該キーパーツ領域を仮符号化することで、当該ターゲットビデオのキーパーツ領域特徴を取得することができ、当該キーパーツ領域特徴は、キーパーツ領域に基づいて得られた領域特徴である。なお、特徴符号化パラメータに応じてキーパーツ領域特徴を取得する具体的な方法は、前記特徴符号化パラメータに応じて当該キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得することであり得、その中、当該基本属性は、ピーク信号対雑音比（ＰＳＮＲ）、構造的類似性指数（ＳＳＩＭ）、ビデオマルチメソッドアセスメントフュージョン（ＶＭＡＦ）などの属性であってもよく、当該基本属性は、キービデオフレームにおけるキーパーツ領域の画質を表すために用いられ、当該ターゲットビデオのビデオフレームの総数を取得し、前記キービデオフレームの総数を取得することで、ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数に応じて、キーパーツフレーム数比を決定でき、前記キービデオフレームにおけるキーパーツ領域の面積を取得し、前記キービデオフレームの総面積を取得することで、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定でき、以下、前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、全てキーパーツ領域特徴として決定できる。

ターゲットビデオの背景特徴、及びキーパーツ領域特徴を取得する具体的な実現方式は、前記図３に対応する実施例におけるステップＳ１０１を参照すればよく、ターゲットビデオの背景特徴、及びキーパーツ領域特徴を取得する説明について、ここで再度説明されない。

本出願の実施例は、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値をキーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。

さらに、図６を参照し、本出願の実施例で提供されるトランスコーディングパラメータ予測モデルをトレーニングする流れ概略図である。図６に示すように、当該流れは以下のステップを含むことができる。

ステップＳ３０１において、トレーニングすべきトランスコーディングパラメータ予測モデルを取得する。

本出願には、当該トランスコーディングパラメータ予測モデルには、入力層、２つの全結合層及び出力層を含んでもよい。当該トランスコーディングパラメータ予測モデルの構成は、前記図４に対応する実施例におけるトランスコーディングパラメータ予測モデル４０００に示すようである。なお、入力層は、トランスコーディングパラメータ予測モデルに入力されたデータを受信するために用いられ、２つの全結合層はモデルパラメータを有し、当該全結合層は、モデルパラメータで、トランスコーディングパラメータ予測モデルに入力されるデータに対して畳み込み計算を行うことができ、当該出力層は、全結合層が畳み込み計算を行った結果を出力できる。

なお、まだトレーニングされないトランスコーディングパラメータ予測モデルについて、その全結合層のモデルパラメータは、ランダムに生成する数値であってもよく、モデルパラメータの初期パラメータとする。

ステップＳ３０２において、サンプルビデオのサンプルビデオ特徴、及び少なくとも２つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得する。

本出願の実施例では、サンプルビデオとは、持続時間閾値内の多数のビデオクリップを指し得、これらの多数のビデオクリップは、美容メイク、食品、スポーツ、アンカーショー、バラエティなどのコンテンツを含んでもよい。サンプルビデオ特徴は、サンプル背景特徴、及びサンプルキーパーツ領域特徴を含み、サンプル背景特徴、及びサンプルキーパーツ領域特徴を取得する具体的な実現方式は、前記図３に対応する実施例におけるステップＳ１０１を参照し、ターゲットビデオの背景特徴、及びキーパーツ領域特徴を取得する説明について、ここで再度説明されない。

ステップＳ３０３において、前記サンプルビデオ特徴を、前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも２つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力する。

本出願では、当該サンプルビデオ特徴（即ち、サンプル背景特徴、及びサンプルキーパーツ領域特徴）を、当該トランスコーディングパラメータ予測モデルに入力し、当該トランスコーディングパラメータ予測モデルにおける全結合層の初期モデルパラメータで、当該サンプルビデオ特徴に対して畳み込み計算を行うことで、当該サンプルビデオの少なくとも２つのサンプル初期トランスコーディングパラメータ予測値を取得することができ、各サンプル初期トランスコーディングパラメータ予測値は、１つのキーパーツ品質標準値に対応する。

ステップＳ３０４において、ラベルマッピング表から、前記少なくとも２つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得する。

本出願では、当該ラベルマッピング表は、トランスコーディングパラメータ予測モデルをトレーニングするために用いられ、当該ラベルマッピング表は、ラベル特徴エンコーダによって構築されるものであり、当該ラベルマッピング表は、キーパーツ品質とキーパーツトランスコーディングパラメータとの間の対応関係を表すためのものである。当該ラベルマッピング表はトランスコーディングパラメータ予測モデルをトレーニングする標準であり、当該ラベルマッピング表は、キーパーツ品質標準値集合における各キーパーツ品質標準値に対応するキーパーツ標準トランスコーディングパラメータを含んでもよく、トランスコーディングパラメータ予測モデルをトレーニングする意味は、トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値と、当該ラベルマッピング表におけるキーパーツ標準トランスコーディングパラメータラベルとの間の誤差が誤差範囲内に収める（即ち、非常に近づく）ことである。

ラベルマッピング表を構築する具体的な方法は、背景テストトランスコーディングパラメータ、及びキーパーツテストトランスコーディングパラメータを取得し、前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記背景テストトランスコーディングパラメータ、及びキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴を符号化することで、前記背景テストトランスコーディングパラメータ及びキーパーツテストトランスコーディングパラメータの両方に対応するキーパーツテスト品質を取得することができることであり得る。前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、ラベルマッピング表を構築する。前記キーパーツテスト品質に前記キーパーツ品質標準値集合におけるキーパーツ品質標準値を含まない場合、キーパーツテストトランスコーディングパラメータ、及びキーパーツテスト品質に応じて、関数を構築し、当該関数に応じて当該キーパーツ品質標準値に対応するキーパーツ標準トランスコーディングパラメータラベルを決定することができる。

理解の都合上、さらに、図７ａを参照し、本出願の実施例で提供される背景テストトランスコーディングパラメータに対応する背景画質を取得する概略図である。図７ａに示すように、サンプルビデオは、サンプルビデオ１、サンプルビデオ２、…サンプルビデオｎを含み、サンプルビデオ１を例として、サンプルビデオ１のサンプルビデオ特徴をラベル特徴エンコーダに入力し、当該ラベル特徴エンコーダにおいて、背景テストトランスコーディングパラメータで当該サンプルビデオ特徴を符号化することで、異なる背景テストトランスコーディングパラメータの下の当該サンプルビデオ１の背景画質を取得することができる。図７ａに示すように、当該背景テストトランスコーディングパラメータは、１０～５０の整数であってもよく、背景テストトランスコーディングパラメータが１０であることを例として、背景テストトランスコーディングパラメータでサンプルビデオ１のサンプルビデオ特徴を符号化することで、背景テストトランスコーディングパラメータ１０に対応する背景画質を取得することができる。なお、サンプルビデオ１のサンプルビデオ特徴を取得する具体的な実現方式は、前記図３に対応する実施例におけるステップＳ１０１であるターゲットビデオのビデオ特徴を取得する説明を参照すればよく、ここで再度説明されない。同様に、サンプルビデオ２、サンプルビデオ３、…、サンプルビデオｎについて、異なる背景テストトランスコーディングパラメータの下の背景画質を取得することができる。

さらに、理解の都合上、さらに、図７ｂを参照し、本出願の実施例で提供されるラベルマッピング表を構築する概略図である。前記図７ａに対応する実施例において、既に、各背景テストトランスコーディングパラメータのそれぞれに対応する１つの背景画質（即ち、フレームレベルの画質）を取得した。背景トランスコーディングパラメータが背景テストトランスコーディングパラメータである場合に、ビデオ中キーパーツ領域が所定のキーパーツ画質に達するために必要なキーパーツ領域トランスコーディングパラメータを取得するために、本出願は、各背景テストトランスコーディングパラメータの下で、異なるキーパーツテストトランスコーディングパラメータを入力し、背景テストトランスコーディングパラメータをキーパーツトランスコーディングパラメータとともに符号化することで、背景テストトランスコーディングパラメータ及びキーパーツテストトランスコーディングパラメータの両方に対応するキーパーツテスト品質を取得する。図７ｂに示すように、当該キーパーツテストトランスコーディングパラメータは、０から１５までの合計１６の連続する整数値であり、背景テストトランスコーディングパラメータごとに、１６回の符号化（キーパーツテストトランスコーディングパラメータ０、キーパーツテストトランスコーディングパラメータ１、…キーパーツテストトランスコーディングパラメータ１５の合計１６個のトランスコーディングパラメータテスト値）を行うことで、キーパーツテストトランスコーディングパラメータ及び背景テストトランスコーディングパラメータの両方に対応するキーパーツテスト品質を取得することができる。図７ｂに示すように、背景テストトランスコーディングパラメータ１０を例として、背景トランスコーディングパラメータが背景テストトランスコーディングパラメータ１０である場合に、キーパーツテストトランスコーディングパラメータ０を入力し、次に、サンプルビデオを符号化することで、背景テストトランスコーディングパラメータ１０及びキーパーツテストトランスコーディングパラメータ０の両方に対応するキーパーツテスト品質を取得することができる。同様に、背景テストトランスコーディングパラメータ（背景テストトランスコーディングパラメータ１０－５０）ごとに、全て１６回の符号化を行った後に、各背景テストトランスコーディングパラメータの下で、異なるキーパーツテスト品質のそれぞれに対応するキーパーツテストトランスコーディングパラメータを取得することができ、これにより、ラベルマッピング表を得ることができる。図７ｂに示すように、当該ラベルマッピング表には、キーパーツテストトランスコーディングパラメータとキーパーツテスト品質との１対１の対応関係を含んでいる。以下、当該ラベルマッピング表におけるキーパーツテスト品質と前記キーパーツ品質標準値とをマッチングし、当該ラベルマッピング表におけるキーパーツテスト品質に前記キーパーツ品質標準値を含んでいる場合、当該ラベルマッピング表において当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定でき、トランスコーディングパラメータ予測モデルをトレーニングするために用いられ、トランスコーディングパラメータ予測モデルによって出力されたキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値は、当該キーパーツ標準トランスコーディングパラメータラベルに継続的に近づくようにし、当該ラベルマッピング表におけるキーパーツテスト品質に前記キーパーツ品質標準値を含まない場合、当該ラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、関数を構築し、当該関数に応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定、トランスコーディングパラメータ予測モデルをトレーニングするために用いられることができる。

例えば、ラベルマッピング表が表１であることを例として、表１に示すラベルマッピング表における行データは、キーパーツテストトランスコーディングパラメータを表すためのものであり、列データは、背景テストトランスコーディングパラメータを表すためのものであり、１つの背景テストトランスコーディングパラメータ及び１つのキーパーツテストトランスコーディングパラメータの両方は１つのキーパーツテスト品質に対応し、例えば、背景テストトランスコーディングパラメータ１０及びキーパーツテストトランスコーディングパラメータ０の両方は１つのキーパーツテスト品質５６に対応する。表１に示すラベルマッピング表により、異なるキーパーツテスト品質に対応するキーパーツテストトランスコーディングパラメータを取得することでき、当該キーパーツテスト品質をキーパーツ品質ラベルとし、キーパーツ品質ラベルに対応するキーパーツテストトランスコーディングパラメータを、キーパーツトランスコーディングパラメータラベルとする。取得されたキーパーツ品質標準値集合は｛８４、８８、９２、９８｝となり、当該ラベルマッピング表のキーパーツテスト品質にキーパーツ品質標準値９８と同じ値がないため、キーパーツテストトランスコーディングパラメータ４、キーパーツテストトランスコーディングパラメータ４、キーパーツテスト品質９４、及びキーパーツテスト品質９６に応じて、関数ｙ＝２ｘ＋８８を構築する。なお、ｙは、キーパーツテスト品質を表すために用いられ、ｘはキーパーツテストトランスコーディングパラメータを表すために用いられ、関数ｙ＝２ｘ＋８８は、キーパーツテストトランスコーディングパラメータとキーパーツテスト品質との関係を表すために用いられ、キーパーツ品質標準値９８を関数ｙ＝２ｘ＋８８中（即ち、ｙ＝９８）に代入すると、キーパーツ品質標準値９８に対応するキーパーツ標準トランスコーディングパラメータラベルは５である。キーパーツ標準トランスコーディングパラメータラベル５、及びキーパーツ品質標準値９８を、当該ラベルマッピング表に挿入でき、即ち、当該ラベルマッピング表を更新することで、当該全てのキーパーツ品質標準値を含むラベルマッピング表を取得し、更新されたラベルマッピング表は表２に示すようである。

表２に示すラベルマッピング表により、キーパーツ品質標準値８４に対応するキーパーツトランスコーディングパラメータラベルを３として、キーパーツ品質標準値８８に対応するキーパーツトランスコーディングパラメータラベルを０として、キーパーツ品質標準値９２に対応するキーパーツトランスコーディングパラメータラベルを２として、キーパーツ品質標準値９８に対応するキーパーツトランスコーディングパラメータラベルを５として取得することができ、キーパーツトランスコーディングパラメータラベル３、キーパーツトランスコーディングパラメータラベル０、キーパーツトランスコーディングパラメータラベル２、及びキーパーツトランスコーディングパラメータラベル５を、全てキーパーツ標準トランスコーディングパラメータラベルとすることができる。

なお、前記表１又は表２におけるデータは代表的なものではなく、理解の都合上、作成された参考例にすぎない。

なお、前記キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを決定する方式は関数の構築を含むがそれに限定されず、そして、関数を構築する方式は、キーパーツテストトランスコーディングパラメータ、及びキーパーツテスト品質に応じて構築することを含むがそれに限定されず、背景テストトランスコーディングパラメータ、キーパーツテストトランスコーディングパラメータ、及びキーパーツテスト品質と合わせて関数を構築してもよく、そして、関数は線形関数を含むがそれに限定されない。

ステップＳ３０５において、前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしていると、前記トランスコーディングパラメータ予測モデルのトレーニングを完成させる。

本出願の実施例では、当該モデル収束条件は、人為的に定められた誤差範囲であってもよく、当該誤差範囲は０～０．５であり、当該トランスコーディングパラメータ予測誤差が当該誤差範囲内にある場合、当該トランスコーディングパラメータ予測モデルによって出力されるトランスコーディングパラメータ予測値がラベルマッピング表におけるキーパーツ標準トランスコーディングパラメータラベルとそれほど変わらないと決定することができ、当該トランスコーディングパラメータ予測モデルをトレーニングする必要がない。

幾つかの実施例において、当該トランスコーディングパラメータ予測モデルのトレーニングが完了した後に、ビデオテストセットで、当該トレーニング済みのトランスコーディングパラメータ予測モデルをテストし、当該ビデオテストセットに少なくとも２つのテストビデオを含むことを理解されたい。ビデオテストセットでトランスコーディングパラメータ予測モデルをテストする具体的な実施形態は、テストビデオを当該トレーニング済みのトランスコーディングパラメータ予測モデルに入力し、当該トランスコーディングパラメータ予測モデルによりトランスコーディングパラメータ予測値を出力でき、当該トランスコーディングパラメータ予測値に対応するキーパーツ品質値を取得し、前記ラベルマッピング表により当該キーパーツ品質値に対応するキーパーツ標準トランスコーディングパラメータラベルを決定し、当該トランスコーディングパラメータ予測値と当該キーパーツ標準トランスコーディングパラメータラベルとの間の誤差を決定し、当該誤差が誤差範囲内にあると、当該トランスコーディングパラメータ予測モデルを後続の使用に提供し、当該誤差が誤差範囲内にないと、当該トレーニング済みのトランスコーディングパラメータ予測モデルによって出力された値がまだ十分に正確ではないことを意味し、テスト中に出力されたトランスコーディングパラメータ予測値と、対応するキーパーツ標準トランスコーディングパラメータラベルとの間の誤差が誤差範囲内にあるまで、当該トランスコーディングパラメータ予測モデルを継続してトレーニングし、さらにテストする。

ステップＳ３０６において、前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていないと、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整する。

本出願の実施例では、トランスコーディングパラメータ予測誤差がモデル収束条件を満たしていないと、即ち、当該トランスコーディングパラメータ予測誤差が誤差範囲内にない場合、当該トランスコーディングパラメータ予測モデルによって出力されたトランスコーディングパラメータ予測値はラベルマッピング表におけるキーパーツ標準トランスコーディングパラメータラベルと大きく違い、当該トランスコーディングパラメータ予測モデルによって出力された予測値が正確ではないことを意味する。トランスコーディングパラメータ予測誤差に応じて当該トランスコーディングパラメータ予測モデルのモデルパラメータを調整し、継続して次のサンプルビデオのサンプルビデオ特徴を入力し、調整されたモデルパラメータで当該サンプルビデオ特徴に対して畳み込み計算を行うことで、当該サンプルビデオのキーパーツトランスコーディングパラメータ予測値を出力し、新たなトランスコーディングパラメータ予測誤差を計算し、当該新たなトランスコーディングパラメータ予測誤差が収束条件を満たしていると、トランスコーディングパラメータ予測モデルのトレーニングを完成させ、当該新たなトランスコーディングパラメータ予測誤差がモデル収束条件を満たしていないと、継続して当該新たなトランスコーディングパラメータ予測誤差に応じてトランスコーディングパラメータ予測モデルのモデルパラメータを調整する。

本出願の実施例は、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし、且つキーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値は、背景期待品質を満たすことに加えて、キーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。

図８を参照し、本出願の実施例で提供されるトランスコーディングパラメータ予測モデルをトレーニングするシーン概略図である。図８に示すように、サンプルビデオ特徴をトランスコーディングパラメータ予測モデル８００に入力し、当該トランスコーディングパラメータ予測モデル８００における全結合層は当該サンプルビデオ特徴に対して畳み込み計算を行うことで、初期トランスコーディングパラメータ予測値を取得して出力することができる。当該初期トランスコーディングパラメータ予測値はキーパーツ品質標準値と１対１で対応し、ラベルマッピング表に応じて当該キーパーツ品質標準値に対応するキーパーツ標準トランスコーディングパラメータラベルを取得することができる。誤差関数計算器は、当該初期トランスコーディングパラメータ予測値、及びキーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を計算し、当該トランスコーディングパラメータ予測誤差に応じて、トランスコーディングパラメータ予測モデルのモデルパラメータを調整することができる。パラメータが調整された後に、トランスコーディングパラメータ予測誤差がモデル収束条件を満たすまで、前記方法で、再び新たなサンプルビデオ特徴をトランスコーディングパラメータ予測モデル８００に入力し、再び初期トランスコーディングパラメータ予測値を出力し、再びトランスコーディングパラメータ予測誤差を計算し、このように繰り返す。この場合、トランスコーディングパラメータ予測モデルのトレーニングが完了し、後続で、当該トレーニング済みのトランスコーディングパラメータ予測モデルを使用してキーパーツトランスコーディングパラメータ予測を行うことができる。

図９を参照し、本出願の実施例で提供されるシステムアーキテクチャ図である。図９に示すように、本出願のアーキテクチャは、まず、ビデオクリップを特徴エンコーダに入力することを含み、当該ビデオクリップは１つの完全なビデオであってもよいし、１つの完全なビデオから取得されたビデオクリップであってもよく、完全なビデオからビデオクリップを取得する具体的な実現方式は、前記図５に対応する実施例におけるステップＳ２０１であるターゲットビデオの取得についての説明を参照でき、ここで再度説明されない。当該特徴エンコーダにおいて、当該ビデオクリップのキーパーツ領域を決定してから、一定の特徴符号化パラメータで当該ビデオクリップを仮符号化することで、当該ビデオクリップのビデオ特徴を抽出することができる。さらに、当該ビデオ特徴は、背景特徴、及びキーパーツ領域特徴を含んでもよく、背景特徴及びキーパーツ領域特徴を取得する具体的な実施形態は前記図３に対応する実施例におけるステップＳ１０１である背景特徴及びキーパーツ領域特徴を取得する説明を参照でき、ここで再度説明されない。

さらに、当該背景特徴に応じて、背景予測トランスコーディングパラメータを取得することができる。当該背景特徴、キーパーツ領域特徴、及び当該背景予測トランスコーディングパラメータを、一緒にトレーニングが完成しテストが完了したトランスコーディングパラメータ予測モデルに入力し、当該トランスコーディングパラメータ予測モデルにおける全結合層は当該背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに対して畳み込み計算を行うことにより、少なくとも２つのキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を取得することができる。なお、当該キーパーツ品質標準値は、背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータをトランスコーディングパラメータ予測モデルに入力する前に、トランスコーディングパラメータ予測モデルに入力された品質値であり、当該キーパーツ品質標準値は人為的に定められたキーパーツ期待品質に十分に近い品質予測値であり、キーパーツ期待品質値を含んでもよいし、キーパーツ期待品質値を含まなくてもよい。なお、当該キーパーツ期待品質値は当該ビデオクリップをトランスコーディングした後に、ビデオクリップにおけるキーパーツ領域の画質の期待値である。トランスコーディングパラメータ予測モデルがキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定する具体的な実施形態は、前記図３に対応する実施例におけるステップＳ１０３であるトランスコーディングパラメータ予測モデル決定初期トランスコーディングパラメータ予測値的説明を参照でき、ここで再度説明されず、トランスコーディングパラメータ予測モデルをトレーニングする具体的な実施形態は、前記図８に対応する実施例におけるトランスコーディングパラメータ予測モデルをトレーニングする説明を参照でき、ここで也再度説明されない。

ここで、トランスコーディングパラメータ予測モデルは、初期トランスコーディングパラメータ予測値を出力した後に、キーパーツ品質標準値に対応するキーパーツ品質標準値集合を取得し、当該キーパーツ品質標準値集合、当該初期トランスコーディングパラメータ予測値及びキーパーツ期待品質に応じて、当該キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定することができる。当該キーパーツ品質標準値集合、当該初期トランスコーディングパラメータ予測値、及びキーパーツ期待品質に応じてターゲットトランスコーディングパラメータ予測値を決定する具体的な実施形態は、前記図３に対応する実施例におけるステップＳ１０３についての説明を参照でき、ここで再度説明されない。

さらに、ターゲットトランスコーディングパラメータ予測値を取得した後に、当該ターゲットトランスコーディングパラメータ予測値に応じて、ビデオクリップをトランスコーディングすることができ、キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したため、このように、背景期待品質を満たすことに加えて、ビデオクリップにおけるキーパーツ領域の画質を制御して調整し、トランスコーディングされたビデオにおけるキーパーツ領域の画質を向上させることができる。

図１０を参照し、本出願の実施例で提供されるターゲットトランスコーディングパラメータ予測値に基づいてビデオをトランスコーディングするシーン概略図である。図１０に示すシーンの場合、キーパーツは顔であり、キーパーツ領域は顔領域である。図１０に示すように、サービスサーバ９０００はビデオ９０ａを取得し、サービスサーバ９０００は当該ビデオ９０ａの背景特徴、及びキーパーツ領域特徴（例えば、顔領域特徴）を取得し、当該背景特徴に応じて背景期待品質（フレームレベルの画質）に対応する背景予測トランスコーディングパラメータを取得し、当該背景予測トランスコーディングパラメータに応じてビデオ９０ａをトランスコーディングすることで、トランスコーディングされたビデオ９０ｂを取得することができる。図１０に示すように、ビデオ９０ａにおける顔領域ｐの詳細特徴を考慮しないので、当該トランスコーディングされたビデオ９０ｂにおける顔領域ｐは、画質が高くなく、ぼやけている。前記キーパーツ領域特徴、背景特徴、及び背景予測トランスコーディングパラメータを一緒にトランスコーディングパラメータ予測モデル９００に入力し、当該トランスコーディングパラメータ予測モデルによりキーパーツ期待品質（例えば、顔期待品質）に対応するターゲットトランスコーディングパラメータ予測値を決定することができ、さらに、前記ターゲットトランスコーディングパラメータ予測値に応じてビデオ９０ａをトランスコーディングすることで、トランスコーディングされたビデオ９０ｃを取得することができる。さらに、当該ビデオ９０ｃにおける背景画質は前記ビデオ９０ｂにおける背景画質と一致し、当該ビデオ９０ｃの顔領域ｐの画質は前記顔期待品質に合わせる。顔領域ｐにおける詳細特徴を考慮したため、トランスコーディングされたビデオ９０ｃにおける顔領域ｐはビデオ９０ｂにおける顔領域ｐよりも画質が高く、解像度が高くなることが分かる。

本出願による有益な効果を説明するために、本出願の実施例は実験比較表を提供する。表３に示すように、この実験は、２０ｓの時間の５６個のビデオクリップをテストデータ集として採用し、キーパーツを顔に設置し、キーパーツ領域は顔領域であり、ビットレートをトランスコーディングパラメータとしてテストし、異なるビデオクリップの例えば表３におけるビットレート、ＶＭＡＦ、ＳＳＩＭなどの属性情報のデータを統計し、次に、５６個のビデオクリップについてこれらのデータの平均値を求め、平均値を最終の実験テストデータ（即ち、ビデオ特徴）とする。表３から分かるように、全体的な品質が変わらない場合、異なる顔期待品質について、顔期待品質にマッチングする顔ビットレートパラメータ（即ち、ターゲットトランスコーディングパラメータ予測値）を予測することができる。例えば、全体的な品質が８８である場合に、背景ビットレートパラメータ（例えば、背景予測ビットレート）は３３．９４であり、ビデオがトランスコーディングされた後に、顔領域の画質は９２（例えば、顔期待品質は９０である）となることを望む場合、ビットレート、ＶＭＡＦ、ＰＳＮＲ、顔領域品質、非顔領域品質、顔領域ビットレート及び背景ビットレートパラメータなどのデータに応じて、顔期待品質９２にマッチングする顔ビットレートパラメータを３．８８として求め、ビデオがトランスコーディングされた後に、顔領域の画質が９４となることを望む場合、顔期待品質９４にマッチングする顔ビットレートパラメータを５．４１として求める。この実験は顔領域を考慮し、顔領域の特徴を抽出し、顔領域特徴に基づいて顔期待品質に対応する顔ビットレートを予測し、ビデオをトランスコーディングする場合、顔領域の画質は具体的な品質値となることを望む場合、顔ビットレートオプションをこの品質値に対応する顔ビットレートパラメータに設置すればよい。これにより、ビデオにおける顔領域の画質を制御し、顔領域の画質を向上させ、顔領域の画質を個別に調整することを実現することができる。

同時に、顔領域の画質を向上することに加えて、ビットレートを改善することができる。表３の実験比較表に示すように、全体的な品質が９４である行において、顔領域品質は９２．６０、ビットレートは２３７２．６７ｋｂｐｓである。この方法を使用した後に、全体的な品質が９０、顔領域品質が９４．０２である（前記全体的な品質９４と一致する）場合、ビットレートは１８２８ｋｐｓであり、全体的な品質が９４である際のビットレート２３７２．６７ｋｂｐｓと比較して、ビットレートは２２％節約される。

要するに、当該実験を通じて、本出願によってもたらされる有益な効果は、ビデオトランスコーディングの一部の領域を個別に制御して調整することを実現し、ビデオトランスコーディングされたキーパーツ領域の品質を向上させ、トランスコーディングパラメータを改善することができる。

図１１を参照し、本出願の実施例で提供されるビデオデータ処理装置の構成概略図である。図１１に示すように、前記ビデオデータ処理装置は、コンピュータ機器の１つのコンピュータプログラム（プログラムコードを含む）を実行し、例えば、当該ビデオデータ処理装置は、１つのアプリケーションソフトウェアであり、当該装置は、本出願の実施例で提供される方法における相応するステップを実行するために用いられる。図１１に示すように、当該ビデオデータ処理装置１は、特徴取得モジュール１１、品質取得モジュール１２、トランスコーディングパラメータ決定モジュール１３、予測値決定モジュール１４及びビデオトランスコーディングモジュール１５を含むことができる。
特徴取得モジュール１１は、ターゲットビデオのビデオ特徴を取得するために用いられ、前期ビデオ特徴は背景特徴及びキーパーツ領域特徴を含む。
品質取得モジュール１２は、前記ターゲットビデオに対応するキーパーツ期待品質を取得するために用いられ、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値である。
トランスコーディングパラメータ決定モジュール１３は、前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するために用いられ、前記背景予測トランスコーディングパラメータは背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値である。
予測値決定モジュール１４は、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし、且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
ビデオトランスコーディングモジュール１５は、前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするために用いられる。

なお、特徴取得モジュール１１、品質取得モジュール１２、トランスコーディングパラメータ決定モジュール１３、予測値決定モジュール１４及びビデオトランスコーディングモジュール１５の具体的な実現方式は、前記図３に対応する実施例におけるステップＳ１０１－ステップＳ１０５の説明を参照でき、ここで再度説明されない。

図１１を参照し、特徴取得モジュール１１はターゲットビデオ取得ユニット１１１、キーパーツ取得ユニット１１２、及びビデオ仮符号化ユニット１１３を含むことができる。
ターゲットビデオ取得ユニット１１１は、ターゲットビデオを取得するために用いられる。
キーパーツ領域取得ユニット１１２は、前記ターゲットビデオにおいてキーパーツ領域を取得するために用いられる。
ビデオ仮符号化ユニット１１３は、特徴符号化パラメータ、及び前記キーパーツ領域に応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得することができる。

なお、ターゲットビデオ取得ユニット１１１、キーパーツ領域取得ユニット１１２及びビデオ仮符号化ユニット１１３の具体的な実現方式は、前記図５に対応する実施例におけるステップＳ２０１－ステップＳ２０２の説明を参照でき、ここで再度説明されない。

図１１を参照し、ビデオ仮符号化ユニット１１３は、符号化パラメータ取得サブユニット１１３１、キービデオフレーム決定サブユニット１１３２、及びキーパーツ領域特徴決定サブユニット１１３３を含むことができる。
符号化パラメータ取得サブユニット１１３１は、前記特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するために用いられる。
キービデオフレーム決定サブユニット１１３２は、前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するために用いられる。
キーパーツ領域特徴決定サブユニット１１３３は、前記特徴符号化パラメータに応じて、前記キービデオフレーム、及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するために用いられる。

なお、前記キーパーツ領域特徴決定サブユニット１１３３は、さらに、特徴符号化パラメータに応じて前記キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得するために用いられる。
前記キーパーツ領域特徴決定サブユニット１１３３は、さらに、前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数におけるキーパーツフレーム数比を決定するために用いられる。
前記キーパーツ領域特徴決定サブユニット１１３３は、さらに、前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するために用いられる。
前記キーパーツ領域特徴決定サブユニット１１３３は、さらに、前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するために用いられる。

なお、符号化パラメータ取得サブユニット１１３１、キービデオフレーム決定サブユニット１１３２、及びキーパーツ領域特徴決定サブユニット１１３３の具体的な実現方式は前記図５に対応する実施例におけるステップＳ２０２の説明を参照でき、ここで再度説明されない。

図１１を参照し、ターゲットビデオ取得ユニット１１１は、初期ビデオ取得サブユニット１１１１、スイッチングフレーム決定サブユニット１１１２、及びビデオセグメント化サブユニット１１１３を含むことができる。

初期ビデオ取得サブユニット１１１１は、初期ビデオを取得するために用いられる。
スイッチングフレーム決定サブユニット１１１２は、前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するために用いられる。
ビデオセグメント化サブユニット１１１３は、前記シーンスイッチングフレームに応じて、前記初期ビデオを、少なくとも２つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップのうちターゲットビデオクリップを、前記ターゲットビデオとして取得するために用いられる。

なお、初期ビデオ取得サブユニット１１１１、スイッチングフレーム決定サブユニット１１１２、及びビデオセグメント化サブユニット１１１３の具体的な実現方式は、前記図５に対応する実施例におけるステップＳ２０１の説明を参照でき、ここで再度説明されない。

図１１を参照し、予測値決定モジュール１４は、初期トランスコーディングパラメータ予測値出力ユニット１４１、及びターゲットトランスコーディングパラメータ予測値決定ユニット１４２を含むことができる。

初期トランスコーディングパラメータ予測値出力ユニット１４１は、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより、少なくとも２つの初期トランスコーディングパラメータ予測値を出力するために用いられ、前記初期トランスコーディングパラメータ予測値のそれぞれは、異なるキーパーツ品質標準値に対応する。
ターゲットトランスコーディングパラメータ予測値決定ユニット１４２は、キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するために用いられる。

なお、初期トランスコーディングパラメータ予測値出力ユニット１４１、及びターゲットトランスコーディングパラメータ予測値決定ユニット１４２の具体的な実現方式は、前記図３に対応する実施例におけるステップＳ１０４の説明を参照でき、ここで再度説明されない。

図１１を参照し、初期トランスコーディングパラメータ予測値出力ユニット１４１は、融合特徴生成サブユニット１４１１、標準値取得サブユニット１４１２及び初期トランスコーディングパラメータ予測値決定サブユニット１４１３を含むことができる。

融合特徴生成サブユニット１４１１は、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルの全結合層に入力し、前記全結合層に融合特徴を生成するために用いられる。
標準値取得サブユニット１４１２は、少なくとも２つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するために用いられる。
初期トランスコーディングパラメータ予測値決定サブユニット１４１３は、前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定するために用いられる。

なお、融合特徴生成サブユニット１４１１、標準値取得サブユニット１４１２、及び初期トランスコーディングパラメータ予測値決定サブユニット１４１３の具体的な実現方式は前記図３に対応する実施例におけるステップＳ１０４の説明を参照でき、ここで再度説明されない。

図１１を参照し、ターゲットトランスコーディングパラメータ予測値決定ユニット１４２は、品質マッチングサブユニット１４２１、及びターゲットトランスコーディングパラメータ予測値決定サブユニット１４２２を含むことができる。

品質マッチングサブユニット１４２１は、前記キーパーツ期待品質と前記キーパーツ品質標準値集合とをマッチングするために用いられる。
ターゲットトランスコーディングパラメータ予測値決定サブユニット１４２２は、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも２つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット１４２２は、さらに、前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数、及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するために用いられる。

なお、前記ターゲットトランスコーディングパラメータ予測値決定サブユニット１４２２は、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値のうち、最小キーパーツ品質標準値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット１４２２は、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット１４２２は、さらに、前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット１４２２は、さらに、前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するために用いられる。

なお、品質マッチングサブユニット１４２１、及びターゲットトランスコーディングパラメータ予測値決定サブユニット１４２２の具体的な実現方式は、前記図３に対応する実施例におけるステップＳ１０４の説明を参照でき、ここで再度説明されない。

図１１を参照し、当該ビデオデータ処理装置１は、特徴取得モジュール１１、品質取得モジュール１２、トランスコーディングパラメータ決定モジュール１３、予測値決定モジュール１４及びビデオトランスコーディングモジュール１５を含むことができ、予測モデル取得モジュール１６、サンプル取得モジュール１７、サンプル予測値出力モジュール１８、トランスコーディングパラメータラベル取得モジュール１９、トランスコーディングパラメータ予測誤差決定モジュール２０、トレーニング完了モジュール２１及びパラメータ調整モジュール２２をさらに含むことができる。

予測モデル取得モジュール１６は、トレーニングすべきトランスコーディングパラメータ予測モデルを取得するために用いられる。
サンプル取得モジュール１７は、サンプルビデオのサンプルビデオ特徴、及び少なくとも２つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するために用いられる。
サンプル予測値出力モジュール１８は、前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも２つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するために用いられる。
トランスコーディングパラメータラベル取得モジュール１９は、ラベルマッピング表から、前記少なくとも２つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するために用いられる。
トランスコーディングパラメータ予測誤差決定モジュール２０は、前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するために用いられる。
トレーニング完了モジュール２１は、前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしていると、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるために用いられる。
パラメータ調整モジュール２２は、前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていないと、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するために用いられる。

なお、予測モデル取得モジュール１６、サンプル取得モジュール１７、サンプル予測値出力モジュール１８、トランスコーディングパラメータラベル取得モジュール１９、トランスコーディングパラメータ予測誤差決定モジュール２０、トレーニング完了モジュール２１及びパラメータ調整モジュール２２の具体的な実現方式は、前記図６に対応する実施例におけるステップＳ３０１－ステップＳ３０７の説明を参照でき、ここで再度説明されない。

図１１を参照し、当該ビデオデータ処理装置１は、特徴取得モジュール１１、品質取得モジュール１２、トランスコーディングパラメータ決定モジュール１３、予測値決定モジュール１４、ビデオトランスコーディングモジュール１５、予測モデル取得モジュール１６、サンプル取得モジュール１７、サンプル予測値出力モジュール１８、トランスコーディングパラメータラベル取得モジュール１９、トランスコーディングパラメータ予測誤差決定モジュール２０、トレーニング完了モジュール２１及びパラメータ調整モジュール２２を含むことができ、テストトランスコーディングパラメータ取得モジュール２３、テスト品質決定モジュール２４及びマッピング表構築モジュール２５をさらに含むことができる。

テストトランスコーディングパラメータ取得モジュール２３は、複数の背景テストトランスコーディングパラメータ、及び複数のキーパーツテストトランスコーディングパラメータを取得するために用いられる。
テスト品質決定モジュール２４は、前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれの下で、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれに対応するキーパーツテスト品質を取得するために用いられる。
マッピング表構築モジュール２５は、前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するために用いられる。

なお、前記マッピング表構築モジュール２５は、さらに、前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも２つのキーパーツ品質標準値を含む場合、前記ラベルマッピング表内の当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを決定し、当該キーパーツテストトランスコーディングパラメータを前記キーパーツ標準トランスコーディングパラメータラベルとし、
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも２つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するために用いられる。

なお、テストトランスコーディングパラメータ取得モジュール２３、テスト品質決定モジュール２４及びマッピング表構築モジュール２５の具体的な実現方式は、前記図６に対応する実施例におけるステップ３０４である構築ラベルマッピング表の説明を参照でき、ここで再度説明されない。

本出願の実施例は、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし、且つキーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値をキーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。

さらに、図１２を参照し、本願の実施例で提供されるコンピュータ機器の構成模式図である。図１２に示すように、上記図１１に対応する実施例における装置１は、上記コンピュータ機器１２００に適用可能であり、上記コンピュータ機器１２００は、プロセッサー１００１と、ネットワークインタフェース１００４と、メモリ１００５と、を含んでもよい。また、上記コンピュータ機器１２００は、ユーザインタフェース１００３と、少なくとも１つの通信バス１００２と、を含んでもよい。ここで、通信バス１００２は、これらのコンポーネント間の接続通信を実現するためのものである。ここで、ユーザインタフェース１００３は、ディスプレイ（Ｄｉｓｐｌａｙ）、キーボード（Ｋｅｙｂｏａｒｄ）を含んでもよい。ユーザインタフェース１００３は、標準的な有線インタフェース、無線インタフェースを含んでもよい。ネットワークインタフェース１００４は、標準的な有線インタフェース、無線インタフェース（例えば、Ｗｉ－Ｆｉインタフェース）を含んでもよい。メモリ１００５は、高速ＲＡＭであってもよく、不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば、少なくとも１つの磁気ディスクメモリであってもよい。メモリ１００５は、前述プロセッサー１００１から離れた位置にある少なくとも１つの記憶装置であってもよい。図１２に示すように、コンピュータ記憶媒体であるメモリ１００５には、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール、及び機器制御アプリケーションが含まれてもよい。

図１２に示すコンピュータ機器１０００では、ネットワークインタフェース１００４は、ネットワーク通信機能を提供することができ、ユーザインタフェース１００３は、主にユーザに入力用のインタフェースを提供し、プロセッサー１００１は、メモリ１００５に記憶された機器制御アプリケーションを呼び出すことにより：
ターゲットビデオのビデオ特徴を取得し、前記ビデオ特徴は、背景特徴及びキーパーツ領域特徴を含み、
前記ターゲットビデオに対応するキーパーツ期待品質を取得し、
前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定し、
前記背景特徴、前記キーパーツ領域特徴及び前記背景予測トランスコーディングパラメータに応じて、前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定し、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオにおけるキーパーツ領域をトランスコーディングすることを実現させる。

理解すべきものとして、本願の実施例で説明されたコンピュータ機器１２００は、上記図４ないし図１０に対応する実施例における当該ビデオデータ処理方法の説明を実行してもよく、上記図１１に対応する実施例における当該ビデオデータ処理装置１の説明を実行してもよいが、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。

また、ここで指摘すべきものとして、本願の実施例では、コンピュータ可読記憶媒体をさらに提供し、上記コンピュータ可読記憶媒体には、上記で言及されたビデオデータ処理のコンピュータ機器１２００が実行するコンピュータプログラムを記憶しており、上記コンピュータプログラムは、プログラムコマンドを含み、上記プロセッサーは、上記プログラムコマンドを実行すると、上記図３ないし図１０に対応する実施例における上記データ処理方法の説明を実行させることができるので、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。本願に係るコンピュータ可読記憶媒体の実施例に披露されていない技術的詳細については、本願の方法の実施例の説明を参照されたい。

前記コンピュータ可読記憶媒体は前記いずれかの実施例で提供されるビデオデータ処理装置又は前記コンピュータ機器の内部記憶ユニット、例えばコンピュータ機器のハードディスク又はメモリであってもよい。当該コンピュータ可読記憶媒体は、当該コンピュータ機器の外部記憶デバイス、例えば当該コンピュータ機器に搭載されたプラグインハードディスク、スマートメモリカード（ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ、ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ、ＳＤ）カード、Ｆｌａｓｈカードなどであってもよい。さらに、当該コンピュータ可読記憶媒体は当該コンピュータ機器の内部記憶ユニットと外部記憶デバイスの両方を備えてもよい。当該コンピュータ可読記憶媒体は当該コンピュータプログラム、及び当該コンピュータ機器に必要な他のプログラムおよびデータを格納する。当該コンピュータ可読記憶媒体はさらに出力されたデータまたは出力しようとするデータを一時的に格納することができる。

本発明の明細書及び特許請求の範囲と図面に用いられた「第１」、「第２」等の用語は異なる対象を区別するためのもので、特定の順又は前後順を限定するものではない。そして、「含む」、及びそれらの変形用語は、非排他的に含むことをカバーするもので、例えば、一連のステップ又はユニットを含むプロセス、方法、装置、製品又は機器が例示されたステップ又はユニットに限定されず、例示されていないステップ又はユニット、又はこれらのプロセス、方法、装置、製品又は機器固有の他のステップ又はユニットも含む。

当業者は、本明細書に開示されている実施例で説明された例と合わせて説明されたユニットおよびアルゴリズムステップが、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得ることを認識し得る。ハードウェアとソフトウェアとの間の互換性を明確に説明するために、以上の説明において、一般的に機能に従って各例の構成およびステップを説明した。これらの機能がハードウェアとソフトウェアのどちらによって実行されるかは、技術的解決策の特定の用途および設計制約条件に依存する。当業者は、特定の用途ごとに、説明された機能を実施するために異なる方法を使用し得るが、その実施は本出願の範囲を超えると考えられるべきではない。

本出願の実施例で提供される方法、及び関連装置は、本出願の実施例で提供される方法フローチャート及び／又は構成概略図を参照して説明され、具体的に、コンピュータプログラムコマンドにより方法フローチャート及び／又は構成概略図の各流れ及び／又はブロック、及びフローチャート及び／又はブロック図の流れ及び／又はブロックの組み合わせを実現する。これらのコンピュータプログラムコマンドを汎用コンピュータ、専用コンピュータ、組み込みプロセッサー又はその他のプログラム可能データ処理装置のプロセッサーに提供して一つの機器を生成することができ、それによってコンピュータ又は他のプログラム可能データ処理装置のプロセッサーで実行されるコマンドによりフローチャートにおける一つのフロー又は複数のフロー及び／又はブロック図における一つのブロック又は複数のブロックに指定された機能を実現するための装置を生成する。これらのコンピュータプログラムコマンドは特定の方式で動作するようにコンピュータ又は他のプログラム可能なデータ処理装置を指示することができるコンピュータ読み取り可能なメモリに記憶されてもよく、それによって該コンピュータ読み取り可能なメモリに記憶されたコマンドによりコマンド装置を含む製造品を生成し、該コマンド装置はフローチャートにおける一つのフロー又は複数のフロー及び／又はブロック図における一つのブロック又は複数のブロックに指定された機能を実現する。これらのコンピュータプログラムコマンドはコンピュータ又は他のプログラム可能なデータ処理装置にロードされてもよく、コンピュータ又は他のプログラム可能な装置で一連の動作ステップを実行してコンピュータで実現される処理を発生させ、それによってコンピュータ又は他のプログラム可能な装置で実行されるコマンドはフローチャートにおける一つのフロー又は複数のフロー及び／又はブロック図における一つのブロック又は複数のブロックに指定された機能を実現するためのステップを提供する。

前述の開示は、本出願の単なるいくつかの実施例であり、確かに、本出願の保護範囲を限定することを意図するものではない。従って、本出願の請求の範囲に従って行われた同等の変形は、本出願の範囲に含まれるものとする。

Claims

ビデオデータ処理方法であって、
ターゲットビデオのビデオ特徴を取得するステップであって、前記ビデオ特徴は背景特徴及びキーパーツ領域特徴を含むステップと、
前記ターゲットビデオに対応するキーパーツ期待品質を取得するステップであって、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値であるステップと、
前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するステップであって、前記背景予測トランスコーディングパラメータは背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値であるステップと、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するステップと、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするステップと、を含む、方法。
前記ターゲットビデオのビデオ特徴を取得するステップは、
ターゲットビデオを取得し、前記ターゲットビデオにキーパーツ領域を決定するステップと、
特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するステップを含む、請求項１に記載の方法。
前記背景特徴は、解像度、ビットレート、フレームレート、参照フレーム、ピーク信号対雑音比ＰＳＮＲ、構造的類似性指数ＳＳＩＭ、ビデオマルチメソッドアセスメントフュージョンＶＭＡＦのうちの１つまたは複数を含み、
前記キーパーツ領域特徴は、キーパーツ領域のピーク信号対雑音比ＰＳＮＲ、キーパーツ領域の構造的類似性指数ＳＳＩＭ、キーパーツ領域のビデオマルチメソッドアセスメントフュージョンＶＭＡＦ、ビデオフレームの総数におけるキーパーツフレームの数に対するキーパーツが現れるキービデオフレームの数の比、キービデオフレームの総面積のキーパーツ面積に対するキーパーツが現れるキービデオフレームにおけるキーパーツ領域の面積の比、キーパーツ領域の平均ビットレートのうちの１つまたは複数を含む、請求項２に記載の方法。
特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するステップは、
特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するステップと、
前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するステップと、
前記特徴符号化パラメータに応じて、前記キービデオフレーム及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するステップと、を含む、請求項２に記載の方法。
前記特徴符号化パラメータに応じて前記キービデオフレーム及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するステップは、
特徴符号化パラメータに応じて、前記キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得するステップと、
前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数のキーパーツフレーム数比を決定するステップと、
前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するステップと、
前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するステップとを含む、請求項４に記載の方法。
前記ターゲットビデオを取得するステップは、
初期ビデオを取得するステップと、
前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するステップと、
前記シーンスイッチングフレームに応じて、前記初期ビデオを少なくとも２つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップにおいてターゲットビデオクリップを、前記ターゲットビデオとして取得するステップとを含む、請求項２に記載の方法。
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するステップは、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルによって少なくとも２つの初期トランスコーディングパラメータ予測値を出力するステップであって、前記初期トランスコーディングパラメータ予測値のそれぞれは、異なるキーパーツ品質標準値に対応するステップと、
前記キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するステップとを含む、請求項１に記載の方法。
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルによって少なくとも２つの初期トランスコーディングパラメータ予測値を出力するステップは、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、前記トランスコーディングパラメータ予測モデルの全結合層に入力し、前記全結合層に融合特徴を生成するステップと、
少なくとも２つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するステップと、
前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定することを含む、請求項７に記載の方法。
前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するステップは、
前記キーパーツ期待品質と前記キーパーツ品質標準値集合とをマッチングするステップと、
前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも２つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するステップと、
前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数、及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するステップと、を含む、請求項８に記載の方法。
前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定するステップは、
前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値のうち、最小キーパーツ品質標準値を決定するステップと、
前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するステップと、
前記少なくとも２つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するステップと、
前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するステップと、を含む、請求項９に記載の方法。
トレーニングすべきトランスコーディングパラメータ予測モデルを取得するステップと、
サンプルビデオのサンプルビデオ特徴、及び少なくとも２つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するステップと、
前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも２つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するステップと、
ラベルマッピング表から、前記少なくとも２つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するステップと、
前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するステップと、
前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしている場合、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるステップと、
前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていない場合、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するステップと、をさらに含む、請求項１に記載の方法。
複数の背景テストトランスコーディングパラメータ、及び複数のキーパーツテストトランスコーディングパラメータを取得するステップと、
前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれの下で、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれ対応するキーパーツテスト品質を取得するステップと、
前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するステップと、をさらに含む、請求項１１に記載の方法。
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも２つのキーパーツ品質標準値を含む場合、前記ラベルマッピング表内の当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを決定し、当該キーパーツテストトランスコーディングパラメータを前記キーパーツ標準トランスコーディングパラメータラベルとするステップと、
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも２つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するステップと、を含む、請求項１２に記載の方法。
ビデオデータ処理装置であって
請求項１～１３のいずれか１項に記載の方法を実行するビデオデータ処理装置。
プロセッサー及びメモリを含むコンピュータ機器であって、
前記メモリにコンピュータプログラムが記憶されており、前記コンピュータプログラムは、前記プロセッサーによって実行されると、請求項１～１３のいずれか１項に記載の方法のステップを前記プロセッサーに実行させるコンピュータ機器。
プログラムコマンドを含むコンピュータプログラムであって、前記プログラムコマンドは、プロセッサーによって実行されると、請求項１～１３のいずれか１項に記載の方法を実行させるコンピュータプログラム。