JP2023509301A - ビデオデータ処理方法、装置、機器及びコンピュータプログラム - Google Patents

ビデオデータ処理方法、装置、機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2023509301A
JP2023509301A JP2022533403A JP2022533403A JP2023509301A JP 2023509301 A JP2023509301 A JP 2023509301A JP 2022533403 A JP2022533403 A JP 2022533403A JP 2022533403 A JP2022533403 A JP 2022533403A JP 2023509301 A JP2023509301 A JP 2023509301A
Authority
JP
Japan
Prior art keywords
key part
video
transcoding
quality
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022533403A
Other languages
English (en)
Other versions
JP7427090B2 (ja
Inventor
シュー,シシェン
ウー,ジンラン
ジャオ,ジュン
マー,ジュンチェン
リー,ヤチン
ツー,チェンジエ
ワン,リアン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2023509301A publication Critical patent/JP2023509301A/ja
Application granted granted Critical
Publication of JP7427090B2 publication Critical patent/JP7427090B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【要約】本出願の実施例は、ビデオデータ処理方法、装置、機器及び可読記憶媒体を提供し、当該方法は、ターゲットビデオのビデオ特徴を取得し、前記ビデオ特徴は背景特徴、及びキーパーツ領域特徴を含み、前記ターゲットビデオに対応するキーパーツ期待品質を取得し、前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定し、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし、且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定し、前記背景予測トランスコーディングパラメータ、及び前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングすることを含む。

Description

本出願は、2020年2月24日に中国専利局に提出した、出願番号が202010112208.8であって、発明の名称が「ビデオデータ処理方法、装置、機器及び可読記憶媒体」である中国特許出願の優先権を主張し、本出願は、それらの全体が参照によりここに組み込まれる。
本出願は、コンピュータ技術分野に関し、特に、ビデオデータ処理方法、装置、機器及びコンピュータプログラムに関する。
放送技術およびネットワークビデオアプリケーションの発展につれて、ビデオは人々の日常生活においてキーパーツとなっており、人々はビデオを学習や娯楽に使用する。様々なネットワーク帯域幅、様々な端末処理能力、および様々なユーザ要件に適応するには、ビデオをトランスコーディングすることは非常に重要視されている。
ビデオをトランスコーディングする場合、ビデオ全体のコンテンツが主に考慮されるものであり、ビデオ全体のコンテンツに基づいて、ビデオの特徴を抽出し、そして、ビデオの特徴に応じて、目標品質におけるビデオのビットレートを予測し、そして、予測されたビットレートに応じてビデオをトランスコーディングする。
本出願の実施例は、ビデオトランスコーディングされたキーパーツ領域の品質を改善可能なビデオデータ処理方法、装置、機器及びコンピュータプログラムを提供する。
本出願の実施例の一態様は、ビデオデータ処理方法を提供し、
ターゲットビデオのビデオ特徴を取得し、前期ビデオ特徴は背景特徴及びキーパーツ領域特徴を含み、
前記ターゲットビデオに対応するキーパーツ期待品質を取得し、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値であり、
前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定し、前記背景予測トランスコーディングパラメータは、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値である背景期待品質にマッチングし、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし、且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定し、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングすることを含む。
本出願の実施例の一態様は、ビデオデータ処理装置を提供し、
ターゲットビデオのビデオ特徴を取得するために用いられ、前記ビデオ特徴は、背景特徴及びキーパーツ領域特徴を含む特徴取得モジュールと、
前記ターゲットビデオに対応するキーパーツ期待品質を取得するために用いられ、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値である品質取得モジュールと、
前記背景特徴に基づいて、前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するために用いられ、前記背景予測トランスコーディングパラメータは、背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値であるトランスコーディングパラメータ決定モジュールと、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するための予測値決定モジュールと、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするためのビデオトランスコーディングモジュールと、を含む。
なお、前記特徴取得モジュールは、
ターゲットビデオを取得するためのターゲットビデオ取得ユニットと、
前記ターゲットビデオにおいてキーパーツ領域を取得するためのキーパーツ領域取得ユニットと、
特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記のターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するためのビデオ仮符号化ユニットと、を含む。
なお、前記背景特徴は、解像度、ビットレート、フレームレート、参照フレーム、ピーク信号対雑音比PSNR、構造的類似性指数SSIM、ビデオマルチメソッドアセスメントフュージョンVMAFのうちの1つまたは複数を含み、
前記キーパーツ領域特徴は、キーパーツ領域のピーク信号対雑音比PSNR、キーパーツ領域の構造的類似性指数SSIM、キーパーツ領域のビデオマルチメソッドアセスメントフュージョンVMAF、ビデオフレームの総数におけるキーパーツフレームの数に対するキーパーツが現れるキービデオフレームの数の比、キービデオフレームの総面積のキーパーツ面積に対するキーパーツが現れるキービデオフレームにおけるキーパーツ領域の面積の比、キーパーツ領域の平均ビットレートのうちの1つまたは複数を含む。
なお、前記ビデオ仮符号化ユニットは、
前記特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するための符号化パラメータ取得サブユニットと、
前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するためのキービデオフレーム決定サブユニットと、
前記特徴符号化パラメータに応じて、前記キービデオフレーム、及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するためのキーパーツ領域特徴決定サブユニットと、を含む。
なお、前記キーパーツ領域特徴決定サブユニットは、さらに、特徴符号化パラメータに応じて前記キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得するために用いられ、
前記キーパーツ領域特徴決定サブユニットは、さらに、前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数におけるキーパーツフレーム数比を決定するために用いられ、
前記キーパーツ領域特徴決定サブユニットは、さらに、前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するために用いられ、
前記キーパーツ領域特徴決定サブユニットは、さらに、前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するために用いられる。
なお、前記ターゲットビデオ取得ユニットは、
初期ビデオを取得するための初期ビデオ取得サブユニットと
前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するためのスイッチングフレーム決定サブユニットと、
前記シーンスイッチングフレームに応じて、前記初期ビデオを、少なくとも2つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップのうちターゲットビデオクリップを、前記ターゲットビデオとして取得するためのビデオセグメント化サブユニットとを含む。
前記予測値決定モジュールは、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより、少なくとも2つの初期トランスコーディングパラメータ予測値を出力するために用いられ、前記初期トランスコーディングパラメータ予測値のそれぞれは、異なるキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値出力ユニットと、
キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するためのターゲットトランスコーディングパラメータ予測値決定ユニットとを含む。
なお、前記初期トランスコーディングパラメータ予測値出力ユニットは、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルの全結合層に入力し、前記全結合層に融合特徴を生成するための融合特徴生成サブユニットと、
少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するための標準値取得サブユニットと、
前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定するための初期トランスコーディングパラメータ予測値決定サブユニットと、を含む。
なお、前記ターゲットトランスコーディングパラメータ予測値決定ユニットは、
前記キーパーツ期待品質と前記キーパーツ品質標準値集合とをマッチングするための品質マッチングサブユニットと、
前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも2つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するためのターゲットトランスコーディングパラメータ予測値決定サブユニットと、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
なお、前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値のうち、最小キーパーツ品質標準値を決定するために用いられ、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するために用いられ、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するために用いられ、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するために用いられる。
トレーニングすべきトランスコーディングパラメータ予測モデルを取得するための予測モデル取得モジュールと、
サンプルビデオのサンプルビデオ特徴、及び少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するためのサンプル取得モジュールと、
前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するためのサンプル予測値出力モジュールと、
ラベルマッピング表から、前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するためのトランスコーディングパラメータラベル取得モジュールと、
前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するためのトランスコーディングパラメータ予測誤差決定モジュールと、
前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしている場合、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるためのトレーニング完了モジュールと、
前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていない場合、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するためのパラメータ調整モジュールと、をさらに含む。
複数の背景テストトランスコーディングパラメータ、及び複数のキーパーツテストトランスコーディングパラメータを取得するためのテストトランスコーディングパラメータ取得モジュールと、
前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれにおいて、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれに対応するキーパーツテスト品質を取得するためのテスト品質決定モジュールと、
前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するためのマッピング表構築モジュールとを含む。
なお、前記マッピング表構築モジュールは、さらに、前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含む場合、前記ラベルマッピング表における当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを決定し、当該キーパーツテストトランスコーディングパラメータを前記キーパーツ標準トランスコーディングパラメータラベルとし、
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するために用いられる。
本出願の実施例の一態様は、プロセッサー及びメモリを含むコンピュータ機器であって、前記メモリにコンピュータプログラムが記憶されており、前記コンピュータプログラムは、前記プロセッサーによって実行されると、本出願の実施例における方法を前記プロセッサーに実行させるコンピュータ機器を提供する。
本出願の実施例の一態様は、プログラムコマンドを含むコンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記プログラムコマンドは、プロセッサーによって実行されると、本出願の実施例における方法を実行させるコンピュータ可読記憶媒体。
本出願の実施例又は従来技術における技術案を明らかに説明するために、以下は、実施例又は従来技術の記載の必要な図面を簡単に紹介し、明らかに、以下に記載の図面は本出願のいくつかの実施例のみであり、当業者にとって、進歩性に値する労働をしない前提で、これらの図面に基づき、他の図面を取得することができる。
本出願の実施例で提供されるネットワークアーキテクチャの構成概略図である。 本出願の実施例で提供されるターゲットトランスコーディングパラメータ予測値を決定するシーンの概略図である。 本出願の実施例で提供されるビデオデータ処理方法の流れの概略図である。 本出願の実施例で提供されるトランスコーディングパラメータ予測モデルによって初期トランスコーディングパラメータ予測値を出力する概略図である。 本出願の実施例で提供されるターゲットビデオのビデオ特徴を取得する流れの概略図である。 本出願の実施例で提供されるトランスコーディングパラメータ予測モデルをトレーニングする流れの概略図である。 本出願の実施例で提供される背景テストトランスコーディングパラメータに対応する背景画質を得る概略図である。 本出願の実施例で提供されるラベルマッピング表を構築する概略図である。 本出願の実施例で提供されるトランスコーディングパラメータ予測モデルをトレーニングするシーンの概略図である。 本出願の実施例で提供されるシステムアーキテクチャ図である。 本出願の実施例で提供される背景予測トランスコーディングパラメータとターゲットトランスコーディングパラメータ予測値に基づいてビデオをトランスコーディングするシーンの概略図である。 本出願の実施例で提供されるビデオデータ処理装置の構成概略図である。 本出願の実施例で提供されるコンピュータ機器の構成概略図である。
以下、本出願の実施例の図面を参照して、本出願の実施例の技術案を明瞭かつ完全に説明する。明らかに、説明される実施例は、本出願の実施例の全部ではなく、本出願の実施例の一部にすぎない。当業者が創造的な労働をせずに本発明の実施例に基づいて得るすべての他の実施例は、本出願の保護範囲に属する。
通常、ビデオをトランスコーディングする場合、ビデオ全体のコンテンツは主に考慮されるものであり、ビデオ全体のコンテンツに基づいて、ビデオの特徴を抽出し、そしてビデオの特徴に応じて、目標品質におけるビデオのビットレートを予測され、そして予測されたビットレートに応じて、ビデオをトランスコーディングする。このような方法は、ビデオのフレーム画像全体の品質を制御可能であるが、ビデオの一部の領域(例えば、顔の領域)の品質を制御することが困難である。従って、トランスコーディングされたビデオの一部の領域の品質はおそらく高くない。
本出願の実施例は、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし且つキーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値をキーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。
図1を参照して、本出願の実施例で提供されるネットワークアーキテクチャの構成概略図である。図1に示されるように、このネットワークアーキテクチャは、サービスサーバ1000およびユーザ端末クラスタを含んでもよく、当該ユーザ端末クラスタは、複数のユーザ端末を含んでもよく、図1に示すように、具体的には、ユーザ端末100a、ユーザ端末100b、ユーザ端末100c、…、ユーザ端末100nを含んでもよい。各ユーザ端末はバックエンドサーバに対応し、各バックエンドサーバは、サービスサーバ1000とデータのやり取りを行うように、ネットワークを介してサービスサーバ1000に接続することができ、サービスサーバ1000は、各ユーザ端末からのサービスデータを便利に受信できる。
図1に示すように、各ユーザ端末には、ターゲットアプリケーションが統合して実装されてもよい。ターゲットアプリケーションが各ユーザ端末で実行されると、各ユーザ端末に対応するバックエンドサーバは、アプリケーションにおけるサービスデータを格納し、図1に示すサービスサーバ1000とデータのやり取りを行うことができる。当該ターゲットアプリケーションには、テキスト、画像、音声、動画などのデータ情報を表示する機能を備えたアプリケーションを含んでもよい。当該ターゲットアプリケーションは、自動化などの分野のサービス処理アプリケーションであり、ユーザが入力したデータを自動処理するために使用することができ、例えば、当該ターゲットアプリケーションは、エンターテインメントアプリケーションのビデオ再生アプリケーションであってもよい。
本出願の実施例は、複数のユーザ端末から、1つのユーザ端末をターゲットユーザ端末として選択し、当該ターゲットユーザ端末は、スマートフォン、タブレットコンピューター、デスクトップコンピュータなどのデータ情報を表示および再生する機能を備えたスマート端末を含んでもよい。例えば、本出願の実施例は、図1に示すユーザ端末100aを当該ターゲットユーザ端末としてもよく、当該ターゲットユーザ端末に前述のターゲットアプリケーションを集積することができ、この場合、当該ターゲットユーザ端末に対応するバックエンドサーバは、サービスサーバ1000とデータのやり取りを行うことができる。例えば、ユーザ端末100aを例として、ユーザAがターゲットビデオをトランスコーディングすることを意図し、トランスコーディングされたキーパーツの品質(すなわち、キーパーツ期待品質)が90であることを望む場合、ユーザAは、ユーザ端末100aのターゲットアプリケーションにターゲットビデオをアップロードすることができ、ユーザ端末100aのバックエンドサーバは、ターゲットビデオをキーパーツ期待品質とともにサービスサーバ1000に送信することができる。サービスサーバ1000は、当該ターゲットビデオのビデオ特徴(背景特徴とキーパーツ領域特徴を含む)を取得でき、当該ターゲットビデオの背景特徴に応じて、サービスサーバ1000は、当該ターゲットビデオの背景予測トランスコーディングパラメータを予測でき、当該背景予測トランスコーディングパラメータは、前記背景期待品質にマッチングし、当該背景特徴、キーパーツ領域特徴、および背景予測トランスコーディングパラメータに応じて、サービスサーバ1000は、当該キーパーツ期待品質とマッチングするターゲットトランスコーディングパラメータ予測値を決定し、当該ターゲットトランスコーディングパラメータ予測値に応じてターゲットビデオをトランスコーディングし、トランスコーディングされたターゲットビデオをユーザ端末100aのバックエンドサーバに返すことにより、ユーザ端末100aは、トランスコーディングされたターゲットビデオを表示でき、ユーザAはトランスコーディングされたターゲットビデオを見ることができる。
幾つかの実施例において、サービスサーバ1000は、バックエンドサーバでの多数のビデオを収集し、これらのビデオのビデオ特徴を取得し、ビデオ特徴に応じて各ビデオに対応するトランスコーディングパラメータ予測値を決定し、当該トランスコーディングパラメータの予測値に応じてビデオをトランスコーディングし、トランスコーディングされたビデオをビデオストリームに入れてもよい。このようにして、後続でユーザがユーザ端末を使用してビデオをブラウズする場合に、ユーザに対してトランスコーディングされたビデオを再生することができる。
幾つかの実施例において、バックエンドサーバは、ターゲットビデオのビデオ特徴、及びキーパーツ期待品質を取得し、ビデオ特徴に応じて当該キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を予測することもできることを理解されたく、ここでのバックエンドサーバがターゲットトランスコーディングパラメータ予測値を予測する具体的な実現方式は、前記サービスサーバ1000によるターゲットトランスコーディングパラメータ予測値の予測についての説明を参照でき、ここで再度説明されない。
本出願の実施例で提供される方法は、コンピュータ機器によって実行され得、コンピュータ機器は、端末またはサーバを含むが、これらに限定されないことを理解されたい。
さらに、理解の都合上で、図1を参照し、本出願の実施例で提供されるターゲットトランスコーディングパラメータ予測値を決定するシーン概略図である。図2に示すように、ユーザAは端末Aのターゲットアプリケーションを介してビデオ20aをアップロードし、キーパーツ期待品質を90として入力することができ、なお、ここでのキーパーツは人間の顔を指す。端末Aのバックエンドサーバは、当該ビデオ20a及び当該ビデオ20aのキーパーツ期待品質(例えば、顔期待品質)90をサービスサーバ2000に送信することができる。サービスサーバ2000は、当該ビデオ20aを特徴エンコーダに入力し、当該特徴エンコーダにおいて当該ビデオ20aのキーパーツ領域(例えば、顔領域)を領域Bとして決定することができる。サービスサーバ2000は、取得された特徴符号化パラメータに応じて、当該特徴エンコーダにおいて当該ビデオ20aを仮符号化することで、当該ビデオ20aの背景特徴を得ることができ、ビデオは、連続するイメージシーケンスであり、連続するビデオフレームからなり、1つのビデオフレームは1枚の画像であり、ここでの仮符号化とは、特徴エンコーダにおいて、ビデオ20a内のビデオフレームの画像属性情報(例えば、解像度、フレームレート、ビットレート、画質など)を統計することを意味し得る。サービスサーバ2000は、当該ビデオ20aのビデオフレームを取得し、そしてこれらのビデオフレームのうち、キーパーツを含むビデオフレームをキービデオフレームとして決定し、前記特徴符号化パラメータに応じて、前記特徴エンコーダにおいて前記キービデオフレーム及び前記キーパーツ領域を仮符号化することで、ビデオ20aのキーパーツ領域特徴(例えば、顔領域特徴)を得ることができ、サービスサーバ2000は、前記背景特徴に応じて、背景予測トランスコーディングパラメータを取得でき、当該背景予測トランスコーディングパラメータ、当該背景特徴及び当該キーパーツ領域特徴に応じて、サービスサーバ2000は前記キーパーツ期待品質90にマッチングするターゲットトランスコーディングパラメータ予測値を決定することができる。続いて、サービスサーバ2000は、ビデオ20aをトランスコーディングする際、配置オプションにおけるトランスコーディングパラメータを当該ターゲットトランスコーディングパラメータ予測値として設置することにより、トランスコーディングされたビデオ20bを取得でき、当該ビデオ20bのキーパーツ領域の品質は当該キーパーツ期待品質に合わせる。
さらに、図3を参照して、本出願の実施例で提供されるビデオデータ処理方法の流れ概略図である。図3に示すように、当該方法は以下のステップを含んでもよい。
ステップS101において、ターゲットビデオのビデオ特徴を取得し、前記ビデオ特徴は、背景特徴及びキーパーツ領域特徴を含む。
本出願の実施例では、当該ビデオ特徴は背景特徴及びキーパーツ領域特徴を含んでもよく、ここでのキーパーツとは、あるオブジェクトに属する構成部位を指し、ここでのキーパーツ領域とは、当該キーパーツを含む領域を指し得る。さらに、当該オブジェクトは、動物(例えば、人間、猫、犬など)、植物(例えば、木、花など)、建物(例えば、ビル、住宅など)を指し、当該オブジェクトが動物の場合、当該キーパーツは顔、手、脚などの部位であってもよい。当該オブジェクトが植物であり、例えば、オブジェクトが木である場合、当該キーパーツは葉、枝などの部位であってもよい。つまり、当該キーパーツは、オブジェクトの多様性により異なるタイプを有することがある。当該ビデオ特徴は、特徴エンコーダによって一定の特徴符号化パラメータに応じてターゲットビデオを仮符号化することで取得されることができる。なお、ここでの背景特徴は、当該特徴符号化パラメータに応じてターゲットビデオを仮符号化することで取得されることができ、ここでのキーパーツ領域特徴は、当該特徴符号化パラメータに応じてターゲットビデオにおけるキーパーツ領域を仮符号化することで取得されることができる。つまり、当該背景特徴はキーパーツ領域を含むビデオ全体のコンテンツから取得され、当該キーパーツ領域特徴は、ターゲットビデオにおけるキーパーツ領域から取得され、当該背景特徴はキーパーツ領域特徴よりも粗いであるが、ビデオ全体のコンテンツを表すことができ、当該キーパーツ領域特徴は、キーパーツ領域のみを表すことができ、背景特徴よりも具体的であり、即ち、キーパーツ領域特徴は、キーパーツ領域におけるより多い詳細特徴を含み得る。
本出願では、背景特徴は、解像度、ビットレート、フレームレート、参照フレーム、ピーク信号対雑音比(PSNR)、構造的類似性指数(SSIM)、ビデオマルチメソッドアセスメントフュージョン(VMAF)などのフレームレベルの画像特徴であってもよく、当該キーパーツ領域特徴は、キーパーツ領域のPSNR、キーパーツ領域のSSIM、キーパーツ領域のVMAF、ビデオフレームの総数におけるキーパーツフレームの数に対するキーパーツが現れるキービデオフレームの数の比、キービデオフレームの総面積のキーパーツ面積に対するキーパーツが現れるキービデオフレームにおけるキーパーツ領域の面積の比、キーパーツ領域の平均ビットレートなどであってもよい。
ターゲットビデオを特徴エンコーダに入力し、当該特徴エンコーダは当該ターゲットビデオのビデオフレームを仮符号化して、当該ターゲットビデオの解像度、ビットレート、フレームレート及び参照フレームを決定し、各ビデオフレームのPSNR、SSIM、VMAFの3つの特徴値を統計し、次に、ビデオフレームの数に応じてPSNR、SSIM及びVMAFのそれぞれに対応する平均値を決定し、前記解像度、ビットレート、フレームレート、参照フレーム、及びPSNR、SSIM及びVMAFの平均値をターゲットビデオの背景特徴とすることができることを理解されたい。例えば、VMAF、及びターゲットビデオに3つのビデオフレームがあることを例として、これらの3つのビデオフレームは、それぞれ、ビデオフレームA、ビデオフレームB及びビデオフレームCであり、特徴エンコーダはこれらの3つのビデオフレームを仮符号化した後に、ビデオフレームAのVMAFは80、ビデオフレームBのVMAFは80、ビデオフレームCのVMAFは90であると、ビデオフレームA、ビデオフレームB及びビデオフレームCの総数である3に応じて、VMAFのような特徴での当該ターゲットビデオの最終値は(80+80+90)/3=83.3となる。当該特徴エンコーダにおいて、キーパーツが現れるビデオフレームをキービデオフレームとして決定し、キービデオフレームにキーパーツ領域を決定し、当該キービデオフレーム及び当該キーパーツ領域を仮符号化することで、各キービデオフレームにおけるキーパーツ領域のPSNR、SSIM及びVMAFの3つの特徴値を統計し、次に、キービデオフレームの数に応じて各特徴値の平均値を、当該ターゲットビデオのキーパーツ領域特徴として決定することができるとともに、当該キーパーツビデオフレームの数、及び当該ターゲットビデオのビデオフレームの総数に応じて、1つのキーパーツフレーム数比を取得でき、当該キーパーツフレーム数比を当該ターゲットビデオのキーパーツ領域特徴とすることができ、各キービデオフレームにおけるキーパーツ領域の面積、及び当該キービデオフレームの総面積に応じて、単一のキービデオフレームのキーパーツ面積比を取得でき、次に、当該キービデオフレームの総数に応じて、単一のキーパーツ面積比の最終値を取得でき、当該キーパーツ面積比の最終の値を当該ターゲットビデオのキーパーツ領域特徴とすることができる。例えば、ターゲットビデオに3つのビデオフレームがあることを例として、これらの3つのビデオフレームは、それぞれ、ビデオフレームA、ビデオフレームB及びビデオフレームCであり、その中、当該ビデオフレームA及びビデオフレームBはキービデオフレーム(つまり、ビデオフレームAとビデオフレームBの両方にキーパーツが現れる)、キービデオフレームAとキービデオフレームBの数2、及び当該ターゲットビデオのビデオフレーム総数3に応じて、キーパーツフレーム数比は2/3=66.7%となり、当該キービデオフレームAにおけるキーパーツ領域の面積は3であり、当該キービデオフレームAの総面積は9であると、当該キービデオAのキーパーツ面積比は33.3%となり、当該キービデオBにおけるキーパーツ領域の面積は2であり、当該キービデオフレームBの総面積は8であると、当該キービデオBのキーパーツ面積比は25%となり、キービデオフレームの総数2(1つのキービデオA+1つのキービデオフレームB)に応じて、当該キーパーツ面積比の最終値は33.3%+25%)/2=29.2%となり、キーパーツフレーム数比66.7%及びキーパーツ面積比29.2%も当該ターゲットビデオのキーパーツ領域特徴とする。
ステップS102において、前記ターゲットビデオに対応するキーパーツ期待品質を取得する。
本出願の実施例では、当該キーパーツ期待品質とは、ターゲットビデオをトランスコーディングし、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値を指し得る。当該キーパーツ期待品質は、人為的に定められた値であってもよいし、手動で入力された品質範囲に基づいてサーバによってランダムに生成された1つの値であってもよい。
ステップS103において、前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定する。
本出願の実施例では、トランスコーディングパラメータとは、ターゲットビデオをトランスコーディングする際の配置オプションパラメータを指し得、つまり、当該トランスコーディングパラメータは、ターゲットビデオをトランスコーディングするために用いられてもよく、当該トランスコーディングパラメータは、ビットレート、フレームレート、参照フレームなどを含むがそれらに限定されない。当該背景予測は背景期待品質に対応し、前記背景特徴に応じて、背景期待品質にマッチングする背景予測トランスコーディングパラメータを取得することができる。つまり、当該背景予測トランスコーディングパラメータは、ターゲットビデオ全体のコンテンツに適用する1つのパラメータであり、当該背景予測トランスコーディングパラメータに応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオ全体の品質は背景期待品質に合わせるようにすることができる。なお、当該背景期待品質とは、ターゲットビデオをトランスコーディングし、トランスコーディングされたターゲットビデオ全体の画質に対する期待値を指し得る。当該背景期待品質は人為的に定められた値であってもよいし、手動で入力された品質範囲に基づいてサーバによってランダムに生成された1つの値であってもよい。
ステップS104において、前記背景特徴、前記キーパーツ領域特徴及び前記背景予測トランスコーディングパラメータに応じて、前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定する。
本出願の実施例では、当該ターゲットトランスコーディングパラメータ予測値は前記キーパーツ期待品質に対応し、前記背景予測トランスコーディングパラメータ、背景特徴及びキーパーツ領域特徴をトランスコーディングパラメータ予測モデルに一緒に入力し、当該トランスコーディングパラメータ予測モデルの全結合層により、融合特徴を生成でき、なお、前記背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータは、合計でM個の特徴を含み得、ここでの融合特徴とは、前記背景特徴のそれぞれ、キーパーツ領域特徴のそれぞれ及び背景予測トランスコーディングパラメータのそれぞれを、全て1つの入力値として、当該トランスコーディングパラメータ予測モデルに同時に入力し、即ち、M個の特徴的値をトランスコーディングパラメータ予測モデルに入力することを意味し得る。当該トランスコーディングパラメータ予測モデルの全結合層により、これらのM個の特徴の値を融合することで、N個の初期トランスコーディングパラメータ予測値を出力することができる。なお、MとNの両方は0よりも大きい整数であり、且つ、Nの値は、キーパーツ品質標準値集合におけるキーパーツ品質標準値数に依存し、つまり、Nの値はキーパーツ品質標準値数と一致する。ここでのキーパーツ品質標準値集合は、ビデオ特徴をトランスコーディングパラメータ予測モデルに入力する前に、トランスコーディングパラメータ予測モデルに入力された品質の範囲であり、トランスコーディングパラメータ予測モデルが当該キーパーツ品質標準値集合におけるキーパーツ品質標準値数に応じて出力する初期トランスコーディングパラメータ予測値の数を決定し、及び当該キーパーツ品質標準値に基づいて出力すべき初期トランスコーディングパラメータ予測値を決定するために用いられてもよい。
続いて、キーパーツ品質標準値集合を取得し、当該キーパーツ品質標準値集合には、少なくとも2つのキーパーツ品質標準値を含み、当該キーパーツ品質標準値とは、ターゲットビデオをトランスコーディングし、トランスコーディングされたターゲットビデオにおけるキーパーツ領域の画質に対する予測値を指し得る。当該キーパーツ品質標準値は、人為的に定められた値であってもよいし、人為的に与えられた範囲に基づいてサーバによってランダムに生成された少なくとも2つの値であってもよい。例えば、人為的に与えられた範囲は、80~100であると、サーバは、80~100の値から少なくとも2つの数値をランダムし選択でき、例えば、選択された数値は、85、88、92、96であり、これらの4つの数値(例えば、85、88、92、96)を全てキーパーツ品質標準値とし、{85、88、92、96}をキーパーツ標準値集合とする。前記キーパーツ品質標準値集合におけるキーパーツ品質標準値数、及び前記融合特徴に応じて、前記各キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定することができる。
理解の都合上、図4を参照し、本出願の実施例で提供される通過トランスコーディングパラメータ予測モデルが初期トランスコーディングパラメータ予測値を出力する概略図であり、図4に示すように、背景特徴、キーパーツ領域特徴は、特徴400a、特徴400b、…、特徴400nであってもよく、特徴400a、特徴400b、…、特徴400n、及び背景予測トランスコーディングパラメータ400mの合計M個の入力値を、トランスコーディングパラメータ予測モデル4000に入力し、当該トランスコーディングパラメータ予測モデルは、入力層401、全結合層402、全結合層403及び出力層404を含む。キーパーツ品質標準値集合400を当該トランスコーディングパラメータ予測モデル4000に入力し、当該トランスコーディングパラメータ予測モデル4000における全結合層402及び全結合層403により、当該特徴400a、特徴400b、…、特徴400n、及び背景予測トランスコーディングパラメータ400mに対して畳み込み計算を行うことができ、つまり、当該特徴400a、特徴400b、…、特徴400n、及び背景予測トランスコーディングパラメータ400mを融合することで、前記キーパーツ品質標準値集合400におけるキーパーツ品質値のそれぞれに対応する初期トランスコーディングパラメータ予測値を融合により生成し、当該トランスコーディングパラメータ予測モデルの出力層404により、初期トランスコーディングパラメータ予測値1、初期トランスコーディングパラメータ予測値2及び初期トランスコーディングパラメータ予測値3を出力できる。なお、初期トランスコーディングパラメータ予測値1はキーパーツ品質標準値1に対応し、初期トランスコーディングパラメータ予測値2はキーパーツ品質標準値2に対応し、初期トランスコーディングパラメータ予測値3はキーパーツ品質標準値3に対応する。当該トランスコーディングパラメータ予測モデル4000によって出力された各初期トランスコーディングパラメータ予測値は1つのキーパーツ品質標準値に対応するため、当該トランスコーディングパラメータ予測モデル4000が特徴を融合した後に、出力した初期トランスコーディングパラメータ予測値の数はキーパーツ品質標準値集合におけるキーパーツ品質標準値の数に依存する。
なお、1つの背景予測トランスコーディングパラメータは1つのビデオ全体の品質(フレームレベルの画質)に対応する。背景予測トランスコーディングパラメータを、背景特徴及びキーパーツ領域特徴とともに、トランスコーディングパラメータ予測モデルに入力する目的は、当該背景予測トランスコーディングパラメータを前提として、ビデオ全体の品質が当該背景予測トランスコーディングパラメータに対応する品質であることに基づいて、キーパーツ領域のキーパーツ期待品質に必要なキーパーツ予測トランスコーディングパラメータに達することである。
続いて、キーパーツ期待品質を取得し、当該キーパーツ期待品質を前記キーパーツ品質標準値集合にマッチングする。当該キーパーツ品質標準値集合に当該キーパーツ期待品質と同じキーパーツ品質標準値が存在すると、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係(即ち、初期トランスコーディングパラメータ予測値とキーパーツ品質標準値との1対1対応関係)に応じて、前記初期トランスコーディングパラメータ予測値において、当該キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、当該ターゲットトランスコーディングパラメータ予測値として決定する。
例えば、前記トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値は20、30、40であり、初期トランスコーディングパラメータ予測値20はキーパーツ品質標準値86に対応し、初期トランスコーディングパラメータ予測値30はキーパーツ品質標準値89に対応し、初期トランスコーディングパラメータ予測値40はキーパーツ品質標準値92に対応し、取得されたキーパーツ期待品質は89である場合、キーパーツ期待品質89をキーパーツ品質標準値集合{86、89、92}とマッチングしたマッチング結果、キーパーツ品質標準値89がキーパーツ期待品質89と同じであり、キーパーツ品質標準値89に対応する初期トランスコーディングパラメータ予測値は30であるため、初期トランスコーディングパラメータ予測値30をターゲットトランスコーディングパラメータ予測値とする。
当該キーパーツ品質標準値集合に当該キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、当該線形関数及び当該キーパーツ期待品質に応じてターゲットトランスコーディングパラメータ予測値を決定することができる。なお、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、線形関数を決定する具体的な実現方式は、以下通りである。前記キーパーツ品質標準値集合のうち、当該キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、当該キーパーツ期待品質よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値を決定し、前記キーパーツ品質標準値集合のうち、当該キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、当該キーパーツ期待品質よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値を決定する。つまり、当該最小キーパーツ品質標準値、及び当該最大キーパーツ品質標準値は、当該キーパーツ品質標準値集合のうち、当該キーパーツ期待品質に最も近い大小の2つの値である。初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定し、当該最大キーパーツ品質標準値、当該最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、当該最小キーパーツ品質標準値、及び当該最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、線形関数を決定する。線形関数に応じてターゲットトランスコーディングパラメータ予測値を決定する具体的な方法は、数式(1)に示す。
Figure 2023509301000002

その中で、
(外1)
Figure 2023509301000003
はキーパーツ期待品質
(外2)
Figure 2023509301000004
に対応するターゲットトランスコーディングパラメータ予測値であり、
(外3)
Figure 2023509301000005
はキーパーツ期待品質よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値であり、
(外4)
Figure 2023509301000006
はキーパーツ期待品質よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値であり、
(外5)
Figure 2023509301000007
はキーパーツ期待品質よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、
(外6)
Figure 2023509301000008
はキーパーツ期待品質よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値である。
例えば、トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値は20、30、40、50であることを例として、初期トランスコーディングパラメータ予測値20はキーパーツ品質標準値85に対応し、初期トランスコーディングパラメータ予測値30はキーパーツ品質標準値86に対応し、初期トランスコーディングパラメータ予測値40はキーパーツ品質標準値89に対応し、初期トランスコーディングパラメータ予測値50はキーパーツ品質標準値92に対応し、取得されたキーパーツ期待品質は88であり、即ち、前記数式(1)における
(外2)
Figure 2023509301000009
は88であり、キーパーツ期待品質88をキーパーツ品質標準値集合{85、86、89、92}とマッチングするマッチング結果、当該キーパーツ品質標準値集合に当該キーパーツ期待品質88と同じ値が存在しないことになり、当該キーパーツ品質標準値集合{85、86、89、92}において取得されたキーパーツ期待品質88よりも大きいキーパーツ品質標準値は89、92であり、なお、89は92よりも小さいので、キーパーツ品質標準値89を、当該キーパーツ期待品質88よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値として決定する。つまり、前記数式(1)における
(外3)
Figure 2023509301000010
は89であり、当該キーパーツ品質標準値集合{85、86、89、92}において取得されたキーパーツ期待品質88よりも小さいキーパーツ品質標準値は85、86であり、86は85よりも大きいので、キーパーツ品質標準値86を、当該キーパーツ期待品質88よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値として決定する。つまり、前記数式(1)における
(外4)
Figure 2023509301000011
は86であり、当該キーパーツ品質標準値集合{85、86、89、92}において、当該キーパーツ品質標準値86とキーパーツ品質標準値89とは、キーパーツ期待品質88に最も近い大小の2つの値であることが分かる。取得されたキーパーツ品質標準値86に対応する初期トランスコーディングパラメータ予測値は30であり、つまり、前記数式(1)における
(外6)
Figure 2023509301000012
は30であり、キーパーツ品質標準値89に対応する初期トランスコーディングパラメータ予測値は40であり、つまり、前記数式(1)における
(外5)
Figure 2023509301000013
は40である。前記数式(1)に従って、キーパーツ期待品質88に対応するターゲットトランスコーディングパラメータ予測値

Figure 2023509301000014
を得ることができる。即ち
Figure 2023509301000015
となる。
幾つかの実施例において、当該キーパーツ期待品質が当該キーパーツ品質標準値集合に対応する範囲にない場合、当該キーパーツ期待品質が当該キーパーツ品質標準値集合における最大キーパーツ品質標準値よりも大きい場合、当該キーパーツ品質標準値集合において、最大キーパーツ品質標準値、及び2番目に大きいキーパーツ品質標準値を取得し、当該最大キーパーツ品質標準値、最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、2番目に大きいキーパーツ品質標準値及び当該2番目に大きいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を取得して、線形関数を決定し、さらに、線形関数に応じてターゲットトランスコーディングパラメータ予測値を決定し、前記数式(1)における
(外3)
Figure 2023509301000016
は当該最大キーパーツ品質標準値であり、前記数式(1)における
(外4)
Figure 2023509301000017
は当該2番目に大きいキーパーツ品質標準値であり、前記数式(1)における
(外5)
Figure 2023509301000018
は、当該最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、前記数式(1)における
(外6)
Figure 2023509301000019
は当該2番目に大きいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であることを理解されたい。当該キーパーツ期待品質が当該キーパーツ品質標準値集合における最小キーパーツ品質標準値よりも小さい場合、当該キーパーツ品質標準値集合において、最大キーパーツ品質標準値、及び2番目に小さいキーパーツ品質標準値を取得し、当該最小キーパーツ品質標準値、当該最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、当該2番目に小さいキーパーツ品質標準値、及び当該2番目に小さいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を取得して、線形関数を決定し、さらに、線形関数に応じてターゲットトランスコーディングパラメータ予測値を決定し、つまり、前記数式(1)における
(外3)
Figure 2023509301000020
は当該2番目に小さいキーパーツ品質標準値であり、前記数式(1)における
(外4)
Figure 2023509301000021
は当該最小キーパーツ品質標準値であり、前記数式(1)における
(外5)
Figure 2023509301000022
は当該2番目に小さいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、前記数式(1)における
(外6)
Figure 2023509301000023
は、当該最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値である。例えば、トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値は20、30、40、50であることを例として、初期トランスコーディングパラメータ予測値20はキーパーツ品質標準値85に対応し、初期トランスコーディングパラメータ予測値30はキーパーツ品質標準値86に対応し、初期トランスコーディングパラメータ予測値40はキーパーツ品質標準値89に対応し、初期トランスコーディングパラメータ予測値50はキーパーツ品質標準値92に対応し、キーパーツ品質標準値集合は{85、86、89、92}となることが分かる。取得されたキーパーツ期待品質は94であり、つまり、前記数式(1)における
(外2)
Figure 2023509301000024
は94である。キーパーツ期待品質94をキーパーツ品質標準値集合{85、86、89、92}とマッチングしたマッチング結果、当該キーパーツ品質標準値集合{85、86、89、92}に当該キーパーツ期待品質94と同じ値がなく、且つ当該キーパーツ期待品質94が当該キーパーツ品質標準値集合{85、86、89、92}における最大キーパーツ品質標準値92よりも大きいことである。取得できた当該キーパーツ品質標準値集合{85、86、89、92}における最大キーパーツ品質標準値は92であり、2番目に大きいキーパーツ品質標準値は89であり、89を前記数式(1)における
(外4)
Figure 2023509301000025
に代入し、92を前記数式(1)における
(外3)
Figure 2023509301000026
に代入し、キーパーツ品質標準値89に対応する初期トランスコーディングパラメータ予測値は40であり、キーパーツ品質標準値92に対応する初期トランスコーディングパラメータ予測値は50であるため、40を前記数式(1)における
(外6)
Figure 2023509301000027
に代入し、50を前記数式(1)における
(外5)

Figure 2023509301000028
に代入し、前記数式(1)に従って、取得されたキーパーツ期待品質94に対応するターゲットトランスコーディングパラメータ予測値は
Figure 2023509301000029

となり、即ち、
Figure 2023509301000030

である
ステップS105において、前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングする。
本出願の実施例では、当該ターゲットトランスコーディングパラメータ予測値に応じて、ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオにおけるキーパーツ領域が表示する画質は前記キーパーツ期待品質に合わせるようにすることができる。そして、トランスコーディングされたターゲットビデオ全体が表示する画質は前記背景予測トランスコーディングパラメータに対応する背景期待品質に合わせる。
本出願の実施例では、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし、且つキーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値は、背景期待品質を満たすことに加えて、キーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。
さらに、図5を参照し、本出願の実施例で提供されるターゲットビデオのビデオ特徴を取得する流れ概略図である。図5に示すように、当該流れは以下のステップを含むことができる。
ステップS201において、ターゲットビデオを取得し、前記ターゲットビデオにおいてキーパーツ領域を取得する。
本出願の実施例では、ターゲットビデオは、所定の持続時間閾値内の短いビデオ又はビデオクリップであってもよい。当該持続時間閾値は、人為的に定められた値、例えば、0s、25sなどであってもよい。取得された初期元のビデオの持続時間が過度に長い場合、即ち、持続時間閾値よりも大きい場合、初期ビデオをセグメント化することができる。初期ビデオをセグメント化する具体的な方法は、当該初期ビデオをセッション特徴エンコーダに入力し、当該セッション特徴エンコーダにおいて当該初期ビデオのシーンスイッチングフレームを決定し、当該シーンスイッチングフレームに応じて、当該初期ビデオを少なくとも2つの異なるビデオクリップにセグメント化し、当該少なくとも2つの異なるビデオクリップにおいてターゲットビデオクリップを当該ターゲットビデオとして取得することであってもよい。なお、当該シーンスイッチングフレームとは、シーンの異なるビデオフレームを指し得、例えば、隣接する2つのビデオフレームにおけるシーンは異なると、この2つのシーンの異なるビデオフレームを、シーンスイッチングフレームとして決定することができる。なお、当該ビデオフレームにおけるシーンは、単純または複雑なテクスチャ、暴力的または穏やかな動きなどのシーンを含んでもよく、当該シーンは、建物、環境、キャラクターの行動などを含む。例えば、ビデオフレームaとビデオフレームbは隣接するビデオフレームであり、ビデオフレームaはバスケットボール選手がダンキングしているスタジアムシーンであり、ビデオフレームbは観客が叫んでいる講堂シーンであり、ビデオフレームaのシーンはビデオフレームbのシーンとは異なるため、ビデオフレームaとビデオフレームbの両方をシーンスイッチングフレームとし、ビデオフレームaとビデオの間でビデオをセグメント化することができる。
ステップS202において、特徴符号化パラメータ、及び前記キーパーツ領域に応じて、前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得する。
本出願の実施例では、特徴符号化パラメータとは、特徴エンコーダにおける配置パラメータを指し得、人為的に定められた値であってもよい。当該特徴符号化パラメータに応じて、前記ターゲットビデオを仮符号化することで、当該ターゲットビデオの背景特徴を取得することができ、当該背景特徴は、ビデオ全体のコンテンツに基づいて得られた全体特徴であり、当該ターゲットビデオのビデオフレームのうち、キーパーツ(例えば、顔、手、足など)を含むビデオフレームフレームをキービデオフレームとして決定し、当該特徴符号化パラメータに応じて、当該キービデオフレーム及び当該キーパーツ領域を仮符号化することで、当該ターゲットビデオのキーパーツ領域特徴を取得することができ、当該キーパーツ領域特徴は、キーパーツ領域に基づいて得られた領域特徴である。なお、特徴符号化パラメータに応じてキーパーツ領域特徴を取得する具体的な方法は、前記特徴符号化パラメータに応じて当該キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得することであり得、その中、当該基本属性は、ピーク信号対雑音比(PSNR)、構造的類似性指数(SSIM)、ビデオマルチメソッドアセスメントフュージョン(VMAF)などの属性であってもよく、当該基本属性は、キービデオフレームにおけるキーパーツ領域の画質を表すために用いられ、当該ターゲットビデオのビデオフレームの総数を取得し、前記キービデオフレームの総数を取得することで、ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数に応じて、キーパーツフレーム数比を決定でき、前記キービデオフレームにおけるキーパーツ領域の面積を取得し、前記キービデオフレームの総面積を取得することで、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定でき、以下、前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、全てキーパーツ領域特徴として決定できる。
ターゲットビデオの背景特徴、及びキーパーツ領域特徴を取得する具体的な実現方式は、前記図3に対応する実施例におけるステップS101を参照すればよく、ターゲットビデオの背景特徴、及びキーパーツ領域特徴を取得する説明について、ここで再度説明されない。
本出願の実施例は、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値をキーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。
さらに、図6を参照し、本出願の実施例で提供されるトランスコーディングパラメータ予測モデルをトレーニングする流れ概略図である。図6に示すように、当該流れは以下のステップを含むことができる。
ステップS301において、トレーニングすべきトランスコーディングパラメータ予測モデルを取得する。
本出願には、当該トランスコーディングパラメータ予測モデルには、入力層、2つの全結合層及び出力層を含んでもよい。当該トランスコーディングパラメータ予測モデルの構成は、前記図4に対応する実施例におけるトランスコーディングパラメータ予測モデル4000に示すようである。なお、入力層は、トランスコーディングパラメータ予測モデルに入力されたデータを受信するために用いられ、2つの全結合層はモデルパラメータを有し、当該全結合層は、モデルパラメータで、トランスコーディングパラメータ予測モデルに入力されるデータに対して畳み込み計算を行うことができ、当該出力層は、全結合層が畳み込み計算を行った結果を出力できる。
なお、まだトレーニングされないトランスコーディングパラメータ予測モデルについて、その全結合層のモデルパラメータは、ランダムに生成する数値であってもよく、モデルパラメータの初期パラメータとする。
ステップS302において、サンプルビデオのサンプルビデオ特徴、及び少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得する。
本出願の実施例では、サンプルビデオとは、持続時間閾値内の多数のビデオクリップを指し得、これらの多数のビデオクリップは、美容メイク、食品、スポーツ、アンカーショー、バラエティなどのコンテンツを含んでもよい。サンプルビデオ特徴は、サンプル背景特徴、及びサンプルキーパーツ領域特徴を含み、サンプル背景特徴、及びサンプルキーパーツ領域特徴を取得する具体的な実現方式は、前記図3に対応する実施例におけるステップS101を参照し、ターゲットビデオの背景特徴、及びキーパーツ領域特徴を取得する説明について、ここで再度説明されない。
ステップS303において、前記サンプルビデオ特徴を、前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力する。
本出願では、当該サンプルビデオ特徴(即ち、サンプル背景特徴、及びサンプルキーパーツ領域特徴)を、当該トランスコーディングパラメータ予測モデルに入力し、当該トランスコーディングパラメータ予測モデルにおける全結合層の初期モデルパラメータで、当該サンプルビデオ特徴に対して畳み込み計算を行うことで、当該サンプルビデオの少なくとも2つのサンプル初期トランスコーディングパラメータ予測値を取得することができ、各サンプル初期トランスコーディングパラメータ予測値は、1つのキーパーツ品質標準値に対応する。
ステップS304において、ラベルマッピング表から、前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得する。
本出願では、当該ラベルマッピング表は、トランスコーディングパラメータ予測モデルをトレーニングするために用いられ、当該ラベルマッピング表は、ラベル特徴エンコーダによって構築されるものであり、当該ラベルマッピング表は、キーパーツ品質とキーパーツトランスコーディングパラメータとの間の対応関係を表すためのものである。当該ラベルマッピング表はトランスコーディングパラメータ予測モデルをトレーニングする標準であり、当該ラベルマッピング表は、キーパーツ品質標準値集合における各キーパーツ品質標準値に対応するキーパーツ標準トランスコーディングパラメータを含んでもよく、トランスコーディングパラメータ予測モデルをトレーニングする意味は、トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値と、当該ラベルマッピング表におけるキーパーツ標準トランスコーディングパラメータラベルとの間の誤差が誤差範囲内に収める(即ち、非常に近づく)ことである。
ラベルマッピング表を構築する具体的な方法は、背景テストトランスコーディングパラメータ、及びキーパーツテストトランスコーディングパラメータを取得し、前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記背景テストトランスコーディングパラメータ、及びキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴を符号化することで、前記背景テストトランスコーディングパラメータ及びキーパーツテストトランスコーディングパラメータの両方に対応するキーパーツテスト品質を取得することができることであり得る。前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、ラベルマッピング表を構築する。前記キーパーツテスト品質に前記キーパーツ品質標準値集合におけるキーパーツ品質標準値を含まない場合、キーパーツテストトランスコーディングパラメータ、及びキーパーツテスト品質に応じて、関数を構築し、当該関数に応じて当該キーパーツ品質標準値に対応するキーパーツ標準トランスコーディングパラメータラベルを決定することができる。
理解の都合上、さらに、図7aを参照し、本出願の実施例で提供される背景テストトランスコーディングパラメータに対応する背景画質を取得する概略図である。図7aに示すように、サンプルビデオは、サンプルビデオ1、サンプルビデオ2、…サンプルビデオnを含み、サンプルビデオ1を例として、サンプルビデオ1のサンプルビデオ特徴をラベル特徴エンコーダに入力し、当該ラベル特徴エンコーダにおいて、背景テストトランスコーディングパラメータで当該サンプルビデオ特徴を符号化することで、異なる背景テストトランスコーディングパラメータの下の当該サンプルビデオ1の背景画質を取得することができる。図7aに示すように、当該背景テストトランスコーディングパラメータは、10~50の整数であってもよく、背景テストトランスコーディングパラメータが10であることを例として、背景テストトランスコーディングパラメータでサンプルビデオ1のサンプルビデオ特徴を符号化することで、背景テストトランスコーディングパラメータ10に対応する背景画質を取得することができる。なお、サンプルビデオ1のサンプルビデオ特徴を取得する具体的な実現方式は、前記図3に対応する実施例におけるステップS101であるターゲットビデオのビデオ特徴を取得する説明を参照すればよく、ここで再度説明されない。同様に、サンプルビデオ2、サンプルビデオ3、…、サンプルビデオnについて、異なる背景テストトランスコーディングパラメータの下の背景画質を取得することができる。
さらに、理解の都合上、さらに、図7bを参照し、本出願の実施例で提供されるラベルマッピング表を構築する概略図である。前記図7aに対応する実施例において、既に、各背景テストトランスコーディングパラメータのそれぞれに対応する1つの背景画質(即ち、フレームレベルの画質)を取得した。背景トランスコーディングパラメータが背景テストトランスコーディングパラメータである場合に、ビデオ中キーパーツ領域が所定のキーパーツ画質に達するために必要なキーパーツ領域トランスコーディングパラメータを取得するために、本出願は、各背景テストトランスコーディングパラメータの下で、異なるキーパーツテストトランスコーディングパラメータを入力し、背景テストトランスコーディングパラメータをキーパーツトランスコーディングパラメータとともに符号化することで、背景テストトランスコーディングパラメータ及びキーパーツテストトランスコーディングパラメータの両方に対応するキーパーツテスト品質を取得する。図7bに示すように、当該キーパーツテストトランスコーディングパラメータは、0から15までの合計16の連続する整数値であり、背景テストトランスコーディングパラメータごとに、16回の符号化(キーパーツテストトランスコーディングパラメータ0、キーパーツテストトランスコーディングパラメータ1、…キーパーツテストトランスコーディングパラメータ15の合計16個のトランスコーディングパラメータテスト値)を行うことで、キーパーツテストトランスコーディングパラメータ及び背景テストトランスコーディングパラメータの両方に対応するキーパーツテスト品質を取得することができる。図7bに示すように、背景テストトランスコーディングパラメータ10を例として、背景トランスコーディングパラメータが背景テストトランスコーディングパラメータ10である場合に、キーパーツテストトランスコーディングパラメータ0を入力し、次に、サンプルビデオを符号化することで、背景テストトランスコーディングパラメータ10及びキーパーツテストトランスコーディングパラメータ0の両方に対応するキーパーツテスト品質を取得することができる。同様に、背景テストトランスコーディングパラメータ(背景テストトランスコーディングパラメータ10-50)ごとに、全て16回の符号化を行った後に、各背景テストトランスコーディングパラメータの下で、異なるキーパーツテスト品質のそれぞれに対応するキーパーツテストトランスコーディングパラメータを取得することができ、これにより、ラベルマッピング表を得ることができる。図7bに示すように、当該ラベルマッピング表には、キーパーツテストトランスコーディングパラメータとキーパーツテスト品質との1対1の対応関係を含んでいる。以下、当該ラベルマッピング表におけるキーパーツテスト品質と前記キーパーツ品質標準値とをマッチングし、当該ラベルマッピング表におけるキーパーツテスト品質に前記キーパーツ品質標準値を含んでいる場合、当該ラベルマッピング表において当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定でき、トランスコーディングパラメータ予測モデルをトレーニングするために用いられ、トランスコーディングパラメータ予測モデルによって出力されたキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値は、当該キーパーツ標準トランスコーディングパラメータラベルに継続的に近づくようにし、当該ラベルマッピング表におけるキーパーツテスト品質に前記キーパーツ品質標準値を含まない場合、当該ラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、関数を構築し、当該関数に応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定、トランスコーディングパラメータ予測モデルをトレーニングするために用いられることができる。
例えば、ラベルマッピング表が表1であることを例として、表1に示すラベルマッピング表における行データは、キーパーツテストトランスコーディングパラメータを表すためのものであり、列データは、背景テストトランスコーディングパラメータを表すためのものであり、1つの背景テストトランスコーディングパラメータ及び1つのキーパーツテストトランスコーディングパラメータの両方は1つのキーパーツテスト品質に対応し、例えば、背景テストトランスコーディングパラメータ10及びキーパーツテストトランスコーディングパラメータ0の両方は1つのキーパーツテスト品質56に対応する。表1に示すラベルマッピング表により、異なるキーパーツテスト品質に対応するキーパーツテストトランスコーディングパラメータを取得することでき、当該キーパーツテスト品質をキーパーツ品質ラベルとし、キーパーツ品質ラベルに対応するキーパーツテストトランスコーディングパラメータを、キーパーツトランスコーディングパラメータラベルとする。取得されたキーパーツ品質標準値集合は{84、88、92、98}となり、当該ラベルマッピング表のキーパーツテスト品質にキーパーツ品質標準値98と同じ値がないため、キーパーツテストトランスコーディングパラメータ4、キーパーツテストトランスコーディングパラメータ4、キーパーツテスト品質94、及びキーパーツテスト品質96に応じて、関数y=2x+88を構築する。なお、yは、キーパーツテスト品質を表すために用いられ、xはキーパーツテストトランスコーディングパラメータを表すために用いられ、関数y=2x+88は、キーパーツテストトランスコーディングパラメータとキーパーツテスト品質との関係を表すために用いられ、キーパーツ品質標準値98を関数y=2x+88中(即ち、y=98)に代入すると、キーパーツ品質標準値98に対応するキーパーツ標準トランスコーディングパラメータラベルは5である。キーパーツ標準トランスコーディングパラメータラベル5、及びキーパーツ品質標準値98を、当該ラベルマッピング表に挿入でき、即ち、当該ラベルマッピング表を更新することで、当該全てのキーパーツ品質標準値を含むラベルマッピング表を取得し、更新されたラベルマッピング表は表2に示すようである。
Figure 2023509301000031
Figure 2023509301000032
表2に示すラベルマッピング表により、キーパーツ品質標準値84に対応するキーパーツトランスコーディングパラメータラベルを3として、キーパーツ品質標準値88に対応するキーパーツトランスコーディングパラメータラベルを0として、キーパーツ品質標準値92に対応するキーパーツトランスコーディングパラメータラベルを2として、キーパーツ品質標準値98に対応するキーパーツトランスコーディングパラメータラベルを5として取得することができ、キーパーツトランスコーディングパラメータラベル3、キーパーツトランスコーディングパラメータラベル0、キーパーツトランスコーディングパラメータラベル2、及びキーパーツトランスコーディングパラメータラベル5を、全てキーパーツ標準トランスコーディングパラメータラベルとすることができる。
なお、前記表1又は表2におけるデータは代表的なものではなく、理解の都合上、作成された参考例にすぎない。
なお、前記キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを決定する方式は関数の構築を含むがそれに限定されず、そして、関数を構築する方式は、キーパーツテストトランスコーディングパラメータ、及びキーパーツテスト品質に応じて構築することを含むがそれに限定されず、背景テストトランスコーディングパラメータ、キーパーツテストトランスコーディングパラメータ、及びキーパーツテスト品質と合わせて関数を構築してもよく、そして、関数は線形関数を含むがそれに限定されない。
ステップS305において、前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしていると、前記トランスコーディングパラメータ予測モデルのトレーニングを完成させる。
本出願の実施例では、当該モデル収束条件は、人為的に定められた誤差範囲であってもよく、当該誤差範囲は0~0.5であり、当該トランスコーディングパラメータ予測誤差が当該誤差範囲内にある場合、当該トランスコーディングパラメータ予測モデルによって出力されるトランスコーディングパラメータ予測値がラベルマッピング表におけるキーパーツ標準トランスコーディングパラメータラベルとそれほど変わらないと決定することができ、当該トランスコーディングパラメータ予測モデルをトレーニングする必要がない。
幾つかの実施例において、当該トランスコーディングパラメータ予測モデルのトレーニングが完了した後に、ビデオテストセットで、当該トレーニング済みのトランスコーディングパラメータ予測モデルをテストし、当該ビデオテストセットに少なくとも2つのテストビデオを含むことを理解されたい。ビデオテストセットでトランスコーディングパラメータ予測モデルをテストする具体的な実施形態は、テストビデオを当該トレーニング済みのトランスコーディングパラメータ予測モデルに入力し、当該トランスコーディングパラメータ予測モデルによりトランスコーディングパラメータ予測値を出力でき、当該トランスコーディングパラメータ予測値に対応するキーパーツ品質値を取得し、前記ラベルマッピング表により当該キーパーツ品質値に対応するキーパーツ標準トランスコーディングパラメータラベルを決定し、当該トランスコーディングパラメータ予測値と当該キーパーツ標準トランスコーディングパラメータラベルとの間の誤差を決定し、当該誤差が誤差範囲内にあると、当該トランスコーディングパラメータ予測モデルを後続の使用に提供し、当該誤差が誤差範囲内にないと、当該トレーニング済みのトランスコーディングパラメータ予測モデルによって出力された値がまだ十分に正確ではないことを意味し、テスト中に出力されたトランスコーディングパラメータ予測値と、対応するキーパーツ標準トランスコーディングパラメータラベルとの間の誤差が誤差範囲内にあるまで、当該トランスコーディングパラメータ予測モデルを継続してトレーニングし、さらにテストする。
ステップS306において、前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていないと、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整する。
本出願の実施例では、トランスコーディングパラメータ予測誤差がモデル収束条件を満たしていないと、即ち、当該トランスコーディングパラメータ予測誤差が誤差範囲内にない場合、当該トランスコーディングパラメータ予測モデルによって出力されたトランスコーディングパラメータ予測値はラベルマッピング表におけるキーパーツ標準トランスコーディングパラメータラベルと大きく違い、当該トランスコーディングパラメータ予測モデルによって出力された予測値が正確ではないことを意味する。トランスコーディングパラメータ予測誤差に応じて当該トランスコーディングパラメータ予測モデルのモデルパラメータを調整し、継続して次のサンプルビデオのサンプルビデオ特徴を入力し、調整されたモデルパラメータで当該サンプルビデオ特徴に対して畳み込み計算を行うことで、当該サンプルビデオのキーパーツトランスコーディングパラメータ予測値を出力し、新たなトランスコーディングパラメータ予測誤差を計算し、当該新たなトランスコーディングパラメータ予測誤差が収束条件を満たしていると、トランスコーディングパラメータ予測モデルのトレーニングを完成させ、当該新たなトランスコーディングパラメータ予測誤差がモデル収束条件を満たしていないと、継続して当該新たなトランスコーディングパラメータ予測誤差に応じてトランスコーディングパラメータ予測モデルのモデルパラメータを調整する。
本出願の実施例は、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし、且つキーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値は、背景期待品質を満たすことに加えて、キーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。
図8を参照し、本出願の実施例で提供されるトランスコーディングパラメータ予測モデルをトレーニングするシーン概略図である。図8に示すように、サンプルビデオ特徴をトランスコーディングパラメータ予測モデル800に入力し、当該トランスコーディングパラメータ予測モデル800における全結合層は当該サンプルビデオ特徴に対して畳み込み計算を行うことで、初期トランスコーディングパラメータ予測値を取得して出力することができる。当該初期トランスコーディングパラメータ予測値はキーパーツ品質標準値と1対1で対応し、ラベルマッピング表に応じて当該キーパーツ品質標準値に対応するキーパーツ標準トランスコーディングパラメータラベルを取得することができる。誤差関数計算器は、当該初期トランスコーディングパラメータ予測値、及びキーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を計算し、当該トランスコーディングパラメータ予測誤差に応じて、トランスコーディングパラメータ予測モデルのモデルパラメータを調整することができる。パラメータが調整された後に、トランスコーディングパラメータ予測誤差がモデル収束条件を満たすまで、前記方法で、再び新たなサンプルビデオ特徴をトランスコーディングパラメータ予測モデル800に入力し、再び初期トランスコーディングパラメータ予測値を出力し、再びトランスコーディングパラメータ予測誤差を計算し、このように繰り返す。この場合、トランスコーディングパラメータ予測モデルのトレーニングが完了し、後続で、当該トレーニング済みのトランスコーディングパラメータ予測モデルを使用してキーパーツトランスコーディングパラメータ予測を行うことができる。
図9を参照し、本出願の実施例で提供されるシステムアーキテクチャ図である。図9に示すように、本出願のアーキテクチャは、まず、ビデオクリップを特徴エンコーダに入力することを含み、当該ビデオクリップは1つの完全なビデオであってもよいし、1つの完全なビデオから取得されたビデオクリップであってもよく、完全なビデオからビデオクリップを取得する具体的な実現方式は、前記図5に対応する実施例におけるステップS201であるターゲットビデオの取得についての説明を参照でき、ここで再度説明されない。当該特徴エンコーダにおいて、当該ビデオクリップのキーパーツ領域を決定してから、一定の特徴符号化パラメータで当該ビデオクリップを仮符号化することで、当該ビデオクリップのビデオ特徴を抽出することができる。さらに、当該ビデオ特徴は、背景特徴、及びキーパーツ領域特徴を含んでもよく、背景特徴及びキーパーツ領域特徴を取得する具体的な実施形態は前記図3に対応する実施例におけるステップS101である背景特徴及びキーパーツ領域特徴を取得する説明を参照でき、ここで再度説明されない。
さらに、当該背景特徴に応じて、背景予測トランスコーディングパラメータを取得することができる。当該背景特徴、キーパーツ領域特徴、及び当該背景予測トランスコーディングパラメータを、一緒にトレーニングが完成しテストが完了したトランスコーディングパラメータ予測モデルに入力し、当該トランスコーディングパラメータ予測モデルにおける全結合層は当該背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに対して畳み込み計算を行うことにより、少なくとも2つのキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を取得することができる。なお、当該キーパーツ品質標準値は、背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータをトランスコーディングパラメータ予測モデルに入力する前に、トランスコーディングパラメータ予測モデルに入力された品質値であり、当該キーパーツ品質標準値は人為的に定められたキーパーツ期待品質に十分に近い品質予測値であり、キーパーツ期待品質値を含んでもよいし、キーパーツ期待品質値を含まなくてもよい。なお、当該キーパーツ期待品質値は当該ビデオクリップをトランスコーディングした後に、ビデオクリップにおけるキーパーツ領域の画質の期待値である。トランスコーディングパラメータ予測モデルがキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定する具体的な実施形態は、前記図3に対応する実施例におけるステップS103であるトランスコーディングパラメータ予測モデル決定初期トランスコーディングパラメータ予測値的説明を参照でき、ここで再度説明されず、トランスコーディングパラメータ予測モデルをトレーニングする具体的な実施形態は、前記図8に対応する実施例におけるトランスコーディングパラメータ予測モデルをトレーニングする説明を参照でき、ここで也再度説明されない。
ここで、トランスコーディングパラメータ予測モデルは、初期トランスコーディングパラメータ予測値を出力した後に、キーパーツ品質標準値に対応するキーパーツ品質標準値集合を取得し、当該キーパーツ品質標準値集合、当該初期トランスコーディングパラメータ予測値及びキーパーツ期待品質に応じて、当該キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定することができる。当該キーパーツ品質標準値集合、当該初期トランスコーディングパラメータ予測値、及びキーパーツ期待品質に応じてターゲットトランスコーディングパラメータ予測値を決定する具体的な実施形態は、前記図3に対応する実施例におけるステップS103についての説明を参照でき、ここで再度説明されない。
さらに、ターゲットトランスコーディングパラメータ予測値を取得した後に、当該ターゲットトランスコーディングパラメータ予測値に応じて、ビデオクリップをトランスコーディングすることができ、キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したため、このように、背景期待品質を満たすことに加えて、ビデオクリップにおけるキーパーツ領域の画質を制御して調整し、トランスコーディングされたビデオにおけるキーパーツ領域の画質を向上させることができる。
図10を参照し、本出願の実施例で提供されるターゲットトランスコーディングパラメータ予測値に基づいてビデオをトランスコーディングするシーン概略図である。図10に示すシーンの場合、キーパーツは顔であり、キーパーツ領域は顔領域である。図10に示すように、サービスサーバ9000はビデオ90aを取得し、サービスサーバ9000は当該ビデオ90aの背景特徴、及びキーパーツ領域特徴(例えば、顔領域特徴)を取得し、当該背景特徴に応じて背景期待品質(フレームレベルの画質)に対応する背景予測トランスコーディングパラメータを取得し、当該背景予測トランスコーディングパラメータに応じてビデオ90aをトランスコーディングすることで、トランスコーディングされたビデオ90bを取得することができる。図10に示すように、ビデオ90aにおける顔領域pの詳細特徴を考慮しないので、当該トランスコーディングされたビデオ90bにおける顔領域pは、画質が高くなく、ぼやけている。前記キーパーツ領域特徴、背景特徴、及び背景予測トランスコーディングパラメータを一緒にトランスコーディングパラメータ予測モデル900に入力し、当該トランスコーディングパラメータ予測モデルによりキーパーツ期待品質(例えば、顔期待品質)に対応するターゲットトランスコーディングパラメータ予測値を決定することができ、さらに、前記ターゲットトランスコーディングパラメータ予測値に応じてビデオ90aをトランスコーディングすることで、トランスコーディングされたビデオ90cを取得することができる。さらに、当該ビデオ90cにおける背景画質は前記ビデオ90bにおける背景画質と一致し、当該ビデオ90cの顔領域pの画質は前記顔期待品質に合わせる。顔領域pにおける詳細特徴を考慮したため、トランスコーディングされたビデオ90cにおける顔領域pはビデオ90bにおける顔領域pよりも画質が高く、解像度が高くなることが分かる。
本出願による有益な効果を説明するために、本出願の実施例は実験比較表を提供する。表3に示すように、この実験は、20sの時間の56個のビデオクリップをテストデータ集として採用し、キーパーツを顔に設置し、キーパーツ領域は顔領域であり、ビットレートをトランスコーディングパラメータとしてテストし、異なるビデオクリップの例えば表3におけるビットレート、VMAF、SSIMなどの属性情報のデータを統計し、次に、56個のビデオクリップについてこれらのデータの平均値を求め、平均値を最終の実験テストデータ(即ち、ビデオ特徴)とする。表3から分かるように、全体的な品質が変わらない場合、異なる顔期待品質について、顔期待品質にマッチングする顔ビットレートパラメータ(即ち、ターゲットトランスコーディングパラメータ予測値)を予測することができる。例えば、全体的な品質が88である場合に、背景ビットレートパラメータ(例えば、背景予測ビットレート)は33.94であり、ビデオがトランスコーディングされた後に、顔領域の画質は92(例えば、顔期待品質は90である)となることを望む場合、ビットレート、VMAF、PSNR、顔領域品質、非顔領域品質、顔領域ビットレート及び背景ビットレートパラメータなどのデータに応じて、顔期待品質92にマッチングする顔ビットレートパラメータを3.88として求め、ビデオがトランスコーディングされた後に、顔領域の画質が94となることを望む場合、顔期待品質94にマッチングする顔ビットレートパラメータを5.41として求める。この実験は顔領域を考慮し、顔領域の特徴を抽出し、顔領域特徴に基づいて顔期待品質に対応する顔ビットレートを予測し、ビデオをトランスコーディングする場合、顔領域の画質は具体的な品質値となることを望む場合、顔ビットレートオプションをこの品質値に対応する顔ビットレートパラメータに設置すればよい。これにより、ビデオにおける顔領域の画質を制御し、顔領域の画質を向上させ、顔領域の画質を個別に調整することを実現することができる。
同時に、顔領域の画質を向上することに加えて、ビットレートを改善することができる。表3の実験比較表に示すように、全体的な品質が94である行において、顔領域品質は92.60、ビットレートは2372.67kbpsである。この方法を使用した後に、全体的な品質が90、顔領域品質が94.02である(前記全体的な品質94と一致する)場合、ビットレートは1828kpsであり、全体的な品質が94である際のビットレート2372.67kbpsと比較して、ビットレートは22%節約される。
Figure 2023509301000033
要するに、当該実験を通じて、本出願によってもたらされる有益な効果は、ビデオトランスコーディングの一部の領域を個別に制御して調整することを実現し、ビデオトランスコーディングされたキーパーツ領域の品質を向上させ、トランスコーディングパラメータを改善することができる。
図11を参照し、本出願の実施例で提供されるビデオデータ処理装置の構成概略図である。図11に示すように、前記ビデオデータ処理装置は、コンピュータ機器の1つのコンピュータプログラム(プログラムコードを含む)を実行し、例えば、当該ビデオデータ処理装置は、1つのアプリケーションソフトウェアであり、当該装置は、本出願の実施例で提供される方法における相応するステップを実行するために用いられる。図11に示すように、当該ビデオデータ処理装置1は、特徴取得モジュール11、品質取得モジュール12、トランスコーディングパラメータ決定モジュール13、予測値決定モジュール14及びビデオトランスコーディングモジュール15を含むことができる。
特徴取得モジュール11は、ターゲットビデオのビデオ特徴を取得するために用いられ、前期ビデオ特徴は背景特徴及びキーパーツ領域特徴を含む。
品質取得モジュール12は、前記ターゲットビデオに対応するキーパーツ期待品質を取得するために用いられ、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値である。
トランスコーディングパラメータ決定モジュール13は、前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するために用いられ、前記背景予測トランスコーディングパラメータは背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値である。
予測値決定モジュール14は、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし、且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
ビデオトランスコーディングモジュール15は、前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするために用いられる。
なお、特徴取得モジュール11、品質取得モジュール12、トランスコーディングパラメータ決定モジュール13、予測値決定モジュール14及びビデオトランスコーディングモジュール15の具体的な実現方式は、前記図3に対応する実施例におけるステップS101-ステップS105の説明を参照でき、ここで再度説明されない。
図11を参照し、特徴取得モジュール11はターゲットビデオ取得ユニット111、キーパーツ取得ユニット112、及びビデオ仮符号化ユニット113を含むことができる。
ターゲットビデオ取得ユニット111は、ターゲットビデオを取得するために用いられる。
キーパーツ領域取得ユニット112は、前記ターゲットビデオにおいてキーパーツ領域を取得するために用いられる。
ビデオ仮符号化ユニット113は、特徴符号化パラメータ、及び前記キーパーツ領域に応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得することができる。
なお、ターゲットビデオ取得ユニット111、キーパーツ領域取得ユニット112及びビデオ仮符号化ユニット113の具体的な実現方式は、前記図5に対応する実施例におけるステップS201-ステップS202の説明を参照でき、ここで再度説明されない。
図11を参照し、ビデオ仮符号化ユニット113は、符号化パラメータ取得サブユニット1131、キービデオフレーム決定サブユニット1132、及びキーパーツ領域特徴決定サブユニット1133を含むことができる。
符号化パラメータ取得サブユニット1131は、前記特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するために用いられる。
キービデオフレーム決定サブユニット1132は、前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するために用いられる。
キーパーツ領域特徴決定サブユニット1133は、前記特徴符号化パラメータに応じて、前記キービデオフレーム、及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するために用いられる。
なお、前記キーパーツ領域特徴決定サブユニット1133は、さらに、特徴符号化パラメータに応じて前記キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得するために用いられる。
前記キーパーツ領域特徴決定サブユニット1133は、さらに、前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数におけるキーパーツフレーム数比を決定するために用いられる。
前記キーパーツ領域特徴決定サブユニット1133は、さらに、前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するために用いられる。
前記キーパーツ領域特徴決定サブユニット1133は、さらに、前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するために用いられる。
なお、符号化パラメータ取得サブユニット1131、キービデオフレーム決定サブユニット1132、及びキーパーツ領域特徴決定サブユニット1133の具体的な実現方式は前記図5に対応する実施例におけるステップS202の説明を参照でき、ここで再度説明されない。
図11を参照し、ターゲットビデオ取得ユニット111は、初期ビデオ取得サブユニット1111、スイッチングフレーム決定サブユニット1112、及びビデオセグメント化サブユニット1113を含むことができる。
初期ビデオ取得サブユニット1111は、初期ビデオを取得するために用いられる。
スイッチングフレーム決定サブユニット1112は、前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するために用いられる。
ビデオセグメント化サブユニット1113は、前記シーンスイッチングフレームに応じて、前記初期ビデオを、少なくとも2つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップのうちターゲットビデオクリップを、前記ターゲットビデオとして取得するために用いられる。
なお、初期ビデオ取得サブユニット1111、スイッチングフレーム決定サブユニット1112、及びビデオセグメント化サブユニット1113の具体的な実現方式は、前記図5に対応する実施例におけるステップS201の説明を参照でき、ここで再度説明されない。
図11を参照し、予測値決定モジュール14は、初期トランスコーディングパラメータ予測値出力ユニット141、及びターゲットトランスコーディングパラメータ予測値決定ユニット142を含むことができる。
初期トランスコーディングパラメータ予測値出力ユニット141は、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより、少なくとも2つの初期トランスコーディングパラメータ予測値を出力するために用いられ、前記初期トランスコーディングパラメータ予測値のそれぞれは、異なるキーパーツ品質標準値に対応する。
ターゲットトランスコーディングパラメータ予測値決定ユニット142は、キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
なお、初期トランスコーディングパラメータ予測値出力ユニット141、及びターゲットトランスコーディングパラメータ予測値決定ユニット142の具体的な実現方式は、前記図3に対応する実施例におけるステップS104の説明を参照でき、ここで再度説明されない。
図11を参照し、初期トランスコーディングパラメータ予測値出力ユニット141は、融合特徴生成サブユニット1411、標準値取得サブユニット1412及び初期トランスコーディングパラメータ予測値決定サブユニット1413を含むことができる。
融合特徴生成サブユニット1411は、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルの全結合層に入力し、前記全結合層に融合特徴を生成するために用いられる。
標準値取得サブユニット1412は、少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するために用いられる。
初期トランスコーディングパラメータ予測値決定サブユニット1413は、前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定するために用いられる。
なお、融合特徴生成サブユニット1411、標準値取得サブユニット1412、及び初期トランスコーディングパラメータ予測値決定サブユニット1413の具体的な実現方式は前記図3に対応する実施例におけるステップS104の説明を参照でき、ここで再度説明されない。
図11を参照し、ターゲットトランスコーディングパラメータ予測値決定ユニット142は、品質マッチングサブユニット1421、及びターゲットトランスコーディングパラメータ予測値決定サブユニット1422を含むことができる。
品質マッチングサブユニット1421は、前記キーパーツ期待品質と前記キーパーツ品質標準値集合とをマッチングするために用いられる。
ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも2つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数、及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
なお、前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値のうち、最小キーパーツ品質標準値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するために用いられる。
なお、品質マッチングサブユニット1421、及びターゲットトランスコーディングパラメータ予測値決定サブユニット1422の具体的な実現方式は、前記図3に対応する実施例におけるステップS104の説明を参照でき、ここで再度説明されない。
図11を参照し、当該ビデオデータ処理装置1は、特徴取得モジュール11、品質取得モジュール12、トランスコーディングパラメータ決定モジュール13、予測値決定モジュール14及びビデオトランスコーディングモジュール15を含むことができ、予測モデル取得モジュール16、サンプル取得モジュール17、サンプル予測値出力モジュール18、トランスコーディングパラメータラベル取得モジュール19、トランスコーディングパラメータ予測誤差決定モジュール20、トレーニング完了モジュール21及びパラメータ調整モジュール22をさらに含むことができる。
予測モデル取得モジュール16は、トレーニングすべきトランスコーディングパラメータ予測モデルを取得するために用いられる。
サンプル取得モジュール17は、サンプルビデオのサンプルビデオ特徴、及び少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するために用いられる。
サンプル予測値出力モジュール18は、前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するために用いられる。
トランスコーディングパラメータラベル取得モジュール19は、ラベルマッピング表から、前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するために用いられる。
トランスコーディングパラメータ予測誤差決定モジュール20は、前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するために用いられる。
トレーニング完了モジュール21は、前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしていると、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるために用いられる。
パラメータ調整モジュール22は、前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていないと、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するために用いられる。
なお、予測モデル取得モジュール16、サンプル取得モジュール17、サンプル予測値出力モジュール18、トランスコーディングパラメータラベル取得モジュール19、トランスコーディングパラメータ予測誤差決定モジュール20、トレーニング完了モジュール21及びパラメータ調整モジュール22の具体的な実現方式は、前記図6に対応する実施例におけるステップS301-ステップS307の説明を参照でき、ここで再度説明されない。
図11を参照し、当該ビデオデータ処理装置1は、特徴取得モジュール11、品質取得モジュール12、トランスコーディングパラメータ決定モジュール13、予測値決定モジュール14、ビデオトランスコーディングモジュール15、予測モデル取得モジュール16、サンプル取得モジュール17、サンプル予測値出力モジュール18、トランスコーディングパラメータラベル取得モジュール19、トランスコーディングパラメータ予測誤差決定モジュール20、トレーニング完了モジュール21及びパラメータ調整モジュール22を含むことができ、テストトランスコーディングパラメータ取得モジュール23、テスト品質決定モジュール24及びマッピング表構築モジュール25をさらに含むことができる。
テストトランスコーディングパラメータ取得モジュール23は、複数の背景テストトランスコーディングパラメータ、及び複数のキーパーツテストトランスコーディングパラメータを取得するために用いられる。
テスト品質決定モジュール24は、前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれの下で、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれに対応するキーパーツテスト品質を取得するために用いられる。
マッピング表構築モジュール25は、前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するために用いられる。
なお、前記マッピング表構築モジュール25は、さらに、前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含む場合、前記ラベルマッピング表内の当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを決定し、当該キーパーツテストトランスコーディングパラメータを前記キーパーツ標準トランスコーディングパラメータラベルとし、
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するために用いられる。
なお、テストトランスコーディングパラメータ取得モジュール23、テスト品質決定モジュール24及びマッピング表構築モジュール25の具体的な実現方式は、前記図6に対応する実施例におけるステップ304である構築ラベルマッピング表の説明を参照でき、ここで再度説明されない。
本出願の実施例は、ターゲットビデオの背景特徴、キーパーツ領域特徴、背景予測トランスコーディングパラメータ及びキーパーツ期待品質を取得することにより、当該ターゲットビデオの背景特徴、キーパーツ領域特徴及び背景予測トランスコーディングパラメータに応じて、背景期待品質を満たし、且つキーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を取得することができる。キーパーツの領域レベルの特徴を新たに追加して、ターゲットビデオにおけるキーパーツ領域の詳細を具体的に考慮したので、予測されたターゲットトランスコーディングパラメータ予測値をキーパーツ領域により適合させることができ、当該ターゲットトランスコーディングパラメータ予測値に応じて当該ターゲットビデオをトランスコーディングすることで、トランスコーディングされたターゲットビデオのキーパーツ領域の品質は当該キーパーツ期待品質に合わせるようにし、即ち、ビデオトランスコーディングされたキーパーツ領域の品質を向上させることができる。
さらに、図12を参照し、本願の実施例で提供されるコンピュータ機器の構成模式図である。図12に示すように、上記図11に対応する実施例における装置1は、上記コンピュータ機器1200に適用可能であり、上記コンピュータ機器1200は、プロセッサー1001と、ネットワークインタフェース1004と、メモリ1005と、を含んでもよい。また、上記コンピュータ機器1200は、ユーザインタフェース1003と、少なくとも1つの通信バス1002と、を含んでもよい。ここで、通信バス1002は、これらのコンポーネント間の接続通信を実現するためのものである。ここで、ユーザインタフェース1003は、ディスプレイ(Display)、キーボード(Keyboard)を含んでもよい。ユーザインタフェース1003は、標準的な有線インタフェース、無線インタフェースを含んでもよい。ネットワークインタフェース1004は、標準的な有線インタフェース、無線インタフェース(例えば、Wi-Fiインタフェース)を含んでもよい。メモリ1005は、高速RAMであってもよく、不揮発性メモリ(non-volatile memory)、例えば、少なくとも1つの磁気ディスクメモリであってもよい。メモリ1005は、前述プロセッサー1001から離れた位置にある少なくとも1つの記憶装置であってもよい。図12に示すように、コンピュータ記憶媒体であるメモリ1005には、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール、及び機器制御アプリケーションが含まれてもよい。
図12に示すコンピュータ機器1000では、ネットワークインタフェース1004は、ネットワーク通信機能を提供することができ、ユーザインタフェース1003は、主にユーザに入力用のインタフェースを提供し、プロセッサー1001は、メモリ1005に記憶された機器制御アプリケーションを呼び出すことにより:
ターゲットビデオのビデオ特徴を取得し、前記ビデオ特徴は、背景特徴及びキーパーツ領域特徴を含み、
前記ターゲットビデオに対応するキーパーツ期待品質を取得し、
前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定し、
前記背景特徴、前記キーパーツ領域特徴及び前記背景予測トランスコーディングパラメータに応じて、前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定し、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオにおけるキーパーツ領域をトランスコーディングすることを実現させる。
理解すべきものとして、本願の実施例で説明されたコンピュータ機器1200は、上記図4ないし図10に対応する実施例における当該ビデオデータ処理方法の説明を実行してもよく、上記図11に対応する実施例における当該ビデオデータ処理装置1の説明を実行してもよいが、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。
また、ここで指摘すべきものとして、本願の実施例では、コンピュータ可読記憶媒体をさらに提供し、上記コンピュータ可読記憶媒体には、上記で言及されたビデオデータ処理のコンピュータ機器1200が実行するコンピュータプログラムを記憶しており、上記コンピュータプログラムは、プログラムコマンドを含み、上記プロセッサーは、上記プログラムコマンドを実行すると、上記図3ないし図10に対応する実施例における上記データ処理方法の説明を実行させることができるので、ここではこれ以上の説明を省略する。また、同様の方法を用いた場合の有益な効果の説明についても、これ以上の説明を省略する。本願に係るコンピュータ可読記憶媒体の実施例に披露されていない技術的詳細については、本願の方法の実施例の説明を参照されたい。
前記コンピュータ可読記憶媒体は前記いずれかの実施例で提供されるビデオデータ処理装置又は前記コンピュータ機器の内部記憶ユニット、例えばコンピュータ機器のハードディスク又はメモリであってもよい。当該コンピュータ可読記憶媒体は、当該コンピュータ機器の外部記憶デバイス、例えば当該コンピュータ機器に搭載されたプラグインハードディスク、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、Flashカードなどであってもよい。さらに、当該コンピュータ可読記憶媒体は当該コンピュータ機器の内部記憶ユニットと外部記憶デバイスの両方を備えてもよい。当該コンピュータ可読記憶媒体は当該コンピュータプログラム、及び当該コンピュータ機器に必要な他のプログラムおよびデータを格納する。当該コンピュータ可読記憶媒体はさらに出力されたデータまたは出力しようとするデータを一時的に格納することができる。
本発明の明細書及び特許請求の範囲と図面に用いられた「第1」、「第2」等の用語は異なる対象を区別するためのもので、特定の順又は前後順を限定するものではない。そして、「含む」、及びそれらの変形用語は、非排他的に含むことをカバーするもので、例えば、一連のステップ又はユニットを含むプロセス、方法、装置、製品又は機器が例示されたステップ又はユニットに限定されず、例示されていないステップ又はユニット、又はこれらのプロセス、方法、装置、製品又は機器固有の他のステップ又はユニットも含む。
当業者は、本明細書に開示されている実施例で説明された例と合わせて説明されたユニットおよびアルゴリズムステップが、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得ることを認識し得る。ハードウェアとソフトウェアとの間の互換性を明確に説明するために、以上の説明において、一般的に機能に従って各例の構成およびステップを説明した。これらの機能がハードウェアとソフトウェアのどちらによって実行されるかは、技術的解決策の特定の用途および設計制約条件に依存する。当業者は、特定の用途ごとに、説明された機能を実施するために異なる方法を使用し得るが、その実施は本出願の範囲を超えると考えられるべきではない。
本出願の実施例で提供される方法、及び関連装置は、本出願の実施例で提供される方法フローチャート及び/又は構成概略図を参照して説明され、具体的に、コンピュータプログラムコマンドにより方法フローチャート及び/又は構成概略図の各流れ及び/又はブロック、及びフローチャート及び/又はブロック図の流れ及び/又はブロックの組み合わせを実現する。これらのコンピュータプログラムコマンドを汎用コンピュータ、専用コンピュータ、組み込みプロセッサー又はその他のプログラム可能データ処理装置のプロセッサーに提供して一つの機器を生成することができ、それによってコンピュータ又は他のプログラム可能データ処理装置のプロセッサーで実行されるコマンドによりフローチャートにおける一つのフロー又は複数のフロー及び/又はブロック図における一つのブロック又は複数のブロックに指定された機能を実現するための装置を生成する。これらのコンピュータプログラムコマンドは特定の方式で動作するようにコンピュータ又は他のプログラム可能なデータ処理装置を指示することができるコンピュータ読み取り可能なメモリに記憶されてもよく、それによって該コンピュータ読み取り可能なメモリに記憶されたコマンドによりコマンド装置を含む製造品を生成し、該コマンド装置はフローチャートにおける一つのフロー又は複数のフロー及び/又はブロック図における一つのブロック又は複数のブロックに指定された機能を実現する。これらのコンピュータプログラムコマンドはコンピュータ又は他のプログラム可能なデータ処理装置にロードされてもよく、コンピュータ又は他のプログラム可能な装置で一連の動作ステップを実行してコンピュータで実現される処理を発生させ、それによってコンピュータ又は他のプログラム可能な装置で実行されるコマンドはフローチャートにおける一つのフロー又は複数のフロー及び/又はブロック図における一つのブロック又は複数のブロックに指定された機能を実現するためのステップを提供する。
前述の開示は、本出願の単なるいくつかの実施例であり、確かに、本出願の保護範囲を限定することを意図するものではない。従って、本出願の請求の範囲に従って行われた同等の変形は、本出願の範囲に含まれるものとする。

Claims (16)

  1. ビデオデータ処理方法であって、
    ターゲットビデオのビデオ特徴を取得するステップであって、前記ビデオ特徴は背景特徴及びキーパーツ領域特徴を含むステップと、
    前記ターゲットビデオに対応するキーパーツ期待品質を取得するステップであって、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値であるステップと、
    前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するステップであって、前記背景予測トランスコーディングパラメータは背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値であるステップと、
    前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するステップと、
    前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするステップと、を含む、方法。
  2. 前記ターゲットビデオのビデオ特徴を取得するステップは、
    ターゲットビデオを取得し、前記ターゲットビデオにキーパーツ領域を決定するステップと、
    特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するステップを含む、請求項1に記載の方法。
  3. 前記背景特徴は、解像度、ビットレート、フレームレート、参照フレーム、ピーク信号対雑音比PSNR、構造的類似性指数SSIM、ビデオマルチメソッドアセスメントフュージョンVMAFのうちの1つまたは複数を含み、
    前記キーパーツ領域特徴は、キーパーツ領域のピーク信号対雑音比PSNR、キーパーツ領域の構造的類似性指数SSIM、キーパーツ領域のビデオマルチメソッドアセスメントフュージョンVMAF、ビデオフレームの総数におけるキーパーツフレームの数に対するキーパーツが現れるキービデオフレームの数の比、キービデオフレームの総面積のキーパーツ面積に対するキーパーツが現れるキービデオフレームにおけるキーパーツ領域の面積の比、キーパーツ領域の平均ビットレートのうちの1つまたは複数を含む、請求項2に記載の方法。
  4. 特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するステップは、
    特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するステップと、
    前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するステップと、
    前記特徴符号化パラメータに応じて、前記キービデオフレーム及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するステップと、を含む、請求項2に記載の方法。
  5. 前記特徴符号化パラメータに応じて前記キービデオフレーム及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するステップは、
    特徴符号化パラメータに応じて、前記キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得するステップと、
    前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数のキーパーツフレーム数比を決定するステップと、
    前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するステップと、
    前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するステップとを含む、請求項4に記載の方法。
  6. 前記ターゲットビデオを取得するステップは、
    初期ビデオを取得するステップと、
    前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するステップと、
    前記シーンスイッチングフレームに応じて、前記初期ビデオを少なくとも2つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップにおいてターゲットビデオクリップを、前記ターゲットビデオとして取得するステップとを含む、請求項2に記載の方法。
  7. 前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するステップは、
    前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルによって少なくとも2つの初期トランスコーディングパラメータ予測値を出力するステップであって、前記初期トランスコーディングパラメータ予測値のそれぞれは、異なるキーパーツ品質標準値に対応するステップと、
    前記キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するステップとを含む、請求項1に記載の方法。
  8. 前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルによって少なくとも2つの初期トランスコーディングパラメータ予測値を出力するステップは、
    前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、前記トランスコーディングパラメータ予測モデルの全結合層に入力し、前記全結合層に融合特徴を生成するステップと、
    少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するステップと、
    前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定することを含む、請求項7に記載の方法。
  9. 前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するステップは、
    前記キーパーツ期待品質と前記キーパーツ品質標準値集合とをマッチングするステップと、
    前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも2つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するステップと、
    前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数、及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するステップと、を含む、請求項8に記載の方法。
  10. 前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定するステップは、
    前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値のうち、最小キーパーツ品質標準値を決定するステップと、
    前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するステップと、
    前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するステップと、
    前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するステップと、を含む、請求項9に記載の方法。
  11. トレーニングすべきトランスコーディングパラメータ予測モデルを取得するステップと、
    サンプルビデオのサンプルビデオ特徴、及び少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するステップと、
    前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するステップと、
    ラベルマッピング表から、前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するステップと、
    前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するステップと、
    前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしている場合、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるステップと、
    前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていない場合、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するステップと、をさらに含む、請求項1に記載の方法。
  12. 複数の背景テストトランスコーディングパラメータ、及び複数のキーパーツテストトランスコーディングパラメータを取得するステップと、
    前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれの下で、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれ対応するキーパーツテスト品質を取得するステップと、
    前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するステップと、をさらに含む、請求項11に記載の方法。
  13. 前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含む場合、前記ラベルマッピング表内の当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを決定し、当該キーパーツテストトランスコーディングパラメータを前記キーパーツ標準トランスコーディングパラメータラベルとするステップと、
    前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するステップと、を含む、請求項12に記載の方法。
  14. ビデオデータ処理装置であって
    請求項1~13のいずれか1項に記載の方法を実行するビデオデータ処理装置。
  15. プロセッサー及びメモリを含むコンピュータ機器であって、
    前記メモリにコンピュータプログラムが記憶されており、前記コンピュータプログラムは、前記プロセッサーによって実行されると、請求項1~13のいずれか1項に記載の方法のステップを前記プロセッサーに実行させるコンピュータ機器。
  16. プログラムコマンドを含むコンピュータプログラムであって、前記プログラムコマンドは、プロセッサーによって実行されると、請求項1~13のいずれか1項に記載の方法を実行させるコンピュータプログラム。
JP2022533403A 2020-02-24 2020-11-05 ビデオデータ処理方法、装置、機器及びコンピュータプログラム Active JP7427090B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010112208.8 2020-02-24
CN202010112208.8A CN111277827B (zh) 2020-02-24 2020-02-24 一种视频数据处理方法、装置、设备以及可读存储介质
PCT/CN2020/126740 WO2021169392A1 (zh) 2020-02-24 2020-11-05 视频数据处理方法、装置、设备以及可读存储介质

Publications (2)

Publication Number Publication Date
JP2023509301A true JP2023509301A (ja) 2023-03-08
JP7427090B2 JP7427090B2 (ja) 2024-02-02

Family

ID=71000469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022533403A Active JP7427090B2 (ja) 2020-02-24 2020-11-05 ビデオデータ処理方法、装置、機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11871017B2 (ja)
EP (1) EP4024862A4 (ja)
JP (1) JP7427090B2 (ja)
CN (1) CN111277827B (ja)
WO (1) WO2021169392A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277827B (zh) 2020-02-24 2022-12-20 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及可读存储介质
CN112653892B (zh) * 2020-12-18 2024-04-23 杭州当虹科技股份有限公司 一种利用视频特征实现转码测试评估的方法
CN113784118A (zh) * 2021-09-14 2021-12-10 广州博冠信息科技有限公司 视频质量评估方法及装置、电子设备和存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2353655B (en) * 1999-08-26 2003-07-23 Sony Uk Ltd Signal processor
US8693537B2 (en) 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US7672524B2 (en) 2006-03-02 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Quality control for image transcoding
CN101583036B (zh) * 2009-06-22 2010-11-17 浙江大学 像素域视频转码中确定运动特征和高效编码模式关系的方法
US8345749B2 (en) * 2009-08-31 2013-01-01 IAD Gesellschaft für Informatik, Automatisierung und Datenverarbeitung mbH Method and system for transcoding regions of interests in video surveillance
US20170337711A1 (en) * 2011-03-29 2017-11-23 Lyrical Labs Video Compression Technology, LLC Video processing and encoding
CN103220550B (zh) * 2012-01-19 2016-12-07 华为技术有限公司 视频转换的方法及装置
CN103024445B (zh) * 2012-12-13 2016-06-29 北京百度网讯科技有限公司 云端的视频转码方法和云服务器
US9924164B2 (en) * 2013-01-03 2018-03-20 Disney Enterprises, Inc. Efficient re-transcoding of key-frame-aligned unencrypted assets
GB201312382D0 (en) * 2013-07-10 2013-08-21 Microsoft Corp Region-of-interest aware video coding
CN105187835B (zh) * 2014-05-30 2019-02-15 阿里巴巴集团控股有限公司 基于内容的自适应视频转码方法及装置
CA2967495C (en) * 2014-12-15 2021-06-08 Miovision Technologies Incorporated System and method for compressing video data
CN105306960B (zh) * 2015-10-18 2018-05-04 北京航空航天大学 一种用于传输高质量在线课程视频的动态自适应流系统
JP2018139349A (ja) 2017-02-24 2018-09-06 沖電気工業株式会社 映像処理装置及び映像処理プログラム
US10469854B2 (en) * 2017-06-21 2019-11-05 Intel Corporation Content, psychovisual, region of interest, and persistence based adaptive quantization for video coding
KR101978922B1 (ko) * 2017-11-30 2019-05-15 광운대학교 산학협력단 관심 영역과 배경프레임 개별 전송을 이용한 고화질 360도 영상 스트리밍 방법
CN108600863A (zh) * 2018-03-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体文件处理方法和装置、存储介质及电子装置
US11178373B2 (en) * 2018-07-31 2021-11-16 Intel Corporation Adaptive resolution of point cloud and viewpoint prediction for video streaming in computing environments
EP3808086A1 (en) * 2018-08-14 2021-04-21 Huawei Technologies Co., Ltd. Machine-learning-based adaptation of coding parameters for video encoding using motion and object detection
CN109729384B (zh) * 2018-12-18 2021-11-19 广州市百果园信息技术有限公司 视频转码的选择方法和装置
CN110022463A (zh) * 2019-04-11 2019-07-16 重庆紫光华山智安科技有限公司 动态场景下实现视频感兴趣区域智能编码方法及系统
US11404044B2 (en) * 2019-05-14 2022-08-02 Samsung Electronics Co., Ltd. Method, apparatus, electronic device, and computer readable storage medium for voice translation
US11263261B2 (en) * 2020-02-14 2022-03-01 Alibaba Group Holding Limited Method and system for characteristic-based video processing
CN111277827B (zh) * 2020-02-24 2022-12-20 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及可读存储介质

Also Published As

Publication number Publication date
WO2021169392A1 (zh) 2021-09-02
CN111277827A (zh) 2020-06-12
US11871017B2 (en) 2024-01-09
US20220248040A1 (en) 2022-08-04
EP4024862A1 (en) 2022-07-06
CN111277827B (zh) 2022-12-20
JP7427090B2 (ja) 2024-02-02
EP4024862A4 (en) 2022-12-21

Similar Documents

Publication Publication Date Title
CN111479112B (zh) 一种视频编码方法、装置、设备和存储介质
JP7427090B2 (ja) ビデオデータ処理方法、装置、機器及びコンピュータプログラム
TWI826321B (zh) 提高影像品質的方法
KR102235590B1 (ko) 비디오를 처리하기 위한 방법 및 장치
WO2020258668A1 (zh) 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备
CN112543342B (zh) 虚拟视频直播处理方法及装置、存储介质、电子设备
CN111768425B (zh) 图像处理方法、装置及设备
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN113592985B (zh) 混合变形值的输出方法及装置、存储介质、电子装置
US11451858B2 (en) Method and system of processing information flow and method of displaying comment information
CN111402399A (zh) 人脸驱动和直播方法、装置、电子设备及存储介质
CN110969572B (zh) 换脸模型训练方法、人脸互换方法、装置及电子设备
WO2020103674A1 (zh) 自然语言描述信息的生成方法及装置
CN110248195B (zh) 用于输出信息的方法和装置
CN103929640A (zh) 用于管理视频流播的技术
CN114897189A (zh) 模型训练方法、视频编码方法及解码方法
CN107205150A (zh) 编码方法及装置
CN113409803A (zh) 语音信号处理方法、装置、存储介质及设备
CN115228081A (zh) 虚拟场景切换方法及装置
CN114422795A (zh) 一种面部视频编码方法、解码方法及装置
US10764578B2 (en) Bit rate optimization system and method
CN113207040A (zh) 一种视频远程快速回放的数据处理方法、装置及系统
CN116596752B (zh) 脸部图像替换方法、装置、设备及存储介质
CN113689532B (zh) 基于语音数据重建虚拟角色的方法及装置
CN108234065B (zh) 增强现实内容传输方法和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240123

R150 Certificate of patent or registration of utility model

Ref document number: 7427090

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150