JP2023509301A - ビデオデータ処理方法、装置、機器及びコンピュータプログラム - Google Patents
ビデオデータ処理方法、装置、機器及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023509301A JP2023509301A JP2022533403A JP2022533403A JP2023509301A JP 2023509301 A JP2023509301 A JP 2023509301A JP 2022533403 A JP2022533403 A JP 2022533403A JP 2022533403 A JP2022533403 A JP 2022533403A JP 2023509301 A JP2023509301 A JP 2023509301A
- Authority
- JP
- Japan
- Prior art keywords
- key part
- video
- transcoding
- quality
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000004590 computer program Methods 0.000 title claims description 16
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012360 testing method Methods 0.000 claims description 146
- 238000013507 mapping Methods 0.000 claims description 77
- 230000006870 function Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 20
- 238000012886 linear function Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 18
- 238000013442 quality metrics Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 32
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
- H04N19/126—Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
Description
ターゲットビデオのビデオ特徴を取得し、前期ビデオ特徴は背景特徴及びキーパーツ領域特徴を含み、
前記ターゲットビデオに対応するキーパーツ期待品質を取得し、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値であり、
前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定し、前記背景予測トランスコーディングパラメータは、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値である背景期待品質にマッチングし、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし、且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定し、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングすることを含む。
ターゲットビデオのビデオ特徴を取得するために用いられ、前記ビデオ特徴は、背景特徴及びキーパーツ領域特徴を含む特徴取得モジュールと、
前記ターゲットビデオに対応するキーパーツ期待品質を取得するために用いられ、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値である品質取得モジュールと、
前記背景特徴に基づいて、前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するために用いられ、前記背景予測トランスコーディングパラメータは、背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値であるトランスコーディングパラメータ決定モジュールと、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するための予測値決定モジュールと、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするためのビデオトランスコーディングモジュールと、を含む。
ターゲットビデオを取得するためのターゲットビデオ取得ユニットと、
前記ターゲットビデオにおいてキーパーツ領域を取得するためのキーパーツ領域取得ユニットと、
特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記のターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するためのビデオ仮符号化ユニットと、を含む。
前記キーパーツ領域特徴は、キーパーツ領域のピーク信号対雑音比PSNR、キーパーツ領域の構造的類似性指数SSIM、キーパーツ領域のビデオマルチメソッドアセスメントフュージョンVMAF、ビデオフレームの総数におけるキーパーツフレームの数に対するキーパーツが現れるキービデオフレームの数の比、キービデオフレームの総面積のキーパーツ面積に対するキーパーツが現れるキービデオフレームにおけるキーパーツ領域の面積の比、キーパーツ領域の平均ビットレートのうちの1つまたは複数を含む。
前記特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するための符号化パラメータ取得サブユニットと、
前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するためのキービデオフレーム決定サブユニットと、
前記特徴符号化パラメータに応じて、前記キービデオフレーム、及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するためのキーパーツ領域特徴決定サブユニットと、を含む。
前記キーパーツ領域特徴決定サブユニットは、さらに、前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数におけるキーパーツフレーム数比を決定するために用いられ、
前記キーパーツ領域特徴決定サブユニットは、さらに、前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するために用いられ、
前記キーパーツ領域特徴決定サブユニットは、さらに、前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するために用いられる。
初期ビデオを取得するための初期ビデオ取得サブユニットと
前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するためのスイッチングフレーム決定サブユニットと、
前記シーンスイッチングフレームに応じて、前記初期ビデオを、少なくとも2つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップのうちターゲットビデオクリップを、前記ターゲットビデオとして取得するためのビデオセグメント化サブユニットとを含む。
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより、少なくとも2つの初期トランスコーディングパラメータ予測値を出力するために用いられ、前記初期トランスコーディングパラメータ予測値のそれぞれは、異なるキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値出力ユニットと、
キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するためのターゲットトランスコーディングパラメータ予測値決定ユニットとを含む。
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルの全結合層に入力し、前記全結合層に融合特徴を生成するための融合特徴生成サブユニットと、
少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するための標準値取得サブユニットと、
前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定するための初期トランスコーディングパラメータ予測値決定サブユニットと、を含む。
前記キーパーツ期待品質と前記キーパーツ品質標準値集合とをマッチングするための品質マッチングサブユニットと、
前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも2つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するためのターゲットトランスコーディングパラメータ予測値決定サブユニットと、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するために用いられ、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するために用いられ、
前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するために用いられる。
サンプルビデオのサンプルビデオ特徴、及び少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するためのサンプル取得モジュールと、
前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するためのサンプル予測値出力モジュールと、
ラベルマッピング表から、前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するためのトランスコーディングパラメータラベル取得モジュールと、
前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するためのトランスコーディングパラメータ予測誤差決定モジュールと、
前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしている場合、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるためのトレーニング完了モジュールと、
前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていない場合、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するためのパラメータ調整モジュールと、をさらに含む。
前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれにおいて、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれに対応するキーパーツテスト品質を取得するためのテスト品質決定モジュールと、
前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するためのマッピング表構築モジュールとを含む。
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するために用いられる。
その中で、
(外1)
はキーパーツ期待品質
(外2)
に対応するターゲットトランスコーディングパラメータ予測値であり、
(外3)
はキーパーツ期待品質よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値であり、
(外4)
はキーパーツ期待品質よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値であり、
(外5)
はキーパーツ期待品質よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、
(外6)
はキーパーツ期待品質よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値である。
(外2)
は88であり、キーパーツ期待品質88をキーパーツ品質標準値集合{85、86、89、92}とマッチングするマッチング結果、当該キーパーツ品質標準値集合に当該キーパーツ期待品質88と同じ値が存在しないことになり、当該キーパーツ品質標準値集合{85、86、89、92}において取得されたキーパーツ期待品質88よりも大きいキーパーツ品質標準値は89、92であり、なお、89は92よりも小さいので、キーパーツ品質標準値89を、当該キーパーツ期待品質88よりも大きいキーパーツ品質標準値のうちの最小キーパーツ品質標準値として決定する。つまり、前記数式(1)における
(外3)
は89であり、当該キーパーツ品質標準値集合{85、86、89、92}において取得されたキーパーツ期待品質88よりも小さいキーパーツ品質標準値は85、86であり、86は85よりも大きいので、キーパーツ品質標準値86を、当該キーパーツ期待品質88よりも小さいキーパーツ品質標準値のうちの最大キーパーツ品質標準値として決定する。つまり、前記数式(1)における
(外4)
は86であり、当該キーパーツ品質標準値集合{85、86、89、92}において、当該キーパーツ品質標準値86とキーパーツ品質標準値89とは、キーパーツ期待品質88に最も近い大小の2つの値であることが分かる。取得されたキーパーツ品質標準値86に対応する初期トランスコーディングパラメータ予測値は30であり、つまり、前記数式(1)における
(外6)
は30であり、キーパーツ品質標準値89に対応する初期トランスコーディングパラメータ予測値は40であり、つまり、前記数式(1)における
(外5)
は40である。前記数式(1)に従って、キーパーツ期待品質88に対応するターゲットトランスコーディングパラメータ予測値
(外3)
は当該最大キーパーツ品質標準値であり、前記数式(1)における
(外4)
は当該2番目に大きいキーパーツ品質標準値であり、前記数式(1)における
(外5)
は、当該最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、前記数式(1)における
(外6)
は当該2番目に大きいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であることを理解されたい。当該キーパーツ期待品質が当該キーパーツ品質標準値集合における最小キーパーツ品質標準値よりも小さい場合、当該キーパーツ品質標準値集合において、最大キーパーツ品質標準値、及び2番目に小さいキーパーツ品質標準値を取得し、当該最小キーパーツ品質標準値、当該最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、当該2番目に小さいキーパーツ品質標準値、及び当該2番目に小さいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を取得して、線形関数を決定し、さらに、線形関数に応じてターゲットトランスコーディングパラメータ予測値を決定し、つまり、前記数式(1)における
(外3)
は当該2番目に小さいキーパーツ品質標準値であり、前記数式(1)における
(外4)
は当該最小キーパーツ品質標準値であり、前記数式(1)における
(外5)
は当該2番目に小さいキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値であり、前記数式(1)における
(外6)
は、当該最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値である。例えば、トランスコーディングパラメータ予測モデルによって出力される初期トランスコーディングパラメータ予測値は20、30、40、50であることを例として、初期トランスコーディングパラメータ予測値20はキーパーツ品質標準値85に対応し、初期トランスコーディングパラメータ予測値30はキーパーツ品質標準値86に対応し、初期トランスコーディングパラメータ予測値40はキーパーツ品質標準値89に対応し、初期トランスコーディングパラメータ予測値50はキーパーツ品質標準値92に対応し、キーパーツ品質標準値集合は{85、86、89、92}となることが分かる。取得されたキーパーツ期待品質は94であり、つまり、前記数式(1)における
(外2)
は94である。キーパーツ期待品質94をキーパーツ品質標準値集合{85、86、89、92}とマッチングしたマッチング結果、当該キーパーツ品質標準値集合{85、86、89、92}に当該キーパーツ期待品質94と同じ値がなく、且つ当該キーパーツ期待品質94が当該キーパーツ品質標準値集合{85、86、89、92}における最大キーパーツ品質標準値92よりも大きいことである。取得できた当該キーパーツ品質標準値集合{85、86、89、92}における最大キーパーツ品質標準値は92であり、2番目に大きいキーパーツ品質標準値は89であり、89を前記数式(1)における
(外4)
に代入し、92を前記数式(1)における
(外3)
に代入し、キーパーツ品質標準値89に対応する初期トランスコーディングパラメータ予測値は40であり、キーパーツ品質標準値92に対応する初期トランスコーディングパラメータ予測値は50であるため、40を前記数式(1)における
(外6)
に代入し、50を前記数式(1)における
(外5)
に代入し、前記数式(1)に従って、取得されたキーパーツ期待品質94に対応するターゲットトランスコーディングパラメータ予測値は
となり、即ち、
である
特徴取得モジュール11は、ターゲットビデオのビデオ特徴を取得するために用いられ、前期ビデオ特徴は背景特徴及びキーパーツ領域特徴を含む。
品質取得モジュール12は、前記ターゲットビデオに対応するキーパーツ期待品質を取得するために用いられ、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値である。
トランスコーディングパラメータ決定モジュール13は、前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するために用いられ、前記背景予測トランスコーディングパラメータは背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値である。
予測値決定モジュール14は、前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし、且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
ビデオトランスコーディングモジュール15は、前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするために用いられる。
ターゲットビデオ取得ユニット111は、ターゲットビデオを取得するために用いられる。
キーパーツ領域取得ユニット112は、前記ターゲットビデオにおいてキーパーツ領域を取得するために用いられる。
ビデオ仮符号化ユニット113は、特徴符号化パラメータ、及び前記キーパーツ領域に応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得することができる。
符号化パラメータ取得サブユニット1131は、前記特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するために用いられる。
キービデオフレーム決定サブユニット1132は、前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するために用いられる。
キーパーツ領域特徴決定サブユニット1133は、前記特徴符号化パラメータに応じて、前記キービデオフレーム、及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するために用いられる。
前記キーパーツ領域特徴決定サブユニット1133は、さらに、前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数におけるキーパーツフレーム数比を決定するために用いられる。
前記キーパーツ領域特徴決定サブユニット1133は、さらに、前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するために用いられる。
前記キーパーツ領域特徴決定サブユニット1133は、さらに、前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するために用いられる。
スイッチングフレーム決定サブユニット1112は、前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するために用いられる。
ビデオセグメント化サブユニット1113は、前記シーンスイッチングフレームに応じて、前記初期ビデオを、少なくとも2つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップのうちターゲットビデオクリップを、前記ターゲットビデオとして取得するために用いられる。
ターゲットトランスコーディングパラメータ予測値決定ユニット142は、キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
標準値取得サブユニット1412は、少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するために用いられる。
初期トランスコーディングパラメータ予測値決定サブユニット1413は、前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定するために用いられる。
ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも2つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記ターゲットトランスコーディングパラメータ予測値決定サブユニットは、さらに、前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数、及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するために用いられる。
前記ターゲットトランスコーディングパラメータ予測値決定サブユニット1422は、さらに、前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するために用いられる。
サンプル取得モジュール17は、サンプルビデオのサンプルビデオ特徴、及び少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するために用いられる。
サンプル予測値出力モジュール18は、前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するために用いられる。
トランスコーディングパラメータラベル取得モジュール19は、ラベルマッピング表から、前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するために用いられる。
トランスコーディングパラメータ予測誤差決定モジュール20は、前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するために用いられる。
トレーニング完了モジュール21は、前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしていると、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるために用いられる。
パラメータ調整モジュール22は、前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていないと、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するために用いられる。
テスト品質決定モジュール24は、前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれの下で、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれに対応するキーパーツテスト品質を取得するために用いられる。
マッピング表構築モジュール25は、前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するために用いられる。
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するために用いられる。
ターゲットビデオのビデオ特徴を取得し、前記ビデオ特徴は、背景特徴及びキーパーツ領域特徴を含み、
前記ターゲットビデオに対応するキーパーツ期待品質を取得し、
前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定し、
前記背景特徴、前記キーパーツ領域特徴及び前記背景予測トランスコーディングパラメータに応じて、前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定し、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオにおけるキーパーツ領域をトランスコーディングすることを実現させる。
Claims (16)
- ビデオデータ処理方法であって、
ターゲットビデオのビデオ特徴を取得するステップであって、前記ビデオ特徴は背景特徴及びキーパーツ領域特徴を含むステップと、
前記ターゲットビデオに対応するキーパーツ期待品質を取得するステップであって、前記キーパーツ期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオにおけるキーパーツの画質に対する期待値であるステップと、
前記背景特徴に基づいて前記ターゲットビデオの背景予測トランスコーディングパラメータを決定するステップであって、前記背景予測トランスコーディングパラメータは背景期待品質にマッチングし、前記背景期待品質は、前記ターゲットビデオをトランスコーディングした後に、トランスコーディングされたターゲットビデオ全体の画質に対する期待値であるステップと、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記背景期待品質を満たし且つ前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するステップと、
前記ターゲットトランスコーディングパラメータ予測値に応じて、前記ターゲットビデオをトランスコーディングするステップと、を含む、方法。 - 前記ターゲットビデオのビデオ特徴を取得するステップは、
ターゲットビデオを取得し、前記ターゲットビデオにキーパーツ領域を決定するステップと、
特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するステップを含む、請求項1に記載の方法。 - 前記背景特徴は、解像度、ビットレート、フレームレート、参照フレーム、ピーク信号対雑音比PSNR、構造的類似性指数SSIM、ビデオマルチメソッドアセスメントフュージョンVMAFのうちの1つまたは複数を含み、
前記キーパーツ領域特徴は、キーパーツ領域のピーク信号対雑音比PSNR、キーパーツ領域の構造的類似性指数SSIM、キーパーツ領域のビデオマルチメソッドアセスメントフュージョンVMAF、ビデオフレームの総数におけるキーパーツフレームの数に対するキーパーツが現れるキービデオフレームの数の比、キービデオフレームの総面積のキーパーツ面積に対するキーパーツが現れるキービデオフレームにおけるキーパーツ領域の面積の比、キーパーツ領域の平均ビットレートのうちの1つまたは複数を含む、請求項2に記載の方法。 - 特徴符号化パラメータ及び前記キーパーツ領域に応じて、前記ターゲットビデオを仮符号化することで、前記ターゲットビデオに対応する背景特徴及びキーパーツ領域特徴を取得するステップは、
特徴符号化パラメータを取得し、前記特徴符号化パラメータに応じて前記ターゲットビデオを仮符号化することで、前記ターゲットビデオの背景特徴を取得するステップと、
前記ターゲットビデオのビデオフレームのうち、キーパーツ領域を含むビデオフレームをキービデオフレームとして決定するステップと、
前記特徴符号化パラメータに応じて、前記キービデオフレーム及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するステップと、を含む、請求項2に記載の方法。 - 前記特徴符号化パラメータに応じて前記キービデオフレーム及び前記キーパーツ領域を仮符号化することで、前記ターゲットビデオのキーパーツ領域特徴を取得するステップは、
特徴符号化パラメータに応じて、前記キービデオフレームを仮符号化することで、キービデオフレームの基本属性を取得するステップと、
前記ターゲットビデオのビデオフレームの総数、及び前記キービデオフレームの総数を取得し、前記キービデオフレームの総数に対する前記ターゲットビデオのビデオフレームの総数のキーパーツフレーム数比を決定するステップと、
前記キービデオフレームにおけるキーパーツ領域の面積、及び前記キービデオフレームの総面積を取得し、前記キービデオフレームの総面積に対する前記キーパーツ領域の面積のキーパーツ面積比を決定するステップと、
前記キービデオフレームの基本属性、前記キーパーツフレーム数比、及び前記キーパーツ面積比を、前記キーパーツ領域特徴として決定するステップとを含む、請求項4に記載の方法。 - 前記ターゲットビデオを取得するステップは、
初期ビデオを取得するステップと、
前記初期ビデオをセッション特徴エンコーダに入力し、前記セッション特徴エンコーダにおいて前記初期ビデオのシーンスイッチングフレームを決定するステップと、
前記シーンスイッチングフレームに応じて、前記初期ビデオを少なくとも2つの異なるシーンのそれぞれに対応するビデオクリップにセグメント化し、前記ビデオクリップにおいてターゲットビデオクリップを、前記ターゲットビデオとして取得するステップとを含む、請求項2に記載の方法。 - 前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータに応じて、前記キーパーツ期待品質にマッチングするターゲットトランスコーディングパラメータ予測値を決定するステップは、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルによって少なくとも2つの初期トランスコーディングパラメータ予測値を出力するステップであって、前記初期トランスコーディングパラメータ予測値のそれぞれは、異なるキーパーツ品質標準値に対応するステップと、
前記キーパーツ期待品質を取得し、前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するステップとを含む、請求項1に記載の方法。 - 前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルによって少なくとも2つの初期トランスコーディングパラメータ予測値を出力するステップは、
前記背景特徴、前記キーパーツ領域特徴、及び前記背景予測トランスコーディングパラメータを、前記トランスコーディングパラメータ予測モデルの全結合層に入力し、前記全結合層に融合特徴を生成するステップと、
少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するステップと、
前記融合特徴に応じて、前記キーパーツ品質標準値のそれぞれに対応する初期トランスコーディングパラメータ予測値を決定することを含む、請求項7に記載の方法。 - 前記初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記キーパーツ期待品質に対応するターゲットトランスコーディングパラメータ予測値を決定するステップは、
前記キーパーツ期待品質と前記キーパーツ品質標準値集合とをマッチングするステップと、
前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在する場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記少なくとも2つの初期トランスコーディングパラメータ予測値のうち、前記キーパーツ期待品質と同じキーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を、前記ターゲットトランスコーディングパラメータ予測値として決定するステップと、
前記キーパーツ品質標準値集合に前記キーパーツ期待品質と同じキーパーツ品質標準値が存在しない場合、前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定し、前記線形関数、及び前記キーパーツ期待品質に応じて、前記ターゲットトランスコーディングパラメータ予測値を決定するステップと、を含む、請求項8に記載の方法。 - 前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて線形関数を決定するステップは、
前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも大きいキーパーツ品質標準値のうち、最小キーパーツ品質標準値を決定するステップと、
前記キーパーツ品質標準値集合において、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値を取得し、前記キーパーツ期待品質よりも小さいキーパーツ品質標準値のうち、最大キーパーツ品質標準値を決定するステップと、
前記少なくとも2つの初期トランスコーディングパラメータ予測値と前記キーパーツ品質標準値との間のマッピング関係に応じて、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値を決定するステップと、
前記最大キーパーツ品質標準値、前記最大キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値、前記最小キーパーツ品質標準値及び前記最小キーパーツ品質標準値に対応する初期トランスコーディングパラメータ予測値に応じて、前記線形関数を決定するステップと、を含む、請求項9に記載の方法。 - トレーニングすべきトランスコーディングパラメータ予測モデルを取得するステップと、
サンプルビデオのサンプルビデオ特徴、及び少なくとも2つのキーパーツ品質標準値を含むキーパーツ品質標準値集合を取得するステップと、
前記サンプルビデオ特徴を前記トランスコーディングパラメータ予測モデルに入力し、前記トランスコーディングパラメータ予測モデルにより前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するサンプル初期トランスコーディングパラメータ予測値を出力するステップと、
ラベルマッピング表から、前記少なくとも2つのキーパーツ品質標準値のそれぞれに対応するキーパーツ標準トランスコーディングパラメータラベルを取得するステップと、
前記サンプル初期トランスコーディングパラメータ予測値、及び前記キーパーツ標準トランスコーディングパラメータラベルに応じて、トランスコーディングパラメータ予測誤差を決定するステップと、
前記トランスコーディングパラメータ予測誤差がモデル収束条件を満たしている場合、前記トランスコーディングパラメータ予測モデルのトレーニングを完了させるステップと、
前記トランスコーディングパラメータ予測誤差が前記モデル収束条件を満たしていない場合、前記トランスコーディングパラメータ予測モデルにおけるモデルパラメータを調整するステップと、をさらに含む、請求項1に記載の方法。 - 複数の背景テストトランスコーディングパラメータ、及び複数のキーパーツテストトランスコーディングパラメータを取得するステップと、
前記サンプルビデオ特徴をラベル特徴エンコーダに入力し、前記ラベル特徴エンコーダにおいて、前記複数の背景テストトランスコーディングパラメータ、及び前記複数のキーパーツテストトランスコーディングパラメータに応じて、前記サンプルビデオ特徴をそれぞれ符号化することで、前記背景テストトランスコーディングパラメータのそれぞれの下で、異なる前記キーパーツテストトランスコーディングパラメータにそれぞれ対応するキーパーツテスト品質を取得するステップと、
前記キーパーツテスト品質と前記キーパーツテストトランスコーディングパラメータとの間のマッピング関係に応じて、前記ラベルマッピング表を構築するステップと、をさらに含む、請求項11に記載の方法。 - 前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含む場合、前記ラベルマッピング表内の当該キーパーツ品質標準値に対応するキーパーツテストトランスコーディングパラメータを決定し、当該キーパーツテストトランスコーディングパラメータを前記キーパーツ標準トランスコーディングパラメータラベルとするステップと、
前記構築されたラベルマッピング表におけるキーパーツテスト品質が前記少なくとも2つのキーパーツ品質標準値を含まない場合、前記構築されたラベルマッピング表におけるキーパーツテスト品質、及びキーパーツテストトランスコーディングパラメータに応じて、キーパーツ品質標準値に対応するキーパーツトランスコーディングパラメータを、キーパーツ標準トランスコーディングパラメータラベルとして決定するステップと、を含む、請求項12に記載の方法。 - ビデオデータ処理装置であって
請求項1~13のいずれか1項に記載の方法を実行するビデオデータ処理装置。 - プロセッサー及びメモリを含むコンピュータ機器であって、
前記メモリにコンピュータプログラムが記憶されており、前記コンピュータプログラムは、前記プロセッサーによって実行されると、請求項1~13のいずれか1項に記載の方法のステップを前記プロセッサーに実行させるコンピュータ機器。 - プログラムコマンドを含むコンピュータプログラムであって、前記プログラムコマンドは、プロセッサーによって実行されると、請求項1~13のいずれか1項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010112208.8 | 2020-02-24 | ||
CN202010112208.8A CN111277827B (zh) | 2020-02-24 | 2020-02-24 | 一种视频数据处理方法、装置、设备以及可读存储介质 |
PCT/CN2020/126740 WO2021169392A1 (zh) | 2020-02-24 | 2020-11-05 | 视频数据处理方法、装置、设备以及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023509301A true JP2023509301A (ja) | 2023-03-08 |
JP7427090B2 JP7427090B2 (ja) | 2024-02-02 |
Family
ID=71000469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022533403A Active JP7427090B2 (ja) | 2020-02-24 | 2020-11-05 | ビデオデータ処理方法、装置、機器及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11871017B2 (ja) |
EP (1) | EP4024862A4 (ja) |
JP (1) | JP7427090B2 (ja) |
CN (1) | CN111277827B (ja) |
WO (1) | WO2021169392A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111277827B (zh) | 2020-02-24 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法、装置、设备以及可读存储介质 |
CN112653892B (zh) * | 2020-12-18 | 2024-04-23 | 杭州当虹科技股份有限公司 | 一种利用视频特征实现转码测试评估的方法 |
CN113784118A (zh) * | 2021-09-14 | 2021-12-10 | 广州博冠信息科技有限公司 | 视频质量评估方法及装置、电子设备和存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2353655B (en) * | 1999-08-26 | 2003-07-23 | Sony Uk Ltd | Signal processor |
US8693537B2 (en) | 2005-03-01 | 2014-04-08 | Qualcomm Incorporated | Region-of-interest coding with background skipping for video telephony |
US7672524B2 (en) | 2006-03-02 | 2010-03-02 | Mitsubishi Electric Research Laboratories, Inc. | Quality control for image transcoding |
CN101583036B (zh) * | 2009-06-22 | 2010-11-17 | 浙江大学 | 像素域视频转码中确定运动特征和高效编码模式关系的方法 |
US8345749B2 (en) * | 2009-08-31 | 2013-01-01 | IAD Gesellschaft für Informatik, Automatisierung und Datenverarbeitung mbH | Method and system for transcoding regions of interests in video surveillance |
US20170337711A1 (en) * | 2011-03-29 | 2017-11-23 | Lyrical Labs Video Compression Technology, LLC | Video processing and encoding |
CN103220550B (zh) * | 2012-01-19 | 2016-12-07 | 华为技术有限公司 | 视频转换的方法及装置 |
CN103024445B (zh) * | 2012-12-13 | 2016-06-29 | 北京百度网讯科技有限公司 | 云端的视频转码方法和云服务器 |
US9924164B2 (en) * | 2013-01-03 | 2018-03-20 | Disney Enterprises, Inc. | Efficient re-transcoding of key-frame-aligned unencrypted assets |
GB201312382D0 (en) * | 2013-07-10 | 2013-08-21 | Microsoft Corp | Region-of-interest aware video coding |
CN105187835B (zh) * | 2014-05-30 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 基于内容的自适应视频转码方法及装置 |
CA2967495C (en) * | 2014-12-15 | 2021-06-08 | Miovision Technologies Incorporated | System and method for compressing video data |
CN105306960B (zh) * | 2015-10-18 | 2018-05-04 | 北京航空航天大学 | 一种用于传输高质量在线课程视频的动态自适应流系统 |
JP2018139349A (ja) | 2017-02-24 | 2018-09-06 | 沖電気工業株式会社 | 映像処理装置及び映像処理プログラム |
US10469854B2 (en) * | 2017-06-21 | 2019-11-05 | Intel Corporation | Content, psychovisual, region of interest, and persistence based adaptive quantization for video coding |
KR101978922B1 (ko) * | 2017-11-30 | 2019-05-15 | 광운대학교 산학협력단 | 관심 영역과 배경프레임 개별 전송을 이용한 고화질 360도 영상 스트리밍 방법 |
CN108600863A (zh) * | 2018-03-28 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 多媒体文件处理方法和装置、存储介质及电子装置 |
US11178373B2 (en) * | 2018-07-31 | 2021-11-16 | Intel Corporation | Adaptive resolution of point cloud and viewpoint prediction for video streaming in computing environments |
EP3808086A1 (en) * | 2018-08-14 | 2021-04-21 | Huawei Technologies Co., Ltd. | Machine-learning-based adaptation of coding parameters for video encoding using motion and object detection |
CN109729384B (zh) * | 2018-12-18 | 2021-11-19 | 广州市百果园信息技术有限公司 | 视频转码的选择方法和装置 |
CN110022463A (zh) * | 2019-04-11 | 2019-07-16 | 重庆紫光华山智安科技有限公司 | 动态场景下实现视频感兴趣区域智能编码方法及系统 |
US11404044B2 (en) * | 2019-05-14 | 2022-08-02 | Samsung Electronics Co., Ltd. | Method, apparatus, electronic device, and computer readable storage medium for voice translation |
US11263261B2 (en) * | 2020-02-14 | 2022-03-01 | Alibaba Group Holding Limited | Method and system for characteristic-based video processing |
CN111277827B (zh) * | 2020-02-24 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法、装置、设备以及可读存储介质 |
-
2020
- 2020-02-24 CN CN202010112208.8A patent/CN111277827B/zh active Active
- 2020-11-05 WO PCT/CN2020/126740 patent/WO2021169392A1/zh unknown
- 2020-11-05 JP JP2022533403A patent/JP7427090B2/ja active Active
- 2020-11-05 EP EP20921120.0A patent/EP4024862A4/en active Pending
-
2022
- 2022-04-19 US US17/723,857 patent/US11871017B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2021169392A1 (zh) | 2021-09-02 |
CN111277827A (zh) | 2020-06-12 |
US11871017B2 (en) | 2024-01-09 |
US20220248040A1 (en) | 2022-08-04 |
EP4024862A1 (en) | 2022-07-06 |
CN111277827B (zh) | 2022-12-20 |
JP7427090B2 (ja) | 2024-02-02 |
EP4024862A4 (en) | 2022-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111479112B (zh) | 一种视频编码方法、装置、设备和存储介质 | |
JP7427090B2 (ja) | ビデオデータ処理方法、装置、機器及びコンピュータプログラム | |
TWI826321B (zh) | 提高影像品質的方法 | |
KR102235590B1 (ko) | 비디오를 처리하기 위한 방법 및 장치 | |
WO2020258668A1 (zh) | 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备 | |
CN112543342B (zh) | 虚拟视频直播处理方法及装置、存储介质、电子设备 | |
CN111768425B (zh) | 图像处理方法、装置及设备 | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
CN113592985B (zh) | 混合变形值的输出方法及装置、存储介质、电子装置 | |
US11451858B2 (en) | Method and system of processing information flow and method of displaying comment information | |
CN111402399A (zh) | 人脸驱动和直播方法、装置、电子设备及存储介质 | |
CN110969572B (zh) | 换脸模型训练方法、人脸互换方法、装置及电子设备 | |
WO2020103674A1 (zh) | 自然语言描述信息的生成方法及装置 | |
CN110248195B (zh) | 用于输出信息的方法和装置 | |
CN103929640A (zh) | 用于管理视频流播的技术 | |
CN114897189A (zh) | 模型训练方法、视频编码方法及解码方法 | |
CN107205150A (zh) | 编码方法及装置 | |
CN113409803A (zh) | 语音信号处理方法、装置、存储介质及设备 | |
CN115228081A (zh) | 虚拟场景切换方法及装置 | |
CN114422795A (zh) | 一种面部视频编码方法、解码方法及装置 | |
US10764578B2 (en) | Bit rate optimization system and method | |
CN113207040A (zh) | 一种视频远程快速回放的数据处理方法、装置及系统 | |
CN116596752B (zh) | 脸部图像替换方法、装置、设备及存储介质 | |
CN113689532B (zh) | 基于语音数据重建虚拟角色的方法及装置 | |
CN108234065B (zh) | 增强现实内容传输方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7427090 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |