JP2021520082A - ビデオ符号化のための機械学習モデルの量子化パラメータに適用される非線形関数の使用 - Google Patents
ビデオ符号化のための機械学習モデルの量子化パラメータに適用される非線形関数の使用 Download PDFInfo
- Publication number
- JP2021520082A JP2021520082A JP2020545128A JP2020545128A JP2021520082A JP 2021520082 A JP2021520082 A JP 2021520082A JP 2020545128 A JP2020545128 A JP 2020545128A JP 2020545128 A JP2020545128 A JP 2020545128A JP 2021520082 A JP2021520082 A JP 2021520082A
- Authority
- JP
- Japan
- Prior art keywords
- block
- encoder
- machine learning
- training
- quantization parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 120
- 238000013139 quantization Methods 0.000 title claims abstract description 115
- 230000006870 function Effects 0.000 title claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 99
- 238000000034 method Methods 0.000 claims description 122
- 238000013527 convolutional neural network Methods 0.000 claims description 78
- 238000012887 quadratic function Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 73
- 230000009466 transformation Effects 0.000 description 38
- 238000000605 extraction Methods 0.000 description 30
- 238000006243 chemical reaction Methods 0.000 description 20
- 238000001914 filtration Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 13
- 238000005192 partition Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012886 linear function Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 101001016186 Homo sapiens Dystonin Proteins 0.000 description 8
- 101000832669 Rattus norvegicus Probable alcohol sulfotransferase Proteins 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 8
- 238000000844 transformation Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007616 round robin method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
- H04N19/126—Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/164—Feedback from the receiver or from the transmission channel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
λmode=0.85×2(QP-12)/3 (1)
λmode=0.85・QH263 2 (2)
rdmult=88・q2/24 (3)
λmode=0.12・QAV1 2/256 (4)
DISTORTION+λmode×RATE (5)
102 送信局
104 ネットワーク
106 受信局
200 コンピューティングデバイス
202 CPU
204 メモリ
206 データ
208 オペレーティングシステム
210 アプリケーションプログラム
212 バス
214 二次ストレージ
218 ディスプレイ
220 画像センシングデバイス
222 音声センシングデバイス
300 ビデオストリーム
302 ビデオシーケンス
304 隣接するフレーム
306 フレーム
308 セグメント
310 ブロック
400 エンコーダ
402 イントラ/インター予測段階
404 変換段階
406 量子化段階
408 エントロピー符号化段階
410 逆量子化段階
412 逆変換段階
414 再構築段階
416 ループフィルタリング段階
420 圧縮されたビットストリーム
500 デコーダ
502 エントロピー復号段階
504 逆量子化段階
506 逆変換段階
508 イントラ/インター予測段階
510 再構築段階
512 ループフィルタリング段階
514 後置フィルタリング段階
516 出力ビデオストリーム
600 フレームの一部
610 64×64のブロック
620 32×32のブロック
630 16×16のブロック
640 8×8のブロック
650 4×4のブロック
660 輝度ブロック
662 輝度ピクセル
670 色度ブロック
680 色度ブロック
690 色度ピクセル
700 例
702 ブロック
702-1 ブロック
702-2 ブロック
702-3 ブロック
702-4 ブロック
702-5 ブロック
702-6 ブロック
702-7 ブロック
702-8 ブロック
703 四分木
704-0 根ノード
704-1 ノード
704-2 ノード
800 プロセス
900 プロセス、例
902 画像ブロック
912 レート推定器
920 歪み推定器
1000 CNN
1002 ブロック
1003-A 分岐、特徴抽出層
1003-B 分岐、特徴抽出層
1003-C 分岐、特徴抽出層
1004 特徴マップ
1006 特徴マップ
1008 特徴マップ
1010 特徴マップ
1012 特徴マップ
1014 特徴マップ
1016 連結層
1018 分類器
1019 特徴マップ
1020 分類器
1021 特徴マップ
1022 分類器
1023 特徴マップ
1025 特徴マップ
1027 特徴マップ
1029 特徴マップ
1034 特徴マップ
1036 一点鎖線
1100 プロセス
1110 区切り
1112 訓練データ
1200 例
1202 非線形関数
1204 セグメント
1206 セグメント
1208 セグメント
1300 例
1310 グラフ
1312 曲線
1314 曲線
1316 第1の機械学習モデル
1320 グラフ
1324 曲線
1326 第2の機械学習モデル
1400 例
1402 領域
1404 フィルタ
1406 下位領域
1408 下位領域
1410 下位領域
1412 下位領域
1414 特徴マップ
1416 ピクセル
1418 ピクセル
1420 ピクセル
1422 ピクセル
1500 例
1502 入力
1504 第1の特徴マップ
1506 第2の特徴マップ
1508 ピクセル
1510 ピクセル
1512 破線
1513 黒い正方形
1514 2点鎖線
1515 黒い円
1600 例
1602 分割タイプ
1602A 正方形のブロック
1602B 正方形のブロック
1604 分割タイプ
1604A 正方形のブロック
1604B 正方形のブロック
1606 分割タイプ
1608 分割タイプ
1608A 正方形のブロック
1608B 正方形のブロック
1610 分割タイプ
1610A 正方形のブロック
1610B 正方形のブロック
1612 分割タイプ
1614 分割タイプ
1614A サブブロック
1616 分割タイプ
1616A 長方形の予測単位
1616B 長方形の予測単位
1618 分割タイプ
1620 分割タイプ
Claims (19)
- 第1の量子化パラメータを使用して画像ブロックを第1のエンコーダによって符号化するための方法であって、
機械学習モデルを含む機械学習モジュールに、前記画像ブロックと前記第1の量子化パラメータに対応する第1の値とを与えるステップであって、
前記第1の値が、非線形関数が前記第1の量子化パラメータを入力として使用した結果として得られ、
前記機械学習モデルが、
前記機械学習モデルの訓練の入力として訓練データを使用することによって、前記画像ブロックを符号化するためのモード決定パラメータを出力するように訓練され、各訓練データが、
第2のエンコーダによって符号化される訓練ブロック、
前記訓練ブロックを符号化するために前記第2のエンコーダによって使用される第2のモード決定パラメータ、および
第2の量子化パラメータに対応する第2の値を含み、
前記第2のエンコーダが、前記訓練ブロックを符号化するために前記第2の量子化パラメータを使用しており、
前記第2の値が、前記非線形関数が前記第2の量子化パラメータを入力として使用した結果として得られる、ステップと、
前記機械学習モジュールから第1のモード決定パラメータを取得するステップと、
前記第1のモード決定パラメータを使用して前記画像ブロックを圧縮されたビットストリームに符号化するステップとを含む、
方法。 - 前記画像ブロックが、イントラ予測される、
請求項1に記載の方法。 - 前記訓練データが、
前記画像ブロックの上の隣接するブロックの第1のサンプル、および
前記画像ブロックの左の隣接するブロックの第2のサンプルをさらに含む、
請求項2に記載の方法。 - 前記第1のモード決定パラメータが、前記画像ブロックの四分木分割を示す、
請求項1から3のいずれか一項に記載の方法。 - 前記機械学習モデルが、畳み込みニューラルネットワークモデルである、
請求項1から4のいずれか一項に記載の方法。 - 前記非線形関数が、線形セグメントによって近似される、
請求項1から5のいずれか一項に記載の方法。 - 前記非線形関数が、量子化パラメータの指数関数である、
請求項1から6のいずれか一項に記載の方法。 - 前記第2のエンコーダが、H.264またはHEVCエンコーダである、
請求項7に記載の方法。 - 前記非線形関数が、量子化パラメータの2次関数である、
請求項1から6のいずれか一項に記載の方法。 - 前記第2のエンコーダが、H.263、AV1、またはVP9エンコーダである、
請求項9に記載の方法。 - 前記非線形関数が、レート歪み計算において使用される乗数を決定するために前記第2のエンコーダによって使用される関数と同じ種類である、
請求項1から10のいずれか一項に記載の方法。 - 第1の量子化パラメータを使用して画像ブロックを符号化するための装置であって、
プロセッサを備え、前記プロセッサが、
機械学習モデルに、前記画像ブロックと前記第1の量子化パラメータに対応する第1の値とを与えることであって、
前記第1の値が、非線形関数が前記第1の量子化パラメータを入力として使用した結果として得られ、
前記機械学習モデルが、
前記機械学習モデルの訓練の入力として訓練データを使用することによって、前記画像ブロックを符号化するためのモード決定パラメータを出力するように訓練され、各訓練データが、
エンコーダによって符号化される訓練ブロック、
前記訓練ブロックを符号化するために前記エンコーダによって使用される第2のモード決定パラメータ、および
第2の量子化パラメータに対応する第2の値を含み、
前記エンコーダが、前記訓練ブロックを符号化するために前記第2の量子化パラメータを使用しており、
前記第2の値が、前記非線形関数が前記第2の量子化パラメータを入力として使用した結果として得られる、ことと、
前記機械学習モデルから第1のモード決定パラメータを取得することと、
前記第1のモード決定パラメータを使用して前記画像ブロックを圧縮されたビットストリームに符号化することとを行うように構成された、
装置。 - 前記画像ブロックが、イントラ予測された画像である画像のブロックであり、前記訓練データが、
前記画像ブロックの上の隣接するブロックの第1のサンプル、および
前記画像ブロックの左の隣接するブロックの第2のサンプルをさらに含む、
請求項12に記載の装置。 - 前記第1のモード決定パラメータが、前記画像ブロックの四分木分割を示す、
請求項12または13に記載の装置。 - 前記非線形関数が、線形セグメントによって近似される、
請求項12から14のいずれか一項に記載の装置。 - 前記非線形関数が、量子化パラメータの指数関数または量子化パラメータの2次関数である、
請求項12から15のいずれか一項に記載の装置。 - 画像ブロックを復号するための装置であって、前記装置は、
プロセッサを備え、前記プロセッサが、以下の動作を実行するように構成され、前記動作が、
圧縮されたビットストリーム内で、サブブロックへの前記画像ブロックの四分木分割のインジケーションを受信するステップであって、エンコーダが、
機械学習モデルを訓練するための入力として訓練データを使用することによって訓練される前記機械学習モデルを使用して前記画像ブロックの前記四分木分割を決定しており、各訓練データが、
前記エンコーダによって符号化される訓練ブロック、
前記訓練ブロックを符号化するために前記エンコーダによって使用されるモード決定パラメータ、および
量子化パラメータに対応する値を含み、
前記エンコーダが、前記訓練ブロックを符号化するために前記量子化パラメータを使用しており、
前記値が、非線形関数が前記量子化パラメータを入力として使用した結果として得られる、ステップと
前記画像ブロックの前記四分木分割の前記インジケーションを使用して前記画像ブロックを復号するステップとを含む、
装置。 - 前記非線形関数が、レート歪み計算において使用される乗数を決定するために前記エンコーダによって使用される関数と同じ種類である、
請求項17に記載の装置。 - 画像ブロックを復号するための方法であって、
圧縮されたビットストリーム内で、サブブロックへの前記画像ブロックの四分木分割のインジケーションを受信するステップであって、エンコーダが、
機械学習モデルを訓練するための入力として訓練データを使用することによって訓練される前記機械学習モデルを使用して前記画像ブロックの前記四分木分割を決定しており、各訓練データが、
前記エンコーダによって符号化される訓練ブロック、
前記訓練ブロックを符号化するために前記エンコーダによって使用されるモード決定パラメータ、および
量子化パラメータに対応する値を含み、
前記エンコーダが、前記訓練ブロックを符号化するために前記量子化パラメータを使用しており、
前記値が、非線形関数が前記量子化パラメータを入力として使用した結果として得られる、ステップと、
前記画像ブロックの前記四分木分割の前記インジケーションを使用して前記画像ブロックを復号するステップとを含む、
方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/134,134 US10674152B2 (en) | 2018-09-18 | 2018-09-18 | Efficient use of quantization parameters in machine-learning models for video coding |
US16/134,134 | 2018-09-18 | ||
PCT/US2019/051453 WO2020061005A1 (en) | 2018-09-18 | 2019-09-17 | Use of non-linear function applied to quantization parameters in machine-learning models for video coding |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021520082A true JP2021520082A (ja) | 2021-08-12 |
JP7110370B2 JP7110370B2 (ja) | 2022-08-01 |
Family
ID=68084969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020545128A Active JP7110370B2 (ja) | 2018-09-18 | 2019-09-17 | ビデオ符号化のための機械学習モデルの量子化パラメータに適用される非線形関数の使用 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10674152B2 (ja) |
EP (1) | EP3746944A1 (ja) |
JP (1) | JP7110370B2 (ja) |
WO (1) | WO2020061005A1 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417364B2 (en) | 2017-01-04 | 2019-09-17 | Stmicroelectronics International N.V. | Tool to create a reconfigurable interconnect framework |
CA3066838A1 (en) * | 2019-01-08 | 2020-07-08 | Comcast Cable Communications, Llc | Processing media using neural networks |
US10886943B2 (en) * | 2019-03-18 | 2021-01-05 | Samsung Electronics Co., Ltd | Method and apparatus for variable rate compression with a conditional autoencoder |
US10984560B1 (en) * | 2019-03-29 | 2021-04-20 | Amazon Technologies, Inc. | Computer vision using learnt lossy image compression representations |
CN111818346B (zh) | 2019-04-11 | 2023-04-18 | 富士通株式会社 | 图像编码方法和装置、图像解码方法和装置 |
US10996306B2 (en) * | 2019-04-25 | 2021-05-04 | General Electric Company | MRI system and method using neural network for detection of patient motion |
CN110113614B (zh) * | 2019-05-13 | 2022-04-12 | 格兰菲智能科技有限公司 | 图像处理方法及图像处理装置 |
CN111988629B (zh) * | 2019-05-22 | 2024-02-09 | 富士通株式会社 | 图像编码装置和图像解码装置 |
TWI745697B (zh) * | 2019-05-24 | 2021-11-11 | 創鑫智慧股份有限公司 | 用於神經網路參數的運算系統及其壓縮方法 |
JP2021047711A (ja) * | 2019-09-19 | 2021-03-25 | キオクシア株式会社 | 演算装置、演算方法、及び学習方法 |
US10699715B1 (en) * | 2019-12-27 | 2020-06-30 | Alphonso Inc. | Text independent speaker-verification on a media operating system using deep learning on raw waveforms |
US11593609B2 (en) | 2020-02-18 | 2023-02-28 | Stmicroelectronics S.R.L. | Vector quantization decoding hardware unit for real-time dynamic decompression for parameters of neural networks |
US11948090B2 (en) * | 2020-03-06 | 2024-04-02 | Tencent America LLC | Method and apparatus for video coding |
US11496151B1 (en) * | 2020-04-24 | 2022-11-08 | Tencent America LLC | Neural network model compression with block partitioning |
US11790566B2 (en) * | 2020-05-12 | 2023-10-17 | Tencent America LLC | Method and apparatus for feature substitution for end-to-end image compression |
CN111736845A (zh) * | 2020-06-09 | 2020-10-02 | 阿里巴巴集团控股有限公司 | 一种编码方法和装置 |
US11531873B2 (en) | 2020-06-23 | 2022-12-20 | Stmicroelectronics S.R.L. | Convolution acceleration with embedded vector decompression |
WO2021262053A1 (en) * | 2020-06-25 | 2021-12-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and system for image compressing and coding with deep learning |
US11451790B2 (en) * | 2020-10-09 | 2022-09-20 | Tencent America LLC | Method and apparatus in video coding for machines |
US20210067785A1 (en) * | 2020-11-17 | 2021-03-04 | Intel Corporation | Video encoding rate control for intra and scene change frames using machine learning |
US20220337854A1 (en) * | 2021-04-16 | 2022-10-20 | Tencent America LLC | Interaction between transform partitioning and primary/secondary transform type selection |
JPWO2022225025A1 (ja) * | 2021-04-23 | 2022-10-27 | ||
US11568634B2 (en) * | 2021-04-28 | 2023-01-31 | Intuit Inc. | Machine learning pipeline for document image quality detection and correction |
US20220408098A1 (en) * | 2021-06-18 | 2022-12-22 | Tencent America LLC | Block-wise entropy coding method in neural image compression |
WO2023056364A1 (en) * | 2021-09-29 | 2023-04-06 | Bytedance Inc. | Method, device, and medium for video processing |
WO2023198057A1 (en) * | 2022-04-12 | 2023-10-19 | Beijing Bytedance Network Technology Co., Ltd. | Method, apparatus, and medium for video processing |
WO2024008815A2 (en) * | 2022-07-05 | 2024-01-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Generating encoded video data and decoded video data |
WO2024081872A1 (en) * | 2022-10-14 | 2024-04-18 | Bytedance Inc. | Method, apparatus, and medium for video processing |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012186763A (ja) * | 2011-03-08 | 2012-09-27 | Mitsubishi Electric Corp | 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法 |
Family Cites Families (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3331668B2 (ja) | 1993-03-22 | 2002-10-07 | 富士ゼロックス株式会社 | 非線形演算ユニットおよびそれによる情報処理装置 |
US6970183B1 (en) * | 2000-06-14 | 2005-11-29 | E-Watch, Inc. | Multimedia surveillance and monitoring system including network configuration |
CN1206864C (zh) * | 2002-07-22 | 2005-06-15 | 中国科学院计算技术研究所 | 结合率失真优化的码率控制的方法及其装置 |
DE60321538D1 (de) * | 2003-04-03 | 2008-07-24 | Mitsubishi Electric Corp | Laufzeitdifferenzbestimmung in verteilten Sensornetzwerken |
EP1475763B1 (en) * | 2003-05-09 | 2008-07-02 | Matsushita Electric Industrial Co., Ltd. | On-vehicle video playback system and car navigation device |
EP1515270A1 (en) | 2003-09-09 | 2005-03-16 | Semeion | An artificial neural network |
US7154392B2 (en) * | 2004-07-09 | 2006-12-26 | Rastegar Jahangir S | Wide-area intruder detection and tracking network |
US7409295B2 (en) * | 2004-08-09 | 2008-08-05 | M/A-Com, Inc. | Imminent-collision detection system and process |
US8548055B2 (en) * | 2005-03-10 | 2013-10-01 | Qualcomm Incorporated | Encoding of multimedia data |
US20080002031A1 (en) * | 2005-05-06 | 2008-01-03 | John-Paul P. Cana | Multi-axis control of a fixed or moving device based on a wireless tracking location of one or many target devices |
US20070132577A1 (en) * | 2005-12-09 | 2007-06-14 | Honeywell International Inc. | Method and apparatus for estimating the location of a signal transmitter |
CN102611892B (zh) | 2006-03-16 | 2014-10-08 | 华为技术有限公司 | 在编码过程中实现自适应量化的方法及装置 |
EP2123038A2 (en) * | 2006-12-04 | 2009-11-25 | Lynx System Developers, Inc. | Autonomous systems and methods for still and moving picture production |
TW200837663A (en) * | 2007-03-13 | 2008-09-16 | Univ Nat Taiwan | Constant picture quality bit rate control system for a multiple-video encoder in single video signal source and the method |
US7719418B2 (en) * | 2007-03-21 | 2010-05-18 | E-Novative, Inc. | System and method for locating objects |
US8643719B2 (en) * | 2008-02-29 | 2014-02-04 | The Boeing Company | Traffic and security monitoring system and method |
US8334775B2 (en) * | 2008-05-23 | 2012-12-18 | Guardian Technologies | RFID-based asset security and tracking system, apparatus and method |
JP5400876B2 (ja) * | 2008-06-16 | 2014-01-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ビデオ符号化のための、スライス依存性に基づくレート制御モデル適合化 |
TW201004361A (en) | 2008-07-03 | 2010-01-16 | Univ Nat Cheng Kung | Encoding device and method thereof for stereoscopic video |
WO2011084916A1 (en) * | 2010-01-06 | 2011-07-14 | Dolby Laboratories Licensing Corporation | Multiple-pass rate control for video coding applications |
US9628675B2 (en) * | 2010-07-02 | 2017-04-18 | Thomson Licensing | Method and apparatus for object tracking and recognition |
US8484253B2 (en) | 2010-12-31 | 2013-07-09 | Microsoft Corporation | Variational mode seeking |
US9438906B2 (en) * | 2011-03-03 | 2016-09-06 | Sun Patent Trust | Method of encoding an image into a coded image, method of decoding a coded image, and apparatuses thereof |
US20160065959A1 (en) | 2014-08-26 | 2016-03-03 | Lyrical Labs Video Compression Technology, LLC | Learning-based partitioning for video encoding |
US8804820B2 (en) * | 2011-04-21 | 2014-08-12 | Dialogic Corporation | Rate control with look-ahead for video transcoding |
US8787454B1 (en) * | 2011-07-13 | 2014-07-22 | Google Inc. | Method and apparatus for data compression using content-based features |
KR20130040641A (ko) * | 2011-10-14 | 2013-04-24 | 삼성테크윈 주식회사 | 레이다 연동 감시 시스템 |
CN103051868B (zh) * | 2011-10-14 | 2018-10-19 | 韩华泰科株式会社 | 通过使用雷达存储和搜索图像的设备和方法 |
JP5291267B1 (ja) * | 2011-11-09 | 2013-09-18 | パナソニック株式会社 | 周波数拡散型レーダ装置及びその制御方法 |
US8704904B2 (en) * | 2011-12-23 | 2014-04-22 | H4 Engineering, Inc. | Portable system for high quality video recording |
AR087816A1 (es) * | 2012-09-07 | 2014-04-16 | Permingeat Alejandro | SISTEMA RASTREADOR DE PERSONAS Y OBJETOS POR Wi-Fi |
US9615401B2 (en) | 2012-12-11 | 2017-04-04 | Qualcomm Incorporated | Methods and apparatus for updating a device configuration |
US9270933B1 (en) * | 2013-11-23 | 2016-02-23 | Yuan Qing Jiang | System and method for face-to-face video communication |
US9813992B2 (en) * | 2013-12-06 | 2017-11-07 | Mcp Llc | Tracking systems and methods for remotely tracking a location of a person on a map of a monitored premise |
US9288510B1 (en) * | 2014-05-22 | 2016-03-15 | Google Inc. | Adaptive video transcoding based on parallel chunked log analysis |
SG10201405182WA (en) | 2014-08-25 | 2016-03-30 | Univ Singapore Technology & Design | Method and system |
US20160377709A1 (en) * | 2014-08-27 | 2016-12-29 | Aviacomm Inc. | Determining an object distance using radio frequency signals |
JP2016116175A (ja) * | 2014-12-17 | 2016-06-23 | 富士通株式会社 | 動画像符号化装置、動画像符号化方法及び動画像符号化用コンピュータプログラム |
US10321128B2 (en) * | 2015-02-06 | 2019-06-11 | Sony Corporation | Image encoding apparatus and image encoding method |
JP6502739B2 (ja) * | 2015-04-28 | 2019-04-17 | キヤノン株式会社 | 画像符号化装置、画像処理装置、画像符号化方法 |
US10489703B2 (en) | 2015-05-20 | 2019-11-26 | Nec Corporation | Memory efficiency for convolutional neural networks operating on graphics processing units |
JP6502753B2 (ja) * | 2015-06-08 | 2019-04-17 | キヤノン株式会社 | 画像符号化装置、画像処理装置、画像符号化方法 |
US9807416B2 (en) | 2015-09-21 | 2017-10-31 | Google Inc. | Low-latency two-pass video coding |
US10068171B2 (en) | 2015-11-12 | 2018-09-04 | Conduent Business Services, Llc | Multi-layer fusion in a convolutional neural network for image classification |
KR102309910B1 (ko) | 2015-11-19 | 2021-10-08 | 한국전자기술연구원 | 비디오 부호화기의 최적 모드 결정 장치 및 최적 모드 결정을 이용한 비디오 부호화 방법 |
EP3433816A1 (en) | 2016-03-22 | 2019-01-30 | URU, Inc. | Apparatus, systems, and methods for integrating digital media content into other digital media content |
CN105791826B (zh) | 2016-05-11 | 2019-03-08 | 南京大学 | 一种基于数据挖掘的hevc帧间快速模式选择方法 |
WO2017197174A1 (en) * | 2016-05-11 | 2017-11-16 | H4 Engineering, Inc. | Apparatus and method for automatically orienting a camera at a target |
US10631002B2 (en) * | 2016-09-30 | 2020-04-21 | Qualcomm Incorporated | Frame rate up-conversion coding mode |
US10542262B2 (en) * | 2016-11-15 | 2020-01-21 | City University Of Hong Kong | Systems and methods for rate control in video coding using joint machine learning and game theory |
US10382770B2 (en) * | 2017-02-06 | 2019-08-13 | Google Llc | Multi-level machine learning-based early termination in partition search for video encoding |
EP3364342A1 (en) * | 2017-02-17 | 2018-08-22 | Cogisen SRL | Method for image processing and video compression |
US11373266B2 (en) | 2017-05-05 | 2022-06-28 | Intel Corporation | Data parallelism and halo exchange for distributed machine learning |
US10522186B2 (en) | 2017-07-28 | 2019-12-31 | Adobe Inc. | Apparatus, systems, and methods for integrating digital media content |
US10721471B2 (en) * | 2017-10-26 | 2020-07-21 | Intel Corporation | Deep learning based quantization parameter estimation for video encoding |
US11227214B2 (en) | 2017-11-14 | 2022-01-18 | Advanced Micro Devices, Inc. | Memory bandwidth reduction techniques for low power convolutional neural network inference applications |
US10839564B2 (en) | 2018-02-08 | 2020-11-17 | Uber Technologies, Inc. | Leveraging JPEG discrete cosine transform coefficients in neural networks |
CN109146072B (zh) | 2018-08-01 | 2021-03-23 | 上海天数智芯半导体有限公司 | 基于卷积神经网络加速器的数据重用方法 |
-
2018
- 2018-09-18 US US16/134,134 patent/US10674152B2/en active Active
-
2019
- 2019-09-17 JP JP2020545128A patent/JP7110370B2/ja active Active
- 2019-09-17 WO PCT/US2019/051453 patent/WO2020061005A1/en unknown
- 2019-09-17 EP EP19779673.3A patent/EP3746944A1/en active Pending
-
2020
- 2020-05-07 US US16/868,729 patent/US11310501B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012186763A (ja) * | 2011-03-08 | 2012-09-27 | Mitsubishi Electric Corp | 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法 |
Non-Patent Citations (1)
Title |
---|
ZHENYU LIU ET AL.: "CU Partition Mode Decision for HEVC Hardwired Intra Encoder Using Convolution Neural Network", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 25, no. 11, JPN6021050663, 18 August 2016 (2016-08-18), pages 5088 - 5103, XP011622937, ISSN: 0004665495, DOI: 10.1109/TIP.2016.2601264 * |
Also Published As
Publication number | Publication date |
---|---|
JP7110370B2 (ja) | 2022-08-01 |
US11310501B2 (en) | 2022-04-19 |
US10674152B2 (en) | 2020-06-02 |
CN111868751A (zh) | 2020-10-30 |
WO2020061005A1 (en) | 2020-03-26 |
US20200275101A1 (en) | 2020-08-27 |
EP3746944A1 (en) | 2020-12-09 |
US20200092556A1 (en) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7110370B2 (ja) | ビデオ符号化のための機械学習モデルの量子化パラメータに適用される非線形関数の使用 | |
US11310498B2 (en) | Receptive-field-conforming convolutional models for video coding | |
US11025907B2 (en) | Receptive-field-conforming convolution models for video coding | |
US11689726B2 (en) | Hybrid motion-compensated neural network with side-information based video coding | |
US10848765B2 (en) | Rate/distortion/RDcost modeling with machine learning | |
US11956447B2 (en) | Using rate distortion cost as a loss function for deep learning | |
WO2020061008A1 (en) | Receptive-field-conforming convolution models for video coding | |
WO2020123052A1 (en) | Guided restoration of video data using neural networks | |
CN110741638B (zh) | 使用残差块能量分布的运动矢量代码化 | |
WO2020046434A1 (en) | Lossy image compression using palettization of locally mixed colors | |
WO2017189048A1 (en) | Hybrid prediction modes for video coding | |
US10419777B2 (en) | Non-causal overlapped block prediction in variable block size video coding | |
WO2018222238A1 (en) | Improved coding of intra-prediction modes | |
US10382758B2 (en) | Transform block-level scan order selection for video coding | |
WO2018222239A1 (en) | Adaptation of scan order for entropy coding | |
CN111868751B (zh) | 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数 | |
US20230007284A1 (en) | Ultra Light Models and Decision Fusion for Fast Video Coding | |
US11854165B2 (en) | Debanding using a novel banding metric |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7110370 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |