CN110312131B - 一种基于深度学习的内容自适应在线视频编码方法 - Google Patents

一种基于深度学习的内容自适应在线视频编码方法 Download PDF

Info

Publication number
CN110312131B
CN110312131B CN201910586777.3A CN201910586777A CN110312131B CN 110312131 B CN110312131 B CN 110312131B CN 201910586777 A CN201910586777 A CN 201910586777A CN 110312131 B CN110312131 B CN 110312131B
Authority
CN
China
Prior art keywords
frame
parameter
coding
gop
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910586777.3A
Other languages
English (en)
Other versions
CN110312131A (zh
Inventor
万俊青
王建伟
谢亚光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Arcvideo Technology Co ltd
Original Assignee
Hangzhou Arcvideo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Arcvideo Technology Co ltd filed Critical Hangzhou Arcvideo Technology Co ltd
Priority to CN201910586777.3A priority Critical patent/CN110312131B/zh
Publication of CN110312131A publication Critical patent/CN110312131A/zh
Application granted granted Critical
Publication of CN110312131B publication Critical patent/CN110312131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度学习的内容自适应在线视频编码方法。它包括分析器、参数获得器和HEVC编码器,其中分析器提取每帧的特征值、决定编码帧型、检测场景切换点;参数获得器将视频流切分成若干个一小段,根据每段的特征选取编码参数;HEVC编码器根据各自的编码参数编码视频流段;利用深度学习算法,根据视频内容来自适应调节编码参数。本发明的有益效果是:保证在线编码视频质量并且节省带宽,根据视频内容来自适应调节编码参数,适应在线编码的实时性,视频质量相对以前方案稳定很多,减少了突然花屏、图像块多的现象,并且平均节省码率10%~20%左右。

Description

一种基于深度学习的内容自适应在线视频编码方法
技术领域
本发明涉及视频处理相关技术领域,尤其是指一种基于深度学习的内容自适应在线视频编码方法。
背景技术
目前在线编码一般都是根据经验设置合理的码率,采用CBR或VBR模式来编码。但在一段视频中,图像内容的复杂度是不断变化的,对于内容简单的视频段,这个码率过大,浪费带宽;对于内容复杂的视频段,这个码率过小,导致视频质量不满足客户需求。此外,在线视频内容因无法预先观看,这个码率有可能不适合这段视频流。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种保证在线编码视频质量并且节省带宽的基于深度学习的内容自适应在线视频编码方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于深度学习的内容自适应在线视频编码方法,包括分析器、参数获得器和HEVC编码器,其中分析器提取每帧的特征值、决定编码帧型、检测场景切换点;参数获得器将视频流切分成若干个一小段,根据每段的特征选取编码参数;HEVC编码器根据各自的编码参数编码视频流段;具体操作步骤如下:
(1)用户设置视频质量级别、最大码率、GOP大小这些编码参数;
(2)分析器计算每帧的视频特征:帧内复杂度和帧间复杂度,分析器根据上一帧、本帧及后面几帧的帧内复杂度、帧间复杂度的关系判断当前是否是场景切换点;
(3)如果是场景切换点,则本帧将作为IDR帧并开始新的一个GOP分析,并进入到步骤(4);如果不是场景切换点,则决定当前帧的帧型,判断是否是一个新的GOP开始,如果是,则进入到步骤(4),如果不是,则返回到步骤(2);
(4)参数获得器将这个GOP每帧的视频特征进行整合,计算各种帧型的总特征值,再将总特征值送给SVM,SVM利用离线数据训练好了的model进行分类,得到参数分类索引号,从参数表中得到这个GOP的编码参数,判断这个GOP第一帧是否是场景切换点,如果这个GOP第一帧是场景切换点,则进入到步骤(6);如果这个GOP第一帧不是场景切换点,则进入到步骤(5)中;
(5)将这个编码参数和前一个GOP编码参数比较,如果满足:参数改变比较大并且前一参数编码的帧数大于阈值T,则进入到步骤(6),如果不满足上述条件,则进入到步骤(7);
(6)通知HEVC编码器以新的编码参数编码这个GOP;
(7)HEVC编码器得到用新的编码参数通知,则用编码参数编码这个GOP;如果没有通知HEVC编码器换参数,编码器用最近的参数编码这个GOP。
为了保证在线编码视频质量并且节省带宽,我们利用深度学习算法,根据视频内容来自适应调节编码参数,为了适应在线编码的实时性,计算复杂度只增加了10~20%左右。使用本发明的方法,视频质量相对以前方案稳定很多,减少了突然花屏、图像块多的现象,并且平均节省码率10%~20%左右,特别是对于综艺台。本发明不仅适用HEVC编码器,还适用H264、MPEG2、AVS、AVS2等视频编码器。另外本发明中应用的SVM,也可用其他深度学习网络来实现,比如CNN等。
作为优选,在步骤(1)中,视频质量级别分为可看、比较好、好三个级别。
作为优选,在步骤(2)中,首先对视频帧做一次1/2下采样,将下采样后图像分成8x8小块,提取每个块的帧内satd值和帧间satd值、mv值,帧内复杂度通过小块的帧内satd值计算得到,帧间复杂度通过帧间satd值、mv值计算得到。
作为优选,在步骤(3)中,当前帧的帧型包括IDR帧型、P帧型、B帧型、参考B帧;一个GOP分析结束后,将每帧的视频特征送给参数获得器,并告诉参数获得器场景切换点情况。
作为优选,在步骤(4)中,参数获得器将这个GOP每帧的视频特征进行整合,根据帧型,计算所有IDR帧各块的帧内satd值总和得到IDR的总特征值Tidr,P帧、B帧以及参考B帧各种帧型按IDR帧方法依次得到的总特征值Tp、Tb、Trefb,再将这四个值送给SVM,SVM支持向量机。
作为优选,在步骤(4)中,离线数据训练好了的model获得方法如下:离线对各种场景用VBR模式以各种码率编码,得到各种帧型的总特征值Tidr、Tp、Tb、Trefb以及VMAF分数,根据VMAF分数、编码参数标注参数索引号,其中Tidr、Tp、Tb、Trefb作为SVM的X、参数索引号作为Y,送给SVM训练得到model。
本发明的有益效果是:保证在线编码视频质量并且节省带宽,根据视频内容来自适应调节编码参数,适应在线编码的实时性,视频质量相对以前方案稳定很多,减少了突然花屏、图像块多的现象,并且平均节省码率10%~20%左右。
附图说明
图1是本发明的结构框架图;
图2是本发明的方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所述的实施例中,一种基于深度学习的内容自适应在线视频编码方法,包括分析器、参数获得器和HEVC编码器,其中分析器提取每帧的特征值、决定编码帧型、检测场景切换点;参数获得器将视频流切分成若干个一小段,根据每段的特征选取编码参数;HEVC编码器根据各自的编码参数编码视频流段;如图2所示,具体操作步骤如下:
(1)用户设置视频质量级别、最大码率、GOP大小这些编码参数;视频质量级别分为可看、比较好、好三个级别;
(2)分析器计算每帧的视频特征:帧内复杂度和帧间复杂度,分析器根据上一帧、本帧及后面几帧的帧内复杂度、帧间复杂度的关系判断当前是否是场景切换点;
帧内复杂度和帧间复杂度的计算如下:首先对视频帧做一次1/2下采样,将下采样后图像分成8x8小块,提取每个块的帧内satd值(satd的计算说明参考https://baike.baidu.com/item/satd/7986824)和帧间satd值、mv值,帧内复杂度通过小块的帧内satd值计算得到,帧间复杂度通过帧间satd值、mv值计算得到;
(3)如果是场景切换点,则本帧将作为IDR帧并开始新的一个GOP分析,并进入到步骤(4);如果不是场景切换点,则决定当前帧的帧型,判断是否是一个新的GOP开始,如果是,则进入到步骤(4),如果不是,则返回到步骤(2);
当前帧的帧型包括IDR帧型、P帧型、B帧型、参考B帧;一个GOP分析结束后,将每帧的视频特征送给参数获得器,并告诉参数获得器场景切换点情况;
(4)参数获得器将这个GOP每帧的视频特征进行整合,计算各种帧型的总特征值,再将总特征值送给SVM,SVM利用离线数据训练好了的model进行分类,得到参数分类索引号,从参数表中得到这个GOP的编码参数,判断这个GOP第一帧是否是场景切换点,如果这个GOP第一帧是场景切换点,则进入到步骤(6);如果这个GOP第一帧不是场景切换点,则进入到步骤(5)中;
参数获得器将这个GOP每帧的视频特征进行整合,根据帧型,计算所有IDR帧各块的帧内satd值总和得到IDR的总特征值Tidr,P帧、B帧以及参考B帧各种帧型按IDR帧方法依次得到的总特征值Tp、Tb、Trefb,再将这四个值送给SVM,SVM支持向量机;
离线数据训练的model获得如下:离线对各种场景用VBR模式以各种码率编码,得到各种帧型的总特征值Tidr、Tp、Tb、Trefb以及VMAF分数(VMAF分数计算参考https://blog.csdn.net/yue_huang/article/details/79503884),根据VMAF分数、编码参数标注参数索引号,其中Tidr、Tp、Tb、Trefb作为SVM的X、参数索引号作为Y,送给SVM训练得到model;
(5)将这个编码参数和前一个GOP编码参数比较,如果满足:参数改变比较大并且前一参数编码的帧数大于阈值T,则进入到步骤(6),如果不满足上述条件,则进入到步骤(7);其中两个编码参数的参数改变大于30%则认为参数改变比较大,而阈值T是根据实际需求进行适应性的人工设置;
(6)通知HEVC编码器以新的编码参数编码这个GOP;
(7)HEVC编码器得到用新的编码参数通知,则用编码参数编码这个GOP;如果没有通知HEVC编码器换参数,编码器用最近的参数编码这个GOP。
为了保证在线编码视频质量并且节省带宽,我们利用深度学习算法,根据视频内容来自适应调节编码参数,为了适应在线编码的实时性,计算复杂度只增加了10~20%左右。使用本发明的方法,视频质量相对以前方案稳定很多,减少了突然花屏、图像块多的现象,并且平均节省码率10%~20%左右,特别是对于综艺台。本发明不仅适用HEVC编码器,还适用H264、MPEG2、AVS、AVS2等视频编码器。另外本发明中应用的SVM,也可用其他深度学习网络来实现,比如CNN等。

Claims (6)

1.一种基于深度学习的内容自适应在线视频编码方法,其特征是,包括分析器、参数获得器和HEVC编码器,其中分析器提取每帧的特征值、决定编码帧型、检测场景切换点;参数获得器将视频流切分成若干个一小段,根据每段的特征选取编码参数;HEVC编码器根据各自的编码参数编码视频流段;具体操作步骤如下:
(1)用户设置视频质量级别、最大码率、GOP大小这些编码参数;
(2)分析器计算每帧的视频特征:帧内复杂度和帧间复杂度,分析器根据上一帧、本帧及后面几帧的帧内复杂度、帧间复杂度的关系判断当前是否是场景切换点;
(3)如果是场景切换点,则本帧将作为IDR帧并开始新的一个GOP分析,并进入到步骤(4);如果不是场景切换点,则决定当前帧的帧型,判断是否是一个新的GOP开始,如果是,则进入到步骤(4),如果不是,则返回到步骤(2);
(4)参数获得器将这个GOP每帧的视频特征进行整合,计算各种帧型的总特征值,再将总特征值送给SVM,SVM利用离线数据训练好了的model进行分类,得到参数分类索引号,从参数表中得到这个GOP的编码参数,判断这个GOP第一帧是否是场景切换点,如果这个GOP第一帧是场景切换点,则进入到步骤(6);如果这个GOP第一帧不是场景切换点,则进入到步骤(5)中;
(5)将这个编码参数和前一个GOP编码参数比较,如果满足:参数改变比较大并且前一参数编码的帧数大于阈值T,则进入到步骤(6),如果不满足参数改变比较大并且前一参数编码的帧数大于阈值T,则进入到步骤(7);
(6)通知HEVC编码器以新的编码参数编码这个GOP;
(7)HEVC编码器得到用新的编码参数通知,则用编码参数编码这个GOP;如果没有通知HEVC编码器换参数,编码器用最近的参数编码这个GOP。
2.根据权利要求1所述的一种基于深度学习的内容自适应在线视频编码方法,其特征是,在步骤(1)中,视频质量级别分为可看、比较好、好三个级别。
3.根据权利要求1所述的一种基于深度学习的内容自适应在线视频编码方法,其特征是,在步骤(2)中,首先对视频帧做一次1/2下采样,将下采样后图像分成8x8小块, 提取每个块的帧内satd值和帧间satd值、mv值,帧内复杂度通过小块的帧内satd值计算得到,帧间复杂度通过帧间satd值、mv值计算得到。
4.根据权利要求1所述的一种基于深度学习的内容自适应在线视频编码方法,其特征是,在步骤(3)中,当前帧的帧型包括IDR帧型、P帧型、B帧型、参考B帧;一个GOP分析结束后,将每帧的视频特征送给参数获得器,并告诉参数获得器场景切换点情况。
5.根据权利要求4所述的一种基于深度学习的内容自适应在线视频编码方法,其特征是,在步骤(4)中,参数获得器将这个GOP每帧的视频特征进行整合,根据帧型,计算所有IDR帧各块的帧内satd值总和得到IDR的总特征值Tidr,P帧、B帧以及参考B帧各种帧型按IDR帧方法依次得到的总特征值Tp、Tb、Trefb,再将这四个值送给SVM,SVM支持向量机。
6.根据权利要求5所述的一种基于深度学习的内容自适应在线视频编码方法,其特征是,在步骤(4)中,离线数据训练好了的model获得方法如下:离线对各种场景用VBR模式以各种码率编码,得到各种帧型的总特征值Tidr、Tp、Tb、Trefb以及VMAF分数, 根据VMAF分数、编码参数标注参数索引号,其中Tidr、Tp、Tb、Trefb 作为SVM的X、参数索引号作为Y,送给SVM训练得到model。
CN201910586777.3A 2019-07-01 2019-07-01 一种基于深度学习的内容自适应在线视频编码方法 Active CN110312131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910586777.3A CN110312131B (zh) 2019-07-01 2019-07-01 一种基于深度学习的内容自适应在线视频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910586777.3A CN110312131B (zh) 2019-07-01 2019-07-01 一种基于深度学习的内容自适应在线视频编码方法

Publications (2)

Publication Number Publication Date
CN110312131A CN110312131A (zh) 2019-10-08
CN110312131B true CN110312131B (zh) 2021-03-23

Family

ID=68078852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910586777.3A Active CN110312131B (zh) 2019-07-01 2019-07-01 一种基于深度学习的内容自适应在线视频编码方法

Country Status (1)

Country Link
CN (1) CN110312131B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677657B (zh) * 2019-11-01 2022-02-18 杭州当虹科技股份有限公司 一种用于内容自适应编码中的场景分段方法
CN112492314B (zh) * 2020-11-25 2024-05-14 杭州微帧信息科技有限公司 一种基于机器学习的动态运动估计算法选择的方法
CN113382241A (zh) * 2021-06-08 2021-09-10 北京奇艺世纪科技有限公司 视频编码方法、装置、电子设备和存储介质
CN113676729A (zh) * 2021-07-12 2021-11-19 杭州未名信科科技有限公司 一种视频编码的方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004207802A (ja) * 2002-12-24 2004-07-22 Sony Corp 画像データ処理装置および方法、記録媒体、並びにプログラム
CN107392857A (zh) * 2017-04-14 2017-11-24 杭州当虹科技有限公司 一种基于深度学习的图像增强方法
CN108259897A (zh) * 2018-01-23 2018-07-06 北京易智能科技有限公司 一种基于深度学习的帧内编码优化方法
CN109495741A (zh) * 2018-11-29 2019-03-19 四川大学 基于自适应下采样和深度学习的图像压缩方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11166027B2 (en) * 2016-06-10 2021-11-02 Apple Inc. Content adaptation for streaming

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004207802A (ja) * 2002-12-24 2004-07-22 Sony Corp 画像データ処理装置および方法、記録媒体、並びにプログラム
CN107392857A (zh) * 2017-04-14 2017-11-24 杭州当虹科技有限公司 一种基于深度学习的图像增强方法
CN108259897A (zh) * 2018-01-23 2018-07-06 北京易智能科技有限公司 一种基于深度学习的帧内编码优化方法
CN109495741A (zh) * 2018-11-29 2019-03-19 四川大学 基于自适应下采样和深度学习的图像压缩方法

Also Published As

Publication number Publication date
CN110312131A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110312131B (zh) 一种基于深度学习的内容自适应在线视频编码方法
TWI743919B (zh) 視訊處理裝置及視訊串流的處理方法
CN106937116B (zh) 基于随机训练集自适应学习的低复杂度视频编码方法
Shanableh et al. MPEG-2 to HEVC video transcoding with content-based modeling
CN107222748B (zh) 图像数据码率的处理方法和装置
CN106993190B (zh) 软硬件协同编码方法及系统
CN113038127B (zh) 一种基于roi的实时视频多路并行传输码率控制方法
CN104601992B (zh) 基于贝叶斯最小风险决策的skip模式快速选择方法
CN114466189B (zh) 码率控制方法、电子设备及存储介质
CN107018412A (zh) 一种基于关键帧编码单元划分模式的dvc‑hevc视频转码方法
CN111246219A (zh) 一种vvc帧内cu深度快速划分方法
CN108881905B (zh) 基于概率的帧内编码器优化方法
CN107277519A (zh) 一种判断视频帧的帧类型的方法及电子设备
CN102158702A (zh) 自适应h.264码率控制方法
TWI508531B (zh) 視訊編碼裝置及方法
US20050140781A1 (en) Video coding method and apparatus thereof
Bai et al. Fast coding tree unit decision for HEVC intra coding
CN107197251B (zh) 一种新视频编码标准的基于分层b帧的帧间模式快速选择方法及装置
CN106791864B (zh) 一种基于hevc标准下提高视频转码速率的实现方法
CN105847838B (zh) 一种hevc帧内预测方法
Lai et al. Fast motion estimation based on diamond refinement search for high efficiency video coding
Chi et al. Region-of-interest video coding by fuzzy control for H. 263+ standard
CN110677657B (zh) 一种用于内容自适应编码中的场景分段方法
CN112351279A (zh) 面向hevc快速编码的自适应复杂度调整系统及方法
Rezaei et al. Low-complexity fuzzy video rate controller for streaming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant