CN112738511B - 一种结合视频分析的快速模式决策方法及装置 - Google Patents

一种结合视频分析的快速模式决策方法及装置 Download PDF

Info

Publication number
CN112738511B
CN112738511B CN202110354393.6A CN202110354393A CN112738511B CN 112738511 B CN112738511 B CN 112738511B CN 202110354393 A CN202110354393 A CN 202110354393A CN 112738511 B CN112738511 B CN 112738511B
Authority
CN
China
Prior art keywords
video
information
network
coding
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110354393.6A
Other languages
English (en)
Other versions
CN112738511A (zh
Inventor
范娟婷
梅元刚
刘宇新
朱政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Microframe Information Technology Co ltd
Original Assignee
Hangzhou Microframe Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Microframe Information Technology Co ltd filed Critical Hangzhou Microframe Information Technology Co ltd
Priority to CN202110354393.6A priority Critical patent/CN112738511B/zh
Publication of CN112738511A publication Critical patent/CN112738511A/zh
Application granted granted Critical
Publication of CN112738511B publication Critical patent/CN112738511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种结合视频分析的快速模式决策方法及装置,所述方法包括:在编码训练集视频过程中获取视频信息,对视频信息进行分析后建立视频信息与对视频进行如何块划分的决策关系,确定块划分预测网络的参数。输入待编码视频,先通过视频场景分类网络对视频进行分类,再通过训练好的对应视频场景的块划分预测网络根据待编码视频的视频信息对待编码视频块划分进行快速决策。本发明提供的方法可以直接决策待编码视频如何进行块划分,大大节省视频编码时间,同时对编码效率损失较小、降低编码复杂度,对各类标准均适用,对帧间预测或帧内预测均适用,具有很强的普适性。

Description

一种结合视频分析的快速模式决策方法及装置
技术领域
本发明涉及图像编码技术领域,具体涉及视频编码中一种结合视频分析的快速模式决策方法及装置。
背景技术
视频压缩,也称视频编码,其目的是消除视频信号间存在的冗余信息。至今,国内外标准化组织已相继制定了多种不同的视频编码标准,主流的视频编码标准均采用“基于块的预测和变换”的混合编码框架,输入的视频信号经过块结构划分、预测、变换、量化、熵编码等编码技术处理后,最后输出比特流。
一般情况下,视频编码器将视频序列图像划分为块进行编码,如
1. H.264/AVC将图像划分为16×16的宏块(MacroBlock, MB),且在实际编码过程中,宏块还可以划分成更小的块大小。H.264对宏块支持的划分方式如图3所示;
2. 高效视频编解码标准HEVC(High Efficiency Video Coding Standard,HEVC)则划分成均匀等大小的编码树单元(Coding Tree Unit, CTU),编码器通常采用64×64大小的编码树单元。此外,HEVC支持将编码树单元按照四叉树结构划分成更小的编码单元(Coding Unit, CU),图4为HEVC中一种CTU划分为CU的划分方法,大小为64×64的CTU先四叉划分为4个大小相同的32×32 CU,而32×32的CU又可四叉划分4个16×16的CU或者不划分,如此下去,直到划分到允许的最小CU大小。此外,CU可以划分成不同大小、不同形状的预测单元(Prediction Unit, PU),且预测单元PU是预测的基本单元,大小不能超过所在CU的大小。对于帧内预测,PU的大小呈方形,而在某些视频编码标准中如AVS2,帧内预测的PU还可以呈非方形,如图5左侧所示;对于帧间预测,HEVC还支持CU划分成非方形的PU,如图5中间所示。相对于H.264/AVC的块划分方法,编码单元、预测单元、变换单元的多样性,显著地提高了H.265/HEVC的编码性能,但在一定程度上增加了编解码器的复杂度;
3. 新一代视频编码标准AV1,也采用了混合编码技术框架,其编码的块划分是以最大为128x128为编码的基本单元,可以进一步划分为四等分或者二等分,且四等分的块还可以进一步递归划分,且每个子块最多可按照图6中9种不同的块划分方式划分为更小的块。
当前对于块划分的优化算法主要集中在对HEVC标准下的块划分,且关注点主要是CU的划分。专利1(专利申请号CN201410558888 一种HEVC快速编码方法)提出了一种HEVC快速编码方法,其目的是使用编码单元内像素值的标准差作为提前终止CU划分的条件依据,若标准差小于一定阈值则提前终止CU划分,该方法对于平滑区域具有较好的降低复杂度能力,而对于纹理较为尖锐或不能依据标准差作为划分依据的视频序列,反而会增加计算复杂度,且该方法仅作用于帧内编码的CU,其阈值也不具有一般性,随机性较大,节省时间有限。专利2(专利申请号CN2015105684613 一种基于图像纹理特征的视频编码帧内预测方法)提供了一种基于图像纹理特征的视频编码帧内预测方法,其目的是统计编码单元内的纹理梯度直方图,并预先将纹理梯度与帧内预测角度之间建立联系,从而从纹理梯度中直接选择预测角度进行帧内预测,减少了帧内预测模式,该方法作用有限,仅能相应减少帧内预测的角度模式,且纹理梯度与帧内预测角度之间的联系也并非十分紧密,因此,该方法缺乏普遍性、合理性。专利3(专利申请号CN2020106279076 视频编码方法及编码树单元划分方法、系统、设备及可读存储介质)提供了一种基于卷积神经网络预测模型来判断是否进行块划分的方法来降低编码复杂度,减少整体编码时间。该方法针对HEVC标准中的四叉树划分方案具有良好的适用性,对于支持更灵活划分形状和大小的AV1视频标准来说具有局限性。且该方案仅对待编码视频是否进行块划分做了决策,未能进一步判断如何划分。同时该方案仅进行了HEVC标准下的CU的划分,没有进一步地进行PU划分。
发明内容
由于现有方法存在上述问题,本发明实施例提出了一种结合视频分析的快速模式决策方法及装置。具体地,本发明实施例提供了以下技术方案。
第一方面,本发明实施例提供了一种结合视频分析的快速模式决策方法,包括:
S101,采集不同场景类型的视频,创建视频场景分类网络,并完成网络参数初始化。
S102,将已知场景的训练视频按照不同的编码条件进行编码,并在编码过程中采集视频信息,组建数据集。
所述视频信息包括编码信息、图像纹理信息以及当前视频块的划分信息。其中所述编码信息包括但不限于当前编码块大小、当前编码块在不划分的情况下已产生的编码信息、当前块的纹理信息等。
所述当前编码块在不划分的情况下已产生的编码信息包括但不限于不划分情况下最终编码使用的比特数、与原始块比较的误差值、变换后生成的变换系数个数、变换后生成的变换系数的能量综合、量化参数等。
所述当前块的纹理信息包括但不限于当前块内像素值的平均值、平方和、绝对误差和、均方差等,以及像素值的不同种类的个数、像素分布直方图等。
S103,在采集的视频信息中,将视频如何划分的结果与其他所述视频信息之间建立关系,得到神经预测网络初始化参数。
S104,重复S102-S103步骤,创建其他视频场景类型的块划分预测网络。
S105,将待编码视频输入视频场景分类网络,输出视频场景分类。
S106,提取待编码视频的视频信息,对视频进行场景类型分类,将视频信息输入对应视频场景分类的块划分预测网络。
S107,根据所述视频如何划分的结果与其他所述的视频信息之间的关系,对编码如何块划分进行预测并输出结果。
所述如何块划分可以包括2N×2N、N×N、2N×1/4N、1/4N×2N、2N×uN、2N×dN、2N×N、N×2N、rN×2N、N×2N;还可以包括NONE、SPLIT、VERT、 HORZ、VERT_A、VERT_B、VERT_4、HORZ_A、HORZ_B、HORZ_4。
第二方面,本发明实施例还提供了一种结合视频分析的快速模式决策装置,所述装置包括:
S201第一获取模块,用于获取不同场景类型的视频。
S202第一网络训练模块,用于建立视频场景分类网络,获得视频场景分类网络模型参数。
S203第二获取模块,用于获取训练视频的视频信息。
S204第二网络训练模块,用于建立块划分预测网络,通过所述第二获取模块中获取的所述视频信息,建立所述视频信息与如何进行块划分之间的决策关系,得到块划分预测网络参数。
S205视频分类模块,用于按照视频场景类型给待编码视频分类。
S206第三获取模块,用于获取待编码视频的视频信息。
S207预测模块,用于根据所述待编码视频的视频信息,通过块划分预测网络模型预测对所述待编码视频进行如何块划分。
S208结果输出模块,用于输出块划分预测结果。
由上述技术方案可知,本发明具有以下有益效果:1. 通过利用本发明,可减少编码视频的编码时间,且几乎不带来性能损失;2. 本发明直接对待编码视频直接进行PU划分预测,能快速确定PU的划分方式;3. 本发明也可直接对待编码视频直接进行TU划分预测,能快速确定TU的划分;4. 本发明不限制特定的编码器,可在任何符合混合编码框架的视频标准编码器内使用;5. 本发明既适用于帧内预测也适用于帧间预测;6. 本发明对相同特殊类别的视频场景尤其有效,决策精度也更高于针对所有视频场景编码的情况。7. 本发明编码后生成的视频完全符合现有视频编码标准,可以直接被常用播放器解码。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是一种结合视频分析的快速模式决策方法流程示意图;
图2是一种结合视频分析的快速模式决策装置结构示意图;
图3是H.264/AVC视频编码标准中的块划分方式示例图;
图4是H.265/HEVC视频编码标准中一种CTU划分CU的示例图;
图5是H.265/HEVC视频编码标准中一种CU划分为PU和TU的示例图;
图6是AV1视频编码标准中的块划分结构示例图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
需要说明的是,本发明实施例提供的一种结合视频分析的快速模式决策方法的执行主体可以为一种视频编码装置,如:视频编码器。其中,该视频编码装置可以为现有视频编码软件中的插件,或者,独立的功能软件,这都是合理的。并且,该视频编码装置可以应用于终端中,也可以应用于服务器中。
图1示出了一种结合视频分析的快速模式决策方法的流程图,如图1所示,本发明实施例提供的一种结合视频分析的快速模式决策方法,具体包括如下内容。
实施例一
本实施例提供一种适用于H.265/HEVC编码标准,将待编码视频直接进行PU划分预测的方法。
S301,采集不同场景类型的视频,创建视频场景分类网络,并完成网络参数初始化。
具体地,采集不同场景类型的训练视频,设置视频类型的标签,其中视频类型标签包括:例如在线教育场景的视频、动画场景的视频、体育赛事的视频等;又如动漫视频、电影视频等。
需要说明的是,以上几种视频类型标签只是为了示意,并不具有限制作用,在实际应用时,可以根据需要设置不同维度的视频类型标签进行分类网络的训练。
S302,将已知场景的训练视频分别按照不同的编码条件进行编码,并在编码过程中采集视频信息,组建数据集。
具体地,不同的编码条件可以分为对一种或者几种输入视频信息或内容的多样化组合。其中视频信息包括输入同一视频的分辨率、帧率、码率、不同编码器配置条件等,以及输入不同视频内容的测试视频。其中编码器配置条件,包括但不限于码率控制方式、固定量化参数(QP,Qualitied Parameter)、恒定码率因子(CRF,Constant Rate Factor)、允许编码延迟的长短、B帧个数、关键帧间隔、最大码率限制、最小码率限制等等。
进一步地,编码过程中的块划分需要综合考虑精度和效率,为此我们直接提取编码过程中的当前PU信息,信息维度为262维,此信息相对于块的亮度信息(信息维度为64x64),冗余信息更少,且可以直接从编码中获取,计算效率高,输入数据提前进行均衡化处理;其中标签为通过编码获取到的当前PU的划分方式,以此构建整个数据集,并划分为训练集,验证集和测试集,其比例为6:1:3。
进一步地,由于PU的划分方式存在数据不均衡的问题,为了加速训练,提高整体准确度,对训练集采用均衡的方式的进行采样,即每个训练的batch中10种划分方式的数量是相同的(batchsize/10)。
所述视频信息包括但不限于编码信息、图像纹理信息以及当前视频块的划分信息。其中所述编码信息包括但不限于当前编码块大小、当前编码块在不划分的情况下已产生的编码信息、当前块的纹理信息等。
所述当前编码块在不划分的情况下已产生的编码信息包括但不限于不划分情况下最终编码使用的比特数、与原始块比较的误差值、变换后生成的变换系数个数、变换后生成的变换系数的能量综合、量化参数等。
所述当前块的纹理信息包括但不限于当前块内像素值的平均值、平方和、绝对误差和、均方差等,以及像素值的不同种类的个数、像素分布情况等。
S303,在采集的视频信息中,将视频如何划分的结果与其他所述视频信息之间建立关系,得到块划分预测网络初始化参数。
具体地,块划分预测网络采用全连接网络。所述全连接网络共有五层。所述全连接网络第一层至第三层采用RELU激活函数进行批归一化处理,批归一化处理加速块划分预测网络训练,在预测推理阶段可以通过更改网络权重的方式,避免批归一化处理的额外计算量。所述全连接网络第一层至第三层分为两个分支,一个分支先对视频的直方图信息进行处理,另一个分支融合其他信息;其中直方图分支网络第一层为128个神经元节点,第二层64,第三层为64个节点;其他信息网络第一层为16个节点,其结果concat到直方图分支的第三层输出中,得到res_concat。
所述全连接网络第四层至第五层采用激活函数为softmax进行处理,不加批归一化操作,输入为res_concat,包含32个节点,最后一层为10个节点,输出表示N种划分方式。具体地,N种在不同的帧类型中表现为不同的值,例如P帧或B帧中即可认定为8种,而在I帧中N则为2。
进一步地,训练时损失函数采用交叉熵损失,使用Adam优化算法进行参数优化,采用余弦退火衰减调整学习率。
S304,重复S302-S303步骤,创建其他视频场景类型的块划分预测网络。
S305,将待编码视频输入视频场景分类网络,输出视频场景分类。
S306,提取待编码视频的视频信息,对视频进行场景类型分类,将视频信息输入对应视频场景分类的块划分预测网络。
S307,根据所述视频如何划分的结果与其他所述的视频信息之间的关系,对编码如何块划分进行预测,
具体地,若输出结果为1,则进行N×N划分;
若输出结果为2,则进行2N×1/4N划分;
若输出结果为3,则进行1/4N×2N划分;
若输出结果为4,则进行2N×uN划分;
若输出结果为5,则进行2N×dN划分;
若输出结果为6,则进行2N×N划分;
若输出结果为7,则进行N×2N划分;
若输出结果为8,则进行rN×2N划分;
若输出结果为9,则进行N×2N划分;
若输出结果为0,则终止块划分。
实施例二
本实施例提供一种适用于AV1编码标准,将待编码视频直接进行TU划分预测的方法。
S401,采集不同场景类型的视频,创建视频场景分类网络,并完成网络参数初始化。
具体地,采集不同场景类型的训练视频,设置视频类型的标签,其中视频类型标签包括:例如在线教育场景的视频、动画场景的视频、体育赛事的视频等;又如动漫视频、电影视频等。
需要说明的是,以上几种视频类型标签只是为了示意,并不具有限制作用,在实际应用时,可以根据需要设置不同维度的视频类型标签进行分类网络的训练。
S402,将已知场景的训练视频分别按照不同的编码条件进行编码,并在编码过程中采集视频信息,组建数据集。
具体地,不同的编码条件可以分为对一种或者几种输入视频信息或内容的多样化组合。其中视频信息包括输入同一视频的分辨率、帧率、码率、不同编码器配置条件等,以及输入不同视频内容的测试视频。其中编码器配置条件,包括但不限于码率控制方式、固定量化参数(QP,Qualitied Parameter)、恒定码率因子(CRF,Constant Rate Factor)、允许编码延迟的长短、B帧个数、关键帧间隔、最大码率限制、最小码率限制等等。
进一步地,编码过程中的块划分需要综合考虑精度和效率,为此我们直接提取编码过程中的当前块信息,信息维度为262维,此信息相对于块的亮度信息(信息维度为64x64),冗余信息更少,且可以直接从编码中获取,计算效率高,输入数据提前进行均衡化处理;其中标签为通过编码获取到的当前块的划分方式,以此构建整个数据集,并划分为训练集,验证集和测试集,其比例为6:1:3。
进一步地,由于块的划分方式存在数据不均衡的问题,为了加速训练,提高整体准确度,对训练集采用均衡的方式的进行采样,即每个训练的batch中10种划分方式的数量是相同的(batchsize/10)。
所述块信息包括但不限于编码信息、图像纹理信息以及当前视频块的划分信息。其中所述编码信息包括但不限于当前编码块大小、当前编码块在不划分的情况下已产生的编码信息、当前块的纹理信息等。
所述当前编码块在不划分的情况下已产生的编码信息包括但不限于不划分情况下最终编码使用的比特数、与原始块比较的误差值、变换后生成的变换系数个数、变换后生成的变换系数的能量综合、量化参数等。
所述当前块的纹理信息包括但不限于当前块内像素值的平均值、平方和、绝对误差和、均方差等,以及像素值的不同种类的个数、像素分布情况等。
S403,在采集的视频信息中,将视频如何划分的结果与其他所述视频信息之间建立关系,得到块划分预测网络初始化参数。
具体地,块划分预测网络采用全连接网络。所述全连接网络共有五层。所述全连接网络第一层至第三层采用RELU激活函数进行批归一化处理,批归一化处理加速块划分预测网络训练,在预测推理阶段可以通过更改网络权重的方式,避免批归一化处理的额外计算量。所述全连接网络第一层至第三层分为两个分支,一个分支先对视频的直方图信息进行处理,另一个分支融合其他信息;其中直方图分支网络第一层为128个神经元节点,第二层64,第三层为64个节点;其他信息网络第一层为16个节点,其结果concat到直方图分支的第三层输出中,得到res_concat。
所述全连接网络第四层至第五层采用激活函数为softmax进行处理,不加批归一化操作,输入为res_concat,包含32个节点,最后一层为10个节点,输出表示10种划分方式。
进一步地,训练时损失函数采用交叉熵损失,使用Adam优化算法进行参数优化,采用余弦退火衰减调整学习率。
S404,重复S402-S403步骤,创建其他视频场景类型的块划分预测网络。
S405,将待编码视频输入视频场景分类网络,输出视频场景分类。
S406,提取待编码视频的视频信息,对视频进行场景类型分类,将视频信息输入对应视频场景分类的块划分预测网络。
S407,根据所述视频如何划分的结果与其他所述的视频信息之间的关系,对编码如何块划分进行预测。
具体地,若输出结果为1,则进行SPLIT划分;
若输出结果为2,则进行VERT划分;
若输出结果为3,则进行HORZ划分;
若输出结果为4,则进行VERT_A划分;
若输出结果为5,则进行VERT_B划分;
若输出结果为6,则进行VERT_4划分;
若输出结果为7,则进行HORZ_A划分;
若输出结果为8,则进行HORZ_B划分;
若输出结果为9,则进行HORZ_4划分;
若输出结果为0,则终止块划分。
实施例三
图2示出了本发明实施例提供的结合视频分析的快速模式决策装置的结构示意图。如图2所示,本发明实施例提供的结合视频分析的快速模式决策方法装置包括:
S501,第一获取模块,用于获取不同场景类型的视频。
S502,第一网络训练模块,用于建立视频场景分类网络,获得视频场景分类网络模型参数。
S503,第二获取模块,用于获取训练视频的视频信息。
所述的视频信息包括但不限于编码信息、图像纹理信息以及当前视频块的划分信息。其中所述编码信息包括但不限于当前编码块大小、当前编码块在不划分的情况下已产生的编码信息、当前块的纹理信息等。
所述当前编码块在不划分的情况下已产生的编码信息包括但不限于不划分情况下最终编码使用的比特数、与原始块比较的误差值、变换后生成的变换系数个数、变换后生成的变换系数的能量综合、量化参数等。
所述当前编码块纹理信息包括但不限于当前块内像素值的平均值、平方和、绝对误差和、均方差等,以及像素值的不同种类的个数、像素分布情况等。
S504第二网络训练模块,用于建立块划分预测网络,通过所述第二获取模块中获取的所述视频信息,建立所述视频信息与如何进行块划分之间的决策关系,得到块划分预测网络参数。
S505视频分类模块,用于按照视频场景类型给待编码视频分类。
S506第三获取模块,用于获取待编码视频的视频信息。
S507预测模块,用于根据所述待编码视频的视频信息,通过块划分预测网络模型预测对所述待编码视频进行如何块划分。
所述如何块划分可以包括2N×2N、N×N、2N×1/4N、1/4N×2N、2N×uN、2N×dN、2N×N、N×2N、rN×2N、N×2N;还可以包括NONE、SPLIT、VERT、 HORZ、VERT_A、VERT_B、VERT_4、HORZ_A、HORZ_B、HORZ_4。
需要说明的是,以上的几种划分方式只是为了示意,并不具有限制作用,在实际应用时,可以根据适配的视频编码标准不同设置不同的划分方式标签。
S508结果输出模块,用于输出块划分预测结果。
由于本实施例提供的结合视频分析的快速模式决策装置,可以用于执行上述实施例提供的结合视频分析的快速模式决策方法,其工作原理和有益效果类似,此处不再详述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
此外,在本发明中,诸如“第一”、“第二”用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,或者用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
此外,在本说明书的描述中,参考术语“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种结合视频分析的快速模式决策方法,其特征在于,包括:
步骤1,采集不同场景类型的视频,创建视频场景分类网络,并完成网络参数初始化;
步骤2,将已知场景的训练视频分别按照不同的编码条件进行编码,并在编码过程中采集视频信息,组建数据集;
步骤3,在采集的视频信息中,将视频如何划分的结果与其他所述视频信息之间建立关系,得到块划分预测网络初始化参数;
步骤4,重复步骤2和步骤3,创建其他视频场景类型对应的块划分预测网络;
步骤5,将待编码视频输入视频场景分类网络,输出视频场景分类;
步骤6,提取待编码视频的视频信息,对视频进行场景类型分类,将视频信息输入对应视频场景分类的块划分预测网络;
步骤7,根据所述视频如何划分的结果与其他所述的视频信息之间的关系,对编码如何块划分进行预测。
2.根据权利要求1所述结合视频分析的快速模式决策方法,其特征在于,所述创建视频场景分类网络,并完成网络参数初始化,包括:
采集不同场景类型的训练视频,设置视频类型的标签,训练视频场景分类网络,其中视频类型标签包括:在线教育、动画、体育赛事。
3.根据权利要求1所述结合视频分析的快速模式决策方法,其特征在于, 所述视频信息包括编码信息、图像纹理信息以及当前视频块的划分信息;
所述编码信息包括当前编码块大小、当前编码块在不划分的情况下已产生的编码信息、当前块的纹理信息;
所述当前编码块在不划分的情况下已产生的编码信息包括不划分情况下最终编码使用的比特数、与原始块比较的误差值、变换后生成的变换系数个数、变换后生成的变换系数的能量综合、量化参数;
所述当前块的纹理信息包括当前块内像素值的平均值、平方和、绝对误差和、均方差,以及像素值的不同种类的个数、像素分布情况。
4.根据权利要求1所述结合视频分析的快速模式决策方法,其特征在于,所述在编码过程中采集视频信息,组建数据集,其中数据集采用均衡的方式进行采样。
5.根据权利要求1所述结合视频分析的快速模式决策方法,其特征在于,所述将视频如何划分的结果与其他所述视频信息之间建立关系,得到神经预测网络初始化参数,包括:
块划分预测网络采用全连接网络;所述全连接网络共有五层,第一层至第三层采用RELU激活函数进行批归一化处理,批归一化处理加速块划分预测网络训练,第四层和第五层采用激活函数为softmax进行处理,不加批归一化操作;训练时损失函数采用交叉熵损失,使用Adam优化算法进行参数优化,采用余弦退火衰减调整学习率。
6.根据权利要求1所述结合视频分析的快速模式决策方法,其特征在于,
所述对编码如何块划分进行预测,块划分方式包括2N×2N、N×N、2N×1/4N、1/4N×2N、2N×uN、2N×dN、2N×N、N×2N、rN×2N、N×2N或者包括NONE、SPLIT、VERT、VERT_A、VERT_B、VERT_4、HORZ、HORZ_A、HORZ_B、PARTITION_HORZ_4。
7.一种结合视频分析的快速模式决策装置,其特征在于,包括:
第一获取模块,用于获取不同场景类型的视频;
第一网络训练模块,用于建立视频场景分类网络,获得视频场景分类网络模型参数;
第二获取模块,用于获取训练视频的视频信息;
第二网络训练模块,用于建立块划分预测网络,通过所述第二获取模块中获取的所述视频信息,建立所述视频信息与如何进行块划分之间的决策关系,得到块划分预测网络参数;
视频分类模块,用于按照视频场景类型给待编码视频分类;
第三获取模块,用于获取待编码视频的视频信息;
预测模块,用于根据所述待编码视频的视频信息,通过块划分预测网络模型预测对所述待编码视频如何进行块划分;
结果输出模块,用于输出块划分预测结果。
CN202110354393.6A 2021-04-01 2021-04-01 一种结合视频分析的快速模式决策方法及装置 Active CN112738511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110354393.6A CN112738511B (zh) 2021-04-01 2021-04-01 一种结合视频分析的快速模式决策方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110354393.6A CN112738511B (zh) 2021-04-01 2021-04-01 一种结合视频分析的快速模式决策方法及装置

Publications (2)

Publication Number Publication Date
CN112738511A CN112738511A (zh) 2021-04-30
CN112738511B true CN112738511B (zh) 2021-06-25

Family

ID=75596284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110354393.6A Active CN112738511B (zh) 2021-04-01 2021-04-01 一种结合视频分析的快速模式决策方法及装置

Country Status (1)

Country Link
CN (1) CN112738511B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676729A (zh) * 2021-07-12 2021-11-19 杭州未名信科科技有限公司 一种视频编码的方法、装置、计算机设备及存储介质
CN116095359A (zh) * 2021-11-02 2023-05-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及可读存储介质
CN113992915B (zh) * 2021-12-28 2022-05-17 康达洲际医疗器械有限公司 一种可适用于vvc帧内预测的编码单元划分方法与系统
CN115052154B (zh) * 2022-05-30 2023-04-14 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
CN116389763B (zh) * 2023-06-05 2023-08-11 瀚博半导体(上海)有限公司 基于多种编码器的视频编码方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902665B2 (en) * 2019-03-28 2021-01-26 Adobe Inc. Rendering images from deeply learned raytracing parameters
CN110430398B (zh) * 2019-08-06 2021-01-19 杭州微帧信息科技有限公司 一种基于强化学习的视频编码分布式方法
CN111047529B (zh) * 2019-11-28 2023-05-23 杭州当虹科技股份有限公司 一种基于机器学习的视频处理方法

Also Published As

Publication number Publication date
CN112738511A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112738511B (zh) 一种结合视频分析的快速模式决策方法及装置
CN111866512B (zh) 视频解码方法、视频编码方法、装置、设备及存储介质
JP7170669B2 (ja) 最後の有意係数フラグのコーディング
WO2015096822A1 (zh) 图像编码、解码方法及装置
CN108989802B (zh) 一种利用帧间关系的hevc视频流的质量估计方法及系统
WO2018140108A1 (en) Transform coefficient coding using level maps
CN103546749A (zh) 利用残差系数分布特征和贝叶斯定理优化hevc残差编码的方法
CN111741299B (zh) 帧内预测模式的选择方法、装置、设备及存储介质
CN113727106B (zh) 视频编码、解码方法、装置、电子设备及存储介质
CN111988628B (zh) 基于强化学习的vvc的快速帧内编码方法
CN104883566B (zh) 一种适用于hevc标准的帧内预测块大小划分的快速算法
CN111586405B (zh) 一种多功能视频编码中基于alf滤波的预测模式快速选择方法
CN107690069B (zh) 一种数据驱动的级联视频编码方法
CN114257810B (zh) 上下文模型的选择方法、装置、设备及存储介质
Yang et al. Fast intra encoding decisions for high efficiency video coding standard
CN110913232B (zh) 一种tu划分模式的选择方法及装置、可读存储介质
CN112001854A (zh) 一种编码图像的修复方法及相关系统和装置
CN111988618A (zh) 进行解码、编码的方法、解码端和编码端
Wang et al. Overview of the second generation avs video coding standard (avs2)
CN112243123B (zh) 一种基于无损编码的hevc码率优化方法
KR101247024B1 (ko) 루프 내 전처리 필터링을 이용한 움직임 추정 및 보상 방법
CN107343199B (zh) 用于hevc中样点的快速自适应补偿方法
CN111918059A (zh) 硬件友好的基于回归树的帧内预测模式决策方法及装置
Jeong et al. Fast HEVC intra coding by predicting the rate-distortion cost for a low-complexity encoder
Zheng et al. Fast algorithm for intra prediction of HEVC using adaptive decision trees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Fan Juanting

Inventor after: Mei Yuangang

Inventor after: Jin Xing

Inventor after: Peng Bin

Inventor after: Liu Yuxin

Inventor after: Zhu Zheng

Inventor before: Fan Juanting

Inventor before: Mei Yuangang

Inventor before: Liu Yuxin

Inventor before: Zhu Zheng

CB03 Change of inventor or designer information