CN117793352B - 基于语义理解的视频压缩方法、装置、设备及存储介质 - Google Patents
基于语义理解的视频压缩方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117793352B CN117793352B CN202410194892.7A CN202410194892A CN117793352B CN 117793352 B CN117793352 B CN 117793352B CN 202410194892 A CN202410194892 A CN 202410194892A CN 117793352 B CN117793352 B CN 117793352B
- Authority
- CN
- China
- Prior art keywords
- video frame
- content
- video
- weight
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007906 compression Methods 0.000 title claims abstract description 134
- 230000006835 compression Effects 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 96
- 230000008859 change Effects 0.000 claims abstract description 176
- 238000013139 quantization Methods 0.000 claims abstract description 120
- 230000004913 activation Effects 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 90
- 230000008451 emotion Effects 0.000 claims description 72
- 238000004364 calculation method Methods 0.000 claims description 35
- 230000007704 transition Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013144 data compression Methods 0.000 description 53
- 238000010586 diagram Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请涉及视频压缩技术领域,尤其涉及一种基于语义理解的视频压缩方法、装置、设备及存储介质,其中方法包括:基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率;基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重;基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数,基于基本量化参数对视频帧进行压缩;本申请便于同时保证视频的压缩效率与压缩质量。
Description
技术领域
本申请涉及视频压缩技术领域,尤其涉及一种基于语义理解的视频压缩方法、装置、设备及存储介质。
背景技术
视频传输是虚拟现实(VR)以及增强现实(AR)等新兴技术中的重要一环,随着4K、8K等高分辨率视频格式的出现,需要传输的视频体积也随之增大,为此需要对先对视频进行压缩编码,然后再对视频进行传输。
目前常见的视频压缩编码技术有高效视频编码 (HEVC/H.265)以及AV1编码技术等;其中,高效视频编码 (HEVC/H.265)通过使用编码块结构、帧内预测以及并行处理技术等进行视频压缩;AV1编码技术通过引入帧间预测、块分割技术进行视频压缩。
但是,高效视频编码 (HEVC/H.265)以及AV1编码技术主要依赖于传统的帧内数据压缩技术,对于视频内容的理解仍局限于基本的像素级信息;这两种视频压缩方法在处理内容复杂度高或动态变化大的场景时,往往无法充分适应,从而导致压缩后的视频质量不理想;且,AV1编码技术编解码过程的计算复杂度相对较高,从而导致视频压缩的效率较低,难以满足实时传输的需求;综上可见,现有技术难以同时保证视频的压缩效率与压缩质量。
发明内容
为了便于同时保证视频的压缩效率与压缩质量,本申请实施例提供一种基于语义理解的视频压缩方法、装置、设备及存储介质。
第一方面,本申请实施例提供一种基于语义理解的视频压缩方法,包括:
基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
基于所述语义标签对所述视频帧进行内容复杂度计算得到内容复杂度,基于所述语义标签对所述视频帧进行内容变化率计算得到内容变化率;
基于所述内容变化率为所述内容复杂度匹配第一权重,还为所述内容变化率匹配第二权重;
基于所述第一权重、所述第二权重对所述内容复杂度与所述内容变化率进行加权处理,得到基本量化参数,基于所述基本量化参数对所述视频帧进行压缩。
第二方面,本申请实施例提供一种基于语义理解的视频压缩装置,包括:
标签计算模块,用于基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
内容计算模块,用于基于所述语义标签对所述视频帧进行内容复杂度计算得到内容复杂度,基于所述语义标签对所述视频帧进行内容变化率计算得到内容变化率;
权重匹配模块,用于基于所述内容变化率为所述内容复杂度匹配第一权重,还为所述内容变化率匹配第二权重;
视频压缩模块,用于基于所述第一权重、所述第二权重对所述内容复杂度与所述内容变化率进行加权处理,得到基本量化参数,基于所述基本量化参数对所述视频帧进行压缩。
第三方面,本申请实施例提供了一种计算机设备,计算机设备包括存储器和处理器,所述存储器存储有计算机程序,处理器执行该计算机程序时实现上述的方法中的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
第五方面,本申请实施例还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
上述基于语义理解的视频压缩方法、装置、设备及存储介质的实施例,先计算出视频帧中涉及的各个语义标签,从而理解出视频帧中所涉及的内容,然后计算出视频帧上每个语义标签所属区域的内容复杂度与内容变化率,接着根据内容变化率确定内容复杂度与内容变化率各自对应的权重,然后再根据内容复杂度、内容变化率、权重计算出语义标签所属区域的基本量化参数,之后根据基本量化参数对对应的视频帧区域进行压缩,如此便于对视频帧中不同内容所涉及的区域执行不同的压缩策略,从而实现同时保证视频的压缩效率与压缩质量。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一个实施例中基于语义理解的视频压缩方法的应用环境图;
图2为本申请实施例一中提供的一种基于语义理解的视频压缩方法流程图;
图3为本申请实施例二中提供的一种基于语义理解的视频压缩方法流程图;
图4为本申请实施例三中提供的一种基于语义理解的视频压缩方法流程图;
图5为本申请实施例四中提供的一种基于语义理解的视频压缩方法流程图;
图6为本申请实施例五中提供的一种基于语义理解的视频压缩方法流程图;
图7为本申请一个实施例中提供的第一种基于语义理解的视频压缩装置的结构示意图;
图8为本申请一个实施例中提供的第二种基于语义理解的视频压缩装置的结构示意图;
图9为本申请一个实施例中提供的第三种基于语义理解的视频压缩装置的结构示意图;
图10为本申请一个实施例中提供的第四种基于语义理解的视频压缩装置的结构示意图;
图11为本申请一个实施例中提供的第五种基于语义理解的视频压缩装置的结构示意图;
图12为本申请一个实施例中提供的一种计算机设备的结构示意图;
图13为本申请一个实施例中提供的一种计算机可读存储介质的内部结构图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
为解决上述问题,本公开实施例提供了一种基于语义理解的视频压缩方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
实施例一
图2为本申请实施例一提供的一种基于语义理解的视频压缩方法流程图,参考图2,该方法可以由执行该种方法的装置来执行,该装置可以由软件和/或硬件的方式实现,该方法包括:
S110、基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签。
需要说明的是,本实施例中设有视频压缩系统,视频压缩系统中设有第一神经网络,第一神经网络中设有第一激活函数、权重矩阵以及概率分布转换函数;其中,第一神经网络具体为卷积神经网络,第一神经网络用于对视频的视频帧进行处理,从而提升出视频帧中的特征,其中,特征至少包括边缘检测特征、纹理识别特征以及形状识别特征中的一种或多种;第一激活函数具体为一种非线性激活函数,第一激活函数用于对特征进行处理,从而得到相应的函数输出;权重矩阵由预设的一组权重组成,权重矩阵用于与函数输出做乘积,从而减小最终计算出的语义标签的误差;概率分布转换函数用于处理权重矩阵与函数输出的乘积,从而输出与视频帧上不同内容一一对应的语义标签;示例性的,语义标签可能为“人物”、“汽车”、“树木”等。
在实施中,视频压缩系统按照时序获取待压缩视频中的视频帧,然后将视频帧输入至第一神经网络中进行处理,得到若干特征;然后将特征输入至第一激活函数中进行处理,得到与特征对应的函数输出;接着将函数输出与预设的权重矩阵作乘积,最后将乘积输入至概率分布转换函数中进行处理,得到视频帧上对应内容的概率,其中,内容和上述语义标签对应,可能为“人物”、“汽车”、“树木”等;然后判断内容的概率是否大于预设的概率阈值,若是,则为对应的内容赋予对应的语义标签;示例性的,如视频帧中的一个内容为“人物”,概率分布转换函数计算出的“人物”的概率为85%,其中,对应的概率阈值为70%,则人物”的概率大于对应的概率阈值,则判定该内容为“人物”,并为该内容赋予“人物”的语义标签。
需要说明的是,通过上述方式为视频帧上的每个内容赋予对应的语义标签,相较于现有技术实现了对视频帧的深度理解,便于后续对视频帧上不同的内容进行辨别,从而确定不同内容的重要性,并对不同的内容执行不同的压缩策略。
S120、基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率。
需要说明的是,视频帧上不同内容所在的区域具有不同的内容复杂度,示例性的,若某一内容所在的区域中包含大量图像细节,且具有大量复杂的纹理和背景,则该区域的内容复杂度高;视频帧上不同的内容具有不同的内容变化率,示例性的,相邻的两帧视频帧,分别记为第一视频帧与第二视频帧;相对于第一视频帧,一个内容在第二视频帧中姿态或者位置未发生变化,如“汽车”,另一个内容在第二视频帧中姿态或者位置发生变化,如“人物”,则“人物”的内容变化率较高,而“汽车”的内容变化率较低。视频压缩系统中预设有内容复杂度计算公式与内容变化率计算公式,其中,内容复杂度计算公式用于对一个视频帧上与语义标签对应的区域(也即与语义标签对应的内容所在的区域)进行内容复杂度计算,从而得出与该区域对应的内容复杂度,如此,可以计算视频帧上不同区域的内容复杂度;内容变化率计算公式用于对时序上相邻的视频帧上与语义标签对应的区域进行内容变化率计算,如此,可以计算视频帧上不同区域的内容变化率。
在实施中,以视频帧上的其中一个语义标签对应的区域为例,先确定视频帧上与该语义标签对应的区域,然后通过预设的内容复杂度计算公式计算该区域的内容复杂度,得到内容复杂度C,还通过预设的内容变化率计算公式计算该区域的内容变化率,得到内容变化率V。
S130、基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重。
需要说明的是,为了保证视频压缩效率的同时还保证视频压缩质量,对于一些内容变化率较高的视频帧中的区域,需要增加该区域的数据压缩率,从而减少对应的压缩视频中与该区域对应的数据量;对于一些内容变化率较低的视频帧中的区域,则需要降低该区域的数据压缩率,从而尽量增加对应的压缩视频中与该区域对应的数据量,以保证该区域的图像细节;故,视频帧中同一个内容对应的区域在内容变化率不同的情况下,对数据压缩率的需求是不同的,在数据压缩率需求高的情况,需要侧重对内容变化率的计算,在数据压缩率需求低的情况,需要侧重对内容复杂度的计算;为此,在计算出内容变化率后,进一步的,还根据内容变化率为与该内容对应的内容复杂度匹配第一权重alpha,还为与该内容对应的内容变化率匹配第二权重beta;第一权重alpha与第二权重beta的具体数值由内容变化率决定。
在实施中,通过上述步骤计算出内容变化率V后,进一步的,判断内容变化率V是否大于预设的内容变化率阈值,其中,内容变化率阈值/>用于与内容变化率V进行大小比较,从而确定内容变化率V较高还是较低;若内容变化率V大于预设的内容变化率阈值/>,说明视频帧中对应内容的内容变化率较高,此时需要增加视频帧中对应内容所在区域的数据压缩率,此时相对于对该内容所在区域进行内容复杂度计算,更需侧重对该区域进行内容变化率计算,也即选择数值较大的第一权重alpha;若内容变化率V不大于预设的内容变化率阈值/>,说明视频帧中对应内容的内容变化率较低,此时需要降低视频帧中对应内容所在区域的数据压缩率,此时相对于对该内容所在区域进行内容变化率计算,更需侧重对该区域进行内容复杂度计算,也即选择数值较大的第二权重beta。
S140、基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数,基于基本量化参数对视频帧进行压缩。
需要说明的是,为了具体确定视频帧每个内容对应区域的具体数据压缩率,还需要综合第一权重、第二权重对内容复杂度与内容变化率进行加权处理,从而得出相应的基本量化参数,然后基于与视频帧上每个内容所在区域对应的基本量化参数,确定对应区域的数据压缩率,然后对该区域进行数据压缩,从而实现整个视频帧的数据压缩,进而实现整个待压缩视频的数据压缩。
在实施中,以视频帧中其中一个内容的所在区域为例,基于预设的内容复杂度计算公式对该区域的信息进行处理,计算出对应的内容复杂度C,然后基于预设的内容变化率对该区域的信息进行处理,计算出对应的内容变化率V;然后基于内容变化率V确定与该区域对应的内容复杂度C的第一权重alpha,以及与该区域对应的内容变化率V的第二权重beta;进一步的,综合第一权重、第二权重对内容复杂度与内容变化率进行加权处理,从而得出相应的基本量化参数Q,其中Q=alpha * C + beta * V;然后基于基本量化参数Q确定与该区域对应的数据压缩率,对该区域进行数据压缩,从而实现整个视频帧的数据压缩,进而实现整个待压缩视频的数据压缩。
需要说明的是,先计算出视频帧中涉及的各个语义标签,从而理解出视频帧中所涉及的内容,然后计算出视频帧上每个语义标签所属区域的内容复杂度与内容变化率,接着根据内容变化率确定内容复杂度与内容变化率各自对应的权重,然后再根据内容复杂度、内容变化率、权重计算出语义标签所属区域的基本量化参数,之后根据基本量化参数对对应的视频帧区域进行压缩,如此便于对视频帧中不同内容所涉及的区域执行不同的压缩策略,从而实现在保证视频压缩效率的同时也保证压缩质量。
图2为一个实施例中基于语义理解的视频压缩方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行;除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行;并且图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
图3为本申请实施例二提供的一种基于语义理解的视频压缩方法流程图,参考图3,该方法可以由执行该种方法的装置来执行,该装置可以由软件和/或硬件的方式实现,该方法包括:
S210、基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签。
需要说明的是,S210步骤同上述S110步骤,此处不再赘述。
S220、基于第二神经网络处理视频帧上与语义标签对应的区域得到帧间差异。
需要说明的是,视频压缩系统中设有第二神经网络,在本实施例中,第二神经网络具体为循环神经网络(RNN),第二神经网络用于识别视频帧上与语义标签对应的区域,预测与语义标签对应的区域在时序上相邻的两视频帧之间的差异。
在实施中,将时序上相邻的两视频帧分别记为 F_t-1与 F_t ,将 F_t-1与 F_t输入至第二神经网络中进行处理,以第二神经网络对视频帧上其中一个语义标签对应的区域进行处理的过程为例,第二神经网络先识别出 F_t-1与 F_t上与该语义标签对应的区域,然后计算该区域在F_t-1与 F_t之间的差异,且将差异记为帧间差异RNN(F_t-1, F_t)。
S230、基于第二激活函数处理帧间差异得到差异量化值。
需要说明的是,视频压缩系统中设有第二激活函数,在本实施例中,第二激活函数具体为双曲正切函数 P_t ;第二激活函数用于将上述步骤计算出的帧间差异RNN(F_t-1,F_t)量化为[-1,1]范围中的一个量化值;其中,P_t= tanh(RNN(F_t-1, F_t)) 。
在实施中,通过上述步骤计算出帧间差异RNN(F_t-1, F_t)后,进一步的,将帧间差异RNN(F_t-1, F_t)输入至第二激活函数中进行量化处理,从而得到相应的量化值,记为差异量化值tanh(RNN(F_t-1, F_t))。
S240、判断差异量化值是否超出预设的差异量化阈值范围得到第一判断结果。
需要说明的是,若同一语义标签对应的区域在相邻两视频帧之间的差异较大,也即差异量化值的绝对值较大,则说明该区域在相邻两视频帧之间发生的变化显著;若同一语义标签对应的区域在相邻两视频帧之间的差异较小,也即差异量化值的绝对值较小,则说明该区域在相邻两视频帧之间发生的变化不显著;为了便于判断差异量化值的绝对值是较大还是较小,从而判断该区域在相邻两视频帧之间发生的变化是显著还是不显著,视频压缩系统中预设有差异量化阈值范围。
在实施中,通过上述步骤计算出差异量化值后,进一步的,判断该差异量化值是否超过预设的差异量化阈值范围,并得到相应的判断结果,记为第一判断结果;若第一判断结果为该差异量化值超过预设的差异量化阈值范围,则说明差异量化值的绝对值较大,若第一判断结果为该差异量化值未超过预设的差异量化阈值范围,则说明差异量化值的绝对值较小。
S250、基于第一判断结果确定视频帧上与语义标签对应区域的压缩率,基于压缩率对视频帧进行压缩。
需要说明的是,若差异量化值的绝对值较大,也即说明对应的区域在相邻两视频帧之间发生的变化显著,也说明该区域是值得重点关注的区域,此时需要为该区域匹配较低的数据压缩率,为该区域应用更高的数据量,从而提升该区域的视频质量;若差异量化值的绝对值较小,也即说明对应的区域在相邻两视频帧之间发生的变化不显著,说明该区域不是值得重点关注的区域,此时需要为该区域匹配较高的数据压缩率,为该区域应用更低的数据量,从而减少压缩视频的数据量;如此,对于一个视频帧,对其值得重点关注的区域使用较高的数据压缩率,也即在压缩视频中该区域对应有更多的数据量,从而保证了该区域的视频质量;对而对不值得重点关注的区域使用较低的数据压缩率;也即在压缩视频中该区域对应有更少的数据量,从而保证了该区域的视频压缩效率。
在实施中,通过上述步骤得到第一判断结果后,进一步的,若第一判断结果为该差异量化值超过预设的差异量化阈值范围,则为对应的区域匹配较低的数据压缩率;若第一判断结果为该差异量化值未超过预设的差异量化阈值范围,则为对应的区域匹配较高的数据压缩率;按照上述步骤对视频帧中每个内容所在的区域进行操作,从而实现对该视频帧的压缩,进而实现对整个待压缩视频的压缩;如此,在保证视频压缩效率的同时还能保证视频压缩的质量。
图3为一个实施例中基于语义理解的视频压缩方法的流程示意图。应该理解的是,虽然图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行;除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行;并且图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例三
图4为本申请实施例三提供的一种基于语义理解的视频压缩方法流程图,参考图4,该方法可以由执行该种方法的装置来执行,该装置可以由软件和/或硬件的方式实现,该方法包括:
S310、基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签。
S320、基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率。
S330、基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重。
S340、基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数。
S350、基于情感分析模型处理视频帧上与语义标签对应的内容得到情感倾向值。
需要说明的是,视频压缩系统中设有情感分析模型,情感分析模型用于对视频帧上与语义标签对应的内容所在的区域进行分析,如,识别人物表情、识别情境等多种情感信号,从而分析出与语义标签对应的内容所在区域的情感倾向值E。
在实施中,将视频帧输入至情感分析模型中进行处理,情感分析模型对视频帧上与语义标签对应的内容所在的区域进行分析,从而得出与每个内容所在区域一一对应的情感倾向值E;其中,情感倾向值E为量化值,量化值所在的量化范围为[-1,1]。
S360、判断情感倾向值是否超过预设的情感倾向阈值范围得到第二判断结果。
需要说明的是,若情感倾向值的绝对值偏大,则视频帧上对应内容所在的区域很有可能包含有重要的人物面部表情或关键情节,此时需要保留视频帧上对应内容所在的区域更多的细节,也就要求在视频压缩时,需要对视频帧上对应的区域使用较低的数据压缩率;若情感倾向值的绝对值偏小,则视频帧上对应内容所在的区域可能没有包含有重要的人物面部表情或关键情节,此时不需要保留视频帧上对应内容所在的区域更多的细节,也就要求在视频压缩时,需要对视频帧上对应的区域使用较高的数据压缩率。
为了便于判断情感倾向值的绝对值是偏大还是偏小,视频压缩系统预设有情感倾向阈值范围。
在实施中,通过上述步骤计算出情感倾向值后,进一步的,判断情感倾向值超过预设的情感倾向阈值范围,从而得到对应的判断结果,记为第二判断结果。
S370、基于第二判断结果确定情感调谐因子。
需要说明的是,后续为了实现对视频帧的压缩,需要对根据第二判断结果为视频帧上计算出的每个情感倾向值E匹配对应的情感调谐因子gamma。若第二判断结果为情感倾向值E超过预设的情感倾向阈值范围,则说明情感倾向值的绝对值偏大,此时需要对视频帧上对应的区域使用较低的数据压缩率,此时要求为情感倾向值E匹配较小的情感调谐因子gamma;若第二判断结果为情感倾向值E未超过预设的情感倾向阈值范围,则说明情感倾向值的绝对值偏小,此时需要对视频帧上对应的区域使用较高的数据压缩率,此时要求为情感倾向值E匹配较大的情感调谐因子gamma。
S380、基于情感调谐因子、基本量化参数、情感倾向值以及预设的第一公式参数计算情感调谐量化参数,基于情感调谐量化参数对视频帧进行压缩。
需要说明的是,视频帧上不同内容所在的区域均一一对应有情感调谐量化参数Q_E,情感调谐量化参数Q_E用于决定对应区域的数据压缩率;情感调谐量化参数Q_E越大,对应区域的数据压缩率越大;情感调谐量化参数Q_E越小,对应区域的数据压缩率越小;在本实施例中,情感调谐量化参数Q_E的计算公式为:Q_E = Q * (1 + gamma * E),其中,Q为上述基本量化参数Q、1为预设的第一公式参数、gamma为情感调谐因子、E为情感倾向值。
在实施中,通过上述步骤计算出情感倾向值E,以及与情感倾向值E对应的情感调谐因子gamma后,进一步的,将情感倾向值E与对应的情感调谐因子gamma代入上述情感调谐量化参数Q_E的计算公式中,从而计算出对应的情感调谐量化参数Q_E;然后按照情感调谐量化参数Q_E为视频帧中对应的区域匹配对应的数据压缩率,从而实现对视频帧的压缩,进而实现对待压缩视频的压缩。
需要说明的是, 本实施例上述步骤的实施,可以为视频帧中具有重要的人物面部表情或关键情节的区域匹配较低的情感调谐量化参数Q_E,从而为对应的区域匹配较低的数据压缩率,也即为该区域保留更多的数据量,从而保留该区域更多的细节,以提升视频压缩的质量;还可以为视频帧中未具有重要的人物面部表情或关键情节的区域匹配较高的情感调谐量化参数Q_E,从而为对应的区域匹配较高的数据压缩率,也即为该区域保留更少的数据量,以提升视频压缩的效率;如此,便于在保证视频压缩效率的同时也保证视频压缩的质量。
图4为一个实施例中基于语义理解的视频压缩方法的流程示意图。应该理解的是,虽然图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行;除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行;并且图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例四
图5为本申请实施例四提供的一种基于语义理解的视频压缩方法流程图,参考图5,该方法可以由执行该种方法的装置来执行,该装置可以由软件和/或硬件的方式实现,该方法包括:
S410、基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签。
S420、基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率。
S430、基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重。
S440、基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数。
S450、基于场景变换识别模型处理视频帧得到场景变换值,基于场景变换值确定场景过渡调谐因子。
需要说明的是,视频压缩系统设有场景变换识别模型,场景变换识别模型用于识别与语义标签对应的内容所在的区域在时序上相邻两视频帧之间的像素变换程度。
在实施中,将时序上相邻两视频帧分别记为F_t-1与 F_t,将F_t-1与 F_t输入至场景变换识别模型中进行处理,场景变换识别模型输出对应的场景变换值S,需要说明的是,场景变换值S代表对应区域的像素在相邻两视频帧之间变换程度,场景变换值S较大时,说明对应区域的像素在相邻两视频帧之间变换程度较大;场景变换值S较小时,说明对应区域的像素在相邻两视频帧之间变换程度较小。
S460、判断场景变换值是否大于预设的场景变换阈值得到第三判断结果。
需要说明的是,为了便于判断计算出的场景变换值是较大还是较小,视频压缩系统中预设有用于场景变换值进行比较的场景变换阈值。
在实施中,通过上述步骤计算出场景变换值S后,进一步的,判断场景变换值S是否大于场景变换阈值,从而得到相应的判断结果,记为第三判断结果;其中,若第三判断结果为场景变换值S大于场景变换阈值/>,则说明场景变换值S较大,也即对应区域的像素在相邻两视频帧之间变换程度较大;也即此时令S=1;若第三判断结果为场景变换值S不大于场景变换阈值/>,则说明场景变换值S较小,也即对应区域的像素在相邻两视频帧之间变换程度较小;此时令S=0。
S470、基于第三判断结果确定场景变化指示值。
需要说明的是,通过第三判断结果判断出场景变换值S较大时,也即对应区域的像素在相邻两视频帧之间变换程度较大时,需要侧重压缩视频的压缩质量,此时为场景变换值S匹配较大的场景变化指示值delta,从而降低对应区域的数据压缩率;通过第三判断结果判断出场景变换值S较小时,也即对应区域的像素在相邻两视频帧之间变换程度较小时,需要侧重压缩视频的压缩效率,此时为场景变换值S匹配较小的场景变化指示值delta,从而提升对应区域的数据压缩率。
在实施中,通过第三判断结果判断出场景变换值S较大时,为场景变换值S匹配较大的场景变化指示值delta;通过第三判断结果判断出场景变换值S较小时,为场景变换值S匹配较小的场景变化指示值delta。
S480、基于场景变化指示值、场景过渡调谐因子、基本量化参数以及预设的第二公式参数计算场景过渡量化参数,基于场景过渡量化参数对视频帧进行压缩。
需要说明的是的,场景过渡量化参数Q_S与视频帧上对应语义标签所在的区域对应,场景过渡量化参数用于决定对应视频帧上对应区域的数据压缩率;场景过渡量化参数越大,对应的数据压缩率越高;场景过渡量化参数越小,对应的数据压缩率越低;其中,场景过渡量化参数Q_S的计算公式为:Q_S = Q * (1 - delta * S),其中,Q为基本量化参数、1为预设的第二公式参数、delta为场景变化指示值、S为场景变换值。
在实施中,通过上述步骤计算出基本量化参数Q、场景变换值S、以及场景变化指示值delta的情况下,进一步的,将基本量化参数Q、场景变换值S、以及场景变化指示值delta代入到场景过渡量化参数Q_S的计算公式中进行计算,从而计算出对应的场景过渡量化参数Q_S;然后为计算出的场景过渡量化参数Q_S匹配对应的数据压缩率,也即为场景过渡量化参数Q_S对应的视频帧上的区域匹配对应的数据压缩率,从而实现对应视频帧的压缩,进而实现对待压缩视频的压缩。
需要说明的是,通过本实施例上述步骤的实施,在判断出对应区域的像素在相邻两视频帧之间变换程度较大时,为对应的区域匹配较小的场景过渡量化参数Q_S,也即为对应的区域匹配较小的数据压缩率,从而在视频压缩时为该区域保留更多的数据量,如此可防止出现画面跳跃或失真现象,提升视频画面过渡的质量,从而保证视频压缩的压缩质量;在判断出对应区域的像素在相邻两视频帧之间变换程度较小时,为对应的区域匹配较大的场景过渡量化参数Q_S,也即为对应的区域匹配较大的数据压缩率,从而在视频压缩时为该区域保留更少的数据量,进而保证视频压缩的压缩效率。
图5为一个实施例中基于语义理解的视频压缩方法的流程示意图。应该理解的是,虽然图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行;除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行;并且图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例五
图6为本申请实施例五提供的一种基于语义理解的视频压缩方法流程图,参考图6,该方法可以由执行该种方法的装置来执行,该装置可以由软件和/或硬件的方式实现,该方法包括:
S510、基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签。
S520、基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率。
S530、基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重。
S540、基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数。
需要说明的是,S510-S540步骤同S110-S140步骤,此处不再赘述。
S550、获取与视频帧对应的附加数据源,附加数据源至少包括音频、字幕以及场景描述中的一种或多种。
需要说明的是,视频帧对应有附加数据源,其中附加数据源至少包括音频、字幕以及场景描述中的一种或多种;在其他实施例中,附加数据源还可包括用户交互数据等。需要说明的是,附加数据源提供了视频帧画面之外的信息,这些信息可以帮助视频压缩系统更好地理解视频帧上的与每个语义标签对应的区域所代表的信息。
S560、对视频帧进行场景分析确定与附加数据源对应的贡献度,基于贡献度确定对应附加数据源的权重系数。
需要说明的是,视频压缩系统用于对与视频帧上对应的附加数据源进行分析,从而计算出每种数据源对于理解视频帧上对应的区域所代表的信息的贡献度;其中,各种数据源对应贡献度之和为1,每个贡献度对应有对应的权重系数。
在实施中,通过视频压缩系统对视频帧进行分析,从而确定每种附加数据源对应的贡献度,以及与每个贡献度对应的权重系数theta;权重系数越小,说明视频帧上对应区域越重要,则需要保留更多的细节,也即需要为该区域匹配较低的数据压缩率;权重系数越大,说明视频帧上对应区域越不重要,需要为该区域匹配较高的数据压缩率。
S570、基于权重系数、附加数据源、基本量化参数计算融合数据量化参数,基于融合数据量化参数对视频帧进行压缩。
需要说明的是,融合数据量化参数Q_D与视频帧上对应语义标签对应的区域一一对应,融合数据量化参数用于决定对应区域的数据压缩率,融合数据量化参数越大则对应的数据压缩率越大;融合数据量化参数越小则对应的数据压缩率越小;其中,融合数据量化参数Q_D的计算公式为:Q_D = Q + sum(k=1 to n) theta_k * D_k;其中,Q为上述基本量化参数、n表示n种附加数据源、theta_k为n种附加数据源中第k个附件数据源的权重系数、D_k为n种附加数据源中第k个附件数据源对应的数值。
在实施中,通过上述步骤计算出基本量化参数Q、n种附加数据源对应的数值D_k、每种数据源对应的权重系数theta后,进一步的,代入融合数据量化参数Q_D的计算公式中进行计算,从而得到融合数据量化参数Q_D;然后根据融合数据量化参数Q_D确定视频帧上对应区域的数据压缩率,然后根据数据压缩率对对应的视频帧进行压缩,从而实现视频帧的压缩,进而实现对应待压缩视频的压缩。
需要说明的是,通过本实施例上述步骤的实施,通过对附加数据源的处理,从而确定视频帧上每个区域的重要程度,也即融合数据量化参数Q_D,融合数据量化参数Q_D越小,则对应区域的重要程度越高,然后依据融合数据量化参数Q_D确定每个区域的数据压缩率,从而对重要程度较高的区域匹配较低的数据压缩率,以保留更多的细节,从而提升视频压缩的压缩质量;并对重要程度较低的区域匹配较高的数据压缩率,从而在视频压缩过程中为对应的区域保留更少的数据量,以提升数据压缩的效率;如此便于保证视频压缩效率的同时保证视频压缩的质量。
图6为一个实施例中基于语义理解的视频压缩方法的流程示意图。应该理解的是,虽然图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行;除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行;并且图6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签,包括:
S111、基于第一神经网络处理视频帧得到帧特征。
需要说明的是,在本实施例中,第一神经网络优选为卷积神经网络(CNN),用于对视频帧进行处理,从而提取出视频帧中的各个帧特征,如边缘检测特征、纹理识别特征以及形状识别特征。
在实施中,将待压缩视频的视频帧输入至第一神经网络进行处理,第一神经网络输出提取的若干帧特征,将第一神经网络输出的帧特征记为CNN(F)。
S112、基于第一激活函数处理帧特征得到激活函数值。
需要说明的是,本实施例中,第一激活函数优选为非线性激活函数ReLU,其中,ReLU(x)= max(0, x),其中,x可为第一神经网络输出的帧特征CNN(F)。
在实施中,通过第一激活函数ReLU(x)对第一神经网络输出的帧特征CNN(F)进行计算,第一激活函数ReLU(x)输出对应的激活函数值ReLU(CNN(F))。
S113、基于权重矩阵处理激活函数值得到函数输入数据。
需要说明的是,本实施例中,预设有与激活函数值ReLU(CNN(F))对应的权重矩阵W。
在实施中,计算激活函数值ReLU(CNN(F))与W的乘积,得到函数输入数据W * ReLU(CNN(F))。
S114、基于概率分布转换函数处理函数输入数据得到语义标签。
需要说明的是,本实施例中,概率分布转换函数优选为Softmax 函数,概率分布转换函数用于对函数输入数据W * ReLU(CNN(F))进行处理,从而输入与视频帧对应的一组语义标签L,其中, L = softmax(W * ReLU(CNN(F))) 。
在实施中,将函数输入数据W * ReLU(CNN(F))输入至概率分布转换函数中进行处理,概率分布转换函数输出与视频帧对应的一组语义标签L,具体的,该组语义标签L包括但不限于“人物”、“汽车”、“树木”等。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述实施例一所涉及的基于语义理解的视频压缩方法的基于语义理解的视频压缩装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于语义理解的视频压缩装置实施例中的具体限定可以参见上文中对于基于语义理解的视频压缩方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种基于语义理解的视频压缩装置,包括:
标签计算模块110,用于基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
内容计算模块120,用于基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率;
权重匹配模块130,用于基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重;
视频压缩模块140,用于基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数,基于基本量化参数对视频帧进行压缩。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述实施例二所涉及的基于语义理解的视频压缩方法的基于语义理解的视频压缩装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于语义理解的视频压缩装置实施例中的具体限定可以参见上文中对于基于语义理解的视频压缩方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种基于语义理解的视频压缩装置,包括:
标签计算模块210,用于基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
帧差计算模块220,用于基于第二神经网络处理视频帧上与语义标签对应的区域得到帧间差异;
量化值计算模块230,用于基于第二激活函数处理帧间差异得到差异量化值;
第一判断模块240,用于判断差异量化值是否超出预设的差异量化阈值范围得到第一判断结果;
视频压缩模块250,用于基于第一判断结果确定视频帧上与语义标签对应区域的压缩率,基于压缩率对视频帧进行压缩。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述实施例三所涉及的基于语义理解的视频压缩方法的基于语义理解的视频压缩装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于语义理解的视频压缩装置实施例中的具体限定可以参见上文中对于基于语义理解的视频压缩方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种基于语义理解的视频压缩装置,包括:
标签计算模块310,用于基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
内容计算模块320,用于基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率;
权重匹配模块330,用于基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重;
参数计算模块340,用于基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数;
倾向值计算模块350,用于基于情感分析模型处理视频帧上与语义标签对应的内容得到情感倾向值;
第二判断模块360,用于判断情感倾向值是否超过预设的情感倾向阈值范围得到第二判断结果;
因子计算模块370,用于基于第二判断结果确定情感调谐因子;
视频压缩模块380,用于基于情感调谐因子、基本量化参数、情感倾向值以及预设的第一公式参数计算情感调谐量化参数,基于情感调谐量化参数对视频帧进行压缩。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述实施例四所涉及的基于语义理解的视频压缩方法的基于语义理解的视频压缩装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于语义理解的视频压缩装置实施例中的具体限定可以参见上文中对于基于语义理解的视频压缩方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种基于语义理解的视频压缩装置,包括:
标签计算模块410,用于基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
内容计算模块420,用于基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率;
权重匹配模块430,用于基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重;
参数计算模块440,用于基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数;
因子计算模块450,用于基于场景变换识别模型处理视频帧得到场景变换值,基于场景变换值确定场景过渡调谐因子;
第三判断模块460,用于判断场景变换值是否大于预设的场景变换阈值得到第三判断结果;
指示值确定模块470,用于基于第三判断结果确定场景变化指示值;
视频压缩模块480,用于基于场景变化指示值、场景过渡调谐因子、基本量化参数以及预设的第二公式参数计算场景过渡量化参数,基于场景过渡量化参数对视频帧进行压缩。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述实施例五所涉及的基于语义理解的视频压缩方法的基于语义理解的视频压缩装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于语义理解的视频压缩装置实施例中的具体限定可以参见上文中对于基于语义理解的视频压缩方法的限定,在此不再赘述。
在一个实施例中,如图11所示,提供了一种基于语义理解的视频压缩装置,包括:
标签计算模块510,用于基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
内容计算模块520,用于基于语义标签对视频帧进行内容复杂度计算得到内容复杂度,基于语义标签对视频帧进行内容变化率计算得到内容变化率;
权重匹配模块530,用于基于内容变化率为内容复杂度匹配第一权重,还为内容变化率匹配第二权重;
参数计算模块540,用于基于第一权重、第二权重对内容复杂度与内容变化率进行加权处理,得到基本量化参数;
数据源获取模块550,用于获取与视频帧对应的附加数据源,附加数据源至少包括音频、字幕以及场景描述中的一种或多种;
权重系数计算模块560,用于对视频帧进行场景分析确定与附加数据源对应的贡献度,基于贡献度确定对应附加数据源的权重系数;
视频压缩模块570,用于基于权重系数、附加数据源、基本量化参数计算融合数据量化参数,基于融合数据量化参数对视频帧进行压缩。
上述基于语义理解的视频压缩装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义理解的视频压缩方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,如图13所示,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于语义理解的视频压缩方法,其特征在于,包括:
基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
基于所述语义标签对所述视频帧进行内容复杂度计算得到内容复杂度,基于所述语义标签对所述视频帧进行内容变化率计算得到内容变化率;
基于所述内容变化率为所述内容复杂度匹配第一权重,还为所述内容变化率匹配第二权重;
基于所述第一权重、所述第二权重对所述内容复杂度与所述内容变化率进行加权处理,得到基本量化参数,基于所述基本量化参数对所述视频帧进行压缩;
其中,基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签,包括:
基于所述第一神经网络处理所述视频帧得到帧特征;
基于所述第一激活函数处理所述帧特征得到激活函数值;
基于所述权重矩阵处理所述激活函数值得到函数输入数据;
基于所述概率分布转换函数处理所述函数输入数据得到所述语义标签。
2.根据权利要求1所述的一种方法,其特征在于,所述基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签后的步骤包括:
基于第二神经网络处理所述视频帧上与所述语义标签对应的区域得到帧间差异;
基于第二激活函数处理所述帧间差异得到差异量化值;
判断所述差异量化值是否超出预设的差异量化阈值范围得到第一判断结果;
基于所述第一判断结果确定所述视频帧上与所述语义标签对应区域的压缩率,基于所述压缩率对所述视频帧进行压缩。
3.根据权利要求1所述的一种方法,其特征在于,所述得到基本量化参数后的步骤包括:
基于情感分析模型处理所述视频帧上与所述语义标签对应的内容得到情感倾向值;
判断所述情感倾向值是否超过预设的情感倾向阈值范围得到第二判断结果;
基于所述第二判断结果确定情感调谐因子;
基于所述情感调谐因子、所述基本量化参数、情感倾向值以及预设的第一公式参数计算情感调谐量化参数,基于所述情感调谐量化参数对所述视频帧进行压缩。
4.根据权利要求1所述的一种方法,其特征在于,得到基本量化参数后的步骤包括:
基于场景变换识别模型处理所述视频帧得到场景变换值,基于所述场景变换值确定场景过渡调谐因子;
判断所述场景变换值是否大于预设的场景变换阈值得到第三判断结果;
基于所述第三判断结果确定场景变化指示值;
基于所述场景变化指示值、所述场景过渡调谐因子、所述基本量化参数以及预设的第二公式参数计算场景过渡量化参数,基于所述场景过渡量化参数对所述视频帧进行压缩。
5.根据权利要求1所述的一种方法,其特征在于,得到基本量化参数后的步骤包括:
获取与所述视频帧对应的附加数据源,所述附加数据源至少包括音频、字幕以及场景描述中的一种或多种;
对所述视频帧进行场景分析确定与所述附加数据源对应的贡献度,基于所述贡献度确定对应所述附加数据源的权重系数;
基于所述权重系数、所述附加数据源、所述基本量化参数计算融合数据量化参数,基于所述融合数据量化参数对所述视频帧进行压缩。
6.一种基于语义理解的视频压缩装置,其特征在于,所述装置包括:
标签计算模块,用于基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签;
内容计算模块,用于基于所述语义标签对所述视频帧进行内容复杂度计算得到内容复杂度,基于所述语义标签对所述视频帧进行内容变化率计算得到内容变化率;
权重匹配模块,用于基于所述内容变化率为所述内容复杂度匹配第一权重,还为所述内容变化率匹配第二权重;
视频压缩模块,用于基于所述第一权重、所述第二权重对所述内容复杂度与所述内容变化率进行加权处理,得到基本量化参数,基于所述基本量化参数对所述视频帧进行压缩;
其中,基于第一神经网络、第一激活函数、权重矩阵以及概率分布转换函数对视频帧进行语义理解得到语义标签,包括:
基于所述第一神经网络处理所述视频帧得到帧特征;
基于所述第一激活函数处理所述帧特征得到激活函数值;
基于所述权重矩阵处理所述激活函数值得到函数输入数据;
基于所述概率分布转换函数处理所述函数输入数据得到所述语义标签。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
9.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410194892.7A CN117793352B (zh) | 2024-02-22 | 2024-02-22 | 基于语义理解的视频压缩方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410194892.7A CN117793352B (zh) | 2024-02-22 | 2024-02-22 | 基于语义理解的视频压缩方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117793352A CN117793352A (zh) | 2024-03-29 |
CN117793352B true CN117793352B (zh) | 2024-05-10 |
Family
ID=90391201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410194892.7A Active CN117793352B (zh) | 2024-02-22 | 2024-02-22 | 基于语义理解的视频压缩方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117793352B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105580373A (zh) * | 2013-07-23 | 2016-05-11 | 诺基亚技术有限公司 | 用于视频编码和解码的装置、方法和计算机程序 |
CN114067007A (zh) * | 2020-07-30 | 2022-02-18 | 华为技术有限公司 | 图像处理方法与装置、神经网络训练的方法与装置 |
CN114297439A (zh) * | 2021-12-20 | 2022-04-08 | 天翼爱音乐文化科技有限公司 | 一种短视频标签确定方法、系统、装置及存储介质 |
CN116489363A (zh) * | 2023-04-11 | 2023-07-25 | 天津大学 | 基于卷积神经网络的视频双向编码方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10999582B1 (en) * | 2019-10-14 | 2021-05-04 | Awecom, Inc. | Semantically segmented video image compression |
-
2024
- 2024-02-22 CN CN202410194892.7A patent/CN117793352B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105580373A (zh) * | 2013-07-23 | 2016-05-11 | 诺基亚技术有限公司 | 用于视频编码和解码的装置、方法和计算机程序 |
CN114067007A (zh) * | 2020-07-30 | 2022-02-18 | 华为技术有限公司 | 图像处理方法与装置、神经网络训练的方法与装置 |
CN114297439A (zh) * | 2021-12-20 | 2022-04-08 | 天翼爱音乐文化科技有限公司 | 一种短视频标签确定方法、系统、装置及存储介质 |
CN116489363A (zh) * | 2023-04-11 | 2023-07-25 | 天津大学 | 基于卷积神经网络的视频双向编码方法 |
Non-Patent Citations (1)
Title |
---|
基于视频场景深度学习的人物语义识别模型;高翔;陈志;岳文静;龚凯;;计算机技术与发展;20180207(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117793352A (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230196837A1 (en) | Action recognition method and apparatus, and device and storage medium | |
Wang et al. | Towards analysis-friendly face representation with scalable feature and texture compression | |
CN111026914B (zh) | 视频摘要模型的训练方法、视频摘要生成方法及装置 | |
CN111968150B (zh) | 一种基于全卷积神经网络的弱监督视频目标分割方法 | |
CN110147469B (zh) | 一种数据处理方法、设备及存储介质 | |
Li et al. | Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement | |
CN111274987B (zh) | 人脸表情识别方法及人脸表情识别装置 | |
CN109063626B (zh) | 动态人脸识别方法和装置 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN113128360A (zh) | 基于深度学习的司机驾驶行为检测与识别方法 | |
CN115618051B (zh) | 一种基于互联网的智慧校园监控视频存储方法 | |
CN111126389A (zh) | 文本检测方法、装置、电子设备以及存储介质 | |
WO2023036157A1 (en) | Self-supervised spatiotemporal representation learning by exploring video continuity | |
CN111382602A (zh) | 一种跨域人脸识别算法、存储介质及处理器 | |
CN116824694A (zh) | 基于时序聚合和门控Transformer的动作识别系统及方法 | |
CN108154120A (zh) | 视频分类模型训练方法、装置、存储介质及电子设备 | |
CN113489958A (zh) | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 | |
CN113689527B (zh) | 一种人脸转换模型的训练方法、人脸图像转换方法 | |
CN117793352B (zh) | 基于语义理解的视频压缩方法、装置、设备及存储介质 | |
CN113705307A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN116935476A (zh) | 人脸关键点的识别方法、装置和视频直播系统 | |
CN110826545A (zh) | 一种视频类别识别的方法及相关装置 | |
CN116246086A (zh) | 一种图像聚类方法、装置、电子设备及存储介质 | |
CN113553957A (zh) | 一种多尺度预测的行为识别系统及方法 | |
CN113297899A (zh) | 一种基于深度学习的视频哈希算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |