CN112991476B - 基于深度压缩域特征的场景分类方法、系统及设备 - Google Patents
基于深度压缩域特征的场景分类方法、系统及设备 Download PDFInfo
- Publication number
- CN112991476B CN112991476B CN202110190015.9A CN202110190015A CN112991476B CN 112991476 B CN112991476 B CN 112991476B CN 202110190015 A CN202110190015 A CN 202110190015A CN 112991476 B CN112991476 B CN 112991476B
- Authority
- CN
- China
- Prior art keywords
- channel
- dct coefficient
- image
- size
- channel dct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000007906 compression Methods 0.000 title claims abstract description 69
- 230000006835 compression Effects 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 claims abstract description 20
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 20
- 238000013139 quantization Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 8
- 239000002699 waste material Substances 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 17
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000006837 decompression Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012432 intermediate storage Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4038—Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/168—Segmentation; Edge detection involving transform domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/40—Tree coding, e.g. quadtree, octree
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20052—Discrete cosine transform [DCT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Abstract
本发明属于图像识别领域,具体涉及了一种基于深度压缩域特征的场景分类方法、系统、装置,旨在解决现有的场景分类方法由于图像的分辨率高数据庞大而导致的计算资源浪费、实时性差以及存储空间占用过多的问题。本发明包括:通过JPEG压缩方法对待测图像进行部分解码,获得待测图像的三通道DCT系数,通过反卷积调节所述三通道DCT系数的尺寸,获得尺寸匹配的三通道DCT系数,将所述尺寸匹配的三通道DCT系数进行拼接融合,获取深度压缩域特征,基于所述深度压缩域特征,通过训练好的压缩域特征分类网络,获取所述待测图像的场景类别。本发明避免了将图像全部解码造成额外计算成本增加和存储介质浪费,降低了时间消耗和计算资源消耗。
Description
技术领域
本发明属于图像识别领域,具体涉及了一种基于深度压缩域特征的场景分类方法、系统及设备。
背景技术
随着大数据的技术发展,用来训练深度学习模型的数据也越来越多。但是响应速度跟不上数据量的增长,无法对数据进行及时的处理。另一方面,训练过程中参数量巨大,容易造成内存溢出,训练无法正常进行下去。面对互联网上的海量信息,如何快速准确地识别出敏感场景在维护网络安全方面至关重要。因此亟需开发一套高效率场景分类算法。
图像处理在深度学习中具有关键性作用,目前普遍存在的图片都是经过压缩的,在输入网络前必须先解压才能在像素域中进行处理,现有的大型数据集数据量庞大、分辨率高,在解压时会消耗大量的计算资源,还会占用较多的中介存储空间,严重影响模型的训练和检测的实时性。
发明内容
为了解决现有技术中的上述问题,即现有的场景分类方法由于图像的分辨率高数据庞大而导致的计算资源浪费、实时性差以及存储空间占用过多的问题,本发明提供了一种基于深度压缩域特征的场景分类方法,该方法包括:
步骤S100,通过JPEG压缩方法对待测图像进行部分解码,获得待测图像的三通道DCT系数;所述三通道DCT系数包括Y通道DCT系数、Cb通道DCT系数和Cr通道DCT系数;
步骤S200,通过反卷积调节所述三通道DCT系数的尺寸,获得尺寸匹配的三通道DCT系数;所述尺寸匹配的三通道DCT系数的各DCT系数空间尺寸比例为:Y通道DCT系数:Cb通道DCT系数:Cr通道DCT系数=2:1:1;
步骤S300,将所述尺寸匹配的三通道DCT系数进行拼接融合,获取深度压缩域特征;
步骤S400,基于所述深度压缩域特征,通过训练好的压缩域特征分类网络,获取所述待测图像的场景类别。
进一步地,所述步骤S300,包括:
步骤S310,基于所述尺寸匹配的三通道DCT系数中的Y通道DCT系数,通过一个卷积核为1*1的卷积层得到Y通道特征向量;
基于所述Cb通道DCT系数和Cr通道DCT系数,进行反卷积操作后获得Cb通道Cr通道拼接特征向量;
步骤S320,基于所述Y通道特征向量和Cb通道Cr通道拼接特征向量,通过拼接融合模块,获取深度压缩域特征。
进一步地,所述压缩域特征分类网络,其训练方法为:
步骤A100,基于训练图像,通过如步骤S100-步骤S300的方法获取训练图像的深度压缩域特征;
步骤A200,基于所述训练图像的深度压缩域特征,依次通过卷积层、归一化层、激活函数层、全局平均池化层和全连接层获得训练图像的场景类别;
步骤A300,计算多分类交叉熵损失函数,通过梯度下降算法对压缩域特征分类网络的参数进行更新;
步骤A400,重复步骤A100-步骤A300,直至网络收敛或达到预设的迭代次数,获得训练好的压缩域特征分类网络。
进一步地,所述压缩域特征分类网络,还包括:
通过Stochastic Gradient Descent进行训练,当连续5个阶段所述多分类交叉熵损失函数不再下降时,调节学习率为现学习率的一半。
进一步地,所述步骤S100,包括:
步骤S110,基于所述待测图像,读取待测图像二进制文件;所述待测图像二进制文件由标记块组成,所述标记块为ff开头,ff后为标记块类型标记符;
步骤S120,基于所述标记符,获取霍夫曼表,并根据所述霍夫曼表依据编码规则构建霍夫曼树;
其中,霍夫曼表包括表示亮度的AC交流霍夫曼表、表示亮度的DC直流霍夫曼表、表示色度的AC交流霍夫曼表和表示色度的DC直流霍夫曼表;
步骤S130,基于所述霍夫曼树,进行译码获得直流系数和交流系数;
步骤S140,基于所述直流系数和交流系数,乘以量化矩阵,获得三通道DCT系数。
进一步地,所述步骤S200为:
将所述Cb通道DCT系数和Cr通道DCT系数通过可学习的反卷积进行上采样,获得尺寸匹配的三通道DCT系数;
其中,反卷积的输入与输出尺寸的大小关系为:
o=s*(i-1)-2*p+k
其中,o表示输出的尺寸大小,s表示步长,p表示填充大小,k表示卷积核的大小;在本实施例中,输出尺寸为输入尺寸的2倍,设定卷积核大小为(2,2),步长为(2,2)。
进一步地,所述可学习的反卷积,为一个卷积核7*7的卷积滤波器,步幅设置为2。
本发明的另一方面,提出了一种基于深度压缩域特征的场景分类系统,该系统包括:DCT系数获取模块、DCT系数尺寸调节模块、拼接融合模块和场景分类模块;
所述DCT系数获取模块,配置为通过JPEG压缩方法对待测图像进行部分解码,获得待测图像的三通道DCT系数;所述三通道DCT系数包括Y通道DCT系数、Cb通道DCT系数和Cr通道DCT系数;
所述DCT系数尺寸调节模块,配置为通过反卷积调节所述三通道DCT系数的尺寸,获得尺寸匹配的三通道DCT系数;所述尺寸匹配的三通道DCT系数的各DCT系数空间尺寸比例为:Y通道DCT系数:Cb通道DCT系数:Cr通道DCT系数=2:1:1;
所述拼接融合模块,配置为将所述尺寸匹配的三通道DCT系数进行拼接融合,获取深度压缩域特征;
所述场景分类模块,配置为基于所述深度压缩域特征,通过训练好的压缩域特征分类网络,获取所述待测图像的场景类别。
本发明的第三方面,提出了一种电子设备,其特征在于,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于深度压缩域特征的场景分类方法。
本发明的第四方面,提出了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于深度压缩域特征的场景分类方法。
本发明的有益效果:
(1)本发明基于深度压缩域特征的场景分类方法,通过对将图像部分解码得到的特征进行场景分类,避免了现有技术中必须将图像全部解码造成额外计算成本增加和存储介质浪费,降低了时间消耗和计算资源消耗,使场景分类方法具有更高的实时性。
(2)本发明基于深度压缩域特征的场景分类方法,通过设计可学习的反卷积层,将部分通道特征进行上采样至空间大小一致,利用可学习的参数能够使空间增加的同事更还原于本来的特征,更有利于各通道特征的融合,提高了融合的效果,增加了场景分类的准确性。
(3)本发明基于深度压缩域特征的场景分类方法,通过设计基于图像压缩域特征的网络,将图像部分解码提取压缩域信息进行训练,可以有效学习到图像的低频信息,也就是图像的主要信息,并且网络能够较快收敛,提高了分类的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于深度压缩域特征的场景分类方法的流程示意图;
图2是本发明基于深度压缩域特征的场景分类方法的网络结构图;
图3是用于实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种基于深度压缩域特征的场景分类方法,所述方法包括:
步骤S100,通过JPEG压缩方法对待测图像进行部分解码,获得待测图像的三通道DCT系数;所述三通道DCT系数包括Y通道DCT系数、Cb通道DCT系数和Cr通道DCT系数;
步骤S200,通过反卷积调节所述三通道DCT系数的尺寸,获得尺寸匹配的三通道DCT系数;所述尺寸匹配的三通道DCT系数的各DCT系数空间尺寸比例为:Y通道DCT系数:Cb通道DCT系数:Cr通道DCT系数=2:1:1;
步骤S300,将所述尺寸匹配的三通道DCT系数进行拼接融合,获取深度压缩域特征;
步骤S400,基于所述深度压缩域特征,通过训练好的压缩域特征分类网络,获取所述待测图像的场景类别。
本发明通过对图像部分解码,针对深度压缩域的特征信息进行图像场景分类,有效地避免了全部解码造成的额外计算成本增加和中间存储介质的占用,节省了时间和计算资源,同时保持了分类的准确性。
为了更清晰地对本发明基于深度压缩域特征的场景分类方法进行说明,下面结合图1和图2对本发明实施例中各步骤展开详述。
本发明第一实施例的基于基于深度压缩域特征的场景分类方法,包括步骤S100-步骤S400,各步骤详细描述如下:
本发明的方法具体运行的硬件和编程语言并不受限制,用任何语言编写都可以实现本发明的方法。
本实施例采用一台具有2.8G赫兹中央处理器和1G字节内存的计算机,网络的训练过程在Pytorch框架下实现,整个网络的训练和测试过程均采用多个NVIDIA TITAN XP GPU并行处理,并用python语言编制了整个基于深度压缩域特征的快速场景分类技术的工作程序,实现了本发明的方法。
步骤S100,通过JPEG压缩方法对待测图像进行部分解码,获得待测图像的三通道DCT系数;所述三通道DCT系数包括Y通道DCT系数、Cb通道DCT系数和Cr通道DCT系数;实质为研究JPEG压缩原理,在熵解码和反量化后提取三个通道的频域变换系数(即DCT系数)。
在本实施例中,获取到待测图像后,先对图像进行分块处理和色彩转换;
所述分块处理为,优选的,将图像分割成8×8个小块;
所述色彩转换为,基于每个小块,将R(红)G(绿)B(蓝)格式的待测图像转换为Y(亮度)Cb(色度蓝)Cr(色度红)格式;亮度Y的计算方法为:
Y=KR*R+(1-KR-KB)*G+KB*B
其中,KR为RGB图像中红色对亮度的贡献值,KB为RGB图像中蓝色对亮度的贡献值;优选的,KR=0.299,KB=0.114,则Y为:
Y=0.299*R+0.587*G+0.114*B
Cb色度和Cr色度为:
优选的,Cb=-0.1687*R-0.3313*G+0.5*B,Cr=0.5*R-0.4187*G-0.0813*B。
所述DCT变换,即DCT离散余弦变换,将图像从空间域转换到频域,用不同频域的余弦波表示离散的图像数据,得到频域编码,进一步地,将每个余弦波对图像的贡献值作为系数,将所述余弦波加权表示图像数据;DCT变换表示为:
F=AfAT
其中,F表示经过DCT变换后的频域系数,f表示图像中的像素值,A表示转换矩阵,N表示图像块的大小,i表示水平方向的频率,j表示垂直方向的频率,c表示为了使DCT变换正交化的预设的系数。
DCT系数矩阵中的第一个元素F(0,0)为直流分量,成为DC(Direct current)系数,表示图像的低频信息,其余元素为交流文亮,成为AC(Alternating current)系数,表示图像的高频信息。低频信息表示图像中的大面积平摊区域,高频信息表示图像的边界、纹理细节。低频区域系数较大,高频区域系数较小,能量被集中于左上角。DCT变换进一步对图像的重要部分与不重要区域进行区分,将图像的低频信息与高频信息分开,以便后续压缩。
在本实施例中,所述步骤S100,包括:
步骤S110,基于所述待测图像,读取待测图像二进制文件;所述待测图像二进制文件由标记块组成,所述标记块为ff开头,ff后为标记块类型标记符;标记块存储的信息包括:图像的开始、定义量化表、帧图像开始、图像扫描和图像结束等,具体的,不同的标记块开头都是ff+标记符,标记快中包括了图像的高度、宽度、颜色分量等信息。标记块中还包括量化表信息和霍夫曼表信息,均为十六进制。
步骤S120,基于所述标记符,获取霍夫曼表,并根据所述霍夫曼表依据编码规则构建霍夫曼树;
其中,霍夫曼表包括表示亮度的AC交流霍夫曼表、表示亮度的DC直流霍夫曼表、表示色度的AC交流霍夫曼表和表示色度的DC直流霍夫曼表;
定义霍夫曼表标记块以ffc4这两个字节为开头,后两个字节表示数据长度;这两个字节的值表示整个霍夫曼表标记块的总长度(不包括ffc4两个字节)。霍夫曼表标记内其余的字节就是霍夫曼表信息:第一个字节表示霍夫曼表的编号和类型,高4位代表类型,0:DC直流,1:AC交流,低四位为霍夫曼表编号,比如,0x00表示DC直流0号表;0x01表示DC直流1号表;0x10表示AC交流0号表;0x11表示AC交流1号表。紧接着后面16个字节表示不同位数的码字数量,对应霍夫曼树的叶子节点数。此标记块剩余字节为编码内容,对应上一字段中各个码字,也就是霍夫曼树中叶子节点的权值。根据这些信息即可建立霍夫曼树,对图像进行霍夫曼解码。
所述霍夫曼编码,其原理为使数据中心所有元素的平均码长达到最小:
其中,R表示平均码长,N表示元素个数,l为Z型编码后得到的一位数组,i为压缩数据中的元素下标,li表示数据中的元素,p表示元素出现的频率,n表示元素的编码长度。
在霍夫曼编码过程中,频率高的元素使用较小的码长,频率低的元素使用较大的码长;若某元素后都为0,使用EOB(End Of Block)标记符来表示。
步骤S130,基于所述霍夫曼树,进行译码获得直流系数和交流系数;
所述霍夫曼树,即每个元素的霍夫曼编码是根据二叉树生成的,每个元素li为一个叶子节点,元素的频率p(li)为对应二叉树的节点的权重,编码长度ni反映为叶子结点到根节点的路径长度。
步骤S140,基于所述直流系数和交流系数,乘以量化矩阵,获得三通道DCT系数。
直流系数与交流系数同时存在于一个矩阵,表示图像从空间域转换到频域后,各频率在图像中的比重;行表示水平方向的频率,列表示垂直方向的频率。因此矩阵的左上角第一个元素就是直流信息,其余元素都是交流信息。
其中,量化矩阵就是JPEG算法中标准的量化表,亮度信息矩阵和色度信息矩阵都有相应的量化表。在压缩编码种量化过程表示为DCT系数矩阵除以相应量化矩阵。
步骤S200,通过反卷积调节所述三通道DCT系数的尺寸,获得尺寸匹配的三通道DCT系数;所述尺寸匹配的三通道DCT系数的各DCT系数空间尺寸比例为:Y通道DCT系数:Cb通道DCT系数:Cr通道DCT系数=2:1:1;
在本实施例中,所述步骤S200为:
将所述Cb通道DCT系数和Cr通道DCT系数通过可学习的反卷积进行上采样,获得尺寸匹配的三通道DCT系数;
其中,反卷积的输入与输出尺寸的大小关系为:
o=s*(i-1)-2*p+k
其中,o表示输出的尺寸大小,s表示步长,p表示填充大小,k表示卷积核的大小。
在本实施例中,所述可学习的反卷积,为一个卷积核7*7的卷积滤波器,步幅设置为2。
步骤S300,将所述尺寸匹配的三通道DCT系数进行拼接融合,获取深度压缩域特征;
在本实施例中,所述步骤S300,包括:
步骤S310,基于所述尺寸匹配的三通道DCT系数中的Y通道DCT系数,通过一个卷积核为1*1的卷积层得到Y通道特征向量;步骤S310中,Y通道特征向量与原Y通道DCT系数尺寸相同;
基于所述Cb通道DCT系数和Cr通道DCT系数,进行反卷积操作后获得Cb通道Cr通道拼接特征向量;
步骤S320,基于所述Y通道特征向量和Cb通道Cr通道拼接特征向量,通过拼接融合模块,获取深度压缩域特征。
步骤S400,基于所述深度压缩域特征,通过训练好的压缩域特征分类网络,获取所述待测图像的场景类别。
在本实施例中,所述压缩域特征分类网络,其训练方法为:
步骤A100,基于训练图像,通过如步骤S100-步骤S300的方法获取训练图像的深度压缩域特征;
步骤A200,基于所述训练图像的深度压缩域特征,依次通过卷积层、归一化层、激活函数层、全局平均池化层和全连接层获得训练图像的场景类别;
步骤A300,计算多分类交叉熵损失函数,通过梯度下降算法对压缩域特征分类网络的参数进行更新,使网络不断学习压缩特征中低频信息的平坦区域与高频信息的突变区域;
在本实施例中,通过Stochastic Gradient Descent进行训练,当连续5个阶段所述多分类交叉熵损失函数不再下降时,调节学习率为现学习率的一半。
步骤A400,重复步骤A100-步骤A300,直至网络收敛或达到预设的迭代次数,获得训练好的压缩域特征分类网络。
在本实施例中,通过高精度、大参数量的场景分类模型对压缩域特征网络进行知识蒸馏,通过大网络知道压缩域特征网络对于场景图像中重要信息的学习,使网络在训练师能够更加关注压缩域特征中的低频信息。
采用KL散度原理进行训练,所述KL散度原理为:
其中,pT为大网络的预测值,pA为压缩域特征网络的预测值;pT和pA越接近,KL散度值越小,基于KL散度原理,作为损失函数的计算策略,所述损失函数为:
L(x;WT;WA)=λL(y,pA)+(1-DL(pT,pA)。
在具体的应用场景中,领域内技术人员容易获取的图像通常为压缩图像。现有的场景分类方法的技术方案中,均包括将待测图像完全解压的过程,所述完全解压包括霍夫曼解码、反量化、DCT反变换、色彩转换和组块。
由于频域反变换操作在图像解码过程中占比较大,变换前的DCT系数矩阵只是将图像的重要信息与不重要信息进行区域划分,还几乎保留着图像的全部信息,只在反量化时丢失了一部分细节信息。为解决上述问题,本发明仅将待测图像进行部分解码,进一步地,在压缩的待测图像经过霍夫曼解码和反量化后,直接提取DCT系数作为图像的压缩特征,避免了计算资源与实践的浪费,极大地提高了场景分类算法的速度。
本发明第二实施例的基于深度压缩域特征的场景分类系统,包括DCT系数获取模块、DCT系数尺寸调节模块、拼接融合模块和场景分类模块;
所述DCT系数获取模块,配置为通过JPEG压缩方法对待测图像进行部分解码,获得待测图像的三通道DCT系数;所述三通道DCT系数包括Y通道DCT系数、Cb通道DCT系数和Cr通道DCT系数;
所述DCT系数尺寸调节模块,配置为通过反卷积调节所述三通道DCT系数的尺寸,获得尺寸匹配的三通道DCT系数;所述尺寸匹配的三通道DCT系数的各DCT系数空间尺寸比例为:Y通道DCT系数:Cb通道DCT系数:Cr通道DCT系数=2:1:1;
所述拼接融合模块,配置为将所述尺寸匹配的三通道DCT系数进行拼接融合,获取深度压缩域特征;
所述场景分类模块,配置为基于所述深度压缩域特征,通过训练好的压缩域特征分类网络,获取所述待测图像的场景类别。
在全部解压过程中频域变换占到了整个压缩过程的38%,而到这一阶段图像还未进入有损压缩,因此对图像部分解码直接提取图像频域变换系数(即DCT系数)作为压缩域特征,能够免去对图像全部解码产生的额外计算成本,使场景分类算法速度得到提高。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于深度压缩域特征的场景分类系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,其特征在于,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于深度压缩域特征的场景分类方法。
本发明第四实施例的一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于深度压缩域特征的场景分类方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
下面参考图3,其示出了用于实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。图3示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统包括中央处理单元(CPU,Central Processing Unit)301,其可以根据存储在只读存储器(ROM,Read Only Memory)302中的程序或者从存储部分308加载到随机访问存储器(RAM,Random Access Memory)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有系统操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O,Input/Output)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种基于深度压缩域特征的场景分类方法,其特征在于,所述方法包括:
步骤S100,通过JPEG压缩方法对待测图像进行部分解码,获得待测图像的三通道DCT系数;所述三通道DCT系数包括Y通道DCT系数、Cb通道DCT系数和Cr通道DCT系数;
步骤S200,通过反卷积调节所述三通道DCT系数的尺寸,获得尺寸匹配的三通道DCT系数;所述尺寸匹配的三通道DCT系数的各DCT系数空间尺寸比例为:Y通道DCT系数:Cb通道DCT系数:Cr通道DCT系数=2:1:1;
步骤S300,将所述尺寸匹配的三通道DCT系数进行拼接融合,获取深度压缩域特征;
步骤S400,基于所述深度压缩域特征,通过训练好的压缩域特征分类网络,获取所述待测图像的场景类别;所述压缩域特征分类网络,其训练方法为:
步骤A100,基于训练图像,通过如步骤S100-步骤S300的方法获取训练图像的深度压缩域特征;
步骤A200,基于所述训练图像的深度压缩域特征,依次通过卷积层、归一化层、激活函数层、全局平均池化层和全连接层获得训练图像的场景类别;
步骤A300,计算多分类交叉熵损失函数,通过梯度下降算法对压缩域特征分类网络的参数进行更新;
步骤A400,重复步骤A100-步骤A300,直至网络收敛或达到预设的迭代次数,获得训练好的压缩域特征分类网络。
2.根据权利要求1所述的基于深度压缩域特征的场景分类方法,其特征在于,所述步骤S300,包括:
步骤S310,基于所述尺寸匹配的三通道DCT系数中的Y通道DCT系数,通过一个卷积核为1*1的卷积层得到Y通道特征向量;
基于所述Cb通道DCT系数和Cr通道DCT系数,进行反卷积操作后获得Cb通道Cr通道拼接特征向量;
步骤S320,基于所述Y通道特征向量和Cb通道Cr通道拼接特征向量,通过拼接融合模块,获取深度压缩域特征。
3.根据权利要求1所述的基于深度压缩域特征的场景分类方法,其特征在于,所述压缩域特征分类网络,还包括:
通过Stochastic Gradient Descent进行训练,当连续5个阶段所述多分类交叉熵损失函数不再下降时,调节学习率为现学习率的一半。
4.根据权利要求1所述的基于深度压缩域特征的场景分类方法,其特征在于,所述步骤S100,包括:
步骤S110,基于所述待测图像,读取待测图像二进制文件;所述待测图像二进制文件由标记块组成,所述标记块为ff开头,ff后为标记块类型标记符;
步骤S120,基于所述标记符,获取霍夫曼表,并根据所述霍夫曼表依据编码规则构建霍夫曼树;
其中,霍夫曼表包括表示亮度的AC交流霍夫曼表、表示亮度的DC直流霍夫曼表、表示色度的AC交流霍夫曼表和表示色度的DC直流霍夫曼表;
步骤S130,基于所述霍夫曼树,进行译码获得直流系数和交流系数;
步骤S140,基于所述直流系数和交流系数,乘以量化矩阵,获得三通道DCT系数。
5.根据权利要求1所述的基于深度压缩域特征的场景分类方法,其特征在于,所述步骤S200为:
将所述Cb通道DCT系数和Cr通道DCT系数通过可学习的反卷积进行上采样,获得尺寸匹配的三通道DCT系数;
其中,反卷积的输入与输出尺寸的大小关系为:
o=s*(i-1)-2*p+k
其中,o表示输出的尺寸大小,s表示步长,p表示填充大小,k表示卷积核的大小。
6.根据权利要求5所述的基于深度压缩域特征的场景分类方法,其特征在于,所述可学习的反卷积,为一个卷积核7*7的卷积滤波器,步幅设置为2。
7.一种基于深度压缩域特征的场景分类系统,其特征在于,所述系统包括:DCT系数获取模块、DCT系数尺寸调节模块、拼接融合模块和场景分类模块;
所述DCT系数获取模块,配置为通过JPEG压缩方法对待测图像进行部分解码,获得待测图像的三通道DCT系数;所述三通道DCT系数包括Y通道DCT系数、Cb通道DCT系数和Cr通道DCT系数;
所述DCT系数尺寸调节模块,配置为通过反卷积调节所述三通道DCT系数的尺寸,获得尺寸匹配的三通道DCT系数;所述尺寸匹配的三通道DCT系数的各DCT系数空间尺寸比例为:Y通道DCT系数:Cb通道DCT系数:Cr通道DCT系数=2:1:1;
所述拼接融合模块,配置为将所述尺寸匹配的三通道DCT系数进行拼接融合,获取深度压缩域特征;
所述场景分类模块,配置为基于所述深度压缩域特征,通过训练好的压缩域特征分类网络,获取所述待测图像的场景类别;
所述压缩域特征分类网络,其训练方法为:
步骤A100,基于训练图像,通过如步骤S100-步骤S300的方法获取训练图像的深度压缩域特征;
步骤A200,基于所述训练图像的深度压缩域特征,依次通过卷积层、归一化层、激活函数层、全局平均池化层和全连接层获得训练图像的场景类别;
步骤A300,计算多分类交叉熵损失函数,通过梯度下降算法对压缩域特征分类网络的参数进行更新;
步骤A400,重复步骤A100-步骤A300,直至网络收敛或达到预设的迭代次数,获得训练好的压缩域特征分类网络。
8.一种电子设备,其特征在于,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-6任一项所述的基于深度压缩域特征的场景分类方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-6任一项所述的基于深度压缩域特征的场景分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110190015.9A CN112991476B (zh) | 2021-02-18 | 2021-02-18 | 基于深度压缩域特征的场景分类方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110190015.9A CN112991476B (zh) | 2021-02-18 | 2021-02-18 | 基于深度压缩域特征的场景分类方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112991476A CN112991476A (zh) | 2021-06-18 |
CN112991476B true CN112991476B (zh) | 2021-09-28 |
Family
ID=76394045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110190015.9A Active CN112991476B (zh) | 2021-02-18 | 2021-02-18 | 基于深度压缩域特征的场景分类方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991476B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108574846A (zh) * | 2018-05-18 | 2018-09-25 | 中南民族大学 | 一种视频压缩域目标跟踪方法和系统 |
CN109615670A (zh) * | 2018-12-05 | 2019-04-12 | 广西大学 | 一种基于压缩域内容感知的多算子图像重定向方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100336390C (zh) * | 1999-11-29 | 2007-09-05 | 索尼公司 | 提取用于浏览的合成视频选择的分级分解的方法和设备 |
US6823011B2 (en) * | 2001-11-19 | 2004-11-23 | Mitsubishi Electric Research Laboratories, Inc. | Unusual event detection using motion activity descriptors |
US8638395B2 (en) * | 2009-06-05 | 2014-01-28 | Cisco Technology, Inc. | Consolidating prior temporally-matched frames in 3D-based video denoising |
CN101667423A (zh) * | 2009-09-25 | 2010-03-10 | 上海大学 | 基于概率密度比的压缩域高鲁棒语音/音乐分割方法 |
CN103152578B (zh) * | 2013-03-25 | 2016-05-18 | 中国传媒大学 | 基于混合编解码的h.264视频水印嵌入及提取方法 |
CN106650751B (zh) * | 2016-11-25 | 2020-07-28 | 中国科学院自动化研究所 | 图像特征提取方法以及数字媒体版权管理方法 |
US10685235B2 (en) * | 2017-12-28 | 2020-06-16 | Microsoft Technology Licensing, Llc | Querying video data with reduced latency and cost |
CN110245754B (zh) * | 2019-06-14 | 2021-04-06 | 西安邮电大学 | 一种基于位置敏感图的知识蒸馏指导方法 |
CN111966859A (zh) * | 2020-08-27 | 2020-11-20 | 司马大大(北京)智能系统有限公司 | 视频数据的处理方法及装置、可读存储介质 |
CN112163601B (zh) * | 2020-09-14 | 2023-09-26 | 华南理工大学 | 图像分类方法、系统、计算机设备及存储介质 |
CN112235569B (zh) * | 2020-10-12 | 2024-03-29 | 国家计算机网络与信息安全管理中心 | 基于h264压缩域的快速视频分类方法、系统及装置 |
-
2021
- 2021-02-18 CN CN202110190015.9A patent/CN112991476B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108574846A (zh) * | 2018-05-18 | 2018-09-25 | 中南民族大学 | 一种视频压缩域目标跟踪方法和系统 |
CN109615670A (zh) * | 2018-12-05 | 2019-04-12 | 广西大学 | 一种基于压缩域内容感知的多算子图像重定向方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112991476A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230075442A1 (en) | Point cloud compression method, encoder, decoder, and storage medium | |
CN108028941B (zh) | 用于通过超像素编码和解码数字图像的方法和装置 | |
US10609373B2 (en) | Methods and apparatus for encoding and decoding digital images or video streams | |
CN110024391B (zh) | 用于编码和解码数字图像或视频流的方法和装置 | |
CN110383695B (zh) | 用于对数字图像或视频流进行编码和解码的方法和装置 | |
JP2014039257A (ja) | デコーダおよび復号方法 | |
KR20170079852A (ko) | 이미지 압축 품질을 최적화 하기 위한 방법 및 시스템 | |
CN108717690B (zh) | 一种高动态范围图片的合成方法 | |
US7106908B2 (en) | Method and apparatus for selecting a format in which to re-encode a quantized image | |
CN108182712B (zh) | 图像处理方法、装置及系统 | |
CN112991476B (zh) | 基于深度压缩域特征的场景分类方法、系统及设备 | |
CN112399069B (zh) | 图像编码方法及装置、存储介质、电子设备 | |
CN116250008A (zh) | 点云的编码、解码方法、编码器、解码器以及编解码系统 | |
KR20130079253A (ko) | 이미지 압축 방법 및 장치 | |
Hasnat et al. | Luminance approximated vector quantization algorithm to retain better image quality of the decompressed image | |
JP2017530578A (ja) | 画像のタイプに応じて圧縮アルゴリズムを選択する方法 | |
US20190089955A1 (en) | Image encoding method, and image encoder and image decoder using same | |
CN113554719B (zh) | 一种图像编码方法、解码方法、存储介质及终端设备 | |
Poolakkachalil et al. | Comparative analysis of lossless compression techniques in efficient DCT-based image compression system based on Laplacian Transparent Composite Model and An Innovative Lossless Compression Method for Discrete-Color Images | |
CN108900842B (zh) | Y数据压缩处理方法、装置、设备及WebP压缩系统 | |
CN116325732A (zh) | 点云的解码、编码方法、解码器、编码器和编解码系统 | |
CN112509107A (zh) | 一种点云属性重着色方法、装置及编码器 | |
CN112749802A (zh) | 神经网络模型的训练方法、装置以及计算机可读存储介质 | |
Mohta et al. | Image compression and gamma correction using DCT | |
Thakur et al. | Image‐independent optimal non‐negative integer bit allocation technique for the DCT‐based image transform coders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |