CN110769258A - 一种用于特定场景多语义区域的图像压缩方法及系统 - Google Patents

一种用于特定场景多语义区域的图像压缩方法及系统 Download PDF

Info

Publication number
CN110769258A
CN110769258A CN201911070955.3A CN201911070955A CN110769258A CN 110769258 A CN110769258 A CN 110769258A CN 201911070955 A CN201911070955 A CN 201911070955A CN 110769258 A CN110769258 A CN 110769258A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
network classification
classification model
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911070955.3A
Other languages
English (en)
Inventor
郝虹
高岩
金长新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Original Assignee
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Artificial Intelligence Research Institute Co Ltd filed Critical Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority to CN201911070955.3A priority Critical patent/CN110769258A/zh
Publication of CN110769258A publication Critical patent/CN110769258A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种用于特定场景多语义区域的图像压缩方法及系统,涉及图像处理技术领域,采用技术方案通过使用卷积神经网络分类模型中的靠前隐藏层feature map同时检测出特定场景图像中的多目标语义区域,并通过计算原始图像各区域块的兴趣度,进而将计算结果映射到原始图像中的对应区域像素,对该区域使用高比特率进行编码,其他区域使用低比特率编码,完成区别化图像压缩。本发明从多语义区域检测和区别化图像压缩两个方面改进了现有图像的压缩过程,可以避免将人感兴趣区域的物体压缩失真。

Description

一种用于特定场景多语义区域的图像压缩方法及系统
技术领域
本发明涉及图像处理技术领域,具体的说是一种用于特定场景多语义区域的图像压缩方法及系统。
背景技术
视频图像充斥在生活中的各个方面,海量的视频图像数据占据很大的存储空间,所以视频图像压缩技术能够高效率低占用的将原始视频图像处理成压缩的数据流,但是,压缩率越高,解码后的视频图像质量越低,所以高压缩率会以损失原始视频图像质量为代价。在人的视觉感知中,相对于背景的失真,对感兴趣区域物体的失真敏感度更高。
类激活图(CAM,class activation map),通过将分类卷积神经网络后段进行改造,对输入图像生成类激活的热力图,表示每个位置对该类别的重要程度,还可以用来定位图像中特定的目标。但是CAM是为了使类的后验概率最大化而训练的,它更倾向于只突出一个最突出的物体。然而现实世界的图像通常包含多个感兴趣的对象,所以CAM不适用于这种情况。
鉴于上述两个问题,提出一种用于特定场景多语义区域的图像压缩方法及系统,从多语义区域检测和区别化图像压缩两个方面改进现有图像的压缩过程。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种用于特定场景多语义区域的图像压缩方法及系统。
首先,本发明提供一种用于特定场景多语义区域的图像压缩方法,解决上述技术问题采用的技术方案如下:
一种用于特定场景多语义区域的图像压缩方法,该方法的实现过程包括:
S10、为特定场景关注的若干类分别训练卷积神经网络分类模型;
S20、使用训练好的卷积神经网络分类模型检测原始图像中的多目标语义区域;
S30、针对检测结果,对原始图像进行区别化图像压缩。
在步骤S10中,对卷积神经网络分类模型进行离线训练,训练得到的所有卷积神经网络分类模型的结构一致。
在步骤S20中,使用训练好的卷积神经网络分类模型检测原始图像中的多目标语义区域,这一过程包括:
S21、将图像分别输入各个卷积神经网络分类模型,取各卷积神经网络分类模型指定卷积层激活后的feature map,即每个卷积神经网络分类模型都是取第L个卷积层;
S22、分别计算步骤S21中所述各个卷积神经网络分类模型上feature map激活值的总和sum(σ1),sum(σ2)...sum(σc),其中,sum(σi)表示图像在第i个卷积神经网络分类模型上feature map激活值的总和;
S23、联合所有卷积神经网络分类模型上的feature map,统一计算该层featuremap上每个点的兴趣度;
S24、将步骤S23所述的feature map映射到原始图像,得到原始图像各区域块的兴趣度。
在步骤S23中,计算兴趣度的具体操作为:
设(x,y)为feature map上一个点的位置坐标,该点的兴趣度计算公式为:
Figure BDA0002260944280000021
其中s为一个超参数,sum(σc)>s,说明属于卷积神经网络分类模型c的概率大。
在步骤S30中,对原始图像进行区别化图像压缩,就是基于步骤S24得到的原始图像各区域块的兴趣度,对兴趣度高于设定阈值的区域使用高比特率编码,对兴趣度低于设定阈值的区域使用低比特率编码。
其次,本发明提供一种用于特定场景多语义区域的图像压缩系统,解决上述技术问题采用的技术方案如下:
一种用于特定场景多语义区域的图像压缩系统,其包括:
训练模块,使用特定场景关注的若干类分别训练卷积神经网络分类模型;
卷积神经网络分类模型,用于检测原始图像中的多目标语义区域;
区别化处理模块,用于根据检测结果对原始图像进行区别化图像压缩。
具体的,所涉及训练模块使用特定场景关注的若干类离线训练卷积神经网络分类模型,且训练得到的所有卷积神经网络分类模型的结构一致。
具体的,所涉及卷积神经网络分类模型检测原始图像中的多目标语义区域,具体检测过程为:
S21、将图像分别输入各个卷积神经网络分类模型,取各卷积神经网络分类模型指定卷积层激活后的feature map,即每个卷积神经网络分类模型都是取第L个卷积层;
S22、分别计算步骤S21中所述各个卷积神经网络分类模型上feature map激活值的总和sum(σ1),sum(σ2)...sum(σc),其中,sum(σi)表示图像在第i个卷积神经网络分类模型上feature map激活值的总和;
S23、联合所有卷积神经网络分类模型上的feature map,统一计算该层featuremap上每个点的兴趣度;
S24、将步骤S23所述的feature map映射到原始图像,得到原始图像各区域块的兴趣度。
更具体的,所涉及步骤S23中,计算兴趣度的具体操作为:
设(x,y)为feature map上一个点的位置坐标,该点的兴趣度计算公式为:
Figure BDA0002260944280000041
其中s为一个超参数,sum(σc)>s,说明属于卷积神经网络分类模型c的概率大。
具体的,基于得到的原始图像各区域块的兴趣度,所涉及区别化处理模块对兴趣度高于设定阈值的区域使用高比特率编码,对兴趣度低于设定阈值的区域使用低比特率编码。
本发明的一种用于特定场景多语义区域的图像压缩方法及系统,与现有技术相比具有的有益效果是:
本发明通过使用卷积神经网络分类模型中的靠前隐藏层feature map同时检测出特定场景图像中的多目标语义区域,并通过计算原始图像各区域块的兴趣度,进而将计算结果映射到原始图像中的对应区域像素,对该区域使用高比特率进行编码,其他区域使用低比特率编码,完成区别化图像压缩,避免将人感兴趣区域的物体压缩失真。
附图说明
附图1是本发明实施例一的方法流程图;
附图2是本发明实施例一中步骤S20的流程图;
附图3是本发明实施例二的连接框图。
附图中各标号信息表示:
1、训练模块,2、卷积神经网络分类模型,3、区别化处理模块。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1、2,本实施例提出一种用于特定场景多语义区域的图像压缩方法,该方法的实现过程包括:
S10、为特定场景关注的若干类分别训练卷积神经网络分类模型。
在步骤S10中,对卷积神经网络分类模型进行离线训练,训练得到的所有卷积神经网络分类模型的结构一致。
S20、使用训练好的卷积神经网络分类模型检测原始图像中的多目标语义区域。
这一过程具体包括:
S21、将图像分别输入各个卷积神经网络分类模型,取各卷积神经网络分类模型指定卷积层激活后的feature map,即每个卷积神经网络分类模型都是取第L个卷积层;
S22、分别计算步骤S21中所述各个卷积神经网络分类模型上feature map激活值的总和sum(σ1),sum(σ2)...sum(σc),其中,sum(σi)表示图像在第i个卷积神经网络分类模型上feature map激活值的总和;
S23、联合所有卷积神经网络分类模型上的feature map,统一计算该层featuremap上每个点的兴趣度;
S24、将步骤S23所述的feature map映射到原始图像,得到原始图像各区域块的兴趣度。
在步骤S23中,计算兴趣度的具体操作为:
设(x,y)为feature map上一个点的位置坐标,该点的兴趣度计算公式为:
Figure BDA0002260944280000051
其中s为一个超参数,sum(σc)>s,说明属于卷积神经网络分类模型c的概率大。
S30、针对检测结果,对原始图像进行区别化图像压缩。
在步骤S30中,对原始图像进行区别化图像压缩,就是基于步骤S24得到的原始图像各区域块的兴趣度,对兴趣度高于设定阈值的区域使用高比特率编码,对兴趣度低于设定阈值的区域使用低比特率编码。
实施例二:
结合附图3,本实施例提出一种用于特定场景多语义区域的图像压缩系统,其包括:
训练模块,使用特定场景关注的若干类分别训练卷积神经网络分类模型;
卷积神经网络分类模型,用于检测原始图像中的多目标语义区域;
区别化处理模块,用于根据检测结果对原始图像进行区别化图像压缩。
在本实施例中,所涉及训练模块使用特定场景关注的若干类离线训练卷积神经网络分类模型,且训练得到的所有卷积神经网络分类模型的结构一致。
结合附图2,在本实施例中,所涉及卷积神经网络分类模型检测原始图像中的多目标语义区域,具体检测过程为:
S21、将图像分别输入各个卷积神经网络分类模型,取各卷积神经网络分类模型指定卷积层激活后的feature map,即每个卷积神经网络分类模型都是取第L个卷积层;
S22、分别计算步骤S21中所述各个卷积神经网络分类模型上feature map激活值的总和sum(σ1),sum(σ2)...sum(σc),其中,sum(σi)表示图像在第i个卷积神经网络分类模型上feature map激活值的总和;
S23、联合所有卷积神经网络分类模型上的feature map,统一计算该层featuremap上每个点的兴趣度;
S24、将步骤S23所述的feature map映射到原始图像,得到原始图像各区域块的兴趣度。
所涉及步骤S23中,计算兴趣度的具体操作为:
设(x,y)为feature map上一个点的位置坐标,该点的兴趣度计算公式为:
Figure BDA0002260944280000071
其中s为一个超参数,sum(σc)>s,说明属于卷积神经网络分类模型c的概率大。
在本实施例中,基于得到的原始图像各区域块的兴趣度,所涉及区别化处理模块对兴趣度高于设定阈值的区域使用高比特率编码,对兴趣度低于设定阈值的区域使用低比特率编码。
综上可知,采用本发明的一种用于特定场景多语义区域的图像压缩方法及系统,从多语义区域检测和区别化图像压缩两个方面改进现有图像的压缩过程,避免将人感兴趣区域的物体压缩失真。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (10)

1.一种用于特定场景多语义区域的图像压缩方法,其特征在于,该方法的实现过程包括:
S10、为特定场景关注的若干类分别训练卷积神经网络分类模型;
S20、使用训练好的卷积神经网络分类模型检测原始图像中的多目标语义区域;
S30、针对检测结果,对原始图像进行区别化图像压缩。
2.根据权利要求1所述的一种用于特定场景多语义区域的图像压缩方法,其特征在于,在步骤S10中,对卷积神经网络分类模型进行离线训练,训练得到的所有卷积神经网络分类模型的结构一致。
3.根据权利要求1所述的一种用于特定场景多语义区域的图像压缩方法,其特征在于,在步骤S20中,使用训练好的卷积神经网络分类模型检测原始图像中的多目标语义区域,这一过程包括:
S21、将图像分别输入各个卷积神经网络分类模型,取各卷积神经网络分类模型指定卷积层激活后的feature map,即每个卷积神经网络分类模型都是取第L个卷积层;
S22、分别计算步骤S21中所述各个卷积神经网络分类模型上feature map激活值的总和sum(σ1),sum(σ2)...sum(σc),其中,sum(σi)表示图像在第i个卷积神经网络分类模型上feature map激活值的总和;
S23、联合所有卷积神经网络分类模型上的feature map,统一计算该层feature map上每个点的兴趣度;
S24、将步骤S23所述的feature map映射到原始图像,得到原始图像各区域块的兴趣度。
4.根据权利要求3所述的一种用于特定场景多语义区域的图像压缩方法,其特征在于,在步骤S23中,计算兴趣度的具体操作为:
设(x,y)为feature map上一个点的位置坐标,该点的兴趣度计算公式为:
Figure FDA0002260944270000021
其中s为一个超参数,sum(σc)>s,说明属于卷积神经网络分类模型c的概率大。
5.根据权利要求3所述的一种用于特定场景多语义区域的图像压缩方法,其特征在于,在步骤S30中,对原始图像进行区别化图像压缩,就是基于步骤S24得到的原始图像各区域块的兴趣度,对兴趣度高于设定阈值的区域使用高比特率编码,对兴趣度低于设定阈值的区域使用低比特率编码。
6.一种用于特定场景多语义区域的图像压缩系统,其特征在于,其包括:
训练模块,使用特定场景关注的若干类分别训练卷积神经网络分类模型;
卷积神经网络分类模型,用于检测原始图像中的多目标语义区域;
区别化处理模块,用于根据检测结果对原始图像进行区别化图像压缩。
7.根据权利要求6所述的一种用于特定场景多语义区域的图像压缩系统,其特征在于,所述训练模块使用特定场景关注的若干类离线训练卷积神经网络分类模型,且训练得到的所有卷积神经网络分类模型的结构一致。
8.根据权利要求6所述的一种用于特定场景多语义区域的图像压缩系统,其特征在于,所述卷积神经网络分类模型检测原始图像中的多目标语义区域,具体检测过程为:
S21、将图像分别输入各个卷积神经网络分类模型,取各卷积神经网络分类模型指定卷积层激活后的feature map,即每个卷积神经网络分类模型都是取第L个卷积层;
S22、分别计算步骤S21中所述各个卷积神经网络分类模型上feature map激活值的总和sum(σ1),sum(σ2)...sum(σc),其中,sum(σi)表示图像在第i个卷积神经网络分类模型上feature map激活值的总和;
S23、联合所有卷积神经网络分类模型上的feature map,统一计算该层feature map上每个点的兴趣度;
S24、将步骤S23所述的feature map映射到原始图像,得到原始图像各区域块的兴趣度。
9.根据权利要求8所述的一种用于特定场景多语义区域的图像压缩系统,其特征在于,在步骤S23中,计算兴趣度的具体操作为:
设(x,y)为feature map上一个点的位置坐标,该点的兴趣度计算公式为:
其中s为一个超参数,sum(σc)>s,说明属于卷积神经网络分类模型c的概率大。
10.根据权利要求6所述的一种用于特定场景多语义区域的图像压缩系统,其特征在于,基于得到的原始图像各区域块的兴趣度,区别化处理模块对兴趣度高于设定阈值的区域使用高比特率编码,对兴趣度低于设定阈值的区域使用低比特率编码。
CN201911070955.3A 2019-11-05 2019-11-05 一种用于特定场景多语义区域的图像压缩方法及系统 Pending CN110769258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911070955.3A CN110769258A (zh) 2019-11-05 2019-11-05 一种用于特定场景多语义区域的图像压缩方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911070955.3A CN110769258A (zh) 2019-11-05 2019-11-05 一种用于特定场景多语义区域的图像压缩方法及系统

Publications (1)

Publication Number Publication Date
CN110769258A true CN110769258A (zh) 2020-02-07

Family

ID=69336403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911070955.3A Pending CN110769258A (zh) 2019-11-05 2019-11-05 一种用于特定场景多语义区域的图像压缩方法及系统

Country Status (1)

Country Link
CN (1) CN110769258A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766965A (zh) * 2022-11-29 2023-03-07 广东职业技术学院 一种试卷图像文件处理方法及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657281A (zh) * 2017-09-28 2018-02-02 辽宁工程技术大学 一种基于改进的卷积神经网络的图像识别方法
CN108156459A (zh) * 2016-12-02 2018-06-12 北京中科晶上科技股份有限公司 可伸缩视频传输方法及系统
WO2018136129A1 (en) * 2017-01-20 2018-07-26 Google Llc Image compression based on semantic relevance
CN108491889A (zh) * 2018-04-02 2018-09-04 深圳市易成自动驾驶技术有限公司 图像语义分割方法、装置及计算机可读存储介质
CN109858506A (zh) * 2018-05-28 2019-06-07 哈尔滨工程大学 一种面向卷积神经网络分类结果的可视化算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108156459A (zh) * 2016-12-02 2018-06-12 北京中科晶上科技股份有限公司 可伸缩视频传输方法及系统
WO2018136129A1 (en) * 2017-01-20 2018-07-26 Google Llc Image compression based on semantic relevance
CN107657281A (zh) * 2017-09-28 2018-02-02 辽宁工程技术大学 一种基于改进的卷积神经网络的图像识别方法
CN108491889A (zh) * 2018-04-02 2018-09-04 深圳市易成自动驾驶技术有限公司 图像语义分割方法、装置及计算机可读存储介质
CN109858506A (zh) * 2018-05-28 2019-06-07 哈尔滨工程大学 一种面向卷积神经网络分类结果的可视化算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AADITYA PRAKASH ELT: "Semantic Perceptual Image Compression using Deep Convolution Networks", 《2017 DATA COMPRESSION CONFERENCE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766965A (zh) * 2022-11-29 2023-03-07 广东职业技术学院 一种试卷图像文件处理方法及存储介质
CN115766965B (zh) * 2022-11-29 2024-07-02 广东职业技术学院 一种试卷图像文件处理方法及存储介质

Similar Documents

Publication Publication Date Title
US11727577B2 (en) Video background subtraction using depth
CN104063883B (zh) 一种基于对象和关键帧相结合的监控视频摘要生成方法
WO2022156640A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN114037938B (zh) 一种基于NFL-Net的低照度目标检测方法
CN111310609B (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN112926552B (zh) 基于深度神经网络的遥感影像车辆目标识别模型及方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN115578774A (zh) 一种基于非局部通道注意力的面部运动单元检测方法
CN111311698A (zh) 一种用于多尺度目标的图像压缩方法及系统
CN110769258A (zh) 一种用于特定场景多语义区域的图像压缩方法及系统
CN116824641A (zh) 姿态分类方法、装置、设备和计算机存储介质
CN113269808B (zh) 视频小目标跟踪方法和装置
CN115311456A (zh) 基于改进DeepLabv3+的风口焦炭分割方法
CN112818950B (zh) 一种基于生成对抗网络和时间卷积网络的唇语识别方法
CN112070048B (zh) 基于RDSNet的车辆属性识别方法
CN111353509B (zh) 一种视觉slam系统的关键点提取器生成方法
CN113420608A (zh) 一种基于密集时空图卷积网络的人体异常行为识别方法
CN117593371B (zh) 一种低帧率水面航行多目标跟踪方法、系统及电子设备
Clarke et al. Improving audiovisual active speaker detection in egocentric recordings with the data-efficient image transformer
CN118155119B (zh) 面向智能电梯乘客意图分析的视频分类方法及系统
CN118524258B (zh) 离线视频背景处理方法、系统及可读存储介质
CN115830517B (zh) 基于视频的考场异常帧提取方法及系统
CN115049705B (zh) 多模板网络框架的目标跟踪方法及装置
CN116385492A (zh) 一种复杂背景下的运动小目标跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207