CN111901594B - 面向视觉分析任务的图像编码方法、电子设备及介质 - Google Patents

面向视觉分析任务的图像编码方法、电子设备及介质 Download PDF

Info

Publication number
CN111901594B
CN111901594B CN202010603330.5A CN202010603330A CN111901594B CN 111901594 B CN111901594 B CN 111901594B CN 202010603330 A CN202010603330 A CN 202010603330A CN 111901594 B CN111901594 B CN 111901594B
Authority
CN
China
Prior art keywords
image
visual analysis
distortion
coding
identifiable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010603330.5A
Other languages
English (en)
Other versions
CN111901594A (zh
Inventor
王苫社
马思伟
张启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010603330.5A priority Critical patent/CN111901594B/zh
Publication of CN111901594A publication Critical patent/CN111901594A/zh
Application granted granted Critical
Publication of CN111901594B publication Critical patent/CN111901594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种面向视觉分析任务的图像编码方法、装置、电子设备及介质。所述方法包括:根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型;将待编码图像输入所述恰可识别失真预测模型,得到所述恰可识别失真预测模型输出的所述图像的恰可识别失真;根据所述图像的恰可识别失真确定编码参数,并根据所述编码参数对所述图像进行编码,得到相应的编码图像。恰可识别失真是编码图像造成视觉分析准确度小于预设准确度的失真阈值,本方案中,使用图像的恰可识别失真作为编码参数选择与设置的指导,能够在同等码率下实现编码图像上的视觉分析任务性能提升,能够节省较多码率,具有较强的可部署性和实用性。

Description

面向视觉分析任务的图像编码方法、电子设备及介质
技术领域
本申请涉及数字信号处理领域,具体涉及一种面向视觉分析任务的图像编码方法及装置、一种电子设备以及一种计算机可读存储介质。
背景技术
图像编码是一种针对数字图像的数据压缩方法,目标是去除原始图像中的冗余,节约存储和传输成本。经过编码压缩的图像一般用于给人观看,而人类的视觉系统并不完美,在能够把握大部分图像信息的同时,会遗漏部分细节。尤其是,人类难以把握两幅相同内容、但质量相似的图像间的差异,这类差异能被人类察觉到的阈值被称作恰可察觉失真(Just Noticeable Distortion,JND),可以作为一种编码压缩的指导模型。
越来越多的图像被用于各种视觉任务中,例如人脸识别、以图搜图等,目前基于深度学习的模型在各项重要的视觉任务上取得了优越的性能。深度学习指的是构建较深的神经网络完成复杂映射的拟合,大部分神经网络模型结构可分为两部分,首先使用若干叠加的卷积层、池化层和激活函数层提取图像特征并降维,然后使用全连接层对特征进行加权组合并输出预测值,通过在大规模数据集上进行端到端的训练以更新神经元的参数。神经网络模型所提取特征的质量很大程度上影响最终的性能,而特征的提取也会受到图像本身质量的影响,对这种影响进行研究,若能给出其阈值,则可以指导编码压缩以产生符合质量要求的图像。
发明内容
本申请的目的是提供一种面向视觉分析任务的图像编码方法及装置、一种电子设备以及一种计算机可读存储介质。
本申请第一方面提供一种面向视觉分析任务的图像编码方法,包括:
根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型;
将待编码图像输入所述恰可识别失真预测模型,得到所述恰可识别失真预测模型输出的所述图像的恰可识别失真;
根据所述图像的恰可识别失真确定编码参数,并根据所述编码参数对所述图像进行编码,得到相应的编码图像;
其中,所述恰可识别失真是编码图像造成所述视觉分析任务类型对应的视觉分析准确度小于预设准确度的失真阈值;所述恰可识别失真预测模型是根据视觉分析失真图像数据集为样本集训练得到的,该失真图像数据集中以视觉分析任务评价指标为准标注恰可识别失真。
本申请第二方面提供一种面向视觉分析任务的图像编码装置,包括:
确定模块,用于根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型;
预测模块,用于将待编码图像输入所述恰可识别失真预测模型,得到所述恰可识别失真预测模型输出的所述图像的恰可识别失真;
编码模块,用于根据所述图像的恰可识别失真确定编码参数,并根据所述编码参数对所述图像进行编码,得到相应的编码图像;
其中,所述恰可识别失真是编码图像造成所述视觉分析任务类型对应的视觉分析准确度小于预设准确度的失真阈值;所述恰可识别失真预测模型是根据视觉分析失真图像数据集为样本集训练得到的,该失真图像数据集中以视觉分析任务评价指标为准标注恰可识别失真。
本申请第三方面提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。
本申请第四方面提供一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。
相较于现有技术,本申请提供的面向视觉分析任务的图像编码方法,根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型;将待编码图像输入所述恰可识别失真预测模型,得到所述恰可识别失真预测模型输出的所述图像的恰可识别失真;根据所述图像的恰可识别失真确定编码参数,并根据所述编码参数对所述图像进行编码,得到相应的编码图像。恰可识别失真是编码图像造成视觉分析准确度小于预设准确度的失真阈值,本方案中,使用图像的恰可识别失真作为编码参数选择与设置的指导,相比于现有技术,能够在同等码率下实现编码图像上的视觉分析任务性能提升,并且在满足一定视觉分析性能下能够节省较多码率。由于本方案只需要在编码端进行改进,具有较强的可部署性和实用性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请的一些实施方式所提供的一种面向视觉分析任务的图像编码方法的流程图;
图2示出了构建视觉分析失真图像数据集的流程图;
图3示出了视觉分析任务性能和图像QP之间的统计关系;
图4示出了MS COCO数据集上图像分类和目标检测任务的恰可识别失真分布;
图5示出了采用二分类网络进行JRD搜索的示意图;
图6示出了图像分类JRD预测、编码及任务性能的详细数据;
图7示出了目标检测JRD预测、编码及任务性能的详细数据;
图8示出了本申请的一些实施方式所提供的一种面向视觉分析任务的图像编码装置的示意图;
图9示出了本申请的一些实施方式所提供的一种电子设备的示意图;
图10示出了本申请的一些实施方式所提供的一种计算机可读存储介质的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,神经网络模型所提取特征的质量很大程度上影响最终的性能,而特征的提取也会受到图像本身质量的影响,对这种影响进行研究,若能给出其阈值,则可以指导编码压缩以产生符合质量要求的图像。
有鉴于此,本申请实施例将提供一种面向视觉分析任务的图像编码方法及装置,和基于该方法的电子设备以及介质等。在本申请实施例的方案中提出的图像编码方法,其实是一种全新的、面向视觉分析的编码优化方法,即使用图像的恰可识别失真作为编码参数选择与设置的指导,实现在相同编码代价下图像视觉分析性能的提升。本申请基于图像质量对视觉分析模型性能影响的统计特性,提出图像的恰可识别失真这一概念,构建大规模视觉分析失真图像数据集且完成恰可识别失真的标注,并建立基于深度卷积神经网络的恰可识别失真预测模型,最后使用预测的恰可识别失真指导编码参数的选择与设置。在申请中,恰可识别失真这一概念被首次提出,衡量图像质量对视觉分析性能影响的阈值,通过在大规模视觉分析失真图像数据集上对不同视觉分析任务和不同视觉分析模型进行实验获得,并提出了可行的恰可识别失真预测模型;另外,使用预测的恰可识别失真作为编码的先验知识,对编码参数的设置和分配进行优化,从而达到在同等编码代价下提升视觉分析性能的目的。
为进一步说明本申请实施例的方案,下面将结合附图进行描述。可以理解的是,下面各实施例中,相同或相应的内容可以相互参考,为描述简便,后续不作赘述。
本申请实施例提供一种面向视觉分析任务的图像编码方法及装置、一种电子设备以及计算机可读存储介质,下面结合附图进行说明。
请参考图1,其示出了本申请的一些实施方式所提供的一种面向视觉分析任务的图像编码方法的流程图,该方法可以包括以下步骤S101-S103:
步骤S101:根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型。
步骤S102:将待编码图像输入恰可识别失真预测模型,得到恰可识别失真预测模型输出的图像的恰可识别失真。
步骤S103:根据图像的恰可识别失真确定编码参数,并根据编码参数对图像进行编码,得到相应的编码图像。
其中,恰可识别失真是编码图像造成视觉分析任务类型对应的视觉分析准确度小于预设准确度的失真阈值;恰可识别失真预测模型是根据视觉分析失真图像数据集为样本集训练得到的,该失真图像数据集中以视觉分析任务评价指标为准标注恰可识别失真。
其中,视觉分析任务类型可以包括图像分类、目标检测和姿态估计。编码参数可以包括量化参数和/或码率。
具体的,如图2所示,上述视觉分析失真图像数据集的构建过程如下:
步骤S201:构建面向视觉分析的图像数据集。
步骤S202:对所述图像数据集使用不同编码参数进行编码,得到不同编码质量的失真图像数据集。
步骤S203:选择不同视觉分析任务,在所述失真图像数据集上试验视觉分析模型,获得图像质量和视觉分析模型准确度的统计关系。
步骤S204:标注图像在不同视觉分析任务、不同视觉分析模型下的恰可识别失真。
本实施例中提出了一个全新的图像编码概念,即恰可识别失真,目的是通过确定编码失真造成视觉分析性能下降的阈值,作为编码时编码参数设置的参考。
下面对恰可识别失真、恰可识别失真预测、及恰可识别失真如何指导编码参数设置进行详细介绍。
1、恰可识别失真
在图像编码中,量化参数(QP)是影响图像质量和码率的重要参数,编码器通过增大QP控制码率,但这也会引入失真,导致解码得到的图像质量下降。这种质量下降体现在纹理的丢失、结构的破坏等方面,不仅会造成人眼观感不好,也会影响计算机视觉分析模型的特征提取能力,导致视觉分析任务性能的下滑。本申请使用HEVC对MS COCO数据集进行了不同QP的转码,选择了图像分类、目标检测和姿态估计三种重要的视觉分析任务,以及相应的基于深度学习的经典模型(ResNet-101、Faster RCNN ResNet-101、Pose ResNet-101),得到了模型性能和图像QP之间的统计关系,如图3所示。
根据统计结果,可以认为,对于大多数图像,失真程度增大会使得视觉分析模型预测准确度降低。当失真程度增大到某个阈值后,视觉分析模型对该图像的预测将完全失效,将该阈值定义为图像的恰可识别失真(Just Recognizable Distortion,JRD)。具体描述如下:
对于一幅原始图像I0,经过编码压缩后会产生不同质量的失真图像I1,I2,…,n,下标表示编码器的质量配置参数,该参数越大表示图像质量越差,例如QP。设I0对于某个计算机视觉分析任务模型M(可以简称为模型)的正确输出结果为yM(I0),则有
JRD(I0;M)=q
当且仅当以下条件成立:
Figure BDA0002559935830000061
其中ε表示质量参数偏移量。
对于图像分类任务而言,模型的输出一般是图像属于每个类别的概率
Figure BDA0002559935830000063
选取最严格的Top-1准确率(如图3中表格所示)作为分类任务的性能指标,对于单幅图像,要求
M(IJRD)=l≡yM(I0),
Figure BDA0002559935830000062
对于目标检测任务而言,考察图像I中的某个物体o,其JRD所对应的量化参数记作q,模型M在失真图像Iq上进行预测,会得到n个可能的物体预测结果:
Figure BDA0002559935830000071
其中每个结果以一个五元组表示:
Figure BDA0002559935830000072
其中,前两项表示预测框左上角x轴坐标、y轴坐标,随后两项表示预测框的宽度和高度,最后一项则表示所预测类别的概率,取所有类别预测概率中的最大值。
对这n个结果,根据预测类别概率从大到小进行排序,并选择前Tn个作为评价时有效的预测;物体o也对应一个五元组
Figure BDA0002559935830000073
则当且仅当
Figure BDA0002559935830000074
Figure BDA0002559935830000075
成立时,JRD(o)=q,其中TIoU表示IOU阈值,Tp表示类别概率阈值,r表示q之后的任意量化参数取值,即r=q+ε。在实验中,Tn取100,TIOU取0.8,Tp取0.5。
本实例主要在MS COCO数据集上,对基于ResNet特征提取网络的视觉分析模型完成了JRD的标注,图4中给出该数据集上图像分类和目标检测任务的恰可识别失真分布,以同一JRD的物体数目在总物体数目中所占的百分比例表示。需要指出,对于目标检测任务,实验中仅标注和考察了Person类。
恰可识别失真的表现形式具体但不限定于:量化参数,码率,峰值信噪比,结构相似度等。恰可识别失真的标注与视觉分析任务、模型及性能评价指标相关,原始数据集的来源具体但不限定于:视觉分析评估数据集、实际应用产生的数据集等。
2、恰可识别失真预测
对图像的恰可识别失真预测,是以原始图像I0作为恰可识别失真预测模型的输入,预测其在特定视觉分析任务、特定模型下的恰可识别失真。JRD在一定程度上反映了基于深度学习的模型的特征提取能力,因此对JRD的预测同样使用基于深度学习的方法。JRD的度量单位为量化参数的情况下,由于后者在编码器的预设中是离散的值,因此对JRD的预测可被视为一个分类问题,即首先提取合适的特征,再组合这些特征以划分类别,输出属于不同JRD的概率。
本实例中,以VGG网络为基础构建预测JRD的神经网络模型。以图像分类任务为例,可以发现,不同JRD的分布占比是完全不同的,大量图像的JRD集中在高QP下,训练和测试样本数据极不均衡,直接将JRD所有可能的取值作为类别会产生极大的误差,因此,根据本申请的一个实施方式中,恰可识别失真预测模型可以包括多个子模型,每个子模型负责预测图像在相应编码参数下完成编码后,能否获得正确的视觉分析结果;具体可以采用从后向前或从前向后、逐一判断的搜索策略,若搜索到当前子模型能获得正确的视觉分析结果,则结束搜索,并根据当前子模型对应的编码参数确定图像的恰可识别失真。
也就是说,本申请中所提出的恰可识别失真预测模型,实际上是一种模型框架,该框架中包含多个子模型,其中每个子模型的作用是预测“图像在某个编码参数下完成编码后,能否获得正确的视觉分析结果”,这些子模型是二分类模型,因为它的预测结果是“能”或“不能”。
以图像分类任务举例说明,子模型A预测图像在编码参数QP=51下不能被正确分类,子模型B预测其在QP=49下不能被正确分类,子模型C预测其在QP=47下能够被正确分类,则图像的恰可识别失真可以为QP=47。子模型A、B、C即模型框架中所包含的子模型,但模型框架一共会包含n个子模型,n的值由恰可识别失真的精度确定,例如采用QP,则可以为51个(QP的值为1到51),但在具体实验中,发现精度无需太高,因此只选择了部分QP进行训练。在使用模型框架时,如上例所述,从后向前(即QP为51向1的方向)判断能否被正确分类,一旦确定在某个QP下能被正确分类,则不需要再使用该QP之前的子模型。
值得一提的是,上述多个二分类模型的作用具体但不限定于:预测图像在当前编码参数下能否获得正确视觉分析结果,预测图像的恰可识别失真是否等于当前编码参数等。多个二分类模型在应用时,采用一种搜索策略以确定准确的恰可识别失真。搜索顺序可采用从后往前或从前往后,搜索间隔可采用逐一搜索或区间搜索等方式。
具体的,本实例提出JRD预测的多个二分类模型协助方法:对于一幅原始图像I0,可能的编码QP取值为q1,q2,…,qn,训练n个二分类模型
Figure BDA0002559935830000091
其中模型
Figure BDA0002559935830000092
用于预测I0经过qk压缩得到的失真图像Ik是否可以被正确分类(或被正确检测,以具体视觉分析任务指标为准)。为了在提高模型泛化能力的同时,不影响数据的JRD分布,仅采用水平翻转这一种图像增强方式。对于模型
Figure BDA0002559935830000093
为了能够使用全部数据进行训练和测试,设置正样本包含原训练集中满足JRD≥qk的所有图像,负样本为满足JRD<qk的所有图像,在训练时调整正负样本的梯度权重以提升训练效果,具体实现即为设置交叉熵损失函数中的权重。所有模型训练完毕后,使用图5所示的JRD搜索方法获得图像最终的恰可识别失真,可以选择所有模型集合的子集来实现最终的预测,防止误差累积。
经过实验,在COCO valid2017数据集上,对于图像分类任务,采用上述方法预测的JRD与实际JRD偏差为+1.5;对于目标检测任务,则误差为+2.3。
3、恰可识别失真如何指导编码参数设置
对原始图像I0进行编码压缩前,可由恰可识别失真预测模型预测其恰可识别失真作为编码的量化参数选择先验知识,这是因为恰可识别失真能够表征图像对于视觉分析的特征冗余信息,编码时去除该冗余能够进一步提升编码性能。对于图像分类任务,将整幅图像的帧级QP设置为JRD即可。对于目标检测任务,首先确定待优化的图像区域,即可能包含物体的区域,可由Region Proposal Network模型实现简单的定位,或者使用对硬件友好的YOLO。对于每个区域,以最大编码单元(Largest Coding Unit,LCU或CTU)作为其QP设置单位。在实施时,对于有所重叠的物体区域,重叠部分的QP可以选择为两者JRD的更大值或更小值,视实际需求而灵活确定;对于JRD与基础QP区别较大的情况,可以仅允许一定范围内的QP变化以防止画面出现较大割裂影响主观质量,视实际需求而灵活确定。采用JRD指导的量化参数选择方法,仅需要在编码器端完成修改,可以较容易地集成到现行编码框架中,无需修改解码器端,因此在部署上也较简单。
综上,本实施例应用需要三个阶段:训练、预测和应用阶段。在训练阶段,根据需求构建恰可识别失真的标注数据集,并且在数据集上完成上述恰可识别失真预测模型的端到端的训练,得到若干二分类模型,即将原始图像输入到二分类网络,使网络的输出结果接近对应QP下视觉分析任务能否正确完成的二元标注,通过梯度下降法优化网络模型参数,使其提取到合适的特征并提高分类准确率。在预测阶段,使用训练好的若干二分类模型,采用从后向前、逐一判断的搜索策略确定原始图像的恰可识别失真。在应用阶段,对于待编码的图像,获得其恰可识别失真后,根据视觉分析任务的不同,可以在帧级或CTU级别将图像或图像区域的编码QP设置为JRD附近的值。
本实施例的性能评价指标包含两方面:码率及视觉分析准确率。经实验对比,本实施例在码率节省和视觉分析性能两个方面与当前较先进的编码器HEVC相比具有明显的优越性,对比详细数据分别如图6和图7所示,其中码率的单位为kbps。
从效果可见,在同等码率下,本实施例可以实现更优的视觉分析任务性能;在同等视觉分析任务性能下,本实施例也可以节省一定码率。
相较于现有技术,本申请实施例提供的上述面向视觉分析任务的图像编码方法,根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型;将待编码图像输入所述恰可识别失真预测模型,得到所述恰可识别失真预测模型输出的所述图像的恰可识别失真;根据所述图像的恰可识别失真确定编码参数,并根据所述编码参数对所述图像进行编码,得到相应的编码图像。恰可识别失真是编码图像造成视觉分析准确度小于预设准确度的失真阈值,本方案中,使用图像的恰可识别失真作为编码参数选择与设置的指导,相比于现有技术,能够在同等码率下实现编码图像上的视觉分析任务性能提升,并且在满足一定视觉分析性能下能够节省较多码率。由于本方案只需要在编码端进行改进,具有较强的可部署性和实用性。
在上述的实施例中,提供了一种面向视觉分析任务的图像编码方法,与之相对应的,本申请还提供一种面向视觉分析任务的图像编码装置。请参考图5,其示出了本申请的一些实施方式所提供的一种面向视觉分析任务的图像编码装置的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图8所示,面向视觉分析任务的图像编码装置10可以包括:
确定模块101,用于根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型;
预测模块102,用于将待编码图像输入恰可识别失真预测模型,得到恰可识别失真预测模型输出的图像的恰可识别失真;
编码模块103,用于根据图像的恰可识别失真确定编码参数,并根据编码参数对图像进行编码,得到相应的编码图像;
其中,恰可识别失真是编码图像造成视觉分析任务类型对应的视觉分析准确度小于预设准确度的失真阈值;恰可识别失真预测模型是根据视觉分析失真图像数据集为样本集训练得到的,该失真图像数据集中以视觉分析任务评价指标为准标注恰可识别失真。
根据本申请的一些实施方式中,预测模块102,还用于构建视觉分析失真图像数据集;
视觉分析失真图像数据集的构建过程,包括:
构建面向视觉分析的图像数据集;
对图像数据集使用不同编码参数进行编码,得到不同编码质量的失真图像数据集;
选择不同视觉分析任务,在失真图像数据集上试验视觉分析模型,获得图像质量和视觉分析模型准确度的统计关系;
标注图像在不同视觉分析任务、不同视觉分析模型下的恰可识别失真。
根据本申请的一些实施方式中,上述恰可识别失真预测模型包括多个子模型,每个子模型负责预测图像在相应编码参数下完成编码后,能否获得正确的视觉分析结果;
预测模块102具体用于:采用从后向前或从前向后、逐一判断的搜索策略,若搜索到当前子模型能获得正确的视觉分析结果,则结束搜索,并根据当前子模型对应的编码参数确定图像的恰可识别失真。
本申请实施例提供的面向视觉分析任务的图像编码装置10,与本申请前述实施例提供的面向视觉分析任务的图像编码方法出于相同的发明构思,具有相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的面向视觉分析任务的图像编码方法对应的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述面向视觉分析任务的图像编码方法。
请参考图9,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图6所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的面向视觉分析任务的图像编码方法。
本申请实施例提供的电子设备与本申请实施例提供的面向视觉分析任务的图像编码方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的面向视觉分析任务的图像编码方法对应的计算机可读存储介质,请参考图10,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的面向视觉分析任务的图像编码方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的面向视觉分析任务的图像编码方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims (9)

1.一种面向视觉分析任务的图像编码方法,其特征在于,包括:
根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型;
将待编码图像输入所述恰可识别失真预测模型,得到所述恰可识别失真预测模型输出的所述图像的恰可识别失真;
根据所述图像的恰可识别失真确定编码参数,并根据所述编码参数对所述图像进行编码,得到相应的编码图像;
其中,所述恰可识别失真是编码图像造成所述视觉分析任务类型对应的视觉分析准确度小于预设准确度的失真阈值;所述恰可识别失真预测模型是根据视觉分析失真图像数据集为样本集训练得到的,该失真图像数据集中以视觉分析任务评价指标为准标注恰可识别失真;
所述恰可识别失真预测模型包括多个子模型,每个子模型负责预测所述图像在相应编码参数下完成编码后,能否获得正确的视觉分析结果;
采用从后向前或从前向后、逐一判断的搜索策略,若搜索到当前子模型能获得正确的视觉分析结果,则结束搜索,并根据当前子模型对应的编码参数确定所述图像的恰可识别失真。
2.根据权利要求1所述的方法,其特征在于,所述视觉分析失真图像数据集的构建过程,包括:
构建面向视觉分析的图像数据集;
对所述图像数据集使用不同编码参数进行编码,得到不同编码质量的失真图像数据集;
选择不同视觉分析任务,在所述失真图像数据集上试验视觉分析模型,获得图像质量和视觉分析模型准确度的统计关系;
标注图像在不同视觉分析任务、不同视觉分析模型下的恰可识别失真。
3.根据权利要求1所述的方法,其特征在于,所述编码参数包括量化参数和/或码率。
4.根据权利要求3所述的方法,其特征在于,根据所述编码参数对所述图像进行编码,包括:
在帧级或最大编码单元级,根据所述恰可识别失真选择量化参数进行编码。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述视觉分析任务类型包括图像分类、目标检测和姿态估计。
6.一种面向视觉分析任务的图像编码装置,其特征在于,包括:
确定模块,用于根据待编码图像的视觉分析任务类型,确定相应的恰可识别失真预测模型;
预测模块,用于将待编码图像输入所述恰可识别失真预测模型,得到所述恰可识别失真预测模型输出的所述图像的恰可识别失真;
编码模块,用于根据所述图像的恰可识别失真确定编码参数,并根据所述编码参数对所述图像进行编码,得到相应的编码图像;
其中,所述恰可识别失真是编码图像造成所述视觉分析任务类型对应的视觉分析准确度小于预设准确度的失真阈值;所述恰可识别失真预测模型是根据视觉分析失真图像数据集为样本集训练得到的,该失真图像数据集中以视觉分析任务评价指标为准标注恰可识别失真;
所述恰可识别失真预测模型包括多个子模型,每个子模型负责预测所述图像在相应编码参数下完成编码后,能否获得正确的视觉分析结果;
采用从后向前或从前向后、逐一判断的搜索策略,若搜索到当前子模型能获得正确的视觉分析结果,则结束搜索,并根据当前子模型对应的编码参数确定所述图像的恰可识别失真。
7.根据权利要求6所述的装置,其特征在于,所述预测模块,还用于构建所述视觉分析失真图像数据集;
所述视觉分析失真图像数据集的构建过程,包括:
构建面向视觉分析的图像数据集;
对所述图像数据集使用不同编码参数进行编码,得到不同编码质量的失真图像数据集;
选择不同视觉分析任务,在所述失真图像数据集上试验视觉分析模型,获得图像质量和视觉分析模型准确度的统计关系;
标注图像在不同视觉分析任务、不同视觉分析模型下的恰可识别失真。
8.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现如权利要求1至5中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至5中任一项所述的方法。
CN202010603330.5A 2020-06-29 2020-06-29 面向视觉分析任务的图像编码方法、电子设备及介质 Active CN111901594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010603330.5A CN111901594B (zh) 2020-06-29 2020-06-29 面向视觉分析任务的图像编码方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010603330.5A CN111901594B (zh) 2020-06-29 2020-06-29 面向视觉分析任务的图像编码方法、电子设备及介质

Publications (2)

Publication Number Publication Date
CN111901594A CN111901594A (zh) 2020-11-06
CN111901594B true CN111901594B (zh) 2021-07-20

Family

ID=73207169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010603330.5A Active CN111901594B (zh) 2020-06-29 2020-06-29 面向视觉分析任务的图像编码方法、电子设备及介质

Country Status (1)

Country Link
CN (1) CN111901594B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022205058A1 (zh) * 2021-03-31 2022-10-06 华为技术有限公司 图像处理方式的确定方法及装置
CN113228657B (zh) * 2021-03-31 2022-08-09 华为技术有限公司 图像处理方式的确定方法及装置
CN117529725A (zh) * 2021-06-28 2024-02-06 华为技术有限公司 图像处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101534448A (zh) * 2007-09-14 2009-09-16 索尼株式会社 视频编码中基于人类视觉容差的编码工具选择
CN103096079A (zh) * 2013-01-08 2013-05-08 宁波大学 一种基于恰可察觉失真的多视点视频码率控制方法
CN103596006A (zh) * 2013-12-04 2014-02-19 西安电子科技大学 基于视觉冗余度量的图像压缩方法
CN107241607A (zh) * 2017-07-18 2017-10-10 厦门大学 一种基于多域jnd模型的视觉感知编码方法
CN108600730A (zh) * 2018-03-26 2018-09-28 杭州同绘科技有限公司 一种基于合成图像质量度量的远程绘制方法
CN110062234A (zh) * 2019-04-29 2019-07-26 同济大学 一种基于区域恰可察觉失真的感知视频编码方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11095896B2 (en) * 2017-10-12 2021-08-17 Qualcomm Incorporated Video coding with content adaptive spatially varying quantization
CN111246218B (zh) * 2020-01-16 2023-07-14 郑州轻工业大学 基于jnd模型的cu分割预测和模式决策纹理编码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101534448A (zh) * 2007-09-14 2009-09-16 索尼株式会社 视频编码中基于人类视觉容差的编码工具选择
CN103096079A (zh) * 2013-01-08 2013-05-08 宁波大学 一种基于恰可察觉失真的多视点视频码率控制方法
CN103596006A (zh) * 2013-12-04 2014-02-19 西安电子科技大学 基于视觉冗余度量的图像压缩方法
CN107241607A (zh) * 2017-07-18 2017-10-10 厦门大学 一种基于多域jnd模型的视觉感知编码方法
CN108600730A (zh) * 2018-03-26 2018-09-28 杭州同绘科技有限公司 一种基于合成图像质量度量的远程绘制方法
CN110062234A (zh) * 2019-04-29 2019-07-26 同济大学 一种基于区域恰可察觉失真的感知视频编码方法

Also Published As

Publication number Publication date
CN111901594A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111901594B (zh) 面向视觉分析任务的图像编码方法、电子设备及介质
CN108550259B (zh) 道路拥堵判断方法、终端设备及计算机可读存储介质
CN106570464B (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN111814902A (zh) 目标检测模型训练方法、目标识别方法、装置和介质
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
US20140286527A1 (en) Systems and methods for accelerated face detection
CN113837308B (zh) 基于知识蒸馏的模型训练方法、装置、电子设备
CN110363224B (zh) 一种基于图像的物体分类方法、系统及电子设备
CN111860407A (zh) 一种视频中人物的表情识别方法、装置、设备及存储介质
CN107203763B (zh) 文字识别方法和装置
CN111898638B (zh) 融合不同视觉任务的图像处理方法、电子设备及介质
CN115302963A (zh) 一种基于机器视觉的条形码印刷控制方法、系统及介质
CN112215236A (zh) 文本识别方法、装置、电子设备及存储介质
CN116304184A (zh) 视频分类模型、训练方法、分类方法、设备及存储介质
CN113723367B (zh) 一种答案确定方法、判题方法及装置和电子设备
CN115019321A (zh) 一种文本识别、模型训练方法、装置、设备及存储介质
CN104850819A (zh) 信息处理方法及电子设备
CN114666571A (zh) 视频敏感内容检测方法及系统
CN114445656A (zh) 多标签模型处理方法、装置、电子设备及存储介质
CN114241253A (zh) 违规内容识别的模型训练方法、系统、服务器及存储介质
CN112712550A (zh) 一种图像质量评价方法及装置
CN116778376B (zh) 内容安全检测模型训练方法、检测方法和装置
CN117649358B (zh) 图像处理方法、装置、设备及存储介质
CN113095342B (zh) 基于误判样本图片的审核模型优化方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant