CN113366531A - 图像处理方式的确定方法及装置 - Google Patents

图像处理方式的确定方法及装置 Download PDF

Info

Publication number
CN113366531A
CN113366531A CN202180001346.1A CN202180001346A CN113366531A CN 113366531 A CN113366531 A CN 113366531A CN 202180001346 A CN202180001346 A CN 202180001346A CN 113366531 A CN113366531 A CN 113366531A
Authority
CN
China
Prior art keywords
precision
distortion
threshold
determining
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180001346.1A
Other languages
English (en)
Inventor
林永兵
马莎
罗达新
高鲁涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN113366531A publication Critical patent/CN113366531A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请涉及图像处理方式的确定方法及装置,可用于辅助驾驶和自动驾驶。所述方法包括:根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值;其中,所述第一对应关系为精度和失真度之间的对应关系;根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值;其中,所述第二对应关系为失真度和码率之间的对应关系。本申请实施例的方法,实现了压缩算法与AI处理的解耦,如果要评测新的压缩算法,不需要进行端到端评测,可以提高自动驾驶或者辅助驾驶系统评测的效率,可以应用于车联网,如车辆外联V2X、车间通信长期演进技术LTE‑V、车辆‑车辆V2V等。

Description

图像处理方式的确定方法及装置
技术领域
本申请涉及图像技术领域,尤其涉及一种图像处理方式的确定方法及装置。
背景技术
随着社会的发展,智能运输设备、智能家居设备、机器人等智能终端正在逐步进入人们的日常生活中。传感器在智能终端上发挥着十分重要的作用。安装在智能终端上的各式各样的传感器,比如毫米波雷达,激光雷达,摄像头,超声波雷达等,在智能终端的运动过程中感知周围的环境,收集数据,进行移动物体的辨识与追踪,以及静止场景如车道线、标示牌的识别,并结合导航仪及地图数据进行路径规划。传感器可以预先察觉到可能发生的危险并辅助甚至自主采取必要的规避手段,有效增加了智能终端的安全性和舒适性。
摄像头具有分辨率高、非接触、使用方便、成本低廉等特点,是自动驾驶环境感知的必备传感器。车辆上可以安装越来越多的摄像头,在自动驾驶时,通过摄像头采集环境中的图像并进行机器视觉处理,识别环境中的障碍物或者目标,从而实现无盲点覆盖。
随着摄像头的分辨率、帧率、采样深度等参数的不断提高,摄像头输出的视频对传输带宽的需求越来越大。图1a是相关技术中一种基于压缩的感知系统传输数据的示意图。如图1a所示,感知系统中包括摄像头、图像信号处理器(Image signal processor,ISP),感知系统将处理后的图像数据传输到移动数据计算平台(Mobile data center,MDC),由MDC进一步进行处理。具体地,摄像头输出的拜耳原始(Bayer RAW)图像,经过ISP处理后发送MDC,MDC对ISP处理后的图像进行机器视觉处理。
图1a中的摄像头输出的Bayer RAW图像可以为分辨率为4K的超高清(Ultra highdefinition,UHD)图像,图像的帧率可以为30fps,图像的位深度可以为16bitdepth(比特位深),图像的带宽需求高达4Gbps(4K*2k*30*16)。为缓解传输网络的压力,可以采用对图像进行压缩后传输的方法降低带宽需求,无需升级现有网络即可开展UHD视频传输的新业务。
自动驾驶对安全性要求高,因此,自动驾驶系统对感知系统的延时比较敏感。图1a所示的场景作为感知系统的一个示例,对压缩算法的需求可以包括:支持RAW格式图像的编码,低延时,低复杂度,高压缩性能。为了满足这些性能,相关技术中设计了在RAW域进行视频压缩的架构。图1b示出根据相关技术中一示例的视频压缩的架构的示意图。如图1b所示,摄像头输出RAW格式的图像,经过编码器进行编码后输出RAW格式的图像,输出的RAW格式的图像是经过压缩后的图像,编码器编码后的图像可以传输到MDC,MDC上可以包括解码器、ISP以及深度神经网络,解码器用于对收到的已压缩的图像进行解码得到解码后的图像,然后再经过ISP处理后输出三原色(Red Green Blue,RGB)或者YUV格式的图像到深度神经网络进一步处理。其中,ISP处理可以包括:去马赛克(Demosaic)操作,用于将图像从RAW格式转换成RGB格式;白平衡(white balance,WB)操作,用于对图像进行白平衡处理;色彩校正矩阵(Color Correction Matrix,CCM),用于完成sensor_RGB色彩空间到sRGB色彩空间的转换,使得相机的颜色匹配特性满足卢瑟条件;伽马(Gamma)矫正,用于矫正显示器的显示特性和输入图像的非线性关系。ISP处理还可以包括其他对图像的处理过程,本申请不限于上述处理。深度神经网络对图像进行的处理可以包括:图像识别、分割等。
图1b所示的示例在RAW域压缩可以降低感知系统到MDC的时延;图1b所示的ISP和深度神经网络可以设置于MDC中,这样可以提供更加灵活的ISP能力,获得更好的图像质量,并且能够降低感知系统到MDC的时延。
采用有损图像/视频压缩技术能够获得较高的压缩率,常用的有损压缩标准包括:联合图像专家组(Joint Photographic Experts Group,JPEG),H264/H265,JPEG-XS(JointPhotographic Experts Group Extra Speed)等。其中,JPEG-XS是联合图像专家组提出的一种新的压缩标准。压缩技术的引入导致的图像质量损伤是不可避免的,图像质量的损伤会对后续的机器视觉处理产生影响,可能会导致识别的准确率下降,图像分割不准确等问题。
为了评估压缩带来的图像质量的损伤对后续人工智能(ArtificialIntelligence,AI)处理的影响,相关技术中提出了一些图像质量评价方法,在多大的码率阈值上进行压缩,可以达到机器无损的要求。其中,机器无损是指,相比于不压缩的图像,对压缩后的图像进行识别的精度指标在一定的误差范围内。也就是说,对压缩后的图像进行识别的精度指标,与对原图像(没有压缩的图像)进行识别的精度指标之间的差值在一定的误差范围内。
相关技术中提出的评价方法是端到端的测评,也就是说,相关技术中的评价方法是对从前端的压缩处理、到后端的人工智能处理整个过程的精度的评价。如果要对不同的压缩算法进行评价,端到端的测评方式效率比较低。
发明内容
有鉴于此,提出了一种图像处理方式的确定方法及装置,实现了压缩算法与AI处理的解耦,可以提高评测的效率。
第一方面,本申请的实施例提供了一种图像处理方式的确定方法,所述方法包括:根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值;其中,所述第一对应关系为精度和失真度之间的对应关系;根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值;其中,所述第二对应关系为失真度和码率之间的对应关系。
其中,业务要求的精度阈值可以是指不同的应用场景下对精度的需求,应用场景可以为自动驾驶、辅助驾驶等等,这些不同的应用场景对处理精度的需求可能是不同的,因此,不同的应用场景有对应的业务要求的精度阈值。
本申请实施例的方法通过引入失真度作为中间变量,采用第一对应关系评价压缩之后的失真度对精度的影响,采用第二对应关系评价采用不同的码率压缩之后的失真度,将压缩的过程和压缩之后的处理过程的评价分开处理,可以实现压缩和压缩之后的处理过程的解耦,提高评测的效率。
示例性的,压缩之后的处理过程可以是AI处理,根据本申请实施例的方法可以实现压缩算法与AI处理的解耦,如果要评测新的压缩算法,不需要进行端到端评测,可以只对压缩处理的过程进行评测得到新的压缩算法对应的第二对应关系即可。同样的,如果要采用新的AI模块对图像进行识别,也可以采用已有的数据对AI识别的过程重新进行评测得到新的第一对应关系即可,不需要进行端到端的评测。本申请实施例提供的方法可以提高评测的效率。
在一种可能的实现方式中,业务要求的精度阈值可以是指业务要求的精度与机器无损的精度的差值。根据第一方面,第一种可能的实现方式中,根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值,包括:根据所述精度阈值和第一精度,确定所述精度阈值对应的第二精度,其中,所述第一精度为对所述原图像进行识别的精度;根据所述第二精度和所述第一对应关系,确定所述第二精度对应的失真阈值。
根据第一方面或第一方面的第一种可能的实现方式,第二种可能的实现方式中,所述码率为采用压缩算法对原图像进行压缩得到所述已压缩的图像的取样频率,所述失真度为已压缩的图像相对于真实环境的差异,所述精度为对所述已压缩的图像进行识别的精度。
根据第一方面或第一方面的第一种或第二种可能的实现方式中的任意一种,第三种可能的实现方式中,所述第二对应关系为对压缩算法进行测试得到的,所述第二对应关系包括多个不同的子对应关系,每个子对应关系与一个压缩算法对应,不同的压缩算法对应的所述第一对应关系相同。
根据第一方面的第三种可能的实现方式,第四种可能的实现方式中,根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值,包括:确定对原图像进行压缩所采用的压缩算法;确定所述压缩算法对应的子对应关系;根据所述失真阈值和所述子对应关系,确定所述失真阈值对应的码率阈值。
本申请实施例的确定方法简单、高效,易于扩展。比如说,如果要采用新的压缩算法进行图像的压缩处理,可以针对不同的码率点对新的压缩算法进行评测。具体地,针对不同的码率点采用新的压缩算法对图像进行压缩处理,并输出已压缩的图像的失真度,得到新的压缩算法对应的第二对应关系。不需要再对压缩后的图像进行AI处理,得到AI模块处理的精度,不需要重新建立新的第一对应关系,采用之前建立的第一对应关系即可。处理器可以建立新的压缩算法对应的第二对应关系,如果要根据业务要求的精度阈值确定采用新的压缩算法压缩时的码率阈值,处理器可以根据业务要求的精度阈值确定对应的失真阈值,根据精度阈值查找已建立的第一对应关系确定精度阈值对应的失真阈值,根据失真阈值查找新的压缩算法对应的第二对应关系,确定失真阈值对应的码率阈值,即为采用新的压缩算法压缩时满足业务要求的精度阈值的码率阈值。本申请提供的确定方法可以对压缩和AI处理的过程进行解耦,实现分阶段评价,AI处理的精度和压缩算法无关,针对新的压缩算法只需要进行失真度和码率的重新测试即可,不需要进行端到端的测试,简化了测试的过程,评测效率更高。
根据第一方面或第一方面的第一种或第二种可能的实现方式中的任意一种,第五种可能的实现方式中,所述失真度为根据以下指标中的一种或多种得到的:峰值信噪比PSNR,均方误差MSE,结构相似性指标SSIM,感知损失。
根据第一方面或第一方面的第一种或第二种可能的实现方式中的任意一种,第六种可能的实现方式中,所述精度为根据以下指标中的一种或多种得到的:平均精度均值mAP,精度均值AP,平均召回率AR,均交并比MIoU。
根据第一方面的第二种可能的实现方式,第七种可能的实现方式中,所述原图像为贝叶尔原始RAW图像,所述已压缩的图像为红绿蓝RGB图像,对所述原图像进行压缩为:在RAW域、或者RGB域、或者YUV域对所述原图像进行压缩。
根据第一方面的第二种可能的实现方式,第八种可能的实现方式中,所述原图像为贝叶尔原始RAW图像,所述已压缩的图像为YUV图像,对所述原图像进行压缩为:在YUV域对所述原图像进行压缩。
根据第一方面的第二种可能的实现方式,第九种可能的实现方式中,所述原图像和所述已压缩的图像都为贝叶尔原始RAW图像,对所述原图像进行压缩为:在RAW域对所述原图像进行压缩。
第二方面,本申请的实施例提供了一种图像处理方式的确定装置,所述装置包括:第一确定模块,用于根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值;其中,所述第一对应关系为精度和失真度之间的对应关系;第二确定模块,用于根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值;其中,所述第二对应关系为失真度和码率之间的对应关系。
本申请实施例的装置通过引入失真度作为中间变量,采用第一对应关系评价压缩之后的失真度对精度的影响,采用第二对应关系评价采用不同的码率压缩之后的失真度,将压缩的过程和压缩之后的处理过程的评价分开处理,可以实现压缩和压缩之后的处理过程的解耦,提高评测的效率。
示例性的,压缩之后的处理过程可以是AI处理,根据本申请实施例的装置实现了压缩算法与AI处理的解耦,如果要评测新的压缩算法,不需要进行端到端评测,可以只对压缩处理的过程进行评测得到新的压缩算法对应的第二对应关系即可。同样的,如果要采用新的AI模块对图像进行识别,也可以采用已有的数据对AI识别的过程重新进行评测得到新的第一对应关系即可,不需要进行端到端的评测。本申请实施例提供的装置可以提高评测的效率。
根据第二方面,第一种可能的实现方式中,所述第一确定模块包括:第一确定单元,用于根据所述精度阈值和第一精度,确定所述精度阈值对应的第二精度,其中,所述第一精度为对所述原图像进行识别的精度;第二确定单元,用于根据所述第二精度和所述第一对应关系,确定所述第二精度对应的失真阈值。
根据第二方面或第二方面的第一种可能的实现方式,第二种可能的实现方式中,所述码率为采用压缩算法对原图像进行压缩得到所述已压缩的图像的取样频率,所述失真度为已压缩的图像相对于真实环境的差异,所述精度为对所述已压缩的图像进行识别的精度。
根据第二方面或第二方面的第一种或第二种可能的实现方式中的任意一种,第三种可能的实现方式中,所述第二对应关系为对压缩算法进行测试得到的,所述第二对应关系包括多个不同的子对应关系,每个子对应关系与一个压缩算法对应,不同的压缩算法对应的所述第一对应关系相同。
根据第二方面的第三种可能的实现方式,第四种可能的实现方式中,所述第二确定模块包括:第三确定单元,用于确定对原图像进行压缩所采用的压缩算法;第四确定单元,用于确定所述压缩算法对应的子对应关系;第五确定单元,用于根据所述失真阈值和所述子对应关系,确定所述失真阈值对应的码率阈值。
本申请实施例的装置简单、高效,易于扩展。比如说,如果要采用新的压缩算法进行图像的压缩处理,可以针对不同的码率点对新的压缩算法进行评测。具体地,针对不同的码率点采用新的压缩算法对图像进行压缩处理,并输出已压缩的图像的失真度,得到新的压缩算法对应的第二对应关系。不需要再对压缩后的图像进行AI处理,得到AI模块处理的精度,不需要重新建立新的第一对应关系,采用之前建立的第一对应关系即可。处理器可以建立新的压缩算法对应的第二对应关系,如果要根据业务要求的精度阈值确定采用新的压缩算法压缩时的码率阈值,处理器可以根据业务要求的精度阈值确定对应的失真阈值,根据精度阈值查找已建立的第一对应关系确定精度阈值对应的失真阈值,根据失真阈值查找新的压缩算法对应的第二对应关系,确定失真阈值对应的码率阈值,即为采用新的压缩算法压缩时满足业务要求的精度阈值的码率阈值。本申请提供的装置可以对压缩和AI处理的过程进行解耦,实现分阶段评价,AI处理的精度和压缩算法无关,针对新的压缩算法只需要进行失真度和码率的重新测试即可,不需要进行端到端的测试,简化了测试的过程,评测效率更高。
根据第二方面或第二方面的第一种或第二种可能的实现方式中的任意一种,第五种可能的实现方式中,所述失真度为根据以下指标中的一种或多种得到的:峰值信噪比PSNR,均方误差MSE,结构相似性指标SSIM,感知损失。
根据第二方面或第二方面的第一种或第二种可能的实现方式中的任意一种,第六种可能的实现方式中,所述精度为根据以下指标中的一种或多种得到的:平均精度均值mAP,精度均值AP,平均召回率AR,均交并比MIoU。
第三方面,本申请的实施例提供了一种电子设备,包括:处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时可以执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的图像处理方式的确定方法。
第四方面,本申请的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的图像处理方式的确定方法。
第五方面,本申请的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的图像处理方式的确定方法。
第六方面,本申请实施例还提供一种传感器系统,用于为车辆提供感知功能。其包含至少一个本申请上述实施例提到的图像处理方式的确定装置,以及,摄像头或雷达等其他传感器中的至少一个,该系统内的至少一个传感器装置可以集成为一个整机或设备,或者该系统内的至少一个传感器装置也可以独立设置为元件或装置。
第七方面,本申请实施例还提供一种系统,应用于无人驾驶或智能驾驶中,其包含至少一个本申请上述实施例提到的图像处理方式的确定装置,以及摄像头、雷达等传感器中的至少一个,该系统内的至少一个装置可以集成为一个整机或设备,或者该系统内的至少一个装置也可以独立设置为元件或装置。
第八方面,本申请实施例还提供一种车辆,所述车辆包括至少一个本申请上述实施例提到的图像处理方式的确定装置或上述任一系统。
本申请的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1a是相关技术中一种基于压缩的感知系统传输数据的示意图。
图1b示出根据相关技术中一示例的视频压缩的架构的示意图。
图2a示出根据本申请一实施例的评测框架的示意图。
图2b示出根据本申请一实施例的码率-精度曲线的示意图。
图3示出根据本申请一实施例的图像处理方式的确定方法应用的场景示意图。
图4a示出根据本申请一实施例的第一对应关系的曲线的示意图。
图4b示出根据本申请一实施例的第二对应关系的曲线的示意图。
图5示出根据本申请一实施例的图像处理方式的确定方法。
图6a示出根据本申请一实施例的确定失真阈值的方式的示意图。
图6b示出根据本申请一实施例的确定码率阈值的方式的示意图。
图7示出根据本申请一些示例的测评框架的示意图。
图8示出根据本申请一些示例的测评框架的示意图。
图9示出根据本申请一些示例的测评框架的示意图。
图10示出根据本申请一实施例的图像处理方式的确定装置的框图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
图2a示出根据本申请一实施例的评测框架的示意图,图2a所示的评测框架为动态图像专家组(Moving Picture Experts Group,MPEG)-机器视觉编码(Video Coding forMachines,VCM)工作组定义的、面向机器视觉的图像质量评价方法,采用端到端的评测流程。
如图2a所示,摄像头将经过ISP处理的视频输出到VCM编码器,经过ISP处理的视频可以为RGB或者YUV格式,由VCM编码器对视频进行编码得到编码后的视频,编码后的视频传输到VCM解码器,由VCM解码器进行视频解码得到解码后的视频,对解码后的视频进行机器视觉处理,具体地,可以将解码后的图像输出给神经网络,通过神经网络进行机器视觉处理。
图2a所示的评测框架是一个紧耦合系统,摄像头、压缩算法(编码器+解码器)、NN各个模块耦合在一起,如果要对一种压缩算法进行压缩性能的评测,必须进行端到端的评测,比较复杂,且效率低下。具体地,如图2a所示,对于不同的压缩算法,如果要确定在多大的码率阈值上进行压缩,可以达到机器无损的要求,必须采用图2a所示的框架进行端到端的测试,得到压缩算法的多个码率点对应的精度,根据多个码率点对应的精度可以绘制码率和精度的曲线,根据业务要求的精度阈值和码率-精度曲线可以确定精度指标对应的码率阈值,效率比较低。其中,业务要求的精度阈值可以是指不同的应用场景下对精度的需求,应用场景可以为自动驾驶、辅助驾驶等等,这些不同的应用场景对处理精度的需求可能是不同的,因此,不同的应用场景有对应的业务要求的精度阈值。在一种可能的实现方式中,业务要求的精度阈值可以是指业务要求的精度与机器无损的精度的差值。
图2b示出根据本申请一实施例的码率-精度曲线的示意图。如图2b所示,横坐标表示码率,纵坐标表示精度,在图2b的示例中,精度采用的指标可以为平均精度均值(meanAverage Precision,mAP)。如图2b所示,虚线代表对采集到的原图像(没有进行压缩的图像)进行识别的精度,另外三条曲线表示采用三种不同的压缩算法对原图像进行压缩处理得到已压缩的图像,对已压缩的图像进行识别的精度和码率的关系,三种压缩算法分别为X265缺省配置(X265_medium)、X264缺省配置(X264_medium)、X264快速配置(X264_ultrafast)。如图2b所示,随着码率的增加,对已压缩的图像进行识别的精度越来越接近机器无损(虚线),在码率比较高时,三条曲线趋向一致,但是在码率比较低时,三条曲线比较分散,也就是说在码率比较低时,识别的精度和采用的压缩算相关性比较强。对于不同的压缩算法,如果要确定在多大的码率阈值上进行压缩,可以达到机器无损的要求,必须采用图2a所示的框架进行端到端的测试,得到压缩算法的多个码率点对应的精度,根据多个码率点对应的精度可以绘制码率和精度的曲线,根据业务要求的精度指标和码率-精度曲线可以确定精度指标对应的码率阈值,效率比较低。
相关技术中,IEEE-P2020标准面向自动驾驶的成像系统图像质量评测工作组,定义了面向自动驾驶基于概率的机器视觉评价指标,包括:对比度检测概率(Contrastdetection probability,CDP)、颜色分离概率(color separation probability,CSP)、几何分辨率概率(geometric resolution probability,GRP)等,实现感知系统模块级评测。以这些概率指标来表征面向机器视觉的感知系统的成像质量,以衡量图像质量对后续机器视觉AI处理的影响程度。但这些指标仅仅考虑成像系统的能力,与后端的AI处理任务是割裂的,并不能很好反映图像质量对AI处理的影响。
为了解决上述技术问题,本申请提供了一种图像处理方式的确定方法。图3示出根据本申请一实施例的图像处理方式的确定方法应用的场景示意图。如图3所示,在本申请的实施例的应用场景中,可以包括压缩模块、AI模块以及处理器。其中,压缩模块可以对接收到的图像进行压缩处理,在压缩处理时可以对图像进行取样(取样频率为码率)处理,压缩后的图像可以传输给AI模块进行目标检测、图像分割等处理。
需要说明的是,本申请的实施例可以直接在已有的测试集上进行测试,比如说,可以在cityscape数据集上进行测试,cityscape数据集中包括训练图、验证图、测试图,数据集中包括的图像都带有注释,可以直接进行压缩和识别处理,得到本申请实施例的测试结果数据(码率对应的失真度和精度数据)。其中,码率为采用压缩算法对原图像进行压缩得到已压缩的图像的取样频率,失真度为已压缩的图像相对于真实环境的差异。
这种情况下,仿真设备可以包括上述压缩模块、AI模块和处理器,其中,压缩模块和AI模块可以是存储在仿真设备的存储器上的软件程序,处理器可以调用相应的模块实现对测试集中的图像的处理,并得到测试结果数据。对于得到的测试结果数据,处理器可以建立失真度和精度之间的对应关系(第一对应关系)、以及码率和失真度的对应关系(第二对应关系),并存储第一对应关系和第二对应关系。
本申请实施例的方法也可以在实际的应用场景中进行测试,比如说,在自动驾驶系统上进行测试,自动驾驶系统可以包括摄像头,还可以包括但不限于:车载终端、车载控制器、车载模块、车载模组、车载部件、车载芯片、车载单元、车载雷达或车载摄像头等其他传感器。
其中,压缩模块可以是编码器,编码器可以位于摄像头上,压缩模块还可以包括解码器,解码器可以位于MDC上,AI模块和处理器可以位于MDC上,或者,AI模块位于MDC上,处理器可以是外部设备(自动驾驶系统以外的设备)的处理器。
该外部设备可以为一个通用设备或者是一个专用设备。在具体实现中,该外部设备可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant,PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或其他具有处理功能的设备。本申请实施例不限定该外部设备的类型。该外部设备可以具有处理功能的芯片或处理器(如图3所示的处理器),该外部设备可以包括多个处理器,处理器可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。
以图3所示的处理器为是外部设备的处理器为例,本申请的图像处理方式的确定方法可以由上述外部设备离线执行。测试时可以设置编码器的码率,摄像头采集图像后由编码器进行编码后,发送到MDC,由解码器解码后得到的图像可以存储在MDC,AI模块对解码后得到的图像进行识别可以得到精度数据。对于不同的码率点,可以分多次设置编码器的码率,并执行上述过程得到测试结果数据。
对于得到的测试结果数据可以输出到外部设备,外部设备可以根据解码后的图像得到已压缩的图像的失真度,外部设备可以建立失真度和精度之间的对应关系(第一对应关系)、以及码率和失真度的对应关系(第二对应关系),并存储第一对应关系和第二对应关系。
如果图3所示的AI模块和处理器都位于MDC上,那么自动驾驶系统可以在线执行本申请实施例的图像处理方式的确定方法,比如说,测试时可以设置编码器的码率,摄像头采集图像后由编码器进行编码后,发送到MDC,由解码器解码后得到的图像可以存储在MDC,MDC根据解码后的图像可以得到已压缩的图像的失真度,AI模块对解码后得到的图像进行识别可以得到精度数据。对于得到的测试结果数据,MDC可以建立失真度和精度之间的对应关系(第一对应关系)、以及码率和失真度的对应关系(第二对应关系),并存储第一对应关系和第二对应关系。MDC还可以根据业务要求的精度阈值以及第一对应关系和第二对应关系,得到精度阈值对应的码率阈值,根据码率阈值设置编码器编码的码率,这样,编码器可以实现对图像的机器无损处理。
需要说明的是,上述示例中AI模块和处理器都位于MDC上仅仅是本申请的一个示例,不以任何方式限制本申请,比如说,AI模块和处理器还可以位于自动驾驶系统的其他部件上,本申请对此不作限定。
在本申请的实施例中,失真度采用的指标可以为峰值信噪比(Peak signal noiseratio,PSNR),或者均方误差(Mean square error,MSE),或者结构相似性指标(Structuresimilarity index,SSIM),或者感知损失(Perception loss,P-loss)。失真度也可以采用以上指标中的多个的结合,比如说,联合多个失真指标对已压缩的图像的失真度进行综合评测。举例来说,可以采用PSNR和SSIM两个指标的加权指标,作为最终失真度,可以适用于对信号保真(PSNR)和人眼视觉(SSIM)都有要求的应用场合。
经过AI模块继续对已压缩的图像处理后,可以得到AI模块处理的精度,精度可以为AI模块对所述已压缩的图像进行识别的精度。这样,可以得到采用该压缩算法对图像进行压缩处理时,不同码率点对应的失真度和精度数据。
在本申请的实施例中,精度采用的指标可以为平均精度均值(mean AveragePrecision,mAP),精度均值(Average Precision,AP),平均召回率(Average Recall,AR),均交并比(Mean Intersection over Union,MIoU)。其中,AP可以为AP50、AP60、AP70或者weightedAP,等等。精度采用的指标还可以是以上指标中多个的结合,比如说,联合以上多个指标对AI处理的精度进行综合测评。举例来说,可以采用mAP和AR两个指标的加权指标作为精度的指标,本申请对精度采用的具体指标不作限定。
在本申请的实施例中,第一对应关系和第二对应关系可以是以表项的形式存储的一对一对的数值,也可以是以函数的形式表示,本申请对此不作限定。
举例来说,示例性的,第一对应关系可以表示为如表1所示的形式,第二对应关系可以表示为如表2所示的形式。
表1
精度 失真度
P1 D1
P2 D2
Pn Dn
表2
失真度 码率
D1 R1
D2 R2
Dn Rn
示例性的,第一对应关系还可以表示成函数的形式,如下公式(1)所示:
Figure BDA0003093019900000091
其中,fi(D)表示在数值范围Di上,精度和失真度之间的函数关系,i为1~n的正整数。换言之,精度和失真度之间的关系可以表示为分段函数的形式。
在一种可能的实现方式中,在数值范围Di上,P和D可以为线性关系。精度和失真度之间的关系可以表示为分段线性函数。
图4a示出根据本申请一实施例的第一对应关系的曲线的示意图。如图4a所示,横坐标可以表示失真度,纵坐标可以表示精度,在图4a所示的示例中采用的失真度的指标为PSNR,精度的指标为mAP。图4a所示的示例中,三种不同压缩算法对应的第一对应关系的曲线几乎是重合的,也就是说,第一对应关系与具体采用的压缩算法无关,不依赖于具体的压缩算法。
换言之,机器视觉的性能主要取决于输入的图像的失真度,与压缩算法无关,不依赖于具体的压缩算法。另外,机器视觉的性能和具体采用的神经网络是有关系的。
同样的,第二对应关系也可以表示成函数的形式,如下公式(2)所示:
Figure BDA0003093019900000101
其中,gi(R)表示在数值范围Ri上,失真度和码率之间的函数关系。换言之,失真度和码率之间的关系可以表示为分段函数的形式。
在一种可能的实现方式中,在数值范围Ri上,D和R可以为线性关系,失真度和码率之间的关系可以表示为分段线性函数。
图4b示出根据本申请一实施例的第二对应关系的曲线的示意图。如图4b所示,横坐标可以表示码率,纵坐标可以表示失真度,在图4b所示的示例中采用的失真度的指标为PSNR。图4b所示的示例中,三种不同压缩算法对应的第二对应关系的曲线比较分散,也就是说,不同的压缩算法即使是采用相同的码率对图像进行压缩处理得到的已压缩的图像的失真度差别比较大,第二对应关系与具体采用的压缩算法有关。
通过以上实施方式,实现了压缩算法与AI处理的解耦,如果要评测新的压缩算法,不需要进行端到端评测,可以只对压缩处理的过程进行评测得到新的压缩算法对应的第二对应关系即可。同样的,如果要采用新的AI模块对图像进行识别,也可以采用已有的数据对AI识别的过程重新进行评测得到新的第一对应关系即可,不需要进行端到端的评测。本申请实施例提供的方法可以提高评测的效率。
在得到第一对应关系和第二对应关系后,可以根据不同的业务要求的精度指标确定对应的精度阈值,根据精度阈值和第一对应关系,可以确定精度阈值对应的失真阈值,根据失真阈值和第二对应关系,可以确定失真阈值对应的码率阈值。这样,就可以根据不同的业务要求确定压缩采用的码率了。
图5示出根据本申请一实施例的图像处理方式的确定方法。在本申请的实施例中,图像处理方式可以是指对图像进行压缩采用的码率,确定图像处理的方式可以是指确定对图像进行压缩采用的码率的过程。如图5所示,图像处理方式的确定方法可以包括以下步骤:
步骤S500,根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值;其中,所述第一对应关系为精度和失真度之间的对应关系。
步骤S501,根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值;其中,所述第二对应关系为失真度和码率之间的对应关系。
其中,业务要求的精度阈值可以是指业务要求的精度与第一精度的差值,第一精度可以为对原图像进行识别的精度,也就是对未压缩的图像进行识别的精度,如图4a所示,第一精度为图4a中的虚线标出的精度值。
本申请实施例的方法通过引入失真度作为中间变量,采用第一对应关系评价压缩之后的失真度对精度的影响,采用第二对应关系评价采用不同的码率压缩之后的失真度,将压缩的过程和压缩之后的处理过程的评价分开处理,可以实现压缩和压缩之后的处理过程的解耦,提高评测的效率。
在一种可能的实现方式中,步骤S500可以包括:根据所述精度阈值和第一精度,确定所述精度阈值对应的第二精度,其中,所述第一精度为对所述原图像进行识别的精度;根据所述第二精度和所述第一对应关系,确定所述第二精度对应的失真阈值。
在测试过程中测试的码率点可以是离散的,如果以函数的形式存储第一对应关系,那么可以存储如公式(1)所示的计算方式,实际上也就是存储了精度和失真度的对应关系的曲线。图6a示出根据本申请一实施例的确定失真阈值的方式的示意图。如图6a所示,Pth可以表示业务要求的精度阈值(Precision threshold),也就是业务要求的第二精度与第一精度的差值,Pmax可以表示第一精度,也就是对未压缩的图像进行识别的精度,P可以表示第二精度,也就是业务要求的精度,PSNR th可以表示失真阈值,也就是业务要求的精度对应的失真度。其中,第二精度可以为第一精度和精度阈值的差值,第二精度P=Pmax-Pth。在确定P以后,可以根据图6a所示的曲线得到P对应的PSNR th。在确定第二精度P后,可以根据P的范围确定具体采用公式(1)中的函数fi(D)计算第二精度P对应的失真阈值D(PSNR th)。
在测试过程中测试的码率点可以是离散的,如果是以数值对的形式存储第一对应关系,对于第一对应关系中未存储的点,处理器可以采用线性插值的方式进行处理。比如说,如果根据业务要求的精度指标确定了对应的精度阈值,但第一对应关系中未存储该精度阈值对应的精度数据,处理器可以获取第一对应关系中与精度阈值相邻的精度数据,根据与精度阈值相邻的精度数据和对应的失真度数据进行线性插值可以得到精度阈值对应的失真阈值。以表1为例,假设确定的第二精度P大于P1,但小于P2,那么,第二精度P对应的失真阈值可以通过以下线性插值公式(3)计算得到:
Figure BDA0003093019900000111
对于步骤S501,同样可以根据具体存储的方式确定失真阈值对应的码率阈值。如果以函数的形式存储第二对应关系,那么可以存储如公式(2)所示的计算方式,实际上也就是存储了失真度和码率的对应关系的曲线。图6b示出根据本申请一实施例的确定码率阈值的方式的示意图。如图6b所示,PSNR th可以表示步骤S500中确定的失真阈值,也就是业务要求的精度对应的失真度。对于任意一种压缩算法,都可以采用公式(2)的形式表示失真度和码率之间的对应关系,在确定失真阈值后,可以根据失真阈值所述的范围确定具体采用公式(2)中的函数gi(R)计算失真阈值对应的码率阈值R。图6b所示的示例中包括三种不同的压缩算法对应的第二对应关系的三条曲线,每条曲线都有对应的函数表达式,根据已经确定的失真阈值以及每条曲线对应的函数表达式可以确定三种压缩算法分别对应的码率阈值:R_X265_medium、R_X264_medium、R_X264_ultrafast。
如果是以数值对的形式存储第二对应关系,对于第二对应关系中未存储的点,处理器可以采用线性插值的方式进行处理。具体的方式可以参见通过线性插值确定失真阈值的过程,不再赘述。
在一种可能的实现方式中,所述第二对应关系为对压缩算法进行测试得到的,所述第二对应关系包括多个不同的子对应关系,每个子对应关系与一个压缩算法对应,不同的压缩算法对应的所述第一对应关系相同。
根据上文可知,第一对应关系与具体采用的压缩算法无关,不依赖于具体的压缩算法,因此,不同的压缩算法对应的第一对应关系可以是相同的。也就是说,如果处理器(比如MDC的处理器)对图像进行机器视觉处理的方式没有改变,那么对于不同的压缩算法可以采用相同的第一对应关系对图像质量进行评价。具体地,对不同的压缩算法得到的已压缩的图像进行识别得到的测试数据,可以对测试数据进行拟合得到第一对应关系的曲线,或者也可以直接存储已压缩的图像的失真度和识别的精度之间的第一对应关系,本申请对此不作限定。
对于不同的压缩算法,由于压缩标准的不同,即使采用相同的码率对图像进行压缩处理得到的已压缩的图像的失真度也可能是不同的,因此,不同的压缩算法的第二对应关系可能不同。如图4b和图6b所示,三种压缩算法X265_medium、X264_medium、X264_ultrafast对应的码率-失真度的曲线是不同的。
因此,在一种可能的实现方式中,步骤S501,根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值,可以包括:确定对原图像进行压缩所采用的压缩算法;确定所述压缩算法对应的子对应关系;根据所述失真阈值和所述子对应关系,确定所述失真阈值对应的码率阈值。
如图3所示,处理器中预先存储了压缩算法对应的子对应关系(第二对应关系),处理器除了接收输入的精度阈值,还可以接收输入的压缩算法。处理器可以根据精度阈值和第一对应关系确定精度阈值对应的失真阈值,根据输入的压缩算法确定对原图像进行压缩所采用的压缩算法,根据预先存储的压缩算法对应的子对应关系、以及失真阈值可以确定失真阈值对应的码率阈值。
本申请实施例的方法简单、高效,易于扩展。比如说,如果要采用新的压缩算法进行图像的压缩处理,可以针对不同的码率点对新的压缩算法进行评测。具体地,针对不同的码率点采用新的压缩算法对图像进行压缩处理,并输出已压缩的图像的失真度,得到新的压缩算法对应的第二对应关系。不需要再对压缩后的图像进行AI处理,得到AI模块处理的精度,不需要重新建立新的第一对应关系,采用之前建立的第一对应关系即可。
处理器可以建立新的压缩算法对应的第二对应关系,如果要根据业务要求的精度阈值确定采用新的压缩算法压缩时的码率阈值,处理器可以根据业务要求的精度阈值确定对应的失真阈值,根据精度阈值查找已建立的第一对应关系确定精度阈值对应的失真阈值,根据失真阈值查找新的压缩算法对应的第二对应关系,确定失真阈值对应的码率阈值,即为采用新的压缩算法压缩时满足业务要求的精度阈值的码率阈值。
但是,如果采用之前的评测方法,则需要针对新的压缩算法进行端到端的测试。如图2a所示,针对新的压缩算法,在不同的码率点进行端到端的测试,可以建立码率与精度的对应关系,根据业务要求的精度阈值和码率与精度的对应关系,可以确定采用新的压缩算法压缩时的码率阈值。
比较上述两个过程,可以确定本申请提供的方法可以对压缩和AI处理的过程进行解耦,实现分阶段评价,AI处理的精度和压缩算法无关,针对新的压缩算法只需要进行失真度和码率的重新测试即可,不需要进行端到端的测试,简化了测试的过程,评测效率更高。
在本申请的实施例中,如果要采用新的神经网络模型对图像进行识别,可以采用新的神经网络模型对已经标注的数据集进行处理,得到新的神经网络模型的第一对应关系,无需重新执行压缩处理的过程,因为之前的AI处理的过程已经标注了压缩处理后图像的失真度,采用新的神经网络模型对标注的数据集进行处理,既可以得到失真度和精度之间的新的第一对应关系。
但是,如果采用现有的评测方法,则需要根据图2a所示的框架重新进行端到端的测试过程,采用新的神经网络模型对压缩处理后图像进行处理,根据处理结果和标注的数据集,可以得到新的神经网络模型的第一对应关系。
比较上述两个过程,可以确定本申请提供的方法可以对压缩和AI处理的过程进行解耦,实现分阶段评价,AI处理的精度和模型有关,压缩过程的评价和模型无关,针对新的神经网络模型可以对已经标注的数据集进行处理,无需重新进行压缩处理的过程,相比于现有的需要重新进行端到端的测试过程,可以简化评测的过程,评测的效率更高。
下面结合具体的应用场景和应用示例对本申请的图像处理方式的确定方法进行说明。
图7示出根据本申请一些示例的测评框架的示意图。如图7所示,测评的过程可以分解为第一阶段和第二阶段两个阶段,其中,第一阶段用于对压缩算法进行测试,可以得到码率和失真度的第二对应关系,第二阶段用于对神经网络的识别精度进行测试,可以得到失真度和精度的第一对应关系。在图7的示例中,失真度可以定义在RGB域,失真度采用的指标可以为上文所述的PSNR,或者MSE,或者SSIM,或者P-loss,或者以上多个指标的加权结果。
对于压缩传输系统,失真主要是压缩编码引入的量化噪声。对精度-失真度曲线,失真度主要取决于压缩量化噪声的能量而与具体噪声形态关系不大,这种情况下,PSNR/MSE成为衡量压缩失真的合适的指标,PSNR和MSE存在log关系,MSE表征为压缩噪声能量大小,PSNR/MSE指标计算简单,使用方便。
示例(a)表示参照(reference)的测评过程,RAW图像经ISP处理后输出RGB图像到深度神经网络,同时可以输出RGB图像的失真度数据,深度神经网络为未经压缩的RGB图像进行机器视觉处理得到识别的精度数据。
示例(b)表示在RAW域对RAW图像进行压缩的场景,采用编码/解码器对RAW图像进行压缩后得到已压缩的图像,ISP对已压缩的图像进行处理可以得到RGB图像,输出RGB图像的失真度数据,深度神经网络对RGB图像进行机器视觉处理,可以得到识别的精度数据。相比于在RGB/YUV域压缩,在RAW域对RAW图像进行压缩可以降低压缩算法的复杂度,因为RAW域的数据量少。
示例(c)表示在RGB域对RGB图像进行压缩的场景,RAW图像经ISP处理后得到RGB图像,编码/解码器对RGB图像进行压缩后得到已压缩的图像,输出已压缩的RGB图像的失真度数据,深度神经网络对已压缩的RGB图像进行机器视觉处理,可以得到识别的精度数据。
示例(d)表示在YUV域对YUV图像进行压缩的场景,RAW图像经ISP处理后得到RGB图像,对RGB图像进行RGB-YUV格式转换可以得到YUV图像,采用编码/解码器对YUV图像进行压缩得到已压缩的图像,对已压缩的图像进行YUV-RGB格式转换可以得到已压缩的RGB图像,输出已压缩的RGB图像的失真度数据,深度神经网络对已压缩的RGB图像进行机器视觉处理,可以得到识别的精度数据。
示例(a)可以得到对未压缩的图像进行识别的精度,也就是所述的第一精度Pmax,如图6a所示。对多种不同的压缩算法,可以分别采用示例(b)、示例(c)和示例(d)的框架进行测试,得到每个示例的框架上每个压缩算法对应的第二对应关系,以及每个示例的第一对应关系。
举例来说,对于三种压缩算法X265_medium、X264_medium、X264_ultrafast,可以分别在示例(b)、示例(c)和示例(d)的框架上,根据上述过程进行测试。
以示例(b)为例,在不同的码率上采用压缩算法X265_medium对RAW图像进行压缩后得到已压缩的图像,ISP对已压缩的图像进行处理可以得到RGB图像,输出RGB图像的失真度数据,可以建立压缩算法X265_medium对应的码率和失真度的第二对应关系,如图6b所示,深度神经网络对RGB图像进行机器视觉处理,可以得到识别的精度数据,可以建立失真度和精度的第一对应关系;在不同的码率上采用压缩算法X264_medium对RAW图像进行压缩后得到已压缩的图像,ISP对已压缩的图像进行处理可以得到RGB图像,输出RGB图像的失真度数据,可以建立压缩算法X264_medium对应的码率和失真度的第二对应关系,如图6b所示,对于压缩算法X264_medium可以不继续对后续的机器视觉处理的过程进行测试,在确定机器无损对应的码率时,可以采用根据压缩算法X265_medium测试得到的第一对应关系;对于压缩算法X264_ultrafast,可以重复与压缩算法X264_medium相同的过程得到对应的第二对应关系,如图6b所示。由此可见,本申请实施例的方法简单、高效,对压缩和AI处理的过程进行解耦,实现分阶段评价,AI处理的精度和压缩算法无关,针对新的压缩算法只需要进行失真度和码率的重新测试即可,不需要进行端到端的测试,简化了测试的过程,评测效率更高。
将示例(b)与示例(a)进行对比,可以评价压缩算法对机器视觉处理的影响,比如说采用示例(b)对图像进行压缩、识别的精度越接近示例(a)的精度,越接近机器无损。根据测试结果数据建立的第一对应关系和第二对应关系以及业务要求的精度阈值可以确定机器无损的码率阈值,具体的过程可以参见图5、图6a和图6b的过程,不再赘述。
图8示出根据本申请一些示例的测评框架的示意图。如图8所示,测评的过程仍然可以分解为第一阶段和第二阶段两个阶段,相比于图7的示例划分阶段的方式不同。在图8的示例中,失真度可以定义在YUV域,同样可以采用PSNR,或者MSE,或者SSIM,或者P-loss,或者以上多个指标的加权结果作为失真度的指标。因此,第一阶段可以划分到采用压缩算法对YUV图像进行压缩得到已压缩的YUV图像,可以输出已压缩的YUV图像的失真度数据。图8的示例中示例(e)可以表示参照的测评过程,示例(f)可以表示在YUV域压缩图像的场景,其他过程与图7的示例相似,不再赘述。
图9示出根据本申请一些示例的测评框架的示意图。如图9所示,测评的过程仍然可以分解为第一阶段和第二阶段两个阶段,相比于图7和图8的示例划分阶段的方式不同。在图9的示例中,失真度可以定义在RAW域,同样可以采用PSNR,或者MSE,或者SSIM,或者P-loss,或者以上多个指标的加权结果作为失真度的指标。因此,第一阶段可以划分到采用压缩算法对RAW图像进行压缩得到已压缩的RAW图像,可以输出已压缩的RAW图像的失真度数据。图9的示例中示例(g)可以表示参照的测评过程,示例(h)可以表示在RAW域压缩图像的场景,其他过程与图7的示例相似,不再赘述。
根据本申请的实施例可知,本申请的图像处理方式的确定方法可以应用于多种场景,通用性强,并且易于扩展对新的压缩算法或者AI模块的评测,可以提高评测的效率。
本申请还提供了一种图像处理方式的确定装置,图10示出根据本申请一实施例的图像处理方式的确定装置的框图。如图10所示,所述装置可以包括:第一确定模块100,用于根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值;其中,所述第一对应关系为精度和失真度之间的对应关系;第二确定模块101,用于根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值;其中,所述第二对应关系为失真度和码率之间的对应关系。
本申请实施例的装置通过引入失真度作为中间变量,采用第一对应关系评价压缩之后的失真度对精度的影响,采用第二对应关系评价采用不同的码率压缩之后的失真度,将压缩的过程和压缩之后的处理过程的评价分开处理,可以实现压缩和压缩之后的处理过程的解耦,提高评测的效率。
根据本申请实施例的装置实现了压缩算法与AI处理的解耦,如果要评测新的压缩算法,不需要进行端到端评测,可以只对压缩处理的过程进行评测得到新的压缩算法对应的第二对应关系即可。同样的,如果要采用新的AI模块对图像进行识别,也可以采用已有的数据对AI识别的过程重新进行评测得到新的第一对应关系即可,不需要进行端到端的评测。本申请实施例提供的装置可以提高评测的效率。
在一种可能的实现方式中,所述第一确定模块100包括:第一确定单元,用于根据所述精度阈值和第一精度,确定所述精度阈值对应的第二精度,其中,所述第一精度为对所述原图像进行识别的精度;第二确定单元,用于根据所述第二精度和所述第一对应关系,确定所述第二精度对应的失真阈值。
在一种可能的实现方式中,所述码率为采用压缩算法对原图像进行压缩得到所述已压缩的图像的取样频率,所述失真度为已压缩的图像相对于真实环境的差异,所述精度为对所述已压缩的图像进行识别的精度。
在一种可能的实现方式中,所述第二对应关系为对压缩算法进行测试得到的,所述第二对应关系包括多个不同的子对应关系,每个子对应关系与一个压缩算法对应,不同的压缩算法对应的所述第一对应关系相同。
在一种可能的实现方式中,所述第二确定模块101包括:第三确定单元,用于确定对原图像进行压缩所采用的压缩算法;第四确定单元,用于确定所述压缩算法对应的子对应关系;第五确定单元,用于根据所述失真阈值和所述子对应关系,确定所述失真阈值对应的码率阈值。
本申请实施例的装置简单、高效,易于扩展。比如说,如果要采用新的压缩算法进行图像的压缩处理,可以针对不同的码率点对新的压缩算法进行评测。具体地,针对不同的码率点采用新的压缩算法对图像进行压缩处理,并输出已压缩的图像的失真度,得到新的压缩算法对应的第二对应关系。不需要再对压缩后的图像进行AI处理,得到AI模块处理的精度,不需要重新建立新的第一对应关系,采用之前建立的第一对应关系即可。处理器可以建立新的压缩算法对应的第二对应关系,如果要根据业务要求的精度阈值确定采用新的压缩算法压缩时的码率阈值,处理器可以根据业务要求的精度阈值确定对应的失真阈值,根据精度阈值查找已建立的第一对应关系确定精度阈值对应的失真阈值,根据失真阈值查找新的压缩算法对应的第二对应关系,确定失真阈值对应的码率阈值,即为采用新的压缩算法压缩时满足业务要求的精度阈值的码率阈值。本申请提供的装置可以对压缩和AI处理的过程进行解耦,实现分阶段评价,AI处理的精度和压缩算法无关,针对新的压缩算法只需要进行失真度和码率的重新测试即可,不需要进行端到端的测试,简化了测试的过程,评测效率更高。
在一种可能的实现方式中,所述失真度为根据以下指标中的一种或多种得到的:峰值信噪比PSNR,均方误差MSE,结构相似性指标SSIM,感知损失。
在一种可能的实现方式中,所述精度为根据以下指标中的一种或多种得到的:平均精度均值mAP,精度均值AP,平均召回率AR,均交并比MIoU。
该图像处理方式的确定装置可以是具有处理功能的芯片或处理器中的程序模块,处理器可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。芯片或处理器通过执行程序可以实现本申请上述实施例的方法。
本申请的实施例提供了一种电子设备,包括:处理器以及用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现本申请上述实施例的方法。
上述图像处理方式的确定装置或电子设备可以是一个通用设备或者是一个专用设备。在具体实现中,该装置还可以台式机、便携式电脑、网络服务器、掌上电脑(personaldigital assistant,PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或其他具有处理功能的设备。本申请实施例不限定该图像处理方式的确定装置的类型。
本申请的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
本申请的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory,EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory,SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能盘(Digital Video Disc,DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

Claims (17)

1.一种图像处理方式的确定方法,其特征在于,所述方法包括:
根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值;其中,所述第一对应关系为精度和失真度之间的对应关系;
根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值;其中,所述第二对应关系为失真度和码率之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值,包括:
根据所述精度阈值和第一精度,确定所述精度阈值对应的第二精度,其中,所述第一精度为对所述原图像进行识别的精度;
根据所述第二精度和所述第一对应关系,确定所述第二精度对应的失真阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述码率为采用压缩算法对原图像进行压缩得到所述已压缩的图像的取样频率,所述失真度为已压缩的图像相对于真实环境的差异,所述精度为对所述已压缩的图像进行识别的精度。
4.根据权利要求1-3任意一项所述的方法,其特征在于,
所述第二对应关系为对压缩算法进行测试得到的,所述第二对应关系包括多个不同的子对应关系,每个子对应关系与一个压缩算法对应,不同的压缩算法对应的所述第一对应关系相同。
5.根据权利要求4所述的方法,其特征在于,
根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值,包括:
确定对原图像进行压缩所采用的压缩算法;
确定所述压缩算法对应的子对应关系;
根据所述失真阈值和所述子对应关系,确定所述失真阈值对应的码率阈值。
6.根据权利要求1-3任意一项所述的方法,其特征在于,所述失真度为根据以下指标中的一种或多种得到的:峰值信噪比PSNR,均方误差MSE,结构相似性指标SSIM,感知损失。
7.根据权利要求1-3任意一项所述的方法,其特征在于,所述精度为根据以下指标中的一种或多种得到的:平均精度均值mAP,精度均值AP,平均召回率AR,均交并比MIoU。
8.一种图像处理方式的确定装置,其特征在于,所述装置包括:
第一确定模块,用于根据业务要求的精度阈值和第一对应关系,确定所述精度阈值对应的失真阈值;其中,所述第一对应关系为精度和失真度之间的对应关系;
第二确定模块,用于根据所述失真阈值和第二对应关系,确定所述失真阈值对应的码率阈值;其中,所述第二对应关系为失真度和码率之间的对应关系。
9.根据权利要求8所述的装置,其特征在于,所述第一确定模块包括:
第一确定单元,用于根据所述精度阈值和第一精度,确定所述精度阈值对应的第二精度,其中,所述第一精度为对所述原图像进行识别的精度;
第二确定单元,用于根据所述第二精度和所述第一对应关系,确定所述第二精度对应的失真阈值。
10.根据权利要求8或9所述的装置,其特征在于,所述码率为采用压缩算法对原图像进行压缩得到所述已压缩的图像的取样频率,所述失真度为已压缩的图像相对于真实环境的差异,所述精度为对所述已压缩的图像进行识别的精度。
11.根据权利要求8-10任意一项所述的装置,其特征在于,
所述第二对应关系为对压缩算法进行测试得到的,所述第二对应关系包括多个不同的子对应关系,每个子对应关系与一个压缩算法对应,不同的压缩算法对应的所述第一对应关系相同。
12.根据权利要求11所述的装置,其特征在于,
所述第二确定模块包括:
第三确定单元,用于确定对原图像进行压缩所采用的压缩算法;
第四确定单元,用于确定所述压缩算法对应的子对应关系;
第五确定单元,用于根据所述失真阈值和所述子对应关系,确定所述失真阈值对应的码率阈值。
13.根据权利要求8-10任意一项所述的装置,其特征在于,所述失真度为根据以下指标中的一种或多种得到的:峰值信噪比PSNR,均方误差MSE,结构相似性指标SSIM,感知损失。
14.根据权利要求8-10任意一项所述的装置,其特征在于,所述精度为根据以下指标中的一种或多种得到的:平均精度均值mAP,精度均值AP,平均召回率AR,均交并比MIoU。
15.一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述权利要求1-7任意一项所述的方法。
16.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令时实现权利要求1-7任意一项所述的方法。
17.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-7中任意一项所述的方法。
CN202180001346.1A 2021-03-31 2021-03-31 图像处理方式的确定方法及装置 Pending CN113366531A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/084373 WO2022205058A1 (zh) 2021-03-31 2021-03-31 图像处理方式的确定方法及装置

Publications (1)

Publication Number Publication Date
CN113366531A true CN113366531A (zh) 2021-09-07

Family

ID=77523047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180001346.1A Pending CN113366531A (zh) 2021-03-31 2021-03-31 图像处理方式的确定方法及装置

Country Status (2)

Country Link
CN (1) CN113366531A (zh)
WO (1) WO2022205058A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112804578A (zh) * 2021-01-28 2021-05-14 广州虎牙科技有限公司 氛围特效生成方法、装置、电子设备和存储介质
CN114743076A (zh) * 2022-04-22 2022-07-12 清华大学 一种自动驾驶图像处理评价方法、相关设备、介质及产品
CN114786036A (zh) * 2022-03-02 2022-07-22 上海仙途智能科技有限公司 自动驾驶车辆的监控方法及装置、存储介质、计算机设备
WO2022220723A1 (en) * 2021-04-15 2022-10-20 Telefonaktiebolaget Lm Ericsson (Publ) Method to determine encoder parameters

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080175503A1 (en) * 2006-12-21 2008-07-24 Rohde & Schwarz Gmbh & Co. Kg Method and device for estimating image quality of compressed images and/or video sequences
CN101365125A (zh) * 2008-09-27 2009-02-11 腾讯科技(深圳)有限公司 多路视频通信方法与系统
CN101521819A (zh) * 2008-02-27 2009-09-02 深圳市融合视讯科技有限公司 一种在视频图像压缩中对率失真进行优化的方法
JP2009207071A (ja) * 2008-02-29 2009-09-10 Nippon Telegr & Teleph Corp <Ntt> 動き推定精度推定方法、動き推定精度推定装置、動き推定精度推定プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN101888561A (zh) * 2010-07-02 2010-11-17 西南交通大学 一种率失真优化动态调整的多视点视频传输差错控制方法
US20130089150A1 (en) * 2011-10-06 2013-04-11 Synopsys, Inc. Visual quality measure for real-time video processing
US20150110204A1 (en) * 2012-08-21 2015-04-23 Huawei Technologies Co., Ltd. Method and apparatus for acquiring video coding compression quality
CN108769685A (zh) * 2018-06-05 2018-11-06 腾讯科技(深圳)有限公司 检测图像压缩编码效率的方法、装置及存储介质
CN111901594A (zh) * 2020-06-29 2020-11-06 北京大学 面向视觉分析任务的图像编码方法、电子设备及介质
CN111918067A (zh) * 2020-07-23 2020-11-10 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN112437301A (zh) * 2020-10-13 2021-03-02 北京大学 一种面向视觉分析的码率控制方法、装置、存储介质及终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080175503A1 (en) * 2006-12-21 2008-07-24 Rohde & Schwarz Gmbh & Co. Kg Method and device for estimating image quality of compressed images and/or video sequences
CN101521819A (zh) * 2008-02-27 2009-09-02 深圳市融合视讯科技有限公司 一种在视频图像压缩中对率失真进行优化的方法
JP2009207071A (ja) * 2008-02-29 2009-09-10 Nippon Telegr & Teleph Corp <Ntt> 動き推定精度推定方法、動き推定精度推定装置、動き推定精度推定プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN101365125A (zh) * 2008-09-27 2009-02-11 腾讯科技(深圳)有限公司 多路视频通信方法与系统
CN101888561A (zh) * 2010-07-02 2010-11-17 西南交通大学 一种率失真优化动态调整的多视点视频传输差错控制方法
US20130089150A1 (en) * 2011-10-06 2013-04-11 Synopsys, Inc. Visual quality measure for real-time video processing
US20150110204A1 (en) * 2012-08-21 2015-04-23 Huawei Technologies Co., Ltd. Method and apparatus for acquiring video coding compression quality
CN108769685A (zh) * 2018-06-05 2018-11-06 腾讯科技(深圳)有限公司 检测图像压缩编码效率的方法、装置及存储介质
CN111901594A (zh) * 2020-06-29 2020-11-06 北京大学 面向视觉分析任务的图像编码方法、电子设备及介质
CN111918067A (zh) * 2020-07-23 2020-11-10 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN112437301A (zh) * 2020-10-13 2021-03-02 北京大学 一种面向视觉分析的码率控制方法、装置、存储介质及终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112804578A (zh) * 2021-01-28 2021-05-14 广州虎牙科技有限公司 氛围特效生成方法、装置、电子设备和存储介质
WO2022220723A1 (en) * 2021-04-15 2022-10-20 Telefonaktiebolaget Lm Ericsson (Publ) Method to determine encoder parameters
CN114786036A (zh) * 2022-03-02 2022-07-22 上海仙途智能科技有限公司 自动驾驶车辆的监控方法及装置、存储介质、计算机设备
CN114786036B (zh) * 2022-03-02 2024-03-22 上海仙途智能科技有限公司 自动驾驶车辆的监控方法及装置、存储介质、计算机设备
CN114743076A (zh) * 2022-04-22 2022-07-12 清华大学 一种自动驾驶图像处理评价方法、相关设备、介质及产品

Also Published As

Publication number Publication date
WO2022205058A1 (zh) 2022-10-06

Similar Documents

Publication Publication Date Title
CN113366531A (zh) 图像处理方式的确定方法及装置
US10873763B2 (en) Video compression techniques for high dynamic range data
WO2018086099A1 (zh) 图像处理方法、装置、设备及视频图传系统
KR970014361A (ko) 동작에 의존한 예측을 이용하여 비디오 정보를 압축하기 위한 방법 및 장치
CN102905160B (zh) 一种偏色检测的方法及系统
CN1981295A (zh) 视频处理
CN114339238A (zh) 视频编码的方法、视频解码的方法及其装置
CN109905714B (zh) 帧间预测方法、装置及终端设备
CN113228657B (zh) 图像处理方式的确定方法及装置
CN110555120B (zh) 图片压缩控制方法、装置、计算机设备及存储介质
CN111953977A (zh) 图像传输方法、系统及装置
CN116250008A (zh) 点云的编码、解码方法、编码器、解码器以及编解码系统
US20220375022A1 (en) Image Compression/Decompression in a Computer Vision System
US20240070924A1 (en) Compression of temporal data by using geometry-based point cloud compression
CN108805943B (zh) 图片转码方法和装置
EP3065127A1 (en) Method and device for processing image data
CN116325732A (zh) 点云的解码、编码方法、解码器、编码器和编解码系统
US11218725B2 (en) Method for encoding video using effective differential motion vector transmission method in omnidirectional camera, and method and device
CN110662060B (zh) 视频编码方法和装置、视频解码方法和装置及存储介质
CN110572676B (zh) 视频编码方法和装置、视频解码方法和装置及存储介质
WO2023169303A1 (zh) 编解码方法、装置、设备、存储介质及计算机程序产品
KR20160135670A (ko) 픽처 블록을 인코딩/디코딩하기 위한 방법
WO2023091260A1 (en) Outlier grouping based point cloud compression
EP3146718B1 (en) Method and device for scalable encoding of a high dynamic range frame and/or decoding a bitstream representing such a frame
CN117915039A (zh) 一种物联网边缘智能视频网关系统及使用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination