CN112911131A

CN112911131A - 画质调整方法及装置

Info

Publication number: CN112911131A
Application number: CN201911220501.XA
Authority: CN
Inventors: 王春茂; 浦世亮; 潘之玮
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2021-06-04
Anticipated expiration: 2039-12-03
Also published as: CN112911131B

Abstract

本申请提供一种画质调整方法及装置，该方法包括：在画质调整策略训练过程中，基于当前使用的画质调整策略，执行预设次数的画质调整动作，并基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，直至达到预设策略更新完成条件；基于训练好的画质调整策略，对新输入的感兴趣目标的画质进行画质调整。该方法可以降低画质调整对人工经验的依赖，实现画质调整的自动学习，提高画质调整的性能。

Description

画质调整方法及装置

技术领域

本申请涉及摄像机技术领域，尤其涉及一种画质调整方法及装置。

背景技术

在安防场景下，为了针对特定目标达到最佳的成像效果，进而取得最优的图像质量或者抓拍/识别准确率，通常需要对特定目标进行画质调整，如针对人脸区域进行自动曝光或者宽动态调整。

在传统画质调整方案中，通常只是将亮度均值作为调节目标，根据人工经验小幅调整相应的ISP(Image Signal Processing，图像信号处理)参数，达到目标亮度优化的目的，画质调整性能不高，且对人工经验依赖较高。

发明内容

有鉴于此，本申请提供一种画质调整方法及装置。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种画质调整方法，包括：

在画质调整策略训练过程中，基于当前使用的画质调整策略，执行预设次数的画质调整动作，并基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，直至达到预设策略更新完成条件；

基于训练好的画质调整策略，对新输入的感兴趣目标的画质进行画质调整。

根据本申请实施例的第二方面，提供一种画质调整装置，包括：

训练单元，用于在画质调整策略训练过程中，基于当前使用的画质调整策略，执行预设次数的画质调整动作，并基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，直至达到预设策略更新完成条件；

调整单元，用于基于训练好的画质调整策略，对新输入的感兴趣目标的画质进行画质调整。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述画质调整方法。

根据本申请实施例的第四方面，提供一种机器可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述画质调整方法。

本申请实施例的画质调整方法，通过在画质调整策略训练过程中，基于当前使用的画质调整策略，执行预设次数的画质调整动作，并基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，直至达到预设策略更新完成条件；进而，基于训练好的画质调整的策略，对新输入的感兴趣目标的画质进行画质调整，降低了画质调整对人工经验的依赖，实现了画质调整的自动学习，提高了画质调整的性能。

附图说明

图1是本申请一示例性实施例示出的一种画质调整方法的流程示意图；

图2是本申请一示例性实施例示出的一种画质调整的强化学习的闭环示意图；

图3是本申请一示例性实施例示出的一种画质调整装置的结构示意图；

图4是本申请又一示例性实施例示出的另一种画质调整装置的结构示意图；

图5是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种画质调整方法的流程示意图，如图1所示，该画质调整方法可以包括以下步骤：

步骤S100、在画质调整策略训练过程中，基于当前使用的画质调整策略，执行预设次数的画质调整动作，并基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，直至达到预设策略更新完成条件。

本申请实施例中，为了降低监控前端设备的画质调整对人工经验的依赖，实现画质调整策略的自动学习，采用强化学习的方式实现画质调整。

本申请实施例中，为了实现强化学习的画质调整，可以构建针对画质调整的强化学习的状态量以及智能体(Agent)的动作。

示例性的，针对目标画质调整的强化学习的状态量可以包括感兴趣目标的画质状态量，如影响感兴趣目标的成像效果的各项参数，以及拍摄画面中的人脸的量化的质量评价。

需要说明的是，本申请实施例中，感兴趣目标的状态量并不特指某一固定目标的状态量，而是可以指代智能体策略学习过程中，拍摄画面中的任一目标或多个目标组合的画质状态量，本申请实施例后续不再复述。

示例性的，感兴趣目标可以包括但不限于人脸、车牌、文字或虹膜等，即本申请实施例提供的画质调整方案可以应用于包括但不限于人脸识别、车牌识别、文字识别或虹膜识别等应用场景。

为便于描述，下文中以感兴趣目标为人脸为例进行说明。对于车牌、文字或虹膜等感兴趣目标，其实现同理可得。

在一个示例中，上述感兴趣目标的画质状态量可以包括以下之一或多个：

感兴趣目标的图像的亮度、色度、感兴趣目标在相邻时序的图像的亮度、色度，补光灯的补光强度、镜头的对焦参数、光圈系数、云台参数、ISP(Image Signal Processing，图像信号处理)参数、拍摄距离以及感兴趣目标的评分组合。

示例性的，人脸的评分组合可以采用影响人脸识别的各项因素的量化指标，如人脸的大小、人脸的角度、人脸的清晰度、人脸的遮挡情况以及光照情况等转为的可以量化比较的数值指标构成的一组状态。

在一个示例中，上述画质调整动作可以包括以下动作之一或多个：

调整补光灯的补光强度、调整镜头的对焦参数、光圈调整、云台参数调整、ISP参数调整。

示例性的，补光灯的补光强度、镜头的对焦参数、光圈等参数的调整可以包括参数的增减及其程度；ISP参数调整可以包括曝光时间、增益、降噪等参数的调整(如参数的增减及其程度)。

示例性的，这些调整动作参数可视为离散的，也可视为连续的

本申请实施例中，在画质调整策略训练过程中，可以先确定一个初始的画质调整策略。

示例性的，画质调整策略为根据感兴趣目标当前的画质状态量选取特定的画质调整动作。

确定了初始的画质调整策略之后，可以基于当前使用的画质调整策略，以及感兴趣目标当前的画质状态量，执行预设次数的画质调整动作，并基于预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新。

需要说明的是，对于不同画质调整策略，上述预设次数可以相同，也可以不同。

例如，若当前使用的画质调整策略为画质调整策略1时，可以执行第一预设次数的画质调整动作，基于该第一预设次数画质调整动作中各画质调整动作的反馈，确定该第一预设次数的画质跳帧动作对应的回报值，并根据该回报值对当前使用的画质调整策略(即画质调整策略1)进行更新(假设更新为画质调整策略2)。

对于画质调整策略2，可以输入第二预设次数的画质调整动作，基于该第二预设次数的画质调整动作中各画质调整动作的反馈，确定该第二预设次数的画质调整动作对应的回报值，并根据该回报值对当前使用的画质调整策略(即画质调整策略2)进行更新；第二预设次数与第一预设次数不同。

示例性的，预设次数越大，画质调整策略的回报值的计算越精确，但计算量也越大，因此，可以根据实际需求均衡考虑回报值的计算精确度和计算工作量，来设定该预设次数。

示例性的，在未进行画质调整策略更新时，当前使用的画质调整策略为初始的画质调整策略；在进行了画质调整策略更新时，当前使用的画质调整策略为更新后的画质调整策略。

例如，在确定了初始的画质调整策略时，可以根据感兴趣目标当前的状态量，以及该初始的画质调整策略，确定感兴趣目标的下一个画质状态量，并对未来轨迹进行预测采样，利用采样轨迹的回报值更新当前画质调整策略，即使用该初始的画质调整策略，执行预设次数的画质调整动作，并基于该预设次数的画质调整动作中各画质调整动作对应的反馈，确定该预设次数的画质调整动作在初始的画质调整策略下对应的回报值，基于该回报值对初始的画质调整策略进行更新。

示例性的，该采样轨迹包括一串交替迭代的序列，该序列包括：感兴趣目标的画质状态量、画质调整动作，如t1时刻感兴趣目标的画质状态量，t1时刻执行的画质调整动作，t2时刻感兴趣目标的画质状态量，t2时刻执行的画质调整动作…。

示例性的，利用采样轨迹的回报值更新当前使用的画质调整策略可以包括：

若画质调整动作是离散的，可设计价值函数为不同状态量下每一个动作分配一个价值量，并根据采样轨迹的回报值修正价值函数的输出价值量，此时执行策略即选取对应价值量最高的动作；

若画质调整动作是连续的，可设计连续函数直接对调整策略进行建模，并根据采样轨迹的回报值对连续策略函数的参数进行迭代更新，以最大化长期回报期望，此时执行策略即根据连续策略函数的输出值执行相应动作

即根据回报值，感兴趣目标当前的画质状态量以及执行的画质调整动作来更新策略，若得到负面的反馈(如低奖励反馈)，则在感兴趣目标当前的画质状态量下降低执行该画质调整动作的概率(或理解为当前状态量下该动作的价值)，反之增加概率。

在一个示例中，上述预设次数的画质调整动作对应的回报值，可以通过以下方式确定：

对于所执行的画质调整动作，当执行该画质调整动作之后，感兴趣目标画质状态量与理想状态量接近时，进行高奖励反馈；当执行画质调整动作之后，感兴趣目标画质状态量与理想状态量远离时，进行低奖励反馈；

基于预设次数的画质调整动作中各画质调整动作对应的反馈，确定该预设次数的画质调整动作对应的回报值。

示例性的，在画质调整策略训练过程中，每次执行画质调整动作之后，可以确定感兴趣目标的画质状态量与理想状态量是更接近了，还是更远离了。

对于所执行的任一画质调整动作，当执行该画质调整动作之后，感兴趣目标画质状态量与理想状态量接近(即画质调整后感兴趣目标画质状态量与理想状态更接近了)时，进行高奖励反馈；当执行该画质调整动作之后，感兴趣目标画质状态量与理想状态量远离(即画质调整后感兴趣目标画质状态量与理想状态更远离了)时，进行低奖励反馈。

智能体可以根据所执行的预设次数的画质调整动作中各画质调整动作对应的反馈，确定该预设次数的画质调整动作在当前使用的画质调整策略下对应的回报值，例如，将各画质调整动作对应的反馈的总和确定为该预设次数的画质调整动作在当前使用的画质调整策略下对应的回报值。

示例性的，以感兴趣目标为人脸为例，对于某感兴趣人脸，感兴趣目标画质状态量与理想状态量更接近或更远离可以基于该感兴趣人脸与预先注册的同一人员的人脸理想图片(如证件照)中的人脸的相似度来表征。当该相似度提高时，可以确定感兴趣目标画质状态量与理想状态量更接近了；当该相似度降低时，可以确定该感兴趣目标画质状态量与理想状态量更远离了。

举例来说，以感兴趣目标为人脸为例智能体基于当前使用的画质调整策略，执行画质调整动作之后，可以分别确定执行该画质调整动作之前的拍摄画面中的感兴趣人脸与感兴趣人脸真值(即感兴趣人脸理想图片中的人脸)的相似度(本文中称为第一相似度)，以及执行该画质调整动作之后的拍摄画面中的感兴趣人脸与感兴趣人脸真值的相似度(本文中称为第二相似度)。

若第一相似度高于第二相似度，即执行该画质调整动作之后，感兴趣人脸的画质状态量与理想状态量更远离了(智能体决策错误)，此时，可以进行低奖励反馈。

若第一相似度低于第二相似度，即执行该画质调整动作之后，感兴趣人脸的画质状态量与理想状态量更接近了(智能体决策正确)，此时，可以进行高奖励反馈。

示例性的，对于第一相似度等于第二相似度的情况，可以按照第一相似度高于第二相似度的情况进行处理，或者，也可以按照第一相似度低于第二相似度的情况进行处理，本申请实施例对此不做赘述。

在一个示例中，步骤S100中，策略更新完成条件包括：执行完成预设轮次的策略自学习过程；

步骤S100中，基于当前使用的画质调整策略，执行预设次数的画质调整动作之后，还可以包括：

确定感兴趣目标画质状态量是否达到理想值，以及，当前使用的画质调整策略的回报值是否达到预设阈值；

若感兴趣目标画质状态量达到理想值，或，当前使用的画质调整策略的回报值达到预设阈值，则确定执行完成一轮策略自学习过程，并在执行完成的策略自学习过程的轮次未达到所述预设轮次时，执行下一轮策略自学习过程；

若感兴趣目标画质状态量未达到理想值，且当前使用的画质调整策略的回报值未达到预设阈值，则确定执行上述基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新的步骤。

示例性的，对于任一画质调整策略，当基于该画质调整策略，执行了预设次数的画质调整动作之后，可以确定感兴趣目标画质状态量是否达到理想值，以及该画质调整策略的回报值是否达到预设阈值。

若感兴趣目标画质状态量达到理想值，或/和，当前使用的画质调整策略的回报值达到预设阈值，则可以确定执行完成一轮策略自学习过程。

此时，可以确定执行完成的策略自学习过程的轮次是否达到预设轮次，若未达到，则执行下一轮策略自学习过程，即再次进行画质调整策略的更新；若达到，则确定达到预设策略更新完成条件，画质调整策略训练完成。

若感兴趣目标画质状态量未达到理想值，且当前使用的画质调整策略的回报值未达到预设阈值，则基于该预设次数的画质调整动作对应的回报值，对该画质调整策略进行更新，并在基于更新后的画质调整策略执行了预设次数的画质调整动作之后，再次执行上述判定。

举例来说，假设画质调整策略中的画质调整动作包括调整补光灯的补光强度和调整镜头的对焦参数，预设次数为3，预设轮次为2轮。

在进行画质调整策略训练时，可以先基于初始的画质调整策略，根据感兴趣目标的初始画质状态量，选取特定的画质调整动作(可以包括调整补光灯的补光强度和/或调整镜头的对焦参数，即至少执行其中一个画质调整动作，下同)，以得到画质调整后的感兴趣目标的画质状态量；基于初始的画质调整策略，根据画质调整后的感兴趣目标的画质状态量，再次选取特定的画质调整动作(调整补光灯的补光强度和/或调整镜头的对焦参数)，以此类推，直至在初始的画质调整策略下，执行的画质调整动作达到3次时，可以确定感兴趣目标画质状态量是否达到理想值，以及当前使用的画质调整策略(初始的画质调整策略)的回报值(该3次画质调整动作对应的回报值，下同)是否达到预设阈值。

若感兴趣目标画质状态量未达到理想值，且当前使用的画质调整策略的回报值未达到预设阈值，则基于执行该3次画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，并基于更新后的画质调整策略，根据感兴趣目标的画质状态量，选取特定的画质调整动作，以得到画质调整后的感兴趣目标的画质状态量；基于更新后的画质调整策略，根据画质调整后的感兴趣目标的画质状态量，再次选取特定的画质调整动作，以此类推，直至在该更新后的画质调整策略下，执行的画质调整动作到达3次时，确定感兴趣目标画质是否达到理想值，以及当前使用的画质调整策略(更新后的画质调整策略)的回报值是否达到预设阈值，并当感兴趣目标画质状态量未达到理想值，且当前使用的画质调整策略的回报值未达到预设阈值时，再次基于执行该3次画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，并重复上述画质调整策略更新后的处理步骤，直至感兴趣目标画质状态量达到理想值，或，当前使用的画质调整策略的回报值达到预设阈值，或，感兴趣目标画质状态量达到理想值，且当前使用的画质调整策略的回报值达到预设阈值。

其中，当对当前使用的画质调整策略进行更新时，可以改变在感兴趣目标画质状态量相同的情况下的画质调整动作(包括画质调整动作的调整幅度或/和调整方向)。

例如，以调整补光灯的补光强度为例，若在某一感兴趣目标画质状态量下，画质调整策略更新前为增大补光强度，且增大幅度为A1，则画质调整策略更新后，在该感兴趣目标画质状态量下，可以为减小补光强度，或，增大补光强度，但增大幅度为A2。

若感兴趣目标画质状态量达到理想值，或，当前使用的画质调整策略的回报值达到预设阈值，或，感兴趣目标画质状态量达到理想值，且当前使用的画质调整策略的回报值达到预设阈值，则确定执行完成一次策略自学习过程，并确定执行完成的策略自学习过程是否达到2轮；若达到，则确定画质调整策略更新完成；否则执行第二轮策略自学习过程。

在第二轮策略自学习过程中，先基于第一轮策略自学习执行完成时的画质调整策略，根据感兴趣目标的画质状态量，选取特定的画质调整动作，以得到画质调整后的感兴趣目标的画质状态量；基于该画质调整策略，根据画质调整后的感兴趣目标的画质状态量，再次选取特定的画质调整动作，以此类推，直至在该画质调整策略下，执行的画质调整动作达到3次时，确定感兴趣画质状态量是否达到理想值，以及当前使用的画质调整策略(第一轮策略自学习执行完成时的画质调整策略)的回报值是否达到预设阈值。

若感兴趣目标画质状态量未达到理想值，且当前使用的画质调整策略的回报值未达到预设阈值，则基于执行该3次画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，并基于更新后的画质调整策略按照上述方式执行3次画质调整动作，确定感兴趣目标画质是否达到理想值，以及当前使用的画质调整策略(更新后的画质调整策略)的回报值是否达到预设阈值。

当感兴趣目标画质状态量未达到理想值，且当前使用的画质调整策略的回报值未达到预设阈值时，再次基于执行该3次画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，并重复上述画质调整策略更新后的处理步骤，直至感兴趣目标画质状态量达到理想值，或，当前使用的画质调整策略的回报值达到预设阈值，或，感兴趣目标画质状态量达到理想值，且当前使用的画质调整策略的回报值达到预设阈值。

若感兴趣目标画质状态量达到理想值，或，当前使用的画质调整策略的回报值达到预设阈值，或，感兴趣目标画质状态量达到理想值，且当前使用的画质调整策略的回报值达到预设阈值，则确定执行完成一次策略自学习过程。此时，执行完成的策略自学习过程达到2轮，画质调整策略更新完成。

需要说明的是，在本申请实施例中，作为智能体策略的训练可以采用Q-Learning、策略梯度下降或者其他的深度学习网络学习策略，其具体实现可以参见现有强化学习技术中的相关描述，本申请实施例在此不做赘述。

步骤S110、基于训练好的画质调整策略，对新输入的感兴趣目标的画质进行画质调整。

本申请实施例中，新输入的感兴趣目标并不特指任一目标，而是可以指代画质调整策略训练好之后，出现在拍摄画面中的任一目标，本申请实施例后续不再复述。

本申请实施例中，按照上述完成画质调整策略训练之后，可以基于训练好的画质调整策略，对新输入的感兴趣目标的画质进行画质调整。

在一个示例中，上述基于训练好的画质调整策略，对新输入的感兴趣目标的画质进行画质调整之后，还可以包括：

对画质调整后的画面中的感兴趣目标进行识别；

其中，感兴趣目标包括：人脸、车牌、文字或虹膜。

示例性的，以感兴趣目标为人脸为例，该人脸识别可以包括但不限于门禁、支付验证、安检或工作考勤等场景中的人脸识别等。

为了使本领域技术人员更好地理解本发明实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

在该过程中，为了实现强化学习的画质调整，需要先进行智能体策略(即画质调整策略)的学习。

在该实施例中，考虑到为了针对特定目标达到最佳的成像效果，进而取得最优的图像质量或者抓拍/识别准确率，通常需要对特定目标进行画质调整。影响目标成像的因素可以分解为补光、镜头、Sensor(传感器)和ISP处理，其中，Sensor属于固定器件，通常不具备调节的功能；补光通常可以通过PWM(Pulse Width Modulation，脉冲宽度调制)调制的方式调整补光强度，或/和，通过远近光组合调整的方式适应不同的距离；对于变焦镜头，通常可以调节镜头的对焦参数和光圈系数；而ISP处理则具有曝光时间、增益、降噪等参数可供调节。

上述的这些参数的调节，都会对成像质量造成影响，进而影响特定目标的成像质量和用于识别等智能分析的准确率。

以虹膜识别为例，对于成像影响最大的为目标前后距离差异，若没有对对焦、补光进行调整，则难以获得最佳的成像质量。

同理，在人脸识别应用中，若针对特定人脸自动调整到最佳成像，则识别的准确率将会大幅提升。

基于此，在该实施例中，将上述画面内容、补光、镜头和ISP处理环节的各项参数作为强化学习的状态量，同时，利用智能分析技术对特定目标提取量化的质量评价，如大小、清晰度、角度、亮度均值等，这些量化的评价指标也作为强化学习的状态量。

请参见图2，为该实施例中的强化学习的闭环示意图，如图2所示，将对补光、镜头和ISP处理环节的各项可控参数的增减及其程度作为智能体的动作(即画质调整动作)。

采用特定目标(即感兴趣目标)与该特定目标真值的相似度，确定感兴趣目标的画质状态远离或接近理想状态量，并基于此构建回报值反馈，从而构建强化学习的闭环。

在该实施例中，智能体可以根据画面内容、补光强度、对焦参数、光圈系数以及ISP参数等参数的值，以及拍摄画面中特定目标的评分组合，确定需要进行的画质调整动作。

以特定目标为人脸为例，拍摄画面中人脸的评分组合可以通过将人脸的大小、人脸的角度、人脸的清晰度、人脸的遮挡情况和光照的情况等转为可以量化比较的数值指标，基于这些量化指标构成一组状态(即评分组合)。

智能体执行的画质调整动作可以包括补光灯的补光强度、镜头的对焦参数、光圈、曝光时间、增益、降噪等参数的增减及其程度。

智能体执行画质调整动作之后，可以根据画质调整动作执行前后，拍摄画面中特定目标与该特定目标真值的相似度，进行回报值反馈。

示例性的，当执行画质调整动作后拍摄画面中特定目标与该特定目标真值的相似度高于执行画质调整动作前的相似度时，进行高奖励反馈。

当执行画质调整动作后拍摄画面中特定目标与该特定目标真值的相似度低于或等于执行画质调整动作前的相似度时，进行低奖励反馈。

当完成画质调整策略训练之后，智能体可以根据训练好的画质调整策略，针对拍摄画面中的目标的画质进行画质调整。

本申请实施例中，通过在画质调整策略训练过程中，基于当前使用的画质调整策略，执行预设次数的画质调整动作，并基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，直至达到预设策略更新完成条件；进而，基于训练好的画质调整的策略，对新输入的感兴趣目标的画质进行画质调整，降低了画质调整对人工经验的依赖，实现了画质调整的自动学习，提高了画质调整的性能。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图3，为本申请实施例提供的一种画质调整装置的结构示意图，如图3所示，该画质调整装置可以包括：

训练单元310，用于在画质调整策略训练过程中，基于当前使用的画质调整策略，执行预设次数的画质调整动作，并基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新，直至达到预设策略更新完成条件；

调整单元320，用于基于训练好的画质调整策略，对新输入的感兴趣目标的画质进行画质调整。

在可选实施例中，画质调整策略为根据感兴趣目标当前的画质状态量选取特定的画质调整动作；

其中，画质调整动作包括以下动作之一或多个：

调整补光灯的补光强度、调整镜头的对焦参数、光圈调整、云台参数调整，ISP参数调整。

在可选实施例中，感兴趣目标的画质状态量包括以下之一或多个：

感兴趣目标的图像的亮度、色度、感兴趣目标在相邻时序的图像的亮度、色度、补光灯的补光强度、镜头的对焦参数、光圈系数、云台参数、ISP参数、拍摄距离、感兴趣目标的评分组合。

在可选实施例中，所述训练单元310通过以下方式确定所述预设次数的画质调整动作对应的回报值：

在可选实施例中，所述策略更新完成条件包括：执行完成预设轮次的策略自学习过程；

所述训练单元，具体用于在基于当前使用的画质调整策略，执行预设次数的画质调整动作之后，确定感兴趣目标画质状态量是否达到理想值，以及，当前使用的画质调整策略的回报值是否达到预设阈值；

若感兴趣目标画质状态量达到理想值，或/和，当前使用的画质调整策略的回报值达到预设阈值，则确定执行完成一轮策略自学习过程，并在执行完成的策略自学习过程的轮次未达到所述预设轮次时，执行下一轮策略自学习过程；

若感兴趣目标画质状态量未达到理想值，且当前使用的画质调整策略的回报值未达到预设阈值，则确定执行所述基于该预设次数的画质调整动作对应的回报值，对当前使用的画质调整策略进行更新的步骤。

在可选实施例中，如图4所示，所述画质调整装置还可以包括：

识别单元330，用于对画质调整后的画面中的所述感兴趣目标进行识别；

其中，所述感兴趣目标包括：人脸、车牌、文字或虹膜。

请参见图5，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器501、通信接口502、存储器503和通信总线504。处理器501、通信接口502以及存储器503通过通信总线404完成相互间的通信。其中，存储器503上存放有计算机程序；处理器501可以通过执行存储器503上所存放的程序，执行上文描述的画质调整方法。

本文中提到的存储器503可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器502可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种画质调整方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，画质调整策略为根据感兴趣目标当前的画质状态量选取特定的画质调整动作；

其中，画质调整动作包括以下动作之一或多个：

调整补光灯的补光强度、调整镜头的对焦参数、光圈调整、云台参数调整、图像信号处理ISP参数调整。

3.根据权利要求2所述的方法，其特征在于，感兴趣目标的画质状态量包括以下之一或多个：

4.根据权利要求1所述的方法，其特征在于，所述预设次数的画质调整动作对应的回报值，通过以下方式确定：

5.根据权利要求1所述的方法，其特征在于，所述策略更新完成条件包括：执行完成预设轮次的策略自学习过程；

所述基于当前使用的画质调整策略，执行预设次数的画质调整动作之后，还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述基于训练好的画质调整策略，对新输入的感兴趣目标的画质进行画质调整之后，还包括：

对画质调整后的画面中的所述感兴趣目标进行识别；

其中，所述感兴趣目标包括：人脸、车牌、文字或虹膜。

7.一种画质调整装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，画质调整策略为根据感兴趣目标当前的画质状态量选取特定的画质调整动作；

其中，画质调整动作包括以下动作之一或多个：

调整补光灯的补光强度、调整镜头的对焦参数、光圈调整、云台参数调整，图像信号处理ISP参数调整。

9.根据权利要求8所述的装置，其特征在于，感兴趣目标的画质状态量包括以下之一或多个：

感兴趣目标的图像的亮度、色度、感兴趣目标在相邻时序的图像的亮度、色度、补光灯的补光强度、镜头的对焦参数、光圈系数、云台参数、图像信号处理ISP参数、拍摄距离、感兴趣目标的评分组合。

10.根据权利要求7所述的装置，其特征在于，所述训练单元通过以下方式确定所述预设次数的画质调整动作对应的回报值：

11.根据权利要求7所述的装置，其特征在于，所述策略更新完成条件包括：执行完成预设轮次的策略自学习过程；

12.根据权利要求7-11任一项所述的装置，其特征在于，所述装置还包括：

识别单元，用于对画质调整后的画面中的所述感兴趣目标进行识别；

其中，所述感兴趣目标包括：人脸、车牌、文字或虹膜。