CN113269141A

CN113269141A - 一种图像处理方法及装置

Info

Publication number: CN113269141A
Application number: CN202110679733.2A
Authority: CN
Inventors: 赵文涛
Original assignee: Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Current assignee: Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-08-17
Anticipated expiration: 2041-06-18
Also published as: CN113269141B

Abstract

本发明提供了一种图像处理方法及装置，方法包括：获取图像；图像包括人脸区域和非人脸区域；提取图像中的非人脸区域；若非人脸区域包含文本，识别非人脸区域中的文本；若非人脸区别不包含文本，将非人脸区域输入模型，得到文本描述；根据所获得的文本或者文本描述调整图像中的人脸区域，从而实现人脸区域根据不同的场景进行调整。应用本发明实施例，提高了待处理图像的图像质量。

Description

一种图像处理方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像处理方法及装置。

背景技术

随着人工智能技术的发展，越来越多的领域需要应用人脸识别或人脸跟踪技术来识别或跟踪图像中的人脸，识别率的高低主要取决于待检测图像的质量好坏，一般而言，若图像为高质量图像，识别率通常较高。因此，研究一种能够提高人脸图像质量的方法变得越来越重要。

由于，图像质量会受环境影响，例如光照过度或光照不足，都会降低图像质量，因此，亟需一种能够根据环境情况调整图像的方法，以提高图像质量。

发明内容

本发明的目的在于克服现有技术之缺陷，提供了图像处理方法及装置，以实现提高图像质量，从而提高后续人脸识别的准确率。

本发明是这样实现的：

第一方面，一种人脸图像处理方法，所述方法包括：

获取图像；所述图像包括人脸区域和非人脸区域；

提取所述图像中的非人脸区域；

若非人脸区域包含文本，识别非人脸区域中的文本；

若非人脸区别不包含文本，将非人脸区域输入模型，得到文本描述；

根据所获得的文本或者文本描述调整所述图像中的人脸区域，从而人脸区域根据不同的场景进行调整。

可选的，根据所获得的文本或者文本描述调整所述图像中的人脸区域包括：

根据所述文本或者所述文本描述确定目标关键字；

根据关键字与环境光照值的预设对应关系，获得所述目标关键字对应的目标环境光照值；

根据所述目标环境光照值，调整所述图像中的人脸区域。

可选的，所述获取图像包括：

检测是否接收到用户输入的检索命令；

若接收到所述检索命令，根据所述检索命令，获得检索条件；并根据所述检索条件查找预设数据库，获得匹配所述检索条件的图片；

若未接收到检索命令，从实时采集的视频图像中，获得包含人脸的图像。

可选的，所述根据所述目标环境光照值，调整所述图像中的人脸区域，包括：

根据所述目标环境光照值，计算所述图像的平均像素值；

根据所述图像的平均像素值，调整所述图像中的人脸区域。

可选的，根据所述目标环境光照值，计算所述图像的平均像素值，包括：

确定所述图像中人脸区域的像素点，计算所确定像素点的三通道分量平均像素值；

根据所述三通道分量平均值，计算所确定像素点的三通道分量平均亮度值；

将三通道分量平均亮度值与三通道分量平均像素值的比值，作为三通道分量系数；

将所述三通道分量系数与所述目标环境光照值的乘积，作为所述图像的平均像素值。

第二方面，本发明提供一种图像处理装置，所述装置包括：

获取单元，用于获取图像；所述图像包括人脸区域和非人脸区域；

提取单元，用于提取图像中的非人脸区域；

识别单元，用于若非人脸区域包含文本，识别非人脸区域中的文本；

确定单元，用于若非人脸区别不包含文本，将非人脸区域输入模型，得到文本描述；

调整单元，用于根据所获得的文本或者文本描述调整所述图像中的人脸区域，从而人脸区域根据不同的场景进行调整。

可选的，所述调整单元包括：

第一提取子单元，用于提取文本或者文本描述中的目标关键字；

第一获得子单元，用于根据关键字与环境光照值的预设对应关系，获得所述目标关键字对应的目标环境光照值；

第一调整子单元，用于根据所述目标环境光照值，调整所述图像中的人脸区域；

或者，

所述调整单元包括：

第一确定子单元，用于根据所述文本或者所述文本描述确定目标意图；

第二确定子单元，用于根据意图与权重的预设对应关系，确定目标意图对应的目标权重；

点乘子单元，用于将所述目标权重与人脸区域的像素值点乘，作为最终的人脸区域的像素值。

可选的，所述获取单元包括：

检测子单元，用于检测是否接收到用户输入的检索命令；

查找子单元，用于若接收到所述检索命令，根据所述检索命令，获得检索条件；并根据所述检索条件查找预设数据库，获得匹配所述检索条件的图片；

第二获得子单元，用于若未接收到检索命令，从实时采集的视频图像中，获得包含人脸的图像。

第三方面，本发明提供一种电子设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行上述任一项所述的图像处理方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行上述任一项所述的图像处理方法。

本发明具有以下有益效果：应用本发明实施例，获取图像；所述图像包括人脸区域和非人脸区域；提取所述图像中的非人脸区域；若非人脸区域包含文本，识别非人脸区域中的文本；若非人脸区别不包含文本，将非人脸区域输入模型，得到文本描述；根据所获得的文本或者文本描述调整所述图像中的人脸区域，从而实现人脸区域根据不同的场景进行调整。保证了所获取的图像能够根据环境调整，提高了图像的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的图像处理方法的一种流程示意图；

图2为本发明实施例提供的图像处理装置的一种结构示意图；

图3为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

针对指定领域，为了能够获得高质量的图像，本案发明人进行了研究，在研究过程中发现，现有技术中存在图像处理的方案，现有方案大多为基于图像角度、滤波处理等图像处理方案，即由图像校正算法或滤波处理算法实现图像处理，然而，影响图像质量的因素往往较多，且环境影响较大，现有算法忽略了环境影响。

鉴于现有方案存在的问题，本案发明人通过不断研究，最终提供了一种人脸图像处理的方案，该方案的基本构思是：获取图像；所述图像包括人脸区域和非人脸区域；提取所述图像中的非人脸区域；若非人脸区域包含文本，识别非人脸区域中的文本；若非人脸区别不包含文本，将非人脸区域输入模型，得到文本描述；根据所获得的文本或者文本描述调整所述图像中的人脸区域，从而人脸区域根据不同的场景进行调整。进一步的，具体可以根据所述文本或者所述文本描述确定目标关键字；进而根据关键字与环境光照值的预设对应关系，获得所述目标关键字对应的目标环境光照值；从而根据所述目标环境光照值，调整所述图像中的人脸区域。

本申请提供的图像处理可应用于具有数据处理能力的电子设备，该电子设备可以为网络侧的服务器，也可以为用户侧使用的终端，比如PC、笔记本、智能手机等，网络侧的服务器或用户侧使用的终端可按本申请提供的图像处理方法处理拍摄的图像。另外，实现本发明实施例所提供的图像处理方法的功能软件可以为专门的图像处理软件，也可以为具有图像处理功能的软件中的插件。接下来通过下述实施例对本申请提供的图像处理方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的图像处理方法的流程示意图，该方法可以包括：

S101、获取图像；所述图像包括人脸区域和非人脸区域；

图像可以是包含人物的风景照、自拍照、景点打卡照等等，例如，某个场景是，在高铁站、或者知名景点，用户进行拍照留念，进而可以上传图片给本发明的执行主体，如电子设备，进而电子设备所获取图像上可能包含高铁logo或者地理标志名称等等。人脸区域为人脸所在的区域，非人脸区域为除人脸区域以外的区域，包括背景等等。

S102、提取所述图像中的非人脸区域；若非人脸区域包含文本，执行S103；若非人脸区别不包含文本，执行S104；

S103、识别非人脸区域中的文本；

S104、将非人脸区域输入模型，得到文本描述；

模型可以是对抗生成网络，可以通过预先训练对抗生成网络，使得训练成功后的对抗生成网络在获得图像后，可以生成对应的文本描述。或者，也可以为RNN网络，通过图像-文本作为训练对，训练RNN网络，使得收敛后的RNN网络在获得图像后，可以输出对应的文本描述。

文本描述用于描述图像所包含的信息，例如，图像背景所反映的位置类型和地理名称，例如类型可以包括景点类型、城市类型、车站类型，地理名称可以包括景点名或者城市名或者火车站名字等等。

S105、根据所获得的文本或者文本描述调整所述图像中的人脸区域，从而实现人脸区域根据不同的场景进行调整。

本发明对具体的调整人脸区域的方式不做限定，可以是调整人脸区域的像素值或者是调整人脸区域的尺寸。例如，可以通过文本或者文本描述确定意图，通过意图与权重的预设对应关系，确定出权重，进而将该权重与人脸区域的像素值点乘，作为最终的人脸区域的像素值，从而实现人脸区域的像素值根据不同的场景进行调整。或者，通过意图与缩放比例的预设对应关系，确定出缩放比例，按照所确定的缩放比例调整人脸区域，从而实现人脸区域的尺寸根据不同的场景进行调整。

可以预先建立意图与权重的预设对应关系，也可以预先建立意图与缩放比例的预设对应关系，从而在确定目标意图后，可以通过预设对应关系，得到目标意图对应的目标权重和/或目标缩放比例，进而基于目标权重和/或目标缩放比例，调整人脸区域的像素值和/或尺寸。

本发明对意图类型不做限定，例如，可以为自拍意图、人物风景合拍意图等等。

第二实施例

本实施例对上述实施例中的步骤S105中“根据所获得的文本或者文本描述调整所述图像中的人脸区域”的实现过程进行介绍。

根据所获得的文本或者文本描述调整所述图像中的人脸区域的像素值，人脸区域像素值通过以下方式调整：

S105-1、根据所述文本或者所述文本描述确定目标关键词；

可以预先设置关键词库，通过将文本或者所述文本描述与关键词库进行比对，得到比对成功的词作为目标关键词。例如，确定文本或者所述文本描述的词向量，计算词向量与关键词库中词向量的相似度，将相似度最高者对应的关键词作为目标关键词。

在另一种实现方式中，可以预先训练语义模型，通过将文本或者所述文本描述输入至训练好的语义模型，得到所述语义模型输出的目标关键词。语义模型可以为LSTM(LongShort-Term Memory,时间循环神经网络)。

又一种实现方式中，为提高语义模型的识别准确率，可构建出指定领域对应的关键词库，例如，高铁站领域、景点领域、音乐领域等等；在构建出指定领域对应的关键词库后，可利用其训练语义模型，还可对指定领域对应的关键词库进行优化，优化方式包括不限于，针对同一实体，关联多个同义名字，例如，武汉站、武汉火车站等，在对领域知识库进行优化后，可基于优化后的领域关键词库对训练得到语义模型进行优化，还可进一步对优化后的领域关键词库进一步优化以提升优化后的语义模型的识别效果。

S105-2、根据关键词与环境光照值的预设对应关系，获得所述目标关键词对应的目标环境光照值；

S105-3、根据所述目标环境光照值，调整所述图像中的人脸区域的像素值。

可以预先设置关键词与环境光照值的预设对应关系，并存储该对应关系，例如，可以存储在云端服务器，或者是本地文件夹，通过访问云端服务器或者本地文件夹，可以获得目标关键词对应的目标环境光照值。可以理解的是，环境光照值可以反映环境光照强度，相同位置不同的时节、同一天中的不同时段的光照强度均可以发生变化，进而也会影响人脸图像的拍摄质量，另外，室外和室内的光照环境也会有一定的差异，因此，考虑环境光照值，调整人脸区域的像素值，能够实现人脸区域根据不同的场景进行调整。保证了所获取的图像能够根据环境调整，提高了图像的质量。

第三实施例

本实施例对上述实施例中的步骤S105-3中“根据所述目标环境光照值，调整所述图像中的人脸区域的像素值”的实现过程进行介绍。

一种实现方式中，所述根据所述目标环境光照值，调整所述图像中的人脸区域的像素值，可以包括：

根据所述目标环境光照值，计算所述图像的平均像素值；

根据所述图像的平均像素值，调整所述图像中的人脸区域的像素值。

本发明对具体的根据图像的平均像素值调整图像中的人脸区域的像素值的方式不做限定，例如，可以是将人脸区域中像素值低于平均像素值的像素点作为第一类像素点；将人脸区域中像素值不低于平均像素值的像素点作为第二类像素点；对于每一第一类像素点，将该第一类像素点的像素值与第一预设值相乘，得到调整后的第一类像素点；对于每一第二类像素点，将该第二类像素点的像素值与第二预设值相乘，得到调整后的第二类像素点，从而完成人脸区域的像素值的调整。第一预设值和第二预设值可以根据需求事先设定，第一预设值可以大于第二预设值。

具体的，根据所述目标环境光照值，计算所述图像的平均像素值，包括：

可以理解的是三通道分量可以分别为RGB颜色空间中的红(R)、绿(G)、蓝(B)三个通道的颜色分量。可以先将人脸区域中的像素点对应的R\G\B分量值累加求平均，即可以得到R\G\B三个通道分量的平均值。

三通道分量平均亮度值可以通过以下公式计算得到：

Y_AVG＝(R_AVG+2G_AVG+2B_AVG)/5；

其中，R_AVG、G_AVG、B_AVG表示R\G\B三通道分量平均值；Y_AVG表示三通道分量平均亮度值。

进而，三通道分量系数可以通过以下公式计算得到：

K_R＝Y_AVG/R_AVG；

K_G＝Y_AVG/G_AVG；

K_B＝Y_AVG/B_AVG；

另一种实现方式中，也可以将所述三通道分量系数、所述目标环境光照值、三通道分量平均像素值三者的乘积，作为所述图像的平均像素值。

应用本发明实施例，可以避免光照过度或光照不足，带来的图像质量问题，使得所获取的图像能够根据环境调整，提高了图像的质量。

第四实施例

为了能够便于用户选择待处理的图像，具体的，获取图像的过程，可以包括：

S101-1、检测是否接收到用户输入的检索命令；若接收到所述检索命令，执行S101-2；若未接收到检索命令，执行S101-3；

用户可以通过电子设备自带的人机交互界面输入检索命令；也可以通过用户携带的终端设备输入检索命令，进而终端设备将检索命令发送给本发明的执行主体，也就是电子设备，进而电子设备可以接收到检索命令。本发明对检索命令的形式不做限定，例如，可以包括时间、位置、人物性别、人物年龄等条件词。

S101-2、根据所述检索命令，获得检索条件；并根据所述检索条件查找预设数据库，获得匹配所述检索条件的图像；

检索命令中可以包括时间、位置、人物性别、人物年龄等条件词，可以将检索命令中包含的各条件词组合，得到检索条件。数据库中可以存储各图像，以及各图像对应的图像标签，通过将检索条件中的各条件词与各图像的图像标签进行比对，比对得分最高的图像即为匹配所述检索条件的图像。可以理解的是，命中的条件词越多，比对得分越高。

S101-3、从实时采集的视频图像中，获得包含人脸的图像。

应用本发明实施例，在收到检索命令后，可以搜索匹配检索条件的图像；若存在满足匹配条件的图像，则可以基于该匹配成功的图像进行后续图像处理；若不存在满足匹配条件的图像，则可以显示匹配度最高的图像，供用户选择是否采用，以进行后续图像处理；

若未收到检索命令，也可以从视频流中获取图像；丰富了图像获取方式，更好的满足用户的多元化需求，提高了用户体验。

第五实施例

本申请实施例还提供了一种图像处理装置，下面对本申请实施例提供的图像处理装置进行描述，下文描述的图像处理装置与上文描述的图像处理方法可相互对应参照。

请参阅图2，示出了本申请实施例提供的图像处理装置的结构示意图，可以包括：获取单元201、提取单元202和识别单元203、确定单元204和调整单元205。

提取单元，用于提取图像中的非人脸区域；

应用本发明实施例，获取图像；所述图像包括人脸区域和非人脸区域；提取所述图像中的非人脸区域；若非人脸区域包含文本，识别非人脸区域中的文本；若非人脸区别不包含文本，将非人脸区域输入模型，得到文本描述；根据所获得的文本或者文本描述调整所述图像中的人脸区域，从而人脸区域根据不同的场景进行调整。保证了所获取的图像能够根据环境调整，提高了图像的质量。

在一种可能的实现方式中，所述调整单元具体用于根据所获得的文本或者文本描述调整所述图像中的人脸区域的像素值，所述调整单元包括：

第一调整子单元，用于根据所述目标环境光照值，调整所述图像中的人脸区域的像素值；

或者，

所述调整单元包括：

在一种可能的实现方式中，所述获取单元包括：

检测子单元，用于检测是否接收到用户输入的检索命令；

在一种可能的实现方式中，第一调整子单元，包括：

计算模块，用于根据所述目标环境光照值，计算所述图像的平均像素值；

调整模块，用于根据所述图像的平均像素值，调整所述图像中的人脸区域的像素值。

在一种可能的实现方式中，计算模块，具体用于：

第六实施例

本申请实施例还提供了一种电子设备，请参阅图3，示出了该评估设备的结构示意图，该评估设备可以包括：至少一个处理器301，至少一个通信接口302，至少一个存储器303和至少一个通信总线304；

在本申请实施例中，处理器301、通信接口302、存储器303、通信总线304的数量为至少一个，且处理器301、通信接口302、存储器303通过通信总线304完成相互间的通信；

处理器301可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器303可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

一种人脸图像处理方法，其特征在于，所述方法包括：

获取图像；所述图像包括人脸区域和非人脸区域；

提取所述图像中的非人脸区域；

若非人脸区域包含文本，识别非人脸区域中的文本；

根据所获得的文本或者文本描述调整所述图像中的人脸区域，从而实现人脸区域根据不同的场景进行调整。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第七实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

一种人脸图像处理方法，其特征在于，所述方法包括：

获取图像；所述图像包括人脸区域和非人脸区域；

提取所述图像中的非人脸区域；

若非人脸区域包含文本，识别非人脸区域中的文本；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人脸图像处理方法，其特征在于，所述方法包括：

获取图像；所述图像包括人脸区域和非人脸区域；

提取所述图像中的非人脸区域；

若非人脸区域包含文本，识别非人脸区域中的文本；

2.根据权利要求1所述的方法，其特征在于，根据所获得的文本或者文本描述调整所述图像中的人脸区域包括：

根据所获得的文本或者文本描述调整所述图像中的人脸区域的像素值，其中，所述人脸区域的像素值通过以下方式进行调整：

根据所述文本或者所述文本描述确定目标关键字；

根据所述目标环境光照值，调整所述图像中的人脸区域的像素值；

或者，

所述人脸区域的像素值通过以下方式进行调整：

根据所述文本或者所述文本描述确定目标意图；

根据意图与权重的预设对应关系，确定目标意图对应的目标权重；

将所述目标权重与人脸区域的像素值点乘，作为最终的人脸区域的像素值。

3.根据权利要求1所述的方法，其特征在于，所述获取图像包括：

检测是否接收到用户输入的检索命令；

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标环境光照值，调整所述图像中的人脸区域的像素值，包括：

根据所述目标环境光照值，计算所述图像的平均像素值；

5.根据权利要求4的方法，其特征在于，根据所述目标环境光照值，计算所述图像的平均像素值，包括：

6.一种图像处理装置，其特征在于，所述装置包括：

提取单元，用于提取图像中的非人脸区域；

调整单元，用于根据所获得的文本或者文本描述调整所述图像中的人脸区域，从而实现人脸区域根据不同的场景进行调整。

7.根据权利要求6所述的装置，其特征在于，所述调整单元具体用于根据所获得的文本或者文本描述调整所述图像中的人脸区域的像素值，所述调整单元包括：

或者，

所述调整单元包括：

8.根据权利要求6所述的装置，其特征在于，所述获取单元包括：

检测子单元，用于检测是否接收到用户输入的检索命令；

9.一种电子设备，其特征在于，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1～5任一项所述的图像处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1～5任一项所述的图像处理方法。