CN111611827A

CN111611827A - 一种图像处理方法及装置

Info

Publication number: CN111611827A
Application number: CN201910139193.1A
Authority: CN
Inventors: 苟巍; 沈海峰; 姜佳男
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2020-09-01

Abstract

本申请实施例提供了一种图像处理方法及装置，其中，本申请实施例不是对整张面部图像进行数据处理，而是从整张面部图像中提取了唇部区域图像，继而基于提取的唇部区域图像进行唇语识别，有效降低了唇语识别中需要处理的数据量，提高了唇语识别的效率。同时，本申请实施例在得到唇部区域之后，提取唇部区域图像的有效时空特征数据，并基于提取得到的有效时空特征数据，进行唇语识别，能够得到准确度更高的唇语内容，提高了唇语识别的精确度。

Description

一种图像处理方法及装置

技术领域

本申请涉及图像处理和模型计算技术领域，具体而言，涉及一种图像处理方法及装置。

背景技术

人工智能技术突飞猛进的发展，给人们的生活带来了很多智能化的服务，唇语识别是人工智能技术中的一种，其捕捉人说话时的嘴部动作，再通过对捕捉得到的嘴部动作进行数据分析和处理，来解读说话人所要表达的内容。唇语识别的应用场景广泛，例如可将唇语识别应用于活体检测、安防等场景中，实现基于唇语识别的活体检测、安防等。其中，唇语识别最直接的应用场景就是，帮助听力或发音障碍者实现与他人的顺畅交流。

现有技术中的唇语识别是基于获取的面部图像进行唇语识别，该唇语识别过程中不仅需要处理大量的数据，识别效率低，并且识别得到的唇语内容偏差较大，精确度不够。

发明内容

有鉴于此，本申请实施例的目的在于提供一种图像处理方法及装置，能够通过提取唇部区域图像，并基于提取的唇部区域图像的有效时空特征数据进行唇语识别，克服了现有技术中唇语识别效率低、精确度差的缺陷。

第一方面，本申请实施例提供了一种图像处理方法，包括：

从多张面部图像中的每张面部图像中，获取唇部区域图像，得到多张唇部区域图像；

提取所述多张唇部区域图像的有效时空特征数据；

基于提取得到的有效时空特征数据，确定所述多张唇部区域图像对应的唇语内容。

在一种可能的实施方式中，所述从多张面部图像中的每张面部图像中，获取唇部区域图像，包括：

针对每张面部图像，获取该面部图像的唇部区域中心点，并基于获取的唇部区域中心点，和图像预定尺寸，从该面部图像中提取所述唇部区域图像。

在一种可能的实施方式中，上述图像处理方法还包括确定所述多张面部图像的步骤：

解析获取的唇语视频，得到多张原始面部图像；

基于所述原始面部图像对应的时间，将所述多张原始面部图像进行排序；

基于所述原始面部图像的数量、所要筛选的面部图像的预定数量、和每张图像在排序得到的序列中的位置，从所述多张原始面部图像筛选得到所述多张面部图像。

在一种可能的实施方式中，所述图像处理方法利用如下公式筛选所述多张面部图像：

Stretch_seq[i]＝orig_seq[round((i×orig_len)/M)]

式中，Stretch_seq[i]表示筛选得到的第i张面部图像，M表示所述预定数量，round表示取整的四舍五入运算，orig_len表示原始面部图像的数量，orig_seq表示所述多张原始面部图像排序序列。

在一种可能的实施方式中，所述提取所述多张唇部区域图像的有效时空特征数据，包括：

提取所述多张唇部区域图像的N组时空特征数据；

基于所述N组时空特征数据对应的时间，将所述N组时空特征数据进行排序；其中，N为正整数；

针对每组时空特征数据，基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

在一种可能的实施方式中，所述基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据，包括：

在该组时空特征数据位于排序序列的第一个位置的情况下，基于该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据；

在该组时空特征数据未位于排序序列的第一个位置的情况下，基于该组时空特征数据，和该组时空特征数据的前一组时空特征数据对应的有效时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

在一种可能的实施方式中，所述基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据，还包括：

在该组时空特征数据位于排序序列的最后一个位置的情况下，基于该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据的中间值；

在该组时空特征数据未位于排序序列的最后一个位置的情况下，基于该组时空特征数据，和该组时空特征数据的后一组时空特征数据对应的有效时空特征数据的中间值，确定该组时空特征数据对应的有效时空特征数据的中间值；

基于该组时空特征数据对应的有效时空特征数据，和该组时空特征数据对应的有效时空特征数据的中间值，确定该组时空特征数据对应的最终的有效时空特征数据。

在一种可能的实施方式中，所述提取所述多张唇部区域图像的N组时空特征数据，包括：

提取所述多张唇部区域图像的N组初始时空特征数据；

针对每组初始时空特征数据，基于与该组初始时空特征数据匹配的权重，确定该组初始时空特征数据对应的加权时空特征数据；

基于N组加权时空特征数据，确定N组时空特征数据。

在一种可能的实施方式中，所述基于提取得到的有效时空特征数据，确定所述多张唇部区域图像对应的唇语内容，包括：

基于有效时空特征数据与文字的对应的关系，确定所述定所述多张唇部区域图像对应的唇语内容。

在一种可能的实施方式中，上述图像处理方法还包括：

利用与每个文字对应的权重和偏移量，剔除得到的唇语内容中的错别字。

第二方面，本申请实施例提供了一种图像处理装置，包括：

图像提取模块，用于从多张面部图像中的每张面部图像中，获取唇部区域图像，得到多张唇部区域图像；

数据提取模块，用于提取所述多张唇部区域图像的有效时空特征数据；

唇语识别模块，用于基于提取得到的有效时空特征数据，确定所述多张唇部区域图像对应的唇语内容。

在一种可能的实施方式中，所述图像提取模块具体用于：

在一种可能的实施方式中，上述图像处理装置还包括：

视频解析模块，用于解析获取的唇语视频，得到多张原始面部图像；

图像排序模块，用于基于所述原始面部图像对应的时间，将所述多张原始面部图像进行排序；

图像获取模块，用于基于所述原始面部图像的数量、所要筛选的面部图像的预定数量、和每张图像在排序得到的序列中的位置，从所述多张原始面部图像筛选得到所述多张面部图像。

在一种可能的实施方式中，所述图像获取模块利用如下公式筛选所述多张面部图像：

Stretch_seq[i]＝orig_seq[round((i×orig_len)/M)]

在一种可能的实施方式中，所述数据提取模块包括：

数据提取子模块，用于提取所述多张唇部区域图像的N组时空特征数据；

数据排序子模块，用于基于所述N组时空特征数据对应的时间，将所述N组时空特征数据进行排序；其中，N为正整数；

有效数据确定子模块，用于针对每组时空特征数据，基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

在一种可能的实施方式中，所述有效数据确定子模块包括：

第一数据确定单元，用于在该组时空特征数据位于排序序列的第一个位置的情况下，基于该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据；

第二数据确定单元，用于在该组时空特征数据未位于排序序列的第一个位置的情况下，基于该组时空特征数据，和该组时空特征数据的前一组时空特征数据对应的有效时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

在一种可能的实施方式中，所述有效数据确定模块，还包括：

第三数据确定单元，用于在该组时空特征数据位于排序序列的最后一个位置的情况下，基于该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据的中间值；

第四数据确定单元，用于在该组时空特征数据未位于排序序列的最后一个位置的情况下，基于该组时空特征数据，和该组时空特征数据的后一组时空特征数据对应的有效时空特征数据的中间值，确定该组时空特征数据对应的有效时空特征数据的中间值；

第五数据确定单元，用于基于该组时空特征数据对应的有效时空特征数据，和该组时空特征数据对应的有效时空特征数据的中间值，确定该组时空特征数据对应的最终的有效时空特征数据。

在一种可能的实施方式中，所述数据提取子模块包括：

初始数据提取单元，用于提取所述多张唇部区域图像的N组初始时空特征数据；

加权单元，用于针对每组初始时空特征数据，基于与该组初始时空特征数据匹配的权重，确定该组初始时空特征数据对应的加权时空特征数据；

目标数据提取单元，用于基于N组加权时空特征数据，确定N组时空特征数据。

在一种可能的实施方式中，所述唇语识别模块具体用于：

在一种可能的实施方式中，上述图像处理装置还包括：

唇语内容处理模块，用于利用与每个文字对应的权重和偏移量，剔除得到的唇语内容中的错别字。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面的任一种可能的实施方式中的步骤。

本申请实施例提供的图像处理方法及装置，首先从多张面部图像中的每张面部图像中，获取唇部区域图像，得到多张唇部区域图像；之后，提取多张唇部区域图像的有效时空特征数据；最后，基于提取得到的有效时空特征数据，确定多张唇部区域图像对应的唇语内容。上述技术方案不是对整张面部图像进行数据处理，而是从面部图像中提取了唇部区域图像，继而基于提取的唇部区域图像进行唇语识别，有效降低了唇语识别中需要处理的数据量，提高了唇语识别的效率。同时，上述技术方案基于唇部区域图像提取有效时空特征数据，并基于提取得到的有效时空特征数据，进行唇语识别，能够得到准确度更高的唇语内容，提高了唇语识别的精确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种图像处理系统的结构示意图；

图2示出了本申请实施例所提供的一种图像处理方法的流程图；

图3示出了本申请实施例所提供的另一种图像处理方法中，确定多张面部图像的流程图；

图4示出了本申请实施例所提供的另一种图像处理方法中，提取多张唇部区域图像的N组时空特征数据的流程图；

图5示出了本申请实施例所提供的另一种图像处理方法中，确定每组时空特征数据对应的有效时空特征数据的流程图；

图6示出了本申请实施例所提供的另一种图像处理方法中，确定每组时空特征数据对应的最终的有效时空特征数据的流程图；

图7示出了本申请实施例所提供的一种图像处理装置的结构示意图；

图8示出了本申请实施例所提供的另一种图像处理装置中，有效数据确定子模块的结构示意图；

图9示出了本申请实施例所提供的另一种图像处理装置中，数据提取子模块的结构示意图；

图10示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种图像处理系统。该系统可以从整张面部图像中提取唇部区域图像，之后提取唇部区域图像的有效时空特征数据，并基于提取得到的有效时空特征数据，进行唇语识别，该系统能够降低唇语识别中需要处理的数据量，提高唇语识别的效率，并且能够得到准确度更高的唇语内容，提高唇语识别的精确度。

图1是本申请一些实施例的图像处理系统100的框图。该图像处理系统100可以用于需要进行唇语识别的一切的应用场景。例如，图像处理系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台中的唇语识别。图像处理系统100可以包括服务器110、网络120、服务请求端130、服务提供端140和数据库150中的一种或多种，服务器110中可以包括执行指令操作的处理器。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式系统)。在一些实施例中，服务器110相对于终端，可以是本地的、也可以是远程的。例如，服务器110可以经由网络120访问存储在服务请求端130、服务提供端140、或数据库150、或其任意组合中的信息和/或数据。作为另一示例，服务器110可以直接连接到服务请求端130、服务提供端140和数据库150中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。

在一些实施例中，服务器110可以包括处理器220。处理器220可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecificIntegrated Circuit,ASIC)、专用指令集处理器(ApplicationSpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics ProcessingUnit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(DigitalSignal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等，或其任意组合。

网络120可以用于信息和/或数据的交换。在一些实施例中，图像处理系统100中的一个或多个组件(例如，服务器110，服务请求端130，服务提供端140和数据库150)可以向其他组件发送信息和/或数据。例如，服务器110可以经由网络120从服务请求端130获取服务请求。

在一些实施例中，图像处理系统100中的一个或多个组件(例如，服务器110，服务请求端130，服务提供端140等)可以具有访问数据库150的权限。在一些实施例中，当满足一定条件时，图像处理系统100中的一个或多个组件可以读取和/或修改与服务请求端、服务提供端、或公众、或其任意组合有关的信息。例如，服务器110可以在接收服务请求之后读取和/或修改一个或多个用户的信息。作为另一示例，服务提供端140可以在从服务请求端130接收服务请求时访问与服务请求方有关的信息，但是服务提供端140可以不修改服务请求端130的相关信息。

在一些实施例中，可以通过请求服务来实现图像处理系统100中的一个或多个组件的信息交换。服务请求的对象为基于唇语相关的图像进行唇语识别。

图2是示出本申请的一些实施例的图像处理方法的流程图，该图像处理方法在唇语识别的相关服务器执行，用于基于获取的面部图像识别对应的唇语内容。具体地，如图2所示，图像处理方法包括如下步骤：

S210、从多张面部图像中的每张面部图像中，获取唇部区域图像，得到多张唇部区域图像。

这里，多张面部图像为要进行唇语识别的面部图像，是对应的个体在说话时的面部图像。

这里，唇部区域图像为面部图像中的一部分，本步骤从整张面部图像中提取部分图像，即提取对唇语识别有意义的唇部区域图像进行后续唇语识别，不仅不会降低唇语识别得到的唇语内容的精确度，而且能够有效降低后续唇语识别中需要分析和处理的数据量，提高唇语识别的速度。

在具体实施时，可以利用如下子步骤获取唇部区域图像：针对每张面部图像，获取该面部图像的唇部区域中心点，并基于获取的唇部区域中心点，和图像预定尺寸，从该面部图像中提取所述唇部区域图像。

上述提取得到的唇部区域图像为预定尺寸的图像。上述预定尺寸可以根据实际应用场景的需求灵活设置，例如，可以将预定尺寸设置为长100厘米，宽50厘米。

另外，在获取唇部区域图像时，可以先根据唇部区域中心点获取唇部区域图像，再根据预定尺寸对获取的唇部区域图像进行处理，得到符合预定尺寸要求的唇部区域图像。

在具体实施时，优选地，采用人脸关键点识别技术获取上述唇部区域图像。得到的多张唇部区域图像组成一个图像序列，该图像序列可以根据时间先后顺序进行排序。人脸关键点识别技术相比于现有技术中在图像中提取部分图像的方案相比，能够提取到尺寸相对应较小、目标信息包含较多的图像。因此，利用人脸关键点识别技术获取得到的上述唇部区域图像尺寸较小，并且包含了唇语识别需要的信息，采用人脸关键点识别技术获取唇部区域图像有助于进一步减少唇语识别中需要分析和处理的数据量，提高唇语识别速度，并且不会对唇语识别的精确度造成不良影响。

S220、提取所述多张唇部区域图像的有效时空特征数据。

步骤S210获取了唇部区域图像序列，本步骤中对得到的唇部区域图像序列进行时空特征数据提取以及时空特征数据处理，得到唇部区域图像序列对应的有效时空特征数据。

在具体实施时，可以利用如下子步骤提取所述多张唇部区域图像的有效时空特征数据：

S2201、提取所述多张唇部区域图像的N组时空特征数据。

本子步骤在提取多张唇部区域图像的N组时空特征数据时，具体可以利用3D卷积模型进行提取，N的值由3D卷积模型中相关的参数确定。3D卷积模型根据实际的应用需求可能包括多个卷积层。

S2202、基于所述N组时空特征数据对应的时间，将所述N组时空特征数据进行排序；其中，N为正整数。

此步骤对得到的N组时空特征数据按照时间关系进行了排序，若在提取所述多张唇部区域图像的时空特征数据之前，已经对多张唇部区域图像按照时间关系进行了排序，那么提取的N组时空特征数据本身就已经是按照时间排列好的有序的数据组，那么此步骤也可不执行，直接跳转到步骤S2203即可。

S2203、针对每组时空特征数据，基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

本子步骤对上面的时空特征数据进行了有效性筛选，筛选得到数据噪音少，能够准确表征唇语内容信息，是进行唇语识别的有效的时空特征数据。

在具体实施时，可以利用长短期记忆方法(Gated Recurrent Unit，GUR)对时空特征数据进行筛选，得到每组时空特征数据对应的有效时空特征数据。各组时空特征数据对应的有效时空特征数据合并后得为所述多张唇部区域图像的有效时空特征数据。这里多张唇部区域图像的有效时空特征数据是一个N行M列的矩阵，每组时空特征数据对应的有效时空特征数据是一个1行M列的矩阵。每组时空特征数据或每组时空特征数据对应的有效时空特征数据包含所有多张唇部区域图像的信息。

S230、基于提取得到的有效时空特征数据，确定所述多张唇部区域图像对应的唇语内容。

本步骤中的有效时空特征数据是一个与字符对应的矩阵，在具体实施时，可以利用分类器实现，分类器中存储有效时空特征数据与字符的对应关系。得到有效时空特征数据后，分类器基于其存储的上述对应关系，确定有效时空特征数据对应的一个或多个字符，即得到了唇语内容。

在一些实施例中，如图3所示，上述图像处理方法还包括确定所述多张面部图像的步骤：

S310、解析获取的唇语视频，得到多张原始面部图像。

这里的唇语视频是人在说话时录制的，是要进行唇语识别的视频。此步骤即是对唇语视频进行解帧，得到多张原始面部图像。

S320、基于所述原始面部图像对应的时间，将所述多张原始面部图像进行排序。

此步骤是将解帧得到的多张原始面部图像按照时间关系进行排序，由于视频本身是按照由早到晚的时间录制的，因此解帧得到的多张原始面部图像也可能是按照时间先后关系排序好的图像，此时，则不需要执行本步骤。当然，如果解帧得到的多张原始面部图像的顺序被打乱，或是没有按照时间先后关系存储，那么就需要执行此步骤。

S330、基于所述原始面部图像的数量、所要筛选的面部图像的预定数量、和每张原始面部图像在排序得到的序列中的位置，从所述多张原始面部图像筛选得到所述多张面部图像。

在具体实施时，可以利用如下公式筛选所述多张面部图像：

Stretch_seq[i]＝orig_seq[round((i×orig_len)/M)]

式中，Stretch_seq[i]表示筛选得到的第i张面部图像，M表示所述预定数量，round表示取整的四舍五入运算，orig_len表示原始面部图像的数量，orig_seq表示所述多张原始面部图像排序的序列。

上述Stretch_seq表示筛选得到的面部图像序列，orig_seq表示解帧得到的原始面部图像序列。上述i即表示是第几次筛选面部图像，i的最大值为所述预定数量。本步骤通过预定数量获取了预定长度的面部图像序列，预定数量可以根据实际场景的需求灵活设定。例如，预定数量可以取值75。

应当说明的是，解帧得到的原始面部图像的数量可以大于预定数量，也可以小于预定数量，即原始面部图像的数量可以大于所要筛选的面部图像的数量，也可以小于所要筛选的面部图像的数量。利用的上述公式可以实现筛选得到的面部图像的数量大于原始面部图像的数量。

另外，在原始面部图像的数量小于预定数量时，还可以设置一个随机数，基于该随机数复制筛选得到的面部图像中的某幅，使最终得到的面部图像的数量为预定数量。

在一些实施例中，如图4所示，上述提取所述多张唇部区域图像的N组时空特征数据，包括：

S410、提取所述多张唇部区域图像的N组初始时空特征数据。

在具体实施时，此步骤可以利用3D卷积模型中的一个卷积层实现。这里的初始时空特征数据即所述多张唇部区域图像的时间和空间特征，每组初始时空特征数据均包括所有唇部区域图像的时间和空间特征。

S420、针对每组初始时空特征数据，基于与该组初始时空特征数据匹配的权重，确定该组初始时空特征数据对应的加权时空特征数据。

步骤S410在利卷积层进行卷积计算时，由于采样以及信息逐层传递损失了大量信息，所以在全局信息捕捉上存在局限性。本步骤在卷积层计算后基于与每组初始时空特征数据匹配的权重，对每组初始时空特征数据进行加权处理，得到每组初始时空特征数据对应的加权时空特征数据，该加权过程能够使后续数据分析和处理能够更关注某些对于唇语识别更加重要的信息，更好的进行时间和空间特征的提取。本步骤中每组初始时空特征数据对应的权重是预先训练得到的或预先根据经验设置好的。

在具体实施时，可以利用非局部non-local神经网络实现对每组初始时空特征数据的加权处理，当然，还可以利用注意力attention神经网络实现对每组初始时空特征数据的加权处理。

S430、基于N组加权时空特征数据，确定N组时空特征数据。

在具体实施时，此步骤可以利用3D卷积模型中的一个卷积层实现。这里的时空特征数据即所述多张唇部区域图像的时间和空间特征，每组时空特征数据均包括所有唇部区域图像的时间和空间特征。

此步骤在加权后的时空特征数据的基础上进行进一步的时间和空间特征的提取，在提取过程中能够更加关注对于唇语识别更加重要的信息，提取到对唇语识别更加有意义的时空特征数据。

在具体实施时，在提取时空特征数据时，为了得到更好的时空特征数据，可以设置多个卷积层，例如设置8个、9个、10个等，当然对时空特征数据进行加权处理的神经网络也可以设置多个，例如设置3个、4个等。优选地，可以将每个对时空特征数据进行加权处理的神经网络分别设置在相邻两个卷积层之间。优选的，所有对时空特征数据进行加权处理的神经网络分别设置在中部的几个卷积层之间。上述设置对时空特征数据进行加权处理的神经网络的位置理由如下：若将对时空特征数据进行加权处理的神经网络设置偏上的卷积层之间时，卷积层输出的时空特征数据量较大，容易增加后续的计算量；若将对时空特征数据进行加权处理的神经网络设置偏下的卷积层之间时，则卷积层输出的时空特征数据量过小，计算量虽然减小，但是丢失了很多对唇语识别有效的时空特征数据，导致唇语识别的准确度下降，因此将对时空特征数据进行加权处理的神经网络设置中部的卷积层之间。

在一些实施例中，上述基于某一时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据时，可以利用GRU算法，具体地如图5所示，可以利用如下步骤实现：

S510、在该组时空特征数据位于排序序列的第一个位置的情况下，基于该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

在具体实施时，可以基于预先设置的与该组时空特征数据中的每个时空特征数据对应的权重和偏移量对每个时空特征数据进行计算，并对计算后的数据进行筛选，得到该组时空特征数据对应的有效时空特征数据。

S520、在该组时空特征数据未位于排序序列的第一个位置的情况下，基于该组时空特征数据，和该组时空特征数据的前一组时空特征数据对应的有效时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

此步骤中，在该组时空特征数据未位于不是排序序列的第一个位置时，基于前一组时空特征数据对应的有效时空特征数据和该组时空特征数据来确定该组时空特征数据对应的有效时空特征数据，综合了上下文信息，能够实现对时空特征数据的有效性更高的筛选。

在具体实施时，可以先将该组时空特征数据与上一组时空特征数据对应的有效时空特征数据进行合并，之后，基于预先设置的与每个合并后的数据对应的权重和偏移量对每个数据进行计算，并对计算后的数据进行筛选，得到该组时空特征数据对应的有效时空特征数据。

上述步骤得到了每组时空特征数据对应的有效时空特征数据，上述步骤在处理的过程中更关注不同组时空特征数据之间的关系，实现了基于上下文信息提取每组时空特征数据对应的有效时空特征数据。

进一步地，在筛选有效时空特征数据时，为了增加记忆长度，提高筛选得到的有效时空特征数据的准确度，在利用上述方法筛选得到有效时空特征数据后，还可以基于筛选得到的有效时空特征数据进行进一步地筛选，得到准确度更高的有效时空特征数据。优选的，可以利用GRU算法进一步地筛选有效时空特征数据。如图6所示，具体可以利用如下步骤实现：

S610、针对每组时空特征数据，在该组时空特征数据位于排序序列的最后一个位置的情况下，基于该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据的中间值。

在具体实施时，可以基于预先设置的与该组时空特征数据中的每个时空特征数据对应的权重和偏移量对每个时空特征数据进行计算，并对计算后的数据进行筛选，得到该组时空特征数据对应的有效时空特征数据的中间值。

S620、在该组时空特征数据未位于排序序列的最后一个位置的情况下，基于该组时空特征数据，和该组时空特征数据的后一组时空特征数据对应的有效时空特征数据的中间值，确定该组时空特征数据对应的有效时空特征数据的中间值。

此步骤中，在该组时空特征数据未位于不是排序序列的最后一个位置时，基于该组时空特征数据的后一组时空特征数据对应的有效时空特征数据的中间值和该组时空征数据来确定该组时空特征数据对应的有效时空特征数据额中间值，综合了上下文信息，能够实现对时空特征数据的有效性更高的筛选。

在具体实施时，可以先将该组时空特征数据与后一组时空特征数据对应的有效时空特征数据的中间值进行合并，之后，基于预先设置的与每个合并后的数据对应的权重和偏移量对每个数据进行计算，并对计算后的数据进行筛选，得到该组时空特征数据对应的有效时空特征数据的中间值。

S630、基于该组时空特征数据对应的有效时空特征数据，和该组时空特征数据对应的有效时空特征数据的中间值，确定该组时空特征数据对应的最终的有效时空特征数据。

本步骤结合每组时空特征数据对应的有效时空特征数据和每组时空特征数据对应的有效时空特征数据的中间值，确定每组时空特征数据对应的最终的有效时空特征数据，提升了记忆的长度，提高了确定的有效时空特征数据的准确度。在具体实施时，可以利用双向GRU实现对上述有效时空特征数据的提取。当然，也可以利用其他方法实现对有效时空特征数据的提取，例如利用LTSM(Long Short-Term Memory，长短期记忆方法)或双向LTSM提取上述有效时空特征数据。

在一些实施例中，识别得到多张唇部区域图像对应的唇语内容后，图像处理方法还可以包括对识别得的唇语内容进行错别字识别和剔除的步骤，具体地，可以利用如下步骤剔除唇语内容中的错别字：利用与每个文字对应的权重和偏移量，剔除得到的唇语内容中的错别字。

在具体实施时，具体可以利用mlp(Multi-Layer Perceptron，即多层感知器)实现上述识别和剔除错别字的步骤。

上述对唇语内容进行校正的步骤进一步提高了唇语识别的准确度。

现有技术中的唇语识别方法是基于整张的面部图像进行数据分析和处理，需要处理的数据量巨大，并且处理很多对唇语识别没有作用的数据，导致唇语识别效率较低，并且对提高唇语识别准确度没有作用。上述实施例在整张面部图像中提取了唇部区域图像，能够更加有针对性的进行唇部区域数据的分析和处理，有效提高了唇语识别效率。并且相对与处理整张面部图像的唇语识别方法不会降低识别的准确度。

上述实施例利用的3D卷积模型不需要将特征提取和分类训练，对缩放、平移、旋转等畸变具有不变性，且有着很强的泛化能力，对不同的图像适应性强。

上述实施例利用的GRU算法通过长短记忆的方法能够更好的利用上下文信息，从得到的特征数据中提取能够推断唇语内容的有效时空特征数据。在具体实施时还可以利用双向的GRU进行有效时空特征数据的提取，双向GRU可以从两个方向计算并合并信息，使得记忆的长度更深更准确，即得到更加有效的时空特征数据。

图7是示出本申请的一些实施例的图像处理装置的框图，该图像处理装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，图像处理装置可以包括图像提取模块710、数据提取模块720、唇语识别模块730。

图像提取模块710可以用于从多张面部图像中的每张面部图像中，获取唇部区域图像，得到多张唇部区域图像。

数据提取模块720可以用于提取所述多张唇部区域图像的有效时空特征数据。

唇语识别模块730可以用于基于提取得到的有效时空特征数据，确定所述多张唇部区域图像对应的唇语内容。

在一些实施例中，所述图像提取模块710具体用于：

在一些实施例中，上述图像处理装置还可以包括：

视频解析模块740，可以用于解析获取的唇语视频，得到多张原始面部图像；

图像排序模块750，可以用于基于所述原始面部图像对应的时间，将所述多张原始面部图像进行排序；

图像获取模块760，可以用于基于所述原始面部图像的数量、所要筛选的面部图像的预定数量、和每张图像在排序得到的序列中的位置，从所述多张原始面部图像筛选得到所述多张面部图像。

在一些实施例中，所述图像获取模块760可以利用如下公式筛选所述多张面部图像：

Stretch_seq[i]＝orig_seq[round((i×orig_len)/M)]

在一些实施例中，所述数据提取模块720可以包括：

数据提取子模块7201，可以用于提取所述多张唇部区域图像的N组时空特征数据；

数据排序子模块7202，可以用于基于所述N组时空特征数据对应的时间，将所述N组时空特征数据进行排序；其中，N为正整数；

有效数据确定子模块7203，可以用于针对每组时空特征数据，基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

在一些实施例中，所述唇语识别模块730具体用于：

基于有效时空特征数据与字符的对应的关系，确定所述定所述多张唇部区域图像对应的唇语内容。

在一些实施例中，图像处理装置还可以包括：

唇语内容处理模块770，可以用于利用与每个字符对应的权重和偏移量，剔除得到的唇语内容中的错别字。

如图8所示，在一些实施例中，所述有效数据确定子模块可以包括：

第一数据确定单元810，可以用于在该组时空特征数据位于排序序列的第一个位置的情况下，基于该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据；

第二数据确定单元820，可以用于在该组时空特征数据未位于排序序列的第一个位置的情况下，基于该组时空特征数据，和该组时空特征数据的前一组时空特征数据对应的有效时空特征数据，确定该组时空特征数据对应的有效时空特征数据。

在一些实施例中，所述有效数据确定子模块，还可以包括：

第三数据确定单元830，可以用于在该组时空特征数据位于排序序列的最后一个位置的情况下，基于该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据的中间值；

第四数据确定单元840，可以用于在该组时空特征数据未位于排序序列的最后一个位置的情况下，基于该组时空特征数据，和该组时空特征数据的后一组时空特征数据对应的有效时空特征数据的中间值，确定该组时空特征数据对应的有效时空特征数据的中间值；

第五数据确定单元850，可以用于基于该组时空特征数据对应的有效时空特征数据，和该组时空特征数据对应的有效时空特征数据的中间值，确定该组时空特征数据对应的最终的有效时空特征数据。

如图9所示，在一些实施例中，所述数据提取子模块可以包括：

初始数据提取单元910，可以用于提取所述多张唇部区域图像的N组初始时空特征数据；

加权单元920，可以用于针对每组初始时空特征数据，基于与该组初始时空特征数据匹配的权重，确定该组初始时空特征数据对应的加权时空特征数据；

目标数据提取单元930，可以用于基于N组加权时空特征数据，确定N组时空特征数据。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

本申请实施例公开了一种电子设备，如图10所示，包括：处理器1001、存储器1002和总线1003，所述存储器1002存储有所述处理器1001可执行的机器可读指令，当电子设备运行时，所述处理器1001与所述存储器1002之间通过总线1003通信。

所述机器可读指令被所述处理器1001执行时执行以下图像处理的步骤：

提取所述多张唇部区域图像的有效时空特征数据；

进一步地，所述处理器1001执行从多张面部图像中的每张面部图像中，获取唇部区域图像时，具体执行包括：

进一步地，所述处理器1001还用于执行确定所述多张面部图像的步骤：

解析获取的唇语视频，得到多张原始面部图像；

进一步地，所述处理器1001利用如下公式筛选所述多张面部图像：

Stretch_seq[i]＝orig_seq[round((i×orig_len)/M)]

进一步地，所述处理器1001执行所述提取所述多张唇部区域图像的有效时空特征数据时，具体执行：

提取所述多张唇部区域图像的N组时空特征数据；

进一步地，所述处理器1001执行所述基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据时具体执行：

进一步地，所述处理器1001执行所述基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据时，还具体执行：

进一步地，所述处理器1001执行所述提取所述多张唇部区域图像的N组时空特征数据时，具体执行：

提取所述多张唇部区域图像的N组初始时空特征数据；

基于N组加权时空特征数据，确定N组时空特征数据。

进一步地，所述处理器1001执行所述基于提取得到的有效时空特征数据，确定所述多张唇部区域图像对应的唇语内容时，具体执行：

进一步地，所述处理器1001还用于执行：

利用与每个字符对应的权重和偏移量，剔除得到的唇语内容中的错别字。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例中的图像处理方法的步骤。

本申请实施例还提供了一种计算机程序产品，其包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

提取所述多张唇部区域图像的有效时空特征数据；

2.根据权利要求1所述的方法，其特征在于，所述从多张面部图像中的每张面部图像中，获取唇部区域图像，包括：

3.根据权利要求1所述的方法，其特征在于，还包括确定所述多张面部图像的步骤：

解析获取的唇语视频，得到多张原始面部图像；

基于所述原始面部图像的数量、所要筛选的面部图像的预定数量、和每张原始面部图像在排序得到的序列中的位置，从所述多张原始面部图像筛选得到所述多张面部图像。

4.根据权利要求3所述的方法，其特征在于，所述方法利用如下公式筛选所述多张面部图像：

Stretch_seq[i]＝orig_seq[round((i×orig_len)/M)]

式中，Stretch_seq[i]表示筛选得到的第i张面部图像，M表示所述预定数量，round表示取整的四舍五入运算，orig_len表示原始面部图像的数量，orig_seq表示所述多张原始面部图像的排序序列。

5.根据权利要求1所述的方法，其特征在于，所述提取所述多张唇部区域图像的有效时空特征数据，包括：

提取所述多张唇部区域图像的N组时空特征数据；

6.根据权利要求5所述的方法，其特征在于，所述基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于该组时空特征数据在排序得到的序列中的位置，和该组时空特征数据，确定该组时空特征数据对应的有效时空特征数据，还包括：

8.根据权利要求5所述的方法，其特征在于，所述提取所述多张唇部区域图像的N组时空特征数据，包括：

提取所述多张唇部区域图像的N组初始时空特征数据；

基于N组加权时空特征数据，确定N组时空特征数据。

9.根据权利要求1所述的方法，其特征在于，所述基于提取得到的有效时空特征数据，确定所述多张唇部区域图像对应的唇语内容，包括：

10.根据权利要求9所述的方法，其特征在于，还包括：

11.一种图像处理装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述图像提取模块具体用于：

13.根据权利要求11所述的装置，其特征在于，还包括：

图像获取模块，用于基于所述原始面部图像的数量、所要筛选的面部图像的预定数量、和每张原始面部图像在排序得到的序列中的位置，从所述多张原始面部图像筛选得到所述多张面部图像。

14.根据权利要求13所述的装置，其特征在于，所述图像获取模块利用如下公式筛选所述多张面部图像：

Stretch_seq[i]＝orig_seq[round((i×orig_len)/M)]

15.根据权利要求11所述的装置，其特征在于，所述数据提取模块包括：

16.根据权利要求15所述的装置，其特征在于，所述有效数据确定子模块包括：

17.根据权利要求16所述的装置，其特征在于，所述有效数据确定子模块，还包括：

18.根据权利要求15所述的装置，其特征在于，所述数据提取子模块包括：

19.根据权利要求11所述的装置，其特征在于，所述唇语识别模块具体用于：

20.根据权利要求19所述的装置，其特征在于，还包括：

唇语内容处理模块，用于利用与每个字符对应的权重和偏移量，剔除得到的唇语内容中的错别字。

21.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至10任一所述的图像处理方法的步骤。

22.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的图像处理方法的步骤。