CN111611825A

CN111611825A - 一种唇语内容识别方法及装置

Info

Publication number: CN111611825A
Application number: CN201910138841.1A
Authority: CN
Inventors: 苟巍; 沈海峰; 姜佳男
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2020-09-01
Anticipated expiration: 2039-02-25
Also published as: CN111611825B

Abstract

本申请实施例供了一种唇语内容识别方法及装置，本申请实施例不是对整张面部图像进行数据处理，而是对整张面部图像中的唇部动作图像进行数据分析和处理，有效降低了唇语识别中需要处理的数据量，提高了唇语识别的效率。同时，上述技术方案结合唇部动作图像中的有效时空特征数据和音频信息中的有效音频特征数据进行唇语识别，能够得到准确度更高的唇语内容，提高了唇语识别的精确度。

Description

一种唇语内容识别方法及装置

技术领域

本申请涉及图像处理和模型计算技术领域，具体而言，涉及一种唇语内容识别方法及装置。

背景技术

人工智能技术突飞猛进的发展，给人们的生活带来了很多智能化的服务，唇语识别是人工智能技术中的一种，其捕捉说话人说话时的嘴部动作，再通过对捕捉得到的嘴部动作进行数据分析和处理，来解读说话人所要表达的内容。唇语识别的应用场景广泛，例如可将唇语识别应用于活体检测、安防等场景中，实现基于唇语识别的活体检测、安防等。其中，唇语识别最直接的应用场景就是，帮助听力或发音障碍者实现与他人的顺畅交流。

现有技术中的唇语识别是基于获取的面部图像进行唇语识别，该唇语识别过程中不仅需要处理大量的数据，识别效率低，并且识别得到的唇语内容偏差较大，识别精确度不够。

发明内容

有鉴于此，本申请实施例的目的在于提供一种唇语内容识别方法及装置，能够基于唇部动作图像和唇部动作图像对应的音频信息，确定有效特征数据，并基于确定的有效特征数据实现唇语识别，克服了现有技术中唇语识别效率低、精确度差的缺陷。

第一方面，本申请实施例提供了一种唇语内容识别方法，包括：

获取唇部动作图像和所述唇部动作图像对应的音频信息；

基于所述唇部动作图像中的有效时空特征数据，和所述音频信息中的有效音频特征数据，确定所述唇部动作图像对应的有效特征数据；

基于所述唇部动作图像对应的有效特征数据，生成所述唇部动作图像对应的唇语内容。

在一种可能的实施方式中，所述唇语内容识别方法还包括提取所述唇部动作图像中的有效时空特征数据的步骤：

提取所述唇部动作图像中的时空特征数据；

根据时空特征数据的位置，将所述时空特征数据划分为N个第一数组，并按照时空特征数据的位置将所述N个第一数组进行排序；其中，N为正整数；

针对每个第一数组，基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据。

在一种可能的实施方式中，所述基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据，包括：

在该第一数组位于排序序列的第一个位置的情况下，基于该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据；

在该第一数组未位于排序序列的第一个位置的情况下，基于该第一数组中的时空特征数据，和该第一数组的前一个第一数组对应的有效时空特征数据，确定该第一数组对应的有效时空特征数据。

在一种可能的实施方式中，所述基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据，还包括：

在该第一数组位于排序序列的最后一个位置的情况下，基于该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据的中间值；

在该第一数组未位于排序序列的最后一个位置的情况下，基于该第一数组中的时空特征数据，和该第一数组的后一个第一数组对应的有效时空特征数据的中间值，确定该第一数组对应的有效时空特征数据的中间值；

基于该第一数组对应的有效时空特征数据，和该第一数组对应的有效时空特征数据的中间值，确定该第一数组对应的最终的有效时空特征数据。

在一种可能的实施方式中，所述唇语内容识别方法还包括提取所述音频信息中的有效音频特征数据的步骤：

根据时间关系，将所述音频信息划分为N个第二数组，并按照所述时间关系，将所述N个第二数组进行排序；

针对每个第二数组，基于该第二数组在排序得到的序列中的位置，和该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据。

在一种可能的实施方式中，所述基于该第二数组在排序得到的序列中的位置，和该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据，包括：

在该第二数组位于排序序列的第一个位置的情况下，基于该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据；

在该第二数组未位于排序序列的第一个位置的情况下，基于该第二数组中的音频信息，和该第二数组的前一个第二数组对应的有效音频特征数据，确定该第二数组对应的有效音频特征数据。

在一种可能的实施方式中，所述基于所述唇部动作图像中的有效时空特征数据，和所述音频信息中的有效音频特征数据，确定所述唇部动作图像对应的有效特征数据，包括：

针对每个第一数组，将该第一数组对应的有效时空特征数据，和与该第一数组具有相同的排序次序的第二数组对应的有效音频特征数据进行级联，得到该第一数组对应的级联特征数据；

基于所有第一数组对应的级联特征数据，确定所述唇部动作图像对应的有效特征数据。

在一种可能的实施方式中，所述基于所有第一数组对应的级联特征数据，确定所述唇部动作图像对应的有效特征数据，包括：

针对每个第一数组，基于该第一数组在排序得到的序列中的位置，和该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据；

将所有第一数组对应的有效特征数据作为所述唇部动作图像对应的有效特征数据。

在一种可能的实施方式中，所述基于该第一数组在排序得到的序列中的位置，和该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据，包括：

在该第一数组位于排序序列的第一个位置的情况下，基于该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据；

在该第一数组未位于排序序列的第一个位置的情况下，基于该第一数组对应的级联特征数据，和该第一数组的前一个第一数组对应的有效特征数据，确定该第一数组对应的有效特征数据。

在一种可能的实施方式中，所述基于所述唇部动作图像对应的有效特征数据，生成所述唇部动作图像对应的唇语内容，包括：

基于每个有效特征数据，和与每个有效特征数据匹配的权重，确定唇部动作图像对应的加权特征数据；

基于唇部动作图像对应的加权特征数据，生成所述唇部动作图像对应的唇语内容。

在一种可能的实施方式中，所述基于唇部动作图像对应的加权特征数据，生成所述唇部动作图像对应的唇语内容，包括：

计算所有唇部动作图像对应的加权特征数据的和，得到目标特征数据；

基于所述目标特征数据、与每个目标特征数据匹配的权重、和与每个目标特征数据匹配的偏移量，生成所述唇部动作图像对应的唇语内容。

在一种可能的实施方式中，所述获取唇部动作图像，包括：

从面部图像中识别唇部区域，并提取识别得到的唇部区域的图像，得到所述唇部动作图像。

第二方面，本申请实施例提供了一种唇语内容识别装置，包括：

信息获取模块，用于获取唇部动作图像和所述唇部动作图像对应的音频信息；

数据提取模块，用于基于所述唇部动作图像中的有效时空特征数据，和所述音频信息中的有效音频特征数据，确定所述唇部动作图像对应的有效特征数据；

唇语识别模块，用于基于所述唇部动作图像对应的有效特征数据，生成所述唇部动作图像对应的唇语内容。

在一种可能的实施方式中，所述数据提取模块包括：

第一数据提取子模块，用于提取所述唇部动作图像中的时空特征数据；

第一数据处理子模块，用于根据时空特征数据的位置，将所述时空特征数据划分为N个第一数组，并按照时空特征数据的位置将所述N个第一数组进行排序；其中，N为正整数；

第二数据提取子模块，用于针对每个第一数组，基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据。

在一种可能的实施方式中，所述第二数据提取子模块具体用于：

在一种可能的实施方式中，所述第二数据提取子模块具体还用于：

在一种可能的实施方式中，所述数据提取模块还包括：

第二数据处理子模块，用于根据时间关系，将所述音频信息划分为N个第二数组，并按照所述时间关系，将所述N个第二数组进行排序；

第三数据提取子模块，用于针对每个第二数组，基于该第二数组在排序得到的序列中的位置，和该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据。

在一种可能的实施方式中，所述第三数据提取子模块具体用于：

在一种可能的实施方式中，所述数据提取模块还包括：

数据级联子模块，用于针对每个第一数组，将该第一数组对应的有效时空特征数据，和与该第一数组具有相同的排序次序的第二数组对应的有效音频特征数据进行级联，得到该第一数组对应的级联特征数据；

有效数据提取子模块，用于基于所有第一数组对应的级联特征数据，确定所述唇部动作图像对应的有效特征数据。

在一种可能的实施方式中，所述有效数据提取子模块包括：

有效数据提取单元，用于针对每个第一数组，基于该第一数组在排序得到的序列中的位置，和该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据；

数据合并单元，用于将所有第一数组对应的有效特征数据合并，作为所述唇部动作图像对应的有效特征数据。

在一种可能的实施方式中，所述有效数据提取单元具体用于：

在一种可能的实施方式中，所述唇语识别模块包括：

加权子模块，用于基于每个有效特征数据，和与每个有效特征数据匹配的权重，确定唇部动作图像对应的加权特征数据；

识别子模块，用于基于唇部动作图像对应的加权特征数据，生成所述唇部动作图像对应的唇语内容。

在一种可能的实施方式中，所述识别子模块具体用于：

在一种可能的实施方式中，所述信息获取模块具体用于：

本申请实施例提供的唇语内容识别方法及装置，首先获取唇部动作图像和唇部动作图像对应的音频信息；之后，基于唇部动作图像中的有效时空特征数据，和音频信息中的有效音频特征数据，确定唇部动作图像对应的有效特征数据；最后，基于唇部动作图像对应的有效特征数据，生成唇部动作图像对应的唇语内容。与现有技术相比，上述技术方案不是对整张面部图像进行数据处理，而是对整张面部图像中的唇部动作图像进行数据分析和处理，有效降低了唇语识别中需要处理的数据量，提高了唇语识别的效率。同时，上述技术方案结合唇部动作图像中的有效时空特征数据和音频信息中的有效音频特征数据进行唇语识别，能够得到准确度更高的唇语内容，提高了唇语识别的精确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种唇语内容识别系统的框图；

图2示出了本申请实施例所提供的一种唇语内容识别方法的流程图；

图3示出了本申请实施例所提供的另一种唇语内容识别方法中，提取唇部动作图像中的有效时空特征数据的流程图；

图4示出了本申请实施例所提供的另一种唇语内容识别方法中，提取音频信息中的有效音频特征数据的流程图；

图5示出了本申请实施例所提供的另一种唇语内容识别方法中，确定唇部动作图像对应的有效特征数据的流程图；

图6示出了本申请实施例所提供的另一种唇语内容识别方法中，基于唇部动作图像对应的有效特征数据，生成唇部动作图像对应的唇语内容的流程图；

图7示出了本申请实施例所提供的另一种唇语内容识别方法中，确定面部图像的流程图；

图8示出了本申请实施例所提供的一种唇语内容识别装置的框图；

图9示出了本申请实施例所提供的另一种唇语内容识别装置中，有效数据提取子模块的框图；

图10示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种唇语内容识别系统。该系统可以基于唇部动作图像中的有效时空特征数据，和音频信息中的有效音频特征数据，确定唇部动作图像对应的有效特征数据，继而基于唇部动作图像对应的有效特征数据，生成唇部动作图像对应的唇语内容。该系统能够降低唇语识别中需要处理的数据量，提高唇语识别的效率，并且能够得到准确度更高的唇语内容，提高唇语识别的精确度。

图1是本申请一些实施例的唇语内容识别系统100的框图。该唇语内容识别系统100可以用于需要进行唇语识别的一切的应用场景。例如，唇语内容识别系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台中的唇语识别。唇语内容识别系统100可以包括服务器110、网络120、服务请求端130、服务提供端140和数据库150中的一种或多种，服务器110中可以包括执行指令操作的处理器。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式系统)。在一些实施例中，服务器110相对于终端，可以是本地的、也可以是远程的。例如，服务器110可以经由网络120访问存储在服务请求端130、服务提供端140、或数据库150、或其任意组合中的信息和/或数据。作为另一示例，服务器110可以直接连接到服务请求端130、服务提供端140和数据库150中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。

在一些实施例中，服务器110可以包括处理器220。处理器220可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等，或其任意组合。

网络120可以用于信息和/或数据的交换。在一些实施例中，唇语内容识别系统100中的一个或多个组件(例如，服务器110，服务请求端130，服务提供端140和数据库150)可以向其他组件发送信息和/或数据。例如，服务器110可以经由网络120从服务请求端130获取服务请求。

在一些实施例中，唇语内容识别系统100中的一个或多个组件(例如，服务器110，服务请求端130，服务提供端140等)可以具有访问数据库150的权限。在一些实施例中，当满足一定条件时，唇语内容识别系统100中的一个或多个组件可以读取和/或修改与服务请求端、服务提供端、或公众、或其任意组合有关的信息。例如，服务器110可以在接收服务请求之后读取和/或修改一个或多个用户的信息。作为另一示例，服务提供端140可以在从服务请求端130接收服务请求时访问与服务请求方有关的信息，但是服务提供端140可以不修改服务请求端130的相关信息。

在一些实施例中，可以通过请求服务来实现唇语内容识别系统100中的一个或多个组件的信息交换。服务请求的对象为基于唇语相关的图像和音频信息进行唇语识别。

图2是示出本申请的一些实施例的唇语内容识别方法的流程图。该唇语内容识别方法在唇语识别的相关服务器执行，用于基于唇部动作图像中的有效时空特征数据，和音频信息中的有效音频特征数据进行唇语识别。具体地，如图2所示，唇语内容识别方法包括如下步骤：

S210、获取唇部动作图像和所述唇部动作图像对应的音频信息。

这里唇部动作图像是从整张面部图像中获取的唇部区域的图像。上述面部图像为要进行唇语识别的面部图像，是对应的个体在说话时的面部图像。

本步骤不是获取整张面部图像，而是获取面部图像中的唇部动作图像，有效降低了后续进行唇语识别需要分析和处理的数据量，有利于提高唇语识别效率。

这里，在获取唇部动作图像的同时还获取了与唇部动作图像对应的音频信息，上述音频信息与对应的唇部动作图像是同一时刻产生的。这里应当说明的是，音频信息不是能够清楚的听到人所说的内容的音频信息，是发音含糊、不清楚的音频信息。

S220、基于所述唇部动作图像中的有效时空特征数据，和所述音频信息中的有效音频特征数据，确定所述唇部动作图像对应的有效特征数据。

在具体实施时，可以首先对得到的唇部动作图像进行时空特征数据提取以及时空特征数据处理，得到唇部动作图像对应的有效时空特征数据，之后提取音频信息中的有效音频特征数据，最后在基于提取得到数据确定有效特征数据。优选的，可以利用卷积神经网络和长短期记忆网络(Long Short-Term Memory，LSTM)提取唇部动作图像中的有效时空特征数据，利用LSTM提取音频信息中的有效音频特征数据。提取得到的数据是有效的表征唇语内容的数据。

此步骤不仅只基于图像信息，还结合了音频信息，并且对唇部动作图像中的有效时空特征数据和音频信息中的有效音频特征数据进行进一步的数据提取，得到唇部动作图像对应的有效特征数据，基于得到的有效特征数据进行唇语识别能够提高唇语识别的准确度。

S230、基于所述唇部动作图像对应的有效特征数据，生成所述唇部动作图像对应的唇语内容。

在具体实施时，可以基于与每个有效特征数据匹配的权重、和与每个有效特征数据匹配的偏移量，生成所述唇部动作图像对应的唇语内容。优选地，可以利用MLP(Multi-Layer Perceptron，即多层感知器)生成唇语动作图像对应的唇语内容。

上述实施例中唇部动作图像为面部图像中的一部分，从整张面部图像中提取部分图像，即提取对唇语识别有意义的唇部动作图像进行后续唇语识别，不仅不会降低唇语识别得到的唇语内容的精确度，而且能够有效降低后续唇语识别中需要分析和处理的数据量，提高唇语识别的速度。

可见，在执行步骤S210之前，需要执行获取唇部动作图像的步骤，具体地：从面部图像中识别唇部区域，并提取识别得到的唇部区域的图像，得到所述唇部动作图像。

在具体实施时，可以利用如下子步骤提取唇部动作图像：获取该面部图像的唇部区域中心点，并基于获取的唇部区域中心点，和图像预定尺寸，从该面部图像中提取所述唇部动作图像。

上述提取得到的唇部动作图像为预定尺寸的图像。上述预定尺寸可以根据实际应用场景的需求灵活设备，例如，可以将预定尺寸设置为长100厘米，宽50厘米。

另外，在获取唇部动作图像时，可以先根据唇部区域中心点获取唇部动作图像，再根据预定尺寸对获取的唇部动作图像进行处理，得到符合预定尺寸要求的唇部动作图像。

在具体实施时，优选地，采用人脸关键点识别技术提取上述唇部动作图像。人脸关键点识别技术相比于现有技术中在图像中提取部分图像的方案相比，能够提取到尺寸相对应较小、目标信息包含较多的图像。因此，利用人脸关键点识别技术获取得到的上述唇部动作图像尺寸较小，并且包含了唇语识别需要的信息，采用人脸关键点识别技术获取唇部动作图像有助于进一步减少唇语识别中需要分析和处理的数据量，提高唇语识别速度，并且不会对唇语识别的精确度造成不良影响。

如图3所示，在一些实施例中，上述唇语内容识别方法可以利用如下步骤提取所述唇部动作图像中的有效时空特征数据：

S310、提取所述唇部动作图像中的时空特征数据。

在具体实施时，可以利用卷积神经网络提取唇部动作图像的时间和空间特征，即提取上述时空特征数据。

S320、根据时空特征数据的位置，将所述时空特征数据划分为N个第一数组，并按照时空特征数据的位置将所述N个第一数组进行排序；其中，N为正整数。

每个时空特征数据都对应某一位置的唇部动作图像的特征，因此可以根据位置关系，将提取得到的时空特征数据分为N组。

S330、针对每个第一数组，基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据。

本步骤对上面得到的时空特征数据进行了有效性筛选，筛选得到数据噪音少，并且能够准确表征唇语内容，即是进行唇语识别的有效的时空特征数据。在具体实施时，可以利用LSTM对时空特征数据进行筛选，得到有效时空特征数据，具体可以利用如下步骤确定每个第一数组对应的有效时空特征数据：

S3301、针对每个第一数组，在该第一数组位于排序序列的第一个位置的情况下，基于该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据。

在具体实施时，可以基于预先设置的与每个时空特征数据对应的权重和偏移量对每个时空特征数据进行计算，并对计算后的数据进行筛选，得到该组时空特征数据对应的有效时空特征数据。

S3302、在该第一数组未位于排序序列的第一个位置的情况下，基于该第一数组中的时空特征数据，和该第一数组的前一个第一数组对应的有效时空特征数据，确定该第一数组对应的有效时空特征数据。

此步骤中，在该组时空特征数据未位于排序序列的第一个位置时，基于前一组时空特征数据对应的有效时空特征数据和该组时空特征数据来确定该组时空特征数据对应的有效时空特征数据，综合了上下文信息，能够实现对时空特征数据的有效性更高的筛选。

在具体实施时，可以先将该组时空特征数据与上一组时空特征数据对应的有效时空特征数据进行合并，之后，基于预先设置的与每个合并后的数据对应的权重和偏移量对每个数据进行计算，并对计算后的数据进行筛选，得到该组时空特征数据对应的有效时空特征数据。

上述步骤得到了每组时空特征数据对应的有效时空特征数据，上述步骤在处理的过程中更关注不同组时空特征数据之间的关系，实现了基于上下文信息提取每组时空特征数据对应的有效时空特征数据。

进一步地，在筛选有效时空特征数据时，为了增加记忆长度，提高筛选得到的有效时空特征数据的准确度，在利用上述方法筛选到有效时空特征数据后，还可以基于筛选得到的有效时空特征数据进行进一步地筛选，得到准确度更高的有效时空特征数据。优选的，可以利用LSTM进一步地筛选有效时空特征数据。具体可以利用如下步骤实现：

S3303、在该第一数组位于排序序列的最后一个位置的情况下，基于该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据的中间值。

在具体实施时，可以基于预先设置的与该组时空特征数据中的每个时空特征数据对应的权重和偏移量对每个时空特征数据进行计算，并对计算后的数据进行筛选，得到该组时空特征数据对应的有效时空特征数据的中间值。

S3304、在该第一数组未位于排序序列的最后一个位置的情况下，基于该第一数组中的时空特征数据，和该第一数组的后一个第一数组对应的有效时空特征数据的中间值，确定该第一数组对应的有效时空特征数据的中间值。

此步骤中，在该组时空特征数据未位于不是排序序列的最后一个位置时，基于该组时空特征数据的后一组时空特征数据对应的有效时空特征数据的中间值和该组时空征数据来确定该组时空特征数据对应的有效时空特征数据的中间值，综合了上下文信息，能够实现对时空特征数据的有效性更高的筛选。

在具体实施时，可以先将该组时空特征数据与后一组时空特征数据对应的有效时空特征数据的中间值进行合并，之后，基于预先设置的与每个合并后的数据对应的权重和偏移量对每个数据进行计算，并对计算后的数据进行筛选，得到该组时空特征数据对应的有效时空特征数据的中间值。

S3305、基于该第一数组对应的有效时空特征数据，和该第一数组对应的有效时空特征数据的中间值，确定该第一数组对应的最终的有效时空特征数据。

本步骤结合每组时空特征数据对应的有效时空特征数据和每组时空特征数据对应的有效时空特征数据的中间值，确定每组时空特征数据对应的最终的有效时空特征数据，提升了记忆的长度，提高了确定的有效时空特征数据的准确度。在具体实施时，可以利用双向LSTM实现对上述有效时空特征数据的提取。当然，也可以利用其他方法实现对有效时空特征数据的提取，例如利用GRU(Gated Recurrent Unit，长短期记忆网络)或双向GRU提取上述有效时空特征数据。

如图4所示，在一些实施例中，上述唇语内容识别方法中还包括提取所述音频信息中的有效音频特征数据的步骤：

S410、根据时间关系，将所述音频信息划分为N个第二数组，并按照所述时间关系，将所述N个第二数组进行排序。

音频信息与时间有很强的相关性，并且时间连续的音频信息放在一个数组中才能够提取到有效、准确的特征数据，因此可以根据时间关系，将音频信息划分分为N组。

S420、针对每个第二数组，基于该第二数组在排序得到的序列中的位置，和该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据。

本步骤对上面得到的音频信息进行了有效性筛选，筛选得到数据噪音少，并且能够准确表征唇语内容，即是进行唇语识别的有效的音频特征数据。在具体实施时，可以利用LSTM对音频信息进行处理，得到有效音频特征数据，具体可以利用如下步骤确定每个第二数组对应的有效音频特征数据：

S4201、在该第二数组位于排序序列的第一个位置的情况下，基于该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据。

在具体实施时，可以基于预先设置的与每个音频信息的数据对应的权重和偏移量对音频信息进行计算，并对计算后的数据进行筛选，得到该组音频信息对应的有效音频特征数据。

S4202、在该第二数组未位于排序序列的第一个位置的情况下，基于该第二数组中的音频信息，和该第二数组的前一个第二数组对应的有效音频特征数据，确定该第二数组对应的有效音频特征数据。

此步骤中，在该组音频信息未位于排序序列的第一个位置时，基于前一组音频信息对应的有效音频特征数据和该组音频信息来确定该组音频信息对应的有效音频特征数据，综合了上下文信息，能够实现对音频信息的有效性的筛选。

在具体实施时，可以先将该组音频信息对应的数据与上一组音频信息对应的有效音频特征数据进行合并，之后，基于预先设置的与每个合并后的数据对应的权重和偏移量对每个数据进行计算，并对计算后的数据进行筛选，得到该组音频信息对应的有效音频特征数据。

上述步骤得到了每组音频信息对应的有效音频特征数据，上述步骤在处理的过程中更关注不同组音频信息之间的关系，实现了基于上下文信息提取每组音频信息对应的有效音频特征数据。

进一步地，在筛选有效音频特征数据时，为了增加记忆长度，提高筛选得到的有效音频特征数据的准确度，在利用上述方法筛选到有效音频特征数据后，还可以基于筛选得到的有效音频特征数据进行进一步地筛选，得到准确度更高的有效音频特征数据。在具体实施时，可以利用双向LSTM算法筛选有效音频特征数据。

当然，还可以利用GRU或双向GRU实现对上述有效音频特征数据的提取。

如图5所示，在一些实施例中，上述唇语内容识别方法中的基于所述唇部动作图像中的有效时空特征数据，和所述音频信息中的有效音频特征数据，确定所述唇部动作图像对应的有效特征数据，包括：

S510、针对每个第一数组，将该第一数组对应的有效时空特征数据，和与该第一数组具有相同的排序次序的第二数组对应的有效音频特征数据进行级联，得到该第一数组对应的级联特征数据。

此步骤将每个第一数组对应的有效时空特征数据和有效音频特征数据分别进行了拼接，得到每个第一数组对应的级联特征数据。得到的级联特征数据不仅包括唇语动作图像中的数据，还包括音频信息中的数据，结合二者可以提高唇语识别的准确度。

S520、基于所有第一数组对应的级联特征数据，确定所述唇部动作图像对应的有效特征数据。

在具体实施时，可以利用如下子步骤基于级联特征数据确定有效特征数据：

S5201、针对每个第一数组，基于该第一数组在排序得到的序列中的位置，和该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据。

本步骤对上面得到的级联特征数据进行了有效性筛选，筛选得到数据噪音少，并且能够准确表征唇语内容，即是进行唇语识别的有效的特征数据。在具体实施时，可以利用LSTM对级联特征数据进行筛选，得到有效特征数据，具体可以利用如下步骤确定每个第一数组对应的有效特征数据：

S52011、针对每个第一数组，在该第一数组位于排序序列的第一个位置的情况下，基于该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据。

在具体实施时，可以基于预先设置的与每个级联特征数据对应的权重和偏移量对级联特征数据进行计算，并对计算后的数据进行筛选，得到该第一数组对应的有效特征数据。

S52022、在该第一数组未位于排序序列的第一个位置的情况下，基于该第一数组对应的级联特征数据，和该第一数组的前一个第一数组对应的有效特征数据，确定该第一数组对应的有效特征数据。

此步骤中，在第一数组未位于排序序列的第一个位置时，基于前一个第一数组对应的有效特征数据和该第一数组对应的级联特征数据确定该第一数组对应的有效特征数据，综合了上下文信息，能够实现对级联特征数据的有效性的筛选。

在具体实施时，可以先将该第一数组对应的级联特征数据与上一个第一数组对应的有效特征数据进行合并，之后，基于预先设置的与每个合并后的数据对应的权重和偏移量对每个数据进行计算，并对计算后的数据进行筛选，得到该第一数组对应的有效特征数据。

上述步骤得到了每个第一数组对应的有效特征数据，上述步骤在处理的过程中更关注不同的数组之间的关系，实现了基于上下文信息提取每个第一数组对应的有效特征数据。

进一步地，在筛选有效特征数据时，为了增加记忆长度，提高筛选得到的有效特征数据的准确度，在利用上述方法筛选得到有效特征数据后，还可以基于筛选得到的有效特征数据进行进一步地筛选，得到准确度更高的有效特征数据。在具体实施时，可以利用双向LSTM筛选准确度更高的有效特征数据。

当然，还可以利用GRU或双向GRU实现对上述有效特征数据的提取。

S5202、将所有第一数组对应的有效特征数据作为所述唇部动作图像对应的有效特征数据。

如图6所示，在一些实施例中，上述唇语内容识别方法中的基于所述唇部动作图像对应的有效特征数据，生成所述唇部动作图像对应的唇语内容，包括：

S610、基于每个有效特征数据，和与每个有效特征数据匹配的权重，确定唇部动作图像对应的加权特征数据。

本步骤对每个有效特征数据进行加权处理，得到对应的加权特征数据，该加权过程能够使后续数据分析和处理能够更关注某些对于唇语识别重要的信息。本步骤中每个有效特征数据对应的权重是预先训练得到的或预先根据经验设置好的。

在具体实施时，可以利用注意力attention神经网络实现对每个有效特征数据的加权处理，当然，还可以利用非局部non-local神经网络实现对每个有效特征数据的加权处理。

S620、基于唇部动作图像对应的加权特征数据，生成所述唇部动作图像对应的唇语内容。

此步骤基于加权后的有效特征数据生成唇语内容时，具体可以利用如下步骤实现：

S6201、计算所有唇部动作图像对应的加权特征数据的和，得到目标特征数据。

S6202、基于所述目标特征数据、与每个目标特征数据匹配的权重、和与每个目标特征数据匹配的偏移量，生成所述唇部动作图像对应的唇语内容。

上述与每个目标特征数据匹配的权重、和与每个目标特征数据匹配的偏移量是预先训练好的或预先根据经验设置好的。这里优选的可以利用多层感知器MLP，基于与每个目标特征数据匹配的权重、和与每个目标特征数据匹配的偏移量，分别对每个目标特征数据进行计算。

本步骤利用与每个目标特征数据匹配的权重、和与每个目标特征数据匹配的偏移量，对每个目标特征数据进行运算后得到目标数据，根据该目标数据可以直接确定唇语动作图像对应的唇语内容。

根据目标数据确定唇语内容时，可以利用分类器实现，分类器中存储目标数据与字符的对应关系。得到目标数据后，分类器基于其存储的上述对应关系，确定目标数据对应的字符，即得到了唇语内容。

上述方法实现了对一张唇语动作图像的唇语识别，在具体应用时，需要对多张唇语动作图像进行唇语识别，在需要对多张唇语动作图像进行唇语识别时，利用上述实施例中的方法依次对每张唇语动作图像进行处理，得到多张唇语动作图像对应的唇语内容。具体地，利用上述实施例中的方法分别确定每张唇部动作图像对应的有效特征数据，之后，对每个有效特征数据进行加权处理，得到每张唇部动作图像对应的加权特征数据，之后，利用MLP对每张唇部动作图像对应的加权特征数据进行处理，得到多张唇部动作图像对应的唇语内容。

上述实施例说明了如何从面部图像中获取唇部动作图像，下面具体说明如何从唇语视频中获取多张面部图像。

在一些实施例中，如图7所示，上述唇语内容识别方法还包括确定面部图像的步骤：

S710、解析获取的唇语视频，得到多张原始面部图像。

这里的唇语视频是人在说话时录制的，是要进行唇语识别的视频。此步骤即是对唇语视频进行解帧，得到多张原始面部图像。

S720、基于所述原始面部图像对应的时间，将所述多张原始面部图像进行排序。

此步骤是将解帧得到的多张原始面部图像按照时间关系进行排序，由于视频本身是按照由早到晚的时间录制的，因此解帧得到的多张原始面部图像也可能是按照时间关系排序好的图像，此时，则不需要执行本步骤。当然，如果解帧得到的多张原始面部图像的顺序被打乱，或是没有按照时间早晚关系存储，那么就需要执行此步骤。

S730、基于所述原始面部图像的数量、所要筛选的面部图像的预定数量、和每张图像在排序得到的序列中的位置，从所述多张原始面部图像筛选得到多张面部图像。

在具体实施时，可以利用如下公式筛选所述多张面部图像：

Stretch_seq[i]＝orig_seq[round((i×orig_len)/M)]

式中，Stretch_seq[i]表示筛选得到的第i张面部图像，M表示所述预订数量，round表示取整的四舍五入运算，orig_len表示原始面部图像的数量，orig_seq表示所述多张原始面部图像排序序列。

上述Stretch_seq表示筛选得到的面部图像序列，orig_seq表示解帧得到的原始面部图像序列。上述i即表示是第几次筛选面部图像，i的最大值为所述预定数量。本步骤通过预定数量获取了预定长度的面部图像序列，预定数量可以根据实际场景的需求灵活设定。例如，预定数量可以取值75。

应当说明的是，解帧得到的原始面部图像的数量可以大于预定数量，也可以小于预定数量，即原始面部图像的数量可以大于所要筛选的面部图像的数量，也可以小于所要筛选的面部图像的数量。利用的上述公式可以实现筛选得到的面部图像的数量大于原始面部图像的数量。

另外，在原始面部图像的数量小于预订数量时，还可以设置一个随机数，基于该随机数复制筛选得到的面部图像中的某幅，使最终得到的面部图像的数量为预定数量。

图8是示出本申请的一些实施例的唇语内容识别装置的框图，该唇语内容识别装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，唇语内容识别可以包括信息获取模块810、数据提取模块820、唇语识别模块830。

信息获取模块810可以用于获取唇部动作图像和所述唇部动作图像对应的音频信息。

数据提取模块820可以用于基于所述唇部动作图像中的有效时空特征数据，和所述音频信息中的有效音频特征数据，确定所述唇部动作图像对应的有效特征数据。

唇语识别模块830可以用于基于所述唇部动作图像对应的有效特征数据，生成所述唇部动作图像对应的唇语内容。

在一些实施例中，所述数据提取模块820包括：

第一数据提取子模块8201，可以用于提取所述唇部动作图像中的时空特征数据；

第一数据处理子模块8202，可以用于根据时空特征数据的位置，将所述时空特征数据划分为N个第一数组，并按照时空特征数据的位置将所述N个第一数组进行排序；其中，N为正整数；

第二数据提取子模块8203，可以用于针对每个第一数组，基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据。

在一些实施例中，所述第二数据提取子模块8203具体可以用于：

在一些实施例中，所述第二数据提取子模块8203具体可以还用于：

在一些实施例中，所述数据提取模块820还包括：

第二数据处理子模块8204，可以用于根据时间关系，将所述音频信息划分为N个第二数组，并按照所述时间关系，将所述N个第二数组进行排序；

第三数据提取子模块8205，可以用于针对每个第二数组，基于该第二数组在排序得到的序列中的位置，和该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据。

在一些实施例中，所述第三数据提取子模块8205具体可以用于：

在一些实施例中，所述数据提取模块820还包括：

数据级联子模块8206，可以用于针对每个第一数组，将该第一数组对应的有效时空特征数据，和与该第一数组具有相同的排序次序的第二数组对应的有效音频特征数据进行级联，得到该第一数组对应的级联特征数据；

有效数据提取子模块8207，可以用于基于所有第一数组对应的级联特征数据，确定所述唇部动作图像对应的有效特征数据。

在一些实施例中，所述唇语识别模块830包括：

加权子模块8301，可以用于基于每个有效特征数据，和与每个有效特征数据匹配的权重，确定唇部动作图像对应的加权特征数据；

识别子模块8302，可以用于基于唇部动作图像对应的加权特征数据，生成所述唇部动作图像对应的唇语内容。

在一些实施例中，所述识别子模块8302具体可以用于：

在一些实施例中，所述信息获取模块810具体可以用于：

如图9所示，在一些实施例中，所述有效数据提取子模块包括：

有效数据提取单元910，可以用于针对每个第一数组，基于该第一数组在排序得到的序列中的位置，和该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据；

数据合并单元920，可以用于将所有第一数组对应的有效特征数据合并，作为所述唇部动作图像对应的有效特征数据。

在一些实施例中，所述有效数据提取单元910具体可以用于：

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

本申请实施例公开了一种电子设备，如图10所示，包括：处理器1001、存储器1002和总线1003，所述存储器1002存储有所述处理器1001可执行的机器可读指令，当电子设备运行时，所述处理器1001与所述存储器1002之间通过总线1003通信。

所述机器可读指令被所述处理器1001执行时执行以下唇语内容识别方法的步骤：

获取唇部动作图像和所述唇部动作图像对应的音频信息；

处理器1001执行提取所述唇部动作图像中的有效时空特征数据的步骤时，具体执行：

提取所述唇部动作图像中的时空特征数据；

处理器1001执行所述基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据时，具体执行：

处理器1001还用于执行提取所述音频信息中的有效音频特征数据的步骤：

处理器1001执行所述基于该第二数组在排序得到的序列中的位置，和该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据时，具体执行：

处理器1001执行所述基于所述唇部动作图像中的有效时空特征数据，和所述音频信息中的有效音频特征数据，确定所述唇部动作图像对应的有效特征数据时，具体执行：

处理器1001执行所述基于所有第一数组对应的级联特征数据，确定所述唇部动作图像对应的有效特征数据时，具体执行：

处理器1001执行所述基于该第一数组在排序得到的序列中的位置，和该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据时，具体执行：

处理器1001执行所述基于所述唇部动作图像对应的有效特征数据，生成所述唇部动作图像对应的唇语内容时，具体执行：

处理器1001执行所述基于唇部动作图像对应的加权特征数据，生成所述唇部动作图像对应的唇语内容时，具体执行：

处理器1001执行所述获取唇部动作图像时，具体执行：

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例中的唇语内容识别方法的步骤。

本申请实施例还提供了一种计算机程序产品，其包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种唇语内容识别方法，其特征在于，包括：

获取唇部动作图像和所述唇部动作图像对应的音频信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括提取所述唇部动作图像中的有效时空特征数据的步骤：

提取所述唇部动作图像中的时空特征数据；

3.根据权利要求2所述的方法，其特征在于，所述基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于该第一数组在排序得到的序列中的位置，和该第一数组中的时空特征数据，确定该第一数组对应的有效时空特征数据，还包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括提取所述音频信息中的有效音频特征数据的步骤：

6.根据权利要求5所述的方法，其特征在于，所述基于该第二数组在排序得到的序列中的位置，和该第二数组中的音频信息，确定该第二数组对应的有效音频特征数据，包括：

7.根据权利要求5所述的方法，其特征在于，所述基于所述唇部动作图像中的有效时空特征数据，和所述音频信息中的有效音频特征数据，确定所述唇部动作图像对应的有效特征数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所有第一数组对应的级联特征数据，确定所述唇部动作图像对应的有效特征数据，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于该第一数组在排序得到的序列中的位置，和该第一数组对应的级联特征数据，确定该第一数组对应的有效特征数据，包括：

10.根据权利要求8所述的方法，其特征在于，所述基于所述唇部动作图像对应的有效特征数据，生成所述唇部动作图像对应的唇语内容，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于唇部动作图像对应的加权特征数据，生成所述唇部动作图像对应的唇语内容，包括：

12.根据权利要求1所述的方法，其特征在于，所述获取唇部动作图像，包括：

13.一种唇语内容识别装置，其特征在于，包括：

14.根据权利要求13所述的装置，其特征在于，所述数据提取模块包括：

15.根据权利要求14所述的装置，其特征在于，所述第二数据提取子模块具体用于：

16.根据权利要求15所述的装置，其特征在于，所述第二数据提取子模块具体还用于：

17.根据权利要求14所述的装置，其特征在于，所述数据提取模块还包括：

18.根据权利要求17所述的装置，其特征在于，所述第三数据提取子模块具体用于：

19.根据权利要求17所述的装置，其特征在于，所述数据提取模块还包括：

20.根据权利要求19所述的装置，其特征在于，所述有效数据提取子模块包括：

21.根据权利要求20所述的装置，其特征在于，所述有效数据提取单元具体用于：

22.根据权利要求20所述的装置，其特征在于，所述唇语识别模块包括：

23.根据权利要求22所述的装置，其特征在于，所述识别子模块具体用于：

24.根据权利要求13所述的装置，其特征在于，所述信息获取模块具体用于：

25.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至12任一所述的唇语内容识别方法的步骤。

26.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至12任一所述的唇语内容识别方法的步骤。