CN107992812A

CN107992812A - 一种唇语识别方法及装置

Info

Publication number: CN107992812A
Application number: CN201711209009.3A
Authority: CN
Inventors: 杨文文; 冯阳; 辛晓哲; 李斌
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-05-04

Abstract

本发明实施例提供一种唇语识别方法和装置，所述方法包括：对输入图像进行处理，获取唇部图像序列；对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；对所述音素单元识别结果进行解码处理，获得唇语识别结果；输出所述唇语识别结果。本发明实施例可以实现对非英文唇语的识别，识别准确性高、实时性强。

Description

一种唇语识别方法及装置

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种唇语识别方法及装置。

背景技术

随着人工智能技术的发展，语音交互成为一种应用广泛的技术。然而，由于语音交互易受环境影响，容易出现噪声干扰，导致语音识别结果不准确。为了改善语音识别不准确的问题，出现了唇语识别技术。唇语识别技术是一种对面部图像进行识别、以获取对应的语言识别结果的技术。现有技术中，存在一种对英文视频数据进行唇语识别，获得英文识别结果的方法。但这种方法只能对英文唇语进行识别，由于中文、日文、韩文等图形语言文字与英文等字母系语言文字的差异，上述方法无法应用到中文等图形语言文字唇语识别上。因此，现有技术无法实现对图形语言文字唇语的识别。

发明内容

本发明实施例提供了一种唇语识别方法及装置，旨在解决现有技术不能实现中文唇语识别的技术问题。

为此，本发明实施例提供如下技术方案：

第一方面，本发明实施例提供了一种唇语识别方法，包括：对输入图像进行处理，获取唇部图像序列；对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；对所述音素单元识别结果进行解码处理，获得唇语识别结果；输出所述唇语识别结果。

第二方面，本发明实施例提供了一种唇语识别装置，包括：检测单元，用于对输入图像进行处理，获取唇部图像序列；唇语识别单元，用于对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；解码单元，用于对所述音素单元识别结果进行解码处理，获得唇语识别结果；输出单元，用于输出所述唇语识别结果。

第三方面，本发明实施例提供了一种用于唇语识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对输入图像进行处理，获取唇部图像序列；对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；对所述音素单元识别结果进行解码处理，获得唇语识别结果；输出所述唇语识别结果。

第四方面，本发明实施例提供了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如第一方面所示的唇语识别方法。

本发明实施例提供的唇语方法及装置，可以对输入图像进行处理，获取唇部图像序列；对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；对所述音素单元识别结果进行解码处理，获得唇语识别结果；输出所述唇语识别结果。本发明实施例可以实现对中文、日文、韩文等图形语言文字的唇语识别，识别准确性高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的唇语识别方法流程图；

图2为本发明另一实施例提供的唇语识别方法流程图；

图3为本发明一实施例提供的唇语识别装置示意图；

图4是根据一示例性实施例示出的一种用于唇语识别的装置的框图；

图5是根据一示例性实施例示出的服务器的框图。

具体实施方式

本发明实施例提供了一种唇语识别方法及装置，可以实现对非英文唇语的识别，识别准确性高、实时性强。

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面将结合附图1至附图2对本发明示例性实施例示出的唇语识别方法进行介绍。

参见图1，为本发明一实施例提供的唇语识别方法流程图。如图1所示，可以包括：

S101，对输入图像进行处理，获取唇部图像序列。

具体实现时，S101可以通过以下步骤实现：

S101A，对所述输入图像进行人脸检测处理。

S101B，若检测到人脸图像，对所述人脸图像进行关键点检测处理，获取唇部图像。

需要说明的是，由于人说话时头部不会剧烈晃动，在多帧人脸图像中，唇部的位置是大致相同的。为了提高唇部图像检测的效率，在对第一帧图像进行关键点检测处理后，可以利用第一帧图像的唇部图像检测结果来进行下一帧图像的唇部图像检测。例如，可以获取前一帧或者前M帧图像的唇部图像检测结果，在所述唇部图像检测结果对应的图像范围内进行关键点检测处理，获得当前图像对应的唇部图像检测结果。其中，M为正整数。前一帧或者前M帧图像的唇部图像检测结果对应的图像范围可以是与该唇部图像检测结果相同的范围，也可以是在此范围上增大一定比例获得的区域范围。由于缩小了检测范围，大大提高了图像处理的效率，提高了唇语识别的实时性。

S101C，利用获取的各唇部图像生成唇部图像序列。

在一些实施方式中，在获取唇部图像序列之后，在对所述唇部图像序列进行唇语识别处理之前，所述方法还包括：对所述唇部图像进行唇部状态检测，获取唇部状态为开口状态的唇部图像序列；所述对所述唇部图像序列进行唇语识别处理包括：对唇部状态为开口状态的唇部图像序列进行唇语识别处理。其中，唇部状态检测的方法具体可以参照图2实施例的介绍。

S102，对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果。

具体实现时，S102可以包括下述步骤：

S102A，对所述唇部图像序列进行三维空间卷积处理，获得所述唇部图像序列的图像特征。

其中，所述对所述唇部图像序列进行三维空间卷积处理，获得所述唇部图像序列的图像特征包括：对所述唇部图像序列进行时间维度卷积处理，获得时间维度卷积处理结果；对所述时间维度卷积处理结果进行平面卷积处理，获得所述唇部图像序列的图像特征。在本发明实施例实现时，取代直接进行三维卷积处理的方式，可以将时间维度的卷积与平面维度的卷积分离，先对所述唇部图像序列进行时间维度卷积处理，获得时间维度卷积处理结果，再进行平面维度的卷积处理，由此得到的图像特征更加准确、丰富。

此外，为了提高图像特征的丰富性，本发明实施例采用残差连接的序列图像特征提取方法。具体地，所述对所述唇部图像序列进行三维空间卷积处理，获得所述唇部图像序列的图像特征包括：对所述唇部图像进行三维空间卷积处理时，采用残差连接处理提取图像特征；所述残差连接处理使得下层图像融合上层图像的特征。举例说明，在对唇部图像进行三维空间卷积处理时，可以将上一卷积层的图像特征与当前卷积层的图像特征融合，作为下一卷积层的输入进行卷积处理。该残差连接处理方式使得下层图像融合了上层图像的特征，使得图像特征更加丰富，从而使得提高最终的唇语识别结果的准确率。

S102B，将所述图像特征输入长短期记忆网络(英文全称为Long Short-TermMemory，英文简称为LSTM)模型，获得音素单元的识别概率结果。

在本发明实施例中，所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系。进一步地，将发音相似的、不同的音素序列合并为同一音素建模单元，由此提高了唇语识别的效率。以目标文字为中文、音素单元为拼音单元、音素序列为拼音序列为例进行说明。举例说明，“chun”即为一个拼音序列，可以与多个汉字对应。拼音序列“chun”与拼音序列“cun”发音相似，可以合并为同一拼音建模单元。需要说明的是，音素建模单元的合并既要满足实时性处理的要求，又要满足一定的准确性要求。音素建模单元的数量过少，可能导致后续的识别结果不准确，也有可能在后续寻求最优路径时耗费更多时间。因此，需要根据经验或者需要设置合适数量的音素建模单元。

在将图像特征输入LSTM模型后，输出结果为该图像特征的音素单元的识别概率结果，即该图像特征与各音素单元的匹配概率。

S102C，将获得的音素单元的识别概率结果输入连接时序分类器(英文全称为Connectionist Temporal Classification，英文简称为CTC)，获得音素单元分类结果。

CTC分类器一般用于序列学习，在得到识别概率后，通过CTC分类器，可以得到音素建模单元的最终输出结果。

S103，对所述音素单元识别结果进行解码处理，获得唇语识别结果。

具体实现时，所述对所述音素单元识别结果进行解码处理，获得唇语识别结果包括：利用集束搜索(beam search)和语言模型(language model)对所述音素单元识别结果进行处理，获得前N个最优路径对应的唇语识别结果。其中，N为正整数。需要说明的是，可以输出最优路径对应的最优唇语识别结果，也可以输出排名靠前的几个唇语识别结果，也可以输出全部结果。当然，处于实时性和计算复杂度的考虑，一般输出最优路径对应的最优唇语识别结果即可。

S104，输出所述唇语识别结果。

本发明实施例可以针对视频图像，输出非英文等图形语言文字的唇语识别结果，准确性高，实时性强。

为了便于本领域技术人员更清楚地理解本发明在具体场景下的实施方式，下面以一个具体示例对本发明实施方式进行介绍。需要说明的是，该具体示例仅为使得本领域技术人员更清楚地了解本发明，但本发明的实施方式不限于该具体示例。

S201，对输入图像进行人脸检测处理。

S202，若检测到人脸图像，对所述人脸图像进行关键点检测处理，获取唇部图像。

S203，对所述唇部图像进行唇部状态检测，获取唇部状态为开口状态的唇部图像序列。

具体实现时，所述对所述唇部图像进行唇部状态检测，获取唇部状态为开口状态的唇部图像序列包括：确定所述唇部图像的多个关键特征点；根据所述多个关键特征点对应的特征值确定所述唇部的状态；所述唇部的状态包括开口状态或者闭口状态。所述关键特征点对应的特征值包括高度值、斜率值或面积值中的至少一种。

在一些实施方式中，所述根据所述多个关键特征点的特征值确定所述唇部的状态包括：确定所述多个关键特征点中的至少两个关键特征点的高度差；若所述高度差大于设定的高度阈值，确定所述唇部的状态为开口状态。

在一些实施方式中，所述根据所述多个关键特征点的特征值确定所述唇部的状态包括：确定所述多个关键特征点中的至少两个关键特征点的高度差作为第一高度差；确定所述至少两个关键特征点在前一帧图像中的高度差作为第二高度差；若所述第一高度差与第二高度差的变化值大于设定的高度变化阈值，确定所述唇部的状态为开口状态。

在一些实施方式中，所述根据所述多个关键特征点的特征值确定所述唇部的状态包括：确定所述多个关键特征点中的至少两个关键特征点构成的直线的斜率值；若所述斜率值大于设定的斜率阈值，确定所述唇部的状态为开口状态。

在一些实施方式中，所述根据所述多个关键特征点的特征值确定所述唇部的状态包括：所述根据所述多个关键特征点的特征值确定所述唇部的状态包括：确定所述多个关键特征点中的至少三个特征点构成的图形的面积值；若所述面积值大于设定的面积阈值，确定所述唇部的状态为开口状态。

在一些实施方式中，所述方法还包括：获取当前唇部图像的前一帧唇部图像；确定当前唇部图像与前一帧唇部图像的帧间差；所述根据所述多个关键特征点对应的特征值确定所述唇部的状态包括：根据所述多个关键特征点对应的特征值以及所述帧间差确定所述唇部的状态。

在一些实施方式中，所述方法还包括：提取所述唇部的方向梯度直方图HOG特征，根据所述HOG特征确定所述唇部状态的分类结果；所述根据所述多个关键特征点对应的特征值确定所述唇部的状态包括：根据所述多个关键特征点对应的特征值、所述分类结果、唇部图像的帧间差中的至少两个确定唇部状态。

S204，对所述唇部图像序列进行时间维度卷积处理，获得时间维度卷积处理结果。

S205，对所述时间维度卷积处理结果进行平面卷积处理，获得所述唇部图像序列的图像特征。

S206，将所述图像特征输入长短期记忆网络LSTM模型，获得音素单元的识别概率结果。

S207，将获得的音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果。

S208，利用集束搜索和语言模型对所述音素单元识别结果进行处理，获得最优路径对应的唇语识别结果。

S209，输出所述唇语识别结果。

下面对本发明实施例提供的方法对应的设备进行详细地介绍。

参见图3，为本发明一实施例提供的唇语识别装置示意图。

一种唇语识别装置300，包括：

检测单元301，用于对输入图像进行处理，获取唇部图像序列。其中，所述检测单元301的具体实现可以参照图1所示实施例的步骤101而实现。

唇语识别单元302，用于对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系。其中，所述唇语识别单元302的具体实现可以参照图1所示实施例的步骤102而实现。

解码单元303，用于对所述音素单元识别结果进行解码处理，获得唇语识别结果。其中，所述解码单元303的具体实现可以参照图1所示实施例的步骤103而实现。

输出单元304，用于输出所述唇语识别结果。其中，所述输出单元304的具体实现可以参照图1所示实施例的步骤104而实现。

在一些实施方式中，所述唇语识别单元包括：

图像特征提取单元，用于对所述唇部图像序列进行三维空间卷积处理，获得所述唇部图像序列的图像特征；

LSTM模型识别单元，用于将所述图像特征输入长短期记忆网络LSTM模型，获得音素单元的识别概率结果；

CTC分类单元，用于将获得的音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果。

在一些实施方式中，所述图像特征提取单元包括：

时间卷积单元，用于对所述唇部图像序列进行时间维度卷积处理，获得时间维度卷积处理结果；

平面卷积单元，用于对所述时间维度卷积处理结果进行平面卷积处理，获得所述唇部图像序列的图像特征。

在一些实施方式中，所述图像特征提取单元具体用于：

对所述唇部图像进行三维空间卷积处理时，采用残差连接处理提取图像特征；所述残差连接处理使得下层图像融合上层图像的特征。

在一些实施方式中，所述检测单元包括：

人脸检测单元，用于对所述输入图像进行人脸检测处理；

关键点检测单元，用于若检测到人脸图像，对所述人脸图像进行关键点检测处理，获取唇部图像；

序列生成单元，用于利用获取的各唇部图像生成唇部图像序列。

在一些实施方式中，所述关键点检测单元具体用于：

获取前M帧图像的唇部图像检测结果，在所述唇部图像检测结果对应的图像范围内进行关键点检测处理，获得当前图像对应的唇部图像检测结果；M为正整数。

在一些实施方式中，所述解码单元具体用于：

利用集束搜索和语言模型对所述音素单元识别结果进行处理，获得最优路径对应的唇语识别结果。

在一些实施方式中，所述装置还包括：

唇部状态检测单元，用于在获取唇部图像序列之后，在对所述唇部图像序列进行唇语识别处理之前，对所述唇部图像进行唇部状态检测，获取唇部状态为开口状态的唇部图像序列；

所述唇语识别单元具体用于：

对唇部状态为开口状态的唇部图像序列进行唇语识别处理。

其中，本发明装置各单元或模块的设置可以参照图1至图2所示的方法而实现，在此不赘述。

参见图4，为根据一示例性实施例示出的一种用于唇语识别装置的框图。参见图4，为根据一示例性实施例示出的一种用于唇语识别装置的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理部件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件414经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件414还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

具体地，本发明实施例提供了一种唇语识别装置400，包括有存储器404，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器404中，且经配置以由一个或者一个以上处理器420执行所述一个或者一个以上程序包含用于进行以下操作的指令：对输入图像进行处理，获取唇部图像序列；对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；对所述音素单元识别结果进行解码处理，获得唇语识别结果；输出所述唇语识别结果。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：对所述唇部图像序列进行三维空间卷积处理，获得所述唇部图像序列的图像特征；将所述图像特征输入长短期记忆网络LSTM模型，获得音素单元的识别概率结果；将获得的音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：对所述唇部图像序列进行时间维度卷积处理，获得时间维度卷积处理结果；对所述时间维度卷积处理结果进行平面卷积处理，获得所述唇部图像序列的图像特征。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：对所述唇部图像进行三维空间卷积处理时，采用残差连接处理提取图像特征；所述残差连接处理使得下层图像融合上层图像的特征。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：对所述输入图像进行人脸检测处理；若检测到人脸图像，对所述人脸图像进行关键点检测处理，获取唇部图像；利用获取的各唇部图像生成唇部图像序列。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取前M帧图像的唇部图像检测结果，在所述唇部图像检测结果对应的图像范围内进行关键点检测处理，获得当前图像对应的唇部图像检测结果；M为正整数。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：对所述唇部图像进行唇部状态检测，获取唇部状态为开口状态的唇部图像序列；对唇部状态为开口状态的唇部图像序列进行唇语识别处理。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：利用集束搜索和语言模型对所述音素单元识别结果进行处理，获得最优路径对应的唇语识别结果。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种机器可读介质，例如该机器可读介质可以为非临时性计算机可读存储介质，当所述介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种唇语识别方法，所述方法包括：对输入图像进行处理，获取唇部图像序列；对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；对所述音素单元识别结果进行解码处理，获得唇语识别结果；输出所述唇语识别结果。需要说明的是，上述介质中的指令能够执行的方法可以参照图1至图2所示实施例进行。

图5是本发明实施例中服务器的结构示意图。该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，一个或一个以上键盘556，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种唇语识别方法，其特征在于，包括：

对输入图像进行处理，获取唇部图像序列；

对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；

对所述音素单元识别结果进行解码处理，获得唇语识别结果；

输出所述唇语识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果包括：

对所述唇部图像序列进行三维空间卷积处理，获得所述唇部图像序列的图像特征；

将所述图像特征输入长短期记忆网络LSTM模型，获得音素单元的识别概率结果；

将获得的音素单元的识别概率结果输入连接时序分类器CTC，获得音素单元分类结果。

3.根据权利要求2所述的方法，其特征在于，所述对所述唇部图像序列进行三维空间卷积处理，获得所述唇部图像序列的图像特征包括：

对所述唇部图像序列进行时间维度卷积处理，获得时间维度卷积处理结果；

对所述时间维度卷积处理结果进行平面卷积处理，获得所述唇部图像序列的图像特征。

4.根据权利要求2或3所述的方法，其特征在于，所述对所述唇部图像序列进行三维空间卷积处理，获得所述唇部图像序列的图像特征包括：

5.根据权利要求1所述的方法，其特征在于，所述对输入图像进行处理，获取唇部图像序列包括：

对所述输入图像进行人脸检测处理；

若检测到人脸图像，对所述人脸图像进行关键点检测处理，获取唇部图像；

利用获取的各唇部图像生成唇部图像序列。

6.根据权利要求5所述的方法，其特征在于，所述对所述人脸图像进行关键点检测处理，获取唇部图像包括：

7.根据权利要求1所述的方法，其特征在于，在获取唇部图像序列之后，在对所述唇部图像序列进行唇语识别处理之前，所述方法还包括：

对所述唇部图像进行唇部状态检测，获取唇部状态为开口状态的唇部图像序列；

所述对所述唇部图像序列进行唇语识别处理包括：

对唇部状态为开口状态的唇部图像序列进行唇语识别处理。

8.一种唇语识别装置，其特征在于，包括：

检测单元，用于对输入图像进行处理，获取唇部图像序列；

唇语识别单元，用于对所述唇部图像序列进行唇语识别处理，获得与所述唇部图像序列对应的音素单元识别结果；所述音素单元对应一个或多个音素序列，所述音素序列与目标文字具有对应关系；

解码单元，用于对所述音素单元识别结果进行解码处理，获得唇语识别结果；

输出单元，用于输出所述唇语识别结果。

9.一种用于唇语识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对输入图像进行处理，获取唇部图像序列；

输出所述唇语识别结果。

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的唇语识别方法。