CN110427809B

CN110427809B - 基于深度学习的唇语识别方法、装置、电子设备及介质

Info

Publication number: CN110427809B
Application number: CN201910544094.1A
Authority: CN
Inventors: 董洪涛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2023-07-25
Anticipated expiration: 2039-06-21
Also published as: WO2020252922A1; CN110427809A

Abstract

本发明提供一种基于深度学习的唇语识别方法、装置、电子设备及介质。所述基于深度学习的唇语识别方法能够当接收到唇语识别指令时，获取待识别视频，拆分所述待识别视频，得到至少一个子视频，将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果，进一步将所述至少一个识别结果输入到配置输入法模型中进行转化，输出至少一段转化后的文字，拼接所述至少一段转化后的文字，得到识别结果，效果更加直观，通过基于深度学习的唇语识别方法，实现智能决策，降低了人力成本，而且耗时缩短，提高了用户的体验。

Description

基于深度学习的唇语识别方法、装置、电子设备及介质

技术领域

本发明涉及智能决策技术领域，尤其涉及一种基于深度学习的唇语识别方法、装置、电子设备及介质。

背景技术

唇语，是靠看别人说话时嘴唇的动作来解读别人说的话，是一种很难的技巧，需要大量的练习，有一些听力障碍者会使用这种技巧来与他人交流。

在唇语识别领域，通常需要专业的唇语识别人员进行人工识别，再将识别结果记录下来以供参考，人力成本消耗较高，且耗时较长。而随着人工智能技术的飞速发展，各个领域都在逐步减少人为操作的过程，并更加倾向于自动化方式。

发明内容

鉴于以上内容，有必要提供一种基于深度学习的唇语识别方法、装置、电子设备及介质，从而实现唇语的自动识别，不仅有效节约人力成本，而且相较于人为识别，识别效率更高，用户体验效果更佳。

一种基于深度学习的唇语识别方法，所述方法包括：

当接收到唇语识别指令时，获取待识别视频；

拆分所述待识别视频，得到至少一个子视频；

将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果，其中，所述唇语识别模型是基于3D卷积神经网络算法训练长短期记忆网络而得到，用于根据所述至少一个子视频输出所述至少一个子结果；

将所述至少一个识别结果输入到配置输入法模型中进行转化，输出至少一段转化后的文字；

拼接所述至少一段转化后的文字，得到识别结果。

根据本发明优选实施例，在将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果前，所述方法还包括：

当接收到训练指令时，获取样本视频；

对所述样本视频中的每个视频按照预设帧数进行拆分，得到每个视频的至少一个视频序列；

确定所述至少一个视频序列中每个视频序列的样本图片及标签；

采用3D卷积神经网络算法，以所述标签为基准拟合训练所述样本图片，得到每张样本图片的唇部特征信息；

将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征；

利用CTC Loss函数切割所述时序特征，得到唇语识别模型。

在本发明的至少一个实施例中，所述样本视频中包括：

正在讲话的目标人物，且所述目标人物的说话内容能够被确定，所述目标人物的唇部特征信息能够被获取。

根据本发明优选实施例，确定所述至少一个视频序列中每个视频序列的标签包括以下一种或者多种方式的组合：

对每个视频序列进行语音识别，得到语音识别结果，将所述语音识别结果转化为拼音及/或字母，作为每个视频序列的标签；及/或

提取每个视频序列的字幕，将所述字幕转化为拼音及/或字母，作为每个视频序列的标签；及/或

接收指定人员上传的标签，作为每个视频序列的标签；

其中，所述标签的词之间以空格分割。

根据本发明优选实施例，所述将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征包括：

基于长短期记忆网络算法，将每个视频序列向每个视频序列的标签做拟合训练；

获取拟合后每个视频序列间的差异值；

当所述差异值小于配置值时，输出所述时序特征。

根据本发明优选实施例，所述利用CTC Loss函数切割所述时序特征，得到唇语识别模型包括：

获取所述唇语识别模型中的损失函数值；

当所述损失函数值满足配置条件时，停止训练。

根据本发明优选实施例，所述方法还包括：

实时监控指定环境的环境音；

当所述环境音大于或者等于预设值时，获取所述指定环境的视频；

将所述视频输入到所述唇语识别模型中，得到识别结果；

将所述识别结果发送至指定终端设备。

一种基于深度学习的唇语识别装置，所述装置包括：

获取单元，用于当接收到唇语识别指令时，获取待识别视频；

拆分单元，用于拆分所述待识别视频，得到至少一个子视频；

输入单元，用于将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果，其中，所述唇语识别模型是基于3D卷积神经网络算法训练长短期记忆网络而得到，用于根据所述至少一个子视频输出所述至少一个子结果；

转化单元，用于将所述至少一个识别结果输入到配置输入法模型中进行转化，输出至少一段转化后的文字；

拼接单元，用于拼接所述至少一段转化后的文字，得到识别结果。

根据本发明优选实施例，所述获取单元，还用于在将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果前，当接收到训练指令时，获取样本视频；

所述装置还包括：

所述拆分单元，还用于对所述样本视频中的每个视频按照预设帧数进行拆分，得到每个视频的至少一个视频序列；

确定单元，用于确定所述至少一个视频序列中每个视频序列的样本图片及标签；

训练单元，用于采用3D卷积神经网络算法，以所述标签为基准拟合训练所述样本图片，得到每张样本图片的唇部特征信息；

所述训练单元，还用于将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征；

切割单元，用于利用CTC Loss函数切割所述时序特征，得到唇语识别模型。

在本发明的至少一个实施例中，所述样本视频中包括：

根据本发明优选实施例，所述确定单元确定所述至少一个视频序列中每个视频序列的标签包括以下一种或者多种方式的组合：

接收指定人员上传的标签，作为每个视频序列的标签；

其中，所述标签的词之间以空格分割。

根据本发明优选实施例，所述训练单元将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征包括：

获取拟合后每个视频序列间的差异值；

当所述差异值小于配置值时，输出所述时序特征。

根据本发明优选实施例，所述切割单元具体用于：

获取所述唇语识别模型中的损失函数值；

当所述损失函数值满足配置条件时，停止训练。

根据本发明优选实施例，所述装置还包括：

监控单元，用于实时监控指定环境的环境音；

所述获取单元，还用于当所述环境音大于或者等于预设值时，获取所述指定环境的视频；

所述输入单元，还用于将所述视频输入到所述唇语识别模型中，得到识别结果；

发送单元，用于将所述识别结果发送至指定终端设备。

一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现所述基于深度学习的唇语识别方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述基于深度学习的唇语识别方法。

由以上技术方案可以看出，本发明能够当接收到唇语识别指令时，获取待识别视频，拆分所述待识别视频，得到至少一个子视频，将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果，进一步将所述至少一个识别结果输入到配置输入法模型中进行转化，输出至少一段转化后的文字，拼接所述至少一段转化后的文字，得到识别结果，效果更加直观，通过基于深度学习的唇语识别方法，实现智能决策，降低了人力成本，而且耗时缩短，提高了用户的体验。

附图说明

图1是本发明基于深度学习的唇语识别方法的较佳实施例的流程图。

图2是本发明基于深度学习的唇语识别装置的较佳实施例的功能模块图。

图3是本发明实现基于深度学习的唇语识别方法的较佳实施例的电子设备的结构示意图。

主要元件符号说明

电子设备	1
		存储器	12
处理器	13
		基于深度学习的唇语识别装置	11
获取单元	110
		拆分单元	111
确定单元	112
		训练单元	113
切割单元	114
		转化单元	115
输入单元	116
		监控单元	117
发送单元	118
		增广单元	119
拼接单元	120

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，是本发明基于深度学习的唇语识别方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

所述基于深度学习的唇语识别方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(DigitalSignal Processor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

S10，当接收到唇语识别指令时，获取待识别视频。

在本发明的至少一个实施例中，所述唇语识别指令由用户触发，本发明不限制。

在本发明的至少一个实施例中，所述待识别视频包括需要进行唇语识别的视频。

S11，拆分所述待识别视频，得到至少一个子视频。

在本发明的至少一个实施例中，所述电子设备按照时间顺序对所述待识别视频进行拆分，得到所述至少一个子视频，以满足唇语识别模型对于数据格式的要求。

S12，将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果。

其中，所述唇语识别模型是基于3D卷积神经网络算法训练长短期记忆网络而得到，用于根据所述至少一个子视频输出所述至少一个子结果。

在本发明的至少一个实施例中，在将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果前，所述方法还包括：

所述电子设备训练所述唇语识别模型。

具体地，所述电子设备训练所述唇语识别模型包括：

当接收到训练指令时，所述电子设备获取样本视频，对所述样本视频中的每个视频按照预设帧数进行拆分，得到每个视频的至少一个视频序列，进一步地，所述电子设备确定所述至少一个视频序列中每个视频序列的样本图片及标签，采用3D卷积神经网络算法，以所述标签为基准拟合训练所述样本图片，得到每张样本图片的唇部特征信息，将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征，更进一步地，所述电子设备利用CTC Loss函数切割所述时序特征，得到唇语识别模型。

在本发明的至少一个实施例中，所述样本视频中包括：

例如：所述样本视频可以是主持人播报新闻的视频、脱口秀主持人进行脱口秀表演的视频等。

在本发明的至少一个实施例中，所述电子设备接收所述训练指令包括，但不限于以下一种或者多种的组合：

(1)所述电子设备接收到用户触发配置按键的信号，以确定接收到所述训练指令。

具体地，所述配置按键是预先配置的，用于触发所述训练指令。所述配置按键可以是虚拟按键，也可以是实体按键。

(2)所述电子设备接收到配置语音信号，以确定接收到所述训练指令。

具体地，所述配置语音信号是预先配置的，用于触发所述训练指令。

进一步地，所述电子设备接收用户输入的语音，并对所述语音进行语音识别，以确定所述语音是否与所述配置语音一致，并且，当所述语音与所述配置语音一致时，所述电子设备确定接收到所述训练指令。

在本发明的至少一个实施例中，所述获取样本视频包括，但不限于以下一种或者多种方式的组合：

(1)所述电子设备采用网络爬虫技术获取所述样本视频。

由于训练样本的数量越多，训练精度越高，因此，所述电子设备采用网络爬虫技术，可以获取到大量视频作为所述样本视频，有效保证了模型的训练精度。

(2)所述电子设备从指定服务器获取所述样本视频。

具体地，所述指定服务器可以包括，但不限于：公安机关的服务器、心里医疗机构的服务器、语言教育机构的服务器等，一方面保证了权威性，另一方面保证了合法性。

(3)所述电子设备获取上传的视频作为所述样本视频。

当要识别的语言属于特定语种范围(例如：东北话、四川话、粤语等)时，所述电子设备接收用户上传的视频作为所述样本视频，以确保训练样本的可用性，同时也保证了训练样本的针对性，训练效果更好。

在本发明的至少一个实施例中，所述样本视频的格式包括，但不限于以下一种或者多种的组合：

mp4格式、AVI格式(Audio Video Interleaved，音频视频交错格式)等。

在本发明的至少一个实施例中，所述方法还包括：

所述电子设备采用数据增强技术对所述样本视频进行增广处理。

具体地，只要能够起到数据增强的作用，本发明对采取的数据增强技术不限制。

通过上述实施方式，所述电子设备能够在原有样本的基础上进行数据增强，以确保训练样本充足，从而达到更好的训练效果。

在本发明的至少一个实施例中，所述电子设备对所述样本视频中的每个视频进行拆分，得到每个视频的至少一个视频序列包括：

所述电子设备按照时间顺序对所述样本视频中的每个视频进行拆分，得到每个视频的至少一个视频序列。

例如：所述电子设备将每个视频的第1帧到第75帧视频作为一个视频序列，并将每个视频的第76帧到第150帧视频作为另一个视频序列，以此类推，得到每个视频的至少一个视频序列。

可以理解的是，由于75帧长度的视频对应的时间为3秒左右，因此以75帧长度的视频训练，在时间上刚好符合人类讲话的规律性，既可以抓取足够的细节，又避免浪费多余的时间，训练效果更好，且更为准确。

在本发明的至少一个实施例中，所述电子设备确定所述至少一个视频序列中每个视频序列的样本图片包括：

从每个视频序列中获取嘴部细节完整且清晰的图片作为所述样本图片。

可以理解的是，由于视频序列中人物的动态性，因此每个视频序列中所包含的样本图片数量不完全一致。

在本发明的至少一个实施例中，所述电子设备确定所述至少一个视频序列中每个视频序列的标签包括，但不限于以下一种或者多种方式的组合：

(1)所述电子设备对每个视频序列进行语音识别，得到语音识别结果，将所述语音识别结果转化为拼音及/或字母，作为每个视频序列的标签。

通过上述实施方式，所述电子设备可以结合语音识别技术自动确定每个视频序列的标签，无需人为干预。

(2)所述电子设备提取每个视频序列的字幕，将所述字幕转化为拼音及/或字母，作为每个视频序列的标签。

通过上述实施方式，所述电子设备可以结合文字识别技术自动确定每个视频序列的标签，无需人为干预。

(3)所述电子设备接收指定人员上传的标签，作为每个视频序列的标签。

具体地，所述指定人员可以包括，但不限于：专业的唇语识别人员、语言能力好的任何人等，本发明不限制。

通过上述实施方式，当技术上无法实现自动识别时，所述电子设备可以借助专家的力量，训练出所述唇语识别模型后，即可达到一劳永逸的效果。

其中，所述标签的词之间以空格分割。

可以理解的是，针对于不同的语种，所述标签的类型也不同，可以是拼音及/或字母等，本发明不限制。

在本发明的至少一个实施例中，所述唇部特征信息包括，但不限于：口红色号、牙齿、嘴部动作特征等。

可以理解的是，鉴于人类说话时嘴部动作是持续的，也就是说，人类在发音的过程中，多个嘴部动作间在时间上是上下关联且有规律的，单从一张样本图片上，是无法得到一个发音的，因此，本实施方式中采用所述3D卷积神经网络算法，能够在卷积核中加入时间维度，进而得到在考虑了时间因素的所述唇部特征信息。

在本发明的至少一个实施例中，所述时序特征表征了所述唇部特征信息与所述标签的差异性。

在本发明的至少一个实施例中，所述电子设备将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征包括：

基于长短期记忆网络算法，将每个视频序列向每个视频序列的标签做拟合训练，进一步获取拟合后每个视频序列间的差异值，当所述差异值小于配置值时，输出所述时序特征。

通过上述实施方式，所述电子设备采用所述长短期记忆网络算法(Long Short-Term Memory，LSTM)，能够处理和预测时间序列中间隔和延迟相对较长的重要事件，也就是说，所述电子设备能够训练得到各帧数据在时间上的变化规律，进一步加强了训练出的模型的时序性。

进一步地，所述电子设备基于每个视频序列的标签，结合所述长短期记忆网络算法对所述唇部特征信息进行拟合训练，上述回归式训练方式，能够不断拟合标签，以提高训练出的模型的精度。

在本发明的至少一个实施例中，所述CTC Loss函数能够实现文字的切割，进而识别出单个的词语。

在本发明的至少一个实施例中，所述电子设备利用CTC Loss函数切割所述时序特征，得到唇语识别模型包括：

所述电子设备获取所述唇语识别模型中的损失函数值，当所述损失函数值满足配置条件时，停止训练。

具体地，所述损失函数满足配置条件包括：

所述损失函数的取值小于或者等于预设阈值。

其中，所述预设阈值越小，说明所述唇语识别模型的训练效果越好，因此，当满足所述配置条件时，可以停止训练，并得到满足要求的所述唇语识别模型。

S13，将所述至少一个识别结果输入到配置输入法模型中进行转化，输出至少一段转化后的文字。

可以理解的是，通过所述唇语识别模型，得到的识别结果是拼音或者单词的形式，因此，将所述至少一个识别结果输入到配置输入法模型中进行转化，能够智能识别出对应的文字(如汉字等)，效果更加直观。

S14，拼接所述至少一段转化后的文字，得到识别结果。

由于所述至少一段转化后的文字是间断的，因此，所述电子设备要拼接所述至少一段转化后的文字，才能输出所述识别结果。

在本发明的至少一个实施例中，所述方法还包括：

所述电子设备实时监控指定环境的环境音，当所述环境音大于或者等于预设值时，获取所述指定环境的视频，并将所述视频输入到所述唇语识别模型中，得到识别结果，进一步地，所述电子设备将所述识别结果发送至指定终端设备。

具体地，所述指定环境可以包括，但不限于：银行、火车站、机场等容易出现公共安全问题的场所。

进一步地，所述预设值可以进行自定义配置，本发明不限制。

可以理解的是，当所述环境音较高时，则无法听清视频中人物的说话声，因此，以所述唇语识别模型进行识别，能够辅助判断视频中是否存在危险，有利于提高公共场合的安全性。

如图2所示，是本发明基于深度学习的唇语识别装置的较佳实施例的功能模块图。所述基于深度学习的唇语识别装置11包括获取单元110、拆分单元111、确定单元112、训练单元113、切割单元114、转化单元115、输入单元116、监控单元117、发送单元118、增广单元119以及拼接单元120。本发明所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机程序段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

当接收到唇语识别指令时，获取单元110获取待识别视频。

拆分单元111拆分所述待识别视频，得到至少一个子视频。

在本发明的至少一个实施例中，所述拆分单元111按照时间顺序对所述待识别视频进行拆分，得到所述至少一个子视频，以满足唇语识别模型对于数据格式的要求。

输入单元116将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果。

在本发明的至少一个实施例中，在将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果前，训练所述唇语识别模型，具体包括：

当接收到训练指令时，所述获取单元110获取样本视频，所述拆分单元111对所述样本视频中的每个视频按照预设帧数进行拆分，得到每个视频的至少一个视频序列，进一步地，确定单元112确定所述至少一个视频序列中每个视频序列的样本图片及标签，所述训练单元113采用3D卷积神经网络算法，以所述标签为基准拟合训练所述样本图片，得到每张样本图片的唇部特征信息，并将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征，更进一步地，切割单元114利用CTC Loss函数切割所述时序特征，得到唇语识别模型。

在本发明的至少一个实施例中，所述样本视频中包括：

在本发明的至少一个实施例中，所述获取单元110接收所述训练指令包括，但不限于以下一种或者多种的组合：

(1)所述获取单元110接收到用户触发配置按键的信号，以确定接收到所述训练指令。

(2)所述获取单元110接收到配置语音信号，以确定接收到所述训练指令。

进一步地，所述获取单元110接收用户输入的语音，并对所述语音进行语音识别，以确定所述语音是否与所述配置语音一致，并且，当所述语音与所述配置语音一致时，所述获取单元110确定接收到所述训练指令。

在本发明的至少一个实施例中，所述获取单元110获取样本视频包括，但不限于以下一种或者多种方式的组合：

(1)所述获取单元110采用网络爬虫技术获取所述样本视频。

由于训练样本的数量越多，训练精度越高，因此，所述获取单元110采用网络爬虫技术，可以获取到大量视频作为所述样本视频，有效保证了模型的训练精度。

(2)所述获取单元110从指定服务器获取所述样本视频。

(3)所述获取单元110获取上传的视频作为所述样本视频。

当要识别的语言属于特定语种范围(例如：东北话、四川话、粤语等)时，所述获取单元110接收用户上传的视频作为所述样本视频，以确保训练样本的可用性，同时也保证了训练样本的针对性，训练效果更好。

mp4格式、AVI格式(Audio Video Interleaved，音频视频交错格式)等。

在本发明的至少一个实施例中，所述方法还包括：

增广单元119采用数据增强技术对所述样本视频进行增广处理。

通过上述实施方式，所述增广单元119能够在原有样本的基础上进行数据增强，以确保训练样本充足，从而达到更好的训练效果。

在本发明的至少一个实施例中，所述拆分单元111对所述样本视频中的每个视频进行拆分，得到每个视频的至少一个视频序列包括：

所述拆分单元111按照时间顺序对所述样本视频中的每个视频进行拆分，得到每个视频的至少一个视频序列。

例如：所述拆分单元111将每个视频的第1帧到第75帧视频作为一个视频序列，并将每个视频的第76帧到第150帧视频作为另一个视频序列，以此类推，得到每个视频的至少一个视频序列。

在本发明的至少一个实施例中，所述确定单元112确定所述至少一个视频序列中每个视频序列的样本图片包括：

在本发明的至少一个实施例中，所述确定单元112确定所述至少一个视频序列中每个视频序列的标签包括，但不限于以下一种或者多种方式的组合：

(1)所述确定单元112对每个视频序列进行语音识别，得到语音识别结果，将所述语音识别结果转化为拼音及/或字母，作为每个视频序列的标签。

通过上述实施方式，所述确定单元112可以结合语音识别技术自动确定每个视频序列的标签，无需人为干预。

(2)所述确定单元112提取每个视频序列的字幕，将所述字幕转化为拼音及/或字母，作为每个视频序列的标签。

通过上述实施方式，所述确定单元112可以结合文字识别技术自动确定每个视频序列的标签，无需人为干预。

(3)所述确定单元112接收指定人员上传的标签，作为每个视频序列的标签。

通过上述实施方式，当技术上无法实现自动识别时，所述确定单元112可以借助专家的力量，训练出所述唇语识别模型后，即可达到一劳永逸的效果。

其中，所述标签的词之间以空格分割。

可以理解的是，鉴于人类说话时嘴部动作是持续的，也就是说，人类在发音的过程中，多个嘴部动作间在时间上是上下关联且有规律的，单从一张样本图片上，是无法得到一个发音的，因此，本实施方式中采用所述3D卷积神经网络算法，所述训练单元113能够在卷积核中加入时间维度，进而得到在考虑了时间因素的所述唇部特征信息。

在本发明的至少一个实施例中，所述训练单元113将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征包括：

所述训练单元113基于长短期记忆网络算法，将每个视频序列向每个视频序列的标签做拟合训练，进一步获取拟合后每个视频序列间的差异值，当所述差异值小于配置值时，输出所述时序特征。

通过上述实施方式，所述训练单元113采用所述长短期记忆网络算法(LongShort-Term Memory，LSTM)，能够处理和预测时间序列中间隔和延迟相对较长的重要事件，也就是说，所述训练单元113能够训练得到各帧数据在时间上的变化规律，进一步加强了训练出的模型的时序性。

进一步地，所述训练单元113基于每个视频序列的标签，结合所述长短期记忆网络算法对所述唇部特征信息进行拟合训练，上述回归式训练方式，能够不断拟合标签，以提高训练出的模型的精度。

在本发明的至少一个实施例中，所述切割单元114利用CTC Loss函数切割所述时序特征，得到唇语识别模型包括：

所述切割单元114获取所述唇语识别模型中的损失函数值，当所述损失函数值满足配置条件时，停止训练。

具体地，所述损失函数满足配置条件包括：

所述损失函数的取值小于或者等于预设阈值。

转化单元115将所述至少一个识别结果输入到配置输入法模型中进行转化，输出至少一段转化后的文字。

可以理解的是，所述切割单元114通过所述唇语识别模型，得到的识别结果是拼音或者单词的形式，因此，将所述至少一个识别结果输入到配置输入法模型中进行转化，能够智能识别出对应的文字(如汉字等)，效果更加直观。

拼接单元120拼接所述至少一段转化后的文字，得到识别结果。

由于所述至少一段转化后的文字是间断的，因此，所述拼接单元120要拼接所述至少一段转化后的文字，才能输出所述识别结果。

在本发明的至少一个实施例中，所述方法还包括：

监控单元117实时监控指定环境的环境音，当所述环境音大于或者等于预设值时，所述获取单元110获取所述指定环境的视频，进一步地，所述输入单元116将所述视频输入到所述唇语识别模型中，得到识别结果，更进一步地，发送单元118将所述识别结果发送至指定终端设备。

如图3所示，是本发明实现基于深度学习的唇语识别方法的较佳实施例的电子设备的结构示意图。

所述电子设备1是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述电子设备1还可以是但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(InternetProtocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备1还可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。

所述电子设备1所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

在本发明的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如基于深度学习的唇语识别程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

所述处理器13可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于深度学习的唇语识别方法实施例中的步骤，例如图1所示的步骤S10、S11、S12、S13、S14。

或者，所述处理器13执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如：当接收到唇语识别指令时，获取待识别视频；拆分所述待识别视频，得到至少一个子视频；将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果，其中，所述唇语识别模型是基于3D卷积神经网络算法训练长短期记忆网络而得到，用于根据所述至少一个子视频输出所述至少一个子结果；将所述至少一个识别结果输入到配置输入法模型中进行转化，输出至少一段转化后的文字；拼接所述至少一段转化后的文字，得到识别结果。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割成获取单元110、拆分单元111、确定单元112、训练单元113、切割单元114、转化单元115、输入单元116、监控单元117、发送单元118、增广单元119以及拼接单元120。

所述存储器12可用于存储所述计算机程序和/或模块，所述处理器13通过运行或执行存储在所述存储器12内的计算机程序和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器12可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是集成电路中没有实物形式的具有存储功能的电路，如RAM(Random-AccessMemory，随机存取存储器)、FIFO(First In First Out，)等。或者，所述存储器12也可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

结合图1，所述电子设备1中的所述存储器12存储多个指令以实现一种基于深度学习的唇语识别方法，所述处理器13可执行所述多个指令从而实现：当接收到唇语识别指令时，获取待识别视频；拆分所述待识别视频，得到至少一个子视频；将所述至少一个子视频输入到预先训练的唇语识别模型中，得到至少一个子结果，其中，所述唇语识别模型是基于3D卷积神经网络算法训练长短期记忆网络而得到，用于根据所述至少一个子视频输出所述至少一个子结果；将所述至少一个识别结果输入到配置输入法模型中进行转化，输出至少一段转化后的文字；拼接所述至少一段转化后的文字，得到识别结果。

根据本发明优选实施例，所述处理器13执行多个指令包括：

当接收到训练指令时，获取样本视频；

利用CTC Loss函数切割所述时序特征，得到唇语识别模型。

根据本发明优选实施例，所述样本视频中包括：

根据本发明优选实施例，所述处理器13执行多个指令包括：

接收指定人员上传的标签，作为每个视频序列的标签；

其中，所述标签的词之间以空格分割。

根据本发明优选实施例，所述处理器13还执行多个指令包括：

获取拟合后每个视频序列间的差异值；

当所述差异值小于配置值时，输出所述时序特征。

获取所述唇语识别模型中的损失函数值；

当所述损失函数值满足配置条件时，停止训练。

实时监控指定环境的环境音；

将所述视频输入到所述唇语识别模型中，得到识别结果；

将所述识别结果发送至指定终端设备。

具体地，所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于深度学习的唇语识别方法，其特征在于，所述方法包括：

当接收到唇语识别指令时，获取待识别视频；

拆分所述待识别视频，得到至少一个子视频；

当接收到训练指令时，获取样本视频，包括：接收用户输入的语音，并对所述语音进行语音识别，以确定所述语音与预选配置的配置语音是否一致，在所述语音与所述配置语音一致时，确定接收到所述训练指令，其中，所述样本视频包括特定语种范围对应的视频；

对所述样本视频中的每个视频按照预设帧数进行拆分，得到每个视频的至少一个视频序列；确定所述至少一个视频序列中每个视频序列的样本图片及标签；采用3D卷积神经网络算法，以所述标签为基准拟合训练所述样本图片，得到每张样本图片的唇部特征信息；将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征，包括：基于所述长短期记忆网络算法，将每个视频序列向每个视频序列的标签做拟合训练，获取拟合后每个视频序列间的差异值，当所述差异值小于配置值时，输出所述时序特征；利用CTC Loss函数切割所述时序特征，得到唇语识别模型；

将所述至少一个子视频输入到所述唇语识别模型中，得到至少一个子结果，其中，所述唇语识别模型用于根据所述至少一个子视频输出所述至少一个子结果；

拼接所述至少一段转化后的文字，得到识别结果。

2.如权利要求1所述的基于深度学习的唇语识别方法，其特征在于，所述样本视频中包括：

3.如权利要求1所述的基于深度学习的唇语识别方法，其特征在于，确定所述至少一个视频序列中每个视频序列的标签包括以下一种或者多种方式的组合：

接收指定人员上传的标签，作为每个视频序列的标签；

其中，所述标签的词之间以空格分割。

4.如权利要求1所述的基于深度学习的唇语识别方法，其特征在于，所述利用CTC Loss函数切割所述时序特征，得到唇语识别模型包括：

获取所述唇语识别模型中的损失函数值；

当所述损失函数值满足配置条件时，停止训练。

5.如权利要求1所述的基于深度学习的唇语识别方法，其特征在于，所述方法还包括：

实时监控指定环境的环境音；

将所述视频输入到所述唇语识别模型中，得到识别结果；

将所述识别结果发送至指定终端设备。

6.一种基于深度学习的唇语识别装置，其特征在于，所述装置包括：

所述获取单元，还用于当接收到训练指令时，获取样本视频，包括：接收用户输入的语音，并对所述语音进行语音识别，以确定所述语音与预选配置的配置语音是否一致，在所述语音与所述配置语音一致时，确定接收到所述训练指令，其中，所述样本视频包括特定语种范围对应的视频；

训练单元，用于采用3D卷积神经网络算法，以所述标签为基准拟合训练所述样本图片，得到每张样本图片的唇部特征信息，并将所述唇部特征信息输入到长短期记忆网络进行训练，得到时序特征，包括：基于所述长短期记忆网络算法，将每个视频序列向每个视频序列的标签做拟合训练，获取拟合后每个视频序列间的差异值，当所述差异值小于配置值时，输出所述时序特征；

切割单元，用于利用CTC Loss函数切割所述时序特征，得到唇语识别模型；

输入单元，用于将所述至少一个子视频输入到所述唇语识别模型中，得到至少一个子结果，其中，所述唇语识别模型用于根据所述至少一个子视频输出所述至少一个子结果；

7.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如权利要求1至5中任意一项所述的基于深度学习的唇语识别方法。

8.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至5中任意一项所述的基于深度学习的唇语识别方法。