CN104484656A

CN104484656A - 基于深度学习的唇语识别唇形模型库构建方法

Info

Publication number: CN104484656A
Application number: CN201410829417.9A
Authority: CN
Inventors: 陈拥权; 李建中; 郑荣稳
Original assignee: Anhui Coswit Information Technology Co ltd
Current assignee: Anhui Coswit Information Technology Co ltd
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2015-04-01

Abstract

本发明公开了一种基于深度学习的唇语识别唇形模型库构建方法，由计算机对唇部图像及说话声音进行自动分析，提取唇形的特征值、生成说话声音对应文字，形成训练数据库，之后，利用深度学习技术对训练数据库进行学习，构建唇形模型库。该技术方案大幅提高了唇形模型库的构建效率。

Description

基于深度学习的唇语识别唇形模型库构建方法

技术领域

本发明涉及人机交互模型库构建技术领域，具体涉及基于深度学习的唇语识别唇形模型库构建方法。

背景技术

人工智能技术的发展，人们已经开始将计算机视频分析技术用于唇语识别，以解决生产车间等噪音场所的现场口头生产指令下达问题。在进行唇语识别过程中，需要用到唇形模型库，其准确性、全面性将直接决定唇语识别的效率。现有技术多通过人工进行唇形模型的逐个建立，不仅工作量大，而且其全面性难以保证。

为解决上述问题，本发明提供一种基于深度学习的唇语识别唇形模型库构建方法，可有效降低人工工作量，并提高唇形模型库的全面性。

发明内容

针对上述问题，本发明通过综合引用深度学习技术、语音识别技术和图像分析技术，由计算机对大量有声唇部视频进行学习并自动构建唇形模型库的方式，提供基于深度学习的唇语识别唇形模型库构建方法，从而有效提升唇形模型库的构建效率。

本发明提供的具体技术方案是：

基于深度学习的唇语识别唇形模型库构建方法，其特征在于，该方法包括以下步骤：

有声视频图像采集，通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音；

音频与视频分析，由计算机根据图像分析技术对所述唇部视频图像进行分析，获取唇形特征值，由计算机根据语音识别技术对所述说话声音进行分析，获得文字信息；

训练数据库形成，将所述唇形特征值与所述文字信息一一对应，生成训练数据库；

深度学习及唇形模型库构建，由计算机根据深度学习技术对所述训练数据库进行学习，构建唇形模型库。

所述唇形模型库中的每个唇形模型，分别对应与之相应的文字。

所述目标人员的数量应不少于2人。

有益效果：本发明提供的一种基于深度学习的唇语识别唇形模型库构建方法，由计算机对唇部图像及说话声音进行自动分析，提取唇形的特征值、生成说话声音对应文字，形成训练数据库，之后，利用深度学习技术对训练数据库进行学习，构建唇形模型库。该技术方案为唇形模型库的构建提供了一种高效的技术手段，大幅提高了唇形模型库的构建效率。

附图说明

图1所示是本发明工作流程图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示，首先通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音。在进行唇部视频图像及说话声音采集时，需保证两者的同步性，避免因声音延后等情况给后续分析带来误差。然后，由计算机根据图像分析技术对所述唇部视频图像进行分析，获取唇形特征值，由计算机根据语音识别技术对所述说话声音进行分析，获得说话声音对应的文字信息。将所述唇形特征值与所述文字信息一一对应，生成训练数据库，再由计算机根据深度学习技术对所述训练数据库进行学习，构建唇形模型库。

唇形模型库中的每个唇形模型，分别对应与之相应的文字，即由说话声音获得的文字。

对于深度学习，其训练效果与所采用的训练数据库的数据量多少有关，数据量越大，训练结果越准确。因此，为了获得更好的唇形模型库，应采集尽量多的有声视频图像，以形成数据量更为丰富的训练数据库。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度学习的唇语识别唇形模型库构建方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述唇形模型库中的每个唇形模型，分别对应与之相应的文字。

3.如权利要求1所述的方法，其特征在于，所述目标人员的数量应不少于2人。