CN104484656A - 基于深度学习的唇语识别唇形模型库构建方法 - Google Patents

基于深度学习的唇语识别唇形模型库构建方法 Download PDF

Info

Publication number
CN104484656A
CN104484656A CN201410829417.9A CN201410829417A CN104484656A CN 104484656 A CN104484656 A CN 104484656A CN 201410829417 A CN201410829417 A CN 201410829417A CN 104484656 A CN104484656 A CN 104484656A
Authority
CN
China
Prior art keywords
lip
deep learning
degree
sound
construction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410829417.9A
Other languages
English (en)
Inventor
陈拥权
李建中
郑荣稳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Coswit Information Technology Co ltd
Original Assignee
Anhui Coswit Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Coswit Information Technology Co ltd filed Critical Anhui Coswit Information Technology Co ltd
Priority to CN201410829417.9A priority Critical patent/CN104484656A/zh
Publication of CN104484656A publication Critical patent/CN104484656A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明公开了一种基于深度学习的唇语识别唇形模型库构建方法,由计算机对唇部图像及说话声音进行自动分析,提取唇形的特征值、生成说话声音对应文字,形成训练数据库,之后,利用深度学习技术对训练数据库进行学习,构建唇形模型库。该技术方案大幅提高了唇形模型库的构建效率。

Description

基于深度学习的唇语识别唇形模型库构建方法
技术领域
本发明涉及人机交互模型库构建技术领域,具体涉及基于深度学习的唇语识别唇形模型库构建方法。
背景技术
人工智能技术的发展,人们已经开始将计算机视频分析技术用于唇语识别,以解决生产车间等噪音场所的现场口头生产指令下达问题。在进行唇语识别过程中,需要用到唇形模型库,其准确性、全面性将直接决定唇语识别的效率。现有技术多通过人工进行唇形模型的逐个建立,不仅工作量大,而且其全面性难以保证。
为解决上述问题,本发明提供一种基于深度学习的唇语识别唇形模型库构建方法,可有效降低人工工作量,并提高唇形模型库的全面性。
发明内容
针对上述问题,本发明通过综合引用深度学习技术、语音识别技术和图像分析技术,由计算机对大量有声唇部视频进行学习并自动构建唇形模型库的方式,提供基于深度学习的唇语识别唇形模型库构建方法,从而有效提升唇形模型库的构建效率。
本发明提供的具体技术方案是:
基于深度学习的唇语识别唇形模型库构建方法,其特征在于,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库;
深度学习及唇形模型库构建,由计算机根据深度学习技术对所述训练数据库进行学习,构建唇形模型库。
所述唇形模型库中的每个唇形模型,分别对应与之相应的文字。
所述目标人员的数量应不少于2人。
有益效果:本发明提供的一种基于深度学习的唇语识别唇形模型库构建方法,由计算机对唇部图像及说话声音进行自动分析,提取唇形的特征值、生成说话声音对应文字,形成训练数据库,之后,利用深度学习技术对训练数据库进行学习,构建唇形模型库。该技术方案为唇形模型库的构建提供了一种高效的技术手段,大幅提高了唇形模型库的构建效率。
附图说明
图1所示是本发明工作流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,首先通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音。在进行唇部视频图像及说话声音采集时,需保证两者的同步性,避免因声音延后等情况给后续分析带来误差。然后,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得说话声音对应的文字信息。将所述唇形特征值与所述文字信息一一对应,生成训练数据库,再由计算机根据深度学习技术对所述训练数据库进行学习,构建唇形模型库。
唇形模型库中的每个唇形模型,分别对应与之相应的文字,即由说话声音获得的文字。
对于深度学习,其训练效果与所采用的训练数据库的数据量多少有关,数据量越大,训练结果越准确。因此,为了获得更好的唇形模型库,应采集尽量多的有声视频图像,以形成数据量更为丰富的训练数据库。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.基于深度学习的唇语识别唇形模型库构建方法,其特征在于,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库;
深度学习及唇形模型库构建,由计算机根据深度学习技术对所述训练数据库进行学习,构建唇形模型库。
2.如权利要求1所述的方法,其特征在于,所述唇形模型库中的每个唇形模型,分别对应与之相应的文字。
3.如权利要求1所述的方法,其特征在于,所述目标人员的数量应不少于2人。
CN201410829417.9A 2014-12-26 2014-12-26 基于深度学习的唇语识别唇形模型库构建方法 Pending CN104484656A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410829417.9A CN104484656A (zh) 2014-12-26 2014-12-26 基于深度学习的唇语识别唇形模型库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410829417.9A CN104484656A (zh) 2014-12-26 2014-12-26 基于深度学习的唇语识别唇形模型库构建方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201510018956.9A Division CN104537358A (zh) 2014-12-26 2014-12-26 基于深度学习的唇语识别唇形训练数据库的生成方法

Publications (1)

Publication Number Publication Date
CN104484656A true CN104484656A (zh) 2015-04-01

Family

ID=52759197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410829417.9A Pending CN104484656A (zh) 2014-12-26 2014-12-26 基于深度学习的唇语识别唇形模型库构建方法

Country Status (1)

Country Link
CN (1) CN104484656A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426723A (zh) * 2015-11-20 2016-03-23 北京得意音通技术有限责任公司 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及系统
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN105931658A (zh) * 2016-04-22 2016-09-07 成都涂鸦科技有限公司 一种自适应场景的音乐播放方法
CN107832976A (zh) * 2017-12-01 2018-03-23 合肥亚慕信息科技有限公司 一种基于感知分析的课堂教学质量分析系统
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108197572A (zh) * 2018-01-02 2018-06-22 京东方科技集团股份有限公司 一种唇语识别方法和移动终端
CN108520741A (zh) * 2018-04-12 2018-09-11 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN108537207A (zh) * 2018-04-24 2018-09-14 Oppo广东移动通信有限公司 唇语识别方法、装置、存储介质及移动终端
CN108831472A (zh) * 2018-06-27 2018-11-16 中山大学肿瘤防治中心 一种基于唇语识别的人工智能发声系统及发声方法
CN109389085A (zh) * 2018-10-09 2019-02-26 清华大学 基于参数化曲线的唇语识别模型训练方法及装置
TWI661363B (zh) * 2017-08-05 2019-06-01 鴻海精密工業股份有限公司 智慧型機器人及人機交互方法
CN110210310A (zh) * 2019-04-30 2019-09-06 北京搜狗科技发展有限公司 一种视频处理方法、装置和用于视频处理的装置
CN110444053A (zh) * 2019-07-04 2019-11-12 卓尔智联(武汉)研究院有限公司 语言学习方法、计算机装置及可读存储介质
WO2019237708A1 (zh) * 2018-06-15 2019-12-19 山东大学 基于深度学习的人际交互肢体语言自动生成方法及系统
CN111176430A (zh) * 2018-11-13 2020-05-19 奇酷互联网络科技(深圳)有限公司 一种智能终端的交互方法、智能终端及存储介质
CN112788278A (zh) * 2020-12-30 2021-05-11 北京百度网讯科技有限公司 视频流的生成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN101111886A (zh) * 2005-01-28 2008-01-23 京瓷株式会社 发声内容识别装置与发声内容识别方法
CN102169642A (zh) * 2011-04-06 2011-08-31 李一波 具有智能纠错功能的交互式虚拟教师系统
CN102637071A (zh) * 2011-02-09 2012-08-15 英华达(上海)电子有限公司 应用于多媒体输入设备的多媒体输入方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111886A (zh) * 2005-01-28 2008-01-23 京瓷株式会社 发声内容识别装置与发声内容识别方法
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN102637071A (zh) * 2011-02-09 2012-08-15 英华达(上海)电子有限公司 应用于多媒体输入设备的多媒体输入方法
CN102169642A (zh) * 2011-04-06 2011-08-31 李一波 具有智能纠错功能的交互式虚拟教师系统

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426723A (zh) * 2015-11-20 2016-03-23 北京得意音通技术有限责任公司 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及系统
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN105931658A (zh) * 2016-04-22 2016-09-07 成都涂鸦科技有限公司 一种自适应场景的音乐播放方法
TWI661363B (zh) * 2017-08-05 2019-06-01 鴻海精密工業股份有限公司 智慧型機器人及人機交互方法
US10482886B2 (en) 2017-08-05 2019-11-19 Fu Tai Hua Industry (Shenzhen) Co., Ltd. Interactive robot and human-robot interaction method
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN107832976A (zh) * 2017-12-01 2018-03-23 合肥亚慕信息科技有限公司 一种基于感知分析的课堂教学质量分析系统
CN107832976B (zh) * 2017-12-01 2021-12-28 合肥亚慕信息科技有限公司 一种基于感知分析的课堂教学质量分析系统
CN108197572A (zh) * 2018-01-02 2018-06-22 京东方科技集团股份有限公司 一种唇语识别方法和移动终端
CN108197572B (zh) * 2018-01-02 2020-06-12 京东方科技集团股份有限公司 一种唇语识别方法和移动终端
US11495231B2 (en) 2018-01-02 2022-11-08 Beijing Boe Technology Development Co., Ltd. Lip language recognition method and mobile terminal using sound and silent modes
CN108520741A (zh) * 2018-04-12 2018-09-11 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
US11508366B2 (en) 2018-04-12 2022-11-22 Iflytek Co., Ltd. Whispering voice recovery method, apparatus and device, and readable storage medium
CN108537207A (zh) * 2018-04-24 2018-09-14 Oppo广东移动通信有限公司 唇语识别方法、装置、存储介质及移动终端
WO2019237708A1 (zh) * 2018-06-15 2019-12-19 山东大学 基于深度学习的人际交互肢体语言自动生成方法及系统
CN108831472A (zh) * 2018-06-27 2018-11-16 中山大学肿瘤防治中心 一种基于唇语识别的人工智能发声系统及发声方法
CN109389085A (zh) * 2018-10-09 2019-02-26 清华大学 基于参数化曲线的唇语识别模型训练方法及装置
CN109389085B (zh) * 2018-10-09 2020-09-25 清华大学 基于参数化曲线的唇语识别模型训练方法及装置
CN111176430A (zh) * 2018-11-13 2020-05-19 奇酷互联网络科技(深圳)有限公司 一种智能终端的交互方法、智能终端及存储介质
CN111176430B (zh) * 2018-11-13 2023-10-13 奇酷互联网络科技(深圳)有限公司 一种智能终端的交互方法、智能终端及存储介质
CN110210310A (zh) * 2019-04-30 2019-09-06 北京搜狗科技发展有限公司 一种视频处理方法、装置和用于视频处理的装置
CN110444053A (zh) * 2019-07-04 2019-11-12 卓尔智联(武汉)研究院有限公司 语言学习方法、计算机装置及可读存储介质
CN110444053B (zh) * 2019-07-04 2021-11-30 卓尔智联(武汉)研究院有限公司 语言学习方法、计算机装置及可读存储介质
CN112788278B (zh) * 2020-12-30 2023-04-07 北京百度网讯科技有限公司 视频流的生成方法、装置、设备及存储介质
CN112788278A (zh) * 2020-12-30 2021-05-11 北京百度网讯科技有限公司 视频流的生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104484656A (zh) 基于深度学习的唇语识别唇形模型库构建方法
CN104537358A (zh) 基于深度学习的唇语识别唇形训练数据库的生成方法
CN104504088A (zh) 一种用于唇语识别的唇形模型库构建方法
US10692480B2 (en) System and method of reading environment sound enhancement based on image processing and semantic analysis
JP2019523927A5 (zh)
CN111325817A (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN109064532B (zh) 动画角色自动口型生成方法及装置
CN113365147B (zh) 基于音乐卡点的视频剪辑方法、装置、设备及存储介质
WO2020228326A1 (zh) 一种可视化三维扫描建模方法、系统、设备及存储介质
JP2015529354A (ja) 顔認識のための方法および装置
CN105825191A (zh) 基于人脸多属性信息的性别识别方法、系统及拍摄终端
CN109063713A (zh) 一种基于构造特征图像深度学习的木材鉴别方法和系统
WO2019127102A1 (zh) 信息处理方法、装置、云处理设备以及计算机程序产品
WO2019076120A1 (zh) 一种图像处理的方法、装置、存储介质及电子装置
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
CN111368800B (zh) 手势识别方法及装置
CN110852376B (zh) 用于识别生物种类的方法及系统
CN117315102A (zh) 虚拟主播处理方法、装置、计算设备及存储介质
CN104298975B (zh) 一种分布式图像识别方法
CN115393501A (zh) 信息处理方法及装置
Wang et al. Automatic 3D thermal zones creation for building energy simulation of existing residential buildings
CN106557564A (zh) 一种对象数据分析方法及装置
CN104461057A (zh) 基于唇形图像识别的文字输入方法
CN104484042A (zh) 一种基于机器学习的唇形图像识别文字输入方法
CN116884077B (zh) 一种人脸图像类别确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150401

WD01 Invention patent application deemed withdrawn after publication