CN104504088A - 一种用于唇语识别的唇形模型库构建方法 - Google Patents

一种用于唇语识别的唇形模型库构建方法 Download PDF

Info

Publication number
CN104504088A
CN104504088A CN201410829118.5A CN201410829118A CN104504088A CN 104504088 A CN104504088 A CN 104504088A CN 201410829118 A CN201410829118 A CN 201410829118A CN 104504088 A CN104504088 A CN 104504088A
Authority
CN
China
Prior art keywords
lip
sound
shape model
model library
construction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410829118.5A
Other languages
English (en)
Inventor
陈拥权
李建中
郑荣稳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI COSWIT INFORMATION TECHNOLOGY Co Ltd
Original Assignee
ANHUI COSWIT INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI COSWIT INFORMATION TECHNOLOGY Co Ltd filed Critical ANHUI COSWIT INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410829118.5A priority Critical patent/CN104504088A/zh
Publication of CN104504088A publication Critical patent/CN104504088A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Abstract

本发明针对现有唇形模型库构建效率低、全面性难以保障的问题,提供一种用于唇语识别的唇形模型库构建方法,由计算机对唇部图像及说话声音进行自动分析,提取唇形的特征值、生成说话声音对应文字,形成训练数据库,之后,利用机器学习技术对训练数据库进行学习,构建唇形模型库。该技术方案大幅提高了唇形模型库的构建效率。

Description

一种用于唇语识别的唇形模型库构建方法
技术领域
本发明涉及人机交互模型库构建技术领域,具体涉及一种用于唇语识别的唇形模型库构建方法。
背景技术
人工智能技术的发展,人们已经开始将计算机视频分析技术用于唇语识别,以解决生产车间等噪音场所的现场口头生产指令下达问题。在进行唇语识别过程中,需要用到唇形模型库,其准确性、全面性将直接决定唇语识别的效率。现有技术多通过人工进行唇形模型的逐个建立,不仅工作量大,而且其全面性难以保证。
为解决上述问题,本发明提供一种用于唇语识别的唇形模型库构建方法,可有效降低人工工作量,并提高唇形模型库的全面性。
发明内容
针对上述问题,本发明通过综合引用机器学习技术、语音识别技术和图像分析技术,由计算机对大量有声唇部视频进行学习并自动构建唇形模型库的方式,提供一种用于唇语识别的唇形模型库构建方法,从而有效提升唇形模型库的构建效率。
本发明提供的具体技术方案是:
一种用于唇语识别的唇形模型库构建方法,其特征在于,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库;
机器学习及唇形模型库构建,由计算机根据机器学习技术对所述训练数据库进行学习,构建唇形模型库。
优选地:所述唇形模型库中的每个唇形模型,分别对应与之相应的文字。
优选地:所述目标人员的数量应不少于2人。
有益效果:本发明提供的一种用于唇语识别的唇形模型库构建方法,由计算机对唇部图像及说话声音进行自动分析,提取唇形的特征值、生成说话声音对应文字,形成训练数据库,之后,利用机器学习技术对训练数据库进行学习,构建唇形模型库。该技术方案为唇形模型库的构建提供了一种高效的技术手段,大幅提高了唇形模型库的构建效率。
附图说明
图1所示是本发明工作流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,首先通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音。在进行唇部视频图像及说话声音采集时,需保证两者的同步性,避免因声音延后等情况给后续分析带来误差。然后,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得说话声音对应的文字信息。将所述唇形特征值与所述文字信息一一对应,生成训练数据库,再由计算机根据机器学习技术对所述训练数据库进行学习,构建唇形模型库。
唇形模型库中的每个唇形模型,分别对应与之相应的文字,即由说话声音获得的文字。
对于机器学习,其训练效果与所采用的训练数据库的数据量多少有关,数据量越大,训练结果越准确。因此,为了获得更好的唇形模型库,应采集尽量多的有声视频图像,以形成数据量更为丰富的训练数据库。
需要说明的是,以上具体实施方式,是用于帮助理解本发明的方法及其核心思想;对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (3)

1.一种用于唇语识别的唇形模型库构建方法,其特征在于,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库;
机器学习及唇形模型库构建,由计算机根据机器学习技术对所述训练数据库进行学习,构建唇形模型库。
2.如权利要求1所述的方法,其特征在于,所述唇形模型库中的每个唇形模型,分别对应与之相应的文字。
3.如权利要求1所述的方法,其特征在于,所述目标人员的数量应不少于2人。
CN201410829118.5A 2014-12-26 2014-12-26 一种用于唇语识别的唇形模型库构建方法 Pending CN104504088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410829118.5A CN104504088A (zh) 2014-12-26 2014-12-26 一种用于唇语识别的唇形模型库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410829118.5A CN104504088A (zh) 2014-12-26 2014-12-26 一种用于唇语识别的唇形模型库构建方法

Publications (1)

Publication Number Publication Date
CN104504088A true CN104504088A (zh) 2015-04-08

Family

ID=52945486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410829118.5A Pending CN104504088A (zh) 2014-12-26 2014-12-26 一种用于唇语识别的唇形模型库构建方法

Country Status (1)

Country Link
CN (1) CN104504088A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108052858A (zh) * 2017-10-30 2018-05-18 珠海格力电器股份有限公司 抽油烟机的控制方法和抽油烟机
WO2018113649A1 (zh) * 2016-12-21 2018-06-28 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN108664842A (zh) * 2017-03-27 2018-10-16 Tcl集团股份有限公司 一种唇动识别模型的构建方法及系统
CN108831472A (zh) * 2018-06-27 2018-11-16 中山大学肿瘤防治中心 一种基于唇语识别的人工智能发声系统及发声方法
CN109389085A (zh) * 2018-10-09 2019-02-26 清华大学 基于参数化曲线的唇语识别模型训练方法及装置
CN109543812A (zh) * 2017-09-22 2019-03-29 吴杰 一种特定真人行为快速建模方法
CN110444053A (zh) * 2019-07-04 2019-11-12 卓尔智联(武汉)研究院有限公司 语言学习方法、计算机装置及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN102637071A (zh) * 2011-02-09 2012-08-15 英华达(上海)电子有限公司 应用于多媒体输入设备的多媒体输入方法
EP2784734A1 (en) * 2013-03-28 2014-10-01 Wal-Mart Stores, Inc. System and method for high accuracy product classification with limited supervision

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN102637071A (zh) * 2011-02-09 2012-08-15 英华达(上海)电子有限公司 应用于多媒体输入设备的多媒体输入方法
EP2784734A1 (en) * 2013-03-28 2014-10-01 Wal-Mart Stores, Inc. System and method for high accuracy product classification with limited supervision

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
WO2018113649A1 (zh) * 2016-12-21 2018-06-28 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN108664842A (zh) * 2017-03-27 2018-10-16 Tcl集团股份有限公司 一种唇动识别模型的构建方法及系统
CN108664842B (zh) * 2017-03-27 2020-12-18 Tcl科技集团股份有限公司 一种唇动识别模型的构建方法及系统
CN109543812A (zh) * 2017-09-22 2019-03-29 吴杰 一种特定真人行为快速建模方法
CN108052858A (zh) * 2017-10-30 2018-05-18 珠海格力电器股份有限公司 抽油烟机的控制方法和抽油烟机
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108831472A (zh) * 2018-06-27 2018-11-16 中山大学肿瘤防治中心 一种基于唇语识别的人工智能发声系统及发声方法
CN109389085A (zh) * 2018-10-09 2019-02-26 清华大学 基于参数化曲线的唇语识别模型训练方法及装置
CN109389085B (zh) * 2018-10-09 2020-09-25 清华大学 基于参数化曲线的唇语识别模型训练方法及装置
CN110444053A (zh) * 2019-07-04 2019-11-12 卓尔智联(武汉)研究院有限公司 语言学习方法、计算机装置及可读存储介质
CN110444053B (zh) * 2019-07-04 2021-11-30 卓尔智联(武汉)研究院有限公司 语言学习方法、计算机装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN104484656A (zh) 基于深度学习的唇语识别唇形模型库构建方法
CN104504088A (zh) 一种用于唇语识别的唇形模型库构建方法
CN104537358A (zh) 基于深度学习的唇语识别唇形训练数据库的生成方法
US20200234689A1 (en) Audio file processing method, electronic device, and storage medium
CN111325817A (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
JP2019523927A5 (zh)
CN105825191A (zh) 基于人脸多属性信息的性别识别方法、系统及拍摄终端
CN110610698B (zh) 一种语音标注方法及装置
CN110110104A (zh) 一种自动生成虚拟三维空间内房屋讲解的方法及装置
CN104484494A (zh) 基于建筑bim模型的结构电算自动导荷载方法
Fan et al. An Interactive platform for low-cost 3D building modeling from VGI data using convolutional neural network
CN105677716A (zh) 一种计算机数据采集处理分析系统
CN110516749A (zh) 模型训练方法、视频处理方法、装置、介质和计算设备
CN111046148A (zh) 智能交互系统及智能客服机器人
CN111368800B (zh) 手势识别方法及装置
CN110175548A (zh) 基于注意力机制和通道信息的遥感图像建筑物提取方法
CN117315102A (zh) 虚拟主播处理方法、装置、计算设备及存储介质
CN103916677B (zh) 一种广告视频识别方法和装置
CN110852376B (zh) 用于识别生物种类的方法及系统
CN202502737U (zh) 一种视音频信息的智能编辑系统
CN115393501A (zh) 信息处理方法及装置
CN204883593U (zh) 一种结合语音识别及语音测评技术的扩增实境系统
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.
CN106713899A (zh) 基于全息成像和语音识别的交互三维立体影像系统及方法
Li et al. Classification of the qilou (arcade building) using a robust image processing framework based on the Faster R-CNN with ResNet50

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150408