CN104504088A - 一种用于唇语识别的唇形模型库构建方法 - Google Patents
一种用于唇语识别的唇形模型库构建方法 Download PDFInfo
- Publication number
- CN104504088A CN104504088A CN201410829118.5A CN201410829118A CN104504088A CN 104504088 A CN104504088 A CN 104504088A CN 201410829118 A CN201410829118 A CN 201410829118A CN 104504088 A CN104504088 A CN 104504088A
- Authority
- CN
- China
- Prior art keywords
- lip
- sound
- shape model
- model library
- construction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Abstract
本发明针对现有唇形模型库构建效率低、全面性难以保障的问题,提供一种用于唇语识别的唇形模型库构建方法,由计算机对唇部图像及说话声音进行自动分析,提取唇形的特征值、生成说话声音对应文字,形成训练数据库,之后,利用机器学习技术对训练数据库进行学习,构建唇形模型库。该技术方案大幅提高了唇形模型库的构建效率。
Description
技术领域
本发明涉及人机交互模型库构建技术领域,具体涉及一种用于唇语识别的唇形模型库构建方法。
背景技术
人工智能技术的发展,人们已经开始将计算机视频分析技术用于唇语识别,以解决生产车间等噪音场所的现场口头生产指令下达问题。在进行唇语识别过程中,需要用到唇形模型库,其准确性、全面性将直接决定唇语识别的效率。现有技术多通过人工进行唇形模型的逐个建立,不仅工作量大,而且其全面性难以保证。
为解决上述问题,本发明提供一种用于唇语识别的唇形模型库构建方法,可有效降低人工工作量,并提高唇形模型库的全面性。
发明内容
针对上述问题,本发明通过综合引用机器学习技术、语音识别技术和图像分析技术,由计算机对大量有声唇部视频进行学习并自动构建唇形模型库的方式,提供一种用于唇语识别的唇形模型库构建方法,从而有效提升唇形模型库的构建效率。
本发明提供的具体技术方案是:
一种用于唇语识别的唇形模型库构建方法,其特征在于,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库;
机器学习及唇形模型库构建,由计算机根据机器学习技术对所述训练数据库进行学习,构建唇形模型库。
优选地:所述唇形模型库中的每个唇形模型,分别对应与之相应的文字。
优选地:所述目标人员的数量应不少于2人。
有益效果:本发明提供的一种用于唇语识别的唇形模型库构建方法,由计算机对唇部图像及说话声音进行自动分析,提取唇形的特征值、生成说话声音对应文字,形成训练数据库,之后,利用机器学习技术对训练数据库进行学习,构建唇形模型库。该技术方案为唇形模型库的构建提供了一种高效的技术手段,大幅提高了唇形模型库的构建效率。
附图说明
图1所示是本发明工作流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,首先通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音。在进行唇部视频图像及说话声音采集时,需保证两者的同步性,避免因声音延后等情况给后续分析带来误差。然后,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得说话声音对应的文字信息。将所述唇形特征值与所述文字信息一一对应,生成训练数据库,再由计算机根据机器学习技术对所述训练数据库进行学习,构建唇形模型库。
唇形模型库中的每个唇形模型,分别对应与之相应的文字,即由说话声音获得的文字。
对于机器学习,其训练效果与所采用的训练数据库的数据量多少有关,数据量越大,训练结果越准确。因此,为了获得更好的唇形模型库,应采集尽量多的有声视频图像,以形成数据量更为丰富的训练数据库。
需要说明的是,以上具体实施方式,是用于帮助理解本发明的方法及其核心思想;对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (3)
1.一种用于唇语识别的唇形模型库构建方法,其特征在于,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库;
机器学习及唇形模型库构建,由计算机根据机器学习技术对所述训练数据库进行学习,构建唇形模型库。
2.如权利要求1所述的方法,其特征在于,所述唇形模型库中的每个唇形模型,分别对应与之相应的文字。
3.如权利要求1所述的方法,其特征在于,所述目标人员的数量应不少于2人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410829118.5A CN104504088A (zh) | 2014-12-26 | 2014-12-26 | 一种用于唇语识别的唇形模型库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410829118.5A CN104504088A (zh) | 2014-12-26 | 2014-12-26 | 一种用于唇语识别的唇形模型库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104504088A true CN104504088A (zh) | 2015-04-08 |
Family
ID=52945486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410829118.5A Pending CN104504088A (zh) | 2014-12-26 | 2014-12-26 | 一种用于唇语识别的唇形模型库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104504088A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108052858A (zh) * | 2017-10-30 | 2018-05-18 | 珠海格力电器股份有限公司 | 抽油烟机的控制方法和抽油烟机 |
WO2018113649A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互系统与方法 |
CN108664842A (zh) * | 2017-03-27 | 2018-10-16 | Tcl集团股份有限公司 | 一种唇动识别模型的构建方法及系统 |
CN108831472A (zh) * | 2018-06-27 | 2018-11-16 | 中山大学肿瘤防治中心 | 一种基于唇语识别的人工智能发声系统及发声方法 |
CN109389085A (zh) * | 2018-10-09 | 2019-02-26 | 清华大学 | 基于参数化曲线的唇语识别模型训练方法及装置 |
CN109543812A (zh) * | 2017-09-22 | 2019-03-29 | 吴杰 | 一种特定真人行为快速建模方法 |
CN110444053A (zh) * | 2019-07-04 | 2019-11-12 | 卓尔智联(武汉)研究院有限公司 | 语言学习方法、计算机装置及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102637071A (zh) * | 2011-02-09 | 2012-08-15 | 英华达(上海)电子有限公司 | 应用于多媒体输入设备的多媒体输入方法 |
EP2784734A1 (en) * | 2013-03-28 | 2014-10-01 | Wal-Mart Stores, Inc. | System and method for high accuracy product classification with limited supervision |
-
2014
- 2014-12-26 CN CN201410829118.5A patent/CN104504088A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102637071A (zh) * | 2011-02-09 | 2012-08-15 | 英华达(上海)电子有限公司 | 应用于多媒体输入设备的多媒体输入方法 |
EP2784734A1 (en) * | 2013-03-28 | 2014-10-01 | Wal-Mart Stores, Inc. | System and method for high accuracy product classification with limited supervision |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
WO2018113649A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互系统与方法 |
CN108664842A (zh) * | 2017-03-27 | 2018-10-16 | Tcl集团股份有限公司 | 一种唇动识别模型的构建方法及系统 |
CN108664842B (zh) * | 2017-03-27 | 2020-12-18 | Tcl科技集团股份有限公司 | 一种唇动识别模型的构建方法及系统 |
CN109543812A (zh) * | 2017-09-22 | 2019-03-29 | 吴杰 | 一种特定真人行为快速建模方法 |
CN108052858A (zh) * | 2017-10-30 | 2018-05-18 | 珠海格力电器股份有限公司 | 抽油烟机的控制方法和抽油烟机 |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108831472A (zh) * | 2018-06-27 | 2018-11-16 | 中山大学肿瘤防治中心 | 一种基于唇语识别的人工智能发声系统及发声方法 |
CN109389085A (zh) * | 2018-10-09 | 2019-02-26 | 清华大学 | 基于参数化曲线的唇语识别模型训练方法及装置 |
CN109389085B (zh) * | 2018-10-09 | 2020-09-25 | 清华大学 | 基于参数化曲线的唇语识别模型训练方法及装置 |
CN110444053A (zh) * | 2019-07-04 | 2019-11-12 | 卓尔智联(武汉)研究院有限公司 | 语言学习方法、计算机装置及可读存储介质 |
CN110444053B (zh) * | 2019-07-04 | 2021-11-30 | 卓尔智联(武汉)研究院有限公司 | 语言学习方法、计算机装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104484656A (zh) | 基于深度学习的唇语识别唇形模型库构建方法 | |
CN104504088A (zh) | 一种用于唇语识别的唇形模型库构建方法 | |
CN104537358A (zh) | 基于深度学习的唇语识别唇形训练数据库的生成方法 | |
US20200234689A1 (en) | Audio file processing method, electronic device, and storage medium | |
CN111325817A (zh) | 一种虚拟人物场景视频的生成方法、终端设备及介质 | |
JP2019523927A5 (zh) | ||
CN105825191A (zh) | 基于人脸多属性信息的性别识别方法、系统及拍摄终端 | |
CN110610698B (zh) | 一种语音标注方法及装置 | |
CN110110104A (zh) | 一种自动生成虚拟三维空间内房屋讲解的方法及装置 | |
CN104484494A (zh) | 基于建筑bim模型的结构电算自动导荷载方法 | |
Fan et al. | An Interactive platform for low-cost 3D building modeling from VGI data using convolutional neural network | |
CN105677716A (zh) | 一种计算机数据采集处理分析系统 | |
CN110516749A (zh) | 模型训练方法、视频处理方法、装置、介质和计算设备 | |
CN111046148A (zh) | 智能交互系统及智能客服机器人 | |
CN111368800B (zh) | 手势识别方法及装置 | |
CN110175548A (zh) | 基于注意力机制和通道信息的遥感图像建筑物提取方法 | |
CN117315102A (zh) | 虚拟主播处理方法、装置、计算设备及存储介质 | |
CN103916677B (zh) | 一种广告视频识别方法和装置 | |
CN110852376B (zh) | 用于识别生物种类的方法及系统 | |
CN202502737U (zh) | 一种视音频信息的智能编辑系统 | |
CN115393501A (zh) | 信息处理方法及装置 | |
CN204883593U (zh) | 一种结合语音识别及语音测评技术的扩增实境系统 | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
CN106713899A (zh) | 基于全息成像和语音识别的交互三维立体影像系统及方法 | |
Li et al. | Classification of the qilou (arcade building) using a robust image processing framework based on the Faster R-CNN with ResNet50 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150408 |