CN108899031A - 基于云计算的壮语语音识别方法 - Google Patents

基于云计算的壮语语音识别方法 Download PDF

Info

Publication number
CN108899031A
CN108899031A CN201810785718.4A CN201810785718A CN108899031A CN 108899031 A CN108899031 A CN 108899031A CN 201810785718 A CN201810785718 A CN 201810785718A CN 108899031 A CN108899031 A CN 108899031A
Authority
CN
China
Prior art keywords
mouth shape
strong
language
model
phonics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810785718.4A
Other languages
English (en)
Other versions
CN108899031B (zh
Inventor
潘颖
李敏
李雄
蒋雪玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Teachers College
Original Assignee
Guangxi Teachers College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Teachers College filed Critical Guangxi Teachers College
Priority to CN201810785718.4A priority Critical patent/CN108899031B/zh
Publication of CN108899031A publication Critical patent/CN108899031A/zh
Application granted granted Critical
Publication of CN108899031B publication Critical patent/CN108899031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于云计算的壮语语音识别方法,包括:建立壮语声学模型和壮语语言模型;建立口型数据库;获得目标语音信号和多个口型图像;对得到的多个口型图像进行组合,得到多个目标口型图像集合,并与口型数据库内的图像集合进行比对,选出、目标口型图像集合;根据选出的目标口型图像集合的拍摄时间段,从目标语音信号中截取出对应时间段的语音片段,根据语音片段和对应的特定壮语辅音对壮语声学模型进行训练,获得更新壮语声学模型;根据更新壮语声学模型和壮语语言模型将目标语音信号识别为文本。本发明利用口型图像信息对壮语声学模型进行更新,提高了识别准确率,并且较适合标准化程度不高的壮语。

Description

基于云计算的壮语语音识别方法
技术领域
本发明涉及语音识别技术领域。更具体地说,本发明涉及一种用于基于云计算的壮语语音识别方法。
背景技术
语音识别技术是将声音信息转换为文本信息,已经在家电、汽车、电子产品中得到了广泛地应用,并给人们带来了极大方便。目前实际应用中以英语和中文为主,壮语等少数民族语言的语言识别的研究较少,而且壮族人民散居化比较普遍,使得壮语标准化不够,直接借用汉语语音识别方法达不到预期效果。因此,亟需设计一种新的壮语语音识别方法。
发明内容
本发明的一个目的是提供基于云计算的壮语语音识别方法,其在获取用户语音信息的同时获取用户的口型图像信息,利用口型图像信息对壮语声学模型进行更新,提高了识别准确率,并且较适合标准化程度不高的壮语。
为了实现根据本发明的这些目的和其它优点,提供了基于云计算的壮语语音识别方法,包括:
建立壮语声学模型和壮语语言模型;
建立口型数据库,所述口型数据库包含若干特定壮语辅音以及与该若干特定壮语辅音分别对应的若干口型图像集合;
接收目标用户的语音信号,并对目标用户的口型进行连续拍照,获得目标语音信号和多个口型图像;
对得到的多个口型图像进行组合,得到多个目标口型图像集合,并与口型数据库内的图像集合进行比对,选出相似图像数大于设定阈值的目标口型图像集合;
将选出的目标口型图像集合对应至目标语音信号,并根据选出的目标口型图像集合的拍摄时间段,从目标语音信号中截取出对应时间段的语音片段,并根据口型数据库将语音片段与相应的特定壮语辅音对应,根据语音片段和对应的特定壮语辅音对壮语声学模型进行训练,获得更新壮语声学模型;
根据更新壮语声学模型和壮语语言模型将目标语音信号识别为文本。
优选的是,所述的基于云计算的壮语语音识别方法,终端设备接收目标用户的语音信号,并对目标用户的口型进行连续拍照,并将获得的目标语音信号和多个口型图像上传至云服务器,云服务器中建立有壮语声学模型、壮语语言模型以及口型数据库。
优选的是,所述的基于云计算的壮语语音识别方法,所述特定壮语辅音选自腭化辅音或唇化辅音。
优选的是,所述的基于云计算的壮语语音识别方法,口型图像集合通过对特定壮语辅音的发音口型动作连续拍照获得。
优选的是,所述的基于云计算的壮语语音识别方法,目标口型图像集合的相邻图像的间隔时间与口型数据库内的口型图像集合相同。
优选的是,所述的基于云计算的壮语语音识别方法,从得到的多个口型图像中选出特征口型图像,然后选出所有包含特征口型图像的目标口型图像集合。
本发明至少包括以下有益效果:
本发明获取目标用户的目标语音信号和口型图像,然后将口型图像组合成目标口型图像集合,并将目标口型图像集合与口型数据库进行比较,选出相似度高的目标口型图像集合和相应的特定壮语辅音。根据目标口型图像集合的起止时间从目标语音信号中截取出语音片段,利用语音片段和特定壮语辅音对壮语声学模型进行训练,获得更新壮语声学模型,然后利用更新壮语声学模型和语音模型将目标语音信号识别为文本。由于使用了口型图像辅助语音识别,识别准确率获得较大提高,并且根据目标用户的语音信号对声学模型进行更新,使得本发明对于非标准的语音信号也有较高识别率。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明提供了基于云计算的壮语语音识别方法,包括:
建立壮语声学模型和壮语语言模型;
建立口型数据库,所述口型数据库包含若干特定壮语辅音以及与该若干特定壮语辅音分别对应的若干口型图像集合;
接收目标用户的语音信号,并对目标用户的口型进行连续拍照,获得目标语音信号和多个口型图像;
对得到的多个口型图像进行组合,得到多个目标口型图像集合,并与口型数据库内的图像集合进行比对,选出相似图像数大于设定阈值的目标口型图像集合;
将选出的目标口型图像集合对应至目标语音信号,并根据选出的目标口型图像集合的拍摄时间段,从目标语音信号中截取出对应时间段的语音片段,并根据口型数据库将语音片段与相应的特定壮语辅音对应,根据语音片段和对应的特定壮语辅音对壮语声学模型进行训练,获得更新壮语声学模型;
根据更新壮语声学模型和壮语语言模型将目标语音信号识别为文本。
在上述技术方案中,首先语音语料和文本语料分别训练获得壮语声学模型和壮语语音模型,语音语料采用标准壮语发音。声学模型可以采用隐马尔模型(HMM)训练得到,也可以采用集合深度神经网络(DNN)的DNN-HMM模型训练得到,声学模型训练为现有技术(包括声学特征提取、音素标注等步骤),这里不再赘述。语言模型可以采用N-Gram模型训练得到,具体训练方法为现有技术,这里不再赘述。特定壮语辅音为壮语中比较有特别的辅音,对标准发音的口型动作进行连续拍照,获得一组口型动作图像,即为口型图像集合,口型图像集合与特定壮语辅音对应的存储在口型数据库内。当需要对目标用户进行语音识别时,同时获取该目标用户的目标语音信号和多个口型图像,多个口型图像的获取方式与口型图像集合的获取方式相同,均为对口型动作连续拍照获得。多个口型图像进行组合,获得多个目标口型图像集合,每个目标口型图像集合的图像个数与口型图像集合的图像个数相同,将目标口型图像集合与口型数据库进行比对,选出相似图像数量大于设定阈值的目标口型图像集合,比如设定阈值为90%数量的图像相似。多个口型图像安装时间顺序进行组合,可以多次组合,并多次比对,直到达到设定阈值。将于选出的目标口型图像按照起止时间对应至目标语音信号上,并据此截取出语音片段,按照口型数据库,这些语音片段分别与一个特定壮语辅音对应,根据相互对应的语音片段和特定壮语辅音对壮语声学模型进行更新,获得更新壮语声学模型。利用更新壮语声学模型和语音模型将目标语音信号识别为文本。可以看出,本发明收集口型图像,并据此对壮语声学模型进行更新,使得声学模型更适合当前的目标用户,使得识别准确率更高,并且对于非标准化的壮语语音,由于对壮语声学模型进行了更新,因而提高了对这类语音的识别准确率。
在另一种技术方案中,所述的基于云计算的壮语语音识别方法,终端设备接收目标用户的语音信号,并对目标用户的口型进行连续拍照,并将获得的目标语音信号和多个口型图像上传至云服务器,云服务器中建立有壮语声学模型、壮语语言模型以及口型数据库。这里,利用终端设备采集语音信号和口型图像,而用云服务器进行口型图像集合的比对、声学模型的更新、语音信号的识别,提高了数据处理速度,简化了终端设备。
在另一种技术方案中,所述的基于云计算的壮语语音识别方法,所述特定壮语辅音选自腭化辅音或唇化辅音。这里,腭化辅音或唇化辅音为壮语中特别的辅音,这类特别的辅音比较容易识别,对这类辅音的识别也对整体识别准确率较为重要,如b、mb、y或ny。
在另一种技术方案中,所述的基于云计算的壮语语音识别方法,口型图像集合通过对特定壮语辅音的发音口型动作连续拍照获得。这里,提供了口型图像集合的优选获得方式,即利用摄像设备获得特定壮语辅音的标准发音口型动作的图像。
在另一种技术方案中,所述的基于云计算的壮语语音识别方法,目标口型图像集合的相邻图像的间隔时间与口型数据库内的口型图像集合相同。这里,提供了目标口型图像的优选拍摄方法,即口型动作的抓取时间间隔相同,便于后续与口型数据库比对。
在另一种技术方案中,所述的基于云计算的壮语语音识别方法,从得到的多个口型图像中选出特征口型图像,然后选出所有包含特征口型图像的目标口型图像集合。这里,特征口型图像为发音过程中特别的口型,可以根据经验选定,识别出特征口型图像后,根据时间顺序用特征口型图像组合出所有目标口型图像集合,然后与口型数据库比对,可以一定程度降低计算量,提高识别速度,特征口型图像比如是mb唇化辅音中双唇紧闭、软腭上升的口型动作图像。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的实施例。

Claims (6)

1.基于云计算的壮语语音识别方法,其特征在于,包括:
建立壮语声学模型和壮语语言模型;
建立口型数据库,所述口型数据库包含若干特定壮语辅音以及与该若干特定壮语辅音分别对应的若干口型图像集合;
接收目标用户的语音信号,并对目标用户的口型进行连续拍照,获得目标语音信号和多个口型图像;
对得到的多个口型图像进行组合,得到多个目标口型图像集合,并与口型数据库内的图像集合进行比对,选出相似图像数大于设定阈值的目标口型图像集合;
将选出的目标口型图像集合对应至目标语音信号,并根据选出的目标口型图像集合的拍摄时间段,从目标语音信号中截取出对应时间段的语音片段,并根据口型数据库将语音片段与相应的特定壮语辅音对应,根据语音片段和对应的特定壮语辅音对壮语声学模型进行训练,获得更新壮语声学模型;
根据更新壮语声学模型和壮语语言模型将目标语音信号识别为文本。
2.如权利要求1所述的基于云计算的壮语语音识别方法,其特征在于,终端设备接收目标用户的语音信号,并对目标用户的口型进行连续拍照,并将获得的目标语音信号和多个口型图像上传至云服务器,云服务器中建立有壮语声学模型、壮语语言模型以及口型数据库。
3.如权利要求1所述的基于云计算的壮语语音识别方法,其特征在于,所述特定壮语辅音选自腭化辅音或唇化辅音。
4.如权利要求1所述的基于云计算的壮语语音识别方法,其特征在于,口型图像集合通过对特定壮语辅音的发音口型动作连续拍照获得。
5.如权利要求4所述的基于云计算的壮语语音识别方法,其特征在于,目标口型图像集合的相邻图像的间隔时间与口型数据库内的口型图像集合相同。
6.如权利要求5所述的基于云计算的壮语语音识别方法,其特征在于,从得到的多个口型图像中选出特征口型图像,然后选出所有包含特征口型图像的目标口型图像集合。
CN201810785718.4A 2018-07-17 2018-07-17 基于云计算的壮语语音识别方法 Active CN108899031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810785718.4A CN108899031B (zh) 2018-07-17 2018-07-17 基于云计算的壮语语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810785718.4A CN108899031B (zh) 2018-07-17 2018-07-17 基于云计算的壮语语音识别方法

Publications (2)

Publication Number Publication Date
CN108899031A true CN108899031A (zh) 2018-11-27
CN108899031B CN108899031B (zh) 2022-11-04

Family

ID=64350926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810785718.4A Active CN108899031B (zh) 2018-07-17 2018-07-17 基于云计算的壮语语音识别方法

Country Status (1)

Country Link
CN (1) CN108899031B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571045A (zh) * 2021-06-02 2021-10-29 北京它思智能科技有限公司 一种闽南语语音识别方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096935A (zh) * 2014-05-06 2015-11-25 阿里巴巴集团控股有限公司 一种语音输入方法、装置和系统
CN105957517A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 基于开源api的语音数据结构化转换方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096935A (zh) * 2014-05-06 2015-11-25 阿里巴巴集团控股有限公司 一种语音输入方法、装置和系统
CN105957517A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 基于开源api的语音数据结构化转换方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YIN YEQING,TIAN TAO: "An New Speech Recognition Method based on Prosodic Analysis and SVM in Zhuang Language", 《2011 INTERNATIONAL CONFERENCE ON MECHATRONIC SCIENCE, ELECTRIC ENGINEERING AND COMPUTER (MEC)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571045A (zh) * 2021-06-02 2021-10-29 北京它思智能科技有限公司 一种闽南语语音识别方法、系统、设备及介质
CN113571045B (zh) * 2021-06-02 2024-03-12 北京它思智能科技有限公司 一种闽南语语音识别方法、系统、设备及介质

Also Published As

Publication number Publication date
CN108899031B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
US10628664B2 (en) Automatic body movement recognition and association system
Koller et al. Deep learning of mouth shapes for sign language
Yu et al. The role of embodied intention in early lexical acquisition
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
CN109635676B (zh) 一种从视频中定位音源的方法
CN108305615A (zh) 一种对象识别方法及其设备、存储介质、终端
NadeemHashmi et al. A lip reading model using CNN with batch normalization
Wimmer et al. Low-level fusion of audio and video feature for multi-modal emotion recognition
CN111401268B (zh) 一种面向开放环境的多模态情感识别方法及装置
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
JP2005348872A (ja) 感情推定装置及び感情推定プログラム
Koller et al. Read my lips: Continuous signer independent weakly supervised viseme recognition
Saitoh et al. SSSD: Speech scene database by smart device for visual speech recognition
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN113177531B (zh) 一种基于视频分析的说话识别方法、系统、设备及介质
CN108899031A (zh) 基于云计算的壮语语音识别方法
CN109074809A (zh) 信息处理设备、信息处理方法和程序
JPH06203145A (ja) 個人認識装置
Wang et al. An automatic lipreading system for spoken digits with limited training data
JP4775961B2 (ja) 映像を用いた発音の推定方法
Fernandez-Lopez et al. Automatic viseme vocabulary construction to enhance continuous lip-reading
Haq et al. Using lip reading recognition to predict daily Mandarin conversation
CN110516638A (zh) 一种基于轨迹和随机森林的手语识别方法
CN110163142A (zh) 实时手势识别方法及系统
Bernhardt et al. Detecting emotions from connected action sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant