CN108899031A

CN108899031A - 基于云计算的壮语语音识别方法

Info

Publication number: CN108899031A
Application number: CN201810785718.4A
Authority: CN
Inventors: 潘颖; 李敏; 李雄; 蒋雪玲
Original assignee: Guangxi Teachers College
Current assignee: Guangxi Teachers College
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-11-27
Anticipated expiration: 2038-07-17
Also published as: CN108899031B

Abstract

本发明公开了基于云计算的壮语语音识别方法，包括：建立壮语声学模型和壮语语言模型；建立口型数据库；获得目标语音信号和多个口型图像；对得到的多个口型图像进行组合，得到多个目标口型图像集合，并与口型数据库内的图像集合进行比对，选出、目标口型图像集合；根据选出的目标口型图像集合的拍摄时间段，从目标语音信号中截取出对应时间段的语音片段，根据语音片段和对应的特定壮语辅音对壮语声学模型进行训练，获得更新壮语声学模型；根据更新壮语声学模型和壮语语言模型将目标语音信号识别为文本。本发明利用口型图像信息对壮语声学模型进行更新，提高了识别准确率，并且较适合标准化程度不高的壮语。

Description

基于云计算的壮语语音识别方法

技术领域

本发明涉及语音识别技术领域。更具体地说，本发明涉及一种用于基于云计算的壮语语音识别方法。

背景技术

语音识别技术是将声音信息转换为文本信息，已经在家电、汽车、电子产品中得到了广泛地应用，并给人们带来了极大方便。目前实际应用中以英语和中文为主，壮语等少数民族语言的语言识别的研究较少，而且壮族人民散居化比较普遍，使得壮语标准化不够，直接借用汉语语音识别方法达不到预期效果。因此，亟需设计一种新的壮语语音识别方法。

发明内容

本发明的一个目的是提供基于云计算的壮语语音识别方法，其在获取用户语音信息的同时获取用户的口型图像信息，利用口型图像信息对壮语声学模型进行更新，提高了识别准确率，并且较适合标准化程度不高的壮语。

为了实现根据本发明的这些目的和其它优点，提供了基于云计算的壮语语音识别方法，包括：

建立壮语声学模型和壮语语言模型；

建立口型数据库，所述口型数据库包含若干特定壮语辅音以及与该若干特定壮语辅音分别对应的若干口型图像集合；

接收目标用户的语音信号，并对目标用户的口型进行连续拍照，获得目标语音信号和多个口型图像；

对得到的多个口型图像进行组合，得到多个目标口型图像集合，并与口型数据库内的图像集合进行比对，选出相似图像数大于设定阈值的目标口型图像集合；

将选出的目标口型图像集合对应至目标语音信号，并根据选出的目标口型图像集合的拍摄时间段，从目标语音信号中截取出对应时间段的语音片段，并根据口型数据库将语音片段与相应的特定壮语辅音对应，根据语音片段和对应的特定壮语辅音对壮语声学模型进行训练，获得更新壮语声学模型；

根据更新壮语声学模型和壮语语言模型将目标语音信号识别为文本。

优选的是，所述的基于云计算的壮语语音识别方法，终端设备接收目标用户的语音信号，并对目标用户的口型进行连续拍照，并将获得的目标语音信号和多个口型图像上传至云服务器，云服务器中建立有壮语声学模型、壮语语言模型以及口型数据库。

优选的是，所述的基于云计算的壮语语音识别方法，所述特定壮语辅音选自腭化辅音或唇化辅音。

优选的是，所述的基于云计算的壮语语音识别方法，口型图像集合通过对特定壮语辅音的发音口型动作连续拍照获得。

优选的是，所述的基于云计算的壮语语音识别方法，目标口型图像集合的相邻图像的间隔时间与口型数据库内的口型图像集合相同。

优选的是，所述的基于云计算的壮语语音识别方法，从得到的多个口型图像中选出特征口型图像，然后选出所有包含特征口型图像的目标口型图像集合。

本发明至少包括以下有益效果：

本发明获取目标用户的目标语音信号和口型图像，然后将口型图像组合成目标口型图像集合，并将目标口型图像集合与口型数据库进行比较，选出相似度高的目标口型图像集合和相应的特定壮语辅音。根据目标口型图像集合的起止时间从目标语音信号中截取出语音片段，利用语音片段和特定壮语辅音对壮语声学模型进行训练，获得更新壮语声学模型，然后利用更新壮语声学模型和语音模型将目标语音信号识别为文本。由于使用了口型图像辅助语音识别，识别准确率获得较大提高，并且根据目标用户的语音信号对声学模型进行更新，使得本发明对于非标准的语音信号也有较高识别率。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明提供了基于云计算的壮语语音识别方法，包括：

建立壮语声学模型和壮语语言模型；

在上述技术方案中，首先语音语料和文本语料分别训练获得壮语声学模型和壮语语音模型，语音语料采用标准壮语发音。声学模型可以采用隐马尔模型(HMM)训练得到，也可以采用集合深度神经网络(DNN)的DNN-HMM模型训练得到，声学模型训练为现有技术(包括声学特征提取、音素标注等步骤)，这里不再赘述。语言模型可以采用N-Gram模型训练得到，具体训练方法为现有技术，这里不再赘述。特定壮语辅音为壮语中比较有特别的辅音，对标准发音的口型动作进行连续拍照，获得一组口型动作图像，即为口型图像集合，口型图像集合与特定壮语辅音对应的存储在口型数据库内。当需要对目标用户进行语音识别时，同时获取该目标用户的目标语音信号和多个口型图像，多个口型图像的获取方式与口型图像集合的获取方式相同，均为对口型动作连续拍照获得。多个口型图像进行组合，获得多个目标口型图像集合，每个目标口型图像集合的图像个数与口型图像集合的图像个数相同，将目标口型图像集合与口型数据库进行比对，选出相似图像数量大于设定阈值的目标口型图像集合，比如设定阈值为90％数量的图像相似。多个口型图像安装时间顺序进行组合，可以多次组合，并多次比对，直到达到设定阈值。将于选出的目标口型图像按照起止时间对应至目标语音信号上，并据此截取出语音片段，按照口型数据库，这些语音片段分别与一个特定壮语辅音对应，根据相互对应的语音片段和特定壮语辅音对壮语声学模型进行更新，获得更新壮语声学模型。利用更新壮语声学模型和语音模型将目标语音信号识别为文本。可以看出，本发明收集口型图像，并据此对壮语声学模型进行更新，使得声学模型更适合当前的目标用户，使得识别准确率更高，并且对于非标准化的壮语语音，由于对壮语声学模型进行了更新，因而提高了对这类语音的识别准确率。

在另一种技术方案中，所述的基于云计算的壮语语音识别方法，终端设备接收目标用户的语音信号，并对目标用户的口型进行连续拍照，并将获得的目标语音信号和多个口型图像上传至云服务器，云服务器中建立有壮语声学模型、壮语语言模型以及口型数据库。这里，利用终端设备采集语音信号和口型图像，而用云服务器进行口型图像集合的比对、声学模型的更新、语音信号的识别，提高了数据处理速度，简化了终端设备。

在另一种技术方案中，所述的基于云计算的壮语语音识别方法，所述特定壮语辅音选自腭化辅音或唇化辅音。这里，腭化辅音或唇化辅音为壮语中特别的辅音，这类特别的辅音比较容易识别，对这类辅音的识别也对整体识别准确率较为重要，如b、mb、y或ny。

在另一种技术方案中，所述的基于云计算的壮语语音识别方法，口型图像集合通过对特定壮语辅音的发音口型动作连续拍照获得。这里，提供了口型图像集合的优选获得方式，即利用摄像设备获得特定壮语辅音的标准发音口型动作的图像。

在另一种技术方案中，所述的基于云计算的壮语语音识别方法，目标口型图像集合的相邻图像的间隔时间与口型数据库内的口型图像集合相同。这里，提供了目标口型图像的优选拍摄方法，即口型动作的抓取时间间隔相同，便于后续与口型数据库比对。

在另一种技术方案中，所述的基于云计算的壮语语音识别方法，从得到的多个口型图像中选出特征口型图像，然后选出所有包含特征口型图像的目标口型图像集合。这里，特征口型图像为发音过程中特别的口型，可以根据经验选定，识别出特征口型图像后，根据时间顺序用特征口型图像组合出所有目标口型图像集合，然后与口型数据库比对，可以一定程度降低计算量，提高识别速度，特征口型图像比如是mb唇化辅音中双唇紧闭、软腭上升的口型动作图像。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的实施例。

Claims

1.基于云计算的壮语语音识别方法，其特征在于，包括：

建立壮语声学模型和壮语语言模型；

2.如权利要求1所述的基于云计算的壮语语音识别方法，其特征在于，终端设备接收目标用户的语音信号，并对目标用户的口型进行连续拍照，并将获得的目标语音信号和多个口型图像上传至云服务器，云服务器中建立有壮语声学模型、壮语语言模型以及口型数据库。

3.如权利要求1所述的基于云计算的壮语语音识别方法，其特征在于，所述特定壮语辅音选自腭化辅音或唇化辅音。

4.如权利要求1所述的基于云计算的壮语语音识别方法，其特征在于，口型图像集合通过对特定壮语辅音的发音口型动作连续拍照获得。

5.如权利要求4所述的基于云计算的壮语语音识别方法，其特征在于，目标口型图像集合的相邻图像的间隔时间与口型数据库内的口型图像集合相同。

6.如权利要求5所述的基于云计算的壮语语音识别方法，其特征在于，从得到的多个口型图像中选出特征口型图像，然后选出所有包含特征口型图像的目标口型图像集合。