CN110827801B

CN110827801B - 一种基于人工智能的自动语音识别方法及系统

Info

Publication number: CN110827801B
Application number: CN202010019733.5A
Authority: CN
Inventors: 漆伟; 马永霄; 童永鳌; 张瑞冬; 殷子凌; 张�浩
Original assignee: Chengdu No Sugar Information Tech Co ltd
Current assignee: Chengdu No Sugar Information Tech Co ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-04-17
Anticipated expiration: 2040-01-09
Also published as: CN110827801A

Abstract

本发明公开了一种基于人工智能的自动语音识别方法及系统，它主要包括了语音预处理模块、语音特征提取模块、语音训练识别模块和文本矫正模块四大模块。本发明采用语音训练识别模块对语音特征及语音对应文字编码进行学习，先通过特征学习层进行卷积学习频谱特征，然后通过语义学习层学习频谱特征间语义信息，最后通过输出层对综合学到的信息进行解码，输出对应文本。这样在直接使用汉字映射表进行标签的编码和解码，不需要对文本进行音素编码解码，然后再解码为文本，简化了训练流程。

Description

一种基于人工智能的自动语音识别方法及系统

技术领域

本发明涉及人工智能中的语音识别技术领域，具体涉及一种基于人工智能的自动语音识别技术。

背景技术

人工智能(ArtificialIntelligence，简称AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、计算机视觉、自然语言处理和专家系统等。

现有自动语音识别技术的发展主要倾向于训练和解码两个阶段；训练，即通过大量标注的语音数据训练声学模型，其中包括GMM-HMM、DNN-HMM和RNN+CTC等；解码，即通过声学模型和语言模型将训练集外的语音数据识别成文字。

以孤立词识别为例，能够很好地阐述语音识别的流程和相关概念。假如对词进行建模，在训练阶段学习每个模型的参数；在识别阶段，计算输入语音序列在每个模型的得分（概率值），最高分者获胜。但是，任何语言里的常用单词都以千计，学习数以千计的模型不仅需要庞大的语料库，还需要漫长的迭代时间。此外，汉语还分有调无调，同音字等，导致模型数量成倍增加。这给用户带来了诸多不便，使得语音识别技术无法大规模产业化。

发明内容

为克服上述存在之不足，本发明的发明人通过长期的探索尝试以及多次的实验和努力，不断改革与创新，提出一种基于深度学习的端到端的自动语音识别技术，以解决上述背景技术中提出的问题。

为实现上述目的本发明所采用的技术方案是：

一种基于人工智能的自动语音识别方法，其包括以下步骤：

S1、语音预处理：对原始语音序列做预处理，以消除因为人类发声器官本身和由于采集语音信号的设备对语音信号质量产生影响的因素，保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量；

S2、语音特征提取：采用梅尔倒谱系数（Mel-scaleFrequency CepstralCoefficients）来获取语音的声谱特征图, 然后对输入的语音信号进行滤波，将每个输出的信号能量作为信号的基本特征，对该基本特征进行计算频谱图后作为下一步的语音输入特征；

S3、语音训练识别：输入提取的语音特征及语音对应的文字编码进行学习，具体是先通过特征学习层进行卷积学习频谱特征，然后通过语义学习层学习频谱特征间语义信息，最后通过输出层对综合学到的信息进行解码，输出对应文本；

S4、文本矫正：语音识别输出是对频谱特征到字典表的映射，输出的文字不够通顺和语义信息比较缺乏，因此还需要把语音训练识别输出文本输入到语言模型，然后输出比较通顺的文字，再把经过语言模型的文字输入到拼写纠错模型，最终得到通顺且语义逻辑连贯的文本。

根据本发明所述的一种基于人工智能的自动语音识别方法，其中进一步地优选技术方案是所述语音预处理具体操作是：

对语音进行端点检测，找到语音信号的起始点和结束点；

然后对语音的高频部分进行添加权重，去除口唇辐射的影响，增加语音的高频分辨率，再对语音进行分帧处理，所述分帧是把连续的若干个点设为一帧，一般采用交叠分段的方法，这是为了使帧与帧之前平滑过渡，保持其连续性；前一针和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0~1/2；

随后对语音信号进行加窗，对加窗的语音波形加以强调而对波形的其余部分加以减弱，最后达到语音预处理的效果，提高语音质量。

根据本发明所述的一种基于人工智能的自动语音识别方法，其中进一步地优选技术方案是，语音特征提取包括如下操作，从语音的低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入语音信号进行滤波，将每个带通滤波器输出的信号能量作为信号的基本特征，对该基本特征进行计算频谱图后作为语音的输入特征，然后对该语音的输入特征进行批量归一化处理，以语音训练识别过程中加快模型的训练速度和实际场景使用时的预测速度。

根据本发明所述的一种基于人工智能的自动语音识别方法，其中进一步地优选技术方案是，语音训练识别中：

所述特征学习层是由两层的二维卷积神经网络组成，学习每个频谱特征，

所述语义学习层是由七层循环神经网络以及每层加上一层批量归一化组成，用于学习频谱特征间的关系；

所述输出层输出文本是输出字典表中的一个个汉字。

根据本发明所述的一种基于人工智能的自动语音识别方法，其中进一步地优选技术方案是，语音训练识别时采用的是CTC（Connectionist temporal classification）损失，用于处理在语音特征及语音对应文字编码时序列标注中的输入与输出标签的对齐，实现端到端的训练。

根据本发明所述的一种基于人工智能的自动语音识别方法，其中进一步地优选技术方案是，文本矫正是语音训练识别的输出文本通过语言模型来计算一个句子出现的概率，最终选出概率最大的句子，采用拼写纠错模型来对错别字和同音字进行纠错改正。

本发明还提供了一种实现上述方法的自动语音识别系统，其包括：

语音预处理模块：对原始语音序列做预处理，以消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频因素对语音信号质量产生的影响，保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量；

语音特征提取模块：采用梅尔倒谱系数来获取语音的声谱特征图，然后对输入的语音信号进行滤波，将每个输出的信号能量作为信号的基本特征，对该基本特征进行计算频谱图后作为语音的输入特征；

语音训练识别模块：输入提取的语音特征及语音对应文字编码进行学习，先通过特征学习层进行卷积学习频谱特征，然后通过语义学习层学习频谱特征间语义信息，最后通过输出层对综合学到的信息进行解码，输出对应文本；

文本矫正模块：将语音训练识别模块输出文本输入到语言模型，然后输出一句比较通顺的文字，再把语言模型输出的文字输入到拼写纠错模型，最终得到一段通顺且语义逻辑连贯的文本。

根据本发明所述的一种基于人工智能的自动语音识别系统，其进一步地优选技术方案是：所述语音预处理模块包括，

语音检测模块，对语音进行端点检测，找到语音信号的起始点和结束点；

高频语音处理模块，对语音的高频部分进行添加权重，去除口唇辐射的影响，增加语音的高频分辨率；

语音分帧处理模块，将语音信号进行分帧处理；

语音信号加窗模块，对加窗的语音波形加以强调而对波形的其余部分加以减弱，最后达到语音预处理的效果，提高语音质量。

根据本发明所述的一种基于人工智能的自动语音识别系统，其进一步地优选技术方案是：所述语音特征提取模块包括带通滤波器，从语音低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波，将每个带通滤波器输出的信号能量作为信号的基本特征，对该基本特征进行计算频谱图后作为语音的输入特征。

根据本发明所述的一种基于人工智能的自动语音识别系统，其进一步地优选技术方案是：语音训练识别模块中特征学习层是由两层的二维卷积神经网络组成，学习每个频谱特征；语义学习层是由七层循环神经网络以及每层加上一层批量归一化组成，用于学习频谱特征间的关系；输出层是输出字典表中的一个个汉字；语音训练识别时采用的是CTC（Connectionist temporal classification）损失, 用于处理语音特征及语音对应文字编码时序列标注中的输入与输出标签的对齐，实现端到端的训练。

本申请相比现有技术的具有以下技术优点：

1、本发明提供了采用MFCC（Mel-scaleFrequency Cepstral Coefficients）特征，并对语音特征进行归一化处理，加快模型的收敛和模型的识别。

2、采用语音训练识别模块对语音特征及对应标签编码进行学习，先通过特征学习层进行卷积学习特征，然后通过语义学习层学习特征间语义信息，最后通过输出层综合学到的信息进行解码，输出对应文本。这样在直接使用汉字映射表进行标签的编码和解码，不需要对文本进行音素编码解码，然后再解码为文本，简化了训练流程。

3、语音训练模块采用卷积神经网络与循环神经网络相结合，并对每层特征进行归一化处理，对语音特征进行特征学习和特征间语义特征学习。

4、本技术方法的模型的输出直接可解码为文本，实现端到端的语音到文本的转换。

5、采用文本矫正模块将语音训练识别模块输出结果输入到语言模型，然后输出一句比较通顺的文字，再把语言模型输出的文字输入到拼写纠错模型，最终得到一段通顺且语义逻辑连贯的文本。对模型转录的文本根据语义进行通顺化处理和拼写纠正，调整文本和语音所表达的内容一致。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明所述一种基于人工智能的自动语音识别方法原理框图。

具体实施方式

为使本发明目的、技术方案和优点更加清楚，下面对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

实施例：本实施例提供了一种基于人工智能的自动语音识别系统，它主要包括了四大模块，一、语音预处理模块，二、语音特征提取模块，三、语音训练识别模块和四、文本矫正模块。

其中一、语音预处理模块：在进行特征提取之前，对原始语音序列做预处理，目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

该语音预处理模块具体包括以下几大部分：

01语音检测模块，对语音进行端点检测，找到语音信号的起始点和结束点。

02高频语音处理模块，对语音的高频部分进行添加权重，去除口唇辐射的影响，增加语音的高频分辨率。

03语音分帧处理模块，对语音进行分帧处理，语音信号具有时变特性，但是在一个短时间范围内（一般认为在10~30ms），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。因此我们需要将语音信号进行分帧处理，具体是把连续的若干个点设为一帧，采用交叠分段的方法，这是为了使帧与帧之前平滑过渡，保持其连续性。前一针和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0~1/2。

04语音信号加窗模块，对语音信号进行加窗，其目的是对加窗的语音波形加以强调而对波形的其余部分加以减弱。最后达到语音预处理的效果，提高语音质量。

二、语音特征提取模块，它使用的语音特征是由梅尔倒谱系数（Mel-scaleFrequency Cepstral Coefficients，以下简称MFCC）来获取语音的声谱特征图。

具体原理是根据人耳听觉机理的研究发现，从语音低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入语音信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对该基本特征经过进一步处理后就可以作为语音的输入特征，具体是对此特征进行计算频谱图后作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数与基于声道模型的LPCC特征相比具有更好的鲁棒性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

然后对语音特征进行批量归一化处理，以加快语音训练识别模型的训练速度和实际场景使用时的预测速度。

三、语音训练识别模块，它对语音特征及语音对应文字编码进行学习，具体是先通过特征学习层进行卷积学习频谱特征，然后通过语义学习层学习频谱特征间语义信息，最后通过输出层对综合学到的信息进行解码，输出对应文本。

语音训练识别模型的输入是语音信号的频谱特征及其对应文本标签（输入语音对应的文字）编码。

特征学习层是由两层的二维卷积神经网络组成，学习每个频谱特征。

语义学习层是由七层循环神经网络以及每层加上一层归一化组成，用于学习频谱特征间的语义信息关系。

输出层是输出字典表中的一个个汉字。

语音训练识别时采用的是CTC（Connectionist temporal classification）损失，主要用于处理语音特征及语音对应文字编码序列标注中的输入与输出标签的对齐问题，解决了传统语音训练识别模型需要把语音序列和标签进行对齐再训练的问题，真正实现端到端的训练。

四、文本矫正模块，语音识别模块的输出是对频谱特征到字典表的映射，输出的文字不够通顺和语义信息比较缺乏，把输出结果输入到语言模型，然后输出一句比较通顺的文字，有时候还会出现一些错别字和同音字的情况，我们再把经过语言模型的文字输入到拼写纠错模型，最终得到一段通顺且语义逻辑连贯的文本。

该模块主要包括的两大模型是语言模型和拼写纠错模型，其中语言模型：用来计算一个句子出现的概率，最终选出概率最大的句子。拼写纠错模型：用来对错别字和同音字进行纠错改正。

如图1所示，本实施例还基于上述系统提出了一种基于人工智能的自动语音识别方法，该方法首先进行数据准备和清洗，然后进行语音预处理、语音特征提取、语音训练识别和文本矫正，具体操作是，

S1.对长语音进行根据空白音频进行分割，构成文档，文档内容为语音路径和语音的文本信息。

S2.对语音的标签文本内容进行处理，繁体转简体，去掉中文及英文的标点符号。

S3. 语音预处理，其包括以下处理过程，

S301.通过语音检测模块对语音进行端点检测，找到语音的起始点和结束点。

S302.对语音的高频进行加权重，去除口唇辐射的影响，使得这部分特征更加明显。

S303.对语音进行分帧处理，语音信号具有时变特性，但是在一个短时间范围内（一般认为在10~30ms），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。因此我们需要将语音信号进行分帧处理，具体是把连续的若干个点设为一帧，采用交叠分段的方法，这是为了使帧与帧之前平滑过渡，保持其连续性。前一针和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0~1/2。

S304.对语音信号进行加窗，其目的是对加窗的语音波形加以强调而对波形的其余部分加以减弱。

S4.语音特征提取，其具体操作是：对语音信号进行MFCC提取特征，转换为声谱图，将语音低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入的语音信号进行滤波，将每个带通滤波器输出的信号能量作为信号的基本特征，对该基本特征进行计算频谱图后作为语音的输入特征，将整个音频范围用不同颜色记录为频谱特征然后让网络去学习对频谱特征进行批量的归一化处理，加快模型的收敛和模型的识别。

S5.语音训练识别，输入提取的语音特征及语音对应文字编码进行学习，先通过特征学习层进行卷积学习频谱特征，然后通过语义学习层学习频谱特征间语义信息，最后通过输出层对综合学到的信息进行解码，输出对应文本，此过程具体操作是：

S5001.把构建好的频谱特征批量的送入特征学习层第一层卷积层：卷积核尺寸为：41x11x32，步长：2x3。

S5002.把特征学习层第一层卷积层输出特征送入特征学习层第二层卷积层：卷积核尺寸为：21x11x32，步长：2x1。

S5003.到此就进行了特征的学习，接下来是进行特征间的语义信息进行学习。

S5004.把特征学习层的输出，送入到循环神经网络中，神经元设置为1280，然后把该层的输出特征进行归一化处理。

S5005.重复进行第四步7次，构建7层的循环神经网络层，每层都加上一层归一化处理，加快模型的收敛。

S5006.最后构建一层全连接层，输出个数为字典映射表的个数及每个汉字的概率，到此网络构建完成。

S5007.构建CTC损失函数，获取标签的长度，标签的信息，网络的输出，语音序列的长度来计算模型训练的损失，后面模型的优化就是根据这个损失进行调优的。

S5008.然后进行语音识别模型训练，具体是首先初始化预先构建的模型；然后初始化一个Adam的优化器，初始化学习率为：0.001，并对学习率进行指数式衰减；再采用一机多卡的训练方式，进行模型迭代。

其中涉及到的模型部署操作是：先把模型训练保存的checkpoint格式模型转换成SavedModel格式模型，然后以Tensorflow Serving进行模型部署并提供端口进行访问测试模型；然后获取一段语音，直接送入模型测试端口返回文本，达到语音到文本的转录。

S6.文本矫正，把输出文本送入语言模型获取最大概率句子，然后再进行拼写纠正，获得最终文本。

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于人工智能的自动语音识别方法，其特征在于包括以下步骤：

S2、语音特征提取：采用梅尔倒谱系数来获取语音的声谱特征图，然后对输入的语音信号进行滤波，将每个输出的信号能量作为信号的基本特征，对该基本特征进行计算频谱图后作为下一步的语音输入特征；

S3、语音训练识别：输入提取的语音特征及语音对应文字编码进行学习，先通过特征学习层进行卷积学习频谱特征，然后通过语义学习层学习频谱特征间语义信息，最后通过输出层对综合学到的信息进行解码，输出对应文本；具体操作如下，

S3001.把构建好的频谱特征批量的送入特征学习层第一层卷积层：卷积核尺寸为：41x11x32，步长：2x3，

S3002.把特征学习层第一层卷积层输出特征送入特征学习层第二层卷积层：卷积核尺寸为：21x11x32，步长：2x1，

S3003.到此就进行了特征的学习，接下来是进行特征间的语义信息进行学习，

S3004.把特征学习层的输出，送入到循环神经网络中，神经元设置为1280，然后把该层的输出特征进行归一化处理，

S3005.重复进行第S3004步7次，构建7层的循环神经网络层，每层都加上一层归一化处理，加快模型的收敛，

S3006.最后构建一层全连接层，输出个数为字典映射表的个数及每个汉字的概率，到此网络构建完成，

S3007.构建CTC损失函数，获取标签的长度，标签的信息，网络的输出，语音序列的长度来计算模型训练的损失，后面模型的优化就是根据这个损失进行调优的，

S3008.然后进行语音识别模型训练，具体是首先初始化预先构建的模型；然后初始化一个Adam的优化器，初始化学习率为：0.001，并对学习率进行指数式衰减；再采用一机多卡的训练方式，进行模型迭代；

S4、文本矫正:把语音训练识别输出文本输入到语言模型，将语音训练识别的输出文本通过语言模型来计算一个句子出现的概率，最终选出概率最大的句子，然后输出比较通顺的文字，再采用拼写纠错模型来对错别字和同音字进行纠错改正，最终得到通顺且语义逻辑连贯的文本。

2.根据权利要求1所述的一种基于人工智能的自动语音识别方法，其特征在于：所述语音预处理具体操作是：

对语音进行端点检测，找到语音信号的起始点和结束点；

然后对语音的高频部分进行添加权重，去除口唇辐射的影响，增加语音的高频分辨率，再对语音进行分帧处理；

3.根据权利要求1或2所述的一种基于人工智能的自动语音识别方法，其特征在于：语音特征提取过程中还需对语音输入特征进行归一化处理，以语音训练识别过程中加快模型的训练速度和实际场景使用时的预测速度。

4.根据权利要求1所述的一种基于人工智能的自动语音识别方法，其特征在于：语音训练识别中：

所述语义学习层是由七层循环神经网络以及每层加上一层批量归一化层组成，用于学习频谱特征间语义信息；

所述输出层输出的文本为字典表中的一个个汉字。

5.根据权利要求1所述的一种基于人工智能的自动语音识别方法，其特征在于：语音训练识别过程中采用的是CTC损失，用于处理在语音特征及语音对应文字编码时序列标注中输入与输出标签的对齐，实现端到端的训练。

6.一种基于人工智能的自动语音识别系统，其特征在于包括：

语音特征提取模块：采用梅尔倒谱系数来获取语音的声谱特征图，然后对输入的语音信号进行滤波，将每个输出的信号能量作为信号的基本特征，对该基本特征进行计算频谱图后作为语音输入特征；

7.根据权利要求6所述的一种基于人工智能的自动语音识别系统，其特征在于，所述语音预处理模块包括，

语音分帧处理模块，将语音信号进行分帧处理；

8.根据权利要求6所述的一种基于人工智能的自动语音识别系统，其特征在于，所述语音特征提取模块包括带通滤波器，从语音低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入语音信号进行滤波，将每个带通滤波器输出的信号能量作为信号的基本特征，对该基本特征进行计算频谱图后作为语音的输入特征。

9.根据权利要求6所述的一种基于人工智能的自动语音识别系统，其特征在于，语音训练识别模块中特征学习层是由两层的二维卷积神经网络组成，学习每个频谱特征；语义学习层是由七层循环神经网络以及每层加上一层批量归一化组成，用于学习频谱特征间的关系；输出层是输出字典表中的一个个汉字；语音训练识别时采用的是CTC损失，用于处理在语音特征及语音对应文字编码时序列标注中的输入与输出标签的对齐，实现端到端的训练。