CN115206299A

CN115206299A - 一种基于命令词语音识别的易混淆词防误识别方法

Info

Publication number: CN115206299A
Application number: CN202211118939.9A
Authority: CN
Inventors: 陈佩云; 曹艳艳
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-10-18
Anticipated expiration: 2042-09-15
Also published as: CN115206299B

Abstract

本发明公开了一种基于命令词语音识别的易混淆词防误识别方法，属于语音技术领域，包括如下步骤：S1.采集音频数据，对音频数据分类并设置原始分类标签；并提取音频数据的原始梅尔特征作为二次鉴别器训练数据；S2.搭建二次鉴别器模型，模型包括编码器、解码器和多维鉴别器；所述多维鉴别器包括多个并行的一维卷积层及与其连接的最大池化层，多个最大池化层的输出端连接拼接层；以步骤S1得到的训练数据输入编码器网络进行训练，训练模型直至模型收敛，完成训练。本发明通过搭建小尺寸易混淆词鉴别模型，当识别到易混淆词时，对易混淆词的语音进行通过二次鉴别器进行二次鉴别减小原识别系统对易混淆命令词的误识别率。

Description

一种基于命令词语音识别的易混淆词防误识别方法

技术领域

本发明属于语音技术领域，具体涉及一种基于命令词语音识别的易混淆词防误识别方法。

背景技术

随着语音识别技术的发展，语音识别走进人们的生活。基于命令词语音识别系统逐渐轻量化，被部署在嵌入式端，应用在广泛领域。由于各种控制指令不断增加，部分命令词在发音上十分相似，例如常用家电当中的空调指令“二十一度”与“二十七度”，“制冷模式”与“制热模式”这种发音较为相近的命令词误识别率非常大，严重影响用户体验，如何高效减少易混淆命令词的误识别是亟待解决的问题。

发明内容

为克服现有技术存在的缺陷，本发明公开了一种基于命令词语音识别的易混淆词防误识别方法。

本发明所述基于命令词语音识别的易混淆词防误识别方法，包括如下步骤：

S1.采集音频数据，对音频数据分类并设置原始分类标签；并提取音频数据的原始梅尔特征作为二次鉴别器训练数据；

S2.搭建二次鉴别器模型，模型包括编码器、解码器和多维鉴别器；并初始化设置编码器，解码器以及多维鉴别器的模型参数；

所述多维鉴别器包括多个并行的一维卷积层及与其连接的最大池化层，多个最大池化层的输出端连接拼接层，所述拼接层连接线性层，线性层连接归一化指数函数层；

所述一维卷积层的卷积核尺寸为A*B，多维鉴别器各个一维卷积层卷积核的第一尺寸A相等，第二尺寸B不等；

以步骤S1得到的训练数据输入编码器网络进行训练，用L作为二次鉴别器模型的损失，训练模型直至模型收敛，完成训练；

其中L为总损失函数，L= L_mel+L_f；

L_mel，L_f分别为梅尔损失和分类目标损失；

----①

其中m为梅尔特征的总维度，n为梅尔特征的总帧数，a为解码器输出的梅尔特征，b为真实的梅尔特征，即步骤S1中的原始梅尔特征，①式中下标i,j分别表示梅尔特征维度和帧数；

----②

L_f为分类目标损失，其中k为分类类别总数，x为鉴别器输出的分类概率，y为真实分类目标，即步骤S1中的音频数据分类，②式中下标i表示不同的分类类别； i表示鉴别器输出的第i个分类；

采用训练得到的二次鉴别器进行易混淆词识别。

优选的，S1步骤具体为：

S11.采集易混淆词与非易混淆词等量的音频数据作为音频数据集，并对音频进行加噪加混响的数据扩充, 数据扩充是对原始音频加入不同大小的噪音和混响形成新的音频，扩充后的数据为原始音频数量的10倍-20倍；

S12.将音频数据集数据进行分类标签，易混淆词音频中相同词采用同一标签，不同词用不同标签，所有非易混淆词使用同一标签，生成one-hot目标向量；

S13.提取音频数据集中所有音频数据的原始梅尔特征。

优选的，所述编码器由三层以上线性层组成，激活函数为Tanh函数。

优选的，其特征在于，所述解码器由三层以上线性层组成，激活函数为Tanh函数，最后一个线性层直接输出。

本发明通过搭建小尺寸易混淆词鉴别模型，当识别到易混淆词时，对易混淆词的语音进行通过二次鉴别器进行二次鉴别减小原识别系统对易混淆命令词的误识别率；通过采用参数量小的小尺寸模型作为二次鉴别模型,尽可能小的影响识别响应速度的情况下，提升了对易混淆词的识别率，提升用户体验。

附图说明

图1为本发明所述编码器的一个具体实施方式示意图；

图2为本发明所述解码器的一个具体实施方式示意图；

图3为本发明所述二次鉴别器的一个具体应用方式示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述基于命令词语音识别的易混淆词二次鉴别器训练方法包括如下步骤：

S1.采集训练数据

S11.采集易混淆词与非易混淆词等量的音频数据作为音频数据集，并对音频进行加噪加混响的数据扩充, 数据扩充是采用加噪加混响算法对音频数据进行扩充，主要是对原始音频加入不同大小的噪音和混响形成新的音频，扩充后的数据为原始音频数量的10倍-20倍，以保证该数据集训练的鉴别器模型具有较高的抗噪，抗混响性能。

S12.将音频数据集数据进行分类标签，易混淆词音频中相同词采用同一标签，不同词用不同标签，所有非易混淆词使用同一标签，生成one-hot目标向量,one-hot向量是指只由0和1构成的向量，例如有“制冷模式”，“制热模式”，“二十一度”，“二十七度”四个命令词，再加上非易混淆词的标签；则该向量一共为5维，其顺序按照：制冷模式，制热模式，二十一度，二十七度，非易混淆词的排列，若一个音频的内容为制热模型，该音频的标签为（0,1,0,0,0），若一个音频的内容为非易混淆词，该音频的标签为（0,0,0,0,1）。设置one-hot目标向量作为标签，模型更容易收敛。

S13.提取音频数据集中所有音频数据的原始梅尔特征。

图1所示的具体实施方式中，所述编码器由三层线性层组成，激活函数采用Tanh实现；

将原始梅尔特征输入编码器开始训练；

编码器的主要作用是将原始梅尔特征进行降维，将高维度的原始梅尔特征转化为到低维特征输入解码器和多维鉴别器，以减少多维鉴别器网络模型参数。

图2所示的具体实施方式中，解码器由三层线性层组成，激活函数采用Tanh实现；图2和图3中，线性层的典型实现方式为全连接层。

解码器是将编码器降维之后的低维特征升维到原始梅尔特征的高维维度得到预测梅尔特征，以真实的梅尔特征作为目标减小预测梅尔特征与真实梅尔特征的差距，更新编码器以及解码器参数来确保编码器降维后的特征损失达到最小。

多维鉴别器由多个鉴别器组成，每个鉴别器为一个一维卷积层，经池化层之后将每个鉴别器的输出参数拼接，通过线性层做分类，输出值接归一化指数函数层（softmax）。

三个模型结构如下图所示。

损失函数包括：

----①

L_mel为梅尔损失，其中m为梅尔特征的总维度，n为梅尔特征的总帧数，a为解码器输出的梅尔特征，b为真实的梅尔特征，即原始梅尔特征，①式中下标i,j分别表示梅尔特征维度和帧数；

----②

L_f为分类目标损失，其中k为分类类别总数，x为鉴别器输出的分类概率，y为真实分类目标，即，②式中下标i表示不同的分类类别； i表示鉴别器输出的第i个分类；

总损失函数 L=L_mel+L_f----③

其中L为网络训练的总损失函数，L_mel，L_f分别为梅尔损失和分类目标损失。通过优化梅尔损失可以提升编码器性能，使得编码器对梅尔特征编码后造成的损失更小，分类目标损失可以优化鉴别器性能，使得分类更准确。通过对这两个损失函数的优化可以提升系统整体的鉴别性能。

用L作为二次鉴别器模型的损失，训练模型直至模型收敛，完成训练。

训练过程主要针对多维鉴别器进行训练，从图3可以看出，多维鉴别器中的编码器由三层以上线性层组成，激活函数为Tanh函数；所述解码器由三层以上线性层组成，激活函数为Tanh函数，最后一个线性层直接输出。

本发明得到的二次鉴别器用于对命令词进行二次鉴别，在命令词识别过程中，首先通过原本识别识别模型进行初步识别，通过原本识别模型的初步识别发现部分词发生误识别，将这些词标记为易混淆词，由本发明经过训练完成得到的二次鉴别器再次进行命令词鉴别。

当原本识别模型识别到易混淆词后，将该易混淆词的梅尔特征输入二次鉴别器模型的编码器得到降维特征。

将降维特征输入二次鉴别器模型的多维鉴别器得到二次鉴别结果。

以下给出训练易混淆词鉴别器的一个具体实施例。

采集大量易混淆词语音音频，该示例中以“制冷模式”，“制热模式”，“二十一度”，“二十七度”四个命令词，以及其余非易混淆词的音频。设置非易混淆词类是为了防止第一识别模型将其他命令词错误识别为易混淆词。例如“打开空调”，“十六度”等，将采集的音频进行加噪、加混响的处理对数据进行扩充，以保证训练模型的抗噪，抗混响性能。

根据易混淆词的分类对每一条训练音频做训练标签。此处采用one-hot编码的方式。

例如：在本实例中有四个易混淆词和一类非易混淆可分为五类进行标注。制冷模式=（1,0,0,0,0）,制热模式=（0,1,0,0,0），二十一度=（0,0,1,0,0），二十七度（0,0,0,1,0），非易混淆词=（0,0,0,0,1）进行标注。

按照帧移位10ms，梅尔通道数80，提取音频的梅尔特征。

设置编码器参数，编码器由三层线性层组成，第一层线性层为80*40，即网络参数输入为80维，输出是40维；第二层40*20，第三层20*10，每层线性层之间用Tanh函数激活，该编码器将原始的梅尔特征由80维降至10维。

设置解码器参数，解码器由三层线性层组成，第一层10*20，第二层20*40，第三层40*80，每层全连接之间用Tanh函数激活，将解码器输出的低维特征还原到高维，如图2所示，解码器最后一个线性层不连接Tanh函数，直接输出预测梅尔特征，以避免不收敛的情况。

设置多维鉴别器参数，第一鉴别器采用卷积核尺寸为2*10的卷积核，通道数为64；第二鉴别器采用3*10的卷积核，通道数为64；第三鉴别器采用5*10的卷积核，通道数为64；第四鉴别器采用7*10的卷积核，通道数为64；第五鉴别器采用11*10的卷积核，通道数为64；经最大池化层后接320*5的线性层，最后接softmax函数层。

本实施例中，通过编码器将原本的80维特征降到10维，这10维特征是对原本特征的低维度表达，但对于易混淆词的识别信息损失小，解码参数维度是和编码器的维度一致，均为10，解码器的参数量也大幅减小，模型参数量小，运算速度更快，同时，二次鉴别模型是只针对易混淆词，需要识别的词数量少，鉴别效果好。

由于鉴别器是对编码器输出的编码特征做鉴别，所以每个鉴别器的卷积核有一个维度都为10，但另一个维度跨越的帧数不一样，通过跨越多个维度的鉴别器可以从多个角度来对易混淆词的特征进行鉴别，鉴别结果更准确。五个鉴别器对特征进行鉴别后都会输出64通道的向量，经最大池化后，会得到1*64的输出，将五个输出进行拼接，得到一个1*320的向量，经320*5的线性层后得到一个五维向量，经softmax得到五个分类的概率。

损失函数设计

L_mel为梅尔损失，其中m为梅尔特征的维度总数，在此示例中m为80，n为梅尔特征的帧数，其中a为解码器输出的梅尔特征，b为真实的梅尔特征.

L_f为分类目标损失，其中k为分类类别总数，在此示例中k为5，x为鉴别器输出的分类概率，y为真实分类目标.

L=L_mel+L_f

其中L为网络训练的总损失函数，L_mel梅尔损失，L_f为分类目标损失；反复迭代模型，直至模型收敛。

本实施例中所述二次鉴别器的使用方式可以为：

1.当原本识别模型识别到易混淆词后，将该词的梅尔特征输入二次鉴别器的编码器得到降维特征，例如识别到“制冷”的命令，将制冷音频的梅尔特征输入编码器降维。

2.将降维特征输入多维鉴别器得到二次鉴别结果，来进行判别是不是“制冷”。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于命令词语音识别的易混淆词防误识别方法，其特征在于，包括如下步骤：

其中L为总损失函数，L= L_mel+L_f；

L_mel，L_f分别为梅尔损失和分类目标损失；

----①

----②

采用训练得到的二次鉴别器进行易混淆词识别。

2.如权利要求1所述的基于命令词语音识别的易混淆词防误识别方法，其特征在于，S1步骤具体为：

S13.提取音频数据集中所有音频数据的原始梅尔特征。

3.如权利要求1所述的基于命令词语音识别的易混淆词防误识别方法，其特征在于，所述编码器由三层以上线性层组成，激活函数为Tanh函数。

4.如权利要求1所述的基于命令词语音识别的易混淆词防误识别方法，其特征在于，所述解码器由三层以上线性层组成，激活函数为Tanh函数，最后一个线性层直接输出。