CN117476000A

CN117476000A - 一种语音识别效果的优化方法及系统

Info

Publication number: CN117476000A
Application number: CN202311433107.0A
Authority: CN
Inventors: 敖榜; 梁寿愚; 于力; 赵必美; 董召杰; 卢志良; 姚森敬; 刘懋; 吴石松; 辛文成; 郭尧; 王鹏凯; 任正国; 杨伟; 廖灿; 李成; 郑桦
Original assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd
Current assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-30

Abstract

本发明公开了一种语音识别效果的优化方法及系统，包括：采集音频数据，并进行降噪处理；对所述音频数据进行初步语音识别；对所述音频进行特征选择与数据库匹配；利用不同数据库的训练结果，对语音进行识别。适用于处理多种类型和风格的声音。通过计算每个识别结果的置信度，本发明能够为用户提供更可靠的识别结果。这种方法特别适用于处理模糊或不确定的音频数据。通过利用不同的数据库进行学习和训练，从而提高识别的准确性和鲁棒性。

Description

一种语音识别效果的优化方法及系统

技术领域

本发明涉及语音识别技术领域，具体为一种语音识别效果的优化方法及系统。

背景技术

随着计算机技术和算法的进步，语音识别技术已经从早期的基于规则的系统发展到现代的基于深度学习的系统。早期的系统依赖于手工制定的规则和有限的词汇，而现代系统可以处理自然语言并识别大量的词汇。

在实际应用中，语音识别系统经常需要在嘈杂的环境中工作，如街道、餐馆或家庭。这些环境中的背景噪声会干扰语音识别的准确性。因此，降噪技术在语音识别中起到了关键作用。

随着技术的进步，语音识别系统开始向个性化和适应性方向发展。这意味着系统可以根据每个用户的声音和口音进行优化，从而提高识别的准确性。

发明内容

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有的识别结果受环境噪声影响大，以及如何实现声音识别的优化问题。

为解决上述技术问题，本发明提供如下技术方案：一种语音识别效果的优化方法，包括：

采集音频数据，并进行降噪处理；

对所述音频数据进行初步语音识别；

对所述音频进行特征选择与数据库匹配；

利用不同数据库的训练结果，对语音进行识别。

作为本发明所述的语音识别效果的优化方法的一种优选方案，其中：所述降噪处理包括，将连续的音频信号分割成短的帧，每帧的时长为t的数据；

在非语音段中估计噪声的声谱，并将其用作噪声的参考；

若所有的所述参考的声谱都为相同的声谱，则判定噪声为固定噪声，计算每帧的幅度谱，并从减去所述固定噪声的噪声谱；

若所有的所述参考的声谱存在不相同的声谱，则判定噪声为可变噪声；对噪声为可变噪声的音频数据的每一帧，计算瞬时能量：

其中，a表示常数，x_i表示频率分量的幅值，i表示每一帧音频中采样点的时间参数，N表示每一帧音频中帧的长度。

作为本发明所述的语音识别效果的优化方法的一种优选方案，其中：所述降噪还包括，按照时域特征将所述帧的所述短时能量绘制曲线作为曲线1，将非语言段的所述短时能量的曲线提取，若提取的曲线在时域特征上呈现为不连续曲线，则将提取的曲线的不连续位置进行平滑处理，将处理后的曲线作为预测的噪声曲线，作为曲线2，其中曲线2包括非语言段的实际曲线和语言段的预测的曲线；在非语言段的实际曲线找到与语言段的预测的曲线具有相同能量的帧作为噪声声谱在语言段的预测结果；

当所述预测结果为一个，则直接从实际的声谱减去所述预测结果；

当所述预测结果为m个，则逐一从实际的声谱减去所述预测结果，形成m个降噪后的声谱；

当所述预测结果为0个，则不进行降噪处理。

作为本发明所述的语音识别效果的优化方法的一种优选方案，其中：对所述音频数据进行初步语音识别包括，获取降噪后的音频信息，进行语音识别；

若降噪的噪声为可变噪声，当前帧的降噪的预测结果为m个时，对m帧的降噪结果进行识别，在通过ai识别语音的结果表明语意连贯时，则初步判定能够保证语意连贯的降噪结果是准确的；

当判定为准确的数量为0则将此帧的音频数据返回到降噪前，当判定为准确的数量大于1，则将保留所有判定为准确的降噪结果。

作为本发明所述的语音识别效果的优化方法的一种优选方案，其中：所述特征选择包括，通过梅尔频率倒谱系数描述声音的短时功率谱、通过声谱图可以捕获声音的时间－频率特性、通过色度特征表示12个不同的半音的强度；

对所有判定为准确的降噪结果进行特征向量构建：

V＝[MFCC₁，MFCC₂，...，MFCC_q，Spectrogram，Chromagram]

其中，MFCC_q表示提取的第q个梅尔频率倒谱系数，Spectrogram表示声谱图捕获的时间－频率特性，Chromagram是音乐信号中的一个特征，表示12个不同的半音的强度；

数据库构建：

对每个已知的声音样本，提取特征并形成特征向量，存储在数据库中；

每个样本在数据库中生成一个唯一的标识符和类别标签。

作为本发明所述的语音识别效果的优化方法的一种优选方案，其中：所述数据库匹配包括，使用余弦相似度来比较未知样本的特征向量与数据库中的特征向量：

其中，V_u表示输入样本的特征向量，V_d表示数据库的样本特征向量；

选择相似度最高的样本作为匹配结果。

作为本发明所述的语音识别效果的优化方法的一种优选方案，其中：所述对语音进行识别包括，利用不同的数据库对语音识别单元进行学习训练，将降噪后的音频数据输入匹配的所述语音识别单元进行识别；若为固定噪声或可变噪声的降噪结果为1个声频数据，则直接输出识别结果；若为可变噪声且降噪结果为多个声频数据，则输出置信度评估最高的结果为识别结果；

所述置信度包括：

C＝w₁×CosineSimilarity+w₂×S+w₃×Distinctiveness

其中，w₁，w₂，w₃表示权重因子；SemanticCoherence表示识别结果的语义连贯性，若连贯则为1，若不连贯则为0；Distinctiveness＝1-AvgSimilarity表示识别结果与其他结果的差异程度；

计算每个备选结果与主要识别结果的余弦相似度：

其中，A_i是第i个备选结果的特征向量；

平均相似度：计算所有备选结果与主要识别结果的余弦相似度的平均值；

其中，p表示备选结果的数量。

一种采用本发明所述方法的语音识别效果的优化系统，其特征在于：

采集模块，采集音频数据，并进行降噪处理；

匹配模块，对所述音频数据进行初步语音识别；对所述音频进行特征选择与数据库匹配；

识别模块，利用不同数据库的训练结果，对语音进行识别。

一种计算机设备，包括：存储器和处理器；所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现本发明中任一项所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现本发明中任一项所述的方法的步骤。

本发明的有益效果：本发明提供的语音识别效果的优化方法适用于处理多种类型和风格的声音。通过计算每个识别结果的置信度，本发明能够为用户提供更可靠的识别结果。这种方法特别适用于处理模糊或不确定的音频数据。通过利用不同的数据库进行学习和训练，从而提高识别的准确性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明第一个实施例提供的一种语音识别效果的优化方法的整体流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

实施例1

参照图1，为本发明的一个实施例，提供了一种语音识别效果的优化方法，包括：

S1：采集音频数据，并进行降噪处理。

进一步的，所述降噪处理包括，将连续的音频信号分割成短的帧，每帧的时长为t的数据；在非语音段中估计噪声的声谱，并将其用作噪声的参考；若所有的所述参考的声谱都为相同的声谱，则判定噪声为固定噪声，计算每帧的幅度谱，并从减去所述固定噪声的噪声谱；若所有的所述参考的声谱存在不相同的声谱，则判定噪声为可变噪声；对噪声为可变噪声的音频数据的每一帧，计算瞬时能量：

按照时域特征将所述帧的所述短时能量绘制曲线作为曲线1，将非语言段的所述短时能量的曲线提取，若提取的曲线在时域特征上呈现为不连续曲线，则将提取的曲线的不连续位置进行平滑处理，将处理后的曲线作为预测的噪声曲线，作为曲线2，其中曲线2包括非语言段的实际曲线和语言段的预测的曲线；在非语言段的实际曲线找到与语言段的预测的曲线具有相同能量的帧作为噪声声谱在语言段的预测结果。

当所述预测结果为一个，则直接从实际的声谱减去所述预测结果；当所述预测结果为m个，则逐一从实际的声谱减去所述预测结果，形成m个降噪后的声谱；当所述预测结果为0个，则不进行降噪处理。

要知道的是，预测结果只是可能性概率较大的声谱，所以当有预测结果的时候，直接减去在没有找到预测结果的时候，不进行降噪处理，是因为如果预测结果为零个，就说明这个噪声是个极其不规律的噪声，并不能在声谱中找到规律性的表达，所以在此处不进行降噪处理，避免造成有效的声谱缺失。

S2：对所述音频数据进行初步语音识别；对所述音频进行特征选择与数据库匹配。

进一步的，对所述音频数据进行初步语音识别包括，获取降噪后的音频信息，进语音识别；若降噪的噪声为可变噪声，当前帧的降噪的预测结果为m个时，对m帧的降噪结果进行识别，在通过ai识别语音的结果表明语意连贯时，则初步判定能够保证语意连贯的降噪结果是准确的；当判定为准确的数量为0则将此帧的音频数据返回到降噪前，当判定为准确的数量大于1，则将保留所有判定为准确的降噪结果。

通过梅尔频率倒谱系数描述声音的短时功率谱、通过声谱图可以捕获声音的时间－频率特性、通过色度特征表示12个不同的半音的强度。

对所有判定为准确的降噪结果进行特征向量构建：

V＝[MFCC₁，MFCC₂，...，MFCC_q，Spectrogram，Chromagram]

其中，MFCC_q表示提取的第q个梅尔频率倒谱系数，Spectrogram表示声谱图捕获的时间－频率特性，Chromagram是音乐信号中的一个特征，表示12个不同的半音的强度。

数据库构建：

对每个已知的声音样本，提取特征并形成特征向量，存储在数据库中；每个样本在数据库中生成一个唯一的标识符和类别标签。

使用余弦相似度来比较未知样本的特征向量与数据库中的特征向量：

选择相似度最高的样本作为匹配结果。

要知道的是，初步的语音识别只是对语序或语义进行简单的识别，通过AI识别语音的方法识别降噪过程是否使音频数据的有效内容缺失，若存在数据缺失，就说明降噪过程是不好的，所以需要恢复资料。而对于m帧降噪结果，分析得出满足初步识别要求的多组数据，说明这几组数据都是满足语序或语义的AI识别，那么就需要进一步进行分类识别。以分类识别的结果为最终结果。

S3：利用不同数据库的训练结果，对语音进行识别。

利用不同的数据库对语音识别单元进行学习训练，将降噪后的音频数据输入匹配的所述语音识别单元进行识别；若为固定噪声或可变噪声的降噪结果为1个声频数据，则直接输出识别结果；若为可变噪声且降噪结果为多个声频数据，则输出置信度评估最高的结果为识别结果。

要知道的是，在进行语音识别时，会进行再一次降噪处理，因为有一部分数据在前期降噪过程中数据缺失较多，所以恢复到降噪前的状态。有一些数据经过降噪后得到的是降噪后的结果，所以统一对这些数据进行降噪，能够保证没有降噪的数据得到降噪。在进行降噪时，对于已经降噪的数据，由于基本不存在噪声，所以可以很快的降噪甚至是降噪过程中不进行任何处理；而对于恢复到降噪前状态的数据，它的降噪过程能够保证去除声谱中一部分噪声能够使识别结果更加精确。

所述置信度包括：

C＝w₁×CosineSimilarity+w₂×S+w₃×Distinctiveness

其中，w₁，w₂，w₃表示权重因子；SemanticCoherence表示识别结果的语义连贯性，若连贯则为1，若不连贯则为0；Distinctiveness＝1-AvgSimilarity表示识别结果与其他结果的差异程度；计算每个备选结果与主要识别结果的余弦相似度：

其中，A_i是第i个备选结果的特征向量；平均相似度：计算所有备选结果与主要识别结果的余弦相似度的平均值；

其中，p表示备选结果的数量。

要说的是，因为对于可变噪声，它的降噪结果可能为多个，而这多个结果在初步分析中都认定为是符合判定的降噪结果，所以对这些符合判定的降噪结果进行分析，根据置信度的分析结果，置信度大肯定说明这一个的降噪结果更符合识别的要求，那么这个结果肯定是更准确的。

一种语音识别效果的优化系统，其特征在于：采集模块，采集音频数据，并进行降噪处理。匹配模块，对所述音频数据进行初步语音识别；对所述音频进行特征选择与数据库匹配。识别模块，利用不同数据库的训练结果，对语音进行识别。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器、磁变存储器、铁电存储器、相变存储器、石墨烯存储器等。易失性存储器可包括随机存取存储器或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器或动态随机存取存储器等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。

本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

实施例2

以下，为本发明的一个实施例，提供了一种语音识别效果的优化方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

随机选取两种常规方法与本发明在三个环境下进行识别的对比，对比结果如表1所示。

表1数据对比表

从上表中，我们可以明显看到，在三种不同的噪声环境A、B和C中，本发明的语音识别准确率都明显高于常规方法1和常规方法2。特别是在噪声环境C中，本发明的识别准确率达到了80％，而常规方法1和2的识别准确率分别只有60％和62％。此外，考虑到所有噪声环境的平均识别准确率，本发明达到了82.3％，而常规方法1和2的平均识别准确率分别为65％和67％。这进一步证明了本发明在提高语音识别准确率方面的优越性。这种显著的性能提升归功于本发明在降噪处理、特征选择和数据库匹配等方面的创新设计。通过更准确地估计和消除噪声，以及利用不同数据库的训练结果进行识别修正，本发明能够在各种噪声条件下都提供更准确的语音识别结果。

表2本发明与其他常规方法在不同语言特征下的语音识别准确率表

从上表中，我们可以明显看到，在三种不同的语言特征A、B和C下，本发明的语音识别准确率都明显高于常规方法1和常规方法2。特别是在语言特征A下，本发明的识别准确率达到了90％，而常规方法1和2的识别准确率分别只有75％和78％。此外，考虑到所有语言特征的平均识别准确率，本发明达到了87.7％，而常规方法1和2的平均识别准确率分别为71％和73.7％。这进一步证明了本发明在处理不同语言特征时的优越性。这种显著的性能提升归功于本发明在特征选择和数据库匹配方面的创新设计。通过更准确地提取和匹配语言特征，以及利用不同数据库的训练结果进行识别，本发明能够在各种语言特征条件下都提供更准确的语音识别结果。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种语音识别效果的优化方法，其特征在于，包括：

采集音频数据，并进行降噪处理；

对所述音频数据进行初步语音识别；

对所述音频进行特征选择与数据库匹配；

利用不同数据库的训练结果，对语音进行识别。

2.如权利要求1所述的语音识别效果的优化方法，其特征在于：所述降噪处理包括，将连续的音频信号分割成短的帧，每帧的时长为t的数据；

在非语音段中估计噪声的声谱，并将其用作噪声的参考；

3.如权利要求2所述的语音识别效果的优化方法，其特征在于：所述降噪还包括，按照时域特征将所述帧的所述短时能量绘制曲线作为曲线1，将非语言段的所述短时能量的曲线提取，若提取的曲线在时域特征上呈现为不连续曲线，则将提取的曲线的不连续位置进行平滑处理，将处理后的曲线作为预测的噪声曲线，作为曲线2，其中曲线2包括非语言段的实际曲线和语言段的预测的曲线；在非语言段的实际曲线找到与语言段的预测的曲线具有相同能量的帧作为噪声声谱在语言段的预测结果；

当所述预测结果为0个，则不进行降噪处理。

4.如权利要求3所述的语音识别效果的优化方法，其特征在于：对所述音频数据进行初步语音识别包括，获取降噪后的音频信息，进行语音识别；

5.如权利要求4所述的语音识别效果的优化方法，其特征在于：所述特征选择包括，通过梅尔频率倒谱系数描述声音的短时功率谱、通过声谱图可以捕获声音的时间－频率特性、通过色度特征表示12个不同的半音的强度；

对所有判定为准确的降噪结果进行特征向量构建：

V＝[MFCC₁，MFCC₂，...，MFCC_q，Spectrogram，Chromagram]

数据库构建：

每个样本在数据库中生成一个唯一的标识符和类别标签。

6.如权利要求5所述的语音识别效果的优化方法，其特征在于：所述数据库匹配包括，使用余弦相似度来比较未知样本的特征向量与数据库中的特征向量：

选择相似度最高的样本作为匹配结果。

7.如权利要求6所述的语音识别效果的优化方法，其特征在于：所述对语音进行识别包括，利用不同的数据库对语音识别单元进行学习训练，将降噪后的音频数据输入匹配的所述语音识别单元进行识别；若为固定噪声或可变噪声的降噪结果为1个声频数据，则直接输出识别结果；若为可变噪声且降噪结果为多个声频数据，则输出置信度评估最高的结果为识别结果；

所述置信度包括：

C＝w₁×CosineSimilarity+w₂×S+w₃×Distinctiveness

计算每个备选结果与主要识别结果的余弦相似度：

其中，A_i是第i个备选结果的特征向量；

其中，p表示备选结果的数量。

8.一种采用如权利要求1-7任一所述方法的语音识别效果的优化系统，其特征在于：

采集模块，采集音频数据，并进行降噪处理；

识别模块，利用不同数据库的训练结果，对语音进行识别。

9.一种计算机设备，包括：存储器和处理器；所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。