CN111341298A

CN111341298A - 一种语音识别算法评分方法

Info

Publication number: CN111341298A
Application number: CN202010211815.XA
Authority: CN
Inventors: 黄艳伟; 鄂宁宁
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-06-26

Abstract

本发明涉及一种语音识别算法评分方法，获取测试人员对目标语句进行朗读而得到的原始音频信号，对原始音频信号进行预处理，得到初步音频信号，根据被测语音识别算法，对初步音频信号进行语音识别，得到文字数据，若文字数据的文字总个数等于目标语句的文字总个数，则拆分目标语句和文字数据，统计目标语句中的单字与对应相同位置的文字数据中的单字相同的文字个数，得到相同文字个数，计算相同文字个数与文字总个数的比值，并将比值输入到预设的评分标准，获得被测语音识别算法的评分结果。通过设置目标语句，并将目标语句与实际语音识别得到的文字数据进行单字比对，得到识别准确度，能够对语音识别算法进行可靠、准确有效地质检评分。

Description

一种语音识别算法评分方法

技术领域

本发明涉及一种语音识别算法评分方法。

背景技术

目前，随着电子科技的发展，通过语音识别的方式输入语音控制指令的控制方式的应用越来越广泛，通过语音识别算法将语音信号识别为文字信号。目前已研发出很多种语音识别算法，为了获取语音识别算法的识别准确性，需要对语音识别算法进行评分，然而，目前的评分方法的实现过程比较简单，无法实现可靠有效地质检评分。

发明内容

本发明的目的在于提供一种语音识别算法评分方法，用于解决目前的评分方法无法实现可靠有效地质检评分的问题。

为了解决上述问题，本发明采用以下技术方案：

一种语音识别算法评分方法，包括：

获取测试人员对目标语句进行朗读而得到的原始音频信号；

按照预设的预处理方式对所述原始音频信号进行预处理，得到初步音频信号；

根据被测语音识别算法，对所述初步音频信号进行语音识别，得到文字数据；

比较所述文字数据的文字总个数与所述目标语句的文字总个数；

若所述文字数据的文字总个数等于所述目标语句的文字总个数，则将所述目标语句进行拆分，拆分成与所述目标语句的文字总个数相等个数的单字，并将所述文字数据进行拆分，拆分与所述目标语句的文字总个数相等个数的单字；

比较所述目标语句中的各个单字与对应相同位置的所述文字数据中的各个单字是否相同；

统计所述目标语句中的单字与对应相同位置的所述文字数据中的单字相同的文字个数，得到相同文字个数；

计算所述相同文字个数与所述文字总个数的比值，并将所述比值输入到预设的评分标准，获得所述被测语音识别算法的评分结果；其中，所述评分标准包括至少两个比值区间，以及各个比值区间对应的评分结果，且比值区间越高，评分结果越高。

可选地，所述语音识别算法评分方法，还包括：

若所述文字数据的文字总个数不等于所述目标语句的文字总个数，则判定所述被测语音识别算法的评分结果为0。

可选地，所述按照预设的预处理方式对所述原始音频信号进行预处理，得到初步音频信号，包括：

对所述原始音频信号进行滤波处理；

对滤波处理后得到的音频信号进行周期性采样，得到预设频率的音频采样数据；

对所述音频采样数据进行加窗处理以及分帧处理，得到所述初步音频信号。

可选地，所述按照预设的预处理方式对所述原始音频信号进行预处理，得到初步音频信号之后，所述语音识别算法评分方法，还包括：

对所述初步音频信号进行语音特征提取，得到所述初步音频信号的初始语音特征参量，所述初始语音特征参量为描述音频的音色及韵律的声学特征参量；

将所述初始语音特征参量输入至预设的语音转换模型，经过转换后输出得到目标语音特征参量；

将所述目标语音特征参量进行合成，得到目标音频信号；

相应地，所述根据被测语音识别算法，对所述初步音频信号进行语音识别，得到文字数据，包括：

根据所述被测语音识别算法，对所述目标音频信号进行语音识别，得到所述文字数据。

可选地，所述对所述初步音频信号进行语音特征提取，得到所述初步音频信号的初始语音特征参量，包括：

通过梅尔滤波器组提取所述初步音频信号的梅尔频谱特征参量、对数基频特征参量及非周期分量特征参量；

获取所述梅尔频谱特征参量、对数基频特征参量及非周期分量特征参量对应的参量分布，得到所述初始语音特征参量。

可选地，所述语音转换模型的获取过程包括：

获取语音样本训练数据集中的随机样本与实际样本，分别提取所述随机样本的随机样本特征参量分布以及实际样本的实际样本特征参量分布；

根据所述随机样本特征参量分布及所述实际样本特征参量分布，对待训练的对抗网络模型进行迭代训练；

根据预设损失函数，计算所述对抗网络模型在迭代训练过程中输出的误差；

当所述误差小于或等于预设误差阈值时，停止训练，得到所述语音转换模型。

可选地，所述比较所述目标语句中的各个单字与对应相同位置的所述文字数据中的各个单字是否相同，包括：

首先比较所述目标语句中的第一个单字与所述文字数据中的第一个单字是否相同，相同记1；接着，比较所述目标语句中的第二个单字与所述文字数据中的第二个单字是否相同，相同记1；然后，比较所述目标语句中的第三个单字与所述文字数据中的第三个单字是否相同，相同记1；以此类推，直至比较所述目标语句中的最后一个单字与所述文字数据中的最后一个单字是否相同，相同记1；

相应地，所述统计所述目标语句中的单字与对应相同位置的所述文字数据中的单字相同的文字个数，得到相同文字个数，包括：

计算记数1的和值，得到的和值为所述相同文字个数。

本发明的有益效果为：在对被测语音识别算法进行评分时，需要测试人员对目标语句进行朗读，从而得到原始音频信号，为了降低干扰，对原始音频信号进行预处理，得到初步音频信号，然后根据被测语音识别算法，对初步音频信号进行语音识别，得到文字数据，比较文字数据的文字总个数与目标语句的文字总个数，当文字数据的文字总个数等于目标语句的文字总个数时，对目标语句以及文本数据进行拆分，拆分成单字，比较目标语句中的各个单字与对应相同位置的文字数据中的各个单字是否相同，统计目标语句中的单字与对应相同位置的文字数据中的单字相同的文字个数，得到相同文字个数，计算相同文字个数与文字总个数的比值，比值越高，表示相同文字个数越高，相应地得到的评分也就越高。因此，通过设置目标语句，并将目标语句与实际语音识别得到的文字数据进行单字比对，得到识别准确度，能够对语音识别算法进行可靠、准确有效地质检评分。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍：

图1是语音识别算法评分方法的流程示意图。

具体实施方式

本实施例提供一种语音识别算法评分方法，该语音识别算法评分方法可以应用于智能移动终端、计算机设备、服务器设备等等，即该语音识别算法评分方法的执行主体可以是智能移动终端、计算机设备、服务器设备等等，本实施例不对执行主体做限定，本实施例以计算机为例。

如图1所示，本实施例提供的语音识别算法评分方法包括以下步骤：

获取测试人员对目标语句进行朗读而得到的原始音频信号：

为了对被测语音识别算法进行评分，需要预先准备一个目标语句，该目标语句的具体实现形式不做限定，可以是一个词语，也可以是一段句子，当然，具体文字个数也不做限定。应当理解，为了降低偶然性，该目标语句不应设置的过短。

测试人员对该目标语句进行朗读，从而得到原始音频信号。应当理解，为了降低其他因素的干扰，测试人员应当具备较高的普通话水平，而且，朗读的声音大小也需要符合要求，不能过大或者过小。另外，为了获取到原始音频信号，计算机需要连接有麦克风，测试人员通过麦克风将原始音频信号输出给计算机。

举例来说，设定目标语句为“从前在家乡七八月的夜晚在庭院里纳凉的时候，我最爱看天上密密麻麻的繁星”，其中，逗号因为无法读出，因此，不能将逗号当作一个字。那么，测试人员朗读该目标语句得到的原始音频信号为“从前在家乡七八月的夜晚在庭院里纳凉的时候我最爱看天上密密麻麻的繁星”。

按照预设的预处理方式对所述原始音频信号进行预处理，得到初步音频信号：

原始音频信号中可能存在一定的杂音，为了防止这些杂音对语音识别造成干扰，按照预设的预处理方式对原始音频信号进行预处理，得到初步音频信号。其中，预处理方式由实际需要进行具体设置，可以只是滤波处理，也可以是下述提供的预处理过程：首先，对原始音频信号进行滤波处理；然后，对滤波处理后得到的音频信号进行周期性采样，得到预设频率（预设频率由实际需要进行设置，比如10kHz）的音频采样数据；最后，对音频采样数据进行加窗处理以及分帧处理，得到初步音频信号。其中，由于对音频信号进行周期性采样，以及加窗处理和分帧处理属于常规技术手段，不再赘述。

根据被测语音识别算法，对所述初步音频信号进行语音识别，得到文字数据：

为了进一步降低音频信号中的干扰，在根据被测语音识别算法对音频信号进行语音识别之前，且在按照预设的预处理方式对原始音频信号进行预处理，得到初步音频信号之后，语音识别算法评分方法还包括以下处理过程：

（1）对初步音频信号进行语音特征提取，得到初步音频信号的初始语音特征参量，初始语音特征参量为描述音频的音色及韵律的声学特征参量。其中，初始语音特征参量为基于语音数据帧提取的描述音频音色的声学特征参数，例如频谱参数；初始语音特征参量还包括用于表征音频的韵律特征的参数，例如基音频率参数。

其中，对初步音频信号进行语音特征提取，得到初步音频信号的初始语音特征参量，具体包括：

（i）通过梅尔滤波器组提取初步音频信号的梅尔频谱特征参量、对数基频特征参量及非周期分量特征参量。举例来说，在每一帧30毫秒的音频信号窗口内，以每10毫秒的长度提取初始语音特征参量，具体是基于梅尔滤波器组提取的梅尔频谱特征参量、对数基频特征参量以及非周期分量特征。对于梅尔频谱特征参量，在每一帧30毫秒的音频信号窗口内，以每10毫秒的长度进行特征提取，通过记录每帧初步音频信号的时域信号，将时域信号补充至长度与窗宽相同的序列，对序列进行离散傅里叶变换得到线性频谱，将线性频谱通过梅尔频率滤波器组，得到梅尔频谱。梅尔滤波器组包括三角带通滤波器，对所获取的频谱特征进行平滑化，有效地强调了音频信号的低频信息，突出了有用的信息，并且屏蔽了噪声的干扰。对于对数基频特征参量，由于人在发浊音时，气流通过声门使声带产生张弛振荡式振动，产生一股准周期脉冲气流，这一气流激励声道产生浊音，而这种声带振动的频率为基音频率。对经过预处理后的每一帧初步音频信号进行加窗处理后，计算该帧初步音频信号的倒谱，设置基音搜索的长度范围，查询该长度范围帧倒谱的最大值，若最大值大于窗口的门限值，则根据最大值计算得到浊音的基音频率，通过获取基音频率的对数反应语音数据的特征；若倒谱的最大值小于或等于窗口的门限值，则说明该帧初步音频信号为静音或清音。对于非周期分量特征参量，根据对初步音频信号的加窗信号，进行傅里叶逆变换，得到非周期分量的时域特征，根据对初步音频信号的加窗信号及频谱特征的最小相位，确定非周期分量的频域特征。

（ii）获取梅尔频谱特征参量、对数基频特征参量及非周期分量特征参量对应的参量分布，得到初始语音特征参量。

（2）将初始语音特征参量输入至预设的语音转换模型，经过转换后输出得到目标语音特征参量。

预设一个语音转换模型，将初始语音特征参量输入至该语音转换模型，经过转换后输出目标语音特征参量，目标语音特征参量为与实际正常语音的特征参量最相似的语音特征参量，目标语音特征参量为扰动最小或无扰动的语音数据。

本实施例提供一种语音转换模型的获取过程，包括：

i）获取语音样本训练数据集中的随机样本与实际样本，分别提取随机样本的随机样本特征参量分布以及实际样本的实际样本特征参量分布。

ii）根据随机样本特征参量分布及实际样本特征参量分布，对待训练的对抗网络模型进行迭代训练。其中，周期一致的对抗网络模型包括生成器和鉴别器。将随机样本特征参量分布输入至待训练的对抗网络模型的生成器网络，由生成器生成与实际样本特征参量分布对应的伪样本特征参量分布。通过第一对抗损失函数，计算伪样本特征参量分布与实际样本特征参量分布之间的距离。通过待训练的对抗网络模型的鉴别器网络，对伪样本特征参量分布与实际样本特征参量分布进行鉴别，得到鉴别结果特征分布。具体的，鉴别器对生成的伪样本特征与实际样本特征进行区分，得到区分后的结果，通过第二对抗性损失函数计算鉴别结果与随机样本特征之间的距离。将鉴别结果特征分布再次输入至生成器网络，再次生成与实际样本特征参量分布对应的伪样本特征参量分布，通过鉴别器网络再次对伪样本特征参量分布与实际样本特征参量分布进行鉴别，得到鉴别结果特征分布。从而实现：根据随机样本特征参量分布、实际样本特征参量分布、伪样本特征参量分布及鉴别结果特征分布，对待训练的对抗网络模型进行循环迭代训练。

iii）根据预设损失函数，计算对抗网络模型在迭代训练过程中输出的误差。具体地，根据第一对抗损失函数和第二对抗损失函数，得出对抗网络模型的循环一致性损失函数及身份映射损失函数；其中，第一对抗损失函数为计算伪样本特征参量分布与实际样本特征参量分布的距离的损失函数（即上段中的第一对抗损失函数），第二对抗损失函数为计算鉴别结果特征分布与随机样本特征分布的距离的损失函数（即上段中的第二对抗损失函数）；根据循环一致性损失函数及身份映射损失函数，得到对抗网络模型的预设损失函数；对抗网络模型输出通过预设损失函数计算的误差，将该误差作为目标训练值。

iiii）当误差小于或等于预设误差阈值时，停止训练，得到语音转换模型。当误差小于或等于预设误差阈值时，训练的对抗网络模型符合转换条件，则停止训练，得到语音转换模型。因此，通过该语音转换模型，能够将带有扰动语音特征参量转换为实际正常语音特征参量，完成非平行语音的转换。

（3）将目标语音特征参量进行合成，得到目标音频信号。本实施例中，根据目标语音特征参量，采用波形拼接及时域基因同步叠加算法，合成无扰动或扰动特征最小的目标音频信号。

根据被测语音识别算法，对初步音频信号进行语音识别，得到文字数据，即，根据被测语音识别算法，对目标音频信号进行语音识别，得到文字数据。

比较文字数据的文字总个数与所述目标语句的文字总个数：

得到文字数据之后，获取该文本数据的文字总个数。还需要获取目标语句的文字总个数。比较文字数据的文字总个数与目标语句的文字总个数。

若所述文字数据的文字总个数等于所述目标语句的文字总个数，则将所述目标语句进行拆分，拆分成与所述目标语句的文字总个数相等个数的单字，并将所述文字数据进行拆分，拆分与所述目标语句的文字总个数相等个数的单字：

若文字数据的文字总个数等于目标语句的文字总个数，表示语音识别的准确性比较高，那么接下来，将目标语句进行拆分，拆分成与目标语句的文字总个数相等个数的单字，并将文字数据进行拆分，拆分与目标语句的文字总个数相等个数的单字。设定文字数据的文字总个数与目标语句的文字总个数均为n，则将目标语句拆分成n个单字，将文字数据拆分成n个单字。应当理解，在拆分时，不能打乱单字之间的顺序，只进行语句中单字的拆分。

接上文中的例子，根据被测语音识别算法，对音频信号进行语音识别，得到的文字数据为“从前在家乡七八月的夜晚在挺远离那辆的时候我最爱看天上密密麻麻的反省”。目标词句与该文字数据的文字总个数相等，为33个字。那么，将目标语句“从前在家乡七八月的夜晚在庭院里纳凉的时候我最爱看天上密密麻麻的繁星”拆分成“从”、“前”、“在”、“家”、“乡”、“七”、“八”、“月”、“的”、“夜”、“晚”、“在”、“庭”、“院”、“里”、“纳”、“凉”、“的”、“时”、“候”、“我”、“最”、“爱”、“看”、“天”、“上”、“密”、“密”、“麻”、“麻”、“的”、“繁”、“星”。将文字数据“从前在家乡七八月的夜晚在挺远离那辆的时候我最爱看天上密密麻麻的反省” 拆分成 “从”、“前”、“在”、“家”、“乡”、“七”、“八”、“月”、“的”、“夜”、“晚”、“在”、“挺”、“远”、“离”、“那”、“辆”、“的”、“时”、“候”、“我”、“最”、“爱”、“看”、“天”、“上”、“密”、“密”、“麻”、“麻”、“的”、“反”、“省”。

另外，若文字数据的文字总个数不等于目标语句的文字总个数，表示该被测语音识别算法的精度很差，则直接判定该被测语音识别算法的评分结果为0。

比较所述目标语句中的各个单字与对应相同位置的所述文字数据中的各个单字是否相同：

比较目标语句中的各个单字与对应相同位置的文字数据中的各个单字是否相同，本实施例中，按照顺序依次进行比较，首先比较目标语句中的第一个单字与文字数据中的第一个单字是否相同，相同记1；接着，比较目标语句中的第二个单字与文字数据中的第二个单字是否相同，相同记1；然后，比较目标语句中的第三个单字与文字数据中的第三个单字是否相同，相同记1；以此类推，直至比较目标语句中的最后一个单字与文字数据中的最后一个单字是否相同，相同记1。

接上文中的例子，比较目标语句中的第一个单字“从”与文字数据中的第一个单字“从”是否相同，相同记1；接着比较目标语句中的第二个单字“前”与文字数据中的第二个单字“前”是否相同，相同记1；接着比较目标语句中的第三个单字“在”与文字数据中的第三个单字“在”是否相同，相同记1；接着比较目标语句中的第四个单字“家”与文字数据中的第四个单字“家”是否相同，相同记1；以此类推，直至比较目标语句中的最后一个（即第三十三个）单字“星”与文字数据中的最后一个（即第三十三个）单字“省”是否相同，相同记1。

统计所述目标语句中的单字与对应相同位置的所述文字数据中的单字相同的文字个数，得到相同文字个数：

统计目标语句中的单字与对应相同位置的文字数据中的单字相同的文字个数，即统计目标语句中与文字数据中相同单字的个数，为相同文字个数。由于每相同一个单字，就记数1，那么，计算记数1的和值，得到的和值为相同文字个数。

接上文中的例子，目标语句中的单字与对应相同位置的文字数据中的单字相同的文字分别是：“从”、“前”、“在”、“家”、“乡”、“七”、“八”、“月”、“的”、“夜”、“晚”、“在”、 “的”、“时”、“候”、“我”、“最”、“爱”、“看”、“天”、“上”、“密”、“密”、“麻”、“麻”、“的”，记数为1的个数为26，那么，相同文字个数为26。

计算所述相同文字个数与所述文字总个数的比值，并将所述比值输入到预设的评分标准，获得所述被测语音识别算法的评分结果；其中，所述评分标准包括至少两个比值区间，以及各个比值区间对应的评分结果，且比值区间越高，评分结果越高：

预设一个评分标准，该评分标准包括至少两个比值区间（比值区间的个数预计区间范围大小由实际需要进行设置），以及各个比值区间对应的评分结果，且比值区间越高，评分结果越高，使得整体上满足比值越高，评分结果越高。表1给出了一种具体实现方式。其中，A1、A2、A3和A4均为大于0小于1的数，且A1＜A2＜A3＜A4；X1、X2、X3和X4的具体数值由实际需要进行设置，但是需要满足X1＜X2＜X3＜X4。

表1

比值区间	评分结果
		[A1，A2）	X1
[A2，A3）	X2
		[A3，A4）	X3
[A4，1]	X4

计算相同文字个数与文字总个数的比值，并将比值输入到预设的评分标准，根据该比值所处的比值区间，确定对应的评分结果，该评分结果就是被测语音识别算法的评分结果，比如：若比值处于[A2，A3），则被测语音识别算法的评分结果为X2。

表2给出了评分标准的一个具体示例。

表2

比值区间	评分结果
		[0.6，0.7）	80
[0.7，0.8）	85
		[0.8，0.9）	90
[0.9，1]	95

由于相同文字个数为26，文字总个数为33，则计算26与33的比值，约等于0.788，0.788处于[0.7，0.8）中，则被测语音识别算法的评分结果为85分。

上述实施例仅以一种具体的实施方式说明本发明的技术方案，任何对本发明进行的等同替换及不脱离本发明精神和范围的修改或局部替换，其均应涵盖在本发明权利要求保护的范围之内。

Claims

1.一种语音识别算法评分方法，其特征在于，包括：

获取测试人员对目标语句进行朗读而得到的原始音频信号；

2.根据权利要求1所述的语音识别算法评分方法，其特征在于，所述语音识别算法评分方法，还包括：

3.根据权利要求1所述的语音识别算法评分方法，其特征在于，所述按照预设的预处理方式对所述原始音频信号进行预处理，得到初步音频信号，包括：

对所述原始音频信号进行滤波处理；

4.根据权利要求1所述的语音识别算法评分方法，其特征在于，所述按照预设的预处理方式对所述原始音频信号进行预处理，得到初步音频信号之后，所述语音识别算法评分方法，还包括：

将所述目标语音特征参量进行合成，得到目标音频信号；

5.根据权利要求4所述的语音识别算法评分方法，其特征在于，所述对所述初步音频信号进行语音特征提取，得到所述初步音频信号的初始语音特征参量，包括：

6.根据权利要求4所述的语音识别算法评分方法，其特征在于，所述语音转换模型的获取过程包括：

7.根据权利要求1所述的语音识别算法评分方法，其特征在于，所述比较所述目标语句中的各个单字与对应相同位置的所述文字数据中的各个单字是否相同，包括：

计算记数1的和值，得到的和值为所述相同文字个数。