CN112951277A

CN112951277A - 评测语音的方法和装置

Info

Publication number: CN112951277A
Application number: CN201911171941.0A
Authority: CN
Inventors: 欧志刚; 高芸; 李晓冬
Original assignee: New Oriental Education Technology Group Co ltd
Current assignee: New Oriental Education Technology Group Co ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-06-11
Anticipated expiration: 2039-11-26
Also published as: CN112951277B

Abstract

本申请提供了一种评测语音的方法，包括：获取待测语音对应的第二音频特征数据和第二音素数据，所述待测语音与第二字符存在对应关系；通过神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征，所述神经网络为使用训练语音对应的第一音素数据和第一音频特征数据训练得到的；根据所述第一特征向量评测所述待测语音。绝大部分字符的发音都可以归纳为音素集合中全部或部分音素的组合，因此，相比于单纯依靠一种数据训练神经网络，通过音素和音频特征联合训练神经网络能够提高神经网络的预测准确率，使用该神经网络进行语音评测能够提高语音评测的准确度。

Description

评测语音的方法和装置

技术领域

本申请涉及人工智能领域，具体涉及一种评测语音的方法和装置。

背景技术

语音评测是语音练习领域的一个环节，例如，在用户学习英语的过程中，需要对发音进行评测，以确定发音是否准确。一种对单词发音进行评测的方法是基于整句或者整段发音进行打分，该方法需要对待测语音进行分割处理和对齐处理，确定每个音素所对应的语音帧，再进行评测。

由于噪音等因素的存在，在对待测语音进行分割处理和对齐处理时不可避免地会出现误差，从而导致评测结果的准确度下降。因此，如何提高语音评测的准确度是当前需要解决的问题。

发明内容

本申请提供一种评测语音的方法和装置，能够提高语音评测的准确度。

第一方面，提供了一种评测语音的方法，包括：获取待测语音对应的第二音频特征数据和第二音素数据，所述待测语音与第二字符存在对应关系；通过神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征，所述神经网络为使用第一音素数据和第一音频特征数据训练得到的，所述第一音素数据和第一音频特征数据为训练语音对应的数据，并且，所述训练语音与第一字符存在对应关系；根据所述第一特征向量评测所述待测语音。

绝大部分字符的发音都可以归纳为音素集合中全部或部分音素的组合，因此，相比于单纯依靠一种数据训练神经网络，通过音素和音频特征联合训练神经网络能够提高神经网络的预测准确率，使用该神经网络进行语音评测能够提高语音评测的准确度。

第二方面，提供了一种训练神经网络的方法，包括：获取第一字符对应的第一音频特征数据和第一音素数据；根据所述第一音频特征数据和所述第一音素数据训练神经网络。

第三方面，提供了一种评测语音的装置，该装置包括输入单元和处理单元，

所述输入单元用于：获取待测语音对应的第二音频特征数据和第二音素数据，所述待测语音与第二字符存在对应关系；

所述处理单元用于：通过神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征，所述神经网络为使用第一音素数据和第一音频特征数据训练得到的，所述第一音素数据和所述第一音频特征数据为训练语音对应的数据，并且，所述训练语音与第一字符存在对应关系；

根据所述第一特征向量评测所述待测语音。

结合第三方面，在第三方面的第一种可能的实现方式中，

所述输入单元还用于：获取所述第二字符的标准语音对应的第三音频特征数据；

所述处理单元具体用于：通过所述神经网络处理所述第三音频特征数据和所述第二音素数据，生成第二特征向量，所述第二特征向量用于指示所述标准语音的音频特征；确定所述第一特征向量和所述第二特征向量的相似度；根据所述相似度评测所述待测语音。

结合第三方面，在第三方面的第二种可能的实现方式中，所述处理单元具体用于：

通过所述神经网络处理所述第一特征向量，生成N个概率值，所述N个概率值为所述待测语音属于预设的N个字符的概率，N为正整数；

根据所述N个概率值中的最大概率值确定所述待测语音对应的目标字符；

根据所述目标字符与所述第二字符是否相同对所述待测语音进行评测。

结合第三方面的第二种可能的实现方式，在第三方面的第三种可能的实现方式中，所述处理单元具体用于：

当所述目标字符与所述第二字符相同时，根据所述最大概率值评测所述待测语音；或者，

当所述目标字符与所述第二字符不同时，确定所述待测语音的评测结果为不合格。

结合第三方面的第二种可能的实现方式或第三种可能的实现方式，在第三方面的第四种可能的实现方式中，所述处理单元具体用于：

根据第一评测结果和第二评测结果确定所述待测语音的最终评测结果，其中，所述第一评测结果为根据所述目标字符与所述第二字符是否相同对所述待测语音进行评测得到的评测结果，

所述第二评测结果为基于以下方法得到的评测结果：

获取所述第二字符的标准语音对应的第三音频特征数据；

通过所述神经网络处理所述第三音频特征数据和所述第二音素数据，生成第二特征向量，所述第二特征向量用于指示所述标准语音的音频特征；

确定所述第一特征向量和所述第二特征向量的相似度；

根据所述相似度评测所述待测语音。

结合第三方面至第三方面的第三种可能的实现方式中的任意一种实现方式，在第三方面的第五种可能的实现方式中，

所述输入单元还用于：获取所述第一音频特征数据和所述第一音素数据；

所述处理单元还用于：根据所述第一音频特征数据和所述第一音素数据训练所述神经网络。

结合第三方面的第五种可能的实现方式，在第三方面的第六种可能的实现方式中，所述神经网络包括第一子网络和第二子网络，所述处理单元具体用于：

将所述第一音频特征数据输入所述第一子网络，生成第一输出结果；

将所述第一音素数据输入所述第二子网络，生成第二输出结果；

拼接所述第一输出结果和所述第二输出结果，生成统一输出结果；

根据所述统一输出结果训练所述神经网络。

结合第三方面的第六种可能的实现方式，在第三方面的第七种可能的实现方式中，所述第一音频特征数据包括融合数据和声谱数据，所述融合数据包括频谱数据和倒频谱数据，所述第一子网络包括深度卷积神经网络DCNN和残差网络ResNet，

所述处理单元具体用于：

将所述融合数据输入所述DCNN，生成第三输出结果，所述第三输出结果属于所述第一输出结果；

将所述声谱数据输入所述ResNet，生成第四输出结果，所述第四输出结果属于所述第一输出结果；

确定所述第三输出结果和所述第四输出结果为所述第一输出结果。

结合第三方面的第五种可能的实现方式，在第三方面的第八种可能的实现方式中，

所述输入单元具体用于：获取所述第一字符对应的音频文件；

所述处理单元具体用于：对所述音频文件进行采样处理和分帧处理，生成M帧数据，M为预设的正整数；

对所述M帧数据中的每一帧数据进行处理，生成M个包括频谱数据和倒频谱数据的融合数据以及M个声谱数据。

第四方面，提供了一种训练神经网络的装置，该装置包括输入单元和处理单元，

所述输入单元用于：获取第一字符对应的第一音频特征数据和第一音素数据；

所述处理单元用于：根据所述第一音频特征数据和所述第一音素数据训练神经网络。

结合第四方面，在第四方面的第一种可能的实现方式中，所述神经网络包括第一子网络和第二子网络，所述处理单元具体用于：

根据所述统一输出结果训练所述神经网络。

结合第四方面的第一种可能的实现方式，在第四方面的第二种可能的实现方式中，所述第一音频特征数据包括融合数据和声谱数据，所述融合数据包括频谱数据和倒频谱数据，所述第一子网络包括深度卷积神经网络DCNN和残差网络ResNet，

所述处理单元具体用于：

结合第四方面至第四方面的第二种可能的实现方式中的任意一种可能的实现方式，在第四方面的第三种可能的实现方式中，

所述处理单元具体用于：对所述音频文件进行采样处理和分帧处理，生成M帧数据，M为预设的正整数；对所述M帧数据中的每一帧数据进行处理，生成M个包括频谱数据和倒频谱数据的融合数据以及M个声谱数据。

结合第四方面至第四方面的第二种可能的实现方式中的任意一种可能的实现方式，在第四方面的第四种可能的实现方式中，

所述输入单元还用于：获取待测语音对应的第二音频特征数据和第二音素数据，所述待测语音与第二字符存在对应关系；

所述处理单元还用于：通过训练后的所述神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征；

根据所述第一特征向量评测所述待测语音。

第五方面，提供了一种处理装置，该装置可以实现第一方面和/或第二方面中的方法所对应的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。

在一种可能的设计中，该装置为处理设备(例如，终端设备或网络设备)或芯片。该装置可以包括处理单元和输入单元。当该装置是处理设备时，该处理单元可以是处理器，该输入单元可以是通信模块；该处理设备还可以包括存储单元，该存储单元可以是存储器；该存储单元用于存储指令，该处理单元执行该存储单元所存储的指令，以使该处理设备执行第一方面和/或第二方面所述的方法。当该装置是处理设备内的芯片时，该处理单元可以是处理器，该输入单元可以是输入接口、管脚或电路等；该处理单元执行存储单元所存储的指令，以使包含该芯片的处理设备执行第一方面和/或第二方面所述的方法，该存储单元可以是该芯片内的存储单元(例如，寄存器、缓存等)，也可以是该处理设备内的位于该芯片外部的存储单元(例如，只读存储器、随机存取存储器等)。

第六方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储了计算机程序，该计算机程序被处理器执行时，使得处理器执行第一方面和/或第二方面所述的方法。

第七方面，提供了一种计算机程序产品，包括计算机程序代码，当该计算机程序代码被处理器运行时，使得处理器执行第一方面和/或第二方面所述的方法。

附图说明

图1是一种适用于本申请的一种神经网络的示意图；

图2是一种基于损失函数更新神经网络参数的方法的示意图；

图3是计算损失函数的梯度的方法的示意图；

图4是本申请提供的一种训练神经网络的方法的示意图；

图5是本申请提供的一种神经网络的示意图；

图6是本申请提供的一种子网络的示意图；

图7是本申请提供的另一种子网络的示意图；

图8是本申请提供的一种基于神经网络进行语音评测的方法的示意图；

图9是本申请提供的一种训练神经网络的装置的示意图；

图10是本申请提供的一种基于神经网络进行语音评测的装置的示意图；

图11是本申请提供的一种处理装置的示意图。

具体实施方式

为了便于理解本申请的技术方案，首先对本申请所涉及的概念做简要介绍。

神经网络也可以称为人工神经网络(artificial neural network，ANN)，ANN中的每一层的工作可以用数学表达式

来描述。从物理层面看，ANN中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由

完成，4的操作由+b完成，5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换，即每一层的权重W控制着如何变换空间。训练深度神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此，ANN的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

因为希望ANN的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个输出值的过程。

损失函数通常是多变量函数，而梯度可以反映变量发生变化时损失函数的输出值的变化速率，梯度值的绝对值越大，损失函数的输出值的变化率越大，可以计算更新不同参数时损失函数的梯度值，沿着梯度值下降最快的方向不断更新参数，尽快缩小损失函数的输出值。

下面以全连接神经网络为例，对本申请中的训练方法进行简要介绍。

全连接神经网络又叫多层感知器(multilayer perceptron，MLP)。如图1所示，一个MLP包含一个输入层(左侧)，一个输出层(右侧)，及多个隐藏层(中间)，每层包含数个节点，称为神经元。其中相邻两层的神经元间两两相连。

考虑相邻两层的神经元，下一层的神经元的输出h为所有与之相连的上一层神经元x的加权和经过激活函数(即，上文所述的“a”)处理后的值。用矩阵可以表示为

h＝f(wx+b)，

其中w为权重向量，b为偏置向量，f为激活函数。则MLP的输出可以递归表达为

y＝f_n(w_nf_n-1(...)+b_n)，

可以将MLP理解为一个从输入数据集合到输出数据集合的映射关系。而通常MLP都是随机初始化的，用已有数据从随机的w和b得到这个映射关系的过程被称为MLP的训练。

可以采用损失函数对MLP的输出结果进行评价，并通过反向传播，通过梯度下降的方法即能迭代优化w和b直到损失函数达到最小值，

可以通过前向传播(forward propagation)计算获取MLP的损失函数。即，将前一层的输出结果输入后一层，直至得到MLP的输出层的输出结果，将该结果与目标值进行比较，获得MLP的损失函数。在得到前向传播计算的损失函数后，基于损失函数进行反向传播(back propagation)计算，以求得各层的梯度，沿着梯度下降最快的方向调整w和b，直到损失函数达到最小值。

梯度下降的过程可以表示为：

其中，θ为待优化参数(如w和b)，L为损失函数，η为学习率，用于控制梯度下降的步长，步长如图2中的箭头所示。

可以使用求偏导的链式法则进行反向传播计算，即，前一层参数的梯度可以由后一层参数的梯度递推计算得到，如图3所示，链式法则可以表达为：

其中

为节点j连接节点i的权重，s_i为节点i上输入的加权和。

神经网络的训练结果与神经网络的结构和训练过程中使用的数据均存在一定的关系，合适的结构以及合适的数据均有利于取得良好的训练结果，下面，将详细描述本申请提供的训练神经网络的方法以及基于该神经网络进行语音评测的方法。

图4是本申请提供的一种训练神经网络的方法，该方法可以由处理器执行，也可以由包含处理器的处理设备执行。该处理器可以是中央处理器(central processing unit，CPU)，也可以是图形处理器(graphics processing unit，GPU)，还可以是张量处理器(tensor processing unit，TPU)或其它类型的处理器。本申请对处理器和包含处理器的处理设备的具体类型不作限定。

该方法包括：

S410，获取第一字符对应的第一音频特征数据和第一音素数据。

第一字符可以是一个英文字符，例如英文单词。第一字符也可以是一个中文字符，例如汉字。第一字符还可以是其它类型的字符，本申请对第一字符的具体形式不做限定。即，基于本申请提供的方法训练得到的神经网络既可以用于英文发音的评测，又可以用于中文发音或者其它语音的评测。

在本申请中，如果没有特别说明，“第一”“第二”等词语仅用于区分不同的个体，例如，下文所述的“第一子网络”与“第二子网络”为两个不同的子网络，除此之外不存在其它限定。

第一音频特征数据可以是用于反映声音的时域特征和/或频域特征的数据，例如，第一音频特征数据包括融合数据和声谱数据，其中，融合数据是两种不同类型的数据的集合，可以包括频谱数据和倒频谱数据。通过包含多种类型的数据的融合数据训练神经网络，使得神经网络能够学习到更多的语音特征，当输出的待测语音的语音特征发生小幅摄动时，神经网络仍能够保持稳定的或正常的输入-输出关系特性，即，通过包含多种类型的数据的融合数据训练神经网络能够获得鲁棒性更强的神经网络。

上述频谱数据例如是梅尔(Mel)频谱，上述倒频谱数据例如是梅尔频率倒谱系数(Mel-frequency cepstral coefficients，MFCC)。可以对第一字符对应的音频文件进行预处理后，对预处理的结果进行傅里叶变换，得到频谱；将该频谱输入梅尔滤波器即可得到梅尔频谱；随后，对该梅尔频谱进行对数运算处理，对执行对数运算处理后的梅尔频谱进行傅里叶逆变换即可得到MFCC。

作为一个可选的示例，处理器获取第一字符的音频文件后，对该音频文件进行单声道处理以及16kHz采样；随后对采样结果进行分帧处理，得到100帧；对该100帧中的每一帧进行特征提取，得到每一帧的梅尔频谱和MFCC；以该100帧中的第一帧为例，可以通过Vstack函数对第一帧的梅尔频谱和MFCC进行拼接处理，若梅尔频谱为27维的数据、MFCC为39维的数据，则拼接处理得到的融合数据为66维的数据。处理器还可以对第一帧进行短时傅里叶变换，得到声谱数据，该声谱数据例如是90维的数据。

在上述示例中，100帧为预设帧数的一个示例，若第一字符的音频文件的时长不足100帧，处理器可以对不足的部分填充0，最终得到100个融合数据和100个声谱数据。下文以X1表示该100个融合数据，以X2表示该100个声谱数据。

由于音频信号是一种连续变化的模拟信号，计算机只能处理二进制的数字信号，因此，通过对第一字符的音频文件进行采样能够得到可被计算机处理的数字信号。此外，整段语音信号的时长较长，通常是不平稳的信号，难以被计算机处理；但是，整段语音信道的局部信号可以看作是平稳的；因此，对整段语音进行分帧处理后得到的数据便于被计算机处理。

音素(phone)是根据语音的自然属性划分出来的最小语音单位，可以依据音节里的发音动作来划分语音，一个动作构成一个音素。以第一字符为英文字符为例，第一音素数据可以是一个30维的数据，下文以X3表示第一音素数据。30是英文字符对应的音素集合中音素的数量，还可以取其它的数值。绝大部分字符的发音都可以归纳为音素集合中全部或部分音素的组合，因此，相比于单纯依靠一种数据训练神经网络，通过音素和音频特征联合训练神经网络能够使得神经网络学习到更多的语音特征，提高神经网络的预测准确率，使用该神经网络进行语音评测能够提高语音评测的准确度。

可以根据音素集合中的音素的标识(identifier，ID)对第一字符的音素进行编码，通常情况下，一个字符的音素的数量达不到音素集合中音素的数量，可以在不足的部分填充0。例如，第一字符包含三个音素，该三个音素在音素集合中的ID分别为1、2和3，则第一音素数据可以是123+填充数据，该填充数据为27个0；又例如，第一字符包含五个音素，该五个音素在音素集合中的ID分别为2、3、7、8和9，则第一音素数据可以是23789+填充数据，该填充数据为25个0。

上述获取第一音频特征数据和第一音素数据的方法是本申请提供的一些示例，不应被理解为对本申请的保护范围的限制。处理器可以按照上述示例对第一字符的音频文件进行处理生成第一音频特征数据和第一音素数据，也可以通过通信接口从其它设备直接获取第一音频特征数据和第一音素数据。

获取第一音频特征数据和第一音素数据后，处理器可以执行下列步骤。

S420，根据所述第一音频特征数据和所述第一音素数据训练神经网络。

处理器可以将X1、X2、X3以及标签数据输入神经网络，按照图1至图3所示的方法进行训练，也可以根据现有技术中其它训练方法训练上述神经网络。

上述标签数据例如是包含多个字符的ID的词表，神经网络对X1、X2和X3处理之后可以得到一个特征向量，该特征向量的维度可以是词表的大小。例如，词表包含五个单词，该五个单词的ID为ID1、ID2、ID3、ID4和ID5，特征向量可以是{v1,v2,v3,v4,v5}，用于表征第一字符的音频文件的音频特征。

神经网络可以通过全连接层处理该特征向量，得到一个概率数组，该概率数组的各个元素为神经网络确定的第一音频特征数据和第一音素数据属于词表中各个字符的概率，神经网络可以根据特征向量中最大的概率输出对应的字符的ID。

例如，神经网络确定的概率数组为{0.1,0.5,0.2,0.1,0.1}，该概率数组表示：第一音频特征数据和第一音素数据属于ID1对应的单词的概率为0.1，第一音频特征数据和第一音素数据属于ID2对应的单词的概率为0.5，第一音频特征数据和第一音素数据属于ID3对应的单词的概率为0.2，第一音频特征数据和第一音素数据属于ID4对应的单词的概率为0.1，第一音频特征数据和第一音素数据属于ID5对应的单词的概率为0.1。神经网络可以通过argmax函数处理上述概率数组，得到最大概率值0.5对应的单词的ID，即，ID2，神经网络输出ID2作为对第一音频特征数据和第一音素数据所属的单词的预测结果。

作为一个可选的示例，神经网络可以包括第一子网络和第二子网络，其中，该第一子网络例如是深度卷积神经网络(deep convolutional neural network，DCNN)和残差网络(residual network，ResNet)，该第二子网络例如是一维卷积神经网络。

如图5所示，神经网络包括三个输入层，该三个输入层分别对应上述三个子网络，处理器可以将X1输入DCNN，将X2输出ResNet，将X3输入一维卷积神经网络。

DCNN可以包括一个输入层、三个DCNN块(DCNN-block)以及一个全连接层，每个DCNN块可以包括的两个卷积层和一个最大池化层，如图6所示。连续的卷积层用于实现深层次的特征提取和降维，以减小池化层的操作。

ResNet可以包括一个输入层、六个Resnet块以及一个全连接层，每个Resnet块包含三个卷积层，而不是常用的两个卷积层，在第一个卷积层和第二个卷积层之间加入批量归一化(batch normalization，BN)层，用来提高Resnet块的准确度。ResNet块的结果如图7所示。

一维卷积神经网络包括一个输入层、一个一维卷积层和一个全连接层。

上述三个字网络的激活函数均可以使用relu函数。DCNN的输出结果为结果1(out1)，ResNet的输出结果为结果2(out2)，一维卷积神经网络的输出结果为结果3(out3)。结果1、结果2和结果3经过连接(concatenate)函数的拼接处理后，生成统一输出结果，该统一输出结果输入由两个全连接层组成的特征提取和分类网络后可以得到一个概率数组，其中，全连接层1用于特征提取，全连接层2用于分类。分类可以通过softmax函数和argmax函数实现，例如，全连接层2确定表征特征向量属于词表中的各个单词的得分后，将上述得分分别输出softmax函数(也可以使用sigmoid函数)得到特征向量属于各个单词的概率值，随后通过argmax函数确定各个概率值中最大概率值对应的单词ID。处理器可以将上述各个概率值输入交叉熵损失函数来更新优化神经网络参数。

上述示例中的神经网络包括三个子网络，即，DCNN、Resnet和一维卷积神经网络，该三个子网络分别用于处理不同类型的数据，因此，神经网络能够学习到更多的语音特征，提高神经网络的预测准确率，使用该神经网络进行语音评测能够提高语音评测的准确度。

上文详细描述了本申请提供的训练神经网络的方法，下面，将介绍本申请提供的通过神经网络评测语音的方法。

如图8所示，通过神经网络评测语音的方法包括：

S810，获取待测语音对应的第二音频特征数据和第二音素数据，所述待测语音与第二字符存在对应关系。

第二字符与第一字符可以相同，也可以不同。第二字符对应的待测语音例如是接受评测的用户基于第二字符发出的语音，第二音素数据可以是预设的第二字符对应的音素数据。

处理器可以对所述待测语音进行预处理，生成第二音频特征数据，处理器对待测语音进行预处理的方法与对第一字符的音频文件进行预处理的方法相同，在此不再赘述。处理器也可以通过通信接口直接获取第二音频特征数据。第二音频特征数据可以是梅尔频谱、MFCC和声谱数据。

第二音素数据可以是预设的数据，例如，当前评测系统需要用户发出第二字符的语音，则第二音素数据可以是预设在评测系统中的数据。

S820，通过神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征，所述神经网络为使用第一音素数据和第一音频特征数据训练得到的。

S820中的神经网络可以是基于图4所示的方法训练得到的神经网络，如图5所示的神经网络，也可以是其它神经网络。第一特征向量可以是经过图5所示的神经网络的全连接层1处理后得到的结果。

S830，根据所述第一特征向量评测所述待测语音。

使用音素数据进行训练得到的神经网络能够学习到每一个音素的特征，使用这种神经网络对待测语音进行评测，无需分割待测语音，从而避免了对待测语音进行对齐处理时可能出现的误差，提高了语音评测的准确度。

下面，以处理器使用图5所示的神经网络评测待测语音为例对本申请提供的评测语音的方法进行说明。

情况一。

神经网络获取第一特征向量后，将第一特征向量输入全连接层2，得到待测语音对应的目标字符。其中，全连接层2可以确定第一特征向量属于预设的N个字符的N个得分，N为正整数；随后，将上述个N个得分分别输出softmax函数(也可以使用sigmoid函数)得到第一特征向量属于预设的N个字符的N个概率值，随后通过argmax函数确定N个概率值中最大概率值对应的字符ID，该字符ID对应的单词即目标字符。

随后，处理器可以根据目标字符与所述第二字符是否相同对所述待测语音进行评测。

例如，处理器可以按照公式(1)对待测语音进行评测。

公式(1)中，S1为待测语音的评分，P为目标字符对应的概率值，text_i为目标字符，text_x为第二字符。

若目标字符为第二字符，则将概率值乘以100，得到待测语音的评分。例如，P为0.7，目标字符与第二字符相同，则S1为70，即，待测语音的评分为70分，其中，满分为100分。

若目标字符不是第二字符，则待测语音的评分为0分。可选地，也可以将该情况下的得分设置为其它不合格的分数，例如，满分为100分时，可以将该情况下的评分设置为50分，其中，60分以上的分数为合格分数；满足为5分时，可以将该情况下的评分设置为2分，其中，3分以上的分数为合格分数。

上述示例中，神经网络确定的概率值被用于为待测语音进行打分，待测语音属于第二字符的概率越高，评分越高；待测语音属于第二字符的概率越低，评分越低。相比于其它复杂的评分方式，上述示例能够减轻评分系统的负担。

情况二。

神经网络获取第一特征向量后，不再将第一特征向量输入全连接层2，而是根据第一特征向量和第二特征向量的相似度评测待测语音，即，不再通过神经网络进行评分。

处理器可以对第二字符对应的标准语音进行预处理，生成第三音频特征数据；随后，通过将第三音频特征数据和第二音素数据输入神经网络，生成第二特征向量，该第二特征向量用于表征标准语音的音频特征。

处理器可以按照公式(2)所示的方法对待测语音进行评测。

公式(2)中，S2为待测语音的评分，V1表示第一特征向量，V2表示第二特征向量，ρ_V1,V2表示第一特征向量和第二特征向量的相似度，Cov(V1,V2)表示第一特征向量和第二特征向量的相关系数，σ_V1表示第一特征向量的标准差，σ_V2表示第二特征向量的标准差。

例如，处理器通过皮尔逊相关系数法确定第一特征向量和第二特征向量的相似度为80％，则可以基于公式(2)得到待测语音的评分为80分，其中，满分为100分。

若第二字符为英文字符，则上述标准语音可以是美式标准语音，也可以是英式标准语音。若用户需要评测待测语音的美式发音特征是否合格，则可以根据第一特征向量与美式标准语音的特征向量的相似度进行打分；若用户需要评测待测语音的英式发音特征是否合格，则可以根据第一特征向量与英式标准语音的特征向量的相似度进行打分。因此，基于待测语音的特征向量和标准语音的特征向量的相似度进行打分，得到的分数更加符合用户的需求。

S1或S2可以作为待测语音的最终评分。可选地，处理器可以基于S1、S2以及公式(3)得到待测语音的最终评分。

S＝aS1+(1-a)S2 (3)

公式(3)中，S为最终评分，a为S1的权重，可以是一个预设的数值。

例如，S1为70，S2为80，a为0.5，则待测语音的最终得分S为75分。

公式(3)融合了不同评分方法的特点，a的值可以根据实际情况灵活设定，若公式(1)的评分较为准确，则可以将a设置为较大的数值；若公式(2)的评分较为准确，则可以将a设置为较小的数值。因此，公式(3)能够提高评分的准确度。

上文详细介绍了本申请提供的训练神经网络的方法示例以及基于神经网络对语音进行评测的方法的示例。可以理解的是，处理装置(训练神经网络的装置或者基于神经网络对语音进行评测的装置)为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请可以根据上述方法示例对处理装置进行功能单元的划分，例如，可以将各个功能划分为各个功能单元，也可以将两个或两个以上的功能集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图9是本申请提供的一种训练神经网络的装置的结构示意图。该装置900包括处理单元910和输入单元920，输入单元920能够在处理单元910的控制下执行获取步骤。

输入单元920用于：获取第一字符对应的第一音频特征数据和第一音素数据；

处理单元910用于：根据所述第一音频特征数据和所述第一音素数据训练神经网络。

可选地，所述神经网络包括第一子网络和第二子网络，处理单元910具体用于：将所述第一音频特征数据输入所述第一子网络，生成第一输出结果；将所述第一音素数据输入所述第二子网络，生成第二输出结果；拼接所述第一输出结果和所述第二输出结果，生成统一输出结果；根据所述统一输出结果训练所述神经网络。

可选地，所述第一音频特征数据包括融合数据和声谱数据，所述融合数据包括频谱数据和倒频谱数据，所述第一子网络包括DCNN和ResNet，处理单元910具体用于：将所述融合数据输入所述DCNN，生成第三输出结果，所述第三输出结果属于所述第一输出结果；将所述声谱数据输入所述ResNet，生成第四输出结果，所述第四输出结果属于所述第一输出结果。

可选地，输入单元920具体用于：获取所述第一字符对应的音频文件；处理单元910用于：对所述音频文件进行采样处理和分帧处理，生成M帧数据，M为预设的正整数；对所述M帧数据中的每一帧数据进行处理，生成M个包括频谱数据和倒频谱数据的融合数据以及M个声谱数据。

可选地，输入单元920还用于：获取待测语音对应的第二音频特征数据和第二音素数据，所述待测语音与第二字符存在对应关系；处理单元910还用于：通过训练后的所述神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征；根据所述第一特征向量评测所述待测语音。

装置900执行训练神经网络的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。

图10是本申请提供的一种基于神经网络对语音进行评测的装置的结构示意图。该装置1000包括处理单元1010和输入单元1030，输入单元1020能够在处理单元1010的控制下执行获取步骤。

输入单元1020用于：获取待测语音对应的第二音频特征数据和第二音素数据，所述待测语音与第二字符存在对应关系；

处理单元1010用于：通过神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征，所述神经网络为使用第一音素数据和第一音频特征数据训练得到的；根据所述第一特征向量评测所述待测语音。

可选地，输入单元1020还用于：获取所述第二字符的标准语音对应的第三音频特征数据；处理单元1010具体用于：通过所述神经网络处理所述第三音频特征数据和所述第二音素数据，生成第二特征向量，所述第二特征向量用于指示所述标准语音的音频特征；确定所述第一特征向量和所述第二特征向量的相似度；根据所述相似度评测所述待测语音。

可选地，处理单元1010具体用于：通过所述神经网络处理所述第一特征向量，生成N个概率值，所述N个概率值为所述待测语音属于预设的N个字符的概率，N为正整数；根据所述N个概率值中的最大概率值确定所述待测语音对应的目标字符；根据所述目标字符与所述第二字符是否相同对所述待测语音进行评测。

可选地，处理单元1010具体用于，所述根据所述目标字符与所述第二字符是否相同对所述待测语音进行评测，包括：当所述目标字符与所述第二字符相同时，根据所述最大概率值评测所述语音；或者，当所述目标字符与所述第二字符不同时，确定所述待测语音的评测结果为不合格。

可选地，处理单元1010具体用于：根据第一评测结果和第二评测结果确定所述待测语音的最终评测结果；其中，所述第一评测结果为根据所述目标字符与所述第二字符是否相同对所述待测语音进行评测得到的评测结果；所述第二评测结果为基于以下方法得到的评测结果：获取所述第二字符的标准语音对应的第三音频特征数据；通过所述神经网络处理所述第三音频特征数据和所述第二音素数据，生成第二特征向量，所述第二特征向量用于指示所述标准语音的音频特征；确定所述第一特征向量和所述第二特征向量的相似度；根据所述相似度评测所述待测语音。

装置1000执行基于神经网络对语音进行评测的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。

图11示出了本申请提供的一种处理设备的结构示意图。图11中的虚线表示该单元或该模块为可选的。设备1100可用于实现上述方法实施例中描述的方法。设备1100可以是终端设备或网络设备或芯片。

设备1100包括一个或多个处理器1101，该一个或多个处理器1101可支持设备1100实现图2至图8所对应方法实施例中的方法。处理器1101可以是通用处理器或者专用处理器。例如，处理器1101可以是中央处理器(central processing unit，CPU)。CPU可以用于对设备1100进行控制，执行软件程序，处理软件程序的数据。设备1100还可以包括通信单元1105，用以实现信号的输入(接收)和输出(发送)。

例如，设备1100可以是芯片，通信单元1105可以是该芯片的输入和/或输出电路，或者，通信单元1105可以是该芯片的通信接口，该芯片可以作为终端设备或网络设备或其它无线通信设备的组成部分。

又例如，设备1100可以是终端设备或网络设备，通信单元1105可以是该终端设备或该网络设备的收发器，或者，通信单元1105可以是该终端设备或该网络设备的收发电路。

设备1100中可以包括一个或多个存储器1102，其上存有程序1104，程序1104可被处理器1101运行，生成指令1103，使得处理器1101根据指令1103执行上述方法实施例中描述的方法。可选地，存储器1102中还可以存储有数据。可选地，处理器1101还可以读取存储器1102中存储的数据，该数据可以与程序1104存储在相同的存储地址，该数据也可以与程序1104存储在不同的存储地址。

处理器1101和存储器1102可以单独设置，也可以集成在一起，例如，集成在终端设备的系统级芯片(system on chip，SOC)上。

设备1100还可以包括天线1106。通信单元1105用于通过天线1106实现设备1100的收发功能。

处理器1101执行训练神经网络的方法和/或评测语音的方法的具体方式可以参见方法实施例中的相关描述。

应理解，上述方法实施例的各步骤可以通过处理器1101中的硬件形式的逻辑电路或者软件形式的指令完成。处理器1101可以是CPU、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件，例如，分立门、晶体管逻辑器件或分立硬件组件。

本申请还提供了一种计算机程序产品，该计算机程序产品被处理器1101执行时实现本申请中任一方法实施例所述的方法。

该计算机程序产品可以存储在存储器1102中，例如是程序1104，程序1104经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器1101执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

该计算机可读存储介质例如是存储器1102。存储器1102可以是易失性存储器或非易失性存储器，或者，存储器1102可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和设备的具体工作过程以及产生的技术效果，可以参考前述方法实施例中对应的过程和技术效果，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例的一些特征可以忽略，或不执行。以上所描述的装置实施例仅仅是示意性的，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统。另外，各单元之间的耦合或各个组件之间的耦合可以是直接耦合，也可以是间接耦合，上述耦合包括电的、机械的或其它形式的连接。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种评测语音的方法，其特征在于，包括：

获取待测语音对应的第二音频特征数据和第二音素数据，所述待测语音与第二字符存在对应关系；

通过神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征，所述神经网络为使用第一音素数据和第一音频特征数据训练得到的，所述第一音素数据和第一音频特征数据为训练语音对应的数据，并且，所述训练语音与第一字符存在对应关系；

根据所述第一特征向量评测所述待测语音。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述第二字符的标准语音对应的第三音频特征数据；

所述根据所述第一特征向量评测所述待测语音，包括：

确定所述第一特征向量和所述第二特征向量的相似度；

根据所述相似度评测所述待测语音。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征向量评测所述待测语音，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标字符与所述第二字符是否相同对所述待测语音进行评测，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述第一特征向量评测所述待测语音，包括：

所述第二评测结果为基于以下方法得到的评测结果：

获取所述第二字符的标准语音对应的第三音频特征数据；

确定所述第一特征向量和所述第二特征向量的相似度；

根据所述相似度评测所述待测语音。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述通过神经网络处理所述第二音频特征数据和所述第二音素数据之前，所述方法还包括：

获取所述第一音频特征数据和所述第一音素数据；

根据所述第一音频特征数据和所述第一音素数据训练所述神经网络。

7.根据权利要求6所述的方法，其特征在于，所述神经网络包括第一子网络和第二子网络，所述根据所述第一音频特征数据和所述第一音素数据训练神经网络，包括：

根据所述统一输出结果训练所述神经网络。

8.根据权利要求7所述的方法，其特征在于，所述第一音频特征数据包括融合数据和声谱数据，所述融合数据包括频谱数据和倒频谱数据，所述第一子网络包括深度卷积神经网络DCNN和残差网络ResNet，

所述将所述第一音频特征数据输入所述第一子网络，生成第一输出结果，包括：

9.根据权利要求6所述的方法，其特征在于，所述获取所述第一音频特征数据和所述第一音素数据，包括：

获取所述第一字符对应的音频文件；

对所述音频文件进行采样处理和分帧处理，生成M帧数据，M为预设的正整数；

10.一种训练神经网络的方法，其特征在于，包括：

获取第一字符对应的第一音频特征数据和第一音素数据；

根据所述第一音频特征数据和所述第一音素数据训练神经网络。

11.根据权利要求10所述的方法，其特征在于，所述神经网络包括第一子网络和第二子网络，所述根据所述第一音频特征数据和所述第一音素数据训练神经网络，包括：

根据所述统一输出结果训练所述神经网络。

12.根据权利要求11所述的方法，其特征在于，所述第一音频特征数据包括融合数据和声谱数据，所述融合数据包括频谱数据和倒频谱数据，所述第一子网络包括深度卷积神经网络DCNN和残差网络ResNet，

13.根据权利要求10至12中任一项所述的方法，其特征在于，所述获取第一字符对应的第一音频特征数据和第一音素数据，包括：

获取所述第一字符对应的音频文件；

14.根据权利要求10至12中任一项所述的方法，其特征在于，所述方法还包括：

通过训练后的所述神经网络处理所述第二音频特征数据和所述第二音素数据，生成第一特征向量，所述第一特征向量用于指示所述待测语音的音频特征；

根据所述第一特征向量评测所述待测语音。

15.一种评测语音的装置，其特征在于，包括输入单元和处理单元，

根据所述第一特征向量评测所述待测语音。

16.根据权利要求15所述的装置，其特征在于，

17.一种训练神经网络的装置，其特征在于，包括输入单元和处理单元，

18.一种处理设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序以执行：如权利要求1至9中任一项所述的方法，和/或，如权利要求10至14中任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行：如权利要求1至9中任一项所述的方法，和/或，如权利要求10至14中任一项所述的方法。