CN113053409A

CN113053409A - 音频测评方法及装置

Info

Publication number: CN113053409A
Application number: CN202110274188.9A
Authority: CN
Inventors: 陈致鹏; 吴奎; 竺博
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-29
Anticipated expiration: 2041-03-12
Also published as: CN113053409B

Abstract

本申请公开了一种音频测评方法及装置，所述方法包括：获取第一音频和第二音频，所述第一音频为待测评音频，所述第二音频为所述第一音频的标准音频，所述第一音频和所述第二音频均对应预设文本；根据所述第一音频和所述第二音频，确定音频关联矩阵；根据所述音频关联矩阵预测所述预设文本的读音；根据所述预设文本的读音对所述第一音频进行评分，得到评分结果。本申请通过引入第一音频的标准音频，结合第一音频的标注音频与第一音频来预测第一音频所对应文字的读音，可以更好的了解每个音频的发音特点，从而降低了对错误发音的容错性、提高了音频测评的准确度，同时也实现了音频的自动化测评。

Description

音频测评方法及装置

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频测评方法及装置。

背景技术

随着人工智能技术的快速发展，智能评测技术给大规模的口语评测带来了巨大的应用空间。同时在多个不同的教学领域，口语的学习也变得越来越重要，而口语的学习过程中需要判断发音者的发音是否准确，是否符合发音规范，因此，如何对发音者的发音进行测评是亟待解决的问题。

发明内容

本申请实施例提供一种音频测评方法及装置，实现了音频的自动化测评，提高了音频测评的准确度。

第一方面，本申请实施例提供一种音频测评方法，该方法包括：

获取第一音频和第二音频，所述第一音频为待测评音频，所述第二音频为所述第一音频的标准音频，所述第一音频和所述第二音频均对应预设文本；

根据所述第一音频和所述第二音频，确定音频关联矩阵；

根据所述音频关联矩阵预测所述预设文本的读音；

根据所述预设文本的读音对所述第一音频进行评分，得到评分结果。

第二方面，本申请实施例提供一种音频测评装置，该装置包括：

获取单元，用于获取第一音频和第二音频，所述第一音频为待测评音频，所述第二音频为所述第一音频的标准音频，所述第一音频和所述第二音频均对应预设文本；

确定单元，用于根据所述第一音频和所述第二音频，确定音频关联矩阵；

预测单元，用于根据所述音频关联矩阵预测所述预设文本的读音；

评分单元，用于根据所述预设文本的读音对所述第一音频进行评分，得到评分结果。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行上述第一方面所述的方法中所描述的部分或全部步骤的指令。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行上述第一方面所述的方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请提供的技术方案，获取第一音频和第二音频，所述第一音频为待测评音频，所述第二音频为所述第一音频的标准音频，所述第一音频和所述第二音频均对应预设文本；根据所述第一音频和所述第二音频，确定音频关联矩阵；根据所述音频关联矩阵预测所述预设文本的读音；根据所述预设文本的读音对所述第一音频进行评分，得到评分结果。本申请通过引入第一音频的标准音频，结合第一音频的标注音频与第一音频来预测第一音频所对应文字的读音，可以更好的了解每个音频的发音特点，从而降低了对错误发音的容错性、提高了音频测评的准确度，同时也实现了音频的自动化测评。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频测评系统的网络架构图；

图2是本申请实施例提供的一种音频测评系统结构示意图；

图3是本申请实施例提供的一种音频测评方法的流程示意图；

图4是本申请实施例提供的一种确定音频关联矩阵的流程示意图；

图5是本申请实施例提供的一种音频测评装置的功能单元组成框图；

图6是本申请实施例提供的一种电子设备的结构图示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

应理解，本申请提供的音频测评方案可以应用于电子设备中包含音频测评系统或程序中，例如家教机，口语教学平台，具体地，音频测评系统可以运行于如图1所示的网络架构中，如图1所示，是音频测评系统运行的网络架构图，如图1可知，音频测评系统可以提供与多个信息源的语音识别，电子设备通过网络建立与服务器的连接，将接收的待测评音频发送给服务器，服务器对待测评音频进行识别并测评；可以理解的是，图1中示出了多种电子设备，在实际场景中可以有更多或更少种类的电子设备参与到音频测评的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多用户交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。电子设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

应当注意的是，本实施例提供的音频测评方法也可以离线进行，即不需要服务器的参与，此时电子设备接收到用户待测评音频后，直接对待测评音频进行识别和测评，并将结果向用户显示。

可以理解的是，上述音频测评系统可以运行于个人移动终端，例如：作为口语教学平台这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供音频测评，以得到待测评音频的测评处理结果；具体的音频测评系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

请参阅图2，图2为本申请实施例提供的音频测评系统结构示意图。如图2所示，该音频测评系统包括特征提取模块、关联模块、预测模块和测评模块。其中，所述特征提取模块用于分别从输入的待测评音频和待测评音频的标准音频中提取出音频特征，具体为将外部输入的音频信号转换成音频特征矩阵；所述关联模块用于分别对待测评的音频信号和待测评音频的标准音频信号进行建模，进而分别得到对应音频特征的一个包含上下文信息的特征矩阵，由于音频数据是一个时序信号，因此可以使用门控循环单元(Gated RecurrentUnit，GRU)对其进行建模得到高维度的特征矩阵。所述预测模块用于计算待测评音频与待测评音频的标准音频之间的关联关系，即待测评音频的标准音频中的每个帧与待测评音频中的每个帧之间的匹配程度，根据该关联关系计算出待测评音频的标准音频与待测评音频相关的部分。所述测评模块用于根据上述关联关系预测出待测评音频中每个字的声韵调，如果是单个字则预测一个字的声韵调，如果是一个词则会预测多个字的声韵调。

下面对本申请实施例进行详细介绍。

请参阅图3，图3是本申请实施例提供的一种音频测评方法的流程示意图，如图3所示，该方法包括以下步骤：

S310、获取第一音频和第二音频，所述第一音频为待测评音频，所述第二音频为所述第一音频的标准音频，所述第一音频和所述第二音频均对应预设文本。

本申请实施例中的第一音频可以是用户说话或朗读文本时产生的音频数据，示例性地，用户在说话或朗读文本时，其发音可带有方言或带有其自身的发音特点。该第二音频可以是用户说话对应的文本内容或用户朗读的文本的标准发音，例如，第一音频为学生朗读课文文本的朗读音频，第二音频为该课文文本的普通话朗读音频。也就是说，第一音频可以为用户发出的语音中的某一个字的读音，第二音频为该字的普通话读音。

S320、根据所述第一音频和所述第二音频，确定音频关联矩阵。

其中，音频特征本质上包含时序信息，即下一个特征与上一个特征有时序上的关联关系，而第一音频和第二音频都是针对同一预设文本的音频数据，其发音会有的相同部分，因而可以根据第一音频的音频特征和第二音频的音频特征计算出第一音频与第二音频之间的音频关联矩阵。

可选的，如图4所示，上述S320，根据所述第一音频和所述第二音频，确定音频关联矩阵，具体包括以下步骤：

S41、获取第一矩阵和第二矩阵，所述第一矩阵为所述第一音频的特征矩阵，所述第二矩阵为所述第二音频的特征矩阵。

其中，通过语音信号处理技术可以计算出第一音频的音频特征和第二音频的音频特征，从而将原始音频信号转化成一帧一帧的特征向量(如梅尔倒谱系数(Mel-frequencyCepstral Coefficient，MFCC)和滤波器组特征(Filter Bank)等)。该第一音频和第二音频可以是WAV格式、CDA、MP3、MP4、WMA等的文件。示例性地，若第一音频和/或第二音频的格式不相同，可以将中一个转化成与另一个相同的格式，或者可以将其均转化成预设的格式，从而进行统一的处理。

具体地，将第一音频和第二音频的原始音频信号分别进行预加重、分帧、加汉明窗、短时傅里叶变换(short-time Fourier transform，STFT)等操作处理，分别得到第一音频和第二音频的频谱图。再分别计算第一音频频谱图的平方和第二音频频谱图的平方，分别将每个滤波频带内的能量进行叠加，然后使用Mel滤波器对信号进行滤波操作，过滤听觉无法感知的信息，对滤波器的输出取对数，从而得到相应频带内的对数功率谱，即第一矩阵E_l和第二矩阵E_s。第一矩阵和第二矩阵可以是为维度为80维的Filter Bank特征，其大小分别是80×T_l、80×T_s。其中T_l是第一音频的帧数，T_s是第二音频的帧数。

S42、根据所述第一矩阵和所述第二矩阵，确定第三矩阵。

其中，将音频特征输入到循环神经网络(Recurrent Neural Network,RNN)可以计算出包含上下文时序信息的隐藏层(hidden)矩阵，所述RNN可以为长短期记忆网络(LongShort-Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)等。

可选的，所述根据所述第一矩阵和所述第二矩阵，确定第三矩阵，包括：将所述第一矩阵和所述第二矩阵分别输入音频特征时序提取模型，得到第一时序矩阵和第二时序矩阵，所述第一时序矩阵用于表示所述第一矩阵中的音频特征在时序上的关联，所述第二时序矩阵用于表示所述第二矩阵中的音频特征在时序上的关联；根据所述第一时序矩阵和所述第二时序特征的转置矩阵，得到所述第三矩阵。

具体地，将第一矩阵和第二矩阵分别输入到一个共享的GRU神经网络中，得到第一音频的隐藏层矩阵H_l和第二音频的隐藏层矩阵H_s。其中H_l的大小为T_l×B，H_s的大小为T_s×B，B为GRU隐藏层的输出矩阵，B是GRU神经网络的一个超参，在模型训练过程中可以进行调整，一般设置100、200等，该B矩阵可以根据模型训练实验结果进行调整。

其中，所述第三矩阵可以为第一音频与第一音频的标准音频之间的相关矩阵，通过第一音频的标准音频计算出该第三矩阵，并使用该第三矩阵可以计算出第一音频的每一帧中的实际读音(实际的声韵调)。如果第一音频的读音与第二音频的读音完全不一样，则无法使用第三矩阵来正确预测出正确的第一音频的声韵调。具体为将第一音频的隐藏层矩阵H_l乘以第二音频的隐藏层矩阵H_s的转置，从而得到第一音频与第二音频之间的第三矩阵A，A的大小为T_s×T_l。

在本申请实施例中，由于音频特征是时序相关的信号，通过GRU计算后的H_l和H_s更能表示输入音频的特征。并且在提取音频特征的时候，引入标准音频，通过第一音频与第一音频的标准音频的共同训练，减少了词的读音中上一个字的信息对下一个字的预测影响，从而能够更好的学习每个字词的发音特点，准确的对发音错误的地方进行识别，降低了对于错误发音的容错性，同时又提高了预测第一音频读音的准确性。

S43、将所述第三矩阵乘以所述第一矩阵，得到所述音频关联矩阵。

在本申请实施例中，将第三矩阵A乘以第一矩阵H_l，从而可以得到音频关联矩阵H_a的大小为T_s×B。音频关联矩阵的大小与第二矩阵的大小一致，因此通过将第三矩阵乘以第一矩阵的方式，可以从第三矩阵中抽取与第一音频与第一音频的标注音频相关的部分，用于预测第一音频中的每个字的读音。

示例性地，在将所述第三矩阵乘以所述第一矩阵，得到所述音频关联矩阵之前，该方法还包括：对所述第三矩阵中的每一列向量进行归一化处理。

具体地，使用softmax函数将第三矩阵A中的每一列向量中的每一元素映射为0-1之间的实数，即通过第三矩阵表示每个特征在每一帧中的概率，并且归一化每一列向量，使得每一列向量的元素之和为1，从而可以更好的根据归一化后的第三矩阵对第一音频的读音进行分类，进而提高预测第一音频读音的精确度。

S330、根据所述音频关联矩阵预测所述预设文本的读音。

可选的，所述根据所述音频关联矩阵预测所述预设文本的读音，包括：将所述音频关联矩阵中行向量进行相加，得到第一向量；根据所述第一向量，分别预测所述预设文本中每个文字的目标声、目标韵和目标调；将所述每个文字所述目标声、所述目标韵和所述目标调进行组合，得到所述预设文本的读音。

其中，将音频关联矩阵H_a按照T_s×B中T_s维进行向量相加，得到一个大小为B的向量O，然后将向量O输入到三个全连接层分别为L声L韵L调的神经网络中，预测出第一音频的每个字的声韵调，也即常规分类预测方法。L声大小为(B，V声)，L韵大小为(B，V韵)，L调大小为(B，V调)，其中V声、V韵和V调分别是声、韵、调的词表大小。

具体地，首先将音频关联矩阵的每一帧进行加和，即将音频关联矩阵中的每一行向量进行相加，得到一个隐藏矩阵大小B的向量O(音频关联矩阵是一个帧数乘以隐藏矩阵大小的矩阵)，然后分别将向量O输入到三个全连接层分别预测声韵调(声母一个全连接，韵母一个全连接，调一个全连接)的神经网络中，从而得到第一音频中每个字的声韵母。最后将第一音频中的每个字的声韵母按照汉字拼音的组成结构进行组合，得到该字的读音，例如，第一音频为用户对“中国”朗读音，预测出“中”字的声母为“zh”、韵母为“ong”、声调为“第1声”，预测出的“国”字的声母为“g”、韵母为“uo”、声调为“第2声”，因此组合得到“中”的读音为“zhong1”、“国”的读音为“guo2”。

可选的，所述根据所述第一向量，分别预测所述预设文本中每个文字的目标声、目标韵和目标调，包括：将所述第一向量输入声全连接层，得到所述每个文字的所述目标声；将所述第一向量输入韵全连接层，得到所述每个文字的所述目标韵；以及将所述第一向量输入调全连接层，得到所述每个文字的所述目标调。

示例性地，一个字的标准音频可以计算得到对应第一音频中该字的一个音频关联矩阵，通过音频关联矩阵可以预测出对应的声韵调。如果是词，词可以由多个字的标准音频组成，通过每个字的标准音频就可以预测出词中的每个字的声韵调。同理也可以扩展到句子或篇章。

在本申请实施例中，将语音识别的解码问题转化成了一个针对每个字词的声韵调的多分类问题，从而使得系统不需要预测出第一音频对应读出来的内容，只需要预测出第一音频对应读的每个字的声韵调，可以克服语音识别系统对于错误的补偿问题，即避免语音识别系统由于其本身容错特性导致的对于错误无法识别的问题。例如，‘中国’的‘中’读者可能读成前鼻音，但是语音识别系统通过语言模型发现‘中国’出现的概率非常大，所以依然能够正确识别成‘中国’，而在本申请中，通过预测出“中”字的声韵母并进行对比，可以正确判断用户是否发音错误。

S340、根据所述预设文本的读音对所述第一音频进行评分，得到评分结果。

其中，所述根据所述预设文本的读音对所述第一音频进行评分，得到评分结果，包括：获取所述第一音频中所述每个文字的发音识别结果；将所述每个文字的发音识别结果分别与所述预设文本中所述每个文字的读音进行匹配，得到匹配结果；根据所述匹配结果确定所述评分结果。

在本申请中，可以将预测出的预设文本的读音与第一音频的读音进行比较，对第一音频中每个字的读音判断声母、韵母和声调是否存在读错的问题，如果预测的结果与第一音频的读音不一致则说明这个声母、韵母或者声调读错了，根据声韵调以及字词错误的总体数量，可对第一音频的发音情况进行评分。

示例性地，每个字的读音均为100分，声母占25分、韵母占25分、声调占50分。通过判断每个字的声母、韵母、声调是否存在读错来为每个字打分，然后将第一音频中字的平均打分作为第一音频的评分结果。例如，预测出第一音频的读音为“zhong1 guo2”，第一音频的发音识别结果为“zong1 guo3”，其中“中”字的声母错误，“中”字得分75分，“国”字的声调错误，“国”字得分50分，则第一音频的总得分为(75+50)/2＝62.5分。

在本申请实施例中，将标准音频应到中文字词发音测评系统中，通过第一音频的标准音频与第一音频之间的匹配内容来对字词中每个读音进行识别，提高了对于第一音频中细致错误的辨识能力。同时本系统通过标准音频可以很好的由字词测评扩展到句子以及篇章的高精度评分。

可选的，所述方法还包括：若第一文字的所述发音识别结果的第一部位与所述第一文字的所述预设文本的读音的第一部位不匹配时，标注所述第一文字和所述第一部位，所述第一部位包括声、韵、调中的至少一项，所述第一文字为所述预设文本中的任一文字；显示所述第一文字和所述第一部位。

其中，通过将预设文本中每个字的读音分别与第一音频中每个字的读音进行匹配，可以统计出第一音频中的哪些字存在发音问题，并且根据发音问题的具体种类，可以提示出第一音频中的哪个字的读音错了，错在哪个地方。例如，“中国”的“中”字，预测出来的读音为“zhong1”，若第一音频中的读音为“zong1”，通过比较可知第一音频的“中”字的声母读音错误；“中国”的“国”字，预测出来的读音为“guo2”，若第一音频中的读音为“guo3”，通过比较可知第一音频的“国”字的声调读音错误。

进一步地，将第一音频中读音错误的词以及错误的部位显示出来，可以使得用户根据提示纠正自己的读音，重新提交评测，最后达到纠正读音的效果。

本申请实主要集中在中文字词发音测评上，可以准确给出字词测评的声韵调的正确错误判断，从而能够提示用户每个发音有问题的字的声韵调的结果，为纠正用户发音提供准确的指导，进一步提升系统对于用户发音错误的具体问题感知能力，并能有效的将测评的具体信息反馈给用户。

可以看出，本申请实施例提出的音频测评方法，获取第一音频和第二音频，所述第一音频为待测评音频，所述第二音频为所述第一音频的标准音频，所述第一音频和所述第二音频均对应预设文本；根据所述第一音频和所述第二音频，确定音频关联矩阵；根据所述音频关联矩阵预测所述预设文本的读音；根据所述预设文本的读音对所述第一音频进行评分，得到评分结果。本申请通过引入第一音频的标准音频，结合第一音频的标注音频与第一音频来预测第一音频所对应文字的读音，可以更好的了解每个音频的发音特点，从而降低了对错误发音的容错性、提高了音频测评的准确度，同时也实现了音频的自动化测评。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

请参阅图5，图5是本申请实施例提供的一种音频测评装置的功能单元组成框图，所述装置500包括：获取单元510、确定单元520、预测单元530和评分单元540，其中，

所述获取单元510，用于获取第一音频和第二音频，所述第一音频为待测评音频，所述第二音频为所述第一音频的标准音频，所述第一音频和所述第二音频均对应预设文本；

所述确定单元520，用于根据所述第一音频和所述第二音频，确定音频关联矩阵；

所述预测单元530，用于根据所述音频关联矩阵预测所述预设文本的读音；

所述评分单元540，用于根据所述预设文本的读音对所述第一音频进行评分，得到评分结果。

可选的，所述确定单元520具体用于：获取第一矩阵和第二矩阵，所述第一矩阵为所述第一音频的特征矩阵，所述第二矩阵为所述第二音频的特征矩阵；根据所述第一矩阵和所述第二矩阵，确定第三矩阵；将所述第三矩阵乘以所述第一矩阵，得到所述音频关联矩阵。

可选的，在根据所述第一矩阵和所述第二矩阵，确定第三矩阵方面，所述确定单元520具体用于：将所述第一矩阵和所述第二矩阵分别输入音频特征时序提取模型，得到第一时序矩阵和第二时序矩阵，所述第一时序矩阵用于表示所述第一矩阵中的音频特征在时序上的关联，所述第二时序矩阵用于表示所述第二矩阵中的音频特征在时序上的关联；根据所述第一时序矩阵和所述第二时序特征的转置矩阵，得到所述第三矩阵。

可选的，所述预测单元530具体用于：将所述音频关联矩阵中行向量进行相加，得到第一向量；根据所述第一向量，分别预测所述预设文本中每个文字的目标声、目标韵和目标调；将所述每个文字所述目标声、所述目标韵和所述目标调进行组合，得到所述预设文本的读音。

可选的，在根据所述第一向量，分别预测所述预设文本中每个文字的目标声、目标韵和目标调方面，所述预测单元530具体用于：将所述第一向量输入声全连接层，得到所述每个文字的所述目标声；将所述第一向量输入韵全连接层，得到所述每个文字的所述目标韵；以及将所述第一向量输入调全连接层，得到所述每个文字的所述目标调。

可选的，所述评分单元540具体用于：获取所述第一音频中所述每个文字的发音识别结果；将所述每个文字的发音识别结果分别与所述预设文本中所述每个文字的读音进行匹配，得到匹配结果；根据所述匹配结果确定所述评分结果。

可选的，所述装置还包括标注单元550和显示单元560，其中，

所述标注单元550，用于若第一文字的所述发音识别结果的第一部位与所述第一文字的所述预设文本的读音的第一部位不匹配时，标注所述第一文字和所述第一部位，所述第一部位包括声、韵、调中的至少一项，所述第一文字为所述预设文本中的任一文字；

所述显示单元560，用于显示所述第一文字和所述第一部位。

可以理解的是，本申请实施例的音频测评装置的各程序模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参阅图6，图6是本申请实施例提供的一种电子设备的结构图，该电子设备包括：处理器、存储器、收发器，以及一个或多个程序。所述处理器、存储器和收发器通过通信总线相互连接。

处理器可以是一个或多个中央处理器(central processing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行；所述程序包括用于执行以下步骤的指令：

根据所述第一音频和所述第二音频，确定音频关联矩阵；

根据所述音频关联矩阵预测所述预设文本的读音；

需要说明的是，本申请实施例的具体实现过程可参见上述方法实施例所述的具体实现过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储用于存储计算机程序，其中，所述计算机程序使得计算机执行如上述方法实施例中云服务器所描述的部分或全部步骤。

本申请实施例还提供了一种计算机程序产品，其中，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法中云服务器所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请实施例所描述的方法或者算法的步骤可以以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read OnlyMemory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于接入网设备、目标网络设备或核心网设备中。当然，处理器和存储介质也可以作为分立组件存在于接入网设备、目标网络设备或核心网设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(DigitalVideo Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

1.一种音频测评方法，其特征在于，所述方法包括：

根据所述第一音频和所述第二音频，确定音频关联矩阵；

根据所述音频关联矩阵预测所述预设文本的读音；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频和所述第二音频，确定音频关联矩阵，包括：

获取第一矩阵和第二矩阵，所述第一矩阵为所述第一音频的特征矩阵，所述第二矩阵为所述第二音频的特征矩阵；

根据所述第一矩阵和所述第二矩阵，确定第三矩阵；

将所述第三矩阵乘以所述第一矩阵，得到所述音频关联矩阵。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一矩阵和所述第二矩阵，确定第三矩阵，包括：

将所述第一矩阵和所述第二矩阵分别输入音频特征时序提取模型，得到第一时序矩阵和第二时序矩阵，所述第一时序矩阵用于表示所述第一矩阵中的音频特征在时序上的关联，所述第二时序矩阵用于表示所述第二矩阵中的音频特征在时序上的关联；

根据所述第一时序矩阵和所述第二时序特征的转置矩阵，得到所述第三矩阵。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述音频关联矩阵预测所述预设文本的读音，包括：

将所述音频关联矩阵中行向量进行相加，得到第一向量；

根据所述第一向量，分别预测所述预设文本中每个文字的目标声、目标韵和目标调；

将所述每个文字所述目标声、所述目标韵和所述目标调进行组合，得到所述预设文本的读音。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一向量，分别预测所述预设文本中每个文字的目标声、目标韵和目标调，包括：

将所述第一向量输入声全连接层，得到所述每个文字的所述目标声；将所述第一向量输入韵全连接层，得到所述每个文字的所述目标韵；以及将所述第一向量输入调全连接层，得到所述每个文字的所述目标调。

6.根据权利要求5所述的方法，其特征在于，所述根据所述预设文本的读音对所述第一音频进行评分，得到评分结果，包括：

获取所述第一音频中所述每个文字的发音识别结果；

将所述每个文字的发音识别结果分别与所述预设文本中所述每个文字的读音进行匹配，得到匹配结果；

根据所述匹配结果确定所述评分结果。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

若第一文字的所述发音识别结果的第一部位与所述第一文字的所述预设文本的读音的第一部位不匹配时，标注所述第一文字和所述第一部位，所述第一部位包括声、韵、调中的至少一项，所述第一文字为所述预设文本中的任一文字；

显示所述第一文字和所述第一部位。

8.一种音频测评装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理执行如权利要求1-7任一项所述的方法中的步骤的指令。