CN110797044A

CN110797044A - 音频数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN110797044A
Application number: CN201910779481.3A
Authority: CN
Inventors: 林炳怀; 康跃腾; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2020-02-14
Anticipated expiration: 2039-08-22
Also published as: CN110797044B

Abstract

本申请涉及音频数据处理方法、装置、计算机设备和存储介质。其中，一种音频数据处理方法，输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；将目标音频信息与待处理音频数据发送至服务器，通过服务器基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测；接收服务器发送的评测结果，评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

Description

音频数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机信息处理技术领域，特别是涉及一种音频数据处理方法、装置、计算机设备和存储介质。

背景技术

随着信息技术的飞速发展，信息处理技术的应用已经深入到生活的方方面面,尤其是音频数据的处理。如可以应用在口语评测软件中，为口语发音的准确度进行评分。

传统的音频数据处理方法中，对整句待处理音频数据进行整个句子发音准确度的评估，只能展示整个句子的评测结果，用户无法了解到句子的哪个部分发音不准确。因此，传统的音频数据处理方法，存在适用性较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种提高音频数据处理适用性的音频数据处理方法、装置、计算机设备和存储介质。

一种音频数据处理方法，所述方法包括：

输出目标音频信息；

基于输出的所述目标音频信息，获取待处理音频数据；

将所述目标音频信息与所述待处理音频数据发送至服务器，通过所述服务器基于所述目标音频信息，对所述待处理音频数据进行音素级别、词语级别以及句子级别的评测；

接收所述服务器发送的评测结果，所述评测结果包括句子评测结果、词语评测结果及音素评测结果；

输出所述句子评测结果、所述词语评测结果及所述音素评测结果。

一种音频数据处理装置，所述装置包括：

音频信息输出模块，用于输出目标音频信息；

音频数据获取模块，用于基于输出的所述目标音频信息，获取待处理音频数据；

音频评测发送模块，用于将所述目标音频信息与所述待处理音频数据发送至服务器，通过所述服务器基于所述目标音频信息，对所述待处理音频数据进行音素级别、词语级别以及句子级别的评测；

评测结果接收模块，用于接收所述服务器发送的评测结果，所述评测结果包括句子评测结果、词语评测结果及音素评测结果；

评测结果输出模块，用于输出所述句子评测结果、所述词语评测结果及所述音素评测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下的步骤：

输出目标音频信息；

基于输出的所述目标音频信息，获取待处理音频数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下的步骤：

输出目标音频信息；

基于输出的所述目标音频信息，获取待处理音频数据；

上述的音频数据处理方法、装置、计算机设备和存储介质，输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；将目标音频信息与待处理音频数据发送至服务器，通过服务器基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测；接收服务器发送的评测结果，评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

一种音频数据处理方法，所述方法包括：

输出目标音频信息；

基于输出的所述目标音频信息，获取待处理音频数据；

基于所述目标音频信息，对所述待处理音频数据进行音素级别、词语级别以及句子级别的评测得到评测结果；所述评测结果包括句子评测结果、词语评测结果及音素评测结果；

一种音频数据处理装置，所述装置包括：

目标信息输出模块，用于输出目标音频信息；

音频数据评测模块，用于基于所述目标音频信息，对所述待处理音频数据进行音素级别、词语级别以及句子级别的评测得到评测结果；所述评测结果包括句子评测结果、词语评测结果及音素评测结果；

输出目标音频信息；

基于输出的所述目标音频信息，获取待处理音频数据；

输出目标音频信息；

基于输出的所述目标音频信息，获取待处理音频数据；

基于本实施例的音频数据处理方法、装置、计算机设备和存储介质，输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测得到评测结果；评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

一种音频数据处理方法，所述方法包括：

接收目标音频信息及待处理音频数据；

将所述待处理音频数据与所述目标音频信息对齐，并提取每个音素的发音特征；

根据所述发音特征对各所述音素进行评测，得到所述音素评测结果；

对组成词语的所述音素评测结果进行加权求和，得到所述词语评测结果；

对组成句子的所述词语评测结果进行加权，得到所述句子评测结果；

将所述句子评测结果、所述词语评测结果及所述音素评测结果发送至用户终端，由所述用户终端输出所述句子评测结果、所述词语评测结果以及所述音素评测结果。

一种音频数据处理装置，所述装置包括：

评测数据接收模块，用于接收目标音频信息及待处理音频数据；

评测数据对齐模块，用于将所述待处理音频数据与所述目标音频信息对齐，并提取每个音素的发音特征；

音素结果确定模块，用于音素根据所述发音特征对各所述音素进行评测，得到所述音素评测结果；

词语结果确定模块，用于对组成词语的所述音素评测结果进行加权求和，得到所述词语评测结果；

句子结果确定模块，用于对组成句子的所述词语评测结果进行加权，得到所述句子评测结果；

测评结果发送模块，用于将所述句子评测结果、所述词语评测结果及所述音素评测结果发送至用户终端，由所述用户终端输出所述句子评测结果、所述词语评测结果以及所述音素评测结果。

接收目标音频信息及待处理音频数据；

基于本实施例的音频数据处理方法、装置、计算机设备和存储介质，接收目标音频信息及待处理音频数据；将待处理音频数据与目标音频信息对齐，并提取每个音素的发音特征；根据发音特征对各音素进行评测，得到音素评测结果；对组成词语的音素评测结果进行加权求和，得到词语评测结果；对组成句子的词语评测结果进行加权，得到句子评测结果；将句子评测结果、词语评测结果及音素评测结果发送至用户终端，由用户终端输出句子评测结果、词语评测结果以及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

附图说明

图1为一个实施例中音频数据处理方法的应用环境图示意图；

图2为一个实施例的音频数据处理方法的流程图；

图3为一具体实施例中的音频数据处理方法的一个应用场景图；

图4为一具体实施例中的音频数据处理方法的一个应用场景图；

图5为一具体实施例中的音频数据处理方法的一个应用场景图；

图6为一具体实施例中的音频数据处理方法的一个应用场景图；

图7为另一个实施例的音频数据处理方法的流程图；

图8为一具体实施例中的音频数据处理方法的一个多粒度音频处理模型原理图；

图9为又一个实施例的音频数据处理方法的流程图；

图10为一具体实施例中的音频数据处理方法的一个应用场景图；

图11为一个实施例中的音频数据处理装置的结构框图；

图12为一个实施例中的音频数据处理装置的结构框图；

图13为一个实施例中的音频数据处理装置的结构框图；

图14为一个实施例中计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中音频数据处理方法的应用环境图示意图。用户终端102与服务器104通过网络通信连接。其中，用户终端102可以是台式设备或者移动终端，如台式电脑、平板电脑、智能手机等。服务器104可以是独立的物理服务器、物理服务器集群或者虚拟服务器。

在其中一个实施例中，用户终端102输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；将目标音频信息与待处理音频数据发送至服务器104，通过服务器104基于目标音频信息，对待处理音频进行音素级别、词语级别以及句子级别的评测；接收服务器104发送的评测结果，评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。

在一个与上述实施例对应的实施例中，服务器104接收目标音频信息及待处理音频数据；将待处理音频数据与目标音频信息对齐，并提取每个音素的发音特征；根据发音特征对各音素进行评测，得到音素评测结果；对组成词语的音素评测结果进行加权求和，得到词语评测结果；对组成句子的词语评测结果进行加权，得到句子评测结果；将句子评测结果发送至用户终端102，由用户终端102输出句子评测结果、词语评测结果以及音素评测结果。

在另一个实施例中，用户终端102输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；基于目标音频信息，对待处理音频进行音素级别、词语级别以及句子级别的评测得到评测结果；评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。

如图2所示，在一个实施例中，提供了一种音频数据处理方法。该方法可以运行在图1中的用户终端102上。该音频数据处理方法，包括以下步骤：

S202，输出目标音频信息。

用户终端可以在打开对应的应用软件之后，如口语评测软件，在接收到进行口语评测的指令之后，输出目标音频信息。

目标音频信息可以是提供给用户的文本形式或者音频形式的数据信息，需要用户按照该目标音频信息发出相应的声音。如，当目标音频信息为文本的或者音频的“Nice tomeet you！”时，需要用户发出“Nice to meet you”的声音。

在一个具体示例中，输出目标音频信息的方式，如图3所示，在屏幕的中上方显示目标音频信息。该目标音频信息具体为“Nice to meet you！”，可以通过点击“点击开始跟读”按钮，开始获取待处理音频数据。

S204，基于输出的目标音频信息，获取待处理音频数据。

在通过用户终端输出目标音频信息之后，可以通过选取事先采集好的待处理音频数据的方式，或者通过现场采集待处理音频数据的方式，获取到待处理音频数据。

其中，待处理音频数据是指用户根据目标音频信息，发出的针对目标音频信息的声音的音频数据。如，当目标音频信息为“Nice to meet you！”待处理音频数据是，用户针对“Nice to meet you！”进行朗读发出声音时，用户终端采集到的音频数据。

S206，将目标音频信息与待处理音频数据发送至服务器，通过服务器基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测。

用户终端在获取到待处理音频数据之后，可以将该待处理音频数据及其对应的目标音频信息，发送至服务器。由该服务器基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测，从而得到评测结果。可以理解地，该评测结果包括音素评测结果、词语评测结果以及句子评测结果。

该服务器基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测，可以是将目标音频信息对应的句子、句子中的词语、词语中的音素，将句子、词语、音素的标准发音特征与采集到的待处理音频数据进行对比，从而确定待处理音频数据的句子级别、词语级别及音素级别的评测结果。

该服务器基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测，可以是，将待处理音频数据与目标音频信息对齐，并提取每个音素的发音特征；根据发音特征对各音素进行评测，得到音素评测结果；对组成词语的音素评测结果进行加权求和，得到词语评测结果；对组成句子的词语评测结果进行加权，得到句子评测结果。

S208，接收服务器发送的评测结果，评测结果包括句子评测结果、词语评测结果及音素评测结果。

服务器在基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测之后，可以得到评测结果。在得到评测结果之后，服务器将该评测结果发送至用户终端。用户终端接收该评测结果，该评测结果分别对应于音素级别、词语级别以及句子级别的评测，包括音素评测结果、词语评测结果以及句子评测结果。

其中，句子评测结果是指针对一个完整句子的评测结果。词语评测结果是指针对句子中的每一个词语的评测结果。音素评测结果，是指针对一个完整句子中给的每一个词语的每一个音素的评测结果。

S210，输出句子评测结果、词语评测结果及音素评测结果。

在用户终端接收到评测结果之后，可以在用户终端输出评测结果，即输出句子评测结果、词语评测结果以及音素评测结果。如此，使得用户终端的用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景。可以使得用户能够知晓在各种层面上的评测情况，尤其是，对于发音有误的细节处。可以使得用户了解到待处理音频数据中发音的不足之处，然后用户可以有针对性地根据该发音不足之处进行改正。从而提高了音频数据处理方法的适用性。

其中，输出句子评测结果的方式，可以是通过显示的方式，展示评测结果；也可以是通过语音播放的方式，播放评测结果。

基于本实施例的音频数据处理方法，输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；将目标音频信息与待处理音频数据发送至服务器，通过服务器基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测；接收服务器发送的评测结果，评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

在其中一个实施例中，输出句子评测结果、词语评测结果及音素评测结果，包括：在句子评测结果的展示区域，展示句子评测结果；在目标音频信息的展示区域，展示词语评测结果及音素评测结果。

句子评测结果的展示区域，为用于展示句子评测结果的区域。在本实施例中，目标音频信息为文本信息，句子评测结果的展示区域，可以为展示该文本的目标音频信息的下方区域。如此，符合用户阅读习惯，能够直观地了解到句子评测结果，以及其所针对的句子。在其他实施例中，目标音频信息可以为音频数据，句子评测结果的展示区域，可以为展示该音频的目标音频信息的下方区域。即句子评测结果的展示区域在目标音频信息的展示区域的下方区域。

可以理解地，句子评测结果展示区域，也可以是在目标音频信息的左方、右方或上方，还可以是另起一个新的页面，作为句子评测结果的展示区域。

在目标音频信息的展示区域，展示词语评测结果及音素评测结果。目标音频信息为文本信息时，可以在目标音频信息的展示区域的该文本信息中词语的对应位置处，如对应的词语的上方或下方，展示该词语的词语评测结果。可以在目标音频信息的展示区域的该文本信息中音素的对应位置处，如对应的音素的上方或下方，展示该音素的音素评测结果。如此，可以方便用户一目了然地了解到各个词语、音素的评测结果。

在其中一个实施例中，在目标音频信息的展示区域，展示词语评测结果及音素评测结果，包括：当词语评测结果展示的条件触发时，根据词语的显示位置，在目标音频信息的展示区域，展示词语评测结果。

词语评测结果展示的条件可以是，当词语评测结果的评分低于预设值。即当词语的发音有误时，根据词语的显示位置，在目标音频信息的展示区域，展示词语评测结果。如此，可以使得用户可以方便的了解到发音有误的词语的评测结果。

词语评测结果展示的条件还可以是，显示词语的位置受到长按、点击等触发动作时。即当词语被长按、点击时，根据词语的显示位置，在目标音频信息的展示区域，展示词语评测结果。如此，可以使得用户可以在想要了解某个词语的具体评测情况时，可以方便地了解到选中的词语的评测结果。

其中，根据词语的显示位置，在目标音频信息的展示区域，展示词语评测结果，可以是在目标音频信息展示区域中词语的上方或者下方，展示该词语对应的词语评测结果。

基于本实施例的音频数据处理方法，可以使得用户能够方便地了解到触发展示条件的词语评测结果。

在其中一个实施例中，在目标音频信息的展示区域，展示词语评测结果及音素评测结果，包括：当音素评测结果展示的条件触发时，根据音素的显示位置，在目标音频信息的展示区域，展示音素评测结果。

音素评测结果展示的条件可以是，当音素评测结果的评分低于预设值。即当音素的发音有误时，根据音素的显示位置，在目标音频信息的展示区域，展示词语评测结果。如此，可以使得用户可以方便的了解到发音有误的音素的评测结果。

音素评测结果展示的条件还可以是，音素的位置受到点击、长按等触发动作时。即当音素被长按、点击时，根据音素的显示位置，在目标音频信息的展示区域，展示音素评测结果。如此，可以使得用户可以在想要了解某个音素的具体评测情况时，可以方便地了解到选中的音素的评测结果。

其中，根据音素的显示位置，在目标音频信息的展示区域，展示音素评测结果，可以是在目标音频信息展示区域中音素的上方或者下方，展示该音素对应的音素评测结果。

基于本实施例的音频数据处理方法，可以使得用户能够方便地了解到触发展示条件的音素评测结果。

在其中一个实施例中，基于输出的目标音频信息，获取待处理音频数据，包括：基于输出的目标音频信息，接收音频数据采集指令；根据音频数据采集指令，采集针对目标音频信息的待处理音频数据。

当目标音频信息为音频数据时，可以在播放目标音频信息后，接收音频数据采集指令。当目标音频信息为文本数据时，可以在展示目标音频信息之后，接收音频数据采集指令。

接收音频数据采集指令的方式，可以是在播放完目标音频信息之后，便触发开始接收音频数据的指令。也可以是在输出目标音频信息之后，通过点击预设按钮来触发接收音频数据采集指令。该预设按钮可以是开始采集音频的按钮。

在接收到音频数据采集指令之后，用户终端可以根据音频数据采集指令，采集针对目标音频信息的待处理音频数据。

更进一步地，音频数据采集指令可以包括开始采集指令和结束采集指令，用户终端在接收到开始采集指令时，开始采集待处理音频数据；在接收到结束采集指令时，结束待处理音频数据的采集。

在一个具体示例中，如图3和图4所示，目标音频信息为文本信息“Nice to meetyou！”。如图3所示，开始采集指令通过点击“点击开始跟读”按钮触发。如图4所示，结束采集指令通过点击“点击结束跟读”按钮触发。在用户点击“点击开始跟读”按钮之后，用户终端开始采集待处理音频数据，在采集待处理音频数据的过程中，在用户点击“点击结束跟读”按钮之后，结束待处理音频数据的采集。

在本实施例中，通过现场采集的方式进行待处理音频数据的采集，可以应用于现场口语测试的场景，丰富了应用场景，提高了音频数据处理的适用性。

可以理解地，在其他实施例中，可以通过选择事先采集好的待处理音频数据的方式，获取到待处理音频数据。

在一个具体实施例中，如图5和图6所示，目标音频信息为文本信息，句子评测结果的展示区域，可以为展示该文本的目标音频信息的下方区域。将句子的评测结果分为五个等级，并通过五颗星被点亮多少以及数字显示的分数来展示句子评测结果。图5中，当音素被点击时，在目标音频信息的展示区域、该音素位置的上方展示音素评测结果,图中可以看到meet中的音素i:的音素评测结果为70分，句子评测结果为90分。图6中，当词语被长按时，在目标音频信息的展示区域、该词语位置的上方展示词语评测结果，图中可以看到meet单词的词语评测结果为85分，句子评测结果为90分。

如图7所示，在其中一个实施例中，提供一种运行于用户终端的音频数据处理方法，该方法包括：

S702，输出目标音频信息。

目标音频信息可以是提供给用户的文本形式或者音频形式的数据信息，需要用户按照该目标音频信息发出相应的声音。如，当目标音频信息为文本或音频形式的“Nice tomeet you！”时，用户朗读或跟读该目标音频信息，发出“Nice to meet you！”的声音。

S704，基于输出的目标音频信息，获取待处理音频数据。

其中，待处理音频数据是指用户根据目标音频信息，发出的针对目标音频信息的声音的音频数据。如，当目标音频信息为文本形式的“Nice to meet you！”时，在展示文字形式的“Nice to meet you！”之后，用户针对“Nice to meet you！”进行朗读，用户终端采集用户朗读时的音频数据，从而获取到待处理音频数据。又如，当目标音频信息为音频形式的“Nice to meet you！”时，在播放音频形式的“Nice to meet you！”之后，用户针对播放了的“Nice to meet you！”进行跟读，用户终端采集用户跟读时的音频数据，从而获取到待处理音频数据。

S706，基于目标音频信息，对待处理音频进行音素级别、词语级别以及句子级别的评测得到评测结果。评测结果包括句子评测结果、词语评测结果及音素评测结果。

在本实施例中，由用户终端基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测得到评测结果。

基于目标音频信息，对待处理音频进行音素级别、词语级别以及句子级别的评测，得到评测结果，可以是将目标音频信息对应的句子、句子中的词语、词语中的音素，将句子、词语、音素的标准发音特征与采集到的待处理音频数据进行对比，从而确定待处理音频数据的句子级别、词语级别及音素级别的评测结果。

S708，输出句子评测结果、词语评测结果及音素评测结果。

可以在用户终端输出评测结果，即句子评测结果、词语评测结果以及音素评测结果。如此，使得用户终端的用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景。可以使得用户能够知晓在各种层面上的评测情况，尤其是，对于发音有误的细节处。可以使得用户了解到待处理音频数据中发音的不足之处，然后用户可以有针对性地根据该发音不足之处进行改正。从而提高了音频数据处理方法的适用性。

基于本实施例的音频数据处理方法，输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测得到评测结果；评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

在其中一个实施例中，基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测得到评测结果，包括：将待处理音频数据与目标音频信息对齐，并提取每个音素的发音特征；根据发音特征对各音素进行评测，得到音素评测结果；对组成词语的音素对应的音素评测结果进行加权求和，得到词语评测结果；对组成句子的词语对应的词语评测结果进行加权，得到句子评测结果。

当该目标音频信息为文本时，将文本中的文字与待处理音频数据的与该文字对应的声音部分对齐。当该目标音频信息为音频时，将音频中所表示内容一致的部分与待处理音频数据中的部分对齐。

在待处理音频数据与目标音频信息对齐之后，用户终端可以提取到各个音素的发音特征。然后，用户终端可以根据提取到的各音素的发音特征，对该音素进行评测，得到音素评测结果。可以通过将该发音特征与该音素的标准发音进行对比的方式得到音素评测结果。还可以通过训练好的模型对该音素对应的发音特征进行评测，得到该音素的评测结果。

在一个具体实施例中，可以采用GOP表示某段发音对应某个音素的概率，通过该GOP值来表示音素的评测结果，该音素的评测结取值在0-1之间。如音素p的评测结果可以表示为如下公式：

其中，p表示音素p，O^(p)表示p这个音素对应的发音，P(p|O^(p))表示O这段发音是p音素的概率，p(O^(p)|p)表示在p音素限定条件下发音的概率，P(p)表示音素p的概率，Q表示所有音素的集合，P(q)表示音素q的概率，NF(p)表示音素p发音的帧数。

由于词语由音素构成，音素的正确错误与词语的正确错误有紧密联系。在得到音素的评测结果之后，可以对组成词语的音素对应的音素评测结果进行加权求和，得到词语评测结果。这里加权的方式可以采用平均加权的方式，也可以采用模型训练得到的权重进行加权。

在得到词语的评测结果之后，可以对组成句子的词语对应的词语评测结果进行加权，得到句子评测结果。这里加权的方式也可以采用平均加权的方式，以及采用模型训练得到的权重进行加权的方式。

基于本实施例的音频数据处理方法，在将发音频特征对齐之后，从音素级，到词语级，再到句子级别，逐级进行评测，可以准确地得到各级评测结果。

在其中一个实施例中，为了进一步提高评测结果的准确性，对组成词语的音素对应的音素评测结果进行加权求和，得到词语评测结果，包括：采用注意力机制训练，得到组成词语的音素对应的加权权重；通过加权权重，对组成词语的音素对应的音素评测结果进行加权求和，得到词语评测结果。

在本实施例中，采用神经网络模型对词语进行评测。进一步地，可以通过神经网络模型对音素、词语及句子进行评测，得到评测结果。神经网络模型可以为深度神经网络、卷积神经网络、循环神经网络等。

每个词语由一个或多个音素构成，而每个音素错误对词语错误的贡献程度不同，如句尾dog中，o读错造成词语错误的权重较g读错造成词语错误的权重是不相等的。因此，在神经网络模型的训练过程中加入注意力机制，对音素评测结果进行注意力操作，可以使得对评测结果影响大的部分获得较大的加权权重。其中，词语中的每个音素都有一个权重，权重之和为1，最终通过加权求和求得词语的得分。由于音素层的结果是0到1之间的值，每个词语的最终输出为0到1之间的值。

在其中一个实施例中，对组成句子的词语评测结果进行加权，得到句子评测结果，包括：对组成句子的词语评测结果进行加权，得到初始评测结果；对初始评测结果进行非线性变换，拟合专家评测结果，得到句子评测结果。

为了进一步提高评测结果的准确性，在本实施例中，通过对词语评测结果得到的初始结果进行非线性变换，以拟合专家评测结果，从而使得句子评测结果与专家评测结果具有较强的相关性，提高评测结果整体的准确性。

可以通过包含1000条评测结果的测试数据集对本实施的准确性进行验证。句子评测结果为五个等级1-5，逐级由句子中绝大部分发音错误到完全没有发音错误过渡。测试数据集由三个专家进行标注，通过皮尔逊相关系数进行评分者内部一致性的衡量,如以下公式所示：

该公式反映两个评测结果的相关性，其中X表示x标注者的评测结果，Y表示y标注者的评测结果,x_i表示x标注者对第i个样本的评测结果，y_i表示y标注者对第i个样本的评测结果，μ_x为x标注者的评测结果均值，μ_y为y标注者的评测结果均值，n为测试数据集的样本数。

其中，每个专家内部的一致性由句子中评测结果中的词语错误率与句子准确度的相关度进行衡量词语，词语错误率越高，句子准确度的得分应该越低，两者之间呈现负相关关系。三个专家每个专家判断的词语错误率与句子准确度的相关度平均值为-0.7，三个专家综合的词语错误率与综合准确度的相关度可达-0.84。

对1000条测试集数据进行预测，计算人工打分与模型打分的皮尔逊相关系数，评估句子评测结果与专家评测结果相关度指标。在不添加注意力机制和添加注意力机制时，通过模型得到的句子评测结果与专家评测结果的相关度情况如表1所示。从表1中可以发现，在添加注意力机制时，相较于不添加注意力机制的情况下，通过模型得到的句子评测结果与专家评测结果的相关度得到了提升，因此，相较于不添加注意力机制的实施例，添加注意力机制的实施方式，具有更高的准确性。

表1准确度相关度对比实验

在其中一个具体实施例中，如图8所示，采用注意力机制的多粒度音频处理模型，基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测。

该多粒度音频处理模型为神经网络模型，包括音素层、词语层及句子层。在音素层，将待处理音频数据与目标音频信息对齐，并提取每个音素的发音特征；根据发音特征对各音素进行评测，得到音素评测结果。将音素评测结果输入至词语层，词语层采用注意力机制训练，得到组成词语的音素对应的加权权重；通过加权权重，对组成词语的音素对应的音素评测结果进行加权求和，得到词语评测结果。将词语评测结果输入至句子层，句子层对组成句子的词语评测结果进行加权，得到初始评测结果；对初始评测结果进行非线性变换，拟合专家评测结果，得到句子评测结果。

音素评测结果展示的条件可以是，当音素评测结果的评分低于预设值。即当音素的发音有误时，根据音素的显示位置，在目标音频信息的展示区域，展示词语评测结果。如此，使得用户可以方便的了解到发音有误的音素的评测结果。

在其中一个实施例中，在目标音频信息的展示区域，展示词语评测结果及音素评测结果，包括：当词语评测结果展示的条件触发时，根据词语的显示位置，在目标音频信息的展示区域，展示词语评测结果；及，当音素评测结果展示的条件触发时，根据音素的显示位置，在目标音频信息的展示区域，展示音素评测结果。

基于本实施例的音频数据处理方法，可以使得用户能够方便地了解到触发展示条件的词语评测结果及音素评测结果。

如图9所示，在其中一个实施例中，提供一种运行于服务端、与上述运行于用户终端的音频数据处理方法对应的音频数据处理方法，该方法包括：

S902，接收目标音频信息及待处理音频数据。

用户终端在输出目标音频信息，并基于输出的目标音频信息，获取待处理音频数据之后，将目标音频信息与待处理音频数据发送至服务器。服务器接收该目标音频信息及该待处理音频数据。

S904，将待处理音频数据与目标音频信息对齐，并提取每个音素的发音特征。

当该目标音频信息为文本时，服务器将文本中的文字与待处理音频数据的与该文字对应的声音部分对齐。当该目标音频信息为音频时，服务器将音频中所表示内容一致的部分与待处理音频数据中的部分对齐。在待处理音频数据与目标音频信息对齐之后，服务器可以提取到各个音素的发音特征。

S906，根据发音特征对各音素进行评测，得到音素评测结果。

服务器可以通过将该发音特征与该音素的标准发音进行对比的方式得到音素评测结果。还可以通过训练好的模型对该音素对应的发音特征进行评测，得到该音素的评测结果。

S908，对组成词语的音素评测结果进行加权求和，得到词语评测结果。

由于词语由音素构成，音素的正确错误与词语的正确错误有紧密联系。在得到音素的评测结果之后，服务器可以对组成词语的音素对应的音素评测结果进行加权求和，得到词语评测结果。这里加权的方式可以采用平均加权的方式，也可以采用模型训练得到的权重进行加权。

S910，对组成句子的词语评测结果进行加权，得到句子评测结果。

在得到词语的评测结果之后，服务器可以对组成句子的词语对应的词语评测结果进行加权，得到句子评测结果。这里加权的方式也可以采用平均加权的方式，以及采用模型训练得到的权重进行加权的方式。

S912，将句子评测结果、词语评测结果及音素评测结果发送至用户终端，由用户终端输出句子评测结果、词语评测结果以及音素评测结果。

在服务器得到句子评测结果、词语评测结果及音素评测结果之后，将这些评测结果发送至用户终端进行显示。如此，使得用户终端可以了解到句子、词语、音素各个级别的评测结果，能够应用于更多的场景。可以使得用户能够知晓在各种层面上的评测情况，尤其是，对于发音有误的细节处。可以使得用户了解到待处理音频数据中发音的不足之处，然后用户可以有针对性地根据该发音不足之处进行改正。从而提高了音频数据处理方法的适用性。

基于本实施例的音频数据处理方法，接收目标音频信息及待处理音频数据；将待处理音频数据与目标音频信息对齐，并提取每个音素的发音特征；根据发音特征对各音素进行评测，得到音素评测结果；对组成词语的音素评测结果进行加权求和，得到词语评测结果；对组成句子的词语评测结果进行加权，得到句子评测结果；将句子评测结果、词语评测结果及音素评测结果发送至用户终端，由用户终端输出句子评测结果、词语评测结果以及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

在一个具体应用场景中，如图10所示，用户首先在用户终端打开APP，该APP实现用户终端的音频数据处理方法，在如图3的界面中，点击开始跟读按钮，开始采集待处理音频数据。还可以在如图5或图6的界面中，点击重新跟读按钮，开始采集待处理音频数据。在如图4的界面中点击结束跟读按钮，结束采集，并将跟读的音频与文本发送给服务器，即基于输出的目标音频信息，获取待处理音频数据，并将目标音频信息与待处理音频数据发送至服务器。服务器将音频及文本发送给语音识别引擎；语音识别引擎将语音与文字对齐并提取发音特征，将提取的发音特征输入到语音评测模型中；该语音评测模型经过多层模型变换，输出多粒度评测结果：句子级别、词语级别、音素级别的评测结果。服务器端接收评测结果后，将分数返回给用户终端，展示给用户。

应该理解的是，虽然图2、7、9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、7、9中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种运行与上述的第一套运行于用户终端的音频数据处理方法对应的音频数据处理装置，包括：

目标信息输出模块1102，用于输出目标音频信息；

音频数据获取模块1104，用于基于输出的所述目标音频信息，获取待处理音频数据；

音频评测发送模块1106，用于将所述目标音频信息与所述待处理音频数据发送至服务器，通过所述服务器基于所述目标音频信息，对所述待处理音频数据进行音素级别、词语级别以及句子级别的评测；

评测结果接收模块1108，用于接收所述服务器发送的评测结果，所述评测结果包括句子评测结果、词语评测结果及音素评测结果；

评测结果输出模块1110，用于输出所述句子评测结果、所述词语评测结果及所述音素评测结果。

基于本实施例的音频数据处理装置，输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；将目标音频信息与待处理音频数据发送至服务器，通过服务器基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测；接收服务器发送的评测结果，评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

在其中一个实施例中，评测结果输出模块1110，用于在所述句子评测结果的展示区域，展示所述句子评测结果；并在所述目标音频信息的展示区域，展示所述词语评测结果及所述音素评测结果。

在其中一个实施例中，评测结果输出模块1110，还用于当所述词语评测结果展示的条件触发时，根据词语的显示位置，在所述目标音频信息的展示区域，展示所述词语评测结果。

在其中一个实施例中，评测结果输出模块1110，还用于当所述音素评测结果展示的条件触发时，根据音素的显示位置，在所述目标音频信息的展示区域，展示所述音素评测结果。

在其中一个实施例中，音频数据获取模块1104，用于基于输出的所述目标音频信息，接收音频数据采集指令；根据所述音频数据采集指令，采集针对所述目标音频信息的待处理音频数据。

在一个实施例中，如图12所示，提供了一种运行与上述的第二套运行于用户终端的音频数据处理方法对应的音频数据处理装置，包括：

目标信息输出模块1202，用于输出目标音频信息；

音频数据获取模块1204，用于基于输出的所述目标音频信息，获取待处理音频数据；

音频数据评测模块1206，用于基于所述目标音频信息，对所述待处理音频数据进行音素级别、词语级别以及句子级别的评测得到评测结果；所述评测结果包括句子评测结果、词语评测结果及音素评测结果；

评测结果输出模块1208，用于输出所述句子评测结果、所述词语评测结果及所述音素评测结果。

基于本实施例的音频数据处理装置，输出目标音频信息；基于输出的目标音频信息，获取待处理音频数据；基于目标音频信息，对待处理音频数据进行音素级别、词语级别以及句子级别的评测得到评测结果；评测结果包括句子评测结果、词语评测结果及音素评测结果；输出句子评测结果、词语评测结果及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

在其中一个实施例中，音频数据评测模块1206，用于将所述待处理音频数据与所述目标音频信息对齐，并提取每个音素的发音特征；根据所述发音特征对各所述音素进行评测，得到所述音素评测结果；对组成词语的所述音素对应的所述音素评测结果进行加权求和，得到所述词语评测结果；对组成句子的所述词语对应的所述词语评测结果进行加权，得到所述句子评测结果。

在一个实施例中，如图13所示，提供了一种运行与上述的运行于服务器的音频数据处理方法对应的音频数据处理装置，包括：

评测数据接收模块1302，用于接收目标音频信息及待处理音频数据；

评测数据对齐模块1304，用于将所述待处理音频数据与所述目标音频信息对齐，并提取每个音素的发音特征；

音素结果确定模块1306，用于音素根据所述发音特征对各所述音素进行评测，得到所述音素评测结果；

词语结果确定模块1308，用于对组成词语的所述音素评测结果进行加权求和，得到所述词语评测结果；

句子结果确定模块1310，用于对组成句子的所述词语评测结果进行加权，得到所述句子评测结果；

测评结果发送模块1312，用于将所述句子评测结果、所述词语评测结果及所述音素评测结果发送至用户终端，由所述用户终端输出所述句子评测结果、所述词语评测结果以及所述音素评测结果。

基于本实施例的音频数据处理装置，接收目标音频信息及待处理音频数据；将待处理音频数据与目标音频信息对齐，并提取每个音素的发音特征；根据发音特征对各音素进行评测，得到音素评测结果；对组成词语的音素评测结果进行加权求和，得到词语评测结果；对组成句子的词语评测结果进行加权，得到句子评测结果；将句子评测结果、词语评测结果及音素评测结果发送至用户终端，由用户终端输出句子评测结果、词语评测结果以及音素评测结果。如此，使得用户可以知晓音素级别、词语级别以及句子级别的评测结果，能够应用于更多的场景，从而提高音频数据处理的适用性。

在其中一个实施例中，词语结果确定模块1308，用于采用注意力机制训练，得到组成词语的所述音素对应的加权权重；通过所述加权权重，对组成词语的所述音素对应的所述音素评测结果进行加权求和，得到所述词语评测结果。

在其中一个实施例中，句子结果确定模块1310，用于对组成句子的所述词语评测结果进行加权，得到初始评测结果；对所述初始评测结果进行非线性变换，拟合专家评测结果，得到所述句子评测结果。

如图14所示，在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种音频数据处理方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施方式中，提供了一种计算机设备。该计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述音频数据处理方法的步骤。

在一个实施方式中，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述音频数据处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术信息可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术信息所有可能的组合都进行描述，然而，只要这些技术信息的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频数据处理方法，所述方法包括：

输出目标音频信息；

基于输出的所述目标音频信息，获取待处理音频数据；

2.根据权利要求1所述的方法，其特征在于，所述输出所述句子评测结果、所述词语评测结果及所述音素评测结果，包括：

在所述句子评测结果的展示区域，展示所述句子评测结果；

在所述目标音频信息的展示区域，展示所述词语评测结果及所述音素评测结果。

3.根据权利要求2所述的方法，其特征在于，所述在所述目标音频信息的展示区域，展示所述词语评测结果及所述音素评测结果，包括：

当所述词语评测结果展示的条件触发时，根据词语的显示位置，在所述目标音频信息的展示区域，展示所述词语评测结果。

4.根据权利要求2所述的方法，其特征在于，所述在所述目标音频信息的展示区域，展示所述词语评测结果及所述音素评测结果，包括：

当所述音素评测结果展示的条件触发时，根据音素的显示位置，在所述目标音频信息的展示区域，展示所述音素评测结果。

5.根据权利要求1所述的方法，其特征在于，所述基于输出的所述目标音频信息，获取待处理音频数据，包括：

基于输出的所述目标音频信息，接收音频数据采集指令；

根据所述音频数据采集指令，采集针对所述目标音频信息的待处理音频数据。

6.一种音频数据处理方法，所述方法包括：

输出目标音频信息；

基于输出的所述目标音频信息，获取待处理音频数据；

7.一种音频数据处理方法，所述方法包括：

接收目标音频信息及待处理音频数据；

8.一种音频数据处理装置，所述装置包括：

音频信息输出模块，用于输出目标音频信息；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的方法的步骤。