CN112967736A

CN112967736A - 发音质量检测方法、系统、移动终端及存储介质

Info

Publication number: CN112967736A
Application number: CN202110228528.4A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-06-15

Abstract

本发明提供了一种发音质量检测方法、系统、移动终端及存储介质，该方法包括：对待检测音频和标准音频进行音节对齐和音段分割，得到待检测音段和目标音段，对待检测音段和目标音段进行音频帧对齐，得到对齐路径；根据对齐路径计算待检测音段与目标音段之间的基频相似度，对待检测音段与目标音段进行停顿检测；根据停顿检测结果计算待检测音段与目标音段之间的停顿相似度，对停顿相似度和基频相似度进行权值计算得到发音质量检测值；若发音质量检测值大于检测阈值，判定待检测音频的发音质量合格。本发明基于发音质量检测值能自动判断待检测音频的发音质量检测是否合格，无需采用人工的方式进行音频数据发音质量检测，提高了发音质量检测的准确性。

Description

发音质量检测方法、系统、移动终端及存储介质

技术领域

本发明涉及音频检测技术领域，尤其涉及一种发音质量检测方法、系统、移动终端及存储介质。

背景技术

计算机辅助语言教学是语音技术在语言教学领域发展的一个重要研究方向，主要的目的是利用计算机来帮助语言学习者更好地掌握一门第二语言。在学习过程中，老师的实时指导和反馈往往能极大地提高学习效率，口语教学尤为明显，但是传统教学模式存在明显的局限性：由于学习者数量众多，具有相应专业技能的师资数量不能满足庞大的需求，学习者难以得到即时的反馈，因此，计算机辅助语言教学应运而生，发音质量检测作为计算机辅助语言教学的重要内容备受关注。

现有的发音质量检测过程中，均是采用人工的方式进行音频数据发音质量的检测，进而导致发音质量检测准确性低下。

发明内容

本发明实施例的目的在于提供一种发音质量检测方法、系统、移动终端及存储介质，旨在解决现有的发音质量检测过程中，由于采用人工的方式进行音频数据发音质量检测，所导致的发音质量检测准确性低下的问题。

本发明实施例是这样实现的，一种发音质量检测方法，所述方法包括：

获取待检测音频和所述待检测音频对应的标准音频，并对所述待检测音频和所述标准音频进行音节对齐；

根据音节对齐结果对所述待检测音频和所述标准音频进行音段分割，得到待检测音段和目标音段，并对所述待检测音段和所述目标音段进行音频帧对齐，得到对齐路径；

根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度，并分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测；

根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度，并对所述停顿相似度和所述基频相似度进行权值计算，得到发音质量检测值；

若所述发音质量检测值大于检测阈值，则判定所述待检测音频的发音质量合格。

更进一步地，所述对所述待检测音段和所述目标音段进行音频帧对齐的步骤包括：

分别提取所述待检测音段和所述目标音段中音频帧的梅尔倒谱系数，得到待检测特征序列和目标特征序列；

分别获取所述待检测特征序列和所述目标特征序列的序列长度，得到第一长度和第二长度，并根据所述第一长度和所述第二长度构建音频帧对齐矩阵；

根据所述音频帧对齐矩阵对所述待检测音段和所述目标音段进行音频帧对齐，得到所述对齐路径。

更进一步地，所述根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度所采用的计算公式为：

其中，DTW是所述基频相似度，Q是所述待检测特征序列，C是所述目标特征序列，w是所述对齐路径，w_k是所述对齐路径上第k个点在所述音频帧对齐矩阵中的坐标。

更进一步地，所述分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测的步骤包括：

分别获取所述待检测音段和所述目标音段中发音单元的起止位置；

根据所述发音单元的起止位置查询对应所述待检测音段或所述目标音段中对应的停顿起止位置，得到所述停顿检测结果，所述停顿检测结果包括待检测停顿信息和目标停顿信息。

更进一步地，所述根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度的步骤包括：

将所述待检测停顿信息和所述目标停顿信息中的停顿起止位置进行位置比对，得到位置相似度，所述位置相似度用于表征所述待检测停顿信息和所述目标停顿信息之间停顿起止位置的相似度；

获取所述待检测停顿信息和所述目标停顿信息中停顿起止位置对应的停顿时长，得到第一停顿时长和第二停顿时长；

计算所述第一停顿时长与所述第二停顿时长之间的相似度，得到时长相似度，并对所述时长相似度和所述位置相似度进行权值计算，得到所述停顿相似度。

更进一步地，所述对所述待检测音频和所述标准音频进行音节对齐的步骤之前，所述方法还包括：

分别对所述待检测音频和所述标准音频进行音频强制对齐。

本发明实施例的另一目的在于提供一种发音质量检测系统，所述系统包括：

音节对齐模块，用于获取待检测音频和所述待检测音频对应的标准音频，并对所述待检测音频和所述标准音频进行音节对齐；

音频帧对齐模块，用于根据音节对齐结果对所述待检测音频和所述标准音频进行音段分割，得到待检测音段和目标音段，并对所述待检测音段和所述目标音段进行音频帧对齐，得到对齐路径；

停顿检测模块，用于根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度，并分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测；

发音质量检测模块，用于根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度，并对所述停顿相似度和所述基频相似度进行权值计算，得到发音质量检测值；

发音质量判定模块，用于若所述发音质量检测值大于检测阈值，则判定所述待检测音频的发音质量合格。

更进一步地，所述音频帧对齐模块还用于：

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的发音质量检测方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的发音质量检测方法的步骤。

本发明实施例，通过对待检测音频和标准音频进行音节对齐，有效的提高了对待检测音频和标准音频音段分割的准确性，通过对待检测音段和目标音段进行音频帧对齐，以得到待检测音段与目标音段之间对应的对齐路径，基于对齐路径能有效的计算到检测音段与目标音段之间的基频相似度，通过分别对音频帧对齐后待检测音段与目标音段进行停顿检测，能有效的计算到待检测音段与目标音段之间的停顿相似度，通过对停顿相似度和基频相似度进行权值计算，以得到该待检测音频对应的发音质量检测值，基于发音质量检测值能自动判断待检测音频的发音质量检测是否合格，无需采用人工的方式进行音频数据发音质量检测，提高了发音质量检测的准确性。

附图说明

图1是本发明第一实施例提供的发音质量检测方法的流程图；

图2是本发明第二实施例提供的发音质量检测方法的流程图；

图3是本发明第三实施例提供的发音质量检测系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的发音质量检测方法的流程图，包括步骤：

步骤S10，获取待检测音频和所述待检测音频对应的标准音频，并对所述待检测音频和所述标准音频进行音节对齐；

其中，该标准音频为待检测音频对应的高发音质量的音频，该标准音频可以根据需求进行设置；

该步骤中，通过对待检测音频和标准音频进行音节对齐，以获取待检测音频和标准音频中对应的音节片段，进而有效的提高了后续对待检测音频和标准音频音段分割的准确性；

可选的，该步骤中，所述对所述待检测音频和所述标准音频进行音节对齐的步骤之前，所述方法还包括：

分别对所述待检测音频和所述标准音频进行音频强制对齐，其中，通过分别对待检测音频和标准音频进行音频强制对齐，有效的提高了待检测音频和标准音频对应音频数据的准确性；

具体的，该步骤中，可以基于预设的文本信息和预训练后的声学模型分别对该待检测音频和标准音频进行音频强制对齐，以达到对待检测音频和标准音频在音节层面的音段分割效果。

步骤S20，根据音节对齐结果对所述待检测音频和所述标准音频进行音段分割，得到待检测音段和目标音段，对所述待检测音段和所述目标音段进行音频帧对齐，得到对齐路径；

其中，通过对待检测音段和目标音段进行音频帧对齐，以得到待检测音段与目标音段之间对应的对齐路径，该对齐路径用于表征待检测音段与目标音段之间特征映射关系。

具体的，该步骤中，所述对所述待检测音段和所述目标音段进行音频帧对齐的步骤包括：

根据所述音频帧对齐矩阵对所述待检测音段和所述目标音段进行音频帧对齐，得到所述对齐路径；

其中，通过分别获取待检测特征序列Q和目标特征序列C的序列长度，有效的提高了音频帧对齐矩阵构建的准确性，该步骤中，音频帧对齐矩阵的大小是nxm，n是第一长度，m是第二长度，Q＝q1，q2，q3...qi,C＝c1，c2，c3...ci，qi是待检测特征序列Q中第i帧对应的梅尔倒谱系数，ci是目标特征序列C中第i帧对应的梅尔倒谱系数；

具体的，该音频帧对齐矩阵中的矩阵元素(i,j)表示qi和cj两个点的距离d(qi,cj)(也就是序列Q的每一个点和C的每一个点之间的相似度，距离越小则相似度越高)，一般采用欧式距离公式计算该距离d，d(qi,cj)＝(qi-cj)2(也可以理解为失真度)，每一个矩阵元素(i,j)表示点qi和cj的对齐，对齐路径W的第k个元素定义为wk＝(i,j)k，即，定义了序列Q和C的映射。

步骤S30，根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度，并分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测；

其中，该基频相似度用于表征待检测音段与目标音段之间音高信息(F0序列，基频特征)之间的相似程度，该步骤中，通过分别对音频帧对齐后待检测音段与目标音段进行停顿检测，以获取音频帧对齐后待检测音段和目标音段中的停顿信息，该停顿信息包括对应的音频停顿位置和对应的停顿时间；

具体的，该步骤中，所述根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度所采用的计算公式为：

步骤S40，根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度，并对所述停顿相似度和所述基频相似度进行权值计算，得到发音质量检测值；

其中，该停顿相似度用于表征待检测音段与目标音段中停顿信息之间的相似度，当该停顿相似度越大时，则判定待检测音段与目标音段中停顿信息越相似，即，该待检测音段与目标音段越相似；

该步骤中，对停顿相似度和基频相似度进行权值计算所采用的计算公式为：

H＝AxB+CxD

其中，H是发音质量检测值，A是停顿相似度，C是基频相似度，B是停顿相似度对应的预设权重，D是基频相似度对应的预设权重，B和D均可以根据用户需求进行设置，通过对停顿相似度和基频相似度进行权值计算，有效的提高了发音质量检测值计算的准确性，防止了由于采用人工方式进行发音质量所导致的检测准确性低下的现象。

步骤S50，若所述发音质量检测值大于检测阈值，则判定所述待检测音频的发音质量合格；

其中，该检测阈值可以根据需求进行设置，该检测阈值用于判断该发音质量检测值对应的待检测音频的发音质量是否合格，该步骤中，若发音质量检测值大于检测阈值，则判定该待检测音频与标准音频之间的相似度满足预设相似度条件，由于该标准音频为待检测音频对应的高发音质量的音频，因此，当待检测音频与标准音频之间的相似度满足预设相似度条件时，则判定待检测音频的发音质量合格。

本实施例中，通过对待检测音频和标准音频进行音节对齐，有效的提高了对待检测音频和标准音频音段分割的准确性，通过对待检测音段和目标音段进行音频帧对齐，以得到待检测音段与目标音段之间对应的对齐路径，基于对齐路径能有效的计算到检测音段与目标音段之间的基频相似度，通过分别对音频帧对齐后待检测音段与目标音段进行停顿检测，能有效的计算到待检测音段与目标音段之间的停顿相似度，通过对停顿相似度和基频相似度进行权值计算，以得到该待检测音频对应的发音质量检测值，基于发音质量检测值能自动判断待检测音频的发音质量检测是否合格，无需采用人工的方式进行音频数据发音质量检测，提高了发音质量检测的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的发音质量检测方法的流程图，第二实施例提供的发音质量检测方法用于对第一实施例中的步骤S40作进一步细化，包括步骤：

步骤S41，分别获取所述待检测音段和所述目标音段中发音单元的起止位置；

其中，通过对待检测音段和目标音段中的发音单元进行静音检测(VAD)，以得到不同发音单元对应的起止位置；

步骤S42，根据所述发音单元的起止位置查询对应所述待检测音段或所述目标音段中对应的停顿起止位置，得到所述停顿检测结果；

其中，根据相邻发音单元的起止位置，能有效的计算到相邻发音单元之间静音段对应的停顿起止位置，以得到该停顿检测结果，该停顿检测结果包括待检测停顿信息和目标停顿信息，该待检测停顿信息和目标停顿信息包括对应停顿起止位置和停顿时长；

例如，第一发音单元与第二发音单元为待检测音段中的相邻发音单元，第一发音单元的起止位置是0.5秒-0.55秒，第二发音单元的起止位置是0.6秒-0.7秒时，则第一发音单元与第二发音单元之间的停顿起止位置为0.55秒-0.6秒；

该待检测停顿信息包括停顿起止位置a1、停顿起止位置a1对应的停顿时长b1、停顿起止位置a2、停顿起止位置a2对应的停顿时长b2，该目标停顿信息包括停顿起止位置a3、停顿起止位置a3对应的停顿时长b3、停顿起止位置a4、停顿起止位置a4对应的停顿时长b4；

步骤S43，将所述待检测停顿信息和所述目标停顿信息中的停顿起止位置进行位置比对，得到位置相似度；

其中，该位置相似度用于表征待检测停顿信息和目标停顿信息之间停顿起止位置的相似度，当该位置相似度越大时，则该待检测停顿信息与目标停顿信息之间停顿起止的位置越相似；

步骤S44，获取所述待检测停顿信息和所述目标停顿信息中停顿起止位置对应的停顿时长，得到第一停顿时长和第二停顿时长；

可选的，该步骤中，当停顿时间超过20毫秒，可以感觉到有停顿的存在，因此，通过将静音帧连续大于2帧(20毫秒)的静音位置视之为一次停顿，当待检测停顿信息或目标停顿信息中任一停顿起止位置对应的时长小于20毫秒时，则删除对应的停顿信息。

步骤S45，计算所述第一停顿时长与所述第二停顿时长之间的相似度，得到时长相似度，并对所述时长相似度和所述位置相似度进行权值计算，得到所述停顿相似度；

该步骤中，对所述时长相似度和所述位置相似度进行权值计算所采用的计算公式为：

S＝ExF+GxZ

其中，S是停顿相似度，E是位置相似度，G是时长相似度，F是位置相似度对应的预设权重，Z是时长相似度对应的预设权重，G和Z均可以根据用户需求进行设置。

可选的，本实施例中，所述发音质量检测方法还包括：

分别获取待检测音频和标准音频的语速信息，并根据所述语速信息计算所述待检测音频与所述标准音频之间的语速相似度；

若所述语速相似度小于相似度阈值，则判定所述待检测音频的发音质量不合格。

本实施例，通过分别获取待检测音段和目标音段中发音单元的起止位置，有效的提高了待检测音段和目标音段中的停顿起止位置查询的准确性，通过将待检测停顿信息和目标停顿信息中的停顿起止位置进行位置比对，能有效的计算到待检测音段与目标音段之间停顿位置的相似度，通过计算第一停顿时长与第二停顿时长之间的相似度得到时长相似度，并对时长相似度和位置相似度进行权值计算，能有效的计算到待检测音段与目标音段之间的停顿相似度，进而提高了发音质量检测的准确性。

实施例三

请参阅图3，是本发明第三实施例提供的发音质量检测系统100的结构示意图，包括：音节对齐模块10、音频帧对齐模块11、停顿检测模块12、发音质量检测模块13和发音质量判定模块14，其中：

音节对齐模块10，用于获取待检测音频和所述待检测音频对应的标准音频，并对所述待检测音频和所述标准音频进行音节对齐。

其中，该音节对齐模块10还用于：分别对所述待检测音频和所述标准音频进行音频强制对齐。

音频帧对齐模块11，用于根据音节对齐结果对所述待检测音频和所述标准音频进行音段分割，得到待检测音段和目标音段，并对所述待检测音段和所述目标音段进行音频帧对齐，得到对齐路径。

其中，该音频帧对齐模块11还用于：分别提取所述待检测音段和所述目标音段中音频帧的梅尔倒谱系数，得到待检测特征序列和目标特征序列；

停顿检测模块12，用于根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度，并分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测。

其中，该停顿检测模块12中，所述根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度所采用的计算公式为：

可选的，该停顿检测模块12还用于：分别获取所述待检测音段和所述目标音段中发音单元的起止位置；

发音质量检测模块13，用于根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度，并对所述停顿相似度和所述基频相似度进行权值计算，得到发音质量检测值。

其中，该发音质量检测模块13还用于：将所述待检测停顿信息和所述目标停顿信息中的停顿起止位置进行位置比对，得到位置相似度，所述位置相似度用于表征所述待检测停顿信息和所述目标停顿信息之间停顿起止位置的相似度；

发音质量判定模块14，用于若所述发音质量检测值大于检测阈值，则判定所述待检测音频的发音质量合格。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的发音质量检测方法，该移动终端101可以为机器人。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

若所述发音质量检测值大于检测阈值，则判定所述待检测音频的发音质量合格。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的发音质量检测系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1中的发音质量检测方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述当前发音质量检测系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述当前发音质量检测系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种发音质量检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的发音质量检测方法，其特征在于，所述对所述待检测音段和所述目标音段进行音频帧对齐的步骤包括：

3.如权利要求2所述的发音质量检测方法，其特征在于，所述根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度所采用的计算公式为：

4.如权利要求1所述的发音质量检测方法，其特征在于，所述分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测的步骤包括：

5.如权利要求4所述的发音质量检测方法，其特征在于，所述根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度的步骤包括：

6.如权利要求1所述的发音质量检测方法，其特征在于，所述对所述待检测音频和所述标准音频进行音节对齐的步骤之前，所述方法还包括：

分别对所述待检测音频和所述标准音频进行音频强制对齐。

7.一种发音质量检测系统，其特征在于，所述系统包括：

8.如权利要求7所述的发音质量检测系统，其特征在于，所述音频帧对齐模块还用于：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的发音质量检测方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的发音质量检测方法的步骤。