CN115171724A

CN115171724A - 一种语速分析方法及系统

Info

Publication number: CN115171724A
Application number: CN202110359348.XA
Authority: CN
Inventors: 熊浩; 龚科
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2022-10-11

Abstract

本发明提供了一种语速分析方法及系统，其中，该方法包括：获取待分析语音数据及其对应的总时长；提取待分析语音数据中包含的总音节数；基于总音节数及总时长，确定待分析语音数据的语速。从而通过提取待分析语音数据中包含的总音节数的方式来分析语速，实现教学资源中语速的准确分析，从而可以对在线教学平台上中文或英文教学场景中教师教学对话进行分析，得到其语速数据，为教学分析提供数据支撑，对教师整体教学活动的评价具有重要意义。

Description

一种语速分析方法及系统

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种语速分析方法及系统。

背景技术

随着移动互联网的高速发展，通讯软件的应用也越来越广泛，例如：越来越多的老师通过即时通讯软件对学生进行在线教学辅导，以替代传统的面对面教学方式。相比起传统的线下教育模式，在线教育有空间上的优势，教学地点灵活，一定程度上也促进了优质教育资源的传播。

在线教育通常通过录制的音频及视频来完成教学，由于教师进行教学的语速会影响学生的听课效果，通常将语速作为评价教师教学活动的重要评价指标之一，因此，如何实现教学资源中语速的准确分析，对教师整体教学活动的评价具有重要意义。

发明内容

有鉴于此，本发明实施例提供了一种语速分析方法及系统，以克服现有技术中难以实现教学资源中语速的准确分析的问题。

本发明实施例提供了一种语速分析方法，包括：

获取待分析语音数据及其对应的总时长；

提取所述待分析语音数据中包含的总音节数；

基于所述总音节数及所述总时长，确定所述待分析语音数据的语速。

可选地，所述提取所述待分析语音数据中包含的总音节数，包括：

基于所述待分析语音数据的总时长及预设音频时长，将所述待分析语音数据划分为多个音频片段；

提取每个音频片段的声音特征；

将每个音频片段对应的声音特征输入预设音节数回归模型，得到每个音频片段对应的音节数；

对所有音频片段对应的音节数进行求和得到所述总音节数。

可选地，所述提取每个音频片段的声音特征，包括：

将当前音频片段转换为幅度谱；

基于所述幅度谱，提取所述当前音频片段包含的深度特征；

对所有的深度特征进行特征聚合，得到所述当前音频片段对应的声音特征。

可选地，所述方法还包括：

判断是否存在音频片段的时长小于所述预设音频时长；

当存在音频片段的时长小于所述预设音频时长时，将音频片段填充至满足所述预设音频时长。

可选地，通过如下公式计算语速：

其中，v表示语速，n表示待分析语音数据划分的音频片段的总数，l表示待分析语音数据的总时长，ρ(x_i)表示第i个音频片段输入预设音节数回归模型ρ输出的音节数。

可选地，所述预设音节数回归模型通过如下方式训练得到：

构建训练数据集，所述训练数据集包括：音频样本的声音特征及所述音频样本对应的文本所包含的实际音节数；

将所述训练数据集中各音频样本的声音特征输入初始音节数回归模型，得到各音频样本对应的预测音节数；

基于各音频样本的预测音节数和实际音节数的关系对所述初始音节数回归模型的模型参数进行调整，直至满足模型预设训练要求，得到所述预设音节数回归模型。

可选地，所述预设音节数回归模型为神经网络模型。

本发明实施例还提供了一种语速分析系统，包括：

获取模块，用于获取待分析语音数据及其对应的总时长；

第一处理模块，用于提取所述待分析语音数据中包含的总音节数；

第二处理模块，用于基于所述总音节数及所述总时长，确定所述待分析语音数据的语速。

本发明实施例还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例提供的语速分析方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行本发明实施例提供的语速分析方法。

本发明技术方案，具有如下优点：

本发明实施例提供了一种语速分析方法及系统，通过获取待分析语音数据及其对应的总时长；提取待分析语音数据中包含的总音节数；基于总音节数及总时长，确定待分析语音数据的语速。从而通过提取待分析语音数据中包含的总音节数的方式来分析语速，实现教学资源中语速的准确分析，从而可以对在线教学平台上中文或英文教学场景中教师教学对话进行分析，得到其语速数据，为教学分析提供数据支撑，对教师整体教学活动的评价具有重要意义。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的语速分析方法的流程图；

图2为本发明实施例中的语速分析系统的结构示意图；

图3为本发明实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

基于上述问题，本发明实施例提供了一种语速分析方法，可应用于在线教学平台中教学资源的语速分析，如图1所示，该语速分析方法主要包括如下步骤：

步骤S101：获取待分析语音数据及其对应的总时长。

具体地，该待分析语音数据为包含有人声的音频数据，例如：在线教学平台上录制的教学音频或者是从包含有语音数据的教学视频提取相应的音频数据等。待分析语音数据的获取方式可以是直接下载音频数据或者从预设的待分析语音数据库中进行提取等，本发明并不以此为限。

步骤S102：提取待分析语音数据中包含的总音节数。

具体地，语音数据中音节的划分方式与语音数据的语语言有关，如中文一般一个字对应一个音节，特殊情况有儿化音和个别汉字代表两个音节的情况，可以根据数据集情况进行针对性的文本规范化后再统计音节；如果是英文，可以通过切分句子中的单词，并判断单词是几音节来统计音节数，也可以通过对音标中的元音和发生较响亮的辅音进行计算，统计得到句子对应的音节数；其他语言则需要根据其语法特点进行音节数提取，本发明并不以此为限。

步骤S103：基于总音节数及总时长，确定待分析语音数据的语速。

其中，针对固定时长的音频数据所包含的总音节数量越多，则说明该音频数据中语速越快，反之则说明语速越慢，因此，可通过语音数据的总时长及其中包含的总音节数来评估语速。

通过上述步骤S101至步骤S103，本发明实施例提供的语速分析方法，通过提取待分析语音数据中包含的总音节数的方式来分析语速，实现教学资源中语速的准确分析，从而可以对在线教学平台上中文或英文教学场景中教师教学对话进行分析，得到其语速数据，为教学分析提供数据支撑，对教师整体教学活动的评价具有重要意义。

具体地，在一实施例中，上述的步骤S102具体包括如下步骤：

步骤S201：基于待分析语音数据的总时长及预设音频时长，将待分析语音数据划分为多个音频片段。

其中，该预设音频时长为根据声音特征提取方式及实际需要设置的时长，通过将总时长较长的待分析语音数据划分为若干个音频片段，再对各个音频片段进行并行处理，提高了整体语速分析的处理速度，并且有利于实现实时语速的分析。

具体地，为了便于音频片段处理，需要对切分的音频片段进行归一化处理，对于待分析语音数据的最后一个切分的音频片段，通过判断是否存在音频片段的时长小于预设音频时长；当存在音频片段的时长小于预设音频时长时，将音频片段填充至满足预设音频时长。从而保障所有的音频片段的时长均相同，便于后续数据的处理。

步骤S202：提取每个音频片段的声音特征。

具体地，通过如下过程提取声音特征：

将当前音频片段转换为幅度谱。具体地，主要步骤包括对音频片段进行短时傅里叶变换，求幅度谱并对其进行归一化等数据前处理操作，将音频信号转化为二维的归一化幅度谱。

基于幅度谱，提取当前音频片段包含的深度特征。

对所有的深度特征进行特征聚合，得到当前音频片段对应的声音特征。

在本发明实施例中，通过将音频片段输入训练好的深度神经网络模型，以得到声音特征，其中，以mobilenet-v2为主干网络，以得到音频的若干个深度特征，然后将这些深度特征进行聚合得到音频的稠密特征最后送入预设音节数回归模型进行音节数的预测。其中主干网络mobilenet-v2采用深度可分离卷积代替传统的卷积，推理速度更快，其在业界已广泛使用，这里不再深入介绍；在特征聚合阶段，采用更有效的特征聚合方法NetVLADPooling。假设主干网络得到的深度特征为{x₁,x₂,…,x_T}，NetVLAD Pooling的中间输出为一个K×D的矩阵V，K表示预先定义的聚类数，D表示每个聚类中心的维度大小，则矩阵V的每一个行通过下式得到：

其中{w_k}，{b_k}，{c_k}为训练参数，跟随分类模型一起训练。将矩阵V进行L2正则化后拼接在一起即为NetVLAD Pooling聚合的特征，最后送入预设音节数回归模型进行音节数回归，得到输入音频片段中的音节数量。整个模型采用均方损失函数作为损失函数，对模型进行调整训练。

步骤S203：将每个音频片段对应的声音特征输入预设音节数回归模型，得到每个音频片段对应的音节数。

其中，在本发明实施例中，是以该预设音节数回归模型为神经网络模型为例进行的说明，以提高数据处理效率，有利于实现语速的实时分析，需要说明的是，在实际应用中，也可以根据不同的语速分析要求选择不同的模型。

预设音节数回归模型通过如下方式训练得到：

构建训练数据集，训练数据集包括：音频样本的声音特征及音频样本对应的文本所包含的实际音节数。其中，构建训练数据集所需要的原始数据需要包含音频及其对应文本，再通过相应语言的音节计算方法，得到音频标注文本对应的音节数。该步骤可以通过人工标注或根据通用语法编写脚本进行，例如中文一般一个字对应一个音节，特殊情况有儿化音和个别汉字代表两个音节的情况，可以根据数据集情况进行针对性的文本规范化后再统计音节。如果是英文，可以通过切分句子中的单词，并判断单词是几音节来统计音节数，也可以通过对音标中的元音和发生较响亮的辅音进行计算，统计得到句子对应的音节数。其他语言则需要根据其语法特点进行音节数计算，以完成数据集构建。

将训练数据集中各音频样本的声音特征输入初始音节数回归模型，得到各音频样本对应的预测音节数。首先，将数据前处理中处理得到的归一化幅度谱输入到上述的深度神经网络中，然后根据数据标签对初始化的深度神经网络模型的各个参数进行调整。使用所有训练数据循环执行上述训练操作，直到模型收敛，完成训练，然后将完成训练后输出的各个音频样本对应的声音特征输入至初始音节数回归模型。

基于各音频样本的预测音节数和实际音节数的关系对初始音节数回归模型的模型参数进行调整，直至满足模型预设训练要求，得到预设音节数回归模型。

步骤S204：对所有音频片段对应的音节数进行求和得到总音节数。

通过如下公式计算语速：

下面将结合具体应用示例，对本发明实施例提供的语速分析方法进行详细的说明。

在首次运行时，加载训练好的深度神经网络模型、预设音节数回归模型及各自对应的模型参数；

然后，对传入音频进行数据前处理，包括：音频切分、填充、转换为幅度谱等操作，再进行深度神经网络模型及预设音节数回归模型进行推理，得到各个音频子片段音节数的回归结果，在实际应用中，可根据需要精度对其进行舍入操作，如仅保留整数音节数等。

然后，在得到当前音频切分后的所有子片段的发音音节数回归结果后，对其进行求和计算，得到总发音音节数。

最后，根据总发音音节数和音频的实际时长，计算得到当前音频的平均语速并返回结果。

通过执行上述步骤，本发明实施例提供的语速分析方法，通过提取待分析语音数据中包含的总音节数的方式来分析语速，实现教学资源中语速的准确分析，从而可以对在线教学平台上中文或英文教学场景中教师教学对话进行分析，得到其语速数据，为教学分析提供数据支撑，对教师整体教学活动的评价具有重要意义。

本发明实施例还提供了一种语速分析系统，如图2所示，该语速分析系统包括：

获取模块101，用于获取待分析语音数据及其对应的总时长。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

第一处理模块102，用于提取待分析语音数据中包含的总音节数。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

第二处理模块103，用于基于总音节数及总时长，确定待分析语音数据的语速。详细内容参见上述方法实施例中步骤S103的相关描述，在此不再进行赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的语速分析系统，通过提取待分析语音数据中包含的总音节数的方式来分析语速，实现教学资源中语速的准确分析，从而可以对在线教学平台上中文或英文教学场景中教师教学对话进行分析，得到其语速数据，为教学分析提供数据支撑，对教师整体教学活动的评价具有重要意义。

根据本发明实施例还提供了一种电子设备，如图3所示，该电子设备可以包括处理器901和存储器902，其中处理器901和存储器902可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法实施例中的方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种语速分析方法，其特征在于，包括：

获取待分析语音数据及其对应的总时长；

提取所述待分析语音数据中包含的总音节数；

2.根据权利要求1所述的方法，其特征在于，所述提取所述待分析语音数据中包含的总音节数，包括：

提取每个音频片段的声音特征；

对所有音频片段对应的音节数进行求和得到所述总音节数。

3.根据权利要求2所述的方法，其特征在于，所述提取每个音频片段的声音特征，包括：

将当前音频片段转换为幅度谱；

基于所述幅度谱，提取所述当前音频片段包含的深度特征；

4.根据权利要求2所述的方法，其特征在于，还包括：

判断是否存在音频片段的时长小于所述预设音频时长；

5.根据权利要求4所述的方法，其特征在于，通过如下公式计算语速：

6.根据权利要求2所述的方法，其特征在于，所述预设音节数回归模型通过如下方式训练得到：

7.根据权利要求2所述的方法，其特征在于，所述预设音节数回归模型为神经网络模型。

8.一种语速分析系统，其特征在于，包括：

获取模块，用于获取待分析语音数据及其对应的总时长；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1－7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机从而执行权利要求1－7任一项所述的方法。