CN115116430A

CN115116430A - 一种语音数据分析方法及系统

Info

Publication number: CN115116430A
Application number: CN202110262803.4A
Authority: CN
Inventors: 刘刚; 龚科
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-09-27

Abstract

本发明提供了一种语音数据分析方法及系统，其中，该方法包括：获取待分析语音数据；从待分析语音数据中提取出不同语言类型对应的音频片段；基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。从而通过对待分析语音数据中各个音频片段中语音的语言类型进行分析，并按照不同语言类型的音频时长，得到语音数据分析结果，实现教学资源中说话时长的准确分析，从而可以对在线教学平台上中文、英文等教学场景中教师的说话时长进行分析，得到其有效说话时长的分析结果，为教学分析提供数据支撑，对于分析学生的上课质量有重要指导作用，对教师整体教学活动的评价具有重要意义。

Description

一种语音数据分析方法及系统

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种语音数据分析方法及系统。

背景技术

在线教育渐渐取代传统的教育方式，目前越来越多的老师通过即时通讯软件对学生进行教学辅导，这使得智能化分析课堂情况具有更大的便捷性。在课堂上老师的有效说话时长能反映老师对于该课堂的参与度，而老师的参与度直接影响着学生的学习质量；另一方面，目前老师在讲课时并不一直都用同一种语言进行授课，比如英语课堂时偶尔会借助中文，或者有的老师有自己喜爱的教学方式：如通过切换语言调节课堂的氛围等。因此，如何对老师的有效说话时长分析对于分析学生的上课质量有重要指导作用，对教师整体教学活动的评价具有重要意义。

发明内容

有鉴于此，本发明实施例提供了一种语音数据分析方法及系统，以克服现有技术中缺乏对教学资源中的有效说话时长进行准确分析的问题。

本发明实施例提供了一种语音数据分析方法，包括：

获取待分析语音数据；

从所述待分析语音数据中提取出不同语言类型对应的音频片段；

基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。

可选地，所述从所述待分析语音数据中提取出不同语言类型对应的音频片段，包括：

获取所述待分析语音数据的总时长；

基于所述总时长及预设音频时长，将所述待分析语音数据划分为多个音频片段；

分别对各个音频片段中的语音数据进行语言类型分析，确定各音频片段对应的语言类型。

可选地，所述分别对各个音频片段中的语音数据进行语言类型分析，确定各音频片段对应的语言类型，包括：

将当前音频片段转换为幅度谱；

将所述幅度谱输入预设语音类型分类模型，得到所述当前音频片段属于各预设语言类型的概率；

基于预设概率阈值及所述当前音频片段属于各预设语言类型的概率，确定所述当前音频片段的语言类型。

可选地，所述基于不同语言类型对应的音频片段的时长，生成语音数据分析结果，包括：

分别计算各预设语言类型对应的音频片段的数量；

基于所述预设音频时长及各预设语言类型对应的音频片段的数量，确定各预设语言类型对应的语音时长；

基于各预设语言类型对应的语音时长，确定所述待分析语音数据的有效说话时长。

可选地，所述方法还包括：

基于各预设语言类型对应的语音时长及所述有效说话时长，确定所述待分析语音数据中各预设语言类型的时长占比。

可选地，在从所述待分析语音数据中提取出不同语言类型对应的音频片段之前，所述方法还包括：

剔除所述待分析语音数据中包含的静音。

可选地，所述基于预设概率阈值及所述当前音频片段属于各预设语言类型的概率，确定所述当前音频片段的语言类型，包括：

判断所述当前音频片段属于当前预设语言类型的概率是否大于所述预设概率阈值；

当所述当前音频片段属于当前预设语言类型的概率大于所述预设概率阈值时，将所述当前预设语言类型确定为所述当前音频片段的语言类型。

本发明实施例还提供了一种语音数据分析系统，包括：

获取模块，用于获取待分析语音数据；

第一处理模块，从所述待分析语音数据中提取出不同语言类型对应的音频片段；

第二处理模块，基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。

本发明实施例还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例提供的语音数据分析方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行本发明实施例提供的语音数据分析方法。

本发明技术方案，具有如下优点：

本发明实施例提供了一种语音数据分析方法及系统，通过获取待分析语音数据；从待分析语音数据中提取出不同语言类型对应的音频片段；基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。从而通过对待分析语音数据中各个音频片段中语音的语言类型进行分析，并按照不同语言类型的音频时长，得到语音数据分析结果，实现教学资源中说话时长的准确分析，从而可以对在线教学平台上中文、英文等教学场景中教师的说话时长进行分析，得到其有效说话时长的分析结果，为教学分析提供数据支撑，对于分析学生的上课质量有重要指导作用，对教师整体教学活动的评价具有重要意义。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的语音数据分析方法的流程图；

图2为本发明实施例中的将幅度谱输入预设语音类型分类模型，得到当前音频片段属于各预设语言类型的概率的过程示意图；

图3为本发明实施例中的语音数据分析系统的结构示意图；

图4为本发明实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

基于上述问题，本发明实施例提供了一种语音数据分析方法，可应用于在线教学平台中教学资源的说话时长分析，如图1所示，该语音数据分析方法主要包括如下步骤：

步骤S101：获取待分析语音数据。

具体地，该待分析语音数据为包含有静音、人声及噪声的音频数据，例如：在线教学平台上录制的教学音频或者是从包含有语音数据的教学视频提取相应的音频数据等。待分析语音数据的获取方式可以是直接下载音频数据或者从预设的待分析语音数据库中进行提取等，本发明并不以此为限。

步骤S102：从待分析语音数据中提取出不同语言类型对应的音频片段。

其中，以老师教学音频为待分析语音数据为例，由于音频中除了包括老师的说话声，还包括静音即老师未说话的状态以及由于环境及语音采集设备所造成的噪声和其他声音等，为了准确得到教师的有效说话时长，通常在教学过程中，教师说话时利用特定的语言进行教学，如中文、英文或者二者的混合等，通过提取老师说话时采用的语言类型来获取对应的音频片段以区别于其他声音如噪声等。需要说明的是，在本发明实施例中，是以语言类型包括：中文和英文为例进行的说明，在实际应用中，该语言类型可根据实际教学课程的设计及对应老师的语言特点习惯来进行灵活的设置，本发明并不以此为限。

步骤S103：基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。

其中，通过计算同一语言类型对应的音频片段的时长，再将不同语言类型独有的时长进行累加，即可得到教师的总有效说话时长，此外，还可根据不同语言类型对应的时长确定其在总有效时长的时长占比，以进一步对老师的教学行为进行分析。

通过上述步骤S101至步骤S103，本发明实施例提供的语音数据分析方法及系统，通过获取待分析语音数据；从待分析语音数据中提取出不同语言类型对应的音频片段；基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。从而通过对待分析语音数据中各个音频片段中语音的语言类型进行分析，并按照不同语言类型的音频时长，得到语音数据分析结果，实现教学资源中说话时长的准确分析，从而可以对在线教学平台上中文、英文等教学场景中教师的说话时长进行分析，得到其有效说话时长的分析结果，为教学分析提供数据支撑，对于分析学生的上课质量有重要指导作用，对教师整体教学活动的评价具有重要意义。

具体地，在一实施例中，上述的步骤S102具体包括如下步骤：

步骤S201：获取待分析语音数据的总时长。

其中，该总时长为待分析语音数据如：教学音频的总时长，如：1小时、2小时等。

步骤S202：基于总时长及预设音频时长，将待分析语音数据划分为多个音频片段；

其中，该预设音频时长为实际分析精度及处理速度需要设置的时长，如1s、2是等。通过将总时长较长的待分析语音数据划分为若干个音频片段，再对各个音频片段进行并行处理，提高了整体语音数据的处理速度。

步骤S203：分别对各个音频片段中的语音数据进行语言类型分析，确定各音频片段对应的语言类型。

具体地，上述的步骤S203，具体包括如下步骤：

步骤S31：将当前音频片段转换为幅度谱。

具体地，主要步骤包括对音频片段进行短时傅里叶变换，求幅度谱并对其进行归一化等数据前处理操作，将音频信号转化为二维的归一化幅度谱。

步骤S32：将幅度谱输入预设语音类型分类模型，得到当前音频片段属于各预设语言类型的概率。

其中，该预设语音类型分类模型是通过事先建立的分类模型，该分类模型的输入为音频片段，输出为预测该音频片段属于不同类型语言的概率，并利用大量的已知音频片段对该分类模型进行训练后得到的。

在本发明实施例中，如图2所示，分类模型以mobilenet－v2为主干网络，进一步得到音频的若干个深度特征，然后将这些深度特征进行聚合得到音频的稠密特征最后送入分类器进行分类。其中主干网络mobilenet－v2采用深度可分离卷积代替传统的卷积，推理速度更快，其在业界已广泛使用，这里不再深入介绍；在特征聚合阶段，采用更有效的特征聚合方法NetVLAD Pooling。假设主干网络得到的深度特征为{x₁,x₂,…,x_T}，NetVLADPooling的中间输出为一个K×D的矩阵V，K表示预先定义的聚类数，D表示每个聚类中心的维度大小，则矩阵V的每一个行通过下式得到：

其中{w_k}，{b_k}，{c_k}为训练参数，跟随分类模型一起训练。将矩阵V进行L2正则化后拼接在一起即为NetVLAD Pooling聚合的特征，之后送入全连接层进行分类。在本发明实施例中，整个分类模型采用二元交叉熵损失函数作为目标进行训练。

步骤S33：基于预设概率阈值及当前音频片段属于各预设语言类型的概率，确定当前音频片段的语言类型。

具体地，通过判断当前音频片段属于当前预设语言类型的概率是否大于预设概率阈值；当当前音频片段属于当前预设语言类型的概率大于预设概率阈值时，将当前预设语言类型确定为当前音频片段的语言类型。在实际应用中，如果当前音频片段对应所有预设语言类型的概率均不大于预设概率阈值，则说明该音频片段为噪音或者其他声音，这些声音并非本申请语音数据分析所关注的声音，即不属于教师说话的声音，然后该音频片段舍弃。从而实现了对当前音频片段所属语言类型的客观评估，为后续分析有效说话时长提供了准确的数据基础。

具体地，在一实施例中，上述的步骤S103具体包括如下步骤：

步骤S301：分别计算各预设语言类型对应的音频片段的数量。

其中，对所有的音频片段对应的语言类型进行分类，并通过统计得到每一个预设语言类型对应的音频片段的数量。

步骤S302：基于预设音频时长及各预设语言类型对应的音频片段的数量，确定各预设语言类型对应的语音时长。

其中，每一个预设语言类型对应的语音时长即为该预设语言类型对应的音频片段的数量与预设音频时长的乘积，假设预设语言类型为中文，其对应的音频片段的数量为100个，预设音频时长为2s，则中文对应的语音时长为200s。

步骤S303：基于各预设语言类型对应的语音时长，确定待分析语音数据的有效说话时长。

其中，在得到了每个音频片段的分类结果后，有效说话时长为各预设语言类型对应的语音时长的累加和，例如：分别统计所有分类为中文以及所有分类为英文的时间，累计求和便得到该老师在整个上课期间说中文和说英文的总时长。

步骤S304：基于各预设语言类型对应的语音时长及有效说话时长，确定待分析语音数据中各预设语言类型的时长占比。

其中，进一步通过中文总时长和英文总时长求和便得到该老师有效说话时长以及相比便能计算出整个课堂的中英文时长占比。

本发明实施例提供的语音数据分析方法可应用于面向在线教学平台的教师说话时长分析系统，该系统能够接收待分析的语音数据，能够快速、准确地统计出音频中老师的有效时长，进一步的能够分别统计出老师说中文和说英文的有效时长，对分析老师的上课风格以及教学质量的评估都能提供相应的支持。

具体地，在一实施例中，在上述步骤S102之前，上述的语音数据分析方法还包括如下步骤：

步骤S104：剔除待分析语音数据中包含的静音。

具体地，静音在音频中是本发明实施例提供的语音数据分析方法所不关注的部分，但在真实环境中语音存在相当比例的静音，因此如果能提前高效地剔除语音的静音部分，不仅能降低后续任务的工作量，同时也使后续任务变得相对简单。在实际应用中，剔除音频中的静音，可采用现有技术中的相关静音去除方法实现，如语音活性检测(Voiceactivity detection，VAD)已广泛应用于剔除音频中静音的剔除，在此不再进行赘述。通过将待分析语音数据中包含的静音剔除，可大大缩短待分析语音数据的数据处理量，并且通过先排除静音的干扰，有利于提高最终分析时长的准确性，提高分析结果的准确性。

类似地，在实际应用中，在上述步骤S102之前，上述的语音数据分析方法还可以将待分析语音数据中包含的噪音进行剔除，以进一步减少后续需要数据的数据处理端，提高分析结果的准确性。

通过执行上述步骤，本发明实施例提供的语音数据分析方法，通过获取待分析语音数据；从待分析语音数据中提取出不同语言类型对应的音频片段；基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。从而通过对待分析语音数据中各个音频片段中语音的语言类型进行分析，并按照不同语言类型的音频时长，得到语音数据分析结果，实现教学资源中说话时长的准确分析，从而可以对在线教学平台上中文、英文等教学场景中教师的说话时长进行分析，得到其有效说话时长的分析结果，为教学分析提供数据支撑，对于分析学生的上课质量有重要指导作用，对教师整体教学活动的评价具有重要意义。

本发明实施例还提供了一种语速分析系统，如图3所示，该语音数据分析系统包括：

获取模块101，用于获取待分析语音数据。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

第一处理模块102，用于从待分析语音数据中提取出不同语言类型对应的音频片段。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

第二处理模块103，用于基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。详细内容参见上述方法实施例中步骤S103的相关描述，在此不再进行赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的语音数据分析系统，通过获取待分析语音数据；从待分析语音数据中提取出不同语言类型对应的音频片段；基于不同语言类型对应的音频片段的时长，生成语音数据分析结果。从而通过对待分析语音数据中各个音频片段中语音的语言类型进行分析，并按照不同语言类型的音频时长，得到语音数据分析结果，实现教学资源中说话时长的准确分析，从而可以对在线教学平台上中文、英文等教学场景中教师的说话时长进行分析，得到其有效说话时长的分析结果，为教学分析提供数据支撑，对于分析学生的上课质量有重要指导作用，对教师整体教学活动的评价具有重要意义。

根据本发明实施例还提供了一种电子设备，如图4所示，该电子设备可以包括处理器901和存储器902，其中处理器901和存储器902可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法实施例中的方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种语音数据分析方法，其特征在于，包括：

获取待分析语音数据；

2.根据权利要求1所述的方法，其特征在于，所述从所述待分析语音数据中提取出不同语言类型对应的音频片段，包括：

获取所述待分析语音数据的总时长；

3.根据权利要求2所述的方法，其特征在于，所述分别对各个音频片段中的语音数据进行语言类型分析，确定各音频片段对应的语言类型，包括：

将当前音频片段转换为幅度谱；

4.根据权利要求3所述的方法，其特征在于，所述基于不同语言类型对应的音频片段的时长，生成语音数据分析结果，包括：

分别计算各预设语言类型对应的音频片段的数量；

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，在从所述待分析语音数据中提取出不同语言类型对应的音频片段之前，所述方法还包括：

剔除所述待分析语音数据中包含的静音。

7.根据权利要求3所述的方法，其特征在于，所述基于预设概率阈值及所述当前音频片段属于各预设语言类型的概率，确定所述当前音频片段的语言类型，包括：

8.一种语音数据分析系统，其特征在于，包括：

获取模块，用于获取待分析语音数据；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1－7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机从而执行权利要求1－7任一项所述的方法。