CN117079655A

CN117079655A - 一种音频分析方法、装置、设备和可读存储介质

Info

Publication number: CN117079655A
Application number: CN202311330853.7A
Authority: CN
Inventors: 袁涛; 韩鹏; 王睿; 郭延辉; 季迎龙
Original assignee: Guangdong Normal University Intelligent Technology Co ltd; South China Normal University
Current assignee: Guangdong Normal University Intelligent Technology Co ltd; South China Normal University
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-11-17
Anticipated expiration: 2043-10-16
Also published as: CN117079655B

Abstract

本申请公开了一种音频分析方法、装置、设备和可读存储介质，本申请结合说话人识别模型和语音活动检测模型，针对课堂中教师和学生的语言活动特点进行初步分析，得到说话人分析结果以及活动类型分析结果并基于此进行音频拆解。此后通过声纹嵌入码的比较计算，进一步准确地分析出教师讲解、学生发言和师生交流等不同情景对应的时间段，构成教师音频集、学生音频集和安静音频集，实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据。最后将各情景的语音片段做数据平滑化处理以减弱环境噪音影响，生成对课堂教学音频的音频分析结果，解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。

Description

一种音频分析方法、装置、设备和可读存储介质

技术领域

本申请涉及数据分析领域，更具体地说，涉及一种音频分析方法、装置、设备和可读存储介质。

背景技术

随着教育技术的不断发展和普及，传统的教学方式正在逐渐演变为更加智能化和个性化的教学模式。通过对课堂教学音频进行进一步的细致分析，记录课堂中学生的参与情况和发言次数，教师讲解情况等，可以实现对学生参与度的客观评估，帮助教师更好地了解每位学生的学习情况，并在后续教学中进行有针对性的指导和辅导。此外，分析结果还可以用于评估教师的教学质量和风格，通过分析不同教师在课堂上的讲解方式、语速、声调等声音特征，可以帮助教研人员评估教师的授课效果，并提出改进建议，以进一步提升教育教学质量。

然而实际课堂场景复杂，语音质量参差不齐、存在不同程度环境干扰，存在多人混音等问题，这给课堂教学音频分析带来了诸多挑战。基于上述教育过程需求和现有技术的情况，需要突破以下的技术问题：

1、精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据；

2、解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。

基于上述情况，本申请提出一种音频分析方案，以克服上述问题。

发明内容

有鉴于此，本申请提供了一种音频分析方法、装置、设备和可读存储介质，实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据，并解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。

一种音频分析方法，包括：

获取课堂教学音频，并对所述课堂教学音频进行预处理，生成符合模型输入数据参数要求的待分析音频数据；

利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析，并结合分析结果对所述待分析音频数据进行音频拆解，生成说话人分析结果以及活动类型分析结果；

提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码，分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序，得到识别人嵌入码集和活动类型嵌入码集，并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组；

基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码，通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度，比较分类得到教师音频集、学生音频集和安静音频集；

对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理，并结合所述待分析音频数据确定其他音频集，组合生成对所述课堂教学音频的音频分析结果。

可选的，所述利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析，并结合分析结果对所述待分析音频数据进行音频拆解，生成说话人分析结果以及活动类型分析结果，包括：

利用预置的说话人识别模型识别所述待分析音频数据中的所述各说话人，并基于识别到的所述各说话人进行音频拆解，得到由所述各说话人对应的各第一元素片段构成的所述说话人分析结果；

利用预置的语音活动检测模型识别所述待分析音频数据中的各语音活动类型，并基于识别到的所述各语音活动类型进行音频拆解，得到由所述各语音活动类型对应的各第二元素片段构成的所述活动类型分析结果；

提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码，分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序，得到识别人嵌入码集和活动类型嵌入码集，并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组，包括：

提取所述各第一元素片段的声纹嵌入码，并按照所述说话频次对所述各第一元素片段的声纹嵌入码进行排序，得到识别人嵌入码集；

提取所述各第二元素片段的声纹嵌入码，并按照所述片段长度对所述各第二元素片段的声纹嵌入码进行排序，得到活动类型嵌入码集。

可选的，计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组，包括：

确定所述识别人嵌入码集中记录的说话人总数，以及所述活动类型嵌入码集中记录的音频片段总数；

结合所述说话人总数，依次计算所述识别人嵌入码集中每一说话人对应的得分数，形成所述说话人得分数组；

结合所述音频片段总数，依次计算所述活动类型嵌入码集中每一音频片段对应的得分数，形成所述活动类型得分数组。

可选的，结合所述说话人总数，计算得到所述识别人嵌入码集中第i个说话人对应的得分数的计算公式为：

；

其中，说话人总数为。

可选的，通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度，比较分类得到教师音频集、学生音频集和安静音频集，包括：

计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度；

将余弦相似度大于或等于预置分类阈值的各第一声纹嵌入码对应的各元素片段分类成教师音频集；

将余弦相似度小于预置分类阈值的各第二声纹嵌入码对应的各元素片段分类成学生音频集；

将所述待分析音频数据中除所述教师音频集和所述学生音频集以外剩余的其他音频部分确定为安静音频集。

可选的，对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理，包括：

基于预置的最短片段阈值，对所述教师音频集、所述学生音频集和所述安静音频集中片段长度小于所述最短片段阈值的较短音频片段进行丢弃处理；

基于预置的最小间隔阈值，对所述教师音频集、所述学生音频集和所述安静音频集中相邻片段间隔小于所述最小间隔阈值的两个相邻音频片段进行片段合并处理。

可选的，基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码，包括：

根据所述说话人得分数组和所述活动类型得分数组，结合获取的说话频次对应的教师音频识别相关度以及片段长度对应的教师音频识别相关度，确定所述识别人嵌入码集和所述活动类型嵌入码集中所述各元素片段的声纹嵌入码互相组合配对生成的各交错组合的概率数组；

计算所述各交错组合的余弦相似度，并结合对应的所述概率数组，根据预置的教师声纹判别函数，确定教师声纹嵌入码。

一种音频分析装置，包括：

音频获取单元，用于获取课堂教学音频，并对所述课堂教学音频进行预处理，生成符合模型输入数据参数要求的待分析音频数据；

模型分析单元，用于利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析，并结合分析结果对所述待分析音频数据进行音频拆解，生成说话人分析结果以及语音活动分析结果；

嵌入码提取单元，用于提取所述说话人分析结果以及所述语音活动分析结果中各元素片段的声纹嵌入码，并分别按照所述各说话人的说话频次和所述各语音活动类型的片段长度对所述各元素片段的声纹嵌入码进行排序，得到说话人得分数组和活动类型得分数组；

相似度分类单元，用于采用贪心策略基于说话人得分数组和活动类型得分数组确定教师声纹嵌入码，通过计算所述活动类型得分数组中各活动类型得分数组与所述教师声纹嵌入码的余弦相似度，比较分类得到教师音频集、学生音频集和安静音频集；

分析结果单元，用于对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理，并结合所述待分析音频数据确定其他音频集，组合生成对所述课堂教学音频的音频分析结果。

一种音频分析设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上述任一项所述的音频分析方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上述任一项所述的音频分析方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的一种音频分析方法、装置、设备和可读存储介质，首先通过预处理课堂教学音频生成待分析音频数据，利用预置的说话人识别模型和语音活动检测模型分别对待分析音频数据中的各说话人和各语音活动类型进行分析，并结合分析结果对所述待分析音频数据进行音频拆解，生成说话人分析结果以及活动类型分析结果。随后提取说话人分析结果以及活动类型分析结果中各元素片段的声纹嵌入码，排序得到识别人嵌入码集和活动类型嵌入码集，并计算得到对应的说话人得分数组和活动类型得分数组。之后通过计算活动类型嵌入码集中各元素片段的声纹嵌入码与教师声纹嵌入码的余弦相似度，比较分类得到教师音频集、学生音频集和安静音频集。最后经过数据平滑化处理生成对课堂教学音频的音频分析结果。

本申请结合说话人识别模型和语音活动检测模型，针对课堂中教师和学生的语言活动特点进行初步分析，得到说话人分析结果以及活动类型分析结果并基于此进行音频拆解。此后通过声纹嵌入码的比较计算，进一步准确地分析出教师讲解、学生发言和师生交流等不同情景对应的时间段，构成教师音频集、学生音频集和安静音频集，实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据。最后将各情景的语音片段做数据平滑化处理以减弱环境噪音影响，生成对课堂教学音频的音频分析结果，解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种音频分析方法的流程图；

图2为本申请实施例公开的一种识别人嵌入码集的示意图；

图3为本申请实施例公开的一种活动类型嵌入码集的示意图；

图4为本申请实施例公开的一种音频分析装置的示意图；

图5为本申请实施例公开的音频分析设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请实施例提供一种音频分析方法用于实现对课堂教学音频进行音频分析，该方法可以应用于各种收集有课堂教学音频的课堂教学分析系统或平台中，亦可以应用在各种计算机终端或是智能终端中，其执行主体可以为计算机终端或是智能终端的处理器或服务器。

接下来介绍本申请方案，本申请提出如下技术方案，具体参见下文。

图1为本申请实施例公开的一种音频分析方法的流程图。

如图1所示，该方法可以包括：

步骤S1、获取课堂教学音频，并对所述课堂教学音频进行预处理，生成符合模型输入数据参数要求的待分析音频数据。

具体的，对所述课堂教学音频进行预处理，按照说话人识别模型和语音活动检测模型的配置参数获得模型要求的输入数据参数，包括采样率和通道数等，利用对音频数据参数进行调整，生成符合模型输入数据参数要求的待分析音频数据。

步骤S2、利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析，并结合分析结果对所述待分析音频数据进行音频拆解，生成说话人分析结果以及活动类型分析结果。

具体的，利用说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析，生成说话人分析结果以及活动类型分析结果的过程进行介绍，具体可以包括：

①利用预置的说话人识别模型识别所述待分析音频数据中的所述各说话人，并基于识别到的所述各说话人进行音频拆解，得到由所述各说话人对应的各第一元素片段构成的所述说话人分析结果。

②利用预置的语音活动检测模型识别所述待分析音频数据中的各语音活动类型，并基于识别到的所述各语音活动类型进行音频拆解，得到由所述各语音活动类型对应的各第二元素片段构成的所述活动类型分析结果。

利用预置的说话人识别模型对待分析音频数据中的说话人进行分析，得到说话人分析结果。利用语音活动检测模型对待分析音频数据中的语音活动类型进行分析，得到活动类型分析结果/>。

步骤S3、提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码，分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序，得到识别人嵌入码集和活动类型嵌入码集，并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组。

具体的，提取所述说话人分析结果以及所述活动类型分析结果/>中各元素片段的声纹嵌入码，分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序，得到识别人嵌入码集和活动类型嵌入码集，即/>、/>识别人嵌入码集和活动类型嵌入码集的示意图分别如图2和图3所示。之后，计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组/>和活动类型得分数组/>。

得到识别人嵌入码集和活动类型嵌入码集，并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组的过程，具体可以包括：

①提取所述各第一元素片段的声纹嵌入码，并按照所述说话频次对所述各第一元素片段的声纹嵌入码进行排序，得到识别人嵌入码集。

②提取所述各第二元素片段的声纹嵌入码，并按照所述片段长度对所述各第二元素片段的声纹嵌入码进行排序，得到活动类型嵌入码集。

步骤S4、基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码，通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度，比较分类得到教师音频集、学生音频集和安静音频集。

具体的，通过余弦相似度比较分类得到教师音频集、学生音频集和安静音频集的过程，具体可以包括：

①计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度；

②将余弦相似度大于或等于预置分类阈值的各第一声纹嵌入码对应的各元素片段分类成教师音频集；

③将余弦相似度小于预置分类阈值的各第二声纹嵌入码对应的各元素片段分类成学生音频集；

④将所述待分析音频数据中除所述教师音频集和所述学生音频集以外剩余的其他音频部分确定为安静音频集。

通过计算活动类型嵌入码集中各元素片段的声纹嵌入码与教师声纹嵌入码的余弦相似度，设定分类阈值/>，当/>大于等于/>时，该声纹嵌入码对应的元素片段会被认为是教师，即符合的各第一声纹嵌入码对应的各元素片段分类成教师音频集/>；若/>小于/>，该声纹嵌入码对应的元素片段会被认为是学生，即符合的各第二声纹嵌入码对应的各元素片段分类成学生音频集/>。

待分析音频数据中除所述教师音频集和所述学生音频集以外剩余的其他音频部分确定为安静音频集，即，其中/>表示完整的待分析音频数据。

步骤S5、对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理，并结合所述待分析音频数据确定其他音频集，组合生成对所述课堂教学音频的音频分析结果。

具体的，数据平滑化处理的过程，具体可以包括：

①基于预置的最短片段阈值，对所述教师音频集、所述学生音频集和所述安静音频集中片段长度小于所述最短片段阈值的较短音频片段进行丢弃处理；

②基于预置的最小间隔阈值，对所述教师音频集、所述学生音频集和所述安静音频集中相邻片段间隔小于所述最小间隔阈值的两个相邻音频片段进行片段合并处理。

数据平滑化处理包括切除较短音频，预置的最短片段阈值，检查所述教师音频集、所述学生音频集和所述安静音频集中片段长度，当音频片段长度小于/>时，丢弃该片段。

数据平滑化处理还包括合并间隔较短的音频，预置的最小间隔阈值，检查所述教师音频集、所述学生音频集和所述安静音频集中相邻片段间隔，当间隔长度小于时，合并两个相邻音频片段。

得到平滑化处理后的、/>、/>，则结合所述待分析音频数据确定其他音频集，组合生成对所述课堂教学音频的音频分析结果，完成数据处理。

本申请结合说话人识别模型和语音活动检测模型，针对课堂中教师和学生的语言活动特点进行初步分析，得到说话人分析结果以及活动类型分析结果并基于此进行音频拆解。此后通过声纹嵌入码的比较计算，进一步准确地分析出教师讲解、学生发言和师生交流等不同情景对应的时间段，构成教师音频集、学生音频集和安静音频集，实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据。最最后将各情景的语音片段做数据平滑化处理以减弱环境噪音影响，生成对课堂教学音频的音频分析结果，解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。

在本申请的一些实施例中，对步骤S3中计算与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组的过程进行介绍，具体可以包括：

步骤S31、确定所述识别人嵌入码集中记录的说话人总数，以及所述活动类型嵌入码集中记录的音频片段总数。

步骤S32、结合所述说话人总数，依次计算所述识别人嵌入码集中每一说话人对应的得分数，形成所述说话人得分数组。

结合所述说话人总数计算得到所述识别人嵌入码集中第i个说话人对应的得分数的计算公式为：

；

其中，说话人总数为。

统计识别人嵌入码集中每一说话人对应的得分数形成所述说话人得分数组。

步骤S33、结合所述音频片段总数，依次计算所述活动类型嵌入码集中每一音频片段对应的得分数，形成所述活动类型得分数组。

结合所述音频片段总数计算所述活动类型嵌入码集中第i个音频片段对应的得分数的计算公式为：

；

其中，音频片段总数为。

统计活动类型嵌入码集中每一音频片段对应的得分数形成所述活动类型得分数组。

在本申请的一些实施例中，对步骤S4中基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码的过程进行介绍，具体可以包括：

步骤S41、根据所述说话人得分数组和所述活动类型得分数组，结合获取的说话频次对应的教师音频识别相关度以及片段长度对应的教师音频识别相关度，确定所述识别人嵌入码集和所述活动类型嵌入码集中所述各元素片段的声纹嵌入码互相组合配对生成的各交错组合的概率数组。

步骤S42、计算所述各交错组合的余弦相似度，并结合对应的所述概率数组，根据预置的教师声纹判别函数，确定教师声纹嵌入码。

具体的，说话人分析结果中第/>说话人，活动类型分析结果/>中第/>音频，有下式得出第/>音频是教师音频的概率/>，其中/>和/>分别是说话人频次和音频片段长度与教师音频识别相关度，应保证两者之和等于1。

；

最后得出各交错组合的概率数组，其对应的组合状态数组/>，按/>的值从大到小对数组/>和/>排序。记当前的组合下标为/>，初始值为0。/>中的组合为/>，由于/>中的每个说话人/>会对应多个音频片段，记作/>，/>表示第/>说话人，表示第/>说话人的第/>音频，计算/>与/>余弦相似度/>。

；

其中，和/>分别代表/>和/>在第/>维度上的值。

最后得出这个组合的平均余弦相似度/>。当超过设定的教师音频阈值后，认为该组合中的/>最有可能是教师声纹嵌入码。当/>小于设定的教师音频阈值后，/>自增1，计算/>并比较，直至获得教师声纹嵌入码为止。当/>超出组合总数时，记录最大的/>状态为最终结果。记教师声纹判别函数为/>：

；

其中，是获取cos数组中最大元素下标的函数，/>是组合状态数组的长度，/>是设定的阈值，教师声纹嵌入码/>。

下面对本申请实施例提供的一种音频分析装置进行描述，下文描述的一种音频分析装置与上文描述的一种音频分析方法可相互对应参照。

参见图4，图4为本申请实施例公开的一种音频分析装置的示意图。

如图4所示，所述一种音频分析装置可以包括：

音频获取单元110，用于获取课堂教学音频，并对所述课堂教学音频进行预处理，生成符合模型输入数据参数要求的待分析音频数据；

模型分析单元120，用于利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析，并结合分析结果对所述待分析音频数据进行音频拆解，生成说话人分析结果以及语音活动分析结果；

嵌入码提取单元130，用于提取所述说话人分析结果以及所述语音活动分析结果中各元素片段的声纹嵌入码，并分别按照所述各说话人的说话频次和所述各语音活动类型的片段长度对所述各元素片段的声纹嵌入码进行排序，得到说话人得分数组和活动类型得分数组；

相似度分类单元140，用于采用贪心策略基于说话人得分数组和活动类型得分数组确定教师声纹嵌入码，通过计算所述活动类型得分数组中各活动类型得分数组与所述教师声纹嵌入码的余弦相似度，比较分类得到教师音频集、学生音频集和安静音频集；

分析结果单元150，用于对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理，并结合所述待分析音频数据确定其他音频集，组合生成对所述课堂教学音频的音频分析结果。

可选的，所述模型分析单元，执行利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析，并结合分析结果对所述待分析音频数据进行音频拆解，生成说话人分析结果以及活动类型分析结果的过程，可以包括：

所述嵌入码提取单元，执行提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码，分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序，得到识别人嵌入码集和活动类型嵌入码集，并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组的过程，可以包括：

可选的，所述嵌入码提取单元，执行计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组的过程，可以包括：

可选的，所述嵌入码提取单元，执行结合所述说话人总数，计算得到所述识别人嵌入码集中第i个说话人对应的得分数的计算公式为：

；

其中，说话人总数为。

可选的，所述相似度分类单元，执行通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度，比较分类得到教师音频集、学生音频集和安静音频集的过程，可以包括：

可选的，所述分析结果单元，执行对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理的过程，可以包括：

可选的，所述相似度分类单元，执行基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码的过程，可以包括：

本申请实施例提供的音频分析装置可应用于音频分析设备。图5示出了音频分析设备的硬件结构框图，参照图5，音频分析设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选地，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选地，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析，并结合分析结果对所述待分析音频数据进行音频拆解，生成说话人分析结果以及活动类型分析结果，包括：

3.根据权利要求1所述的方法，其特征在于，计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组，包括：

4.根据权利要求3所述的方法，其特征在于，结合所述说话人总数，计算得到所述识别人嵌入码集中第i个说话人对应的得分数的计算公式为：

；

其中，说话人总数为。

5.根据权利要求1所述的方法，其特征在于，通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度，比较分类得到教师音频集、学生音频集和安静音频集，包括：

6.根据权利要求1所述的方法，其特征在于，对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理，包括：

7.根据权利要求1所述的方法，其特征在于，基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码，包括：

8.一种音频分析装置，其特征在于，包括：

9.一种音频分析设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-7中任一项所述的音频分析方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的音频分析方法的各个步骤。