CN117079655A - 一种音频分析方法、装置、设备和可读存储介质 - Google Patents

一种音频分析方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN117079655A
CN117079655A CN202311330853.7A CN202311330853A CN117079655A CN 117079655 A CN117079655 A CN 117079655A CN 202311330853 A CN202311330853 A CN 202311330853A CN 117079655 A CN117079655 A CN 117079655A
Authority
CN
China
Prior art keywords
audio
speaker
activity type
teacher
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311330853.7A
Other languages
English (en)
Other versions
CN117079655B (zh
Inventor
袁涛
韩鹏
王睿
郭延辉
季迎龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Normal University Intelligent Technology Co ltd
South China Normal University
Original Assignee
Guangdong Normal University Intelligent Technology Co ltd
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Normal University Intelligent Technology Co ltd, South China Normal University filed Critical Guangdong Normal University Intelligent Technology Co ltd
Priority to CN202311330853.7A priority Critical patent/CN117079655B/zh
Publication of CN117079655A publication Critical patent/CN117079655A/zh
Application granted granted Critical
Publication of CN117079655B publication Critical patent/CN117079655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种音频分析方法、装置、设备和可读存储介质,本申请结合说话人识别模型和语音活动检测模型,针对课堂中教师和学生的语言活动特点进行初步分析,得到说话人分析结果以及活动类型分析结果并基于此进行音频拆解。此后通过声纹嵌入码的比较计算,进一步准确地分析出教师讲解、学生发言和师生交流等不同情景对应的时间段,构成教师音频集、学生音频集和安静音频集,实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据。最后将各情景的语音片段做数据平滑化处理以减弱环境噪音影响,生成对课堂教学音频的音频分析结果,解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。

Description

一种音频分析方法、装置、设备和可读存储介质
技术领域
本申请涉及数据分析领域,更具体地说,涉及一种音频分析方法、装置、设备和可读存储介质。
背景技术
随着教育技术的不断发展和普及,传统的教学方式正在逐渐演变为更加智能化和个性化的教学模式。通过对课堂教学音频进行进一步的细致分析,记录课堂中学生的参与情况和发言次数,教师讲解情况等,可以实现对学生参与度的客观评估,帮助教师更好地了解每位学生的学习情况,并在后续教学中进行有针对性的指导和辅导。此外,分析结果还可以用于评估教师的教学质量和风格,通过分析不同教师在课堂上的讲解方式、语速、声调等声音特征,可以帮助教研人员评估教师的授课效果,并提出改进建议,以进一步提升教育教学质量。
然而实际课堂场景复杂,语音质量参差不齐、存在不同程度环境干扰,存在多人混音等问题,这给课堂教学音频分析带来了诸多挑战。基于上述教育过程需求和现有技术的情况,需要突破以下的技术问题:
1、精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据;
2、解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。
基于上述情况,本申请提出一种音频分析方案,以克服上述问题。
发明内容
有鉴于此,本申请提供了一种音频分析方法、装置、设备和可读存储介质,实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据,并解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。
一种音频分析方法,包括:
获取课堂教学音频,并对所述课堂教学音频进行预处理,生成符合模型输入数据参数要求的待分析音频数据;
利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果;
提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组;
基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码,通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集;
对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,并结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果。
可选的,所述利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果,包括:
利用预置的说话人识别模型识别所述待分析音频数据中的所述各说话人,并基于识别到的所述各说话人进行音频拆解,得到由所述各说话人对应的各第一元素片段构成的所述说话人分析结果;
利用预置的语音活动检测模型识别所述待分析音频数据中的各语音活动类型,并基于识别到的所述各语音活动类型进行音频拆解,得到由所述各语音活动类型对应的各第二元素片段构成的所述活动类型分析结果;
提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组,包括:
提取所述各第一元素片段的声纹嵌入码,并按照所述说话频次对所述各第一元素片段的声纹嵌入码进行排序,得到识别人嵌入码集;
提取所述各第二元素片段的声纹嵌入码,并按照所述片段长度对所述各第二元素片段的声纹嵌入码进行排序,得到活动类型嵌入码集。
可选的,计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组,包括:
确定所述识别人嵌入码集中记录的说话人总数,以及所述活动类型嵌入码集中记录的音频片段总数;
结合所述说话人总数,依次计算所述识别人嵌入码集中每一说话人对应的得分数,形成所述说话人得分数组;
结合所述音频片段总数,依次计算所述活动类型嵌入码集中每一音频片段对应的得分数,形成所述活动类型得分数组。
可选的,结合所述说话人总数,计算得到所述识别人嵌入码集中第i个说话人对应的得分数的计算公式为:
其中,说话人总数为
可选的,通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集,包括:
计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度;
将余弦相似度大于或等于预置分类阈值的各第一声纹嵌入码对应的各元素片段分类成教师音频集;
将余弦相似度小于预置分类阈值的各第二声纹嵌入码对应的各元素片段分类成学生音频集;
将所述待分析音频数据中除所述教师音频集和所述学生音频集以外剩余的其他音频部分确定为安静音频集。
可选的,对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,包括:
基于预置的最短片段阈值,对所述教师音频集、所述学生音频集和所述安静音频集中片段长度小于所述最短片段阈值的较短音频片段进行丢弃处理;
基于预置的最小间隔阈值,对所述教师音频集、所述学生音频集和所述安静音频集中相邻片段间隔小于所述最小间隔阈值的两个相邻音频片段进行片段合并处理。
可选的,基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码,包括:
根据所述说话人得分数组和所述活动类型得分数组,结合获取的说话频次对应的教师音频识别相关度以及片段长度对应的教师音频识别相关度,确定所述识别人嵌入码集和所述活动类型嵌入码集中所述各元素片段的声纹嵌入码互相组合配对生成的各交错组合的概率数组;
计算所述各交错组合的余弦相似度,并结合对应的所述概率数组,根据预置的教师声纹判别函数,确定教师声纹嵌入码。
一种音频分析装置,包括:
音频获取单元,用于获取课堂教学音频,并对所述课堂教学音频进行预处理,生成符合模型输入数据参数要求的待分析音频数据;
模型分析单元,用于利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及语音活动分析结果;
嵌入码提取单元,用于提取所述说话人分析结果以及所述语音活动分析结果中各元素片段的声纹嵌入码,并分别按照所述各说话人的说话频次和所述各语音活动类型的片段长度对所述各元素片段的声纹嵌入码进行排序,得到说话人得分数组和活动类型得分数组;
相似度分类单元,用于采用贪心策略基于说话人得分数组和活动类型得分数组确定教师声纹嵌入码,通过计算所述活动类型得分数组中各活动类型得分数组与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集;
分析结果单元,用于对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,并结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果。
一种音频分析设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上述任一项所述的音频分析方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上述任一项所述的音频分析方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的一种音频分析方法、装置、设备和可读存储介质,首先通过预处理课堂教学音频生成待分析音频数据,利用预置的说话人识别模型和语音活动检测模型分别对待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果。随后提取说话人分析结果以及活动类型分析结果中各元素片段的声纹嵌入码,排序得到识别人嵌入码集和活动类型嵌入码集,并计算得到对应的说话人得分数组和活动类型得分数组。之后通过计算活动类型嵌入码集中各元素片段的声纹嵌入码与教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集。最后经过数据平滑化处理生成对课堂教学音频的音频分析结果。
本申请结合说话人识别模型和语音活动检测模型,针对课堂中教师和学生的语言活动特点进行初步分析,得到说话人分析结果以及活动类型分析结果并基于此进行音频拆解。此后通过声纹嵌入码的比较计算,进一步准确地分析出教师讲解、学生发言和师生交流等不同情景对应的时间段,构成教师音频集、学生音频集和安静音频集,实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据。最后将各情景的语音片段做数据平滑化处理以减弱环境噪音影响,生成对课堂教学音频的音频分析结果,解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种音频分析方法的流程图;
图2为本申请实施例公开的一种识别人嵌入码集的示意图;
图3为本申请实施例公开的一种活动类型嵌入码集的示意图;
图4为本申请实施例公开的一种音频分析装置的示意图;
图5为本申请实施例公开的音频分析设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请实施例提供一种音频分析方法用于实现对课堂教学音频进行音频分析,该方法可以应用于各种收集有课堂教学音频的课堂教学分析系统或平台中,亦可以应用在各种计算机终端或是智能终端中,其执行主体可以为计算机终端或是智能终端的处理器或服务器。
接下来介绍本申请方案,本申请提出如下技术方案,具体参见下文。
图1为本申请实施例公开的一种音频分析方法的流程图。
如图1所示,该方法可以包括:
步骤S1、获取课堂教学音频,并对所述课堂教学音频进行预处理,生成符合模型输入数据参数要求的待分析音频数据。
具体的,对所述课堂教学音频进行预处理,按照说话人识别模型和语音活动检测模型的配置参数获得模型要求的输入数据参数,包括采样率和通道数等,利用对音频数据参数进行调整,生成符合模型输入数据参数要求的待分析音频数据。
步骤S2、利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果。
具体的,利用说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,生成说话人分析结果以及活动类型分析结果的过程进行介绍,具体可以包括:
①利用预置的说话人识别模型识别所述待分析音频数据中的所述各说话人,并基于识别到的所述各说话人进行音频拆解,得到由所述各说话人对应的各第一元素片段构成的所述说话人分析结果。
②利用预置的语音活动检测模型识别所述待分析音频数据中的各语音活动类型,并基于识别到的所述各语音活动类型进行音频拆解,得到由所述各语音活动类型对应的各第二元素片段构成的所述活动类型分析结果。
利用预置的说话人识别模型对待分析音频数据中的说话人进行分析,得到说话人分析结果。利用语音活动检测模型对待分析音频数据中的语音活动类型进行分析,得到活动类型分析结果/>
步骤S3、提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组。
具体的,提取所述说话人分析结果以及所述活动类型分析结果/>中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,即/>、/>识别人嵌入码集和活动类型嵌入码集的示意图分别如图2和图3所示。之后,计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组/>和活动类型得分数组/>
得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组的过程,具体可以包括:
①提取所述各第一元素片段的声纹嵌入码,并按照所述说话频次对所述各第一元素片段的声纹嵌入码进行排序,得到识别人嵌入码集。
②提取所述各第二元素片段的声纹嵌入码,并按照所述片段长度对所述各第二元素片段的声纹嵌入码进行排序,得到活动类型嵌入码集。
步骤S4、基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码,通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集。
具体的,通过余弦相似度比较分类得到教师音频集、学生音频集和安静音频集的过程,具体可以包括:
①计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度;
②将余弦相似度大于或等于预置分类阈值的各第一声纹嵌入码对应的各元素片段分类成教师音频集;
③将余弦相似度小于预置分类阈值的各第二声纹嵌入码对应的各元素片段分类成学生音频集;
④将所述待分析音频数据中除所述教师音频集和所述学生音频集以外剩余的其他音频部分确定为安静音频集。
通过计算活动类型嵌入码集中各元素片段的声纹嵌入码与教师声纹嵌入码的余弦相似度,设定分类阈值/>,当/>大于等于/>时,该声纹嵌入码对应的元素片段会被认为是教师,即符合的各第一声纹嵌入码对应的各元素片段分类成教师音频集/>;若/>小于/>,该声纹嵌入码对应的元素片段会被认为是学生,即符合的各第二声纹嵌入码对应的各元素片段分类成学生音频集/>
待分析音频数据中除所述教师音频集和所述学生音频集以外剩余的其他音频部分确定为安静音频集,即,其中/>表示完整的待分析音频数据。
步骤S5、对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,并结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果。
具体的,数据平滑化处理的过程,具体可以包括:
①基于预置的最短片段阈值,对所述教师音频集、所述学生音频集和所述安静音频集中片段长度小于所述最短片段阈值的较短音频片段进行丢弃处理;
②基于预置的最小间隔阈值,对所述教师音频集、所述学生音频集和所述安静音频集中相邻片段间隔小于所述最小间隔阈值的两个相邻音频片段进行片段合并处理。
数据平滑化处理包括切除较短音频,预置的最短片段阈值,检查所述教师音频集、所述学生音频集和所述安静音频集中片段长度,当音频片段长度小于/>时,丢弃该片段。
数据平滑化处理还包括合并间隔较短的音频,预置的最小间隔阈值,检查所述教师音频集、所述学生音频集和所述安静音频集中相邻片段间隔,当间隔长度小于时,合并两个相邻音频片段。
得到平滑化处理后的、/>、/>,则结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果,完成数据处理。
从上述的技术方案可以看出,本申请实施例提供的一种音频分析方法、装置、设备和可读存储介质,首先通过预处理课堂教学音频生成待分析音频数据,利用预置的说话人识别模型和语音活动检测模型分别对待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果。随后提取说话人分析结果以及活动类型分析结果中各元素片段的声纹嵌入码,排序得到识别人嵌入码集和活动类型嵌入码集,并计算得到对应的说话人得分数组和活动类型得分数组。之后通过计算活动类型嵌入码集中各元素片段的声纹嵌入码与教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集。最后经过数据平滑化处理生成对课堂教学音频的音频分析结果。
本申请结合说话人识别模型和语音活动检测模型,针对课堂中教师和学生的语言活动特点进行初步分析,得到说话人分析结果以及活动类型分析结果并基于此进行音频拆解。此后通过声纹嵌入码的比较计算,进一步准确地分析出教师讲解、学生发言和师生交流等不同情景对应的时间段,构成教师音频集、学生音频集和安静音频集,实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据。最最后将各情景的语音片段做数据平滑化处理以减弱环境噪音影响,生成对课堂教学音频的音频分析结果,解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。
在本申请的一些实施例中,对步骤S3中计算与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组的过程进行介绍,具体可以包括:
步骤S31、确定所述识别人嵌入码集中记录的说话人总数,以及所述活动类型嵌入码集中记录的音频片段总数。
步骤S32、结合所述说话人总数,依次计算所述识别人嵌入码集中每一说话人对应的得分数,形成所述说话人得分数组。
结合所述说话人总数计算得到所述识别人嵌入码集中第i个说话人对应的得分数的计算公式为:
其中,说话人总数为
统计识别人嵌入码集中每一说话人对应的得分数形成所述说话人得分数组
步骤S33、结合所述音频片段总数,依次计算所述活动类型嵌入码集中每一音频片段对应的得分数,形成所述活动类型得分数组。
结合所述音频片段总数计算所述活动类型嵌入码集中第i个音频片段对应的得分数的计算公式为:
其中,音频片段总数为
统计活动类型嵌入码集中每一音频片段对应的得分数形成所述活动类型得分数组
在本申请的一些实施例中,对步骤S4中基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码的过程进行介绍,具体可以包括:
步骤S41、根据所述说话人得分数组和所述活动类型得分数组,结合获取的说话频次对应的教师音频识别相关度以及片段长度对应的教师音频识别相关度,确定所述识别人嵌入码集和所述活动类型嵌入码集中所述各元素片段的声纹嵌入码互相组合配对生成的各交错组合的概率数组。
步骤S42、计算所述各交错组合的余弦相似度,并结合对应的所述概率数组,根据预置的教师声纹判别函数,确定教师声纹嵌入码。
具体的,说话人分析结果中第/>说话人,活动类型分析结果/>中第/>音频,有下式得出第/>音频是教师音频的概率/>,其中/>和/>分别是说话人频次和音频片段长度与教师音频识别相关度,应保证两者之和等于1。
最后得出各交错组合的概率数组,其对应的组合状态数组/>,按/>的值从大到小对数组/>和/>排序。记当前的组合下标为/>,初始值为0。/>中的组合为/>,由于/>中的每个说话人/>会对应多个音频片段,记作/>,/>表示第/>说话人,表示第/>说话人的第/>音频,计算/>与/>余弦相似度/>
其中,和/>分别代表/>和/>在第/>维度上的值。
最后得出这个组合的平均余弦相似度/>。当超过设定的教师音频阈值后,认为该组合中的/>最有可能是教师声纹嵌入码。当/>小于设定的教师音频阈值后,/>自增1,计算/>并比较,直至获得教师声纹嵌入码为止。当/>超出组合总数时,记录最大的/>状态为最终结果。记教师声纹判别函数为/>
其中,是获取cos数组中最大元素下标的函数,/>是组合状态数组的长度,/>是设定的阈值,教师声纹嵌入码/>
下面对本申请实施例提供的一种音频分析装置进行描述,下文描述的一种音频分析装置与上文描述的一种音频分析方法可相互对应参照。
参见图4,图4为本申请实施例公开的一种音频分析装置的示意图。
如图4所示,所述一种音频分析装置可以包括:
音频获取单元110,用于获取课堂教学音频,并对所述课堂教学音频进行预处理,生成符合模型输入数据参数要求的待分析音频数据;
模型分析单元120,用于利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及语音活动分析结果;
嵌入码提取单元130,用于提取所述说话人分析结果以及所述语音活动分析结果中各元素片段的声纹嵌入码,并分别按照所述各说话人的说话频次和所述各语音活动类型的片段长度对所述各元素片段的声纹嵌入码进行排序,得到说话人得分数组和活动类型得分数组;
相似度分类单元140,用于采用贪心策略基于说话人得分数组和活动类型得分数组确定教师声纹嵌入码,通过计算所述活动类型得分数组中各活动类型得分数组与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集;
分析结果单元150,用于对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,并结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果。
从上述的技术方案可以看出,本申请实施例提供的一种音频分析方法、装置、设备和可读存储介质,首先通过预处理课堂教学音频生成待分析音频数据,利用预置的说话人识别模型和语音活动检测模型分别对待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果。随后提取说话人分析结果以及活动类型分析结果中各元素片段的声纹嵌入码,排序得到识别人嵌入码集和活动类型嵌入码集,并计算得到对应的说话人得分数组和活动类型得分数组。之后通过计算活动类型嵌入码集中各元素片段的声纹嵌入码与教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集。最后经过数据平滑化处理生成对课堂教学音频的音频分析结果。
本申请结合说话人识别模型和语音活动检测模型,针对课堂中教师和学生的语言活动特点进行初步分析,得到说话人分析结果以及活动类型分析结果并基于此进行音频拆解。此后通过声纹嵌入码的比较计算,进一步准确地分析出教师讲解、学生发言和师生交流等不同情景对应的时间段,构成教师音频集、学生音频集和安静音频集,实现精准识别、标注、区分、提取课堂教学音频中教师、学生以及其他音频数据。最最后将各情景的语音片段做数据平滑化处理以减弱环境噪音影响,生成对课堂教学音频的音频分析结果,解决由于语音质量参差不齐、存在不同程度环境干扰、存在多人混音等导致的识别困难。
可选的,所述模型分析单元,执行利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果的过程,可以包括:
利用预置的说话人识别模型识别所述待分析音频数据中的所述各说话人,并基于识别到的所述各说话人进行音频拆解,得到由所述各说话人对应的各第一元素片段构成的所述说话人分析结果;
利用预置的语音活动检测模型识别所述待分析音频数据中的各语音活动类型,并基于识别到的所述各语音活动类型进行音频拆解,得到由所述各语音活动类型对应的各第二元素片段构成的所述活动类型分析结果;
所述嵌入码提取单元,执行提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组的过程,可以包括:
提取所述各第一元素片段的声纹嵌入码,并按照所述说话频次对所述各第一元素片段的声纹嵌入码进行排序,得到识别人嵌入码集;
提取所述各第二元素片段的声纹嵌入码,并按照所述片段长度对所述各第二元素片段的声纹嵌入码进行排序,得到活动类型嵌入码集。
可选的,所述嵌入码提取单元,执行计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组的过程,可以包括:
确定所述识别人嵌入码集中记录的说话人总数,以及所述活动类型嵌入码集中记录的音频片段总数;
结合所述说话人总数,依次计算所述识别人嵌入码集中每一说话人对应的得分数,形成所述说话人得分数组;
结合所述音频片段总数,依次计算所述活动类型嵌入码集中每一音频片段对应的得分数,形成所述活动类型得分数组。
可选的,所述嵌入码提取单元,执行结合所述说话人总数,计算得到所述识别人嵌入码集中第i个说话人对应的得分数的计算公式为:
其中,说话人总数为
可选的,所述相似度分类单元,执行通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集的过程,可以包括:
计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度;
将余弦相似度大于或等于预置分类阈值的各第一声纹嵌入码对应的各元素片段分类成教师音频集;
将余弦相似度小于预置分类阈值的各第二声纹嵌入码对应的各元素片段分类成学生音频集;
将所述待分析音频数据中除所述教师音频集和所述学生音频集以外剩余的其他音频部分确定为安静音频集。
可选的,所述分析结果单元,执行对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理的过程,可以包括:
基于预置的最短片段阈值,对所述教师音频集、所述学生音频集和所述安静音频集中片段长度小于所述最短片段阈值的较短音频片段进行丢弃处理;
基于预置的最小间隔阈值,对所述教师音频集、所述学生音频集和所述安静音频集中相邻片段间隔小于所述最小间隔阈值的两个相邻音频片段进行片段合并处理。
可选的,所述相似度分类单元,执行基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码的过程,可以包括:
根据所述说话人得分数组和所述活动类型得分数组,结合获取的说话频次对应的教师音频识别相关度以及片段长度对应的教师音频识别相关度,确定所述识别人嵌入码集和所述活动类型嵌入码集中所述各元素片段的声纹嵌入码互相组合配对生成的各交错组合的概率数组;
计算所述各交错组合的余弦相似度,并结合对应的所述概率数组,根据预置的教师声纹判别函数,确定教师声纹嵌入码。
本申请实施例提供的音频分析装置可应用于音频分析设备。图5示出了音频分析设备的硬件结构框图,参照图5,音频分析设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取课堂教学音频,并对所述课堂教学音频进行预处理,生成符合模型输入数据参数要求的待分析音频数据;
利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果;
提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组;
基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码,通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集;
对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,并结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果。
可选地,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取课堂教学音频,并对所述课堂教学音频进行预处理,生成符合模型输入数据参数要求的待分析音频数据;
利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果;
提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组;
基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码,通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集;
对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,并结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果。
可选地,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频分析方法,其特征在于,包括:
获取课堂教学音频,并对所述课堂教学音频进行预处理,生成符合模型输入数据参数要求的待分析音频数据;
利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果;
提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组;
基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码,通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集;
对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,并结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果。
2.根据权利要求1所述的方法,其特征在于,所述利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及活动类型分析结果,包括:
利用预置的说话人识别模型识别所述待分析音频数据中的所述各说话人,并基于识别到的所述各说话人进行音频拆解,得到由所述各说话人对应的各第一元素片段构成的所述说话人分析结果;
利用预置的语音活动检测模型识别所述待分析音频数据中的各语音活动类型,并基于识别到的所述各语音活动类型进行音频拆解,得到由所述各语音活动类型对应的各第二元素片段构成的所述活动类型分析结果;
提取所述说话人分析结果以及所述活动类型分析结果中各元素片段的声纹嵌入码,分别按照说话频次和片段长度对所述各元素片段的声纹嵌入码进行排序,得到识别人嵌入码集和活动类型嵌入码集,并计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组,包括:
提取所述各第一元素片段的声纹嵌入码,并按照所述说话频次对所述各第一元素片段的声纹嵌入码进行排序,得到识别人嵌入码集;
提取所述各第二元素片段的声纹嵌入码,并按照所述片段长度对所述各第二元素片段的声纹嵌入码进行排序,得到活动类型嵌入码集。
3.根据权利要求1所述的方法,其特征在于,计算得到与所述识别人嵌入码集和所述活动类型嵌入码集对应的说话人得分数组和活动类型得分数组,包括:
确定所述识别人嵌入码集中记录的说话人总数,以及所述活动类型嵌入码集中记录的音频片段总数;
结合所述说话人总数,依次计算所述识别人嵌入码集中每一说话人对应的得分数,形成所述说话人得分数组;
结合所述音频片段总数,依次计算所述活动类型嵌入码集中每一音频片段对应的得分数,形成所述活动类型得分数组。
4.根据权利要求3所述的方法,其特征在于,结合所述说话人总数,计算得到所述识别人嵌入码集中第i个说话人对应的得分数的计算公式为:
其中,说话人总数为
5.根据权利要求1所述的方法,其特征在于,通过计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集,包括:
计算所述活动类型嵌入码集中各元素片段的声纹嵌入码与所述教师声纹嵌入码的余弦相似度;
将余弦相似度大于或等于预置分类阈值的各第一声纹嵌入码对应的各元素片段分类成教师音频集;
将余弦相似度小于预置分类阈值的各第二声纹嵌入码对应的各元素片段分类成学生音频集;
将所述待分析音频数据中除所述教师音频集和所述学生音频集以外剩余的其他音频部分确定为安静音频集。
6.根据权利要求1所述的方法,其特征在于,对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,包括:
基于预置的最短片段阈值,对所述教师音频集、所述学生音频集和所述安静音频集中片段长度小于所述最短片段阈值的较短音频片段进行丢弃处理;
基于预置的最小间隔阈值,对所述教师音频集、所述学生音频集和所述安静音频集中相邻片段间隔小于所述最小间隔阈值的两个相邻音频片段进行片段合并处理。
7.根据权利要求1所述的方法,其特征在于,基于所述说话人得分数组和所述活动类型得分数组确定教师声纹嵌入码,包括:
根据所述说话人得分数组和所述活动类型得分数组,结合获取的说话频次对应的教师音频识别相关度以及片段长度对应的教师音频识别相关度,确定所述识别人嵌入码集和所述活动类型嵌入码集中所述各元素片段的声纹嵌入码互相组合配对生成的各交错组合的概率数组;
计算所述各交错组合的余弦相似度,并结合对应的所述概率数组,根据预置的教师声纹判别函数,确定教师声纹嵌入码。
8.一种音频分析装置,其特征在于,包括:
音频获取单元,用于获取课堂教学音频,并对所述课堂教学音频进行预处理,生成符合模型输入数据参数要求的待分析音频数据;
模型分析单元,用于利用预置的说话人识别模型和语音活动检测模型分别对所述待分析音频数据中的各说话人和各语音活动类型进行分析,并结合分析结果对所述待分析音频数据进行音频拆解,生成说话人分析结果以及语音活动分析结果;
嵌入码提取单元,用于提取所述说话人分析结果以及所述语音活动分析结果中各元素片段的声纹嵌入码,并分别按照所述各说话人的说话频次和所述各语音活动类型的片段长度对所述各元素片段的声纹嵌入码进行排序,得到说话人得分数组和活动类型得分数组;
相似度分类单元,用于采用贪心策略基于说话人得分数组和活动类型得分数组确定教师声纹嵌入码,通过计算所述活动类型得分数组中各活动类型得分数组与所述教师声纹嵌入码的余弦相似度,比较分类得到教师音频集、学生音频集和安静音频集;
分析结果单元,用于对所述教师音频集、所述学生音频集和所述安静音频集进行数据平滑化处理,并结合所述待分析音频数据确定其他音频集,组合生成对所述课堂教学音频的音频分析结果。
9.一种音频分析设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-7中任一项所述的音频分析方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的音频分析方法的各个步骤。
CN202311330853.7A 2023-10-16 2023-10-16 一种音频分析方法、装置、设备和可读存储介质 Active CN117079655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311330853.7A CN117079655B (zh) 2023-10-16 2023-10-16 一种音频分析方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311330853.7A CN117079655B (zh) 2023-10-16 2023-10-16 一种音频分析方法、装置、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN117079655A true CN117079655A (zh) 2023-11-17
CN117079655B CN117079655B (zh) 2023-12-22

Family

ID=88708369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311330853.7A Active CN117079655B (zh) 2023-10-16 2023-10-16 一种音频分析方法、装置、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN117079655B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118055266A (zh) * 2024-01-22 2024-05-17 华中科技大学 基于多模态信息的课堂视频分割及目录创建方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2158062A1 (en) * 1992-03-12 1994-09-15 Dimitry Rtischev Method and apparatus for voice-interactive language instruction
CN105590632A (zh) * 2015-12-16 2016-05-18 广东德诚网络科技有限公司 一种基于语音相似性识别的s-t教学过程分析方法
CN107211058A (zh) * 2015-02-03 2017-09-26 杜比实验室特许公司 基于会话动态的会议分段
CN109461441A (zh) * 2018-09-30 2019-03-12 汕头大学 一种自适应、无监督式的课堂教学活动智能感知方法
CN110473548A (zh) * 2019-07-31 2019-11-19 华中师范大学 一种基于声学信号的课堂交互网络分析方法
CN111785287A (zh) * 2020-07-06 2020-10-16 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
CN112599135A (zh) * 2020-12-15 2021-04-02 华中师范大学 一种教学模式分析方法及系统
CN116844554A (zh) * 2023-07-04 2023-10-03 桂林电子科技大学 一种基于Transformer和CNN长时语音的声纹识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2158062A1 (en) * 1992-03-12 1994-09-15 Dimitry Rtischev Method and apparatus for voice-interactive language instruction
CN107211058A (zh) * 2015-02-03 2017-09-26 杜比实验室特许公司 基于会话动态的会议分段
CN105590632A (zh) * 2015-12-16 2016-05-18 广东德诚网络科技有限公司 一种基于语音相似性识别的s-t教学过程分析方法
CN109461441A (zh) * 2018-09-30 2019-03-12 汕头大学 一种自适应、无监督式的课堂教学活动智能感知方法
CN110473548A (zh) * 2019-07-31 2019-11-19 华中师范大学 一种基于声学信号的课堂交互网络分析方法
CN111785287A (zh) * 2020-07-06 2020-10-16 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
CN112599135A (zh) * 2020-12-15 2021-04-02 华中师范大学 一种教学模式分析方法及系统
CN116844554A (zh) * 2023-07-04 2023-10-03 桂林电子科技大学 一种基于Transformer和CNN长时语音的声纹识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118055266A (zh) * 2024-01-22 2024-05-17 华中科技大学 基于多模态信息的课堂视频分割及目录创建方法及系统

Also Published As

Publication number Publication date
CN117079655B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN105405439B (zh) 语音播放方法及装置
WO2018166187A1 (zh) 服务器、身份验证方法、系统及计算机可读存储介质
JP6977901B2 (ja) 学習材推薦方法、学習材推薦装置および学習材推薦プログラム
Han et al. Acoustic classification of Australian anurans based on hybrid spectral-entropy approach
CN117079655B (zh) 一种音频分析方法、装置、设备和可读存储介质
Roth et al. Biometric authentication via keystroke sound
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN104167208A (zh) 一种说话人识别方法和装置
CN110544481A (zh) 一种基于声纹识别的s-t分类方法、装置及设备终端
CN110648671A (zh) 声纹模型重建方法、终端、装置及可读存储介质
WO2023088448A1 (zh) 语音处理方法、设备及存储介质
CN109461441A (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
CN110992988A (zh) 一种基于领域对抗的语音情感识别方法及装置
Alghifari et al. On the use of voice activity detection in speech emotion recognition
CN108614987A (zh) 数据处理的方法、装置和机器人
Wang et al. Personalized music emotion recognition via model adaptation
CN114021962A (zh) 教学评估方法、评估装置及其相关设备和存储介质
CN111128240B (zh) 一种基于对抗语义擦除的语音情感识别方法
CN113903361A (zh) 基于人工智能的语音质检方法、装置、设备及存储介质
CN112632318A (zh) 一种音频推荐方法、装置、系统及存储介质
CN115394318A (zh) 一种音频检测方法和装置
CN112786054A (zh) 基于语音的智能面试评估方法、装置、设备及存储介质
Wang et al. Footstep-identification system based on walking interval
CN112052686A (zh) 一种用户交互式教育的语音学习资源推送方法
CN104318931B (zh) 一种音频文件的情绪活跃度获取方法及分类方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant