CN111968673A - 一种音频事件检测方法及系统 - Google Patents

一种音频事件检测方法及系统 Download PDF

Info

Publication number
CN111968673A
CN111968673A CN202010746291.4A CN202010746291A CN111968673A CN 111968673 A CN111968673 A CN 111968673A CN 202010746291 A CN202010746291 A CN 202010746291A CN 111968673 A CN111968673 A CN 111968673A
Authority
CN
China
Prior art keywords
audio
training
identified
audio event
gmm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010746291.4A
Other languages
English (en)
Inventor
陈剑超
肖龙源
李稀敏
刘晓葳
叶志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010746291.4A priority Critical patent/CN111968673A/zh
Publication of CN111968673A publication Critical patent/CN111968673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频事件检测方法及系统,该方法使用基于模糊聚类的GMM模型,GMM模型的构建方法为:GMM模型的高斯混合数为M(M为正整数),对于训练数据
Figure DDA0002608461970000011
进行模糊聚类,得到码本集合X={x1,x2,…,xi},i=1,2,…,M,其中,第i个高斯原子Xi的样本空间大小为di;令第i个高斯原子Xi的均值向量,作为GMM模型的第i个高斯分量的初始值μi,第i个高斯原子Xi的方差向量,作为第i个高斯分量的初始方差σi,对模型参数进行迭代优化,直至GMM模型训练完成。本发明可以减少用于检测音频事件的神经网络模型的训练用时,并提高识别效果。

Description

一种音频事件检测方法及系统
技术领域
本发明涉及音频识别技术领域,特别是一种音频事件检测方法及系统。
背景技术
音频事件是指具有某种特定语义或内容的一个音频片段,从音频事件处理的方式上分为分类和检测。音频事件的检测包括音频事件的定位和音频事件的识别,通常先利用分段算法定位音频事件的位置,再通过神经网络模型识别出音频事件的类型。传统的用于检测音频事件的神经网络模型的训练用时长,识别效果差。
发明内容
本发明为解决上述问题,提供了一种音频事件检测方法及系统,减少用于检测音频事件的神经网络模型的训练用时,并提高识别效果。
为实现上述目的,本发明采用的技术方案为:
一种音频事件检测方法,使用基于模糊聚类的GMM模型,所述GMM模型的构建方法为:所述GMM模型的高斯混合数为M(M为正整数),对于训练数据
Figure BDA0002608461950000011
进行模糊聚类,得到码本集合X={x1,x2,…,xi},i=1,2,…,M,其中,第i个高斯原子Xi的样本空间大小为di;令第i个高斯原子Xi的均值向量,作为所述GMM模型的第i个高斯分量的初始值μi,第i个高斯原子Xi的方差向量,作为第i个高斯分量的初始方差σi,对模型参数进行迭代优化,直至所述GMM模型训练完成。
优选的,所述模型参数的重估公式包括:
加权系数重估公式:
Figure BDA0002608461950000021
均值向量重估公式:
Figure BDA0002608461950000022
方差向量重估公式:
Figure BDA0002608461950000023
优选的,所述GMM模型的训练方法,包括以下步骤:
训练音频分帧,得训练分帧音频;
提取所述训练分帧音频的MFCC特征,得训练MFCC特征;
将所述训练MFCC特征输入待训练的所述GMM模型,所述GMM模型输出预测结果;
多次迭代训练,优化损失值至趋于稳定后完成训练。
优选的,所述音频事件检测方法包括以下步骤:
待识别音频自适应分段,得待识别分段音频;
提取所述待识别分段音频的MFCC特征,得待识别MFCC特征;
将所述待识别MFCC特征输入训练好的所述GMM模型,识别音频事件的类型。
优选的,MFCC特征为低频MFCC特征。
优选的,所述待识别音频自适应分段包括以下步骤:
所述待识别音频预处理,分帧;
从所述待识别音频的第一帧开始,向后寻找的短时能量超过上门限的连续5帧音频,如果找到,则判定此段音频的附近包括所述音频事件,否则结束自适应分段;
从所述音频向前寻找短时能量低于下门限的连续10帧音频,如果找到,则标记此段音频为音频事件的开始位置;向后寻找短时能量低于下门限的连续10帧音频,如果找到,则标记此段音频为音频事件的结束位置;
检查整段所述待识别音频是否寻找结束,如果未结束,重复上面的两个步骤。
优选的,从所述音频事件的开始位置向前寻找短时过零率低于过零率门限的帧,将此帧修正为音频事件的开始位置;从所述音频事件的结束位置向后寻找短时过零率低于过零率门限的帧,将此帧修正为音频事件的结束位置。
基于同样的发明构思,本发明还提供了一种音频事件检测系统,包括:
音频采集终端,用于采集所述待识别音频;
识别模块,基于上述的方法对所述待识别音频进行识别,并输出识别结果。
本发明的有益效果是:
(1)使用基于模糊聚类的GMM模型进行MFCC特征的运算,实现音频事件的检测,可以排除其他特征的干扰,提高识别率;
(2)使用低频MFCC特征,避免计算精度的下降;
(3)通过语音激活检测VAD进行待识别音频的自适应分段,标记音频事件的起止位置。
附图说明
图1为基于GMM模型的音频检测流程图;
图2为语音观察矢量的提取流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合具体实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
使用GMM模型进行音频事件的检测,实际上做的是有监督的音频事件识别。
如图1所示,首先进行训练,使用已经分类好的训练数据,依次训练GMM模型。比如将铃声类型的音频事件段(切割好的音频段,保证音频内容均为铃声,这样训练出来的GMM模型才是对铃声特征空间的描述),按流程进行分帧和MFCC特征提取,然后使用MFCC特征进行模型运算。将得到的GMM模型标记为铃声模型。
通过使用不同类型的音频事件段对GMM模型进行训练,得到可以识别出多种类型的音频事件的模型。
传统的GMM模型训练,常使用EM算法,算法容易陷入局部最优解,因此模型的训练用时较长,并且识别效果较差。
本实施例改进传统的GMM模型,改善算法,使用模糊聚类结果,作为GMM模型初始值,对模型进行训练。
GMM模型的构建方法为:GMM模型的高斯混合数为M(M为正整数),对于训练数据
Figure BDA0002608461950000041
进行模糊聚类,得到码本集合X={x1,x2,…,xi},i=1,2,…,M,其中,第i个高斯原子Xi的样本空间大小为di;令第i个高斯原子Xi的均值向量,作为GMM模型的第i个高斯分量的初始值μi,第i个高斯原子Xi的方差向量,作为第i个高斯分量的初始方差σi,则第i个高斯分量的初始加权系数为
Figure BDA0002608461950000051
之后,类似于EM算法的迭代优化过程,基于初始的模型参数,对模型参数进行迭代优化,直至GMM模型训练完成,最终得到基于模糊聚类的GMM模型。
模型参数的重估公式如下:
加权系数重估公式:
Figure BDA0002608461950000052
均值向量重估公式:
Figure BDA0002608461950000053
方差向量重估公式:
Figure BDA0002608461950000054
本实施例使用基于模糊聚类的GMM模型,可以提高对MFCC特征的识别精度,排除其他特征的干扰,识别效果好。
本实施例的GMM模型的训练方法,包括以下步骤:
训练音频分帧,得训练分帧音频;
提取训练分帧音频的MFCC特征,得训练MFCC特征;
将训练MFCC特征输入待训练的GMM模型,GMM模型输出预测结果;
多次迭代训练,优化损失值至趋于稳定后完成训练。
音频事件检测方法包括以下步骤:
待识别音频自适应分段,得待识别分段音频。
通过语音激活检测VAD进行自适应分段。
首先,对于待分析的音频段,即待识别音频进行预处理和分帧,计算短时能量和短时过零率。
其中,预处理包括预加重和加窗分帧。
音频信号,如碰撞声、音乐声等的功率谱随着频率的上升而下降,大部分能量集中于低频率范围,尤其是人声,更是由于受到口鼻辐射和声门激励的影响,在高频段严重衰减。所以提取音频信号的高频频谱就十分困难。预加重技术就是提升频谱的高频域部分,从而使得频谱的高低频段变得平整,以便后续的频谱分析,通常采用H(z)=1-μz-1,一阶有限激励响应高通滤波器来实现预加重处理。
音频信号是一个随机、时变的、非平稳的过程。但是音频信号具有短时平稳性,即在一个短时范围内,音频信号的特征变化较为缓慢,可以视为不变。基于短时平稳性,可以对量化采样后的音频数据进行分帧处理,帧长为10~30ms。分帧一般采用交叠分段的方法,以保持音频信号的连续性。使用窗函数进行加权来实现分帧,常用的窗函数有:矩形窗和汉明窗,本实施例使用汉明窗,帧长为16ms。
通过观测音频信号,人工可以直观地判断音频事件所在的位置,也就是音频信号“突起”的位置,信号起伏越剧烈的地方,音频事件越明显。
本实施例使用短时能量来作为检测音频事件的指标。
短时能量是度量音频信号幅值变化的函数。假设已经分帧好的音频段,第N帧音频信号为Xn(m),则短时能量En为:
Figure BDA0002608461950000071
过零,即时域波形穿过时间横轴。短时过零率,表示横轴被一帧音频信号所穿过的次数。通过短时过零率可以从背景噪声中找出语音或铃声等有规律的音频事件。
然后,计算整段待识别音频的平均能量,并据此计算出音频信号分段的上、下门限。
接着,从待识别音频的第一帧开始,向后寻找的短时能量超过上门限的连续5帧音频,如果找到,则判定此段音频的附近包括音频事件,继续下一步骤,否则结束VAD,分段结束。
其次,从音频向前寻找短时能量低于下门限的连续10帧音频,如果找到,则标记此段音频的第1帧为音频事件的开始位置;向后寻找短时能量低于下门限的连续10帧音频,如果找到,则标记此段音频的最后1帧为音频事件的结束位置。如果同时找到了音频事件的起止位置,继续下一步骤,否则返回上一步骤。
再次,利用短时过零率,修正音频事件的起止位置。即从音频事件的开始位置向前寻找短时过零率低于过零率门限的帧,将此帧修正为音频事件的开始位置;从音频事件的结束位置向后寻找短时过零率低于过零率门限的帧,将此帧修正为音频事件的结束位置。
最后,检查整段待识别音频是否寻找结束,如果未结束,从上一音频事件的结束位置向后继续寻找音频事件。
提取待识别分段音频的MFCC特征,得待识别MFCC特征。
MFCC特征已经广泛应用在音频识别领域。梅尔频率是基于人耳的这种听觉特性提出来的,它与频率成非线性的对应关系,因此,随着频率的提高,计算精度会随之下降,因此,在应用中常常使用低频MFCC特征。
MFCC特征的提取,即从一段语音中提取语音观察矢量的流程参照图2所示。
将待识别MFCC特征输入训练好的GMM模型,识别待识别音频中包含的音频事件的类型。
本发明使用基于模糊聚类的GMM模型进行MFCC特征的运算,实现音频事件的检测,可以排除其他特征的干扰,提高识别率。
本领域技术人员可以理解,实现上述音频数据识别方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例二
本实施例提供一种音频事件检测系统,包括:
音频采集终端,用于实时采集用户的语音流,并将音频数据发送至识别模块。识别模块接收后,基于上述方法,对音频数据进行识别。如果当前语音流中出现了音频事件,则分别识别出各个音频事件的类型,并通过语音等方式通知用户,为用户辨识一段音频的内容提供途径。
由于本实施例的实现网络结构为端到端,直接输出识别结果,识别速度快,适用于低功耗的智能设备。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种音频事件检测方法,其特征在于,使用基于模糊聚类的GMM模型,所述GMM模型的构建方法为:所述GMM模型的高斯混合数为M(M为正整数),对于训练数据
Figure FDA0002608461940000011
进行模糊聚类,得到码本集合X={x1,x2,…,xi},i=1,2,…,M,其中,第i个高斯原子Xi的样本空间大小为di;令第i个高斯原子Xi的均值向量,作为所述GMM模型的第i个高斯分量的初始值μi,第i个高斯原子Xi的方差向量,作为第i个高斯分量的初始方差σi,对模型参数进行迭代优化,直至所述GMM模型训练完成。
2.根据权利要求1所述的一种音频事件检测方法,其特征在于,所述模型参数的重估公式包括:
加权系数重估公式:
Figure FDA0002608461940000012
均值向量重估公式:
Figure FDA0002608461940000013
方差向量重估公式:
Figure FDA0002608461940000014
3.根据权利要求1所述的一种音频事件检测方法,其特征在于,所述GMM模型的训练方法,包括以下步骤:
训练音频分帧,得训练分帧音频;
提取所述训练分帧音频的MFCC特征,得训练MFCC特征;
将所述训练MFCC特征输入待训练的所述GMM模型,所述GMM模型输出预测结果;
多次迭代训练,优化损失值至趋于稳定后完成训练。
4.根据权利要求1所述的一种音频事件检测方法,其特征在于,包括以下步骤:
待识别音频自适应分段,得待识别分段音频;
提取所述待识别分段音频的MFCC特征,得待识别MFCC特征;
将所述待识别MFCC特征输入训练好的所述GMM模型,识别音频事件的类型。
5.根据权利要求3或4所述的一种音频事件检测方法,其特征在于,所述MFCC特征为低频MFCC特征。
6.根据权利要求4所述的一种音频事件检测方法,其特征在于,所述待识别音频自适应分段包括以下步骤:
所述待识别音频预处理,分帧;
从所述待识别音频的第一帧开始,向后寻找的短时能量超过上门限的连续5帧音频,如果找到,则判定此段音频的附近包括所述音频事件,否则结束自适应分段;
从所述音频向前寻找短时能量低于下门限的连续10帧音频,如果找到,则标记此段音频为音频事件的开始位置;向后寻找短时能量低于下门限的连续10帧音频,如果找到,则标记此段音频为音频事件的结束位置;
检查整段所述待识别音频是否寻找结束,如果未结束,重复上面的两个步骤。
7.根据权利要求6所述的一种音频事件检测方法,其特征在于,从所述音频事件的开始位置向前寻找短时过零率低于过零率门限的帧,将此帧修正为音频事件的开始位置;从所述音频事件的结束位置向后寻找短时过零率低于过零率门限的帧,将此帧修正为音频事件的结束位置。
8.一种音频事件检测系统,其特征在于,包括:
音频采集终端,用于采集所述待识别音频;
识别模块,基于权利要求1至7中任一项所述的方法对所述待识别音频进行识别,并输出识别结果。
CN202010746291.4A 2020-07-29 2020-07-29 一种音频事件检测方法及系统 Pending CN111968673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010746291.4A CN111968673A (zh) 2020-07-29 2020-07-29 一种音频事件检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010746291.4A CN111968673A (zh) 2020-07-29 2020-07-29 一种音频事件检测方法及系统

Publications (1)

Publication Number Publication Date
CN111968673A true CN111968673A (zh) 2020-11-20

Family

ID=73363049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010746291.4A Pending CN111968673A (zh) 2020-07-29 2020-07-29 一种音频事件检测方法及系统

Country Status (1)

Country Link
CN (1) CN111968673A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488071A (zh) * 2021-07-16 2021-10-08 河南牧原智能科技有限公司 一种猪只咳嗽识别方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
US20140236593A1 (en) * 2011-09-23 2014-08-21 Zhejiang University Speaker recognition method through emotional model synthesis based on neighbors preserving principle

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
US20140236593A1 (en) * 2011-09-23 2014-08-21 Zhejiang University Speaker recognition method through emotional model synthesis based on neighbors preserving principle
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘杨: "多类型音频事件检测及实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488071A (zh) * 2021-07-16 2021-10-08 河南牧原智能科技有限公司 一种猪只咳嗽识别方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN105118502B (zh) 语音识别系统的端点检测方法及系统
CN104835498B (zh) 基于多类型组合特征参数的声纹识别方法
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
CN109448726A (zh) 一种语音控制准确率的调整方法及系统
WO2014153800A1 (zh) 语音识别系统
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN106653062A (zh) 一种低信噪比环境下基于谱熵改进的语音端点检测方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN108682432B (zh) 语音情感识别装置
CN111540342B (zh) 一种能量阈值调整方法、装置、设备及介质
Khoa Noise robust voice activity detection
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
CN110277087A (zh) 一种广播信号预判预处理方法
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111540368A (zh) 一种稳健的鸟声提取方法、装置及计算机可读存储介质
CN108986844B (zh) 一种基于说话人语音特征的语音端点检测方法
Poovarasan et al. Speech enhancement using sliding window empirical mode decomposition and hurst-based technique
Smolenski et al. Usable speech processing: A filterless approach in the presence of interference
CN117079673B (zh) 一种基于多模态人工智能的智能情绪识别方法
CN111968673A (zh) 一种音频事件检测方法及系统
CN113269305A (zh) 一种加强记忆的反馈语音强化方法
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
CN116364107A (zh) 一种语音信号检测方法、装置、设备及存储介质
CN111128244B (zh) 基于过零率检测的短波通信语音激活检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201120

RJ01 Rejection of invention patent application after publication