CN104464722B - 基于时域和频域的语音活性检测方法和设备 - Google Patents

基于时域和频域的语音活性检测方法和设备 Download PDF

Info

Publication number
CN104464722B
CN104464722B CN201410641920.1A CN201410641920A CN104464722B CN 104464722 B CN104464722 B CN 104464722B CN 201410641920 A CN201410641920 A CN 201410641920A CN 104464722 B CN104464722 B CN 104464722B
Authority
CN
China
Prior art keywords
frame
voice signal
noise
voice
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410641920.1A
Other languages
English (en)
Other versions
CN104464722A (zh
Inventor
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201410641920.1A priority Critical patent/CN104464722B/zh
Publication of CN104464722A publication Critical patent/CN104464722A/zh
Application granted granted Critical
Publication of CN104464722B publication Critical patent/CN104464722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于时域和频域的语音活性检测方法和设备。该方法包括:估计语音信号的噪声能量;向输入的语音信号中加入白噪声;对加入白噪声后的语音信号进行分帧处理;确定每帧的短时能量值;确定每帧的谐波乘积谱值;以及针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。本发明提供的语音活性检测方法和设备,结合了时域分析与频域分析方法,针对实际情况具有更好的适应性,在背景噪声为人声以及信噪比较低等情况下也有很好的表现,并且该方法实现简单、精巧,很容易嵌入各类语音系统中。

Description

基于时域和频域的语音活性检测方法和设备
技术领域
本发明涉及语音活性检测领域,具体地,涉及一种基于时域和频域的语音活性检测方法和设备。
背景技术
语音活性检测(Voice Activity Detection,VAD)是一种用于检测语音信号是否存在的语音处理技术。语音活性检测技术主要用于语音识别、语音编码等,其能够区别出静音、语音片段,为后续针对语音信号的进一步处理作铺垫。语音活性检测模块也是很多语音通信系统中不可或缺的部分,如音频会议、语音识别、回声消除、IP电话等。针对语音识别系统来说,语音活性检测模块的准确度会极大影响到后续的特征提取、模型建立及判决等工作,因此,提供高效、鲁棒性高的语音活性检测显得尤为重要。
现有的语音活性检测技术有很多种,如基于短时能量、短时过零率的时域分析方法,也有基于倒谱频率、线性预测编码(LPC)系数等的频域分析方法。这些方法各有优势,各自利用不同的特性来区分语音与噪声。然而,在实际使用中,经常出现较低信噪比、背景噪声也为人声等等情况,此时使用传统的方法难以得到足够准确的结果。
发明内容
本发明的目的是提供一种能够提高语音活性检测结果的准确度(特别是在信噪比较低、或者背景噪声为人声的情况下)的基于时域和频域的语音活性检测方法和设备。
为了实现上述目的,本发明提供一种基于时域和频域的语音活性检测方法。该方法包括:向输入的语音信号中加入白噪声;对加入白噪声后的语音信号进行分帧处理;确定每帧的短时能量值;确定每帧的谐波乘积谱值;以及针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。
优选地,该方法还包括:在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量;以及根据所估计的噪声能量来确定要加入的白躁声的比例;以及向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
优选地,对所述语音信号的噪声能量的所述估计是动态进行的。
优选地,所述白噪声为高斯白噪声。
优选地,确定所述每帧的谐波乘积谱值的步骤包括:对所述加入白噪声后的语音信号进行规范化;获取每帧的频域信息;以及根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。
优选地,通过以下方式来确定所述帧是否为语音帧:在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。
优选地,通过以下方式来确定所述帧是否为语音帧:利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
本发明还提供一种基于时域和频域的语音活性检测设备。该设备包括:用于向输入的语音信号中加入白噪声的装置;用于对加入白噪声后的语音信号进行分帧处理的装置;用于确定每帧的短时能量值的装置;用于确定每帧的谐波乘积谱值的装置;以及用于针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段的装置。
优选地,该设备还包括:用于在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量的装置;以及用于根据所估计的噪声能量来确定要加入的白躁声的比例的装置;以及向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
优选地,对所述语音信号的噪声能量的所述估计是动态进行的。
优选地,所述白噪声为高斯白噪声。
优选地,用于确定所述每帧的谐波乘积谱值的装置包括:用于对所述加入白噪声后的语音信号进行规范化的装置;用于获取每帧的频域信息的装置;以及用于根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的装置。
优选地,通过以下方式来确定所述帧是否为语音帧:在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。
优选地,通过以下方式来确定所述帧是否为语音帧:利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
在上述技术方案中,通过在原有的语音信号中混入一定比例的白噪声,可以有效减小原有的语音信号中包含的噪声片段对语音活性检测的影响。并且,在背景噪声为人声的情况下,通过混入白噪声,可以在一定程度上抹平这些为人声的背景噪声的谐波结构,从而避免这些背景噪声对语音活性检测结果的影响。通过短时能量值与谐波乘积谱值这两项参数来共同确定语音信号中包含的语音片段,相比于仅依靠单一参数来进行判决,可以提高准确性。特别是在背景噪声为人声的情况下,虽然这些噪声可能具有谐波结构,但它们的短时能量值较低,因此,通过本发明提供的语音活性检测方法可以有效地区分出这些为人声的背景噪声和真实的语音片段。本发明提供的语音活性检测方法和设备,结合了时域分析与频域分析方法,针对实际情况具有更好的适应性,在背景噪声为人声以及信噪比较低等情况下也有很好的表现,并且该方法实现简单、精巧,很容易嵌入各类语音系统中。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1示出了根据本发明的实施方式的基于时域和频域的语音活性检测方法的流程图;
图2示出了根据本发明的另一实施方式的基于时域和频域的语音活性检测方法的流程图;以及
图3是根据本发明的实施方式的确定谐波乘积谱值的方法的流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1示出了根据本发明的实施方式的基于时域和频域的语音活性检测方法的流程图。如图1所示,该方法可以包括:步骤S101,向输入的语音信号中加入白噪声;步骤S102,对加入白噪声后的语音信号进行分帧处理;步骤S103,确定每帧的短时能量值;步骤S104,确定每帧的谐波乘积谱值;以及步骤S105,针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。在本发明的一个示例实施方式中,所述白噪声可以例如为高斯白噪声。但是应当理解的是,其他类型的白噪声也适用于本发明。
具体地,在步骤S101,主动向输入的语音信号中加入白噪声。所加入的白噪声的比例可以根据经验来设定。可替换地,在本发明提供的一个优选实施方式中,该比例可以根据输入的语音信号的噪声能量来设定。
在根据输入的语音信号的噪声能量来确定加入的白噪声的比例的情况下,如图2所示,本发明提供的语音活性检测方法还可以包括:步骤S106,在向所述输入的语音信号中加入所述白噪声(即,步骤S101)之前,估计所述语音信号的噪声能量;之后,步骤S107,根据所估计的噪声能量来确定要加入的白躁声的比例。在这种情况下,在步骤S101中,向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
对噪声能量进行估计,可以预判出该语音信号中包含的噪声情况,为确定应当在步骤S101中向该语音信号中加入多少比例的白噪声提供依据。如上所述,要加入的白躁声的比例可以基于所估计出的噪声能量来确定。例如,如果原有的语音信号的信噪比较高,那么可以在所估计出的噪声能量相对高时,加入更多比例的白噪声。这样,可以有效减小原有的语音信号中包含的噪声片段对语音活性检测的影响,并且不影响原有的语音信号中包含的语音片段。而在原有的语音信号的信噪比较低的情况下,可以在该语音信号中加入较小比例的白噪声,以避免对语音活性检测造成干扰。
接下来,在步骤S102,对加入白噪声后的语音信号进行分帧处理,其中,每帧长度可以例如为20~30ms。该步骤的实施对于本领域的技术人员而言是公知的,因此,本发明在此不进行赘述。
接下来,在步骤S103,确定每帧的短时能量值。短时能量值能够反映语音信号的时域特性。通常情况下,语音和噪声的区别可以体现在它们的短时能量上,语音段的短时能量比噪声段的短时能量大。因此,本发明采用短时能量值作为判决某一帧是否为语音帧的一个依据。应当理解的是,短时能量值的计算方法是公知的,本领域的技术人员能够采用公知的任何短时能量值计算方法来计算出某一帧的短时能量值。
除了确定出每帧的短时能量值之外,在步骤S104,还确定每帧的谐波乘积谱(Harmonic Product Spectrum,HPS)值。谐波乘积谱值能够反映语音信号的频域特性。谐波乘积谱值的大小能够作为判断某一信号帧是否具有谐波结构的依据。通常情况下,语音段具有谐波结构,而噪声段不具有谐波结构。因此,通过谐波乘积谱值的大小来判断信号是否具有谐波结构,可以确定出该信号是语音还是噪声。不过在背景噪声为人声的情况下,该背景噪声也可能会表现出具有谐波结构,从而对语音活性检测结果产生误导。然而,在本发明中,由于在步骤S101中在原有的语音信号中加入了白噪声,所加入的白噪声可以在一定程度上抹平这些为人声的背景噪声的谐波结构,从而降低其对检测结果的影响。
在本发明的一个示例实施方式中,如图3所示,确定所述每帧的谐波乘积谱值的步骤S104可以包括:步骤S1041,对所述加入白噪声后的语音信号进行规范化。针对离线处理情况,由于语音信号完整已知,因此,可以对语音信号做整体的规范化。而针对在线处理情况,由于语音信号是实时的,因此,只能对语音信号做局部的规范化处理,并不断进行更新。在本发明中,可以采用本领域的技术人员公知的零-均值规范化方法对加入白噪声后的语音信号进行规范化。但是能够理解的是,其余规范化方法同样适用于本发明。
之后,在步骤S1042,获取每帧的频域信息。在本发明中,可以利用快速傅氏变换(FFT)算法来获取每帧的频域信息。但是应当理解的是,其余获取频域信息的方法也适用于本发明。最后,在步骤S1043,根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。应当理解的是,根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的方法是本领域的技术人员公知的,因此,本发明在此不进行赘述。
在确定出每帧的短时能量值和谐波乘积谱值之后,在步骤S105,针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来共同确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。
可以通过多种方式来根据帧的短时能量值和帧的谐波乘积谱值共同确定该帧是否为语音帧。例如,如前所述,通常情况下,语音段表现为具有高短时能量值和谐波结构。因此,在一种示例实施方式中,可以在所述帧的短时能量值大于或等于第一阈值(可以根据经验设定或经实验得出)、并且所述帧的谐波乘积谱值大于或等于第二阈值(可以根据经验设定或经实验得出)的情况下,确定所述帧为所述语音帧。
可替换地,可以首先利用已知的样本数据(每个样本数据可以包括帧的短时能量值、帧的谐波乘积谱值和对应的帧类型)来预先建立分类模型。之后,对于新输入的信号帧,可以利用该预先建立好的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
采用上述两种方式均可以实现语音帧的判决。但是应当理解的是,其余判决方式也适用于本发明。在确定出所述语音帧之后,就可以得出原有的语音信号中所包含的语音片段(该语音片段由被判决为是语音帧的信号形成)。
通过短时能量值与谐波乘积谱值这两项参数来共同确定语音信号中包含的语音片段,相比于仅依靠单一参数来进行判决,可以提高准确性。特别是在背景噪声为人声的情况下,虽然这些噪声可能具有谐波结构,但它们的短时能量值较低,因此,通过本发明提供的语音活性检测方法可以有效地区分出这些为人声的背景噪声和真实的语音片段,从而保证语音活性检测结果正确。
在本发明的一个优选的实施方式中,在步骤S106中,对所述语音信号的噪声能量的估计可以动态进行。并且,在步骤S101中加入的白噪声的比例可以基于动态估计出的噪声能量来调整。由此,可以实现噪声能量的动态跟踪,以及混入的白噪声的比例的实时调整。这样,可以增强语音活性检测对环境变化的感知能力,并且大幅提高在环境条件发生变化下语音活性检测的鲁棒性。
本发明还提供一种基于时域和频域的语音活性检测设备。该设备可以包括:用于向输入的语音信号中加入白噪声的装置;用于对加入白噪声后的语音信号进行分帧处理的装置;用于确定每帧的短时能量值的装置;用于确定每帧的谐波乘积谱值的装置;以及用于针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段的装置。其中,所述白噪声可以例如为高斯白噪声。
该设备还可以包括:用于在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量的装置;以及用于根据所估计的噪声能量来确定要加入的白躁声的比例的装置;以及向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。
在本发明的一个优选的实施方式中,对所述语音信号的噪声能量的所述估计可以是动态进行的。
用于确定所述每帧的谐波乘积谱值的装置可以包括:用于对所述加入白噪声后的语音信号进行规范化的装置;用于获取每帧的频域信息的装置;以及用于根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的装置。
可以通过以下方式来确定所述帧是否为语音帧:在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。可替换地,可以通过以下方式来确定所述帧是否为语音帧:利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
综上所述,在本发明提供的基于时域和频域的语音活性检测方法和设备中,通过在原有的语音信号中混入一定比例的白噪声,可以有效减小原有的语音信号中包含的噪声片段对语音活性检测的影响。并且,在背景噪声为人声的情况下,通过混入白噪声,可以在一定程度上抹平这些为人声的背景噪声的谐波结构,从而避免这些背景噪声对语音活性检测结果的影响。通过短时能量值与谐波乘积谱值这两项参数来共同确定语音信号中包含的语音片段,相比于仅依靠单一参数来进行判决,可以提高准确性。特别是在背景噪声为人声的情况下,虽然这些噪声可能具有谐波结构,但它们的短时能量值较低,因此,通过本发明提供的语音活性检测方法可以有效地区分出这些为人声的背景噪声和真实的语音片段。本发明提供的语音活性检测方法和设备,结合了时域分析与频域分析方法,针对实际情况具有更好的适应性,在背景噪声为人声以及信噪比较低等情况下也有很好的表现,并且该方法实现简单、精巧,很容易嵌入各类语音系统中。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (12)

1.一种基于时域和频域的语音活性检测方法,其特征在于,该方法包括:
在向输入的语音信号中加入白噪声之前,估计所述语音信号的噪声能量;
根据所估计的噪声能量确定要加入的白噪声的比例;
按照所确定的比例向所述输入的语音信号中加入白噪声;
对加入白噪声后的语音信号进行分帧处理;
确定每帧的短时能量值,所述短时能量反映所述语音信号的时域特性;
确定每帧的谐波乘积谱值;以及
针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来共同确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。
2.根据权利要求1所述的方法,其特征在于,对所述语音信号的噪声能量的所述估计是动态进行的。
3.根据权利要求1所述的方法,其特征在于,所述白噪声为高斯白噪声。
4.根据权利要求1所述的方法,其特征在于,确定所述每帧的谐波乘积谱值的步骤包括:
对所述加入白噪声后的语音信号进行规范化;
获取每帧的频域信息;以及
根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。
5.根据权利要求1-4中任一权利要求所述的方法,其特征在于,通过以下方式来确定所述帧是否为语音帧:
在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。
6.根据权利要求1-4中任一权利要求所述的方法,其特征在于,通过以下方式来确定所述帧是否为语音帧:
利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
7.一种基于时域和频域的语音活性检测设备,其特征在于,该设备包括:
用于在向输入的语音信号中加入白噪声之前,估计所述语音信号的噪声能量的装置;
用于根据所估计的噪声能量确定要加入的白噪声的比例的装置;
用于按照所确定的比例向所述输入的语音信号中加入白噪声的装置;
用于对加入白噪声后的语音信号进行分帧处理的装置;
用于确定每帧的短时能量值的装置,所述短时能量值反映所述语音信号的时域特性;
用于确定每帧的谐波乘积谱值的装置;以及
用于针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来共同确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段的装置。
8.根据权利要求7所述的设备,其特征在于,对所述语音信号的噪声能量的所述估计是动态进行的。
9.根据权利要求7所述的设备,其特征在于,所述白噪声为高斯白噪声。
10.根据权利要求7所述的设备,其特征在于,用于确定所述每帧的谐波乘积谱值的装置包括:
用于对所述加入白噪声后的语音信号进行规范化的装置;
用于获取每帧的频域信息的装置;以及
用于根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的装置。
11.根据权利要求7-10中任一权利要求所述的设备,其特征在于,通过以下方式来确定所述帧是否为语音帧:
在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。
12.根据权利要求7-10中任一权利要求所述的设备,其特征在于,通过以下方式来确定所述帧是否为语音帧:
利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。
CN201410641920.1A 2014-11-13 2014-11-13 基于时域和频域的语音活性检测方法和设备 Active CN104464722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410641920.1A CN104464722B (zh) 2014-11-13 2014-11-13 基于时域和频域的语音活性检测方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410641920.1A CN104464722B (zh) 2014-11-13 2014-11-13 基于时域和频域的语音活性检测方法和设备

Publications (2)

Publication Number Publication Date
CN104464722A CN104464722A (zh) 2015-03-25
CN104464722B true CN104464722B (zh) 2018-05-25

Family

ID=52910673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410641920.1A Active CN104464722B (zh) 2014-11-13 2014-11-13 基于时域和频域的语音活性检测方法和设备

Country Status (1)

Country Link
CN (1) CN104464722B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305774B (zh) 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
CN107731223B (zh) * 2017-11-22 2022-07-26 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN108962225B (zh) * 2018-06-27 2020-10-23 西安理工大学 一种多尺度自适应语音端点检测方法
CN111292758B (zh) * 2019-03-12 2022-10-25 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
CN110108467B (zh) * 2019-05-20 2020-10-20 长沙理工大学 基于便携式移动设备的主动发声测速方法
CN112634921B (zh) * 2019-10-09 2024-02-13 北京中关村科金技术有限公司 一种语音处理方法、装置和存储介质
CN111613243B (zh) * 2020-04-26 2023-04-18 云知声智能科技股份有限公司 一种语音检测的方法及其装置
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN111951834A (zh) * 2020-08-18 2020-11-17 珠海声原智能科技有限公司 基于过零率计算的超低算力检测语音存在的方法和装置
CN113077806B (zh) * 2021-03-23 2023-10-13 杭州网易智企科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN114613391B (zh) * 2022-02-18 2022-11-25 广州市欧智智能科技有限公司 一种基于半带滤波器的鼾声识别方法及装置
CN116705025A (zh) * 2023-08-02 2023-09-05 泉州市三川通讯技术股份有限责任公司 一种车载终端通信方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102687196A (zh) * 2009-10-08 2012-09-19 西班牙电信公司 用于检测语音段的方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN103730110A (zh) * 2012-10-10 2014-04-16 北京百度网讯科技有限公司 一种检测语音端点的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742111B2 (en) * 2005-05-06 2010-06-22 Mavs Lab. Inc. Highlight detecting circuit and related method for audio feature-based highlight segment detection
CN100580770C (zh) * 2005-08-08 2010-01-13 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
WO2008028974A1 (en) * 2006-09-08 2008-03-13 Novo Nordisk A/S Methods of optimizing chromatographic separation of polypeptides
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101872616B (zh) * 2009-04-22 2013-02-06 索尼株式会社 端点检测方法以及使用该方法的系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102687196A (zh) * 2009-10-08 2012-09-19 西班牙电信公司 用于检测语音段的方法
CN103730110A (zh) * 2012-10-10 2014-04-16 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法

Also Published As

Publication number Publication date
CN104464722A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104464722B (zh) 基于时域和频域的语音活性检测方法和设备
US10249316B2 (en) Robust noise estimation for speech enhancement in variable noise conditions
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US8600073B2 (en) Wind noise suppression
EP1210711B1 (en) Sound source classification
US8165875B2 (en) System for suppressing wind noise
CN104637489B (zh) 声音信号处理的方法和装置
EP2881948A1 (en) Spectral comb voice activity detection
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN103905656B (zh) 残留回声的检测方法及装置
Swami et al. Speech enhancement by noise driven adaptation of perceptual scales and thresholds of continuous wavelet transform coefficients
WO2016004757A1 (zh) 杂音检测方法和装置
Lee et al. Statistical model-based VAD algorithm with wavelet transform
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
Chung et al. Improvement of speech signal extraction method using detection filter of energy spectrum entropy
EP3240303B1 (en) Sound feedback detection method and device
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
KR100866580B1 (ko) 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템
Yu et al. A weighted log kurtosis ratio measure for instrumental musical tones assessment in wideband speech
Pop et al. On forensic speaker recognition case pre-assessment
KR102424795B1 (ko) 음성 구간 검출 방법
KR20200026587A (ko) 음성 구간을 검출하는 방법 및 장치
Zhao et al. Single-channel noise reduction in the STFT domain from the fullband output SNR perspective

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, five floor, A503

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, five floor, A503

Patentee before: Beijing Yunzhisheng Information Technology Co., Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200403

Address after: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Co-patentee after: Xiamen yunzhixin Intelligent Technology Co., Ltd

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, five floor, A503

Patentee before: Yunzhisheng Intelligent Technology Co., Ltd.

TR01 Transfer of patent right