CN109616098A - 基于频域能量的语音端点检测方法和装置 - Google Patents
基于频域能量的语音端点检测方法和装置 Download PDFInfo
- Publication number
- CN109616098A CN109616098A CN201910117091.XA CN201910117091A CN109616098A CN 109616098 A CN109616098 A CN 109616098A CN 201910117091 A CN201910117091 A CN 201910117091A CN 109616098 A CN109616098 A CN 109616098A
- Authority
- CN
- China
- Prior art keywords
- measured
- speech frame
- energy
- voice signal
- frequency range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000009432 framing Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Abstract
本发明的实施方式提供了一种基于频域能量的语音端点检测方法和装置,该方法包括:获取语音信号,对所述语音信号分帧后得到待测语音帧;根据所述待测语音帧与预设频率范围获取第一能量特征;根据所述第一能量特征计算所述待测语音帧与预设底噪之间的差异度;根据所述差异度对所述待测语音帧进行分类,并根据分类结果检测获得所述语音信号的语音端点。通过根据预设频率范围内的能量特征进行端点检测,可以提高对语音信号端点检测的准确性。另外还公开了一种基于频域能量的语音端点检测设备和计算机可读存储介质。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于频域能量的语音端点检测方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
近年来,随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测(Voice Activity Detection,简称VAD)是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出人声语音部分的起始点和终止点。端点检测准确与否,会直接影响到语音识别系统的性能。如果端点切分出现错误,则会导致漏识别或者误识别等情况的发生,或者某些非语音信号同样触发了识别,例如:咳嗽声、关门声、脚步声等,进而可导致语音识别结果不准确。
传统的语音端点检测方法主要包括两种:(1)获取时域能量,并与给定的阈值进行比较,从而判断出语音的起始点和终止点。(2)获取音频信号的过零率,并与给定的阈值进行比较,上述过零率也即声音信号在零点附近超过一定阈值的跳变频率。
除此之外,近年来还出现多种基于模型的语音端点检测方法,其中,可以使用多维的特征如Mel倒谱实现对环境的自适应检测,这种方法相较于传统方法显著提高了识别准确度。
然而,在实现本发明的过程中发明人发现上述语音端点检测算法至少存在以下问题:(1)传统的语音端点检测方法上述方法不能区分非人声造成的干扰,此外由于时域的信号并不稳定,识别的准确度不高;(2)基于模型的语音端点检测方法非常依赖于建立模型并进行数据训练,由于采用的特征维数较多,对环境进行自适应需要大量的数据,导致计算量非常大,进一步导致效率降低,设备成本升高。
发明内容
为了解决或部分解决上述技术问题,本发明的实施例提出一种基于频域能量的语音端点检测方法,以便语音端点检测过程中能减少不相干频率范围的干扰因素、显著提高了检测准确性。
本发明实施例的第一方面,提出一种基于频域能量的语音端点检测方法,其特征在于,方法包括:
获取语音信号,对语音信号分帧后得到待测语音帧;
根据待测语音帧与预设频率范围获取第一能量特征;
根据第一能量特征计算待测语音帧与预设底噪之间的差异度;
根据差异度对待测语音帧进行分类,并根据分类结果检测获得语音信号的语音端点。
进一步地,在一实施例中,方法还包括:
从语音信号获取预设帧数的初始语音信号,作为预设底噪;
在预设频率范围内,计算预设帧数的初始语音信号的能量特征均值,从而得到第二能量特征。
进一步地,在一实施例中,根据第一能量特征计算待测语音帧与预设底噪之间的差异度包括以下中的至少一种:
计算第一能量特征与第二能量特征的差值;
计算第一能量特征与第二能量特征的比值。
进一步地,在一实施例中,预设频率范围为人声频域范围。
进一步地,在一实施例中,在预设频率范围内,对待测语音帧的能量特征进行计算至少包括以下中的一种或多种:
在预设频率范围内,对待测语音帧的第一谱能量和进行计算;
在预设频率范围内,按照预设频段权重参数对待测语音帧的第二谱能量和进行计算;
对待测语音帧的第三谱能量和与第四谱能量和的比值进行计算,其中第三谱能量和为待测语音帧在预设频率范围内的谱能量,第四谱能量和为待测语音帧在全频域范围内的谱能量总和。
进一步地,在一实施例中,其中,根据差异度对待测语音帧进行分类包括:
若待测语音帧与预设底噪之间的差异度超过预定阈值,将待测语音帧判定为第一分类;
若待测语音帧与预设底噪之间的差异度未超过预定阈值,将待测语音帧判定为第二分类。
进一步地,在一实施例中,根据分类结果获取语音信号的语音端点包括:
当超过第一预设值的待测语音帧被连续判定为第一分类时,将超过第一预设值的待测语音帧的起点设置为第一端点;
在设置第一端点之后,当超过第一预设值的待测语音帧被连续判定为第一分类时,将超过第一预设值的待测语音帧的起点设置为第二端点。
本发明实施例的第二方面,提出一种基于频域能量的语音端点检测装置,其特征在于,的装置包括:
获取模块,用于获取语音信号,对语音信号分帧后得到待测语音帧;
特征计算模块,用于根据待测语音帧与预设频率范围获取第一能量特征;
差异度计算模块,用于根据第一能量特征计算待测语音帧与预设底噪之间的差异度;
检测模块,用于根据差异度对待测语音帧进行分类,并根据分类结果检测获得语音信号的语音端点。
进一步地,在一实施例中,装置还包括底噪模块,用于:
从语音信号获取预设帧数的初始语音信号,作为预设底噪;
在预设频率范围内,计算预设帧数的初始语音信号的能量特征均值,从而得到第二能量特征。
进一步地,在一实施例中,差异度计算模块用于:
计算第一能量特征与第二能量特征的差值;
计算第一能量特征与第二能量特征的比值。
进一步地,在一实施例中,预设频率范围为人声频域范围。
进一步地,在一实施例中,特征计算模块用于:
在预设频率范围内,对待测语音帧的第一谱能量和进行计算;
在预设频率范围内,按照预设频段权重参数对待测语音帧的第二谱能量和进行计算;
对待测语音帧的第三谱能量和与第四谱能量和的比值进行计算,其中第三谱能量和为待测语音帧在预设频率范围内的谱能量,第四谱能量和为待测语音帧在全频域范围内的谱能量总和。
进一步地,在一实施例中,检测模块用于:
若待测语音帧与预设底噪之间的差异度超过预定阈值,将待测语音帧判定为第一分类;
若待测语音帧与预设底噪之间的差异度未超过预定阈值,将待测语音帧判定为第二分类。
进一步地,在一实施例中,检测模块进一步用于:
当超过第一预设值的待测语音帧被连续判定为第一分类时,将超过第一预设值的待测语音帧的起点设置为第一端点;
在设置第一端点之后,当超过第一预设值的待测语音帧被连续判定为第一分类时,将超过第一预设值的待测语音帧的起点设置为第二端点。
本发明实施例的第三方面,提出一种基于频域能量的语音端点检测装置,其特征在于,包括:
一个或者多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个程序被一个或者多个处理器执行时,使得一个或多个处理器实现:
获取语音信号,对语音信号分帧后得到待测语音帧;
根据待测语音帧与预设频率范围获取第一能量特征;
根据第一能量特征计算待测语音帧与预设底噪之间的差异度;
根据差异度对待测语音帧进行分类,并根据分类结果检测获得语音信号的语音端点。
本发明实施例的第四方面,提出一种一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被处理器执行时,使得处理器执行如上的方法。
本发明实施方式提供的提出基于频域能量的语音端点检测方法、设备以及存储介质,通过对频域能够有效抑制在端点检测过程中不相干因素造成的干扰,例如非人声因素。从而提高对语音信号端点检测的准确性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示出了根据本发明实施例的一种基于频域能量的语音端点检测方法的流程图;
图2示出了根据本发明实施例的一种频域信号的示意图;
图3示出了根据本发明实施例的另一种基于频域能量的语音端点检测方法的流程图;
图4示出了根据本发明实施例的一种基于频域能量的语音端点检测装置的结构示意图;
图5示出了根据本发明实施例的一种基于频域能量的语音端点检测装置的结构示意图;
图6示出了根据本发明实施例的一种计算机可读存储介质的示意图
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1是根据本发明实施例的基于频域能量的语音端点检测方法的示意性流程图。如图1所示,具体包括如下步骤:
步骤101:实时获取语音信号,对语音信号分帧后得到待测语音帧;
步骤102:根据待测语音帧与预设频率范围获取第一能量特征;
步骤103:根据第一能量特征计算待测语音帧与预设底噪之间的差异度;
步骤104:根据差异度对待测语音帧进行分类,并根据分类结果获取语音信号的语音端点。
具体地,在步骤101中,可以在获取语音信号后通过现有技术对其进行加窗分帧处理,进而将其转化为多个连续的待测语音帧x(n)。可选地,上述分帧处理后,可以对待测语音帧x(n)进行快速傅里叶(Fast Fourier Transformation,简称FFT)变换以将上述待测语音帧从时域信号x(n)变换为频域信号s(n)。
具体地,在步骤102中,可以根据实际应用场景设置预设频率范围,例如,当应用于智能对话软件时,由于从普通环境中获取的原始音频信号中通常会掺杂不同类型的环境噪音,上述底噪可能是热噪音、机械噪音或者音乐等,都会对语音端点检测产生干扰,上述底噪通常与人声分布于不同的频率范围内,因此,本实施例在通过频域能量特征对语音信号进行端点检测时,采用预设频率范围的能量特征作为后续进行判别的值,可以减少上述噪音的影响。
以下结合具体示例进行描述,图2示出了待测语音帧的能量谱图,其中,x轴为频率,y轴为能量值,其中,全频域范围为0~m(Hz),预设频率范围为a~b(Hz),参见图2,本实施例可以基于频域范围a~b(Hz)内的能量特征进行计算,得到第一能量特征,进而能够弱化不相干频率范围的信号分量。
具体地,在步骤103中,预设底噪可以是事先根据历史底噪信息分析后获得的,也可以是根据当前获取的语音信号的前几帧信号分析后获取的。
具体地,在步骤104中,根据该预设底噪和待测语音帧二者之间的能量差异值,可以对待测语音帧进行分类。例如,当差异度大于预设阈值时,待测语音帧为语音类;当差异度小于预设阈值时,待测语音帧为底噪类。进一步地,在完成上述对待测语音帧的分类之后,可以根据,例如,若上一帧待测语音帧为底噪类,当前帧待测语音为语音类,则可以推测出当前帧的起点为语音起始端点。若上一帧待测语音帧为语音类,当前帧待测语音为底噪类,则可以推测出当前帧的起点为语音末尾端点。
本实施例在通过频域能量特征对语音信号进行端点检测时,采用预设频率范围的能量特征作为后续进行判别的值,能够有效抑制在端点检测过程中不相干因素造成的干扰,例如非人声因素。
进一步地,在一实施例中,结合图1,图3示出了另一种基于频域能量的语音端点检测方法,具体包括如下步骤:
步骤301:从语音信号获取预设帧数的初始语音信号,作为预设底噪;
步骤302:在预设频率范围内,计算预设帧数的初始语音信号的能量特征均值,从而得到第二能量特征。
具体地,可以将语音信号的前N帧预设为底噪。N为大于1的整数,一般选取5~10帧信号。进一步地,分别计算出底噪中每一帧待测语音帧的能量特征,值得注意的是,计算待测语音帧的能量特征的方式与计算出底噪中每一帧待测语音帧的能量特征值的方式之间所采用的能量特征类型与预设频率范围均需要保持一致。进一步地,对上述底噪的能量特征求均值,并基于上述均值进行差异度计算。
可选地,可以采用下列公式进行求均值运算:
可选地,上述N的数值优选为10。
本实施例中,通过根据将语音信号的前几帧默认为底噪进行后续判别计算,能够基于不同的语音环境自适应地除去噪声因素,从而提高了语音信号端点检测的准确性。
进一步地,在一实施例中,上述步骤103具体可以包括以下中的至少一种:
(1)计算第一能量特征与第二能量特征的差值;
(2)计算第一能量特征与第二能量特征的比值。
可选地,本发明实施例也可以采用任何能够体现待测语音帧与底噪之间差异性的差异度表现形式,例如基于数学模型的差异度。
进一步地,在一实施例中,上述预设频率范围可以为人声频域范围。
具体地,人声频率基本分布在(80Hz~500Hz)之间。
具体地,由于从普通环境中获取的原始音频信号中通常会掺杂不同类型的环境噪音,上述底噪可能是热噪音、机械噪音或者音乐等,都会对语音端点检测产生干扰,上述底噪通常与人声分布于不同的频率范围内,因此,本实施例在通过频域能量特征对语音信号进行端点检测时,采用人声频率范围的能量特征作为后续进行判别的值,可以减少上述噪音的影响。
进一步地,在一实施例中,上述步骤102至少可以包括以下中的一种或多种:
(1)在预设频率范围内,对待测语音帧的第一谱能量和进行计算;
例如,图2示出了待测语音帧的能量谱图,其中,x轴为频率,y轴为能量值,其中,全频域范围为0~m(Hz),预设频率范围为a~b(Hz),参见图2,将预设频率范围a~b(Hz)内的所有能量值求和。
其中,采用以下公式确定预设频率范围内的谱能量和:
其中,E(a~b)为预设频率范围(a~b)内的能量和,Si(f)为待测语音帧的能量谱。
(2)在预设频率范围内,按照预设频段权重参数对待测语音帧的第二谱能量和进行计算;
例如,可以对于上述预设频率范围a~b(Hz)再次进行基于频率范围的划分,并且为不同的频域范围分配不同的权值参数,将各个频率对应的能量值进行加权求和获得上述第二谱能量和。
可以理解,上述按照预设频段权重参数对待测语音帧的第二谱能量和进行计算的原理为:由于不同人声的惯用频率范围不同,因此当获取语音信号的来源较为单一的情况下,语音信号往往会集中在某一频率范围或某几个频率范围内。例如,智能手机的Siri系统一般情况下只会获取用户本人的语音信号,智能家居系统中的语音获取系统一般情况下只会获取家庭成员的语音信号。因此,通过为常用度更高的频域范围分配更高的权值参数能够起到弱化不相干语音因素的作用,进一步提升检测准确度。可选地,可以通过分析历史信息获取惯用频率范围,并基于此为不同的频域所对应的能量特征分配不同的权值。
(3)对待测语音帧的第三谱能量和与第四谱能量和的比值进行计算,其中第三谱能量和为待测语音帧在预设频率范围内的谱能量,第四谱能量和为待测语音帧在全频域范围内的谱能量总和。
例如,图2示出了待测语音帧的能量谱图,其中,x轴为频率,y轴为能量值,其中,全频域范围为0~m(Hz),预设频率范围为a~b(Hz),参见图2,可以根据下列公式,得到待测语音帧的预设频段范围a~b(Hz)内的能量和与待测语音帧的全频域范围内总能量和的比值系数k;
其中,E(a~b)为预设频率范围(a~b)内的能量和,E为全频域的总能量和,Si(f)为待测语音帧的能量谱。
可选地,可以单独采用上述任一方法获取能量特征值,也可以对其进行任意组合获取能量特征值。
进一步地,在一实施例中,上述步骤104中的根据差异度对待测语音帧进行分类可以包括如下步骤:
(1)若待测语音帧与预设底噪之间的差异度超过预定阈值,将待测语音帧判定为第一分类;
具体地,上述第一分类也即语音类,表示被判定为有效语音。
(2)若待测语音帧与预设底噪之间的差异度未超过预定阈值,将待测语音帧判定为第二分类。
具体地,上述第二分类也即底噪类,表示被判定为底噪。
可选地,针对上述预定阈值的选取,本发明实施方式通过大量仿真试验,得到当有人说话时,若上述差异度在95%的情况下都大于某个值K时,可以设定值K*80%作为预设阈值。
进一步地,在完成上述分类之后,步骤104中的根据分类结果获取语音信号的语音端点具体可以包括如下步骤:
(1)当超过第一预设值的待测语音帧被连续判定为第一分类时,将超过第一预设值的待测语音帧的起点设置为第一端点;
(2)在设置第一端点之后,当超过第一预设值的待测语音帧被连续判定为第一分类时,将超过第一预设值的待测语音帧的起点设置为第二端点。
例如,当连续被判定为第一分类(语音类)的待测语音帧的帧数超过20时,将上述连续被判定为第一分类(语音类)的待测语音帧的起点设置为第一端点,也即语音起始端点。进一步地,在设定了语音起始端点之后,连续被判定为第二分类(底噪类)的待测语音帧的帧数超过30时,将连续被判定为第二分类(底噪类)的待测语音帧的首帧设定为第二端点,也即语音末尾端点。可选地,基于上述语音起始端点与最邻近的语音末尾端点,组合成为一段有效语音段,并可以基于该有效语音段进行后续的语音处理、检测或识别。通过上述设定预设值的技术方案,能够有效抑制短时语音信号的干扰,进一步提高了语音端点检测的准确性。
图4是根据本发明实施例的基于频域能量的语音端点检测装置的结构示意图。如图4所示,具体包括:
获取模块401,用于实时获取语音信号,对语音信号分帧后得到待测语音帧;
特征计算模块402,用于根据待测语音帧与预设频率范围获取第一能量特征;
差异度计算模块403,用于根据第一能量特征计算待测语音帧与预设底噪之间的差异度;
检测模块404,用于根据差异度对待测语音帧进行分类,并根据分类结果获取语音信号的语音端点。
具体地,针对获取模块401,可以在获取语音信号后通过现有技术对其进行加窗分帧处理,进而将其转化为多个连续的待测语音帧x(n)。可选地,上述分帧处理后,可以对待测语音帧x(n)进行快速傅里叶(Fast Fourier Transformation,简称FFT)变换以将上述待测语音帧从时域信号x(n)变换为频域信号s(n)。
具体地,针对特征计算模块402,可以根据实际应用场景设置预设频率范围,例如,当应用于智能对话软件时,由于从普通环境中获取的原始音频信号中通常会掺杂不同类型的环境噪音,上述底噪可能是热噪音、机械噪音或者音乐等,都会对语音端点检测产生干扰,上述底噪通常与人声分布于不同的频率范围内,因此,本实施例在通过频域能量特征对语音信号进行端点检测时,采用预设频率范围的能量特征作为后续进行判别的值,可以减少上述噪音的影响。
以下结合具体示例进行描述,图2示出了待测语音帧的能量谱图,其中,x轴为频率,y轴为能量值,其中,全频域范围为0~m(Hz),预设频率范围为a~b(Hz),参见图2,本实施例可以基于频域范围a~b(Hz)内的能量特征进行计算,得到第一能量特征,进而能够弱化不相干频率范围的信号分量。
具体地,针对差异度计算模块403,预设底噪可以是事先根据历史底噪信息分析后获得的,也可以是根据当前获取的语音信号的前几帧信号分析后获取的。
具体地,针对检测模块404,根据该预设底噪和待测语音帧二者之间的能量差异值,可以对待测语音帧进行分类。例如,当差异度大于预设阈值时,待测语音帧为语音类;当差异度小于预设阈值时,待测语音帧为底噪类。进一步地,在完成上述对待测语音帧的分类之后,可以根据,例如,若上一帧待测语音帧为底噪类,当前帧待测语音为语音类,则可以推测出当前帧的起点为语音起始端点。若上一帧待测语音帧为语音类,当前帧待测语音为底噪类,则可以推测出当前帧的起点为语音末尾端点。
本实施例在通过频域能量特征对语音信号进行端点检测时,采用预设频率范围的能量特征作为后续进行判别的值,能够有效抑制在端点检测过程中不相干因素造成的干扰,例如非人声因素。
进一步地,在一实施例中,装置还包括底噪模块,用于:
从语音信号获取预设帧数的初始语音信号,作为预设底噪;
在预设频率范围内,计算预设帧数的初始语音信号的能量特征均值,从而得到第二能量特征。
进一步地,在一实施例中,差异度计算模块用于:
计算第一能量特征与第二能量特征的差值;
计算第一能量特征与第二能量特征的比值。
进一步地,在一实施例中,预设频率范围为人声频域范围。
进一步地,在一实施例中,特征计算模块用于:
在预设频率范围内,对待测语音帧的第一谱能量和进行计算;
在预设频率范围内,按照预设频段权重参数对待测语音帧的第二谱能量和进行计算;
对待测语音帧的第三谱能量和与第四谱能量和的比值进行计算,其中第三谱能量和为待测语音帧在预设频率范围内的谱能量,第四谱能量和为待测语音帧在全频域范围内的谱能量总和。
进一步地,在一实施例中,检测模块用于:
若待测语音帧与预设底噪之间的差异度超过预定阈值,将待测语音帧判定为第一分类;
若待测语音帧与预设底噪之间的差异度未超过预定阈值,将待测语音帧判定为第二分类。
进一步地,在一实施例中,检测模块进一步用于:
当超过第一预设值的待测语音帧被连续判定为第一分类时,将超过第一预设值的待测语音帧的起点设置为第一端点;
在设置第一端点之后,当超过第一预设值的待测语音帧被连续判定为第一分类时,将超过第一预设值的待测语音帧的起点设置为第二端点。
图5是本发明实施例的提供的另一个基于频域能量的语音端点检测装置示意图。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为设备、方法或计算机可读存储介质。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“设备”。
在一些可能的实施方式中,本发明的基于频域能量的语音端点检测装置可以至少包括一个或多个处理器、以及至少一个存储器。其中,所述存储器存储有程序,当所述程序被所述处理器执行时,使得所述处理器执行如图1所示的步骤:
步骤101:实时获取语音信号,对语音信号分帧后得到待测语音帧;
步骤102:根据待测语音帧与预设频率范围获取第一能量特征;
步骤103:根据第一能量特征计算待测语音帧与预设底噪之间的差异度;
步骤104:根据差异度对待测语音帧进行分类,并根据分类结果获取语音信号的语音端点。
此外,尽管附图中未示出,但本发明的所述程序被所述处理器执行时,还使得所述处理器执行上述示例性方法中描述的其他操作或步骤。
下面参照图5来描述根据本发明的这种实施方式的基于频域能量的语音端点检测装置1。图5显示的装置1仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,装置1可以以通用计算设备的形式表现,包括但不限于:至少一个处理器10、至少一个存储器20、连接不同设备组件的总线60。
总线60包括数据总线、地址总线和控制总线。
存储器20可以包括易失性存储器,例如随机存取存储器(RAM)21和/或高速缓存存储器22,还可以进一步包括只读存储器(ROM)23。
存储器20还可以包括程序模块24,这样的程序模块24包括但不限于:操作设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
装置1还可以与一个或多个外部设备2(例如键盘、指向设备、蓝牙设备等)通信,也可与一个或者多个其他设备进行通信。这种通信可以通过输入/输出(I/O)接口40进行,并在显示单元30上进行显示。并且,装置1还可以通过网络适配器50与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器50通过总线60与装置1中的其它模块通信。应当明白,尽管图中未示出,但可以结合装置1使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID设备、磁带驱动器以及数据备份存储设备等。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种计算机可读存储介质的形式,其包括程序代码,当所述程序代码在被处理器执行时,所述程序代码用于使所述处理器执行上面描述的方法。
上面描述的方法包括了上面的附图中示出和未示出的多个操作和步骤,这里将不再赘述。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的设备、设备或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图6所示,描述了根据本发明的实施方式的计算机可读存储介质60,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的计算机可读存储介质不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行设备、设备或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (16)
1.一种基于频域能量的语音端点检测方法,其特征在于,所述方法包括:
获取语音信号,对所述语音信号分帧后得到待测语音帧;
根据所述待测语音帧与预设频率范围获取第一能量特征;
根据所述第一能量特征计算所述待测语音帧与预设底噪之间的差异度;
根据所述差异度对所述待测语音帧进行分类,并根据分类结果检测获得所述语音信号的语音端点。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述语音信号获取预设帧数的初始语音信号,作为所述预设底噪;
在所述预设频率范围内,计算所述预设帧数的初始语音信号的能量特征均值,从而得到第二能量特征。
3.根据权利要求2所述的方法,其特征在于,
根据所述第一能量特征计算所述待测语音帧与预设底噪之间的差异度包括以下中的至少一种:
计算所述第一能量特征与所述第二能量特征的差值;
计算所述第一能量特征与所述第二能量特征的比值。
4.根据权利要求1~3中任一所述的方法,其特征在于,所述预设频率范围为人声频域范围。
5.根据权利要求1~3中任一所述的方法,其特征在于,所述在预设频率范围内,对所述待测语音帧的能量特征进行计算至少包括以下中的一种或多种:
在所述预设频率范围内,对所述待测语音帧的第一谱能量和进行计算;
在所述预设频率范围内,按照预设频段权重参数对所述待测语音帧的第二谱能量和进行计算;
对所述待测语音帧的第三谱能量和与第四谱能量和的比值进行计算,其中所述第三谱能量和为所述待测语音帧在所述预设频率范围内的谱能量,所述第四谱能量和为所述待测语音帧在全频域范围内的谱能量总和。
6.根据权利要求1所述的方法,其特征在于,
其中,所述根据所述差异度对所述待测语音帧进行分类包括:
若所述待测语音帧与预设底噪之间的差异度超过预定阈值,将所述待测语音帧判定为第一分类;
若所述待测语音帧与预设底噪之间的差异度未超过所述预定阈值,将所述待测语音帧判定为第二分类。
7.根据权利要求6所述的方法,其特征在于,所述根据分类结果获取所述语音信号的语音端点包括:
当超过第一预设值的待测语音帧被连续判定为第一分类时,将所述超过第一预设值的待测语音帧的起点设置为第一端点;
在设置所述第一端点之后,当超过第一预设值的待测语音帧被连续判定为第一分类时,将所述超过第一预设值的待测语音帧的起点设置为第二端点。
8.一种基于频域能量的语音端点检测装置,其特征在于,所述的装置包括:
获取模块,用于获取语音信号,对所述语音信号分帧后得到待测语音帧;
特征计算模块,用于根据所述待测语音帧与预设频率范围获取第一能量特征;
差异度计算模块,用于根据所述第一能量特征计算所述待测语音帧与预设底噪之间的差异度;
检测模块,用于根据所述差异度对所述待测语音帧进行分类,并根据分类结果检测获得所述语音信号的语音端点。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括底噪模块,用于:
从所述语音信号获取预设帧数的初始语音信号,作为所述预设底噪;
在所述预设频率范围内,计算所述预设帧数的初始语音信号的能量特征均值,从而得到第二能量特征。
10.根据权利要求9所述的装置,其特征在于,
所述差异度计算模块用于:
计算所述第一能量特征与所述第二能量特征的差值;
计算所述第一能量特征与所述第二能量特征的比值。
11.根据权利要求8~10中任一所述的装置,其特征在于,所述预设频率范围为人声频域范围。
12.根据权利要求8~10中任一所述的装置,其特征在于,
所述特征计算模块用于:
在所述预设频率范围内,对所述待测语音帧的第一谱能量和进行计算;
在所述预设频率范围内,按照预设频段权重参数对所述待测语音帧的第二谱能量和进行计算;
对所述待测语音帧的第三谱能量和与第四谱能量和的比值进行计算,其中所述第三谱能量和为所述待测语音帧在所述预设频率范围内的谱能量,所述第四谱能量和为所述待测语音帧在全频域范围内的谱能量总和。
13.根据权利要求8所述的装置,其特征在于,
所述检测模块用于:
若所述待测语音帧与预设底噪之间的差异度超过预定阈值,将所述待测语音帧判定为第一分类;
若所述待测语音帧与预设底噪之间的差异度未超过所述预定阈值,将所述待测语音帧判定为第二分类。
14.根据权利要求13所述的装置,其特征在于,
所述检测模块进一步用于:
当超过第一预设值的待测语音帧被连续判定为第一分类时,将所述超过第一预设值的待测语音帧的起点设置为第一端点;
在设置所述第一端点之后,当超过第一预设值的待测语音帧被连续判定为第一分类时,将所述超过第一预设值的待测语音帧的起点设置为第二端点。
15.一种基于频域能量的语音端点检测装置,其特征在于,包括:
一个或者多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器实现:
获取语音信号,对所述语音信号分帧后得到待测语音帧;
根据所述待测语音帧与预设频率范围获取第一能量特征;
根据所述第一能量特征计算所述待测语音帧与预设底噪之间的差异度;
根据所述差异度对所述待测语音帧进行分类,并根据分类结果检测获得所述语音信号的语音端点。
16.一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910117091.XA CN109616098B (zh) | 2019-02-15 | 2019-02-15 | 基于频域能量的语音端点检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910117091.XA CN109616098B (zh) | 2019-02-15 | 2019-02-15 | 基于频域能量的语音端点检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109616098A true CN109616098A (zh) | 2019-04-12 |
CN109616098B CN109616098B (zh) | 2022-04-01 |
Family
ID=66019694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910117091.XA Active CN109616098B (zh) | 2019-02-15 | 2019-02-15 | 基于频域能量的语音端点检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109616098B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197665A (zh) * | 2019-06-25 | 2019-09-03 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110267083A (zh) * | 2019-06-18 | 2019-09-20 | 广州虎牙科技有限公司 | 音视频同步的检测方法、装置、设备及存储介质 |
CN110428853A (zh) * | 2019-08-30 | 2019-11-08 | 北京太极华保科技股份有限公司 | 语音活性检测方法、语音活性检测装置以及电子设备 |
CN111477243A (zh) * | 2020-04-16 | 2020-07-31 | 维沃移动通信有限公司 | 音频信号处理方法及电子设备 |
CN111540378A (zh) * | 2020-04-13 | 2020-08-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置和存储介质 |
WO2023185578A1 (zh) * | 2022-03-29 | 2023-10-05 | 华为技术有限公司 | 语音端点检测方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5450484A (en) * | 1993-03-01 | 1995-09-12 | Dialogic Corporation | Voice detection |
US6216103B1 (en) * | 1997-10-20 | 2001-04-10 | Sony Corporation | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise |
CN101816191A (zh) * | 2007-09-26 | 2010-08-25 | 弗劳恩霍夫应用研究促进协会 | 用于获得提取环境信号的加权系数的装置和方法中的用于提取环境信号的装置和方法以及计算机程序 |
CN103632681A (zh) * | 2013-11-12 | 2014-03-12 | 广州海格通信集团股份有限公司 | 一种谱包络静音检测方法 |
CN103886871A (zh) * | 2014-01-28 | 2014-06-25 | 华为技术有限公司 | 语音端点的检测方法和装置 |
CN104934032A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN105336344A (zh) * | 2014-07-10 | 2016-02-17 | 华为技术有限公司 | 杂音检测方法和装置 |
CN106098076A (zh) * | 2016-06-06 | 2016-11-09 | 成都启英泰伦科技有限公司 | 一种基于动态噪声估计时频域自适应语音检测方法 |
CN108877776A (zh) * | 2018-06-06 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
-
2019
- 2019-02-15 CN CN201910117091.XA patent/CN109616098B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5450484A (en) * | 1993-03-01 | 1995-09-12 | Dialogic Corporation | Voice detection |
US6216103B1 (en) * | 1997-10-20 | 2001-04-10 | Sony Corporation | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise |
CN101816191A (zh) * | 2007-09-26 | 2010-08-25 | 弗劳恩霍夫应用研究促进协会 | 用于获得提取环境信号的加权系数的装置和方法中的用于提取环境信号的装置和方法以及计算机程序 |
CN103632681A (zh) * | 2013-11-12 | 2014-03-12 | 广州海格通信集团股份有限公司 | 一种谱包络静音检测方法 |
CN103886871A (zh) * | 2014-01-28 | 2014-06-25 | 华为技术有限公司 | 语音端点的检测方法和装置 |
CN104934032A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN105336344A (zh) * | 2014-07-10 | 2016-02-17 | 华为技术有限公司 | 杂音检测方法和装置 |
CN106098076A (zh) * | 2016-06-06 | 2016-11-09 | 成都启英泰伦科技有限公司 | 一种基于动态噪声估计时频域自适应语音检测方法 |
CN108877776A (zh) * | 2018-06-06 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
刘华平等: "一种改进的自适应子带谱熵语音端点检测方法", 《系统仿真学报》 * |
田野等: "基于子带能量线性映射的噪声中端点检测算法", 《清华大学学报(自然科学版)》 * |
魏江等: "基于子带能量累积变化的语音端点检测", 《信息安全与通信保密》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110267083A (zh) * | 2019-06-18 | 2019-09-20 | 广州虎牙科技有限公司 | 音视频同步的检测方法、装置、设备及存储介质 |
CN110197665A (zh) * | 2019-06-25 | 2019-09-03 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110428853A (zh) * | 2019-08-30 | 2019-11-08 | 北京太极华保科技股份有限公司 | 语音活性检测方法、语音活性检测装置以及电子设备 |
CN111540378A (zh) * | 2020-04-13 | 2020-08-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置和存储介质 |
CN111477243A (zh) * | 2020-04-16 | 2020-07-31 | 维沃移动通信有限公司 | 音频信号处理方法及电子设备 |
WO2023185578A1 (zh) * | 2022-03-29 | 2023-10-05 | 华为技术有限公司 | 语音端点检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109616098B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109616098A (zh) | 基于频域能量的语音端点检测方法和装置 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
JP6099556B2 (ja) | 音声識別方法および装置 | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
US8131544B2 (en) | System for distinguishing desired audio signals from noise | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
US7856353B2 (en) | Method for processing speech signal data with reverberation filtering | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
CN105308679A (zh) | 用于识别与语音命令相关联的位置以控制家用电器的方法和系统 | |
WO2014114048A1 (zh) | 一种语音识别的方法、装置 | |
WO2021093380A1 (zh) | 一种噪声处理方法、装置、系统 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
Vyas | A Gaussian mixture model based speech recognition system using Matlab | |
CN110232933A (zh) | 音频检测方法、装置、存储介质及电子设备 | |
Özseven et al. | SPeech ACoustic (SPAC): A novel tool for speech feature extraction and classification | |
Astudillo et al. | An uncertainty propagation approach to robust ASR using the ETSI advanced front-end | |
CN109346062A (zh) | 语音端点检测方法及装置 | |
Pouplier et al. | Mixed modeling for irregularly sampled and correlated functional data: Speech science applications | |
Salekin et al. | Distant emotion recognition | |
Tsai et al. | Self-defined text-dependent wake-up-words speaker recognition system | |
Ganapathy et al. | Multi-layer perceptron based speech activity detection for speaker verification | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
Arslan et al. | Noise robust voice activity detection based on multi-layer feed-forward neural network | |
Milner et al. | Applying noise compensation methods to robustly predict acoustic speech features from MFCC vectors in noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201203 Address after: Room 206, 2 / F, building C, phase I, Zhongguancun Software Park, No. 8, Dongbei Wangxi Road, Haidian District, Beijing 100094 Applicant after: Canaan Bright Sight Co.,Ltd. Address before: 100094 Zhongguancun Software Park Phase I Building C Block 101, 8 Wangxi Road, Haidian District, Beijing Applicant before: Canaan Creative Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |