CN105706167A - 有语音的话音检测方法和装置 - Google Patents
有语音的话音检测方法和装置 Download PDFInfo
- Publication number
- CN105706167A CN105706167A CN201580002145.8A CN201580002145A CN105706167A CN 105706167 A CN105706167 A CN 105706167A CN 201580002145 A CN201580002145 A CN 201580002145A CN 105706167 A CN105706167 A CN 105706167A
- Authority
- CN
- China
- Prior art keywords
- peak
- voice
- speech
- acf
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001514 detection method Methods 0.000 title claims description 22
- 238000005311 autocorrelation function Methods 0.000 claims abstract description 87
- 230000005236 sound signal Effects 0.000 claims abstract description 41
- 230000000694 effects Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 210000000582 semen Anatomy 0.000 claims description 2
- 239000011295 pitch Substances 0.000 description 33
- 238000004458 analytical method Methods 0.000 description 10
- 238000005070 sampling Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Abstract
根据本发明的示例实施例,公开了一种用于检测音频信号中的有语音的话音的方法以及装置。所述方法包括:计算输入音频信号的一部分的自相关函数ACF,并检测确定范围内所述自相关函数的最高峰。确定所检测到的最高峰的峰宽和峰高;以及基于所述峰宽和所述峰高,判定输入音频信号的段是否包括有语音的话音。
Description
技术领域
本申请涉及用于检测音频信号中有语音的话音的方法和设备。
背景技术
语音活动性检测(VAD)被用于在话音处理中检测信号中人类话音的存在或缺失。在话音处理应用中,语音活动性检测由于通常可以丢弃非话音帧而发挥重要作用。在话音编解码器中,语音活动性检测被用于判定何时实际存在应当被编码并发送的话音,因此避免对静默或背景噪声帧的不必要的编码和发送。这被称作不连续传输(DTX)。作为另一示例,语音活动性检测可以被用作对其它音频处理算法的预处理步骤,以避免对不包含话音的数据运行更复杂的算法(例如,在话音识别中)。语音活动性检测还可以被用作自动电平控制/自动增益控制(ALC/AGC)的一部分,其中该算法需要知晓何时存在活动话音并可以测量活动话音电平。在视频会议混合器中,语音活动性检测可以被用作用于判定哪个与会人员是当前活跃的并应当在主视频窗口中显示的触发。
语音活动性检测通常基于检测组成口语的不同声音的技术的组合。话音包含调性的声音,称为有语音的,以及非调性的声音,称为非语音的。这些声音在性质及物理上产生它们的方式上均差异很大。因此,通常在VAD中使用用于检测这两者的不同方法。
为了检测有语音的话音,通常使用不同类型的音高检测技术。存在执行音高检测的各种方法,并且这些方法中的许多是基于自动校正功能(ACF)的:
其中s是输入信号,l是延迟的采样数,称为滞后(lag),并且(t:t+N-1)是时间t处的长度为N的分析窗,在该分析窗上评估自相关和。
ACF给出了所调查信号的周期行为的信息,其中强音高产生一系列峰。通常,最高峰是与有音高的声音的基频相对应的峰。图1示出了有语音的话音信号的ACF的典型示例。在这种情况下,ACF中最高峰的位置与基础周期相对应。x-轴示出了箱(bin)数。使用48kHz采样频率,每个箱与0.02ms相对应。
然而,存在ACF具有不与有音高的声音相对应的峰的情况。现有方法或者不够鲁棒并将关于非音高的声音错误触发,或者它们很复杂并且难于实现。
发明内容
本教导的目的在于:通过实现有语音的话音的鲁棒检测来解决或至少减轻上述问题的至少一个。
在权利要求中阐述了本发明示例的各个方面。
根据第一方面,提供了一种用于检测音频信号中的有语音的话音的方法。所述方法包括:计算输入音频信号的一部分的自相关函数ACF,并检测确定范围内所述自相关函数的最高峰。确定所述峰的峰宽和峰高;以及基于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
根据第二方面,提供了一种装置,其中所述装置包括:处理器和存储器,所述存储器存储指令,当由处理器执行时,所述指令使所述装置:计算输入音频信号的一部分的自相关函数ACF;检测确定范围内所述自相关函数的最高峰;确定所述峰的峰宽和峰高;以及基于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
根据第三方面,提供了一种计算机程序,包括计算机可读代码单元,当在装置上运行时,所述计算机可读代码单元使所述装置:计算输入音频信号的一部分的自相关函数ACF;检测确定范围内所述自相关函数的最高峰;确定所述峰的峰宽和峰高;以及基于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
根据第四方面,一种计算机程序产品,包括存储了根据上述第三方面的计算机程序的计算机可读介质。
根据第五方面,提供了一种用于检测音频信号中的有语音的话音的检测器。所述检测器包括:ACF计算模块,被配置为计算输入音频信号的一部分的ACF;峰检测模块,被配置为检测预定范围内ACF的最高峰;以及峰高和峰宽确定模块,被配置为确定所检测到的最高峰的峰宽和峰高。所述检测器还包括:判定模块,被配置为基于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
附图说明
为了更全面理解本发明的示例实施例,现在结合附图做出对于以下描述的参考,其中:
图1示出了话音信号ACF的典型示例。
图2a示出了键盘敲击的ACF的示例。
图2b示出了男性语音的有语音的部分的ACF的示例。
图3示出了基于峰高的有语音的话音检测的示例。
图4示出了ACF峰宽的示例。
图5是用于有语音的话音检测的方法的流程图。
图6示出了ACF峰宽的计算的示例。
图7是判定方法的流程图。
图8示出了基于峰高和峰宽的有语音的话音检测的示例。
图9a在二维空间中示出了判定函数的示例。
图9b在二维空间中示出了判定函数的另一示例。
图10示出了根据本发明实施例的装置的示例。
图11示出了根据本发明实施例的装置的另一示例。
具体实施方式
通过参考图1至11理解本发明的示例实施例和它的潜在优点。
在具体地应当检测话音的方法中,可以充分利用关于物理产生话音声音的方式的知识。话音由音素(phoneme)组成,音素由声带和声道产生(其包括嘴和嘴唇)。在有语音的话音中,声源是振动的声襞,其产生脉冲训练信号,然后脉冲训练信号通过声道的声学谐振滤波。即使在声道的滤波过程之后,声音信号可以被表征为具有来自声道的声学谐振的一些添加的衰减的一系列脉冲。该特征也在信号的ACF中反映为相对窄和尖锐的峰,并可以被用于区分有语音的话音与其他声音。
作为示例,如键盘打字、击掌等具有强冲击的特定声音,尽管它们未被感知为有音高的声音,但可以产生ACF中的峰,其看起来与来自有音高的声音相类似。然而,这些峰与有语音的话音的峰相比通常更宽并且较不尖锐。通过测量最突出峰的宽度,这些峰可以与那些代表有语音的话音的峰区分开。
图2a示出了键盘敲击的ACF的示例,并且图2b示出了男性语音的有语音的部分的ACF的示例。如可以从图2a中看出的,即使针对未被感知为有音高的声音,ACF可以示出高峰。
图3示出了基于峰高的有语音的话音检测的示例。在该示例中使用5秒的输入音频信号。信号的前一半包含两个谈话突发,一个女性和一个男性,并且信号的后一半包含键盘打字。第一图示出了输入信号的采样数据。第二图示出了针对每帧的归一化的ACF峰高,即帧中最高峰的高度;每帧包含5ms或以48kHz采样速率的输入信号的240个采样。第二图中的虚线示出了峰高阈值。当峰高超过阈值时,判定该帧包含有语音的话音。第三图示出了检测判定。也就是说,第三图中的值1指示该帧包含有语音的话音,而值0指示该帧不包含有语音的话音。从第二图中可以看出,ACF的最大值针对语音和键盘打字二者均具有高峰。因此,从第三图可以看出,存在许多关于键盘打字的声音的错误触发。
因此,仅基于峰高的检测方法针对有语音的话音的可靠检测不够鲁棒。
在有语音的话音信号中,可以期望ACF峰窄而尖,并且因此也有利于测量最突出的峰的宽。图4示出了其中使用针对图3中的示例中的相同输入信号的示例。第一图示出了输入信号的采样数据。第二图示出了针对每帧的归一化的ACF峰高。第三图示出了针对每帧的最高峰的峰宽。y-轴表示ACF的箱的数量。可以从第三图中看出,在谈话突发期间与在键盘打字期间相比峰宽更低。
通过评估ACF中的峰的高度和宽度二者,有语音的话音检测器可以避免关于不是有语音的话音但是仍在ACF中产生高峰的声音的错误触发。
本实施例介绍了有语音的话音检测方法500,其中首先计算输入信号一部分的ACF。然后检测计算的ACF的确定范围内的最高峰,并确定检测到的峰的峰宽和峰高。基于峰宽和峰高,判定输入音频信号的一段是否包括有语音的话音。
图5示出方法500。在第一步骤501中,计算输入信号的一部分的ACF。语音活动性检测通常通过处理来自例如话音编解码器的具有特定长度的帧在流音频上运行。然而,ACF的计算不依赖于接收每帧固定数量的采样,并且因此可以在帧长度变化或者针对每个采样完成了处理的情况下使用该方法。在其上计算ACF的分析窗口的长度可以是动态的,基于例如前一或预测的音高周期。因此,在当前方法中ACF的计算不限于要一次处理的输入信号的一部分的任意特定长度。
分析窗口长度N应当至少与应当可检测的最低频率的波长一样长。在有语音的话音的情况下,该长度应当与至少一个音高周期相对应。因此,对于ACF计算要求具有与分析窗口相同长度的过去采样的缓存器。可以用新的采样来更新缓存器,所述新的采样或者是逐采样接收的,或者是作为采样的帧(或段)接收的。长分析窗口导致更稳定的ACF,但还导致了临时的模糊效应。长分析窗口还具有对于该方法的整体复杂度的强作用。
在下一步骤503中,在确定范围内检测计算的ACF的最高峰。关注范围(即,确定范围)与音高范围(即,期望存在有语音的话音的音高的间隔)相对应。话音的基频可以从低音高的男性语音的40Hz变化至儿童或高音高的女性语音的600Hz,通常对于男性语音范围是85-155Hz,针对女性语音165-255Hz以及针对儿童的250-300Hz。关注范围因此可以被确定为在40Hz和600Hz之间,例如,85-300Hz,但是根据应用还可以使用任意其他子范围或整个40-600Hz范围。通过限制音高范围,由于不必针对全部箱计算ACF而减小了复杂度。
100-400Hz的示例范围与2.5-10ms的音高周期相对应。使用48kHz采样频率,该关注范围包括图2b中的ACF的箱125-500,其中关注示例范围由虚线标记。应当注意的是,与音高评估方法相反,不必找到正确峰(即,与有语音的话音的基频相对应的峰)。与二次谐频相对应的峰也可以被用于有语音的话音的检测中。
通过找到确定范围内ACF的最大值来检测最高峰。应当注意的是,因为如图2a中可以看出的ACF可以具有高负值,由ACF的最大正值来确定最高峰。
在步骤505中,当已经检测到了关注范围内的最高峰时,确定该峰的高度和宽度。峰高是峰的顶部的最大值,即,在步骤503中搜索以识别最高峰的ACF的最大值。在距离它的顶部特定距离处测量峰宽。
图6示出了在步骤505中确定ACF峰宽的示例。可以通过计算在AFC曲线降至特定跌落阈值以下之前从峰的中部往上的箱的数量,来确定峰宽。相应地,计算在AFC曲线降至所述跌落阈值以下以前从峰的中部往下的箱的数量。然后将这些数量相加,以指示峰宽。跌落阈值可以或者被定义为峰高的百分比,或定义为绝对值。使用归一化的ACF(即,范围-1…1中的值),已经发现等于0.2的跌落阈值给出良好的实验结果,但是该方法不限于所述值。
在步骤507中,基于最高峰的高度和宽度来判定输入音频段是否包括有语音的话音。结合图7进一步解释该判定步骤。
将检测到ACF的最高峰的高度与第一阈值thr1进行比较701。如果峰高不超过第一阈值,则信号段被判定为不包括有语音的话音。如果峰高超过第一阈值,则执行下一比较703。在703中,将最高峰的峰宽与第二阈值thr2进行比较。如果峰宽超过了第二阈值,则该峰与对于有语音的话音所预期的相比更宽,并且因此认为其不包含强音高。在这种情况下,信号段被判定为不包括有语音的话音。如果峰宽小于第二阈值,则峰足够窄以指示有语音的话音并且信号可能包含音高。在这种情况下,该信号被判定为包括有语音的话音。
如以上所解释的,如果峰高超过第一阈值并且峰宽小于第二阈值,则输入音频信号的段被判定为包括有语音的话音。如果峰高超过第一阈值并且峰宽超过第二阈值,则输入音频信号的段被判定为不包括有语音的话音。在一个实施例中,第二阈值被设置为恒定值。在另一实施例中,第二阈值根据先前检测到的音高来动态设置。在另一实施例中,第二阈值根据检测到的最高峰的音高来动态设置。
图8示出了基于峰高和峰宽二者的有语音的话音检测的示例。输入音频与图3和4中的示例相同。第一图示出了输入信号的采样数据。第二图示出了针对每帧的归一化的ACF峰高。第三图示出了针对每帧的最高峰的峰宽。第二和第三图中的虚线分别示出了峰高阈值thr1和峰宽阈值thr2。第四图示出了检测判定。可以从第二图中看出,ACF的最大值针对话音和键盘打字二者具有高峰,而可以从第三图中看出在谈话突发期间峰宽更低。如可以从第四图中看出,包含打字的信号段不被检测为有语音的话音。即,错误检测的数量远低于图3的示例中所示。在这种情况下,峰宽给出了比峰高更有用的信息。
峰高thr1和峰宽thr2的阈值可以是恒定的或动态的。在一个实施例中,可以根据是否针对先前的帧或段检测到音高来动态调整阈值。例如,如果判定先前的帧包括有语音的话音,则可以例如通过降低thr1和提高thr2来放宽阈值。原因在于,如果在前一帧中找到了音高,则很可能当前帧中也存在音高。通过使用动态的与音高相关的阈值,即使检测器部分地受到其他非音高的声音的干扰,检测器还是可以更好地跟踪音高轨迹。在一个实施例中,可以使峰宽阈值thr2依赖于评估的峰(当前ACF中的最高峰)的相应音高。即,阈值thr2可以适配于音高频率。检测到的音高的频率越低,则ACF中的峰越宽。在另一实施例中,宽度阈值可以被设置为小于前一或当前帧的音高周期的50%。
阈值的具体值可以随不同应用变化,但是实验已经显示在许多情况下峰高阈值thr1为0.6和峰宽阈值thr2为1.6ms(或使用48kHz采样频率的ACF中的77箱)工作良好。然而,本方法不受这些值限制。
来自其他算法的参数也可能动态影响阈值的选择。除了这些阈值,也可以动态改变分析窗口长度。原因可以是例如在谈话突发的开始和结尾处放大。
替代两个阈值,可以使用峰高和峰宽的更复杂的评估。可以在二维空间中一起评估峰高和峰宽二者,其中特定区域被认为指示有语音的话音。图9a和9b在二维空间中示出了判定函数的示例。图9a示出了上述两个阈值thr1和thr2的使用。图9b示出了判定如何基于峰高和峰宽二者的函数。
信号段是否包括有语音的话音的判定(即,块507的输出)可以是简单的二进制判定,1表示信号段包括有语音的话音,并且0表示信号段不包括有语音的话音,或反过来。然而,有语音的话音检测不必将有语音的话音的存在指示为二进制判定。有时,可以关注软判定,例如0.0与1.0之间的值,其中0.0指示完全不存在有语音的话音,并且1.0指示有语音的话音是主导声音。中间的值指示存在一些与其他声音层叠的有语音的话音。
针对其做出判定的输出信号段可以与在步骤501中针对其计算ACF的输入信号的部分相对应。例如,输入信号部分可以是话音帧(固定长度或动态长度),并在507中做出所述帧是否包括有语音的话音的判定。然而,可以以比帧短的段来分析输入信号。例如,话音帧可以被归类为两个或更多个段,以供分析。然后,针对其做出判定的输出信号段可以与作为帧的一部分的段相对应,即针对一帧存在多于一个判定值。帧是否包括有语音的话音的判定还可以是来自针对单独地分析的段判定的组合判定。在这种情况下,该判定可以是在0.0与1.0之间的值的软判定,或者如果帧中的大多数段包括有语音的话音,则可以判定该帧包括有语音的话音。当组合判定值时,还可以基于(例如)不同段在帧中的位置对不同段不同地加权。
应当注意的是,分析帧长度(即,针对其计算ACF的输入信号的部分的长度)在一些实施例中可以比输入帧长。即,不存在输入帧长度与划分的段的长度(输入信号的部分)的强耦合。
尽管该方法在检测有语音的话音方面更有效,但是该方法还将检测其他调性声音(例如,乐器),只要它们的基频在预定音高范围内。使用低音高的音调(低于50Hz),例如正弦波的峰宽将接近阈值,并因此未检测到。但是具有这种低基频的声音更多情况下被感知为隆隆声而不是音调。音乐信号作为输入的结果将关于材料的特性变化很大。针对具有独唱歌手或乐器的非常稀疏的布置,该方法将检测音高,而具有多于一个强音高(和弦)或其他非调性的乐器的更复杂的布置将被认为是背景噪声。
应当注意的是,本方法旨在用于检测有语音的话音,并区分有语音的话音与可被归类为背景噪声帧的、产生ACF高峰的其他声音(例如,打字、击掌、具有若干乐器的音乐等)。即,本方法如此对于还需要非语音的话音声音检测的VAD是不够的。
本方法在许多话音处理应用中可用并且有利。它可以在流传输音频的应用中使用,也可以用于对音频信号的离线处理,例如从文件中读取并处理所存储的音频信号。
在话音编码应用中,它可以被用于补充传统VAD,以使得有语音的话音检测更鲁棒。许多话音编解码器受益于有效的语音活动性检测,因为仅需要对活动话音进行编码和传输。使用当前方法,例如打字或击掌声音不会被错误地归类为有语音的话音,并作为活动话音来编码和发送。由于不需要发送背景噪声和其他非话音声音,或可以用更低的帧速率来发送,节省了传输带宽以及用户设备(例如,移动电话)的功耗。
如在话音编解码器中一样,在话音识别应用中避免将非话音声音错误地归类为有语音的话音是有益的。本方法使得丢弃信号的非关注部分(即,不包含话音的段)更有效。识别算法不需要由于尝试从应当被归类为背景噪声的声音段中识别出语音的而浪费资源。
许多现有的视频会议应用被设计为关注活动发言人,例如仅显示来自活动发言人的视频或在以比其他与会人员更大的窗口显示活动发言人。活动发言人的选择基于VAD等。考虑没有人发言但是一个参会者正在敲打键盘的情况,很可能传统方法将打字类型解释为活动话音并因此聚焦于打字参会者。本方法可以被用于避免这类在视频会议中的错误判定。
在自动电平控制(ALC/AGC)中,重要的是:仅测量话音电平,而不同时测量背景噪声电平。本方法可以因此增强ALC/AGC。
图10示出了执行如5和7中说明的方法500的装置1000的示例。装置包括输入1001和输出1003,输入1001用于接收音频信号的一部分,并且输出1003用于输出输入音频信号段是否包括有语音的话音的判定。装置1000还包括处理器1005(例如,中央处理单元(CPU)),以及具有用于存储指令(例如计算机程序产品1009)的存储器形式的计算机程序产品1007,当从存储器获取并由处理器1005执行时,指令使得装置1000执行与本有语音的话音检测的实施例关联的过程。存储器1007可以进一步包括过去输入信号采样的缓存器,或装置1000可以包括用于存储过去采样的另一存储器(未示出)。处理器1005与输入节点1001、与输出节点1003以及与存储器1007通信耦合。
在一个实施例中,存储器1007存储指令1009,当由处理器1005执行时,指令1009使装置1000:计算输入音频信号的一部分的自相关函数ACF;检测确定范围内所述自相关函数的最高峰;以及确定所述峰的峰宽和峰高。还使装置1000:基于所述峰宽和所述峰高,判定输入音频信号的段是否包括有语音的话音。所述判定包括:如果所述峰高超过第一阈值并且峰宽小于第二阈值,则判定输入音频信号的段包括有语音的话音,或如果所述峰高超过第一阈值并且峰宽超过第二阈值,则判定输入音频信号的段不包括有语音的话音。峰宽的确定包括:计算在ACF曲线降至跌落阈值以下之前从峰的中部往上的箱的数量;计算在ACF曲线降至跌落阈值以下之前从峰的中部往下的箱的数量;并将所计算的箱的数量相加以指示所述峰宽。
通过示例的方式,软件或计算机程序1009可以被实现为计算机程序产品,其一般承载于或存储在计算机可读介质上,优选地在非易失性计算机可读存储介质上。计算机可读介质可包括一个或多个可移除或不可移除的存储设备,包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、紧致盘(CD)、数字多用途盘(DVD)、通用串行总线存储器(USB)、硬盘驱动(HDD)存储设备、闪存、磁带或任意其他常规存储设备。
装置1000可以包括在以下项中或与以下项相关联:服务器、客户端、网络节点、云实体或用户设备(例如移动设备、智能电话、笔记本计算机和平板计算机)。装置1000可以包括在话音编解码器、视频会议系统、话音识别器、嵌入或可附接于车辆(例如小汽车、卡车、公共汽车、船、火车和飞机)的单元中。装置1000可以包括在语音活动性检测器中,或者可以是语音活动性检测器的一部分。
图11是被配置为检测音频信号中的有语音的话音的检测器1100的功能框图。检测器1100包括:ACF计算模块1102,被配置为计算输入音频信号的一部分的自相关函数ACF。检测器1100还包括:峰检测模块1104,被配置为检测预定范围内ACF的最高峰;以及峰高和峰宽确定模块1106,被配置为确定检测到的最高峰的峰宽和峰高。检测器1100还包括:判定模块1108,被配置为基于峰宽和峰高,判定输入音频信号的段是否包括有语音的话音。
应当注意的是,可以将全部模块1102至1108实现为装置内的一个单元,或被实现为分离的单元,或它们中的一些可以进行组合以形成一个单元,而它们中的一些可以被实现为分离的单元。具体地,全部上述单元可以包括在一个芯片集中,或者它们的一些或全部可以包括在不同的芯片集中。在一些实施方式中,上述模块可以被实现为计算机程序产品,例如用存储器的形式或作为可以从装置的存储器执行的一个或更多个计算机程序。
本发明的实施例可以用软件、硬件逻辑或软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在存储器、微处理器或中央处理单元上。如果需要,软件、应用逻辑和/或硬件的部分可以驻留在主机设备上,或在主机的存储器、微处理器或中央处理单元上。在示例实施例中,可以在多个传统计算机可读介质的任意一个上保持应用逻辑、软件或指令集。
在不以任意方式限制以下所附权利要求的范围、解释或应用的条件下,本文描述的一个或更多个示例实施例的技术效果在于可以在音频中有效地检测有语音的话音段。附加的技术效果是,通过评估ACF中的高度和宽度二者,语音的话音检测器可以避免关于不是有语音的话音但是仍在AFC产生高峰的声音的错误触发。
尽管在独立权利要求中阐述了本发明的各方面,本发明的其他方面包括来自所描述的实施例和/或具有独立权利要求的特征的从属权利要求的特征的其他组合,并且不仅仅是在权利要求中明确设置的组合。
本文中还注意的是,尽管本发明的上述示例实施例,这些说明不应当被视为限制性意义。而是,可以不偏离所附权利要求所定义的本发明的范围,做出若干改变和修改。
Claims (17)
1.一种用于检测音频信号中的有语音的话音的方法(500),所述方法包括:
-计算(501)输入音频信号的一部分的自相关函数ACF;
-检测(503)确定范围内所述自相关函数的最高峰;
-确定(505)所述峰的峰宽和峰高;以及
-基于所述峰宽和所述峰高,判定(507)输入音频信号的段是否包括有语音的话音。
2.根据权利要求1所述的方法,其中,所述确定范围与音高范围相对应。
3.根据权利要求1或2所述的方法,其中,如果所述峰高超过第一阈值并且峰宽小于第二阈值,则判定输入音频信号的段包括有语音的话音。
4.根据权利要求1或2所述的方法,其中,如果所述峰高超过第一阈值并且所述峰宽超过第二阈值,则判定输入音频信号的段不包括有语音的话音。
5.根据权利要求3或4的方法,其中,所述第二阈值被设置为恒定值。
6.根据权利要求3或4的方法,其中,根据先前检测到的音高来动态设置所述第二阈值。
7.根据权利要求3或4的方法,其中,根据所述检测到的最高峰的音高来动态设置所述第二阈值。
8.根据前述任一项权利要求所述的方法,其中,通过以下操作来确定所述峰宽:计算在ACF曲线降至跌落阈值以下之前从峰的中部往上的箱的数量;计算在ACF曲线降至跌落阈值以下之前从峰的中部往下的箱的数量;并将所计算的箱的数量相加以指示所述峰宽。
9.一种装置(1000),包括:
处理器(1005),以及
存储器(1007),存储指令(1009),当由处理器(1005)执行时,所述指令(1009)使所述装置:
-计算输入音频信号的一部分的自相关函数ACF;
-检测确定范围内所述自相关函数的最高峰;
-确定所述峰的峰宽和峰高;以及
-基于所述峰宽和所述峰高,判定输入音频信号的段是否包括有语音的话音。
10.根据权利要求9所述的装置,其中,所述判定还包括:如果所述峰高超过第一阈值并且峰宽小于第二阈值,则判定输入音频信号的段包括有语音的话音。
11.根据权利要求9所述的装置,其中,所述判定还包括:如果所述峰高超过第一阈值并且峰宽超过第二阈值,则判定输入音频信号的段不包括有语音的话音。
12.根据权利要求9至11中任一项所述的装置,其中,峰宽的确定还包括:计算在ACF曲线降至跌落阈值以下之前从峰的中部往上的箱的数量;计算在ACF曲线降至跌落阈值以下之前从峰的中部往下的箱的数量;并将所计算的箱的数量相加以指示所述峰宽。
13.根据权利要求9至12中任一项所述的装置,其中,所述装置包括在以下项中:服务器、客户端、网络节点、云实体或用户设备。
14.根据权利要求9至12中任一项所述的装置,其中,所述装置包括在语音活动性检测器中。
15.一种包括计算机可读代码单元的计算机程序(1009),当所述计算机可读代码单元在装置上运行时,使所述装置执行根据权利要求1至9中任一项所述的方法。
16.一种计算机程序产品(1007),包括计算机可读介质和在所述计算机可读介质上存储的根据权利要求15所述的计算机程序(1009)。
17.一种用于检测音频信号中的有语音的话音的检测器(1100),所述检测器包括:
-ACF计算模块(1102),被配置为计算输入音频信号的一部分的ACF;
-峰检测模块(1104),被配置为检测预定范围内ACF的最高峰;
-峰高和峰宽确定模块(1106),被配置为确定所检测到的最高峰的峰宽和峰高;以及
-判定模块(1108),被配置为基于所述峰宽和所述峰高,判定输入音频信号的段是否包括有语音的话音。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2015/077082 WO2016046421A1 (en) | 2015-11-19 | 2015-11-19 | Method and apparatus for voiced speech detection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105706167A true CN105706167A (zh) | 2016-06-22 |
CN105706167B CN105706167B (zh) | 2017-05-31 |
Family
ID=54697562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580002145.8A Expired - Fee Related CN105706167B (zh) | 2015-11-19 | 2015-11-19 | 有语音的话音检测方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10825472B2 (zh) |
EP (2) | EP3039678B1 (zh) |
CN (1) | CN105706167B (zh) |
WO (1) | WO2016046421A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358963A (zh) * | 2017-07-14 | 2017-11-17 | 中航华东光电(上海)有限公司 | 一种实时去呼吸声装置及方法 |
CN107393558A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
CN109785866A (zh) * | 2019-03-07 | 2019-05-21 | 上海电力学院 | 基于相关函数最大值的广播语音与噪声检测的方法 |
CN112885380A (zh) * | 2021-01-26 | 2021-06-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种清浊音检测方法、装置、设备及介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110931048B (zh) * | 2019-12-12 | 2024-04-02 | 广州酷狗计算机科技有限公司 | 语音端点检测方法、装置、计算机设备及存储介质 |
FI20206336A1 (en) | 2020-12-18 | 2022-06-19 | Elisa Oyj | A computer-implemented method and device for detecting silence in speech recognition |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1143414A1 (en) * | 2000-04-06 | 2001-10-10 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Estimating the pitch of a speech signal using previous estimates |
CN1422382A (zh) * | 2000-04-06 | 2003-06-04 | 艾利森电话股份有限公司 | 利用二进制信号估计语音信号的音调 |
EP1335350A2 (en) * | 2002-02-06 | 2003-08-13 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using interpolation techniques |
CN101199002A (zh) * | 2005-06-09 | 2008-06-11 | A.G.I.株式会社 | 检测音调频率的语音分析器、语音分析方法以及语音分析程序 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5152007A (en) * | 1991-04-23 | 1992-09-29 | Motorola, Inc. | Method and apparatus for detecting speech |
JP3391644B2 (ja) * | 1996-12-19 | 2003-03-31 | 住友化学工業株式会社 | ハイドロパーオキシドの抽出方法 |
JP3700890B2 (ja) * | 1997-07-09 | 2005-09-28 | ソニー株式会社 | 信号識別装置及び信号識別方法 |
US6691092B1 (en) * | 1999-04-05 | 2004-02-10 | Hughes Electronics Corporation | Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
US7337108B2 (en) | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
SG120121A1 (en) | 2003-09-26 | 2006-03-28 | St Microelectronics Asia | Pitch detection of speech signals |
WO2008114432A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | データ埋め込み装置、データ抽出装置、及び音声通信システム |
KR100930584B1 (ko) | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
US8666734B2 (en) | 2009-09-23 | 2014-03-04 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking using a multidimensional function and strength values |
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
WO2013164029A1 (en) | 2012-05-03 | 2013-11-07 | Telefonaktiebolaget L M Ericsson (Publ) | Detecting wind noise in an audio signal |
US9514738B2 (en) * | 2012-11-13 | 2016-12-06 | Yoichi Ando | Method and device for recognizing speech |
JP2014122939A (ja) * | 2012-12-20 | 2014-07-03 | Sony Corp | 音声処理装置および方法、並びにプログラム |
JP6277739B2 (ja) * | 2014-01-28 | 2018-02-14 | 富士通株式会社 | 通信装置 |
US9621713B1 (en) * | 2014-04-01 | 2017-04-11 | Securus Technologies, Inc. | Identical conversation detection method and apparatus |
-
2015
- 2015-11-19 EP EP15798398.2A patent/EP3039678B1/en active Active
- 2015-11-19 CN CN201580002145.8A patent/CN105706167B/zh not_active Expired - Fee Related
- 2015-11-19 WO PCT/EP2015/077082 patent/WO2016046421A1/en active Application Filing
- 2015-11-19 EP EP17202997.7A patent/EP3309785A1/en not_active Withdrawn
-
2018
- 2018-05-10 US US15/976,444 patent/US10825472B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1143414A1 (en) * | 2000-04-06 | 2001-10-10 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Estimating the pitch of a speech signal using previous estimates |
CN1422382A (zh) * | 2000-04-06 | 2003-06-04 | 艾利森电话股份有限公司 | 利用二进制信号估计语音信号的音调 |
EP1335350A2 (en) * | 2002-02-06 | 2003-08-13 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using interpolation techniques |
CN101199002A (zh) * | 2005-06-09 | 2008-06-11 | A.G.I.株式会社 | 检测音调频率的语音分析器、语音分析方法以及语音分析程序 |
Non-Patent Citations (1)
Title |
---|
韩纪庆等: "《语音信号处理》", 30 September 2004 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358963A (zh) * | 2017-07-14 | 2017-11-17 | 中航华东光电(上海)有限公司 | 一种实时去呼吸声装置及方法 |
CN107393558A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
CN107393558B (zh) * | 2017-07-14 | 2020-09-11 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
CN109785866A (zh) * | 2019-03-07 | 2019-05-21 | 上海电力学院 | 基于相关函数最大值的广播语音与噪声检测的方法 |
CN112885380A (zh) * | 2021-01-26 | 2021-06-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种清浊音检测方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3039678A1 (en) | 2016-07-06 |
WO2016046421A1 (en) | 2016-03-31 |
US20180261239A1 (en) | 2018-09-13 |
US10825472B2 (en) | 2020-11-03 |
EP3039678B1 (en) | 2018-01-10 |
EP3309785A1 (en) | 2018-04-18 |
CN105706167B (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105706167A (zh) | 有语音的话音检测方法和装置 | |
RU2507609C2 (ru) | Способ и дискриминатор для классификации различных сегментов сигнала | |
JP6185457B2 (ja) | 効率的なコンテンツ分類及びラウドネス推定 | |
Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
JP4882899B2 (ja) | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム | |
Didiot et al. | A wavelet-based parameterization for speech/music discrimination | |
JP2008508564A (ja) | スピーチエンドポインタ | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
Arons | Interactively skimming recorded speech | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
Radmard et al. | A new method of voiced/unvoiced classification based on clustering | |
JP2001236085A (ja) | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 | |
US20150255087A1 (en) | Voice processing device, voice processing method, and computer-readable recording medium storing voice processing program | |
US8725508B2 (en) | Method and apparatus for element identification in a signal | |
JP2012032557A (ja) | 音声に含まれる吸気音を検出する装置、方法、及びプログラム | |
EP2328143B1 (en) | Human voice distinguishing method and device | |
Bäckström et al. | Voice activity detection | |
US20180082703A1 (en) | Suitability score based on attribute scores | |
Yarra et al. | Noise robust speech rate estimation using signal-to-noise ratio dependent sub-band selection and peak detection strategy | |
Faycal et al. | Comparative performance study of several features for voiced/non-voiced classification | |
Heldner et al. | Pitch slope and end point as turn-taking cues in Swedish | |
Ferro et al. | Using Deep Neural Networks for Smoothing Pitch Profiles in Connected Speech | |
Uzun et al. | A preliminary examination technique for audio evidence to distinguish speech from non-speech using objective speech quality measures | |
JP2006010739A (ja) | 音声認識装置 | |
JP2007516450A (ja) | デジタル音声信号におけるクリッキングノイズ検出 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170531 |