CN105706167A

CN105706167A - 有语音的话音检测方法和装置

Info

Publication number: CN105706167A
Application number: CN201580002145.8A
Authority: CN
Inventors: 汤米·福克; 厄兰多·卡尔森; 哈拉尔德·波布洛斯
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2016-06-22
Anticipated expiration: 2035-11-19
Also published as: EP3039678A1; WO2016046421A1; US20180261239A1; US10825472B2; EP3039678B1; EP3309785A1; CN105706167B

Abstract

根据本发明的示例实施例，公开了一种用于检测音频信号中的有语音的话音的方法以及装置。所述方法包括：计算输入音频信号的一部分的自相关函数ACF，并检测确定范围内所述自相关函数的最高峰。确定所检测到的最高峰的峰宽和峰高；以及基于所述峰宽和所述峰高，判定输入音频信号的段是否包括有语音的话音。

Description

有语音的话音检测方法和装置

技术领域

本申请涉及用于检测音频信号中有语音的话音的方法和设备。

背景技术

语音活动性检测(VAD)被用于在话音处理中检测信号中人类话音的存在或缺失。在话音处理应用中，语音活动性检测由于通常可以丢弃非话音帧而发挥重要作用。在话音编解码器中，语音活动性检测被用于判定何时实际存在应当被编码并发送的话音，因此避免对静默或背景噪声帧的不必要的编码和发送。这被称作不连续传输(DTX)。作为另一示例，语音活动性检测可以被用作对其它音频处理算法的预处理步骤，以避免对不包含话音的数据运行更复杂的算法(例如，在话音识别中)。语音活动性检测还可以被用作自动电平控制/自动增益控制(ALC/AGC)的一部分，其中该算法需要知晓何时存在活动话音并可以测量活动话音电平。在视频会议混合器中，语音活动性检测可以被用作用于判定哪个与会人员是当前活跃的并应当在主视频窗口中显示的触发。

语音活动性检测通常基于检测组成口语的不同声音的技术的组合。话音包含调性的声音，称为有语音的，以及非调性的声音，称为非语音的。这些声音在性质及物理上产生它们的方式上均差异很大。因此，通常在VAD中使用用于检测这两者的不同方法。

为了检测有语音的话音，通常使用不同类型的音高检测技术。存在执行音高检测的各种方法，并且这些方法中的许多是基于自动校正功能(ACF)的：

{ACF}_{S S} (t, l) = Σ_{n = 0}^{N - 1} s (t + n) \overset{&OverBar;}{s} (t + n - l),

其中s是输入信号，l是延迟的采样数，称为滞后(lag)，并且(t：t+N-1)是时间t处的长度为N的分析窗，在该分析窗上评估自相关和。

ACF给出了所调查信号的周期行为的信息，其中强音高产生一系列峰。通常，最高峰是与有音高的声音的基频相对应的峰。图1示出了有语音的话音信号的ACF的典型示例。在这种情况下，ACF中最高峰的位置与基础周期相对应。x-轴示出了箱(bin)数。使用48kHz采样频率，每个箱与0.02ms相对应。

然而，存在ACF具有不与有音高的声音相对应的峰的情况。现有方法或者不够鲁棒并将关于非音高的声音错误触发，或者它们很复杂并且难于实现。

发明内容

本教导的目的在于：通过实现有语音的话音的鲁棒检测来解决或至少减轻上述问题的至少一个。

在权利要求中阐述了本发明示例的各个方面。

根据第一方面，提供了一种用于检测音频信号中的有语音的话音的方法。所述方法包括：计算输入音频信号的一部分的自相关函数ACF，并检测确定范围内所述自相关函数的最高峰。确定所述峰的峰宽和峰高；以及基于所述峰宽和所述峰高，判定输入音频信号的一段是否包括有语音的话音。

根据第二方面，提供了一种装置，其中所述装置包括：处理器和存储器，所述存储器存储指令，当由处理器执行时，所述指令使所述装置：计算输入音频信号的一部分的自相关函数ACF；检测确定范围内所述自相关函数的最高峰；确定所述峰的峰宽和峰高；以及基于所述峰宽和所述峰高，判定输入音频信号的一段是否包括有语音的话音。

根据第三方面，提供了一种计算机程序，包括计算机可读代码单元，当在装置上运行时，所述计算机可读代码单元使所述装置：计算输入音频信号的一部分的自相关函数ACF；检测确定范围内所述自相关函数的最高峰；确定所述峰的峰宽和峰高；以及基于所述峰宽和所述峰高，判定输入音频信号的一段是否包括有语音的话音。

根据第四方面，一种计算机程序产品，包括存储了根据上述第三方面的计算机程序的计算机可读介质。

根据第五方面，提供了一种用于检测音频信号中的有语音的话音的检测器。所述检测器包括：ACF计算模块，被配置为计算输入音频信号的一部分的ACF；峰检测模块，被配置为检测预定范围内ACF的最高峰；以及峰高和峰宽确定模块，被配置为确定所检测到的最高峰的峰宽和峰高。所述检测器还包括：判定模块，被配置为基于所述峰宽和所述峰高，判定输入音频信号的一段是否包括有语音的话音。

附图说明

为了更全面理解本发明的示例实施例，现在结合附图做出对于以下描述的参考，其中：

图1示出了话音信号ACF的典型示例。

图2a示出了键盘敲击的ACF的示例。

图2b示出了男性语音的有语音的部分的ACF的示例。

图3示出了基于峰高的有语音的话音检测的示例。

图4示出了ACF峰宽的示例。

图5是用于有语音的话音检测的方法的流程图。

图6示出了ACF峰宽的计算的示例。

图7是判定方法的流程图。

图8示出了基于峰高和峰宽的有语音的话音检测的示例。

图9a在二维空间中示出了判定函数的示例。

图9b在二维空间中示出了判定函数的另一示例。

图10示出了根据本发明实施例的装置的示例。

图11示出了根据本发明实施例的装置的另一示例。

具体实施方式

通过参考图1至11理解本发明的示例实施例和它的潜在优点。

在具体地应当检测话音的方法中，可以充分利用关于物理产生话音声音的方式的知识。话音由音素(phoneme)组成，音素由声带和声道产生(其包括嘴和嘴唇)。在有语音的话音中，声源是振动的声襞，其产生脉冲训练信号，然后脉冲训练信号通过声道的声学谐振滤波。即使在声道的滤波过程之后，声音信号可以被表征为具有来自声道的声学谐振的一些添加的衰减的一系列脉冲。该特征也在信号的ACF中反映为相对窄和尖锐的峰，并可以被用于区分有语音的话音与其他声音。

作为示例，如键盘打字、击掌等具有强冲击的特定声音，尽管它们未被感知为有音高的声音，但可以产生ACF中的峰，其看起来与来自有音高的声音相类似。然而，这些峰与有语音的话音的峰相比通常更宽并且较不尖锐。通过测量最突出峰的宽度，这些峰可以与那些代表有语音的话音的峰区分开。

图2a示出了键盘敲击的ACF的示例，并且图2b示出了男性语音的有语音的部分的ACF的示例。如可以从图2a中看出的，即使针对未被感知为有音高的声音，ACF可以示出高峰。

图3示出了基于峰高的有语音的话音检测的示例。在该示例中使用5秒的输入音频信号。信号的前一半包含两个谈话突发，一个女性和一个男性，并且信号的后一半包含键盘打字。第一图示出了输入信号的采样数据。第二图示出了针对每帧的归一化的ACF峰高，即帧中最高峰的高度；每帧包含5ms或以48kHz采样速率的输入信号的240个采样。第二图中的虚线示出了峰高阈值。当峰高超过阈值时，判定该帧包含有语音的话音。第三图示出了检测判定。也就是说，第三图中的值1指示该帧包含有语音的话音，而值0指示该帧不包含有语音的话音。从第二图中可以看出，ACF的最大值针对语音和键盘打字二者均具有高峰。因此，从第三图可以看出，存在许多关于键盘打字的声音的错误触发。

因此，仅基于峰高的检测方法针对有语音的话音的可靠检测不够鲁棒。

在有语音的话音信号中，可以期望ACF峰窄而尖，并且因此也有利于测量最突出的峰的宽。图4示出了其中使用针对图3中的示例中的相同输入信号的示例。第一图示出了输入信号的采样数据。第二图示出了针对每帧的归一化的ACF峰高。第三图示出了针对每帧的最高峰的峰宽。y-轴表示ACF的箱的数量。可以从第三图中看出，在谈话突发期间与在键盘打字期间相比峰宽更低。

通过评估ACF中的峰的高度和宽度二者，有语音的话音检测器可以避免关于不是有语音的话音但是仍在ACF中产生高峰的声音的错误触发。

本实施例介绍了有语音的话音检测方法500，其中首先计算输入信号一部分的ACF。然后检测计算的ACF的确定范围内的最高峰，并确定检测到的峰的峰宽和峰高。基于峰宽和峰高，判定输入音频信号的一段是否包括有语音的话音。

图5示出方法500。在第一步骤501中，计算输入信号的一部分的ACF。语音活动性检测通常通过处理来自例如话音编解码器的具有特定长度的帧在流音频上运行。然而，ACF的计算不依赖于接收每帧固定数量的采样，并且因此可以在帧长度变化或者针对每个采样完成了处理的情况下使用该方法。在其上计算ACF的分析窗口的长度可以是动态的，基于例如前一或预测的音高周期。因此，在当前方法中ACF的计算不限于要一次处理的输入信号的一部分的任意特定长度。

分析窗口长度N应当至少与应当可检测的最低频率的波长一样长。在有语音的话音的情况下，该长度应当与至少一个音高周期相对应。因此，对于ACF计算要求具有与分析窗口相同长度的过去采样的缓存器。可以用新的采样来更新缓存器，所述新的采样或者是逐采样接收的，或者是作为采样的帧(或段)接收的。长分析窗口导致更稳定的ACF，但还导致了临时的模糊效应。长分析窗口还具有对于该方法的整体复杂度的强作用。

在下一步骤503中，在确定范围内检测计算的ACF的最高峰。关注范围(即，确定范围)与音高范围(即，期望存在有语音的话音的音高的间隔)相对应。话音的基频可以从低音高的男性语音的40Hz变化至儿童或高音高的女性语音的600Hz，通常对于男性语音范围是85-155Hz，针对女性语音165-255Hz以及针对儿童的250-300Hz。关注范围因此可以被确定为在40Hz和600Hz之间，例如，85-300Hz，但是根据应用还可以使用任意其他子范围或整个40-600Hz范围。通过限制音高范围，由于不必针对全部箱计算ACF而减小了复杂度。

100-400Hz的示例范围与2.5-10ms的音高周期相对应。使用48kHz采样频率，该关注范围包括图2b中的ACF的箱125-500，其中关注示例范围由虚线标记。应当注意的是，与音高评估方法相反，不必找到正确峰(即，与有语音的话音的基频相对应的峰)。与二次谐频相对应的峰也可以被用于有语音的话音的检测中。

通过找到确定范围内ACF的最大值来检测最高峰。应当注意的是，因为如图2a中可以看出的ACF可以具有高负值，由ACF的最大正值来确定最高峰。

在步骤505中，当已经检测到了关注范围内的最高峰时，确定该峰的高度和宽度。峰高是峰的顶部的最大值，即，在步骤503中搜索以识别最高峰的ACF的最大值。在距离它的顶部特定距离处测量峰宽。

图6示出了在步骤505中确定ACF峰宽的示例。可以通过计算在AFC曲线降至特定跌落阈值以下之前从峰的中部往上的箱的数量，来确定峰宽。相应地，计算在AFC曲线降至所述跌落阈值以下以前从峰的中部往下的箱的数量。然后将这些数量相加，以指示峰宽。跌落阈值可以或者被定义为峰高的百分比，或定义为绝对值。使用归一化的ACF(即，范围-1…1中的值)，已经发现等于0.2的跌落阈值给出良好的实验结果，但是该方法不限于所述值。

在步骤507中，基于最高峰的高度和宽度来判定输入音频段是否包括有语音的话音。结合图7进一步解释该判定步骤。

将检测到ACF的最高峰的高度与第一阈值thr₁进行比较701。如果峰高不超过第一阈值，则信号段被判定为不包括有语音的话音。如果峰高超过第一阈值，则执行下一比较703。在703中，将最高峰的峰宽与第二阈值thr₂进行比较。如果峰宽超过了第二阈值，则该峰与对于有语音的话音所预期的相比更宽，并且因此认为其不包含强音高。在这种情况下，信号段被判定为不包括有语音的话音。如果峰宽小于第二阈值，则峰足够窄以指示有语音的话音并且信号可能包含音高。在这种情况下，该信号被判定为包括有语音的话音。

如以上所解释的，如果峰高超过第一阈值并且峰宽小于第二阈值，则输入音频信号的段被判定为包括有语音的话音。如果峰高超过第一阈值并且峰宽超过第二阈值，则输入音频信号的段被判定为不包括有语音的话音。在一个实施例中，第二阈值被设置为恒定值。在另一实施例中，第二阈值根据先前检测到的音高来动态设置。在另一实施例中，第二阈值根据检测到的最高峰的音高来动态设置。

图8示出了基于峰高和峰宽二者的有语音的话音检测的示例。输入音频与图3和4中的示例相同。第一图示出了输入信号的采样数据。第二图示出了针对每帧的归一化的ACF峰高。第三图示出了针对每帧的最高峰的峰宽。第二和第三图中的虚线分别示出了峰高阈值thr₁和峰宽阈值thr₂。第四图示出了检测判定。可以从第二图中看出，ACF的最大值针对话音和键盘打字二者具有高峰，而可以从第三图中看出在谈话突发期间峰宽更低。如可以从第四图中看出，包含打字的信号段不被检测为有语音的话音。即，错误检测的数量远低于图3的示例中所示。在这种情况下，峰宽给出了比峰高更有用的信息。

峰高thr₁和峰宽thr₂的阈值可以是恒定的或动态的。在一个实施例中，可以根据是否针对先前的帧或段检测到音高来动态调整阈值。例如，如果判定先前的帧包括有语音的话音，则可以例如通过降低thr₁和提高thr₂来放宽阈值。原因在于，如果在前一帧中找到了音高，则很可能当前帧中也存在音高。通过使用动态的与音高相关的阈值，即使检测器部分地受到其他非音高的声音的干扰，检测器还是可以更好地跟踪音高轨迹。在一个实施例中，可以使峰宽阈值thr₂依赖于评估的峰(当前ACF中的最高峰)的相应音高。即，阈值thr₂可以适配于音高频率。检测到的音高的频率越低，则ACF中的峰越宽。在另一实施例中，宽度阈值可以被设置为小于前一或当前帧的音高周期的50％。

阈值的具体值可以随不同应用变化，但是实验已经显示在许多情况下峰高阈值thr₁为0.6和峰宽阈值thr₂为1.6ms(或使用48kHz采样频率的ACF中的77箱)工作良好。然而，本方法不受这些值限制。

来自其他算法的参数也可能动态影响阈值的选择。除了这些阈值，也可以动态改变分析窗口长度。原因可以是例如在谈话突发的开始和结尾处放大。

替代两个阈值，可以使用峰高和峰宽的更复杂的评估。可以在二维空间中一起评估峰高和峰宽二者，其中特定区域被认为指示有语音的话音。图9a和9b在二维空间中示出了判定函数的示例。图9a示出了上述两个阈值thr1和thr2的使用。图9b示出了判定如何基于峰高和峰宽二者的函数。

信号段是否包括有语音的话音的判定(即，块507的输出)可以是简单的二进制判定，1表示信号段包括有语音的话音，并且0表示信号段不包括有语音的话音，或反过来。然而，有语音的话音检测不必将有语音的话音的存在指示为二进制判定。有时，可以关注软判定，例如0.0与1.0之间的值，其中0.0指示完全不存在有语音的话音，并且1.0指示有语音的话音是主导声音。中间的值指示存在一些与其他声音层叠的有语音的话音。

针对其做出判定的输出信号段可以与在步骤501中针对其计算ACF的输入信号的部分相对应。例如，输入信号部分可以是话音帧(固定长度或动态长度)，并在507中做出所述帧是否包括有语音的话音的判定。然而，可以以比帧短的段来分析输入信号。例如，话音帧可以被归类为两个或更多个段，以供分析。然后，针对其做出判定的输出信号段可以与作为帧的一部分的段相对应，即针对一帧存在多于一个判定值。帧是否包括有语音的话音的判定还可以是来自针对单独地分析的段判定的组合判定。在这种情况下，该判定可以是在0.0与1.0之间的值的软判定，或者如果帧中的大多数段包括有语音的话音，则可以判定该帧包括有语音的话音。当组合判定值时，还可以基于(例如)不同段在帧中的位置对不同段不同地加权。

应当注意的是，分析帧长度(即，针对其计算ACF的输入信号的部分的长度)在一些实施例中可以比输入帧长。即，不存在输入帧长度与划分的段的长度(输入信号的部分)的强耦合。

尽管该方法在检测有语音的话音方面更有效，但是该方法还将检测其他调性声音(例如，乐器)，只要它们的基频在预定音高范围内。使用低音高的音调(低于50Hz)，例如正弦波的峰宽将接近阈值，并因此未检测到。但是具有这种低基频的声音更多情况下被感知为隆隆声而不是音调。音乐信号作为输入的结果将关于材料的特性变化很大。针对具有独唱歌手或乐器的非常稀疏的布置，该方法将检测音高，而具有多于一个强音高(和弦)或其他非调性的乐器的更复杂的布置将被认为是背景噪声。

应当注意的是，本方法旨在用于检测有语音的话音，并区分有语音的话音与可被归类为背景噪声帧的、产生ACF高峰的其他声音(例如，打字、击掌、具有若干乐器的音乐等)。即，本方法如此对于还需要非语音的话音声音检测的VAD是不够的。

本方法在许多话音处理应用中可用并且有利。它可以在流传输音频的应用中使用，也可以用于对音频信号的离线处理，例如从文件中读取并处理所存储的音频信号。

在话音编码应用中，它可以被用于补充传统VAD，以使得有语音的话音检测更鲁棒。许多话音编解码器受益于有效的语音活动性检测，因为仅需要对活动话音进行编码和传输。使用当前方法，例如打字或击掌声音不会被错误地归类为有语音的话音，并作为活动话音来编码和发送。由于不需要发送背景噪声和其他非话音声音，或可以用更低的帧速率来发送，节省了传输带宽以及用户设备(例如，移动电话)的功耗。

如在话音编解码器中一样，在话音识别应用中避免将非话音声音错误地归类为有语音的话音是有益的。本方法使得丢弃信号的非关注部分(即，不包含话音的段)更有效。识别算法不需要由于尝试从应当被归类为背景噪声的声音段中识别出语音的而浪费资源。

许多现有的视频会议应用被设计为关注活动发言人，例如仅显示来自活动发言人的视频或在以比其他与会人员更大的窗口显示活动发言人。活动发言人的选择基于VAD等。考虑没有人发言但是一个参会者正在敲打键盘的情况，很可能传统方法将打字类型解释为活动话音并因此聚焦于打字参会者。本方法可以被用于避免这类在视频会议中的错误判定。

在自动电平控制(ALC/AGC)中，重要的是：仅测量话音电平，而不同时测量背景噪声电平。本方法可以因此增强ALC/AGC。

图10示出了执行如5和7中说明的方法500的装置1000的示例。装置包括输入1001和输出1003，输入1001用于接收音频信号的一部分，并且输出1003用于输出输入音频信号段是否包括有语音的话音的判定。装置1000还包括处理器1005(例如，中央处理单元(CPU))，以及具有用于存储指令(例如计算机程序产品1009)的存储器形式的计算机程序产品1007，当从存储器获取并由处理器1005执行时，指令使得装置1000执行与本有语音的话音检测的实施例关联的过程。存储器1007可以进一步包括过去输入信号采样的缓存器，或装置1000可以包括用于存储过去采样的另一存储器(未示出)。处理器1005与输入节点1001、与输出节点1003以及与存储器1007通信耦合。

在一个实施例中，存储器1007存储指令1009，当由处理器1005执行时，指令1009使装置1000：计算输入音频信号的一部分的自相关函数ACF；检测确定范围内所述自相关函数的最高峰；以及确定所述峰的峰宽和峰高。还使装置1000：基于所述峰宽和所述峰高，判定输入音频信号的段是否包括有语音的话音。所述判定包括：如果所述峰高超过第一阈值并且峰宽小于第二阈值，则判定输入音频信号的段包括有语音的话音，或如果所述峰高超过第一阈值并且峰宽超过第二阈值，则判定输入音频信号的段不包括有语音的话音。峰宽的确定包括：计算在ACF曲线降至跌落阈值以下之前从峰的中部往上的箱的数量；计算在ACF曲线降至跌落阈值以下之前从峰的中部往下的箱的数量；并将所计算的箱的数量相加以指示所述峰宽。

通过示例的方式，软件或计算机程序1009可以被实现为计算机程序产品，其一般承载于或存储在计算机可读介质上，优选地在非易失性计算机可读存储介质上。计算机可读介质可包括一个或多个可移除或不可移除的存储设备，包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、紧致盘(CD)、数字多用途盘(DVD)、通用串行总线存储器(USB)、硬盘驱动(HDD)存储设备、闪存、磁带或任意其他常规存储设备。

装置1000可以包括在以下项中或与以下项相关联：服务器、客户端、网络节点、云实体或用户设备(例如移动设备、智能电话、笔记本计算机和平板计算机)。装置1000可以包括在话音编解码器、视频会议系统、话音识别器、嵌入或可附接于车辆(例如小汽车、卡车、公共汽车、船、火车和飞机)的单元中。装置1000可以包括在语音活动性检测器中，或者可以是语音活动性检测器的一部分。

图11是被配置为检测音频信号中的有语音的话音的检测器1100的功能框图。检测器1100包括：ACF计算模块1102，被配置为计算输入音频信号的一部分的自相关函数ACF。检测器1100还包括：峰检测模块1104，被配置为检测预定范围内ACF的最高峰；以及峰高和峰宽确定模块1106，被配置为确定检测到的最高峰的峰宽和峰高。检测器1100还包括：判定模块1108，被配置为基于峰宽和峰高，判定输入音频信号的段是否包括有语音的话音。

应当注意的是，可以将全部模块1102至1108实现为装置内的一个单元，或被实现为分离的单元，或它们中的一些可以进行组合以形成一个单元，而它们中的一些可以被实现为分离的单元。具体地，全部上述单元可以包括在一个芯片集中，或者它们的一些或全部可以包括在不同的芯片集中。在一些实施方式中，上述模块可以被实现为计算机程序产品，例如用存储器的形式或作为可以从装置的存储器执行的一个或更多个计算机程序。

本发明的实施例可以用软件、硬件逻辑或软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在存储器、微处理器或中央处理单元上。如果需要，软件、应用逻辑和/或硬件的部分可以驻留在主机设备上，或在主机的存储器、微处理器或中央处理单元上。在示例实施例中，可以在多个传统计算机可读介质的任意一个上保持应用逻辑、软件或指令集。

在不以任意方式限制以下所附权利要求的范围、解释或应用的条件下，本文描述的一个或更多个示例实施例的技术效果在于可以在音频中有效地检测有语音的话音段。附加的技术效果是，通过评估ACF中的高度和宽度二者，语音的话音检测器可以避免关于不是有语音的话音但是仍在AFC产生高峰的声音的错误触发。

尽管在独立权利要求中阐述了本发明的各方面，本发明的其他方面包括来自所描述的实施例和/或具有独立权利要求的特征的从属权利要求的特征的其他组合，并且不仅仅是在权利要求中明确设置的组合。

本文中还注意的是，尽管本发明的上述示例实施例，这些说明不应当被视为限制性意义。而是，可以不偏离所附权利要求所定义的本发明的范围，做出若干改变和修改。

Claims

1.一种用于检测音频信号中的有语音的话音的方法(500)，所述方法包括：

-计算(501)输入音频信号的一部分的自相关函数ACF；

-检测(503)确定范围内所述自相关函数的最高峰；

-确定(505)所述峰的峰宽和峰高；以及

-基于所述峰宽和所述峰高，判定(507)输入音频信号的段是否包括有语音的话音。

2.根据权利要求1所述的方法，其中，所述确定范围与音高范围相对应。

3.根据权利要求1或2所述的方法，其中，如果所述峰高超过第一阈值并且峰宽小于第二阈值，则判定输入音频信号的段包括有语音的话音。

4.根据权利要求1或2所述的方法，其中，如果所述峰高超过第一阈值并且所述峰宽超过第二阈值，则判定输入音频信号的段不包括有语音的话音。

5.根据权利要求3或4的方法，其中，所述第二阈值被设置为恒定值。

6.根据权利要求3或4的方法，其中，根据先前检测到的音高来动态设置所述第二阈值。

7.根据权利要求3或4的方法，其中，根据所述检测到的最高峰的音高来动态设置所述第二阈值。

8.根据前述任一项权利要求所述的方法，其中，通过以下操作来确定所述峰宽：计算在ACF曲线降至跌落阈值以下之前从峰的中部往上的箱的数量；计算在ACF曲线降至跌落阈值以下之前从峰的中部往下的箱的数量；并将所计算的箱的数量相加以指示所述峰宽。

9.一种装置(1000)，包括：

处理器(1005)，以及

存储器(1007)，存储指令(1009)，当由处理器(1005)执行时，所述指令(1009)使所述装置：

-计算输入音频信号的一部分的自相关函数ACF；

-检测确定范围内所述自相关函数的最高峰；

-确定所述峰的峰宽和峰高；以及

-基于所述峰宽和所述峰高，判定输入音频信号的段是否包括有语音的话音。

10.根据权利要求9所述的装置，其中，所述判定还包括：如果所述峰高超过第一阈值并且峰宽小于第二阈值，则判定输入音频信号的段包括有语音的话音。

11.根据权利要求9所述的装置，其中，所述判定还包括：如果所述峰高超过第一阈值并且峰宽超过第二阈值，则判定输入音频信号的段不包括有语音的话音。

12.根据权利要求9至11中任一项所述的装置，其中，峰宽的确定还包括：计算在ACF曲线降至跌落阈值以下之前从峰的中部往上的箱的数量；计算在ACF曲线降至跌落阈值以下之前从峰的中部往下的箱的数量；并将所计算的箱的数量相加以指示所述峰宽。

13.根据权利要求9至12中任一项所述的装置，其中，所述装置包括在以下项中：服务器、客户端、网络节点、云实体或用户设备。

14.根据权利要求9至12中任一项所述的装置，其中，所述装置包括在语音活动性检测器中。

15.一种包括计算机可读代码单元的计算机程序(1009)，当所述计算机可读代码单元在装置上运行时，使所述装置执行根据权利要求1至9中任一项所述的方法。

16.一种计算机程序产品(1007)，包括计算机可读介质和在所述计算机可读介质上存储的根据权利要求15所述的计算机程序(1009)。

17.一种用于检测音频信号中的有语音的话音的检测器(1100)，所述检测器包括：

-ACF计算模块(1102)，被配置为计算输入音频信号的一部分的ACF；

-峰检测模块(1104)，被配置为检测预定范围内ACF的最高峰；

-峰高和峰宽确定模块(1106)，被配置为确定所检测到的最高峰的峰宽和峰高；以及

-判定模块(1108)，被配置为基于所述峰宽和所述峰高，判定输入音频信号的段是否包括有语音的话音。