CN110085264A

CN110085264A - 语音信号检测方法、装置、设备及存储介质

Info

Publication number: CN110085264A
Application number: CN201910364001.7A
Authority: CN
Inventors: 刘东强; 徐燃; 雷宇
Original assignee: Beijing Rubo Technology Co Ltd
Current assignee: Beijing Rubu Technology Co.,Ltd.
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-02
Anticipated expiration: 2039-04-30
Also published as: CN110085264B

Abstract

本发明实施例公开了一种语音信号检测方法、装置、设备及存储介质。其中，该方法包括：获取音频信号，其中，所述音频信号中包括语音信号；依据所述音频信号中每帧信号的特征值，确定长时特征值和短时特征值；依据所述长时特征值、所述短时特征值以及当前帧信号的特征值，确定所述语音信号的起始点；以所述语音信号的起始点所对应的帧信号为起点，将第一时长之后任一帧信号的特征值作为波谷值，且以该帧信号为终点，依据第二时长内各帧信号的特征值确定波峰值；其中，所述第一时长大于所述第二时长；依据所述波峰值和所述波谷值，确定所述语音信号的结束点。本发明实施例提供的技术方案，能够自适应背景噪声，且提高了VAD检测的准确度。

Description

语音信号检测方法、装置、设备及存储介质

技术领域

本发明实施例涉及语音信号处理技术领域，尤其涉及一种语音信号检测方法、装置、设备及存储介质。

背景技术

随着人工智能的发展，语音识别技术越来越成熟，被广泛用于检测用户语音。其中，语音活动检测(Voice Activity Detection，VAD)又称语音端点检测，用于在噪声环境中检测语音的存在与否，是进行语音识别之前重要的一环。

目前，VAD检测基本都围绕提取并使用语音特征(如：时域能量、时域过零率、对数能量、谱熵、频域子带或频域方差等)展开。传统的VAD检测方法是：默认所采集的音频信号中前几帧为背景噪声，如果大于背景噪声一定的值就认为进入了语音状态；若一定时间内各帧信号的特征值均小于预设阀值，则认为结束语音状态。

但是，传统的VAD检测方法缺乏对背景噪声的自适应能力，且准确度底。以能量作为特征，若起始时刻能量比较大，传统的VAD检测方法则很难检测到语音信号的起始端点。此外，如果检测到起始端点后，整体背景噪声变得很大，也就是能量值很难再低于预设阀值，造成检测不到结束端点。

发明内容

本发明实施例提供了一种语音信号检测方法、装置、设备和存储介质，优化了现有的VAD检测方法，能够自适应背景噪声，且提高了VAD检测的准确度。

第一方面，本发明实施例提供了一种语音信号检测方法，该方法包括：

获取音频信号，其中，所述音频信号中包括语音信号；

依据所述音频信号中每帧信号的特征值，确定长时特征值和短时特征值；

依据所述长时特征值、所述短时特征值以及当前帧信号的特征值，确定所述语音信号的起始点；

以所述语音信号的起始点所对应的帧信号为起点，将第一时长之后任一帧信号的特征值作为波谷值，且以该帧信号为终点，依据第二时长内各帧信号的特征值确定波峰值；其中，所述第一时长大于所述第二时长；

依据所述波峰值和所述波谷值，确定所述语音信号的结束点。

第二方面，本发明实施例还提供了一种语音信号检测装置，该装置包括：

信号获取模块，用于获取音频信号，其中，所述音频信号中包括语音信号；

特征值确定模块，用于依据所述音频信号中每帧信号的特征值，确定长时特征值和短时特征值；

起始点确定模块，用于依据所述长时特征值、所述短时特征值以及当前帧信号的特征值，确定所述语音信号的起始点；

波峰谷值确定模块，用于以所述语音信号的起始点所对应的帧信号为起点，将第一时长之后任一帧信号的特征值作为波谷值，且以该帧信号为终点，依据第二时长内各帧信号的特征值确定波峰值；其中，所述第一时长大于所述第二时长；

结束点确定模块，用于依据所述波峰值和所述波谷值，确定所述语音信号的结束点。

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任意所述的语音信号检测方法。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任意所述的语音信号检测方法。

本发明实施例提供的技术方案，在获取到音频信号之后，通过综合长时特征值、短时特征值以及当前帧信号的特征值，可准确确定语音信号的起始点；而后依据特征值确定波峰值和波谷值，可确定语音信号的结束点。相比于现有的技术方案，本方案基于长时特征值、短时特征值、波峰值以及波谷值等来确定语音信号的起始点和结束点，优化了现有的VAD检测方法，能够自适应背景噪声，且提高了VAD检测的准确度。

附图说明

图1A是本发明实施例一中提供的一种语音信号检测方法的流程图；

图1B是本发明实施例一中提供的一种音频信号的示意图；

图2A是本发明实施例二中提供的一种语音信号检测方法的流程图；

图2B是本发明实施例二中提供的一种音频信号的示意图；

图3是本发明实施例三中提供的一种语音信号检测方法的流程图；

图4是本发明实施例四提供的一种语音信号检测方法的流程图；

图5是本发明实施例五提供的一种语音信号检测装置的结构框图；

图6是本发明实施例六提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性，以及先后顺序等。

实施例一

图1A为本发明实施例一提供的一种语音信号检测方法的流程图，本实施例可适用于如何从包括噪声的音频信号中，准确检测出语音信号的情况。该方法可以由本发明实施例提供的装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可集成于计算设备中，也可独立作为一个设备。参见图1A，该方法具体可以包括：

S101、获取音频信号，其中，音频信号中包括语音信号。

本实施例中，音频信号可以是通过录音设备、音频采集设备如麦克风、通话设备或者音频存储设备中实时获取到的。语音信号是指音频信号中的有效信号，具体可以是需要占用通话资源的声音信号，示例的，如语音信号为说话人一段时间内连续说话的信号。可选的，由于环境、采集设备本身等干扰，使得所获取的音频信号中除包含语音信号之外，还存在背景干扰信号即噪声信号。上述背景干扰信号包括但不限于：说话人开始讲话之前、停止讲话之后采集设备及环境背景中嘈杂的声音信号。

S102、依据音频信号中每帧信号的特征值，确定长时特征值和短时特征值。

本实施例中，在获取到音频信号后，可将上述音频信号按照时序进行划分，形成每帧信号，其中，每帧信号是音频信号的最小观测单位。可选的，特征值可包括但不限于下述几个维度：时域能量、时域过零率、对数能量、谱熵、频域子带和频域方差；对于每帧信号而言，其每一维度的特征值可用于表征该帧信号在该维度的状态。可选的，可通过VAD检测方法获取每帧信号的特征值，或者通过预先训练的语音识别模型训练或者识别出每帧信号的特征值，或者采用语音信号处理算法确定每帧信号的特征值等。

长时特征值和短时特征值均是指一定时长内各帧信号特征值的均值。可选的，在静态获取音频信号的情况下，可以从音频信号的起始时刻开始，沿时间轴方向分别选取两个不同时长，进而分别依据两个不同时长内的各帧信号的特征值，确定长时特征值和短时特征值。而本实施例中，由于音频信号是实时动态获取到的，进而长时特征值和短时特征值也是动态变化的，因此，为了能够准确确定语音信号的起始点，还可以以当前帧信号为终点，以与时间轴相反的方向，即在终点前分别选取两个不同时长来确定长时特征值和短时特征值。

需要说明的是，不同维度的特征值，可采用不同的方式确定长时特征值和短时特征值。示例的，如特征值为时域能量，可通过短时能量计算公式或者短时平均幅度公式，确定长时特征值和短时特征值；若特征值为时域过零率，可通过短时平均过零率计算，确定长时特征值和短时特征值等。

可选的，长时特征值可能大于短时特征值，长时特征值也可能小于或等于短时特征值。可选的，若音频信号起始时刻背景干扰信号的特征值较大，则长时特征值大于短时特征值；若音频信号中起始时刻背景干扰信号的特征值较小，则长时特征值小于或等于短时特征值。

具体的，在获取到包括语音信号的音频信号之后，可以按照时序对该音频进行划分，得到每帧信号，并可通过VAD检测方法获取每帧信号的特征值；之后，可依据音频信号中每帧信号的特征值，确定长时特征值和短时特征值。

S103、依据长时特征值、短时特征值以及当前帧信号的特征值，确定语音信号的起始点。

本实施例中，语音信号的起始点即为音频信号中的有效信号的起始位置。

具体的，可以将当前帧信号的特征值分别与长时特征值、短时特征值进行比较，当当前帧信号的特征值大于长时特征值或者短时特征值两者之一时，则确定当前帧信号为语音信号的起始点。

结合实际场景，若获取的音频信号的起始背景干扰信号的特征值较大，且后续的语音信号的特征值均小于该特征值，如果直接将起始背景干扰信号的特征值作为阀值，将后续音频信号的特征值均与其比较，将无法获取到语音信号的起始点。

而本实施例中，通过设置长时特征值和短时特征值，即使获取的音频信号的起始背景干扰信号的特征值较大，也就是说在长时特征值大于短时特征值的情况下，可灵活选用短时特征值作为阀值，将当前帧信号的特征值与短时特征值进行比较，在当前帧信号的特征值大于短时特征值的情况下，将当前帧信号作为语音信号的起始点。

S104、以语音信号的起始点所对应的帧信号为起点，将第一时长之后任一帧信号的特征值作为波谷值，且以该帧信号为终点，依据第二时长内各帧信号的特征值确定波峰值；其中，第一时长大于第二时长。

本实施例中，第二时长与第一时长均是预先设定的，可根据实际情况进行调整，但第二时长小于第一时长，如第一时长可以是200ms，第二时长可以是50ms等。此外，第一时长是以语音信号的起始点所对应的帧信号(即当前帧信号)映射到时间轴上的点为起点，沿时间轴方向的一定时长；而第二时长区别于第一时长，第二时长是以第一时长之后任一帧信号映射到时间轴上的点为终点，以与时间轴相反的方向，即在终点前所选取的一定时长。例如，图1B所示的音频信号，假设语音信号的起始点为当前帧信号A点所在位置，第一时长可以为点A与点E映射到时间轴上的位置A^/与E^/之间的时间差；第二时长为点F(波谷值所在位置)与点H映射到时间轴上的位置F^/与H^/之间的时间差。可选的，点H可位于点E之后，点F之前；可能位于点A与点E之间，靠近点E的位置处等。

示例性的，依据第二时长内各帧信号的特征值确定波峰值可以是：将第二时长的起点位置所对应的帧信号(如点H位置处所对应的帧信号)作为波峰值；还可以是将第二时长内各帧信号的特征值中最大的特征值作为波峰值等。本实施例中，优选将第二时长内各帧信号的特征值中最大的特征值作为波峰值。其中，波峰值是第二时长内特征值最大的值，也大于上述终点对应的帧信号的特征值。

具体的，在确定语音信号的起始点之后，可以将语音信号的起始点所对应的帧信号为起点，将沿时间轴方向选取一定时长作为第一时长，在第一时长之后选取任一帧信号的特征值作为波谷值，且以该帧信号为终点，以与时间轴相反的方向，即在终点前选取一定时长作为第二时长，将第二时长内的各帧信号的特征值进行比较，将其中特征值最大的特征值作为波峰值。

S105、依据波峰值和波谷值，确定语音信号的结束点。

具体的，可以依据波峰值和波谷值，确定波峰值与波谷值两者的平均值，而后将所确定的平均值与预先设定的平均值阈值进行比对，若所确定的平均值小于预先设定的平均值阈值，则可以将波谷值所对应的帧信号作为语音信号的结束点。

还可以是依据波峰值和波谷值，计算波峰值与波谷值之间的差值，而后将计算得到的差值与预设阈值进行比对，当计算得到的差值小于预设阈值时，则可以将波谷值所对应的帧信号作为语音信号的结束点。

示例性的，依据波峰值和波谷值，确定语音信号的结束点可以包括：确定波峰值与波谷值之间的差值；若差值小于预设阀值，则将该帧信号作为语音信号的结束点。本实施例中，预设阀值是预先设置的，用于判断语音信号是否结束的临界值，可根据实际所获取的音频信号的特征，进行调整。

例如，参见图1B，波谷值所在位置点F，假设第二时长(即点F与点H映射到时间轴上的位置F^/与H^/之间的时间差)内各帧信号的特征值的最大值即波峰值所在位置点为点Q。若点Q处的波峰值与点F处的波谷值之间的差值，小于预设阀值，则可以认为所获取的音频信号中已经没有语音信号了，此时，可以将波谷值所在位置点F作为语音信号的结束点。若点Q处的波峰值与点F处的波谷值之间的差值，大于或等于预设阀值，则说明语音信号还未结束，此时可以重新执行S104以重新选取波谷值和波峰值，即可以是沿时间轴方向平移点H和点F的位置，在重新确定点H和点F的位置之后，依据重新确定的点H和点F的各帧信号的特征值重新确定波峰值，之后依据重新确定的波峰值和波谷值，确定语音信号的结束点。

结合实际场景，若获取的音频信号的起始背景干扰信号的特征值较小，而在确定语音信号的起始点之后，背景干扰信号突然变大，且一直处于起始背景干扰信号的特征值之上，通过传统的VAD检测方法，将检测不到语音信号的结束点。

而本实施例中，即使在确定语音信号的起始点之后，背景干扰信号突然变大，且一直处于起始背景干扰信号的特征值之上，也可根据背景噪声情况，通过动态设置波峰值和波谷值，确定语音信号的结束点，优化了现有的VAD检测方法，能够自适应背景噪声，且提高了VAD检测的准确度。

实施例二

图2A为本发明实施例二提供的一种语音信号检测方法的流程图，本实施例在上述实施例一的基础上，进一步对依据音频信号中每帧信号的特征值，确定长时特征值和短时特征值进行详细解释说明。参见图2A，该方法具体可以包括：

S201、获取音频信号，其中，音频信号中包括语音信号。

S202、提取音频信号中每帧信号的特征值。

具体的，在获取到音频信号后，可通过VAD检测方法提取出每帧信号的特征值。可选的，每帧信号的特征值可以是时域能量、时域过零率、对数能量、谱熵、频域子带和频域方差中的任意一个，可根据实际情况进行选择。

S203、以当前帧信号为终点，依据第三时长内各帧信号的特征值，确定长时特征值。

本实施例中，第三时长是预先设定的，可根据实际情况进行调整。可选的，可以选取当前帧信号作为终点，以与时间轴相反的方向，即在终点前选取一定时长作为第三时长。例如，如图2B所示，假设当前帧信号为A点所在位置，第三时长可以为点A与点B映射到时间轴上的位置A^/与B^/之间的时间差。

具体的，可选取当前帧信号作为终点，以与时间轴相反的方向，即在终点前选取一定时长作为第三时长，而后可根据第三时长中各帧信号的特征值确定长时特征值。示例的，如特征值为时域能量，通过短时能量计算公式或者短时平均幅度公式，得到第三时长的特征值，上述特征值为长时特征值。当特征值为时域过零率，通过短时平均过零率计算，得到第三时长的特征值。

S204、以当前帧信号为终点，依据第四时长内各帧信号的特征值，确定短时特征值；其中，第三时长大于第四时长。

本实施例中，第四时长是预先设定的，可根据实际情况进行调整。可选的，可以选取当前帧信号作为终点，以与时间轴相反的方向，即在终点前选取一比第三时长小的时长作为第四时长。例如，如图2B所示，假设当前帧信号为A点所在位置，第四时长可以为点A与点C映射到时间轴上的位置A^/与C^/之间的时间差。

具体的，可选取当前帧信号作为终点，以与时间轴相反的方向，即在终点前选取时长小于第三时长的时间段作为第四时长，而后可根据第四时长中各帧信号的特征值确定短时特征值。确定短时特征值的方法与第三时长中确定长时特征值的方法相同，在此不再赘述。

S205、依据长时特征值、短时特征值以及当前帧信号的特征值，确定语音信号的起始点。

S206、以语音信号的起始点所对应的帧信号为起点，将第一时长之后任一帧信号的特征值作为波谷值，且以该帧信号为终点，依据第二时长内各帧信号的特征值确定波峰值；其中，第一时长大于第二时长。

S207、依据波峰值和波谷值，确定语音信号的结束点。

S208、依据起始点和结束点从音频信号中提取语音信号，以供语音识别系统处理语音信号。

具体的，在确定语音信号的起始点和语音信号的结束点之后，可将起始点和结束点之间的语音信号提取出来，以便语音识别系统进一步进行分析处理。

实施例三

图3为本发明实施例三提供的一种语音信号检测方法的流程图，本实施例在上述实施例的基础上，进一步对依据长时特征值、短时特征值以及当前帧信号的特征值，确定语音信号的起始点进行详细解释说明。参见图3，该方法具体可以包括：

S301、获取音频信号，其中，音频信号中包括语音信号。

S302、依据音频信号中每帧信号的特征值，确定长时特征值和短时特征值。

S303、若当前帧信号的特征值大于长时特征值或短时特征值，且以当前帧信号为起点，第一时长内各帧信号的特征值均大于长时特征值或短时特征值，则将当前帧信号作为语音信号的起始点。

为了确保所确定的语音信号的起始点是真实的，不是背景干扰信号突然增大的点，本实施例，可将当前帧信号的特征值以及当前帧信号之后第一时长内的各帧信号的特征值，均与长时特征值或者短时特征值进行比较，进而依据比较结果确定语音信号的起始点。本实施例中，第一时长是预先设定的，可根据实际情况进行调整，例如可以是200ms等。

具体的，可以将当前帧信号的特征值分别与长时特征值、短时特征值进行比较，当当前帧信号的特征值大于长时特征值或者短时特征值两者之一时，将当前帧信号作为起点，沿时间轴方向，选取一定时长作为第一时长，如果第一时长内的各帧特征值均大于长时特征值或者短时特征值，则可以认为第一时长中的各帧信号为成语音信号，则将当前帧信号作为语音信号的起始点。

为了能够更加准确地识别语音信号的起始点，进一步地的，若当前帧信号的特征值大于长时特征值或短时特征值，且以当前帧信号为起点，第一时长内各帧信号的特征值均大于长时特征值或短时特征值，则将当前帧信号作为语音信号的起始点可以包括：

A、确定附加特征值。

本实施例中，附加特征值是预设的特征值，用以提高VAD检测的准确度。

B、依据附加特征值、长时特征值和短时特征值，分别确定更新长时特征值和更新短时特征值。

具体的，可以将附加特征值与长时特征值求和，得到更新长时特征值；将附加特征值与短时特征值求和，得到更新短时特征值；而后可将当前帧信号的特征值分别与更新长时特征值和更新短时特征值进行比较。

C、若当前帧信号的特征值大于更新长时特征值或更新短时特征值，且以当前帧信号为起点，第一时长内各帧信号的特征值均大于更新长时特征值或更新短时特征值，则将当前帧信号作为语音信号的起始点。

具体的，可以将当前帧信号的特征值分别与更新长时特征值、更新短时特征值进行比较，当当前帧信号的特征值大于更新长时特征值或者更新短时特征值两者之一时，将当前帧信号作为起点，沿时间轴方向，选取一定时长作为第一时长，如果第一时长内的各帧特征值均大于更新长时特征值或者更新短时特征值，则可以认为第一时长中的各帧信号为成语音信号，则将当前帧信号作为语音信号的起始点。

本实施例中，通过附加特征值得到更新长时特征值或更新短时特征值，可更加符合实际情况，进而能够更加准确地识别语音信号的起始点，提高了VAD检测的准确度。

S304、以语音信号的起始点所对应的帧信号为起点，将第一时长之后任一帧信号的特征值作为波谷值，且以该帧信号为终点，依据第二时长内各帧信号的特征值确定波峰值；其中，第一时长大于所述第二时长。

在第一时长之后的一定时长内，如将50ms此刻的帧信号的特征值作为波谷值，将50ms的帧信号作为终点，在50ms之前选取一定时长作为第二时长，在第二时长中确定波峰值，第二时长的起始点可以是在第一时长内的时刻，也可以是第一时长结束的时刻到50ms之前的某个时刻。

S305、依据波峰值和波谷值，确定语音信号的结束点。

本发明实施例提供的技术方案，通过阐述语音信号起始点的确定以及语音信号结束点的确定，能够将语音信号从背景噪声中有效地识别出来，优化了现有的VAD检测方法。

实施例四

图4为本发明实施例四提供的一种语音信号检测方法的流程图，本实施例在上述实施例的基础上，提供了一种优选实例。参见图4，该方法具体可以包括：、

S401、获取音频信号，其中，音频信号中包括语音信号。

S402、提取音频信号中每帧信号的特征值。

S403、以当前帧信号为终点，依据第三时长内各帧信号的特征值，确定长时特征值。

S404、以当前帧信号为终点，依据第四时长内各帧信号的特征值，确定短时特征值；其中，第三时长大于第四时长。

S405、若当前帧信号的特征值大于长时特征值或短时特征值，且以当前帧信号为起点，第一时长内各帧信号的特征值均大于长时特征值或短时特征值，则将当前帧信号作为语音信号的起始点。

S406、以语音信号的起始点所对应的帧信号为起点，将第一时长之后任一帧信号的特征值作为波谷值，且以该帧信号为终点，依据第二时长内各帧信号的特征值确定波峰值；其中，第一时长大于第二时长。

S407、确定波峰值与波谷值之间的差值。

S408、若差值小于预设阀值，则将该帧信号作为语音信号的结束点。

本发明实施例提供的技术方案，从第二时长中的各帧信号确定波峰值，从第一时长后的任一帧信号确定波谷值，当波峰值与波谷值之间的差值小于预设阈值时，则将该信号作为语音信号的结束点，由帧信号的特征值大于长时特征值或短时特征值的帧信号作为起始点。其中，第一时长中的各帧信号均大于长时特征值或短时特征值，且长时特征值在第三时长中确定，短时特征值由第四时长确定，本实施例提供的技术方案能够将语音信号从背景噪声中有效地识别出来，并且能够自适应背景噪声。

实施例五

图5为本发明实施例五提供的一种语音信号检测装置的结构框图，该装置可执行本发明任意实施例所提供的语音信号检测方法，具备执行方法相应的功能模块和有益效果。如图5所示，该装置可以包括：

信号获取模块510，用于获取音频信号，其中，音频信号中包括语音信号；

特征值确定模块520，用于依据音频信号中每帧信号的特征值，确定长时特征值和短时特征值；

起始点确定模块530，用于依据长时特征值、短时特征值以及当前帧信号的特征值，确定语音信号的起始点；

波峰谷值确定模块540，用于以语音信号的起始点所对应的帧信号为起点，将第一时长之后任一帧信号的特征值作为波谷值，且以该帧信号为终点，依据第二时长内各帧信号的特征值确定波峰值；其中，第一时长大于所述第二时长；

结束点确定模块550，用于依据波峰值和波谷值，确定语音信号的结束点。

可选的，特征值确定模块520，具体可以用于：

提取音频信号中每帧信号的特征值；

以当前帧信号为终点，依据第三时长内各帧信号的特征值，确定长时特征值；

以当前帧信号为终点，依据第四时长内各帧信号的特征值，确定短时特征值；其中，第三时长大于第四时长。

可选的，起始点确定模块530，具体可以用于：

若当前帧信号的特征值大于长时特征值或所述短时特征值，且以当前帧信号为起点，所述第一时长内各帧信号的特征值均大于所述长时特征值或所述短时特征值，则将当前帧信号作为语音信号的起始点。

可选的，起始点确定模块530，具体还可以用于：

确定附加特征值；

依据所述附加特征值、所述长时特征值和所述短时特征值，分别确定更新长时特征值和更新短时特征值；

可选的，波峰谷值确定模块540，具体可以用于若当前帧信号的特征值大于所述更新长时特征值或所述更新短时特征值，且以当前帧信号为起点，所述第一时长内各帧信号的特征值均大于所述更新长时特征值或所述更新短时特征值，则将当前帧信号作为语音信号的起始点。

结束点确定模块550，具体可以用于：

确定所述波峰值与所述波谷值之间的差值；

若所述差值小于预设阀值，则将该帧信号作为所述语音信号的结束点。

可选的，上述语音信号检测装置还包括：

语音信号提取模块，可以用于依据所述起始点和所述结束点从所述音频信号中提取所述语音信号，以供语音识别系统处理所述语音信号。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

实施例六

图6为本发明实施例六提供的一种设备的结构示意图，图6示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图6显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，存储器28，连接不同系统组件(包括存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音信号检测方法。

实施例七

本发明实施例七还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时可实现上述任意实施例所述的语音信号检测方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音信号检测方法，其特征在于，包括：

获取音频信号，其中，所述音频信号中包括语音信号；

2.根据权利要求1所述的方法，其特征在于，依据所述音频信号中每帧信号的特征值，确定长时特征值和短时特征值，包括：

提取所述音频信号中每帧信号的特征值；

以当前帧信号为终点，依据第三时长内各帧信号的特征值，确定所述长时特征值；

以当前帧信号为终点，依据第四时长内各帧信号的特征值，确定所述短时特征值；

其中，所述第三时长大于第四时长。

3.根据权利要求1所述的方法，其特征在于，依据所述长时特征值、所述短时特征值以及当前帧信号的特征值，确定所述语音信号的起始点，包括：

若当前帧信号的特征值大于所述长时特征值或所述短时特征值，且以当前帧信号为起点，所述第一时长内各帧信号的特征值均大于所述长时特征值或所述短时特征值，则将当前帧信号作为语音信号的起始点。

4.根据权利要求3所述的方法，其特征在于，若当前帧信号的特征值大于所述长时特征值或所述短时特征值，且以当前帧信号为起点，所述第一时长内各帧信号的特征值均大于所述长时特征值或所述短时特征值，则将当前帧信号作为语音信号的起始点，包括：

确定附加特征值；

若当前帧信号的特征值大于所述更新长时特征值或所述更新短时特征值，且以当前帧信号为起点，所述第一时长内各帧信号的特征值均大于所述更新长时特征值或所述更新短时特征值，则将当前帧信号作为语音信号的起始点。

5.根据权利要求1所述的方法，其特征在于，依据第二时长内各帧信号的特征值确定波峰值，包括：

将所述第二时长内各帧信号的特征值中最大的特征值作为波峰值。

6.根据权利要求1所述的方法，其特征在于，依据所述波峰值和所述波谷值，确定所述语音信号的结束点，包括：

确定所述波峰值与所述波谷值之间的差值；

7.根据权利要求1所述的方法，其特征在于，依据所述波峰值和所述波谷值，确定所述语音信号的结束点之后，还包括：

依据所述起始点和所述结束点从所述音频信号中提取所述语音信号，以供语音识别系统处理所述语音信号。

8.一种语音信号检测装置，其特征在于，包括：

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的语音信号检测方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的语音信号检测方法。