CN110931048B

CN110931048B - 语音端点检测方法、装置、计算机设备及存储介质

Info

Publication number: CN110931048B
Application number: CN201911275318.XA
Authority: CN
Inventors: 肖纯智; 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2024-04-02
Anticipated expiration: 2039-12-12
Also published as: CN110931048A

Abstract

本申请关于一种语音端点检测方法、装置、计算机设备及存储介质，涉及语音识别技术领域。所述方法包括：对待检测语音进行预检测，以从待检测语音中提取包含语音信号和非稳态噪声信号的第一混合音片段，对第一混合音片段进行音高检测，以从第一混合音片段中提取包含非稳态噪声信号和清音信号的第二混合音片段和浊音信号片段，根据第一混合音片段中的第一个浊音信号片段的起始点，确定第一混合音片段中的语音起始端点，根据第一混合音片段中的最后一个浊音信号片段的结束点，确定第一混合音片段中的语音结束端点。通过上述方法，使得在语音信号检测过程中，有效地区分非稳态噪声信号和有效语音信号，提高语音端点检测的准确性。

Description

语音端点检测方法、装置、计算机设备及存储介质

技术领域

本申请涉及语音识别技术领域，特别涉及语音端点检测方法、装置、计算机设备及存储介质。

背景技术

在语音信号处理中，需要从包含语音的一段信号中确定出语音信号的起始点以及终止点，以采集真正的语音数据，减少语音信号处理系统的运算量，从而提高系统处理效率。

在相关技术中，通常基于语音信号和噪声的能量、过零率、倒谱等特征的不同设计端点检测算法，以实现区分噪声和语音信号的目的。

上述相关技术中，在区分平稳噪声信号和有效语音信号中表现较好，但对于存在非稳态噪声信号的语音信号，由于非稳态噪声信号会对语音信号中的能量、过零率、倒谱等特征造成影响，从而不能有效地区分非稳态噪声信号和有效语音信号，造成语音信号处理准确性较低。

发明内容

本申请实施例提供了一种语音端点检测方法、装置、计算机设备及存储介质，在语音信号检测过程中，有效地区分非稳态噪声信号和有效语音信号，提高语音信号处理的准确性，该技术方案如下：

一方面，提供了一种语音端点检测方法，所述方法包括：

对待检测语音进行预检测，以从所述待检测语音中提取第一混合音片段，所述第一混合音片段包含语音信号和非稳态噪声信号；

对所述第一混合音片段进行音高检测，以从所述第一混合音片段中提取第二混合音片段和浊音信号片段，所述第二混合音片段中包含所述非稳态噪声信号和清音信号；

根据所述第一混合音片段中的第一个浊音信号片段的起始点，确定所述第一混合音片段中的语音起始端点；

根据所述第一混合音片段中的最后一个浊音信号片段的结束点，确定所述第一混合音片段中的语音结束端点。

可选的，所述根据所述第一混合音片段中的第一个浊音信号片段的起始点，确定所述第一混合音片段中的语音起始端点，包括：

当所述第一个浊音信号片段前存在所述第二混合音片段时，在所述第一个浊音信号片段前的预定时域范围内检测能量值；

若在所述预定时域范围内存在能量波谷，分别获取所述第二混合音片段的起始点与所述第一个浊音信号片段的距离关系以及所述第一个浊音信号片段前指定时长的时间点与所述第一个浊音信号片段的距离关系；

确定所述第二混合音片段的起始点与所述第一个浊音信号片段前指定时长的时间点中距离所述第一浊音信号片段最近的一个为所述语音起始端点。

可选的，所述方法还包括：

若在所述预定时域范围内不存在能量波谷，则将所述第一个浊音信号片段的起始点，作为所述语音起始端点。

可选的，所述根据所述第一混合音片段中的最后一个浊音信号片段的结束点，确定所述第一混合音片段中的语音结束端点，包括：

将所述最后一个浊音信号片段的结束点，作为所述语音结束端点。

可选的，所述对所述第一混合音片段进行音高检测，以从所述第一混合音片段中提取第二混合音片段和浊音信号片段，包括：

对所述第一混合音片段进行频率检测，获得所述第一混合音片段的自相关信息；

提取所述第一混合音片段中，自相关信息的峰值高于预设阈值且处于语音信号基音频率范围内的语音片段作为所述浊音信号片段；

将所述第一混合音片段中，除了所述浊音信号片段之外的语音片段作为所述第二混合音片段。

可选的，所述对待检测语音进行预检测，以从所述待检测语音中提取第一混合音片段，包括：

对所述待检测语音进行分帧处理，得到多个待检测语音帧，每个所述待检测语音帧中包含数量相同的采样点；

获取各个所述待检测语音帧的能量值，所述待检测语音帧的能量值是所述待检测语音帧中各个所述采样点的能量值之和；

根据各个所述待检测语音帧的能量值与预设能量值阈值的关系，从所述待检测语音中提取所述第一混合音片段。

可选的，所述根据各个所述待检测语音帧的能量值与预设能量值阈值的关系，从所述待检测语音中提取所述第一混合音片段，包括：

根据各个所述待检测语音帧的能量值与预设能量值阈值的关系，从所述待检测语音中确定至少一个第一类型时间点和至少一个第二类型时间点；所述第一类型时间点是前连续n帧的能量值都小于所述预设能量阈值，且后连续n帧的能量值都大于或等于所述预设能量阈值的时间点；所述第二类型时间点是前连续n帧的能量值都大于或等于所述预设能量阈值，后连续n帧的能量值都小于所述预设能量阈值的时间点；

将目标时间点以及在所述目标时间点之后且在与所述目标时间点相邻的所述第二类型时间点之前的语音片段获取为一个所述第一混合音片段；所述目标时间点是所述至少一个第一类型时间点中的任意一个时间点。

一方面，提供了一种语音端点检测装置，所述装置包括：

预检测模块，用于对待检测语音进行预检测，以从所述待检测语音中提取第一混合音片段，所述第一混合音片段包含语音信号和非稳态噪声信号；

音高检测模块，用于对所述第一混合音片段进行音高检测，以从所述第一混合音片段中提取第二混合音片段和浊音信号片段，所述第二混合音片段中包含所述非稳态噪声信号和清音信号；

起始端点确定模块，用于根据所述第一混合音片段中的第一个浊音信号片段的起始点，确定所述第一混合音片段中的语音起始端点；

结束端点确定模块，用于根据所述第一混合音片段中的最后一个浊音信号片段的结束点，确定所述第一混合音片段中的语音结束端点。

可选的，所述起始端点确定模块，包括：

第一检测子模块，用于当所述第一个浊音信号片段前存在所述第二混合音片段时，在所述第一个浊音信号片段前的预定时域范围内检测能量值；

第一获取子模块，用于在所述预定时域范围内存在能量波谷时，分别获取所述第二混合音片段的起始点与所述第一个浊音信号片段的距离关系以及所述第一个浊音信号片段前指定时长的时间点与所述第一个浊音信号的距离关系；

第一确定子模块，用于确定所述第二混合音片段的起始点与所述第一个浊音信号片段前指定时长的时间点中距离所述第一浊音信号片段最近的一个为所述语音起始端点。

可选的，所述起始端点确定模块，还包括：

第二确定子模块，用于在所述预定时域范围内不存在能量波谷时，将所述第一个浊音信号片段的起始点，作为所述语音起始端点。

可选的，所述结束端点确定模块，用于，

可选的，所述音高检测模块，包括：

第二检测子模块，用于对所述第一混合音片段进行频率检测，获得所述第一混合音片段的自相关信息；

第一提取子模块，用于提取所述第一混合音片段中，自相关信息的峰值高于预设阈值且处于语音信号基音频率范围内的语音片段作为所述浊音信号片段；

确定子模块，用于将所述第一混合音片段中，除了所述浊音信号片段之外的语音片段作为所述第二混合音片段。

可选的，所述预检测模块，包括：

处理子模块，用于对所述待检测语音进行分帧处理，得到多个待检测语音帧，每个所述待检测语音帧中包含数量相同的采样点；

第二获取子模块，用于获取各个所述待检测语音帧的能量值，所述待检测语音帧的能量值是所述待检测语音帧中各个所述采样点的能量值之和；

第二提取子模块，用于根据各个所述待检测语音帧的能量值与预设能量值阈值的关系，从所述待检测语音中提取所述第一混合音片段。

可选的，所述提取子模块，用于，

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述语音端点检测方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述语音端点检测方法。

本申请提供的技术方案可以包括以下有益效果：

通过对待检测语音进行预检测，以从待检测语音中提取包含语音信号和非稳态噪声信号的第一混合音片段，对第一混合音片段进行音高检测，以从第一混合音片段中提取包含非稳态噪声信号和清音信号的第二混合音片段和浊音信号片段，根据第一混合音片段中的第一个浊音信号片段的起始点，确定第一混合音片段中的语音起始端点，根据第一混合音片段中的最后一个浊音信号片段的结束点，确定第一混合音片段中的语音结束端点，在语音信号检测过程中，有效地区分非稳态噪声信号和有效语音信号，提高语音端点检测的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请一个示例性的实施例提供的终端的结构示意图；

图2示出了本申请一个示例性的实施例提供的语音端点检测方法的流程图；

图3示出了本申请一个示例性的实施例提供的语音端点检测方法的流程图；

图4示出了本申请实施例提供的待检测语音的频谱示意图；

图5示出了本申请一个示例性实施例提供的语音端点检测装置的方框图；

图6是根据一个示例性实施例示出的计算机设备的结构框图；

图7是根据一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在语音信号检测过程中，由于非稳态信号通常不具备周期性以及谐波特征，利用传统的端点检测方法无法有效地将非稳态信号与语音信号区分开来。本申请实施例提供一种语音端点检测方法，可以在语音信号检测过程中，有效地区分非稳态噪声信号和语音信号，提高语音端点检测的准确性。为了便于理解，下面对本申请实施例涉及的几个名词进行解释。

1)端点检测

端点检测，也叫语音活动检测(Voice Activity Detection，VAD)，其目的是对语音和非语音的区域进行区分。通俗地理解，端点检测就是将输入的语音信号从背景噪声和环境噪声中准确地判断出语音信号中各种段落的开始点和结束点。

语音端点检测本质上是通过语音和噪声对于相同参数所表现出的不同特征来区分两者。

2)非稳态噪声

非稳态噪声可以包括声音强弱随时间无规律变化的无规律噪声以及突然爆发又很快消失，持续时间较短的脉冲噪声等等。

3)稳态噪声

稳态噪声是指声音的强度随时间变化不显著的噪声。

4)浊音

浊音是指在发音时，声带振动的音，在时域上呈现出明显的周期性，在频域上出现共振峰，且大部分集中在较低频段中，例如在现代汉语中包含有21个声母和39个韵母，对于声母中只有m、n、l、r为浊辅音，而所有韵母都为浊音。

5)清音

清音是指在发音时，声带不振动的音，没有明显的时域和频域特征，类似于白噪声，21个声母中，除m、n、l、r之外的声母均为清音。

6)基音

基音是指发浊音时声带振动所引起的周期性对应的信号基本谐波，基音周期等于声带振动频率的倒数。基音决定了音高。

7)计算机设备

在本申请实施例中，计算机设备可以是终端或服务器。比如，该计算机设备可以是智能手机、平板电脑、电子书阅读器等移动终端，或者，该计算机设备也可以是智能手表等智能可穿戴设备，或者，该计算机设备也可以是一体式电脑等固定终端。

比如，请参考图1，其示出了本申请一个示例性的实施例提供的终端的结构示意图。如图1所示，该终端包括主板110、外部输出/输入设备120、存储器130、外部接口140、触控系统150以及电源160。

其中，主板110中集成有处理器和控制器等处理元件。

外部输出/输入设备120可以包括显示组件(比如显示屏)、语音播放组件(比如扬声器)、语音采集组件(比如麦克风)以及各类按键等。

存储器130中存储有程序代码和数据。

外部接口140可以包括耳机接口、充电接口以及数据接口等。

触控系统150可以集成在外部输出/输入设备120的显示组件或者按键中，触控系统150用于检测用户在显示组件或者按键上执行的触控操作。

电源160用于对终端中的其它各个部件进行供电。

在本申请实施例中，主板110中的处理器可以通过执行或者调用存储器中存储的程序代码和数据来生成界面内容，将生成的界面内容通过外部输出/输入设备120进行展示。在展示界面内容的过程中，可以通过触控系统150检测用户与界面进行交互时执行的触控操作，也可以通过外部输出/输入设备120检测用户与界面进行交互时执行的按键或者其它操作，比如手势操作、语音操作等等。

请参考图2，其为本申请一个示例性的实施例提供的语音端点检测方法的流程图。该语音端点检测方法由计算机设备执行，如图2所示，该语音端点检测方法可以包括以下步骤：

步骤210，对待检测语音进行预检测，以从待检测语音中提取第一混合音片段，该第一混合音片段包含语音信号和非稳态噪声信号。

待检测语音可以包括稳态噪声信号、语音信号以及非稳态噪声信号，其中语音信号可以包括清音和浊音。其中，待检测语音中可以包括至少一段第一混合音片段，也就是说待检测语音中可以有多组语音信号，因此需要将这些包含语音信号的第一混合音片段从待检测语音信号中与稳态噪声进行区分。

语音信号是一种非平稳信号,但是由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比语音振动速度缓慢的得多,因此可以假定语音信号为短时平稳的,即在10至20毫秒这样的时间段内,其频谱特征和某些物理特征参量可以近似的看作是不变的。

语音信号和稳态噪声信号的区别主要体现在能量上，语音信号段的能量比稳态噪声段能量大，语音信号段的能量是噪声信号段能量叠加语音声波能量的和，因此可利用语音信号和稳态噪声信号之间能量的差异从待检测语音中提取出稳态噪声信号，以实现包含语音信号和非稳态噪声信号的第一混合音片段与稳态噪声信号的区分。

步骤220，对第一混合音片段进行音高检测，以从第一混合音片段中提取第二混合音片段和浊音信号片段，该第二混合音片段中包含非稳态噪声信号和清音信号。

音高是指音的高低，音的高低是由振动频率决定的，两者成正比关系，也就是振动频率越高，音高越高，振动频率越低，音高越低。

由于语音信号中的浊音是由声带振动产生的，具有周期性，可以提取出音高，即声带的振动频率；清音在发音时，声带不振动，不具有周期性，没有明显的时域和频域特征；而非稳态噪声信号通常也不具备明显的周期性和谐波特征。因此，利用浊音、清音与非稳态噪声信号各种的声学特性，可以通过音高提取算法从第一混合音片段中提取出浊音信号片段，以实现第一混合片段中的浊音信号片段与包含非稳态噪声信号与清音信号的第二混合音片段的区分。

步骤230，根据第一混合音片段中的第一个浊音信号片段的起始点，确定第一混合音片段中的语音起始端点。

由于语音信号可以包括清音和浊音，且清音往往紧挨着浊音出现，但是浊音前可以存在清音，也可以不存在清音，因此对于浊音前存在清音的情况，可以将第一个浊音信号片段的起始点的清音片段的起始点作为第一混合音频片段中的语音起始端点，对于浊音前不存在清音的情况，可以将第一个浊音信号片段的起始点作为第一混合音的起始点。

步骤240，根据第一混合音片段中的最后一个浊音信号片段的结束点，确定第一混合音片段中的语音结束端点。

在语音信号中，浊音出现在清音之后或者浊音之后，也就是说，一句话的结尾往往是浊音，因此，可以将第一混合音片段中最后一个浊音信号片段的结束点作为第一混合音片段的结束点。

综上所述，本申请实施例中提供的语音端点检测方法，通过对待检测语音进行预检测，以从待检测语音中提取包含语音信号和非稳态噪声信号的第一混合音片段，对第一混合音片段进行音高检测，以从第一混合音片段中提取包含非稳态噪声信号和清音信号的第二混合音片段和浊音信号片段，根据第一混合音片段中的第一个浊音信号片段的起始点，确定第一混合音片段中的语音起始端点，根据第一混合音片段中的最后一个浊音信号片段的结束点，确定第一混合音片段中的语音结束端点，在语音信号检测过程中，有效地区分非稳态噪声信号和语音信号，提高语音端点检测的准确性。

请参考图3，其实除了本申请一个示例性的实施例提供的语音端点检测方法的流程图。该语音端点检测方法由计算机设备执行，如图3所示，该语音端点检测方法可以包括以下步骤：

步骤310，对待检测语音进行分帧处理，得到多个待检测语音帧，每个待检测语音帧中包含数量相同的采样点。

对于一段待检测语音而言，首尾的稳态噪声部分声波的振幅很小，而语音信号部分的振幅比较大，一个信号的振幅从直观上表示了信号能量的大小，请参考图4，其示出了申请实施例提供的待检测语音的频谱示意图。如图4所示，该待检测语音是一段语音信号只有两个字的简单音频，其中音频片段410为稳态噪声部分，音频片段420为语音信号部分，可以看出，语音信号的信号能量远远大于稳态噪声的信号能量。

语音信号是一个以时间为自变量的一维连续函数，为了获取待检测语音的语音能量值得变化，需要先对待检测语音按照固定时长进行分割，比如20毫秒，每个分割单元称为帧，得到多个待检测语音帧，每个待检测语音帧中包含数量相同的采样点。

步骤320，获取各个待检测语音帧的能量值，待检测语音帧的能量值是待检测语音帧中各个采样点的能量值之和。

对每个待检测语音帧中的采样点进行能量检测，由图4可知，采样点的采样值中有正值和负值，但在计算能量值是，不需要考虑采样值的正负号，因此取采样点的采样值的平方作为采样点的能量值，也就是说，一段包含N个采样点的待检测语音帧的能量值可以为其中各个采样点的采样值的平方和。

步骤330，根据各个待检测语音帧的能量值与预设能量值阈值的关系，从待检测语音中提取第一混合音片段。

其中，预设能量阈值可以根据音频起始若干帧的平均值以及根据不同的音频场景的稳态噪声的强度大小来设定。

可选的，根据各个待检测语音帧的能量值与预设能量值阈值的关系，从待检测语音中确定至少一个第一类型时间点和至少一个第二类型时间点；该第一类型时间点是前连续n帧的能量值都小于预设能量阈值，且后连续n帧的能量值都大于或等于预设能量阈值的时间点；该第二类型时间点是前连续n帧的能量值都大于或等于预设能量阈值，后连续n帧的能量值都小于预设能量阈值的时间点；

将目标时间点以及在目标时间点之后且在与目标时间点相邻的第二类型时间点之前的语音片段获取为一个第一混合音片段；该目标时间点是至少一个第一类型时间点中的任意一个时间点。

也就是说，对于待检测音频中的某一段第一混合音片段而言，当前面连续n帧的能量值低于预设能量阈值，且后面连续n帧的能量值都高于预设能量阈值，那么将能量值由低于预设能量阈值变为能量值高于预设能量阈值的时间点作为第一类型时间点，也就是稳态噪声与第一混合音片段的分界点，能量值低于预设能量阈值的部分为稳态噪声，能量值大于预设能量阈值的部分为第一混合音频片段；当前面连续n帧的能量值高于预设能量阈值，且后面连续n帧的能量值都低于预设能量阈值，那么将能量值高于预设能量阈值变为能量值低于预设能量阈值的时间点作为第二类型时间点，也就是第一混合音片段与稳态噪声的分界点，能量值高于预设能量阈值的部分为第一混合音频片段，能量值低于预设能量阈值的部分为稳态噪声。

步骤340，对第一混合音片段进行音高检测，以从第一混合音片段中提取第二混合音片段和浊音信号片段，该第二混合音片段中包含非稳态噪声信号和清音信号。

可选的，对第一混合音片段进行音高检测可以是：

1)对该第一混合音片段进行频率检测，获得第一混合音片段的自相关信息。

2)提取第一混合音片段中，自相关信息的峰值高于预设阈值且处于语音信号基音频率范围内的语音片段作为浊音信号片段。

自相关函数具有若原信号具有周期性，那么它的自相关函数也具有周期性，且周期与原信号的周期性相同的特点。清音信号没有周期性，它的自相关函数R(k)会随着k的增大呈现衰减趋势。浊音发声过程中声带振动的频率称为基频，发浊音时声带振动所引起的周期性对应的信号基本谐波称为基音，基音周期等于声带振动频率的倒数，浊音信号具有周期性，浊音信号的自相关系数R(k)在基音周期整数倍上有很大的峰值，通常取第一最大峰值点为基音周期点。

由于在第一混合音片段中，存在非稳态噪声信号，在一定程度上会对浊音信号的自相关性造成影响，比如，在第一个浊音信号片段中不存在非稳态噪声信号，但在第二个浊音信号片段中存在非稳态噪声信号，由于非稳态噪声信号的影响，会使浊音信号的自相关系数在一定程度上有所降低，但由于非稳态噪声信号的突发性、短暂性的特点，又不会将浊音信号的周期性完全淹没，因此可以预设一个自相关信息的峰值阈值，提取第一混合音片段中自相关信息的峰值高于预设阈值的语音片段作为预定浊音信号片段。

对预定浊音信号片段的频率进行判断，当该预定浊音信号片段处于语音信号基音频率范围内时，则确定该预定浊音信号片段为浊音信号片段，否则，该预定浊音信号片段则不是浊音信号片段，其中语音信号的基音频率范围时根据经验值确定的，可以为80Hz至800Hz之间，并不固定，可以根据应用场景的不同进项调节。

3)将第一混合音片段中，除了浊音信号片段之外的语音片段作为第二混合音片段。

步骤350，当第一个浊音信号片段前存在第二混合音片段时，在第一个浊音信号前的预定时域范围内检测能量值。

由于第二混合音片段中存在的清音和非稳态噪声信号均不具有周期性及谐波特征，因此可以通过浊音与清音之间的时域关系来对清音和非稳态噪声信号进行区别，清音处在浊音之前且紧挨着浊音，若浊音前存在清音，在清音与浊音的过渡过程中，会在两者之间存在一个能量波谷，也就是从能量高的清音信号下降到能量低的浊音信号，若在时域范围内存在能量波谷，则确定在浊音信号前存在清音信号。

步骤360，若在预定时域范围内存在能量波谷，分别获取第二混合音片段的起始点与第一个浊音信号片段的距离关系以及第一个浊音信号片段前指定时长的时间点与第一个浊音信号片段的距离关系。

步骤370，确定第二混合音片段的起始点与第一个浊音信号片段前指定时长的时间点中距离第一浊音信号片段最近的一个为语音起始端点。

当确定在预设时域范围内存在能量波谷，即确定在第一个浊音信号片段前仍存在清音信号，也就是语音信号的起始端点是在清音信号所处的位置，由于清音信号的持续时间较短，因此可以在确定了第一个浊音信号片段之后，可以将第一个浊音信号片段前的指定时长的时间段，作为存在清音信号的时间段，比如，可以将第一浊音信号前100毫秒认为是存在清音信号的时域。

当第二混合音片段的起始点位于指定存在清音信号的时域范围内时，由于第二混合音的起始点距离第一个浊音信号片段较近，则将第二混合音片段的起始点作为语音起始端点；当第二混合音片段的起始点不在指定存在清音信号的时域范围内时，则认为在清音信号前可能存在非稳态噪声信号，为了减少非稳态噪声信号的影响，则将指定存在清音信号的时域的起始点作为语音起始端点。

可选的，若在预定时域范围内不存在能量波谷，则将第一个浊音信号片段的起始点，作为语音起始端点。

在预定时域范围内不存在能量波谷，则说明在第一浊音片段前不存在清音信号，那么第一个浊音信号片段的起始点即为语音起始端点。

步骤380，将最后一个浊音信号片段的结束点，作为语音结束端点。

综上所述，本申请实施例中提供的语音端点检测方法，通过对待检测语音进行预检测，以从待检测语音中提取包含语音信号和非稳态噪声信号的第一混合音片段，对第一混合音片段进行音高检测，以从第一混合音片段中提取包含非稳态噪声信号和清音信号的第二混合音片段和浊音信号片段，根据第一混合音片段中的第一个浊音信号片段的起始点，确定第一混合音片段中的语音起始端点，根据第一混合音片段中的最后一个浊音信号片段的结束点，确定第一混合音片段中的语音结束端点，在语音信号检测过程中，有效地区分非稳态噪声信号和有效语音信号，提高语音端点检测的准确性。

请参考图5，其示出了本申请一个示例性实施例提供的语音端点检测装置的方框图。该装置可以通过软件的形式实现为计算机设备的全部或者部分，以执行图2或图3对应实施例所示的方法的全部或部分步骤。如图5所示，该语音端点检测装置可以包括：

预检测模块510，用于对待检测语音进行预检测，以从待检测语音中提取第一混合音片段，该第一混合音片段包含语音信号和非稳态噪声信号；

音高检测模块520，用于对第一混合音片段进行音高检测，以从第一混合音片段中提取第二混合音片段和浊音信号片段，该第二混合音片段中包含非稳态噪声信号和清音信号；

起始端点确定模块530，用于根据第一混合音片段中的第一个浊音信号片段的起始点，确定第一混合音片段中的语音起始端点；

结束端点确定模块540，用于根据第一混合音片段中的最后一个浊音信号片段的结束点，确定第一混合音片段中的语音结束端点。

可选的，该起始端点确定模块530，包括：

第一检测子模块，用于当第一个浊音信号片段前存在第二混合音片段时，在第一个浊音信号片段前的预定时域范围内检测能量值；

第一获取子模块，用于在预定时域范围内存在能量波谷时，分别获取第二混合音片段的起始点与第一个浊音信号片段的距离关系以及第一个浊音信号片段前指定时长的时间点与第一个浊音信号片段的距离关系；

第一确定子模块，用于确定第二混合音片段的起始点与第一个浊音信号片段前指定时长的时间点中距离第一浊音信号片段最近的一个为语音起始端点。

可选的，该起始端点确定模块530，还包括：

第二确定子模块，用于在预定时域范围内不存在能量波谷时，将第一个浊音信号片段的起始点，作为语音起始端点。

可选的，该结束端点确定模块540，用于，

将最后一个浊音信号片段的结束点，作为语音结束端点。

可选的，该音高检测模块520，包括：

第二检测子模块，用于对第一混合音片段进行频率检测，获得第一混合音片段的自相关信息；

第一提取子模块，用于提取第一混合音片段中，自相关信息的峰值高于预设阈值且处于语音信号基音频率范围内的语音片段作为浊音信号片段；

确定子模块，用于将第一混合音片段中，除了浊音信号片段之外的语音片段作为第二混合音片段。

可选的，该预检测模块510，包括：

处理子模块，用于对待检测语音进行分帧处理，得到多个待检测语音帧，每个待检测语音帧中包含数量相同的采样点；

第二获取子模块，用于获取各个待检测语音帧的能量值，该待检测语音帧的能量值是待检测语音帧中各个采样点的能量值之和；

第二提取子模块，用于根据各个待检测语音帧的能量值与预设能量值阈值的关系，从待检测语音中提取第一混合音片段。

可选的，该提取子模块，用于，

根据各个待检测语音帧的能量值与预设能量值阈值的关系，从待检测语音中确定至少一个第一类型时间点和至少一个第二类型时间点；第一类型时间点是前连续n帧的能量值都小于预设能量阈值，且后连续n帧的能量值都大于或等于预设能量阈值的时间点；第二类型时间点是前连续n帧的能量值都大于或等于预设能量阈值，后连续n帧的能量值都小于预设能量阈值的时间点；

综上所述，本申请实施例中提供的语音端点检测装置，该装置应用于计算机设备中，通过对待检测语音进行预检测，以从待检测语音中提取包含语音信号和非稳态噪声信号的第一混合音片段，对第一混合音片段进行音高检测，以从第一混合音片段中提取包含非稳态噪声信号和清音信号的第二混合音片段和浊音信号片段，根据第一混合音片段中的第一个浊音信号片段的起始点，确定第一混合音片段中的语音起始端点，根据第一混合音片段中的最后一个浊音信号片段的结束点，确定第一混合音片段中的语音结束端点，在语音信号检测过程中，有效地区分非稳态噪声信号和有效语音信号，提高语音端点检测的准确性。

图6是根据一示例性实施例示出的计算机设备600的结构框图。该计算机设备600可以是图1所示的终端，比如智能手机、平板电脑或台式电脑。计算机设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的方法。

在一些实施例中，计算机设备600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置计算机设备600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在计算机设备600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在计算机设备600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位计算机设备600的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为计算机设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以计算机设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测计算机设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对计算机设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在计算机设备600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在计算机设备600的侧边框时，可以检测用户对计算机设备600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置计算机设备600的正面、背面或侧面。当计算机设备600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在计算机设备600的前面板。接近传感器616用于采集用户与计算机设备600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对计算机设备600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是根据一示例性实施例示出的计算机设备700的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备700包括中央处理单元(CentralProcessing Unit，CPU)701、包括随机存取存储器(Random Access Memory，RAM)702和只读存储器(Read-Only Memory，ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。所述计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

所述基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说，所述大容量存储设备707可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(Digitalversatile disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本申请的各种实施例，所述计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在所述系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器701通过执行该一个或一个以上程序来实现图2或图3所示的方法的全部或者部分步骤。

本领域技术人员可以理解，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本申请实施例还提供了一种计算机可读存储介质，用于存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述语音端点检测方法。例如，该计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音端点检测方法，其特征在于，所述方法包括：

对待检测语音进行预检测，以从所述待检测语音中提取第一混合音片段，所述第一混合音片段包含语音信号和非稳态噪声信号，所述语音信号包括清音和浊音；

当所述第一混合音片段中的第一个浊音信号片段前存在所述第二混合音片段时，在所述第一个浊音信号片段前的预定时域范围内检测能量值；

若在所述预定时域范围内存在能量波谷，确定在所述第一个浊音信号片段前存在清音信号；

当所述第二混合音片段的起始点位于指定存在清音信号的时域范围内时，将所述第二混合音片段的起始点作为所述第一混合音片段中的语音起始端点；当所述第二混合音片段的起始点不在所述指定存在清音信号的时域范围内时，将指定存在清音信号的时域的起始点作为所述语音起始端点；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一混合音片段中的最后一个浊音信号片段的结束点，确定所述第一混合音片段中的语音结束端点，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述第一混合音片段进行音高检测，以从所述第一混合音片段中提取第二混合音片段和浊音信号片段，包括：

提取所述第一混合音片段中，所述自相关信息的峰值高于预设阈值且处于语音信号基音频率范围内的语音片段作为所述浊音信号片段；

5.根据权利要求1所述的方法，其特征在于，所述对待检测语音进行预检测，以从所述待检测语音中提取第一混合音片段，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据各个所述待检测语音帧的能量值与预设能量值阈值的关系，从所述待检测语音中提取所述第一混合音片段，包括：

7.一种语音端点检测装置，其特征在于，所述装置包括：

预检测模块，用于对待检测语音进行预检测，以从所述待检测语音中提取第一混合音片段，所述第一混合音片段包含语音信号和非稳态噪声信号，所述语音信号包括清音和浊音；

起始端点确定模块，用于当所述第一混合音片段中的第一个浊音信号片段前存在所述第二混合音片段时，在所述第一个浊音信号片段前的预定时域范围内检测能量值；若在所述预定时域范围内存在能量波谷，确定在所述第一个浊音信号片段前存在清音信号；当所述第二混合音片段的起始点位于指定存在清音信号的时域范围内时，将所述第二混合音片段的起始点作为所述第一混合音片段中的语音起始端点；当所述第二混合音片段的起始点不在所述指定存在清音信号的时域范围内时，将指定存在清音信号的时域的起始点作为所述语音起始端点；

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至6任一所述的语音端点检测方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至6任一所述的语音端点检测方法。