CN111613250B

CN111613250B - 长语音端点检测方法与装置、存储介质、电子设备

Info

Publication number: CN111613250B
Application number: CN202010640716.3A
Authority: CN
Inventors: 黄洪运; 李红岩; 刘岩
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-07-18
Anticipated expiration: 2040-07-06
Also published as: CN111613250A

Abstract

本公开属于语音检测技术领域，涉及一种长语音端点检测方法及装置、计算机可读存储介质、电子设备。该方法包括：获取待检测长语音的语音信号，并对语音信号进行分窗处理得到检测窗；在检测窗中确定一采样点为起始检测点，并计算起始检测点的起始能量比率；根据起始检测点确定另一采样点为终止检测点，并计算终止检测点的终止能量比率；根据起始能量比率确定起始检测点为待检测长语音的语音起始点，并根据终止能量比率确定终止检测点为待检测长语音的语音终止点。本公开减少对短促语音片段的孤立，使得端点检测更连贯，进一步减少了后续合并处理工作带来的复杂度，避免了漏掉有效语音片段，也使得端点检测的准确度更高。

Description

长语音端点检测方法与装置、存储介质、电子设备

技术领域

本公开涉及语音检测技术领域，尤其涉及一种长语音端点检测方法与长语音端点检测装置、计算机可读存储介质及电子设备。

背景技术

语音信号端点检测技术是语音信号处理技术中一个非常重要的方向，目的是从一段包含语音的信号中准确地检测出语音的起始点和终止点，以区分语音信号和非语音信号。有效的语音信号端点检测不仅能在语音识别、声纹识别等系统中减少语音数据采集的成本，节约处理时间，还能排除无声段和噪声段的干扰，提升系统的性能。

目前应用最为广泛的语音信号端点检测技术是双门限法。双门限法根据信号的短时能量和短时过零率这两个特征参数来区分语音和非语音。但是，双门限法需要设置很多阈值，对于底噪不同的语音信号，每一次都调整阈值几乎是不可能的。除此之外，双门限法用到的的都是短时的特征，在应用于长语音时，很容易判断失误。

鉴于此，本领域亟需开发一种新的长语音端点检测方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种长语音端点检测方法、长语音端点检测装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的检测不准确和长语音不适用等问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本发明实施例的第一个方面，提供一种长语音端点检测方法，所述方法包括：获取待检测长语音的语音信号，并对所述语音信号进行分窗处理得到检测窗；

在所述检测窗中确定一采样点为起始检测点，并计算所述起始检测点的起始能量比率；

根据所述起始检测点确定另一采样点为终止检测点，并计算所述终止检测点的终止能量比率；

根据所述起始能量比率确定所述起始检测点为所述待检测长语音的语音起始点，并根据所述终止能量比率确定所述终止检测点为所述待检测长语音的语音终止点。

在本发明的一种示例性实施例中，所述计算所述起始检测点的起始能量比率，包括：获取所述起始检测点之前的第一前序采样点的第一前序幅值，并获取所述起始检测点之后的第一后序采样点的第一后序幅值；

对所述第一前序幅值和所述第一后序幅值进行计算得到起始能量比率。

在本发明的一种示例性实施例中，所述对所述第一前序幅值和所述第一后序幅值进行计算得到起始能量比率，包括：对所述第一前序幅值进行计算得到第一前序能量值，并对所述第一后序幅值进行计算得到第一后序能量值；

对所述第一前序能量值和所述第一后序能量值进行计算得到起始能量比率。

在本发明的一种示例性实施例中，所述计算所述终止检测点的终止能量比率，包括：获取所述终止检测点之前的第二前序采样点的第二前序幅值，并获取所述终止检测点之后的第二后序采样点的第二后序幅值；

对所述第二前序幅值和所述第二后序幅值进行计算得到终止能量比率。

在本发明的一种示例性实施例中，所述对所述第二前序幅值和所述第二后序幅值进行计算得到终止能量比率，包括：对所述第二前序幅值进行计算得到第二前序能量值，并对所述第二后序幅值进行计算得到第二后序能量值；

对所述第二前序能量值和所述第二后序能量值进行计算得到终止能量比率。

在本发明的一种示例性实施例中，所述根据所述起始能量比率确定所述起始检测点为所述待检测长语音的语音起始点，包括：确定与所述起始能量比率对应的起始比率阈值，并对所述起始能量比率与所述起始比率阈值进行比较；

根据比较结果确定所述起始检测点为所述待检测长语音的语音起始点。

在本发明的一种示例性实施例中，所述根据所述终止能量比率确定所述终止检测点为所述待检测长语音的语音终止点，包括：计算所述起始比率阈值的倒数值，并将所述倒数值确定为与所述终止能量比率对应的终止比率阈值；

对所述终止能量比率与所述终止比率阈值进行比较，并根据比较结果确定所述终止检测点为所述待检测长语音的语音终止点。

根据本发明实施例的第二个方面，提供一种长语音端点检测装置，所述装置包括：分窗处理模块，被配置为获取待检测长语音的语音信号，并对所述语音信号进行分窗处理得到检测窗；

起始检测模块，被配置为在所述检测窗中确定一采样点为起始检测点，并计算所述起始检测点的起始能量比率；

终止检测模块，被配置为根据所述起始检测点确定另一采样点为终止检测点，并计算所述终止检测点的终止能量比率；

检测确定模块，被配置为根据所述起始能量比率确定所述起始检测点为所述待检测长语音的语音起始点，并根据所述终止能量比率确定所述终止检测点为所述待检测长语音的语音终止点。

根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的长语音端点检测方法。

根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的长语音端点检测方法。

由上述技术方案可知，本发明示例性实施例中的长语音端点检测方法、长语音端点检测装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，通过对待检测长语音进行分窗处理后的每一个检测窗的起始检测点和终止检测点的计算，可以确定待检测长语音中的所有语音起始点和语音终止点。一方面，检测窗的长度可以适应性的设置为与待检测长语音适用的超长窗口，减少对短促语音片段的孤立，使得端点检测更连贯，也进一步减少了后续合并处理工作带来的复杂度；另一方面，对语音起始点和语音终止点的确定方式更为严谨缜密，避免了漏掉有效语音片段的情况发生，也使得端点检测的准确度更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种长语音端点检测方法的流程图；

图2示意性示出本公开示例性实施例中计算起始能量比率的方法的流程示意图；

图3示意性示出本公开示例性实施例中进一步计算起始能量比率的方法的流程示意图；

图4示意性示出本公开示例性实施例中计算终止能量比率的方法的流程示意图；

图5示意性示出本公开示例性实施例中进一步计算终止能量比率的方法的流程示意图；

图6示意性示出本公开示例性实施例中确定语音起始点的方法的流程示意图；

图7示意性示出本公开示例性实施例中确定语音终止点的方法的流程示意图；

图8示意性示出现有技术中利用双门限法进行语音端点检测的效果示意图；

图9示意性示出本公开示例性实施例中在应用场景中的长语音端点检测方法的模块示意图；

图10示意性示出本公开示例性实施例中一种长语音端点检测装置的结构示意图；

图11示意性示出本公开示例性实施例中一种用于实现长语音端点检测方法的电子设备；

图12示意性示出本公开示例性实施例中一种用于实现长语音端点检测方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

针对相关技术中存在的问题，本公开提出了一种长语音端点检测方法。图1示出了长语音端点检测方法的流程图，如图1所示，长语音端点检测方法至少包括以下步骤：

步骤S110.获取待检测长语音的语音信号，并对语音信号进行分窗处理得到检测窗。

步骤S120.在检测窗中确定一采样点为起始检测点，并计算起始检测点的起始能量比率。

步骤S130.根据起始检测点确定另一采样点为终止检测点，并计算终止检测点的终止能量比率。

步骤S140.根据起始能量比率确定起始检测点为待检测长语音的语音起始点，并根据终止能量比率确定终止检测点为待检测长语音的语音终止点。

在本公开的示例性实施例中，通过对待检测长语音进行分窗处理后的每一个检测窗的起始检测点和终止检测点的计算，可以确定待检测长语音中的所有语音起始点和语音终止点。一方面，检测窗的长度可以适应性的设置为与待检测长语音适用的超长窗口，减少对短促语音片段的孤立，使得端点检测更连贯，也进一步减少了后续合并处理工作带来的复杂度；另一方面，对语音起始点和语音终止点的确定方式更为严谨缜密，避免了漏掉有效语音片段的情况发生，也使得端点检测的准确度更高。

下面对长语音端点检测方法的各个步骤进行详细说明。

在步骤S110中，获取待检测长语音的语音信号，并对语音信号进行分窗处理得到检测窗。

在本公开的一种示例性实施例中，待检测长语音可以是一段大于3秒的语音，该语音中包含有语音信号，可以为后续的端点检测提供处理基础。

举例而言，该待检测长语音可以是车载环境语音、室内环境语音和异常语音等任意情况下的语音，本示例性实施例对此不做特殊限定。

进一步的，在获取到待检测长语音的语音信号之后，可以进一步对语音信号进行分窗处理。

举例而言，分窗处理的窗口长度可以设置为1秒，窗口重叠的长度设置为0.1秒，以此进行分窗处理得到各个检测窗。

因此，第一个检测窗包含的语音信号可以是S(0)到S(n)，第二个检测窗包含的语音信号可以是S(0.9n)到S(1.9n)，……，以此类推得到多个检测窗。

具体得到的检测窗的个数可以根据公式(1)确定：

n＝W_L×SimpleRate (1)

其中，W_L为窗口长度，亦即1秒；SimpleRate为检测窗的采样率，采样率定义了每秒从连续信号中提取并组成离散信号的采样个数，用赫兹(Hz)来表示。

值得说明的是，为保证检测窗的完整性，当分到最后一个检测窗且不足一个窗口长度时，可以用语音信号的均值补齐最后一个检测窗剩余的语音信号值。

在步骤S120中，在检测窗中确定一采样点为起始检测点，并计算起始检测点的起始能量比率。

在本公开的一种示例性实施例中，以第一个检测窗为例，可以选择第一个检测窗的第二个采样点作为起始检测点。若在1秒内采样8000个点，则第一个检测窗中就有8000个采样点，选择其中的第二个采样点作为起始采样点，以进一步计算起始能量比率。

值得说明的是，其他检测窗也可以选择窗口内的第二个采样点作为起始检测点，并且第一检测窗和其他检测窗还可以选择其他采样点作为起始检测点，本示例性实施例对此不做特殊限定。

在可选的实施例中，图2示出了计算起始能量比率的方法的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤S210中，获取起始检测点之前的第一前序采样点的第一前序幅值，并获取起始采样点之后的第一后序采样点的第一后序幅值。

举例而言，当选择第一个检测窗的第二个采样点为起始检测点时，可以确定只有第一个检测窗的第一个采样点为第一前序采样点，因此获取第一个采样点的幅值作为第一前序幅值即可；当选择第二个检测窗的第五个采样点为起始检测点时，第二个检测窗中的前四个采样点共同作为第一前序采样点，并分别获取四个采样点的幅值共同作为第一前序幅值。

对应的，选择第一个检测窗的第二个采样点为起始检测点时，可以确定第一个检测窗中从第三个采样点开始直至第一个检测窗结束的所有采样点共同作为第一后序采样点，并且剩余所有采样点的幅值共同作为第一后序幅值；当第一个检测窗的倒数第二个采样点为起始检测点时，仅将第一个检测窗的最后一个采样点作为第一后序采样点，并把最后一个采样点的幅值作为第一后序幅值。

值得说明的是，第一前序采样点、第一前序幅值、第一后序采样点和第一后序幅值可以有一个，也可以有多个，本示例性实施例对此不做特殊限定。

除此之外，除第一个检测窗之外的其他检测窗同样适用第一前序采样点、第一前序幅值、第一后序采样点和第一后序幅值的确定方式，在此不再赘述。

在步骤S220中，对第一前序幅值和第一后序幅值进行计算得到起始能量比率。

在获得第一前序幅值和第一后序幅值之后可以对应计算起始能量比率。并且，不论第一前序幅值和第一后序幅值有一个还是多个，都可以按照以下方式进行计算。

在可选的实施例中，图3示出了进一步计算起始能量比率的方法的流程示意图，如图3所示，该方法至少包括以下步骤：

在步骤S310中，对第一前序幅值进行计算得到第一前序能量值，并对第一后序幅值进行计算得到第一后序能量值。

其中，第一前序能量值可以是第一前序采样点的短时能量均值，第一后序能量值可以是第一后序采样点的短时能量均值。

短时能量是语音特征参数之一，是对语音信号对直观的表示。语音信号的能量分析是基于语音信号幅值随着时间变化的这一现象。短时能量可以用于区分语音的清音段和浊音段，短时能量较大的对应于清音段，短时能量较小的对应于浊音段。

对于高信噪比的信号可以用短时能量判断有无语音。无语音信号的噪声的短时能量较小，有语音信号时短时能量会显著增大，由此可以区分语音信号的起始点和终止点。除此之外，短时能量还可以用来区分声母和韵母的分界，以及连字的分界等。

具体的，可以根据公式(2)计算对应的第一前序能量值：

起始采样点为a，s(i)是第i个第一前序采样点的第一前序幅值。

对应的，可以根据公式(3)计算对应的第一后序能量值：

同样的，起始采样点为a，s(i)是第i个第一后序采样点的第一后序幅值。

除此之外，第一前序能量值和第一后序能量值还可以是其他表征语音信号特征的参数，本示例性实施例对此不做特殊限定。

在步骤S320中，对第一前序能量值和第一后序能量值进行计算得到起始能量比率。

当计算得到第一前序能量值和第一后序能量值之后，可以进一步计算与起始检测点对应的起始能量比率。

具体的，可以参考公式(4)进行计算：

在本示例性实施例中，根据第一前序能量值和第一后序能量值可以计算得到起始能量比率，为确定语音起始点提供了数据基础，可以在后续更为准确且逻辑缜密的确定语音起始点。

在步骤S130中，根据起始检测点确定另一采样点为终止检测点，并计算终止检测点的终止能量比率。

在本公开的一种示例性实施例中，根据起始点确定另一采样点为终止检测点时，可以有两种情况。

具体的，以第一个检测窗为例，在第一个检测窗的第二个采样点为起始检测点之后，还存在其他采样点，可以确定第三个采样点为终止检测点。除此之外，也可以选择第二个采样点之后的任意一个采样点作为终止检测点，本示例性实施例对此不做特殊限定。

另一种情况是在第一个检测窗的最后一个采样点为起始检测点之后，第一个检测窗不存在其他采样点，那么可以在第二个检测窗中确定一个采样点为终止检测点。当在第二个检测窗中确定终止采样点时，可以是第二个检测窗中的任意一个采样点，本示例性实施例对此不做特殊限定。

总而言之，根据起始检测点确定的终止检测点可以是在同一检测窗内的，也可以是在不同检测窗的。

当当前检测窗中不存在其他采样点时，可以在下一检测窗中先确定当前检测窗的终止检测点，再确定下一检测窗的语音起始点。

当确定终止检测点之后，可以进一步计算与终止检测点对应的终止能量比率。

在可选的实施例中，图4示出了计算终止能量比率的方法的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S410中，获取终止检测点之前的第二前序采样点的第二前序幅值，并获取终止检测点之后的第二后序采样点的第二后序幅值。

举例而言，当选择第一个检测窗的第二个采样点为终止检测点时，可以确定只有第一个检测窗的第一个采样点为第二前序采样点，因此获取第一个采样点的幅值作为第二前序幅值即可；当选择第二个检测窗的第五个采样点为终止检测点时，则二个检测窗中的前四个采样点共同作为第二前序采样点，并分别获取四个采样点的幅值共同作为第二前序幅值。

对应的，选择第一个检测窗的第二个采样点为终止检测点时，可以确定第一个检测窗中从第三个采样点开始直至第一个检测窗结束的所有采样点共同作为第二后序采样点，并且剩余所有采样点的幅值共同作为第二后序幅值；当第一个检测窗的倒数第二个采样点为终止检测点时，仅将第一个检测窗的最后一个采样点作为第二后序采样点，并把最后一个采样点的幅值作为第二后序幅值。

值得说明的是，第二前序采样点、第二前序幅值、第二后序采样点和第二后序幅值可以有一个，也可以有多个，本示例性实施例对此不做特殊限定。

除此之外，除第一个检测窗之外的其他检测窗同样适用第二前序采样点、第二前序幅值、第二后序采样点和第二后序幅值的确定方式，在此不再赘述。

在步骤S420中，对第二前序幅值和第二后序幅值进行计算得到终止能量比率。

在获得第二前序幅值和第二后序幅值之后可以对应计算终止能量比率。并且，不论第二前序幅值和第二后序幅值有一个还是多个，都可以按照以下方式进行计算。

在可选的实施例中，图5示出了进一步计算终止能量比率的方法的流程示意图，如图5所示，该方法至少包括以下步骤：在步骤S510中，对第二前序幅值进行计算得到第二前序能量值，并对第二后序幅值进行计算得到第二后序能量值。

其中，第二前序能量值可以是第二前序采样点的短时能量均值，第二后序能量值可以是第二后序采样点的短时能量均值。

因此，第二前序能量值和第二后序能量值的计算方式与步骤S310相同，在此不再赘述。

除此之外，第二前序能量值和第二后序能量值还可以是其他表征语音信号特征的参数，本示例性实施例对此不做特殊限定。

在步骤S520中，对第二前序能量值和第二后序能量值进行计算得到终止能量比率。

当计算得到第二前序能量值和第二后序能量值之后，可以进一步计算与终止检测点对应的终止能量比率。

具体的，可以参考公式(5)进行计算：

在本示例性实施例中，根据第二前序能量值和第二后序能量值可以计算得到终止能量比率，为确定语音终止点提供了数据基础，可以在后续更为准确且逻辑缜密的确定语音终止点。

在步骤S140中，根据起始能量比率确定起始检测点为待检测长语音的语音起始点，并根据终止能量比率确定终止检测点为待检测长语音的语音终止点。

在本公开的一种示例性实施例中，确定起始能量比率和终止能量比率之后，可以进一步确定起始检测点是否为待检测长语音的语音起始点，以及终止检测点是否为待检测长语音的语音终止点。

其中，图6和图7分别示出了确定语音起始点和语音终止点的方法。

在可选的实施例中，图6示出了确定语音起始点的方法的流程示意图，如图6所示，该方法至少包括以下步骤：在步骤S610中，确定与起始能量比率对应的起始比率阈值，并对起始能量比率与起始比率阈值进行比较。

其中，该起始比率阈值可以是为根据起始能量比率确定起始检测点是否为语音起始点设定的阈值。该起始比率阈值的大小可以根据实际情况进行设定，本示例性实施例对此不做特殊限定。

在确定起始比率阈值之后，可以将起始能量比率与起始比率阈值进行比较。具体的，当起始比率阈值为r，起始能量比率为R_a时，可以将二者进行比较。

在步骤S620中，根据比较结果确定起始检测点为待检测长语音的语音起始点。

具体的，当r>R_a时，亦即起始比率阈值>起始能量比率时，可以确定与起始能量比率对应的起始检测点为待检测长语音的语音起始点；否则选取该起始检测点的下一采样点进行下一检测窗的计算和确定，直至确定待检测长语音的语音起始点。

在本示例性实施例中，根据起始比率阈值可以进一步确定与起始能量比率对应的起始检测点是否为语音起始点，确定方式简单且逻辑严谨，实用性极强。

在可选的实施例中，图7示出了确定语音终止点的方法的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，计算起始比率阈值的倒数值，并将倒数值确定为与终止能量比率对应的终止比率阈值。

对比公式(4)和公式(5)可以发现，起始能量比率与终止能量比率的计算方式正好是倒数关系，因此终止比率阈值也可以是与起始比率阈值存在倒数关系的阈值。

其中，该终止比率阈值可以是为根据终止能量比率确定终止检测点是否为语音终止点设定的阈值。

值得说明的是，该终止比率阈值可以是起始比率阈值的倒数值，也可以根据实际情况进行设定，本示例性实施例对此不做特殊限定。

在确定终止比率阈值之后，可以将终止能量比率与终止比率阈值进行比较。举例而言，当终止比率阈值为1/r，终止能量比率为R_a时，可以将二者进行比较。

在步骤S720中，对终止能量比率与终止比率阈值进行比较，并根据比较结果确定终止检测点为待检测长语音的语音终止点。

具体的，当1/r<R_a，亦即终止比率阈值<终止能量比率时，可以确定与终止能量比率对应的终止检测点为待检测长语音的语音终止点；否则选取该终止检测点的下一采样点进行下一轮的计算和确定，直至确定待检测长语音的语音终止点。

在本示例性实施例中，根据终止比率阈值可以进一步确定与终止能量比率对应的终止检测点是否为语音终止点，确定方式简单且逻辑严谨，实用性极强。

下面结合一应用场景对本公开实施例中的长语音端点检测方法做出详细说明。

在声纹识别模型训练和注册测试过程中都需要端点检测，采集来的音频或者开源数据集音频都包含很多非语音段，分布在语音段之前、语音段之后和语音段中间。注册和测试的时候，每个音频选取3s的时间长度，如果不去除这些无效的音频信号段，每个音频文件3s内的语音段所占的时间会大打折扣，加上无效语音段的干扰，很多声学特征的提取计算也会出现误差。在声学模型训练过程中，过多的无效语音段浪费了算力。

在现有技术中应用最为广泛的就是双门限法。双门限法可以利用语音信号的短时能量和短时过零率这两个特征参数区分语音片段和非语音片段。

具体的可以参考图8。图8示出了利用双门限法进行语音端点检测的效果示意图，如图8所示，在接收到待检测语音时，可以获取待检测语音的短时能量和短时过零率。

其中，短时能量就是一帧信号内时域信号幅度值的平方和，短时过零率就是一段时间内时域信号值穿过零电平的次数与信号值长度的比率。具体检测方法是根据经验自定义高低两个门限，当声音信号以上的任一特征参数值超过低门限时进入过渡期，若以上任一特征参数值大于高门限且在接下来的自定义时间内特征参数值都大于低门限，就认为这一段是语音段，否则就认为是非语音段。用双门限法难以确定阈值，致使在说话声音很小，亦即绝对能量值很小时，整个音频都被误判成了非语音段。

除了短时能量和短时过零率，其他的语音信号特征参数还有倒谱和熵等。

基于倒谱的端点检测方法类似于基于短时能量的检测方法，用倒谱距离代替短时能量进行判断。基于熵的端点检测方法原理是非语音段的幅值变化范围相比于语音段要小很多，所以非语音段的信号值分布会更集中一些，也就是非语音段的熵也要比语音段小很多。

根据幅值的熵的差异这一特征来区分语音和非语音就是基于熵的端点检测方法。

深度学习也被应用到端点检测的过程中，用神经网络强大的拟合、学习能力，判断当前点在前后环境中应该是语音还是非语音，但是神经网络所需的训练数据庞大，参数冗杂，致使训练难度大，所以相应的研究还有很大的发力空间。

总的来说，端点检测是很多语音分析系统信号预处理中影响非常大的一个步骤，也是十分具有挑战性的一个难点问题。

因此，在实际应用场景下应用本公开中的长语音端点检测方法能将声音很小的语音段检测出来，避免了漏掉有效语音段，使训练语料更丰富，模型更健壮。

图9示出了在应用场景下的长语音端点检测方法的流程示意图，如图9所示，在步骤S910中，获取待检测长语音的语音信号，亦即原始时序信号。

待检测长语音可以是一段大于3秒的语音，该语音中包含有语音信号，可以为后续的端点检测提供处理基础。

在步骤S920中，对语音信号进行分窗处理得到检测窗。

在步骤S930中，在检测窗中确定一个采样点为起始检测点。

以第一个检测窗为例，可以选择第一个检测窗的第二个采样点作为起始检测点。

在步骤S940中，计算起始检测点的起始能量比率以确定该检测窗中是否有语音起始点。

具体的，可以首先对第一前序幅值进行计算得到第一前序能量值，并对第一后序幅值进行计算得到第一后序能量值。然后，对第一前序能量值和第一后序能量值进行计算得到起始能量比率，以确定语音起始点。

在步骤S941中，当在该检测窗中确定语音检测点为语音起始点时，可以进一步在该检测中确定另一个采样点为终止检测点。

根据起始检测点确定的终止检测点可以是在同一检测窗内的，也可以是在不同检测窗的。当当前检测窗中不存在其他采样点时，可以在下一检测窗中先确定当前检测窗的终止检测点，再确定下一轮的语音起始点。

在步骤S950中，计算终止检测点的终止能量比率以确定该检测窗中是否有语音终止点。

具体的，可以首先对第二前序幅值进行计算得到第二前序能量值，并对第二后序幅值进行计算得到第二后序能量值。然后，对第二前序能量值和第二后序能量值进行计算得到终止能量比率，以确定语音终止点。

当确定该检测窗中有语音终止点时，可以继续检测下一检测窗中的语音起始点和语音终止点，直至检测出待检测长语音中的所有语音起始点和语音终止点。

在步骤S942中，当在该检测窗中确定语音检测点不作为语音起始点时，可以在该检测窗口的下一检测窗中确定一起始检测点继续检测，直至待检测长语音的所有起始检测点检测结束。

在步骤S951中，当确定该检测窗中不存在语音终止点时，可以在该检测窗的下一检测窗中确定一终止检测点继续检测，直至待检测长语音的所有终止检测点检测结束。

在步骤S952中，将在待检测长语音中检测到可以作为语音终止点的终止检测点均标记为该待检测长语音的语音终止点。

在步骤S960中，当检测到待检测长语音中的所有语音起始点和语音终止点之后，则该待检测长语音的端点检测过程结束。

值得说明的是，待检测长语音中的语音起始点可以有一个，也可以有多个，本示例性实施例对此不做特殊限定。

对应的，待检测长语音中的语音终止点也可以有一个或多个，本示例性实施例对此不做特殊限定。

当检测到待检测长语音的语音起始点和语音终止点之后，可以将两个端点作为语音端点检测的结果。除此之外，还可以根据实际需求根据两个端点确定待检测长语音中的语音片段的长度作为语音端点检测结果。具体的可以根据检测出的语音起始点和语音终止点之间的时间跨度得到。除此之外，还可以根据检测到的语音起始点和语音终止点得到其他语音端点检测结果，本示例性实施例对此不做特殊限定。

本公开通过对待检测长语音进行分窗处理后的每一个检测窗的起始检测点和终止检测点的计算，可以确定待检测长语音中的所有语音起始点和语音终止点。一方面，检测窗的长度可以适应性的设置为与待检测长语音适用的超长窗口，减少对短促语音片段的孤立，使得端点检测更连贯，也进一步减少了后续合并处理工作带来的复杂度；另一方面，对语音起始点和语音终止点的确定方式更为严谨缜密，避免了漏掉有效语音片段的情况发生，也使得端点检测的准确度更好，更适用于采集端和分析端。

需要说明的是，虽然以上示例性实施例的实施方式以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或者必须执行全部的步骤才能实现期望的结果。附加地或者备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

此外，在本公开的示例性实施例中，还提供一种长语音端点检测装置。图10示出了长语音端点检测装置的结构示意图，如图10所示，长语音端点检测装置1000可以包括：分窗处理模块1010、起始检测模块1020、终止检测1030和检测确定模块1040。其中：

分窗处理模块1010，被配置为获取待检测长语音的语音信号，并对语音信号进行分窗处理得到检测窗；

起始检测模块1020，被配置为在检测窗中确定一采样点为起始检测点，并计算起始检测点的起始能量比率；

终止检测1030，被配置为根据起始检测点确定另一采样点为终止检测点，并计算终止检测点的终止能量比率；

检测确定模块1040，被配置为根据起始能量比率确定起始检测点为待检测长语音的语音起始点，并根据终止能量比率确定终止检测点为待检测长语音的语音终止点。

上述长语音端点检测装置的具体细节已经在对应的长语音端点检测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了长语音端点检测装置1000的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图11来描述根据本发明的这种实施例的电子设备1100。图11显示的电子设备1100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130、显示单元1140。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1110执行，使得所述处理单元1110执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1121和/或高速缓存存储单元1122，还可以进一步包括只读存储单元(ROM)1123。

存储单元1120还可以包括具有一组(至少一个)程序模块1125的程序/实用工具1124，这样的程序模块1125包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1100也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1100交互的设备通信，和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且，电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1140通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图12所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1200，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种长语音端点检测方法，其特征在于，所述方法包括：

获取待检测长语音的语音信号，并对所述语音信号进行分窗处理得到检测窗，其中，所述待检测长语音是大于3秒的语音，所述语音中包含有语音信号；

在所述检测窗中确定一采样点为起始检测点，并获取所述起始检测点之前的第一前序采样点的第一前序幅值，并获取所述起始检测点之后的第一后序采样点的第一后序幅值；对所述第一前序幅值和所述第一后序幅值进行计算得到所述起始检测点的起始能量比率；

根据所述起始检测点确定另一采样点为终止检测点，并获取所述终止检测点之前的第二前序采样点的第二前序幅值，并获取所述终止检测点之后的第二后序采样点的第二后序幅值；对所述第二前序幅值和所述第二后序幅值进行计算得到所述终止检测点的终止能量比率；

2.根据权利要求1所述的长语音端点检测方法，其特征在于，所述对所述第一前序幅值和所述第一后序幅值进行计算得到起始能量比率，包括：

对所述第一前序幅值进行计算得到第一前序能量值，并对所述第一后序幅值进行计算得到第一后序能量值；

3.根据权利要求1所述的长语音端点检测方法，其特征在于，所述对所述第二前序幅值和所述第二后序幅值进行计算得到终止能量比率，包括：

对所述第二前序幅值进行计算得到第二前序能量值，并对所述第二后序幅值进行计算得到第二后序能量值；

4.根据权利要求1所述的长语音端点检测方法，其特征在于，所述根据所述起始能量比率确定所述起始检测点为所述待检测长语音的语音起始点，包括：

确定与所述起始能量比率对应的起始比率阈值，并对所述起始能量比率与所述起始比率阈值进行比较；

5.根据权利要求4所述的长语音端点检测方法，其特征在于，所述根据所述终止能量比率确定所述终止检测点为所述待检测长语音的语音终止点，包括：

计算所述起始比率阈值的倒数值，并将所述倒数值确定为与所述终止能量比率对应的终止比率阈值；

6.一种长语音端点检测装置，其特征在于，包括：

分窗处理模块，被配置为获取待检测长语音的语音信号，并对所述语音信号进行分窗处理得到检测窗，其中所述待检测长语音是大于3秒的语音，所述语音中包含有语音信号；

起始检测模块，被配置为在所述检测窗中确定一采样点为起始检测点，并获取所述起始检测点之前的第一前序采样点的第一前序幅值，并获取所述起始检测点之后的第一后序采样点的第一后序幅值；对所述第一前序幅值和所述第一后序幅值进行计算得到所述起始检测点的起始能量比率；

终止检测模块，被配置为根据所述起始检测点确定另一采样点为终止检测点，并获取所述终止检测点之前的第二前序采样点的第二前序幅值，并获取所述终止检测点之后的第二后序采样点的第二后序幅值；对所述第二前序幅值和所述第二后序幅值进行计算得到所述终止检测点的终止能量比率；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述的长语音端点检测方法。

8.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行如权利要求1-5中任意一项所述的长语音端点检测方法。