CN110910905A

CN110910905A - 静音点检测方法及装置、存储介质、电子设备

Info

Publication number: CN110910905A
Application number: CN201811084482.8A
Authority: CN
Inventors: 李萧萧; 李俊玲
Original assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Current assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2020-03-24
Anticipated expiration: 2038-09-18
Also published as: CN110910905B

Abstract

本公开涉及计算机技术领域，尤其涉及一种静音点检测方法及装置、存储介质、电子设备。该方法包括：在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息；根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2D CNN、五层Bi‑GRU RNN以及一个全连接层的端到端神经网络；根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口，并通过所述静音窗口确定静音点。本公开提高了静音点的检测准确率。

Description

静音点检测方法及装置、存储介质、电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种静音点检测方法及装置、存储介质、电子设备。

背景技术

语音识别是各行各业的客服智能质检的一个重要环节，传统的语音识别技术往往聚焦在如何提升字的识别的准确率。然而，语音识别的前处理对质检的整体效果有着重要的影响。例如，语音识别的前处理中语音切割对质检的角色识别有着重要的作用。

在语音切割技技术中，准确的检测静音点是语音切割技术的一个重要步骤。传统的静音点的检测常采用基于统计分布的算法。然而，在基于统计分布的算法中需要语音信息的频谱信息符合正态分布，但是在实际情况中，用正态分布反应语音信息的频谱信息往往是不合适的，因此，采用上述算法无法准确的检测出静音点，此外，上述算法仅对每一帧进行独立处理，忽略了相邻帧之间的相关性，因此进一步的降低了检测静音点的准确率。

综上所述，需要提供一种可准确的检测出静音点的静音点检测方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种静音点检测方法及装置、存储介质、电子设备，进而至少在一定程度上克服无法准确的检测出静音点的问题。

根据本公开的一个方面，提供一种静音点检测方法，包括：

在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息；

根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2D CNN、五层Bi-GRURNN以及一个全连接层的端到端神经网络；

根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口，并通过所述静音窗口确定静音点。

在本公开的一种示例性实施例中，所述在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息包括：

在所述语音信息的频谱信息上滑动一预设窗口以获取多个所述检测窗口和各所述检测窗口的频谱信息。

在本公开的一种示例性实施例中，所述方法还包括：

获取所述语音信息，并通过一预设大小的傅里叶窗口按照一预设步长在所述语音信息上滑动，以得到所述语音信息的频谱信息。

在本公开的一种示例性实施例中，所述方法还包括：根据所述端到端神经网络构建所述预测模型，其中：根据所述端到端神经网络构建所述预测模型包括：

获取多个语音信息样本，并将所述多个语音信息样本转化为多个频谱信息样本；

根据各所述频谱信息样本的文本信息对各所述频谱信息样本进行标注，以得到多个标注样本；

根据所述多个标注样本对所述端到端神经网络进行训练，以得到所述预测模型。

在本公开的一种示例性实施例中，所述根据所述多个标注样本对所述端到端神经网络进行训练，以得到所述预测模型包括：

将所述多个标注样本划分为多个标注样本集合；

根据所述多个标注样本集合对所述端到端神经网络进行迭代训练，并获取每个迭代训练后的所述端到端神经网络的各参数的数值；

分别根据每个迭代训练后的所述端到端神经网络的各参数的数值并结合所述端到端神经网络生成多个端到端候选神经网络；

获取多个验证语音信息，并将所述多个验证语音信息转化为多个验证频谱信息；

根据所述多个验证频谱信息计算各所述端到端候选神经网络的准确度，并将所述准确度最高的所述端到端候选神经网络确定为所述预测模型。

在本公开的一种示例性实施例中，所述根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数包括：

根据各所述检测窗口的频谱信息并基于所述预测模型计算各所述检测窗口的频谱信息中的每一帧的静音概率；

根据各所述检测窗口的频谱信息中的每一帧的静音概率计算各所述检测窗口的静音分数。

在本公开的一种示例性实施例中，所述根据各所述检测窗口的频谱信息中的每一帧的静音概率计算各所述检测窗口的静音分数包括：

根据各所述检测窗口的频谱信息中的每一帧的静音概率并结合静音分数计算公式计算各所述检测窗口的静音分数，所述静音分数计算公式为：

其中，log q_j为第j个所述检测窗口的静音分数，log p_j,i为第j个所述检测窗口的频谱信息中的第i帧的静音概率，各所述检测窗口的频谱信息的范围为[t,t+w]。

在本公开的一种示例性实施例中，所述根据各所述检测窗口的频谱信息并基于所述预测模型计算各所述检测窗口的频谱信息中的每一帧的静音概率包括：

通过将预设数量的所述检测窗口的频谱信息进行捆绑的方式，将所述多个检测窗口的频谱信息划分为多个绑定频谱信息；

调用多个线程并基于所述预测模型计算各所述绑定频谱信息中的各所述检测窗口的频谱信息中的每一帧的静音概率。

在本公开的一种示例性实施例中，所述方法还包括：

判断任意两个所述静音点的时间间隔是否小于预设时间，并将时间间隔小于预设时间的任意两个所述静音点进行合并，以生成合并后的静音点。

根据本公开的一个方面，提供一种静音点检测装置，包括：

获取模块，用于在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息；

计算模块，用于根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2D CNN、五层Bi-GRU RNN以及一个全连接层的端到端神经网络；

确定模块，用于根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口，并通过所述静音窗口确定静音点。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的静音点检测方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述中任意一项所述的静音点检测方法。

本公开一种示例实施例提供的静音点检测方法及装置、存储介质、电子设备。通过在语音信息的频谱信息上获取多个检测窗口和各检测窗口的频谱信息，并根据各检测窗口的频谱信息基于一预测模型计算各所述检测窗口的静音分数，其中，预测模型为具有三层2D CNN、五层Bi-GRU RNN以及一个全连接层的端到端神经网络，以及根据各检测窗口的静音分数并结合一预设分数确定静音窗口，并通过静音窗口确定静音点。一方面，通过预测模型(即端到端神经网络)计算各检测窗口的静音分数，不需要语音信息的频谱信息符合正态分布，相比于现有技术，提高了静音窗口的检测准确率，进而提高了静音点的检测准确率；另一方面，由于预测模型根据各检测窗口的频谱信息计算各检测窗口的静音分数，即检测窗口的静音分数是根据检测窗口的频谱信息中的所有帧计算得到，考虑了相邻帧之间的相关性，进一步的提高了静音窗口的检测准确率，从而进一步的提高了静音点的检测准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

通过参照附图来详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本公开一种静音点检测方法的流程图；

图2为本公开一示例性实施例中提供的计算各检测窗口的静音分数的流程图；

图3为本公开一示例性实施例中提供的训练预测模型的流程图一；

图4为本公开一示例性实施例中提供的训练预测模型的流程图二；

图5为本公开一示例性实施例中提供的检测窗口的静音分数的曲线图；

图6为本公开一种静音点检测装置的框图；

图7为本公开一示例性实施例中的电子设备的模块示意图；

图8为本公开一示例性实施例中的程序产品示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例性实施例中首先公开了一种静音点检测方法，参照图1所示，所述静音点检测方法可以包括以下步骤：

步骤S110、在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息；

步骤S120、根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2D CNN、五层Bi-GRU RNN以及一个全连接层的端到端神经网络；

步骤S130、根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口，并通过所述静音窗口确定静音点。

根据本示例性实施例中的静音点检测方法，一方面，通过预测模型(即端到端神经网络)计算各检测窗口的静音分数，不需要语音信息的频谱信息符合正态分布，相比于现有技术，提高了静音窗口的检测准确率，进而提高了静音点的检测准确率；另一方面，由于预测模型根据各检测窗口的频谱信息计算各检测窗口的静音分数，即检测窗口的静音分数是根据检测窗口的频谱信息中的所有帧计算得到，考虑了相邻帧之间的相关性，进一步的提高了静音窗口的检测准确率，从而进一步的提高了静音点的检测准确率。

下面，将参照图1，对本示例性实施例中的静音点检测方法作进一步说明。

在步骤S110中、在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息。

在本示例性示例性实施例中，可以在所述语音信息的频谱信息上滑动一预设窗口以获取多个所述检测窗口和各所述检测窗口的频谱信息。所述预设窗口的大小和滑动步长可以自行设置，例如，预设窗口的大小可以为400毫秒、800毫秒等，本示例性实施例对此不作特殊下定。所述滑动步长例如可以为100毫秒、200毫秒等，本示例性实施例对此不作特殊限定。由于在语音信息的频谱信息上滑动预设窗口即可得到检测窗口，因此，检测窗口的大小等于预设窗口的大小，即预设窗口每滑动一个滑动步长即可得到一个检测窗口，且检测窗口铺盖的频谱信息即为检测窗口的频谱信息。所述频谱信息的维度例如可以为81维等，本示例性实施例对此不作特殊限定。

获取语音信息的频谱信息的过程可以包括：获取所述语音信息，并通过一预设大小的傅里叶窗口按照一预设步长在所述语音信息上滑动，以得到所述语音信息的频谱信息。

在本示例性实施例中，可以通过一获取模块获取语音信息，然后在语音信息上按照预设步长滑动预设大小的傅里叶窗口以将语音信息转化为频谱信息，即得到语音信息的频谱信息。所述预设大小例如可以为20毫秒、40毫秒等，本示例性实施例对此不作特殊限定，所述预设步长例如可以为10毫秒、20毫秒等，本示例性实施例对此不作特殊限定。所述语音信息可以为在一预设采样率下采集的语音通话音频，所述预设采样率例如可以为8KHZ、6KHz等，本示例性实施例对此不作特殊限定。

在步骤S120中，根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2D CNN、五层Bi-GRU RNN以及一个全连接层的端到端神经网络。

在本示例性实施例中，所述三层2D CNN分别为第一层CNN、第二层CNN、第三层CNN，其中每层CNN中的卷积核的数量和卷积核的大小以及卷积核的步长可以由开发人员进行设置，本示例性实施例对此不作特殊限定。五层Bi-GRU RNN中的每层Bi-GRU RNN中的神经元的数量也可以由开发人员根据实际的计算效果进行设置，本示例性实施例对此不足特殊限定。全连接层中的神经元的个数也可以由开发人员根据实际的计算效果进行设置。例如，在预测模型中，三层2D CNN中的第一层CNN中可以包括32个卷积核、各卷积核的大小可以为11*41，各卷积核的步长可以为2*2。三层2D CNN中的第二层CNN中可以包括32个卷积核、每个卷积核的大小可以为11*21，各卷积核的步长可以为1*2。三层2D CNN中的第三层CNN中可以包括96个卷积核、每个卷积核的大小可以为11*21，各卷积核的步长可以为1*2，五层Bi-GRU RNN中的每层Bi-GRU RNN中的神经元的数量均为1024，全连接层中包括2748个神经元，该预测模型的输出可以为2748个常见的中英文字符、阿拉伯数字以及blank、空格等符号。

如图2所示，根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数可以包括：

步骤S210、根据各所述检测窗口的频谱信息并基于所述预测模型计算各所述检测窗口的频谱信息中的每一帧的静音概率。

在本示例性实施例中，可以将一检测窗口的频谱信息输入预测模型中，以使预测模型输出该检测窗口的频谱信息中的每一帧的静音概率，重复上述过程，即可得到其他各检测窗口的频谱信息中的每一帧的静音概率。

为了解决预测模型计算量大的问题，所述根据各所述检测窗口的频谱信息并基于所述预测模型计算各所述检测窗口的频谱信息中的每一帧的静音概率可以包括：通过将预设数量的所述检测窗口的频谱信息进行捆绑的方式，将所述多个检测窗口的频谱信息划分为多个绑定频谱信息；调用多个线程并基于所述预测模型计算各所述绑定频谱信息中的各所述检测窗口的频谱信息中的每一帧的静音概率。

在本示例性实施例中，所述预设数量例如可以为20、32、40等等，本示例性实施例对此不作特殊限定。例如，在预设数量为32时，可以将第1个检测窗口的频谱信息至第32个检测窗口的频谱信息进行捆绑以生成第一个绑定频谱信息，然后将第33个至第64个检测窗口的频谱信息进行捆绑生成第二个绑定频谱信息，重复上述过程将剩余的检测窗口的频谱信息进行绑定，以生成多个绑定频谱信息。所述多个线程的数量可以根据CPU的计算资源进行设置，本示例性实施例对此不作特殊限定。

将多个检测窗口的频谱信息进行捆绑得到多个绑定频谱信息后，将一个绑定频谱信息中的各检测窗口的频谱信息同时输入至预测模型中，并调用多个线程，以使预测模型在多个线程中同时对该绑定频谱信息中的各检测窗口的频谱信息进行计算，进而使预测模型同时输出该绑定频谱信息中的各检测窗口的频谱信息中的每一帧的静音概率。重复上述过程，即可得到其他各绑定频谱信息中的各检测窗口的频谱信息中的每一帧的静音概率。

由于调用了多个线程，提高了CPU的资源利用率，从而提高了计算效率和计算速度，又由于将预设数量的检测窗口的频谱信息进行捆绑以得到绑定频谱信息，并将绑定频谱信息输入至预测模型中，以输出绑定频谱信息中的各检测窗口的频谱信息中的每一帧的静音概率，即同时对多个检测窗口的频谱信息进行处理，进一步的提高了计算效率和计算速度。

下面，对根据端到端神经网络构建预测模型的过程进行说明。参照图3所示，根据所述端到端神经网络构建所述预测模型可以包括以下步骤。

步骤S310、获取多个语音信息样本，并将所述多个语音信息样本转化为多个频谱信息样本。

在本示例性实施例中，可以通过一获取模块在历史语音数据库中获取多个语音信息，并将每个语音信息作为一个语音信息样本。可以在一个语音信息样本中按照预设步长滑动预设大小的傅里叶窗口以将该语音信息样本转化为频谱信息样本，重复上述过程，即可将其他语音信息样本转化为频谱信息样本。需要说明的是，预设大小和预设步长的数值可以根据实际情况设置，本示例性实施例对此不作特殊限定。

步骤S320、根据各所述频谱信息样本的文本信息对各所述频谱信息样本进行标注，以得到多个标注样本。

在本示例性实施例中，获取一频谱信息样本的文本信息，并根据该频谱信息样本的文本信息对该频谱信息样本进行标记，以完成对该频谱信息样本的标注。例如，在频谱信息样本的文本信息为“ninhao”时，将该频谱信息样本标记为“ninhao”，以完成对该频谱信息样本的标注。需要说明的是，每个标注过得频谱信息样本即为一个标注样本。

步骤S330、根据所述多个标注样本对所述端到端神经网络进行训练，以得到所述预测模型。

在本示例性实施例中，将各标注样本分别输入至端到端神经网络中，并利用CTC(Connectionist temporal classification)Loss函数(即CTC损失函数)对所述端到端神经网络进行训练，以得到端到端神经网络的各参数的数值，将端到端神经网络的各参数的数值带入端到端神经网络中即可得到预测模型。

为了提高预测模型的准确率，如图4所述，所述根据所述多个标注样本对所述端到端神经网络进行训练，以得到所述预测模型可以包括：

步骤S410、将所述多个标注样本划分为多个标注样本集合。

在本示例性实施例中，可以设置一预设数量，将多个标注样本划分为多个具有预设数量的标注样本的标注样本集合，即划分后的每个标注样本集合中均包括预设数量的标注样本。所述预设数量例如可以为128，256等，本示例性实施例对此不作特殊限定。

步骤S420、根据所述多个标注样本集合对所述端到端神经网络进行迭代训练，并获取每个迭代训练后的所述端到端神经网络的各参数的数值。

在本示例性实施例中，以标注样本集合的数量为5个为例对步骤S420进行说明，上述5个标注样本集合分别为第一标注样本集合至第五标注样本集合。首先将第一标注样本集合中的各标注样本输入至端到端神经网络中，并利用CTC(Connectionist temporalclassification)Loss函数(即CTC损失函数)对所述端到端的神经网络进行第一次迭代训练，以得到端到端神经网络中的各参数的第一数值，保存各参数的第一数值；在端到端神经网络中的各参数的第一数值的基础上将第二标注样本集合中的各标注样本输入至端到端神经网络中，并利用CTC(Connectionist temporal classification)Loss函数(即CTC损失函数)对所述端到端的神经网络进行第二次迭代训练，以对端到端神经网络中的各参数的第一数值进行第一次更新，以得到端到端神经网络中的各参数的第二数值，即对各参数的第一数值进行第一次更新后的数值即为各参数的第二数值，保存各参数的第二数值；在端到端神经网络中的各参数的第二数值的基础上将第三标注样本集合中的各标注样本输入至端到端神经网络中，并利用CTC(Connectionist temporal classification)Loss函数(即CTC损失函数)对所述端到端的神经网络进行第三次迭代训练，以对端到端神经网络中的各参数的第二数值进行第二次更新，以得到端到端神经网络中的各参数的第三数值，即对各参数的第二数值进行第二次更新后的数值即为各参数的第三数值，保存各参数的第三数值；在端到端神经网络中的各参数的第三数值的基础上将第四标注样本集合中的各标注样本输入至端到端神经网络中，并利用CTC(Connectionist temporal classification)Loss函数(即CTC损失函数)对所述端到端的神经网络进行第四次迭代训练，以对端到端神经网络中的各参数的第三数值进行第三次更新，以得到端到端神经网络中的各参数的第四数值，即对各参数的第三数值进行第三次更新后的数值即为各参数的第四数值，保存各参数的第四数值；在端到端神经网络中的各参数的第四数值的基础上将第五标注样本集合中的各标注样本输入至端到端神经网络中，并利用CTC(Connectionist temporalclassification)Loss函数(即CTC损失函数)对所述端到端的神经网络进行第五次迭代训练，以对端到端神经网络中的各参数的第四数值进行第四次更新，以得到端到端神经网络中的各参数的第五数值，即对各参数的第四数值进行第四次更新后的数值即为各参数的第五数值，保存各参数的第五数值。需要说明的是，端到端神经网络的各参数的第一数值至第五数值即为每次迭代训练后的各参数的数值。

需要说明的是，在标注样本集合的数量为其他数量时，对端到端神经网络进行迭代训练的原理与上述标注集合样本的数量为5个时的原理相同，因此此处不再赘述。

步骤S430、分别根据每个迭代训练后的所述端到端神经网络的各参数的数值并结合所述端到端神经网络生成多个端到端候选神经网络。

在本示例性实施例中，可以将每次迭代训练后的端到端神经网络中的各参数的数值分别带入端到端神经网络中，以得到多个端到端候选神经网络。下面，以步骤S420中的例子中获得的端到端神经网络的各参数的第一数值至第五数值为例对上述过程进行说明。将端到端神经网络中的各参数的第一数值带入端到端神经网络中的对应的各参数中，以得到第一端到端候选神经网络；将端到端神经网络中的各参数的第二数值带入端到端神经网络中的对应的各参数中，以得到第二端到端候选神经网络；将端到端神经网络中的各参数的第三数值带入端到端神经网络中的对应的各参数中，以得到第三端到端候选神经网络；将端到端神经网络中的各参数的第四数值带入端到端神经网络中的对应的各参数中，以得到第四端到端候选神经网络；将端到端神经网络中的各参数的第五数值带入端到端神经网络中的对应的各参数中，以得到第五端到端候选神经网络。

步骤S440、获取多个验证语音信息，并将所述多个验证语音信息转化为多个验证频谱信息。

在本示例性实施例中，可以通过一获取模块在历史语音数据库中获取多个语音信息，并将每个语音信息作为一个验证语音信息。需要说明的是，由于将验证语音信息转化为验证频谱信息的原理与将语音信息样本转化为频谱信息样本的原理相同，因此此处不再对将验证语音信息转化为验证频谱信息的过程进行赘述。

步骤S450、根据所述多个验证频谱信息计算各所述端到端候选神经网络的准确度，并将所述准确度最高的所述端到端候选神经网络确定为所述预测模型。

在本示例性实施例中，可以将各验证频谱信息分别输入一个端到端候选神经网络中，使得该端到端候选神经网络输出各验证频谱信息中的每一帧对应的各字符的概率值，并根据各验证频谱信息中的每一帧对应的各字符的概率值并结合解码，得到各验证频谱信息的预测文本信息；分别计算各验证频谱信息的预测文本信息与其真实文本信息的相似度，将所有验证频谱信息的预测文本信息与其真实文本信息的相似度求和之后除以验证频谱信息的总数量得到的商确定为该端到端候选神经网络的准确度。重复上述过程，即可计算出其他各端到端候选神经网络的准确度。

按照准确度由高到低的顺序对各端到端候选神经网络的准确度进行排序，并将排在第一位的端到端候选神经网络确定为预测模型。

需要说明的是，上述计算各端到端候选神经网络的准确度的方法仅为示例性的，并不用于限定本发明。

步骤S220、根据各所述检测窗口的频谱信息中的每一帧的静音概率计算各所述检测窗口的静音分数。

在本示例性实施例中，可以通过将一检测窗口中的频谱信息中的每一帧的静音概率进行求和的方式计算该检测窗口的静音分数，并重复上述过程计算剩余的其他检测窗口的静音分数；还可以根据各所述检测窗口的频谱信息中的每一帧的静音概率并结合静音分数计算公式计算各所述检测窗口的静音分数，所述静音分数计算公式可以为：

如图5所示，在通过上述静音分数计算公式计算各检测窗口的静音分数时，所述检测窗口的静音分数越大，该检测窗口为静音窗口的概率越小，检测窗口的静音分数越小，该检测窗口为静音窗口的概率越大，即检测窗口的静音分数与该检测窗口为静音窗口的概率成负相关关系。需要说明的是，在本公开的其他示例性实施例中，即在通过其他方式计算各检测窗口的静音分数时，例如通过将一检测窗口中的频谱信息中的每一帧的静音概率进行求和的方式计算各检测窗口的静音分数时，检测窗口的静音分数与该检测窗口为静音窗口的概率成正相关关系，即检测窗口的静音分数越高，该检测窗口为静音窗口的概率越大，在检测窗口的静音分数越低时，该检测窗口为静音窗口的概率越小。

在步骤S130中，根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口，并通过所述静音窗口确定静音点。

在本示例性实施例中，若检测窗口的静音分数与该检测窗口为静音窗口的概率成负相关关系时，将各检测窗口的静音分数分别与预设分数进行比较，将静音分数小于预设分数的检测窗口确定为静音窗口，所述静音窗口的数量例如可以为0个、1个、2个、3个等等，本示例性实施例对此不作特殊限定，需要说明的是，在静音窗口为0个时，说明该语音信息中没有静音点。所述预设分数可以根据静音点的检测效果进行设置，例如，所述预设分数可以为15，还可以为10等，本示例性实施例对此不作特殊限定。

若检测窗口的静音分数与该检测窗口为静音窗口的概率成正相关关系时，将各检测窗口的静音分数分别与预设分数进行比较，将静音分数大于预设分数的检测窗口确定为静音窗口，所述静音窗口的数量例如可以为0个、1个、2个、3个等等，本示例性实施例对此不作特殊限定。需要说明的是，在静音窗口为0个时，说明该语音信息中没有静音点。所述预设分数可以根据静音点的检测效果进行设置，例如，所述预设分数可以为90，还可以为95等，本示例性实施例对此不作特殊限定。

在实际应用中，静音窗口的边缘处往往还包括一部分语音，因此，在确定静音窗口后，需要在静音窗口中确定静音点，以提高语音切割的准确率。具体的，可以通过统计分析历史数据确定出静音窗口中为静音点的概率较大的位置，并将静音窗口中的为静音点的概率较大的位置确定为静音点。例如，可以将位于静音窗口中的中心位置的一帧作为静音点，还可以将位于静音窗口中的三分之一处的一帧作为静音点，本示例性实施例对此不作特殊限定。

为了提高计算的鲁棒性，所述方法还可以包括：判断任意两个所述静音点的时间间隔是否小于预设时间，并将时间间隔小于预设时间的任意两个所述静音点进行合并，以生成合并后的静音点。

在本示例性实施例中，所述预设时间例如可以为1秒，还可以为2秒等，本示例性实施例对此不作特殊限定。下面，以预设时间为1秒为例对上述过程进行说明。判断任意两个静音点之间的时间间隔是否小于1秒，若存在时间间隔小于1秒的任意两个静音点时，将该任意两个静音点进行合并，即计算该任意两个静音点的中心点，并将该中心点确定为合并后的静音点，同时用合并后的静音点替换该任意两个静音点。

综上所述，通过预测模型(即端到端神经网络)计算各检测窗口的静音分数，不需要语音信息的频谱信息符合正态分布，相比于现有技术，提高了静音窗口的检测准确率，进而提高了静音点的检测准确率；此外，由于预测模型根据各检测窗口的频谱信息计算各检测窗口的静音分数，即检测窗口的静音分数是根据检测窗口的频谱信息中的所有帧计算得到，考虑了相邻帧之间的相关性，进一步的提高了静音窗口的检测准确率，从而进一步的提高了静音点的检测准确率。

需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种静音点检测装置，如图6所示，所述静音点检测装置600可以包括：获取模块601、计算模块602、确定模块603，其中：

获取模块601，可以用于在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息；

计算模块602，可以用于根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2D CNN、五层Bi-GRU RNN以及一个全连接层的端到端神经网络；

确定模块603，可以用于根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口，并通过所述静音窗口确定静音点。

上述中各静音点检测装置模块的具体细节已经在对应的静音点检测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的步骤S110、在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息；步骤S120、根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2D CNN、五层Bi-GRU RNN以及一个全连接层的端到端神经网络；步骤S130、根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口，并通过所述静音窗口确定静音点。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备770(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种静音点检测方法，其特征在于，包括：

根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2D CNN、五层Bi-GRU RNN以及一个全连接层的端到端神经网络；

2.根据权利要求1所述的静音点检测方法，其特征在于，所述在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息包括：

3.根据权利要求1所述的静音点检测方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的静音点检测方法，其特征在于，所述方法还包括：根据所述端到端神经网络构建所述预测模型，其中：根据所述端到端神经网络构建所述预测模型包括：

5.根据权利要求4所述的静音点检测方法，其特征在于，所述根据所述多个标注样本对所述端到端神经网络进行训练，以得到所述预测模型包括：

将所述多个标注样本划分为多个标注样本集合；

6.根据权利要求1所述的静音点检测方法，其特征在于，所述根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数包括：

7.根据权利要求6所述的静音点检测方法，其特征在于，所述根据各所述检测窗口的频谱信息中的每一帧的静音概率计算各所述检测窗口的静音分数包括：

其中，logq_j为第j个所述检测窗口的静音分数，logp_j,i为第j个所述检测窗口的频谱信息中的第i帧的静音概率，各所述检测窗口的频谱信息的范围为[t,t+w]。

8.根据权利要求6所述的静音点检测方法，其特征在于，所述根据各所述检测窗口的频谱信息并基于所述预测模型计算各所述检测窗口的频谱信息中的每一帧的静音概率包括：

9.根据权利要求1所述的静音点检测方法，其特征在于，所述方法还包括：

10.一种静音点检测装置，其特征在于，包括：

计算模块，用于根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数，其中，所述预测模型为具有三层2DCNN、五层Bi-GRU RNN以及一个全连接层的端到端神经网络；

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～9中任意一项所述的静音点检测方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～9中任意一项所述的静音点检测方法。