CN111816218A

CN111816218A - 语音端点检测方法、装置、设备及存储介质

Info

Publication number: CN111816218A
Application number: CN202010762893.9A
Authority: CN
Inventors: 张之勇; 王健宗; 贾雪丽; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-23
Also published as: WO2021139425A1

Abstract

本发明涉及人工智能技术领域，公开了一种语音端点检测方法、装置、设备及存储介质，用于提高语音端点检测的准确性。语音端点检测方法包括：对待识别语音信息进行预处理，得到预处理后的语音信息；从预处理后的语音信息中提取帧级别的语音频谱特征信息；对预处理后的语音信息进行信息处理，得到目标说话人的声学特征信息；对语音频谱特征信息和声学特征信息进行特征融合，得到已融合的语音特征信息；将已融合的语音特征信息输入至已训练的深度神经网络中进行语音端点检测处理，得到检测结果，并按照检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。此外，本发明还涉及区块链技术，待识别语音信息可存储于区块链节点中。

Description

语音端点检测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术的语音信号处理领域，尤其涉及一种语音端点检测方法、装置、设备及存储介质。

背景技术

语音端点检测(voice activity detection，VAD)是语音信号处理的重要组成部分，目的是区分出连续语音流中的语音和非语音部分，通过对语音部分起始点的准确定位，有效滤除非语音噪声片段，从而更有效的处理语音流信息，其已被广泛应用于语音识别、说话人分离和识别及其他辅助任务，如情感识别、性别识别和语种识别等。

一般情况，在低噪音条件下，端点检测相对容易，传统基于能量或谱熵的检测方法就能得到较高的检测精度。而在高噪音条件下，端点检测的困难显著提高。基于谐波规则的检测方法，通过利用人声的谐波特性，可以有效区分语音和非语音片段，在高噪音场景具有很好的鲁棒性，已广泛应用于语音信号处理系统，但是由于同样具有谐波特性的背景噪声，如音乐声、咳嗽声和汽车喇叭声这类噪声的存在，导致基于谐波规则的端点检测方法不可避免的会引进很多误识别。

近年来，随着深度神经网络技术(deep neural network，DNN)在信号处理领域的巨大成功，基于DNN的端点检测算法愈来成为研究热点，由于很难获得精确的语音识别对齐信息，使得基于DNN的端点检测具有一定的混淆性，一些无谐波特性的背景噪声也有可能被误识别成语音。因此，采用传统的语音端点检测算法，无法区分出目标说话人和非目标说话人，导致语音端点检测的准确性低。

发明内容

本发明的主要目的在于解决传统的语音端点检测算法，无法区分出目标说话人和非目标说话人，导致语音端点检测的准确性低的问题。

为实现上述目的，本发明第一方面提供了一种语音端点检测方法，包括：获取待识别语音信息，并对所述待识别语音信息进行预处理，得到预处理后的语音信息；从所述预处理后的语音信息中提取帧级别的语音频谱特征信息；对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；对所述语音频谱特征信息和所述声学特征信息进行特征融合，得到已融合的语音特征信息，所述已融合的语音特征信息为段级或句子级的特征信息；将所述已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照所述检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。

可选的，在本发明第一方面的第一种实现方式中，所述获取待识别语音信息，并对所述待识别语音信息进行预处理，得到预处理后的语音信息，包括：接收待识别语音信息，并对所述待识别语音信息进行采样，得到已采样的语音信息；对所述已采样的语音信息依次进行预加重、分帧和加窗处理，得到预处理后的语音信息。

可选的，在本发明第一方面的第二种实现方式中，所述从所述预处理后的语音信息中提取帧级别的语音频谱特征信息，包括：从所述预处理后的语音信息中提取每帧语音信号；对所述每帧语音信号进行傅里叶变换，得到对应的频谱信息；对所述对应的频谱信息进行梅尔滤波器组处理，得到过滤器组fbank特征信息，并将所述fbank特征信息设置为帧级别的语音频谱特征信息。

可选的，在本发明第一方面的第三种实现方式中，所述对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息，包括：判断目标说话人是否已预先注册语音特征信息；若目标说话人未预先注册语音特征信息，则采用预训练的d-vector网络对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；若目标说话人已预先注册语音特征信息，则从所述预置数据表中查询目标说话人的声学特征信息。

可选的，在本发明第一方面的第四种实现方式中，所述若目标说话人未预先注册语音特征信息，则采用预训练的d-vector网络对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息，包括：若目标说话人未预先注册语音特征信息，则将所述预处理后的语音信息输入到预训练的d-vector网络中，采用预置特征提取网络从所述预处理后的语音信息中提取帧级说话人特征向量；采用所述预训练的d-vector网络中的预置隐层网络从所述过滤器组fbank特征信息中抽取激活值；将所述激活值进行L2正则化并累加处理，得到目标说话人的声学特征信息，所述声学特征信息为d-vector特征向量信息。

可选的，在本发明第一方面的第五种实现方式中，所述若目标说话人已预先注册语音特征信息，则从所述预置数据表中查询目标说话人的声学特征信息，包括：若目标说话人已预先注册语音特征信息，则获取目标说话人的唯一标识信息，并按照预置结构化查询语言语法规则、所述唯一标识信息和所述预置数据表生成查询语句；执行所述查询语句，得到所述目标说话人在特征注册阶段中确定的预置d-vector特征信息，并将所述预置d-vector特征信息设置为目标说话人特征信息。

可选的，在本发明第一方面的第六种实现方式中，所述将所述已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照所述检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型，包括：将所述已融合的语音特征信息输入至预设的长短期记忆网络-卷积神经网络LSTM-CNN模型中，并通过所述预设的LSTM-CNN模型对所述已融合的语音特征信息进行语音端点检测处理，得到检测结果，所述预设的LSTM-CNN模型为已训练的深度神经网络模型；当所述检测结果大于或者等于第一预置阈值时，确定所述检测结果为目标说话人语音类型；当所述检测结果小于第一预置阈值，并且大于或者等于第二预置阈值时，确定所述检测结果为非目标说话人语音类型；当所述检测结果小于第二预置阈值，并且大于或者等于第三预置阈值时，确定所述检测结果为背景噪声类型。

本发明第二方面提供了一种语音端点检测装置，包括：预处理模块，用于获取待识别语音信息，并对所述待识别语音信息进行预处理，得到预处理后的语音信息；提取模块，用于从所述预处理后的语音信息中提取帧级别的语音频谱特征信息；处理模块，用于对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；融合模块，用于对所述语音频谱特征信息和所述声学特征信息进行特征融合，得到已融合的语音特征信息，所述已融合的语音特征信息为段级或句子级的特征信息；检测模块，用于将所述已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照所述检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。

可选的，在本发明第二方面的第一种实现方式中，所述预处理模块具体用于：接收待识别语音信息，并对所述待识别语音信息进行采样，得到已采样的语音信息；对所述已采样的语音信息依次进行预加重、分帧和加窗处理，得到预处理后的语音信息。

可选的，在本发明第二方面的第二种实现方式中，所述提取模块具体用于：从所述预处理后的语音信息中提取每帧语音信号；对所述每帧语音信号进行傅里叶变换，得到对应的频谱信息；对所述对应的频谱信息进行梅尔滤波器组处理，得到过滤器组fbank特征信息，并将所述fbank特征信息设置为帧级别的语音频谱特征信息。

可选的，在本发明第二方面的第三种实现方式中，所述处理模块包括：判断单元，用于判断目标说话人是否已预先注册语音特征信息；处理单元，若目标说话人未预先注册语音特征信息，则用于采用预训练的d-vector网络对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；查询单元，若目标说话人已预先注册语音特征信息，则用于从所述预置数据表中查询目标说话人的声学特征信息。

可选的，在本发明第二方面的第四种实现方式中，所述处理单元具体用于：若目标说话人未预先注册语音特征信息，则将所述预处理后的语音信息输入到预训练的d-vector网络中，采用预置特征提取网络从所述预处理后的语音信息中提取帧级说话人特征向量；采用所述预训练的d-vector网络中的预置隐层网络从所述过滤器组fbank特征信息中抽取激活值；将所述激活值进行L2正则化并累加处理，得到目标说话人的声学特征信息，所述声学特征信息为d-vector特征向量信息。

可选的，在本发明第二方面的第五种实现方式中，所述检测模块包括：若目标说话人已预先注册语音特征信息，则获取目标说话人的唯一标识信息，并按照预置结构化查询语言语法规则、所述唯一标识信息和所述预置数据表生成查询语句；执行所述查询语句，得到所述目标说话人在特征注册阶段中确定的预置d-vector特征信息，并将所述预置d-vector特征信息设置为目标说话人特征信息。

可选的，在本发明第二方面的第六种实现方式中，所述检测模块具体用于：将所述已融合的语音特征信息输入至预设的长短期记忆网络-卷积神经网络LSTM-CNN模型中，并通过所述预设的LSTM-CNN模型对所述已融合的语音特征信息进行语音端点检测处理，得到检测结果，所述预设的LSTM-CNN模型为已训练的深度神经网络模型；当所述检测结果大于或者等于第一预置阈值时，确定所述检测结果为目标说话人语音类型；当所述检测结果小于第一预置阈值，并且大于或者等于第二预置阈值时，确定所述检测结果为非目标说话人语音类型；当所述检测结果小于第二预置阈值，并且大于或者等于第三预置阈值时，确定所述检测结果为背景噪声类型。

本发明第三方面提供了一种语音端点检测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音端点检测设备执行上述的语音端点检测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的语音端点检测方法。

本发明提供的技术方案中，获取待识别语音信息，并对所述待识别语音信息进行预处理，得到预处理后的语音信息；从所述预处理后的语音信息中提取帧级别的语音频谱特征信息；对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；对所述语音频谱特征信息和所述声学特征信息进行特征融合，得到已融合的语音特征信息，所述已融合的语音特征信息为段级或句子级的特征信息；将所述已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照所述检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。本发明实施例中，通过深度神经网络模型对语音信息进行语音端点检测，并基于听觉感知特性的语音频谱特征信息增强目标说话人的语音声学特征信息，提高了目标说话人语音信息检测的准确性，减少其他说话人语音或者背景噪声的干扰，防止出现因其他说话人语音或者非语音的背景噪声导致的业务逻辑问题。以使得后续语音处理系统仅对目标说话人语音片段进行处理，减少了计算压力，提高了后续语音处理系统的响应速度。

附图说明

图1为本发明实施例中语音端点检测方法的一个实施例示意图；

图2为本发明实施例中语音端点检测方法的另一个实施例示意图；

图3为本发明实施例中语音端点检测装置的一个实施例示意图；

图4为本发明实施例中语音端点检测装置的另一个实施例示意图；

图5为本发明实施例中语音端点检测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种语音端点检测方法、装置、设备及存储介质，用于通过深度神经网络模型对语音信息进行语音端点检测，并基于听觉感知特性的语音频谱特征信息增强目标说话人的语音声学特征信息，提高了目标说话人语音信息检测的准确性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中语音端点检测方法的一个实施例包括：

101、获取待识别语音信息，并对待识别语音信息进行预处理，得到预处理后的语音信息。

其中，待识别语音信息可以为实时语音信息，也可以为非实时语音信息(预先录制的音频)。服务器可以接收待识别语音信息，或者按照预设文件路径读取待识别语音信息；服务器对待识别语音信息进行预处理，进一步地，服务器对待识别语音信息提高信噪比，以增强语音信息；服务器对增强的待识别语音信息进行分帧处理，得到多个语音帧信息，并对多个语音帧信息进行加窗处理，以使得每个语音帧信息的帧首和帧尾更为平滑，得到预处理后的语音信息，从而避免突发变异产生的高频噪声。例如，服务器对多个语音帧信息添加汉明窗或者矩形窗进行处理。

可以理解的是，本发明的执行主体可以为语音端点检测装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、从预处理后的语音信息中提取帧级别的语音频谱特征信息。

也就是，服务器将预处理后的语音信息中具有辨识性的特征提取出来，然后将其他信息丢弃，其他信息包括背景噪声或者情绪。其中，语音频谱特征信息包括梅尔频率倒谱系数MCFF特征和过滤器组fbank特征，服务器还可以采集其他频谱特征，具体此处不做限定。

进一步地，服务器对预处理后的语音信息(多个已加窗的语音帧信息)进行快速傅立叶变换(fast fourier transformation，FFT)，并采用梅尔滤波器组过滤处理，得到40维fbank；然后服务器可将40维fbank进行离散余弦变换(discrete cosine transformation，DCT)，也就是，服务器将40维fbank映射到低维空间(从40维降到13维)，得到MCFF特征。

需要说明的是，MFCC特征计算是在fbank的基础上进行的，所以MFCC的计算量更大，而fbank特征相关性较高(相邻滤波器组有重叠)，MFCC具有更好的判别度。同时，服务器还可以在语音特征中加入表征语音动态特性的差分特征，能够提高系统的识别性能。例如，服务器采用MFCC特征的一阶差分特征和二阶差分特征，也可以采用fbank特征的一阶差分特征和二阶差分特征，具体此处不做限定。

103、对预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息。

若待识别语音信息为预先录制的语音信息，则服务器可采用预设的已训练网络模型进行特征处理，例如，预设的已训练网络模型可以为高斯混合模型-通用背景模型GMM-UBM、i向量网络模型i-vector以及x向量网络模型x-vector，具体采取何种模式可依据不同的业务场景进行选取，具体此处不做限定。进一步地，服务器采用预设的已训练网络模型进行段级说话人特征提取，得到目标说话人的声学特征信息，然后将目标说话人的声学特征信息存储至数据库。并在模型训练阶段，服务器对预设数量帧数的语音段进行目标说话人特征提取，然后与预置数据库中目标说话人的声学特征信息进行相似性比对，得到相似度分值，并将相似度分值作为后续语音端点检测的输入参数。

若待识别语音信息为实时采集的语音信息，则服务器采用d向量网络模型d-vector进行帧级说话人特征提取，由于帧级特征的不稳定型，服务器可以采取滑窗的形式进行，通过聚合窗内帧级说话人特征信息，输出目标说话人的声学特征信息。

104、对语音频谱特征信息和声学特征信息进行特征融合，得到已融合的语音特征信息，已融合的语音特征信息为段级或句子级的特征信息。

进一步地，服务器将语音频谱特征信息和声学特征信息进行帧级语音特征拼接处理，得到段级或句子级说话人特征信息，并将段级或句子级说话人特征信息设置为已融合的语音特征信息，已融合的语音特征信息为段级或句子级的特征信息。也就是，服务器将目标说话人的声学特征信息(例如，i-vector特征信息、x-vector特征信息或者d-vector特征信息)连接到每帧语音频谱特征信息上，得到已融合的语音特征信息。其中，已融合的语音特征信息为已训练的深度神经网络模型的输入参数。

105、将已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。

语音端点检测采用基于深度神经网络的语音端点检测算法，输入特征为梅尔频率倒谱系数MCFF或fank特征，另外嵌入目标说话人的声学特征信息，其中，目标说话人的声学特征信息可以采用目标说话人的相似度得分(相似度分值)或d-vector的隐层网络输出特征向量。已训练的深度神经网络模型的网络结构一般采用长短期记忆网络(long short-term memory，LSTM)、循环神经网络(recurrent neural network，RNN)、卷积神经网络(convolutional neural networks，CNN)或者时延神经网络TDNN，还可以采用其他网络结构，具体此处不做限定。也就是，服务器将已融合的语音特征信息输入至LSTM、RNN、CNN或者TDNN进行逐帧语音端点检测处理，输出的检测结果包括目标说话人语音类型、非目标说话人语音类型和背景噪声类型。其中，检测结果用于指示每帧语音信息端点类型的后验概率，例如，可以采用0.8、、05、0.2分别标识目标说话人语音类型、非目标说话人语音类型和背景噪声类型。进一步地，服务器根据检测结果对语音信息进行标注处理，以获取仅存在目标说话人语音类型的语音片段，便于后续语音处理系统的使用处理。

例如，服务器对会议场景中的语音片段(作为待识别语音信息)进行语音端点检测，进而检测出语音片段中每帧语音信息中的目标说话人语音类型(例如，会议主讲人的讲话语音)、非目标说话人语音类型(例如，与会人员的讨论语音)和背景噪声类型(例如，手机铃声或者开关门的噪音)。

本发明实施例中，通过深度神经网络模型对语音信息进行语音端点检测，并基于听觉感知特性的语音频谱特征信息增强目标说话人的语音声学特征信息，提高了目标说话人语音信息检测的准确性，减少其他说话人语音或者背景噪声的干扰，防止出现因其他说话人语音或者非语音的背景噪声导致的业务逻辑问题。以使得后续语音处理系统仅对目标说话人语音片段进行处理，减少了计算压力，提高了后续语音处理系统的响应速度。

请参阅图2，本发明实施例中语音端点检测方法的另一个实施例包括：

201、获取待识别语音信息，并对待识别语音信息进行预处理，得到预处理后的语音信息。

一般情况下，人耳可以听到的声音频率在20赫兹至20千赫兹之间的声波。因此，服务器设置取样频率(每秒钟取得声音样本的次数)对待识别语音信息进行采集。而采样频率越高，待识别语音信息中声音的质量也就越好。由于人耳的分辨率很有限，所以取样频率也不能设置太高的频率。可选的，服务器接收待识别语音信息，并对待识别语音信息进行采样，得到已采样的语音信息。进一步地，服务器将待识别语音信息(音频信号)通过一个高通滤波器进行采样，例如，截止频率大约为200赫兹，进而移除待识别语音信息中的直流偏置分量和一些低频噪声，即使在低于200赫兹的部分仍然有部分语音信息被过滤，但是不会对待识别语音信息造成很大的影响；服务器对已采样的语音信息依次进行预加重、分帧和加窗处理，得到预处理后的语音信息。

需要说明的是，预加重可采用一个一阶有限激励响应高通滤波器，使得已采样的语音信息的频谱变得平坦。分帧用于将预加重后的语音信息转换为长度为20毫秒至40毫秒的帧语音信息(将N个采样点集合成一个观测单位)，一般帧与帧之间的重叠为10毫秒。例如，若已采样的语音信息的采样率为12千赫兹，取窗口大小为25毫秒，那么，每一帧语音数据的所包含的数据点为：0.025*12000＝300个采样点。而以帧之间重叠为10毫秒来计算，第一帧的数据起始点为sample0，第二帧数据的起始点为sample120。加窗是对对每帧语音信息代入窗函数，窗函数在某一区间有非零值，而在其余区间(窗外的值)皆为0，使得每帧语音信息两端衰减至接近0。

202、从预处理后的语音信息中提取帧级别的语音频谱特征信息。

其中，语音频谱特征信息为符合人耳听觉习惯的声谱，语音频谱特征信息包括MCFF和fbank，也可以包括其他频谱特征，具体此处不做限定。可选的，服务器从预处理后的语音信息中提取每帧语音信号；服务器对每帧语音信号进行傅里叶变换，得到对应的频谱信息，也就是，服务将时域信号变换成为信号的功率谱(频域信号)；服务器对对应的频谱信息进行梅尔滤波器组处理，得到过滤器组fbank特征信息，其中，梅尔滤波器组处理是将线形的自然频谱转换为体现人类听觉特性的梅尔频谱；服务器将fbank特征信息设置为帧级别的语音频谱特征信息。

203、判断目标说话人是否已预先注册语音特征信息。

进一步地，服务器获取目标说话人对应的身份标识信息(例如，身份标识信息为id_001)，并根据对应的身份标识信息查询预置数据库，得到查询结果；服务器判断查询结果是否为空值；若查询结果为空值，则服务器确定目标说话人未预先注册语音特征信息，进一步地，服务器执行步骤204；若查询结果不为空值，则服务器确定目标说话人已预先注册语音特征信息，进一步地，服务器执行步骤205。例如，可采用唯一标识信息(例如，全球唯一标识符)表示身份标识信息，也可以采用其他信息表示身份标识信息，具体此处不做限定。

204、若目标说话人未预先注册语音特征信息，则采用预训练的d-vector网络对预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息。

其中，目标说话人的声学特征信息为d-vector特征向量信息。可选的，若目标说话人未预先注册语音特征信息，则服务器将预处理后的语音信息输入到预训练的d-vector网络中，采用预置特征提取网络从预处理后的语音信息中提取帧级说话人特征向量；服务器采用预训练的d-vector网络中的预置隐层网络从过滤器组fbank特征信息中抽取激活值；服务器将激活值进行L2正则化并累加处理，得到目标说话人的声学特征信息，声学特征信息为d-vector特征向量信息。

需要说明的是，对于目标说话人判定，还存在一些无法预知目标说话人的业务场景，一般情况下，服务器可设置首段语音说话人为目标说话人，并在语音处理过程中，服务器根据语音信息的时长占比和以及对应的文本语义内容分析，对目标说话人进行信息更新。另外，业务场景中包含说话人数量是有限的，为说话人特征提取网络结构采用小参数网络结构(d-vector对应的结构)，提高了目标说话人的声学特征计算效率和提取效率。

205、若目标说话人已预先注册语音特征信息，则从预置数据表中查询目标说话人的声学特征信息。

需要说明的是，当目标说话人已预先注册语音特征信息时，服务器从预设数据库中获取目标说话人的声学特征信息，并按照帧级说话人特征向量与目标说话人的声学特征信息计算相似度得分，得到相似度分值，并将相似性分值设置为标说话人的声学特征信息。

可选的，若目标说话人已预先注册语音特征信息，则服务器获取目标说话人的唯一标识信息，并按照预置结构化查询语言语法规则、唯一标识信息和预置数据表生成查询语句；服务器执行查询语句，得到目标说话人在特征注册阶段中确定的预置d-vector特征信息，并将预置d-vector特征信息设置为目标说话人特征信息。

206、对语音频谱特征信息和声学特征信息进行特征融合，得到已融合的语音特征信息，已融合的语音特征信息为段级或句子级的特征信息。

该步骤206与步骤104的描述相似，具体此处不再赘述。

207、将已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。

其中，已训练的深度神经网络模型可为预设的长短期记忆网络-卷积神经网络LSTM-CNN模型，也可为其他网络模型，具体此处不做限定。可选的，服务器将已融合的语音特征信息输入至预设的长短期记忆网络-卷积神经网络LSTM-CNN模型中，并通过预设的LSTM-CNN模型对已融合的语音特征信息进行语音端点检测处理，得到检测结果，预设的LSTM-CNN模型为已训练的深度神经网络模型；当检测结果大于或者等于第一预置阈值时，服务器确定检测结果为目标说话人语音类型；当检测结果小于第一预置阈值，并且大于或者等于第二预置阈值时，服务器确定检测结果为非目标说话人语音类型；当检测结果小于第二预置阈值，并且大于或者等于第三预置阈值时，服务器确定检测结果为背景噪声类型。

其中，第一预置阈值、第二预置阈值和第三预置阈值分别对应的取值范围为0到1之间的小数，例如，第一预置阈值、第二预置阈值和第三预置阈值分别为0.90、0.40和0.10，那么，当检测结果大于或者等于0.90时，服务器确定检测结果为目标说话人语音类型，例如，检测结果为0.96；当检测结果小于0.90，并且大于或者等于0.40时，服务器确定检测结果为非目标说话人语音类型，例如，检测结果为0.67；当检测结果小于0.40，并且大于或者等于0.10时，服务器确定检测结果为背景噪声类型，例如，检测结果为0.23。检测结果也可以为1或者0，具体此处不做限定。

进一步地，在步骤201之前，服务器获取语音样本数据，并按照预设比例将语音样本数据划分为训练样本数据和测试样本数据，服务器基于训练样本数据对初始深度神经网络模型进行训练，其中，服务器可以采用交叉熵作为目标函数进行模型训练，同时，由于目标说话人语音与非目标说话人语音受限于说话人之间的区分度，而且数量占比较小。为平衡类型差异，防止网络训练出现偏差，服务器可采用加权对损失函数进行模型训练，以增强目标说话人语音与非目标说话人语音之间的差别，具体出处不做限定，得到训练好的深度神经网络模型。服务器采用测试样本数据对训练好的深度神经网络模型进行预测，得到预测结果，并基于预测结果对训练好的深度神经网络模型进行迭代优化，得到已训练的深度神经网络模型。

上面对本发明实施例中语音端点检测方法进行了描述，下面对本发明实施例中语音端点检测装置进行描述，请参阅图3，本发明实施例中语音端点检测装置的一个实施例包括：

预处理模块301，用于获取待识别语音信息，并对待识别语音信息进行预处理，得到预处理后的语音信息；

提取模块302，用于从预处理后的语音信息中提取帧级别的语音频谱特征信息；

处理模块303，用于对预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；

融合模块304，用于对语音频谱特征信息和声学特征信息进行特征融合，得到已融合的语音特征信息，已融合的语音特征信息为段级或句子级的特征信息；

检测模块305，用于将已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。

本发明实施例中通过深度神经网络模型对语音信息进行语音端点检测，并基于听觉感知特性的语音频谱特征信息增强目标说话人的语音声学特征信息，提高了目标说话人语音信息检测的准确性，减少其他说话人语音或者背景噪声的干扰，防止出现因其他说话人语音或者非语音的背景噪声导致的业务逻辑问题。以使得后续语音处理系统仅对目标说话人语音片段进行处理，减少了计算压力，提高了后续语音处理系统的响应速度。

请参阅图4，本发明实施例中语音端点检测装置的另一个实施例包括：

可选的，预处理模块301还可以具体用于：

接收待识别语音信息，并对待识别语音信息进行采样，得到已采样的语音信息；

对已采样的语音信息依次进行预加重、分帧和加窗处理，得到预处理后的语音信息。

进一步地，将待识别语音信息存储于区块链数据库中，具体此处不做限定。

可选的，提取模块302还包括：

从预处理后的语音信息中提取每帧语音信号；

对每帧语音信号进行梅尔滤波器组处理，得到过滤器组fbank特征信息，并将fbank特征信息设置为帧级别的语音频谱特征信息。

可选的，处理模块303还包括：

判断单元3031，用于判断目标说话人是否已预先注册语音特征信息；

处理单元3032，若目标说话人未预先注册语音特征信息，则用于采用预训练的d-vector网络对预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；

查询单元3033，若目标说话人已预先注册语音特征信息，则用于从预置数据表中查询目标说话人的声学特征信息。

可选的，处理单元3032还可以具体用于：

若目标说话人未预先注册语音特征信息，则将预处理后的语音信息输入到预训练的d-vector网络中，采用预置特征提取网络从预处理后的语音信息中提取帧级说话人特征向量；

采用预训练的d-vector网络中的预置隐层网络从过滤器组fbank特征信息中抽取激活值；

将激活值进行L2正则化并累加处理，得到目标说话人的声学特征信息，声学特征信息为d-vector特征向量信息。

可选的，查询单元3033还可以具体用于：

若目标说话人已预先注册语音特征信息，则获取目标说话人的唯一标识信息，并按照预置结构化查询语言语法规则、唯一标识信息和预置数据表生成查询语句；

执行查询语句，得到目标说话人在特征注册阶段中确定的预置d-vector特征信息，并将预置d-vector特征信息设置为目标说话人特征信息。

可选的，检测模块305还可以具体用于：

将已融合的语音特征信息输入至预设的长短期记忆网络-卷积神经网络LSTM-CNN模型中，并通过预设的LSTM-CNN模型对已融合的语音特征信息进行语音端点检测处理，得到检测结果，预设的LSTM-CNN模型为已训练的深度神经网络模型；

当检测结果大于或者等于第一预置阈值时，确定检测结果为目标说话人语音类型；

当检测结果小于第一预置阈值，并且大于或者等于第二预置阈值时，确定检测结果为非目标说话人语音类型；

当检测结果小于第二预置阈值，并且大于或者等于第三预置阈值时，确定检测结果为背景噪声类型。

上面图3和图4从模块化的角度对本发明实施例中的语音端点检测装置进行详细描述，下面从硬件处理的角度对本发明实施例中语音端点检测设备进行详细描述。

图5是本发明实施例提供的一种语音端点检测设备的结构示意图，该语音端点检测设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对语音端点检测设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在语音端点检测设备500上执行存储介质530中的一系列指令操作。

语音端点检测设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的语音端点检测设备结构并不构成对语音端点检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述语音端点检测方法的步骤。

本发明还提供一种语音端点检测设备，所述语音端点检测设备包括存储器和处理器，存储器中存储有指令，所述指令被处理器执行时，使得处理器执行上述各实施例中的所述语音端点检测方法的步骤。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音端点检测方法，其特征在于，所述语音端点检测方法包括：

获取待识别语音信息，并对所述待识别语音信息进行预处理，得到预处理后的语音信息；

从所述预处理后的语音信息中提取帧级别的语音频谱特征信息；

对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；

对所述语音频谱特征信息和所述声学特征信息进行特征融合，得到已融合的语音特征信息，所述已融合的语音特征信息为段级或句子级的特征信息；

将所述已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照所述检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。

2.根据权利要求1所述的语音端点检测方法，其特征在于，所述获取待识别语音信息，并对所述待识别语音信息进行预处理，得到预处理后的语音信息，包括：

接收待识别语音信息，并对所述待识别语音信息进行采样，得到已采样的语音信息；

对所述已采样的语音信息依次进行预加重、分帧和加窗处理，得到预处理后的语音信息。

3.根据权利要求1所述的语音端点检测方法，其特征在于，所述从所述预处理后的语音信息中提取帧级别的语音频谱特征信息，包括：

从所述预处理后的语音信息中提取每帧语音信号；

对所述每帧语音信号进行傅里叶变换，得到对应的频谱信息；

对所述对应的频谱信息进行梅尔滤波器组处理，得到过滤器组fbank特征信息，并将所述fbank特征信息设置为帧级别的语音频谱特征信息。

4.根据权利要求1所述的语音端点检测方法，其特征在于，所述对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息，包括：

判断目标说话人是否已预先注册语音特征信息；

若目标说话人未预先注册语音特征信息，则采用预训练的d-vector网络对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；

若目标说话人已预先注册语音特征信息，则从所述预置数据表中查询目标说话人的声学特征信息。

5.根据权利要求4所述的语音端点检测方法，其特征在于，所述若目标说话人未预先注册语音特征信息，则采用预训练的d-vector网络对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息，包括：

若目标说话人未预先注册语音特征信息，则将所述预处理后的语音信息输入到预训练的d-vector网络中，采用预置特征提取网络从所述预处理后的语音信息中提取帧级说话人特征向量；

采用所述预训练的d-vector网络中的预置隐层网络从所述过滤器组fbank特征信息中抽取激活值；

将所述激活值进行L2正则化并累加处理，得到目标说话人的声学特征信息，所述声学特征信息为d-vector特征向量信息。

6.根据权利要求4所述的语音端点检测方法，其特征在于，所述若目标说话人已预先注册语音特征信息，则从所述预置数据表中查询目标说话人的声学特征信息，包括：

若目标说话人已预先注册语音特征信息，则获取目标说话人的唯一标识信息，并按照预置结构化查询语言语法规则、所述唯一标识信息和所述预置数据表生成查询语句；

执行所述查询语句，得到所述目标说话人在特征注册阶段中确定的预置d-vector特征信息，并将所述预置d-vector特征信息设置为目标说话人特征信息。

7.根据权利要求1-6中任意一项所述的语音端点检测方法，其特征在于，所述将所述已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照所述检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型，包括：

将所述已融合的语音特征信息输入至预设的长短期记忆网络-卷积神经网络LSTM-CNN模型中，并通过所述预设的LSTM-CNN模型对所述已融合的语音特征信息进行语音端点检测处理，得到检测结果，所述预设的LSTM-CNN模型为已训练的深度神经网络模型；

当所述检测结果大于或者等于第一预置阈值时，确定所述检测结果为目标说话人语音类型；

当所述检测结果小于第一预置阈值，并且大于或者等于第二预置阈值时，确定所述检测结果为非目标说话人语音类型；

当所述检测结果小于第二预置阈值，并且大于或者等于第三预置阈值时，确定所述检测结果为背景噪声类型。

8.一种语音端点检测装置，其特征在于，所述语音端点检测装置包括：

预处理模块，用于获取待识别语音信息，并对所述待识别语音信息进行预处理，得到预处理后的语音信息；

提取模块，用于从所述预处理后的语音信息中提取帧级别的语音频谱特征信息；

处理模块，用于对所述预处理后的语音信息进行特征处理，得到目标说话人的声学特征信息；

融合模块，用于对所述语音频谱特征信息和所述声学特征信息进行特征融合，得到已融合的语音特征信息，所述已融合的语音特征信息为段级或句子级的特征信息；

检测模块，用于将所述已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理，得到检测结果，并按照所述检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。

9.一种语音端点检测设备，其特征在于，所述语音端点检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音端点检测设备执行如权利要求1-7中任意一项所述的语音端点检测方法。

10.一种计算机可读存储介质，其上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任意一项所述的语音端点检测方法。