CN113345423B

CN113345423B - 语音端点检测方法、装置、电子设备和存储介质

Info

Publication number: CN113345423B
Application number: CN202110705850.1A
Authority: CN
Inventors: 王庆然; 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2024-02-13
Anticipated expiration: 2041-06-24
Also published as: CN113345423A

Abstract

本发明提供一种语音端点检测方法、装置、电子设备和存储介质，其中方法包括：获取语音数据流中各语音帧的语音特征和声学状态后验特征；对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。本发明提供的方法、装置、电子设备和存储介质，通过融合各语音帧的语音特征和声学状态后验特征进行语音端点检测，能够提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。其中，声学状态后验特征中语义信息的应用，极大减低了计算量，保证了端点检测的实时性和低延迟性的需求。

Description

语音端点检测方法、装置、电子设备和存储介质

技术领域

本发明涉及语音交互技术领域，尤其涉及一种语音端点检测方法、装置、电子设备和存储介质。

背景技术

为了实现基于语音的人机交互功能，通常会通过语音端点检测(Voice ActivityDetection，VAD)技术识别一段语音中的语音端点，由此得到有效语音段以执行后续操作。

相较于传统VAD技术，人机对话场景下的VAD难点在于不仅需要更准确地过滤掉人声无关的噪声，还需要根据用户回答的语义内容过滤掉没有明确语义信息或者和当前场景内容无关的回答内容，对其不做响应。

目前的VAD技术仅能够对于人声/非人声进行检测，并不能分析语音中包含的语义信息，在后续语音处理中可能会引入大量无意义的内容，会增加系统运行延时和不必要的功耗。另外，如果用户在发言过程中发生停顿，目前的VAD技术无法判断用户是否表意完整，可能会提前触发交互中断，影响交互体验。

发明内容

本发明提供一种语音端点检测方法、装置、电子设备和存储介质，用以解决现有技术中语音端点检测仅能够对于人声/非人声进行检测，导致运行延时、功耗增加和交互提前中断的问题。

本发明提供一种语音端点检测方法，包括：

获取语音数据流中各语音帧的语音特征和声学状态后验特征；

对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；

基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。

根据本发明提供的一种语音端点检测方法，所述获取语音数据流中各语音帧的语音特征和声学状态后验特征，包括：

以所述语音数据流中任一语音帧为中心，从所述语音数据流中提取预设长度的语音帧序列，作为所述任一语音帧的参考序列；

基于所述任一语音帧的参考序列，确定所述任一语音帧的语音特征和声学状态后验特征。

根据本发明提供的一种语音端点检测方法，所述对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征，包括：

基于压缩编码器，对各语音帧的语音特征和声学状态后验特征进行融合压缩，得到各语音帧的语义融合特征；

所述压缩编码器是与解码器联合训练得到的，所述解码器用于还原经过所述压缩编码器压缩的特征。

根据本发明提供的一种语音端点检测方法，所述压缩编码器是基于如下步骤确定的：

确定初始模型，所述初始模型包括通过注意力机制连接的编码器和解码器；

以输入所述初始模型的样本特征和所述初始模型输出的还原特征一致为目标，训练所述初始模型，并将训练完成的初始模型中的编码器作为所述压缩编码器。

根据本发明提供的一种语音端点检测方法，所述基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测，包括：

基于各语音帧的语义融合特征，以及各语音帧的前后语音帧的语义融合特征，确定各语音帧的静音检测结果；

基于各语音帧的静音检测结果，确定所述语音数据流的语音端点检测结果。

根据本发明提供的一种语音端点检测方法，所述基于各语音帧的语义融合特征，以及各语音帧的前后语音帧的语义融合特征，确定各语音帧的静音检测结果，包括：

基于各语音帧的语义融合特征，分别对各语音帧进行静音检测，得到各语音帧的初始检测概率；

基于任一语音帧及其前后语音帧的初始检测概率和融合权重，确定所述任一语音帧的静音检测结果，所述融合权重是是基于对应语音帧与所述任一语音帧之间的时间间隔确定的。

根据本发明提供的一种语音端点检测方法，所述基于各语音帧的语义融合特征，分别对各语音帧进行静音检测，得到各语音帧的初始检测概率，包括：

对任一语音帧的语义融合特征做多头注意力转换，得到所述任一语音帧的隐层特征；

基于所述任一语音帧的隐层特征，对所述任一语音帧进行静音检测，得到所述任一语音帧的初始检测概率。

本发明还提供一种语音端点检测装置，包括：

特征提取单元，用于获取语音数据流中各语音帧的语音特征和声学状态后验特征；

特征融合单元，用于对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；

端点检测单元，用于基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语音端点检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音端点检测方法的步骤。

本发明提供的语音端点检测方法、装置、电子设备和存储介质，通过融合各语音帧的语音特征和声学状态后验特征进行语音端点检测，能够提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。其中，声学状态后验特征中语义信息的应用，相较于完成解码搜索得到转写文本再提取语义特征的方法，步骤的简化极大减低了计算量，保证了端点检测的实时性和低延迟性的需求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图简要地说明，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音端点检测方法的流程示意图；

图2是本发明提供的语音端点检测方法中步骤110的流程示意图；

图3是本发明提供的压缩编码器的确定方法的流程示意图；

图4是本发明提供的初始模型的结构示意图；

图5是本发明提供的语音端点检测方法中步骤130的流程示意图；

图6是本发明提供的语音端点检测方法的流程示意图；

图7是本发明提供的语音端点检测装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前基于语音的人机交互，通常是先进行语音片段检测再进行语义理解，具体可以划分为三个步骤，即：检测用户发言的有效语音片段，从有效语音片段中提取用户发言内容的语义信息，根据语义信息编辑回答内容。

其中第一个步骤，检测用户发言的有效语音片段，目前均是通过通用的VAD技术实现的，通用的VAD技术可以筛选出语音数据中用户实际发言的部分，滤除掉环境噪声等杂音。用户每说一句，会话系统就会提取一块有效语音片段。此外，VAD技术还可以实现会话切割的功能，由于会话系统自身无法判断用户何时结束发言，何时调用回答语音，会话系统目前设置的交互逻辑是，一旦检测到有效语音片段的尾端点，则确定用户当前发言结束，进入语义理解和后续回答过程。

但是由于通用的VAD技术仅能够对于人声/非人声进行检测，并不能分析语音中包含的语义信息，抗环境噪声干扰能力弱，当出现环境噪声(如敲打桌子的声音和电流声等)或者旁边人说话(侧信道人声)时，VAD检测结果可能发生异常，具体的原因有二，一是将没有人声的环境噪声或者是人为噪声(如哄笑声和咳嗽声)错误判断为正常的人声语音内容，从而提前中断交互过程，返回没有实际内容的语音片段；二是截取返回长停顿的无意义语音，如一连串的语气词、停顿词以及和回答内容不相关的无意义内容等，上述无意义语音不仅不能为会话系统以供有效的语义信息，反而会提前中断交互过程，导致会话系统难以得到真实的用户发言内容。由于通用的VAD技术很大可能发生异常，上述交互逻辑在会话系统中发生误触发的概率很高，导致会话系统极其不稳定，用户体验很差。

除此以外，如果用户在发言过程中发生停顿，例如用户说“我想打电话给”之后发生了停顿，用户在思索后续说话内容，但是通用的VAD技术已经结束本次会话并回传语音片段，但是后端系统并不能抓取到用户希望打电话的对象，用户尚未说出的关键信息被遗漏，交互的提前中断导致后端系统无法抓取有效的语义信息。

为了降低误触发的概率，避免提前中断交互，可以考虑在上述交互逻辑中引入语义理解技术。但是在交互逻辑中引入语义理解会导致会话系统延迟的增加，用户发言结束后可能停顿很久才能得到响应，受到会话系统实时性需求的限制，如何改进更加适应人机对话场景的VAD技术，从而在保证实时性的同时避免误触发导致人机交互过程提前中断，仍然人机交互领域亟待解决的问题。

图1是本发明提供的语音端点检测方法的流程示意图，如图1所示，本发明提供的语音端点检测方法可以应用在常见的各种语音识别场景，例如会议转写、智能客服场景，也可以应用在需要实时理解语义且对噪声误触发要求严格的对话场景。该方法包括：

步骤110，获取语音数据流中各语音帧的语音特征和声学状态后验特征。

此处，语音数据流即实时录制得到的数据流，实时录制可以是语音录制，也可以是视频录制，本发明实施例对此不做具体限定。

在实时录制语音数据流的过程中，可以对录制所得的语音数据流中各语音帧分别做特征提取，此处的特征提取具体包括两个方面：

其中一个方面是通常用于语音端点检测的语音帧的语音特征的提取，语音特征反映的是声学方面的信息，例如声强、响度、音高等，语音特征能够直观地反映对应语音帧为静音语音帧还是活动语音帧。

另一个方面则是用于语音识别的语音帧的声学状态后验特征的提取，声学状态后验特征反映的是语义方面的信息，具体可以包括语音帧对应的声学状态，还可以包括语音帧对应声学状态的概率，或者语音帧对应于各个候选的声学状态的概率分布等。

在常见的语音识别流程中，声学状态后验特征仅仅是中间结果，在得到声学状态后验特征之后尚需经过解码搜索方能得到语音识别的转写文本，在此之后还需要对转写文本进行特征提取方能得到语义信息，本发明实施例中直接应用声学状态后验特征所包含的语义信息，则无需再行解码搜索和特征提取，相较于传统的获取语义信息的方法，过程步骤的简化极大减低了计算量，保证了端点检测的实时性和低延迟性的需求。

另外，直接应用声学状态后验特征所包含的语义信息，能够过滤掉音频在信道上的差异，扩宽了获取语义信息所需样本数据的来源，使得包括电话通话数据、会议数据、语音输入法数据等在内的数据均可应用于语义信息提取的训练过程。

步骤120，对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征。

具体地，在得到各语音帧的语音特征和声学状态后验特征之后，即可针对每个语音帧，分别对其语音特征和声学状态后验特征进行融合，此处的融合可以是直接将语音特征和声学状态后验特征相加，也可以是根据预先设置的权重对语音特征和声学状态后验特征进行加权求和，还可以是将语音特征和声学状态后验特征进行拼接，或者是将语音特征和声学状态后验特征拼接后在进行特征压缩，分别对语音特征和声学状态后验特征进行特征压缩后拼接融合等，本发明实施例对此不作具体限定。

由此可以得到每个语音帧的语义融合特征，即包含了对应语音帧在声学方面和语义方面信息的融合特征。

步骤130，基于各语音帧的语义融合特征，对语音数据流进行语音端点检测。

具体地，在得到各语音帧的语义融合特征，即可基于此进行语音端点检测，由于用于语音端点检测的语义融合特征包含了声学方面和语义方面信息，因此在端点检测时同样考虑了声学和语义两方面的信息，因此增强了语音端点检测的抗干扰能力。

进一步地，对语音数据流进行语音端点检测，例如可以针对各语音帧的语义融合特征，分别对各语音帧进行静音检测，从而判断出各语音帧的类型，即静音语音帧或者活动语音帧，并在此基础上确定语音数据流的语音端点；又例如，可以按照预先设定的滑动窗口，从语音数据流中逐次选取语音帧序列，从而基于语音帧序列中各个语音帧的语义融合特征，判断语音帧序列中是否存在语音端点，并定位语音端点位置，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过融合各语音帧的语音特征和声学状态后验特征进行语音端点检测，能够提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。其中，声学状态后验特征中语义信息的应用，相较于完成解码搜索得到转写文本再提取语义特征的方法，步骤的简化极大减低了计算量，保证了端点检测的实时性和低延迟性的需求。

基于上述任一实施例，图2是本发明提供的语音端点检测方法中步骤110的流程示意图，如图2所示，步骤110包括：

步骤111，以语音数据流中任一语音帧为中心，从语音数据流中提取预设长度的语音帧序列，作为该语音帧的参考序列。

具体地，语音数据流本身具有时序性，基于语音数据流的语音端点检测同样属于时间序列强相关的任务。因此在以语音帧为单位获取各语音帧的语音特征和声学状态后验特征时，并不能仅仅考虑单个语音帧的信息，还需要结合单个语音帧之前和之后各语音帧的信息，通过序列化的信息挖掘语音帧的语音特征和声学状态后验特征。

假设当前需要提取语音特征和声学状态后验特征的语音帧为语音数据流中的任一语音帧，则需要以该语音帧作为中心，从语音数据流中向前和向后扩展语音帧，以构成该语音帧的参考序列，用于辅助该语音帧的特征提取。

此处，任一语音帧的参考序列中包含该语音帧，并且该语音帧处于参考序列中的中心位置。例如，针对第m个语音帧，可以提取语音数据流中第m—w个语音帧至第m+w个语音帧构成的语音帧序列，作为第m个语音帧的参考序列，参考序列的长度为预设长度，预设长度即2w+1，其中w为正整数。

步骤112，基于该语音帧的参考序列，确定该语音帧的语音特征和声学状态后验特征。

具体地，基于参考序列进行语音帧的语音特征和声学状态后验特征提取，在此过程中既利用了历史信息也利用了未来信息，由此使得提取所得到语音特征和声学状态后验特征提取能够更加贴合语音帧在语音数据流中包含的声学信息和语义信息，从而进一步提高语音端点检测的可靠性。

基于上述任一实施例，步骤112中，基于该语音帧的参考序列，确定该语音帧的语音特征，具体可以通过如下方式实现：

针对任一语音帧提取所得的语音特征，可以是通过常用的帧级别的语音端点检测模型实现的，此处帧级别的语音端点检测模型处于时序性的考虑，通常使用长短时记忆网络(Long Short-Term Memory，LSTM)、循环神经网络(Recurrent Neural Network，RNN)等结构。例如语音特征的提取可以采用CNN(Convolutional Neural Networks，卷积神经网络)+LSTM的结构，可以首先获取语音帧的参考序列中各语音帧的声学特征，并将声学特征输入到CNN+LSTM的结构中，以获取语音帧的语音特征。此处，声学特征的提取可以通过Filter Bank滤波器组或者MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)特征得到。

另外，在基于常用的帧级别的语音端点检测模型实现语音特征提取时，可以先应用大量样本音频训练语音端点检测模型，在将语音端点检测模型中用于提取语音帧的语音特征的部分应用到步骤112中。例如，可以将语音端点检测模型中通过输入的音频输出中间隐层向量的部分，作为提取语音帧的语音特征的部分。

基于上述任一实施例，步骤112中，基于该语音帧的参考序列，确定该语音帧的声学状态后验特征，具体可以通过预先训练好的声学模型实现，可以将语音帧的参考序列输入到声学模型中，将声学模型解码中的后验概率作为该语音帧的声学状态后验特征来表达对应语音帧的语义信息。

基于上述任一实施例，步骤120包括：

压缩编码器是与解码器联合训练得到的，解码器用于还原经过压缩编码器压缩的特征。

具体地，针对任一语音帧，该语音帧的语音特征和声学状态后验特征的融合，不仅需要保留语音特征和声学状态后验特征本身携带的信息，还需要避免融合得到的语义融合特征中的部分信息在后续任务执行过程中被选择性地忽视掉。而常见的融合方式，例如直接拼接，虽然可以保证信息不被遗漏，但是在后续语音端点检测过程中，语音端点检测应用的一些机制，例如注意力机制，可能会有选择地只应用语义融合特征左边的语音特征，而忽视掉语义融合特征右边拼接的声学状态后验特征，导致实际检测过程中并没有参考到语义信息，影响最终的端点检测结果。

针对这个问题，本发明实施例中通过压缩编码器进行融合。此处，压缩编码器用于对输入的特征进行压缩，而针对于语音特征和声学状态后验特征，可以是拼接之后作为一个特征输入到压缩编码器中的，也可以是作为两个特征输入到压缩编码器中，由压缩编码器边压缩边融合，本发明实施例对此不作具体限定。

进一步地，压缩编码器在实现语音特征和声学状态后验特征的充分融合的同时，还需要保证融合所得的语义融合特征没有遗漏语音特征和声学状态后验特征中的信息。因此，本发明实施例中应用压缩编码器和解码器联合训练的方式来获取压缩编码器。其中，解码器承担还原经过压缩编码器压缩的特征的任务。

例如，压缩编码器承担特征压缩的任务，将输入的特征A压缩成为A’，解码器则承担还原被压缩编码器压缩的特征的任务，对A’进行解码得到A”，并期望A”能够尽量接近被压缩之前的特征A。通过压缩编码器和解码器的联合训练，使得压缩编码器在实现特征压缩的同时，尽量保证压缩后的语义融合特征不会遗漏压缩前的语音特征和声学状态后验特征中的信息，确保信息的完整性。

本发明实施例提供的方法，通过与解码器联合训练所得的压缩编码器对各语音帧的语音特征和声学状态后验特征进行融合压缩，从而保证得到的各语音帧的语义融合特征在包含所有信息的同时得到更加隐式的抽象，以提高后续语音端点识别的可靠性。

基于上述任一实施例，图3是本发明提供的压缩编码器的确定方法的流程示意图，如图3所示，压缩编码器是基于如下步骤确定的：

步骤310，确定初始模型，初始模型包括通过注意力机制连接的编码器和解码器。

具体地，压缩编码器和解码器的联合训练，可以参考图像压缩和恢复的思路，或者是自然语言处理领域文本语义抽取的思路。在进行训练之前，首先需要构建一个用于训练的初始模型，以实现向量有损压缩并且恢复的任务。图4是本发明提供的初始模型的结构示意图，如图4所示，初始模型包括编码器encode和解码器decode两部分，编码器的输出端和解码器的输入端可以直接连接。

作为优选，为了进一步提升初始模型进行向量压缩和解码恢复的能力，可以通过注意力机制连接编码器和解码器，即编码器的输出端后接注意力模块，再与解码器的输入端连接。注意力机制的加入，使得后续任务更加复杂，从而使得训练所得的初始模型鲁棒性更强。

步骤320，以输入初始模型的样本特征和初始模型输出的还原特征一致为目标，训练初始模型，并将训练完成的初始模型中的编码器作为压缩编码器。

具体地，在得到初始模型之后，即可针对初始模型进行训练。在训练过程中，将样本特征输入到初始模型中，由初始模型中的编码器对样本特征进行压缩，再由初始模型中的解码器对被压缩后的样本特征进行解码还原，并输出还原特征。初始模型中的编码器旨在将输入的特征完整地抽象成一个更高维度的抽象向量，抽象向量所包含信息的完整与否决定了解码器能否完整正确地将抽象向量还原回输入的特征，因此在训练过程中，可以将输入的样本特征和输出的还原特征是否一致作为判断初始模型中的编码器在压缩过程中是否有损的衡量标准，并且以输入初始模型的样本特征和初始模型输出的还原特征一致为目标进行初始模型训练。

训练完成的初始模型中的编码器可以满足无损压缩的需求，因此可以直接将训练完成的初始模型中的编码器作为融合压缩语音帧的语音特征和声学状态后验特征的压缩编码器。

基于上述任一实施例，图5是本发明提供的语音端点检测方法中步骤130的流程示意图，如图5所示，步骤130包括：

步骤131，基于各语音帧的语义融合特征，以及各语音帧的前后语音帧的语义融合特征，确定各语音帧的静音检测结果。

具体地，考虑到语音端点检测本身属于时间序列强相关的任务，基于单个语音帧的语义融合特征进行静音检测并不能准确得到对应语音帧的静音检测结果，因此本发明实施例中提出针对单个语音帧，在对该语音帧进行静音检测时，不但考虑该语音帧的语义融合特征，还要考虑该语音帧的前后语音帧的语义融合特征。

此处，任一语音帧的前后语音帧并不特指排列在该语音帧之前的一个语音帧和排列在该语音帧之后的一个语音帧，而可以是排列在该语音帧之前和之后预设时间长度内的语音帧，例如预设时间长度可以为k帧，针对第m个语音帧，该语音帧的前后语音帧可以包括第m—k至第m—1个前向语音帧，以及第m+1至第m+k个后向语音帧，k可以为1，也可以是其他正整数。

针对各语音帧及其前后语音帧的语义融合特征进行静音检测，可以是将任一语音帧及其前后语音帧的语义融合特征按照时间顺序排列成序列的形式输入到预先训练好的静音检测模型中，以获取静音检测模型输出的该语音帧的静音检测结果。又或者可以根据前后语音帧与该语音帧之间的时间间隔的大小，为各个前后语音帧分别设置权重，从而对该语音帧及其前后语音帧的语义融合特征进行加权融合，并将融合结果输入到预先训练好的静音检测模型中，以获取静音检测模型输出的该语音帧的静音检测结果。

此处，语音帧的静音检测结果用于反映对应语音帧属于静音语音帧还是活动语音帧。

步骤132，基于各语音帧的静音检测结果，确定语音数据流的语音端点检测结果。

具体地，在得到各语音帧的静音检测结果之后，即可针对各个语音帧为静音语音帧还是活动语音帧，累计静音片段或者活动语音片段的持续时间长度，实现语音数据流的语音端点检测，从而确定出语音数据流中可能包含的有效语音片段的首端点和尾端点，以便于输出有效语音片段用于后续会话。

基于上述任一实施例，步骤131包括：

基于任一语音帧及其前后语音帧的初始检测概率和融合权重，确定该语音帧的静音检测结果，融合权重是是基于对应语音帧与该语音帧之间的时间间隔确定的。

具体地，静音检测是针对于单个语音帧而言的，可以根据任一语音帧的语义融合特征判断该语音帧的类型，即该语音帧属于静音语音帧还是活动语音帧，并由此得到该语音帧的初始检测概率。此处的初始检测概率可以包括语音帧为静音语音帧的概率，或者包括语音帧为活动语音帧的概率，再或者包括语音帧分别为静音语音帧和活动语音帧的概率。

考虑到语音数据流本身具有时序性，在确定任一语音帧的静音检测结果时，可以参照该语音帧的前后语音帧的初始检测概率。此外，考虑到语音突变的概率较小，多数是随着时间推移渐变的，针对任一语音帧而言，前后语音帧与该语音帧之间的时间间隔越小，则前后语音帧与该语音帧的情况越近似，可参考性越强，前后语音帧与该语音帧之间的时间间隔越大，则前后语音帧对该语音帧的可参考性越弱。

因此，可以根据前后语音帧与该语音帧之间的时间间隔，确定前后语音帧以及该语音帧的融合权重，考虑到时间间隔可以反映出来可参考性的强弱，而可参考性的强弱则可以直接对应到融合权重的大小，可以设置时间间隔越大的语音帧的融合权重越小，时间间隔越小的语音帧的融合权重越大。

在此基础上，即可基于针对于任一语音帧的各语音帧的融合权重，对该语音帧的初始检测概率及其前后语音帧的初始检测概率进行加权融合，从而得到针对该语音帧的加权融合概率，并由此判断得到该语音帧的静音检测结果，例如可以预先设置判断阈值，如果加权融合概率大于判断阈值，则确定该语音帧为静音语音帧，否则确定该语音帧为活动语音帧。此处判断阈值可以设置为0.5或者0.6等，本发明实施例对此不作具体限定。

基于上述任一实施例，基于任一语音帧及其前后语音帧的初始检测概率和融合权重，确定该语音帧的静音检测结果，可以参考如下示例：

假设任一语音帧为第m个语音帧，该语音帧的前后语音帧可以包括第m-k至第m-1个前向语音帧，以及第m+1至第m+k个后向语音帧，对初始检测概率进行加权融合具体可以体现为加权平均，可以表示为如下公式：

式中，即加权融合所得的第m个语音帧的加权融合概率。y_m-k至y_m+k为第m个语音帧及其前后语音帧的初始检测概率，W_m-k至W_m+k为第m个语音帧及其前后语音帧的融合权重。

其中，融合权重W_m-k至W_m+k可以是预先设定好的，例如融合权重W_m-k至W_m+k可以是等差数列，越靠近第m个语音帧的融合权重值越趋近于1，越靠近两端的值越小，融合权重值始终大于0。例如m＝4，k＝2时，第2、3、4、5、6个语音帧的融合权重分别为0.5、0.75、1、0.75、0.5，其中每两帧之间的差可以为0.25。

基于上述任一实施例，步骤131中，基于各语音帧的语义融合特征，分别对各语音帧进行静音检测，得到各语音帧的初始检测概率，包括：

对任一语音帧的语义融合特征做多头注意力转换，得到该语音帧的隐层特征；

基于该语音帧的隐层特征，对该语音帧进行静音检测，得到该语音帧的初始检测概率。

具体地，在针对单个语音帧的语义融合特征进行静音检测时，可以应用注意力机制凸显语义融合特征中更具代表性的特征，进而得到更深层次可实现更加准确的静音检测的隐层特征。此处，隐层特征的获取可以通过自注意力机制实现，具体可以体现为如下公式：

式中，为第m个语音帧的语义融合特征，d_xm为矩阵/>的向量维度，为通过自注意力机制得到的第m个语音帧的隐层特征。

在此基础上，为了能够充分捕捉语义融合特征在不同空间上的信息，可以应用多头注意力机制(Multi-head attention)来实现多路并行的自注意力转换，从而充实隐层特征所包含的信息，提高后续静音检测的可靠性。

进一步地，多头注意力机制可以对每个乘以一个随机矩阵W_i，再单独进行自注意力转换。需要说明的是随机矩阵W_i用于实现多路线性转换，从而得到多个线性转换之后的语义融合特征，分别对每个线性转换之后的语义融合特征进行自注意力转换，从而得到多个自注意力值，即多头注意力输出，可以将多头注意力输出归一化成一个向量输出，假设归一化矩阵为W^z，则第m个语音帧的隐层特征输出可以表示为：其中n为多头注意力机制的并行注意力数量，head₁，head₂，...，head_n分别表示各自注意力值。

基于上述任一实施例，图6是本发明提供的语音端点检测方法的流程示意图，如图6所示，语音端点检测方法可以包括如下步骤：

首先，针对实时录制的语音数据流，顺序以语音数据流中每个语音帧为中心，从语音数据流中提取预设长度的语音帧序列，作为每个语音帧的参考序列。

其次，分别将每个语音帧的参考序列输入到VAD时序建模和声学建模中，从而得到每个语音帧的语音特征和声学状态后验特征。其中，VAD时序建模可以是常用的语音端点检测模型中针对输入的音频输出中间隐层向量的部分，例如可以是CNN+LSTM的结构，由此得到的语音特征可以是BN(Batch Normalization)特征，特征维度可以是T*512，其中T表示参考序列长度。声学建模可以是通用的声学模型，可以将声学模型解码中的后验概率作为该语音帧的声学状态后验特征来表达对应语音帧的语义信息，声学状态后验特征的特征维度可以是T*9004。

接着，可以对每个语音帧的语音特征和声学状态后验特征进行拼接，并将拼接后的每个语音帧的特征输入到压缩编码器中，进行向量压缩，从而得到每个语音帧更高维度的语义融合特征。

随后，可以针对每个语音帧的语义融合特征分别进行多头注意力转换，图5中虚线框框出的即多头注意力转换所得的各头的自注意力值。在此基础上，对各个语音帧的多头的自注意力值进行静音检测，即可得到各个语音帧的初始检测概率。在此之后，整合各个语音帧的初始检测概率，即可得到各个语音帧的静音检测结果。

最后，根据预先设定好的帧级解码规则，应用各个语音帧的静音检测结果进行语音端点检测，即可得到端点检测结果。

基于上述任一实施例，图6示出的语音端点检测方法的流程，可以通过端到端的模型实现。在端到端的模型中，各步骤均存在对应的执行模块。

其中，VAD时序建模的部分，可以通过大量音频数据训练通用的VAD任务模型，再将VAD任务模型中针对输入的音频输出中间隐层向量的部分的参数拷贝到端到端的模型中。在后续针对端到端的模型训练中，此部分的参数可以被更新。

声学建模的部分，可以通过以字准确率为目标预训练所得的声学模型得到。声学模型的参数被拷贝到端到端的模型之后，后续在针对端到端的模型训练过程中，此部分参数固定不变，不参与更新。

向量压缩的部分，可以通过输入初始模型的样本特征和初始模型输出的还原特征一致为目标，训练编码器+解码器结构的初始模型得到。具体可以将训练好的编码器用于向量压缩，同样地，此部分参数固定不变，不参与端到端的模型训练过程的更新。

多头注意力机制的部分和帧级解码模型，均可以直接构建在端到端的模型中，并在后续针对端到端的模型训练中进行参数更新。

基于上述任一实施例，图7是本发明提供的语音端点检测装置的结构示意图，如图7所示，该装置包括：

特征提取单元710，用于获取语音数据流中各语音帧的语音特征和声学状态后验特征；

特征融合单元720，用于对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；

端点检测单元730，用于基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。

本发明实施例提供的装置，通过融合各语音帧的语音特征和声学状态后验特征进行语音端点检测，能够提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。其中，声学状态后验特征中语义信息的应用，相较于完成解码搜索得到转写文本再提取语义特征的方法，步骤的简化极大减低了计算量，保证了端点检测的实时性和低延迟性的需求。

基于上述任一实施例，特征提取单元710用于：

基于上述任一实施例，特征融合单元720用于：

基于上述任一实施例，该装置还包括编码器构建单元，用于：

基于上述任一实施例，端点检测单元730用于：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音端点检测方法，该方法包括：获取语音数据流中各语音帧的语音特征和声学状态后验特征；对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音端点检测方法，该方法包括：获取语音数据流中各语音帧的语音特征和声学状态后验特征；对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音端点检测方法，该方法包括：获取语音数据流中各语音帧的语音特征和声学状态后验特征；对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音端点检测方法，其特征在于，包括：

基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测；

所述对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征，包括：

所述压缩编码器是与解码器联合训练得到的，所述解码器用于还原经过所述压缩编码器压缩的特征；

所述基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测，包括：

基于任一语音帧及其前后语音帧的初始检测概率和融合权重，确定所述任一语音帧的静音检测结果，所述融合权重是基于对应语音帧与所述任一语音帧之间的时间间隔确定的；

2.根据权利要求1所述的语音端点检测方法，其特征在于，所述获取语音数据流中各语音帧的语音特征和声学状态后验特征，包括：

3.根据权利要求1所述的语音端点检测方法，其特征在于，所述压缩编码器是基于如下步骤确定的：

4.根据权利要求1所述的语音端点检测方法，其特征在于，所述基于各语音帧的语义融合特征，分别对各语音帧进行静音检测，得到各语音帧的初始检测概率，包括：

5.一种语音端点检测装置，其特征在于，包括：

端点检测单元，用于基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测；

所述特征融合单元具体用于：

所述端点检测单元具体用于：

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述语音端点检测方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述语音端点检测方法的步骤。