CN110875033A

CN110875033A - 用于确定语音结束点的方法、装置和计算机存储介质

Info

Publication number: CN110875033A
Application number: CN201811026257.9A
Authority: CN
Inventors: 孙珏; 徐曼
Original assignee: NIO Nextev Ltd
Current assignee: NIO Holding Co Ltd
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2020-03-10

Abstract

本发明涉及语音识别技术，特别涉及用于确定语音结束点的方法、装置和计算机存储介质。按照本发明一个方面的用于确定语音结束点的方法包含下列步骤：a）对语音信号进行监测以确定是否进入停顿状态；b）响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长；以及c）如果在自该停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点。

Description

用于确定语音结束点的方法、装置和计算机存储介质

技术领域

本发明涉及语音识别技术，特别涉及用于确定语音结束点的技术。

背景技术

人们在讲话时通常会出现偶尔的停顿。导致这种停顿的原因是多方面，例如讲话者思维暂时停滞，主观上希望形成停顿，以及受其它突发性事件干扰等。因而讲话中的停顿一般是以随机方式出现的，并且停顿的性质(暂时性和永久性)无法即时确定。

在典型的人机语音交互场景中，人机交互装置需要对语音信号进行处理(例如自动语音识别(ASR)和自然语言处理(NLU))，并在此基础上执行相应的操作。但是停顿的上述特性给信号处理造成困难，特别是在语音结束点的判断上。

因此能够准确地判断语音结束点的技术方案是迫切需要的。

发明内容

本发明的一个目的是提供一种用于确定语音结束点的方法和装置，其能够提高对语音结束点的识别准确度。

按照本发明一个方面的用于确定语音结束点的方法包含下列步骤：

a)对语音信号进行监测以确定是否进入停顿状态；

b)响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长；以及

c)如果在自该停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点。

优选地，在上述方法中，步骤a)包括下列步骤：

a1)检测语音信号中是否出现非话音帧；

a2)响应于非话音帧的出现，如果在自该非话音帧起的一个预设时长内未出现话音帧，则确定进入停顿状态。

优选地，在上述方法中，步骤a1)包括下步骤：

a11)提取一个语音信号帧的特征向量；

a12)利用神经网络模型，由步骤a11)所提取的特征向量得到相关联的语音信号帧的评分；以及

a13)通过将步骤a12所得到的评分与第一预设阈值进行比较来判断该语音信号帧是否为非话音帧。

优选地，在上述方法中，在步骤a2)中，按照下列方式来确定是否出现话音帧：

a21)提取非话音帧之后的其中一个语音信号帧的特征向量；

a22)利用神经网络模型，由步骤a21)所提取的向量特征确定相关联的语音信号帧的评分；以及

a23)通过将步骤a22)所确定的评分与第二预设阈值进行比较来判断相关联的语音信号帧是否为话音帧。

优选地，在上述方法中，步骤b)包括下列步骤：

对所述停顿状态之前的语音信号执行自动语音识别处理和自然语言理解处理以得到语义内容；

由语义内容确定用户的意图；以及

获得与所确定的意图相对应的延迟时长。

优选地，在上述方法中，所述用户的意图按照对车载设备的操作类型分类。

按照本发明另一个方面的用于确定语音结束点的装置包含：

第一模块，用于对语音信号进行监测以确定是否进入停顿状态；

第二模块，用于响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长；以及

第三模块，用于如果在自该停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点。

按照本发明另一个方面的用于确定语音结束点的装置包含存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其执行所述程序以实现如上所述的方法。

按照本发明还有一个方面的计算机可读存储介质，其上存储计算机程序，其中，该程序被处理器执行时实现如上所述的方法。

按照本发明的一个或多个实施例，延迟时长取决于停顿之前的语音信号的语义内容，使得延迟时长的设置能够更为合理、准确表征停顿的性质，从而提高语音结束点的判断准确度，降低人机交互时的静音冗余，并且提高语音识别效率。此外，通过将用户的意图按照对车载设备的操作类型分类，有利于系统的维护和扩充(例如在为车载系统增加新的操作命令时)。

附图说明

本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解，附图中相同或相似的单元采用相同的标号表示。附图包括：

图1示出了神经网络模型的示例性训练过程。

图2为按照本发明一个或多个实施例的用于确定语音结束点的方法。

图3示例性地示出一个判断停顿状态的例程。

图4示例性地示出一个判断进入停顿状态后的延迟时长内是否进入话音状态的例程。

图5示出可用于确定停顿状态的有限状态机模型。

图6为按照本发明一个或多个实施例的用于确定语音结束点的装置的示意框图。

图7为按照本发明一个或多个实施例的用于确定语音结束点的装置的示意框图。

具体实施方式

下面参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现，而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整，以将本发明的保护范围更为全面地传达给本领域技术人员。

在本说明书中，诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外，本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。

诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。

按照本发明的一个或多个实施例，将语音信号帧划分为非话音帧和话音帧两种类型，其中，话音帧指的是被语音处理装置识别为包含话音的语音信号帧或较大概率包含话音的语音信号帧，话音帧指的是被语音处理装置识别为不包含话音的语音信号帧或较大概率不包含话音的语音信号帧。

在本发明的一个或多个实施例中，语音信号通常经A/D转换后形成连续的语音信号帧，可以基于每个语音信号帧的特征向量来确定其属于话音帧或非话音帧的概率或评分。示例性地，语音信号帧的特征向量被送至DNN模型中，经过前向计算得到二分类后验概率或评分。用于判断话音帧和非话音帧的神经网络模型例如可以是深度神经网络模型。图1示出了上述神经网络模型的示例性训练过程。如图1所示，首先确定训练集或训练样本。随后从训练样本分别提取fbank特征和MFCC特征，其中提取的fbank特征作为深度神经网络(DNN)模型的输入特征，而提取的MFCC特征经过GMM-HMM模型训练得到相应的标注文件，该标注文件则作为DNN模型的标注输入。接着，利用包含fbank特征的特征文件feats和标注文件fa对DNN模型进行训练直至收敛，从而得到通用DNN模型。

按照本发明的一个或多个实施例，利用与话音帧相关联的事件来确定话音状态。例如，示例性地，当检测到语音信号中出现话音帧时，则确定进入话音状态。

按照本发明的一个或多个实施例，利用与非话音帧相关联的事件来确定停顿状态。例如，示例性地，当检测到语音信号中出现非话音帧时，可以继续监测语音信号，并且如果在自非话音帧起的一个预设时长内未出现话音帧，则确定进入停顿状态。需要指出的是，停顿状态的起始时点可以是首个非话音帧的起始或结束时点，也可以是自首个非话音帧起的预设时长的结束时点。

按照本发明的一个或多个实施例，如果在自停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点，其中，延迟时长取决于停顿之前的语音信号的语义内容。可以根据语义内容确定用户的意图，并由此得到与所确定的意图相对应的延迟时长。进一步地，可以将用户的意图按照对车载设备的操作类型分类(也即以一条操作命令或多条操作命令的组合表示用户的意图)。示例性地，当用户的意图为导航、拨打或接听电话、播放媒体文件等时，可以将延迟时长设置得更长一些。

图2为按照本发明一个或多个实施例的用于确定语音结束点的方法。需要指出的是，实施图2所示方法的装置(以下称为用于确定语音结束点的装置)可以是单独的硬件装置，也可以集成在其它装置(例如车载娱乐系统和车辆控制系统等)中的软件模块或硬件单元。这种装置的例子包括但不限于人机交互装置或语音信号处理装置。示例性地，在下面的描述中以语音信号处理装置为例。更进一步，用于实现该方法的装置例如是智能交互装置，比如应用在车辆中的智能交互机器人等。

如图2所示，在步骤210，语音信号处理装置对当前的语音信号帧提取特征向量。随后进入步骤220，语音信号处理装置利用神经网络模型，由所提取的特征向量得到当前语音信号帧的评分。

接着，图2所示的方法流程进入步骤230，语音信号处理装置基于评分判断当前语音信号帧是否为非话音帧，如果为非话音帧，则转入步骤240，否则返回步骤210以提取下一语音信号帧的特征向量。在步骤230中，示例性地，可以通过将当前语音信号帧的评分与预设的第一阈值th_st进行比较来作出上述判断，例如如果评分小于第一阈值th_st，则判断当前语音信号帧为非话音帧(也即检测到非话音帧)。

在步骤240，语音信号处理装置判断是否进入停顿状态。如果进入停顿状态，则进入步骤250，否则，返回步骤210。

图3示例性地示出一个判断停顿状态的例程。如图3所示，在步骤310中，语音信号处理装置提取紧随在步骤230中被检测到的非话音帧之后的语音信号帧的特征向量。接着，在步骤320中，语音信号处理装置利用神经网络模型，由步骤310所提取的向量特征确定相关联的语音信号帧的评分。随后进入步骤330，语音信号处理装置通过将步骤320所确定的评分与第二预设阈值th_ed进行比较来判断相关联的语音信号帧是否为话音帧。如果大于第二阈值th-ed，则判断为话音帧(也即检测到话音帧)，因而退出例程并返回步骤210，否则进入步骤340。

在步骤340，语音信号处理装置判断自在步骤230中被检测到非话音帧起是否经历了一个预设时长(例如0.5秒)，如果经历了预设时长，则进入步骤350，否则返回步骤310。在步骤350，语音信号处理装置将预设时长结束时点标记为Endpoint1，并随后进入步骤250。

再次参见图2。在步骤250，语音信号处理装置对停顿状态之前的语音信号执行自动语音识别处理和自然语言理解处理以得到语义内容。接着进入步骤260，语音信号处理装置由语义内容确定用户的意图。随后，在步骤270，语音信号处理装置获得与所确定的意图相对应的延迟时长。

步骤270之后，图1所示的方法流程转入步骤280。在该步骤中，语音信号处理装置判断自在步骤240确定进入停顿状态后的延迟时长内，是否进入话音状态，如果进入，则返回步骤210，否则进入步骤290。在步骤290，语音信号处理装置将延迟时长结束时点标记为语音结束点Endpoint2。

图4示例性地示出一个判断进入停顿状态后的延迟时长内是否进入话音状态的例程。如图4所示，在步骤410中，语音信号处理装置提取在确定进入停顿状态时点(例如Endpoint1)之后的语音信号帧的特征向量。接着，在步骤420中，语音信号处理装置利用神经网络模型，由步骤410所提取的向量特征确定相关联的语音信号帧的评分。随后进入步骤430，语音信号处理装置通过将步骤420所确定的评分与第二预设阈值th_ed进行比较来判断相关联的语音信号帧是否为话音帧。如果大于第二阈值th-ed，则判断为话音帧(也即检测到话音帧)，因而退出例程并返回步骤210，否则进入步骤440。

在步骤440，语音信号处理装置判断自进入停顿状态时点起是否经历了一个延迟时长，如果经历了延迟时长，则进入步骤290，否则返回步骤410。

在本发明的一个或多个实施例中，可以采用图5所示的有限状态机模型来确定是否进入停顿状态。参见图5，当前语音信号帧的评分经过平滑处理之后输入有限状态机模型。该有限状态机模型包括SIL、SPEECH和BUF三个状态，这些状态之间的转换过程如图5所示，其转移条件基于当前语音信号帧的评分与阈值的比较结果。设置固定缓冲时间buf_size，若缓冲时间内未检测到话音帧，则判断进入停顿状态并输出EndPoint1。

图6所示的装置60包含存储器610(例如诸如闪存、ROM之类的非易失存储器)、处理器620以及存储在存储器610上并可在处理器620上运行的计算机程序630，其中，执行计算机程序630可以实现上面借助图1-5所述的用于确定语音结束点的方法。

应理解到，存储器610与处理器620可以是独立的两个器件，彼此之间是电性连接的，从而使得处理器620在工作时可以从存储器610加载程序并在处理器620上运行。在一些示例中，存储器610可以是处理器620的一部分，也就是说处理器620本身自带了存储单元。

图7所示的装置70包含第一模块710、第二模块720和第三模块730，其中第一模块710用于对语音信号进行监测以确定是否进入停顿状态，第二模块720用于响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长，第三模块730用于如果在自该停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点。

按照本申请，还提供对话语音系统，该对话语音系统用于语音交互，其被配置为能够执行如上任一示例中描述的用于确定语音结束点的方法，和/或包括如上任一示例中描述的用于确定语音结束点的装置。

本申请所提到的语音对话系统可被用在智能机器人中，例如应用在车辆中语音交互装置、AI机器人等。

按照本发明的另一方面，还提供了一种计算机可读存储介质，其上存储计算机程序，该程序被处理器执行时可实现上面借助图1-5所述的用于确定语音结束点的方法。

提供本文中提出的实施例和示例，以便最好地说明按照本技术及其特定应用的实施例，并且由此使本领域的技术人员能够实施和使用本发明。但是，本领域的技术人员将会知道，仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本发明的各个方面或者将本发明局限于所公开的精确形式。

鉴于以上所述，本公开的范围通过以下权利要求书来确定。

Claims

1.一种用于确定语音结束点的方法，其特征在于，包含下列步骤：

a)对语音信号进行监测以确定是否进入停顿状态；

2.如权利要求1所述的方法，其中，步骤a)包括下列步骤：

a1)检测语音信号中是否出现非话音帧；

3.如权利要求2所述的方法，其中，步骤a1)包括下步骤：

a11)提取一个语音信号帧的特征向量；

4.如权利要求3所述的方法，其中，在步骤a2)中，按照下列方式来确定是否出现话音帧：

a21)提取非话音帧之后的其中一个语音信号帧的特征向量；

5.如权利要求1所述的方法，其中，步骤b)包括下列步骤：

由语义内容确定用户的意图；以及

获得与所确定的意图相对应的延迟时长。

6.如权利要求5所述的方法，其中，所述用户的意图按照对车载设备的操作类型分类。

7.一种用于确定语音结束点的装置，其包含存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，执行所述程序以执行下列步骤：

a)对语音信号进行监测以确定是否进入停顿状态；

8.如权利要求7所述的装置，其中，步骤a)包括下列步骤：

a1)检测语音信号中是否出现非话音帧；

9.如权利要求8所述的装置，其中，步骤a1)包括下步骤：

a11)提取一个语音信号帧的特征向量；

10.如权利要求9所述的装置，其中，在步骤a2)中，按照下列方式来确定是否出现话音帧：

a21)提取非话音帧之后的其中一个语音信号帧的特征向量；

11.如权利要求7所述的装置，其中，步骤b)包括下列步骤：

由语义内容确定用户的意图；以及

获得与所确定的意图相对应的延迟时长。

12.如权利要求11所述的装置，其中，所述用户的意图按照对车载设备的操作类型分类。

13.一种语音对话系统，其设置成执行如权利要求1到6所述的用于确定语音结束点的方法和/或包括如权利要求7到12所述的用于确定语音结束点的装置。

14.一种用于用于确定语音结束点的装置，其包含：

15.一种计算机可读存储介质，其上存储计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。