CN110827795A

CN110827795A - 语音输入结束判断方法、装置、设备、系统以及存储介质

Info

Publication number: CN110827795A
Application number: CN201810892168.6A
Authority: CN
Inventors: 郎皓; 吴丽娟; 于浩淼; 严念念
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2020-02-21

Abstract

本公开提出了一种语音输入结束判断方法、装置、设备以及存储介质。实时检测用户的语音输入，在检测到没有语音输入的时间超过预定时间阈值的情况下，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定用户是否结束语音输入。由此，本公开可以视为一种分级判断方案，如可以视为语音活动检测与语音分析相结合的分级判断方案。并且作为初级判断方式，语音活动检测并不需要具有较高的准确率。因此，使用语音活动检测时用到的时间阈值可以设置为一个较小值。而文本特征分析和/或声学特征分析可以作为判断的兜底方案，可以保证判断结果的准确性。如此，在保证准确性的同时，可以大大降低交互延迟，提高用户的交互体验。

Description

语音输入结束判断方法、装置、设备、系统以及存储介质

技术领域

本公开涉及语音交互技术领域，特别是涉及一种判断用户是否结束语音输入的方法、装置、设备、系统以及存储介质。

背景技术

语音交互属于人机交互的范畴，是人机交互发展到目前的一种较为前沿的交互方式。语音交互就是用户通过自然语言给机器下指令，以达成自己的目的的过程。在语音交互过程中，需要对用户的语音输入是否结束进行判断，以及时获取完整的语音输入，提高用户的交互体验。

目前主要是采取语音活动检测的方式来确定用户是否结束语音输入。简单地说，就是在检测到用户没有语音输入的时间超过一个时间阈值时，判定语音输入结束。这种方案实现起来较为简单，但是需要设置一个较高的时间阈值，才能保证判断结果的准确性，降低误打断率。而时间阈值设置的越高，用户的等待时间也就越长，这无疑会增加交互延迟，降低用户的交互体验。

因此，需要一种能够在保证准确率的同时，还能够降低用户的交互延迟的语音输入结束判断方案。

发明内容

本公开的一个目的在于，提供一种能够在保证准确率的同时，还能够降低用户的交互延迟的语音输入结束判断方案。

根据本公开的第一个方面，提出了一种判断语音输入是否结束的方法，包括：检测语音输入；以及在检测到没有语音输入的时间超过预定时间阈值的情况下，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定语音输入是否结束。

可选地，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析的步骤包括的步骤包括：将至少部分语音输入转换为文本信息，并对文本信息的文本特征进行分析；以及/或者对之前检测到的语音输入尾部的语音输入的声学特征进行分析。

可选地，文本特征用于表征至少部分语音输入的文本信息，并且/或者声学特征是使用预定的语音特征提取方式对至少部分语音输入进行抽取得到的。

可选地，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析的步骤包括：将文本特征和/或声学特征输入预先训练好的预测模型，以得到针对至少部分语音输入的预测结果，其中，预测模型用于预测语音输入是否结束。

可选地，预测模型为深度神经网络模型，深度神经网络模型包括：输入层、两个LSTM层、拼接结构、全连接层以及分类器，输入层用于将文本特征和声学特征分别输入不同的LSTM层，拼接结构用于将两个LSTM层的输出结果进行拼接，并将拼接结果输入全连接层，分类器用于对全连接层的输出进行二分类，以确定语音输入是否结束。

可选地，方法还包括：在确定语音输入未结束的情况下，将之前检测到的语音输入进行缓存，并且继续执行检测语音输入的步骤。

可选地，将之前检测到的语音输入进行缓存的步骤包括：将之前检测到的语音输入的文本进行缓存。

可选地，方法还包括：在确定语音输入结束的情况下，将检测到的语音输入以及缓存中的语音输入，作为完整语音输入，并清空缓存。

可选地，方法还包括：在检测到没有语音输入超过预定时间阈值，且未检测到语音输入的情况下，将缓存中的语音输入作为完整语音输入。

根据本公开的第二个方面，还提供了一种判断语音输入是否结束的装置，包括：检测模块，用于检测语音输入；和分析模块，用于在检测到没有语音输入的时间超过预定时间阈值的情况下，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定语音输入是否结束。

可选地，分析模块将至少部分语音输入转换为文本信息，并对文本信息的文本特征进行分析，并且/或者，分析模块对之前检测到的语音输入尾部的语音输入的声学特征进行分析。

可选地，分析模块将文本特征和/或声学特征输入预先训练好的预测模型，以得到针对至少部分语音输入的预测结果，其中，预测模型用于预测语音输入是否结束。

可选地，装置还包括：缓存模块，用于在确定语音输入未结束的情况下，将之前检测到的语音输入进行缓存，并且检测模块继续检测语音输入。

可选地，缓存模块将之前检测到的语音输入的文本进行缓存。

可选地，在确定语音输入结束的情况下，缓存模块将检测到的语音输入以及缓存中的语音输入，作为完整语音输入，并清空缓存模块中的缓存。

可选地，在检测到没有语音输入超过预定时间阈值，且未检测到语音输入的情况下，缓存模块将缓存中的语音输入作为完整语音输入。

根据本公开的第三个方面，还提供了一种判断用户是否结束语音输入的装置，包括：接收模块，用于接收用户的语音输入；检测模块，用于检测语音输入；以及发送模块，用于在检测到没有语音输入的时间超过预定时间阈值的情况下，将之前检测到的至少部分语音输入发送至服务器，以便服务器对所述之前检测到的至少部分语音输入的文本特征和/或声学特特征进行分析，以确定用户是否结束语音输入。

根据本公开的第四个方面，还提供了一种判断用户是否结束语音输入的系统，包括：如本公开的第三个方面述及的判断用户是否结束语音输入的装置；以及服务器，用于缓存所述判断用户是否结束语音输入的装置发送的至少部分语音输入，并对所述至少部分语音输入的文本特征和/或声学特征进行分析，以确定所述用户是否结束语音输入。

根据本公开的第五个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本公开第一个方面述及的方法。

根据本公开的第六个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本公开第一个方面述及的方法。

本公开可以视为一种分级判断方案，如可以视为语音活动检测与语音分析相结合的分级判断方案。作为初级判断方式，语音活动检测并不需要具有较高的准确率。因此，使用语音活动检测时用到的时间阈值可以设置为一个较小值，如可以设置为现有时间阈值的一半，甚至四分之一。并且，文本特征分析和/或声学特征分析作为判断的兜底方案，可以保证判断结果的准确性。如此，在保证准确性的同时，可以大大降低交互延迟，提高用户的交互体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是示出了根据本公开一实施例的判断用户是否结束语音输入的方法的示意性流程图。

图2是示出了根据本公开一实施例的判断用户是否结束语音输入的装置的结构的示意性方框图。

图3是示出了根据本公开一实施例的判断用户是否结束语音输入的装置的结构的示意性方框图。

图4是示出了根据一实施例的判断用户是否结束语音输入的系统的结构的示意性方框图。

图5是示出了根据本公开一实施例的语音交互系统的结构示意图。

图6示出了根据本公开一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

【术语解释】

1.VAD

语音活动检测(Voice Activity Detection，简称VAD)，又称语音端点检测、语音边界检测，是指在噪声环境中检测语音的存在与否，通常用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。

在本公开中，VAD可以应用于语音输入的结束预测。例如，可以将一段音频切分为10ms一帧(Frame)的片段，对于每个Frame做二分类(有Speech【有人说话的音频】，还是Non-Speech【没有人说话的音频】)，如果持续n秒的Frame都是Non-Speech，则认为是语音输入结束。

2.ASR

自动语音识别技术(Automatic Speech Recognition，简称ASR)是一种将人的语音转换为文本的技术，目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。

3.NLU

自然语言理解(Natural Language Understanding，简称NLU)技术，是指使计算机按照语言所表达的意义做出相应反应的机制。主要研究用计算机模拟人的语言交际过程，使计算机能理解和运用人类社会的自然语言如汉语、英语等，实现人机之间的自然语言通信，以代替人的部分脑力劳动，包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。

4.误打断率

在本公开中，误打断率是指由于对用户语音输入结束的判断不准确，造成打断用户正常语音输入的概率。举例来说，假如使用语音输入结束判断方案判断用户已经结束语音输入，但实际上用户还未结束语音输入，这就打断了用户的正常语音输入。

【方案概述】

如背景技术部分所述，在单纯使用语音活动检测方式判断用户是否结束语音输入时，通常需要设置一个较高的时间阈值，才能保证判断结果的准确性，而这势必会增加交互延迟，降低用户的交互体验。

有鉴于此，本公开提出了一种优化的语音输入结束判断方案。本公开的语音输入结束判断方案可以视为一种语音活动检测与语音分析相结合的分级判断方案。其中，语音活动检测可以视为第一级判断，用于初步判断用户是否结束语音输入，在初步判断结果为用户结束输入的情况下，可以将之前检测到的语音输入作为候选语音数据。语音分析可以视为第二级判断，用于对候选语音数据的文本特征和/或声学特征进行分析，以进一步确定用户是否真的结束语音输入。

在本公开中，语音活动检测用于对用户输入是否结束进行初步判断，后续还会使用语音分析的方式对候选语音数据做进一步判断，以保证判断结果的准确性。因此，作为初级判断方式，语音活动检测并不需要具有较高的准确率。由此，使用语音活动检测时用到的时间阈值可以设置为一个较小值，如可以设置为现有时间阈值的一半，甚至四分之一。如此，在保证判断结果的准确性、同样(甚至更低)的误打断率的同时，还可以降低交互延迟，提高用户的交互体验。

下面就本公开涉及的各方面做进一步说明。

【判断方法】

参见图1，在步骤S110，检测用户的语音输入。

此处主要是检测用户是否在持续做出语音输入，也即是否持续说话。

在不考虑外界环境的噪声影响的情况下，可以通过声音输入设备(如麦克风)检测是否有声音信号输入，确定用户是否做出语音输入。在考虑外界环境的噪声影响的情况下，可以通过声音输入设备(如麦克风)实时捕捉来自外部的声音信号，并对捕捉到的声音信号做进一步检测，判断其中是否有基于自然语言发出的语音信号，以确定用户是否做出语音输入。

在检测到用户没有语音输入的时间超过预定时间阈值的情况下，可以初步认定用户结束语音输入。其中，“没有语音输入的时间”是指持续检测到没有语音输入的连续时间。

作为本公开的一个示例，在应用于语音交互领域(如语音搜索)中时，可以响应于用户启动语音交互服务，执行步骤S110。具体地，响应于用户启动语音交互服务，可以通过语音输入设备(如麦克风)实时捕捉来自环境的声音信号，并通过模数转换，将其转换为音频数据。

针对获取的音频数据，可以检测其中是否存在语音数据。此处述及的语音数据是指与自然语言(如汉语、英语、日语)对应的音频数据。在检测到存在语音数据时，即可认为检测到用户的语音输入。

可以通过语音活动检测(VAD)的方式实时检测用户的语音输入。例如，可以将获取的音频数据按照预定时长(如10ms)进行切分，以得到多帧(Frame)片段，对于每帧片段可以进行二分类，判断其是属于有人说话的音频(即Speech)，还是属于没有人说话的音频(即Non-Speech)。关于VAD的具体实现为成熟技术，此处不再赘述。

在步骤S120，在检测到没有语音输入的时间超过预定时间阈值的情况下，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定用户是否结束语音输入。

与单纯使用语音活动检测方式相比，此处述及的预定时间阈值可以设置为一个较小值，如可以设置为普通时间阈值的一半，甚至四分之一。以使用VAD的检测方式为例，可以在检测到持续n/2秒的Frame都是Non-Speech的情况下，初步认为用户语音输入结束，其中n秒为单纯使用VAD检测方式时所设置的时间阈值。

在检测到没有语音输入的时间超过预定时间阈值的情况下，可以初步认为用户结束语音输入。并且，之前检测到的语音输入可以作为候选语音数据，然后可以利用语音分析的方式对之前检测到的至少部分语音输入(也即候选语音数据)进行文本特征分析和/或声学特征分析，以进一步确定用户是否结束语音输入。其中，在本公开应用于多轮语音交互场景时，“之前检测到的至少部分语音输入”可以是指当前轮次检测到的至少部分语音输入。

下面分别就文本特征分析和声学特征分析的实现原理进行说明。

1、文本特征分析

举例来说，对于“请问嗯”、“我想问一下那个”这样的语音输入，从文本角度(也即语义角度)表明用户在思考怎么说，语音输入未结束。再例如，对于“请转人工客服”、“我说完了，谢谢”这样的语音输入，从文本角度表明语音输入结束。

可见，在某些情况下，通过对语音输入对应的文本特征进行分析，可以在一定程度上确定用户是否结束语音输入。因此，可以将之前检测到的至少部分语音输入转换为文本信息，并对文本信息进行文本特征分析，以确定用户是否结束语音输入。作为优选实施方式，在进行文本特征分析时，可以将之前检测到的所有语音输入转换为完整的文本信息，并对完整的文本信息进行文本特征分析，以提高文本特征分析的准确性。

2、声学特征分析

举例来说，对于“嗯”这样的语音输入，仅基于文本，很难确定用户是否结束语音输入。但是如果声学特征是第一声调，则表明用户在思考，语音输入未结束；如果是降调，则表明用户已经确认，语音输入结束。

可见，在某些情况下，通过对语音输入的声学特征进行分析，也可以确定用户是否结束语音输入。因此，也可以对之前检测到的至少部分语音输入进行声学特征分析，以确定用户是否结束语音输入。一般来说，语音数据尾部的声学特征对语音输入是否结束的影响较大，因此，作为优选实施方式，可以对之前检测到的语音输入尾部的语音输入进行声学特征分析。

基于上文对文本特征分析和声学特征分析的原理的描述可知，文本特征分析和声学特征分析可以视为两种互补方案，适于对不同情况的语音输入进行分析。因此，可以优选地采用文本特征分析和声学特征分析相结合的方式对候选语音数据作进一步分析，以更加准确地判断用户是否结束语音输入。

综上，本公开的语音输入结束判断方案可以视为一种分级判断方案。首先可以接收用户的语音输入，然后可以利用语音活动检测方式对接收到的语音输入进行检测，在检测到没有语音输入超过预定时间阈值的情况下，可以初步判定用户结束语音输入。此时，之前检测得到的语音输入可以作为候选语音数据，然后可以采用语音分析(文本特征分析和/或声学特征分析)的方式对至少部分候选语音数据进行文本特征分析和/或声学特征分析，以进一步确定用户是否结束语音输入。

可见，语音活动检测用于对用户是否结束语音输入进行初步判断，语音分析用于对候选语音数据做进一步分析，以最终确定用户是否结束语音输入。因此，语音分析可以视为整个判断方案中的兜底方案，而作为兜底方案，语音分析应保证较高的准确率。由此，优选地，语音分析可以采用文本特征分析和声学特征分析相结合的方式，来对候选语音数据做进一步分析，以保证分析结果的准确性。

下面以语音分析的一种具体实现过程做以示例性说明。

在本实施例中，可以根据对语音输入进行文本特征分析得到的文本特征和/或对语音输入进行声学特征分析得到的声学特征，确定用户是否结束语音输入。具体地，可以将文本特征和/或声学特征输入预先训练好的预测模型，以得到针对语音输入的预测结果，其中，预测结果可以指示用户是否结束语音输入，预测模型可以用于预测用户是否结束语音输入，其可以是深度神经网络模型，也可以是其它结构的预测模型，此处不再赘述。

文本特征用于表征语音输入的文本信息。作为示例，可以基于字典，以字或词为单位，将语音输入对应的文本信息中的每个字或词转换为对应的编码值，得到文本特征，以作为预测模型的输入，例如可以供深度学习解码器使用。

声学特征可以通过预定的语音特征提取方式对语音输入对应的音频数据进行特征抽取得到，例如，可以使用梅尔标度滤波器组(Mel-scale Filter Bank)、MFCC(梅尔频率倒谱系数)等特征提取方式对语音输入对应的音频数据进行抽取得到。针对得到的声学特征，可以进行标准(standard)归一化，例如可以做0均值1方差的归一化。

以预测模型为深度神经网络模型，同时采用文本特征分析和声学特征分析为例，深度神经网络模型可以包括输入层、两个LSTM(Long Short-Term Memory，长短期记忆，是一种时间递归神经网络)层、拼接结构、全连接层以及分类器(Softmax)。其中，两个LSTM层可以分别用于对文本特征、声学特征进行处理，输入层可以将输入的文本特征和声学特征分别输入不同的LSTM层，拼接结构可以将两个LSTM层的输出结果进行拼接，并将拼接结果输入全连接层，分类器用于对全连接层的输出进行二分类，以确定用户是否结束语音输入。其中，LSTM层也可以是Grid-LSTM(Grid Long Short-Term Memory)等复杂模型结构，并且预测模型的具体结构还可以有其它多种变形形式，对此本公开不做限定。

至此，就本公开的语音输入结束判断方法的实现原理和具体实现流程做了详细说明。

作为本公开的一个示例，在步骤S120的判定结果为用户未结束语音输入的情况下，可以将之前检测到的语音输入(如可以是当前轮次检测到的语音输入)进行缓存，并且继续执行步骤S110，检测用户的语音输入。其中，通常是对检测到的语音输入的语音数据或者文本进行缓存。如果后续检测到没有语音输入的时间超过预定时间阈值，且本次未检测到语音输入的情况下，可以将缓存中的语音输入作为当前轮次用户的完整语音输入。另外，在步骤S120的判定结果为用户结束语音输入的情况下，可以将本次检测到的语音输入以及缓存中的语音输入，作为当前轮次用户的完整语音输入，并清空缓存。然后响应于下一轮交互开始，继续判断用户语音输入是否结束。

【判断装置】

图2是示出了根据本公开一实施例的判断用户是否结束语音输入的装置的结构的示意性方框图。其中，装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图2所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文结合图1的描述，这里不再赘述。

参见图2，判断装置200可以包括检测模块210和分析模块220。

检测模块210用于检测用户的语音输入。分析模块220用于在检测到没有语音输入的时间超过预定时间阈值的情况下，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定用户是否结束语音输入。

具体地，分析模块220可以将至少部分语音输入转换为文本信息，并对文本信息的文本特征进行分析，并且/或者，分析模块220也可以对之前检测到的语音输入尾部的语音输入的声学特征进行分析。

作为示例，分析模块220可以根据对至少部分语音输入进行文本分析得到的文本特征和/或对至少部分语音输入进行声学分析得到的声学特征，确定用户是否结束语音输入。文本特征用于表征至少部分语音输入的文本信息，声学特征可以是使用预定的语音特征提取方式(如梅尔标度滤波器组的方式)对至少部分语音输入进行特征抽取得到的。

分析模块220可以将文本特征和/或声学特征输入预先训练好的预测模型，以得到针对至少部分语音输入的预测结果，其中，预测模型用于预测用户是否结束语音输入。其中，预测模型可以为深度神经网络模型，也可以是其它模型结构。

以将文本特征和声学特征输入预先训练好的预测模型为例，预测模型可以是深度神经网络模型，深度神经网络模型可以包括输入层、两个LSTM层、拼接结构、全连接层以及分类器。输入层用于将文本特征和声学特征分别输入不同的LSTM层，拼接结构用于将两个LSTM层的输出结果进行拼接，并将拼接结果输入全连接层，分类器用于对全连接层的输出进行二分类，以确定用户是否结束语音输入。

如图2所示，判断装置200还可以可选地包括图中虚线框所示的缓存模块230。缓存模块230用于在确定用户未结束语音输入的情况下，将之前检测到的语音输入进行缓存，并且检测模块继续检测用户的语音输入。通常地，是对检测到的语音输入的语音数据或者文本进行缓存。

在确定用户结束语音输入的情况下，缓存模块230可以将检测到的语音输入以及缓存中的语音输入，作为用户的完整语音输入，并清空缓存模块中的缓存。

在检测到没有语音输入超过预定时间阈值，且未检测到语音输入的情况下，缓存模块230可以将缓存中的语音输入作为用户的完整语音输入。

如图3所示，判断装置300包括接收模块310、检测模块320以及发送模块330。

接收模块310可以用于接收用户的语音输入，检测模块310可以用于检测接收模块所接收到的语音输入。并且，在检测模块310检测到没有语音输入的时间超过预定时间阈值的情况下，发送模块320可以将之前检测到的至少部分语音输入发送至服务器，以便服务器对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定用户是否结束语音输入。

如图4所示，判断系统400包括判断用户是否结束语音输入的判断装置300和服务器410。其中，关于判断装置300的结构及可以执行的操作可以参见上文结合图3的描述，此处不再赘述。

服务器410用于缓存判断用户是否结束语音输入的装置发送的至少部分语音输入，并对至少部分语音输入的文本特征和/或声学特征进行分析，以确定用户是否结束语音输入。关于具体的文本特征分析和/或声学特征分析过程可以参见上文描述，此处不再赘述。

【具体实施例】

本公开的语音输入结束判断方案可以应用于各种语音交互场景，如可以应用于语音查询场景，用于对语音查询结束进行判断。其中，在语音交互场景是多轮语音对话场景时，可以对每轮交互过程中用户的语音输入是否结束进行判断。

如图5所示，本实施例的语音交互系统主要包括语音活动检测模块510、自动语音识别模块520、语音结束预测模块530、缓存模块540以及自然语言理解模块550。

语音活动检测模块510主要用于实时检测用户的语音输入，即检测用户是否输入了语音。作为示例，语音活动检测模块510可以基于VAD实现。具体地，语音活动检测模块510可以对捕捉到的音频数据按照预定时长(如10ms)进行切分，以得到多帧(Frame)片段，对于每帧片段可以进行二分类，判断其是属于有人说话的音频(即Speech)，还是属于没有人说话的音频(即Non-Speech)。如果检测到持续超过预定时长的Non-Speech，可以初步认为语音输入结束。

在检测到持续超过预定时长的Non-Speech的情况下，如果之前有Speech，则可以将之前检测到的Speech(全部或部分)的音频格式(例如wav)数据分别提供给自动语音识别模块520和语音结束预测模块530。在检测到持续超过预定时长的Non-Speech的情况下，如果之前也没有Speech，则可以向语音结束预测模块530发送一个静音信号(SilenceSignal)，提示没有检测到音频数据。

自动语音识别模块520可以对接收到的音频数据进行语义识别，将其识别为文本，并将识别到的文本发送给语音结束预测模块530。

针对音频数据和识别的文本，语音结束预测模块530可以对其做进一步分析，判断语音输入是否结束。如果结束，则可以将完整查询(包括之前缓存的内容和本次检测的文本)传递给自然语言理解模块550，并且缓存模块540可以清空缓存的内容。如果未结束，则可以由缓存模块540将被识别的文本进行缓存，然后继续由语音活动检测模块510对用户的语音输入进行检测。

针对静音信号，如果缓存中有文本，则将缓存中的文本作为用户完整的输入，传递给自然语言理解模块550，然后清空缓存内容。

自然语言理解模块550可以基于接收到的文本，判断用户意图，例如可以判断用户的意图是查询天气，还是播放歌曲。然后自然语言理解模块350可以将识别的用户意图交给后续处理模块，以做出与用户的意图相匹配的动作，实现交互。

下面就语音结束预测模块530可以具有的功能模块进行说明。

作为示例，语音结束预测模块530可以包括以下几个组件。

1.文本特征抽取模块

对于自动语音识别模块520识别的文本，文本特征抽取模块可以以字或词为单为，基于字典，将文本中的每个字或词转为相应的编码值(如ID)，供深度学习解码器使用。

2.声学特征抽取和归一化模块

(1)通常一句话尾部的音频才对预测语音输入是否结束起主要作用，因此可以优选地截取音频数据尾部的音频，例如可以截取尾部600毫秒的音频。

(2)抽取声学滤波器组(Filter Bank)特征。

例如，可以通过分帧、预加重(pre-emphasize)、加窗(window)、做傅里叶(FFT)从时域特征到频域特征转换，来抽取梅尔标度滤波器组(Mel-scale Filter Bank)特征。其中，特征抽取的各过程均为成熟技术，此处不再赘述。

(3)对抽取得到的声学特征进行standard归一化。如可以做0均值1方差的归一化。

3.预测模块

对于得到的文本特征和声学特征，预测模块可以将其作为输入，输入预先训练好的预测模型。作为示例，预测模型可以由输入层、两个LSTM模型、拼接结构、全连接层以及分类器(Softmax)构成。可以首先将文本特征和声学特征分别作为输入层的输入，然后由输入层将其分别输入到各自的LSTM模型，两个LSTM模型最后的输出向量拼接为大的输出向量，再接一个全连接层，最后接分类器做0/1预测。关于预测模型的训练过程，为本领域成熟技术，对此本公开不做限定。

【计算设备】

图6示出了根据本发明一实施例可用于实现上述语音输入结束判断方法的计算设备的结构示意图。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可执行代码，当可执行代码被处理器620执行时，可以使处理器620执行上文述及的语音输入结束判断方法。

上文中已经参考附图详细描述了根据本发明的语音输入结束判断方法、装置、系统以及计算设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种判断语音输入是否结束的方法，包括：

检测语音输入；以及

在检测到没有语音输入的时间超过预定时间阈值的情况下，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定所述语音输入是否结束。

2.根据权利要求1所述的方法，其中，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析的步骤包括：

将所述至少部分语音输入转换为文本信息，并对所述文本信息的文本特征进行分析；以及/或者

对之前检测到的语音输入尾部的语音输入的声学特征进行分析。

3.根据权利要求1所述的方法，其中，

所述文本特征用于表征所述至少部分语音输入的文本信息，并且/或者

所述声学特征是使用预定的语音特征提取方式对所述至少部分语音输入进行特征抽取得到的。

4.根据权利要求3所述的方法，其中，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析的步骤包括：

将所述文本特征和/或所述声学特征输入预先训练好的预测模型，以得到针对所述至少部分语音输入的预测结果，其中，所述预测模型用于预测语音输入是否结束。

5.根据权利要求4所述的方法，其中，所述预测模型为深度神经网络模型，所述深度神经网络模型包括：输入层、两个LSTM层、拼接结构、全连接层以及分类器，

所述输入层用于将所述文本特征和所述声学特征分别输入不同的LSTM层，所述拼接结构用于将所述两个LSTM层的输出结果进行拼接，并将拼接结果输入全连接层，所述分类器用于对所述全连接层的输出进行二分类，以确定语音输入是否结束。

6.根据权利要求1所述的方法，还包括：

在确定所述语音输入未结束的情况下，将之前检测到的语音输入进行缓存，并且继续执行所述检测语音输入的步骤。

7.根据权利要求6所述的方法，其中，将之前检测到的语音输入进行缓存的步骤包括：

将之前检测到的语音输入的文本进行缓存。

8.根据权利要求6所述的方法，还包括：

在确定所述语音输入结束的情况下，将检测到的语音输入以及所述缓存中的语音输入，作为完整语音输入，并清空所述缓存。

9.根据权利要求6所述的方法，还包括：

在检测到没有语音输入超过预定时间阈值，且未检测到语音输入的情况下，将所述缓存中的语音输入作为完整语音输入。

10.一种判断语音输入是否结束的装置，包括：

检测模块，用于检测语音输入；和

分析模块，用于在检测到没有语音输入的时间超过预定时间阈值的情况下，对之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定语音输入是否结束。

11.一种判断用户是否结束语音输入的装置，包括：

接收模块，用于接收用户的语音输入；

检测模块，用于检测语音输入；以及

发送模块，用于在检测到没有语音输入的时间超过预定时间阈值的情况下，将之前检测到的至少部分语音输入发送至服务器，以便服务器对所述之前检测到的至少部分语音输入的文本特征和/或声学特征进行分析，以确定所述用户是否结束语音输入。

12.一种判断用户是否结束语音输入的系统，包括：

如权利要求11所述的判断用户是否结束语音输入的装置；以及

服务器，用于缓存所述判断用户是否结束语音输入的装置发送的至少部分语音输入，并对所述至少部分语音输入的文本特征和/或声学特征进行分析，以确定所述用户是否结束语音输入。

13.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-9中任何一项所述的方法。

14.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的方法。