CN111627463B

CN111627463B - 语音vad尾点确定方法及装置、电子设备和计算机可读介质

Info

Publication number: CN111627463B
Application number: CN201910151776.6A
Authority: CN
Inventors: 郭启行; 崔亚峰; 孟宪海; 杜春明; 都伟; 李亚男; 邹赛赛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2024-01-16
Anticipated expiration: 2039-02-28
Also published as: CN111627463A

Abstract

本公开提供了一种语音VAD尾点确定方法，包括：接收用户的语音信息，对所述语音信息划分数据包，并将数据包按照时序上传给服务器；在判断当前数据包为静音包时，计算当前的静音时长t；根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，以使所述服务器根据语义完整性检测结果确定所述语音信息的尾点。语音VAD的尾点不再是靠智能设备上进行截断，智能设备将语音信息划分的数据包按照时序上传给服务器，触发服务器检测所述语音信息的语义完整性，以使服务器根据语义完整性检测结果确定所述语音信息的尾点。语音信息的尾点静音时长由原来的固定时长，成为一个可动态调整的值。

Description

语音VAD尾点确定方法及装置、电子设备和计算机可读介质

技术领域

本公开涉及语音交互技术领域，具体地，涉及语音VAD尾点确定方法及装置、电子设备和计算机可读介质。

背景技术

随着智能硬件大量普及，语音交互已成为主要的交互手段。尤其在智能音箱场景，大量用户使用语音进行资源的点播，大量数据显示，人在点播某一个歌手的某一首歌时，经常性的遗忘歌曲名字，进行短暂的停顿，造成语音截断，返回的资源不是期望的。产生这种现象的主要原因是，现有的语音交互技术会用VAD(Voice Activity Detect)技术来判决语音的尾点，通常是通过信号和声学技术来实现，对于用户这种短时的思考暂停会判决为VAD尾点，截断语音。

现有的产品的VAD技术基于声学来判决是否是语音，VAD起尾点在端上处理，一般有一个固定的静音时长，一般是在500-600ms。如果想改善用户体验，比如快速响应需要重新配置VAD的尾点非语音长度，会影响用户在短停顿时的体验；如果将语音VAD的尾部非语音长度配置过大，虽然能解决用户停顿的体验，但整体响应速度变慢。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本公开实施例提出了一种语音VAD尾点确定方法及装置、电子设备和计算机可读介质。

第一方面，本公开实施例提供了一种语音VAD尾点确定方法，包括：

接收用户的语音信息，对所述语音信息划分数据包，并将数据包按照时序上传给服务器；

在判断当前数据包为静音包时，计算当前的静音时长t；

根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，以使所述服务器根据语义完整性检测结果确定所述语音信息的尾点。

在一些实施例中，所述方法，还包括：若判断所述当前数据包为静音包，则将所述当前数据包标记为第一标记；

所述计算当前的静音时长t，具体包括：

统计当前标记为第一标记的数据包的数量，根据所述当前标记为第一标记的数据包的数量和预设的每个数据包的时长，计算当前的静音时长t。

在一些实施例中，所述根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，具体包括：

判断所述当前的静音时长t是否大于或等于第一阈值T1；

若判断所述当前的静音时长t大于或等于第一阈值T1，则将所述第一标记发送至所述服务器，以触发所述服务器检测所述语音信息的语义完整性。

在一些实施例中，所述若判断所述当前的静音时长t大于或等于第一阈值T1，则将所述第一标记发送至所述服务器步骤之后，还包括：

在判断当前数据包为静音包时，将所述第一标记发送至所述服务器。

在一些实施例中，所述在判断当前数据包为静音包时，将所述第一标记发送至所述服务器步骤之后，还包括：

接收所述服务器发送的所述语音信息不完整的信息，判断所述当前的静音时长t是否大于或等于第二阈值T2；

若是，则将大于或等于第二阈值T2的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

在一些实施例中，所述根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性步骤之后，所述将所述当前的静音时长t对应的时间点确定为所述语音信息的尾点步骤之前，还包括：

若接收到其他的语音信息，则返回所述接收用户的语音信息，对所述语音信息划分数据包，并将所述数据包上传给服务器的步骤。

第二方面，本公开实施例提供了一种语音VAD尾点确定方法，包括：

按照时序接收智能设备上传的数据包；

当接收到第一标记时，将数据包中的语音包转换为文本；

判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点。

在一些实施例中，所述判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点步骤，包括：

若语义完整，则将接收到所述第一标记对应的时间点确定为所述语音信息的尾点。

在一些实施例中，所述方法，还包括：接收当前数据包为静音包时智能设备发送的第一标记，并计算当前的静音时长t；

所述计算当前的静音时长t，具体包括：

在一些实施例中，所述接收当前数据包为静音包时智能设备发送的第一标记，并计算当前的静音时长t步骤之后，还包括：

若语义不确定，判断所述当前的静音时长t是否大于或等于第三阈值T3；

若是，则将大于或等于第三阈值T3的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

在一些实施例中，所述将大于或等于第三阈值T3的当前的静音时长t对应的时间点确定为所述语音信息的尾点步骤之后，还包括：

若语义不完整，则向所述智能设备发送所述语音信息不完整的信息，以供所述智能设备确定所述语音信息的尾点。

第三方面，本公开实施例提供了一种语音VAD尾点确定装置，包括：

上传模块，用于接收用户的语音信息，对所述语音信息划分数据包，并将数据包按照时序上传给服务器；

计算模块，用于在判断当前数据包为静音包时，计算当前的静音时长t；

触发模块，用于根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，以使所述服务器根据语义完整性检测结果确定所述语音信息的尾点。

在一些实施例中，所述装置还包括：

标记模块，用于若判断所述当前数据包为静音包，则将所述当前数据包标记为第一标记；

所述计算模块，具体用于：

在一些实施例中，所述触发模块，具体包括：

判断子模块，用于判断所述当前的静音时长t是否大于或等于第一阈值T1；

发送子模块，用于若判断所述当前的静音时长t大于或等于第一阈值T1，则将所述第一标记发送至所述服务器，以触发所述服务器检测所述语音信息的语义完整性。

在一些实施例中，所述装置，还包括：

发送模块，用于在判断当前数据包为静音包时，将所述第一标记发送至所述服务器。

在一些实施例中，所述装置，还包括：

判断模块，用于接收所述服务器发送的所述语音信息不完整的信息，判断所述当前的静音时长t是否大于或等于第二阈值T2；

确定模块，用于若是，则将大于或等于第二阈值T2的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

在一些实施例中，所述装置，还包括：

返回模块，用于若接收到其他的语音信息，则返回所述接收用户的语音信息，对所述语音信息划分数据包，并将所述数据包上传给服务器的步骤。

第四方面，本公开实施例提供了一种语音VAD尾点确定装置，包括：

接收模块，用于按照时序接收智能设备上传的数据包；

转换模块，用于当接收到第一标记时，将数据包中的语音包转换为文本；

确定模块，用于判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点。

在一些实施例中，所述确定模块，包括：

第一确定子模块，用于若语义完整，则将接收到所述第一标记对应的时间点确定为所述语音信息的尾点。

在一些实施例中，所述装置，还包括：计算模块，用于接收当前数据包为静音包时智能设备发送的第一标记，并计算当前的静音时长t；

所述计算模块，具体用于：

在一些实施例中，所述确定模块，还包括：

判断子模块，用于若语义不确定，判断所述当前的静音时长t是否大于或等于第三阈值T3；

确定子模块，用于若是，则将大于或等于第三阈值T3的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

在一些实施例中，所述确定模块，还包括：

发送子模块，用于若语义不完整，则向所述智能设备发送所述语音信息不完整的信息，以供所述智能设备确定所述语音信息的尾点。

第五方面，本公开实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面所述的语音VAD尾点确定方法。

第六方面，本公开实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第二方面所述的语音VAD尾点确定方法。

第七方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如第一方面所述的语音VAD尾点确定方法。

第八方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如第二方面所述的语音VAD尾点确定方法。

本公开提供的语音VAD尾点确定方法，语音VAD的尾点不再是靠智能设备上进行截断，智能设备将语音信息划分的数据包按照时序上传给服务器，并计算语音信息的当前的静音时长t。根据语音信息的当前的静音时长t和预设的第一阈值T1，触发服务器检测所述语音信息的语义完整性，以使服务器根据语义完整性检测结果确定所述语音信息的尾点。智能设备接收到语音信息的尾点静音时长由原来的固定时长500-600ms，成为一个可动态调整的值。

附图说明

附图用来提供对本公开的实施例作进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开第一实施例提供的一种语音VAD尾点确定方法的流程图；

图2为本公开第一实施例提供的一种语音VAD尾点确定方法的另一流程图；

图3为本公开第一实施例中步骤S103的一种可选实现方式的流程图；

图4为本公开第二实施例提供的一种语音VAD尾点确定方法的流程图；

图5为本公开第二实施例提供的一种语音VAD尾点确定方法的另一流程图；

图6为本公开第三实施例提供的一种语音VAD尾点确定装置的结构示意图；

图7为本公开第三实施例提供的一种语音VAD尾点确定装置的另一结构示意图；

图8为本公开第四实施例提供的一种语音VAD尾点确定装置的结构示意图；

图9为本公开第四实施例提供的一种语音VAD尾点确定装置的另一结构示意图；

图10为本公开第四实施例提供的一种语音VAD尾点确定装置的另一结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的一种语音VAD尾点确定方法及装置、电子设备和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

本公开第一实施例提供的一种语音VAD尾点确定方法如下：

本公开实施例的执行主体是智能设备，如图1所示，其示出了本公开实施例提供的一种语音VAD尾点确定方法的流程图，包括以下步骤。

步骤S101，接收用户的语音信息，对所述语音信息划分数据包，并将数据包按照时序上传给服务器。

VAD(Voice Activity Detect)，静音抑制，又称语音活动侦测。静音抑制的目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。

为了解决语音交互中，常常会出现的用户进行短暂的停顿，造成语音截断，返回的资源不是期望的问题，提出一种语音VAD尾点确定方法。现有的产品的VAD技术基于声学来判决是否是语音，VAD起尾点在端上处理，一般有一个固定的静音时长，一般是在500-600ms。如果想改善用户体验，比如快速响应需要重新配置VAD的尾点非语音长度，会影响用户在短停顿时的体验；如果将语音VAD的尾部非语音长度配置过大，虽然能解决用户停顿的体验，但整体响应速度变慢。因此，本公开将语音VAD尾点静音时长设计成可动态调整的，语音VAD尾点静音时长取决于语音语义完整性决策分数结果。

在该步骤中，智能设备用户的语音信息，从用户开始说话的时间点开始收音，在用户说话终止之后继续收音，但是最终终止收音的时间点并不确定。语音信息中包括用户说话的片段，也包括用户说话之后的静音片段，智能设备将语音信息划分为多个数据包，数据包包括语音包和静音包。用户说话的片段划分为多个语音包，将用户说话之后的静音片段划分为多个静音包。所述语音包和所述静音包的时长相同，例如60ms。智能设备将划分出的多个语音包和多个静音包按照时序连续的上传给服务器，以供服务器决断该语音信息的截断点在哪。

需要说明的是，在一种优选的方案中，所述语音信息为一句话。即智能设备对用户的一句话进行响应，确定该句话的尾点。在极少数的情况下，所述语音信息可以为两句到三句话，但是必须是在两句话之间的时长较短的情况下。

步骤S102，在判断当前数据包为静音包时，计算当前的静音时长t。

优选地，若判断所述当前数据包为静音包，则将所述当前数据包标记为第一标记；所述步骤S102，计算当前的静音时长t，具体包括：统计当前标记为第一标记的数据包的数量，根据所述当前标记为第一标记的数据包的数量和预设的每个数据包的时长，计算当前的静音时长t。

在该步骤中，智能设备会对每一个数据包是否为静音包进行检测，进行检测的时长与每一个数据包的时长相同。并对其是否为静音进行标记，定义slience_flag，检测其为语音包还是为静音包，若为静音包，则slience_flag为1，即slience_flag为1就是第一标记；若为语音包，则slience_flag为0。智能设备累计所述语音信息的当前的静音时长t，是指计算当前标记为第一标记的数据包的数量和预设的每个数据包的时长的乘积，每一个静音包的时长相同，例如60ms，就能计算出连续几个静音包的时长。例如，一共有三个连续的静音包，那么语音信息的当前的静音时长t为180ms。

步骤S103，根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，以使所述服务器根据语义完整性检测结果确定所述语音信息的尾点。

优选地，如图2所示，示出了本公开实施例中步骤S103的一种可选实现方式的流程图，所述步骤S103，根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，具体包括：

步骤S103-1，判断所述当前的静音时长t是否大于或等于第一阈值T1，若是，执行步骤S102-2；若否，流程结束。

步骤S103-2，将所述第一标记发送至所述服务器，以触发所述服务器检测所述语音信息的语义完整性。

在上述步骤中，第一阈值T1是在智能设备中预先设定的，为最短尾点静音时长，例如，T1＝200ms。智能设备判断当前的静音时长t是否大于或等于最短尾点静音时长T1，若是，则将第一标记(slience_flag为1)发送至服务器，服务器接收到第一标记，说明智能设备识别到的当前的静音时长t已经到达第一阈值T1，开始检测所述语音信息的语义完整性。如果服务器检测出所述语音信息完整，则将接收到所述第一标记对应的时间点确定为所述语音信息的尾点。

优选地，如图3所示，其示出了本公开实施例提供的一种语音VAD尾点确定方法的另一流程图，步骤S104，在判断当前数据包为静音包时，将所述第一标记发送至所述服务器。

在该步骤中，智能设备会对每一个数据包是否为静音包进行检测，进行检测的时长与每一个数据包的时长相同，并对其是否为静音进行标记。在智能设备触发服务器检测所述语音信息的语义完整性之后，累计的每一个静音包，都要将该静音包的第一标记发送到服务器，以供服务器对语音信息的尾点进行截断。

优选地，若接收到其他的语音信息，则返回步骤S101。

在该步骤中，智能设备会对每一个数据包是否为静音包进行检测，进行检测的时长与每一个数据包的时长相同，并对其是否为静音进行标记。将触发服务器检测语音信息的语义完整性步骤之后，累积的当前的静音时长t到达第二阈值T2之前，如果检测到有语音包，即slience_flag为0，则流程终止，不再将第一标记发送至服务器，重新接收新的语音信息，进入下一周期的语音信息的尾点的确定。第二阈值T2是在智能设备中预先设定的，为最长尾点静音时长，例如，T2＝2s。

优选地，如图3所示，步骤S105，接收所述服务器发送的所述语音信息不完整的信息，判断所述当前的静音时长t是否大于或等于第二阈值T2，若是，则执行步骤S106；若否，流程结束。

步骤S106，将大于或等于第二阈值T2的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

在上述步骤中，服务器检测所述语音信息的语义完整性的结果是语音信息不完整，那么服务器将语音信息不完整的信息发送至智能设备。第二阈值T2是在智能设备中预先设定的，为最长尾点静音时长，例如，T2＝2s。智能设备判断当前的静音时长t是否大于或等于最长尾点静音时长T2，若是，说明智能设备识别到的当前的静音时长t已经到达第二阈值T2，将大于或等于第二阈值T2的当前的静音时长t对应的时间点确定为所述语音信息的尾点。智能设备比服务器当前的静音时长t先到达第二阈值T2，因此智能设备先对语音信息进行截断。

本公开实施例中，语音VAD的尾点不再是靠智能设备上进行截断，智能设备将语音信息划分的数据包按照时序上传给服务器，并计算语音信息的当前的静音时长t。根据语音信息的当前的静音时长t和预设的第一阈值T1，触发服务器检测所述语音信息的语义完整性，以使服务器根据语义完整性检测结果确定所述语音信息的尾点。智能设备接收到语音信息的尾点静音时长由原来的固定时长500-600ms，成为一个可动态调整的值。

本公开第二实施例提供的一种语音VAD尾点确定方法如下：

本公开实施例的执行主体是服务器，如图4所示，其示出了本公开实施例提供的一种语音VAD尾点确定方法的流程图，包括以下步骤。

步骤S201，按照时序接收智能设备上传的数据包。

在该步骤中，服务器从用户开始说话的时间点开始接收语音包，在用户说话终止之后继续接收静音包，但是最终终止接收静音包的时间点并不确定。语音信息中包括用户说话的片段，也包括用户说话之后的静音片段，智能设备将语音信息划分为多个数据包，数据包包括语音包和静音包。智能设备将用户说话的片段划分为多个语音包，将用户说话之后的静音片段划分为多个静音包。所述语音包和所述静音包的时长相同，例如60ms。服务器按照时序接收智能设备连续上传的用户的语音信息对应的多个语音包和多个静音包，以备后续决断该语音信息的截断点在哪。

步骤S202，当接收到第一标记时，将数据包中的语音包转换为文本。

在该步骤中，当服务器第一次接收智能设备发送的第一标记(slience_flag为1)时，说明智能设备识别到的当前的静音时长t已经到达第一阈值T1(最短尾点静音时长)，开始检测所述语音信息的语义完整性。将语音信息对应的语音包转换为文本，以用于后续对文本的语义完整性的判断。

优选地，如图5所示，其示出了本公开实施例提供的一种语音VAD尾点确定方法的另一流程图，步骤S204，接收当前数据包为静音包时智能设备发送的第一标记，并计算当前的静音时长t；

所述步骤S204，计算当前的静音时长t，具体包括：统计当前标记为第一标记的数据包的数量，根据所述当前标记为第一标记的数据包的数量和预设的每个数据包的时长，计算当前的静音时长t。

在该步骤中，智能设备会对每一个数据包是否为静音包进行检测，进行检测的时长与每一个数据包的时长相同，并对其是否为静音进行标记，定义slience_flag，检测其为语音包还是为静音包，若为静音包，则slience_flag为1，即slience_flag为1就是第一标记；若为语音包，则slience_flag为0。服务器接收当前数据包为静音包时智能设备发送的第一标记，累计所述语音信息的当前的静音时长t，即计算当前标记为第一标记的数据包的数量和预设的每个数据包的时长的乘积。每一个静音包的时长相同，例如60ms，就能计算出连续几个静音包的时长。例如，一共有三个连续的静音包，那么语音信息的当前的静音时长t为180ms。

需要说明的是，当前的静音时长t在到达第一阈值T1之前在智能设备计算，在到达第一阈值T1之后在智能设备和服务器两端都要计算。

步骤S203，判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点。

优选地，所述步骤S203，判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点步骤，包括：

步骤a，若语义完整，则将接收到所述第一标记对应的时间点确定为所述语音信息的尾点。

在该步骤中，若服务器判断出语音包转换出的文本的语义完整，即能判断出用户说的一句话是完整的，则将第一次接收到所述第一标记对应的时间点确定为所述语音信息的尾点。服务器不再接收智能设备发送的静音包，将语音信息进行截断。例如，智能设备接收到用户的语音信息为，“我要点小猪佩奇”，这句话就是完整的，当第一次接收到slience_flag为1时，说明智能设备识别到的当前的静音时长t已经到达最短尾点静音时长T1，在第一次接收到所述第一标记对应的时间点对语音信息进行截断。

在一种优选的方案中，在第一次接收到第一标记之后，也可以延迟一段时间进行截断，例如，在第一次接收到第一标记的时间点之后100ms进行截断。

优选地，所述步骤S203，还包括：

步骤b，若语义不确定，判断所述当前的静音时长t是否大于或等于第三阈值T3，若是，则执行步骤c；若否，流程结束。

步骤c，将大于或等于第三阈值T3的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

在该步骤中，第三阈值T3是现有技术中常用的固定尾点静音时长，一般为500-600ms。若服务器判断出语音包转换出的文本的语义不确定，即不能判断出用户说的一句话是否是完整的。智能设备判断当前的静音时长t是否大于或等于固定尾点静音时长T3，若是，说明服务器累计的当前的静音时长t已经到达第三阈值T3。则将大于或等于第三阈值T3的当前的静音时长t对应的时间点确定为语音信息的尾点，不再接收智能设备发送的静音包，将语音信息进行截断。例如，智能设备接收到用户的语音信息为，“我要点***”，这句话就是不明确的，在当前的静音时长t大于或等于固定尾点静音时长T3时，就在该t对应的时间点对语音信息进行截断。需要说明的是，T3>T1。

优选地，所述步骤S203，还包括：

步骤d，若语义不完整，则向所述智能设备发送所述语音信息不完整的信息，以供所述智能设备确定所述语音信息的尾点。

在该步骤中，服务器检测所述语音信息的语义完整性的结果是语音信息不完整的信息，那么服务器将语音信息不完整的信息发送至智能设备，以供所述智能设备确定所述语音信息的尾点。智能设备比服务器当前的静音时长t先到达第二阈值T2(最长尾点静音时长)，因此智能设备先对语音信息进行截断。语音信息不完整的含义是，例如，智能设备接收到用户的语音信息为，“我要点小猪”，根据服务器预先保存的数据，能够判断出这句话是不完整的，用户的意思是要点小猪佩奇这首歌。需要说明的是，T2>T3>T1。

本公开实施例中，不再依赖智能设备语音VAD固定的尾点，在服务器根据对用户的语音信息的语义的决策，灵活的控制语音信息的尾点，针对不同的请求有不同的尾点策略，能够适应各种应用场景，符合用户的使用习惯，极大的改善了用户的使用体验。

本公开第三实施例提供的一种语音VAD尾点确定装置如下：

如图6所示，其示出了本公开实施例提供的一种语音VAD尾点确定装置的结构示意图，包括：

上传模块11，用于接收用户的语音信息，对所述语音信息划分数据包，并将数据包按照时序上传给服务器；

计算模块12，用于在判断当前数据包为静音包时，计算当前的静音时长t；

触发模块13，用于根据所述语音信息的静音时长t和预设的阈值T，触发所述服务器检测所述语音信息的语义完整性，以使所述服务器根据语义完整性检测结果确定所述语音信息的尾点。

优选地，如图7所示，其示出了本公开实施例提供的一种语音VAD尾点确定装置的另一结构示意图，所述装置还包括：

标记模块14，用于若判断所述当前数据包为静音包，则将所述当前数据包标记为第一标记；

所述计算模块13，具体用于：

优选地，如图8所示，其示出了本公开实施例提供的一种语音VAD尾点确定装置的另一结构示意图，所述触发模块13，具体包括：

判断子模块131，用于判断所述当前的静音时长t是否大于或等于第一阈值T1；

发送子模块132，用于若判断所述当前的静音时长t大于或等于第一阈值T1，则将所述第一标记发送至所述服务器，以触发所述服务器检测所述语音信息的语义完整性。

优选地，如图7所示，所述装置，还包括：

发送模块15，用于在判断当前数据包为静音包时，将所述第一标记发送至所述服务器。

优选地，如图7所示，所述装置，还包括：

判断模块16，用于接收所述服务器发送的所述语音信息不完整的信息，判断所述当前的静音时长t是否大于或等于第二阈值T2；

确定模块17，用于若是，则将大于或等于第二阈值T2的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

优选地，如图7所示，所述装置，还包括：

返回模块18，用于若接收到其他的语音信息，则返回所述接收用户的语音信息，对所述语音信息划分数据包，并将所述数据包上传给服务器的步骤。

本公开第四实施例提供的一种语音VAD尾点确定装置如下：

如图9所示，其示出了本公开实施例提供的一种语音VAD尾点确定装置的结构示意图，包括：

接收模块21，用于按照时序接收智能设备上传的数据包；

转换模块22，用于当接收到第一标记时，将数据包中的语音包转换为文本；

确定模块23，判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点。

优选地，所述确定模块23，包括：

优选地，如图10所示，其示出了本公开实施例提供的一种语音VAD尾点确定装置的另一结构示意图，所述装置，还包括：

计算模块24，用于接收当前数据包为静音包时智能设备发送的第一标记，并计算当前的静音时长t；

所述计算模块24，具体用于：

优选地，所述确定模块23，还包括：

优选地，所述确定模块，还包括：

本公开第五实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一实施例所提供的语音VAD尾点确定方法。

本公开第六实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第二实施例所提供的语音VAD尾点确定方法。

本公开第七实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被执行时实现如第一实施例所提供的语音VAD尾点确定方法。

本公开第八实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被执行时实现如第二实施例所提供的语音VAD尾点确定方法。

本公开第九实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上述各实施例提供的语音VAD尾点确定方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种语音VAD尾点确定方法，应用于智能设备，所述方法包括：

在判断当前数据包为静音包时，计算当前的静音时长t；

根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，以使所述服务器根据语义完整性检测结果确定所述语音信息的尾点；

若判断所述当前数据包为静音包，则将所述当前数据包标记为第一标记；则所述根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，具体包括：判断所述当前的静音时长t是否大于或等于第一阈值T1；若判断所述当前的静音时长t大于或等于第一阈值T1，则将所述第一标记发送至所述服务器，以触发所述服务器检测所述语音信息的语义完整性；

所述根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性步骤之后，还包括：在判断当前数据包为静音包时，将所述第一标记发送至所述服务器；以使所述服务器接收所述当前数据包为静音包时所述智能设备发送的第一标记，并计算当前的静音时长t；

所述触发所述服务器检测所述语音信息的语义完整性，具体包括：触发所述服务器当接收到所述第一标记时，将数据包中的语音包转换为文本；判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点；所述根据语义完整性检测结果确定所述数据包对应的语音信息的尾点步骤，包括：若语义不确定，判断所述当前的静音时长t是否大于或等于第三阈值T3；若是，则将大于或等于第三阈值T3的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

2.根据权利要求1所述的语音VAD尾点确定方法，其中，所述计算当前的静音时长t，具体包括：

3.根据权利要求1所述的语音VAD尾点确定方法，其中，所述在判断当前数据包为静音包时，将所述第一标记发送至所述服务器步骤之后，还包括：

4.根据权利要求3所述的语音VAD尾点确定方法，其中，所述根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性步骤之后，所述将大于或等于第二阈值T2的当前的静音时长t对应的时间点确定为所述语音信息的尾点步骤之前，还包括：

5.一种语音VAD尾点确定方法，应用于服务器，所述方法包括：

按照时序接收智能设备上传的数据包；

当接收到第一标记时，将数据包中的语音包转换为文本；

判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点；

所述语音VAD尾点确定方法还包括：

接收当前数据包为静音包时智能设备发送的第一标记，并计算当前的静音时长t；

所述根据语义完整性检测结果确定所述数据包对应的语音信息的尾点步骤，包括：若语义不确定，判断所述当前的静音时长t是否大于或等于第三阈值T3；若是，则将大于或等于第三阈值T3的当前的静音时长t对应的时间点确定为所述语音信息的尾点。

6.根据权利要求5所述的语音VAD尾点确定方法，其中，所述判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点步骤，还包括：

7.根据权利要求5所述的语音VAD尾点确定方法，其中，所述计算当前的静音时长t，具体包括：

8.根据权利要求5所述的语音VAD尾点确定方法，其中，所述根据语义完整性检测结果确定所述数据包对应的语音信息的尾点步骤，还包括：

9.一种语音VAD尾点确定装置，应用于智能设备，所述装置包括：

触发模块，用于根据所述当前的静音时长t和预设的第一阈值T1，触发所述服务器检测所述语音信息的语义完整性，以使所述服务器根据语义完整性检测结果确定所述语音信息的尾点；

标记模块，用于若判断所述当前数据包为静音包，则将所述当前数据包标记为第一标记；则所述触发模块，具体包括：判断子模块，用于判断所述当前的静音时长t是否大于或等于第一阈值T1；发送子模块，用于若判断所述当前的静音时长t大于或等于第一阈值T1，则将所述第一标记发送至所述服务器，以触发所述服务器检测所述语音信息的语义完整性；

发送模块，用于在判断当前数据包为静音包时，将所述第一标记发送至所述服务器；以使所述服务器接收所述当前数据包为静音包时所述智能设备发送的第一标记，并计算当前的静音时长t；

10.根据权利要求9所述的语音VAD尾点确定装置，其中，所述计算模块，具体用于：

11.根据权利要求9所述的语音VAD尾点确定装置，其中，所述装置，还包括：

12.根据权利要求11所述的语音VAD尾点确定装置，其中，所述装置，还包括：

13.一种语音VAD尾点确定装置，应用于服务器，所述装置包括：

接收模块，用于按照时序接收智能设备上传的数据包；

确定模块，用于判断所述文本的语义完整性，并根据语义完整性检测结果确定所述数据包对应的语音信息的尾点；

计算模块，用于接收当前数据包为静音包时智能设备发送的第一标记，并计算当前的静音时长t；

所述确定模块，包括：

14.根据权利要求13所述的语音VAD尾点确定装置，其中，所述确定模块，还包括：

15.根据权利要求13所述的语音VAD尾点确定装置，其中，所述计算模块，具体用于：

16.根据权利要求13所述的语音VAD尾点确定装置，其中，所述确定模块，还包括：

17.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的语音VAD尾点确定方法。

18.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求5-8中任一所述的语音VAD尾点确定方法。

19.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如权利要求1-4中任一所述的语音VAD尾点确定方法。

20.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如权利要求5-8中任一所述的语音VAD尾点确定方法。