CN116246620A

CN116246620A - 语音结束检测方法及相关装置、电子设备、存储介质

Info

Publication number: CN116246620A
Application number: CN202211610325.2A
Authority: CN
Inventors: 肖建辉; 刘俊峰; 雷琴辉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-06-09

Abstract

本申请公开了一种语音结束检测方法及相关装置、电子设备、存储介质，其中，语音结束检测方法包括：检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长；响应于第一持续时长不短于第一预设时长，获取说话人距当前时刻最近的嘴唇状态，且在录音过程中开启对说话人的图像识别，以持续检测说话人的嘴唇状态；再依次基于最近的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音，且第一预设时长小于第二预设时长。上述方案，能够提升语音结束检测的准确性。

Description

语音结束检测方法及相关装置、电子设备、存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音结束检测方法及相关装置、电子设备、存储介质。

背景技术

随着人工智能技术的不断发展，智能语音技术已经广泛应用于教育、娱乐、医疗、交通等各行各业。

目前，随着语音产品的全面普及，语音结束检测成为录音过程中的重要环节。有鉴于此，如何提升语音结束检测的准确性成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种语音结束检测方法及相关装置、电子设备、存储介质，能够提升语音结束检测的准确性。

为了解决上述技术问题，本申请第一方面提供了一种语音结束检测方法，包括：检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长；响应于第一持续时长不短于第一预设时长，获取说话人距当前时刻最近的嘴唇状态，且在录音过程中开启对说话人的图像识别，以持续检测说话人的嘴唇状态；再依次基于最近的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音，且第一预设时长小于第二预设时长。

为了解决上述技术问题，本申请第二方面提供了一种语音结束检测装置，包括：空白检测模块、状态获取模块和停止确定模块；其中，空白检测模块用于检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长；状态获取模块用于响应于第一持续时长不短于第一预设时长，获取说话人距当前时刻最近的嘴唇状态；其中，在录音过程中开启对说话人的图像识别，以持续检测说话人的嘴唇状态；停止确定模块用于依次基于最近的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音；其中，第一预设时长小于第二预设时长。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面的语音结束检测方法。

为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面的结束检测方法。

上述方案，通过检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长；并响应于第一持续时长不短于第一预设时长，获取说话人距当前时刻最近的嘴唇状态，且在录音过程中开启对说话人的图像识别，以持续检测说话人的嘴唇状态；再依次基于最近的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音，且第一预设时长小于第二预设时长，一方面通过设置双预设时长，确定是否停止录音，有助于降低语音结束检测的误判率，另一方面在第一持续时长不短于第一预设时长时，通过说话人的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音，有助于提高对说话人说话状态判断的准确性。故此，能够提升语音结束检测的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请语音结束检测方法一实施例的流程示意图；

图2是本申请语音结束检测方法另一实施例的流程示意图；

图3是本申请语音结束检测装置一实施例的框架示意图；

图4是本申请电子设备一实施例的框架示意图；

图5是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。“若干”表示至少一个。本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

请参阅图1，图1是本申请语音结束检测方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长。

在一个实施场景中，可以通过第一预设频率检测第一持续时长，示例性地，第一预设频率可以是10次/ms、5次/ms等。第一预设频率可以根据实际情况进行设置，在此不做具体限定。为了及时检测语音结束，上述第一预设频率可以设置地高一些，如可以设置为10次/ms等，或者，为了降低语音结束检测的计算负荷，上述第一预设频率可以设置地低一些，如可以设置为5次/ms等；或者，为了平衡语音结束检测的及时性和计算负荷，上述第一预设频率还可以设置地适中一些，如可以设置为7次/ms、8次/ms等，在此不做限定。

在一个实施场景中，可以通过检测分贝的具体数值，进而确定截止当前时刻空白语音的第一持续时长。可以理解的是，分贝主要用于度量声音强度，通过分贝数值可以确定当前时刻说话人是否保持静默。示例性地，可以设置预设阈值为50分贝，当采集到的声音强度不大于50分贝时，则表征当前说话人保持静默，即可以通过计时器对说话人的空白语音时长进行计时，进而可以检测得到截止当前时刻空白语音的第一持续时长。

在另一实施场景中，也可以通过语音采集器检测截止当前时刻空白语音的第一持续时长。具体地，当语音采集器不能识别到语音内容时，开始计时，进而可以检测得到截止当前时刻空白语音的第一持续时长。第一持续时长的检测方式可以根据实际情况进行确定，在此不做具体限定。

在一个实施场景中，第一预设时长可以表征短暂停顿的时长，即当第一持续时长短于第一预设时长时，表征当前说话人仅为短暂停顿，示例性地，第一预设时长可以设置为600ms、650ms等。当然，第一预设时长也可以基于录音环境进行设置。示例性地，在嘈杂环境中，第一预设时长的值可以相对较小，如，400ms、500ms等。在安静环境中，第一预设时长的值可以相对较大，如，700ms、750ms等。此外，第一预设时长也可以基于说话人说话的习惯进行设置。第一预设时长可以根据实际情况进行确定，在此不做具体限定。

在一个实施场景中，响应于第一持续时长短于第一预设时长，确定继续录音，并重新执行检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤。即当第一持续时长短于第一预设时长时，说话人为短暂停顿，则继续进行录音。上述方式，通过将第一持续时长与第一预设时长进行比对，在确定第一持续时长短于第一预设时长时，继续进行录音，有助于提高录音的效率，进一步提升语音结束检测的准确性。

步骤S12：响应于第一持续时长不短于第一预设时长，获取说话人距当前时刻最近的嘴唇状态。

本公开实施例中，在录音过程中开启对说话人的图像识别，以持续检测说话人的嘴唇状态。具体地，可以通过第二预设频率对说话人的嘴唇状态进行检测，示例性地，第二预设频率可以是10次/ms、5次/ms等。第二预设频率可以根据实际情况进行设置，在此不做具体限定。需要说明的是，检测空白语音的第一持续时长与检测说话人的嘴唇状态以预设频率同步执行。即检测第一持续时长的第一预设频率与检测嘴唇状态的第二预设频率的数值不仅相同，并且以同步进行检测。示例性地，第i时刻，同时执行检测第一持续时长和检测嘴唇状态，第i+T时刻，还是同时执行检测第一持续时长和检测嘴唇状态，第i+2T时刻还是同时执行。上述方式，通过基于相同频率执行检测步骤，有助于降低检测过程中的误差，即提高说话人说话状态和嘴唇状态的同步性，尽可能地降低由于说话人说话状态与嘴唇状态在时间上存在参差，导致的语音结束检测的不准确性，进一步提升语音结束检测的准确性。

在一个实施场景中，如前所述，在检测得到截止当前时刻空白语音的第一持续时长之后，分析第一持续时长与不短于第一预设时长的大小关系。当第一持续时长不短于第一预设时长时，为了获取说话人距当前时刻最近的嘴唇状态，可以选择与当前时刻最近的拍摄时刻，作为目标时刻。示例性地，已拍摄时刻包括第i时刻、第i+T时刻、第i+2T时刻，则选择第i+2T时刻作为目标时刻。再选择与目标时刻绑定的嘴唇状态，作为最近的嘴唇状态，如前所述，检测空白语音的第一持续时长与检测说话人的嘴唇状态以预设频率同步执行，由此，可以确保目标时刻的嘴唇状态和录音内容可以同步。上述方式，通过确保检测空白语音的第一持续时长与检测说话人的嘴唇状态以预设频率同步执行，并在选择目标时刻之后，再选择与目标时刻绑定的嘴唇状态，作为最近的嘴唇状态，尽可能地避免说话人说话状态与嘴唇状态在时间上存在参差的情况，进一步提升语音结束检测的准确性。

步骤S13：依次基于最近的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音。

本公开实施例中，第一预设时长小于第二预设时长。需要说明的是，第一持续时长可能是说话人短暂停顿的时长，也可能是说话人说话结束产生的时长。故为了区分说话人说话期间短暂停顿和说话结束，从而对说话人能够快速响应，预设时长是可以决定说话人是否为短暂停顿的时长，因此，可以为说话人短暂停顿设置一较小的预设时长，即第一预设时长，为说话人结束产生的时长设置一较大的预设时长，即第二预设时长，从而在确定是否停止录音的过程中，优先基于嘴唇状态确定，基于此无法确定停止录音的情况下，再次基于时长差值确定，以通过先后两重标准的检验，提升确定是否停止录音的准确性和鲁棒性。区别于前述方式，第一预设时长和第二预设时长也可以设置初始值，并在语音结束检测过程中通过对初始值不断调整，以使第一预设时长和第二预设时长趋于稳定。示例性地，第一预设时长可以设置为600ms，第二预设时长可以设置为850ms，第一预设时长和第二预设时长可以根据实际情况进行设置，在此不做具体限定。

在一个实施场景中，嘴唇状态可以基于嘴巴开闭进行确定，示例性地，0代表闭合，1代表张开。区别于前述方式，为了更准确地确定嘴唇状态，还可以对嘴巴开闭程度进行确定，示例性地，0代表完全闭合、0.1代表轻微张开，……，1.0代表张开较大等。嘴唇状态可以根据实际情况进行确定，在此不做具体限定。

在一个实施场景中，如前所述，在得到最近的嘴唇状态之后，需依次基于最近的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音。具体地，先检测最近的嘴唇状态是否满足第一条件，第一条件可以基于嘴唇状态进行确定，示例性地，当嘴唇状态基于嘴巴开闭进行确定，0代表闭合，1代表张开，则第一条件可以是嘴巴闭合。或者，当嘴唇状态基于嘴巴开闭程度进行确定，0代表完全闭合、0.1代表轻微张开，……，1.0代表张开较大等，则第一条件可以是嘴巴开闭程度低于预设阈值，例如，预设阈值可以为0.3、0.4等，此时，预设阈值与嘴巴的开闭程度成正比。第一条件可以根据实际情况进行确定，在此不做具体限定。检测得到最近的嘴唇状态是否满足第一条件之后，可以响应于最近的嘴唇状态满足第一条件，确定停止录音。还可以响应于最近的嘴唇状态不满足第一条件，检测时长差值是否满足第二条件，第二条件可以设置为时长差值不小于0，也可以设置为时长差值不小于50ms、60ms等。第二条件可以根据实际情况进行确定，在此不做具体限定。上述方式，通过检测最近的嘴唇状态是否满足第一条件，并在最近的嘴唇状态不满足第一条件的情况下，检测时长差值是否满足第二条件，有助于提高语音结束检测的准确性，进一步提高用户体验。

在一个具体实施场景中，在检测时长差值是否满足第二条件之后，可以响应于时长差值满足第二条件，确定停止录音。或者，也可以响应于时长差值不满足第二条件，确定继续录音，并重新执行检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤。

在一个实施场景中，在依次基于最近的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定停止录音的情况下，还可以进一步判断第一预设时长、第二预设时长是否需要调整。具体地，可以先统计收录音频中截至音频结束时空白语音的第二持续时长，可以理解的是，第二持续时长为截止音频结束时的空白语音时长，即确定停止录音获取到的空白录音时长。再响应于收录音频的累积数量满足第三条件，并基于对各个收录音频分别统计得到的第二持续时长，调整第一预设时长、第二预设时长中至少一者。第三条件可以是收录音频的累积数量大于预设数值，如100、200等，也可以是收录音频的时间大于预设时间，如1年、2年等。第三条件可以根据实际情况进行设置，在此不做具体限定。具体地，将收录音频中所有的第二持续时长聚类得到若干聚类集合，选取具有最大聚类中心的聚类集合，作为目标集合，基于目标集合，调整第一预设时长、第二预设时长中至少一者。例如，可以将目标集合的聚类中心调整为第二预设时长，或者，将目标集合中最小值调整为第一预设时长、最大值调整为第二预设时长。第一预设时长、第二预设时长可以根据实际情况进行调整，在此不做具体限定。上述方式，在进行语音结束检测的过程中，选择性地对第一预设时长和第二预设时长进行调整，有助于提高语音结束检测的准确性。

请参阅图2，图2是本申请语音结束检测方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S21：语音录音。

步骤S22：检测截止当前时刻空白语音的第一持续时长。

在一个实施场景中，检测第一持续时长的方式，可以参照前述公开实施例中的方式，在此不再赘述。

步骤S23：判断第一持续时长是否不短于第一预设时长；若否，执行步骤S21；否则，执行步骤S24。

在一个实施场景中，在获取第一持续时长之后，可以对第一持续时长和第一预设时长之间的大小关系进行确定，当第一持续时长短于第一预设时长时，确定继续录音，并重新执行检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤。

步骤S24：获取说话人距离当前时刻最近的嘴唇状态。

需要说明的是，说话人拍摄图像的拍摄时刻与在拍摄图像检测到的嘴唇状态绑定。

在一个实施场景中，在进行语音录音过程中，开启对所述说话人的图像识别，以持续检测所述说话人的嘴唇状态。具体地，选择与当前时刻最近的拍摄时刻，作为目标时刻；再选择与目标时刻绑定的嘴唇状态，作为最近的嘴唇状态。嘴唇状态的确定方式可以参照前述公开实施例，在此不再赘述。

步骤S25：判断嘴唇状态是否满足第一条件；若是，则执行步骤S26；否则，执行步骤S27。

具体地，第一条件的设置方式可以参照前述公开实施例，在此不再赘述。

步骤S26：录音结束。

在一个实施场景中，录音结束之后，可以进一步对录音音频进行处理。

步骤S27：获取第一持续时长与第二预设时长的时长差值。

步骤S28：检测时长差值是否满足第二条件；若否，则执行步骤S21；否则，执行步骤S29。

在一个实施场景中，当时长差值不满足第二条件时，确定继续录音，并重新执行检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤；当时长差值满足第二条件时，录音结束。

此外，还可以在嘴唇状态不满足第一条件时，获取第一持续时长与第二预设时长的大小关系，当第一持续时长小于第二预设时长时，确定继续录音，并重新执行检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤；当第一持续时长不小于第二预设时长时，录音结束。当嘴唇状态不满足第一条件时，基于第一持续时长与第二预设时长，确定是否停止录音的方式可以根据实际情况进行确定，在此不做具体限定。

步骤S29：录音结束。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请参阅图3，图3是本申请语音结束检测装置一实施例的框架示意图。语音结束检测装置30包括空白检测模块31、状态获取模块32和停止确定模块33。其中，空白检测模块31用于检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长；状态获取模块32用于响应于第一持续时长不短于第一预设时长，获取说话人距当前时刻最近的嘴唇状态，且在录音过程中开启对说话人的图像识别，以持续检测说话人的嘴唇状态；停止确定模块33用于依次基于最近的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音，且第一预设时长小于第二预设时长。

在一些公开实施例中，停止确定模块33包括状态检测子模块、第一响应子模块、第二响应子模块何第三响应子模块，状态检测子模块用于检测最近的嘴唇状态是否满足第一条件；第一响应模块用于响应于最近的嘴唇状态满足第一条件，确定停止录音；第二响应子模块用于响应于最近的嘴唇状态不满足第一条件，检测时长差值是否满足第二条件；第三响应子模块用于响应于时长差值满足第二条件，确定停止录音。

因此，通过检测最近的嘴唇状态是否满足第一条件，并在最近的嘴唇状态不满足第一条件的情况下，检测时长差值是否满足第二条件，有助于提高语音结束检测的准确性，进一步提高用户体验。

在一些公开实施例中，停止确定模块33还包括第四响应子模块，第四响应子模块用于响应于时长差值不满足第二条件，确定继续录音，并重新执行检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤。

在一些公开实施例中，语音结束检测装置30包括重新执行模块，重新执行模块用于响应于第一持续时长短于第一预设时长，确定继续录音，并重新执行检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤。

因此，通过将第一持续时长与第一预设时长进行比对，在确定第一持续时长短于第一预设时长时，继续进行录音，有助于提高录音的效率，进一步提升语音结束检测的准确性。

在一些公开实施例中，状态获取模块32包括第一选择子模块，第一选择子模块用于选择与当前时刻最近的拍摄时刻，作为目标时刻；状态获取模块32还包括第二选择子模块，第二选择子模块用于选择与目标时刻绑定的嘴唇状态，作为最近的嘴唇状态。

因此，通过确保检测空白语音的第一持续时长与检测说话人的嘴唇状态以预设频率同步执行，并在选择目标时刻之后，再选择与目标时刻绑定的嘴唇状态，作为最近的嘴唇状态，尽可能地避免说话人说话状态与嘴唇状态在时间上存在参差的情况，进一步提升语音结束检测的准确性。

在一些公开实施例中，检测空白语音的第一持续时长与检测说话人的嘴唇状态以预设频率同步执行。

因此，通过基于相同频率执行检测步骤，有助于降低检测过程中的误差，即提高说话人说话状态和嘴唇状态的同步性，尽可能地降低由于说话人说话状态与嘴唇状态在时间上存在参差，导致的语音结束检测的不准确性，进一步提升语音结束检测的准确性。

在一些公开实施例中，停止确定模块33包括时长统计子模块，时长统计子模块用于统计收录音频中截至音频结束时空白语音的第二持续时长；停止确定模块33还包括时长调整子模块，时长调整子模块用于响应于收录音频的累积数量满足第三条件，基于对各个收录音频分别统计得到的第二持续时长，调整第一预设时长、第二预设时长中至少一者。

因此，在进行语音结束检测的过程中，选择性地对第一预设时长和第二预设时长进行调整，有助于提高语音结束检测的准确性。

请参阅图4，图4是本申请电子设备40一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42，存储器41中存储有程序指令，处理器42用于执行程序指令以实现上述任一语音结束检测方法实施例中的步骤。具体地，电子设备40可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。此外，电子设备40还可以包括麦克风、摄像头，且麦克风、摄像头与处理器42耦接，分别用于采集语音和图像。

具体而言，处理器42用于控制其自身以及存储器41以实现上述任一语音结束检测方法实施例中的步骤。处理器42还可以称为CPU(Central Processing Unit，中央处理单元)。处理器42可能是一种集成电路芯片，具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器42可以由集成电路芯片共同实现。

上述方案，一方面通过设置双预设时长，确定是否停止录音，有助于降低语音结束检测的误判率，另一方面在第一持续时长不短于第一预设时长时，通过说话人的嘴唇状态、第一持续时长与第二预设时长的时长差值，确定是否停止录音，有助于提高对说话人说话状态判断的准确性。故此，能够提升语音结束检测的准确性。

请参阅图5，图5是本申请计算机可读存储介质50一实施例的框架示意图。计算机可读存储介质50存储有能够被处理器运行的程序指令51，程序指令51用于实现上述任一语音结束检测方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音结束检测方法，其特征在于，包括：

检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长；

响应于所述第一持续时长不短于所述第一预设时长，获取说话人距所述当前时刻最近的嘴唇状态；其中，在录音过程中开启对所述说话人的图像识别，以持续检测所述说话人的嘴唇状态；

依次基于所述最近的嘴唇状态、所述第一持续时长与第二预设时长的时长差值，确定是否停止录音；其中，所述第一预设时长小于所述第二预设时长。

2.根据权利要求1所述的方法，其特征在于，所述依次基于所述最近的嘴唇状态、所述第一持续时长与第二预设时长的时长差值，确定是否停止录音，包括：

检测所述最近的嘴唇状态是否满足第一条件；

响应于所述最近的嘴唇状态满足所述第一条件，确定停止录音；

响应于所述最近的嘴唇状态不满足所述第一条件，检测所述时长差值是否满足第二条件；

响应于所述时长差值满足所述第二条件，确定停止录音。

3.根据权利要求2所述的方法，其特征在于，在所述检测所述时长差值是否满足第二条件之后，所述方法还包括：

响应于所述时长差值不满足所述第二条件，确定继续录音，并重新执行所述检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤。

4.根据权利要求1所述的方法，其特征在于，在所述检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长之后，所述方法还包括：

响应于所述第一持续时长短于所述第一预设时长，确定继续录音，并重新执行所述检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长的步骤及其步骤。

5.根据权利要求1所述的方法，其特征在于，所述说话人拍摄图像的拍摄时刻与在所述拍摄图像检测到的嘴唇状态绑定，所述获取说话人距所述当前时刻最近的嘴唇状态，包括：

选择与所述当前时刻最近的拍摄时刻，作为目标时刻；

选择与所述目标时刻绑定的嘴唇状态，作为所述最近的嘴唇状态。

6.根据权利要求1所述的方法，其特征在于，检测所述空白语音的第一持续时长与检测所述说话人的嘴唇状态以预设频率同步执行。

7.根据权利要求1所述的方法，其特征在于，在依次基于所述最近的嘴唇状态、所述第一持续时长与第二预设时长的时长差值，确定停止录音的情况下，所述方法还包括：

统计收录音频中截至音频结束时空白语音的第二持续时长；

响应于所述收录音频的累积数量满足第三条件，基于对各个所述收录音频分别统计得到的第二持续时长，调整所述第一预设时长、所述第二预设时长中至少一者。

8.一种语音结束检测装置，其特征在于，包括：

空白检测模块，用于检测截至当前时刻空白语音的第一持续时长是否不短于第一预设时长；

状态获取模块，用于响应于所述第一持续时长不短于所述第一预设时长，获取说话人距所述当前时刻最近的嘴唇状态；其中，在录音过程中开启对所述说话人的图像识别，以持续检测所述说话人的嘴唇状态；

停止确定模块，用于依次基于所述最近的嘴唇状态、所述第一持续时长与第二预设时长的时长差值，确定是否停止录音；其中，所述第一预设时长小于所述第二预设时长。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至7任一项所述的语音结束检测方法。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至7任一项所述的语音结束检测方法。