CN115512687A

CN115512687A - 一种语音断句方法、装置、存储介质及电子设备

Info

Publication number: CN115512687A
Application number: CN202211390934.1A
Authority: CN
Inventors: 张梦璘; 郏维强; 韩松岭
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2022-12-23
Anticipated expiration: 2042-11-08
Also published as: CN115512687B

Abstract

本说明书公开了一种语音断句方法、装置、存储介质及电子设备，本说明书实施例中实时获取到目标用户的音频数据，先对音频数据进行语音检测，得到语音片段和非语音片段。然后，根据语音片段，确定出目标用户对应的语言表达习惯参数，并基于确定出的语言表达习惯参数，确定出对目标用户发出的音频数据进行语音断句的静默时长。最终，基于确定出的静默时长以及非语音片段的持续时长，对目标用户后续的音频数据进行语音断句。在此方法中，在对话场景下，可以根据不同用户的语言表达习惯，为不同的用户确定出不同的静默时长，这样，可以提高对话场景下语音断句的准确性，并提高下游针对用户的语音进行答复的准确性。

Description

一种语音断句方法、装置、存储介质及电子设备

技术领域

本说明书涉及语音处理技术领域，尤其涉及一种语音断句方法、装置、存储介质及电子设备。

背景技术

随着人工智能的发展，语音对话系统可以广泛应用于语音客服、智能机器人等场景。语音对话系统需要先获取用户的对话语音，再对对话语音进行断句，然后，将断句后的语音片段进行语音识别，以根据语音识别出的文本进行语音答复。

现有技术进行语音断句时，通常是基于预设的最大静音时长来判断一句话是否说完。即，若检测到语音中某个位置的持续时长大于最大静音时长，则将停顿位置作为一句话的结束位置，以此对完整语音进行语音断句。

然而，语音对话场景下不同用户的说话方式不同，若通过设置固定的最大静音时长进行语音断句，可能会出现语音断句不准确的问题。

发明内容

本说明书实施例提供一种语音断句方法、装置、存储介质及电子设备，以部分解决上述现有技术存在的问题。

本说明书实施例采用下述技术方案：

本说明书提供的一种语音断句方法，所述方法包括：

实时获取目标用户的音频数据；

对所述音频数据进行语音检测，得到语音片段和非语音片段；

根据所述语音片段，确定出与所述目标用户对应的语言表达习惯参数；

根据所述语言表达习惯参数，确定对所述目标用户发出的音频数据进行语音断句的静默时长；

根据所述静默时长以及所述非语音片段的持续时长，对所述目标用户后续的音频数据进行语音断句。

可选地，根据所述静默时长以及所述非语音片段的持续时长，对所述目标用户后续的音频数据进行语音断句，具体包括：

依次针对所述目标用户后续的音频数据中的每个语音片段，合并该语音片段以及该语音片段之前的其他语音片段，得到合并语音片段，并对所述合并语音片段进行语义分析，得到针对该语音片段的语义分析结果；

根据针对该语音片段的语义分析结果，确定针对该语音片段的最大静默等待时长；

根据所述最大静默等待时长以及所述静默时长，确定针对该语音片段的综合时长；

将所述综合时长与该语音片段对应的非语音片段的持续时长进行对比，得到该语音片段对应的对比结果；

根据所述目标用户后续的每个语音片段对应的对比结果，对所述目标用户后续的音频数据进行语音断句。

可选地，对所述音频数据进行语音检测，得到语音片段和非语音片段，具体包括：

对所述音频数据进行特征提取，得到所述音频数据对应的特征数据；

将所述特征数据输入预先训练的语音分类模型中，以通过所述语音分类模型，确定出所述音频数据中包含的语音片段和非语音片段，其中，所述语音分类模型是基于各用户预先录入的历史音频数据所训练得到的。

可选地，根据所述语音片段，确定出与所述目标用户对应的语言表达习惯参数，具体包括：

从所述语音片段中确定出至少部分语音片段，作为起始语音片段；

对所述起始语音片段进行特征编码，得到所述起始语音片段对应的声纹码，作为所述目标用户的声纹码；

将所述目标用户的声纹码与预先保存的各用户的声纹码进行匹配；

若匹配成功，从预先保存的各用户对应的语言表达习惯参数中，查找与所述目标用户对应的语言表达习惯参数；

若匹配失败，将预设的语言表达习惯参数确定为与所述目标用户对应的语言表达习惯参数。

可选地，所述方法还包括：

将所述起始语音片段转换成文本，作为起始文本；

检测所述起始文本中的文字数量是否大于第一预设数量，若所述起始文本中的文字数量大于第一预设数量，将所述起始语音片段的结束位置作为所述目标用户语言表述结束的位置。

可选地，根据针对该语音片段的语义分析结果，确定针对该语音片段的最大静默等待时长，具体包括：

根据针对该语音片段的语义分析结果，确定所述目标用户发出的截止该语音片段时的音频数据的语义完整度；

根据所述语义完整度，确定针对该语音片段的最大静默等待时长，其中，所述语义完整度越大，所述最大静默等待时长越小。

根据所述目标用户后续的每个语音片段对应的对比结果，对所述目标用户后续的音频数据进行语音断句，具体包括：

依次针对所述目标用户后续的音频数据中的每个语音片段，若根据该语音片段对应的对比结果确定出所述持续时长大于所述综合时长，则将该语音片段的结束位置作为所述目标用户语言表述结束的位置；

若根据该语音片段对应的对比结果确定出所述持续时长不大于所述综合时长，则确定该语音片段对应的文本，作为第一文本，以及确定该语音片段之前的语音片段对应的文本，作为第二文本，并将所述第一文本与第二文本进行拼接，得到拼接后文本；

检测所述拼接后文本中的文字数量是否超过第二预设数量；

若所述拼接后文本中的文字数量大于第二预设数量，将该语音片段的结束位置作为所述目标用户语言表述结束的位置；

若所述拼接后文本中的文字数量不大于第二预设数量，继续获取下一语音片段，并将所述下一语音片段对应的非语音片段的持续时长与针对所述下一语音片段的综合时长进行对比，直到确定出所述目标用户语言表述结束的位置为止。

可选地，在实时获取用户的音频数据之前，所述方法还包括：

获取各用户的历史音频数据；

针对每个用户，对该用户的历史音频数据进行端点检测，得到多个历史非语音片段；

根据每个历史非语音片段的持续时长，确定该用户对应的语言表达习惯参数。

本说明书提供的一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音断句方法。

本说明书提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的语音断句方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

本说明书实施例中实时获取到目标用户的音频数据，先对音频数据进行语音检测，得到语音片段和非语音片段。然后，根据语音片段，确定出目标用户对应的语言表达习惯参数，并基于确定出的语言表达习惯参数，确定出对目标用户发出的音频数据进行语音断句的静默时长。最终，基于确定出的静默时长以及非语音片段的持续时长，对目标用户后续的音频数据进行语音断句。在此方法中，在对话场景下，可以根据不同用户的语言表达习惯，为不同的用户确定出不同的静默时长，这样，可以提高对话场景下语音断句的准确性，并提高下游针对用户的语音进行答复的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书实施例提供的语音断句方法的流程示意图；

图2为本说明书实施例提供的表示静默时长和最大静默等待时长的示意图；

图3为本说明书实施例提供的语音断句装置结构示意图；

图4为本说明书实施例提供的电子设备的结构示意图。

具体实施方式

本说明书提供的语音断句方法旨在在对话场景下，针对每轮对话，获取用户实时的音频数据，并根据该用户的语言表达习惯，对实时的音频数据进行语音断句。其中，语音断句是指从音频数据中确定出包含完整语句的语音片段。在对话场景下，语音断句可以是指从音频数据中确定出用户语言表述结束时的语音片段，并将用户语言表述结束时的语音片段的结束位置作为一轮对话的结束位置。

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

在对语音断句方法进行说明之前，先介绍一下，基于人工智能的对话系统的工作原理：先获取用户的音频数据，对音频数据进行语音断句。然后，将通过语音断句得到的多个语音片段进行语音识别，即，将多个语音片段识别为多个文本。之后，通过自然语言理解引擎，对多个文本进行处理，以针对多个文本进行语音答复。其中，音频数据可以包含语音片段和非语音片段。语音片段是指处于激活状态的音频片段，比如：包含说话语音的音频片段。非语音片段可以是处于静默状态的音频片段，比如：包含噪声的音频片段和包含无说话语音的音频片段。其中，当说话语音的短时能量和过零率小于预设阈值，则确定处于静默状态；当说话语音的短时能量和过零率不小于预设阈值，则确定处于激活状态。另外，语音片段和非语音片段之间无重叠的音频数据。

图1为本说明书实施例提供的语音断句方法的流程示意图，该语音断句方法可以适用于执行对话业务的服务器，该语音断句方法包括：

S100：实时获取目标用户的音频数据。

在人工智能的对话场景下，主要将本说明书提供的语音断句方法分为两个部分，第一部分，在使用对话系统之前，确定出各用户的语言表达习惯参数。第二部分，在使用对话系统时，基于当前用户的语音表达习惯参数，对当前用户的实时音频数据进行语音断句。

针对第一部分：

在实时获取用户的音频数据之前（即，在使用对话系统之前），可以获取各用户针对固定文本内容所录入的音频数据，作为历史音频数据。然后，针对每个用户，对该用户录入的历史音频数据进行端点检测，得到多个历史语音片段和多个历史非语音片段。

针对每个用户，该用户的历史音频数据中包含的多个历史非语音片段可以用于确定该用户的语言表示习惯参数，而该用户的历史音频数据中包含的多个历史语音片段可以用于表示该用户的声纹码，以便在实际应用中基于不同声纹码查询不同用户的语言表达习惯参数。另外，该用户的历史音频数据中包含的多个历史非语音片段和多个历史语音片段可以作为语音分类模型的训练样本，用于训练语音分类模型。其中，语音分类模型可以是用于区分音频数据中的语音片段和非语音片段。

在得到该用户对应的多个历史非语音片段之后，可以将每个历史非语音片段对应的时长，作为持续时长。然后，可以根据每个历史非语音片段的持续时长，确定该用户对应的语言表达习惯参数。其中，语言表达习惯参数用于表示用户进行语言表述时的停顿习惯。语言表达习惯参数可以包括：第一参数和第二参数，第一参数可以是指所有历史非语音片段（或非语音片段）的平均持续时长，第二参数可以是指针对平均持续时长的方差。

在确定该用户对应的语言表达习惯参数时，可以对每个历史非语音片段的持续时长进行加权求和，得到所有历史非语音片段的平均持续时长以及针对平均持续时长的方差。

其中，端点检测（Voice Activity Detection，VAD）可以是指从音频数据中定位出语音的开始位置以及语音的结束位置，以区分出语音片段和非语音片段的方法。另外，端点检测的方法可以包括：基于阈值的 VAD、作为分类器的 VAD、模型 VAD等，其中，基于阈值的VAD可以包括：双门限法等。在本说明书中，对端点检测的方法不作限制。

在得到该用户对应的多个历史语音片段之后，可以对该用户的音频数据中包含的多个历史语音片段进行特征提取，得到每个历史语音片段对应的特征数据。然后，将每个历史语音片段对应的特征数据输入特征编码模型，以通过该特征编码模型，对每个历史语音片段对应的特征数据进行特征编码，得到该用户对应的声纹码。

在对多个历史语音片段进行特征提取时，可以针对每个历史语音片段，对该历史语音片段进行分帧、加窗，得到固定时间间隔的各音频帧。然后，对每个音频帧进行向量表达，得到每个音频帧对应的特征向量。之后，对各音频帧对应的特征向量进行帧混合和帧采样，得到针对该历史语音片段的各特征帧，作为该历史语音片段对应的特征数据。

在得到该用户对应的声纹码时，将每个历史语音片段对应的特征数据输入特征编码模型，以通过该特征编码模型，对每个历史语音片段对应的特征数据进行特征编码，得到每个历史语音片段对应的特征编码，并将每个历史语音片段对应的特征编码进行聚合，得到聚合后特征编码，作为该用户对应的声纹码。

在确定出每个用户对应的语言表达习惯参数和每个用户对应的声纹码之后，针对每个用户，可以建立该用户的语言表达习惯参数与该用户的声纹码之间的对应关系，并将该用户的语言表达习惯参数与该用户的声纹码对应保存。

在训练语音分类模型时，针对每个用户，在对该用户录入的历史音频数据进行端点检测，得到多个历史语音片段和多个历史非语音片段之后，可以将确定各用户的历史音频数据中包含的多个历史非语音片段和多个历史语音片段，然后，对每个历史非语音片段和每个历史语音片段进行特征提取，得到历史音频数据对应的各特征帧，并将历史非语音片段对应的特征帧作为真值，将历史语音片段对应的特征帧作为假值。然后，将历史音频数据对应的各特征帧依次输入到待训练的语音分类模型中，以对语音分类模型进行有监督训练，得到训练完成的语音分类模型。

需要说明的是，上述训练完成的语音分类模型可以对实时音频数据中的语音片段和非语音片段进行区分。在使用对话系统的过程中之所以采用语音分类模型进行语音检测，是因为，对话系统是实时获取用户的音频数据的，若采用时域的端点检测方法可能无法准确识别出语音片段和非语音片段，而语音分类模型是在音频流的频域上进行端点检测的，相对于时域的端点检测方法，频域的端点检测方法能够更准确的区分出语音片段和非语音片段，以适应音频数据的实时性。当然，本说明书中只是示例性地提出采用训练完成的语言分类模型进行语音检测，还可以采用频域上的其他端点检测方法，以进行语音检测，对此不作限制。

针对第二部分：

在使用对话系统时，针对每轮对话，可以实时获取目标用户的音频数据。其中，音频数据可以是目标用户通过语言表述所产生的音频数据。

接下来，对针对一轮对话的目标用户发出的音频数据的语音断句方法进行说明。

S102：对所述音频数据进行语音检测，得到语音片段和非语音片段。

在本说明书实施例中，在获取到音频数据之后，可以先对音频数据中包含的语音片段和非语音片段进行区别。然后，采用语音片段进行声纹识别，以查找出目标用户对应的语言表达习惯参数。之后，根据查找到的语言表达习惯参数，对音频数据进行语音断句。

在区分音频数据中语音片段和非语音片段时，可以采用预先训练的语音分类模型，对音频数据进行语音检测，得到语音片段和非语音片段。

具体的，可以先对获取的音频数据进行特征提取，得到音频数据对应的特征数据。然后，将音频数据对应的特征数据输入预先训练的语音分类模型中，以通过语音分类模型，确定出音频数据中包含的语音片段和非语音片段。其中，语音分类模型是基于各用户预先录入的历史音频数据所训练得到的，语音分类模型可以包括：高斯混合模型、前馈神经网络、循环神经网络等任意一种。

在得到音频数据对应的特征数据时，可以对音频数据进行分帧、加窗，得到固定时间间隔的各音频帧。然后，按照时间顺序，对每个音频帧进行向量表达，得到每个音频帧对应的特征向量。之后，对各音频帧对应的特征向量进行帧混合和帧采样，得到针对音频数据的各特征帧，作为音频数据对应的特征数据。

另外，除了采用语音分类模型对音频数据进行语音检测之外，还可以采用基于谱熵的端点检测方法进行语音检测。

S104：根据所述语音片段，确定出与所述目标用户对应的语言表达习惯参数。

在本说明书实施例中，在每轮对话开始时，服务器是无法确定出目标用户的身份的，因此，可以从获取到的音频数据中截取部分语音片段，采用截取的语音片段进行声纹识别，以确定出目标用户身份，并查找到目标用户对应的语言表达习惯参数。若无法确定出目标用户身份，可以采用默认的语言表达习惯参数，对目标用户后续的音频数据进行语音断句。

在本说明书实施例中，在确定出音频数据中包含的语音片段和非语音片段之后，可以根据语音片段，确定出与目标用户对应的语言表达习惯参数。

具体的，可以先从音频数据检测出的语音片段中确定出至少部分语音片段，作为起始语音片段。然后，基于起始语音片段，确定出与目标用户对应的语言表达习惯参数。

进一步，为了更快地确定出目标用户的语言表达习惯参数，可以设置起始语音片段的时长，作为指定时长。然后，基于指定时长的起始语音片段，确定出与目标用户对应的语言表达习惯参数。其中，指定时长可以是2500ms。

再进一步，可以判断目标用户发出的音频数据中语音片段的持续时长是否大于指定时长，若是，从语音片段中截取指定时长的语音片段，作为起始语音片段。若否，将语音片段作为起始语音片段。

在确定起始语音片段之后，可以对起始语音片段进行特征编码，得到起始语音片段对应的声纹码，作为目标用户的声纹码。然后，将目标用户的声纹码与预先保存的各用户的声纹码进行匹配。其中，匹配的方法可以包括：余弦相似度、欧氏距离、模型匹配等任意一种，本说明书对匹配方法不作限制。

若匹配成功，从各用户对应的语言表达习惯参数中，查找与目标用户对应的语言表达习惯参数。若匹配失败，将预设的语言表达习惯参数确定为与目标用户对应的语言表达习惯参数。

另外，在根据起始语音片段进行声纹识别的同时，由于无法确定出目标用户的语言表达习惯参数，可以采用预设（或默认）的静默时长，对起始语音片段进行语音断句。

具体的，判断起始语音片段之后的非语音片段的持续时长是否大于预设的静默时长。若起始语音片段之后的非语音片段的持续时长大于预设的静默时长，可以通过下游的自然语言理解引擎，根据起始语音片段转换的起始文本，确定针对目标用户的答复策略，并执行答复策略，以进行语音答复。若起始语音片段之后的非语音片段的持续时长不大于预设的静默时长，继续获取起始语音片段之后的语音片段，并根据确定出的目标用户对应的语言表达习惯参数，对起始语音片段之后的语音片段进行语音断句。

此外，在起始语音片段之后的非语音片段的持续时长不大于预设的静默时长的情况下，若确定出目标用户对应的语言表达习惯参数，可以直接根据目标用户对应的语言表达习惯参数，确定出对目标用户发出的音频数据进行语音断句的静默时长，并将预设的静默时长调整为确定出的静默时长。最终，根据确定出的静默时长，对起始语音片段进行语音断句。

另外，若未预先保存每个用户的语言表达习惯参数的情况下，可以先选取目标用户发出的音频数据中的部分音频数据，用于确定出目标用户的语言表达习惯参数。

具体的，可以实时获取目标用户的音频数据，然后，从获取到的音频数据中选取部分音频数据，之后，从部分音频数据中检测出多个非语音片段。最后，根据多个非语音片段的持续时长，确定出目标用户对应的语言表达习惯参数。

S106：根据所述语言表达习惯参数，确定对所述目标用户发出的音频数据进行语音断句的静默时长。

S108：根据所述静默时长以及所述非语音片段的持续时长，对所述目标用户后续的音频数据进行语音断句。

在本说明书实施例中，在确定目标用户对应的语言表达习惯参数之后，可以根据目标用户对应的语言表达习惯参数，确定对目标用户发出的音频数据进行语音断句的静默时长。然后，根据针对目标用户确定出的静默时长以及非语音片段的持续时长，对目标用户后续的音频数据进行语音断句。其中，音频数据中包含语音片段和非语音片段，语音片段中可以包含起始语音片段。目标用户后续的音频数据可以是指位于用于确定出目标用户的语言表达习惯参数的起始语音片段之后的所有音频数据。起始语音片段可以是指音频数据中语音检测出的语音片段中的至少部分语音片段。

另外，在对话场景下，语音断句可以是指从音频数据中确定出用户语言表述结束时的语音片段，并将用户语言表述结束时的语音片段的结束位置作为一个完整语句的结束位置，以及作为一轮对话的结束位置。其中，完整语句可以是指以句号、问号、惊叹号等符号标识所划分的语句。

在确定静默时长时，可以根据目标用户对应的语言表达习惯参数中包含的第一参数和第二参数，确定出对目标用户的音频数据进行语音断句的静默时长。

具体的，可以确定语言表达习惯参数中包含的第一参数与第二参数之和，作为对目标用户的音频数据进行语音断句的静默时长。其中，静默时长可以是目标用户预先录入的历史音频数据中包含的所有历史非语音片段的平均持续时长或目标用户预先录入的历史音频数据中包含的所有历史非语音片段的平均持续时长与针对平均持续时长的方差之和。比如：若第一参数为平均持续时长

，第二参数为针对平均持续时长的方差

，则静默时长为

。

在对目标用户后续的音频数据进行语音断句时，依次针对目标用户后续的音频数据中包含的每个语音片段，确定该语音片段之后的且最接近该语音片段的非语音片段，作为该语音片段对应的非语音片段。判断该语音片段对应的非语音片段的持续时长是否大于静默时长，若该语音片段对应的非语音片段的持续时长大于静默时长，将该语音片段的结束位置作为一个完整语句的结束位置，即，将该语音片段的结束位置作为目标用户语言表述结束的位置。若该语音片段对应的非语音片段的持续时长不大于静默时长，则确定目标用户语言表述未结束，继续针对下一语音片段，判断下一语音片段对应的非语音片段的持续时长是否大于静默时长，直到确定出目标用户语言表述结束的位置为止。

在确定出目标用户后续的音频数据中目标用户语言表述结束的语音片段之后，将与目标用户语言表述结束的位置对应的语音片段，作为结束语音片段。然后，将结束语音片段之前的其他语音片段与该结束语音片段进行合并，得到完整语音片段。之后，将完整语音片段转换为文本，作为完整文本。最后，对完整文本进行自然语言理解，得到理解结果，并确定针对理解结果的答复策略，并执行确定出的答复策略，以针对目标用户的音频数据进行语音答复。

在得到完整文本时，除了将完整语音片段转换成文本的方法之外，还可以将结束语音片段之前的其他语音片段和结束语音片段分别转换成文本，再将结束语音片段之前的其他语音片段转换的文本以及将结束语音片段转换的文本进行合并，得到完整文本。

需要说明的是，本申请中所有获取信号、信息或音频数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

通过上述图1所示的方法可见，本说明书实时获取到目标用户的音频数据，先对音频数据进行语音检测，得到语音片段和非语音片段。然后，根据语音片段，确定出目标用户对应的语言表达习惯参数，并基于确定出的语言表达习惯参数，确定出对目标用户发出的音频数据进行语音断句的静默时长。最终，基于确定出的静默时长以及非语音片段的持续时长，对目标用户后续的音频数据进行语音断句。在此方法中，在对话场景下，可以根据不同用户的语言表达习惯，为不同的用户确定出不同的静默时长，这样，可以提高对话场景下语音断句的准确性，并提高下游针对用户的语音进行答复的准确性。

进一步，在步骤S104中，为了避免由于目标用户的语速太快，导致无法及时对目标用户的语音进行答复的问题，在确定出起始语音片段之后，可以先将起始语音片段转换为文本，作为起始文本。然后，检测起始文本中的文字数量是否大于第一预设数量，若起始文本中的文字数量大于第一预设数量，将起始语音片段的结束位置作为目标用户语言表述结束的位置，并通过下游的自然语言理解引擎，根据起始语音片段转换的起始文本，确定针对目标用户的答复策略，并执行答复策略，以进行语音答复。若起始文本中的文字数量不大于第一预设数量，可以采用预设的静默时长或针对目标用户的语言表达习惯参数所确定出的静默时长，对起始语音片段进行语音断句。其中，第一预设数量可以是25个字。需要说明的是，对起始语音片段进行语音断句的方法在步骤S104中已有说明，在此不再赘述。

另外，考虑到用户在说话过程中可能会因为思考而产生较长时间的停顿，因此，在本说明书中除了根据静默时长，对后续的音频数据进行语音断句之外，还可以在静默时长的基础上为用户提供额外的等待用户思考的时长，从而进一步提高语音断句的准确性。

在步骤S106~S108中，可以根据目标用户对应的语言表达习惯参数，确定对目标用户发出的音频数据进行语音断句的静默时长。然后，可以对后续的音频数据中的每个语音片段进行语义分析，得到目标用户发出的截止每个语音片段时的音频数据的语义分析结果。之后，根据目标用户发出的截止每个语音片段时的音频数据的语义分析结果，确定针对每个语音片段的最大静默等待时长。最后，根据静默时长、针对每个语音片段的最大静默等待时长以及语音检测出每个语音片段对应的非语音片段的持续时长，对目标用户后续的音频数据进行语音断句。

其中，语音断句过程中涉及静默时长和最大静默等待时长，但是，静默时长和最大静默等待时长合并后的综合时长应该在针对目标用户的历史音频数据中所有历史非语音片段的平均持续时长前后变化，这样，可以提高语音断句的准确性。因此，在确定静默时长时，可以将目标用户的历史音频数据中所有历史非语音片段的平均持续时长与针对平均持续时长的方差之间的差值，作为静默时长。即，静默时长为

。

在确定出静默时长之后，可以对目标用户后续的音频数据进行语音断句。

具体的，依次针对目标用户后续的音频数据中检测出的每个语音片段，合并该语音片段以及该语音片段之前的其他语音片段，得到合并语音片段，并对合并语音片段进行语义分析，得到针对该语音片段的语义分析结果。然后，根据针对该语音片段的语义分析结果，确定针对该语音片段的最大静默等待时长。之后，根据针对该语音片段的最大静默等待时长以及静默时长，确定针对该语音片段的综合时长。将针对该语音片段的综合时长与该语音片段对应的非语音片段的持续时长进行对比，得到该语音片段对应的对比结果。最后，根据目标用户后续的每个语音片段对应的对比结果，对目标用户后续的音频数据进行语音断句。其中，语义分析可以是指对语音片段的语义完整性进行分析。最大静默等待时长可以是指额外用于等待用户思考的最大时长。

图2为本说明书实施例中提供的表示静默时长和最大静默等待时长的示意图，在图2中，加粗实线的长方形所覆盖的区域为音频数据，将加粗实线的长方形中划分为若干个子长方形，其中，由斜线覆盖的子长方形代表语音片段，空白区域的子长方形代表非语音片段。以持续时长等于综合时长为例，在每个非语音片段的持续时长是由静默时长和最大静默等待时长构成的，且每个非语音片段的持续时长所包含的最大静默等待时长不完全相同，每个非语音片段的持续时长所包含的静默时长相同。

在得到针对该语音片段的语义分析结果时，可以将合并语音片段转换成文本，作为合并文本，然后，对合并文本进行语义分析，得到针对该语音片段的语义分析结果。

此外，除了上述将合并语片段转换成合并文本，对合并文本进行语义分析的方法之外，还可以在确定每个语音片段的语义分析结果时，可以将每个语音片段转换成文本。这样，在确定针对某个语音片段的语义分析结果时，只需要将该语音片段的文本与该语音片段之前的语音片段的文本进行拼接即可。

具体的，依次针对目标用户后续的音频数据中的每个语音片段，将该语音片段转换为文本，作为第一文本。将第一文本与第二文本进行拼接，得到拼接后文本。其中，第二文本是指将该语音片段之前的语音片段进行文本转换所得到的文本。该语音片段之前的语音片段可以是多个。然后，对拼接后文本进行语义分析，得到针对该语音片段的语义分析结果。其中，针对该语音片段的语义分析结果可以是指目标用户发出的截止该语音片段的音频数据所表达的语音内容的语义完整度。

进一步，可以将拼接后文本输入预先训练的语义分析模型中，以通过该语义分析模型输出针对拼接后文本的语义完整度，作为针对该语音片段的语义分析结果。

在根据针对该语音片段的语义分析结果，确定针对该语音片段的最大静默等待时长时，可以根据针对该语音片段的语义分析结果，确定目标用户发出的截止该语音片段的音频数据的语义完整度。然后，根据目标用户发出的截止该语音片段的音频数据的语义完整度，确定针对该语音片段的最大静默等待时长。其中，语义完整度越大，最大静默等待时长越小。

其中，针对最大静默等待时长和语义完整度的公式为：

。

为最大静默等待时长，

为语义完整度，

，E越接近1，语义越完整，E越接近0.5，无法识别出语义是否完整。a和b为可调参数，

为针对目标用户录入的历史音频数据中所有历史非语音片段的平均持续时长的方差。

针对不同的对话场景，a或b可以从

中筛选出符合不同对话场景的参数，比如：

。

在确定针对该语音片段的最大静默等待时长之后，可以将最大静默等待时长与静默时长进行合并，得到综合时长，作为针对该语音片段的综合时长。然后，将综合时长与该语音片段对应的非语音片段的持续时长进行对比，得到该语音片段对应的对比结果。其中，该语音片段对应的非语音片段可以是指在该语音片段之后且最接近该语音片段的非语音片段。

基于上述的公式，若针对该语音片段的语义完整度为0，说明目标用户截止到该语音片段所表述的语音内容的语义不完整，需要为目标用户提供比平均持续时长更长的时长来等待目标用户思考，因此，最大静默等待时长应该处于

之间。若针对该语音片段的语义完整度为1，说明目标用户截止到该语音片段所表述的语音内容的语义完整，可以采用比平均持续时长更短的时长进行语音断句，因此，最大静默等待时长小于

。若针对该语音片段的语义完整度为0.5，说明无法判断出目标用户截止到该语音片段所表述的语音内容的语义是否完整，可以采用平均持续时长进行语音断句，因此，最大静默等待时长等于

。

在对目标用户后续的音频数据进行语音断句时，依次针对目标用户后续的音频数据中识别出的每个语音片段，若根据该语音片段对应的对比结果确定出该语音片段对应的非语音片段的持续时长大于综合时长，则将该语音片段的结束位置作为目标用户语言表述结束的位置，即，一轮对话结束。

若根据该语音片段对应的对比结果确定出该语音片段对应的非语音片段的持续时长不大于所述综合时长，则确定该语音片段对应的文本，作为第一文本，以及确定该语音片段之前的部分语音片段对应的文本，作为第二文本，并将第一文本与第二文本进行拼接，得到拼接后文本。

由于自然语言理解的模型一次所能处理的文字有限，因此，需要检测拼接后文本中的文字数量是否超过第二预设数量，其中，第二预设数量可以是30个字。若拼接后文本中的文字数量大于第二预设数量，将该语音片段的结束位置作为目标用户语言表述结束的位置。若拼接后文本中的文字数量不大于第二预设数量，继续获取下一语音片段，并将下一语音片段对应的非语音片段的持续时长与针对下一语音片段的综合时长进行对比，直到确定出目标用户语言表述结束的位置为止。

在一轮对话结束之后，可以获取对目标用户的音频数据进行语音断句过程中涉及的各综合时长，并根据各综合时长，对预先保存的目标用户对应的语言表达习惯参数进行更新，得到更新后的语言表达习惯参数。

具体的，对各综合时长进行加权求和，得到各综合时长对应的平均值。然后，根据各综合时长对应的平均值，确定各综合时长对应的方差。最后，将各综合时长对应的平均值与目标用户当前的语言表达习惯参数中的第一参数进行加权求和，得到更新后的第一参数。将各综合时长对应的方差与目标用户当前的语言表达习惯参数中的第二参数进行加权求和，得到更新后的第二参数。最后，将更新后的第一参数和更新后的第二参数作为更新后的语言表达习惯参数。

另外，在对每个语音片段进行语义分析之前，可以先对语义分析模型进行有监督训练。

具体的，获取正样本和负样本，将正样本和负样本作为训练样本，其中，正样本是指以句号、感叹号、问号等符号标识为结束标识的完整语句文本，负样本是指不完整的语句文本。然后，将训练样本输入到待训练的语义分析模型中，对语义分析模型进行有监督训练，得到训练后的语义分析模型。

在对语义分析模型进行训练之后，对训练后的语义分析模型进行评价，其中评价指标可以采用均衡准确率（balanced Accuracy）。其中，均衡准确率越大越好。均衡准确率的公式为：

。其中，c为假正例的个数，假正例表示不完整的语句被识别成完整语句，d为假负例的个数，假负例表示完整的语句被识别成不完整语句。

以上为本说明书实施例提供的语音断句方法，基于同样的思路，本说明书还提供了相应的装置、存储介质和电子设备。

图3为本说明书实施例提供的一种语音断句装置的结构示意图，所述装置包括：

获取模块301，用于实时获取目标用户的音频数据；

识别模块302，用于对所述音频数据进行语音检测，得到语音片段和非语音片段；

第一确定模块303，用于根据所述语音片段，确定出与所述目标用户对应的语言表达习惯参数。

第二确定模块304，用于根据所述语言表达习惯参数，确定对所述目标用户发出的音频数据进行语音断句的静默时长。

语音断句模块305，用于根据所述静默时长以及所述非语音片段的持续时长，对所述目标用户后续的音频数据进行语音断句。

可选地，所述语音断句模块305，具体用于依次针对所述目标用户后续的音频数据中的每个语音片段，合并该语音片段以及该语音片段之前的其他语音片段，得到合并语音片段，并对所述合并语音片段进行语义分析，得到针对该语音片段的语义分析结果；根据针对该语音片段的语义分析结果，确定针对该语音片段的最大静默等待时长；根据所述最大静默等待时长以及所述静默时长，确定针对该语音片段的综合时长；将所述综合时长与该语音片段对应的非语音片段的持续时长进行对比，得到该语音片段对应的对比结果；根据所述目标用户后续的每个语音片段对应的对比结果，对所述目标用户后续的音频数据进行语音断句。

可选地，所述识别模块302，具体用于对所述音频数据进行特征提取，得到所述音频数据对应的特征数据；将所述特征数据输入预先训练的语音分类模型中，以通过所述语音分类模型，确定出所述音频数据中包含的语音片段和非语音片段，其中，所述语音分类模型是基于各用户预先录入的历史音频数据所训练得到的。

可选地，所述第一确定模块303，具体用于从所述语音片段中确定出至少部分语音片段，作为起始语音片段；对所述起始语音片段进行特征编码，得到所述起始语音片段对应的声纹码，作为所述目标用户的声纹码；将所述目标用户的声纹码与预先保存的各用户的声纹码进行匹配；若匹配成功，从预先保存的各用户对应的语言表达习惯参数中，查找与所述目标用户对应的语言表达习惯参数；若匹配失败，将预设的语言表达习惯参数确定为与所述目标用户对应的语言表达习惯参数。

可选地，所述语音断句模块305，还用于从所述语音片段中确定出至少部分语音片段，作为起始语音片段；将所述起始语音片段转换成文本，作为起始文本；检测所述起始文本中的文字数量是否大于第一预设数量，若所述起始文本中的文字数量大于第一预设数量，将所述起始语音片段的结束位置作为所述目标用户语言表述结束的位置。

可选地，所述第二确定模块304，具体用于根据针对该语音片段的语义分析结果，确定所述目标用户发出的截止该语音片段时的音频数据的语义完整度；根据所述语义完整度，确定针对该语音片段的最大静默等待时长，其中，所述语义完整度越大，所述最大静默等待时长越小。

可选地，所述语音断句模块305，具体用于依次针对所述目标用户后续的音频数据中的每个语音片段，若根据该语音片段对应的对比结果确定出所述持续时长大于所述综合时长，则将该语音片段的结束位置作为所述目标用户语言表述结束的位置；若该语音片段对应的对比结果确定出所述持续时长不大于所述综合时长，则确定该语音片段对应的文本，作为第一文本，以及确定该语音片段之前的语音片段对应的文本，作为第二文本，并将所述第一文本与第二文本进行拼接，得到拼接后文本；检测所述拼接后文本中的文字数量是否超过第二预设数量；若所述拼接后文本中的文字数量大于第二预设数量，将该语音片段的结束位置作为所述目标用户语言表述结束的位置；若所述拼接后文本中的文字数量不大于第二预设数量，继续获取下一语音片段，并将所述下一语音片段对应的非语音片段的持续时长与针对所述下一语音片段的综合时长进行对比，直到确定出所述目标用户语言表述结束的位置为止。

在实时获取用户的音频数据之前，所述获取模块301还用于，获取各用户的历史音频数据；针对每个用户，对该用户的历史音频数据进行端点检测，得到多个历史非语音片段；根据每个历史非语音片段的持续时长，确定该用户对应的语言表达习惯参数。

本说明书还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可用于执行上述图1提供的语音断句方法。

基于图1所示的语音断句方法，本说明书实施例还提供了图4所示的电子设备的结构示意图。如图4，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的语音断句方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种语音断句方法，其特征在于，所述方法包括：

实时获取目标用户的音频数据；

2.如权利要求1所述的方法，其特征在于，根据所述静默时长以及所述非语音片段的持续时长，对所述目标用户后续的音频数据进行语音断句，具体包括：

3.如权利要求1所述的方法，其特征在于，对所述音频数据进行语音检测，得到语音片段和非语音片段，具体包括：

4.如权利要求1所述的方法，其特征在于，根据所述语音片段，确定出与所述目标用户对应的语言表达习惯参数，具体包括：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

将所述起始语音片段转换成文本，作为起始文本；

6.如权利要求2所述的方法，其特征在于，根据针对该语音片段的语义分析结果，确定针对该语音片段的最大静默等待时长，具体包括：

7.如权利要求2所述的方法，其特征在于，根据所述目标用户后续的每个语音片段对应的对比结果，对所述目标用户后续的音频数据进行语音断句，具体包括：

检测所述拼接后文本中的文字数量是否超过第二预设数量；

8.如权利要求1所述的方法，其特征在于，在实时获取用户的音频数据之前，所述方法还包括：

获取各用户的历史音频数据；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-8任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1-8任一项所述的方法。