CN116975242A

CN116975242A - 语音播报打断处理方法、装置、设备和存储介质

Info

Publication number: CN116975242A
Application number: CN202311235667.5A
Authority: CN
Inventors: 王传奇
Original assignee: Beijing Baiwu Tech Co ltd
Current assignee: Beijing Baiwu Tech Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-10-31

Abstract

本发明实施例提供一种语音播报打断处理方法、装置、设备和存储介质，该方法包括：在人机通话过程中，若在向用户侧播放语音播报音频的过程中检测到用户侧产生的语音信号，则确定语音信号对应的目标文本信息；获取与目标文本信息对应的上文信息，其中，上文信息为在检测到语音信号前于人机通话过程中产生的对话记录；基于上文信息，确定目标文本信息对应的用户意图是否为主观打断播放语音播报音频；若确定出的用户意图为主观打断播放语音播报音频，则停止播放语音播报音频。采用本发明，能够更加智能化地识别用户真正的意图，满足各种场景下的用户的实际需求。

Description

语音播报打断处理方法、装置、设备和存储介质

技术领域

本发明涉及智能客服技术领域，尤其涉及一种语音播报打断处理方法、装置、设备和存储介质。

背景技术

相关技术中，为了节约人力并提高与客户间的沟通效率，一些商家会引入智能客服为用户提供一些简单的咨询服务。其中，智能客服可以理解为是自动问答系统，即当用户向智能客服提出问题时，智能客服可以分析问题并找到相应的答案，接着会以语音播报的形式向用户反馈答案。

在某些场景中，客户会打断智能客服的语音播报过程。比如，客户在智能客服未播报完已得到了自己想要的答案，或者，客户发现智能客服给出的答案方向并不是自己想要的等等。在这样的情况下，客户可以对智能客服说“我已经知道了”等表示要打断语音播报过程的语句，相应地，智能客服可以检测到语音信号。当智能客服检测到语音信号时，智能客服会立即结束当前的语音播报过程。

而并非所有场景下上述打断逻辑都能适用，因此相关技术中的智能客服的智能化程度有待提高，以更好地识别客户的需求。

发明内容

本发明实施例提供一种语音播报打断处理方法、装置、设备和存储介质，用以实现提高智能客服的智能化程度，更好地识别客户的需求。

第一方面，本发明实施例提供一种语音播报打断处理方法，该方法包括：

在人机通话过程中，若在向用户侧播放语音播报音频的过程中检测到用户侧产生的语音信号，则确定所述语音信号对应的目标文本信息；

获取与所述目标文本信息对应的上文信息，其中，所述上文信息为在检测到所述语音信号前于所述人机通话过程中产生的对话记录，所述上文信息中包括由所述语音播报音频转换而来的文本信息；

基于所述上文信息，确定所述目标文本信息对应的用户意图是否为主观打断播放所述语音播报音频；

若确定出的用户意图为主观打断播放所述语音播报音频，则停止播放所述语音播报音频。

第二方面，本发明实施例提供一种语音播报打断处理装置，包括：

确定模块，用于在人机通话过程中，若在向用户侧播放语音播报音频的过程中检测到用户侧产生的语音信号，则确定所述语音信号对应的目标文本信息；

获取模块，用于获取与所述目标文本信息对应的上文信息，其中，所述上文信息为在检测到所述语音信号前于所述人机通话过程中产生的对话记录，所述上文信息中包括由所述语音播报音频转换而来的文本信息；

所述确定模块，用于基于所述上文信息，确定所述目标文本信息对应的用户意图是否为主观打断播放所述语音播报音频；

停止模块，用于若确定出的用户意图为主观打断播放所述语音播报音频，则停止播放所述语音播报音频。

第三方面，本发明实施例提供一种电子设备，其中包括处理器和存储器，其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现第一方面中的语音播报打断处理方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现第一方面中的语音播报打断处理方法。

采用本发明，在人机通话过程中，如果在智能客服向用户侧进行语音播报的过程中检测到用户侧传来了语音信号，则不会立即判定用户想要打断语音播报过程，而是基于检测到的语音信号对应的目标文本信息，同时结合上文信息，对用户意图进行识别，以确认用户是否是主观上要打断语音播报过程。如果用户的确是主观上想要打断语音播报过程，则会停止语音播报。采用这样的方式，能够更加智能化地识别用户真正的意图，满足各种场景下的用户的实际需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音播报打断处理方法的流程示意图；

图2为本发明实施例提供的一种识别用户意图的流程示意图；

图3为本发明实施例提供的一种电话呼入/呼出处理链路示意图；

图4为本发明实施例提供的一种语音播报打断处理装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

实际应用中，为了节约人力并提高与用户间的沟通效率，一些商家会引入智能客服为用户提供一些简单的咨询服务。其中，智能客服可以理解为是自动问答系统，即当用户向智能客服提出问题时，智能客服可以分析问题并找到相应的答案，接着会以语音播报的形式向用户反馈答案。

在某些场景中，用户会打断智能客服的语音播报过程。比如，用户在智能客服未播报完已得到了自己想要的答案，或者，用户发现智能客服给出的答案方向并不是自己想要的等等。在这样的情况下，用户可以对智能客服说“我已经知道了”等表示要打断语音播报过程的语句，相应地，智能客服可以检测到语音信号。当智能客服检测到语音信号时，智能客服会立即结束当前的语音播报过程。

而在某些场景中，用户并非实际要打断智能客服的语音播报过程。比如，用户在收听智能客服播报的过程中又有其他用户和用户交谈了几句，但是对于智能客服来说，在这样的情况下仍然会检测到语音信号。

基于上述检测到语音信号的处理逻辑，智能客服会认为用户不想继续收听语音播报了，此时智能客服会立即结束当前的语音播报，甚至是对用户与其他用户的交谈内容做出不必要的回应。然而实际情况是，用户并未要实际打断智能客服的语音播报过程，用户还未从已播报的内容中完全了解自己想要知道的信息。由此可见，智能客服的智能化程度有待提高，以更好地识别用户的需求。

为了解决上述问题，在本发明实施例中提供了一种语音播报打断处理方法，采用该方法能够更好地识别用户的需求，真正识别出用户是主观上要打断语音播报过程，还是因为其他事件的插入而非主观上要打断语音播报过程。

图1为本发明实施例提供的一种语音播报打断处理方法的流程图，如图1所示，该方法包括如下步骤：

101、在人机通话过程中，若在向用户侧播放语音播报音频的过程中检测到用户侧产生的语音信号，则确定语音信号对应的目标文本信息。

102、获取与目标文本信息对应的上文信息，其中，上文信息为在检测到语音信号前于人机通话过程中产生的对话记录，上文信息中包括由语音播报音频转换而来的文本信息。

103、基于上文信息，确定目标文本信息对应的用户意图是否为主观打断播放语音播报音频。

104、若确定出的用户意图为主观打断播放语音播报音频，则停止播放语音播报音频。

实际应用中，在智能客服向用户播放语音播报音频的过程中，可以实时检测用户侧的语音信号。需要说明的是，该语音信号是指具有一定能量强度的音频信号，产生该语音信号的信号源例如可以是用户说话的过程等等。

如果在播放语音播报音频的过程中检测到了用户侧传来的语音信号，则可以确定该语音信号对应的目标文本信息。具体来说，可以采用音文转换的方式将语音信号转换成对应的目标文本信息。

在另一方面，还可以获取当前的人机通话过程中产生的对话记录，将该对话记录作为上文信息。可以理解的是，在人机通话过程中，智能客服与用户会进行对话，可以将这些对话内容记录下来作为对话记录。

其中，对话记录可以是以文本形式记录的信息。对于智能客服向用户播放的所有语音播报音频来说，其一般是由文本信息转换而来的，所以可以直接记录该文本信息。例如，用户向智能客服询问了A问题，智能客服可以先在数据库中寻找与A问题相匹配的可以作为回答的文本信息，然后再将查找到的文本信息转换为相应的语音播报音频，向用户播放该语音播报音频，而该过程中的查找到的文本信息即可记录为人机通话过程中产生的对话记录。对于在用户侧检测到的语音信号，则需要将其转换为相应的文本信息，并将转换而得的文本信息记录为人机通话过程中产生的对话记录。

在某些可选实施例中，智能客服与用户之间通常可能会进行几轮对话，每轮对话探讨的核心问题不同。基于此，无需将人机通话过程中所有的对话内容都当作上文信息，可以仅将本轮对话的对话内容当作上文信息。

例如，用户询问如何办理S理财，智能客服给出了相应的回答，用户在收听了智能客服的回答之后又继续追问了几个针对智能客服的回答所产生的疑问，相应地，智能客服也对用户新提出的疑问一一进行了作答。在上述过程中，可以从用户提出如何办理S理财开始直至智能客服对用户后续提出的疑问一一作答为止，确定为是一轮对话，而在该轮对话之前或者之后的对话内容不算做该轮对话之内，进而也不作为该轮对话的对话记录。如果在该轮对话中出现了用户打断语音播报过程的事件，则将该轮对话在被打断之前已进行过的对话内容确定为上文信息。

在获取到上文信息之后，可以基于上文信息，检测通过用户侧传来的语音信号转换的目标文本信息对应的用户意图是否为主观打断语音播报过程。具体来说，可以通过上下文识别的方式，判断目标文本信息是否与上文信息具有上下文关联性，进而确定用户意图是否为主观打断语音播报过程。

可选地，如图2所示，基于上文信息，确定目标文本信息对应的用户意图是否为主观打断播放语音播报音频的过程可以包括如下步骤：

201、将上文信息以及目标文本信息输入到预先训练的上下文关联识别模型中，得到目标文本信息与上文信息间的关联度。

其中，目标文本信息与上文信息的关联度反应了目标文本信息是否与上文信息具有上下文关联性，当关联度超过预设阈值时，可以认为目标文本信息与上文信息是具有上下文关联性的。

202、若关联度大于或者等于预设阈值，则确定目标文本信息对应的用户意图是主观打断播放语音播报音频。

203、若关联度小于预设阈值，则确定目标文本信息对应的用户意图不是主观打断播放语音播报音频。

例如，上文信息包括“请问如何办理S理财”、“顾客您好，您可以下载XXX应用，在XXX应用中登录个人账号，然后在主界面中找到理财模块，点击理财模块，在搜索框中输入S理财，查找到该产品，然后点击购买按键进行办理”、“我没有找到理财模块，请问理财模块在哪”……，目标文本信息为“我已经找到理财模块了”，当将上述信息输入到上下文关联识别模型时，上下文关联识别模型可以输出目标文本信息与上文信息之间的关联度。在该示例中，假设得到的关联度为99，该关联度大于预设阈值80，可以判定目标文本信息与上文信息具有上下文关联性，进而可以确定用户说“我已经找到理财模块了”的用户意图是主观打断语音播报过程。

再例如，上文信息包括“请问如何办理S理财”、“顾客您好，您可以下载XXX应用，在XXX应用中登录个人账号，然后在主界面中找到理财模块，点击理财模块，在搜索框中输入S理财，查找到该产品，然后点击购买按键进行办理”、“我没有找到理财模块，请问理财模块在哪”……，目标文本信息为“我明天上午有个重要的会议要参加，恐怕没有时间和你一起完成这个任务了”，当将上述信息输入到上下文关联识别模型时，上下文关联识别模型可以输出目标文本信息与上文信息之间的关联度。在该示例中，假设得到的关联度为10，该关联度小于预设阈值80，可以判定目标文本信息与上文信息不具有上下文关联性，进而可以确定用户说“我明天上午有个重要的会议要参加，恐怕没有时间和你一起完成这个任务了”的用户意图并非是主观打断语音播报过程。

在某些可选实施例中，可以预先训练不同对话场景各自对应的上下文关联识别模型，不同上下文关联识别模型可以专用于针对特定对话场景中的目标文本信息和上文信息做分析以得出它们间的关联度。其中，对话场景例如可以包括订票场景、家电报修场景、银行业务办理场景等等。基于此，将上文信息以及目标文本信息输入到预先训练的上下文关联识别模型中的过程可以实现为：基于上文信息，确定当前的对话场景；在多个预先训练的上下文关联识别模型中，确定与当前的对话场景对应的上下文关联识别模型；将上文信息以及目标文本信息输入到确定出的上下文关联识别模型中。

实际应用中，可以基于上文信息识别出当前的对话场景。或者，在智能客服与用户间在初始几轮对话的过程中，可以基于初始几轮的对话内容识别出当前的对话场景。在识别出当前的对话场景之后，可以在多个上下文关联识别模型中，确定与当前的对话场景对应的上下文关联识别模型，然后将上文信息以及目标文本信息输入到该确定出的上下文关联识别模型中。通过上下文关联识别模型输出的关联度，确定目标文本信息与上文信息是否具有上下文关联性，进而识别用户意图。

需要说明的是，为了获得上述与不同对话场景对应的上下文关联识别模型，在实际使用它们之前，可以先收集大量的对应于不同对话场景的数据样本。接着，可以对数据样本进行预处理，该预处理可以包括对数据样本进行清洗、标注、数据格式转换等等。在完成预处理之后，可以通过不同对话场景的数据样本训练相应的上下文关联识别模型，通过不同对话场景的数据样本训练的不同上下文关联识别模型可以各自专用于识别特定对话场景下的信息的关联度。此外，为了进一步提高上述模型识别信息间的关联度的准确性，可以在使用这些模型的过程中通过新收集的数据样本不断对模型进行改进优化，以提升模型的线上预测表现能力。

在某些可选实施例中，为了提高识别用户意图的识别效率，在基于上述上下文关联识别模型识别信息间的关联度之前，可选地，还可以判断目标文本信息中是否包括具有主观打断含义的关键字；若目标文本信息中包括关键字，则确定目标文本信息对应的用户意图是主观打断播放语音播报音频；若目标文本信息中不包括关键字，则将上文信息以及目标文本信息输入到预先训练的上下文关联识别模型中。

实际应用中，可以预先设置好具有主观打断含义的关键字，然后在获取到目标文本信息后，可以直接将目标文本信息与设置好的关键字进行比较匹配。如果确定出目标文本信息中包括具有主观打断含义的关键字，则可以直接确定目标文本信息对应的用户意图是主观打断播放语音播报音频。如果确定出目标文本信息中不包括上述关键字，则可以进一步将目标文本信息和上文信息输入到上下文关联识别模型中进行关联度识别。

其中，具有主观打断含义的关键字例如可以是“我已经了解了”、“我已经清楚了”、“我知道了”、“请问……”等等。

采用上述方案，在通过上下文关联识别模型进行信息间的关联度的识别之前，可以直接通过检测关键字的方式对用户意图进行预判断，如果预判断出用户意图就是主观打断语音播报过程，则可以跳过计算关联度的过程。进而采用这样的方案，可以提高识别用户意图的识别效率。

在另外的可选实施例中，可选地，在进行用户意图识别之前，还可以获取商家输入的配置信息，其中，配置信息用于指示是否进行主观打断意图识别；若通过配置信息确定出需要进行主观打断意图识别，则基于上文信息，确定目标文本信息对应的用户意图是否为主观打断播放语音播报音频；若通过配置信息确定出不需要进行主观打断意图识别，则在人机通话过程中，若在向用户侧播放语音播报音频的过程中检测到语音信号，则停止播放语音播报音频。

实际应用中，可以向引入智能客服功能的商家提供设置是否进行用户意图识别的接口，商家可以通过该接口设置是否进行用户意图识别。或者，是否进行用户意图识别的功能也可以由技术人员进行设置。具体来说，可以显示配置界面，商家可以在配置界面中输入是否启用用户意图识别功能。响应于商家的输入操作，可以获取相应的配置信息。如果该配置信息指示启用用户意图识别功能，则基于上文信息，确定目标文本信息对应的用户意图是否为主观打断播放语音播报音频。如果该配置信息指示禁用用户意图识别功能，则在人机通话过程中，当在向用户侧播放语音播报音频的过程中检测到语音信号时，停止播放语音播报音频。即在商家配置了禁用用户意图识别功能的情况下，即使在向用户侧播放语音播报音频的过程中检测到了用户侧传来的语音信号，直接默认为用户想要打断语音播报过程，进而停止播放语音播报音频，不再做进一步的用户意图识别。

在本发明实施例中，如果启用了用户意图识别功能，并且确定出用户意图为主观打断语音播报过程，则需要停止播放语音播报音频。在停止播放语音播报音频之后，可以进一步检测用户接下来说的话，用户所说的内容同样会以语音信号的形式被接收，进而可以将新接收到的语音信号转换为文本信息，然后基于该文本信息查找与用户所说的内容相匹配的回答。

在另一方面，如果确定出用户意图并非是主观打断语音播报过程，则需要暂停播放语音播报音频，同时还可以记录暂停播放语音播报音频时的播报断点。该暂停播报的处理与停止播报的处理之间的区别是，如果是停止播报，则后续不会再恢复当前的播报，而如果是暂停播报，则后续还会在检测到预设播报启动事件时，基于播报断点继续播放语音播报音频。其中，预设播报启动事件例如是检测到了用户侧有很长一段时间没有传来语音信号了，或者检测到用户说出了具有继续播报含义的关键字等等。

可以理解的是，由于当用户并非在主观上想要打断语音播报过程，只是可能有突发事件打断了人机通话的过程，那么用户并不想结束当前的会话，因此可以暂停播放语音播报音频，待用户处理完突发事件之后，再继续播放语音播报音频。而如果直接停止播放语音播报音频，可能会导致用户想要收听的内容并未完全被用户接收到。例如，用户向智能客服问了一个问题，智能客服针对该问题做出了相应地回答，但是在用户收听该回答的过程中由于处理突发事件未听清智能客服的回答，用户的疑问还未得到解决，在这样的情况下，如果直接停止播放语音播报音频，会导致用户需要重复进行提问，智能客服需要重新分析用户的提问进行作答，进而会产生沟通效率低的问题。

值得注意的是，在本发明实施例中，在需要恢复语音播报过程时，可以不完全重新完整播放一遍之前的语音播报音频，因为在语音播报过程被打断之前，用户可能已经收听了一段内容，这段已经播过的内容无需再次播报给用户。如前文所述，在语音播报过程被打断时，可以记录下播报断点，如记录下已经播放到语音播报音频中的第D时刻。当需要恢复播报时，可选地，可以从播报断点起始继续播放语音播报音频；或，在语音播报音频中确定在播报断点前预设时长的播报续点；从播报续点起始继续播放语音播报音频。

实际应用中，假设语音播报音频在播放到第D时刻被打断，在恢复播报时，可以从D时刻向前推预设时长，即向前确定到（D-预设时长）时刻，从确定出的时刻继续播放语音播报音频。可以理解的是，通过向前推一段时长的方式，可以帮助用户短暂恢复一下对之前的对话内容的记忆，将用户拉入到之前的对话中来，进而让用户能快速、清楚地了解到智能客服的回答内容。

在本发明实施例的另一方面，需要说明的是，实际应用中对用户侧的音频采集的过程是持续进行的，无论用户侧有无声音，都会持续采集用户侧的音频信号。当用户开始说话时，可以将在这种情况下采集到的音频信号作为语音信号，当用户没有说话时，可以将在这种情况下采集到的音频信号作为静音信号。而对静音信号的识别是判断用户当前的说话内容是否结束的判断标志，当检测到用户结束了当前的说话内容之后，表示用户想要智能客服给出相应的回答了，那么智能客服就要分析接收到的与用户当前的说话内容对应的语音信号了，进而才能给出相应的回答。

在本发明实施例中，给出一种判断用户开始说话到用户结束当前的说话内容的判断方式。可选地，该判断方式可以包括：采集环境中的音频信号；将音频信号以每预设单位时长切分为多个音频帧；若任一音频帧的信号强度不满足预设静音强度条件，则确定任一音频帧为语音音频帧；若任一音频帧的信号强度满足预设静音强度条件，则确定任一音频帧为静音音频帧；基于音频信号中的语音音频帧以及静音音频帧，确定音频信号中的语音信号。

实际应用中，可以持续采集用户侧的音频信号。在分析音频信号的过程中，由于音频信号的持续时长是非常长的，几乎贯穿了整个人机通话过程，因此不便于进行分析处理。基于此，可以先按照预设单位时长对音频信号进行切分，这样可以得到多个音频帧。即每当采集到预设单位时长的音频信号时，就将其保存为一个音频帧，可以以音频帧为单位进行对音频信号的分析处理。

在对单个音频帧进行分析的过程中，可以判断当前的音频帧的信号强度是否满足预设静音强度条件。在某些可选实施例中，可以计算当前的音频帧的信号强度的平均值等，然后判断当前的音频帧的信号强度的平均值是否低于预设阈值。如果当前的音频帧的信号强度的平均值低于预设阈值，则可以确定当前的音频帧所涵盖的声音能量较弱，为静音音频帧。相应地，如果当前的音频帧的信号强度的平均值大于或者等于预设阈值，则可以确定当前的音频帧所涵盖的声音能量较强，为语音音频帧。然后，可以基于音频信号中的语音音频帧以及静音音频帧，识别出音频信号中的语音信号。

可选地，上述基于音频信号中的语音音频帧以及静音音频帧，确定音频信号中的语音信号的过程可以实现为：当在音频信号中检测到第一个语音音频帧时，确定是否能够连续接收到第一预设数量的语音音频帧；若能够连续接收到第一预设数量的语音音频帧，则将第一预设数量的语音音频帧、以及在第一预设数量的语音音频帧之后接收到的音频帧，确定为构成语音信号的音频帧，直到在音频信号中检测到满足截止条件的静音音频帧。

实际应用中，可以将任一音频帧表示为frame，可以将音频信号中包括的音频帧放入队列中，队列最大长度可以设置，如可以设置为120，那么该队列至多可以放入120个音频帧。假设单个音频帧的长度为20ms，那么该队列至多可以放入长度为120×20ms=2400ms的音频数据。

在音频信号中检测到第一个语音音频帧的含义是指在检测到第一个语音音频帧的前面应是静音信号。在检测到第一个语音音频帧开始进行计数，如果能够连续检测到第一预设数量的语音音频帧（包含第一个语音音频帧），或者如果能够连续检测到第一预设长度的语音音频帧（包含第一个语音音频帧），则表示用户侧开始说话了，进而可以将第一预设数量的语音音频帧以及在第一预设数量的语音音频帧之后接收到的音频帧，存入新创建的语音文件（该语音文件中存储的数据即为语音信号对应的语音数据），同时还可以将vad_status设置为1，表示开始接收用户侧的语音信号了。当在音频信号中检测到满足截止条件的静音音频帧时，表示用户侧结束说话了，可以关闭上述语音文件。

为了便于理解上述检测语音信号的过程，举例来说，假设单个音频帧的长度为20ms，如果能够连续检测到5个语音音频帧，或者如果能够连续检测到100ms的语音音频帧，则可以确认用户侧开始说话了，进而可以将该100ms以及在其后接收到的音频帧存入语音文件，直到检测到满足截止条件的静音音频帧时关闭语音文件。

在某些可选实施例中，可以设置上述第一预设数量或者第一预设长度可调，可以将第一预设数量或者第一预设长度表示为参数voicems，通过配置参数voicems，能够调节在什么样的情况下算作用户侧开始说话。比如说，将参数voicems调节为60ms，那么当连续检测到60ms的语音音频帧时，就可以认为是用户侧开始说话了，进而触发执行上述制作语音文件的逻辑。

可选地，上述在音频信号中检测到满足截止条件的静音音频帧的过程可以实现为：确定是否能够连续接收到第二预设数量的静音音频帧；若能够连续接收到第二预设数量的静音音频帧，则确定在音频信号中检测到了满足截止条件的静音音频帧。

在向语音文件写入数据的过程中，持续检测是否能够连续接收到第二预设数量的静音音频帧，或者持续检测是否能够连续接收到第二预设长度的静音音频帧，如果可以，则确定在音频信号中检测到了满足截止条件的静音音频帧，进而可以关闭语音文件，同时还可以将vad_status设置为0，表示可以将语音文件送入语音识别流程了。

举例来说，假设单个音频帧的长度为20ms，如果能够连续检测到40个静音音频帧，或者如果能够连续检测到800ms的静音音频帧，则可以确认用户侧结束说话了，进而可以关闭语音文件。

在某些可选实施例中，可以设置上述第二预设数量或者第二预设长度可调，可以将第二预设数量或者第二预设长度表示为参数sliencems，通过配置参数sliencems，能够调节在什么样的情况下算作用户侧结束说话。比如说，将参数sliencems调节为400ms，那么当连续检测到400ms的静音音频帧时，就可以认为是用户侧结束说话了，进而触发执行关闭语音文件的逻辑。

在某些可选实施例中，为了进一步提高识别任一音频帧是语音音频帧还是静音音频帧的识别准确度，在实际进行识别之前，可选地，还可以基于预先设定的降噪级别强度，对任一音频帧进行降噪处理。采用这样的方式，可以去除音频帧中的噪音成分，以防止将噪音成分误识别为语音音频帧。

其中，上述降噪级别强度可以表示为noiselevel，当将noiselevel的数值设置的较大时，相应的降噪力度较大，当将noiselevel的数值设置的较小时，相应的降噪力度较小。可以根据实际经验设置该值：如果将该值设置的较大，则可能会在一定程度上去除音频帧中的语音成分，导致语音识别不准确，如果将该值设置的较小，则可能无法将噪音成分去除干净。

实际应用中，可以调用vad_check(noiselevel,frame)函数，对单个音频帧进行处理。通过该函数，可以自动对输入的音频帧frame按照设定的noiselevel进行降噪处理。同时在降噪之后，可以对音频帧frame进行识别判定。如果确定音频帧frame是语音音频帧，则返回1，如果确定音频帧frame是静音音频帧，则返回0，将返回的结果写入vad_result。

在本发明实施例的另外一方面，提供一种电话呼入的接入方式。如图3所示，当用户侧呼入电话时，电话会接入到呼叫中心，用户侧和呼叫中心之间的通话为双向RTP（Real-time Transport Protocol，实时传输协议），即存在两路音频，一路为从用户侧到呼叫中心的，另一路为从呼叫中心到用户侧的。

在呼叫中心中，可以对原始的双向RTP进行分流，从中分得从用户侧到呼叫中心的一路音频，作为单向旁路RTP，然后对该单向旁路RTP进行复制，将复制后的结果传入语音识别系统，通过语音识别系统可以对该复制后的结果进行监听语音、静音检测、语音识别、打断检测、发送事件等处理。

在另一方面，在呼叫中心中，还可以将原始的双向RTP送入语音合成系统，通过语音合成系统，可以实现接收事件、解析事件、文本机器人交互、语音合成等功能。

值得注意的是，上面介绍了由用户侧呼入呼叫中心的音频信号处理链路，而由呼叫中心呼出至用户侧的音频信号处理链路与呼入的链路是相同的，在此不再重复说明，可以参考呼入的链路。

采用本发明，在人机通话过程中，如果在智能客服向用户侧进行语音播报的过程中检测到用户侧传来了语音信号，则不会立即判定用户想要打断语音播报过程，而是基于检测到的语音信号对应的目标文本信息，同时结合上文信息，对用户意图进行识别，以确认用户是否是主观上要打断语音播报过程。如果用户的确是主观上想要打断语音播报过程，则会停止语音播报。如果用户并非主观上要打断语音播报过程，则会暂停语音播报，同时后续在合适的时机还会恢复语音播报，在暂停语音播报的过程中智能客服也不会对用户侧传来的语音信号做出回应。采用这样的方式，能够更加智能化地识别用户真正的意图，满足各种场景下的用户的实际需求。

以下将详细描述本发明的一个或多个实施例的语音播报打断处理装置。本领域技术人员可以理解，这些语音播报打断处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图4为本发明实施例提供的一种语音播报打断处理装置的结构示意图，如图4所示，该装置包括：

确定模块41，用于在人机通话过程中，若在向用户侧播放语音播报音频的过程中检测到用户侧产生的语音信号，则确定所述语音信号对应的目标文本信息；

获取模块42，用于获取与所述目标文本信息对应的上文信息，其中，所述上文信息为在检测到所述语音信号前于所述人机通话过程中产生的对话记录，所述上文信息中包括由所述语音播报音频转换而来的文本信息；

所述确定模块41，用于基于所述上文信息，确定所述目标文本信息对应的用户意图是否为主观打断播放所述语音播报音频；

停止模块43，用于若确定出的用户意图为主观打断播放所述语音播报音频，则停止播放所述语音播报音频。

可选地，所述装置还包括暂停模块，所述暂停模块，用于：

若确定出的用户意图不是主观打断播放所述语音播报音频，则暂停播放所述语音播报音频并记录暂停播放所述语音播报音频时的播报断点；

当检测到预设播报启动事件时，基于所述播报断点继续播放所述语音播报音频。

可选地，所述暂停模块，用于：

从所述播报断点起始继续播放所述语音播报音频；或，

在所述语音播报音频中确定在所述播报断点前预设时长的播报续点；从所述播报续点起始继续播放所述语音播报音频。

可选地，所述确定模块41，用于：

将所述上文信息以及所述目标文本信息输入到预先训练的上下文关联识别模型中，得到所述目标文本信息与所述上文信息间的关联度；

若所述关联度大于或者等于预设阈值，则确定所述目标文本信息对应的用户意图是主观打断播放所述语音播报音频；

若所述关联度小于所述预设阈值，则确定所述目标文本信息对应的用户意图不是主观打断播放所述语音播报音频。

可选地，所述装置还包括预判断模块，所述预判断模块，用于：

判断所述目标文本信息中是否包括具有主观打断含义的关键字；

若所述目标文本信息中包括所述关键字，则确定所述目标文本信息对应的用户意图是主观打断播放所述语音播报音频；

若所述目标文本信息中不包括所述关键字，则将所述上文信息以及所述目标文本信息输入到预先训练的上下文关联识别模型中。

可选地，所述确定模块41，用于：

基于所述上文信息，确定当前的对话场景；

在多个预先训练的上下文关联识别模型中，确定与所述当前的对话场景对应的上下文关联识别模型；

将所述上文信息以及所述目标文本信息输入到确定出的上下文关联识别模型中。

可选地，所述确定模块41，还用于：

采集环境中的音频信号；

将所述音频信号以每预设单位时长切分为多个音频帧；

若任一音频帧的信号强度不满足预设静音强度条件，则确定所述任一音频帧为语音音频帧；

若任一音频帧的信号强度满足所述预设静音强度条件，则确定所述任一音频帧为静音音频帧；

基于所述音频信号中的语音音频帧以及静音音频帧，确定所述音频信号中的所述语音信号。

可选地，所述确定模块41，还用于：

当在所述音频信号中检测到第一个语音音频帧时，确定是否能够连续接收到第一预设数量的语音音频帧；

若能够连续接收到所述第一预设数量的语音音频帧，则将所述第一预设数量的语音音频帧、以及在所述第一预设数量的语音音频帧之后接收到的音频帧，确定为构成所述语音信号的音频帧，直到在所述音频信号中检测到满足截止条件的静音音频帧。

可选地，所述确定模块41，还用于：

基于预先设定的降噪级别强度，对所述任一音频帧进行降噪处理。

图4所示装置可以执行前述图1至图3所示实施例中提供的语音播报打断处理方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图4所示语音播报打断处理装置的结构可实现为一电子设备，如图5所示，该电子设备可以包括：处理器91、存储器92。其中，所述存储器92上存储有可执行代码，当所述可执行代码被所述处理器91执行时，使所述处理器91至少可以实现如前述图1至图3所示实施例中提供的语音播报打断处理方法。

可选地，该电子设备中还可以包括通信接口93，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述图1至图3所示实施例中提供的语音播报打断处理方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明实施例提供的语音播报打断处理方法可以由某种程序/软件来执行，该程序/软件可以由网络侧提供，前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中，并在其需要执行前述语音播报打断处理方法时，通过CPU将该程序/软件读取到内存中，进而由CPU执行该程序/软件以实现前述实施例中所提供的语音播报打断处理方法，执行过程可以参见前述图1至图3中的示意。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音播报打断处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述播报断点继续播放所述语音播报音频，包括：

从所述播报断点起始继续播放所述语音播报音频；或，

4.根据权利要求1所述的方法，其特征在于，所述基于所述上文信息，确定所述目标文本信息对应的用户意图是否为主观打断播放所述语音播报音频，包括：

5.根据权利要求4所述的方法，其特征在于，在将所述上文信息以及所述目标文本信息输入到预先训练的上下文关联识别模型中之前，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述将所述上文信息以及所述目标文本信息输入到预先训练的上下文关联识别模型中，包括：

基于所述上文信息，确定当前的对话场景；

7.根据权利要求1所述的方法，其特征在于，在确定所述语音信号对应的目标文本信息之前，所述方法还包括：

采集环境中的音频信号；

将所述音频信号以每预设单位时长切分为多个音频帧；

8.根据权利要求7所述的方法，其特征在于，所述基于所述音频信号中的语音音频帧以及静音音频帧，确定所述音频信号中的所述语音信号，包括：

9.根据权利要求7所述的方法，其特征在于，在判断任一音频帧的信号强度是否满足预设静音强度条件之前，所述方法还包括：

10.一种语音播报打断处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-9中任一项所述的语音播报打断处理方法。

12.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-9中任一项所述的语音播报打断处理方法。