CN114070935A

CN114070935A - 一种智能外呼打断方法及系统

Info

Publication number: CN114070935A
Application number: CN202210029157.1A
Authority: CN
Inventors: 孟祥如; 张韶峰; 程鹏辉
Original assignee: Bairong Zhixin Beijing Credit Investigation Co Ltd
Current assignee: Bairong Zhixin Beijing Technology Co ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-02-18
Anticipated expiration: 2042-01-12
Also published as: CN114070935B

Abstract

本发明公开了一种智能外呼打断方法及系统,涉及人工智能领域，其中，所述方法包括：抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；获得第一累加计数规则；根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；通过FreeSwitch根据所述第一事件判断结果进行打断控制。解决了现有技术中的进行智能外呼过程机器人的打断控制不能很好地与场景结合，进而使得打断不够智能准确、场景适应性不强的技术问题。

Description

一种智能外呼打断方法及系统

技术领域

本发明涉及人工智能领域，具体地，涉及一种智能外呼打断方法及系统。

背景技术

智能外呼过程是一个机器人和客户循环对话的过程。智能外呼机器人的工作原理是通过真人式模拟销售或客服专家，与客户进行多轮互动，高效率的沟通交流。具有自动拨打、自动应答、自动分类、语音与文字同时记录且方便追踪等优势。理想的智能外呼过程是一问一答，问完即答。现实情况很难达到理想状态，实际智能外呼过程中常常出现一问提前答、一问多答、一问不答等异常场景。研究设计一种优化智能外呼过程的打断方法，具有重要的现实意义。

但本申请在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术存在进行智能外呼过程机器人的打断控制不能很好地与场景结合，进而使得打断不够智能准确、场景适应性不强的技术问题。

发明内容

本申请实施例提供了一种智能外呼打断方法及系统，解决了现有技术中的进行智能外呼过程机器人的打断控制不能很好地与场景结合，进而使得打断不够智能准确、场景适应性不强的技术问题。

鉴于上述问题，本申请实施例提供了一种智能外呼打断方法及系统。

一方面，本申请实施例提供了一种智能外呼打断方法，其中，所述方法应用于一种智能外呼打断系统，所述方法包括：抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；获得第一累加计数规则；根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；通过FreeSwitch根据所述第一事件判断结果进行打断控制。

另一方面，本申请还提供了一种智能外呼打断系统，其中，所述系统包括：第一获得单元：所述第一获得单元用于抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；第二获得单元：所述第二获得单元用于根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；第三获得单元：所述第三获得单元用于获得第一累加计数规则；第四获得单元：所述第四获得单元用于根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；第五获得单元：所述第五获得单元用于根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；第一执行单元：所述第一执行单元用于通过FreeSwitch根据所述第一事件判断结果进行打断控制。

第三方面，本申请实施例提供了一种智能外呼打断设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；获得第一累加计数规则；根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；通过FreeSwitch根据所述第一事件判断结果进行打断控制。通过抽取WebRTC的VAD模块，移植到UniMRCP，再配合FreeSwitch实现打断效果。达到了使打断过程具有较强的场景适应性，单Package检测模块，能自动根据场景调整高斯混合模型的均值和方差参数；同时，具有良好的真实打断效果，在测试过程中，通过不断调整参数，比对效果，给定工作模式。这些模式对应的参数有些许差别。当前端业务场景发生变化，通过工作模式改变，进一步增强环境适应性的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例一种智能外呼打断方法的流程示意图；

图2为本申请实施例一种智能外呼打断方法中当所述第一非人声累加结果满足所述第一非人声累加阈值时，将所述第一事件判断结果输出为静音事件的流程示意图；

图3为本申请实施例一种智能外呼打断方法中当所述第一人声累加结果满足所述第一人声累加阈值时，将所述第一事件判断结果输出为开始说话事件的流程示意图；

图4为本申请实施例一种智能外呼打断方法中根据所述第一内部状态转换结果获得所述第一事件判断结果的流程示意图；

图5为本申请实施例一种智能外呼打断系统的结构示意图；

图6为本申请实施例示例性电子设备的结构示意图。

具体实施方式

本申请实施例通过提供一种智能外呼打断方法及系统，解决了现有技术中的进行智能外呼过程机器人的打断控制不能很好地与场景结合，进而使得打断不够智能准确、场景适应性不强的技术问题。通过抽取WebRTC的VAD模块，移植到UniMRCP，再配合FreeSwitch实现打断效果。达到了使打断过程具有较强的场景适应性，单Package检测模块，能自动根据场景调整高斯混合模型的均值和方差参数；同时，具有良好的真实打断效果，在测试过程中，通过不断调整参数，比对效果，给定工作模式。这些模式对应的参数有些许差别。当前端业务场景发生变化，通过工作模式改变，进一步增强环境适应性的技术效果。

下面，将参考附图详细的描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供一种智能外呼打断方法，其中，所述方法应用于一种智能外呼打断系统，所述方法包括：抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；获得第一累加计数规则；根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；通过FreeSwitch根据所述第一事件判断结果进行打断控制。

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

请参阅附图1，本申请实施例提供一种智能外呼打断方法，其中，所述方法应用于一种智能外呼打断系统，所述方法具体包括如下步骤：

步骤S100：抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；

具体而言，所述第一移植结果是指将WebRTC的VAD模块移植至UniMRCP，获得的移植结果。其中，所述WebRTC源自网页实时通信(Web Real-Time Communication)的缩写，是一个支持网页浏览器进行实时语音对话或视频对话的技术，现在WebRTC技术内置于浏览器中，用户不需要使用任何插件或者软件就能通过浏览器来进行实时通信，十分方便灵活。所述VAD模块即语音激活检测（Voice ActivityDetection）模块，在语音信号处理中，例如语音增强，语音识别等领域有着非常重要的应用。它的作用是从一段语音（纯净或带噪声）信号中标识出语音片段与非语音片段。例如，当检测到语音时输出为1；否则，输出为0。所述UniMRCP是MRCP客户端和服务器的开源跨平台实现。媒体资源控制协议（MediaResourceControl Protocol, MRCP）是一种通讯协议，用于媒体资源服务器向客户端提供各种语音服务，目前已定义的媒体资源服务有语音识别、语音合成、录音、说话人鉴别和确认。通过WebRTC的VAD模块替代UniMRCP自带的VAD模块，达到了排除环境噪声的干扰，精确识别语音片段与非语音片段，增强适应性的技术效果。

步骤S200：根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；

具体而言，在获得所述第一移植结果的基础上，进而对其进行单Package数据检测分析，可以获得第一检测分析结果。其中，所述单Package数据是指时长20ms，160帧的能量。采用高斯正态分布检测每个Package的数据。用到的技术包括频谱子带划分，高斯混合模型，假设检验，极大似然估计。根据噪音概率和信号概率比值，给出人声或非人声的结论，单个Package数据输出噪音0或人声1，即为第一检测分析结果。同时，单Package检测模块能自动根据场景调整高斯混合模型的均值和方差参数，具有较强的场景适应性。达到了进一步将语音信号以Package为单元处理，并明确该单个Package数据为人声或非人声（噪音），为后续获得第一累加计数规则奠定基础的技术效果。

步骤S300：获得第一累加计数规则；

步骤S400：根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；

具体而言，在获得第一检测分析结果的基础上，由于单个Package的20ms的数据不足以决定是否打断。例如，在1000ms的噪音信号里，突然出现20ms的人声是很正常的情况。所以要分别对人声或非人声信号进行累计。所述第一累加计数规则即分别对人声或非人声的Package数量进行连续累加。在所述第一累加计数规则下，对所述第一检测分析结果进行累加，进而得到第一人声累加结果和第一非人声累加结果。所述第一人声累加结果表示声音信号为人声的单个Package数据的数量。所述第一非人声累加结果表示声音信号为非人声的单个Package数据的数量。达到了明确人声或非人声的单个Package数据的数量，为后续进行内部状态转换提供数据支持的技术效果。

步骤S500：根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；

步骤S600：通过FreeSwitch根据所述第一事件判断结果进行打断控制。

具体而言，在获得所述第一人声累加结果和所述第一非人声累加结果的基础上，然后切换内部状态。在不同的状态，抛不同的内部事件，可以得出第一事件判断结果。其中，所述内部状态转换是指ACTIVITY状态、INACTIVITY状态、ACTIVITY TRANSITION状态、INACTIVITY TRANSITION状态四种内部状态之间的转换。所述第一事件判断结果是指该事件为静音事件或开始说话事件。进而，遵循所述第一事件判断结果通过FreeSwitch进行打断控制。其中，所述FreeSwitch是一个电话的软交换解决方案，包括一个软电话和软交换机用以提供语音和聊天的产品驱动。FreeSwitch可以用作交换机引擎、PBX（Private BranchExchange，用户级交换机）、多媒体网关以及多媒体服务器等。FreeSwitch提供了一个跨平台的开源电话交换平台，具有很强的伸缩性。旨在为音频、视频、文字或任何其他形式的媒体，提供路由和互连通信协议。达到了在测试过程中，通过FreeSwitch分别对静音事件和开始说话事件进行打断控制，并比对打断效果，当前端业务场景发生变化，进一步增强环境适应性，获得良好的真实打断控制的技术效果。

进一步的，如附图2所示，本申请实施例步骤S500还包括：

步骤S510：获得第一非人声累加阈值；

步骤S520：判断所述第一非人声累加结果是否满足所述第一非人声累加阈值；

步骤S530：当所述第一非人声累加结果满足所述第一非人声累加阈值时，将所述第一事件判断结果输出为静音事件。

具体而言，在根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果时，根据获得的第一非人声累加阈值，判断所述第一非人声累加结果是否满足所述第一非人声累加阈值。其中，所述第一非人声累加阈值是指输出静音事件时，连续检测到的最少的非人声Package的数量。例如，至少需要连续检测到50个Package为非人声，才能输出静音事件，50个非人声Package即为第一非人声累加阈值。进而，当所述第一非人声累加结果满足所述第一非人声累加阈值时，即非人声的单个Package数据的数量大于或等于所述第一非人声累加阈值时，将所述第一事件判断结果输出为静音事件。达到了科学且快速的识别静音事件，提高工作效率，为后续根据所述第一识别结果开始下一轮话术提供数据支持的技术效果。

进一步的，本申请实施例步骤S600还包括：

步骤S610：当所述FreeSwitch接收的所述第一事件判断结果为所述静音事件时，对所述第一检测分析结果进行ASR识别，获得第一识别结果；

步骤S620：根据所述第一识别结果开始下一轮话术。

具体而言，在通过FreeSwitch根据所述第一事件判断结果进行打断控制时，当所述FreeSwitch接收的所述第一事件判断结果为所述静音事件时，通过对所述第一检测分析结果进行ASR识别，可以获得第一识别结果。其中，所述FreeSwitch是一个电话的软交换解决方案，包括一个软电话和软交换机用以提供语音和聊天的产品驱动。所述第一检测分析结果是指采用高斯正态分布检测每个Package的数据，根据噪音概率和信号概率比值，给出人声或非人声的结论，单个Package数据输出噪音0或人声1。所述ASR识别是指自动语音识别技术（Automatic Speech Recognition），它是一种将声音转换为文字的技术。所述第一识别结果是指从所述第一检测分析结果中获得的文字信息。进而，根据所述第一识别结果开始下一轮话术，即当所述FreeSwitch接收的所述第一事件判断结果为所述静音事件时，获得第一识别结果为空白的文字信息，由此开始下一轮对话。达到了通过ASR识别进一步准确判断静音事件，从而快速开启下一轮对话的技术效果。

进一步的，如附图3所示，本申请实施例步骤S500还包括：

步骤S540：获得第一人声累加阈值；

步骤S550：判断所述第一人声累加结果是否满足所述第一人声累加阈值；

步骤S560：当所述第一人声累加结果满足所述第一人声累加阈值时，将所述第一事件判断结果输出为开始说话事件。

具体而言，在根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果时，根据获得的第一人声累加阈值，判断所述第一人声累加结果是否满足所述第一人声累加阈值。其中，所述第一人声累加阈值是指输出开始说话事件时，连续检测到的最少的人声Package的数量。例如，至少需要连续检测到15个Package为人声，才能输出开始说话事件，15个人声Package即为第一人声累加阈值。进而，当所述第一人声累加结果满足所述第一人声累加阈值时，即人声的单个Package数据的数量大于或等于所述第一人声累加阈值时，将所述第一事件判断结果输出为开始说话事件。达到了自动快速识别开始说话事件，提高工作效率，为后续进行打断处理奠定基础的技术效果。

进一步的，本申请实施例步骤S600还包括：

步骤S630：当所述FreeSwitch接收的所述第一事件判断结果为所述开始说话事件时，判断机器人的当前对话是否为首轮对话；

步骤S640：当所述机器人的当前对话为首轮对话时，则不进行打断处理。

具体而言，在通过FreeSwitch根据所述第一事件判断结果进行打断控制时，当所述FreeSwitch接收的所述第一事件判断结果为所述开始说话事件时，判断机器人的当前对话是否为首轮对话。如果所述机器人的当前对话为首轮对话，不进行打断处理，即首轮不可打断。例如，假设机器人播放首轮对话需要时间为10秒，则首轮不可打断时间为10秒。机器人播放首轮对话完成之前，不进行单Package数据检测分析。实际业务中，机器人一定要在第一时间表述完整意图，首轮对话不可打断。达到了向用户表述完整意图，提升用户体验感的技术效果。

进一步的，本申请实施例步骤S630还包括：

步骤S631：当所述机器人的当前对话不为首轮对话时，获得第一不可打断时间；

步骤S632：当所述开始说话事件的判断时间节点不满足所述第一不可打断时间时，对当前播放进行打断处理。

具体而言，在所述FreeSwitch接收的所述第一事件判断结果为所述开始说话事件，判断机器人的当前对话是否为首轮对话时，当所述机器人的当前对话不为首轮对话，可以获得第一不可打断时间。其中，所述第一不可打断时间是指首轮对话之后，其他轮不能进行打断处理的时间范围。例如，其他轮3秒内不可打断。即其他轮，机器人开始播放对话内前3秒，不能对其进行打断处理和单Package数据检测分析。进而，当所述开始说话事件的判断时间节点不满足所述第一不可打断时间，即所述开始说话事件的判断时间节点不在第一不可打断时间之内，进行打断处理。不可打断时间可以在话术流程节点控制，流程首节点设置为播放时长，其他节点可灵活设置。达到了灵活设置不可打断时间，防止频繁被打断，提升用户服务满意度的技术效果。

进一步的，如附图4所示，本申请实施例步骤S500还包括：

步骤S570：获得第一状态缓冲参数；

步骤S580：根据所述第一状态缓冲参数进行所述内部状态转换的灵敏度缓冲，获得第一内部状态转换结果；

步骤S590：根据所述第一内部状态转换结果获得所述第一事件判断结果。

具体而言，在根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果时，可以获得第一状态缓冲参数，通过所述第一状态缓冲参数进行所述内部状态转换的灵敏度缓冲，获得第一内部状态转换结果，进而获得所述第一事件判断结果。其中，所述内部状态转换是指ACTIVITY状态、INACTIVITY状态、ACTIVITYTRANSITION状态、INACTIVITYTRANSITION状态四种内部状态之间的转换。

实际测试中发现，状态转换过于灵敏，需要进行状态缓冲。例如，人声信号较少会导致状态迁移至ACTIVITYTRANSITION状态。所述第一状态缓冲参数是指在状态转移之间加入一个连续缓冲期，在进行内部状态转换时，需要经过这个状态来累计设定时长，如果满足了，才会切换，否则不予切换，能够保证状态可靠性。防止状态不可靠，抛出无意义的事件。所述第一状态缓冲参数与打断效果、工作环境等因素有关。达到了良好的真实打断效果，在测试过程中，通过不断调整参数，比对效果，给定工作模式。这些模式对应的参数有些许差别。当前端业务场景发生变化，通过工作模式改变，进一步增强环境适应性的技术效果。

综上所述，本申请实施例所提供的一种智能外呼打断方法具有如下技术效果：

1.抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；获得第一累加计数规则；根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；通过FreeSwitch根据所述第一事件判断结果进行打断控制。通过抽取WebRTC的VAD模块，移植到UniMRCP，再配合FreeSwitch实现打断效果。达到了使打断过程具有较强的场景适应性，单Package检测模块，能自动根据场景调整高斯混合模型的均值和方差参数；同时，具有良好的真实打断效果，在测试过程中，通过不断调整参数，比对效果，给定工作模式。这些模式对应的参数有些许差别。当前端业务场景发生变化，通过工作模式改变，进一步增强环境适应性的技术效果。

2.WebRTC源自网页实时通信(Web Real-Time Communication)的缩写，是一个支持网页浏览器进行实时语音对话或视频对话的技术，现在WebRTC技术内置于浏览器中，用户不需要使用任何插件或者软件就能通过浏览器来实现实时通信，十分方便灵活。所述VAD模块即语音激活检测（Voice ActivityDetection）模块，在语音信号处理中，例如语音增强，语音识别等领域有着非常重要的应用。它的作用是从一段语音（纯净或带噪声）信号中标识出语音片段与非语音片段。

3.实际测试中发现，状态转换过于灵敏，需要进行状态缓冲。例如，人声信号较少会导致状态迁移至ACTIVITYTRANSITION状态。第一状态缓冲参数是指在状态转移之间加入一个连续缓冲期，在进行内部状态转换时，需要经过这个状态来累计设定时长，如果满足了，才会切换，否则不予切换，能够保证状态可靠性。防止状态不可靠，抛出无意义的事件。

实施例二

基于与前述实施例中一种智能外呼打断方法，同样发明构思，本发明还提供了一种智能外呼打断系统，请参阅附图5，所述系统包括：

第一获得单元11：所述第一获得单元11用于抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；

第二获得单元12：所述第二获得单元12用于根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；

第三获得单元13：所述第三获得单元13用于获得第一累加计数规则；

第四获得单元14：所述第四获得单元14用于根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；

第五获得单元15：所述第五获得单元15用于根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；

第一执行单元16：所述第一执行单元16用于通过FreeSwitch根据所述第一事件判断结果进行打断控制。

进一步的，所述系统还包括：

第六获得单元：所述第六获得单元用于获得第一非人声累加阈值；

第二执行单元：所述第二执行单元用于判断所述第一非人声累加结果是否满足所述第一非人声累加阈值；

第一输出单元：所述第一输出单元用于当所述第一非人声累加结果满足所述第一非人声累加阈值时，将所述第一事件判断结果输出为静音事件。

进一步的，所述系统还包括：

第七获得单元：所述第七获得单元用于当所述FreeSwitch接收的所述第一事件判断结果为所述静音事件时，对所述第一检测分析结果进行ASR识别，获得第一识别结果；

第三执行单元：所述第三执行单元用于根据所述第一识别结果开始下一轮话术。

进一步的，所述系统还包括：

第八获得单元：所述第八获得单元用于获得第一人声累加阈值；

第四执行单元：所述第四执行单元用于判断所述第一人声累加结果是否满足所述第一人声累加阈值；

第二输出单元：所述第二输出单元用于当所述第一人声累加结果满足所述第一人声累加阈值时，将所述第一事件判断结果输出为开始说话事件。

进一步的，所述系统还包括：

第五执行单元：所述第五执行单元用于当所述FreeSwitch接收的所述第一事件判断结果为所述开始说话事件时，判断机器人的当前对话是否为首轮对话；

第六执行单元：所述第六执行单元用于当所述机器人的当前对话为首轮对话时，则不进行打断处理。

进一步的，所述系统还包括：

第九获得单元：所述第九获得单元用于当所述机器人的当前对话不为首轮对话时，获得第一不可打断时间；

第七执行单元：所述第七执行单元用于当所述开始说话事件的判断时间节点不满足所述第一不可打断时间时，对当前播放进行打断处理。

进一步的，所述系统还包括：

第十获得单元：所述第十获得单元用于获得第一状态缓冲参数；

第十一获得单元：所述第十一获得单元用于根据所述第一状态缓冲参数进行所述内部状态转换的灵敏度缓冲，获得第一内部状态转换结果；

第十二获得单元：所述第十二获得单元用于根据所述第一内部状态转换结果获得所述第一事件判断结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，前述图1实施例一中的一种智能外呼打断方法和具体实例同样适用于本实施例的一种智能外呼打断系统，通过前述对一种智能外呼打断方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种智能外呼打断系统，所以为了说明书的简洁，在此不再详述。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

实施例三

下面参考图6来描述本申请实施例的计算机设备。该计算机设备可以是应用版本管理服务器或终端，其内部结构图可以如6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种应用包的处理方法。

在该计算机设备是终端时，该计算机设备还可以包括显示屏和输入装置。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本申请实施例提供了一种智能外呼打断方法，其中，所述方法应用于一种智能外呼打断系统，所述方法包括：抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；获得第一累加计数规则；根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；通过FreeSwitch根据所述第一事件判断结果进行打断控制。解决了现有技术中的进行智能外呼过程机器人的打断控制不能很好地与场景结合，进而使得打断不够智能准确、场景适应性不强的技术问题。通过抽取WebRTC的VAD模块，移植到UniMRCP，再配合FreeSwitch实现打断效果。达到了使打断过程具有较强的场景适应性，单Package检测模块，能自动根据场景调整高斯混合模型的均值和方差参数；同时，具有良好的真实打断效果，在测试过程中，通过不断调整参数，比对效果，给定工作模式。这些模式对应的参数有些许差别。当前端业务场景发生变化，通过工作模式改变，进一步增强环境适应性的技术效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种智能外呼打断方法，其特征在于，所述方法包括：

抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；

根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；

获得第一累加计数规则；

根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；

根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；

通过FreeSwitch根据所述第一事件判断结果进行打断控制。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获得第一非人声累加阈值；

判断所述第一非人声累加结果是否满足所述第一非人声累加阈值；

当所述第一非人声累加结果满足所述第一非人声累加阈值时，将所述第一事件判断结果输出为静音事件。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

当所述FreeSwitch接收的所述第一事件判断结果为所述静音事件时，对所述第一检测分析结果进行ASR识别，获得第一识别结果；

根据所述第一识别结果开始下一轮话术。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

获得第一人声累加阈值；

判断所述第一人声累加结果是否满足所述第一人声累加阈值；

当所述第一人声累加结果满足所述第一人声累加阈值时，将所述第一事件判断结果输出为开始说话事件。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

当所述FreeSwitch接收的所述第一事件判断结果为所述开始说话事件时，判断机器人的当前对话是否为首轮对话；

当所述机器人的当前对话为首轮对话时，则不进行打断处理。

6.如权利要求5所述的方法，其特征在于，所述判断机器人的当前对话是否为首轮对话，还包括：

当所述机器人的当前对话不为首轮对话时，获得第一不可打断时间；

当所述开始说话事件的判断时间节点不满足所述第一不可打断时间时，对当前播放进行打断处理。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

获得第一状态缓冲参数；

根据所述第一状态缓冲参数进行所述内部状态转换的灵敏度缓冲，获得第一内部状态转换结果；

根据所述第一内部状态转换结果获得所述第一事件判断结果。

8.一种智能外呼打断系统，其特征在于，所述系统包括：

第一获得单元：所述第一获得单元用于抽取WebRTC的VAD模块移植至UniMRCP，获得第一移植结果；

第二获得单元：所述第二获得单元用于根据所述第一移植结果进行单Package数据检测分析，获得第一检测分析结果；

第三获得单元：所述第三获得单元用于获得第一累加计数规则；

第四获得单元：所述第四获得单元用于根据所述第一累加计数规则进行所述第一检测分析结果的累加，获得第一人声累加结果和第一非人声累加结果；

第五获得单元：所述第五获得单元用于根据所述第一人声累加结果和所述第一非人声累加结果进行内部状态转换，获得第一事件判断结果；

第一执行单元：所述第一执行单元用于通过FreeSwitch根据所述第一事件判断结果进行打断控制。

9.一种智能外呼打断设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。