CN112532794A

CN112532794A - 语音外呼方法、系统、设备及存储介质

Info

Publication number: CN112532794A
Application number: CN202011330778.0A
Authority: CN
Inventors: 江小林; 罗超; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-19
Anticipated expiration: 2040-11-24
Also published as: CN112532794B

Abstract

本发明提供了一种语音外呼的方法、系统、设备及存储介质，该方法包括：呼叫模块向客户进行语音外呼，成功后接收所述客户的语音回复，调用语音处理引擎根据语音回复生成机器回复，并将机器回复传输至客户。本发明实现了语音外呼机器与客户之间的交互，并对交互行为进行监控，同时提升了可以不基于特定场景的外呼标准化和通用性，有利于避免重复开发，充分利用机器资源。

Description

语音外呼方法、系统、设备及存储介质

技术领域

本发明涉及语音外呼技术领域，尤其涉及一种智能语音外呼方法、系统、设备及存储介质。

背景技术

使用语音外呼系统生成自然语言代替工作人员进行呼叫可以不分时段，质量稳定且不会产生任何负面情绪，节省大量人力资源，对依赖语音播报的服务型企业有优势。目前应用中的语音外呼系统无法很好应对多个场景的外呼，缺乏通用的外呼系统架构，导致重复开发，没有充分利用机器资源，语音外呼状态也没有得到监控。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种语音外呼方法系统、设备及存储介质，通过构建通用的外呼系统架构，避免重复开发，可以更好的应对不同场景，充分利用机器资源，同时对语音外呼状态进行有效监控。

本发明实施例提供一种语音外呼方法，包括如下步骤：

呼叫交换模块根据接到的订单的信息，向客户进行语音外呼并发出首句对话；

所述呼叫交换模块在发出所述首句对话成功后，接收所述客户的语音回复，调用语音中控引擎；

所述语音中控引擎调用语音处理引擎，根据所述语音回复生成机器回复；

所述呼叫交换模块将所述机器回复传输至所述客户；

其中，所述语音处理引擎包括自动语音识别引擎、口语理解引擎、对话管理引擎、自然语言生成引擎、语音合成引擎；

所述语音中控引擎调用所述语音处理引擎，根据所述语音回复生成所述机器回复的步骤包括：

所述自动语音识别引擎将所述语音回复转换成文本信息；

所述口语理解引擎将所述文本信息转换为机器可以理解的语义解析；

所述对话管理引擎根据所述语义解析判断对话状态，并确定用以答复所述语义解析的所述机器回复；

所述自然语言生成引擎将所述机器回复转换为自然语言文本；

所述语音合成引擎将所述自然语言文本合成语音。

可选的，本发明的语音外呼方法发出所述首句对话的步骤包括：

所述呼叫交换模块向所述对话管理引擎发出请求，获取由所述对话管理引擎生成的所述首句对话，经语音合成后将所述首句对话发送至所述客户。

可选的，本发明的语音外呼方法还包括如下步骤：

监控服务模块对所述订单的语音外呼状态进行监控并作出处理。

可选的，本发明的语音外呼方法中，所述监控服务模块对所述订单的语音外呼状态进行监控并作出处理的步骤包括：

记录所述呼叫交换模块发出所述首句对话和所述机器回复的第一结果；

记录所述对话管理引擎生成的所述首句对话和所述机器回复的第二结果；

监控所述第一结果和所述第二结果的关联，若两者一致则将相应的所述订单标记为外呼成功，将所述第一结果和所述第二结果删除；若两者不一致的时长超过第一时间阈值，由所述监控服务模块发出报警。

可选的，本发明的语音外呼方法中，所述调用语音中控引擎包括将所述客户的所述语音回复转化成计算机能处理的音频，通过Mrcp Server将所述音频切割并由服务接口传输至所述语音中控引擎。

可选的，本发明的语音外呼方法中，若所述Mrcp Server检测到所述音频中静音的时长超过第二时间阈值，即判断所述客户处于静默状态，并调用所述对话管理引擎按照预先设计的对话策略主动向所述客户发出提示语。

可选的，本发明的语音外呼方法中，所述语音合成引擎由所述语音中控引擎调用，返回所述音频到所述Mrcp Server接口以及所述呼叫交换模块。

可选的，本发明的语音外呼方法中，所述对话管理引擎由所述语音中控引擎直接调用，和/或由所述呼叫交换模块的话术中控调用以获取不同场景下的话术。

可选的，本发明的语音外呼方法中，所述语音合成引擎将所述自然语言文本合成语音的步骤包括：

所述语音合成引擎将录制好的目标音频语料以及所述自然语言文本输入声音特征提取模型和声学模型，输出与所述自然语言文本对齐的梅尔谱特征；

将所述声学模型输出的所述梅尔谱特征输入声码器，合成对应的语音。

本发明实施例还提供一种语音外呼系统，应用于以上任一项所述的语音外呼方法，所述系统包括：

语音模块，所述语音模块包括语音中控引擎和语音处理引擎；

所述语音处理引擎包括自动语音识别引擎、口语理解引擎、对话管理引擎、自然语言生成引擎、语音合成引擎；

所述自动语音识别引擎将客户的语音回复转换成文本信息；

所述对话管理引擎根据所述语义解析判断对话状态，并确定用以答复所述语义解析的机器回复；

所述语音合成引擎将所述自然语言文本合成语音；

所述语音中控引擎用于调用所述语音处理引擎，根据所述客户的所述语音回复生成所述机器回复；

呼叫交换模块，用于根据接到的订单的信息，向所述客户进行语音外呼并发出首句对话，在发出所述首句对话成功后，接收所述客户的所述语音回复，调用所述语音中控引擎，以及将所述语音中控引擎生成的所述机器回复传输至所述客户。

可选的，本发明的语音外呼系统还包括监控服务模块，用于对所述订单的语音外呼状态进行监控并作出处理。

本发明实施例还提供一种语音外呼设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述的语音外呼方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的语音外呼方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开技术方案要求保护的范围。

本发明的语音外呼方法、系统、设备及存储介质具有如下有益效果：

本发明的语音克隆方法具备区分不同被模仿者的能力，仅需几分钟的音频学习即能模仿被模仿者的音色，并且处理大量数据时处理效率更高，训练次数相同时效果更好，减少了录制音频所花费的大量人力物力，合成的语音效果较好。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的语音外呼方法的流程图；

图2是本发明一实施例的语音外呼方法的架构图；

图3是本发明一实施例的语音外呼方法的对话开始阶段的流程图；

图4是本发明一实施例的语音外呼方法的正常对话进行阶段的流程图；

图5是本发明一实施例的语音外呼方法的客户静音阶段的流程图；

图6是本发明一实施例的语音外呼方法的监控服务的流程图；

图7是本发明一实施例的语音外呼系统的架构图；

图8是本发明一实施例的语音外呼设备的结构示意图；

图9是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

如图1所示，本发明实施例提供一种语音外呼方法，包括如下步骤：

S100：呼叫交换模块根据由呼叫交换模块(Freeswitch)从酒店订单外呼任务单接到的订单的信息，呼叫交换模块向对话管理引擎(DM)发出请求，获取由对话管理引擎生成的首句对话，经语音合成后将首句对话发送至客户。

S200：呼叫交换模块在发出所述首句对话成功后，接收所述客户的语音回复，调用语音中控引擎；

S300：语音中控引擎调用语音处理引擎，根据所述语音回复生成机器回复；

具体地，呼叫交换模块在发出首句对话成功后，接收客户的语音回复，调用语音中控引擎(AI main)，从而调用各语音处理引擎，对客户的语音回复进行分析处理，形成机器可以理解的语言。自动语音识别引擎(Automatic Speech Recognition,ASR)将语音回复转换成文本信息，口语理解引擎(Spoken Language Understanding,SLU)将文本信息转换为机器可以理解的语义解析。语音中控引擎和各语音处理引擎构成本发明中的AI部分。

对话管理引擎根据语义解析判断对话状态，并确定用以答复语义解析的机器回复；自然语言生成引擎(Natural Language Understanding,NLG)将机器回复转换为自然语言文本；语音合成引擎(Text To Speech,TTS)将自然语言文本合成语音。

S400：呼叫交换模块将机器回复传输至客户。

若机器回复传输至客户后，引起客户更多的互动回复，则直接调用语音中控引擎，从而调用语音处理引擎，对客户的回复进行回应，以此类推。

在本发明的另一实施例中，调用语音中控引擎将客户的语音回复转化成计算机能处理的音频，通过Mrcp Server(Media Resource Control Protocol Server，媒体资源控制协议服务)将音频切割并由服务接口传输至语音中控引擎。例如，Mrcp Server可使用开源的UniMrcp。UniMrcp是一个开源的、跨平台的MRCP协议实现,由C/C++语言编写,包括了MRCP客户端和服务端两个部分,每个组件可以自由的分拆出来单独使用。

在一个实施例中，语音合成引擎由语音中控引擎直接调用，将合成的音频返回给Mrcp Server以及呼叫交换模块并向客户播放。

另一实施例中，多个场景的对话管理引擎合并到一个服务，多个场景的口语理解引擎合并到一个服务，多个场景的自然语言生成引擎也合并到一个服务，便于管理及节约资源。

在具体任务执行中，对话开始阶段的实施例包括，如图3所示，由呼叫交换模块向对话管理引擎发出对话请求，获取由对话管理引擎生成的首句对话，经语音合成后将首句对话发送至客户。首句对话的设计可采用随机话术，以提升多样性。

如图4所示，在正常对话阶段，客户的说话内容会被呼叫交换模块转化成计算机能处理的信号，通过Mrcp server切割后，传输给AI部分的引擎，AI部分的语音中控引擎首先调用语音识别引擎，将音频流识别为对应的文本，根据口语理解引擎对客户当前的话进行语义解析，随后，对话管理引擎根据语义解析的结果，根据预设的对话策略，并考虑当前的上下文，生成下一步需要的对话，自然语言生成引擎会根据下一步要进行的动作生成对应的话术，这些话术会对应的存放在redis。redis即远程字典服务，是一个支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。

对于下一步需要的话术，呼叫交换模块会调用对话管理引擎的另一个获取话术的方法，此方法会从刚刚写入的redis数据库进行读取，获取到结果之后返回给呼叫交换模块，呼叫交换模块调用AI的语音合成引擎播放对应的语音给客户。

如图5所示，若客户段是静默状态，需要主动发起提问，比如询问客户“您好还在吗？”这样的主动提示语。因此，在客户持续静音的状态，Mrcp server能检测到当前的音频为静音，会给呼叫交换模块发出信号告知，此时呼叫交换模块会调用对话管理引擎服务，对话管理会按照预先设计对话策略返回回复话术。

本发明的另一种实施例中，实现了对语音呼叫状态的监控。通常情况下，最终的语义识别结果由对话管理引擎发出，但是若在外呼失败的情况下，就无法获取客户的回复，对话管理引擎也就无法发出对应的语义识别结果，因此，这时就需要语音呼叫状态进行监控服务。如图6所示，记录呼叫交换模块发出首句对话和机器回复的结果为表一；记录对话管理引擎生成的首句对话和机器回复的结果为表二；监控表一和表二的关联，若两者一致则将相应的订单标记为外呼成功，将结果从表中删除；若两者不一致的时长超过第一时间阈值，由监控服务模块发出报警。具体地，监控服务模块每隔n分钟对数据库中的数据进行关联处理，如果同时存在于两张表中的数据，代表外呼结果成功发送，对应的删除即可，如果存在于一张表中的数据超过指定时间如10min，则代表电话未呼通或者程序异常导致对话管理引擎没有发出合适的外呼的语义识别结果，此种情况下，需要监控服务模块发出结果，避免出现没被处理的订单被遗漏的情况，影响客户及商家的体验。

可选的，由对话管理引擎将外呼结果传输给呼叫交换模块，由呼叫交换模块发出整通电话的全部识别结果，包含是否接通，外呼的语义识别结果等。

如图7所示，本发明提供一种语音外呼系统，该语音外呼系统包括：

语音模块M100，语音模块包括语音中控引擎和语音处理引擎；

语音处理引擎M200包括自动语音识别引擎、口语理解引擎、对话管理引擎、自然语言生成引擎、语音合成引擎；

自动语音识别引擎将客户的语音回复转换成文本信息；

口语理解引擎将文本信息转换为机器可以理解的语义解析；

对话管理引擎根据语义解析判断对话状态，并确定用以答复语义解析的机器回复；

自然语言生成引擎将机器回复转换为自然语言文本；

语音合成引擎将自然语言文本合成语音。

语音中控引擎用于调用语音处理引擎，根据客户的语音回复生成机器回复；

呼叫交换模块M300，用于根据接到的订单的信息，向客户进行语音外呼并发出首句对话，在发出首句对话成功后，接收客户的语音回复，调用语音中控引擎，以及将语音中控引擎生成的机器回复传输至客户。

在该实施例中，所述语音外呼系统还可以包括：Mrcp Server模块，用于将语音回复切割并由服务接口传输至语音中控引擎。

进一步地，在该实施例中，所述语音外呼系统还可以包括：监控服务模块，用于对所述订单的语音外呼状态进行监控并作出处理。

本发明还提供一种语音外呼设备，其特征在于，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行任意一个实施例中语音外呼方法的步骤。

下面参照图8来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述语音外呼方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得客户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的语音外呼方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上执行时，程序代码用于使终端设备执行本说明书上述语音外呼方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图9所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上执行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在客户计算设备上执行、部分地在客户设备上执行、作为一个独立的软件包执行、部分在客户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到客户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，通过采用本发明的语音外呼方法、系统、设备及存储介质，通过构建通用的外呼系统架构，避免重复开发，可以更好的应对不同场景，充分利用机器资源，同时对语音外呼状态进行有效监控。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种语音外呼方法，其特征在于，包括：

所述呼叫交换模块将所述机器回复传输至所述客户；

所述自动语音识别引擎将所述语音回复转换成文本信息；

所述语音合成引擎将所述自然语言文本合成语音。

2.根据权利要求1所述的语音外呼方法，其特征在于，所述发出首句对话的步骤包括：

3.根据权利要求2所述的语音外呼方法，其特征在于，还包括如下步骤：

4.根据权利要求3所述的语音外呼方法，其特征在于，所述监控服务模块对所述订单的语音外呼状态进行监控并作出处理的步骤包括：

5.根据权利要求1所述的语音外呼方法，其特征在于，所述调用语音中控引擎包括将所述客户的所述语音回复转化成计算机能处理的音频，通过Mrcp Server将所述音频切割并由服务接口传输至所述语音中控引擎。

6.根据权利要求5所述的语音外呼方法，其特征在于，若所述Mrcp Server检测到所述音频中静音的时长超过第二时间阈值，即判断所述客户处于静默状态，并调用所述对话管理引擎按照预先设计的对话策略主动向所述客户发出提示语。

7.根据权利要求5所述的语音外呼方法，其特征在于，所述语音合成引擎由所述语音中控引擎调用，返回所述音频到所述Mrcp Server接口以及所述呼叫交换模块。

8.根据权利要求1所述的语音外呼方法，其特征在于，所述对话管理引擎由所述语音中控引擎直接调用，和/或由所述呼叫交换模块的话术中控调用以获取不同场景下的话术。

9.根据权利要求1所述的语音外呼方法，其特征在于，所述语音合成引擎将所述自然语言文本合成语音的步骤包括：

10.一种语音外呼系统，其特征在于，应用于权利要求1至9中任一项所述的语音外呼方法，所述系统包括：

所述自动语音识别引擎将客户的语音回复转换成文本信息；

所述语音合成引擎将所述自然语言文本合成语音；

11.根据权利要求10所述的语音外呼系统，其特征在于，还包括监控服务模块，用于对所述订单的语音外呼状态进行监控并作出处理。

12.一种语音外呼设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任意一项所述语音外呼方法的步骤。

13.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至9中任意一项所述语音外呼方法的步骤。