CN111026843A

CN111026843A - 一种人工智能语音外呼方法、系统及存储介质

Info

Publication number: CN111026843A
Application number: CN201911212790.9A
Authority: CN
Inventors: 周瑞
Original assignee: Beijing Zhile Sewei Technology Co ltd
Current assignee: Beijing Zhile Sewei Technology Co ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-17
Anticipated expiration: 2039-12-02
Also published as: CN111026843B

Abstract

本发明公开一种人工智能语音外呼方法、系统及存储介质，本发明可替代人工坐席进行外呼工作，可进行语音识别纠错，纠正错误的语音识别结果，提高意图识别准确率；可进行用户性别、情绪、年龄段识别并进行个性化回复，提升用户感知；意图理解模块采用基于相似度计算和深度学习算法的融合模型，用户无需过多配置，即可正确识别意图。本发明可进行多轮对话，有时用户的问题无法通过一轮对话完成，利用对话状态追踪技术记录对话中的信息，结合槽位填充机制，使系统引导用户更精确快捷的完成对话。本发明的系统根据交互信息，包括客户性别、情绪、年龄、用户回答、交互轮次等信息，对客户进行用户画像分析，精确定位客户类型。

Description

一种人工智能语音外呼方法、系统及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种人工智能语音外呼方法、系统及存储介质。

背景技术

当前，电话仍然是主流的客服沟通渠道。比如在快递送货电话提醒，客户信息提醒，金融还款催收，主动营销，潜在客户筛选等方向，而传统客服行业存在着用人成本高，行业变化快，人工情绪不稳定，人员流动大，场地租金高等缺点。

随着技术的发展，人工智能技术也逐渐走进客服领域，但目前的智能客服系统在意图识别中使用关键词模型，存在着语音识别率低，另外在识别模型中需人工配置大量词库，交互流程只能根据系统中预设的程序和数据进行机械的单轮问答式交流，无法结合上下文进行多轮交互，无法根据客户情绪，性别，年龄段等重要特征为客户进行个性化服务，影响服务效果。

基于此，现急需一种人工智能语音外呼方法、系统及存储介质，以期对上述现有技术缺陷进行改善。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了人工智能语音外呼方法、系统及存储介质，旨在解决现有技术存在语音对话机械单一、服务效果差且无法有效的为不同的客户提供个性化服务的技术缺陷。

为实现上述目的，本发明提供了一种人工智能语音外呼方法，所述方法包括：

S1、用户设置外呼任务，获取外呼时间段、外呼业务和外呼数据源；

S2、从上述外呼信息中获取外呼号码，通过运营商语音中继拨通客户的号码并将话务分配到空闲的SIP终端；

S3、SIP终端将获取的客户语音媒体数据传送至语音增强识别模块，该模块首先对客户语音媒体数据中的音频特征进行提取处理，将提取出的音频特征进行语音转文字识别，同时利用深度学习和决策树算法开发的语音特征识别模型对该客户的性别、情绪、年龄段进行识别，然后将识别结果以特定格式发入到消息队列中；

S4、自然语言处理模块从S3的消息队列中取出语音特征识别模型识别的结果，通过纠错算法对将上述识别的结果中的近音词、乱序错误进行纠错，然后再意图识别、命名实体识别、句法分析的基础上通过相似度计算和深度学习算法的融合模型对文本进行深度的语义分析，将分析结果以特定格式发入到消息队列中；

S5、流程控制模块从S4的消息队列中取出自然语言处理消息和语音增强识别消息，根据意图处理结果、用户性别、年龄、情绪和预先配置的业务流程，选择合适的回复流程，然后将该流程ID发入消息队列；若无合适流程，则调用自然语言生成模块，从知识库中抽取重生成合适的回复内容，并将回复内容发入消息队列；若需要进行短信或微信发送，则会发送短信，微信发送消息至消息队列；

S6、语音播报模块从S5的消息队列中取出流程ID消息，根据流程ID播报相关语音，若S5发送自然语言生成消息，则调用语音合成模块合成对应的语音；语音经过运营商中继发送到客户终端，完成一轮交互流程；

S7、交互过程中当客户打断机器人说话时，SIP终端恢复至指定节点；

S8、若有短信，微信发送消息，则短信/微信发送模块会读取该消息，调用指定短信/微信内容，通过短信/微信接口将短信/微信发送至客户；

S9、当客户听完回答后，提出新的问题，则系统重复上述S3-S6过程；

S10、当客户挂机或系统走完该业务的流程后，系统结束流程，并将整个交互过程存入日志系统，客户分类模块根据全程交互信息，结合前期积累的大量用户交互信息，对客户进行用户画像分类，为下一步跟进提供有效信息。

优选地，所述S3中的语音增强识别模块包括语音识别模型以及增强识别、语音特征识别模型；

所述语音识别模型将语音转换为文字，然后将文字内容传给自然语言处理模块进行处理；

所述增强识别、语音特征识别模型对输入语音进行性别、情绪、年龄识别，识别结果通过系统可识别的代码发送到消息队列,该增强识别结果主要用于流程模块根据不同的性别、年龄、情绪参数走不同的业务流程。

优选地，所述增强识别、语音特征识别模型包括深度学习卷积神经网络和决策树算法；

其中，深度学习卷积神经网络为7层模型，输入层为8*1024的音频数据矩阵，经过两层卷积和池化，最终输出1*22维的音频特征矩阵，最后将该音频特征矩阵输入决策树算法层进行情绪、年龄、性别识别；

决策树层算法的树深为3层，随机树上限为100；模型预先用大量已知结果的音频数据做训练，每段训练音频已知性别、情绪、年龄参数，将训练音频输入模型，训练出模型参数保存；当新的音频进入后，则根据模型预测出年龄、情绪、性别结果；模型只需定时更新训练即可，无需每次运行时训练。

优选地，所述S4中的相似度计算和深度学习算法的融合模型进行语义分析的具体方法为：首先，输入的文字经过分词，去除停用词处理，再经过深度学习算法模型，获得词汇的词向量，使得词汇之间可通过词向量来衡量相似性，词向量输入到相似度计算模型，通过余弦相似度计算配置的意图词汇词向量和输入词汇向量之间的相似度；若相似度大于设定的阈值，认为输入的词汇和配置的意图词汇表达相似意图，则NLP模块输出该意图。

优选地，所述S7中恢复至指定节点具体方法为：由用户预先定义，用户编辑话术流程时，预先定义好每个节点针对客户不同交互内容走向。

此外，为实现上述目的，本发明还提出一种人工智能语音外呼系统，所述系统包括：

运营商语音中继、SIP服务器、SIP终端、语音增强识别模块、语音合成模块、语音播报模块、流程控制模块、自然语言处理模块；

所述SIP终端与SIP服务器相连用于获取待外呼客户的信息并通过运营商语音中继与客户建立语音联系；所述语音增强识别模块用于将SIP终端获取的客户语音媒体数据识别为包括客户的性别、情绪、年龄段的特定格式内容并发送到消息队列中；所述自然语言处理模块将上述消息队列中的内容进行纠错处理、语义分析并发送到消息队列中；所述流程控制模块根据上述经纠错处理、语义分析的内容选择合适的回复流程并将流程ID发送到消息队列中；当客户打断SIP终端说话时，SIP终端恢复至指定节点；当客户提出新问题时，上述模块重新进行上述处理分析流程；所述语音播报模块根据上述流程ID播放相关语音；所述语音合成模块用于对自然语言生成信息合成对应语音。

优选地，还包括自然语言生成模块；当无合适回复流程时，所述自然语言生成模块从知识库中调用生成合适的回复内容，并将回复内容发入消息队列中。

优选地，还包括短信/微信发送模块；若需要进行短信或微信发送，则通过短信/微信发送模块发送短信或微信消息至消息队列或客户。

优选地，还包括用户画像模块、日志模块；所述用户画像模块、日志模块用于记录客户与SIP终端的对话内容并对客户进行用户画像分类。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有人工智能语音外呼程序，所述人工智能语音外呼程序被处理器执行时实现如上文所述的人工智能语音外呼方法的步骤。

本发明可替代人工坐席进行外呼工作，可进行语音识别纠错，纠正错误的语音识别结果，提高意图识别准确率；可进行用户性别、情绪、年龄段识别并进行个性化回复，提升用户感知；意图理解模块采用基于相似度计算和深度学习算法的融合模型，用户无需过多配置，即可正确识别意图。本发明可进行多轮对话，有时用户的问题无法通过一轮对话完成，利用对话状态追踪技术记录对话中的信息，结合槽位填充机制，使系统引导用户更精确快捷的完成对话。本发明的系统根据交互信息，包括客户性别、情绪、年龄、用户回答、交互轮次等信息，对客户进行用户画像分析，精确定位客户类型。本发明的交互过程可随时打断，打断后可恢复至指定节点。本发明的系统整体架构采用消息队列微服务体系，各个功能子模块只处理特定的任务，各模块之间通过消息队列进行通信；整个系统低耦合，高内聚，系统容错率高，易扩展。

附图说明

图1是实施例中的人工智能语音外呼系统结构示意图；

图2为实施例中的语音增强识别模块的功能结构示意图；

图3为实施例中的自然语言处理模块的功能结构示意图；

图4为实施例中的流程控制模块的功能结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1-4：本实施例提供了一种人工智能语音外呼方法，所述方法包括：

S2、从上述外呼信息中获取外呼号码，通过运营商语音中继拨通客户的号码并将话务分配到空闲的SIP终端(机器人坐席)；

S3、SIP终端将获取的客户语音媒体数据传送至语音增强识别模块，参见图2：该模块首先对客户语音媒体数据中的音频特征进行提取处理，将提取出的音频特征进行语音转文字识别，同时利用深度学习和决策树算法开发的语音特征识别模型对该客户的性别(男，女)、情绪(积极，中性，消极)、年龄段(老年，中年，青少年)进行识别，然后将识别结果以特定格式发入到消息队列中；

S4、参见图3：自然语言处理模块从S3的消息队列中取出语音特征识别模型识别的结果，通过纠错算法对将上述识别的结果中的近音词、乱序错误进行纠错，然后再意图识别、命名实体识别、句法分析的基础上通过相似度计算和深度学习算法的融合模型对文本进行深度的语义分析，将分析结果以特定格式发入到消息队列中；

S5、参见图4：流程控制模块从S4的消息队列中取出自然语言处理消息和语音增强识别消息，根据意图处理结果、用户性别、年龄、情绪和预先配置的业务流程，选择合适的回复流程，然后将该流程ID发入消息队列；若无合适流程，则调用自然语言生成模块，从知识库中抽取重生成合适的回复内容，并将回复内容发入消息队列；若需要进行短信或微信发送，则会发送短信，微信发送消息至消息队列；

需要说明的是，本实施例可进行多轮对话，有时用户的问题无法通过一轮对话完成，利用对话状态追踪技术记录对话中的信息，结合槽位填充机制，使系统引导用户更精确快捷的完成。

在具体实现中，对话机器人会记录下每一轮的交互情况，根据不同的回答，会进入不同的流程，比如信用卡申请类场景，机器人可以在某一节点咨询客户是否有房有车，若客户回答都有，则进入下一个条件咨询，若客户回答有房，则机器人判断此处两个条件只填写了一个，则会自动咨询是否有车，直到收集完该节点所需收集的信息。

可以理解的是，本实施例可替代人工坐席进行外呼工作，可进行语音识别纠错，纠正错误的语音识别结果，提高意图识别准确率，还可进行用户性别、情绪、年龄段识别并进行个性化回复，提升用户感知；意图理解模块采用基于相似度计算和深度学习算法的融合模型，用户无需过多配置，即可正确识别意图。

决策树层算法的树深为3层，随机树上限为100；模型预先用大量已知结果的音频数据做训练，每段训练音频已知性别、情绪、年龄参数，将训练音频输入模型，训练出模型参数保存；当新的音频进入后，则根据模型预测出年龄、情绪，、性别结果；模型只需定时更新训练即可，无需每次运行时训练。

优选地，所述S4中的相似度计算和深度学习算法的融合模型进行语义分析的具体方法为：首先，输入的文字经过分词，去除停用词处理，再经过深度学习算法模型，获得词汇的词向量，使得词汇之间可通过词向量来衡量相似性，词向量输入到相似度计算模型，通过余弦相似度计算配置的意图词汇词向量和输入词汇向量之间的相似度，若相似度大于设定的阈值则认为，输入的词汇和配置的意图词汇表达相似意图，则NLP模块输出该意图；该模型的特点是计算速度快，识别准确率高，有效区分多义词，多音词。

本实施例的意图识别采用基于相似度计算和深度学习算法的融合模型，用户无需过多配置，即可正确识别意图。

优选地，所述S7中恢复至指定节点具体方法为：由用户预先定义，用户编辑话术流程时，预先定义好每个节点针对客户不同交互内容走向，比如当前节点编号是200，用户配置该节点被打断后恢复节点为201，如果用户在该节点交互过程中触发打断系统，即交互内容涉及到打断系统的关键词，系统进入打断流程，播放打断流程该关键词对应的回复内容，播放完后，则进入用户配置的恢复节点201。

实施例2

参见图2：本实施例还提出一种人工智能语音外呼系统，所述系统包括：

所述SIP终端与SIP服务器相连用于获取待外呼客户的信息并通过运营商语音中继于客户建立语音联系；所述语音增强识别模块用于将SIP终端获取的客户语音媒体数据识别为包括客户的性别、情绪、年龄段的特定格式内容并发送到消息队列中；所述自然语言处理模块将上述消息队列中的内容进行纠错处理、语义分析并发送到消息队列中；所述流程控制模块根据上述经纠错处理、语义分析的内容选择合适的回复流程并将流程ID发送到消息队列中；当客户打断SIP终端说话时，SIP终端恢复至指定节点；当客户提出新问题时，上述模块重新进行上述处理分析流程；所述语音播报模块根据上述流程ID播放相关语音；所述语音合成模块用于对自然语言生成信息合成对应语音。

本实施例的整体架构采用消息队列微服务体系，各个功能子模块只处理特定的任务，各模块之间通过消息队列进行通信；整个系统低耦合，高内聚，系统容错率高，易扩展。

实施例3

此外，为实现上述目的，本实施例还提出一种存储介质，所述存储介质上存储有人工智能语音外呼程序，所述人工智能语音外呼程序被处理器执行时实现如上文所述的人工智能语音外呼方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种人工智能语音外呼方法，其特征在于，所述方法包括：

2.如权利要求1所述的人工智能语音外呼方法，其特征在于，所述S3中的语音增强识别模块包括语音识别模型以及增强识别、语音特征识别模型；

所述增强识别、语音特征识别模型对输入语音进行性别、情绪、年龄识别，识别结果通过系统可识别的代码发送到消息队列,该增强识别结果用于流程模块根据不同的性别、年龄、情绪参数走不同的业务流程。

3.如权利要求2所述的人工智能语音外呼方法，其特征在于，所述增强识别、语音特征识别模型包括深度学习卷积神经网络和决策树算法；

4.如权利要求1所述的人工智能语音外呼方法，其特征在于，所述S4中的相似度计算和深度学习算法的融合模型进行语义分析的具体方法为：首先，输入的文字经过分词，去除停用词处理，再经过深度学习算法模型，获得词汇的词向量，使得词汇之间可通过词向量来衡量相似性，词向量输入到相似度计算模型，通过余弦相似度计算配置的意图词汇词向量和输入词汇向量之间的相似度；若相似度大于设定的阈值，认为输入的词汇和配置的意图词汇表达相似意图，则NLP模块输出该意图。

5.如权利要求1所述的人工智能语音外呼方法，其特征在于，所述S7中恢复至指定节点具体方法为：由用户预先定义，用户编辑话术流程时，预先定义好每个节点针对客户不同交互内容走向。

6.一种人工智能语音外呼系统，其特征在于，所述系统包括：

7.根据权利要求6所述的人工智能语音外呼系统，其特征在于，还包括自然语言生成模块；当无合适回复流程时，所述自然语言生成模块从知识库中调用生成合适的回复内容，并将回复内容发入消息队列中。

8.根据权利要求6或7所述的人工智能语音外呼系统，其特征在于，还包括短信/微信发送模块；若需要进行短信或微信发送，则通过短信/微信发送模块发送短信或微信消息至消息队列或客户。

9.根据权利要求6所述的人工智能语音外呼系统，其特征在于，还包括用户画像模块、日志模块；所述用户画像模块、日志模块用于记录客户与SIP终端的对话内容并对客户进行用户画像分类。

10.一种存储介质，其特征在于，所述存储介质上存储有人工智能语音外呼程序，所述人工智能语音外呼程序被处理器执行时实现如权利要求1至5任一项所述的人工智能语音外呼方法的步骤。