CN111653262B

CN111653262B - 一种智能语音交互系统及方法

Info

Publication number: CN111653262B
Application number: CN202010780639.1A
Authority: CN
Inventors: 于业兴; 赵渭文; 刘建民; 李璇; 廉英顺; 薛旻昊; 马乔乔
Original assignee: Shanghai Rongshu Information Technology Co ltd
Current assignee: Shanghai Rongshu Information Technology Co ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-17
Anticipated expiration: 2040-08-06
Also published as: CN111653262A

Abstract

本发明公开了一种智能语音交互系统与方法，系统包含预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块，中控模块内置有，调度策略流程模块、自动外呼模块、语言处理模块的中控调度模块；方法包含步骤1‑12；本发明能够实现多种算法整合调度，根据设定规则调度多种算法模型计算并综合计算结果得出最优解，以解决单一算法模型的盲点计算的局限性，达到互补的效果；对于多问题多意图等复杂回答的处理，中控调度模块将在文本文件在送至问题计算模型前，进行初步预处理，通过多意图拆分计算模型，将具有多种意图的问题分解为多份，然后再送至问题计算模型，得到多个答案后将答案结果整合后反馈给客户。

Description

一种智能语音交互系统及方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种智能语音交互系统及方法。

背景技术

随着人工智能技术的发展，使用机器模拟人与客户交互的应用越来越广泛，现有的语音交互机器人主要采用在知识库中预设问题及相应的答案，系统获取到客户的语音信息后，通过相应的算法转写为文本，将文本信息送入后台系统，到知识库中寻找对应的答案返回给客户，提高服务效率，降低运营成本；

在实际使用中，由于采用关键词、正则表达式、深度学习模型等单一算法，计算出来的结果，答案不够精准，导致回复错误，效果不佳；由于预设定的答案一般为单一结果，对于客户多问题多意图等信息的解答效果不佳；由于预设的问题及对应的答案单一，设计的流程没有轮询及上下文及历史数据关联机制，导致与客户交流过程中机械痕迹明显，交互不流畅，体验不佳；不同业务类型或者同一业务不同阶段，采取同一种语音合成交互技术，无法做到个性化应对，导致实际使用效果打折；

语音合成模块（TTS）为Text To Speech，从文本到语音；

语音识别模块（ASR）为Automatic Speech Recognition，自动语音识别；

语言处理模块（NLP）为Natural Language Processing，自然语言处理；

中控调度模块（CCD）为Central control dispatching device；

多意图判断处理模块（MIM）为Multiintention judgment processing module；

多模型算法解析模块（MAM）为Multi-model algorithm analysis module；

数据策略引擎模块（DSM）为Data strategy engine module；

分词策略引擎（SSE）为Segmentation strategy engine；

整合处理模块（DI）为Data intergration；

专利号为CN201810079431的发明专利提供了语音识别交互方法,其主要方向是智能语音交互中客户情绪识别及应用；

专利号为CN201210110244的发明专利提供了智能客服营销分析，与本发明名称相似，其主要方向为适用于营销及客服业务交互的多渠道智能平台，不涉及智能语音交互。

发明内容

本发明要解决的技术问题是现有相关技术中因算法模型局限等原因导致交互理解准确率降低，并且应交互流程设计中策略算法单一导致交互体验不佳，应语音合成技术机械导致实际应用效果降低，本发明提供一种智能语音交互系统，采用预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块、中控调度模块组合的系统，首先能够实现多种算法整合调度，根据设定规则调度多种算法模型计算并综合计算结果得出最优解，以解决单一算法模型的盲点计算的局限性，达到互补的效果；

对于多问题多意图等复杂回答的处理，中控调度模块将在文本文件在送至问题计算模型前，进行初步预处理，通过多意图拆分计算模型，将具有多种意图的问题分解为多份，然后再送至问题计算模型，得到多个答案，再将答案结果进行整合，把整合后的答案反馈给客户；

对于与客户交互，中控调度装置会在交互开始前初始化加载客户历史交互信息数据所得出规则信息，从而动态选择交互开场场景及策略，并且在与客户交互的过程中，根据当前交互流程，通过多种维度的数据记录及规则判断动态跳转所适配的交互场景，充分融合上下文与历史数据关联关系，做到千人千面；

根据不同业务场景及同一业务场景不同阶段，在语音合成方面做个性化应对，交互自然，快速有效的达到业务目的；

本发明在原有智能语音交互领域技术服务水平的基础上，做了进一步架构设计优化以及内容精细化的延伸，提升了交互的准确率，并使得特定场景可定制化处理，更好的解决了多意图的复杂场景，并结合历史、当前数据，通过多样化的方式回答客户的问题，有效的实现了千人千面的服务，综合提升了智能服务的水平。不同场景灵活应对，满足业务需求，用以解决现有技术导致的缺陷。

本发明还提供一种智能语音交互方法。

为解决上述技术问题本发明提供以下的技术方案：

第一方面，一种智能语音交互系统，其中，包含预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块，所述中控模块内置有中控调度模块，所述中控调度模块用于调度所述策略流程模块、所述自动外呼模块、所述语言处理模块；

所述预处理模块用于存储导入的信息数据，并对所述信息数据进行预处理后导出至所述策略流程模块；

所述策略流程模块用于接收预处理后的所述信息数据并进行逻辑策略的匹配，将匹配好的所述信息数据与所述逻辑策略共同传输至所述中控模块，所述策略流程模块还用于接收并反馈所述中控模块传输的拨打请求；

所述中控模块用于接收、存储匹配好的所述信息数据与所述逻辑策略，并将匹配好的所述信息数据与所述逻辑策略整合成外呼数据，还用于依据所述自动外呼模块的数据请求向所述策略流程模块传输拨打请求，并依据所述策略流程模块的反馈将所述外呼数据传输至所述自动外呼模块；

所述自动外呼模块定时轮询，向所述中控模块传输数据请求并获取所述外呼数据；还用于根据所述外呼数据拨打电话给客户，还用于获取所述语音合成模块的语音播放给客户，还用于接收客户的语音并将所述语音传输至所述语音识别模块，还用于接收所述语音识别模块反馈的文本文件并传输至所述中控模块；

所述中控模块将所述语音识别模块反馈的文本文件传输至所述语言处理模块；所述语言处理模块对所述文本文件进行解析，生成，解析结果数据，并传输至所述中控模块和所述策略流程模块，所述策略流程模块根据所述解析结果数据确定新逻辑策略并传输至所述中控模块，所述中控模块将所述新逻辑策略传输至所述自动外呼模块，所述自动外呼模块获取所述语音合成模块的语音播放给客户；

所述语音识别模块具有多个场景模型；

所述语言处理模块具有知识模型、相似度辅助模型、深度学习模型；

所述中控调度模块内置有多意图判断处理模块、多模型算法解析模块、数据策略引擎模块、整合处理模块；

所述多意图判断处理模块、所述多模型算法解析模块、所述数据策略引擎模块、所述整合处理模块分别与所述语言处理模块连接进行数据传输；

所述多意图判断处理模块用于分析客户的对话文本是否有多意图，所述多意图判断处理模块连接有分词策略引擎模块，所述多意图判断处理模块用于接收所述文本文件并通过所述分词策略引擎模块进行初过滤，进行客户的多意图判断并反馈至所述中控调度模块；

所述中控调度模块获取所述多意图判断处理模块反馈的数据后，根据所述文本文件中的问题数据进行选择调用多模型算法解析模块的方式，获取所述多模型算法解析模块生成的分数；

所述中控调度模块获取所述分数后调用所述整合处理模块，根据所述分数进行权重筛选，得出计算结果数据并传输至所述数据策略引擎模块；

所述数据策略引擎模块处理所述计算结果数据生成解析；

所述多模型算法解析模块内置有知识模型算法解析模块、深度学习模型算法解析模块、相似度辅助模型算法解析模块。

上述的一种智能语音交互系统，其中，所述预处理模块对所述信息数据进行不同业务类型、不同客户类型的分类与策略定制；

所述策略流程模块依据客户类型与策略定制匹配相应的所述逻辑策略以及相应的对话场景、语音音色、语气、话术后传输至所述中控模块；

所述策略流程模块生成新逻辑策略以及相应的话术传输至所述中控模块；

所述中控模块反馈传输所述外呼数据的同时传输交互流程数据给所述自动外呼模块。

上述的一种智能语音交互系统，其中，所述分词策略引擎模块内置有对分词处理的序列标注模型与深度学习算法；

所述知识模型算法解析模块基于字符串匹配进行打分；

所述深度学习模型算法解析模块基于深度学习算法、K-means算法、LDA算法、迭代决策树、TextCNN、TextRNN注意力模型进行打分；

所述相似度辅助模型算法解析模块基于词距离计算、协方差运算、词向量运算、稳定计算进行打分；

所述分数包含所述知识模型、所述深度学习模型、所述相似度辅助模型中任一个或多个模型的打分分数。

上述的一种智能语音交互系统，其中，所述策略流程模块内置有业务方案存储模块、打断回复决策模块、被动打断判断模块、超时主动打断控制模块、场景语意定义模块、置信度策略模块、回复策略模块、通话内存储记录库、文本库。

所述业务方案存储模块用于存储和输出各业务整体沟通方案，方案根据业务类型、业务场景，特定业务需要等预先进行制定，预先制定方案包括业务类型、话术模板、沟通方案；调用依据为用户画像和联络结果两项，其中用户画像根据业务类型、历史业务办理记录、特定业务指标等生成；联络结果则为历史沟通记录；

所述打断回复决策模块用于在沟通过程中对打断意图的判断及逻辑处理，打断形式分为由被外呼用户发起的被动打断及系统自主发起的主动打断；

所述被动打断判断模块为所述打断回复决策模块的子模块，用于设定被动打断逻辑，功能包括意图判断、被动打断功能开关、被动打断触发灵敏度参数；

所述超时主动打断控制模块用于设置触发主动打断的用户连续声音时间、对主动打断功能开关；

所述场景语意定义模块用于根据预先设定的场景下语义权重，对获取的多语义进行打分，并根据分值高低输出场景下唯一标准语义；

所述置信度策略模块用于获取语义识别的置信度值并根据预先设定的策略提供回复内容标签；

所述回复策略模块用于根据通话内存储记录库、业务方案存储模块及标准语义所处置信度结果对回复话术节点进行输出；

所述通话内存储记录库用于记录单次通话内各节点出现次数及策略执行过程数据，为回复策略模块提供数据依据；

所述文本库用于将回复策略模块输出的话术节点匹配对应的话术文本。

上述的一种智能语音交互系统，其中，所述语音合成模块内置有声音方案逻辑判断模块、话术语音片索引模块、变量语音片索引模块、话术语音库、变量语音库、变量合成逻辑模块、变量合成模块、语音合成模块；

所述声音方案逻辑判断模块用于根据获取的业务类型及方案信息进行判断输出声音类型，声音类型为预先录制并归类，从声音表现力上分为温婉型、热情型、专业型、严肃型；

所述话术语音片索引模块用于根据话术语音调取方式提供调取索引；

所述变量语音片索引模块用于根据所述语音合成模块变量语音调取方式提供调取索引，变量涉及金额、姓名、称谓、卡片尾号、日期等；

所述话术语音库用于根据预先设定的调取策略对单独语音片进行库归类及存取；存放逻辑根据服务对象、业务类型、沟通阶段、话术方案、声音性别、声音表现力类型、声音情绪进行归类；

所述变量语音库用于根据预先设定的调取策略对单独变量语音片进行库归类及存取；

所述变量合成逻辑模块用于根据获取的变量类型及预设的变量合成方案进行判断并输出变量合成逻辑及所需语音片；

所述变量合成模块用于根据预先设定的调取策略及变量语音片索引对变量语音片进行合成，同时调整音量、语速及变量衔接度；

所述语音合成模块用于对话术语音片和变量语音进行拼接及声音优化，优化内容包括多语音片音量均衡、多语音片衔接度优化。

第二方面，一种智能语音交互方法，采用上述的智能语音交互系统，其中，包含以下步骤：

步骤1：将客户信息数据导入至预处理模块，通过策略引擎及大数据分析系统进行预处理，根据不同的业务、不同的客户制定不同的外呼策略方案，并传输至策略流程模块；

步骤2：自动外呼模块定时轮询，并向中控模块发送数据请求；

步骤3：中控模块接收外呼数据请求并向策略流程模块发送拨打请求；

步骤4：策略流程模块接收并处理拨打请求，并依据拨打请求将外呼策略方案发送至中控模块；

步骤5：中控模块将外呼策略传送至自动外呼模块；

步骤6：自动外呼模块按照策略拨打给客户；

步骤7：客户接听电话，自动外呼模块调用语音合成模块做语音合成，语音合成模块将合成好的语音文件传输给自动外呼模块播报给客户；

步骤8：客户的语音通过自动外呼模块传输至语音识别模块做语音识别，语音识别模块识别出来的文本文件传回至自动外呼模块；

步骤9：自动外呼模块将文本文件传输至中控模块，中控模块调用深度学习模块进行解析，深度学习模块将解析结果回传至中控模块，中控模块将解析传输至策略流程模块；

步骤10：策略流程模块根据解析确定下一步的策略动作及应对话术，并传输给中控模块；

步骤11：中控模块将策略动作及应对话术传输给自动外呼模块，自动外呼模块与客户进行交互；

步骤12：实时获取客户语音，并重复步骤8-11，当语音交互结束之后，自动外呼模块将通话结果返回到系统作为记录。

上述的一种智能语音交互方法，其中，步骤4中所述策略流程模块根据系统提供的客户类型、账户信息选择不同的逻辑策略以及不同的对话场景、语音音色，生成不同的语气、不同的话术，并将相关数据及策略传给所述中控模块。

第三方面，一种智能语音交互装置，其中，包含至少一个处理器以及与所述至少一个处理器耦合的存储器，所述存储器存储有可执行指令；

所述可执行指令在被所述至少一个处理器执行时使得实现根据第二方面中任一项所述方法的步骤。

第四方面，一种芯片，其中，包含处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行：第二方面中任一项所述方法的步骤。

第五方面，一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第二方面中任一项所述方法的步骤。

依据本发明一种智能语音交互系统及方法提供的技术方案具有以下技术效果：

本发明技术方案采用预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块、中控调度模块组合的系统，首先能够实现多种算法整合调度，根据设定规则调度多种算法模型计算并综合计算结果得出最优解，以解决单一算法模型的盲点计算的局限性，达到互补的效果；

本发明在原有智能语音交互领域技术服务水平的基础上，做了进一步架构设计优化以及内容精细化的延伸，提升了交互的准确率，并使得特定场景可定制化处理，更好的解决了多意图的复杂场景，并结合历史、当前数据，通过多样化的方式回答客户的问题，有效的实现了千人千面的服务，综合提升了智能服务的水平。不同场景灵活应对，满足业务需求；

相对于专利号为CN201810079431的发明专利语音识别交互方法,本技术方案重点通过多模型识别技术更准确的识别多维度语义，结合交互逻辑设计、语音应答技术、声音合成技术等，形成的智能语音外呼业务一体化解决方案，本专利不涉及通过语音判断客户情绪、情感的技术内容；

相对于专利号为CN201210110244的发明专利智能客服营销分析，其主要方向为适用于营销及客服业务交互的多渠道智能平台，通过对相关数据分析为营销及客服业务提供业务流程及渠道的策略支撑，不涉及本专利中应用的语音应答技术、声音合成技术及通话中的交互逻辑设计。

附图说明

图1为本发明一种智能语音交互系统的结构示意图；

图2为本发明一种智能语音交互系统中中控模块的结构示意图；

图3为隐马尔可夫模型图；

图4为线性链条件随机场图；

图5为本发明一种智能语音交互系统中策略流程模块的结构示意图；

图6为本发明一种智能语音交互系统中语音合成模块的结构示意图。

其中，附图标记如下：

预处理模块101、策略流程模块102、中控模块103、自动外呼模块104、语音合成模块105、语音识别模块106、语言处理模块107。

具体实施方式

为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解，下结合具体图示，进一步阐述本发明。

本发明的第一实施例是提供一种智能语音交互系统及方法，目的是采用预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块、中控调度模块组合的系统，首先能够实现多种算法整合调度，根据设定规则调度多种算法模型计算并综合计算结果得出最优解，以解决单一算法模型的盲点计算的局限性，达到互补的效果；

本发明在原有智能语音交互领域技术服务水平的基础上，做了进一步架构设计优化以及内容精细化的延伸，提升了交互的准确率，并使得特定场景可定制化处理，更好的解决了多意图的复杂场景，并结合历史、当前数据，通过多样化的方式回答客户的问题，有效的实现了千人千面的服务，综合提升了智能服务的水平。不同场景灵活应对，满足业务需求。

如图1-2所示，第一方面，一种智能语音交互系统，其中，包含预处理模块101、策略流程模块102、中控模块103、自动外呼模块104、语音合成模块105（TTS）、语音识别模块106（ASR）、语言处理模块107（NLP），中控模块103内置有中控调度模块（CCD），中控调度模块（CCD）用于调度策略流程模块102、自动外呼模块104、语言处理模块107（NLP）；

预处理模块101用于存储导入的信息数据，并对信息数据进行预处理后导出至策略流程模块102；

策略流程模块102用于接收预处理后的信息数据并进行逻辑策略的匹配，将匹配好的信息数据与逻辑策略共同传输至中控模块103，策略流程模块102还用于接收并反馈中控模块103传输的拨打请求；

中控模块103用于接收、存储匹配好的信息数据与逻辑策略，并将匹配好的信息数据与逻辑策略整合成外呼数据，还用于依据自动外呼模块104的数据请求向策略流程模块102传输拨打请求，并依据策略流程模块102的反馈将外呼数据传输至自动外呼模块104；

自动外呼模块104定时轮询，向中控模块103传输数据请求并获取外呼数据；还用于根据外呼数据拨打电话给客户，还用于获取语音合成模块105（TTS）的语音播放给客户，还用于接收客户的语音并将语音传输至语音识别模块106（ASR），还用于接收语音识别模块106（ASR）反馈的文本文件并传输至中控模块103，语音识别模块106（ASR）具有多个模型进行协作，在不同场景针对不同业务会采用不同模型进行识别，如当需要进行地址类信息识别时，会采用对应的地址模型，再如当需识别如时间金额等信息时，会采用时间金额模型，从而避免在复杂业务场景中使用单一模型将地址信息作为常规实体识别的判断，并有效提高识别的准确率；

中控模块103将语音识别模块106（ASR）反馈的文本文件并进行解析并传输至语言处理模块107（NLP）；语言处理模块107（NLP）对文本文件进行解析，生成的解析结果数据，并传输至中控模块103和策略流程模块102，策略流程模块102根据解析结果数据确定新逻辑策略并传输至中控模块103，中控模块103将新逻辑策略传输至自动外呼模块104，自动外呼模块104获取语音合成模块105（TTS）的语音播放给客户，语言处理模块107（NLP）具有知识模型、相似度辅助模型、深度学习三个模型，通过中控平台实现多种算法整合调度，根据设定规则计算并综合计算结果得出最优解，以解决单一算法模型的盲点计算的局限性，达到互补的效果，从而提高意图理解准确率；

语音识别模块106（ASR）具有多个场景模型；

语言处理模块107（NLP）具有知识模型、相似度辅助模型、深度学习模型；

中控调度模块（CCD）内置有多意图判断处理模块（MIM）、多模型算法解析模块（MAM）、数据策略引擎模块（DSM）、整合处理模块（DI）；

多意图判断处理模块（MIM）、多模型算法解析模块（MAM）、数据策略引擎模块（DSM）、整合处理模块（DI）分别与语言处理模块107（NLP）连接进行数据传输；

多意图判断处理模块（MIM）连接有分词策略引擎模块，多意图判断处理模块（MIM）用于接收文本文件并通过分词策略引擎模块进行初过滤（pre-filtration），进行客户的多意图判断并反馈至中控调度模块（CCD）；

中控调度模块（CCD）获取多意图判断处理模块（MIM）反馈的数据后，根据文本文件中的问题数据进行选择调用多模型算法解析模块（MAM）的方式，获取多模型算法解析模块（MAM）生成的分数；

中控调度模块（CCD）获取分数后调用整合处理模块（DI），根据分数进行权重筛选，得出计算结果数据并传输至数据策略引擎模块（DSM）；

数据策略引擎模块（DSM）处理计算结果数据生成解析；

多模型算法解析模块（MAM）内置有知识模型算法解析模块、深度学习模型算法解析模块、相似度辅助模型算法解析模块。

其中，预处理模块101对信息数据进行不同业务类型、不同客户类型的分类与策略定制；

策略流程模块102依据客户类型与策略定制匹配相应的逻辑策略以及相应的对话场景、语音音色、语气、话术后传输至中控模块103；

策略流程模块102生成新逻辑策略以及相应的话术传输至中控模块103；

中控模块103反馈传输外呼数据的同时传输交互流程数据给自动外呼模块104。

其中，分词策略引擎模块内置有对分词处理的序列标注模型与深度学习算法；

知识模型算法解析模块基于字符串匹配进行打分；

深度学习模型算法解析模块基于深度学习算法、K-means算法、LDA算法、迭代决策树、TextCNN、TextRNN注意力模型进行打分；

相似度辅助模型算法解析模块基于词距离计算、协方差运算、词向量运算、稳定计算进行打分；

分数包含知识模型、深度学习模型、相似度辅助模型中任一个或多个模型的打分分数。

多意图判断处理模块（MIM）作为本技术方案的模块之一，当客户问题（query）通过输入后，会通过分词策略引擎（SSE）进行初过滤（pre-filtration），进行客户的多意图判断，多意图判断处理模块（MIM）主要通过序列标注模型序列标注模型隐马尔科夫模型(HMM)和条件随机场(CRF)以及基于深度学习算法的BiLSTM-条件随机场(CRF)来做分词处理，基于目前较为常用的条件随机场作为分词算法，特点是假设输出随机变量构成马尔科夫随机场序列标注模型隐马尔科夫模型(HMM )，它是处理序列问题的统计学模型，描述的过程为：由隐马尔科夫链随机生成不可观测的状态随机序列，然后各个状态分别生成一个观测，从而产生观测随机序列；

在这个过程中，不可观测的序列称为状态序列(state sequence), 由此产生的序列称为观测序列(observation sequence)；

如图3所示， X1,X2,…XT是隐含序列，而O1,O2,..OT是观察序列；

而通过概率无向图模型又称马尔科夫随机场是一个可以由无向图表示的联合概率分布，有向图是时间序列顺序的，又称贝叶斯网，序列标注模型就属于其中的一种，序列标注模型不能考虑序列的下一状态信息，这是有向图具有“方向性”所不能避免的，而无向图则可以将更多的相连状态考虑在当前状态内，考虑更全面的上下文信息；

概率图模型是由图表示的概率分布，记G=(V,E)是由结点集合V和边集合E组成的图，成对马尔科夫性是指图G中任意两个没有边连接的结点所对应的的两个随机变量是条件独立的，给定一个联合概率分布P(Y)，若该分布满足成对、局部或全局马尔科夫性，就称此联合概率分布为概率无向图模型或马尔科夫随机场；

如图4所示，在实际的应用当中，线性链条件随机场是一种精度很高的分词方法，精度相对高于隐马尔可夫，因为隐马尔可夫假设观察变量xn只与当前状态yn有关，而与其它状态yn-1，yn+1无关;而条件随机场假设了当前观察变量xn与上下文相关，例如上一个字标记状态为v，当前标记状态为r并且输出“他”字概率，因此通过上下文的分析，可以让分词提升到更高的精度，但其复杂度也相对较高，一般条件随机场的训练代价都比较大；

通过多意图判断处理模块（MIM）模型初过滤（pre-filtration），结合了高效匹配算法、基于大量语料训练以及条件随机场(CRF)算法以及词典分类，结合对新词的发现，不断扩充及丰富基础字典集合，可将分词定制化于不同特定场景，如在不同的场景中，语义表达式中的词、词类以及他们之间的关系进行分类会有所不同，以适于各自的业务场景，根据特定规则的组合，顺序、倒序、间隔、权重等方式进行标注分类及矢量运算，若最终计算出结果为多意图时，则会将原客户问题（query）按照规则拆分多个客户问题（query）并将整合后的结果送给中控调度模块（CCD）模块完成后续任务。

中控调度模块（CCD）获取多意图判断处理模块（MIM）返回的数据后，根据客户问题（query）的数量决策调用多模型算法解析模块（MAM）的方式，如当具有多个客户问题（query）时，则会对应并行的调用多模型算法解析模块（MAM），在多模型算法解析模块（MAM）中，包含多种计算模型，主要分为知识模型、深度学习模型以及相似度辅助模型，多模型算法解析模块（MAM）也同时并行的使用这些模型进行计算，通过不同模型的得到的多个计算结果，再进行运算，以降低通过单个模型计算所产生的盲点局限性影响，综合得分获取答案（response）；

其中知识模型主要是基于字符串匹配，即扫描字符串，如果发现字符串的子串和词相同，就算匹配，同时也加入了一些规则表达式来增加此模型的健壮性；

深度学习模型主要基于深度学习算法、K-means算法、LDA算法、迭代决策树（GBDT）、TextCNN、TextRNN注意力模型（Attention），经过大量语料训练，完成对NLU的处理，具有较强的泛化能力；

相似度辅助模型主要基于词距离计算、协方差运算、词向量运算、稳定计算等，经过大量语料训练，适用于某些特定的场景的辅助判断，如当对于某一场景要求精度较高而由于输入信息本身存在一定的错误率或前两个模型的盲点局限性等原因，此时前两个模型不能给出高质量的理想答案（response）时，可以通过相似度辅助模型的加入来进一步提升多模型算法解析模块（MAM）模块本身对NLU的自信值；

中控调度模块（CCD）模块在获取多模型算法解析模块（MAM）模块输出的信息后，调用整合处理模块（DI），根据各计算模型各自的得分以及权重筛选判断得出计算后的结果通过整合处理模块（DI）送给数据策略引擎模块（DSM）模块，完成后续任务；

数据策略引擎模块（DSM）主要基于规则计算，负责规则的匹配和执行，其中包含了复杂而多维度且多样的策略，在数据策略引擎模块（DSM）模块获取到中控调度模块（CCD）模块输入的数据前，也就是当客户数据被批量装载时，中控调度模块（CCD）模型会将经客户历史属性数据如客户风险等级、行为数据客户历史交互结果达成情况等数据，通过大数据策略引擎初始化标签及信息的方式加载到数据策略引擎模块（DSM）模块，数据策略引擎模块（DSM）模块此时为每一个客户初始化生成交互开场场景及交互策略流程，在与客户交互的过程中既数据策略引擎模块（DSM）模块获取到来自中控调度模块（CCD）推送的数据时，通过规则生成答案（response），并记录客户的本次客户问题（query）和答案（response）以及当前所在的交互节点信息，当下一次获取到中控调度模块（CCD）模块输入的数据时，数据策略引擎模块（DSM）会观察客户之前的客户问题（query）和答案（response）以及所经过的交互路径（Communication path）再结合本次的客户问题（query）数据再利用多维度的规则判断计算得出答案（response）从而动态跳转所适配的交互场景及策略流程，充分融合上下文与历史数据关联关系，以达到到相同的输入，不同形式的回答，不同客户，不同交互流程的效果。

如图5所示，其中，策略流程模块102内置有业务方案存储模块、打断回复决策模块、被动打断判断模块、超时主动打断控制模块、场景语意定义模块、置信度策略模块、回复策略模块、通话内存储记录库、文本库。

业务方案存储模块用于存储和输出各业务整体沟通方案，方案根据业务类型、业务场景，特定业务需要等预先进行制定，预先制定方案包括业务类型、话术模板、沟通方案；调用依据为用户画像和联络结果两项，其中用户画像根据业务类型、历史业务办理记录、特定业务指标等生成；联络结果则为历史沟通记录；

业务类型：业务类型包括所有使用到智能外呼功能的业务场景，其中包括如催收业务（早期提醒、逾期催收）、电话营销业务、电核业务等；

话术模板：根据不同的业务类型、结合用户画像和联络结果，预设话术模板，根据业务类型以催收业务及电销业务举例如下：

（1）催收业务：

（1.1）根据用户画像：针对各维度的用户画像根据业务目标需要进行组合并输出针对用户的多套话术模板，以达到“沟通千人千面“的效果，用户画像制作维度以银行信用卡业务为例如下：

（1.1.1）根据风险级别设置话术模板：超低风险、低风险、中低风险、中风险、高风险、VIP用户；

（1.1.2）根据欠费金额数量：年费、超小金额、小金额、大金额、超大金额；

（1.1.3）根据客户类型：新客户（开卡6个月内）、自动扣款客户、已分期客户等；

（1.1.4）根据客户行为：最低还款倾向（近6个账单周期内超过三次最低还款）、全额还款倾向（近6个账单周期内超过三次全额还款）、外部系统转账倾向（微信、支付宝、他行APP等）、内部系统还款倾向（行内APP、网银网站）、内部网点还款倾向（行内柜台、ATM机、CDM机、STM机）等；

(1.2) 根据联络结果：根据客户的历史联络结果决定下一通的话术，举例如下：

(1.2.1) 承诺还款：多次承诺还款食言（同一账单周期内大于等于3次）、承诺全额还款但部分还款且还款金额未达最低、承诺还款时间内未还款；

（1.2.2）协商还款：多次协商还款（同一账单周期内大于等于3次），资金问题协商还款、拖延时间协商还款、特殊原因协商还款；

（1.2.3）已还款：多次称已还款但食言（同一账单周期内大于等于2次）、称存卡自动扣款；

（1.2.4）非本人：非本人号码且不认识、非本人号码但认识、非本人为告知是否认识；

（1.2.5）第三方：第三方同意转告、第三方不同意转告、第三方未表示是否同意转告、第三方表示失去联系、第三方禁止再对其呼叫、第三方承诺代偿、第三方拒绝代偿；

（1.2.6）投诉抱怨：投诉态度、投诉呼叫频率、投诉业务制度（利息、滞纳金等）、涉媒；

（1.2.7）质疑来电；

（1.2.8）不方便接听：多次致电表示不方便接听（同一账单周期内大于等于3次）、不方便接听（同一账单周期内小于3次）；

（2）电销业务：

（2.1）根据用户画像：针对各维度的用户画像根据业务目标需要进行组合并输出针对用户的多套话术模板，以达到“沟通千人千面“的效果，用户画像制作维度以银行信用卡业务为例如下：

（2.1.1）根据活动准入标准：达标准入客户、临近准入标准客户（可通过用户自行达标）；

（2.1.2）用户习惯渠道：线上自助渠道、线下渠道、电话渠道；

（2.1.3）历史办理记录：相似活动接受倾向；

（2.1.4）客户行为记录：近期注册过目标产品网站但未办理、与客服提问咨询过此类产品、指定时间内目标产品介绍页面点击次数及停留时间；

(2.1.5) 高权重指标：如年龄在25至30周岁、女性、进6个月内大于三个账单周期额度占有率达到80%等；

(2.2) 根据联络结果：根据客户的历史联络结果决定下一通的话术，举例如下：

(2.2.1)确认办理：明确表达确认办理；

（2.2.2）无办理意向：明确表达不愿意办理；

（2.2.3）有办理意向：未明确表达确认办理，但希望提供更多信息；

（2.2.4）潜在推广：用户询问关键业务点；

（2.2.5）非本人：非本人号码且不认识、非本人号码但认识；

（2.2.6）投诉抱怨：投诉态度、投诉呼叫频率、涉媒；

（2.2.7）质疑来电；

（2.2.8）不方便接听：多次致电表示不方便接听（同一账单周期内大于等于3次）、不方便接听（同一账单周期内小于3次）；

（2.2.9）要求制定渠道推送信息；

（3）沟通方案：根据业务目标和业务流程制定智能外呼沟通主流程，同时制定分支流程，配合主流程，在主体沟通架构下丰满场景。主流程与主流程进行模块化、接口化对接，以入口、出口、准入标准及是否可逆作为对接依据，提升主流程配置的快速性、简便性；分支流程以模块化形式与主流程进行云对接，即主流程发起推向分支流程再回到主流程发起点的模式，同时分支流程模块内设独立逻辑规则；

以催收业务为例如下：

（1）催收业务：

（1.1）主流程：基本设为身份核实、信息播报、催收沟通、主流程结束语播报四大主流程：

（1.1.1）身份核实模块：一般位于通话开始阶段，也有部分业务因与用户前期沟通过，将身份核实模块作为分支流程模块，与主流程进行云对接，准入原则为非否定即默认肯定。身份核实模块中对核实严谨度、最大核实轮次、是否支持其他主流程逆向进入进行预设置。其中核实严谨度，即对是否必须用户确认为本人或用户明确说出关键字样进行预设；最大核实轮次，即反复用户无法给出明确答复的最大沟通轮次以及达到最大轮次后的处理方式（结束对话或默认准入下一流程）；逆向进入，即是否支持已经进入下一层级主流程模块时仍旧可以逆向回到身份核实模块；

（1.1.2）信息播报模块：主体业务信息播报，一般催收业务包含逾期产品名、逾期状态、逾期金额、需还款时间等几大关键要素，各要素均以变量形式定义。该模块下，配备重复播报功能，应用与用户无法听清或要求重新播报的场景下；

（1.1.3）催收沟通模块：此模块为催收业务主要模块，包含主催收层级数、无法还款原因回复、催收工具（信用影响、降额、停卡等）运用以及施压态度（同情理解、制度规定、必须还款等）。其中主催收层级数，即为一通电话内最大的递进施压的层级数量，其中递进施压由催收工具及施压态度两个维度组合，在同一层级内所有沟通内容的设计均根据当前层级下的递进施压方案进行，催收沟通模块的所有相关设计均围绕层级概念进行。当通话达到预先设定的催收层级数又未走到任一结束节点的情况，系统播报结束语，结束通话。无法还款原因回复，即为根据用户不同的无法还款原因（资金问题、时间问题、个人原因等）进行针对性话术沟通，无法还款原因嵌入层级中（每一层级均有各无法还款原因的对应话术），当层级自上而下推进时，逻辑支持不同还款原因的跳转。如，用户表示资金不够，第一层级则使用催收工具：信用影响、无法还款原因回复：资金问题、施压态度（同情理解）；用户在第一层级下表示要拖延时间，第二层级则使用催收工具：降额、无法还款原因回复：时间问题、施压态度：制度规定；

（1.1.4）主流程结束语播报模块：是根据催收沟通模块中各无法还款原因的出现次数及权重输出结束语话术；

（1.2）分支流程：对于非主流程的沟通点，作为分支流程进行模块化管理，如业务咨询场景、非本人转告确认场景、不方便接听场景、质疑来电场景、用户无声场景、智能无法理解场景、用户投诉倾向场景、承诺还款确认场景、已还款核实场景等，分支流程模块内根据主流程进行设置对应子模块，同时子模块内设立逻辑规则，举例如下：

（1.2.1）分支流程模块子模块：根据主流程设置对应子模块，如主流程为身份核实、信息播报、催收沟通、结束语播报，那分支流程则根据分支的场景单独设立子模块，如分支流程模块下的业务咨询模块，设立身份核实业务咨询子模块、信息播报业务咨询子模块、催收沟通业务咨询子模块（可根据层级设立下属模块）等，各子模块服务于对应主流程场景；

（1.2.2）逻辑规则：对分支流程及其子模块设置逻辑规则，对单个场景触发进行记录、同时对分支流程及其子模块整体触发次数进行记录，并应用于全局通话中。单个场景触发逻辑如咨询欠费金额场景，首次询问会播报金额，第二次询问，则提示“刚才也说了”并播报金额，第三次询问则提示“本次来电还是关于您逾期欠费问题的”并转到对应主流程中；对分支流程及其子模块整体触发逻辑，如整个业务咨询模块逻辑规则，对咨询类的问题在整通通话中不超过五次，一旦触达逻辑规则，则输出预设话术并回归主中。

打断回复决策模块用于在沟通过程中对打断意图的判断及逻辑处理，打断形式分为由被外呼用户发起的被动打断及系统自主发起的主动打断；

被动打断：由被外呼用户发起，将当前轮次下的沟通形式由智能播报用户聆听改变为用户诉说智能聆听，一般适用于用户不愿意等待智能播报完毕，转而立刻表达用户当前意图，此功能的应用能较大的提升用户的沟通体验；

主动打断：智能预设单论次沟通中聆听客户连续声音的最大时长，当用户的连续声音触发时长限制时，智能将不再收取及处理时长限制之外的用户语音，从而主动打断用户，此功能的应用可避免用户无限制诉说导致业务目标无法有效完成。

被动打断判断模块为打断回复决策模块的子模块，用于设定被动打断逻辑，功能包括意图判断、被动打断功能开关、被动打断触发灵敏度参数；

1）意图判断，从被动打断类型分类为“听客户说”、“客户请AI继续说”及“客户表明意图”三大类：

（1）“听客户说”：用户表达意图为智能停止播报仅听用户诉说，如“你听我说”，“你不要再说了”等；

（2）“客户请AI继续说”：用户异常打断了智能播报，希望智能恢复原播报内容；

（3）“客户表明意图”：用户在智能播报期间直接表明自身意图，如“我要的不是这个，请你给我说一下账单金额”；

2）被动打断功能开关：选择是否打开被动打断功能；

3）被动打断触发灵敏度参数：为避免用户在沟通过程中因口语习惯、环境嘈杂等因素导致沟通频繁无意义打断。参数中对智能播报中触发打断的用户连续发声时长进行设置；

超时主动打断控制模块用于设置触发主动打断的用户连续声音时间、对主动打断功能开关；

场景语意定义模块用于根据预先设定的场景下语义权重，对获取的多语义进行打分，并根据分值高低输出场景下唯一标准语义；

置信度策略模块用于获取语义识别的置信度值并根据预先设定的策略提供回复内容标签，一般置信度预设四个阶段，分别如下：

1）小于30%（含）置信度：因置信度极低，此语义不可以作为后续回复输出依据，一般处理方式为回复表示不能理解的话术内容；

2）大于30%且小于50%（含）置信度：置信度较低，无法准确判断客户真实意图，一般处理方式为显性确认回复，如催收业务场景下对还款意愿的显性确认回复为“你是否可以在今天晚上9点前还款

”；

3）大于50%且小于70%（含）置信度：置信度达常规标准，可以作为后续回复输出依据，如为保证沟通准确率，一般处理方式为隐性确认，如催收业务场景下对还款意愿的隐性确认回复为“好的，那我在今天晚上9点等您到账了，好吧”；

4）大于70%置信度：置信度超过常规标准，可以直接作为后续回复输出依据；

回复策略模块用于根据通话内存储记录库、业务方案存储模块及标准语义所处置信度结果对回复话术节点进行输出；

通话内存储记录库用于记录单次通话内各节点出现次数及策略执行过程数据，为回复策略模块提供数据依据；

文本库用于将回复策略模块输出的话术节点匹配对应的话术文本；

基于智能业务策略配置包括以下步骤：

步骤一：多语义及方案信息根据业务方案存储模块定位当前语义所处的业务沟通流程节点并将信息送至打断回复决策模块；

步骤二：打断回复决策模块判断为被动打断、主动打断或正常；

1）被动打断：被动打断判断模块判断功能是否开启，如开启则判断用户打断意图并输出意图标签，如未开启则跳过；

2）主动打断：超时主动打断控制模块判断功能是否开启，如开启则输出主动打断标签；

3）正常：则输出无打断标签；

步骤三：场景语义定义模块获取多语义、所处流程节点、打断回复决策模块的打断标签等信息，根据预先设定的场景下及指定节点下的语义权重给多语义打分并输出标准语义；

步骤四：置信度策略模块获取标准语义，根据随入的置信度百分比及预先设定的置信度策略输出策略标签；

步骤五：回复策略模块获取策略标签，向通话内存储记录库获取通话内记录，同时向业务方案存储模块获取方案，根据预设的回复策略输出回复话术节点名；

步骤六：文本库根据话术节点名匹配对应的话术文本模板；

如图6所示，其中，语音合成模块105（TTS）内置有声音方案逻辑判断模块、话术语音片索引模块、变量语音片索引模块、话术语音库、变量语音库、变量合成逻辑模块、变量合成模块、语音合成模块105（TTS）；

声音方案逻辑判断模块用于根据获取的业务类型及方案信息进行判断输出声音类型，声音类型为预先录制并归类，从声音表现力上分为温婉型、热情型、专业型、严肃型；

1）温婉型的声音亲和力较强，从声音设计上语速适中、语调较平，基本采用音质柔美的女性声音作为录制者，适用于如账单提醒、电话核实等服务类的业务场景；

2）热情型的声音主动性较强，从声音设计上语速较快、语调高亢，基本采用气息饱满，声音年轻的男性或女性作为主要录制者，从声音表现力来说比较适合营销、推广，介绍等业务；

3）专业型的声音具备一定的沉稳度，从声音设计上语速偏慢、语调平且稳，大部分采用声音特质偏成熟的女性作为录制者，适用于客户问题（query）解答，专业业务指导、早期催收等业务场景；

4）严肃型的声音压迫感较强，声音设计上有多种的表现形式，主体设计目标为提升沟通体验，如急切提示、严厉告知等，语速及语调根据业务场景及沟通场景而特殊设计，适合中后期催收业务；

从声音传达的表现设计上，对情绪、音量、断句、轻重词等进行更拟人化设计，如：根据对应语境节点情绪上可表现为高兴、疑惑、急迫，可惜等，根据业务场景对业务目标传达重点词进行重读，同时加入如嗯、哎、诶等语气词。此方案使整个沟通更贴近于真人交互，并通过声音设计将业务目标及情绪传递给被外呼对象；

话术语音片索引模块用于根据话术语音调取方式提供调取索引；

变量语音片索引模块用于根据语音合成模块105（TTS）变量语音调取方式提供调取索引，变量涉及金额、姓名、称谓、卡片尾号、日期等；

话术语音库用于根据预先设定的调取策略对单独语音片进行库归类及存取；存放逻辑根据服务对象、业务类型、沟通阶段、话术方案、声音性别、声音表现力类型、声音情绪进行归类；

变量语音库用于根据预先设定的调取策略对单独变量语音片进行库归类及存取；

变量合成逻辑模块用于根据获取的变量类型及预设的变量合成方案进行判断并输出变量合成逻辑及所需语音片；

变量合成模块用于根据预先设定的调取策略及变量语音片索引对变量语音片进行合成，同时调整音量、语速及变量衔接度；

1）变量音量调整，根据预设的变量逻辑，对需重读的语音片增加音量，对需轻读的语音片降低音量，如变量金额为一万两千元，拼接语音片分别是“一万”和“两千元”，则增加“一万”的音量，提升整体变量播报的真实感；

2）变量语速调整，根据预设的变量逻辑，对变量语音片进行语速增加及语速降低，如变量金额为一万两千三百二十三元，拼接语音片分别是“一万”、“两千”和“三百二十三元”，则增加“两千元”的语速；

3）变量衔接度调整，根据预设的变量逻辑，对多片变量语音片的衔接进行首尾部分音波重叠，留白等处理；

语音合成模块105（TTS）用于对话术语音片和变量语音进行拼接及声音优化，优化内容包括多语音片音量均衡、多语音片衔接度优化；

1）多语音片音量均衡功能，计算多段语音片及合成完毕的变量语音片首尾相连部分音量误差在是否处于预设值范围内，如超出或低于预设值，则根据预设规则对语音片音量进行调整，确保语音片拼接后音量均衡；

2）多语音片衔接度优化，根据预设规则，对话术语音片和变量语音片的间隔进行首尾部分音波重叠，留白等处理；

基于语音合成模块105（TTS）合成方案包括以下步骤：

步骤一：声音方案逻辑判断模块获取业务类型、话术文本及声音方案打上目标声音标签。

步骤二：声音方案逻辑判断模块根据话术判断是否存在变量：

1）无变量：

（1）获取话术语音片索引模块索引；

（2）根据语音片索引从话术语音库获取目标话术语音片；

2）有变量：

（1）话术部分获取语音片索引模块索引；

（2）变量部分：

（2.1）变量部分获取变量信息，根据变量合成逻辑模块中预设的方案，生成变量合成逻辑及所需语音片；

（2.2）根据变量合成逻辑及所需语音片向变量语音片索引模块获取语音片索引；

（2.3）根据语音片索引从变量语音库获取目标变量语音片；

（2.4）变量合成模块将变量语音片根据合成逻辑进行合成及调整；

步骤三：语音合成模块105（TTS）根据声音方案逻辑对话术语音片及已合成的变量语音片进行合成并优化。

本技术方案智能语音交互系统的中控调度模块包含算法调度模块，可根据特定场景需要选择特定的算法模型顺序，且支持根据不同模型之间的权重进行加权以及协方差运算，消除单个模型的盲点局限性，筛选最终的答案，多问题多意图调度模块，在交互语言理解前，进行客户意图判断，且包括但不局限于将语义表达式中的词、词类以及他们之间的关系进行分类如主、谓、宾、动、定、状、补、中心语等，并可根据特定规则的组合，顺序、倒序、间隔、权重等方式进行分类及矢量运算、标注，然后将整合后的结果送给后续调度系统，以更好的解决人机交互中具有复杂意图的问题；历史数据与交互数据处理模块，可根据已有历史数据对客户进行策略分层，同时生成初步的交互策略流程，在与客户交互的过程中，记录客户的每一次回答以及所经过的交互路径，动态调整策略，如在进行了多轮交互后，客户又开始问前面已经问过的问题或者客户问的问题与上文具有逻辑及运算关系等，数据模块将通过算法计算得出结果，以达到相同的问题，不同形式的回答，不同客户，不同交互流程的效果；通过场景预处理、语音索引引擎及变量合成逻辑模块，根据不同业务场景及同一业务场景不同阶段，生成最终的语音播放效果，个性化应对，需要业务需求。

本发明具有丰富的策略支撑，区别于传统模式，在情感分析，打断、置信度等高阶功能具有更突出的表现，当客户情感上出现偏激性倾向时，会相应调整机器人交互的话术、语气、音色，有效降低智能语音投诉风险，在如通过双通道实时语音流处理，对于语气词、噪音等多种因素判断，使打断具有更智能的能力，置信度决策的增加，可以更好的使技术与业务结合为语音识别模块106（ASR）与语言处理模块107（NLP）的互补，进一步提高业务整体准确率。

本发明不拘泥于传统模式的既定流程，在设计上具有长短记忆功能，长记忆会记录客户的每次致电的结果，再下一次致电客户时会根据客户以往历史的沟通结果、历史行为数据及客户属性分析从而制定本次沟通的目标以最大化的发挥数据驱动能力；短记忆会记录客户本次沟通的全流程，对每一步的判断都会基于当前通话所经过的全流程，如即使当客户重复询问同一个问题时，机器人所回答的内容也是不一样的，再比如客户问的问题与前面的问题具有某种逻辑关系时，同样也会结合上下文对客户问题进行回答，以达到千人千面，融会贯通的效果。

步骤1：将客户信息数据导入至预处理模块101，通过策略引擎及大数据分析系统进行预处理，根据不同的业务、不同的客户制定不同的外呼策略方案，并传输至策略流程模块102；

步骤2：自动外呼模块104定时轮询，并向中控模块103发送数据请求；

步骤3：中控模块103接收外呼数据请求并向策略流程模块102发送拨打请求；

步骤4：策略流程模块102接收并处理拨打请求，并依据拨打请求将外呼策略方案发送至中控模块103；

步骤5：中控模块103将外呼策略传送至自动外呼模块104；

步骤6：自动外呼模块104按照策略拨打给客户；

步骤7：客户接听电话，自动外呼模块104调用语音合成模块105（TTS）做语音合成，语音合成模块105（TTS）将合成好的语音文件传输给自动外呼模块104播报给客户；

步骤8：客户的语音通过自动外呼模块104传输至语音识别模块106（ASR）做语音识别，语音识别模块106（ASR）识别出来的文本文件传回至自动外呼模块104；

步骤9：自动外呼模块104将文本传输至中控模块103，中控模块103调用深度学习模块进行解析，深度学习模块将解析结果回传至中控模块103，中控模块103将解析传输至策略流程模块102；

步骤10：策略流程模块102根据解析确定下一步的策略动作及应对话术，并传输给中控模块103；

步骤11：中控模块103将策略动作及应对话术传输给自动外呼模块104，自动外呼模块与客户进行交互；

步骤12：实时获取客户语音，并重复步骤8-11，,当语音交互结束之后，自动外呼模块将通话结果返回到系统作为记录。

上述的一种智能语音交互方法，其中，步骤4中策略流程模块102根据系统提供的客户类型、账户信息选择不同的逻辑策略以及不同的对话场景、语音音色，生成不同的语气、不同的话术，并将相关数据及策略传给中控模块103。

第三方面，一种智能语音交互装置，其中，包含至少一个处理器以及与至少一个处理器耦合的存储器，存储器存储有可执行指令；

可执行指令在被至少一个处理器执行时使得实现第二方面中任一项方法的步骤。

第四方面，一种芯片，其中，包含处理器，用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行：如第二方面中任一项方法的步骤。

第五方面，一种计算机可读存储介质，其中，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第二方面中任一项方法的步骤。

第六方面，一种计算机程序产品，其中，包含计算机程序指令，该计算机程序指令使得计算机执行第二方面中任一项方法的步骤。

综上，本发明的一种智能语音交互系统及方法，采用预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块、中控调度模块组合的系统，首先能够实现多种算法整合调度，根据设定规则调度多种算法模型计算并综合计算结果得出最优解，以解决单一算法模型的盲点计算的局限性，达到互补的效果；

以上对发明的具体实施例进行了描述。需要理解的是，发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换，这并不影响发明的实质内容。

Claims

1.一种智能语音交互系统，其特征在于，包含预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块，所述中控模块内置有中控调度模块，所述中控调度模块用于调度所述策略流程模块、所述自动外呼模块、所述语言处理模块；

所述中控模块将所述语音识别模块反馈的文本文件传输至所述语言处理模块；所述语言处理模块对所述文本文件进行解析，生成解析结果数据，并传输至所述中控模块和所述策略流程模块，所述策略流程模块根据所述解析结果数据确定新逻辑策略并传输至所述中控模块，所述中控模块将所述新逻辑策略传输至所述自动外呼模块，所述自动外呼模块获取所述语音合成模块的语音播放给客户；

所述语音识别模块具有多个场景模型；

所述数据策略引擎模块处理所述计算结果数据生成解析；

2.如权利要求1所述的一种智能语音交互系统，其特征在于，所述预处理模块对所述信息数据进行不同业务类型、不同客户类型的分类与策略定制；

3.如权利要求2所述的一种智能语音交互系统，其特征在于，所述分词策略引擎模块内置有对分词处理的序列标注模型与深度学习算法；

所述知识模型算法解析模块基于字符串匹配进行打分；

所述深度学习模型算法解析模块基于深度学习算法、LDA算法、迭代决策树、TextCNN、TextRNN注意力模型进行打分；

4.如权利要求3所述的一种智能语音交互系统，其特征在于，所述策略流程模块内置有业务方案存储模块、打断回复决策模块、被动打断判断模块、超时主动打断控制模块、场景语意定义模块、置信度策略模块、回复策略模块、通话内存储记录库、文本库；

所述业务方案存储模块用于存储和输出各业务整体沟通方案，方案根据业务类型、业务场景、特定业务需要预先进行制定，预先制定方案包括业务类型、话术模板、沟通方案；调用依据为用户画像和联络结果两项，其中用户画像根据业务类型、历史业务办理记录、特定业务指标生成；联络结果则为历史沟通记录；

5.如权利要求4所述的一种智能语音交互系统，其特征在于，所述语音合成模块内置有声音方案逻辑判断模块、话术语音片索引模块、变量语音片索引模块、话术语音库、变量语音库、变量合成逻辑模块、变量合成模块、语音合成模块；

所述变量语音片索引模块用于根据所述语音合成模块变量语音调取方式提供调取索引，变量涉及金额、姓名、称谓、卡片尾号、日期；

6.一种智能语音交互方法，采用如权利要求1所述的智能语音交互系统，其特征在于，包含以下步骤：

步骤5：中控模块将外呼策略传送至自动外呼模块；

步骤6：自动外呼模块按照策略拨打给客户；

7.如权利要求6所述的一种智能语音交互方法，其特征在于，步骤4中所述策略流程模块根据系统提供的客户类型、账户信息选择不同的逻辑策略以及不同的对话场景、语音音色，生成不同的语气、不同的话术，并将相关数据及策略传给所述中控模块。

8.一种智能语音交互装置，其特征在于，包含至少一个处理器以及与所述至少一个处理器耦合的存储器，所述存储器存储有可执行指令；

所述可执行指令在被所述至少一个处理器执行时，实现如权利要求6-7中任一项所述方法的步骤。

9.一种芯片，其特征在于，包含处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求6-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求6-7中任一项所述方法的步骤。