CN111246027B

CN111246027B - 一种实现人机协同的语音通讯系统及方法

Info

Publication number: CN111246027B
Application number: CN202010346872.9A
Authority: CN
Inventors: 司马华鹏
Original assignee: Nanjing Guiji Intelligent Technology Co ltd
Current assignee: Nanjing Guiji Intelligent Technology Co ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-02-12
Anticipated expiration: 2040-04-28
Also published as: US11380327B2; CN111246027A; EP3893477A1; WO2021160191A1; US20220044679A1; EP3893477A4; SG11202106816PA

Abstract

本发明涉及智能通讯领域，公开了一种实现人机协同的语音通讯系统及方法，解决了现有人机协同通话切换差别大，切换后浪费客户时间，导致客户体验差的问题，其技术方案要点包括通讯模块；接听与外呼模块，分配一个人工坐席；音意理解模块，用于理解通话过程中的意图；声音克隆模块，将回复文本合成为对应话务员声音；人机交互模块，由语音机器人与客户通话；介入提示模块，对通话内容监测得到介入意向率，根据预定义规则提示人工坐席；人工介入模块，人工介入回复客户，并在通话中进行通话意图展示和通话提词，能够在通话时，人工坐席和语音机器人通话无差别切换，人工介入后，话务员能快速了解通话意图，介入通话，保证客户的通话体验良好。

Description

一种实现人机协同的语音通讯系统及方法

技术领域

本发明涉及智能通讯领域，更具体地说，它涉及一种实现人机协同的语音通讯系统及方法。

背景技术

随着AI和通信科技的快速发展，语音机器人已广泛应用各行各业。例如当企业需要和潜在客户进行沟通时，语音机器人能够大幅度降低人工外呼成本，提高外呼效率，增加对潜在客户的覆盖；例如客户有问题需要对接企业客服时，语音机器人能够快速回答已有模板的问题，效率高，减轻人工成本。

但是纯语音机器人存在外呼信息传达效率不高的问题，或是客户的问题问的复杂，超出模板外，语音机器人就会处理不了，达不成客户需求；并且鉴于对现有市场上语音机器人不够智能的认知，一般客户对于和语音机器人沟通这件事是排斥的，所以纯语音机器人很难独立工作。

相比于语音机器人，纯人工劳动力的优势在于常识积累和情绪识别，能够灵活应对更加复杂的状况，但工作量有限，情绪波动大，专业水平参差不齐。例如在人工坐席话务员进行电话销售时，真正的挑战往往不是专业度不足，而是不愿面对被客户拒绝和被挂电话的那份挫败感。

所以目前市场上更倾向于是人机协同的方式来运作，也就是先使用语音机器人对接客户，语音机器人不能解决了，再切换到人工。但是在人机切换后，话务员需要一定的时间去获取语音机器人和客户之间的通话信息，尤其是在客户面对语音机器人信息获取效率低时，还要给予话务员梳理通话内容的时间，就会造成客户体验差的不良后果，客户可能会产生反感甚至是厌恶的情绪，导致通话目的难以达成的问题的出现。

发明内容

本发明的目的是提供一种实现人机协同的语音通讯系统及方法，能够在通话时，人工坐席和语音机器人通话无差别切换，人工介入后，话务员能快速了解通话意图，保证客户的通话体验良好。

本发明的上述技术目的是通过以下技术方案得以实现的：一种实现人机协同的语音通讯系统，包括通讯模块，还包括：

接听与外呼模块，通话接通后，分配一个人工坐席；

音意理解模块，包含音意理解模型，用于理解通话过程中的意图；

声音克隆模块，包含声音克隆模型，用于将回复文本合成为对应话务员声音；

人机交互模块，由语音机器人调用音意理解模块得到客户意图并按照预先编好的话术，再调用声音克隆模块使用对应话务员声音与客户通话；

介入提示模块，包含量化分析子模块，对人机交互时的通话内容进行实时监测得到介入意向率，并根据预定义规则提示人工坐席；

人工介入模块，采用对应话务员语音回复客户和/或调用所述声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户，还包含能够调用所述音意理解模块的检索提词子模块为任一话务员进行通话意图展示和通话提词。

一种实现人机协同的语音通讯方法，包括以下步骤：通话接通后，使用接听与外呼模块分配一个人工坐席；

由人机交互模块中的语音机器人调用音意理解模块得到客户意图并按照预先编好的话术，再调用声音克隆模块使用对应话务员声音与客户通话；

由介入提示模块的量化分析子模块对人机交互时的通话内容进行实时监测，得到介入意向率，并根据预定义规则提示人工坐席；

当人工坐席接收到介入提示时，由人工介入模块介入通话，采用检索提词子模块展示人机交互通话过程中的意图，采用对应话务员语音回复客户和/或调用所述声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户，在通话过程中使用检索提词子模块为任一话务员进行通话提词。

优选的，所述量化分析子模块用于根据历史通话大数据和当前人工交互过程的对比分析，得到当前客户需要人工介入的介入意向率。

优选的，所述检索提词子模块在任一话务员选择人工介入时直接调用音意理解模块展示人机交互通话意图；所述检索提词子模块在人工介入通话过程中调用音意理解模块，得到最新通话意图，并从数据库中检索出参考信息生成回复文本并展示。

优选的，人工坐席介入的方式包括：

对应话务员直接语音回复客户；

任一话务员选择检索提词子模块生成的提词文本，由声音克隆模块生成语音回复客户；

任一话务员手动输入文本，由声音克隆模块生成语音回复客户；

任一话务员语音，使用声音克隆模块中的语音识别子模块将语音转换为文本，再由其中声音克隆模型生成语音回复客户。

优选的，所述音意理解模块中音意理解模型的生成和应用包括以下步骤：

S1、使用大量带有意图标注的语音数据对基于深度学习的音意理解模型进行训练；

S2、把训练后的音意理解模型部署到音意理解服务器；

S3、对话过程中收到语音数据，并输入到音意理解服务器中调用音意理解服务，返回识别出的意图。

优选的，所述声音克隆模型的生成和应用的步骤为：

A1、采集人工坐席对应话务员的声音语料，对初始声音克隆模型进行训练；

A2、把训练后的声音克隆模型部署到声音克隆服务器。

A3、将人工介入的回复文本合成为对应话务员声音播放给客户。

优选的，所述人工介入模块中还包含有质检模块，用于对任一话务员说话的语速、内容进行质检，并把质检结果实时反馈到人工坐席。

综上所述，本发明具有以下有益效果：

1、利用介入提示模块能够智能的给人工坐席提示，在最合适的时机提示话务员介入，避免因语音机器人不能很好回复客户，而人工没有及时介入，使得客户通话差的问题的发生；

2、本申请中的意图理解不是通过传统的ASR识别文本再用NLP识别意图，而是通过音意理解模型，直接从语音识别出用户意图，从效果、效率和成本上明显优于传统方法。

3、人工介入模块能够在通话时，有检索提词子模块来展示介入前的通话意图，无需话务员再去理解所有通话内容，直接了解客户意图，节省理解时间，使得客户的通话体验不受人机切换影响；在通话过程中，智能的识别客户意图并检索出相应的回复内容提示话务员，使得话务员在相关问题上响应更快，提高服务效率，保证客户通话体验；

4、利用声音克隆模块处理生成的人工坐席对应话务员声音，让客户感觉到自己是一直在与人工坐席话务员通话，能实现人工和语音机器人的无差别切换，从而能够提供给客户更好的通话感受；

5、人工介入的方式不局限于特定的话务员语音回复，可以采用多人、换人的方式来服务客户，能够提供给客户更好的通话体验。

附图说明

图1是本发明的系统框图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

如图1所示，本发明提供一种实现人机协同的语音通讯系统，包括通讯模块，接听与外呼模块，通话接通后，分配一个人工坐席；

人工介入模块，采用对应话务员语音回复客户和/或调用声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户，还包含能够调用音意理解模块的检索提词子模块为任一话务员进行通话意图展示和通话提词。

对应的，本发明还提供一种实现人机协同的语音通讯方法，包括以下步骤：通话接通后，使用接听与外呼模块分配一个人工坐席；

当人工坐席接收到介入提示时，由人工介入模块介入通话，采用检索提词子模块展示人机交互通话过程中的意图，采用对应话务员语音回复客户和/或调用声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户，在通话过程中使用检索提词子模块为任一话务员进行通话提词。

通讯模块实现基础的通讯功能，为外呼、接通、三方通话提供底层支持。

接听与外呼模块根据导入的号码呼叫客户或者接听客户打进的电话，接通后给每个接听和呼叫任务分配一个人工坐席，保证每一通电话都对应有一个人工坐席在服务。

音意理解模块，包含有音意理解模型，传统的音意理解模块大多是先通过语音识别技术获取文本再进行意图识别,而基于文本的意图识别的准确率严重依赖于语音识别技术的准确率。而本发明中音意理解模型采用基于深度学习的音意理解技术，直接用深度神经网络从输入的语音数据中识别出相应的意图，达到了减少语音识别造成的信息缺失，提高语音意图识别准确率的效果；

音意理解模型的生成和应用包括以下步骤：

S1、使用大量带有意图标注的语音数据对基于深度学习的音意理解模型进行训练；具体为：(1)首先接收声音序列数据输入，提取MFCC等语音特征；然后使用transformer神经网络，以这些语音特征数据作为输入，提取音素和字素特征；再把这些音素和字素特征输入到神经网络的输入层，对神经网络参数调优形成预训练模型；(2)在预训练模型的基础上，根据标注了意图的语音数据训练音意理解模型，首先收集包含用户意图的语音数据；再标注语音数据中所包含的用户意图类别，得到带有意图标签的用户语音；然后将带有意图标签的用户语音，转换为语音意图特征的音素和字素；最后载入预训练模型，将前一步得到的音素和字素输入到神经网络的输入层，训练音意理解模型。

S2、把训练后的音意理解模型部署到音意理解服务器；

S3、对话过程中收到语音数据，并输入到音意理解服务器中调用音意理解服务，返回识别出的意图，具体如下：输入待识别语音；对输入语音进行降噪、特征提取处理，将待识别语音转化为包含声音信息的特征向量；将该特征向量输入训练好的音意理解模型进行识别；输出识别后的语音意图。

声音克隆模块，包含有声音克隆模型和语音识别子模块，声音克隆模型的生成和应用的步骤为：A1、采集人工坐席对应话务员的声音语料，对初始声音克隆模型进行训练；A2、把训练后的声音克隆模型部署到声音克隆服务器；A3、将人工坐席介入的回复语音合成为对应话务员声音播放给客户。

其具体的步骤为：声音克隆模型由以下步骤得到：

(1)采集人工坐席对应话务员声音语料，语料采集模块为声音克隆模型的训练采集、收集语音语料数据，数据主要是话务员本人的真实说话语音，因此训练出的声音克隆模型和对应话务员的声音具有较高的相似性，可以实现语音机器人和人工坐席语音的无缝切换。

语料的来源包括：话术市场中话术的录音，通话过程中话务员应答的语音音频语料，人工专门为克隆模型采集(例如在录音室环境下按照指定的文稿朗读录音)的语料。

采集到的语料需要先进行语料自检，剔除偏差较大、背景音明显、音色偏差大的语料。然后对语料进行自动降噪增强处理。

(2)训练模型，基于上述对应话务员声音语料训练人工坐席专属的声音克隆模型。

对每个人工坐席，需要训练匹配对应话务员的声音克隆模型，以便在人工介入情况下尽可能地减小语音机器人声音和人工坐席话务员声音的差异。另外，由于底层模型的升级、优化，对已经上线的模型也需要支持反复的训练。

声音克隆模型的训练过程如下：

首先对采集的声音语料进行自检和降噪处理；采集到的语料一般都有对应的文字，但文字和音频经常有个别字词对应不准确的情况，所以需要对音频和文字的对应进行人工校对，确保发音和文字精确对应，包括发音人朗读时额外加上的语气词等；然后对语料中的文本进行正则化处理，将数字、年月日、小数、单位符号等转换为汉字，利用自然语言处理(NLP)技术对文本进行分词，进行词性标注，识别出姓名、机构名称，对中文进行多音字消歧；再人工标注出句子的韵律边界、重音、停顿、变调等特征；然后把文字转换为拼音和音素，并进行统一编码；通过NLP模型(例如BERT)进行字/词嵌入，把句子中的每个字或词转换成向量形式；对音频数据提取频谱特征；把文字嵌入向量和音频频谱特征一起输入声音克隆模型，运行反向传播算法进行迭代优化，直到模型收敛。

上述通过声音克隆模型合成语音的过程如下：

(1)部署上线，把训练调优完成的声音克隆模型部署到声音克隆服务器。

(2)合成语音，语音机器人服务或人工介入服务时，根据指定文本调用和人工坐席对应的声音克隆模型实时合成语音播放给客户。

语音合成的步骤如下：

首先对输入的待合成文本进行文本分析，通过文本正则化规则将数字、年月日、小数、单位符号等转换为汉字，利用自然语言处理(NLP)技术对文本进行分词，进行词性标注，识别出姓名、机构名称，对中文进行多音字消歧；再预测句子的韵律边界、重音、停顿、变调以及情感等影响发音的特征；然后把文字转换为拼音和音素，并进行统一编码；通过NLP模型(例如BERT)进行字/词嵌入，把句子中的每个字或词转换成向量形式；嵌入向量输入训练好的声音克隆模型，运行前向传播算法，输出声学特征；再通过声码器(vocoder,如wavenet,wavernn等网络)把声学特征转换为语音波形，从而得到对应的语音。

人工交互模块实现了一个基本的AI对话语音机器人，也就是语音机器人，在预先编写好的话术基础上与客户进行语音交互。而语音机器人对客户意图的理解使用的是音意理解模块中基于深度学习的音意理解模型，语音机器人和客户对话使用的音频是通过和人工坐席对应话务员声音相匹配的声音克隆模型合成得到的，且当前号码接通后，还会将语音机器人与客户的通话内容同步传输至当前人工坐席，以便人工介入时查看。

介入提示模块根据预定义规则和对话的动态信息，能够智能地给出人工坐席人工介入的提示，由人工坐席根据决定是否进行选择人工介入；

其中包含有量化分析子模块，用于根据历史通话大数据和当前人工交互过程的对比分析，得到当前客户需要人工介入的介入意向率，量化分析子模块会根据历史对话大数据分析各个流程节点，人工介入后产生意向客户的比率，称为“介入意向率”；

而预定义规则便是对介入意向率设定一个阈值，例如50％，在语音机器人与客户对话的过程中，若发现匹配的介入意向率超过该阈值，就提示人工坐席在此时介入有较高产生意向客户的可能。

介入提示模块查询匹配介入意向率时，采用的规则包括下列规则中的一个或多个：

(1)对话进入预定义的关键分支。

(2)客户说的话触发特定的关键词。

(3)识别出客户特定的意图。

(4)判断客户属于特定意向客户。

例如：贷款场景，在语音机器人与客户对话的过程中，客户说：“我最多能贷多少？贷的话有什么要求？”，进入了一个名为“回答额度”的流程节点，同时触发了关键词“什么要求”。查询统计数据，发现在“问额度”节点同时触发了关键词“什么要求”的介入意向率为75％，超过了上述阈值(50％)。这时，就可以提示人工坐席“介入意向率75％”，人工坐席点击该提示就可以进行人工介入。这里就同时用到了规则(1)和规则(2)。

又如：在语音机器人与客户对话的过程中，根据音意理解模型识别出的意图为“问联系方式”，而意图为“问联系方式”时的介入意向率为71％(超过50％)，则提示人工坐席“介入意向率71％”。这里用到了规则(3)。

又如：在语音机器人与客户对话的过程中，根据话术中预先定义的意向判断规则，判定客户意向为B，且对B类客户的介入意向率为69％(超过50％)，则提示人工坐席“介入意向率69％”。这里用到了规则(4)。

人工介入模块根据介入提示，选择介入人机交互，实现人工坐席、语音机器人和客户的三方通话，人工坐席介入可以为客户提供更复杂、灵活的服务。进入人工介入时，语音机器人停止自动语音交互，后续和客户的通话过程由话务员控制；

人工坐席介入的方式包括：

对应话务员直接语音回复客户；

具体的，检索提词子模块在任一话务员选择人工介入时直接调用音意理解模块展示人机交互通话意图；检索提词子模块在人工介入通话过程中调用音意理解模块，得到最新通话意图，并从数据库中检索出参考信息生成回复文本并展示。

检索提词子模块针对对话过程的动态信息，实时检索相关数据，对坐席给出提示或回复建议，根据对话的过程触发的预设关键词，结合音意理解模型识别出的用户意图，从数据库中检索出相关信息，例如常见问题、用户关心的数据；或者针对客户的话查找数据库中合适的回复建议。以上检索到的数据实时显示在人工坐席屏幕，供话务员介入时参考或直接选择使用，可以大大提高人工坐席的响应速度。

例如：贷款场景，在语音机器人或人工坐席与客户对话的过程中，客户说：“我最多能贷多少？贷的话有什么要求？”，音意理解模型识别出的意图为“问额度”，同时触发了关键词“贷多少”和“什么要求”，根据这些条件，依据话术中预先定义的规则，进一步地通过查询API接口从贷款业务数据库查询出贷款利率、额度等信息，动态地构造出提示语句“借贷利率5％，个人借款金额至少1万元，借款要提前1-3天告知机构”，显示到人工坐席，以便需要人工介入时参考。配合提示信息，还可以从常见问题库(FAQ)中查询出历史总结出的经验和答复语句，告知人工坐席介入后话务员应如何回复客户，如何引导客户意向，并对客户给出指导性建议，确保最终的成单。

具体的，人工介入模块中还包含有质检模块，用于对任一话务员说话的语速、内容进行质检，并把质检结果实时反馈到人工坐席。

质检模块，能够在通话中，实时提醒话务员，实现优化客户通话体验的效果。

内容质检的方法是：根据分词结果和敏感词库进行匹配，匹配方法使用正则表达式和预定义规则库，对匹配结果进行统计分析。

语速质检方法是：先用语音识别技术把语音识别成文字，在根据语音时长和字数计算语速；把计算出的当前语速和历史平均语速相比，如果显著高于历史平均语速，则认为语速过快；

例如，如果话务员说话情绪不对，或有超出服务范围的语言时，给予提示警告，确保客户体验。

例如：人工坐席介入时，话务员由于情绪激动，辱骂客户，质检模块根据内置的敏感词库匹配了脏话的敏感词，说明坐席人员态度恶劣。该模块就把这一记录推送到主管，主管就可以对他进行批评教育，提出警告。又如：人工坐席介入时，质检模块用通话结束前坐席说的最后一句话去匹配内置的礼貌用语词库，可以检查话务员是否使用了“再见”、“谢谢”等礼貌性词语结束对话，就可以帮助改善服务态度。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种实现人机协同的语音通讯系统，包括通讯模块，其特征是，还包括：

接听与外呼模块，通话接通后，分配一个人工坐席；

2.根据权利要求1所述的一种实现人机协同的语音通讯系统，其特征是，所述人工介入模块中还包含有质检模块，用于对任一话务员说话的语速、内容进行质检，并把质检结果实时反馈到人工坐席。

3.一种实现人机协同的语音通讯方法，其特征是，包括以下步骤：通话接通后，使用接听与外呼模块分配一个人工坐席；

4.根据权利要求3所述的一种实现人机协同的语音通讯方法，其特征是，所述量化分析子模块用于根据历史通话大数据和当前人工交互过程的对比分析，得到当前客户需要人工介入的介入意向率。

5.根据权利要求3所述的一种实现人机协同的语音通讯方法，其特征是，所述检索提词子模块在任一话务员选择人工介入时直接调用音意理解模块展示人机交互通话意图；所述检索提词子模块在人工介入通话过程中调用音意理解模块，得到最新通话意图，并从数据库中检索出参考信息生成回复文本并展示。

6.根据权利要求3所述的一种实现人机协同的语音通讯方法，其特征是，人工坐席介入的方式包括：

对应话务员直接语音回复客户；

7.根据权利要求3所述的一种实现人机协同的语音通讯方法，其特征是，所述音意理解模块中音意理解模型的生成和应用包括以下步骤：

S1、使用带有意图标注的语音数据对基于深度学习的音意理解模型进行训练；

S2、把训练后的音意理解模型部署到音意理解服务器；

8.根据权利要求3所述的一种实现人机协同的语音通讯方法，其特征是，所述声音克隆模型的生成和应用的步骤为：

A2、把训练后的声音克隆模型部署到声音克隆服务器；