CN111246027B - 一种实现人机协同的语音通讯系统及方法 - Google Patents

一种实现人机协同的语音通讯系统及方法 Download PDF

Info

Publication number
CN111246027B
CN111246027B CN202010346872.9A CN202010346872A CN111246027B CN 111246027 B CN111246027 B CN 111246027B CN 202010346872 A CN202010346872 A CN 202010346872A CN 111246027 B CN111246027 B CN 111246027B
Authority
CN
China
Prior art keywords
voice
module
client
conversation
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010346872.9A
Other languages
English (en)
Other versions
CN111246027A (zh
Inventor
司马华鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Guiji Intelligent Technology Co ltd
Original Assignee
Nanjing Guiji Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Guiji Intelligent Technology Co ltd filed Critical Nanjing Guiji Intelligent Technology Co ltd
Priority to CN202010346872.9A priority Critical patent/CN111246027B/zh
Publication of CN111246027A publication Critical patent/CN111246027A/zh
Application granted granted Critical
Publication of CN111246027B publication Critical patent/CN111246027B/zh
Priority to US17/420,981 priority patent/US11380327B2/en
Priority to SG11202106816PA priority patent/SG11202106816PA/en
Priority to EP21731879.9A priority patent/EP3893477A4/en
Priority to PCT/CN2021/085323 priority patent/WO2021160191A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/527Centralised call answering arrangements not requiring operator intervention
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/39Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及智能通讯领域,公开了一种实现人机协同的语音通讯系统及方法,解决了现有人机协同通话切换差别大,切换后浪费客户时间,导致客户体验差的问题,其技术方案要点包括通讯模块;接听与外呼模块,分配一个人工坐席;音意理解模块,用于理解通话过程中的意图;声音克隆模块,将回复文本合成为对应话务员声音;人机交互模块,由语音机器人与客户通话;介入提示模块,对通话内容监测得到介入意向率,根据预定义规则提示人工坐席;人工介入模块,人工介入回复客户,并在通话中进行通话意图展示和通话提词,能够在通话时,人工坐席和语音机器人通话无差别切换,人工介入后,话务员能快速了解通话意图,介入通话,保证客户的通话体验良好。

Description

一种实现人机协同的语音通讯系统及方法
技术领域
本发明涉及智能通讯领域,更具体地说,它涉及一种实现人机协同的语音通讯系统及方法。
背景技术
随着AI和通信科技的快速发展,语音机器人已广泛应用各行各业。例如当企业需要和潜在客户进行沟通时,语音机器人能够大幅度降低人工外呼成本,提高外呼效率,增加对潜在客户的覆盖;例如客户有问题需要对接企业客服时,语音机器人能够快速回答已有模板的问题,效率高,减轻人工成本。
但是纯语音机器人存在外呼信息传达效率不高的问题,或是客户的问题问的复杂,超出模板外,语音机器人就会处理不了,达不成客户需求;并且鉴于对现有市场上语音机器人不够智能的认知,一般客户对于和语音机器人沟通这件事是排斥的,所以纯语音机器人很难独立工作。
相比于语音机器人,纯人工劳动力的优势在于常识积累和情绪识别,能够灵活应对更加复杂的状况,但工作量有限,情绪波动大,专业水平参差不齐。例如在人工坐席话务员进行电话销售时,真正的挑战往往不是专业度不足,而是不愿面对被客户拒绝和被挂电话的那份挫败感。
所以目前市场上更倾向于是人机协同的方式来运作,也就是先使用语音机器人对接客户,语音机器人不能解决了,再切换到人工。但是在人机切换后,话务员需要一定的时间去获取语音机器人和客户之间的通话信息,尤其是在客户面对语音机器人信息获取效率低时,还要给予话务员梳理通话内容的时间,就会造成客户体验差的不良后果,客户可能会产生反感甚至是厌恶的情绪,导致通话目的难以达成的问题的出现。
发明内容
本发明的目的是提供一种实现人机协同的语音通讯系统及方法,能够在通话时,人工坐席和语音机器人通话无差别切换,人工介入后,话务员能快速了解通话意图,保证客户的通话体验良好。
本发明的上述技术目的是通过以下技术方案得以实现的:一种实现人机协同的语音通讯系统,包括通讯模块,还包括:
接听与外呼模块,通话接通后,分配一个人工坐席;
音意理解模块,包含音意理解模型,用于理解通话过程中的意图;
声音克隆模块,包含声音克隆模型,用于将回复文本合成为对应话务员声音;
人机交互模块,由语音机器人调用音意理解模块得到客户意图并按照预先编好的话术,再调用声音克隆模块使用对应话务员声音与客户通话;
介入提示模块,包含量化分析子模块,对人机交互时的通话内容进行实时监测得到介入意向率,并根据预定义规则提示人工坐席;
人工介入模块,采用对应话务员语音回复客户和/或调用所述声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户,还包含能够调用所述音意理解模块的检索提词子模块为任一话务员进行通话意图展示和通话提词。
一种实现人机协同的语音通讯方法,包括以下步骤:通话接通后,使用接听与外呼模块分配一个人工坐席;
由人机交互模块中的语音机器人调用音意理解模块得到客户意图并按照预先编好的话术,再调用声音克隆模块使用对应话务员声音与客户通话;
由介入提示模块的量化分析子模块对人机交互时的通话内容进行实时监测,得到介入意向率,并根据预定义规则提示人工坐席;
当人工坐席接收到介入提示时,由人工介入模块介入通话,采用检索提词子模块展示人机交互通话过程中的意图,采用对应话务员语音回复客户和/或调用所述声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户,在通话过程中使用检索提词子模块为任一话务员进行通话提词。
优选的,所述量化分析子模块用于根据历史通话大数据和当前人工交互过程的对比分析,得到当前客户需要人工介入的介入意向率。
优选的,所述检索提词子模块在任一话务员选择人工介入时直接调用音意理解模块展示人机交互通话意图;所述检索提词子模块在人工介入通话过程中调用音意理解模块,得到最新通话意图,并从数据库中检索出参考信息生成回复文本并展示。
优选的,人工坐席介入的方式包括:
对应话务员直接语音回复客户;
任一话务员选择检索提词子模块生成的提词文本,由声音克隆模块生成语音回复客户;
任一话务员手动输入文本,由声音克隆模块生成语音回复客户;
任一话务员语音,使用声音克隆模块中的语音识别子模块将语音转换为文本,再由其中声音克隆模型生成语音回复客户。
优选的,所述音意理解模块中音意理解模型的生成和应用包括以下步骤:
S1、使用大量带有意图标注的语音数据对基于深度学习的音意理解模型进行训练;
S2、把训练后的音意理解模型部署到音意理解服务器;
S3、对话过程中收到语音数据,并输入到音意理解服务器中调用音意理解服务,返回识别出的意图。
优选的,所述声音克隆模型的生成和应用的步骤为:
A1、采集人工坐席对应话务员的声音语料,对初始声音克隆模型进行训练;
A2、把训练后的声音克隆模型部署到声音克隆服务器。
A3、将人工介入的回复文本合成为对应话务员声音播放给客户。
优选的,所述人工介入模块中还包含有质检模块,用于对任一话务员说话的语速、内容进行质检,并把质检结果实时反馈到人工坐席。
综上所述,本发明具有以下有益效果:
1、利用介入提示模块能够智能的给人工坐席提示,在最合适的时机提示话务员介入,避免因语音机器人不能很好回复客户,而人工没有及时介入,使得客户通话差的问题的发生;
2、本申请中的意图理解不是通过传统的ASR识别文本再用NLP识别意图,而是通过音意理解模型,直接从语音识别出用户意图,从效果、效率和成本上明显优于传统方法。
3、人工介入模块能够在通话时,有检索提词子模块来展示介入前的通话意图,无需话务员再去理解所有通话内容,直接了解客户意图,节省理解时间,使得客户的通话体验不受人机切换影响;在通话过程中,智能的识别客户意图并检索出相应的回复内容提示话务员,使得话务员在相关问题上响应更快,提高服务效率,保证客户通话体验;
4、利用声音克隆模块处理生成的人工坐席对应话务员声音,让客户感觉到自己是一直在与人工坐席话务员通话,能实现人工和语音机器人的无差别切换,从而能够提供给客户更好的通话感受;
5、人工介入的方式不局限于特定的话务员语音回复,可以采用多人、换人的方式来服务客户,能够提供给客户更好的通话体验。
附图说明
图1是本发明的系统框图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明提供一种实现人机协同的语音通讯系统,包括通讯模块,接听与外呼模块,通话接通后,分配一个人工坐席;
音意理解模块,包含音意理解模型,用于理解通话过程中的意图;
声音克隆模块,包含声音克隆模型,用于将回复文本合成为对应话务员声音;
人机交互模块,由语音机器人调用音意理解模块得到客户意图并按照预先编好的话术,再调用声音克隆模块使用对应话务员声音与客户通话;
介入提示模块,包含量化分析子模块,对人机交互时的通话内容进行实时监测得到介入意向率,并根据预定义规则提示人工坐席;
人工介入模块,采用对应话务员语音回复客户和/或调用声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户,还包含能够调用音意理解模块的检索提词子模块为任一话务员进行通话意图展示和通话提词。
对应的,本发明还提供一种实现人机协同的语音通讯方法,包括以下步骤:通话接通后,使用接听与外呼模块分配一个人工坐席;
由人机交互模块中的语音机器人调用音意理解模块得到客户意图并按照预先编好的话术,再调用声音克隆模块使用对应话务员声音与客户通话;
由介入提示模块的量化分析子模块对人机交互时的通话内容进行实时监测,得到介入意向率,并根据预定义规则提示人工坐席;
当人工坐席接收到介入提示时,由人工介入模块介入通话,采用检索提词子模块展示人机交互通话过程中的意图,采用对应话务员语音回复客户和/或调用声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户,在通话过程中使用检索提词子模块为任一话务员进行通话提词。
通讯模块实现基础的通讯功能,为外呼、接通、三方通话提供底层支持。
接听与外呼模块根据导入的号码呼叫客户或者接听客户打进的电话,接通后给每个接听和呼叫任务分配一个人工坐席,保证每一通电话都对应有一个人工坐席在服务。
音意理解模块,包含有音意理解模型,传统的音意理解模块大多是先通过语音识别技术获取文本再进行意图识别,而基于文本的意图识别的准确率严重依赖于语音识别技术的准确率。而本发明中音意理解模型采用基于深度学习的音意理解技术,直接用深度神经网络从输入的语音数据中识别出相应的意图,达到了减少语音识别造成的信息缺失,提高语音意图识别准确率的效果;
音意理解模型的生成和应用包括以下步骤:
S1、使用大量带有意图标注的语音数据对基于深度学习的音意理解模型进行训练;具体为:(1)首先接收声音序列数据输入,提取MFCC等语音特征;然后使用transformer神经网络,以这些语音特征数据作为输入,提取音素和字素特征;再把这些音素和字素特征输入到神经网络的输入层,对神经网络参数调优形成预训练模型;(2)在预训练模型的基础上,根据标注了意图的语音数据训练音意理解模型,首先收集包含用户意图的语音数据;再标注语音数据中所包含的用户意图类别,得到带有意图标签的用户语音;然后将带有意图标签的用户语音,转换为语音意图特征的音素和字素;最后载入预训练模型,将前一步得到的音素和字素输入到神经网络的输入层,训练音意理解模型。
S2、把训练后的音意理解模型部署到音意理解服务器;
S3、对话过程中收到语音数据,并输入到音意理解服务器中调用音意理解服务,返回识别出的意图,具体如下:输入待识别语音;对输入语音进行降噪、特征提取处理,将待识别语音转化为包含声音信息的特征向量;将该特征向量输入训练好的音意理解模型进行识别;输出识别后的语音意图。
声音克隆模块,包含有声音克隆模型和语音识别子模块,声音克隆模型的生成和应用的步骤为:A1、采集人工坐席对应话务员的声音语料,对初始声音克隆模型进行训练;A2、把训练后的声音克隆模型部署到声音克隆服务器;A3、将人工坐席介入的回复语音合成为对应话务员声音播放给客户。
其具体的步骤为:声音克隆模型由以下步骤得到:
(1)采集人工坐席对应话务员声音语料,语料采集模块为声音克隆模型的训练采集、收集语音语料数据,数据主要是话务员本人的真实说话语音,因此训练出的声音克隆模型和对应话务员的声音具有较高的相似性,可以实现语音机器人和人工坐席语音的无缝切换。
语料的来源包括:话术市场中话术的录音,通话过程中话务员应答的语音音频语料,人工专门为克隆模型采集(例如在录音室环境下按照指定的文稿朗读录音)的语料。
采集到的语料需要先进行语料自检,剔除偏差较大、背景音明显、音色偏差大的语料。然后对语料进行自动降噪增强处理。
(2)训练模型,基于上述对应话务员声音语料训练人工坐席专属的声音克隆模型。
对每个人工坐席,需要训练匹配对应话务员的声音克隆模型,以便在人工介入情况下尽可能地减小语音机器人声音和人工坐席话务员声音的差异。另外,由于底层模型的升级、优化,对已经上线的模型也需要支持反复的训练。
声音克隆模型的训练过程如下:
首先对采集的声音语料进行自检和降噪处理;采集到的语料一般都有对应的文字,但文字和音频经常有个别字词对应不准确的情况,所以需要对音频和文字的对应进行人工校对,确保发音和文字精确对应,包括发音人朗读时额外加上的语气词等;然后对语料中的文本进行正则化处理,将数字、年月日、小数、单位符号等转换为汉字,利用自然语言处理(NLP)技术对文本进行分词,进行词性标注,识别出姓名、机构名称,对中文进行多音字消歧;再人工标注出句子的韵律边界、重音、停顿、变调等特征;然后把文字转换为拼音和音素,并进行统一编码;通过NLP模型(例如BERT)进行字/词嵌入,把句子中的每个字或词转换成向量形式;对音频数据提取频谱特征;把文字嵌入向量和音频频谱特征一起输入声音克隆模型,运行反向传播算法进行迭代优化,直到模型收敛。
上述通过声音克隆模型合成语音的过程如下:
(1)部署上线,把训练调优完成的声音克隆模型部署到声音克隆服务器。
(2)合成语音,语音机器人服务或人工介入服务时,根据指定文本调用和人工坐席对应的声音克隆模型实时合成语音播放给客户。
语音合成的步骤如下:
首先对输入的待合成文本进行文本分析,通过文本正则化规则将数字、年月日、小数、单位符号等转换为汉字,利用自然语言处理(NLP)技术对文本进行分词,进行词性标注,识别出姓名、机构名称,对中文进行多音字消歧;再预测句子的韵律边界、重音、停顿、变调以及情感等影响发音的特征;然后把文字转换为拼音和音素,并进行统一编码;通过NLP模型(例如BERT)进行字/词嵌入,把句子中的每个字或词转换成向量形式;嵌入向量输入训练好的声音克隆模型,运行前向传播算法,输出声学特征;再通过声码器(vocoder,如wavenet,wavernn等网络)把声学特征转换为语音波形,从而得到对应的语音。
人工交互模块实现了一个基本的AI对话语音机器人,也就是语音机器人,在预先编写好的话术基础上与客户进行语音交互。而语音机器人对客户意图的理解使用的是音意理解模块中基于深度学习的音意理解模型,语音机器人和客户对话使用的音频是通过和人工坐席对应话务员声音相匹配的声音克隆模型合成得到的,且当前号码接通后,还会将语音机器人与客户的通话内容同步传输至当前人工坐席,以便人工介入时查看。
介入提示模块根据预定义规则和对话的动态信息,能够智能地给出人工坐席人工介入的提示,由人工坐席根据决定是否进行选择人工介入;
其中包含有量化分析子模块,用于根据历史通话大数据和当前人工交互过程的对比分析,得到当前客户需要人工介入的介入意向率,量化分析子模块会根据历史对话大数据分析各个流程节点,人工介入后产生意向客户的比率,称为“介入意向率”;
而预定义规则便是对介入意向率设定一个阈值,例如50%,在语音机器人与客户对话的过程中,若发现匹配的介入意向率超过该阈值,就提示人工坐席在此时介入有较高产生意向客户的可能。
介入提示模块查询匹配介入意向率时,采用的规则包括下列规则中的一个或多个:
(1)对话进入预定义的关键分支。
(2)客户说的话触发特定的关键词。
(3)识别出客户特定的意图。
(4)判断客户属于特定意向客户。
例如:贷款场景,在语音机器人与客户对话的过程中,客户说:“我最多能贷多少?贷的话有什么要求?”,进入了一个名为“回答额度”的流程节点,同时触发了关键词“什么要求”。查询统计数据,发现在“问额度”节点同时触发了关键词“什么要求”的介入意向率为75%,超过了上述阈值(50%)。这时,就可以提示人工坐席“介入意向率75%”,人工坐席点击该提示就可以进行人工介入。这里就同时用到了规则(1)和规则(2)。
又如:在语音机器人与客户对话的过程中,根据音意理解模型识别出的意图为“问联系方式”,而意图为“问联系方式”时的介入意向率为71%(超过50%),则提示人工坐席“介入意向率71%”。这里用到了规则(3)。
又如:在语音机器人与客户对话的过程中,根据话术中预先定义的意向判断规则,判定客户意向为B,且对B类客户的介入意向率为69%(超过50%),则提示人工坐席“介入意向率69%”。这里用到了规则(4)。
人工介入模块根据介入提示,选择介入人机交互,实现人工坐席、语音机器人和客户的三方通话,人工坐席介入可以为客户提供更复杂、灵活的服务。进入人工介入时,语音机器人停止自动语音交互,后续和客户的通话过程由话务员控制;
人工坐席介入的方式包括:
对应话务员直接语音回复客户;
任一话务员选择检索提词子模块生成的提词文本,由声音克隆模块生成语音回复客户;
任一话务员手动输入文本,由声音克隆模块生成语音回复客户;
任一话务员语音,使用声音克隆模块中的语音识别子模块将语音转换为文本,再由其中声音克隆模型生成语音回复客户。
具体的,检索提词子模块在任一话务员选择人工介入时直接调用音意理解模块展示人机交互通话意图;检索提词子模块在人工介入通话过程中调用音意理解模块,得到最新通话意图,并从数据库中检索出参考信息生成回复文本并展示。
检索提词子模块针对对话过程的动态信息,实时检索相关数据,对坐席给出提示或回复建议,根据对话的过程触发的预设关键词,结合音意理解模型识别出的用户意图,从数据库中检索出相关信息,例如常见问题、用户关心的数据;或者针对客户的话查找数据库中合适的回复建议。以上检索到的数据实时显示在人工坐席屏幕,供话务员介入时参考或直接选择使用,可以大大提高人工坐席的响应速度。
例如:贷款场景,在语音机器人或人工坐席与客户对话的过程中,客户说:“我最多能贷多少?贷的话有什么要求?”,音意理解模型识别出的意图为“问额度”,同时触发了关键词“贷多少”和“什么要求”,根据这些条件,依据话术中预先定义的规则,进一步地通过查询API接口从贷款业务数据库查询出贷款利率、额度等信息,动态地构造出提示语句“借贷利率5%,个人借款金额至少1万元,借款要提前1-3天告知机构”,显示到人工坐席,以便需要人工介入时参考。配合提示信息,还可以从常见问题库(FAQ)中查询出历史总结出的经验和答复语句,告知人工坐席介入后话务员应如何回复客户,如何引导客户意向,并对客户给出指导性建议,确保最终的成单。
具体的,人工介入模块中还包含有质检模块,用于对任一话务员说话的语速、内容进行质检,并把质检结果实时反馈到人工坐席。
质检模块,能够在通话中,实时提醒话务员,实现优化客户通话体验的效果。
内容质检的方法是:根据分词结果和敏感词库进行匹配,匹配方法使用正则表达式和预定义规则库,对匹配结果进行统计分析。
语速质检方法是:先用语音识别技术把语音识别成文字,在根据语音时长和字数计算语速;把计算出的当前语速和历史平均语速相比,如果显著高于历史平均语速,则认为语速过快;
例如,如果话务员说话情绪不对,或有超出服务范围的语言时,给予提示警告,确保客户体验。
例如:人工坐席介入时,话务员由于情绪激动,辱骂客户,质检模块根据内置的敏感词库匹配了脏话的敏感词,说明坐席人员态度恶劣。该模块就把这一记录推送到主管,主管就可以对他进行批评教育,提出警告。又如:人工坐席介入时,质检模块用通话结束前坐席说的最后一句话去匹配内置的礼貌用语词库,可以检查话务员是否使用了“再见”、“谢谢”等礼貌性词语结束对话,就可以帮助改善服务态度。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种实现人机协同的语音通讯系统,包括通讯模块,其特征是,还包括:
接听与外呼模块,通话接通后,分配一个人工坐席;
音意理解模块,包含音意理解模型,用于理解通话过程中的意图;
声音克隆模块,包含声音克隆模型,用于将回复文本合成为对应话务员声音;
人机交互模块,由语音机器人调用音意理解模块得到客户意图并按照预先编好的话术,再调用声音克隆模块使用对应话务员声音与客户通话;
介入提示模块,包含量化分析子模块,对人机交互时的通话内容进行实时监测得到介入意向率,并根据预定义规则提示人工坐席;
人工介入模块,采用对应话务员语音回复客户和/或调用所述声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户,还包含能够调用所述音意理解模块的检索提词子模块为任一话务员进行通话意图展示和通话提词。
2.根据权利要求1所述的一种实现人机协同的语音通讯系统,其特征是,所述人工介入模块中还包含有质检模块,用于对任一话务员说话的语速、内容进行质检,并把质检结果实时反馈到人工坐席。
3.一种实现人机协同的语音通讯方法,其特征是,包括以下步骤:通话接通后,使用接听与外呼模块分配一个人工坐席;
由人机交互模块中的语音机器人调用音意理解模块得到客户意图并按照预先编好的话术,再调用声音克隆模块使用对应话务员声音与客户通话;
由介入提示模块的量化分析子模块对人机交互时的通话内容进行实时监测,得到介入意向率,并根据预定义规则提示人工坐席;
当人工坐席接收到介入提示时,由人工介入模块介入通话,采用检索提词子模块展示人机交互通话过程中的意图,采用对应话务员语音回复客户和/或调用所述声音克隆模块将任一话务员的回复内容处理为对应话务员声音回复客户,在通话过程中使用检索提词子模块为任一话务员进行通话提词。
4.根据权利要求3所述的一种实现人机协同的语音通讯方法,其特征是,所述量化分析子模块用于根据历史通话大数据和当前人工交互过程的对比分析,得到当前客户需要人工介入的介入意向率。
5.根据权利要求3所述的一种实现人机协同的语音通讯方法,其特征是,所述检索提词子模块在任一话务员选择人工介入时直接调用音意理解模块展示人机交互通话意图;所述检索提词子模块在人工介入通话过程中调用音意理解模块,得到最新通话意图,并从数据库中检索出参考信息生成回复文本并展示。
6.根据权利要求3所述的一种实现人机协同的语音通讯方法,其特征是,人工坐席介入的方式包括:
对应话务员直接语音回复客户;
任一话务员选择检索提词子模块生成的提词文本,由声音克隆模块生成语音回复客户;
任一话务员手动输入文本,由声音克隆模块生成语音回复客户;
任一话务员语音,使用声音克隆模块中的语音识别子模块将语音转换为文本,再由其中声音克隆模型生成语音回复客户。
7.根据权利要求3所述的一种实现人机协同的语音通讯方法,其特征是,所述音意理解模块中音意理解模型的生成和应用包括以下步骤:
S1、使用带有意图标注的语音数据对基于深度学习的音意理解模型进行训练;
S2、把训练后的音意理解模型部署到音意理解服务器;
S3、对话过程中收到语音数据,并输入到音意理解服务器中调用音意理解服务,返回识别出的意图。
8.根据权利要求3所述的一种实现人机协同的语音通讯方法,其特征是,所述声音克隆模型的生成和应用的步骤为:
A1、采集人工坐席对应话务员的声音语料,对初始声音克隆模型进行训练;
A2、把训练后的声音克隆模型部署到声音克隆服务器;
A3、将人工介入的回复文本合成为对应话务员声音播放给客户。
CN202010346872.9A 2020-04-28 2020-04-28 一种实现人机协同的语音通讯系统及方法 Active CN111246027B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010346872.9A CN111246027B (zh) 2020-04-28 2020-04-28 一种实现人机协同的语音通讯系统及方法
US17/420,981 US11380327B2 (en) 2020-04-28 2021-04-02 Speech communication system and method with human-machine coordination
SG11202106816PA SG11202106816PA (en) 2020-04-28 2021-04-02 Speech Communication System And Method With Human-Machine Coordination
EP21731879.9A EP3893477A4 (en) 2020-04-28 2021-04-02 SYSTEM AND METHOD FOR INTERACTIVE VOICE COMMUNICATION (HUMAN-IN-THE-LOOP)
PCT/CN2021/085323 WO2021160191A1 (zh) 2020-04-28 2021-04-02 一种实现人机协同的语音通讯系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010346872.9A CN111246027B (zh) 2020-04-28 2020-04-28 一种实现人机协同的语音通讯系统及方法

Publications (2)

Publication Number Publication Date
CN111246027A CN111246027A (zh) 2020-06-05
CN111246027B true CN111246027B (zh) 2021-02-12

Family

ID=70875595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010346872.9A Active CN111246027B (zh) 2020-04-28 2020-04-28 一种实现人机协同的语音通讯系统及方法

Country Status (5)

Country Link
US (1) US11380327B2 (zh)
EP (1) EP3893477A4 (zh)
CN (1) CN111246027B (zh)
SG (1) SG11202106816PA (zh)
WO (1) WO2021160191A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246027B (zh) * 2020-04-28 2021-02-12 南京硅基智能科技有限公司 一种实现人机协同的语音通讯系统及方法
CN111916073B (zh) * 2020-06-22 2023-10-24 深圳追一科技有限公司 机器人外呼控制方法和装置、服务器、计算机可读存储介质
CN111775165A (zh) * 2020-07-13 2020-10-16 南京硅基智能科技有限公司 一种实现移动式智能客服机器人的系统、机器人终端以及后端处理模块
CN111899735A (zh) * 2020-07-23 2020-11-06 湖南三湘银行股份有限公司 一种银行智能用户交互系统
CN111885273B (zh) * 2020-07-24 2021-10-15 南京易米云通网络科技有限公司 人机协作可管控智能语音外呼方法及智能外呼机器人平台
CN111885272B (zh) * 2020-07-24 2021-11-16 南京易米云通网络科技有限公司 呼叫中心座席支持电话智能外呼方法及智能呼叫中心系统
CN111930950B (zh) * 2020-09-18 2021-04-06 深圳追一科技有限公司 多意图响应方法、装置、计算机设备和存储介质
CN111988476B (zh) * 2020-09-25 2021-03-16 南京酷朗电子有限公司 客户服务系统的自动语音协同工作方法
CN112347768B (zh) * 2020-10-12 2023-06-27 出门问问(苏州)信息科技有限公司 一种实体识别方法及装置
CN112669863A (zh) * 2020-12-28 2021-04-16 科讯嘉联信息技术有限公司 一种基于变声能力的人机接力服务方法
CN112967725A (zh) * 2021-02-26 2021-06-15 平安科技(深圳)有限公司 语音对话数据处理方法、装置、计算机设备及存储介质
CN113067952B (zh) * 2021-03-31 2023-04-14 中国工商银行股份有限公司 用于多台机器人的人机协同无感控制方法和装置
US11545141B1 (en) * 2021-04-16 2023-01-03 ConverzAI Inc. Omni-channel orchestrated conversation system and virtual conversation agent for realtime contextual and orchestrated omni-channel conversation with a human and an omni-channel orchestrated conversation process for conducting realtime contextual and fluid conversation with the human by the virtual conversation agent
CN113158058A (zh) * 2021-04-30 2021-07-23 南京硅基智能科技有限公司 服务信息的发送方法及装置、接收方法及装置
US20230015697A1 (en) * 2021-07-13 2023-01-19 Citrix Systems, Inc. Application programming interface (api) authorization
CN113726964B (zh) * 2021-09-03 2023-06-30 中国银行股份有限公司 外呼处理方法及装置、存储介质及电子设备
CN113890948B (zh) * 2021-09-17 2023-06-20 中国平安财产保险股份有限公司 基于语音外呼机器人对话数据的资源分配方法及相关设备
CN113903358B (zh) * 2021-10-15 2022-11-04 贝壳找房(北京)科技有限公司 语音质检方法、可读存储介质及计算机程序产品
CN116600053B (zh) * 2023-07-17 2023-10-27 北京人众互联信息技术有限公司 一种基于ai大语言模型的客服系统
CN117411970A (zh) * 2023-10-17 2024-01-16 广州易风健康科技股份有限公司 一种基于声音处理的人机耦合客服控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108769440A (zh) * 2018-06-06 2018-11-06 北京京东尚科信息技术有限公司 前置分流方法和装置
CN109151226A (zh) * 2018-08-09 2019-01-04 北京烽火万家科技有限公司 一种智能语音客服系统
CN110266900A (zh) * 2019-06-11 2019-09-20 平安科技(深圳)有限公司 客户意图的识别方法、装置及客服系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US20010047261A1 (en) * 2000-01-24 2001-11-29 Peter Kassan Partially automated interactive dialog
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US8825379B2 (en) * 2005-01-05 2014-09-02 Sirius Xm Connected Vehicle Services Inc. Systems and methods for off-board voice-automated vehicle navigation
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9172805B1 (en) * 2014-12-03 2015-10-27 United Services Automobile Association (Usaa) Edge injected speech in call centers
CN104809197A (zh) * 2015-04-24 2015-07-29 同程网络科技股份有限公司 基于智能机器人的在线问答方法
US10446142B2 (en) * 2015-05-20 2019-10-15 Microsoft Technology Licensing, Llc Crafting feedback dialogue with a digital assistant
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报系统及语音播报方法
US10547728B2 (en) * 2016-01-21 2020-01-28 Avaya Inc. Dynamic agent greeting based on prior call analysis
KR102329783B1 (ko) * 2016-06-13 2021-11-23 구글 엘엘씨 인간 운영자로의 에스컬레이션
CN108205525B (zh) * 2016-12-20 2021-11-19 阿里巴巴集团控股有限公司 基于用户语音信息确定用户意图的方法和装置
KR102338618B1 (ko) 2017-07-25 2021-12-10 삼성에스디에스 주식회사 휴먼 에이전트에 의하여 보조 되는 무인 대화 서비스 제공 방법
US10171662B1 (en) * 2017-09-22 2019-01-01 International Business Machines Corporation Intervention in conversation between virtual agent and user
CN108184031A (zh) * 2017-12-26 2018-06-19 苏州帝博信息技术有限公司 基于ai模拟人声的人机对话的方法
CN108777751A (zh) * 2018-06-07 2018-11-09 上海航动科技有限公司 一种呼叫中心系统及其语音交互方法、装置和设备
US11222290B2 (en) * 2019-03-18 2022-01-11 Servicenow, Inc. Intelligent capability extraction and assignment
CN110113501A (zh) * 2019-04-15 2019-08-09 中国平安人寿保险股份有限公司 任务下发方法、装置、计算机设备及存储介质
CN110035187A (zh) * 2019-04-16 2019-07-19 浙江百应科技有限公司 一种在电话中实现ai和人工坐席无缝切换的方法
US10574822B1 (en) * 2019-09-16 2020-02-25 Capital One Services, Llc Computer-based systems and methods configured for one or more technological applications for the automated assisting of telephone agent services
US20210174150A1 (en) * 2019-12-07 2021-06-10 Waste Repurposing International, Inc. Automated Classification Engine with Human Augmentation
US11228682B2 (en) * 2019-12-30 2022-01-18 Genesys Telecommunications Laboratories, Inc. Technologies for incorporating an augmented voice communication into a communication routing configuration
US11367080B2 (en) * 2019-12-30 2022-06-21 Genesys Telecommunications Laboratories, Inc. Systems and methods relating to customer experience automation
CN111246027B (zh) 2020-04-28 2021-02-12 南京硅基智能科技有限公司 一种实现人机协同的语音通讯系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108769440A (zh) * 2018-06-06 2018-11-06 北京京东尚科信息技术有限公司 前置分流方法和装置
CN109151226A (zh) * 2018-08-09 2019-01-04 北京烽火万家科技有限公司 一种智能语音客服系统
CN110266900A (zh) * 2019-06-11 2019-09-20 平安科技(深圳)有限公司 客户意图的识别方法、装置及客服系统

Also Published As

Publication number Publication date
US11380327B2 (en) 2022-07-05
CN111246027A (zh) 2020-06-05
EP3893477A1 (en) 2021-10-13
WO2021160191A1 (zh) 2021-08-19
US20220044679A1 (en) 2022-02-10
EP3893477A4 (en) 2022-05-18
SG11202106816PA (en) 2021-09-29

Similar Documents

Publication Publication Date Title
CN111246027B (zh) 一种实现人机协同的语音通讯系统及方法
US20230012984A1 (en) Generation of automated message responses
CN111128126B (zh) 多语种智能语音对话的方法及系统
US6853971B2 (en) Two-way speech recognition and dialect system
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
US20110172989A1 (en) Intelligent and parsimonious message engine
CN111508501B (zh) 一种电话机器人中带口音的语音识别方法及系统
JP2020071675A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
US6675143B1 (en) Automatic language identification
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
JP2011217018A (ja) 音声応答装置及びプログラム
CN109616116B (zh) 通话系统及其通话方法
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
KR102407055B1 (ko) 음성인식 후 자연어 처리를 통한 대화 품질지수 측정장치 및 그 방법
Reichl et al. Language modeling for content extraction in human-computer dialogues
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
Furui Prospects for spoken dialogue systems in a multimedia environment
Furui Toward the ultimate synthesis/recognition system.
Devillers et al. F0 and pause features analysis for anger and fear detection in real-life spoken dialogs
Dewasurendra et al. Emergency Communication Application for Speech and Hearing-Impaired Citizens
Sharman Speech interfaces for computer systems: Problems and potential
CN117411970A (zh) 一种基于声音处理的人机耦合客服控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant