CN116386604A - 基于用户情绪状态的自适应外呼对话策略配置方法及装置 - Google Patents
基于用户情绪状态的自适应外呼对话策略配置方法及装置 Download PDFInfo
- Publication number
- CN116386604A CN116386604A CN202310017555.6A CN202310017555A CN116386604A CN 116386604 A CN116386604 A CN 116386604A CN 202310017555 A CN202310017555 A CN 202310017555A CN 116386604 A CN116386604 A CN 116386604A
- Authority
- CN
- China
- Prior art keywords
- user
- question
- emotion
- module
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 147
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 51
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 230000008901 benefit Effects 0.000 claims description 83
- 230000002996 emotional effect Effects 0.000 claims description 28
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000002360 preparation method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 206010049976 Impatience Diseases 0.000 description 8
- 230000008909 emotion recognition Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 206010027951 Mood swings Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 241001122315 Polites Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Manipulator (AREA)
Abstract
本发明公开了基于用户情绪状态的自适应外呼对话策略配置方法及装置,通过搭建用户情绪检测模块,并训练生成用户的情绪检测模型,用于分析检测用户输入的语音,以获取用户的情绪状态;通过搭建语义分析模块,分析用户的回复是否符合预期答案;通过搭建话术配置模块,存储配置每一个问题对应的话术和预期答案;通过搭建问答策略处理模块,基于每一轮次的人机交互结果,制定下一轮次的机器人问话策略,从而对智能外呼机器人的问答话术逻辑进行自适应的调整,以提高智能外呼机器人外呼答复的质量,降低用户的挂断率。
Description
技术领域
本发明涉及智能外呼技术领域,尤其是涉及基于用户情绪状态的自适应外呼对话策略配置方法及装置。
背景技术
随着人工智能技术的飞速发展,尤其是自动语音识别技术ASR(Automatic SpeechRecognition)、自然语言处理技术NLP(Natural LanguageProcessing)的不断发展,越来越多的智能外呼机器人在真实业务场景中获得了实践落地,且市场反馈表现良好,替代了大量人力。然而,现有技术中,智能机器人的问答响应模式还是基于固定的模版配置。虽然,便捷的前端可视化界面允许配置多种模版,但在一通对话中,往往只能启用一种。这就导致,机器人与用户的交互是刻板僵硬的,机器人无法根据用户的情绪状态调整自身的话术或是问答策略,而这,也是用户挂断的核心原因。
现有技术中基于语音情绪识别的相关专利如下:
相关专利文献,“语音情绪识别方法和装置”,CN108122552B,该专利主要描述了一种语音情绪识别方法,其主要方法是将语音片段的音频特征向量与多个情绪特征模型进行匹配,来得到对应的情绪分类。通过对录音语音情绪识别的方法,来解决现有技术无法实时监测呼叫中心系统中客服和客户的情绪状态的问题。
相关专利文献,“一种针对呼叫中心通话的语音情绪识别及应用系统”,CN109767791B,该专利主要描述一种针对呼叫中心通话的语音情绪识别及应用系统,能够使客服人员准确了解的客户的情绪,同时提供有效的应答方案,而且能够对客服人员进行准确地考核。
为了提高智能外呼机器人对用户情绪状态的分析并进行相应答复的能力,基于语音情绪的识别技术,降低用户的挂断率,需要一种能基于用户的情绪和回复的实时分析系统,并根据分析结果,自适应调整问答话术的策略。该策略的目标应为,尽可能的留存客户,更准确高效的完成智能外呼机器人所有轮次的任务。
发明内容
为解决现有技术的不足,基于用户语音情绪识别和语义分析,实现智能外呼机器人自适应的调整对应话术的功能,本发明采用如下的技术方案:
基于用户情绪状态的自适应外呼对话策略配置方法,包括如下步骤:
步骤S1:搭建用户情绪检测模块,并训练生成用户的情绪检测模型,用于分析检测用户输入的语音,以获取用户的情绪状态;
通过构建语音情绪分析模型,对用户输入语音的分析,语音情绪分析模型的训练,包括如下步骤:
步骤S1.1:获取用户的语音数据并标注情绪标签,得到训练数据;
步骤S1.2:提取每一段语音数据的梅尔频率倒谱系数特征,并输入预定义的声纹感知分类模型,进行情绪识别,并基于识别的情绪与标注的情绪标签,训练语音情绪分析模型。
步骤S2:搭建语义分析模块,分析用户的回复是否符合预期答案;
步骤S3:搭建话术配置模块,存储配置每一个问题对应的话术和预期答案;
步骤S4:搭建问答策略处理模块,基于每一轮次的人机交互结果,制定下一轮次的机器人问话策略,包括如下步骤:
步骤S4.1:针对每一个问题,从话术配置模块中,选择对应的问题配置的答案组,作为该问题的候选提问话术;
步骤S4.2:基于提问话术和用户的情绪状态,选择不同用户群体的对应的情绪概率均值;
步骤S4.3:基于提问话术和用户反馈的完整程度,选择对应的获取答案的概率均值;
步骤S4.4:设定情绪收益和获取答案的收益,基于选择的对应情绪概率均值和获取答案的概率均值,计算每一轮次的期望收益,根据期望收益制定机器人的问话策略。
进一步地,所述步骤S4.2中,基于正向和负向的情绪波动,以及所述提问话术,选择对应的正向和负向的概率均值;所述步骤S4.3中,基于得到答案和未得答案,以及所述提问话术,选择对应的得到答案和未得答案的概率均值。
进一步地,所述步骤S4.4包括如下步骤:
步骤S4.4.1:基于不同种类情绪体验的提问话术,计算期望收益,选择提问话术;
步骤S4.4.2:根据提问话术,计算期望收益,选择下一轮问答策略;
利用步骤S1的用户情绪检测模块,对用户的语音回复进行检测,得到当前用户的情绪状态,利用步骤S2的语义分析模块,对用户的答案进行分析,确定当前用户是否回答了问题;
若用户回答了问题,则返回步骤S4.4.1,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术。
进一步地,所述步骤S4.2中,构建追问的问答策略,即在首次问题并未能得出清晰答案后,再次进行提问的问答策略,基于步骤S1,选择不同用户群体的对应的追问情绪概率均值;
所述步骤S4.4.2中,若分析出用户未回答问题,则此时需要考虑继续追问也会带来情绪的波动,根据检测得到的用户情绪状态对应的追问概率均值和收益,以及能否得到答案的概率均值和收益,计算是否执行追问的对话策略,若计算出的收益小于设定的阈值,则不执行追问的对话策略,返回步骤S4.4.1,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术;若计算出的收益大于设定的阈值,则执行追问的对话策略。
基于用户情绪状态的自适应外呼对话策略配置装置,包括用户情绪检测模块、语义分析模块、话术配置模块和问答策略处理模块;
所述用户情绪检测模块,经训练生成用户的情绪检测模型,用于分析检测用户输入的语音,以获取用户的情绪状态;
所述语义分析模块,分析用户的回复是否符合预期答案;
所述话术配置模块,存储配置每一个问题对应的话术和预期答案;
所述问答策略处理模块,基于每一轮次的人机交互结果,制定下一轮次的机器人问话策略,包括策略准备模块和策略执行模块;
所述策略准备模块,针对每一个问题,从话术配置模块中,选择对应的问题配置的话术组,作为该问题的候选提问话术;基于提问话术和用户的情绪状态,选择不同用户群体的对应的情绪概率均值;基于提问话术和用户反馈的完整程度,选择对应的获取答案的概率均值;
所述策略执行模块,设定情绪收益和获取答案的收益,基于选择的对应情绪概率均值和获取答案的概率均值,计算每一轮次的期望收益,根据期望收益制定机器人的问话策略。
进一步地,所述用户情绪检测模块,包括第一语音接受模块和语音情绪分析模块,语音情绪分析模块包括预处理模块和语音情绪分析模型;
所述第一语音接受模块,用于接受用户的语音信号;
所述预处理模块,采用语音的人声端点检测,提取接受到的语音中含有人声的音频数据;
所述语音情绪分析模型,是预先训练得到的模型推理文件,能根据输入的语音数据,推理出对应的情绪状态。
进一步地,所述语义分析模块,包括第二语音接受模块和语义分析模块,语义分析模块包括语音转文字模块和关键词匹配模块;
所述第二语音接受模块,用于接受用户的语音信号;
所述语音转文字模块,采用开源的ASR(Automatic speech recognition)自动语音识别模型,将语音转换为文字;
所述关键词匹配模块,通过候选关键词词典和正则匹配器,将语音转换后的文字与关键词词典进行正则匹配,匹配中的关键词作为候选的答案。
进一步地,所述策略准备模块,是基于正向和负向的情绪波动,以及所述提问话术,选择对应的正向和负向的概率均值。
进一步地,所述策略执行模块,基于不同种类情绪体验的提问话术,计算期望收益,选择提问话术;根据提问话术,计算期望收益,选择下一轮问答策略;利用所述用户情绪检测模块,对用户的语音回复进行检测,得到当前用户的情绪状态,利用所述语义分析模块,对用户的答案进行分析,确定当前用户是否回答了问题;若用户回答了问题,则返回继续选择提问话术,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术。
进一步地,所述策略执行模块中,构建追问的问答策略,即在首次问题并未能匹配预期答案后,再次进行提问的问答策略,基于所述用户情绪检测模块,选择不同用户群体的对应的追问情绪概率均值;若分析出用户未回答问题,则此时需要考虑继续追问也会带来情绪的波动,根据检测得到的用户情绪状态对应的追问概率均值和收益,以及能否得到答案的概率均值和收益,计算是否执行追问的对话策略,若计算出的收益小于设定的阈值,则不执行追问的对话策略,返回继续选择提问话术,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术;若计算出的收益大于设定的阈值,则执行追问的对话策略。
本发明的优势和有益效果在于:
本发明的基于用户情绪状态的自适应外呼对话策略配置方法及装置,基于用户语音的情绪分析和语义分析,通过预先设置的概率模型,对每一个问答轮次都对预期的收益进行计算,并以此为依据,对智能外呼机器人的问答话术逻辑进行自适应的调整,从而提高外呼答复的质量,降低挂断率。
附图说明
图1是本发明中基于用户情绪状态的自适应外呼对话策略配置方法的流程图。
图2是本发明中基于用户情绪状态的自适应外呼对话策略配置装置的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,基于用户情绪状态的自适应外呼对话策略配置方法,包括如下步骤:
步骤S1:搭建用户情绪检测模块;
该模块主要负责对用户输入的语音进行分析检测,主要分析的目标是用户的情绪状态。
具体的,该模块包括2个部分,第一个部分是语音接受模块,该模块负责接受用户的语音信号,第二个部分是语音情绪分析模块,该模块主要包括语音的预处理模块和语音情绪分析模型。
具体的,预处理模块包括语音的人声端点检测,主要目的是提取接受到的语音中,含有人声的那一部分音频数据。这是一种语音活性检测技术(Voice ActivityDetection)。
具体的,语音情绪分析模型是预先训练得到的模型推理文件,能根据输入的语音数据,推理出对应的情绪状态。
具体的,语音情绪分析模型的训练步骤如下。
步骤S1.1:获取用户的语音数据;
用户的语音数据通常指的是实时输入的语音数据,也可以是人工预先录制好的录音数据。优选地,这部分数据应该尽可能包括多的不同情绪下的录音数据。具体的,所收集的数据应该至少包含3种情绪状态,“平和”,“急躁”,“愉悦”,或贴近于这三种状态的情绪。收集后的数据由人工校验标注,并规范整理出模型训练所需要的训练数据。
步骤S1.2:训练语音情绪分析模型;
针对步骤S1.1获取到的训练音频数据,首先提取每一段音频的梅尔频率倒谱系数特征(MFCC,Mel-frequency cepstral coefficients),其次将其输入到预先定义好的声纹感知分类模型中,进行情绪的识别。
具体的,声纹感知分类模型可以是传统的机器学习方法,包括,支持向量机模型,高斯混合模型,隐马尔可夫模型等,或者是深度神经网络模型,或者是决策树分类模型。
优选的,本发明具体采用的模型是深度神经网络中的卷积神经网络模型。因为其具有较强的特征提取能力,适用于分类的场景。其采用的分类目标函数是交叉熵损失函数。
具体的,模型训练的目标为3个分类,分别为,“平和”,“急躁”,“愉悦”。
步骤S2:搭建语义分析模块;
该模块主要负责对用户对输入的语音进行分析检测,主要分析的目标是用户的回复是否为预期答案。
具体的,该模块包括2个部分,第一个部分是语音接受模块,该模块负责接受用户的语音信号。
第二个部分是语义分析模块,该模块主要包括语音转文字模块和关键词匹配模块。
具体的,语音转文字模块将采用开源的ASR(Automatic speech recognition)识别模型接口。
具体的,关键词匹配模块主要包括候选关键词词典和正则匹配器,该模块会对音频转换后的文字与关键词词典进行匹配,匹配中的关键词,即为候选的答案。
步骤S3:搭建话术配置模块;
该模块主要负责存储每一个问题的配置模版,并且应设计为是可视化配置的。
人工可以基于该模版针对每一个问题,都配置不同的话术,并设置对应的期望答案。
具体的,其中的一种存储格式如下,
{“问题1”:“问题内容”:x,
“预期答案”:【xxx,xxx,...】,
“问询话术”:【xxx,xxx,xxx】
“问题2”:...}
步骤S4:搭建问答策略处理模块;
该模块主要负责针对每一轮次的人机交互结果,制定下一轮次的机器人响应策略。
具体的,以一种“出院病人的随访”作为场景案例进行阐述。
假设该场景案例,涉及2个问题,示例如下,
Q1:对康复效果是否满意?
Q2:您的入院途径?
下面将针对这两个问题,详细阐述具体的问答响应策略。
步骤S4.1:针对每一个问题,设定3种提问话术;
具体的,该场景案例主要分为以下3种提问话术,不同的提问话术,所占用的时长不一样,带给用户的情绪体验也不一样,对于急躁的用户,往往简单的话术即可。相反,对于平静的用户,采用礼貌的话术。而不同话术,针对不同用户群体,得到清晰答案概率也不一样。
具体地,每一个问题对应的提问话术,示例如下表,
步骤S4.2:针对每一种提问话术,选择不同用户群体的对应的情绪概率均值。
具体的,每一种提问话术,都会对不同用户群体,产生不同的情绪波动。主要的情绪波动为正向和负向。在收集整理过往调查问卷数据集后,按步骤S1定义的用户情绪状态,即急躁、平和、愉悦,分别统计对应的概率均值。
具体的,其中的一种平和的概率统计如表1所示:
表1平和-提问话术概率均值
直接提问 | 直接提问含答案 | 完整提问含答案 | |
正向 | Pqt1_pos=0.8 | Pqt2_pos=0.7 | Pqt3_pos=0.6 |
负向 | Pqt1_neg=0.2 | Pqt2_neg=0.3 | Pqt3_neg=0.4 |
具体的,还有一种特殊的提问方式,即为追问。其使用触发场景为:在首次问题后,未能得出清晰答案后,再次进行提问的问答策略。该策略虽然能提高获得答案的概率,但往往也会激化用户的情绪。在收集整理过往调查问卷数据后,按步骤S1定义的用户情绪状态,即急躁、平和、耐心,分析统计对应的概率均值。
具体的,其中的一种急躁的概率统计如表2所示:
表2急躁-追问概率均值
追问 | |
正向 | Pplus_pos=0.2 |
负向 | Pplus_pos=0.8 |
步骤S4.3:针对每一种提问话术,选择对应的获取答案的概率均值。
具体的,每一种提问话术,用户给到的反馈肯定有差异的。对于越完整的提问话术,用户往往会有较大的概率给出预期的答案话术。在收集整理过往调查问卷数据集后,分别统计对应的概率均值。
具体的,其中的一种话术对应答案的概率均值,如表3所示:
表3话术对应答案概率均值
步骤S4.4:计算每一轮次的期望收益,制定机器人的话术策略。
为方便表述,现定义一些数学表示符号及对应默认值:
E_pos:常规正向情绪的收益,默认值为1
E_neg:常规负向情绪的收益,默认值为-1
E_pos_plus:追问正向情绪的收益,默认值为0.8
E_neg_plus:追问负向情绪的收益,默认值为-1.2
E_yes:得到答案的收益,默认值为1
E_no:未得答案的收益,默认值为-1
E_total:总收益
其中一种优选的策略中,随着对话轮次的增多,正向/负向情绪的收益也可以是线性变化的,为方便阐述,本具体案例,采用固定值。
每一轮次,机器人都有对应的话术策略,其最终的选择标准取决于最大化收益期望。
具体的,每一种提问话术的最终收益期望计算公式如下:
Etotal=Epos*Ppos+Eneg*Pneg+Eyes*Pyes+Eno*Pno
步骤S4.4.1:计算期望收益,选择首轮提问话术。
具体的,在刚拨通用户电话时,由于对用户画像信息的模糊,将直接采用“平和用户”的概率默认值,进行策略的选择,
具体的,每一个提问话术的收益计算如下:
Etotal_直接提问=0.8*1-0.2*1+0.3*1-0.7*1=0.2
Etotal_直接提问含答案=0.7*1-0.3*1+0.6*1-0.4*1=0.6
Etotal_完整提问含答案=0.6*1-0.4*1+0.9*1-0.1*1=1.0
显然,最终最大的收益为采用“完整提问含答案”的话术,预期收益为1.0。
步骤S4.4.2:计算期望收益,选择次轮问答策略。
具体的,根据步骤S4.4.1,采用“完整提问含答案”的话术,对第一个问题进行提问,得到用户的语音回复后,制定次轮的问答策略。
具体的,利用步骤S1的情绪检测模块,对用户的语音回复进行检测,检测当前的用户处于哪一种情绪状态之下。
具体的,利用步骤S2的语义分析模块,对用户的答案进行分析,分析当前的用户语音是否回答了问题。此时会有2种情况,一种情况为得到答案,完成该问题。
步骤S4.4.2.1:若完成了问题一,则只需要重复步骤S4.4.1,根据检测得到的新的用户情绪状态,利用该情绪对应的提问话术概率均值,来计算每一个提问话术的收益,来确定第二个问题的提问话术。
具体的,假设当前的用户情绪状态检测出为“急躁”,对应的提问话术的情绪概率均值如表4所示:
表4急躁-提问话术概率均值
直接提问 | 直接提问含答案 | 完整提问含答案 | |
正向 | Pqt1_pos=0.7 | Pqt2_pos=0.5 | Pqt3_pos=0.1 |
负向 | Pqt1_neg=0.3 | Pqt2_neg=0.5 | Pqt3_neg=0.9 |
则对应的第二题的期望收益计算如下:
Etotal_直接提问=0.7*1-0.3*1+0.3*1-0.7*1=0.0
Etotal_直接提问含答案=0.5*1-0.5*1+0.6*1-0.4*1=0.2
Etotal_完整提问含答案=0.1*1-0.9*1+0.9*1-0.1*1=0.0
如上,第二题的最大收益为0.2,对应的策略为直接提问含答案,此时对应的两题的总期望收益统计如表5所示:
期望收益 | 对应策略 | |
轮次1 | 1.0 | 问题1:完整提问含答案 |
轮次2 | 0.2 | 问题2:直接提问含答案 |
总体 | 1.2 | - |
步骤S4.4.2.2若没有完成问题一,则此时需要考虑继续追问也会带来情绪的波动。具体的,此时的期望收益计算公式,更改如下,
Eplus=Eyes*Pplus_yes+Eno*Pplus_no+Epos_plus*Pplus_pos+Eneg_plus*Pplus_neg
若追问的期望收益大于0,则执行,追问的对话策略;反之,则不执行,跳过该问题,重复步骤S4.4.1,根据检测得到的新的用户情绪状态,利用该情绪对应的提问话术概率均值,来计算每一个提问话术的收益,来确定第二个问题的提问话术。
具体的,依旧假设当前的用户情绪状态检测出为“急躁”。针对第一个问题,追问这一策略的收益为:
Eplus=1*0.7-1*0.3+0.2*0.8-0.8*1.2=-0.4
收益小于0,不执行追问策略。重复执行步骤S4.3.2.1。
如图2所示,基于用户情绪状态的自适应外呼对话策略配置装置,包括用户情绪检测模块、语义分析模块、话术配置模块和问答策略处理模块;
用户情绪检测模块,经训练生成用户的情绪检测模型,用于分析检测用户输入的语音,以获取用户的情绪状态;包括第一语音接受模块和语音情绪分析模块,语音情绪分析模块包括预处理模块和语音情绪分析模型;
第一语音接受模块,用于接受用户的语音信号;
预处理模块,采用语音的人声端点检测,提取接受到的语音中含有人声的音频数据;
语音情绪分析模型,是预先训练得到的模型推理文件,能根据输入的语音数据,推理出对应的情绪状态。
语义分析模块,分析用户的回复是否符合预期答案;包括第二语音接受模块和语义分析模块,语义分析模块包括语音转文字模块和关键词匹配模块;
所述第二语音接受模块,用于接受用户的语音信号;
所述语音转文字模块,采用开源的ASR(Automatic speech recognition)自动语音识别模型,将语音转换为文字;
所述关键词匹配模块,通过候选关键词词典和正则匹配器,将语音转换后的文字与关键词词典进行正则匹配,匹配中的关键词作为候选的答案。
话术配置模块,存储配置每一个问题对应的话术和预期答案;
问答策略处理模块,基于每一轮次的人机交互结果,制定下一轮次的机器人问话策略,包括策略准备模块和策略执行模块;
策略准备模块,针对每一个问题,从话术配置模块中,选择对应的问题配置的话术组,作为该问题的候选提问话术;基于提问话术和用户的情绪状态,选择不同用户群体的对应的情绪概率均值;基于提问话术,选择的对应的获取答案的概率均值;
具体地,情绪概率均值是基于正向和负向的情绪波动,以及所述提问话术,选择对应的正向和负向的概率均值。
策略执行模块,设定情绪收益和获取答案的收益,基于选择的对应情绪概率均值和获取答案的概率均值,计算每一轮次的期望收益,根据期望收益制定机器人的问话策略;同时,构建追问的问答策略,即在首次提问未能匹配预期答案后,再次进行提问的问答策略,基于所述用户情绪检测模块,选择不同用户群体的对应的追问情绪概率均值。
具体地,策略执行模块基于不同种类情绪体验的提问话术,计算期望收益,选择提问话术;根据提问话术,计算期望收益,选择下一轮问答策略;利用所述用户情绪检测模块,对用户的语音回复进行检测,得到当前用户的情绪状态,利用所述语义分析模块,对用户的答案进行分析,确定当前用户是否回答了问题;若用户回答了问题,则返回继续选择提问话术,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术;若分析出用户未回答问题,则此时需要考虑继续追问也会带来情绪的波动,根据检测得到的用户情绪状态对应的追问概率均值和收益,以及能否得到答案的概率均值和收益,计算是否执行追问的对话策略。若计算出的收益小于设定的阈值,则不执行追问的对话策略,返回继续选择提问话术,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及是否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术;若计算出的收益大于设定的阈值,则执行追问的对话策略......以此类推,直至完成问答策略的选择。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.基于用户情绪状态的自适应外呼对话策略配置方法,其特征在于包括如下步骤:
步骤S1:搭建用户情绪检测模块,并训练生成用户的情绪检测模型,用于分析检测用户输入的语音,以获取用户的情绪状态;
步骤S2:搭建语义分析模块,分析用户的回复是否符合预期答案;
步骤S3:搭建话术配置模块,存储配置每一个问题对应的话术和预期答案;
步骤S4:搭建问答策略处理模块,基于每一轮次的人机交互结果,制定下一轮次的机器人问话策略,包括如下步骤:
步骤S4.1:针对每一个问题,从话术配置模块中,选择对应的问题配置的答案组,作为该问题的候选提问话术;
步骤S4.2:基于提问话术和用户的情绪状态,选择不同用户群体的对应的情绪概率均值;
步骤S4.3:基于提问话术和用户反馈的完整程度,选择对应的获取答案的概率均值;
步骤S4.4:设定情绪收益和获取答案的收益,基于选择的对应情绪概率均值和获取答案的概率均值,计算每一轮次的期望收益,根据期望收益制定机器人的问话策略。
2.根据权利要求1所述的基于用户情绪状态的自适应外呼对话策略配置方法,其特征在于:所述步骤S4.2中,基于正向和负向的情绪波动,以及所述提问话术,选择对应的正向和负向的概率均值;所述步骤S4.3中,基于得到答案和未得答案,以及所述提问话术,选择对应的得到答案和未得答案的概率均值。
3.根据权利要求1所述的基于用户情绪状态的自适应外呼对话策略配置方法,其特征在于:所述步骤S4.4包括如下步骤:
步骤S4.4.1:基于不同种类情绪体验的提问话术,计算期望收益,选择提问话术;
步骤S4.4.2:根据提问话术,计算期望收益,选择下一轮问答策略;
利用步骤S1的用户情绪检测模块,对用户的语音回复进行检测,得到当前用户的情绪状态,利用步骤S2的语义分析模块,对用户的答案进行分析,确定当前用户是否回答了问题;
若用户回答了问题,则返回步骤S4.4.1,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术。
4.根据权利要求3所述的基于用户情绪状态的自适应外呼对话策略配置方法,其特征在于:
所述步骤S4.2中,构建追问的问答策略,即在首次问题并未能得出清晰答案后,再次进行提问的问答策略,基于步骤S1,选择不同用户群体的对应的追问情绪概率均值;
所述步骤S4.4.2中,若分析出用户未回答问题,根据检测得到的用户情绪状态对应的追问概率均值和收益,以及能否得到答案的概率均值和收益,计算是否执行追问的对话策略,若计算出的收益小于设定的阈值,则不执行追问的对话策略,返回步骤S4.4.1,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术;若计算出的收益大于设定的阈值,则执行追问的对话策略。
5.基于用户情绪状态的自适应外呼对话策略配置装置,包括用户情绪检测模块、语义分析模块、话术配置模块和问答策略处理模块,其特征在于:
所述用户情绪检测模块,经训练生成用户的情绪检测模型,用于分析检测用户输入的语音,以获取用户的情绪状态;
所述语义分析模块,分析用户的回复是否符合预期答案;
所述话术配置模块,存储配置每一个问题对应的话术和预期答案;
所述问答策略处理模块,基于每一轮次的人机交互结果,制定下一轮次的机器人问话策略,包括策略准备模块和策略执行模块;
所述策略准备模块,针对每一个问题,从话术配置模块中,选择对应的问题配置的话术组,作为该问题的候选提问话术;基于提问话术和用户的情绪状态,选择不同用户群体的对应的情绪概率均值;基于提问话术,选择对应的获取答案的概率均值;
所述策略执行模块,设定情绪收益和获取答案的收益,基于选择的对应情绪概率均值和获取答案的概率均值,计算每一轮次的期望收益,根据期望收益制定机器人的问话策略。
6.根据权利要求5所述的基于用户情绪状态的自适应外呼对话策略配置装置,其特征在于:所述用户情绪检测模块,包括第一语音接受模块和语音情绪分析模块,语音情绪分析模块包括预处理模块和语音情绪分析模型;
所述第一语音接受模块,用于接受用户的语音信号;
所述预处理模块,采用语音的人声端点检测,提取接受到的语音中含有人声的音频数据;
所述语音情绪分析模型,是预先训练得到的模型推理文件,能根据输入的语音数据,推理出对应的情绪状态。
7.根据权利要求5所述的基于用户情绪状态的自适应外呼对话策略配置装置,其特征在于:所述语义分析模块,包括第二语音接受模块和语义分析模块,语义分析模块包括语音转文字模块和关键词匹配模块;
所述第二语音接受模块,用于接受用户的语音信号;
所述语音转文字模块,采用自动语音识别模型,将语音转换为文字;
所述关键词匹配模块,通过候选关键词词典和正则匹配器,将语音转换后的文字与关键词词典进行正则匹配,匹配中的关键词作为候选的答案。
8.根据权利要求5所述的基于用户情绪状态的自适应外呼对话策略配置装置,其特征在于:所述策略准备模块,是基于正向和负向的情绪波动,以及所述提问话术,选择对应的正向和负向的概率均值。
9.根据权利要求5所述的基于用户情绪状态的自适应外呼对话策略配置装置,其特征在于:所述策略执行模块,基于不同种类情绪体验的提问话术,计算期望收益,选择提问话术根据提问话术,计算期望收益,选择下一轮问答策略;利用所述用户情绪检测模块,对用户的语音回复进行检测,得到当前用户的情绪状态,利用所述语义分析模块,对用户的答案进行分析,确定当前用户是否回答了问题;若用户回答了问题,则返回继续选择提问话术,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术。
10.根据权利要求9所述的基于用户情绪状态的自适应外呼对话策略配置装置,其特征在于:
所述策略执行模块中,构建追问的问答策略,即在首次问题并未能匹配预期答案后,再次进行提问的问答策略,基于所述用户情绪检测模块,选择不同用户群体的对应的追问情绪概率均值;若分析出用户未回答问题,根据检测得到的用户情绪状态对应的追问概率均值和收益,以及能否得到答案的概率均值和收益,计算是否执行追问的对话策略,若计算出的收益小于设定的阈值,则不执行追问的对话策略,返回继续选择提问话术,根据检测得到的新的用户情绪状态对应的提问话术概率均值和收益,以及能否得到答案的概率均值和收益,计算每一个提问话术的期望收益,根据最大期望收益对应的提问话术,确定第二个问题的提问话术;若计算出的收益大于设定的阈值,则执行追问的对话策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310017555.6A CN116386604A (zh) | 2023-01-06 | 2023-01-06 | 基于用户情绪状态的自适应外呼对话策略配置方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310017555.6A CN116386604A (zh) | 2023-01-06 | 2023-01-06 | 基于用户情绪状态的自适应外呼对话策略配置方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386604A true CN116386604A (zh) | 2023-07-04 |
Family
ID=86962193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310017555.6A Pending CN116386604A (zh) | 2023-01-06 | 2023-01-06 | 基于用户情绪状态的自适应外呼对话策略配置方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386604A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708305A (zh) * | 2024-02-05 | 2024-03-15 | 天津英信科技有限公司 | 一种针对应答机器人的对话处理方法和系统 |
-
2023
- 2023-01-06 CN CN202310017555.6A patent/CN116386604A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708305A (zh) * | 2024-02-05 | 2024-03-15 | 天津英信科技有限公司 | 一种针对应答机器人的对话处理方法和系统 |
CN117708305B (zh) * | 2024-02-05 | 2024-04-30 | 天津英信科技有限公司 | 一种针对应答机器人的对话处理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11380327B2 (en) | Speech communication system and method with human-machine coordination | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
CN109767791B (zh) | 一种针对呼叫中心通话的语音情绪识别及应用系统 | |
Litman et al. | Automatic detection of poor speech recognition at the dialogue level | |
CN103458056B (zh) | 自动外呼系统基于自动分类技术的语音意图判定系统 | |
CN111739516A (zh) | 一种针对智能客服通话的语音识别系统 | |
US9542931B2 (en) | Leveraging interaction context to improve recognition confidence scores | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
CN112365894A (zh) | 基于ai的复合语音交互方法、装置及计算机设备 | |
CN110610705A (zh) | 一种基于人工智能的语音交互提示器 | |
CN110569344B (zh) | 确定对话文本对应的标准问句的方法和装置 | |
CN110704618B (zh) | 确定对话数据对应的标准问题的方法及装置 | |
CN112131359A (zh) | 一种基于图形化编排智能策略的意图识别方法及电子设备 | |
CN110890088B (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
CN111429157A (zh) | 投诉工单的评价处理方法、装置、设备及存储介质 | |
CN116386604A (zh) | 基于用户情绪状态的自适应外呼对话策略配置方法及装置 | |
CN114818649A (zh) | 基于智能语音交互技术的业务咨询处理方法及装置 | |
JP7160778B2 (ja) | 評価システム、評価方法、及びコンピュータプログラム。 | |
CN109119073A (zh) | 基于多源识别的语音识别方法、系统、音箱及存储介质 | |
CN116883888A (zh) | 基于多模态特征融合的银行柜面服务问题溯源系统及方法 | |
Cole et al. | Experiments with a spoken dialogue system for taking the US census | |
CN114372476B (zh) | 语义截断检测方法、装置、设备和计算机可读存储介质 | |
CN115641850A (zh) | 话术轮次结束的识别方法、装置、存储介质及计算机设备 | |
CN111382230B (zh) | 用于法律咨询选项的模糊识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |