CN112017668B - 一种基于实时情感检测的智能语音对话方法、装置和系统 - Google Patents

一种基于实时情感检测的智能语音对话方法、装置和系统 Download PDF

Info

Publication number
CN112017668B
CN112017668B CN202011187653.7A CN202011187653A CN112017668B CN 112017668 B CN112017668 B CN 112017668B CN 202011187653 A CN202011187653 A CN 202011187653A CN 112017668 B CN112017668 B CN 112017668B
Authority
CN
China
Prior art keywords
emotion
conversation
user
voice
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011187653.7A
Other languages
English (en)
Other versions
CN112017668A (zh
Inventor
李梦迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qilu Information Technology Co Ltd
Original Assignee
Beijing Qilu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qilu Information Technology Co Ltd filed Critical Beijing Qilu Information Technology Co Ltd
Priority to CN202011187653.7A priority Critical patent/CN112017668B/zh
Publication of CN112017668A publication Critical patent/CN112017668A/zh
Application granted granted Critical
Publication of CN112017668B publication Critical patent/CN112017668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于计算机技术领域,提供一种基于实时情感检测的智能语音对话方法、装置及系统,用于智能语音机器人。其中方法包括:根据设定的对话主题与用户进行主题式语音对话,根据所述用户的实时对话语音计算用户当前的情感分,所述情感分是用于表征用户情感状态的评分;当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话。采用该技术方案,实时监控用户的情绪波动,当用户情绪波动较大时,有针对性的调整对话内容,使智能机器人与用户的对话更有人情味,提升了用户的使用感受。

Description

一种基于实时情感检测的智能语音对话方法、装置和系统
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种基于实时情感检测的智能语音对话方法、装置和系统。
背景技术
客户服务中心是企业与用户沟通的主要桥梁,提升用户满意度的主要渠道。以前客户服务中心主要以人工客服为主,由专业的客服人员为用户进行服务。
随着计算机信息处理技术的发展,越来越多的客户服务中心开始采用语音机器人来为用户进行服务,缓解人工客服等待时间过长的问题。
目前语音机器人在与用户进行对话过程中,往往按照系统生成的对话策略进行。在对话沟通过程中,用户可能会被某一句话触动,情绪出现波动,如果依然按照设置的对话策略进行会让用户觉得比较冷漠,对话效果会大打折扣。
发明内容
本发明旨在解决现有对话过程中无法照顾用户情绪波动的问题。
为了解决上述技术问题,本发明第一方面提出一种智能机器人的对话策略调整方法,包括:
预先设置情感语料库以及情感分阈值,所述情感语料库存储情感对话语料;
根据设定的对话主题与用户进行主题式语音对话,根据所述用户的实时对话语音计算用户当前的情感分,所述情感分是用于表征用户的情感状态的评分;
当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话。
根据本发明的一种优选实施方式,所述情感语料库存储有多种情绪主题 ,不同的情绪主题对应不同的情感对话语料。
根据本发明的一种优选实施方式,所述不同的情绪主题对应不同的情感对话语料由历史对话语料通过聚类分析获得。
根据本发明的一种优选实施方式,根据所述用户的实时对话语音计算用户当前的情感分具体为:
分别计算基于自然语言理解NLU的情感分以及计算基于情绪的情感分;
将所述基于自然语言理解的情感分和所述基于情绪的情感分赋予不同的权重,通过加权计算获得分数为所述用户当前对话语音的情感分。
根据本发明的一种优选实施方式,计算基于自然语言理解的情感分具体为:
将所述用户当前对话语音转化为文本数据;
对所述文本数据进行划词处理转化为向量;
将划词处理后的文本数据输入NLU情感评分模型,输出基于NLU的情感分。
根据本发明的一种优选实施方式,所述NLU情感评分模型为基于深度学习的TextCNN模型。
根据本发明的一种优选实施方式,基于情绪的情感分具体为:
设置采样周期,对用户当前对话语音进行连续采样,获得用户当前对话语音的音量序列、语速序列;
将用户当前对话语音的声波波形转化为声波图像,根据采样周期对所述声波图像进行连续采样,获得用户当前对话语音的声波图像序列;
情绪评分模型根据所述音量序列、语速序列以及声波图形序列计算基于情绪的情感分。
根据本发明的一种优选实施方式,所述情绪评分模型为RNN循环神经网络模型。
根据本发明的一种优选实施方式,还包括:
当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话;当所述用户当前对话语音的情感分低于所述情感分阈值时,暂停所述情感对话,继续所述主题式对话。
本发明第二方面提出一种智能机器人的对话策略调整装置,装置包括:
情感语料库模块,用于预先存储情感语料库以及情感分阈值,所述情感语料库存储情感对话语料;
情感判断模块,用于根据设定的对话主题与用户进行主题式语音对话,根据所述用户的实时对话语音计算用户当前的情感分,所述情感分是用于表征用户的情感状态的评分;
对话调整模块,用于当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话。
根据本发明的一种优选实施方式,所述情感语料库存储情感对话语料具体为:
所述情感语料库存储有多种情绪主题 ,不同的情绪主题对应不同的情感对话语料。
根据本发明的一种优选实施方式,所述不同的情绪主题对应不同的情感对话语料由历史对话语料通过聚类分析获得。
根据本发明的一种优选实施方式,根据所述用户的实时对话语音计算用户当前的情感分具体为:
分别计算基于自然语言理解NLU的情感分以及计算基于情绪的情感分;
将所述基于自然语言理解的情感分和所述基于情绪的情感分赋予不同的权重,通过加权计算获得分数为所述用户当前对话语音的情感分。
根据本发明的一种优选实施方式,计算基于自然语言理解的情感分具体为:
将所述用户当前对话语音转化为文本数据;
对所述文本数据进行划词处理转化为向量;
将划词处理后的文本数据输入NLU情感评分模型,输出基于NLU的情感分。
根据本发明的一种优选实施方式,所述NLU情感评分模型为基于深度学习的TextCNN模型。
根据本发明的一种优选实施方式,基于情绪的情感分具体为:
设置采样周期,对用户当前对话语音进行连续采样,获得用户当前对话语音的音量序列、语速序列;
将用户当前对话语音的声波波形转化为声波图像,根据采样周期对所述声波图像进行连续采样,获得用户当前对话语音的声波图像序列;
情绪评分模型根据所述音量序列、语速序列以及声波图形序列计算基于情绪的情感分。
根据本发明的一种优选实施方式,所述情绪评分模型为RNN循环神经网络模型。
根据本发明的一种优选实施方式,还包括:
返回模块,用于用于当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话;当所述用户当前对话语音的情感分低于所述情感分阈值时,暂停所述情感对话,继续所述主题式对话。
本发明第三方面提出一种智能机器人的对话策略调整系统,包括:
存储单元,用于存储计算机可执行程序;
处理单元,用于读取所述存储单元中的计算机可执行程序,以执行所述的基于实时情感检测的智能语音对话方法。
本发明第四方面提出一种计算机可读介质,用于存储计算机可读程序,其特征在于,所述计算机可读程序用于执行所述的基于实时情感检测的智能语音对话方法。
采用该技术方案,实时监控用户的情绪波动,当用户情绪波动较大时,有针对性的调整对话内容,使智能机器人与用户的对话更有人情味,提升了用户的使用感受。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明实施例中基于实时情感检测的智能语音对话方法的流程示意图;
图2是本发明实施例一的流程示意图;
图3是本发明实施例中基于实时情感检测的智能语音对话装置的结构示意图;
图4是本发明实施例中基于实时情感检测的智能语音对话系统的结构框架示意图;
图5是本发明实施例中计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
图1是本发明基于实时情感检测的智能语音对话方法的流程示意图,如图1所示,本发明方法具有如下步骤:
S101、预先设置情感语料库以及情感分阈值,所述情感语料库存储情感对话语料。
在上述技术方案的基础上,进一步地,
所述情感语料库存储有多种情绪主题,不同的情绪主题对应不同的情感对话语料。
在本实施方式中,情感语料库主要分为高兴、烦恼、忧伤、焦虑四种情绪,针对不同情感的形成原因设置不同分类,比如烦恼情绪分为子女教育,家庭矛盾,工作关系,身体健康,恋爱关系等等,每种分类都设置有相关的关键词,通过关键词确定需要调用该情感下何种分类的语料。
在上述技术方案的基础上,进一步地,所述不同的情绪主题对应不同的情感对话语料由历史对话语料通过聚类分析获得。
在本实施方式中,由于早期都是使用人工客服为用户进行服务,客服中心积累了大量历史对话语料。首先将历史对话语料转化为文本数据,然后对这些文本数据进行划词处理,构建词袋模型,将划词后的文本转化为词向量,选取合适的聚类算法对历史对话语料进行聚类分析。常用的聚类算法包括K-MEANS算法、K-MEDOIDS算法、CLARANS算法、DBSCAN算法、OPTICS算法、DENCLUE算法等等。
在本实施方式中通过聚类分析将历史对话语料划分为高兴情感语料、烦恼情感语料、忧伤情感语料和焦虑情感语料。在每一种情感下还根据情感的情感的形成原因划分不同小类。
S102、根据设定的对话主题与用户进行主题式语音对话,根据所述用户的实时对话语音计算用户当前的情感分,所述情感分是用于表征用户情感状态的评分。
首先确定好本次对话的目的,根据目的确定好对话主题,并对对话主题进行简单的文字说明。例如,目的是向用户推销笔记本,则对话主题为推销产品,主题说明中记载“向用户推销XX牌笔记本,目前有活动价格低于其他销售平台等等”。本申请中的对话主题及主题说明可以是操作人员手工输入,也可以是操作人员从预先设置的对话主题库中选取并进行编辑和修改。
在本实施方式中,对话策略中还需要设置具体的对话节点,对话节点为更为具体的对话内容,对话节点语料为对话时使用的文本内容。比如在对话主题为推销的对话策略中,设置四个对话节点,N1为产品介绍,N2为产品硬件,N3为产品软件,N4位产品价格,N1的对话节点语料为“尺寸为XXX,总量为XXX,续航时间XXX”,N2的对话节点语料为“处理器为XXX,内存为XXX,硬盘为固定硬盘容量为XXX”,N3的对话节点语料为“软件预装正版WIN10和OFFICE”,N4的对话节点语料为“促销活动,价格低于其他销售平台”。
本申请中的对话节点及对话节点语料可以是操作人员手工输入,也可以是操作人员从预先设置的对话节点库中选取并进行编辑和修改。
在本实施方式中通过重要性判断模型确定各个对话节点与对话主题的重要性程度,其中重要性判断模型为匹配模型,匹配程度越高则重要性程度越高。然后依据重要性程度对对话节点进行排序,生成对话策略。
在上述技术方案的基础上,进一步地,根据所述用户的实时对话语音计算用户当前对话语音的情感分具体为:
分别计算基于自然语言理解NLU的情感分以及计算基于情绪的情感分;
将所述基于自然语言理解的情感分和所述基于情绪的情感分赋予不同的权重,通过加权计算获得分数为所述用户当前对话语音的情感分。
在本实施方式中基于自然语言理解NLU的情感分是从用户对话语音的内容角度分析用户的情绪波动,基于情绪的情感分是从用户对话语音的声音声调变化分析用户的情绪波动。有些人情绪发生波动,声音可能没有变化,但对话语音的内容带有很大的情绪,有些人可能正相反,内容没有什么问题但是声音变化比较大。因此,从两个角度分析计算用户的情感分比较准确。
在上述技术方案的基础上,进一步地,计算基于自然语言理解的情感分具体为:
将所述用户当前对话语音转化为文本数据;
对所述文本数据进行划词处理转化为向量;
将划词处理后的文本数据输入NLU情感评分模型,输出基于NLU的情感分。
在上述技术方案的基础上,进一步地,所述NLU情感评分模型为基于深度学习的TextCNN模型。
在本实施方式中,用户的对话语音转化为纯文本的文本数据。通过划词处理将文本数据中的句子转化为一个个短语,然后将短语转化为词向量。将短语转化为词向量可以采用word2vec算法。将转化后的词向量输入NLU情感评分模型。在本实施方式中NLU情感评分模型为基于深度学习的TextCNN模型。NLU情感评分模型通过客服中心存储的历史文本数据进行训练,由人工对历史文本数据进行标引。将标引好的历史文本数据分为两部分,分别为训练样本和校验样本。使用训练样本对NLU情感评分模型进行训练,调整对应的模型参数,直至达到收敛条件。然后使用校验样本对训练后的NLU情感评分模型进行校验,若校验通过则NLU情感评分模型训练完成,否则重新对NLU情感评分模型进行训练。
在上述技术方案的基础上,进一步地,基于情绪的情感分具体为:
设置采样周期,对用户当前对话语音进行连续采样,获得用户当前对话语音的音量序列、语速序列;
将用户当前对话语音的声波波形转化为声波图像,根据采样周期对所述声波图像进行连续采样,获得用户当前对话语音的声波图像序列;
情绪评分模型根据所述音量序列、语速序列以及声波图形序列计算基于情绪的情感分。
在本实施方式中,来自用户的对话语音可能是模拟音频数据,但也可能是数字音频数据。通过算法获取用户的对话语音的模拟音频数据或数字音频数据的音量和语速,根据采样周期生成音量序列、语速序列。
本发明使用VAD算法对语音输入进行检测,获得声波波形。语音活动检测VAD算法,又称语音端点检测算法或语音边界检测算法。在本实施方式中,由于环境噪音、设备噪音等等噪音的影响,用户的语音输入往往不仅仅包括用户的声音,还会包括用户所处环境的噪音,如果不将这些噪音滤除,会对分析结果造成影响。因此采用VAD算法标注所述音频数据中的语音段和非语音段,并利用标注结果去除音频数据中的非语音段,对用户的语音输入进行检测,滤除环境噪声,仅仅保留用户的人声,并转化成声波波形。
VAD算法中的具体算法有很多种,本发明优选采用高斯混合GMM模型算法进行人声检测。在其他实施方式中,还可以采用VAD算法中的其他算法。
为了将声波图像转换为机器学习模型能够识别的格式,本发明是需要对声波图像进行切分。也就是说,根据设置的采样周期对语音波形图进行采样,使得用户的语音输入产生在时间上连续的声波图像。例如,采样周期设置为20ms,由此生成一个个连续的20ms的声波图像片段。
在本发明的其他实施方式中,可以采用在时间上有重叠的语音波形采样。为了避免连续图片中遗漏相关的边沿图片信息,可以设置重叠时长,重叠时长小于采样周期,比如设置采样周期为50ms,重叠时长为10ms,则获得声波图像采样为0ms-50ms、40ms-90ms、80ms、130ms……
在上述技术方案的基础上,进一步地,所述情绪评分模型为RNN循环神经网络模型。
在本实施方式中,情绪评分模型为RNN循环神经网络模型,由存储的历史用户语音数据训练而成。历史用户语音数据包括历史用户音量序列、历史用户语速序列、历史用户声波图像序列,还包括通过人工进行标定的情绪评分,例如,在历史用户语音数据中用户情绪为烦恼,此时情绪评分标定为2,如果用户情绪为焦虑则标定为4,如果用户情绪平稳,没有什么波动,则将用户情绪评分标定为0。在其他的应用场合,也可以根据不同的情绪识别要求进行特定的标定。
将历史用户语音数据作为训练数据对情绪评分模型进行训练。同样将历史用户语音数据分为情绪评分训练样本和情绪评分校验样本。使用情绪评分训练样本训练情绪评分模型,调整情绪评分模型的参数;使用情绪评分校验样本对模型进行校验,通过后完成情绪评分模型的训练。
S103、当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话。
在本实施方式中,由于每个人的情绪控制能力不同,可能任何一句话都会触发用户的情绪,因此实时监控用户对话语音的情绪波动,当发现用户的情感分达到情感分阈值时,分析用户对话语音的内容,确定用户对话语音主题。从情感语料库调取与用户对话语音主题匹配的情感对话语料与用户进行对话。例如,设置情感分阈值为1,当监控发现用户情感分超过1时说明用户情绪出现波动,需要从情感语料库调取情感对话语料对用户情绪进行安抚。
在上述技术方案的基础上,进一步地,还包括:
当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话;当所述用户当前对话语音的情感分低于所述情感分阈值时,暂停所述情感对话,继续所述主题式对话。
在本实施方式中,智能机器人根据情感对话语料与用户进行对话,经过智能机器人的安抚,用户的情绪趋于平复。实时监控用户的对话语音,当用户的情感分由高于情感分阈值变成低于情感分阈值,说明用户的情绪已经恢复,可以继续因情绪波动被暂停的对话主题。
本发明能够及时发现用户的情绪波动,通过调动情感语料库对用户的情绪进行安抚,使得对话更有人情味,用户的体验也更好。而且由于用户的情绪得到安抚,智能机器人与用户的对话也能更好的达到想要的效果。
下面通过一个具体的实施例对本发明基于实时情感检测的智能语音对话方法的流程进行说明,流程的示意图如图2所示。
①对话主题为推销儿童教育产品,智能机器人按照设定的好的对话策略的节点顺序与用户进行对话,从对话节点1进行到对话节点2。
②在对话节点2的对话沟通过程中用户的情绪被触动,用户输入“唉,带孩子学习太累了”。实时监控发现用户的情感分接近2,超过情感分阈值,暂停当前的推销。经过判断情感类型属于烦恼,经过主题确认模型计算用户输入主题为子女教育。
③从情感语料库选择烦恼情绪对应的语料,智能机器人具体的选取子女教育相关的语料进行回复,“是呀,我也有孩子,我能体谅你,教育孩子太辛苦了……”对用户的情绪进行安抚。
④智能机器人使用情感语料库中的语料与用户进行对话,实时监控发现用户的情感分由接近2降低为1以下,低于情感分阈值,说明用户的情绪得的平复,恢复正常可以进行原有的对话策略。
⑤执行原有的对话策略,由对话节点2进行到对话节点3。
⑥执行原有的对话策略,由对话节点3进行到对话节点4,完成原有的对话策略。
图3是本发明实施例中一种基于实时情感检测的智能语音对话装置的结构示意图,如图3所示,本发明提供一种基于实时情感检测的智能语音对话装置300,包括:
情感语料库模块301,用于预先存储情感语料库以及情感分阈值,所述情感语料库存储情感对话语料。
在上述技术方案的基础上,进一步地,
所述情感语料库存储有多种情绪主题,不同的情绪主题对应不同的情感对话语料。
在本实施方式中,情感语料库主要分为高兴、烦恼、忧伤、焦虑四种情绪,针对不同情感的形成原因设置不同分类,比如烦恼情绪分为子女教育,家庭矛盾,工作关系,身体健康,恋爱关系等等,每种分类都设置有相关的关键词,通过关键词确定需要调用该情感下何种分类的语料。
在上述技术方案的基础上,进一步地,所述不同的情绪主题对应不同的情感对话语料由历史对话语料通过聚类分析获得。
在本实施方式中,由于早期都是使用人工客服为用户进行服务,客服中心积累了大量历史对话语料。首先将历史对话语料转化为文本数据,然后对这些文本数据进行划词处理,构建词袋模型,将划词后的文本转化为词向量,选取合适的聚类算法对历史对话语料进行聚类分析。常用的聚类算法包括K-MEANS算法、K-MEDOIDS算法、CLARANS算法、DBSCAN算法、OPTICS算法、DENCLUE算法等等。
在本实施方式中通过聚类分析将历史对话语料划分为高兴情感语料、烦恼情感语料、忧伤情感语料和焦虑情感语料。在每一种情感下还根据情感的情感的形成原因划分不同小类。
情感判断模块302,根据设定的对话主题与用户进行主题式语音对话,根据所述用户的实时对话语音计算用户当前对话语音的情感分,所述情感分是用于表征用户情感状态的评分。
首先确定好本次对话的目的,根据目的确定好对话主题,并对对话主题进行简单的文字说明。例如,目的是向用户推销笔记本,则对话主题为推销产品,主题说明中记载“向用户推销XX牌笔记本,目前有活动价格低于其他销售平台等等”。本申请中的对话主题及主题说明可以是操作人员手工输入,也可以是操作人员从预先设置的对话主题库中选取并进行编辑和修改。
在本实施方式中,对话策略中还需要设置具体的对话节点,对话节点为更为具体的对话内容,对话节点语料为对话时使用的文本内容。比如在对话主题为推销的对话策略中,设置四个对话节点,N1为产品介绍,N2为产品硬件,N3为产品软件,N4位产品价格,N1的对话节点语料为“尺寸为XXX,总量为XXX,续航时间XXX”,N2的对话节点语料为“处理器为XXX,内存为XXX,硬盘为固定硬盘容量为XXX”,N3的对话节点语料为“软件预装正版WIN10和OFFICE”,N4的对话节点语料为“促销活动,价格低于其他销售平台”。
本申请中的对话节点及对话节点语料可以是操作人员手工输入,也可以是操作人员从预先设置的对话节点库中选取并进行编辑和修改。
在本实施方式中通过重要性判断模型确定各个对话节点与对话主题的重要性程度,其中重要性判断模型为匹配模型,匹配程度越高则重要性程度越高。然后依据重要性程度对对话节点进行排序,生成对话策略。
在上述技术方案的基础上,进一步地,根据所述用户的实时对话语音计算用户当前对话语音的情感分具体为:
分别计算基于自然语言理解NLU的情感分以及计算基于情绪的情感分;
将所述基于自然语言理解的情感分和所述基于情绪的情感分赋予不同的权重,通过加权计算获得分数为所述用户当前对话语音的情感分。
在本实施方式中基于自然语言理解NLU的情感分是从用户对话语音的内容角度分析用户的情绪波动,基于情绪的情感分是从用户对话语音的声音声调变化分析用户的情绪波动。有些人情绪发生波动,声音可能没有变化,但对话语音的内容带有很大的情绪,有些人可能正相反,内容没有什么问题但是声音变化比较大。因此,从两个角度分析计算用户的情感分比较准确。
在上述技术方案的基础上,进一步地,计算基于自然语言理解的情感分具体为:
将所述用户当前对话语音转化为文本数据;
对所述文本数据进行划词处理转化为向量;
将划词处理后的文本数据输入NLU情感评分模型,输出基于NLU的情感分。
在上述技术方案的基础上,进一步地,所述NLU情感评分模型为基于深度学习的TextCNN模型。
在本实施方式中,用户的对话语音转化为纯文本的文本数据。通过划词处理将文本数据中的句子转化为一个个短语,然后将短语转化为词向量。将短语转化为词向量可以采用word2vec算法。将转化后的词向量输入NLU情感评分模型。在本实施方式中NLU情感评分模型为基于深度学习的TextCNN模型。NLU情感评分模型通过客服中心存储的历史文本数据进行训练,由人工对历史文本数据进行标引。将标引好的历史文本数据分为两部分,分别为训练样本和校验样本。使用训练样本对NLU情感评分模型进行训练,调整对应的模型参数,直至达到收敛条件。然后使用校验样本对训练后的NLU情感评分模型进行校验,若校验通过则NLU情感评分模型训练完成,否则重新对NLU情感评分模型进行训练。
在上述技术方案的基础上,进一步地,基于情绪的情感分具体为:
设置采样周期,对用户当前对话语音进行连续采样,获得用户当前对话语音的音量序列、语速序列;
将用户当前对话语音的声波波形转化为声波图像,根据采样周期对所述声波图像进行连续采样,获得用户当前对话语音的声波图像序列;
情绪评分模型根据所述音量序列、语速序列以及声波图形序列计算基于情绪的情感分。
在本实施方式中,来自用户的对话语音可能是模拟音频数据,但也可能是数字音频数据。通过算法获取用户的对话语音的模拟音频数据或数字音频数据的音量和语速,根据采样周期生成音量序列、语速序列。
本发明使用VAD算法对语音输入进行检测,获得声波波形。语音活动检测VAD算法,又称语音端点检测算法或语音边界检测算法。在本实施方式中,由于环境噪音、设备噪音等等噪音的影响,用户的语音输入往往不仅仅包括用户的声音,还会包括用户所处环境的噪音,如果不将这些噪音滤除,会对分析结果造成影响。因此采用VAD算法标注所述音频数据中的语音段和非语音段,并利用标注结果去除音频数据中的非语音段,对用户的语音输入进行检测,滤除环境噪声,仅仅保留用户的人声,并转化成声波波形。
VAD算法中的具体算法有很多种,本发明优选采用高斯混合GMM模型算法进行人声检测。在其他实施方式中,还可以采用VAD算法中的其他算法。
为了将声波图像转换为机器学习模型能够识别的格式,本发明是需要对声波图像进行切分。也就是说,根据设置的采样周期对语音波形图进行采样,使得用户的语音输入产生在时间上连续的声波图像。例如,采样周期设置为20ms,由此生成一个个连续的20ms的声波图像片断。
在本发明的其他实施方式中,可以采用在时间上有重叠的语音波形采样。为了避免连续图片中遗漏相关的边沿图片信息,可以设置重叠时长,重叠时长小于采样周期,比如设置采样周期为50ms,重叠时长为10ms,则获得声波图像采样为0ms-50ms、40ms-90ms、80ms、130ms……
在上述技术方案的基础上,进一步地,所述情绪评分模型为RNN循环神经网络模型。
在本实施方式中,情绪评分模型为RNN循环神经网络模型,由存储的历史用户语音数据训练而成。历史用户语音数据包括历史用户音量序列、历史用户语速序列、历史用户声波图像序列,还包括通过人工进行标定的情绪评分,例如,在历史用户语音数据中用户情绪为烦恼,此时情绪评分标定为2,如果用户情绪为焦虑则标定为4,如果用户情绪平稳,没有什么波动,则将用户情绪评分标定为0。在其他的应用场合,也可以根据不同的情绪识别要求进行特定的标定。
将历史用户语音数据作为训练数据对情绪评分模型进行训练。同样将历史用户语音数据分为情绪评分训练样本和情绪评分校验样本。使用情绪评分训练样本训练情绪评分模型,调整情绪评分模型的参数;使用情绪评分校验样本对模型进行校验,通过后完成情绪评分模型的训练。
对话调整模块303,用于当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话。
在本实施方式中,由于每个人的情绪控制能力不同,可能任何一句话都会触发用户的情绪,因此实时监控用户对话语音的情绪波动,当发现用户的情感分达到情感分阈值时,分析用户对话语音的内容,确定用户对话语音主题。从情感语料库调取与用户对话语音主题匹配的情感对话语料与用户进行对话。例如,设置情感分阈值为1,当监控发现用户情感分超过1时说明用户情绪出现波动,需要从情感语料库调取情感对话语料对用户情绪进行安抚。
在上述技术方案的基础上,进一步地,还包括:
返回模块304,当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话;当所述用户当前对话语音的情感分低于所述情感分阈值时,暂停所述情感对话,继续所述主题式对话。
在本实施方式中,智能机器人根据情感对话语料与用户进行对话,经过智能机器人的安抚,用户的情绪趋于平复。实时监控用户的对话语音,当用户的情感分由高于情感分阈值变成低于情感分阈值,说明用户的情绪已经恢复,可以继续因情绪波动被暂停的对话主题。
本发明能够及时发现用户的情绪波动,通过调动情感语料库对用户的情绪进行安抚,使得对话更有人情味,用户的体验也更好。而且由于用户的情绪得到安抚,智能机器人与用户的对话也能更好的达到想要的效果。
如图4所示,本发明的一个实施例中还公开一种基于实时情感检测的智能语音对话系统,该对话策略适用于具体的任务型应用场景,图4显示的基于实时情感检测的智能语音对话系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
基于实时情感检测的智能语音对话系统400,包括存储单元420,用于存储计算机可执行程序;处理单元410,用于读取所述存储单元中的计算机可执行程序,以执行本发明各种实施方式的步骤。
在本实施方式中基于实时情感检测的智能语音对话系统400还包括,连接不同系统组件(包括存储单元420和处理单元410)的总线430、显示单元440等。
其中,所述存储单元420存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行,使得所述处理单元410执行本发明各种实施方式的步骤。例如,所述处理单元410可以执行如图1所示的步骤。
所述存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
基于实时情感检测的智能语音对话系统400也可以与一个或多个外部设备470(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备470通过输入/输出(I/O)接口450进行与处理单元410进行交互,还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器460可以通过总线430与基于实时情感检测的智能语音对话系统400的其它模块通信。应当明白,尽管图中未示出,智能语音机器人的对话策略构建系统400中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
图5是本发明的一个计算机可读介质实施例的示意图。如图5所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储单元(RAM)、只读存储单元(ROM)、可擦式可编程只读存储单元(EPROM或闪存)、光纤、便携式紧凑盘只读存储单元(CD-ROM)、光存储单元件、磁存储单元件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:
S101、预先设置情感语料库以及情感分阈值,所述情感语料库存储情感对话语料;
S102、根据设定的对话主题与用户进行主题式对话,根据所述用户的实时对话语音计算用户当前对话语音的情感分,所述情感分是用于表征用户的情感状态的评分;
S103、当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理单元或者数字信号处理单元(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于实时情感检测的智能语音对话方法,用于智能语音机器人,其特征在于,方法包括:
预先设置情感语料库以及情感分阈值,所述情感语料库存储情感对话语料;根据目的确定好对话主题,并对对话主题进行简单的文字说明,设置具体的对话节点,通过重要性判断模型确定各个对话节点与对话主题的重要性程度,依据重要性程度对对话节点进行排序,生成对话策略;
根据设定的对话主题与用户进行主题式语音对话,根据所述用户的实时对话语音计算用户当前的情感分,所述情感分是用于表征用户的情感状态的评分,具体地,分别计算基于自然语言理解NLU的情感分以及计算基于情绪的情感分,将所述基于自然语言理解的情感分和所述基于情绪的情感分赋予不同的权重,通过加权计算获得分数为所述用户当前输入的情感分;
当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话,当所述用户当前对话语音的情感分低于所述情感分阈值时,暂停所述情感对话,继续所述主题式对话。
2.如权利要求1所述的基于实时情感检测的智能语音对话方法,其特征在于,
所述情感语料库存储有多种情绪主题,不同的情绪主题对应不同的情感对话语料。
3.如权利要求2所述的基于实时情感检测的智能语音对话方法,其特征在于,所述不同的情绪主题对应不同的情感对话语料由历史对话语料通过聚类分析获得。
4.如权利要求1所述的基于实时情感检测的智能语音对话方法,其特征在于,计算基于自然语言理解的情感分具体为:
将所述用户当前对话语音转化为文本数据;
对所述文本数据进行划词处理转化为向量;
将划词处理后的文本数据输入NLU情感评分模型,输出基于NLU的情感分。
5.如权利要求4所述的基于实时情感检测的智能语音对话方法,其特征在于,所述NLU情感评分模型为基于深度学习的TextCNN模型。
6.如权利要求1所述的基于实时情感检测的智能语音对话方法,其特征在于,基于情绪的情感分具体为:
设置采样周期,对用户当前对话语音进行连续采样,获得用户当前对话语音的音量序列、语速序列;
将用户当前输入的声波波形转化为声波图像,根据采样周期对所述声波图像进行连续采样,获得用户当前输入的声波图像序列;
情绪评分模型根据所述音量序列、语速序列以及声波图形序列计算基于情绪的情感分。
7.一种基于实时情感检测的智能语音对话装置,用于智能语音机器人,其特征在于,装置包括:
情感语料库模块,用于预先存储情感语料库以及情感分阈值,所述情感语料库存储情感对话语料;根据目的确定好对话主题,并对对话主题进行简单的文字说明,设置具体的对话节点,通过重要性判断模型确定各个对话节点与对话主题的重要性程度,依据重要性程度对对话节点进行排序,生成对话策略;
情感判断模块,用于根据设定的对话主题与用户进行主题式语音对话,根据所述用户的实时对话语音计算用户当前的情感分,所述情感分是用于表征用户的情感状态的评分,具体地,分别计算基于自然语言理解NLU的情感分以及计算基于情绪的情感分,将所述基于自然语言理解的情感分和所述基于情绪的情感分赋予不同的权重,通过加权计算获得分数为所述用户当前输入的情感分;
对话调整模块,用于当所述情感分达到情感分阈值时,暂停主题式语音对话,从所述情感语料库中调取所述情感对话语料与用户进行情感对话,当所述用户当前对话语音的情感分低于所述情感分阈值时,暂停所述情感对话,继续所述主题式对话。
8.一种基于实时情感检测的智能语音对话系统,其特征在于,包括:
存储单元,用于存储计算机可执行程序;
处理单元,用于读取所述存储单元中的计算机可执行程序,以执行权利要求1至6中任一项所述的基于实时情感检测的智能语音对话方法。
9.一种计算机可读介质,用于存储计算机可读程序,其特征在于,所述计算机可读程序用于执行权利要求1至6中任一项所述的基于实时情感检测的智能语音对话方法。
CN202011187653.7A 2020-10-30 2020-10-30 一种基于实时情感检测的智能语音对话方法、装置和系统 Active CN112017668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011187653.7A CN112017668B (zh) 2020-10-30 2020-10-30 一种基于实时情感检测的智能语音对话方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011187653.7A CN112017668B (zh) 2020-10-30 2020-10-30 一种基于实时情感检测的智能语音对话方法、装置和系统

Publications (2)

Publication Number Publication Date
CN112017668A CN112017668A (zh) 2020-12-01
CN112017668B true CN112017668B (zh) 2021-09-24

Family

ID=73527958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011187653.7A Active CN112017668B (zh) 2020-10-30 2020-10-30 一种基于实时情感检测的智能语音对话方法、装置和系统

Country Status (1)

Country Link
CN (1) CN112017668B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326704B (zh) * 2021-06-03 2022-07-19 北京聆心智能科技有限公司 基于综合策略的情绪支持对话生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
CN108536802A (zh) * 2018-03-30 2018-09-14 百度在线网络技术(北京)有限公司 基于儿童情绪的交互方法及装置
CN109767765A (zh) * 2019-01-17 2019-05-17 平安科技(深圳)有限公司 话术匹配方法及装置、存储介质、计算机设备
CN110648691A (zh) * 2019-09-30 2020-01-03 北京淇瑀信息科技有限公司 基于语音的能量值的情绪识别方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
CN108536802A (zh) * 2018-03-30 2018-09-14 百度在线网络技术(北京)有限公司 基于儿童情绪的交互方法及装置
CN109767765A (zh) * 2019-01-17 2019-05-17 平安科技(深圳)有限公司 话术匹配方法及装置、存储介质、计算机设备
CN110648691A (zh) * 2019-09-30 2020-01-03 北京淇瑀信息科技有限公司 基于语音的能量值的情绪识别方法、装置和系统

Also Published As

Publication number Publication date
CN112017668A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
US11495217B2 (en) Automated assistants that accommodate multiple age groups and/or vocabulary levels
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
Feraru et al. Cross-language acoustic emotion recognition: An overview and some tendencies
Johar Emotion, affect and personality in speech: The Bias of language and paralanguage
US9431003B1 (en) Imbuing artificial intelligence systems with idiomatic traits
CN110648691A (zh) 基于语音的能量值的情绪识别方法、装置和系统
Boudin et al. A multimodal model for predicting conversational feedbacks
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
Cave et al. The use of speech recognition technology by people living with amyotrophic lateral sclerosis: a scoping review
CN108053826B (zh) 用于人机交互的方法、装置、电子设备及存储介质
JPWO2019160105A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Lopez-Otero et al. Depression Detection Using Automatic Transcriptions of De-Identified Speech.
CN112017668B (zh) 一种基于实时情感检测的智能语音对话方法、装置和系统
CN110782916B (zh) 一种多模态的投诉识别方法、装置和系统
Shufang Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices
KR20210051523A (ko) 도메인 자동 분류 대화 시스템
WO2019160104A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Agrima et al. Emotion recognition from syllabic units using k-nearest-neighbor classification and energy distribution
CN112101046B (zh) 一种基于通话行为的会话分析方法、装置和系统
Sefara et al. The development of local synthetic voices for an automatic pronunciation assistant
CN110619894A (zh) 基于语音波形图的情绪识别方法、装置和系统
He et al. Emotion recognition in spontaneous speech within work and family environments
Walther et al. Towards a conversational expert system for rhetorical and vocal quality assessment in call center talks.
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质
Marpaung Context-Centric Affect Recognition From Paralinguistic Features of Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant