CN107767881B - 一种语音信息的满意度的获取方法和装置 - Google Patents

一种语音信息的满意度的获取方法和装置 Download PDF

Info

Publication number
CN107767881B
CN107767881B CN201610670296.7A CN201610670296A CN107767881B CN 107767881 B CN107767881 B CN 107767881B CN 201610670296 A CN201610670296 A CN 201610670296A CN 107767881 B CN107767881 B CN 107767881B
Authority
CN
China
Prior art keywords
voice
obtaining
satisfaction
emotion
whole
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610670296.7A
Other languages
English (en)
Other versions
CN107767881A (zh
Inventor
丛鹏宇
王朝民
任智杰
王惠欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610670296.7A priority Critical patent/CN107767881B/zh
Publication of CN107767881A publication Critical patent/CN107767881A/zh
Application granted granted Critical
Publication of CN107767881B publication Critical patent/CN107767881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明的实施例提供一种语音信息的满意度的获取方法和装置,方法包括:获取整个语音会话的多个语音片段的情感特征信息;将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值。本发明的方案从而得到更加精确的满意度。

Description

一种语音信息的满意度的获取方法和装置
技术领域
本发明涉及语音处理技术领域,特别是指一种语音信息的满意度的获取方法和装置。
背景技术
目前获得客户满意程度的主要衡量方法有三种:对话结束后让客户对客服人员服务的满意程度进行打分;利用客服录音的对话特征或音频特征,建立满意度分类模型;利用语音识别引擎,将对话录音转写为文本,再使用自然语言理解的相关算法进行满意度分析。
在录音通话结束后,让客户对客服人员的服务的满意程度进行打分:不同分值对应不同程度的满意或者不满意,这样的方法可以直接得到客户满意度的定量结果。
利用对话特征或者音频特征,建立满意度分析模型的方法,首先获取多个客服对话的满意度训练数据,然后提取若干对话特征或音频特征作为训练样本,以对应的满意度结果作为目标值进行分类模型训练,得到分类模型。
语音识别引擎,可以将客服录音数据转写为对话形式的文本,文本中存在一系列与满意度相关的词组,通过已有的自然语言理解算法,可以将对话文本进行分类,以实现对客服录音的满意度分析。
综合语音识别的文本和语音情感分析曲线,进行满意度分析。
如前所述,现有的获得客户满意程度的方案主要有以下问题:
通过用户打分虽然可以直接获得客户的满意程度,但是这种方式是依靠的是客户,具有有效满意度打分的对话比例较低。
单纯利用客服录音的对话特征或者音频特征,建立的满意度分类模型,往往很难得到较高的分类精度,因为客服录音本身包含至少两个说话人,对话轮数及时长不固定,很难找到较好的与满意度相关度较高的特征。
利用语音识别引擎转写成文本后,再进行文本分析方法,在很大程度上依赖语音识别引擎的性能。较好的语音识别引擎,往往需要较高的额外开销。
综合语音识别结果和语音情感分析的方法需要借助语音识别引擎,另外,多类别情感分析得到的离散情感类型精度有限,形成的情感变化曲线会损失较多的有用信息。
发明内容
本发明提供了一种语音信息的满意度的获取方法和装置,从而得到更加精确的满意度。
为解决上述技术问题,本发明的实施例提供如下方案:
一种语音信息的满意度的获取方法,包括:
获取整个语音会话的多个语音片段的情感特征信息;
将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;
根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;
根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值。
其中,获取整个语音会话的多个语音片段的情感特征信息的步骤包括:
获取整个语音会话的多个语音片段的第一数量的帧级别特征;
根据所述帧级别特征,得到所述整个语音会话的多个语音片段的情感特征信息。
其中,所述帧级别特征包括:过零率,基频,能量均方根,谐波噪声比,一预设维数的梅尔倒谱参数MFCC;
根据所述帧级别特征,得到所述整个语音会话的多个语音片段的情感特征信息的步骤包括:
根据第一数量的帧级别特征,得到第一数量的曲线;其中所述第一数量=所述预设维数+4;
对所述第一数量的曲线进行平滑处理以及一阶差分处理,得到第二数量的曲线;
获取所述第二数量的曲线的轮廓特征和统计特征;
根据所述轮廓特征和统计特征,得到所述整个语音会话的多个语音片段的情感特征信息。
其中,将所述语音片段分为两类,得到两个类型的语音片段的情绪标签的步骤包括:
将所述语音片段分为:正情绪特征信息和负情绪特征信息,得到两个类型的语音片段的情绪标签分别为正情绪标签和负情绪标签。
其中,根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度的步骤包括:
将带有情绪标签的语音段,按第一预设定比例划分为训练集和测试集;
按照SVM算法对所述训练集和测试集进行处理,得到所述多个语音片段的情绪置信度。
其中,按照SVM算法对所述训练集和测试集进行处理,得到所述多个语音片段的情绪置信度的步骤包括:
按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;
根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;
根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述多个语音片段的情绪置信度。
其中,根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值的步骤包括:
根据所述多个语音片段的情绪置信度,得到第三数量的满意度特征;
根据所述第三数量的满意度特征以及整个会话的满意度标签,得到第四数量的特征向量;
将所述第四数量的特征向量以及所述整个会话的满意度标签,将所述多个语音片段按第二预设定比例划分为训练集和测试集;
按照SVM算法对所述训练集和测试集进行处理,得到所述整个语音会话的满意度值。
其中,按照SVM算法对所述训练集和测试集进行处理,得到所述整个语音会话的满意度值的步骤包括:
按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;
根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;
根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述整个语音会话的满意度值。
其中,所述整个会话的满意度标签包括将所述整个会话分别按照时长和语轮数,进行三等分,分别提取前、中、后三段的满意度特征,所述满意度特征包括第五数量的满意度特征。
本发明的实施例还提供一种语音信息的满意度的获取装置,包括:
第一获取模块,用于获取整个语音会话的多个语音片段的情感特征信息;
第二获取模块,用于将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;
第三获取模块,用于根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;
第四获取模块,用于根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值。
其中,第一获取模块包括:
第一获取子模块,用于获取整个语音会话的多个语音片段的第一数量的帧级别特征;
第二获取子模块,用于根据所述帧级别特征,得到所述整个语音会话的多个语音片段的情感特征信息。
其中,所述帧级别特征包括:过零率,基频,能量均方根,谐波噪声比,一预设维数的梅尔倒谱参数MFCC;
所述第二获取子模块具体用于:根据第一数量的帧级别特征,得到第一数量的曲线;其中所述第一数量=所述预设维数+4;对所述第一数量的曲线进行平滑处理以及一阶差分处理,得到第二数量的曲线;获取所述第二数量的曲线的轮廓特征和统计特征;根据所述轮廓特征和统计特征,得到所述整个语音会话的多个语音片段的情感特征信息。
其中,所述第二获取模块具体用于:将所述语音片段分为:正情绪特征信息和负情绪特征信息,得到两个类型的语音片段的情绪标签分别为正情绪标签和负情绪标签。
其中,所述第三获取模块包括:
第三获取子模块,用于将带有情绪标签的语音段,按第一预设定比例划分为训练集和测试集;
第四获取子模块,用于按照SVM算法对所述训练集和测试集进行处理,得到所述多个语音片段的情绪置信度。
其中,所述第四获取子模块具体用于:按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述多个语音片段的情绪置信度。
其中,所述第四获取模块包括:
第五获取子模块,用于根据所述多个语音片段的情绪置信度,得到第三数量的满意度特征;
第六获取子模块,用于根据所述第三数量的满意度特征以及整个会话的满意度标签,得到第四数量的特征向量;
第七获取子模块,用于将所述第四数量的特征向量以及所述整个会话的满意度标签,将所述多个语音片段按第二预设定比例划分为训练集和测试集;
第八获取子模块,用于按照SVM算法对所述训练集和测试集进行处理,得到所述整个语音会话的满意度值。
其中,所述第八获取子模块具体用于:按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述整个语音会话的满意度值。
其中,所述整个会话的满意度标签包括将所述整个会话分别按照时长和语轮数,进行三等分,分别提取前、中、后三段的满意度特征,所述满意度特征包括第五数量的满意度特征。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获取整个语音会话的多个语音片段的情感特征信息;将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值。该方案使用机器学习的方法,建立从对话录音到情感,再由情感到满意度的两层映射模型,从情感到满意度的特征中,不仅考虑了正负情绪的语轮数,还考虑了对话时长节奏、正负情绪的位置信息、语速等信息;应用于呼叫中心的语音录音的满意度分析中时,能够保证对呼叫中心产生的每条对话录音都进行满意程度的分析预测。
附图说明
图1为本发明的语音信息的满意度的获取方法流程图;
图2本发明的语音信息的满意度的获取系统的架构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
针对现有技术中,根据客户在对话结束后直接对对话进行打分,从而造成的对话满意度不准确的问题,本发明的实施例通过对客户的语音会话情感特征信息提取,并进行分析,从而得到更为精确的满意度。
如图1所示,本发明的实施例提供一种语音信息的满意度的获取方法,包括:
步骤11,获取整个语音会话的多个语音片段的情感特征信息;
以客户的语音会话为例,本实施例中,可以提取情感特征信息包括:384维(但不限于此),如表一所示:
LLD(16*2=32) Functionals(12)
(△)ZCR(过零率) mean
(△)RMS Energy(能量均方根) Standard deviation
(△)F0(基频) Kurtosis,skewness
(△)HNR(谐波噪声比) Extremes:value,rel.position,range
(△)MFCC1-12(梅尔倒谱参数) Linear regression:offset,slope,MSE
步骤12,将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;
具体的,将所述语音片段分为:正情绪特征信息和负情绪特征信息,得到两个类型的语音片段的情绪标签分别为正情绪标签和负情绪标签;
步骤13,根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;
步骤14,根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值。
本发明的上述实施例,通过获取整个语音会话的多个语音片段的情感特征信息;将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值。该方案使用机器学习的方法,建立从对话录音到情感,再由情感到满意度的两层映射模型,从情感到满意度的特征中,不仅考虑了正负情绪的语轮数,还考虑了对话时长节奏、正负情绪的位置信息、语速等信息;应用于呼叫中心的语音录音的满意度分析中时,能够保证对呼叫中心产生的每条对话录音都进行满意程度的分析预测。
在本发明的一具体实施例中,上述步骤11包括:
步骤111,获取整个语音会话的多个语音片段的第一数量的帧级别特征;
步骤112,根据所述帧级别特征,得到所述整个语音会话的多个语音片段的情感特征信息。
其中,所述帧级别特征包括:过零率,基频,能量均方根,谐波噪声比,一预设维数的梅尔倒谱参数MFCC;如12维的MFCC,该帧级别特征共包括:16维;
该步骤112包括:
步骤1121,根据第一数量的帧级别特征,得到第一数量的曲线;其中所述第一数量=所述预设维数+4;
步骤1122,对所述第一数量的曲线进行平滑处理以及一阶差分处理,得到第二数量的曲线;
步骤1123,获取所述第二数量的曲线的轮廓特征和统计特征;
步骤1124,根据所述轮廓特征和统计特征,得到所述整个语音会话的多个语音片段的情感特征信息。
详细提取情感特征信息的过程如下:首先对每一个语音片段分帧,每帧提取基本的帧级别特征16维(过零率,基频,能量均方根,谐波噪声比,12维MFCC),这16维特征在每个分语音片段内形成16条曲线,曲线长度由当前语音片段的总帧数决定。对这16条曲线进行平滑,然后一阶差分,平滑结果及其一阶差分结果共得到32条曲线,提取上述每条曲线的轮廓特征和统计特征共12维,(详见上述表一第二列),即得到384维情感特征信息(即32*12=384)。
本发明的一具体实施例中,上述步骤13包括:
步骤131,将带有情绪标签的语音段,按第一预设定比例划分为训练集和测试集;
步骤132,按照SVM算法对所述训练集和测试集进行处理,得到所述多个语音片段的情绪置信度。
其中,步骤132包括:
步骤1321,按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;
步骤1321,根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;
步骤1321,根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述多个语音片段的情绪置信度。
该实施例中,利用以上所述语音段的情感特征及情感标签,可以进行呼叫中心对话录音场景中的情感建模。根据科研及实践中的经验,可以采用且不限于诸如SVM(支持向量机),DNN(深度神经网络)等模型进行情感建模。
以SVM为例,对于所有带有情感标签的语音段,按一定比例划分为训练集和测试集,按照libSVM(一款常用的SVM工具包)的数据格式生成训练文件和测试文件,设置好核函数(本提案中为RBF核)及交叉验证次数,即可以开始训练过程,最终得到最优的损失函数参数C和核函数的gamma参数g,完成情感模型训练。
对于DNN进行情感建模,深度神经网络的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。实验中采用的开发工具包是PDNN,是一个在Theano环境下的python工具包,达到了比SVM更高的情感预测性能。
本发明的一具体实施例中,步骤14包括:
步骤141,根据所述多个语音片段的情绪置信度,得到第三数量的满意度特征;
步骤142,根据所述第三数量的满意度特征以及整个会话的满意度标签,得到第四数量的特征向量;
步骤143,将所述第四数量的特征向量以及所述整个会话的满意度标签,将所述多个语音片段按第二预设定比例划分为训练集和测试集;
步骤144,按照SVM算法对所述训练集和测试集进行处理,得到所述整个语音会话的满意度值。
其中,步骤144包括:
步骤1441,按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;
步骤1442,根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;
步骤1443,根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述整个语音会话的满意度值。
其中,所述整个会话的满意度标签包括将所述整个会话分别按照时长和语轮数,进行三等分,分别提取前、中、后三段的满意度特征,所述满意度特征包括第五数量的满意度特征。
下面结合系统架构说明上述实施例的具体实现过程:
如图2所示,以呼叫中心的语音为例,录音人的情绪尤其是客服语音中客户的情绪在满意度分析的时候能够提供很有用的信息。所以,该系统面向的对象是客户语音。通过分析客户语音段所具有的情感进而分析在对话结束后客户的态度是否满意。
整个系统分为两层,第一层为情绪分类层,第二层为满意度分析层。
主要工作流程大致为第一层针对客户语音段对其情绪进行识别分类,得到情绪类别的置信度;第二层根据情绪识别的结果提取满意度特征来分析客户是否满意。
基于呼叫中心的对话录音,对客户语音段的情绪进行下列处理,进而实现对客户的情绪进行分类。
针对每个客户语音段提取情感特征,本提案提取情感特征维数为384维(不限于此),详细提取过程如下:
首先对每一个语音段分帧,每帧提取基本的帧级别特征16维(过零率,基频,能量均方根,谐波噪声比,12维MFCC),这16维特征在每个分段内形成16条曲线,曲线长度由当前语音段的总帧数决定。对这16条曲线进行平滑,然后一阶差分,平滑结果及其一阶差分结果共得到32条曲线,提取上述每条曲线的轮廓特征和统计特征共12维(详见表5-2第二列),即得到384维情感特征;如下表所示:
Figure BDA0001078705300000101
Figure BDA0001078705300000111
对于每一个客服语音段,进行人工情感标注,得到六类情感,根据统计,我们发现客服录音中客户的情感类别的分布很不均衡,其中中立情感占主要部分,其他情感的数量与中立情感相差悬殊。为了均衡情感,扩大情感所占的比例,采取情绪二分类策略。
将语音片段分为:正情绪语音片段和负情绪语音片段,其中正情绪包括:中立N(Neutral)和喜悦J(Joy),负情绪包括生气、愤怒、失望、厌烦等等。
利用以上所述语音段的情感特征及情感标签,可以进行呼叫中心对话录音场景中的情感建模。根据实践中的经验,可以采用且不限于诸如SVM(支持向量机),DNN(深度神经网络)等模型进行情感建模。
以SVM为例,对于所有带有情感标签的语音段,按一定比例划分为训练集和测试集,按照libSVM(一款常用的SVM工具包)的数据格式生成训练文件和测试文件,设置好核函数(本提案中为RBF核)及交叉验证次数,即可以开始训练过程,最终得到最优的损失函数参数C和核函数的gamma参数g,完成情感模型训练。
当然也可以采用DNN进行情感建模,深度神经网络的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。实验中采用的开发工具包是PDNN,是一个在Theano环境下的python工具包,达到了比SVM更高的情感预测性能。
满意度分析层,建立上一层得到的情绪置信值和满意度之间的映射模型,从而实现呼叫中心对话语音的满意度分析。
通过统计和比较客服语音中满意语音和不满意语音的各种参数,寻找能够根据情感判别是否满意的特征。
基于情绪分类层输出的所有客户语音段的情绪置信值,提取41维满意度特征,并基于客户语音段及客服语音段的时长语轮等节奏信息,提取了13维节奏特征,最终共提取了54维满意度特征。
根据经验总结和数据分析,在整段对话中位置越靠后的情绪类别对整段对话客户的满意程度影响越重要。所以,在这54维特征中,考虑了时序特征。
将整段对话(如包括12个客户语音段以及12个客服语音段),分别按照时长和语轮数分成三等分,分别提取前中后三段的满意度特征。(语轮为一对不同声纹的声音对话);
满意录音和不满意录音中客户与客服的时长也会存在很大差别,一般不满意录音中客户人员的有声段会比客服人员的长,并且通常情况下,不满意录音的总时长和满意录音的总时长也会有差别。所以,加入了13维的韵律特征作为满意度特征,54维特征的具体内容见下表2:
Figure BDA0001078705300000121
Figure BDA0001078705300000131
对于每条带有满意度标签(来自通话结束后的短信评价,分为满意和不满意两类)的客服对话录音,通过上面的特征提取过程,将其转换为54维的特征向量,利用这些样本数据的特征列表及其满意度标签,按一定比例划分为训练集和测试集,可以构建满意度模型。
SVM对小规模数据的二分类表现出良好的性能,故本发明的实施例中,在实现过程中采用libSVM工具包进行了满意度分析层的建模,核函数是RBF核函数(非线性),采用五次交叉验证寻找最优参数。
基于以上构建的两层满意度分析模型,可以对任意一条切分好客服与客户分段的呼叫中心对话录音进行满意度预测,从而得到较为准确的满意度。
本发明的实施例还提供一种语音信息的满意度的获取装置,包括:
第一获取模块,用于获取整个语音会话的多个语音片段的情感特征信息;
第二获取模块,用于将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;
第三获取模块,用于根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;
第四获取模块,用于根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值。
其中,第一获取模块包括:
第一获取子模块,用于获取整个语音会话的多个语音片段的第一数量的帧级别特征;
第二获取子模块,用于根据所述帧级别特征,得到所述整个语音会话的多个语音片段的情感特征信息。
其中,所述帧级别特征包括:过零率,基频,能量均方根,谐波噪声比,一预设维数的梅尔倒谱参数MFCC;
所述第二获取子模块具体用于:根据第一数量的帧级别特征,得到第一数量的曲线;其中所述第一数量=所述预设维数+4;对所述第一数量的曲线进行平滑处理以及一阶差分处理,得到第二数量的曲线;获取所述第二数量的曲线的轮廓特征和统计特征;根据所述轮廓特征和统计特征,得到所述整个语音会话的多个语音片段的情感特征信息。
其中,所述第二获取模块具体用于:将所述语音片段分为:正情绪特征信息和负情绪特征信息,得到两个类型的语音片段的情绪标签分别为正情绪标签和负情绪标签。
其中,所述第三获取模块包括:
第三获取子模块,用于将带有情绪标签的语音段,按第一预设定比例划分为训练集和测试集;
第四获取子模块,用于按照SVM算法对所述训练集和测试集进行处理,得到所述多个语音片段的情绪置信度。
其中,所述第四获取子模块具体用于:按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述多个语音片段的情绪置信度。
其中,所述第四获取模块包括:
第五获取子模块,用于根据所述多个语音片段的情绪置信度,得到第三数量的满意度特征;
第六获取子模块,用于根据所述第三数量的满意度特征以及整个会话的满意度标签,得到第四数量的特征向量;
第七获取子模块,用于将所述第四数量的特征向量以及所述整个会话的满意度标签,将所述多个语音片段按第二预设定比例划分为训练集和测试集;
第八获取子模块,用于按照SVM算法对所述训练集和测试集进行处理,得到所述整个语音会话的满意度值。
其中,所述第八获取子模块具体用于:按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述整个语音会话的满意度值。
其中,所述整个会话的满意度标签包括将所述整个会话分别按照时长和语轮数,进行三等分,分别提取前、中、后三段的满意度特征,所述满意度特征包括第五数量的满意度特征。
本发明的上述装置,是与上述方法相对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果,具体的,该装置同样通过获取整个语音会话的多个语音片段的情感特征信息;将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值。该方案使用机器学习的方法,建立从对话录音到情感,再由情感到满意度的两层映射模型,从情感到满意度的特征中,不仅考虑了正负情绪的语轮数,还考虑了对话时长节奏、正负情绪的位置信息、语速等信息;应用于呼叫中心的语音录音的满意度分析中时,能够保证对呼叫中心产生的每条对话录音都进行满意程度的分析预测。无需要借助语音识别和说话人识别,系统更容易实现;考虑了情感识别精度问题,利用连续的情绪置信值的时序信息构造满意度分析特征,保留更多有价值信息;除了情绪信息,还考虑了客服人员和客户之间的语速、对话时长等因素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种语音信息的满意度的获取方法,其特征在于,包括:
获取整个语音会话的多个语音片段的情感特征信息;
将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;
根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;
根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值,包括:根据所述多个语音片段的情绪置信度,得到第三数量的满意度特征;根据所述第三数量的满意度特征以及整个会话的满意度标签,得到第四数量的特征向量;将所述第四数量的特征向量以及所述整个会话的满意度标签,将所述多个语音片段按第二预设定比例划分为训练集和测试集;按照SVM算法对所述训练集和测试集进行处理,得到所述整个语音会话的满意度值。
2.根据权利要求1所述的语音信息的满意度的获取方法,其特征在于,获取整个语音会话的多个语音片段的情感特征信息的步骤包括:
获取整个语音会话的多个语音片段的第一数量的帧级别特征;
根据所述帧级别特征,得到所述整个语音会话的多个语音片段的情感特征信息。
3.根据权利要求2所述的语音信息的满意度的获取方法,其特征在于,所述帧级别特征包括:过零率,基频,能量均方根,谐波噪声比,一预设维数的梅尔倒谱参数MFCC;
根据所述帧级别特征,得到所述整个语音会话的多个语音片段的情感特征信息的步骤包括:
根据第一数量的帧级别特征,得到第一数量的曲线;其中所述第一数量=所述预设维数+4;
对所述第一数量的曲线进行平滑处理以及一阶差分处理,得到第二数量的曲线;
获取所述第二数量的曲线的轮廓特征和统计特征;
根据所述轮廓特征和统计特征,得到所述整个语音会话的多个语音片段的情感特征信息。
4.根据权利要求1所述的语音信息的满意度的获取方法,其特征在于,将所述语音片段分为两类,得到两个类型的语音片段的情绪标签的步骤包括:
将所述语音片段分为:正情绪特征信息和负情绪特征信息,得到两个类型的语音片段的情绪标签分别为正情绪标签和负情绪标签。
5.根据权利要求1所述的语音信息的满意度的获取方法,其特征在于,根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度的步骤包括:
将带有情绪标签的语音段,按第一预设定比例划分为训练集和测试集;
按照SVM算法对所述训练集和测试集进行处理,得到所述多个语音片段的情绪置信度。
6.根据权利要求5所述的语音信息的满意度的获取方法,其特征在于,按照SVM算法对所述训练集和测试集进行处理,得到所述多个语音片段的情绪置信度的步骤包括:
按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;
根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;
根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述多个语音片段的情绪置信度。
7.根据权利要求1所述的语音信息的满意度的获取方法,其特征在于,按照SVM算法对所述训练集和测试集进行处理,得到所述整个语音会话的满意度值的步骤包括:
按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;
根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;
根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述整个语音会话的满意度值。
8.根据权利要求1所述的语音信息的满意度的获取方法,其特征在于,所述整个会话的满意度标签包括将所述整个会话分别按照时长和语轮数,进行三等分,分别提取前、中、后三段的满意度特征,所述满意度特征包括第五数量的满意度特征。
9.一种语音信息的满意度的获取装置,其特征在于,包括:
第一获取模块,用于获取整个语音会话的多个语音片段的情感特征信息;
第二获取模块,用于将所述语音片段分为两类,得到两个类型的语音片段的情绪标签;
第三获取模块,用于根据所述情感特征信息以及所述情绪标签,得到所述多个语音片段的情绪置信度;
第四获取模块,用于根据所述多个语音片段的情绪置信度,获取所述整个语音会话的满意度值;第四获取模块包括:
第五获取子模块,用于根据所述多个语音片段的情绪置信度,得到第三数量的满意度特征;
第六获取子模块,用于根据所述第三数量的满意度特征以及整个会话的满意度标签,得到第四数量的特征向量;
第七获取子模块,用于将所述第四数量的特征向量以及所述整个会话的满意度标签,将所述多个语音片段按第二预设定比例划分为训练集和测试集;
第八获取子模块,用于按照SVM算法对所述训练集和测试集进行处理,得到所述整个语音会话的满意度值。
10.根据权利要求9所述的语音信息的满意度的获取装置,其特征在于,第一获取模块包括:
第一获取子模块,用于获取整个语音会话的多个语音片段的第一数量的帧级别特征;
第二获取子模块,用于根据所述帧级别特征,得到所述整个语音会话的多个语音片段的情感特征信息。
11.根据权利要求10所述的语音信息的满意度的获取装置,其特征在于,所述帧级别特征包括:过零率,基频,能量均方根,谐波噪声比,一预设维数的梅尔倒谱参数MFCC;
所述第二获取子模块具体用于:根据第一数量的帧级别特征,得到第一数量的曲线;其中所述第一数量=所述预设维数+4;对所述第一数量的曲线进行平滑处理以及一阶差分处理,得到第二数量的曲线;获取所述第二数量的曲线的轮廓特征和统计特征;根据所述轮廓特征和统计特征,得到所述整个语音会话的多个语音片段的情感特征信息。
12.根据权利要求9所述的语音信息的满意度的获取装置,其特征在于,所述第二获取模块具体用于:将所述语音片段分为:正情绪特征信息和负情绪特征信息,得到两个类型的语音片段的情绪标签分别为正情绪标签和负情绪标签。
13.根据权利要求9所述的语音信息的满意度的获取装置,其特征在于,所述第三获取模块包括:
第三获取子模块,用于将带有情绪标签的语音段,按第一预设定比例划分为训练集和测试集;
第四获取子模块,用于按照SVM算法对所述训练集和测试集进行处理,得到所述多个语音片段的情绪置信度。
14.根据权利要求13所述的语音信息的满意度的获取装置,其特征在于,所述第四获取子模块具体用于:按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述多个语音片段的情绪置信度。
15.根据权利要求9所述的语音信息的满意度的获取装置,其特征在于,所述第八获取子模块具体用于:按照SVM算法的SVM工具包的数据格式,将所述训练集生成训练文件,将所述测试集生成测试文件;根据所述SVM算法的核函数及交叉验证次数,对所述训练文件进行处理,得到最优的损失函数参数C和核函数的gamma参数g;根据所述最优的损失函数参数C和核函数的gamma参数g,以及所述SVM算法的核函数对所述测试文件进行处理,得到所述整个语音会话的满意度值。
16.根据权利要求15所述的语音信息的满意度的获取装置,其特征在于,所述整个会话的满意度标签包括将所述整个会话分别按照时长和语轮数,进行三等分,分别提取前、中、后三段的满意度特征,所述满意度特征包括第五数量的满意度特征。
CN201610670296.7A 2016-08-15 2016-08-15 一种语音信息的满意度的获取方法和装置 Active CN107767881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610670296.7A CN107767881B (zh) 2016-08-15 2016-08-15 一种语音信息的满意度的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610670296.7A CN107767881B (zh) 2016-08-15 2016-08-15 一种语音信息的满意度的获取方法和装置

Publications (2)

Publication Number Publication Date
CN107767881A CN107767881A (zh) 2018-03-06
CN107767881B true CN107767881B (zh) 2020-08-18

Family

ID=61260869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610670296.7A Active CN107767881B (zh) 2016-08-15 2016-08-15 一种语音信息的满意度的获取方法和装置

Country Status (1)

Country Link
CN (1) CN107767881B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388926B (zh) * 2018-03-15 2019-07-30 百度在线网络技术(北京)有限公司 语音交互满意度的确定方法及设备
CN109344229A (zh) * 2018-09-18 2019-02-15 深圳壹账通智能科技有限公司 对话分析评价的方法、装置、计算机设备和存储介质
CN109460891A (zh) * 2018-09-25 2019-03-12 平安科技(深圳)有限公司 基于满意度评价的数据处理方法、装置和计算机设备
CN109640164A (zh) * 2018-11-02 2019-04-16 重庆爱奇艺智能科技有限公司 一种用于多个虚拟现实设备间的播放方法与装置
CN109602333B (zh) * 2018-12-11 2020-11-03 珠海市一微半导体有限公司 一种基于清洁机器人的语音去噪方法和芯片
CN110489519B (zh) * 2019-07-05 2023-07-07 深圳追一科技有限公司 基于会话预测模型的会话方法及相关产品
CN110556098B (zh) * 2019-07-23 2023-04-18 平安科技(深圳)有限公司 语音识别结果测试方法、装置、计算机设备和介质

Also Published As

Publication number Publication date
CN107767881A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107767881B (zh) 一种语音信息的满意度的获取方法和装置
CN110021308B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN109256150B (zh) 基于机器学习的语音情感识别系统及方法
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
Kelly et al. Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors
Demircan et al. Feature extraction from speech data for emotion recognition
CN105469784B (zh) 一种基于概率线性鉴别分析模型的说话人聚类方法及系统
CN109493886A (zh) 基于特征选择和优化的语音情感识别方法
Kekre et al. Speaker identification by using vector quantization
Kadiri et al. Excitation features of speech for speaker-specific emotion detection
CN113539240B (zh) 动画生成方法、装置、电子设备和存储介质
Drygajlo Automatic speaker recognition for forensic case assessment and interpretation
CN112614510B (zh) 一种音频质量评估方法及装置
CN114420169B (zh) 情绪识别方法、装置及机器人
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
CN106653002A (zh) 一种文字直播方法及平台
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
CN115312030A (zh) 虚拟角色的显示控制方法、装置及电子设备
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
Johar Paralinguistic profiling using speech recognition
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
CN114495990A (zh) 一种基于特征融合的语音情感识别方法
Bharali et al. Speaker identification using vector quantization and I-vector with reference to Assamese language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant