CN102623009B - 一种基于短时分析的异常情绪自动检测和提取方法和系统 - Google Patents

一种基于短时分析的异常情绪自动检测和提取方法和系统 Download PDF

Info

Publication number
CN102623009B
CN102623009B CN2012100526592A CN201210052659A CN102623009B CN 102623009 B CN102623009 B CN 102623009B CN 2012100526592 A CN2012100526592 A CN 2012100526592A CN 201210052659 A CN201210052659 A CN 201210052659A CN 102623009 B CN102623009 B CN 102623009B
Authority
CN
China
Prior art keywords
model
abnormal
mood
short
abnormal mood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2012100526592A
Other languages
English (en)
Other versions
CN102623009A (zh
Inventor
魏思
高前勇
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan iFLYTEK Xingzhi Technology Co., Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN2012100526592A priority Critical patent/CN102623009B/zh
Publication of CN102623009A publication Critical patent/CN102623009A/zh
Application granted granted Critical
Publication of CN102623009B publication Critical patent/CN102623009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于短时分析的异常情绪自动检测和提取方法和系统,该方法提取待测语音信号中情绪特征序列;计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度,计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度;根据所述情绪特征序列与异常情绪模型的似然度,以及所述情绪特征序列与非异常情绪模型的似然度,计算似然比;判断所述似然度是否大于设定的阈值,如是,则确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常语音信号。利用本发明,可以实现对语音信号中异常情绪的自动高效判断,提高海量客服数据自动处理效率。

Description

一种基于短时分析的异常情绪自动检测和提取方法和系统
技术领域
本发明涉及的是一种模式识别和信号检测的方法和系统,尤其涉及的是一种基于短时分析的异常情绪自动检测和提取方法和系统。
背景技术
情绪是指由主观引起的一种强烈的感情状态,并且经常伴有心理上的变化。在实际呼叫中心、银行、医疗等服务类行业的客服领域,作为客户最直接的面对者,客服人员不仅是客户情绪传递最直接的媒介,其消极情绪也将直接影响到与客户的有效沟通并极可能产生不必要的投诉。对客服质量的有效监督和管理能及时发现问题、总结经验、提出建议并进而督促改进,提高服务质量。
传统客服质检主要采用人工方式检测客服历史电话录音或实时抽查检测。然而在客服业务量日益增多的当今,由于涉及到的客服语音数据规模日益庞大,单纯依靠人工处理海量数据显得过于繁重,同时人工长时间疲劳操作也会影响到检测质量。所以,需要一种可实现对异常情绪自动检测的系统和方法,从而大大减少人工任务量,提高工作效率。
目前,自动情绪检测系统和方法已在移动通讯、银行、医疗等服务类行业的呼叫中心应用上发挥着重要作用,帮助实现更高效的客服或客户人员情绪状态的检测评估,聚焦客户的满意度诉求和服务需求。传统情绪自动检测方法主要采用了经典模式分类算法,通过特征提取、特征筛选、模型训练和匹配等实现对输入语句情绪类别的判断。系统首先从待测语音段上提取情绪特征,采用诸如基频、语速、能量、共振峰等语音信号特征的统计信息,包括均值、方差、最大值、最小值、范围、斜率等。随后系统将提取或特征变换后的情绪特征和系统预置的情绪模型匹配,计算其与预设各模型的相似度,并选择具有最大似然度的模型作为给定语音段对应的情绪类型。
系统预置的情绪模型由系统预先在人工标注数据上训练得到,包括:按照事先定义的若干情绪类别,如“生气”、“高兴”、“平静”等,通过专人演示录音或从客服数据库人工标注抽取的方法,获取各情绪类别对应训练数据;提取所述训练数据的情绪特征序列;并利用所述训练数据的情绪特征序列训练所述情绪模型的参数,如基于最大似然的MLE算法等。
传统的算法虽然实现了对海量语音数据中异常情绪的检测,改进质检的工作效率,但其检测正确率依然存在很大的改进余地。
首先传统算法中提取的统计量相关的情绪特征,弱化了语音情绪短时变化的特点,破坏了特征参数本身的真实分布。特别是在真实语音中,带有异常情绪的语音段往往仅占待测定的语音很小成分,因而基于统计量的特征使得其他存在的静音、噪声及非异常情绪语音段在大大抵消少量异常情绪语音段的特异性特征,导致特征区分性进一步降低,进而引起检测效果的急剧下降。
其次基于人工标注数据训练情绪模型的方法,在异常情绪语音数据量较少的实际应用环境下,模型难以准确模拟真实分布,影响到系统性能。
最后传统模式匹配算法中将提取的情绪特征和系统预置的多个情绪模型匹配计算其相似度并选择具有最大似然度的模型作为匹配对象,在异常情绪仅占待检测语音段很小比率时,由于具有较强区分效果的语音段过短,似然度得分将被非异常情绪语音段的特征主导,导致判断错误,影响到异常情绪检测的效果。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于短时分析的异常情绪自动检测和提取方法和系统,提高海量客服数据的自动处理效率。
本发明是通过以下技术方案实现的,一种基于短时分析的异常情绪自动检测和提取方法,包括以下步骤:
(1)提取待测语音信号中情绪特征序列;
(2)计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度,计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度;
(3)根据所述情绪特征序列与异常情绪模型的似然度,以及所述情绪特征序列与非异常情绪模型的似然度,计算似然比;
(4)判断所述似然比是否大于设定的阈值,如是,则确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常语音信号。
所述步骤(1)包括以下步骤:
1)从待测语音数据中按时间顺序逐帧提取语音信号帧Oi
2)对提取的语音信号帧Oi通过短时分析得到d维短时动态特征矢量xi,将连续的语音信号表征为短时的情绪特征序列X,X={x1,x2,...,xi,...,xT},其中:xi为d维矢量,T为该情绪特征序列的总帧数。
所述步骤(1)中,在提取待测语音信号的情绪特征序列前对原始语音信号进行降噪预处理和/或对提取的情绪特征序列通过特征变换算法提高特征的区分性。
在提取待测语音信号的情绪特征序列前对原始语音信号进行降噪预处理,具体可以采用端点检测技术去除多余的静音和非说话音,采用盲源分离技术实现噪声和语音的自动分离。
对提取的情绪特征序列通过特征变换算法提高特征的区分性,具体可以采用倒谱域减均值(Cepstral Mean Subtraction,CMS)或者参数补偿去除特征参数的噪声干扰。
所述步骤(2)中,情绪模型的构建包括以下步骤:
3)构建通用背景模型;
4)利用人工标注的异常情绪数据自适应构建异常情绪模型,利用人工标注的非异常情绪数据自适应构建非异常情绪模型。
所述步骤3)中构建通用背景模型包括以下步骤:
a、采集包括异常情绪和非异常情绪的各种语音数据;
b、提取各种语音数据中的短时动态特征,生成对应的短时特征序列,存入训练数据缓冲区;
c、构建通用背景模型拓扑结构;
d、利用步骤c的短时特征序列集合训练背景模型,获得模型参数。
所述步骤4)构建异常情绪模型或非异常情绪模型包括以下步骤:
e、采集人工标注的异常情绪语音数据或非异常情绪的语音数据;
f、提取步骤e语音数据的短时动态特征,生成对应的短时特征序列,并存入自适应数据缓冲区;
g、设置异常情绪模型或非异常情绪模型的初始模型为通用背景情绪副本;
h、利用步骤f中自适应数据缓冲区中短时特征序列的集合自适应训练异常情绪模型或非异常情绪模型,获得更新后的模型参数。
所述步骤h中,采用最大似然线性回归算法(Maximum LikelihoodLinear Regression,MLLR)或者最大后验概率算法(Maximum aPosterior,MAP)进行模型参数自适应。
所述步骤(2)中,
情绪特征序列X与异常情绪模型的似然度s1
s 1 = 1 T Σ i = 1 T log p ( x i | λ 1 ) ,
情绪特征序列X与非异常情绪模型的似然度s2
s 2 = 1 T Σ i = 1 T log p ( x i | λ 2 ) ,
λ1为异常情绪模型参数集合,λ2为非异常情绪模型参数集合,p(xi1)是情绪特征序列X中每帧情绪特征的异常情绪模型似然函数,p(xi2)是情绪特征序列X中每帧情绪特征的非异常情绪模型似然函数。
所述步骤(3)中,似然比s=s1-s2
一种基于短时分析的异常情绪自动检测和提取系统,包括:
提取模块,用于提取待测连续语音信号中的情绪特征序列;
第一计算模块,用于计算提取模块提取的情绪特征序列与系统预设的情绪模型中的异常情绪模型的似然度;
第二计算模块,用于计算提取模块提取的情绪特征序列与系统预设的情绪模型中的非异常情绪模型的似然度;
第三计算模块,用于根据第一计算模块中情绪特征序列与异常情绪模型的似然度,以及第二计算模块中情绪特征序列与非异常情绪模型的似然度,计算似然比;
判断模块,用于判断当所述第三计算模块中计算得到的似然比大于设定的阈值时,确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常情绪语音。
所述提取模块包括:
第一提取单元,用于从待测语音数据中按时间顺序逐帧提取语音信号帧Oi
短时分析单元,用于对第一提取单元提取的语音信号帧Oi通过短时分析得到d维短时动态特征矢量xi
所述系统还包括:情绪模型的构建模块,用于构建反映带有不同情绪的语音信号特点的异常情绪模型及非异常情绪模型;
所述情绪模型的构建模块包括第一采集单元,用于采集包括异常情绪和非异常情绪的各种语音数据;
第二提取单元,用于提取第一采集单元采集的各种语音数据中的短时动态特征,生成对应的短时特征序列,存入训练数据缓冲区;
构建单元,用于利用第二提取单元中训练数据缓冲区构建通用背景模型拓扑结构;
第一训练单元,用于利用构建单元得到的短时特征序列集合训练背景模型,获得模型参数;
第二采集单元,用于采集第一训练单元得到的人工标注的异常情绪语音数据或非异常情绪的语音数据;
第三提取单元,用于提取第二采集单元的语音数据的短时动态特征,生成对应的短时特征序列,并存入自适应数据缓冲区;
设置单元,用于设置异常情绪模型或非异常情绪模型的初始模型为通用背景情绪副本;
第二训练单元,用于利用第三提取单元中自适应数据缓冲区中短时特征序列的集合自适应训练异常情绪模型或非异常情绪模型,获得更新后的模型参数。
本发明相对现有技术具有以下优点:本发明通过基于似然比计算的方法确认待测语音信号是否包含异常情绪,系统提取语音信号的情绪特征序列,并分别计算其与系统预设的异常情绪模型和非异常情绪模型的相似度,然后计算异常情绪模型和非异常情绪模型似然度的比值,并和系统预设的阈值比较,实现对语音信号中异常情绪的自动高效判断,提高海量客服数据自动处理效率;通过基于短时分析的情绪特征提取,还可更好的提高异常情绪特征的区分性,提高检测的正确率;通过基于通用背景模型自适应的情绪模型训练算法,实现少量人工标注数据上的异常情绪模型和非异常情绪模型训练,提高其对连续语音信号中少量片段异常情绪检测的鲁棒性。
附图说明
图1是本发明异常情绪自动检测和提取的方法的流程图;
图2是本发明背景模型训练的流程图;
图3是本发明利用自适应算法的情绪模型的构建流程图;
图4是本发明异常情绪自动检测和提取系统的结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1所示,本实施例中异常情绪自动检测和提取方法包括以下步骤:
(1)提取待测语音信号中情绪特征序列;
(2)计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度,计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度;
(3)根据所述情绪特征序列与异常情绪模型的似然度,以及所述情绪特征序列与非异常情绪模型的似然度,计算似然比;
(4)判断所述似然比是否大于设定的阈值,如是,则确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常语音信号。
该阈值由系统预先设置在一个有人工标注的开发集合上调试得到,具体是通过在开发集上尝试设定多个阈值参数并统计其检测率,最后从测试的多个阈值中选择具有最高检测率的阈值作为系统预设阈值。
如图4所示,本实施例的异常情绪自动检测和提取系统包括提取模块1,用于提取待测连续语音信号中的情绪特征序列;
第一计算模块2,用于计算提取模块1提取的情绪特征序列与系统预设的情绪模型中的异常情绪模型的似然度;
第二计算模块3,用于计算提取模块1提取的情绪特征序列与系统预设的情绪模型中的非异常情绪模型的似然度;
第三计算模块4,用于根据第一计算模块2中情绪特征序列与异常情绪模型的似然度,以及第二计算模块3中情绪特征序列与非异常情绪模型的似然度,计算似然比;
判断模块5,用于判断当所述第三计算模块4中计算得到的似然比大于设定的阈值时,确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常情绪语音。
通过基于似然比计算的方法确认待测语音信号是否包含异常情绪,系统提取语音信号的情绪特征序列,并分别计算其与系统预设的异常情绪模型和非异常情绪模型的相似度,然后计算异常情绪模型和非异常情绪模型似然度的比值,并和系统预设的阈值比较,实现对语音信号中异常情绪的自动高效判断,提高海量客服数据自动处理效率。
实施例2
如图1所示,本实施例包括以下步骤:
(1)提取待测语音信号中情绪特征序列;
(2)计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度,计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度;
(3)根据所述情绪特征序列与异常情绪模型的似然度,以及所述情绪特征序列与非异常情绪模型的似然度,计算似然比;
(4)判断所述似然比是否大于设定的阈值,如是,则确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常语音信号。
该阈值由系统预先设置在一个有人工标注的开发集合上调试得到,具体如下:是通过先在开发集上设定某个阈值,统计其检测率,随后更新阈值,再统计其检测率。最后从测试的多个阈值中选择具有最高检测率的阈值作为最终的阈值。
考虑到真实语音信号往往存在各种噪音干扰,为了提高系统的鲁棒性,对采集到的语音信号执行前端降噪处理,为后续语音处理提供较为纯净的语音,在提取待测语音信号中情绪特征序列前,对原始语音信号进行降噪预处理,具体如下:采用端点检测技术去除多余的静音和非说话音,采用盲源分离技术实现噪声和语音的自动分离。
在步骤(1)中,对提取的语音信号的情绪特征序列通过特征变换算法提高特征的区分性:本实施例采用倒谱域减均值(CepstralMean Subtraction,CMS)去除特征参数的噪声干扰,其他实施例中也可以选用参数补偿去除特征参数的噪声干扰。可以进一步提高系统鲁棒性,降低实际环境对特征参数概率分布的影响,对特征参数进行规整,使得训练和识别时候的特征参数的概率分布比较接近,改善其不匹配问题。
步骤(1)包括以下步骤:
1)从待测语音数据中按时间顺序从左到右逐帧提取语音信号帧Oi,本实施例中,每帧语音信号的窗长为25ms,帧移为10ms,语音信号帧的特征参数为感知线性预测系数(Perceptual LinearPrediction PLP),其他实施例中也可以选用梅尔倒谱系数(MelFrequency Cepstral Coefficients MFCC);
2)对提取的语音信号帧Oi通过短时分析得到d维短时动态特征矢量xi,将连续的语音信号表征为短时的情绪特征序列X,X={x1,x2,...,xi,...,xT},其中:xi为d维矢量,T为该情绪特征序列的总帧数。
d是提取的情绪特征的矢量维数,根据不同的特征可能有不同数值。比如在本实施例PLP特征下,通常d取13维,若计算一阶差分、二阶差分则为26维、39维。
如图4所示,本实施例的异常情绪自动检测和提取系统包括提取模块1,用于提取待测连续语音信号中的情绪特征序列;
第一计算模块2,用于计算提取模块1提取的情绪特征序列与系统预设的情绪模型中的异常情绪模型的似然度;
第二计算模块3,用于计算提取模块1提取的情绪特征序列与系统预设的情绪模型中的非异常情绪模型的似然度;
第三计算模块4,用于根据第一计算模块2中情绪特征序列与异常情绪模型的似然度,以及第二计算模块3中情绪特征序列与非异常情绪模型的似然度,计算似然比;
判断模块5,用于判断当所述第三计算模块4中计算得到的似然比大于设定的阈值时,确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常情绪语音。
所述提取模块1包括第一提取单元101,用于从待测语音数据中按时间顺序逐帧提取语音信号帧Oi
短时分析单元102,用于对第一提取单元101提取的语音信号帧Oi通过短时分析得到d维短时动态特征矢量xi,将连续的语音信号表征为短时的情绪特征序列X,X={x1,x2,...,xi,...,xT},其中:xi为d维矢量,T为该情绪特征序列的总帧数。本实施例通过基于短时分析的情绪特征提取,还可更好的提高异常情绪特征的区分性,提高检测的正确率。
实施例3
如图1所示,本实施例包括以下步骤:
(1)提取待测语音信号中情绪特征序列;
(2)计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度,计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度;
(3)根据所述情绪特征序列与异常情绪模型的似然度,以及所述情绪特征序列与非异常情绪模型的似然度,计算似然比;
(4)判断所述似然比是否大于设定的阈值,如是,则确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常语音信号。
该阈值由系统预先设置在一个有人工标注的开发集合上调试得到,具体如下:是通过先在开发集上设定某个阈值,统计其检测率,随后更新阈值,再统计其检测率。最后从测试的多个阈值中选择具有最高检测率的阈值作为最终的阈值。
在实际呼叫中心的异常情绪数据往往很少,即使海量数据中存在大量有情绪数据,也很难在短期内标注出较大规模的异常情绪训练集。传统的模型训练算法在少量的训练数据根本无法训练一个高阶稳定的高斯模型。本实施例采用了一种通过通用背景模型(UniversalBackground Model UBM)自适应的模型训练方法,首先用充足的包括各种情绪类型的语音训练一个通用的高阶高斯模型UBM,以避免训练数据不足的问题。随后通过自适应算法实现从UBM到特定情绪模型的自适应。由于有足够多的高斯函数可以拟合任意的特征分布,该情绪模型的模拟的精度更高。
如图2所示,步骤(2)中,情绪模型的构建包括以下步骤:
1)构建通用背景模型;
2)利用人工标注的异常情绪数据自适应构建异常情绪模型,利用人工标注的非异常情绪数据自适应构建非异常情绪模型。
步骤1)中构建通用背景模型包括以下步骤:
a、采集包括异常情绪和非异常情绪的各种语音数据;
b、提取各种语音数据中的短时动态特征,短时动态特征的提取方法和实施例2中对语音信号帧的提取方法相同,生成对应的短时特征序列,存入训练数据缓冲区;
c、构建通用背景模型拓扑结构;
d、利用步骤c的短时特征序列集合训练背景模型,获得模型参数,得到一个通用的高阶高斯GMM模型的似然函数p(x|λ),
p ( x | λ ) = Σ i = 1 M w i N ( μ i , Σ i )
其中:x是提取的情绪特征矢量,M是系统预设的混合高斯模型的高斯数,N是正态分布函数标志,λ为模型参数集合,λ={wii,∑i},wi、μi、∑i分别为第i个高斯分量的权重、均值、协方差矩阵,该模型采用众多说话人的多种情绪数据混和训练得到,因而描述了情绪特征的共性,称为通用背景模型UBM。
上述步骤2)中构建异常情绪模型或非异常情绪模型包括以下步骤:
e、采集人工标注的异常情绪语音数据或非异常情绪的语音数据;
f、提取步骤e语音数据的短时动态特征,生成对应的短时特征序列,并存入自适应数据缓冲区;
g、设置异常情绪模型或非异常情绪模型的初始模型为通用背景情绪副本;
h、利用步骤f中自适应数据缓冲区中短时特征序列的集合自适应训练异常情绪模型或非异常情绪模型,获得更新后的模型参数。
本实施例中,当语音数据较少,一般小于或等于30秒时,采用最大似然线性回归算法进行自适应,当语音数据较大,大于30秒时,采用最大后验概率算法进行自适应。在情绪检测系统中由于有情绪语音段部分仅占待定语音段很少的比例,而自适应算法使得目标模型保持部分高斯函数和原UBM模型相同,从而突出测试语句中情绪部分的得分,提高了检测效果。
步骤(2)中,计算情绪特征序列X与异常情绪模型的似然度s1
s 1 = 1 T Σ i = 1 T log p ( x i | λ 1 ) ,
计算情绪特征序列X与非异常情绪模型的似然度s2
s 2 = 1 T Σ i = 1 T log p ( x i | λ 2 ) ,
计算情绪特征序列相对于异常情绪模型和非异常情绪模型的似然比s=s1-s2
其中:
分别为异常情绪模型中第i个高斯分量的权重、均值、协方差矩阵,
Figure GDA00003160612200154
分别为非异常情绪模型中第i个高斯分量的权重、均值、协方差矩阵,
λ为模型参数集合,λ1为异常情绪模型参数集合,
Figure GDA00003160612200161
λ2为非异常情绪模型参数集合,
Figure GDA00003160612200162
p(xi1)是情绪特征序列X中每帧情绪特征的异常情绪模型似然函数, p ( x i | λ 1 ) = Σ i = 1 M w i 1 N ( μ i 1 , Σ i 1 ) ,
p(xi2)是情绪特征序列X中每帧情绪特征的非异常情绪模型似然函数, p ( x i | λ 2 ) = Σ i = 1 M w i 2 N ( μ i 2 , Σ i 2 ) .
如图4所示,本实施例中异常情绪自动检测和提取系统包括提取模块1,用于提取待测连续语音信号中的情绪特征序列;
第一计算模块2,用于计算提取模块1提取的情绪特征序列与系统预设的情绪模型中的异常情绪模型的似然度;
第二计算模块3,用于计算提取模块1提取的情绪特征序列与系统预设的情绪模型中的非异常情绪模型的似然度;
第三计算模块4,用于根据第一计算模块2中情绪特征序列与异常情绪模型的似然度,以及第二计算模块3中情绪特征序列与非异常情绪模型的似然度,计算似然比;
判断模块5,用于判断当所述第三计算模块4中计算得到的似然比大于设定的阈值时,确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常情绪语音。
如图3所示,所述情绪模型的构建系统包括第一采集单元,用于采集包括异常情绪和非异常情绪的各种语音数据;
第二提取单元,用于提取第一采集单元采集的各种语音数据中的短时动态特征,生成对应的短时特征序列,存入训练数据缓冲区;
构建单元,用于利用第二提取单元中训练数据缓冲区构建通用背景模型拓扑结构;
第一训练单元,用于利用构建单元得到的短时特征序列集合训练背景模型,获得模型参数;
第二采集单元,用于采集第一训练单元得到的人工标注的异常情绪语音数据或非异常情绪的语音数据;
第三提取单元,用于提取第二采集单元的语音数据的短时动态特征,生成对应的短时特征序列,并存入自适应数据缓冲区;
设置单元,用于设置异常情绪模型或非异常情绪模型的初始模型为通用背景情绪副本;
第二训练单元,用于利用第三提取单元中自适应数据缓冲区中短时特征序列的集合自适应训练异常情绪模型或非异常情绪模型,获得更新后的模型参数。本实施例通过基于通用背景模型自适应的情绪模型训练算法,实现少量人工标注数据上的异常情绪模型和非异常情绪模型训练,提高其对连续语音信号中少量片段异常情绪检测的鲁棒性。
实施例4
如图1所示,本实施例包括以下步骤:
(1)提取待测语音信号中情绪特征序列;
(2)计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度,计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度;
(3)根据所述情绪特征序列与异常情绪模型的似然度,以及所述情绪特征序列与非异常情绪模型的似然度,计算似然比;
(4)判断所述似然比是否大于设定的阈值,如是,则确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常语音信号。
该阈值由系统预先设置在一个有人工标注的开发集合上调试得到,具体如下:是通过先在开发集上设定某个阈值,统计其检测率,随后更新阈值,再统计其检测率。最后从测试的多个阈值中选择具有最高检测率的阈值作为最终的阈值。
考虑到真实语音信号往往存在各种噪音干扰,为了提高系统的鲁棒性,对采集到的语音信号执行前端降噪处理,为后续语音处理提供较为纯净的语音,在提取待测语音信号中情绪特征序列前,对原始语音信号进行降噪预处理,具体如下:采用端点检测技术去除多余的静音和非说话音,采用盲源分离技术实现噪声和语音的自动分离。
在步骤(1)中,对提取的语音信号的情绪特征序列通过特征变换算法提高特征的区分性:本实施例采用倒谱域减均值(CepstralMean Subtraction,CMS)去除特征参数的噪声干扰,其他实施例中也可以选用参数补偿去除特征参数的噪声干扰。可以进一步提高系统鲁棒性,降低实际环境对特征参数概率分布的影响,对特征参数进行规整,使得训练和识别时候的特征参数的概率分布比较接近,改善其不匹配问题。
步骤(1)包括以下步骤:
1)从待测语音数据中按时间顺序逐帧提取语音信号帧Oi,本实施例中,每帧语音信号的窗长为25ms,帧移为10ms,语音信号帧的特征参数为感知线性预测系数(Perceptual Linear PredictionPLP),其他实施例中也可以选用梅尔倒谱系数(Mel FrequencyCepstral Coefficients MFCC);
2)对提取的语音信号帧Oi通过短时分析得到d维短时动态特征矢量xi,将连续的语音信号表征为短时的情绪特征序列X,X={x1,x2,...,xi,...,xT},其中:xi为d维矢量,T为该情绪特征序列的总帧数。
d是提取的情绪特征的矢量维数,根据不同的特征可能有不同数值。比如在本实施例PLP特征下,通常d取13维,若计算一阶差分、二阶差分则为26维、39维。
如图4所示,本实施例中异常情绪自动检测和提取系统包括提取模块1,用于提取待测连续语音信号中的情绪特征序列;
第一计算模块2,用于计算提取模块1提取的情绪特征序列与系统预设的情绪模型中的异常情绪模型的似然度;
第二计算模块3,用于计算提取模块1提取的情绪特征序列与系统预设的情绪模型中的非异常情绪模型的似然度;
第三计算模块4,用于根据第一计算模块2中情绪特征序列与异常情绪模型的似然度,以及第二计算模块3中情绪特征序列与非异常情绪模型的似然度,计算似然比;
判断模块5,用于判断当所述第三计算模块4中计算得到的似然比大于设定的阈值时,确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常情绪语音。
所述提取模块1包括第一提取单元101,用于从待测语音数据中按时间顺序逐帧提取语音信号帧Oi
短时分析单元102,用于对第一提取单元101提取的语音信号帧Oi通过短时分析得到d维短时动态特征矢量xi,将连续的语音信号表征为短时的情绪特征序列X,X={x1,x2,...,xi,...,xT},其中:xi为d维矢量,T为该情绪特征序列的总帧数。
如图3所示,情绪模型的构建系统包括第一采集单元,用于采集包括异常情绪和非异常情绪的各种语音数据;
第二提取单元,用于提取第一采集单元采集的各种语音数据中的短时动态特征,生成对应的短时特征序列,存入训练数据缓冲区;
构建单元,用于利用第二提取单元中训练数据缓冲区构建通用背景模型拓扑结构;
第一训练单元,用于利用构建单元得到的短时特征序列集合训练背景模型,获得模型参数;
第二采集单元,用于采集第一训练单元得到的人工标注的异常情绪语音数据或非异常情绪的语音数据;
第三提取单元,用于提取第二采集单元的语音数据的短时动态特征,生成对应的短时特征序列,并存入自适应数据缓冲区;
设置单元,用于设置异常情绪模型或非异常情绪模型的初始模型为通用背景情绪副本;
第二训练单元,用于利用第三提取单元中自适应数据缓冲区中短时特征序列的集合自适应训练异常情绪模型或非异常情绪模型,获得更新后的模型参数。
本实施例的其他实施方式和实施例3相同。本实施例结合了短时分析的情绪特征提取和基于通用背景模型的自适应情绪模型训练算法,不仅提高异常情绪特征的区分性,提高检测的正确率,还实现少量人工标注数据上的异常情绪模型和非异常情绪模型训练,提高其对连续语音信号中少量片段异常情绪检测的鲁棒性。

Claims (4)

1.一种基于短时分析的异常情绪自动检测和提取方法,其特征在于,包括以下步骤: 
(1)提取待测语音信号中情绪特征序列; 
(2)计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度,计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度; 
(3)根据所述情绪特征序列与异常情绪模型的似然度,以及所述情绪特征序列与非异常情绪模型的似然度,计算似然比; 
(4)判断所述似然比是否大于设定的阈值,如是,则确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常语音信号;所述步骤(1)包括以下步骤: 
1)从待测语音数据中按时间顺序逐帧提取语音信号帧Oi; 
2)对提取的语音信号帧Oi通过短时分析得到d维短时动态特征矢量xi,将连续的语音信号表征为短时的情绪特征序列X,X={x1,x2,...,xi,...,xT},其中:xi为d维矢量,T为该情绪特征序列的总帧数; 
所述步骤(2)中,情绪模型的构建包括以下步骤: 
3)构建通用背景模型; 
4)利用人工标注的异常情绪数据自适应构建异常情绪模型,利用人工标注的非异常情绪数据自适应构建非异常情绪模型; 
所述步骤3)中构建通用背景模型包括以下步骤: 
a、采集包括异常情绪和非异常情绪的各种语音数据; 
b、提取各种语音数据中的短时动态特征,生成对应的短时特征序列,存入训练数据缓冲区; 
c、构建通用背景模型拓扑结构; 
d、利用步骤c的短时特征序列集合训练背景模型,获得模型参数;
所述步骤4)构建异常情绪模型或非异常情绪模型包括以下步骤: 
e、采集人工标注的异常情绪语音数据或非异常情绪的语音数据; 
f、提取步骤e语音数据的短时动态特征,生成对应的短时特征序列,并存入自适应数据缓冲区; 
g、设置异常情绪模型或非异常情绪模型的初始模型为通用背景情绪副本; 
h、利用步骤f中自适应数据缓冲区中短时特征序列的集合自适应训练异常情绪模型或非异常情绪模型,获得更新后的模型参数。 
2.根据权利要求1所述的一种基于短时分析的异常情绪自动检测和提取方法,其特征在于:所述步骤(1)中,在提取待测语音信号的情绪特征序列前对原始语音信号进行降噪预处理和/或对提取的情绪特征序列通过特征变换算法提高特征的区分性。 
3.根据权利要求1所述的一种基于短时分析的异常情绪自动检测和提取方法,其特征在于:所述步骤(2)中, 
情绪特征序列X与异常情绪模型的似然度s1, 
情绪特征序列X与非异常情绪模型的似然度s2, 
Figure FDA00003160612100031
λ1为异常情绪模型参数集合,λ2为非异常情绪模型参数集合,p(xi1)是情绪特征序列X中每帧情绪特征的异常情绪模型似然函数,p(xi2)是情绪特征序列X中每帧情绪特征的非异常情绪模型似然函数。 
4.一种基于短时分析的异常情绪自动检测和提取系统,其特征在于,包括: 
提取模块,用于提取待测连续语音信号中的情绪特征序列; 
第一计算模块,用于计算提取模块提取的情绪特征序列与系统预设的情绪模型中的异常情绪模型的似然度; 
第二计算模块,用于计算提取模块提取的情绪特征序列与系统预设的情绪模型中的非异常情绪模型的似然度; 
第三计算模块,用于根据第一计算模块中情绪特征序列与异常情绪模型的似然度,以及第二计算模块中情绪特征序列与非异常情绪模型的似然度,计算似然比; 
判断模块,用于判断当所述第三计算模块中计算得到的似然比大于设定的阈值时,确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常情绪语音; 
所述提取模块包括: 
第一提取单元,用于从待测语音数据中按时间顺序逐帧提取语音信号帧Oi; 
短时分析单元,用于对第一提取单元提取的语音信号帧Oi通过短 时分析得到d维短时动态特征矢量xi; 
所述系统还包括:情绪模型的构建模块,用于构建反映带有不同情绪的语音信号特点的异常情绪模型及非异常情绪模型; 
所述情绪模型的构建模块包括第一采集单元,用于采集包括异常情绪和非异常情绪的各种语音数据; 
第二提取单元,用于提取第一采集单元采集的各种语音数据中的短时动态特征,生成对应的短时特征序列,存入训练数据缓冲区; 
构建单元,用于利用第二提取单元中训练数据缓冲区构建通用背景模型拓扑结构; 
第一训练单元,用于利用构建单元得到的短时特征序列集合训练背景模型,获得模型参数; 
第二采集单元,用于采集第一训练单元得到的人工标注的异常情绪语音数据或非异常情绪的语音数据; 
第三提取单元,用于提取第二采集单元的语音数据的短时动态特征,生成对应的短时特征序列,并存入自适应数据缓冲区; 
设置单元,用于设置异常情绪模型或非异常情绪模型的初始模型为通用背景情绪副本; 
第二训练单元,用于利用第三提取单元中自适应数据缓冲区中短时特征序列的集合自适应训练异常情绪模型或非异常情绪模型,获得更新后的模型参数。 
CN2012100526592A 2012-03-02 2012-03-02 一种基于短时分析的异常情绪自动检测和提取方法和系统 Active CN102623009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100526592A CN102623009B (zh) 2012-03-02 2012-03-02 一种基于短时分析的异常情绪自动检测和提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100526592A CN102623009B (zh) 2012-03-02 2012-03-02 一种基于短时分析的异常情绪自动检测和提取方法和系统

Publications (2)

Publication Number Publication Date
CN102623009A CN102623009A (zh) 2012-08-01
CN102623009B true CN102623009B (zh) 2013-11-20

Family

ID=46562889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100526592A Active CN102623009B (zh) 2012-03-02 2012-03-02 一种基于短时分析的异常情绪自动检测和提取方法和系统

Country Status (1)

Country Link
CN (1) CN102623009B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103906145B (zh) * 2012-12-25 2018-01-30 中国移动通信集团四川有限公司 一种语音业务的sla门限生成方法及装置
CN103198838A (zh) * 2013-03-29 2013-07-10 苏州皓泰视频技术有限公司 一种用于嵌入式系统的异常声音监控方法和监控装置
CN103295573B (zh) * 2013-05-06 2015-07-01 东南大学 基于费舍比率最优小波包分解的语音情感特征提取方法
CN105744090A (zh) 2014-12-09 2016-07-06 阿里巴巴集团控股有限公司 语音信息处理方法及装置
CN105810205A (zh) * 2014-12-29 2016-07-27 中国移动通信集团公司 一种语音处理方法及装置
CN104992708B (zh) * 2015-05-11 2018-07-24 国家计算机网络与信息安全管理中心 短时特定音频检测模型生成与检测方法
CN106548788B (zh) * 2015-09-23 2020-01-07 中国移动通信集团山东有限公司 一种智能情绪确定方法及系统
CN107767863B (zh) * 2016-08-22 2021-05-04 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN108735232A (zh) * 2017-04-24 2018-11-02 北京理工大学 一种性格识别方法和装置
CN108039181B (zh) * 2017-11-02 2021-02-12 北京捷通华声科技股份有限公司 一种声音信号的情感信息分析方法和装置
CN108133625A (zh) * 2018-01-29 2018-06-08 周口师范学院 一种心理学教育用能力训练装置
CN108564968A (zh) * 2018-04-26 2018-09-21 广州势必可赢网络科技有限公司 一种评价客服服务的方法及装置
CN111263009B (zh) * 2020-01-17 2022-03-18 北京三快在线科技有限公司 电话录音的质检方法、装置、设备及介质
CN111294468A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种客服中心呼叫用语音质检分析系统
CN112804400B (zh) * 2020-12-31 2023-04-25 中国工商银行股份有限公司 客服呼叫语音质检方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4914295B2 (ja) * 2007-06-21 2012-04-11 パナソニック株式会社 力み音声検出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2009-3162A 2009.01.08
基于短时和长时特征的语音情感识别研究;林弈琳等;《科学技术与工程》;20060228;第6卷(第4期);450-454 *
林弈琳等.基于短时和长时特征的语音情感识别研究.《科学技术与工程》.2006,第6卷(第4期),450-454.

Also Published As

Publication number Publication date
CN102623009A (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN102623009B (zh) 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN107222865B (zh) 基于可疑行为识别的通讯诈骗实时检测方法和系统
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
US20160111112A1 (en) Speaker change detection device and speaker change detection method
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
US20150142446A1 (en) Credit Risk Decision Management System And Method Using Voice Analytics
Ferrer et al. A noise-robust system for NIST 2012 speaker recognition evaluation.
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
Andrei et al. Detecting Overlapped Speech on Short Timeframes Using Deep Learning.
CN109979486B (zh) 一种语音质量评估方法及装置
CN103440864A (zh) 基于语音的人格特征预测方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Jiao et al. Convex weighting criteria for speaking rate estimation
CN109243492A (zh) 一种语音情感识别系统及识别方法
Gong et al. Vocalsound: A dataset for improving human vocal sounds recognition
CN111554302A (zh) 基于声纹识别的策略调整方法、装置、终端及存储介质
Bagul et al. Text independent speaker recognition system using GMM
CN106251861A (zh) 一种基于场景建模的公共场所异常声音检测方法
CN109545198A (zh) 一种基于卷积神经网络的英语口语母语度判断方法
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
Dubey et al. Non-intrusive objective speech quality assessment using a combination of MFCC, PLP and LSF features
Soni et al. Effectiveness of ideal ratio mask for non-intrusive quality assessment of noise suppressed speech
Li et al. Output-based objective speech quality measurement using continuous Hidden Markov Models
CN115271926A (zh) 基于云计算的金融大数据自动化智能分析控制系统及方法
CN110111810B (zh) 基于卷积神经网络的语音人格预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CI01 Correction of invention patent gazette

Correction item: Applicant

Correct: Anhui USTC iFLYTEK Co., Ltd.

False: Anhui USTC iFLYTEK Co., Ltd.

Number: 31

Volume: 28

CI02 Correction of invention patent application

Correction item: Applicant

Correct: Anhui USTC iFLYTEK Co., Ltd.

False: Anhui USTC iFLYTEK Co., Ltd.

Number: 31

Page: The title page

Volume: 28

ERR Gazette correction

Free format text: CORRECT: APPLICANT; FROM: ANHUI USTC IFLYTEK CO., LTD. TO: ANHUI USTC IFLYTEK CO., LTD.

RECT Rectification
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: Hefei City, Anhui province 230000 Wangjiang Road No. 666 HKUST voicebook industrial base

Patentee after: Iflytek Co., Ltd.

Address before: Hefei City, Anhui province 230000 Wangjiang Road No. 666 HKUST voicebook industrial base

Patentee before: Anhui USTC iFLYTEK Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20191223

Address after: No. 3501-4012, 35-40 / F, block a, Guanggu new world office building, east of Guanshan Avenue and south of Xiongchu Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee after: Wuhan iFLYTEK Xingzhi Technology Co., Ltd

Address before: Hefei City, Anhui province 230000 Wangjiang Road No. 666 HKUST voicebook industrial base

Patentee before: Iflytek Co., Ltd.

TR01 Transfer of patent right