CN104538027B

CN104538027B - 语音社交媒体的情绪传播量化方法及系统

Info

Publication number: CN104538027B
Application number: CN201410760823.4A
Authority: CN
Inventors: 戴伟辉; 戴永辉; 韩冬梅; 胡虹智; 周璇; 戴杏云; 赵旭东; 赵卫东; 徐冬溶; 黄丽华; 樊卫国; 陈海建; 王今朝
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2018-07-20
Anticipated expiration: 2034-12-12
Also published as: CN104538027A

Abstract

本发明属于信息技术领域，具体为语音社交媒体的情绪传播计算方法及系统。本发明方法包括4个步骤：社交媒体圈语音预处理；语音特征参数提取；情绪识别计算；情绪传播过程的量化。本发明系统包括4个模块，分别4个步骤的功能。本发明从语音情绪角度来计算社交媒体圈的情绪传播，通过PAD三维情感参数标记和BP神经网络建模，将社交媒体圈里情绪传播过程用数值来量化标识。本发明优点：充分考虑了语音社交媒体中短语式会话多的特征，采用间隔一定时间的方式来提取语音特征，有利于提升情绪识别准确率，以及能动态反应社交媒体圈里的情绪；提供了情绪传播过程量化图，便于直观地看到社交圈里的情绪变化。

Description

语音社交媒体的情绪传播量化方法及系统

技术领域

本发明属于信息技术领域，具体涉及情感计算技术，特别地涉及语音社交媒体的情绪传播量化方法及系统。

背景技术

近年来，随着通讯技术的迅猛发展和移动智能终端的普及，社交媒体的通讯和交流方式正在发生新的变化，以QQ、微信、WhatsApp等为代表的即时通讯工具软件已成为国内外的主要社交媒体方式。吃、喝、玩、乐、生活百态以及各种正负能量的新闻与消息，通过社交媒体这一新的传播手段迅速扩散到广大民众百姓。由于社交媒体上的情绪往往会影响到社会上个体的情绪和群体情绪，甚至引发群体事件，因此，对社交媒体的情绪进行研究很有必要。目前，社交媒体的情绪研究已经受到国内外广大学者的关注，他们大多从网络文本分析和图片分析角度着手来对社交媒体中的留言、留图表情来分析，通过分词、情感词典、文本情感倾向分析、机器学习算法等手段来进行，取得了不少研究成果。然而，由于网络文本里存在很多干扰的文字信息，而且情绪往往与当前所处上下文环境密切相关，因此，基于网络文本的情绪分析在情绪传播分析的应用中存在着如下局限性：

1、由于中文词多义现象较普遍，这给中文情感词典的构建带来了很大的困难，而基于网络文本的情绪判断完全依赖所构建的中文情感词典，但是中文情感词典标注的词终究有限，因此，往往无法避免情绪识别错误、识别准确率不高的现象；

2、基于文本的情绪分析是通过对语句中的情感词进行概率统计和匹配，然后给出大致的情感倾向性判断，这种分析所得到的结果，无法进行量化，结果不是很直观。

随着语音社交在信息传播中的广泛使用，而众多的研究成果与实践案例已表明，语音中蕴含着丰富的个性化情绪特征，通过语音是能较准确地判断个体情绪的。因此，对社交媒体中的语音进行特征提取、情感计算和分析，使用语音情绪描述社交媒体圈的情绪，并用语音情绪的动态变化来描述社交媒体圈的情绪动态变化，极具创新性。

发明内容

本发明的目的是针对现有社交媒体情绪传播分析技术的不足，提出了语音社交媒体的情绪传播量化方法及系统，通过对语音情绪的量化来提升情绪识别准确率，并提供直观的图形来动态反应社交媒体圈里情绪变化。

本发明提出语音社交媒体的情绪传播量化方法，具体步骤为：

步骤1：社交媒体圈语音预处理；依次包括语音素材抓取和语音素材处理两个过程，其中：

语音素材抓取：通过调用GetVoiceFile()函数将社交媒体圈里的语音素材自动抓取出来，并保存到硬盘的VoiceFile目录下；

语音素材处理：对抓取到的语音素材，进行语音格式预处理，将语音文件转为wav格式的文件,该文件的采样频率是16KHz，采样位数是16bit，再对语音进行端点检测和截取，去掉首尾无效的语音段落；

步骤2：语音特征参数提取；依次包括语音特征参数选择和实施特征提取两个过程，其中：

语音特征参数选择：对已完成步骤1的语音素材，选取18个语音特征参数构成语音特征参数集S(n),S(n)=[SEM，PM，SZCM，FF，NB，VS，MFCC12]，其中，SEM指短时能量的平均值，PM指基音的平均值，SZCM指短时平均过零率的平均值，FF指第一共振峰的值，NB指语间停顿次数，VS指语速，MFCC12指12阶Mel频标倒谱系数；

实施特征提取：使用matlab工具软件编写的getVoiceValue()函数来提取单个语音文件的18个语音特征参数，该函数是按设定的间隔时间来对所选语音文件进行特征提取，当该语音文件的播放时长如果能整除设定的间隔时间，则提取次数就是该整除数，否则，提取次数是整除数加1，提取完后将提取到的值存入VoiceValue.txt文件中；

步骤3：情绪识别计算；包括：PAD (Pleasure-Arousal-Dominance,愉悦-激活-优势)三维参数的标记、BP神经网络建模和语音情感计算共三个过程，其中，

PAD三维参数的标记：包括语音PAD量化调查和PAD值计算共两个过程，具体如下：

语音PAD量化调查：以问卷和网络调查的方式，收集到被调查者在PAD量化调查表中对语音素材的标记值，该标记值是从愉悦、激活、优势三个维度来对语音素材进行的人工标定；

PAD值计算：依照PAD归一化计算公式，对PAD量化调查表里的标记值分别计算愉悦、激活、优势三个维度上的P值、A值和D值，使得PAD三个维度的各自值均处在[-1,1]的区间里，PAD归一化计算公式如下：

式中，y是归一化的值，x _k是待归一化的第k个样本值，x _max是样本值里最大值，x _min是样本值里最小值；

BP神经网络建模：使用BP神经网络来对社交媒体圈里的语音素材的PAD值进行样本训练与建模，包括：网络层数的设计、神经节点的设计、传递函数和学习函数的设计共三个过程，具体如下：

网络层数的设计：由于三层BP神经网络可以以任意精度逼近任意映射关系，因此网络层数选定为3，即：输入层、隐含层和输出层；

神经节点的设计：输入层节点数目设置为18，即：18个语音特征参数；输出层节点设置为3，即：输出P值、A值、D值；隐含层节点数目通过经验公式及反复训练得到，式中I为输入层节点数，O为输出层节点数，a为1-10的常数，经过测试n=6,7,8,9,10，11共6种情况，最后选定n=8，此时神经网络的均方误差值是0.0216，是6种里最小的，均方误差的计算公式如下：

式中，MSE是均方误差，n是输出节点的数目，s是训练的样本数目，是神经网络的期望输出值，是神经网络的实际输出值；

传递函数和学习函数的设计：隐含层神经元传递函数选tansig；输出层神经元传递函数选purelin；训练函数选traingdx；学习速率初始值选0.1；动量因子的初始值选0.9；

语音情感计算：使用建立好的BP神经网络，对语音PAD量化调查所获得的值，进行情感计算，并以历史语音的快乐、悲伤、愤怒、惊讶、恐惧和中立这六类基本情绪的PAD值作为参考，进行情感归类；

步骤4：情绪传播过程的量化；通过记录发音时间顺序与该时段的PAD值来描述情绪传播动态过程，并通过计算极性的公式，即：V_Value=0.2*P_value+0.8*A_value,来计算极性，再以图形的方式给出简明的正负极性情绪传播过程量化图。

本发明还包括基于上述的语音社交媒体的情绪传播量化方法的系统，该系统包括四个模块，即：语音社交媒体圈语音预处理模块，语音特征参数提取模块，语音情绪识别计算模块，情绪传播过程量化模块，这4个模块分别执行对应于语音社交媒体的情绪传播量化方法中的四个步骤；其中：

所述语音社交媒体圈语音预处理模块，包括语音素材抓取和语音素材处理2个子模块，这2个子模块分别执行步骤1中2个过程的功能；

所述语音特征参数提取模块，包括语音特征参数选择和实施特征提取2个子模块，这2个子模块分别执行步骤2中2过程的功能；

所述语音情绪识别计算模块，包括PAD三维参数的标记、BP神经网络建模和语音情感计算3个子模块，这3个子模块分别执行步骤3中3个过程的功能；

所述情绪传播过程的量化模块，包括按发言时间顺序标记语音、给出语音的量化PAD值、计算情绪极性和给出量化的传播图形4个子模块，这4个子模块分别执行步骤4中的功能。

本发明从语音情绪角度来计算社交媒体圈的情绪传播，通过PAD三维情感参数标记和BP神经网络建模，将社交媒体圈里情绪传播过程用数值来量化标识。本发明优点：(1)充分考虑了语音社交媒体中短语式会话多的特征，采用间隔一定时间的方式来提取语音特征，动态地反应了社交媒体圈里的情绪；(2)提供了情绪传播过程量化图，便于直观地看到社交圈里的情绪变化。

附图说明

图1 是本发明整体架构图。

图2 是本发明语音PAD量化调查记分表。

图3 是本发明BP神经网络算法流程图。

图4是本发明微信群的语音情绪PAD记录表。

图5是本发明正负情绪传播动态过程图。

具体实施方式

下面参照附图，对本发明的各种实施作进一步的详细描述。

图1示出了本发明整体架构图。其中：

步骤1：在装有python环境和matlab软件的windows操作系统的机器上，鼠标双击文件“GrabAudioFile.py”运行，它将对指定的web网页地址进行语音素材的抓取，并将抓取到的语音文件保存到“C:\VoiceFile”目录下，执行抓取语音文件功能的GetVoiceFile()函数的逻辑代码实现见附录1；接着运行语音格式转换软件（如：格式工厂软件），它将对“C:\VoiceFile”目录下的语音文件进行语音格式预处理，将语音文件转为wav格式的文件,该文件的采样频率是16KHz，采样位数是16bit；接着鼠标双击文件“FormatAudioFile.m”运行，它采用基于短时平均能量和短时平均过零率的双门限法对语音起始点和结束点进行端点检测，然后进行有效段语音的截取，去掉首尾无效的语音段落，其中，短时平均能量和短时平均过零率的计算分别如下：

短时平均能量的计算：，式中，N为帧长，为加窗分帧处理后得到的第n帧语音信号；

短时平均过零率的计算：，式中，sgn[ ]为符号函数，即：；

步骤2：在实施特征提取时，使用matlab工具软件编写的getVoiceValue()函数按设定的间隔时间来提取语音特征参数集S(n)中的18个特征参数，即：短时能量的平均值（SEM）、基音的平均值（PM）、短时平均过零率的平均值（SZCM）、第一共振峰的值（FF）、语间停顿次数（NB）、语速（VS）、12阶Mel频标倒谱系数（MFCC12），其中，12阶Mel频标倒谱系数代表人耳对于频率的感受度，与实际频率的转换关系为：,使用汉明窗的MFCC12的计算过程如下：

1)初始化语音：初始化每一帧语音的采样长度为256，并对语音信号进行预加重、分帧、加窗的处理；

2)计算幅度谱：对初始化完成的语音的每帧进行离散快速傅利叶转换(FFT)，得到其频谱后再取模的平方，计算获得幅度谱S(n)；

3)加三角带通滤波器：用S(n)乘以M个三角带通滤波器，获得M个参数P_m，m=0,1,…，M-1；

4)计算对数：对Pm计算自然对数，可得L_m，m=0,1,…，M-1；

5)获取MFCC参数：对Lm计算离散余弦变换，得到D_m，m=0,1,…，M-1，丢弃代表直流成份的D₀，取D₁，D₂，…，D_k作为MFCC 参数；

步骤3：依据图2所示的语音PAD量化调查表进行调查，然后从愉悦、激活、优势三个维度来对语音素材进行人工标定，例如：对语音素材1的标定为（-2.8，2.1，3.8），经归一化计算后得到（-0.655,0.603,0.906），此值即为PAD三维坐标中的P值、A值和D值，在获取所有语音素材的PAD值后，任意选取其中2/3作为BP神经网络的样本训练集，剩余1/3作为测试集，依照图3所示的BP神经网络算法进行BP神经网络建模，当网络均方误差值满足要求时，建模完成；然后，用建立好的BP神经网络进行语音情感计算，例如：训练好的BP神经网络模型参数设置如下：

输入层节点数：18；

隐藏层节点数：8；

输出层节点数：3；

隐含层神经元传递函数：tansig；

输出层神经元传统函数：purelin；

训练函数：traingdx；

样本学习结束条件：误差精度E=0.05；

循环次数：1000次；

学习速率初始值：0.1；

动量因子的初始值：0.9；

步骤4：依据发言顺序、开始时间、结束时间、说话者ID、听众对象、PAD值的列表将社交媒体圈内针对某话题的语音整理出来，如图4所示；接着，根据经验给出计算极性的公式，即：V_Value=0.2*P_value+0.8*A_value，最后，以图形的方式给出简明的正负极性情绪传播过程量化图，如图5所示。

图2示出了本发明语音PAD量化调查记分表。被调查者在网上或者现场听完语音素材后，对语音素材里说话者处于何种情感及情感的强烈程度做评定，每听完一个语音素材，填写12个情感倾向的分数，给出的分数选择是从最左到最右，从“-4”到“4”，中间记为“0”分；一旦12个分数都给出后，就根据PAD三维情感计算公式分别计算该模型的P值、A值和D值，PAD三维情感计算公式如下：

图3示出了本发明BP神经网络算法流程图。其中：

如流程5所示，初始化BP神经网络，给出语音的PAD值的训练样本集，并对阈值及各连接权值赋初值，例如：在matlab中使用net=newff(input(n(1:58),:)', output(n(1:58),:)', {‘tansig’, ‘purelin'},‘traingd')，表示初始化BP神经网络的输入层、隐含层、输出层，并选取1到58行的数据为样本数据；

如流程6所示，输入1个样本数据，例如：输入样本1的18个语音特征参数；

如流程7所示，向前传播，计算各层节点的输出，例如：隐含层节点的输出为，式中，指输入层与隐含层之间的权值；输出层节点的输出为，式中，指隐含层与输出层之间的权值；

如流程8所示，计算样本S的误差e_s，，其中，是真实值，是期望值；

如流程9所示，判断误差e_s是否满足要求，如果满足要求则进入流程10；否则进入流程11；

如流程10所示，判断所有样本的误差e_s是否满足要求，如果满足要求则进入流程14结束；否则进入流程13；

如流程11所示，计算输出层各节点的误差，,式中，指k节点的输出值，指隐含层与输出层之间的权值；并根据调节相应的连接权值；

如流程12所示，反向传播，计算隐含层各节点的误差，并调节相应的连接权值；

如流程13所示，输入下一个训练样本p；

如流程14所示，计算结束返回构建完的BP神经网络。

图4示出了本发明微信群的语音情绪PAD记录表。它的实现是通过在微信群里，首先发起一个话题，如：“欢迎大家用语音对阿里巴巴IPO路演的讨论”，然后，将群里大家对此话题发表的语音抓取下来，计算出PAD值，再依据发言顺序、开始时间、结束时间、说话者ID、听众对象、PAD值以列表的形式整理出来，供分析情绪传播用。

图5示出了本发明正负情绪传播动态过程图。它的实现是先将微信群里发言人的语音情绪PAD值计算出来，再根据公式V_Value=0.2*P_value+0.8*A_value计算出极性值，然后以“发言顺序”为横轴，以极性值“V_value”为纵轴，将每个发言人的ID和此人当时的情绪极性值标记在图上，这样，正负情绪传播动态过程就通过量化的手段很直地观地展现出来，从图5可清楚地看到当前的情绪传播是从ID.001的较为强烈的负面情绪,到ID.002以后负面放大,再到ID.006最大，然后在ID.003、ID.004的参与讨论下，最后停在ID.001的接近中性情绪，在整个过程中,ID.002贡献的消极情绪最多,ID.004作为最活跃的参与者,而ID.003的角色与群内最具影响的意见领袖类似。

附录

执行抓取语音文件功能的GetVoiceFile的逻辑代码如下：

public static void GetVoiceFile(String weburl) {

if suffix_match(weburl) is mp3

download thisFile.mp3；

else if suffix_match(weburl) is wav

download thisFile.wav；

else if suffix_match(weburl) is amr

download thisFile.amr；

else if suffix_match(weburl) is wma

download thisFile.wma；

else

return；

}。

Claims

1.语音社交媒体的情绪传播量化方法，其特征在于，具体步骤为：

步骤1：社交媒体圈语音预处理；

依次包括语音素材抓取和语音素材处理两个过程，其中：

语音素材处理：对抓取到的语音素材，进行语音格式预处理，即将语音文件转为wav格式的文件,该文件的采样频率是16KHz，采样位数是16bit，再对语音进行端点检测和截取，去掉首尾无效的语音段落；

步骤2：语音特征参数提取；

依次包括语音特征参数选择和实施特征提取两个过程，其中：

语音特征参数选择：是对已完成步骤1的语音素材，选取18个语音特征参数构成语音特征参数集S(n),S(n)=[SEM，PM，SZCM，FF，NB，VS，MFCC12]，其中，SEM指短时能量的平均值，PM指基音的平均值，SZCM指短时平均过零率的平均值，FF指第一共振峰的值，NB指语间停顿次数，VS指语速，MFCC12指12阶Mel频标倒谱系数；

实施特征提取：是使用matlab工具软件编写的getVoiceValue()函数来提取单个语音文件的18个语音特征参数，该函数是按设定的间隔时间来对所选语音文件进行特征提取，如果该语音文件的播放时长能整除设定的间隔时间，则提取次数就是该整除数，否则，提取次数是整除数加1，提取完后将提取到的值存入VoiceValue.txt文件中；

步骤3：情绪识别计算；

包括：PAD三维参数的标记、BP神经网络建模和语音情感计算共三个过程，P表示愉悦，A表示激活，D表示优势；其中：

PAD值计算：依照PAD归一化计算模型，对PAD量化调查表里的标记值分别计算愉悦、激活、优势三个维度上的P值、A值和D值，使得PAD三个维度的各自值均处在[-1,1]的区间里，PAD归一化计算公式如下：

神经节点的设计：输入层节点数目设置为18，即：18个语音特征参数；输出层节点设置为3，即：输出P值、A值、D值；隐含层节点数目通过经验公式及反复训练得到，式中I为输入层节点数，O为输出层节点数，a为1到10的常数；均方误差的计算公式如下：

2.基于权利要求1所述的语音社交媒体的情绪传播量化方法的系统，其特征在于包括四个模块：语音社交媒体圈语音预处理模块，语音特征参数提取模块，语音情绪识别计算模块和情绪传播过程量化模块，这4个模块分别执行对应于语音社交媒体的情绪传播量化方法中的四个步骤；其中：

所述语音社交媒体圈语音预处理模块，包括语音素材抓取和语音素材处理2个子模块，这2个子模块分别执行权利要求1步骤1中2个过程的功能；

所述语音特征参数提取模块，包括语音特征参数选择和实施特征提取2个子模块，这2个子模块分别执行权利要求1步骤2中2过程的功能；

所述语音情绪识别计算模块，包括PAD三维参数的标记、BP神经网络建模和语音情感计算3个子模块，这3个子模块分别执行权利要求1步骤3中3个过程的功能；

所述情绪传播过程量化模块，包括按发言时间顺序标记语音、给出语音的量化PAD值、计算情绪极性和给出量化的传播图形4个子模块，这4个子模块分别执行权利要求1步骤4中的功能。