CN104216873B

CN104216873B - 一种分析情绪障碍患者网络留言情感波动特征的方法

Info

Publication number: CN104216873B
Application number: CN201410426891.7A
Authority: CN
Inventors: 王泰; 刘三女牙; 魏阳
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2017-02-15
Anticipated expiration: 2034-08-27
Also published as: CN104216873A

Abstract

本发明属于中文文本信息处理与应用心理学技术领域，提供了一种分析情绪障碍患者网络留言情感波动特征的方法，用于分析和发现情绪障碍患者网络留言的情感值在一周（168个小时）时间内的波动特征。通过不同用户的空间地址爬取用户的网络留言以及发表时间，然后对网络留言进行分词，之后通过与情感词汇比对记录积极和消极情感词汇数目，再通过一定的计算公式分别计算积极和消极情感词汇密度值，最后将数据结果用折线图的形式展现出来。本发明能够自动的进行网络留言及时间的抽取和保存，并能对保存后的数据进行数据计算，自动绘制情感波动曲线。本发明简便易行，运行环境要求简单，稳定性强，具有较强的兼容性。

Description

一种分析情绪障碍患者网络留言情感波动特征的方法

技术领域

本发明属于中文文本信息处理与应用心理学技术领域，具体涉及一种分析情绪障碍患者网络留言情感波动特征的方法。

背景技术

目前，青少年心理健康问题越来越严重，已经成为影响青少年健康成长的首要问题，因此，及时发现青少年可能存在的心理问题，了解青少年的真实情绪和心理特征，是一个急需解决的课题。

对于传统的心理问卷调查法，一方面问卷是否真实填写无法判断，大多数学生在填写该问卷时抱有一定隐瞒或者不愿被列为个例的想法，另一方面也存在效率不足的缺陷，制作问卷、回收问卷以及统计结果，工作任务多，数据量大，需要大量精力投入，并且不能得到实时的统计结果。而当下，互联网的发展和普及改变着人们的生活方式和情感表达方式，越来越多的人特别是青少年习惯于通过微博、论坛、社区等网络载体表达自己的主观情感，如喜欢、厌恶、高兴、悲伤等等。网络媒体的迅速兴起，为了解和发现青少年的情绪心理状态提供了大量真实的数据。通过对青少年网络文本的深入研究和分析可以了解青少年可能存在的心理健康问题，并发现青少年潜在的情绪变化和心理特征。

由此可见，分别分析情绪障碍患者和心理健康个体网络文本的情感波动特征，对于了解和及早发现情绪障碍患者有重要的研究价值。

挪威有研究者通过对精神分裂症及家人的语言进行分析发现了一种自动化的语言分析方法，能够识别精神分裂症患者的语言特征。（Brita Elvevaag, Peter Foltz,Mark Rosenstein, Lynn DeLisi. An automated method to analyze language use inpatients with schizophrenia and their first-degree relatives.Journal ofNeurolinguistics, 2010(23):270-284.）美国有研究者发现，人的情感是有节律变化的特征的。通过对250万个网民的约5.1亿条推特信息进行分析发现，不同文化背景的人都有相似的每日情绪节律（mood rhythms）：早晨起来时，情绪高涨；然后白天消沉，到晚上要睡觉时又高涨起来。（Scott A Golder, Michael W Macy.Diurnal and seasonal mood varywith work, sleep, and day length across diverse cultures. Science, 2011, 333(6051):1878–1881.）美国有研究者用Twitter情绪预测股票市场，研究发现网络平静状态的变化反映在市场变动中，与道琼斯工业平均指数(Dow Jones Industrial Average)涨跌具有强烈的预测相关性。(Johan Bollen, Huina Mao, Xiao-Jun Zeng. Twitter moodpredicts the stock market.Journal of Computational Science, 2011, 2(1):1–8.)从这些研究结果可以看出，通过网络文本或者情感分析可以发现潜在的用户特征。

然而目前，国内外还没有公开文献报道有关情绪障碍患者网络文本特征的研究成果，可以说这是个新的领域需要研究者不断进行研究分析。

发明内容

针对现有技术的上述不足，本发明提出了一种分析情绪障碍患者网络留言情感波动特征的方法，该方法简便易行，能够自动的进行网络留言及时间的抽取和保存，并能对保存后的数据进行数据计算，自动绘制情感波动曲线，运行环境要求简单，稳定性强，具有较强的兼容性。

具体来说，本发明一种分析情绪障碍患者网络留言情感波动特征的方法，包括以下步骤：

（1）确定研究样本，将人群进行分类，分为情绪障碍患者和心理健康个体；

（2）对不同用户的网络文本进行分析，收集用户的网络留言及发表时间；

（3）对用户的网络留言进行分词，使用的分词软件为中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS 5.0，调用了其中的c#接口进行中文分词；

（4）对经步骤（3）处理后的文本进行情感识别，采用与情感词典比对的方法，记录积极和消极情感词汇数目，使用的情感词库为中国科学院心理研究所朱延劭团队对于LIWC软件中的词汇进行中文翻译后的词典库；

（5）计算出积极消极情感词汇密度，其中涉及的符号及含义如下表1所示。

表1积极情绪情感词汇密度计算符号及含义

其中涉及的公式有以下四个：

公式1

PA_u (h)为用户u在时间h时的积极情绪词汇密度，它的计算方式为该用户在时间h时发布的状态文字中积极情绪词汇的个数除以总的词汇数，其中||x||表示当x为集合时，集合x的元素数目；

公式2

BPA_u为用户u每小时的平均积极情绪词汇密度，即该用户在所有时间内的积极情绪分值之和除以用户所有发布状态的时间数目，H={0…167}，对于同一个用户来说，此值是个定值；

公式3

WPA_u (h)为用户u自身的积极情绪词汇密度（within-individual score），也就是个体本身积极情绪词汇密度随时间的变化状况，计算公式如公式3所示，，其中(u,h)为(用户,小时)数据对，||UH||是所有(u,h)数据对的总数。第三部分为Grand_Mean，称为大平均，是全局范围内的定值，表示所有用户在所有时刻的PAu(h)关于<u,h>对的平均值；

公式4

WPA(h)为时间h时所有发布状态的用户的平均积极情绪词汇密度，即在时间h时所有用户的WPA_u (h)之和除以该时间发状态的用户数，U（h）为时间h时发布状态的用户数目；

（6）使用步骤（5）中的计算结果绘制积极消极情感波动折线图。

本发明方法还能对消极情感中的愤怒情绪进行分析，具体操作如下：抽取愤怒情绪词汇字典，这里使用的词典是中国科学院心理研究所朱延劭团队对于LIWC软件中的词汇进行中文翻译后的的词典库，不过由于该软件提供的文档中包含的词汇种类复杂，数目繁多，没有现成愤怒词汇字典，而对于愤怒词汇（anger）使用129进行词汇标注，所以需要对文档进行愤怒情感词典抽取。即：查找所有编号中有129的词，提取就能找到愤怒情感词典。将用户的留言文本经分词后与愤怒情绪词典比对，识别其中的愤怒情绪词汇，计算愤怒情绪词汇使用的频率，绘制愤怒情绪词汇使用频率折线图。

本发明一种分析情绪障碍患者网络留言情感波动特征的方法，采用情感词汇比对的识别方法，分为网络留言抽取，数据处理以及图形呈现三个部分。首先通过不同用户的空间地址爬取用户的网络留言以及发表时间，然后对网络留言进行分词，之后通过与情感词汇比对记录积极和消极情感词汇数目，再通过一定的计算公式分别计算积极和消极情感词汇密度值，最后将数据结果用折线图的形式展现出来。通过对两类人群积极和消极情绪情感波动曲线的分析，发现情绪障碍患者网络情感波动的特征和差异。对于发现情绪障碍患者以及了解情绪障碍患者最近真实的情感波动情况都有一定辅助价值。本发明能够自动的进行网络留言及时间的抽取和保存，并能对保存后的数据进行数据计算，自动绘制情感波动曲线。本发明简便易行，运行环境要求简单，稳定性强，具有较强的兼容性。

附图说明

图1为本发明中积极消极情绪情感波动曲线绘制流程图。

图2为本发明中愤怒情绪情感波动曲线绘制流程图。

具体实施方式

下面结合附图及实施例对本发明作进一步的描述。本实施例是以QQ空间“说说”模块的用户留言为研究对象。

本实施例提供一种绘制积极消极情感波动折线图的方法，其过程如图1所示。

第一步，确定研究样本，情绪障碍患者和心理健康个体。这里选择的情绪障碍患者都是经过正规的医院确诊的病人。在进行样本采集的过程中也在一定程度上注意保护用户的隐私。情绪障碍患者的QQ号码由样本提供者提供，此处需要明确保护被试隐私的原则是样本提供者不分析，分析者不提供样本。即：使研究的参与者无法做到对号入座，拼出被试的全图。样本提供者了解情绪障碍患者的现实身份，并获得了网络虚拟ID即QQ号码，但是他并不参与样本收集和分析工作。他将收集到的QQ号码给采集者，采集者通过QQ号码采集说说文本，最后将说说文本给分析者进行数据分析，并得出结论。样本提供者只是提供样本，并不参与采集和分析工作。作者负责采集和数据分析但是她不了解样本本人，不知道真实生活中人物原型。由此完成了对情绪障碍患者的隐私保密工作。

第二步，设计程序使用正则表达式爬取用户的“说说”及发表时间。为了方便内容抽取，这里选择手机版QQ空间进行爬取，手机版空间样式简单、代码清晰，便于数据采集。

第三步，对文本内容进行分词。这里调用了中国科学院计算技术研究所研制的汉语词法分析系统，ICTCLAS 5.0的c#接口进行分词。符合中文文本的使用习惯，分词效果更好。

第四步，对经第三步处理后的文本通过与情感词典比对进行情感识别，记录积极和消极情感词汇数目。使用的情感词库为中国科学院心理研究所朱延劭团队对于LIWC软件中的词汇进行中文翻译后的词典。该词典对于积极情感词汇（pos）和消极情感词汇(neg)分别使用126和127进行词汇标注，所以需要对文档进行积极消极情感词典抽取。抽取后发现词典中包含带*的词汇，在这里作者采用的方法是将其所有可能的词汇组和穷举的方式来进行替换。例如：“仁*”，替换为“仁，仁爱，仁慈，仁慈的，仁德，仁厚，仁惠，仁人志士，仁善，仁义，仁政，仁至义尽”，同样对积极、消极情感词库的所有带*的词汇都进行替换。将所有带*的词替换后就是所需要的词典。

第五步，进行积极消极情感词汇密度计算。其中涉及的公式有以下四个：

公式1

PA_u (h)为用户u在时间h时的积极情绪词汇密度，它的计算方式为该用户在时间h时发布的状态文字中积极情绪词汇的个数除以总的词汇数，其中||x||表示当x为集合时，集合x的元素数目。

公式2

BPA_u为用户u每小时的平均积极情绪词汇密度，即该用户在所有时间内的积极情绪分值之和除以用户所有发布状态的时间数目，H={0…167}，对于同一个用户来说，此值是个定值。

公式3

WPA_u (h)为用户u自身的积极情绪词汇密度（within-individual score），也就是个体本身积极情绪词汇密度随时间的变化状况，计算公式如公式3所示，其中(u,h)为(用户,小时)数据对，||UH||是所有(u,h)数据对的总数。第三部分为Grand_Mean，称为大平均，是全局范围内的定值，表示所有用户在所有时刻的PA_u (h)关于<u,h>对的平均值。

公式4

WPA(h)为时间h时所有发布状态的用户的平均积极情绪词汇密度，即在时间h时所有用户的WPA_u (h)之和除以该时间发状态的用户数，U（h）为时间h时发布状态的用户数目。

最后，使用第五步中的计算结果WPA(h）绘制积极消极情感波动折线图。其中，横轴为一天的时间，0-23小时，纵轴为对应时间的WPA(h）值。通过对两类人群积极和消极情绪情感波动曲线的分析，发现情绪障碍患者网络情感波动的特征和差异。

通过对两类人群积极和消极情感词汇的分析后，发现情绪障碍患者有抑制情感表达的倾向，然而在所有的情绪中，愤怒情绪的抑制表达时最难做到，因此本发明还提供了一种愤怒情绪情感波动折线图的绘制方法，对消极情感中的愤怒情绪进行更深入的分析，其过程如图2所示，具体操作如下：

抽取愤怒情绪词汇字典，将用户的留言文本经分词后与愤怒情绪词典比对，识别其中的愤怒情绪词汇，计算愤怒情绪词汇使用的频率，绘制愤怒情绪词汇使用频率折线图，绘制了用户在一周，7天每24小时内的愤怒情绪词汇使用频率折线图，发现情绪障碍患者对于愤怒情绪词汇的使用频率明显高于心理健康个体。最后抽取了两类人群最常使用的愤怒词汇进行分析比较发现，情绪障碍患者倾向使用的词汇愤怒情感的程度更强烈。如表2。

表2 心理健康个体和情绪障碍患者倾向使用的愤怒词汇

Claims

1.一种分析情绪障碍患者网络留言情感波动特征的方法，其特征在于该方法包括以下步骤：

（5）计算出积极消极情感词汇密度，其中涉及的公式有以下四个：

公式1

PA_u(h)为用户u在时间h时的积极情绪词汇密度，它的计算方式为该用户在时间h时发布的状态文字中积极情绪词汇的个数除以总的词汇数，其中||x||表示当x为集合时，集合x的元素数目；

公式2

公式3

WPA_u (h)为用户u自身的积极情绪词汇密度，也就是个体本身积极情绪词汇密度随时间的变化状况，计算公式如公式3所示，其中(u,h)为(用户,小时)数据对，||UH||是所有(u,h)数据对的总数；第三部分为Grand_Mean，称为大平均，是全局范围内的定值，表示所有用户在所有时刻的PA_u (h)关于<u,h>对的平均值；

公式4

2.根据权利要求1所述的分析情绪障碍患者网络留言情感波动特征的方法，其特征在于对消极情感中的愤怒情绪进行分析，具体操作如下：首先，抽取愤怒情绪词汇字典，使用的词典是中国科学院心理研究所朱延劭团队对于LIWC软件中的词汇进行中文翻译后的的词典库，愤怒词汇使用129进行词汇标注，对文档进行愤怒情感词典抽取，即查找所有编号中有129的词，提取得到愤怒情感词典，然后将用户的留言文本经分词后与愤怒情绪词典比对，识别其中的愤怒情绪词汇，之后计算愤怒情绪词汇使用的频率，最后绘制愤怒情绪词汇使用频率折线图。