CN109918556B

CN109918556B - 一种综合微博用户社交关系和文本特征抑郁情绪识别方法

Info

Publication number: CN109918556B
Application number: CN201910174180.8A
Authority: CN
Inventors: 李建强; 苗红闪
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2021-06-25
Anticipated expiration: 2039-03-08
Also published as: CN109918556A

Abstract

本发明公开了一种综合微博用户社交关系和文本特征抑郁情绪识别方法，以微博用户社交关系网络和发布微博文本数据运用机器学习的方法进行识别抑郁情绪用户。给微博文本打上抑郁情绪的特征标签利用分词器进行分词并同时去掉停用词。利用卡方检验进行特征值的提取与抑郁情绪相关的词语作为特征词。在选取出特征词后对每篇微博文本计算每个特征词的权重值，并同时将微博文本映射到一个特征向量。根据特征向量训练抑郁情绪文本分类模型。根据前N个最高概率计算出的平均概率和得到PageRank(pi)使用模型融合的方法计算出该用户的最终抑郁情绪结果。本发明综合微博用户社交关系和微博文本特征识别抑郁情绪方法可以进一步增强抑郁情绪识别精度。

Description

一种综合微博用户社交关系和文本特征抑郁情绪识别方法

技术领域

本发明涉及计算机领域，是一种综合微博用户社交关系和微博文本特征抑郁情绪的识别方法。

背景技术

据人民日报一项调查估算，我国抑郁情绪患者已达9000万，但近七成没有被“识别”出来。我国每年有30万人自杀，抑郁症是其最主要原因。这些年屡屡可见的抑郁症患者自杀的新闻，也在提醒着人们要重视对心理疾病的预防。由于社交媒体微博的越来越受大众的喜欢，更多的抑郁情绪患者也更愿意以匿名的方式宣泄情绪同时还可以获得更多共鸣者的回应。

目前中国识别抑郁症更多的是采用传统的问卷调查的方法。2017年中科院朱廷劭等根据微博用户的文本包涵自杀想死等意愿的关键词特征提出基于深度学习的微博用户自杀风险预测模型。2017年上海海事大学高俊波,施志伟等利用新浪微博文本所表现出来的情感倾向提出了一种基于文本的抑郁情感倾向识别模型。

然而以上方法只基于微博文本特征进行识别忽略了微博社交关系这一个重要特性未对微博中用户社交关系进行有效分析，在一定程度上影响了识别结果，从而出现识别精度不高导致漏筛的现象尤其是对一条微博文本没有的博主无法识别。

因此综合微博用户社交关系和微博文本特征识别抑郁情绪方法可以进一步增强抑郁情绪识别精度。

发明内容

为了克服只用微博文本特征进行识别抑郁情绪精度不高的问题，本方法提出一种综合微博用户社交关系和微博文本特征识别抑郁情绪方法，具体而言是以微博用户社交关系网络和发布微博文本数据运用机器学习的方法进行识别抑郁情绪用户。

为了实现上述目的，本方案采取如下技术方案：一种综合微博用户社交关系和微博文本特征识别抑郁情绪方法，

步骤一：根据用户U发表的微博文本首先经过文本筛选去除无用或者影响判定结果的内容。

步骤二：给微博文本打上抑郁情绪的特征标签利用分词器进行分词并同时去掉停用词。

步骤三：利用卡方检验进行特征值的提取与抑郁情绪相关的词语作为特征词。

步骤四：在选取出特征词后对每篇微博文本计算每个特征词的权重值，并同时将微博文本映射到一个特征向量。

步骤五：根据特征向量训练抑郁情绪文本分类模型。

步骤六：根据抑郁情绪文本分类模型识别出的与抑郁情绪相关文本计算出在单位时间内占用该单位时间内微博文本总数的比例并取出前N个最高概率P(1)、P(2)…P(N)，选择天作为时间单位首先计算出每天用户发表的与抑郁情绪有关的微博占这一天微博博文的比例，按单位时间取出前N个最高概率P(1)、P(2)…P(N)。

步骤七：利用微博用户社交数据计算出每个博主关注的有抑郁情绪微博用户数量并取中位数M，如果pi关注的抑郁情绪数量大于中位数M，利用PageRank算法思想以用户pi关注的微博抑郁情绪作为该用户pi的入链并计算出PageRank(pi)如果不大于中位数M就设PageRank(pi)为0。PgeRank算法如下所示

其中pi为微博用户，pj为识别出的抑郁情绪微博用户，L(pj)为关注微博用户pj的人数，N为当前总的微博用户数量，q为阻尼系数取0.85。

步骤八：根据步骤六前N个最高概率P(1)、P(2)…P(N)计算出的平均概率P(avg)和步骤七得到的PageRank(pi)使用模型融合的方法计算出该用户的最终抑郁情绪结果。

与现有技术相比较，本发明具有如下技术优势。

然而现有的技术只是基于微博文本特征进行抑郁情绪的识别从而忽略了微博社交关系这一个重要特性，未对微博中用户社交关系进行有效分析，在一定程度上影响了识别结果，从而出现识别精度不高导致漏筛的现象尤其是对一条微博文本没有的博主无法识别。本发明综合微博用户社交关系和微博文本特征识别抑郁情绪方法可以进一步增强抑郁情绪识别精度。

附图说明

图1为综合微博用户社交关系和微博文本特征识别抑郁情绪方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了实现上述目的，本发明实施例提出综合微博用户社交关系和微博文本特征识别抑郁情绪方法，包含以下步骤

步骤1、微博文本；

用户的微博文本数据。

步骤2、文本筛选；

根据微博内容删除一些无意义的或者可能会对语义判断造成误导影响内容。例如《》中的影视或文学作品的名字与其内容往往并不一致。

步骤3、特征语句标注；

标注与抑郁情绪相关的文本内容特征作为特征语料。

步骤4、分词；

利用分词器给文本分词。

步骤5、去掉停用词；

除去分词后文本中含有较少信息的词语。例如：啊、哎、吧等。

步骤6、预处理文本存储单元；

存储预处理后的文本信息。

步骤7、选取特征词；

首先统计研究数据中微博总数统计该词出现的与抑郁情绪相关的微博篇数A，出现的与抑郁情绪无关的微博篇数B，不出现的与抑郁情绪相关的微博篇数C和不出现的与抑郁情绪无关的微博篇数D然后计算其卡方值选出所有词中卡方值较高的作为特征词。

具体计算公式为：

步骤8、构建特征向量

选取特征词对每篇博文计算每个特征词的权重值，并将一篇微博映射到一个特征向量。

步骤9、抑郁情绪分类模型

根据步骤8中特征向量训练抑郁情绪分类模型。

步骤10、概率值选取单元

根据模型识别出的与抑郁情绪相关文本并计算出在单位时间内占用单位时间总的微博文本的比例取出前N个最高概率。

步骤11、文本概率存储单元

存储步骤10中选取的前N个最高概率值P(1)、P(2)…P(N)。

步骤12、社交关系

微博用户关注的微博博主。

步骤13、中位数计算单元

根据已识别出有抑郁情绪的用户数量计算出用户关注抑郁情绪的一个中位数。

步骤14、中位数过滤单元

根据计算出的中位数筛选出大于该中位数的用户如果不大于就把PR值设为0。

步骤15、社交用户影响算法模型

采用PageRank算法思想以用户p_i关注的微博抑郁情绪作为该用户p_i的入链算出PageRank(p_i)具体公式如下所示

其中pi为微博用户，pj为识别出的抑郁情绪微博用户，L(pj)为关注微博用户pj的人数，N为当前总的微博用户数量，q为阻尼系数一般取0.85。

步骤16、关系概率存储单元

存储计算出的PageRank(pi)值

步骤17、模型融合计算单元

采取以下几种方法融合

(1)根据文本存储单元存储的概率值计算出的平均概率值P(avg)和PageRank(pi)值通过加权计算得出抑郁情绪最终的概率值即P＝A*P(avg)+B*PageRank(pi)其中A、B为加权值。

(2)根据文本存储单元计取出平均概率值P(avg)和PageRank(pi)值相比较取出最大的概率值作为抑郁情绪最终结果

(3)根据文本存储单元存储的概率值计算出的文本平均概率值P(avg)和PageRank(pi)值使用GBDT(梯度提升决策树)算法融合得出抑郁情绪结果。

步骤18、抑郁情绪结果

最终计算出的抑郁情绪结果分值越高抑郁情绪越严重。

Claims

1.一种综合微博用户社交关系和文本特征识别抑郁情绪方法，其特征在于：该方法包括如下步骤，

步骤一：根据用户U发表的微博文本，首先经过文本筛选去除无用或者影响判定结果的内容；

步骤二：给微博文本打上抑郁情绪的特征标签，利用分词器进行分词并同时去掉停用词；

步骤三：利用卡方检验进行特征值的提取，提取与抑郁情绪相关的词语作为特征词；

步骤四：在选取出特征词后，对每篇微博文本计算每个特征词的权重值，并同时将微博文本映射到一个特征向量；

步骤五：根据特征向量训练抑郁情绪文本分类模型；

步骤六：根据抑郁情绪文本分类模型识别出的与抑郁情绪相关的文本，首先计算出每天用户发表的与抑郁情绪有关的微博占这一天微博博文的比例，按单位时间取出前N个最高概率P(1)、P(2)…P(N)；

步骤七：利用微博用户社交数据计算出每个博主关注的有抑郁情绪微博用户数量并取中位数M，如果pi关注的抑郁情绪数量大于中位数M，利用PageRank算法思想以用户pi关注的微博抑郁情绪作为该用户pi的入链并计算出PageRank(pi)如果不大于中位数M就设PageRank(pi)为0；PgeRank算法如下所示

其中pi为微博用户，pj为识别出的抑郁情绪微博用户，L(pj)为关注微博用户pj的人数，N为当前总的微博用户数量，q为阻尼系数取0.85；

2.根据权利要求1所述的一种综合微博用户社交关系和文本特征识别抑郁情绪方法，其特征在于：统计研究数据中微博总数统计特征词出现的与抑郁情绪相关的微博篇数A，出现的与抑郁情绪无关的微博篇数B，不出现的与抑郁情绪相关的微博篇数C和不出现的与抑郁情绪无关的微博篇数D，然后计算其卡方值选出所有词中卡方值较高的作为特征词；

具体计算公式为：

。

3.根据权利要求1所述的一种综合微博用户社交关系和文本特征识别抑郁情绪方法，其特征在于：

采取以下几种方法融合

(1)根据文本存储单元存储的概率值计算出的平均概率值P(avg)和PageRank(pi)值通过加权计算得出抑郁情绪最终的概率值即P＝A*P(avg)+B*PageRank(pi)其中A、B为加权值；