CN109918556B - 一种综合微博用户社交关系和文本特征抑郁情绪识别方法 - Google Patents
一种综合微博用户社交关系和文本特征抑郁情绪识别方法 Download PDFInfo
- Publication number
- CN109918556B CN109918556B CN201910174180.8A CN201910174180A CN109918556B CN 109918556 B CN109918556 B CN 109918556B CN 201910174180 A CN201910174180 A CN 201910174180A CN 109918556 B CN109918556 B CN 109918556B
- Authority
- CN
- China
- Prior art keywords
- microblog
- depressed
- text
- emotion
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种综合微博用户社交关系和文本特征抑郁情绪识别方法,以微博用户社交关系网络和发布微博文本数据运用机器学习的方法进行识别抑郁情绪用户。给微博文本打上抑郁情绪的特征标签利用分词器进行分词并同时去掉停用词。利用卡方检验进行特征值的提取与抑郁情绪相关的词语作为特征词。在选取出特征词后对每篇微博文本计算每个特征词的权重值,并同时将微博文本映射到一个特征向量。根据特征向量训练抑郁情绪文本分类模型。根据前N个最高概率计算出的平均概率和得到PageRank(pi)使用模型融合的方法计算出该用户的最终抑郁情绪结果。本发明综合微博用户社交关系和微博文本特征识别抑郁情绪方法可以进一步增强抑郁情绪识别精度。
Description
技术领域
本发明涉及计算机领域,是一种综合微博用户社交关系和微博文本特征抑郁情绪的识别方法。
背景技术
据人民日报一项调查估算,我国抑郁情绪患者已达9000万,但近七成没有被“识别”出来。我国每年有30万人自杀,抑郁症是其最主要原因。这些年屡屡可见的抑郁症患者自杀的新闻,也在提醒着人们要重视对心理疾病的预防。由于社交媒体微博的越来越受大众的喜欢,更多的抑郁情绪患者也更愿意以匿名的方式宣泄情绪同时还可以获得更多共鸣者的回应。
目前中国识别抑郁症更多的是采用传统的问卷调查的方法。2017年中科院朱廷劭等根据微博用户的文本包涵自杀想死等意愿的关键词特征提出基于深度学习的微博用户自杀风险预测模型。2017年上海海事大学高俊波,施志伟等利用新浪微博文本所表现出来的情感倾向提出了一种基于文本的抑郁情感倾向识别模型。
然而以上方法只基于微博文本特征进行识别忽略了微博社交关系这一个重要特性未对微博中用户社交关系进行有效分析,在一定程度上影响了识别结果,从而出现识别精度不高导致漏筛的现象尤其是对一条微博文本没有的博主无法识别。
因此综合微博用户社交关系和微博文本特征识别抑郁情绪方法可以进一步增强抑郁情绪识别精度。
发明内容
为了克服只用微博文本特征进行识别抑郁情绪精度不高的问题,本方法提出一种综合微博用户社交关系和微博文本特征识别抑郁情绪方法,具体而言是以微博用户社交关系网络和发布微博文本数据运用机器学习的方法进行识别抑郁情绪用户。
为了实现上述目的,本方案采取如下技术方案:一种综合微博用户社交关系和微博文本特征识别抑郁情绪方法,
步骤一:根据用户U发表的微博文本首先经过文本筛选去除无用或者影响判定结果的内容。
步骤二:给微博文本打上抑郁情绪的特征标签利用分词器进行分词并同时去掉停用词。
步骤三:利用卡方检验进行特征值的提取与抑郁情绪相关的词语作为特征词。
步骤四:在选取出特征词后对每篇微博文本计算每个特征词的权重值,并同时将微博文本映射到一个特征向量。
步骤五:根据特征向量训练抑郁情绪文本分类模型。
步骤六:根据抑郁情绪文本分类模型识别出的与抑郁情绪相关文本计算出在单位时间内占用该单位时间内微博文本总数的比例并取出前N个最高概率P(1)、P(2)…P(N),选择天作为时间单位首先计算出每天用户发表的与抑郁情绪有关的微博占这一天微博博文的比例,按单位时间取出前N个最高概率P(1)、P(2)…P(N)。
步骤七:利用微博用户社交数据计算出每个博主关注的有抑郁情绪微博用户数量并取中位数M,如果pi关注的抑郁情绪数量大于中位数M,利用PageRank算法思想以用户pi关注的微博抑郁情绪作为该用户pi的入链并计算出PageRank(pi)如果不大于中位数M就设PageRank(pi)为0。PgeRank算法如下所示
其中pi为微博用户,pj为识别出的抑郁情绪微博用户,L(pj)为关注微博用户pj的人数,N为当前总的微博用户数量,q为阻尼系数取0.85。
步骤八:根据步骤六前N个最高概率P(1)、P(2)…P(N)计算出的平均概率P(avg)和步骤七得到的PageRank(pi)使用模型融合的方法计算出该用户的最终抑郁情绪结果。
与现有技术相比较,本发明具有如下技术优势。
然而现有的技术只是基于微博文本特征进行抑郁情绪的识别从而忽略了微博社交关系这一个重要特性,未对微博中用户社交关系进行有效分析,在一定程度上影响了识别结果,从而出现识别精度不高导致漏筛的现象尤其是对一条微博文本没有的博主无法识别。本发明综合微博用户社交关系和微博文本特征识别抑郁情绪方法可以进一步增强抑郁情绪识别精度。
附图说明
图1为综合微博用户社交关系和微博文本特征识别抑郁情绪方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了实现上述目的,本发明实施例提出综合微博用户社交关系和微博文本特征识别抑郁情绪方法,包含以下步骤
步骤1、微博文本;
用户的微博文本数据。
步骤2、文本筛选;
根据微博内容删除一些无意义的或者可能会对语义判断造成误导影响内容。例如《》中的影视或文学作品的名字与其内容往往并不一致。
步骤3、特征语句标注;
标注与抑郁情绪相关的文本内容特征作为特征语料。
步骤4、分词;
利用分词器给文本分词。
步骤5、去掉停用词;
除去分词后文本中含有较少信息的词语。例如:啊、哎、吧等。
步骤6、预处理文本存储单元;
存储预处理后的文本信息。
步骤7、选取特征词;
首先统计研究数据中微博总数统计该词出现的与抑郁情绪相关的微博篇数A,出现的与抑郁情绪无关的微博篇数B,不出现的与抑郁情绪相关的微博篇数C和不出现的与抑郁情绪无关的微博篇数D然后计算其卡方值选出所有词中卡方值较高的作为特征词。
具体计算公式为:
步骤8、构建特征向量
选取特征词对每篇博文计算每个特征词的权重值,并将一篇微博映射到一个特征向量。
步骤9、抑郁情绪分类模型
根据步骤8中特征向量训练抑郁情绪分类模型。
步骤10、概率值选取单元
根据模型识别出的与抑郁情绪相关文本并计算出在单位时间内占用单位时间总的微博文本的比例取出前N个最高概率。
步骤11、文本概率存储单元
存储步骤10中选取的前N个最高概率值P(1)、P(2)…P(N)。
步骤12、社交关系
微博用户关注的微博博主。
步骤13、中位数计算单元
根据已识别出有抑郁情绪的用户数量计算出用户关注抑郁情绪的一个中位数。
步骤14、中位数过滤单元
根据计算出的中位数筛选出大于该中位数的用户如果不大于就把PR值设为0。
步骤15、社交用户影响算法模型
采用PageRank算法思想以用户pi关注的微博抑郁情绪作为该用户pi的入链算出PageRank(pi)具体公式如下所示
其中pi为微博用户,pj为识别出的抑郁情绪微博用户,L(pj)为关注微博用户pj的人数,N为当前总的微博用户数量,q为阻尼系数一般取0.85。
步骤16、关系概率存储单元
存储计算出的PageRank(pi)值
步骤17、模型融合计算单元
采取以下几种方法融合
(1)根据文本存储单元存储的概率值计算出的平均概率值P(avg)和PageRank(pi)值通过加权计算得出抑郁情绪最终的概率值即P=A*P(avg)+B*PageRank(pi)其中A、B为加权值。
(2)根据文本存储单元计取出平均概率值P(avg)和PageRank(pi)值相比较取出最大的概率值作为抑郁情绪最终结果
(3)根据文本存储单元存储的概率值计算出的文本平均概率值P(avg)和PageRank(pi)值使用GBDT(梯度提升决策树)算法融合得出抑郁情绪结果。
步骤18、抑郁情绪结果
最终计算出的抑郁情绪结果分值越高抑郁情绪越严重。
Claims (3)
1.一种综合微博用户社交关系和文本特征识别抑郁情绪方法,其特征在于:该方法包括如下步骤,
步骤一:根据用户U发表的微博文本,首先经过文本筛选去除无用或者影响判定结果的内容;
步骤二:给微博文本打上抑郁情绪的特征标签,利用分词器进行分词并同时去掉停用词;
步骤三:利用卡方检验进行特征值的提取,提取与抑郁情绪相关的词语作为特征词;
步骤四:在选取出特征词后,对每篇微博文本计算每个特征词的权重值,并同时将微博文本映射到一个特征向量;
步骤五:根据特征向量训练抑郁情绪文本分类模型;
步骤六:根据抑郁情绪文本分类模型识别出的与抑郁情绪相关的文本,首先计算出每天用户发表的与抑郁情绪有关的微博占这一天微博博文的比例,按单位时间取出前N个最高概率P(1)、P(2)…P(N);
步骤七:利用微博用户社交数据计算出每个博主关注的有抑郁情绪微博用户数量并取中位数M,如果pi关注的抑郁情绪数量大于中位数M,利用PageRank算法思想以用户pi关注的微博抑郁情绪作为该用户pi的入链并计算出PageRank(pi)如果不大于中位数M就设PageRank(pi)为0;PgeRank算法如下所示
其中pi为微博用户,pj为识别出的抑郁情绪微博用户,L(pj)为关注微博用户pj的人数,N为当前总的微博用户数量,q为阻尼系数取0.85;
步骤八:根据步骤六前N个最高概率P(1)、P(2)…P(N)计算出的平均概率P(avg)和步骤七得到的PageRank(pi)使用模型融合的方法计算出该用户的最终抑郁情绪结果。
3.根据权利要求1所述的一种综合微博用户社交关系和文本特征识别抑郁情绪方法,其特征在于:
采取以下几种方法融合
(1)根据文本存储单元存储的概率值计算出的平均概率值P(avg)和PageRank(pi)值通过加权计算得出抑郁情绪最终的概率值即P=A*P(avg)+B*PageRank(pi)其中A、B为加权值;
(2)根据文本存储单元计取出平均概率值P(avg)和PageRank(pi)值相比较取出最大的概率值作为抑郁情绪最终结果
(3)根据文本存储单元存储的概率值计算出的文本平均概率值P(avg)和PageRank(pi)值使用GBDT(梯度提升决策树)算法融合得出抑郁情绪结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910174180.8A CN109918556B (zh) | 2019-03-08 | 2019-03-08 | 一种综合微博用户社交关系和文本特征抑郁情绪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910174180.8A CN109918556B (zh) | 2019-03-08 | 2019-03-08 | 一种综合微博用户社交关系和文本特征抑郁情绪识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918556A CN109918556A (zh) | 2019-06-21 |
CN109918556B true CN109918556B (zh) | 2021-06-25 |
Family
ID=66963789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910174180.8A Active CN109918556B (zh) | 2019-03-08 | 2019-03-08 | 一种综合微博用户社交关系和文本特征抑郁情绪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918556B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489552B (zh) * | 2019-07-17 | 2021-09-21 | 清华大学 | 一种微博用户自杀风险检测方法及装置 |
CN112052869B (zh) * | 2020-07-14 | 2024-07-09 | 北京工业大学 | 一种用户心理状态识别方法及系统 |
CN112380366A (zh) * | 2020-11-20 | 2021-02-19 | 北京达佳互联信息技术有限公司 | 情绪识别方法、装置、电子设备、系统及存储介质 |
CN112669936A (zh) * | 2021-01-04 | 2021-04-16 | 上海海事大学 | 一种基于文本和图像社交网络抑郁检测方法 |
CN112766747A (zh) * | 2021-01-22 | 2021-05-07 | 清华大学 | 一种基于社交网络媒体发帖信息的自杀风险检测方法 |
CN112818118B (zh) * | 2021-01-22 | 2024-05-21 | 大连民族大学 | 基于反向翻译的中文幽默分类模型的构建方法 |
CN115880698B (zh) * | 2023-03-08 | 2023-05-16 | 南昌航空大学 | 基于微博发帖内容与社交行为特征的抑郁情绪识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809104A (zh) * | 2015-05-11 | 2015-07-29 | 苏州大学 | 一种微博文本情绪识别方法及系统 |
CN105243095A (zh) * | 2015-09-11 | 2016-01-13 | 苏州大学张家港工业技术研究院 | 一种基于微博文本的情绪分类方法及系统 |
CN106202053A (zh) * | 2016-07-22 | 2016-12-07 | 福建师范大学 | 一种社交关系驱动的微博主题情感分析方法 |
CN108256016A (zh) * | 2018-01-08 | 2018-07-06 | 合肥工业大学 | 基于个人微博的个人异常情绪检测方法及装置 |
CN108549632A (zh) * | 2018-04-03 | 2018-09-18 | 重庆邮电大学 | 一种基于情感分析的社交网络影响力传播模型构建方法 |
-
2019
- 2019-03-08 CN CN201910174180.8A patent/CN109918556B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809104A (zh) * | 2015-05-11 | 2015-07-29 | 苏州大学 | 一种微博文本情绪识别方法及系统 |
CN105243095A (zh) * | 2015-09-11 | 2016-01-13 | 苏州大学张家港工业技术研究院 | 一种基于微博文本的情绪分类方法及系统 |
CN106202053A (zh) * | 2016-07-22 | 2016-12-07 | 福建师范大学 | 一种社交关系驱动的微博主题情感分析方法 |
CN108256016A (zh) * | 2018-01-08 | 2018-07-06 | 合肥工业大学 | 基于个人微博的个人异常情绪检测方法及装置 |
CN108549632A (zh) * | 2018-04-03 | 2018-09-18 | 重庆邮电大学 | 一种基于情感分析的社交网络影响力传播模型构建方法 |
Non-Patent Citations (2)
Title |
---|
An Improved Model for Depression Detection in Micro-blog Social Network;Xinyu Wang.etc;《2013 IEEE 13th International Conference on Data Mining Workshops》;20140306;第80-87页 * |
方振宇.基于词向量方法的微博用户抑郁预测.《电子技术与软件工程 》.2017, * |
Also Published As
Publication number | Publication date |
---|---|
CN109918556A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918556B (zh) | 一种综合微博用户社交关系和文本特征抑郁情绪识别方法 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
Zhao et al. | Cyberbullying detection based on semantic-enhanced marginalized denoising auto-encoder | |
TWI465950B (zh) | 發掘可疑帳號之分身群組的方法與系統 | |
CN101599071B (zh) | 对话文本主题的自动提取方法 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN112256945A (zh) | 一种基于深度神经网络的社交网络粤语谣言检测方法 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN112347223B (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN111639183A (zh) | 一种基于深度学习算法的金融同业舆情分析方法及系统 | |
WO2023142809A1 (zh) | 文本分类、文本处理方法、装置、计算机设备及存储介质 | |
CN102662987B (zh) | 一种基于百度百科的网络文本语义的分类方法 | |
CN110209659A (zh) | 一种简历过滤方法、系统和计算机可读存储介质 | |
US20160283582A1 (en) | Device and method for detecting similar text, and application | |
CN114064851A (zh) | 一种政府办公文档多机检索方法及系统 | |
CN112069326A (zh) | 知识图谱的构建方法、装置、电子设备及存储介质 | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
WO2018028164A1 (zh) | 一种文本信息的提取方法、装置和移动终端 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
Dwivedi et al. | Examining the emotional tone in politically polarized Speeches in India: An In-Depth analysis of two contrasting perspectives | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN113672768A (zh) | 用于内容发现的人工智能 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |