CN114628008A - 一种基于异质图注意力网络的社交用户抑郁倾向检测方法 - Google Patents
一种基于异质图注意力网络的社交用户抑郁倾向检测方法 Download PDFInfo
- Publication number
- CN114628008A CN114628008A CN202210281309.7A CN202210281309A CN114628008A CN 114628008 A CN114628008 A CN 114628008A CN 202210281309 A CN202210281309 A CN 202210281309A CN 114628008 A CN114628008 A CN 114628008A
- Authority
- CN
- China
- Prior art keywords
- user
- attention
- node
- information
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 27
- 239000010410 layer Substances 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000013467 fragmentation Methods 0.000 claims description 4
- 238000006062 fragmentation reaction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 229920000642 polymer Polymers 0.000 claims description 3
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 abstract description 9
- 238000003759 clinical diagnosis Methods 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000004630 mental health Effects 0.000 description 10
- 238000011160 research Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000005180 public health Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 208000020401 Depressive disease Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009323 psychological health Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/70—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Economics (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Pathology (AREA)
- Developmental Disabilities (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
Abstract
本发明公开了一种基于异质图注意力网络的社交用户抑郁倾向检测方法,包括下述步骤:采集用户社交网络平台上的数据,对于用户生成内容的短文本进行文本摘要,对于用户行为数据和用户画像数据进行统计计算;构建一个灵活的异质信息网络框架对短文本、用户行为数据和用户画像数据进行建模,对处理好的短文本进行实体链接、实体嵌入和特征提取,并对特征进行主题分析;对于不同类型信息的异质性,使用异质图卷积;对于不同相邻节点的重要性和不同节点类型对特定节点的重要性,建立基于类型级和节点级的双层注意力机制;构建一个基于注意力机制的异质图神经网络,对网络进行训练和测试,预测标签,从而完成判断用户是否存在抑郁倾向的分类任务。本发明能够结合多个信息维度将社交媒体数据建模为异质图结构,并构建异质图注意力网络进行半监督分类,判断用户是否存在抑郁倾向,有利于帮助提高诊断的有效性,从而辅助临床确诊。
Description
技术领域
本发明涉及自然语言处理和图神经网络领域,特别涉及一种基于异质图注意力网络的社交用户抑郁倾向检测方法。
背景技术
目前,全球有3亿左右的人患有抑郁症,且受抑郁症、压力等心理健康问题困扰的人愈来愈年轻化。心理健康不仅影响个人的生活、工作、学习能力,而且是导致全球负担和公共健康的重大因素。传统的心理健康诊断和治疗方法,需要和医生进行面对面的交流,这种接触式的方式限制了潜在病人识别的可能性。并且鉴于经济水平、资源缺乏、社会歧视、隐私保护等问题,即使意识到自己可能患上了心理健康疾病,也不会去医院或诊所进行鉴定。因此,以往的研究往往难以在大样本情况下对人们的心理或精神状态进行检测和追踪。
社交网络的繁盛使得海量的社交媒体数据捕获了人们自己真实的想法、情感、交流等信息,这些数据在公共健康监控中变得非常重要。虽然像传统诊断方法一样,并不是所有人都会在社交网络发布信息,但是基于社交媒体数据分析的非接触式检测方式能够为心理健康诊断提供新的资源和视角。相对于传统的生理指标、心理测试等诊断方法,社交网络分析起步较晚,因此利用社交媒体数据进行心理健康诊断的方法不够成熟,还没有作为临床确诊标准。但是有效的模型可以更早地发现潜在的心理状态,辅助心理健康专家对抑郁症及其他心理健康疾病的确诊进行更彻底的评估,并为治疗提供支持。因此,社交媒体数据可以作为心理学领域的辅助资源和研究对象。
综上,基于异质图注意力网络的社交用户抑郁倾向检测方法的研究不仅有助于提高对心理健康的确诊和治疗、公共健康的干预和建设等应用领域的智能处理能力,而且对社交网络分析、图模型等相关任务的研究提供重要的理论方法。针对社交网络数据新的特性,抓住抑郁症这一重点心理健康问题,将社交媒体数据构建为异质图结构,进行心理健康的诊断研究,研究基于异质图注意力网络的社交用户抑郁倾向检测具有重要的理论意义和应用价值。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种基于异质图注意力网络的社交用户抑郁倾向检测方法,能够有效判断社交用户是否存在抑郁倾向。
为实现以上目的,本发明采取如下技术方案:
一种基于异质图注意力网络的社交用户抑郁倾向检测方法,包括以下步骤:
S1、采集用户社交网络平台上的数据,对于用户生成内容的短文本进行文本摘要,对于用户行为数据和用户画像数据进行统计计算;
S2、构建一个灵活的异质信息网络框架对短文本、用户行为数据和用户画像数据进行建模,对处理好的短文本进行实体链接、实体嵌入和特征提取,并对特征进行主题分析;
S3、对于不同类型信息的异质性,使用异质图卷积;
S4、对于不同相邻节点的重要性和不同节点类型对特定节点的重要性,建立基于类型级和节点级的双层注意力机制;
S5、构建一个基于注意力机制的异质图神经网络,对网络进行训练和测试,预测标签,从而完成判断用户是否存在抑郁倾向的分类任务。
作为优选的技术方案,步骤S1中,所述的对于用户生成内容进行文本摘要,是指对于用户在社交网络平台上发送大量的文本数据,利用Bert模型进行文本嵌入和Kmeans聚类来识别靠近质心的句子以进行自动摘要选择。目的是从用户大量的社交文本中自动筛选出重要的句子,能更好地解决信息碎片化和无用信息干扰的问题,提高了模型效率和准确率。
作为优选的技术方案步骤S1中,所述的对于用户行为数据进行统计计算,是指对于用户在社交平台上发送信息的时间进行统计计算,形成发送时间分布。这些统计信息可能区别用户抑郁状态,对于用户心理状态的判断有帮助,利用编写好的函数进行采集和计算,并将作为异质图节点信息。
作为优选的技术方案,步骤S1中,所述的对于用户画像数据进行统计计算,是指对于用户使用积极和消极表情比例的统计、用户使用积极和消极词汇比例的统计、用户使用第一人称单数和复数比例的统计、用户账号关注数和被关注数的统计等进行统计计算,构建用户画像。这些统计信息可能区别用户抑郁状态,对于用户心理状态的判断有帮助,利用编写好的函数进行采集和计算,并将作为异质图节点信息。
作为优选的技术方案,步骤S2的具体过程为:
S21、为了解决短文本的语义稀疏性问题,我们利用一个灵活的异质信息网络(Heterogeneous Information Network,HIN)框架来对短文本进行建模,该框架可以集成任何类型的附加信息,并捕获它们之间的关系,以丰富短文本的语义。对于附加信息,除了主题和实体,我们还用到步骤S1计算的用户行为数据和用户画像数据,如发送时间分布、用户使用积极和消极词汇比例的统计等。构造图G=(V,ε),V,ε分别为节点集和边集。其中节点集包括短文本集D={d1,...,dm}、主题集T={t1,...,tk}、实体集E={e1,...,en}、发送时间分布集C={c1,...,cp}、词汇比例集W={w1,…,wq},即V=D∪T∪E∪C∪W。边集ε表示它们之间的关系。
S22、使用文档主题生成模型Latent Dirichlet Allocation来识别短文本中潜藏的主题信息,挖掘出隐含主题,以丰富短文本的语义。计算词频,每个主题ti=(θ1,...,θw)(w表示词汇量)由单词的概率分布表示,为每个文档分配前P个概率最高的主题。若存在文档与主题的分配关系,则“文档-主题”边建立;
S23、对短文本进行实体链接。识别文档D中的实体E,并使用实体链接工具TAGME将它们映射到Wikipedia。若文档包含实体,则“文档-实体”边建立;
S24、对短文本进行实体嵌入。将一个实体作为一个完整的词,并使用基于Wikipedia语料库的word2vec2来学习实体嵌入。为了进一步丰富短文本的语义并促进信息传播,增加了实体之间的关系的考虑。如果基于嵌入计算的两个实体之间的相似度得分(余弦相似度)高于预定义的阈值δ,则“实体-实体”边建立。
S25、建立与用户行为数据和用户画像数据相关的边。如,每一个时间分布都对应每一个用户,每一个词汇比例都对应每一个用户等。建立“时间分布-文档”边、建立“词汇比例-文档”边等。
S26、将词频率、逆文档频率(TF-IDF)作为特征,并删掉没有特征的实体、删掉一些边、删掉孤立点。分别生成边、特征(文档节点、实体节点、主题节点、用户行为数据节点、用户画像数据节点)的文件,同时保存map索引信息文件,以待输入网络训练。
作为优选的技术方案,步骤S3的具体过程为:
S31、使用TF-IDF(Term Frequency-Inverse Document Frequency)即词频-逆文件频率来评估用户的某一字词对用户发送的一篇社交文本的重要程度。一个词语在用户发送的一篇社交文本中出现次数越多,同时在所有社交文本中出现次数越少,越能够代表该社交文本。TF用公式表示如下
其中,ni,j表示词条ti在文档dj中出现的次数,TFi,j就是表示词条ti在文档dj中出现的频率。IDF用公式表示如下
其中|D|表示所有文档的数量,|j:ti∈dj|表示包含词条ti的文档数量。TF-IDF表达为
TF-IDF=TF·IDF (3)
S32、对于不同类型信息的异质性,使用异质图卷积。在HIN中,我们有五种类型的节点:文档、主题、实体、用户行为数据、用户画像数据,它们具有不同特征空间。对于文档d∈D,我们使用TF-IDF向量作为其特征向量xd。对于主题t∈T,单词分布xi=(θ1,...,θw)用于表示主题特征向量。对于每个实体,为了充分利用相关信息,我们将其词向量嵌入和其Wikipedia文本的TF-IDF向量连接起来表示实体特征向量xv。使用异质图卷积的方法,考虑不同类型信息的差异,用不同类型信息各自的变换矩阵将它们投影到一个变换矩阵W;考虑不同特征空间的差异,并将其投影到隐式公共空间中。节点的更新公式为
其中是的子矩阵,邻接矩阵包含自连接,它的行表示所有节点,列表示节点的τ类型的邻居。τ表示节点种类(文档、实体、主题、用户行为数据、用户画像数据)。节点的表示H(l+1)通过用各个类型τ的变换矩阵对各类型τ下节点的嵌入聚合得到。变换矩阵W考虑不同特征空间的差异,并将其投影到公共空间Rq(l+1)中。初始化
作为优选的技术方案,步骤S4的具体过程为:
S41、类型级注意力(Type level attention)可以学习不同类型邻居结点的权重,并进行融合节点在多个关系下的表示。给定一个特定的节点v,将类型τ的嵌入表示成τ类型邻居结点特征的和,如下式所示:
S42、基于当前结点v嵌入hv和hτ,嵌入τ计算类型级别注意力分数,得到节点v关于类型τ领域的注意力分数aτ下式所示:
其中||表示连接,μτ是类型τ的注意力向量(参数),对所有节点共享参数。σ(·)表示激活函数,如LeakyReLU.
S43、通过softmax函数在所有类型上归一化注意力分数,得到类型级别注意力权重,如下式所示:
S44、节点级注意力(Node level attention)可以捕获不同邻居节点的重要性,并通过加权聚合来学习节点的表示。给定一个类型τ的特定节点v,和其类型为τ′的邻居首先将节点v及其邻居v′的表示拼接起来,然后通过单层MLP和注意力向量将其转化为注意力分数。基于结点嵌入hv和hv′以及类型级注意力分数ατ′,计算节点v关于的节点级注意力分数bvv′,如下式所示:
其中v是注意力向量(参数)。
S45、将注意力分数bvv′通过softmax函数归一化得到了注意力权重βvv′。
S46、基于所学习到的注意力权重来聚合邻居。相比较方程(4),方程(10)将替换成了基于两层注意力机制,这样噪音邻居的权重会较低而相对比较重要的邻居的权重会较高,使得考虑了不同相邻节点的重要性和不同节点(信息)类型对特定节点的重要性。节点类型把节点及其对应邻接点的注意力权重构成一个矩阵节点更新公式为:
作为优选的技术方案,步骤S5的具体过程为:
S51、基于上述节点级和类型级的两级注意力机制,构建异质图注意力网络(Heterogeneous Graph Attention Network,HGAT)模型来嵌入HIN,用于短文本分类。HGAT通过异质图卷积考虑不同类型信息的异构性,同时,注意力机制可以捕捉不同邻居节点的重要性,降低噪声信息,还能够捕捉不同类型节点的重要性,更好地实现了信息聚合,所学习到的短文本的表示更加准确。HGAT类中包含了First Layer和Second Layer,分别对应两层注意力机制,Output Layer对应softmax输出层。
S52、将最后一层的节点(短文本)表示取出来并通过交叉熵来进行训练。HGAT是半监督算法,这里的loss也是在少量标签数据上计算的。
Z=softmax(H(L)) (11)
交叉熵损失为
其中C是类别数,Dtrain是短文本索引集,θ是模型参数。最后,通过softmax层预测文档的标签。
本发明相对于现有技术具有如下的优点和效果:
1、本发明的方法在数据处理阶段能更好地解决信息碎片化和无用信息干扰的问题。用户在社交平台上发布的内容数据量庞大且主题分散。用户并不是一直发表与情绪相关的信息,也会发布工作、学习、明星、购物、天气等其他信息,这些信息对于判断抑郁状态没有作用或起负面效果。我们对其进行了文本自动摘要的处理,从用户大量的社交文本中筛选出重要的句子。与不进行文本摘要相比,进行文本自动摘要后的准确率有了明显提高,并且处理时间更短。可见该方法有效降低了信息干扰,提高了模型效率和准确率。
2、本发明的方法构建了一个灵活的异质信息网络结构来处理社交短文本内容,该框架可以集成实体、主题、文档、用户行为数据、用户画像数据等信息,并捕获它们之间的关系,可以解决语义稀疏性问题,降低噪声,并丰富短文本的语义。
3、本发明的方法挖掘了在社交网络中多种可能表现用户抑郁状态的信息,这些信息除了用户在社交媒体上发布的文本之外,还包括多个与用户相关的重要统计信息,如用户发送信息的时间分布统计、用户使用积极和消极表情比例的统计、用户使用积极和消极词汇比例的统计、用户使用第一人称单数和复数比例的统计、用户账号关注数和被关注数的统计。这些文本和统计信息,可为某一用户14天或一个月内的数据。由此我们具有丰富的信息来体现用户的心理状态,并选择部分数据融入异质图的信息中,捕获信息的影响力或权重,提高了模型判断的准确率。
4、本发明的方法通过异质图卷积考虑不同类型信息的异构性,同时,注意力机制可以捕捉不同邻居节点的重要性,降低噪声信息,还能够捕捉不同类型节点的重要性,更好地实现了信息聚合,所学习到的短文本的表示更加准确。而在此之前,抑郁心理检测领域的半监督文本分类研究都没有做到通过注意力机制捕获重要信息。
5、本发明的方法首次将异质图神经网络应用在抑郁症的在线检测研究中。Twitter、微博等社交网络数据属于典型的异质图结构,包括用户、推文等不同的节点类型,用户-用户、用户-推文,推文-推文等不同的边类型。因此在抑郁症在线检测研究中,异质图更适合建模社交网络数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于异质图注意力网络的社交用户抑郁倾向检测方法的流程图;
图2为本发明的基于异质图注意力网络的Twitter社交用户抑郁倾向检测事件的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
实施例
如图1和图2所示,一种基于异质图注意力网络的社交用户抑郁倾向检测方法,包括下述步骤:
S1、采集用户社交网络平台上的数据,对于用户生成内容的短文本进行文本摘要,对于用户行为数据和用户画像数据进行统计计算;
所述的对于用户生成内容进行文本摘要,是指对于用户在社交网络平台上发送大量的文本数据,利用Bert模型进行文本嵌入和Kmeans聚类来识别靠近质心的句子以进行自动摘要选择。目的是从用户大量的社交文本中自动筛选出重要的句子,能更好地解决信息碎片化和无用信息干扰的问题,提高了模型效率和准确率;
所述的对于用户行为数据进行统计计算,是指对于用户在社交平台上发送信息的时间进行统计计算,形成发送时间分布。这些统计信息可能区别用户抑郁状态,对于用户心理状态的判断有帮助,利用编写好的函数进行采集和计算,并将作为异质图节点信息;
所述的对于用户画像数据进行统计计算,是指对于用户使用积极和消极表情比例的统计、用户使用积极和消极词汇比例的统计、用户使用第一人称单数和复数比例的统计、用户账号关注数和被关注数的统计等进行统计计算,构建用户画像。这些统计信息可能区别用户抑郁状态,对于用户心理状态的判断有帮助,利用编写好的函数进行采集和计算,并将作为异质图节点信息。
S2、构建一个灵活的异质信息网络框架对短文本、用户行为数据和用户画像数据进行建模,对处理好的短文本进行实体链接、实体嵌入和特征提取,并对特征进行主题分析;具体包括下述步骤:
S21、为了解决短文本的语义稀疏性问题,我们利用一个灵活的异质信息网络(Heterogeneous Information Network,HIN)框架来对短文本进行建模,该框架可以集成任何类型的附加信息,并捕获它们之间的关系,以丰富短文本的语义。对于附加信息,除了主题和实体,我们还用到步骤S1计算的用户行为数据和用户画像数据,如发送时间分布、用户使用积极和消极词汇比例的统计等。构造图G=(V,ε),V,ε分别为节点集和边集。其中节点集包括短文本集D={d1,...,dm}、主题集T={t1,...,tk}、实体集E={e1,...,en}、发送时间分布集C={c1,...,cp}、词汇比例集W={w1,...,wq},即V=D∪T∪E∪C∪W。边集ε表示它们之间的关系。
S22、使用文档主题生成模型Latent Dirichlet Allocation来识别短文本中潜藏的主题信息,挖掘出隐含主题,以丰富短文本的语义。计算词频,每个主题ti=(θ1,...,θw)(w表示词汇量)由单词的概率分布表示,为每个文档分配前P个概率最高的主题。若存在文档与主题的分配关系,则“文档-主题”边建立;
S23、对短文本进行实体链接。识别文档D中的实体E,并使用实体链接工具TAGME将它们映射到Wikipedia。若文档包含实体,则“文档-实体”边建立;
S24、对短文本进行实体嵌入。将一个实体作为一个完整的词,并使用基于Wikipedia语料库的word2vec2来学习实体嵌入。为了进一步丰富短文本的语义并促进信息传播,增加了实体之间的关系的考虑。如果基于嵌入计算的两个实体之间的相似度得分(余弦相似度)高于预定义的阈值δ,则“实体-实体”边建立。
S25、建立与用户行为数据和用户画像数据相关的边。如,每一个时间分布都对应每一个用户,每一个词汇比例都对应每一个用户等。建立“时间分布-文档”边、建立“词汇比例-文档”边等。
S26、将词频率、逆文档频率(TF-IDF)作为特征,并删掉没有特征的实体、删掉一些边、删掉孤立点。分别生成边、特征(文档节点、实体节点、主题节点、用户行为数据节点、用户画像数据节点)的文件,同时保存map索引信息文件,以待输入网络训练。
S3、对于不同类型信息的异质性,使用异质图卷积;具体包括下述步骤:
S31、使用TF-IDF(Term Frequency-Inverse Document Frequency)即词频-逆文件频率来评估用户的某一字词对用户发送的一篇社交文本的重要程度。一个词语在用户发送的一篇社交文本中出现次数越多,同时在所有社交文本中出现次数越少,越能够代表该社交文本。TF用公式表示如下
其中,ni,j表示词条ti在文档dj中出现的次数,TFi,j就是表示词条ti在文档dj中出现的频率。IDF用公式表示如下
其中|D|表示所有文档的数量,|j:ti∈dj|表示包含词条ti的文档数量。TF-IDF表达为
TF-IDF=TF.IDF (3)
S32、对于不同类型信息的异质性,使用异质图卷积。在HIN中,我们有五种类型的节点:文档、主题、实体、用户行为数据、用户画像数据,它们具有不同特征空间。对于文档d∈D,我们使用TF-IDF向量作为其特征向量xd。对于主题t∈T,单词分布xi=(θ1,...,θw)用于表示主题特征向量。对于每个实体,为了充分利用相关信息,我们将其词向量嵌入和其Wikipedia文本的TF-IDF向量连接起来表示实体特征向量xv。使用异质图卷积的方法,考虑不同类型信息的差异,用不同类型信息各自的变换矩阵将它们投影到一个变换矩阵W;考虑不同特征空间的差异,并将其投影到隐式公共空间中。节点的更新公式为
其中是的子矩阵,邻接矩阵包含自连接,它的行表示所有节点,列表示节点的τ类型的邻居。τ表示节点种类(文档、实体、主题、用户行为数据、用户画像数据)。节点的表示H(l+1)通过用各个类型τ的变换矩阵对各类型τ下节点的嵌入聚合得到。变换矩阵W考虑不同特征空间的差异,并将其投影到公共空间Rq(l+1)中。初始化
S4、对于不同相邻节点的重要性和不同节点类型对特定节点的重要性,建立基于类型级和节点级的双层注意力机制;具体包括下述步骤:
S41、类型级注意力(Type level attention)可以学习不同类型邻居结点的权重,并进行融合节点在多个关系下的表示。给定一个特定的节点v,将类型τ的嵌入表示成τ类型邻居结点特征的和,如下式所示:
S42、基于当前结点v嵌入hv和hτ,嵌入τ计算类型级别注意力分数,得到节点v关于类型τ领域的注意力分数aτ如下式所示:
其中||表示连接,μτ是类型τ的注意力向量(参数),对所有节点共享参数。σ(·)表示激活函数,如LeakyReLU.
S43、通过softmax函数在所有类型上归一化注意力分数,得到类型级别注意力权重,如下式所示:
S44、节点级注意力(Node level attention)可以捕获不同邻居节点的重要性,并通过加权聚合来学习节点的表示。给定一个类型τ的特定节点v,和其类型为τ′的邻居首先将节点v及其邻居v′的表示拼接起来,然后通过单层MLP和注意力向量将其转化为注意力分数。基于结点嵌入hv和hv′以及类型级注意力分数ατ′,计算节点v关于的节点级注意力分数bvv′,如下式所示:
bvv′=σ(vT·ατ′[hv||hv′] (8)
其中v是注意力向量(参数)。
S45、将注意力分数bvv′通过softmax函数归一化得到了注意力权重βvv′。
S46、基于所学习到的注意力权重来聚合邻居。相比较方程(4),方程(10)将替换成了基于两层注意力机制,这样噪音邻居的权重会较低而相对比较重要的邻居的权重会较高,使得考虑了不同相邻节点的重要性和不同节点(信息)类型对特定节点的重要性。节点类型把节点及其对应邻接点的注意力权重构成一个矩阵节点更新公式为:
S5、构建一个基于注意力机制的异质图神经网络,对网络进行训练和测试,预测标签,从而完成判断用户是否存在抑郁倾向的分类任务;具体包括下述步骤:
S51、基于上述节点级和类型级的两级注意力机制,构建异质图注意力网络(Heterogeneous Graph Attention Network,HGAT)模型来嵌入HIN,用于短文本分类。HGAT通过异质图卷积考虑不同类型信息的异构性,同时,注意力机制可以捕捉不同邻居节点的重要性,降低噪声信息,还能够捕捉不同类型节点的重要性,更好地实现了信息聚合,所学习到的短文本的表示更加准确。HGAT类中包含了First Layer和Second Layer,分别对应两层注意力机制,Output Layer对应softmax输出层。
S52、将最后一层的节点(短文本)表示取出来并通过交叉熵来进行训练。HGAT是半监督算法,这里的loss也是在少量标签数据上计算的。
Z=softmax(H(L)) (11)
交叉熵损失为
其中C是类别数,Dtrain是短文本索引集,θ是模型参数。最后,通过softmax层预测文档的标签。
上述方法可以有效地检测社交网络中的用户抑郁倾向,具有很好的移植性,鲁棒性,有效性和实用性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。
Claims (8)
1.一种基于异质图注意力网络的社交用户抑郁倾向检测方法,其特征在于,包括以下步骤:
S1、采集用户社交网络平台上的数据,对于用户生成内容的短文本进行文本摘要,对于用户行为数据和用户画像数据进行统计计算;
S2、构建一个灵活的异质信息网络框架对短文本、用户行为数据和用户画像数据进行建模,对处理好的短文本进行实体链接、实体嵌入和特征提取,并对特征进行主题分析;
S3、对于不同类型信息的异质性,使用异质图卷积;
S4、对于不同相邻节点的重要性和不同节点类型对特定节点的重要性,建立基于类型级和节点级的双层注意力机制;
S5、构建一个基于注意力机制的异质图神经网络,对网络进行训练和测试,预测标签,从而完成判断用户是否存在抑郁倾向的分类任务。
2.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法,其特征在于,步骤S1中,所述的对于用户生成内容进行文本摘要,是指对于用户在社交网络平台上发送大量的文本数据,利用Bert模型进行文本嵌入和Kmeans聚类来识别靠近质心的句子以进行自动摘要选择。目的是从用户大量的社交文本中自动筛选出重要的句子,能更好地解决信息碎片化和无用信息干扰的问题,提高了模型效率和准确率。
3.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法,其特征在于,步骤S1中,所述的对于用户行为数据进行统计计算,是指对于用户在社交平台上发送信息的时间进行统计计算,形成发送时间分布。这些统计信息可能区别用户抑郁状态,对于用户心理状态的判断有帮助,利用编写好的函数进行采集和计算,并将作为异质图节点信息。
4.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法,其特征在于,步骤S1中,所述的对于用户画像数据进行统计计算,是指对于用户使用积极和消极表情比例的统计、用户使用积极和消极词汇比例的统计、用户使用第一人称单数和复数比例的统计、用户账号关注数和被关注数的统计等进行统计计算,构建用户画像。这些统计信息可能区别用户抑郁状态,对于用户心理状态的判断有帮助,利用编写好的函数进行采集和计算,并将作为异质图节点信息。
5.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法,其特征在于,步骤S2的具体过程为:
S21、为了解决短文本的语义稀疏性问题,我们利用一个灵活的异质信息网络(Heterogeneous Information Network,HIN)框架来对短文本进行建模,该框架可以集成任何类型的附加信息,并捕获它们之间的关系,以丰富短文本的语义。对于附加信息,除了主题和实体,我们还用到步骤S1计算的用户行为数据和用户画像数据,如发送时间分布、用户使用积极和消极词汇比例的统计等。构造图G=(V,ε),V,ε分别为节点集和边集。其中节点集包括短文本集D={d1,…,dm}、主题集T={t1,…,tk}、实体集E={e1,...,en}、发送时间分布集C={c1,…,cp}、词汇比例集W={w1,…,wq},即V=D∪T∪E∪C∪W。边集ε表示它们之间的关系。
S22、使用文档主题生成模型Latent Dirichlet Allocation来识别短文本中潜藏的主题信息,挖掘出隐含主题,以丰富短文本的语义。计算词频,每个主题ti=(θ1,...,θw)(w表示词汇量)由单词的概率分布表示,为每个文档分配前P个概率最高的主题。若存在文档与主题的分配关系,则“文档-主题”边建立;
S23、对短文本进行实体链接。识别文档D中的实体E,并使用实体链接工具TAGME将它们映射到Wikipedia。若文档包含实体,则“文档-实体”边建立;
S24、对短文本进行实体嵌入。将一个实体作为一个完整的词,并使用基于Wikipedia语料库的word2vec2来学习实体嵌入。为了进一步丰富短文本的语义并促进信息传播,增加了实体之间的关系的考虑。如果基于嵌入计算的两个实体之间的相似度得分(余弦相似度)高于预定义的阈值δ,则“实体-实体”边建立。
S25、建立与用户行为数据和用户画像数据相关的边。如,每一个时间分布都对应每一个用户,每一个词汇比例都对应每一个用户等。建立“时间分布-文档”边、建立“词汇比例-文档”边等。
S26、将词频率、逆文档频率(TF-IDF)作为特征,并删掉没有特征的实体、删掉一些边、删掉孤立点。分别生成边、特征(文档节点、实体节点、主题节点、用户行为数据节点、用户画像数据节点)的文件,同时保存map索引信息文件,以待输入网络训练。
6.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法,其特征在于,步骤S3的具体过程为:
S31、使用TF-IDF(Term Frequency-Inverse Document Frequency)即词频-逆文件频率来评估用户的某一字词对用户发送的一篇社交文本的重要程度。一个词语在用户发送的一篇社交文本中出现次数越多,同时在所有社交文本中出现次数越少,越能够代表该社交文本。TF用公式表示如下
其中,ni,j表示词条ti在文档dj中出现的次数,TFi,j就是表示词条ti在文档dj中出现的频率。IDF用公式表示如下
其中|D|表示所有文档的数量,|j:ti∈dj|表示包含词条ti的文档数量。TF-IDF表达为
TF-IDF=TF·IDF (3)
S32、对于不同类型信息的异质性,使用异质图卷积。在HIN中,我们有五种类型的节点:文档、主题、实体、用户行为数据、用户画像数据,它们具有不同特征空间。对于文档d∈D,我们使用TF-IDF向量作为其特征向量xd。对于主题t∈T,单词分布xi=(θ1,…,θw)用于表示主题特征向量。对于每个实体,为了充分利用相关信息,我们将其词向量嵌入和其Wikipedia文本的TF-IDF向量连接起来表示实体特征向量xv。使用异质图卷积的方法,考虑不同类型信息的差异,用不同类型信息各自的变换矩阵将它们投影到一个变换矩阵W;考虑不同特征空间的差异,并将其投影到隐式公共空间中。节点的更新公式为
7.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法,其特征在于,步骤S4的具体过程为:
S41、类型级注意力(Type level attention)可以学习不同类型邻居结点的权重,并进行融合节点在多个关系下的表示。给定一个特定的节点v,将类型τ的嵌入表示成τ类型邻居结点特征的和,如下式所示:
S42、基于当前结点v嵌入hv和hτ,嵌入τ计算类型级别注意力分数,得到节点v关于类型τ领域的注意力分数aτ如下式所示:
其中||表示连接,μτ是类型τ的注意力向量(参数),对所有节点共享参数。σ(·)表示激活函数,如LeakyReLU.
S43、通过softmax函数在所有类型上归一化注意力分数,得到类型级别注意力权重,如下式所示:
S44、节点级注意力(Node level attention)可以捕获不同邻居节点的重要性,并通过加权聚合来学习节点的表示。给定一个类型τ的特定节点v,和其类型为τ′的邻居首先将节点v及其邻居v′的表示拼接起来,然后通过单层MLP和注意力向量将其转化为注意力分数。基于结点嵌入hv和hv′以及类型级注意力分数ατ′,计算节点v关于的节点级注意力分数bvv′,如下式所示:
bvv′=σ(vT·ατ′[hv||hv′] (8)
其中ν是注意力向量(参数)。
S45、将注意力分数bvv′通过softmax函数归一化得到了注意力权重βvv′。
S46、基于所学习到的注意力权重来聚合邻居。相比较方程(4),方程(10)将替换成了基于两层注意力机制,这样噪音邻居的权重会较低而相对比较重要的邻居的权重会较高,使得考虑了不同相邻节点的重要性和不同节点(信息)类型对特定节点的重要性。节点类型把节点及其对应邻接点的注意力权重构成一个矩阵节点更新公式为:
8.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法,其特征在于,步骤S5的具体过程为:
S51、基于上述节点级和类型级的两级注意力机制,构建异质图注意力网络(Heterogeneous Graph Attention Network,HGAT)模型来嵌入HIN,用于短文本分类。HGAT通过异质图卷积考虑不同类型信息的异构性,同时,注意力机制可以捕捉不同邻居节点的重要性,降低噪声信息,还能够捕捉不同类型节点的重要性,更好地实现了信息聚合,所学习到的短文本的表示更加准确。HGAT类中包含了First Layer和Second Layer,分别对应两层注意力机制,Output Layer对应softmax输出层。
S52、将最后一层的节点(短文本)表示取出来并通过交叉熵来进行训练。HGAT是半监督算法,这里的loss也是在少量标签数据上计算的。
Z=softmax(H(L)) (11)
交叉熵损失为
其中C是类别数,Dtrain是短文本索引集,θ是模型参数。最后,通过softmax层预测文档的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210281309.7A CN114628008A (zh) | 2022-03-22 | 2022-03-22 | 一种基于异质图注意力网络的社交用户抑郁倾向检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210281309.7A CN114628008A (zh) | 2022-03-22 | 2022-03-22 | 一种基于异质图注意力网络的社交用户抑郁倾向检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114628008A true CN114628008A (zh) | 2022-06-14 |
Family
ID=81904717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210281309.7A Pending CN114628008A (zh) | 2022-03-22 | 2022-03-22 | 一种基于异质图注意力网络的社交用户抑郁倾向检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114628008A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935075A (zh) * | 2023-01-30 | 2023-04-07 | 杭州师范大学钱江学院 | 融合推文信息和行为特征的社交网络用户抑郁症检测方法 |
CN116386895A (zh) * | 2023-04-06 | 2023-07-04 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
-
2022
- 2022-03-22 CN CN202210281309.7A patent/CN114628008A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935075A (zh) * | 2023-01-30 | 2023-04-07 | 杭州师范大学钱江学院 | 融合推文信息和行为特征的社交网络用户抑郁症检测方法 |
CN115935075B (zh) * | 2023-01-30 | 2023-08-18 | 杭州师范大学钱江学院 | 融合推文信息和行为特征的社交网络用户抑郁症检测方法 |
CN116386895A (zh) * | 2023-04-06 | 2023-07-04 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116386895B (zh) * | 2023-04-06 | 2023-11-28 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vadicamo et al. | Cross-media learning for image sentiment analysis in the wild | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
Revathy et al. | Sentiment analysis using machine learning: Progress in the machine intelligence for data science | |
Amir et al. | Quantifying mental health from social media with neural user embeddings | |
CN111368074A (zh) | 一种基于网络结构和文本信息的链路预测方法 | |
Al Banna et al. | A hybrid deep learning model to predict the impact of COVID-19 on mental health from social media big data | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN114628008A (zh) | 一种基于异质图注意力网络的社交用户抑郁倾向检测方法 | |
Dandannavar et al. | Social media text-a source for personality prediction | |
Cheng et al. | Multimodal time-aware attention networks for depression detection | |
Huang et al. | Predicting Depression Tendency based on Image, Text and Behavior Data from Instagram. | |
Ning et al. | Calling for response: automatically distinguishing situation-aware tweets during crises | |
Ma et al. | Constructing a semantic graph with depression symptoms extraction from twitter | |
Nasrullah et al. | [Retracted] Detection of Types of Mental Illness through the Social Network Using Ensembled Deep Learning Model | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
CN113360643A (zh) | 一种基于短文本分类的电子病历数据质量评价方法 | |
Wang et al. | Joint Learning on Relevant User Attributes in Micro-blog. | |
CN115115483B (zh) | 一种融合隐私保护的学生综合能力评测方法 | |
Failli et al. | Finite mixtures of latent trait analyzers with concomitant variables for bipartite networks: an analysis of COVID-19 data | |
Peng et al. | The effect of pets on happiness: A large-scale multi-factor analysis using social multimedia | |
Iyda et al. | An improved deep belief neural network based civil unrest event forecasting in twitter | |
Alghalibi et al. | Deep Tweets Analyzer Model for Twitter Mood Visualization and Prediction Based Deep Learning Approach | |
Krishna et al. | A Deep Parallel Hybrid Fusion Model for disaster tweet classification on Twitter data | |
CN116230168A (zh) | 基于异质子图对比学习的抑郁症检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |