CN114628008A

CN114628008A - 一种基于异质图注意力网络的社交用户抑郁倾向检测方法

Info

Publication number: CN114628008A
Application number: CN202210281309.7A
Authority: CN
Inventors: 陈炜鸿; 李风环; 钟明好; 陈宸
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-14

Abstract

本发明公开了一种基于异质图注意力网络的社交用户抑郁倾向检测方法，包括下述步骤：采集用户社交网络平台上的数据，对于用户生成内容的短文本进行文本摘要，对于用户行为数据和用户画像数据进行统计计算；构建一个灵活的异质信息网络框架对短文本、用户行为数据和用户画像数据进行建模，对处理好的短文本进行实体链接、实体嵌入和特征提取，并对特征进行主题分析；对于不同类型信息的异质性，使用异质图卷积；对于不同相邻节点的重要性和不同节点类型对特定节点的重要性，建立基于类型级和节点级的双层注意力机制；构建一个基于注意力机制的异质图神经网络，对网络进行训练和测试，预测标签，从而完成判断用户是否存在抑郁倾向的分类任务。本发明能够结合多个信息维度将社交媒体数据建模为异质图结构，并构建异质图注意力网络进行半监督分类，判断用户是否存在抑郁倾向，有利于帮助提高诊断的有效性，从而辅助临床确诊。

Description

一种基于异质图注意力网络的社交用户抑郁倾向检测方法

技术领域

本发明涉及自然语言处理和图神经网络领域，特别涉及一种基于异质图注意力网络的社交用户抑郁倾向检测方法。

背景技术

目前，全球有3亿左右的人患有抑郁症，且受抑郁症、压力等心理健康问题困扰的人愈来愈年轻化。心理健康不仅影响个人的生活、工作、学习能力，而且是导致全球负担和公共健康的重大因素。传统的心理健康诊断和治疗方法，需要和医生进行面对面的交流，这种接触式的方式限制了潜在病人识别的可能性。并且鉴于经济水平、资源缺乏、社会歧视、隐私保护等问题，即使意识到自己可能患上了心理健康疾病，也不会去医院或诊所进行鉴定。因此，以往的研究往往难以在大样本情况下对人们的心理或精神状态进行检测和追踪。

社交网络的繁盛使得海量的社交媒体数据捕获了人们自己真实的想法、情感、交流等信息，这些数据在公共健康监控中变得非常重要。虽然像传统诊断方法一样，并不是所有人都会在社交网络发布信息，但是基于社交媒体数据分析的非接触式检测方式能够为心理健康诊断提供新的资源和视角。相对于传统的生理指标、心理测试等诊断方法，社交网络分析起步较晚，因此利用社交媒体数据进行心理健康诊断的方法不够成熟，还没有作为临床确诊标准。但是有效的模型可以更早地发现潜在的心理状态，辅助心理健康专家对抑郁症及其他心理健康疾病的确诊进行更彻底的评估，并为治疗提供支持。因此，社交媒体数据可以作为心理学领域的辅助资源和研究对象。

综上，基于异质图注意力网络的社交用户抑郁倾向检测方法的研究不仅有助于提高对心理健康的确诊和治疗、公共健康的干预和建设等应用领域的智能处理能力，而且对社交网络分析、图模型等相关任务的研究提供重要的理论方法。针对社交网络数据新的特性，抓住抑郁症这一重点心理健康问题，将社交媒体数据构建为异质图结构，进行心理健康的诊断研究，研究基于异质图注意力网络的社交用户抑郁倾向检测具有重要的理论意义和应用价值。

发明内容

本发明的目的在于克服现有技术中的缺点与不足，提供一种基于异质图注意力网络的社交用户抑郁倾向检测方法，能够有效判断社交用户是否存在抑郁倾向。

为实现以上目的，本发明采取如下技术方案：

一种基于异质图注意力网络的社交用户抑郁倾向检测方法，包括以下步骤：

S1、采集用户社交网络平台上的数据，对于用户生成内容的短文本进行文本摘要，对于用户行为数据和用户画像数据进行统计计算；

S2、构建一个灵活的异质信息网络框架对短文本、用户行为数据和用户画像数据进行建模，对处理好的短文本进行实体链接、实体嵌入和特征提取，并对特征进行主题分析；

S3、对于不同类型信息的异质性，使用异质图卷积；

S4、对于不同相邻节点的重要性和不同节点类型对特定节点的重要性，建立基于类型级和节点级的双层注意力机制；

S5、构建一个基于注意力机制的异质图神经网络，对网络进行训练和测试，预测标签，从而完成判断用户是否存在抑郁倾向的分类任务。

作为优选的技术方案，步骤S1中，所述的对于用户生成内容进行文本摘要，是指对于用户在社交网络平台上发送大量的文本数据，利用Bert模型进行文本嵌入和Kmeans聚类来识别靠近质心的句子以进行自动摘要选择。目的是从用户大量的社交文本中自动筛选出重要的句子，能更好地解决信息碎片化和无用信息干扰的问题，提高了模型效率和准确率。

作为优选的技术方案步骤S1中，所述的对于用户行为数据进行统计计算，是指对于用户在社交平台上发送信息的时间进行统计计算，形成发送时间分布。这些统计信息可能区别用户抑郁状态，对于用户心理状态的判断有帮助，利用编写好的函数进行采集和计算，并将作为异质图节点信息。

作为优选的技术方案，步骤S1中，所述的对于用户画像数据进行统计计算，是指对于用户使用积极和消极表情比例的统计、用户使用积极和消极词汇比例的统计、用户使用第一人称单数和复数比例的统计、用户账号关注数和被关注数的统计等进行统计计算，构建用户画像。这些统计信息可能区别用户抑郁状态，对于用户心理状态的判断有帮助，利用编写好的函数进行采集和计算，并将作为异质图节点信息。

作为优选的技术方案，步骤S2的具体过程为：

S21、为了解决短文本的语义稀疏性问题，我们利用一个灵活的异质信息网络(Heterogeneous Information Network，HIN)框架来对短文本进行建模，该框架可以集成任何类型的附加信息，并捕获它们之间的关系，以丰富短文本的语义。对于附加信息，除了主题和实体，我们还用到步骤S1计算的用户行为数据和用户画像数据，如发送时间分布、用户使用积极和消极词汇比例的统计等。构造图G＝(V,ε)，V,ε分别为节点集和边集。其中节点集包括短文本集D＝{d₁,...,d_m}、主题集T＝{t₁,...,t_k}、实体集E＝{e₁,...,e_n}、发送时间分布集C＝{c₁,...,c_p}、词汇比例集W＝{w₁,…,w_q}，即V＝D∪T∪E∪C∪W。边集ε表示它们之间的关系。

S22、使用文档主题生成模型Latent Dirichlet Allocation来识别短文本中潜藏的主题信息，挖掘出隐含主题，以丰富短文本的语义。计算词频，每个主题t_i＝(θ₁,...,θ_w)(w表示词汇量)由单词的概率分布表示，为每个文档分配前P个概率最高的主题。若存在文档与主题的分配关系，则“文档-主题”边建立；

S23、对短文本进行实体链接。识别文档D中的实体E，并使用实体链接工具TAGME将它们映射到Wikipedia。若文档包含实体，则“文档-实体”边建立；

S24、对短文本进行实体嵌入。将一个实体作为一个完整的词，并使用基于Wikipedia语料库的word2vec2来学习实体嵌入。为了进一步丰富短文本的语义并促进信息传播，增加了实体之间的关系的考虑。如果基于嵌入计算的两个实体之间的相似度得分(余弦相似度)高于预定义的阈值δ，则“实体-实体”边建立。

S25、建立与用户行为数据和用户画像数据相关的边。如，每一个时间分布都对应每一个用户，每一个词汇比例都对应每一个用户等。建立“时间分布-文档”边、建立“词汇比例-文档”边等。

S26、将词频率、逆文档频率(TF-IDF)作为特征，并删掉没有特征的实体、删掉一些边、删掉孤立点。分别生成边、特征(文档节点、实体节点、主题节点、用户行为数据节点、用户画像数据节点)的文件，同时保存map索引信息文件，以待输入网络训练。

作为优选的技术方案，步骤S3的具体过程为：

S31、使用TF-IDF(Term Frequency-Inverse Document Frequency)即词频-逆文件频率来评估用户的某一字词对用户发送的一篇社交文本的重要程度。一个词语在用户发送的一篇社交文本中出现次数越多，同时在所有社交文本中出现次数越少，越能够代表该社交文本。TF用公式表示如下

其中，n_i，j表示词条t_i在文档d_j中出现的次数，TF_i，j就是表示词条t_i在文档d_j中出现的频率。IDF用公式表示如下

其中|D|表示所有文档的数量，|j：t_i∈d_j|表示包含词条t_i的文档数量。TF-IDF表达为

TF-IDF＝TF·IDF (3)

S32、对于不同类型信息的异质性，使用异质图卷积。在HIN中，我们有五种类型的节点：文档、主题、实体、用户行为数据、用户画像数据，它们具有不同特征空间。对于文档d∈D，我们使用TF-IDF向量作为其特征向量x_d。对于主题t∈T，单词分布x_i＝(θ₁，...，θ_w)用于表示主题特征向量。对于每个实体，为了充分利用相关信息，我们将其词向量嵌入和其Wikipedia文本的TF-IDF向量连接起来表示实体特征向量x_v。使用异质图卷积的方法，考虑不同类型信息的差异，用不同类型信息各自的变换矩阵将它们投影到一个变换矩阵W；考虑不同特征空间的差异，并将其投影到隐式公共空间中。节点的更新公式为

其中

是

的子矩阵，邻接矩阵

包含自连接，它的行表示所有节点，列表示节点的τ类型的邻居。τ表示节点种类(文档、实体、主题、用户行为数据、用户画像数据)。节点的表示H^(l+1)通过用各个类型τ的变换矩阵

对各类型τ下节点的嵌入

聚合得到。变换矩阵W考虑不同特征空间的差异，并将其投影到公共空间R^q(l+1)中。初始化

作为优选的技术方案，步骤S4的具体过程为：

S41、类型级注意力(Type level attention)可以学习不同类型邻居结点的权重，并进行融合节点在多个关系下的表示。给定一个特定的节点v，将类型τ的嵌入表示成τ类型邻居结点特征的和，如下式所示：

S42、基于当前结点v嵌入h_v和h_τ，嵌入τ计算类型级别注意力分数，得到节点v关于类型τ领域的注意力分数a_τ下式所示：

其中||表示连接，μ_τ是类型τ的注意力向量(参数)，对所有节点共享参数。σ(·)表示激活函数，如LeakyReLU.

S43、通过softmax函数在所有类型上归一化注意力分数，得到类型级别注意力权重，如下式所示：

S44、节点级注意力(Node level attention)可以捕获不同邻居节点的重要性，并通过加权聚合来学习节点的表示。给定一个类型τ的特定节点v，和其类型为τ′的邻居

首先将节点v及其邻居v′的表示拼接起来，然后通过单层MLP和注意力向量将其转化为注意力分数。基于结点嵌入h_v和h_v′以及类型级注意力分数α_τ′，计算节点v关于

的节点级注意力分数b_vv′，如下式所示：

其中v是注意力向量(参数)。

S45、将注意力分数b_vv′通过softmax函数归一化得到了注意力权重β_vv′。

S46、基于所学习到的注意力权重来聚合邻居。相比较方程(4)，方程(10)将

替换成了

基于两层注意力机制，这样噪音邻居的权重会较低而相对比较重要的邻居的权重会较高，使得考虑了不同相邻节点的重要性和不同节点(信息)类型对特定节点的重要性。节点类型把节点及其对应邻接点的注意力权重构成一个矩阵

节点更新公式为：

其中

表示注意力矩阵，其元素为β^vv′，β_i，j表示v_i与v_j之间的注意力权值。

作为优选的技术方案，步骤S5的具体过程为：

S51、基于上述节点级和类型级的两级注意力机制，构建异质图注意力网络(Heterogeneous Graph Attention Network，HGAT)模型来嵌入HIN，用于短文本分类。HGAT通过异质图卷积考虑不同类型信息的异构性，同时，注意力机制可以捕捉不同邻居节点的重要性，降低噪声信息，还能够捕捉不同类型节点的重要性，更好地实现了信息聚合，所学习到的短文本的表示更加准确。HGAT类中包含了First Layer和Second Layer，分别对应两层注意力机制，Output Layer对应softmax输出层。

S52、将最后一层的节点(短文本)表示取出来并通过交叉熵来进行训练。HGAT是半监督算法，这里的loss也是在少量标签数据上计算的。

Z＝softmax(H^(L)) (11)

交叉熵损失为

其中C是类别数，D_train是短文本索引集，θ是模型参数。最后，通过softmax层预测文档的标签。

本发明相对于现有技术具有如下的优点和效果：

1、本发明的方法在数据处理阶段能更好地解决信息碎片化和无用信息干扰的问题。用户在社交平台上发布的内容数据量庞大且主题分散。用户并不是一直发表与情绪相关的信息，也会发布工作、学习、明星、购物、天气等其他信息，这些信息对于判断抑郁状态没有作用或起负面效果。我们对其进行了文本自动摘要的处理，从用户大量的社交文本中筛选出重要的句子。与不进行文本摘要相比，进行文本自动摘要后的准确率有了明显提高，并且处理时间更短。可见该方法有效降低了信息干扰，提高了模型效率和准确率。

2、本发明的方法构建了一个灵活的异质信息网络结构来处理社交短文本内容，该框架可以集成实体、主题、文档、用户行为数据、用户画像数据等信息，并捕获它们之间的关系，可以解决语义稀疏性问题，降低噪声，并丰富短文本的语义。

3、本发明的方法挖掘了在社交网络中多种可能表现用户抑郁状态的信息，这些信息除了用户在社交媒体上发布的文本之外，还包括多个与用户相关的重要统计信息，如用户发送信息的时间分布统计、用户使用积极和消极表情比例的统计、用户使用积极和消极词汇比例的统计、用户使用第一人称单数和复数比例的统计、用户账号关注数和被关注数的统计。这些文本和统计信息，可为某一用户14天或一个月内的数据。由此我们具有丰富的信息来体现用户的心理状态，并选择部分数据融入异质图的信息中，捕获信息的影响力或权重，提高了模型判断的准确率。

4、本发明的方法通过异质图卷积考虑不同类型信息的异构性，同时，注意力机制可以捕捉不同邻居节点的重要性，降低噪声信息，还能够捕捉不同类型节点的重要性，更好地实现了信息聚合，所学习到的短文本的表示更加准确。而在此之前，抑郁心理检测领域的半监督文本分类研究都没有做到通过注意力机制捕获重要信息。

5、本发明的方法首次将异质图神经网络应用在抑郁症的在线检测研究中。Twitter、微博等社交网络数据属于典型的异质图结构，包括用户、推文等不同的节点类型，用户-用户、用户-推文，推文-推文等不同的边类型。因此在抑郁症在线检测研究中，异质图更适合建模社交网络数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于异质图注意力网络的社交用户抑郁倾向检测方法的流程图；

图2为本发明的基于异质图注意力网络的Twitter社交用户抑郁倾向检测事件的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

实施例

如图1和图2所示，一种基于异质图注意力网络的社交用户抑郁倾向检测方法，包括下述步骤：

所述的对于用户生成内容进行文本摘要，是指对于用户在社交网络平台上发送大量的文本数据，利用Bert模型进行文本嵌入和Kmeans聚类来识别靠近质心的句子以进行自动摘要选择。目的是从用户大量的社交文本中自动筛选出重要的句子，能更好地解决信息碎片化和无用信息干扰的问题，提高了模型效率和准确率；

所述的对于用户行为数据进行统计计算，是指对于用户在社交平台上发送信息的时间进行统计计算，形成发送时间分布。这些统计信息可能区别用户抑郁状态，对于用户心理状态的判断有帮助，利用编写好的函数进行采集和计算，并将作为异质图节点信息；

所述的对于用户画像数据进行统计计算，是指对于用户使用积极和消极表情比例的统计、用户使用积极和消极词汇比例的统计、用户使用第一人称单数和复数比例的统计、用户账号关注数和被关注数的统计等进行统计计算，构建用户画像。这些统计信息可能区别用户抑郁状态，对于用户心理状态的判断有帮助，利用编写好的函数进行采集和计算，并将作为异质图节点信息。

S2、构建一个灵活的异质信息网络框架对短文本、用户行为数据和用户画像数据进行建模，对处理好的短文本进行实体链接、实体嵌入和特征提取，并对特征进行主题分析；具体包括下述步骤：

S21、为了解决短文本的语义稀疏性问题，我们利用一个灵活的异质信息网络(Heterogeneous Information Network，HIN)框架来对短文本进行建模，该框架可以集成任何类型的附加信息，并捕获它们之间的关系，以丰富短文本的语义。对于附加信息，除了主题和实体，我们还用到步骤S1计算的用户行为数据和用户画像数据，如发送时间分布、用户使用积极和消极词汇比例的统计等。构造图G＝(V，ε)，V，ε分别为节点集和边集。其中节点集包括短文本集D＝{d₁，...，d_m}、主题集T＝{t₁，...，t_k}、实体集E＝{e₁，...，e_n}、发送时间分布集C＝{c₁，...，c_p}、词汇比例集W＝{w₁，...，w_q}，即V＝D∪T∪E∪C∪W。边集ε表示它们之间的关系。

S22、使用文档主题生成模型Latent Dirichlet Allocation来识别短文本中潜藏的主题信息，挖掘出隐含主题，以丰富短文本的语义。计算词频，每个主题t_i＝(θ₁，...，θ_w)(w表示词汇量)由单词的概率分布表示，为每个文档分配前P个概率最高的主题。若存在文档与主题的分配关系，则“文档-主题”边建立；

S3、对于不同类型信息的异质性，使用异质图卷积；具体包括下述步骤：

TF-IDF＝TF.IDF (3)

其中

是

的子矩阵，邻接矩阵

对各类型τ下节点的嵌入

S4、对于不同相邻节点的重要性和不同节点类型对特定节点的重要性，建立基于类型级和节点级的双层注意力机制；具体包括下述步骤：

S42、基于当前结点v嵌入h_v和h_τ，嵌入τ计算类型级别注意力分数，得到节点v关于类型τ领域的注意力分数a_τ如下式所示：

的节点级注意力分数b_vv′，如下式所示：

b_vv′＝σ(v^T·α_τ′[h_v||h_v′] (8)

其中v是注意力向量(参数)。

替换成了

节点更新公式为：

其中

S5、构建一个基于注意力机制的异质图神经网络，对网络进行训练和测试，预测标签，从而完成判断用户是否存在抑郁倾向的分类任务；具体包括下述步骤：

Z＝softmax(H^(L)) (11)

交叉熵损失为

上述方法可以有效地检测社交网络中的用户抑郁倾向，具有很好的移植性，鲁棒性，有效性和实用性。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以权利要求所述为准。

Claims

1.一种基于异质图注意力网络的社交用户抑郁倾向检测方法，其特征在于，包括以下步骤：

S3、对于不同类型信息的异质性，使用异质图卷积；

2.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法，其特征在于，步骤S1中，所述的对于用户生成内容进行文本摘要，是指对于用户在社交网络平台上发送大量的文本数据，利用Bert模型进行文本嵌入和Kmeans聚类来识别靠近质心的句子以进行自动摘要选择。目的是从用户大量的社交文本中自动筛选出重要的句子，能更好地解决信息碎片化和无用信息干扰的问题，提高了模型效率和准确率。

3.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法，其特征在于，步骤S1中，所述的对于用户行为数据进行统计计算，是指对于用户在社交平台上发送信息的时间进行统计计算，形成发送时间分布。这些统计信息可能区别用户抑郁状态，对于用户心理状态的判断有帮助，利用编写好的函数进行采集和计算，并将作为异质图节点信息。

4.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法，其特征在于，步骤S1中，所述的对于用户画像数据进行统计计算，是指对于用户使用积极和消极表情比例的统计、用户使用积极和消极词汇比例的统计、用户使用第一人称单数和复数比例的统计、用户账号关注数和被关注数的统计等进行统计计算，构建用户画像。这些统计信息可能区别用户抑郁状态，对于用户心理状态的判断有帮助，利用编写好的函数进行采集和计算，并将作为异质图节点信息。

5.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法，其特征在于，步骤S2的具体过程为：

S21、为了解决短文本的语义稀疏性问题，我们利用一个灵活的异质信息网络(Heterogeneous Information Network，HIN)框架来对短文本进行建模，该框架可以集成任何类型的附加信息，并捕获它们之间的关系，以丰富短文本的语义。对于附加信息，除了主题和实体，我们还用到步骤S1计算的用户行为数据和用户画像数据，如发送时间分布、用户使用积极和消极词汇比例的统计等。构造图G＝(V,ε)，V,ε分别为节点集和边集。其中节点集包括短文本集D＝{d₁,…,d_m}、主题集T＝{t₁,…,t_k}、实体集E＝{e1,...,e_n}、发送时间分布集C＝{c₁,…,c_p}、词汇比例集W＝{w₁,…,w_q}，即V＝D∪T∪E∪C∪W。边集ε表示它们之间的关系。

6.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法，其特征在于，步骤S3的具体过程为：

S31、使用TF-IDF(Term Frequency-Inverse Document Frequency)即词频-逆文件频率来评估用户的某一字词对用户发送的一篇社交文本的重要程度。一个词语在用户发送的一篇社交文本中出现次数越多,同时在所有社交文本中出现次数越少,越能够代表该社交文本。TF用公式表示如下

其中，n_i,j表示词条t_i在文档d_j中出现的次数，TF_i,j就是表示词条t_i在文档d_j中出现的频率。IDF用公式表示如下

其中|D|表示所有文档的数量，|j:t_i∈d_j|表示包含词条t_i的文档数量。TF-IDF表达为

TF-IDF＝TF·IDF (3)

S32、对于不同类型信息的异质性，使用异质图卷积。在HIN中，我们有五种类型的节点：文档、主题、实体、用户行为数据、用户画像数据，它们具有不同特征空间。对于文档d∈D，我们使用TF-IDF向量作为其特征向量x_d。对于主题t∈T，单词分布x_i＝(θ₁,…,θ_w)用于表示主题特征向量。对于每个实体，为了充分利用相关信息，我们将其词向量嵌入和其Wikipedia文本的TF-IDF向量连接起来表示实体特征向量x_v。使用异质图卷积的方法，考虑不同类型信息的差异，用不同类型信息各自的变换矩阵将它们投影到一个变换矩阵W；考虑不同特征空间的差异，并将其投影到隐式公共空间中。节点的更新公式为