CN111540470A

CN111540470A - 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法

Info

Publication number: CN111540470A
Application number: CN202010311770.3A
Authority: CN
Inventors: 王垚; 贾宝龙; 杜依宁; 张晗; 陈响
Original assignee: Beijing Shixiang Technology And Culture Co ltd
Current assignee: Beijing Shixiang Technology And Culture Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-14
Anticipated expiration: 2040-04-20
Also published as: CN111540470B

Abstract

本申请提供一种基于BERT迁移学习的社交网络抑郁倾向检测系统及其的训练方法。本申请所述社交网络抑郁倾向检测系统包括预训练的BERT网络模型、Auto‑Encoder编码网络模型和多层神经网络判别模型。通过训练上述模型，基于训练的模型进行社交网络抑郁倾向检测。本申请进一步提供一种基于BERT迁移学习的社交网络抑郁倾向检测系统。本申请提出的方法其判断准确率、召回率明显优于其他同类方法。

Description

一种基于BERT迁移学习的社交网络抑郁倾向检测模型及其训练方法

技术领域

本申请涉及计算机辅助医疗领域。尤其涉及一种基于社交网络文本内容的抑郁倾向检测模型训练方法，基于文本内容的抑郁倾向判定方法及系统。

背景技术

抑郁症是一种以长期心情低落为主要临床症状的精神疾病。但是目前国内对抑郁症的重视程度不够，并且患者在患病前期就医的意识薄弱，导致抑郁症在国内的诊断率低。目前在计算机领域对抑郁症的主流检测方法主要包括统计分析、机器学习和深度学习方法。统计分析方法依赖分词以及情绪词典的构建存在较大主观性，很难准确的检测抑郁倾向。深度学习方法需要大量的高质量数据，并且数据标注需要耗费大量人力物力，因此比较难以实现。所以，目前的抑郁检测方法主要采用训练机器学习模型，以及集成学习、多模态学习等方式实现。

发明内容

本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法。

第一方面，本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法，所述的抑郁倾向检测系统包括预训练的BERT网络模型、Auto-Encoder编码网络模型和多层神经网络判别模型。所述训练方法包括：

(1)从社交网络获取用户所有原创文本内容并清洗，输入至预训练的 BERT网络模型，以获取文本内容对应的向量序列；

(2)将所述的文本的向量序列作为输入和输出，训练Auto-Encoder编码网络模型，获取向量序列对应的低维度文本向量序列；

(3)将所述低纬度向量序列构造用户向量序列；

步骤(3)中，低维度文本向量序列按照对应维度求均值的方式，构建用户向量序列；

(4)将所述用户向量序列作为输入，人工标注得到的标签作为输出，训练多层神经网络判别模型。

上述人工标注的标签分为两类，一类表示正标签，一类表示负标签。正标签表示有抑郁倾向用户，负标签表示无抑郁倾向用户。整个标注过程至少需要3位领域专家各自独立标注，然后从中选出至少2位专家认为是正样本或负样本的数据作为最终的训练数据。

上述步骤(2)中所述Auto-Encoder编码网络模型包括编码器Encoder和解码器Decoder；所述训练Auto-Encoder编码网络模型的方法包括：

将步骤(1)所述文本内容对应的向量序列作为所述编码器Encoder的输入；将所述编码器Encoder的输出作为所述解码器Decoder的输入；将所述解码器Decoder的输出目标作为所述编码器Encoder的输入；针对所述解码器Decoder构造均方误差损失函数，并利用所述均方误差损失函数对所述 Auto-Encoder编码网络的参数进行更新。

针对所述解码器Decoder构造均方误差损失函数；

所述均方误差函数为：

利用所述均方误差损失函数对所述Auto-Encoder编码网络的参数进行更新；当所述Auto-Encoder编码网络模型的损失变化量小于0.001时完成训练。

所述步骤(4)中多层神经网络判别模型包括1个输入层、3个隐藏层和 1个输出层。其中，所述输入层神经元个数为128，3个隐藏层神经元个数分别为64、32和10，输出层神经元个数为1；

所述预先训练的多层神经网络判别模型包括：

a)将所述用户向量作为所述多层神经网络模型的输入；

b)将所述人工标注的标签作为所述多层神经网络模型的输出；

c)根据所述分类任务构造交叉熵损失函数；

d)利用所述交叉熵损失函数对所述多层神经网络判别模型的参数进行更新。

其中步骤c)所述交叉熵损失函数为：

利用所述交叉熵损失函数对所述多层神经网络判别模型的参数进行更新；所述多层神经网络判别模型的损失变化量小于0.001时训练完成。

第二方面，本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测方法，包括：

(1)从社交网络上获取用户所有原创文本内容并清洗；

(2)将所述文本内容输入至预训练的BERT网络模型，获取所述文本内容对应的向量序列；

(3)将所述向量序列输入至预先训练的Auto-Encoder编码网络模型，获取所述向量序列对应的低纬度向量序列；

(4)根据所述用户下所有低纬度向量序列，按照对应维度求均值的方式，获取用户向量序列；

(5)将所述用户向量序列输入至预先训练的多层神经网络判别模型中，获得基于所述用户的抑郁倾向判定结果。

第三方面，本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测系统，包括：

(A)预训练的BERT网络模型，获取所述用户文本内容所对应的向量序列；

(B)Auto-Encoder编码网络模型。该模型将所述向量序列转化为低纬度向量序列，采用上述基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法训练得到；

(C)多层神经网络判别模型。该模型采用上述基于BERT迁移学习的社交网络抑郁倾向检测方法中关于多层神经网络判别模型训练方法训练得到；

所述多层神经网络判别模型的输出为用户抑郁倾向的判定结果。

本申请提出的基于BERT迁移学习的社交网络抑郁倾向检测方法，将BERT 与Auto-Encoder相结合构建用户的向量表示，进而利用多层神经网络判别模型进行抑郁倾向检测。本申请提出的方法最终得到了0.93的准确率、0.97 的召回率和0.95的F1得分，明显优于其他同类方法。

附图说明

为了更好地说明本申请实施例的技术方案，将对实施例描述中所需要使用的附图作简单介绍。

图1为本申请的基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法的一实施例流程图；

图2为本申请中的Auto-Encoder编码网络模型的一实施例的结构图；

图3为本申请中的多层神经网络判别模型的一实施例的结构图；

图4为本申请的基于BERT迁移学习的社交网络抑郁倾向检测方法的一实施例流程图；

图5为本申请的基于BERT迁移学习的社交网络抑郁倾向检测系统的一实施例流程图；

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保范围。

本申请的实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法，所述抑郁倾向检测模型包括Auto-Encoder编码网络模型和多层神经网络判别模型。所述方法包括：

1、从社交网络获取用户所有原创文本内容并清洗，输入至预训练的BERT 网络模型，以获取文本内容对应的向量序列；

其中，所述用户所有原创文本内容的获取方式可以有人工、爬虫或现有样本库等多种形式。

数据清洗规则包括：非文本数据、广告文本、活动标签、特殊字符、长度过短文本等。显然，只要是对于抑郁倾向检测无实际意义的文本数据均应该被过滤掉。

BERT网络模型是一种预训练的深度网络模型，是一种动态向量嵌入模型。可以根据不同的输入动态生成对应的向量序列，能够很好地解决一词多义的问题。因此BERT网络模型可以保证用户文本向量序列的准确性。

2、将所述的文本的向量序列作为输入和输出，训练Auto-Encoder编码网络模型，获取向量序列对应的低维度向量序列；

其中，所述Auto-Encoder编码网络模型包括编码器Encoder和解码器 Decoder。所述编码器Encoder和解码器Decoder均为多层神经网络结构，如附图2所示。所述Auto-Encoder编码网络的训练方法包括：

2.1、将文本的向量序列作为所述编码器Encoder的输入，将所述编码器 Encoder的输出作为所述解码器Decoder的输入，将所述编码器Encoder的输入作为所述解码器Decoder的输出目标；

其中，如附图2所述，所述编码器Encoder和解码器Decoder均采用两层神经网络结构。所述编码器输入层用于接收所述文本向量序列，编码器 Encoder输出层与解码器Decoder输入层相连接。解码器Decoder输出层将所述文本向量序列作为目标。编码器Encoder激活函数均选择ReLU函数(见公式1)，解码器Decoder隐藏层激活函数选择ReLU函数(见公式1)，输出层激活函数选择tanh函数(见公式2)。

ReLU(z)＝max(0，z) (1)

2.2、针对所述解码器Decoder构造均方误差损失函数；

其中，所述解码器Decoder输出层激活函数为tanh函数，输出层神经元输出值均在-1～1之间。因此，需要将文本向量序列进行标准化，本实施例采用最大最小标准化(见公式3)。

以标准化后的文本向量序列为目标，计算与解码器Decoder实际输出的均方误差损失(见公式4)。

2.3、利用所述均方误差损失函数对所述Auto-Encoder编码网络的参数进行更新。

所述Auto-Encoder编码网络模型的损失变化量小于0.001时训练完成。所述解码器Encoder的输出为对应的低维度向量序列。

3、根据某用户下所有低维度文本向量序列，按照对应维度求均值的方式，构建用户向量序列。

4、将所述用户向量序列作为多层神经网络判别模型的输入。所述多层神经网络判别模型包括1个输入层、3个隐藏层和1个输出层(见附图3)，其中，所述输入层神经元个数为128，3个隐藏层神经元个数分别为64、32和 10，输出层神经元个数为1。所述输入层和隐藏层激活函数选择为ReLU函数，输出层激活函数选择为sigmoid函数，见公式5。

所述多层神经网络判别模型的输入层用于接收用户向量序列，将用户是否抑郁作为输出层目标。

4.1、根据所述分类任务构造交叉熵损失函数(见公式6)；

4.2、利用所述交叉熵损失函数对所述多层神经网络判别模型的参数进行更新。

所述多层神经网络判别模型的损失变化量小于0.001时训练完成。所述多层神经网络判别模型的输出为判定结果。

5、本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测方法(见附图4)，该方法的使用方式包括终端设备、Web系统、APP应用等，本申请对此不做限制。所述方法包括：

5.1、获取用户所有原创文本内容；

所述获取用户所有原创文本内容的方式包括爬虫、样本库等，本申请对此不做限制。

5.2、将所述文本内容进行数据清洗获得可用文本内容；

5.3、将所述可用文本内容输入至预训练的BERT网络模型，获取文本内容对应的向量序列；

5.4、将所述向量序列输入至预先训练的Auto-Encoder编码网络模型，获取所述向量序列对应的低纬度向量序列；

5.5、根据所述用户下所有低纬度向量序列，按照对应维度求均值的方式，获取用户向量序列；

5.6、将所述用户向量序列输入至预先训练的多层神经网络判别模型中，获得基于所述用户的抑郁倾向判定结果。

其中，所述多层神经网络的输出为所述用户抑郁倾向的判定结果，所述判定结果为所述用户抑郁倾向的二分类结果。所述二分类结果包括是否有抑郁倾向的二值标签、是否有抑郁倾向的概率值。

本申请实施例提供的基于BERT迁移学习的社交网络抑郁倾向检测方法仅通过用户在社交网络上所发的原创内容，就能够比较准确的检测用户是否有抑郁倾向。另外，抑郁症患者在患病前期通常会在社交网络上频繁的表达自己消极的生活态度，多以文本形式。通过本申请实施例的检测方法可以及时发现有抑郁倾向的用户，在患病前期如果能够提供一定心理帮助，将会显著提高抑郁症的治愈率。

6、本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测系统，所述检测系统包括：

6.1、获取用户所有原创文本内容并清洗；

6.2、预训练的BERT网络模型，获取所述用户所有原创文本内容所对应的向量序列；

6.3、Auto-Encoder编码网络模型，将所述向量序列转化为低纬度向量序列；

6.4、多层神经网络判别模型，所述多层神经网络判别模型的输出为用户抑郁倾向的判定结果。所述判定结果为所述用户抑郁倾向的二分类结果。所述二分类结果包括是否有抑郁倾向的二值标签、是否有抑郁倾向的概率值。目前在计算机领域的抑郁症检测方法主要包括统计分析、机器学习方法。统计分析方法依赖分词以及情绪词典的构建，存在较大主观性，很难准确地评价抑郁倾向。机器学习方法又包括传统机器学习方法和深度学习方法。机器学习方法在数据获取阶段十分困难，数据标注需要耗费大量人力物力。

自动抑郁检测技术的最新研究方向主要为多模态学习和深度学习。由于多模态学习不仅需要文本，还需要图像、音频等其他类型的数据，因此在数据获取阶段更加困难。而深度学习方法基于神经网络，可解释性较弱。本申请提出的一种基于BERT迁移学习的社交网络抑郁倾向检测方法，可以利用用户在社交网络上所发表的原创内容，对其进行抑郁倾向检测。本申请方法的抑郁倾向二分类结果，达到了0.93的准确率、0.97的召回率和0.95的F1分数，明显优于现有的机器学习方法。

本申请数据集：来自新浪微博用户数据，其中包括352名有抑郁倾向用户和389名正常用户。有抑郁倾向用户微博总数为35962条，正常用户微博总数为81467。数据清洗后，用抑郁倾向用户微博总数为28654条，正常用户微博总数为67381，数据清洗前后如下表所示。

微博的用户数据包括ID、昵称、性别、微博内容等多种属性，但是用户所发的微博内容是最重要的用户信息来源，其他属性由于存在相对较大的不准确性，所以只能作为辅助信息，因此一个好的用户微博内容的向量表示直接决定了模型最终的性能。

BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年提出的一种双向Transformer的Encoder向量表示模型。分别通过MaskedLM和Next Sentence Prediction学习词语和句子级别的向量表示。相比之前的预训练模型ELMo，BERT使用的是Transformer，比 ELMo使用的LSTM能够学习距离更长的依赖，所以它能够表示到更加准确的 Context信息。另外，BERT的向量表示是从语言模型中动态生成的，可以有效解决一词多义的问题，这是Word2Vec、GloVe等静态向量所不具有的。因此使用BERT句向量初始化用户微博内容保证了其准确性。

为了对比上述不同的文本嵌入方法，使用4种文本嵌入方法实验： Word2Vec、GloVe、ELMo和BERT：

Word2Vec利用gensim库中Word2Vec模块训练，词嵌入维度设置为200； GloVe利用Github开源代码训练，词嵌入维度设置为200。

ELMo使用双层BILSTM结构，分别提取文本的句法结构信息和语义信息，两层均有1024个单元，本申请使用两层的均值作为句子的向量表示。

BERT使用12层双向Transformer结构，本申请提取倒数第二层作为句子的向量表示，维度为768。

本申请的初始的微博内容向量维度偏高，对于抑郁倾向检测的二分类任务，特征过于冗余，所以将进行特征降维是很有必要的。

目前主流的降维方法有：PCA、t-SNE、Auto-Encoder等。其中，PCA是一种无监督的降维方法，所以不能在数据降维的同时，有效地避免过拟合。 t-SNE是一种非线性的降维算法，计算复杂度较高，所以不太适合大规模数据的降维。另外，t-SNE具有一定的随机性，结果的一致性较差。auto-encoder 是一种基于神经网络的降维方法，其目标是通过最小化重构误差，试图将尽可能多的信息编码至节点更少的隐藏层节点中，相比于t-SNE更能保持整体的L2误差，具有更佳的全局低维嵌入。

为了对比上述不同的降维方法，使用3种降维方法实验：PCA、t-SNE和 Auto-Encoder：

PCA和t-SNE利用gensim库进行训练，维度设置为128；Auto-Encoder 利用以Tensorflow为后端的Keras深度学习框架实现，模型结构如附图2 所示。

本申请采用3隐层的前馈神经网络作为判别模型，如附图3所示。神经网络是以神经元模型为基本单元，并以特定的结构组成的网状模型。神经网络具有非常强大的学习能力，只需一个包含足够多神经元的隐层，多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数。

模型输入层有128个神经元，对应128维的用户向量。模型有3个隐藏层，分别有64、32、10个神经元。模型输出层为1个神经元，用于输出条件概率。模型的隐藏层的激活函数均选择ReLU函数，输出层选择可以表示概率分布的sigmoid函数。

模型的损失函数选择log损失，形式如下：

L(Y，P(Y|X))＝-log P(Y|X) (7)

优化器选择Adam，它是一种基于自适应学习率的一阶梯度的优化算法，相比于随机梯度下降算法，收敛速度更快。

表2：分别对比4种文本嵌入方法和3种降维方法的准确率(Accuracy)、召回率(Recall)和F1得分。“-”表示不使用降维方法。

在本申请中，对比了四种文本嵌入的不同降维方法。本申请提出的BERT 结合Auto-Encoder方法达到了0.93的准确率、0.97的召回率和0.95的F1 得分，明显优于其他的其他组合方法。如表1中所示，Word2Vec和GloVe 相比于ELMo和BERT方法，在当前任务上表现不佳。主要有两方面原因，一是由于分词有一定的误差，二是数据量有限，因此不能获取非常准确的文本嵌入信息。

对比BERT和ELMo两种预训练模型，BERT结合不同降维方法均优于ELMo。主要原因是BERT采用双向的Transformer结构，而ELMo采用双向LSTM的结构。Transformer在长距离依赖学习上表现更佳，因此能够表示更优的依赖上下文的文本嵌入信息。

需要说明的是，对于前述的各方法实施例，本领域的技术人员应该知悉，本申请的各方法实施例并不受所描述的步骤顺序的限制，因为本申请的某些方法或步骤可以采用其他顺序或同时进行。另外，本领域的技术人员应该知悉，由于训练数据的不同，结果会有不同程度的变化，因此结果通常不能直接再现。因此本申请是根据大量实验报告了表现最佳的模型。

Claims

1.一种基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法，其特征在于：

所述的抑郁倾向检测系统包括预训练的BERT网络模型、Auto-Encoder编码网络模型和多层神经网络判别模型；

所述抑郁倾向检测系统的训练方法包括：

(1)从社交网络中获取用户所有原创文本内容并清洗，输入至预训练的BERT网络模型，获取文本内容对应的向量序列；

(3)将所述低纬度文本向量序列构造用户向量序列；

2.根据权利要求1所述的社交网络抑郁倾向检测模型的训练方法，其中，所述Auto-Encoder编码网络模型包括编码器Encoder和解码器Decoder。

3.根据权利要求2所述的社交网络抑郁倾向检测模型的训练方法，其中步骤(2)所述训练Auto-Encoder编码网络模型的方法包括：

将步骤(1)所述文本内容对应的向量序列作为所述编码器Encoder的输入；

将所述编码器Encoder的输出作为所述解码器Decoder的输入；

将所述解码器Decoder的输出目标作为所述编码器Encoder的输入；

针对所述解码器Decoder构造均方误差损失函数；

所述均方误差函数为：

4.根据权利要求1所述的社交网络抑郁倾向检测模型的训练方法，其中步骤(4)所述多层神经网络判别模型包括1个输入层、3个隐藏层和1个输出层。

5.根据权利要求4所述的社交网络抑郁倾向检测模型的训练方法，其中步骤(4)所述输入层神经元个数为128，3个隐藏层神经元个数分别为64、32和10，输出层神经元个数为1。

6.根据权利要求1所述的社交网络抑郁倾向检测模型的训练方法，在步骤(4)中，所述训练多层神经网络判别模型包括：

a)将所述用户向量作为所述多层神经网络模型的输入；

b)将所述人工标注得到的标签作为所述多层神经网络模型的输出；

c)根据所述分类任务构造交叉熵损失函数；

d)利用所述交叉熵损失函数对所述多层神经网络判别模型的参数进行更新；

其中步骤c)所述交叉熵损失函数为：

7.根据权利要求1所述的方法，其中，步骤(3)中，将低维度文本向量序列按照对应维度求均值的方式构建用户向量序列。

8.一种基于BERT迁移学习的社交网络抑郁倾向检测方法，包括：

(1)获取用户所有原创文本内容；

(2)将所述文本内容进行数据清洗获得可用文本内容；

(3)将所述可用文本内容输入至预训练的BERT网络模型，获取文本内容对应的向量序列；

(4)将所述向量序列输入至预先训练的Auto-Encoder编码网络模型，获取所述向量序列对应的低纬度向量序列；

所述预先训练的Auto-Encoder编码网络模型为按照权利要求1-3任一项所述的方法训练的Auto-Encoder编码网络模型；

(5)根据所述用户下所有低纬度向量序列，按照对应维度求均值的方式，获取用户向量序列；

(6)将所述用户向量序列输入至预先训练的多层神经网络判别模型中，获得基于所述用户的抑郁倾向判定结果。

所述预先训练的多层神经网络判别模型为按照权利要求1，4-6任一项所述的方法训练的多层神经网络判别模型。

9.根据权利要求8所述的基于BERT迁移学习的社交网络抑郁倾向检测方法，其中，所述多层神经网络的输出为所述用户抑郁倾向的判定结果，所述判定结果为所述用户抑郁倾向的二分类结果。

10.一种基于BERT迁移学习的社交网络抑郁倾向检测系统，包括：

A)预训练的BERT网络模型，用于获取所述用户文本内容所对应的向量序列；

B)按照权利要求1中所述方法训练得到Auto-Encoder编码网络模型，用于将所述向量序列转化为低纬度向量序列；

C)按照权利要求1中所述方法训练得到多层神经网络判别模型；