CN111540470A - 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 - Google Patents
一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 Download PDFInfo
- Publication number
- CN111540470A CN111540470A CN202010311770.3A CN202010311770A CN111540470A CN 111540470 A CN111540470 A CN 111540470A CN 202010311770 A CN202010311770 A CN 202010311770A CN 111540470 A CN111540470 A CN 111540470A
- Authority
- CN
- China
- Prior art keywords
- model
- vector sequence
- encoder
- network
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000013526 transfer learning Methods 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 37
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013508 migration Methods 0.000 claims description 4
- 230000005012 migration Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 description 13
- 230000004913 activation Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003001 depressive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000020796 long term synaptic depression Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种基于BERT迁移学习的社交网络抑郁倾向检测系统及其的训练方法。本申请所述社交网络抑郁倾向检测系统包括预训练的BERT网络模型、Auto‑Encoder编码网络模型和多层神经网络判别模型。通过训练上述模型,基于训练的模型进行社交网络抑郁倾向检测。本申请进一步提供一种基于BERT迁移学习的社交网络抑郁倾向检测系统。本申请提出的方法其判断准确率、召回率明显优于其他同类方法。
Description
技术领域
本申请涉及计算机辅助医疗领域。尤其涉及一种基于社交网络文本内容的抑郁倾向检测模型训练方法,基于文本内容的抑郁倾向判定方法及系统。
背景技术
抑郁症是一种以长期心情低落为主要临床症状的精神疾病。但是目前国内对抑郁症的重视程度不够,并且患者在患病前期就医的意识薄弱,导致抑郁症在国内的诊断率低。目前在计算机领域对抑郁症的主流检测方法主要包括统计分析、机器学习和深度学习方法。统计分析方法依赖分词以及情绪词典的构建存在较大主观性,很难准确的检测抑郁倾向。深度学习方法需要大量的高质量数据,并且数据标注需要耗费大量人力物力,因此比较难以实现。所以,目前的抑郁检测方法主要采用训练机器学习模型,以及集成学习、多模态学习等方式实现。
发明内容
本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法。
第一方面,本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法,所述的抑郁倾向检测系统包括预训练的BERT网络模型、Auto-Encoder编码网络模型和多层神经网络判别模型。所述训练方法包括:
(1)从社交网络获取用户所有原创文本内容并清洗,输入至预训练的 BERT网络模型,以获取文本内容对应的向量序列;
(2)将所述的文本的向量序列作为输入和输出,训练Auto-Encoder编码网络模型,获取向量序列对应的低维度文本向量序列;
(3)将所述低纬度向量序列构造用户向量序列;
步骤(3)中,低维度文本向量序列按照对应维度求均值的方式,构建用户向量序列;
(4)将所述用户向量序列作为输入,人工标注得到的标签作为输出,训练多层神经网络判别模型。
上述人工标注的标签分为两类,一类表示正标签,一类表示负标签。正标签表示有抑郁倾向用户,负标签表示无抑郁倾向用户。整个标注过程至少需要3位领域专家各自独立标注,然后从中选出至少2位专家认为是正样本或负样本的数据作为最终的训练数据。
上述步骤(2)中所述Auto-Encoder编码网络模型包括编码器Encoder和解码器Decoder;所述训练Auto-Encoder编码网络模型的方法包括:
将步骤(1)所述文本内容对应的向量序列作为所述编码器Encoder的输入;将所述编码器Encoder的输出作为所述解码器Decoder的输入;将所述解码器Decoder的输出目标作为所述编码器Encoder的输入;针对所述解码器Decoder构造均方误差损失函数,并利用所述均方误差损失函数对所述 Auto-Encoder编码网络的参数进行更新。
针对所述解码器Decoder构造均方误差损失函数;
利用所述均方误差损失函数对所述Auto-Encoder编码网络的参数进行更新;当所述Auto-Encoder编码网络模型的损失变化量小于0.001时完成训练。
所述步骤(4)中多层神经网络判别模型包括1个输入层、3个隐藏层和 1个输出层。其中,所述输入层神经元个数为128,3个隐藏层神经元个数分别为64、32和10,输出层神经元个数为1;
所述预先训练的多层神经网络判别模型包括:
a)将所述用户向量作为所述多层神经网络模型的输入;
b)将所述人工标注的标签作为所述多层神经网络模型的输出;
c)根据所述分类任务构造交叉熵损失函数;
d)利用所述交叉熵损失函数对所述多层神经网络判别模型的参数进行更新。
其中步骤c)所述交叉熵损失函数为:
利用所述交叉熵损失函数对所述多层神经网络判别模型的参数进行更新;所述多层神经网络判别模型的损失变化量小于0.001时训练完成。
第二方面,本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测方法,包括:
(1)从社交网络上获取用户所有原创文本内容并清洗;
(2)将所述文本内容输入至预训练的BERT网络模型,获取所述文本内容对应的向量序列;
(3)将所述向量序列输入至预先训练的Auto-Encoder编码网络模型,获取所述向量序列对应的低纬度向量序列;
(4)根据所述用户下所有低纬度向量序列,按照对应维度求均值的方式,获取用户向量序列;
(5)将所述用户向量序列输入至预先训练的多层神经网络判别模型中,获得基于所述用户的抑郁倾向判定结果。
第三方面,本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测系统,包括:
(A)预训练的BERT网络模型,获取所述用户文本内容所对应的向量序列;
(B)Auto-Encoder编码网络模型。该模型将所述向量序列转化为低纬度向量序列,采用上述基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法训练得到;
(C)多层神经网络判别模型。该模型采用上述基于BERT迁移学习的社交网络抑郁倾向检测方法中关于多层神经网络判别模型训练方法训练得到;
所述多层神经网络判别模型的输出为用户抑郁倾向的判定结果。
本申请提出的基于BERT迁移学习的社交网络抑郁倾向检测方法,将BERT 与Auto-Encoder相结合构建用户的向量表示,进而利用多层神经网络判别模型进行抑郁倾向检测。本申请提出的方法最终得到了0.93的准确率、0.97 的召回率和0.95的F1得分,明显优于其他同类方法。
附图说明
为了更好地说明本申请实施例的技术方案,将对实施例描述中所需要使用的附图作简单介绍。
图1为本申请的基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法的一实施例流程图;
图2为本申请中的Auto-Encoder编码网络模型的一实施例的结构图;
图3为本申请中的多层神经网络判别模型的一实施例的结构图;
图4为本申请的基于BERT迁移学习的社交网络抑郁倾向检测方法的一实施例流程图;
图5为本申请的基于BERT迁移学习的社交网络抑郁倾向检测系统的一实施例流程图;
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保范围。
本申请的实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法,所述抑郁倾向检测模型包括Auto-Encoder编码网络模型和多层神经网络判别模型。所述方法包括:
1、从社交网络获取用户所有原创文本内容并清洗,输入至预训练的BERT 网络模型,以获取文本内容对应的向量序列;
其中,所述用户所有原创文本内容的获取方式可以有人工、爬虫或现有样本库等多种形式。
数据清洗规则包括:非文本数据、广告文本、活动标签、特殊字符、长度过短文本等。显然,只要是对于抑郁倾向检测无实际意义的文本数据均应该被过滤掉。
BERT网络模型是一种预训练的深度网络模型,是一种动态向量嵌入模型。可以根据不同的输入动态生成对应的向量序列,能够很好地解决一词多义的问题。因此BERT网络模型可以保证用户文本向量序列的准确性。
2、将所述的文本的向量序列作为输入和输出,训练Auto-Encoder编码网络模型,获取向量序列对应的低维度向量序列;
其中,所述Auto-Encoder编码网络模型包括编码器Encoder和解码器 Decoder。所述编码器Encoder和解码器Decoder均为多层神经网络结构,如附图2所示。所述Auto-Encoder编码网络的训练方法包括:
2.1、将文本的向量序列作为所述编码器Encoder的输入,将所述编码器 Encoder的输出作为所述解码器Decoder的输入,将所述编码器Encoder的输入作为所述解码器Decoder的输出目标;
其中,如附图2所述,所述编码器Encoder和解码器Decoder均采用两层神经网络结构。所述编码器输入层用于接收所述文本向量序列,编码器 Encoder输出层与解码器Decoder输入层相连接。解码器Decoder输出层将所述文本向量序列作为目标。编码器Encoder激活函数均选择ReLU函数(见公式1),解码器Decoder隐藏层激活函数选择ReLU函数(见公式1),输出层激活函数选择tanh函数(见公式2)。
ReLU(z)=max(0,z) (1)
2.2、针对所述解码器Decoder构造均方误差损失函数;
其中,所述解码器Decoder输出层激活函数为tanh函数,输出层神经元输出值均在-1~1之间。因此,需要将文本向量序列进行标准化,本实施例采用最大最小标准化(见公式3)。
以标准化后的文本向量序列为目标,计算与解码器Decoder实际输出的均方误差损失(见公式4)。
2.3、利用所述均方误差损失函数对所述Auto-Encoder编码网络的参数进行更新。
所述Auto-Encoder编码网络模型的损失变化量小于0.001时训练完成。所述解码器Encoder的输出为对应的低维度向量序列。
3、根据某用户下所有低维度文本向量序列,按照对应维度求均值的方式,构建用户向量序列。
4、将所述用户向量序列作为多层神经网络判别模型的输入。所述多层神经网络判别模型包括1个输入层、3个隐藏层和1个输出层(见附图3),其中,所述输入层神经元个数为128,3个隐藏层神经元个数分别为64、32和 10,输出层神经元个数为1。所述输入层和隐藏层激活函数选择为ReLU函数,输出层激活函数选择为sigmoid函数,见公式5。
所述多层神经网络判别模型的输入层用于接收用户向量序列,将用户是否抑郁作为输出层目标。
4.1、根据所述分类任务构造交叉熵损失函数(见公式6);
4.2、利用所述交叉熵损失函数对所述多层神经网络判别模型的参数进行更新。
所述多层神经网络判别模型的损失变化量小于0.001时训练完成。所述多层神经网络判别模型的输出为判定结果。
5、本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测方法(见附图4),该方法的使用方式包括终端设备、Web系统、APP应用等,本申请对此不做限制。所述方法包括:
5.1、获取用户所有原创文本内容;
所述获取用户所有原创文本内容的方式包括爬虫、样本库等,本申请对此不做限制。
5.2、将所述文本内容进行数据清洗获得可用文本内容;
数据清洗规则包括:非文本数据、广告文本、活动标签、特殊字符、长度过短文本等。显然,只要是对于抑郁倾向检测无实际意义的文本数据均应该被过滤掉。
5.3、将所述可用文本内容输入至预训练的BERT网络模型,获取文本内容对应的向量序列;
5.4、将所述向量序列输入至预先训练的Auto-Encoder编码网络模型,获取所述向量序列对应的低纬度向量序列;
5.5、根据所述用户下所有低纬度向量序列,按照对应维度求均值的方式,获取用户向量序列;
5.6、将所述用户向量序列输入至预先训练的多层神经网络判别模型中,获得基于所述用户的抑郁倾向判定结果。
其中,所述多层神经网络的输出为所述用户抑郁倾向的判定结果,所述判定结果为所述用户抑郁倾向的二分类结果。所述二分类结果包括是否有抑郁倾向的二值标签、是否有抑郁倾向的概率值。
本申请实施例提供的基于BERT迁移学习的社交网络抑郁倾向检测方法仅通过用户在社交网络上所发的原创内容,就能够比较准确的检测用户是否有抑郁倾向。另外,抑郁症患者在患病前期通常会在社交网络上频繁的表达自己消极的生活态度,多以文本形式。通过本申请实施例的检测方法可以及时发现有抑郁倾向的用户,在患病前期如果能够提供一定心理帮助,将会显著提高抑郁症的治愈率。
6、本申请实施例提供一种基于BERT迁移学习的社交网络抑郁倾向检测系统,所述检测系统包括:
6.1、获取用户所有原创文本内容并清洗;
6.2、预训练的BERT网络模型,获取所述用户所有原创文本内容所对应的向量序列;
6.3、Auto-Encoder编码网络模型,将所述向量序列转化为低纬度向量序列;
6.4、多层神经网络判别模型,所述多层神经网络判别模型的输出为用户抑郁倾向的判定结果。所述判定结果为所述用户抑郁倾向的二分类结果。所述二分类结果包括是否有抑郁倾向的二值标签、是否有抑郁倾向的概率值。目前在计算机领域的抑郁症检测方法主要包括统计分析、机器学习方法。统计分析方法依赖分词以及情绪词典的构建,存在较大主观性,很难准确地评价抑郁倾向。机器学习方法又包括传统机器学习方法和深度学习方法。机器学习方法在数据获取阶段十分困难,数据标注需要耗费大量人力物力。
自动抑郁检测技术的最新研究方向主要为多模态学习和深度学习。由于多模态学习不仅需要文本,还需要图像、音频等其他类型的数据,因此在数据获取阶段更加困难。而深度学习方法基于神经网络,可解释性较弱。本申请提出的一种基于BERT迁移学习的社交网络抑郁倾向检测方法,可以利用用户在社交网络上所发表的原创内容,对其进行抑郁倾向检测。本申请方法的抑郁倾向二分类结果,达到了0.93的准确率、0.97的召回率和0.95的F1分数,明显优于现有的机器学习方法。
本申请数据集:来自新浪微博用户数据,其中包括352名有抑郁倾向用户和389名正常用户。有抑郁倾向用户微博总数为35962条,正常用户微博总数为81467。数据清洗后,用抑郁倾向用户微博总数为28654条,正常用户微博总数为67381,数据清洗前后如下表所示。
微博的用户数据包括ID、昵称、性别、微博内容等多种属性,但是用户所发的微博内容是最重要的用户信息来源,其他属性由于存在相对较大的不准确性,所以只能作为辅助信息,因此一个好的用户微博内容的向量表示直接决定了模型最终的性能。
BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年提出的一种双向Transformer的Encoder向量表示模型。分别通过MaskedLM和Next Sentence Prediction学习词语和句子级别的向量表示。相比之前的预训练模型ELMo,BERT使用的是Transformer,比 ELMo使用的LSTM能够学习距离更长的依赖,所以它能够表示到更加准确的 Context信息。另外,BERT的向量表示是从语言模型中动态生成的,可以有效解决一词多义的问题,这是Word2Vec、GloVe等静态向量所不具有的。因此使用BERT句向量初始化用户微博内容保证了其准确性。
为了对比上述不同的文本嵌入方法,使用4种文本嵌入方法实验: Word2Vec、GloVe、ELMo和BERT:
Word2Vec利用gensim库中Word2Vec模块训练,词嵌入维度设置为200; GloVe利用Github开源代码训练,词嵌入维度设置为200。
ELMo使用双层BILSTM结构,分别提取文本的句法结构信息和语义信息,两层均有1024个单元,本申请使用两层的均值作为句子的向量表示。
BERT使用12层双向Transformer结构,本申请提取倒数第二层作为句子的向量表示,维度为768。
本申请的初始的微博内容向量维度偏高,对于抑郁倾向检测的二分类任务,特征过于冗余,所以将进行特征降维是很有必要的。
目前主流的降维方法有:PCA、t-SNE、Auto-Encoder等。其中,PCA是一种无监督的降维方法,所以不能在数据降维的同时,有效地避免过拟合。 t-SNE是一种非线性的降维算法,计算复杂度较高,所以不太适合大规模数据的降维。另外,t-SNE具有一定的随机性,结果的一致性较差。auto-encoder 是一种基于神经网络的降维方法,其目标是通过最小化重构误差,试图将尽可能多的信息编码至节点更少的隐藏层节点中,相比于t-SNE更能保持整体的L2误差,具有更佳的全局低维嵌入。
为了对比上述不同的降维方法,使用3种降维方法实验:PCA、t-SNE和 Auto-Encoder:
PCA和t-SNE利用gensim库进行训练,维度设置为128;Auto-Encoder 利用以Tensorflow为后端的Keras深度学习框架实现,模型结构如附图2 所示。
本申请采用3隐层的前馈神经网络作为判别模型,如附图3所示。神经网络是以神经元模型为基本单元,并以特定的结构组成的网状模型。神经网络具有非常强大的学习能力,只需一个包含足够多神经元的隐层,多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数。
模型输入层有128个神经元,对应128维的用户向量。模型有3个隐藏层,分别有64、32、10个神经元。模型输出层为1个神经元,用于输出条件概率。模型的隐藏层的激活函数均选择ReLU函数,输出层选择可以表示概率分布的sigmoid函数。
模型的损失函数选择log损失,形式如下:
L(Y,P(Y|X))=-log P(Y|X) (7)
优化器选择Adam,它是一种基于自适应学习率的一阶梯度的优化算法,相比于随机梯度下降算法,收敛速度更快。
表2:分别对比4种文本嵌入方法和3种降维方法的准确率(Accuracy)、召回率(Recall)和F1得分。“-”表示不使用降维方法。
在本申请中,对比了四种文本嵌入的不同降维方法。本申请提出的BERT 结合Auto-Encoder方法达到了0.93的准确率、0.97的召回率和0.95的F1 得分,明显优于其他的其他组合方法。如表1中所示,Word2Vec和GloVe 相比于ELMo和BERT方法,在当前任务上表现不佳。主要有两方面原因,一是由于分词有一定的误差,二是数据量有限,因此不能获取非常准确的文本嵌入信息。
对比BERT和ELMo两种预训练模型,BERT结合不同降维方法均优于ELMo。主要原因是BERT采用双向的Transformer结构,而ELMo采用双向LSTM的结构。Transformer在长距离依赖学习上表现更佳,因此能够表示更优的依赖上下文的文本嵌入信息。
本申请提出的基于BERT迁移学习的社交网络抑郁倾向检测方法,将BERT 与Auto-Encoder相结合构建用户的向量表示,进而利用多层神经网络判别模型进行抑郁倾向检测。本申请提出的方法最终得到了0.93的准确率、0.97 的召回率和0.95的F1得分,明显优于其他同类方法。
需要说明的是,对于前述的各方法实施例,本领域的技术人员应该知悉,本申请的各方法实施例并不受所描述的步骤顺序的限制,因为本申请的某些方法或步骤可以采用其他顺序或同时进行。另外,本领域的技术人员应该知悉,由于训练数据的不同,结果会有不同程度的变化,因此结果通常不能直接再现。因此本申请是根据大量实验报告了表现最佳的模型。
Claims (10)
1.一种基于BERT迁移学习的社交网络抑郁倾向检测模型的训练方法,其特征在于:
所述的抑郁倾向检测系统包括预训练的BERT网络模型、Auto-Encoder编码网络模型和多层神经网络判别模型;
所述抑郁倾向检测系统的训练方法包括:
(1)从社交网络中获取用户所有原创文本内容并清洗,输入至预训练的BERT网络模型,获取文本内容对应的向量序列;
(2)将所述的文本的向量序列作为输入和输出,训练Auto-Encoder编码网络模型,获取向量序列对应的低维度文本向量序列;
(3)将所述低纬度文本向量序列构造用户向量序列;
(4)将所述用户向量序列作为输入,人工标注得到的标签作为输出,训练多层神经网络判别模型。
2.根据权利要求1所述的社交网络抑郁倾向检测模型的训练方法,其中,所述Auto-Encoder编码网络模型包括编码器Encoder和解码器Decoder。
4.根据权利要求1所述的社交网络抑郁倾向检测模型的训练方法,其中步骤(4)所述多层神经网络判别模型包括1个输入层、3个隐藏层和1个输出层。
5.根据权利要求4所述的社交网络抑郁倾向检测模型的训练方法,其中步骤(4)所述输入层神经元个数为128,3个隐藏层神经元个数分别为64、32和10,输出层神经元个数为1。
7.根据权利要求1所述的方法,其中,步骤(3)中,将低维度文本向量序列按照对应维度求均值的方式构建用户向量序列。
8.一种基于BERT迁移学习的社交网络抑郁倾向检测方法,包括:
(1)获取用户所有原创文本内容;
(2)将所述文本内容进行数据清洗获得可用文本内容;
(3)将所述可用文本内容输入至预训练的BERT网络模型,获取文本内容对应的向量序列;
(4)将所述向量序列输入至预先训练的Auto-Encoder编码网络模型,获取所述向量序列对应的低纬度向量序列;
所述预先训练的Auto-Encoder编码网络模型为按照权利要求1-3任一项所述的方法训练的Auto-Encoder编码网络模型;
(5)根据所述用户下所有低纬度向量序列,按照对应维度求均值的方式,获取用户向量序列;
(6)将所述用户向量序列输入至预先训练的多层神经网络判别模型中,获得基于所述用户的抑郁倾向判定结果。
所述预先训练的多层神经网络判别模型为按照权利要求1,4-6任一项所述的方法训练的多层神经网络判别模型。
9.根据权利要求8所述的基于BERT迁移学习的社交网络抑郁倾向检测方法,其中,所述多层神经网络的输出为所述用户抑郁倾向的判定结果,所述判定结果为所述用户抑郁倾向的二分类结果。
10.一种基于BERT迁移学习的社交网络抑郁倾向检测系统,包括:
A)预训练的BERT网络模型,用于获取所述用户文本内容所对应的向量序列;
B)按照权利要求1中所述方法训练得到Auto-Encoder编码网络模型,用于将所述向量序列转化为低纬度向量序列;
C)按照权利要求1中所述方法训练得到多层神经网络判别模型;
所述多层神经网络判别模型的输出为用户抑郁倾向的判定结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311770.3A CN111540470B (zh) | 2020-04-20 | 2020-04-20 | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311770.3A CN111540470B (zh) | 2020-04-20 | 2020-04-20 | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111540470A true CN111540470A (zh) | 2020-08-14 |
CN111540470B CN111540470B (zh) | 2023-08-25 |
Family
ID=71980135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010311770.3A Active CN111540470B (zh) | 2020-04-20 | 2020-04-20 | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111540470B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950268A (zh) * | 2020-08-17 | 2020-11-17 | 珠海格力电器股份有限公司 | 垃圾信息的检测方法、设备和存储介质 |
CN113420296A (zh) * | 2021-07-08 | 2021-09-21 | 国网甘肃省电力公司电力科学研究院 | 一种基于Bert模型与BiLSTM的C源代码漏洞检测方法 |
CN116910376A (zh) * | 2023-09-14 | 2023-10-20 | 北京师范大学 | 基于睡眠质量的大五人格检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019081937A1 (en) * | 2017-10-26 | 2019-05-02 | Gb Gas Holdings Limited | DETERMINING OPERATING STATUS FROM COMPLEX SENSOR DATA |
CN110427616A (zh) * | 2019-07-19 | 2019-11-08 | 山东科技大学 | 一种基于深度学习的文本情感分析方法 |
CN110460882A (zh) * | 2018-05-07 | 2019-11-15 | 中国科学院声学研究所 | 一种基于数据特征降维编码的流媒体内容分发方法 |
CN110647619A (zh) * | 2019-08-01 | 2020-01-03 | 中山大学 | 一种基于问题生成和卷积神经网络的常识问答方法 |
CN110837733A (zh) * | 2019-10-31 | 2020-02-25 | 创新工场(广州)人工智能研究有限公司 | 自重建方式的语言模型训练方法、系统及计算机可读介质 |
-
2020
- 2020-04-20 CN CN202010311770.3A patent/CN111540470B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019081937A1 (en) * | 2017-10-26 | 2019-05-02 | Gb Gas Holdings Limited | DETERMINING OPERATING STATUS FROM COMPLEX SENSOR DATA |
CN110460882A (zh) * | 2018-05-07 | 2019-11-15 | 中国科学院声学研究所 | 一种基于数据特征降维编码的流媒体内容分发方法 |
CN110427616A (zh) * | 2019-07-19 | 2019-11-08 | 山东科技大学 | 一种基于深度学习的文本情感分析方法 |
CN110647619A (zh) * | 2019-08-01 | 2020-01-03 | 中山大学 | 一种基于问题生成和卷积神经网络的常识问答方法 |
CN110837733A (zh) * | 2019-10-31 | 2020-02-25 | 创新工场(广州)人工智能研究有限公司 | 自重建方式的语言模型训练方法、系统及计算机可读介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950268A (zh) * | 2020-08-17 | 2020-11-17 | 珠海格力电器股份有限公司 | 垃圾信息的检测方法、设备和存储介质 |
CN113420296A (zh) * | 2021-07-08 | 2021-09-21 | 国网甘肃省电力公司电力科学研究院 | 一种基于Bert模型与BiLSTM的C源代码漏洞检测方法 |
CN116910376A (zh) * | 2023-09-14 | 2023-10-20 | 北京师范大学 | 基于睡眠质量的大五人格检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111540470B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107516110B (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN109471895B (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN109670177A (zh) | 一种基于lstm实现医学语义归一化的控制方法及控制装置 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN108062388A (zh) | 人机对话的回复生成方法和装置 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN111540470B (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
CN112735597A (zh) | 半监督自学习驱动的医学文本病症辨识方法 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN112151183A (zh) | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 | |
CN113707339B (zh) | 一种多源异质数据库间概念对齐与内容互译方法及系统 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN112071429A (zh) | 一种基于知识图谱的医疗自动问答系统构建方法 | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
CN115879546A (zh) | 一种复合神经网络心理医学知识图谱构建方法及系统 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
Manik et al. | Out-of-Scope Intent Detection on A Knowledge-Based Chatbot. | |
Wang et al. | Application of an emotional classification model in e-commerce text based on an improved transformer model | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN114022687A (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN116720519B (zh) | 一种苗医药命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |