CN117454217A - 一种基于深度集成学习的抑郁情绪识别方法、装置及系统 - Google Patents

一种基于深度集成学习的抑郁情绪识别方法、装置及系统 Download PDF

Info

Publication number
CN117454217A
CN117454217A CN202311322709.9A CN202311322709A CN117454217A CN 117454217 A CN117454217 A CN 117454217A CN 202311322709 A CN202311322709 A CN 202311322709A CN 117454217 A CN117454217 A CN 117454217A
Authority
CN
China
Prior art keywords
emotion recognition
emotion
user
depression
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311322709.9A
Other languages
English (en)
Inventor
刘艳
姚金玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Agricultural University
Original Assignee
Huazhong Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Agricultural University filed Critical Huazhong Agricultural University
Priority to CN202311322709.9A priority Critical patent/CN117454217A/zh
Publication of CN117454217A publication Critical patent/CN117454217A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于深度集成学习的抑郁情绪识别方法、装置及系统,属于深度学习技术领域,包括:从在线心理健康社区平台采集用户提问数据样本,对用户提问数据样本进行预处理得到预处理用户提问数据样本;利用特征指标体系提取预处理用户提问数据样本中的特征信息基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用特征信息对抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;将待识别提问数据输入抑郁情绪识别模型,输出抑郁情绪识别结果。本发明针对在线健康社区平台问询场景,采用Stacking深度集成学习构建抑郁情绪识别原始模型,可以有效识别在线健康社区包含抑郁情绪的用户提问,显著提升分类模型性能。

Description

一种基于深度集成学习的抑郁情绪识别方法、装置及系统
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于深度集成学习的抑郁情绪识别方法、装置及系统。
背景技术
抑郁症已成为受到全球高度关注和重视的精神健康疾病。然而,由于心理医疗资源紧等原因,抑郁症患者普遍面临“患病不知病,知病不看病”的困境。
传统的抑郁症临床识别主要基于ICD-10或DSM-V的抑郁症标准,并结合汉密尔顿抑郁症量表等经典量表、咨询访谈录、患者面部表情、患者脑电信号以及医生的个人经验,存在效率低下、主观性和隐藏性高等问题。
现有技术还有针对微博、推特等传统社交媒体用户生成内容进行抑郁情绪识别,处理流程通常为:
1)收集社交媒体用户帖子;
2)数据预处理+数据标注;
3)特征提取(TFIDF、用户特征、文本特征等等);
4)构建分类器(机器学习为主,例如SVM,或单一的深度学习分类器,如TextCNN);
5)模型训练和评价。
这些方法普遍存在抑郁情绪识别相关技术多以社交媒体为应用场景,少有研究/专利以在线健康社区作为应用场景,且目前基于社交媒体的抑郁情绪识别方法主要依赖传统机器学习模型或单一的深度学习模型,对复杂情绪的语义表征和特征提取效果较差,仍存在较大的提升空间。
而在线健康社区的出现和发展为抑郁用户寻求专业心理健康服务和同伴社会支持提供了新的途径,也为了解该群体及抑郁识别带来了新的研究视角。由于在线健康社区与传统社交媒体在平台性质、用户群体和用户生成内容特征等方面存在本质区别,已有研究结论难以直接适用于在线健康社区这一特殊场景。
因此,针对在线健康社区场景的抑郁情绪识别,需要提出一种新的抑郁情绪识别方法。
发明内容
本发明提供一种基于深度集成学习的抑郁情绪识别方法、装置及系统,用以解决现有技术中没有针对在线健康社区场景中抑郁症情绪识别的缺陷。
第一方面,本发明提供一种基于深度集成学习的抑郁情绪识别方法,包括:
从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本;
利用特征指标体系提取所述预处理用户提问数据样本中的特征信息;
基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;
将待识别提问数据输入所述抑郁情绪识别模型,输出抑郁情绪识别结果。
根据本发明提供的一种基于深度集成学习的抑郁情绪识别方法,从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本,包括:
基于Python Selenium框架中的网络爬虫库requests和beautifulsoup4从所述在线心理健康社区平台中采集所述用户提问数据样本;
在所述用户提问数据样本中分别筛选包括抑郁症症状词语、抑郁症行为词语和抑郁症关联药物词语的基准词库,以及筛选未包含所述基准词库的随机样本,由所述基准词库和所述随机样本构建筛选语料库;
采用预设正则表达式对所述筛选语料库进行中文匹配,删除非中文字符,采用预设分词工具对所述筛选语料库进行分词,去除文本中停用词,并消除无意义词汇和无意义符号,得到处理后筛选语料库;
由预设数量的专业标注者依据交叉验证原则,将所述处理后筛选语料库划分为正类样本和负类样本;
按照预设比例将所述正类样本和所述负类样本划分为训练集和测试集,得到所述预处理用户提问数据样本。
根据本发明提供的一种基于深度集成学习的抑郁情绪识别方法,利用特征指标体系提取所述预处理用户提问数据样本中的特征信息,包括:
确定所述特征指标体系包括用户基本信息特征、行为习惯特征、文本内容特征和文本情感特征;
基于所述文本情感特征构建领域情感词典;
将所述特征指标体系转化为特征向量,输出所述特征信息。
根据本发明提供的一种基于深度集成学习的抑郁情绪识别方法,基于所述文本情感特征构建领域情感词典,包括:
确定所述文本情感特征中的种子词和语料库;
采用词语相似度算法计算所述种子词和所述语料库中任一候选词之间的点互信息值,基于所述点互信息值确定词语关联性;
基于所述词语关联性,计算所述任一候选词与所述种子词中积极情感词以及消极情感词之间的点互信息差值;
根据预设筛选阈值筛选所述点互信息差值,以筛选后的积极情感词和消极情感词构建偶数领域情感词典。
根据本发明提供的一种基于深度集成学习的抑郁情绪识别方法,将所述特征指标体系转化为特征向量,输出所述特征信息,包括:
将所述特征指标体系中的文本信息作为文本特征向量;
对所述特征指标体系中的类别信息进行独热编码,转换为类别特征向量;
以所述文本特征向量和所述类别特征向量构成所述特征信息。
根据本发明提供的一种基于深度集成学习的抑郁情绪识别方法,基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,包括:
采用TextCNN深度学习模型、TextRNN深度学习模型和TextRCNN深度学习模型构建所述Stacking深度集成学习基分类器;
所述TextCNN深度学习模型中的卷积层采用三种不同卷积核对词向量矩阵进行卷积运算,池化层提取卷积层中生成的多列向量中每一列最大值形成一维向量,由全连接层拼接所有一维向量输出第一向量;
所述TextRNN深度学习模型采用双向LSTM层学习文本信息,依次通过全连接层、Softmax层和注意力机制进行连接输出第二向量;
所述TextRCNN深度学习模型通过双向LSTM层得到隐藏层输出,与特征向量进行拼接,采用tanh激活函数,通过卷积层、池化层和全连接层输出第三向量;
将所述第一向量、所述第二向量和所述第三向量进行特征融合,通过Softmax函数分别得到第一基分类器预测标签、第二基分类器预测标签和第三基分类器预测标签。
根据本发明提供的一种基于深度集成学习的抑郁情绪识别方法,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型,包括:
以所述第一基分类器预测标签、所述第二基分类器预测标签和所述第三基分类器预测标签作为训练集;
将所述训练集输入元分类器,得到所述抑郁情绪识别模型。
第二方面,本发明还提供一种基于深度集成学习的抑郁情绪识别装置,包括:
采集单元,用于从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本;
提取单元,用于利用特征指标体系提取所述预处理用户提问数据样本中的特征信息;
训练单元,用于基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;
识别单元,用于将待识别提问数据输入所述抑郁情绪识别模型,输出抑郁情绪识别结果。
第三方面,本发明还提供一种基于深度集成学习的抑郁情绪识别系统,包括:
数据展示模块,向用户展示存储在MySQL数据库中的提问数据分页;
抑郁情绪识别模块,接收用户输入的提问信息,根据所述提问信息输出抑郁情绪识别结果;
分析与可视化模块,向用户提供所述抑郁情绪识别结果的特征差异分析结果,以及提问数量随时间的演变结果。
第四方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于深度集成学习的抑郁情绪识别方法。
本发明提供的基于深度集成学习的抑郁情绪识别方法、装置及系统,针对在线健康社区平台问询场景,采用Stacking深度集成学习构建抑郁情绪识别原始模型,通过集成学习技术通过将多个学习器通过串行或并行的方式有机结合,有效解决单一分类器处理复杂问题性能受限的问题,从而达到提升分类任务性能的目的,并增强分类模型的泛化性能;采用的深度学习技术完成语义特征的提取,同时有助于消除模型误差和数据噪声,降低模型过拟合风险,进而达到提升抑郁识别模型性能的目的。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于深度集成学习的抑郁情绪识别方法的流程示意图;
图2是本发明提供的领域情感词典构建流程图;
图3是本发明提供的基于Stacking深度集成学习构建抑郁情绪智能识别模型;
图4是本发明提供的10折交叉验证完成基分类器的训练过程图;
图5是本发明提供的基于壹点零平台的抑郁情绪智能识别系统的架构设计图;
图6是本发明提供的基于深度集成学习的抑郁情绪识别装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中针对抑郁情绪识别的场景局限性较大,而抑郁症患者思维模式较为扭曲、情绪波动较为剧烈,考虑到深度学习在复杂语义特征表征任务上展现出的优越性,本发明采用深度学习技术完成语义特征的提取。通过集成学习将不同深度学习算法进行融合可以更为全面的学习抑郁症患者的语义特征,同时有助于消除模型误差和数据噪声,降低模型过拟合风险,进而达到提升抑郁识别模型性能的目的。
图1是本发明实施例提供的基于深度集成学习的抑郁情绪识别方法的流程示意图,如图1所示,包括:
步骤100:从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本;
步骤200:利用特征指标体系提取所述预处理用户提问数据样本中的特征信息;
步骤300:基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;
步骤400:将待识别提问数据输入所述抑郁情绪识别模型,输出抑郁情绪识别结果。
具体地,本发明实施例从在线心理健康社区平台的数据入手,采集用户提问数据样本,对用户提问数据样本进行预处理得到预处理用户提问数据样本,再利用构建的特征指标体系提取预处理用户提问数据样本中的特征信息。
进一步地,本发明实施例采用多种分类器组合构建Stacking深度集成学习基分类器,形成抑郁情绪识别原始模型,利用提取的特征信息对该抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型。最后将在线心理健康社区平台中待识别提问数据输入训练好的抑郁情绪识别模型,得到最终的抑郁情绪识别结果。
本发明采用Stacking深度集成学习构建抑郁情绪识别原始模型,通过集成学习技术通过将多个学习器通过串行或并行的方式有机结合,有效解决单一分类器处理复杂问题性能受限的问题,从而达到提升分类任务性能的目的,并增强分类模型的泛化性能;采用的深度学习技术完成语义特征的提取,同时有助于消除模型误差和数据噪声,降低模型过拟合风险,进而达到提升抑郁识别模型性能的目的。
基于上述实施例,从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本,包括:
基于Python Selenium框架中的网络爬虫库requests和beautifulsoup4从所述在线心理健康社区平台中采集所述用户提问数据样本;
在所述用户提问数据样本中分别筛选包括抑郁症症状词语、抑郁症行为词语和抑郁症关联药物词语的基准词库,以及筛选未包含所述基准词库的随机样本,由所述基准词库和所述随机样本构建筛选语料库;
采用预设正则表达式对所述筛选语料库进行中文匹配,删除非中文字符,采用预设分词工具对所述筛选语料库进行分词,去除文本中停用词,并消除无意义词汇和无意义符号,得到处理后筛选语料库;
由预设数量的专业标注者依据交叉验证原则,将所述处理后筛选语料库划分为正类样本和负类样本;
按照预设比例将所述正类样本和所述负类样本划分为训练集和测试集,得到所述预处理用户提问数据样本。
具体地,本发明实施例基于Python Selenium框架和requests、beautifulsoup4等模块采集国内一线在线心理健康社区壹点零平台问答板块的用户提问数据,包括用户ID、用户性别、发文设备、是否匿名、提问时间、提问标题、提问内容等信息,共410106条。
为降低数据标注的工作量,在保证正负样本尽可能均衡的前提下,本发明实施例首先设置一系列与抑郁情绪强相关的基准词语完成数据的初步筛选,包括抑郁症症状词语(抑郁、想死、失眠、胸闷等)、抑郁症行为词语(自杀、自残、割腕等)、抑郁症相关药物词语(帕罗西汀、氯氟沙明等),同时为满足模型可以全面覆盖现实情况可能面对的各类提问,本发明在原始数据中随机抽取一定未包含基准词语的样本添加至语料库,最终得到总数量为12361的语料库。
完成数据标注后,对文本数据完成预处理:首先,采用正则表达式“[\u4e00-\u9fa5]”对提问文本数据进行中文匹配,删除表情符号等非中文字符;然后采用jieba分词工具对文本数据进行分词;最后去除文本中的停用词,以消除文本中没有实际意义的词汇、标点符号和特殊字符,避免上述内容影响词向量构建的效果。
依据交叉验证原则,由5位经过专业训练的标注者对语料进行是否包含抑郁情绪的标注工作,若用户自述患有抑郁症则直接归类为负类样本,反之则需判断提问内容是否包含WHO所界定的抑郁症核心症状(情绪低落、兴趣下降、易疲惫)以及其他症状(睡眠障碍、自杀自残、自我价值感低等)
最终构建含有6911条正类样本和5450条负类样本的数据集,并按照0.8:0.2的比例划分训练集和测试集,其中训练集包括5529条正类样本以及4360条负类样本,测试集包括1382条正类样本以及1090条负类样本。
基于上述实施例,利用特征指标体系提取所述预处理用户提问数据样本中的特征信息,包括:
确定所述特征指标体系包括用户基本信息特征、行为习惯特征、文本内容特征和文本情感特征;
基于所述文本情感特征构建领域情感词典;
将所述特征指标体系转化为特征向量,输出所述特征信息。
其中,基于所述文本情感特征构建领域情感词典,包括:
确定所述文本情感特征中的种子词和语料库;
采用词语相似度算法计算所述种子词和所述语料库中任一候选词之间的点互信息值,基于所述点互信息值确定词语关联性;
基于所述词语关联性,计算所述任一候选词与所述种子词中积极情感词以及消极情感词之间的点互信息差值;
根据预设筛选阈值筛选所述点互信息差值,以筛选后的积极情感词和消极情感词构建偶数领域情感词典。
其中,将所述特征指标体系转化为特征向量,输出所述特征信息,包括:
将所述特征指标体系中的文本信息作为文本特征向量;
对所述特征指标体系中的类别信息进行独热编码,转换为类别特征向量;
以所述文本特征向量和所述类别特征向量构成所述特征信息。
具体地,本发明实施例构建了一套适用于在线健康社区场景的抑郁情绪识别特征指标体系,包括用户基本信息特征(用户性别和发文设备)、行为习惯特征(提问时间和是否匿名)、文本内容特征(文本长度、第一人称词占比以及语义信息)及文本情感特征(消极词占比和情感强度)四个维度。
其中,对于文本情感特征,考虑到通用情感词典往往在特定领域内无法有效提取用户的情感表达特征,因此本发明实施例基于情感倾向点互信息算法构建了适用于在线健康社区场景下的抑郁情绪领域情感词典。如图2所示,构建领域情感词典的做法是基于知识库和语料库的自动构建方法,通过设置一系列种子词,计算语料库中候选词与种子词与的语义相关度,并选取合适的情感倾向得分算法和特定阈值,将得分超出阈值的词语添加至领域情感词典,其核心是词语相似度算法和情感倾向得分算法。本发明采用的词语相似度算法为情感倾向点互信息算法(Semantic Orientation Pointwise Mutual Information,SO-PMI),其基本思想是若两个词语同时出现的概率越大,则两个词的相似度越高。具体步骤如下:首先,计算词x和词y的点互信息PMI(x,y):
若PMI(x,y)>0,则说明词x和词y具有相关性;若PMI(x,y)=0,则说明词x和词y没有相关性;若PMI(x,y)<0,则说明词x和词y具有互斥性。
进一步地,为得到候选词中词语的情感倾向,需要计算候选词w与种子词中的积极情感词Wp以及消极情感词Wn的点互信息的差值SO-PMI(w),计算公式如下:
若SO-PMI(w)>0,则说明词w为积极情感词,反之则为消极情感词
需要说明的是,本发明实施例选用标注为包含抑郁情绪的文本数据作为语料库,以语言分析工具C-LIWC中的积极情感词和消极情感词作为种子词,计算语料库中候选词与种子词的情感倾向得分,并将结果标准化至[-1,1]之间。
若将所有情感倾向得分非零的词语添加到情感词典则会导致词典体量过大,且会有大量情感倾向不明显的词语被添加至情感词典,与情感倾向明显的词语共享相同的权重,反而降低词典的质量和准确率;但若仅仅选用倾向性得分较高但数量过少的候选词,则会导致词典覆盖率差,识别效果不够显著,因此需要确定一个合适的阈值,情感倾向性得分绝对值大于该阈值的词语将被纳入情感词典。
然后通过观察不同SO-PMI值对应的词语数量,同时依据词语情况最终确定以0.5为阈值,倾向性得分超过该值的词语添加到情感词典,进一步计算情感强度和消极词占比,其中情感强度为消极词占比和积极词占比的和。
另外,由于深度学习分类模型的输入应为数值类型的向量,因此需对特征进行向量化表示。对于文本长度,由于其本身为整数类型的特征,则无需进行处理;对于性别、发文设备、是否匿名此类具有明确类别的特征,本发明将每个特征的各个类别进行独热编码,以特征“发文设备”为例,该特征共有安卓端、苹果端以及其他设备三个类别,则各类别ci=i,(i=0,1,2);对于情感强度、消极词占比、第一人称词汇占比此类浮点数类型特征,为降低算法运算的复杂度、提升运行效率,本发明实施例将其转化为整型,即特征Fi=int(Fi×100),(Fi∈[0,1])。
基于上述实施例,基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,包括:
采用TextCNN深度学习模型、TextRNN深度学习模型和TextRCNN深度学习模型构建所述Stacking深度集成学习基分类器;
所述TextCNN深度学习模型中的卷积层采用三种不同卷积核对词向量矩阵进行卷积运算,池化层提取卷积层中生成的多列向量中每一列最大值形成一维向量,由全连接层拼接所有一维向量输出第一向量;
所述TextRNN深度学习模型采用双向LSTM层学习文本信息,依次通过全连接层、Softmax层和注意力机制进行连接输出第二向量;
所述TextRCNN深度学习模型通过双向LSTM层得到隐藏层输出,与特征向量进行拼接,采用tanh激活函数,通过卷积层、池化层和全连接层输出第三向量;
将所述第一向量、所述第二向量和所述第三向量进行特征融合,通过Softmax函数分别得到第一基分类器预测标签、第二基分类器预测标签和第三基分类器预测标签。
其中,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型,包括:
以所述第一基分类器预测标签、所述第二基分类器预测标签和所述第三基分类器预测标签作为训练集;
将所述训练集输入元分类器,得到所述抑郁情绪识别模型。
具体地,本发明实施例基于Stacking深度集成学习构建抑郁情绪智能识别模型,图3展示了该模型的该模型共包含四个模块。
首先是词嵌入模块,使用BERT预训练模型进行词向量表征:对于每个字,BERT将其表示为Token Embeddings、Segment Embeddings以及Positional Embeddings用于学习文本中的上下文关系以及各个词语的绝对位置编码,并以上述三个向量相加得到256维的词向量,其计算方式如下:
Infoq=Etoken+Esegment+Epositional
其次是深度学习基分类器模块,本发明实施例选取文本分类领域应用广泛且效果较佳的TextCNN、TextRNN和TextRCNN三个深度学习模型作为基分类器以提取深层语义特征。
第一个是TextCNN深度学习模型,该模型在处理短文本分类任务中性能突出,其模型结构包括卷积层、池化层、全连接层以及Softmax层。卷积层分别采用2,3,4三类卷积核对词向量矩阵H卷积运算;池化层将卷积层中生成的多列向量中每一列中的最大值取出,形成一维向量;最终在全连接层完成向量拼接,上述计算过程如下所示:
其中表示卷积运算结果,/>表示将卷积运算结果进行拼接得到的列向量,/>表示将各列最大值提取出来所构建的矩阵,Zcnn为全连接层的向量拼接结果,W表示权重系数,k表示矩阵的行数,v表示卷积核的编号,f表示激活函数,b表示偏置项。
第二个是TextRNN深度学习模型,该模型采用循环神经元学习文本信息,能够更好地捕捉文本上下文信息,其模型结构包括双向LSTM层、全连接层以及Softmax层,同时在LSTM层后添加注意力机制。双向LSTM层的数学过程如下所示:
Zrnn=Concat(h1,h2,…,hn)
其中表示t时刻正向LSTM的输入,/>表示t时刻反向LSTM的输入,ht表示t时刻双向LSTM层的输出。
注意力机制的数学描述如下:Q指查询向量,Key指关键信息Value是其对应的权重,Similarity指相似度计算公式,最终,TextRNN的全连接层将深层语义特征提取为Zrnn
第三个是TextRCNN深度学习模型,该模型通过双向LSTM得到隐藏层输出并与特征向量进行拼接,采用tanh作为激活函数,输出向量通过卷积层、池化层和全连接层。该过程如下所示:
Zrcnn=MaxPool(X1,X2,…,Xn)
该模型结构有效过滤数据噪声,能改善TextRNN训练过程梯度消失等问题。
然后通过特征融合模块进行特征融合,模型在三个基分类器的全连接层部分完成输出向量与八类特征的融合,并通过Softmax函数得到预测结果,其过程如下所示:
Pmodel=SoftMax(Concat(Zmodel,Infoq,Gu,Du,Tq,Aq,Rnq,Iq,Lq,Riq))
其中Pmodel包括Pcnn、Prnn以及Prcnn,Zmodel包括Zcnn、Zrnn以及Zrcnn
最后通过Stacking深度集成模块,Stacking深度集成学习策略包含两层分类器,第一层采用不同分类器分别完成分类任务,第二层采用元分类器融合第一层基分类器的预测结果,消除模型预测结果的误差同时避免过拟合。为避免元分类器训练集构建过程出现数据泄露问题,本发明采用10折交叉验证完成基分类器的训练,该过程如图4所示。本发明采用Logistic回归作为元分类器,以三个基分类器的预测结果作为训练集完成模型训练。对于预测样本,首先分别计算前述三个基分类器的预测标签Pcnn、Prnn以及Prcnn,然后将上述三个标签作为元分类器的输入并得到最终的预测结果Ppred,计算过程如下所示:
本发明基于模型对比实验和消融实验结果发现,相较其他模型,本发明模型的性能达到最优,表明Stacking深度集成学习可以有效识别在线健康社区包含抑郁情绪的用户提问,显著提升分类模型的性能,这一结论丰富了抑郁智能识别领域的研究成果和研究视角,并为在线健康社区提供一个有效的早期抑郁用户智能筛查方法。
基于上述实施例,本发明实施例还提出了在线健康社区抑郁情绪智能识别系统,如图5所示,本发明实施例所设计的抑郁情绪智能识别系统是基于壹点零平台,目标用户为企业后台管理者,旨在为管理者快速筛选包含抑郁情绪的提问,并对统计结果进行分析和可视化,整体包括三个模块:数据展示模块、抑郁情绪识别模块和分析与可视化模块。
数据展示模块,将存储在MySQL数据库中的提问数据分页展示到该模块的主页面,用户可以自主选择所要查看的页面。用户进入系统后,首先要完成登录过程才能获取使用系统各模块的权限,该过程通过python装饰器(decorator)实现,在用户完成登陆后将在session中存储用户id,并保存至全局变量,在后续进入各模块前系统后台对session中的用户id数据进行检验,若id不存在则提示用户完成登录过程,直至用户登录成功跳转至“数据展示模块”。数据展示模块连接后端MySQL数据库的用户提问表单,查询该表单所有数据的提问ID、提问日期、提问标题、提问内容和是否包含抑郁情绪五项数据,最后把数据以表格形式展示到界面当中。在该界面中,MySQL返回的数据将分页展示,每页展示40条数据,用户通过在输入框中输入所要查询的页码后点击按钮“跳转”后系统将跳转至对应界面。
抑郁情绪识别模块,用户可以通过该模块模拟发布提问信息,系统后台自动获取用户性别、发文设备、发文时间、是否匿名、情感强度、消极词占比、文本长度、语义信息、第一人称词占比,进一步根据Stacking深度集成学习模型完成提问内容是否包含抑郁情绪的检测并将结果反馈到用户界面。
分析与可视化模块,该模块主要包括两个功能,其一是分析包含抑郁情绪的提问内容的特征,用户可以通过雷达图对比包含抑郁情绪的提问和不包含抑郁情绪的提问的特征差异,并通过词云图了解包含抑郁情绪的提问的语言表达特征;其二是从时间演化的视角,分析2015-2022年来包含抑郁情绪的提问的数量演变。进入该模块后,装饰器确保用户登陆后才能成功访问模块界面。
系统后端查询MySQL数据库中的包含抑郁情绪的数据和不包含抑郁情绪的数据,首先计算两类数据的男女性别比例、使用设备比例、匿名比例以及情感强度、第一人称词比例、消极词比例、文本长度、发文时间的平均值,基于此使用Echarts绘制雷达图并渲染至前端页面;同时,系统使用Python的WordCloud库绘制包含抑郁情绪的提问内容词云图并渲染至前端页面;此外,本系统将统计包含抑郁情绪的提问的时间演化数据,并从性别和设备两个视角对时间演化图进行扩展,最终将时间演化图渲染至前端。
下面对本发明提供的基于深度集成学习的抑郁情绪识别装置进行描述,下文描述的基于深度集成学习的抑郁情绪识别装置与上文描述的基于深度集成学习的抑郁情绪识别方法可相互对应参照。
图6是本发明实施例提供的基于深度集成学习的抑郁情绪识别装置的结构示意图,如图6所示,包括:采集单元61、提取单元62、训练单元63和识别单元64,其中:
采集单元61用于从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本;提取单元62用于利用特征指标体系提取所述预处理用户提问数据样本中的特征信息;训练单元63用于基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;识别单元64用于将待识别提问数据输入所述抑郁情绪识别模型,输出抑郁情绪识别结果。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于深度集成学习的抑郁情绪识别方法,该方法包括:从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本;利用特征指标体系提取所述预处理用户提问数据样本中的特征信息;基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;将待识别提问数据输入所述抑郁情绪识别模型,输出抑郁情绪识别结果。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于深度集成学习的抑郁情绪识别方法,该方法包括:从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本;利用特征指标体系提取所述预处理用户提问数据样本中的特征信息;基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;将待识别提问数据输入所述抑郁情绪识别模型,输出抑郁情绪识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度集成学习的抑郁情绪识别方法,其特征在于,包括:
从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本;
利用特征指标体系提取所述预处理用户提问数据样本中的特征信息;
基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;
将待识别提问数据输入所述抑郁情绪识别模型,输出抑郁情绪识别结果。
2.根据权利要求1所述的基于深度集成学习的抑郁情绪识别方法,其特征在于,从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本,包括:
基于Python Selenium框架中的网络爬虫库requests和beautifulsoup4从所述在线心理健康社区平台中采集所述用户提问数据样本;
在所述用户提问数据样本中分别筛选包括抑郁症症状词语、抑郁症行为词语和抑郁症关联药物词语的基准词库,以及筛选未包含所述基准词库的随机样本,由所述基准词库和所述随机样本构建筛选语料库;
采用预设正则表达式对所述筛选语料库进行中文匹配,删除非中文字符,采用预设分词工具对所述筛选语料库进行分词,去除文本中停用词,并消除无意义词汇和无意义符号,得到处理后筛选语料库;
由预设数量的专业标注者依据交叉验证原则,将所述处理后筛选语料库划分为正类样本和负类样本;
按照预设比例将所述正类样本和所述负类样本划分为训练集和测试集,得到所述预处理用户提问数据样本。
3.根据权利要求1所述的基于深度集成学习的抑郁情绪识别方法,其特征在于,利用特征指标体系提取所述预处理用户提问数据样本中的特征信息,包括:
确定所述特征指标体系包括用户基本信息特征、行为习惯特征、文本内容特征和文本情感特征;
基于所述文本情感特征构建领域情感词典;
将所述特征指标体系转化为特征向量,输出所述特征信息。
4.根据权利要求3所述的基于深度集成学习的抑郁情绪识别方法,其特征在于,基于所述文本情感特征构建领域情感词典,包括:
确定所述文本情感特征中的种子词和语料库;
采用词语相似度算法计算所述种子词和所述语料库中任一候选词之间的点互信息值,基于所述点互信息值确定词语关联性;
基于所述词语关联性,计算所述任一候选词与所述种子词中积极情感词以及消极情感词之间的点互信息差值;
根据预设筛选阈值筛选所述点互信息差值,以筛选后的积极情感词和消极情感词构建偶数领域情感词典。
5.根据权利要求3所述的基于深度集成学习的抑郁情绪识别方法,其特征在于,将所述特征指标体系转化为特征向量,输出所述特征信息,包括:
将所述特征指标体系中的文本信息作为文本特征向量;
对所述特征指标体系中的类别信息进行独热编码,转换为类别特征向量;
以所述文本特征向量和所述类别特征向量构成所述特征信息。
6.根据权利要求1所述的基于深度集成学习的抑郁情绪识别方法,其特征在于,基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,包括:
采用TextCNN深度学习模型、TextRNN深度学习模型和TextRCNN深度学习模型构建所述Stacking深度集成学习基分类器;
所述TextCNN深度学习模型中的卷积层采用三种不同卷积核对词向量矩阵进行卷积运算,池化层提取卷积层中生成的多列向量中每一列最大值形成一维向量,由全连接层拼接所有一维向量输出第一向量;
所述TextRNN深度学习模型采用双向LSTM层学习文本信息,依次通过全连接层、Softmax层和注意力机制进行连接输出第二向量;
所述TextRCNN深度学习模型通过双向LSTM层得到隐藏层输出,与特征向量进行拼接,采用tanh激活函数,通过卷积层、池化层和全连接层输出第三向量;
将所述第一向量、所述第二向量和所述第三向量进行特征融合,通过Softmax函数分别得到第一基分类器预测标签、第二基分类器预测标签和第三基分类器预测标签。
7.根据权利要求6所述的基于深度集成学习的抑郁情绪识别方法,其特征在于,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型,包括:
以所述第一基分类器预测标签、所述第二基分类器预测标签和所述第三基分类器预测标签作为训练集;
将所述训练集输入元分类器,得到所述抑郁情绪识别模型。
8.一种基于深度集成学习的抑郁情绪识别装置,其特征在于,包括:
采集单元,用于从在线心理健康社区平台采集用户提问数据样本,对所述用户提问数据样本进行预处理得到预处理用户提问数据样本;
提取单元,用于利用特征指标体系提取所述预处理用户提问数据样本中的特征信息;
训练单元,用于基于Stacking深度集成学习基分类器构建抑郁情绪识别原始模型,采用所述特征信息对所述抑郁情绪识别原始模型进行训练,得到抑郁情绪识别模型;
识别单元,用于将待识别提问数据输入所述抑郁情绪识别模型,输出抑郁情绪识别结果。
9.一种基于深度集成学习的抑郁情绪识别系统,其特征在于,包括:
数据展示模块,向用户展示存储在MySQL数据库中的提问数据分页;
抑郁情绪识别模块,接收用户输入的提问信息,根据所述提问信息输出抑郁情绪识别结果;
分析与可视化模块,向用户提供所述抑郁情绪识别结果的特征差异分析结果,以及提问数量随时间的演变结果。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于深度集成学习的抑郁情绪识别方法。
CN202311322709.9A 2023-10-12 2023-10-12 一种基于深度集成学习的抑郁情绪识别方法、装置及系统 Pending CN117454217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311322709.9A CN117454217A (zh) 2023-10-12 2023-10-12 一种基于深度集成学习的抑郁情绪识别方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311322709.9A CN117454217A (zh) 2023-10-12 2023-10-12 一种基于深度集成学习的抑郁情绪识别方法、装置及系统

Publications (1)

Publication Number Publication Date
CN117454217A true CN117454217A (zh) 2024-01-26

Family

ID=89578999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311322709.9A Pending CN117454217A (zh) 2023-10-12 2023-10-12 一种基于深度集成学习的抑郁情绪识别方法、装置及系统

Country Status (1)

Country Link
CN (1) CN117454217A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711626A (zh) * 2024-02-05 2024-03-15 江西中医药大学 一种基于多维度因素的抑郁情绪评测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711626A (zh) * 2024-02-05 2024-03-15 江西中医药大学 一种基于多维度因素的抑郁情绪评测方法

Similar Documents

Publication Publication Date Title
Zeng et al. A survey on machine reading comprehension—tasks, evaluation metrics and benchmark datasets
CN111415740B (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
Ameisen Building Machine Learning Powered Applications: Going from Idea to Product
CN112667799B (zh) 一种基于语言模型和实体匹配的医疗问答系统构建方法
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112015917A (zh) 基于知识图谱的数据处理方法、装置及计算机设备
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
Das et al. Hatemm: A multi-modal dataset for hate video classification
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
CN118296120A (zh) 多模态多尺度多路召回的大型语言模型检索增强生成方法
Noor et al. Depression Detection In Social Media Using Bagging Classifier
Higuchi et al. Patent image retrieval using transformer-based deep metric learning
Tannert et al. FlowchartQA: the first large-scale benchmark for reasoning over flowcharts
Rabani et al. Multi-class suicide risk prediction on twitter using machine learning techniques
CN111681776B (zh) 基于医药大数据的医药对象关系分析的方法及系统
Chou et al. Utilizing Text Mining for Labeling Training Models from Futures Corpus in Generative AI
Francis et al. SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation
CN113345557A (zh) 一种数据处理方法和系统
Xu et al. Key information extraction and talk pattern analysis based on big data technology: A case study on YiXi talks
Siri et al. Enhancing Sentiment Analysis Accuracy by Optimizing Hyperparameters of SVM and Logistic Regression Models
CN117708545B (zh) 融合主题提取与余弦相似度的观点贡献度评价方法及系统
CN118538401B (zh) 基于语言大模型的糖尿病咨询交互方法及装置
CN113051373B (zh) 文本分析方法、装置、电子设备和存储介质
Shanmugarajah et al. WoKnack–A Professional Social Media Platform for Women Using Machine Learning Approach
Muhammad Using Knowledge Graphs to Enhance the Utility of Curated Document Databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination