CN117372786A - 基于房树人草图的心理状态预测方法、系统及存储介质 - Google Patents
基于房树人草图的心理状态预测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117372786A CN117372786A CN202311643711.6A CN202311643711A CN117372786A CN 117372786 A CN117372786 A CN 117372786A CN 202311643711 A CN202311643711 A CN 202311643711A CN 117372786 A CN117372786 A CN 117372786A
- Authority
- CN
- China
- Prior art keywords
- representing
- sketch
- fbanet
- model
- htp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 32
- 238000010606 normalization Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000000137 annealing Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000006996 mental state Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000002759 z-score normalization Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000009323 psychological health Effects 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000001746 atrial effect Effects 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 21
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 230000004630 mental health Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Heart & Thoracic Surgery (AREA)
- Pathology (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Educational Technology (AREA)
- Developmental Disabilities (AREA)
- Physiology (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于房树人草图的心理状态预测方法、系统及存储介质,属于图像处理技术领域,包括:对待识别的HTP草图进行预处理;构建用于捕捉草图语义与空间信息的分类模型FBANet;将FBANet在大规模草图数据集QuickDraw‑414k进行有监督式预训练;利用HTP草图将预训练好的FBANet进行微调,保存微调后的FBANet权重,得到最终的FBANet模型;将待测HTP草图输入到FBANet模型中,输出心理状态预测结果。本发明提出基于深度学习的单阶段房树人心理健康状态识别方法,具备简便的数据预处理与运算流程的同时拥有较高的准确率,优于传统的分类模型,为心理健康状态辅助诊断提供参考建议。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于房树人草图的心理状态预测方法、系统及存储介质。
背景技术
房树人草图绘画是一种心理分析技术,旨在检验绘画者心理健康状态。如今已有成熟的方法,利用房树人(House Tree Person,HTP)草图进行绘画者心理健康状态的识别。然而,现存的工作大多都是通过人工分析绘画特征来进行心理健康状态的识别,具有主观性强,自动化程度低的缺陷。仅有一小部分工作通过机器学习和深度学习方法自动识别特征,但它们复杂的数据预处理流程以及多阶段的运算过程意味着这些工作的自动化程度并不高。
因此,亟需一种能够高效准确的判断绘画者是否存在心理状态健康问题的方法。
发明内容
本发明提供一种基于房树人草图的心理状态预测方法、系统及存储介质,用以解决现有技术中存在的缺陷,实现基于深度学习的单阶段房树人心理健康状态识别方法,在具备简便的数据预处理与运算流程的同时拥有较高的准确率,并有望成为通过该心理状态预测方法,为绘画者心理健康状态的判断识别提供参考建议,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于房树人草图的心理状态预测方法,包括如下步骤:
步骤一、对待识别的HTP草图进行预处理;
步骤二、构建用于捕捉草图语义与空间信息的分类模型FBANet;
步骤三、将FBANet在大规模草图数据集QuickDraw-414k进行有监督式预训练;
步骤四、利用预处理后待识别的HTP草图将预训练好的FBANet进行微调,保存微调后的FBANet权重,得到最终的FBANet模型;
步骤五、将待测HTP草图输入到FBANet模型中,输出心理状态预测结果。
优选的,在步骤一中,将原始待识别的HTP草图像素分辨率缩放为224×224,然后使用水平随机翻转(RandomHorizontalFlip)、垂直随机翻转(RandomVerticalFlip)、高斯模糊(GaussianBlur)、色泽调整(亮度brightness、对比度contrast、饱和度saturation)的数据增强处理,最后进行Z-Score归一化处理算法(Normalize),公式表达如下:
其中,/>表示HTP草图,/>表示向量空间,/>、/>和/>分别表示图的高度、宽度和通道数,/>表示图片缩放,/>表示水平随机翻转,/>表示垂直随机翻转,/>表示高斯模糊,表示色泽调整,/>表示归一化处理,/>表示图片缩放尺寸,表示概率,brightness表示亮度,contrast表示对比度,saturation表示饱和度,/>表示颜色,/>表示原始数据均值,/>表示原始数据标准差。
优选的,步骤二中,所述分类模型FBANet包括特征增强模块、双层注意力模块以及分类头模块;
1)特征增强模块是利用局部图像与整体图像结合的方式进行增强特征,具体如下:
首先将HTP草图分成P块/>,当P=5时,将整张图片分为左上块、右上块、左下块、右下块和中心块,每个分块是正方形,其大小占整张图片的36%;
将每一个分块调整大小为,输入特征提取网络ResNet50中,得到分块提取特征/>,之后计算/>的平均特征/>:
将Skt通过ResNet50得到完整提取特征,将/>附于/>后,得到增强后的特征,最后通过1×1卷积调整/>通道数,得到最后的特征/>;
2)双层注意力模块由自注意力机制与三分支注意力机制并行构成;
2.1)自注意力机制包括多头自注意力机制和全连接层,多头注意力机制用于计算输入序列中各个位置之间的重要性,全连接层用于对序列进行非线性变换,具体如下:
进行维度变换:,对/>添加可学习的位置编码/>并进行层归一化:
其中,表示向量空间,/>、/>和/>分别表示数量、高度和宽度;
对进行自注意力计算及残差连接:
对进行层归一化并送入MLP模块,最后进行残差连接:
;
其中,、/>和/>分别表示注意力机制中的查询值、键值和内容值,/>表示注意力运算,/>表示向量维度,/>表示归一化指数函数,/>表示任一多头自注意力,/>表示多头自注意力机制运算,/>表示连接运算,/>表示多头拼接矩阵,表示/>个注意力头,/>、/>和/>分别表示任一多头查询矩阵、任一多头键值矩阵和任一多头内容值矩阵,/>表示层归一化运算,/>表示多层感知机运算;
2.2)三分支注意力机制是一种分别沿C、H、W维度方向进行注意力权重计算并取平均的三分支结构,用于捕获图像跨维度交互信息;考虑输入向量,Z-pool将沿维度/>方向上计算全局最大值与平均值,然后沿D维度方向进行拼接,得到/>的空间注意力张量,见下式:
其中,表示全局最大化运算,/>表述全局平均化运算;
第一分支中,在与/>维度间建立交互,不需要维度转换,计算见下式:
其中,Conv 表示卷积运算,卷积核大小为,使用填充保持输入输出尺寸相同,使用卷积进一步提取空间信息,BN表示批归一化运算,最后通过激活函数Sigmoid 得到注意力权值,并与/>进行元素积运算,得到结果/>;
第二分支中,在与/>维度间建立交互,需要维度转换:,计算过程与上式相同,得到结果/>,之后将维度还原:/>;
第三分支中,在与/>维度间建立交互,需要维度转换:,计算过程与上式相同,得到结果/>,之后将维度还原:/>,然后将/>进行融合,见下式:
整个三分支注意力机制重复执行N次,最后将自注意力机制与三分支注意力机制计算得到的特征进行融合,见下式:
其中,将进行维度转换:/>,Conv代表1×1的卷积运算;
3)分类头模块,分类头包含1×1卷积,全局平均池化以及全连接层三块,公式如下:
其中,表示全局平均池化运算,/>表示线性连接运算,/>为最终输出值;
最后,使用一层全连接层输出分类概率。
优选的,在步骤三中的FBANet预训练中,使用随机梯度下降(StochasticGradient Descent,SGD)优化算法并设置初始学习率3e-2,学习率使用带有预热学习率的余弦退火算法,其中设置预热学习率轮数为1 周期,输入草图大小224×224,分块尺寸大小为40,之后通过归一化函数Softmax输出最终结果,使用交叉熵损失函数计算损失并训练网络:
其中N代表样本总数,K代表类别数量,是类别标签,/>是模型预测值,表示交叉熵损失函数运算。
优选的,在步骤四中,利用HTP草图使用五折交叉验证方式进行FBANet的测试与微调,每折训练10 周期,使用SGD优化算法并设置初始学习率1e-3, 学习率使用带有预热学习率的余弦退火算法,其中设置预热学习率轮数为1周期,输入草图大小224×224,分块尺寸大小为16,对模型的参数不进行冻结,损失函数使用交叉熵损失,得到最终的FBANet模型。
优选的,步骤五中,心理状态预测的准确率计算公式如下:
其中,表示获取最大值索引运算,/>表示计算个数运算,/>,表示经过分类网络最终输出的向量,之后获取最终输出值中每个样本的最大值下标/>,准确率的计算是统计/>与标签/>对应位置值相等的个数比上/>中的总个数。
另一方面,为实现上述目的,本发明还提供了如下技术方案:一种基于房树人草图的心理状态预测系统,所述系统包括如下:
草图预处理模块、对待识别的HTP草图进行预处理;
分类模型FBANet构建模块、构建用于捕捉草图语义与空间信息的分类模型FBANet;
模型预训练模块、将FBANet在大规模草图数据集QuickDraw-414k进行有监督式预训练;
模型微调模块、利用预处理后待识别的HTP草图将预训练好的FBANet进行微调,保存微调后的FBANet权重,得到最终的FBANet模型;
预测模块、将待测HTP草图输入到FBANet模型中,输出心理状态预测结果。
另一方面,为实现上述目的,本发明还提供了如下技术方案:一种计算机可读存储介质,其存储有计算机程序,计算机程序被计算机执行时实现所述的基于房树人草图的心理状态预测方法。
本发明的有益效果是:本发明基于深度学习的单阶段房树人心理健康状态识别方法,在具备简便的数据预处理与运算流程的同时拥有较高的准确率,并有望成为通过该心理状态预测方法,为绘画者心理健康状态的判断识别提供参考建议。通过使用交叉验证的方式,本发明FBANet模型在验证集中最高准确率达99.07%,平均准确率达97.71%,优于传统的分类模型,能够更大范围用于高校、企业等机构的心理健康状态检测工作中。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例中一种基于房树人草图的心理状态预测方法的步骤流程示意图;
图2为实施例中FBANet结构示意图;
图3为实施例中Self-Attention结构示意图;
图4为实施例中Triplet Attention结构示意图;
图5为实施例中基于房树人草图的心理状态预测系统模块示意图;
图5中,110-草图预处理模块;120-分类模型FBANet构建模块;130-模型预训练模块;140-模型微调模块;150-预测模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4,本发明提供一种技术方案:一种基于房树人草图的心理状态预测方法,如图1所示,包括如下步骤:
步骤一、对待识别的HTP草图进行预处理;
步骤二、构建用于捕捉草图语义与空间信息的分类模型FBANet;
步骤三、将FBANet在大规模草图数据集QuickDraw-414k进行有监督式预训练;
步骤四、利用预处理后待识别的HTP草图将预训练好的FBANet进行微调,保存微调后的FBANet权重,得到最终的FBANet模型;
步骤五、将待测HTP草图输入到FBANet模型中,输出心理状态预测结果。
步骤一中,对于待输入的草图Sketch,即Skt,在进行下一步前,先把图片缩放成统一大小,然后使用数据增强处理,增强神经网络的泛化能力,数据增强部分使用:水平随机翻转()、垂直随机翻转(/>)、高斯模糊()、色泽调整(亮度brightness、对比度contrast、饱和度saturation);最后进行Z-Score归一化处理算法(Normalize),流程如下:
其中,/>表示HTP草图,/>表示向量空间,/>、/>和/>分别表示图的高度、宽度和通道数,/>表示图片缩放,/>表示水平随机翻转,/>表示垂直随机翻转,/>表示高斯模糊,表示色泽调整,/>表示归一化处理,/>表示图片缩放尺寸,表示概率,brightness表示亮度,contrast表示对比度,saturation表示饱和度,/>表示颜色,/>表示原始数据均值,/>表示原始数据标准差。
以上算法展示的是某一张图片的情况,实际训练过程会存在多张图片,,/>表示批次/>数量。
步骤二中,本发明设计一种分类网络(Federated Burst Affinity Network,FBANet),其包括三个关键模块:特征增强模块、双层注意力模块以及分类头模块,如图2所示。经过简单的预处理后,将图像输入训练好的FBANet即可获得高精度的心理状态识别结果,使其成为预期的绘画者心理健康状态识别建议方法:
(1)特征增强模块
考虑到草图笔画的稀疏性,仅使用整体草图提取的特征不明显,为此,本发明利用局部图像与整体图像结合的方式进行增强特征。本发明首先将草图分成P块/>。当P=5时,将整张图片分为左上块、右上块、左下块、右下块和中心块,每个分块是正方形,其大小占整张图片的36%,比如:对于左上块/>的右上角坐标与右上块/>的左上角坐标/>,存在关系/></>并且/>-/>≤H/2;分块的宽和高计算公式为:
左上角坐标的计算公式为:
当P=5时,;当P=9时,/>。值得注意的是,带有边缘重叠的局部块可以维护相邻块间隐藏的上下文关系。将每一个patch调整大小为/>,输入特征提取网络中(ResNet50),得到分块提取特征/>,之后计算/>的平均特征:
之后将Skt通过ResNet50得到完整提取特征,将/>附于/>后,得到增强后的特征/>,最后通过1×1卷积调整/>通道数,得到最后的特征/>。
(2)双层注意力模块
这一模块由自注意力机制与三分支注意力机制并行构成,每一部分重复N次。自注意力机制包括多头自注意力机制和全连接层,如图3所示。具体流程如下:
进行维度变换:,对/>添加可学习的位置编码/>并进行层归一化:
其中,表示向量空间,/>、/>和/>分别表示数量、高度和宽度;
对进行自注意力计算及残差连接:
对进行层归一化并送入MLP模块,最后进行残差连接:
其中,、/>和/>分别表示注意力机制中的查询值、键值和内容值,/>表示注意力运算,/>表示向量维度,/>表示归一化指数函数,/>表示任一多头自注意力,/>表示多头自注意力机制运算,/>表示连接运算,/>表示多头拼接矩阵,表示/>个注意力头,/>、/>和/>分别表示任一多头查询矩阵、任一多头键值矩阵和任一多头内容值矩阵,/>表示层归一化运算,/>表示多层感知机运算;
本发明设置n=12。
三分支注意力机制是一种分别沿C、H、W维度方向进行注意力权重计算并取平均的三分支结构,其可以捕获图像跨维度交互信息,并且具有计算参数量小的特点,如图4所示。考虑输入向量,Z-pool将沿维度/>方向上计算全局最大值与平均值,然后沿D维度方向进行拼接,得到/>的空间注意力张量,见下式:
其中,表示全局最大化运算,/>表述全局平均化运算;
第一分支中,在与/>维度间建立交互:不需要维度转换,计算见下式:
Conv 表示卷积运算,卷积核大小为,使用填充保持输入输出尺寸相同,使用卷积可以进一步提取空间信息。BN表示BatchNorm运算,最后通过Sigmoid 得到注意力权值,并与/>进行元素积运算,得到结果/>;
第二分支中,在与/>维度间建立交互,需要维度转换:/>,计算过程与上式相同,得到结果/>,之后将维度还原:;
第三分支中,在与/>维度间建立交互:需要维度转换:,计算过程与上式相同,得到结果/>,之后将维度还原:/>。之后将/>进行融合:
整个三分支注意力机制重复执行N次。最后将自注意力机制与三分支注意力机制计算得到的特征进行融合:
注意需进行维度转换/>,Conv代表1×1的卷积运算;
(3)分类头模块
分类头包含1×1卷积,全局平均池化以及全连接层三块,公式如下:
其中,表示全局平均池化运算,/>表示线性连接运算,/>为最终输出值;
全局平均池化没有需要优化的参数,同时汇总了空间信息;最后使用一层全连接层输出分类概率。综上所述,FBANet总共有6种变体,见表1。
表1 FBANet变体
表1中,重复次数为自注意力机制Self-Attention块与三分支注意力机制TripletAttention块的重复次数。
步骤三中,目前的HTP草图数量较少,仅有约1600张,而注意力机制网络需要大量的训练样本才会更好的拟合数据的分布,所以本发明首先让FBANet在大规模草图数据集QuickDraw-414k上进行监督形式的预训练。QuickDraw414K是从包含约5千万草图的QuickDraw数据集中随机挑选出来的,具体的,数据集一共包含345类,每个类别在训练集、验证集与测试集中分别含1000、100、100张草图,每张草图分辨率为224×224大小。考虑到数据集中的图像是黑色背景白色笔划,与房树人数据集中白色背景黑色笔划相反,所以还需进行颜色转换。
使用步骤一中所述的数据增强处理方法,总共训练FBANet以及对比模型50 周期,使用SGD优化算法并给一个初始学习率3e-2,学习率使用带有预热学习率的余弦退火算法,其中设置预热学习率轮数为1周期。输入草图大小224×224,分块尺寸大小为40。之后通过归一化函数Softmax输出最终结果,使用交叉熵损失函数计算损失并训练网络:
其中N代表样本总数,K代表类别数量,是类别标签,/>是模型预测值,表示交叉熵损失函数运算。
步骤四中,目前一共有1615位受测者,其中1296位是正常个体,319位是有心理健康问题的个体,每位受测者仅绘制一幅草图。因此,本发明所使用的房树人草图数据集总共有1615张,其中1296张是正常人所绘制的,319张是有心理健康问题患者绘制的。使用步骤二中所述的数据增强方法,本发明使用五折交叉验证方式进行FBANet以及对比模型的训练与测试,每折训练10 周期。使用SGD优化算法并给一个初始学习率1e-3, 学习率使用带有预热学习率的余弦退火算法,其中设置预热学习率 轮数为1 周期。输入草图大小224×224,分块尺寸大小为16,对模型的参数不进行冻结。损失函数同样使用交叉熵损失。
步骤五中,心理状态预测的准确率计算公式如下:
其中,表示获取最大值索引运算,/>表示计算个数运算,/>,表示经过分类网络最终输出的向量,之后获取最终输出值中每个样本的最大值下标/>,准确率的计算是统计/>与标签/>对应位置值相等的个数比上/>中的总个数。
本发明挑选了一些传统的分类模型用于对比实验,最后的实验结果表明对比模型的准确率普遍低于FBANet的准确率(最高准确率达99.07%,平均准确率达97.71%)。
数据集
本发明中采用的QuickDraw-414k数据集以及HTP数据集如见表2,3:
表2 QuickDraw-414k数据集
表3 HTP数据集
对比
挑选了一些传统的分类模型用于对比实验,本实施例比较了CNN,ViT以及FBANet分类模型在QuickDraw-414k数据集和HTP数据集中的表现,如表4所示:
表4 对比模型
ResNet50,一种深度残差网络模型,通过引入残差连接解决了深层网络训练中的梯度消失问题,具有50个卷积层的结构;
Inceptionv3,一种卷积神经网络模型,通过使用Inception模块,即多尺度的卷积核并行操作,提高了网络的表达能力和计算效率;
MobileNetv3,一种轻量级的卷积神经网络模型,通过使用深度可分离卷积和线性瓶颈结构,实现了在计算资源受限情况下高效的图像分类和目标检测;
EfficientNetb5,一种具有高效网络结构的卷积神经网络模型,通过使用复合缩放方法,同时优化网络的深度、宽度和分辨率,实现了更好的性能和计算效率;
ViT,一种基于Transformer架构的视觉分类模型,通过将图像分割为路径,并利用自注意力机制对路径进行建模,实现了在图像分类任务上的优异表现;
Hybrid ViT,一种结合传统卷积神经网络和ViT的分类模型;
Swin ViT,一种基于局部窗口注意力机制的视觉分类模型,通过将输入图像划分为一系列局部窗口,并通过窗口间的注意力交互信息,实现了高效的图像特征提取和分类能力。
所有训练的工作都是在服务器上进行的,使用Tesla V100 16G显存的显卡,模型构建使用PyTorch深度学习框架。
各个分类模型在QuickDraw-414k上的准确率,如表5所示:
表5 各个分类模型在QuickDraw-414k上的准确率
表5展示了各个分类模型在QuickDraw-414k上预训练的结果,从中可以看出本发明设计的FBANet系列模型普遍准确率都高于对比模型,最高准确率是FBA-Basse-9模型(74.01%/73.83%)。
各个分类模型在HTP数据集上的准确率,如表6所示:
表6 各个分类模型在HTP数据集上的准确率
/>
表6展示了各个分类模型在HTP数据集上微调的结果,从中可以看出本发明设计的FBANet系列模型平均准确率与最高准确率都高于对比模型,最高准确率是FBA-Large-5模型(97.71%/99.07%)。
基于与上述方法实施例相同地发明构思,本申请实施例还提供了一种基于房树人草图的心理状态预测系统,该系统可以实现上述方法实施例所提供的功能,如图5所示,该系统包括:
草图预处理模块110、对待识别的HTP草图进行预处理;
分类模型FBANet构建模块120、构建用于捕捉草图语义与空间信息的分类模型FBANet;
模型预训练模块130、将FBANet在大规模草图数据集QuickDraw-414k进行有监督式预训练;
模型微调模块140、利用HTP草图将预训练好的FBANet进行微调,保存微调后的FBANet权重,得到最终的FBANet模型;
预测模块150、将待测HTP草图输入到FBANet模型中,输出心理状态预测结果。
基于与上述方法实施例相同地发明构思,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器210执行时实现所述的基于房树人草图的心理状态预测方法。
所述心理状态预测方法包括如下步骤:
对待识别的HTP草图进行预处理;
构建用于捕捉草图语义与空间信息的分类模型FBANet;
将FBANet在大规模草图数据集QuickDraw-414k进行有监督式预训练;
利用HTP草图将预训练好的FBANet进行微调,保存微调后的FBANet权重,得到最终的FBANet模型;
将待测HTP草图输入到FBANet模型中,输出心理状态预测结果。
本发明具备简便的数据预处理与运算流程的同时拥有较高的准确率,优于传统的分类模型,有望成为通过该心理状态预测方法,更大范围用于高校、企业等机构中,为绘画者心理健康状态辅助识别提供参考建议。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于房树人草图的心理状态预测方法,其特征在于,包括:
步骤一、对待识别的房树人HTP草图进行预处理;
步骤二、构建用于捕捉草图语义与空间信息的分类模型FBANet;
步骤三、将FBANet在大规模草图数据集QuickDraw-414k进行有监督式预训练;
步骤四、利用预处理后待识别的HTP草图将预训练好的FBANet进行微调,保存微调后的FBANet权重,得到最终的FBANet模型;
步骤五、将待测HTP草图输入到FBANet模型中,输出心理状态预测结果。
2.根据权利要求1所述的基于房树人草图的心理状态预测方法,其特征在于,在步骤一中,将原始待识别的HTP草图像素分辨率缩放为224×224,然后使用水平随机翻转、垂直随机翻转、高斯模糊、色泽调整的数据增强处理,最后进行Z-Score归一化处理算法,公式表达如下:
其中,/>表示HTP草图,/>表示向量空间,/>、/>和/>分别表示图的高度、宽度和通道数,/>表示图片缩放,/>表示水平随机翻转,表示垂直随机翻转,/>表示高斯模糊,/>表示色泽调整,/>表示归一化处理,/>表示图片缩放尺寸,/>表示概率,brightness表示亮度,contrast表示对比度,saturation表示饱和度,/>表示颜色,/>表示原始数据均值,/>表示原始数据标准差。
3.根据权利要求1所述的基于房树人草图的心理状态预测方法,其特征在于:步骤二中,所述分类模型FBANet包括特征增强模块、双层注意力模块以及分类头模块;
1)特征增强模块是利用局部图像与整体图像结合的方式进行增强特征,具体如下:
首先将HTP草图分成P块/>,当P=5时,将整张图片分为左上块、右上块、左下块、右下块和中心块,每个分块是正方形,其大小占整张图片的36%;
将每一个分块调整大小为,输入特征提取网络ResNet50中,得到分块提取特征/>,之后计算/>的平均特征/>:
将Skt通过ResNet50得到完整提取特征,将/>附于/>后,得到增强后的特征,最后通过1×1卷积调整/>通道数,得到最后的特征/>;
2)双层注意力模块由自注意力机制与三分支注意力机制并行构成;
2.1)自注意力机制包括多头自注意力机制和全连接层,多头注意力机制用于计算输入序列中各个位置之间的重要性,全连接层用于对序列进行非线性变换,具体如下:
进行维度变换:,对/>添加可学习的位置编码/>并进行层归一化:
其中,表示向量空间,/>、/>和/>分别表示数量、高度和宽度;
对进行自注意力计算及残差连接:
对进行层归一化并送入多层感知机MLP模块,最后进行残差连接:
;
其中,、/>和/>分别表示注意力机制中的查询值、键值和内容值,/>表示注意力运算,/>表示向量维度,/>表示归一化指数函数,/>表示任一多头自注意力,表示多头自注意力机制运算,/>表示连接运算,/>表示多头拼接矩阵,表示/>个注意力头,/>、/>和/>分别表示任一多头查询矩阵、任一多头键值矩阵和任一多头内容值矩阵,/>表示层归一化运算,/>表示多层感知机运算;
2.2)三分支注意力机制是一种分别沿C、H、W维度方向进行注意力权重计算并取平均的三分支结构,用于捕获图像跨维度交互信息;考虑输入向量 ,Z-pool将沿维度/>方向上计算全局最大值与平均值,然后沿D维度方向进行拼接,得到的空间注意力张量,见下式:
其中,表示全局最大化运算,/>表述全局平均化运算;
第一分支中,在与/>维度间建立交互,不需要维度转换,计算见下式:
其中,Conv 表示卷积运算,卷积核大小为,使用填充保持输入输出尺寸相同,使用卷积进一步提取空间信息,BN表示批归一化运算,最后通过激活函数Sigmoid 得到注意力权值,并与/>进行元素积运算,得到结果/>;
第二分支中,在与/>维度间建立交互,需要维度转换:,计算过程与上式相同,得到结果/>,之后将维度还原:/>;
第三分支中,在与/>维度间建立交互,需要维度转换:,计算过程与上式相同,得到结果/>,之后将维度还原:/>,然后将/>进行融合,见下式:
整个三分支注意力机制重复执行N次,最后将自注意力机制与三分支注意力机制计算得到的特征进行融合,见下式:
其中,将进行维度转换:/>,Conv代表1×1的卷积运算;
3)分类头模块,分类头包含1×1卷积,全局平均池化以及全连接层三块,公式如下:
其中,表示全局平均池化运算,/>表示线性连接运算,/>为最终输出值;
最后,使用一层全连接层输出分类概率。
4.根据权利要求1所述的基于房树人草图的心理状态预测方法,其特征在于:在步骤三中的FBANet预训练中,使用随机梯度下降SGD优化算法并设置初始学习率3e-2,学习率使用带有预热学习率的余弦退火算法,其中设置预热学习率轮数为1 周期,输入草图大小224×224,分块尺寸大小为40,之后通过归一化函数Softmax输出最终结果,使用交叉熵损失函数计算损失并训练网络:
其中N代表样本总数,K代表类别数量,是类别标签,/>是模型预测值,表示交叉熵损失函数运算。
5. 根据权利要求1所述的基于房树人草图的心理状态预测方法,其特征在于:在步骤四中,利用HTP草图使用五折交叉验证方式进行FBANet的测试与微调,每折训练10周期,使用SGD优化算法并设置初始学习率1e-3, 学习率使用带有预热学习率的余弦退火算法,其中设置预热学习率轮数为1周期,输入草图大小224×224,分块尺寸大小为16,对模型的参数不进行冻结,损失函数使用交叉熵损失,得到最终的FBANet模型。
6.根据权利要求1所述的基于房树人草图的心理状态预测方法,其特征在于:步骤五中,心理状态预测的准确率计算公式如下:
其中,表示获取最大值索引运算,/>表示计算个数运算,,表示经过分类网络最终输出的向量,之后获取最终输出值/>中每个样本的最大值下标/>,准确率的计算是统计/>与标签/>对应位置值相等的个数比上/>中的总个数。
7.一种基于房树人草图的心理状态预测系统,其特征在于:所述系统包括如下:
草图预处理模块、对待识别的HTP草图进行预处理;
分类模型FBANet构建模块、构建用于捕捉草图语义与空间信息的分类模型FBANet;
模型预训练模块、将FBANet在大规模草图数据集QuickDraw-414k进行有监督式预训练;
模型微调模块、利用预处理后待识别的HTP草图将预训练好的FBANet进行微调,保存微调后的FBANet权重,得到最终的FBANet模型;
预测模块、将待测HTP草图输入到FBANet模型中,输出心理状态预测结果。
8.一种计算机可读存储介质,其特征在于:其存储有计算机程序,计算机程序被计算机执行时实现如权利要求1-6中任一项所述的基于房树人草图的心理状态预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311643711.6A CN117372786A (zh) | 2023-12-04 | 2023-12-04 | 基于房树人草图的心理状态预测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311643711.6A CN117372786A (zh) | 2023-12-04 | 2023-12-04 | 基于房树人草图的心理状态预测方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117372786A true CN117372786A (zh) | 2024-01-09 |
Family
ID=89394952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311643711.6A Pending CN117372786A (zh) | 2023-12-04 | 2023-12-04 | 基于房树人草图的心理状态预测方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117372786A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160361A (zh) * | 2019-11-18 | 2020-05-15 | 中国科学院自动化研究所 | 一种图像分类方法、装置以及计算机可读介质 |
CN111477328A (zh) * | 2020-03-31 | 2020-07-31 | 北京智能工场科技有限公司 | 一种非接触式的心理状态预测方法 |
CN116597946A (zh) * | 2023-04-11 | 2023-08-15 | 宜宾学院 | 一种基于房-树-人的青少年心理健康检测方法 |
-
2023
- 2023-12-04 CN CN202311643711.6A patent/CN117372786A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160361A (zh) * | 2019-11-18 | 2020-05-15 | 中国科学院自动化研究所 | 一种图像分类方法、装置以及计算机可读介质 |
CN111477328A (zh) * | 2020-03-31 | 2020-07-31 | 北京智能工场科技有限公司 | 一种非接触式的心理状态预测方法 |
CN116597946A (zh) * | 2023-04-11 | 2023-08-15 | 宜宾学院 | 一种基于房-树-人的青少年心理健康检测方法 |
Non-Patent Citations (2)
Title |
---|
HUAYI WANG等: ""FBANet: Transfer Learning for Depression Recognition Using a Feature-Enhanced Bi-Level Attention Network"", 《ENTROPY》, pages 1 - 20 * |
梁先森-在技术的路上奔跑: "秒懂-深度学习框架的中计算准确率accuracy()原理(基于paddlepaddle)"", pages 1 - 3, Retrieved from the Internet <URL:https://blog.csdn.net/lzx159951/article/details/104877138> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529447B (zh) | 一种小样本人脸识别方法 | |
CN112766158B (zh) | 基于多任务级联式人脸遮挡表情识别方法 | |
CN109410168B (zh) | 用于确定图像中的子图块类别的卷积神经网络的建模方法 | |
CN108596258A (zh) | 一种基于卷积神经网络随机池化的图像分类方法 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN113205002B (zh) | 非受限视频监控的低清人脸识别方法、装置、设备及介质 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
Kwasniewska et al. | Super-resolved thermal imagery for high-accuracy facial areas detection and analysis | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN110827304A (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统 | |
CN112101262A (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN114676776A (zh) | 一种基于Transformer的细粒度图像分类方法 | |
CN110991374B (zh) | 一种基于rcnn的指纹奇异点检测方法 | |
CN115410059A (zh) | 基于对比损失的遥感图像部分监督变化检测方法及设备 | |
CN110097499B (zh) | 基于谱混合核高斯过程回归的单帧图像超分辨率重建方法 | |
Wang et al. | SERR‐U‐Net: Squeeze‐and‐Excitation Residual and Recurrent Block‐Based U‐Net for Automatic Vessel Segmentation in Retinal Image | |
CN111507288A (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN112800979B (zh) | 一种基于表征流嵌入网络的动态表情识别方法及系统 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
Zhang et al. | A multi-head convolutional neural network with multi-path attention improves image denoising | |
CN116758092A (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN117372786A (zh) | 基于房树人草图的心理状态预测方法、系统及存储介质 | |
Zhang et al. | Multi-scale image recognition strategy based on convolutional neural network | |
CN113705731A (zh) | 一种基于孪生网络的端到端图像模板匹配方法 | |
Yuan et al. | An efficient attention based image adversarial attack algorithm with differential evolution on realistic high-resolution image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |