CN110472564A - 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法 - Google Patents

一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法 Download PDF

Info

Publication number
CN110472564A
CN110472564A CN201910747125.3A CN201910747125A CN110472564A CN 110472564 A CN110472564 A CN 110472564A CN 201910747125 A CN201910747125 A CN 201910747125A CN 110472564 A CN110472564 A CN 110472564A
Authority
CN
China
Prior art keywords
feature
network
layer
output
resnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910747125.3A
Other languages
English (en)
Inventor
田文洪
许凌霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongke Cluster Information Technology Co Ltd
Original Assignee
Chengdu Zhongke Cluster Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongke Cluster Information Technology Co Ltd filed Critical Chengdu Zhongke Cluster Information Technology Co Ltd
Priority to CN201910747125.3A priority Critical patent/CN110472564A/zh
Publication of CN110472564A publication Critical patent/CN110472564A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training

Abstract

本发明提供一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法,包括:首先从一秒中的视频流中等时间提取出12张图片,将12张图片作为输入进入到该模型中,接着通过ResNET网络对图片的特征进行提取,经过多层Conv={Conv1,Conv2,Conv3,Conv4,Conv5}得到一个多维的图片特征,即Conv5的输出结果,之后通过2倍上采样以及经过1*1卷积变换的Conv层相加得到不同尺度的特征值M={M2,M3,M4,M5},接着将不同图片的不同尺度{M2,M3,M4,M5}特征图通过3*3的卷积层进行去除由于上采样带来的混叠效应,之后通过全连接层将特征图展成一维的特征向量从而分别作为四个双向LSTM模型的输入,得到输出Ot={Ot2,Ot3,Ot4,Ot5},最后将Ot经过一层全连接层得到最终的预测值。

Description

一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法
技术领域
本发明涉及计算机技术领域,特别涉及一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法。
背景技术
心理疾病作为众多疾病中较难确诊并不好发现的一种,一直是人们在所有疾病中重视度较低的疾病。基于对心理疾病的抵触心理以及对心理疾病缺乏基本的认识,人们往往会在心理疾病产生初期并没有及时就医,而是选择自己调节,直到心理疾病严重到影响到正常生活甚至生命的时候才迫不得已才进行就医,而抑郁症作为心理疾病中的一个相对普遍的疾病,正或多或少地影响着人们生活的方方面面。如何针对当下社会的心理疾病的情况设计出一个较好的解决方案是一个亟待解决的课题。
计算机视觉提供了较好的解决方案,通过摄像头捕捉到人的面部表情并将结果传输到计算机,通过深度学习对获得的图片进行处理分析,从而获得想要的结果。图像识别问题希望借助计算机程序来对图片中的内容进行处理、分析和理解,是的计算机可以区分图片中不同的目标和对象。
卷积神经网络作为图像处理中的一种重要技术,可以很好地提取图像中特征信息,现常见的网络架构例如ResNet,VggNet,GoogleNet等等都有比较好的效果,通过卷积神经网络提取出来的高度压缩的特征通过变换成1维特征向量,再通过几层全连接层实现判别物体的输出。
特征金字塔网络FPN在保证高速度和高精度的基础上提供了一种可以提取图像中不同尺度的特征,通过将卷积神经网络提取出来的高压缩特征以及在卷积神经网络过程中的隐藏层进行结合,从而得到尺度不相同的特征。把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息。而心理疾病在脸部表现的往往是面部微表情和小块肌肉的活动,而FPN就提供了比较好的解决方案。
循环神经网络(RNN)主要针对输入数据具有依赖性且是序列模式。相比卷积神经网络,网络被赋予对前面的内容的一种“记忆”功能。LSTM是循环神经网络的一种,使用LSTM可以更好的捕捉较长距离的依赖关系。双向LSTM(即BiLSTM)是由前向LSTM与后向LSTM组合而成,可以编码从前到后、从后到前的信息。在更细粒度的微表情识别预测抑郁症(抑郁等级)过程中,需要考虑图片序列的前后特征信息的交互。对此,BiLSTM能提供比较好的解决方法。
微表情是引发隐藏某种真实情绪的短暂和不自主的快速面部表情,由于面部微表情的发生时间一般非常短暂,所以近年来对微表情识别一直是计算机视觉中的难点,LBP-TOP和相应的预处理技术已经在微表情识别领域有了较大的突破,本发明就通过识别微表情来判断抑郁症这个课题通过对网络结构的改进来更准确地识别抑郁症。
发明内容
本发明的目的在于:提出了一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法。该方法不仅可以很好地解决在心理疾病上有关抑郁症的判别问题,而且可以用于其他相关视频分析上面。
本发明包括了特征提取以及特征串联的方法,其主要步骤包括:。
特征提取:通过使用ResNET对原图片进行特征提取。
产生不同尺度特征:通过使用特征金字塔网络对ResNET提取出来的特征图片进行一系列卷积求和操作,从而产生不同尺度特征。
特征串联:将不同图片中提取出来的相同尺度特征通过使用双向LSTM联,从而得到输出结果。
附图说明
图1是本发明具体实施的流程图。
图2是本发明具体实施的模型特征提取示意图。
图3是本发明具体实施例的模型特征产生示意图。
具体实施方式
本发明的实施分为模型的训练和模型的使用两个部分。下面根据附图和实施例,对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
图2是本发明具体实施的模型特征提取示意图。
该特征金字塔网络的双向LSTM微表情识别抑郁症方法如图1所示。其中,Bottom-up部分为ResNet,可以将处理过的图片送入预训练的特征网络,Top-down部分为FPN核心部分,可以提供不同尺度的特征信息。ResNet网络架构从图像中提取了特征,经过一层层卷积层,图片的大小被压缩,图片中每个像素点所代表的特征值随着层数的增多而增多,最终可以得到高度代表原图片的特征信息。但是因为最终提取出来的特征往往映射了原图片中很大的一部分,所以在这种情况中,图片中微小部分的特征难以较好的表示。
本发明通过使用特征金字塔网络,将最后的conv5的输出结果经过1*1的卷积非线性变换后作为一层特征M5进入到下一层网络,M5层经过2倍上采样(双线性插值法)和conv4输出结果经过1*1卷积非线性变换进行相加得到该层的输出特征值,同理,M4,M3,M2都是如此。然后通过3*3的卷积层去处理已经融合的特征图,从而消除上采样的混叠效应,得到{P2,P3,P4,P5}。在训练过程中,通过不断的迭代,改变卷积的参数,从而生成最精细的特征,由此可以得到在不同尺度下对原图片的特征值,最终通过一层全连接层展成一维的特征向量,作为下一部分双向LSTM的输入。
图3是本发明具体实施的模型特征产生示意图。
由于需要识别抑郁症,单凭一张图片并不能很好地识别出结果,本发明设想通过将一秒中的视频截取为12张图片,根据12个图片的细微变化过程来判别是否有抑郁症。由于涉及时间上的依赖性,并且考虑到序列的前后特征信息的交互,本发明通过采用双向LSTM模型进行前向、后向的串联。对FPN输出的不同尺度特征信息{P2,P3,P4,P5},经过一层全连接层展成一维特征向量{Q1,Q2,Q3,Q4},并分别作为四个相对独立的双向LSTM模型的输入,得到双向LSTM网络的输出{Ot2,Ot3,Ot4,Ot5},最后再经过一层全连接层,得到最后的抑郁症识别预测结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法,其特征包括,包括下列步骤:
特征提取:将1秒的视频等时间分成12张图片,通过ResNet对图片分别进行特征提取;
特征产生:通过将ResNet提取出的图像通过图像金字塔进行一系列卷积求和操作,从而产生不同尺度特征;
特征串联:将不同图片中提取出来的相同尺度特征通过使用双向LSTM网络进行特征串联,从而得到输出结果。
2.如权利要求1所述的方法,在特征提取阶段采用ResNet加特征金字塔的形式对图片中的特征进行提取,特点在于使用了残差学习的方法对图像的特征进行提取,使得网络在训练的时候能够更加快速的进行收敛,同时加大网络特征提取的能力;
若将输入设为,将某一有参网络层设为,那么以为输入的此层的输出将为;一般的CNN网络如Alexnet/VGG等会直接通过训练学习出参数函数的表达,从而直接学习
与传统卷积神经网络不同,残差网络主要特点是能够利用网络每一层有参网络对残差进行学习,即,即学习;其中这一部分为直接的identitymapping,而则为有参网络层要学习的输入输出间的残差,一般的CNN网络只是在最后输出层的时候对映射函数进行拟合,比较困难,这也是为什么普通卷积神经网络比较难以训练的原因;而ResNet不去直接学习映射函数,转而去学习一个残差函数,在这个公式中,只要就构成了一个恒等映射.而且,拟合残差肯定更加容易;
经过第一步RestNet特征提取之后,我们采用特征金字塔网络(FPN)对ResNet提取到的特征进行进一步地处理,得到不同尺寸的特征图,这将在网络进行比较细小的图像部分识别时产生帮助;
在这一阶段FPN的输入是任意大小尺寸的图像,并通过全卷积层输出多个级别的按比例缩放的特征图,对于ResNet,我们使用每个阶段的最后残差块的特征激活输出;
在FPN网络中,输入数据自上而下的经过网络每一层,在金字塔高层的网络层中,网络将上采样输入数据中空间粗略但是语义健壮的特征图,来幻化更高的分辨率特征;之后,输入数据通过横向连接从下而上地经过另外一个网络层,来增强之前提取到的特征;每个横向连接融合来自从下而上的路径和从上而下的路径同样空间尺寸的特征图;
最后,我们使用双向LSTM将从特征金色塔FPN输出的特征进行串联并输出最终的结果;双向LSTM的优势在于可以长期记忆之前的和之后的若干输入,而在进行微表情识别的任务中,往往需要由前面的若干输入和后面的若干输入共同决定,这样会更加准确;
网络的前向传播层和后向传播层,数据流的最终出路都是输出层,在正向计算的过程中,时间从1到t正向计算,每一个时刻隐含层的输出都将被保存;同样地,在反向计算中,从时刻t到时刻1,每一个隐含层的输出也将被分别保存,最后在每个时刻结合前向传播层和后向传播层的相应时刻输出的结果得到最终的输出;用数学表达式如下:
(1)
(2)
(3)。
3.如权利要求1,2中所述的方法,其特征是采用特征金字塔的方法,可以输出不同尺度的特征,从而可以更好地关注图像中更细小的部分,并且多种尺度的特征作为双向LSTM的输入,可以输出更加准确的结果。
4.如权利要求2中所述的方法,采用了ResNet网络,使用了残差网络的思想,使得参数的拟合速度加快,并且所需要的参数量相比其他常见的卷积神经网络架构少很多。
5.如权利要求2中所述的方法,采用了双向LSTM,相比单向LSTM,对时间线上的图片进行前后关联,更好地利于前后图片的交互,从而输出更加准确的结果。
CN201910747125.3A 2019-08-14 2019-08-14 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法 Pending CN110472564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910747125.3A CN110472564A (zh) 2019-08-14 2019-08-14 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910747125.3A CN110472564A (zh) 2019-08-14 2019-08-14 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法

Publications (1)

Publication Number Publication Date
CN110472564A true CN110472564A (zh) 2019-11-19

Family

ID=68510751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910747125.3A Pending CN110472564A (zh) 2019-08-14 2019-08-14 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法

Country Status (1)

Country Link
CN (1) CN110472564A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929697A (zh) * 2019-12-17 2020-03-27 中国人民解放军海军航空大学 一种基于残差结构的神经网络目标识别方法及系统
CN111539458A (zh) * 2020-04-02 2020-08-14 咪咕文化科技有限公司 特征图处理方法、装置、电子设备及存储介质
CN112380924A (zh) * 2020-10-26 2021-02-19 华南理工大学 一种基于面部微表情动态识别的抑郁倾向检测方法
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和系统
CN113052113A (zh) * 2021-04-02 2021-06-29 中山大学 一种基于紧凑型卷积神经网络的抑郁症识别方法及系统
CN113255535A (zh) * 2021-05-28 2021-08-13 广州大学 一种基于微表情分析的抑郁症识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194347A (zh) * 2017-05-19 2017-09-22 深圳市唯特视科技有限公司 一种基于面部动作编码系统进行微表情检测的方法
US20180276535A1 (en) * 2017-03-27 2018-09-27 Microsoft Technology Licensing, Llc Input-output example encoding
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276535A1 (en) * 2017-03-27 2018-09-27 Microsoft Technology Licensing, Llc Input-output example encoding
CN107194347A (zh) * 2017-05-19 2017-09-22 深圳市唯特视科技有限公司 一种基于面部动作编码系统进行微表情检测的方法
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN HE ETC.: ""Multi View Facial Action Unit Detection Based on CNN and BLSTM-RNN"", 《2017 IEEE 12TH INTERNATIONAL CONFERENCE ON AUTOMATIC FACE & GESTURE RECOGNITION》 *
TSUNG-YI LIN: ""Feature Pyramid Networks for Object Detection"", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929697A (zh) * 2019-12-17 2020-03-27 中国人民解放军海军航空大学 一种基于残差结构的神经网络目标识别方法及系统
CN110929697B (zh) * 2019-12-17 2021-04-13 中国人民解放军海军航空大学 一种基于残差结构的神经网络目标识别方法及系统
CN111539458A (zh) * 2020-04-02 2020-08-14 咪咕文化科技有限公司 特征图处理方法、装置、电子设备及存储介质
CN111539458B (zh) * 2020-04-02 2024-02-27 咪咕文化科技有限公司 特征图处理方法、装置、电子设备及存储介质
CN112380924A (zh) * 2020-10-26 2021-02-19 华南理工大学 一种基于面部微表情动态识别的抑郁倾向检测方法
CN112380924B (zh) * 2020-10-26 2023-09-15 华南理工大学 一种基于面部微表情动态识别的抑郁倾向检测方法
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和系统
CN113052113A (zh) * 2021-04-02 2021-06-29 中山大学 一种基于紧凑型卷积神经网络的抑郁症识别方法及系统
CN113052113B (zh) * 2021-04-02 2022-11-04 中山大学 一种基于紧凑型卷积神经网络的抑郁症识别方法及系统
CN113255535A (zh) * 2021-05-28 2021-08-13 广州大学 一种基于微表情分析的抑郁症识别方法

Similar Documents

Publication Publication Date Title
CN110472564A (zh) 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法
Zhang et al. Deep high-resolution representation learning for cross-resolution person re-identification
CN107154023A (zh) 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN109726654A (zh) 一种基于生成对抗网络的步态识别方法
CN102880855B (zh) 一种基于云模型的人脸表情识别方法
Xin et al. Residual attribute attention network for face image super-resolution
CN101169830A (zh) 基于嵌入式隐马尔可夫模型和选择性集成的人脸画像自动生成方法
CN106991385A (zh) 一种基于特征融合的人脸表情识别方法
Jiang et al. Rdfnet: A fast caries detection method incorporating transformer mechanism
Lin et al. Improved xception with dual attention mechanism and feature fusion for face forgery detection
Wang et al. Learning spatiotemporal and motion features in a unified 2d network for action recognition
Xu et al. CP3: Unifying point cloud completion by pretrain-prompt-predict paradigm
Wang et al. UformPose: A U-shaped hierarchical multi-scale keypoint-aware framework for human pose estimation
Wang et al. Msfnet: multistage fusion network for infrared and visible image fusion
Feng et al. Local to global feature learning for salient object detection
CN111274901B (zh) 一种基于深度门控递归单元的手势深度图像连续检测方法
Sui et al. Simultaneous image reconstruction and lesion segmentation in accelerated MRI using multitasking learning
Yuan et al. M $^ 3$ Net: Multilevel, Mixed and Multistage Attention Network for Salient Object Detection
CN107330382A (zh) 基于局部卷积特征联合表示的单样本人脸识别方法及装置
Ou et al. 3D Deformable Convolution Temporal Reasoning network for action recognition
CN110287761A (zh) 一种基于卷积神经网络和隐变量分析的人脸年龄估计方法
Cao et al. Three-classification face manipulation detection using attention-based feature decomposition
CN111104868B (zh) 一种基于卷积神经网络特征的跨质量人脸识别方法
Deng et al. Problem behaviors recognition in videos using language-assisted deep learning model for children with autism
CN106228163A (zh) 一种基于特征选择的局部差三进制序列图像特征描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119