CN116580442A - 基于可分离卷积的微表情识别方法、装置、设备及介质 - Google Patents

基于可分离卷积的微表情识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN116580442A
CN116580442A CN202310635963.8A CN202310635963A CN116580442A CN 116580442 A CN116580442 A CN 116580442A CN 202310635963 A CN202310635963 A CN 202310635963A CN 116580442 A CN116580442 A CN 116580442A
Authority
CN
China
Prior art keywords
video
micro
expression
video frame
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310635963.8A
Other languages
English (en)
Inventor
宋延新
王健宗
黄章成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310635963.8A priority Critical patent/CN116580442A/zh
Publication of CN116580442A publication Critical patent/CN116580442A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及微表情识别技术领域,尤其涉及一种基于可分离卷积的微表情识别方法、装置、设备及介质。上述方法应用于医疗领域,本发明中,通过将三维卷积网络分离为二维空间卷积与一维时间卷积,并在二维空间卷积后引入空间注意力机制,提取待识别微表情视频中的二维空间特征,确定出空间位置的权重,通过一维时间卷积,提取待识别微表情视频中的时间权重特征,确定出每一视频帧的时间权重,通过对视频特征增加空间位置的权重与时间权重,减小了待识别微表情视频中视频帧图像中的背景因素对空间特征提取的影响,丰富了待识别微表情视频中的时空特征,从而提高微表情识别精度。

Description

基于可分离卷积的微表情识别方法、装置、设备及介质
技术领域
本发明涉及微表情识别技术领域,尤其涉及一种基于可分离卷积的微表情识别方法、装置、设备及介质。
背景技术
当人类在高风险环境中时,个体情绪更可能通过微表情表现出来。目前,情绪相关障碍(情绪障碍,包括重性抑郁障碍、双相情感障碍及焦虑障碍等)的诊断,主要依靠患者自身及知情人提供的临床病史,结合专业的精神检查,医生根据诊断标准做出综合判断。病人往往情绪波动性大,易产生不良情绪,如愤怒、焦虑不安、抑郁、孤独感、冲动性症状等。通常使用的筛查辅助工具(如心理评估量表)为症状严重程度评估量表,诊断结果受到患者主观表达的影响,使诊断结果存在误差。由于微表情更倾向于那些被抑制的表情,因此微表情更能体现人们真实的感受和动机。通过微表情识别更有利于症状严重程度的诊断。
微表情识别是指在已经确定是微表情的情况下进行详细分类(如:积极、消极、惊讶)。传统的微表情识别算法使用LBP、LBP-TOP、LBP-SIP等算子来提取纹理信息,再结合SVM、多核分类器以及随机森林来识别微表情。传统的微表情识别方法把特征提取和分类器设计分开来做,然而因为手工设计特征需要大量的经验以及调试工作,其次选择一个比较合适的分类器算法也是一大难点。近年来,随着深度学习的发展,深度神经网络算法以及注意力机制的广泛应用,为微表情识别带来了新的研究方向。微表情识别深度学习方法一般使用CNN+RNN网络模型或者使用三维卷积神经网络来提取特征,但是特征冗余较大,有效信息不明确,使微表情识别的精度较低,因此如何提高微表情的识别精度成为亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于可分离卷积的微表情识别方法、装置、设备及介质,以解决微表情的识别精度较低的问题。
本申请实施例的第一方面提供了一种基于可分离卷积的微表情识别方法,所述微表情识别方法包括:
获取待识别微表情视频,对所述待识别微表情视频进行特征提取,确定视频特征;
使用空间注意力机制对所述视频特征进行计算,得到空间注意力值,使用时间注意力机制对所述视频特征进行计算,得到时间注意力值;
对所述视频特征进行二维空间卷积,获取第一输出结果,基于所述第一输出结果和所述空间注意力值,获取第一特征;
对所述第一特征进行一维时间卷积,获取第二输出结果,基于所述第二输出结果和所述时间注意力值,获取第二特征;
对所述第二特征进行类别划分,确定划分类别为所述待识别微表情视频的识别结果。
本申请实施例的第二方面提供了一种基于可分离卷积的微表情识别装置,所述微表情识别装置包括:
获取模块,用于获取待识别微表情视频,对所述待识别微表情视频进行特征提取,确定视频特征;
计算模块,用于使用空间注意力机制对所述视频特征进行计算,得到空间注意力值,使用时间注意力机制对所述视频特征进行计算,得到时间注意力值;
第一特征获取模块,用于对所述视频特征进行二维空间卷积,获取第一输出结果,基于所述第一输出结果和所述空间注意力值,获取第一特征;
第二特征获取模块,用于对所述第一特征进行一维时间卷积,获取第二输出结果,基于所述第二输出结果和所述时间注意力值,获取第二特征;
分类模块,用于对所述第二特征进行类别划分,确定划分类别为所述待识别微表情视频的识别结果。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的微表情识别装置方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的微表情识别装置方法
本发明与现有技术相比存在的有益效果是:
获取待识别微表情视频,对待识别微表情视频进行特征提取,确定视频特征使用空间注意力机制对视频特征进行计算,得到空间注意力值,使用时间,注意力机制对视频特征进行计算,得到时间注意力值,对视频特征进行二维空间卷积,获取第一输出结果,基于第一输出结果和空间注意力值,获取第一特征,对第一特征进行一维时间卷积,获取第二输出结果,基于第二输出结果和时间注意力值,获取第二特征,对第二特征进行类别划分,确定划分类别为待识别微表情视频的识别结果。本发明中,通过将三维卷积网络分离为二维空间卷积与一维时间卷积,并在二维空间卷积后引入空间注意力机制,提取待识别微表情视频中的二维空间特征,确定出空间位置的权重,通过一维时间卷积,提取待识别微表情视频中的时间权重特征,确定出每一视频帧的时间权重,通过对视频特征增加空间位置的权重与时间权重,减小了待识别微表情视频中视频帧图像中的背景因素对空间特征提取的影响,丰富了待识别微表情视频中的时空特征,从而提高微表情识别精度。在医疗领域中情绪障碍辅助诊断系统中,通过获取患者的微表情,对患者症状的严重程度进行辅助判断,从而提高对患者症状的严重程度的判断精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种基于可分离卷积的微表情识别方法的一应用环境示意图;
图2是本发明一实施例提供的一种基于可分离卷积的微表情识别方法的流程示意图;
图3是本发明一实施例提供的一种基于可分离卷积的微表情识别装置的结构示意图;
图4是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明一实施例提供的一种基于可分离卷积的微表情识别方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本申请实施例中,在对患者进行诊断时,通过情绪障碍辅助诊断系统对患者的微表情进行识别,首先通过情绪障碍辅助诊断系统的摄像设备获取患者的微表情视频,对微表情视频进行特征提取,确定视频特征,使用空间注意力机制对视频特征进行计算,得到空间注意力值,使用时间注意力机制对视频特征进行计算,得到时间注意力值,对视频特征进行二维空间卷积,获取第一输出结果,基于第一输出结果和空间注意力值,获取第一特征,对第一特征进行一维时间卷积,获取第二输出结果,基于第二输出结果和时间注意力值,获取第二特征,对第二特征进行类别划分,得到患者的微表情是被结果,根据患者的微表情识别结果对患者的诊断结果进行辅助判断,从而提高患者诊断结果。
参见图2,是本发明一实施例提供的一种基于可分离卷积的微表情识别方法的流程示意图,上述基于可分离卷积的微表情识别方法可以应用于图1中的服务端,上述服务端连接相应的客户端,为客户端提供模型训练服务。如图2所示,该基于可分离卷积的微表情识别方法可以包括以下步骤。
S201:获取待识别微表情视频,对待识别微表情视频进行特征提取,确定视频特征。
在步骤S201中,通过云服务器、数据库、摄像头或者图像采集设备获取待识别微表情视频,对待识别微表情视频进行特征提取,确定视频特征,其中特征提取是提取待识别微表情视频中的人脸区域特征。
本实施例中,视频采集终端可以获得待识别微表情视频。其中,待识别微表情视频以是视频采集终端通过摄像头实时采集的,也可以是视频采集终端从视频中截取的,根据实际需要进行设置,本发明实施例不做限定。例如,客户到银行营业网点的自助设备办理业务时,自助设备可以通过摄像头实时采集客户人脸的一段时间的视频,作为待识别微表情视频。例如,需要对监控视频中出现的某个人进行微表情识别时,可以从监控视频中截取一段包括上述某个人的人脸的一段视频,作为待识别微表情视频。
获取到待识别微表情视频后,对待识别微表情视频进行特征提取,确定视频特征。其中特征提取是提取待识别微表情视频中的人脸区域特征。
可选地,获取待识别微表情视频,对待识别微表情视频进行特征提取,确定视频特征,包括:
对待识别微表情视频进行分帧处理,得到待识别微表情视频对应的视频帧序列;
通过预设人脸检测模型,对视频帧序列中的每一视频帧进行人脸检测与定位,获取每一视频帧的目标区域;
利用预设视觉库中的面部关键特征点对每一视频帧的目标区域进行对齐处理,获取每一视频帧的特征,根据每一视频帧的特征,确定视频特征。
本实施例中,分帧处理为对输入的待识别微表情视频中每帧中的图像分离出来的处理过程,运用分帧处理方法,通过人脸区域检测模型对视频帧序列中的每一视频帧图像分离出待识别图像,人脸区域检测模型的网络结构为基于YOLO构建的目标检测模型的网络结构。
对视频帧序列中的每一视频帧进行人脸区域检测,人脸区域检测时,使用人脸区域检测模型进行检测,人脸区域检测模型为训练完成的用于识别人脸的目标检测模型,人脸区域检测模型的网络结构可以为基于YOLO的网络结构,通过人脸区域检测模型对频帧序列中的每一视频帧图像进行人脸识别,人脸识别为提取图像中的人脸特征,人脸特征为人物的眼、鼻、口、眉等与人脸相关的特征,根据提取的人脸特征进行目标区域的识别,得到含有人脸的人脸图像。
其中,基于YOLO(You Only Look Once)构建的目标检测模型为基于YOLO算法用于识别人脸目标的目标检测模型,YOLO是一种基于深度神经网络的对象识别和定位算法,其最大的特点是运行速度很快,可以用于实时系统。
利用预设视觉库中的面部关键特征点对每一视频帧的目标区域进行对齐处理,获取每一视频帧的特征,使用OpenCV的dlib库对视频帧序列中的每一视频帧分别进行68点人脸关键点进行对齐,提取每一视频帧中的关键点特,获取每一视频帧的特征,根据每一视频帧的特征,确定视频特征。
S202:使用空间注意力机制对视频特征进行计算,得到空间注意力值,使用时间注意力机制对视频特征进行计算,得到时间注意力值。
在步骤S202中,通过空间注意力机制获取待识别微表情视频中视频帧中感兴趣区域,通过时间注意力机制获取待识别微表情视频中视频帧中感兴趣的对应视频帧,空间注意力值为待识别微表情视频中视频帧中每个区域对目标区域贡献率,时间注意力值为待识别微表情视频中每一视频帧在总损失中占得比值。
本实施例中,使用空间注意力机制对视频特征进行计算时,通过空间注意力网络对视频特征进行计算,采用类残差网络结构中的空间注意力网络,突出待识别微表情视频中视频帧中背景与目标区域的人脸区别,空间注意力网络采用沙漏型网络结构,通过卷积和下采样等操作缩小待识别微表情视频中视频帧中每一视频帧的特征图尺寸,然后通过去卷积和上采样等操作扩大特征图尺寸,放大高层特征中激活的前景显著区域,从而突出目标区域前景与语义背景的差异性特征,得到空间注意力值。
将待识别微表情视频中视频帧中每一视频帧输入的空间注意力网络获得空间注意力图,空间注意力图上的像素值代表待识别微表情视频中视频帧中每个区域的相应权值,利用Sigmoid激活函数将权值元素限制在0至1之间,使加权处理后得到的特征图不发生显著变化,而且能够在一定程度上抑制背景信息。
使用时间注意力机制对视频特征进行计算时,通过时间注意力网络自适应地捕捉待识别微表情视频中视频帧中之间的时间关联性。时间注意力网络学习要应用于过去的图像数据帧的时间注意力权重,以确定在待识别微表情视频中视频帧中在那一时刻的视频帧的重要性。
将待识别微表情视频中视频帧中每一视频帧输入的时间注意力网络获得时间注意力图,是阿金注意力图上的像素值代表待识别微表情视频中视频帧中每个视频帧的相应权值,利用Sigmoid激活函数将权值元素限制在0至1之间,使加权处理后得到的特征图不发生显著变化,而且能够在一定程度上丰富视频帧的多样性。
需要说明的是,空间注意力网络和时间注意力网络可以包括长短期记忆(LSTM)网络,由LSTM单元构成。每个LSTM单元按顺序处理输入数据,并随时间保持该输入数据的隐藏状态。在每个时间步长时,LSTM网络处理该时间步长的对应的视频特征和由LSTM网络在过去的时间步长期间生成的先前隐藏状态矢量,以生成LSTM输出。然后,LSTM网络在每个时间步长时学习每个LSTM输出的时间注意力权重。所学习的时间注意力权重是该时间步长的区域特征和该时间步长的隐藏矢量的内积,并且反映了给定帧处的该LSTM输出的相对重要性,
时间注意力网络学习权衡视频帧中的任何给定帧处的图像数据先前帧的重要性,空间注意力网络学习视频帧中的任何给定帧中的不同位置的重要性。空间注意力网络和时间注意力网络共同改进了待识别微表情视频中视频帧中微表情特征的识别精度。
可选地,使用空间注意力机制对视频特征进行计算,得到空间注意力值,包括:
对待识别微表情视频中的每一视频帧划分区域,得到每一视频帧中每个区域的特征;
使用空间注意力机制对每个区域的特征进行计算,获取每一视频帧中每个区域的权重值;
根据每一视频帧中每个区域的权重值,确定空间注意力值。
本实施例中,对待识别微表情视频中的每一视频帧划分区域,通过空间注意力网络学习每个区域的重要性,根据学习到每个区域的重要性,基于重要性对每个区域的赋予不同的权重值,根据每一视频帧中每个区域的权重值,确定空间注意力值。
可选地,使用时间注意力机制对视频特征进行计算,得到时间注意力值,包括:
根据视频特征,获取待识别微表情视频中的每一视频帧的特征;
根据每一视频帧的特征,使用时间注意力机制对每一视频帧的特征进行计算,得到每一视频帧的权重值;
将每一视频帧的权重值确定为时间注意力值。
本实施例中,通过时间注意力网络学习每一视频帧的重要性,根据学习到每个视频帧的重要性,基于重要性对每一视频帧赋予不同的权重值,根据每一视频帧中的权重值,确定是时间注意力值。
可选地,根据每一视频帧中每个区域的权重值,确定空间注意力值,包括:
将每一视频帧中相同区域的权重值相加,得到每一区域的目标权重值;
将每一区域的目标权重值确定为空间注意力值。
本实施例中,当获取到每一视频帧中每个区域的权重值时,在一个视频帧中每个区域对应一个权重值,待识别微表情视频中对应的视频帧中同一区域存在多个权重值,不同视频帧中同一区域在该视频帧中的重要性不相等,将不同视频帧中同一区域中的权重值相加,得到每个区域的目标权重值,将每个区域的目标权重值进行归一化处理,得到每一区域空间注意力值域的归一化后的目标权重值,将每一区域的归一化后的目标权重值确定为。
可选地,根据每一视频帧的特征,使用时间注意力机制对每一视频帧的特征进行计算,得到每一视频帧的权重值,包括:
根据每一视频帧的特征,计算每一视频帧的特征与剩余视频帧的特征的相似度;
将相似度值进行归一化处理,得到归一化后的相似度值;
将归一化后的相似度值确定为时间注意力值。
本实施例中,在学每一视频帧的重要性时,可以根据算每一视频帧的特征与剩余视频帧的特征的相似度进行确定,当该视频帧与剩余视频帧的特征的相似度较大时,则认为该时刻对应的视频帧比较重要,对该视频帧赋予更大的权重,当该视频帧与剩余视频帧的特征的相似度较小时,则认为该时刻对应的视频帧对整个待识别微表情视频在获取对应的特征时不重要,对该视频帧赋予较小的权重,计算每一视频帧的特征与剩余视频帧的特征的相似度,得到对应的相似度值集合,将相似度值集合进行归一化处理,得到归一化后的相似度值集合;将归一化后的相似度值集合确定为空间注意力值。
S203:对视频特征进行二维空间卷积,获取第一输出结果,基于第一输出结果和空间注意力值,获取第一特征。
在步骤S203中,对视频特征进行二维空间卷积是通过二维卷积神经网络进行卷积,二维卷积神经网络是基于三维卷积神经网络分离得到的,对视频特征进行二维空间卷积,获取第一输出结果,基于第一输出结果和空间注意力值,将空间注意力值与第一输出结果进行相乘,得到第一特征。
本实施例中,基于三维卷积神经网络分离出二维空间卷积,例如将卷积核为3×3×3的三维卷积单元,拆分为卷积核为1×3×3的二维空间卷积单元,拆分后的三维卷积神经网络相比于同样深度的二维卷积神经网络,并未增加参数数量和运行时间,同时,由于其中的二维空间卷积可以使用已有的图像数据(例如,利用ImageNet图像识别数据库中已有的图像数据)进行预训练,因此不需要通过大量且精细标注的视频数据进行训练,减少了对视频数据的标注需求。二维空间卷积,具有高度和宽度两个空间维度,可以表示视频数据的空间信息。
需要说明的是,三维卷积神经网络模型,可以包括:卷积层、池化层、激活层和全连接层;卷积层包括至少一个三维残差卷积组件;三维残差卷积组件,用于提取图像特征;其中,三维残差卷积组件根据二维空间卷积单元和一维时序卷积单元构建。卷积层,用于通过获取待识别微表情视频特征来提取视频帧图像中的特征,例如,待识别微表情视频中视频帧的颜色特征、纹理特征、形状特征和空间关系特征;其中,颜色特征,描述了待识别微表情视频中视频帧区域所对应的景物的表面性质,是基于像素点的特征;纹理特征,描述了待识别微表情视频中视频帧所对应景物的表面性质,其需要在包含多个像素点的区域中进行统计计算;形状特征,则描述物体外边界的轮廓特征,以及整体上的区域特征,空间关系特征,是待识别微表情视频中视频帧中分割出来的多个目标之间的相互的空间位置或相对方向关系,例如,连接关系、重叠关系以及包含关系等,在本发明实施例中,对提取的图像特征不作具体限定;池化层,用于减少图像待识别微表情视频中视频帧特征的维度,以简化计算复杂度,以及压缩待识别微表情视频中视频帧特征,以便于在所有待识别微表情视频中视频帧特征中提取主要特征;激活层,用于提供激励函数;通常将非线性函数作为激励函数,使得神经网络不再只能反映输入与输出的线性关系,可以趋近于反映任意的函数关系,进而提高神经网络的表达能力,可以将线性整流函数(Rectified Linear Unit,ReLU)作为激活层中的激励函数;全连接层,用于连接特征,并计算获取目标数值。
通过二维空间卷积,获取视频特征对应的第一输出结果,其中,第一输出结果为视频帧的空间特征图,将每一视频帧中的特征图对应的每个区域的特征值,与空间注意力值中的相同区域的权重值进行相乘,得到第一特征。
另一实施例中,将加权处理后的加权特征与通过二维空间卷积后的第一输出结果相加,处理过程如下式:
Fs(x)=Fo(x)+Fo(x)*Fw(x)
其中,Fo(x)表示第一输出结果,Fw(x)表示空间注意力值,Fs(x)表示第一特征,符号*代表元素级乘法,符号+代表元素级加法。当极端情况Fw(x)=0时,空间注意力特征图即为第一输出结果,体现了残差网络的恒等映射思想。采用空间注意力机制能够增强目标前景特征,抑制嘈杂语义背景,从而有效提高对目标前景和语义背景的判别能力。
S204:对第一特征进行一维时间卷积,获取第二输出结果,基于第二输出结果和时间注意力值,获取第二特征。
在步骤S204中,对视频特征进行一维时间卷积是通过一维时间卷积神经网络进行卷积,一维时间卷积神经网络是基于三维卷积神经网络分离得到的,对视频特征进行一维时间卷积,获取第二输出结果,基于第二输出结果和时间注意力值,将时间注意力值与第二输出结果进行相乘,得到第二特征。
本实施例中,基于三维卷积神经网络分离出一维时间卷积网络,例如将卷积核为3×3×3的三维卷积单元,拆分为3×1×1的一维时域卷积单元,一维时间卷积网络,具有深度维度,可以表示视频信息在时间上的连续性,因此,在获取视频图像中每一视频帧特征的同时,还能获取相邻帧随时间推移的变化。
通过一维时间卷积,获取视频特征对应的第二输出结果,其中,第二输出结果为视频帧的时间特征图,将每一视频帧中对应的每个视频帧中的特征值,与时间注意力值中的每一视频帧的权重值进行相乘,得到第二特征
需要说明的是,在对三维卷积神经网络进行拆分之前,还需对三维卷积神经网络进行训练,训练集样本可以通过图像识别数据库ImageNet获取;其中,ImageNet是用于视觉对象识别软件研究的大型可视化数据库,包括1400万个注释图像,用以指示图片中的对象,以及2万多个分类类别,而在其中至少一百万个图像中,还提供了边界框。
S205:对第二特征进行类别划分,确定划分类别为待识别微表情的识别结果。
在步骤S205中,基于待识别微表情视频的第二特征,对视频中的微表情进行分类处理,得到视频中微表情对应的微表情类别。
本实施例中,根据第二特征,对待识别微表情视频中的微表情进行分类,其中微表情识别结果包括:开心、生气、害怕、惊讶等类型,还可细分为喜笑颜开、怒火中烧、胆颤心惊、大吃一惊等类型。
可选地,对第二特征进行类别划分,确定划分类别为待识别微表情的识别结果,包括:
通过预设分类器,对第二特征进行类别划分,确定划分类别为待识别微表情的识别结果。
本实施例中,通过预设分类器对第二特征机芯分类,预设分类器可以是softmax分类器,在对softmax分类器进行训练时,使用交叉熵损失函数进行训练,通过Softmax分类器对第二特征进行分类,具体地,可以利用分类器学习到的特征与微表情类别的映射关系输出特征所属的微表情类别标签。其中,例如当前识别出A标签的概率为80%,其余标签的概率均小于10%,则可以根据输出标签的概率获取对应的标签,也即,当前可以输出微表情类别为A标签。
获取待识别微表情视频,对待识别微表情视频进行特征提取,确定视频特征使用空间注意力机制对视频特征进行计算,得到空间注意力值,使用时间,注意力机制对视频特征进行计算,得到时间注意力值,对视频特征进行二维空间卷积,获取第一输出结果,基于第一输出结果和空间注意力值,获取第一特征,对第一特征进行一维时间卷积,获取第二输出结果,基于第二输出结果和时间注意力值,获取第二特征,对第二特征进行类别划分,确定划分类别为待识别微表情视频的识别结果。本发明中,通过将三维卷积网络分离为二维空间卷积与一维时间卷积,并在二维空间卷积后引入空间注意力机制,提取待识别微表情视频中的二维空间特征,确定出空间位置的权重,通过一维时间卷积,提取待识别微表情视频中的时间权重特征,确定出每一视频帧的时间权重,通过对视频特征增加空间位置的权重与时间权重,减小了待识别微表情视频中视频帧图像中的背景因素对空间特征提取的影响,丰富了待识别微表情视频中的时空特征,从而提高微表情识别精度。
请参阅图3,图3是本发明实施例提供的一种基于时空注意力机制的微表情识别装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,微表情识别装置30包括:获取模块31,计算模块32,第一特征获取模块33,第二特征获取模块34,分类模块35。
获取模块31,用于获取待识别微表情视频,对待识别微表情视频进行特征提取,确定视频特征。
计算模块32,用于使用空间注意力机制对视频特征进行计算,得到空间注意力值,使用时间注意力机制对视频特征进行计算,得到时间注意力值。
第一特征获取模块33,用于对视频特征进行二维空间卷积,获取第一输出结果,基于第一输出结果和空间注意力值,获取第一特征。
第二特征获取模块34,用于对第一特征进行一维时间卷积,获取第二输出结果,基于第二输出结果和时间注意力值,获取第二特征。
分类模块35,用于对第二特征进行类别划分,确定划分类别为待识别微表情的识别结果。
可选地,上述获取模块31包括:
分帧单元,用于对待识别微表情视频进行分帧处理,得到待识别微表情视频对应的视频帧序列。
检测与定位单元,用于通过预设人脸检测模型,对视频帧序列中的每一视频帧进行人脸检测与定位,获取每一视频帧的目标区域。
对齐单元,用于利用预设视觉库中的面部关键特征点对每一视频帧的目标区域进行对齐处理,获取每一视频帧的特征,根据每一视频帧的特征,确定视频特征。
可选地,上述计算模块32包括:
区域的特征虎丘单元,用于对待识别微表情视频中的每一视频帧划分区域,得到每一视频帧中每个区域的特征。
每个区域的权重值确定单元,用于使用空间注意力机制对每个区域的特征进行计算,获取每一视频帧中每个区域的权重值。
空间注意力值确定单元,用于根据每一视频帧中每个区域的权重值,确定空间注意力值。
可选地,上述计算模块32包括:
每一视频帧的特征获取单元,用于根据视频特征,获取待识别微表情视频中的每一视频帧的特征。
视频帧的权重值确定单元,用于根据每一视频帧的特征,使用时间注意力机制对每一视频帧的特征进行计算,得到每一视频帧的权重值。
时间注意力值确定单元,用于将每一视频帧的权重值确定为时间注意力值。
可选地,上述空间注意力值确定单元包括:
相加子单元,用于将每一视频帧中相同区域的权重值相加,得到每一区域的目标权重值。
每一区域的空间注意力值确定子单元,用于将每一区域的目标权重值确定为时间注意力值。
可选地,上述时间注意力值确定单元包括:
相似度计算子单元,用于根据每一视频帧的特征,计算每一视频帧的特征与剩余视频帧的特征的相似度,得到对应的相似度值集合。
归一化单元,用于将相似度值集合进行归一化处理,得到归一化后的相似度值集合。
归一化后的时间注意力值确定单元,用于将归一化后的相似度值集合确定为时间注意力值。
可选地,上述分类模块35包括:
识别单元,用于通过预设分类器,对第二特征进行类别划分,确定划分类别为待识别微表情的识别结果。
需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个微表情识别方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于可分离卷积的微表情识别方法,其特征在于,所述微表情识别方法包括:
获取待识别微表情视频,对所述待识别微表情视频进行特征提取,确定视频特征;
使用空间注意力机制对所述视频特征进行计算,得到空间注意力值,使用时间注意力机制对所述视频特征进行计算,得到时间注意力值;
对所述视频特征进行二维空间卷积,获取第一输出结果,基于所述第一输出结果和所述空间注意力值,获取第一特征;
对所述第一特征进行一维时间卷积,获取第二输出结果,基于所述第二输出结果和所述时间注意力值,获取第二特征;
对所述第二特征进行类别划分,确定划分类别为所述待识别微表情视频的识别结果。
2.如权利要求1所述的微表情识别方法,其特征在于,所述获取待识别微表情视频,对所述待识别微表情视频进行特征提取,确定视频特征,包括:
对所述待识别微表情视频进行分帧处理,得到所述待识别微表情视频对应的视频帧序列;
通过预设人脸检测模型,对所述视频帧序列中的每一视频帧进行人脸检测与定位,获取每一视频帧的目标区域;
利用预设视觉库中的面部关键特征点对所述每一视频帧的目标区域进行对齐处理,获取每一视频帧的特征,根据每一视频帧的特征,确定视频特征。
3.如权利要求1所述的微表情识别方法,其特征在于,所述使用空间注意力机制对所述视频特征进行计算,得到空间注意力值,包括:
对所述待识别微表情视频中的每一视频帧划分区域,得到每一视频帧中每个区域的特征;
使用空间注意力机制对每个区域的特征进行计算,获取每一视频帧中每个区域的权重值;
根据所述每一视频帧中每个区域的权重值,确定空间注意力值。
4.权利要求1所述的微表情识别方法,其特征在于,所述使用时间注意力机制对所述视频特征进行计算,得到时间注意力值,包括:
根据所述视频特征,获取所述待识别微表情视频中的每一视频帧的特征;
根据每一视频帧的特征,使用时间注意力机制对每一视频帧的特征进行计算,得到每一视频帧的权重值;
将每一视频帧的权重值确定为时间注意力值。
5.权利要求3所述的微表情识别方法,其特征在于,所述根据所述每一视频帧中每个区域的权重值,确定空间注意力值,包括:
将每一视频帧中相同区域的权重值相加,得到每一区域的目标权重值;
将每一区域的目标权重值确定为空间注意力值。
6.权利要求4所述的微表情识别方法,其特征在于,所述根据每一视频帧的特征,使用时间注意力机制对每一视频帧的特征进行计算,得到每一视频帧的权重值,包括:
根据每一视频帧的特征,计算每一视频帧的特征与剩余视频帧的特征的相似度;
将所述相似度值进行归一化处理,得到归一化后的相似度值;
将所述归一化后的相似度值确定为时间注意力值。
7.权利要求1所述的微表情识别方法,其特征在于,所述对所述第二特征进行类别划分,确定划分类别为所述待识别微表情视频的识别结果,包括:
通过预设分类器,对所述第二特征进行类别划分,确定划分类别为所述待识别微表情视频的识别结果。
8.一种基于可分离卷积的微表情识别装置,其特征在于,所述微表情识别装置包括:
获取模块,用于获取待识别微表情视频,对所述待识别微表情视频进行特征提取,确定视频特征;
计算模块,用于使用空间注意力机制对所述视频特征进行计算,得到空间注意力值,使用时间注意力机制对所述视频特征进行计算,得到时间注意力值;
第一特征获取模块,用于对所述视频特征进行二维空间卷积,获取第一输出结果,基于所述第一输出结果和所述空间注意力值,获取第一特征;
第二特征获取模块,用于对所述第一特征进行一维时间卷积,获取第二输出结果,基于所述第二输出结果和所述时间注意力值,获取第二特征;
分类模块,用于对所述第二特征进行类别划分,确定划分类别为所述待识别微表情视频的识别结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的微表情识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的微表情识别方法。
CN202310635963.8A 2023-05-31 2023-05-31 基于可分离卷积的微表情识别方法、装置、设备及介质 Pending CN116580442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310635963.8A CN116580442A (zh) 2023-05-31 2023-05-31 基于可分离卷积的微表情识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310635963.8A CN116580442A (zh) 2023-05-31 2023-05-31 基于可分离卷积的微表情识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116580442A true CN116580442A (zh) 2023-08-11

Family

ID=87543060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310635963.8A Pending CN116580442A (zh) 2023-05-31 2023-05-31 基于可分离卷积的微表情识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116580442A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475490A (zh) * 2023-09-01 2024-01-30 长春理工大学 一种基于混合注意力卷积网络的面部表情识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475490A (zh) * 2023-09-01 2024-01-30 长春理工大学 一种基于混合注意力卷积网络的面部表情识别方法

Similar Documents

Publication Publication Date Title
Singh et al. Image classification: a survey
WO2021203863A1 (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
Sahoo et al. Hand gesture recognition using PCA based deep CNN reduced features and SVM classifier
Ghosh et al. Feature selection for facial emotion recognition using late hill-climbing based memetic algorithm
CN112598643A (zh) 深度伪造图像检测及模型训练方法、装置、设备、介质
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN111694954B (zh) 图像分类方法、装置和电子设备
Zhang et al. Feature-transfer network and local background suppression for microaneurysm detection
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
Soni et al. Optimal feature and classifier selection for text region classification in natural scene images using Weka tool
CN116580442A (zh) 基于可分离卷积的微表情识别方法、装置、设备及介质
Shankar et al. A novel discriminant feature selection–based mutual information extraction from MR brain images for Alzheimer's stages detection and prediction
CN115034315A (zh) 基于人工智能的业务处理方法、装置、计算机设备及介质
JP6166981B2 (ja) 表情解析装置及び表情解析プログラム
CN113869253A (zh) 活体检测方法、训练方法、装置、电子设备及介质
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
CN114973107B (zh) 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法
Mursalin et al. EpNet: A deep neural network for ear detection in 3D point clouds
Fan et al. Palmprint phenotype feature extraction and classification based on deep learning
CN115719428A (zh) 基于分类模型的人脸图像聚类方法、装置、设备及介质
CN116152551A (zh) 分类模型训练方法、分类方法、装置、设备及介质
CN114332493A (zh) 一种跨维度交互式显著检测模型及其检测方法
Rodin et al. Document image quality assessment via explicit blur and text size estimation
Anggoro et al. Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm
CN114332990A (zh) 一种情绪识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination