CN113011500A - 虚拟现实场景数据集的分类方法、系统、设备及介质 - Google Patents

虚拟现实场景数据集的分类方法、系统、设备及介质 Download PDF

Info

Publication number
CN113011500A
CN113011500A CN202110303661.1A CN202110303661A CN113011500A CN 113011500 A CN113011500 A CN 113011500A CN 202110303661 A CN202110303661 A CN 202110303661A CN 113011500 A CN113011500 A CN 113011500A
Authority
CN
China
Prior art keywords
image
classification
classification network
scene
neutral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110303661.1A
Other languages
English (en)
Other versions
CN113011500B (zh
Inventor
路程栋
舒琳
晋建秀
徐向民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhongshan Institute of Modern Industrial Technology of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202110303661.1A priority Critical patent/CN113011500B/zh
Publication of CN113011500A publication Critical patent/CN113011500A/zh
Application granted granted Critical
Publication of CN113011500B publication Critical patent/CN113011500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种虚拟现实场景数据集的分类方法、系统、设备及介质,所述方法包括:建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,其中,中立图像和负向图像构成训练集;在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络;利用训练集训练新的单分类网络和二分类网络;将训练好的单分类网络和二分类网络组合起来,构建联合分类网络;将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。本发明通过加入通道注意力模块和双分支上采样模块,使图像的输入丰富细致、重构图像逼近输入图像;构建的联合分类网络,为解决数据不平衡问题提供了新的思路。

Description

虚拟现实场景数据集的分类方法、系统、设备及介质
技术领域
本发明涉及模式识别领域,具体的,涉及一种虚拟现实场景数据集的分类方法、系统、计算机设备及存储介质。
背景技术
情绪,是对一系列主观认知经验的统称,是多种感觉、思想和行为综合产生的心理和生理状态。一直以来情绪都是心理学和神经科学领域内的研究重点,随着对情绪研究的深入,如何在实验室环境下有效的诱发出可靠且稳定的情绪,成为科学家们面临的最大难题。
现有的情绪诱发材料包括视觉、听觉、嗅觉和多通道情绪诱发材料。目前在情绪诱发材料方面,除了视觉诱发材料外,听觉、嗅觉还没有标准的刺激材料库可以使用,不同研究人员所选择的情绪诱发材料各不相同,导致了研究结果失去了可比性,从而影响了研究的深入。虚拟现实的优势之一就是具有更高的维度,相比传统的视频内容,它具备360度全景画面,用户就是主角可以身临其境,通过声音、画面感受气氛和氛围,空间感、距离感都会更有层次。用虚拟现实场景对受试者进行情绪诱发的时候,由于受试者将注意力集中在虚拟世界中而忽略了周围环境,这一诱发手段能够诱发出相对自然的情绪状态,从而有效提高实验室情绪诱发的可靠性。
虚拟现实场景在制作完成后、投入使用之前,需要通过实验对虚拟现实场景所诱发的情绪类别进行标注。Lang设计了一种图片导向型的评估工具,称为自我评测模型(SAM),可以使受试者在评估图片的愉悦度、唤醒度和优势度的主观感受时,更直接、快速的反应个人的情绪。但自我评测模型的标准化指导语解说复杂且耗时,倘若受试者分心而注意力涣散则会忽略信息,例如忽略自我评测模型人形图示之间的空格也可选择,造成受试者仅勾选图案,因此降低答案的可靠性,或作答时因作答时间较短暂,而错看人物图形错选完全相反的答案。
发明内容
为了解决现有虚拟现实场景数据集的分类方法中的数据分布不平衡问题,本发明提供了一种虚拟现实场景数据集的分类方法、系统、计算机设备及存储介质,其建立在带有情绪标签的虚拟现实场景数据集的基础上,通过在单分类网络中添加通道注意力模块和双分支上采样模块,利用单分类和多分类联合构建的神经网络对图像进行分类。
本发明的第一个目的在于提供一种虚拟现实场景数据集的分类方法。
本发明的第二个目的在于提供一种虚拟现实场景数据集的分类系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种虚拟现实场景数据集的分类方法,所述方法包括:
建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,其中,中立图像和负向图像构成训练集;
在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络;
利用训练集训练新的单分类网络,得到训练好的单分类网络;
利用训练集训练二分类网络,得到训练好的二分类网络;
将训练好的单分类网络和二分类网络组合起来,构建联合分类网络;
将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。
进一步的,所述建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,具体包括:
建立带有情绪标签的虚拟现实场景,把场景导出成视频;
对每个视频的主观感受进行人工打分,根据打分的分数将每个视频划分到正向场景、中立场景和负向场景中,将正向场景、中立场景和负向场景构成场景数据集;
对每个视频的关键帧进行切平面投影,分别得到正向图像、中立图像和负向图像。
进一步的,所述对每个视频的主观感受进行人工打分,根据打分的分数将每个视频划分到正向场景、中立场景和负向场景中,具体为:
对每个视频在愉悦度、唤醒度和优势度上进行打分,每一个视频得到三个维度的分数,根据这三个维度的分数将每一个视频划分到正向场景、中立场景或负向场景中。
进一步的,所述对每个视频的关键帧进行切平面投影,分别得到正向图像、中立图像和负向图像,具体为:
对每个视频的关键帧进行切平面投影,得到球形图像在多个视角的平面图像,即正向场景中获得的图像为正向图像,中立场景中获得的图像为中立图像,负向场景中获得的图像为负向图像;
所述利用训练集训练新的单分类网络,具体为:获取训练集中的一张图像,所述图像包括多个视角的平面图像;将所述图像在通道维度上拼接后,输入新的单分类网络,对新的单分类网络进行训练。
进一步的,所述单分类网络采用Ganomaly框架,Ganomaly框架包括生成器、判别器和重构编码器,其中:
所述生成器包括编码器和解码器,原始图像经过编码器得到潜在向量,经过解码器得到原始图像的重构图像;
所述判别器对原始图像判为真,重构图像判为假,不断优化重构图像与原始图像的差距;
所述重构编码器对重构图像进行编码,得到重构图像的潜在向量。
进一步的,所述通道注意力模块放在生成器的编码器、判别器的编码器以及重构编码器前面,具体包括:
顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,如下所示:
Figure BDA0002987265110000031
其中,zC为第C个通道压缩后的值,H和W分别代表特征图的高度和宽度,uc(i,j)为第C个通道上像素点为(i,j)的像素;
通过参数W为每个特征通道生成权重,如下所示:
sc=Fex(zc,W)=σ(g(zc,W))=σ(W2ReLU(W1zc))
其中,sc为第C个特征通道的权重,
Figure BDA0002987265110000032
W1和W2均为参数;
将每个特征通道的权重,通过乘法逐通道加权,得到新的带权重的特征图,完成在通道维度上对原始特征的重标定。
进一步的,所述双分支上采样模块放在生成器的解码器中,具体包括:
对给定特征图采用两种上采样变换,分别得到第一特征图和第二特征图;
将第一特征图和第二特征图通过逐像素相加,获得第三特征图;第三特征图通过全局平均池化生成逐通道的统计信息;通过全连接层对统计信息进行降维,再用全连接层升维,最后按通道维度进行归一化,获得第四特征图。
进一步的,所述将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签,具体包括:
带有情绪标签的图像,所述图像是包括多个视角的平面图像,将所述带有情绪标签的图像在通道维度上拼接后,输入单分类网络;
若输入的带有情绪标签的图像为正向图像时,计算单分类网络中的编码器得到的潜在向量和重构编码器得到的潜在向量之间的差距,若大于设定阈值,则输入的图像被判定是异常数据,则输出图像分类标签为正向;
若输入的带有情绪标签的图像为中立图像或负向图像,经过单分类网络被判定为正常数据,则将单分类网络判定为正常的图像输入到二分类网络中进行进一步的分类,得到最终的分类标签。
本发明的第二个目的可以通过采取如下技术方案达到:
一种虚拟现实场景数据集的分类系统,所述系统包括:
获取训练集模块,用于建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,其中,中立图像和负向图像构成训练集;
单分类网络中添加模块,用于在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络;
训练单分类网络模块,用于利用训练集训练新的单分类网络,得到训练好的单分类网络;
训练二分类网络模块,用于利用训练集训练二分类网络,得到训练好的二分类网络;
构建联合分类网络模块,用于将训练好的单分类网络和二分类网络组合起来,构建联合分类网络;
分类模块,用于将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的分类方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的分类方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明通过在单分类网络中加入通道注意力模块和双分支上采样模块,使得图像的输入更加丰富细致,避免了噪声的干扰,保留提供有效信息的通道,给不同的通道分配不同的权重,改善了图像上采样的质量,使得重构图像更加逼近输入图像;此外,本发明引入了卷积神经网络,卷积神经网络的标注比SAM量表的标注更加高效且能够避免个体差异。
2、本发明提出了联合分类网络Ganomaly-Resnet50,该网络针对数据分布不均衡的数据集,在训练过程中不需要数据量少的一类数据参与训练,为解决数据不平衡问题提供了一种新的思路。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的虚拟现实场景数据集的分类方法的流程图。
图2为本发明实施例1的单分类网络的原理图。
图3为本发明实施例1的通道注意力模块的原理图。
图4为本发明实施例1的双分支上采样模块的原理图。
图5为本发明实施例1的二分类网络中的残差块的原理图。
图6为本发明实施例1的联合分类网络对图像分类的流程图。
图7为本发明实施例2的虚拟现实场景数据集的分类系统的结构框图。
图8为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种虚拟现实场景数据集的分类方法,该方法主要应用于虚拟现实场景数据集的分类系统中,包括如下步骤:
S101、建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像。
建立带有情绪标签的虚拟现实场景,把场景导出成视频;对每个视频的主观感受进行人工打分,根据打分的分数,得到场景数据集;对每个视频的关键帧进行切平面投影,分别得到正向图像、中立图像和负向图像,其中,正向图像、中立图像和负向图像构成图像数据集,中立图像和负向图像构成训练集。
具体地,所述步骤S101具体包括:
S1011、建立带有情绪标签的虚拟现实场景,把场景导出成视频。
S1012、对每个视频的主观感受进行人工打分,根据打分的分数将每个视频划分到正向场景、中立场景和负向场景中,将正向场景、中立场景和负向场景构成场景数据集。
首先在各种低维的情绪诱发材料中提取情绪特征。这里的低维情绪诱发材料包括图像材料、音频材料和视频材料,提取的情绪特征包括主题色、声音等,这些提取到的情绪特征为虚拟现实场景的建立提供一定的依据。然后根据提取到的情绪特征,使用Unity3D软件设计一系列的虚拟现实场景,这些场景能够诱发不同的情绪。从Unity3D中把场景导出成视频,通过SAM量表评估,对这些视频在愉悦度、唤醒度和优势度上进行打分,每一个视频得到三个维度的分数,根据这三个维度的分数将每一个视频划分到正向场景、中立场景和负向场景中,并去除掉一些不符合要求的场景;正向场景、中立场景和负向场景构成场景数据集。具体的,本实施例中的场景数据集包括19个场景,其中正向场景3个,中立场景7个,负向场景9个。
S1013、对每个视频的关键帧进行切平面投影,分别得到正向图像、中立图像和负向图像。
分别对三个场景(正向场景、中立场景和负向场景)中的每个视频的关键帧进行切平面投影,得到球形图像在多个视角的平面图像,即每个视角(方向)上得到一个平面图像,多个视角得到多个平面图像。本实施例中球形图像对应的关键帧是360度的,多个平面图像具体指的是上下左右前后(6个视角)的平面图像。正向场景中所有关键帧进行切平面投影,得到的图像都是正向图像,其中,每张正向图像包括6个视角的平面图像;中立场景中所有关键帧进行切平面投影,得到的图像都是中立图像,其中,每张中立图像包括6个视角的平面图像;负向场景中所有关键帧进行切平面投影,得到的图像都是负向图像,其中,每张负向图像包括6个视角的平面图像。正向图像、中立图像和负向图像构成图像数据集,图像数据集作为后续的训练集和验证集,其中,中立图像和负向图像构成训练集。
S102、在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络。
Ganomaly模型的原理图如图2所示,Ganomaly模型的整个框架包括三部分,第一部分是生成器G,由编码器GE(x)和解码器GD(z)构成,对于送入图像数据x经过编码器GE(x)得到潜在向量z,z经过解码器GD(z)得到x的重构数据
Figure BDA0002987265110000071
第二部分是判别器D,对于原始图像x判为真,重构图像
Figure BDA0002987265110000072
判为假,从而不断优化重构图像与原始图像的差距,理想情况下重构图像与原始图像无差别;第三部分是对重构图像
Figure BDA0002987265110000073
再次做编码的重构编码器
Figure BDA0002987265110000074
得到重构图像编码的潜在变量
Figure BDA0002987265110000075
Ganomaly的判别器第一层是卷积层,然后接着激活函数LeakyRelu,后面是卷积层-BN层-LeakyRelu的堆叠模块,最后一层是卷积层-Sigmoid层;Ganomaly模型的生成器前面几层是转置卷积-BN层-Relu的堆叠块,最后一层是转置卷积-Tanh。
本实施例在单分类网络中加入通道注意力模块和双分支上采样模块,这两个模块的具体说明如下:
A、通道注意力模块:单分类网络中的生成器和判别器均包括编码器,通道注意力模块放在生成器的编码器、判别器的编码器以及重构编码器前面。
如图3所示,本实施例中的通道注意力模块,包括三步操作,具体为:
1)第一步是压缩操作。
顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野,这一点在很多任务中都是非常有用的。将全局空间信息压缩成一个通道描述符的公式很简单,就是用一个全局平均池化来生成,如下所示:
Figure BDA0002987265110000076
其中,zC为第C个通道压缩后的值,uc表示输入的第C个通道,H和W分别代表特征图的高度和宽度,uc(i,j)为第C个通道上像素点为(i,j)的像素;把第C个通道上的像素求和再除以像素总数,求出平均像素,即为zc的值。这样就完成了将C×H×W的输入转换成C×1×1的输出。
2)其次是扩张操作。
它是一个类似于循环神经网络中门的机制。通过参数W来为每个特征通道生成权重,如下所示,其中参数W被学习用来显式地建模特征通道间的相关性。
sc=Fex(zc,W)=σ(g(zc,W))=σ(W2ReLU(W1zc))
其中,
Figure BDA0002987265110000077
W1和W2分别为两个卷积层的参数,ReLU为激活函数,σ为sigmoid激活函数;为了降低模型复杂度以及提升泛化能力,采用包含两个卷积层的瓶颈结构,这里的W1×zc就是一个卷积层操作,W1的维度是C/r×C,降维系数r是超参数,这个参数的目的是为了减少通道个数从而降低计算量;然后采用ReLU激活函数,输出的维度不变;然后再和W2相乘,和W2相乘也是一个卷积的过程,W2的维度是C×C/r,因此输出的维度就是C×1×1,最后再经过Sigmoid函数,得到每个特征通道权重sc
3)最后是重分配操作。
将扩张操作的输出权重看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权,得到新的带权重的特征图,继续向后输出,完成在通道维度上对原始特征的重标定,如下所示:
Figure BDA0002987265110000081
其中,
Figure BDA0002987265110000082
为经过注意力模块之后的第C个通道的特征图,uc为输入的第C个通道特征图,sc表示第C个通道的注意力系数;
上述的注意力模块也可以用作体系结构中任何深度的原始块的直接替换。虽然构建模块的模板是通用的,但它在不同深度处的角色适应网络的不同需求。在早期层中,它学会以类不可知的方式激发信息特性,支持共享的底层表示的质量。在后面的层次中,注意力模块变得越来越专业化,并以高级规范的方式响应不同的输入。因此,注意力模块进行特征重新校准的好处可以通过整个网络进行累加。从另外一个角度来看,全景图不同的视角提供的信息权重不同,可以让网络自动的去学习这些权重而不必人为的规定。
B、双分支上采样模块:双分支上采样模块放在生成器的解码器中间。
如图4所示,双分支上采样模块,具体包括如下步骤:
对于给定的特征图X∈RC×H×W,第一步,对其采用两种上采样变换
Figure BDA0002987265110000083
Figure BDA0002987265110000084
Figure BDA0002987265110000085
通过两个变换构建了两个上采样的分支,形成了两个特征图
Figure BDA0002987265110000086
Figure BDA0002987265110000087
它们的维度都是C/2×2H×2W,即放大倍数是2。
第二步,是自适应的核心。本实施例采用最简单的门机制控制进入下一层的多尺度信息流。因此,这个门需要集成来自所有分支的信息,还要有权重的集成。首先,通过逐像素相加获得特征图
Figure BDA0002987265110000088
然后通过全局平均池化生成逐通道的统计信息,计算式如下:
Figure BDA0002987265110000089
为了更紧凑的表示,通过一个全连接层对s进行降维,获得z=Ffc(s)=δ(B(Ws)),这里先是和W∈Rd×C相乘然后经过BN和ReLU,d作为一个超参,使用下降比r来控制。
接着,又用一个全连接层用于升维,得到一个通道维度是2的向量,然后按通道维度进行归一化;进行归一化用到的softmax公式如下:
Figure BDA0002987265110000091
Figure BDA0002987265110000092
其中,ac+bc=1,ac和bc分别为两个分支中每一个分支的分数,Ac和Bc是归一化之前的输入,ac和bc是归一化之后的输出。
这样可以反应不同采样特征的重要性,然后用ac和bc对原始特征图进行逐通道相乘加权,得到有通道区分度的特征图,再相加到一起得到输出特征图V。这个特征图,就是自适应不同采样方法获得的特征图。输出特征图V相比于最初的X经过了信息的提炼,融合了两个分支的上采样的信息。
S103、利用训练集训练新的单分类网络,得到训练好的单分类网络。
用中立图像和负向图像训练新的单分类网络Ganomaly,下面的单分类网络特指新的单分类网络Ganomaly。
先将6个视角的平面图像在通道维度上拼接后,输入Ganomaly网络,补充了低频信息,使网络提取到的特征更加丰富。
在训练阶段,整个单分类网络均是通过正常样本做训练。也就是编码器GE(x),解码器GD(z)和重构编码器
Figure BDA0002987265110000093
都是适用于正常样本的。当模型在测试阶段接受到一个异常样本,此时模型的编码器和解码器将不适用于异常样本,此时得到的编码后潜在变量z和重构编码器得到的潜在变量
Figure BDA0002987265110000094
的差距是大的。本实施例规定这个差距是一个分值A(x)=||GE(x)-E(G(x))||,通过设定阈值
Figure BDA0002987265110000095
一旦
Figure BDA0002987265110000096
模型就认定送入的样本x是异常数据。
训练完成后的Ganomaly能够很好的拟合中立和负向图像,若是输入正向图像,单分类网络对这张图像的重构能力就会很差,导致异常分数很高,从而判断这张图像是异常数据,标签为正向;若是输入中立或负向图像,单分类网络对这张图像的重构能力就会很好,异常分数很低,从而判断这张图像是正常数据,和训练集属于一类数据,标签为中立或者负向。
S104、利用训练集训练二分类网络,得到训练好的二分类网络。
一般来说,网络越深,能获取的信息越多,而且特征也越丰富。但是根据实验表明,随着网络的加深,优化效果反而越差,测试集和训练集的准确率反而降低了。这是由于网络的加深会造成梯度爆炸和梯度消失的问题。目前针对这种现象已经有了解决的方法:一种是调整求解方法,比如更好的初始化、更好的梯度下降算法等;另一种是调整模型结构,让模型更易于优化。
Resnet50是调整模型结构。将堆叠的几层称之为一个Block,对于某个Block,其可以拟合的函数为F(x),如果期望的潜在映射为H(x),与其让F(x)直接学习潜在映射,不如去学习残差H(x)-x,即F(x):=H(x)-x,这样原本的前向路径上就变成了F(x)+x,用F(x)+x来拟合H(x)。这样可能更易于优化,因为相比于让F(x)学习成恒等映射,让F(x)学习成0要更加容易。
F(x)+x构成的Block称之为Residual Block,即残差块,如图5所示,多个相似的Residual Block串联构成了Resnet50。
Resnet50结构非常容易修改和扩展,通过调整Block内的通道数量以及堆叠的Block数量,就可以很容易地调整网络的宽度和深度,得到不同表达能力的网络,而不用过多地担心网络的“退化”问题,只要训练数据足够,逐步加深网络,就可以获得更好的性能表现。
S105、将训练好的单分类网络和二分类网络组合起来,构建联合分类网络。
S106、将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。
如图6所示,具体地,本实施例从图像数据集中获取带有情绪标签的图像,所述带有情绪标签的图像是包括6个视角的平面图像;将包括6个视角的平面图像,在通道维度上拼接后,输入送到单分类网络中的注意力模块。若输入正向图像时,经过单分类网络中的编码器得到的潜在向量和重构编码器得到的潜在向量之间的差距,若大于设定阈值,则输入的图像被判定是异常数据,则它的标签是正向;若输入的图像被单分类网络Ganomaly判定为正常,则它的标签是中立或者负向,此时还无法确定真正的标签,所以需要将图像继续输入到二分类网络Resnet50中进行更加细致的分类,得到图像最终的分类标签。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
本实施例提供了一种虚拟现实场景数据集的分类系统,建立在带有情绪标签的虚拟现实场景数据集上,使用单分类-多分类联合的神经网络进行图像识别。首先,对于自建的虚拟现实场景数据集VREIVDS,包括三类情绪场景:正向、中立和负向,其中正向场景3个,中立场景7个,负向场景9个;直接使用普通的图像分类网络效果较差,因为数据集分布不平衡,网络训练过程中只会关注数据量多的那几类。实施例先用中立和负向图像训练单分类网络Ganomaly,训练完成后的Ganomaly能够很好的拟合中立和负向图像,若是输入一张正向图像,模型对这张图像的重构能力就会很差,导致异常分数很高,从而判断这张图像是异常数据,标签是正向。其次,为了提高Ganomaly的分类效果,引入了通道融合、注意力机制和双分支上采样方法,使得模型提取到的特征向量更加具有代表性。Ganomaly判定为正常的数据,其标签是中立或负向;最后,通过Resnet50二分类网络,就可以得到最后的标签。其中Resnet50也是用中立图像和负向图像训练的,两个网络的训练不需要数据量少的正向图像参与训练,从而解决了数据量不平衡的问题。
如图7所示,本实施例的虚拟现实场景数据集的分类系统包括获取数据集模块701、训练单分类网络模块702、单分类网络中添加模块703、训练二分类网络模块704、构建联合分类网络模块705和分类模块706,各个模块的具体说明如下:
获取训练集模块701,用于建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,其中,中立图像和负向图像构成训练集;
单分类网络中添加模块702,用于在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络;
训练单分类网络模块703,用于利用训练集训练新的单分类网络,得到训练好的单分类网络;
训练二分类网络模块704,用于利用训练集训练二分类网络,得到训练好的二分类网络;
构建联合分类网络模块705,用于将训练好的单分类网络和二分类网络组合起来,构建联合分类网络;
分类模块706,用于将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图8所示,其通过系统总线801连接的处理器802、存储器、输入装置803、显示器804和网络接口805,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质806和内存储器807,该非易失性存储介质806存储有操作系统、计算机程序和数据库,该内存储器807为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器802执行存储器存储的计算机程序时,实现上述实施例1的分类方法,如下:
建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,其中,中立图像和负向图像构成训练集;
在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络;
利用训练集训练新的单分类网络,得到训练好的单分类网络;
利用训练集训练二分类网络,得到训练好的二分类网络;
将训练好的单分类网络和二分类网络组合起来,构建联合分类网络;
将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的分类方法,如下:
建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,其中,中立图像和负向图像构成训练集;
在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络;
利用训练集训练新的单分类网络,得到训练好的单分类网络;
利用训练集训练二分类网络,得到训练好的二分类网络;
将训练好的单分类网络和二分类网络组合起来,构建联合分类网络;
将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、随机存取存储器(RAM,Random AccessMemory)、U盘、移动硬盘等介质。
综上所述,本发明在单分类网络中引入通道融合、注意力机制和双分支上采样方法,通道融合让多个方向上的图像数据可以互相补充;接着引入通道注意力机制,注意力模块可以自动的过滤掉噪声,保留那些提供有效信息的通道,给不同的通道分配不同的权重;双分支上采样方法可以让单分类网络模型的重建能力更好,进一步提高分类指标;二分类网络可以对单分类网络判定为正常的图像进行更加细致的分类;将单分类网络和二分类网络组合起来构建一个联合分类网络,该网络在训练过程中不需要数据量少的一类数据参与训练,解决了数据不平衡的问题。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (10)

1.一种虚拟现实场景数据集的分类方法,其特征在于,所述方法包括:
建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,其中,中立图像和负向图像构成训练集;
在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络;
利用训练集训练新的单分类网络,得到训练好的单分类网络;
利用训练集训练二分类网络,得到训练好的二分类网络;
将训练好的单分类网络和二分类网络组合起来,构建联合分类网络;
将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。
2.根据权利要求1项所述的分类方法,其特征在于,所述建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,具体包括:
建立带有情绪标签的虚拟现实场景,把场景导出成视频;
对每个视频的主观感受进行人工打分,根据打分的分数将每个视频划分到正向场景、中立场景和负向场景中,将正向场景、中立场景和负向场景构成场景数据集;
对每个视频的关键帧进行切平面投影,分别得到正向图像、中立图像和负向图像。
3.根据权利要求2所述的分类方法,其特征在于,所述对每个视频的主观感受进行人工打分,根据打分的分数将每个视频划分到正向场景、中立场景和负向场景中,具体为:
对每个视频在愉悦度、唤醒度和优势度上进行打分,每一个视频得到三个维度的分数,根据这三个维度的分数将每一个视频划分到正向场景、中立场景或负向场景中。
4.根据权利要求2所述的分类方法,其特征在于,所述对每个视频的关键帧进行切平面投影,分别得到正向图像、中立图像和负向图像,具体为:
对每个视频的关键帧进行切平面投影,得到球形图像在多个视角的平面图像,即正向场景中获得的图像为正向图像,中立场景中获得的图像为中立图像,负向场景中获得的图像为负向图像;
所述利用训练集训练新的单分类网络,具体为:获取训练集中的一张图像,所述图像包括多个视角的平面图像;将所述图像在通道维度上拼接后,输入新的单分类网络,对新的单分类网络进行训练。
5.根据权利要求1-4任一项所述的分类方法,其特征在于,所述单分类网络采用Ganomaly框架,Ganomaly框架包括生成器、判别器和重构编码器,其中:
所述生成器包括编码器和解码器,原始图像经过编码器得到潜在向量,经过解码器得到原始图像的重构图像;
所述判别器对原始图像判为真,重构图像判为假,不断优化重构图像与原始图像的差距;
所述重构编码器对重构图像进行编码,得到重构图像的潜在向量。
6.根据权利要求5所述的分类方法,其特征在于,所述通道注意力模块放在生成器的编码器、判别器的编码器以及重构编码器前面,具体包括:
顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,如下所示:
Figure FDA0002987265100000021
其中,zC为第C个通道压缩后的值,H和W分别代表特征图的高度和宽度,uc(i,j)为第C个通道上像素点为(i,j)的像素;
通过参数W为每个特征通道生成权重,如下所示:
sc=Fex(zc,W)=σ(g(zc,W))=σ(W2ReLU(W1zc))
其中,sc为第C个特征通道的权重,
Figure FDA0002987265100000022
W1和W2均为参数;
将每个特征通道的权重,通过乘法逐通道加权,得到新的带权重的特征图,完成在通道维度上对原始特征的重标定。
7.根据权利要求5所述的分类方法,其特征在于,所述双分支上采样模块放在生成器的解码器中,具体包括:
对给定特征图采用两种上采样变换,分别得到第一特征图和第二特征图;
将第一特征图和第二特征图通过逐像素相加,获得第三特征图;第三特征图通过全局平均池化生成逐通道的统计信息;通过全连接层对统计信息进行降维,再用全连接层升维,最后按通道维度进行归一化,获得第四特征图。
8.根据权利要求5所述的分类方法,其特征在于,所述将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签,具体包括:
带有情绪标签的图像,所述图像是包括多个视角的平面图像,将所述带有情绪标签的图像在通道维度上拼接后,输入单分类网络;
若输入的带有情绪标签的图像为正向图像时,计算单分类网络中的编码器得到的潜在向量和重构编码器得到的潜在向量之间的差距,若大于设定阈值,则输入的图像被判定是异常数据,则输出图像分类标签为正向;
若输入的带有情绪标签的图像为中立图像或负向图像,经过单分类网络被判定为正常数据,则将单分类网络判定为正常的图像输入到二分类网络中进行进一步的分类,得到最终的分类标签。
9.一种虚拟现实场景数据集的分类系统,其特征在于,所述系统包括:
获取训练集模块,用于建立带有情绪标签的虚拟现实场景,得到场景数据集,并根据场景数据集,得到正向图像、中立图像和负向图像,其中,中立图像和负向图像构成训练集;
单分类网络中添加模块,用于在单分类网络中加入通道注意力模块和双分支上采样模块,得到新的单分类网络;
训练单分类网络模块,用于利用训练集训练新的单分类网络,得到训练好的单分类网络;
训练二分类网络模块,用于利用训练集训练二分类网络,得到训练好的二分类网络;
构建联合分类网络模块,用于将训练好的单分类网络和二分类网络组合起来,构建联合分类网络;
分类模块,用于将带有情绪标签的图像输入联合分类网络,得到细致的图像分类标签。
10.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-8任一项所述的分类方法。
CN202110303661.1A 2021-03-22 2021-03-22 虚拟现实场景数据集的分类方法、系统、设备及介质 Active CN113011500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110303661.1A CN113011500B (zh) 2021-03-22 2021-03-22 虚拟现实场景数据集的分类方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110303661.1A CN113011500B (zh) 2021-03-22 2021-03-22 虚拟现实场景数据集的分类方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN113011500A true CN113011500A (zh) 2021-06-22
CN113011500B CN113011500B (zh) 2023-08-22

Family

ID=76404519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110303661.1A Active CN113011500B (zh) 2021-03-22 2021-03-22 虚拟现实场景数据集的分类方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN113011500B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871124A (zh) * 2019-01-25 2019-06-11 华南理工大学 基于深度学习的情感虚拟现实场景评估方法
CN111582225A (zh) * 2020-05-19 2020-08-25 长沙理工大学 一种遥感图像场景分类方法及装置
CN111860406A (zh) * 2020-07-29 2020-10-30 福州大学 基于区域混淆机制神经网络的血细胞显微图像分类方法
CN111950649A (zh) * 2020-08-20 2020-11-17 桂林电子科技大学 基于注意力机制与胶囊网络的低照度图像分类方法
CN112101117A (zh) * 2020-08-18 2020-12-18 长安大学 一种高速公路拥堵识别模型构建方法和装置及识别方法
CN112163465A (zh) * 2020-09-11 2021-01-01 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN112435221A (zh) * 2020-11-10 2021-03-02 东南大学 一种基于生成式对抗网络模型的图像异常检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871124A (zh) * 2019-01-25 2019-06-11 华南理工大学 基于深度学习的情感虚拟现实场景评估方法
CN111582225A (zh) * 2020-05-19 2020-08-25 长沙理工大学 一种遥感图像场景分类方法及装置
CN111860406A (zh) * 2020-07-29 2020-10-30 福州大学 基于区域混淆机制神经网络的血细胞显微图像分类方法
CN112101117A (zh) * 2020-08-18 2020-12-18 长安大学 一种高速公路拥堵识别模型构建方法和装置及识别方法
CN111950649A (zh) * 2020-08-20 2020-11-17 桂林电子科技大学 基于注意力机制与胶囊网络的低照度图像分类方法
CN112163465A (zh) * 2020-09-11 2021-01-01 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN112435221A (zh) * 2020-11-10 2021-03-02 东南大学 一种基于生成式对抗网络模型的图像异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张娜;秦品乐;曾建潮;李启;: "基于密集神经网络的灰度图像着色算法", 计算机应用, no. 06, pages 1 - 5 *

Also Published As

Publication number Publication date
CN113011500B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN112508077B (zh) 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN113240580A (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
WO2019023500A1 (en) PERCEPTUAL APPARATUS IMPLEMENTED BY COMPUTER
Patilkulkarni Visual speech recognition for small scale dataset using VGG16 convolution neural network
CN109063643B (zh) 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
WO2021203880A1 (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN116075830A (zh) 图像到图像转换中语义关系保留的知识提炼
CN112466329A (zh) 一种改进dcnn的音乐流派分类方法
CN115034959A (zh) 一种基于跨通道融合空间注意力机制的高清图像翻译方法
CN113486700A (zh) 一种教学场景下基于注意力机制的面部表情分析方法
Lin et al. Bio-inspired feature enhancement network for edge detection
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统
CN112529054B (zh) 一种多源异构数据的多维度卷积神经网络学习者建模方法
CN113011500B (zh) 虚拟现实场景数据集的分类方法、系统、设备及介质
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN117237766A (zh) 一种基于多模态数据的课堂认知投入识别方法和系统
CN111489405A (zh) 基于条件增强生成对抗网络的人脸草图合成系统
Kyle-Davidson et al. Predicting human perception of scene complexity
Campana et al. Variable-hyperparameter visual transformer for efficient image inpainting
Rocchesso et al. Organizing a sonic space through vocal imitations
CN117894057B (zh) 用于情感障碍辅助诊断的三维数字人脸处理方法与装置
CN116542292B (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN115995116B (zh) 基于计算机视觉的抑郁状态评估方法、装置、终端及介质
Dilpazir et al. Multivariate mutual information for audio video fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant