CN116415019A - 虚拟现实vr图像识别方法及装置、电子设备、存储介质 - Google Patents

虚拟现实vr图像识别方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN116415019A
CN116415019A CN202111622240.1A CN202111622240A CN116415019A CN 116415019 A CN116415019 A CN 116415019A CN 202111622240 A CN202111622240 A CN 202111622240A CN 116415019 A CN116415019 A CN 116415019A
Authority
CN
China
Prior art keywords
target
suspicious
classification
unfolded
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111622240.1A
Other languages
English (en)
Inventor
邹晶
史晶
周英能
肖婷
李达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111622240.1A priority Critical patent/CN116415019A/zh
Publication of CN116415019A publication Critical patent/CN116415019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种虚拟现实VR图像识别方法及装置、电子设备、存储介质,其中,所述虚拟现实VR图像识别方法包括:获取一个或者多个目标VR展开图;将每个目标VR展开图裁剪为多个方形子图;利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;若分类结果中存在可疑分类,则判定属于可疑分类的方形子图对应的目标VR展开图为可疑图像。

Description

虚拟现实VR图像识别方法及装置、电子设备、存储介质
技术领域
本申请涉及图像处理领域,尤其涉及一种虚拟现实VR图像识别方法及装置、电子设备、存储介质。
背景技术
随着互联网技术的发展,通过发布图片或视频进行讯息传播的网站和应用平台也越来越多。但随着图像传播的愈加广泛,包含有违禁信息的图像发布也随之增多,为了维护互联网的健康,需要网站和应用平台对发布的图像进行可疑图像识别,识别含有违禁信息的可疑图像,进而删除。
传统的可疑图像识别方式依赖于人工识别,但由于互联网发布的图像数量庞大,人工识别的方式费时、费力,且不能保证可疑图像识别的准确性和可靠性,不利于互联网行业的健康的发展。
发明内容
为解决上述技术问题,本发明实施例提供了一种虚拟现实VR图像识别方法及装置、电子设备、存储介质,能够自动识别VR图像中的可疑图像,提高了可疑图像识别的效率。
本申请实施例提供了一种虚拟现实VR图像识别方法,包括:
获取一个或者多个目标VR展开图;
将每个目标VR展开图裁剪为多个方形子图;
利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;
若分类结果中存在可疑分类,则判定属于可疑分类的方形子图对应的目标 VR展开图为可疑图像。
本申请实施例提供了一种虚拟现实VR图像识别装置,包括:
目标获取单元,用于获取一个或者多个目标VR展开图;
裁剪单元,用于将每个目标VR展开图裁剪为多个方形子图;
模型识别单元,用于利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;
判定单元,用于判定目标VR展开图是否为可疑图像。
本申请实施例提供了一种电子设备,包括:
储存器,用于储存可执行指令;
处理器,用于执行所述储存器中存储的可执行指令时,实现所述的虚拟现实VR图像识别方法。
本申请实施例提供了一种储存介质,所述储存介质存储有可执行指令,当所述可执行指令被至少一个处理器执行时,实现所述的虚拟现实VR图像识别方法。
本申请实施例提供了一种虚拟现实VR图像识别方法。其中,获取一个或者多个目标VR展开图;将每个目标VR展开图裁剪为多个方形子图;利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;若分类结果中存在可疑分类,则判定属于可疑分类的方形子图对应的目标VR展开图为可疑图像。
本申请实施例中,获取一个或者多个目标VR展开图;将每个目标VR展开图裁剪为多个方形子图。如此,能够利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,进而识别目标VR展开图是否为可疑图像,实现了VR图像中的可疑图像的自动识别,提高了可疑图像识别的效率。
附图说明
图1为本申请实施例提供的虚拟现实VR图像识别方法的流程示意图;
图2为本申请实施例提供的SENet模型的结构示意图;
图3为本申请实施例提供的将预处理后的训练集输入基于SENet模型的第二注意力分类模型进行训练的流程示意图;
图4为本申请应用实施例提供的虚拟现实VR图像识别方法的流程示意图;
图5为本申请应用实施例提供的构建训练集、测试集和验证集的方法的流程示意图;
图6为本申请应用实施例提供的对所述训练集和验证集进行预处理的方法的流程示意图;
图7为本申请应用实施例提供的构建第二注意力分类模型的方法的流程示意图;
图8为本申请应用实施例提供的对测试集进行畸变矫正的方法的流程示意图;
图9为本申请实施例提供的虚拟现实VR图像识别装置的结构示意图;
图10为本申请实施例提供的电子设备的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术实施例进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在 A,同时存在A和B,单独存在B这三种情况。另外,本申请实施例中,字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
为便于理解本申请实施例的技术实施例,以下对本申请实施例的相关技术进行说明,以下相关技术作为可选实施例与本申请实施例的技术实施例可以进行任意结合,其均属于本申请实施例的保护范围。
可疑图像识别是指识别目标图像中是否含有违禁信息,进而达到判断目标图像是否为可疑图像的目的。随着模型的发展,目标图像的种类随之逐日丰富,针对目标图像的识别需求也随之与日俱增,比如视频直播、电子商城、社交论坛等版块中均含有不同形式的图像信息,若只使用人工识别的方式,无疑将严重影响图像识别的效率。
近年来,随着卷积神经模型的快速发展,卷积神经模型在图像检测、识别、分类方面取得了很好的效果,利用卷积神经模型进行可疑图像识别的基本步骤为:将目标图像的RGB信息输入基于卷积神经模型的图像识别模型进行检测,图像识别模型通过卷积神经模型对该目标图像进行特征提取,获取关键信息并输入到基于卷积神经模型的图像分类模型中,判断该目标图像是否含有违禁信息,若存在违禁信息,则通过人工识别的方式进行二次校验,极大地减少了人工识别的复杂度,提高了可疑图像识别的效率。例如:
1)现有直播量级巨大,导致直播视频中含有的图像信息量更加巨大,仅通过人工识别的方式实现可疑图像识别是极为困难的,但是通过卷积神经模型进行可疑图像识别,能够实现多内容并行识别,高精度识别违禁内容,极大地提高了可疑图像识别的效率。
2)电子商城已经成为居民购物的优先选择,通过卷积神经模型进行可疑图像识别,识别商家与用户上传的图像交互信息,高效预警不合规的图像,能够有效的提升图像识别效率,降低业务违规风险。
3)社交论坛与用户原创内容(UCG,User Generated Content)网站等应用平台含有的图像信息繁杂,通过卷积神经模型进行可疑图像识别,能够有效提升应用平台包含的图像内容的质量。
进一步的,以图像可疑识别为例进行说明,图像可疑识别是指识别图像中是否存在可疑元素,从而达到快速筛查违禁信息的目的。
可疑图像识别主要分为以下几种识别方式:
1)构建卷积神经模型获取目标图像的特征,将目标图像的特征输入到分类模型,最终输出该目标图像的分类标签向量,从而达到识别该目标图像类别标签的目的。
2)基于目标检测,通过类别标签标注的方式构建训练数据集,训练卷积神经模型完成目标检测与类型识别,从而精准识别目标图像中的可疑元素。
以下介绍几种可疑识别实施例:
实施例A:该实施例结合目标检测与图像分类,针对图像进行二次检测,即先通过可疑元素检测以确定图像中是否含有可疑元素,再通过场景识别以确定图像是否包含可疑场景,若确定所述图像包含可疑元素且包含可疑场景,则确定所述场景中有可疑内容。
实施例B:该实施例通过图像分类模型获取图像分类概率向量,即将图像标准化为224*224的尺寸,通过标注模型得到标签概率向量,用于表征该图像的标注信息,概率向量大于阈值的所有标签即为该图像的标注结果。
上述实施例存在的缺陷如下:
对于实施例A,首先,由于可疑图像的训练集数据较难获取,若要对图像进行可疑元素检测,则需要进行大量的数据标注工作,这需要花费巨大的人力和时间成本;其次,可疑元素检测与可疑场景识别全部完成才能判定该图像是否为可疑图像,判定条件较为苛刻,若其中一步判别精度较低,则会对识别结果造成极大的影响。
对于实施例B,首先,该实施例通过训练标注模型得到标签概率向量,其输入为标准化后的方图,适用范围有限。
特别是随着虚拟现实技术(Virtual Reality,VR)的发展,观看者佩戴VR 眼镜等设备观看VR视频、VR全景图时,呈现为360°全景图,观看者在其中能够与虚拟场景或者物品进行交互,从而获得沉浸式体验,因此互联网上的VR 图像(包括VR全景图、VR视频及VR展开图,VR视频是由VR全景图通过一定帧率播放形成的,VR展开图是由VR全景图通过展开形成的)的内容、数量及类型也变得逐日丰富,仅通过常规的可疑图像识别方法识别VR图像时,如实施例A和实施例B的方法,除了上述缺陷,还存在以下缺陷:
1)VR展开图的畸变问题:VR全景图为360°全景图,由于成像模型的非线性因素影响,若将VR全景图展开到2D平面形成VR展开图,图像画面会发生明显的畸变,将对后续图像的特征提取与识别带来较大的干扰。
2)VR展开图的精度丢失问题:基于卷积神经模型的图像识别模型需要将输入图像填充为方图后再调整到固定大小,如224*224,以送入图像分类模型中识别分类;由于VR展开图(如柱面展开图和透视展开图)的长、宽并不一致,其且具有丰富的像素精度,因此若通过将VR展开图填充为方图再压缩的方式,则需要对原始VR展开图进行无效像素填充,这将为图像分类模型中的卷积操作引入大量的冗余干扰信息,且将方图压缩为较小的像素表征,会导致较多的有效特征信息丢失,对图像分类识别精度造成负面影响。
3)VR展开图的细节识别问题:由于VR全景图的全景环绕特性,VR全景图中往往含有繁杂的信息,而图像的有效特征只由部分关键特征突出表现,若这部分关键特征在VR展开图中仅占有较小的比重,可能会导致图像分类模型在识别图像时忽略掉该关键特征信息从而判别错误。
为了解决上述至少部分缺陷,提出了本申请实施例的以下技术实施例。
为了能够更加详尽地了解本申请的特点与技术内容,下面结合附图对本申请的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请;所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本实施例提供了一种虚拟现实VR图像识别方法,图1为本实施例提供的虚拟现实VR图像识别方法的流程示意图。如图1所示,所述虚拟现实VR图像识别方法包括以下步骤:
步骤101:获取一个或者多个目标VR展开图;
步骤102:将每个目标VR展开图裁剪为多个方形子图;
步骤103:利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;
步骤104:若分类结果中存在可疑分类,则判定属于可疑分类的方形子图对应的目标VR展开图为可疑图像;若分类结果中不存在可疑分类,则判定所有目标VR展开图为非可疑图像。
对上述实施例中出现的名词进行解释:
VR展开图:VR全景图(如环状全景图)展开到2D平面形成的展开图。
方形子图:从目标VR展开图上裁剪下的正方形尺寸的子图。
可疑图像:含有违禁信息的VR展开图。
由于第一注意力分类模型是通过机器学习训练得到的模型,所以可疑图像识别的准确率不可能为百分百,因此,第一注意力分类模型判定目标VR展开图为可疑图像后,还需要对目标VR展开图进行人工复审,提高可疑图像识别的准确率,以保证可疑图像识别结果的可靠性。
基于此,在一实施例中,所述的方法还包括:
若判定目标VR展开图为可疑图像,则在目标VR展开图对应位置上标注可疑区域,并对可疑区域进行人工复审;
所述可疑区域指分类结果中可疑分类对应的方形子图的可疑区域。
上述实施例中,若从某一目标VR展开图上裁剪的方形子图的分类结果中存在一个或者多个可疑分类,则在对应的目标VR展开图上,需要将每个可疑分类对应的方形子图的可疑区域都进行标注,通过人工复审,只要确定其中一个可疑区域含有违禁信息,即判定该目标VR展开图为可疑图像。上述实施例中,使用注意力分类模型之前,在注意力分类模型结构确定的情况下,还需使用大量的训练集训练注意力分类模型,更新注意力分类模型的参数,以保证其在特定的应用场景,比如本申请实施例中的VR图像识别应用场景中得到更高的识别准确率,因此,上述实施例中还需要对注意力分类模型进行训练。
基于此,在一实施例中,所述的方法还包括:训练第二注意力分类模型,得到第一注意力分类模型,第一注意力分类模型是指训练完成的第二注意力分类模型。
上述实施例中,训练第二注意力分类模型时,首先可利用训练集训练第二注意力分类模型,并利用损失函数更新第二注意力分类模型的参数,然后再利用验证集选择效果最好的第二注意力分类模型,其中,需要注意的是:注意力分类模型也是深度学习模型的一种,深度学习模型对输入对象有格式要求,所以在使用训练集和验证集之前,要对训练集和验证集进行预处理。
基于此,在一实施例中,所述训练第二注意力分类模型,包括:
构建训练集和验证集;
对训练集和验证集进行预处理;
将预处理后的训练集输入第二注意力分类模型进行训练,利用损失函数更新第二注意力分类模型的参数;
选取在预处理后的验证集上效果最好的模型,作为第二注意力分类模型。
上述实施例中,由于第一注意力分类模型的作用是识别方形子图属于可疑分类或者非可疑分类,因此,为了达到较好的识别效果,训练集和验证集的构建十分重要。
基于此,在一实施例中,所述构建训练集和验证集,包括:
基于分类结果中的可疑分类,利用可疑分类对应的关键词爬取多张可疑分类图片,将每张可疑分类图片标注可疑分类标签;
基于分类结果中的非可疑分类,从基于图片分类的开源数据集中获取多张非可疑分类图片,将每张非可疑分类图片标注非可疑分类标签;具体的,所述开源数据集可从互联网下载,图片分类可选择非可疑分类,即从开源数据集的非可疑分类中抽取一定数量的图片,作为非可疑分类图片;
基于可疑分类图片和非可疑分类图片构建训练集和验证集。
上述实施例中,对于数据集较大的训练集,卷积神经模型对损失函数和参数进行梯度下降时,对于很大的数据集需要对所有的样本进行梯度下降,在有限的内存条件下是无法实现的,如果对训练集进行批处理(batch),那么每次梯度下降时,只在一个批数据下进行,这样每次输入卷积神经模型的数据量较小,可以在有限的内存下进行训练。
进一步的,由于batch的必要性,卷积神经模型的训练是以batch为训练单位,并反向传播一次,如果一个batch包含了训练集中全部的训练样本,那么是否对训练集进行打乱(shuffle)是没有区别的,因为反向传播时,卷积神经模型将计算batch中每个样本的损失,再求平均值,因此,是否shuffle训练集,即顺序对样本损失的平均值是没有影响的。但是当一个batch只包含训练集中部分的训练样本时,要求每个batch要尽可能的接近样本真实的概率分布,随机shuffle后的样本比排序后的样本更加接近真实的概率分布,因为排序后的样本之间多了一层相关性,将在一定程度上表现出不同的概率分布,即样本排序后的卷积神经模型每一次训练学习的都是不同的数据分布,不利于模型收敛。
基于此,在一实施例中,所述对训练集和验证集进行预处理,包括:
将训练集进行打乱和分批处理,得到多个训练子集;
将每个训练子集和验证集中的图片填充为方图;
将每个训练子集和验证集中的方图压缩,得到预处理后的训练集和预处理后的验证集,预处理后的训练集中包含多个预处理后的训练子集。
上述实施例中,在卷积神经模型中,通常要求输入图片是正方形尺寸的,而训练子集和验证集中的图片可能是长方形尺寸的,如果直接将长方形图片拉伸或者压缩,则会导致图片变形,不利于卷积神经模型的训练,因此本申请实施例中采取填充的方法,将每个训练子集和验证集中的图片填充为方图,具体的方法为:
用输入图片长度或者宽度做等比缩放;
利用OpenCV中的copyMakeBorder函数对剩余像素进行边界填充,通常用于边界填充的像素的灰度值为128。
进一步的,由于本申请实施例中,将训练集shuffle后划分为多个batch,因此,利用任一个batch训练第二注意力分类模型时,都需要利用损失函数更新第二注意力分类模型的参数。
基于此,在一实施例中,所述将预处理后的训练集输入第二注意力分类模型进行训练,利用损失函数更新第二注意力分类模型的参数,包括:
将每个预处理后的训练子集输入第二注意力分类模型进行训练,利用损失函数更新第二注意力分类模型的参数。
训练第二注意力分类模型时,对训练集和验证集进行标准化处理有助于避免模型过拟合,加快模型拟合速度。
基于此,在一实施例中,所述将训练集进行打乱和分批处理,得到多个训练子集,包括:
对训练集和验证集中的图片进行标准化处理,得到标准化后的训练集和标准化后的验证集;
将标准化后的训练集进行打乱和分批处理,得到多个训练子集。
上述实施例中,标准化处理通常有以下两种实施例:
1、对训练集和验证集统一起来进行标准化;
2、先对训练集进行标准化处理,之后利用训练集的标准化规则对验证集数据标准化。
本申请实施例中,选取第2种方法,即先对训练集进行标准化处理,之后利用训练集的标准化规则对验证集数据标准化,其原因在于:
第1种方法将训练集和验证集中所有数据进行统一的标准化处理,适合在已经有所有数据的前提下使用,并且不适合在已经训练好的模型之上加数据。
第2种方法是提取训练集的数据标准化规则,之后再用在验证集上,这种方法可在第二注意力分类模型模型训练完毕之后,将输入的数据按照训练集规则进行标准化处理,可将训练好的第二注意力分类模型模型利用于之后输入的数据上。
第1种方法和第2种方法的直观对比如下:
假设现在有一组数据,最大值为100,最小值为-100。训练集和验证集统一起来进行标准化之后,数据最大值变为1,最小值为0.1。如果在第二注意力分类模型训练好之后,来一批实时数据,那么此时实时数据将无法获取训练集的标准化规则,并且实时数据利用自己的规则标准化处理会导致数据失去自有的特征。例如,现传入一批数据A,最大值为200,按照A的标准规则,最大值会变为1,这与训练集最大值100的标准化数据一致,因此第二注意力分类模型将失去A这批数据的特征。
如果验证集也以训练集的规则进行标准化,现传入一批数据A,最大值为 200,此时按照训练集的规则进行标准化之后,最大值会变成1.5,此时才正确的反馈了这批数据A的特征。
基于此,在一实施例中,所述对训练集和验证集中的图片进行标准化处理,得到标准化后的训练集和标准化后的验证集,包括:
利用z-score标准化方法对训练集进行标准化,得到标准化后的训练集;
基于训练集的均值与方差,利用z-score标准化方法对验证集进行标准化,得到标准化后的验证集。
上述实施例中,Z-Score标准化方法的主要目的是将不同量级的数据统一转化为同一个量级,统一用计算出的Z-Score值衡量,以保证数据之间的可比性,用数学式表达为
Figure RE-GDA0003556824250000111
在本申请实施例中,xR,G,B表示训练集或验证集中任一像素点的R通道或G通道或B通道的值,μ表示训练集中所有像素点对应的R通道或G通道或B通道的值的均值,δ表示训练集中所有像素点对应的R通道或G通道或B通道的值的标准差,方差为标准差的算术平方根。
上述实施例中,成功训练的第二注意力分类模型需要更新大量的参数,这些参数可以正确工作需要大量的训练集进行训练,而实际情况中能够用于训练集的图片并没有那么多,但是我们可以通过增加训练的数据量,来提高模型的泛化能力;现有的方法中,增加训练的数据量的方法主要有两种:一种方法是获得新的数据,这种方法比较麻烦,需要大量的成本;第二种方法则是对数据进行增强,即利用已有的数据进行比如翻转、平移或旋转操作,创造出更多的数据,来使得模型具有更好的泛化效果。
基于此,在一实施例中,所述将每个训练子集和验证集中的方图压缩之前,还包括:
使用以下至少一种方法对每个训练子集中的方图进行数据增强处理:翻转、平移、旋转、缩放、裁剪、引入噪声。
进一步的,卷积神经模型在图像识别领域取得了巨大的突破,而卷积核作为卷积神经模型的核心,是用于在局部感受野上,将空间上(spatial)的信息和特征维度上(channel-wise)的信息进行聚合的信息聚合体。卷积神经模型由一系列卷积层、非线性层和下采样层构成,以实现从全局感受野上捕获图像的特征,进而进行图像的描述。
Squeeze-and-Excitation Networks(简称SENet)从另一角度出发,通过添加Squeeze(特征压缩)和Excitation(激励)的操作,显式地建模特征通道之间的相互依赖关系,而非引入新的空间上的信息或者特征维度上的信息。具体来说,是指通过学习的方式自动获取到每个特征通道的重要程度,采用了特征重标定策略,依照所述的重要程度提升有用特征的权重,并抑制对当前任务不重要特征的权重。
基于此,如图2所示,图2为本申请实施例提供的SENet模型的结构示意图,图2所示的SENet模型是指将SE模块(Squeeze-and-Excitation Blook)插入ResNet模型构成SE-ResNet模型的结构示意图。
基于此,在一实施例中,所述将预处理后的训练集输入第二注意力分类模型进行训练,包括:
将预处理后的训练集输入基于SENet模型的第二注意力分类模型进行训练。
上述实施例中,如图3所示,图3为本申请实施例提供的将预处理后的训练集输入基于SENet模型的第二注意力分类模型进行训练的流程示意图;所述将预处理后的训练集输入基于SENet模型的第二注意力分类模型进行训练,包括:
步骤301:利用ResNet模型的残差层(Residual)提取预处理后的训练集的输出特征Zconv,其维度为(c,h,w);其中,c表示卷积核的个数,即输出特征 Zconv的特征通道数,或者说ResNet模型的残差层(Residual)输出了c个大小为h*w的特征图(feature map);
步骤302:对输出特征Zconv进行全局平均池化(Global Average Pooling)操作,得到输出特征Zconv的每个特征通道的特征分布Wmean,其维度为(c,1,1);全局平均池化操作能够表征输出特征Zconv中c个大小为h*w的特征图的数值分布情况,即每个特征通道的特征分布Wmean,也就是全局信息(Global information),
步骤303:将每个特征通道的特征分布Wmean输入第一全连接层(fully connectedlayers,FC),得到降低维度后的特征分布W1*Wmean;其中,第一全连接层W1的维度为
Figure RE-GDA0003556824250000131
r为缩放参数,其目的是为了减小特征通道的个数,进而降低计算量,经第一全连接层降维操作后,输出为降低维度后的特征分布 W1*Wmean,其维度为/>
Figure RE-GDA0003556824250000132
步骤304:将降低维度后的特征分布W1*Wmean送入RELU激活函数进行激活,得到激活后的特征分布RELU(W1*Wmean),其维度不变;激活函数是用来加入非线性因素的,提高卷积神经模型的表达能力,解决线性模型所不能解决的问题;
步骤305:将激活后的特征分布RELU(W1*Wmean)送入第二全连接层W2,得到恢复维度后的特征分布W2*RELU(W1*Wmean);第二全连接层W2的维度为
Figure RE-GDA0003556824250000133
因此,恢复维度后的特征分布W2*RELU(W1*Wmean)的维度为(c,1,1);
步骤306:将恢复维度后的特征分布W2*RELU(W1*Wmean)送入Sigmoid 激活函数,得到输出特征Zconv的每个特征通道的权重Wfull,其中, Wfull=Sigmoid(W2*RELU(W1*Wmean)),Wfull用于表示Zconv中每个大小为h*w 的特征图的权重,即Zconv每个特征通道的权重,而且Wfull是通过上述第一全连接层W1、第二全连接层W2、RELU激活函数层和Sigmoid激活函数层学习得到的,因此可用于ResNet模型进行端对端训练;由此也可得知,第一全连接层W1和第二全连接层W2的作用为融合输出特征Zconv的每个特征通道的特征图的信息,因为每个Squeeze(特征压缩)都实在某一个特征通道的特征图里操作的;
步骤307:利用输出特征Zconv的每个特征通道的权重Wfull对输出特征Zconv进行加权操作,得到加权后的输出特征
Figure RE-GDA0003556824250000141
其中,/>
Figure RE-GDA0003556824250000142
步骤308:将加权后的输出特征
Figure RE-GDA0003556824250000143
输入SE-ResNet模型的全连接层和分类层,输出训练集中每个图片的分类结果;其中分类层的激活函数为softmax,本申请实施例中分类结果表示目标VR展开图为可疑分类或非可疑分类。
第二注意力分类模型中,每个训练子集的损失为每个训练子集中每个样本预测值与真实值的误差的平均值;本申请实施例中,利用交叉熵损失函数表示每个训练子集的损失,即利用交叉熵损失函数作为第二注意力分类模型的损失函数。其中,交叉熵=相对熵+信息熵。
相对熵(KL散度)的定义为:如果对于同一个随机变量X有两个单独的概率分布P(x)和Q(x),则我们可以使用KL散度来衡量这两个概率分布之间的差异,用数学式表示为:
Figure RE-GDA0003556824250000144
其中,p(xi)表示样本的真实分布,q(xi)表示模型所预测的样本分布,i表示第i个样本,n 表示样本总数;相对熵的数学表达式还可以改写为:
Figure RE-GDA0003556824250000145
其中,-Hp(x)表示信息熵,
Figure RE-GDA0003556824250000146
即为交叉熵H(p,q),即
Figure RE-GDA0003556824250000151
在机器学习训练模型时,输入数据与标签常常已经确定,那么真实概率分布P(x)也就确定下来了,所以信息熵在这里就是一个常量。由于KL散度的值表示真实概率分布P(x)与预测概率分布Q(x)之间的差异,KL散度的值越小表示预测的结果越好,所以需要最小化KL散度,而交叉熵等于KL散度加上一个常量(信息熵),且由数学表达式可知交叉熵相比KL散度更加容易计算,因此,本申请实施例中,利用交叉熵损失函数作为第二注意力分类模型的损失函数。
进一步的,利用交叉熵损失函数对可调参数求导,取参数更新方向为负导数方向,这样可以保证损失函数向减小方向调整,直至损失函数最小化,使样本集中真实概率分布P(x)与预测概率分布Q(x)之间的差异最小,即模型达到最优效果,进而实现对第二注意力分类模型的参数更新。
更进一步的,通常使用的最小化损失函数的方法的随机梯度下降算法, Adam算法是一种可以替代传统随机梯度下降算法的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,具有计算高效、所需内存少和梯度对角缩放的不变性的优点。
基于此,在一实施例中,所述利用损失函数更新第二注意力分类模型的参数,包括:
利用Adam算法最小化交叉熵损失函数;
利用交叉熵损失函数更新第二注意力分类模型的参数。
在本申请的实施例中,发布在互联网的VR图像还可以以VR视频的形式存在,基于此,在一实施例中,所述获取一个或者多个目标VR展开图,包括:
从目标VR视频中提取一帧或者多帧VR图像作为目标VR图像;
将每个目标VR图像展开,获取一个或者多个目标VR展开图。
上述实施例中,只要判定任意一个目标VR展开图为可疑图像,则可判定对应的目标VR视频为可疑图像。
进一步的,从目标VR视频中提取的目标VR图像以VR全景图的格式呈现,若要通过第一注意力分类模型识别,还需将目标VR图像展开,获取目标 VR展开图。比如,由环状VR全景图展开获取的目标VR展开图,首先将环状 VR全景图利用光线逆跟踪原理投影到圆柱表面,然后将圆柱面展开获得目标 VR展开图。但是由于环状VR全景图靠近内径的部分压缩比较大,因此展开后获取的目标VR展开图将不可避免的产生一定程度的畸变,不利于第一注意力分类模型识别,若要获得准确、可靠的识别结果,还需要对目标VR展开图进行畸变矫正。
进一步的,通过圆柱面展开获取的目标VR展开图,通常为长、宽不等的长方形尺寸,但是第一注意力分类模型要求输入图像为正方形尺寸,通常将长方形尺寸的图像转换为正方形尺寸的图像时,采取的方法有拉伸法和填充法
拉伸法为在图像的长度或者宽度方向对图像进行拉伸或者压缩,直至图像转换为正方形尺寸,但是如果直接将长方形图片拉伸或者压缩,则会导致图片变形,甚至丢失特征,因此不利于第一注意力分类模型识别。
填充法为用长方形图像的长度或者宽度做等比缩放,然后对剩余像素进行边界填充,通常用于边界填充的像素的灰度值为128;但是对剩余像素进行边界填充,一方面会引入大量的冗余特征,另一方面也会减少有用特征的比例,因此也不利于第一注意力分类模型识别。
因此本申请实施例中,利用正方形尺寸的滑动窗口将长方形图像裁剪为多个方形子图,不仅能够提高有用特征在方形子图中的比例,还不会引入新的冗余特征。
基于此,在一实施例中,所述将每个目标VR展开图裁剪为多个方形子图,包括:
对每个目标VR展开图进行畸变矫正,得到矫正后的目标VR展开图;
利用滑动窗口将每个矫正后的目标VR展开图裁剪为多个方形子图;
将每个方形子图压缩,得到压缩后的方形子图。
基于此,在一实施例中,所述对目标VR展开图进行畸变矫正,包括:
基于目标VR展开图的中心位置的坐标和目标VR展开图中任一像素点的坐标,得到目标VR展开图中任一像素点与中心位置的距离;其中,目标VR 展开图的中心位置的坐标为(cx,cy),目标VR展开图中任一像素点的坐标为 (x,y),则根据点与点距离公式可知,目标VR展开图中任一像素点与中心位置的距离
Figure RE-GDA0003556824250000171
基于目标VR展开图中任一像素点与中心位置的距离以及畸变系数,得到畸变矫正系数,畸变系数包括以下至少之一:枕形畸变系数、桶形畸变系数、径向畸变系数和线性缩放系数;畸变矫正系数的数学表达式为:
λ=k1r+k2r2+k3r3+k4r4
其中,λ表示畸变矫正系数,k1表示线性缩放系数,用于描述目标VR展开图的线性缩放程度,k2为桶形畸变系数(多项式修正算法计算),k2为负值, k3为径向畸变系数,一般情况下为0,k4为枕形畸变系数,为正值;
进一步的,k1=1-k2-k3-k4
基于目标VR展开图的中心位置的坐标和畸变矫正系数,得到目标VR展开图中的每个像素点在矫正后的目标VR展开图中的位置;其中,矫正后的目标VR展开图中对应像素点的位置坐标为
Figure RE-GDA0003556824250000172
Figure RE-GDA0003556824250000173
Figure RE-GDA0003556824250000174
基于目标VR展开图中的每个像素点在矫正后的目标VR展开图中的位置,将目标VR展开图中的每个像素点映射到矫正后的目标VR展开图的对应位置,得到矫正后的目标VR展开图。
基于此,在一实施例中,所述利用滑动窗口将矫正后的目标VR展开图裁剪为多个方形子图,包括:
利用方形滑动窗口对矫正后的目标VR展开图进行裁剪,滑动窗口的滑动步距为第一滑动步距,滑动窗口的滑动方向为沿矫正后的目标VR展开图的长度方向;记矫正后的目标VR展开图的大小为(w,h),滑动窗口的大小为(w,w),第一滑动步距为l1
若一次或多次裁剪后,矫正后的目标VR展开图的剩余长度小于第一滑动步距,则滑动窗口以所述剩余长度为滑动步距,对矫正后的目标VR展开图进行最后一次裁剪,得到多个方形子图;记剩余长度为l2,其中,l2<l1,则得到的方形子图的个数
Figure RE-GDA0003556824250000181
为/>
Figure RE-GDA0003556824250000182
本申请实施例提供了一种虚拟现实VR图像识别方法。其中,获取一个或者多个目标VR展开图;将每个目标VR展开图裁剪为多个方形子图;利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;若分类结果中存在可疑分类,则判定属于可疑分类的方形子图对应的目标VR展开图为可疑图像。
本申请实施例中,获取一个或者多个目标VR展开图;将每个目标VR展开图裁剪为多个方形子图。如此,能够利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,进而识别目标VR展开图是否为可疑图像,实现了VR图像中的可疑图像的自动识别,提高了可疑图像识别的效率。
下面结合应用实施例本申请再作进一步描述:
图4为本申请应用实施例提供的虚拟现实VR图像识别方法的流程示意图,如图4所示,本申请应用实施例提供了一种虚拟现实VR图像识别方法,用于识别目标VR展开图是否为可疑图像。
如图4所示,本申请应用实施例提供的虚拟现实VR图像识别方法,包括:
步骤401:构建数据集,具体的,构建训练集、测试集和验证集。
图5为本申请应用实施例提供的构建训练集、测试集和验证集的方法的流程示意图,如图5所示,本申请应用实施例提供的构建训练集、测试集和验证集的方法,包括:
步骤501:基于相关关键词在网络上爬取多张可疑图片,将每张可疑图片标注可疑分类标签;
步骤502:下载用于图片分类的开源数据集,随机从开源数据集的非可疑分类中抽取多张非可疑图片,将每张非可疑图片标注非可疑分类标签;
步骤503:基于可疑图片和非可疑图片,构建训练集和验证集;
步骤504:从目标VR视频中提取一帧或者多帧VR图像作为目标VR图像,将目标VR图像展开,获取一个或者多个目标VR展开图,基于一个或者多个目标VR展开图,构建测试集。
步骤402:对训练集和验证集进行预处理。
图6为本申请应用实施例提供的对所述训练集和验证集进行预处理的方法的流程示意图,如图6所示,本申请应用实施例提供的对所述训练集和验证集进行预处理的方法,包括:
步骤601:利用z-score标准化方法对训练集进行标准化,得到标准化后的训练集;基于训练集的均值与方差,利用z-score标准化方法对验证集进行标准化,得到标准化后的验证集;
步骤602:将标准化后的训练集进行打乱和分批处理,得到多个训练子集,每个训练子集中的样本数为τ;
步骤603:使用以下至少一种方法对每个训练子集中的方图进行数据增强处理:翻转、平移、旋转、缩放、裁剪、引入噪声;
步骤604:将每个训练子集和验证集中的图片填充为方图;将每个训练子集和验证集中的方图压缩到(m,m)尺寸,得到预处理后的训练集和预处理后的验证集,预处理后的训练集中包含多个预处理后的训练子集。
步骤403:构建第二注意力分类模型。
图7为本申请应用实施例提供的构建第二注意力分类模型的方法的流程示意图,如图7所示,本申请应用实施例提供的构建第二注意力分类模型的方法,包括:
步骤701:定义每个训练子集P的维度为(τ,m,m,3),其中,3表示RGB 特征维度;
步骤702:将训练子集输入预训练好的ResNet模型(比如ResNet101模型),利用ResNet模型的残差层(Residual)提取训练子集的初始特征Y,初始特征 Y的维度为(τ,m,m,c1),其中τ为每个训练子集中的方图个数,m为方图的边长,c1为初始特征Y的特征维度;
步骤703:将初始特征Y输入多层卷积模型,得到输出特征Zconv,其维度为(τ,m,m,c2);其中,c2表示输出特征Zconv的特征维度;
步骤704:对输出特征Zconv进行全局平均池化操作,得到输出特征Zconv的每个特征通道的特征分布Wmean,Wmean的维度为(τ,1,1,c2),Wmean用数学表达式表示为:
Figure RE-GDA0003556824250000201
其中,i表示高度方向第i个像素点,j表示宽度方向第j个像素点;
步骤705:将Wmean输入第一全连接层W1,得到降低维度后的特征分布 W1*Wmean,其维度为
Figure RE-GDA0003556824250000202
其中,第一全连接层W1的维度为/>
Figure RE-GDA0003556824250000203
r 为缩放参数;将W1*Wmean送入RELU激活函数进行激活,得到激活后的特征分布RELU(W1*Wmean),其维度为/>
Figure RE-GDA0003556824250000204
将激活后的特征分布 RELU(W1*Wmean)送入第二全连接层W2,得到恢复维度后的特征分布W2*RELU(W1*Wmean),其维度为(τ,1,1,c2),其中,第二全连接层W2的维度为/>
Figure RE-GDA0003556824250000205
将W2*RELU(W1*Wmean)送入Sigmoid激活函数,得到输出特征Zconv的每个特征通道的权重Wfull,其维度为(τ,1,1,c2),Wfull用数学表达式表示为:
Wfull=Sigmoid(W2*RELU(W1*Wmean));
步骤706:利用Wfull对输出特征Zconv进行加权操作,得到加权后的输出特征
Figure RE-GDA0003556824250000211
其中,用数学表达式表示为:/>
Figure RE-GDA0003556824250000212
步骤707:将加权后的输出特征
Figure RE-GDA0003556824250000213
输入全连接层和分类层,输出训练子集中每个图片的分类结果,分类结果为可疑分类或者非可疑分类;其中分类层的激活函数为softmax;
步骤708:构建交叉熵损失函数作为第二注意力模型的损失函数。
步骤404:训练第二注意力分类模型,包括:
利用Adam算法最小化交叉熵损失函数;
利用交叉熵损失函数更新第二注意力分类模型的参数。
需要注意的是,由于训练集分为多个训练子集,因此,使用每个训练子集训练后,都可以得到一个第二注意力分类模型。
步骤405:选取在预处理后的验证集上效果最好的模型,作为训练完成的第二注意力分类模型,即第一注意力分类模型。
步骤406:对测试集中的每个VR展开图进行畸变矫正。
图8为本申请应用实施例提供的对测试集进行畸变矫正的方法的流程示意图,如图8所示,本申请应用实施例提供的对测试集进行畸变矫正的方法,包括:
步骤801:定义目标VR展开图的中心位置的坐标为(cx,cy),目标VR展开图中任一像素点的坐标为(x,y),矫正后的目标VR展开图中对应像素点的位置坐标为
Figure RE-GDA0003556824250000214
步骤802:计算目标VR展开图中任一像素点与中心位置的距离r,
Figure RE-GDA0003556824250000215
步骤803:计算畸变矫正系数λ,λ=k1r+k2r2+k3r3+k4r4;其中,k1表示线性缩放系数,k2为桶形畸变系数,k3为径向畸变系数,一般情况下为0,k4为枕形畸变系数,k1=1-k2-k3-k4
步骤804:计算矫正后的目标VR展开图中对应像素点的位置坐标为
Figure RE-GDA0003556824250000221
Figure RE-GDA0003556824250000222
步骤805:将目标VR展开图中的每个像素点映射到矫正后的目标VR展开图的对应位置,得到矫正后的目标VR展开图。
步骤407:对测试集中的每个VR展开图进行滑窗裁剪,将每个VR展开图裁剪为多张方形子图,并对方形子图进行压缩,包括:
利用方形滑动窗口对矫正后的目标VR展开图进行裁剪,滑动窗口的滑动步距为第一滑动步距,滑动窗口的滑动方向为沿矫正后的目标VR展开图的长度方向;记矫正后的目标VR展开图的大小为(w,h),滑动窗口的大小为(w,w),第一滑动步距为l1
若一次或多次裁剪后,矫正后的目标VR展开图的剩余长度小于第一滑动步距,则滑动窗口以所述剩余长度为滑动步距,对矫正后的目标VR展开图进行最后一次裁剪,得到多个方形子图;记剩余长度为l2,其中,l2<l1,则得到的方形子图的个数
Figure RE-GDA0003556824250000223
Figure RE-GDA0003556824250000224
将每个方形子图压缩到(m,m)尺寸。
步骤408:对每个VR展开图,将其压缩后的
Figure RE-GDA0003556824250000225
个(m,m)尺寸的方形子图输入第一注意力分类模型,输出/>
Figure RE-GDA0003556824250000226
个分类结果,若分类结果存在可疑分类,则判定属于可疑分类的方形子图对应的目标VR展开图的分类结果为可疑图像,还可判定目标VR视频为可疑视频,且在对应VR展开图上标注可疑区域。
步骤409:对可疑区域进行人工复审。
本申请应用实施例提供的一种虚拟现实VR图像识别方法,与现有技术相比,具备以下优点:
针对VR展开图像的畸变特性,本申请应用实施例提供的一种虚拟现实VR 图像识别方法,通过步骤406中的畸变矫正处理,得到目标VR展开图与其矫正后的目标VR展开图间像素点的对应关系,对VR展开图进行畸变矫正处理,以还原VR图像原始场景,消除带有畸变的VR展开图给第一注意力分类模型带来的负面效果。
针对VR展开图的精度丢失问题,即长方形尺寸的VR展开图,仅通过填充到方图并压缩尺寸即输入第一注意力分类模型识别的方式,会导致VR展开图损失较多有效特征,且引入较多冗余特征,本申请应用实施例提供的一种虚拟现实VR图像识别方法,通过步骤407中的滑窗裁剪的方式,使用方形滑动窗口将VR展开图裁剪为多个方形子图,分别送入第一注意力分类模型进行识别,结合多图输出的分类结果完成该VR展开图的识别,既能避免单次识别错误造成的影响,也能减少高分辨率图像被极致压缩后损失较多有效特征带来的弊端。
针对VR展开图的细节识别问题,即VR展开图中信息丰富度过高,若识别模型将所有特征均衡考虑,则可能会因细微关键信息被忽略而导致分类识别结果错误,本申请应用实施例提供的一种虚拟现实VR图像识别方法,通过步骤403中的构建第二注意力分类模型,引入注意力机制,使得有效特征权重更大,降低无效的特征作用,输出加权特征图作为最终的特征分布图,以此提高 VR图像识别的准确度和可靠性。
为了实现本申请实施例所述的虚拟现实VR图像识别方法,本申请实施例还提供一种虚拟现实VR图像识别装置900,如图9所示,图9为本申请实施例提供的虚拟现实VR图像识别装置900的结构示意图。所述虚拟现实VR图像识别装置900,包括:
目标获取单元901,用于获取一个或者多个目标VR展开图;
裁剪单元902,用于将每个目标VR展开图裁剪为多个方形子图;
模型识别单元903,用于利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;
判定单元904,用于判定目标VR展开图是否为可疑图像。
在一实施例中,所述虚拟现实VR图像识别装置900还包括:
标注单元,用于在目标VR展开图对应位置上标注可疑区域,所述可疑区域指分类结果中可疑分类对应的方形子图的可疑区域。
本领域技术人员应当理解,图9所示的VR图像识别装置900中的各单元的实现功能可参照前述虚拟现实VR图像识别方法的相关描述而理解。图9所示的VR图像识别装置900中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
需要说明的是:上述实施例提供的虚拟现实VR图像识别装置900在进行 VR图像识别时,仅以上述各程序单元的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序单元完成,即将系统的内部结构划分成不同的程序单元,以完成以上描述的全部或者部分处理。另外,上述实施例提供的虚拟现实VR图像识别装置900与虚拟现实VR图像识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序单元的硬件实现,且为了实现本申请实施例的虚拟现实VR 图像识别方法,本申请实施例还提供一种电子设备1000,如图10所示,图10 为本申请实施例提供的电子设备的组成示意图;所述电子设备1000包括:
储存器1002,用于储存可执行指令;
处理器1001,用于在运行所述存储器存储的可执行指令时,实现本申请实施例提供的虚拟现实VR图像识别方法。
实际应用时,如图10所示,所述电子设备1000中的各个组件通过总线模块1003耦合在一起。可理解,总线模块1003用于实现这些组件之间的连接通信。总线模块1003除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线模块1003。
本申请实施例还提供一种存储介质,所述存储介质存储有可执行指令,当所述可执行指令被至少一个处理器1001执行时,实现本申请实施例提供的虚拟现实VR图像识别方法。
在一些实施例中,存储介质可以是磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperTextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和电子设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (21)

1.一种虚拟现实VR图像识别方法,其特征在于,包括:
获取一个或者多个目标VR展开图;
将每个目标VR展开图裁剪为多个方形子图;
利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;
若分类结果中存在可疑分类,则判定属于可疑分类的方形子图对应的目标VR展开图为可疑图像。
2.根据权利要求1所述的方法,其特征在于,还包括:
若判定目标VR展开图为可疑图像,则在目标VR展开图对应位置上标注可疑区域,并对可疑区域进行人工复审;
所述可疑区域指分类结果中可疑分类对应的方形子图的可疑区域。
3.根据权利要求2所述的方法,其特征在于,还包括:
训练第二注意力分类模型,得到第一注意力分类模型,第一注意力分类模型是指训练完成的第二注意力分类模型。
4.根据权利要求3所述的方法,其特征在于,所述训练第二注意力分类模型,包括:
构建训练集和验证集;
对训练集和验证集进行预处理;
将预处理后的训练集输入第二注意力分类模型进行训练,利用损失函数更新第二注意力分类模型的参数;
选取在预处理后的验证集上效果最好的模型,作为第二注意力分类模型。
5.根据权利要求4所述的方法,其特征在于,所述构建训练集和验证集,包括:
基于分类结果中的可疑分类,利用可疑分类对应的关键词爬取多张可疑分类图片,将每张可疑分类图片标注可疑分类标签;
基于分类结果中的非可疑分类,从基于图片分类的开源数据集中获取多张非可疑分类图片,将每张非可疑分类图片标注非可疑分类标签;
基于可疑分类图片和非可疑分类图片构建训练集和验证集。
6.根据权利要求4所述的方法,其特征在于,所述对训练集和验证集进行预处理,包括:
将训练集进行打乱和分批处理,得到多个训练子集;
将每个训练子集和验证集中的图片填充为方图;
将每个训练子集和验证集中的方图压缩,得到预处理后的训练集和预处理后的验证集,预处理后的训练集中包含多个预处理后的训练子集。
7.根据权利要求6所述的方法,其特征在于,所述将预处理后的训练集输入第二注意力分类模型进行训练,利用损失函数更新第二注意力分类模型的参数,包括:
将每个预处理后的训练子集输入第二注意力分类模型进行训练,利用损失函数更新第二注意力分类模型的参数。
8.根据权利要求6所述的方法,其特征在于,所述将训练集进行打乱和分批处理,得到多个训练子集,包括:
对训练集和验证集中的图片进行标准化处理,得到标准化后的训练集和标准化后的验证集;
将标准化后的训练集进行打乱和分批处理,得到多个训练子集。
9.根据权利要求8所述的方法,其特征在于,所述对训练集和验证集中的图片进行标准化处理,得到标准化后的训练集和标准化后的验证集,包括:
利用z-score标准化方法对训练集进行标准化,得到标准化后的训练集;
基于训练集的均值与方差,利用z-score标准化方法对验证集进行标准化,得到标准化后的验证集。
10.根据权利要求6所述的方法,其特征在于,所述将每个训练子集和验证集中的方图压缩之前,还包括:
使用以下至少一种方法对每个训练子集中的方图进行数据增强处理:翻转、旋转、缩放、裁剪、移位、引入噪声。
11.根据权利要求4所述的方法,其特征在于,所述将预处理后的训练集输入第二注意力分类模型进行训练,包括:
将预处理后的训练集输入基于SENet模型的第二注意力分类模型进行训练。
12.根据权利要求11所述的方法,其特征在于,所述将预处理后的训练集输入基于SENet模型的第二注意力分类模型进行训练,包括:
利用卷积神经模型提取预处理后的训练集的输出特征;
对输出特征进行全局平均池化操作,得到输出特征的每个特征通道的特征分布;
将每个特征通道的特征分布输入第一全连接层,得到降低维度后的特征分布;
将降低维度后的特征分布送入RELU激活函数进行激活,得到激活后的特征分布;
将激活后的特征分布送入第二全连接层,得到恢复维度后的特征分布;
将恢复维度后的特征分布送入Sigmoid激活函数,得到输出特征的每个特征通道的权重;
利用输出特征的每个特征通道的权重对输出特征进行加权操作,得到加权后的输出特征;
将加权后的输出特征输入SENet模型的全连接层和分类层,输出训练集中每个图片的分类结果。
13.根据权利要求4所述的方法,其特征在于,所述利用损失函数更新第二注意力分类模型的参数,包括:
利用Adam算法最小化交叉熵损失函数;
利用交叉熵损失函数更新第二注意力分类模型的参数。
14.根据权利要求1至13任一项所述的方法,其特征在于,所述获取一个或者多个目标VR展开图,包括:
从目标VR视频中提取一帧或者多帧VR图像作为目标VR图像;
将每个目标VR图像展开,获取一个或者多个目标VR展开图。
15.根据权利要求14所述的方法,其特征在于,所述将每个目标VR展开图裁剪为多个方形子图,包括:
对每个目标VR展开图进行畸变矫正,得到矫正后的目标VR展开图;
利用滑动窗口将每个矫正后的目标VR展开图裁剪为多个方形子图;
将每个方形子图压缩,得到压缩后的方形子图。
16.根据权利要求15所述的方法,其特征在于,所述对每个目标VR展开图进行畸变矫正,包括:
基于目标VR展开图的中心位置的坐标和目标VR展开图中任一像素点的坐标,得到目标VR展开图中任一像素点与中心位置的距离;
基于目标VR展开图中任一像素点与中心位置的距离以及畸变系数,得到畸变矫正系数,畸变系数包括以下至少之一:枕形畸变系数、桶形畸变系数、径向畸变系数和线性缩放系数;
基于目标VR展开图的中心位置的坐标和畸变矫正系数,得到目标VR展开图中的每个像素点在矫正后的目标VR展开图中的位置;
基于目标VR展开图中的每个像素点在矫正后的目标VR展开图中的位置,将目标VR展开图中的每个像素点映射到矫正后的目标VR展开图的对应位置,得到矫正后的目标VR展开图。
17.根据权利要求15所述的方法,其特征在于,所述利用滑动窗口将每个矫正后的目标VR展开图裁剪为多个方形子图,包括:
利用方形滑动窗口对矫正后的目标VR展开图进行裁剪,滑动窗口的滑动步距为第一滑动步距,滑动窗口的滑动方向为沿矫正后的目标VR展开图的长度方向;
若一次或多次裁剪后,矫正后的目标VR展开图的剩余长度小于第一滑动步距,则滑动窗口以所述剩余长度为滑动步距,对矫正后的目标VR展开图进行最后一次裁剪,得到多个方形子图。
18.一种虚拟现实VR图像识别装置,其特征在于,包括:
目标获取单元,用于获取一个或者多个目标VR展开图;
裁剪单元,用于将每个目标VR展开图裁剪为多个方形子图;
模型识别单元,用于利用第一注意力分类模型对每个方形子图进行处理,得到每个方形子图的分类结果,分类结果为可疑分类或非可疑分类;
判定单元,用于判定目标VR展开图是否为可疑图像。
19.根据权利要求18所述的装置,其特征在于,还包括:
标注单元,用于在目标VR展开图对应位置上标注可疑区域,所述可疑区域指分类结果中可疑分类对应的方形子图的可疑区域。
20.一种电子设备,其特征在于,包括:
储存器,用于储存可执行指令;
处理器,用于执行所述储存器中存储的可执行指令时,实现权利要求1至17任一项所述的虚拟现实VR图像识别方法。
21.一种储存介质,其特征在于,所述储存介质存储有可执行指令,当所述可执行指令被至少一个处理器执行时,实现权利要求1至17任一项所述的虚拟现实VR图像识别方法。
CN202111622240.1A 2021-12-28 2021-12-28 虚拟现实vr图像识别方法及装置、电子设备、存储介质 Pending CN116415019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111622240.1A CN116415019A (zh) 2021-12-28 2021-12-28 虚拟现实vr图像识别方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111622240.1A CN116415019A (zh) 2021-12-28 2021-12-28 虚拟现实vr图像识别方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN116415019A true CN116415019A (zh) 2023-07-11

Family

ID=87053025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111622240.1A Pending CN116415019A (zh) 2021-12-28 2021-12-28 虚拟现实vr图像识别方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN116415019A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704163A (zh) * 2023-08-03 2023-09-05 金锐同创(北京)科技股份有限公司 在终端显示虚拟现实场景的方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704163A (zh) * 2023-08-03 2023-09-05 金锐同创(北京)科技股份有限公司 在终端显示虚拟现实场景的方法、装置、设备及介质
CN116704163B (zh) * 2023-08-03 2023-10-31 金锐同创(北京)科技股份有限公司 在终端显示虚拟现实场景的方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
CN110674688B (zh) 用于视频监控场景的人脸识别模型获取方法、系统和介质
Tursun et al. An objective deghosting quality metric for HDR images
CN110517246B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN110490212A (zh) 钼靶影像处理设备、方法和装置
CN108197623A (zh) 用于检测目标的方法和装置
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
CN112669323B (zh) 图像处理方法及相关设备
CN113538480A (zh) 图像分割处理方法、装置、计算机设备和存储介质
CN107273870A (zh) 一种监控场景下融合上下文信息的行人位置检测方法
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN107347125B (zh) 视频图像的处理方法、装置和终端设备
CN111753839A (zh) 一种文本检测方法和装置
CN113269722A (zh) 生成对抗网络的训练方法、及高分辨率图像重建方法
CN113592726A (zh) 高动态范围成像方法、装置、电子设备和存储介质
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN115249306A (zh) 图像分割模型训练方法、图像处理方法、装置及存储介质
CN114677722A (zh) 一种融合多尺度特征的多监督人脸活体检测方法
Malav et al. DHSGAN: An end to end dehazing network for fog and smoke
CN113743378B (zh) 一种基于视频的火情监测方法和装置
CN114677611B (zh) 数据识别方法、存储介质及设备
CN116415019A (zh) 虚拟现实vr图像识别方法及装置、电子设备、存储介质
CN116798041A (zh) 图像识别方法、装置和电子设备
CN113628349B (zh) 基于场景内容自适应的ar导航方法、设备及可读存储介质
CN112651351B (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination