CN113139423A - 一种用于场景图检测的关系图学习方法 - Google Patents

一种用于场景图检测的关系图学习方法 Download PDF

Info

Publication number
CN113139423A
CN113139423A CN202110256665.9A CN202110256665A CN113139423A CN 113139423 A CN113139423 A CN 113139423A CN 202110256665 A CN202110256665 A CN 202110256665A CN 113139423 A CN113139423 A CN 113139423A
Authority
CN
China
Prior art keywords
relationship
targets
network
data set
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110256665.9A
Other languages
English (en)
Other versions
CN113139423B (zh
Inventor
俞俊
张昊文
李亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110256665.9A priority Critical patent/CN113139423B/zh
Publication of CN113139423A publication Critical patent/CN113139423A/zh
Application granted granted Critical
Publication of CN113139423B publication Critical patent/CN113139423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)

Abstract

本发明公开了一种用于场景图检测的关系图学习方法。本发明步骤:1、对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系;2、分别对数据集Ⅰ中的每张图像用目标检测网络Faster R‑CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;3、利用关系提取网络对得到的关系数据进行筛选,过滤冗余信息关系和无效性关系;4、构建一个关系图注意力网络,该网络由两部分组成:视觉‑空间图注意力子网络和语义‑空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。本发明实验结果表明比现有的最优方法效果提升数个百分点。

Description

一种用于场景图检测的关系图学习方法
技术领域
本发明提到了一种用于场景图检测的关系图学习方法(Relationship GraphLearning Network For Scene Graph Detection),主要涉及一种利用图注意力网络,对得到图片中的视觉信息、语义信息、空间信息进行融合从而学习预测目标之间关系的方法,以构建一个与人工评价结果更加一致的准确率较高的场景图关系检测方法。
背景技术
视觉关系检测的目的是检测图像中的物体并预测物体之间的关系。近年来,视觉关系检测一直是一个热门话题,在视觉关系检测中,关系一般表示为主语、谓词和宾语的三元组,例如,女人-戴-帽子。
大多数视觉关系检测方法仅利用两个物体之间的特征来计算两个物体之间的关系。然而,这些方式忽略了整个图像的全局信息。最近,视觉关系检测方法通常专注于探索图像组件之间的相关性。图像组件包含图像里对象和对象之间的关系。然而,大多数当前的方法只利用了对象之间的相关性,和他们仍然忽视关系之间的相关性。因此这些方法可以建模对象之间的相关性,比如利用图像中女人的共现,但是不能建模关系之间的相关性,比如从刀-在-桌,与盘子-在-桌这两对三元组去推测出盘子-相邻-刀,据我们所知,只有少数方法试图探索对象之间关系的相关性,然而大多数这些方法,没有达到令人满意的结果。如何有效地建模对象之间的关系仍然是一个挑战。
发明内容
本发明的目的是针对现有技术的不足,提供一种利用图注意力网络进行建模用于场景图关系检测的方法。对两个个大型目标检测数据集VG,VRD上进行了有效性验证。实验结果表明比现有的最优方法效果提升数个百分点。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)数据预处理
对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系,忽略其余目标和关系;
步骤(2)目标提取和关系检测
分别对数据集Ⅰ中的每张图像用目标检测网络Faster R-CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;
步骤(3)关系提取
利用关系提取网络对步骤(2)得到的关系数据进行筛选,过滤冗余信息关系和无效性关系,从而提高时间有效性;
步骤(4)关系图学习
构建一个关系图注意力网络,该网络由两部分组成:视觉-空间图注意力子网络和语义-空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。
进一步的,步骤(1)所述的数据预处理:
1-1、VRD数据集是一个包含5000多张图片、100种目标、70种关系的目标检测数据集;
1-2、VG数据集是一个包含108000多张图片,且每张图片平均包含38种目标、22种关系的大型目标检测数据集;由于VG数据集包含大量稀疏的目标和关系,为了降低数据的稀疏性,根据目标和关系出现的频次进行筛选;筛选后的VG数据集包含150个目标和50个关系;
1-3、按照标准数据集划分方法,将VRD数据集和筛选后的VG数据集,随机取80%的图片作为训练集,其余20%的数据集作为测试集。
进一步的,步骤(2)所述的目标提取和关系检测:
2-1、通过Faster R-CNN网络对每张图像进行目标提取和关系检测;Faster R-CNN网络主要包含4部分内容:
2-2、Conv Layers:将Conv Layers作为CNN网络目标检测的方法,提取图像的特征;Conv Layers主要包含了13个卷积层和13个激活层和4个池化层,并且所有的卷积都做了扩边处理,确保卷积层输入和输出矩阵的大小不变;
2-3、Region Proposal Networks即区域判断网络:RPN网络用于生成区域提议;该RPN网络通过softmax判断锚点属于真或者假,再利用边界框回归修正锚点获得精确的区域提议;
2-4、Roi Pooling:该层通过收集输入的图像特征和区域提议,综合生成区域提议特征;
2-5、Classification:利用区域提议特征在全连接层中计算提议目标类别,同时再次通过边界框回归获得检测框最终的精确位置。
进一步的,步骤(3)所述的关系提取:
首先假设(Oi,Oj)是一对目标,将该对目标中每个目标的语义特征和视觉特征进行拼接,得到拼接特征;将两个拼接特征分别通过两个全连接网络映射到一个低纬度的特征表示空间;然后对映射完后的两个特征表示进行点乘运算得到
Figure BDA0002967660070000034
同时根据得到的该对目标的空间特征输入到第三个全连接网络中得到
Figure BDA0002967660070000031
Figure BDA0002967660070000032
Figure BDA0002967660070000033
两值相加后送入sigmoid层得出最终评分;对所有得到的评分进行排序,然后选取前面K个评分,并进行进一步条件筛选。
进一步的,步骤(4)所述的关系图学习:
4-1、首先定义关系图注意力网络,网络由两部分组成分别是视觉-空间图注意力子网络和语义-空间图注意力子网络;
4-2、在视觉-空间图注意力子网络中,每一个关系提议都由视觉特征和空间特征进行初始化;视觉特征由Faster R-CNN得到的目标框特征和区域特征点乘得到,而空间特征由成对目标的相对位置和区域相对位置计算得出;利用图注意力网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;
4-3、在语义-空间图注意力子网络中,每一个关系提议都由语义特征和空间特征进行初始化;首先根据Faster R-CNN得到目标的类别,其次通过将类别送入Glove得到语义特征,一对目标的语义特征是由该对目标对应的两个目标的语义特征拼接得到;而空间特征由成对目标的相对位置和区域相对位置计算得出;然后利用图注意网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;
4-4、最终关系分数为上面两个子网络得到关系分数的点乘结果,根据最终关系分数确定关系;
4-5、最终实验结果在VRD数据集上,phrase detection R@50任务比当前的最优结果高1.2%,relation detection R@50任务比当前最优结果高0.5%;实验结果在VG数据集上,scene graph detection R@50任务比当前最优结果高2.8%。
进一步的,所述的空间特征计算如下:
假设有一个三元组(s,o,u),其中s,o,u分别表示目标1、关系、目标2,则此时定义位置信息为(x1 s,y1 s,x2 s,y2 s),(x1 o,y1 o,x2 o,y2 o),(x1 u,y1 u,x2 u,y2 u)其中上标1,2分别代表目标框的左上角和与右下角,则此关系的空间特征为:
Figure BDA0002967660070000041
本发明有益效果如下:
本发明达到了目前目标检测中多个任务的最优结果,并且大型目标检测数据集VG上表现也十分优异,因此在做相关工作时,利用本发明在目标检测工作上可以获得较高的正确率,与人类主观评分的一致性也较强。本发明最终实验结果在VRD数据集上,phrasedetection R@50任务比当前的最优结果高1.2%,relation detection R@50任务比当前最优结果高0.5%;实验结果在VG数据集上,scene graph detection R@50任务比当前最优结果高2.8%;
附图说明
图1是利用图注意力网络进行场景图检测的流程示意图;
图2是利用模型具体学习到的结果;
具体实施细节
下面结合附图对本发明做进一步说明。
如图1所示,一种用于场景图检测的关系图学习方法,具体包括如下步骤:
步骤(1)数据预处理
对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系,忽略其余目标和关系;
步骤(2)目标提取和关系检测
分别对数据集Ⅰ中的每张图像用目标检测网络Faster R-CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;
步骤(3)关系提取
利用关系提取网络对步骤(2)得到的关系数据进行筛选,过滤冗余信息关系和无效性关系,从而提高时间有效性;
步骤(4)关系图学习
构建一个关系图注意力网络,该网络由两部分组成:视觉-空间图注意力子网络和语义-空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。
进一步的,步骤(1)所述的数据预处理:
1-1、VRD数据集是一个包含5000多张图片、100种目标、70种关系的目标检测数据集;
1-2、VG数据集是一个包含108000多张图片,且每张图片平均包含38种目标、22种关系的大型目标检测数据集;由于VG数据集包含大量稀疏的目标和关系,为了降低数据的稀疏性,根据目标和关系出现的频次进行筛选;筛选后的VG数据集包含150个目标和50个关系;
1-3、按照标准数据集划分方法,将VRD数据集和筛选后的VG数据集,随机取80%的图片作为训练集,其余20%的数据集作为测试集。
进一步的,步骤(2)所述的目标提取和关系检测:
2-1、通过FasterR-CNN网络对每张图像进行目标提取和关系检测;Faster R-CNN网络主要包含4部分内容:
2-2、Conv Layers:将Conv Layers作为CNN网络目标检测的方法,提取图像的特征;Conv Layers主要包含了13个卷积层和13个激活层和4个池化层,并且所有的卷积都做了扩边处理,确保卷积层输入和输出矩阵的大小不变;
2-3、Region Proposal Networks即区域判断网络:RPN网络用于生成区域提议;该RPN网络通过softmax判断锚点属于真或者假,再利用边界框回归修正锚点获得精确的区域提议;
2-4、Roi Pooling:该层通过收集输入的图像特征和区域提议,综合生成区域提议特征;
2-5、Classification:利用区域提议特征在全连接层中计算提议目标类别,同时再次通过边界框回归获得检测框最终的精确位置。
进一步的,步骤(3)所述的关系提取:
首先假设(Oi,Oj)是一对目标,将该对目标中每个目标的语义特征和视觉特征进行拼接,得到拼接特征;将两个拼接特征分别通过两个全连接网络映射到一个低纬度的特征表示空间;然后对映射完后的两个特征表示进行点乘运算得到
Figure BDA0002967660070000061
同时根据得到的该对目标的空间特征输入到第三个全连接网络中得到
Figure BDA0002967660070000062
Figure BDA0002967660070000063
Figure BDA0002967660070000064
两值相加后送入sigmoid层得出最终评分;对所有得到的评分进行排序,然后选取前面K个评分,并进行进一步条件筛选。
进一步的,步骤(4)所述的关系图学习:
4-1、首先定义关系图注意力网络,网络由两部分组成分别是视觉-空间图注意力子网络和语义-空间图注意力子网络;
4-2、在视觉-空间图注意力子网络中,每一个关系提议都由视觉特征和空间特征进行初始化;视觉特征由Faster R-CNN得到的目标框特征和区域特征点乘得到,而空间特征由成对目标的相对位置和区域相对位置计算得出;利用图注意力网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;
4-3、在语义-空间图注意力子网络中,每一个关系提议都由语义特征和空间特征进行初始化;首先根据Faster R-CNN得到目标的类别,其次通过将类别送入Glove得到语义特征,一对目标的语义特征是由该对目标对应的两个目标的语义特征拼接得到;而空间特征由成对目标的相对位置和区域相对位置计算得出;然后利用图注意网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;
4-4、最终关系分数为上面两个子网络得到关系分数的点乘结果,根据最终关系分数确定关系;
4-5、最终实验结果在VRD数据集上,phrase detection R@50任务比当前的最优结果高1.2%,relation detection R@50任务比当前最优结果高0.5%;实验结果在VG数据集上,scene graph detection R@50任务比当前最优结果高2.8%。
实施例1:
如图2所示,‘盘子在桌子上’具体为:目标1“盘子”、关系“在...上”、目标2“桌子”;‘刀在桌子上’具体为:目标1“刀”、关系“在...上”、目标2“桌子”;通过‘盘子在桌子上’、‘刀在桌子上’这两对关系,本发明模型能够学习到新的关系为‘盘子挨着刀’。

Claims (6)

1.一种用于场景图检测的关系图学习方法,其特征在于包括如下步骤:
步骤(1)数据预处理
对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系,忽略其余目标和关系;
步骤(2)目标提取和关系检测
分别对数据集Ⅰ中的每张图像用目标检测网络Faster R-CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;
步骤(3)关系提取
利用关系提取网络对步骤(2)得到的关系数据进行筛选,过滤冗余信息关系和无效性关系,从而提高时间有效性;
步骤(4)关系图学习
构建一个关系图注意力网络,该网络由两部分组成:视觉-空间图注意力子网络和语义-空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。
2.根据权利要求1所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(1)所述的数据预处理:
1-1、VRD数据集是一个包含5000多张图片、100种目标、70种关系的目标检测数据集;
1-2、VG数据集是一个包含108000多张图片,且每张图片平均包含38种目标、22种关系的大型目标检测数据集;由于VG数据集包含大量稀疏的目标和关系,为了降低数据的稀疏性,根据目标和关系出现的频次进行筛选;筛选后的VG数据集包含150个目标和50个关系;
1-3、按照标准数据集划分方法,将VRD数据集和筛选后的VG数据集,随机取80%的图片作为训练集,其余20%的数据集作为测试集。
3.根据权利要求2所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(2)所述的目标提取和关系检测:
2-1、通过FasterR-CNN网络对每张图像进行目标提取和关系检测;Faster R-CNN网络主要包含4部分内容:
2-2、Conv Layers:将Conv Layers作为CNN网络目标检测的方法,提取图像的特征;Conv Layers主要包含了13个卷积层和13个激活层和4个池化层,并且所有的卷积都做了扩边处理,确保卷积层输入和输出矩阵的大小不变;
2-3、Region Proposal Networks即区域判断网络:RPN网络用于生成区域提议;该RPN网络通过softmax判断锚点属于真或者假,再利用边界框回归修正锚点获得精确的区域提议;
2-4、Roi Pooling:该层通过收集输入的图像特征和区域提议,综合生成区域提议特征;
2-5、Classification:利用区域提议特征在全连接层中计算提议目标类别,同时再次通过边界框回归获得检测框最终的精确位置。
4.根据权利要求3所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(3)所述的关系提取:
首先假设(Oi,Oj)是一对目标,将该对目标中每个目标的语义特征和视觉特征进行拼接,得到拼接特征;将两个拼接特征分别通过两个全连接网络映射到一个低纬度的特征表示空间;然后对映射完后的两个特征表示进行点乘运算得到
Figure FDA0002967660060000021
同时根据得到的该对目标的空间特征输入到第三个全连接网络中得到
Figure FDA0002967660060000022
Figure FDA0002967660060000023
Figure FDA0002967660060000024
两值相加后送入sigmoid层得出最终评分;对所有得到的评分进行排序,然后选取前面K个评分,并进行进一步条件筛选。
5.根据权利要求4所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(4)所述的关系图学习:
4-1、首先定义关系图注意力网络,网络由两部分组成分别是视觉-空间图注意力子网络和语义-空间图注意力子网络;
4-2、在视觉-空间图注意力子网络中,每一个关系提议都由视觉特征和空间特征进行初始化;视觉特征由Faster R-CNN得到的目标框特征和区域特征点乘得到,而空间特征由成对目标的相对位置和区域相对位置计算得出;利用图注意力网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;
4-3、在语义-空间图注意力子网络中,每一个关系提议都由语义特征和空间特征进行初始化;首先根据Faster R-CNN得到目标的类别,其次通过将类别送入Glove得到语义特征,一对目标的语义特征是由该对目标对应的两个目标的语义特征拼接得到;而空间特征由成对目标的相对位置和区域相对位置计算得出;然后利用图注意网络去建模所得到的关系提议的相关性,最终通过sigmoid层得到关系分数;
4-4、最终关系分数为上面两个子网络得到关系分数的点乘结果,根据最终关系分数确定关系;
4-5、最终实验结果在VRD数据集上,phrase detection R@50任务比当前的最优结果高1.2%,relation detection R@50任务比当前最优结果高0.5%;实验结果在VG数据集上,scene graph detection R@50任务比当前最优结果高2.8%。
6.根据权利要求5所述的一种用于场景图检测的关系图学习方法,其特征在于所述的空间特征计算如下:
假设有一个三元组(s,o,u),其中s,o,u分别表示目标1、关系、目标2,则此时定义位置信息为(x1 s,y1 s,x2 s,y2 s),(x1 o,y1 o,x2 o,y2 o),(x1 u,y1 u,x2 u,y2 u)其中上标1,2分别代表目标框的左上角和与右下角,则此关系的空间特征为:
Figure FDA0002967660060000031
CN202110256665.9A 2021-03-09 2021-03-09 一种用于场景图检测的关系图学习方法 Active CN113139423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110256665.9A CN113139423B (zh) 2021-03-09 2021-03-09 一种用于场景图检测的关系图学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110256665.9A CN113139423B (zh) 2021-03-09 2021-03-09 一种用于场景图检测的关系图学习方法

Publications (2)

Publication Number Publication Date
CN113139423A true CN113139423A (zh) 2021-07-20
CN113139423B CN113139423B (zh) 2024-03-01

Family

ID=76810974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110256665.9A Active CN113139423B (zh) 2021-03-09 2021-03-09 一种用于场景图检测的关系图学习方法

Country Status (1)

Country Link
CN (1) CN113139423B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554129A (zh) * 2021-09-22 2021-10-26 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726718A (zh) * 2019-01-03 2019-05-07 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726718A (zh) * 2019-01-03 2019-05-07 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554129A (zh) * 2021-09-22 2021-10-26 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
CN113554129B (zh) * 2021-09-22 2021-12-10 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置

Also Published As

Publication number Publication date
CN113139423B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN106095893B (zh) 一种跨媒体检索方法
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
He et al. Defect detection of hot rolled steels with a new object detection framework called classification priority network
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
Hu et al. Recognition of pornographic web pages by classifying texts and images
CN106599155B (zh) 一种网页分类方法及系统
CN111091105A (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN110766051A (zh) 一种基于神经网络的肺结节形态学分类方法
CN111242208A (zh) 一种点云分类方法、分割方法及相关设备
WO2017113232A1 (zh) 一种基于深度学习的产品分类方法及装置
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN104573669A (zh) 图像物体检测方法
CN111737551A (zh) 一种基于异构图注意力神经网络的暗网线索检测方法
CN111709903A (zh) 一种红外与可见光图像融合方法
CN108345850A (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN111753828A (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN106408030A (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
CN111145145B (zh) 一种基于MobileNets的图像表面缺陷检测方法
CN113808166B (zh) 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法
CN111161278A (zh) 一种基于深层网络聚合的眼底图像病灶分割方法
Zheng et al. Resnet-based model for cancer detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant