CN113516158A - 基于Faster R-CNN的图模型构建方法 - Google Patents

基于Faster R-CNN的图模型构建方法 Download PDF

Info

Publication number
CN113516158A
CN113516158A CN202110406043.XA CN202110406043A CN113516158A CN 113516158 A CN113516158 A CN 113516158A CN 202110406043 A CN202110406043 A CN 202110406043A CN 113516158 A CN113516158 A CN 113516158A
Authority
CN
China
Prior art keywords
target detection
detection frame
target
area
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110406043.XA
Other languages
English (en)
Other versions
CN113516158B (zh
Inventor
金海燕
闫智慧
肖照林
孙钦东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110406043.XA priority Critical patent/CN113516158B/zh
Publication of CN113516158A publication Critical patent/CN113516158A/zh
Application granted granted Critical
Publication of CN113516158B publication Critical patent/CN113516158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Faster R‑CNN的图模型构建方法,具体为:步骤1,将目标图像送入已经训练好的基于Faster R‑CNN的目标检测网络模型中,输出目标图像中各个目标对应的检测框;步骤2,根据设定的阈值对目标检测框进行筛选,去掉冗余的目标检测框;步骤3,给目标检测框分配唯一的标签;步骤4,将图像的目标划分为主要目标和次要目标,然后对次要目标构建目标树;步骤5,确定两个物体之间的相对位置关系;步骤6、根据目标树以及目标之间的位置关系构建图像的图模型。本发明的基于FasterR‑CNN的图模型构建方法,建立出的图模型能有效的表示出各个目标在目标图像中的空间布局和语义联系。

Description

基于Faster R-CNN的图模型构建方法
技术领域
本发明属于计算机数字图像处理技术领域,涉及一种基于Faster R-CNN的图模型构建方法。
背景技术
在当今飞速发展的信息时代,数字图像作为一种常见且有效的信息载体已渗透到社会生活的每一个角落,致使我们对图像处理的需求也日益增长。
在数字图像处理方向上,基于深度学习的目标检测算法是重要的研究内容之一,在医疗,智能家居和交通等不同领域有着巨大的应用。基于深度学习的图像处理算法与传统的图像处理算法相比,可以在复杂的环境下,提取更深层次的人物特征,提高算法鲁棒性和识别准确性。
目前,已有的构建图模型方法,往往利用深度学习对目标图像中的物体进行识别,但是现有的深度学习目标识别算法只能够检测出图形中物体的类别与位置,并不能得到图像中各个物体之间的空间相对位置关系,从而不能很好的构建出图像的图模型。
发明内容
本发明的目的是提供一种基于Faster R-CNN的图模型构建方法,建立出的图模型能有效的表示出各个目标在目标图像中的空间布局和语义联系。
本发明所采用的技术方案是,基于Faster R-CNN的图模型构建方法,具体按照如下步骤实施:
步骤1,将目标图像送入已经训练好的基于Faster R-CNN的目标检测网络模型中,输出目标图像中各个目标对应的检测框;
步骤2,根据设定的阈值对目标检测框进行筛选,去掉冗余的目标检测框;
步骤3,给去冗余后的目标检测框分配唯一的标签;
步骤4,根据经验设定阈值,将图像的目标划分为主要目标和次要目标,然后对次要目标构建目标树;
步骤5,通过任意两个次要目标重心之间的连线与竖轴的顺时针的夹角对检测框进行解析处理,得到目标图像中任意两个物体之间的相对位置关系,然后,计算目标图像中任意两个目标重心之间的距离,最后根据物体之间的距离、各个物体的重心得到任意两个物体之间的相对位置关系;
步骤6、根据目标树以及目标之间的位置关系构建图像的图模型。
基于Faster R-CNN的目标检测网络模型对目标图像进行检测的过程为:假设目标图像中共有n个物体,通过基于Faster R-CNN的目标检测网络模型进行目标检测之后输出目标图像中n个物体对应的目标检测框box和每个目标检测框对应的类别,将类别相同的目标检测框归为一类,将n个物体对应的目标检测框放入一个集合
Figure BDA0003022322840000021
中,其中m表示目标图像中目标检测框的总数量,集合
Figure BDA0003022322840000022
中的元素表示为:{box1,box2,...,boxm},其中boxi表示检测出的第i个目标检测框,输出的boxi是一个四维几何坐标(xi,yi,wi,hi),其中xi表示当前目标检测框的重心坐标点的x轴坐标值,yi表示当前目标检测框的重心坐标点的y轴坐标值,wi表示当前目标检测框的宽度,hi表示当前目标检测框的高度。
步骤2具体为:
步骤2.1,根据boxi的宽度和高度计算出每一个目标检测框的面积,记为areai,将所有目标检测框的面积放到一个集合Sarea,集合Sarea表示为:{area1,area2,...,aream},根据目标检测框的面积大小对集合Sarea进行降序排序;
步骤2.2,计算目标图像中第t个类的第i个目标检测框的面积和第j个目标检测框的面积的交集与第t个类的第i个目标检测框的面积的比值,比值记为
Figure BDA0003022322840000031
如果
Figure BDA0003022322840000032
的值大于θa,将第t个类的第j个目标检测框去除,直到处理完该类的所有目标检测框,将剩余的目标检测框放入集合
Figure BDA0003022322840000033
中,其中,θa为根据经验设定的阈值;
Figure BDA0003022322840000034
步骤2.3,重复步骤2.2的过程依次对所有的类进行处理,直到处理完所有的类,将所有类的目标检测框集合放入一个新集合
Figure BDA0003022322840000035
中,集合
Figure BDA0003022322840000036
表示为:
Figure BDA0003022322840000037
其中n表示目标图像中物体的种类数,mt表示经过步骤2去除冗余框之后剩余的目标检测框的数量。
步骤3具体为:
步骤3.1,将目标图像I均匀的分为9个区域,分割区域的集合为
Figure BDA0003022322840000038
表示为:
Figure BDA0003022322840000039
其中
Figure BDA00030223228400000310
表示分割的第c个区域,图像的分割区域的顺序如下面的矩阵所示;
Figure BDA00030223228400000311
步骤3.2,根据矩阵中索引c的顺序依次处理每一个分割区域,对于每一个分割区域进行以下处理:计算出集合
Figure BDA00030223228400000312
中每个目标检测框的重心坐标
Figure BDA0003022322840000041
与当前分割区域的左上角坐标点的欧式距离
Figure BDA0003022322840000042
Figure BDA0003022322840000043
其中,
Figure BDA0003022322840000044
表示这个分割区域的左上角坐标点的x轴坐标值,
Figure BDA0003022322840000045
表示这个分割区域的左上角坐标点的y轴坐标值,
Figure BDA0003022322840000046
为集合
Figure BDA0003022322840000047
中每个检测框的重心坐标的x轴坐标值,
Figure BDA0003022322840000048
为集合
Figure BDA0003022322840000049
中每个检测框的重心坐标的y轴坐标值;
然后按照上面求得的欧式距离对每个分割区域的目标检测框进行升序排序,对第t个类的每一个目标检测框分配唯一的编号;
步骤3.3,按照步骤3.2的过程依次处理每一个类,并完成目标检测框的编号,至此,数据预处理就完成了。
步骤4具体为:
计算每个目标检测框的面积与整个图像的面积的比值
Figure BDA00030223228400000410
Figure BDA00030223228400000411
其中,areai表示第i个目标检测框的面积,areaI表示当前目标图像的面积;
根据经验设定阈值θc,如果
Figure BDA00030223228400000412
的值大于θc,将这个目标划分为主要目标,反之,划分为次要目标;
将主要目标的目标检测框放入一个集合中,记为集合
Figure BDA00030223228400000413
次要目标的目标检测框放入另一个集合中,记为集合
Figure BDA00030223228400000414
定义
Figure BDA00030223228400000415
表示当前目标图像需要构建的目标树的集合:
Figure BDA00030223228400000416
其中,
Figure BDA00030223228400000417
表示由次要目标构建的第nt颗目标树,nt表示构建的目标树的数量,
Figure BDA00030223228400000418
表示第nt颗目标树中目标检测框的数量;
对次要目标构建目标树具体为:
步骤4.1,首先根据经验设定阈值θt,从次要目标检测框集合
Figure BDA0003022322840000051
中选择目标检测框面积最大的目标检测框作为第一棵目标树
Figure BDA0003022322840000052
的根节点,然后依次计算次要目标检测框集合
Figure BDA0003022322840000053
中剩余目标检测框的面积和当前根节点的目标检测框的面积的交集与当前根节点的目标检测框的面积的比值,记为
Figure BDA0003022322840000054
如果
Figure BDA0003022322840000056
的值大于阈值θt,则将目标检测框划分到
Figure BDA0003022322840000057
目标检测框集合中,反之,划分到其它目标树集合中;
步骤4.2,按照目标检测框集合
Figure BDA0003022322840000058
中目标检测框的面积的大小进行降序排序,从集合中选择面积最大的目标检测框作为当前根节点的第一个孩子节点,按照第一步的方法依次对
Figure BDA0003022322840000059
目标检测框集合进行处理,直到完成第一棵目标树
Figure BDA00030223228400000510
的构建;
步骤4.3,重复步骤4.1和步骤4.2的操作,依次完成剩余目标树的构建。
步骤5具体为:
首先目标图像中第i个目标检测框的重心是(xi,yi),第j个目标检测框的重心是(xj,yj),计算两个目标检测框的重心之间的x轴坐标的差值和y轴坐标的差值,分别记为
Figure BDA00030223228400000511
Figure BDA00030223228400000512
Figure BDA00030223228400000513
Figure BDA00030223228400000514
第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角为
Figure BDA00030223228400000515
定义一个变量
Figure BDA00030223228400000516
Figure BDA00030223228400000517
则将目标图像分为八种情况,根据八种情况计算
Figure BDA00030223228400000518
情况一:
Figure BDA00030223228400000519
等于0,
Figure BDA00030223228400000520
大于0,
Figure BDA00030223228400000521
情况二:
Figure BDA00030223228400000522
大于0,
Figure BDA00030223228400000523
大于0,
Figure BDA0003022322840000061
情况三:
Figure BDA0003022322840000062
大于0,
Figure BDA0003022322840000063
等于0,
Figure BDA0003022322840000064
情况四:
Figure BDA0003022322840000065
大于0,
Figure BDA0003022322840000066
小于0,
Figure BDA0003022322840000067
情况五:
Figure BDA0003022322840000068
等于0,
Figure BDA0003022322840000069
小于0,
Figure BDA00030223228400000610
情况六:
Figure BDA00030223228400000611
小于0,
Figure BDA00030223228400000612
小于0,
Figure BDA00030223228400000613
情况七:
Figure BDA00030223228400000614
小于0,
Figure BDA00030223228400000615
等于0,
Figure BDA00030223228400000616
情况八:
Figure BDA00030223228400000617
小于0,
Figure BDA00030223228400000618
大于0,
Figure BDA00030223228400000619
根据
Figure BDA00030223228400000620
的大小进行位置判断:
当第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400000621
落在区间[330,360]和区间[0,30]的时候,记为第j个目标检测框在第i个目标检测框的上方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400000622
落在区间[30,60]的时候,记为第j个目标检测框在第i个目标检测框的右上方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400000623
落在区间[60,120]的时候,记为第j个目标检测框在第i个目标检测框的右方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400000624
落在区间[120,150]的时候,记为第j个目标检测框在第i个目标检测框的右下方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400000625
落在区间[150,210]的时候,记为第j个目标检测框在第i个目标检测框的下方;当重心的连线与竖轴之间顺时针的夹角为
Figure BDA00030223228400000626
落在区间[210,240]的时候,记为第j个目标检测框在第i个目标检测框的左下方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400000627
落在区间[240,300]的时候,记为第j个目标检测框在第i个目标检测框的左方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400000628
落在区间[300,330]的时候,记为第j个目标检测框在第i个目标检测框的左上方,最后给每一个区域赋予一个颜色,来表示第j个目标检测框和第i个目标检测框的相对位置信息。
步骤6具体为:
将每一棵目标树的根节点的重心作为当前目标图像的图模型的节点的位置信息,将所有节点的集合定义记为
Figure BDA0003022322840000071
Figure BDA0003022322840000072
其中,mg表示图模型的节点数量,Ni表示构建的图模型的第i个节点;定义,me表示构建的图模型的边的数量:
me=mg*(mg-1)/2 (9)
使用步骤5中计算的目标间相对位置关系表示图模型的节点之间的边的相对位置属性信息,然后,计算两个节点之间的欧氏距离表示两个节点之间的距离。
本发明的有益效果是:
本发明基于Faster R-CNN的图模型构建方法通过Faster R-CNN的图模型对每幅图像中的不同类别进行检测,通过对次要目标构建目标树的方法以及构建目标图像场景位置关系的图模型,能够准确描述目标图像中各个目标之间的空间相对位置关系,更好的表示出各个目标在目标图像中的空间布局和语义联系。
附图说明
图1是本发明一种基于Faster R-CNN的图模型构建方法的总体结构示意图;
图2是一种基于Faster R-CNN的图模型构建方法的实例中带有目标检测框的目标图像;
图3是一种基于Faster R-CNN的图模型构建方法中对目标检测框进行编号后的图像;
图4是一种基于Faster R-CNN的图模型构建方法的实例中构建的目标树;
图5是一种基于Faster R-CNN的图模型构建方法中用到的物体间相对位置关系的图形化表示;
图6是一种基于Faster R-CNN的图模型构建方法构建的图模型。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,本发明实施例包括:
一种基于Faster R-CNN的图模型构建方法,包括使用经过ImageNet数据集和Visual Genome数据集一起训练的Faster R-CNN目标检测网络,对每幅图像中的不同类别进行检测。通过对次要目标构建目标树的方法以及构建目标图像场景位置关系的图模型,能够准确描述目标图像中各个目标之间的空间相对位置关系,更好的表示出各个目标在目标图像中的空间布局和语义联系。
基于Faster R-CNN的图模型构建方法,具体按照如下步骤实施:
步骤1,通过基于Faster R-CNN的目标检测网络模型进行目标检测之后输出目标图像中n个物体对应的检测框box和每个检测框对应的类别,将类别相同的检测框归为一类,将n个物体对应的检测框放入一个集合
Figure BDA0003022322840000081
中,其中m表示目标图像中目标框的总数量,集合
Figure BDA0003022322840000082
中的元素表示为:{box1,box2,...,boxm},其中boxi表示检测出的第i个目标框,输出的boxi是一个四维几何坐标(xi,yi,wi,hi),其中xi表示当前检测框的重心坐标点的x轴坐标值,yi表示当前检测框的重心坐标点的y轴坐标值,wi表示当前检测框的宽度,hi表示当前检测框的高度,如图2所示,为带有检测框的图像,如图3所示,为检测框进行唯一编号后的图像;
步骤2,经过步骤1检测出来的多个目标框可能会映射到同一个目标上,这样使得目标框存在冗余的现象,因此,步骤2作用主要是去除多余的目标框,去除冗余框可以分为三步进行:
步骤2.1,根据boxi的宽度和高度计算出每一个目标检测框的面积,记为areai,将所有目标检测框的面积放到一个集合Sarea,集合Sarea表示为:{area1,area2,...,aream},根据目标检测框的面积大小对集合Sarea进行降序排序;
步骤2.2,计算目标图像中第t个类的第i个目标检测框的面积和第j个目标检测框的面积的交集与第t个类的第i个目标检测框的面积的比值,比值记为
Figure BDA0003022322840000091
如果
Figure BDA0003022322840000092
的值大于θa,将第t个类的第j个目标检测框去除,直到处理完该类的所有目标检测框,将剩余的目标检测框放入集合
Figure BDA0003022322840000093
中,其中,θa为根据经验设定的阈值;
Figure BDA0003022322840000094
步骤2.3,重复步骤2.2的过程依次对所有的类进行处理,直到处理完所有的类,将所有类的目标检测框集合放入一个新集合
Figure BDA0003022322840000095
中,集合
Figure BDA0003022322840000096
表示为:
Figure BDA0003022322840000097
其中n表示目标图像中物体的种类数,mt表示经过步骤2去除冗余框之后剩余的目标检测框的数量;
步骤3,因为在一幅图像中可能存在这样一种情况:多个目标属于同一个类别,人类认为这些目标是不一样的,所以需要给这些目标分配唯一的标签,表示目标之间是不相同的。所以,步骤3的目的是给经过步骤2处理的剩余目标检测框分配唯一标识的标签。给目标检测框分配标签可以分为三步实现给去冗余后的目标检测框分配唯一的标签;具体为:
步骤3.1,将目标图像I均匀的分为9个区域,分割区域的集合为
Figure BDA0003022322840000098
表示为:
Figure BDA0003022322840000101
其中
Figure BDA0003022322840000102
表示分割的第c个区域,图像的分割区域的顺序如下面的矩阵所示;
Figure BDA0003022322840000103
步骤3.2,根据矩阵中索引c的顺序依次处理每一个分割区域,对于每一个分割区域进行以下处理:计算出集合
Figure BDA0003022322840000104
中每个目标检测框的重心坐标
Figure BDA0003022322840000105
与当前分割区域的左上角坐标点的欧式距离
Figure BDA0003022322840000106
Figure BDA0003022322840000107
其中,
Figure BDA0003022322840000108
表示这个分割区域的左上角坐标点的x轴坐标值,
Figure BDA0003022322840000109
表示这个分割区域的左上角坐标点的y轴坐标值,
Figure BDA00030223228400001010
为集合
Figure BDA00030223228400001011
中每个检测框的重心坐标的x轴坐标值,
Figure BDA00030223228400001012
为集合
Figure BDA00030223228400001013
中每个检测框的重心坐标的y轴坐标值;
然后按照上面求得的欧式距离对每个分割区域的目标检测框进行升序排序,对第t个类的每一个目标检测框分配唯一的编号;
步骤3.3,按照步骤3.2的过程依次处理每一个类,并完成目标检测框的编号,至此,数据预处理就完成了;
步骤4,根据经验设定阈值,将图像的目标划分为主要目标和次要目标,然后对次要目标构建目标树,如图4所示,具体为:
计算每个目标检测框的面积与整个图像的面积的比值VI i
Figure BDA00030223228400001014
其中,areai表示第i个目标检测框的面积,areaI表示当前目标图像的面积;
根据经验设定阈值θc,如果VI i的值大于θc,将这个目标划分为主要目标,反之,划分为次要目标;
将主要目标的目标检测框放入一个集合中,记为集合
Figure BDA0003022322840000111
次要目标的目标检测框放入另一个集合中,记为集合
Figure BDA0003022322840000112
定义
Figure BDA0003022322840000113
表示当前目标图像需要构建的目标树的集合:
Figure BDA0003022322840000114
其中,
Figure BDA0003022322840000115
表示由次要目标构建的第nt颗目标树,nt表示构建的目标树的数量,
Figure BDA0003022322840000116
表示第nt颗目标树中目标检测框的数量;
对次要目标构建目标树具体为:
步骤4.1,首先根据经验设定阈值θt,从次要目标检测框集合
Figure BDA0003022322840000117
中选择目标检测框面积最大的目标检测框作为第一棵目标树
Figure BDA0003022322840000118
的根节点,然后依次计算次要目标检测框集合
Figure BDA0003022322840000119
中剩余目标检测框的面积和当前根节点的目标检测框的面积的交集与当前根节点的目标检测框的面积的比值,记为
Figure BDA00030223228400001110
如果
Figure BDA00030223228400001111
的值大于阈值θt,则将目标检测框划分到
Figure BDA00030223228400001112
目标检测框集合中,反之,划分到其它目标树集合中;
步骤4.2,按照目标检测框集合
Figure BDA00030223228400001113
中目标检测框的面积的大小进行降序排序,从集合中选择面积最大的目标检测框作为当前根节点的第一个孩子节点,按照第一步的方法依次对
Figure BDA00030223228400001114
目标检测框集合进行处理,直到完成第一棵目标树
Figure BDA00030223228400001115
的构建;
步骤4.3,重复步骤4.1和步骤4.2的操作,依次完成剩余目标树的构建;
步骤5,首先目标图像中第i个目标检测框的重心是(xi,yi),第j个目标检测框的重心是(xj,yj),计算两个目标检测框的重心之间的x轴坐标的差值和y轴坐标的差值,分别记为
Figure BDA00030223228400001116
Figure BDA00030223228400001117
Figure BDA00030223228400001118
Figure BDA0003022322840000121
第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角为
Figure BDA0003022322840000122
定义一个变量
Figure BDA0003022322840000123
Figure BDA0003022322840000124
则将目标图像分为八种情况,根据八种情况计算
Figure BDA0003022322840000125
情况一:
Figure BDA0003022322840000126
等于0,
Figure BDA0003022322840000127
大于0,
Figure BDA0003022322840000128
情况二:
Figure BDA0003022322840000129
大于0,
Figure BDA00030223228400001210
大于0,
Figure BDA00030223228400001211
情况三:
Figure BDA00030223228400001212
大于0,
Figure BDA00030223228400001213
等于0,
Figure BDA00030223228400001214
情况四:
Figure BDA00030223228400001215
大于0,
Figure BDA00030223228400001216
小于0,
Figure BDA00030223228400001217
情况五:
Figure BDA00030223228400001218
等于0,
Figure BDA00030223228400001219
小于0,
Figure BDA00030223228400001220
情况六:
Figure BDA00030223228400001221
小于0,
Figure BDA00030223228400001222
小于0,
Figure BDA00030223228400001223
情况七:
Figure BDA00030223228400001224
小于0,
Figure BDA00030223228400001225
等于0,
Figure BDA00030223228400001226
情况八:
Figure BDA00030223228400001227
小于0,
Figure BDA00030223228400001228
大于0,
Figure BDA00030223228400001229
根据
Figure BDA00030223228400001230
的大小进行位置判断:
当第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400001231
落在区间[330,360]和区间[0,30]的时候,记为第j个目标检测框在第i个目标检测框的上方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400001232
落在区间[30,60]的时候,记为第j个目标检测框在第i个目标检测框的右上方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400001233
落在区间[60,120]的时候,记为第j个目标检测框在第i个目标检测框的右方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400001234
落在区间[120,150]的时候,记为第j个目标检测框在第i个目标检测框的右下方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400001235
落在区间[150,210]的时候,记为第j个目标检测框在第i个目标检测框的下方;当重心的连线与竖轴之间顺时针的夹角为
Figure BDA00030223228400001236
落在区间[210,240]的时候,记为第j个目标检测框在第i个目标检测框的左下方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA00030223228400001237
落在区间[240,300]的时候,记为第j个目标检测框在第i个目标检测框的左方;当重心的连线与竖轴之间顺时针的夹角
Figure BDA0003022322840000131
落在区间[300,330]的时候,记为第j个目标检测框在第i个目标检测框的左上方,最后给每一个区域赋予一个颜色,来表示第j个目标检测框和第i个目标检测框的相对位置信息,如图5所示。
步骤6,根据目标树以及目标之间的位置关系构建图像的图模型,如图6所示,具体为:
将每一棵目标树的根节点的重心作为当前目标图像的图模型的节点的位置信息,将所有节点的集合定义记为
Figure BDA0003022322840000132
Figure BDA0003022322840000133
其中,mg表示图模型的节点数量,Ni表示构建的图模型的第i个节点;定义,me表示构建的图模型的边的数量:
me=mg*(mg-1)/2 (9)
使用步骤5中计算的目标间相对位置关系表示图模型的节点之间的边的相对位置属性信息,然后,计算两个节点之间的欧氏距离表示两个节点之间的距离。
本发明对目标之间构建目标树以及利用位置解析算法表示出目标之间的相对位置关系,搭建基于Faster R-CNN的图模型构建方法,有效的表示出各目标在图像场景中的空间布局和语义联系。

Claims (7)

1.基于Faster R-CNN的图模型构建方法,其特征在于,具体按照如下步骤实施:
步骤1,将目标图像送入已经训练好的基于Faster R-CNN的目标检测网络模型中,输出目标图像中各个目标对应的检测框;
步骤2,根据设定的阈值对目标检测框进行筛选,去掉冗余的目标检测框;
步骤3,给去冗余后的目标检测框分配唯一的标签;
步骤4,根据经验设定阈值,将图像的目标划分为主要目标和次要目标,然后对次要目标构建目标树;
步骤5,通过任意两个次要目标重心之间的连线与竖轴的顺时针的夹角对检测框进行解析处理,得到目标图像中任意两个物体之间的相对位置关系,然后,计算目标图像中任意两个目标重心之间的距离,最后根据物体之间的距离、各个物体的重心得到任意两个物体之间的相对位置关系;
步骤6、根据目标树以及目标之间的位置关系构建图像的图模型。
2.根据权利要求1所述的基于Faster R-CNN的图模型构建方法,其特征在于,所述基于Faster R-CNN的目标检测网络模型对目标图像进行检测的过程为:假设目标图像中共有n个物体,通过基于Faster R-CNN的目标检测网络模型进行目标检测之后输出目标图像中n个物体对应的目标检测框box和每个目标检测框对应的类别,将类别相同的目标检测框归为一类,将n个物体对应的目标检测框放入一个集合
Figure FDA0003022322830000011
中,其中m表示目标图像中目标检测框的总数量,集合
Figure FDA0003022322830000012
中的元素表示为:{box1,box2,...,boxm},其中boxi表示检测出的第i个目标检测框,输出的boxi是一个四维几何坐标(xi,yi,wi,hi),其中xi表示当前目标检测框的重心坐标点的x轴坐标值,yi表示当前目标检测框的重心坐标点的y轴坐标值,wi表示当前目标检测框的宽度,hi表示当前目标检测框的高度。
3.根据权利要求2所述的基于Faster R-CNN的图模型构建方法,其特征在于,所述步骤2具体为:
步骤2.1,根据boxi的宽度和高度计算出每一个目标检测框的面积,记为areai,将所有目标检测框的面积放到一个集合Sarea,集合Sarea表示为:{area1,area2,...,aream},根据目标检测框的面积大小对集合Sarea进行降序排序;
步骤2.2,计算目标图像中第t个类的第i个目标检测框的面积和第j个目标检测框的面积的交集与第t个类的第i个目标检测框的面积的比值,比值记为
Figure FDA0003022322830000021
Figure FDA0003022322830000022
如果
Figure FDA0003022322830000023
的值大于θa,将第t个类的第j个目标检测框去除,直到处理完该类的所有目标检测框,将剩余的目标检测框放入集合
Figure FDA0003022322830000024
中,其中,θa为根据经验设定的阈值;
步骤2.3,重复步骤2.2的过程依次对所有的类进行处理,直到处理完所有的类,将所有类的目标检测框集合放入一个新集合
Figure FDA0003022322830000025
中,集合
Figure FDA0003022322830000026
表示为:
Figure FDA0003022322830000027
其中n表示目标图像中物体的种类数,mt表示经过步骤2去除冗余框之后剩余的目标检测框的数量。
4.根据权利要求3所述的基于Faster R-CNN的图模型构建方法,其特征在于,所述步骤3具体为:
步骤3.1,将目标图像I均匀的分为9个区域,分割区域的集合为
Figure FDA0003022322830000031
Figure FDA0003022322830000032
表示为:
Figure FDA0003022322830000033
其中
Figure FDA0003022322830000034
表示分割的第c个区域,图像的分割区域的顺序如下面的矩阵所示;
Figure FDA0003022322830000035
步骤3.2,根据矩阵中索引c的顺序依次处理每一个分割区域,对于每一个分割区域进行以下处理:计算出集合
Figure FDA0003022322830000036
中每个目标检测框的重心坐标
Figure FDA0003022322830000037
与当前分割区域的左上角坐标点的欧式距离
Figure FDA0003022322830000038
Figure FDA0003022322830000039
其中,
Figure FDA00030223228300000310
表示这个分割区域的左上角坐标点的x轴坐标值,
Figure FDA00030223228300000311
表示这个分割区域的左上角坐标点的y轴坐标值,
Figure FDA00030223228300000312
为集合
Figure FDA00030223228300000313
中每个检测框的重心坐标的x轴坐标值,
Figure FDA00030223228300000314
为集合
Figure FDA00030223228300000315
中每个检测框的重心坐标的y轴坐标值;
然后按照上面求得的欧式距离对每个分割区域的目标检测框进行升序排序,对第t个类的每一个目标检测框分配唯一的编号;
步骤3.3,按照步骤3.2的过程依次处理每一个类,并完成目标检测框的编号,至此,数据预处理就完成了。
5.根据权利要求4所述的基于Faster R-CNN的图模型构建方法,其特征在于,所述步骤4具体为:
计算每个目标检测框的面积与整个图像的面积的比值
Figure FDA00030223228300000316
Figure FDA00030223228300000317
其中,areai表示第i个目标检测框的面积,areaI表示当前目标图像的面积;
根据经验设定阈值θc,如果
Figure FDA0003022322830000041
的值大于θc,将这个目标划分为主要目标,反之,划分为次要目标;
将主要目标的目标检测框放入一个集合中,记为集合
Figure FDA0003022322830000042
次要目标的目标检测框放入另一个集合中,记为集合
Figure FDA0003022322830000043
定义
Figure FDA0003022322830000044
表示当前目标图像需要构建的目标树的集合:
Figure FDA0003022322830000045
其中,
Figure FDA0003022322830000046
表示由次要目标构建的第nt颗目标树,nt表示构建的目标树的数量,
Figure FDA0003022322830000047
表示第nt颗目标树中目标检测框的数量;
对次要目标构建目标树具体为:
步骤4.1,首先根据经验设定阈值θt,从次要目标检测框集合
Figure FDA0003022322830000048
中选择目标检测框面积最大的目标检测框作为第一棵目标树
Figure FDA0003022322830000049
的根节点,然后依次计算次要目标检测框集合
Figure FDA00030223228300000410
中剩余目标检测框的面积和当前根节点的目标检测框的面积的交集与当前根节点的目标检测框的面积的比值,记为
Figure FDA00030223228300000411
如果
Figure FDA00030223228300000412
的值大于阈值θt,则将目标检测框划分到
Figure FDA00030223228300000413
目标检测框集合中,反之,划分到其它目标树集合中;
步骤4.2,按照目标检测框集合
Figure FDA00030223228300000414
中目标检测框的面积的大小进行降序排序,从集合中选择面积最大的目标检测框作为当前根节点的第一个孩子节点,按照第一步的方法依次对
Figure FDA00030223228300000415
目标检测框集合进行处理,直到完成第一棵目标树
Figure FDA00030223228300000416
的构建;
步骤4.3,重复步骤4.1和步骤4.2的操作,依次完成剩余目标树的构建。
6.根据权利要求5所述的基于Faster R-CNN的图模型构建方法,其特征在于,所述步骤5具体为:
首先目标图像中第i个目标检测框的重心是(xi,yi),第j个目标检测框的重心是(xj,yj),计算两个目标检测框的重心之间的x轴坐标的差值和y轴坐标的差值,分别记为
Figure FDA0003022322830000051
Figure FDA0003022322830000052
Figure FDA0003022322830000053
Figure FDA0003022322830000054
第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角为
Figure FDA0003022322830000055
定义一个变量
Figure FDA0003022322830000056
Figure FDA0003022322830000057
则将目标图像分为八种情况,根据八种情况计算
Figure FDA0003022322830000058
情况一:
Figure FDA0003022322830000059
等于0,
Figure FDA00030223228300000510
大于0,
Figure FDA00030223228300000511
情况二:
Figure FDA00030223228300000512
大于0,
Figure FDA00030223228300000513
大于0,
Figure FDA00030223228300000514
情况三:
Figure FDA00030223228300000515
大于0,
Figure FDA00030223228300000516
等于0,
Figure FDA00030223228300000517
情况四:
Figure FDA00030223228300000518
大于0,
Figure FDA00030223228300000519
小于0,
Figure FDA00030223228300000520
情况五:
Figure FDA00030223228300000521
等于0,
Figure FDA00030223228300000522
小于0,
Figure FDA00030223228300000523
情况六:
Figure FDA00030223228300000524
小于0,
Figure FDA00030223228300000525
小于0,
Figure FDA00030223228300000526
情况七:
Figure FDA00030223228300000527
小于0,
Figure FDA00030223228300000528
等于0,
Figure FDA00030223228300000529
情况八:
Figure FDA00030223228300000530
小于0,
Figure FDA00030223228300000531
大于0,
Figure FDA00030223228300000532
根据
Figure FDA00030223228300000533
的大小进行位置判断:
当第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角
Figure FDA00030223228300000534
落在区间[330,360]和区间[0,30]的时候,记为第j个目标检测框在第i个目标检测框的上方;当重心的连线与竖轴之间顺时针的夹角
Figure FDA00030223228300000535
落在区间[30,60]的时候,记为第j个目标检测框在第i个目标检测框的右上方;当重心的连线与竖轴之间顺时针的夹角
Figure FDA00030223228300000536
落在区间[60,120]的时候,记为第j个目标检测框在第i个目标检测框的右方;当重心的连线与竖轴之间顺时针的夹角
Figure FDA00030223228300000537
落在区间[120,150]的时候,记为第j个目标检测框在第i个目标检测框的右下方;当重心的连线与竖轴之间顺时针的夹角
Figure FDA00030223228300000538
落在区间[150,210]的时候,记为第j个目标检测框在第i个目标检测框的下方;当重心的连线与竖轴之间顺时针的夹角为
Figure FDA0003022322830000061
落在区间[210,240]的时候,记为第j个目标检测框在第i个目标检测框的左下方;当重心的连线与竖轴之间顺时针的夹角
Figure FDA0003022322830000062
落在区间[240,300]的时候,记为第j个目标检测框在第i个目标检测框的左方;当重心的连线与竖轴之间顺时针的夹角
Figure FDA0003022322830000063
落在区间[300,330]的时候,记为第j个目标检测框在第i个目标检测框的左上方,最后给每一个区域赋予一个颜色,来表示第j个目标检测框和第i个目标检测框的相对位置信息。
7.根据权利要求6所述的基于Faster R-CNN的图模型构建方法,其特征在于,所述步骤6具体为:
将每一棵目标树的根节点的重心作为当前目标图像的图模型的节点的位置信息,将所有节点的集合定义记为
Figure FDA0003022322830000064
Figure FDA0003022322830000065
其中,mg表示图模型的节点数量,Ni表示构建的图模型的第i个节点;
定义,me表示构建的图模型的边的数量:
me=mg*(mg-1)/2 (9)
使用步骤5中计算的目标间相对位置关系表示图模型的节点之间的边的相对位置属性信息,然后,计算两个节点之间的欧氏距离表示两个节点之间的距离。
CN202110406043.XA 2021-04-15 2021-04-15 基于Faster R-CNN的图模型构建方法 Active CN113516158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110406043.XA CN113516158B (zh) 2021-04-15 2021-04-15 基于Faster R-CNN的图模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110406043.XA CN113516158B (zh) 2021-04-15 2021-04-15 基于Faster R-CNN的图模型构建方法

Publications (2)

Publication Number Publication Date
CN113516158A true CN113516158A (zh) 2021-10-19
CN113516158B CN113516158B (zh) 2024-04-16

Family

ID=78062517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110406043.XA Active CN113516158B (zh) 2021-04-15 2021-04-15 基于Faster R-CNN的图模型构建方法

Country Status (1)

Country Link
CN (1) CN113516158B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989626A (zh) * 2021-12-27 2022-01-28 北京文安智能技术股份有限公司 一种基于目标检测模型的多类别垃圾场景区分方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040218821A1 (en) * 1999-09-13 2004-11-04 Sony Corporation Image processing apparatus
CN107665336A (zh) * 2017-09-20 2018-02-06 厦门理工学院 智能冰箱中基于Faster‑RCNN的多目标检测方法
CN108053427A (zh) * 2017-10-31 2018-05-18 深圳大学 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置
CN111160274A (zh) * 2019-12-31 2020-05-15 合肥湛达智能科技有限公司 一种基于二值化Faster RCNN网络的行人检测方法
CN111353538A (zh) * 2020-02-28 2020-06-30 西安理工大学 基于深度学习的相似图像匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040218821A1 (en) * 1999-09-13 2004-11-04 Sony Corporation Image processing apparatus
CN107665336A (zh) * 2017-09-20 2018-02-06 厦门理工学院 智能冰箱中基于Faster‑RCNN的多目标检测方法
CN108053427A (zh) * 2017-10-31 2018-05-18 深圳大学 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置
CN111160274A (zh) * 2019-12-31 2020-05-15 合肥湛达智能科技有限公司 一种基于二值化Faster RCNN网络的行人检测方法
CN111353538A (zh) * 2020-02-28 2020-06-30 西安理工大学 基于深度学习的相似图像匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹诗雨;刘跃虎;李辛昭;: "基于Fast R-CNN的车辆目标检测", 中国图象图形学报, no. 05, 16 May 2017 (2017-05-16), pages 113 - 119 *
蔡晨;魏国亮;: "基于卷积神经网络的改进机械臂抓取方法", 计算机与数字工程, no. 01, 20 January 2020 (2020-01-20), pages 163 - 167 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989626A (zh) * 2021-12-27 2022-01-28 北京文安智能技术股份有限公司 一种基于目标检测模型的多类别垃圾场景区分方法
CN113989626B (zh) * 2021-12-27 2022-04-05 北京文安智能技术股份有限公司 一种基于目标检测模型的多类别垃圾场景区分方法

Also Published As

Publication number Publication date
CN113516158B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Duczmal et al. A genetic algorithm for irregularly shaped spatial scan statistics
CN104517112B (zh) 一种表格识别方法与系统
CN108121991B (zh) 一种基于边缘候选区域提取的深度学习舰船目标检测方法
JP5167442B2 (ja) 画像識別装置およびプログラム
CN108334881B (zh) 一种基于深度学习的车牌识别方法
CN105608459B (zh) 商品图片的分割方法及其装置
CN109344874A (zh) 一种基于深度学习的染色体自动分析方法及系统
CN108510516A (zh) 一种散乱点云的三维线段提取方法及系统
CN110210428B (zh) 一种基于mser的远距离复杂环境下的烟雾根节点检测方法
CN109145964B (zh) 一种实现图像颜色聚类的方法和系统
CN114511718B (zh) 一种建筑施工用物料智能管理方法及系统
CN113221956A (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN113516158B (zh) 基于Faster R-CNN的图模型构建方法
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN113095267A (zh) 统计图的数据提取方法、电子设备和存储介质
CN109460761A (zh) 基于维度聚类和多尺度预测的银行卡卡号检测与识别方法
CN115994925B (zh) 一种基于关键点检测的多行人快速跟踪方法
CN104268571B (zh) 一种基于最小树聚类的红外多目标分割方法
CN105844299A (zh) 一种基于词袋模型的图像分类方法
CN106611418A (zh) 一种图像分割算法
CN115861993A (zh) 字符识别方法、系统、设备及存储介质
CN115272778A (zh) 基于rpa和计算机视觉的可回收垃圾分类方法及系统
CN115115939A (zh) 基于特征注意力机制的遥感图像目标细粒度识别方法
CN111523576B (zh) 一种适用于电子质量检测的密度峰值聚类离群点检测方法
CN113888747A (zh) 一种基于环向局部三值模式的图像纹理特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant