CN112633064A - 一种场景识别方法和电子设备 - Google Patents
一种场景识别方法和电子设备 Download PDFInfo
- Publication number
- CN112633064A CN112633064A CN202011303142.7A CN202011303142A CN112633064A CN 112633064 A CN112633064 A CN 112633064A CN 202011303142 A CN202011303142 A CN 202011303142A CN 112633064 A CN112633064 A CN 112633064A
- Authority
- CN
- China
- Prior art keywords
- object region
- image
- distinguishing
- relationship
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 11
- 239000000463 material Substances 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract 1
- 238000012549 training Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机技术领域,特别涉及一种场景识别方法和电子设备。该方法包括:获取待识别图像的判别物体区域;从所述判别物体区域中提取第一物体区域特征;根据所述待识别图像对所述判别物体区域的物体区域关系进行建模得到目标图结构,并根据所述目标图结构获取第二物体区域特征;融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征;根据所述目标物体区域特征对所述待识别图像进行分类,获得所述待识别图像的场景类别。本发明能够有效提高场景识别的准确率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种场景识别方法和电子设 备。
背景技术
场景识别作为计算机视觉领域的重要分支之一,近年来已被广泛应 用于人机交互、智能机器人、智能视频监控、自动驾驶等领域。目前, 随着大型数据集的提出,基于深度学习的场景识别方法得到了飞速发 展,取得了比传统算法更好的识别效果。
然而,现有的方法通常是简单地对图片的局部全局特征和空间关系 进行建模,没有对图片中不同物体间的关系进行更加深入和显式的探 索,对于十分相似的场景,容易造成分类模糊,从而导致场景识别的准 确率低。
发明内容
本发明实施方式主要解决的技术问题是如何提高场景识别的准确 率。
为解决上述技术问题,本发明实施方式采用的一个技术方案是:提 供一种场景识别方法,所述方法包括:
获取待识别图像的判别物体区域;
从所述判别物体区域中提取第一物体区域特征;
根据所述待识别图像对所述判别物体区域的物体区域关系进行建 模得到目标图结构,并根据所述目标图结构获取第二物体区域特征;
融合所述第一物体区域特征和所述第二物体区域特征得到目标物 体区域特征;
根据所述目标物体区域特征对所述待识别图像进行分类,获得所述 待识别图像的场景类别。
可选地,所述获取待识别图像的判别物体区域,包括:
获取待识别图像;
将所述待识别图像输入预设语义分割网络模型,获得分割结果,其 中,所述分割结果包括所述待识别图像中对应物体和/或材料的类别;
获取所述类别对应的二值图像,并统计每一所述类别对应的二值图 像中正像素的个数,获得所述正像素的个数大于预设阈值的二值图像;
将所述正像素的个数大于预设阈值的二值图像组合形成新的类别 集合;
将所述新的类别集合中每一类别对应的物体进行分割得到至少两 个语义区域;
从所述至少两个语义区域中确定判别物体区域。
可选地,所述从所述至少两个语义区域中确定判别物体区域,包括:
将所述至少两个语义区域中的语义区域按照区域面积进行降序排 序;
将所述降序排序中前N个语义区域作为判别物体区域,N>0。
可选地,所述从所述判别物体区域中提取第一物体区域特征,包括:
从所述待识别图像中提取特征图;
根据所述判别物体区域的边界框信息,从所述特征图中提取所述判 别物体区域的特征,所述特征为所述第一物体区域特征。
可选地,所述根据所述待识别图像对所述判别物体区域的物体区域 关系进行建模得到目标图结构,包括:
获取所述判别物体区域的物体区域关系,所述物体区域关系包括: 外观关系、地理位置关系和方位关系;
根据所述外观关系、所述地理位置关系和所述方位关系,并基于下 述公式一获取任意两个判别物体区域之间的重要程度;
所述公式一包括:
其中,Gij表示第i个判别物体区域的物体区域关系对第j个判别物 体区域的物体区域关系的重要程度,表示判别物体区域之间的 外观关系,表示判别物体区域之间的地理位置关系,表 示判别物体区域之间的方位关系。
可选地,所述方法还包括:
通过下述公式二计算所述外观关系、所述地理位置关系和所述方位 关系的权重,所述权重用于表示所述重要程度;
所述公式二包括:
其中,N表示所述判别物体区域的个数。
可选地,所述获取所述判别物体区域的物体区域关系包括:
获取所述判别物体区域的中心坐标、长和宽;
基于所述中心坐标、所述长和所述宽,建立五维的地理位置关系, 所述五维的地理位置关系通过下述公式三表示;
将所述五维的地理位置关系中的特征变换到高维空间,使用点积的 方式计算相似性,再进行归一化处理,以获得所述判别物体区域之间的 地理位置关系;
其中,所述公式三包括:
可选地,所述获取所述判别物体区域的物体区域关系包括:
从所述判别物体区域对应的图像中提取局部图片块;
获取所述局部图片块的特征信息;
将所述局部图片块的特征信息输入预设分类模型,以获得所述判别 物体区域的二维方向信息,所述二维方向信息包括平均方位角和极角;
将所述二维方向信息的特征变换到高维空间中,并使用点积的方式 计算相似性,再进行归一化处理,以获得所述判别物体区域之间的方位 关系。
可选地,所述根据所述目标图结构获取第二物体区域特征,包括:
输入所述判别物体区域对应的图像至预设图卷积神经网络模型,将 所述判别物体区域的物体区域关系进行卷积处理,以获得所述判别物体 区域的第二物体区域特征。
可选地,所述融合所述第一物体区域特征和所述第二物体区域特征 得到目标物体区域特征,包括:
将所述第一物体区域特征和所述第二物体区域特征分别对应的元 素进行逐元素相加运算得到目标物体区域特征。
为解决上述技术问题,本发明实施方式采用的另一个技术方案是: 提供一种电子设备,包括:至少一个处理器;与所述至少一个处理器通 讯连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执 行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处 理器能够执行上述场景识别方法。
区别于相关技术的情况,本发明实施例提供的场景识别方法和电子 设备,通过获取待识别图像的判别物体区域,从判别物体区域中提取第 一物体区域特征,根据待识别图像对判别物体区域的物体区域关系进行 建模得到目标图结构,并根据该目标图结构获得第二物体区域特征,最 后融合该第一物体区域特征和该第二物体区域特征,得到目标物体区域 特征,根据目标物体区域特征对待识别图像进行分类,得到待识别图像 的场景类别。由于在场景识别的过程中,综合考虑了判别物体区域本身 的特征和判别物体区域的物体区域关系对应的特征,从而提高了场景识 别的准确率。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例 性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件 表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是一个实施例中场景识别方法的应用环境图;
图2是一个实施例中应用环境中的机器人的示意图;
图3是一个实施例中提供的场景识别方法的流程图;
图4是一个实施例中获取待识别图像的判别物体区域的方法的流程 图;
图5是一个实施例提供的场景识别方法的示意图;
图6是一个实施例中提供的场景识别装置的结构框图;
图7是一个实施例中提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附 图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的 具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的场景识别方法和装置,可以应用于终端,也可 以应用于服务器。在一个实施例中,本发明实施例提供的场景识别方法 可以应用于如图1所示的应用环境中。其中,终端10与服务器20通过 有线网络或无线网络通讯连接,终端10可以自行获得待识别场景对应 的待识别图像,也可以从服务器20获得所述待识别图像。终端10对所 述待识别图像进行识别,获得待识别图像的判别物体区域,从该判别物 体区域中提取第一物体区域特征,并根据待识别图像对物体区域关系进 行建模得到目标图结构,根据目标图结构获得第二物体区域特征;终端 10还用于融合所述第一物体区域特征和第二物体区域特征,得到目标物 体区域特征,最后,根据该目标物体区域特征对待识别图像进行分类, 从而获得待识别图像对应的场景类型。其中,终端10可以但不限于是 智能手机、个人计算机、笔记本电脑、平板电脑、便携式可穿戴设备和 机器人。所述机器人包括但不限于工业机器人、服务机器人、清洁机器 人、自移动机器人以及特种机器人等。
服务器20可以用独立的服务器或者是多个服务器组成的服务器集 群来实现。上述对场景进行识别的过程也可在服务器20中执行,终端 10将采集的待识别图像发送给服务器20,服务器20根据所述待识别图 像进行场景识别,例如,所述服务器20用于:获取待识别图像的判别 物体区域;从所述判别物体区域中提取第一物体区域特征;根据所述待 识别图像对物体区域关系进行建模得到目标图结构,并根据所述目标图 结构获取第二物体区域特征;融合所述第一物体区域特征和所述第二物 体区域特征得到目标物体区域特征;根据所述目标物体区域特征对所述 待识别图像进行分类,获得所述待识别图像的场景类别。
在一个实施例中,请参照图2,机器人包括机器人主体11(图未示)、 激光雷达12、摄像单元13、控制器14、行走机构15(图未示)和传感 单元16;或者机器人仅采用激光雷达12和摄像单元13之一。其中,机 器人主体11是机器人的主体结构,可以根据机器人的实际需要,选用 相应的形状结构及制造材质(如硬质塑料或者铝、铁等金属),例如设 置为扫地机器人常见的较为扁平的圆柱形。在其他实施方式中,机器人 也可以不包括激光雷达12。
行走机构15设置于机器人主体11上,是为机器人提供移动能力的 结构装置。该行走机构15具体可以采用任何类型的移动装置实现,例 如滚轮、履带式等。激光雷达12用于感知机器人周围环境的障碍物情 况,获得障碍物信息。摄像单元13用于拍摄图像,其可以是各种类型 的摄像头,比如安装于所述机器人主体11上的广角摄像头。通常而言, 激光雷达12和摄像单元13择一选用,以降低成本。
在其中一些实施例中,传感单元16用于采集机器人的一些运动参 数及环境空间各类数据,传感单元16包括各类合适传感器,诸如陀螺 仪、红外传感器、里程计、磁场计、加速度计或速度计等等。
控制器14是内置于机器人主体11中的电子计算核心,用于执行逻 辑运算步骤以实现机器人的智能化控制。控制器14与激光雷达12、摄 像单元13和传感单元16连接,用于根据激光雷达12、摄像单元13和 传感单元16采集的数据,执行预设的算法以实现场景识别。
需要说明的是,根据所要完成的任务,除了以上的功能模组以外, 机器人主体11上还可以搭载一个或者多个其它不同的功能模组(如储 水箱、清扫装置等),相互配合用以执行相应的任务。
在一个实施例中,请参照图3,提供了一种场景识别方法,该方法 可应用于图1中的终端10,其具体可以是图2所示的机器人。该方法还 可以应用于图1中的服务器20。该方法包括:
S11、获取待识别图像的判别物体区域。
所述待识别图像指的是根据当前待识别场景拍摄的图像,执行本方 法的终端10可以通过采集设备采集当前应用场景的图像数据或视频数 据。如果是视频数据,可对视频数据进行解析,获取视频数据中一帧或 多帧视频图像作为所述待识别图像。如果是图像数据,可将所述图像数 据作为所述待识别图像。其中,如果执行本方法的设备是服务器20,则所述终端10还用于将获得的待识别图像上传至服务器20。
上述待识别图像是终端10实时拍摄获得的,在其他一些实施例中, 终端10还可以从网络上爬取图像,将从网络上获得的图像作为待识别 图像进行场景识别。终端10还可以接受其他设备发送的图像,将该图 像作为待识别图像,该其他设备包括服务器20和其他终端设备。
所述判别物体区域指的是所述待识别图像中具有代表性和区分性 的区域,比如,当前应用场景是卧室,则床的区域为所述判别物体区域。 一待识别图像中可包括一个或多个判别物体区域。请参照图4,获取待 识别图像的判别物体区域,包括:
S111、获取待识别图像;
S112、将所述待识别图像输入预设语义分割网络模型,获得分割结 果,其中,所述分割结果包括所述待识别图像中对应物体和/或材料的类 别;
S113、获取所述类别对应的二值图像,并统计每一所述类别对应的 二值图像中正像素的个数,获得所述正像素的个数大于预设阈值的二值 图像;
S114、将所述正像素的个数大于预设阈值的二值图像组合形成新的 类别集合;
S115、将所述新的类别集合中的每一类别对应的物体进行分割得到 至少两个语义区域;
S116、从所述至少两个语义区域中确定判别物体区域。
在本实施例中,通过预设语义分割网络模型对待识别图像进行语义 分割。可以使用预设数据集(比如COCO-Stuff数据集(包含91种材料 和80种物体类别))进行训练,以获得所述预设语义分割网络模型(比 如Deeplabv3+)。具体地,包括:根据预设数据集获取训练样本;根据 预设标签对所述训练样本进行标注,获得标注后的训练样本,该预设标 签包括图像中的物体类别和/或材料类别;将标注后的训练样本输入所述 预设语义分割网络模型中,以输出所述训练样本的物体和/或材料的分类 结果;根据分类损失函数约束所述分类结果与所述预设标签的关系,以 使所述预设语义分割网络模型输出的所述分类结果与所述预设标签逼 近;将输出的分类结果最逼近于所述预设标签的分类的算法模型作为所述预设语义分割网络模型。
在获得所述预设语义分割网络模型后,将待识别图像输入该预设语 义分割网络模型,得到分割结果S∈RH×W。该S的图像大小与输入的待识 别图像的大小相同。在图片(i,j)位置的值Sij代表图片中其对应物体或者 材料的类别。对于每一类别,可以定义类别二值图Sc:
在实际操作中,一些类别的二值图中存在的正像素值很少,可将该 二值图视为噪声。其中,正像素指的是类别c,的像素点。正像素 点的数量少,说明语义分割的结果可能不够准确,或者该物体在场景中 面积小,不太可能成为场景中的显著物体,即判别物体区域。因此,设 定预设阈值T,统计每一个类别二值图中Sc正像素的个数Pc,得到新的类别集合其中,预设阈值T可以在对每张图片标有判别物 体类别的训练集进行判别物体区域面积的统计,根据该统计结果确定一 个合适的数值作为所述预设阈值。
在得到后,将每一类别的物体进行分割得到语义区域,得到集合 R。对R中的每个元素r,还包含r2,r2这两个信息:r2={x,y,w,h},表 示该语义区域的中心坐标和长宽;r2表示此语义区域的物体类别。
对于如何在R中选择判别物体区域,可以将语义区域集合R按照语 义区域面积进行降序排序,该操作可记为S(i),选择前N个区域作为判别 物体区域,得到最终集合V,V=S(R,N),其中,N>0。
其中,语义区域面积用所述正像素点的个数表示。
上述选择区域面积大的语义区域作为判别物体区域是因为面积大 的语义区域更具有代表性和区分性,从而提高了场景识别的准确率。
S12、从所述判别物体区域中提取第一物体区域特征。
其中,所述从所述判别物体区域中提取第一物体区域特征,包括: 从所述待识别图像中提取特征图;根据所述判别物体区域的边界框信 息,从所述特征图中提取所述判别物体区域的特征,所述特征为所述第 一物体区域特征。
可以训练卷积神经网络模型(比如Inception-v3),通过训练获得的 模型作为特征提取网络模型,从待识别图像中提取特征图。所述特征图 是多尺度的特征图,比如,采用Inception-v3作为特征提取网络模型, Inception-v3中采用了不同大小的卷积核意味着使用了不同大小的感受 野,并使用拼接操作,意味着不同尺度特征的融合。
其中,所述判别物体区域的边界框信息是根据上述语义区域的中心 坐标和长宽获得的。
其中,所述判别物体区域的特征是指每个语义区域对应的卷积神经 网络模型提取的特征图。可以使用ROIAlign从所述特征图中根据语义 区域的边界框提取每个判别物体区域的特征。ROIAlign是一种能较好不 损失边界框坐标信息的特征提取方式。简单直白来说,就是Inception-v3 提取得到一张场景图片对应的特征图,ROIAlign根据边界框坐标信息将 该物体区域在特征图上对应的特征剪切出来,然后进行最大池化,得到 大小相同的特征图。
其中,还可以对对齐的物体特征使用全连接层得到每一判别物体区 域的特征向量,可以使用N×d大小的矩阵X表示一张图片的物体特征向 量。例如,通过ROIAlign得到的对齐的几个物体特征后,拉伸每一个 物体特征再经过一层全连接层,得到每一区域对应的特征向量。
其中,如果一张图片中符合条件的判别物体区域的个数小于N,则 可使用全为0的特征向量表示该物体区域特征,并且该判别物体区域的 方向也置为0。
S13、根据所述待识别图像对所述判别物体区域的物体区域关系进 行建模得到目标图结构,并根据所述目标图结构获取第二物体区域特 征。
在本实施例中,物体区域关系具体包括:外观关系、地理位置关系 和方位关系,采用图卷积神经网络,通过对判别物体区域的物体区域关 系进行建模具体包括:对外观关系、地理位置关系和方位关系进行建模, 来提升场景识别准确率。图(Graph)中的节点代表场景中的判别物体 区域,用表示,该N是判别物体区域的个数, 是第i个判别物体区域的外观特征信息,是第i个 判别物体区域边界框的中心坐标及其长宽,而是第i个判别物 体区域的平均方位角和极角。我们构建图G∈RN×N来表示判别物体区域之 间的关系。
具体地,根据所述待识别图像对物体区域关系进行建模得到目标图 结构,包括:
获取所述判别物体区域的物体区域关系,所述物体区域关系包括: 外观关系、地理位置关系和方位关系;
根据所述外观关系、所述地理位置关系和所述方位关系,并基于下 述公式一获取任意两个判别物体区域之间的重要程度;
所述公式一包括:
其中,Gij表示第i个判别物体区域的物体区域关系对第j个判别物 体区域的物体区域关系的重要程度,表示判别物体区域之间的 外观关系,表示判别物体区域之间的地理位置关系,表 示判别物体区域之间的方位关系。
其中,通过下述公式二计算所述外观关系、所述地理位置关系和所 述方位关系的权重,所述权重用于表示所述重要程度;
所述公式二包括:
其中,N表示所述判别物体区域的个数。
在本实施例中,可以通过下述方式获得所述外观关系。
方式一:点积(Dot-Product),外观特征的点积相似性能被认为是 如下的一种关系的简单形式:
方式二:嵌入式点积(Embedded Dot-Product):可以将一般的点 积扩展为在另一个特征空间中的相似度计算:
方式三:关系网络(Relation Network):可以使用如下关系网络模 块:
其中,[·,·]表示连接操作,W和b是学习到的权重,将连接的向量变成标 量。
在本实施例中,可以通过下述方式获得所述地理位置关系。具体包 括:
获取所述判别物体区域的中心坐标、长和宽;
基于所述中心坐标、所述长和所述宽,建立五维的地理位置关系, 所述五维的地理位置关系通过下述公式三表示;
将所述五维的地理位置关系中的特征变换到高维空间,使用点积的 方式计算相似性,再进行归一化处理,以获得所述判别物体区域之间的 地理位置关系;
其中,所述公式三包括:
可以将这5维的特征通过一层全连接层变换到高维空间(比如dc维),其中,使用全连接层,输入为5维,输出为dc维。然后使用点积 的方式计算相似性,然后再使用softmax进行归一化处理,得到所述地 理位置关系。
在本实施例中,可以通过下述方式获得所述方位关系。具体包括: 从所述判别物体区域对应的图像中提取局部图片块;获取所述局部图片 块的特征信息;将所述局部图片块的特征信息输入预设分类模型,以获 得所述判别物体区域的二维方向信息,所述二维方向信息包括平均方位 角和极角;将所述二维方向信息的特征变换到高维空间中,并使用点积 的方式计算相似性,再进行归一化处理,以获得所述判别物体区域之间 的方位关系。
其中,可以使用K最近邻算法(K-Nearest Neighbors,KNN)在Bristol 数据集上进行平面性的判断和3D方向预测的实验。该数据集中的每张 图片都有人工标注的地标点和地标点所形成的区域。每一个区域都被标 为平面或者非平面,并且每一个平面区域都有一个方向向量(x,y,z), x2+y2+z2=1。在实际当中,照相机拍摄的场景图片中平面的z方向是非负的,因此,所有的方向向量都落入了单位半球面中,这意味着方位 角θ和极角足够表示3D方向,其中,
我们从每张训练图片中提取局部图片块,每一个图片块都被标记平 面,非平面和边界其中的一个类别。平面,非平面和边界分别记为C1,C2,C3。 使用检测到的平面的3D方向来表示图片块的方向。简单来说,每一个 图片块Pm由尺度不变特征变换(Scale-invariantFeature Transform,SIFT) 描述子fm表示。平面信息为cm∈{C1,C2,C3),方向信息为我们收集 了100000个图片块(50000个平面,30000个非平面,20000个边界) 来进行KNN的预测。
KNN预测的过程包括:输入一个新的图片块及其SIFT特征,模型 在特征空间中寻找其最近的K个邻居,检查是否有τ个邻居能够支持图 片块P是平面。这里,如果P是平面,则使用这τ个邻居的方向的 均值来表示P的方向。在进行KNN预测时,输入的是需要预测的图片 对应的SIFT特征,输出是方向信息,包括方位角和极角。
在场景预测中,将判别物体区域对应的局部图片块输入KNN中进 行方向预测,得到2维的方向信息,然后,将这2维的特征 通过一层全连接层变换到高维空间(比如do维)进行表示,再使用点积 的方式计算相似性,最后使用softmax进行归一化处理,得到判别物体 区域间的方位关系。
根据上述方法构建目标图结构,所述目标图结构用于表示判别物体 区域间的外观关系、地理位置关系和方位关系。
其中,所述根据所述目标图结构获取第二物体区域特征包括:输入 所述判别物体区域对应的图像至预设图卷积神经网络模型,将所述判别 物体区域的物体区域关系进行卷积处理,以获得所述判别物体区域的第 二物体区域特征。
在本实施例中,在目标图结构构建完成后,使用图卷积神经网络 (GraphConvolutional Network,GCN)进行关系推理。GCN输入为图, 在图结构上进行计算,然后输出图。对于图中的目标节点i,它根据其与 邻节点的边的权重来从邻节点集成特征。一层的GCN可以被写成:
Z(l+1)=σ(GZ(l)W(l))
其中,G∈RN×N是图的矩阵表示,G具体为上述重要程度Gij。 Z(l)∈RN×d是第层节点的特征表示,Z(0)=X。W(l)∈Rd×d是该层可以习得 的权重矩阵。σ(·)表示激活函数,实验中可以使用sigmoid,tanh,ReLU 等函数来增加非线性特征。
S14、融合所述第一物体区域特征和所述第二物体区域特征得到目 标物体区域特征。
其中,可以将所述第一物体区域特征和所述第二物体区域特征分别 对应的元素进行逐元素相加运算得到目标物体区域特征。
S15、根据所述目标物体区域特征对所述待识别图像进行分类,获 得所述待识别图像的场景类别。
其中,上述融合后获得的目标物体区域特征可通过一个全连接层进 行分类。可以使用MIT67和SUN397数据集进行分类模型的训练和测试, 将待识别图像输入训练好的分类模型中,使用交叉熵损失函数对待识别 图像进行分类,获得待识别场景的类型。
举例说明,请参照图5,本发明实施例提供的场景识别方法具体包 括:使用语义分割模型得到待识别图像中的判别物体区域;使用 Inception-v3和ROIAlign提取判别物体区域的第一特征;使用图对判别 物体区域的关系(包括外观关系、地理位置关系和3D方向关系)进行 建模;使用GCN得到关系推理后的判别物体区域的第二特征,将该第 二特征与上述第一特征进行融合,最后进行分类,得到待识别图像所属 场景类别。
本发明实施例提供的场景识别方法,原物体区域特征和进行关系推 理后的物体区域特征,从而使最终识别的场景更加准确,提升了用户体 验。
在一个实施例中,请参照图6,提供一种场景识别装置,所述场景 识别装置30可以为图1中的终端10中的一部分,也可以为该终端10。 可为图2所示的机器人中的一部分,也可以为该机器人。该场景识别装 置30包括:第一获取模块31,第一处理模块32,第二处理模块33、特 征融合模块34和场景识别模块35。
所述第一获取模块31用于获取待识别图像的判别物体区域;所述 第一处理模块32用于从所述判别物体区域中提取第一物体区域特征; 所述第二处理模块33用于根据所述待识别图像对物体区域关系进行建 模得到目标图结构,并根据所述目标图结构获取第二物体区域特征;所 述特征融合模块34用于融合所述第一物体区域特征和所述第二物体区 域特征得到目标物体区域特征;所述场景识别模块35用于根据所述目 标物体区域特征对所述待识别图像进行分类,获得所述待识别图像的场 景类别。
其中,第一获取模块31与第一处理模块32、第二处理模块33连接, 第一处理模块32和第二处理模块33分别连接特征融合模块34,特征融 合模块34与场景识别模块35连接。
其中,第一获取模块31具体用于:获取待识别图像;将所述待识 别图像输入预设语义分割网络模型,获得分割结果,其中,所述分割结 果包括所述待识别图像中对应物体和/或材料的类别;获取所述类别对应 的二值图像,并统计每一所述类别对应的二值图像中正像素的个数,获 得所述正像素的个数大于预设阈值的二值图像;将所述正像素的个数大 于预设阈值的二值图像组合形成新的类别集合;将所述新的类别集合中 的每一类别对应的物体进行分割得到至少两个语义区域;从所述至少两 个语义区域中确定判别物体区域。
其中,所述从所述至少两个语义区域中确定判别物体区域,包括:
将所述至少两个语义区域中的语义区域按照区域面积进行降序排 序;
将所述降序排序中前N个语义区域作为判别物体区域,N>0。
其中,第一处理模块32具体用于:从所述待识别图像中提取特征 图;根据所述判别物体区域的边界框信息,从所述特征图中提取所述判 别物体区域的特征,所述特征为所述第一物体区域特征。
其中,第二处理模块33具体用于:获取所述判别物体区域的物体 区域关系,所述物体区域关系包括:外观关系、地理位置关系和方位关 系;根据所述外观关系、所述地理位置关系和所述方位关系,并基于下 述公式一获取任意两个判别物体区域之间的重要程度;所述公式一包 括:
其中,Gij表示第i个判别物体区域的物体区域关系对第j个判别物 体区域的物体区域关系的重要程度,表示判别物体区域之间的 外观关系,表示判别物体区域之间的地理位置关系,表 示判别物体区域之间的方位关系。
通过下述公式二计算所述外观关系、所述地理位置关系和所述方位 关系的权重,所述权重用于表示所述重要程度;
所述公式二包括:
其中,N表示所述判别物体区域的个数。
其中,所述获取所述判别物体区域的物体区域关系包括:获取所述 判别物体区域的中心坐标、长和宽;基于所述中心坐标、所述长和所述 宽,建立五维的地理位置关系,所述五维的地理位置关系通过下述公式 三表示;将所述五维的地理位置关系中的特征变换到高维空间,使用点 积的方式计算相似性,再进行归一化处理,以获得所述判别物体区域之 间的地理位置关系。所述公式三包括:
其中,所述获取所述判别物体区域的物体区域关系包括:从所述判 别物体区域对应的图像中提取局部图片块;获取所述局部图片块的特征 信息;将所述局部图片块的特征信息输入预设分类模型,以获得所述判 别物体区域的二维方向信息,所述二维方向信息包括平均方位角和极 角;将所述二维方向信息的特征变换到高维空间中,并使用点积的方式计算相似性,再进行归一化处理,以获得所述判别物体区域之间的方位 关系。
其中,第二处理模块33具体还用于:输入所述判别物体区域对应 的图像至预设图卷积神经网络模型,将所述判别物体区域的物体区域关 系进行卷积处理,以获得所述判别物体区域的第二物体区域特征。
其中,所述特征融合模块34具体用于:将所述第一物体区域特征 和所述第二物体区域特征分别对应的元素进行逐元素相加运算得到目 标物体区域特征。
需要说明的是,上述场景识别装置可执行本发明实施例所提供的场 景识别方法,具备执行方法相应的功能模块和有益效果。未在场景识别 装置实施例中详尽描述的技术细节,可参见本发明实施例所提供的场景 识别方法。
在一个实施例中,请参照图7,提供一种电子设备,该电子设备可 用于执行上述实施例中的场景识别方法。该电子设备40包括一个或多 个处理器41以及存储器42。其中,图7中以一个处理器41为例。
处理器41和存储器42可以通过总线或者其他方式连接,图7中以 通过总线连接为例。
存储器42作为一种非易失性计算机可读存储介质,可用于存储非 易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施 例中的用于场景识别方法对应的程序指令/模块。处理器41通过运行存 储在存储器42中的非易失性软件程序、指令以及模块,从而执行场景 识别装置的各种功能应用以及数据处理,即实现上述方法实施例提供的用于场景识别方法以及上述场景识别装置实施例的各个模块的功能。
存储器42可以包括高速随机存取存储器,还可以包括非易失性存 储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存 储器件。在一些实施例中,存储器42可选包括相对于处理器41远程设 置的存储器,这些远程存储器可以通过网络连接至处理器41。上述网络 的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组 合。
所述程序指令/模块存储在所述存储器42中,当被所述一个或者多 个处理器41执行时,执行上述任意方法实施例中的场景识别方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的 功能模块和有益效果。未在本实施例详尽描述的技术细节,可参见本发 明实施例所提供的方法。
在一个实施例中,还提供了一种非易失性计算机存储介质,所述非 易失性计算机存储介质存储有计算机可执行指令,该计算机可执行指令 被一个或多个处理器执行,例如图7中的一个处理器41,可使得上述一 个或多个处理器可执行上述任意方法实施例中的场景识别方法。
在一个实施例中,还提供了一种计算机程序产品,所述计算机程序 产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计 算机程序包括程序指令,当所述程序指令被所述电子设备执行时,使所 述电子设备执行上述任意方法实施例中的场景识别方法。
以上所描述的装置或设备实施例仅仅是示意性的,其中所述作为分 离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择 其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到 各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过 硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡 献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储 在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指 令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设 备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非 对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特 征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的 本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供; 尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人 员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使 相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (11)
1.一种场景识别方法,其特征在于,所述方法包括:
获取待识别图像的判别物体区域;
从所述判别物体区域中提取第一物体区域特征;
根据所述待识别图像对所述判别物体区域的物体区域关系进行建模得到目标图结构,并根据所述目标图结构获取第二物体区域特征;
融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征;
根据所述目标物体区域特征对所述待识别图像进行分类,获得所述待识别图像的场景类别。
2.根据权利要求1所述的场景识别方法,其特征在于,所述获取待识别图像的判别物体区域,包括:
获取待识别图像;
将所述待识别图像输入预设语义分割网络模型,获得分割结果,其中,所述分割结果包括所述待识别图像中对应物体和/或材料的类别;
获取所述类别对应的二值图像,并统计每一所述类别对应的二值图像中正像素的个数,获得所述正像素的个数大于预设阈值的二值图像;
将所述正像素的个数大于预设阈值的二值图像组合形成新的类别集合;
将所述新的类别集合中的每一类别对应的物体进行分割得到至少两个语义区域;
从所述至少两个语义区域中确定判别物体区域。
3.根据权利要求2所述的场景识别方法,其特征在于,所述从所述至少两个语义区域中确定判别物体区域,包括:
将所述至少两个语义区域中的语义区域按照区域面积进行降序排序;
将所述降序排序中前N个语义区域作为判别物体区域,N>0。
4.根据权利要求1所述的场景识别方法,其特征在于,所述从所述判别物体区域中提取第一物体区域特征,包括:
从所述待识别图像中提取特征图;
根据所述判别物体区域的边界框信息,从所述特征图中提取所述判别物体区域的特征,所述特征为所述第一物体区域特征。
8.根据权利要求5所述的场景识别方法,其特征在于,所述获取所述判别物体区域的物体区域关系包括:
从所述判别物体区域对应的图像中提取局部图片块;
获取所述局部图片块的特征信息;
将所述局部图片块的特征信息输入预设分类模型,以获得所述判别物体区域的二维方向信息,所述二维方向信息包括平均方位角和极角;
将所述二维方向信息的特征变换到高维空间中,并使用点积的方式计算相似性,再进行归一化处理,以获得所述判别物体区域之间的方位关系。
9.根据权利要求6所述的场景识别方法,其特征在于,所述根据所述目标图结构获取第二物体区域特征,包括:
输入所述判别物体区域对应的图像至预设图卷积神经网络模型,将所述判别物体区域的物体区域关系进行卷积处理,以获得所述判别物体区域的第二物体区域特征。
10.根据权利要求5所述的场景识别方法,其特征在于,所述融合所述第一物体区域特征和所述第二物体区域特征得到目标物体区域特征,包括:
将所述第一物体区域特征和所述第二物体区域特征分别对应的元素进行逐元素相加运算得到目标物体区域特征。
11.一种电子设备,其特征在于,包括:
至少一个处理器;
与所述至少一个处理器通讯连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至10任一项所述的场景识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011303142.7A CN112633064B (zh) | 2020-11-19 | 2020-11-19 | 一种场景识别方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011303142.7A CN112633064B (zh) | 2020-11-19 | 2020-11-19 | 一种场景识别方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633064A true CN112633064A (zh) | 2021-04-09 |
CN112633064B CN112633064B (zh) | 2023-12-15 |
Family
ID=75303516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011303142.7A Active CN112633064B (zh) | 2020-11-19 | 2020-11-19 | 一种场景识别方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633064B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591539A (zh) * | 2021-06-01 | 2021-11-02 | 中国电子科技集团公司第三研究所 | 一种目标识别方法、装置及可读存储介质 |
CN113971761A (zh) * | 2021-11-05 | 2022-01-25 | 南昌黑鲨科技有限公司 | 多输入场景识别方法、终端设备及可读存储介质 |
CN114155479A (zh) * | 2022-02-09 | 2022-03-08 | 中农北极星(天津)智能农机装备有限公司 | 语言交互处理方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930246B (zh) * | 2012-10-16 | 2015-04-08 | 同济大学 | 一种基于点云片段分割的室内场景识别方法 |
CN107194318B (zh) * | 2017-04-24 | 2020-06-12 | 北京航空航天大学 | 目标检测辅助的场景识别方法 |
CN108710847B (zh) * | 2018-05-15 | 2020-11-27 | 北京旷视科技有限公司 | 场景识别方法、装置及电子设备 |
CN109446897B (zh) * | 2018-09-19 | 2020-10-27 | 清华大学 | 基于图像上下文信息的场景识别方法及装置 |
CN109858565B (zh) * | 2019-02-28 | 2022-08-12 | 南京邮电大学 | 基于深度学习的融合全局特征和局部物品信息的家庭室内场景识别方法 |
-
2020
- 2020-11-19 CN CN202011303142.7A patent/CN112633064B/zh active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591539A (zh) * | 2021-06-01 | 2021-11-02 | 中国电子科技集团公司第三研究所 | 一种目标识别方法、装置及可读存储介质 |
CN113591539B (zh) * | 2021-06-01 | 2024-04-16 | 中国电子科技集团公司第三研究所 | 一种目标识别方法、装置及可读存储介质 |
CN113971761A (zh) * | 2021-11-05 | 2022-01-25 | 南昌黑鲨科技有限公司 | 多输入场景识别方法、终端设备及可读存储介质 |
CN114155479A (zh) * | 2022-02-09 | 2022-03-08 | 中农北极星(天津)智能农机装备有限公司 | 语言交互处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112633064B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | PCAN: 3D attention map learning using contextual information for point cloud based retrieval | |
CN112633064B (zh) | 一种场景识别方法和电子设备 | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
Qu et al. | Vehicle detection from high-resolution aerial images using spatial pyramid pooling-based deep convolutional neural networks | |
CN106709449B (zh) | 一种基于深度学习和强化学习的行人重识别方法及系统 | |
Jiang et al. | Deep neural networks-based vehicle detection in satellite images | |
Xia et al. | Loop closure detection for visual SLAM using PCANet features | |
CN106650690A (zh) | 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法 | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN111242041A (zh) | 基于伪图像技术的激光雷达三维目标快速检测方法 | |
Jia et al. | Obstacle detection in single images with deep neural networks | |
JP2016062610A (ja) | 特徴モデル生成方法及び特徴モデル生成装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111274926B (zh) | 图像数据筛选方法、装置、计算机设备和存储介质 | |
CN109919223B (zh) | 基于深度神经网络的目标检测方法及装置 | |
Ali et al. | Vehicle detection and tracking in UAV imagery via YOLOv3 and Kalman filter | |
Zhou et al. | Car park occupancy analysis using UAV images | |
Naseer et al. | Multimodal Objects Categorization by Fusing GMM and Multi-layer Perceptron | |
CN113723558A (zh) | 基于注意力机制的遥感图像小样本舰船检测方法 | |
Sinha et al. | Human activity recognition from UAV videos using a novel DMLC-CNN model | |
Ali et al. | Vehicle Detection and Tracking from Aerial Imagery via YOLO and Centroid Tracking | |
Li et al. | Deep fusion of multi-layers salient CNN features and similarity network for robust visual place recognition | |
Turan et al. | Different application areas of object detection with deep learning | |
CN114462479A (zh) | 模型训练方法、检索方法以及模型、设备和介质 | |
Kumar | Deep learning based place recognition for challenging environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518000 1701, building 2, Yinxing Zhijie, No. 1301-72, sightseeing Road, Xinlan community, Guanlan street, Longhua District, Shenzhen, Guangdong Province Applicant after: Shenzhen Yinxing Intelligent Group Co.,Ltd. Address before: 518000 building A1, Yinxing hi tech Industrial Park, Guanlan street, Longhua District, Shenzhen City, Guangdong Province Applicant before: Shenzhen Silver Star Intelligent Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |