CN111860403A - 场景信息的检测方法和装置、电子设备 - Google Patents
场景信息的检测方法和装置、电子设备 Download PDFInfo
- Publication number
- CN111860403A CN111860403A CN202010739363.2A CN202010739363A CN111860403A CN 111860403 A CN111860403 A CN 111860403A CN 202010739363 A CN202010739363 A CN 202010739363A CN 111860403 A CN111860403 A CN 111860403A
- Authority
- CN
- China
- Prior art keywords
- node
- scene
- feature
- nodes
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 59
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000000644 propagated effect Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 80
- 238000012545 processing Methods 0.000 claims description 40
- 230000002776 aggregation Effects 0.000 claims description 39
- 238000004220 aggregation Methods 0.000 claims description 39
- 230000005540 biological transmission Effects 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例提供一种场景信息的检测方法和装置、电子设备,其中,该方法可以包括:根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的特征维度是Cy*1的汇聚特征,其中,Cy是汇聚特征的通道维度,且Cy与目标节点的节点特征的通道维度相同;其中,场景异构图包括至少两种异质节点:辅助节点以及基于场景图像得到的目标节点;基于汇聚特征更新目标节点的节点特征;根据更新后的目标节点的节点特征,获得场景图像的场景信息。
Description
技术领域
本公开涉及计算机视觉技术,具体涉及一种场景信息的检测方法和装置、电子设备。
背景技术
随着深度学习技术的不断发展,场景理解算法可以获取场景图像中包含的场景信息,例如,该场景信息可以是场景图像中包含哪些物体,或者场景图像中的各个物体之间具有怎样的关系,即理解这个场景图像中正在发生什么事件。而由于场景图像中包含的信息复杂多样,出于计算量大等多种因素的考虑,现有的场景理解算法往往只能利用场景图像中的一种类型的信息来辅助场景的理解,使得最终获得的场景信息的检测精度有待提高。
发明内容
有鉴于此,本公开实施例至少提供一种场景信息的检测方法和装置、电子设备。
第一方面,提供一种场景信息的检测方法,所述方法包括:
根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,所述汇聚特征的特征维度是Cy*1,其中,所述Cy是所述汇聚特征的通道维度,且所述Cy与目标节点的节点特征的通道维度相同;其中,所述场景异构图包括至少两种异质节点,所述至少两种异质节点包括:所述辅助节点以及基于所述场景图像得到的所述目标节点;
基于所述汇聚特征,更新所述目标节点的节点特征;
根据更新后的所述目标节点的节点特征,获得所述场景图像中的场景信息。
在一些实施例中,所述基于所述汇聚特征,更新所述目标节点的节点特征,包括:根据所述汇聚特征的每个通道的通道特征,对所述目标节点的节点特征中对应所述每个通道的所有特征位置利用所述通道特征进行特征更新处理。
在一些实施例中,所述根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,包括:根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到重加权向量和残差向量中的至少一种作为所述汇聚特征;所述基于所述汇聚特征,更新所述目标节点的节点特征,包括:基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理,和/或,通过所述残差向量对目标节点的节点特征的各通道进行相加处理。
在一些实施例中,所述得到重加权向量和残差向量中的至少一种作为所述汇聚特征,包括:通过激活函数、以及所述目标节点的节点特征的标准差,将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。
在一些实施例中,所述目标节点包括:对象组节点,所述对象组包括所述场景图像中的两个对象;所述根据更新后的所述目标节点的节点特征,获得所述场景图像中的场景信息,包括:根据更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果。
在一些实施例中,所述场景异构图中包括:以其中一个对象组节点作为终点的信息传输链,所述信息传输链包括至少两个有向边组,每个有向边组包括由多个起点指向同一终点的多个有向边;所述信息传输链中的各个起点和终点中包括至少两种所述异质节点;所述根据与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,基于所述汇聚特征,更新所述目标节点的节点特征,包括:对于所述至少两个有向边组中的第一有向边组,以所述第一有向边组指向的同一个第一终点作为所述目标节点,根据连接所述第一终点的各个起点的节点特征得到汇聚特征,基于所述汇聚特征更新所述第一终点的节点特征;所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点;对于所述第二有向边组,以所述第二有向边组指向的同一个第二终点作为所述目标节点,根据连接所述第二终点的各个起点的节点特征得到汇聚特征,基于所述汇聚特征更新所述第二终点的节点特征。
在一些实施例中,所述至少两个有向边组的一个所述有向边组的起点和终点,包括如下其中一项:所述起点包括:由所述场景图像提取特征得到的各个像素节点,所述终点是由所述场景图像提取到的物体节点;或者,所述起点和终点均包括:由所述场景图像提取到的物体节点;或者,所述起点包括由所述场景图像提取到的物体节点,所述终点包括所述对象组节点;或者,所述起点包括所述对象组节点,所述终点包括所述物体节点。
在一些实施例中,所述各辅助节点包括:多个像素节点;所述方法还包括:根据所述场景图像进行特征提取,得到多个特征图,所述多个特征图分别具有不同尺寸;将所述多个特征图缩放到同一尺寸后进行融合,得到融合特征图;根据所述融合特征图,得到多个所述像素节点的节点特征。
在一些实施例中,所述根据更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果,包括:根据所述对象组节点的节点特征,得到预测的初始分类置信度,所述初始分类置信度中包括:所述对象组节点对应各个预定关系类别的初始分类置信度;根据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度,得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度;若所述置信度大于或等于预设的置信度阈值,则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。
第二方面,提供一种场景信息的检测方法,所述方法由图像处理设备执行;所述方法包括:
获取图像采集设备采集到的场景图像;
根据本公开任一实施例提供的检测方法,对所述场景图像进行处理,输出所述场景图像中的场景信息。
第三方面,提供一种场景信息的检测装置,所述装置包括:
特征处理模块,用于根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,所述汇聚特征的特征维度是Cy*1,其中,所述Cy是所述汇聚特征的通道维度,且所述Cy与目标节点的节点特征的通道维度相同;其中,所述场景异构图包括至少两种异质节点,所述至少两种异质节点包括:所述辅助节点以及基于所述场景图像得到的所述目标节点;
特征更新模块,用于基于所述汇聚特征,更新所述目标节点的节点特征;
信息确定模块,用于根据更新后的所述目标节点的节点特征,获得所述场景图像中的场景信息。
在一些实施例中,所述特征更新模块,在用于基于所述汇聚特征更新所述目标节点的节点特征时,包括:根据所述汇聚特征的每个通道的通道特征,对所述目标节点的节点特征中对应每个通道的所有特征位置利用所述通道特征进行特征更新处理。
在一些实施例中,所述特征处理模块,具体用于根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到重加权向量和残差向量中的至少一种作为所述汇聚特征;所述特征更新模块,具体用于基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理,和/或,通过所述残差向量对目标节点的节点特征的各通道进行相加处理。
在一些实施例中,所述特征处理模块,在用于得到重加权向量和残差向量中的至少一种作为所述汇聚特征时,包括:通过激活函数、以及所述目标节点的节点特征的标准差,将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。
在一些实施例中,所述目标节点包括:对象组节点,所述对象组包括所述场景图像中的两个对象;所述信息确定模块,具体用于根据更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果。
在一些实施例中,所述场景异构图中包括:以其中一个对象组节点作为终点的信息传输链,所述信息传输链包括至少两个有向边组,每个有向边组包括由多个起点指向同一终点的多个有向边;所述信息传输链中的各个起点和终点中包括至少两种所述异质节点;所述特征处理模块,用于:对于所述至少两个有向边组中的第一有向边组,以所述第一有向边组指向的同一个第一终点作为所述目标节点,根据连接所述第一终点的各个起点的节点特征得到汇聚特征;所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点;对于所述第二有向边组,以所述第二有向边组指向的同一个第二终点作为所述目标节点,根据连接所述第二终点的各个起点的节点特征得到汇聚特征;所述特征更新模块,用于:基于连接所述第一终点的各个起点的节点特征得到的汇聚特征更新所述第一终点的节点特征;以及基于连接所述第二终点的各个起点的节点特征得到的汇聚特征更新所述第二终点的节点特征。
在一些实施例中,所述信息确定模块,在用于根据更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果时,包括:根据所述对象组节点的节点特征,得到预测的初始分类置信度,所述初始分类置信度中包括:所述对象组节点对应各个预定关系类别的初始分类置信度;根据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度,得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度;若所述置信度大于或等于预设的置信度阈值,则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。
第四方面,提供一种场景信息的检测装置,所述装置应用于图像处理设备,所述装置包括:图像获取模块,用于获取图像采集设备采集到的场景图像;信息输出模块,用于根据本公开任一实施例的检测方法,对所述场景图像进行处理,输出所述场景图像中的场景信息。
第五方面,提供一种电子设备,包括:存储器、处理器,所述存储器用于存储计算机可读指令,所述处理器用于调用所述计算机指令,实现本公开任一实施例的检测方法。
第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例的检测方法。
本公开实施例提供的场景信息的检测方法和装置、电子设备,通过在更新节点特征时,在不同节点间传输通道级别的信息,使得可以在异质节点间传递信息,这样就能够融合多种类型的信息进行场景信息的检测,从而使得场景信息检测更加准确。
附图说明
为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开至少一个实施例提供的一种场景信息的检测方法;
图2示出了本公开至少一个实施例提供的一种特征更新的原理示意图;
图3示出了本公开至少一个实施例提供的另一种场景信息的检测方法;
图4示出了本公开至少一个实施例提供的场景异构图的示意图;
图5示出了本公开至少一个实施例提供的场景信息的检测装置;
图6示出了本公开至少一个实施例提供的另一种场景信息的检测装置。
具体实施方式
为了使本技术领域的人员更好地理解本公开一个或多个实施例中的技术方案,下面将结合本公开一个或多个实施例中的附图,对本公开一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
计算机视觉技术可以通过对某个场景的场景图像进行图像处理,进而获得关于对该场景内容的理解信息,可称为场景信息。该场景信息包括但不限于:例如,识别场景图像中包含的目标对象、检测场景图像中的对象在做的事情、检测场景图像中的不同对象之间的关系、根据场景图像的内容识别图像中蕴含的信息,等。
具体实施中,可以由图像采集设备采集场景图像。其中,所述的场景可以是存在自动分析场景信息的需求的地方,例如,经常发生暴力斗殴等城市安全隐患的场所,可以安装监控摄像头等图像采集设备;又例如,如果一个超市等购物场所想要自动采集顾客购物的图像,并分析顾客对哪些商品的兴趣较高,也可以在超市内安装监控摄像头等图像采集设备。其中,所述的场景图像既可以是单帧图像,也可以是视频流中的其中部分图像帧。
在采集到场景图像以后,可以将该场景图像传输至用于进行图像分析处理的图像处理设备,该图像处理设备可以按照本公开实施例后续提供的场景信息的检测方法,对图像采集设备采集到的图像进行分析,最终输出场景图像中的场景信息,例如,该场景信息可以是图像中的某些人正在打架。当然,这些都是示例而已,实际实施中不局限于上述列举的情况。
而在对场景图像进行处理以获得场景信息的过程中,通常会依据场景中的部分信息作为辅助来获得要识别和检测的目标场景内容,这个过程就涉及到融合辅助信息的特征更新的过程,通过特征更新将多种辅助信息融合起来共同预测识别目标。
本公开实施例提供一种场景信息的检测方法,该方法提供了一种特征更新的方式,通过该方法提供的方式更新特征,并根据更新特征检测场景信息。
首先,通过对待识别的场景图像(例如,采集的网球场的图像)进行特征提取等图像处理,可以得到多个节点,这些节点可以构成一个图网络,本实施例将该图网络称为场景异构图。
该场景异构图中的所述多个节点至少包括两种类型的异质节点,所述的异质节点是指节点在节点特征维度(feature shapes)和节点特征分布(feature distributions)等方面都存在不同。
上述的场景异构图中具体包括哪些异质节点,可以根据实际处理目标来确定,本实施例不做限制。需要注意的是,本实施例中的场景异构图中允许包括多种类型的异质节点,以融合更为丰富的信息来进行场景理解,并且,图中的各个节点之间可以建立有向边的连接,将有向边起点的特征融合进有向边终点的特征,以实现对有向边终点的特征优化更新。
例如,如果要获得的场景信息是图像中的人和物体之间的关系,那么图中节点可以包括对象节点(object,可以是人或者物)、像素节点等不同节点。
例如,在另一个场景理解任务中,图中节点除了包括人体节点、像素节点,还可以包括人体关键点对应的节点。既可以将同一个人的关键点之间连边,也可以在不同人的同一个关键点之间连边,这些关键点可以连接到人体检测框对应的节点上。通过具有连接边的节点之间的信息传递,能够优化更新人体特征,使得依据更新的人体特征更好的捕捉到人的动作姿态。
例如,在又一个场景理解任务中,图中节点可以包括像素节点、对象节点,还可以将一个时刻的场景凝缩成一个对应该时刻的时刻节点。该时刻节点可以通过连接到像素节点上,来优化每个时刻中每个像素位置的特征表示,也可以将该时刻节点连接到具体的某个对象节点进行优化。此外,如果该场景理解任务还期望依据一些更整体性的环境因素进去,比如整体光照条件、天气等因素和特征,也可以在图中加入对应这些整体性因素的节点。
总之,可以根据具体的场景理解任务,确定场景异构图中包括的节点,本实施例允许图中包括多种异质节点。如下的图1将描述根据该场景异构图进行场景信息检测的处理,可以包括:
步骤100中,根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,所述汇聚特征的特征维度是Cy*1,其中,所述Cy是所述汇聚特征的通道维度,且所述Cy与目标节点的节点特征的通道维度相同。
其中,所述场景异构图包括至少两种异质节点,所述至少两种异质节点包括:所述辅助节点以及对场景图像进行特征提取得到的所述目标节点。其中,目标节点和辅助节点都可以是基于场景图像得到,比如,可以是对场景图像进行图像中的目标检测,检测到图像中的某个对象(如,人,或者物体),由此生成一个对应该对象的节点,可以是辅助节点。又比如,还可以是将场景图像中的两个对象组成一个对象组(如,一个人和一个网球),并生成一个对应该对象组的节点,可以是目标节点。其中的部分辅助节点还可以是以其他方式得到,比如,场景图像采集时的时间信息、光照条件信息等,这些信息也可以对应一个节点,可以是辅助节点,当然后续这些信息都可以编码融合进该辅助节点对应的节点特征中。由此可见,当得到一张场景图像后,可以基于该场景图像生成上述的目标节点、辅助节点,这些节点进而又构成了场景异构图。
例如,该至少两种异质节点可以包括节点A、节点B、节点C和节点D四种类型的节点,每一种类型的节点数量可以是多个。并且,在该场景异构图中可以包括如下的节点连接关系:
例如,多个节点A连接到其中一个节点B,并且节点A作为有向边的起点,节点B作为有向边的终点,那么,本步骤中的目标节点和各个辅助节点可以是,所述的多个节点A为各个辅助节点,节点B是目标节点。
本步骤中,可以根据各个辅助节点的节点特征,得到待传播的汇聚特征,并且,汇聚特征的特征维度是Cy*1,其中,所述Cy是汇聚特征的通道维度,且Cy与目标节点的节点特征的通道维度相同。示例性的,目标节点的节点特征有256个通道,那么汇聚特征可以是一个256维的向量。
其中,上述提到的目标节点的节点特征,该节点特征可以是基于场景图像的至少一部分图像内容得到的一种信息,该节点特征中融合了目标节点对应的对象在场景图像中的图像信息。也正是由于该节点特征中融合了图像信息,使得能够根据该节点特征进行场景信息的预测,得到场景图像中蕴含的场景信息。
在步骤102中,基于所述汇聚特征,更新所述目标节点的节点特征。
其中,所述的汇聚特征是综合了目标节点对应的各个辅助节点的节点特征得到的,该汇聚特征用于表示各辅助节点对目标节点的节点特征更新的影响,相当于将各辅助节点对应的图像内容的信息传输至目标节点对应的对象,以使得目标节点的节点特征融合进辅助节点对应的图像内容。
本步骤中,汇聚特征和节点特征的通道维度相同,在更新目标节点的节点特征时,更新方式也是进行通道级(channel-wise)的信息更新。具体可以是,根据所述汇聚特征的每个通道的通道特征,对所述目标节点的节点特征中对应所述通道的所有特征位置利用所述通道特征进行特征更新处理。
例如,仍以上述的目标节点的节点特征有256个通道,汇聚特征可以是一个256维的向量为例。请结合参见图2所示,根据多个辅助节点A的节点特征可以计算得到一个汇聚特征{p1,p2,p3……p256},该汇聚特征是一个256维的向量。目标节点B的节点特征中每个通道有7*7=49个特征位置,在对节点特征更新时,可以逐个通道进行更新。比如,如图2所示,对目标节点的第一个通道进行更新时,可以由汇聚特征的向量中取出第一个向量元素p1,对目标节点的第一个通道中的所有特征位置都加上这个向量元素(这里以“加”为例,可选的,还可以是“乘”等其他操作),实现对该第一个通道中所有特征位置的特征更新处理,图2在部分特征位置处示出了+p1的操作。同理,对目标节点的第二个通道更新时,使用汇聚特征的向量中的第二个向量元素,将第二个通道中的所有特征位置都加上该第二个向量元素。
在步骤104中,根据更新后的所述目标节点的节点特征,获得所述场景图像中的场景信息。
如上的步骤100和步骤102中,以其中一次目标节点的更新为例,实际实施中,由场景图像检测获得场景信息的过程中可以涉及到多次这样的特征更新。比如,在根据多个节点A的特征更新了共同指向的一个节点B的特征之后,该节点B可以与其他的节点B一起,基于这些节点B的节点特征去更新共同指向的节点C的特征,更新方式与图2相同。
在经过至少一次本实施例的特征更新后,可以利用更新后的目标节点的节点特征,最终获得所述场景图像中的场景信息。其中,在上述包括多次的特征更新的情况下,这里的更新后的目标节点的节点特征可以是最终得到更新的目标节点(即最后的有向边终点,不再作为起点继续指向其他节点),或者,也可以是场景异构图中选择的部分节点,本实施例不限制。此外,获得场景信息的方式以及具体的场景信息,可以根据实际业务需求确定,例如,若实际业务目标是预测场景中的对象间的关系,那么可以通过多层感知机根据更新节点特征预测对象间的关系类别。
本实施例的场景信息检测方法,通过在更新节点特征时,在不同节点间传输通道级别的信息,使得可以在异质节点间传递信息,这样就能够融合多种类型的信息进行场景信息的检测,从而使得场景信息检测更加准确。
图3示例了另一种场景信息的检测方法,该方法在图1方法的基础上,示例了一种具体的通道信息的形式。如图3所示,该方法可以包括如下处理:
在步骤300中,根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到重加权向量和残差向量中的至少一种作为所述汇聚特征。
本步骤中,根据多个辅助节点的节点特征得到的汇聚特征,可以是重加权向量和残差向量中的至少一种。例如,可以只有一个重加权向量,也可以只有一个残差向量,或者计算重加权向量和残差向量两种向量。
通过wy表示重加权向量(channel-wise re-weighting vector),by表示残差向量(channel-wise residual vector)。这两个向量在计算时,可以先通过一个函数得到辅助节点的节点特征对目标节点的节点特征的影响参数,再将不同辅助节点的影响参数汇合起来,汇合的方式也可以有多种,例如,可以通过加权求和,或者也可以通过多层感知机。
如下示例两种重加权向量和残差向量的计算方式,但是可以理解的是,具体计算方式不限制于此:
一种计算方式为:
其中,Hw和Hb为两个线性变换矩阵,可以用于将辅助节点的维度C′*L′L′的节点特征变为通道维度是Cy的特征,fx表示辅助节点的节点特征。Wxy为注意力权重,可以通过如下方式计算:
如上,Wk和Wq为两个线性变换矩阵,可以用于将辅助节点的节点特征fx和目标节点的节点特征fy变成同样维度dk的特征。这里dk为一个超参数,可以根据情况做具体的设置。<.,.>为两个向量的内积的计算函数。
另一种计算方式为:
其中,Hx和Hy的作用类似于上一个计算方式中的Wk和Wq,可以用于将fx和fy变成同样维度dk。这里[;]表示拼接,即将两个向量直接拼接在一起。MLP为多层感知机,具体的参数设定可以比较灵活。
如上两种方式示例了重加权向量wy和残差向量by的计算获得,这两个向量的维度均为Cy*1。
在步骤302中,基于所述汇聚特征,更新所述目标节点的节点特征,包括如下至少一项:基于重加权向量对目标节点的节点特征的各通道进行相乘处理,或者,通过残差向量向目标节点的节点特征的各通道进行相加处理。
本步骤中,根据汇聚特征更新目标节点的节点特征时,也可以有多种方式。
示例如下的一种更新公式:
其中,目标节点是y,维度是Cy*Ly,Cy是通道维度,Ly是目标节点的每个通道的特征尺寸;该目标节点的更新前的特征是fy,更新后的新特征为fy’,并假设共有M条有向边指向该目标节点y,这M条有向边的起点即M个辅助节点,这些M个辅助节点组成的集合是N(y),且每个辅助节点的特征维度为C′*L′。通过上述公式由M个辅助节点的节点特征得到汇聚特征后传递至目标节点y,以得到更新后的新特征fy′。
首先,wy和by可以按照步骤300中示例的两种方式得到,并且这两个向量的维度为Cy*1。请继续参见上述公式,该公式代表的操作包括:
1)、通过Sigmoid激活函数,将wy映射至(0,1)区间;并且,通过激活函数Tanh、以及目标节点的更新前的节点特征fy的标准差σ(fy),将残差向量by的取值映射到预定的数值区间[-stand,+stand]。其中,σ(fy)的含义是求fy每个通道的标准差,是一个长度为Cy*1的向量,每一位表示fy在对应通道上的Ly这些位置数据的标准差。Conv是一个1维的卷积操作,卷积核大小为1,输入的通道数和输出的通道数均为Cy。
2)、对于残差向量,该残差向量被“广播”到fy的每个通道的所有特征位置上,即然后,fy的每个通道的数再乘以重加权向量,具体到公式中,可以是每个通道上的所有特征位置的数乘以通过sigmoid激活函数变换后的重加权向量。最后,通过卷积操作对各个通道的信息进行融合,得到更新后的特征。
上述公式是以同时计算了重加权向量和残差向量为例进行说明,实际实施中可以有多种变形形式。例如,不使用重加权向量wy,或者不使用残差向量by,或者不使用卷积操作Conv等等。又例如,还可以是改变卷积操作的卷积核大小,或者还可以是先对重加权向量wy和残差向量by做卷积再传播到fy的各个通道。再例如,在将汇聚特征融入目标节点的节点特征时,除了上述公式示例的乘和加的操作,还可以是其他形式,比如,除法,减法,或者多个嵌套(例如,先加后乘等)。
本实施例的场景信息检测方法,具有如下效果:
第一、通过在更新节点特征时在不同节点间传输通道级别的信息,使得可以在异质节点间传递信息,这样就能够融合多种类型的信息进行场景信息的检测,从而使得场景信息检测更加准确;并且,只传输通道级别的信息也使得信息传输量减小,能够快速的在异质节点间的信息传输;还能使得不用对不同异质节点的节点特征的信息进行预压缩,从而充分保留节点特征的原始内容,并由于不需要对原始特征做不可逆压缩,从而可以容易地应用于不同框架,具有广泛的适用性。
第二、通过获取通道级别的重加权向量和残差向量传播到目标节点,使得目标节点的优化效果更好,依据目标节点的最终场景信息检测更加准确。
第三、此外,本实施例中,还通过目标节点特征的标准差来约束残差向量的取值范围,使得更新后的新特征不会与更新前特征的特征分布发生较大的偏移,从而减轻异质节点的特征分布的差异对目标节点更新的影响。
如上几点,本实施例提供的这种异质节点间的信息传输机制,通过通道级别信息的传输实现了不同特征维度的异质节点间的信息传递,通过标准差限制残差向量的取值范围降低不同特征分布的异质节点对目标节点特征分布的影响,从而该机制实现了异质节点间的信息传递,使得能够通过多种更为丰富的节点特征对目标节点特征进行优化,进而使得基于优化后的目标节点特征进行场景信息检测时更为准确。
如下将以场景图像中的对象关系检测为例,来描述场景信息的检测方法,在下面的实施例中,检测的场景信息将是场景图像中的两个对象之间到的关系,并且,以这两个对象分别是人和物体为例,识别人和物体之间的关系(Human-object InteractionDetection,简称HOI检测),比如,人打球。
请参见图4的示例,该图4示例了HOI检测时根据场景图像构建的场景异构图。本实施例以场景异构图中包括三种节点为例:像素节点、物体节点和对象组节点;在其他的可选实施例中,该异构图中也可以包括其他类型的节点。如下示例一种上述三类型节点的节点特征的获得方式,但是实际实施中并不局限于此,也可以通过其他方式获得节点特征。
像素节点Vpix:其中一种具体的实现方式可以是利用FPN对场景图像进行特征提取,得到多个特征图,所述多个特征图分别具有不同尺寸;然后,将所述多个特征图缩放到同一尺寸后,通过一个卷积层进行融合,得到融合特征图;最后,根据所述融合特征图,得到多个所述像素节点的节点特征。比如,融合特征图的特征维度为256*7*7,其中256是通道维数,H和W分别表示特征图的高和宽。因此,场景异构图中可以包含H*W个用于表示像素的节点即像素节点,并且每个像素节点的维度为256。
上述方式中,通过将不同尺寸的特征图进行融合,可以使得融合特征图中既包含了很多低语义特征和局部特征(来自高分辨率图),也包含了很多高语义信息和全局特征(来自低分辨率图),使得像素节点中能够融合更加丰富的图像内容,有助于提高后续的场景信息的检测精度。
物体节点Vinst:例如,可以利用Faster R-CNN对场景图像进行处理,检测出场景图像中所有物体的类别和位置,并使用RoI Align算法来提取出每个物体的特征。假设检测算法检测出这个场景里有N个物体,那么场景异构图中将会有N个物体节点用于表示不同物体,并且每个物体节点的特征维度为256*7*7。该物体节点例如可以是人、球、马等。或者,在其他的例子中,还可以是对物体检测框中的内容通过一个深度卷积神经网络如ResNet50来提取特征。
对象组节点Vpair:假设场景图像中有N个物体,那可以组成N*(N-1)个对象组节点。其中,对于O1和O2两个物体节点,“O1-O2”是一个对象组节点,该对象组节点的主体是O1,客体是O2;而“O2-O1”是另一个对象组节点,该对象组节点的主体是O2,客体是O1。
每个对象组节点的特征由三个区域的特征来决定。具体地,设对象组节点包括的两个物体节点对应物体的位置分别为(ax1,ay1,ax2,ay2)和(bx1,by1,bx2,by2),其中ax1为第一个物体的检测框左上角的横坐标,ay1为第一个物体的检测框左上角的纵坐标,ax2为第一个物体的检测框右下角的横坐标,ay2为第一个物体的检测框右下角的纵坐标,bx1为第二个物体的检测框左上角的横坐标,by1为第二个物体的检测框左上角的纵坐标,bx2为第二个物体的检测框右下角的横坐标,by2为第二个物体的检测框右下角的纵坐标。之后将会对三个区域利用RoI Align算法提取特征:(ax1,ay2,ax2,ay2),(bx1,by1,bx2,by2),(min(ax1,bx1),min(ay1,by1),max(ax2,bx2),max(ay2,by2))。每个区域经过RoI Align算法之后得到的特征维度都为256*7*7,因此将会得到3个256*7*7的特征图。拼接后可以得到一个维度为768*7*7的特征图,这个将作为对象组节点的节点特征。因此场景异构图中将会包含这N*(N-1)个对象组节点,且每个对象组节点的特征维度是768*7*7。
在确定了图中的三种节点的节点特征后,还需要在各种节点之间建立连接的有向边。不同的异质节点之间建边的方式也可以有多种灵活的方式,如下示例两种方式:
【建边方式一】:
将所有像素节点向所有对象组节点连边,即会得到H*W*N*(N-1)条有向边。将所有物体节点之间两两连边,即会得到N*(N-1)条有向边。将所有物体节点和其对应的对象组节点(即这个对象组节点中的主体或者客体为该物体)连边,即会得到2*N*(N-1)条有向边。
【建边方式二】:
将所有像素节点向所有物体节点连边,即会得到H*W*N条有向边。将所有物体节点之间两两连边,即会得到N*(N-1)条有向边。将所有物体节点和其对应的对象组节点(即这个对象组节点中的主体或者客体为该物体)连边,即会得到2*N*(N-1)条有向边。
上述建图方式中,像素节点的节点特征并没有直接传输给对象组节点,而是先传输给物体节点,再由物体节点传输给对象组节点,这种方式将物体节点作为桥梁,由于物体节点的数量比较少,能够降低信息传输量,提高传输效率。
如上述两种方式中所述的,在节点之间连接的边是有向边,比如,将其中一个像素节点Vpix向一个物体节点Vinst连边,则该有向边是由像素节点Vpix指向物体节点Vinst,起点是像素节点Vpix,终点是物体节点Vinst。
像素节点、物体节点和对象组节点的数量都可以是多个,相应的,上述三种类型的有向边的数量也可以是多个。这三种有向边的集合可以表示如下:
此外,在建立有向边时,不局限于上述列举的两种方式,可以有所调整。例如,可以删去物体节点之间的连边,或者当有人体关键点的节点时,可以增加人体关键点的节点到物体节点(人体检测框)之间的连边。又例如,还可以将对象组节点再连接回物体节点,做多轮次的优化。比如,某个对象组节点Vpair的节点特征更新后,再作为起点继续更新连接的物体节点,然后该物体节点更新后又返回来再更新所述的对象组节点Vpair。
不论如何建立有向边,该场景异构图更新节点特征时,最终要获取的节点特征是对象组节点的特征,以根据该对象组节点的节点特征得到对象关系的预测结果。因此,场景异构图中存在以对象组节点为最终的终点的信息传输链。
如图4所示(图4仅是简单示意,实际实施中的节点数量会较多),以对象组节点41为例,所述的信息传输链上包括三个有向边组:
(第一有向边组):以物体节点42为目标节点,以像素节点43/44/45为各个辅助节点,根据各辅助节点的节点特征更新物体节点42的节点特征。更新方式可以按照前述的公式,比如,计算获得重加权向量和残差向量,这些向量的通道维度与物体节点42的通道维度相同,对物体节点42进行通道级更新。
(第二有向边组):以物体节点46为目标节点,以像素节点47/48为各个辅助节点,根据各辅助节点的节点特征更新物体节点46的节点特征。更新方式可以按照前述的公式,不再详述。
(第三有向边组):以对象组节点41为目标节点,以物体节点42/46为各个辅助节点,根据各辅助节点的节点特征更新对象组节点41的节点特征。
如上,在包括很多异质节点的场景异构图中,可以依序逐个更新各个有向边组中的终点的节点特征,每个有向边组都是由起点向终点汇聚,直至最终更新对象组节点的节点特征。
在得到对象组节点的节点特征后,可以根据该更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果,即HOI的关系预测。例如,可以根据如下公式获得初始分类置信度。
如上,MLP是多层感知机,sy是根据更新后的对象组节点的节点特征fy得到的初始分类置信度的向量,所述初始分类置信度中包括:所述对象组节点对应各个预定关系类别的置信度,该向量sy的维度是Cclass+1,其中的Cclass是预定关系类别的数量,1是“noaction”。比如,对象组节点对应的两个对象一个是人,一个是网球,这两个之间的关系是“打”,即人打网球,“打”(hit)就是一个预定关系类别,同理还可以有其他的关系,sy包括了各个关系的置信度。
接着,还可以基于所述初始分类置信度以及对象检测置信度,得到所述两个对象之间关系的预测结果。参见如下公式:
其中,c表示某一种预定的关系类别,y表示某个对象组节点,即该对象组节点在所述预定关系类别c上的置信度,相当于对象组节点中的两个对象之间的关系是所述预定关系类别c的概率。而可以是sy向量中对应c这种预定关系类别的置信度数值,sh和so分别是对象组节点中两个对象分别对应的对象检测置信度,比如,sh是人体框的检测置信度,so是物体框的检测置信度。在实际情况中,可以通过一个对象检测器(objectdetector)由场景图像中检测对象,例如检测人体或者物体,将会得到一个对应的人体框或物体框,同时该对象检测器也会输出一个检测分(detection scores),可以称为对象检测置信度。由于检测框不是完美的,也会有误检或者不准的情况,因此检测框也有一个置信度即上述的对象检测置信度。
实际实施中,可以设定一个对象关系的预测结果的阈值,对于某个对象组节点而言,若最终的预测结果达到这个阈值,才会确认该对象组节点的两个对象之间具有这种关系。
以一个场景图像为例,可以遍历该场景图像中所有的pair,比如将所有人和物体都进行配对生成对象组节点。并对每一个对象组节点,按照上述方式获得该对象组节点分别对应每一个预定关系类别的置信度,并将具有高于阈值的置信度的对象组节点确认为由场景图像中识别到的HOI关系。
上述各个实施例中的HOI关系的检测,可以具有多种应用:
例如,在智慧城市中进行异常行为检测,通过该方法可以更好地判断是否发生人与人之间的暴力事件,或者有人在打砸店铺的行为等。
又例如,在超市购物的场景中,通过该方法可以通过对超市采集图像的处理,自动分析每个人的购买内容,以及对什么物品比较关注。
图5提供了一示例性的场景信息的检测装置,如图5所示,该装置可以包括:特征处理模块51、特征更新模块52和信息确定模块53。
特征处理模块51,用于根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,所述汇聚特征的特征维度是Cy*1,其中,所述Cy是所述汇聚特征的通道维度,且所述Cy与目标节点的节点特征的通道维度相同;其中,所述场景异构图包括至少两种异质节点,所述至少两种异质节点包括:所述辅助节点以及基于所述场景图像得到的所述目标节点。
特征更新模块52,用于基于所述汇聚特征,更新所述目标节点的节点特征。
信息确定模块53,用于根据更新后的所述目标节点的节点特征,获得所述场景图像中的场景信息。
在一些实施例中,所述特征更新模块52,在用于基于所述汇聚特征更新所述目标节点的节点特征时,包括:根据所述汇聚特征的每个通道的通道特征,对所述目标节点的节点特征中对应每个通道的所有特征位置利用所述通道特征进行特征更新处理。
在一些实施例中,所述特征处理模块51,具体用于根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到重加权向量和残差向量中的至少一种作为所述汇聚特征。
所述特征更新模块52,具体用于基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理,和/或,通过所述残差向量对目标节点的节点特征的各通道进行相加处理。
在一些实施例中,所述特征处理模块51,在用于得到重加权向量和残差向量中的至少一种作为所述汇聚特征时,包括:通过激活函数、以及所述目标节点的节点特征的标准差,将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。
在一些实施例中,所述目标节点包括:对象组节点,所述对象组包括所述场景图像中的两个对象;所述信息确定模块53,具体用于根据更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果。
在一些实施例中,所述场景异构图中包括:以其中一个对象组节点作为终点的信息传输链,所述信息传输链包括至少两个有向边组,每个有向边组包括由多个起点指向同一终点的多个有向边;所述信息传输链中的各个起点和终点中包括至少两种所述异质节点。所述特征处理模块51,用于:对于所述至少两个有向边组中的第一有向边组,以所述第一有向边组指向的同一个第一终点作为所述目标节点,根据连接所述第一终点的各个起点的节点特征得到汇聚特征;所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点;对于所述第二有向边组,以所述第二有向边组指向的同一个第二终点作为所述目标节点,根据连接所述第二终点的各个起点的节点特征得到汇聚特征。所述特征更新模块52,用于:基于连接所述第一终点的各个起点的节点特征得到的汇聚特征更新所述第一终点的节点特征;以及基于连接所述第二终点的各个起点的节点特征得到的汇聚特征更新所述第二终点的节点特征。
在一些实施例中,信息确定模块53,在用于根据更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果时,包括:根据所述对象组节点的节点特征,得到预测的初始分类置信度,所述初始分类置信度中包括:所述对象组节点对应各个预定关系类别的初始分类置信度;根据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度,得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度;若所述置信度大于或等于预设的置信度阈值,则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。
图6提供了一示例性的另一种场景信息的检测装置,该装置应用于图像处理设备,如图6所示,所述装置包括:图像获取模块61和信息输出模块62。
图像获取模块61,用于获取图像采集设备采集到的场景图像;
信息输出模块62,用于根据本公开任一实施例的检测方法,对所述场景图像进行处理,输出所述场景图像中的场景信息。
本领域技术人员应明白,本公开一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开实施例还提供一种计算机可读存储介质,该存储介质上可以存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例描述的场景信息的检测方法。
本公开实施例还提供一种电子设备,该电子设备包括:存储器、处理器,所述存储器用于存储计算机可读指令,所述处理器用于调用所述计算机指令,实现本公开任一实施例所述的场景信息的检测方法。
其中,本公开实施例所述的“和/或”表示至少具有两者中的其中一个,例如,“多和/或B”包括三种方案:多、B、以及“多和B”。
本公开中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本公开中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPG多(现场可编程门阵列)或多SIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PD多)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本公开包含许多具体实施细节,但是这些不应被解释为限制任何公开的范围或所要求保护的范围,而是主要用于描述特定公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本公开一个或多个实施例的较佳实施例而已,并不用以限制本公开一个或多个实施例,凡在本公开一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开一个或多个实施例保护的范围之内。
Claims (14)
1.一种场景信息的检测方法,其特征在于,所述方法包括:
根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,所述汇聚特征的特征维度是Cy*1,其中,所述Cy是所述汇聚特征的通道维度,且所述Cy与目标节点的节点特征的通道维度相同;其中,所述场景异构图包括至少两种异质节点,所述至少两种异质节点包括:所述辅助节点以及基于所述场景图像得到的所述目标节点;
基于所述汇聚特征,更新所述目标节点的节点特征;
根据更新后的所述目标节点的节点特征,获得所述场景图像中的场景信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述汇聚特征,更新所述目标节点的节点特征,包括:
根据所述汇聚特征的每个通道的通道特征,对所述目标节点的节点特征中对应所述每个通道的所有特征位置利用所述通道特征进行特征更新处理。
3.根据权利要求1所述的方法,其特征在于,所述根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,包括:
根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到重加权向量和残差向量中的至少一种作为所述汇聚特征;
所述基于所述汇聚特征,更新所述目标节点的节点特征,包括:基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理,和/或,通过所述残差向量对目标节点的节点特征的各通道进行相加处理。
4.根据权利要求3所述的方法,其特征在于,所述得到重加权向量和残差向量中的至少一种作为所述汇聚特征,包括:
通过激活函数、以及所述目标节点的节点特征的标准差,将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。
5.根据权利要求1~4任一所述的方法,其特征在于,所述目标节点包括:对象组节点,所述对象组包括所述场景图像中的两个对象;
所述根据更新后的所述目标节点的节点特征,获得所述场景图像中的场景信息,包括:根据更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果。
6.根据权利要求5所述的方法,其特征在于,所述场景异构图中包括:以其中一个对象组节点作为终点的信息传输链,所述信息传输链包括至少两个有向边组,每个有向边组包括由多个起点指向同一终点的多个有向边;所述信息传输链中的各个起点和终点中包括至少两种所述异质节点;
所述根据与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,基于所述汇聚特征,更新所述目标节点的节点特征,包括:
对于所述至少两个有向边组中的第一有向边组,以所述第一有向边组指向的同一个第一终点作为所述目标节点,根据连接所述第一终点的各个起点的节点特征得到汇聚特征,基于所述汇聚特征更新所述第一终点的节点特征;所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点;
对于所述第二有向边组,以所述第二有向边组指向的同一个第二终点作为所述目标节点,根据连接所述第二终点的各个起点的节点特征得到汇聚特征,基于所述汇聚特征更新所述第二终点的节点特征。
7.根据权利要求6所述的方法,其特征在于,所述至少两个有向边组的一个所述有向边组的起点和终点,包括如下其中一项:
所述起点包括:由所述场景图像提取特征得到的各个像素节点,所述终点是由所述场景图像提取到的物体节点;
或者,所述起点和终点均包括:由所述场景图像提取到的物体节点;
或者,所述起点包括由所述场景图像提取到的物体节点,所述终点包括所述对象组节点;
或者,所述起点包括所述对象组节点,所述终点包括所述物体节点。
8.根据权利要求1所述的方法,其特征在于,所述各辅助节点包括:多个像素节点;所述方法还包括:
根据所述场景图像进行特征提取,得到多个特征图,所述多个特征图分别具有不同尺寸;
将所述多个特征图缩放到同一尺寸后进行融合,得到融合特征图;
根据所述融合特征图,得到多个所述像素节点的节点特征。
9.根据权利要求5所述的方法,其特征在于,所述根据更新后的对象组节点的节点特征,得到所述对象组节点中两个对象之间关系的预测结果,包括:
根据所述对象组节点的节点特征,得到预测的初始分类置信度,所述初始分类置信度中包括:所述对象组节点对应各个预定关系类别的初始分类置信度;
根据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度,得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度;
若所述置信度大于或等于预设的置信度阈值,则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。
10.一种场景信息的检测方法,其特征在于,所述方法由图像处理设备执行;所述方法包括:
获取图像采集设备采集到的场景图像;
根据权利要求1~9任一所述的检测方法,对所述场景图像进行处理,输出所述场景图像中的场景信息。
11.一种场景信息的检测装置,其特征在于,所述装置包括:
特征处理模块,用于根据场景异构图中与目标节点连接的各辅助节点的节点特征,得到待传播的汇聚特征,所述汇聚特征的特征维度是Cy*1,其中,所述Cy是所述汇聚特征的通道维度,且所述Cy与目标节点的节点特征的通道维度相同;其中,所述场景异构图包括至少两种异质节点,所述至少两种异质节点包括:所述辅助节点以及基于所述场景图像得到的所述目标节点;
特征更新模块,用于基于所述汇聚特征,更新所述目标节点的节点特征;
信息确定模块,用于根据更新后的所述目标节点的节点特征,获得所述场景图像中的场景信息。
12.一种场景信息的检测装置,其特征在于,所述装置应用于图像处理设备,所述装置包括:
图像获取模块,用于获取图像采集设备采集到的场景图像;
信息输出模块,用于根据权利要求1~9任一所述的检测方法,对所述场景图像进行处理,输出所述场景图像中的场景信息。
13.一种电子设备,其特征在于,包括:存储器、处理器,所述存储器用于存储计算机可读指令,所述处理器用于调用所述计算机指令,实现权利要求1至9任一所述的方法,或者实现权利要求10所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至9任一所述的方法,或者实现权利要求10所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010739363.2A CN111860403B (zh) | 2020-07-28 | 2020-07-28 | 场景信息的检测方法和装置、电子设备 |
JP2022529946A JP2023504387A (ja) | 2020-07-28 | 2020-10-13 | シーン情報の検出方法及びその装置、電子機器、媒体並びにプログラム |
KR1020227017414A KR20220075442A (ko) | 2020-07-28 | 2020-10-13 | 시나리오 정보의 검출 방법, 장치, 전자 기기, 매체 및 프로그램 |
PCT/IB2020/059587 WO2022023806A1 (zh) | 2020-07-28 | 2020-10-13 | 程序场景信息的检测方法、装置、电子设备、介质和程序 |
TW109137972A TWI748720B (zh) | 2020-07-28 | 2020-10-30 | 程式場景資訊的檢測方法、電子設備和儲存介質 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010739363.2A CN111860403B (zh) | 2020-07-28 | 2020-07-28 | 场景信息的检测方法和装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860403A true CN111860403A (zh) | 2020-10-30 |
CN111860403B CN111860403B (zh) | 2024-06-14 |
Family
ID=72948254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010739363.2A Active CN111860403B (zh) | 2020-07-28 | 2020-07-28 | 场景信息的检测方法和装置、电子设备 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP2023504387A (zh) |
KR (1) | KR20220075442A (zh) |
CN (1) | CN111860403B (zh) |
TW (1) | TWI748720B (zh) |
WO (1) | WO2022023806A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065587A (zh) * | 2021-03-23 | 2021-07-02 | 杭州电子科技大学 | 一种基于超关系学习网络的场景图生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103118439A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院上海微系统与信息技术研究所 | 基于传感网节点通用中间件的数据融合方法 |
CN109214346A (zh) * | 2018-09-18 | 2019-01-15 | 中山大学 | 基于层次信息传递的图片人体动作识别方法 |
US20190244358A1 (en) * | 2016-12-02 | 2019-08-08 | Beijing Sensetime Technology Development Co., Ltd. | Method and system for scene parsing and storage medium |
CN110569437A (zh) * | 2019-09-05 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 点击概率预测、页面内容推荐方法和装置 |
CN111144577A (zh) * | 2019-12-26 | 2020-05-12 | 北京百度网讯科技有限公司 | 异构图之中节点表示的生成方法、装置和电子设备 |
CN111325258A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 特征信息获取方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138963A (zh) * | 2015-07-31 | 2015-12-09 | 小米科技有限责任公司 | 图片场景判定方法、装置以及服务器 |
CN108733280A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的焦点跟随方法、装置、智能设备及存储介质 |
CN110991532B (zh) * | 2019-12-03 | 2022-03-04 | 西安电子科技大学 | 基于关系视觉注意机制的场景图产生方法 |
CN110689093B (zh) * | 2019-12-10 | 2020-04-21 | 北京同方软件有限公司 | 一种复杂场景下的图像目标精细分类方法 |
-
2020
- 2020-07-28 CN CN202010739363.2A patent/CN111860403B/zh active Active
- 2020-10-13 JP JP2022529946A patent/JP2023504387A/ja not_active Withdrawn
- 2020-10-13 KR KR1020227017414A patent/KR20220075442A/ko not_active Application Discontinuation
- 2020-10-13 WO PCT/IB2020/059587 patent/WO2022023806A1/zh active Application Filing
- 2020-10-30 TW TW109137972A patent/TWI748720B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103118439A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院上海微系统与信息技术研究所 | 基于传感网节点通用中间件的数据融合方法 |
US20190244358A1 (en) * | 2016-12-02 | 2019-08-08 | Beijing Sensetime Technology Development Co., Ltd. | Method and system for scene parsing and storage medium |
CN109214346A (zh) * | 2018-09-18 | 2019-01-15 | 中山大学 | 基于层次信息传递的图片人体动作识别方法 |
CN110569437A (zh) * | 2019-09-05 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 点击概率预测、页面内容推荐方法和装置 |
CN111144577A (zh) * | 2019-12-26 | 2020-05-12 | 北京百度网讯科技有限公司 | 异构图之中节点表示的生成方法、装置和电子设备 |
CN111325258A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 特征信息获取方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
WILLIAM L. HAMILTON ET AL.: "Inductive Representation Learning on Large Graphs", 《IN: NIPS》, pages 1 - 11 * |
赵维等: "基于物体间关系和场景信息的目标检测", 《东北师大学报(自然科学版)》, vol. 52, no. 2, pages 80 - 85 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065587A (zh) * | 2021-03-23 | 2021-07-02 | 杭州电子科技大学 | 一种基于超关系学习网络的场景图生成方法 |
CN113065587B (zh) * | 2021-03-23 | 2022-04-08 | 杭州电子科技大学 | 一种基于超关系学习网络的场景图生成方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202205144A (zh) | 2022-02-01 |
WO2022023806A1 (zh) | 2022-02-03 |
TWI748720B (zh) | 2021-12-01 |
JP2023504387A (ja) | 2023-02-03 |
CN111860403B (zh) | 2024-06-14 |
KR20220075442A (ko) | 2022-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222239B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
CN108960211B (zh) | 一种多目标人体姿态检测方法以及系统 | |
JP7248807B2 (ja) | 敵対的攻撃の自動認識及び分類 | |
CN109313805A (zh) | 图像处理装置、图像处理系统、图像处理方法和程序 | |
CN112200041B (zh) | 视频动作识别方法、装置、存储介质与电子设备 | |
CN111666922A (zh) | 视频匹配方法、装置、计算机设备和存储介质 | |
KR102297217B1 (ko) | 영상들 간에 객체와 객체 위치의 동일성을 식별하기 위한 방법 및 장치 | |
CN109063776B (zh) | 图像再识别网络训练方法、装置和图像再识别方法及装置 | |
CN111325141A (zh) | 交互关系识别方法、装置、设备及存储介质 | |
CN109313806A (zh) | 图像处理装置、图像处理系统、图像处理方法和程序 | |
CN106372603A (zh) | 遮挡人脸识别方法及装置 | |
CN112016475A (zh) | 一种人体检测识别方法和装置 | |
CN110610123A (zh) | 一种多目标车辆检测方法、装置、电子设备及存储介质 | |
CN113642639B (zh) | 活体检测方法、装置、设备和存储介质 | |
CN110866428B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN111860403A (zh) | 场景信息的检测方法和装置、电子设备 | |
US11423647B2 (en) | Identification system, model re-learning method and program | |
CN114220087A (zh) | 一种车牌检测方法、车牌检测器及相关设备 | |
CN112966762A (zh) | 一种野生动物检测方法、装置、存储介质及电子设备 | |
CN113557546A (zh) | 图像中关联对象的检测方法、装置、设备和存储介质 | |
CN111611836A (zh) | 基于背景消除法的船只检测模型训练及船只跟踪方法 | |
JP5983033B2 (ja) | 位置関係判定プログラム、位置関係判定方法および位置関係判定装置 | |
CN116310361A (zh) | 一种基于改进YOLOv4-tiny的多尺度目标检测方法 | |
CN113673449A (zh) | 一种数据存储方法、装置、设备和存储介质 | |
CN114140744A (zh) | 基于对象的数量检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030831 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |