CN112001385B - 一种目标跨域检测与理解方法、系统、设备及存储介质 - Google Patents
一种目标跨域检测与理解方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN112001385B CN112001385B CN202010845641.2A CN202010845641A CN112001385B CN 112001385 B CN112001385 B CN 112001385B CN 202010845641 A CN202010845641 A CN 202010845641A CN 112001385 B CN112001385 B CN 112001385B
- Authority
- CN
- China
- Prior art keywords
- target
- semantic
- cross
- guide
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 30
- 238000011176 pooling Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000000007 visual effect Effects 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 11
- 230000008447 perception Effects 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 63
- 238000004590 computer program Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000007794 visualization technique Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000004438 eyesight Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000008878 coupling Effects 0.000 abstract description 2
- 238000010168 coupling process Methods 0.000 abstract description 2
- 238000005859 coupling reaction Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000004927 fusion Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/582—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Neurology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标跨域检测与理解方法、系统、设备及存储介质,属于目标检测与识别领域。通过空间概率控制与显著点池化,联合编码位置概率与图像特征的耦合关系,高效定位目标候选框对角线顶点,简化网络复杂度,以满足面向实际检测的应用需求;通过跨域引导语义提取与知识迁移,探究面向不同域的目标深度视觉特征与引导语义包含关系,指导网络训练,提取跨域不变特征以增强模型的跨域感知;通过对目标值得注意度解析,探究语义层次跨域感知映射作用与反传机理,解决具体意图下值得注意的目标预测与引导语义理解的准确性问题。本发明能够精确模拟视觉系统对目标的重要性扫描与语义判断的过程,从而提高环境视觉感知能力及主动安全性。
Description
技术领域
本发明属于目标检测与识别领域,涉及一种目标跨域检测与理解方法、系统、设备及存储介质。
背景技术
随着计算机技术的发展以及计算机视觉原理的广泛普及,目标检测与识别应用于很多方面:智能监控系统、军工目标检测、医学手术跟踪以及交通标志校测等。对于同一方面内容,各个国家所设计的实体分别由不同的颜色与图形表示,但大部分的指示引导语义是相同的;每个国家的不同地方也会在设计基础上略有变化,即在同一域内的形状、大小、几何变化等方面有差异,但其指示引导作用同样不变。
在同一场景下,目标对于参与者的引导指示作用重要程度不同。在复杂场景中,需要对多个目标进行实时处理时,目标选择性检测和识别尤为重要。以目标检测在交通标志方面应用为例,随着城市建设规模与基础设施功能的扩展,在道路两侧或50-100米视场以内,往往会同时有多个交通标志杆,每个交通标志杆上有多个交通标志。通常情况下,根据自身行进意图,每个道路使用者对交通标志的引导需求及注意度不尽相同。道路使用者通过人眼视觉系统快速扫描从各种交通标志中找到与其行进意图相关性强的交通标志,即值得注意的交通标志;且能够快速提取其对应的引导语义,来指导当前的交通行为或作为下一时刻交通行为的决策依据。
现有基于深度学习的目标检测与识别算法,面向不同数据集并不具备理想的泛化能力,且都是被动检测出图像中的所有目标,并没有考虑目标对不同意图的使用者的有效性与值得注意度影响的问题。对于目标检测与识别在自动驾驶的具体应用而言,通过现有的交通标志检测与识别方法得到的交通标志,作为自动驾驶决策系统的输入会增加融合的难度和冗余度,以及带来大量多余的系统计算开支。
因此,面向不同目标域,高效地感知当前意图相关的值得注意的目标,及理解其对应的引导语义,是基于卷积神经网络的目标检测与理解研究的攻关难点。
发明内容
本发明的目的在于克服上述现有技术中,目标跨域检测与理解方法应用于实际系统计算难度较大和费用较高的技术问题,提供一种目标跨域检测与理解方法、系统、设备及存储介质。
为了达到上述目的,本发明采用以下技术方案予以实现:
一种基于注意估计的目标跨域检测与理解方法,包括如下步骤:
步骤1:以空间概率控制层作为输入图像通道,结合边缘显著交叉点池化层,构建一种轻量化卷积神经网络;
步骤2:利用引导语义层次包含关系进行跨域建模,利用目标跨域训练样本引导语义的提取与表示;基于引导语义之间的深层包含关系,构建具有引导语义层次包含关系的树形结构,用于对具体意图下的NEGSS-NET跨域增强感知;
步骤3:基于步骤2的树形结构,在复杂场景视觉特征与引导语义之间建立映射预测网络,获得特征映射具体过程及定义、映射网络具体结构及定义,实现图像视觉特征空间到语义空间的映射;
步骤4:定义联合引导语义损失和基于意图的目标值得注意度估计,获得基于意图的值得注意度。
优选地,所述步骤1具体包括:
步骤11,利用多尺度空间概率划分方法建立位置概率控制通道;
步骤12,通过Mobilenet v3输出的特征图进行卷积得到F={fl,fr,ft,fb},然后进行显著点池化,获得对角线顶点预测热图、偏置以及嵌入值,得到轻量化卷积神经网络。
进一步优选地,所述步骤11所述的构建位置概率控制通道具体包括:
步骤111,分析目标的先验位置统计特征,将数据集内样本图像分辨率预处理为W*H;然后,通过统计像素点m内出现目标位置的次数k,其中目标个数为i={1,2,..n},/>表示目标i在像素点m处的计数器,
最后,利用pm=k/n计算得出像素点m处出现目标的概率;
步骤112,利用不同大小的刻度,分别将输入样本图像划分为多个相同的区域;
步骤113,计算出步骤112中同一区域内所有像素点出现的目标概率值之和,作为该区域内每个像素点的概率值;然后,将不同区域下每个像素点的概率值相加并进行归一化,之后建立基于目标中心点概率统计的空间概率控制模版。
进一步优选地,所述步骤12所述的显著点池化过程的具体操作如下:
首先,假设特征图fl和f大小为W*H,像素位置(i,j)处的特征值分别为fl(i,j)和ft(i,j);然后,按照式(2)计算fl(i,j)与fl(i,j+Step)之间的最大值dij,按照式(3)计算ft(i,j)与ft(i,j+Step)之间的最大值gij,
最后,按照式(4)将像素位置(i,j)处的两个最大值相加得到的特征值h(i,j),作为像素位置(i,j)处的最终特征值。
优选地,所述步骤2的具体操作如下:
步骤21,获得目标类别标注;
步骤22,将多个域涉及到的目标样本及类别文本标签进行语义空间映射,得到对应的语义类别向量;
步骤23,在目标引导语义向量空间中形成超类向量,以超类向量作为引导语义层次树节点,构建引导语义层次树;
步骤24,基于引导语义层次树的网络训练,使目标底层视觉特征空间与引导语义空间形成映射。
优选地,所述步骤23的具体操作如下:
通过L1距离或余弦相似度表示目标引导语义向量空间中各向量之间的相关性,利用聚类算法,根据相似性在目标引导语义向量空间中形成超类向量,作为引导语义层次树节点,采用t-SNE降维可视化的方法,对聚类后的类别标签词向量初步进行可视化处理。
优选地,所述步骤24中,在超类向量上迭代聚类,形成更高层次超类向量,由此构成引导语义层次树。
一种基于注意估计的目标跨域检测与理解系统,包括:
卷积神经网络模块,用于以空间概率控制层作为输入图像通道,结合边缘显著交叉点池化层,构建一种轻量化卷积神经网络;
语义树模块,用于对引导语义层次包含关系进行跨域建模,构建具有引导语义层次包含关系的树形结构;
值得注意度估计模块,用于定义联合引导语义损失和基于意图的目标值得注意度估计。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于注意估计的目标跨域检测与理解方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于注意估计的目标跨域检测与理解方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明公开了一种目标跨域检测与理解方法,通过空间概率控制与显著点池化,以空间概率控制层作为输入图像通道能够减小部分区域权重,边缘显著交叉点池化层可以帮助网络更好地定位目标点;通过跨域引导语义提取与知识迁移,探究面向不同域的目标深度视觉特征与引导语义包含关系,指导网络训练,提取跨域不变特征以增强模型的跨域感知;通过对目标值得注意度解析,探究语义层次跨域感知映射作用与反传机理,解决具体意图下值得注意的目标预测与引导语义理解的准确性问题。本发明方法能够精确模拟视觉系统对目标的重要性扫描与语义判断的过程,其成果将指导当前行为或作为下一时刻行为的决策依据,提高环境视觉感知能力及主动安全性。依据具体意图,对值得注意的目标进行检测与理解,方法高效,客观全面,能够有效提高环境视觉感知能力及主动安全性。同时,因为通过联合编码位置概率与图像特征的耦合关系,高效定位目标候选框对角线的顶点,简化网络复杂度,避免了融合的难度和冗余度,节省了系统计算开支,能够满足面向实际检测的应用需求。
进一步地,利用偏置修正由对角线顶点预测热图预测的位置,根据已定义的嵌入阈值判断左上顶点和右下顶点是否来自同一个目标候选框,如果超出阈值,表示来自同一个目标候选框,通过soft-NMS去除冗余框。将显著点池化模块设置在Mobilenet v3最后一层的bottleneck之后,能够提高计算效率。
进一步地,利用多尺度空间概率划分方法建立位置概率控制通道,因为目标出现在场景图中的位置是有规律可循的,涉及该通道的目的在于对图像不同区域出现目标的概率进行统计,将其作为图像的第四个输入层输入网络。以减少目标出现概率小的区域的权重,减少网络复杂度。通过显著点池化模块输出对角线顶点预测热图、偏置以及嵌入值,避免了使用锚带来的网络冗余。
进一步地,位置概率控制通道将输入图像统一为H*W,以方便网络后期处理。将图像划分为不同区域进行统计,是为了取概率均值以提升统计结果的准确度。
进一步地,设置显著点池化模块,是因为指定行业需要检测的目标大小是有规律可循的。以交通标志检测为例,其在图像中出现的像素是在128px*128px以内,所以在池化过程中只要选取部分像素即可,不需要处理整个图像,这样会大大减少本发明系统的运营成本。
进一步地,构建引导语义层次树,即不同域的目标在语义表达上是接近一致的。通过形成引导语义层次树可以对跨域检测提供帮助,并且帮助使用者对当前情境进行理解。
进一步地,构建超类向量,即将基类提取为更高级别的类,在检测器没有检测到基类目标的情况下,超类向量会对检测结果提供帮助。构建超类向量能够提高跨域检测的查全率。
本发明还公开了一种基于注意估计的目标跨域检测与理解系统,包括三个模块,分别为卷积神经网络模块,用于以空间概率控制层作为输入图像通道,结合边缘显著交叉点池化层,构建一种轻量化卷积神经网络;语义树模块,用于对引导语义层次包含关系进行跨域建模,构建具有引导语义层次包含关系的树形结构;值得注意度估计模块,用于定义联合引导语义损失和基于意图的目标值得注意度估计。将本发明系统用于自动驾驶方面,能够解决现有的目标跨域检测与理解方法应用于实际系统计算难度较大和费用较高的技术问题,能够在确保正确识别道路交通标志的前提下,大大节约成本。
附图说明
图1是本发明的总体框架图;
图2是空间概率控制示意图,其中图2-1为数据集中目标出现位置概率统计,图2-2为位置概率通道形成过程;
图3是显著点池化模块示意图;
图4是边缘显著交叉点池化(注:其中W=H=8,Step=3)示意图;
图5是类别标签词向量聚类结果示意图;
图6-1和6-2是引导语义层次树;
图7是NEGSS-NET引导语义映射方法示意图;
图8是引导语义映射网络示意图;
图9是添加语义树过程示意图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
实施例1
如图1所示,本发明的基于注意估计的目标跨域检测与理解方法,具体包括如下步骤:
步骤1:采用轻量化网络mobilenet v3作为骨干网络,并且引入空间概率控制层与边缘显著交叉点池化层,构建一种面向目标实际检测应用的高效轻量化卷积神经网络,如图1所示;
步骤1包括步骤11和步骤12:
步骤11,提出一种多尺度空间概率划分方法,构建位置概率控制通道,如图2所示;具体包括:
步骤111,分析目标的先验位置统计特征,如图2-1所示,计算得出像素点m处出现目标的概率,具体如下:
首先,分析目标的先验位置统计特征,将数据集内样本图像分辨率预处理为W*H;然后,通过统计像素点m内出现目标位置的次数k,其中目标个数为i={1,2,..n},表示目标i在像素点m处的计数器,如式(1),
最后,利用pm=k/n计算得出像素点m处出现目标的概率。
步骤112,利用不同大小的刻度,分别将图像划分为16、64和256个正方形区域,每个正方形区域所包含的像素点为l1=W*H/16、l2=W*H/64和l3=W*H/64个,如图2-2所示。
对其进行示例,如表1所示,将图像分为16个大小相同的区域,统计出每个区域出现目标的概率(注:表1和表2中的数据仅用于演示举例,非源于实际)
表1.16个大小相同区域的目标出现概率
0.02 | 0.03 | 0.05 | 0.2 |
0.05 | 0.05 | 0.2 | 0.25 |
0.01 | 0.02 | 0.08 | 0.02 |
0.005 | 0.002 | 0.006 | 0.007 |
将上面16个区域中的四个小区域合并为一个大区域,进一步计算得到表2:
表2.合并区域后的目标出现概率
0.15 | 0.7 |
0.37 | 0.113 |
步骤113,建立基于目标中心点概率统计的空间概率控制模版;具体如下:
首先,计算出同一正方形区域内所有像素点出现目标概率值之和,作为该正方形区域内每个像素点的概率值;然后,将三种分区情况下每个像素点的概率值相加并进行归一化;最后,建立基于目标中心点概率统计的空间概率控制模版。
步骤12,引入显著点池化模块,获得候选框对角线两个顶点的预测热图、偏置以及嵌入向量,如图3所示,具体包括:
步骤121,对Mobilenet v3输出的特征图进行卷积得到F={fl,fr,ft,fb},进行显著点池化,具体如下:
首先,假设特征图fl和f大小为W*H,像素位置(i,j)处的特征值分别为是fl(i,j)和ft(i,j);然后,分别计算fl(i,j)与fl(i,j+Step)之间的最大值dij,如式(2),以及ft(i,j)与之间的最大值gij,如式(3);最后,将像素位置(i,j)处的两个最大值相加得到的特征值h(i,j)作为像素位置(i,j)处的最终特征值,如图4所示。
步骤122,显著点池化模块输出对角线顶点热图、偏置以及嵌入值,利用偏置修正由热图预测的位置,根据已定义的嵌入阈值判断左上顶点和右下顶点是否来自同一个目标候选框,如果超出阈值表示来自同一个目标候选框,通过soft-NMS去除冗余框。显著点池化模块设置在Mobilenet3最后一层的bottleneck之后。
步骤2:对引导语义层次包含关系进行跨域建模,同时在复杂场景视觉特征与引导语义之间建立映射预测网络;
步骤2包括步骤21和步骤22,
步骤21,生成跨域训练数据标签词汇的向量化表示,实现目标跨域训练样本引导语义的提取与表示,具体包括如下步骤:
步骤211,获得更细粒度的目标类别标注,具体如下:
以交通标志数据集为例,研究现有交通标志数据集,去掉类别数较少的数据集,对现有包含50类左右的交通标志数据集((Belgium,62类),LISA(USA,47类),GTSDB(Germany,43类),TT-100k(China,45类),CCTSDB(China,48类))类别进行整理与扩充,细化类别标注并设定相应的类别文本标签,以获得更细粒度的交通标志类别标注。
步骤212,将多个域涉及到的目标样本类别文本标签进行语义空间映射,得到对应的语义类别向量。具体如下:
利用自然语言处理通过维基百科、推特以及谷歌新闻等媒体收集的大型语料库,通过Word2Vec、Glove等模型,将多个域涉及到的目标样本类别文本标签y进行语义空间S的映射(S由大型语料库获取的词向量构成),得到对应的语义类别向量值得注意地是,由于目标类别文本标签同时包含单词和词组,采用SIF[A simple but tough-to-beat baseline for sentence embeddings,2016]的方法解决词组向量的表示问题,对词组中的所有单词向量进行加权平均操作,最终获得相应的词组向量表示,作为语义类别向量。
步骤22,挖掘引导语义之间深层包含关系,构建具有引导语义层次包含关系的树形结构,实现对具体行进意图下的NEGSS-NET跨域增强感知。所述步骤22具体包括如下步骤:
步骤221,在目标引导语义向量空间中形成超类向量,使超类向量作为引导语义层次树节点,具体如下:
通过L1距离或余弦相似度表示目标引导语义向量空间中各向量之间的相关性,利用聚类算法,根据相似性在目标引导语义向量空间中形成超类向量,作为引导语义层次树节点,已采用t-SNE降维可视化的方法,对聚类后的类别标签词向量初步进行了可视化处理,如图5所示。
步骤222,构建引导语义层次树,具体如下:
在超类向量上迭代聚类,形成更高层次超类向量,由此构成引导语义层次树。以交通标志为例,最高层次共包含三个顶层节点,分别定义为警告标志、禁令标志、指示标志,最终构建引导语义层次树,如图6所示。
步骤223,基于引导语义层次树的网络训练,将域不变视觉特征空间映射问题转化为目标底层视觉特征空间与引导语义空间的映射问题。
步骤3:获得基于意图的目标值得注意度估计。所述步骤3具体包括如下步骤:
步骤31,构建引导语义映射网络。由多个全连接层级联构建映射网络,实现图像视觉特征空间到语义空间的映射,如图7所示,
特征映射具体过程及定义,具体如下:
首先,基于训练数据集Dtrain训练softmax分类器ptest,通过softmax得到的最高置信度的类别标签,如式(4):
其中ptest(y|x)表示输入图像x属于某个类别标签y的概率;接着,引导语义映射网络会输出其中置信度最高的若干个类别标签,令表示分类器ptest依据输入图像x给出的m个最高置信度类别标签;最后,基于分类器ptest预测的M个置信度最大的分类标签,将每个分类标签的置信度数值作为其权重,通过将M个置信度最大的分类标签对应的语义向量进行加权平均,NEGSS-Net将输入图像x的视觉特征映射为对应的语义向量g(x),如式(5)。
其中是标准化因子,M表示一次最多考虑语义向量的数目,/>表示NEGSS-Net针对图像x预测的置信度最高的m个类别标签对应的语义向量。
映射网络具体结构及定义,具体如下:
通过步骤311部分的映射方法,引导语义映射网络通过两个步骤预测目标超类标签。第一步分别预测在不同的类、超类层上的类别标签,如图8左侧虚线框,第二步是将语义层次结构编码到超类标签预测过程中,即对第一步中当前层以及最底层的类或低层超类预测结果进行组合,如图8右侧虚线框,其中“FC”表示全连接层。
在第一步中,首先使用三个带有softmax层的非共享全连接层,给定一个目标样本,每个全连接层都会给出其在对应层的类或超类概率分布。第二步,使用两个非共享全连接层分别在其对应超类层预测类别标签。为了将层次结构融入到连续的全连接层中,将第一步中当前层与低层的输出向量对应叠加,作为相应层第二步全连接网络的输入。对于最低的超类层(l2层)而言,将第一步中最低两层的输出进行组合作为其输入,如式(6),
其中pl1表示第一步中类别层的预测结果,pl2表示第一步中最低超类层的预测结果。是通道拼接操作符。/>表示第二步中l2层全连接网络的前向传播步骤,/>表示对应语义层次树第二层可能超类标签的最终预测概率分布。由此,可以基于第一步中lj(j≤i)层的结果,如式(7),推断li=(i=2,...,n+1)层对应的超类标签,如式(8),通过使用a部分映射方法(式(7)),在每个第二步内全连接层计算的softmax结果中,选取M个置信度最高的超类标签,将每个超类标签对应的预测概率作为权重,对M个超类标签对应的语义向量进行加权平均,其结果即为图像视觉特征通过映射得到的超类语义向量,通过在语义空间实施最近邻算法,获得最终的预测超类标签。非共享权值的级联全连接层作为以mobilenetv3为骨干网络后的扩展,级联构成了NEGSS-Net。基于此,定义层次预测网络的损失函数如式(9)所示:
其中f(·)表示NEGSS-NET骨干网络图像特征提取前向传播步骤,和/>分别表示全连接网络在li层第一步与第二步操作的前向传播步骤,/>是交叉熵损失函数,/>是对语义树最底层类标签分类预测的交叉熵损失函数,/>是对所有超类标签进行分类预测的交叉熵损失函数,λi表示损失权重。
步骤32,定义基于意图的目标值得注意度估计,包括如下步骤:
步骤321,估计基于意图的值得注意度,具体如下:
以交通标志为例,首先,用一个5D向量来描述行进意图,称其为意图特征fint=[lc,lt,s,rt,rc],其中lc,lt,s,rt,rc分别表示左转、向左换道、直行、向右换道以及右转五种行进意图;接着,对意图特征与目标视觉特征进行特征融合:其中f(x)表示目标经过NEGSS-Net骨干网络提取的视觉特征,/>表示按通道拼接操作符,ffusion表示融合后的特征;最后,将ffusion输入引导语义映射网络,NEGSS-Net对基于意图的交通标志值得注意度权重以及目标类别标签做出预测,基于意图的交通标志值得注意度损失函数定义为式(10):
其中,z表示目标交通标志在特定行进意图下的真实值得注意度,表示NEGSS-Net基于生成的融合特征ffusion预测的当前交通标志值得注意度。
步骤322,定义联合引导语义损失,具体如下:
首先,NEGSS-Net对重要度低的语义信息进行剔除,并将余下的重要目标语义向量进行拼接,形成联合引导语义建议语义向量vpredict,如式(11):
其中,K表示一副图片中目标总数,sk表示每个单独目标对应的语义向量,表示按通道连接符,ak是依据预测的目标值得注意度设定的二进制掩码,用来过滤当前意图下值得注意度低的交通标志的引导语义,对于当前意图下值得注意的目标,ak=1,否则ak=0,能够实现对当前意图下所有重要目标语义向量拼接。令
vlabel为真实联合引导语义建议对应的语义向量,基于此,定义联合引导语义损失为关于vpredict与vlabel的合页损失,如式(12):
其中,vlabel是一个行向量,表示真实联合引导语义建议对应的语义向量,vpredict是一个行向量,表示模型预测的联合引导语义建议对应的语义向量,vj所有错误引导语义建议对应的语义向量,margin是一个常数等于0.1。在获取联合引导语义建议特征向量后,将其映射为对应的文本信息,最终,NEGSS-Net给出基于当前意图下所有值得注意目标的联合语义引导建议。
综上论述,具体意图下NEGSS-Net的损失函数定义为三部分,如式(13):
其中,为引导语义映射网络损失,/>为值得注意度损失,为联合引导语义损失。
为了验证本发明方法的有效性,在TT100K交通标志数据集上进行了训练和测试,其中TT100K数据集part1包含6105张训练图片、3071张测试图片和7641张其他图片,这些图片涵盖了不同的天气和照度变化。在训练集上进行测试,并应用测试集给予验证。
A、参数设置
使用keras+tensorflow来实现模型方法,使用coco dataset的mobilenet网络参数来预训练模型,实验环境在intel Xeon CPU E5-2603和TITAN X Pascal GPU下进行。对于训练的参数设置,选用adam优化器对模型进行优化,训练参数为:输入图像大小608X608,批量大小8,基本学习率为0.0001,采用keras的ReduceLROnPlateau方法来调节学习率,其中factor=0.1,patience=3。采用EarlyStopping方法辅助训练。
在本发明中,使用kmeans算法在数据集上聚类为网络设置初始框,共设置9种预设框,长宽大小分别为[16,18],[21,23],[26,28],[30,35],[38,40],[46,50],[59,64],[79,85],[117,125],网络预测出的所有框通过NMS算法优选之后进行输出。
B、添加位置通道
网络首先采用mobilenet v3加FPN的思想,在极大的减少了网络参数量的前提下保证了小物体的检测精度,使得网络的参数量从yolo3的240M减少到了27M,轻量的网络更适合在移动设备端搭载,使得网络对自动驾驶等对硬件设备有限制的场景下应用。同时网络引入位置通道,在网络深度较浅时充分融合区部区域特征,实验发现可以在现有网络的基础上对精确度进行提高,如表3所示。
表3基于TT100K数据集的网络性能对比表
Method | Dataset | Accuracy | FPS | Parameter |
YOLO3 | TT100K | 0.75 | 8 | 240M |
Mobilenet3+FPN | TT100K | 0.72 | 12 | 27.1M |
Mobilenet3+FPN+PSE | TT100K | 0.74 | 11 | 27.2M |
注:PSE为位置通道。
C、添加语义树
创新性的将语义树应用在了网络中,使得网络对没有训练过的类别预测出超类或是对训练时不平衡的基类类别做出补充式预测。在本实施例中,语义树一共有三个层次,其中底层类就是TT100K中的基类,包含各种路标一共221类,中层类代表TT100K中的基类进行融合得到的中层超类,一共设置了27个类别,顶层代表高度融合的顶层超类,一共有3个类别。具体的,首先通过网络预测出基类,然后将基类的预测结果与深层网络分支的输出进行融合来预测中层超类,紧接着将中层超类的结果与更深层的网络输出进行融合来预测顶层超类,如图9所示。
D、结果
Mobilenet v3具有网络参数量少的优点,FPN具有速度快速度快、需要内存少的优点,满足交通标志检测中对于实时性的要求。在本实施例中将Mobilenet v3与FPN结合,并加入位置控制层与语义树,提出了NEGSS-Net。基于TT100K交通标志数据集,对NEGSS-Net的准确度进行了实验验证。此外,基于未经训练的德国FullIJCNN2013数据集,对NEGSS-Net的域适应性进行了实验验证,验证结果表明,NEGSS-Net中的顶层超类可有效弥补基类预测不准确的情况,从而提高准确性;该网络可以预测德国FullIJCNN2013数据集中的交通标志,证明了其能够实现跨域检测。
本发明基于深度神经网络的信道估计方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
在示例性实施例中,还提供计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于深度神经网络的信道估计方法的步骤。处理器可能是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现方框图中的每一方框、以及与其它方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个方框图一个方框或多个方框中指定的功能。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (6)
1.一种基于注意估计的目标跨域检测与理解方法,其特征在于,包括如下步骤:
步骤1:以空间概率控制层作为输入图像通道,结合边缘显著交叉点池化层,构建一种轻量化卷积神经网络;
步骤2:利用引导语义层次包含关系进行跨域建模,利用目标跨域训练样本引导语义的提取与表示;基于引导语义之间的深层包含关系,构建具有引导语义层次包含关系的树形结构,用于对具体意图下的NEGSS-NET跨域增强感知;
步骤3:基于步骤2的树形结构,在复杂场景视觉特征与引导语义之间建立映射预测网络,获得特征映射具体过程及定义、映射网络具体结构及定义,实现图像视觉特征空间到语义空间的映射;
步骤4:定义联合引导语义损失和基于意图的目标值得注意度估计,获得基于意图的值得注意度;
所述步骤1具体包括:
步骤11,利用多尺度空间概率划分方法建立位置概率控制通道;
步骤12,通过Mobilenet v3输出的特征图进行卷积得到F={fl,fr,ft,fb},然后进行显著点池化,获得对角线顶点预测热图、偏置以及嵌入值,得到轻量化卷积神经网络;
所述步骤11所述的构建位置概率控制通道具体包括:
步骤111,分析目标的先验位置统计特征,将数据集内样本图像分辨率预处理为W*H;然后,通过统计像素点m内出现目标位置的次数k,其中目标个数为i={1,2,..n},表示目标i在像素点m处的计数器,
最后,利用pm=k/n计算得出像素点m处出现目标的概率;
步骤112,利用不同大小的刻度,分别将输入样本图像划分为多个相同的区域;
步骤113,计算出步骤112中同一区域内所有像素点出现的目标概率值之和,作为该区域内每个像素点的概率值;然后,将不同区域下每个像素点的概率值相加并进行归一化,之后建立基于目标中心点概率统计的空间概率控制模版;
所述步骤12所述的显著点池化过程的具体操作如下:
首先,假设特征图fl和f大小为W*H,像素位置(i,j)处的特征值分别为fl(i,j)和ft(i,j);然后,按照式(2)计算fl(i,j)与fl(i,j+Step)之间的最大值dij,按照式(3)计算ft(i,j)与ft(i,j+Step)之间的最大值gij,
最后,按照式(4)将像素位置(i,j)处的两个最大值相加得到的特征值h(i,j),作为像素位置(i,j)处的最终特征值;
所述步骤2的具体操作如下:
步骤21,获得目标类别标注;
步骤22,将多个域涉及到的目标样本及类别文本标签进行语义空间映射,得到对应的语义类别向量;
步骤23,在目标引导语义向量空间中形成超类向量,以超类向量作为引导语义层次树节点,构建引导语义层次树;
步骤24,基于引导语义层次树的网络训练,使目标底层视觉特征空间与引导语义空间形成映射。
2.如权利要求1所述的一种基于注意估计的目标跨域检测与理解方法,其特征在于,所述步骤23的具体操作如下:
通过L1距离或余弦相似度表示目标引导语义向量空间中各向量之间的相关性,利用聚类算法,根据相似性在目标引导语义向量空间中形成超类向量,作为引导语义层次树节点,采用t-SNE降维可视化的方法,对聚类后的类别标签词向量初步进行可视化处理。
3.如权利要求1所述的一种基于注意估计的目标跨域检测与理解方法,其特征在于,所述步骤24中,在超类向量上迭代聚类,形成更高层次超类向量,由此构成引导语义层次树。
4.根据权利要求1所述方法的一种基于注意估计的目标跨域检测与理解系统,其特征在于,包括:
卷积神经网络模块,用于以空间概率控制层作为输入图像通道,结合边缘显著交叉点池化层,构建一种轻量化卷积神经网络;
语义树模块,用于对引导语义层次包含关系进行跨域建模,构建具有引导语义层次包含关系的树形结构;
值得注意度估计模块,用于定义联合引导语义损失和基于意图的目标值得注意度估计。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任意一项基于注意估计的目标跨域检测与理解方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任意一项基于注意估计的目标跨域检测与理解方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010845641.2A CN112001385B (zh) | 2020-08-20 | 2020-08-20 | 一种目标跨域检测与理解方法、系统、设备及存储介质 |
US17/405,468 US20210383231A1 (en) | 2020-08-20 | 2021-08-18 | Target cross-domain detection and understanding method, system and equipment and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010845641.2A CN112001385B (zh) | 2020-08-20 | 2020-08-20 | 一种目标跨域检测与理解方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001385A CN112001385A (zh) | 2020-11-27 |
CN112001385B true CN112001385B (zh) | 2024-02-06 |
Family
ID=73472896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010845641.2A Active CN112001385B (zh) | 2020-08-20 | 2020-08-20 | 一种目标跨域检测与理解方法、系统、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210383231A1 (zh) |
CN (1) | CN112001385B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860946B (zh) * | 2021-01-18 | 2023-04-07 | 四川弘和通讯集团有限公司 | 一种视频图像信息转换为地理信息的方法及系统 |
CN112784836A (zh) * | 2021-01-22 | 2021-05-11 | 浙江康旭科技有限公司 | 一种文本图形偏移角度预测及其校正方法 |
WO2022205685A1 (zh) * | 2021-03-29 | 2022-10-06 | 泉州装备制造研究所 | 一种基于轻量化网络的交通标志识别方法 |
CN113140005B (zh) * | 2021-04-29 | 2024-04-16 | 上海商汤科技开发有限公司 | 目标对象定位方法、装置、设备及存储介质 |
CN113792783A (zh) * | 2021-09-13 | 2021-12-14 | 陕西师范大学 | 一种基于深度学习的和面阶段自动识别方法及系统 |
US11948358B2 (en) * | 2021-11-16 | 2024-04-02 | Adobe Inc. | Self-supervised hierarchical event representation learning |
CN114241290A (zh) * | 2021-12-20 | 2022-03-25 | 嘉兴市第一医院 | 用于边缘计算的室内场景理解方法、设备、介质及机器人 |
CN114463772B (zh) * | 2022-01-13 | 2022-11-25 | 苏州大学 | 基于深度学习的交通标志检测与识别方法及系统 |
CN115146488B (zh) * | 2022-09-05 | 2022-11-22 | 山东鼹鼠人才知果数据科技有限公司 | 基于大数据的可变业务流程智能建模系统及其方法 |
CN115601742B (zh) * | 2022-11-21 | 2023-03-10 | 松立控股集团股份有限公司 | 一种基于图关系排名的尺度敏感车牌检测方法 |
CN115761279B (zh) * | 2022-11-29 | 2023-06-23 | 中国国土勘测规划院 | 空间布局相似性检测方法、设备、存储介质及装置 |
CN116452960A (zh) * | 2023-04-20 | 2023-07-18 | 南京航空航天大学 | 一种多模态融合的军事跨域作战目标检测方法 |
CN116311535B (zh) * | 2023-05-17 | 2023-08-22 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于人物交互检测的危险行为分析方法及系统 |
CN117061177B (zh) * | 2023-08-17 | 2024-05-28 | 西南大学 | 一种边缘计算环境下的数据隐私保护增强方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110188705A (zh) * | 2019-06-02 | 2019-08-30 | 东北石油大学 | 一种适用于车载系统的远距离交通标志检测识别方法 |
CN111428733A (zh) * | 2020-03-12 | 2020-07-17 | 山东大学 | 基于语义特征空间转换的零样本目标检测方法及系统 |
-
2020
- 2020-08-20 CN CN202010845641.2A patent/CN112001385B/zh active Active
-
2021
- 2021-08-18 US US17/405,468 patent/US20210383231A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110188705A (zh) * | 2019-06-02 | 2019-08-30 | 东北石油大学 | 一种适用于车载系统的远距离交通标志检测识别方法 |
CN111428733A (zh) * | 2020-03-12 | 2020-07-17 | 山东大学 | 基于语义特征空间转换的零样本目标检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
邬亚男 ; 李君君 ; 张彬彬 ; .语境信息约束下的多目标检测网络.智能计算机与应用.2019,(第06期),全文. * |
青晨 ; 禹晶 ; 肖创柏 ; 段娟 ; .深度卷积神经网络图像语义分割研究进展.中国图象图形学报.2020,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
US20210383231A1 (en) | 2021-12-09 |
CN112001385A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001385B (zh) | 一种目标跨域检测与理解方法、系统、设备及存储介质 | |
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
US11315345B2 (en) | Method for dim and small object detection based on discriminant feature of video satellite data | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN110334705A (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN106951830B (zh) | 一种基于先验条件约束的图像场景多对象标记方法 | |
CN112016605B (zh) | 一种基于边界框角点对齐和边界匹配的目标检测方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN113920370A (zh) | 模型训练方法、目标检测方法、装置、设备及存储介质 | |
CN111488873B (zh) | 一种基于弱监督学习的字符级场景文字检测方法和装置 | |
CN110889318A (zh) | 利用cnn的车道检测方法和装置 | |
CN106257496A (zh) | 海量网络文本与非文本图像分类方法 | |
CN110929621B (zh) | 一种基于拓扑信息细化的道路提取方法 | |
Xing et al. | Traffic sign recognition using guided image filtering | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN114187311A (zh) | 一种图像语义分割方法、装置、设备及存储介质 | |
CN115761900B (zh) | 用于实训基地管理的物联网云平台 | |
CN112634369A (zh) | 空间与或图模型生成方法、装置、电子设备和存储介质 | |
CN111598155A (zh) | 一种基于深度学习的细粒度图像弱监督目标定位方法 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN113255787B (zh) | 一种基于语义特征和度量学习的小样本目标检测方法及系统 | |
Li et al. | Caption generation from road images for traffic scene modeling | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN115830643B (zh) | 一种姿势引导对齐的轻量行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |