CN115294441B - 一种由注意力融合三特征的机器人场景识别与解析方法 - Google Patents

一种由注意力融合三特征的机器人场景识别与解析方法 Download PDF

Info

Publication number
CN115294441B
CN115294441B CN202211205005.9A CN202211205005A CN115294441B CN 115294441 B CN115294441 B CN 115294441B CN 202211205005 A CN202211205005 A CN 202211205005A CN 115294441 B CN115294441 B CN 115294441B
Authority
CN
China
Prior art keywords
full
article
scene
network
connection layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211205005.9A
Other languages
English (en)
Other versions
CN115294441A (zh
Inventor
朱博
谢俊哲
范希明
高翔
徐国政
程泽恒
姚子雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211205005.9A priority Critical patent/CN115294441B/zh
Publication of CN115294441A publication Critical patent/CN115294441A/zh
Application granted granted Critical
Publication of CN115294441B publication Critical patent/CN115294441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种由注意力融合三特征的机器人场景识别与解析方法,提出利用物品识别算法中物品特征图进一步精确解析场景中物品信息的方法;提出一种获取物品单体描述信度的方法,并且设计了由物品单体描述信度组成的物品向量;改造了卷积神经网络CNN的全连接层网络,并定义了某个全连接层网络的输出为全局特征;求出卷积神经网络CNN卷积层的输出的格拉姆矩阵,并提出全连接层网络的结构,在输入为格拉姆矩阵时输出为风格特征;利用注意力机制将三种特征进行融合,并将融合注意力向量送进用于分类的全连接层网络,输出即为最终的场景标签。本发明支持整体训练优化,可以解析该场景的物品标签与场景标签,在室内场景解析与场景分类中有较好的结果。

Description

一种由注意力融合三特征的机器人场景识别与解析方法
技术领域
本发明属于维室内场景识别方法,具体涉及一种由注意力融合三特征的机器人场景识别与解析方法。
背景技术
在二维图片场景识别主流方法中,常常使用多种场景特征去进行场景识别,例如基于颜色特征的场景识别结合基于物品对象的场景识别等等,然而这些方法通常没有引入注意力机制而是直接将这些特征进行融合分类,结果往往会顾此失彼,最后得到的场景分类准确率往往不如原来的准确率。除此之外,对于儿童房与卧室这些风格特征相似的场景用颜色特征与物品特征也无法进行有效的判别。
发明内容
本发明提出了一种由注意力融合三特征的机器人场景识别与解析方法。该方法融合了三种特征,有效的避免了卷积神经网络提取信息量较为单一的问题,同时借助了卷积神经网络在视觉任务方面的优异性能,相较于利用单一特征与直接对各种特征进行拼接然后进行分类的方法,该方法能有效地对具有相似特征的场景进行分类,在室内场景识别任务中具有较好效果。
一种由注意力融合三特征的机器人场景识别与解析方法,包括以下步骤:
步骤1,用物品识别算法检测图片,对已检测出的物品提取特定卷积层上的特征图,将其送入全连接层网络一,全连接层网络一输出向量中最大值对应的索引为该场景中物品的标签;
步骤2,用物品识别算法检测图片,对已检测出的物品提取特定卷积层上的特征图,利用特征图卷积法构造若干物品单体描述信度,并提出一种由物品单体描述信度构成的物品向量来描述图像涉及的物品整体特征;
步骤3,对卷积神经网络CNN(例如Alexnet,VGG)的全连接层网络进行改造,并记为全连接层网络二,向网络中输入图片,将全连接层网络二的倒数第二层的输出作为全局特征;
步骤4,对于卷积神经网络CNN(例如Alexnet,VGG)卷积层的最后一层的输出形式整理然后求其格拉姆矩阵,并提出了一种全连接层网络三,将格拉姆矩阵作为输入,全连接层网络三的输出作为风格特征;
步骤5,提出了全连接层网络四,并提出了一种注意力机制,将物品特征、全局特征与风格特征进行融合,得到该场景的融合注意力向量;
步骤6,提出了全连接网络五,将步骤(5)得的融合注意力向量送入全连接层网络五,全连接层网络五输出的向量中最大值对应的索引为预测场景的对应标签;
步骤7,该网络为一种端到端网络,融合了三种提取特征的网络与注意力机制,最终的输出为该场景的物品标签与该场景的标签。
步骤1中,对于物品识别算法(例如SSD算法),找到其捕捉物品特征的卷积层(例如SSD算法的Conv5_3层),对已检测出的物品提取该卷积层上的特征图,对其进行flatten操作并送入全连接层网络一,全连接层网络输出向量最大值的索引为物品标签。该方法相较于SSD能更精确的解析场景的物品标签。
步骤2中,主要包含以下步骤:
步骤2.1,用特征图卷积法得到物品单体描述信度的步骤如下:对于物品识别算法(例如SSD算法),找到其捕捉物品特征的卷积层(例如SSD算法的Conv5_3层),对已检测出的物品提取该卷积层上的特征图,将卷积层上该位置物品的特征图用与特征图相同深度的卷积核进行卷积,并将所有的卷积结果求和,将所得值作为物品单体描述信度;
步骤2.2,利用物品单体描述信度构造的物品向量结构如下所示:
Figure 359232DEST_PATH_IMAGE001
其中
Figure 320235DEST_PATH_IMAGE002
表示物品类
Figure 968385DEST_PATH_IMAGE003
的第j个物品单体描述信度,元素所处的位置隐含了物品 类别的信息,对于第k类物品设检测器实际输出物品数量为
Figure 774667DEST_PATH_IMAGE004
,首先依照物品识别算法给 出的置信度从大到小的顺序将对应的物品单体描述信度放置在该物品向量类
Figure 824662DEST_PATH_IMAGE005
所属的位 置
Figure 956566DEST_PATH_IMAGE006
,若
Figure 590548DEST_PATH_IMAGE004
为0,则将
Figure 403783DEST_PATH_IMAGE005
中各个元素全部设为0;若
Figure 698498DEST_PATH_IMAGE004
大于
Figure 876670DEST_PATH_IMAGE007
,则取N中前
Figure 358467DEST_PATH_IMAGE007
个数据,若
Figure 647497DEST_PATH_IMAGE004
小于
Figure 265560DEST_PATH_IMAGE007
,则将不足
Figure 614633DEST_PATH_IMAGE007
的部分补0;将
Figure 583726DEST_PATH_IMAGE008
Figure 709070DEST_PATH_IMAGE005
进行拼接,得到物品向量。[0007] 步骤3中令卷积神经网络CNN(例如Alexnet,VGG)的最后一层全连接层网络神经元数量等于 要识别的场景数量,并指定标签,令倒数第二层的全连接层网络神经元个数等于物品向量 维数,并将该层的输出作为该场景全局特征。
步骤4中,主要包含以下步骤:
步骤4.1,将卷积层输出进行形状整理,并用以求解出格拉姆矩阵;
步骤4.2,对于形式上为对角阵的格拉姆矩阵,以对角线为划分保留其右上角部分,将其进行flatten操作,并将结果送入后续全连接层网络三;
步骤4.3,将全连接层网络三输出作为该图片的风格特征。
步骤5中,主要包含以下步骤:
步骤5.1,假设某一场景类别数量为X个,每一张场景图片的全局向量的长度为R维,物品特征为T维,风格特征为J维,则首先对该场景类别的三种特征分别进行堆叠,得到的结果为大小为(X,R)的场景全部全局特征、大小为(X,T)的场景全部物品向量和大小为(X,J)的场景全部风格特征;
步骤5.2,设置LSTM记忆步长为S,将场景全部全局特征与全部风格特征中连续的S个向量继续进行堆叠,形成结构为(X-S,S,R)的全局特征与结构为(X-S, S, J)的全部风格特征;
步骤5.3,将全局特征送入LSTM网络一,并取网络最后一个时间步长的输出,寻找输出向量中前N个最大的值,并将其作为全局注意力向量;将风格特征送入LSTM网络二,并取网络最后一个时间步长的输出,寻找输出向量中前L个最大的值,并将其作为风格注意力向量;同时寻找物品向量前M个最大值对应的索引并除以该物品特征向量的长度,并将其作为物品注意力向量,将三个注意力向量进行拼接,形成融合特征;
步骤5.4,提出了全连接层网络四,将融合特征送入全连接层网络四,全连接层网络四的输出维度为3,并对出输出值归一化,得到3个归一化输出,分别对应于全局特征的权重、风格特征的权重与物品特征的权重,分别将其与原全局特征、风格特征相乘,得到加权后的三特征向量;将3个加权特征向量进行拼接,得到融合注意力向量。
步骤6中,将步骤5得的融合注意力向量送入全连接层网络五,全连接层网络五输出的向量中最大值对应的索引为预测场景的对应标签。
步骤7中,该网络为一种端到端网络,融合了三种提取特征的网络与注意力机制,最终的输出为该场景的物品标签与该场景的标签。
本发明达到的有益效果为:
对于理论性能:注意力机制模型与CNN相比复杂度更小,参数也更少,所以对算力的要求也就更小,计算速度更快。其识别重点能力强,更擅长处理复杂特征,不易丢失重要的信息。
对于应用性能:多场景融合与注意力结合机制会专注抓取突出明显的特征,更快的进行分析,增强了网络的鲁棒性。本方法融入了风格特征,多角度深层次的对图片进行识别和分类。
对于特殊适用情形:区别与传统算法,本方法对物品特征和背景色调相似的场景有较高的辨别能力。
附图说明
图1为本发明实施例中的模型建立流程图。
图2为本发明实施例中的物品类别表。
图3为本发明实施例中的场景类别表。
图4为本发明实施例中的四个模型在vpc数据集上的平均准确率示意图。
图5为本发明实施例中的四个模型在MIT15类室内场景数据集上的平均准确率示意图。
图6为本发明实施例中的四个模型在TSOTSOS_HOME室内场景数据集上的平均准确率示意图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,本发明的面向机器人应用的采用注意力机制融合了三种特征的场景分类方法,在具体实施时需要先建立识别模型,再用大量二维场景图片训练模型,迭代至预先设定次数则训练完成。在对新的二维场景分类时,将场景的二维图片数据输入训练好的模型,输出为场景的类别标签向量与场景的物品标签向量,向量中最大值的序号即对应的场景类别与物品标签。本实施方式借助pytorch框架进行实现。具体步骤如下:
利用Place365数据集对SSD物品识别网络与VGG网络进行预训练;然后保存其预训练的权重;将VGG网络全连接的倒数第二层的输出改为286。SSD算法识别的物品数量为68类;VGG网络识别的场景类别数为15类室内场景;具体场景与物品类别将在图2中给出。
根据SSD算法识别出的物品在图片中的位置反推其在SSD算法conv_5层的特征图,其中conv_5层的大小为(38,38,512)(含义为:特征图宽和高为38,深度为512,下文特征图尺寸含义相同),一个物品所对应的特征图大小为(1,1,512);对物品的特征图使用flatten操作,将flatten操作后的向量送入全连接层网络一,全连接层网络一的结构为(512,126,68),其输出为预测的物品的标签向量,向量中最大值的序号即对应的场景物品标签。此处全连接层网络一结构为(512,128,68)的含义为网络第一层神经元的数量为512,第二层神经元的数量为128,第三层神经元的数量为68。
根据SSD算法识别出的物品在图片中的位置反推其在SSD算法conv_5层的特征图后,用数量为512维的卷积核对特征图进行卷积,并将该512个值加在一起,得到的值为物品单体描述信度。将得到的物品单体描述信度按照提出好的物品向量形式进行拼接组合,得到物品向量。
将图片送入VGG网络卷积层中,将VGG网络卷积层的输出进行flatten操作并送入全连接层网络二,全连接网络二的结构为(25088,4096,286,15),取全连接层网络二中维度大小为286的输出作为全局特征。此处(25088,4096,286,150)指全连接层网络二的第一层神经元数量为25088,第二层神经元数量为4096,第三层神经元数量为286,第四层神经元数量为15。
如图2所示,对于图像的风格信息,用Gram matrix来表示,取VGG最后一层卷积层输出(7,7,512),将其变化为(ch,h*w)( [512,49] )与 (h*w,ch) ( [ 49,512] )的形式,再对两个作内积得到Gram Matrices。可以得到[49,49]大小的矩阵,表述其风格,将其进行对角线切分,取整个矩阵的一半(包括对角线的元素)并将其进行flatten操作,然后将经过flatten操作后的结果送入全连接层网络三,全连接层网络三的结构为(1225,286),取全连接层网络输出的286维特征作为其风格特征,此处(1225,286)指全连接层网络三第一层神经元数量为1225,第二层神经元数量为286。
步骤(3)中,将训练集中获取的全局特征以场景类别进行划分,假设某一场景类别数量为X个,每一张场景图片的全局向量的长度为286维,物品特征为286维,风格特征为286维,则首先对该场景类别的所有全局特征与物品向量和风格特征进行堆叠,拼接后得到的结果为大小为(X,286)的场景全部全局特征、大小为(X,286)的场景全部物品向量和大小为(X,286)的场景全部风格特征,并且设置时间步长为20,将场景全部全局特征与全部风格特征中连续的20张继续进行堆叠,形成大小为(X-20,20,286)的全局特征与大小为(X-20,20,286)的风格特征,并分别送入LSTM网络一与LSTM网络二进行训练,并取其最后一个时间步长的输出,寻找两个LSTM网络输出的前10个最大的值;同时寻找物品向量前7个最大值对应的索引并除去该物品特征向量的长度。接着将三者进行拼接并送入全连接层网络四,全连接层网络四的结构为(27,12,3),将三个输出值进行归一化,归一化后结果即为全局特征、风格特征与物品向量对应的权重,将三个向量分别乘上对应的权重并且进行连接,得到融合注意力向量。 此处全连接层网络四的结构为(27,12,3)指的是输入全连接层网络四的第一层神经元数量为27,第二层神经元数量为12,第三层神经元数量为3。
将融合注意力向量送入全连接层网络五,其结构为(1024,512,126,15),其中全连接层网络的输出的向量中的最大值对应的索引即为最终得到的该场景标签。此处全连接层网络五的结构为(1024,512,126,15)的含义为全连接层网络五的第一层神经元数量为1024,第二层神经元数量为512,第三层神经元数量为126,第四层神经元数量为15。
使用了Fine-tuned Alexnet网络、Fine-tuned VGG网络、MR-CNN网络与本发明的模型,将PLACE365数据集中室内15类场景作为训练集,以vpc数据集、MIT15类室内场景数据集与TSOTSOS_HOME室内场景数据集作为测试集,进行跨数据集测试,得出各模型在不同数据集上的平均准确率如图4、5、6所示。可以看出本发明方法的准确率较好。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (4)

1.一种由注意力融合三特征的机器人场景识别与解析方法,其特征在于:包括如下步骤:
步骤1,检测图片以进行物品识别,对已检测出的物品提取特征图,将其送入全连接层网络一,全连接层网络一输出向量中最大值对应的索引为该场景中物品的标签;全连接层网络一的结构为(512,126,68);
步骤2,检测图片以进行物品识别,对已检测出的物品提取特定卷积层上的特征图,构造物品单体描述信度,基于由物品单体描述信度构成的物品向量来描述图像涉及的物品整体特征;
步骤2中,包括如下分步骤:
步骤2.1,用特征图卷积法得到物品单体描述信度;对于物品识别算法,找到其捕捉物品特征的卷积层,对已检测出的物品提取该卷积层上的特征图,将卷积层上该物品的特征图用与特征图相同深度的卷积核进行卷积,并将所有的卷积结果求和,将所得值作为物品单体描述信度;
步骤2.2,利用物品单体描述信度构造的物品向量结构如下所示:
Figure FDA0003994716570000011
其中
Figure FDA0003994716570000012
表示物品类Oi的第j个物品单体描述信度,元素所处的位置隐含了物品类别的信息,对于第k类物品设检测器实际输出物品数量为N'k,首先依照物品识别算法给出的置信度从大到小的顺序将对应的物品单体描述信度放置在该物品向量类Ok所属的位置
Figure FDA0003994716570000013
若N'k为0,则将Ok中各个元素全部设为0;若N'k大于Nk,则取N中前Nk个数据,若N'k小于Nk,则将不足Nk的部分补0;将O1到Ok进行拼接,得到物品向量;
步骤3,对卷积神经网络VGG的全连接层网络进行改造,并记为全连接层网络二,向网络中输入图片,将全连接层网络二的倒数第二层的输出作为全局特征;全连接网络二的结构为(25088,4096,286,15);
步骤4,对于卷积神经网络VGG卷积层的最后一层的输出形式整理并求其格拉姆矩阵,设计全连接层网络三,将格拉姆矩阵作为输入,输出相应的风格特征;全连接层网络三的结构为(1225,286);
步骤5,通过全连接层网络四结合注意力机制,将物品特征、全局特征与风格特征进行融合,得到该场景的融合注意力向量;全连接层网络四的结构为(27,12,3);
步骤5,包括如下分步骤:
步骤5.1,对于某一场景类别数量为X个,每一张场景图片的全局向量的长度为R维,物品特征为T维,风格特征为J维,则首先对该场景类别的三种特征分别进行堆叠,得到的结果为大小为(X,R)的场景全部全局特征、大小为(X,T)的场景全部物品向量和大小为(X,J)的场景全部风格特征;
步骤5.2,设置LSTM记忆步长为S,将场景全部全局特征与全部风格特征中连续的S个向量继续进行堆叠,形成结构为(X-S,S,R)的全局特征与结构为(X-S,S,J)的全部风格特征;
步骤5.3,将全局特征送入LSTM网络一,并取网络最后一个时间步长的输出,寻找输出向量中前N个最大的值,并将其作为全局注意力向量;将风格特征送入LSTM网络二,并取网络最后一个时间步长的输出,寻找输出向量中前L个最大的值,并将其作为风格注意力向量;同时寻找物品向量前M个最大值对应的索引并除以该物品特征向量的长度,并将其作为物品注意力向量,将三个注意力向量进行拼接,形成融合特征;
步骤5.4,提出了全连接层网络四,将融合特征送入全连接层网络四,全连接层网络四的输出维度为3,并对出输出值归一化,得到3个归一化输出,分别对应于全局特征的权重、风格特征的权重与物品特征的权重,分别将其与原全局特征、风格特征相乘,得到加权后的三特征向量;将3个加权特征向量进行拼接,得到融合注意力向量;
步骤6,通过全连接网络五,将步骤(5)得的融合注意力向量输入,输出的向量中最大值对应的索引为预测场景的对应标签;全连接层网络五的结构为(1024,512,126,15);
步骤7,整理步骤1和步骤6的输出,最终得到该场景的物品标签与该场景的标签。
2.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法,其特征在于:步骤1中,对于采用的物品识别算法,找到其捕捉物品特征的卷积层,对已检测出的物品提取该卷积层上的特征图,对其进行flatten操作并送入全连接层网络一,全连接层网络输出向量最大值的索引为物品标签。
3.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法,其特征在于:步骤3中,令卷积神经网络CNN的最后一层全连接层网络神经元数量等于要识别的场景数量,并指定标签,令倒数第二层的全连接层网络神经元个数等于物品向量维数,并将该层的输出作为该场景全局特征。
4.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法,其特征在于:步骤4中,包括如下分步骤:
步骤4.1,将卷积层输出进行形状整理,并用以求解出格拉姆矩阵;
步骤4.2,对于形式上为对角阵的格拉姆矩阵,以对角线为划分保留其右上角部分,将其进行flatten操作,并将结果送入后续全连接层网络三;
步骤4.3,将全连接层网络三输出作为该图片的风格特征。
CN202211205005.9A 2022-09-30 2022-09-30 一种由注意力融合三特征的机器人场景识别与解析方法 Active CN115294441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211205005.9A CN115294441B (zh) 2022-09-30 2022-09-30 一种由注意力融合三特征的机器人场景识别与解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211205005.9A CN115294441B (zh) 2022-09-30 2022-09-30 一种由注意力融合三特征的机器人场景识别与解析方法

Publications (2)

Publication Number Publication Date
CN115294441A CN115294441A (zh) 2022-11-04
CN115294441B true CN115294441B (zh) 2023-02-10

Family

ID=83834039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211205005.9A Active CN115294441B (zh) 2022-09-30 2022-09-30 一种由注意力融合三特征的机器人场景识别与解析方法

Country Status (1)

Country Link
CN (1) CN115294441B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399799B (zh) * 2019-06-26 2022-07-26 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
US20220351535A1 (en) * 2019-12-20 2022-11-03 Intel Corporation Light Weight Multi-Branch and Multi-Scale Person Re-Identification
CN113011504B (zh) * 2021-03-23 2023-08-22 华南理工大学 基于视角权重和特征融合的虚拟现实场景情感识别方法

Also Published As

Publication number Publication date
CN115294441A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN109063724B (zh) 一种增强型生成式对抗网络以及目标样本识别方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN105844283B (zh) 用于识别图像类目归属的方法、图像搜索方法及装置
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
JP2008310796A (ja) コンピュータにより実施される、訓練データから分類器を構築し、前記分類器を用いてテストデータ中の移動物体を検出する方法
CN108764019A (zh) 一种基于多源深度学习的视频事件检测方法
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
CN110992217B (zh) 一种外观设计专利多视图特征表示、检索的方法及装置
Carneiro et al. Flexible spatial configuration of local image features
Nguyen et al. Satellite image classification using convolutional learning
Hu et al. RGB-D semantic segmentation: a review
Gollapudi et al. Deep learning for computer vision
CN112906780A (zh) 一种果蔬图像分类系统及方法
CN114529581A (zh) 基于深度学习及多任务联合训练的多目标跟踪方法
Zheng et al. Feature enhancement for multi-scale object detection
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN109886206A (zh) 一种三维物体识别方法及设备
CN117312594A (zh) 一种融合双尺度特征的草图化机械零件库检索方法
KR101334858B1 (ko) 나비종 자동분류 시스템 및 방법, 이를 이용한 나비종 자동분류 기능이 구비된 휴대 단말기
CN114610924A (zh) 基于多层分类识别模型的商品图片相似度匹配搜索方法和系统
CN115294441B (zh) 一种由注意力融合三特征的机器人场景识别与解析方法
De Croon et al. Adaptive gaze control for object detection
Nijhawan et al. Food classification of Indian cuisines using handcrafted features and vision transformer network
Bhoir et al. Transfer learning with deep neural networks for image classification in the e-commerce industry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant