CN111144492A - 面向移动端虚拟现实与增强现实的场景图谱生成方法 - Google Patents

面向移动端虚拟现实与增强现实的场景图谱生成方法 Download PDF

Info

Publication number
CN111144492A
CN111144492A CN201911374530.1A CN201911374530A CN111144492A CN 111144492 A CN111144492 A CN 111144492A CN 201911374530 A CN201911374530 A CN 201911374530A CN 111144492 A CN111144492 A CN 111144492A
Authority
CN
China
Prior art keywords
scene
visual
mobile terminal
information
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911374530.1A
Other languages
English (en)
Other versions
CN111144492B (zh
Inventor
万海
欧佳玲
曾娟
王宝亿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201911374530.1A priority Critical patent/CN111144492B/zh
Publication of CN111144492A publication Critical patent/CN111144492A/zh
Application granted granted Critical
Publication of CN111144492B publication Critical patent/CN111144492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供面向移动端虚拟现实和增强现实的场景图谱生成方法,涉及场景图谱领域。包括:利用场景图谱样本集,提取视觉关系组合、常识信息;通过目标检测模型检测出图像中物体的物体框及其物体类别;获取与物体对应的语义信息,根据常识信息进一步构造常识知识图,生成视觉关系f1;提取物体框区域的视觉信息,生成视觉关系f2;结合常识信息和视觉信息,通过注意力机制将f1、f2结合,生成场景图谱,获得并优化场景图谱生成模型。本发明在移动端运行场景图谱生成模型,能快速识别虚拟现实或增强现实画面中目标物体及物体之间的关系,相比服务器端检测具有更高的检测效率,为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。

Description

面向移动端虚拟现实与增强现实的场景图谱生成方法
技术领域
本发明涉及场景图谱表示学习相关领域,更具体地,涉及面向移动端虚拟现实与增强现实的场景图谱生成方法。
背景技术
随着移动设备的普及和其计算能力的提高,在移动设备中虚拟现实与增强现实应用也随之发展。虚拟现实是利用计算机生成的一种模拟环境,使用户沉浸到该环境中。增强现实技术使现实世界信息和虚拟世界信息内容综合在一起,被人类感官所感知,从而实现超越现实的感官体验。为了使虚拟现实和增强现实的系统更好地被人类感知,系统有必要对现实世界进行理解,场景图谱是机器对现实世界图像进行理解的关键步骤。从现实场景对应的场景图谱中抽象出视觉关系,有利于机器对现实场景的理解。
图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说,图像场景图谱以图像场景图谱视觉关系组合(主语物体、关系谓词、宾语物体)的方式记录了图像中的两个物体以及两个物体之间的关系,并且每个物体在图像中都有一个对应的物体框和物体类别。图像场景图谱最先由Johnson等人提出,近来在计算机视觉和人工智能领域受到了关注。其中视觉关系组合对图像理解、图像描述等任务有很大的帮助。
以往的场景图谱生成方法,大多是利用图像的视觉信息,没有充分利用到与图像相关的一些常识信息,这些常识信息有利于为我们对图像上物体关系的理解,所以本发明提出了一个基于常识知识图的场景图谱生成方法,该方法结合了图像的视觉信息和收集的常识信息进行场景图谱生成。
随着神经网络的发展和移动终端的普及,移动终端可以应用一些神经网络模型,与虚拟现实和增强现实技术结合,使得用户能有更好的体验。在移动端虚拟现实和增强现实场景下进行场景图谱生成,有助于机器对图像场景的理解,为后续有关图像问答、图像理解等技术提供支持。本发明为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。
发明内容
为了解决现有技术所存在的问题,本发明提供面向移动端虚拟现实与增强现实的图像场景图谱生成方法,在移动端运行场景图谱生成模型,能够快速识别虚拟现实或增强现实画面中目标物体及物体之间的关系,相比服务器端的检测,具有更高的检测效率。
本发明的技术方案如下:面向移动端虚拟现实与增强现实的图像场景图谱生成方法,包括以下步骤:
S1、利用场景图谱样本集,提取并统计视觉关系组合,提取常识信息;
S2、通过训练好的目标检测模型检测出场景图谱样本集图像中的物体,生成若干个候选区域,并预测出候选区域对应的物体类别;
S3、根据步骤S2得到的物体类别获取与物体对应的语义信息,再根据步骤S1所提取的常识信息,进一步构造常识知识图,生成初步的视觉关系f1;
S4、通过神经网络模型提取所述候选区域的视觉信息,包括视觉特征、空间特征和语义特征,生成初步的视觉关系f2;
S5、结合视觉信息和常识信息,通过注意力机制,将初步的视觉关系f1、初步的视觉关系f2的检测结果结合,进行场景图谱生成,并得到场景图谱生成模型;
S6、虚拟现实与增强现实系统包括移动端、计算机显示终端,对得到的场景图谱生成模型进行常识知识图和模型参数的优化,从而获取能够嵌入移动端的模型;以现实场景图像作为输入,并传输给计算及显示终端;计算及显示终端接收到现实场景图像,进行场景图谱生成,抽取对应现实场景图的视觉关系,叠加在现实场景图像中,获得当前现实或虚拟场景的场景图谱。
与现有技术相比,本发明技术方案的有益效果是:
在移动端虚拟现实与增强现实系统中应用场景图谱生成有利于系统对虚拟世界或现实世界的理解,有助于现实世界与虚拟世界的交互。所述场景图谱生成方法不仅利用了图像的视觉信息,还充分利用了数据集视觉关系组合隐藏的常识信息,通过结合注意力机制,生成图像场景图谱,能够提高图像场景图谱表示学习的效果。更进一步的,针对场景图谱生成模型的特点对模型进行优化,生成适用于移动端的场景图谱生成模型,可以缩小模型大小,并且提高模型的推理速度,为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。
附图说明
图1为本发明实施例提供的场景图谱生成方法的流程示意图;
图2为本发明实施例提供的场景图谱生成的框架中视觉信息的框架示意图;
图3为本发明实施例提供的面向移动端虚拟现实与增强现实的场景图谱生成方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明做详细描述,可以理解的是,在本发明所描述的具体示例性实施方式仅用于解释本发明,而非对本发明进行限定,本发明的实施方式并不限于此。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分。对于本领域普通技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本实施例的面向移动端虚拟现实与增强现实的场景图谱生成方法,样本集中的所有的图像记为
Figure BDA0002340569230000031
所有的物体类别记为
Figure BDA0002340569230000032
所有的关系类别记为
Figure BDA0002340569230000033
输入图像I的场景图谱(所有的视觉关系组合)记为
Figure BDA0002340569230000034
输入图像I的物体集合记为
Figure BDA0002340569230000035
一条视觉关系组合记为
Figure BDA0002340569230000036
其中
Figure BDA0002340569230000037
本发明结合图像信息以及常识信息完成图像场景图谱生成任务。如图1所示,包括以下步骤:
步骤1、利用场景图谱样本集,提取并统计视觉关系组合,提取常识信息;在场景图谱样本集中,一条视觉关系组合标记为(s,p,o),其中s代表主语物体,o代表宾语物体,p代表关系谓词;
S11、将场景图谱样本集进行采样得到样本数据集,作为场景图谱生成方法的输入;
S12、提取样本数据集中的视觉关系组合,对视觉关系组合进行统计,根据样本数据集里的视觉关系组合提取出常识信息,构建常识图
Figure BDA0002340569230000038
其中λ表示标记函数,表示两个物体之间的关系的一个条件概率:
Figure BDA0002340569230000039
式中,
Figure BDA00023405692300000310
表示两个物体之间的关系,
Figure BDA00023405692300000311
表示物体类别。
步骤2、通过训练好的目标检测模型检测出样本数据集上的图像I上的物体
Figure BDA00023405692300000312
以及生成若干个物体框,并预测出物体框对应的物体类别;
S21、首先对样本数据集中的图像用训练好的目标检测模型生成若干个候选区域,也就是物体框,并且预测出候选区域对应的物体类别。该步骤可以使用神经网络目标检测框架来实现。
S22、基于步骤S21,提取出物体框,记为b=(xmin,ymin,xmax,ymax),其中xmin和ymin表示物体框左上角的坐标,xmax和ymax表示物体框右下角的坐标;
S23、预测每个物体框对应的物体类别c;对于每个物体,表示为o=(c,b),其中c表示物体类别,b表示物体框,为后面步骤进行特征编码做准备。
步骤3、根据步骤2得到的物体类别获取与物体对应的语义信息,再根据步骤1所提取的常识信息,进一步构造常识图,生成初步的视觉关系f1;
本步骤所生成的初步的视觉关系f1与常识信息有关。本步骤将视觉关系组合的统计作为输入,根据步骤S2得到的物体类别c来获取与物体对应的语义信息,且语义信息也作为常识信息,再结合步骤1所提取的常识信息,进一步构造常识知识图,获得初步的视觉关系f1。其中视觉关系通过视觉关系组合的形式表示,即(s,p,o),每个视觉关系组合对应一个概率,筛选出比阈值大的视觉关系组合,例如,包括但不限于0.5。
步骤4、通过神经网络模型提取步骤2所生成的候选区域的视觉信息,包括视觉特征、空间特征和语义特征,生成初步的视觉关系f2;
如图2所示,具体生成过程如下:
S41、将检测出来的一对物体s和o,分别表示主语物体和宾语物体,通过训练好的神经网络模型提取视觉特征,例如,包括但不限于VGG16,编码成300维的视觉特征vapp
S42、将检测出来的一对物体s和o,获取他们的位置信息,依次通过降采样、掩膜、卷积神经网络和全连接层,获取空间特征:
a)降采样指将物体s和o物体框的像素降采样到32*32大小;
b)掩膜指物体s或o的物体框所包围的地方置为1,图像的其他地方置为0,再将物体s和o的掩膜拼为一个数组;
c)将该数组通过神经网络模型(包括三层卷积神经网络和两层全连接层)编码成300维的空间特征,记为空间特征编码vspa
S43、将预测出来的物体类别c,获取对应的词向量,从而获取语义特征。具体做法是通过在训练集训练的Word2Vec模型,获取对应的词向量,获取对应物体类别的一个128维的语义特征编码,记为vw
S44、将视觉特征、空间特征和语义特征融合为视觉信息,从而生成初步的视觉关系f2。
具体步骤如下:
a)将视觉特征和空间特征连接concate{vapp,vspa}作为特征v1;
b)将组合的两个物体的主语物体类别的语义特征、特征v1、宾语主体类别的语义特征输入双向递归神经网络当中(Bi-RNN);选择双向递归神经网络是由于在视觉关系中主语物体、关系谓词、宾语物体是有顺序的,主语物体和宾语物体一旦反过来,可能就是有不一样的关系谓词,双向递归神经网络可以适应这个特点。
c)根据上一步骤b),对于每一对物体通过双向递归神经网络会输出一个概率表,再通过一层归一化处理后,概率表的数值范围会在(0,1),该概率表表示这一对物体之间的一个关系概率分布,从而我们可以得到初步的视觉关系f2;
步骤5、结合视觉信息和常识信息,通过注意力机制,将以上两个初步的视觉关系检测结果结合,进行场景图谱生成,并得到场景图谱生成模型。即根据步骤3和步骤4分别生成的视觉关系f1和f2,通过注意力机制进行结合,具体如下:
Figure BDA0002340569230000041
Figure BDA0002340569230000051
an=ReLU(Wfn+b)
最后得到视觉关系f3,计算场景图谱生成模型的损失值,用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并反向传播更新层级神经网络参数。损失值采用交叉熵作为损失函数,损失函数定义如下:
Figure BDA0002340569230000052
Li=-wL log(fi)
Figure BDA0002340569230000053
对场景图谱生成模型的生成结果进行谓词检测、短语检测、关系检测,以验证这种场景图谱生成模型的有效性。
a)所述谓词检测任务就是输入图像以及标好的物体的物体框和物体类别,预测这两个物体之间的关系谓词,关系谓词预测正确即该视觉关系组合正确;
b)所述短语检测任务就是输入图像,预测物体以及物体之间的关系,视觉关系组合正确,并且包住两个物体的物体框与数据集标好的物体框的交并比(IOU)大于一个阈值,例如,包括但不限于0.5,则该视觉关系组合正确,否则,该视觉关系组合错误;
c)所述关系检测任务就是输入图像,预测物体以及物体之间的关系,视觉关系组合正确,并且两个物体的物体框与数据集标好的物体框分别的交并比(IOU)大于一个阈值,例如,包括但不限于0.5,则该视觉关系组合正确,否则,该视觉关系组合错误,会比上面一个任务的条件严格。
步骤6、对上述场景图谱生成模型中的常识知识图和模型参数进行优化,生成能够嵌入移动端的模型;以现实场景图像作为输入,并传输给计算及显示终端;计算及显示终端接收到现实场景图像,进行场景图谱生成,抽取对应现实场景图的视觉关系,叠加在现实场景图像中,获得当前现实或虚拟场景的场景图谱。
如图3所示,虚拟现实与增强现实系统包括移动端、计算机显示终端,将场景图谱生成模型和数据导入移动端,具体包括以下步骤:
S61、将上述场景图谱生成模型导入移动端。具体包括以下步骤:
获取场景图谱生成模型,针对场景图谱生成模型的特点对模型进行优化处理,生成适用于在移动端调用人工智能硬件的模型,可以有效提高模型在移动端的运行速度。针对本专利提出的场景图谱生成模型的特点,可以进行以下两方面的优化。
第一是针对常识知识图的优化,留下出现频率高的关系。对常识知识图的优化方式如下:
Figure BDA0002340569230000061
其中式中,
Figure BDA0002340569230000062
表示两个物体之间的关系,
Figure BDA0002340569230000063
分别表示主语物体和宾语物体的物体类别,threshold表示阈值。P(p|cs,co)表示cs和co之间是p关系的概率,wp表示优化后的常识知识图中cs和co之间是p关系的概率。
第二是对提取主语物体和宾语物体之间关系的部分模型参数进行优化,优化可以将模型大小缩小为原来的四分之一,同时提高运行速度,精度的损失在可接受范围内。优化的方式如下:
internalr=max-min
internalq=2B-0
quant=Round((real-min)*internalq/internalr)
其中real表示原始数据的浮点数,quant表示量化整数,Round(*)表示取最接近的整数,B表示量化的比特数,比如量化为8bit整数,则B=8,max、min分别表示原始数据的最大值、最小值。而模型在加载时,可以通过反量化将模型参数恢复成原来的数值,从而不影响模型的效果。将场景图谱生成模型部署在移动端,调用移动端的人工智能硬件进行加速,提高运行速度。
S62、移动端获取现实场景图像,并传输给计算及显示终端。
S63、计算及显示终端接收到现实场景图像,用目标检测模型进行目标提取,检测出图像中包含的目标物体,确定每个物体的物体框和物体类别。记为:物体框b=(xmin,ymin,xmax,ymax)和物体类别c,其中xmin和ymin表示物体框左上角的坐标,xmax和ymax表示物体框右下角的坐标;
S64、用以上获取到的现实场景图像和检测到的物体进行场景图谱生成,抽取对应现实场景的视觉关系,叠加在现实场景图像中。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,包括以下步骤:
S1、利用场景图谱样本集,提取并统计视觉关系组合,提取常识信息;
S2、通过训练好的目标检测模型检测出输入场景图谱样本集图像中的物体,生成若干个物体框,并预测出物体框对应的物体类别;
S3、根据步骤S2得到的物体类别获取与物体对应的语义信息,再根据步骤S1所提取的常识信息,进一步构造常识知识图,生成初步的视觉关系f1;
S4、通过神经网络模型提取所述物体框的视觉信息,包括视觉特征、空间特征和语义特征,生成初步的视觉关系f2;
S5、结合视觉信息和常识信息,通过注意力机制,将初步的视觉关系f1、初步的视觉关系f2的检测结果结合,进行场景图谱生成,并得到场景图谱生成模型;
S6、虚拟现实与增强现实系统包括移动端、计算机显示终端,对得到的场景图谱生成模型进行常识知识图和模型参数的优化,从而获取能够嵌入移动端的模型,以现实场景图像作为输入,并传输给计算及显示终端;计算及显示终端接收到现实场景图像,进行场景图谱生成,抽取对应现实场景图的视觉关系,叠加在现实场景图像中,获得当前现实或虚拟场景的场景图谱。
2.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S1所利用的场景图谱样本集中,视觉关系组合标记为(s,p,o),其中s代表主语物体,o代表宾语物体,p代表关系谓词。
3.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S1包括:
S11、将场景图谱样本集进行采样得到样本数据集,作为场景图谱生成方法的输入;
S12、提取样本数据集中的视觉关系组合,对视觉关系组合进行统计,根据样本数据集合里的视觉关系组合提取出常识信息,构建常识知识图
Figure FDA0002340569220000011
其中λ表示标记函数,表示两个物体之间的关系的一个条件概率:
Figure FDA0002340569220000012
式中,
Figure FDA0002340569220000013
表示两个物体之间的关系,cs
Figure FDA0002340569220000014
表示物体类别。
4.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S1将场景图谱样本集进行采样得到样本数据集,作为场景图谱生成方法的输入;步骤S2包括:
S21、首先对样本数据集中的图像用训练好的目标检测模型生成若干个候选区域,也就是物体框,并且预测出物体框对应的物体类别;
S22、基于步骤S21,提取出物体框,记为b=(xmin,ymin,xmax,ymax),其中xmin和ymin表示物体框左上角的坐标,xmax和ymax表示物体框右下角的坐标;
S23、预测每个物体框对应的物体类别c;对于每个物体,表示为o=(c,b),其中c表示物体类别,b表示物体框。
5.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S3将视觉关系组合的统计作为输入,根据步骤S2得到的物体类别来获取与物体对应的语义信息,且语义信息也作为常识信息,再结合步骤1所提取的常识信息,进一步构造常识知识图,获得初步的视觉关系f1。
6.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S4包括:
S41、将检测出来的一对物体s和o,分别表示主语物体和宾语物体,通过训练好的神经网络模型提取视觉特征,编码成视觉特征;
S42、将检测出来的一对物体s和o,获取他们的位置信息,依次通过降采样、掩膜、卷积神经网络和全连接层,获取空间特征;
S43、将预测出来的物体类别c,获取对应的词向量,从而获取语义特征;
S44、将视觉特征、空间特征和语义特征融合为视觉信息,从而生成初步的视觉关系f2。
7.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S6包括:
S61、对场景图谱生成模型中的常识知识图和模型参数进行优化处理,将优化后的场景图谱生成模型导入应用虚拟现实和增强现实的移动端;
S62、移动端获取现实场景图像,并传输给计算及显示终端;
S63、计算及显示终端接收到现实场景图像,用目标检测模型进行目标提取,检测出图像中包含的物体,确定每个物体的物体框和物体类别;
S64、用获取到的现实场景图像和检测到的物体进行场景图谱生成,抽取对应现实场景的视觉关系,叠加在现实场景图像中。
CN201911374530.1A 2019-12-27 2019-12-27 面向移动端虚拟现实与增强现实的场景图谱生成方法 Active CN111144492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911374530.1A CN111144492B (zh) 2019-12-27 2019-12-27 面向移动端虚拟现实与增强现实的场景图谱生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911374530.1A CN111144492B (zh) 2019-12-27 2019-12-27 面向移动端虚拟现实与增强现实的场景图谱生成方法

Publications (2)

Publication Number Publication Date
CN111144492A true CN111144492A (zh) 2020-05-12
CN111144492B CN111144492B (zh) 2023-03-28

Family

ID=70520745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911374530.1A Active CN111144492B (zh) 2019-12-27 2019-12-27 面向移动端虚拟现实与增强现实的场景图谱生成方法

Country Status (1)

Country Link
CN (1) CN111144492B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100643A (zh) * 2022-08-26 2022-09-23 潍坊现代农业与生态环境研究院 融合三维场景语义的单目视觉定位增强方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753570A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于Horn逻辑与图神经网络的场景图谱向量化方法
CN109783666A (zh) * 2019-01-11 2019-05-21 中山大学 一种基于迭代精细化的图像场景图谱生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753570A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于Horn逻辑与图神经网络的场景图谱向量化方法
CN109783666A (zh) * 2019-01-11 2019-05-21 中山大学 一种基于迭代精细化的图像场景图谱生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAI WAN ET AL.: "Adversarial Attribute-Image Person Re-identification", 《ARXIV:1712.01493 》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100643A (zh) * 2022-08-26 2022-09-23 潍坊现代农业与生态环境研究院 融合三维场景语义的单目视觉定位增强方法和设备
CN115100643B (zh) * 2022-08-26 2022-11-11 潍坊现代农业与生态环境研究院 融合三维场景语义的单目视觉定位增强方法和设备

Also Published As

Publication number Publication date
CN111144492B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
Li et al. A novel CNN based security guaranteed image watermarking generation scenario for smart city applications
US10503978B2 (en) Spatio-temporal interaction network for learning object interactions
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN111597830A (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
AU2019430859A1 (en) Generative adversarial mechanism and attention mechanism-based standard face generation method
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN112052837A (zh) 基于人工智能的目标检测方法以及装置
CN114550223B (zh) 人物交互检测方法、装置及电子设备
CN113902007A (zh) 模型训练方法及装置、图像识别方法及装置、设备和介质
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN113869205A (zh) 对象检测方法、装置、电子设备和存储介质
CN116363261A (zh) 图像编辑模型的训练方法、图像编辑方法和装置
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
JP2023001926A (ja) 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN111144492B (zh) 面向移动端虚拟现实与增强现实的场景图谱生成方法
CN115292439A (zh) 一种数据处理方法及相关设备
CN117115584A (zh) 目标检测方法、装置和服务器
CN116049691A (zh) 模型转换方法、装置、电子设备和存储介质
CN116563426A (zh) 用于处理多模态数据的方法、装置、电子设备和介质
US20230409899A1 (en) Computer vision neural networks with learned tokenization
US11810351B2 (en) Video analytic processing with neuro-symbolic artificial intelligence
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant