CN111144492A - 面向移动端虚拟现实与增强现实的场景图谱生成方法 - Google Patents
面向移动端虚拟现实与增强现实的场景图谱生成方法 Download PDFInfo
- Publication number
- CN111144492A CN111144492A CN201911374530.1A CN201911374530A CN111144492A CN 111144492 A CN111144492 A CN 111144492A CN 201911374530 A CN201911374530 A CN 201911374530A CN 111144492 A CN111144492 A CN 111144492A
- Authority
- CN
- China
- Prior art keywords
- scene
- visual
- mobile terminal
- information
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000003190 augmentative effect Effects 0.000 title claims abstract description 30
- 230000000007 visual effect Effects 0.000 claims abstract description 89
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Graphics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本发明提供面向移动端虚拟现实和增强现实的场景图谱生成方法,涉及场景图谱领域。包括:利用场景图谱样本集,提取视觉关系组合、常识信息;通过目标检测模型检测出图像中物体的物体框及其物体类别;获取与物体对应的语义信息,根据常识信息进一步构造常识知识图,生成视觉关系f1;提取物体框区域的视觉信息,生成视觉关系f2;结合常识信息和视觉信息,通过注意力机制将f1、f2结合,生成场景图谱,获得并优化场景图谱生成模型。本发明在移动端运行场景图谱生成模型,能快速识别虚拟现实或增强现实画面中目标物体及物体之间的关系,相比服务器端检测具有更高的检测效率,为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。
Description
技术领域
本发明涉及场景图谱表示学习相关领域,更具体地,涉及面向移动端虚拟现实与增强现实的场景图谱生成方法。
背景技术
随着移动设备的普及和其计算能力的提高,在移动设备中虚拟现实与增强现实应用也随之发展。虚拟现实是利用计算机生成的一种模拟环境,使用户沉浸到该环境中。增强现实技术使现实世界信息和虚拟世界信息内容综合在一起,被人类感官所感知,从而实现超越现实的感官体验。为了使虚拟现实和增强现实的系统更好地被人类感知,系统有必要对现实世界进行理解,场景图谱是机器对现实世界图像进行理解的关键步骤。从现实场景对应的场景图谱中抽象出视觉关系,有利于机器对现实场景的理解。
图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说,图像场景图谱以图像场景图谱视觉关系组合(主语物体、关系谓词、宾语物体)的方式记录了图像中的两个物体以及两个物体之间的关系,并且每个物体在图像中都有一个对应的物体框和物体类别。图像场景图谱最先由Johnson等人提出,近来在计算机视觉和人工智能领域受到了关注。其中视觉关系组合对图像理解、图像描述等任务有很大的帮助。
以往的场景图谱生成方法,大多是利用图像的视觉信息,没有充分利用到与图像相关的一些常识信息,这些常识信息有利于为我们对图像上物体关系的理解,所以本发明提出了一个基于常识知识图的场景图谱生成方法,该方法结合了图像的视觉信息和收集的常识信息进行场景图谱生成。
随着神经网络的发展和移动终端的普及,移动终端可以应用一些神经网络模型,与虚拟现实和增强现实技术结合,使得用户能有更好的体验。在移动端虚拟现实和增强现实场景下进行场景图谱生成,有助于机器对图像场景的理解,为后续有关图像问答、图像理解等技术提供支持。本发明为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。
发明内容
为了解决现有技术所存在的问题,本发明提供面向移动端虚拟现实与增强现实的图像场景图谱生成方法,在移动端运行场景图谱生成模型,能够快速识别虚拟现实或增强现实画面中目标物体及物体之间的关系,相比服务器端的检测,具有更高的检测效率。
本发明的技术方案如下:面向移动端虚拟现实与增强现实的图像场景图谱生成方法,包括以下步骤:
S1、利用场景图谱样本集,提取并统计视觉关系组合,提取常识信息;
S2、通过训练好的目标检测模型检测出场景图谱样本集图像中的物体,生成若干个候选区域,并预测出候选区域对应的物体类别;
S3、根据步骤S2得到的物体类别获取与物体对应的语义信息,再根据步骤S1所提取的常识信息,进一步构造常识知识图,生成初步的视觉关系f1;
S4、通过神经网络模型提取所述候选区域的视觉信息,包括视觉特征、空间特征和语义特征,生成初步的视觉关系f2;
S5、结合视觉信息和常识信息,通过注意力机制,将初步的视觉关系f1、初步的视觉关系f2的检测结果结合,进行场景图谱生成,并得到场景图谱生成模型;
S6、虚拟现实与增强现实系统包括移动端、计算机显示终端,对得到的场景图谱生成模型进行常识知识图和模型参数的优化,从而获取能够嵌入移动端的模型;以现实场景图像作为输入,并传输给计算及显示终端;计算及显示终端接收到现实场景图像,进行场景图谱生成,抽取对应现实场景图的视觉关系,叠加在现实场景图像中,获得当前现实或虚拟场景的场景图谱。
与现有技术相比,本发明技术方案的有益效果是:
在移动端虚拟现实与增强现实系统中应用场景图谱生成有利于系统对虚拟世界或现实世界的理解,有助于现实世界与虚拟世界的交互。所述场景图谱生成方法不仅利用了图像的视觉信息,还充分利用了数据集视觉关系组合隐藏的常识信息,通过结合注意力机制,生成图像场景图谱,能够提高图像场景图谱表示学习的效果。更进一步的,针对场景图谱生成模型的特点对模型进行优化,生成适用于移动端的场景图谱生成模型,可以缩小模型大小,并且提高模型的推理速度,为面向移动端虚拟现实和增强现实进行场景图谱生成提供技术可行性。
附图说明
图1为本发明实施例提供的场景图谱生成方法的流程示意图;
图2为本发明实施例提供的场景图谱生成的框架中视觉信息的框架示意图;
图3为本发明实施例提供的面向移动端虚拟现实与增强现实的场景图谱生成方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明做详细描述,可以理解的是,在本发明所描述的具体示例性实施方式仅用于解释本发明,而非对本发明进行限定,本发明的实施方式并不限于此。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分。对于本领域普通技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本实施例的面向移动端虚拟现实与增强现实的场景图谱生成方法,样本集中的所有的图像记为所有的物体类别记为所有的关系类别记为输入图像I的场景图谱(所有的视觉关系组合)记为输入图像I的物体集合记为一条视觉关系组合记为其中
本发明结合图像信息以及常识信息完成图像场景图谱生成任务。如图1所示,包括以下步骤:
步骤1、利用场景图谱样本集,提取并统计视觉关系组合,提取常识信息;在场景图谱样本集中,一条视觉关系组合标记为(s,p,o),其中s代表主语物体,o代表宾语物体,p代表关系谓词;
S11、将场景图谱样本集进行采样得到样本数据集,作为场景图谱生成方法的输入;
S21、首先对样本数据集中的图像用训练好的目标检测模型生成若干个候选区域,也就是物体框,并且预测出候选区域对应的物体类别。该步骤可以使用神经网络目标检测框架来实现。
S22、基于步骤S21,提取出物体框,记为b=(xmin,ymin,xmax,ymax),其中xmin和ymin表示物体框左上角的坐标,xmax和ymax表示物体框右下角的坐标;
S23、预测每个物体框对应的物体类别c;对于每个物体,表示为o=(c,b),其中c表示物体类别,b表示物体框,为后面步骤进行特征编码做准备。
步骤3、根据步骤2得到的物体类别获取与物体对应的语义信息,再根据步骤1所提取的常识信息,进一步构造常识图,生成初步的视觉关系f1;
本步骤所生成的初步的视觉关系f1与常识信息有关。本步骤将视觉关系组合的统计作为输入,根据步骤S2得到的物体类别c来获取与物体对应的语义信息,且语义信息也作为常识信息,再结合步骤1所提取的常识信息,进一步构造常识知识图,获得初步的视觉关系f1。其中视觉关系通过视觉关系组合的形式表示,即(s,p,o),每个视觉关系组合对应一个概率,筛选出比阈值大的视觉关系组合,例如,包括但不限于0.5。
步骤4、通过神经网络模型提取步骤2所生成的候选区域的视觉信息,包括视觉特征、空间特征和语义特征,生成初步的视觉关系f2;
如图2所示,具体生成过程如下:
S41、将检测出来的一对物体s和o,分别表示主语物体和宾语物体,通过训练好的神经网络模型提取视觉特征,例如,包括但不限于VGG16,编码成300维的视觉特征vapp;
S42、将检测出来的一对物体s和o,获取他们的位置信息,依次通过降采样、掩膜、卷积神经网络和全连接层,获取空间特征:
a)降采样指将物体s和o物体框的像素降采样到32*32大小;
b)掩膜指物体s或o的物体框所包围的地方置为1,图像的其他地方置为0,再将物体s和o的掩膜拼为一个数组;
c)将该数组通过神经网络模型(包括三层卷积神经网络和两层全连接层)编码成300维的空间特征,记为空间特征编码vspa;
S43、将预测出来的物体类别c,获取对应的词向量,从而获取语义特征。具体做法是通过在训练集训练的Word2Vec模型,获取对应的词向量,获取对应物体类别的一个128维的语义特征编码,记为vw;
S44、将视觉特征、空间特征和语义特征融合为视觉信息,从而生成初步的视觉关系f2。
具体步骤如下:
a)将视觉特征和空间特征连接concate{vapp,vspa}作为特征v1;
b)将组合的两个物体的主语物体类别的语义特征、特征v1、宾语主体类别的语义特征输入双向递归神经网络当中(Bi-RNN);选择双向递归神经网络是由于在视觉关系中主语物体、关系谓词、宾语物体是有顺序的,主语物体和宾语物体一旦反过来,可能就是有不一样的关系谓词,双向递归神经网络可以适应这个特点。
c)根据上一步骤b),对于每一对物体通过双向递归神经网络会输出一个概率表,再通过一层归一化处理后,概率表的数值范围会在(0,1),该概率表表示这一对物体之间的一个关系概率分布,从而我们可以得到初步的视觉关系f2;
步骤5、结合视觉信息和常识信息,通过注意力机制,将以上两个初步的视觉关系检测结果结合,进行场景图谱生成,并得到场景图谱生成模型。即根据步骤3和步骤4分别生成的视觉关系f1和f2,通过注意力机制进行结合,具体如下:
an=ReLU(Wfn+b)
最后得到视觉关系f3,计算场景图谱生成模型的损失值,用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并反向传播更新层级神经网络参数。损失值采用交叉熵作为损失函数,损失函数定义如下:
Li=-wL log(fi)
对场景图谱生成模型的生成结果进行谓词检测、短语检测、关系检测,以验证这种场景图谱生成模型的有效性。
a)所述谓词检测任务就是输入图像以及标好的物体的物体框和物体类别,预测这两个物体之间的关系谓词,关系谓词预测正确即该视觉关系组合正确;
b)所述短语检测任务就是输入图像,预测物体以及物体之间的关系,视觉关系组合正确,并且包住两个物体的物体框与数据集标好的物体框的交并比(IOU)大于一个阈值,例如,包括但不限于0.5,则该视觉关系组合正确,否则,该视觉关系组合错误;
c)所述关系检测任务就是输入图像,预测物体以及物体之间的关系,视觉关系组合正确,并且两个物体的物体框与数据集标好的物体框分别的交并比(IOU)大于一个阈值,例如,包括但不限于0.5,则该视觉关系组合正确,否则,该视觉关系组合错误,会比上面一个任务的条件严格。
步骤6、对上述场景图谱生成模型中的常识知识图和模型参数进行优化,生成能够嵌入移动端的模型;以现实场景图像作为输入,并传输给计算及显示终端;计算及显示终端接收到现实场景图像,进行场景图谱生成,抽取对应现实场景图的视觉关系,叠加在现实场景图像中,获得当前现实或虚拟场景的场景图谱。
如图3所示,虚拟现实与增强现实系统包括移动端、计算机显示终端,将场景图谱生成模型和数据导入移动端,具体包括以下步骤:
S61、将上述场景图谱生成模型导入移动端。具体包括以下步骤:
获取场景图谱生成模型,针对场景图谱生成模型的特点对模型进行优化处理,生成适用于在移动端调用人工智能硬件的模型,可以有效提高模型在移动端的运行速度。针对本专利提出的场景图谱生成模型的特点,可以进行以下两方面的优化。
第一是针对常识知识图的优化,留下出现频率高的关系。对常识知识图的优化方式如下:
其中式中,表示两个物体之间的关系,分别表示主语物体和宾语物体的物体类别,threshold表示阈值。P(p|cs,co)表示cs和co之间是p关系的概率,wp表示优化后的常识知识图中cs和co之间是p关系的概率。
第二是对提取主语物体和宾语物体之间关系的部分模型参数进行优化,优化可以将模型大小缩小为原来的四分之一,同时提高运行速度,精度的损失在可接受范围内。优化的方式如下:
internalr=max-min
internalq=2B-0
quant=Round((real-min)*internalq/internalr)
其中real表示原始数据的浮点数,quant表示量化整数,Round(*)表示取最接近的整数,B表示量化的比特数,比如量化为8bit整数,则B=8,max、min分别表示原始数据的最大值、最小值。而模型在加载时,可以通过反量化将模型参数恢复成原来的数值,从而不影响模型的效果。将场景图谱生成模型部署在移动端,调用移动端的人工智能硬件进行加速,提高运行速度。
S62、移动端获取现实场景图像,并传输给计算及显示终端。
S63、计算及显示终端接收到现实场景图像,用目标检测模型进行目标提取,检测出图像中包含的目标物体,确定每个物体的物体框和物体类别。记为:物体框b=(xmin,ymin,xmax,ymax)和物体类别c,其中xmin和ymin表示物体框左上角的坐标,xmax和ymax表示物体框右下角的坐标;
S64、用以上获取到的现实场景图像和检测到的物体进行场景图谱生成,抽取对应现实场景的视觉关系,叠加在现实场景图像中。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,包括以下步骤:
S1、利用场景图谱样本集,提取并统计视觉关系组合,提取常识信息;
S2、通过训练好的目标检测模型检测出输入场景图谱样本集图像中的物体,生成若干个物体框,并预测出物体框对应的物体类别;
S3、根据步骤S2得到的物体类别获取与物体对应的语义信息,再根据步骤S1所提取的常识信息,进一步构造常识知识图,生成初步的视觉关系f1;
S4、通过神经网络模型提取所述物体框的视觉信息,包括视觉特征、空间特征和语义特征,生成初步的视觉关系f2;
S5、结合视觉信息和常识信息,通过注意力机制,将初步的视觉关系f1、初步的视觉关系f2的检测结果结合,进行场景图谱生成,并得到场景图谱生成模型;
S6、虚拟现实与增强现实系统包括移动端、计算机显示终端,对得到的场景图谱生成模型进行常识知识图和模型参数的优化,从而获取能够嵌入移动端的模型,以现实场景图像作为输入,并传输给计算及显示终端;计算及显示终端接收到现实场景图像,进行场景图谱生成,抽取对应现实场景图的视觉关系,叠加在现实场景图像中,获得当前现实或虚拟场景的场景图谱。
2.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S1所利用的场景图谱样本集中,视觉关系组合标记为(s,p,o),其中s代表主语物体,o代表宾语物体,p代表关系谓词。
4.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S1将场景图谱样本集进行采样得到样本数据集,作为场景图谱生成方法的输入;步骤S2包括:
S21、首先对样本数据集中的图像用训练好的目标检测模型生成若干个候选区域,也就是物体框,并且预测出物体框对应的物体类别;
S22、基于步骤S21,提取出物体框,记为b=(xmin,ymin,xmax,ymax),其中xmin和ymin表示物体框左上角的坐标,xmax和ymax表示物体框右下角的坐标;
S23、预测每个物体框对应的物体类别c;对于每个物体,表示为o=(c,b),其中c表示物体类别,b表示物体框。
5.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S3将视觉关系组合的统计作为输入,根据步骤S2得到的物体类别来获取与物体对应的语义信息,且语义信息也作为常识信息,再结合步骤1所提取的常识信息,进一步构造常识知识图,获得初步的视觉关系f1。
6.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S4包括:
S41、将检测出来的一对物体s和o,分别表示主语物体和宾语物体,通过训练好的神经网络模型提取视觉特征,编码成视觉特征;
S42、将检测出来的一对物体s和o,获取他们的位置信息,依次通过降采样、掩膜、卷积神经网络和全连接层,获取空间特征;
S43、将预测出来的物体类别c,获取对应的词向量,从而获取语义特征;
S44、将视觉特征、空间特征和语义特征融合为视觉信息,从而生成初步的视觉关系f2。
7.根据权利要求1所述的面向移动端虚拟现实和增强现实的场景图谱生成方法,其特征在于,步骤S6包括:
S61、对场景图谱生成模型中的常识知识图和模型参数进行优化处理,将优化后的场景图谱生成模型导入应用虚拟现实和增强现实的移动端;
S62、移动端获取现实场景图像,并传输给计算及显示终端;
S63、计算及显示终端接收到现实场景图像,用目标检测模型进行目标提取,检测出图像中包含的物体,确定每个物体的物体框和物体类别;
S64、用获取到的现实场景图像和检测到的物体进行场景图谱生成,抽取对应现实场景的视觉关系,叠加在现实场景图像中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374530.1A CN111144492B (zh) | 2019-12-27 | 2019-12-27 | 面向移动端虚拟现实与增强现实的场景图谱生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374530.1A CN111144492B (zh) | 2019-12-27 | 2019-12-27 | 面向移动端虚拟现实与增强现实的场景图谱生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144492A true CN111144492A (zh) | 2020-05-12 |
CN111144492B CN111144492B (zh) | 2023-03-28 |
Family
ID=70520745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911374530.1A Active CN111144492B (zh) | 2019-12-27 | 2019-12-27 | 面向移动端虚拟现实与增强现实的场景图谱生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144492B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100643A (zh) * | 2022-08-26 | 2022-09-23 | 潍坊现代农业与生态环境研究院 | 融合三维场景语义的单目视觉定位增强方法和设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753570A (zh) * | 2019-01-11 | 2019-05-14 | 中山大学 | 一种基于Horn逻辑与图神经网络的场景图谱向量化方法 |
CN109783666A (zh) * | 2019-01-11 | 2019-05-21 | 中山大学 | 一种基于迭代精细化的图像场景图谱生成方法 |
-
2019
- 2019-12-27 CN CN201911374530.1A patent/CN111144492B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753570A (zh) * | 2019-01-11 | 2019-05-14 | 中山大学 | 一种基于Horn逻辑与图神经网络的场景图谱向量化方法 |
CN109783666A (zh) * | 2019-01-11 | 2019-05-21 | 中山大学 | 一种基于迭代精细化的图像场景图谱生成方法 |
Non-Patent Citations (1)
Title |
---|
HAI WAN ET AL.: "Adversarial Attribute-Image Person Re-identification", 《ARXIV:1712.01493 》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100643A (zh) * | 2022-08-26 | 2022-09-23 | 潍坊现代农业与生态环境研究院 | 融合三维场景语义的单目视觉定位增强方法和设备 |
CN115100643B (zh) * | 2022-08-26 | 2022-11-11 | 潍坊现代农业与生态环境研究院 | 融合三维场景语义的单目视觉定位增强方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111144492B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
Li et al. | A novel CNN based security guaranteed image watermarking generation scenario for smart city applications | |
US10503978B2 (en) | Spatio-temporal interaction network for learning object interactions | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN112052837A (zh) | 基于人工智能的目标检测方法以及装置 | |
CN114550223B (zh) | 人物交互检测方法、装置及电子设备 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN113869205A (zh) | 对象检测方法、装置、电子设备和存储介质 | |
JP2023001926A (ja) | 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN116049691A (zh) | 模型转换方法、装置、电子设备和存储介质 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN111144492B (zh) | 面向移动端虚拟现实与增强现实的场景图谱生成方法 | |
Xu et al. | SFRNet: Feature Extraction‐Fusion Steganalysis Network Based on Squeeze‐and‐Excitation Block and RepVgg Block | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN117115584A (zh) | 目标检测方法、装置和服务器 | |
US20230409899A1 (en) | Computer vision neural networks with learned tokenization | |
CN117034133A (zh) | 一种数据处理方法、装置、设备和介质 | |
US11810351B2 (en) | Video analytic processing with neuro-symbolic artificial intelligence | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
WO2024174583A9 (zh) | 一种模型训练方法、装置、设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |