CN108154235A - 一种图像问答推理方法、系统及装置 - Google Patents
一种图像问答推理方法、系统及装置 Download PDFInfo
- Publication number
- CN108154235A CN108154235A CN201711260799.8A CN201711260799A CN108154235A CN 108154235 A CN108154235 A CN 108154235A CN 201711260799 A CN201711260799 A CN 201711260799A CN 108154235 A CN108154235 A CN 108154235A
- Authority
- CN
- China
- Prior art keywords
- image
- answer
- question
- converted
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像问答推理方法、系统及装置,方法包括:将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;根据推理结果,得到问答结果。系统包括语言处理模块、视觉处理模块、多步推理模快和结果生成模块。装置包括存储器和处理器。本发明无需先验知识就能得到问答结果,提高了图像问答推理的准确率;另外,本发明通过采用batch normalization运算方法,能够对多层次多类型的问题进行推理,提高了泛化能力。本发明可广泛应用于自然语言处理领域。
Description
技术领域
本发明涉及自然语言处理领域,尤其是一种图像问答推理方法、系统及装置。
背景技术
基于视觉的问答推理是人工智能领域中一个重要的组成部分。使用深度神经网络的图像处理和自然语言处理已经在一些相对困难的任务中取得了巨大的突破,如物体识别任务和机器翻译任务。这些进展又反过来促进了那些同时涉及视觉和自然语言处理的任务。
目前,针对图像问答推理的训练数据集逐步开源,尤其是涉及需要多步骤、高层次思维处理的任务数据集。传统的深度学习模型很难对这些结构化的、多步骤的推理进行学习训练,且传统的深度学习方法更倾向于学习数据的表面特征(即过拟合)而非真正的推理,泛化能力较弱,另外,这种方法需要大量的先验知识作为训练的前提,而且最终得到的拟合模型的准确率较低。因此,需要建立一种新的深度学习架构来实现显式的推理或关系关联。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种无需先验知识就能直接进行学习推理的,准确率高且泛化能力强的图像问答推理方法、系统及装置。
本发明所采取的第一技术方案是:
一种图像问答推理方法,包括以下步骤:
将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;
采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;
根据推理结果,得到问答结果。
进一步,所述将输入的问题转换为问题特征向量这一步骤,包括以下步骤:
采用word2vec算法,将问题中的中文词语转换为词向量;
根据循环神经网络对转换的词向量进行处理,得到问题特征向量。
进一步,所述采用batch normalization运算方法,对转换得到的问题特征向量进行推理这一步骤,具体为:
对转换得到的问题特征向量进行参数计算,得到对应BN层的参数。
进一步,所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤,包括以下步骤:
通过ImageNet数据库对输入的图像进行预训练;
根据残差神经网络的卷积计算方法,对输入的图像进行特征向量提取。
进一步,所述采用batch normalization运算方法,对转换得到的图像特征向量进行推理这一步骤,包括以下步骤:
根据特征提取得到的图像特征向量,对BN层进行参数定义;
根据参数定义后的BN层,构造多步推理模型;
根据构造的多步推理模型,对特征提取得到的特征向量进行训练处理。
进一步,所述根据推理结果,得到问答结果这一步骤,包括以下步骤:
结合卷积层、池化层和全连接层构造分类器;
将对转换得到的问题特征向量和图像特征向量进行推理的结果输入构造得到的分类器,得到问题的答案的概率分布向量;
选取最大概率分布向量对应的答案作为最终答案。
进一步,还包括对输入的问题和图像进行弱监督训练的步骤。
进一步,所述对输入的问题和图像进行弱监督训练这一步骤,包括以下步骤:
将待训练的数据进行集中处理;
采用弱监督策略对集中处理后的待训练数据进行端对端训练;
采用可视化算法对训练的结果进行可视化观察。
本发明所采取的第二技术方案是:
一种图像问答推理系统,包括:
语言处理模块,用于将输入的问题转换为问题特征向量;
视觉处理模块,用于根据卷积神经网络将输入的图像转换为图像特征向量;
多步推理模块,用于采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;
结果生成模块,用于根据推理结果,得到问答结果。
本发明所采取的第三技术方案是:
一种图像问答推理装置,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行如第一技术方案所述的图像问答推理方法。
本发明的有益效果是:本发明通过直接对输入的问题和图像进行特征提取,以及采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理,无需先验知识就能得到问答结果,提高了图像问答推理的准确率;另外,本发明通过采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理,提高了泛化能力。
附图说明
图1为本发明一种图像问答推理方法的步骤流程图;
图2为本发明一种图像问答推理方法的整体结构框图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明一种图像问答推理方法,包括以下步骤:
将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;
采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;
根据推理结果,得到问答结果。
其中,batch normalization(简称BN)是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的一种运算方法。
进一步作为优选的实施方式,所述将输入的问题转换为问题特征向量这一步骤,包括以下步骤:
采用word2vec算法,将问题中的中文词语转换为词向量;
根据循环神经网络对转换的词向量进行处理,得到问题特征向量。
进一步作为优选的实施方式,所述采用batch normalization运算方法,对转换得到的问题特征向量进行推理这一步骤,具体为:
对转换得到的问题特征向量进行参数计算,得到对应BN层的参数。
其中,所述参数计算的公式为:
其中,m表示第m次参数计算,n表示当前参数计算下的第n个BN层,W表示变换矩阵,b表示偏置值,和表示待计算的参数,eq表示特征向量。
另外,和的下标中的“.”代表特征图的数量。
进一步作为优选的实施方式,所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤,包括以下步骤:
通过ImageNet数据库对输入的图像进行预训练;
根据残差神经网络的卷积计算方法,对输入的图像进行特征向量提取。
进一步作为优选的实施方式,所述采用batch normalization运算方法,对转换得到的图像特征向量进行推理这一步骤,包括以下步骤:
根据特征提取得到的图像特征向量,对BN层进行参数定义;
根据参数定义后的BN层,构造多步推理模型;
根据构造的多步推理模型,对特征提取得到的特征向量进行训练处理。
进一步作为优选的实施方式,所述根据推理结果,得到问答结果这一步骤,包括以下步骤:
结合卷积层、池化层和全连接层构造分类器;
将对转换得到的问题特征向量和图像特征向量进行推理的结果输入构造得到的分类器,得到问题的答案的概率分布向量;
选取最大概率分布向量对应的答案作为最终答案。
进一步作为优选的实施方式,还包括对输入的问题和图像进行弱监督训练的步骤。
进一步作为优选的实施方式,所述对输入的问题和图像进行弱监督训练这一步骤,包括以下步骤:
将待训练的数据进行集中处理;
采用弱监督策略对集中处理后的待训练数据进行端对端训练;
采用可视化算法对训练的结果进行可视化观察。
其中,端对端是指输入的图像特征向量和问题特征向量不需要经过额外处理就能直接输入网络,然后输出最终答案,这个答案也不需要进行后续处理。
参照图2,本发明一种图像问答推理系统,包括:
语言处理模块,用于将输入的问题转换为问题特征向量;
视觉处理模块,用于根据卷积神经网络将输入的图像转换为图像特征向量;
多步推理模块,用于采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;
结果生成模块,用于根据推理结果,得到问答结果。
与图1的方法相对应,本发明一种图像问答推理装置,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行本发明的图像问答推理方法。
本发明的图像问答推理方法的一个具体实施例的工作流程包括:
S1、利用word2vec、LSTM等自然语言处理技术,将输入问题转换为问题特征向量;
步骤S1具体包括以下步骤:
S11、采用word2vec算法将常用的中文词转换为词向量;
S12、采用LSTM(一种循环神经网络)处理问句:将问句中每个词的词向量输入LSTM,并输出表示该句子的问题特征向量。
S2、根据转换得到的问题特征向量进行参数计算;
步骤S2具体为:对于步骤S12输出的问题特征向量,采用下式计算CBN模块(即多步推理模块)的BN层(即规范层)的参数,
其中,m表示第m个多步推理模块,n表示该模块里第n个改进的BN层,W、b分别为变换矩阵及相应的偏置值。
S3、根据卷积神经网络将输入的图像转换为图像特征向量;
步骤S3具体包括以下步骤:
S31、通过ImageNet数据库对输入的图像进行预训练;
S32:根据残差神经网络的卷积计算方法,视觉处理模块采用ResNet-101的conv4层抽取输入图像的特征向量,维度是14×14。
S4、采用batch normalization运算方法,对转换得到的图像特征向量进行推理;
步骤S4具体包括以下步骤:
S41、定义CBN模块里改进的BN层:在传统BN层的定义式中加入改进的定义式,其中,所述传统BN层的定义式为:
本发明改进的定义式为:
γi,c=f(xi),βi,c=h(xi),
其中,F表示训练时的一个梯度,c为特征图的数量,h、w分别为特征图的高、宽,γc和βc表示在传统BN层里的第c个channel的需要训练的参数,ε表示用于维持训练过程稳定的阻尼因子,Var表示方差。在CBN模块里,γc、βc被扩展成函数,即f、h,它们可以是任意函数,如神经网络。在训练过程中,f、h可以用于学习如何控制视觉模块的输出的分布情况。
在实际训练过程中,为了防止的梯度过小,本实施例不直接使用γi,c,而是使用其大于1的部分,即下式:
Δγi,c=γi,c-1;
S42、构造CBN模块:每个CBN模块以1×1的卷积层开始,然后依次为ReLU层、两个3×3的卷积层、改进的BN层、ReLU层和dropout层,进而构造出CBN模块。这样,CBN模块可以对视觉处理模块的输出进行任意操作,比如放大、缩小、抑制和阈值等。
S5、根据推理的结果,得到问答结果;
步骤S5具体包括以下步骤:
S51:结合一层卷积层、全局最大池化层和两层MLP(全连接层)构造分类器;
S52:将步骤S2和步骤S4最终输出的所有特征向量输入分类器,输出答案的概率分布向量;
S53:取概率分布向量中的最大值对应的答案作为最终答案。
S6、对输入的问题和图像进行弱监督训练。
S61:在训练数据集中的图像是包含各种形状、材料、颜色和大小的3D渲染物体;而问题是涉及需要多步骤、高层次思维处理的问题,例如“有多少个与绿色的金属块一样形状的绿色物体?”,答案是28个可能答案中的一个。
S62:采用弱监督策略对集中处理后的待训练数据进行端对端训练,训练过程具体为:对形状(立方体)、相对位置(右)、某一类别的数目或关于如何回答这个问题等不需要分步的标签进行弱监督训练,训练的优化器采用的是Adam Optimizer,训练模式为端到端训练。
S63:训练完成后,采用可视化算法对训练的结果进行可视化观察:
步骤S63具体是指:通过T-SNE可视化算法将每一个CNB模块的参数转换为二维向量进行可视化观察。可以观察到整个推理过程是由低层次和高层次推理组成的。例如,低层的CBN参数的数值对于“询问颜色是否相同”和“询问是什么颜色”这两种问题是接近的,而高层的CBN参数的数值对于“询问颜色是否相同”和“询问形状是否相同”这两种问题是接近的,即本发明能够处理不同类型的问题及问题中不同的子任务。
综上所述,本发明一种图像问答推理方法、系统及装置具有以下优点:
1)、本发明通过直接对输入的问题和图像进行特征提取以及推理处理,无需先验知识就能得到问答结果。
2)、本发明根据卷积神经网络将输入的图像转换为图像特征向量,能够学习推理过程的基础推理结构,提高了图像问答推理的准确率。
3)、本发明通过batch normalization运算方法,能够进行多层次多类型的问题推理,提高了泛化能力。
4)、本发明采用基于多步推理模块的深度网络结构,不仅能够处理不同类型的问题,还能处理问题当中的子问题,实现了从低层次到高层次的推理过程。
5)、本发明的多步推理模块能够对视觉处理模块的输出结果进行放大、缩小、抑制和设置阈值等任意操作。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种图像问答推理方法,其特征在于:包括以下步骤:
将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;
采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;
根据推理结果,得到问答结果。
2.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述将输入的问题转换为问题特征向量这一步骤,包括以下步骤:
采用word2vec算法,将问题中的中文词语转换为词向量;
根据循环神经网络对转换的词向量进行处理,得到问题特征向量。
3.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述采用batchnormalization运算方法,对转换得到的问题特征向量进行推理这一步骤,具体为:
对转换得到的问题特征向量进行参数计算,得到对应BN层的参数。
4.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤,包括以下步骤:
通过ImageNet数据库对输入的图像进行预训练;
根据残差神经网络的卷积计算方法,对输入的图像进行特征向量提取。
5.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述采用batchnormalization运算方法,对转换得到的图像特征向量进行推理这一步骤,包括以下步骤:
根据特征提取得到的图像特征向量,对BN层进行参数定义;
根据参数定义后的BN层,构造多步推理模型;
根据构造的多步推理模型,对特征提取得到的特征向量进行训练处理。
6.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述根据推理结果,得到问答结果这一步骤,包括以下步骤:
结合卷积层、池化层和全连接层构造分类器;
将对转换得到的问题特征向量和图像特征向量进行推理的结果输入构造得到的分类器,得到问题的答案的概率分布向量;
选取最大概率分布向量对应的答案作为最终答案。
7.根据权利要求1所述的一种图像问答推理办法,其特征在于:还包括对输入的问题和图像进行弱监督训练的步骤。
8.根据权利要求7所述的一种图像问答推理方法,其特征在于:所述对输入的问题和图像进行弱监督训练这一步骤,包括以下步骤:
将待训练的数据进行集中处理;
采用弱监督策略对集中处理后的待训练数据进行端对端训练;
采用可视化算法对训练的结果进行可视化观察。
9.一种图像问答推理系统,其特征在于:包括:
语言处理模块,用于将输入的问题转换为问题特征向量;
视觉处理模块,用于根据卷积神经网络将输入的图像转换为图像特征向量;
多步推理模块,用于采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;
结果生成模块,用于根据推理结果,得到问答结果。
10.一种图像问答推理装置,其特征在于:包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行如权利要求1-8任一项所述的图像问答推理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711260799.8A CN108154235A (zh) | 2017-12-04 | 2017-12-04 | 一种图像问答推理方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711260799.8A CN108154235A (zh) | 2017-12-04 | 2017-12-04 | 一种图像问答推理方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108154235A true CN108154235A (zh) | 2018-06-12 |
Family
ID=62466417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711260799.8A Pending CN108154235A (zh) | 2017-12-04 | 2017-12-04 | 一种图像问答推理方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108154235A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086892A (zh) * | 2018-06-15 | 2018-12-25 | 中山大学 | 一种基于一般依赖树的视觉问题推理模型及系统 |
CN109408627A (zh) * | 2018-11-15 | 2019-03-01 | 众安信息技术服务有限公司 | 一种融合卷积神经网络和循环神经网络的问答方法及系统 |
CN109559345A (zh) * | 2018-10-19 | 2019-04-02 | 中山大学 | 一种服装关键点定位系统及其训练、定位方法 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110442690A (zh) * | 2019-06-26 | 2019-11-12 | 重庆兆光科技股份有限公司 | 一种基于概率推理的询问优化方法、系统和介质 |
CN112100346A (zh) * | 2020-08-28 | 2020-12-18 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
CN112446428A (zh) * | 2020-11-27 | 2021-03-05 | 杭州海康威视数字技术股份有限公司 | 一种图像数据处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN106682050A (zh) * | 2015-11-24 | 2017-05-17 | 北京中科汇联科技股份有限公司 | 一种实现智能问答的系统及方法 |
CN107240396A (zh) * | 2017-06-16 | 2017-10-10 | 百度在线网络技术(北京)有限公司 | 说话人自适应方法、装置、设备及存储介质 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
-
2017
- 2017-12-04 CN CN201711260799.8A patent/CN108154235A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN106682050A (zh) * | 2015-11-24 | 2017-05-17 | 北京中科汇联科技股份有限公司 | 一种实现智能问答的系统及方法 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN107240396A (zh) * | 2017-06-16 | 2017-10-10 | 百度在线网络技术(北京)有限公司 | 说话人自适应方法、装置、设备及存储介质 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
Non-Patent Citations (3)
Title |
---|
HARM DE VRIES 等: "Modulating early visual processing by language", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
MENGYE REN 等: "Exploring Models and Data for Image Question", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
THIBAUT DURAND 等: "WELDON: Weakly Supervised Learning of Deep Convolutional Neural", 《IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086892A (zh) * | 2018-06-15 | 2018-12-25 | 中山大学 | 一种基于一般依赖树的视觉问题推理模型及系统 |
CN109559345A (zh) * | 2018-10-19 | 2019-04-02 | 中山大学 | 一种服装关键点定位系统及其训练、定位方法 |
CN109559345B (zh) * | 2018-10-19 | 2023-04-11 | 中山大学 | 一种服装关键点定位系统及其训练、定位方法 |
CN109408627A (zh) * | 2018-11-15 | 2019-03-01 | 众安信息技术服务有限公司 | 一种融合卷积神经网络和循环神经网络的问答方法及系统 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110377710B (zh) * | 2019-06-17 | 2022-04-01 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110442690A (zh) * | 2019-06-26 | 2019-11-12 | 重庆兆光科技股份有限公司 | 一种基于概率推理的询问优化方法、系统和介质 |
CN110442690B (zh) * | 2019-06-26 | 2021-08-17 | 重庆兆光科技股份有限公司 | 一种基于概率推理的询问优化方法、系统和介质 |
CN112100346A (zh) * | 2020-08-28 | 2020-12-18 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
CN112100346B (zh) * | 2020-08-28 | 2021-07-20 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
CN112446428A (zh) * | 2020-11-27 | 2021-03-05 | 杭州海康威视数字技术股份有限公司 | 一种图像数据处理方法及装置 |
CN112446428B (zh) * | 2020-11-27 | 2024-03-05 | 杭州海康威视数字技术股份有限公司 | 一种图像数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108154235A (zh) | 一种图像问答推理方法、系统及装置 | |
CN107909101B (zh) | 基于卷积神经网络的半监督迁移学习字符识别方法及系统 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN110750665A (zh) | 基于熵最小化的开集域适应方法及系统 | |
CN109299716A (zh) | 神经网络的训练方法、图像分割方法、装置、设备及介质 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN107909153A (zh) | 基于条件生成对抗网络的模型化策略搜索学习方法 | |
WO2016145675A1 (zh) | 一种基于分段的两级深度学习模型的大数据处理方法 | |
CN110309835B (zh) | 一种图像局部特征提取方法及装置 | |
CN110059716A (zh) | 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法 | |
CN109871892A (zh) | 一种基于小样本度量学习的机器人视觉认知系统 | |
Vallet et al. | A multi-label convolutional neural network for automatic image annotation | |
CN115222946B (zh) | 一种单阶段实例图像分割方法、装置以及计算机设备 | |
CN113963165A (zh) | 一种基于自监督学习的小样本图像分类方法及系统 | |
CN109657791A (zh) | 一种基于大脑神经突触记忆机制的面向开放世界连续学习方法 | |
CN111553227A (zh) | 基于任务指导的轻量级人脸检测方法 | |
CN113420827A (zh) | 语义分割网络训练和图像语义分割方法、装置及设备 | |
CN116796810A (zh) | 一种基于知识蒸馏的深度神经网络模型压缩方法及装置 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN109426859A (zh) | 神经网络训练系统、方法和计算机可读存储介质 | |
CN113205102B (zh) | 一种基于忆阻神经网络的车辆标志识别方法 | |
Cai et al. | Soft and hard filter pruning via dimension reduction | |
Zheng et al. | Fruit tree disease recognition based on convolutional neural networks | |
CN111145221A (zh) | 一种基于多层深度特征提取的目标跟踪算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180612 |
|
RJ01 | Rejection of invention patent application after publication |