CN111598155A - 一种基于深度学习的细粒度图像弱监督目标定位方法 - Google Patents
一种基于深度学习的细粒度图像弱监督目标定位方法 Download PDFInfo
- Publication number
- CN111598155A CN111598155A CN202010405216.1A CN202010405216A CN111598155A CN 111598155 A CN111598155 A CN 111598155A CN 202010405216 A CN202010405216 A CN 202010405216A CN 111598155 A CN111598155 A CN 111598155A
- Authority
- CN
- China
- Prior art keywords
- image
- language
- network
- fine
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 230000004807 localization Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度学习的细粒度图像弱监督目标定位方法,用于解决仅使用易于收集的弱监督的语言描述信息来识别和定位细粒度图像的问题。本发明直接在图像的像素级别上和语言描述的word进行模态间的细粒度语义对齐。把图像输入到卷积神经网络中提取特征向量,同时对语言描述进行编码,提取出语言描述的特征向量。将卷积特征图和语言描述特征向量进行特征匹配,并对特征匹配图进行处理,得到目标的显著图,根据特征匹配图得到最终定位的结果。本发明在不需要强监督的标注边界框的情况下,解决了细粒度图像的弱监督目标定位。
Description
技术领域
本发明涉及深度学习中图像-文本目标定位技术领域,该方法以期能在细粒度图像数据集上快速准确的定位目标。
背景技术
探索图像与其自然语言之间的相关性一直是计算机视觉中的一个重要研究领域,它与图像和文本的双向检索,图像标注,视觉问答(VQA),图像嵌入和zero-shot learning密切相关。人类使用语言概念来描述他们看到的图像,尤其是如何区分细粒度图像,因此图像与其语言描述之间存在强烈的相关性。目标检测在图像领域中也有很宽广的应用,但是现在的很多定位方法非常依赖昂贵而且难以获得的强监督标签。而图像和其语言描述在现实世界中广泛存在,非常容易获得。所以使用图像和语言描述之间的关系来定位图像中的对象具有重要意义。这需要我们对细粒度图像定位的更深入的探索。
在先前的一些细粒度和语言描述的匹配工作中,他们只是在全局语义上进行图像和语言描述的匹配,图像的细粒度信息没有得到充分的体现。因为同一个图像是由不同的人来描述,描述图像的方式有很大的不同。所以,文本的全局语义信息不是很清晰,每个句子中表达的局部词语在图像中也不能很好地反映出来。所以这些方法不仅不能挖掘图像中的细粒度信息,而且还不能定位细粒度图像中的目标。在一些细粒度的图像定位和分类方法中,他们使用强监督的信息进行定位和分类的,如边界框,物体部位和部位标记。然而,在实际应用中,获得这些强监督标记是非常昂贵的。
目标检测是计算机视觉的重要领域。R-CNN是两阶段的对象检测器,这是将深度学习应用于对象检测器的第一项工作。R-CNN使用选择性搜索生成兴趣区域(RoI),然后使用SVM分类器进行分类。然后Faster R-CNN使用区域提议网络(RPN)生成RoI,它可以端到端训练网络并进一步提高检测器的速度。为了获得细粒度图像与语言描述之间的足够的关系信息,一些模型使用ground-truth作为监督信息,提取特定图像区域,然后与语言描述信息对齐以获得更好的对齐效果。但是,这些方法仅与单个向量空间的匹配有关,而忽略了图像和语言描述之间的细粒度关系,其他工作则需要强的监督信息。本方法提出了一种新的方法,在仅使用弱监督语言描述来解决上述问题,并取得很好的定位效果,并且该模型还具有强大的zero-shotlearning能力,可以轻松迁移到其他数据集。
发明内容
本发明的目的在于,针对上述方法的不足,仅使用易于收集的弱监督的语言描述信息来识别和定位细粒度图像,并且能够达到很好的定位精度。
实现本发明方法的主要思路是:我们观察到目标对象及其属性经常出现在图像的语言描述当中。由于细粒度图像具有较大的类内差异和较小的类间差异,目标各个部位与语言描述中的属性信息之间的对应关系对于区分物体是非常有用的。因此,我们提出了一个新的框架来匹配和定位细粒度图像。本发明方法直接在图像的像素级别上和语言描述的word进行模态间的细粒度语义对齐。我们把图像输入到卷积神经网络中提取特征向量,同时对语言描述进行编码,提取出语言描述的特征向量。我们将卷积特征图和语言描述特征向量进行特征匹配,并对特征匹配图进行处理,得到目标的显著图,根据特征匹配图得到最终定位的结果。
根据上述主要思路,本发明方法的具体实现包括如下步骤:
步骤1:准备数据集
每个样本均包括一张图像及对应的语言描述句子。
步骤2:构建图像和语言两路网络模型
网络模型是分为图像编码网络和语言编码网络,图像编码网络负责提取并编码图像语义特征向量,语言网络负责提取并编码语言语义特征向量,然后根据损失函数处理两个网络的语义特征向量。
步骤3:训练网络模型
对两个网络模型,利用训练样本集,将训练集中的图像和语言分别前向传播经过该模型的两路,然后将经过该网络计算后得到的损失用反向传播算法调整网络权重,不断迭代训练两路模型,得到训练后的网络模型。
步骤4:计算图像和语言的相似度显著图并定位目标
从步骤三中训练得到的两个网络模型后,将测试样本集中的每张图像和对应的语言作为输入分别作为两个网络模型的输入,经前向传播得到测试样本集的图像和语言的语言编码特征向量,然后进行相似度的计算(点积),得到相似度显著图maskmap,然后根据maskmap矩阵的平均值作为阈值筛选目标,然后经过FloodFill算法处理点噪音点,最后根据显著区域的最小外接四边形得到目标位置
本发明与现有技术相比,具有以下明显的优势和有益效果:本发明提出一种基于深度学习的弱监督定位方法,采用图像和语言两路网络模型,训练出的网络模型能够对图像和语言进行语义编码,实现端到端的学习和目标定位。网络能将从不同模态的数据进行语义编码,计算相关性关系,在不需要强监督的标注边界框的情况下,解决了细粒度图像的弱监督目标定位。
附图说明
图1为本发明所涉及方法总流程框图;
图2为本发明所涉及的细粒度图像定位网络模型的架构图;
图3为本发明所涉及的图像编码网络结构;
图4为本发明所涉及的语言编码网络结构;
图5为本发明所涉及的相似度计算和定位方法图;
具体实施方式
下面结合附图对本发明的技术方案做进一步的描述,附图1为本发明所涉及方法整体流程图。
步骤1,划分数据集
本发明所述方法实施过程中的数据库来源于公开标准数据集CUB-200-2011,该数据集包含有11788张鸟类彩色图片,该数据集共有200类,每一类约60张图像,该数据集是一个多标签数据集,每一张图片有对应的十句语言描述。将图像数据集分成两部分,一部分作为测试样本集,用于测试效果,另一部分作为训练样本集,作为训练网络模型的训练数据。
步骤2:构建图像和语言两路网络模型
图像-语言定位网络模型的结构是双路结构,一路用来处理和编码图像,提取图像语义特性向量,另一路用来处理和编码语言,提取语言语义特征向量。在具体实施过程中,图像编码网络采用在ImageNet数据集上进行预训练的VGG-16模型,并移除全连接层,然后进行多尺度特征融合,将高层的特征图进行扩展并和低层特征进行融合,具体融合参数如图3所示,网络输入尺寸宽高为224*224的三通道RGB图像。网络采用3*3的卷积核进行卷积,输出28*28*512的特征图,宽高为28,通道维数为512。图像网络也可替换成GoogleNet,ResNet-50,ResNet-101等网络模型,定位效果会更好。语言编码网络分别使用了3层和6层的多头自注意力模型进行试验,如图4所示。语言编码网络输入固定长度的文本,并输出等长的语言语义特征表示,本实验输出为16*512,其他可以根据文本长度自行调整。根据得到的图像和语言语义特征表示,我们进行点积输出掩码图,为后面网络模型训练和目标定位提供显著性特征图。
步骤3:训练网络模型
根据步骤2构建的网络模型,网络结构和处理过程如图2所示,在训练过程中,将训练数据集中的图像和语言分别经前向传播通过两个网络模型后,得到对应的图像语义编码I(w,h,d)(w,h:宽和高,d:通道维数)和语言语义编码Tl*d(l:长度,d:通道维度),然后做点积,得到匹配特征图Mw,h,l(w,h:宽和高,l:长度),如公式1所示。
Mw,h,l=InTn (1)
其中w、h是特征图的宽度和高度,l是匹配特征图通道的长度。然后对匹配特征图Mw,h,l在通道维度上求和,得到这相当于将对齐的局部特征积累在一起。然后对求平均值然后在匹配特征图上选出大于平均值的点,如公式(2)所示,并把这些点的平均值作为最终得分Sw,h。这样做的既能减少由噪音带来的错误,也能将word对齐到图像的多个区域,减少错误的对齐方式带来的误差。
为了优化匹配的准确率,我们使用排序损失函数公式(3)进行网络的训练和优化。
其中,S(I,T)(I:图像特征表示,T:语言特征表示)表示图像和语言描述之间的相似度得分,Timp、Iimp(imp:随机数)表示在同一批次中随机挑选的语言描述和图像,M是相似度距离的超参数。根据经验,我们设置超参数M大小为0.2。
计算得到每幅训练图像和其对应语言的损失值,将其用反向传播算法反向传播到网络各层,更新调整网络模型各层间的连接权值,如此循环迭代n次,最终得到训练后的网络模型。在实施例中,设置n的值为100000。
步骤4:计算图像和语言的相似度显著图并定位目标
从步骤三中训练得到的两个网络模型后,将测试样本集中的每张图像和对应的语言作为输入分别作为两个网络模型的输入。将数据集中的图像和语言分别经前向传播通过两个网络模型后,得到对应的图像语义编码In和语言语义编码Tn,然后做点积,得到匹配特征图,如公式1所示。然后我们根据公式2筛选出显著区域,整个融合过程如图5所示,然后经过FloodFill(泛洪填充)算法处理点噪音点,最后根据显著区域的最小外接四边形得到目标位置。如表1所示,我们的方法能够根据语言达到很好的图像目标定位效果。为了更好的语言在细粒度图像的定位效果,我们使用10个句子的平均掩码时,平均定位准确率为65.60%,使用每个句子的平均定位准确率为60.45%。当我们过滤出最佳的句子描述进行定位时,定位的平均准确率达到86.06%,结果如表2所示,它优于现有的弱监督目标定位方法。
表1、本发明所涉及的细粒度图像定位网络模型的定位效果
表2、本发明使用不同层数网络结构和不同筛选方法的定位结果
Claims (3)
1.一种基于深度学习的细粒度图像弱监督目标定位方法,其特征在于包含以下步骤:
步骤1:准备数据集
数据集中每个样本均包括一张图像及对应的语言描述句子;
步骤2:构建图像和语言两路网络模型
图像编码网络和语言编码网络构成并列的网络结构,图像编码网络负责提取并编码图像语义特征向量,语言网络负责提取并编码语言语义特征向量;
步骤3:训练网络模型
对并列的网络结构,利用步骤1准备的训练样本集,将图像输入图像编码网络,将对应的语言描述句子输入语言编码网络,经过前向传播,然后将经过该网络计算后得到的损失用反向传播算法调整网络权重,不断迭代训练两路模型,得到训练后的网络模型;
步骤4:计算图像和语言的相似度显著图并定位目标
从步骤3训练得到并列网络结构后,将待测试的图像和对应的语言分别作为图像网络模型和语言网络模型的输入,经前向传播得到待测试对象的编码图像语义特征向量In和对应的编码语言语义特征向量Tn,然后对In和Tn进行相似度的计算,即点积运算,得到相似度显著图,然后根据相似度矩阵的平均值作为阈值筛选目标,经过泛洪填充算法处理点噪音点,最后根据显著区域的最小外接四边形得到目标位置。
2.根据权利要求1所述的一种基于深度学习的细粒度图像弱监督目标定位方法,其特征在于:步骤3中所述损失函数优选排序损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405216.1A CN111598155A (zh) | 2020-05-13 | 2020-05-13 | 一种基于深度学习的细粒度图像弱监督目标定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405216.1A CN111598155A (zh) | 2020-05-13 | 2020-05-13 | 一种基于深度学习的细粒度图像弱监督目标定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111598155A true CN111598155A (zh) | 2020-08-28 |
Family
ID=72190835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010405216.1A Pending CN111598155A (zh) | 2020-05-13 | 2020-05-13 | 一种基于深度学习的细粒度图像弱监督目标定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598155A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418351A (zh) * | 2020-12-11 | 2021-02-26 | 天津大学 | 基于全局与局部上下文感知的零样本学习图像分类方法 |
CN112861917A (zh) * | 2021-01-14 | 2021-05-28 | 西北工业大学 | 基于图像属性学习的弱监督目标检测方法 |
CN114399515A (zh) * | 2021-12-24 | 2022-04-26 | 复旦大学 | 基于语言描述的类级别目标物6d位姿获取方法及存储介质 |
CN115830721A (zh) * | 2022-11-02 | 2023-03-21 | 深圳市新良田科技股份有限公司 | 活体检测方法、装置、终端设备和可读存储介质 |
WO2023246921A1 (zh) * | 2022-06-23 | 2023-12-28 | 京东方科技集团股份有限公司 | 目标属性识别方法、模型训练方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919951A (zh) * | 2017-01-24 | 2017-07-04 | 杭州电子科技大学 | 一种基于点击与视觉融合的弱监督双线性深度学习方法 |
CN109033321A (zh) * | 2018-07-18 | 2018-12-18 | 成都快眼科技有限公司 | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110765921A (zh) * | 2019-10-18 | 2020-02-07 | 北京工业大学 | 一种基于弱监督学习和视频时空特征的视频物体定位方法 |
CN110956185A (zh) * | 2019-11-21 | 2020-04-03 | 大连理工大学人工智能大连研究院 | 一种图像显著目标的检测方法 |
CN111127385A (zh) * | 2019-06-06 | 2020-05-08 | 昆明理工大学 | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 |
-
2020
- 2020-05-13 CN CN202010405216.1A patent/CN111598155A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919951A (zh) * | 2017-01-24 | 2017-07-04 | 杭州电子科技大学 | 一种基于点击与视觉融合的弱监督双线性深度学习方法 |
CN109033321A (zh) * | 2018-07-18 | 2018-12-18 | 成都快眼科技有限公司 | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
CN111127385A (zh) * | 2019-06-06 | 2020-05-08 | 昆明理工大学 | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 |
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110765921A (zh) * | 2019-10-18 | 2020-02-07 | 北京工业大学 | 一种基于弱监督学习和视频时空特征的视频物体定位方法 |
CN110956185A (zh) * | 2019-11-21 | 2020-04-03 | 大连理工大学人工智能大连研究院 | 一种图像显著目标的检测方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418351A (zh) * | 2020-12-11 | 2021-02-26 | 天津大学 | 基于全局与局部上下文感知的零样本学习图像分类方法 |
CN112418351B (zh) * | 2020-12-11 | 2023-04-07 | 天津大学 | 基于全局与局部上下文感知的零样本学习图像分类方法 |
CN112861917A (zh) * | 2021-01-14 | 2021-05-28 | 西北工业大学 | 基于图像属性学习的弱监督目标检测方法 |
CN112861917B (zh) * | 2021-01-14 | 2021-12-28 | 西北工业大学 | 基于图像属性学习的弱监督目标检测方法 |
CN114399515A (zh) * | 2021-12-24 | 2022-04-26 | 复旦大学 | 基于语言描述的类级别目标物6d位姿获取方法及存储介质 |
WO2023246921A1 (zh) * | 2022-06-23 | 2023-12-28 | 京东方科技集团股份有限公司 | 目标属性识别方法、模型训练方法和装置 |
CN115830721A (zh) * | 2022-11-02 | 2023-03-21 | 深圳市新良田科技股份有限公司 | 活体检测方法、装置、终端设备和可读存储介质 |
CN115830721B (zh) * | 2022-11-02 | 2024-05-03 | 深圳市新良田科技股份有限公司 | 活体检测方法、装置、终端设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101165B (zh) | 兴趣点识别方法、装置、计算机设备和存储介质 | |
Ribera et al. | Locating objects without bounding boxes | |
US11823443B2 (en) | Segmenting objects by refining shape priors | |
CN111598155A (zh) | 一种基于深度学习的细粒度图像弱监督目标定位方法 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
Khalel et al. | Automatic pixelwise object labeling for aerial imagery using stacked u-nets | |
CN111091105A (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
CN105608454B (zh) | 基于文字结构部件检测神经网络的文字检测方法及系统 | |
CN108830188A (zh) | 基于深度学习的车辆检测方法 | |
US20240257423A1 (en) | Image processing method and apparatus, and computer readable storage medium | |
CN112634329B (zh) | 一种基于时空与或图的场景目标活动预测方法及装置 | |
CN112529005B (zh) | 基于语义特征一致性监督金字塔网络的目标检测方法 | |
CN111488873B (zh) | 一种基于弱监督学习的字符级场景文字检测方法和装置 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
US11587345B2 (en) | Image identification device, method for performing semantic segmentation, and storage medium | |
CN114332473B (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN112613668A (zh) | 基于人工智能的景区危险区域管控方法 | |
Li et al. | An aerial image segmentation approach based on enhanced multi-scale convolutional neural network | |
CN110147841A (zh) | 基于弱监督及无监督部件检测和分割的细粒度分类方法 | |
CN109325407B (zh) | 基于f-ssd网络滤波的光学遥感视频目标检测方法 | |
Sun et al. | Center TextSpotter: A novel text spotter for autonomous unmanned vehicles | |
CN114332288B (zh) | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 | |
CN110287970B (zh) | 一种基于cam与掩盖的弱监督物体定位方法 | |
Abdulhamied et al. | Real-time recognition of American sign language using long-short term memory neural network and hand detection | |
Ataş | Performance Evaluation of Jaccard-Dice Coefficient on Building Segmentation from High Resolution Satellite Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200828 |
|
RJ01 | Rejection of invention patent application after publication |