CN109377498B - 基于循环神经网络的交互式抠图方法 - Google Patents

基于循环神经网络的交互式抠图方法 Download PDF

Info

Publication number
CN109377498B
CN109377498B CN201811006615.XA CN201811006615A CN109377498B CN 109377498 B CN109377498 B CN 109377498B CN 201811006615 A CN201811006615 A CN 201811006615A CN 109377498 B CN109377498 B CN 109377498B
Authority
CN
China
Prior art keywords
matting
network
training
images
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811006615.XA
Other languages
English (en)
Other versions
CN109377498A (zh
Inventor
陈少喆
杨鑫
尹宝才
张强
魏小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201811006615.XA priority Critical patent/CN109377498B/zh
Publication of CN109377498A publication Critical patent/CN109377498A/zh
Application granted granted Critical
Publication of CN109377498B publication Critical patent/CN109377498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于循环神经网络的交互式抠图方法,属于计算机技术领域。本发明针对现有数字抠图算法工作量需求大,对用户输入质量依赖性高的问题,设计了一种基于循环神经网络的交互式抠图方法。所设计的框架通过循环过程中人为检测信息区域减少无价值判断结果,在减少工作量的同时能够得到主流抠图方式的抠图结果。本发明有益效果如下:(1)交互式模型、(2)长短期记忆网络、(3)强化学习方法和(4)三维场景渲染。

Description

基于循环神经网络的交互式抠图方法
技术领域
本发明涉及一种基于循环神经网络的交互式抠图方法,属于计算机技术领域。
背景技术
抠图技术(Image Matting)就是将图像中的前景从背景中分离出来的技术,该技术能够将人们需要的区域提取出来,便于对图像关键信息进行后续操作。图像抠图是计算机视觉方向的热门问题。现有的高性能数字抠图方法通常需要先验知识,即整张图片的三分图(Trimap)。但三分图的获取大大增加的工作量。对于少量基于交互输入的抠图方法。本发明旨在利用深度循环神经网络,探索一种基于交互,但限制用户交互方式的数字抠图方法,在减少工作量的同时达到令人满意的抠图效果。
图像均是由前景和背景构成的,根据原始的图像合成公式,一幅图像C可以表示为其前景F与背景B的一个结合(每一个像素点同样的可以视为在其同一位置的一个前景值和一个背景值的合成),即:
Iz=αzFz+(1-αz)B (1)
其中z=(x,y)代表输入图像I中像素的位置。α值alpha抠图结果,它的值在(0,1)之间,表示前景的不透明度。背景区域像素点α值为0,前景区域像素α值为1,介于前景和背景之间区域的细节部分,α值介于(0,1)之间,如果我们能够确定该区域α值,那么我们就能确定该像素点的颜色值,而这也是图像抠图技术需要解决的问题。
(1)抠图方法
①基于三元图的方法
现有的高性能数字抠图方法通常需要先验知识,即整张图片的三分图(Trimap)。三分图由前景(白色)、背景(黑色)以及未知区域(灰色)组成。这些算法可分为两类,基于采样和基于传播的方法。基于采样的方法假设每个未知像素可以用一对已知的前景/背景像素来代表。基于传播的方法使用相邻像素亲和力,将α值从已知区传播到未知区域。Ning Xu等人应用深度卷积编码-解码网络,将图像和三元图作为输入,并输出抠图结果。试验表明,随着三元图质量下降,输出抠图结果的质量大幅下降。另一方面,三元图获取需要较大工作量,使用三原图预估能够减少三元图获取过程的工作量,但要求图像前景明显,因此不能在实践中广泛应用。
②基于输入笔画的方法
基于用户自由笔画是一种用户友好型的获取前景/背景信息的方式,需要用户图像在前景及背景部分画几处笔画。然而,该方法产生的抠图结果质量高度依赖于用户输入的笔画与抠图算法设定之间的适应程度。此外,输入适当的笔画需要掌握抠图算法的专业知识才能得到高质量的抠图效果。
③交互式模型
交互式模型应用在许多问题之中,如分类问题,图像分割以及曲线结构描绘等。微软实验室和美国奥斯汀大学提出一种交互式选择过程,通过用户判断来选择代表性图片,并传递到剩余未标记图片,用于自动分割。交互式模型应用目的虽然不同,但其核心思路相同,即让用户参与循环之中以提供具有代表性的标签。在本文中,我们提出了第一个用于抠图算法的主动式模型,检测用户标注的信息区域。
(2)长短期记忆网络
循环神经网络(Recurrent Neural Network)能够处理序列类型数据。长短期记忆网络(Long Short Term Memory)是一种特殊的循环神经网络,可以学习长期依赖的信息。长短期记忆网络包含一种“门”结构,能够去除或增加信息到细胞状态。一个网络模块拥有三个“门”来保护和控制细胞的状态。首先决定从细胞中丢弃哪些信息,之后确定被存放的新信息,最后将旧状态经过处理得到变化后的新状态。根据长短期记忆网络的特点,本发明将引入该网络模块,通过已有的信息区域和生成抠图结果的编码信息,并结合视觉特征,为用户建议下一处信息区域。
(3)强化学习策略
强化学习将学习看作试探评价过程,通过与环境进行交互获得的奖赏来指导行为,使智能体(Agent)得到最大的奖赏。本方案需要以真实数据作为监督,根据预测值与真实值的差距调节网络参数并实现收敛。然而,由于本方案引入了用户交互的过程,这使得导数梯度的传导遭到了破坏。为继续传播这一关系,本方案引入了强化学习的策略。当前步的用户信息标记图和求得的抠图预测为当前步的状态;下一步用户将在某一位置给定下一个标签为当前步的动作;给定这个标签后对抠图预测结果的影响作为奖励函数。
发明内容
本发明针对现有数字抠图算法工作量需求大,对用户输入质量依赖性高的问题,设计了一种基于循环神经网络的交互式抠图方法。所设计的框架通过循环过程中人为检测信息区域减少无价值判断结果,在减少工作量的同时能够得到主流抠图方式的抠图结果。
本发明的技术方案:
基于循环神经网络的交互式抠图方法,步骤如下:
(1)训练集和测试集
数据集包括肖像数据集,抠图基准数据集和渲染100数据集;肖像数据集包含1700张训练图像、300张测试图像以及相应的真实数据;抠图基准数据集包括27张带有用户定义的三元图和抠图结果真实数据的图像,以及8张没有三元图和抠图结果的图像;使用肖像数据集的测试图像和抠图基准数据集中的27张图像进行评估;
使用肖像数据集中的训练图像来训练网络结构;为避免过拟合,提出一个用于微调的渲染100数据集,该数据集有100张图像及其相应的真实数据;使用90张图像进行数据增强微调,并使用10张图像进行测试;在该数据集构建过程中,选择不同的3D模型作为前景对象(例如兔子,毛球和金属球体等),并使用自然图像作为背景;数据集图像使用物理渲染技术(Physically Based Rendering Technology)进行渲染。在训练和测试过程中,输入图像的大小调整为400×400像素;
(2)网络结构
首先将输入图像送到特征提取网络以提取图像特征g0;然后将g0被送到RNN单元以提供用于预测的“视觉”信息,然后由位置解码网络解码以获得第一次建议的信息区域(表示为2D坐标l1)。在每次建议的信息区域之后的迭代中,本发明中所设计的网络结构会要求用户回答该区域属于前景层还是背景层。基于用户给出的回答反馈,该推荐区域内的每个像素分配对应标签,以此方法可以生成一个累积三元图。抠图结果求解器将输入图像和累积的三元图作为输入并计算一个抠图结果,然后将上一次迭代建议区域的2D坐标反馈给联合编码网络,对上一次迭代建议区域与生成抠图结果之间的关系进行编码。最后,RNN单元使用区域-抠图结果间关系的编码信息和初始视觉特征信息为用户建议下一个信息区域。提出的网络从用户反馈中学习,并且采用强化学习策略为每个检测到的信息区域分配训练奖励。
①特征提取网络
使用去掉softmax层的VGG16网络作为特征提取模块,用于提取原始输入图像I的图像特征,通过VGG16网络,网络结构分析原始输入图像I并将其投射到低层特征空间:g0=fExtra(I;θExtra),其中θExtra是VGG16网络参数;
②RNN单元
使用长短期记忆网络将图像特征与当前建议区域对应的抠图结果间关系相融合,产生用于预测下一个建议区域的向量:vi+1=frnn({gk};θrnn),其中k=1,2,3…i,θrnn代表长短期记忆网络参数;网络结构分析当前建议区域及其生成抠图结果后,提出下一处建议区域;
③位置解码网络
位置解码网络将来自RNN单元的预测信息vi解码成二维坐标:li=floc(vi;θloc),其中i代表当前的第i次迭代,θloc代表位置解码网络参数;
④抠图结果求解器
累积生成的三元图si由当前的建议区域和所有之前的建议区域及各自对应的用户输入产生;将si和原始输入图像I共同传入抠图结果求解器来获得最新的抠图结果αi,αi=fsolver(si;I);
所述的抠图结果求解器为用于实时alpha抠图结果的共享采样方法;
⑤联合编码网络
当位置解码网络生成二维坐标后,使用联合编码网络将该二维坐标与对应的抠图结果相融合,建立当前的建议区域与对应的抠图结果之间的关系;该关系编码为:gi=fiEnc(lii;θjEnc),其中θjEnc代表位置解码网络参数;
(3)序列的强化学习策略
网络结构的抽象函数F对网络的整体参数Θ(其中Θ是上述各部分网络参数θExtraθrnnθlocθjEnc的集合)导数如式(2):
Figure GDA0003119052500000051
其中,M表示总的训练迭代次数,T表示每次迭代训练中潜在的可能可以弹出的位置个数,
Figure GDA0003119052500000052
是第m轮迭代中预测出的第i个可能位置,bi对应于第i个可能位置的一个防止梯度急剧变化的基线值,
Figure GDA0003119052500000053
是对于第m轮迭代中第i个可能位置的奖励函数;
Figure GDA0003119052500000054
的设计如式(3):
Figure GDA0003119052500000055
该方程度量了在第i次训练中第j个可能性区域的奖励函数;其中
Figure GDA0003119052500000056
Figure GDA0003119052500000057
分别表示在第i次训练中弹出第j个可能区域及在第i-1次训练中弹出第j个可能区域后,用户给出一个确定标签后所算出的抠图预测结果;
Figure GDA0003119052500000058
表示在第i次训练中弹出的所有可能区域接受用户标签后算出的抠图预测结果集合;
Figure GDA0003119052500000059
表示数据集中提供的抠图结果的真实值;从实际意义上讲,这个函数定义的奖励函数将使得每一步中弹出使抠图结果最显著变优的策略获得更大的奖励,而这也是本框架中“有信息量”的内含:即尽量使得每一个训练步都能找到这一的区域,他们使得给出这些区域的标签后预测的抠图结果能有最大的提升。
(4)后期处理
由于从用户反馈中产生的三元图非常粗糙,因此最终迭代生成的抠图结果(表示为matter)可能仍然不够好。为了解决这一限制,我们执行alpha精化作为后处理步骤。
首先,我们将matter转换为三元图,表示为trimapr(即,如果trimapr中的像素完全属于前景,则将其设置为1;如果trimapr中的像素完全属于背景,则设置为0;其余像素设置为0.5以指示未知区域)。
之后,我们应用一种基于马尔可夫吸收链的传播方法来将绝对前景/背景区域传播到其余部分以获得三元图。在该方法中,我们构造了一种图模型,它由两种节点组成:吸收节点(trimapr中具有0或1值的已知区域)和瞬态节点(具有0.5值的未知区域)。通过测量瞬态节点与吸收节点的相似度,前景/背景标签从吸收节点传播到瞬态节点。传播之后,我们获得一个新的三元图,表示为trimapp。我们将trimapp传入抠图结果求解器生成一个表示为mattep的抠图结果。
最后,我们将matter和mattep传入一种细化方法,该方法将两个不同的抠图结果作为输入,并输出一个改良版的alpha抠图结果作为我们的最终抠图结果。
本发明与同类相比具有显著的特点,具体详细说明如下:
(1)交互式模型
本方案提出了使用人工交互来替代辅助信息的方法。在形式上人机交互的模式对于用户而言更友好、更易用,在实现过程中更加便于操作。
(2)长短期记忆网络
本方案使用长短时记忆模块实现了模型的记忆功能,将各个重要的区域有关联地依次弹出,保证了信息量的上下文连接关系。
(3)强化学习方法
对用户参与而导致的训练过程中梯度消失的问题,本方案创新地采用增强学习的训练方法。增强学习为人工神经网络的梯度求导与用户主观的信息标记间架起了一座桥梁。
(4)三维场景渲染
为丰富实验数据的多样性,本方案将创新地提出使用三维场景渲染的方法,生成模拟数据,生成更高质量的数据集用于模型的训练与测试。
附图说明
图1是本发明方法的流程框图。
图2是不同抠图求解器在模型中的表现图。
图3(a)以及图3(b)是不同类型图片在不同迭代次数和不同区域大小条件下均方误差的表现,图3(a)表示稀疏型图片(例如毛发、树叶等)的表现统计图;图3(b)表示紧致型图片(例如玩具、汽车等)的表现统计图;其中,区域大小组别1、2、3分别代表弹出区域为边长为16像素、20像素、25像素的正方形。每组区域大小又分别进行10、20、30次迭代。均方误差值越小表明模型表现越好。
具体实施方式
下面结合具体实施方式对本发明作进一步详细说明,但本发明并不局限于具体实施方式。
基于循环神经网络的交互式抠图方法在的具体实施过程主要分为两个方面。即训练模型所需数据集的产生和模型本身超参数的选择及训练方法。
(1)训练网络模型
在训练该交互式抠图方法时,我们需要一个拥有较大数据量的数据集。该数据集应包括一张彩色的二维图片,图片中应包含一个明显的待抠出的前景物体。另外,对应于每一张彩色图片,数据集中还应含有一张准确的抠图结果(Alpha Matte)即训练过程中的真实值(Ground Truth)。现有相关的数据集包括一个含有27组图片的抠图基准数据集和一个含有3000组图片的肖像像数据集。为了扩充数据量同时增加数据集图片的多样性,本发明中采用了基于光线跟踪的渲染技术,利用三维场景渲染得到的二维图片及三维物体的坐标位置获得对应的彩色二维图片和抠图结果的真实值形成渲染100数据集。最终,基于循环神经网络的交互式抠图方法综合采用现有的抠图基准数据集、肖像像数据集和本发明中提出的渲染100数据集共同作为训练数据集。
(2)模型超参数选择及训练方法
模型每个迭代轮次向用户弹出的建议区域的大小和总共展开的迭代次数是本发明模型中的两个重要超参数。如图3(a)以及图3(b)所示,对于稀疏型图片,较小的推荐区域大小表现更好;对于紧致型图片,较大的推荐区域表现较好。迭代次数的增加将提升模型的表现性能但是将为用户带来更多的使用负担。因此,为了平衡各类型图片的表现和用户体验及模型总体性能,本发明采用适中的建议区域大小和迭代次数。即本发明在每轮迭代中采用边长为20像素大小的推荐区域,并展开为20轮次迭代。
本发明在Tensorflow深度学习框架下实现,配合其特有的Tensorboard套件,在训练过程中,各个所需调整调整的参数可清晰地可视化展现出来。当各参数的训练曲线收敛时(即随着训练时间的延长损失不再下降),即模型完成训练。此时的参数将被固定下来并加以保存,预测时导入可直接使用。

Claims (1)

1.一种基于循环神经网络的交互式抠图方法,其特征在于,步骤如下:
(1)训练集和测试集
数据集包括肖像数据集,抠图基准数据集和渲染100数据集;肖像数据集包含1700张训练图像、300张测试图像以及相应的真实数据;抠图基准数据集包括27张带有用户定义的三元图和抠图结果真实数据的图像,以及8张没有三元图和抠图结果的图像;使用肖像数据集的测试图像和抠图基准数据集中的27张图像进行评估;
使用肖像数据集中的训练图像来训练网络结构;为避免过拟合,提出一个用于微调的渲染100数据集,该数据集有100张图像及其相应的真实数据;使用90张图像进行数据增强微调,并使用10张图像进行测试;在该数据集构建过程中,选择不同的3D模型作为前景对象,并使用自然图像作为背景;数据集图像使用物理渲染技术进行渲染;在训练和测试过程中,输入图像的大小调整为400×400像素;
(2)网络结构
网络结构包括特征提取网络、RNN单元、位置解码网络、抠图结果求解器、联合编码网络五个部分;
①特征提取网络
使用去掉softmax层的VGG16网络作为特征提取模块,用于提取原始输入图像I的图像特征,通过VGG16网络,网络结构分析原始输入图像I并将其投射到低层特征空间:g0=fExtra(I;θExtra),其中θExtra是VGG16网络参数;
②RNN单元
使用长短期记忆网络将图像特征与当前建议区域对应的抠图结果间关系相融合,产生用于预测下一个建议区域的向量:vz+1=frnn({gk};θrnn),其中k=1,2,3…u,θrnn代表长短期记忆网络参数;网络结构分析当前建议区域及其生成抠图结果后,提出下一处建议区域;
③位置解码网络
位置解码网络将来自RNN单元的预测信息vz解码成二维坐标:li=floc(vz;θloc),其中i代表当前的第i次迭代,θloc代表位置解码网络参数;
④抠图结果求解器
累积生成的三元图sz由当前的建议区域和所有之前的建议区域及各自对应的用户输入产生;将sz和原始输入图像I共同传入抠图结果求解器来获得最新的抠图结果αz,αz=fsolver(sz;I);
所述的抠图结果求解器为用于实时alpha抠图结果的共享采样方法;
⑤联合编码网络
当位置解码网络生成二维坐标后,使用联合编码网络将该二维坐标与对应的抠图结果相融合,建立当前的建议区域与对应的抠图结果之间的关系;该关系编码为:gz=fiEnc(liz;θjEnc),其中θjEnc代表联合编码网络参数;
(3)序列的强化学习策略
网络结构的抽象函数F对网络的整体参数Θ导数如式(1):
Figure FDA0003119052490000021
其中,Θ是上述各部分网络参数θExtraθrnnθlocθjEnc的集合,T表示总的训练迭代次数,M表示某轮迭代训练中总采样次数,
Figure FDA0003119052490000022
是第i次训练中第m个采样到的区域,bi对应于第i次训练中的一个防止梯度急剧变化的基线值,
Figure FDA0003119052490000023
是对于第i次训练中第m个采样值的奖励函数;
Figure FDA0003119052490000024
的设计如式(2):
Figure FDA0003119052490000025
该方程度量了在第i次训练中第j个可能性区域的奖励函数;其中
Figure FDA0003119052490000026
Figure FDA0003119052490000027
分别表示在第i次训练中弹出第j个可能区域及在第i-1次训练中弹出第j个可能区域后,用户给出一个确定标签后所算出的抠图预测结果;
Figure FDA0003119052490000028
表示在第i次训练中弹出的所有可能区域接受用户标签后算出的抠图预测结果集合;αgt表示数据集中提供的抠图结果的真实值;
(4)后期处理
首先,将matter转换为三元图,表示为trimapr,即如果trimapr中的像素完全属于前景,则将其设置为1;如果trimapr中的像素完全属于背景,则设置为0;其余像素设置为0.5以指示未知区域;
之后,再用一种基于马尔可夫吸收链的传播方法来将绝对前景/背景区域传播到其余部分以获得三元图;在该方法中,构造一种图模型,由两种节点组成:吸收节点即trimapr中具有0或1值的已知区域和瞬态节点即具有0.5值的未知区域;通过测量瞬态节点与吸收节点的相似度,前景/背景标签从吸收节点传播到瞬态节点;传播后,获得一个新的三元图,表示为trimapp;将trimapp传入抠图结果求解器生成一个表示为mattep的抠图结果;
最后,将matter和mattep传入一种细化方法,该方法将两个不同的抠图结果作为输入,并输出一个改良版的alpha抠图结果作为最终抠图结果。
CN201811006615.XA 2018-08-31 2018-08-31 基于循环神经网络的交互式抠图方法 Active CN109377498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811006615.XA CN109377498B (zh) 2018-08-31 2018-08-31 基于循环神经网络的交互式抠图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811006615.XA CN109377498B (zh) 2018-08-31 2018-08-31 基于循环神经网络的交互式抠图方法

Publications (2)

Publication Number Publication Date
CN109377498A CN109377498A (zh) 2019-02-22
CN109377498B true CN109377498B (zh) 2021-08-20

Family

ID=65404348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811006615.XA Active CN109377498B (zh) 2018-08-31 2018-08-31 基于循环神经网络的交互式抠图方法

Country Status (1)

Country Link
CN (1) CN109377498B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991515B (zh) * 2019-11-28 2022-04-22 广西师范大学 一种融合视觉上下文的图像描述方法
CN111161286B (zh) * 2020-01-02 2023-06-20 大连理工大学 一种交互式自然图像抠图方法
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106875395A (zh) * 2017-01-12 2017-06-20 西安电子科技大学 基于深度神经网络的超像素级sar图像变化检测方法
CN108427951A (zh) * 2018-02-08 2018-08-21 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN106407976B (zh) * 2016-08-30 2019-11-05 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
RU2016138608A (ru) * 2016-09-29 2018-03-30 Мэджик Лип, Инк. Нейронная сеть для сегментации изображения глаза и оценки качества изображения

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106875395A (zh) * 2017-01-12 2017-06-20 西安电子科技大学 基于深度神经网络的超像素级sar图像变化检测方法
CN108427951A (zh) * 2018-02-08 2018-08-21 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Image Matching via Loopy RNN;Donghao Luo等;《arXiv》;20170618;第1-7页 *
Natural image matting using deep convolutional neural networks;Donghyeon Cho等;《Computer Vision - ECCV 2016》;20160917;第626-643页 *
复杂背景下植物根系图像特征提取方法的研究与实现;张浩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第03期);第I138-5926页 *
移动机器人导航中的楼道场景语义分割;徐风尧等;《计算机应用研究》;20180630;第35卷(第6期);第1863-1866、1886页 *

Also Published As

Publication number Publication date
CN109377498A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
Villegas et al. Hierarchical long-term video prediction without supervision
Zhao et al. Learning to forecast and refine residual motion for image-to-video generation
CN109064507B (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
Perarnau et al. Invertible conditional gans for image editing
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN108596958B (zh) 一种基于困难正样本生成的目标跟踪方法
CN112597883B (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
CN109377498B (zh) 基于循环神经网络的交互式抠图方法
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
WO2020177214A1 (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN109829495A (zh) 基于lstm和dcgan的时序性图像预测方法
Xiong et al. Contextual sa-attention convolutional LSTM for precipitation nowcasting: A spatiotemporal sequence forecasting view
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
Kohl et al. Learning similarity metrics for numerical simulations
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
Nakhaee et al. DeepRadiation: An intelligent augmented reality platform for predicting urban energy performance just through 360 panoramic streetscape images utilizing various deep learning models
Shiba et al. Fast event-based optical flow estimation by triplet matching
CN116912727A (zh) 一种基于时空特征增强网络的视频人体行为识别方法
CN114783039B (zh) 一种3d人体模型驱动的运动迁移方法
Kulikajevas et al. Adversarial 3D human pointcloud completion from limited angle depth data
Lin et al. Temporal action localization with two-stream segment-based RNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant