CN108921911B - 结构化图片自动转换为源代码的方法 - Google Patents

结构化图片自动转换为源代码的方法 Download PDF

Info

Publication number
CN108921911B
CN108921911B CN201810863511.4A CN201810863511A CN108921911B CN 108921911 B CN108921911 B CN 108921911B CN 201810863511 A CN201810863511 A CN 201810863511A CN 108921911 B CN108921911 B CN 108921911B
Authority
CN
China
Prior art keywords
vector
picture
network
source code
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810863511.4A
Other languages
English (en)
Other versions
CN108921911A (zh
Inventor
陈恩红
刘淇
阴钰
黄振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810863511.4A priority Critical patent/CN108921911B/zh
Publication of CN108921911A publication Critical patent/CN108921911A/zh
Application granted granted Critical
Publication of CN108921911B publication Critical patent/CN108921911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结构化图片自动转换为源代码的方法,包括:获取结构化图片及源代码;使用基于深度残差网络的图像编码器,对结构化图片进行编码,从图像中提取特征向量;采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码,来计算语法符号的分布,并依照编码‑解码器模型建模源代码生成过程,进而实现图片到源代码的自动转换。该方法采用聚光灯机制建模注意力,能够更加集中地获取图像信息,对于图片内容的准确转写很有帮助;该自动转写方法引入聚光灯这一机制,弥补了现有方法缺乏对空间信息、结构信息的建模,以及注意力、输出混淆建模等弊端。

Description

结构化图片自动转换为源代码的方法
技术领域
本发明涉及图像识别技术领域,尤其涉及一种结构化图片自动转换为源代码的方法。
背景技术
图像识别,特别是结构化图片识别和转写,是许多任务的基础。在图像自动转写任务中,我们需要将获取的图像进行处理,提取高层图像特征,转换为其对应的文本形式,该文本形式应当能够表达图片的大部分或者全部信息。相关应用如文档扫描、自动阅卷、自动驾驶、智能机器人等,都需要高质量高准确度的图像识别和转写方法,日益增加的图片数量也增大了对自动化的方法的需求。
虽然许多研究已经能够在自然图像类型识别与标注、街道路牌等简单文本的识别与提取等任务中取得较好的效果,很多情况下,我们面对的图像内容更加复杂,具有更多的结构信息,我们称这类图片为结构化图片。典型的结构化图片包括公式图片、乐谱等。对于它们的转写,需要在识别出对象的基础上,同时保留其结构信息。因此,对于结构化图片的转写,我们需要在已有的转写方法基础上,设计新的方法和系统,以更好地转写图片中的结构信息。
传统的图像识别与转写方法,可以分为如下几类:
1)基于人工规则的转写方法。
传统的自动转写方法,很多基于预先设定的人工规则。常见的流程如:首先图像中抽取一些形状特征,然后根据人工规则对特征进行识别,最后根据一定的语法产生对应输出。此类方法在公式识别等问题上,已经获得了较好的效果。然而,这类方法有以下几个弊端:一、该方法需要大量的人力,设定特征抽取规则、识别规则、转写规则,专业性、成本都很高;二、人为的规则很难做到面面俱到,限制了基于规则方法的准确性;三、该方法只能针对设定好规则的图片类型进行识别,对于新的图片类型,需要重新设定规则。这些因素导致现有的基于规则的图片转写方案往往价格昂贵,很少有免费或价格低廉的解决方案,且效果并不十分令人满意。
2)基于编码-解码器的转写方法。
近年来人工智能发展迅速,人们也开始探索使用机器学习的方法解决传统任务,这也包括图像转文本的任务。对于该任务,一个经典的模型为编码-解码器模型。该模型为一输入图像、输出序列的通用框架,对于输入的图像,通过一个编码器结构进行特征提取和表示;之后通过一个解码器结构,解码图像信息的特征表示,逐个输出序列元素。类似的方法已经在机器翻译、语音识别等领域获得较好应用,在图像识别领域近来也得到广泛关注。但直接将编码-解码器用于图像转文本任务,有如下困难:一、经典的编码-解码器方法中,输入信息全部被编码到一个向量中,输出时容易产生信息损耗;二、对于输入的复杂结构,简单的编码器难以准确提取。基于此,人们提出基于注意力的编码-解码器方法。
3)基于注意力的编码-解码器。
朴素的编码器-解码器模型中,整个图像信息往往被编码为一个向量,解码时,每一步需要从一个向量中抽取信息产生输出,信息很容易产生混淆。针对此问题,研究者模仿人类视觉机制设计了基于注意力的编码-解码器模型。该模型中,编码部分将图像各个区域编码为一组向量,其中每个向量蕴涵了一个区域中的信息;解码部分,研究者设计了注意力机制,能够学习当前应当关注的区域,从而仅仅需要解码关键区域的信息。然而此类方法存在数个问题,使其不能很好地处理结构化图像转写问题:1)注意力的计算基于图片特征向量与输出历史向量的相关性,二者只能决定需要阅读的内容、不能决定阅读位置,但对于结构图片而言,位置信息较为重要;2)注意力模型需要首先学习如何聚焦,再学习聚焦区域,得到较好策略需要更大量的训练;3)在注意力模型中,注意力与输出往往在同一结构(LSTM)中建模,两个序列容易混淆。
总结而言,上述转写方法虽然得到较为广泛应用,但是对于结构化图片转写任务,仍存在如下困难:1)传统方法需要大量人为规则,成本很高,且转写规则针对性强、不能通用;2)现有的端到端的图片转文字模型对于结构化图片的处理存在一些困难,使其效果受限。
发明内容
本发明的目的是提供一种结构化图片自动转换为源代码的方法,其目的是通过对现有图片数据及对应源代码的模式的学习,较为准确地转录诸如公式、乐谱等结构化图片,得到对应源代码。该自动产生的源代码将能够通过对应领域的特定编译器,编译还原得到原公式或乐谱图片。
本发明的目的是通过以下技术方案实现的:
一种结构化图片自动转换为源代码的方法,包括:
获取结构化图片及源代码;
使用基于深度残差网络的图像编码器,对结构化图片进行编码,从图像中提取特征向量;
采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码,来计算语法符号的分布,并依照编码-解码器模型建模源代码生成过程,进而实现图片到源代码的自动转换。
由上述本发明提供的技术方案可以看出,针对结构化图片到源代码的自动转换问题,采用聚光灯机制建模注意力,能够更加集中地获取图像信息,对于图片内容的准确转写很有帮助;该自动转写方法引入聚光灯这一机制,弥补了现有方法缺乏对空间信息、结构信息的建模,以及注意力、输出混淆建模等弊端。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种结构化图片自动转换为源代码的方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种结构化图片自动转换为源代码的方法,如图1所示,其主要包括:
步骤11、获取结构化图片及源代码。
本发明实施例中,所需的结构化图片及对应源代码,需要在进行转换的领域产生和收集。首先,确定当前领域的图像编译器,例如对应公式图片的TeX编译器;再收集不同的结构化图片及对应源代码,或者只收集源代码,通过图像编译器产生结构化图片。
此外,为了使得模型能够更加稳定,需要对数据进行清理和扩展:对于收集的源代码,需要经过预处理,清除无意义的符号,保持形式的统一和一致;对于收集或产生的图像,需要经过放缩、旋转、人为增加噪声等方法扩展,使得训练数据覆盖更多真实图像状况。
本发明实施例中,结构化图片均表示为三维张量x,三维分别表示图像的长、宽、通道数(通道数也即颜色数,一般为RGB三色)。对于获取的源代码,需要进行额外的处理,首先对于源代码进行分词,得到符号序列y={y1,...,yT},其中,yt为时刻t对应源代码中的语法符号;t=1,...,T。
步骤12、使用基于深度残差网络的图像编码器,对结构化图片进行编码,从图像中提取特征向量。
本发明实施例中,对于结构化图片x,将使用基于深度残差网络的图像编码器得到结构化图片的一组特征向量V(W'×H'×D),表示为:
Figure GDA0002616450140000041
其中,V表示获得的一组特征向量,W',H'为经过基于深度残差网络的图像编码器后得到的特征层的宽和高,D为特征维度,每个位置的向量V(i,j)代表了对应区域的特征,相邻位置的向量表示的区域也是相邻的。
本发明实施例中,所述基于深度残差网络的图像编码器形式化为f(·;θf),其中θf表示待学习的网络参数;该网络的构建基于一个修改的ResNet,构建方式如下:
基于深度残差网络的图像编码器由多个(例如,20个)残差块顺序相连形成,其中的待学习的网络参数θf为所有残差块的参数的并集。
将结构化图片x输入至基于深度残差网络的图像编码器中,首先输入至第1个残差块,将其记为x1,第1个残差块输出x2作为第2个残差块的输入;也即,对于第l个残差块而言,其输入xl输出xl+1
对于第l个残差块的输入xl,其通过如下两层结构得到下层输入xl+1
F(xl;W1,W2)=W2σ(Conv(xl,W1));
xl+1=F(xl;W1,W2)+xl
其中,σ为激活函数,此处可使用ReLU作为激活函数。Conv为一层卷积操作。F即表示一层卷积神经元,W1,W2为其参数。两层之间还额外增加了残差连接。
图片特征向量V通过如下方式得到:
V=f(x;θf)。
步骤13、采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码,来计算语法符号的分布,并依照编码-解码器模型建模源代码生成过程,进而实现图片到源代码的自动转换。
前述步骤中提到对于源代码进行分词,得到符号序列y={y1,...,yT},本发明实施例中,基于编码-解码器模型,将符号序列输出建模为一时序过程:在时刻t,采用基于聚光灯机制的解码器依据之前时刻已产生的语法符号以及所提取的特征向量V,得到当前时刻t产生语法符号的分布P(yt|y1,...,yt-1,V);
根据时刻t产生语法符号的分布P(yt|y1,...,yt-1,V),可进行图片到源代码的自动转换。
本领域技术人员可以理解,此处所涉及的自动转换过程可以通过常规技术实现;假设已经生成了t-1个语法符号
Figure GDA0002616450140000051
在时刻t即根据分布
Figure GDA0002616450140000052
采样得到该时刻t的输出
Figure GDA0002616450140000053
如此可自动得到转换后的符号序列
Figure GDA0002616450140000054
为了得到语法符号的分布P(yt|y1,...,yt-1,V),首先,将已产生的语法符号通过词嵌入层转换为维度更低的向量,词嵌入层是一个C×De的参数矩阵θe,其中C为词表大小,De为词嵌入后的向量长度;对于符号序列中的每个语法符号,若它是词表中的第s个词,则查矩阵第s行获得其对应向量表示。将该词嵌入层表示为函数Embed(·;θe),对于每个语法符号yt,得到嵌入表示:
et=Embed(yt;θe);
将时刻t前的所有语法符号y1,...,yt-1使用循环神经网络的变种(GRU网络)建模为一历史向量ht,ht建模了时刻t之前的全部输出:
ht=GRU(et-1,ht-1;θh)。
其中,θh为GRU网络的参数。
然后,采用聚光灯机制结合图片特征向量V获得时刻t产生语法符号的分布,时刻t的聚焦信息包含聚焦句柄st,以及根据聚焦句柄决定的聚焦向量sct
利用历史向量ht,聚焦向量sct,聚焦句柄st,通过增加一层全连接网络d(·;θd)学习时刻t的产生语法符号的分布P(yt|y1,...,yt-1,V):
Figure GDA0002616450140000061
上式中,全连接网络d(·;θd)输出词表大小的向量,θd为全连接网络的参数,
Figure GDA0002616450140000062
表示向量拼接。
下面针对聚光灯机制进行详细介绍。
本发明实施例中,所述聚焦句柄st表示为st=(cxt,cytt);其中,(cxt,cyt)表示聚光灯中心所在位置,σt表示聚光灯半径;
聚焦向量依据提取的图片特征向量V以及聚焦句柄st获得,方式如下:
在时刻t,对于图片特征向量V中的每个向量V(i,j)定义权重
Figure GDA0002616450140000063
权重将服从如下高斯分布:
Figure GDA0002616450140000064
该高斯分布的均值μt、方差Σt分别为:
μt=(cxt,cyt)T
Figure GDA0002616450140000065
注意到由于图像特征向量V(i,j)的排列保持了图像的位置关系,上述方式定义的权重可以实现信息的聚焦。
为了高效训练整个网络,该权重计算需要可微、可并行化。下面描述得到该权重的并行化可微方法。
首先,依据高斯分布的定义,将权重
Figure GDA0002616450140000066
改写为:
Figure GDA0002616450140000067
Figure GDA0002616450140000068
为了计算bt,构造两个与图片特征向量V等大的W'×H'的矩阵I和J,在矩阵I和J的每个点(i,j)处,令I(i,j)=i,J(i,j)=j;并扩展cxt和cyt为W'×H'的矩阵,分别记作Xt,Yt,即令
Figure GDA0002616450140000069
则将bt的计算写为矩阵形式:
Figure GDA00026164501400000610
计算得到权重
Figure GDA00026164501400000611
后,聚焦向量sct则为特征向量V中位置向量V(i,j)的加权平均:
Figure GDA0002616450140000071
本发明实施例中,聚焦句柄st采用如下任一种聚光灯控制模块进行计算:
1)基于马尔可夫建模的聚光灯控制模块:对于聚焦句柄的变化提出如下假设:时刻t的聚焦句柄仅依赖前一时刻聚焦向量,决定聚焦句柄的信息包括上一时刻聚焦句柄st-1、聚焦向量sct-1、以及当前时刻t的历史向量ht,即聚焦句柄服从马尔科夫性质,使用一个双层全连接神经网络n(·;θn)建模该马尔科夫过程:
Figure GDA0002616450140000072
其中,θn为双层全连接神经网络的参数;
2)基于循环神经网络建模的聚光灯控制模块:使用一个新的循环神经网络建模聚光灯控制,聚焦句柄历史使用一个时刻t的向量kt建模,向量通过GRU网络更新:
kt=GRU(st-1,kt-1;θk);
上式中,kt-1为上一时刻的向量;
聚焦句柄st计算公式为:
Figure GDA0002616450140000073
其中,c(·;θc)为一单层神经网络,用于输出下一时刻的聚焦句柄,θc为该神经网络的参数。
通过以上编码-解码器建模,以及聚光灯机制,可完成图片到源代码的自动转换。
另一方面,本发明实施例中,使用监督学习及强化学习的方法训练步骤13中的模型参数,首先使用随机梯度下降的方法最大化极大似然误差函数,然后建模问题,最后进行强化学习,主要过程如下:
当获得时刻t产生语法符号的分布P(yt|y1,...,yt-1,V)后,最终产生完整符号序列的概率,表示为:
Figure GDA0002616450140000074
之后,根据获取的图片-符号序列对,使用随机梯度下降的方法最大化极大似然误差函数:
Figure GDA0002616450140000075
可以进一步通过强化学习的方式得到更精确的聚焦位置,从而提高模型准确率。具体的,建模转换问题为一马尔可夫决策过程MDP,在建模的MDP中,令每一时刻自动转换的输出(即根据分布采样确定输出
Figure GDA0002616450140000084
)为一次动作,其依赖的状态为模型在每一时刻所看到的状态,反馈函数定义为:
Figure GDA0002616450140000081
其中,reconstruction_similarity表示接受图片-符号序列对
Figure GDA0002616450140000082
返回根据输出符号重建得到的图片与原图片的相似度。具体而言,首先,将输出符号序列
Figure GDA0002616450140000083
通过编译器编译得到重建图片,然后,将重建图片与原图计算相似度值。将该相似度值作为反馈函数。
采用上述方式建模问题之后,使用Actor-Critic强化学习算法进行增强,为了能够专注于调整聚焦过程,在强化过程中,固定图片特征向量以及输出历史建模的部分的参数(θfeh),仅训练聚焦过程相关部分的参数(θnck)。
通过训练模型参数得到可供预测的模型及参数(θfehnck,)。对于任一新的输入图片,可使用该参数自动产生图片对应源代码。
本发明实施例上述方案,针对结构化图片到源代码的自动转换问题,采用“聚光灯”机制建模注意力,能够更加集中地获取图像信息,对于图片内容的准确转写很有帮助;而通过独立的聚光灯控制模块,模型能够分别建模图片结构及源代码输出,从而可以更多、更精确地保留结构化图片中的结构特征,因此能够更加准确的转写。该自动转写方法引入聚光灯这一机制,弥补了现有方法缺乏对空间信息、结构信息的建模,以及注意力、输出混淆建模等弊端。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种结构化图片自动转换为源代码的方法,其特征在于,包括:
获取结构化图片及源代码;
使用基于深度残差网络的图像编码器,对结构化图片进行编码,从图像中提取特征向量;
采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码,来计算语法符号的分布,并依照编码-解码器模型建模源代码生成过程,进而实现图片到源代码的自动转换;
其中,采用聚光灯机制结合图片特征向量V获得时刻t产生语法符号的分布,时刻t的聚焦信息包含聚焦句柄st,以及根据聚焦句柄决定的聚焦向量sct
所述聚焦句柄st表示为st=(cxt,cytt);其中,(cxt,cyt)表示聚光灯中心所在位置,σt表示聚光灯半径;
聚焦向量依据提取的图片特征向量V以及聚焦句柄st获得,方式如下:
在时刻t,对于图片特征向量V中每个位置的向量V(i,j)定义权重
Figure FDA0002616450130000011
权重将服从如下高斯分布:
Figure FDA0002616450130000012
其中,i=1,...,W';j=1,...,H',W',H'为经过基于深度残差网络的图像编码器后得到的特征层的宽和高;
该高斯分布的均值μt、方差Σt分别为:
μt=(cxt,cyt)T
Figure FDA0002616450130000013
依据高斯分布的定义,将权重
Figure FDA0002616450130000014
改写为:
Figure FDA0002616450130000015
Figure FDA0002616450130000016
构造两个与图片特征向量V等大的W'×H'的矩阵I和J,在矩阵I和J的每个点(i,j)处,令I(i,j)=i,J(i,j)=j;并扩展cxt和cyt为W'×H'的矩阵,分别记作Xt,Yt,即令
Figure FDA0002616450130000017
则将bt的计算写为矩阵形式:
Figure FDA0002616450130000021
计算得到权重α(i,j)后,聚焦向量sct则为特征向量V中位置向量V(i,j)的加权平均:
Figure FDA0002616450130000022
2.根据权利要求1所述的一种结构化图片自动转换为源代码的方法,其特征在于,所述获取结构化图片及源代码包括:
确定当前领域的图像编译器,再收集不同的结构化图片及对应源代码,或者只收集源代码,通过图像编译器产生结构化图片。
3.根据权利要求1所述的一种结构化图片自动转换为源代码的方法,其特征在于,所述使用基于深度残差网络的图像编码器,对结构化图片进行编码,从图像中提取特征向量包括:
对于结构化图片x,将使用基于深度残差网络的图像编码器得到结构化图片的一组特征V,表示为:
V={V(i,j):i=1,...,W';j=1,...,H'},
Figure FDA0002616450130000023
其中,V表示获得的一组特征向量,W',H'为经过基于深度残差网络的图像编码器后得到的特征层的宽和高,D为特征维度,每个位置的向量V(i,j)代表了对应区域的特征。
4.根据权利要求1或3所述的一种结构化图片自动转换为源代码的方法,其特征在于,所述基于深度残差网络的图像编码器形式化为f(·;θf),其中θf表示待学习的网络参数;构建方式如下:
基于深度残差网络的图像编码器由多个残差块顺序相连形成,其中的待学习的网络参数θf为所有残差块的参数的并集;
对于第l个残差块的输入xl,其通过如下两层结构得到下层输入xl+1
F(xl;W1,W2)=W2σ(Conv(xl,W1));
xl+1=F(xl;W1,W2)+xl
其中,σ为激活函数;Conv为一层卷积操作,F即表示一层卷积神经元,W1,W2为其参数;
图片特征向量V通过如下方式得到:
V=f(x;θf)。
5.根据权利要求1或3所述的一种结构化图片自动转换为源代码的方法,其特征在于,所述采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码,来计算语法符号的分布,并依照编码-解码器模型建模源代码生成过程,进而实现图片到源代码的自动转换包括:
对源代码进行分词,得到符号序列y={y1,...,yT},其中yt均为对应语言中的语法符号;t=1,...,T,T为符号序列中元素总数;
基于编码-解码器模型,将符号序列输出建模为一时序过程:在时刻t,采用基于聚光灯机制的解码器依据之前时刻已产生的语法符号以及所提取的特征向量V,得到当前时刻t产生语法符号的分布P(yt|y1,...,yt-1,V);
根据时刻t产生语法符号的分布P(yt|y1,...,yt-1,V),进行图片到源代码的自动转换。
6.根据权利要求5所述的一种结构化图片自动转换为源代码的方法,其特征在于,所述采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码,来计算语法符号的分布包括:
首先,将已产生的语法符号通过词嵌入层转换为维度更低的向量,词嵌入层是一个C×De的参数矩阵θe,其中C为词表大小,De为词嵌入后的向量长度;对于符号序列中的每个语法符号,若它是词表中的第s个词,则查矩阵第s行获得其对应向量表示;将该词嵌入层表示为函数Embed(·;θe),对于每个语法符号yt,得到嵌入表示:
et=Embed(yt;θe);
将时刻t前的所有语法符号y1,...,yt-1使用GRU网络建模为一历史向量ht,ht建模了时刻t之前的全部输出:
ht=GRU(et-1,ht-1;θh);
其中,θh为GRU网络的参数;
然后,采用聚光灯机制结合图片特征向量V获得时刻t产生语法符号的分布,t时刻的聚焦信息包含聚焦句柄st,以及根据聚焦句柄决定的聚焦向量sct
利用历史向量ht,聚焦向量sct,聚焦句柄st,通过增加一层全连接网络d(·;θd)学习t时刻的产生语法符号的分布P(yt|y1,...,yt-1,V):
Figure FDA0002616450130000031
上式中,全连接网络d(·;θd)输出词表大小的向量,θd为全连接网络的参数,
Figure FDA0002616450130000032
表示向量拼接。
7.根据权利要求6所述的一种结构化图片自动转换为源代码的方法,其特征在于,聚焦句柄st采用如下任一种聚光灯控制模块进行计算:
基于马尔可夫建模的聚光灯控制模块:对于聚焦句柄的变化提出如下假设:时刻t的聚焦句柄仅依赖前一时刻聚焦向量,决定聚焦句柄的信息包括上一时刻聚焦句柄st-1、聚焦向量sct-1、以及当前时刻的历史向量ht,即聚焦句柄服从马尔科夫性质,使用一个双层全连接神经网络n(·;θn)建模该马尔科夫过程:
Figure FDA0002616450130000041
其中,θn为双层全连接神经网络的参数;
基于循环神经网络建模的聚光灯控制模块,使用一个新的循环神经网络建模聚光灯控制,聚焦句柄历史使用一个时刻t的向量kt建模,向量通过GRU网络更新:
kt=GRU(st-1,kt-1;θk);
上式中,kt-1为上一时刻的向量;
聚焦句柄st计算公式为:
Figure FDA0002616450130000042
其中,c(·;θc)为一单层神经网络,θc为该神经网络的参数。
8.根据权利要求7所述的一种结构化图片自动转换为源代码的方法,其特征在于,该方法还包括:使用监督学习及强化学习的方法来训练所涉及的模型参数:
首先,当获得时刻t产生语法符号的分布P(yt|y1,...,yt-1,V)后,最终产生完整符号序列的概率,表示为:
Figure FDA0002616450130000043
之后,根据获取的图片-符号序列对,使用随机梯度下降的方法最大化极大似然误差函数:
Figure FDA0002616450130000044
然后,通过强化学习的方式得到更精确的聚焦位置,具体的,建模转换问题为一马尔可夫决策过程MDP,在建模的MDP中,令每一时刻自动转换的输出为一次动作,其依赖的状态为模型在每一时刻所看到的状态,反馈函数定义为:
Figure FDA0002616450130000045
其中,reconstruction_similarity表示接受图片-符号序列对
Figure FDA0002616450130000046
返回根据输出符号重建得到的图片与原图片的相似度;
最后,使用Actor-Critic强化学习算法进行增强,在强化过程中,固定图片特征提取以及输出历史建模的部分的参数θfeh,仅训练聚焦过程相关部分的参数θnck
CN201810863511.4A 2018-08-01 2018-08-01 结构化图片自动转换为源代码的方法 Active CN108921911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810863511.4A CN108921911B (zh) 2018-08-01 2018-08-01 结构化图片自动转换为源代码的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810863511.4A CN108921911B (zh) 2018-08-01 2018-08-01 结构化图片自动转换为源代码的方法

Publications (2)

Publication Number Publication Date
CN108921911A CN108921911A (zh) 2018-11-30
CN108921911B true CN108921911B (zh) 2021-03-09

Family

ID=64394085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810863511.4A Active CN108921911B (zh) 2018-08-01 2018-08-01 结构化图片自动转换为源代码的方法

Country Status (1)

Country Link
CN (1) CN108921911B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113049084B (zh) * 2021-03-16 2022-05-06 电子科技大学 一种基于注意力机制的Resnet的分布式光纤传感信号识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0989519A1 (en) * 1993-10-08 2000-03-29 Xerox Corporation Structured image (SI) format for describing complex colour raster images
EP2582134A1 (en) * 2011-10-12 2013-04-17 Thomson Licensing Saliency value determination of predictively encoded video streams
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN107918636A (zh) * 2017-09-07 2018-04-17 北京飞搜科技有限公司 一种人脸快速检索方法、系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003988B2 (en) * 2016-11-23 2021-05-11 General Electric Company Hardware system design improvement using deep learning algorithms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0989519A1 (en) * 1993-10-08 2000-03-29 Xerox Corporation Structured image (SI) format for describing complex colour raster images
EP2582134A1 (en) * 2011-10-12 2013-04-17 Thomson Licensing Saliency value determination of predictively encoded video streams
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN107918636A (zh) * 2017-09-07 2018-04-17 北京飞搜科技有限公司 一种人脸快速检索方法、系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An End-to-End Trainable Neural Network for Image-based Sequence;Baoguang Shi等;《researchgate》;20150731;全文 *
Deep Residual Learning;Kaiming He等;《CVPR》;20161231;全文 *
Effective Approaches to Attention-based Neural Machine Translation;Minh-Thang Luong等;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150930;全文 *
Residual Attention Network for Image Classification;Fei Wang等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;全文 *

Also Published As

Publication number Publication date
CN108921911A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN108804530B (zh) 对图像的区域加字幕
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN109858015A (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
WO2019235103A1 (ja) 質問生成装置、質問生成方法及びプログラム
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114022372A (zh) 一种引入语义损失上下文编码器的掩膜图像修补方法
CN116168324A (zh) 基于循环交互Transformer与维度交叉融合的视频情感识别方法
Zhu et al. Multiscale temporal network for continuous sign language recognition
CN115906857A (zh) 一种基于词汇增强的中医文本命名实体识别方法
CN108921911B (zh) 结构化图片自动转换为源代码的方法
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN115270792A (zh) 一种医疗实体识别方法及装置
CN113129862B (zh) 一种基于world-tacotron的语音合成方法、系统及服务器
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant