CN108921911A

CN108921911A - 结构化图片自动转换为源代码的方法

Info

Publication number: CN108921911A
Application number: CN201810863511.4A
Authority: CN
Inventors: 陈恩红; 刘淇; 阴钰; 黄振亚
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2018-11-30
Anticipated expiration: 2038-08-01
Also published as: CN108921911B

Abstract

本发明公开了一种结构化图片自动转换为源代码的方法，包括：获取结构化图片及源代码；使用基于深度残差网络的图像编码器，对结构化图片进行编码，从图像中提取特征向量；采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码，来计算语法符号的分布，并依照编码‑解码器模型建模源代码生成过程，进而实现图片到源代码的自动转换。该方法采用聚光灯机制建模注意力，能够更加集中地获取图像信息，对于图片内容的准确转写很有帮助；该自动转写方法引入聚光灯这一机制，弥补了现有方法缺乏对空间信息、结构信息的建模，以及注意力、输出混淆建模等弊端。

Description

结构化图片自动转换为源代码的方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种结构化图片自动转换为源代码的方法。

背景技术

图像识别，特别是结构化图片识别和转写，是许多任务的基础。在图像自动转写任务中，我们需要将获取的图像进行处理，提取高层图像特征，转换为其对应的文本形式，该文本形式应当能够表达图片的大部分或者全部信息。相关应用如文档扫描、自动阅卷、自动驾驶、智能机器人等，都需要高质量高准确度的图像识别和转写方法，日益增加的图片数量也增大了对自动化的方法的需求。

虽然许多研究已经能够在自然图像类型识别与标注、街道路牌等简单文本的识别与提取等任务中取得较好的效果，很多情况下，我们面对的图像内容更加复杂，具有更多的结构信息，我们称这类图片为结构化图片。典型的结构化图片包括公式图片、乐谱等。对于它们的转写，需要在识别出对象的基础上，同时保留其结构信息。因此，对于结构化图片的转写，我们需要在已有的转写方法基础上，设计新的方法和系统，以更好地转写图片中的结构信息。

传统的图像识别与转写方法，可以分为如下几类：

1)基于人工规则的转写方法。

传统的自动转写方法，很多基于预先设定的人工规则。常见的流程如：首先图像中抽取一些形状特征，然后根据人工规则对特征进行识别，最后根据一定的语法产生对应输出。此类方法在公式识别等问题上，已经获得了较好的效果。然而，这类方法有以下几个弊端：一、该方法需要大量的人力，设定特征抽取规则、识别规则、转写规则，专业性、成本都很高；二、人为的规则很难做到面面俱到，限制了基于规则方法的准确性；三、该方法只能针对设定好规则的图片类型进行识别，对于新的图片类型，需要重新设定规则。这些因素导致现有的基于规则的图片转写方案往往价格昂贵，很少有免费或价格低廉的解决方案，且效果并不十分令人满意。

2)基于编码-解码器的转写方法。

近年来人工智能发展迅速，人们也开始探索使用机器学习的方法解决传统任务，这也包括图像转文本的任务。对于该任务，一个经典的模型为编码-解码器模型。该模型为一输入图像、输出序列的通用框架，对于输入的图像，通过一个编码器结构进行特征提取和表示；之后通过一个解码器结构，解码图像信息的特征表示，逐个输出序列元素。类似的方法已经在机器翻译、语音识别等领域获得较好应用，在图像识别领域近来也得到广泛关注。但直接将编码-解码器用于图像转文本任务，有如下困难：一、经典的编码-解码器方法中，输入信息全部被编码到一个向量中，输出时容易产生信息损耗；二、对于输入的复杂结构，简单的编码器难以准确提取。基于此，人们提出基于注意力的编码-解码器方法。

3)基于注意力的编码-解码器。

朴素的编码器-解码器模型中，整个图像信息往往被编码为一个向量，解码时，每一步需要从一个向量中抽取信息产生输出，信息很容易产生混淆。针对此问题，研究者模仿人类视觉机制设计了基于注意力的编码-解码器模型。该模型中，编码部分将图像各个区域编码为一组向量，其中每个向量蕴涵了一个区域中的信息；解码部分，研究者设计了注意力机制，能够学习当前应当关注的区域，从而仅仅需要解码关键区域的信息。然而此类方法存在数个问题，使其不能很好地处理结构化图像转写问题：1)注意力的计算基于图片特征向量与输出历史向量的相关性，二者只能决定需要阅读的内容、不能决定阅读位置，但对于结构图片而言，位置信息较为重要；2)注意力模型需要首先学习如何聚焦，再学习聚焦区域，得到较好策略需要更大量的训练；3)在注意力模型中，注意力与输出往往在同一结构(LSTM)中建模，两个序列容易混淆。

总结而言，上述转写方法虽然得到较为广泛应用，但是对于结构化图片转写任务，仍存在如下困难：1)传统方法需要大量人为规则，成本很高，且转写规则针对性强、不能通用；2)现有的端到端的图片转文字模型对于结构化图片的处理存在一些困难，使其效果受限。

发明内容

本发明的目的是提供一种结构化图片自动转换为源代码的方法，其目的是通过对现有图片数据及对应源代码的模式的学习，较为准确地转录诸如公式、乐谱等结构化图片，得到对应源代码。该自动产生的源代码将能够通过对应领域的特定编译器，编译还原得到原公式或乐谱图片。

本发明的目的是通过以下技术方案实现的：

一种结构化图片自动转换为源代码的方法，包括：

获取结构化图片及源代码；

使用基于深度残差网络的图像编码器，对结构化图片进行编码，从图像中提取特征向量；

采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码，来计算语法符号的分布，并依照编码-解码器模型建模源代码生成过程，进而实现图片到源代码的自动转换。

由上述本发明提供的技术方案可以看出，针对结构化图片到源代码的自动转换问题，采用聚光灯机制建模注意力，能够更加集中地获取图像信息，对于图片内容的准确转写很有帮助；该自动转写方法引入聚光灯这一机制，弥补了现有方法缺乏对空间信息、结构信息的建模，以及注意力、输出混淆建模等弊端。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种结构化图片自动转换为源代码的方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种结构化图片自动转换为源代码的方法，如图1所示，其主要包括：

步骤11、获取结构化图片及源代码。

本发明实施例中，所需的结构化图片及对应源代码，需要在进行转换的领域产生和收集。首先，确定当前领域的图像编译器，例如对应公式图片的TeX编译器；再收集不同的结构化图片及对应源代码，或者只收集源代码，通过图像编译器产生结构化图片。

此外，为了使得模型能够更加稳定，需要对数据进行清理和扩展：对于收集的源代码，需要经过预处理，清除无意义的符号，保持形式的统一和一致；对于收集或产生的图像，需要经过放缩、旋转、人为增加噪声等方法扩展，使得训练数据覆盖更多真实图像状况。

本发明实施例中，结构化图片均表示为三维张量x，三维分别表示图像的长、宽、通道数(通道数也即颜色数，一般为RGB三色)。对于获取的源代码，需要进行额外的处理，首先对于源代码进行分词，得到符号序列y＝{y₁,...,y_T}，其中，y_t为时刻t对应源代码中的语法符号；t＝1,...,T。

步骤12、使用基于深度残差网络的图像编码器，对结构化图片进行编码，从图像中提取特征向量。

本发明实施例中，对于结构化图片x，将使用基于深度残差网络的图像编码器得到结构化图片的一组特征向量V(W'×H'×D)，表示为：

其中，V表示获得的一组特征向量，W',H'为经过基于深度残差网络的图像编码器后得到的特征层的宽和高，D为特征维度，每个位置的向量V^(i,j)代表了对应区域的特征，相邻位置的向量表示的区域也是相邻的。

本发明实施例中，所述基于深度残差网络的图像编码器形式化为f(·；θ_f)，其中θ_f表示待学习的网络参数；该网络的构建基于一个修改的ResNet，构建方式如下：

基于深度残差网络的图像编码器由多个(例如，20个)残差块顺序相连形成，其中的待学习的网络参数θ_f为所有残差块的参数的并集。

将结构化图片x输入至基于深度残差网络的图像编码器中，首先输入至第1个残差块，将其记为x₁，第1个残差块输出x₂作为第2个残差块的输入；也即，对于第l个残差块而言，其输入x_l输出x_l+1。

对于第l个残差块的输入x_l，其通过如下两层结构得到下层输入x_l+1：

F(x_l；W₁,W₂)＝W₂σ(Conv(x_l,W₁))；

x_l+1＝F(x_l；W₁,W₂)+x_l；

其中，σ为激活函数，此处可使用ReLU作为激活函数。Conv为一层卷积操作。F即表示一层卷积神经元，W₁,W₂为其参数。两层之间还额外增加了残差连接。

图片特征向量V通过如下方式得到：

V＝f(x；θ_f)。

步骤13、采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码，来计算语法符号的分布，并依照编码-解码器模型建模源代码生成过程，进而实现图片到源代码的自动转换。

前述步骤中提到对于源代码进行分词，得到符号序列y＝{y₁,...,y_T}，本发明实施例中，基于编码-解码器模型，将符号序列输出建模为一时序过程：在时刻t，采用基于聚光灯机制的解码器依据之前时刻已产生的语法符号以及所提取的特征向量V，得到当前时刻t产生语法符号的分布P(y_t|y₁,...,y_t-1,V)；

根据时刻t产生语法符号的分布P(y_t|y₁,...,y_t-1,V)，可进行图片到源代码的自动转换。

本领域技术人员可以理解，此处所涉及的自动转换过程可以通过常规技术实现；假设已经生成了t-1个语法符号在时刻t即根据分布采样得到该时刻t的输出如此可自动得到转换后的符号序列

为了得到语法符号的分布P(y_t|y₁,...,y_t-1,V)，首先，将已产生的语法符号通过词嵌入层转换为维度更低的向量，词嵌入层是一个C×D_e的参数矩阵θ_e，其中C为词表大小，D_e为词嵌入后的向量长度；对于符号序列中的每个语法符号，若它是词表中的第s个词，则查矩阵第s行获得其对应向量表示。将该词嵌入层表示为函数Embed(·；θ_E)，对于每个语法符号y_t，得到嵌入表示：

e_t＝Embed(y_t；θ_E)；

将时刻t前的所有语法符号y₁,...,y_t-1使用循环神经网络的变种(GRU网络)建模为一历史向量h_t，h_t建模了时刻t之前的全部输出：

h_t＝GRU(e_t-1,h_t-1；θ_h)。

其中，θ_h为GRU网络的参数。

然后，采用聚光灯机制结合图片特征向量V获得时刻t产生语法符号的分布，时刻t的聚焦信息包含聚焦句柄s_t，以及根据聚焦句柄决定的聚焦向量sc_t；

利用历史向量h_t，聚焦向量sc_t，聚焦句柄s_t，通过增加一层全连接网络d(·；θ_d)学习时刻t的产生语法符号的分布P(y_t|y₁,...,y_t-1,V)：

上式中，全连接网络d(·；θ_d)输出词表大小的向量，θ_d为全连接网络的参数，表示向量拼接。

下面针对聚光灯机制进行详细介绍。

本发明实施例中，所述聚焦句柄s_t表示为s_t＝(cx_t,cy_t,σ_t)；其中，(cx_t,cy_t)表示聚光灯中心所在位置，σ_t表示聚光灯半径；

聚焦向量依据提取的图片特征向量V以及聚焦句柄s_t获得，方式如下：

在时刻t，对于图片特征向量V中的每个向量V^(i,j)定义权重权重将服从如下高斯分布：

该高斯分布的均值μ_t、方差Σ_t分别为：

μ_t＝(cx_t,cy_t)^T

注意到由于图像特征向量V^(i,j)的排列保持了图像的位置关系，上述方式定义的权重可以实现信息的聚焦。

为了高效训练整个网络，该权重计算需要可微、可并行化。下面描述得到该权重的并行化可微方法。

首先，依据高斯分布的定义，将权重改写为：

为了计算b_t，构造两个与图片特征向量V等大的W'×H'的矩阵I和J，在矩阵I和J的每个点(i,j)处，令I^(i,j)＝i,J^(i,j)＝j；并扩展cx_t和cy_t为W'×H'的矩阵，分别记作X_t,Y_t，即令则将b_t的计算写为矩阵形式：

计算得到权重后，聚焦向量sc_t则为特征向量V中位置向量V^(i,j)的加权平均：

本发明实施例中，聚焦句柄s_t采用如下任一种聚光灯控制模块进行计算：

1)基于马尔可夫建模的聚光灯控制模块：对于聚焦句柄的变化提出如下假设：时刻t的聚焦句柄仅依赖前一时刻聚焦向量，决定聚焦句柄的信息包括上一时刻聚焦句柄s_t-1、聚焦向量sc_t-1、以及当前时刻t的历史向量h_t，即聚焦句柄服从马尔科夫性质，使用一个双层全连接神经网络n(·；θ_n)建模该马尔科夫过程：

其中，θ_n为双层全连接神经网络的参数；

2)基于循环神经网络建模的聚光灯控制模块：使用一个新的循环神经网络建模聚光灯控制，聚焦句柄历史使用一个时刻t的向量k_t建模，向量通过GRU网络更新：

k_t＝GRU(s_t-1,k_t-1；θ_k)；

上式中，k_t-1为上一时刻的向量；

聚焦句柄s_t计算公式为：

其中，c(·；θ_c)为一单层神经网络，用于输出下一时刻的聚焦句柄，θ_c为该神经网络的参数。

通过以上编码-解码器建模，以及聚光灯机制，可完成图片到源代码的自动转换。

另一方面，本发明实施例中，使用监督学习及强化学习的方法训练步骤13中的模型参数，首先使用随机梯度下降的方法最大化极大似然误差函数，然后建模问题，最后进行强化学习，主要过程如下：

当获得时刻t产生语法符号的分布P(y_t|y₁,...,y_t-1,V)后，最终产生完整符号序列的概率，表示为：

之后，根据获取的图片-符号序列对，使用随机梯度下降的方法最大化极大似然误差函数：

可以进一步通过强化学习的方式得到更精确的聚焦位置，从而提高模型准确率。具体的，建模转换问题为一马尔可夫决策过程MDP，在建模的MDP中，令每一时刻自动转换的输出(即根据分布采样确定输出)为一次动作，其依赖的状态为模型在每一时刻所看到的状态，反馈函数定义为：

其中，reconstruction_similarity表示接受图片-符号序列对返回根据输出符号重建得到的图片与原图片的相似度。具体而言，首先，将输出符号序列通过编译器编译得到重建图片，然后，将重建图片与原图计算相似度值。将该相似度值作为反馈函数。

采用上述方式建模问题之后，使用Actor-Critic强化学习算法进行增强，为了能够专注于调整聚焦过程，在强化过程中，固定图片特征向量以及输出历史建模的部分的参数(θ_f,θ_E,θ_h)，仅训练聚焦过程相关部分的参数(θ_n,θ_c,θ_k)。

通过训练模型参数得到可供预测的模型及参数(θ_f,θ_E,θ_h,θ_n,θ_c,θ_k,)。对于任一新的输入图片，可使用该参数自动产生图片对应源代码。

本发明实施例上述方案，针对结构化图片到源代码的自动转换问题，采用“聚光灯”机制建模注意力，能够更加集中地获取图像信息，对于图片内容的准确转写很有帮助；而通过独立的聚光灯控制模块，模型能够分别建模图片结构及源代码输出，从而可以更多、更精确地保留结构化图片中的结构特征，因此能够更加准确的转写。该自动转写方法引入聚光灯这一机制，弥补了现有方法缺乏对空间信息、结构信息的建模，以及注意力、输出混淆建模等弊端。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种结构化图片自动转换为源代码的方法，其特征在于，包括：

获取结构化图片及源代码；

2.根据权利要求1所述的一种结构化图片自动转换为源代码的方法，其特征在于，所述获取结构化图片及源代码包括：

确定当前领域的图像编译器，再收集不同的结构化图片及对应源代码，或者只收集源代码，通过图像编译器产生结构化图片。

3.根据权利要求1所述的一种结构化图片自动转换为源代码的方法，其特征在于，所述使用基于深度残差网络的图像编码器，对结构化图片进行编码，从图像中提取特征向量包括：

对于结构化图片x，将使用基于深度残差网络的图像编码器得到结构化图片的一组特征V(W'×H'×D)，表示为：

其中，V表示获得的一组特征向量，W',H'为经过基于深度残差网络的图像编码器后得到的特征层的宽和高，D为特征维度，每个位置的向量V^(i,j)代表了对应区域的特征。

4.根据权利要求1或3所述的一种结构化图片自动转换为源代码的方法，其特征在于，所述基于深度残差网络的图像编码器形式化为f(·；θ_f)，其中θ_f表示待学习的网络参数；构建方式如下：

基于深度残差网络的图像编码器由多个残差块顺序相连形成，其中的待学习的网络参数θ_f为所有残差块的参数的并集；

F(x_l；W₁,W₂)＝W₂σ(Conv(x_l,W₁))；

x_l+1＝F(x_l；W₁,W₂)+x_l；

其中，σ为激活函数；Conv为一层卷积操作，F即表示一层卷积神经元，W₁,W₂为其参数；

图片特征向量V通过如下方式得到：

V＝f(x；θ_f)。

5.根据权利要求1或3所述的一种结构化图片自动转换为源代码的方法，其特征在于，所述采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码，来计算语法符号的分布，并依照编码-解码器模型建模源代码生成过程，进而实现图片到源代码的自动转换包括：

对源代码进行分词，得到符号序列y＝{y₁,...,y_T}，其中y_t均为对应语言中的语法符号；t＝1,...,T，T为符号序列中元素总数；

基于编码-解码器模型，将符号序列输出建模为一时序过程：在时刻t，采用基于聚光灯机制的解码器依据之前时刻已产生的语法符号以及所提取的特征向量V，得到当前时刻t产生语法符号的分布P(y_t|y₁,...,y_t-1,V)；

根据时刻t产生语法符号的分布P(y_t|y₁,...,y_t-1,V)，进行图片到源代码的自动转换。

6.根据权利要求5所述的一种结构化图片自动转换为源代码的方法，其特征在于，所述采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码，来计算语法符号的分布包括：

首先，将已产生的语法符号通过词嵌入层转换为维度更低的向量，词嵌入层是一个C×D_e的参数矩阵θ_e，其中C为词表大小，D_e为词嵌入后的向量长度；对于符号序列中的每个语法符号，若它是词表中的第s个词，则查矩阵第s行获得其对应向量表示；将该词嵌入层表示为函数Embed(·；θ_E)，对于每个语法符号y_t，得到嵌入表示：

e_t＝Embed(y_t；θ_E)；

将时刻t前的所有语法符号y₁,...,y_t-1使用GRU网络建模为一历史向量h_t，h_t建模了时刻t之前的全部输出：

h_t＝GRU(e_t-1,h_t-1；θ_h)；

其中，θ_h为GRU网络的参数；

然后，采用聚光灯机制结合图片特征向量V获得时刻t产生语法符号的分布，t时刻的聚焦信息包含聚焦句柄s_t，以及根据聚焦句柄决定的聚焦向量sc_t；

利用历史向量h_t，聚焦向量sc_t，聚焦句柄s_t，通过增加一层全连接网络d(·；θ_d)学习t时刻的产生语法符号的分布P(y_t|y₁,...,y_t-1,V)：

7.根据权利要求6所述的一种结构化图片自动转换为源代码的方法，其特征在于，所述聚焦句柄s_t表示为s_t＝(cx_t,cy_t,σ_t)；其中，(cx_t,cy_t)表示聚光灯中心所在位置，σ_t表示聚光灯半径；

该高斯分布的均值μ_t、方差Σ_t分别为：

μ_t＝(cx_t,cy_t)^T

依据高斯分布的定义，将权重改写为：

构造两个与图片特征向量V等大的W'×H'的矩阵I和J，在矩阵I和J的每个点(i,j)处，令I^(i,j)＝i,J^(i,j)＝j；并扩展cx_t和cy_t为W'×H'的矩阵，分别记作X_t,Y_t，即令Y_t ⁽ⁱ ^,j)＝y_t，则将b_t的计算写为矩阵形式：

计算得到权重α^(i,j)后，聚焦向量sc_t则为特征向量V中位置向量V^(i,j)的加权平均：

8.根据权利要求6或7所述的一种结构化图片自动转换为源代码的方法，其特征在于，聚焦句柄s_t采用如下任一种聚光灯控制模块进行计算：

基于马尔可夫建模的聚光灯控制模块：对于聚焦句柄的变化提出如下假设：时刻t的聚焦句柄仅依赖前一时刻聚焦向量，决定聚焦句柄的信息包括上一时刻聚焦句柄s_t-1、聚焦向量sc_t-1、以及当前时刻的历史向量h_t，即聚焦句柄服从马尔科夫性质，使用一个双层全连接神经网络n(·；θ_n)建模该马尔科夫过程：

其中，θ_n为双层全连接神经网络的参数；

基于循环神经网络建模的聚光灯控制模块，使用一个新的循环神经网络建模聚光灯控制，聚焦句柄历史使用一个时刻t的向量k_t建模，向量通过GRU网络更新：

k_t＝GRU(s_t-1,k_t-1；θ_k)；

上式中，k_t-1为上一时刻的向量；

聚焦句柄s_t计算公式为：

其中，c(·；θ_c)为一单层神经网络，θ_c为该神经网络的参数。

9.根据权利要求8所述的一种结构化图片自动转换为源代码的方法，其特征在于，该方法还包括：使用监督学习及强化学习的方法来训练所涉及的模型参数：

首先，当获得时刻t产生语法符号的分布P(y_t|y₁,...,y_t-1,V)后，最终产生完整符号序列的概率，表示为：

然后，通过强化学习的方式得到更精确的聚焦位置，具体的，建模转换问题为一马尔可夫决策过程MDP，在建模的MDP中，令每一时刻自动转换的输出为一次动作，其依赖的状态为模型在每一时刻所看到的状态，反馈函数定义为：

其中，reconstruction_similarity表示接受图片-符号序列对返回根据输出符号重建得到的图片与原图片的相似度；

最后，使用Actor-Critic强化学习算法进行增强，在强化过程中，固定图片特征提取以及输出历史建模的部分的参数θ_f,θ_E,θ_h，仅训练聚焦过程相关部分的参数θ_n,θ_c,θ_k。