CN111126221A

CN111126221A - 一种融合双向视觉注意力机制的数学公式识别方法及装置

Info

Publication number: CN111126221A
Application number: CN201911295399.XA
Authority: CN
Inventors: 张婷; 何彬; 余新国; 陈治平; 曾致中; 孙超
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-08
Anticipated expiration: 2039-12-16
Also published as: CN111126221B

Abstract

本发明公开了一种融合双向视觉注意力机制的数学公式识别方法及装置。该方法包括：接收输入的数学公式图像，提取数学符号区域并获取每个所述数学符号区域的特征作为自下而上信息；构建标记语言的条件语言模型，预测每个输出数学符号的条件概率分布，获取所述条件语言模型的时刻状态，将所述条件语言模型的时刻状态联合已输出的数学符号共同组成了自上而下信息；构建融合双向视觉注意力机制的注意力模型，融合自下而上和自上而下的双向信息预测注意力分布。本发明可以有效利用多粒度视觉信息的问题，从而提高数学公式识别的准确率。

Description

一种融合双向视觉注意力机制的数学公式识别方法及装置

技术领域

本发明属于数学公式识别技术领域，更具体地，涉及一种融合双向视觉注意力机制的数学公式识别方法及装置。

背景技术

脱机数学公式识别是指从包含数学公式的图像中识别出数学公式，具有十分重要的应用，在电子文档的编辑和检索等领域中都需要能够自动识别数学公式。数学公式的研究开始于19世纪60年代，在接下来的近30年间，仅有少量的研究成果发表。直至90年代，随着触摸屏设备的大规模发展，该研究领域开始活跃起来，得到了更多研究者的关注，产出了丰富的研究成果。数学公式理解包含三项相互依赖的任务：(1)符号分割,该项任务是指将属于同一个符号的笔画分为一组；(2)符号识别,是指赋予每个符号一个特定的符号类别；(3)结构分析，其目标是理解符号之间的空间关系，并借助于语法以产生一个正确的数学解释。以上三项任务可以按顺序依次完成，也可以联合起来整体解决。传统的解决方案分为两类：顺序解决方案和集成解决方案。

顺序解决方案。在数学公式理解研究的早期阶段，研究者们提出的方法大多属于顺序解决方案类。此类方案将公式理解问题视为流水线过程，首先进行符号分割和识别，然后进行结构分析。顺序解决方案存在一个明显的缺陷，即在符号分割和识别阶段产生的误差会被传播到结构分析阶段。也就是说，在此类顺序解决方案中，符号识别与结构分析被假设为独立的任务。但是，该假设与实际情况是相矛盾的。数学公式识别中的三个任务之间是相互依赖的关系，例如人们在识别数学符号时会借助公式的结构信息，反之亦然。

集成解决方案。考虑到三个任务之间的依赖关系，研究者们开始转向研究集成解决方案。集成方法的核心在于执行符号分割的同时生成数学公式的结构，具体技术路线是提出多种符号分割和识别结果的假设，然后使用结构分析算法从中选择最优的一组假设生成公式的结构。此类方案利用上下文信息来引导符号的分割和识别，从而避免生成不符合语法规则的数学公式，例如“[a+b)”。关于如何引入上下文信息，提出的方法主要分为串语法解析技术和图语法解析技术两种。然而无论是串语法技术还是图语法技术，都需要针对不同的数据集人工设计大量的语法产生式；另外语法解析算法的时间复杂度较高。

基于端到端可训练的神经网络的解决方案。为了避开集成解决方案中的人工设计语法规则和复杂的语法解析过程，也得益于深度学习技术的研究进展，近两年研究人员提出了一些基于深度学习的数学公式识别方法。上述文献中提出的方法都是基于编码解码模型，将输入的图像通过编码器进行编码，随后利用带有注意力机制的解码器对编码后的特征反编译生成数学公式的相应标记语言——LATEX。现有的端到端可训练模型，针对数学公式，实现了从图像到标记语言的直接转化，并取得了已公开的最好的实验结果。经对已有的方法梳理分析得知，模型中所引入的视觉注意力机制都隶属于自上而下机制。此类基于自上而下注意力机制的方法采用与具体视觉任务相关的上下文来预测注意力在大小一致的多个图像区域上的分布。之后根据预测得到的注意力分布，将多个图像区域的特征进行加权平均，生成当前时刻被关注区域的特征向量。换言之，在自上而下类范式中，注意力的分布预测是基于统一大小的网格，而网格大小的设定实际上是在视觉信息的粗细粒度级别之间做平衡。由于数学符号的尺度变化多样，图像中的多粒度的视觉信息对数学公式的正确理解非常重要，单一尺度的注意力模型不能做到有效利用多个粒度的视觉信息。为了解决上述问题，研究者提出了分层的注意力模型和多尺度注意力模型等，这类模型同时提取粗粒度和细粒度两个粒度的视觉特征。但是分层或多尺度的注意力模型只能利用两个或几个固定粒度的信息，这种方法只能缓解，并不能够从根本上解决我们面临的问题，即有效利用所有粒度层次的视觉信息。

综上所述，现有技术中针对数学公式理解所提出的解决方案整体上可以分为三类：顺序解决方案、集成解决方案、基于端到端可训练的神经网络的解决方案。在顺序解决方案中，符号分割、符号识别与结构分析被假设为独立的任务。但是，该假设与三个任务之间是相互依赖的关系这一事实相矛盾。为了解决这一矛盾，研究者们开始转向研究集成解决方案。此类方案利用上下文信息来引导符号的分割和识别，从而避免生成不符合语法规则的数学公式。然而集成方案需要针对不同的数据集人工设计大量的语法产生式；另外语法解析算法的时间复杂度较高。为了避开集成解决方案中的人工设计语法规则和复杂的语法解析过程，近几年研究人员提出了基于端到端可训练神经网络的数学公式理解方法。该类方法引入了自上而下视觉注意力机制，通过学习聚焦图像的部分区域来提高数学公式的理解准确率。自上而下范式类方法从图像的语义概要出发，将其转化为标记语言描述。此类范式作为目前最先进的技术，借助于循环神经网络，针对数学公式实现从图像到标记语言描述的端对端转化。通常，输入图像被划分为大小一致的多个区域，即均一网格，然后，自上而下注意力机制类方法采用与视觉任务相关的上下文来预测注意力在不同区域上的分布。由于图像被均匀划分，自上而下类方法存在一个局限，即只能关注到图像中的固定粒度的视觉信息。而数学符号尺度变化多样，多粒度的视觉信息对于公式理解至关重要。自下而上类方法能够在图像的任意分辨率上做出处理，因此不存在忽略视觉信息的缺陷。但是，自下而上类方法存在其它缺陷，例如从独立数学符号到整体描述，缺少端对端的公式化描述。综上，无论自上而下类方法还是自下而上类方法都存在各自的缺陷。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种融合双向视觉注意力机制的数学公式识别方法及装置，可以有效利用多粒度视觉信息的问题，从而提高数学公式识别的准确率。

为实现上述目的，按照本发明的第一方面，提供了一种融合双向视觉注意力机制的数学公式识别方法，包括：

接收输入的数学公式图像，提取数学符号区域并获取每个所述数学符号区域的特征，每个所述数学符号区域的特征的集合组成了所述数学公式图像中的自下而上信息；

构建标记语言的条件语言模型，预测每个输出数学符号的条件概率分布，获取所述条件语言模型的时刻状态，将所述条件语言模型的时刻状态联合已输出的数学符号共同组成了自上而下信息；

构建融合双向视觉注意力机制的注意力模型，基于所述注意力模型根据当前时刻产生的自上而下信息预测注意力在所述自下而上信息的数学符号区域上的分布，基于预测得到的当前时刻的注意力分布，将被关注的视觉显著性区域特征进行加权平均得到的结果输入到所述条件语言模型来。

优选地，采用Faster R-CNN模型和点线检测相结合的方法提取数学符号区域并获取每个所述数学符号区域的特征。

优选地，采用LSTM循环神经网络构建所述条件语言模型。

优选地，所述预测每个输出数学符号的条件概率分布，获取所述条件语言模型的时刻状态具体是：采用以下公式预测每个输出符号y_t的条件概率分布p：

p(y_t|{y₁,...,y_t-1},x)＝g(y_t-1,h_t,c_t)，

其中x表示输入图像，h_t表示LSTM在t时刻的隐藏层状态,c_t指代t时刻生成符号y_t所关注的显著性区域特征，g表示一个非线性函数，用于输出y_t的概率分布，h_t由下列公式计算得到：

h_t＝LSTM(h_t-1,y_t-1,c_t)。

优选地，根据当前时刻产生的自上而下信息预测是否对注意力模型启动暂停动作，若启动暂停动作，则不计算当前时刻的注意力分布。

优选地，所述采用Faster R-CNN模型提取数学符号区域提取数学符号区域并获取每个所述数学符号区域的特征具体是：根据所述数学公式图像生成数学符号候选区域，利用数学符号候选区域生成网络，预测数学符号对应的边界框；针对提出的每个数学符号候选区域，采用ROI Pooling提取相应的特征图，作为卷积层后续层的输入，用来预测数学符号类别和细化边界框；选取类别检测概率大于预设置信度阈值的区域作为数学符号区域提取结果。

按照本发明的第二方面，提供了一种融合双向视觉注意力机制的数学公式识别装置，包括：

自下而上信息获取模块，用于接收输入的数学公式图像，提取数学符号区域并获取每个所述数学符号区域的特征，每个所述数学符号区域的特征的集合组成了所述数学公式图像中的自下而上信息；

条件语言模型模块，用于构建标记语言的条件语言模型，预测每个输出数学符号的条件概率分布，获取所述条件语言模型的时刻状态，将所述条件语言模型的时刻状态联合已输出的数学符号共同组成了自上而下信息；

注意力模型模块，用于构建融合双向视觉注意力机制的注意力模型，基于所述注意力模型根据当前时刻产生的自上而下信息预测注意力在所述自下而上信息的数学符号区域上的分布，基于预测得到的当前时刻的注意力分布，将被关注的视觉显著性区域特征进行加权平均得到的结果输入到所述条件语言模型。

按照本发明的第三方面，提供了一种电子设备，包括处理器和存储器，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现上述任一项方法。

按照本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有有益效果：本发明通过构建融合双向注意力机制的注意力模型，能够融合自下而上和自上而下的双向信息预测注意力分布，能有效利用多粒度视觉信息，从而提高数学公式识别的准确率，实现从图像到标记语言(LATEX)的直接有效转化；提出结合深度学习和传统方法的数学符号区域检测框架，进而提出包含内容和位置信息的区域特征表示，对于公式中高/宽度很小的符号也具有很好的检测效果；构建基于长短时神经网络的条件语言模型，能够考虑公式语言中存在长距离依赖性，并在此基础上生成自上而下信息表示，进一步提高识别精度；在双向注意力模型中引入暂停动作，使不存在视觉可见区域的辅助符号依赖语言模型生成。。

附图说明

图1是本发明实施例提供的结合Faster R-CNN和点线检测的数学符号定位原理示意图；

图2是本发明实施例提供的基于循环神经网络的条件语言模型的原理示意图；

图3是本发明实施例提供的带有暂停动作的双向视觉注意力机制模型的原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例的一种融合双向视觉注意力机制的数学公式识别方法，包括：

S1，接收输入的数学公式图像，提取数学符号区域并获取每个数学符号区域的特征，每个数学符号区域的特征的集合组成了所述数学公式图像中的自下而上信息。

自下而上的视觉信息通常包括基本特征、物体、学习到的特征等，基本特征包括颜色、方向等。与普通场景视觉图像不同，数学公式图像中不存在复杂的背景和颜色特征，只是多个数学符号在二维空间中的有序排列。结合上述数学公式图像的特点，同时考虑到物体是视觉注意力的自然基础，本发明采用数学符号这一物体特征作为数学公式语言理解中自下而上信息的表示。下面从数学符号区域提取和数学符号区域特征表示两个方面具体说明。

(1)数学符号区域提取

在一个实施例中，采用Faster R-CNN模型和点线检测方法结合的方法来提取数学符号区域提取数学符号区域并获取每个所述数学符号区域的特征。Faster R-CNN作为State-of-the-art目标检测模型之一，是自下而上注意力机制的自然表达；另外，由于该模型可以使用数据样本实现端到端的训练，因此能够应用于多个不同的实际问题中。数学公式图像中符号区域提取是一个典型的目标检测或定位问题。本发明实施例采用Faster R-CNN来提取数学公式中的数学符号区域。但是，公式中不同数学符号的尺度变化较大，特别是存在一些宽度或高度很小的符号(“1，-，|”等)，而Faster R-CNN对于宽度或高度很小的物体检测效果不佳，因此，本发明实施例采用结合深度学习模型Faster R-CNN和传统点线检测方法的数学符号定位框架。如图1所示，采用Faster R-CNN数学符号检测分为两个阶段：第一阶段，根据数学公式图像生成数学符号候选区域，利用候选区域生成网络，预测数学符号对应的边界框(Bounding Box)；第二阶段，针对提出的每个数学符号候选区域，采用ROI(Region of Interest)Pooling提取相应的特征图，作为后续层的输入，用来预测数学符号类别和细化Bounding Box。最后，选取类别检测概率大于某一置信度阈值的区域作为符号区域提取结果。另外，对于容易被Faster R-CNN模型所遗漏掉宽度或高度很小的符号(“1，-，|”等)，我们采用传统的点线检测技术作为候选区域生成网络的补充，两种方法得到的结果作为数学符号区域提取的最终结果。

(2)数学符号区域特征表示

数学公式理解不仅涉及到数学符号的识别，更需要分析符号与符号之间的空间关系，从而生成标记语言描述。为了获取更多的信息以达到更加有效的理解数学公式，本发明实施例把数学符号区域的内容特征和空间位置结合起来共同作为符号区域的特征表示。具体而言，针对每个符号区域i,假设用V_i表示该区域的特征。那么，V_i应该包括区域i的卷积特征和空间位置信息。

如果图像中存在k个符号区域，那么该数学公式图像中的自下而上信息可以表示为V＝{v₁,…,v_k}。

S2，构建标记语言的条件语言模型，预测每个输出数学符号的条件概率分布，获取条件语言模型的时刻状态，将条件语言模型的时刻状态联合已输出的数学符号共同组成了与视觉任务相关的自上而下信息。

自上而下的信息表示与当前的视觉任务息息相关。本发明视觉任务是给定一数学公式图像，输出相应的LATEX标记语言。本发明实施例采用条件语言模型来生成LATEX标记语言。这样，获取数学公式理解中与视觉任务相关的上下文表示，就转化为获取LATEX标记语言的条件语言模型的状态。下面从条件语言模型构建和与视觉任务相关的上下文表示两个方面具体说明。

(1)标记语言的条件语言模型构建

与自然语言相比，数学公式语言具有准确、简洁等特点。在公式语言中并不存在语言歧义现象，但存在长距离的上下文依赖关系，例如在公式“(a+b+c)”中，左右括号之间是相互依赖的。本发明实施例采用LSTM循环神经网络构建标记语言的条件语言模型，如图2所示，长短时记忆(Long-short term memory,LSTM)神经网络由于门机制的引入解决了传统循环神经网络(RNN)中存在的梯度消失问题，从而具有记忆长距离上下文的能力。预测每个输出符号y_t的条件概率分布p，具体公式如下：

p(y_t|{y₁,...,y_t-1},x)＝g(y_t-1,h_t,c_t) (1)

其中x表示输入图像，h_t表示LSTM在t时刻的隐藏层状态,c_t指代t时刻生成符号y_t所关注的显著性区域特征，g表示一个非线性函数，用于输出y_t的概率分布。h_t可由下列公式计算得到：

h_t＝LSTM(h_t-1,y_t-1,c_t) (2)

(2)数学公式理解中与视觉任务相关的上下文表示

上述构建的LSTM条件语言模型逐个输出数学符号，为了尽可能多地获取与视觉任务相关的上下文信息，本发明实施例将LSTM条件语言模型的时刻状态联合已输出的部分符号作为与视觉任务相关的上下文表示。因此，t时刻自上而下信息可表示为{h_t,we_t},其中we_t代表目前已输出的部分符号的编码。

S3，构建融合双向视觉注意力机制的注意力模型，基于注意力模型根据当前时刻产生的自上而下信息预测注意力在S1获取的自下而上信息的数学符号区域上的分布，基于预测得到的当前时刻的注意力分布，将被关注的视觉显著性区域特征进行加权平均得到的结果输入到S2中的条件语言模型。

构建一个融合双向视觉注意力机制的计算模型，使其能够根据当前时刻产生的自上而下信息{h_t,we_t}预测注意力在多个数学符号区域(自下而上)V＝{v₁,…,v_k}上的分布。进而，基于预测得到的当前时刻的注意力分布，将被关注的视觉显著性区域特征进行加权平均得到c_t作为条件语言模型的输入之一预测下一时刻输出的数学符号。

在一个实施例中，可以根据当前时刻产生的自上而下信息预测是否对注意力模型启动暂停动作，若启动暂停动作，则不计算当前时刻的注意力分布。数学公式标记语言LATEX中存在辅助符号，例如C_{n-1}^{2}中的”{”。对于此类符号，图像中不存在相应的可见符号区域，它们更大程度上依赖语言模型生成。因此，本发明实施例构建一个带有“暂停动作”的双向视觉注意力机制模型，如图3所示，首先根据当前时刻产生的自上而下信息{h_t,we_t}预测是否对注意力模型启动“暂停”动作，然后根据上一步的预测结果决定是否计算当前时刻的注意力分布，若启动暂停动作，则不计算当前时刻的注意力分布，则直接通过条件语言模型来预测下一时刻输出的数学符号。

特别说明的是，上述方法步骤虽然标出了数字序号，但方法的执行并非按照数字序号从小到大按序执行，而是以文字中说明的数据输入输出的逻辑顺序来执行。

本发明实施例的一种融合双向视觉注意力机制的数学公式识别装置，包括：

自下而上信息获取模块，用于接收输入的数学公式图像，提取数学符号区域并获取每个数学符号区域的特征，每个数学符号区域的特征的集合组成了数学公式图像中的自下而上信息；

条件语言模型模块，用于构建标记语言的条件语言模型，预测每个输出数学符号的条件概率分布，获取条件语言模型的时刻状态，将条件语言模型的时刻状态联合已输出的数学符号共同组成了自上而下信息；

注意力模型模块，用于构建融合双向视觉注意力机制的注意力模型，基于注意力模型根据当前时刻产生的自上而下信息预测注意力在自下而上信息的数学符号区域上的分布，基于预测得到的当前时刻的注意力分布，将被关注的视觉显著性区域特征进行加权平均得到的结果输入到所述条件语言模型。

数学公式识别装置的实现原理、技术效果与上述方法类似，此处不再赘述。

为了实现上述实施例，本发明实施例还提出一种电子设备，包括：处理器和存储器。其中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。存储器中存储有计算机程序，计算机程序被处理器执行时可以实现上述任一数学公式识别方法实施例的技术方案。存储器中包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。处理器可以是一种集成电路芯片，具有信号的处理能力。处理器在接收到执行指令后，执行程序。可选的，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。本实施例提供的电子设备，可以用于执行上述任一数学公式识别方法实施例的技术方案，其实现原理、技术效果与上述方法类似，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一数学公式识别方法实施例的技术方案。其实现原理、技术效果与上述方法类似，此处不再赘述。

本发明通过构建融合双向注意力机制的注意力模型，能够融合自下而上和自上而下的双向信息预测注意力分布，能有效利用多粒度视觉信息，从而提高数学公式识别的准确率，实现从图像到标记语言(LATEX)的直接有效转化；提出结合深度学习和传统方法的数学符号区域检测框架，进而提出包含内容和位置信息的区域特征表示，对于公式中高/宽度很小的符号也具有很好的检测效果；构建基于长短时神经网络的条件语言模型，能够考虑公式语言中存在长距离依赖性，并在此基础上生成自上而下信息表示，进一步提高识别精度；在双向注意力模型中引入暂停动作，使不存在视觉可见区域的辅助符号依赖语言模型生成。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合双向视觉注意力机制的数学公式识别方法，其特征在于，包括：

2.如权利要求1所述的一种融合双向视觉注意力机制的数学公式识别方法，其特征在于，采用Faster R-CNN模型和点线检测相结合的方法提取数学符号区域并获取每个所述数学符号区域的特征。

3.如权利要求1所述的一种融合双向视觉注意力机制的数学公式识别方法，其特征在于，采用LSTM循环神经网络构建所述条件语言模型。

4.如权利要求3所述的一种融合双向视觉注意力机制的数学公式识别方法，其特征在于，所述预测每个输出数学符号的条件概率分布，获取所述条件语言模型的时刻状态具体是：采用以下公式预测每个输出符号y_t的条件概率分布p：

p(y_t|{y₁,...,y_t-1},x)＝g(y_t-1,h_t,c_t)，

h_t＝LSTM(h_t-1,y_t-1,c_t)。

5.如权利要求1所述的一种融合双向视觉注意力机制的数学公式识别方法，其特征在于，根据当前时刻产生的自上而下信息预测是否对注意力模型启动暂停动作，若启动暂停动作，则不计算当前时刻的注意力分布。

6.如权利要求2所述的一种融合双向视觉注意力机制的数学公式识别方法，其特征在于，采用Faster R-CNN模型提取数学符号区域并获取每个所述数学符号区域的特征具体是：根据所述数学公式图像生成数学符号候选区域，利用数学符号候选区域生成网络，预测数学符号对应的边界框；针对提出的每个数学符号候选区域，采用ROI Pooling提取相应的特征图，作为卷积层后续层的输入，用来预测数学符号类别和细化边界框；选取类别检测概率大于预设置信度阈值的区域作为数学符号区域提取结果。

7.一种融合双向视觉注意力机制的数学公式识别装置，其特征在于，包括：

8.一种电子设备，包括处理器和存储器，其特征在于，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。