CN112101359B

CN112101359B - 文本公式的定位方法、模型训练方法及相关装置

Info

Publication number: CN112101359B
Application number: CN202011251708.6A
Authority: CN
Inventors: 李保俊; 刘涛; 黄家冕; 曾鹏; 兴百桥
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-12
Anticipated expiration: 2040-11-11
Also published as: CN112101359A

Abstract

本申请提供了一种文本公式的定位方法、模型训练方法及相关装置，定位方法包括获取待识别图像，将待识别图像输入至文本公式定位模型，分别定位出待识别图像的文本区域和/或公式区域；文本公式定位模型是采用标记有文本公式定位信息的图像样本对改进的Mask‑RCNN网络进行训练得到的，改进的Mask‑RCNN网络包括Attention‑FPN网络，Attention‑FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的。该方法由于采用了文本公式定位模型，识别效率以及准确率高，并且可以同时定位出公式区域和文字区域，大大减少了操作。

Description

文本公式的定位方法、模型训练方法及相关装置

技术领域

本申请涉及图像处理技术领域，具体涉及一种模型训练方法、装置，以及文本公式的定位方法、装置、终端设备和计算机可读存储介质。

背景技术

随着科学技术的发展，自动化、智能化已经深入到人们生活的各个方面，例如车站机场等安检时身份验证、票据自动录入、试卷自动批改以及拍照搜题等，而在这些应用中对文档图像进行识别处理成为不可或缺的步骤。目前，在对文档图像进行识别处理时，往往需要先对文字进行定位再进行识别。此外，在某一些实际应用场景中，例如对于在拍照搜题或试卷自动批改时，特别是涉及公式识别的数学、物理、化学科目时，通常需要将常规（或普通）文本和公式分别进行识别，那么首先需要对文本和公式进行分别定位。然而，目前现有的文字定位技术方法都只考虑常规文本定位，并没有区分文本和公式的定位。

发明内容

有鉴于此，本申请实施例中提供了一种模型训练方法、装置，以及文本公式的定位方法、装置、终端设备和计算机可读存储介质，以克服现有技术中的文字定位技术方法都只考虑常规文本定位，并没有区分文本和公式的定位的问题。

第一方面，本申请实施例提供了一种模型训练方法，所述方法包括：

获取图像样本，采用文本公式定位信息对所述图像样本进行标记，得到标记有文本公式定位信息的图像样本；

构建改进的Mask-RCNN网络，其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络；其中，Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；

将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征，并通过所述Attention-FPN网络进行特征融合得到多尺度特征图；

将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域；

采用Faster R-CNN网络和Mask预测网络对所述候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域；

根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差，和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内，若是，则训练完成，得到文本公式定位模型。

第二方面，本申请实施例提供了一种模型训练装置，所述装置包括：

样本获取模块，用于获取图像样本；

样本标记模块，用于采用文本公式定位信息对所述图像样本进行标记，得到标记有文本公式定位信息的图像样本；

网络构建模块，用于构建改进的Mask-RCNN网络，其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络；其中，Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；

特征提取模块，用于将所述标记有文本公式定位信息的图像样本输入ResNet网络进行卷积操作提取图像特征；

特征融合模块，用于通过所述Attention-FPN网络进行特征融合得到多尺度特征图；

候选区域生成模块，用于将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域；

实际文本公式区域获得模块，用于采用所述Faster R-CNN网络和所述Mask预测网络对候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域；

判断模块，用于根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差，和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内；

文本公式定位模型获得模块，用于若所述实际文本区域与目标文本区域的偏差，和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内，则训练完成，得到文本公式定位模型。

第三方面，本申请实施例提供了一种文本公式的定位方法，该方法包括：

获取待识别图像；

将所述待识别图像输入至文本公式定位模型，分别定位出所述待识别图像的文本区域和/或公式区域；其中，所述文本公式定位模型是采用第一方面提供的模型训练方法训练得到的。

第四方面，本申请实施例提供了一种文本公式的定位装置，该装置包括：

待识别图像获取模块，用于获取待识别图像；

区域定位模块，用于将所述待识别图像输入至文本公式定位模型，分别定位出所述待识别图像的文本区域和/或公式区域；其中，所述文本公式定位模型是采用第一方面提供的模型训练方法训练得到的。

第五方面，本申请实施例提供了一种终端设备，包括：存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述第一方面提供的模型训练方法，和/或第三方面提供的文本公式的定位方法。

第六方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述第一方面提供的模型训练方法，和/或第三方面提供的文本公式的定位方法。

本发明实施例提供的模型训练方法、装置、终端设备和计算机可读存储介质，获取图像样本，采用文本公式定位信息对图像样本进行标记，得到标记有文本公式定位信息的图像样本；构建改进的Mask-RCNN网络，其中改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络；其中，Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；将标记有文本公式定位信息的图像样本输入ResNet网络进行卷积操作提取图像特征，并通过Attention-FPN网络进行特征融合得到多尺度特征图；将多尺度特征图输入至RPN网络生成文本公式的候选区域；采用Faster R-CNN网络和Mask预测网络对候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域；根据文本公式定位信息来判断实际文本区域与目标文本区域的偏差，和/或实际公式区域与目标公式区域的偏差是否在预设范围内，若是，则训练完成，得到文本公式定位模型。

该模型训练方法采用了标记有文本公式定位信息（即已知文本位置和/或公式位置）的图像样本来训练改进的Mask-RCNN网络从而得到文本公式定位模型，即采用一个模型对多个属性（即文本和公式）同时进行学习训练大大减少了操作；并且该方法采用了改进的Mask-RCNN网络，提高了识别的效率以及准确率。

本申请实施例提供的文本公式的定位方法、装置、终端设备和计算机可读存储介质，获取待识别图像；将待识别图像输入至文本公式定位模型，分别定位出待识别图像的文本区域和公式区域；其中，文本公式定位模型是采用第一方面提供的模型训练方法训练得到的；该方法由于采用了文本公式定位模型，文本公式定位模型识别效率以及准确率高，那么该文本公式的定位方法识别效率以及准确率高，并且可以同时定位出公式区域和文字区域，大大减少了操作。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文本公式的定位方法或模型训练方法的应用场景示意图；

图2为本申请一个实施例提供的模型训练方法的流程示意图；

图3为本申请一个实施例提供的改进的Mask-RCNN网络结构示意图；

图4为本申请一个实施例提供的RPN网络结构示意图；

图5为本申请一个实施例提供的Attention- FPN网络结构示意图；

图6为本申请一个实施例提供的注意力模块（Attention Block）结构示意图；

图7为本申请一个实施例提供的文本公式的定位方法的流程示意图；

图8为本申请一个实施例提供的测试集中图像的示意图；

图9为本申请一个实施例提供的模型训练装置的结构示意图；

图10为本申请一个实施例提供的文本公式的定位装置结构示意图；

图11为本申请一个实施例中提供的终端设备的结构示意图；

图12为本申请一个实施例中提供的计算机可读存储介质的结构示意图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更详细说明本申请，下面结合附图对本申请提供的一种模型训练方法、装置，以及文本公式的定位方法、装置、终端设备和计算机可读存储介质，进行具体地描述。

请参考图1，图1示出了本申请实施例提供的模型训练方法或文本公式的定位方法的应用场景的示意图，该应用场景包括本申请实施例提供的终端设备102和服务器104，其中服务器104与终端设备102之间设置有网络。网络用于在终端设备102和服务器104之间提供通信链路的介质。其中，终端设备102通过网络与服务器104交互，以接收或发送消息等，服务器104可以是提供各种服务的服务器104。其中服务器104可以用来执行本申请实施例中提供的模型训练方法和/或文本公式的定位方法，服务器104可以从终端设备102中获取待识别图像，然后将待识别图像输入文本公式定位模型从而定位出待识别图像的文本区域和/或公式区域。另外，服务器104还可以将定位的结果返回至终端设备102等。此外，服务器104可以对文本公式定位模型进行训练，并存储文本公式定位模型；此外，终端设备102可以用来对待识别物体（例如试卷试题等）进行拍照生成待识别图像。

可选的，终端设备102可以是具有显示屏的各种电子设备，包括但不限于智能手机和计算机设备，其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。终端设备102可以泛指多个终端设备中的一个。此外，终端设备102也可以用来执行本申请实施例中提供的一种模型训练方法和/或文本公式的定位方法。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。

基于此，本申请实施例中提供了模型训练方法，请参阅图2，图2示出了本申请实施例提供的一种文本公式的定位方法的流程示意图，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S110，获取图像样本，采用文本公式定位信息对图像样本进行标记，得到标记有文本公式定位信息的图像样本；

在本实施例中，首先要准备比较多（例如几千张、几万张等）数量的图像样本。图像样本可以是采用拍摄设备自行拍摄收集，也可以是从网络的图片数据库或试题数据库中进行爬取。通常情况下，图像样本越多，其训练的模型更加精确；但图像样本太多会降低模型训练的速度。因此，在实际应用中，选择合适数量的图像样本即可，但在准备图像样本时尽可能使样本多样化。其中在准备图像样本时可以建立数据训练集，将图像样本存储至数据训练集中。

在获取到图像样本后，需要对图像样本进行文本公式定位信息标记。可选地，在标记过程中，可以采用文本公式标签来对图像样本进行文本公式定位信息标记。

在一种可选地实施方式中，可以采用labelimg软件来对图像样本做标记，在图像样本上框选出公式和文本区域，从而生成公式标签（即框选出的公式区域在图像样本中的位置信息）和文本标签（即框选出的文本区域在图像样本中的位置信息），将公式标签和文本标签保存在相应的（例如xml）格式文件中。

另外，标记有文本公式定位信息的图像样本上含有文本和/或公式。其中，公式是指一切可以用数学符号来表示各个量之间的一定关系（如定律或定理）的式子。文本是指除出公式之外的一切类型的文字。

文本公式定位信息包括文本定位信息和公式定位信息，文本定位信息用来确定图像样本中文本位置，即目标文本区域；公式定位信息用来确定图像样本中公式位置，即目标公式区域。

步骤S120，构建改进的Mask-RCNN网络，其中改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络；其中，改进的Mask-RCNN网络包括Attention-FPN网络，Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；

请参照图3和图4，改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络，其中ResNet网络与Attention-FPN网络组成骨干网络，用来对图像样本进行多尺度特征图计算。RPN网络主要是设置在Attention-FPN网络和Faster R-CNN网络或Mask预测网络之间，RPN网络主要用于在多尺度特征图上设置anchor box（初始框），然后通过卷积层来确定候选区域。Faster R-CNN网络和Mask预测网络都设置在RPN网络之后，用来对候选区域中的特征进行预测，从而得到预测结果。

步骤S130，将标记有文本公式定位信息的图像样本输入ResNet网络进行卷积操作提取图像特征，并通过Attention-FPN网络进行特征融合得到多尺度特征图；

具体地，ResNet网络主要用于对输入的图像样本进行卷积操作提取图像特征，得到每一层特征图像，Attention-FPN网络对每一层特征图像进行特征融合，得到多尺度特征图。

步骤S140，将多尺度特征图输入至RPN网络生成文本公式的候选区域；

RPN网络对输入的多尺度特征进行处理，在每个多尺度特征图上设置不同的anchor box（初始框），然后通过两个1×1的卷积层（即cls layer 和reg layer）根据scores初步分类该框是不是前景（即判断框中的内容是否属于文本或者公式），根据coordinates调整初始框使其更加贴近前景（文本或者公式）。其中，cls layer主要用于分类，reg layer主要用于边框回归。在本实施例中，通过调整初始框的位置并进行判断，根据判断结果筛选出候选框，其中一个候选框即对应于一个文本公式的候选区域。其中，对于一个多尺度特征图而言，候选框可以是多个，即文本公式的候选区域可以是很多个。

步骤S150，采用Faster R-CNN网络和Mask预测网络对候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域；

在得到候选区域后，提取候选区域中的ROI特征，采用Faster R-CNN网络和Mask预测网络对ROI特征进行分类、定位和分割处理，从而得到图像样本的实际文本区域和/或实际公式区域。其中，Faster R-CNN网络主要用来做分类（class）和定位（box）处理，而Mask预测网络主要用来做分割（mask）处理。

步骤S160，根据文本公式定位信息来判断实际文本区域与目标文本区域的偏差，和/或实际公式区域与目标公式区域的偏差是否在预设范围内，若是，则训练完成，得到文本公式定位模型。

具体地，根据文本公式定位信息可以确定目标文本区域和目标公式区域，然后将实际文本区域与目标文本区域的偏差，和/或实际公式区域与目标公式区域进行比较，看其偏差是否在预设范围，若是，则训练完成，得到文本公式定位模型。其中，预设范围可以是一个预设的值，表示可接收的实际值与目标值最大偏差。

模型训练就是给定输入向量和目标输出值，然后将输入向量来输入一个或多个网络结构或函数来求得实际输出值，并根据目标输出值和实际输出值来计算偏量，并判断偏量是否在容许范围内；若在容许范围内，则训练结束并固定相关参数；若不在容许范围内，不断去调整网络结构或函数中的一些参数，直至在偏量在容许范围内或达到了某一结束条件时，训练结束并固定相关参数，最后根据固定的相关参数即可得到训练完成的模型。

而本实施例中的文本公式定位模型的训练实际上为：将标记有文本公式定位信息的图像样本作为输入向量输入至改进的Mask-RCNN网络，将图像样本中的文本位置和公式位置作为目标输出值；求隐含层，输出各层单元的输出，求出目标输出值和实际输出值偏差，当偏差在不容许范围内，计算网络层中神经元的误差，求误差梯度，并更新权值，重新求隐含层，输出各层单元的输出，求出目标值和实际值偏差，直至偏差在容许范围内，训练结束，固定权重和阈值，从而得到文本公式定位模型。该模型训练方法采用了标记有文本公式定位信息（即已知文本位置和/或公式位置）的图像样本来训练改进的Mask-RCNN网络从而得到文本公式定位模型，即采用一个模型对多个属性（即文本和公式）同时进行学习训练大大减少了操作；并且此外，在本实施例中，采用改进的Mask-RCNN网络，改进的Mask-RCNN网络能极大的简化了文本检测的流程，也能提升文本检测的效果、速度和准确性。改进的Mask-RCNN网络主要包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络等几部分，其中Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的。加入注意力模块即在FPN网络中引入了注意力机制，能进一步提高文本检测的准确率。

在一个实施例中，ResNet网络包括ResNet50网络，ResNet50网络与Attention-FPN网络中各层对应连接形成多层网络结构，多层网络结构包括自下而上连接结构、横向连接结构和自上而下连接结构，其中在横向连接结构和自上而下连接结构中的每一层间设有一个注意力模块；在通过Attention-FPN网络进行特征融合得到多尺度特征图的步骤中，包括：

通过注意力模块对不同层的特征图进行加权融合，得到多尺度特征图，其中不同层的特征图是通过ResNet50网络对图像样本进行图像特征提取生成的。

具体地，ResNet50网络是自下向上的依次连接的五个卷积层，形成自下向上的5层网络结构，而Attention-FPN网络（如图5所示）包括横向连接结构和自上向下连接结构，其中横向连接结构包括4层网络结构（P2、P3、P4和P5），自上向下连接结构包括3层网络结构，每一层横向网络结构中包括1×1卷积层和一个注意力模块；而每一层自上向下网络结构中包括一个注意力模块；4层横向网络结构分别与5层自下向上网络结构的第二层到第二层对应连接。

请参照图6，注意力模块包括Scale层和自上向下依次连接的Global Pooling（全局池化层）、1×1 Conv（1×1卷积层）、BN/ReLU层、1×1 Conv（1×1卷积层）、BN层和Sigmoid函数层，其中Sigmoid函数层连接Scale层。BN和ReLU层表示非线性激活单元，主要用于避免卷积神经网络只能拟合线性数据，不能拟合非线性数据，从未造成后续模型训练不准确甚至导致训练失败的问题。

注意力模块主要用于对不同层的特征图进行加权融合。由于不同层特征图拥有不同特性的特征，采用注意力模块可以根据不同层特征的特性采用加权融合方法，使得得到的多尺度特征图更加精确，从而使得后续训练得到的文本公式定位模型更加精确。

在一个实施例中，在采用Faster R-CNN网络和Mask预测网络对候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和实际公式区域的步骤中，包括：

对候选区域进行分类，筛选出置信度大于第一预设阈值的候选区域；对置信度大于第一预设阈值的候选区域进行非极大值抑制处理，筛选出重叠候选区域内概率值最大的候选区域；对概率值最大的候选区域进行定位和分割处理，得到图像样本的实际文本区域和实际公式区域。

具体地，对于一个特征图而言候选区域通常有多个，那对于多个特征图来说候选区域数量通常会更多。那么，可以对候选区域进行分类，筛选出置信度大于第一预设阈值的候选区域，即可以首先排除低置信度的候选区域。预设第一阈值通常是一个预先设置的百分数值，例如可以取5%。

在筛选出置信度大于第一预设阈值的候选区域之后，对置信度大于第一预设阈值的候选区域进行非极大值抑制处理，筛选出重叠候选区域内概率值最大的候选区域；对概率值最大的候选区域进行定位和分割处理，得到图像样本的实际文本区域和实际公式区域。

非极大值抑制（Non-Maximum Suppression，NMS），就是抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。在本实施例中由于RPN网络在多尺度特征进行分析生成文本公式的候选区域过程中，通过移动anchor box（初始框）生成候选框的过程中会导致很多候选框之间存在包含或者大部分交叉的情况。这时采用NMS来选取那些重叠候选区域中概率最大的候选区域，从而抑制那些概率低的候选区域，从而提高后续处理速度，加快模型训练。

为了便于理解，给出一个详细的实施例。在利用RPN对多个多尺度特征图提取候选框时（每个特征图最多250个），假设共提取出1000个候选框，经过RCNN的class、box两个分支，首先利用class分支的结果筛选出的高置信度（概率>=0.5）的候选框, 将这些候选框进行NMS（非最大抑制）保留重叠框中概率较大的框box，用这些box提取特征（利用ROIAlign ）输入mask分支，最后根据mask的结果可以获取物体（文本、公式）的轮廓，根据轮廓可以获取最小面积的外接矩形作为输出，得到图像样本的实际文本区域和实际公式区域。

在一个实施例中，在将标记有文本公式定位信息的图像样本输入ResNet网络进行卷积操作提取图像特征的步骤之前，包括：

将标记有文本公式定位信息的图像样本的最长边调整至第二预设阈值，并对调整后的图像样本进行缩放处理。

具体地，在采用图像样本训练改进的Mask-RCNN网络之前，需要对图像样本缩放处理。在缩放处理之前为了保证所有图像样本都按照同比例缩放，将图样样本的最长边（这里的最长边并不是特征图像长，也可以是宽或高）进行调整，将其调整到第二预设阈值。其中，第二预设值可以是一个预先设置的值，例如可以取800。应当理解，第二预设值的取值并不唯一，可以取其他值。

在一个实施例中，在将标记有文本公式定位信息的图像样本输入ResNet网络进行卷积操作提取图像特征的步骤之前，还包括：

按照预设选择概率选择一种或多种增强处理方法对缩放处理后的图像样本进行增强处理；其中当选择多种增强处理方法时，每一种增强处理方法的运行顺序是随机的，增强处理方法包括对图像样本的RGB三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理。

具体的，为了增强文本公式定位模型的泛化能力，防止模型过拟合，在将采用图像样本训练改进的Mask-RCNN网络之前，还需要对图像样本进行增强处理。具体增强方法包括对图像样本的RGB三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理，其中添加噪声可以是高斯噪声和椒盐噪声。

亮度变换处理通常是指对图像样本乘以一个系数，来改变图像样本的亮度。其系数可以是0.7-1.3区间的一个随机数。

运动模糊是景物图像中的移动效果，通常是在拍照过程中产生的。为了保证图像样本的多样性以及真实性，对图像样本进行运动模糊处理。

另外，对于一个图像样本而言，图像增强处理是可选的（即可以进行也可以不进行），图像增强处理方法也可以是选择其中一种或多种。每一种方法可以按照其预设选择概率来选择，每一种方法被选择的概率可以相等也可以不相同。

在一种可选的实施方式中，每一种增强处理方法被选择的概率可以都设有0.5。

在一个实施例中，压缩处理包括Jpeg压缩；按照预设选择概率选择一种或多种增强处理方法对缩放处理后的图像样本进行增强处理的步骤中，包括：

采用Jpeg压缩并按照预设压缩强度对缩放处理后的图像样本进行压缩处理。

其中，Jpeg压缩是一种基于DCT变换、Zig-Zag扫描和Huffman编码的图像压缩方法。在图像压缩过程为了防止过度压缩，其压缩强度要保持在预设压缩范围内。可选的，预设压缩范围可以为0~40。

应当理解，在图像压缩采用的算法不限于本实施例中提到的Jpeg压缩算法，根据本发明的技术启示，本领域技术人员还可以采用其他压缩算法来进行图像压缩。

此外，本申请实施例中还提供了一种文本公式的定位方法。请参阅图7，图7示出了本申请实施例提供的一种文本公式的定位方法的流程示意图，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S210，获取待识别图像；

在对图像进行文本和公式识别之前，需要先对图像中的文本和公式进行定位。因此，在本实施例中待识别图像是指任意的需要进行文本和/或公式识别的图像。其中，待识别图像可以是图像采集设备（例如智能终端、摄像设备等）拍摄文档、证件、试卷、书籍等产生的图片。

另外，待识别图像的角度（即图像是否发生倾斜）、颜色、大小、分辨率等不限，只要能符合图像识别的最低要求即可。

步骤S220，将待识别图像输入至文本公式定位模型，分别定位出待识别图像的文本区域和/或公式区域；其中，文本公式定位模型是采用任一个模型训练方法实施例中的方法训练得到的。

其中，文本公式定位模型的训练过程请参考本发明提供的文本公式定位模型训练的实施例相关内容，在此不再赘述。

另外，当待识别图像只包含文本时就定位出文本区域；当待识别图像只包含公式时就定位出公式区域；当待识别图像既包含文本又包含公式时文本区域和公式区域。

为了便于理解本方案，给出一个详细的实施例。例如，某一个用户A需要从某题库B中搜索某一道题目的正确解法时，该用户A可以采用手机等智能终端拍摄该题目形成待识别图像，然后将待识别图像上传至某题库B相关服务器，某题库B相关服务器可以采用实施例中的文本公式定位模型对待识别图像进行公式和文本定位，找出待识别图像的文本区域和公式区域，再对文本区域和公式区域基于光学字符识别，分别从待识别图像的文本区域和公式区域中识别出文本和公式信息，然后将文本和公式信息与题库中已存在的题目进行匹配，从而找到该题目以及相关的解法方案。

本申请实施例提供的文本公式的定位方法、装置、终端设备和计算机可读存储介质，获取待识别图像；将待识别图像输入至文本公式定位模型，分别定位出待识别图像的文本区域和公式区域；其中，文本公式定位模型是采用任一个模型训练方法实施例中提供的方法训练得到的；该方法由于采用了文本公式定位模型，文本公式定位模型识别效率以及准确率高，那么该文本公式的定位方法识别效率以及准确率高，并且可以同时定位出公式区域和文字区域，大大减少了操作。

效果实施例：

为了验证本申请实施例中提供的文本公式的定位方法的有效性。将测试集的2千张图像中分别采用传统Mask-RCNN网络、PAN-Mask-RCNN网络和Attention-Mask-RCNN网络进行定位分析，来统计测试结果。其中，测试集是根据用户在实际拍搜场景中拍照上传的文档图像建立的；PAN-Mask-RCNN网络是指在传统的Mask-RCNN网络基础上将其骨干网络变换成PAN网络，Attention-Mask-RCNN网络是指本申请实施例中改进的Mask-RCNN网络。测试集的图像请参照图8，应当理解图8仅给出了一种图像示例。另外，测试结果如表1所示：

表1为测试结果统计表

从表1中可知，Attention-Mask-RCNN网络与PAN-Mask-RCNN网络、Mask-RCNN网络相比，在对图像文本公式定位分析时都表现最佳，其召回率与准确率都比其余两种网络高。由此可知，本发明实施例中提供的图像中文本公式定位方法准确率高。

应该理解的是，虽然图2以及图7 的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图2以及图7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述本申请公开的实施例中详细描述了一种模型训练方法，对于本申请公开的上述方法可采用多种形式的设备实现，因此本申请还公开了对应上述模型训练方法的模型训练装置，下面给出具体的实施例进行详细说明。

请参阅图9，为本申请实施例公开的一种模型训练装置，主要包括：

样本获取模块902，用于获取图像样本；

样本标记模块904，用于采用文本公式定位信息对图像样本进行标记，得到标记有文本公式定位信息的图像样本；

网络构建模块906，用于构建改进的Mask-RCNN网络，其中改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络；其中，Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；

特征提取模块908，用于将标记有文本公式定位信息的图像样本输入ResNet网络进行卷积操作提取图像特征；

特征融合模块910，用于通过Attention-FPN网络进行特征融合得到多尺度特征图；

候选区域生成模块912，用于将多尺度特征图输入至RPN网络生成文本公式的候选区域；

实际文本公式区域获得模块914，用于采用Faster R-CNN网络和Mask预测网络对候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域；

判断模块916，用于根据文本公式定位信息来判断实际文本区域与目标文本区域的偏差，和/或实际公式区域与目标公式区域的偏差是否在预设范围内；

文本公式定位模型获得模块918，用于若实际文本区域与目标文本区域的偏差，和/或实际公式区域与目标公式区域的偏差是否在预设范围内，则训练完成，得到文本公式定位模型。

在一个实施例中，ResNet网络包括ResNet50网络，ResNet50网络与Attention-FPN网络中各层对应连接形成多层网络结构，多层网络结构包括自下而上连接结构、横向连接结构和自上而下连接结构，其中在横向连接结构和自上而下连接结构中的每一层间设有一个注意力模块；特征融合模块，还用于通过注意力模块对不同层的特征图进行加权融合，得到多尺度特征图，其中不同层的特征图是通过ResNet50网络对图像样本进行图像特征提取生成的。

在一个实施例中，实际文本公式区域获得模块包括：第一筛选模块和第二筛选模块：

第一筛选模块，用于对候选区域进行分类，筛选出置信度大于第一预设阈值的候选区域；

第二筛选模块，用于对置信度大于第一预设阈值的候选区域进行非极大值抑制处理，筛选出重叠候选区域内概率值最大的候选区域；

实际文本公式区域获得模块，还用于对概率值最大的候选区域进行定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域。

在一个实施例中，还包括：

边调整模块，用于将标记有文本公式定位信息的图像样本的最长边调整至第二预设阈值；

缩放处理模块，用于对调整后的图像样本进行缩放处理。

在一个实施例中，还包括：

增强处理模块，用于按照预设选择概率选择一种或多种增强处理方法对缩放处理后的图像样本进行增强处理；

其中当选择多种增强处理方法时，每一种增强处理方法的运行顺序是随机的，增强处理方法包括对图像样本的RGB三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理。

在一些实施例中，压缩处理包括Jpeg压缩；增强处理模块包括压缩处理模块：

压缩处理模块，用于采用Jpeg压缩并按照预设压缩强度对缩放处理后的图像样本进行压缩处理。

关于模型训练装置的具体限定可以参见上文中对于方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

此外，上述本申请公开的实施例中详细描述了一种文本公式的定位方法，对于本申请公开的上述方法可采用多种形式的设备实现，因此本申请还公开了对应上述方法的文本公式的定位装置，下面给出具体的实施例进行详细说明。

请参阅图10，为本申请实施例公开的一种文本公式的定位装置，主要包括：

待识别图像获取模块1002，用于获取待识别图像；

区域定位模块1004，用于将待识别图像输入至文本公式定位模型，分别定位出待识别图像的文本区域和/或公式区域；其中，文本公式定位模型是采用任一个模型训练方法实施例中的方法训练得到的。

关于文本公式的定位装置的具体限定可以参见上文中对于方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参考图11，图11其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备110可以是计算机设备。本申请中的终端设备110可以包括一个或多个如下部件：处理器112、存储器114以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器114中并被配置为由一个或多个处理器112执行，一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法，也可以配置用于执行上述应用于模型训练方法和/或文本公式的定位的方法实施例中所描述的方法。

处理器112可以包括一个或者多个处理核。处理器112利用各种接口和线路连接整个终端设备110内的各个部分，通过运行或执行存储在存储器114内的指令、程序、代码集或指令集，以及调用存储在存储器114内的数据，执行终端设备110的各种功能和处理数据。可选地，处理器112可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogicArray ，PL A)中的至少一种硬件形式来实现。处理器112可集成中央处理器(CentralProcessing Unit，CPU)、埋点数据的上报验证器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器112中，单独通过一块通信芯片进行实现。

存储器114可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器114可用于存储指令、程序、代码、代码集或指令集。存储器114可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备110在使用中所创建的数据等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端设备的限定，具体的终端设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

综上，本申请实施例提供的终端设备用于实现前述方法实施例中相应的文本公式的定位方法，并具有相应的方法实施例的有益效果，在此不再赘述。

请参阅图12，其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质120中存储有程序代码，程序代码可被处理器调用执行上述文本公式的定位方法实施例中所描述的方法，也可以被处理器调用执行上述模型训练方法和/或文本公式的定位方法实施例中所描述的方法。

计算机可读取存储介质120可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质120具有执行上述方法中的任何方法步骤的程序代码122的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码122可以例如以适当形式进行压缩。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

构建改进的Mask-RCNN网络，其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络；其中，所述Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；

采用所述Faster R-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域；

根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差，和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内，若是，则训练完成，得到文本公式定位模型；其中，所述预设范围是一个预设的值。

2.根据权利要求1所述的方法，其特征在于，所述ResNet网络包括ResNet50网络，所述ResNet50网络与所述Attention-FPN网络中各层对应连接形成多层网络结构，所述多层网络结构包括自下而上连接结构、横向连接结构和自上而下连接结构，其中在所述横向连接结构和所述自上而下连接结构中的每一层间设有一个注意力模块；在通过所述Attention-FPN网络进行特征融合得到多尺度特征图的步骤中，包括：

通过所述注意力模块对不同层的特征图进行加权融合，得到多尺度特征图，其中不同层的特征图是通过所述ResNet50网络对图像样本进行图像特征提取生成的。

3.根据权利要求2所述的方法，其特征在于，在采用所述Faster R-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域的步骤中，包括：

对所述候选区域进行分类，筛选出置信度大于第一预设阈值的候选区域；

对置信度大于第一预设阈值的候选区域进行非极大值抑制处理，筛选出重叠候选区域内概率值最大的候选区域；

对所述概率值最大的候选区域进行定位和分割处理，得到所述图像样本的实际文本区域和/或实际公式区域。

4.根据权利要求1-3任一项所述的方法，其特征在于，在将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征的步骤之前，包括：

将所述标记有文本公式定位信息的图像样本的最长边调整至第二预设阈值，并对调整后的图像样本进行缩放处理。

5.根据权利要求4所述的方法，其特征在于，在将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征的步骤之前，还包括：

按照预设选择概率选择一种或多种增强处理方法对缩放处理后的所述图像样本进行增强处理；

其中当选择多种增强处理方法时，每一种增强处理方法的运行顺序是随机的，所述增强处理方法包括对所述图像样本的RGB三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理。

6.根据权利要求5所述的方法，其特征在于，所述压缩处理包括Jpeg压缩；按照预设选择概率选择一种或多种增强处理方法对缩放处理后的所述图像样本进行增强处理的步骤中，包括：

采用所述Jpeg压缩并按照预设压缩强度对缩放处理后的所述图像样本进行压缩处理。

7.一种文本公式的定位方法，其特征在于，所述方法包括：

获取待识别图像；

将所述待识别图像输入至文本公式定位模型，分别定位出所述待识别图像的文本区域和/或公式区域；其中，所述文本公式定位模型是采用权利要求1-6任一项所述模型训练方法训练得到的。

8.一种模型训练装置，其特征在于，所述装置包括：

样本获取模块，用于获取图像样本；

网络构建模块，用于构建改进的Mask-RCNN网络，其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络；其中，所述Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；

特征提取模块，用于将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征；

文本公式定位模型获得模块，用于若所述实际文本区域与目标文本区域的偏差，和/或所述实际公式区域与目标公式区域的偏差在预设范围内，则训练完成，得到文本公式定位模型；其中，所述预设范围是一个预设的值。

9.一种文本公式的定位装置，其特征在于，所述装置包括：

待识别图像获取模块，用于获取待识别图像；

区域定位模块，用于将所述待识别图像输入至文本公式定位模型，分别定位出所述待识别图像的文本区域和/或公式区域；其中，所述文本公式定位模型是通过以下步骤得到的：

10.一种终端设备，其特征在于，包括：

存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行如权利要求1-6任一项所述的方法，和/或权利要求7所述的方法。

11.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法，和/或权利要求7所述的方法。