CN112560834B

CN112560834B - 一种坐标预测模型生成方法、装置及图形识别方法、装置

Info

Publication number: CN112560834B
Application number: CN201910918242.1A
Authority: CN
Inventors: 熊龙飞; 段纪伟; 郑辉; 胡旭华
Original assignee: Zhuhai Kingsoft Office Software Co Ltd; Wuhan Kingsoft Office Software Co Ltd
Current assignee: Zhuhai Kingsoft Office Software Co Ltd; Wuhan Kingsoft Office Software Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2024-05-10
Anticipated expiration: 2039-09-26
Also published as: CN112560834A

Abstract

一种坐标预测模型生成方法、装置及图形识别方法、装置，包括：利用训练样本集迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型；其中，训练样本集包括：多张包含待识别图形的样本图像以及每个待识别图形的实际顶点坐标。由于采用了大量训练样本训练深度卷积神经网络模型，因此生成的坐标预测模型是一个稳定的模型，从而保证了后续图像中图形的识别准确度。

Description

一种坐标预测模型生成方法、装置及图形识别方法、装置

技术领域

本文涉及图像处理技术，尤指一种坐标预测模型生成方法、装置及图形识别方法、装置。

背景技术

随着科技的发展，很多业务需要通过计算机技术对图像中的图形进行识别，例如从一张图像中识别出文档、PPT或者证件。

相关技术中，图像中图形的获取基于传统计算机视觉CV边缘检测算法。

然而，这种算法的抗干扰能力较差，极易受到外界干扰(例如在背景与图形边缘区分不明显)，因此无法保证后续图像中图形的识别准确度。

发明内容

本申请提供了一种坐标预测模型生成方法、装置及图形识别方法、装置，能够提供一个稳定的坐标预测模型，从而保证后续图像中图形的识别准确度。

本申请提供了一种坐标预测模型生成方法，包括：

利用训练样本集迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型；其中，所述训练样本集包括：多张包含待识别图形的样本图像以及每个所述待识别图形的实际顶点坐标。

所述图形包括：四边形。

所述利用训练样本集迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型，包括：

将所述训练样本集作为所述深度卷积神经网络模型的输入，根据预先设定的损失函数，利用反向传播算法对所述深度卷积神经网络模型进行迭代训练、调整所述深度卷积神经网络模型的参数，直到损失函数的损失值收敛，得到所述坐标预测模型。

所述损失函数包括：用于计算预测顶点坐标与实际顶点坐标之间绝对误差的第一损失函数。

所述训练样本集还包括：用于表示来自每张所述样本图像的实际坐标构成的图形为所述待识别图形的标识信息；

所述损失函数包括：通过第一损失函数与第一权重因子，第二损失函数与第二权重因子进行加权运算得到的第三损失函数；其中，所述第一损失函数用于计算预测顶点坐标与实际顶点坐标之间的绝对误差，所述第二损失函数用于判断预测顶点坐标构成的图形是否是所述待识别图形，所述第一权重因子和所述第二权重因子的和为1。

所述第一权重因子和所述第二权重因子均为0.5。

本申请还提供了一种图形识别方法，包括：

获取包含目标图形的待处理图像；

将所述待处理图像输入至如上述任一项所述的坐标预测模型生成方法生成的坐标预测模型，得到所述目标图形的预测顶点坐标，并基于所述预测顶点坐标识别所述目标图形。

所述图像包括：静态图像和动态图像；

当所述图像为动态图像时，针对组成所述动态图像的每一帧静态图像，所述得到目标图形的预测顶点坐标之后，以及基于预测顶点坐标识别目标图形之前，还包括：

将获得的预测顶点坐标输入预先设置的滤波器，得到经过处理的预测顶点坐标。

所述滤波器的层数为两层。

本申请还提供了一种坐标预测模型生成装置，包括：

第一处理模块，用于利用训练样本集迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型；其中，所述训练样本集包括：多张包含待识别图形的样本图像以及每个所述待识别图形的实际顶点坐标。

本申请还提供了一种图形识别装置，包括：

获取模块，用于获取包含目标图形的待处理图像；

第二处理模块，用于将所述待处理图像输入至如上述所述的坐标预测模型生成装置生成的坐标预测模型，得到所述目标图形的预测顶点坐标，并基于所述预测顶点坐标识别所述目标图形。

与相关技术相比，本申请包括：利用训练样本集迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型；其中，所述训练样本集包括：多张包含待识别图形的样本图像以及每个所述待识别图形的实际顶点坐标。由于采用了大量训练样本训练深度卷积神经网络模型，因此生成的坐标预测模型是一个稳定的模型，从而保证了后续图像中图形的识别准确度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的一种坐标预测模型生成方法的流程示意图；

图2为本申请实施例提供的识别出的图形的示意图；

图3为本申请实施例提供的坐标预测模型生成装置的结构示意图；

图4为本申请实施例提供的图形识别装置的结构示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

本申请实施例提供一种坐标预测模型生成方法，如图1所示，包括：

步骤101、利用训练样本集迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型；其中，训练样本集包括：多张包含待识别图形的样本图像以及每个待识别图形的实际顶点坐标。

在一种示例性实例中，多张包含待识别图形的样本图像的数量为几万张。

在一种示例性实例中，所有样本图像的大小都一致。每个待识别四边形的顶点的实际坐标是以人工方式获得的坐标，每个顶点的坐标包括：横坐标和纵坐标。

在一种示例性实例中，在深度学习过程中，深度卷积神经网络模型的卷积层提取图像的特征，而全连接层将特征映射到样本的标记空间，即映射为一组固定长度的向量。其中，全连接层也可以用卷积层替代，前层是全连接的全连接层可以转化为卷积核为1×1的卷积，而前层是卷积层的全连接层可以转化为卷积核为h×w的全局卷积，h和w分别为前层卷积输出结果的高和宽。

在一种示例性实例中，深度卷积神经网络层数可变，也可采用成熟的VGG、Resnet、Mobilenet等网络的前半部分作为特征提取网络。其中，VGG是英国剑桥大学研究的一种深度学习网络结构，Resnet是微软亚洲研究院研发的一种网络结构，可以翻译为残差网络，Mobilenet是Goolge公司研发的一种网络结构。

在一种示例性实例中，图形包括：四边形。

在一种示例性实例中，利用训练样本集迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型，包括：

将训练样本集作为深度卷积神经网络模型的输入，根据预先设定的损失函数，利用反向传播算法对深度卷积神经网络模型进行迭代训练、调整深度卷积神经网络模型的参数，直到损失函数的损失值收敛，得到坐标预测模型。

在一种示例性实例中，损失函数包括：用于计算预测顶点坐标与实际顶点坐标之间绝对误差的第一损失函数。

在一种示例性实例中，训练样本集还包括：用于表示来自每张样本图像的实际坐标构成的图形为待识别图形的标识信息。

损失函数包括：通过第一损失函数与第一权重因子，第二损失函数与第二权重因子进行加权运算得到的第三损失函数；其中，第一损失函数用于计算预测顶点坐标与实际顶点坐标之间的绝对误差，第二损失函数用于判断预测顶点坐标构成的图形是否是待识别图形，第一权重因子和第二权重因子的和为1。

在一种示例性实例中，只用第一损失函数做约束训练神经网络模型得到的顶点坐标预测模型虽然在坐标预测方面准确度高，但是申请人发现在训练过程中损失值难以收敛，因此设计加入第二损失函数，通过第一损失函数与第二损失函数加权运算得到第三损失函数。在实际训练中，与收敛第一损失函数的损失值所用的时间相比，收敛第三损失函数的损失值所用的时间大幅缩短，同时预测准确度仍能满足需求。因此，通过第一损失函数和第二损失函数训练得到的深度卷积申请网络模型能够兼顾收敛难度和预测准确度。

在一种示例性实例中，第一损失函数可以是：abs_diff＝tf.abs(tf.subtract(coordinates_true,coordinates_pred))；其中，abs_diff是数据回归的loss定义即坐标误差，tf.abs表示求绝对值，tf.subtract表示求差，coordinates_true表示真实坐标值，coordinates_pred表示预测坐标值。

在一种示例性实例中，第二损失函数可以表示为：loss_cross_entropy＝tf.losses.softmax_cross_entropy(classes_true,classes_pred)。其中，loss_cross_entropy是使用算法算得的交叉熵loss，tf.losses.softmax_cross_entropy表示tensorflow里预封装好的算法，classes_true表示检测出来的区域是目标，这里用1表示，classes_pred表示预测出来的区域是否是目标。上式表示计算人标注的类别标签，和预测出来的标签进行对比，看看是不是一样。其中，类别标签比如是不是目标，或者是目标还是背景，一般是true或者false，在数值上用0和1表示。如果一样的话，说明预测正确，那么cross entropy就比较大，说明相关性比较大。如果预测错误了，那么就是没有相关性。

在一种示例性实例中，第一权重因子和第二权重因子均为0.5。

本申请实施例提供的坐标预测模型生成方法，由于采用了大量训练样本训练深度卷积神经网络模型，因此生成的坐标预测模型是一个稳定的模型，从而保证了后续图像中图形的识别准确度。

本申请实施例还提供一种图形识别方法，包括：

首先、获取包含目标图形的待处理图像。

其次、将待处理图像输入至上述实施例中的任意一种实施例描述的坐标预测模型生成方法生成的坐标预测模型，得到目标图形的预测顶点坐标，并基于预测顶点坐标识别目标图形。

在一种示例性实例中，待处理图像的大小与样本图像的大小一致。

在一种示例性实例中，当图形为四边形时，识别到的目标四边形可以如图2所示。本实施例提供的图形识别方法可以从图像中获取透视变化的PPT、文档或证件，以用于做透视矫正、抠图等操作。

在一种示例性实例中，图像包括：静态图像和动态图像。

当图像为动态图像时，针对组成动态图像的每一帧静态图像，得到目标图形的预测顶点坐标之后，以及基于预测顶点坐标识别目标图形之前，还包括：

在一种示例性实例中，滤波器的层数为两层。

本申请实施例提供的图形识别方法，由于采用了大量训练样本训练深度卷积神经网络模型，因此使得生成的坐标预测模型在各种干扰条件下能够准确地进行图形顶点预测，从而实现了图形地准确获取。

本申请实施例还提供一种坐标预测模型生成装置，如图3所示，包括：

第一处理模块21，用于利用训练样本集迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型；其中，训练样本集包括：多张包含待识别图形的样本图像以及每个待识别图形的实际顶点坐标。

在一种示例性实例中，图形包括：四边形。

在一种示例性实例中，第一处理模块21，具体用于将训练样本集作为深度卷积神经网络模型的输入，根据预先设定的损失函数，利用反向传播算法对深度卷积神经网络模型进行迭代训练、调整深度卷积神经网络模型的参数，直到损失函数的损失值收敛，得到坐标预测模型。

本申请实施例提供的坐标预测模型生成装置，由于采用了大量训练样本训练深度卷积神经网络模型，因此生成的坐标预测模型是一个稳定的模型，从而保证了后续图像中图形的识别准确度。

在实际应用中，所述第一处理模块21由位于坐标预测模型生成装置中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable GateArray，FPGA)等实现。

本申请实施例还提供一种图形识别装置，如图4所示，包括：

获取模块31，用于获取包含目标图形的待处理图像。

第二处理模块32，用于将待处理图像输入至上述任意一种实施例描述的坐标预测模型生成装置生成的坐标预测模型，得到目标图形的预测顶点坐标，并基于预测顶点坐标识别目标图形。

在一种示例性实例中，图像包括：静态图像和动态图像。

当图像为动态图像时，针对组成动态图像的每一帧静态图像，第二处理模块32，还用于将获得的预测顶点坐标输入预先设置的滤波器，得到经过处理的预测顶点坐标。

在一种示例性实例中，滤波器的层数为两层。

本申请实施例提供的图形识别装置，由于采用了大量训练样本训练深度卷积神经网络模型，因此使得生成的坐标预测模型在各种干扰条件下能够准确地进行图形顶点预测，从而实现了图形地准确获取。

在实际应用中，所述获取模块31和第二处理模块32位于图形识别装置中的CPU、MPU、DSP或FPGA等实现。

本申请实施例还提供一种图像处理装置，包括：处理器和存储器，其中，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一种所述的方法的处理。

本申请实施例还提供一种存储介质，存储介质上存储有计算机可执行命令，计算机可执行命令用于执行如上述任意一种所述的方法的处理。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种坐标预测模型生成方法，其特征在于，包括：

利用训练样本集，根据预先设定的损失函数迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型；其中，

所述训练样本集包括：多张包含待识别图形的样本图像、每个所述待识别图形的实际顶点坐标，以及表示来自每张所述样本图像的实际坐标构成的图形为所述待识别图形的标识信息；

所述损失函数包括：通过第一损失函数与第一权重因子，第二损失函数与第二权重因子进行加权运算得到的第三损失函数；所述第一损失函数用于计算预测顶点坐标与实际顶点坐标之间的绝对误差，所述第二损失函数用于判断预测顶点坐标构成的图形是否是所述待识别图形，所述第一权重因子和所述第二权重因子的和为1；

所述图形包括：四边形；

所述坐标预测模型所预测的顶点坐标用于对所述图像中的图形进行透视矫正或抠图，以进行图形识别。

2.根据权利要求1所述的方法，其特征在于，所述利用训练样本集，根据预先设定的损失函数迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述损失函数包括：用于计算预测顶点坐标与实际顶点坐标之间绝对误差的第一损失函数。

4.根据权利要求1所述的方法，其特征在于，所述第一权重因子和所述第二权重因子均为0.5。

5.一种图形识别方法，其特征在于，包括：

获取包含目标图形的待处理图像；

将所述待处理图像输入至如权利要求1-4任一项所述的坐标预测模型生成方法生成的坐标预测模型，得到所述目标图形的预测顶点坐标，并基于所述预测顶点坐标对所述图像中的图形进行透视矫正或抠图，以识别所述目标图形。

6.根据权利要求5所述的方法，其特征在于，所述图像包括：静态图像和动态图像；

7.根据权利要求6所述的方法，其特征在于，所述滤波器的层数为两层。

8.一种坐标预测模型生成装置，其特征在于，包括：

第一处理模块，用于利用训练样本集，根据预先设定的损失函数迭代训练预先构建的深度卷积神经网络模型，生成用于预测图像中图形的顶点坐标的坐标预测模型；其中，所述训练样本集包括：多张包含待识别图形的样本图像、每个所述待识别图形的实际顶点坐标，以及表示来自每张所述样本图像的实际坐标构成的图形为所述待识别图形的标识信息；

所述损失函数包括：通过第一损失函数与第一权重因子，第二损失函数与第二权重因子进行加权运算得到的第三损失函数；其中，所述第一损失函数用于计算预测顶点坐标与实际顶点坐标之间的绝对误差，所述第二损失函数用于判断预测顶点坐标构成的图形是否是所述待识别图形，所述第一权重因子和所述第二权重因子的和为1；

所述图形包括：四边形；

9.一种图形识别装置，其特征在于，包括：

获取模块，用于获取包含目标图形的待处理图像；

第二处理模块，用于将所述待处理图像输入至如权利要求8所述的坐标预测模型生成装置生成的坐标预测模型，得到所述目标图形的预测顶点坐标，并基于所述预测顶点坐标对所述图像中的图形进行透视矫正或抠图，以识别所述目标图形。