CN110321889A

CN110321889A - 一种图片文件中插图定位提取方法及系统

Info

Publication number: CN110321889A
Application number: CN201910327085.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-10-11

Abstract

本发明公开了一种图片文件中插图定位提取方法及系统，包括：利用傅里叶变换旋转校正画面倾斜的原始图片文件，获得校正后的画面水平的图片文件；建立基于Mask R‑CNN算法的插图定位提取模型；利用校正后的图片文件训练基于Mask R‑CNN算法的插图定位提取模型；获取未知扫描图片文件，利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件，利用训练后的基于Mask R‑CNN算法的插图定位提取模型对校正后的未知扫描图片文件进行插图定位，根据定位结果进行插图提取；本方法能够通过傅里叶变换校正真实场景下的扫描文件；能够很好地确定真实场景下的扫描文件中插图的位置并进行提取。

Description

一种图片文件中插图定位提取方法及系统

技术领域

本发明涉及图片处理领域，具体地，涉及一种图片文件中插图定位提取方法及系统。

背景技术

随着社会发展和信息技术的不断进步，现阶段的抽象文字信息已经不能够全面地描述现象或者结构等信息，信息表达的方式越来越多，图片在信息表达中扮演着重要角色。多数信息文档的获取方式不同、数据格式不一，这给信息挖掘带来一定的困难。在实际应用中存在大量的扫描文件和图片，针对这些文件进行数据分析挖掘的前提是如何从这些文件中提取数据，这些数据包含了文字信息、表格信息、公式信息和插图信息，针对文字的OCR识别技术已有较为深入的研究，然而针对插图的定位和提取还是一个空白的领域，因此在处理扫描文件或图片文件时文档插图的精确定位和提取是亟待解决的问题。目前图片文件中的插图信息提取的方式大多数是基于人工截图的形式进行存储，另外也有自动提取的方式但是提取效果并不好。鉴于上述分析，实现从图片文件中精确地定位插图位置并进行自动提取可以降低人力、物力等方面应用成本。

发明内容

本发明提供了一种图片文件中插图定位提取方法及系统，解决了现有技术中的不足，实现图片文件中插图信息的自动定位提取；旨在提升图片文件中插图定位的精度和提取速度，本方法解决了真实场景下的大规模扫描文件或一般的图片文件中插图的定位与提取问题，填补了深度学习在扫描文件或一般图片文件中插图定位提取领域的空白。

图片文件中插图信息提取的主要技术难点和技术关键点在于图片信息的精确定位并对目标图片进行自动提取。本发明通过识别图片文件中插图信息实现插图定位，对定位的插图进行单独呈现实现插图提取。解决图片数据中的插图信息提取的问题将会大幅度改变图片数据的获取方式，并加快统一数据格式的工作，对数据处理、挖掘等工作有重要的现实意义。深度学习目前已经广泛地应用于计算机视觉等多类问题，本申请是利用深度学习强大的学习能力，对图片文件中的插图信息进行定位并提取，实现数据格式的转换。

为实现上述发明目的，本发明提供了一种图片文件中插图定位提取方法，所述方法包括：

利用傅里叶变换旋转校正画面倾斜的原始图片文件，获得校正后画面水平的图片文件；

建立基于Mask R-CNN算法的插图定位提取模型；

利用校正后的图片文件，训练基于Mask R-CNN算法的插图定位提取模型；

获取未知扫描图片文件，利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件，利用训练后的基于Mask R-CNN算法的插图定位提取模型，对校正后的未知扫描图片文件进行插图定位，并根据定位结果进行插图提取。

进一步地，利用傅里叶变换旋转校正画面倾斜的原始图片文件，具体包括：

获取画面倾斜的原始图片文件的傅里叶变换图；

利用傅里叶变换将空间域的图片转换到频域的图片；

读取图片的灰度图并做二值化处理分离图片的目标和背景，利用Hough变换找到倾斜直线；

计算Hough变换检测到的直线的倾角并根据该倾角旋转画面倾斜的图片，得到校正后的画面水平的图片。

进一步地，Hough变换利用点与线的对偶性，将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点，Hough变换的具体步骤包括：

(1)初始并网格化Hough参数空间；

(2)对于欧式空间中的每个(x,y)执行步骤(3)的操作，其中(x,y)为欧式空间中的空间坐标点对；

(3)forθ＝-90°to 180°step 10°，执行ρ＝xcosθ+ysinθ与H(ρ,θ)＝H(ρ,θ)+1，将欧式空间直角坐标系下的数据点对转换到极坐标系下，其中θ和ρ为极坐标系下的空间参数，H(ρ,θ)为极坐标系下检测到的Hough直线的倾角值；

(4)设立阈值，寻找Hough参数空间中的峰值点，每一个峰值点对应欧式空间中的一条直线。

进一步地，Mask R-CNN算法包括：

训练数据预处理；

建立Mask R-CNN网络结构；

Mask R-CNN的损失函数为：

L＝L_cls+L_box+L_mask

其中，L_cls为分类损失函数：

L_cls(p，u)＝-logpu

其中，p为anchor预测为目标的概率，u为anchor的正负样本分类，为正样本时取值为1，为负样本时取值为0。anchor为正样本的情况为：(1)与人工标签最高IOU重叠的anchor，(2)与人工标签的IOU大于0.7的anchor；其他情况为anchor的负样本。

L_box为bounding box的回归损失函数：

其中，t为一个向量t＝{t_x，t_y，t_w，t_h}表示anchor预测的偏移量，其中t_x表示anchor中心点的横坐标，t_y表示anchor中心点的纵坐标，t_w表示anchor中心点的宽度，t_h表示anchor中心点的高度；v是与t同维度的向量，表示anchor相对于人工标签的实际偏移量；

L_mask为生成MASK的损失函数，MASK分支针对每一个ROI产生一个1*28*28的输出，该损失将对预测的MASK输出的每个像素点应用sigmoid函数，整体损失定义为平均二值交叉损失熵；

基于Mask R-CNN网络训练适用于扫描图片文件的插图定位提取模型：

采集扫描图片文件，获得每个扫描图片文件中插图的位置，并输入Mask R-CNN网络进行训练；

在训练过程中，若ROI>0.7则认为该ROI为正例，否则为负例，L_mask只在正例ROI上定义；设定mini-batch＝1，learning_rate＝0.02，mini-batch＝1表示训练时每一个batch训练一张图片，训练预设步之后的模型用于未知扫描文件中插图的定位与提取。

进一步地，在插图提取过程中，将MASK外接矩形作为图片的边界提取出边界框内的插图。

进一步地，获取画面倾斜的图片文件的傅里叶变换图，具体包括：针对画面倾斜的扫描图片文件，将图片文件从空间域转换到频域，用幅度图片表示经傅里叶变换后的结果。

进一步地，读取图片的灰度图并做二值化处理分离图片的目标和背景，具体包括：利用阈值法进行图片二值化处理，利用图片的目标与背景的差异，把图片像素分别设置为两个不同的级别，选取预设的阈值，以确定某像素是目标还是背景，从而获得二值化的图片。

本发明还提供了一种图片文件中插图定位提取系统，所述系统包括：

图片校正单元，用于利用傅里叶变换旋转校正画面倾斜的原始图片文件，获得校正后画面水平的图片文件；

模型建立单元，用于建立基于Mask R-CNN算法的插图定位提取模型；

模型训练单元，用于利用校正后的图片文件训练基于Mask R-CNN算法的插图定位提取模型；

插图定位提取单元，用于获取未知扫描图片文件，利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件，利用训练后的基于Mask R-CNN算法的插图定位提取模型，对校正后的未知扫描图片文件进行插图定位，根据定位结果进行插图提取。

优选地，利用傅里叶变换旋转校正画面倾斜的图片文件，具体包括：

获取画面倾斜的原始图片文件的傅里叶变换图；

利用傅里叶变换将空间域的图片转换到频域的图片；

计算Hough变换检测到的直线的倾角并根据该倾角旋转画面倾斜的图片，得到校正后画面水平的图片。

优选地，Hough变换利用点与线的对偶性，将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点，Hough变换的具体步骤包括：

(1)初始并网格化Hough参数空间；

(3)forθ＝-90°to 180°step 10°，执行ρ＝xcosθ+ysinθ与H(ρ,θ)＝H(ρ,θ)+1，将欧式空间直角坐标系下的数据点对转换到极坐标系下，其中，θ和ρ为极坐标系下的空间参数，H(ρ,θ)为极坐标系下检测到的Hough直线的倾角值；

(4)设立阈值，寻找Hough参数空间的峰值点，每一个峰值点对应欧式空间中的一条直线。

优选地，Mask R-CNN算法包括：

训练数据预处理；

建立Mask R-CNN网络结构；

Mask R-CNN的损失函数为：

L＝L_cls+L_box+L_mask

其中，L_cls为分类损失函数：

L_cls(p，u)＝-logpu

其中，p为anchor预测为目标的概率，u为anchor的正负样本分类，为正样本时取值为1，为负样本时取值为0；anchor为正样本的情况为：(1)与人工标签最高IOU重叠的anchor，(2)与人工标签的IOU大于0.7的anchor；其他情况为anchor的负样本；

L_box为bounding box的回归损失函数：

在训练过程中，若ROI>0.7则认为该ROI为正例，否则为负例，L_mask只在正例ROI上定义；设定mini-batch＝1，learning_rate＝0.02，mini-batch＝1表示训练时每一个batch训练一张图片，训练预设步之后的模型用于未知扫描图片文件中插图的定位与提取。

本发明还提供了一种图片文件中插图定位提取装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现前面所述方法的步骤。

本发明还提供了计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前面所述方法的步骤。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本方法能够通过傅里叶变换校正真实场景下的扫描文件。本发明将Mask R-CNN算法运用于扫描图片文件中插图的定位与提取，能够很好地确定真实场景下扫描文件中插图的位置并进行提取。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本发明中一种图片文件中插图定位提取方法的流程示意图；

图2是本发明中一种图片文件中插图定位提取算法的流程示意图；

图3是本发明中一种图片文件中插图定位提取系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明提出了一种图片文件中插图定位与提取方法，通过定位插图在图片文件中的位置，提取该位置的插图，实现插图与图片文件中其他文字区域的分离。

请参考图1，所述一种图片文件中插图定位提取方法的步骤包括：

步骤1，利用傅里叶变换旋转校正画面倾斜的图片文件。由于拍摄或扫描的角度和环境不同，图片文件的质量也不同，有些图片文件还会出现一定程度的画面倾斜，基于画面倾斜的图片提取出来的插图不仅质量不高，而且也会严重影响后续的分析效果，因此在插图定位之前需要根据倾斜角度校正图片文件。

在频域里面，对于一张图片，高频部分代表了图片的细节、纹理信息，低频部分代表了图片的轮廓信息。如果对图片进行低通滤波处理，滤波处理后只剩下图片的轮廓信息，而在图片的校正过程中需要根据图片的轮廓信息对图片进行校正，因此图片校正的第一步是通过傅里叶变换将图片从空间域转换到频域。

傅里叶变换后的频域值是复数，因此，显示傅里叶变换之后的结果需要使用实数图片加虚数图片，或者幅度图片加相位图片。实际上，幅度图片已经包含了原图所有的几何信息，因此，在实际应用中只用了幅度图片。

步骤1.1，获取图片的傅里叶变换图。

针对倾斜的扫描文件，将其从空间域转换到频域，用幅度图片来表示图片傅里叶变换的结果(傅里叶谱)，在实际处理时，只取其实部对图片进行分析。由于幅度的变化范围很大，而一般的图片亮度范围在(0,255],容易造成一片漆黑，只有几个点很亮，因此需要对其取对数缩小数值范围。

步骤1.2，二值化

读取图片的灰度图并进行二值化处理。二值化的目的是将目标图片像素分类，为后续获取Hough直线做准备。这里用阈值法进行图片二值化处理，利用图片的目标与背景的差异，把图片像素分别设置为两个不同的级别，选取一个合适的阈值，以确定某像素是目标还是背景，从而获得二值化的图片。

步骤1.3，利用Hough变换检测倾斜直线

Hough变换利用点与线的对偶性，将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点，所以图片中的直线检测问题就转化成了在Hough参数空间中的峰值检测问题，即将检测整体特性转化为检测局部特性。Hough变换的算法步骤为：(1)初始并网格化Hough参数空间；(2)对于欧式空间中的每个(x,y)执行步骤(3)的操作；(3)forθ＝-90°to 180°step 10°，执行ρ＝xcosθ+ysinθ与H(ρ,θ)＝H(ρ,θ)+1；(4)设立阈值，寻找Hough参数空间中的峰值点，每一个峰值点对应欧式空间中的一条直线。

步骤1.4，计算倾斜角度并旋转校正

计算Hough变换检测到的直线的倾角并根据该倾角对图片进行旋转，得到校正后的图片。

经过傅里叶变换可对扫描文件进行旋转校正。

步骤2，利用基于Mask R-CNN算法的插图定位提取模型对未知扫描图片文件中的插图进行定位和提取，Mask R-CNN算法步骤如下：

步骤2.1，训练数据预处理

将扫描图片经过步骤1进行校正，对校正过后的扫描图片文件进行标签处理，利用via开源数据标注工具将扫描文件中的插图区域进行标注，原始扫描图片和标注数据共同作为训练数据。

步骤2.2，Mask R-CNN网络结构

(1)图片经过预训练的神经网络(ResNet101)获得对应的feature map；

(2)对feature map中的每一点设定固定数量的ROI(region of interest，感兴趣区域)，从而获得多个候选ROI；将这些候选的ROI送入RPN(Region Proposal Network，区域生成网络)网络进行二值分类(前景或背景)和BB回归(Bayes Regression，贝叶斯回归)，过滤掉一部分候选ROI；

(3)对剩下的ROI进行ROI Align操作(即先将原图和feature map的pixel对应起来，然后将feature map和固定的feature对应起来)；

(4)对这些ROI进行分类、BB回归并生成MASK；

Mask R-CNN的损失函数为：

L＝L_cls+L_box+L_mask

该损失函数是多损失融合函数，其中L_cls为分类损失函数：

L_cls(p，u)＝-logpu

L_box为bounding box的回归损失函数:

L_mask为生成MASK的损失函数，MASK分支针对每一个ROI产生一个k*m*m的输出，即k个分辨率为m*m的二值的MASK，k为目标物体的种类数目，在实验中为1。该损失将对预测的mask输出的每个像素点应用sigmoid函数，整体损失定义为平均二值交叉损失熵。

基于Mask R-CNN网络训练适用于扫描文件中的插图定位提取模型：采集扫描文件，用打标工具对原始数据的目标位置进行打标，得到每个扫描文件中插图的位置，输入Mask R-CNN进行训练。在训练过程中，若ROI>0.7则认为该ROI为正例，否则为负例，L_mask只在正例ROI上定义。设定mini-batch＝1，learning_rate＝0.02，训练50步之后的模型用作未知扫描文件中插图的定位与提取。在提取过程，该发明将MASK外接矩形作为图片的边界提取出边界框内的插图。

用Mask R-CNN进行扫描文件中插图定位提取的整体流程如图2所示。

请参考图3，本发明以实施例提供的图片文件中插图定位提取装置的组成示意图。该实施例的图片文件中插图定位提取包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如：图片文件中插图定位提取程序。所述处理器执行所述计算机程序时实现上述各个一种图片文件中插图定位提取方法实施例中的步骤，例如图1所示的若干步骤。或者所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如：图片校正单元、模型建立单元、模型训练单元、插图定位提取单元。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述上述计算机程序在所述图片文件中插图定位提取装置/终端设备中的执行过程。例如，所述计算机程序可以被分割成校正单元、模型建立单元、模型训练单元、插图定位提取单元，各模块具体功能如下：

图片校正单元，用于利用傅里叶变换旋转校正画面倾斜的图片文件，获得校正后画面水平的图片文件；

所述图片文件中插图定位提取装置/终端设备可以是桌上型计算机、笔记本、掌上电脑以及云端服务器等计算设备。所述图片文件中插图定位提取装置/终端设备可包括，但不限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是图片文件中插图定位提取装置/终端设备的示例，并不构成对图片文件中插图定位提取装置/终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述图片文件中插图定位提取装置/终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理器(CPU，Central Processing Unit)，还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(ApplicationSpecific Integrated Circuit)、现场可编程门阵列(Field programmable gate array)。通用处理器可以是微处理器，也可以是任何常规的处理器等，所述处理器是所述图片文件中插图定位提取装置/终端设备的控制中心，利用各种接口和线路连接整个图片文件中插图定位提取装置/终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现所述图片文件中插图定位提取装置/终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区。

所述图片文件中插图定位提取装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括点载波信号和电信信号。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图片文件中插图定位提取方法，其特征在于，所述方法包括：

建立基于Mask R-CNN算法的插图定位提取模型；

利用校正后的图片文件训练基于Mask R-CNN算法的插图定位提取模型；

获取未知扫描图片文件，利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件，利用训练后的基于Mask R-CNN算法的插图定位提取模型，对校正后的未知扫描图片文件进行插图定位，根据定位结果进行插图提取。

2.根据权利要求1所述的一种图片文件中插图定位提取方法，其特征在于，利用傅里叶变换旋转校正画面倾斜的原始图片文件，具体包括：

获取画面倾斜的原始图片文件的傅里叶变换图；

利用傅里叶变换将空间域的图片转换到频域的图片；

3.根据权利要求2所述的一种图片文件中插图定位提取方法，其特征在于，Hough变换利用点与线的对偶性，将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点，Hough变换的具体步骤包括：

(1)初始并网格化Hough参数空间；

4.根据权利要求1所述的一种图片文件中插图定位提取方法，其特征在于，Mask R-CNN算法包括：

训练数据预处理；

建立Mask R-CNN网络结构；

Mask R-CNN的损失函数为：

L＝L_cls+L_bos+L_mask

其中，L_cls为分类损失函数：

L_cls(p，u)＝-logpu

L_box为bounding box的回归损失函数：

其中，t为一个向量t＝{t_x，t_y，t_w，t_h}表示anchor预测的偏移量，其中t_x表示anchor中心点的横坐标，t_y表示anchor中心点的纵坐标，t_w表示anchor中心点的宽度，表示anchor中心点的高度；v是与t同维度的向量，表示anchor相对于人工标签的实际偏移量；

5.根据权利要求2所述的一种图片文件中插图定位提取方法，其特征在于，获取画面倾斜的图片文件的傅里叶变换图，具体包括：针对画面倾斜的扫描图片文件，将图片文件从空间域转换到频域，用幅度图片来表示经傅里叶变换后的结果。

6.根据权利要求2所述的一种图片文件中插图定位提取方法，其特征在于，读取图片的灰度图并做二值化处理分离图片的目标和背景，具体包括：利用阈值法进行图片二值化处理，利用图片的目标与背景的差异，把图片像素分别设置为两个不同的级别，选取预设的阈值，以确定某像素是目标还是背景，从而获得二值化的图片。

7.一种图片文件中插图定位提取系统，其特征在于，所述系统包括：

8.根据权利要求7所述的一种图片文件中插图定位提取系统，其特征在于，利用傅里叶变换旋转校正画面倾斜的原始图片文件，具体包括：

获取画面倾斜的图片文件的傅里叶变换图；

利用傅里叶变换将空间域的图片转换到频域的图片；

9.根据权利要求8所述的一种图片文件中插图定位提取系统，其特征在于，Hough变换利用点与线的对偶性，将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点，Hough变换的具体步骤包括：

(1)初始并网格化Hough参数空间；

10.根据权利要求7所述的一种图片文件中插图定位提取系统，其特征在于，Mask R-CNN算法包括：

训练数据预处理；

建立Mask R-CNN网络结构；

Mask R-CNN的损失函数为：

L＝L_cls+L_box+L_mask

其中，L_cls为分类损失函数：

L_cls(p，u)＝-logpu

L_box为bounding box的回归损失函数：