CN110321889A - 一种图片文件中插图定位提取方法及系统 - Google Patents
一种图片文件中插图定位提取方法及系统 Download PDFInfo
- Publication number
- CN110321889A CN110321889A CN201910327085.7A CN201910327085A CN110321889A CN 110321889 A CN110321889 A CN 110321889A CN 201910327085 A CN201910327085 A CN 201910327085A CN 110321889 A CN110321889 A CN 110321889A
- Authority
- CN
- China
- Prior art keywords
- picture
- illustration
- mask
- anchor
- picture file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000012937 correction Methods 0.000 claims abstract description 36
- 230000009466 transformation Effects 0.000 claims abstract description 33
- 239000000284 extract Substances 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 22
- 238000004590 computer program Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
- G06T3/608—Rotation of whole images or parts thereof by skew deformation, e.g. two-pass or three-pass rotation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图片文件中插图定位提取方法及系统,包括:利用傅里叶变换旋转校正画面倾斜的原始图片文件,获得校正后的画面水平的图片文件;建立基于Mask R‑CNN算法的插图定位提取模型;利用校正后的图片文件训练基于Mask R‑CNN算法的插图定位提取模型;获取未知扫描图片文件,利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件,利用训练后的基于Mask R‑CNN算法的插图定位提取模型对校正后的未知扫描图片文件进行插图定位,根据定位结果进行插图提取;本方法能够通过傅里叶变换校正真实场景下的扫描文件;能够很好地确定真实场景下的扫描文件中插图的位置并进行提取。
Description
技术领域
本发明涉及图片处理领域,具体地,涉及一种图片文件中插图定位提取方法及系统。
背景技术
随着社会发展和信息技术的不断进步,现阶段的抽象文字信息已经不能够全面地描述现象或者结构等信息,信息表达的方式越来越多,图片在信息表达中扮演着重要角色。多数信息文档的获取方式不同、数据格式不一,这给信息挖掘带来一定的困难。在实际应用中存在大量的扫描文件和图片,针对这些文件进行数据分析挖掘的前提是如何从这些文件中提取数据,这些数据包含了文字信息、表格信息、公式信息和插图信息,针对文字的OCR识别技术已有较为深入的研究,然而针对插图的定位和提取还是一个空白的领域,因此在处理扫描文件或图片文件时文档插图的精确定位和提取是亟待解决的问题。目前图片文件中的插图信息提取的方式大多数是基于人工截图的形式进行存储,另外也有自动提取的方式但是提取效果并不好。鉴于上述分析,实现从图片文件中精确地定位插图位置并进行自动提取可以降低人力、物力等方面应用成本。
发明内容
本发明提供了一种图片文件中插图定位提取方法及系统,解决了现有技术中的不足,实现图片文件中插图信息的自动定位提取;旨在提升图片文件中插图定位的精度和提取速度,本方法解决了真实场景下的大规模扫描文件或一般的图片文件中插图的定位与提取问题,填补了深度学习在扫描文件或一般图片文件中插图定位提取领域的空白。
图片文件中插图信息提取的主要技术难点和技术关键点在于图片信息的精确定位并对目标图片进行自动提取。本发明通过识别图片文件中插图信息实现插图定位,对定位的插图进行单独呈现实现插图提取。解决图片数据中的插图信息提取的问题将会大幅度改变图片数据的获取方式,并加快统一数据格式的工作,对数据处理、挖掘等工作有重要的现实意义。深度学习目前已经广泛地应用于计算机视觉等多类问题,本申请是利用深度学习强大的学习能力,对图片文件中的插图信息进行定位并提取,实现数据格式的转换。
为实现上述发明目的,本发明提供了一种图片文件中插图定位提取方法,所述方法包括:
利用傅里叶变换旋转校正画面倾斜的原始图片文件,获得校正后画面水平的图片文件;
建立基于Mask R-CNN算法的插图定位提取模型;
利用校正后的图片文件,训练基于Mask R-CNN算法的插图定位提取模型;
获取未知扫描图片文件,利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件,利用训练后的基于Mask R-CNN算法的插图定位提取模型,对校正后的未知扫描图片文件进行插图定位,并根据定位结果进行插图提取。
进一步地,利用傅里叶变换旋转校正画面倾斜的原始图片文件,具体包括:
获取画面倾斜的原始图片文件的傅里叶变换图;
利用傅里叶变换将空间域的图片转换到频域的图片;
读取图片的灰度图并做二值化处理分离图片的目标和背景,利用Hough变换找到倾斜直线;
计算Hough变换检测到的直线的倾角并根据该倾角旋转画面倾斜的图片,得到校正后的画面水平的图片。
进一步地,Hough变换利用点与线的对偶性,将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点,Hough变换的具体步骤包括:
(1)初始并网格化Hough参数空间;
(2)对于欧式空间中的每个(x,y)执行步骤(3)的操作,其中(x,y)为欧式空间中的空间坐标点对;
(3)forθ=-90°to 180°step 10°,执行ρ=xcosθ+ysinθ与H(ρ,θ)=H(ρ,θ)+1,将欧式空间直角坐标系下的数据点对转换到极坐标系下,其中θ和ρ为极坐标系下的空间参数,H(ρ,θ)为极坐标系下检测到的Hough直线的倾角值;
(4)设立阈值,寻找Hough参数空间中的峰值点,每一个峰值点对应欧式空间中的一条直线。
进一步地,Mask R-CNN算法包括:
训练数据预处理;
建立Mask R-CNN网络结构;
Mask R-CNN的损失函数为:
L=Lcls+Lbox+Lmask
其中,Lcls为分类损失函数:
Lcls(p,u)=-logpu
其中,p为anchor预测为目标的概率,u为anchor的正负样本分类,为正样本时取值为1,为负样本时取值为0。anchor为正样本的情况为:(1)与人工标签最高IOU重叠的anchor,(2)与人工标签的IOU大于0.7的anchor;其他情况为anchor的负样本。
Lbox为bounding box的回归损失函数:
其中,t为一个向量t={tx,ty,tw,th}表示anchor预测的偏移量,其中tx表示anchor中心点的横坐标,ty表示anchor中心点的纵坐标,tw表示anchor中心点的宽度,th表示anchor中心点的高度;v是与t同维度的向量,表示anchor相对于人工标签的实际偏移量;
Lmask为生成MASK的损失函数,MASK分支针对每一个ROI产生一个1*28*28的输出,该损失将对预测的MASK输出的每个像素点应用sigmoid函数,整体损失定义为平均二值交叉损失熵;
基于Mask R-CNN网络训练适用于扫描图片文件的插图定位提取模型:
采集扫描图片文件,获得每个扫描图片文件中插图的位置,并输入Mask R-CNN网络进行训练;
在训练过程中,若ROI>0.7则认为该ROI为正例,否则为负例,Lmask只在正例ROI上定义;设定mini-batch=1,learning_rate=0.02,mini-batch=1表示训练时每一个batch训练一张图片,训练预设步之后的模型用于未知扫描文件中插图的定位与提取。
进一步地,在插图提取过程中,将MASK外接矩形作为图片的边界提取出边界框内的插图。
进一步地,获取画面倾斜的图片文件的傅里叶变换图,具体包括:针对画面倾斜的扫描图片文件,将图片文件从空间域转换到频域,用幅度图片表示经傅里叶变换后的结果。
进一步地,读取图片的灰度图并做二值化处理分离图片的目标和背景,具体包括:利用阈值法进行图片二值化处理,利用图片的目标与背景的差异,把图片像素分别设置为两个不同的级别,选取预设的阈值,以确定某像素是目标还是背景,从而获得二值化的图片。
本发明还提供了一种图片文件中插图定位提取系统,所述系统包括:
图片校正单元,用于利用傅里叶变换旋转校正画面倾斜的原始图片文件,获得校正后画面水平的图片文件;
模型建立单元,用于建立基于Mask R-CNN算法的插图定位提取模型;
模型训练单元,用于利用校正后的图片文件训练基于Mask R-CNN算法的插图定位提取模型;
插图定位提取单元,用于获取未知扫描图片文件,利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件,利用训练后的基于Mask R-CNN算法的插图定位提取模型,对校正后的未知扫描图片文件进行插图定位,根据定位结果进行插图提取。
优选地,利用傅里叶变换旋转校正画面倾斜的图片文件,具体包括:
获取画面倾斜的原始图片文件的傅里叶变换图;
利用傅里叶变换将空间域的图片转换到频域的图片;
读取图片的灰度图并做二值化处理分离图片的目标和背景,利用Hough变换找到倾斜直线;
计算Hough变换检测到的直线的倾角并根据该倾角旋转画面倾斜的图片,得到校正后画面水平的图片。
优选地,Hough变换利用点与线的对偶性,将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点,Hough变换的具体步骤包括:
(1)初始并网格化Hough参数空间;
(2)对于欧式空间中的每个(x,y)执行步骤(3)的操作,其中(x,y)为欧式空间中的空间坐标点对;
(3)forθ=-90°to 180°step 10°,执行ρ=xcosθ+ysinθ与H(ρ,θ)=H(ρ,θ)+1,将欧式空间直角坐标系下的数据点对转换到极坐标系下,其中,θ和ρ为极坐标系下的空间参数,H(ρ,θ)为极坐标系下检测到的Hough直线的倾角值;
(4)设立阈值,寻找Hough参数空间的峰值点,每一个峰值点对应欧式空间中的一条直线。
优选地,Mask R-CNN算法包括:
训练数据预处理;
建立Mask R-CNN网络结构;
Mask R-CNN的损失函数为:
L=Lcls+Lbox+Lmask
其中,Lcls为分类损失函数:
Lcls(p,u)=-logpu
其中,p为anchor预测为目标的概率,u为anchor的正负样本分类,为正样本时取值为1,为负样本时取值为0;anchor为正样本的情况为:(1)与人工标签最高IOU重叠的anchor,(2)与人工标签的IOU大于0.7的anchor;其他情况为anchor的负样本;
Lbox为bounding box的回归损失函数:
其中,t为一个向量t={tx,ty,tw,th}表示anchor预测的偏移量,其中tx表示anchor中心点的横坐标,ty表示anchor中心点的纵坐标,tw表示anchor中心点的宽度,th表示anchor中心点的高度;v是与t同维度的向量,表示anchor相对于人工标签的实际偏移量;
Lmask为生成MASK的损失函数,MASK分支针对每一个ROI产生一个1*28*28的输出,该损失将对预测的MASK输出的每个像素点应用sigmoid函数,整体损失定义为平均二值交叉损失熵;
基于Mask R-CNN网络训练适用于扫描图片文件的插图定位提取模型:
采集扫描图片文件,获得每个扫描图片文件中插图的位置,并输入Mask R-CNN网络进行训练;
在训练过程中,若ROI>0.7则认为该ROI为正例,否则为负例,Lmask只在正例ROI上定义;设定mini-batch=1,learning_rate=0.02,mini-batch=1表示训练时每一个batch训练一张图片,训练预设步之后的模型用于未知扫描图片文件中插图的定位与提取。
本发明还提供了一种图片文件中插图定位提取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现前面所述方法的步骤。
本发明还提供了计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前面所述方法的步骤。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
本方法能够通过傅里叶变换校正真实场景下的扫描文件。本发明将Mask R-CNN算法运用于扫描图片文件中插图的定位与提取,能够很好地确定真实场景下扫描文件中插图的位置并进行提取。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;
图1是本发明中一种图片文件中插图定位提取方法的流程示意图;
图2是本发明中一种图片文件中插图定位提取算法的流程示意图;
图3是本发明中一种图片文件中插图定位提取系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提出了一种图片文件中插图定位与提取方法,通过定位插图在图片文件中的位置,提取该位置的插图,实现插图与图片文件中其他文字区域的分离。
请参考图1,所述一种图片文件中插图定位提取方法的步骤包括:
步骤1,利用傅里叶变换旋转校正画面倾斜的图片文件。由于拍摄或扫描的角度和环境不同,图片文件的质量也不同,有些图片文件还会出现一定程度的画面倾斜,基于画面倾斜的图片提取出来的插图不仅质量不高,而且也会严重影响后续的分析效果,因此在插图定位之前需要根据倾斜角度校正图片文件。
在频域里面,对于一张图片,高频部分代表了图片的细节、纹理信息,低频部分代表了图片的轮廓信息。如果对图片进行低通滤波处理,滤波处理后只剩下图片的轮廓信息,而在图片的校正过程中需要根据图片的轮廓信息对图片进行校正,因此图片校正的第一步是通过傅里叶变换将图片从空间域转换到频域。
傅里叶变换后的频域值是复数,因此,显示傅里叶变换之后的结果需要使用实数图片加虚数图片,或者幅度图片加相位图片。实际上,幅度图片已经包含了原图所有的几何信息,因此,在实际应用中只用了幅度图片。
步骤1.1,获取图片的傅里叶变换图。
针对倾斜的扫描文件,将其从空间域转换到频域,用幅度图片来表示图片傅里叶变换的结果(傅里叶谱),在实际处理时,只取其实部对图片进行分析。由于幅度的变化范围很大,而一般的图片亮度范围在(0,255],容易造成一片漆黑,只有几个点很亮,因此需要对其取对数缩小数值范围。
步骤1.2,二值化
读取图片的灰度图并进行二值化处理。二值化的目的是将目标图片像素分类,为后续获取Hough直线做准备。这里用阈值法进行图片二值化处理,利用图片的目标与背景的差异,把图片像素分别设置为两个不同的级别,选取一个合适的阈值,以确定某像素是目标还是背景,从而获得二值化的图片。
步骤1.3,利用Hough变换检测倾斜直线
Hough变换利用点与线的对偶性,将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点,所以图片中的直线检测问题就转化成了在Hough参数空间中的峰值检测问题,即将检测整体特性转化为检测局部特性。Hough变换的算法步骤为:(1)初始并网格化Hough参数空间;(2)对于欧式空间中的每个(x,y)执行步骤(3)的操作;(3)forθ=-90°to 180°step 10°,执行ρ=xcosθ+ysinθ与H(ρ,θ)=H(ρ,θ)+1;(4)设立阈值,寻找Hough参数空间中的峰值点,每一个峰值点对应欧式空间中的一条直线。
步骤1.4,计算倾斜角度并旋转校正
计算Hough变换检测到的直线的倾角并根据该倾角对图片进行旋转,得到校正后的图片。
经过傅里叶变换可对扫描文件进行旋转校正。
步骤2,利用基于Mask R-CNN算法的插图定位提取模型对未知扫描图片文件中的插图进行定位和提取,Mask R-CNN算法步骤如下:
步骤2.1,训练数据预处理
将扫描图片经过步骤1进行校正,对校正过后的扫描图片文件进行标签处理,利用via开源数据标注工具将扫描文件中的插图区域进行标注,原始扫描图片和标注数据共同作为训练数据。
步骤2.2,Mask R-CNN网络结构
(1)图片经过预训练的神经网络(ResNet101)获得对应的feature map;
(2)对feature map中的每一点设定固定数量的ROI(region of interest,感兴趣区域),从而获得多个候选ROI;将这些候选的ROI送入RPN(Region Proposal Network,区域生成网络)网络进行二值分类(前景或背景)和BB回归(Bayes Regression,贝叶斯回归),过滤掉一部分候选ROI;
(3)对剩下的ROI进行ROI Align操作(即先将原图和feature map的pixel对应起来,然后将feature map和固定的feature对应起来);
(4)对这些ROI进行分类、BB回归并生成MASK;
Mask R-CNN的损失函数为:
L=Lcls+Lbox+Lmask
该损失函数是多损失融合函数,其中Lcls为分类损失函数:
Lcls(p,u)=-logpu
Lbox为bounding box的回归损失函数:
Lmask为生成MASK的损失函数,MASK分支针对每一个ROI产生一个k*m*m的输出,即k个分辨率为m*m的二值的MASK,k为目标物体的种类数目,在实验中为1。该损失将对预测的mask输出的每个像素点应用sigmoid函数,整体损失定义为平均二值交叉损失熵。
基于Mask R-CNN网络训练适用于扫描文件中的插图定位提取模型:采集扫描文件,用打标工具对原始数据的目标位置进行打标,得到每个扫描文件中插图的位置,输入Mask R-CNN进行训练。在训练过程中,若ROI>0.7则认为该ROI为正例,否则为负例,Lmask只在正例ROI上定义。设定mini-batch=1,learning_rate=0.02,训练50步之后的模型用作未知扫描文件中插图的定位与提取。在提取过程,该发明将MASK外接矩形作为图片的边界提取出边界框内的插图。
用Mask R-CNN进行扫描文件中插图定位提取的整体流程如图2所示。
请参考图3,本发明以实施例提供的图片文件中插图定位提取装置的组成示意图。该实施例的图片文件中插图定位提取包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如:图片文件中插图定位提取程序。所述处理器执行所述计算机程序时实现上述各个一种图片文件中插图定位提取方法实施例中的步骤,例如图1所示的若干步骤。或者所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如:图片校正单元、模型建立单元、模型训练单元、插图定位提取单元。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述上述计算机程序在所述图片文件中插图定位提取装置/终端设备中的执行过程。例如,所述计算机程序可以被分割成校正单元、模型建立单元、模型训练单元、插图定位提取单元,各模块具体功能如下:
图片校正单元,用于利用傅里叶变换旋转校正画面倾斜的图片文件,获得校正后画面水平的图片文件;
模型建立单元,用于建立基于Mask R-CNN算法的插图定位提取模型;
模型训练单元,用于利用校正后的图片文件训练基于Mask R-CNN算法的插图定位提取模型;
插图定位提取单元,用于获取未知扫描图片文件,利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件,利用训练后的基于Mask R-CNN算法的插图定位提取模型,对校正后的未知扫描图片文件进行插图定位,根据定位结果进行插图提取。
所述图片文件中插图定位提取装置/终端设备可以是桌上型计算机、笔记本、掌上电脑以及云端服务器等计算设备。所述图片文件中插图定位提取装置/终端设备可包括,但不限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是图片文件中插图定位提取装置/终端设备的示例,并不构成对图片文件中插图定位提取装置/终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述图片文件中插图定位提取装置/终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(ApplicationSpecific Integrated Circuit)、现场可编程门阵列(Field programmable gate array)。通用处理器可以是微处理器,也可以是任何常规的处理器等,所述处理器是所述图片文件中插图定位提取装置/终端设备的控制中心,利用各种接口和线路连接整个图片文件中插图定位提取装置/终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现所述图片文件中插图定位提取装置/终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区。
所述图片文件中插图定位提取装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括点载波信号和电信信号。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种图片文件中插图定位提取方法,其特征在于,所述方法包括:
利用傅里叶变换旋转校正画面倾斜的原始图片文件,获得校正后画面水平的图片文件;
建立基于Mask R-CNN算法的插图定位提取模型;
利用校正后的图片文件训练基于Mask R-CNN算法的插图定位提取模型;
获取未知扫描图片文件,利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件,利用训练后的基于Mask R-CNN算法的插图定位提取模型,对校正后的未知扫描图片文件进行插图定位,根据定位结果进行插图提取。
2.根据权利要求1所述的一种图片文件中插图定位提取方法,其特征在于,利用傅里叶变换旋转校正画面倾斜的原始图片文件,具体包括:
获取画面倾斜的原始图片文件的傅里叶变换图;
利用傅里叶变换将空间域的图片转换到频域的图片;
读取图片的灰度图并做二值化处理分离图片的目标和背景,利用Hough变换找到倾斜直线;
计算Hough变换检测到的直线的倾角并根据该倾角旋转画面倾斜的图片,得到校正后画面水平的图片。
3.根据权利要求2所述的一种图片文件中插图定位提取方法,其特征在于,Hough变换利用点与线的对偶性,将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点,Hough变换的具体步骤包括:
(1)初始并网格化Hough参数空间;
(2)对于欧式空间中的每个(x,y)执行步骤(3)的操作,其中(x,y)为欧式空间中的空间坐标点对;
(3)forθ=-90°to 180°step 10°,执行ρ=xcosθ+ysinθ与H(ρ,θ)=H(ρ,θ)+1,将欧式空间直角坐标系下的数据点对转换到极坐标系下,其中θ和ρ为极坐标系下的空间参数,H(ρ,θ)为极坐标系下检测到的Hough直线的倾角值;
(4)设立阈值,寻找Hough参数空间中的峰值点,每一个峰值点对应欧式空间中的一条直线。
4.根据权利要求1所述的一种图片文件中插图定位提取方法,其特征在于,Mask R-CNN算法包括:
训练数据预处理;
建立Mask R-CNN网络结构;
Mask R-CNN的损失函数为:
L=Lcls+Lbos+Lmask
其中,Lcls为分类损失函数:
Lcls(p,u)=-logpu
其中,p为anchor预测为目标的概率,u为anchor的正负样本分类,为正样本时取值为1,为负样本时取值为0;anchor为正样本的情况为:(1)与人工标签最高IOU重叠的anchor,(2)与人工标签的IOU大于0.7的anchor;其他情况为anchor的负样本;
Lbox为bounding box的回归损失函数:
其中,t为一个向量t={tx,ty,tw,th}表示anchor预测的偏移量,其中tx表示anchor中心点的横坐标,ty表示anchor中心点的纵坐标,tw表示anchor中心点的宽度,表示anchor中心点的高度;v是与t同维度的向量,表示anchor相对于人工标签的实际偏移量;
Lmask为生成MASK的损失函数,MASK分支针对每一个ROI产生一个1*28*28的输出,该损失将对预测的MASK输出的每个像素点应用sigmoid函数,整体损失定义为平均二值交叉损失熵;
基于Mask R-CNN网络训练适用于扫描图片文件的插图定位提取模型:
采集扫描图片文件,获得每个扫描图片文件中插图的位置,并输入Mask R-CNN网络进行训练;
在训练过程中,若ROI>0.7则认为该ROI为正例,否则为负例,Lmask只在正例ROI上定义;设定mini-batch=1,learning_rate=0.02,mini-batch=1表示训练时每一个batch训练一张图片,训练预设步之后的模型用于未知扫描图片文件中插图的定位与提取。
5.根据权利要求2所述的一种图片文件中插图定位提取方法,其特征在于,获取画面倾斜的图片文件的傅里叶变换图,具体包括:针对画面倾斜的扫描图片文件,将图片文件从空间域转换到频域,用幅度图片来表示经傅里叶变换后的结果。
6.根据权利要求2所述的一种图片文件中插图定位提取方法,其特征在于,读取图片的灰度图并做二值化处理分离图片的目标和背景,具体包括:利用阈值法进行图片二值化处理,利用图片的目标与背景的差异,把图片像素分别设置为两个不同的级别,选取预设的阈值,以确定某像素是目标还是背景,从而获得二值化的图片。
7.一种图片文件中插图定位提取系统,其特征在于,所述系统包括:
图片校正单元,用于利用傅里叶变换旋转校正画面倾斜的原始图片文件,获得校正后画面水平的图片文件;
模型建立单元,用于建立基于Mask R-CNN算法的插图定位提取模型;
模型训练单元,用于利用校正后的图片文件训练基于Mask R-CNN算法的插图定位提取模型;
插图定位提取单元,用于获取未知扫描图片文件,利用傅里叶变换旋转校正画面倾斜的未知扫描图片文件,利用训练后的基于Mask R-CNN算法的插图定位提取模型,对校正后的未知扫描图片文件进行插图定位,根据定位结果进行插图提取。
8.根据权利要求7所述的一种图片文件中插图定位提取系统,其特征在于,利用傅里叶变换旋转校正画面倾斜的原始图片文件,具体包括:
获取画面倾斜的图片文件的傅里叶变换图;
利用傅里叶变换将空间域的图片转换到频域的图片;
读取图片的灰度图并做二值化处理分离图片的目标和背景,利用Hough变换找到倾斜直线;
计算Hough变换检测到的直线的倾角并根据该倾角旋转画面倾斜的图片,得到校正后画面水平的图片。
9.根据权利要求8所述的一种图片文件中插图定位提取系统,其特征在于,Hough变换利用点与线的对偶性,将二值化后的图片中给定的曲线通过曲线表达形式变为Hough参数空间中的一个点,Hough变换的具体步骤包括:
(1)初始并网格化Hough参数空间;
(2)对于欧式空间中的每个(x,y)执行步骤(3)的操作,其中(x,y)为欧式空间中的空间坐标点对;
(3)forθ=-90°to 180°step 10°,执行ρ=xcosθ+ysinθ与H(ρ,θ)=H(ρ,θ)+1,将欧式空间直角坐标系下的数据点对转换到极坐标系下,其中θ和ρ为极坐标系下的空间参数,H(ρ,θ)为极坐标系下检测到的Hough直线的倾角值;
(4)设立阈值,寻找Hough参数空间的峰值点,每一个峰值点对应欧式空间中的一条直线。
10.根据权利要求7所述的一种图片文件中插图定位提取系统,其特征在于,Mask R-CNN算法包括:
训练数据预处理;
建立Mask R-CNN网络结构;
Mask R-CNN的损失函数为:
L=Lcls+Lbox+Lmask
其中,Lcls为分类损失函数:
Lcls(p,u)=-logpu
其中,p为anchor预测为目标的概率,u为anchor的正负样本分类,为正样本时取值为1,为负样本时取值为0;anchor为正样本的情况为:(1)与人工标签最高IOU重叠的anchor,(2)与人工标签的IOU大于0.7的anchor;其他情况为anchor的负样本;
Lbox为bounding box的回归损失函数:
其中,t为一个向量t={tx,ty,tw,th}表示anchor预测的偏移量,其中tx表示anchor中心点的横坐标,ty表示anchor中心点的纵坐标,tw表示anchor中心点的宽度,表示anchor中心点的高度;v是与t同维度的向量,表示anchor相对于人工标签的实际偏移量;
Lmask为生成MASK的损失函数,MASK分支针对每一个ROI产生一个1*28*28的输出,该损失将对预测的MASK输出的每个像素点应用sigmoid函数,整体损失定义为平均二值交叉损失熵;
基于Mask R-CNN网络训练适用于扫描图片文件的插图定位提取模型:
采集扫描图片文件,获得每个扫描图片文件中插图的位置,并输入Mask R-CNN网络进行训练;
在训练过程中,若ROI>0.7则认为该ROI为正例,否则为负例,Lmask只在正例ROI上定义;设定mini-batch=1,learning_rate=0.02,mini-batch=1表示训练时每一个batch训练一张图片,训练预设步之后的模型用于未知扫描图片文件中插图的定位与提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327085.7A CN110321889A (zh) | 2019-04-23 | 2019-04-23 | 一种图片文件中插图定位提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327085.7A CN110321889A (zh) | 2019-04-23 | 2019-04-23 | 一种图片文件中插图定位提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110321889A true CN110321889A (zh) | 2019-10-11 |
Family
ID=68112944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910327085.7A Pending CN110321889A (zh) | 2019-04-23 | 2019-04-23 | 一种图片文件中插图定位提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321889A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN113160133A (zh) * | 2021-03-11 | 2021-07-23 | 天津大学 | 一种插图人气评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496018A (zh) * | 2011-12-08 | 2012-06-13 | 方正国际软件有限公司 | 一种文档倾斜检测方法及系统 |
US20180211128A1 (en) * | 2017-01-24 | 2018-07-26 | Ford Global Technologies, Llc | Object Detection Using Recurrent Neural Network And Concatenated Feature Map |
CN108898610A (zh) * | 2018-07-20 | 2018-11-27 | 电子科技大学 | 一种基于mask-RCNN的物体轮廓提取方法 |
CN109215091A (zh) * | 2018-08-02 | 2019-01-15 | 浙江理工大学 | 一种基于图表示的服装流行色彩自动提取方法 |
CN109670458A (zh) * | 2018-12-21 | 2019-04-23 | 北京市商汤科技开发有限公司 | 一种车牌识别方法及装置 |
-
2019
- 2019-04-23 CN CN201910327085.7A patent/CN110321889A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496018A (zh) * | 2011-12-08 | 2012-06-13 | 方正国际软件有限公司 | 一种文档倾斜检测方法及系统 |
US20180211128A1 (en) * | 2017-01-24 | 2018-07-26 | Ford Global Technologies, Llc | Object Detection Using Recurrent Neural Network And Concatenated Feature Map |
CN108898610A (zh) * | 2018-07-20 | 2018-11-27 | 电子科技大学 | 一种基于mask-RCNN的物体轮廓提取方法 |
CN109215091A (zh) * | 2018-08-02 | 2019-01-15 | 浙江理工大学 | 一种基于图表示的服装流行色彩自动提取方法 |
CN109670458A (zh) * | 2018-12-21 | 2019-04-23 | 北京市商汤科技开发有限公司 | 一种车牌识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
帅靖文: "自然场景中的文本检测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
朱健菲: "档案图像版面分析与字符提取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王晓君等: "一种倾斜文本图像的旋转校正技术", 《邯郸职业技术学院学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN111814722B (zh) * | 2020-07-20 | 2022-04-19 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN113160133A (zh) * | 2021-03-11 | 2021-07-23 | 天津大学 | 一种插图人气评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113449594B (zh) | 一种多层网络组合的遥感影像地类语义分割与面积计算方法 | |
CN108121991B (zh) | 一种基于边缘候选区域提取的深度学习舰船目标检测方法 | |
US8780131B2 (en) | Systems and methods for text-based personalization of images | |
CN106169080B (zh) | 一种基于图像的燃气指数自动识别方法 | |
CN107403130A (zh) | 一种字符识别方法及字符识别装置 | |
CN106548169A (zh) | 基于深度神经网络的模糊文字增强方法及装置 | |
CN111062885A (zh) | 基于多阶段迁移学习的标志检测模型训练及标志检测方法 | |
CN110992366B (zh) | 一种图像语义分割方法、装置及存储介质 | |
CN111951154B (zh) | 包含背景和介质的图片的生成方法及装置 | |
CN113223068A (zh) | 一种基于深度全局特征的多模态图像配准方法及系统 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN110222217B (zh) | 一种基于分段加权的鞋印图像检索方法 | |
CN111915635A (zh) | 支持自阅卷的试题解析信息生成方法及系统 | |
CN110321889A (zh) | 一种图片文件中插图定位提取方法及系统 | |
CN114241326A (zh) | 一种渐进式遥感影像地物要素智能生产方法及系统 | |
CN113392930A (zh) | 基于多层次分治网络的交通标志目标检测方法 | |
CN113706562A (zh) | 图像分割方法、装置、系统及细胞分割方法 | |
CN113628180B (zh) | 一种基于语义分割网络的遥感建筑物检测方法及系统 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN114926826A (zh) | 场景文本检测系统 | |
CN114419265A (zh) | 一种基于地图图像识别的交互式地图展示方法 | |
CN117830340A (zh) | 一种探地雷达目标特征分割方法、系统、设备及存储介质 | |
Dong et al. | Optical remote sensing water-land segmentation representation based on proposed SNS-CNN network | |
CN109741351A (zh) | 一种基于深度学习的类别敏感型边缘检测方法 | |
CN113704276A (zh) | 地图更新方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191011 |
|
RJ01 | Rejection of invention patent application after publication |