CN103927533A - 一种针对早期专利文档扫描件中图文信息的智能处理方法 - Google Patents

一种针对早期专利文档扫描件中图文信息的智能处理方法 Download PDF

Info

Publication number
CN103927533A
CN103927533A CN201410143919.6A CN201410143919A CN103927533A CN 103927533 A CN103927533 A CN 103927533A CN 201410143919 A CN201410143919 A CN 201410143919A CN 103927533 A CN103927533 A CN 103927533A
Authority
CN
China
Prior art keywords
brick
ufigb
block
value
labelled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410143919.6A
Other languages
English (en)
Other versions
CN103927533B (zh
Inventor
段立娟
袁彬
李健
马伟
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201410143919.6A priority Critical patent/CN103927533B/zh
Publication of CN103927533A publication Critical patent/CN103927533A/zh
Application granted granted Critical
Publication of CN103927533B publication Critical patent/CN103927533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

一种针对早期专利文档扫描件中图文信息的智能处理方法属于计算机图像处理领域。本发明将输入的专利文档扫描图像转化为二值二维矩阵后去除扫描图像中的颗粒噪声,即用算法实现以矩形框圈取切割目标的操作,得到若干个粗块,对每个粗块进行分类,标记并得到若干个文本块和若干个非文本块。对非文本块进行进一步的细切割操作,得到若干个细块。对每个细块进行分类,标记并得到若干个标号块和若干个非标号块。对非标号块进行分类,标记并得到若干个杂质块和若干个附图块。对标号块以及附图块进行对应的匹配,即将指定附图和与其对应的附图标号相匹配。本发明更准确地切割附图、识别附图标号信息和匹配附图与附图标号的关系。

Description

一种针对早期专利文档扫描件中图文信息的智能处理方法
技术领域
本发明涉及图像处理中的噪声处理、图像切割以及目标识别等方法,还涉及到了针对早期专利文档中的图文分离和图文匹配技术。
背景技术
随着计算机技术的不断发展以及大数据时代的来临,人类对于数据处理业务的需求日益增多,其中需要人工处理数据的任务变得尤为困难。因此根据实际问题的需要,实现一个利用计算机代替人工处理数据的智能系统成为当前大环境下发展趋势。专利文档作为鼓励发明创造保护发明者权利的重要文件,成为了促进科学技术持续发展的重要数据信息。起源于十六世纪英国的专利文档,于1985进入了我国。据不完全统计,至今30年的时间中国已积累了超过300万份正式的专利文献,可以说当下对专利文档的处理任务繁重且艰巨。
利用人工对专利文档进行处理通常包括图像切割、图文匹配两部分的工作。其中人工进行图像切割任务首先需要人工分辨出想要得到的图片,再利用相应的图片处理工具对整个文档进行人工切割。采用计算机来模拟实现人工图像切割的过程需要预先对文档中的文本信息进行过滤(即图文分离技术),并在此基础上利用图像切割算法来完成相应的切割任务。而人工进行图文匹配任务首先需要人工确定指定图片以及与之对应的文字信息,然后把两者的关系信息记录下来。采用计算机来模拟实现人工图文匹配的任务,需要在得到指定图片信息的基础上,利用已有信息找到可能与指定图片关联的文本信息,并对这些可能的文本信息进行识别操作以确认与指定图片的关系。其中对文本信息的识别问题涉及到了手写字符识别的相关内容。
由于本发明是参考美国早期专利文档的格式进行设计的,测试数据多数为该类文档的扫描图像,所以在下面阐述专利文档特点时主要以美国早期专利文档的格式为主。目前国内专利文档的格式与美国早期专利文档的格式有很多类似的地方,而附图以及附图标号的布局更加整齐。因而用本发明的方法同样可以处理目前国内的专利文档,而且准确性会更高。
美国早期专利文档扫描图像如图8所示,其特点如下:
1、扫描件为黑白图像,其中多有颗粒噪声;
2、部分图像边缘含有由于扫描失误产生的不规则杂质;
3、靠近图像顶部有一行或多行说明性的文字信息,其余部分为附图或附图标号;
4、部分图像中附图与附图、附图与附图标号间的距离较近,无法用矩形切割工具将其分割;
5、附图标号的“Fig”字样为手写体,并且样式繁多,识别起来比较困难。
发明内容
本发明的目的在于利用计算机图像处理的相关技术,将专利文档中的附图与附图标号进行关联,并以指定的格式输出。
本发明的技术手段包括以下步骤:
步骤1,将输入的专利文档扫描图像转化为二值二维矩阵,以简化后续步骤的处理过程。
步骤2,去除扫描图像中的颗粒噪声,采用邻域平均的均值滤波器对步骤1得到的二维矩阵进行处理。
步骤3,对步骤2中得到的二维矩阵进行粗切割操作,即用算法实现以矩形框圈取切割目标的操作,得到若干个粗块。
步骤4,利用根据位置、直方图和尺寸三个信息作为特征的SVM分类器对由步骤3中得到的每个粗块进行分类,标记并得到若干个文本块和若干个非文本块。进行本步骤的原因是将容易区分的文本信息剔除,避免其对后续步骤的干扰。
步骤5,对步骤4中得到的非文本块进行进一步的细切割操作,即用算法实现以非规则的选取区域圈取图像中各元素的操作,得到若干个细块。
步骤6,利用针对手写字符识别的分类器对步骤5得到的每个细块进行分类,标记并得到若干个标号块和若干个非标号块。
步骤7,利用根据长宽比和有效像素密度作为特征的SVM分类器对由步骤6得到的非标号块进行分类,标记并得到若干个杂质块和若干个附图块。
步骤8,根据位置信息,对由步骤6得到的若干个标号块以及由步骤7得到的若干个附图块进行对应的匹配,即将指定附图和与其对应的附图标号相匹配,并将该附图块的名称改为对应的附图标记号。
步骤9,输出步骤8得到的以附图标记号命名的若干个附图块,即在指定目录下保存以附图标号命名的附图图片。
一种针对早期专利文档扫描件中图文信息的智能处理方法,其特征在于:
首先,在步骤1中要把输入的专利文档扫描图像转化为二值二维矩阵,步骤1共包含2个子步骤:
步骤1.1,将彩色图像I转化为灰度图,假设Igray为灰度图对应的灰度值矩阵,Igray中各个元素的计算公式如式(1)所示:
Igray(i,j)=(Ir(i,j)+Ig(i,j)+Ib(i,j))/3      (1)
其中Igray(i,j)代表灰度值矩阵中第i行第j列元素的取值,Ir(i,j)、Ig(i,j)、Ib(i,j)分别为彩色图像R、G、B通道的颜色矩阵中第i行第j列元素的取值;
步骤1.2,根据灰度阈值为200的规则将灰度图转化为一个二值二维矩阵M;具体方法为扫描灰度值矩阵Igray,并按下述规则对二值二维矩阵M中的元素进行调整,具体规则如下:
若Igray(i,j)>200,则M(i,j)=0;
若Igray(i,j)≤200,则M(i,j)=1;
其中Igray(i,j)代表灰度值矩阵中第i行第j列元素的取值,M(i,j)代表二值二维矩阵M中第i行第j列元素的取值,取值为0表示在原图中是白色像素点,1表示是黑色像素点;
在步骤2中采用邻域平均的均值滤波器方法对二值矩阵M所表示的扫描图片进行去噪处理,得到去噪后的二值矩阵M';
在步骤3中将要完成对步骤2中得到的二值矩阵M'的粗切割操作;由于粗切割操作会调整二值矩阵M'中各元素的值,而在之后的步骤7.1中需要用到未修改的二值矩阵M',因此在调整前备份一个二值矩阵C供步骤7.1中的计算所用;步骤3共包含3个子步骤:
步骤3.1,从左上角出发逐行扫描步骤2中得到的二值矩阵M',直到找到第一个黑色像素点;根据该像素点所处二值矩阵M'中的列号和行号创建并初始化一个新的存储节点,称为粗块Brick;本步骤的具体算法实现如下:
若M'(i,j)=0,则继续遍历下一个点;若M'(i,j)=1,则创建一个粗块Brick,该粗块Brick由row、col、height和width四个属性构成,并初始化为row=i,col=j,height=1,width=1;这里需要解释的是M'(i,j)代表M'二值矩阵中第i行第j列元素的取值,若取值为1则代表该位置对应图中的黑色像素;若取值为0则代表该位置对应图中的白色像素;由于一个矩形框在一幅图中用四个属性来描述,将粗块Brick属性设置为列号、行号、宽和高;需要说明的是每个粗块Brick都有自己的名称,默认值是创建的序号,即第一个创建的则名称为1、第四个创建的则名称为4;
步骤3.2,由于是从左上角出发进行逐行扫描的,不用考虑当前粗块Brick的上方有属于本次切割目标的部分;根据指定的规则对步骤3.1得到的粗块Brick向右、向下和向左三个方向进行延伸即可,即相当于扩大矩形框的尺寸直到圈住整个切割目标;在进行该步骤时,扩大矩形框尺寸的操作可以通过调整粗块Brick中的四个属性值来实现;粗切割算法是一个循环的过程,它对粗块Brick的右、下、左三个方向进行延伸,并根据规则不断更新粗块Brick的属性值以达到扩大矩形框尺寸的目的;直到三个方向均不能延伸为止,得到切割目标的粗块Brick,并将结果保存;
步骤3.3,为了避免重复得到相同的粗块Brick,需要根据步骤3.2中得到的粗块Brick的信息,在二值矩阵M'中抹去该粗块Brick所占有的区域,即将该粗块Brick对应二值矩阵M'中的值置为0;不过不用担心因抹去值矩阵M'中的值而影响最后的输出,因为能根据原图和粗块Brick中记录的位置信息来得到切割后的图像;
重复步骤3.1-步骤3.3的操作,直到扫描完二值矩阵M'的所有元素,最终得到并保存所有的粗块Brick;
接下来,步骤4要完成把步骤3中得到的若干个粗块标记并得到若干个文本块InfB和若干个非文本块UInfB的任务,其中文本块InfB和非文本块UInfB与粗块Brick具有相同的结构,只是名称不同;
步骤4包含3个子步骤:
步骤4.1,根据步骤3中得到的粗块信息得到其对应原始扫描图像的部分IBrick,并将IBrick的尺寸调整为300×300,得到调整后的图像I'Brick
步骤4.2,将图像I'Brick向横纵两个方向进行投影,得到一个600维即横向投影300维,纵向投影300维的直方图特征向量,在此基础上根据粗块Brick的信息添加位置即Brick.row和Brick.col和尺寸信息即Brick.height和Brick.width,最终得到一个604维的特征向量F;其中Brick.row、Brick.col、Brick.width和Brick.height分别表示粗块Brick的列号、行号、宽和高;
步骤4.3,把步骤4.2中得到特征向量F作为输入,通过已训练好的SVM分类器1对特征向量F进行分类,标记该粗块为文本块InfB或非文本块UInfB;
步骤5,对步骤4中得到的若干个非文本块UInfB进行进一步的细切割操作,即用算法实现以非规则的选取区域圈取图像中各元素的操作,得到若干个细块FineB;
步骤6,利用针对手写字符识别的分类器对步骤5得到的每个细块FineB进行分类,标记并得到若干个标号块FigB和若干个非标号块UFigB;其中标号块FigB和非标号块UFigB与粗块Brick具有相同的结构,只是名称不同;需要说明的是,标号块FigB的名称是根据其实际代表的附图编号命名的;非标号块UFigB的名称仅和创建的顺序有关;
接下来,步骤7要完成把步骤6中得到的若干个非标号块UFigB标记并割到若干个附图块PB和若干个杂质块ZB的任务,其中附图块PB和杂质块ZB与粗块Brick具有相同的结构,只是名称不同;
步骤7包含3个子步骤:
步骤7.1,计算步骤6中所得到的非标号块UFigB的最大长宽比γ和有效像素密度ρ,长宽比γ和有效像素密度ρ的计算公式如式(2)-(8)所示:
γ=Max{UFigB.height/UFigB.width,UFigB.width/UFigB.height}      (2)
S=UFigB.height×UFigB.width      (3)
Xbegin=UFigB.row          (4)
Xend=UFigB.row+UFigB.width-1      (5)
Ybegin=UFigB.col           (6)
Yend=UFigB.col+UFigB.height-1      (7)
ρ = 1 S Σ i = X begin X end Σ j = Y begin Y end C ( i , j ) - - - ( 8 )
其中γ为非标号块UFigB长比宽和宽比高中的最大值;ρ为非标号块UFigB的有效像素密度,即黑色像素所占像素总数的比例;S表示非标号块的面积,也表示非标号块UFigB中的像素总数;Xbegin、Xend、Ybegin和Yend分别是非标号块UFigB在二值矩阵C中对应的起始列号、结束列号、起始行号和结束行号;UFigB.row、UFigB.col、UFigB.width和UFigB.height分别表示非标号块UFigB的列号、行号、宽和高;C(i,j)是步骤3中提到未经过调整的二值矩阵M'的复制矩阵;
步骤7.2,根据步骤7.1中得到的γ和ρ组成一个2维的特征向量UF;
步骤7.3,把步骤7.2中得到特征向量UF作为输入,通过已训练好的SVM2分类器对特征向量UF进行分类,标记该非标号块UFigB为附图块PB或杂质块ZB;
接下来要完成图文匹配的工作,步骤8要根据步骤6中得到的若干个标号块FigB对步骤7中得到的若干个附图块PB进行重命名;步骤8共包含2个子步骤:
步骤8.1,指定一个附图块PB,从所有的标号块FigB中找到一个与之距离d最近的标号块FigB',计算距离d的公式如式(9):
d = ( ( PB . row + PB . width - 1 2 ) - ( FigB . row + FigB . width - 1 2 ) ) 2 + ( ( PB . col + PB . height - 1 2 ) - ( FigB . col + FigB . height - 1 2 ) ) 2 - - - ( 9 )
步骤8.2,根据步骤8.1中得到与该附图块PB最近的标号块FigB'的名称,对该附图块PB的名称进行修改,并将与该附图块PB匹配的标号块FigB'从所有标号块FigB的集合中删去,避免重复匹配;
重复步骤8.1和步骤8.2,直到修改完所有附图块PB的名称;
步骤9,输出步骤8得到的以附图标记号命名的若干个附图块,即在指定目录下保存以附图标号命名的附图图片。
本发明的方法具有以下优点:
1、与传统方法相比,可以更准确地切割附图、识别附图标号信息和匹配附图与附图标号的关系。
2、本发明的主要计算量集中在步骤(5),但在该步骤中每个非文本块的计算是相互独立的,因此可以采用并行计算策略来提高执行效率。
附图说明
图1是本发明所涉及方法全过程的流程图。
图2是二值矩阵的示意图,假设原图尺寸为15×16,其中白色代表在二值矩阵中的值为0,黑色代表值为1。
图3是对数据结构Brick中属性的示意图。
图4是粗切割操作找到第一个黑色像素点后执行操作的示意图,即找到第一个黑色像素点,并在此创建一个粗块。例子中粗块的列号、行号、宽和高均初始化为1。
图5是粗切割操作中向右延伸的示意图。向右延伸,查看与该粗块的右侧相邻一列是否有黑色像素点,若有则该块的宽加一。图中的起始和结束是根据该块的行号和高确定的。
图6是粗切割操作中向下延伸的示意图。向下延伸,查看与该粗块向下相邻的一行中是否有黑色像素点,若有则高加一。图中的起始和结束是根据该块的列号和宽确定的。
图7是粗切割操作中向左延伸的示意图。向左延伸,查看与该粗块向左相邻的一列是否有黑色像素点,若有则列号减一且宽加一。图中的起始和结束是根据该块的行号和高确定的。
图8是美国早期专利文档格式的示意图。
图9是得到的输出结果示意图。
图10是扫描图像中各种杂质的示意图。其中图示(a)为杂质1,图示(b)为杂质2,图示(c)为杂质三,图示(d)为杂质4。
具体实施方式
下面结合具体实施方式对本发明做进一步的说明。
例如一个专利文档的扫描图像是RGB三通道的24位彩色图片,尺寸为595×842的。
首先,在步骤1中要把输入的专利文档扫描图像转化为二值二维矩阵,步骤1共包含2个子步骤:
步骤1.1,将彩色图像I转化为灰度图,假设Igray为灰度图对应的灰度值矩阵,Igray中各个元素的计算公式如式(1)所示:
Igray(i,j)=(Ir(i,j)+Ig(i,j)+Ib(i,j))/3      (1)
其中Igray(i,j)代表灰度值矩阵中第i行第j列元素的取值,Ir(i,j)、Ig(i,j)、Ib(i,j)分别为彩色图像R、G、B通道的颜色矩阵中第i行第j列元素的取值。
步骤1.2,根据灰度阈值为200的规则将灰度图转化为一个二值二维矩阵M。具体方法为扫描灰度值矩阵Igray,并按下述规则对二值二维矩阵M中的元素进行调整,具体规则如下:
若Igray(i,j)>200,则M(i,j)=0;
若Igray(i,j)≤200,则M(i,j)=1。
其中Igray(i,j)代表灰度值矩阵中第i行第j列元素的取值,M(i,j)代表二值二维矩阵M中第i行第j列元素的取值,取值为0表示在原图中是白色像素点,1表示是黑色像素点。
由于早期专利文档的扫描图片中含有许多随机分布在图片各个位置的颗粒噪声,这会严重影响之后粗切割与细切割的处理效果,容易造成将两块本该分开的图片切成一块。邻域平均的均值滤波器是一种常用的去噪方法,它可以有效地去除图片中的颗粒噪声。因此,在步骤2中采用邻域平均的均值滤波器方法对二值矩阵M所表示的扫描图片进行去噪处理,得到去噪后的二值矩阵M'。
美国早期专利文档中有一部分的图像中,存在附图与附图、附图与附图标号间的距离较近,无法仅用矩形切割工具将其分割的情况。但大多数情况下是可以用矩形切割工具就切开所有附图的,而且一般细切割算法的时间复杂度远远大于粗切割算法。因此先对图像进行粗切割可以在很大程度上的提高处理效率。本发明中提到的粗切割算法相当于是用矩形工具来对图像进行切割,而细切割算法则相当于用不规则区域来对图像进行切割。
在步骤3中将要完成对步骤2中得到的二值矩阵M'的粗切割操作,二值矩阵M'的示意图如图2所示。由于粗切割操作会调整二值矩阵M'中各元素的值,而在之后的步骤7.1中需要用到未修改的二值矩阵M',因此在调整前备份一个二值矩阵C供步骤7.1中的计算所用。步骤3共包含3个子步骤:
步骤3.1,从左上角出发逐行扫描步骤2中得到的二值矩阵M',直到找到第一个黑色像素点。根据该像素点所处二值矩阵M'中的列号和行号创建并初始化一个新的存储节点,称为粗块Brick。本步骤的具体算法实现如下:
若M'(i,j)=0,则继续遍历下一个点;若M'(i,j)=1,则创建一个粗块Brick,该粗块Brick由row、col、height和width四个属性构成,其中的参数解释如图3所示,并初始化为row=i,col=j,height=1,width=1。这里需要解释的是M'(i,j)代表M'二值矩阵中第i行第j列元素的取值,若取值为1则代表该位置对应图中的黑色像素;若取值为0则代表该位置对应图中的白色像素。由于一个矩形框在一幅图中可以用四个属性来描述,所以将粗块Brick属性设置为列号、行号、宽和高。需要说明的是每个粗块Brick都有自己的名称,默认值是创建的序号,即第一个创建的则名称为1、第四个创建的则名称为4。
步骤3.2,由于是从左上角出发进行逐行扫描的,所以不用考虑当前粗块Brick的上方有属于本次切割目标的部分。所以根据指定的规则对步骤3.1得到的粗块Brick向右、向下和向左三个方向进行延伸即可,即相当于扩大矩形框的尺寸直到圈住整个切割目标。在进行该步骤时,扩大矩形框尺寸的操作可以通过调整粗块Brick中的四个属性值来实现。粗切割算法是一个循环的过程,它对粗块Brick的右、下、左三个方向进行延伸,并根据规则不断更新粗块Brick的属性值以达到扩大矩形框尺寸的目的。直到三个方向均不能延伸为止,得到切割目标的粗块Brick,并将结果保存。该算法的具体实现过程如下:
(1)向右侧延伸,检查粗块Brick的右侧相邻列中是否存在黑色的像素点,如图5所示。若存在黑色的像素点,即存在M'(i,j)=1,则Brick.width=Brick.width+1;否则,标记不可向右延伸。
其中i=Brick.row+Brick.width,j∈[Brick.col,Brick.col+Brick.height-1]。
需要说明的是i=Brick.row+Brick.width后得到的i表示的是粗块Brick右侧相邻列的列号。
(2)向下延伸,检查粗块Brick的底端相邻行中是否存在黑色的像素点,如图6所示。若存在黑色的像素点,即存在M'(i,j)=1,则Brick.height=Brick.height+1;否则,标记不可向下延伸。
其中j=Brick.col+1,i∈[Brick.row,Brick.row+Brick.width-1]。
需要说明的是j=Brick.col+1后得到的j表示的是粗块Brick底端相邻行的行号。
(3)向左侧延伸,检查粗块Brick的左侧相邻列中是否存在黑色的像素点,如图7所示。若存在黑色的像素点,即若M'(i,j)=1,则Brick.row=Brick.row-1,Brick.width=Brick.width+1;否则,标记不可向左延伸。
其中i=Brick.row-1,j∈[Brick.col,Brick.col+Brick.height-1]。
需要说明的是i=Brick.row-1后得到的i表示的是粗块Brick左侧相邻列的列号。
重复步骤(1)-(3)直到向三个方向均不可延伸,粗块Brick的属性值调整完毕,得到粗块Brick。
其中,步骤(1)-(3)中提到的Brick.row、Brick.col、Brick.width和Brick.height分别表示粗块Brick的列号、行号、宽和高。
步骤3.3,为了避免重复得到相同的粗块Brick,需要根据步骤3.2中得到的粗块Brick的信息,在二值矩阵M'中抹去该粗块Brick所占有的区域,即将该粗块Brick对应二值矩阵M'中的值置为0。不过不用担心因抹去值矩阵M'中的值而影响最后的输出,因为最后可以根据原图和粗块Brick中记录的位置信息去来得到切割后的图像。
重复步骤3.1-步骤3.3的操作,直到扫描完二值矩阵M'的所有元素,最终得到并保存所有的粗块Brick。本发明在具体实现中采用链表的方式来对若干个粗块Brick进行存储,也可以根据不同的需要改变数据的存储结构。
接下来,步骤4要完成把步骤3中得到的若干个粗块标记并得到若干个文本块InfB和若干个非文本块UInfB的任务,其中文本块InfB和非文本块UInfB与粗块Brick具有相同的结构,只是名称不同。例如,第一个得到的文本块InfB的名称为文本块1;第三个得到的非文本块UInfB的名称为非文本块3。相对于一般的图片而言,文本拥有文本行和字与字间有空隙的特点。因此可以采用向横纵两个方向映射的直方图来方便地区别文本与一般图片。步骤4包含3个子步骤:
步骤4.1,根据步骤3中得到的粗块信息得到其对应原始扫描图像的部分IBrick,并将IBrick的尺寸调整为300×300,得到调整后的图像I'Brick
步骤4.2,将图像I'Brick向横纵两个方向进行投影,得到一个600维(横向投影300维,纵向投影300维)的直方图特征向量,在此基础上根据粗块Brick的信息添加位置(Brick.row和Brick.col)和尺寸信息(Brick.height和Brick.width),最终得到一个604维的特征向量F。需要说明的是,在特征向量F中加入粗块Brick的位置信息是因为在美国早期专利文档中,文本部分基本都位于整个专利文档的上部,因此加入位置信息可以让分类器更好的学习到文本块InfB与非文本块UInfB的区别,提高分类的正确率。
其中Brick.row、Brick.col、Brick.width和Brick.height分别表示粗块Brick的列号、行号、宽和高。
步骤4.3,把步骤4.2中得到特征向量F作为输入,通过已训练好的SVM分类器1对特征向量F进行分类,标记该粗块为文本块InfB或非文本块UInfB。
需要说明的是,要得到步骤4.3中用到的SVM分类器1,需要准备200个标记为文本块InfB和600个标记为非文本块UInfB的训练数据,制作这800个训练数据的方法和步骤4.2中叙述的方法相同。所采用的训练数据数量会影响到最终分类的正确率,理论上来说提供越多正确的训练数据,一般最终得到的分类效果会越好。本发明中所用到的训练数据数量已经能保证一定的正确率。
步骤5,对步骤4中得到的若干个非文本块UInfB进行进一步的细切割操作,即用算法实现以非规则的选取区域圈取图像中各元素的操作,得到若干个细块FineB。此处的算法可使用基于SNAKE模型的图像分割算法来实现。进行本步骤的原因是处理文档中由于相距过近而未能被矩形框分开的各元素,避免附图与附图标号数目无法对应的情况。
步骤6,利用针对手写字符识别的分类器对步骤5得到的每个细块FineB进行分类,标记并得到若干个标号块FigB和若干个非标号块UFigB。其中标号块FigB和非标号块UFigB与粗块Brick具有相同的结构,只是名称不同。需要说明的是,标号块FigB的名称是根据其实际代表的附图编号命名的,例如某标号块FigB在实际图像中显示的是“Fig.2”则该标号块FigB名称为标号块2。非标号块UFigB的名称仅和创建的顺序有关,例如第三个创建的非标号块UFigB的名称为非标号块3。
接下来,步骤7要完成把步骤6中得到的若干个非标号块UFigB标记并割到若干个附图块PB和若干个杂质块ZB的任务,其中附图块PB和杂质块ZB与粗块Brick具有相同的结构,只是名称不同。其中名称的命名规则是按创建的顺序,例第一个创建的附图块PB的名称为附图块1;第二个创建的杂质块ZB的名称为杂质块2。在对一定数量的美国早期专利文档的处理过程中发现,扫描图像中出现的杂质有细长和黑色较多特点,不同的杂质如图10所示。杂质的这两个特点可以转化为一个粗块Brick中最大长宽比和黑色像素密度这两个量化后的特征。步骤7包含3个子步骤:
步骤7.1,计算步骤6中所得到的非标号块UFigB的最大长宽比γ和有效像素密度ρ,长宽比γ和有效像素密度ρ的计算公式如式(2)-(8)所示:
γ=Max{UFigB.height/UFigB.width,UFigB.width/UFigB.height}      (2)
S=UFigB.height×UFigB.width      (3)
Xbegin=UFigB.row            (4)
Xend=UFigB.row+UFigB.width-1      (5)
Ybegin=UFigB.col          (6)
Yend=UFigB.col+UFigB.height-1      (7)
ρ = 1 S Σ i = X begin X end Σ j = Y begin Y end C ( i , j ) - - - ( 8 )
其中γ为非标号块UFigB长比宽和宽比高中的最大值;ρ为非标号块UFigB的有效像素密度,即黑色像素所占像素总数的比例;S表示非标号块的面积,也表示非标号块UFigB中的像素总数;Xbegin、Xend、Ybegin和Yend分别是非标号块UFigB在二值矩阵C中对应的起始列号、结束列号、起始行号和结束行号;UFigB.row、UFigB.col、UFigB.width和UFigB.height分别表示非标号块UFigB的列号、行号、宽和高;C(i,j)是步骤3中提到未经过调整的二值矩阵M'的复制矩阵;
步骤7.2,根据步骤7.1中得到的γ和ρ组成一个2维的特征向量UF。
步骤7.3,把步骤7.2中得到特征向量UF作为输入,通过已训练好的SVM2分类器对特征向量UF进行分类,标记该非标号块UFigB为附图块PB或杂质块ZB。
要得到步骤7.3中用到的SVM分类器2,需要准备200个标记为杂质块ZB和200个标记为附图块PB的训练数据,制作这400个训练数据的方法与步骤7.1-步骤7.2中叙述的方法相同。
接下来要完成图文匹配的工作,步骤8要根据步骤6中得到的若干个标号块FigB对步骤7中得到的若干个附图块PB进行重命名。步骤8共包含2个子步骤:
步骤8.1,指定一个附图块PB,从所有的标号块FigB中找到一个与之距离d最近的标号块FigB',计算距离d的公式如式(9):
d = ( ( PB . row + PB . width - 1 2 ) - ( FigB . row + FigB . width - 1 2 ) ) 2 + ( ( PB . col + PB . height - 1 2 ) - ( FigB . col + FigB . height - 1 2 ) ) 2 - - - ( 9 )
步骤8.2,根据步骤8.1中得到与该附图块PB最近的标号块FigB'的名称,对该附图块PB的名称进行修改,例如该附图块PB的名称原本为附图块1,与之距离最近的标号块FigB'的名称为标号块3,则将该附图块PB的名称改为图3。并将与该附图块PB匹配的标号块FigB'从所有标号块FigB的集合中删去,避免重复匹配。
重复步骤8.1和步骤8.2,直到修改完所有附图块PB的名称。
步骤9,输出步骤8得到的以附图标记号命名的若干个附图块,即在指定目录下保存以附图标号命名的附图图片。

Claims (2)

1.一种针对早期专利文档扫描件中图文信息的智能处理方法,其特征在于:
步骤1,将输入的专利文档扫描图像转化为二值二维矩阵;
步骤2,去除扫描图像中的颗粒噪声,采用邻域平均的均值滤波器对步骤1得到的二维矩阵进行处理;
步骤3,对步骤2中得到的二维矩阵进行粗切割操作,即用算法实现以矩形框圈取切割目标的操作,得到若干个粗块;
步骤4,利用根据位置、直方图和尺寸三个信息作为特征的SVM分类器对由步骤3中得到的每个粗块进行分类,标记并得到若干个文本块和若干个非文本块;
步骤5,对步骤4中得到的非文本块进行进一步的细切割操作,即用算法实现以非规则的选取区域圈取图像中各元素的操作,得到若干个细块;
步骤6,利用针对手写字符识别的分类器对步骤5得到的每个细块进行分类,标记并得到若干个标号块和若干个非标号块;
步骤7,利用根据长宽比和有效像素密度作为特征的SVM分类器对由步骤6得到的非标号块进行分类,标记并得到若干个杂质块和若干个附图块;
步骤8,根据位置信息,对由步骤6得到的若干个标号块以及由步骤7得到的若干个附图块进行对应的匹配,即将指定附图和与其对应的附图标号相匹配,并将该附图块的名称改为对应的附图标记号;
步骤9,输出步骤8得到的以附图标记号命名的若干个附图块,即在指定目录下保存以附图标号命名的附图图片。
2.如权利要求1所述的一种针对早期专利文档扫描件中图文信息的智能处理方法,其特征在于:
首先,在步骤1中要把输入的专利文档扫描图像转化为二值二维矩阵,步骤1共包含2个子步骤:
步骤1.1,将彩色图像I转化为灰度图,假设Igray为灰度图对应的灰度值矩阵,Igray中各个元素的计算公式如式(1)所示:
Igray(i,j)=(Ir(i,j)+Ig(i,j)+Ib(i,j))/3         (1)
其中Igray(i,j)代表灰度值矩阵中第i行第j列元素的取值,Ir(i,j)、Ig(i,j)、Ib(i,j)分别为彩色图像R、G、B通道的颜色矩阵中第i行第j列元素的取值;
步骤1.2,根据灰度阈值为200的规则将灰度图转化为一个二值二维矩阵M;具体方法为扫描灰度值矩阵Igray,并按下述规则对二值二维矩阵M中的元素进行调整,具体规则如下:
若Igray(i,j)>200,则M(i,j)=0;
若Igray(i,j)≤200,则M(i,j)=1;
其中Igray(i,j)代表灰度值矩阵中第i行第j列元素的取值,M(i,j)代表二值二维矩阵M中第i行第j列元素的取值,取值为0表示在原图中是白色像素点,1表示是黑色像素点;
在步骤2中采用邻域平均的均值滤波器方法对二值矩阵M所表示的扫描图片进行去噪处理,得到去噪后的二值矩阵M';
在步骤3中将要完成对步骤2中得到的二值矩阵M'的粗切割操作;由于粗切割操作会调整二值矩阵M'中各元素的值,而在之后的步骤7.1中需要用到未修改的二值矩阵M',因此在调整前备份一个二值矩阵C供步骤7.1中的计算所用;步骤3共包含3个子步骤:
步骤3.1,从左上角出发逐行扫描步骤2中得到的二值矩阵M',直到找到第一个黑色像素点;根据该像素点所处二值矩阵M'中的列号和行号创建并初始化一个新的存储节点,称为粗块Brick;本步骤的具体算法实现如下:
若M'(i,j)=0,则继续遍历下一个点;若M'(i,j)=1,则创建一个粗块Brick,该粗块Brick由row、col、height和width四个属性构成,并初始化为row=i,col=j,height=1,width=1;这里需要解释的是M'(i,j)代表M'二值矩阵中第i行第j列元素的取值,若取值为1则代表该位置对应图中的黑色像素;若取值为0则代表该位置对应图中的白色像素;由于一个矩形框在一幅图中用四个属性来描述,将粗块Brick属性设置为列号、行号、宽和高;需要说明的是每个粗块Brick都有自己的名称,默认值是创建的序号,即第一个创建的则名称为1、第四个创建的则名称为4;
步骤3.2,由于是从左上角出发进行逐行扫描的,不用考虑当前粗块Brick的上方有属于本次切割目标的部分;根据指定的规则对步骤3.1得到的粗块Brick向右、向下和向左三个方向进行延伸即可,即相当于扩大矩形框的尺寸直到圈住整个切割目标;在进行该步骤时,扩大矩形框尺寸的操作可以通过调整粗块Brick中的四个属性值来实现;粗切割算法是一个循环的过程,它对粗块Brick的右、下、左三个方向进行延伸,并根据规则不断更新粗块Brick的属性值以达到扩大矩形框尺寸的目的;直到三个方向均不能延伸为止,得到切割目标的粗块Brick,并将结果保存;
步骤3.3,为了避免重复得到相同的粗块Brick,需要根据步骤3.2中得到的粗块Brick的信息,在二值矩阵M'中抹去该粗块Brick所占有的区域,即将该粗块Brick对应二值矩阵M'中的值置为0;不过不用担心因抹去值矩阵M'中的值而影响最后的输出,因为能根据原图和粗块Brick中记录的位置信息来得到切割后的图像;
重复步骤3.1-步骤3.3的操作,直到扫描完二值矩阵M'的所有元素,最终得到并保存所有的粗块Brick;
接下来,步骤4要完成把步骤3中得到的若干个粗块标记并得到若干个文本块InfB和若干个非文本块UInfB的任务,其中文本块InfB和非文本块UInfB与粗块Brick具有相同的结构,只是名称不同;
步骤4包含3个子步骤:
步骤4.1,根据步骤3中得到的粗块信息得到其对应原始扫描图像的部分IBrick,并将IBrick的尺寸调整为300×300,得到调整后的图像I'Brick
步骤4.2,将图像I'Brick向横纵两个方向进行投影,得到一个600维即横向投影300维,纵向投影300维的直方图特征向量,在此基础上根据粗块Brick的信息添加位置即Brick.row和Brick.col和尺寸信息即Brick.height和Brick.width,最终得到一个604维的特征向量F;其中Brick.row、Brick.col、Brick.width和Brick.height分别表示粗块Brick的列号、行号、宽和高;
步骤4.3,把步骤4.2中得到特征向量F作为输入,通过已训练好的SVM分类器1对特征向量F进行分类,标记该粗块为文本块InfB或非文本块UInfB;
步骤5,对步骤4中得到的若干个非文本块UInfB进行进一步的细切割操作,即用算法实现以非规则的选取区域圈取图像中各元素的操作,得到若干个细块FineB;
步骤6,利用针对手写字符识别的分类器对步骤5得到的每个细块FineB进行分类,标记并得到若干个标号块FigB和若干个非标号块UFigB;其中标号块FigB和非标号块UFigB与粗块Brick具有相同的结构,只是名称不同;需要说明的是,标号块FigB的名称是根据其实际代表的附图编号命名的;非标号块UFigB的名称仅和创建的顺序有关;
接下来,步骤7要完成把步骤6中得到的若干个非标号块UFigB标记并割到若干个附图块PB和若干个杂质块ZB的任务,其中附图块PB和杂质块ZB与粗块Brick具有相同的结构,只是名称不同;
步骤7包含3个子步骤:
步骤7.1,计算步骤6中所得到的非标号块UFigB的最大长宽比γ和有效像素密度ρ,长宽比γ和有效像素密度ρ的计算公式如式(2)-(8)所示:
γ=Max{UFigB.height/UFigB.width,UFigB.width/UFigB.height}      (2)
S=UFigB.height×UFigB.width      (3)
Xbegin=UFigB.row           (4)
Xend=UFigB.row+UFigB.width-1      (5)
Ybegin=UFigB.col             (6)
Yend=UFigB.col+UFigB.height-1      (7)
ρ = 1 S Σ i = X begin X end Σ j = Y begin Y end C ( i , j ) - - - ( 8 )
其中γ为非标号块UFigB长比宽和宽比高中的最大值;ρ为非标号块UFigB的有效像素密度,即黑色像素所占像素总数的比例;S表示非标号块的面积,也表示非标号块UFigB中的像素总数;Xbegin、Xend、Ybegin和Yend分别是非标号块UFigB在二值矩阵C中对应的起始列号、结束列号、起始行号和结束行号;UFigB.row、UFigB.col、UFigB.width和UFigB.height分别表示非标号块UFigB的列号、行号、宽和高;C(i,j)是步骤3中提到未经过调整的二值矩阵M'的复制矩阵;
步骤7.2,根据步骤7.1中得到的γ和ρ组成一个2维的特征向量UF;
步骤7.3,把步骤7.2中得到特征向量UF作为输入,通过已训练好的SVM2分类器对特征向量UF进行分类,标记该非标号块UFigB为附图块PB或杂质块ZB;
接下来要完成图文匹配的工作,步骤8要根据步骤6中得到的若干个标号块FigB对步骤7中得到的若干个附图块PB进行重命名;步骤8共包含2个子步骤:
步骤8.1,指定一个附图块PB,从所有的标号块FigB中找到一个与之距离d最近的标号块FigB',计算距离d的公式如式(9):
d = ( ( PB . row + PB . width - 1 2 ) - ( FigB . row + FigB . width - 1 2 ) ) 2 + ( ( PB . col + PB . height - 1 2 ) - ( FigB . col + FigB . height - 1 2 ) ) 2 - - - ( 9 )
步骤8.2,根据步骤8.1中得到与该附图块PB最近的标号块FigB'的名称,对该附图块PB的名称进行修改,并将与该附图块PB匹配的标号块FigB'从所有标号块FigB的集合中删去,避免重复匹配;
重复步骤8.1和步骤8.2,直到修改完所有附图块PB的名称;
步骤9,输出步骤8得到的以附图标记号命名的若干个附图块,即在指定目录下保存以附图标号命名的附图图片。
CN201410143919.6A 2014-04-11 2014-04-11 一种针对早期专利文档扫描件中图文信息的智能处理方法 Active CN103927533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410143919.6A CN103927533B (zh) 2014-04-11 2014-04-11 一种针对早期专利文档扫描件中图文信息的智能处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410143919.6A CN103927533B (zh) 2014-04-11 2014-04-11 一种针对早期专利文档扫描件中图文信息的智能处理方法

Publications (2)

Publication Number Publication Date
CN103927533A true CN103927533A (zh) 2014-07-16
CN103927533B CN103927533B (zh) 2017-03-01

Family

ID=51145749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410143919.6A Active CN103927533B (zh) 2014-04-11 2014-04-11 一种针对早期专利文档扫描件中图文信息的智能处理方法

Country Status (1)

Country Link
CN (1) CN103927533B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573126A (zh) * 2015-02-10 2015-04-29 同方知网(北京)技术有限公司 一种基于专利全文的专利附图标注的附图展示方式
CN106709437A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种改进的针对早期专利文档扫描件中图文信息的智能处理方法
CN109815473A (zh) * 2019-01-28 2019-05-28 四川译讯信息科技有限公司 一种文档编辑辅助方法
CN113743063A (zh) * 2021-09-02 2021-12-03 北京力信联合科技有限公司 用于生成物品的物理特性报告的方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123002A (zh) * 2007-09-14 2008-02-13 北大方正集团有限公司 一种图文的自动排版方法
CN101714149A (zh) * 2008-10-08 2010-05-26 北大方正集团有限公司 一种反解版式文件后得到的图片和图说的自动关联方法
US20100220929A1 (en) * 2009-02-27 2010-09-02 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and computer-readable storage medium
CN102332097A (zh) * 2011-10-21 2012-01-25 中国科学院自动化研究所 一种基于图割的复杂背景文本图像分割方法
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN102567725A (zh) * 2011-12-23 2012-07-11 国网电力科学研究院 一种金融ocr系统手写体数字串的软切分方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123002A (zh) * 2007-09-14 2008-02-13 北大方正集团有限公司 一种图文的自动排版方法
CN101714149A (zh) * 2008-10-08 2010-05-26 北大方正集团有限公司 一种反解版式文件后得到的图片和图说的自动关联方法
US20100220929A1 (en) * 2009-02-27 2010-09-02 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and computer-readable storage medium
CN102332097A (zh) * 2011-10-21 2012-01-25 中国科学院自动化研究所 一种基于图割的复杂背景文本图像分割方法
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN102567725A (zh) * 2011-12-23 2012-07-11 国网电力科学研究院 一种金融ocr系统手写体数字串的软切分方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573126A (zh) * 2015-02-10 2015-04-29 同方知网(北京)技术有限公司 一种基于专利全文的专利附图标注的附图展示方式
CN106709437A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种改进的针对早期专利文档扫描件中图文信息的智能处理方法
CN109815473A (zh) * 2019-01-28 2019-05-28 四川译讯信息科技有限公司 一种文档编辑辅助方法
CN113743063A (zh) * 2021-09-02 2021-12-03 北京力信联合科技有限公司 用于生成物品的物理特性报告的方法、系统及存储介质

Also Published As

Publication number Publication date
CN103927533B (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
CN112818862B (zh) 基于多源线索与混合注意力的人脸篡改检测方法与系统
Csurka et al. An efficient approach to semantic segmentation
Antonacopoulos et al. ICDAR2015 competition on recognition of documents with complex layouts-RDCL2015
KR101737338B1 (ko) 주석이 달린 문서 이미지들로부터 클린 문서를 복원하기 위한 시스템 및 방법
US11600091B2 (en) Performing electronic document segmentation using deep neural networks
CN111709349A (zh) 一种针对带表格合同的ocr识别方法
US11915465B2 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN113673541B (zh) 一种用于目标检测的图像样本生成方法及应用
CN103927533A (zh) 一种针对早期专利文档扫描件中图文信息的智能处理方法
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN112541922A (zh) 基于数字图像的试卷布局分割方法、电子设备及存储介质
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
JP5020698B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム
Carlinet et al. A color tree of shapes with illustrations on filtering, simplification, and segmentation
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN113361530A (zh) 使用交互手段的图像语义精准分割及优化方法
CN106056575A (zh) 一种基于似物性推荐算法的图像匹配方法
JPH08320914A (ja) 表認識方法および装置
Thuon et al. Generate, transform, and clean: the role of GANs and transformers in palm leaf manuscript generation and enhancement
JP7365835B2 (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム
JP7243981B2 (ja) 紙面領域分類装置及びそのプログラム
Soua et al. Improved Hybrid Binarization based on Kmeans for Heterogeneous document processing
CN102682308A (zh) 图像处理方法和图像处理设备
JPH10222688A (ja) 画像処理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140716

Assignee: Zhuozhong Zhongchuang Space (Henan) Co.,Ltd.

Assignor: Beijing University of Technology

Contract record no.: X2024980000057

Denomination of invention: An intelligent processing method for graphic and textual information in scanned early patent documents

Granted publication date: 20170301

License type: Common License

Record date: 20240103

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140716

Assignee: Henan Xucai Technology Enterprise Incubator Co.,Ltd.

Assignor: Beijing University of Technology

Contract record no.: X2024980000214

Denomination of invention: An intelligent processing method for graphic and textual information in scanned early patent documents

Granted publication date: 20170301

License type: Common License

Record date: 20240105

EE01 Entry into force of recordation of patent licensing contract