CN102831244B - 一种房产文档图像的分类检索方法 - Google Patents

一种房产文档图像的分类检索方法 Download PDF

Info

Publication number
CN102831244B
CN102831244B CN201210338635.3A CN201210338635A CN102831244B CN 102831244 B CN102831244 B CN 102831244B CN 201210338635 A CN201210338635 A CN 201210338635A CN 102831244 B CN102831244 B CN 102831244B
Authority
CN
China
Prior art keywords
image
service
picture
original image
carry out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210338635.3A
Other languages
English (en)
Other versions
CN102831244A (zh
Inventor
马文社
余建桥
郭加旋
况远春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHONGQING LIDING TECHNOLOGY CO LTD
Original Assignee
CHONGQING LIDING TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHONGQING LIDING TECHNOLOGY CO LTD filed Critical CHONGQING LIDING TECHNOLOGY CO LTD
Priority to CN201210338635.3A priority Critical patent/CN102831244B/zh
Publication of CN102831244A publication Critical patent/CN102831244A/zh
Application granted granted Critical
Publication of CN102831244B publication Critical patent/CN102831244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种房产文档图像的分类检索方法,其特征在于按如下步骤进行:(一)对房产文档图像进行预处理,包括归一化、二值化、去噪、裁边四种处理方式,得到预处理后图像;(二)对预处理后图像进行膨胀、取反、细化处理后提取出段落特征,并结合局部像素特征,组成综合特征来共同表征图像特征;(三)利用SVM支持向量机对综合特征进行分类训练,得到分类模型,训练时采用RBF核函数,分类算法为SMO算法;(四)利用分类模型对文档图像进行分类检索。本发明的有益效果是分类准确性高,针对性强。

Description

一种房产文档图像的分类检索方法
技术领域
本发明涉及一种纸质文档电子化、数字化管理技术,尤其涉及一种房产文档图像的分类检索方法。
背景技术
房产文档图像是指以文字和图表为主要内容的一类特殊图像,主要是通过扫描仪等设备将房产纸质档案转化而来的文档图像。一般房产文档只有固定的几种类别:合同,发票,身份证复印件等。每一种类别都有相同的格式。这类图像数据在内容、特征提取和检索目标上都有别于一般的自然景物图像。因此房产文档图像分类与其他图像分类的不同在于,房产文档图像分类不需要真正识别两篇文档的字符内容,只从其页面特征就可以判断这两篇文档是否相似。另外,在选择匹配特征方面也存在一定差异,比如颜色特征在图像分类中是相当流行的特征,而在文档图像分类中则很少使用颜色特征。
文档图像检索主要分为基于文档内容的检索和基于文档图像特征的检索。典型的基于特征的图像检索技术有:基于文字特征的检索方法;把文字和非文字分开处理的检索方法;以及在文档图像数据库中使用版面特征进行检索的方法。由于房产档案自身的特殊性,使用以上几种方法不能很好地表示房产档案的段落,提取的特征不能很好地反映文档本身,从而导致分类检索结果不准确。而且在扫描时,由于扫描的文档不同,出来的图像大小可能会不同,而且同样的文档在经过不同的扫描后得到图像大小也会不同,也会影响到分类检索的准确性。
发明内容
本发明的目的在于提供一种针对房产文档图像特点的、准确性高的房产文档图像分类检索方法。
本发明的技术方案如下:一种房产文档图像的分类检索方法,其关键在于按如下步骤进行:
(一)对原始图像进行预处理,按以下步骤进行:
步骤一:对原始图像进行归一化处理,得到归一化图像;归一化处理按下式进行:
x 1 = x 0 × k x y 1 = y 0 × k y
上式中,x0、y0分别表示原始图像中像素点的横坐标和纵坐标,x1、y1分别表示与原始图像相对应的归一化图像的像素点的横坐标和纵坐标,kx为原始图像在X轴方向的缩放比,ky为原始图像在Y轴方向上的缩放比,kx、ky的取值根据具体的原始图像而定,取值范围为(0,10);
不同的文档在扫描后的大小不同,相同的文档经过不同的扫描后大小也可能不同,归一化可以使得文档具有相同的尺寸,便于后面的处理。
步骤二:对归一化图像进行二值化处理,得到二值化图像;二值化处理按下式进行:
f ( x ) = 0 , x < T 255 , x &GreaterEqual; T
上式中,x表示需进行二值化处理的像素点的灰度值,T表示二值化阈值,T∈[100,250];
经过二值化处理,文档图像中的文字从背景中分离开来,便于后面进行特征提取。
步骤三:对二值化图像进行去噪处理,得到去噪图像;去噪图像消除了文档在扫描过程中由于自身或其他原因产生的噪声。
所述去噪处理采用N×N中值滤波器进行,N=3,5,7,…。
步骤四:对去噪图像进行裁边处理:去掉去噪图像周围的空白区域,保留文字的实际区域,得到裁边图像即预处理后图像;
可以通过对上下左右四个方向扫描来获得文字的实际区域,把文字实际区域周围的空白部分去掉。经过裁边处理后,可以提高图像处理的效果。
(二)对预处理后图像进行特征提取,按以下步骤进行:
步骤一:对预处理后图像进行膨胀处理,得到膨胀图像;膨胀处理分别在水平方向和垂直方向上进行;
在水平方向上选取膨胀结构元素:[1 1 1],以此为模板在水平方向上膨胀,膨胀次数为H;
在垂直方向上选取膨胀结构元素: 1 1 1 , 以此为模板在垂直方向上膨胀,膨胀次数为(H+L)/2;
其中,H、L分别表示预处理后图像中字符的平均高度和行平均间距。
步骤二:对膨胀图像进行取反处理,得到取反图像;取反是一个黑变白、白变黑的过程,取反图像突出了文档的段落。
步骤三:对取反图像进行细化处理,得到细化图像;细化处理能够提取出图像的骨架,有助于段落特征的提取。
步骤四:提取段落特征:
A.计算细化图像的前景像素总数SumX和段落数目Pa,得到细化图像段落的平均像素Ave,Ave通过下式计算:
Ave=SumX/Pa
B.得到段落特征向量Par=(Pa,Ave);
步骤五:提取局部特征向量:
A.计算预处理后图像的前景像素总数SumY;
B.将预处理后图像划分为m×n个区域,计算每一个区域的前景像素总数ti,其中,i=1,2,3,…,m×n;m为小于预处理后图像横向像素数的自然数,n为小于纵向像素数的自然数;
C.按下式获取局部特征:
d i = ( t 1 - t i ) / S u m Y , i = m &times; n ( t i + 1 - t i ) / S u m Y , i = 1 , 2 , ... , m &times; n - 1
局部特征得到的是局部像素占全局像素的比值,即使同一幅图像在不同的扫描时生成的图像大小不一样,局部像素占全局像素的比值也不会很大,因此,是图像进行分类的一个很好的特征,这进一步保证了分类的准确性。
D.得到局部特征向量Diff=(d1,d2,…,dm×n);
步骤六:获取原始图像的综合特征:段落特征向量和局部特征向量组成了原始图像的综合特征;
(三)利用SVM支持向量机建立分类模型:
步骤一:选择多个不同的房产文档图像,重复(一)对原始图像进行预处理和(二)对预处理后图像进行特征提取,得到多个房产文档图像的综合特征作为建立分类模型的训练样本;
步骤二:确定惩罚参数C和核函数,利用SVM支持向量机对训练样本进行分类训练,得到训练模型,即分类模型;在进行分类训练中,核函数选择径向基函数RBF,分类算法选择SMO算法,SMO算法即序列最小优化算法;
(四)将原始图像的综合特征输入分类模型,对原始图像进行分类检索。
本发明的显著效果:本发明根据房产文档图像本身的特点,通过对图像进行预处理,并对预处理后图像利用形态学算法中的膨胀、细化提取段落特征,选择段落特征和局部像素特征相结合来共同表征图像特征,利用SVM支持向量机对房产文档图像进行分类检索,针对性强,分类准确率高。
附图说明
图1是本发明的流程图;
图2是实施例1的原始图像;
图3是图2的预处理后图像;
图4是图3的膨胀图像;
图5是图4的取反图像;
图6是图5的细化图像。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
实施例1:如图1所示,一种房产文档图像的分类检索方法,按如下步骤进行:
(一)对图2所示的原始图像进行预处理,按以下步骤进行:
步骤一:对原始图像进行归一化处理,得到归一化图像;归一化处理按下式进行:
x 1 = x 0 &times; k x y 1 = y 0 &times; k y
上式中,x0、y0分别表示原始图像中像素点的横坐标和纵坐标,x1、y1分别表示与原始图像相对应的归一化图像的像素点的横坐标和纵坐标,kx为原始图像在X轴方向的缩放比,ky为原始图像在Y轴方向上的缩放比,kx、ky的取值根据具体的原始图像而定,取值范围为(0,10);
不同的文档在扫描后的大小不同,相同的文档经过不同的扫描后大小也可能不同,归一化可以使得文档具有相同的尺寸,便于后面的处理。
步骤二:对归一化图像进行二值化处理,得到二值化图像;二值化处理按下式进行:
f ( x ) = 0 , x < T 255 , x &GreaterEqual; T
上式中,x表示需进行二值化处理的像素点的灰度值,T表示二值化阈值,T∈[100,250];本实施例中T=220。
经过二值化处理,文档图像中的文字从背景中分离开来,便于后面进行特征提取。
步骤三:对二值化图像进行去噪处理,得到去噪图像;去噪图像消除了文档在扫描过程中由于自身或其他原因产生的噪声。
所述去噪处理采用3×3中值滤波器进行。
步骤四:对去噪图像进行裁边处理:去掉去噪图像周围的空白区域,保留文字的实际区域,得到裁边图像即预处理后图像,见图3;
可以通过对上下左右四个方向扫描来获得文字的实际区域,把文字实际区域周围的空白部分去掉。经过裁边处理后,可以提高图像处理的效果。
(二)对预处理后图像进行特征提取,按以下步骤进行:
步骤一:对预处理后图像进行膨胀处理,得到图4所示的膨胀图像;膨胀处理分别在水平方向和垂直方向上进行;
在水平方向上选取膨胀结构元素:[1 1 1],以此为模板在水平方向上膨胀,膨胀次数为H;
在垂直方向上选取膨胀结构元素: 1 1 1 , 以此为模板在垂直方向上膨胀,膨胀次数为(H+L)/2;
其中,H、L分别表示预处理后图像中字符的平均高度和行平均间距。
步骤二:对膨胀图像进行取反处理,得到取反图像,如图5所示;取反是一个黑变白、白变黑的过程,取反图像突出了文档的段落。
步骤三:对取反图像进行细化处理,得到细化图像,如图6所示;细化处理能够提取出图像的骨架,有助于段落特征的提取。
步骤四:提取段落特征:
A.计算细化图像的前景像素总数SumX和段落数目Pa,得到细化图像段落的平均像素Ave,Ave通过下式计算:
Ave=SumX/Pa
B.得到段落特征向量Par=(Pa,Ave);
步骤五:提取局部特征向量:
A.计算预处理后图像的前景像素总数SumY;
B.将预处理后图像划分为m×n个区域,计算每一个区域的前景像素总数ti,其中,i=1,2,3,…,m×n;m为小于预处理后图像横向像素数的自然数,n为小于纵向像素数的自然数;
C.按下式获取局部特征:
d i = ( t 1 - t i ) / S u m Y , i = m &times; n ( t i + 1 - t i ) / S u m Y , i = 1 , 2 , ... , m &times; n - 1
局部特征得到的是局部像素占全局像素的比值,即使同一幅图像在不同的扫描时生成的图像大小不一样,局部像素占全局像素的比值也不会很大,因此,是图像进行分类的一个很好的特征。
D.得到局部特征向量Diff=(d1,d2,…,dm×n);
步骤六:获取原始图像的综合特征:段落特征向量和局部特征向量组成了原始图像的综合特征;
(三)利用SVM支持向量机建立分类模型:
步骤一:选择多个不同的房产文档图像,重复(一)对原始图像进行预处理和(二)对预处理后图像进行特征提取,得到多个房产文档图像的综合特征作为建立分类模型的训练样本;
步骤二:确定惩罚参数C和核函数,利用SVM支持向量机对训练样本进行分类训练,得到训练模型,即分类模型;在进行分类训练中,核函数选择径向基函数RBF,分类算法选择SMO算法,SMO算法即序列最小优化算法;
(四)将原始图像的综合特征输入分类模型,对原始图像进行分类检索。

Claims (2)

1.一种房产文档图像的分类检索方法,其特征在于按如下步骤进行:
(一)对原始图像进行预处理,按以下步骤进行:
步骤一:对原始图像进行归一化处理,得到归一化图像;归一化处理按下式进行:
上式中,x0、y0分别表示原始图像中像素点的横坐标和纵坐标,x1、y1分别表示与原始图像相对应的归一化图像的像素点的横坐标和纵坐标,kx为原始图像在X轴方向的缩放比,ky为原始图像在Y轴方向上的缩放比,kx、ky的取值根据具体的原始图像而定,取值范围为(0,10);
步骤二:对归一化图像进行二值化处理,得到二值化图像;二值化处理按下式进行:
上式中,x表示需进行二值化处理的像素点的灰度值,T表示二值化阈值,T∈[100,250];
步骤三:对二值化图像进行去噪处理,得到去噪图像;
步骤四:对去噪图像进行裁边处理:去掉去噪图像周围的空白区域,保留文字的实际区域,得到裁边图像即预处理后图像;
(二)对预处理后图像进行特征提取,按以下步骤进行:
步骤一:对预处理后图像进行膨胀处理,得到膨胀图像;膨胀处理分别在水平方向和垂直方向上进行;
在水平方向上选取膨胀结构元素:[1 1 1],以此为模板在水平方向上膨胀,膨胀次数为H;
在垂直方向上选取膨胀结构元素:以此为模板在垂直方向上膨胀,膨胀次数为(H+L)/2;
其中,H、L分别表示预处理后图像中字符的平均高度和行平均间距;
步骤二:对膨胀图像进行取反处理,得到取反图像;
步骤三:对取反图像进行细化处理,得到细化图像;
步骤四:提取段落特征:
A.计算细化图像的前景像素总数SumX和段落数目Pa,得到细化图像段落的平均像素Ave,Ave通过下式计算:
Ave=SumX/Pa
B.得到段落特征向量Par=(Pa,Ave);
步骤五:提取局部特征向量:
A.计算预处理后图像的前景像素总数SumY;
B.将预处理后图像划分为m×n个区域,计算每一个区域的前景像素总数ti,其中,i=1,2,3,…,m×n;m为小于预处理后图像横向像素数的自然数,n为小于纵向像素数的自然数;
C.按下式获取局部特征:
D.得到局部特征向量Diff=(d1,d2,…,dm×n);
步骤六:获取原始图像的综合特征:段落特征向量和局部特征向量组成了原始图像的综合特征;
(三)利用SVM支持向量机建立分类模型:
步骤一:选择多个不同的房产文档图像,重复(一)对原始图像进行预处理和(二)对预处理后图像进行特征提取,得到多个房产文档图像的综合特征作为建立分类模型的训练样本;
步骤二:确定惩罚参数C和核函数,利用SVM支持向量机对训练样本进行分类训练,得到训练模型,即分类模型;在进行分类训练中,核函数选择径向基函数RBF,分类算法选择SMO算法,SMO算法即序列最小优化算法;
(四)将原始图像的综合特征输入分类模型,对原始图像进行分类检索。
2.根据权利要求1所述的一种房产文档图像的分类检索方法,其特征在于:所述去噪处理采用N×N中值滤波器进行,N=3,5,7,…。
CN201210338635.3A 2012-09-13 2012-09-13 一种房产文档图像的分类检索方法 Active CN102831244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210338635.3A CN102831244B (zh) 2012-09-13 2012-09-13 一种房产文档图像的分类检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210338635.3A CN102831244B (zh) 2012-09-13 2012-09-13 一种房产文档图像的分类检索方法

Publications (2)

Publication Number Publication Date
CN102831244A CN102831244A (zh) 2012-12-19
CN102831244B true CN102831244B (zh) 2015-09-30

Family

ID=47334379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210338635.3A Active CN102831244B (zh) 2012-09-13 2012-09-13 一种房产文档图像的分类检索方法

Country Status (1)

Country Link
CN (1) CN102831244B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488999A (zh) * 2013-09-11 2014-01-01 东华大学 一种发票数据记录方法
CN104778450B (zh) * 2015-03-30 2019-04-02 深圳市道通科技股份有限公司 一种车辆识别码图像的预处理方法及装置
CN104866822B (zh) * 2015-05-06 2018-08-24 南京信息工程大学 一种基于sivv特征的文档图像粗分类方法
CN104897729A (zh) * 2015-06-04 2015-09-09 安徽农业大学 电子鼻瓜片茶的储存时间分类方法
CN104849320A (zh) * 2015-06-04 2015-08-19 安徽农业大学 电子鼻黄芽茶的香气品质分类方法
CN106778722A (zh) * 2016-11-25 2017-05-31 天方创新(北京)信息技术有限公司 图片处理方法及装置
CN109426831B (zh) * 2017-08-30 2022-12-13 腾讯科技(深圳)有限公司 图片相似匹配及模型训练的方法、装置及计算机设备
CN108460381B (zh) * 2018-03-13 2022-06-10 南京邮电大学 基于图像识别的发票报销信息定位及截取方法
CN110704687B (zh) * 2019-09-02 2023-08-11 平安科技(深圳)有限公司 文字布局方法、装置及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375991A (zh) * 2010-08-24 2012-03-14 北京中星微电子有限公司 分类器训练方法和装置以及字符识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8503769B2 (en) * 2010-12-28 2013-08-06 Microsoft Corporation Matching text to images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375991A (zh) * 2010-08-24 2012-03-14 北京中星微电子有限公司 分类器训练方法和装置以及字符识别方法和装置

Also Published As

Publication number Publication date
CN102831244A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN102831244B (zh) 一种房产文档图像的分类检索方法
Dev et al. Categorization of cloud image patches using an improved texton-based approach
Dalla Mura et al. Classification of hyperspectral images by using extended morphological attribute profiles and independent component analysis
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN102663348A (zh) 一种光学遥感图像中的海上舰船检测方法
JP2007206919A (ja) 表示制御装置および方法、プログラム、並びに記録媒体
JP2007206920A (ja) 画像処理装置および方法、検索装置および方法、プログラム、並びに記録媒体
CN102054178A (zh) 一种基于局部语义概念的国画图像识别方法
US9384519B1 (en) Finding similar images based on extracting keys from images
CN109583438B (zh) 电子图像的文字的识别方法及图像处理装置
CN102254326A (zh) 利用核传递进行图像分割的方法
CN105260428A (zh) 图片处理方法和装置
JP5701181B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
CN103473545A (zh) 一种基于多特征的文本图像相似度度量方法
CN104318254A (zh) 一种基于dct低频分量特征的快速煤岩识别方法
CN104317946A (zh) 一种基于多张关键图的图像内容检索方法
CN104850859A (zh) 一种基于多尺度分析的图像特征包构建方法
CN103995864B (zh) 一种图像检索方法和装置
CN104463134A (zh) 一种车牌检测方法和系统
Prusty et al. Indiscapes: Instance segmentation networks for layout parsing of historical indic manuscripts
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
Zhu et al. The bag-of-visual-words scene classifier combining local and global features for high spatial resolution imagery
CN104216882B (zh) 文件标注方法及装置
Rigamonti et al. Beyond kernelboost

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant