CN108038504B

CN108038504B - 一种解析房产证照片内容的方法

Info

Publication number: CN108038504B
Application number: CN201711305635.2A
Authority: CN
Inventors: 俞中宏; 张佳敏; 蔡立俊; 曾智磊; 张德恩
Original assignee: SHENZHEN FANGXUNTONG INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHENZHEN FANGXUNTONG INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2019-12-27
Anticipated expiration: 2037-12-11
Also published as: CN108038504A

Abstract

本发明涉及一种解析房产证照片内容的方法。所述的解析房产证照片内容的方法包括以下步骤：1).对不同版本房产证照片进行采集，在数据库建立不同版本房产证模板；2).拍摄待识别房产证照片，识别字段区域，计算模板匹配度，选取最高匹配度的版本作为待识别的房产证的版本；3).根据房产证版本对房产证照片按照模板进行切割，得到每个内容字段所对应的字段图,然后对字段图进行识别。首先通过房产证照片自动识别出证件的版本信息，以此来代替人工根据肉眼以及经验去得出该房产证的版本信息，然后根据房产证的版本，自动获取照片里对应的数据信息，以此来代替人工根据肉眼去读取房产证上面各字段的内容。

Description

一种解析房产证照片内容的方法

技术领域

本发明属于图像识别领域，更具体的说涉及一种解析房产证照片内容的方法。

背景技术

随着国家法律法规的日渐完善，社会对于公共安全的要求越来越高，故有关部门在社会民生的多个领域都推行实名制，如上网实名制、开户实名制、手机实名制、房产交易等等。若个人信息的提取单纯靠人工录入及核对，必将导致低下的工作效率和较高的出错率，给业务双方带来严重不便。因此，对证件信息的快速、准确的采集成为一个越来越重要的课题。

同时，随着计算机技术与信息技术的发展，图像识别技术获得了越来越广泛的应用。例如医疗诊断中各种医学图片的分析与识别、天气预报中的卫星云图识别、遥感图片识别、指纹识别、脸谱识别等，图像识别技术越来越多地渗透到我们的日常生活中。目前市面上的证件识别软件很多，也大大的提高了工作人员的信息采集效率。

然而在传统的房地产行业，并没有任何一款产品能够做到房产证的信息采集，房产证信息的采集还是采用“肉眼识别，手动录入”进行信息的获取；传统的录入方式具有以下缺点：1.效率低下，2.准确率低，3.不方便数据转接。同时，由于房产证件在不同地域具有不同版本的信息,其全国的房产证种类繁多，跟识别带来不便，因此，有必要针对房产证特点，设计出一种能够有效识别解析各版本房产证照片内容的方法。

发明内容

针对上述问题，本发明为了克服现有方法的缺点，提供了一种解析房产证照片内容的方法，首先通过房产证照片自动识别出证件的版本信息，以此来代替人工根据肉眼以及经验去得出该房产证的版本信息，然后根据房产证的版本，自动获取照片里对应的数据信息，以此来代替人工根据肉眼去读取房产证上面各字段的内容。

为达到上述目的，本发明提供如下技术方案：

一种解析房产证照片内容的方法，所述的解析房产证照片内容的方法包括以下步骤：

1).对不同版本房产证照片进行采集，在数据库建立不同版本房产证模板；

2).拍摄待识别房产证照片，识别字段区域，计算模板匹配度，选取最高匹配度的版本作为待识别的房产证的版本；

3).根据房产证版本对房产证照片按照模板进行切割，得到每个内容字段所对应的字段图,然后对字段图进行识别，对各个字段图所识别出的内容进行汇总。

进一步，在步骤1)中，建立版本房产证模板时，记录每个版本房产证的标准宽度，以及每个信息字段的名称、位置、宽高。

进一步，在步骤2)中，利用房产证边框自动查找技术识别字段区域，具体步骤为：

1)利用Opencv中自适应二值化算法将图片从彩色、灰色照片转换为黑白两色图片；

2)利用Opencv中FindContours算法获取图片上所有的轮廓的轮廓集合，枚举所有的点，计算任意两个点的长度，找出最长的长度对应的两个点，记作点1、点2；然后再枚举剩余的点，与点1点2行成的三角形，找出三角形周长最大的点，记作点3；然后再次枚举剩余的点，找出与点3距离最长的点，记作点4，点1、点2、点3、点4构成缩减后的轮廓；

3)筛选出正确的轮廓：剔除凹四边形的轮廓，选择凸四边形轮廓，并在四边形的每个边取5个点，共20个点进行底色验证，获取识别字段区域。

进一步，在步骤2)中，计算模板匹配度的具体步骤为：

a.识别字段区域，根据模板中获取每个信息字段的坐标、宽高，得到该字段区域的四个顶点及四条边上的中点；

b.使用8点验证法对模板的每个字段进行验证，确定有效模板信息字段的数量；

c.计算模板匹配度，模板匹配度＝有效模板信息字段数/模板信息字段数，得到最高匹配度的版本模板。

进一步，在步骤3)中，将房产证图片，按照模板进行切割，得到每个内容字段所对应的字段图，采用OCR图像识别技术对字段文字信息进行识别。

上述方法在房产证信息识别中的应用，但不限其在潜在应用领域如1、身份证识别；2、银行卡识别；3、户口簿识别；4、通用文字识别等中的具体应用。

其中，本申请中所述数据库采用光敏半导体陶瓷动力存储模块，当光照到光敏半导体陶瓷动力模块上时，在光子能量的作用下，光敏材料产生载流子使电导增加，即产生光电导效应。所述光敏半导体陶瓷动力存储模块的原料组份及重量组份配比为：SiO₂ 45-50份、CdS 1-5份、CdSe 2-4份、Ag 0.5-1份、氧化镁5-10份、Z_rO₂ 1-5份、碳化钛1-4份、碳纤维6-9份、氮化硅15-25份、氧化钇3-6份。

优选，所述光敏半导体陶瓷动力存储模块的原料组份及重量组份配比为：SiO₂ 45份、CdS 1份、CdSe 2份、Ag 0.5份、氧化镁5份、Z_rO₂ 1份、碳化钛1份、碳纤维6份、氮化硅15份、氧化钇3份。

优选，所述光敏半导体陶瓷动力存储模块的原料组份及重量组份配比为：SiO₂ 50份、CdS 5份、CdSe 4份、Ag 1份、氧化镁10份、Z_rO₂ 5份、碳化钛4份、碳纤维9份、氮化硅25份、氧化钇6份。

有益效果

本发明的技术方案具有以下优点，具体表现在：

1.本发明首先通过房产证照片自动识别出证件的版本信息，以此来代替人工根据肉眼以及经验去得出该房产证的版本信息，然后根据房产证的版本，自动获取照片里对应的数据信息，以此来代替人工根据肉眼去读取房产证上面各字段的内容，保证了房产证数据的采集及时性，准确性。

2.本发明针对房产证件在不同地域具有不同版本的信息，房产证种类繁多的特点，通过建立模板匹配机制，实现了对不同模板的有效识别，保证识别的准确性。

3.本发明应用领域广泛，可应用于如房产证信息识别、身份证识别、银行卡识别、户口簿识别，通用文字识别等中的具体应用，实现对上述对证件信息的快速、准确的采集。

4、所述光敏半导体陶瓷动力存储模块性能优良，质地均匀，工作温度范围广，转换效率能够达到15-20％。

附图说明

图1为本发明的流程图；

图2为本发明模板匹配度示意图a；

图3为本发明模板匹配度示意图b；

图4为光敏半导体陶瓷动力存储模块的SEM图。

具体实施方式

下面将结合本发明实施例和附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种解析房产证照片内容的方法,包括以下步骤：

1)对不同版本房产证照片进行采集，在数据库建立不同版本房产证模板

由于全国的房产证种类繁多，所以对不同版本的房产证做了识别的标签----“模板”，房产证模板是一个Json数据，里面记录了这个版本房产证的标准宽度，以及每个信息字段的名称、位置、宽高。

2)拍摄待识别房产证照片，识别字段区域，计算模板匹配度，选取最高匹配度的版本作为待识别的房产证的版本

a.识别字段区域，利用房产证边框自动查找技术识别字段区域，具体步骤为：

1)利用Opencv中自适应二值化算法将图片从彩色、灰色照片转换为黑白两色图片，目的在于可以屏蔽掉一些干扰区域，同时让轮廓更加的清晰；

3)筛选出正确的轮廓：通过观察以及研究制定了以下的筛选规则：1、由于字段内容区域通常都是矩形的，所以字段区域轮廓必须是一个凸四边形，剔除凹四边形的轮廓。2、由于轮廓的通常都是矩形，所以可以通过验证轮廓四边中的点筛选出正确的轮廓，取5个点，通常这5个点也必定是在轮廓上，5个点的底色肯定是黑色。所以筛选条件是4个边，每个边取5个点共20个点，这二十个点的底色必定是黑色。

根据模板中获取每个信息字段的坐标、宽高，得到该字段区域的四个顶点及四条边上的中点；

c.计算模板匹配度，模板匹配度＝有效模板信息字段数/模板信息字段数，得到最高匹配度的版本模板，具体步骤为：

对模板的每个字段进行验证，并计算模板匹配度，得出房产证版本信息；模板匹配度＝有效模板信息字段数/模板信息字段数。模板信息字段指的是这个版本房产证中所包含的信息数，比如房产证中有“土地使用权人、坐落、地号、图号、用途、取得价格”等11个信息，那么这个数字是11。每个信息字段都进行8点验证，通过8点验证的那么这个信息字段才算作有效模板信息字段。8点验证法：是根据模板中取得每个信息字段的坐标、宽高，得到该字段区域的的四个顶点及四条边上的中点，共8个点，如8个点中有个点的坐标是{100，100}，验证的是以{100，100}这个坐标，半径为10的范围内的点是否有白点。只要这个半径范围内有白点就验证通过。这么做的原因是减少误差，模板制作不可避免的会有误差，通过验证区域内的点来弥补这个误差。

如图2-3所示，我们明显可以看得出来图2模板里面几乎全都环形(匹配度高)，而图3版本模板里面有不少圆形(匹配度低)。可以得出图2模板的匹配度比较高，最终我们判定该房产证照片的版本为图2的版本。环形表示的是这个点的底色有白色，表示该点通过验证，圆形的表示没有底色没有白点，表示该点没通过验证。

3)对每个字段进行分割，通过图像识别技术对字段进行识别，得到图片里面的内容；我们获取到了该房产证图片所属的版本，接下来为了获取该版本房产证中的每个字段信息，我们需要将房产证图片，按照模板进行切割，得到每个内容字段所对应的字段图。然后通过OCR识别得出字段图里面的文字信息，在通过卷积神经网络算法识别出字段图内的数字信息。然后对各个字段图所识别出的内容进行汇总，得出房产证照片的所有准确信息。

卷积神经网络算法主要用三种结构实现对输入的局部平移不变性：局部接收域、权值共享和次子样。在卷积层中，前一层的特征图被一个可学习的卷积核进行卷积，再通过一个激活函数，既可以得到这一层的输出特征图。通常得，卷积的形式如式(1)所示：

1代表卷积神经网络结构层数，K是卷积核，M_j表示的是输入特征图的集合，代表特征图的选择，b表示每个输出图的偏置值。

在子采样层中，如果有N个输入特征图，就有N个输出特征图，只是每个输出特征图都变小了。一般地，子采样层的形式如公式(2)所示：

down(.)表示一个子采样函数，该操作是对输入图像的一个n*n大小的区域求和。这样输出图像在两个维度上都缩小了n倍。每个输出特征图都对一个乘性偏置β和一个加性偏置b。

卷积网络在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确数学表达式。训练算法分为两个阶段，第一阶段，向前传播阶段：a.从样本集中取一个样本(X，Y_P)，将X输入网络；b.计算相应的实际输出Op为公式(3)所示：

O_p＝F_n(...(F2(F1(XpW(1)W(2))...)W(n))) (3)

第二阶段向后传播阶段：a.计算实际输出Op与相应的理想输出Y_P的差；b.按极小化误差的方法反向传播调整权矩阵。

通过在线自动生成0-9序列号的工具，生成1000组数据，将这些图片上的字符归一化为48*48大小，用600组作为训练集，400组作为测试集，对卷积网络进行训练能够提升卷积神经网络的识误率。

本发明还可以通过百度识别的方式实现，百度文字识别可以将原图输入进去，出来整个图片的文字，然后根据文字的排版规律，进行分割字段信息。

本发明首先通过房产证照片自动识别出证件的版本信息，以此来代替人工根据肉眼以及经验去得出该房产证的版本信息，然后根据房产证的版本，自动获取照片里对应的数据信息，以此来代替人工根据肉眼去读取房产证上面各字段的内容，保证了房产证数据的采集及时性，准确性，本发明针对房产证件在不同地域具有不同版本的信息，房产证种类繁多的特点，通过建立模板匹配机制，实现了对不同模板的有效识别，保证识别的准确性，本发明应用领域广泛，可应用于如房产证信息识别、身份证识别、银行卡识别、户口簿识别，通用文字识别等中的具体应用，实现对上述对证件信息的快速、准确的采集。

最终，以上实施例和附图仅用以说明本发明的技术方案而非限制，尽管通过上述实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种解析房产证照片内容的方法，其特征在于，所述的解析房产证照片内容的方法包括以下步骤：

对不同版本的房产证做了识别的标签-“模板”，房产证模板是一个Json数据，里面记录了房产证的标准宽度，以及每个信息字段的名称、位置和宽高；

2)拍摄待识别房产证照片，识别字段区域，计算模板匹配度，选取最高匹配度的版本作为待识别的房产证的版本；

(1)利用Opencv中自适应二值化算法将图片从彩色、灰色照片转换为黑白两色图片；

(2)利用Opencv中FindContours算法获取图片上所有的轮廓的轮廓集合，枚举所有的点，计算任意两个点的长度，找出最长的长度对应的两个点，记作点1、点2；然后再枚举剩余的点，与点1点2行成的三角形，找出三角形周长最大的点，记作点3；然后再次枚举剩余的点，找出与点3距离最长的点，记作点4，点1、点2、点3、点4构成缩减后的轮廓；

(3)筛选出正确的轮廓；剔除凹四边形的轮廓，选择凸四边形轮廓，并在四边形的每个边取5个点，共20个点进行底色验证；

对模板的每个字段进行验证，并计算模板匹配度，得出房产证版本信息；模板匹配度＝有效模板信息字段数/模板信息字段数；模板信息字段指的是对应版本房产证中所包含的信息数；每个信息字段都进行8点验证，通过8点验证的，这个信息字段算作有效模板信息字段；8点验证法：是根据模板中取得每个信息字段的坐标、宽高，得到该字段区域的四个顶点及四条边上的中点，共8个点，确定8个点中某个点的坐标，验证以这个点的坐标，半径为10的范围内的点是否有白点；只要这个半径范围内有白点就验证通过；

3)对每个字段进行分割，通过图像识别技术对字段进行识别，得到图片里面的内容；获取到了房产证图片所属的版本，为了获取该版本房产证中的每个字段信息，将房产证图片，按照模板进行切割，得到每个内容字段所对应的字段图；然后通过OCR识别得出字段图里面的文字信息，再通过卷积神经网络算法识别出字段图内的数字信息；然后对各个字段图所识别出的内容进行汇总，得出房产证照片的所有准确信息；

卷积神经网络算法主要用三种结构实现对输入的局部平移不变性：局部接收域、权值共享和次子样；在卷积层中，前一层的特征图被一个可学习的卷积核进行卷积，再通过一个激活函数，既可以得到这一层的输出特征图；卷积的形式如式(1)所示：

1代表卷积神经网络结构层数，K是卷积核，M_j表示的是输入特征图的集合，代表特征图的选择，b表示每个输出图的偏置值；

在子采样层中，如果有N个输入特征图，就有N个输出特征图，只是每个输出特征图都变小了；子采样层的形式如公式(2)所示：

down(.)表示一个子采样函数，是对输入图像的一个n*n大小的区域求和；这样输出图像在两个维度上都缩小了n倍；每个输出特征图都对一个乘性偏置β和一个加性偏置b；

卷积网络在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确数学表达式；训练算法分为两个阶段，第一阶段，向前传播阶段：d.从样本集中取一个样本(X，Y_P)，将X输入网络；e.计算相应的实际输出Op为公式(3)所示：

O_p＝F_n(...(F2(F1(XpW(1) W(2))...)W(n))) (3)

第二阶段向后传播阶段：f.计算实际输出Op与相应的理想输出Y_P的差；g.按极小化误差的方法反向传播调整权矩阵；

通过在线自动生成0-9序列号的工具，生成1000组数据，将这些图片上的字符归一化为48*48大小，用600组作为训练集，400组作为测试集，对卷积网络进行训练。

2.根据权利要求1所述的一种解析房产证照片内容的方法在房产证信息识别中的应用。