CN109902724B - 基于支持向量机的文字识别方法、装置和计算机设备 - Google Patents
基于支持向量机的文字识别方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN109902724B CN109902724B CN201910100425.2A CN201910100425A CN109902724B CN 109902724 B CN109902724 B CN 109902724B CN 201910100425 A CN201910100425 A CN 201910100425A CN 109902724 B CN109902724 B CN 109902724B
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- picture
- specified
- support vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 159
- 230000006870 function Effects 0.000 claims description 72
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 abstract description 8
- 239000002699 waste material Substances 0.000 abstract description 2
- 238000012015 optical character recognition Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本申请揭示了一种基于支持向量机的文字识别方法、装置、计算机设备和存储介质,所述方法包括:获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;计算出指定图片的归一化向量Gi,从而获得n维向量(G1,G2,…Gn);将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算;将待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果;获取与指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;将文字识别区域识别为文字文本,并存储所述文字文本。从而减少算力浪费、提高分类效率、识别效率,并且适应存在拉伸和倾斜情况的指定图片。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到一种基于支持向量机的文字识别方法、装置、计算机设备和存储介质。
背景技术
图片识别技术应用广泛,在各领域中均具有重要地位,其中的图片识别分类技术可用于头像识别,不动产证识别后再分类等,能够自动识别图片。目前对于不动产证的图片识别分类,一般是将指定图片进行扫描,获取指定图片的所有像素点,再依次将像素点与标准模板的像素点进行对比,根据对比结果对指定图片进行分类。这种方法耗时费力,且容易出错,准确度不高,更对存在拉伸和倾斜情况的指定图片会出现误判。并且,传统技术在动指定图片进行识别时,需要对整张指定图片进行识别,耗费算力多、识别效率低。因此,现有技术的图片识别与分类的技术方案耗时费力,且不能对存在拉伸和倾斜情况的指定图片进行识别并分类。
发明内容
本申请的主要目的为提供一种基于支持向量机的文字识别方法、装置、计算机设备和存储介质,旨在减少算力浪费、提高分类效率、识别效率,并且解决现有技术对存在拉伸和倾斜情况的指定图片不能分类的技术问题。
为了实现上述发明目的,本申请提出一种基于支持向量机的文字识别方法,包括以下步骤:
获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;
根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类;
获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值;
将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果;
根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;
采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。
进一步地,所述支持向量机的获取方法,包括:
获取不同类别的指定图片;
根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
将所述不同类别的指定图片中的第k类指定图片的n维向量作为正集,除第k类指定图片之外的指定图片的n维向量作为负集,从而构成第k个支持向量机的训练集;
将第k个支持向量机的训练集的样本数据输入到支持向量机中进行训练,得到第k个支持向量机。
进一步地,所述获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线的步骤,包括:
获取待分类的指定图片;
检测所述待分类的指定图片,确定所述待分类的指定图片中的封闭的表格框线位置;
去除所述待分类的指定图片中所述表格框线之外的部分,得到仅包括表格框线的待分类的指定图片。
进一步地,所述根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)的步骤,包括:
将所述表格框线顺时针或者逆时针依次旋转90度3次,并在每次旋转之前以及第3次旋转之后,计算所述表格框线的第一行的第二个交点与所述表格框线的第一行的第一个交点的第一距离,从而获得4个第一距离;
获取所述4个第一距离中最小的距离对应的表格框线;
基于所述4个第一距离中最小的距离对应的表格框线,根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)。
进一步地,所述将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果的步骤,包括:
采用文字识别技术,获取所述待分类的指定图片中的文字信息;
从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中;
根据所述特定文字,利用预设的特定文字与指定图片的类别对应关系,获得所述待分类的指定图片的预估类别;
若所述预估类别与所述max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果相同,则将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果。
进一步地,所述从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中的步骤,包括:
判断所述文字信息中是否存在预存于特定文字表中的特定文字;
若所述文字信息中存在预存于特定文字表中的特定文字,则从所述文字信息中提取所述特定文字。
进一步地,所述支持向量机采用高斯核函数,所述高斯核函数的表达式为:K(xi,xj)=exp{-|xi-xj|2/2σ2},其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。
本申请提供一种基于支持向量机的文字识别装置,包括:
指定图片获取单元,用于获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;
n维向量获取单元,用于根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
支持向量机运算单元,用于将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类;
初步分类结果获取单元,用于获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值;
类别标记单元,用于将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果。
文字识别模式获取单元,用于根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;
文字文本识别单元,用于采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于支持向量机的文字识别方法、装置、计算机设备和存储介质,通过获取待分类的指定图片,计算出指定图片的归一化向量GI,从而获得n维向量(G1,G2,…Gn),将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,将所述待分类的指定图片的类别记为max(所述多个支持向量机的输出值)的返回值对应的初步分类结果,从而实现了自动快速准确地指定图片识别,可适用拉伸和倾斜情况下的指定图片识别。
附图说明
图1为本申请一实施例的基于支持向量机的文字识别方法的流程示意图;
图2为本申请一实施例的基于支持向量机的文字识别装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于支持向量机的文字识别方法,包括以下步骤:
S1、获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;
S2、根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
S3、将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类;
S4、获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值;
S5、将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果;
S6、根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;
S7、采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。
如上述步骤S1所述,获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线,包括不动产证图片。待分类的指定图片例如不动产证图片,由于不动产证例如房产证,具有多个种类,例如商业、住宅、商住等,根据不同地域、不同时期、不同用途可分为多个种类,若完全由人工分类,繁琐且易出错。因此本申请采用机器学习的支持向量机实现自动分类。其中,获取的待分类的指定图片具有封闭的表格框线。
如上述步骤S2所述,根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)。由于不同类别的指定图片采用的表格不同,因此表格框线也不同,表格框线的交点也不同,因此根据表格框线的交点可对指定图片进行分类。其中,所述表格框线的左上角的交点为原点,根据公式
计算出指定图片的归一化向量Gi,相交于直接以指定图片的所述原点至所述表格框线中第i个交点的向量gi,可以避免在图片拉伸和倾斜的情况下的错误分类。
如上述步骤S3所述,将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类。支持向量机(Support Vector Machine,SVM)是机器学习中的一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。即支持向量机将样本映射至高维空间里,并寻找到一个超平面,使所述超平面的两边各为一个类别,从而实现二分类。其中,寻找超平面的过程通过核函数来实现。常用的核函数包括线性核函数、多项式核函数、高斯核函数、拉普拉斯核函数等等。本申请采用任意可行的核函数,优选高斯核函数。高斯核函数的数学表达式为:K(xt,xj)=exp{-||xt-xj||2/σ2)),其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。本申请为了实现利用二分类的支持向量机对多种类样本的分类,采用了将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类的方式。从而由第k个持向量机能够输出第k个分类结果以及相应的输出值,其中所述输出值实质上就是所述不动产证的特征向量组成的样本映射至高维空间的一个点至超平面的距离,其中超平面在所述高维空间中将所述房产证分类为正类与负类,所述点在正类中时,距离值为正值,所述点在负类中时,距离值为负值,其中正类对应于第k类,负类对应于除了第k类之外的其他类。据此,可以得到所述待分类的指定图片的多个分类结果(与多个支持向量机的个数相同)及相应的输出值(即反应分类结果准确性的值)。
如上述步骤S4所述,获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值。由前述,可知将所述n维向量(G1,G2,…Gn)输入多个支持向量机后,将获得所述待分类的指定图片的多个分类结果(与多个支持向量机的个数相同)及相应的输出值(即反应分类结果准确性的值)。其中,所述输出值实质上就是所述不动产证的特征向量组成的样本映射至高维空间的一个点至超平面的距离。
如上述步骤S5所述,将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果。其中,max(所述多个初步分类结果对应的输出值)的返回值为所述多个初步分类结果对应的输出值中最大的值,所述最大的值表示其分类结果最为准确,因此应将max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果作为待分类的指定图片的分类结果。
如上述步骤S6所述,根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域。其中,所述文字识别区域中整个指定图片中的一部分,文字识别区域的面积小于指定图片的总面积,从而仅识别出较小区域的文字内容即可(即识别出需要的区域的文字内容,例如仅识别出户主、发证机构、住宅类型等区域的信息即可),从而减少了算力消耗、提高了图片的识别效率。其中,由于不同类别的指定图片的格式不同,因此不同区域记载的文字内容也不同,通过前述的方式获取所述指定图片的类别,才能准确获取所述文字识别区域,并进行文字识别以获取准确的文字信息,从而减少了算力消耗、提高了图片的识别效率。其中,所述文字识别模式可为任意模式,但是所述文字识别模式必须指定文字识别区域。
如上述步骤S7所述,采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。由于所述文字识别区域是本申请最需要的文字信息,因此采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。其中,预设的文字识别技术可为任意技术,例如采用OCR(光学字符识别)识别,由于文字识别技术已成熟,在此不再赘述。其中,识别得到的所述文字文本可通过任意指令调用,例如根据信息核实指令等调用。
在一个实施方式中,所述支持向量机的获取方法,包括:
S301、获取不同类别的指定图片;
S302、根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
S303、将所述不同类别的指定图片中的第k类指定图片的n维向量作为正集,除第k类指定图片之外的指定图片的n维向量作为负集,从而构成第k个支持向量机的训练集;
S304、将第k个支持向量机的训练集的样本数据输入到支持向量机中进行训练,得到第k个支持向量机。
如上所述,实现了获取第k个支持向量机。本实施方式将多个不同类别的指定图片分成两组,一组为第k类指定图片(其n维向量构成训练集中的正集),另一组为除了第k类指定图片之外的指定图片(其n维向量构成训练集中的负集),从而使训练得到的支持向量机能够将不同类别的指定图片分类为第k类,或者是除了第k类之外的其他类。
在一个实施方式中,所述获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线的步骤S1,包括:
S101、获取待分类的指定图片;
S102、检测所述待分类的指定图片,确定所述待分类的指定图片中的封闭的表格框线位置;
S103、去除所述待分类的指定图片中所述表格框线之外的部分,得到仅包括表格框线的待分类的指定图片。
如上所述,实现了得到仅包括表格框线的待分类的指定图片,减少后续检测图片上表格框线交点的困难度。在所述指定图片中,不仅含有表格,还含有其他印刷字样以及边角的花纹等,在采用支持向量机对指定图片进行分类的过程中,这些其他印刷字样以及边角的花纹等并不起作用,反正会对获取向量造成干扰。因此,在本实施方式中,先确定所述待分类的指定图片中的封闭的表格框线位置,再去除所述待分类的指定图片中所述表格框线之外的部分,得到仅包括表格框线的待分类的指定图片。
在一个实施方式中,所述根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)的步骤S2,包括:
S201、将所述表格框线顺时针或者逆时针依次旋转90度3次,并在每次旋转之前以及第3次旋转之后,计算所述表格框线的第一行的第二个交点与所述表格框线的第一行的第一个交点的第一距离,从而获得4个第一距离;
S202、获取所述4个第一距离中最小的距离对应的表格框线;
S203、基于所述4个第一距离中最小的距离对应的表格框线,根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)。
如上所述,实现了先获取所述4个第一距离中最小的距离对应的表格框线,再计算归一化向量。由于指定图片可能是经过旋转的,例如旋转90、180、270度,若将经过旋转的图片与未经旋转的图片进行对比分类,必然造成分类错误。因此需要统一图片的初始旋转角度(即确定标准图片)。具体的,计算所述表格框线的第一行的第二个交点与所述表格框线的第一行的第一个交点的第一距离,再获取所述4个第一距离中最小的距离对应的表格框线,即以所述4个第一距离中最小的距离对应的表格框线为标准图片的表格框线,从而使分类更为准确。其中,所述支持向量机的训练集的训练数据,同样是以具有所述4个第一距离中最小的距离对应的表格框线的指定图片中获取的。
在一个实施方式中,所述将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果的步骤S5,包括:
S501、采用文字识别技术,获取所述待分类的指定图片中的文字信息;
S502、从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中;
S503、根据所述特定文字,利用预设的特定文字与指定图片的类别对应关系,获得所述待分类的指定图片的预估类别;
S504、若所述预估类别与所述max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果相同,则将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果。
如上所述,实现了进一步提高分类准确性。由前述,已经采用支持向量机对所述待分类的指定图片进行分类。但为了避免机器学习模型的误判,本实施方式还采用预估类别来进一步提高分类准确性。具体地,由于不同的指定图片中具有特别的文字信息,例于住宅的指定图片中有“住宅”字样、商业用地的不动产证图片中有“商业”字样,通过提取这些特定文字,即可粗略预估指定图片的类别。其中,文字识别技术可以为任意可行的方式,例如采用OCR(光学字符识别)识别,由于文字识别技术已成熟,在此不再赘述。从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中包括:判断文字信息中是否存在所述特定文字表中的特定文字,若存在,将所述特定文字提取出来。在获得预估类别后,判断由支持向量机获得的max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果是否与预估类别相同,若相同,则表明支持向量机的分类是准确的。
在一个实施方式中,所述从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中的步骤S502,包括:
S5021、判断所述文字信息中是否存在预存于特定文字表中的特定文字;
S5022、若所述文字信息中存在预存于特定文字表中的特定文字,则从所述文字信息中提取所述特定文字。
如上所述,实现了从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中。其中,预存于特定文字表中的特定文字,能够反应指定图片的类别。若所述文字信息中存在预存于特定文字表中的特定文字,表明可以依据所述特定文字预估指定图片的类别。因此通过判断所述文字信息中是否存在预存于特定文字表中的特定文字,若所述文字信息中存在预存于特定文字表中的特定文字,则从所述文字信息中提取所述特定文字,以实现获取特定文字。
在一个实施方式中,所述支持向量机采用高斯核函数,所述高斯核函数的表达式为:K(xi,xj)=exp{-|xi-xj|2/2σ2},其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。
如上所述,实现了设置核函数。核函数与支持向量机是一一对应的,确定了核函数K(xt,xj)就隐含地确定了支持向量机。核函数的使用使支持向量机获得了强有力的非线性处理能力,并且避免了在高维特征空间上的复杂计算,有效的克服了维数灾难问题。本实施方式采用高斯核函数,表达式为:
K(xt,xj)=exp{-||xt-xj||2/σ2}}
,其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。其中,高斯核函数是一种径向基函数(Radial Basis Function简称RBF),利用高斯核函数构建出支持向量机。相对于多项式内核,RBF超参数要少,相对更为简单,并且,相对于多项式内核可能从0到无限大之间,其数值计算的压力也会少很多。因此,本实施方式采用高斯核函数。
本申请的基于支持向量机的文字识别方法,通过获取待分类的指定图片,计算出指定图片的归一化向量GI,从而获得n维向量(G1,G2,…Gn),将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,将所述待分类的指定图片的类别记为max(所述多个支持向量机的输出值)的返回值对应的初步分类结果,从而实现了自动快速准确地指定图片识别,可适用拉伸和倾斜情况下的指定图片识别。
参照图2,本申请实施例提供一种基于支持向量机的文字识别装置,包括:
指定图片获取单元10,用于获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;
n维向量获取单元20,用于根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
支持向量机运算单元30,用于将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类;
初步分类结果获取单元40,用于获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值;
类别标记单元50,用于将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果;
文字识别模式获取单元60,用于根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;
文字文本识别单元70,用于采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。
如上述单元10所述,获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线,包括不动产证图片。待分类的指定图片例如不动产证图片,由于不动产证例如房产证,具有多个种类,例如商业、住宅、商住等,根据不同地域、不同时期、不同用途可分为多个种类,若完全由人工分类,繁琐且易出错。因此本申请采用机器学习的支持向量机实现自动分类。其中,获取的待分类的指定图片具有封闭的表格框线。
如上述单元20所述,根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)。由于不同类别的指定图片采用的表格不同,因此表格框线也不同,表格框线的交点也不同,因此根据表格框线的交点可对指定图片进行分类。其中,所述表格框线的左上角的交点为原点,根据公式
计算出指定图片的归一化向量Gi,相交于直接以指定图片的所述原点至所述表格框线中第i个交点的向量gi,可以避免在图片拉伸和倾斜的情况下的错误分类。
如上述单元30所述,将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类。支持向量机(Support Vector Machine,SVM)是机器学习中的一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。即支持向量机将样本映射至高维空间里,并寻找到一个超平面,使所述超平面的两边各为一个类别,从而实现二分类。其中,寻找超平面的过程通过核函数来实现。常用的核函数包括线性核函数、多项式核函数、高斯核函数、拉普拉斯核函数等等。本申请采用任意可行的核函数,优选高斯核函数。高斯核函数的数学表达式为:K(xt,xj)=exp{-||xt-xj||2/σ2}},其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。本申请为了实现利用二分类的支持向量机对多种类样本的分类,采用了将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类的方式。从而由第k个持向量机能够输出第k个分类结果以及相应的输出值,其中所述输出值实质上就是所述不动产证的特征向量组成的样本映射至高维空间的一个点至超平面的距离,其中超平面在所述高维空间中将所述房产证分类为正类与负类,所述点在正类中时,距离值为正值,所述点在负类中时,距离值为负值,其中正类对应于第k类,负类对应于除了第k类之外的其他类。据此,可以得到所述待分类的指定图片的多个分类结果(与多个支持向量机的个数相同)及相应的输出值(即反应分类结果准确性的值)。
如上述单元40所述,获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值。由前述,可知将所述n维向量(G1,G2,…Gn)输入多个支持向量机后,将获得所述待分类的指定图片的多个分类结果(与多个支持向量机的个数相同)及相应的输出值(即反应分类结果准确性的值)。其中,所述输出值实质上就是所述不动产证的特征向量组成的样本映射至高维空间的一个点至超平面的距离。
如上述单元50所述,将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果。其中,max(所述多个初步分类结果对应的输出值)的返回值为所述多个初步分类结果对应的输出值中最大的值,所述最大的值表示其分类结果最为准确,因此应将max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果作为待分类的指定图片的分类结果。
如上述单元60所述,根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域。其中,所述文字识别区域中整个指定图片中的一部分,文字识别区域的面积小于指定图片的总面积,从而仅识别出较小区域的文字内容即可(即识别出需要的区域的文字内容,例如仅识别出户主、发证机构、住宅类型等区域的信息即可),从而减少了算力消耗、提高了图片的识别效率。其中,由于不同类别的指定图片的格式不同,因此不同区域记载的文字内容也不同,通过前述的方式获取所述指定图片的类别,才能准确获取所述文字识别区域,并进行文字识别以获取准确的文字信息,从而减少了算力消耗、提高了图片的识别效率。其中,所述文字识别模式可为任意模式,但是所述文字识别模式必须指定文字识别区域。
如上述单元70所述,采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。由于所述文字识别区域是本申请最需要的文字信息,因此采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。其中,预设的文字识别技术可为任意技术,例如采用OCR(光学字符识别)识别,由于文字识别技术已成熟,在此不再赘述。其中,识别得到的所述文字文本可通过任意指令调用,例如根据信息核实指令等调用。
在一个实施方式中,所述装置包括支持向量机获取单元,所述支持向量机获取单元,包括:
指定图片获取子单元,用于获取不同类别的指定图片;
归一化向量Gi获取子单元,用于根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
训练集获取子单元,用于将所述不同类别的指定图片中的第k类指定图片的n维向量作为正集,除第k类指定图片之外的指定图片的n维向量作为负集,从而构成第k个支持向量机的训练集;
训练子单元,用于将第k个支持向量机的训练集的样本数据输入到支持向量机中进行训练,得到第k个支持向量机。
如上所述,实现了获取第k个支持向量机。本实施方式将多个不同类别的指定图片分成两组,一组为第k类指定图片(其n维向量构成训练集中的正集),另一组为除了第k类指定图片之外的指定图片(其n维向量构成训练集中的负集),从而使训练得到的支持向量机能够将不同类别的指定图片分类为第k类,或者是除了第k类之外的其他类。
在一个实施方式中,所述指定图片获取单元10包括:
待分类的指定图片获取子单元,用于获取待分类的指定图片;
表格框线位置确定子单元,用于检测所述待分类的指定图片,确定所述待分类的指定图片中的封闭的表格框线位置;
去除子单元,用于去除所述待分类的指定图片中所述表格框线之外的部分,得到仅包括表格框线的待分类的指定图片。
如上所述,实现了得到仅包括表格框线的待分类的指定图片,减少后续检测图片上表格框线交点的困难度。在所述指定图片中,不仅含有表格,还含有其他印刷字样以及边角的花纹等,在采用支持向量机对指定图片进行分类的过程中,这些其他印刷字样以及边角的花纹等并不起作用,反正会对获取向量造成干扰。因此,在本实施方式中,先确定所述待分类的指定图片中的封闭的表格框线位置,再去除所述待分类的指定图片中所述表格框线之外的部分,得到仅包括表格框线的待分类的指定图片。
在一个实施方式中,所述n维向量获取单元20,包括:
旋转子单元,用于将所述表格框线顺时针或者逆时针依次旋转90度3次,并在每次旋转之前以及第3次旋转之后,计算所述表格框线的第一行的第二个交点与所述表格框线的第一行的第一个交点的第一距离,从而获得4个第一距离;
表格框线获取子单元,用于获取所述4个第一距离中最小的距离对应的表格框线;
n维向量获取子单元,用于基于所述4个第一距离中最小的距离对应的表格框线,根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)。
如上所述,实现了先获取所述4个第一距离中最小的距离对应的表格框线,再计算归一化向量。由于指定图片可能是经过旋转的,例如旋转90、180、270度,若将经过旋转的图片与未经旋转的图片进行对比分类,必然造成分类错误。因此需要统一图片的初始旋转角度(即确定标准图片)。具体的,计算所述表格框线的第一行的第二个交点与所述表格框线的第一行的第一个交点的第一距离,再获取所述4个第一距离中最小的距离对应的表格框线,即以所述4个第一距离中最小的距离对应的表格框线为标准图片的表格框线,从而使分类更为准确。其中,所述支持向量机的训练集的训练数据,同样是以具有所述4个第一距离中最小的距离对应的表格框线的指定图片中获取的。
在一个实施方式中,所述类别标记单元50,包括:
文字识别子单元,用于采用文字识别技术,获取所述待分类的指定图片中的文字信息;
提取特定文字子单元,用于从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中;
预估类别子单元,用于根据所述特定文字,利用预设的特定文字与指定图片的类别对应关系,获得所述待分类的指定图片的预估类别;
类别标记子单元,用于若所述预估类别与所述max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果相同,则将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果。
如上所述,实现了进一步提高分类准确性。由前述,已经采用支持向量机对所述待分类的指定图片进行分类。但为了避免机器学习模型的误判,本实施方式还采用预估类别来进一步提高分类准确性。具体地,由于不同的指定图片中具有特别的文字信息,例于住宅的指定图片中有“住宅”字样、商业用地的不动产证图片中有“商业”字样,通过提取这些特定文字,即可粗略预估指定图片的类别。其中,文字识别技术可以为任意可行的方式,例如采用OCR(光学字符识别)识别,由于文字识别技术已成熟,在此不再赘述。从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中包括:判断文字信息中是否存在所述特定文字表中的特定文字,若存在,将所述特定文字提取出来。在获得预估类别后,判断由支持向量机获得的max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果是否与预估类别相同,若相同,则表明支持向量机的分类是准确的。
在一个实施方式中,所述提取特定文字子单元,包括:
特定文字判断模块,用于判断所述文字信息中是否存在预存于特定文字表中的特定文字;
提取特定文字模块,用于若所述文字信息中存在预存于特定文字表中的特定文字,则从所述文字信息中提取所述特定文字。
如上所述,实现了从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中。其中,预存于特定文字表中的特定文字,能够反应指定图片的类别。若所述文字信息中存在预存于特定文字表中的特定文字,表明可以依据所述特定文字预估指定图片的类别。因此通过判断所述文字信息中是否存在预存于特定文字表中的特定文字,若所述文字信息中存在预存于特定文字表中的特定文字,则从所述文字信息中提取所述特定文字,以实现获取特定文字。
在一个实施方式中,所述支持向量机获取单元包括:
核函数设置子单元,用于设置所述支持向量机的核函数为高斯核函数,所述高斯核函数的表达式为:K(xi,xj)=exp{-|xi-xj|2/2σ2},其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。
如上所述,实现了设置核函数。核函数与支持向量机是一一对应的,确定了核函数K(xt,xj)就隐含地确定了支持向量机。核函数的使用使支持向量机获得了强有力的非线性处理能力,并且避免了在高维特征空间上的复杂计算,有效的克服了维数灾难问题。本实施方式采用高斯核函数,表达式为:
K(xt,xj)=exp{-||xt-xj||2/σ2}}
,其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。其中,高斯核函数是一种径向基函数(Radial Basis Function简称RBF),利用高斯核函数构建出支持向量机。相对于多项式内核,RBF超参数要少,相对更为简单,并且,相对于多项式内核可能从0到无限大之间,其数值计算的压力也会少很多。因此,本实施方式采用高斯核函数。
本申请的基于支持向量机的文字识别装置,通过获取待分类的指定图片,计算出指定图片的归一化向量GI,从而获得n维向量(G1,G2,…Gn),将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,将所述待分类的指定图片的类别记为max(所述多个支持向量机的输出值)的返回值对应的初步分类结果,从而实现了自动快速准确地指定图片识别,可适用拉伸和倾斜情况下的指定图片识别。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于支持向量机的文字识别方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于支持向量机的文字识别方法。
上述处理器执行上述基于支持向量机的文字识别方法,包括以下步骤:获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类;获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值;将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果;根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。
在一个实施方式中,所述支持向量机的获取方法,包括:获取不同类别的指定图片;根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);将所述不同类别的指定图片中的第k类指定图片的n维向量作为正集,除第k类指定图片之外的指定图片的n维向量作为负集,从而构成第k个支持向量机的训练集;将第k个支持向量机的训练集的样本数据输入到支持向量机中进行训练,得到第k个支持向量机。
在一个实施方式中,所述获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线的步骤,包括:获取待分类的指定图片;检测所述待分类的指定图片,确定所述待分类的指定图片中的封闭的表格框线位置;去除所述待分类的指定图片中所述表格框线之外的部分,得到仅包括表格框线的待分类的指定图片。
在一个实施方式中,所述根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)的步骤,包括:将所述表格框线顺时针或者逆时针依次旋转90度3次,并在每次旋转之前以及第3次旋转之后,计算所述表格框线的第一行的第二个交点与所述表格框线的第一行的第一个交点的第一距离,从而获得4个第一距离;获取所述4个第一距离中最小的距离对应的表格框线;基于所述4个第一距离中最小的距离对应的表格框线,根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)。
在一个实施方式中,所述将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果的步骤,包括:采用文字识别技术,获取所述待分类的指定图片中的文字信息;从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中;根据所述特定文字,利用预设的特定文字与指定图片的类别对应关系,获得所述待分类的指定图片的预估类别;若所述预估类别与所述max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果相同,则将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果。
在一个实施方式中,所述从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中的步骤,包括:判断所述文字信息中是否存在预存于特定文字表中的特定文字;若所述文字信息中存在预存于特定文字表中的特定文字,则从所述文字信息中提取所述特定文字。
在一个实施方式中,所述支持向量机采用高斯核函数,所述高斯核函数的表达式为:K(xi,xj)=exp{-|xi-xj|2/2σ2},其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,通过获取待分类的指定图片,计算出指定图片的归一化向量GI,从而获得n维向量(G1,G2,…Gn),将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,将所述待分类的指定图片的类别记为max(所述多个支持向量机的输出值)的返回值对应的初步分类结果,从而实现了自动快速准确地指定图片识别,可适用拉伸和倾斜情况下的指定图片识别。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于支持向量机的文字识别方法,包括以下步骤:获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类;获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值;将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果;根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。
在一个实施方式中,所述支持向量机的获取方法,包括:获取不同类别的指定图片;根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);将所述不同类别的指定图片中的第k类指定图片的n维向量作为正集,除第k类指定图片之外的指定图片的n维向量作为负集,从而构成第k个支持向量机的训练集;将第k个支持向量机的训练集的样本数据输入到支持向量机中进行训练,得到第k个支持向量机。
在一个实施方式中,所述获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线的步骤,包括:获取待分类的指定图片;检测所述待分类的指定图片,确定所述待分类的指定图片中的封闭的表格框线位置;去除所述待分类的指定图片中所述表格框线之外的部分,得到仅包括表格框线的待分类的指定图片。
在一个实施方式中,所述根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)的步骤,包括:将所述表格框线顺时针或者逆时针依次旋转90度3次,并在每次旋转之前以及第3次旋转之后,计算所述表格框线的第一行的第二个交点与所述表格框线的第一行的第一个交点的第一距离,从而获得4个第一距离;获取所述4个第一距离中最小的距离对应的表格框线;基于所述4个第一距离中最小的距离对应的表格框线,根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)。
在一个实施方式中,所述将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果的步骤,包括:采用文字识别技术,获取所述待分类的指定图片中的文字信息;从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中;根据所述特定文字,利用预设的特定文字与指定图片的类别对应关系,获得所述待分类的指定图片的预估类别;若所述预估类别与所述max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果相同,则将所述待分类的指定图片的类别记为max(所述多个初步分类结果对应的输出值)的返回值对应的初步分类结果。
在一个实施方式中,所述从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中的步骤,包括:判断所述文字信息中是否存在预存于特定文字表中的特定文字;若所述文字信息中存在预存于特定文字表中的特定文字,则从所述文字信息中提取所述特定文字。
在一个实施方式中,所述支持向量机采用高斯核函数,所述高斯核函数的表达式为:K(xi,xj)=exp{-|xi-xj|2/2σ2},其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。
本申请的计算机可读存储介质,通过获取待分类的指定图片,计算出指定图片的归一化向量GI,从而获得n维向量(G1,G2,…Gn),将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,将所述待分类的指定图片的类别记为max(所述多个支持向量机的输出值)的返回值对应的初步分类结果,从而实现了自动快速准确地指定图片识别,可适用拉伸和倾斜情况下的指定图片识别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于支持向量机的文字识别方法,其特征在于,包括:
获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;
根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类;
获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值;求取所述多个初步分类结果对应的输出值的最大值;
将所述待分类的指定图片的类别记为所述最大值的返回值对应的初步分类结果;
根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;
采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。
2.根据权利要求1所述的基于支持向量机的文字识别方法,其特征在于,所述支持向量机的获取方法,包括:
获取不同类别的指定图片;
根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
将所述不同类别的指定图片中的第k类指定图片的n维向量作为正集,除第k类指定图片之外的指定图片的n维向量作为负集,从而构成第k个支持向量机的训练集;
将第k个支持向量机的训练集的样本数据输入到支持向量机中进行训练,得到第k个支持向量机。
3.根据权利要求1所述的基于支持向量机的文字识别方法,其特征在于,所述获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线的步骤,包括:
获取待分类的指定图片;
检测所述待分类的指定图片,确定所述待分类的指定图片中的封闭的表格框线位置;
去除所述待分类的指定图片中所述表格框线之外的部分,得到仅包括表格框线的待分类的指定图片。
4.根据权利要求1所述的基于支持向量机的文字识别方法,其特征在于,所述根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)的步骤,包括:
将所述表格框线顺时针或者逆时针依次旋转90度3次,并在每次旋转之前以及第3次旋转之后,计算所述表格框线的第一行的第二个交点与所述表格框线的第一行的第一个交点的第一距离,从而获得4个第一距离;
获取所述4个第一距离中最小的距离对应的表格框线;
基于所述4个第一距离中最小的距离对应的表格框线,根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn)。
5.根据权利要求1所述的基于支持向量机的文字识别方法,其特征在于,所述将所述待分类的指定图片的类别记为所述最大值的返回值对应的初步分类结果的步骤,包括:
采用文字识别技术,获取所述待分类的指定图片中的文字信息;
从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中;
根据所述特定文字,利用预设的特定文字与指定图片的类别对应关系,获得所述待分类的指定图片的预估类别;
若所述预估类别与所述最大值的返回值对应的初步分类结果相同,则将所述待分类的指定图片的类别记为所述最大值的返回值对应的初步分类结果。
6.根据权利要求5所述的基于支持向量机的文字识别方法,其特征在于,所述从所述文字信息中提取特定文字,所述特定文字预存于特定文字表中的步骤,包括:
判断所述文字信息中是否存在预存于特定文字表中的特定文字;
若所述文字信息中存在预存于特定文字表中的特定文字,则从所述文字信息中提取所述特定文字。
7.根据权利要求2所述的基于支持向量机的文字识别方法,其特征在于,所述支持向量机采用高斯核函数,所述高斯核函数的表达式为:,其中,xi是n维向量(G1,G2,…Gn),xj为核函数中心,σ为函数的宽度参数。
8.一种基于支持向量机的文字识别装置,其特征在于,包括:
指定图片获取单元,用于获取待分类的指定图片,所述待分类的指定图片具有封闭的表格框线;
n维向量获取单元,用于根据公式:
计算出指定图片的归一化向量Gi,其中,所述表格框线的左上角的交点为原点g0,gi是所述原点至所述表格框线中第i个交点的向量,i为大于等于1且小于等于n的整数,所述表格框线具有n+1个交点,从而获得n维向量(G1,G2,…Gn);
支持向量机运算单元,用于将所述n维向量(G1,G2,…Gn)输入预设的已训练完成的多个支持向量机中进行运算,其中第k个支持向量机能够将指定图片分类为第k类与除了第k类之外的其他类;
初步分类结果获取单元,用于获取多个支持向量机分别输出的多个初步分类结果以及与所述多个初步分类结果对应的输出值;求取所述多个初步分类结果对应的输出值的最大值;
类别标记单元,用于将所述待分类的指定图片的类别记为所述最大值的返回值对应的初步分类结果;
文字识别模式获取单元,用于根据所述指定图片的类别,利用预设的类别与文字识别模式的对应关系,获取与所述指定图片对应的文字识别模式,其中所述文字识别模式指定了文字识别区域;
文字文本识别单元,用于采用预设的文字识别技术,将所述文字识别区域识别为文字文本,并存储所述文字文本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100425.2A CN109902724B (zh) | 2019-01-31 | 2019-01-31 | 基于支持向量机的文字识别方法、装置和计算机设备 |
PCT/CN2019/089057 WO2020155484A1 (zh) | 2019-01-31 | 2019-05-29 | 基于支持向量机的文字识别方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100425.2A CN109902724B (zh) | 2019-01-31 | 2019-01-31 | 基于支持向量机的文字识别方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902724A CN109902724A (zh) | 2019-06-18 |
CN109902724B true CN109902724B (zh) | 2023-09-01 |
Family
ID=66944661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910100425.2A Active CN109902724B (zh) | 2019-01-31 | 2019-01-31 | 基于支持向量机的文字识别方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109902724B (zh) |
WO (1) | WO2020155484A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611990B (zh) * | 2020-05-22 | 2023-10-31 | 北京百度网讯科技有限公司 | 用于识别图像中表格的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982343A (zh) * | 2012-11-12 | 2013-03-20 | 信阳师范学院 | 手写数字识别的增量式模糊支持向量机方法 |
CN107688829A (zh) * | 2017-08-29 | 2018-02-13 | 湖南财政经济学院 | 一种基于支持向量机的识别系统及识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517112B (zh) * | 2013-09-29 | 2017-11-28 | 北大方正集团有限公司 | 一种表格识别方法与系统 |
CN105320961A (zh) * | 2015-10-16 | 2016-02-10 | 重庆邮电大学 | 基于卷积神经网络和支持向量机的手写数字识别方法 |
CN107239786B (zh) * | 2016-03-29 | 2022-01-11 | 阿里巴巴集团控股有限公司 | 一种字符识别方法和装置 |
-
2019
- 2019-01-31 CN CN201910100425.2A patent/CN109902724B/zh active Active
- 2019-05-29 WO PCT/CN2019/089057 patent/WO2020155484A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982343A (zh) * | 2012-11-12 | 2013-03-20 | 信阳师范学院 | 手写数字识别的增量式模糊支持向量机方法 |
CN107688829A (zh) * | 2017-08-29 | 2018-02-13 | 湖南财政经济学院 | 一种基于支持向量机的识别系统及识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109902724A (zh) | 2019-06-18 |
WO2020155484A1 (zh) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN110443239B (zh) | 文字图像的识别方法及其装置 | |
CN110689010B (zh) | 一种证件识别方法及装置 | |
WO2019128646A1 (zh) | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 | |
CN110490180B (zh) | 基于图像识别的作业批改方法、装置、存储介质及服务器 | |
CN110619274A (zh) | 基于印章和签名的身份验证方法、装置和计算机设备 | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
CN110222780B (zh) | 物体检测方法、装置、设备和存储介质 | |
CN109840524B (zh) | 文字的类型识别方法、装置、设备及存储介质 | |
WO2021232670A1 (zh) | 一种pcb元件识别方法及装置 | |
CN112396047B (zh) | 训练样本生成方法、装置、计算机设备和存储介质 | |
CN113128536A (zh) | 无监督学习方法、系统、计算机设备及可读存储介质 | |
CN112001406A (zh) | 一种文本区域检测方法及装置 | |
WO2022126917A1 (zh) | 基于深度学习的人脸图像评估方法、装置、设备及介质 | |
US11893773B2 (en) | Finger vein comparison method, computer equipment, and storage medium | |
CN111552837A (zh) | 基于深度学习的动物视频标签自动生成方法、终端及介质 | |
CN111985469A (zh) | 一种图像中文字的识别方法、装置及电子设备 | |
CN113837151A (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN111476279B (zh) | 基于相似程度值的识别方法、装置和计算机设备 | |
CN109902724B (zh) | 基于支持向量机的文字识别方法、装置和计算机设备 | |
CN117115823A (zh) | 一种篡改识别方法、装置、计算机设备和存储介质 | |
CN113012189A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN112396057B (zh) | 一种字符识别方法、装置及电子设备 | |
CN109726722B (zh) | 一种字符分割方法及装置 | |
CN114220103B (zh) | 图像识别方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |