CN103488983A - 一种基于知识库的名片ocr数据修正方法和系统 - Google Patents
一种基于知识库的名片ocr数据修正方法和系统 Download PDFInfo
- Publication number
- CN103488983A CN103488983A CN201310419348.XA CN201310419348A CN103488983A CN 103488983 A CN103488983 A CN 103488983A CN 201310419348 A CN201310419348 A CN 201310419348A CN 103488983 A CN103488983 A CN 103488983A
- Authority
- CN
- China
- Prior art keywords
- ocr
- result
- knowledge base
- correction
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 52
- 230000008520 organization Effects 0.000 claims abstract description 42
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000010008 shearing Methods 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 7
- 229910052704 radon Inorganic materials 0.000 claims description 7
- SYUHGPGVQRZVTB-UHFFFAOYSA-N radon atom Chemical compound [Rn] SYUHGPGVQRZVTB-UHFFFAOYSA-N 0.000 claims description 7
- 238000004836 empirical method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000003628 erosive effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 238000005553 drilling Methods 0.000 claims description 2
- 238000002715 modification method Methods 0.000 claims description 2
- 230000000877 morphologic effect Effects 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000012015 optical character recognition Methods 0.000 description 51
- 230000002411 adverse Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明属于名片识别技术领域,具体涉及一种基于知识库的名片OCR数据修正方法和系统。本发明的系统包括图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块。本发明首先对输入名片图像进行包括倾斜校正、剪切、缩放在内的一系列图像处理,然后使用数字形态学处理技术、连通区分析技术从中提取出独立的字符串块作为子图像送入后续的OCR模块;接着,在对OCR的输出结果进行了信息结构化处理后,利用知识库的海量信息,以及文本+图像的两级修正方法、基于知识库IDF值加权的改进DTW方法等,实现对包括地址、单位机构名称以及纯数字在内的信息修正,从而在OCR的基础上,进一步提升识别准确率。
Description
技术领域
本发明属于名片识别技术领域,具体涉及一种名片OCR数据修正方法和系统。
背景技术
随着图像扫描、计算机图像处理、图像识别等技术的发展,OCR(optical character recognition,光学字符识别)技术已经渐趋成熟并为人们工作效率的提高、生活质量的改善做出了贡献。近年来,随着智能手机技术、嵌入式等新兴技术的飞速发展,应用于智能手机平台的各种嵌入式技术也开始涌现,其中名片识别技术正是其中的一支,用户只需用手机自带的摄像头拍摄下名片的照片并储存,并用相应的OCR软件对照片进行OCR识别,然后将识别出的文本信息进行储存,这样就免去了人们随身携带名片盒的不方便或是手工在笔记本上记录名片信息的繁琐过程。
但是,目前的OCR技术本身受到许多不利环境因素的影响,如光线不足、图像噪声、低像素摄像头、视角偏差等,从而导致最终的识别率偏低。而OCR纠错基本上是从图像本身出发,目的是设法减弱或消除不利环境的影响,这种仅依赖图像信息的方法纠错效果是有限的。
发明内容
本发明的目的在于提供一种能够对识别结果进行修正,从而提升识别率的名片OCR数据修正方法和系统。
本发明提供的名片OCR数据修正系统,由五大模块组成:图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块,其中:
图像输入模块,利用数码相机或手机摄像头将名片照片采集进计算机或手机并储存;
预处理模块,利用图像处理技术对照片进行处理,这种处理包括:图像倾斜校正、名片区域剪切、名片尺寸标准化等,并提取出各子字块(字块中包含的字符需满足间距近似相等、字体相同、纵坐标值相近等要求),为后续的OCR模块提供干净的输入,以减少识别中可能产生的乱码;
OCR模块,将图像信息转化为文本信息;
数据修正模块,对OCR识别结果中的错误进行修正,以进一步提高识别准确率。
结果输出模块,将修正后的结果进行输出,提交给用户。
预处理模块包含以下五个子模块:
(1)倾斜校正子模块,该子模块依次进行如下工作:
(a)图像灰度化;
(b)边缘检测(各种边缘检测方法均可如CANNY、SOBEL、PREWITT、ROBERT、LAPLACIAN等,优选地,采用CANNY算法);
(c)基于Hough变换进行直线检测;
(d)进行Radon变换并计算每个方向的投影区域,寻找投影区域宽度最小时的角度即为倾斜方向,然后按此角度进行旋转校正。
(2)图像剪切子模块,该子模块依次进行如下工作:
(a)对倾斜校正后的灰度图像进行二值化处理,其中,阈值确定方法可以是经验法、最大熵法、OTSU法等各种阈值确定方法,优选地,采用OTSU法;
(b)基于水平投影、垂直投影确定名片的区域,其中,阈值确定采用经验法,并按确定的区域将名片部分从背景中剪切出来。
(3)图像缩放子模块,该子模块依次进行如下工作:
对剪切出的名片区域,按初始设定尺寸进行比例缩放,在缩放时可采用各种插值方法如近邻法、双线性法、双三次插值法等,优选地,采用双线性法。
(4)形态学处理子模块,该子模块依次进行如下工作:
对经上步操作后的二值化结果图,进行包括图像膨胀、图像腐蚀、开运算、闭运算、连通区分析、噪声去除、异常区域去除等在内的一系列数学形态学操作,以保留真正的字符区域。
(5)字块提取模块,该子模块依次进行如下工作:
对保留下真正字符后的二值化结果图,进行连通区分析,并对每个连通区进行水平膨胀处理,然后再次进行连通区域分析,进而求出新连通区的外接矩形,最后根据外接矩形将字块区域作为子图像提取出来。
数据修正模块包括以下两个子模块:
(1)信息结构化模块,该子模块依次进行如下工作:
(a)对OCR结果,首先从每条信息中寻找属性名称,具体是寻找分隔符号前面的字符串;
(b)如果找到了,则进行属性名修正,与预先枚举定义的属性名称进行相似度比较,这里的相似度可采用多种相似度如Jaccard系数、编辑距离等,优选地,采用Jaccard系数,并从枚举库中取出相似度最高的进行替换;
(c)如果没有找到,则进行自动属性标注,具体是根据OCR文本中的特殊字符进行自动属性标注,如电子邮件中的“”,网址中的“http://”等。
(2)信息修正模块,该子模块依次进行如下工作:
(a)地址修正,按如下步骤进行:
(a1)从信息结构化后的结果中取出地址信息,按省、市、县等进行行政区域级别分割,并对知识库中的地址记录进行同样的行政区域级别分割处理(一次性操作);
(a2)对分割处理后的OCR结果和知识库结果进行比对,具体比对方法可采用各种动态规划方法,优选地,采用DTW(Dynamic Time Warping)方法,在相似度计算方法上,可采用多种相似度如Jaccard系数、编辑距离等,优选地,采用Jaccard系数;
(a3)文本+图像的两级级联修正:
(a31)对相似度从高到低进行排序,并保留相似度最高的作为匹配结果来对OCR地址进行修正;
(a32)当匹配结果多于一个时,再进行基于图像匹配的相似度比较,并取相似度最高的作为最终匹配结果来进行修正,在这里,各种图像比对方法均可使用,优选地,可首先采用Radon变换,然后对变换后的结果进行相似度计算,各种相似度计算方法均可使用,优选地,采用Cosine相似度。
(b) 单位机构名称修正,按如下步骤进行:
(b1)根据修正的地址,从知识库中查询出对应的候选单位机构名称,并且取出OCR结果中的单位机构名称;
(b2)对知识库中查询出的单位机构名称、OCR结果中的单位机构名称分别进行中文分词处理;
(b3)对分词后的各部分,分别赋以相应的权值,权值可来自于各大中文知识库的统计结果,如中文维基百科、百度百科、互动百科等知识库,优选地,采用中文维基百科知识库,具体是基于整个库中每篇文章的中文分词结果统计出的IDF值作为权值的来源;
(b4)对分词处理后的OCR单位机构名称和知识库中候选单位机构名称进行比对,具体比对方法可采用各种动态规划方法,优选地,采用本专利提出的加权DTW(Dynamic Time Warping)方法,以适应名称中各部分对最终相似度的不同贡献,在相似度计算方法上,可采用多种相似度测度如Jaccard系数、编辑距离等,优选地,采用Jaccard系数,DTW路径上的权值公式如下:
公式中,idf(Inverse Document Frequency)是逆向文档频率,某一特定词语的idf,可由总文档数目除以包含该词语之文档的数目,再将得到的商取对数得到,x和y是DTW路径上的待比较分段文本,i和j是x和y的特例,N是路径上节点数目。
(b5)在单位机构名称修正上,有两种方式可供选择:
(b51)在知识库足够充分的前提下,采取方式1,保留相似度最高的作为匹配结果并进行单位修正;
(b52)在知识库不够充分时,采取方式2,按如下步骤进行:
(b521)当相似度为1时,说明OCR结果正确,无需修正;
(b522)当相似度小于1但大于阈值时,无需修正,但可用知识库候选结果中相似度最高的对OCR结果进行信息的自动补充,这里阈值的确定可采用经验法;
(b523)当相似度小于阈值时,不作自动修正,但可人工介入修正。
(c)纯数字信息的修正
对于信息结构化后的电话、邮编、传真、手机等信息,如果发现非数字信息,则进行数字化修正,具体是将字符的点阵结构转化为二值图像,然后使用基于图像比对的方法进行匹配,最后用相似度最高的数字进行修正替换;这里,各种图像比对方法均可使用,优选地,可首先采用Radon变换,然后对变换后的结果进行相似度计算,各种相似度计算方法均可使用,优选地,采用Cosine相似度。
基于上述的系统,本发明基于知识库的名片OCR数据修正方法,具体步骤如下:
(1)对输入名片图像进行包括倾斜校正、剪切、缩放在内的一系列图像处理,然后使用多种数字形态学处理技术、连通区分析技术从中提取出独立的字符串块作为子图像,再分别进行OCR识别,目的是为OCR提供“干净”的输入;
(2)对OCR识别结果进行信息结构化处理;
(3)利用知识库,使用文本+图像的两级级联修正方法对地址信息进行修正;
(4)利用知识库,使用基于知识库IDF值加权的改进DTW(Dynamic Time Warping)方法,实现了对单位机构名称的信息修正。
本发明中,步骤(2)中所述对OCR识别结果进行信息结构化处理的具体步骤如下:
(a)对每个字符串子图像的OCR结果,从中通过截取分隔符号前子字符串的方式寻找信息的属性名;
(b)如果属性名存在,则通过与预先枚举定义的属性名称进行相似度比较、再从枚举库中取出相似度最高的枚举名进行替换的方法进行针对属性名的自动修正;
(c)如果属性名不存在,则根据OCR文本中的特殊字符进行自动属性标注。
本发明中,步骤(3)中所述对地址信息进行修正的具体步骤如下:
(a)从信息结构化后的结果中取出地址信息后按行政区域级别进行分割,并对知识库中的地址记录进行同样的处理(仅需预先进行一次性处理);
(b)采用DTW方法,对分割处理后的OCR结果和知识库结果进行比对;
(c)将相似度结果按从高到低进行排序,然后保留相似度最高的作为匹配结果实现对OCR地址的修正;
(d)当匹配结果多于一个时,再进一步地进行基于图像匹配的相似度比较,并取相似度最高的作为最终匹配结果来进行修正。
本发明中,步骤(4)中所述对单位机构名称的信息修正的具体步骤如下:
(a)根据修正的地址从知识库中查询出对应的候选单位机构名称,同时也取出OCR结果中的单位机构名称;
(b)对知识库中查询出的单位机构名称、OCR结果中的单位机构名称分别进行中文分词处理;
(c)对分词后的各部分分别赋以相应的权值,权值可来自于各大中文知识库的统计结果,具体是以基于整个知识库中每篇文章的中文分词结果统计出的IDF值作为权值的来源;
(d)对分词处理后的OCR单位机构名称和知识库中候选单位机构名称进行比对,具体是采用加权DTW(Dynamic Time Warping)方法,以适应名称里各部分对最终相似度的不同贡献,DTW路径上的权值公式如下:
公式中,idf(Inverse Document Frequency)是逆向文档频率,某一特定词语的idf,可由总文档数目除以包含该词语之文档的数目,再将得到的商取对数得到,x和y是DTW路径上的待比较分段文本,i和j是x和y的特例,N是路径上节点数目。
本发明的有益效果
本发明与通常的OCR修正技术不同,本发明利用除图像本身以外的信息进行信息修正,尤其是基于中文知识库的海量信息进行修正。本发明在OCR识别的基础上,可进一步提高识别准确率。
附图说明
图1:系统模块图。
图2:原始输入图像。
图3:倾斜校正模块输出结果。
图4:图像剪切模块及图像缩放模块输出结果。
图5:形态学处理模块输出结果。
图6:字块提取模块输出结果。
图7:OCR结果。
图8:信息结构化结果。
图9:信息修正结果。
具体实施方式
以一张名片为例,进一步描述本发明。依次使用系统各模块进行处理,具体如下:
(1)图像输入模块
输入采集的名片图像,有一定的倾斜,见图2。
(2)倾斜校正子模块:
在对图像进行了灰度化处理、CANNY边缘检测后,基于Hough变换进行直线检测,再对直线检测结果进行Radon变换,并计算每个方向的投影区域,寻找投影区域宽度最小时的角度即为倾斜方向,然后按此角度对原始输入名片进行旋转校正。
倾斜校正结果见图3。从本例中可见,输入的倾斜名片被校正为水平。
(3)图像剪切子模块:
对倾斜校正后的灰度图像进行二值化处理,其中,阈值确定方法采用OTSU法;再基于水平投影、垂直投影确定名片的区域,其中,阈值确定采用经验法,然后将名片区域剪切出来。
(4)图像缩放子模块:
对剪切出的名片区域,按初始设定尺寸进行比例缩放,在缩放时采用双线性法作为插值方法。
图像剪切、图像缩放处理后的结果见图4。从本例中可见,真正的名片区域被保留下来。
(5)形态学处理子模块:
对二值化结果图,进行数学形态学处理,以保留真正的字符区域;所述数学形态学处理包括图像膨胀、图像腐蚀、开运算、闭运算、连通区分析、噪声去除、异常区域去除。
形态学处理子模块处理后的结果见图5。从本例中可见,在保留了真正字符的同时,也去除了图案、长线条等非字符“噪声”。
(6)字块提取子模块:
对保留下真正字符后的二值化结果图,进行连通区分析,并对每个连通区进行水平膨胀处理,然后再次进行连通区域分析,进而求出新连通区的外接矩形,最后根据外接矩形将字块区域作为子图像提取出来。
字块提取子模块处理后的结果见图6。
(7)OCR模块:
通过该模块的识别处理,从经此前步骤预处理后的图像中识别出文本信息。
OCR模块处理后的结果见图7。
(8)信息结构化模块:
对OCR结果,首先从每条信息中寻找属性名称,具体是寻找分隔符号前面的字符串;如果找到了,则进行属性名修正,与预先枚举定义的属性名称进行相似度比较;如果没有找到,则进行自动属性标注,具体是根据OCR文本中的特殊字符进行自动属性标注。
信息结构化模块处理后的结果见图8。从本例中可见,原先OCR结果中的错误的“E-maí l”已经被正确修正为“e-mail”。
(9)信息修正模块,该子模块依次进行如下工作:
(a)地址修正:
(a1)从信息结构化后的结果中取出地址信息,按省、市、县等进行行政区域级别分割,并对知识库中的地址记录进行同样的行政区域级别分割处理(一次性操作);
(a2)采用DTW(Dynamic Time Warping)方法对分割处理后的OCR结果和知识库结果进行比对,在相似度计算方法上,采用Jaccard系数;
(a3)文本+图像的两级级联修正:
对相似度从高到低进行排序,并保留相似度最高的作为匹配结果来对OCR地址进行修正;当匹配结果多于一个时,再进行基于图像匹配的相似度比较,并取相似度最高的作为最终匹配结果来进行修正,具体地,首先采用Radon变换,然后对变换后的结果进行相似度计算,这里采用Cosine相似度。
(b) 单位机构名称修正,按如下步骤进行:
(b1)根据修正的地址,从知识库中查询出对应的候选单位机构名称,并且取出OCR结果中的单位机构名称;
(b2)对知识库中查询出的单位机构名称、OCR结果中的单位机构名称分别进行中文分词处理;
(b3)对分词后的各部分,分别赋以相应的权值,这里采用中文维基百科知识库来计算权值,具体是基于整个库中每篇文章的中文分词结果统计出的IDF值作为权值的来源;
(b4)对分词处理后的OCR单位机构名称和知识库中候选单位机构名称进行比对,具体采用本专利提出的加权DTW(Dynamic Time Warping)方法,以适应名称中各部分对最终相似度的不同贡献,在相似度计算方法上采用Jaccard系数。
(b5)在单位机构名称修正上,采取方式2,用知识库候选结果中相似度最高的对OCR结果进行信息补充。
(c)纯数字信息的修正
对于信息结构化后的电话、邮编、传真、手机等信息,如果发现非数字信息,则进行数字化修正,具体是将字符的点阵结构转化为二值图像,然后使用基于图像比对的方法进行匹配,最后用相似度最高的数字进行修正替换。具体地,首先采用Radon变换,然后对变换后的结果进行相似度计算,这里采用Cosine相似度。
信息修正模块处理后的结果见图9。从本例中可见:
对于地址信息的修正:原先OCR结果中的地址“上海市张衡路825号…”也借助于知识库被进一步修正为更加详细、更加标准的“上海市,浦东新区,张衡路,825号…”;
对于单位机构名称修正:在原先的OCR结果中的单位信息里增加了正确的知识库信息——“复旦大学张江校区”,从而进一步补充、丰富了原始单位机构信息;
对于纯数字信息的修正:原先OCR结果中的邮编中的错误识别字符“2o12o3”已经被正确修正成了数字“201203”。
Claims (8)
1.一种基于知识库的名片OCR数据修正系统,其特征在于由五大模块组成:图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块,其中:
图像输入模块,利用数码相机或手机摄像头将名片照片采集进计算机或手机并储存;
预处理模块,利用图像处理技术对照片进行处理,这种处理包括:图像倾斜校正、名片区域剪切、名片尺寸标准化,并提取出各子字块,各子字块中包含的字符满足间距近似相等、字体相同、纵坐标值相近要求;为后续的OCR模块提供干净的输入,以减少识别中可能产生的乱码;
OCR模块,将图像信息转化为文本信息;
数据修正模块,对OCR识别结果中的错误进行修正,以进一步提高识别准确率;
结果输出模块,将修正后的结果进行输出,提交给用户。
2.根据权利要求1所述的基于知识库的名片OCR数据修正系统,其特征在于所述预处理案例模块包含以下五个子模块:
(1)倾斜校正子模块,该子模块依次进行如下工作:
(a)图像灰度化;
(b)边缘检测;
(c)基于Hough变换进行直线检测;
(d)进行Radon变换并计算每个方向的投影区域,寻找投影区域宽度最小时的角度即为倾斜方向,然后按此角度进行旋转校正;
(2)图像剪切子模块,该子模块依次进行如下工作:
(a)对倾斜校正后的灰度图像进行二值化处理;
(b)基于水平投影、垂直投影确定名片的区域;
(3)图像缩放子模块,该子模块依次进行如下工作:
对剪切出的名片区域,按初始设定尺寸进行比例缩放;
(4)形态学处理子模块,该子模块依次进行如下工作:
对经上步操作后的二值化结果图,进行数学形态学处理,以保留真正的字符区域;所述数学形态学处理包括图像膨胀、图像腐蚀、开运算、闭运算、连通区分析、噪声去除、异常区域去除;
(5)字块提取子模块,该子模块依次进行如下工作:
对保留下真正字符后的二值化结果图,进行连通区分析,并对每个连通区进行水平膨胀处理,然后再次进行连通区域分析,进而求出新连通区的外接矩形,最后根据外接矩形将字块区域作为子图像提取出来。
3.根据权利要求1所述的基于知识库的名片OCR数据修正系统,其特征在于所述的数据修正模块包括以下两个子模块:
(1)信息结构化模块,该子模块依次进行如下工作:
(a)对OCR结果,首先从每条信息中寻找属性名称,具体是寻找分隔符号前面的字符串;
(b)如果找到了,则进行属性名修正,与预先枚举定义的属性名称进行相似度比较;
(c)如果没有找到,则进行自动属性标注,具体是根据OCR文本中的特殊字符进行自动属性标注;
(2)信息修正模块,该子模块依次进行如下工作:
(a)地址修正,按如下步骤进行:
(a1)从信息结构化后的结果中取出地址信息,按省、市、县进行行政区域级别分割,并对知识库中的地址记录进行同样的行政区域级别分割处理;
(a2)对分割处理后的OCR结果和知识库结果进行比对,比对方法采用各种动态规划方法;
(a3)文本+图像的两级级联修正:
(a31)对相似度从高到低进行排序,并保留相似度最高的作为匹配结果来对OCR地址进行修正;
(a32)当匹配结果多于一个时,再进行基于图像匹配的相似度比较,并取相似度最高的作为最终匹配结果来进行修正;
(b) 单位机构名称修正,按如下步骤进行:
(b1)根据修正的地址,从知识库中查询出对应的候选单位机构名称,并且取出OCR结果中的单位机构名称;
(b2)对知识库中查询出的单位机构名称、OCR结果中的单位机构名称分别进行中文分词处理;
(b3)对分词后的各部分,分别赋以相应的权值,权值来自于各大中文知识库的统计结果;
(b4)对分词处理后的OCR单位机构名称和知识库中候选单位机构名称进行比对,比对方法可采用各种动态规划方法;
(c)纯数字信息的修正
对于信息结构化后的电话、邮编、传真、手机信息,如果发现非数字信息,则进行数字化修正,具体是将字符的点阵结构转化为二值图像,然后使用基于图像比对的方法进行匹配,最后用相似度最高的数字进行修正替换。
4.根据权利要求3所述的基于知识库的名片OCR数据修正系统,其特征在于单位机构名称修正,有两种方式可供选择:
(b51)在知识库足够充分的前提下,保留相似度最高的作为匹配结果并进行单位修正;
(b52)在知识库不够充分时,按如下步骤进行:
(b521)当相似度为1时,说明OCR结果正确,无需修正;
(b522)当相似度小于1但大于阈值时,无需修正,但可用知识库候选结果中相似度最高的对OCR结果进行信息的自动补充,这里阈值的确定可采用经验法;
(b523)当相似度小于阈值时,不作自动修正,但可人工介入修正。
5.一种基于如权利要求3所述的名片OCR数据修正系统的名片OCR数据修正方法,其特征在于具体步骤如下:
(1)对输入名片图像进行包括倾斜校正、剪切、缩放在内的一系列图像处理,然后使用数字形态学处理技术、连通区分析技术从中提取出独立的字符串块作为子图像,再分别进行OCR识别,为OCR提供“干净”的输入;
(2)对OCR识别结果进行信息结构化处理;
(3)利用知识库,使用文本+图像的两级级联修正方法对地址信息进行修正;
(4)利用知识库,使用基于知识库IDF值加权的改进DTW方法,实现了对单位机构名称的信息修正。
6.根据如权利要求5所述的名片OCR数据修正方法,其特征在于步骤(2)中所述对OCR识别结果进行信息结构化处理的具体步骤如下:
(a)对每个字符串子图像的OCR结果,从中通过截取分隔符号前子字符串的方式寻找信息的属性名;
(b)如果属性名存在,则通过与预先枚举定义的属性名称进行相似度比较、再从枚举库中取出相似度最高的枚举名进行替换的方法进行针对属性名的自动修正;
(c)如果属性名不存在,则根据OCR文本中的特殊字符进行自动属性标注。
7.根据如权利要求5所述的名片OCR数据修正方法,其特征在于步骤(3)中所述对地址信息进行修正的具体步骤如下:
(a)从信息结构化后的结果中取出地址信息后按行政区域级别进行分割,并对知识库中的地址记录进行同样的处理;
(b)采用DTW方法,对分割处理后的OCR结果和知识库结果进行比对;
(c)将相似度结果按从高到低进行排序,然后保留相似度最高的作为匹配结果实现对OCR地址的修正;
(d)当匹配结果多于一个时,再进一步地进行基于图像匹配的相似度比较,并取相似度最高的作为最终匹配结果来进行修正。
8.根据如权利要求5所述的名片OCR数据修正方法,其特征在于步骤(4)中所述对单位机构名称的信息修正的具体步骤如下:
(a)根据修正的地址从知识库中查询出对应的候选单位机构名称,同时也取出OCR结果中的单位机构名称;
(b)对知识库中查询出的单位机构名称、OCR结果中的单位机构名称分别进行中文分词处理;
(c)对分词后的各部分分别赋以相应的权值,权值来自于各大中文知识库的统计结果,具体是以基于整个知识库中每篇文章的中文分词结果统计出的IDF值作为权值的来源;
(d)对分词处理后的OCR单位机构名称和知识库中候选单位机构名称进行比对,具体采用加权DTW方法,以适应名称里各部分对最终相似度的不同贡献,DTW路径上的权值公式如下:
公式中,idf是逆向文档频率,某一特定词语的idf可由总文档数目除以包含该词语之文档的数目,再将得到的商取对数得到,x和y是DTW路径上的待比较分段文本,i和j分别是x和y的特例,N是路径上节点数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310419348.XA CN103488983B (zh) | 2013-09-13 | 2013-09-13 | 一种基于知识库的名片ocr数据修正方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310419348.XA CN103488983B (zh) | 2013-09-13 | 2013-09-13 | 一种基于知识库的名片ocr数据修正方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103488983A true CN103488983A (zh) | 2014-01-01 |
CN103488983B CN103488983B (zh) | 2016-10-26 |
Family
ID=49829191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310419348.XA Expired - Fee Related CN103488983B (zh) | 2013-09-13 | 2013-09-13 | 一种基于知识库的名片ocr数据修正方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103488983B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927352A (zh) * | 2014-04-10 | 2014-07-16 | 江苏唯实科技有限公司 | 利用知识库海量关联信息的中文名片ocr数据修正系统 |
CN105023166A (zh) * | 2014-04-24 | 2015-11-04 | 钱文辉 | 一种基于纸质凭证数据自动识别的返利方法 |
CN106056112A (zh) * | 2015-04-08 | 2016-10-26 | 东芝泰格有限公司 | 图像处理装置及图像处理方法 |
CN106650664A (zh) * | 2016-12-22 | 2017-05-10 | 深圳爱拼信息科技有限公司 | 一种高招大本数据采集系统及方法 |
CN107045632A (zh) * | 2015-10-29 | 2017-08-15 | 尼尔森(美国)有限公司 | 用于从成像文件提取文本的方法和设备 |
CN107392260A (zh) * | 2017-06-08 | 2017-11-24 | 中国民生银行股份有限公司 | 一种字符识别结果的错误标定方法和装置 |
CN107438160A (zh) * | 2017-07-21 | 2017-12-05 | 上海明数数字出版科技有限公司 | 一种预览图像手动缩放进行字符查询的方法及装置 |
CN108536657A (zh) * | 2018-04-10 | 2018-09-14 | 百融金融信息服务股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
CN109325415A (zh) * | 2018-08-22 | 2019-02-12 | 吴昌议 | 一种基于图像列对齐特征预测所有目标区域的方法 |
CN109492644A (zh) * | 2018-10-16 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 一种习题图像的匹配识别方法及终端设备 |
WO2019056346A1 (zh) * | 2017-09-25 | 2019-03-28 | 深圳传音通讯有限公司 | 一种利用膨胀法校正文本图像倾斜的方法及装置 |
CN109919060A (zh) * | 2019-02-26 | 2019-06-21 | 上海七牛信息技术有限公司 | 一种基于特征匹配的身份证内容识别系统及方法 |
CN109977245A (zh) * | 2019-03-11 | 2019-07-05 | 河南发明哥知识产权代理有限公司 | 一种基于智能图文识别的数据收集系统 |
CN110135412A (zh) * | 2019-04-30 | 2019-08-16 | 北京邮电大学 | 名片识别方法和装置 |
CN110414518A (zh) * | 2019-06-26 | 2019-11-05 | 平安科技(深圳)有限公司 | 网址识别方法、装置、计算机设备和存储介质 |
CN110490185A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于多次对比矫正ocr名片信息识别改进方法 |
CN110503084A (zh) * | 2018-05-18 | 2019-11-26 | 广州腾讯科技有限公司 | 一种图像中的文字区域识别方法和装置 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN111898623A (zh) * | 2019-05-05 | 2020-11-06 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法、装置及电子设备 |
WO2020248497A1 (zh) * | 2019-06-12 | 2020-12-17 | 平安科技(深圳)有限公司 | 图片扫描件处理方法、装置、计算机设备及存储介质 |
CN112949471A (zh) * | 2021-02-27 | 2021-06-11 | 浪潮云信息技术股份公司 | 基于国产cpu的电子公文识别复现方法及系统 |
CN113420564A (zh) * | 2021-06-21 | 2021-09-21 | 国网山东省电力公司物资公司 | 一种基于混合匹配的电力铭牌语义结构化方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832110A (en) * | 1996-05-28 | 1998-11-03 | Ricoh Company, Ltd. | Image registration using projection histogram matching |
CN101770575A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 名片图像倾斜角度的测量方法和装置 |
CN101770569A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 基于ocr的菜名识别方法 |
-
2013
- 2013-09-13 CN CN201310419348.XA patent/CN103488983B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832110A (en) * | 1996-05-28 | 1998-11-03 | Ricoh Company, Ltd. | Image registration using projection histogram matching |
CN101770575A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 名片图像倾斜角度的测量方法和装置 |
CN101770569A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 基于ocr的菜名识别方法 |
Non-Patent Citations (1)
Title |
---|
胡景锋: ""手机拍摄名片图像的识别和信息提取"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927352A (zh) * | 2014-04-10 | 2014-07-16 | 江苏唯实科技有限公司 | 利用知识库海量关联信息的中文名片ocr数据修正系统 |
CN105023166A (zh) * | 2014-04-24 | 2015-11-04 | 钱文辉 | 一种基于纸质凭证数据自动识别的返利方法 |
CN106056112B (zh) * | 2015-04-08 | 2019-09-03 | 东芝泰格有限公司 | 图像处理装置及图像处理方法 |
CN106056112A (zh) * | 2015-04-08 | 2016-10-26 | 东芝泰格有限公司 | 图像处理装置及图像处理方法 |
CN107045632A (zh) * | 2015-10-29 | 2017-08-15 | 尼尔森(美国)有限公司 | 用于从成像文件提取文本的方法和设备 |
CN106650664A (zh) * | 2016-12-22 | 2017-05-10 | 深圳爱拼信息科技有限公司 | 一种高招大本数据采集系统及方法 |
CN107392260A (zh) * | 2017-06-08 | 2017-11-24 | 中国民生银行股份有限公司 | 一种字符识别结果的错误标定方法和装置 |
CN107392260B (zh) * | 2017-06-08 | 2020-03-17 | 中国民生银行股份有限公司 | 一种字符识别结果的错误标定方法和装置 |
CN107438160A (zh) * | 2017-07-21 | 2017-12-05 | 上海明数数字出版科技有限公司 | 一种预览图像手动缩放进行字符查询的方法及装置 |
WO2019056346A1 (zh) * | 2017-09-25 | 2019-03-28 | 深圳传音通讯有限公司 | 一种利用膨胀法校正文本图像倾斜的方法及装置 |
CN108536657B (zh) * | 2018-04-10 | 2021-09-21 | 百融云创科技股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
CN108536657A (zh) * | 2018-04-10 | 2018-09-14 | 百融金融信息服务股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
CN110503084B (zh) * | 2018-05-18 | 2024-03-01 | 广州腾讯科技有限公司 | 一种图像中的文字区域识别方法和装置 |
CN110503084A (zh) * | 2018-05-18 | 2019-11-26 | 广州腾讯科技有限公司 | 一种图像中的文字区域识别方法和装置 |
CN109325415A (zh) * | 2018-08-22 | 2019-02-12 | 吴昌议 | 一种基于图像列对齐特征预测所有目标区域的方法 |
CN109492644A (zh) * | 2018-10-16 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 一种习题图像的匹配识别方法及终端设备 |
CN109919060A (zh) * | 2019-02-26 | 2019-06-21 | 上海七牛信息技术有限公司 | 一种基于特征匹配的身份证内容识别系统及方法 |
CN109977245A (zh) * | 2019-03-11 | 2019-07-05 | 河南发明哥知识产权代理有限公司 | 一种基于智能图文识别的数据收集系统 |
CN110135412A (zh) * | 2019-04-30 | 2019-08-16 | 北京邮电大学 | 名片识别方法和装置 |
CN110135412B (zh) * | 2019-04-30 | 2021-05-11 | 北京邮电大学 | 名片识别方法和装置 |
CN111898623A (zh) * | 2019-05-05 | 2020-11-06 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法、装置及电子设备 |
CN111898623B (zh) * | 2019-05-05 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法、装置及电子设备 |
WO2020248497A1 (zh) * | 2019-06-12 | 2020-12-17 | 平安科技(深圳)有限公司 | 图片扫描件处理方法、装置、计算机设备及存储介质 |
CN110414518B (zh) * | 2019-06-26 | 2024-06-07 | 平安科技(深圳)有限公司 | 网址识别方法、装置、计算机设备和存储介质 |
WO2020258669A1 (zh) * | 2019-06-26 | 2020-12-30 | 平安科技(深圳)有限公司 | 网址识别方法、装置、计算机设备和存储介质 |
CN110414518A (zh) * | 2019-06-26 | 2019-11-05 | 平安科技(深圳)有限公司 | 网址识别方法、装置、计算机设备和存储介质 |
CN110490185A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于多次对比矫正ocr名片信息识别改进方法 |
CN111582169B (zh) * | 2020-05-08 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN112949471A (zh) * | 2021-02-27 | 2021-06-11 | 浪潮云信息技术股份公司 | 基于国产cpu的电子公文识别复现方法及系统 |
CN113420564B (zh) * | 2021-06-21 | 2022-11-22 | 国网山东省电力公司物资公司 | 一种基于混合匹配的电力铭牌语义结构化方法及系统 |
CN113420564A (zh) * | 2021-06-21 | 2021-09-21 | 国网山东省电力公司物资公司 | 一种基于混合匹配的电力铭牌语义结构化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103488983B (zh) | 2016-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103488983B (zh) | 一种基于知识库的名片ocr数据修正方法和系统 | |
CN103927352A (zh) | 利用知识库海量关联信息的中文名片ocr数据修正系统 | |
US11164027B2 (en) | Deep learning based license plate identification method, device, equipment, and storage medium | |
CN101458770B (zh) | 一种文字识别的方法和系统 | |
CN108108731B (zh) | 基于合成数据的文本检测方法及装置 | |
US20140193029A1 (en) | Text Detection in Images of Graphical User Interfaces | |
CN103258198A (zh) | 一种表格文档图像中字符提取方法 | |
CN105184238A (zh) | 一种人脸识别方法及系统 | |
CN106503711A (zh) | 一种文字识别方法 | |
JP2005346707A (ja) | カメラで取得されたドキュメント用の低解像度のocr | |
CN107766854B (zh) | 一种基于模板匹配实现快速页码识别的方法 | |
CN103065146A (zh) | 用于电力通信机房哑设备标识牌的文字识别方法 | |
CN110490185A (zh) | 一种基于多次对比矫正ocr名片信息识别改进方法 | |
CN104182722A (zh) | 文本检测方法和装置以及文本信息提取方法和系统 | |
Zhang et al. | A combined algorithm for video text extraction | |
Bijalwan et al. | Automatic text recognition in natural scene and its translation into user defined language | |
CN104598881A (zh) | 基于特征压缩与特征选择的歪斜场景文字识别方法 | |
Sanketi et al. | Localizing blurry and low-resolution text in natural images | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
Natei et al. | Extracting text from image document and displaying its related information | |
CN112215783B (zh) | 一种图像噪点识别方法、装置、存储介质及设备 | |
Nor et al. | Image segmentation and text extraction: application to the extraction of textual information in scene images | |
CN112446297B (zh) | 一种电子助视器及其适用的智能手机文本辅助阅读方法 | |
Aparna et al. | A complete OCR system development of Tamil magazine documents | |
RU2609069C2 (ru) | Обнаружение текста в изображениях графических пользовательских интерфейсов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190704 Address after: Room 1103, Building 21, 39 Jibang Road, Zhongming Town, Shanghai 202163 Patentee after: SHANGHAI JILIAN NETWORK TECHNOLOGY Co.,Ltd. Address before: 200433 No. 220, Handan Road, Shanghai, Yangpu District Patentee before: Fudan University |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161026 |
|
CF01 | Termination of patent right due to non-payment of annual fee |