CN103927352A - 利用知识库海量关联信息的中文名片ocr数据修正系统 - Google Patents

利用知识库海量关联信息的中文名片ocr数据修正系统 Download PDF

Info

Publication number
CN103927352A
CN103927352A CN201410142535.2A CN201410142535A CN103927352A CN 103927352 A CN103927352 A CN 103927352A CN 201410142535 A CN201410142535 A CN 201410142535A CN 103927352 A CN103927352 A CN 103927352A
Authority
CN
China
Prior art keywords
business card
similarity
ocr
module
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410142535.2A
Other languages
English (en)
Inventor
王晓平
肖仰华
汪卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU WEISHI TECHNOLOGY Co Ltd
Original Assignee
JIANGSU WEISHI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU WEISHI TECHNOLOGY Co Ltd filed Critical JIANGSU WEISHI TECHNOLOGY Co Ltd
Priority to CN201410142535.2A priority Critical patent/CN103927352A/zh
Publication of CN103927352A publication Critical patent/CN103927352A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种利用知识库海量关联信息的中文名片OCR数据修正系统,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块。本发明重点在于对OCR模块的识别结果,首先进行信息结构化处理来为待修正数据打上标签,然后利用知识库模块的海量关联信息,结合中文分词、基于知识库的重要度加权、基于文本和图像的相似度比较、信息融合等一系列技术来对地址、单位名称关联信息进行修正以提升正确率;最后,将修正后的OCR结果进行输出展示。同时,系统的增量维护模块以半自动方式来对知识库进行信息维护,从而适应信息量不断增长的需求。

Description

利用知识库海量关联信息的中文名片OCR数据修正系统
技术领域
本发明属于光学字符识别技术领域及数据清洗领域,具体涉及一种基于知识库海量关联信息的中文名片OCR数据修正系统。
背景技术
随着光学扫描、计算机图像处理、模式识别等技术的发展,OCR技术已经渐趋成熟,其在诸多方面的成功应用也为人们的工作、生活带来了便利,而名片OCR识别正是当中极具代表性的一项应用,用户只需将拍摄的名片照片传入计算机或者是智能手机,并用相应的OCR软件进行识别,然后将识别出的文本信息进行储存,这样就免去了人们用传统方式处理名片带来的麻烦,如随身携带名片的不便或是往笔记本上抄录名片信息的繁琐。
然而,目前的OCR技术本身受到许多不利因素的影响,如低照度、低像素、图像噪声、角度倾斜、聚集模糊等,从而导致最终的识别率偏低。而对OCR结果的修正基本上有两种途径,一种是从图像本身出发,设法通过图像去噪、图像增强等技术来减弱或消除不利环境的影响,而这种仅依赖图像信息的方法纠错效果是有限的;还有一种则是对其中的某种类型的信息如地址单独进行修正,这种方法的缺点是没有对数据的关联性加以利用,因而在修正效果上仍存在进一步提升的空间。
发明内容
本发明的目的在于提供一种能够利用知识库的数据海量性及知识关联性的特点,对中文名片的OCR识别结果进行修正,从而进一步提升识别率的数据修正系统。本发明采用的技术方案是:
一种利用知识库海量关联信息的中文名片OCR数据修正系统,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块。
本发明首先通过图像采集装置获得名片的数字图像,然后对图像进行包括旋转、剪切、缩放在内的一系列处理获得无倾斜、归一化尺寸的标准化图像,进而结合数字形态学、连通区分析等技术从中提取出独立的字符串块子图像送入OCR模块进行识别;接着,对OCR模块的识别结果,首先进行信息结构化处理来为待修正数据打上标签,然后利用知识库模块的海量关联信息,结合中文分词、基于知识库的重要度加权、基于文本和图像的相似度比较、信息融合等一系列技术来对地址、单位名称关联信息进行修正以提升正确率;最后,将修正后的OCR结果进行输出展示。同时,系统的增量维护模块以半自动方式来对知识库进行信息维护,从而适应信息量不断增长的需求。
以下是各模块的详细说明。所述图像采集模块用于获得名片照片的数字图像;所述图像标准化处理模块用于对名片照片进行包括角度、尺寸在内的归一化处理,具体包括:图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸标准化;所述字块提取模块用于从名片图像中提取出各子字块;所述OCR模块用于将名片图像转化为文本信息;所述知识库模块作为名片数据修正的来源和依据,包含名片修正所需的信息;所述数据修正模块用于根据知识库模块,对OCR识别结果中的错误进行修正;所述增量维护模块用于对OCR识别及修正结果进行评判,并扩充知识库规模;所述结果展示模块用于将修正后的结果进行输出。
进一步地,所述图像标准化处理模块包含三个子模块:名片倾斜校正子模块、名片区域剪切子模块、名片缩放子模块;所述名片倾斜校正子模块首先对名片照片进行图像灰度化处理;然后对名片进行旋转校正;所述名片区域剪切子模块对倾斜校正后的灰度图像进行二值化处理;基于水平投影、垂直投影确定名片的区域,并按确定的区域将名片部分从图像背景中剪切出来;所述名片缩放子模块对剪切出的名片区域,按初始设定尺寸进行比例缩放。
进一步地,所述字块提取模块包括形态学处理子模块和字块提取子模块;
形态学处理子模块对名片图像的二值化结果图,进行数学形态学操作,以保留真正的字符区域;字块提取子模块对保留下真正字符后的二值化结果图,进行连通区分析,并对每个连通区进行水平膨胀处理,然后再次进行连通区域分析,进而求出新连通区的外接矩形,最后根据外接矩形将字块区域作为子图像提取出来。
进一步地,所述数据修正模块包括以下子模块:信息结构化子模块和信息修正子模块;
信息结构化子模块用于:
(a-1).预先枚举并建立信息的属性名称库,内容至少包括“单位”、“地址”;
(a-2).对OCR识别结果,首先从每条信息中寻找属性名称;
(a-3).如果有匹配,则进行属性名修正,与预先枚举定义的属性名称进行相似度比较,并从枚举库中取出相似度最高的进行替换;
(a-4).如果无匹配,则自动添加属性标注。
进一步地,所述信息修正子模块包括预处理工作子模块、地址名-单位名称的关联数据修正子模块;
预处理工作子模块用于:
(b-1).对OCR结果中的地址、知识库中的地址记录,进行行政区域级别分割;
(b-2).对OCR结果中的单位机构名称、知识库中的单位机构名称进行中文分词处理,对分词后的各部分,分别赋以相应的权值。
更进一步地,预处理工作子模块处理步骤b-2中,采用基于整个中文维基百科知识库中每篇文章的中文分词结果统计出的IDF值作为权值的来源。
进一步地,所述地址名-单位名称的关联数据修正子模块,用于对OCR结果进行比对修正,具体采取下述步骤:
本修正子模块的输入为OCR结果中的地址名-单位名称的字符串对,输出为知识库中最大相似度的地址名-单位名称的字符串对;
(c).进行地址字符串的文本级比对:
对知识库的所有记录进行迭代,知识库记做KB,操作如下:
(c-1).将OCR结果与知识库KB中的每条地址记录依次对比计算文本级相似度,计算得到相似度Saddr1
(c-2).如果Saddr1>T1;将此条记录加入初筛候选库,记为KB′;T1为设定阈值;
(c-3).否则,跳转到下一条知识库KB中的记录,迭代此步操作;
(d).进行单位名称字符串的文本级比对:
对初筛候选库KB′的所有记录进行迭代,操作如下:
(d-1).将OCR结果与初筛候选库KB′中的每条单位名称记录依次对比计算文本级相似度,计算得到相似度Sstaff1
(d-2).如果Sstaff1>T2:将此条记录加入精筛候选库,记为KB″;T2为设定阈值;
(d-3).否则,跳转到下一条初筛候选库KB′记录,迭代此步操作;
(e).进行地址-单位名称关联字符串的图像级比对:
对精筛候选库KB″的所有记录进行迭代,操作如下:
(e-1).将OCR结果与精筛候选库KB″中的每条单位名称记录依次对比计算图像级相似度;得到相似度Sstaff2
(e-2).将OCR结果与精筛候选库KB″中的每条地址记录依次对比计算图像级相似度;得到相似度Saddr2
(e-3).根据Sstaff2和Saddr2,通过融合策略计算得出最终的融合相似度S,对融合相似度S从高到低进行排序,并保留相似度最高的作为匹配结果来对OCR结果进行修正。
更进一步地,
步骤(c-1)中,具体采用DTW方法,基于Jaccard相似度,计算得到相似度Saddr1
步骤(d-1)中,具体采用DTW方法,结合IDF重要度加权策略,基于Levenshtein相似度,计算得到相似度Sstaff1
步骤(e-1)中,具体采用DTW方法,结合IDF重要度加权策略,基于Levenshtein相似度,计算得到相似度Sstaff2
步骤(e-2)中,具体采用DTW方法,基于Levenshtein相似度,计算得到相似度Saddr2
步骤(e-1)和步骤(e-2)中,Levenshtein相似度的计算方法如公式(2)所示,
(公式2)
公式2中,a,b是待比对字符串,i,j是待比对字符在字符串中的位置索引,I(x)是字符x的图像,Sim(I1,I2)是图像I1、I2的相似度,T3是图像相似度阈值,依据经验设定;
步骤(e-3)中,计算融合相似度S时,采用分段线性方法,根据公式3~5进行计算;
S=w·Sstaff2+(1-w)·Saddr2,0≤w≤1     (公式3)
C 1 a > C 1 a C 1 &le; a &le; C 2 C 2 a < C 2       (公式4)
a=Sstaff2/(Sstaff2+Saddr2)      (公式5)
C1和C2依经验标定。
进一步地,增量维护模块对知识库进行半自动增量式维护,具体步骤如下:
(f-1).如果融合相似度S等于1;则无需进行操作;
(f-2).如果融合相似度S超过阈值T但小于1,将此OCR识别结果作为知识库匹配记录的一条别名记录扩充入知识库;阈值T按照经验设定,0<T<1;
(f-3).如果融合相似度S小于阈值T,则人工介入评估:如果OCR结果正确,则将此OCR结果以新增记录的方式添加进知识库;如果OCR结果错误,则不进行操作。
本发明的优点:本发明既利用了图像本身的信息,也利用了其它来源的信息,同时也有别于对单一类型信息如地址进行的修正,本发明是基于知识库的海量关联信息来进行修正,因而,本发明能在传统OCR识别的基础上,进一步提高识别准确率。
附图说明
图1为本发明的系统组成示意图。
图2为本发明的知识库增量维护流程图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示,本发明提供的名片OCR数据修正系统,由八大模块组成:图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块;其中:
1.图像采集模块:目的是通过采集装置将名片照片以数字图像的形式输入计算机或者智能手机。对于在计算机上搭建的数据修正系统,采集装置由照相机(或摄像头)、图像采集卡组成;对于在智能手机上搭建的系统则更为简单,只需手机自带摄像头即可。
2.图像标准化处理模块利用多种图像处理技术对照片进行处理,获得无倾斜、尺寸归一化的标准图像。这些处理技术包括:图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸归一化等。本发明中,图像标准化处理模块进行图像处理的具体步骤如下:
图像标准化处理模块包含三个子模块:名片倾斜校正子模块、名片区域剪切子模块、名片缩放子模块。
(2.1)名片倾斜校正子模块,该子模块依次进行如下工作:
(2.1.1)对名片照片进行图像灰度化处理,转换公式如下:
I=0.299×R+0.587×G+0.114×B     (公式6)
其中,R、G、B分别为CCD装置采集图像像素的红、绿、蓝三个感知分量的强度值,I为转换后该像素的图像灰度。
(2.1.2)边缘检测(各种边缘检测方法均可如CANNY、SOBEL、PREWITT、ROBERT、LAPLACIAN等,优选地,采用CANNY算法);
(2.1.3)基于Hough变换进行直线检测;
(2.1.4)进行Radon变换并计算每个方向的投影区域,寻找投影区域宽度最小时的角度即为倾斜方向,然后按此角度进行旋转校正。
(2.2)名片区域剪切子模块,该子模块依次进行如下工作:
(2.2.1)对倾斜校正后的灰度图像进行二值化处理,其中,阈值确定方法可以是经验法、最大熵法、OTSU法等各种阈值确定方法,优选地,采用OTSU法(最大类间方差法);
(2.2.2)基于水平投影、垂直投影确定名片的区域,其中,阈值确定采用经验法,并按确定的区域将名片部分从背景中剪切出来。
(2.3)名片缩放子模块,该子模块依次进行如下工作:
对剪切出的名片区域,按初始设定尺寸进行比例缩放,在缩放时可采用各种插值方法如近邻法、双线性法、双三次插值法等,优选地,采用双线性法。
3.字块提取模块用于按字块中包含的字符需满足间距近似相等、字体相同、纵坐标值相近等要求,提取出各子字块,以减少识别中可能产生的乱码。
字块提取模块包含两个子模块:形态学处理子模块、字块提取子模块。
(3.1)形态学处理子模块,该子模块依次进行如下工作:
对名片图像的二值化结果图,进行包括图像膨胀、图像腐蚀、开运算、闭运算、连通区分析、噪声去除、异常区域去除等在内的一系列数学形态学操作,以保留真正的字符区域。
(3.2)字块提取子模块,该子模块依次进行如下工作:
对保留下真正字符后的二值化结果图,进行连通区分析,并对每个连通区进行水平膨胀处理,然后再次进行连通区域分析,进而求出新连通区的外接矩形,最后根据外接矩形将字块区域作为子图像提取出来。
4.OCR模块用于将名片图像转化为文本信息。OCR即Optical CharacterRecognition光学字符识别。
5.知识库模块:作为名片数据修正的来源和依据,包含名片修正所需的信息如地址、单位名称等,其特点是海量性、数据关联性。
6.数据修正模块:借助知识库模块,对OCR识别结果中的错误进行修正,以进一步提高识别准确率。数据修正模块包括以下子模块:信息结构化子模块和信息修正子模块。
(6.1)信息结构化子模块,该子模块依次进行如下工作:
(6.1.1)预先枚举并建立信息的属性名称库,内容包括如“单位”、“地址”、“姓名”、“电话”、“网址”等等;
(6.1.2)对OCR识别结果,首先从每条信息中寻找属性名称,具体是寻找分隔符号(如冒号)前面的字符串;
(6.1.3)如果有匹配,则进行属性名修正,与预先枚举定义的属性名称进行相似度比较,这里的相似度可采用多种相似度如Jaccard相似度、Levenshtein相似度等,优选地,采用Jaccard相似度,并从枚举库中取出相似度最高的进行替换;
(6.1.4)如果无匹配,则自动添加属性标注,具体方法是根据OCR文本中的特征字符来标注对应的属性,如地址中的“路”、“号”,姓名中的姓氏符合百家姓库,电子邮件中的“”,网址中的“http://”,等。
(6.2)信息修正子模块包括预处理工作子模块、地址名-单位名称的关联数据修正子模块。
(6.2.1)预处理工作子模块,进行一次性的预处理操作,按如下步骤进行:
(6.2.1.1)对OCR结果中的地址、知识库中的地址记录,按省、市、县等进行行政区域级别分割;
(6.2.1.2)对OCR结果中的单位机构名称、知识库中的单位机构名称进行中文分词处理,对分词后的各部分,分别赋以相应的权值,权值可来自于各大中文知识库的统计结果,如中文维基百科、百度百科、互动百科等知识库,优选地,采用中文维基百科知识库,具体是基于整个库中每篇文章的中文分词结果统计出的IDF值作为权值的来源;IDF即逆向文档频率(inverse documentfrequency)。
(6.2.2)地址名-单位名称的关联数据修正子模块,该子模块进行地址名-单位名称的关联数据修正。
(6.2.2.1)字符串相似度计算
(6.2.2.1.1)地址名的相似度计算方法
对经行政区域级别分割处理后的OCR结果中地址与知识库中地址进行比对,具体比对方法可采用各种动态规划方法,优选地,采用DTW方法(DTW:动态时间归整算法),在相似度计算方法上,可采用多种相似度如Jaccard相似度、Levenshtein相似度等。
(6.2.2.1.2)单位机构名称的相似度计算方法:
对分词处理后的OCR结果中单位机构名称和知识库中候选单位机构名称进行比对,具体比对方法可采用各种动态规划方法,优选地,采用本专利提出的加权DTW方法,以适应名称中各部分对最终相似度的不同贡献,在相似度计算方法上,可采用多种相似度测度如Jaccard相似度、Levenshtein相似度等,DTW路径上的权值公式如下:
w i , j = idf i &CenterDot; idf j &Sigma; x , y = 1 N idf x &CenterDot; idf y        (公式1)
公式中,idf是逆向文档频率,某一特定词语的idf,可由总文档数目除以包含该词语之文档的数目,再将得到的商取对数得到,x和y是DTW路径上的待比较分段文本,i和j是x和y的特例,N是路径上节点数目。
(6.2.2.1.3)图像级的字符串相似度计算方法:
从文本角度看,OCR识别错误的字符与正确字符并不相同,但从图像的角度看,往往二者在字形上具有相似性,为了充分利用这一点来进一步提升数据修正的准确性,本发明提出了图像级的字符串相似度计算方法,该思想可运用于任何文本相似性度量如Jaccard相似度、Levenshtein相似度等,其核心是通过字符间图像相似度来衡量其文本相同与否,以图像级的Levenshtein相似度为例:
(公式2)
公式2中,a,b是待比对字符串,i,j是待比对字符在字符串中的位置索引,I(x)是字符x的图像,Sim(I1,I2)是图像I1、I2的相似度,T3是图像相似度阈值,可依据经验设定。
在字符图像的相似度计算中,各种图像比对方法均可使用,优选地,可首先对字符图像进行2D-DCT变换,然后对变换结果按Zig-zag方式提取出低频系数作为图像特征,再对特征向量进行相似度计算,各种相似度计算方法均可使用,优选地,采用Cosine相似度。
(6.2.2.2)基于关联数据的相似度匹配;针对基于知识库的OCR地址-单位关联数据修正,本发明设计了一种涉及文本比对、图像比对的多级相似度计算方法。具体步骤如下:
(1)步骤1:文本级的地址字符串比对,为加快比对速度,优选地,采用Jaccard相似度,遍历后得到初筛候选库KB';
(2)步骤2:在初筛候选库KB'范围中进行的文本级的单位名称字符串比对,由于此时搜索范围已大为缩小,为增加比对精确度,优选地,采用Levenshtein相似度,遍历后得到精筛候选库KB″;
(3)步骤3:在精筛候选库KB″范围中进行的图像级的地址-单位名称字符串的联合比对,通过融合策略计算得出最终的融合相似度,对融合相似度从高到低进行排序,并保留相似度最高的作为匹配结果来对OCR结果进行修正;融合方法可使用各种数据融合方法,优选地,使用分段线性方法,如公式3~5所示,其中,C1、C2可依经验设定。
S=w·Sstaff2+(1-w)·Saddr2,0≤w≤1    (公式3)
C 1 a > C 1 a C 1 &le; a &le; C 2 C 2 a < C 2       (公式4)
a=Sstaff2/(Sstaff2+Saddr2)      (公式5)
具体细节步骤如表1所示。
表1.基于知识库的关联数据修正算法
7.增量维护模块,本发明中,增量维护模块中所述的对知识库进行半自动增量式维护的具体步骤如下:
根据多级算法获得知识库中与OCR结果最匹配的记录及融合相似度S,如图2所示:
(7.1)如果融合相似度S等于1,说明完全匹配,则无需进行操作。
(7.2)如果融合相似度S超过阈值T但小于1,将此OCR识别结果作为知识库匹配记录的一条别名记录扩充入知识库;这里阈值T可按经验设定,0<T<1;
(7.3)如果融合相似度S小于阈值T,则人工介入评估:
(7.3.1)如果OCR结果正确,则将此OCR结果以新增记录的方式添加进知识库;
(7.3.2)如果OCR结果错误,则不进行操作。
8.结果展示模块用于将修正后的结果进行输出。

Claims (10)

1.一种利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块; 
所述图像采集模块用于获得名片照片的数字图像; 
所述图像标准化处理模块用于对名片照片进行包括角度、尺寸在内的归一化处理,具体包括:图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸标准化; 
所述字块提取模块用于从名片图像中提取出各子字块; 
所述OCR模块用于将名片图像转化为文本信息; 
所述知识库模块作为名片数据修正的来源和依据,包含名片修正所需的信息; 
所述数据修正模块用于根据知识库模块,对OCR识别结果中的错误进行修正; 
所述增量维护模块用于对OCR识别及修正结果进行评判,并扩充知识库规模; 
所述结果展示模块用于将修正后的结果进行输出。 
2.如权利要求1所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
所述图像标准化处理模块包含三个子模块:名片倾斜校正子模块、名片区域剪切子模块、名片缩放子模块; 
所述名片倾斜校正子模块首先对名片照片进行图像灰度化处理;然后对名片进行旋转校正; 
所述名片区域剪切子模块对倾斜校正后的灰度图像进行二值化处理;基于水平投影、垂直投影确定名片的区域,并按确定的区域将名片部分从图像背景中剪切出来; 
所述名片缩放子模块对剪切出的名片区域,按初始设定尺寸进行比例缩放。 
3.如权利要求2所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
所述字块提取模块包括形态学处理子模块和字块提取子模块; 
形态学处理子模块对名片图像的二值化结果图,进行数学形态学操作,以保留真正的字符区域; 
字块提取子模块对保留下真正字符后的二值化结果图,进行连通区分析,并对每个连通区进行水平膨胀处理,然后再次进行连通区域分析,进而求出新连通区的外接矩形,最后根据外接矩形将字块区域作为子图像提取出来。 
4.如权利要求1、2或3所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
所述数据修正模块包括以下子模块:信息结构化子模块和信息修正子模块; 
信息结构化子模块用于: 
(a-1).预先枚举并建立信息的属性名称库,内容至少包括“单位”、“地址”; 
(a-2).对OCR识别结果,首先从每条信息中寻找属性名称; 
(a-3).如果有匹配,则进行属性名修正,与预先枚举定义的属性名称进行相似度比较,并从枚举库中取出相似度最高的进行替换; 
(a-4).如果无匹配,则自动添加属性标注。 
5.如权利要求4所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
所述信息修正子模块包括预处理工作子模块、地址名-单位名称的关联数据修正子模块; 
预处理工作子模块用于: 
(b-1).对OCR结果中的地址、知识库中的地址记录,进行行政区域级别分割; 
(b-2).对OCR结果中的单位机构名称、知识库中的单位机构名称进行中文分词处理,对分词后的各部分,分别赋以相应的权值。 
6.如权利要求5所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
预处理工作子模块处理步骤b-2中,采用基于整个中文维基百科知识库中每篇文章的中文分词结果统计出的IDF值作为权值的来源。 
7.如权利要求5所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
所述地址名-单位名称的关联数据修正子模块,用于对OCR结果进行比对修正,具体采取下述步骤: 
本修正子模块的输入为OCR结果中的地址名-单位名称的字符串对,输出为知识库中最大相似度的地址名-单位名称的字符串对; 
(c).进行地址字符串的文本级比对: 
对知识库的所有记录进行迭代,知识库记做KB,操作如下: 
(c-1).将OCR结果与知识库KB中的每条地址记录依次对比计算文本级相似度,计算得到相似度Saddr1; 
(c-2).如果Saddr1>T1;将此条记录加入初筛候选库,记为KB′;T1为设定阈值; 
(c-3).否则,跳转到下一条知识库KB中的记录,迭代此步操作; 
(d).进行单位名称字符串的文本级比对: 
对初筛候选库KB′的所有记录进行迭代,操作如下: 
(d-1).将OCR结果与初筛候选库KB′中的每条单位名称记录依次对比计算文本级相似度,计算得到相似度Sstaff1; 
(d-2).如果Sstaff1>T2:将此条记录加入精筛候选库,记为KB″;T2为设定阈值; 
(d-3).否则,跳转到下一条初筛候选库KB′记录,迭代此步操作; 
(e).进行地址-单位名称关联字符串的图像级比对: 
对精筛候选库KB″的所有记录进行迭代,操作如下: 
(e-1).将OCR结果与精筛候选库KB″中的每条单位名称记录依次对比计算图像级相似度;得到相似度Sstaff2; 
(e-2).将OCR结果与精筛候选库KB″中的每条地址记录依次对比计算图像级相似度;得到相似度Saddr2; 
(e-3).根据Sstaff2和Saddr2,通过融合策略计算得出最终的融合相似度S,对融合相似度S从高到低进行排序,并保留相似度最高的作为匹配结果来对OCR结果进行修正。 
8.如权利要求7所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
步骤(c-1)中,具体采用DTW方法,基于Jaccard相似度,计算得到相似度Saddr1; 
步骤(d-1)中,具体采用DTW方法,结合IDF重要度加权策略,基于Levenshtein相似度,计算得到相似度Sstaff1; 
步骤(e-1)中,具体采用DTW方法,结合IDF重要度加权策略,基于Levenshtein相似度,计算得到相似度Sstaff2; 
步骤(e-2)中,具体采用DTW方法,基于Levenshtein相似度,计算得到相似度Saddr2。 
9.如权利要求8所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
步骤(e-1)和步骤(e-2)中,Levenshtein相似度的计算方法如公式(2)所示, 
(公式2) 
公式2中,a,b是待比对字符串,i,j是待比对字符在字符串中的位置索引,I(x)是字符x的图像,Sim(I1,I2)是图像I1、I2的相似度,T3是图像相似度阈值,依据经验设定; 
步骤(e-3)中,计算融合相似度S时,采用分段线性方法,根据公式3~5进行计算; 
SSw·Sstaff2+(1-w)·Saddr2,0≤w≤1     (公式3) 
        (公式4) 
a=Sstaff2/(Sstaff2+Saddr2)          (公式5) 
C1和C2依经验标定。 
10.如权利要求7所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于: 
增量维护模块对知识库进行半自动增量式维护,具体步骤如下: 
(f-1).如果融合相似度S等于1;则无需进行操作; 
(f-2).如果融合相似度S超过阈值T但小于1,将此OCR识别结果作为知识库匹配记录的一条别名记录扩充入知识库;阈值T按照经验设定,0<T<1; 
(f-3).如果融合相似度S小于阈值T,则人工介入评估:如果OCR结果正确,则将此OCR结果以新增记录的方式添加进知识库;如果OCR结果错误,则不进行操作。 
CN201410142535.2A 2014-04-10 2014-04-10 利用知识库海量关联信息的中文名片ocr数据修正系统 Pending CN103927352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410142535.2A CN103927352A (zh) 2014-04-10 2014-04-10 利用知识库海量关联信息的中文名片ocr数据修正系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410142535.2A CN103927352A (zh) 2014-04-10 2014-04-10 利用知识库海量关联信息的中文名片ocr数据修正系统

Publications (1)

Publication Number Publication Date
CN103927352A true CN103927352A (zh) 2014-07-16

Family

ID=51145573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410142535.2A Pending CN103927352A (zh) 2014-04-10 2014-04-10 利用知识库海量关联信息的中文名片ocr数据修正系统

Country Status (1)

Country Link
CN (1) CN103927352A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005793A (zh) * 2015-07-15 2015-10-28 广州敦和信息技术有限公司 一种发票字条自动识别录入的方法及装置
CN105956590A (zh) * 2016-04-27 2016-09-21 泰合鼎川物联科技(北京)股份有限公司 字符识别方法和字符识别系统
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统
CN106485243A (zh) * 2016-10-31 2017-03-08 用友网络科技股份有限公司 一种票据识别纠错方法及装置
CN107040680A (zh) * 2015-12-01 2017-08-11 夏普株式会社 图像读取装置
CN107153652A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 将目标字符串转化为规范化字符串的方法及装置
CN107220639A (zh) * 2017-04-14 2017-09-29 北京捷通华声科技股份有限公司 Ocr识别结果的纠正方法和装置
CN107861972A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 一种用户录入商品信息后显示商品全结果的方法及设备
CN108536657A (zh) * 2018-04-10 2018-09-14 百融金融信息服务股份有限公司 人为填写的地址文本相似度处理方法和系统
CN109522862A (zh) * 2018-11-28 2019-03-26 科大讯飞股份有限公司 一种文档修正方法、装置、设备及可读存储介质
CN109784308A (zh) * 2019-02-01 2019-05-21 腾讯科技(深圳)有限公司 一种地址纠错方法、装置及存储介质
CN110309189A (zh) * 2018-03-13 2019-10-08 深圳市腾讯计算机系统有限公司 实体词的热度获取方法及装置
CN110442876A (zh) * 2019-08-09 2019-11-12 深圳前海微众银行股份有限公司 文本挖掘方法、装置、终端及存储介质
CN110688998A (zh) * 2019-09-27 2020-01-14 中国银行股份有限公司 票据识别方法及装置
CN110889365A (zh) * 2019-11-21 2020-03-17 上海烟草集团有限责任公司 一种标签信息获取方法及装置
CN111341405A (zh) * 2020-05-15 2020-06-26 四川大学华西医院 医用数据处理系统及方法
CN111582169A (zh) * 2020-05-08 2020-08-25 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
CN113312525A (zh) * 2021-06-07 2021-08-27 浙江工业大学 一种通过java进行反向校准钢印编码的方法
CN113420564A (zh) * 2021-06-21 2021-09-21 国网山东省电力公司物资公司 一种基于混合匹配的电力铭牌语义结构化方法及系统
CN115439854A (zh) * 2022-09-05 2022-12-06 深圳市学之友科技有限公司 一种基于扫描笔与智能终端互联的扫描显示方法
CN116363660A (zh) * 2023-04-10 2023-06-30 湖南三湘银行股份有限公司 一种基于去模糊的ocr识别方法及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070133874A1 (en) * 2005-12-12 2007-06-14 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
CN103279754A (zh) * 2013-06-25 2013-09-04 觅林网络科技(上海)有限公司 名片云识别方法及系统
CN103488983A (zh) * 2013-09-13 2014-01-01 复旦大学 一种基于知识库的名片ocr数据修正方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070133874A1 (en) * 2005-12-12 2007-06-14 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
CN103279754A (zh) * 2013-06-25 2013-09-04 觅林网络科技(上海)有限公司 名片云识别方法及系统
CN103488983A (zh) * 2013-09-13 2014-01-01 复旦大学 一种基于知识库的名片ocr数据修正方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕学强: "英文光学字符识别的后处理", 《鞍山钢铁学院学报》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005793A (zh) * 2015-07-15 2015-10-28 广州敦和信息技术有限公司 一种发票字条自动识别录入的方法及装置
CN105005793B (zh) * 2015-07-15 2018-02-27 广州敦和信息技术有限公司 一种发票字条自动识别录入的方法及装置
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统
CN107040680A (zh) * 2015-12-01 2017-08-11 夏普株式会社 图像读取装置
CN107153652A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 将目标字符串转化为规范化字符串的方法及装置
CN105956590A (zh) * 2016-04-27 2016-09-21 泰合鼎川物联科技(北京)股份有限公司 字符识别方法和字符识别系统
CN106295629B (zh) * 2016-07-15 2018-06-15 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统
US10937166B2 (en) 2016-07-15 2021-03-02 Beijing Sensetime Technology Development Co., Ltd. Methods and systems for structured text detection, and non-transitory computer-readable medium
CN106485243A (zh) * 2016-10-31 2017-03-08 用友网络科技股份有限公司 一种票据识别纠错方法及装置
CN106485243B (zh) * 2016-10-31 2019-10-22 用友网络科技股份有限公司 一种票据识别纠错方法及装置
CN107220639A (zh) * 2017-04-14 2017-09-29 北京捷通华声科技股份有限公司 Ocr识别结果的纠正方法和装置
CN107861972A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 一种用户录入商品信息后显示商品全结果的方法及设备
CN107861972B (zh) * 2017-09-15 2022-02-22 广州唯品会研究院有限公司 一种用户录入商品信息后显示商品全结果的方法及设备
CN110309189A (zh) * 2018-03-13 2019-10-08 深圳市腾讯计算机系统有限公司 实体词的热度获取方法及装置
CN110309189B (zh) * 2018-03-13 2023-04-18 深圳市腾讯计算机系统有限公司 实体词的热度获取方法及装置
CN108536657A (zh) * 2018-04-10 2018-09-14 百融金融信息服务股份有限公司 人为填写的地址文本相似度处理方法和系统
CN108536657B (zh) * 2018-04-10 2021-09-21 百融云创科技股份有限公司 人为填写的地址文本相似度处理方法和系统
CN109522862A (zh) * 2018-11-28 2019-03-26 科大讯飞股份有限公司 一种文档修正方法、装置、设备及可读存储介质
CN109784308A (zh) * 2019-02-01 2019-05-21 腾讯科技(深圳)有限公司 一种地址纠错方法、装置及存储介质
CN110442876A (zh) * 2019-08-09 2019-11-12 深圳前海微众银行股份有限公司 文本挖掘方法、装置、终端及存储介质
CN110442876B (zh) * 2019-08-09 2023-09-05 深圳前海微众银行股份有限公司 文本挖掘方法、装置、终端及存储介质
CN110688998A (zh) * 2019-09-27 2020-01-14 中国银行股份有限公司 票据识别方法及装置
CN110889365A (zh) * 2019-11-21 2020-03-17 上海烟草集团有限责任公司 一种标签信息获取方法及装置
CN111582169A (zh) * 2020-05-08 2020-08-25 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
CN111582169B (zh) * 2020-05-08 2023-10-10 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
CN111341405A (zh) * 2020-05-15 2020-06-26 四川大学华西医院 医用数据处理系统及方法
CN111341405B (zh) * 2020-05-15 2020-09-25 四川大学华西医院 医用数据处理系统及方法
CN113312525A (zh) * 2021-06-07 2021-08-27 浙江工业大学 一种通过java进行反向校准钢印编码的方法
CN113312525B (zh) * 2021-06-07 2024-02-09 浙江工业大学 一种通过java进行反向校准钢印编码的方法
CN113420564B (zh) * 2021-06-21 2022-11-22 国网山东省电力公司物资公司 一种基于混合匹配的电力铭牌语义结构化方法及系统
CN113420564A (zh) * 2021-06-21 2021-09-21 国网山东省电力公司物资公司 一种基于混合匹配的电力铭牌语义结构化方法及系统
CN115439854A (zh) * 2022-09-05 2022-12-06 深圳市学之友科技有限公司 一种基于扫描笔与智能终端互联的扫描显示方法
CN116363660A (zh) * 2023-04-10 2023-06-30 湖南三湘银行股份有限公司 一种基于去模糊的ocr识别方法及服务器
CN116363660B (zh) * 2023-04-10 2023-12-19 湖南三湘银行股份有限公司 一种基于去模糊的ocr识别方法及服务器

Similar Documents

Publication Publication Date Title
CN103927352A (zh) 利用知识库海量关联信息的中文名片ocr数据修正系统
CN103488983B (zh) 一种基于知识库的名片ocr数据修正方法和系统
Burie et al. ICDAR2015 competition on smartphone document capture and OCR (SmartDoc)
US20210224567A1 (en) Deep learning based license plate identification method, device, equipment, and storage medium
JP4771804B2 (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
CN108108731B (zh) 基于合成数据的文本检测方法及装置
US20120163708A1 (en) Apparatus for and method of generating classifier for detecting specific object in image
CN104298982A (zh) 一种文字识别方法及装置
CN102144236A (zh) 用于图像和视频ocr的文本定位
US20060062460A1 (en) Character recognition apparatus and method for recognizing characters in an image
Anthimopoulos et al. Detection of artificial and scene text in images and video frames
EP2605186A2 (en) Method and apparatus for recognizing a character based on a photographed image
CN105260428A (zh) 图片处理方法和装置
CN105678301B (zh) 一种自动识别并分割文本图像的方法、系统及装置
CN106203454A (zh) 证件版式分析的方法及装置
CN104750791A (zh) 一种图像检索方法及装置
CN106295514A (zh) 一种图像识别题目显示答案的方法及装置
CN104598881B (zh) 基于特征压缩与特征选择的歪斜场景文字识别方法
CN105825228A (zh) 图像识别方法及装置
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
Chang Intelligent text detection and extraction from natural scene images
CN112464957A (zh) 基于非结构化投标文件内容的结构化数据获取方法及装置
US9378428B2 (en) Incomplete patterns
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20171117

AD01 Patent right deemed abandoned