CN103927352A

CN103927352A - 利用知识库海量关联信息的中文名片ocr数据修正系统

Info

Publication number: CN103927352A
Application number: CN201410142535.2A
Authority: CN
Inventors: 王晓平; 肖仰华; 汪卫
Original assignee: JIANGSU WEISHI TECHNOLOGY Co Ltd
Current assignee: JIANGSU WEISHI TECHNOLOGY Co Ltd
Priority date: 2014-04-10
Filing date: 2014-04-10
Publication date: 2014-07-16

Abstract

本发明提供一种利用知识库海量关联信息的中文名片OCR数据修正系统，包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块。本发明重点在于对OCR模块的识别结果，首先进行信息结构化处理来为待修正数据打上标签，然后利用知识库模块的海量关联信息，结合中文分词、基于知识库的重要度加权、基于文本和图像的相似度比较、信息融合等一系列技术来对地址、单位名称关联信息进行修正以提升正确率；最后，将修正后的OCR结果进行输出展示。同时，系统的增量维护模块以半自动方式来对知识库进行信息维护，从而适应信息量不断增长的需求。

Description

利用知识库海量关联信息的中文名片OCR数据修正系统

技术领域

本发明属于光学字符识别技术领域及数据清洗领域，具体涉及一种基于知识库海量关联信息的中文名片OCR数据修正系统。

背景技术

随着光学扫描、计算机图像处理、模式识别等技术的发展，OCR技术已经渐趋成熟，其在诸多方面的成功应用也为人们的工作、生活带来了便利，而名片OCR识别正是当中极具代表性的一项应用，用户只需将拍摄的名片照片传入计算机或者是智能手机，并用相应的OCR软件进行识别，然后将识别出的文本信息进行储存，这样就免去了人们用传统方式处理名片带来的麻烦，如随身携带名片的不便或是往笔记本上抄录名片信息的繁琐。

然而，目前的OCR技术本身受到许多不利因素的影响，如低照度、低像素、图像噪声、角度倾斜、聚集模糊等，从而导致最终的识别率偏低。而对OCR结果的修正基本上有两种途径，一种是从图像本身出发，设法通过图像去噪、图像增强等技术来减弱或消除不利环境的影响，而这种仅依赖图像信息的方法纠错效果是有限的；还有一种则是对其中的某种类型的信息如地址单独进行修正，这种方法的缺点是没有对数据的关联性加以利用，因而在修正效果上仍存在进一步提升的空间。

发明内容

本发明的目的在于提供一种能够利用知识库的数据海量性及知识关联性的特点，对中文名片的OCR识别结果进行修正，从而进一步提升识别率的数据修正系统。本发明采用的技术方案是：

一种利用知识库海量关联信息的中文名片OCR数据修正系统，包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块。

本发明首先通过图像采集装置获得名片的数字图像，然后对图像进行包括旋转、剪切、缩放在内的一系列处理获得无倾斜、归一化尺寸的标准化图像，进而结合数字形态学、连通区分析等技术从中提取出独立的字符串块子图像送入OCR模块进行识别；接着，对OCR模块的识别结果，首先进行信息结构化处理来为待修正数据打上标签，然后利用知识库模块的海量关联信息，结合中文分词、基于知识库的重要度加权、基于文本和图像的相似度比较、信息融合等一系列技术来对地址、单位名称关联信息进行修正以提升正确率；最后，将修正后的OCR结果进行输出展示。同时，系统的增量维护模块以半自动方式来对知识库进行信息维护，从而适应信息量不断增长的需求。

以下是各模块的详细说明。所述图像采集模块用于获得名片照片的数字图像；所述图像标准化处理模块用于对名片照片进行包括角度、尺寸在内的归一化处理，具体包括：图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸标准化；所述字块提取模块用于从名片图像中提取出各子字块；所述OCR模块用于将名片图像转化为文本信息；所述知识库模块作为名片数据修正的来源和依据，包含名片修正所需的信息；所述数据修正模块用于根据知识库模块，对OCR识别结果中的错误进行修正；所述增量维护模块用于对OCR识别及修正结果进行评判，并扩充知识库规模；所述结果展示模块用于将修正后的结果进行输出。

进一步地，所述图像标准化处理模块包含三个子模块：名片倾斜校正子模块、名片区域剪切子模块、名片缩放子模块；所述名片倾斜校正子模块首先对名片照片进行图像灰度化处理；然后对名片进行旋转校正；所述名片区域剪切子模块对倾斜校正后的灰度图像进行二值化处理；基于水平投影、垂直投影确定名片的区域，并按确定的区域将名片部分从图像背景中剪切出来；所述名片缩放子模块对剪切出的名片区域，按初始设定尺寸进行比例缩放。

进一步地，所述字块提取模块包括形态学处理子模块和字块提取子模块；

形态学处理子模块对名片图像的二值化结果图，进行数学形态学操作，以保留真正的字符区域；字块提取子模块对保留下真正字符后的二值化结果图，进行连通区分析，并对每个连通区进行水平膨胀处理，然后再次进行连通区域分析，进而求出新连通区的外接矩形，最后根据外接矩形将字块区域作为子图像提取出来。

进一步地，所述数据修正模块包括以下子模块：信息结构化子模块和信息修正子模块；

信息结构化子模块用于：

(a-1).预先枚举并建立信息的属性名称库，内容至少包括“单位”、“地址”；

(a-2).对OCR识别结果，首先从每条信息中寻找属性名称；

(a-3).如果有匹配，则进行属性名修正，与预先枚举定义的属性名称进行相似度比较，并从枚举库中取出相似度最高的进行替换；

(a-4).如果无匹配，则自动添加属性标注。

进一步地，所述信息修正子模块包括预处理工作子模块、地址名-单位名称的关联数据修正子模块；

预处理工作子模块用于：

(b-1).对OCR结果中的地址、知识库中的地址记录，进行行政区域级别分割；

(b-2).对OCR结果中的单位机构名称、知识库中的单位机构名称进行中文分词处理，对分词后的各部分，分别赋以相应的权值。

更进一步地，预处理工作子模块处理步骤b-2中，采用基于整个中文维基百科知识库中每篇文章的中文分词结果统计出的IDF值作为权值的来源。

进一步地，所述地址名-单位名称的关联数据修正子模块，用于对OCR结果进行比对修正，具体采取下述步骤：

本修正子模块的输入为OCR结果中的地址名-单位名称的字符串对，输出为知识库中最大相似度的地址名－单位名称的字符串对；

(c).进行地址字符串的文本级比对：

对知识库的所有记录进行迭代，知识库记做KB，操作如下：

(c-1).将OCR结果与知识库KB中的每条地址记录依次对比计算文本级相似度，计算得到相似度S_addr1；

(c-2).如果S_addr1>T₁；将此条记录加入初筛候选库，记为KB′；T₁为设定阈值；

(c-3).否则，跳转到下一条知识库KB中的记录，迭代此步操作；

(d).进行单位名称字符串的文本级比对：

对初筛候选库KB′的所有记录进行迭代，操作如下：

(d-1).将OCR结果与初筛候选库KB′中的每条单位名称记录依次对比计算文本级相似度，计算得到相似度S_staff1；

(d-2).如果S_staff1>T₂：将此条记录加入精筛候选库，记为KB″；T₂为设定阈值；

(d-3).否则，跳转到下一条初筛候选库KB′记录，迭代此步操作；

(e).进行地址－单位名称关联字符串的图像级比对：

对精筛候选库KB″的所有记录进行迭代，操作如下：

(e-1).将OCR结果与精筛候选库KB″中的每条单位名称记录依次对比计算图像级相似度；得到相似度S_staff2；

(e-2).将OCR结果与精筛候选库KB″中的每条地址记录依次对比计算图像级相似度；得到相似度S_addr2；

(e-3).根据S_staff2和S_addr2，通过融合策略计算得出最终的融合相似度S，对融合相似度S从高到低进行排序，并保留相似度最高的作为匹配结果来对OCR结果进行修正。

更进一步地，

步骤（c-1）中，具体采用DTW方法，基于Jaccard相似度，计算得到相似度S_addr1；

步骤（d-1）中，具体采用DTW方法，结合IDF重要度加权策略，基于Levenshtein相似度，计算得到相似度S_staff1；

步骤(e-1)中，具体采用DTW方法，结合IDF重要度加权策略，基于Levenshtein相似度，计算得到相似度S_staff2；

步骤(e-2)中，具体采用DTW方法，基于Levenshtein相似度，计算得到相似度S_addr2；

步骤(e-1)和步骤(e-2)中，Levenshtein相似度的计算方法如公式（2）所示，

(公式2)

公式2中，a,b是待比对字符串，i,j是待比对字符在字符串中的位置索引，I(x)是字符x的图像，Sim(I₁，I₂)是图像I₁、I₂的相似度，T₃是图像相似度阈值，依据经验设定；

步骤(e-3)中，计算融合相似度S时，采用分段线性方法，根据公式3～5进行计算；

S＝w·S_staff2+(1-w)·S_addr2,0≤w≤1 （公式3）

\{\begin{matrix} C 1 & a > C 1 \\ a & C 1 \leq a \leq C 2 \\ C 2 & a < C 2 \end{matrix}

（公式4）

a＝S_staff2/(S_staff2+S_addr2) （公式5）

C1和C2依经验标定。

进一步地，增量维护模块对知识库进行半自动增量式维护，具体步骤如下：

(f-1).如果融合相似度S等于1；则无需进行操作；

(f-2).如果融合相似度S超过阈值T但小于1，将此OCR识别结果作为知识库匹配记录的一条别名记录扩充入知识库；阈值T按照经验设定，0<T<1；

(f-3).如果融合相似度S小于阈值T，则人工介入评估：如果OCR结果正确，则将此OCR结果以新增记录的方式添加进知识库；如果OCR结果错误，则不进行操作。

本发明的优点：本发明既利用了图像本身的信息，也利用了其它来源的信息，同时也有别于对单一类型信息如地址进行的修正，本发明是基于知识库的海量关联信息来进行修正，因而，本发明能在传统OCR识别的基础上，进一步提高识别准确率。

附图说明

图1为本发明的系统组成示意图。

图2为本发明的知识库增量维护流程图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

如图1所示，本发明提供的名片OCR数据修正系统，由八大模块组成：图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块；其中：

1.图像采集模块：目的是通过采集装置将名片照片以数字图像的形式输入计算机或者智能手机。对于在计算机上搭建的数据修正系统，采集装置由照相机（或摄像头）、图像采集卡组成；对于在智能手机上搭建的系统则更为简单，只需手机自带摄像头即可。

2.图像标准化处理模块利用多种图像处理技术对照片进行处理，获得无倾斜、尺寸归一化的标准图像。这些处理技术包括：图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸归一化等。本发明中，图像标准化处理模块进行图像处理的具体步骤如下：

图像标准化处理模块包含三个子模块：名片倾斜校正子模块、名片区域剪切子模块、名片缩放子模块。

（2.1)名片倾斜校正子模块，该子模块依次进行如下工作：

（2.1.1）对名片照片进行图像灰度化处理，转换公式如下：

I=0.299×R+0.587×G+0.114×B （公式6）

其中，R、G、B分别为CCD装置采集图像像素的红、绿、蓝三个感知分量的强度值，I为转换后该像素的图像灰度。

（2.1.2）边缘检测（各种边缘检测方法均可如CANNY、SOBEL、PREWITT、ROBERT、LAPLACIAN等，优选地，采用CANNY算法）；

（2.1.3）基于Hough变换进行直线检测；

（2.1.4）进行Radon变换并计算每个方向的投影区域，寻找投影区域宽度最小时的角度即为倾斜方向，然后按此角度进行旋转校正。

（2.2）名片区域剪切子模块，该子模块依次进行如下工作：

(2.2.1)对倾斜校正后的灰度图像进行二值化处理，其中，阈值确定方法可以是经验法、最大熵法、OTSU法等各种阈值确定方法，优选地，采用OTSU法(最大类间方差法)；

(2.2.2)基于水平投影、垂直投影确定名片的区域，其中，阈值确定采用经验法，并按确定的区域将名片部分从背景中剪切出来。

（2.3）名片缩放子模块，该子模块依次进行如下工作：

对剪切出的名片区域，按初始设定尺寸进行比例缩放，在缩放时可采用各种插值方法如近邻法、双线性法、双三次插值法等，优选地，采用双线性法。

3.字块提取模块用于按字块中包含的字符需满足间距近似相等、字体相同、纵坐标值相近等要求，提取出各子字块，以减少识别中可能产生的乱码。

字块提取模块包含两个子模块：形态学处理子模块、字块提取子模块。

（3.1）形态学处理子模块，该子模块依次进行如下工作：

对名片图像的二值化结果图，进行包括图像膨胀、图像腐蚀、开运算、闭运算、连通区分析、噪声去除、异常区域去除等在内的一系列数学形态学操作，以保留真正的字符区域。

（3.2）字块提取子模块，该子模块依次进行如下工作：

对保留下真正字符后的二值化结果图，进行连通区分析，并对每个连通区进行水平膨胀处理，然后再次进行连通区域分析，进而求出新连通区的外接矩形，最后根据外接矩形将字块区域作为子图像提取出来。

4.OCR模块用于将名片图像转化为文本信息。OCR即Optical CharacterRecognition光学字符识别。

5.知识库模块：作为名片数据修正的来源和依据，包含名片修正所需的信息如地址、单位名称等，其特点是海量性、数据关联性。

6.数据修正模块：借助知识库模块，对OCR识别结果中的错误进行修正，以进一步提高识别准确率。数据修正模块包括以下子模块：信息结构化子模块和信息修正子模块。

（6.1）信息结构化子模块，该子模块依次进行如下工作：

(6.1.1)预先枚举并建立信息的属性名称库，内容包括如“单位”、“地址”、“姓名”、“电话”、“网址”等等；

(6.1.2)对OCR识别结果，首先从每条信息中寻找属性名称，具体是寻找分隔符号（如冒号）前面的字符串；

(6.1.3)如果有匹配，则进行属性名修正，与预先枚举定义的属性名称进行相似度比较，这里的相似度可采用多种相似度如Jaccard相似度、Levenshtein相似度等，优选地，采用Jaccard相似度，并从枚举库中取出相似度最高的进行替换；

(6.1.4)如果无匹配，则自动添加属性标注，具体方法是根据OCR文本中的特征字符来标注对应的属性，如地址中的“路”、“号”，姓名中的姓氏符合百家姓库，电子邮件中的“”，网址中的“http://”，等。

（6.2）信息修正子模块包括预处理工作子模块、地址名-单位名称的关联数据修正子模块。

（6.2.1）预处理工作子模块，进行一次性的预处理操作，按如下步骤进行：

（6.2.1.1）对OCR结果中的地址、知识库中的地址记录，按省、市、县等进行行政区域级别分割；

（6.2.1.2）对OCR结果中的单位机构名称、知识库中的单位机构名称进行中文分词处理，对分词后的各部分，分别赋以相应的权值，权值可来自于各大中文知识库的统计结果，如中文维基百科、百度百科、互动百科等知识库，优选地，采用中文维基百科知识库，具体是基于整个库中每篇文章的中文分词结果统计出的IDF值作为权值的来源；IDF即逆向文档频率(inverse documentfrequency)。

（6.2.2）地址名-单位名称的关联数据修正子模块，该子模块进行地址名-单位名称的关联数据修正。

（6.2.2.1）字符串相似度计算

（6.2.2.1.1）地址名的相似度计算方法

对经行政区域级别分割处理后的OCR结果中地址与知识库中地址进行比对，具体比对方法可采用各种动态规划方法，优选地，采用DTW方法（DTW：动态时间归整算法），在相似度计算方法上，可采用多种相似度如Jaccard相似度、Levenshtein相似度等。

(6.2.2.1.2)单位机构名称的相似度计算方法：

对分词处理后的OCR结果中单位机构名称和知识库中候选单位机构名称进行比对，具体比对方法可采用各种动态规划方法，优选地，采用本专利提出的加权DTW方法，以适应名称中各部分对最终相似度的不同贡献，在相似度计算方法上，可采用多种相似度测度如Jaccard相似度、Levenshtein相似度等，DTW路径上的权值公式如下：

w_{i, j} = \frac{{idf}_{i} \cdot {idf}_{j}}{Σ_{x, y = 1}^{N} {idf}_{x} \cdot {idf}_{y}}

(公式1)

公式中，idf是逆向文档频率，某一特定词语的idf，可由总文档数目除以包含该词语之文档的数目，再将得到的商取对数得到，x和y是DTW路径上的待比较分段文本，i和j是x和y的特例，N是路径上节点数目。

(6.2.2.1.3)图像级的字符串相似度计算方法:

从文本角度看，OCR识别错误的字符与正确字符并不相同，但从图像的角度看，往往二者在字形上具有相似性，为了充分利用这一点来进一步提升数据修正的准确性，本发明提出了图像级的字符串相似度计算方法，该思想可运用于任何文本相似性度量如Jaccard相似度、Levenshtein相似度等，其核心是通过字符间图像相似度来衡量其文本相同与否，以图像级的Levenshtein相似度为例：

(公式2)

公式2中，a,b是待比对字符串，i,j是待比对字符在字符串中的位置索引，I(x)是字符x的图像，Sim(I₁，I₂)是图像I₁、I₂的相似度，T₃是图像相似度阈值，可依据经验设定。

在字符图像的相似度计算中，各种图像比对方法均可使用，优选地，可首先对字符图像进行2D-DCT变换，然后对变换结果按Zig-zag方式提取出低频系数作为图像特征，再对特征向量进行相似度计算，各种相似度计算方法均可使用，优选地，采用Cosine相似度。

(6.2.2.2)基于关联数据的相似度匹配；针对基于知识库的OCR地址－单位关联数据修正，本发明设计了一种涉及文本比对、图像比对的多级相似度计算方法。具体步骤如下：

（1）步骤1:文本级的地址字符串比对，为加快比对速度，优选地，采用Jaccard相似度，遍历后得到初筛候选库KB＇；

（2）步骤2:在初筛候选库KB＇范围中进行的文本级的单位名称字符串比对，由于此时搜索范围已大为缩小，为增加比对精确度，优选地，采用Levenshtein相似度，遍历后得到精筛候选库KB″；

（3）步骤3:在精筛候选库KB″范围中进行的图像级的地址－单位名称字符串的联合比对，通过融合策略计算得出最终的融合相似度，对融合相似度从高到低进行排序，并保留相似度最高的作为匹配结果来对OCR结果进行修正；融合方法可使用各种数据融合方法，优选地，使用分段线性方法，如公式3～5所示,其中，C1、C2可依经验设定。

S＝w·S_staff2+(1-w)·S_addr2,0≤w≤1 （公式3）

\{\begin{matrix} C 1 & a > C 1 \\ a & C 1 \leq a \leq C 2 \\ C 2 & a < C 2 \end{matrix}

（公式4）

a＝S_staff2/(S_staff2+S_addr2) （公式5）

具体细节步骤如表1所示。

表1.基于知识库的关联数据修正算法

7.增量维护模块，本发明中，增量维护模块中所述的对知识库进行半自动增量式维护的具体步骤如下：

根据多级算法获得知识库中与OCR结果最匹配的记录及融合相似度S，如图2所示：

（7.1）如果融合相似度S等于1，说明完全匹配，则无需进行操作。

（7.2）如果融合相似度S超过阈值T但小于1，将此OCR识别结果作为知识库匹配记录的一条别名记录扩充入知识库；这里阈值T可按经验设定,0<T<1；

（7.3）如果融合相似度S小于阈值T，则人工介入评估：

（7.3.1）如果OCR结果正确，则将此OCR结果以新增记录的方式添加进知识库；

（7.3.2）如果OCR结果错误，则不进行操作。

8.结果展示模块用于将修正后的结果进行输出。

Claims

1.一种利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于，包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块；

所述图像采集模块用于获得名片照片的数字图像；

所述图像标准化处理模块用于对名片照片进行包括角度、尺寸在内的归一化处理，具体包括：图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸标准化；

所述字块提取模块用于从名片图像中提取出各子字块；

所述OCR模块用于将名片图像转化为文本信息；

所述知识库模块作为名片数据修正的来源和依据，包含名片修正所需的信息；

所述数据修正模块用于根据知识库模块，对OCR识别结果中的错误进行修正；

所述增量维护模块用于对OCR识别及修正结果进行评判，并扩充知识库规模；

所述结果展示模块用于将修正后的结果进行输出。

2.如权利要求1所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

所述图像标准化处理模块包含三个子模块：名片倾斜校正子模块、名片区域剪切子模块、名片缩放子模块；

所述名片倾斜校正子模块首先对名片照片进行图像灰度化处理；然后对名片进行旋转校正；

所述名片区域剪切子模块对倾斜校正后的灰度图像进行二值化处理；基于水平投影、垂直投影确定名片的区域，并按确定的区域将名片部分从图像背景中剪切出来；

所述名片缩放子模块对剪切出的名片区域，按初始设定尺寸进行比例缩放。

3.如权利要求2所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

所述字块提取模块包括形态学处理子模块和字块提取子模块；

形态学处理子模块对名片图像的二值化结果图，进行数学形态学操作，以保留真正的字符区域；

字块提取子模块对保留下真正字符后的二值化结果图，进行连通区分析，并对每个连通区进行水平膨胀处理，然后再次进行连通区域分析，进而求出新连通区的外接矩形，最后根据外接矩形将字块区域作为子图像提取出来。

4.如权利要求1、2或3所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

所述数据修正模块包括以下子模块：信息结构化子模块和信息修正子模块；

信息结构化子模块用于：

(a-2).对OCR识别结果，首先从每条信息中寻找属性名称；

(a-4).如果无匹配，则自动添加属性标注。

5.如权利要求4所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

所述信息修正子模块包括预处理工作子模块、地址名-单位名称的关联数据修正子模块；

预处理工作子模块用于：

6.如权利要求5所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

预处理工作子模块处理步骤b-2中，采用基于整个中文维基百科知识库中每篇文章的中文分词结果统计出的IDF值作为权值的来源。

7.如权利要求5所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

所述地址名-单位名称的关联数据修正子模块，用于对OCR结果进行比对修正，具体采取下述步骤：

(c).进行地址字符串的文本级比对：

对知识库的所有记录进行迭代，知识库记做KB，操作如下：

(d).进行单位名称字符串的文本级比对：

对初筛候选库KB′的所有记录进行迭代，操作如下：

(e).进行地址－单位名称关联字符串的图像级比对：

对精筛候选库KB″的所有记录进行迭代，操作如下：

8.如权利要求7所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

步骤(e-2)中，具体采用DTW方法，基于Levenshtein相似度，计算得到相似度S_addr2。

9.如权利要求8所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

(公式2)

SSw·S_staff2+(1-w)·S_addr2,0≤w≤1 （公式3）

（公式4）

a＝S_staff2/(S_staff2+S_addr2) （公式5）

C1和C2依经验标定。

10.如权利要求7所述的利用知识库海量关联信息的中文名片OCR数据修正系统，其特征在于：

增量维护模块对知识库进行半自动增量式维护，具体步骤如下：

(f-1).如果融合相似度S等于1；则无需进行操作；