CN110674332A

CN110674332A - 基于ocr与文本挖掘的机动车数字电子档案分类方法

Info

Publication number: CN110674332A
Application number: CN201910706580.9A
Authority: CN
Inventors: 沈国安; 熊奎; 李霄
Original assignee: Nanchang Wei Ke Lian Information Technology Co Ltd
Current assignee: Nanchang Wei Ke Lian Information Technology Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2020-01-10
Anticipated expiration: 2039-08-01
Also published as: CN110674332B

Abstract

本发明公开了一种基于OCR与文本挖掘的机动车数字电子档案分类方法，包括以下步骤：S1，建立机动车业务电子档案表头数据库；S2，对待分类数字图像进行图像二值化处理；S3，对待分类数字照片进行截取，截取需要识别的表头区域；S4，利用tesseract‑OCR文字识别引擎识别步骤S3中截取的图片区域，并利用文本挖掘技术处理得到的识别结果，得到文字序列；S5，计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度；S6，选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。本发明可以对机动车业务电子档案进行智能分类，实现机动车业务的信息化，从而提高机动车业务的办事效率、降低人工成本。

Description

基于OCR与文本挖掘的机动车数字电子档案分类方法

技术领域

本发明涉及电子信息技术领域，特别是涉及一种基于OCR与文本挖掘的机动车数字电子档案分类方法。

背景技术

据公安部交通管理局官方发布统计数据，截至2019年1月全国机动车保有量已达3.27亿辆，机动车驾驶人达4.09亿人，且每年以5％-7％的速度增长。交警支队车辆管理所作为机动车和驾驶人业务管理部门，承担着庞大的业务办理和档案管理工作。

目前后台的档案分类、审核与管理工作基本采用人工操作模式，人工逐张分类、审核机动车与驾驶人员的相关信息。由于电子化的档案照片需要人工逐张识别照片名称，这一办事方式普遍存在效率低下，工作强度大、处理周期长、人工成本高等诸多问题。随着机动车数量的增加，这种处理方式将不能满足机动车业务办理的需要。

发明内容

本发明的目的在于提出一种基于OCR与文本挖掘的机动车数字电子档案分类方法，以提高机动车业务的办事效率、降低人工成本。

一种基于OCR与文本挖掘的机动车数字电子档案分类方法，包括以下步骤：

S1，建立机动车业务电子档案表头数据库；

S2，对待分类数字图像进行图像二值化处理；

S3，对待分类数字照片进行截取，截取需要识别的表头区域；

S4，利用tesseract-OCR文字识别引擎识别步骤S3中截取的图片区域，并利用文本挖掘技术处理得到的识别结果，得到文字序列；

S5，计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度；

S6，选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。

上述基于OCR与文本挖掘的机动车数字电子档案分类方法，其中，步骤S1 中，建立的表头数据库采用mysql数据库，对所有业务种类照片表头进行存储。

上述基于OCR与文本挖掘的机动车数字电子档案分类方法，其中，步骤S2 中，图像二值化处理采用Bernsen局部二值化方法。

上述基于OCR与文本挖掘的机动车数字电子档案分类方法，其中，步骤S3 中，数字照片表头截取采用矩阵分析法进行切取。

上述基于OCR与文本挖掘的机动车数字电子档案分类方法，其中，步骤S5 中，相似度计算采用改进的Jaccard系数计算方法。

上述基于OCR与文本挖掘的机动车数字电子档案分类方法，其中，步骤S2 具体包括：

设图像在像素点(i,j)处的灰度值f(i,j)，以像素点(i,j)为中心的(2ω+1)×(2ω+1) 窗口，其中2ω+1表示窗口的边长，则Bernsen算法描述为：

采用下式对图像中个像素点(i,j)用b(i,j)值逐点进行二值化：

上述基于OCR与文本挖掘的机动车数字电子档案分类方法，其中，步骤S3 具体包括：

步骤S2中二值化后的图像为二维数组，用二维数组X表示；

首先，求出数组X的高与宽，记为size_X，即

size_X＝[h,w]

其中w，h分别表示数组X的宽度与高度大小；

构造维度大小为[w,1]的全1向量V：

V＝[1，1,……，1]_1×w

计算矩阵乘积：

R＝XV^T＝[r₁,r₂,……,r_h]^T

对R中的数据利用下式进行归一化操作：

其中M＝max{r₁,r₂,……,r_h}，表示“记为”；

其次，统计R中数据分布，并依据分布规律，选择一个阈值H，使得该阈值能将空白区行与含有相当文字的行区别开来；

当r_i ¹＞H(i∈{1,2……,h})时，行i几乎空白；当

时，行i含有相当多的黑色像素；表头文字出现在表单的开头，找到R₁中第一次不少于连续四次小于H的区域记为表头出现的区域，设R₁中从n₁到n₂第一次连续出现小于H区域，则截取的区域HR为X的n₁到n₂行。

上述基于OCR与文本挖掘的机动车数字电子档案分类方法，其中，步骤S4 具体包括：

搭建tesseract文字识别引擎，对步骤S3中截取的表头区域HR进行文字识别，设识别结果为W；

W＝a₁a₂……a_n

将识别结果分割成单个字符序列，记为W₁，即W₁＝{a₁,a₂,……,a_n}。

上述基于OCR与文本挖掘的机动车数字电子档案分类方法，其中，步骤S5 具体包括：

采用与分别计算数据库中各表头数据与步骤S4中W₁的相似度，以数据库中相似度最高的表头作为待分类图片的表头，以数据库中表头W1＝b₁b₂……b_m进行相似度的计算；

首先，将W¹处理成W₁的形式，不放仍然记为W¹，即

W¹＝{b₁,b₂,……,b_m}

然后，计算W¹与W₁中共同文字的个数|W¹∩W₁|，W¹∩W₁为集合 W¹＝{b₁,b₂,……,b_m}与W₁＝{a₁,a₂,……,a_n}交集；

通过以下改进的Jaccard系数计算相似系数l₁

其中|W¹|表示表头W¹的字符长度；

对数据库中所有表头数据进行同样操作，得到相似系数序列S；

S＝{l₁,l₂,……,l_k}

其中k为数据库中表头的个数。

根据本发明提供的基于OCR与文本挖掘的机动车数字电子档案分类方法，将tesseract文字识别引擎与文本挖掘技术结合，利用Bernsen算法进行局部二值化，避免全局二值化而影响局部性质，大大提高了二值化后的图像的清晰度，通过矩阵分析方法实现精准截取，提高了图片的分类效率，节省了处理时间，并在一定程度上提高了匹配准确率，利用改进的Jaccard系数计算识别结果与数据库中表头的相似性，以适应不同Jaccard系数的比较问题，其结果可以用来对机动车业务电子档案进行智能分类，实现机动车业务的信息化，使得本发明提供的方法能够提高机动车业务的办事效率、降低人工成本，对于机动车业务办理的信息化、智能化有一定的推动作用。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的基于OCR与文本挖掘的机动车数字电子档案分类方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，对本实施例提供的基于OCR与文本挖掘的机动车数字电子档案分类方法，包括：

S1：建立机动车业务电子档案表头数据库。

其中，获取机动车业务所有类型的表单，将其表单表头存储到mysql数据库，为后续数据获取与存储提供数据基础。

S2：对待分类数字图像进行图像二值化处理。

首先对图像进行灰度化处理，然后利用Bernsen算法将图片二值化处理。 Bernsen算法是一种典型的局部阈值算法，其将窗口中各个像素灰度级最大最小值得平均值作为一个窗口的中心像素的阈值。

具体地，设图像在像素点(i,j)处的灰度值f(i,j)，考虑以像素点(i,j)为中心的(2ω+1)×(2ω+1)窗口，其中2ω+1表示窗口的边长，则Bernsen算法可以描述为：

对图像中个像素点(i,j)用b(i,j)值逐点进行二值化

S3：对待分类数字照片进行截取，精准截取需要识别的表头区域。

对于待分类的数字照片，图片较大，所含的文字较多，直接进行文字识别，需要较长的时间，同时多余的文字对于文本分类会产生一定的干扰，为此，有必要精准提取需要识别的表头区域。步骤S2中二值化后的图像为二维数组，用二维数组X表示。

首先，求出数组X的高与宽，记为size_X，即

size_X＝[h,w]

其中w，h分别表示数组X的宽度与高度大小。

构造维度大小为[w,1]的全1向量V，

V＝[1，1,……，1]_1×w

计算矩阵乘积

R＝XV^T＝[r₁,r₂,……,r_h]^T

并对R中的数据利用下式进行归一化操作、

其中M＝max{r₁,r₂,……,r_h}，

表示“记为”。

其次，统计R中数据分布，并依据分布规律，选择一个阈值H，使得该阈值能将空白区行与含有相当文字的行区别开来。

具体地，当r_i ¹＞H(i∈{1,2……,h})时，行i几乎空白；当

时，行i含有相当多的黑色像素。表头文字出现在表单的开头，找到R₁中第一次不少于连续四次小于H的区域记为表头出现的区域，不妨设R₁中从n₁到n₂第一次连续出现小于H区域，则截取的区域HR为X的n₁到n₂行。

S4：利用tesseract-OCR引擎进行文字识别步骤S3中截取的图片区域HR，并处理成文字序列。

首先搭建tesseract文字识别引擎，对步骤S3中截取的表头区域HR进行文字识别，不妨设识别结果为W

W＝a₁a₂……a_n

为了后续进行相似度计算，将识别结果分割成单个字符序列。记为W₁，即

W₁＝{a₁,a₂,……,a_n}。

S5：计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度。

由于文字识别都存在一定的错误概率，因此不能直接以步骤S4中的识别结果作为最终分类名称。采用与分别计算数据库中各表头数据与步骤S4中W₁的相似度，以数据库中相似度最高的表头作为待分类图片的表头。下面以数据库中表头W¹＝b₁b₂……b_m为例进行相似度的计算说明。

首先，将W¹处理成W₁的形式，不放仍然记为W¹，即

W¹＝{b₁,b₂,……,b_m}

然后，计算W¹与W₁中共同文字的个数|W¹∩W₁|，W¹∩W₁为集合 W¹＝{b₁,b₂,……,b_m}与W₁＝{a₁,a₂,……,a_n}交集。

通过以下改进的Jaccard系数计算相似系数l₁

其中|W¹|表示表头W¹的字符长度。

对数据库中所有表头数据进行同样操作，得到相似系数序列S

S＝{l₁,l₂,……,l_k}

其中k为数据库中表头的个数。

S6：选择相似系数最大对应的数据库表头作为待分类数字照片的分类结果。

选择步骤S5中相似系数最大数据库中对应的表头作为待分类表单的分类结果。通过软件开发机动车电子档案分类系统，输入数据待分类表单图片，实现快速对机动车电子档案分类。

需要指出的是，本实施例中步骤S2～S5可以通过Python，C++等软件实现。

根据本实施例提供的基于OCR与文本挖掘的机动车数字电子档案分类方法，将tesseract文字识别引擎与文本挖掘技术结合，利用Bernsen算法进行局部二值化，避免全局二值化而影响局部性质，大大提高了二值化后的图像的清晰度，通过矩阵分析方法实现精准截取，提高了图片的分类效率，节省了处理时间，并在一定程度上提高了匹配准确率，利用改进的Jaccard系数计算识别结果与数据库中表头的相似性，以适应不同Jaccard系数的比较问题，其结果可以用来对机动车业务电子档案进行智能分类，实现机动车业务的信息化，使得本发明提供的方法能够提高机动车业务的办事效率、降低人工成本，对于机动车业务办理的信息化、智能化有一定的推动作用。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，包括以下步骤：

S1，建立机动车业务电子档案表头数据库；

S2，对待分类数字图像进行图像二值化处理；

2.根据权利要求1所述的基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，步骤S1中，建立的表头数据库采用mysql数据库，对所有业务种类照片表头进行存储。

3.根据权利要求2所述的基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，步骤S2中，图像二值化处理采用Bernsen局部二值化方法。

4.根据权利要求3所述的基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，步骤S3中，数字照片表头截取采用矩阵分析法进行切取。

5.根据权利要求4所述的基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，步骤S5中，相似度计算采用改进的Jaccard系数计算方法。

6.根据权利要求1所述的基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，步骤S2具体包括：

设图像在像素点(i,j)处的灰度值f(i,j)，以像素点(i,j)为中心的(2ω+1)×(2ω+1)窗口，其中2ω+1表示窗口的边长，则Bernsen算法描述为：

采用下式对图像中个像素点(i,j)用b(i,j)值逐点进行二值化：

7.根据权利要求6所述的基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，步骤S3具体包括：

步骤S2中二值化后的图像为二维数组，用二维数组X表示；

首先，求出数组X的高与宽，记为size_X，即

size_X＝[h,w]

其中w，h分别表示数组X的宽度与高度大小；

构造维度大小为[w,1]的全1向量V：

V＝[1，1,……，1]_1×w

计算矩阵乘积：

R＝XV^T＝[r₁,r₂,……,r_h]^T

对R中的数据利用下式进行归一化操作：

其中M＝max{r₁,r₂,……,r_h}，

表示“记为”；

当r_i ¹＞H(i∈{1,2……,h})时，行i几乎空白；当r_i ¹＜H(i∈{1,2……,h})时，行i含有相当多的黑色像素；表头文字出现在表单的开头，找到R₁中第一次不少于连续四次小于H的区域记为表头出现的区域，设R₁中从n₁到n₂第一次连续出现小于H区域，则截取的区域HR为X的n₁到n₂行。

8.根据权利要求7所述的基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，步骤S4具体包括：

W＝a₁a₂……a_n

9.根据权利要求8所述的基于OCR与文本挖掘的机动车数字电子档案分类方法，其特征在于，步骤S5具体包括：

采用与分别计算数据库中各表头数据与步骤S4中W₁的相似度，以数据库中相似度最高的表头作为待分类图片的表头，以数据库中表头W¹＝b₁b₂……b_m进行相似度的计算；

首先，将W¹处理成W₁的形式，不放仍然记为W¹，即

W¹＝{b₁,b₂,……,b_m}

然后，计算W¹与W₁中共同文字的个数|W¹∩W₁|，W¹∩W₁为集合W¹＝{b₁,b₂,……,b_m}与W₁＝{a₁,a₂,……,a_n}交集；

通过以下改进的Jaccard系数计算相似系数l₁

其中|W¹|表示表头W1的字符长度；

S＝{l₁,l₂,……,l_k}

其中k为数据库中表头的个数。