CN115995080A

CN115995080A - 基于ocr识别的档案智能管理系统

Info

Publication number: CN115995080A
Application number: CN202310281519.0A
Authority: CN
Inventors: 翟培灿; 宋玉婷; 于丽媛
Original assignee: Qufu Inspection And Testing Center
Current assignee: Qufu Inspection And Testing Center
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-04-21
Anticipated expiration: 2043-03-22
Also published as: CN115995080B

Abstract

本发明涉及图形数据的识别与处理技术领域，具体涉及一种基于OCR识别的档案智能管理系统。本发明先将档案文件的表框作为处理单元，再根据处理单元中各字的大小基本接近的特性对处理单元中非背景像素点所形成的各连通域进行合并，以合并后连通域的外接矩形作为目标外接矩形，再以同一行上每个目标外接矩形与该行上各目标外接矩形在间距、大小以及位置高度上的相似程度，以及目标外接矩形内各个连通域大小相似程度，确定出文字与噪声所在目标外接矩形，完成对档案图像上文字的准确框选，避免了档案图像去噪处理过程中将部分文字笔画误认为噪声而消除的情况发生，提高后续OCR识别的准确度，从而完成更为准确的档案智能管理。

Description

基于OCR识别的档案智能管理系统

技术领域

本发明涉及图形数据的识别与处理技术领域，具体涉及一种基于OCR识别的档案智能管理系统。

背景技术

OCR（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

由于OCR识别技术是利用文字所表现出的形状或者说文字图像内容来确定其具体是何种文字的，而待识别图像的品质受限于输入设备、环境、以及文档的印刷质量的限制，且档案扫描图像中会存在墨点以及因扫描过程中所受到的脉冲干扰而产生的椒盐噪声，影响档案文字的分割、识别效果，所以在利用OCR技术识别文字之前，需要对待识别的档案图像进行去噪处理以降低OCR识别的误差提高识别准确度。

但是，在对档案图像进行去噪处理的过程中，由于部分文字笔画如点、撇、捺与文字主体部分往往并不相连，所以会被误认为噪声点并被消除，从而影响后续文字识别的准确度。

发明内容

本发明提供了一种基于OCR识别的档案智能管理系统，用以解决去噪处理过程中因部分文字笔画被误认为噪声点而误消除后导致OCR识别不准确的问题，所采用的技术方案具体如下：

本发明所提供的一种基于OCR识别的档案智能管理系统，包括：

档案图像获取模块，用于获取经灰度化处理后的档案图像；

目标像素点确定模块，用于根据档案图像上像素点的灰度值，对档案图像上所有像素点进行聚类，得到字体聚簇，将字体聚簇中的像素点作为目标像素点；

处理单元划分模块，用于对档案图像进行直线检测，将每个由直线合围成的闭合区域作为一个处理单元；

连通域外接矩形确定模块，用于对当前处理单元中的目标像素点进行连通域分割，以每个连通域的最小外接矩形作为当前处理单元中的连通域外接矩形；

连通域外接矩形迭代合并模块，用于对当前处理单元中的连通域外接矩形进行迭代合并，当合并后的连通域外接矩形大小最均匀时，将此次合并后的连通域外接矩形作为目标外接矩形；

噪声所在外接矩形确定模块，用于在处理单元中确定与当前目标外接矩形同行的所有目标外接矩形，在该行中将每个目标外接矩形的质心与设定方向上相邻目标外接矩形的质心所形成的向量作为所述每个目标外接矩形的质心向量，计算当前目标外接矩形的质心向量与该行中所有目标外接矩形的质心向量的向量相似度，并计算当前目标外接矩形中所有连通域外接矩形的大小相似度，以所述向量相似度与所述大小相似度确定当前目标外接矩形为噪声所在外接矩形的概率，所述当前目标外接矩形为噪声所在外接矩形的概率与所述向量相似度成反比而与所述大小相似度成正比，将噪声所在外接矩形的概率大于概率阈值的目标外接矩形，作为噪声所在外接矩形；

OCR识别与档案智能管理模块，用于将噪声所在外接矩形中的目标像素点从档案图像中剔除，得到预处理后档案图像，对预处理后档案图像进行OCR识别，根据OCR识别出的档案信息完成档案智能管理。

进一步的，所述对当前处理单元中的连通域外接矩形进行迭代合并的方法为：

确定当前处理单元中连通域外接矩形的最大面积，以所述连通域外接矩形的最大面积与当前连通域外接矩形的面积的差值，确定当前连通域外接矩形的合并需求概率；

将合并需求概率最大的连通域外接矩形与其最近的相邻连通域外接矩形进行合并，完成一次迭代合并；

重新计算迭代合并后各个连通域外接矩形的合并需求概率，再次将合并需求概率最大的连通域外接矩形与其最近的相邻连通域外接矩形进行合并，完成再次迭代合并；

重复将合并需求概率最大的连通域外接矩形与其最近的相邻连通域外接矩形进行合并的迭代合并过程，完成对处理单元中连通域外接矩形的迭代合并。

进一步的，所述确定当前连通域外接矩形的合并需求概率的方法为：

将所述连通域外接矩形的最大面积与当前连通域外接矩形的面积的差值，与所述连通域外接矩形的最大面积相比获得比值，以所述比值作为当前连通域外接矩形的合并需求概率。

进一步的，所述计算当前目标外接矩形的质心向量与该行中所有目标外接矩形的质心向量的向量相似度的方法为：

计算当前目标外接矩形的质心向量的模长与该行中所有目标外接矩形的质心向量的模长均值之间的模长差值绝对值，并计算当前目标外接矩形的质心向量的角度与该行中所有目标外接矩形的质心向量的角度均值之间的角度差值绝对值，以所述模长差值绝对值和所述角度差值绝对值确定所述向量相似度；

所述向量相似度与所述模长差值的绝对值和所述角度差值的绝对值均成反比。

进一步的，所述计算当前目标外接矩形中所有连通域外接矩形的大小相似度的方法为：

计算当前目标外接矩形中每个连通域外接矩形的面积与目标外接矩形中面积最大的连通域外接矩形的面积的差值，以所得各个差值确定所述大小相似度；

所述大小相似度与所述所得各个差值的大小成反比。

进一步的，所述以所述向量相似度与所述大小相似度确定当前目标外接矩形为噪声所在外接矩形的概率的方法为：

首先基于所述大小相似度构建目标外接矩形的第一特征：

其中，为目标外接矩形的第一特征，m为目标外接矩形所包含的连通域的数量，z表示目标外接矩形所包含的所有连通域中的第z个连通域，表示目标外接矩形所包含的所有连通域中第z个连通域的面积，表示目标外接矩形所包含的所有连通域中面积最大的连通域的面积；

然后基于所述向量相似度构建目标外接矩形的第二特征：

其中，为第q个目标外接矩形的第二特征，表示第q个目标外接矩形的质心与同一行中相邻目标外接矩形的质心所构成的第q个目标外接矩形的质心向量的模长，表示第q个目标外接矩形所在行上所有目标外接矩形的质心向量的模长均值，P表示第q个目标外接矩形所在行的目标外接矩形的数量，表示第q个目标外接矩形的质心向量的模长与第q个目标外接矩形所在行上所有目标外接矩形的质心向量的模长均值的差值绝对值，表示第q个目标外接矩形的质心与同一行中相邻目标外接矩形的质心所构成的第q个目标外接矩形的质心向量的角度，表示第q个目标外接矩形的质心向量角度的反正切值，表示第q个目标外接矩形所在行上所有目标外接矩形的质心向量角度的反正切值的均值，表示第q个目标外接矩形的质心向量角度的反正切值与第q个目标外接矩形所在行上所有目标外接矩形的质心向量角度的反正切值的均值的差值绝对值；

最后根据目标外接矩形的第一特征与第二特征，确定目标外接矩形为噪声所在外接矩形的概率：

其中，表示目标外接矩形为噪声所在外接矩形的概率，表示利用负指数函数将目标外接矩形的第一特征进行反比例归一化，表示利用双曲正切函数将第q个目标外接矩形的第二特征进行正比例归一化，表示正比例归一化结果与负比例归一化结果的欧式范数，欧式范数的取值范围在0~之间。

进一步的，确定所述合并后的连通域外接矩形大小最均匀时的方法为：

每次对处理单元中的连通域外接矩形迭代合并后，计算处理单元中所有合并后连通域外接矩形的面积的方差，以方差最小时对应所得的合并后的连通域外接矩形作为大小最均匀的合并后的连通域外接矩形。

进一步的，所述根据档案图像上像素点的灰度值，对档案图像上所有像素点进行聚类，得到字体聚簇的方法为：

设置聚类簇数量为3，对档案图像上的所有像素点根据灰度值进行聚类，得到字体聚簇、明显噪声聚簇以及背景聚簇，并将明显噪声聚簇所对应的像素点从档案图像上剔除。

进一步的，计算所述字体聚簇的平均灰度值和所述背景聚簇的平均灰度值的均值，以所述均值与所述明显噪声聚簇的平均灰度值最接近为期望，对档案图像上的所有像素点根据灰度值进行聚类，得到所述字体聚簇、明显噪声聚簇以及背景聚簇。

本发明的有益效果为：

本发明首先将档案文件灰度化处理保留其上像素点的灰度信息，以灰度信息识别出表征字体所在区域的字体聚簇，并将字体聚簇对应的像素点作为目标像素点，然后考虑到档案文件上每个表框中各个字的大小基本接近的特性选择表框作为处理单元，对处理单元中的目标像素点所形成的各个连通域进行迭代合并且在合并后的连通域外接矩形大小最均匀时，认为此时的外接矩形最接近处理单元中字体大小相近的特性，并将此时合并后连通域的外接矩形作为目标外接矩形，后续，继续计算处理单元同一行上每个目标外接矩形与该行上各个目标外接矩形之间在间距、大小以及位置高度上的相似程度，以及目标外接矩形内各个连通域大小的相似程度，利用真实文字所在目标外接矩形与噪声所在目标外接矩形，与同行上各个目标外接矩形在间距、大小以及位置高度上的明显差异，以及真实文字所在目标外接矩形与噪声所在目标外接矩形，各自所包含的连通域的大小相似程度的明显差异，来进一步确定出目标外接矩形到底是文字所在区域还是噪声所在区域，完成对档案图像上文字区域的准确框选，避免了对档案图像去噪处理过程中将部分文字的笔画误认为噪声而误消除的情况发生，提高了后续对档案图像进行OCR识别的准确度，从而可完成更为准确的档案智能管理。

附图说明

图1是本发明该种基于OCR识别的档案智能管理系统的系统框图；

图2是本发明的档案图像的灰度直方图；

图3是本发明的将处理单元中目标外接矩形经拟合归类到不同行的过程的示意图。

具体实施方式

下面结合附图及实施例，对本发明的一种基于OCR识别的档案智能管理系统进行详细说明。

实施例：

如图1所示，其示出了本发明一个实施例所提供的一种基于OCR识别的档案智能管理系统的系统框图，该系统包括：档案图像获取模块、目标像素点确定模块、处理单元划分模块、连通域外接矩形确定模块、连通域外接矩形迭代合并模块、噪声所在外接矩形确定模块以及OCR识别与档案智能管理模块。以下分别对各个模块的作用进行详细介绍：

档案图像获取模块，用于获取经灰度化处理后的档案图像。

利用印刷机或扫描机对档案文件进行扫描获取档案文件的档案图像，由于所获取的档案图像是要进行OCR识别从而得到档案上的相关记录信息以完成档案的智能管理，所以档案图像上并不需要保留过多的色彩信息，但同时由于噪点、文字的像素值差异也是区分档案上的有效信息的特征之一，所以直接对档案图像进行二值化后再从包含噪声的像素点中提取出文字区域像素点便比较困难。

综合档案图像并不需要保留过多色彩信息但又并不能直接进行二值化处理的实际情况，本实施例将档案图像进行灰度化处理，将档案图像上各个像素点的灰度值限制在0-255范围之间，得到灰度化处理后的档案图像。

目标像素点确定模块，用于根据档案图像上像素点的灰度值，对档案图像上所有像素点进行聚类，得到字体聚簇，将字体聚簇中的像素点作为目标像素点。

由于档案图像在打印以及手工书写的过程中，印刷字体、印刷表格线以及手写字体的笔墨都比较明显，所以其相较于背景纸张的颜色区分明显，这就使得这两种像素点各自聚集且灰度值差异明显，表现在档案图像的灰度直方图上便会是如图2所示的双峰状态。

基于印刷字体、印刷表格线以及手写字体所在区域的像素点的灰度值相较于其它区域差异明显的特性，本实施例首先以聚类方法对档案图像进行自适应聚类，并将整体灰度值最小的聚簇作为字体聚簇，并将字体聚簇中的像素点作为目标像素点。

需要说明的是，本实施例中所谓的自适应聚类是指不需要预先指定聚类个数的自适应聚类方法，现有技术中不需要预先指定聚类个数的聚类方法有很多，本实施例优选DBSCAN聚类算法实现该种不需要预先指定聚类个数的聚类过程以得到字体聚簇。以及，本实施例中所谓的整体灰度值最小的聚簇，是指对聚簇中的所有像素点的灰度值求均值后，所得均值最小的聚簇。

而特别的，考虑到由于档案文件可能因老旧泛黄、存在污渍等原因，而在扫描所得档案图像上存在着灰度值明显不同于印刷字体、印刷表格线以及手写字体的灰度值，也明显不同于背景区域灰度值的部分像素点，这些像素点即为明显噪声点，其会处于灰度直方图的双峰之间，即在双峰中间分布的离散灰度级，必然为明显噪声灰度级。所以，在其它实施例中，我们也可以利用明显噪声点的这种分布特征，在得到字体聚簇的过程中一并将这部分明显噪声去除。

以下为一个在得到字体聚簇的过程中一并将上述明显噪声点去除的其它实施例的具体介绍。已知印刷字体、印刷表格线以及手写字体该部分像素点，以及背景区域该部分像素点各自比较聚集，除此之外档案图像上分布的其他像素点的灰度级若与这两部分像素点的灰度级差异较大，则必然为明显噪声信息，那么利用K-means聚类算法，设置聚类簇数量K=3，对档案图像上的像素点根据灰度值进行聚类，便可得到字体聚簇、明显噪声聚簇以及背景聚簇这三种像素点聚簇。

为准确确定明显噪声点，也即为获取最优的明显噪声聚簇，设置初步去噪目标函数：

其中，表示初步去噪目标函数，表示对取最小值，A、B、C分别表示字体聚簇、明显噪声聚簇以及背景聚簇，分别表示字体聚簇、明显噪声聚簇以及背景聚簇各自的平均灰度值。

三个聚簇的平均灰度值可以提现聚簇的重心偏向，已知字体聚簇A和背景聚簇C之间存在较大差异，而档案图像的灰度直方图上距离字体聚簇A与背景聚簇C均最远且处于两者之间的点在处，那么当越靠近处，就代表明显噪声聚簇B距离字体聚簇A、背景聚簇C的距离越远，因此越接近1，最小的时候，聚类结果最优。

在所具体介绍的该其它实施例中，设定初步去噪目标函数的目的在于对明显噪声聚簇B进行引导，以初步去噪目标函数Q取值最小为期望对档案图像进行聚类，使明显噪声聚簇B远离字体聚簇A以及背景聚簇C，避免部分字体所对应的像素点或者背景区域所对应的像素点被归类到明显噪声点中而误去除，消除初步去噪误差。

由于扫描获取的档案图像并非一定存在上述其它实施例中的明显噪声点，所以本实施例直接采用自适应聚类方法对档案图像进行聚类而直接得到字体聚簇，并未包括对明显噪声点进行剔除的步骤。

处理单元划分模块，用于对档案图像进行直线检测，将每个由直线合围成的闭合区域作为一个处理单元。

由于不论对档案图像是否进行明显噪声点去除的操作，档案图像中都会存在相当一部分的与字体灰度值接近的难以剔除的噪声点，所以一般情况下在档案图像预处理过程中，此时都需要对档案图像进行去噪处理。

而在档案图像的预处理阶段，由于文字还未进行角点识别、特征提取、文字匹配等操作，因此文字未知，我们仅能将其作为纯粹的图像进行去噪，在这种情况下存在的问题是噪点和文字本身笔画点的混淆，任意用于图像处理的传统的去噪算法都无法避免此类问题，可能将部分笔画，如点、撇、捺等笔画误认为是噪点进行无差别消除，因此需要准确获取字体候选框，避免将部分笔画误认为是噪点而误消除。传统OCR算法所采用的Faster R-CNN网络，存在获取文本区域不准确的问题，例如“好”字，书写间距稍微大点可能会直接框选为“女”、“子”两个候选框。

所以，本申请借助档案图像所特有的，每个表框中字体的书写方向唯一、且各个字体之间的位置分布均匀以及各个字体之间大小均匀的特点，来确定最为合适的字体候选框。由于借助的是档案上单个表框中字体所具备的上述特性，所以首先需要确定出档案图像上的各个表框。

本实施例中，选择霍夫直线检测的方法来确定初步去噪档案图像上的所有直线，并将直线合围成的每个闭合区域作为一个处理单元。在其它实施例中，还可以采用其他可行方法完成对初步去噪档案图像的直线检测从而确定闭合区域。

由于扫描档案文件获取档案图像的过程中，可能存在因档案文件放置歪斜而导致的扫描所得档案图像歪斜的情况，所以本实施例还在检测出直线后，判断是否存在图像角度畸变，将图像整体旋转进行几何矫正，使得档案图像上的各个处理单元保持水平排除歪斜情况。容易理解的是，在对档案文件扫描时，如果认为档案文件不存在歪斜情况，则便不需要对扫描所得档案图像进行几何矫正。

连通域外接矩形确定模块，用于对当前处理单元中的目标像素点进行连通域分割，以每个连通域的最小外接矩形作为当前处理单元中的连通域外接矩形。

对于每个处理单元来说，其内部会存在着若干的字体聚簇所对应的像素点，将这些像素点作为目标像素点后，对目标像素点进行连通域分割，得到若干个连通域。容易理解的是，所得各个连通域即为字体或字体部分笔画所在区域，以及那些可能存在的、与字体灰度值接近的难以剔除的噪声点所在区域。

为便于对连通域进行表示，本实施例获取各个连通域的最小外接矩形作为连通域外接矩形，从而得到各个处理单元的连通域外接矩形。

连通域外接矩形迭代合并模块，用于对当前处理单元中的连通域外接矩形进行迭代合并，当合并后的连通域外接矩形大小最均匀时，将此次合并后的连通域外接矩形作为目标外接矩形。

一个处理单元中的字体，一般情况下只能同时是印刷字体或者同时是手写字体，所以各个字体的大小应该大致相同，但由于部分字的偏旁部首与其它部分并不连续，所以会存在对应所得的连通域并非整个字体的情况，这时候就需要判断处理单元中的各个连通域是否需要进行合并。

本实施例以处理单元中面积最大的连通域外接矩形为引导尺寸，以面积最大的连通域外接矩形与当前连通域外接矩形面积的差值确定当前连通域外接矩形的合并需求概率，那么处理单元中任意一个连通域外接矩形的合并需求概率为：

其中，表示处理单元中第j个连通域外接矩形的合并需求概率，表示处理单元中面积最大的连通域外接矩形的面积，表示处理单元中第j个连通域外接矩形的面积。

由于本实施例将处理单元中面积最大的连通域外接矩形的面积与处理单元中第j个连通域外接矩形的面积作差后，又将所得差值除以了处理单元中面积最大的连通域外接矩形的面积，所以所得处理单元中第j个连通域的合并需求概率实际上经过了归一化处理而取值处于0~1，一个连通域外接矩形的面积与相差越大，则表示其合并的需求概率越大。

将合并需求概率最大的连通域外接矩形与最近的相邻连通域外接矩形进行合并，得到一个新的连通域外接矩形而完成一次连通域外接矩形的迭代合并。其中最近的相邻连通域外接矩形通过计算连通域外接矩形质心之间的欧式距离确定，所以与合并需求概率最大的连通域外接矩形的质心之间的欧式距离最小的相邻连通域外接矩形，即为最近的相邻连通域外接矩形。

经每次迭代合并后，均对处理单元中的所有合并后所得的各个连通域外接矩形进行新的合并需求概率计算，然后依然对合并需求概率最大的连通域外接矩形与最近的相邻连通域外接矩形进行合并。

而需要注意的是，处理单元中面积最大的连通域外接矩形并不一定是一个完整字体所对应的连通域的外接矩形，也即存在着处理单元中的所有字都是存在着互不相连部分的情况，或者说一个处理单元中的字全部都是偏旁部首分离的字，所以仅根据处理单元中其它连通域外接矩形的面积与处理单元中面积最大的连通域外接矩形的面积是否相近来决定迭代合并是否继续，是并不准确的。

为此，本实施例考虑到一个处理单元中的字体，一般情况下只能同时是印刷字体或者同时是手写字体，所以一个处理单元中的各个字体的大小应该大致相同，由此本实施例认为，处理单元中的各个连通域外接矩形经迭代合并到各个合并后所得连通域外接矩形的大小最为均匀时，此时才将处理单元中的所有文字均分割完成。

基于这种分析，本实施例构建处理单元中连通域外接矩形的迭代合并目标函数：

其中，表示处理单元中连通域外接矩形的迭代合并目标函数，表示对取最小值，表示第r次迭代合并后处理单元中连通域外接矩形的数量，表示第i个迭代合并后连通域外接矩形的面积，表示第r次迭代合并后处理单元中所有连通域外接矩形的面积的方差。

由于处理单元中的字数有限，所以对应的处理单元中连通域外接矩形的数量也有限，这就决定了处理单元中连通域外接矩形的迭代合并次数是有限的，由于连通域外接矩形的面积在每次迭代合并后的面积都会变化，所以每次迭代合并后处理单元中所有连通域外接矩形的面积的方差会随之变化，验证有限次迭代合并过程中哪次迭代合并所对应得到的处理单元中所有连通域外接矩形的面积的方差为最小，则该次迭代合并后所得到的处理单元中的连通域外接矩形的大小，即为最均匀的情况，此时认为该次迭代合并后即完成了对处理单元中所有文字的均匀分割，并将此次迭代合并后所得到的所有连通域外接矩形作为目标外接矩形。

需要提到的是，虽然本实施例完成对处理单元中所有文字的均匀分割需要一定的迭代计算，但是每个处理单元中的迭代计算过程可以同步、独立完成以节约计算时间，由于每个处理单元中的字体数量受表框大小限制而数量有限，所以实际迭代时间很短。

噪声所在外接矩形确定模块，用于在处理单元中确定与当前目标外接矩形同行的所有目标外接矩形，在该行中将每个目标外接矩形的质心与设定方向上相邻目标外接矩形的质心所形成的向量作为所述每个目标外接矩形的质心向量，计算当前目标外接矩形的质心向量与该行中所有目标外接矩形的质心向量的向量相似度，并计算当前目标外接矩形中所有连通域外接矩形的大小相似度，以所述向量相似度与所述大小相似度确定当前目标外接矩形为噪声所在外接矩形的概率，所述当前目标外接矩形为噪声所在外接矩形的概率与所述向量相似度成反比而与所述大小相似度成正比，将噪声所在外接矩形的概率大于概率阈值的目标外接矩形，作为噪声所在外接矩形。

由于档案文件属于正式文件，所以无论处理单元中的字是印刷字还是手写字，都起码遵循最基本的直线书写规则，因此我们将处理单元中的目标外接矩形的质心点作为其位置信息，质心点的获取方法为矩形对角线中心交点。对于每个处理单元，均从左上角开始沿着x轴方向由左至右的顺序，对所有目标外接矩形的质心点进行最小二乘法拟合，拟合函数，L为常数，拟合函数为水平直线，拟合偏差为，按照相对拟合偏差最小的原则，将处理单元中的各个目标外接矩形归类到不同行。

具体的，如图3所示，处理单元中的某个目标外接矩形的质心点T，其与的拟合偏差，小于其与的拟合偏差，那么便应该将质心点T归类为所在的第一行。

由于处理单元实际上即为档案文件上的一个表框，而处理单元中的各个文字之间的间距、大小以及位置高度均应大体相似，但噪声像素点由于位置随机性较大所以与文字之间的间距、大小以及位置高度则并不足够相似；以及，处理单元中的单个文字各部分之间的大小往往差异明显，所以单个文字所对应的各个连通域之间的大小差异往往较大，但噪声像素点由于位置随机性较大所以噪声区域所包含的各个连通域之间的大小差异往往较小。

基于目标像素点中真实字体区域与噪声区域之间的上述特征差异，本实施例首先计算当前目标外接矩形中连通域的大小相似度，然后计算处理单元中，当前目标外接矩形与设定方向上相邻目标外接矩形之间的间隔距离和该目标外接矩形所在行上任意两个相邻目标外接矩形之间的间隔距离的相似程度，以及当前目标外接矩形的大小、高度与该目标外接矩形所在行上各个目标外接矩形的大小、高度之间的相似程度，来最终确定这个目标外接矩形为噪声所在外接矩形的概率。

首先构建目标外接矩形的第一特征：

其中，为目标外接矩形的第一特征，m为目标外接矩形所包含的连通域的数量，z表示目标外接矩形所包含的所有连通域中的第z个连通域，表示目标外接矩形所包含的所有连通域中第z个连通域的面积，表示目标外接矩形所包含的所有连通域中面积最大的连通域的面积。

由于汉字中较多的字体，其偏旁部首相较于其它部分的大小或者说面积有明显差异，而噪声点由于分布的随机性则并不具备这种面积上的明显差异特征，所以越大而越大时，则代表目标外接矩形为字体所在外接矩形的可能性越大，反之则代表目标外接矩形为噪声所在外接矩形的可能性越大。

然后构建目标外接矩形的第二特征：

其中，为第q个目标外接矩形的第二特征，表示第q个目标外接矩形的质心与同一行中第q+1个目标外接矩形的质心所构成的第q个目标外接矩形的质心向量的模长，表示第q个目标外接矩形所在行上所有目标外接矩形的质心向量的模长均值，P表示第q个目标外接矩形所在行的目标外接矩形的数量，表示第q个目标外接矩形的质心向量的模长与第q个目标外接矩形所在行上所有目标外接矩形的质心向量的模长均值的差值绝对值，表示第q个目标外接矩形的质心与同一行中第q+1个目标外接矩形的质心所构成的第q个目标外接矩形的质心向量的角度，表示第q个目标外接矩形的质心向量角度的反正切值，表示第q个目标外接矩形所在行上所有目标外接矩形的质心向量角度的反正切值的均值，表示第q个目标外接矩形的质心向量角度的反正切值与第q个目标外接矩形所在行上所有目标外接矩形的质心向量角度的反正切值的均值的差值绝对值。

本实施例中，是以第q个目标外接矩形的质心与第q+1个目标外接矩形的质心构成了第q个目标外接矩形的质心向量，此时构成第q个目标外接矩形的质心的过程中，选取的设定方向为右方向；容易理解的是，在其它实施例中，还能够以第q个目标外接矩形的质心与第q-1个目标外接矩形的质心构成第q个目标外接矩形的质心向量，也即此时构成第q个目标外接矩形的质心的过程中，选取的设定方向为左方向。而不论构成目标外接矩形的质心向量时选取的设定方向为右方向还是左方向，都会存在一个目标外接矩形无法得到其对应的质心向量的情况，那么在设定方向为右方向时，则以该行上右侧倒数第二个目标外接矩形的质心向量作为该行上最右侧的目标外接矩形的质心向量，在设定方向为左方向时，则以该行上左侧倒数第二个目标外接矩形的质心向量作为该行上最左侧的目标外接矩形的质心向量。

在上述的第q个目标外接矩形的第二特征计算公式中，越小，代表第q个目标外接矩形与同一行中第q+1个目标外接矩形之间的距离，越接近于第q个目标外接矩形所在行上各个目标外接矩形与各自设定方向上相邻目标外接矩形之间的距离，也就代表第q个目标外接矩形所在位置越正常；同理，越小，代表第q个目标外接矩形与同一行中第q+1个目标外接矩形之间的相对位置关系，越接近于第q个目标外接矩形所在行上各个目标外接矩形与各自设定方向上相邻目标外接矩形之间的相对位置关系，也就代表第q个目标外接矩形所在位置越正常。

所以，第q个目标外接矩形的第二特征越小，则代表第q个目标外接矩形为字体所在外接矩形的可能性越大，反之则代表第q个目标外接矩形为噪声所在外接矩形的可能性越大。

由于第一目标矩形特征与目标外接矩形为噪声所在外接矩形的概率成反比例关系，而第二目标矩形特征与目标外接矩形为噪声所在外接矩形的概率成正比例关系，所以通过上述的负指数函数对第一目标矩形特征进行反比例归一化，通过上述的双曲正切函数将第二目标矩形特征进行正比例归一化，最终所得的欧式范数也即目标外接矩形为噪声所在外接矩形的概率越大，则表示目标外接矩形越可能是噪声所在外接矩形。

本实施例设置概率阈值，当目标外接矩形为噪声所在外接矩形的概率大于概率阈值时，也即时，则认为目标外接矩形为噪声所在外接矩形；当目标外接矩形为噪声所在外接矩形的概率小于概率阈值时，也即时，则认为目标外接矩形为文字所在外接矩形。

本实施例设置概率阈值，在其它实施例中，还可以根据实际情况以及去噪质量要求的高低而适应性将概率阈值设置为其它值。

在确定了处理单元中的目标外接矩形哪些为噪声所在外接矩形后，便可将噪声所在外接矩形中的目标像素点从档案图像中剔除掉，得到预处理后档案图像，经过以上处理，可以在保证准确框定文字区域的同时，去除噪声点，且不会将文字中的笔画误除，然后对预处理后档案图像进行二值化处理，具体也即将预处理后档案图像上的目标像素点灰度值二值化为0，其余像素点灰度值二值化为255。

然后可根据需要对二值化后的预处理后档案图像进行膨胀腐蚀，突出文字部分的轮廓，最终经上述一系列操作完成了对档案图像的预处理。其中，二值化图像膨胀腐蚀为本领域的现有技术，此处不再赘述。

之后便可对预处理后的档案图像进行OCR文字识别，印刷体的文字识别以模板匹配为主，手写体则是特征提取为主，因此采用DB文字识别算法进行文字识别，其网络结构是Differentiable Binarization+ CRNN，通过分割文字图像、提取文字特征、数据库特征匹配来识别文字，其训练过程是基于icdar2015数据集进行的，训练数据丰富全面，可以很好地处理弯曲等不规则形状文本，因此往往能取得更好的检测效果。该算法为本领域的现有技术，此处不再赘述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于OCR识别的档案智能管理系统，其特征在于，包括：

档案图像获取模块，用于获取经灰度化处理后的档案图像；

2.根据权利要求1所述的基于OCR识别的档案智能管理系统，其特征在于，所述对当前处理单元中的连通域外接矩形进行迭代合并的方法为：

3.根据权利要求2所述的基于OCR识别的档案智能管理系统，其特征在于，所述确定当前连通域外接矩形的合并需求概率的方法为：

4.根据权利要求1所述的基于OCR识别的档案智能管理系统，其特征在于，所述计算当前目标外接矩形的质心向量与该行中所有目标外接矩形的质心向量的向量相似度的方法为：

5.根据权利要求1或4所述的基于OCR识别的档案智能管理系统，其特征在于，所述计算当前目标外接矩形中所有连通域外接矩形的大小相似度的方法为：

所述大小相似度与所述所得各个差值的大小成反比。

6.根据权利要求5所述的基于OCR识别的档案智能管理系统，其特征在于，所述以所述向量相似度与所述大小相似度确定当前目标外接矩形为噪声所在外接矩形的概率的方法为：

首先基于所述大小相似度构建目标外接矩形的第一特征：

然后基于所述向量相似度构建目标外接矩形的第二特征：

7.根据权利要求1所述的基于OCR识别的档案智能管理系统，其特征在于，确定所述合并后的连通域外接矩形大小最均匀时的方法为：

8.根据权利要求1所述的基于OCR识别的档案智能管理系统，其特征在于，所述根据档案图像上像素点的灰度值，对档案图像上所有像素点进行聚类，得到字体聚簇的方法为：

9.根据权利要求8所述的基于OCR识别的档案智能管理系统，其特征在于，计算所述字体聚簇的平均灰度值和所述背景聚簇的平均灰度值的均值，以所述均值与所述明显噪声聚簇的平均灰度值最接近为期望，对档案图像上的所有像素点根据灰度值进行聚类，得到所述字体聚簇、明显噪声聚簇以及背景聚簇。