CN117423113A

CN117423113A - 一种档案ocr图像自适应去噪方法

Info

Publication number: CN117423113A
Application number: CN202311732780.4A
Authority: CN
Inventors: 罗桂富; 宋伟业; 路卫峰; 李剑; 杨芳; 徐延政
Original assignee: Qingdao Huazheng Information Technology Co ltd
Current assignee: Qingdao Huazheng Information Technology Co ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-01-19
Anticipated expiration: 2043-12-18
Also published as: CN117423113B

Abstract

本发明涉及图像去噪技术领域，本发明公开了一种档案OCR图像自适应去噪方法；包括将档案OCR图像分割成个子区域，采集个子区域的噪声关联数据，生成个噪声强度评估值，判定是否存在噪声区域，对于噪声区域生成噪声级别，根据噪声级别，生成去噪指令，并自适应的选择去噪方式；相对于现有技术，能够将大面积的档案OCR图像分割成多个独立的小面积图像，可以降低单次图像噪声识别的数据计算量，也能够精准的识别到存在噪声的图像区域，并针对噪声区域进行自适应的去噪方式选择，既避免了采用单一去噪方式对档案OCR图像去噪时导致的不匹配，也能够避免对无噪声区域的噪声识别、计算和处理步骤，进而提高去噪效率。

Description

一种档案OCR图像自适应去噪方法

技术领域

本发明涉及图像去噪技术领域，更具体地说，本发明涉及一种档案OCR图像自适应去噪方法。

背景技术

现实中的信号或图像在生成、传输、接收和处理的过程中经常受到各种噪声的干扰，噪声使信号或图像失真，严重影响后处理和分析，甚至难以实现预期目标，在档案OCR图像的识别当中，为了得到优质量的档案OCR图像，通常情况下需要通过图像降噪的算法对档案OCR图像进行处理和优化。

传统的图像降噪的方法有以下几种：

高斯滤波：适用于消除高斯噪声，广泛应用于图像处理的减噪过程，高斯滤波的具体操作是：用一个模板扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值；

小波去噪：保留了大部分包含信号的小波系数，可以较好地保持图像的细节；

图像增强：通过一定手段对原图像附加一些信息或变换数据，有选择地突出图像中感兴趣的特征或者抑制图像中某些不需要的特征，使图像与视觉响应特性相匹配。

申请公开号为CN108109123A的中国专利公开了一种图像去噪方法，其利用噪声估计值去判断平坦区域和细节区域，处理速度快，硬件实现资源开销小，实现方便，并将细节区域与平坦区域分开处理，不仅使得平坦区域得到了较好的效果，还能保留原待处理图像中的细节区域，使得待处理图像中的纹理细节得到了保留，进一步提高了图像去噪处理的效果；

现有技术存在以下不足：

现有的图像去噪方式通常是将图像进行整体的噪声强度识别计算，由于图像整体的面积较大，使得噪声识别计算的数据量较大，降低了噪声计算速率，并且采用图像整体统一去噪的方式，会在图像去噪时将没有噪声的区域合并处理，导致图像去噪的时间变长，进而降低了去噪效率。

鉴于此，本发明提出一种档案OCR图像自适应去噪方法以解决上述问题。

发明内容

为了克服现有技术的上述缺陷，为实现上述目的，本发明提供如下技术方案：一种档案OCR图像自适应去噪方法，应用于图像去噪服务器，方法包括：

S1：扫描档案文件获得档案OCR图像，基于分割准则，将档案OCR图像分割成个子区域；

S2：采集个子区域的噪声关联数据，基于/>个噪声关联数据，生成/>个噪声强度评估值；

S3：将个噪声强度评估值分别与预设的噪声强度阈值对比分析，判定是否存在噪声区域；若存在，则执行S4-S6；若不存在，则重复执行S3；

S4：将个噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析，根据对比结果，生成/>个噪声级别；

S5：根据个噪声级别，生成/>个去噪指令，根据/>个去噪指令，自适应的选择去噪方式；

S6：在个噪声区域去噪后，将/>个子区域拼接，获得去噪后的档案OCR图像。

进一步的，分割准则为：分割后的任意两个相邻子区域的面积差值，均小于等于任意一个子区域面积值的十分之一；

个子区域的分割方法包括：

测量档案OCR图像长边的长度值，在档案OCR图像的长边标记个分割点；

以个分割点为基点，按照分割准则，沿平行于档案OCR图像的短边方向画线，获得/>条分割线；

以条分割线为边界，将档案OCR图像分割成/>个子区域；

对个子区域沿档案OCR图像的长边方向依次进行升序编号。

进一步的，噪声关联数据包括中值像素占比率、峰值波动度、孤立点活跃度和低值像素关联值；

中值像素占比率的获取方法包括：

在个子区域内分别随机画出/>个不相邻的圆，将圆标记为识别区域；

分别统计个识别区域内的像素点数量，通过OpenCV标记所有像素点的灰度值；

将灰度值大于预设的第一灰度阈值和小于第二灰度阈值的像素点记为中值像素点，第一灰度阈值小于第二灰度阈值；

将个识别区域内的中值像素点的数量与所有像素点的数量比较，获得/>个子占比率；

子占比率的表达式为：

；

式中，为第/>个子区域第/>个识别区域的子占比率，/>为第/>个子区域第/>个识别区域的中值像素点的数量，/>为第/>个子区域第/>个识别区域的所有像素点的数量；

将个子占比率累加后求平均，获得中值像素占比率；

中值像素占比率的表达式为：

；

式中，为第/>个子区域的中值像素占比率，/>为第/>个子区域的第/>个子占比率。

进一步的，峰值波动度的获取方法包括：

分别获取个子区域内的像素点灰度值和像素点数量，以像素点灰度值为横坐标，像素点数量为纵坐标构建灰度直方图；

通过累加求均值的方式计算灰度直方图中所有像素点灰度值的灰度平均值；

将灰度直方图中像素点灰度值的最大值与灰度平均值差值比较，获得峰值波动度；

峰值波动度的表达式为：

；

式中，为第/>个子区域的峰值波动度，/>为第/>个子区域的像素点灰度值的最大值，/>为第/>个子区域的灰度平均值。

进一步的，孤立点活跃度的获取方法包括：

在个子区域内分别划分/>个大小一致的矩形区域；

以矩形区域的中心为基点，分别以矩形区域的二分之一边长和三分之一边长为半径画圆，得到第一活跃区域和第二活跃区域；

将第一活跃区域和第二活跃区域之间的区域记为取样区域；

在取样区域随机标记个孤立的像素点，并沿顺时针方向依次测量相邻两个孤立的像素点之间的间距，得到/>个孤立间距；

将个孤立间距累加后求平均，获得子活跃度；

子活跃度的表达式为：

；

式中，为第/>个子区域第/>个取样区域的子活跃度，/>为第/>个子区域第/>个取样区域的第/>个孤立间距；

去除掉子活跃度的最大值和最小值，将个子活跃度累加后求平均，获得孤立点活跃度；

孤立点活跃度的表达式为：

；

式中，为第/>个子区域的孤立点活跃度，/>为第/>个子区域的第/>个子活跃度。

进一步的，低值像素关联值的获取方法包括：

在个子区域内分别标记/>个灰度值小于预设的第一灰度阈值的像素点，记为低值像素点；

以个低值像素点所在位置为圆心，以预设长度为半径画圆，得到/>个低值圆；

统计个低值圆的关联交叉点的数量，并与低值圆的数量比较，获得低值像素关联值；

低值像素关联值的表达式为：

；

式中，为第/>个子区域的低值像素关联值，/>为第/>个子区域的关联交叉点的数量，/>为低值圆的数量；

噪声强度评估值的表达式为：

；

式中，为第/>个子区域的噪声强度评估值，/>、/>、/>、/>为权重因子。

进一步的，是否存在噪声区域的判定方法包括：

将个噪声强度评估值逐一与预设的噪声强度阈值/>对比分析，/>大于0；

当大于等于/>时，判定存在噪声区域；

当小于/>时，判定不存在噪声区域。

进一步的，噪声级别包括一级噪声级别、二级噪声级别和三级噪声级别；

一级噪声级别、二级噪声级别和三级噪声级别的生成方法包括：

将个噪声区域的噪声强度评估值/>逐一与预设的第一级别阈值/>和第二级别阈值/>比较，/>小于/>；

当小于/>时，生成一级噪声级别；

当小于等于/>，且/>小于/>时，生成二级噪声级别；

当大于等于/>时，生成三级噪声级别。

进一步的，去噪指令包括高级去噪指令、中级去噪指令和低级去噪指令；

高级去噪指令、中级去噪指令和低级去噪指令的生成方法包括：

当噪声级别为一级噪声级别时，生成低级去噪指令；

当噪声级别为二级噪声级别时，生成中级去噪指令；

当噪声级别为三级噪声级别时，生成高级去噪指令；

去噪方式包括高斯滤波方式、小波去噪方式和图像增强方式；

高斯滤波方式、小波去噪方式和图像增强方式的选择方法包括：

当去噪指令为低级去噪指令时，选择图像增强方式；

当去噪指令为中级去噪指令时，选择小波去噪方式；

当去噪指令为高级去噪指令时，选择高斯滤波方式。

进一步的，个子区域的拼接方法包括：

随机选择一个子区域作为基础区域，并识别基础区域的编号，记为基础编号；

从余下个子区域内分别选择与基础编号相邻的两个编号对应的子区域，记为待拼接区域；

将编号大于基础编号的待拼接区域拼接在基础区域的下方，将编号小于基础编号的待拼接区域拼接在基础区域的上方；

遍历个子区域，直至/>个子区域被拼接成完。

本发明一种档案OCR图像自适应去噪方法的技术效果和优点：

本发明通过将档案OCR图像分割成个子区域，采集/>个子区域的噪声关联数据，生成/>个噪声强度评估值，并将/>个噪声强度评估值分别与预设的噪声强度阈值对比分析，判定是否存在噪声区域，对于噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析，生成噪声级别，根据噪声级别，生成去噪指令，并自适应的选择去噪方式，最后将去噪后的/>个子区域拼接，获得去噪后的档案OCR图像；相对于现有技术，能够将整体大面积的档案OCR图像分割成多个独立的小面积图像，通过对多个小面积图像的噪声识别计算，可以降低单次图像噪声识别的数据计算量，避免整体档案OCR图像噪声识别计算时的巨大数据计算量，提高噪声识别计算速率，同时也能够精准的识别到存在噪声的图像区域，并针对噪声区域进行自适应的去噪方式选择，既避免了采用单一去噪方式对档案OCR图像去噪时导致的不匹配，也能够避免对无噪声区域的噪声识别、计算和处理步骤，提高去噪效率。

附图说明

图1为本发明实施例1提供的一种档案OCR图像自适应去噪方法的流程示意图；

图2为本发明实施例2提供的一种档案OCR图像自适应去噪系统的示意图；

图3为本发明实施例1提供的子区域的分布示意图；

图4为本发明实施例1提供的关联交叉点的分布示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1所示，本实施例所述一种档案OCR图像自适应去噪方法，应用于图像去噪服务器，方法包括：

档案OCR图像中包含了扫描档案文件的全部文本信息，由于档案OCR图像的面积较大，档案OCR图像中的扫描信息内容较多，使得档案OCR图像中不同区域的噪声强度有所不同，为了更好的对档案OCR图像进行去噪，需要将档案OCR图像分割成若干个小区域进行分别单独去噪；

而将档案OCR图像分割时，需要依照分割准则进行分割，分割准则是能够确保分割后的相邻子区域的面积差值控制在合理范围内，并通过合理范围的面积差值，规避面积差值过大的子区域中数据数量的差异程度，从而避免随机分割时导致的每个子区域计算量差异过大的现象；

综上所述，分割准则为：分割后的任意两个相邻子区域的面积差值，均小于等于任意一个子区域面积值的十分之一；

个子区域的分割方法包括：

以条分割线为边界，将档案OCR图像分割成/>个子区域；

对个子区域沿档案OCR图像的长边方向依次进行升序编号；

请参阅图3，示例性的，基于上述个子区域的分割方法，获得/>个子区域，图中，A1、A2、A3为分割点，L1、L2、L3为分隔线，1、2、3、4为编号；

噪声关联数据是指在档案OCR图像出现噪声时，与噪声的强度相关联的各种综合参数，通过采集噪声关联数据，可以对档案OCR图像的噪声强度进行评估，并为后续的档案OCR图像去噪处理提供准确的数据支持；

噪声关联数据包括中值像素占比率、峰值波动度、孤立点活跃度和低值像素关联值；

中值像素占比率是指在档案OCR图像中，某一识别区域内灰度值处于中间范围的像素点的数量占据识别区域内所有像素点数量的比值，当中值像素率越大时，说明识别区域内灰度值处于中间范围的像素点的数量较多，则档案OCR图像中的文本信息较清晰，噪声强度评估值越小；

中值像素占比率的获取方法包括：

在个子区域内分别随机画出/>个不相邻的圆，将圆标记为识别区域；通过随机画出的不相邻的圆，可以确保每一个识别区域之间的相互独立，避免识别区域相邻时而导致相邻重合位置的数据被重复计算，一方面能够降低数据的计算量，另一方面也能够规避重复计算带来的误差，提高计算准确度；

将灰度值大于预设的第一灰度阈值和小于第二灰度阈值的像素点记为中值像素点，第一灰度阈值小于第二灰度阈值；预设的第一灰度阈值和第二灰度阈值是能够判断像素点灰度值处于噪声范围还是非噪声范围的依据，当像素点处于噪声范围内时，该像素点可能会呈现白色或黑色，此时像素点对应的灰度值会变小或变大，进而导致像素点的灰度值变小或变大，而预设的第一灰度阈值和第二灰度阈值则是分别对应像素带灰度值变小或变大的边界，预设的第一灰度阈值和第二灰度阈是通过采集历史大量的像素点处于噪声范围内时灰度值后，经过系数优化后得到的；

子占比率的表达式为：

；

将个子占比率累加后求平均，获得中值像素占比率；

中值像素占比率的表达式为：

；

式中，为第/>个子区域的中值像素占比率，/>为第/>个子区域的第/>个子占比率；

峰值波动度是指在档案OCR图像构成的灰度直方图中，峰值对应的数值与灰度平均值的差距大小，当峰值波动度越大时，说明子区域内噪声强度较大，则档案OCR图像中的文本信息较模糊，噪声强度评估值越大；

峰值波动度的获取方法包括：

峰值波动度的表达式为：

;

式中，为第/>个子区域的峰值波动度，/>为第/>个子区域的像素点灰度值的最大值，/>为第/>个子区域的灰度平均值；

孤立点活跃度是指档案OCR图像中，某一限定区域内存在的互不相邻的孤立异常像素点之间的间隔幅度，当档案OCR图像中出现噪声时，会造成档案OCR图像中出现多个间隔不连续的孤立像素点，当孤立点活跃度越大时，说明档案OCR图像的噪声强度越大，则噪声强度评估值越大；

孤立点活跃度的获取方法包括：

在个子区域内分别划分/>个大小一致的矩形区域；

将第一活跃区域和第二活跃区域之间的区域记为取样区域；通过设置的取样区域能够在矩形区域限定的大范围内，对取样区域进行二次小范围的限定，从而获得能够合理且较大化体现孤立像素点活跃程度的区域，避免了采用依次区域划分获得取样区域，而导致的孤立像素点活跃程度过高或过低现象，确保取样的像素点具有代表性；

将个孤立间距累加后求平均，获得子活跃度；

子活跃度的表达式为：

;

式中，为第/>个子区域第/>个取样区域的子活跃度，/>为第/>个子区域第个取样区域的第/>个孤立间距；

孤立点活跃度的表达式为：

;

式中，为第/>个子区域的孤立点活跃度，/>为第/>个子区域的第/>个子活跃度；

低值像素关联值是指档案OCR图像中，某一区域内处于低灰度值的像素点所属范围之间的关联交叉点的数量，不同低灰度值的像素点所属范围之间的关联交叉点的数量为没有关联交叉点、一个关联交叉点和两个关联交叉点，当低值像素关联值越大时，说明档案OCR图像中处于低灰度值的像素点所属范围之间的关联交叉点的数量越多，则噪声强度评估值越大；

低值像素关联值的获取方法包括：

以个低值像素点所在位置为圆心，以预设长度为半径画圆，得到/>个低值圆；预设长度是指可以确保以所有低值像素点为圆心所画的圆中至少含有两个关联交叉点数量的依据，使得所有低值圆之间能够存在可以计算的关联交叉点数量，而预设长度是通过采集历史大量的低值圆中存在至少两个的关联交叉点的数量所对应的长度后，并通过系数优化后得到的；

低值像素关联值的表达式为：

;

请参阅图4，示例性的，基于上述低值像素关联值的获取方法，获得关联交叉点，图中，Y1、Y2、Y3、Y4、Y5为低值圆的圆心，G1、G2、G3、G4、G5、G6为关联交叉点；

噪声强度评估值是用来对档案OCR图像中噪声的强度进行评估的数值体现，通过生成的噪声强度评估值，方便对档案OCR图像进行自适应的去噪方式的选择，当噪声强度评估值越大时，说明档案OCR图像中噪声的强度越强，反之则相反；

噪声强度评估值的表达式为：

；

式中，为第/>个子区域的噪声强度评估值，/>、/>、/>、/>为权重因子；将设定的权重因子和采集的噪声关联数据代入公式，任意四个公式构成四元一次方程组，将计算得到的权重因子进行筛选并取均值，得到/>、/>、/>、/>的均值；

另外，需要说明的是，权重因子的大小是为了将各个数据进行量化得到的一个具体的数值，便于后续比较，关于权重因子的大小，取决于噪声关联数据的多少及本领域技术人员对每一组噪声关联数据初步设定对应的权重因子；

是否存在噪声区域的判定方法包括：

将个噪声强度评估值逐一与预设的噪声强度阈值/>对比分析，/>大于0；预设的噪声强度阈值/>，是用于判断档案OCR图像中存在噪声现象的数值体现，不同强度的噪声对档案OCR图像的影响程度也不一样，为了将所有对档案OCR图像存在影响的噪声强度进行识别，就需要设定噪声强度阈值限定噪声的强度最低值，而预设的噪声强度阈值是通过采集大量历史对档案OCR图像造成影响的最低噪声强度对应的数值后，经过系数优化后得到的；

当大于等于/>时，说明第/>个子区域的噪声强度评估值大于等于预设的噪声强度阈值，则判定存在噪声区域；

当小于/>时，说明第/>个子区域的噪声强度评估值小于预设的噪声强度阈值，则判定不存在噪声区域；

S4：将个噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析，/>小于等于/>根据对比结果，生成/>个噪声级别；

噪声级别包括一级噪声级别、二级噪声级别和三级噪声级别，且一级噪声级别的噪声强度小于二级噪声级别的噪声强度，二级噪声级别的噪声强度小于三级噪声级别的噪声强度；

将个噪声区域的噪声强度评估值/>逐一与预设的第一级别阈值/>和第二级别阈值/>比较，/>小于/>；预设的第一级别阈值/>和第二级别阈值/>是用于判断噪声区域的噪声强度评估值属于哪一强度级别的依据，第一级别阈值/>和第二级别阈值/>通过采集大量历史处于不同级别强度的噪声强度评估值后，经过系数优化后的得到的；

当小于/>时，说明第/>个子区域的噪声强度低，则生成一级噪声级别；

当小于等于/>，且/>小于/>时，说明第/>个子区域的噪声强度中，则生成二级噪声级别；

当大于等于/>时，说明第/>个子区域的噪声强度高，则生成三级噪声级别；

去噪指令是指针对不同级别强度的噪声，生成的相适应的去噪措施，不同级别强度的噪声对应不同的去噪措施；

去噪指令包括高级去噪指令、中级去噪指令和低级去噪指令；

当噪声级别为一级噪声级别时，说明噪声强度低，则生成低级去噪指令；

当噪声级别为二级噪声级别时，说明噪声强度中，则生成中级去噪指令；

当噪声级别为三级噪声级别时，说明噪声强度高，则生成高级去噪指令；

去噪方式是指针对不同去噪指令，所应用的能够与去噪指令相符合的去噪具体方式；

当去噪指令为低级去噪指令时，选择图像增强方式；

当去噪指令为中级去噪指令时，选择小波去噪方式；

当去噪指令为高级去噪指令时，选择高斯滤波方式；

高斯滤波方式、小波去噪方式和图像增强方式具体的去噪方式均为现有技术，并已经在本领域当中作为常规的技术手段进行使用，此处不再对其过多阐述；

S6：在个噪声区域去噪后，将/>个子区域拼接，获得去噪后的档案OCR图像；

当噪声区域被去噪处理后，噪声区域内的文字信息能够被准确快速的识别，此时需要将分割后的子区域进行拼接，使得个子区域能够拼接成与分割前大小和形状一致的完整状态；

个子区域的拼接方法包括：

遍历个子区域，直至/>个子区域被拼接成完。

本实施例中，通过将档案OCR图像分割成个子区域，采集/>个子区域的噪声关联数据，生成/>个噪声强度评估值，并将/>个噪声强度评估值分别与预设的噪声强度阈值对比分析，判定是否存在噪声区域，对于噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析，生成噪声级别，根据噪声级别，生成去噪指令，并自适应的选择去噪方式，最后将去噪后的/>个子区域拼接，获得去噪后的档案OCR图像；相对于现有技术，能够将整体大面积的档案OCR图像分割成多个独立的小面积图像，通过对多个小面积图像的噪声识别计算，可以降低单次图像噪声识别的数据计算量，避免整体档案OCR图像噪声识别计算时的巨大数据计算量，提高噪声识别计算速率，同时也能够精准的识别到存在噪声的图像区域，并针对噪声区域进行自适应的去噪方式选择，既避免了采用单一去噪方式对档案OCR图像去噪时导致的不匹配，也能够避免对无噪声区域的去噪步骤，提高去噪效率。

实施例2：请参阅图2所示，本实施例未详细叙述部分见实施例1描述内容，提供一种档案OCR图像自适应去噪系统，应用于图像去噪服务器，用于实现一种档案OCR图像自适应去噪方法，包括图像分割模块、评估计算模块、区域判定模块、级别区分模块、去噪指令模块和图像拼接模块，其中，各个模块之间通过有线或无线网络方式连接；

图像分割模块，用于扫描档案文件获得档案OCR图像，基于分割准则，将档案OCR图像分割成个子区域；

评估计算模块，用于采集个子区域的噪声关联数据，基于/>个噪声关联数据，生成个噪声强度评估值；

区域判定模块，用于将个噪声强度评估值分别与预设的噪声强度阈值对比分析，判定是否存在噪声区域；

级别区分模块，用于将个噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析，/>小于等于/>根据对比结果，生成/>个噪声级别；

去噪指令模块，用于根据个噪声级别，生成/>个去噪指令，根据/>个去噪指令，自适应的选择去噪方式；

图像拼接模块，用于在个噪声区域去噪后，将/>个子区域拼接，获得去噪后的档案OCR图像。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种档案OCR图像自适应去噪方法，应用于图像去噪服务器，其特征在于，方法包括：

2.根据权利要求1所述的一种档案OCR图像自适应去噪方法，其特征在于，所述分割准则为：分割后的任意两个相邻子区域的面积差值，均小于等于任意一个子区域面积值的十分之一；

个子区域的分割方法包括：

以个分割点为基点，按照分割准则，沿平行于档案OCR图像的短边方向画线，获得条分割线；

以条分割线为边界，将档案OCR图像分割成/>个子区域；

对个子区域沿档案OCR图像的长边方向依次进行升序编号。

3.根据权利要求2所述的一种档案OCR图像自适应去噪方法，其特征在于，所述噪声关联数据包括中值像素占比率、峰值波动度、孤立点活跃度和低值像素关联值；

中值像素占比率的获取方法包括：

子占比率的表达式为：

；

将个子占比率累加后求平均，获得中值像素占比率；

中值像素占比率的表达式为：

；

4.根据权利要求3所述的一种档案OCR图像自适应去噪方法，其特征在于，所述峰值波动度的获取方法包括：

峰值波动度的表达式为：

；

5.根据权利要求4所述的一种档案OCR图像自适应去噪方法，其特征在于，所述孤立点活跃度的获取方法包括：

在个子区域内分别划分/>个大小一致的矩形区域；

将第一活跃区域和第二活跃区域之间的区域记为取样区域；

将个孤立间距累加后求平均，获得子活跃度；

子活跃度的表达式为：

；

孤立点活跃度的表达式为：

；

6.根据权利要求5所述的一种档案OCR图像自适应去噪方法，其特征在于，所述低值像素关联值的获取方法包括：

低值像素关联值的表达式为：

；

噪声强度评估值的表达式为：

；

7.根据权利要求6所述的一种档案OCR图像自适应去噪方法，其特征在于，所述是否存在噪声区域的判定方法包括：

当大于等于/>时，判定存在噪声区域；

当小于/>时，判定不存在噪声区域。

8.根据权利要求7所述的一种档案OCR图像自适应去噪方法，其特征在于，所述噪声级别包括一级噪声级别、二级噪声级别和三级噪声级别；

当小于/>时，生成一级噪声级别；

当小于等于/>，且/>小于/>时，生成二级噪声级别；

当大于等于/>时，生成三级噪声级别。

9.根据权利要求8所述的一种档案OCR图像自适应去噪方法，其特征在于，所述去噪指令包括高级去噪指令、中级去噪指令和低级去噪指令；

当噪声级别为一级噪声级别时，生成低级去噪指令；

当噪声级别为二级噪声级别时，生成中级去噪指令；

当噪声级别为三级噪声级别时，生成高级去噪指令；

当去噪指令为低级去噪指令时，选择图像增强方式；

当去噪指令为中级去噪指令时，选择小波去噪方式；

当去噪指令为高级去噪指令时，选择高斯滤波方式。

10.根据权利要求9所述的一种档案OCR图像自适应去噪方法，其特征在于，所述个子区域的拼接方法包括：

遍历个子区域，直至/>个子区域被拼接成完。