CN117423113B - 一种档案ocr图像自适应去噪方法 - Google Patents

一种档案ocr图像自适应去噪方法 Download PDF

Info

Publication number
CN117423113B
CN117423113B CN202311732780.4A CN202311732780A CN117423113B CN 117423113 B CN117423113 B CN 117423113B CN 202311732780 A CN202311732780 A CN 202311732780A CN 117423113 B CN117423113 B CN 117423113B
Authority
CN
China
Prior art keywords
noise
sub
area
denoising
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311732780.4A
Other languages
English (en)
Other versions
CN117423113A (zh
Inventor
罗桂富
宋伟业
路卫峰
李剑
杨芳
徐延政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Huazheng Information Technology Co ltd
Original Assignee
Qingdao Huazheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Huazheng Information Technology Co ltd filed Critical Qingdao Huazheng Information Technology Co ltd
Priority to CN202311732780.4A priority Critical patent/CN117423113B/zh
Publication of CN117423113A publication Critical patent/CN117423113A/zh
Application granted granted Critical
Publication of CN117423113B publication Critical patent/CN117423113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像去噪技术领域,本发明公开了一种档案OCR图像自适应去噪方法;包括将档案OCR图像分割成个子区域,采集个子区域的噪声关联数据,生成个噪声强度评估值,判定是否存在噪声区域,对于噪声区域生成噪声级别,根据噪声级别,生成去噪指令,并自适应的选择去噪方式;相对于现有技术,能够将大面积的档案OCR图像分割成多个独立的小面积图像,可以降低单次图像噪声识别的数据计算量,也能够精准的识别到存在噪声的图像区域,并针对噪声区域进行自适应的去噪方式选择,既避免了采用单一去噪方式对档案OCR图像去噪时导致的不匹配,也能够避免对无噪声区域的噪声识别、计算和处理步骤,进而提高去噪效率。

Description

一种档案OCR图像自适应去噪方法
技术领域
本发明涉及图像去噪技术领域,更具体地说,本发明涉及一种档案OCR图像自适应去噪方法。
背景技术
现实中的信号或图像在生成、传输、接收和处理的过程中经常受到各种噪声的干扰,噪声使信号或图像失真,严重影响后处理和分析,甚至难以实现预期目标,在档案OCR图像的识别当中,为了得到优质量的档案OCR图像,通常情况下需要通过图像降噪的算法对档案OCR图像进行处理和优化。
传统的图像降噪的方法有以下几种:
高斯滤波:适用于消除高斯噪声,广泛应用于图像处理的减噪过程,高斯滤波的具体操作是:用一个模板扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值;
小波去噪:保留了大部分包含信号的小波系数,可以较好地保持图像的细节;
图像增强:通过一定手段对原图像附加一些信息或变换数据,有选择地突出图像中感兴趣的特征或者抑制图像中某些不需要的特征,使图像与视觉响应特性相匹配。
申请公开号为CN108109123A的中国专利公开了一种图像去噪方法,其利用噪声估计值去判断平坦区域和细节区域,处理速度快,硬件实现资源开销小,实现方便,并将细节区域与平坦区域分开处理,不仅使得平坦区域得到了较好的效果,还能保留原待处理图像中的细节区域,使得待处理图像中的纹理细节得到了保留,进一步提高了图像去噪处理的效果;
现有技术存在以下不足:
现有的图像去噪方式通常是将图像进行整体的噪声强度识别计算,由于图像整体的面积较大,使得噪声识别计算的数据量较大,降低了噪声计算速率,并且采用图像整体统一去噪的方式,会在图像去噪时将没有噪声的区域合并处理,导致图像去噪的时间变长,进而降低了去噪效率。
鉴于此,本发明提出一种档案OCR图像自适应去噪方法以解决上述问题。
发明内容
为了克服现有技术的上述缺陷,为实现上述目的,本发明提供如下技术方案:一种档案OCR图像自适应去噪方法,应用于图像去噪服务器,方法包括:
S1:扫描档案文件获得档案OCR图像,基于分割准则,将档案OCR图像分割成个子区域;
S2:采集个子区域的噪声关联数据,基于个噪声关联数据,生成个噪声强度评估值;
S3:将个噪声强度评估值分别与预设的噪声强度阈值对比分析,判定是否存在噪声区域;若存在,则执行S4-S6;若不存在,则重复执行S3;
S4:将个噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析,根据对比结果,生成个噪声级别;
S5:根据个噪声级别,生成个去噪指令,根据个去噪指令,自适应的选择去噪方式;
S6:在个噪声区域去噪后,将个子区域拼接,获得去噪后的档案OCR图像。
进一步的,分割准则为:分割后的任意两个相邻子区域的面积差值,均小于等于任意一个子区域面积值的十分之一;
个子区域的分割方法包括:
测量档案OCR图像长边的长度值,在档案OCR图像的长边标记个分割点;
个分割点为基点,按照分割准则,沿平行于档案OCR图像的短边方向画线,获得条分割线;
条分割线为边界,将档案OCR图像分割成个子区域;
个子区域沿档案OCR图像的长边方向依次进行升序编号。
进一步的,噪声关联数据包括中值像素占比率、峰值波动度、孤立点活跃度和低值像素关联值;
中值像素占比率的获取方法包括:
个子区域内分别随机画出个不相邻的圆,将圆标记为识别区域;
分别统计个识别区域内的像素点数量,通过OpenCV标记所有像素点的灰度值;
将灰度值大于预设的第一灰度阈值和小于第二灰度阈值的像素点记为中值像素点,第一灰度阈值小于第二灰度阈值;
个识别区域内的中值像素点的数量与所有像素点的数量比较,获得个子占比率;
子占比率的表达式为:
式中,为第个子区域第个识别区域的子占比率,为第个子区域第个识别区域的中值像素点的数量,为第个子区域第个识别区域的所有像素点的数量;
个子占比率累加后求平均,获得中值像素占比率;
中值像素占比率的表达式为:
式中,为第个子区域的中值像素占比率,为第个子区域的第个子占比率。
进一步的,峰值波动度的获取方法包括:
分别获取个子区域内的像素点灰度值和像素点数量,以像素点灰度值为横坐标,像素点数量为纵坐标构建灰度直方图;
通过累加求均值的方式计算灰度直方图中所有像素点灰度值的灰度平均值;
将灰度直方图中像素点灰度值的最大值与灰度平均值差值比较,获得峰值波动度;
峰值波动度的表达式为:
式中,为第个子区域的峰值波动度,为第个子区域的像素点灰度值的最大值,为第个子区域的灰度平均值。
进一步的,孤立点活跃度的获取方法包括:
个子区域内分别划分个大小一致的矩形区域;
以矩形区域的中心为基点,分别以矩形区域的二分之一边长和三分之一边长为半径画圆,得到第一活跃区域和第二活跃区域;
将第一活跃区域和第二活跃区域之间的区域记为取样区域;
在取样区域随机标记个孤立的像素点,并沿顺时针方向依次测量相邻两个孤立的像素点之间的间距,得到个孤立间距;
个孤立间距累加后求平均,获得子活跃度;
子活跃度的表达式为:
式中,为第个子区域第个取样区域的子活跃度,为第个子区域第个取样区域的第个孤立间距;
去除掉子活跃度的最大值和最小值,将个子活跃度累加后求平均,获得孤立点活跃度;
孤立点活跃度的表达式为:
式中,为第个子区域的孤立点活跃度,为第个子区域的第个子活跃度。
进一步的,低值像素关联值的获取方法包括:
个子区域内分别标记个灰度值小于预设的第一灰度阈值的像素点,记为低值像素点;
个低值像素点所在位置为圆心,以预设长度为半径画圆,得到个低值圆;
统计个低值圆的关联交叉点的数量,并与低值圆的数量比较,获得低值像素关联值;
低值像素关联值的表达式为:
式中,为第个子区域的低值像素关联值,为第个子区域的关联交叉点的数量,为低值圆的数量;
噪声强度评估值的表达式为:
式中,为第个子区域的噪声强度评估值,为权重因子。
进一步的,是否存在噪声区域的判定方法包括:
个噪声强度评估值逐一与预设的噪声强度阈值对比分析,大于0;
大于等于时,判定存在噪声区域;
小于时,判定不存在噪声区域。
进一步的,噪声级别包括一级噪声级别、二级噪声级别和三级噪声级别;
一级噪声级别、二级噪声级别和三级噪声级别的生成方法包括:
个噪声区域的噪声强度评估值逐一与预设的第一级别阈值和第二级别阈值比较,小于
小于时,生成一级噪声级别;
小于等于,且小于时,生成二级噪声级别;
大于等于时,生成三级噪声级别。
进一步的,去噪指令包括高级去噪指令、中级去噪指令和低级去噪指令;
高级去噪指令、中级去噪指令和低级去噪指令的生成方法包括:
当噪声级别为一级噪声级别时,生成低级去噪指令;
当噪声级别为二级噪声级别时,生成中级去噪指令;
当噪声级别为三级噪声级别时,生成高级去噪指令;
去噪方式包括高斯滤波方式、小波去噪方式和图像增强方式;
高斯滤波方式、小波去噪方式和图像增强方式的选择方法包括:
当去噪指令为低级去噪指令时,选择图像增强方式;
当去噪指令为中级去噪指令时,选择小波去噪方式;
当去噪指令为高级去噪指令时,选择高斯滤波方式。
进一步的,个子区域的拼接方法包括:
随机选择一个子区域作为基础区域,并识别基础区域的编号,记为基础编号;
从余下个子区域内分别选择与基础编号相邻的两个编号对应的子区域,记为待拼接区域;
将编号大于基础编号的待拼接区域拼接在基础区域的下方,将编号小于基础编号的待拼接区域拼接在基础区域的上方;
遍历个子区域,直至个子区域被拼接成完。
本发明一种档案OCR图像自适应去噪方法的技术效果和优点:
本发明通过将档案OCR图像分割成个子区域,采集个子区域的噪声关联数据,生成个噪声强度评估值,并将个噪声强度评估值分别与预设的噪声强度阈值对比分析,判定是否存在噪声区域,对于噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析,生成噪声级别,根据噪声级别,生成去噪指令,并自适应的选择去噪方式,最后将去噪后的个子区域拼接,获得去噪后的档案OCR图像;相对于现有技术,能够将整体大面积的档案OCR图像分割成多个独立的小面积图像,通过对多个小面积图像的噪声识别计算,可以降低单次图像噪声识别的数据计算量,避免整体档案OCR图像噪声识别计算时的巨大数据计算量,提高噪声识别计算速率,同时也能够精准的识别到存在噪声的图像区域,并针对噪声区域进行自适应的去噪方式选择,既避免了采用单一去噪方式对档案OCR图像去噪时导致的不匹配,也能够避免对无噪声区域的噪声识别、计算和处理步骤,提高去噪效率。
附图说明
图1为本发明实施例1提供的一种档案OCR图像自适应去噪方法的流程示意图;
图2为本发明实施例2提供的一种档案OCR图像自适应去噪系统的示意图;
图3为本发明实施例1提供的子区域的分布示意图;
图4为本发明实施例1提供的关联交叉点的分布示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:请参阅图1所示,本实施例所述一种档案OCR图像自适应去噪方法,应用于图像去噪服务器,方法包括:
S1:扫描档案文件获得档案OCR图像,基于分割准则,将档案OCR图像分割成个子区域;
档案OCR图像中包含了扫描档案文件的全部文本信息,由于档案OCR图像的面积较大,档案OCR图像中的扫描信息内容较多,使得档案OCR图像中不同区域的噪声强度有所不同,为了更好的对档案OCR图像进行去噪,需要将档案OCR图像分割成若干个小区域进行分别单独去噪;
而将档案OCR图像分割时,需要依照分割准则进行分割,分割准则是能够确保分割后的相邻子区域的面积差值控制在合理范围内,并通过合理范围的面积差值,规避面积差值过大的子区域中数据数量的差异程度,从而避免随机分割时导致的每个子区域计算量差异过大的现象;
综上所述,分割准则为:分割后的任意两个相邻子区域的面积差值,均小于等于任意一个子区域面积值的十分之一;
个子区域的分割方法包括:
测量档案OCR图像长边的长度值,在档案OCR图像的长边标记个分割点;
个分割点为基点,按照分割准则,沿平行于档案OCR图像的短边方向画线,获得条分割线;
条分割线为边界,将档案OCR图像分割成个子区域;
个子区域沿档案OCR图像的长边方向依次进行升序编号;
请参阅图3,示例性的,基于上述个子区域的分割方法,获得个子区域,图中,A1、A2、A3为分割点,L1、L2、L3为分隔线,1、2、3、4为编号;
S2:采集个子区域的噪声关联数据,基于个噪声关联数据,生成个噪声强度评估值;
噪声关联数据是指在档案OCR图像出现噪声时,与噪声的强度相关联的各种综合参数,通过采集噪声关联数据,可以对档案OCR图像的噪声强度进行评估,并为后续的档案OCR图像去噪处理提供准确的数据支持;
噪声关联数据包括中值像素占比率、峰值波动度、孤立点活跃度和低值像素关联值;
中值像素占比率是指在档案OCR图像中,某一识别区域内灰度值处于中间范围的像素点的数量占据识别区域内所有像素点数量的比值,当中值像素率越大时,说明识别区域内灰度值处于中间范围的像素点的数量较多,则档案OCR图像中的文本信息较清晰,噪声强度评估值越小;
中值像素占比率的获取方法包括:
个子区域内分别随机画出个不相邻的圆,将圆标记为识别区域;通过随机画出的不相邻的圆,可以确保每一个识别区域之间的相互独立,避免识别区域相邻时而导致相邻重合位置的数据被重复计算,一方面能够降低数据的计算量,另一方面也能够规避重复计算带来的误差,提高计算准确度;
分别统计个识别区域内的像素点数量,通过OpenCV标记所有像素点的灰度值;
将灰度值大于预设的第一灰度阈值和小于第二灰度阈值的像素点记为中值像素点,第一灰度阈值小于第二灰度阈值;预设的第一灰度阈值和第二灰度阈值是能够判断像素点灰度值处于噪声范围还是非噪声范围的依据,当像素点处于噪声范围内时,该像素点可能会呈现白色或黑色,此时像素点对应的灰度值会变小或变大,进而导致像素点的灰度值变小或变大,而预设的第一灰度阈值和第二灰度阈值则是分别对应像素带灰度值变小或变大的边界,预设的第一灰度阈值和第二灰度阈是通过采集历史大量的像素点处于噪声范围内时灰度值后,经过系数优化后得到的;
个识别区域内的中值像素点的数量与所有像素点的数量比较,获得个子占比率;
子占比率的表达式为:
式中,为第个子区域第个识别区域的子占比率,为第个子区域第个识别区域的中值像素点的数量,为第个子区域第个识别区域的所有像素点的数量;
个子占比率累加后求平均,获得中值像素占比率;
中值像素占比率的表达式为:
式中,为第个子区域的中值像素占比率,为第个子区域的第个子占比率;
峰值波动度是指在档案OCR图像构成的灰度直方图中,峰值对应的数值与灰度平均值的差距大小,当峰值波动度越大时,说明子区域内噪声强度较大,则档案OCR图像中的文本信息较模糊,噪声强度评估值越大;
峰值波动度的获取方法包括:
分别获取个子区域内的像素点灰度值和像素点数量,以像素点灰度值为横坐标,像素点数量为纵坐标构建灰度直方图;
通过累加求均值的方式计算灰度直方图中所有像素点灰度值的灰度平均值;
将灰度直方图中像素点灰度值的最大值与灰度平均值差值比较,获得峰值波动度;
峰值波动度的表达式为:
式中,为第个子区域的峰值波动度,为第个子区域的像素点灰度值的最大值,为第个子区域的灰度平均值;
孤立点活跃度是指档案OCR图像中,某一限定区域内存在的互不相邻的孤立异常像素点之间的间隔幅度,当档案OCR图像中出现噪声时,会造成档案OCR图像中出现多个间隔不连续的孤立像素点,当孤立点活跃度越大时,说明档案OCR图像的噪声强度越大,则噪声强度评估值越大;
孤立点活跃度的获取方法包括:
个子区域内分别划分个大小一致的矩形区域;
以矩形区域的中心为基点,分别以矩形区域的二分之一边长和三分之一边长为半径画圆,得到第一活跃区域和第二活跃区域;
将第一活跃区域和第二活跃区域之间的区域记为取样区域;通过设置的取样区域能够在矩形区域限定的大范围内,对取样区域进行二次小范围的限定,从而获得能够合理且较大化体现孤立像素点活跃程度的区域,避免了采用依次区域划分获得取样区域,而导致的孤立像素点活跃程度过高或过低现象,确保取样的像素点具有代表性;
在取样区域随机标记个孤立的像素点,并沿顺时针方向依次测量相邻两个孤立的像素点之间的间距,得到个孤立间距;
个孤立间距累加后求平均,获得子活跃度;
子活跃度的表达式为:
式中,为第个子区域第个取样区域的子活跃度,为第个子区域第个取样区域的第个孤立间距;
去除掉子活跃度的最大值和最小值,将个子活跃度累加后求平均,获得孤立点活跃度;
孤立点活跃度的表达式为:
式中,为第个子区域的孤立点活跃度,为第个子区域的第个子活跃度;
低值像素关联值是指档案OCR图像中,某一区域内处于低灰度值的像素点所属范围之间的关联交叉点的数量,不同低灰度值的像素点所属范围之间的关联交叉点的数量为没有关联交叉点、一个关联交叉点和两个关联交叉点,当低值像素关联值越大时,说明档案OCR图像中处于低灰度值的像素点所属范围之间的关联交叉点的数量越多,则噪声强度评估值越大;
低值像素关联值的获取方法包括:
个子区域内分别标记个灰度值小于预设的第一灰度阈值的像素点,记为低值像素点;
个低值像素点所在位置为圆心,以预设长度为半径画圆,得到个低值圆;预设长度是指可以确保以所有低值像素点为圆心所画的圆中至少含有两个关联交叉点数量的依据,使得所有低值圆之间能够存在可以计算的关联交叉点数量,而预设长度是通过采集历史大量的低值圆中存在至少两个的关联交叉点的数量所对应的长度后,并通过系数优化后得到的;
统计个低值圆的关联交叉点的数量,并与低值圆的数量比较,获得低值像素关联值;
低值像素关联值的表达式为:
式中,为第个子区域的低值像素关联值,为第个子区域的关联交叉点的数量,为低值圆的数量;
请参阅图4,示例性的,基于上述低值像素关联值的获取方法,获得关联交叉点,图中,Y1、Y2、Y3、Y4、Y5为低值圆的圆心,G1、G2、G3、G4、G5、G6为关联交叉点;
噪声强度评估值是用来对档案OCR图像中噪声的强度进行评估的数值体现,通过生成的噪声强度评估值,方便对档案OCR图像进行自适应的去噪方式的选择,当噪声强度评估值越大时,说明档案OCR图像中噪声的强度越强,反之则相反;
噪声强度评估值的表达式为:
式中,为第个子区域的噪声强度评估值,为权重因子;将设定的权重因子和采集的噪声关联数据代入公式,任意四个公式构成四元一次方程组,将计算得到的权重因子进行筛选并取均值,得到的均值;
另外,需要说明的是,权重因子的大小是为了将各个数据进行量化得到的一个具体的数值,便于后续比较,关于权重因子的大小,取决于噪声关联数据的多少及本领域技术人员对每一组噪声关联数据初步设定对应的权重因子;
S3:将个噪声强度评估值分别与预设的噪声强度阈值对比分析,判定是否存在噪声区域;若存在,则执行S4-S6;若不存在,则重复执行S3;
是否存在噪声区域的判定方法包括:
个噪声强度评估值逐一与预设的噪声强度阈值对比分析,大于0;预设的噪声强度阈值,是用于判断档案OCR图像中存在噪声现象的数值体现,不同强度的噪声对档案OCR图像的影响程度也不一样,为了将所有对档案OCR图像存在影响的噪声强度进行识别,就需要设定噪声强度阈值限定噪声的强度最低值,而预设的噪声强度阈值是通过采集大量历史对档案OCR图像造成影响的最低噪声强度对应的数值后,经过系数优化后得到的;
大于等于时,说明第个子区域的噪声强度评估值大于等于预设的噪声强度阈值,则判定存在噪声区域;
小于时,说明第个子区域的噪声强度评估值小于预设的噪声强度阈值,则判定不存在噪声区域;
S4:将个噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析,小于等于,根据对比结果,生成个噪声级别;
噪声级别包括一级噪声级别、二级噪声级别和三级噪声级别,且一级噪声级别的噪声强度小于二级噪声级别的噪声强度,二级噪声级别的噪声强度小于三级噪声级别的噪声强度;
一级噪声级别、二级噪声级别和三级噪声级别的生成方法包括:
个噪声区域的噪声强度评估值逐一与预设的第一级别阈值和第二级别阈值比较,小于;预设的第一级别阈值和第二级别阈值是用于判断噪声区域的噪声强度评估值属于哪一强度级别的依据,第一级别阈值和第二级别阈值通过采集大量历史处于不同级别强度的噪声强度评估值后,经过系数优化后的得到的;
小于时,说明第个子区域的噪声强度低,则生成一级噪声级别;
小于等于,且小于时,说明第个子区域的噪声强度中,则生成二级噪声级别;
大于等于时,说明第个子区域的噪声强度高,则生成三级噪声级别;
S5:根据个噪声级别,生成个去噪指令,根据个去噪指令,自适应的选择去噪方式;
去噪指令是指针对不同级别强度的噪声,生成的相适应的去噪措施,不同级别强度的噪声对应不同的去噪措施;
去噪指令包括高级去噪指令、中级去噪指令和低级去噪指令;
高级去噪指令、中级去噪指令和低级去噪指令的生成方法包括:
当噪声级别为一级噪声级别时,说明噪声强度低,则生成低级去噪指令;
当噪声级别为二级噪声级别时,说明噪声强度中,则生成中级去噪指令;
当噪声级别为三级噪声级别时,说明噪声强度高,则生成高级去噪指令;
去噪方式是指针对不同去噪指令,所应用的能够与去噪指令相符合的去噪具体方式;
去噪方式包括高斯滤波方式、小波去噪方式和图像增强方式;
高斯滤波方式、小波去噪方式和图像增强方式的选择方法包括:
当去噪指令为低级去噪指令时,选择图像增强方式;
当去噪指令为中级去噪指令时,选择小波去噪方式;
当去噪指令为高级去噪指令时,选择高斯滤波方式;
高斯滤波方式、小波去噪方式和图像增强方式具体的去噪方式均为现有技术,并已经在本领域当中作为常规的技术手段进行使用,此处不再对其过多阐述;
S6:在个噪声区域去噪后,将个子区域拼接,获得去噪后的档案OCR图像;
当噪声区域被去噪处理后,噪声区域内的文字信息能够被准确快速的识别,此时需要将分割后的子区域进行拼接,使得个子区域能够拼接成与分割前大小和形状一致的完整状态;
个子区域的拼接方法包括:
随机选择一个子区域作为基础区域,并识别基础区域的编号,记为基础编号;
从余下个子区域内分别选择与基础编号相邻的两个编号对应的子区域,记为待拼接区域;
将编号大于基础编号的待拼接区域拼接在基础区域的下方,将编号小于基础编号的待拼接区域拼接在基础区域的上方;
遍历个子区域,直至个子区域被拼接成完。
本实施例中,通过将档案OCR图像分割成个子区域,采集个子区域的噪声关联数据,生成个噪声强度评估值,并将个噪声强度评估值分别与预设的噪声强度阈值对比分析,判定是否存在噪声区域,对于噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析,生成噪声级别,根据噪声级别,生成去噪指令,并自适应的选择去噪方式,最后将去噪后的个子区域拼接,获得去噪后的档案OCR图像;相对于现有技术,能够将整体大面积的档案OCR图像分割成多个独立的小面积图像,通过对多个小面积图像的噪声识别计算,可以降低单次图像噪声识别的数据计算量,避免整体档案OCR图像噪声识别计算时的巨大数据计算量,提高噪声识别计算速率,同时也能够精准的识别到存在噪声的图像区域,并针对噪声区域进行自适应的去噪方式选择,既避免了采用单一去噪方式对档案OCR图像去噪时导致的不匹配,也能够避免对无噪声区域的去噪步骤,提高去噪效率。
实施例2:请参阅图2所示,本实施例未详细叙述部分见实施例1描述内容,提供一种档案OCR图像自适应去噪系统,应用于图像去噪服务器,用于实现一种档案OCR图像自适应去噪方法,包括图像分割模块、评估计算模块、区域判定模块、级别区分模块、去噪指令模块和图像拼接模块,其中,各个模块之间通过有线或无线网络方式连接;
图像分割模块,用于扫描档案文件获得档案OCR图像,基于分割准则,将档案OCR图像分割成个子区域;
评估计算模块,用于采集个子区域的噪声关联数据,基于个噪声关联数据,生成个噪声强度评估值;
区域判定模块,用于将个噪声强度评估值分别与预设的噪声强度阈值对比分析,判定是否存在噪声区域;
级别区分模块,用于将个噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析,小于等于,根据对比结果,生成个噪声级别;
去噪指令模块,用于根据个噪声级别,生成个去噪指令,根据个去噪指令,自适应的选择去噪方式;
图像拼接模块,用于在个噪声区域去噪后,将个子区域拼接,获得去噪后的档案OCR图像。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种档案OCR图像自适应去噪方法,应用于图像去噪服务器,其特征在于,方法包括:
S1:扫描档案文件获得档案OCR图像,基于分割准则,将档案OCR图像分割成个子区域;
所述分割准则为:分割后的任意两个相邻子区域的面积差值,均小于等于任意一个子区域面积值的十分之一;
个子区域的分割方法包括:
测量档案OCR图像长边的长度值,在档案OCR图像的长边标记个分割点;
个分割点为基点,按照分割准则,沿平行于档案OCR图像的短边方向画线,获得条分割线;
条分割线为边界,将档案OCR图像分割成个子区域;
个子区域沿档案OCR图像的长边方向依次进行升序编号;
S2:采集个子区域的噪声关联数据,基于个噪声关联数据,生成个噪声强度评估值;
S3:将个噪声强度评估值分别与预设的噪声强度阈值对比分析,判定是否存在噪声区域;若存在,则执行S4-S6;若不存在,则重复执行S3;
S4:将个噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析,根据对比结果,生成个噪声级别;
S5:根据个噪声级别,生成个去噪指令,根据个去噪指令,自适应的选择去噪方式;
S6:在个噪声区域去噪后,将个子区域拼接,获得去噪后的档案OCR图像;
所述噪声关联数据包括中值像素占比率、峰值波动度、孤立点活跃度和低值像素关联值;
中值像素占比率的获取方法包括:
个子区域内分别随机画出个不相邻的圆,将圆标记为识别区域;
分别统计个识别区域内的像素点数量,通过 OpenCV标记所有像素点的灰度值;
将灰度值大于预设的第一灰度阈值和小于第二灰度阈值的像素点记为中值像素点,第一灰度阈值小于第二灰度阈值;
个识别区域内的中值像素点的数量与所有像素点的数量比较,获得个子占比率;
子占比率的表达式为:
式中,为第个子区域第个识别区域的子占比率,为第个子区域第个识别区域的中值像素点的数量,为第个子区域第个识别区域的所有像素点的数量;
个子占比率累加后求平均,获得中值像素占比率;
中值像素占比率的表达式为:
式中,为第个子区域的中值像素占比率,为第个子区域的第个子占比率;
所述峰值波动度的获取方法包括:
分别获取个子区域内的像素点灰度值和像素点数量,以像素点灰度值为横坐标,像素点数量为纵坐标构建灰度直方图;
通过累加求均值的方式计算灰度直方图中所有像素点灰度值的灰度平均值;
将灰度直方图中像素点灰度值的最大值与灰度平均值作差,获得峰值波动度;
峰值波动度的表达式为:
式中,为第个子区域的峰值波动度,为第个子区域的像素点灰度值的最大值,为第个子区域的灰度平均值;
所述孤立点活跃度的获取方法包括:
个子区域内分别划分个大小一致的矩形区域;
以矩形区域的中心为基点,分别以矩形区域的二分之一边长和三分之一边长为半径画圆,得到第一活跃区域和第二活跃区域;
将第一活跃区域和第二活跃区域之间的区域记为取样区域;
在取样区域随机标记个孤立的像素点,并沿顺时针方向依次测量相邻两个孤立的像素点之间的间距,得到个孤立间距;
个孤立间距累加后求平均,获得子活跃度;
子活跃度的表达式为:
式中,为第个子区域第个取样区域的子活跃度,为第个子区域第个取样区域的第个孤立间距;
去除掉子活跃度的最大值和最小值,将个子活跃度累加后求平均,获得孤立点活跃度;
孤立点活跃度的表达式为:
式中,为第个子区域的孤立点活跃度,为第个子区域的第个子活跃度;
所述低值像素关联值的获取方法包括:
个子区域内分别标记个灰度值小于预设的第一灰度阈值的像素点,记为低值像素点;
个低值像素点所在位置为圆心,以预设长度为半径画圆,得到个低值圆;
统计个低值圆的关联交叉点的数量,并与低值圆的数量比较,获得低值像素关联值;
低值像素关联值的表达式为:
式中,为第个子区域的低值像素关联值,为第个子区域的关联交叉点的数量,为低值圆的数量;
噪声强度评估值的表达式为:
式中,为第个子区域的噪声强度评估值,为权重因子。
2.根据权利要求1所述的一种档案OCR图像自适应去噪方法,其特征在于,所述是否存在噪声区域的判定方法包括:
个噪声强度评估值逐一与预设的噪声强度阈值对比分析,大于0;
大于等于时,判定存在噪声区域;
小于时,判定不存在噪声区域。
3.根据权利要求1所述的一种档案OCR图像自适应去噪方法,其特征在于,所述噪声级别包括一级噪声级别、二级噪声级别和三级噪声级别;
一级噪声级别、二级噪声级别和三级噪声级别的生成方法包括:
个噪声区域的噪声强度评估值逐一与预设的第一级别阈值和第二级别阈值比较,小于
小于时,生成一级噪声级别;
小于等于,且小于时,生成二级噪声级别;
大于等于时,生成三级噪声级别。
4.根据权利要求1所述的一种档案OCR图像自适应去噪方法,其特征在于,所述去噪指令包括高级去噪指令、中级去噪指令和低级去噪指令;
高级去噪指令、中级去噪指令和低级去噪指令的生成方法包括:
当噪声级别为一级噪声级别时,生成低级去噪指令;
当噪声级别为二级噪声级别时,生成中级去噪指令;
当噪声级别为三级噪声级别时,生成高级去噪指令;
去噪方式包括高斯滤波方式、小波去噪方式和图像增强方式;
高斯滤波方式、小波去噪方式和图像增强方式的选择方法包括:
当去噪指令为低级去噪指令时,选择图像增强方式;
当去噪指令为中级去噪指令时,选择小波去噪方式;
当去噪指令为高级去噪指令时,选择高斯滤波方式。
5.根据权利要求1所述的一种档案OCR图像自适应去噪方法,其特征在于,所述个子区域的拼接方法包括:
随机选择一个子区域作为基础区域,并识别基础区域的编号,记为基础编号;
从余下个子区域内分别选择与基础编号相邻的两个编号对应的子区域,记为待拼接区域;
将编号大于基础编号的待拼接区域拼接在基础区域的下方,将编号小于基础编号的待拼接区域拼接在基础区域的上方;
遍历个子区域,直至个子区域被拼接成完。
CN202311732780.4A 2023-12-18 2023-12-18 一种档案ocr图像自适应去噪方法 Active CN117423113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311732780.4A CN117423113B (zh) 2023-12-18 2023-12-18 一种档案ocr图像自适应去噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311732780.4A CN117423113B (zh) 2023-12-18 2023-12-18 一种档案ocr图像自适应去噪方法

Publications (2)

Publication Number Publication Date
CN117423113A CN117423113A (zh) 2024-01-19
CN117423113B true CN117423113B (zh) 2024-03-05

Family

ID=89530452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311732780.4A Active CN117423113B (zh) 2023-12-18 2023-12-18 一种档案ocr图像自适应去噪方法

Country Status (1)

Country Link
CN (1) CN117423113B (zh)

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005032122A1 (en) * 2003-09-29 2005-04-07 Samsung Electronics Co., Ltd. Denoising method and apparatus
JP2008278185A (ja) * 2007-04-27 2008-11-13 Sony Corp データ処理装置およびデータ処理方法、並びにプログラム
KR20140109801A (ko) * 2013-03-06 2014-09-16 삼성전자주식회사 3d이미지 품질을 향상시키는 방법과 장치
CN104103041A (zh) * 2013-12-24 2014-10-15 北京华科创智健康科技股份有限公司 超声图像混合噪声自适应抑制方法
CN106296612A (zh) * 2016-08-09 2017-01-04 南京工业大学 一种图像质量评价和天气状况引导的分级式监控视频清晰化系统及方法
CN106604057A (zh) * 2016-12-07 2017-04-26 乐视控股(北京)有限公司 视频处理方法及装置
EP3166072A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method for denoising an image and apparatus for denoising an image
CN108109123A (zh) * 2017-12-21 2018-06-01 成都微光集电科技有限公司 一种图像去噪方法
CN108805840A (zh) * 2018-06-11 2018-11-13 Oppo(重庆)智能科技有限公司 图像去噪的方法、装置、终端及计算机可读存储介质
CN109712212A (zh) * 2018-12-20 2019-05-03 中国兵器科学研究院宁波分院 一种工业ct伪影校正方法
CN110796615A (zh) * 2019-10-18 2020-02-14 浙江大华技术股份有限公司 一种图像去噪方法、装置以及存储介质
CN112052822A (zh) * 2020-09-16 2020-12-08 西安交通大学 基于图像多特征融合的公路能见度检测方法、系统及装置
CN112508810A (zh) * 2020-11-30 2021-03-16 上海云从汇临人工智能科技有限公司 非局部均值盲图像去噪方法、系统及装置
CN112734674A (zh) * 2021-01-15 2021-04-30 河海大学 一种图像去噪声的方法
CN113902638A (zh) * 2021-10-08 2022-01-07 电子科技大学 结合卷积神经网络和轻型自适应中值滤波视频降噪方法
CN115082339A (zh) * 2022-06-22 2022-09-20 西安电子科技大学 基于连通域自适应划分的太赫兹图像去噪方法
KR20220154578A (ko) * 2021-05-13 2022-11-22 삼성전자주식회사 이미지 디노이징을 수행하는 이미지 프로세싱 장치
CN115829873A (zh) * 2022-12-13 2023-03-21 深圳市宏电技术股份有限公司 一种图像还原方法及处理系统
CN115829883A (zh) * 2023-02-16 2023-03-21 汶上县恒安钢结构有限公司 一种异性金属结构件表面图像去噪方法
CN116342406A (zh) * 2023-02-16 2023-06-27 南京大学 一种基于深度学习的超高分辨率图像去噪方法
CN116823627A (zh) * 2022-03-21 2023-09-29 南京大学 一种基于图像复杂度评价的超大尺寸图像快速去噪方法
CN117094909A (zh) * 2023-08-31 2023-11-21 青岛天仁微纳科技有限责任公司 一种纳米压印晶圆图像采集处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10043243B2 (en) * 2016-01-22 2018-08-07 Siemens Healthcare Gmbh Deep unfolding algorithm for efficient image denoising under varying noise conditions
US12045959B2 (en) * 2021-08-24 2024-07-23 Microsoft Technology Licensing, Llc Spatial metrics for denoising depth image data

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005032122A1 (en) * 2003-09-29 2005-04-07 Samsung Electronics Co., Ltd. Denoising method and apparatus
JP2008278185A (ja) * 2007-04-27 2008-11-13 Sony Corp データ処理装置およびデータ処理方法、並びにプログラム
KR20140109801A (ko) * 2013-03-06 2014-09-16 삼성전자주식회사 3d이미지 품질을 향상시키는 방법과 장치
CN104103041A (zh) * 2013-12-24 2014-10-15 北京华科创智健康科技股份有限公司 超声图像混合噪声自适应抑制方法
EP3166072A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method for denoising an image and apparatus for denoising an image
CN106296612A (zh) * 2016-08-09 2017-01-04 南京工业大学 一种图像质量评价和天气状况引导的分级式监控视频清晰化系统及方法
CN106604057A (zh) * 2016-12-07 2017-04-26 乐视控股(北京)有限公司 视频处理方法及装置
CN108109123A (zh) * 2017-12-21 2018-06-01 成都微光集电科技有限公司 一种图像去噪方法
CN108805840A (zh) * 2018-06-11 2018-11-13 Oppo(重庆)智能科技有限公司 图像去噪的方法、装置、终端及计算机可读存储介质
CN109712212A (zh) * 2018-12-20 2019-05-03 中国兵器科学研究院宁波分院 一种工业ct伪影校正方法
CN110796615A (zh) * 2019-10-18 2020-02-14 浙江大华技术股份有限公司 一种图像去噪方法、装置以及存储介质
CN112052822A (zh) * 2020-09-16 2020-12-08 西安交通大学 基于图像多特征融合的公路能见度检测方法、系统及装置
CN112508810A (zh) * 2020-11-30 2021-03-16 上海云从汇临人工智能科技有限公司 非局部均值盲图像去噪方法、系统及装置
CN112734674A (zh) * 2021-01-15 2021-04-30 河海大学 一种图像去噪声的方法
KR20220154578A (ko) * 2021-05-13 2022-11-22 삼성전자주식회사 이미지 디노이징을 수행하는 이미지 프로세싱 장치
CN113902638A (zh) * 2021-10-08 2022-01-07 电子科技大学 结合卷积神经网络和轻型自适应中值滤波视频降噪方法
CN116823627A (zh) * 2022-03-21 2023-09-29 南京大学 一种基于图像复杂度评价的超大尺寸图像快速去噪方法
CN115082339A (zh) * 2022-06-22 2022-09-20 西安电子科技大学 基于连通域自适应划分的太赫兹图像去噪方法
CN115829873A (zh) * 2022-12-13 2023-03-21 深圳市宏电技术股份有限公司 一种图像还原方法及处理系统
CN115829883A (zh) * 2023-02-16 2023-03-21 汶上县恒安钢结构有限公司 一种异性金属结构件表面图像去噪方法
CN116342406A (zh) * 2023-02-16 2023-06-27 南京大学 一种基于深度学习的超高分辨率图像去噪方法
CN117094909A (zh) * 2023-08-31 2023-11-21 青岛天仁微纳科技有限责任公司 一种纳米压印晶圆图像采集处理方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Lightweight Image Entropy-Based Divide-and-Conquer Network for Low-Light Image Enhancement;Hongjun Wu 等;2022 IEEE International Conference on Multimedia and Expo (ICME);20220826;1-6 *
An efficient algorithm for image denoising using NLM and DBUTM estimation;A. Gayathri 等;TENCON 2014 - 2014 IEEE Region 10 Conference;20150129;1-6 *
基于伽马范数最小化的图像去噪算法;王洪雁 等;通信学报;20200927;1-9 *
基于分块思想的最小化总变差去噪新算法;吴凯凯 等;计算机工程与设计;20111116;第32卷(第11期);3776-3779 *
用于图像处理的自适应中值滤波;张旭明 等;计算机辅助设计与图形学学报;20050228(第02期);295-299 *

Also Published As

Publication number Publication date
CN117423113A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN115457041B (zh) 一种道路质量识别检测方法
CN115829883B (zh) 一种异性金属结构件表面图像去噪方法
CN116310360B (zh) 一种电抗器表面缺陷检测方法
CN113592861B (zh) 一种基于动态阈值的桥梁裂缝检测方法
CN109741356B (zh) 一种亚像素边缘检测方法及系统
CN110263595B (zh) 一种二维码检测方法及装置
CN116309600B (zh) 基于图像处理的环保纺织品质量检测方法
CN114782432B (zh) 一种基于纹理特征的改进canny算子的边缘检测方法
JP7508556B2 (ja) 文字分割方法、装置、および、コンピュータ可読記憶媒体
CN106780486A (zh) 一种钢板表面缺陷图像提取方法
CN115330767A (zh) 一种腐蚀箔生产异常识别方法
CN111915628B (zh) 一种基于预测目标密集边界点的单阶段实例分割方法
CN116385450B (zh) 基于图像处理的ps片材抗耐磨性检测方法
CN113505865A (zh) 一种基于卷积神经网络的片材表面缺陷图像识别处理方法
CN111709964B (zh) 一种pcba目标边缘检测方法
CN114820625B (zh) 一种汽车顶块缺陷检测方法
CN114782329A (zh) 一种基于图像处理的轴承缺陷损伤程度评估方法及系统
CN105701491A (zh) 固定格式文档图像模版的制作方法及其应用
CN112883824A (zh) 一种用于智能采血的手指静脉特征识别装置及其识别方法
CN116363126B (zh) 一种数据线usb插头焊接质量检测方法
CN112053302A (zh) 高光谱图像的去噪方法、装置及存储介质
CN117423113B (zh) 一种档案ocr图像自适应去噪方法
CN106874882B (zh) 路面病害边缘检测方法和装置
CN110287752B (zh) 一种点阵码检测方法及装置
JPH08305795A (ja) 文字認識方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant