CN112861865B - 一种基于ocr技术的辅助审计方法 - Google Patents
一种基于ocr技术的辅助审计方法 Download PDFInfo
- Publication number
- CN112861865B CN112861865B CN202110127714.9A CN202110127714A CN112861865B CN 112861865 B CN112861865 B CN 112861865B CN 202110127714 A CN202110127714 A CN 202110127714A CN 112861865 B CN112861865 B CN 112861865B
- Authority
- CN
- China
- Prior art keywords
- audit
- image
- document
- auditing
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000005516 engineering process Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000011084 recovery Methods 0.000 claims abstract description 3
- 238000012550 audit Methods 0.000 claims description 134
- 230000011218 segmentation Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 6
- 230000018109 developmental process Effects 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000012015 optical character recognition Methods 0.000 description 20
- 239000000463 material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000008207 working material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Abstract
本发明公开了一种基于OCR技术的辅助审计方法,包括获取待识别的审计文档图像,对审计文档图像进行预处理,得到审计文档图像的预处理图像,对预处理图像进行版面分析,得到预处理图像的多个文本行,采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像,对多个单个字符的切割图像进行特征提取与识别,得到识别结果,将识别结果进行版面恢复,输出可编辑文档,根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出。本发明将传统的文字识别方法与审计工作流程相融合,通过对传统的文字识别算法进行优化改进,提高了文字识别的准确率,方便了审计人员的审计工作,提高了工作效率。
Description
技术领域
本发明属于文字识别技术领域,特别涉及一种基于OCR技术的辅助审计方法。
背景技术
随着数字化技术的发展,通过数字化技术手段开展线上审计工作可以大大提高审计人员的工作效率,在传统的审计工作流程中,审计人员需要编写审计记录、审计报告及其他审计相关工作资料,由于审计文本内容多为汉字,如果利用OCR文字识别技术将特定的审计信息整合自动生成相应的审计报表可大大缩减审计人员的工作量,提升审计工作效率。OCR(OpticalCharacter Recognition)光学字符识别是一种通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。典型的OCR技术路线主要分为输入,图像预处理,文字检测,文本识别,输出几个步骤,图像预处理通常是针对图像的成像问题进行修正。文字检测即检测文本的所在位置和范围及其布局,通常包括版面分析和文字行检测等。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文本识别技术为OCR识别中重要的一个环节,传统技术中采用模板匹配的方式进行分类,对于文字行,只能通过识别出每一个字符来确定最终文字行从内容。因此可以对文字行进行字符切分,以得到单个文字。这种方式中,过分割-动态规划是最常见的切分方法,由于单个字符可能会由于切分位置的原因产生多个识别结果,例如“如”字在切分不当时会被切分成“女_口”,因此需要对候选字符进行过分割,使其足够破碎,之后通过动态规划合并分割碎片,得到最优组合,这一过程需要人工设计损失函数。同时,传统技术通过识别每个单字符以实现全文的识别,这一过程导致了上下文信息的丢失,对于单个字符有较高的识别正确率,但整体条目识别正确率也难以保证。
发明内容
为了解决上述问题,本发明提供一种基于OCR技术的辅助审计方法,以解决采用传统的文字识别方法对审计文档中的单个汉字识别正确率不高的问题。
为实现上述目的,本发明提供了一种基于OCR技术的辅助审计方法,包括如下步骤:
获取待识别的审计文档图像;
对审计文档图像进行预处理,得到审计文档图像的预处理图像;
对预处理图像进行版面分析,得到预处理图像的多个文本行;
采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像;
对多个单个字符的切割图像进行特征提取与识别,得到识别结果;
将识别结果进行版面恢复,输出可编辑文档;
根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出。
根据本发明的一个具体实施例,审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,审计文档图像的文件类型包括JPG、PNG、PDF和CEB中的任一种。
根据本发明的一个具体实施例,对审计文档图像进行预处理,得到审计文档图像的预处理图像包括:
采用幂次交换法对审计文档图像进行二值化处理,得到二值化处理图像;
对二值化处理图像进行降噪和倾斜校正处理,得到审计文档图像的预处理图像。
根据本发明的一个具体实施例,采用行列识别抽象法对预处理图像进行版面分析,得到预处理图像的多个文本行包括:
对预处理图像中的文档进行分段处理,得到多个版面区域的文本块;
对多个版面区域的文本块进行分行处理,得到预处理图像的多个文本行;
计算多个文本行的纵坐标,根据纵坐标识别多个文本行的所属行。
根据本发明的一个具体实施例,采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像包括:
采用水平投影法对预处理图像中的多个文本行进行行切割,得到多个文本行的行图片;
判断行图片中的字符串是否为连续的汉字字符串,如果是,根据优化的汉字切割阈值对行图片中的字符串进行字切割,得到多个汉字切割图像;
否则,采用垂直投影法对所述行图片中的字符串进行字切割,得到多个单字符的切割图像。
根据本发明的一个具体实施例,判断行图片中的字符串是否为连续的汉字字符串的方法为:
计算多个行图片中的字符串的长宽比,当长宽比为整数时,则判断行图片中的字符串为连续的汉字字符串。
根据本发明的一个具体实施例,优化的汉字切割阈值为1:1。
根据本发明的一个具体实施例,对多个单个字符的切割图像进行特征提取与识别,得到识别结果包括:
采用核密度估计法对多个单个字符的切割图像进行特征提取,得到多个字符特征向量;
将多个字符特征向量与特征模板库中的字符相匹配,得到识别结果。
根据本发明的一个具体实施例,将识别结果进行版面恢复,输出可编辑文档包括:
将识别结果按照待识别的审计文档图像的版面进行排版,并输出可编辑文档,其中可编辑文档包括word格式文档和pdf格式文档。
根据本发明的一个具体实施例,根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出包括:
根据审计工作流程获取审计信息数据,并将审计信息数据存储到数据库中,其中审计信息数据包括项目名称、项目类型、组织单位、实施单位和开展年度;
根据当前审计工作流程导出相应的审计信息数据,对审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出。
与现有技术相比,本发明提供的基于OCR技术的辅助审计方法,考虑到企业特定的审计应用场景,将传统的文字识别方法与审计工作流程相融合,通过对传统的文字识别算法进行优化改进,提高了文字识别的准确率,极大方便了审计人员的审计工作,在减少人员工作量的同时提高了工作效率。
附图说明
图1是根据本发明一实施例提供的一种基于OCR技术的辅助审计方法流程图。
图2是根据本发明一实施例提供的对审计文档图像进行预处理的方法流程图。
图3是根据本发明一实施例提供的对预处理图像进行版面分析的方法流程图。
图4是根据本发明一实施例提供的字符切割方法流程图。
图5是根据本发明一实施例提供的对单个字符的割图像进行特征提取与识别的方法流程图。
图6是根据本发明一实施例提供的对可编辑文档进行结构化处理的方法流程图。
具体实施方式
为了使本领域技术人员更加清楚地理解本发明的概念和思想,以下结合具体实施例详细描述本发明。应理解,本文给出的实施例都只是本发明可能具有的所有实施例的一部分。本领域技术人员在阅读本申请的说明书以后,有能力对下述实施例的部分或整体作出改进、改造、或替换,这些改进、改造、或替换也都包含在本发明要求保护的范围内。
在本文中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。在本文中,术语“一”、“一个”和其它类似词语并不意在表示只存在一个事物,而是表示有关描述仅仅针对事物中的一个,事物可能具有一个或多个。在本文中,术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系,而不能视作表示空间结构上的关系。例如,“A包括B”意在表示在逻辑上B属于A,而不表示在空间上B位于A的内部。另外,术语“包含”、“包括”和其它类似词语的含义应视为开放性的,而非封闭性的。例如,“A包括B”意在表示B属于A,但是B不一定构成A的全部,A还可能包括C、D、E等其它元素。
在本文中,术语“实施例”、“本实施例”、“一实施例”、“一个实施例”并不表示有关描述仅仅适用于一个特定的实施例,而是表示这些描述还可能适用于另外一个或多个实施例中。本领域技术人员应理解,在本文中,任何针对某一个实施例所做的描述都可以与另外一个或多个实施例中的有关描述进行替代、组合、或者以其它方式结合,替代、组合、或者以其它方式结合所产生的新实施例是本领域技术人员能够容易想到的,属于本发明的保护范围。
实施例1
本发明的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施方式的实践了解到。结合图1-图5,本发明实施例提供的一种基于OCR技术的辅助审计方法,包括如下步骤:
S1:获取待识别的审计文档图像;
S2:对审计文档图像进行预处理,得到审计文档图像的预处理图像;
S3:对预处理图像进行版面分析,得到预处理图像的多个文本行;
S4:采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像;
S5:对多个单个字符的切割图像进行特征提取与识别,得到识别结果;
S6:将识别结果进行版面恢复,输出可编辑文档;
S7:根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出。
具体的,步骤S1获取待识别的审计文档图像,其中审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,审计文档图像的文件类型包括但不限于JPG、PNG、PDF和CEB。通常在进行OCR识别之前,第一步需要采集所要识别的图像,由于本发明实施例的应用场景主要是辅助审计工作,因此需要识别的图像为审计工作需要的相关材料,包括但不限于审计底稿、审计报告、审计附件和用于审计的过程文件,各文件材料的文件类型均支持JPG,PDF,CEB,本发明实施例通过拍照或扫描的方式将待识别的图像上传到OCR识别模块,以备后续进行识别操作。
具体的,步骤S2对审计文档图像进行预处理,得到审计文档图像的预处理图像还包括以下步骤:
S2-1:采用幂次交换法对审计文档图像进行二值化处理,得到二值化处理图像;
S2-2:对二值化处理图像进行降噪和倾斜校正处理,得到审计文档图像的预处理图像。
步骤S2-1中,图像的二值化处理就是将图像上的点的灰度值设置为0或255,其中0代表黑色,255代表白色,也就是将整个图像呈现出明显的只有黑和白的视觉效果。即将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像。本发明实施例采用幂次交换法对审计文档图像进行二值化处理,幂次交换法的计算公式如下所示:
x→xr
式中,x为矩阵M中的元素,xr为选定阈值内的元素,r为幂次,Mmax为矩阵最大值,Mmin为矩阵最小值。
本发明实施例中将r的取值设为2,然后将转换结果映射到[0,255]区间内,如此可将图像中的像素点的灰度值设置为0或255。
步骤S2-2中,由于在采集或拍摄文档图像的过程中,多少会受到一些随机的干扰,对后续的版面分析会造成一定的影响,为得到较为理想的文档图像,还需要对文档图像进行去噪处理和倾斜校正处理,通过对二值化处理图像进行降噪和倾斜校正处理,即可得到较为理想的预处理图像。
具体的,步骤S3采用行列识别抽象法对预处理图像进行版面分析,得到预处理图像的多个文本行,具体包括以下步骤:
S3-1:对预处理图像中的文档进行分段处理,得到多个版面区域的文本块;
S3-2:对多个版面区域的文本块进行分行处理,得到预处理图像的多个文本行;
S3-3:计算多个文本行的纵坐标,根据纵坐标识别多个文本行的所属行。
版面分析是文档图像的关键步骤,文档图像的版面分析包括图像版面分割和分割后的文本块属性确定,其中图像版面分割最为重要,鉴于本发明实施例的应用场景是利用OCR技术辅助审计工作流程中的审计相关工作材料进行识别,审计相关工作材料的主要文字应用为汉字,且均为标准的印刷体,由于需识别的文档材料来源广泛,样式复杂,无固定模板样式,并且针对审计材料的大多数场景中,行的作用大于列,识别出行即可进行结构化解析。因此本发明实施例采用行列识别抽象方法对预处理图像中的文档进行分段和分行处理,即首先将预处理图像中的文档划分为多个版面区域的文本块,再将多个版面区域中的文本块划分为文本行。最后通过计算多个文本行的纵坐标,并根据纵坐标识别多个文本行的所属行。
具体的,步骤S4采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像具体包括以下步骤:
S4-1:采用水平投影法对预处理图像中的多个文本行进行行切割,得到多个文本行的行图片;
S4-2:判断行图片中的字符串是否为连续的汉字字符串,如果是,根据优化的汉字切割阈值对行图片中的字符串进行字切割,得到多个汉字切割图像;否则,采用垂直投影法对行图片中的字符串进行字切割,得到多个单字符的切割图像,其中优化的汉字切割阈值为1:1。
其中判断多个行图片中的字符串是否为连续的汉字字符串的方法为:计算多个行图片中的字符串的长宽比,当长宽比为整数时,则判断行图片中的字符串为连续的汉字字符串。
所述水平投影法就是将预处理图像中的多个文本行进行水平投影,得到图像在垂直方向上的像素分布,若将水平投影的多个文本行视为若干条水平直线,在这些直线中,有些直线穿过文本区域,有些直线在文本行之间穿过,若直线穿过的区域有像素存在,则认为该区域为文本区域,若直线穿过的区域无像素存在,则认为该区域为非文本区域,将有像素存在的文本区域切割下来即可得到多个包含文本的行图片,在对文本行进行切割的过程中,需要定位文本行中的字符串的上边界和下边界,再根据上下边界对文本行进行切割。所述垂直投影法就是将水平投影法切割得到的行图片中的字符串进行垂直投影,得到图像在水平方向上的像素分布,同理将垂直投影的多个文本列视为若干条垂直直线,在这些直线中,有些直线穿过文本区域,有些直线在文本列之间穿过,若直线穿过的区域有像素存在,则认为该区域为文本区域,若直线穿过的区域无像素存在,则认为该区域为非文本区域,将有像素存在的文本区域切割下来即可得到单个字符的切割图像。通常在采用水平投影法对文本行进行水平投影后,直接采用垂直投影法对文本行中的字符串进行垂直投影,在此过程中,如果文本行中的字符串为不连续的汉字,例如两个汉字之间有英文,数字,标点等字符,由于不同字符的阈值也不同,导致切割后的汉字准确率不高,例如“如”字在切分时可能会被切割为“女_口”,最终导致汉字识别的准确率较低,考虑到本发明实施例的应用场景为审计文本材料的文字识别,其主要内容为汉字,且均为标准的印刷体,可以认为每个汉字的长宽比近似为1∶1,如果字符串为连续的汉字,则字符串的长宽比近似整数,因此可通过计算字符串的长宽比来判断字符串是否为连续的汉字,再根据优化的汉字阈值定位汉字边界后对单个汉字进行切割,如此可得到准确的切割结果。
具体的,步骤S5对多个单个字符的切割图像进行特征提取与识别,得到识别结果还包括以下步骤:
S5-1:采用核密度估计法对多个单个字符的切割图像进行特征提取,得到多个字符特征向量;
S5-2:将多个字符特征向量与特征模板库中的字符相匹配,得到识别结果。
所述核密度估计法近似为一种函数的平滑方式,根据大量的数据来估计某个值出现的概率(或密度)时做出的估算,其计算公式如下:
式中,为密度核函数,n为样本容量,h为带宽,x为密度函数值,xi为x附近的可导小区间,K(x)为正态分布密度函数。
当h=1时,
h的选择对计算结果的影响较大,它主要影响结果的平滑性,如果K(x)是离散的,得到的计算结果也是离散的,如果K(x)是光滑连续的,则得到的计算结果也是比较光滑且连续的。通过该方法,可以过滤图层,即将单个字符的切割图像中的除了字符以外的背景区域和其他非字符图像扣除,留下有效的字符,通过对有效字符的检测和识别得到所有字符的特征向量,再将多个字符特征向量与特征模板库中存储的字符相匹配,得到识别结果。
具体的,步骤S6将识别结果进行版面恢复,输出可编辑文档包括:
将识别结果按照待识别的审计文档图像的版面进行排版,并输出可编辑文档,其中可编辑文档包括word格式文档和pdf格式文档。本发明实施例通过OCR识别分析模块,将原始的审计文档图片、PDF、CEB等文件输出成计算机可编辑的材料(例如word)并可以预览和下载。
具体的,步骤S7根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出还包括以下步骤:
S7-1:根据审计工作流程获取审计信息数据,并将审计信息数据存储到数据库中,其中审计信息数据包括项目名称、项目类型、组织单位、实施单位和开展年度;
S7-2:根据当前审计工作流程导出相应的审计信息数据,对审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出。
本发明实施例将输出的可编辑的审计文档与审计工作流程模型相融合,利用OCR技术自动获取审计信息数据并存储到数据库中用以支持数据的快速检索,在执行某一审计工作流程时,从数据库中调用相关审计信息数据(例如,在审计项目域中,从识别后的底稿中获取项目名称、项目类型、组织单位,实施单位和开展年度等信息),同时匹配当前的审计工作流程对获取的审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出,以辅助完成审计工作流程。
综上所述,本发明实施例提供的一种基于OCR技术的辅助审计方法,考虑到企业特定的审计应用场景,将传统的文字识别方法与审计工作流程相融合,通过对传统的文字识别算法进行优化改进,提高了文字识别的准确率,极大方便了审计人员的审计工作,在减少人员工作量的同时提高了工作效率。
实施例2
本发明实施例还提供了一种基于OCR技术的辅助审计系统,包括:用于获取待识别的审计文档图像的单元;用于对审计文档图像进行预处理,得到审计文档图像的预处理图像的单元;用于对预处理图像进行版面分析,得到预处理图像的多个文本行的单元;用于采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像的单元;用于对多个单个字符的切割图像进行特征提取与识别,得到识别结果的单元;用于将识别结果进行版面恢复,输出可编辑文档的单元;用于根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出的单元。
上述方案中,审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,审计文档图像的文件类型包括JPG、PNG、PDF和CEB中的任一种。
具体的,用于对审计文档图像进行预处理,得到审计文档图像的预处理图像的单元包括:用于采用幂次交换法对审计文档图像进行二值化处理,得到二值化处理图像的单元;用于对二值化处理图像进行降噪和倾斜校正处理,得到审计文档图像的预处理图像的单元。
进一步的,用于采用行列识别抽象法对预处理图像进行版面分析,得到预处理图像的多个文本行的单元包括:用于对预处理图像中的文档进行分段处理,得到多个版面区域的文本块的单元;用于对多个版面区域的文本块进行分行处理,得到预处理图像的多个文本行的单元;用于计算多个文本行的纵坐标,根据纵坐标识别多个文本行的所属行的单元。
进一步的,用于采用优化的字符切割方法对多个文本行中的字符串进行切割,得到多个单个字符的切割图像的单元包括:用于采用水平投影法对预处理图像中的多个文本行进行行切割,得到多个文本行的行图片的单元;用于判断行图片中的字符串是否为连续的汉字字符串的单元,如果判断行图片中的字符串是连续的汉字字符串,根据优化的汉字切割阈值对行图片中的字符串进行字切割,得到多个汉字切割图像;否则,采用垂直投影法对所述行图片中的字符串进行字切割,得到多个单字符的切割图像。
进一步的,用于对多个单个字符的切割图像进行特征提取与识别,得到识别结果的单元包括:用于采用核密度估计法对多个单个字符的切割图像进行特征提取,得到多个字符特征向量的单元;用于将多个字符特征向量与特征模板库中的字符相匹配,得到识别结果的单元。
进一步的,用于将识别结果进行版面恢复,输出可编辑文档的单元包括:用于将识别结果按照待识别的审计文档图像的版面进行排版,并输出可编辑文档的单元,其中可编辑文档包括word格式文档和pdf格式文档。
再进一步的,用于根据审计工作流程对可编辑文档进行结构化处理,生成审计数据报表并输出的单元包括:用于根据审计工作流程获取审计信息数据,并将审计信息数据存储到数据库中的单元,其中审计信息数据包括项目名称、项目类型、组织单位、实施单位和开展年度;用于根据当前审计工作流程导出相应的审计信息数据,对审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出的单元。
以上结合具体实施方式(包括实施例和实例)详细描述了本发明的概念、原理和思想。本领域技术人员应理解,本发明的实施方式不止上文给出的这几种形式,本领域技术人员在阅读本申请文件以后,可以对上述实施方式中的步骤、方法、装置、部件做出任何可能的改进、替换和等同形式,这些改进、替换和等同形式应视为落入在本发明的范围内。本发明的保护范围仅以权利要求书为准。
Claims (8)
1.一种基于 OCR 技术的辅助审计方法,其特征在于,包括如下步骤:
获取待识别的审计文档图像;
对所述审计文档图像进行预处理,得到所述审计文档图像的预处理图像;
对所述预处理图像进行版面分析,得到所述预处理图像的多个文本行,具体包括:
对所述预处理图像中的文档进行分段处理,得到多个版面区域的文本块;
对所述多个版面区域的文本块进行分行处理,得到所述预处理图像的多个文本行;
计算所述多个文本行的纵坐标,根据所述纵坐标识别所述多个文本行的所属行;
采用优化的字符切割方法对所述多个文本行中的字符串进行切割,得到多个单个字符的切割图像,具体包括:
采用水平投影法对所述预处理图像中的多个文本行进行行切割,得到所述多个文本行的行图片;
判断所述行图片中的字符串是否为连续的汉字字符串,如果是,根据优化的汉字切割阈值对所述行图片中的字符串进行字切割,得到多个汉字切割图像;
否则,采用垂直投影法对所述行图片中的字符串进行字切割,得到多个单字符的切割图像;
对多个所述单个字符的切割图像进行特征提取与识别,得到识别结果;
将所述识别结果进行版面恢复,输出可编辑文档;
根据审计工作流程对所述可编辑文档进行结构化处理,生成审计数据报表并输出。
2.根据权利要求 1 所述的基于 OCR 技术的辅助审计方法,其特征在于,所述审计文档图像包括审计底稿图像、审计报告图像、审计附件图像和审计过程文件图像,所述审计文档图像的文件类型包括 JPG、PNG、PDF 和 CEB 中的任一种。
3.根据权利要求 1 所述的基于 OCR 技术的辅助审计方法,其特征在于,所述对所述审计文档图像进行预处理,得到所述审计文档图像的预处理图像包括:
采用幂次交换法对所述审计文档图像进行二值化处理,得到二值化处理图像;
对所述二值化处理图像进行降噪和倾斜校正处理,得到所述审计文档图像的预处理图像。
4.根据权利要求 1 所述的基于OCR 技术的辅助审计方法,其特征在于,所述判断所述行图片中的字符串是否为连续的汉字字符串的方法为:
计算多个所述行图片中的字符串的长宽比,当所述长宽比为整数时,则判断所述行图片中的字符串为连续的汉字字符串。
5.根据权利要求 1 所述的基于 OCR 技术的辅助审计方法,其特征在于,所述优化的汉字切割阈值为 1:1。
6.根据权利要求 1 所述的基于 OCR 技术的辅助审计方法,其特征在于,所述对多个所述单个字符的切割图像进行特征提取与识别,得到识别结果包括:
采用核密度估计法对多个所述单个字符的切割图像进行特征提取,得到多个字符特征向量;
将所述多个字符特征向量与特征模板库中的字符相匹配,得到识别结果。
7.根据权利要求 1 所述的基于 OCR 技术的辅助审计方法,其特征在于,所述将所述识别结果进行版面恢复,输出可编辑文档包括:
将所述识别结果按照所述待识别的审计文档图像的版面进行排版,并输出可编辑文档,其中所述可编辑文档包括 word 格式文档和 pdf 格式文档。
8.根据权利要求 1 所述的基于 OCR 技术的辅助审计方法,其特征在于,所述根据审计工作流程对所述可编辑文档进行结构化处理,生成审计数据报表并输出包括:
根据审计工作流程获取审计信息数据,并将所述审计信息数据存储到数据库中,其中所述审计信息数据包括项目名称、项目类型、组织单位、实施单位和开展年度;
根据当前审计工作流程导出相应的审计信息数据,对所述审计信息数据进行统计分析和定制化排版,生成审计数据报表并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127714.9A CN112861865B (zh) | 2021-01-29 | 2021-01-29 | 一种基于ocr技术的辅助审计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127714.9A CN112861865B (zh) | 2021-01-29 | 2021-01-29 | 一种基于ocr技术的辅助审计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861865A CN112861865A (zh) | 2021-05-28 |
CN112861865B true CN112861865B (zh) | 2024-03-29 |
Family
ID=75986920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110127714.9A Active CN112861865B (zh) | 2021-01-29 | 2021-01-29 | 一种基于ocr技术的辅助审计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861865B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114308718A (zh) * | 2021-11-16 | 2022-04-12 | 江汉大学 | 一种按照衣物尺寸进行分拣的方法及分拣装置 |
US20230351305A1 (en) * | 2022-04-28 | 2023-11-02 | R.P. Scherer Technologies, Llc | Data analysis and reporting systems and methods |
CN114998922B (zh) * | 2022-07-29 | 2022-11-04 | 成都薯片科技有限公司 | 一种基于格式模板的电子合同生成方法 |
CN115690806B (zh) * | 2022-10-11 | 2023-06-13 | 杭州瑞成信息技术股份有限公司 | 一种基于图像数据处理的非结构化文档格式识别方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123550A (zh) * | 2013-04-25 | 2014-10-29 | 魏昊 | 基于云计算的文本扫描识别方法 |
WO2014180387A1 (zh) * | 2013-12-05 | 2014-11-13 | 中兴通讯股份有限公司 | 一种信息输入方法及装置 |
CN104966051A (zh) * | 2015-06-03 | 2015-10-07 | 中国科学院信息工程研究所 | 一种文档图像的版式识别方法 |
CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
CN110490181A (zh) * | 2019-08-14 | 2019-11-22 | 北京思图场景数据科技服务有限公司 | 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质 |
CN110895696A (zh) * | 2019-11-05 | 2020-03-20 | 泰康保险集团股份有限公司 | 一种图像信息提取方法和装置 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
CN111209827A (zh) * | 2019-12-31 | 2020-05-29 | 中国南方电网有限责任公司 | 一种基于特征检测的ocr识别票据问题的方法及系统 |
CN111695553A (zh) * | 2020-06-05 | 2020-09-22 | 北京百度网讯科技有限公司 | 表格识别方法、装置、设备和介质 |
CN112016481A (zh) * | 2020-08-31 | 2020-12-01 | 民生科技有限责任公司 | 基于ocr的财务报表信息检测和识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9158744B2 (en) * | 2013-01-04 | 2015-10-13 | Cognizant Technology Solutions India Pvt. Ltd. | System and method for automatically extracting multi-format data from documents and converting into XML |
US10417516B2 (en) * | 2017-08-24 | 2019-09-17 | Vastec, Inc. | System and method for preprocessing images to improve OCR efficacy |
-
2021
- 2021-01-29 CN CN202110127714.9A patent/CN112861865B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123550A (zh) * | 2013-04-25 | 2014-10-29 | 魏昊 | 基于云计算的文本扫描识别方法 |
WO2014180387A1 (zh) * | 2013-12-05 | 2014-11-13 | 中兴通讯股份有限公司 | 一种信息输入方法及装置 |
CN104966051A (zh) * | 2015-06-03 | 2015-10-07 | 中国科学院信息工程研究所 | 一种文档图像的版式识别方法 |
CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
CN110490181A (zh) * | 2019-08-14 | 2019-11-22 | 北京思图场景数据科技服务有限公司 | 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
CN110895696A (zh) * | 2019-11-05 | 2020-03-20 | 泰康保险集团股份有限公司 | 一种图像信息提取方法和装置 |
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
CN111209827A (zh) * | 2019-12-31 | 2020-05-29 | 中国南方电网有限责任公司 | 一种基于特征检测的ocr识别票据问题的方法及系统 |
CN111695553A (zh) * | 2020-06-05 | 2020-09-22 | 北京百度网讯科技有限公司 | 表格识别方法、装置、设备和介质 |
CN112016481A (zh) * | 2020-08-31 | 2020-12-01 | 民生科技有限责任公司 | 基于ocr的财务报表信息检测和识别方法 |
Non-Patent Citations (3)
Title |
---|
杨晓娟 ; 宋凯 ; .基于投影法的文档图像分割算法.成都大学学报(自然科学版).2009,(第02期),全文. * |
自然场景图像的字符识别方法;李颖;刘菊华;易尧华;;包装工程(第05期);全文 * |
黎达 ; 李胜辉 ; 林大贵 ; 周阳 ; .面向小间距地图注记的智能识别研究.测绘与空间地理信息.2016,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112861865A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861865B (zh) | 一种基于ocr技术的辅助审计方法 | |
US10943105B2 (en) | Document field detection and parsing | |
US9542752B2 (en) | Document image compression method and its application in document authentication | |
Xi et al. | A video text detection and recognition system | |
JP6115323B2 (ja) | 文書処理装置、文書処理方法およびスキャナー | |
JP4771804B2 (ja) | レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 | |
US7298900B2 (en) | Image processing method, image processing apparatus and image processing program | |
CN109784342B (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
JP2004318879A (ja) | 画像内容を比較する自動化技術 | |
JP2001167131A (ja) | 文書シグネチュアを使用する文書の自動分類方法 | |
JP2006246435A (ja) | 画像処理装置及びその制御方法、プログラム | |
US6532302B2 (en) | Multiple size reductions for image segmentation | |
CN112733858B (zh) | 基于字符区域检测的图像文字快速识别方法及装置 | |
CN113723252A (zh) | 一种表格型文本图片的识别方法和系统 | |
Nayak et al. | Automatic number plate recognition | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN110598581A (zh) | 基于卷积神经网络的光学乐谱识别方法 | |
CN114202765A (zh) | 一种图像文本识别方法和存储介质 | |
Dey et al. | A comparative study of margin noise removal algorithms on marnr: A margin noise dataset of document images | |
Chi et al. | Hierarchical content classification and script determination for automatic document image processing | |
JP4194309B2 (ja) | 文書方向推定方法および文書方向推定プログラム | |
CN115497115B (zh) | 基于深度学习的页眉页脚检测方法及系统 | |
Shivani | Techniques of Text Detection and Recognition: A Survey | |
KR100573392B1 (ko) | 적응학습 모듈이 탑재된 문자인식 기반 대용량 문서디지털화 방법 및 시스템 | |
Beran et al. | Recognition of printed music score |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |