CN117912037B - 一种ocr模型后处理方法、系统及存储介质 - Google Patents
一种ocr模型后处理方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117912037B CN117912037B CN202410315733.8A CN202410315733A CN117912037B CN 117912037 B CN117912037 B CN 117912037B CN 202410315733 A CN202410315733 A CN 202410315733A CN 117912037 B CN117912037 B CN 117912037B
- Authority
- CN
- China
- Prior art keywords
- sliding window
- matrix
- length
- character
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012805 post-processing Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 70
- 238000012015 optical character recognition Methods 0.000 claims abstract description 70
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000002131 composite material Substances 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种OCR模型后处理方法、系统及存储介质。所述方法包括:获取光学字符识别OCR模型对待处理数据进行文本检测和识别得到的文本识别结果;根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵;根据滑动窗口矩阵确定滑动窗口的置信度;根据滑动窗口的置信度选择滑动窗口最优解;结合滑动窗口最优解,利用复杂度评分机制,确定OCR识别结果。本发明通过引入一个灵活的滑动窗口机制和置信度评分机制,针对特定工业文本识别任务进行优化,可有效提高OCR在特定工业环境中的准确性和效率。
Description
技术领域
本申请涉及光学字符识别技术领域,具体而言,涉及一种OCR模型后处理方法、系统及存储介质。
背景技术
在现有的基于深度学习的光学字符识别(OCR)技术中,尤其是那些应用于工业场景的OCR系统,存在一些显著的局限性和缺陷,尤其是在处理具有特定格式或规律的文本时。这些缺点主要表现在以下几个方面:
预测范围过宽的问题:现有的文本检测算法在确定文本区域时,经常会预测出比实际文本更宽的范围。这种过宽的预测不仅增加了后续识别处理的复杂性,还可能导致在识别结果中出现前后多余的字符,影响最终的识别准确性。
固定识别范围的限制:当前的深度学习驱动的OCR模型通常具有固定的识别范围,这意味着它们能够识别的字符类型是预先定义且固定的,如包括数字、大小写字母和特殊符号等。这种固定范围的设定在特定应用场景下显得过于泛化,例如在仅需识别数字的日期识别场景中,模型仍可能错误地识别出字母或其他非期望字符。
识别精度与应用场景的不匹配:由于现有OCR技术未能充分考虑到特定应用场景下的文本规律性,如固定长度的产品编号或特定格式的日期,这导致了在实际应用中,即使在文本检测准确的情况下,文本识别的精度仍然不尽人意。这种不匹配的现象在工业应用中尤为明显,因为工业环境通常要求高度精确且可靠的文本识别。
综上所述,现有技术在工业应用中的这些缺点限制了OCR系统的效能和实用性,特别是在处理需要高精度和特定格式识别的文本时。
发明内容
本申请的目的在于提供一种OCR模型后处理方法、系统及存储介质。通过引入一个灵活的滑动窗口机制和置信度评分机制,针对特定工业文本识别任务进行优化,以提高基于深度学习的文本识别系统在工业应用中的准确性和可靠性。
本申请第一方面提供了一种OCR模型后处理方法,所述方法包括:
获取光学字符识别OCR模型对待处理数据进行文本检测和识别得到的文本识别结果;
根据所述文本识别结果,生成文本识别结果矩阵;根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵;
根据滑动窗口矩阵确定滑动窗口的置信度;
根据滑动窗口的置信度选择滑动窗口最优解;
结合滑动窗口最优解,利用复杂度评分机制,确定OCR识别结果。
可选地,所述文本识别结果矩阵为:
,
其中,表示文本识别结果矩阵,表示最大可识别字符串的长度,表示字符类型的数量,表示在第个个位置上字符属于第类的概率。
可选地,所述根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵,包括:
预设限定条件,包括字符长度、字符类型;
定义滑动窗口矩阵,滑动窗口矩阵宽度与文本识别结果矩阵P的列数N相同;
若预设限定了字符长度,则滑动窗口的长度等于,并将长度标记freeLength设为0(freeLength为0表示限定字符长度,1表示不限定字符长度);
若未限定字符长度,但限定了字符类型,等于有字符类型限制的最大长度,同时设置长度标记freeLength设为1;
滑动窗口矩阵的每个元素表示在文本识别结果矩阵P中第i行第j列的字符是否出现;如果出现,则将标记为1;否则标记为0。
可选地,所述根据滑动窗口矩阵确定滑动窗口的置信度,包括:
假设滑动窗口矩阵W中每个可能的滑动窗口位置k的滑动窗口覆盖从第k个字符到第k+个字符;
遍历滑动窗口矩阵W中每个可能的滑动窗口位置k,计算每个滑动窗口位置k对应的置信度:
。
可选地,所述根据滑动窗口的置信度选择滑动窗口最优解,包括:
根据滑动窗口的置信度,确定置信度最高的滑动窗口;
并关注置信度最高的滑动窗口中长度标记freeLength的值;
如果长度标记freeLength的值为0,则滑动窗口的长度即为文本的长度;
如果长度标记freeLength的值为1,则最优滑动窗口位置为该文本的起始位,而文本的长度根据文本识别结果矩阵P中获取的结束位确定。
可选地,置信度最高的滑动窗口的位置的计算公式为:
,
其中,是具有最高置信度的滑动窗口位置,K为所有可能的滑动窗口位置的集合,argmax是一种函数,是对函数求参数的函数。
可选地,所述复杂度评分机制,包括:
计算复杂度综合评分,
如果复杂度综合评分低于预设评分,则修改预设条件(增加可能性较低的字符类型,或调整滑动窗口长度),重新初始化滑动窗口;
如果复杂度综合评分不低于预设评分,则输出OCR识别结果。
可选地,复杂度综合评分的计算公式为:
,
其中,表示密度评估,为滑动窗口W中标记为1的元素个数占W中所有元素个数的比例;
,
表示分散性评估,为标记为1的元素在滑动窗口中分布的均匀程度;
,
为置信度集和的标准差;
,
为复杂度综合评分,,和是权重因子。是W中标记为1的元素的总和,是W中所有元素的个数。表示标记为1的元素的位置,是所有的平均值。表示第k个滑动窗口的置信度,是所有的平均值。K是滑动窗口的总数。
本申请第二方面提供了一种OCR模型后处理系统,该系统包括:存储器及处理器,所述存储器中包括一种OCR模型后处理方法的程序,所述OCR模型后处理方法的程序被所述处理器执行时实现所述OCR模型后处理方法的步骤。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括OCR模型后处理方法程序,所述OCR模型后处理方法程序被处理器执行时,实现所述OCR模型后处理方法的步骤。
由上可知,本申请提供的一种OCR模型后处理方法、系统及存储介质。本申请通过引入用户定义的限定范围(如字符长度或特定字符集),有效缩减了深度学习模型在识别时的错误率。特别是在工业应用中,对于需要高度精确性的场景,如日期或产品编号识别,本申请所述方法能显著提升识别的准确度。本申请所述方法不仅限于固定的字符类型或格式,而是可以根据实际应用的需求灵活适配,例如仅识别数字或特定格式的文本;这种灵活性使得本发明在各种特定的应用场景下都能表现出更好的效果。本申请通过维护一个滑动窗口并计算每个窗口的置信度,有效减少了不必要的计算和错误的可能性。这一优化不仅提高了整体识别效率,还有助于降低系统的计算负担,特别是在处理大量文本数据时更显其优。本申请通过选择最大置信度作为最终识别结果,在提高识别精度的同时,也增强了结果的可靠性。这对于那些在结果准确性上有严格要求的应用场景尤为重要。本申请针对工业环境中常见的特定格式和规律性文本,充分展示了其出色的适应性和实用性。在实际应用中,这种针对性的优化可以大大提高工业自动化流程中的数据处理质量和效率。
综上所述,本申请在解决现有OCR技术的局限性的同时,为文本识别技术提供了一种更为精准、高效且可靠的后处理优化方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种OCR模型后处理方法的流程图;
图2为本申请实施例提供的第一待识别图片;
图3为本申请实施例提供的第二待识别图片;
图4为本申请实施例提供的第三待识别图片;
图5为申请实施例提供的一种OCR模型后处理系统框图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,为本申请一些实施例中的OCR模型后处理方法的流程图。该OCR模型后处理方法用于终端设备中,例如电脑、手机终端等。该OCR模型后处理方法,包括以下步骤:
S102:获取光学字符识别OCR模型对待处理数据进行文本检测和识别得到的文本识别结果;根据所述文本识别结果,生成文本识别结果矩阵;其中,所述待处理数据可以是图片,也可以是文档等数据。
S104:根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵;
S106:根据滑动窗口矩阵确定滑动窗口的置信度;
S108:根据滑动窗口的置信度选择滑动窗口最优解;
S110:结合滑动窗口最优解,利用复杂度评分机制,确定OCR识别结果。
根据本发明实施例,所述文本识别结果矩阵为:
,
其中,表示文本识别结果矩阵,表示最大可识别字符串的长度,表示字符类型的数量,表示在第个位置上字符属于第类的概率。
需要说明的是,本申请首先利用标准的OCR流程对目标文本进行检测和识别。这一阶段是建立在成熟的OCR技术之上,目的是从给定的图像或文档中准确地定位并识别出文本内容。
完成文本识别后,所得到的数据呈现为一个的矩阵。这里,表示最大可识别字符串的长度,而表示每个字符位置可能属于的类型数量。在这个矩阵中,每个元素的值表示相应位置上的字符属于某一类型的概率。
设该矩阵为文本识别结果矩阵P,矩阵中的每一行代表识别结果中的一个字符位置,每一列代表一个可能的字符类型。例如,如果我们考虑一个包含数字和大写字母的场景,则将是36(10个数字加26个英文字母)。矩阵的元素表示在第i个字符位置上字符属于第j类的可能性。
根据本发明实施例,所述根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵,包括:
预设限定条件,包括字符长度、字符类型;
定义滑动窗口矩阵,滑动窗口矩阵的宽度与文本识别结果矩阵P的列数N相同;
若预设限定了字符长度,则滑动窗口的长度等于,并将长度标记freeLength设为0;
若未限定字符长度,但限定了字符类型,等于有字符类型限制的最大长度,同时设置长度标记freeLength设为1;
其中,freeLength为0表示限定字符长度,1表示不限定字符长度。
滑动窗口矩阵的每个元素表示在文本识别结果矩阵P中第i行第j列的字符是否可能出现;如果可能出现,则将标记为1;否则标记为0。
需要说明的是,在根据预设条件初始化滑动窗口,确定滑动窗口矩阵的操作中,需要根据用户的输入或预设的限定条件初始化滑动窗口(简称滑窗)。这一过程是为了确定在给定的文本识别结果矩阵中,哪些位置的字符是可能的,哪些是不可能的。
对于限定条件可以是预设或者用户输入,用户输入或预设的限定条件可能包括特定的字符长度(例如产品编号的长度),或者字符类型的限制(如仅数字或特定范围内的字母)。
即根据用户输入或预设的限定条件(如字符长度、字符类型等),初始化滑窗。滑窗中的每个位置对应于可能的字符类型和长度,其中有可能的位置被标记为1,不可能的位置被标记为0。
在初始化的过程中,定义一个滑动窗口,其宽度与P矩阵列数N相同。当用户定义了字符长度,则滑窗的长度等于,并将长度标记freeLength设为0。如果用户没有自定义长度,或者长度位置的情况,等于有字符类型限制的最大长度,同时设置长度标记freeLength设为1。的每个元素表示在P中第i行第j列的字符是否可能出现。
对于每个元素,如果第i行的字符在第j类中是可能的,根据用户定义的字符类型和长度,本申请将标记为1;否则标记为0。
通过上述操作,滑窗机制为后续的置信度计算和文本识别的优化提供了基础。这一机制的灵活性允许针对各种不同的应用场景和用户需求进行调整。并且在实际算法实现中,无论用户添加什么样的限制,都只需要对滑窗矩阵W和长度标记freeLength进行维护即可。
根据本发明实施例,所述根据滑动窗口矩阵确定滑动窗口的置信度,包括:
假设滑动窗口矩阵W中每个可能的滑动窗口位置k,其滑动窗口覆盖从第k个字符到第k+个字符;
遍历滑动窗口矩阵W中每个可能的滑动窗口位置k,计算每个滑动窗口位置k对应的置信度:
。
需要说明的是,在确定滑动窗口的置信度的操作中,主要应用滑窗机制来计算每个窗口的置信度。置信度计算是基于深度学习模型输出的概率分布和滑窗设置,用以评估每个窗口中字符组合的可能性。
在深度学习模型的输出上应用滑窗,针对每个窗口计算置信度。置信度是基于模型输出的概率分布和滑窗设置计算得出的,反映了每个窗口中字符组合的可能性。
而置信度是指在特定滑窗位置上,识别结果与滑窗模式相符合的概率。它是通过将模型输出的概率与滑窗中的标记相乘,然后对所有字符位置进行求和得到的。
假设W是滑窗矩阵,P是模型的输出矩阵。对于每个滑窗位置k(滑窗覆盖从第k个字符到第k+个字符),置信度可以计算为:
,
这里,是滑窗的长度,N是字符类型的数量。
本申请通过遍历每个可能的滑窗位置k。在每个位置k,计算该窗口的置信度,这是通过将滑窗W与模型输出P相应位置的概率相乘并求和得到的。
在实际应用中,该操作可量化每个滑窗位置的识别结果的可信度。这不仅便于识别出最可能的文本字符串,而且提供了一个量化的指标来评估不同滑窗位置的识别质量。
通过上述操作可以有效地利用滑窗机制和深度学习模型的输出来优化OCR的文本识别结果,特别是在处理具有特定格式或限定条件的文本时。
根据本发明实施例,所述根据滑动窗口的置信度选择滑动窗口最优解,包括:
根据滑动窗口的置信度,确定置信度最高的滑动窗口;
并关注置信度最高的滑动窗口中长度标记freeLength的值;
如果长度标记freeLength的值为0,则滑动窗口的长度即为文本的长度;
如果长度标记freeLength的值为1,则最优滑动窗口位置为该文本的起始位,而文本的长度根据文本识别结果矩阵P中获取的结束位确定。
需要说明的是,在完成所有可能滑窗位置的置信度计算之后,就要这些计算结果中选择最优解。这个步骤直接决定了最终的文本识别输出的质量和准确性。
而最优解是指在所有滑窗位置中具有最高置信度的那个窗口。这个窗口包含的字符组合是在当前设置下最可能正确的识别结果。
本申请对所有可能的滑窗位置进行置信度计算,选择置信度最高的窗口作为最终的文本识别结果。
假设K为所有可能的滑窗位置的集和,则最优解可以通过以下方式确定:
,
这里,是具有最高置信度的滑窗位置。
在选择最优解的时候,由于之前对于每个可能的滑窗位置k已经计算了相应的置信度。
所以可以通过比较所有来确定具有最高置信度的滑动窗口。
同时,还需要关注长度标记freeLength的值。如果该值为0,则滑窗P的长度即为文本的长度。如果该值为1,则最优滑窗位置为该文本的起始位,而文本的长度由文本预测矩阵P中获取的结束位决定。
根据本发明实施例,置信度最高的滑动窗口的位置的计算公式为:
,
其中,是具有最高置信度的滑动窗口位置,K为所有可能的滑动窗口位置的集合,argmax是一种函数,是对函数求参数的函数。
根据本发明实施例,所述复杂度评分机制,包括:
计算复杂度综合评分,
如果复杂度综合评分低于预设评分,则修改预设条件(增加可能性较低的字符类型,或调整滑动窗口长度),重新初始化滑动窗口;
如果复杂度综合评分不低于预设评分,则输出OCR识别结果。
需要说明的是,复杂度评分是一个量化指标,综合考虑了滑窗设置W的复杂性和置信度集和的稳定性。通过量化复杂度综合评分,若评分低于预设评分,则返回S104修改预设条件,并重新执行后续步骤。
复杂度评分机制为算法的性能调优提供了一个实用工具,帮助在保持高准确度的同时提高算法的适应性和效率。通过实验和调整,可以逐步找到最适合特定应用场景的滑窗设置。
本申请为了优化算法的性能和适应性,引入了一个复杂度评分机制。这一机制根据滑窗的设置和结果的稳定性给出一个分数,指导是否应该调整滑窗或改变处理策略。
通过引入复杂度评分和反馈机制,可以更有效地理解和优化文本识别算法,确保它既高效又可靠地适应不同工业应用的需求。
根据本发明实施例,复杂度综合评分的计算公式为:
,
其中,表示密度评估,为滑动窗口W中标记为1的元素个数占W中所有元素个数的比例;
,
表示分散性评估,为标记为1的元素在滑动窗口中分布的均匀程度;
,
为置信度集和的标准差;
,
为复杂度综合评分,,和是权重因子。是W中标记为1的元素的总和,是W中所有元素的个数。表示标记为1的元素的位置,是所有的平均值。表示第k个滑动窗口的置信度,是所有的平均值。K是滑动窗口的总数。
需要说明的是,本申请使用评分D来评估当前滑窗设置的效率和结果的可靠性。如果D过低,可能需要调整滑窗设置,如增加可能性较低的字符类型,或调整滑窗长度。
为了验证所述OCR模型后处理方法的有效性和实用性,本申请结合具体案例进行了实验。这些实验旨在展示算法在处理不同类型的工业文本识别任务时的性能,包括准确率和对各种复杂文本格式的适应能力。如下是实验的设置、过程和结果,以及对结果的分析和解读。这些实验结果将清楚地展示所述OCR模型后处理方法在实际应用中的优势和潜在的应用价值。
案例1:
以图2为第一待识别图片,图2的这批工业图片的普遍规律是第1-3,11位为大写字母;第4-10位为数字。通过对滑窗P的限制,我们可以避免一些容易误识别的字符。(例如8-B,0-D)。
该图片在不做限制时,识别结果为:MJF11113538;传统的识别方法识别数字"8"为字母"B"。在工业产品编号中,这样的错误可能导致错误的产品分类或处理。
本申请增加限制条件:限制第1-3,11位为大写字母;限制第4-10位为数字。识别结果为:MJF1111353B。
案例2:
以图3为第二待识别图片。
该图片在不做限制时,识别结果为:5E20221205DK0411:0;传统识别方法由于文本分割错误带来的字符漏识别。
本申请增加限制条件:限制字符串长度为19。识别结果为:5E20221205DK0411:09。
该案例中,由于文本裁剪过窄,最后一个字符只裁剪了一半。对于等长的批量字符识别,故可以设定滑窗矩阵P的长度为19。对于最后一个字符,预测矩阵P的最高置信度给了结束符,第二置信度给了数字9。当限定了字符长度,那么该位置便会排除结束符选项,而选择剩余选项中置信度最高的数字9。
案例3:
以图4为第三待识别图片。
该图片在不做限制时,识别结果为:1D19D40A0J1484F;传统的识别方法对文本边界识别不准确。在识别产品编号时,系统可能将编号前后的文字、符号或噪声错误地包含进来。
本申请增加限制条件:限制字符串长度为13。识别结果为:D19D40A0J1484。
该案例中,由于文本裁剪过宽,文本前后都有容易被误识别成字符的噪声。对于这种情况,由于已知该批量数据的文本长度为13,则可以设定字符长度。那么滑窗会滑动计算第1-13位的置信度,第2-14位的置信度,第3-15位的置信度...,最终确定的置信度最高,选择为最终结果。
在实际工业应用的环境中,本申请所述OCR模型后处理方法已经展示出显著的性能提升。具体来说,在应用此方法于一个特定的工业数据集时,文本识别准确率的显著提高。通过精心设计的实验,发现在引入本申请所述OCR模型后处理方法后,原本已经相对高效的OCR系统,其文本识别准确率从95%显著提升至99.3%。这一改进不仅展现了本申请所述OCR模型后处理方法的有效性,而且在准确性至关重要的工业应用领域中具有重大意义。这种准确率的提升,对于减少生产错误、提高自动化效率以及降低因误识别带来的成本具有重要的实际价值。
请参照图5,为本申请一些实施例中的OCR模型后处理系统,所述OCR模型后处理系统5包括:存储器51及处理器52,所述存储器51中包括一种OCR模型后处理方法的程序,所述OCR模型后处理方法的程序被所述处理器52执行时实现所述OCR模型后处理方法的步骤。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括OCR模型后处理方法程序,所述OCR模型后处理方法程序被处理器执行时,实现所述OCR模型后处理方法的步骤。
由上可知,本申请提供的一种OCR模型后处理方法、系统及存储介质。本申请通过引入一个灵活的滑动窗口机制和置信度评分机制,针对特定工业文本识别任务进行优化,可有效提高OCR在特定工业环境中的准确性和效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (7)
1.一种OCR模型后处理方法,其特征在于,所述方法包括:
获取光学字符识别OCR模型对待处理数据进行文本检测和识别得到的文本识别结果;
根据所述文本识别结果,生成文本识别结果矩阵;
根据预设条件初始化滑动窗口,结合文本识别结果矩阵,确定滑动窗口矩阵;
包括:
预设限定条件,包括字符长度、字符类型;
定义滑动窗口矩阵,滑动窗口矩阵的宽度与文本识别结果矩阵P的列数N相同;
若预设限定了字符长度,则滑动窗口的长度等于,并将长度标记freeLength设为0;
若未限定字符长度,但限定了字符类型,等于有字符类型限制的最大长度,同时设置长度标记freeLength设为1;
滑动窗口矩阵的每个元素表示在文本识别结果矩阵P中第i行第j列的字符是否出现;如果可能出现,则将标记为1;否则标记为0;
根据滑动窗口矩阵确定滑动窗口的置信度;
包括:
假设滑动窗口矩阵W中每个滑动窗口位置k的滑动窗口覆盖从第k个字符到第k+个字符;
遍历滑动窗口矩阵W中每个可能的滑动窗口位置k,计算每个滑动窗口位置k对应的置信度:
;
根据滑动窗口的置信度选择滑动窗口最优解;
包括:
根据滑动窗口的置信度,确定置信度最高的滑动窗口;
并关注置信度最高的滑动窗口中长度标记freeLength的值;
如果长度标记freeLength的值为0,则滑动窗口的长度即为文本的长度;
如果长度标记freeLength的值为1,则最优滑动窗口位置为该文本的起始位,而文本的长度根据文本识别结果矩阵P中获取的结束位确定;
结合滑动窗口最优解,利用复杂度评分机制,确定OCR识别结果。
2.根据权利要求1所述的一种OCR模型后处理方法,其特征在于,所述文本识别结果矩阵为:
,
其中,表示文本识别结果矩阵,表示最大可识别字符串的长度,表示字符类型的数量,表示在第个位置上字符属于第类的概率。
3.根据权利要求1所述的一种OCR模型后处理方法,其特征在于,置信度最高的滑动窗口的位置的计算公式为:
,
其中,是具有最高置信度的滑动窗口位置,K为所有可能的滑动窗口位置的集合,argmax是一种函数,是对函数求参数的函数。
4.根据权利要求3所述的一种OCR模型后处理方法,其特征在于,所述复杂度评分机制,包括:
结合滑动窗口最优解,利用复杂度综合评分公式计算复杂度综合评分,
如果复杂度综合评分低于预设评分,则修改预设条件,重新初始化滑动窗口;
如果复杂度综合评分不低于预设评分,则输出OCR识别结果。
5.根据权利要求4所述的一种OCR模型后处理方法,其特征在于,复杂度综合评分的计算公式为:
,
其中,表示密度评估,为滑动窗口W中标记为1的元素个数占W中所有元素个数的比例;
,
表示分散性评估,为标记为1的元素在滑动窗口中分布的均匀程度;
,
为置信度集和的标准差;
,
为复杂度综合评分,,和是权重因子,是W中标记为1的元素的总和,是W中所有元素的个数,表示标记为1的元素的位置,是所有的平均值,表示第k个滑动窗口的置信度,是所有的平均值,K是滑动窗口的总数。
6.一种OCR模型后处理系统,其特征在于,该系统包括:存储器及处理器,所述存储器中包括一种OCR模型后处理方法的程序,所述OCR模型后处理方法的程序被所述处理器执行时实现权利要求1-5任一项所述的OCR模型后处理方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括OCR模型后处理方法程序,所述OCR模型后处理方法程序被处理器执行时,实现权利要求1-5任一项所述的OCR模型后处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410315733.8A CN117912037B (zh) | 2024-03-20 | 2024-03-20 | 一种ocr模型后处理方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410315733.8A CN117912037B (zh) | 2024-03-20 | 2024-03-20 | 一种ocr模型后处理方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117912037A CN117912037A (zh) | 2024-04-19 |
CN117912037B true CN117912037B (zh) | 2024-07-05 |
Family
ID=90697326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410315733.8A Active CN117912037B (zh) | 2024-03-20 | 2024-03-20 | 一种ocr模型后处理方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117912037B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101789073A (zh) * | 2009-01-22 | 2010-07-28 | 富士通株式会社 | 字符识别装置及其字符识别方法 |
CN107133616A (zh) * | 2017-04-02 | 2017-09-05 | 南京汇川图像视觉技术有限公司 | 一种基于深度学习的无分割字符定位与识别方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8965127B2 (en) * | 2013-03-14 | 2015-02-24 | Konica Minolta Laboratory U.S.A., Inc. | Method for segmenting text words in document images |
EP3539052A1 (en) * | 2016-11-14 | 2019-09-18 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks with attention |
CN107403130A (zh) * | 2017-04-19 | 2017-11-28 | 北京粉笔未来科技有限公司 | 一种字符识别方法及字符识别装置 |
CN107967475B (zh) * | 2017-11-16 | 2020-04-14 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
KR102122561B1 (ko) * | 2018-11-27 | 2020-06-12 | 삼성생명보험주식회사 | 문서 이미지 상에서 글자를 인식하기 위한 방법 |
CN109948696A (zh) * | 2019-03-19 | 2019-06-28 | 上海七牛信息技术有限公司 | 一种多语言场景字符识别方法及系统 |
CN111914834B (zh) * | 2020-06-18 | 2024-04-02 | 绍兴埃瓦科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
US20220366301A1 (en) * | 2021-05-11 | 2022-11-17 | Sap Se | Model-independent confidence value prediction machine learned model |
CN114743012B (zh) * | 2022-04-08 | 2024-02-06 | 北京金堤科技有限公司 | 一种文本识别方法及装置 |
CN116758545A (zh) * | 2023-06-05 | 2023-09-15 | 安徽大学 | 一种基于深度学习的纸质医药包装钢印字符识别方法 |
-
2024
- 2024-03-20 CN CN202410315733.8A patent/CN117912037B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101789073A (zh) * | 2009-01-22 | 2010-07-28 | 富士通株式会社 | 字符识别装置及其字符识别方法 |
CN107133616A (zh) * | 2017-04-02 | 2017-09-05 | 南京汇川图像视觉技术有限公司 | 一种基于深度学习的无分割字符定位与识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117912037A (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695439B (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
WO2021164481A1 (zh) | 基于神经网络模型的手写签名的自动校验的方法和装置 | |
CN110765785A (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
CN111581345A (zh) | 一种文档级别的事件抽取方法和装置 | |
CN110674303B (zh) | 事件语句处理方法、装置、计算机设备和可读存储介质 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN112036145A (zh) | 财务报表的识别方法、装置、计算机设备与可读存储介质 | |
CN113536771B (zh) | 基于文本识别的要素信息提取方法、装置、设备及介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN113837113B (zh) | 基于人工智能的文档校验方法、装置、设备及介质 | |
CN112182337B (zh) | 从海量短新闻中识别相似新闻的方法及相关设备 | |
CN117912037B (zh) | 一种ocr模型后处理方法、系统及存储介质 | |
CN113408536A (zh) | 票据的金额识别方法、装置、计算机设备及存储介质 | |
JP5365065B2 (ja) | 辞書作成装置 | |
CN111754352A (zh) | 一种观点语句正确性的判断方法、装置、设备和存储介质 | |
CN114629707B (zh) | 一种乱码检测方法、装置及电子设备和存储介质 | |
CN114116616B (zh) | 用于挖掘pdf文件的方法、设备和介质 | |
CN113627892B (zh) | 一种bom数据的识别方法及其电子设备 | |
CN107392260B (zh) | 一种字符识别结果的错误标定方法和装置 | |
CN111368576B (zh) | 一种基于全局优化的Code128条码自动识读方法 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN114611495A (zh) | 文本比对方法、装置、设备及介质 | |
CN114117051A (zh) | 词性标注模型的训练方法、词性标注方法及电子设备 | |
CN111461109B (zh) | 一种基于环境多种类词库识别单据的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |