CN117953519A - 一种用于档案数字化服务的质量监控方法及系统 - Google Patents
一种用于档案数字化服务的质量监控方法及系统 Download PDFInfo
- Publication number
- CN117953519A CN117953519A CN202410357999.9A CN202410357999A CN117953519A CN 117953519 A CN117953519 A CN 117953519A CN 202410357999 A CN202410357999 A CN 202410357999A CN 117953519 A CN117953519 A CN 117953519A
- Authority
- CN
- China
- Prior art keywords
- character
- image block
- standard
- image
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012544 monitoring process Methods 0.000 title claims abstract description 25
- 238000012937 correction Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000001303 quality assessment method Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Character Discrimination (AREA)
Abstract
本发明属于图像处理技术领域,具体地,本发明涉及一种用于档案数字化服务的质量监控方法及系统,该方法包括:根据数字化档案中每种字符对应的所有图像块的尺寸,确定每种字符的标准图像块,根据每种字符对应的每个图像块与标准图像块的匹配结果,确定每种字符的识别准确度和识别错误度,根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定数字化档案的数字化质量,根据数字化档案的数字化质量,对数字化档案进行更正。本发明提高了数字化服务的质量评估的准确性和效率。
Description
技术领域
本发明涉及图像处理技术领域。更具体地,本发明涉及一种用于档案数字化服务的质量监控方法及系统。
背景技术
通过对数字化档案的数字化服务进行质量检测,可以提高数字化档案的可信度,确保其在日后的使用、存储和管理中是可靠的。
目前主要通过人工对数字化档案的数字化服务的质量进行评价,主观性强,导致数字化服务的质量评估的准确性较差且效率较低。
因此,亟需一种准确性和效率较高的档案数字化服务的质量监控方法及系统。
发明内容
为解决上述一个或多个技术问题,本发明在如下的多个方面中提供方案。
在第一方面中,本发明提供了一种用于档案数字化服务的质量监控方法,包括:
确定数字化档案中每种字符在档案图像中对应的所有图像块;
根据每种字符对应的所有图像块的尺寸,确定每种字符的标准图像块;
对每种字符对应的每个图像块与标准图像块进行角点匹配,根据匹配结果,确定每种字符对应的每个图像块与标准图像块的匹配度,根据每种字符对应的所有图像块与标准图像块的匹配度,确定每种字符的识别准确度和识别错误度;
根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定数字化档案的数字化质量;
根据数字化档案的数字化质量,对数字化档案进行更正。
在一个实施例中,所述确定数字化档案中每种字符在档案图像中对应的所有图像块,包括:
通过纸张扫描设备采集纸质档案的图像,作为档案图像,所述档案图像为二值图像;
通过光学字符识别技术对档案图像进行字符切割和字符识别,获取档案图像中的每个图像块以及每个图像块对应的字符,所有字符组成数字化档案;
将相同的字符作为一种字符,将相同的字符对应的所有图像块,作为每种字符对应的所有图像块。
在一个实施例中,所述根据每种字符对应的所有图像块的尺寸,确定每种字符的标准图像块,包括:
将每种字符对应的所有图像块的尺寸的平均值,作为每种字符对应的标准尺寸;
对于任意一种字符,根据该字符的标准字体生成一个尺寸等于该字符对应的标准尺寸的二值图像,作为该字符的标准图像块。
在一个实施例中,所述字符对应的每个图像块与标准图像块的匹配度满足表达式:
;
式中,表示字符对应的第i个图像块与标准图像块的匹配度,/>表示字符对应的第i个图像块与标准图像块的匹配角点的数量,i表示字符对应的图像块的序号,i取遍[1,m]范围内的所有整数,m表示字符对应的所有图像块的数量,A×B表示字符对应的标准尺寸,A表示字符对应的标准尺寸的长度,B表示字符对应的标准尺寸的宽度。
在一个实施例中,所述根据每种字符对应的所有图像块与标准图像块的匹配度,确定每种字符的识别准确度和识别错误度,包括:
对于任意一种字符,在该字符对应的所有图像块中,如果存在与标准图像块的匹配度大于预设第一阈值的图像块,则将与标准图像块的匹配度大于预设第一阈值的所有图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第一次修正;
对除匹配图像块外的所有图像块与第一次修正后的标准图像块进行角点匹配,如果存在与第一次修正后的标准图像块的匹配度大于预设第一阈值的图像块,则将与第一次修正后的标准图像块的匹配度大于预设第一阈值的图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第二次修正;
对除匹配图像块外的所有图像块与第二次修正后的标准图像块进行角点匹配,如果存在与第二次修正后的标准图像块的匹配度大于预设第一阈值的图像块,则将与第二次修正后的标准图像块的匹配度大于预设第一阈值的图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第三次修正;
以此类推,直到对除匹配图像块外的所有图像块与第N次修正后的标准图像块进行角点匹配时,不存在与第N次修正后的标准图像块的匹配度大于预设第一阈值的图像块时,停止迭代,此时,将所有匹配图像块的数量作为该字符的识别准确度,将除匹配图像块外的所有图像块的数量作为该字符的识别错误度,N表示标准图像块的修正的总次数。
在一个实施例中,所述修正后的标准图像块,包括:
修正后的标准图像块中坐标为的像素点的灰度值满足表达式:
;
式中,表示修正后的标准图像块中坐标为/>的像素点的灰度值,表示第s个匹配图像块中坐标为/>的像素点的灰度值,/>表示像素点的坐标,x表示像素点的横坐标,y表示像素点的纵坐标,s表示匹配图像块的序号,s取遍[1,S]范围内的所有整数,S表示匹配图像块的数量,/>表示字符的标准图像块中坐标为/>的像素点的灰度值。
在一个实施例中,所述根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定数字化档案的数字化质量,包括:
根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定每种字符的识别质量;根据所有字符的识别质量,确定数字化档案的数字化质量。
在一个实施例中,所述字符的识别质量满足表达式:
;
式中,L表示字符的识别质量,z表示字符的识别准确度,c表示字符的识别错误度,m表示字符对应的所有图像块的数量,表示字符对应的第i个图像块与第j次修正后的标准图像块的匹配度,i表示字符对应的图像块的序号,j表示对标准图像块进行修正的序号,N表示标准图像块的修正的总次数,/>表示取最大值函数,/>表示归一化函数。
在一个实施例中,所述根据所有字符的识别质量,确定数字化档案的数字化质量,包括:
将识别质量大于预设第二阈值的字符,作为高质量识别字符;
数字化档案的数字化质量满足关系式:
;
式中,Q表示数字化档案的数字化质量,表示第k种高质量识别字符的识别准确度,k表示高质量识别字符的序号,R表示所有高质量识别字符的种类数量,M表示档案图像中的所有图像块的数量。
第二方面,本发明提供一种用于档案数字化服务的质量监控系统,采用如下的技术方案:
一种用于档案数字化服务的质量监控系统,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现上述一种用于档案数字化服务的质量监控方法。
通过采用上述技术方案,将上述的一种用于档案数字化服务的质量监控方法生成计算机程序,并存储于存储器中,以被处理器加载并执行,从而根据存储器及处理器制作终端设备,方便使用。
本发明的有益效果在于:
本发明根据数字化档案中每种字符对应的每个图像块与标准图像块的匹配结果,确定每种字符对应的每个图像块与标准图像块的匹配度,根据每种字符对应的所有图像块与标准图像块的匹配度,确定每种字符的识别准确度和识别错误度,根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定数字化档案的数字化质量,克服了人工评价由于主观性强而导致的准确性差和效率低的问题,提高了数字化服务的质量评估的准确性和效率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示意性示出本发明中一种用于档案数字化服务的质量监控方法的流程图;
图2是示意性示出字符“于”对应的多个图像块;
图3是示意性示出字符“于”的标准图像块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图来详细描述本发明的具体实施方式。
本发明实施例公开一种用于档案数字化服务的质量监控方法,参照图1,包括步骤S1-步骤S5:
S1:确定数字化档案中每种字符在档案图像中对应的所有图像块。
具体的,通过纸张扫描设备采集纸质档案的图像,作为档案图像,所述档案图像为二值图像。
进一步,通过光学字符识别技术对档案图像进行字符切割和字符识别,所述字符切割将档案图像分割为多个图像块,所述字符识别是对每个图像块进行字符识别,获得档案图像中每个图像块对应的字符,所有字符组成数字化档案,所述数字化档案是对纸质档案进行数字化的结果。
进一步,数字化档案中存在相同的字符,将相同的字符作为一种字符,将相同的字符对应的所有图像块,作为每种字符对应的所有图像块。
需要说明的是,光学字符识别技术(Optical Character Recognition, OCR)是一种对图像中的文字进行识别,并以文本的形式返回的公知技术,其中,字符切割和字符识别均为光学字符识别技术中的公知步骤,此处不再进行赘述。
S2:根据每种字符对应的所有图像块的尺寸,确定每种字符的标准图像块。
具体的,将每种字符对应的所有图像块的尺寸的平均值,作为每种字符对应的标准尺寸;对于任意一种字符,根据该字符的标准字体生成一个尺寸等于该字符对应的标准尺寸的二值图像,作为该字符的标准图像块。
需要说明的是,标准字体可以根据实际应用场景和需求来设定,本发明将标准字体设置为楷体。
例如,请参阅图2,其示出了字符“于”对应的多个图像块;请参阅图3,其示出了字符“于”的标准图像块。
需要说明的是,字符的标准图像块用来判断字符对应的图像块的字符识别结果是否准确。
S3:对每种字符对应的每个图像块与标准图像块进行角点匹配,根据匹配结果,确定每种字符对应的每个图像块与标准图像块的匹配度,根据每种字符对应的所有图像块与标准图像块的匹配度,确定每种字符的识别准确度和识别错误度。
具体的,对每种字符对应的每个图像块与标准图像块进行角点匹配,确定每种字符对应的每个图像块与标准图像块的匹配结果;根据每种字符对应的每个图像块与标准图像块的匹配结果,确定每种字符对应的每个图像块与标准图像块的匹配度;根据每种字符对应的所有图像块与标准图像块的匹配度,确定每种字符的识别准确度和识别错误度。
所述对每种字符对应的每个图像块与标准图像块进行角点匹配,确定每种字符对应的每个图像块与标准图像块的匹配结果,包括:通过SIFT角点检测算法,对每种字符对应的每个图像块以及每种字符的标准图像块进行角点检测,确定每种字符对应的每个图像块中的所有角点以及每种字符的标准图像块中的所有角点;通过FLANN特征匹配算法,对每种字符对应的每个图像块中的所有角点与每种字符的标准图像块中的所有角点进行角点匹配,确定每种字符对应的每个图像块与标准图像块的匹配结果,所述匹配结果包括每种字符对应的每个图像块与标准图像块的匹配角点。
需要说明的是,SIFT角点检测算法和FLANN特征匹配算法均为公知技术,此处不再进行赘述。
所述根据每种字符对应的每个图像块与标准图像块的匹配结果,确定每种字符对应的每个图像块与标准图像块的匹配度,则字符对应的第i个图像块与标准图像块的匹配度满足表达式:
;
式中,表示字符对应的第i个图像块与标准图像块的匹配度,/>表示字符对应的第i个图像块与标准图像块的匹配角点的数量,i表示字符对应的图像块的序号,i取遍[1,m]范围内的所有整数,m表示字符对应的所有图像块的数量,A×B表示字符对应的标准尺寸,A表示字符对应的标准尺寸的长度,B表示字符对应的标准尺寸的宽度。
需要说明的是,在图像块中获得的角点是图像块中在某方面属性特别突出的像素点,因此,图像块中的角点代表了图像块的关键特征,字符对应的图像块与标准图像块的匹配角点的数量越多,说明字符对应的图像块与标准图像块的关键特征越相似,则字符对应的图像块与该字符的标准图像块的匹配度越大。
所述根据每种字符对应的所有图像块与标准图像块的匹配度,确定每种字符的识别准确度和识别错误度,包括:
对于任意一种字符,在该字符对应的所有图像块中,如果存在与标准图像块的匹配度大于预设第一阈值的图像块,则将与标准图像块的匹配度大于预设第一阈值的所有图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第一次修正;
对除匹配图像块外的所有图像块与第一次修正后的标准图像块进行角点匹配,如果存在与第一次修正后的标准图像块的匹配度大于预设第一阈值的图像块,则将与第一次修正后的标准图像块的匹配度大于预设第一阈值的图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第二次修正;
对除匹配图像块外的所有图像块与第二次修正后的标准图像块进行角点匹配,如果存在与第二次修正后的标准图像块的匹配度大于预设第一阈值的图像块,则将与第二次修正后的标准图像块的匹配度大于预设第一阈值的图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第三次修正;
以此类推,直到对除匹配图像块外的所有图像块与第N次修正后的标准图像块进行角点匹配时,不存在与第N次修正后的标准图像块的匹配度大于预设第一阈值的图像块时,停止迭代,此时,将所有匹配图像块的数量作为该字符的识别准确度,将除匹配图像块外的所有图像块的数量作为该字符的识别错误度,N表示标准图像块的修正的总次数。
第一阈值的具体数值可以根据实际应用场景和需求来设定,本发明将第一阈值设置为0.8。
需要说明的是,字符的标准图像块是根据标准字体生成的,而字符对应的图像块能够体现出书写习惯,导致字符对应的图像块与标准图像块不同,因此,通过匹配图像块对标准图像块进行修正,能够使得修正后的标准图像块具有书写习惯对应的特征,进而使得字符对应的图像块与标准图像块的匹配结果更准确。
所述修正的方法,包括:根据所有匹配图像块和修正后的标准图像块中每个位置的像素点的灰度值,确定修正后的标准图像块中每个位置的像素点的灰度值;则修正后的标准图像块中坐标为的像素点的灰度值满足表达式:
;
式中,表示修正后的标准图像块中坐标为/>的像素点的灰度值,表示第s个匹配图像块中坐标为/>的像素点的灰度值,/>表示像素点的坐标,x表示像素点的横坐标,y表示像素点的纵坐标,s表示匹配图像块的序号,s取遍[1,S]范围内的所有整数,S表示匹配图像块的数量,/>表示字符的标准图像块中坐标为/>的像素点的灰度值。
S4:根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定数字化档案的数字化质量。
具体的,根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定每种字符的识别质量;根据所有字符的识别质量,确定数字化档案的数字化质量。
所述根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定每种字符的识别质量,字符的识别质量满足表达式:
;
式中,L表示字符的识别质量,z表示字符的识别准确度,c表示字符的识别错误度,m表示字符对应的所有图像块的数量,表示字符对应的第i个图像块与第j次修正后的标准图像块的匹配度,i表示字符对应的图像块的序号,j表示对标准图像块进行修正的序号,N表示标准图像块的修正的总次数,/>表示取最大值函数,/>表示线性归一化函数,/>表示字符对应的第i个图像块与所有次修正后的标准图像块的匹配度的最大值。
需要说明的是,当对标准图像块进行修正的序号j=0时,第0次修正后的标准图像块是指未修正的标准图像块。
需要说明的是,字符的识别准确度越大且字符的识别错误度越小,则字符的识别质量越好;字符对应的图像块与所有次修正后的标准图像块的匹配度的最大值,更能代表字符对应的图像块与标准图像块的匹配程度,代表字符对应的所有图像块与标准图像块的匹配程度的平均值,该值越大,则字符的识别质量越好;其中,/>是为了避免分母为0。
所述根据所有字符的识别质量,确定数字化档案的数字化质量,包括:将识别质量大于预设第二阈值的字符,作为高质量识别字符,将识别质量小于或者等于预设第二阈值的字符,作为低质量识别字符;根据所有高质量识别字符的识别准确度,确定数字化档案的数字化质量,则数字化档案的数字化质量满足关系式:
;
式中,Q表示数字化档案的数字化质量,表示第k种高质量识别字符的识别准确度,k表示高质量识别字符的序号,R表示所有高质量识别字符的种类数量,M表示档案图像中的所有图像块的数量。
需要说明的是,高质量识别字符的识别准确度,代表了高质量识别字符对应的所有图像块中,与高质量识别字符的标准图像块的匹配的图像块的数量,代表了所有高质量识别字符对应的所有图像块中,与对应的高质量识别字符的标准图像块的匹配的图像块的总数量,则通过/>与档案图像中的所有图像块的数量M的比值/>,来表示数字化档案的数字化质量。
第二阈值的具体数值可以根据实际应用场景和需求来设定,本发明将第二阈值设置为0.85。
S5:根据数字化档案的数字化质量,对数字化档案进行更正。
具体的,对数字化质量小于预设第三阈值的数字化档案进行更正,所述更正是指通过人工对数字化档案中的低质量识别字符进行字符识别,获得更正后的数字化档案。
第三阈值的具体数值可以根据实际应用场景和需求来设定,本发明将第三阈值设置为0.6。
本发明实施例还公开一种用于档案数字化服务的质量监控系统,包括处理器和存储器,存储器存储有计算机程序指令,当计算机程序指令被处理器执行时实现根据本发明的一种用于档案数字化服务的质量监控方法。
上述系统还包括通信总线和通信接口等本领域技术人员熟知的其他组件,其设置和功能为本领域中已知,因此在此不再赘述。
在本说明书的描述中,“多个”、“若干个”的含义是至少两个,例如两个,三个或更多个等,除非另有明确具体的限定。
虽然本说明书已经示出和描述了本发明的多个实施例,但对于本领域技术人员显而易见的是,这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中,可以采用对本文所描述的本发明实施例的各替代方案。
Claims (10)
1.一种用于档案数字化服务的质量监控方法,其特征在于,包括:
确定数字化档案中每种字符在档案图像中对应的所有图像块;
根据每种字符对应的所有图像块的尺寸,确定每种字符的标准图像块;
对每种字符对应的每个图像块与标准图像块进行角点匹配,根据匹配结果,确定每种字符对应的每个图像块与标准图像块的匹配度,根据每种字符对应的所有图像块与标准图像块的匹配度,确定每种字符的识别准确度和识别错误度;
根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定数字化档案的数字化质量;
根据数字化档案的数字化质量,对数字化档案进行更正。
2.根据权利要求1所述的一种用于档案数字化服务的质量监控方法,其特征在于,所述确定数字化档案中每种字符在档案图像中对应的所有图像块,包括:
通过纸张扫描设备采集纸质档案的图像,作为档案图像,所述档案图像为二值图像;
通过光学字符识别技术对档案图像进行字符切割和字符识别,获取档案图像中的每个图像块以及每个图像块对应的字符,所有字符组成数字化档案;
将相同的字符作为一种字符,将相同的字符对应的所有图像块,作为每种字符对应的所有图像块。
3.根据权利要求1所述的一种用于档案数字化服务的质量监控方法,其特征在于,所述根据每种字符对应的所有图像块的尺寸,确定每种字符的标准图像块,包括:
将每种字符对应的所有图像块的尺寸的平均值,作为每种字符对应的标准尺寸;
对于任意一种字符,根据该字符的标准字体生成一个尺寸等于该字符对应的标准尺寸的二值图像,作为该字符的标准图像块。
4.根据权利要求1所述的一种用于档案数字化服务的质量监控方法,其特征在于,所述字符对应的每个图像块与标准图像块的匹配度满足表达式:
;
式中,表示字符对应的第i个图像块与标准图像块的匹配度,/>表示字符对应的第i个图像块与标准图像块的匹配角点的数量,i表示字符对应的图像块的序号,i取遍[1,m]范围内的所有整数,m表示字符对应的所有图像块的数量,A×B表示字符对应的标准尺寸,A表示字符对应的标准尺寸的长度,B表示字符对应的标准尺寸的宽度。
5.根据权利要求1所述的一种用于档案数字化服务的质量监控方法,其特征在于,所述根据每种字符对应的所有图像块与标准图像块的匹配度,确定每种字符的识别准确度和识别错误度,包括:
对于任意一种字符,在该字符对应的所有图像块中,如果存在与标准图像块的匹配度大于预设第一阈值的图像块,则将与标准图像块的匹配度大于预设第一阈值的所有图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第一次修正;
对除匹配图像块外的所有图像块与第一次修正后的标准图像块进行角点匹配,如果存在与第一次修正后的标准图像块的匹配度大于预设第一阈值的图像块,则将与第一次修正后的标准图像块的匹配度大于预设第一阈值的图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第二次修正;
对除匹配图像块外的所有图像块与第二次修正后的标准图像块进行角点匹配,如果存在与第二次修正后的标准图像块的匹配度大于预设第一阈值的图像块,则将与第二次修正后的标准图像块的匹配度大于预设第一阈值的图像块,作为匹配图像块,通过所有匹配图像块对标准图像块进行第三次修正;
以此类推,直到对除匹配图像块外的所有图像块与第N次修正后的标准图像块进行角点匹配时,不存在与第N次修正后的标准图像块的匹配度大于预设第一阈值的图像块时,停止迭代,此时,将所有匹配图像块的数量作为该字符的识别准确度,将除匹配图像块外的所有图像块的数量作为该字符的识别错误度,N表示标准图像块的修正的总次数。
6.根据权利要求5所述的一种用于档案数字化服务的质量监控方法,其特征在于,所述修正后的标准图像块,包括:
修正后的标准图像块中坐标为的像素点的灰度值满足表达式:
;
式中,表示修正后的标准图像块中坐标为/>的像素点的灰度值,/>表示第s个匹配图像块中坐标为/>的像素点的灰度值,/>表示像素点的坐标,x表示像素点的横坐标,y表示像素点的纵坐标,s表示匹配图像块的序号,s取遍[1,S]范围内的所有整数,S表示匹配图像块的数量,/>表示字符的标准图像块中坐标为/>的像素点的灰度值。
7.根据权利要求1所述的一种用于档案数字化服务的质量监控方法,其特征在于,所述根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定数字化档案的数字化质量,包括:
根据每种字符对应的所有图像块与标准图像块的匹配度,以及每种字符的识别准确度和识别错误度,确定每种字符的识别质量;根据所有字符的识别质量,确定数字化档案的数字化质量。
8.根据权利要求7所述的一种用于档案数字化服务的质量监控方法,其特征在于,所述字符的识别质量满足表达式:
;
式中,L表示字符的识别质量,z表示字符的识别准确度,c表示字符的识别错误度,m表示字符对应的所有图像块的数量,表示字符对应的第i个图像块与第j次修正后的标准图像块的匹配度,i表示字符对应的图像块的序号,j表示对标准图像块进行修正的序号,N表示标准图像块的修正的总次数,/>表示取最大值函数,/>表示归一化函数。
9.根据权利要求7所述的一种用于档案数字化服务的质量监控方法,其特征在于,所述根据所有字符的识别质量,确定数字化档案的数字化质量,包括:
将识别质量大于预设第二阈值的字符,作为高质量识别字符;
数字化档案的数字化质量满足关系式:
;
式中,Q表示数字化档案的数字化质量,表示第k种高质量识别字符的识别准确度,k表示高质量识别字符的序号,R表示所有高质量识别字符的种类数量,M表示档案图像中的所有图像块的数量。
10.一种用于档案数字化服务的质量监控系统,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现根据权利要求1-9任一项所述的一种用于档案数字化服务的质量监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410357999.9A CN117953519A (zh) | 2024-03-27 | 2024-03-27 | 一种用于档案数字化服务的质量监控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410357999.9A CN117953519A (zh) | 2024-03-27 | 2024-03-27 | 一种用于档案数字化服务的质量监控方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117953519A true CN117953519A (zh) | 2024-04-30 |
Family
ID=90796497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410357999.9A Pending CN117953519A (zh) | 2024-03-27 | 2024-03-27 | 一种用于档案数字化服务的质量监控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117953519A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4130819A (en) * | 1977-06-22 | 1978-12-19 | Hildegarde Seifried | Optical character recognition device |
US7480411B1 (en) * | 2008-03-03 | 2009-01-20 | International Business Machines Corporation | Adaptive OCR for books |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
US20210133498A1 (en) * | 2019-10-30 | 2021-05-06 | Bill.Com, Llc | Electronic document data extraction |
CN116704523A (zh) * | 2023-08-07 | 2023-09-05 | 山东成信彩印有限公司 | 一种用于出版印刷设备的文字排版图像识别系统 |
CN116935407A (zh) * | 2023-07-24 | 2023-10-24 | 平安国际融资租赁有限公司 | 数字字符识别结果的修正方法、装置、存储介质及设备 |
CN116935449A (zh) * | 2023-07-27 | 2023-10-24 | 深圳大学 | 指纹图像匹配模型训练方法、指纹匹配方法及相关介质 |
CN117558005A (zh) * | 2023-11-28 | 2024-02-13 | 北京朗杰科技有限公司 | 一种基于ocr图像识别的档案管理系统 |
-
2024
- 2024-03-27 CN CN202410357999.9A patent/CN117953519A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4130819A (en) * | 1977-06-22 | 1978-12-19 | Hildegarde Seifried | Optical character recognition device |
US7480411B1 (en) * | 2008-03-03 | 2009-01-20 | International Business Machines Corporation | Adaptive OCR for books |
US20210133498A1 (en) * | 2019-10-30 | 2021-05-06 | Bill.Com, Llc | Electronic document data extraction |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
CN116935407A (zh) * | 2023-07-24 | 2023-10-24 | 平安国际融资租赁有限公司 | 数字字符识别结果的修正方法、装置、存储介质及设备 |
CN116935449A (zh) * | 2023-07-27 | 2023-10-24 | 深圳大学 | 指纹图像匹配模型训练方法、指纹匹配方法及相关介质 |
CN116704523A (zh) * | 2023-08-07 | 2023-09-05 | 山东成信彩印有限公司 | 一种用于出版印刷设备的文字排版图像识别系统 |
CN117558005A (zh) * | 2023-11-28 | 2024-02-13 | 北京朗杰科技有限公司 | 一种基于ocr图像识别的档案管理系统 |
Non-Patent Citations (2)
Title |
---|
WEIHUA AN: "Correctness Evaluation of Handwritten Chinese Characters Based on Relaxation Matching", 2019 IEEE 4TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC), 13 February 2020 (2020-02-13), pages 352 - 357 * |
贺长水等: "新一代运载火箭机器视觉瞄准技术研究", 导弹与航天运载技术, no. 34, 30 April 2016 (2016-04-30), pages 34 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020692B (zh) | 一种基于印刷体模板的手写体分离与定位方法 | |
CN108416355B (zh) | 一种基于机器视觉的工业现场生产数据的采集方法 | |
CN110619333B (zh) | 一种文本行分割方法、文本行分割装置及电子设备 | |
CN111445517A (zh) | 机器人视觉末端定位方法、装置及计算机可读存储介质 | |
CN103714327A (zh) | 一种图像方向校正方法及系统 | |
CN111275040B (zh) | 定位方法及装置、电子设备、计算机可读存储介质 | |
CN111931864B (zh) | 基于顶点距离与交并比多重优化目标检测器的方法与系统 | |
CN116541576B (zh) | 基于大数据应用的档案数据管理标注方法及系统 | |
CN112418180A (zh) | 表格数据提取方法、装置、设备及计算机存储介质 | |
US8787702B1 (en) | Methods and apparatus for determining and/or modifying image orientation | |
CN112149548A (zh) | 一种适用于端子排的cad图纸智能录入和识别方法及其装置 | |
CN111582282A (zh) | 一种文本识别方法、装置、设备及存储介质 | |
CN111368632A (zh) | 一种签名识别方法及设备 | |
CN113657370A (zh) | 一种文字识别方法及其相关设备 | |
CN116433494B (zh) | 一种基于深度学习的档案扫描图像自动纠偏裁边方法 | |
CN117953519A (zh) | 一种用于档案数字化服务的质量监控方法及系统 | |
CN114757872A (zh) | 芯片采集方法和芯片定位方法 | |
CN110874538A (zh) | 对条形码的译码结果的评测方法、装置及电子设备 | |
CN115457585A (zh) | 作业批改的处理方法、装置、计算机设备及可读存储介质 | |
CN111814780B (zh) | 一种票据图像处理方法、装置、设备及存储介质 | |
CN114038000A (zh) | 一种图像表格的结构化方法、系统和电子设备 | |
JPH06203202A (ja) | 画像処理装置 | |
CN111783888A (zh) | 一种图片电子作业查重系统及方法 | |
CN112241737A (zh) | 文字图像校正方法和装置 | |
CN113343983B (zh) | 一种车牌号码识别方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |