CN117409428B - 一种试卷信息处理方法、系统、计算机设备及存储介质 - Google Patents
一种试卷信息处理方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117409428B CN117409428B CN202311706759.7A CN202311706759A CN117409428B CN 117409428 B CN117409428 B CN 117409428B CN 202311706759 A CN202311706759 A CN 202311706759A CN 117409428 B CN117409428 B CN 117409428B
- Authority
- CN
- China
- Prior art keywords
- frames
- rectangular
- test paper
- frame
- rectangular frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 89
- 230000010365 information processing Effects 0.000 title claims abstract description 36
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 230000002776 aggregation Effects 0.000 claims abstract description 16
- 238000004220 aggregation Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 15
- 230000005484 gravity Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003708 edge detection Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Multimedia (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Character Input (AREA)
Abstract
本发明提供一种试卷信息处理方法、系统、计算机设备及存储介质,方法包括:对试卷图像进行预处理,以获取若干个初始矩形框;判断若干个初始矩形框之间是否存在交叠情况,以将若干个初始矩形框分隔为独立矩形框及重叠矩形框组,并将重叠矩形框组组合为聚合矩形框;对聚合矩形框进行过滤处理,以剔除无效框;将剔除无效框后的聚合矩形框及独立矩形框选定为候选矩形框,对候选矩形框进行字符判别,以确定字符框;对字符框进行合并处理,以获取文本框。通过判断交叠情况,以获取聚合矩形框,可完成对不同大小的字符的全部框选,进而通过对聚合矩形框进行过滤处理,可排除较大的矩形区域,有效提高对文字信息的框选精确度,避免信息处理错漏的情况。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种试卷信息处理方法、系统、计算机设备及存储介质。
背景技术
随着信息化、大数据的不断发展,线下教育与线上教育的融合已愈发密切,利用大数据驱动可提供更为精准的教育服务。
大数据驱动的先决条件是需要获取到足够的底层数据,而学生在线下完成的大量的纸质试卷,通过对其进行信息收集,再对收集的信息进行提取、分析后,即可作为底层数据的供应源,进而完成个性化教育的大数据驱动,如薄弱知识点推荐、错题汇总等。
纸质试卷的信息处理虽属于文本信息处理的一种,但其与常规的文本信息处理不同之处在于,其存在较多图表、插图等非文字内容及字符大小不一的情况,在框选并提取纸质试卷上的文本信息时,容易导致文本框框选的内容不够精确,造成信息处理错漏的情况。
发明内容
本申请实施例提供了一种试卷信息处理方法、系统、计算机设备及存储介质,以解决现有技术中对纸质试卷进行信息处理时,因存在较多图表、插图等非文字内容及字符大小不一的情况,在框选并提取纸质试卷上的文本信息时,易导致文本框框选的内容不够精确,造成信息处理错漏的技术问题。
第一方面,本申请实施例提供了一种试卷信息处理方法,包括以下步骤:
获取试卷图像,对所述试卷图像进行预处理,以获取分别框选不同字符的若干个初始矩形框;
判断若干个所述初始矩形框之间是否存在交叠情况,以将若干个所述初始矩形框分隔为若干个独立矩形框及若干个重叠矩形框组,并将若干个所述重叠矩形框组组合为若干个聚合矩形框;
基于所述试卷图像的宽度及高度,计算若干个所述独立矩形框与所述试卷图像之间的独立宽度比及独立高度比,并计算若干个所述聚合矩形框与所述试卷图像之间的待验宽度比及待验高度比;
通过所述独立宽度比及所述独立高度比确定标准宽度比及标准高度比,将所述待验宽度比与所述标准宽度比进行比对,并将所述待验高度比与所述标准高度比进行比对,以从若干个所述聚合矩形框中筛选出无效框,剔除所述无效框;
将剔除所述无效框后的若干个所述聚合矩形框及若干个所述独立矩形框均选定为候选矩形框,对若干个所述候选矩形框进行字符判别,以从若干个所述候选矩形框中确定若干个字符框;
对若干个所述字符框进行合并处理,以获取文本框,基于所述文本框对所述试卷图像进行信息处理。
进一步地,所述对所述试卷图像进行预处理,以获取分别框选不同字符的若干个初始矩形框的步骤包括:
对所述试卷图像进行灰度处理及边缘检测,以获取二值化图像;
于所述二值化图像中选取标定像素值的像素点为起始点,将与所述起始点相邻的像素点判定为相邻点;
判断所述相邻点的像素值是否为所述标定像素值,以从若干个所述相邻点中选定连接点;
将所述起始点与所述连接点组合为与字符对应的字符区域;
于所述二值化图像内确定若干个所述字符区域,基于所述字符区域获取初始矩形框。
进一步地,所述初始矩形框的获取公式为:
,
其中,表示初始矩形框的第一角点,/>表示字符区域中起始点及连接点于像素坐标内x轴的最小值,/>表示字符区域中起始点及连接点于像素坐标内y轴的最小值;
,
其中,表示初始矩形框的第二角点,/>表示字符区域中起始点及连接点于像素坐标内x轴的最大值,/>表示字符区域中起始点及连接点于像素坐标内y轴的最大值;
,
其中,表示初始矩形框的宽,/>表示初始矩形框的第二角点的横坐标,/>表示初始矩形框的第一角点的横坐标;
,
其中,表示初始矩形框的高,/>表示初始矩形框的第二角点的纵坐标,表示初始矩形框的第一角点的纵坐标。
进一步地,所述判断若干个所述初始矩形框之间是否存在交叠情况,以将若干个所述初始矩形框分隔为若干个独立矩形框及若干个重叠矩形框组的步骤包括:
将其一所述初始矩形框选定为待判断框,并将所述待判断框与其他的所述初始矩形框之间分别进行重叠计算,以获取若干个交叠比;
将若干个所述交叠比分别与第一重叠阈值进行比对;
若所述交叠比大于所述第一重叠阈值,则将与大于所述第一重叠阈值的交叠比对应的所述初始矩形框判定为相交框,并将所述待判断框与所述相交框组合为重叠矩形框组;
若全部的所述交叠比均小于所述第一重叠阈值,则将所述待判断框判定为独立矩形框。
进一步地,所述交叠比的计算公式为:
,
其中,表示交叠比,/>表示第i个待判断框,/>表示第j个初始矩形框。
进一步地,所述对若干个所述字符框进行合并处理的步骤具体为:
计算两所述字符框之间的最小重力距离及垂直重叠;
将所述最小重力距离与距离阈值进行比对,并将所述垂直重叠与第二重叠阈值进行比对;
若所述最小重力阈值小于所述距离阈值,且所述垂直重叠小于所述第二重叠阈值,则合并两所述字符框。
第二方面,本申请实施例提供了一种试卷信息处理系统,应用于如上述技术方案中的试卷信息处理方法,所述系统包括:
预处理模块,用于获取试卷图像,对所述试卷图像进行预处理,以获取分别框选不同字符的若干个初始矩形框;
判断模块,用于判断若干个所述初始矩形框之间是否存在交叠情况,以将若干个所述初始矩形框分隔为若干个独立矩形框及若干个重叠矩形框组,并将若干个所述重叠矩形框组组合为若干个聚合矩形框;
校验模块,用于基于所述试卷图像的宽度及高度,计算若干个所述独立矩形框与所述试卷图像之间的独立宽度比及独立高度比,并计算若干个所述聚合矩形框与所述试卷图像之间的待验宽度比及待验高度比;
筛选模块,用于通过所述独立宽度比及所述独立高度比确定标准宽度比及标准高度比,将所述待验宽度比与所述标准宽度比进行比对,并将所述待验高度比与所述标准高度比进行比对,以从若干个所述聚合矩形框中筛选出无效框,剔除所述无效框;
识别模块,用于将剔除所述无效框后的若干个所述聚合矩形框及若干个所述独立矩形框均选定为候选矩形框,对若干个所述候选矩形框进行字符判别,以从若干个所述候选矩形框中确定若干个字符框;
执行模块,用于对若干个所述字符框进行合并处理,以获取文本框,基于所述文本框对所述试卷图像进行信息处理。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的试卷信息处理方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的试卷信息处理方法。
相比于现有技术,本发明的有益效果在于:在完成对所述试卷图像的全部字符的框选后,通过判断所述初始矩形框之间是否存在交叠情况,进而对所述交叠矩形框组进行合并后,可完成对不同大小的字符的全部框选,进而通过对聚合矩形框进行过滤处理,可排除所述试卷图像中较大的矩形区域,即排除所述试卷图像中图表、插图等对文字信息提取的干扰,有效的提高了对文字信息获取的精度,通过对所述候选矩形框进行字符判别,进一步过滤干扰信息,进而通过对相近字符框的合并形成的所述文本框,完成对文字信息的准确捕获,避免信息处理错漏的情况。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
图1为本发明第一实施例中试卷信息处理方法的流程图;
图2为本发明第二实施例中试卷信息处理系统的结构框图;
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
请参阅图1,本发明第一实施例提供的试卷信息处理方法,包括以下:
步骤S10:获取试卷图像,对所述试卷图像进行预处理,以获取分别框选不同字符的若干个初始矩形框;
通过扫描或拍摄的方式,将纸质试卷转变为所述试卷图像。具体地,所述步骤S10包括:
S110:对所述试卷图像进行灰度处理及边缘检测,以获取二值化图像。
对于所述试卷图像的文字内容,其一般可通过文字边缘轮廓即可确定其所在位置,在本实施例中,通过Canny滤波器进行所述边缘检测,在所述边缘检测的过程中,所述Canny滤波器还可一定程度的去除所述试卷图像中的噪声影响,有效的提高检测精度。
S120:于所述二值化图像中选取标定像素值的像素点为起始点,将与所述起始点相邻的像素点判定为相邻点;
所述起始点相邻的像素点,即所述起始点的八邻域,假定所述起始点位于某一方框内,所述起始点的八邻域即为围合方框的另八个方框。在本实施例中,所述标定像素值为1。
S130:判断所述相邻点的像素值是否为所述标定像素值,以从若干个所述相邻点中选定连接点;
即判断所述相邻点的像素值是否为1,若为1,则该所述相邻点为所述连接点。
S140:将所述起始点与所述连接点组合为与字符对应的字符区域;
S150:于所述二值化图像内确定若干个所述字符区域,基于所述字符区域获取初始矩形框;
可以理解地,对所述二值化图像重复步骤S120~步骤S140,可于所述二值化图像中确定多个所述字符区域,并分别对每个所述字符区域进行所述初始矩形框的获取。
所述初始矩形框的获取公式为:
,
其中,表示初始矩形框的第一角点,/>表示字符区域中起始点及连接点于像素坐标内x轴的最小值,/>表示字符区域中起始点及连接点于像素坐标内y轴的最小值;
,
其中,表示初始矩形框的第二角点,/>表示字符区域中起始点及连接点于像素坐标内x轴的最大值,/>表示字符区域中起始点及连接点于像素坐标内y轴的最大值;
,
其中,表示初始矩形框的宽,/>表示初始矩形框的第二角点的横坐标,/>表示初始矩形框的第一角点的横坐标;
,
其中,表示初始矩形框的高,/>表示初始矩形框的第二角点的纵坐标,表示初始矩形框的第一角点的纵坐标。
当于坐标系内确定所述初始矩形框的第一角点、第二角点、宽、高后,即可在所述二值化图像中完成所述初始矩形框的构建。
步骤S20:若干个所述初始矩形框之间是否存在交叠情况,以将若干个所述初始矩形框分隔为若干个独立矩形框及若干个重叠矩形框组,并将若干个所述重叠矩形框组组合为若干个聚合矩形框;
在完成所述初始矩形框的获取后,其形态一般较为复杂,不同的所述初始矩形框之间将会存在很多重叠的区域。而重叠的区域的部分所述初始矩形框对后续的文字信息提取无法产生作用,且较多数量的所述初始矩形框将会影响所述文本框的获取效率,增大计算量。
具体地,所述步骤S20包括:
S210:将其一所述初始矩形框选定为待判断框,并将所述待判断框与其他的所述初始矩形框之间分别进行重叠计算,以获取若干个交叠比;
所述交叠比的计算公式为:
,
其中,表示交叠比,/>表示第i个待判断框,/>表示第j个初始矩形框。
S220:将若干个所述交叠比分别与第一重叠阈值进行比对;
即判断所述待判断框与其他全部的所述初始矩形框之间是否存在重叠情况。
S230:若所述交叠比大于所述第一重叠阈值,则将与大于所述第一重叠阈值的交叠比对应的所述初始矩形框判定为相交框,并将所述待判断框与所述相交框组合为重叠矩形框组;
需要说明的是,若多个所述交叠比大于所述第一重叠阈值,则需将与多个所述交叠比对应的所述初始矩形框均判定为所述相交框,并将多个所述相交框与所述待判断框组合为所述重叠矩形框组。
S240:若全部的所述交叠比均小于所述第一重叠阈值,则将所述待判断框判定为独立矩形框。
可以理解地,在完成其一所述初始矩形框的相交框的获取后,需对剩余的所述初始矩形框重复进行步骤S210~步骤S240,以完成全部的所述初始矩形框的筛选。
步骤S30:基于所述试卷图像的宽度及高度,计算若干个所述独立矩形框与所述试卷图像之间的独立宽度比及独立高度比,并计算若干个所述聚合矩形框与所述试卷图像之间的待验宽度比及待验高度比;
所述独立矩形框,其本身存在宽度及高度,将所述独立矩形框的宽度与所述试卷图像的宽度进行对比,以获取所述独立宽度比,将所述独立矩形框的高度与所述试卷图像的高度进行对比,以获取所述独立高度比。
在本实施例中,通过对所述独立宽度比进行大小排序,以形成宽度比队列,由所述宽度比队列中,自大向小方向取1/4位置处的所述独立宽度比为第一宽度比,由所述宽度比队列中,自小向大方向取1/4位置处的所述独立宽度比为第二宽度比,通过所述第一宽度比及所述第二宽度比获取差值比,基于所述第一宽度比及所述插值比确定所述标准宽度比。所述标准宽度比的获取公式为:Kb=Ks+1.5*Kc,其中,Kb表示标准宽度比,Ks表示第一宽度比,Kc表示差值比。
所述标准高度比的获取方式与所述标准宽度比的获取方式一致,此处不再进行赘述。所述待验宽度比、所述待验高度比的获取方式与所述独立宽度比、所述独立高度比的获取方式一致,此处不再进行赘述。
步骤S40:通过所述独立宽度比及所述独立高度比确定标准宽度比及标准高度比,将所述待验宽度比与所述标准宽度比进行比对,并将所述待验高度比与所述标准高度比进行比对,以从若干个所述聚合矩形框中筛选出无效框,剔除所述无效框;
所述无效框即代表尺寸较大的所述聚合矩形框,对于试卷图像来说,过大的所述聚合矩形框即代表了其为插图或图表,而一般插图或图表均有对应的图片格式被提取,无需对其进行字符识别。
当某一所述聚合矩形框的所述待验宽度比大于所述标准宽度比时,将该所述聚合矩形框判定为所述第一过滤框;当某一所述聚合矩形框的所述待验高度比大于所述标准高度比时,将该所述聚合矩形框判定为所述第二过滤框,所述第一过滤框及所述第二过滤框组合为所述无效框,进而剔除所述无效框。
步骤S50:将剔除所述无效框后的若干个所述聚合矩形框及若干个所述独立矩形框均选定为候选矩形框,对若干个所述候选矩形框进行字符判别,以从若干个所述候选矩形框中确定若干个字符框;
构建特征识别模块,所述特征识别模块包括依次设置的第一卷积层、第一BN层、第一激励层、第二卷积层、第二BN层及第二激励层,其结构简单,可快速有效的完成特征的判别。
在完成所述特征识别模块的构建后,通过损失函数对所述特征识别模块进行训练,以使所述特征识别模块具备对特征的评分能力。
获取所述候选矩形框内的像素图像,将所述像素图像分别标准化为48X48像素的调节图像,并将所述调节图像作为输入值输入训练后的所述特征识别模块,以通过所述特征识别模块对所述调节图像进行评分,根据所述评分,完成所述候选矩形框的字符判别。
S60:对若干个所述字符框进行合并处理,以获取文本框,基于所述文本框对所述试卷图像进行信息处理;
具体地,所述步骤S60包括:
S610:计算两所述字符框之间的最小重力距离及垂直重叠;
S620:将所述最小重力距离与距离阈值进行比对,并将所述垂直重叠与第二重叠阈值进行比对;
S630:若所述最小重力阈值小于所述距离阈值,且所述垂直重叠小于所述第二重叠阈值,则合并两所述字符框。
通过重复步骤S610~步骤S630,可完成若干个所述文本框的获取,进而根据所述文本框于所述试卷图像上的框选位置,完成试卷信息的提取及处理。
在完成对所述试卷图像的全部字符的框选后,通过判断所述初始矩形框之间是否存在交叠情况,进而对所述交叠矩形框组进行合并后,可完成对不同大小的字符的全部框选,进而通过对聚合矩形框进行过滤处理,可排除所述试卷图像中较大的矩形区域,即排除所述试卷图像中图表、插图等对文字信息提取的干扰,有效的提高了对文字信息获取的精度,通过对所述候选矩形框进行字符判别,进一步过滤干扰信息,进而通过对相近字符框的合并形成的所述文本框,完成对文字信息的准确捕获,避免信息处理错漏的情况。
请参阅图2,本发明第二实施例提供了一种试卷信息处理系统,该系统应用于上述实施例中的所述试卷信息处理方法,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
所述系统包括:
预处理模块10,用于获取试卷图像,对所述试卷图像进行预处理,以获取分别框选不同字符的若干个初始矩形框;
所述预处理模块10包括:
第一单元,用于对所述试卷图像进行灰度处理及边缘检测,以获取二值化图像;
第二单元,用于于所述二值化图像中选取标定像素值的像素点为起始点,将与所述起始点相邻的像素点判定为相邻点;
第三单元,用于判断所述相邻点的像素值是否为所述标定像素值,以从若干个所述相邻点中选定连接点;
第四单元,用于将所述起始点与所述连接点组合为与字符对应的字符区域;
第五单元,用于于所述二值化图像内确定若干个所述字符区域,基于所述字符区域获取初始矩形框;
判断模块20,用于判断若干个所述初始矩形框之间是否存在交叠情况,以将若干个所述初始矩形框分隔为若干个独立矩形框及若干个重叠矩形框组,并将若干个所述重叠矩形框组组合为若干个聚合矩形框;
所述判断模块20包括:
第六单元,用于将其一所述初始矩形框选定为待判断框,并将所述待判断框与其他的所述初始矩形框之间分别进行重叠计算,以获取若干个交叠比;
第七单元,用于将若干个所述交叠比分别与第一重叠阈值进行比对;
第八单元,用于若所述交叠比大于所述第一重叠阈值,则将与大于所述第一重叠阈值的交叠比对应的所述初始矩形框判定为相交框,并将所述待判断框与所述相交框组合为重叠矩形框组;
第九单元,用于若全部的所述交叠比均小于所述第一重叠阈值,则将所述待判断框判定为独立矩形框;
校验模块30,用于基于所述试卷图像的宽度及高度,计算若干个所述独立矩形框与所述试卷图像之间的独立宽度比及独立高度比,并计算若干个所述聚合矩形框与所述试卷图像之间的待验宽度比及待验高度比;
筛选模块40,用于通过所述独立宽度比及所述独立高度比确定标准宽度比及标准高度比,将所述待验宽度比与所述标准宽度比进行比对,并将所述待验高度比与所述标准高度比进行比对,以从若干个所述聚合矩形框中筛选出无效框,剔除所述无效框;
识别模块50,用于将剔除所述无效框后的若干个所述聚合矩形框及若干个所述独立矩形框均选定为候选矩形框,对若干个所述候选矩形框进行字符判别,以从若干个所述候选矩形框中确定若干个字符框;
执行模块60,用于对若干个所述字符框进行合并处理,以获取文本框,基于所述文本框对所述试卷图像进行信息处理。
所述执行模块60包括:
第十单元,用于计算两所述字符框之间的最小重力距离及垂直重叠;
第十一单元,用于将所述最小重力距离与距离阈值进行比对,并将所述垂直重叠与第二重叠阈值进行比对;
第十二单元,用于若所述最小重力阈值小于所述距离阈值,且所述垂直重叠小于所述第二重叠阈值,则合并两所述字符框。
本发明还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述技术方案中所述的试卷信息处理方法。
本发明还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述技术方案中所述的试卷信息处理方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种试卷信息处理方法,其特征在于,包括以下步骤:
获取试卷图像,对所述试卷图像进行预处理,以获取分别框选不同字符的若干个初始矩形框;
所述对所述试卷图像进行预处理,以获取分别框选不同字符的若干个初始矩形框的步骤包括:
对所述试卷图像进行灰度处理及边缘检测,以获取二值化图像;
于所述二值化图像中选取标定像素值的像素点为起始点,将与所述起始点相邻的像素点判定为相邻点;
判断所述相邻点的像素值是否为所述标定像素值,以从若干个所述相邻点中选定连接点;
将所述起始点与所述连接点组合为与字符对应的字符区域;
于所述二值化图像内确定若干个所述字符区域,基于所述字符区域获取初始矩形框;
判断若干个所述初始矩形框之间是否存在交叠情况,以将若干个所述初始矩形框分隔为若干个独立矩形框及若干个重叠矩形框组,并将若干个所述重叠矩形框组组合为若干个聚合矩形框;
基于所述试卷图像的宽度及高度,计算若干个所述独立矩形框与所述试卷图像之间的独立宽度比及独立高度比,并计算若干个所述聚合矩形框与所述试卷图像之间的待验宽度比及待验高度比;
通过所述独立宽度比及所述独立高度比确定标准宽度比及标准高度比,将所述待验宽度比与所述标准宽度比进行比对,并将所述待验高度比与所述标准高度比进行比对,以从若干个所述聚合矩形框中筛选出无效框,剔除所述无效框;
将剔除所述无效框后的若干个所述聚合矩形框及若干个所述独立矩形框均选定为候选矩形框,对若干个所述候选矩形框进行字符判别,以从若干个所述候选矩形框中确定若干个字符框;
对若干个所述字符框进行合并处理,以获取文本框,基于所述文本框对所述试卷图像进行信息处理。
2.根据权利要求1所述的试卷信息处理方法,其特征在于,所述初始矩形框的获取公式为:
,
其中,表示初始矩形框的第一角点,/>表示字符区域中起始点及连接点于像素坐标内x轴的最小值,/>表示字符区域中起始点及连接点于像素坐标内y轴的最小值;
,
其中,表示初始矩形框的第二角点,/>表示字符区域中起始点及连接点于像素坐标内x轴的最大值,/>表示字符区域中起始点及连接点于像素坐标内y轴的最大值;
,
其中,表示初始矩形框的宽,/>表示初始矩形框的第二角点的横坐标,/>表示初始矩形框的第一角点的横坐标;
,
其中,表示初始矩形框的高,/>表示初始矩形框的第二角点的纵坐标,/>表示初始矩形框的第一角点的纵坐标。
3.根据权利要求1所述的试卷信息处理方法,其特征在于,所述判断若干个所述初始矩形框之间是否存在交叠情况,以将若干个所述初始矩形框分隔为若干个独立矩形框及若干个重叠矩形框组的步骤包括:
将其一所述初始矩形框选定为待判断框,并将所述待判断框与其他的所述初始矩形框之间分别进行重叠计算,以获取若干个交叠比;
将若干个所述交叠比分别与第一重叠阈值进行比对;
若所述交叠比大于所述第一重叠阈值,则将与大于所述第一重叠阈值的交叠比对应的所述初始矩形框判定为相交框,并将所述待判断框与所述相交框组合为重叠矩形框组;
若全部的所述交叠比均小于所述第一重叠阈值,则将所述待判断框判定为独立矩形框。
4.根据权利要求3所述的试卷信息处理方法,其特征在于,所述交叠比的计算公式为:
,
其中,表示交叠比,/>表示第i个待判断框,/>表示第j个初始矩形框。
5.根据权利要求1所述的试卷信息处理方法,其特征在于,所述对若干个所述字符框进行合并处理的步骤具体为:
计算两所述字符框之间的最小重力距离及垂直重叠;
将所述最小重力距离与距离阈值进行比对,并将所述垂直重叠与第二重叠阈值进行比对;
若所述最小重力距离小于所述距离阈值,且所述垂直重叠小于所述第二重叠阈值,则合并两所述字符框。
6.一种试卷信息处理系统,应用于如权利要求1~5任一项所述的试卷信息处理方法,其特征在于,所述系统包括:
预处理模块,用于获取试卷图像,对所述试卷图像进行预处理,以获取分别框选不同字符的若干个初始矩形框;
所述预处理模块包括:
第一单元,用于对所述试卷图像进行灰度处理及边缘检测,以获取二值化图像;
第二单元,用于于所述二值化图像中选取标定像素值的像素点为起始点,将与所述起始点相邻的像素点判定为相邻点;
第三单元,用于判断所述相邻点的像素值是否为所述标定像素值,以从若干个所述相邻点中选定连接点;
第四单元,用于将所述起始点与所述连接点组合为与字符对应的字符区域;
第五单元,用于于所述二值化图像内确定若干个所述字符区域,基于所述字符区域获取初始矩形框;
判断模块,用于判断若干个所述初始矩形框之间是否存在交叠情况,以将若干个所述初始矩形框分隔为若干个独立矩形框及若干个重叠矩形框组,并将若干个所述重叠矩形框组组合为若干个聚合矩形框;
校验模块,用于基于所述试卷图像的宽度及高度,计算若干个所述独立矩形框与所述试卷图像之间的独立宽度比及独立高度比,并计算若干个所述聚合矩形框与所述试卷图像之间的待验宽度比及待验高度比;
筛选模块,用于通过所述独立宽度比及所述独立高度比确定标准宽度比及标准高度比,将所述待验宽度比与所述标准宽度比进行比对,并将所述待验高度比与所述标准高度比进行比对,以从若干个所述聚合矩形框中筛选出无效框,剔除所述无效框;
识别模块,用于将剔除所述无效框后的若干个所述聚合矩形框及若干个所述独立矩形框均选定为候选矩形框,对若干个所述候选矩形框进行字符判别,以从若干个所述候选矩形框中确定若干个字符框;
执行模块,用于对若干个所述字符框进行合并处理,以获取文本框,基于所述文本框对所述试卷图像进行信息处理。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的试卷信息处理方法。
8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5中任一项所述的试卷信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311706759.7A CN117409428B (zh) | 2023-12-13 | 2023-12-13 | 一种试卷信息处理方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311706759.7A CN117409428B (zh) | 2023-12-13 | 2023-12-13 | 一种试卷信息处理方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409428A CN117409428A (zh) | 2024-01-16 |
CN117409428B true CN117409428B (zh) | 2024-03-01 |
Family
ID=89496528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311706759.7A Active CN117409428B (zh) | 2023-12-13 | 2023-12-13 | 一种试卷信息处理方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409428B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650608A (zh) * | 2016-10-31 | 2017-05-10 | 广东工业大学 | 一种无定位点试卷中矩形定位框的识别方法 |
CN107748888A (zh) * | 2017-10-13 | 2018-03-02 | 众安信息技术服务有限公司 | 一种图像文本行检测方法及装置 |
CN110414505A (zh) * | 2019-06-27 | 2019-11-05 | 深圳中兴网信科技有限公司 | 图像的处理方法、处理系统及计算机可读存储介质 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
CN114463770A (zh) * | 2021-12-13 | 2022-05-10 | 黑盒科技(广州)有限公司 | 一种用于普遍试卷题目的智能切题方法 |
WO2023284502A1 (zh) * | 2021-07-13 | 2023-01-19 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
CN115761213A (zh) * | 2022-11-04 | 2023-03-07 | 科大讯飞股份有限公司 | 目标检测方法及相关装置、电子设备、存储介质 |
CN116189214A (zh) * | 2022-12-30 | 2023-05-30 | 科大讯飞股份有限公司 | 版面分析方法、装置、电子设备及存储介质 |
CN116524503A (zh) * | 2023-03-14 | 2023-08-01 | 广联达科技股份有限公司 | 多行文本行提取方法、装置、设备及可读存储介质 |
-
2023
- 2023-12-13 CN CN202311706759.7A patent/CN117409428B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650608A (zh) * | 2016-10-31 | 2017-05-10 | 广东工业大学 | 一种无定位点试卷中矩形定位框的识别方法 |
CN107748888A (zh) * | 2017-10-13 | 2018-03-02 | 众安信息技术服务有限公司 | 一种图像文本行检测方法及装置 |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、系统及计算机可读存储介质 |
CN110414505A (zh) * | 2019-06-27 | 2019-11-05 | 深圳中兴网信科技有限公司 | 图像的处理方法、处理系统及计算机可读存储介质 |
WO2023284502A1 (zh) * | 2021-07-13 | 2023-01-19 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
CN114463770A (zh) * | 2021-12-13 | 2022-05-10 | 黑盒科技(广州)有限公司 | 一种用于普遍试卷题目的智能切题方法 |
CN115761213A (zh) * | 2022-11-04 | 2023-03-07 | 科大讯飞股份有限公司 | 目标检测方法及相关装置、电子设备、存储介质 |
CN116189214A (zh) * | 2022-12-30 | 2023-05-30 | 科大讯飞股份有限公司 | 版面分析方法、装置、电子设备及存储介质 |
CN116524503A (zh) * | 2023-03-14 | 2023-08-01 | 广联达科技股份有限公司 | 多行文本行提取方法、装置、设备及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Hybrid Page Segmentation with Efficient Whitespace Rectangles Extraction and Grouping;Kai Chen 等;《2013 12th International Conference on Document Analysis and Recognition》;20131015;第958-962页 * |
试卷智能辅助批阅系统的设计与实现;胡翔;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200315(第03期);第I138-1212页 * |
试卷自适应分割算法的设计与实现;刘红 等;《上海电机学院学报》;20210425;第24卷(第02期);第108-111页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117409428A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4280153A1 (en) | Defect detection method, apparatus and system | |
CN112348787B (zh) | 物体缺陷检测模型的训练方法、物体缺陷检测方法及装置 | |
CN109886928B (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
CN104978578B (zh) | 手机拍照文本图像质量评估方法 | |
CN106033535B (zh) | 电子阅卷方法 | |
CN113283431B (zh) | 一种答题卡选项区域识别方法及系统 | |
CN110378258B (zh) | 一种基于图像的车辆座椅信息检测方法及设备 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113762274B (zh) | 一种答题卡目标区域检测方法、系统、存储介质及设备 | |
US8787702B1 (en) | Methods and apparatus for determining and/or modifying image orientation | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN111915635A (zh) | 支持自阅卷的试题解析信息生成方法及系统 | |
CN116798036B (zh) | 用于识别和校验答题卡客观题识别结果的方法及装置 | |
CN115100656B (zh) | 空白答题卡识别方法、系统、存储介质及计算机设备 | |
CN110991437B (zh) | 字符识别方法及其装置、字符识别模型的训练方法及其装置 | |
CN113269752A (zh) | 一种图像检测方法、装置终端设备及存储介质 | |
CN117409428B (zh) | 一种试卷信息处理方法、系统、计算机设备及存储介质 | |
CN111008635A (zh) | 一种基于ocr的多票据自动识别方法及识别系统 | |
CN113537253B (zh) | 一种红外图像目标检测方法、装置、计算设备及存储介质 | |
CN116012860A (zh) | 一种基于图像识别的教师板书设计水平诊断方法及装置 | |
CN114254605A (zh) | 答题卡模板生成方法、答题卡识别方法、装置和电子设备 | |
CN117474915B (zh) | 一种异常检测方法、电子设备及存储介质 | |
CN110458024A (zh) | 活体检测方法及装置和电子设备 | |
CN110717880B (zh) | 一种缺陷检测方法、装置及电子设备 | |
CN115601631B (zh) | 一种卷烟陈列图像识别方法、系统、设备及储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |