CN116343242B - 基于图像数据的试题实时批阅方法及系统 - Google Patents

基于图像数据的试题实时批阅方法及系统 Download PDF

Info

Publication number
CN116343242B
CN116343242B CN202310619812.3A CN202310619812A CN116343242B CN 116343242 B CN116343242 B CN 116343242B CN 202310619812 A CN202310619812 A CN 202310619812A CN 116343242 B CN116343242 B CN 116343242B
Authority
CN
China
Prior art keywords
font
continuous
strokes
taking
stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310619812.3A
Other languages
English (en)
Other versions
CN116343242A (zh
Inventor
薛峰
刘建华
薛冰洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yipin Culture Media Co ltd
Original Assignee
Shandong Yipin Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yipin Culture Media Co ltd filed Critical Shandong Yipin Culture Media Co ltd
Priority to CN202310619812.3A priority Critical patent/CN116343242B/zh
Publication of CN116343242A publication Critical patent/CN116343242A/zh
Application granted granted Critical
Publication of CN116343242B publication Critical patent/CN116343242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及图像处理技术领域,具体涉及一种基于图像数据的试题实时批阅方法及系统。该方法首先获取答题卡扫描图中的扫描区域中的字体笔画、角点和连通域;对角点进行分析确定字体笔画的笔画宽度;根据笔画宽度对角点进行筛选,得到连笔角点;根据连笔角点和笔画宽度得到扫描区域对应的字体拥挤度;确定字体连通域和连笔连通域,结合字体连通域的连笔密集度和连笔连通域的数量确定连笔指标;根据字体拥挤度和连笔指标确定特征半径,进而对字体笔画和标准答案进行特征匹配,得到批阅结果。本发明改善了关键点检测的效果,进而提高了扫描区域中字体笔画和标准答案匹配的精度。

Description

基于图像数据的试题实时批阅方法及系统
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于图像数据的试题实时批阅方法及系统。
背景技术
传统填空试题批阅需要大量的人力资源和时间,由于人工的不确定性因素,容易在试题批阅过程中发生误判等情况。近年来,随着计算机视觉技术的发展,图像匹配技术得到了广泛的关注与研究,在试题批阅过程中发挥了极大的作用,减少了阅卷人的工作负担,提高了批阅的效率。但是由于考生的书写不规范行为导致了匹配结果不太理想的问题,从而会影响了试题批阅效果的准确率。
目前,常见的试题实时批阅的方法为对图像进行纠偏、降噪和缩放处理,然后将处理后的答题卡中的考生答案与标准答案进行匹配。但由于考生在答题时书写的字体有自己的风格,有的连笔较多,有的字体比较潦草,就会导致直接将考生答案与标准答案匹配存在较大误差,进而会出现试题误判的情况。
发明内容
为了解决将考生答案与标准答案匹配存在较大误差,会出现试题误判的技术问题,本发明的目的在于提供基于图像数据的试题实时批阅方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种基于图像数据的试题实时批阅方法,该方法包括以下步骤:
获取答题卡扫描图中的扫描区域、扫描区域中的字体笔画、角点和连通域;
对角点之间的距离进行分析,确定字体笔画的笔画宽度;根据笔画宽度对角点进行筛选,得到连笔角点;根据所述连笔角点和笔画宽度得到扫描区域对应的字体拥挤度;
根据连通域内像素点的数量对连通域进行分类,得到字体连通域和连笔连通域;根据字体连通域在不同方向上的转动惯量得到连笔密集度;结合连笔密集度和连笔连通域的数量确定连笔指标;
根据字体拥挤度和连笔指标确定特征半径;基于特征半径,对字体笔画和标准答案进行特征匹配,得到批阅结果。
优选的,所述对角点之间的距离进行分析,确定字体笔画的笔画宽度,包括:
获取两条相交的字体笔画中方向与竖直方向最为相近的字体笔画作为纵向笔画;
将相交区域的任意一个角点作为第一目标角点,将相交区域的除第一目标角点外其他角点作为临近角点,连接第一目标角点和临近角点得到第一连线,将与水平向右的方向的夹角最小的第一连线对应的角点作为第一横向角点,计算第一目标角点与第一横向角点的距离作为第一宽度;
将除第一横向角点外与第一目标角点距离最近的临近角点,作为纵向角点;连接纵向角点与临近角点得到第二连线,将与水平向右的方向的夹角最小的第二连线对应的角点作为第二横向角点;计算纵向角点与第二横向角点的距离作为第二宽度,将第一宽度和第二宽度的均值作为纵向笔画的笔画宽度。
优选的,所述根据笔画宽度对角点进行筛选,得到连笔角点,包括:
对于相交的两条字体笔画,将相交的两条字体笔画的笔画宽度的差异作为筛选差值;将筛选差值大于预设第一阈值的相交的两条字体笔画的相交区域,作为字体区域;将字体区域的角点作为连笔角点。
优选的,所述根据所述连笔角点和笔画宽度得到扫描区域对应的字体拥挤度,包括:
将所有连笔角点对应的字体笔画的笔画宽度的均值,作为宽度均值;将所述宽度均值和连笔角点的数量的乘积作为扫描区域对应的字体拥挤度。
优选的,所述根据连通域内像素点的数量对连通域进行分类,得到字体连通域和连笔连通域,包括:
将连通域内像素点的数量大于预设第二阈值的连通域作为字体连通域;将连通域内像素点的数量小于或等于预设第二阈值的连通域作为连笔连通域。
优选的,所述根据字体连通域在不同方向上的转动惯量得到连笔密集度,包括:
当字体连通域在水平方向上的转动惯量小于或等于垂直方向上的转动惯量时,将水平方向上的转动惯量和垂直方向上的转动惯量的比值的绝对值作为字体连通域的连笔密集度;
当字体连通域在水平方向上的转动惯量大于垂直方向上的转动惯量时,将垂直方向上的转动惯量和水平方向上的转动惯量的比值的绝对值作为字体连通域的连笔密集度。
优选的,所述结合连笔密集度和连笔连通域的数量确定连笔指标,包括:
计算所有字体连通域的连笔密集度的均值作为密集度均值;
将密集度均值和连笔连通域的数量的乘积进行正相关映射,得到对应的连笔指标。
优选的,所述根据字体拥挤度和连笔指标确定特征半径,包括:
将字体拥挤度和连笔指标的乘积作为调节半径;
将调节半径和预设第三阈值的和值作为真数的自然对数函数值作为初始半径;将初始半径和预设第四阈值的和值作为特征半径。
优选的,所述基于特征半径,对字体笔画和标准答案进行特征匹配,得到批阅结果,包括:
基于特征半径获取扫描区域中字体笔画的关键点,作为字体关键点;将字体关键点和答案卡上的标准答案的关键点进行匹配,得到匹配对;将匹配对的数量占比作为匹配度,当匹配度大于或等于预设匹配阈值,扫描区域对应的题目正确;当匹配度小于预设匹配阈值,扫描区域对应的题目错误。
第二方面,本发明一个实施例提供了一种基于图像数据的试题实时批阅系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于图像数据的试题实时批阅方法。
本发明实施例至少具有如下有益效果:
该方法在获取答题卡扫描图中的扫描区域中的字体笔画、角点和连通域之后,对角点进行分析,确定字体笔画的笔画宽度,由于连笔笔画的笔画宽度通常较窄,而正常字体笔画的笔画宽度通常差异较小,故先获取字体笔画的笔画宽度,以便于后续对连笔笔画和正常字体笔画的区分;根据笔画宽度对角点进行筛选,得到连笔角点;根据连笔角点和笔画宽度得到扫描区域对应的字体拥挤度,通过对扫描区域中字体进行分析,构建对应的反映考生书写字体的特征指标,该字体拥挤度也即为调节自适应的特征半径的一个特征指标;获取字体连通域和连笔连通域,计算字体连通域的连笔密集度,并结合连笔密集度和连笔连通域的数量确定连笔指标,该连笔指标作为调节自适应的特征半径的另一个特征指标,该连笔指标反映了扫描区域的字体笔画的连笔程度,该连笔指标越大,则对应的连笔的情况出现大的概率越大;根据字体拥挤度和连笔指标确定特征半径,基于特征半径对字体笔画和标准答案进行特征匹配,得到批阅结果,从而避免因为字体过于潦草而降低关键点的检测精度问题,改善了关键点检测的效果,提高了匹配的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的基于图像数据的试题实时批阅方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于图像数据的试题实时批阅方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明实施例提供了基于图像数据的试题实时批阅方法及系统的具体实施方法,该方法适用于填空试题批阅场景。该场景下在答题卡上每道填空题都有各自对应的扫描区域。为了解决将考生答案与标准答案匹配存在较大误差,会出现试题误判的技术问题。本发明对答题卡扫描图中的扫描区域的字体笔画和笔画宽度进行分析,获取考生的字体拥挤度和连笔指标,进而得到自适应的特征半径,基于特征半径对字体笔画和标准答案进行特征匹配,得到最终的批阅结果。
下面结合附图具体的说明本发明所提供的基于图像数据的试题实时批阅方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于图像数据的试题实时批阅方法的方法流程图,该方法包括以下步骤:
步骤S100,获取答题卡扫描图中的扫描区域、扫描区域中的字体笔画、角点和连通域。
通过扫描仪获取答题卡的答题卡扫描图,本发明采用佳能DR-G2090扫描仪,实施者可根据实际情况选取其他品牌型号的扫描仪。由于扫描仪本身具有图像处理功能,例如主动阈值、移除背景、歪斜矫正等功能,因此不需要对扫描仪获取的答题卡扫描图进行预处理。在对答题卡进行扫描时,提前设置填空题的扫描区域,并对答题卡扫描图中的扫描区域进行二值化处理。获取二值化处理后扫描区域中的字体笔画、角点和连通域。
在扫描区域中,由于人为的书写习惯导致字体不够规范,影响对字体特征点的提取,在通过FAST算法提取扫描区域中文字上的特征点,遍历像素点时,针对字体内笔画连笔和两个字之间连笔的情况,构建特征指标,改变像素点邻域的大小。
在单个字内,连笔情况通常出现在两顺序笔画之间,即前一笔画的末端和后一笔画的前端,通常情况下,连笔部分的笔画相比字体中正常的笔画更细,且由于连笔部分本身并没有笔画,因此出现连笔的部分视觉上更拥挤,会出现连笔和笔画的交点。
通过harris角点检测识别出扫描区域中的角点,并对角点进行标记。并通过canny 算子识别出扫描区域中的边缘,并对每个角点对应的两条边缘进行对应标记,例如对检测 出的角点a,若角点a有两条对应的边缘线,则对边缘线进行标记,分别标记为边缘线。当扫描区域的大小正常时,例如当扫描区域没有进行放大时,每条字体笔画均为一条 边缘线,获取扫描区域中的边缘线作为字体笔画。当扫描区域放大时,例如当扫描区域放大 20倍的时候,每条字体笔画至少对应两条边缘线,例如竖直的字体笔画,字体笔画具有一定 的宽度,则纵向构成字体笔画的为左右两条边缘线。由此,得到扫描区域中的字体笔画和角 点。需要说明的是,在后续步骤中边缘或者边缘线均为每条字体笔画所对应的至少两条边 缘线,而扫描区域没有放大时得到的字体笔画,仍称为字体笔画。
通过连通成分分析遍历放大预设倍数后的扫描区域,获取扫描区域中的连通域。在本发明实施例中预设倍数的取值为20,在其他实施例中可以调整该预设倍数的取值,例如当实施者需要对扫描区域更精准的分析的时候,可以将预设倍数调整的更大。
步骤S200,对角点之间的距离进行分析,确定字体笔画的笔画宽度;根据笔画宽度对角点进行筛选,得到连笔角点;根据所述连笔角点和笔画宽度得到扫描区域对应的字体拥挤度。
对于相交的字体笔画,相交区域对应至少四个角点;
获取两条相交的字体笔画中方向与竖直方向最为相近的字体笔画作为纵向笔画;
将两条相交的字体笔画中相交区域的任意一个角点作为目标角点,将相交区域的除目标角点外其他角点作为第一临近角点,连接目标角点和第一临近角点得到第一连线,将与水平向右的方向的夹角最小的第一连线对应的角点作为第一横向角点,计算目标角点与第一横向角点的距离作为第一宽度;
将目标角点与除第一横向角点外距离最近的第一临近角点,作为纵向角点;连接纵向角点与第一临近角点得到第二连线,将与水平向右的方向的夹角最小的第二连线对应的角点作为第二横向角点;计算纵向角点与第二横向角点的距离作为第二宽度,将第一宽度和第二宽度的均值作为纵向笔画的笔画宽度。
获取两条相交的字体笔画中方向与水平方向最为相近的字体笔画作为横向笔画;
将两条相交的字体笔画中相交区域的任意一个角点作为第二目标角点,将相交区域的除第二目标角点外其他角点作为第二临近角点,连接第二目标角点和第二临近角点得到第三连线,将与竖直向上的方向的夹角最小的第三连线对应的角点作为第一纵向角点,计算第二目标角点与第一纵向角点的距离作为第三宽度;
将第二目标角点与除第一纵向角点外距离最近的第二临近角点,作为横向角点;连接横向角点与第二临近角点得到第四连线,将与竖直向上的方向的夹角最小的第四连线对应的角点作为第二纵向角点;计算横向角点与第二纵向角点的距离作为第四宽度,将第三宽度和第四宽度的均值作为横向笔画的笔画宽度。
若两条字体笔画均为正常字体的笔画,而并非连笔时,则两条字体笔画的笔画宽度的差异相对较小,若两条字体笔画中一条为正常字体的笔画,而另一条为因书写不规范而产生的连笔时,由于连笔通常下笔会较轻,则对应的连笔的笔画宽度会相对较窄,故对应的两条字体笔画的宽度的差异会相对较大。故进一步的,根据笔画宽度对角点进行筛选,得到连笔角点,具体的:对于相交的两条字体笔画,将相交的两条字体笔画的笔画宽度的差异作为筛选差值,也即为将相交的两条字体笔画的笔画宽度的差值绝对值作为筛选差值;将筛选差值大于预设第一阈值的相交的两条字体笔画的相交区域,作为字体区域;将字体区域的角点作为连笔角点。在本发明实施例中预设第一阈值的取值为5,在其他实施例中实施者可根据实际情况调整该取值。相交的两条字体笔画之间笔画宽度差异越大,则相交的字体笔画中出现连笔的可能性越大;相交的两条字体笔画之间笔画宽度差异越小,则相交的字体笔画中出现连笔的可能性越小。统计相交的两条字体笔画对应的连笔角点的数量。
通过相交的两条字体笔画之间的笔画宽度差异以及连笔角点的数量得到字体拥挤度,也即为根据连笔角点和笔画宽度得到扫描区域对应的字体拥挤度,具体的:将所有连笔角点对应的字体笔画的笔画宽度的均值,作为宽度均值;将所述宽度均值和连笔角点的数量的乘积作为扫描区域对应的字体拥挤度。
该字体拥挤度的计算公式为:
其中,为字体拥挤度;为连笔角点的数量;为所有连笔角点对应的字体笔画的 笔画宽度的均值。
其中,对应的连笔角点的数量越多,则反映连笔出现的次数越多,出现连笔情况的可能性越大,字体越拥挤,对应的字体拥挤度越大;反之,对应的连笔角点的数量越少,则反映连笔出现的次数越少,出现连笔情况的可能性越小,字体越不拥挤,对应的字体拥挤度越小。
步骤S300,根据连通域内像素点的数量对连通域进行分类,得到字体连通域和连笔连通域;根据字体连通域在不同方向上的转动惯量得到连笔密集度;结合连笔密集度和连笔连通域的数量确定连笔指标。
通过连通成分分析遍历答题卡扫描图中的扫描区域中的像素点,构建连笔密集度。字体中的连笔出现的越多,则通过连通成分分析得到的连通域中,连通的像素点的数量较小或区域边缘轮廓不规则的区域也就越多。由于连笔时下笔的力度较轻正常字体的笔画之间的连笔可能会出现未与两个正常字体的笔画相连,会出现断触类连笔的情况,相对而言连笔所对应的连通域中的像素点数量会较少。
故进一步的,获取扫描区域中的连通域之后,根据连通域内像素点的数量对连通域进行分类,得到字体连通域和连笔连通域,具体的:将连通域内像素点的数量大于预设第二阈值的连通域作为字体连通域;将连通域内像素点的数量小于或等于预设第二阈值的连通域作为连笔连通域。在本发明实施例中预设第二阈值的取值为5,在其他实施例中实施者可根据实际情况调整该取值。
根据字体连通域在不同方向上的转动惯量得到连笔密集度,具体的:对于字体连 通域,获取各字体连通域的重心坐标,根据重心坐标求得字体连通域在x方向和y方向上的 转动惯量,也即为根据重心坐标求得字体连通域在水平方向和垂直方向上的转动惯量,也 即为字体连通域的轮廓上的点在x方向和在y方向上的二阶中心矩。记字体连通域在x方向 上的转动惯量为,记字体连通域在y方向上的转动惯量为,其中,转动惯量反映了在x 方向上字体连通域的轮廓坐标和重心坐标的偏离程度;转动惯量反映了在y方向上字体 连通域的轮廓坐标和重心坐标的偏离程度。
当字体连通域在水平方向上的转动惯量小于或等于垂直方向上的转动惯量时,将水平方向上的转动惯量和垂直方向上的转动惯量的比值的绝对值作为字体连通域的连笔密集度;当字体连通域在水平方向上的转动惯量大于垂直方向上的转动惯量时,将垂直方向上的转动惯量和水平方向上的转动惯量的比值的绝对值作为字体连通域的连笔密集度。
该字体连通域的连笔密集度的计算公式为:
其中,D为字体连通域的连笔密集度;为字体连通域在水平方向上的转动惯量; 为字体连通域在垂直方向上的转动惯量;为取绝对值符号。
当字体连通域的轮廓越接近于圆时,也即字体连通域的轮廓越规则时,字体连通域的轮廓在水平方向和垂直方向的偏离程度越接近,则连笔密集度的值越接近于1。当字体连通域的轮廓越不规则,轮廓在水平方向和垂直方向的偏离程度差异越大,则连笔密集度的值越小于1。每个字体连通域均对应一个连笔密集度。
针对汉字书写的特点,当汉字书写较为规范时,通常笔画为横平竖直,单个正常笔 画会在水平方向或垂直方向拥有较大的运动惯量,连笔密集度D越小于1;而当汉字书写较 为不规范时,连笔部分较多,所获得的连通域在水平方向和垂直方向的运动惯量相差较小, 连笔密集度越接近1。
在得到连笔密集度之后,结合连笔密集度和连笔连通域的数量确定连笔指标,具体的:计算所有字体连通域的连笔密集度的均值作为密集度均值。将密集度均值和连笔连通域的数量的乘积进行正相关映射,得到对应的连笔指标。
该连笔指标的计算公式为:
其中,为连笔指标;为自然常数;为连笔连通域的数量;为密集度均值。
在本发明实施例中通过以自然常数为底数,以密集度均值和连笔连通域的数量的乘积为指数的指数函数,对密集度均值和连笔连通域的数量的乘积进行正相关映射,得到对应的连笔指标。
连笔连通域的数量越大,则断触类连笔出现的可能性越大,连笔连通域的数量和连笔指标呈正比关系,故对应的连笔指标越大;密集度均值为连笔密集度的均值,反映的是字体的连笔情况,故密集度均值越大,则笔画间连笔情况出现的可能性越大,故对应的连笔指标越大。反之,连笔连通域的数量越小,则断触类连笔出现的可能性越小,连笔连通域的数量和连笔指标呈正比关系,故对应的连笔指标越小;密集度均值为连笔密集度的均值,反映的是字体的连笔情况,故密集度均值越小,则笔画间连笔情况出现的可能性越小,故对应的连笔指标越小,密集度均值和连笔指标也呈正比关系。
步骤S400,根据字体拥挤度和连笔指标确定特征半径;基于特征半径,对字体笔画和标准答案进行特征匹配,得到批阅结果。
根据字体拥挤度和连笔指标确定特征半径,具体的:将字体拥挤度和连笔指标的乘积作为调节半径。将调节半径和预设第三阈值的和值作为真数的自然对数函数值作为初始半径,将初始半径和预设第四阈值的和值作为特征半径。在本发明实施例中预设第三阈值的取值为1,预设第四阈值的取值为3,在其他实施例中可由实施者根据实际情况调整预设第三阈值和预设第四阈值。
该特征半径的计算公式为:
其中,为特征半径;为字体拥挤度;为连笔指标;ln为自然对数函数;1为预设 第三阈值;3为预设第四阈值;为调节半径;为初始半径。
当字体拥挤度越大,则对应的反映字体的连笔情况更加严重;当连笔指标越大时,连笔出现的可能性就更大,故将字体拥挤度和连笔指标的乘积得到的调节半径作为反映字体结构复杂度的指标,该字体拥挤度和连笔指标越大,则对应的字体的连笔情况越严重,出现的次数越多,则字体更加潦草,字体的内部结构更加复杂,故反映字体结构复杂度的调节半径越大,也即字体拥挤度和连笔指标的乘积越大。当字体拥挤度和连笔指标的乘积越大时,则字体内部结构越复杂,在像素点邻域内进行特征点分析时,应扩大邻域的半径,考虑更大范围内的像素点特征,从而使得特征点选取的结果更准确。故字体拥挤度和连笔指标均与特征半径呈正比关系。
进一步的,基于特征半径,对字体笔画和标准答案进行特征匹配,得到批阅结果,具体的:基于特征半径获取扫描区域中字体笔画的关键点,作为字体关键点;将字体关键点和答案卡上对应区域的标准答案的关键点进行匹配,得到匹配对;将匹配对的数量占比作为匹配度。需要说明的是匹配对的数量占比,即为匹配对的数量和扫描区域中的关键点的数量的比值。当匹配度大于或等于预设匹配阈值时,扫描区域对应的题目正确;当匹配度小于预设匹配阈值时,扫描区域对应的题目错误。在本发明实施例中预设匹配阈值的取值为0.9,在其他实施例中实施者可根据实际情况调整该取值。
当匹配度越大时,则答题卡对应的答案与标准答案越匹配,在本发明实施例中预设匹配阈值为0.9时为了避免出现缺少笔画或者是因连笔造成的部分关键点与答题卡上的标准字体关键点没有匹配,而实际上考生的答案是正确的情况出现。故设定当匹配度大于预设匹配阈值时,认为扫描区域的答案与标准答案匹配,则对应的题目批阅结果为正确。
本发明针对拥有固定答案的填空题批阅的方法进行改进,根据考生的书写习惯,分析字体中连笔情况,根据连笔的程度构造连笔指标和字体拥挤度这两个特征指标,通过特征指标改进ORB图像匹配中选取像素点的邻域大小,也即自适应得到特征半径,从而避免因为字体过于潦草而降低关键点的检测精度问题,改善了关键点检测的效果,提高了匹配的精度。
综上所述,本发明涉及图像处理技术领域。该方法获取答题卡扫描图中的扫描区域、扫描区域中的字体笔画、角点和连通域;对角点之间的距离进行分析,确定字体笔画的笔画宽度;根据笔画宽度对角点进行筛选,得到连笔角点;根据连笔角点和笔画宽度得到扫描区域对应的字体拥挤度;根据连通域内像素点的数量对连通域进行分类,得到字体连通域和连笔连通域;根据字体连通域在水平方向和垂直方向上的转动惯量得到连笔密集度;结合连笔密集度和连笔连通域的数量确定连笔指标;根据字体拥挤度和连笔指标确定特征半径;基于特征半径,对字体笔画和标准答案进行特征匹配,得到批阅结果,从而避免因为字体过于潦草而降低关键点的检测精度问题,改善了关键点检测的效果,提高了匹配的精度。
本发明实施例还提出了一种基于图像数据的试题实时批阅系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。由于基于图像数据的试题实时批阅方法在上述给出了详细描述,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (5)

1.一种基于图像数据的试题实时批阅方法,其特征在于,该方法包括以下步骤:
获取答题卡扫描图中的扫描区域、扫描区域中的字体笔画、角点和连通域;
对角点之间的距离进行分析,确定字体笔画的笔画宽度;根据笔画宽度对角点进行筛选,得到连笔角点;根据所述连笔角点和笔画宽度得到扫描区域对应的字体拥挤度;
根据连通域内像素点的数量对连通域进行分类,得到字体连通域和连笔连通域;根据字体连通域在不同方向上的转动惯量得到连笔密集度;结合连笔密集度和连笔连通域的数量确定连笔指标;
根据字体拥挤度和连笔指标确定特征半径;基于特征半径,对字体笔画和标准答案进行特征匹配,得到批阅结果;
其中,对角点之间的距离进行分析,确定字体笔画的笔画宽度的方法为:获取两条相交的字体笔画中方向与竖直方向最为相近的字体笔画作为纵向笔画;将相交区域的任意一个角点作为第一目标角点,将相交区域的除第一目标角点外其他角点作为临近角点,连接第一目标角点和临近角点得到第一连线,将与水平向右的方向的夹角最小的第一连线对应的角点作为第一横向角点,计算第一目标角点与第一横向角点的距离作为第一宽度;将除第一横向角点外与第一目标角点距离最近的临近角点,作为纵向角点;连接纵向角点与临近角点得到第二连线,将与水平向右的方向的夹角最小的第二连线对应的角点作为第二横向角点;计算纵向角点与第二横向角点的距离作为第二宽度,将第一宽度和第二宽度的均值作为纵向笔画的笔画宽度;
其中,根据所述连笔角点和笔画宽度得到扫描区域对应的字体拥挤度的方法为:将所有连笔角点对应的字体笔画的笔画宽度的均值,作为宽度均值;将所述宽度均值和连笔角点的数量的乘积作为扫描区域对应的字体拥挤度;
其中,根据字体连通域在不同方向上的转动惯量得到连笔密集度;结合连笔密集度和连笔连通域的数量确定连笔指标;根据字体拥挤度和连笔指标确定特征半径的方法为:
当字体连通域在水平方向上的转动惯量小于或等于垂直方向上的转动惯量时,将水平方向上的转动惯量和垂直方向上的转动惯量的比值的绝对值作为字体连通域的连笔密集度;当字体连通域在水平方向上的转动惯量大于垂直方向上的转动惯量时,将垂直方向上的转动惯量和水平方向上的转动惯量的比值的绝对值作为字体连通域的连笔密集度;计算所有字体连通域的连笔密集度的均值作为密集度均值;将密集度均值和连笔连通域的数量的乘积进行正相关映射,得到对应的连笔指标;将字体拥挤度和连笔指标的乘积作为调节半径;将调节半径和预设第三阈值的和值作为真数的自然对数函数值作为初始半径;将初始半径和预设第四阈值的和值作为特征半径。
2.根据权利要求1所述的基于图像数据的试题实时批阅方法,其特征在于,所述根据笔画宽度对角点进行筛选,得到连笔角点,包括:
对于相交的两条字体笔画,将相交的两条字体笔画的笔画宽度的差异作为筛选差值;将筛选差值大于预设第一阈值的相交的两条字体笔画的相交区域,作为字体区域;将字体区域的角点作为连笔角点。
3.根据权利要求1所述的基于图像数据的试题实时批阅方法,其特征在于,所述根据连通域内像素点的数量对连通域进行分类,得到字体连通域和连笔连通域,包括:
将连通域内像素点的数量大于预设第二阈值的连通域作为字体连通域;将连通域内像素点的数量小于或等于预设第二阈值的连通域作为连笔连通域。
4.根据权利要求1所述的基于图像数据的试题实时批阅方法,其特征在于,所述基于特征半径,对字体笔画和标准答案进行特征匹配,得到批阅结果,包括:
基于特征半径获取扫描区域中字体笔画的关键点,作为字体关键点;将字体关键点和答案卡上的标准答案的关键点进行匹配,得到匹配对;将匹配对的数量占比作为匹配度,当匹配度大于或等于预设匹配阈值,扫描区域对应的题目正确;当匹配度小于预设匹配阈值,扫描区域对应的题目错误。
5.一种基于图像数据的试题实时批阅系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~4任意一项所述基于图像数据的试题实时批阅方法的步骤。
CN202310619812.3A 2023-05-30 2023-05-30 基于图像数据的试题实时批阅方法及系统 Active CN116343242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310619812.3A CN116343242B (zh) 2023-05-30 2023-05-30 基于图像数据的试题实时批阅方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310619812.3A CN116343242B (zh) 2023-05-30 2023-05-30 基于图像数据的试题实时批阅方法及系统

Publications (2)

Publication Number Publication Date
CN116343242A CN116343242A (zh) 2023-06-27
CN116343242B true CN116343242B (zh) 2023-08-11

Family

ID=86888023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310619812.3A Active CN116343242B (zh) 2023-05-30 2023-05-30 基于图像数据的试题实时批阅方法及系统

Country Status (1)

Country Link
CN (1) CN116343242B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013109A (zh) * 2010-12-13 2011-04-13 广东开心信息技术有限公司 手写汉字行草风格的美化方法和装置
CN102663378A (zh) * 2012-03-22 2012-09-12 杭州新锐信息技术有限公司 连笔手写字符的识别方法
CN105205488A (zh) * 2015-07-13 2015-12-30 西北工业大学 基于Harris角点和笔画宽度的文字区域检测方法
CN105718926A (zh) * 2014-12-03 2016-06-29 夏普株式会社 一种文本检测的方法和装置
CN107292936A (zh) * 2017-05-18 2017-10-24 湖南大学 一种汉字字体矢量化方法
CN109472249A (zh) * 2018-11-22 2019-03-15 京东方科技集团股份有限公司 一种确定书写体优劣等级的方法及装置
CN109697905A (zh) * 2017-10-20 2019-04-30 深圳市鹰硕技术有限公司 一种试卷批阅系统
CN110516655A (zh) * 2019-09-04 2019-11-29 中国地质调查局西安地质调查中心 一种汉字图像笔画处理方法及系统
CN113657330A (zh) * 2021-08-24 2021-11-16 深圳市快易典教育科技有限公司 一种字体书写笔顺生成方法、系统及其应用方法
CN115100748A (zh) * 2022-07-05 2022-09-23 重庆傲雄在线信息技术有限公司 一种基于签名笔画序列的单字提取方法及系统
CN115346225A (zh) * 2021-05-12 2022-11-15 天津洪恩完美未来教育科技有限公司 书写测评方法、装置及设备
CN115601768A (zh) * 2022-09-19 2023-01-13 深圳市优必选科技股份有限公司(Cn) 书写文字的判断方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170309A (ja) * 2019-04-02 2020-10-15 キヤノン株式会社 画像処理システム、画像処理装置、画像処理方法、及びプログラム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013109A (zh) * 2010-12-13 2011-04-13 广东开心信息技术有限公司 手写汉字行草风格的美化方法和装置
CN102663378A (zh) * 2012-03-22 2012-09-12 杭州新锐信息技术有限公司 连笔手写字符的识别方法
CN105718926A (zh) * 2014-12-03 2016-06-29 夏普株式会社 一种文本检测的方法和装置
CN105205488A (zh) * 2015-07-13 2015-12-30 西北工业大学 基于Harris角点和笔画宽度的文字区域检测方法
CN107292936A (zh) * 2017-05-18 2017-10-24 湖南大学 一种汉字字体矢量化方法
CN109697905A (zh) * 2017-10-20 2019-04-30 深圳市鹰硕技术有限公司 一种试卷批阅系统
CN109472249A (zh) * 2018-11-22 2019-03-15 京东方科技集团股份有限公司 一种确定书写体优劣等级的方法及装置
CN110516655A (zh) * 2019-09-04 2019-11-29 中国地质调查局西安地质调查中心 一种汉字图像笔画处理方法及系统
CN115346225A (zh) * 2021-05-12 2022-11-15 天津洪恩完美未来教育科技有限公司 书写测评方法、装置及设备
CN113657330A (zh) * 2021-08-24 2021-11-16 深圳市快易典教育科技有限公司 一种字体书写笔顺生成方法、系统及其应用方法
CN115100748A (zh) * 2022-07-05 2022-09-23 重庆傲雄在线信息技术有限公司 一种基于签名笔画序列的单字提取方法及系统
CN115601768A (zh) * 2022-09-19 2023-01-13 深圳市优必选科技股份有限公司(Cn) 书写文字的判断方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Novel Connectionist System for Unconstrained Handwriting Recognition;Alex Graves et al.;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;第31卷(第5期);855-868 *

Also Published As

Publication number Publication date
CN116343242A (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
JP2835274B2 (ja) 画像認識装置
EP1091320A2 (en) Processing multiple digital images
CN101460937B (zh) 基于模型的去扭曲方法和设备
US5410611A (en) Method for identifying word bounding boxes in text
CN107491730A (zh) 一种基于图像处理的化验单识别方法
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
EP1081648B1 (en) Method for processing a digital image
CN111626941A (zh) 一种基于深度学习语义分割的文档矫正方法
CN113283431B (zh) 一种答题卡选项区域识别方法及系统
US5832102A (en) Apparatus for extracting fingerprint features
US10386930B2 (en) Depth determining method and depth determining device of operating body
CN113139535A (zh) 一种ocr文档识别方法
CN111008635A (zh) 一种基于ocr的多票据自动识别方法及识别系统
CN116343242B (zh) 基于图像数据的试题实时批阅方法及系统
CN112597868A (zh) 基于无定位点的试卷识别和矫正方法
Song et al. Effective multiresolution arc segmentation: Algorithms and performance evaluation
CN109389595B (zh) 一种表格线交点检测方法、电子设备及可读存储介质
CN110826400B (zh) 图片表格用户交互增强识别的方法
CN111626299A (zh) 一种基于轮廓的数字字符识别方法
CN115035191B (zh) 一种玻璃碎片敲击点自动定位方法及终端
JP4070486B2 (ja) 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム
CN115995080B (zh) 基于ocr识别的档案智能管理系统
CN117495950B (zh) 一种基于密度聚类的试卷密封线定位方法及系统
CN117831037B (zh) 一种答题卡中客观题答题情况的确定方法及装置
CN117237585B (zh) 答题卡的光学标记定位识别方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Real Time Marking of Test Questions Based on Image Data

Effective date of registration: 20231108

Granted publication date: 20230811

Pledgee: Shandong Liangshan Rural Commercial Bank Co.,Ltd.

Pledgor: Shandong Yipin Culture Media Co.,Ltd.

Registration number: Y2023980064841

PE01 Entry into force of the registration of the contract for pledge of patent right