CN111062375B

CN111062375B - 一种基于上下文关系的题号缺失补全方法

Info

Publication number: CN111062375B
Application number: CN201911269745.7A
Authority: CN
Inventors: 田博帆; 朱世闻
Original assignee: Nanjing Hongsong Information Technology Co ltd
Current assignee: Nanjing Hongsong Information Technology Co ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-04-28
Anticipated expiration: 2039-12-11
Also published as: CN111062375A

Abstract

本发明公开了一种基于上下文关系的题号缺失补全方法，具体步骤包括：(1)字符定位：根据字符的连通域定位方法，定位得到整张试卷中的所有字符；(2)选取字符：根据题号字符靠左侧分布的原则，识别结果正则匹配到的题号；(3)漏检处理：若检测出的题号字符中的题号没有按照顺序进行排列，出现题号断连续的情况，则对题号做漏检处理，根据上下文关系找出丢失的题号；(4)丢失补全：通过漏检处理方法确定缺失的题号，确定丢失的题号并将其补全。该方法基于上下文关系，能够解决题号丢失的问题，作为检测题号字符的辅助手段以补全被漏检的题号，达到准确划分题目的目的。

Description

一种基于上下文关系的题号缺失补全方法

技术领域

本发明属于图像文本定位技术领域，尤其是涉及一种基于上下文关系的题号缺失补全方法。

背景技术

随着时代的发展，技术的革新，智能化引领的潮流开始逐渐走进人们的生活。本着解放劳动力的初衷，人工智能已经迈入教育领域，并诞生了自动化批阅系统。该系统主要是针对各类试卷和题型开展自动化批阅工作，它采用的核心技术是OCR，而OCR技术的兴起正是从印刷体识别开始，持续发展至今，技术逐渐成熟，功能日臻完善。目前，有关印刷体识别的方法层出不穷，取得的效果也不尽相同，但其本质都是对每个字符进行先定位后识别，较为常用的有直接调用Tenseract OCR方法做字符的检测和识别。

机器视觉发展至今，已取得了辉煌成就。但有关它的研究仍在继续深入，而在当今多元化的社会，随着信息化和智能化技术的逐步展开，开启了一种时代新模式。目前，采用机器视觉技术可以完成各类人工难以实现的复杂任务，为了能够充分利用技术带来的便利，各类产品应运而生。在教育应用领域，存在着众多智能化的批阅产品，这些产品不仅在使用过程中能够增加用户的体验感，同时在行为互动上也增强了用户的参与感。

智能化批阅系统的核心离不开图像中文本字符的识别技术，而识别的前提依赖于强大的学习模型。研究表明，任何一种模型若过于复杂，都将导致其过拟合，使它在预测未知数据时的泛化能力较差。因此，为了提高模型的预测能力，针对复杂情况下的数据识别，模型大多采用分类机制。在图像的文本识别方面，字符种类大致可分为：数字、符号、中文、英文四种，其中除了印刷体字符较为统一规整外，其他的手写体字符则形态万千，因人而异。考虑到手写字符识别的困难性和混合模型学习的复杂性，采取印刷体字符和手写体字符的分类将变得十分必要。

在实际使用中，不论采用何种OCR技术方法，势必存在字符漏检的可能性，因此，提出一种字符漏检补全方法将变得十分必要，同时也变得迫切需要。如：自动化批阅系统中基于题号划分题目的方法，便是根据不同的题号来划分题目，再对每道题目做单独处理。然而，试卷中难免会存在噪点、字符像素不均等干扰因素，导致题号难以检测甚至丢失。

因此，有必要开发一种基于上下文关系的题号缺失补全方法，用于解决题号丢失的问题，作为检测题号字符的辅助手段以补全被漏检的题号，达到准确划分题目的目的。

发明内容

本发明要解决的技术问题是，提供一种基于上下文关系的题号缺失补全方法，用于解决题号丢失的问题，作为检测题号字符的辅助手段以补全被漏检的题号，达到准确划分题目的目的。

为解决上述技术问题，本发明采用的技术方案是：该基于上下文关系的题号缺失补全方法，具体包括以下步骤：

(1)字符定位：根据字符的连通域定位方法，定位得到整张试卷中的所有字符；

(2)选取字符：根据题号字符靠左侧分布的原则，识别结果正则匹配到的题号；

(3)漏检处理：若检测出的题号字符中的题号没有按照顺序进行排列，出现题号断连续的情况，则对题号做漏检处理，根据上下文关系找出丢失的题号；

(4)丢失补全：通过漏检处理方法确定丢失的题号并将其补全。

采用上述技方案，通过算法对试卷中所有字符进行定位，再通过题号字符靠左侧分布的原则，进行题号提取，得到待识别的题号字符，再结合题号已有的格式规范，识别结果正则匹配的题号，再根据上下文找同缺失的题号进行补全；采用上下文关系的连续性检测和字符定位坐标间的相关性作为题号丢失的判断依据，它能够有效补全丢失的题号并确定题号所在试卷中的具体位置。

作为本发明的优选技术方案，所述步骤(1)中采用字符连通域算法对试卷中的字符进行定位处理的具体步骤为：

S11：按行和列遍历图片中第一个有像素值的点P(x,y)，并赋予其一个标注label，然后将与像素点相邻的所有前景像素都压入栈中；

S12：弹出栈顶像素，赋予其相同的标注label，然后再将与所述栈顶像素相邻的所有前景像素都压入栈中，重复此步骤，直至栈为空，便得到了试卷中的某一个连通区域；

S13：重复步骤S11和步骤S12，完成整张试卷的遍历，最终可得到所有字符的连通区域，从而实现对试卷中字符的定位。

作为本发明的优选技术方案，所述步骤(2)选取字符的具体步骤为：

S21将连通域方法定位到的所有字符坐标进行共线处理，得到每行所有的字符坐标；

S22将每一行的所有字符坐标再进行排序处理，选取每行前三个字符坐标作为待选择的题号坐标；

S23根据待选择的题号坐标正则匹配出每个题号，并对已匹配到的题号做逻辑推理以补全丢失的题号并确定已丢失题号的坐标。

作为本发明的优选技术方案，所述步骤(4)丢失补全的具体步骤为：

S41通过漏检处理的方法对已检出的题号进行逻辑推理，确定缺失的题号并确定题号所在的位置(如已检出题号为：1、2、4等或1.1、1.2、1.4等，则推理分别缺失了题号3或题号1.3)；

S42采用垂直共线的方式，选取参考题号垂直线附近相邻位置上的点“.”和顿号“、”作为待检题号的寻找依据，从而确定丢失的题号并将其补全。为了进一步判断题号缺失的确定情况，仍采用垂直共线的方式，选取参考题号垂直线附近相邻位置上的点(“.”)和顿号(“、”)作为待检题号的寻找依据。

作为本发明的优选技术方案，所述步骤S42中寻找题号所使用的参考标准是题中所含有所述点“.”和顿号“、”的高、宽或面积大小。

相比现有技术，该技术方案具有的有益效果是：通过算法对试卷中所有字符进行定位，再通过题号字符靠左侧分布的原则，进行题号提取，得到待识别的题号字符，再结合题号已有的格式规范，识别结果正则匹配的题号，再根据上下文找同缺失的题号进行补全；采用上下文关系的连续性检测和字符定位坐标间的相关性作为题号丢失的判断依据，它能够有效补全丢失的题号并确定题号所在试卷中的具体位置；能够解决题号丢失的问题，作为检测题号字符的辅助手段以补全被漏检的题号，达到准确划分题目的目的。

附图说明

下面结合附图和本发明的实施方式进一步详细说明：

图1是本发明的基于上下文关系的题号缺失补全方法的流程图；

图2是本发明的基于上下文关系的题号缺失补全方法的步骤(1)的所有字符定位结果图；

图3是本发明的基于上下文关系的题号缺失补全方法的步骤(2)中的题号字符共线示意图。

具体实施方式

实施例：如图1～3所示，该基于上下文关系的题号缺失补全方法，具体包括以下步骤：

所述步骤(1)中采用字符连通域算法对试卷中的字符进行定位处理的具体步骤为：

S13：重复步骤S11和步骤S12，完成整张试卷的遍历，最终可得到所有字符的连通区域，从而实现对试卷中字符的定位；

所述步骤(2)选取字符的具体步骤为：

S23根据待选择的题号坐标正则匹配出每个题号，并对已匹配到的题号做逻辑推理以补全丢失的题号并确定已丢失题号的坐标；

(4)丢失补全：通过漏检处理方法确定丢失的题号并将其补全；

所述步骤(4)丢失补全的具体步骤为：

S42采用垂直共线的方式，选取参考题号垂直线附近相邻位置上的点“.”和顿号“、”作为待检题号的寻找依据，从而确定丢失的题号并将其补全。为了进一步判断题号缺失的确定情况，仍采用垂直共线的方式，选取参考题号垂直线附近相邻位置上的点(“.”)和顿号(“、”)作为待检题号的寻找依据；

所述步骤S42中寻找题号所使用的参考标准是题中所含有所述点“.”和顿号“、”的高、宽或面积大小。

上面结合附图对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于上下文关系的题号缺失补全方法，其特征在于，具体包括以下步骤：

所述步骤(2)选取字符的具体步骤为：

所述步骤(4)丢失补全的具体步骤为：

S41通过漏检处理的方法对已检出的题号进行逻辑推理，确定缺失的题号并确定题号所在的位置；

S42采用垂直共线的方式，选取参考题号垂直线附近相邻位置上的点“.”和顿号“、”作为待检题号的寻找依据，从而确定丢失的题号并将其补全。

2.根据权利要求1所述的基于上下文关系的题号缺失补全方法，其特征在于，所述步骤S42中寻找题号所使用的参考标准是题中所含有所述点“.”和顿号“、”的高、宽或面积大小。