CN110414529A

CN110414529A - 试卷信息提取方法、系统及计算机可读存储介质

Info

Publication number: CN110414529A
Application number: CN201910559124.6A
Authority: CN
Inventors: 曾志辉; 欧阳一村; 许文龙; 贺涛; 邢军华
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-05
Also published as: WO2020259060A1

Abstract

本发明提出了一种试卷信息提取方法、系统及计算机可读存储介质。其中，试卷信息提取方法包括：对试卷图像进行预处理，得到二进制图像；确定二进制图像的版面区域；根据版面区域获取试卷图像的文本行；根据文本行提取文本图像；匹配文本图像与文字识别模型，得到试卷图像的文本信息；对应合并文本信息与文本行，得到目标试卷图像；根据分类标签提取目标试卷图像的试卷信息。通过上述方法，可自动识别试卷的排版信息，即使试卷的版面和类型都不同，也能对试卷图像进行准确识别和自动分析，从而获得完整的试卷信息，不仅实现了高效、精准的自动化阅卷，还能够提升系统的适用范围，有效降低教育工作者的工作量，满足用户的多种需求。

Description

试卷信息提取方法、系统及计算机可读存储介质

技术领域

本发明涉及电子教学技术领域，具体而言，涉及一种试卷信息提取方法、一种试卷信息提取系统及一种计算机可读存储介质。

背景技术

随着计算机和互联网技术的发展，人们越来越多的使用自动化设备对学生考试试卷进行阅卷。现有技术中，自动阅卷方法通常只能对固定模板的试卷进行分析，即只能把试卷与系统已经存储的若干种模板进行匹配，用匹配得到的模板进行分析。但实际操作中，很多真实试卷的版面和类型都不一定与固定模板匹配，因此需要提供一种能够对任意试卷(常规试卷、一般答题卡、专用答题卡等)图像进行准确识别和自动分析的方案，以满足人们日益增长的电子阅卷要求。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明第一方面在于提出了一种试卷信息提取方法。

本发明的第二方面在于提出了一种试卷信息提取系统。

本发明的第三方面在于提出了一种计算机可读存储介质。

有鉴于此，根据本发明的第一方面，提出了一种试卷信息提取方法，包括：对试卷图像进行预处理，得到二进制图像；确定二进制图像的版面区域；根据版面区域获取试卷图像的文本行；根据文本行提取文本图像；匹配文本图像与文字识别模型，得到试卷图像的文本信息；对应合并文本信息与文本行，得到目标试卷图像；根据分类标签提取目标试卷图像的试卷信息。

本发明提供的试卷信息提取方法，融合图像处理算法、自然语言处理算法和深度学习神经网络模型技术，通过对试卷图像进行预处理，得到二进制图像，分析二进制图像确定二进制图像的版面区域，即获取试卷的排版信息，对每个版面区域进行文本行检测，遍历每个版面的文本行，取文本行最大的外接矩形区域抠出对应的文本图像，将文本图像输入到文字识别(OCR)模型中进行匹配，以识别出试卷图像的文本信息，对应合并文本信息与文本行，得到已识别出文本信息的目标试卷图像，根据不同的分类标签提取目标试卷图像中的试卷信息，例如考生信息、考题信息等，输出所有试卷信息。通过上述试卷信息提取方法，可自动识别试卷的排版信息，即使试卷的版面和类型都不同，也能对试卷图像进行准确识别和自动分析，从而获得完整的试卷信息，不仅实现了高效、精准的自动化阅卷，还能够提升系统的适用范围，并且可将识别出的试卷信息和排版信息上传至数据库，以便构建知识体系，有利于教育工作者进行自动组卷，有效降低教育工作者的工作量，满足用户的多种需求。

具体地，预处理为二值化处理，当然还可以根据实际需求对二进制图像进行平滑处理、图像倾斜处理等操作，其中，图片倾斜处理：将二进制图像进行投影，使得二进制图像的边缘位置会在所投影的图像上生成相应的标记，根据标记确定倾斜图像的位置，根据倾斜图像边缘与标准水平方向或标准垂直方向相差的角度，将倾斜图像的位置进行旋转实现图像矫正。文本行为利用计算机视觉库(opencv)的图像处理函数(findcontours函数)识别出二进制图像中带有文本信息的矩形框。

另外，根据本发明提供的上述技术方案中的试卷信息提取方法，还可以具有如下附加技术特征：

在上述技术方案中，优选地，确定二进制图像的版面区域的步骤，具体包括：根据第一预设尺寸确定二进制图像的子图像；检测子图像的线条；若子图像的线条的长度满足预设长度范围，且子图像的线条两端的区域为空白，将子图像的线条作为装订线。

在该技术方案中，按照第一预设尺寸在二进制图像的一侧分割出二进制图像的子图像，使用直线检测算法检测子图像中所有的线条，遍历所有子图像的线条，若子图像的线条的长度满足预设长度范围，同时该线条两端的区域为空白，将该子图像的线条作为装订线，若没有符合条件的线条，则按照第一预设尺寸在二进制图像的另一侧分割出二进制图像的子图像，重新进行装订线检测，其中，第一预设尺寸和预设长度范围可根据实际试卷的版面参数合理化设置。通过上述技术方案，能够准确识别出试卷图像的装订线，便于后续对试卷版面区域进行进一步分析和识别。

在上述任一技术方案中，优选地，确定二进制图像的版面区域的步骤，具体还包括：根据装订线确定二进制图像的文本区域；根据第二预设尺寸确定文本区域的中心区域；在中心区域中检测分隔符号；若中心区域中检测到分隔符号，根据分隔符号确定版面区域。

在该技术方案中，若存在装订线，则根据装订线确定二进制图像的文本区域，若不存在装订线，则将二进制图像本身作为文本区域，再以文本区域中心为轴，根据第二预设尺寸确定文本区域的中心区域，在中心区域中检测分隔符号，根据检测到的分隔符号分割文本区域，从而得到版面区域，其中，第二预设尺寸可根据实际试卷的版面参数合理化设置。通过上述技术方案，能够自动识别试卷的排版信息，即使试卷的版面和类型都不同，也能对试卷图像进行准确识别和自动分析，获得试卷信息，不仅实现了高效、精准的自动化阅卷，还能够提升系统的适用范围。

具体地，若存在左装订线，则取装订线右侧区域的图像为文本区域；若存在右装订线，则取装订线左侧区域的图像为文本区域。

值得一提的是，为了避免试卷的版面不同所导致的误判问题，还可以再次检测分割后的文本区域的分隔符号，若分割后的文本区域仍然存在分隔符号，则根据分割符号对文本区域进行进一步的分割，以获取更加准确的版面区域。

在上述任一技术方案中，优选地，确定二进制图像的版面区域的步骤，具体还包括：若中心区域中未检测到分隔符号，根据第三预设尺寸确定文本区域的分割区域；在分割区域中检测分隔符号；若分割区域中检测到分隔符号，根据分隔符号确定版面区域；若分割区域中未检测到分隔符号，将文本区域作为版面区域。

在该技术方案中，若中心区域中未检测到分隔符号，则按照第三预设尺寸分割文本区域，得到至少两个分割区域，在每一个分割区域中检测分隔符号，若在分割区域中检测到分隔符号，则根据分隔符号分割文本区域，从而得到版面区域，若分割区域中未检测到分隔符号，则将文本区域作为版面区域，其中，第三预设尺寸可根据实际试卷的版面参数合理化设置。通过上述技术方案，即使试卷的版面和类型都不同，也能够准确识别版面区域，降低误判概率，从而对试卷图像进行准确识别和自动分析，获得试卷信息，不仅实现了高效、精准的自动化阅卷，还能够提升系统的适用范围。

在上述任一技术方案中，优选地，检测分隔符号的步骤，具体包括：对中心区域或分割区域进行投影处理，得到二进制图像的空白区域；若空白区域的宽度大于宽度阈值，将空白区域作为分隔符号。

在该技术方案中，通过中心区域或分割区域进行投影处理，能够统计垂直方向计数0的个数，得到投影结果数组，根据投影结果数组确定二进制图像的空白区域，若空白区域的宽度大于宽度阈值，将空白区域作为分隔符号，进而能够根据分隔符号对文本区域进行分割，得到版面区域，便于根据版面区域识别试卷图像的文本信息，实现了高效、精准的自动化阅卷，其中，宽度阈值可根据常规试卷版面参数合理化设置。

在上述任一技术方案中，优选地，检测分隔符号的步骤，具体包括：对中心区域或分割区域进行模糊和/或去噪处理，得到二进制图像的线条；根据预设角度范围和长度阈值筛选二进制图像的线条，得到目标线条；若目标线条的长度大于第一预设长度，或目标线条的长度大于第二预设长度，且目标线条两端的标题区域和空白区域的宽度与目标线条的长度之和大于第一预设长度，将二进制图像的线条作为分隔符号。

在该技术方案中，对中心区域或分割区域进行模糊和/或去噪处理，检测二进制图像中的线条，根据预设角度范围和长度阈值对检测到的全部二进制图像的线条进行筛选，得到目标线条，若目标线条的长度大于第一预设长度，或在目标线条的长度大于第二预设长度的同时，目标线条两端的标题区域和空白区域的宽度与目标线条的长度之和大于第一预设长度，则将该二进制图像的线条作为分隔符号，进而能够根据分隔符号对文本区域进行分割，得到版面区域，便于根据版面区域识别试卷图像的文本信息，实现了高效、精准的自动化阅卷，其中，第一预设长度和第二预设长度可根据常规试卷版面参数合理化设置。

具体地，利用计算机视觉库(opencv)的霍夫变换函数(hough lines函数)识别二进制图像的线条。

在上述任一技术方案中，优选地，根据版面区域获取试卷图像的文本行的步骤，具体包括：识别版面区域中的矩形框；根据矩形框的宽度确定文本行宽度；根据文本行宽度确定文本框；若当前文本框的中心点与前一个文本框的中心点的垂直距离小于第一距离阈值，且当前文本框的中心点与前一个文本框的中心点的水平距离小于第二距离阈值，合并当前文本框和前一个文本框，得到文本行。

在该技术方案中，识别版面区域中存在的外边缘轮廓，取外边缘轮廓的最大外接矩形，形成矩形框，根据矩形框的宽度确定文本行宽度，根据文本行宽度确定文本框，遍历所有文本框，若当前文本框的中心点与前一个文本框的中心点的垂直距离小于第一距离阈值，且当前文本框的中心点与前一个文本框的中心点的水平距离小于第二距离阈值，说明上述两个文本框的中心点几乎在一条直线上，此时合并当前文本框和前一个文本框，得到文本行，以便于根据文本行提取试卷图像的文本信息，实现精准地自动化阅卷，而且教育工作者能够根据识别到的文本信息构建知识体系，有利于教育工作者进行自动组卷，从而降低教育工作者的工作量，满足用户的多种需求，其中，第一距离阈值和第二距离阈值为文本框之间允许距离误差值，可以根据排版经验进行合理设置。

在上述任一技术方案中，优选地，根据矩形框的宽度确定文本行宽度的步骤，具体包括：根据预设宽度范围筛选矩形框的宽度，得到目标宽度；统计目标宽度中每个宽度值对应的矩形框个数；选取最大的矩形框个数对应的宽度值作为文本行宽度。

在该技术方案中，获取检测到的全部矩形框的宽度，根据预设宽度范围筛选矩形框的宽度，得到目标宽度，统计目标宽度中每个宽度值对应的矩形框个数，选取最大的矩形框个数对应的宽度值作为文本行宽度，从而根据文本行宽度确定包含有文本信息的文本框。

在上述任一技术方案中，优选地，根据矩形框宽度确定文本行宽度的步骤之前，还包括：若当前矩形框的中心点与前一个矩形框的中心点的垂直距离小于第三距离阈值，且水平距离小于第四距离阈值，合并当前矩形框和前一个矩形框。

在该技术方案中，若当前矩形框的中心点与前一个矩形框的中心点的垂直距离小于第三距离阈值，且水平距离小于第四距离阈值，说明上述两个矩形框的中心点几乎在一条直线上而且距离较近，此时合并当前矩形框和前一个矩形框，从而减少识别出的有效矩形框数量，在获取试卷图像的文本行过程中降低系统计算量，提升提取文本信息效率，其中，第三距离阈值和第四距离阈值为矩形框之间允许距离误差值，可以根据排版经验进行合理设置。

在上述任一技术方案中，优选地，匹配文本图像与文字识别模型的步骤之前，还包括：获取文本数据和字符数据；编码文本数据和字符数据，得到识别词典；以及根据文本数据确定文本图像集；根据识别词典和文本图像集构建文字识别模型。

在该技术方案中，获取文本数据，排除文本数据中的重复字符，从1开始编码文本数据和字符数据中的每个字符，得到识别词典，并根据文本数据获取文本数据中每个字符的图像，得到文本图像集，根据识别词典和文本图像集构建文字识别模型，从而便于使用自然语言处理技术提取试卷的各类文本信息，准确率更高、速度更快，提高实用性。

具体地，将本地文本语料库和《信息交换用汉字编码字符集》(GB 2312)的重叠部分作为文本数据。字符数据包括但不限于：阿拉伯数字、英文字母、标点符号、特殊字符。利用PIL(python图像处理库)的字符处理函数(drawtext函数)在固定尺寸的图像上画出文本内容，得到字符的图像。

值得一提的是，在组建识别词典时，限定识别词典中的字符数，例如，限定字符数在4000左右，能够有效减小文字识别模型大小，减少系统计算量。

上述任一技术方案中，优选地，根据分类标签提取目标试卷图像的试卷信息的步骤，具体包括：分类标签包括标题、大题和小题；根据分类关键字符确定标题文本行、大题文本行和小题文本行；根据标题文本行、大题文本行和小题文本行提取试卷信息。

在该技术方案中，分类标签包括标题、大题和小题，每种标签拥有各自的分类关键字符，以文本行为单位，通过分类关键字符识别目标试卷图像中标题、大题和小题的起始位置，确定与分类标签对应的标题文本行、大题文本行或小题文本行，从而将试卷信息进行了分类，由此根据标题文本行、大题文本行和小题文本行对不同的文本信息进行提取，得到相应的试卷信息，并依次存入数据库。利用自然语言处理技术提取试卷的各类文本信息，提高提取试卷信息的准确度，有效降低教育工作者的工作量，满足了日益增长的电子阅卷、自动组卷、自动题目入库等要求。

具体地，通常试卷信息是由标题、大题题型以及小题信息组成，标题用于描述试题性质的信息和考生信息，例如某年级某阶段某科目的考试题目等信息。大题题型用于描述试题的类别信息，试题的类别信息包括选择题、计算题、应用题、填空题、解答题、单选题、多选题、问答题、非选择题、实验题、选做题、选考题等题型，小题信息可分为题序号、题干信息和分数信息。

在上述任一技术方案中，优选地，根据标题文本行、大题文本行和小题文本行提取试卷信息的步骤之前，还包括：对目标试卷图像进行坐标信息处理；若小题文本行的横坐标超出预设坐标范围，或小题文本行的横坐标不满足序号递增规则，删除小题文本行。

在该技术方案中，对目标试卷图像进行坐标信息处理，得到所有文本行的坐标，若小题文本行的横坐标超出预设坐标范围，或小题文本行的横坐标不满足序号递增规则，删除小题文本行，一方面，能够定位文本信息的位置，另一方面，通过文本行的坐标对文本行进行校准，以去除误判的文本行，提升提取试卷信息的准确度。

根据本发明的第二方面，提出了一种试卷信息提取系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一技术方案的试卷信息提取方法。因此具有上述任一技术方案的试卷信息提取方法的全部有益效果，在此不再赘述。

根据本发明的第三方面，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一技术方案的试卷信息提取方法的步骤。因此具有上述任一技术方案的试卷信息提取方法的全部有益效果，在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明一个实施例的试卷信息提取方法流程示意图；

图2示出了本发明再一个实施例的试卷信息提取方法流程示意图；

图3示出了本发明又一个实施例的试卷信息提取方法流程示意图；

图4示出了本发明一个具体实施例的试卷信息提取方法流程示意图；

图5示出了本发明一个具体实施例的试卷图像；

图6示出了本发明一个具体实施例的试卷版面区域分析结果图像；

图7示出了图5的一个版面区域；

图8示出了图5的另一个版面区域；

图9示出了图7的文本行检测结果图像；

图10示出了本发明一个具体实施例的文本信息提取结果图像；

图11示出了本发明一个具体实施例的构建文本识别模型的示意图；

图12示出了本发明一个实施例的试卷信息提取系统示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

本发明第一方面的实施例，提出一种试卷信息提取方法，图1示出了本发明一个实施例的试卷信息提取方法流程示意图。其中，该方法包括：

S102，对试卷图像进行预处理，得到二进制图像；

S104，确定二进制图像的版面区域；

S106，根据版面区域获取试卷图像的文本行；

S108，根据文本行提取文本图像；

S110，匹配文本图像与文字识别模型，得到试卷图像的文本信息；

S112，对应合并文本信息与文本行，得到目标试卷图像；

S114，根据分类标签提取目标试卷图像的试卷信息。

本发明提供的试卷信息提取方法，融合图像处理算法、自然语言处理算法和深度学习神经网络模型技术，通过对试卷图像进行预处理，得到二进制图像，分析二进制图像确定二进制图像的版面区域，即获取试卷的排版信息，对每个版面区域进行文本行检测，遍历每个版面的文本行，取其最大的外接矩形区域抠出对应的文本图像，将文本图像输入到文字识别(OCR)模型中进行匹配，识别出试卷图像的文本信息，对应合并文本信息与文本行，得到已识别出文本信息的目标试卷图像，根据不同的分类标签提取目标试卷图像中的试卷信息，例如考生信息、考题信息等，输出所有试卷信息。通过上述试卷信息提取方法，可自动识别试卷的排版信息，即使试卷的版面和类型都不同，也能对试卷图像进行准确识别和自动分析，获得试卷信息，不仅实现了高效、精准的自动化阅卷，还能够提升系统的适用范围，并且可将识别出的试卷信息和排版信息上传至数据库，以便构建知识体系，有利于教育工作者进行自动组卷，从而有效降低教育工作者的工作量，满足用户的多种需求。

具体实施例中，预处理为二值化处理，当然还可以根据实际需求对二进制图像进行平滑处理、图像倾斜处理等操作，其中，图片倾斜处理：将二进制图像进行投影，使得二进制图像的边缘位置会在所投影的图像上生成相应的标记，根据标记确定倾斜图像的位置，根据倾斜图像边缘与标准水平方向或标准垂直方向相差的角度，将倾斜图像的位置进行旋转实现图像矫正。文本行为利用计算机视觉库(opencv)的图像处理函数(findcontours函数)识别出二进制图像中带有文本信息的矩形框。

图2示出了本发明再一个实施例的试卷信息提取方法流程示意图。其中，该方法包括：

S202，对试卷图像进行预处理，得到二进制图像；

S204，根据第一预设尺寸确定二进制图像的子图像；

S206，检测子图像的线条；

S208，选取线条长度满足预设长度范围，且线条两端的区域为空白的子图像的线条作为装订线；

S210，根据装订线确定二进制图像的文本区域；

S212，根据第二预设尺寸确定文本区域的中心区域；

S214，是否在中心区域中检测到分隔符号，若是，进入S216，如否，进入S218；

S216，根据分隔符号确定版面区域，进入S224；

S218，根据第三预设尺寸确定文本区域的分割区域；

S220，是否在分割区域中检测到分隔符号，若是，进入S216，如否，进入S222；

S222，将文本区域作为版面区域；

S224，根据版面区域获取试卷图像的文本行；

S226，根据文本行提取文本图像；

S228，匹配文本图像与文字识别模型，得到试卷图像的文本信息；

S230，对应合并文本信息与文本行，得到目标试卷图像；

S232，根据分类标签提取目标试卷图像的试卷信息。

在该实施例中，按照第一预设尺寸在二进制图像的一侧分割出二进制图像的子图像，使用直线检测算法检测子图像中所有的线条，遍历所有子图像的线条，若子图像的线条的长度满足预设长度范围，同时该线条两端的区域为空白，将该子图像的线条作为装订线，若没有符合条件的线条，则按照第一预设尺寸在二进制图像的另一侧分割出二进制图像的子图像，重新进行装订线检测，若存在装订线，则根据装订线确定二进制图像的文本区域，若不存在装订线，则将二进制图像本身作为文本区域，再以文本区域中心为轴，根据第二预设尺寸确定文本区域的中心区域，在中心区域中检测分隔符号，根据检测到的分隔符号分割文本区域，从而得到版面区域。当然，为了避免试卷的版面不同所导致的误判问题，还可以再次检测分割后的文本区域的分隔符号，若分割后的文本区域仍然存在分隔符号，则根据分割符号对文本区域进行进一步的分割，以获取更加准确的版面区域。若中心区域中未检测到分隔符号，则按照第三预设尺寸分割文本区域，得到至少两个分割区域，在每一个分割区域中检测分隔符号，若在分割区域中检测到分隔符号，则根据分隔符号分割文本区域，从而得到版面区域，若分割区域中未检测到分隔符号，则将文本区域作为版面区域。通过上述实施例，即使试卷的版面和类型都不同，也能够准确识别版面区域，降低误判概率，从而对试卷图像进行准确识别和自动分析，获得试卷信息，不仅实现了高效、精准的自动化阅卷，还能够提升系统的适用范围。

在本发明的一个实施例中，优选地，检测分隔符号的步骤，具体包括：对中心区域或分割区域进行投影处理，得到二进制图像的空白区域；若空白区域的宽度大于宽度阈值，将空白区域作为分隔符号。

在该实施例中，通过中心区域或分割区域进行投影处理，能够统计垂直方向计数0的个数，得到投影结果数组，根据投影结果数组确定二进制图像的空白区域，若空白区域的宽度大于宽度阈值，将空白区域作为分隔符号，进而能够根据分隔符号对文本区域进行分割，得到版面区域，便于根据版面区域识别试卷图像的文本信息，实现了高效、精准的自动化阅卷。

在本发明的一个实施例中，优选地，检测分隔符号的步骤，具体包括：对中心区域或分割区域进行模糊和/或去噪处理，得到二进制图像的线条；根据预设角度范围和长度阈值筛选二进制图像的线条，得到目标线条；若目标线条的长度大于第一预设长度，或目标线条的长度大于第二预设长度，且目标线条两端的标题区域和空白区域的宽度与目标线条的长度之和大于第一预设长度，将二进制图像的线条作为分隔符号。

在该实施例中，对中心区域或分割区域进行模糊和/或去噪处理，检测二进制图像中的线条，根据预设角度范围和长度阈值对检测到的全部二进制图像的线条进行筛选，得到目标线条，若目标线条的长度大于第一预设长度，或在目标线条的长度大于第二预设长度的同时，目标线条两端的标题区域和空白区域的宽度与目标线条的长度之和大于第一预设长度，则将该二进制图像的线条作为分隔符号，进而能够根据分隔符号对文本区域进行分割，得到版面区域，便于根据版面区域识别试卷图像的文本信息，实现了高效、精准的自动化阅卷。

具体实施例中，利用计算机视觉库(opencv)的霍夫变换函数(hough lines函数)识别二进制图像的线条。

图3示出了本发明又一个实施例的试卷信息提取方法流程示意图。其中，该方法包括：

S302，对试卷图像进行预处理，得到二进制图像；

S304，确定二进制图像的版面区域；

S306，识别版面区域中的矩形框；

S308，根据预设宽度范围筛选矩形框的宽度，得到目标宽度；

S310，统计目标宽度中每个宽度值对应的矩形框个数；

S312，选取最大的矩形框个数对应的宽度值作为文本行宽度；

S314，根据文本行宽度确定文本框；

S316，当前文本框与前一个文本框是否满足预设条件，若是，进入S318，若否，进入S320；

S318，合并当前文本框和前一个文本框，得到一块文本行；

S320，当前文本框和前一个文本框分别作为一块文本行；

S322，根据文本行提取文本图像；

S324，匹配文本图像与文字识别模型，得到试卷图像的文本信息；

S326，对应合并文本信息与文本行，得到目标试卷图像；

S328，根据分类标签提取目标试卷图像的试卷信息。

其中，预设条件为当前文本框的中心点与前一个文本框的中心点的垂直距离小于第一距离阈值，且当前文本框的中心点与前一个文本框的中心点的水平距离小于第二距离阈值。

在该实施例中，识别版面区域中存在的外边缘轮廓，取外边缘轮廓的最大外接矩形，形成矩形框，获取检测到的全部矩形框的宽度，根据预设宽度范围筛选矩形框的宽度，得到目标宽度，统计目标宽度中每个宽度值对应的矩形框个数，选取最大的矩形框个数对应的宽度值作为文本行宽度，根据文本行宽度确定文本框，遍历所有文本框，若当前文本框的中心点与前一个文本框的中心点的垂直距离小于第一距离阈值，且当前文本框的中心点与前一个文本框的中心点的水平距离小于第二距离阈值，说明上述两个文本框的中心点几乎在一条直线上，此时合并当前文本框和前一个文本框，得到文本行，以便于根据文本行提取试卷图像的文本信息，实现精准地自动化阅卷，而且教育工作者能够根据识别到的文本信息构建知识体系，有利于教育工作者进行自动组卷，从而降低教育工作者的工作量，满足用户的多种需求。其中，预设宽度范围可根据试卷版面合理设置。

在本发明的一个实施例中，优选地，根据矩形框宽度确定文本行宽度的步骤之前，还包括：若当前矩形框的中心点与前一个矩形框的中心点的垂直距离小于第三距离阈值，且水平距离小于第四距离阈值，合并当前矩形框和前一个矩形框。

在该实施例中，若当前矩形框的中心点与前一个矩形框的中心点的垂直距离小于第三距离阈值，且水平距离小于第四距离阈值，说明上述两个矩形框的中心点几乎在一条直线上而且距离较近，此时合并当前矩形框和前一个矩形框，从而减少识别出的有效矩形框数量，在获取试卷图像的文本行过程中降低系统计算量，提升提取文本信息效率。

在本发明的一个实施例中，优选地，匹配文本图像与文字识别模型的步骤之前，还包括：获取文本数据和字符数据；编码文本数据和字符数据，得到识别词典；以及根据文本数据确定文本图像集；根据识别词典和文本图像集构建文字识别模型。

在该实施例中，获取文本数据，排除文本数据中的重复字符，从1开始编码文本数据和字符数据中的每个字符，得到识别词典，并根据文本数据获取文本数据中每个字符的图像，得到文本图像集，根据识别词典和文本图像集构建文字识别模型，从而便于使用自然语言处理技术提取试卷的各类文本信息，准确率更高、速度更快，提高实用性。

具体实施例中，将本地文本语料库和《信息交换用汉字编码字符集》(GB 2312)的重叠部分作为文本数据。字符数据包括但不限于：阿拉伯数字、英文字母、标点符号、特殊字符。利用PIL(python图像处理库)的字符处理函数(drawtext函数)在固定尺寸的图像上画出文本内容，得到字符的图像。使用DenseNet+CTC(密集卷积网络模型+时序类数据分类)网络搭建OCR模型，同样的可以使用下列卷积神经网络搭建模型：

LeNet(卷积神经网络模型)+CTC

AlexNet(Alex深度卷积神经网络模型)+CTC

ZF(ZF网络结构模型)+CTC

VGG(VGG网络结构模型)+CTC

GoogleNet(谷歌网络结构模型)+CTC

ResNet(深度残差网络模型)+CTC

在本发明的一个实施例中，优选地，根据分类标签提取目标试卷图像的试卷信息的步骤，具体包括：分类标签包括标题、大题和小题；根据分类关键字符确定标题文本行、大题文本行和小题文本行；根据标题文本行、大题文本行和小题文本行提取试卷信息。

在该实施例中，分类标签包括标题、大题和小题，每种标签拥有各自的分类关键字符，以文本行为单位，通过分类关键字符识别目标试卷图像中标题、大题和小题的起始位置，确定与分类标签对应的标题文本行、大题文本行或小题文本行，从而将试卷信息进行了分类，由此根据标题文本行、大题文本行和小题文本行对不同的文本信息进行提取，得到相应的试卷信息，并依次存入数据库。利用自然语言处理技术提取试卷的各类文本信息，提高提取试卷信息的准确度，有效降低教育工作者的工作量，满足了日益增长的电子阅卷、自动组卷、自动题目入库等要求。

具体实施例中，通常试卷信息是由标题、大题题型以及小题信息组成，标题用于描述试题性质的信息和考生信息，例如某年级某阶段某科目的考试题目等信息。大题题型用于描述试题的类别信息，试题的类别信息包括选择题、计算题、应用题、填空题、解答题、单选题、多选题、问答题、非选择题、实验题、选做题、选考题等题型，小题信息可分为题序号、题干信息和分数信息。

在本发明的一个实施例中，优选地，根据标题文本行、大题文本行和小题文本行提取试卷信息的步骤之前，还包括：对目标试卷图像进行坐标信息处理；若小题文本行的横坐标超出预设坐标范围，或小题文本行的横坐标不满足序号递增规则，删除小题文本行。

在该实施例中，对目标试卷图像进行坐标信息处理，得到所有文本行的坐标，若小题文本行的横坐标超出预设坐标范围，或小题文本行的横坐标不满足序号递增规则，删除小题文本行，一方面，能够定位文本信息的位置，另一方面，通过文本行的坐标对文本行进行校准，以去除误判的文本行，提升提取试卷信息的准确度。

如图4所示，本发明的一个具体实施例的试卷信息提取方法，包括：

S402，对输入的试卷图像进行版面分析，得到装订线矩形区域、所有的版面矩形区域；

S404，对每个版面进行文本行检测；

S406，对每个版面的文本行进行OCR识别，合并结果得到最终试卷文本；

S408，从文本中提取试卷的文本信息；

S410，根据大题信息，提取候选的小题序号，由序号特征生成题号列表；

S412，输出试卷所有信息。

具体方法如下：

1.通过扫描获得的试卷图像img如图5所示，对试卷图像img进行版面分析，得到装订线矩形区域(若有装订线，否则无)，以及所有的版面矩形区域，如图6至图8所示；

1.1检测装订线，如图6所示；

1.1.1从img的左边取其长度的1/5、宽度与img相同的子图part_img；

1.1.2使用直线检测算法检测part_img中的所有直线，得到直线集合line_set，以img的宽度的一半过滤直线，得到直线集合line_set2；

1.1.3对直线集合line_set2以x坐标进行降序排序；

1.1.4遍历直线集合line_set2，若直线line_set[i]满足下面的条件，则该直线就是装订线binding_line；

1)直线宽度大于img的宽度的3/4；

2)直线上顶点到上边缘的区域及直线下顶点到下边缘的区域均为空白区域；

1.1.5若没有符合条件的直线，则从img的右边向左取其长度的1/5、宽度相同的子图part_img，重复1.1.2、1.1.3、1.1.4的步骤。

1.2检测版面分隔符号；

版面分隔符号可以是：超过指定大小及宽度的空白区域、虚线、直线。

1.2.1取试卷正文区域的图像img2；若存在左装订线，则取装订线右边的区域的图像为img2；若存在右装订线，则取装订线左边的区域的图像为img2；否则，取试卷图像img为正文区域图像img2；

1.2.2优先分析双数版面；

1.2.2.1取试卷正文区域图像img2的中心区域图像middle_img，宽度为正文区域图像img2的长度的1/5，宽度为img2的宽度；

1.2.2.2检测中心区域图像middle_img中的版面分隔符号，方法如下：

1.2.2.2.1检测空白区域方法：对中心区域图像middle_img进行二值化处理得到图像binary_img，对其进行垂直投影(垂直方向计数0的个数)，得到投影结果数组，若数组中存在宽度大于预设值的区间，则该区间所在的位置即为版面分隔符号layout_line；

1.2.2.2.2检测线条(直线、虚线)方法：对中心区域图像middle_img进行高斯模糊去噪处理得到图像img3，使用opencv的hough_lines函数检测线条，过滤倾斜角不在[70，110]、长度小于50的线条，得到线条集合line_set3。遍历line_set3，若线条line[i]满足下列任意一条，则该线条所在的位置即为版面分隔符号layout_line：

1)线条长度大于图像img3的宽度的4/5；

2)线条长度大于图像img3的宽度的2/3，且线条下端全为空白区域，同时，直线上端是标题，且标题的宽度、线条的长度，与线条下端空白区域的宽度之和大于图像img3的宽度的4/5；

1.2.2.3若检测到版面分隔符号layout_line，则以分隔符号layout_line来分割正文区域图像img2，得到2个区域rect1、rect2，对区域rect1重复1.2.2.1和1.2.2.2的步骤，若检测到版面分隔符号layout_line1，则继续对区域rect2重复1.2.2.1和1.2.2.2的步骤，若也检测到分隔符号layout_line2，则以分隔符号layout_line、分隔符号layout_line1、分隔符号layout_line2将图像img2分割为四栏；否则以分隔符号layout_line将图像img2分割为两栏，分别为版面区域1(图7)和版面区域2(图8)；

1.2.3若1.2.2的步骤未检测到分隔符号，则再分析三栏的版面；

1.2.3.1取正文区域图像img2的长度1/3处的图像left_img，其长度为img2的1/5，宽度为img2的宽度；

1.2.3.2重复1.2.2.2的步骤，检测分隔符号layout_line1，若检测成功，再取图像img2的2/3处的图像right_img，其长度为img2的1/5，宽度为img2的宽度；也重复1.2.2.2步骤，检测分隔符号layout_line2，若检测成功，则以分隔符号layout_line1、分隔符号layout_line2将图像img2分割为三栏；否则，整个img2就是一栏。

2.对每个版面进行文本行检测，如图9和图10所示；

记检测到的版面区域为layout_rects，遍历layout_rects，对layout_rects[i]进行文本行分析；

2.1对图片img2进行二值化处理得到图片binary_img2；

2.2使用opencv的findcontours函数获得图片binary_img2的外边缘轮廓集合contours；

2.3遍历contours，取contours[i]的最大外接矩形，得到矩形框rects；

2.4合并矩形框：若2个矩形之间的中心点垂直距离小于8，且其中一个矩形的中心点在另外一个矩形的水平范围之内；

2.5计算文本行宽度：取矩形框rects中所有矩形框的宽度heights，去掉异常最大值、最小值，统计在[height，height+C]范围内heights的个数，个数最大值对应的height即为文本行宽度(C为常数，经验值)；

2.6以文本行×F(F为大于1的常数，如1.4)为基准，去掉超过文本行×F的矩形框，剩余的矩形框即为可能存在文本的文本框；

2.7以文本行×2的基准，合并矩形框：若2个矩形之间的垂直距离小于8，且水平距离小于文本行×2；

2.8从左到右遍历矩形框rects，若当前文本框的中心点与前一个文本框的中心点大致在一条直线上，则把当前文本框合并到前一个文本框中，得到一小块文本行；

具体地，版面区域1(图7)的文本行检测结果如图9所示；

2.9递归2.8的过程，即可得到整个文本行text_lines。

3.对每个版面的文本行进行OCR识别，合并得到最终试卷文本paper_text；

3.1遍历每个版面的文本行text_lines[i]，取其最大的外接矩形区域max_line_rect，从img2抠出对应的文本图像part_img；

3.2将part_img输入到预训练好的OCR模型中，生产文本信息；

3.3合并上述文本信息与文本行，得到最终的试卷文本paper_text，如图10所示；

3.4构建OCR模型；

3.4.1模型数据；

3.4.1.1使用已有文本语料库，生成400万个以10个字符为一组的文本数据text_data；

3.4.1.2对上述文本数据text_data，排除重复字符，得到词典dict1；

3.4.1.3取词典dict1和GB 2312(国标)字符集的交集作为OCR的识别词典ocr_dict，同时加上阿拉伯数字、英文字母、标点符号、特殊字符，保证字符总数在4000左右，有效减小模型大小；

3.4.1.4对识别词典ocr_dict按照升序，从1开始编码每个字符；

3.4.1.5把文本数据text_data转为识别词典ocr_dict对应的编码表示ocr_index_data；

3.4.1.6对文本数据text_data使用PIL的drawtext函数，在280*32的图像上画出文本内容，得到图像集ocr_img_data；

3.4.1.7随机取图像集ocr_img_data的1/3图片，加上高斯噪声、或图片模糊处理、或图片倾斜处理；

3.4.1.8最终得到训练数据集ocr_img_data、ocr_index_data；

3.4.2模型网络；

使用DenseNet+CTC(密集卷积网络+时序类数据分类)搭建网络，其中DenseNet为5层DenseBlock(网络块)，growth rate k(增长率)＝4，如图11所示；

3.4.3模型训练；

对3.4.1的步骤生成的数据按照9:1的比例划分为训练集、验证集；模型训练最大轮数epochs＝50，超过3轮loss(损失)不下降则停止训练；最终模型的训练准确率达到0.993，验证集的准确率达到0.986。

4.从试卷文本中提取试卷的文本信息；

试卷文本信息定义：试卷名称、科目、单元、考试类型、考号区域、姓名区域、大题信息(序号、题型、分数信息、区域等)；

4.1试卷名称提取，如图10所示；

遍历试卷文本的前5行，若存在试卷名称关键词中的一个，则该行作为试卷名称，试卷名称关键词包括：考试、试卷、测试、试题、模拟等；

4.2科目提取；

遍历试卷文本的前5行，若存在科目关键词中的一个，则该关键词作为科目，科目关键词包括：数学、语文、英语、物理、化学、生物、地理、政治、历史；

4.3单元提取；

遍历试卷文本的前5行，若存在表达式(第*单元)，则该行作为单元；

4.4考试类型提取；

遍历试卷文本的前5行，若存在考试类型关键词中的一个，则该关键词作为考试类型，考试类型关键词包括：期中、期末、模拟、竞赛等。

4.5考号区域提取；

4.5.1若试卷存在装订线，遍历装订线区域内的文本，若存在如下考号关键词中的一个，则该关键词所在的文本行区域就是考号区域的开始位置，再向上扩展区域，即为考号区域，考号关键词包括：考号、学号、准考证号等；

4.5.2若试卷不存在装订线，则遍历试卷文本的前5行，若存在4.5.1中的考号关键词中的一个，则该关键词所在的文本行区域就是考号区域的开始位置，再向右扩展区域，即为考号区域。

4.6姓名区域提取；

4.6.1若试卷存在装订线，遍历装订线区域内的文本，若存在关键词(姓名)，则该关键词所在的文本行区域就是姓名区域的开始位置，再向上扩展区域，即为姓名区域；

4.6.2若试卷不存在装订线，则遍历试卷文本的前5行，若存在4.6.1中的关键词(姓名)，则该关键词所在的文本行区域就是姓名区域的开始位置，再向右扩展区域，即为姓名区域；

4.7大题信息提取；

预设大题类型：选择题、计算题、应用题、填空题、解答题、单选题、多选题、问答题、非选择题、实验题、选做题、选考题等；

4.7.1识别大题文本行位置；

遍历文本行，若当前文本开头能匹配大题关键字符，例如“中文数字”+“大题类型”或者“(”+“大题类型”+“)”或者“大题类型”等，则该文本行为大题所在文本行；

4.7.2取4.7.1的步骤所在的文本行作为该大题的区域起始位置；

4.7.3取匹配到的“中文数字”作为大题的序号；

4.7.4取匹配到的“大题类型”作为大题的题型；

4.7.5取大题文本及下一行文本，匹配如下分数规则，作为大题的分数信息；

分数规则一：

1)本大题共(\d{1，3})小题.*每小题(\d{1，3})分.*(共|满分)(\d{1，3})分；

2)本大题共(\d{1，3})小题.*每小题(\d{1，3}\.\d)分.*(共|满分)(\d{1，3}\.\d)分；

匹配到的数值依次作为大题的小题数量、每小题的分数、大题总分；

分数规则二：

本大题共(\d{1，3})小题.*(共|满分)(\d{1，3})分；匹配到的数值依次作为大题的小题数量、大题总分。

5.从文本中提取小题信息；

小题信息定义：序号、题型、分数信息、区域等；

5.1按照大题的位置，得到每个大题的文本big_question_texts；

5.2遍历文本big_question_texts，取出满足下列规则的文本行，作为候选小题文本的起始位置区域；

小题关键字符：“阿拉伯数字”+“、|.”；

5.3通过下列特征过滤候选小题；

1)大题起始位置的横坐标big_coordinate_x，若小题坐标的横坐标明显大于或者小于big_coordinate_x的则删除之；

2)小题坐标的横坐标若不满足序号递增，则删除之；

5.3.1剩下的序号即为大题下面的小题序号，对应的文本行区域作为小题区域的起始位置；

5.3.2每个小题的结束位置为下一小题的起始位置，若到版面的末尾，则取版面的末尾为小题区域的结束位置；

5.4提取小题分数信息；

若小题的文本能匹配到下列规则，则取对应的结果作为分数信息；

规则一：((\d{1，3})分)；

规则二：((\d{1，3}\.\d)分)；

规则三：本小题((共|满分)？)(\d{1，3})分；

规则四：本小题((共|满分)？)(\d{1，3}\.\d)分。

6.输出所有试卷信息。

以图6为例，版面分析结果为：装订线区域表示为：[5,5,214,2330]；版面区域表示为：[235,5,1505,2330]，[1746,5,1559,2330]；

其中，版面区域1(图7)的文本行检测结果如图9所示，对试卷图像的文本行检测结果进行OCR识别，得到文本信息，合并文本信息与文本行，得到如下面的结果：

[['______学校2013-2014学年第一学期期中自查试卷',[104,120,363,52]]]

[['七年级_______',[104,120,363,52]]]

[['(考试时间分钟，满分',[104,410,363,32]]]

[[″,[211,467,1172,230]]]

[['注意事项:用蓝、黑色钢',[85,713,846,33]]]

[['一、选择题(本大题共9小题，共45.0分)',[77,759,561,30]]]

[['1.设集合A＝{xr\\^2-4x-3<0}，B＝{x[X-3>0}，则A∩B＝)',[87,802,906,34]]]

[['(-,-',[251,857,90,51]]]

[['2.函数V＝2x\\^2-e\\^-在[-2,',[84,932,634,34]]]

[['A.',[142,985,31,276]]]

[[″,[193,1291,307,272]],['D',[784,1291,24,272]]]

[['3.已知等差数列{a-前9项',[84,1584,817,32]]]

[['A.100',[142,1629,85,26]]]

[['4.将函数V＝2sin(X＝)的',[83,1683,1041,46]],[″,[628,1683,38,46]]]

[['A.',[141,1770,32,46]]]

[['5.⊿ABC的内角A、B、Ci',[84,1856,1196,40]]]

[[″,[1096,1890,12,17]]]

[['v',[250,1930,34,32]]]

[[″,[1173,1976,295,346]]]

[['6.函数y＝Asim(ox-p)的部',[84,1974,689,32]]]

[['A.',[141,2032,31,44]]]

[['ν＝2s如/x-',[244,2119,198,44]]]

[['第1页/共4页',[703,2205,141,25]]]

[['C.',[79,209,28,44]]]

[['V＝2snr-',[182,295,145,44]]]

[['7.已知偶函数)在区间[①,',[20,382,1114,51]],[″,[841,382,28,51]]]

[['I2',[200,469,38,17]]]

[[″,[505,469,69,51]],['C.',[720,468,29,52]]]

[[″,[186,484,68,36]]]

[['8.设直线l经过椭圆的一个',[21,556,1388,47]]]

[[″,[504,643,10,17]],[″,[823,643,14,16]],[″,[1146,642,13,17]]]

[['A.',[78,654,31,26]]]

[[″,[504,677,12,16]],[″,[824,677,12,16]],[″,[1146,676,13,13]]]

[[″,[1041,719,162,219]],[″,[1306,718,97,220]]]

[['9.如图是由圆柱与圆锥组合',[20,717,961,29]]]

[['为()',[79,754,93,36]]]

[['20π',[185,849,46,24]]]

[['24π',[78,893,29,26]]]

[['28π',[183,937,46,23]]]

[['32π',[185,958,46,99]],[″,[1114,958,98,99]]]

[['二、填空题(本大题共4小题，共20.0分)',[13,1116,560,30]],[″,[24,1116,21,30]]]

[['10.⊿ABC的内角A，B，C的对边分别为a，b，c，若cosA＝-，cosC＝',[23,1171,917,49]],[″,[816,1172,21,48]],[″,[950,1171,32,49]],['a＝l，则b＝',[1002,1171,261,49]]]

[['11.已知双曲线C:,[23,1259,277,52]],['5--＝(a>0,b>)的右项',[280,1259,1119,52]],[″,[329,1259,25,52]]]

[['一条渐近线交于M，N两点.',[80,1332,883,33]]]

[['12.若直线y＝x-b是曲线p',[23,1376,1153,32]]]

[['13.曲线V＝x\\^2-在点/],2处',[23,1432,637,51]],[″,[243,1432,38,51]]]

[['三、解答题(本大题共10小题，共120.0分)',[13,1506,588,30]],[″,[23,1506,23,30]],[″,[25,1506,19,30]]]

[['14.⊿ABC的内角A，B，C的对边分别为a，b，c，已知2cosC(acosB-bcosA)＝c.',[23,1550,1057,32]]]

[['(I求C；',[80,1594,111,30]]]

[['lⅡ若c＝，⊿ABC的面积',[80,1650,674,40]]]

[[″,[487,1686,12,16]]]

[['15.⊿ABC的内角A，B，C',[23,2041,978,50]]]

[['ll)求cosB；',[79,2115,128,32]]]

[['2)若a-c＝6，⊿ABC的面积',[79,2158,511,32]]]

[['第2页/共4页',[648,2205,142,25]]]

如图10所示，对目标试卷图像的文本进行坐标信息处理后得到如下面的结果：

试卷名称:'______学校2013-2014学年第一学期期中自查试卷'

科目:″

单元:″

考试类型:'期中'

考号区域:[60,150,60,200]

姓名区域:[60,1640,60,200]

['______学校2013-2014学年第一学期期中自查试卷']

['一、选择题','big',['一、选择题(本大题共9小题，共45.0分)'],[312,756,1428,43],{'total_score':'45.0','number':'9','each_question_score':'5.0'}]

['1.','small',['1.设集合A＝{xr\\^2-4x-3<0}，B＝{x[X-3>0}，则A∩B＝)','(-,-'],[322,807,1418,114],{'score':'5.0'}]

['2.','small',['2.函数V＝2x\\^2-e\\^-在[-2,','A.','D'],[319,929,1421,645],{'score':'5.0'}]

['3.','small',['3.已知等差数列{a-前9项','A.100'],[319,1583,1421,87],{'score':'5.0'}]

['4.','small',['4.将函数V＝2sm(X＝÷)的','A.'],[318,1678,1422,159],{'score':'5.0'}]

['5.','small',['5.⊿ABC的内角A、B、Ci',″,'v'],[319,1845,1421,124],{'score':'5.0'}]

['6.','small',['6.函数y＝Asin/ox-p)的部',″,'A.','ν＝2s如/x-','第1页/共4页'],[[319,1977,1421,350],[1766,214,1523,157]],{'score':'5.0'}]

['7','small',['7.已知偶函数)在区间[①,','C.','I2',″],[1766,379,1539,162],{'score':'5.0'}]

['8','small',['8.设直线l经过椭圆的一个',″,'A.',″],[1767,550,1538,156],{'score':'5.0'}]

['9.','small',['9.如图是由圆柱与圆锥组合',″,'为:)','20尔','B.','28T','327'],[1766,714,1539,399],{'score':'5.0'}]

['二、填空题','big',['二、填空题(本大题共4小题，共20.0分)'],[1759,1121,1546,38],{'total_score':'20.0','number':'4','each_question_score':'5.0'}]

['10.','small',['10.⊿ABC的内角A，B，C的对边分别为a，b，c，若cosA＝-，cosC＝a＝l，则b＝'],[1769,1168,1536,72],{'score':'5.0'}]

['11.','small',['11.已知双曲线C:5--＝(a>0,b>0)的右项','一条渐近线交于M，N两点.'],[1769,1249,1536,122],{'score':'5.0'}]

['12.','small',['12.若直线y＝x-b是曲线p'],[1769,1380,1536,41],{'score':'5.0'}]

['13.','small',['13.曲线V＝x\\^2-在点/],2处'],[1769,1429,1536,66],{'scor e':'5.0'}]

['三、解答题','big',['三、解答题(本大题共10小题，共120.0分)'],[1759,1504,1546,40],{'total_score':'120.0','number':'10','each_question_score':'12.0'}]

['14.','small',['14.⊿ABC的内角A，B，C的对边分别为a，b，c，已知2cosCracosB-bcos4)＝c.','(I求C；','lⅡ若c＝，dABC的面积',″],[1769,1552,1536,486],{'score':'12.0'}]

['15.','small',['15.⊿ABC的内角A，B，C','ll)求cosB；','2)若a-c＝6，⊿ABC的面积','第2页/共4页'],[1769,2046,1536,189],{'score':'12.0'}]

大题类型信息提取结果如下：

['一','选择题',[312,756,1428,43],{'total_score':'45','number':'9','each_qu estion_score':'5'}]

['1','选择题',[322,807,1418,114],{'score':'5'}]

['2','选择题',[319,929,1421,645],{'score':'5'}]

['3','选择题',[319,1583,1421,87],{'score':'5'}]

['4','选择题',[318,1678,1422,159],{'score':'5'}]

['5','选择题',[319,1845,1421,124],{'score':'5'}]

['6','选择题',[[319,1977,1421,350],[1766,214,1523,157]],{'score':'5'}]

['7','选择题',[1766,379,1539,162],{'score':'5'}]

['8','选择题',[1767,550,1538,156],{'score':'5'}]

['9','选择题',[1766,714,1539,399],{'score':'5'}]

['二','填空题',[1759,1121,1546,38],{'total_score':'20','number':'4','each_qu estion_score':'5'}]

['10','填空题',[1769,1168,1536,72],{'score':'5'}]

['11','填空题',[1769,1249,1536,122],{'score':'5'}]

['12','填空题',[1769,1380,1536,41],{'score':'5'}]

['13','填空题',[1769,1429,1536,66],{'score':'5'}]

['三','解答题',[1759,1504,1546,40],{'total_score':'120','number':'10','each_question_score':'12'}]

['14','解答题',[1769,1552,1536,486],{'score':'12'}]

['15','解答题',[1769,2046,1536,189],{'score':'12'}]

在该实施例中，通过线条检测、空白区域检测的方法来实现试卷版面分析，可自动识别试卷的排版信息，利用专门用于试卷分析的基于深度学习的卷积神经网络的OCR方法对试卷图像进行准确文字识别，使用自然语言处理技术提取试卷的各类文本信息，不仅实现了高效、精准的自动化阅卷，还能够提升系统的适用范围，从而有效降低教育工作者的工作量，满足用户的多种需求。

根据本发明第二方面的实施例，提出了一种试卷信息提取系统500，如图12所示，包括存储器502、处理器504及存储在存储器502上并可在处理器504上运行的计算机程序，处理器504执行计算机程序时实现上述任一实施例的试卷信息提取方法。因此具有上述任一实施例的试卷信息提取方法的全部有益效果，在此不再赘述。

根据本发明的第三方面的实施例，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例的试卷信息提取方法的步骤。因此具有上述任一实施例的试卷信息提取方法的全部有益效果，在此不再赘述。

在本说明书的描述中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性，除非另有明确的规定和限定；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种试卷信息提取方法，其特征在于，包括：

对试卷图像进行预处理，得到二进制图像；

确定所述二进制图像的版面区域；

根据所述版面区域获取所述试卷图像的文本行；

根据所述文本行提取文本图像；

匹配所述文本图像与文字识别模型，得到所述试卷图像的文本信息；

对应合并所述文本信息与所述文本行，得到目标试卷图像；

根据分类标签提取所述目标试卷图像的所述试卷信息。

2.根据权利要求1所述的试卷信息提取方法，其特征在于，所述确定所述二进制图像的版面区域的步骤，具体包括：

根据第一预设尺寸确定所述二进制图像的子图像；

检测所述子图像的线条；

若所述子图像的线条的长度满足预设长度范围，且所述子图像的线条两端的区域为空白，将所述子图像的线条作为装订线。

3.根据权利要求2所述的试卷信息提取方法，其特征在于，所述确定所述二进制图像的版面区域的步骤，具体还包括：

根据所述装订线确定所述二进制图像的文本区域；

根据第二预设尺寸确定所述文本区域的中心区域；

在所述中心区域中检测分隔符号；

若所述中心区域中检测到所述分隔符号，根据所述分隔符号确定所述版面区域。

4.根据权利要求3所述的试卷信息提取方法，其特征在于，所述确定所述二进制图像的版面区域的步骤，具体还包括：

若所述中心区域中未检测到所述分隔符号，根据第三预设尺寸确定所述文本区域的分割区域；

在所述分割区域中检测所述分隔符号；

若所述分割区域中检测到所述分隔符号，根据所述分隔符号确定所述版面区域；

若所述分割区域中未检测到所述分隔符号，将所述文本区域作为所述版面区域。

5.根据权利要求4所述的试卷信息提取方法，其特征在于，所述检测分隔符号的步骤，具体包括：

对所述中心区域或所述分割区域进行投影处理，得到所述二进制图像的空白区域；

若所述空白区域的宽度大于宽度阈值，将所述空白区域作为所述分隔符号。

6.根据权利要求4所述的试卷信息提取方法，其特征在于，所述检测分隔符号的步骤，具体包括：

对所述中心区域或所述分割区域进行模糊和/或去噪处理，得到所述二进制图像的线条；

根据预设角度范围和长度阈值筛选所述二进制图像的线条，得到目标线条；

若所述目标线条的长度大于第一预设长度，或所述目标线条的长度大于第二预设长度，且所述目标线条两端的标题区域和空白区域的宽度与所述目标线条的长度之和大于第一预设长度，将所述二进制图像的线条作为所述分隔符号。

7.根据权利要求1所述的试卷信息提取方法，其特征在于，所述根据所述版面区域获取所述试卷图像的文本行的步骤，具体包括:

识别所述版面区域中的矩形框；

根据所述矩形框的宽度确定文本行宽度；

根据所述文本行宽度确定文本框；

若当前文本框的中心点与前一个文本框的中心点的垂直距离小于第一距离阈值，且所述当前文本框的中心点与所述前一个文本框的中心点的水平距离小于第二距离阈值，合并所述当前文本框和所述前一个文本框，得到所述文本行。

8.根据权利要求7所述的试卷信息提取方法，其特征在于，所述根据所述矩形框的宽度确定文本行宽度的步骤，具体包括：

根据预设宽度范围筛选所述矩形框的宽度，得到目标宽度；

统计所述目标宽度中每个宽度值对应的矩形框个数；

选取最大的所述矩形框个数对应的宽度值作为文本行宽度。

9.根据权利要求7所述的试卷信息提取方法，其特征在于，所述根据所述矩形框宽度确定文本行宽度的步骤之前，还包括：

若当前矩形框的中心点与前一个矩形框的中心点的垂直距离小于第三距离阈值，且所述当前矩形框的中心点与所述前一个矩形框的中心点的水平距离小于第四距离阈值，合并所述当前矩形框和所述前一个矩形框。

10.根据权利要求1所述的试卷信息提取方法，其特征在于，所述匹配所述文本图像与文字识别模型的步骤之前，还包括：

获取文本数据和字符数据；

编码所述文本数据和所述字符数据，得到识别词典；以及

根据所述文本数据确定文本图像集；

根据所述识别词典和所述文本图像集构建所述文字识别模型。

11.根据权利要求1所述的试卷信息提取方法，其特征在于，所述根据分类标签提取所述目标试卷图像的所述试卷信息的步骤，具体包括：

所述分类标签包括标题、大题和小题；

根据分类关键字符确定标题文本行、大题文本行和小题文本行；

根据所述标题文本行、所述大题文本行和所述小题文本行提取所述试卷信息。

12.根据权利要求11所述的试卷信息提取方法，其特征在于，所述根据所述标题文本行、所述大题文本行和所述小题文本行提取所述试卷信息的步骤之前，还包括：

对所述目标试卷图像进行坐标信息处理；

若所述小题文本行的横坐标超出预设坐标范围，或所述小题文本行的横坐标不满足序号递增规则，删除所述小题文本行。

13.一种试卷信息提取系统，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至12中任一项所述的试卷信息提取方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的试卷信息提取方法。