CN113254626A

CN113254626A - 文档处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN113254626A
Application number: CN202110804009.8A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-08-13

Abstract

本公开提供一种文档处理方法、装置、电子设备及可读存储介质，文档处理方法，包括：根据待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域，根据第一作答区域的文本以及与第一作答区域匹配的第二作答区域的文本，输出判题结果。实施本公开的技术方案可以提高判题的准确率。

Description

文档处理方法、装置、电子设备及可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文档处理方法、装置、电子设备及可读存储介质。

背景技术

拍照判题是人工智能技术在教育领域的一项重要应用，其拍照判断流程是：用户用手机或平板电脑等终端设备进行拍照，然后将拍摄的图像上传至拍照判题程序，接着拍照判题程序将图像送入题型判断模型，题型判断模型检测预先指定的题型的文本区域，并框选该文本区域。与此同时，应用程序将图像送入文本行检测模型，文本行检测模型检测文本行区域，并框选该文本行区域；然后利用版面分析模型根据文本行检测模型的检测结果进行版面分析，对框进行合并，同时根据每种题型的特点，分析得到每个题是由哪些框组成，然后根据框的坐标在原图上进行裁剪，将裁剪得到的图像送入识别模型，得到每个题目的内容，然后根据题目内容判断试题判题结果，并将试题判题结果进行输出。

发明内容

根据本公开的一方面，提供了一种文档处理方法，包括：

根据待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域的第一位置重合度，确定与所述第一作答区域匹配的第二作答区域；

根据所述第一作答区域的文本以及与所述第一作答区域匹配的所述第二作答区域的文本，输出判题结果。

根据本公开的另一方面，提供了一种文档处理装置，包括：

确定模块，用于在待判页含有的第一试题区域与相应答案页含有的第二试题区域匹配时，从相应所述第二试题区域所含有的第二作答区域中，确定与所述第一试题区域所含有的第一作答区域相匹配的第二作答区域；

输出模块，用于根据所述第一作答区域的文本以及与所述第一作答区域匹配的所述第二作答区域的文本，输出判题结果。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及，

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开实施方式中任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据本公开实施方式中任一项所述的方法。

本公开实施例中提供的一个或多个技术方案，可以实现提高判题准确率的技术效果，其中，本公开示例性实施例提供的技术方案是利用第一作答区域与第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域，使得本公开的技术方案在确定与第一作答区域匹配的第二作答区域时，其准确率更高，进而使得根据第一作答区域的文本和相应第二作答区域的文本确定判题结果时，判题的准确率更高。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1示出了根据本公开示例性实施例的实施本文描述的各种方法的一种应用场景示意图；

图2示出了根据本公开示例性实施例的实施本文描述的各种方法的一种应用场景下的手机界面显示图；

图3示出了根据本公开示例性实施例的文档处理方法的一种流程图；

图4示出了根据本公开示例性实施例的文档处理方法的待判页与档案页的一种示意图；

图5示出了根据本公开示例性实施例的文档处理方法的一种子流程图；

图6示出了根据本公开示例性实施例的文档处理方法的待判页与档案页的另一种示意图；

图7示出了根据本公开示例性实施例的文档处理方法的另一种子流程图；

图8示出了根据本公开示例性实施例的文档处理方法的再一种子流程图；

图9示出了根据本公开示例性实施例的文档处理装置的示意性框图；

图10示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面对本公开的实施方式中的术语做说明：

试题文本：试卷、考卷、作业等页面中的试题的文本。例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，除“大地”、“评价”是作答文本外，其他均为试题文本。

试题片段：试题文本中的片段，可以是试题文本中的一个字符、两个字符或多个字符。例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中“银装素裹的”、“别有深意”等试题文本中的片段为试题片段。

作答文本：试卷、作业等页面中的答案的文本。例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，“大地”、“评价”为作答文本。

作答区域：试卷、作业等页面中的用于填写答案的区域。例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，“大地”、“评价”所在的区域是作答区域。

图1是本公开示例性实施例提供的文档处理方法的一种应用场景的示意图，应当知道的，该应用场景不构成对本申请应用场景的限制，本公开示例性实施例提供的文档处理方法也可在其他应用场景中使用。

以文档处理方法的一个具体应用场景为例，参见图1，该应用场景100包括拍摄设备101、显示终端102和服务器104。拍摄设备101、显示终端102等均可以通过网络103与服务器104通信。拍摄设备101可以为摄像机、相机、光电传感器等具有图像采集功能的设备。显示终端102可以为手机、笔记本电脑、台式电脑、手持终端等具有显示功能的终端。此处拍摄设备101的功能可以集成在显示终端102中，也可以独立于显示终端102，可以根据实际需要进行设计。

如图1所示，上述拍摄设备101可以直接拍摄待判页文档，获得具有相应图像格式的待判页，该图像格式可以为JPEG（JointPhotographicExpertsGroup，缩写为JPEG）、TIFF（TagImageFileFormat）、RAW（RAWImageFormat）等格式。待判页的图像可以为动态图像或静态图像。

如图1所示，如果上述拍摄设备101可以实现联网功能，该拍摄设备101可以通过网络103直接将待判页图像通过网络103上传至服务器104并进行文档处理，也可以将待判页图像通过拍摄设备101传输至显示终端102，显示终端102通过网络103上传至服务器104并进行文档处理。用户可以从显示终端102通过网络103访问服务器104，获取到处理结果甚至处理过程，并进行显示。同时，如果拍摄设备101还具有图像显示功能，服务器104也可以通过网络103将处理结果甚至处理过程反馈（可以是自动反馈也可以响应于用于针对拍摄设备的操作）至拍摄设备101进行显示。

如图1所示，如果上述拍摄设备101无法实现联网功能，该拍摄设备101拍摄待判页文档后，可以将所获得的待判页图像通过移动硬件、U盘、光盘等存储介质进行保存，显示终端102读取存储介质所存储的待判页图像，将其通过网络103上传至服务器104并进行文档处理，用户可以从显示终端102通过网络103访问服务器104获取到处理结果甚至处理过程。另外，服务器104也可以通过网络103自动将处理结果甚至处理过程反馈至显示终端102进行显示。

本公开示例性实施例提供的一种文档处理方法，其中的文档可以为图2示例出的手机显示界面所显示的内容。如图2所示，手机200的显示界面201内显示有待判页202。待判页202可以为静态图片，也可以是动态图像。当待判页202为动态图像，服务器可以提前从动态的待判页图像中选择的一帧图片。该图片可以是清晰度、拍摄角度最佳的一帧图片，也可以是随机选择的一帧图片。下面以服务器为执行主体，结合附图对本公开示例性的实施例提供的文档处理方法进行描述。

参见图3，本公开示例性实施例提供的一种文档处理方法，包括：

S301，根据待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域；

上述待判页包含作答文本，待判页中的作答文本是待判答案文本，为了方便描述，将待判页的试题文本定义为第一试题文本，待判页的作答文本定义为第一作答文本。答案页包含作答文本，答案页中的作答文本是参考答案文本，为了方便描述，将答案页的试题文本定义为第二试题文本，答案页的作答文本定义为第二作答文本。

相应答案页是指与待判页匹配的作答页，与待判页匹配的答案页表示该答案页是与待判页匹配的答案页，其包含了与第一作答区域对应的第二作答区域，第二作答区域内具有作为参考答案的第二作答文本。此处，与第一作答区域对应的第二作答区域指的该第二作答区域是与对应第一作答区域是相同题目的作答区域。答案页与相应待判页的主要区别在于：待判页的作答文本是待判答案文本，答案页的作答文本是参考答案文本。

示例性的，待判页和答案页是可以是页-题-文本行的三级结构。其中，页-题-文本行的三级结构是每一页包括多个题，每一题包括一个或多个文本行，每一个文本行是一个作答区域。

示例性的，与待判页匹配的答案页可以从预设设置的题库中获取，也可以是已存储在本地的相应答案页，例如：根据待判页的整页特征与题库中的答案页的整体特征的相似度，得到与待判页匹配的答案页，例如：根据待判页的标识从题库中的答案页查找得到与该标识匹配的答案页。可以知道的，此处仅仅是获取与待判页匹配的答案页的可实施方法，不应理解为对本公开的技术方案的限定。

示例性的，可以确定多个第二作答区域中与第一作答区域的第一位置重合度的最大值所对应的第二作答区域作为与相应第一作答区域的第二作答区域，也就是说第一作答区域与匹配的第二作答区域的第一位置重合度为第一作答区域与多个第二作答区域的第一位置重合度中的最大值。

若第一位置重合度是第一作答区域与第二作答区域的交并比，第一作答区域与第二作答区域的交并比是第一作答区域与第二作答区域的交集和第一作答区域与第二作答区域的并集的比值。当假设答案页存在3个第二作答区域p1、第二作答区域p2、第二作答区域p3，若第一作答区域与第二作答区域p1的交并比为0.2、第一作答区域与第二作答区域p2的交并比为0.6、第一作答区域与第二作答区域p3的交并比为0.9，则第一作答区域与第二作答区域p3匹配。

示例性的，可以从多个第二作答区域中确定与第一作答区域的第一位置重合度大于或等于N的第二作答区域作为与相应第一作答区域匹配的第二作答区域，也就是说第一作答区域与多个第二作答区域的第一位置重合度中的第二作答区域的第一位置重合度大于或等于N，其中，N大于等于60%且小于等于100%。

当第一位置重合度是第一作答区域与第二作答区域的交并比，假设答案页存在3个第二作答区域，分别为第二作答区域p1、第二作答区域p2和第二作答区域p3，若第一作答区域与第二作答区域p1的交并比为0.2、第一作答区域与第二作答区域p2的交并比为0.5、第一作答区域与第二作答区域p3的交并比为0.9，则第一作答区域与第二作答区域p3匹配。当N=70%时，第二作答区域p3与第一作答区域的交并比是大于等于70%，则可以确定第二作答区域p3与该第一作答区域匹配。

在实际应用中，参见图4，图4中待判页400A包括多个第一作答区域401A，答案页400B包括多个第二作答区域401B。其中，含“桃花”的第二作答区域401B与含“梅花”的第一作答区域401A匹配，含“水暖”的第二作答区域401B与含“水暖”的第一作答区域401A匹配。可以知道的，含“梅花”的第一作答区域401A映射到作答页时，含“梅花”的第一作答区域401A与含“梅花”的第一作答区域401A基本重合，因此，根据第一位置重合度所确定与第一作答区域匹配的第二作答区域的准确率高。例如，参见图4，在待判页和作答页均未发生倾斜或扭曲等情况时，含“梅花”的第一作答区域401A与含“桃花”的第二作答区域401B在同一图像坐标系下完全重叠，因此含“梅花”的第一作答区域401A与含“桃花”的第二作答区域401B的交并比是1，而即便在待判页和作答页均发生倾斜或扭曲等情况时，含“梅花”的第一作答区域401A与含“桃花”的第二作答区域401B在同一图像坐标系下依旧大部分重叠，其交并比的值依旧较大。而含“梅花”的第一作答区域401A与含“水暖”的第二作答区域401B在同一图像坐标系下完全不重叠，此时，第一作答区域与第二作答区域的交集是0，第一作答区域与第二作答区域的并集是第一作答区域与第二作答区域的总和，此时，含“梅花”的第一作答区域401A与含“水暖”的第二作答区域401B的交并比是0。

S302，根据第一作答区域的文本以及与第一作答区域匹配的第二作答区域的文本，输出判题结果。

此处，可根据第一作答区域的文本以及与第一作答区域匹配的第二作答区域的文本的是否相同，确定和输出判题结果。当然，在实际运用中，针对一些特殊情况，例如近义词填空等题型，因为只要与参考答案语义相同，则可判定正确，故在该类应用场合，可以根据第一作答区域的文本与相应第二作答区域的文本语义是否相同，确定并输出判断结果。

本公开示例性实施例提供的文档处理方法，根据第一作答区域的文本以及与第一作答区域匹配的第二作答区域的文本，输出判题结果，因此无需理解题目的题意亦可判断试题判题结果，其可适用于填空题、选择题、判断题等不同的题型，具有题型适用范围广的有益效果。同时，本公开示例性实施例提供的文档处理方法是利用第一作答区域与第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域，使得本公开的文档处理方法在确定与第一作答区域匹配的第二作答区域时，其准确率更高，进而使得根据第一作答区域的文本和相应第二作答区域的文本确定判题结果时，判题的准确率更高。

本公开实施例的文档处理方法可以采用已有的区域检测模块检测第一作答区域和第二作答区域，例如，利用能检测作答区域的神经网络模型识别得到第一作答区域和第二作答区域，其中，该神经网络模型可以是目标检测网络模型CenterNet。目标检测网络模型主要包括提取图片特征的残差网络，对特征图进行上采样的反卷积模块，以及预测目标的宽高和目标的中心点坐标的分支卷积网络，其中，可以知道的该神经网络模型是根据本公开的具体应用场合对应的训练样本训练的，其不同在于，训练样本的标签是用于确定作答区域的标签，例如作答区域的中心点坐标和作答区域的宽高，而样本输入是相应需要检测区域的图像，此处不再说明。可以知道的，神经网络模型也可以是其他可实现作答区域检测的网络模型。

本公开实施例的文档处理方法可以采用已有的文本识别模型识别第一作答区域的文本和第二作答区域的文本。例如，利用能识别文本的神经网络模型得到第一作答区域的文本和第二作答区域的文本，其中，该神经网络模型可以是CRNN（ConvolutionalRecurrentNeuralNetwork，图文识别）模型，该CRNN模型可识别较长的文本序列，它包含CNN（ConvolutionalNeuralNetworks，卷积神经网络）特征提取层和BiLSTM（Bi-directionalLongShort-TermMemory，双向长短期记忆）序列特征提取层，能够进行端到端的联合训练。可以知道的，此处的神经网络模型也可以是其它可实现文本检测的网络模型。

在一个实施方式中，当第一作答区域与第二作答区域匹配时，含有第一作答区域的第一试题区域与含有相应第二作答区域的第二试题区域的第二位置重合度为：第一试题区域与多个第二试题区域的第二位置重合度中的最大值。

本公开的各个实施方式中，第一试题区域是指待判页内的试题区域，第二试题区域是指答案页内的试题区域，后续不再重复说明。

本公开的各个实施方式中，第一位置重合度是第一作答区域与第二作答区域的位置重合度，第二位置重合度是第一试题区域与第二试题区域的位置重合度，后续不再重复说明。

在一个实施方式中，当第一作答区域与第二作答区域匹配时，含有第一作答区域的第一试题区域与含有相应第二作答区域的第二试题区域的第二位置重合度大于或等于M，M大于或等于60%且小于或等于100%。

在一个实施方式中，待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域位于同一图像坐标系。在同一图像坐标系的第一作答区域与第二作答区域可便于第一位置重合度的计算，例如，直接通过第一作答区域与第二作答区域计算交并比，以得到第一位置重合度。

在一个实施方式中，第一作答区域为映射在相应答案页的图像坐标系的第一作答区域，位于待判页的图像坐标系的第一作答区域与映射在相应答案页的图像坐标系的第一作答区域之间满足：基于单应矩阵的投影关系。待判页的图像坐标系与答案页的图像坐标系可能存在不一致的情况，例如，采集到的待判页是发生倾斜的页面，答案页是未发生倾斜的页面，因为待判页倾斜引起第一作答区域的坐标偏差，导致待判页的图像坐标系与答案页的图像坐标系不一致。此时，若直接根据在待判页的图像坐标系的第一作答区域与在答案页的图像坐标系的第二作答区域计算交并比，则可能导致本与第一作答区域不匹配的第二作答区域与该第一作答区域的交并比相比于本与第一作答区域匹配的第二作答区域的交并比，其值更大，从而发生第一作答区域与第二作答区域匹配错误的情况。而本实施方式中，位于待判页的图像坐标系的第一作答区域与映射在相应答案页的图像坐标系的第一作答区域之间满足：基于单应矩阵的投影关系。投影后的第一作答区域相对于投影前的位于待判页的图像坐标系的第一作答区域，纠正了位于待判页的图像坐标系的第一作答区域的位置偏差问题，可以防止第一作答区域与第二作答区域匹配错误的情况发生。

示例性的，以答案页的图像坐标系作为统一的图像坐标系，则第一作答区域为映射在相应答案页的图像坐标系的第一作答区域，答案页的图像坐标系的每个第二作答区域与映射在相应待判页的图像坐标系的第二作答区域之间满足：基于单应矩阵的投影关系。也就是说，该映射在相应答案页的图像坐标系的第一作答区域可以由基于单应矩阵的投影关系，通过将位于待判页的图像坐标系的第一作答区域与映射在相应答案页的图像坐标系得到。

示例性的，以待判页的图像坐标系作为统一的图像坐标系，则每个第二作答区域为映射在待判页的图像坐标系的相应第二作答区域，答案页的图像坐标系的每个第二作答区域与映射到相应待判页的图像坐标系的第二作答区域之间满足：基于单应矩阵的投影关系。也就是说，该映射在相应待判页的图像坐标系的第二作答区域可以基于单应矩阵的投影关系将位于答案页的图像坐标系的第二作答区域与映射到相应待判页的图像坐标系得到。

在一个实施方式中，参见图5，根据待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域，包括：

S501，根据待判页含有的第一试题区域与相应答案页含有的多个第二试题区域的第二位置重合度，确定第一试题区域匹配的第二试题区域；

其中，第一试题区域是试题文本对应的区域，该第一试题区域包含相应的第一作答区域。

示例性的，在待判页和档案页是页-题-文本行的三级结构时，待判页对应的第一试题区域可以是相应试题文本的题框的区域，同时，在第一试题区域已被识别的情况下，例如在已知题框位置的情况下，第一试题区域内可以无试题文本，因为本实施方式中的技术方案无需借助试题文本内容本身，亦可实现判题。

S502，根据第一试题区域含有的第一作答区域与相应第二试题区域含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域。

其中，相应第二试题区域是指与第一试题区域匹配的第二试题区域。与第一试题区域匹配的第二试题区域表示第一试题区域与第二试题区域是相同试题对应的试题区域。

其中，第二位置重合度可以为第一试题区域与第二试题区域的交并比，第二位置重合度也可以为形式的位置重合度。

本实施方式，由于第一试题区域和第二试题区域的区域大小比对应的第一作答区域和第二作答区域的区域大小更大，因此根据第二位置重合度确定第一试题区域匹配的第二试题区域时，其更容易实现匹配且匹配精度更高。在确定第一试题区域匹配的第二试题区域后，再根据第一试题区域含有的第一作答区域与相应第二试题区域含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域，可以减少需要匹配的第一作答区域与第二作答区域的数量，以提高匹配效率。

示例性的，在根据待判页含有的第一试题区域与相应答案页含有的多个第二试题区域的第二位置重合度，确定第一试题区域匹配的第二试题区域时，从相应答案页含有的多个第二试题区域中确定与第一试题区域的第二位置重合度最大值对应的第二试题区域作为与第一试题区域匹配的第二试题区域。也就是说，当第一作答区域与第二作答区域匹配时，含有第一作答区域的第一试题区域与含有相应第二作答区域的第二试题区域的第二位置重合度为：第一试题区域与多个第二试题区域的第二位置重合度中的最大值。

举例来说，假设答案页存在3个第二试题区域，分别为第二试题区域P1、第二试题区域P2和第二试题区域P3，若第一试题区域与第二试题区域P1的交并比为0.2、第一试题区域与第二试题区域P2的交并比为0、第一试题区域与第二试题区域P3的交并比为0.9，此时第一试题区域与第二试题区域P3的交并比，则确定该第二试题区域与第二试题区域P3匹配。

示例性的，在根据待判页含有的第一试题区域与相应答案页含有的多个第二试题区域的第二位置重合度，确定第一试题区域匹配的第二试题区域时，从相应答案页含有的多个第二试题区域中确定与第一试题区域的第二位置重合度大于或等于M的第一作答区域作为与第一试题区域匹配的第二试题区域，M大于或等于60%且小于或等于100%，M可以是60%、65%、70%、75%、80%、85%、90%、95%等。也就是说，当第一作答区域与第二作答区域匹配时，含有第一作答区域的第一试题区域与含有相应第二作答区域的第二试题区域的第二位置重合度大于或等于M。

举例来说，假设答案页存在3个第二试题区域，分别为第二试题区域P1、第二试题区域P2和第二试题区域P3，若第一试题区域与第二试题区域P1的交并比为0.2、第一试题区域与第二试题区域P2的交并比为0.1、第一试题区域与第二试题区域P3的交并比为0.8，若M为70%，此时，第一试题区域与第二试题区域P3的交并比大于70%，则确定该第二试题区域与第二试题区域P3匹配。

示例性的，待判页和答案页可以是页-题-文本行的三级结构，参见图6，待判页600A包括多个第一试题区域601A，每个第一试题区域内包含若干第一作答区域602A，第一试题区域601A可以用题框的形式表示，在已知题框的位置的情况下，题框内可以无试题文本。同理，答案页600B包括多个第二试题区域601B，每个第二试题区域内包含若干第一作答区域602B。本实施方式中在第一试题区域和第二试题区域确定的情况下，无需识别相应的试题文本，即可实现判题。

在一个实施方式中，参见图7，根据待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域前，方法还包括：

S701，确定待判页含有的多个第一特征点与答案页含有的多个第二特征点的匹配关系的情况下，根据多个第一特征点的位置与相应第二特征点的位置待判页与答案页之间的单应矩阵。

其中，相应第二特征点是与第一特征点匹配的第二特征点，特征点指的是图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点。

此处，第一特征点可以是采用各种特征点提取方法所提取的相应待判页的特征点，第二特征点可以是采用各种特征点提取方法所提取的相应答案页特征点，例如，采用尺度不变特征变换（SIFT）、加速健壮特征（SURF）等方法提取第一特征点和第二特征点。

此处，待判页含有的多个第一特征点与答案页含有的多个第二特征点的匹配关系可以是采用已有的特征点匹配方法确定所确定的匹配关系，例如，采用暴力匹配、K均值聚类(K-Means）等方法确定待判页含有的多个第一特征点与答案页含有的多个第二特征点的匹配关系。

S702，基于待判页与答案页之间的单应矩阵，将第一作答区域和多个第二作答区域映射到同一图像坐标系。

此处，待判页与答案页之间的单应矩阵可以采用各种算法确定，例如，采用随机抽样一致算法(RANSAC)、最小中值算法(LMedS)、M估计算法(M-estimators)等算法确定单应矩阵。

在本实施方式中，可以利用待判页的第一特征点和答案页的第二特征点的匹配关系得到待判页与答案页之间的单应矩阵，即得到了待判页的各个坐标点与答案页的各个坐标点的映射关系，因此可以快速而准确将第一作答区域和多个第二作答区域映射到同一图像坐标系。

在一个实施方式中，参见图8，根据待判页含有的第一试题区域与相应答案页含有的多个第二试题区域的第二位置重合度，确定第一试题区域匹配的第二试题区域后，根据第一试题区域含有的第一作答区域的位置与相应第二试题区域含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域前，方法还包括：

S801，将第一试题区域含有的多个第一特征点与相应第二试题区域含有的多个第二特征点进行匹配，确定与第一特征点匹配的第二特征点。

此处，相应第二试题区域是指与第一试题区域匹配的第二试题区域。

S802，根据第一试题区域含有的多个第一特征点的位置与相应第二试题区域含有的相应第二特征点的位置，确定第一试题区域与相应第二试题区域之间的单应矩阵。

S803，基于第一试题区域与相应第二试题区域之间的单应矩阵，将第一作答区域和多个第二作答区域映射到同一图像坐标系。

在本实施方式中，利用第一试题区域含有的多个第一特征点的位置与相应第二试题区域含有的多个第二特征点的位置，来得到第一试题区域与相应第二试题区域之间的单应矩阵，相对于根据待判页含有的多个第一特征点（含第一试题区域外的第一特征点）答案页含有的第二特征点（含第二试题区域外的第一特征点）来得到第一试题区域与相应第二试题区域之间的单应矩阵，具有更高的精度。因此，第一作答区域和多个第二作答区域映射到同一图像坐标系时，映射的精度也更高。

示例性的，每个第一特征点包括用于表征第一特征点周围信息的描述子，每个第二特征点包括用于表征第二特征点周围信息的描述子。举例来说，每个第一特征点有一个表征该第一特征点周围局部信息的256维8位无符号整型描述子，每个第二特征点有一个表征该第二特征点周围局部信息的256维8位无符号整型描述子。

参见图9，本公开示例性实施例还提供一种文档处理装置，包括：

确定模块901，用于在待判页含有的第一试题区域与相应答案页含有的第二试题区域匹配时，从相应第二试题区域所含有的第二作答区域中，确定与第一试题区域所含有的第一作答区域相匹配的第二作答区域；

输出模块902，用于根据第一作答区域的文本以及与第一作答区域匹配的第二作答区域的文本，输出判题结果。

在一个实施方式中，第一作答区域与匹配的第二作答区域的第一位置重合度为第一作答区域与多个第二作答区域的第一位置重合度中的最大值；

在一个实施方式中，第一作答区域与匹配的第二作答区域的第一位置重合度大于或等于N，N大于等于60%且小于等于100%。

在一个实施方式中，当第一作答区域与第二作答区域匹配时，含有第一作答区域的第一试题区域与含有相应第二作答区域的第二试题区域的第二位置重合度为：第一试题区域与多个第二试题区域的第二位置重合度中的最大值；

在一个实施方式中，第一位置重合度为第一作答区域与第二作答区域的交并比，第二位置重合度为第一试题区域与第二试题区域的交并比。

在一个实施方式中，待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域位于同一图像坐标系。

在一个实施方式中，第一作答区域为映射在相应答案页的图像坐标系的第一作答区域；

位于待判页的图像坐标系的第一作答区域与映射在相应答案页的图像坐标系的第一作答区域之间满足：基于单应矩阵的投影关系。

在一个实施方式中，每个第二作答区域为映射在待判页的图像坐标系的第二作答区域；

答案页的图像坐标系的每个第二作答区域与映射在相应待判页的图像坐标系的第二作答区域之间满足：基于单应矩阵的投影关系。

在一个实施方式中，确定模块901在用于根据待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域时，具体用于：

根据待判页含有的第一试题区域与相应答案页含有的多个第二试题区域的第二位置重合度，确定第一试题区域匹配的第二试题区域；

根据第一试题区域含有的第一作答区域与相应第二试题区域含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域。

在一个实施方式中，装置还包括第一映射模块，用于在根据待判页所含有的第一作答区域与相应答案页含有的多个第二作答区域的位置重合度，确定与第一作答区域匹配的第二作答区域前，执行：

确定待判页含有的多个第一特征点与答案页含有的多个第二特征点的匹配关系的情况下，根据多个第一特征点的位置与相应第二特征点的位置待判页与答案页之间的单应矩阵；

基于待判页与答案页之间的单应矩阵，将第一作答区域和多个第二作答区域映射到同一图像坐标系。

在一个实施方式中，装置还包括第二映射模块，用于在根据待判页含有的第一试题区域与相应答案页含有的多个第二试题区域的第二位置重合度，确定第一试题区域匹配的第二试题区域后，根据第一试题区域含有的第一作答区域的位置与相应第二试题区域含有的多个第二作答区域的第一位置重合度，确定与第一作答区域匹配的第二作答区域前，执行：

将第一试题区域含有的多个第一特征点与相应第二试题区域含有的多个第二特征点进行匹配，确定与第一特征点匹配的第二特征点；

根据第一试题区域含有的多个第一特征点的位置与相应第二试题区域含有的相应第二特征点的位置，确定第一试题区域与相应第二试题区域之间的单应矩阵；

基于第一试题区域与相应第二试题区域之间的单应矩阵，将第一作答区域和多个第二作答区域映射到同一图像坐标系。

在一个实施方式中，每个第一特征点包括用于表征第一特征点周围信息的描述子，每个第二特征点包括用于表征第二特征点周围信息的描述子。

一种文档处理装置与上述一种文档处理方法相对应，其技术特征、原理和效果可参考一种文档处理方法的技术特征、原理和效果，此处不再重复描述。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序，计算机程序在被至少一个处理器执行时用于使电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。

参考图10，现将描述可以作为本公开的服务器或客户端的电子设备1000的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器（ROM）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（RAM）1003中的计算机程序，来执行各种适当的动作和处理。在RAM1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向电子设备1000输入信息的任何类型的设备，输入单元1006可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1007可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1004可以包括但不限于磁盘、光盘。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理。例如，在一些实施例中，执行本公开示例性实施方式中的文档处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到电子设备1000上。在一些实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行本公开示例性实施方式中的文档处理方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.文档处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一作答区域与匹配的第二作答区域的第一位置重合度为所述第一作答区域与多个所述第二作答区域的第一位置重合度中的最大值；

或，

所述第一作答区域与匹配的第二作答区域的第一位置重合度大于或等于N，所述N大于等于60%且小于等于100%。

3.根据权利要求1所述的方法，其特征在于，当所述第一作答区域与所述第二作答区域匹配时，含有所述第一作答区域的第一试题区域与含有相应所述第二作答区域的第二试题区域的第二位置重合度为：所述第一试题区域与多个所述第二试题区域的第二位置重合度中的最大值；

或，

当所述第一作答区域与所述第二作答区域匹配时，含有所述第一作答区域的第一试题区域与含有相应所述第二作答区域的第二试题区域的第二位置重合度大于或等于M，所述M大于或等于60%且小于或等于100%。

4.根据权利要求3所述的方法，其特征在于，所述第一位置重合度为所述第一作答区域与所述第二作答区域的交并比，和/或，所述第二位置重合度为所述第一试题区域与所述第二试题区域的交并比。

5.根据权利要求1~4任一所述的方法，其特征在于，所述待判页所含有的第一作答区域与相应所述答案页含有的多个第二作答区域位于同一图像坐标系。

6.根据权利要求1~4任一所述的方法，其特征在于，所述第一作答区域为映射在相应所述答案页的图像坐标系的第一作答区域；

位于所述待判页的图像坐标系的第一作答区域与映射在相应所述答案页的图像坐标系的第一作答区域之间满足：基于单应矩阵的投影关系。

7.根据权利要求1~4任一所述的方法，其特征在于，每个所述第二作答区域为映射在所述待判页的图像坐标系的第二作答区域；

所述答案页的图像坐标系的每个第二作答区域与映射在相应所述待判页的图像坐标系的第二作答区域之间满足：基于单应矩阵的投影关系。

8.根据权利要求1所述的方法，其特征在于，所述根据待判页所含有的第一作答区域与相应所述答案页含有的多个第二作答区域的第一位置重合度，确定与所述第一作答区域匹配的第二作答区域前，所述方法还包括：

确定所述待判页含有的多个第一特征点与所述答案页含有的多个第二特征点的匹配关系的情况下，根据多个所述第一特征点的位置与相应所述第二特征点的位置所述待判页与所述答案页之间的单应矩阵；

基于所述待判页与所述答案页之间的单应矩阵，将第一作答区域和多个所述第二作答区域映射到同一图像坐标系。

9.根据权利要求1所述的方法，其特征在于，所述根据待判页所含有的第一作答区域与相应所述答案页含有的多个第二作答区域的第一位置重合度，确定与所述第一作答区域匹配的第二作答区域，包括：

根据所述待判页含有的第一试题区域与相应所述答案页含有的多个第二试题区域的第二位置重合度，确定所述第一试题区域匹配的第二试题区域；

根据所述第一试题区域含有的第一作答区域与相应所述第二试题区域含有的多个所述第二作答区域的第一位置重合度，确定与所述第一作答区域匹配的第二作答区域。

10.根据权利要求9所述的方法，其特征在于，根据所述待判页含有的第一试题区域与相应所述答案页含有的多个第二试题区域的第二位置重合度，确定所述第一试题区域匹配的第二试题区域后，根据所述第一试题区域含有的第一作答区域的位置与相应所述第二试题区域含有的多个所述第二作答区域的第一位置重合度，确定与所述第一作答区域匹配的第二作答区域前，所述方法还包括：

将所述第一试题区域含有的多个第一特征点与相应所述第二试题区域含有的多个第二特征点进行匹配，确定与所述第一特征点匹配的第二特征点；

根据所述第一试题区域含有的多个所述第一特征点的位置与相应所述第二试题区域含有的相应第二特征点的位置，确定所述第一试题区域与相应所述第二试题区域之间的单应矩阵；

基于所述第一试题区域与相应所述第二试题区域之间的单应矩阵，将第一作答区域和多个所述第二作答区域映射到同一图像坐标系。

11.根据权利要求8或10所述的方法，其特征在于，每个所述第一特征点包括用于表征所述第一特征点周围信息的描述子，每个所述第二特征点包括用于表征所述第二特征点周围信息的描述子。

12.一种文档处理装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

处理器；以及，

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-11中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。