CN113326815B

CN113326815B - 一种文档处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN113326815B
Application number: CN202110782353.1A
Authority: CN
Inventors: 王翔; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2022-05-06
Anticipated expiration: 2041-07-12
Also published as: CN113326815A

Abstract

本公开提供了一种文档处理方法、装置、电子设备及可读存储介质，一种文档处理方法，包括：确定表征待判页所含有的第一作答区域的第一信息；确定表征与待判页匹配的答案页所含有的多个第二作答区域的多个第二信息，其中，每个第二信息用于表征相应第二作答区域，确定与第一信息相似度最高的相应第二信息；根据第一信息表征的第一作答区域的文本与相应第二信息表征的第二作答区域的文本输出判题结果。本公开实施例中提供的一个或多个技术方案，可以提高判题的准确率。

Description

一种文档处理方法、装置、电子设备及可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文档处理方法、装置、电子设备及可读存储介质。

背景技术

拍照判题是人工智能技术在教育领域的一项重要应用，其拍照判断流程是：用户用手机或平板电脑等终端设备进行拍照，然后将拍摄的图像上传至拍照判题程序，接着拍照判题程序将图像送入题型判断模型，题型判断模型检测预先指定的题型的文本区域，并框选该文本区域。与此同时，应用程序将图像送入文本行检测模型，文本行检测模型检测文本行区域，并框选该文本行区域；然后利用版面分析模型根据文本行检测模型的检测结果进行版面分析，对框进行合并，同时根据每种题型的特点，分析得到每个题是由哪些框组成，然后根据框的坐标在原图上进行裁剪，将裁剪得到的图像送入识别模型，得到每个题目的内容，然后根据题目内容判断试题判题结果，并将试题判题结果进行输出。

发明内容

根据本公开的第一方面，提供了一种文档处理方法，包括：

确定表征待判页所含有的第一作答区域的第一信息；

确定表征与所述待判页匹配的答案页所含有的多个第二作答区域的多个第二信息，其中，每个所述第二信息用于表征相应所述第二作答区域；

确定与所述第一信息相似度最高的相应所述第二信息；

根据所述第一信息表征的所述第一作答区域的文本与相应所述第二信息表征的所述第二作答区域的文本输出判题结果。

根据本公开的第二方面，提供了一种文档处理装置，包括：

第一确定模块，用于确定表征待判页所含有的第一作答区域的第一信息；

第二确定模块，用于确定表征与所述待判页匹配的答案页所含有的多个第二作答区域的多个第二信息，其中，每个所述第二信息用于表征相应所述第二作答区域；

第三确定模块，用于确定与所述第一信息相似度最高的相应所述第二信息；

输出模块，用于根据所述第一信息表征的所述第一作答区域的文本与相应所述第二信息表征的所述第二作答区域的文本输出判题结果。

根据本公开的第三方面，提供了一种电子设备，包括：

处理器；以及，

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开实施方式中任一项所述的方法。

根据本公开的第四方面，一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据本公开实施方式中任一项所述的方法。

本公开实施例中提供的一个或多个技术方案，可以提高判题的准确率，其中，本公开示例性实施例提供的文档处理方法是利用第一信息与第二信息的相似度来表征第一作答区域和第二作答区域的匹配度，使得本公开的文档处理方法在全确定第一作答区域和第二作答区域是否匹配时，准确率更高，使得根据第一作答区域的文本和相应第二作答区域的文本确定判题结果时，判题的准确率更高。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1示出了根据本公开示例性实施例的实施本文描述的各种方法的一种应用场景示意图；

图2示出了根据本公开示例性实施例的实施本文描述的各种方法的一种应用场景下的手机界面显示图；

图3示出了根据本公开示例性实施例的文档处理方法的一种流程图；

图4示出了根据本公开示例性实施例的文档处理方法的一种待判页与档案页的示意图；

图5示出了根据本公开示例性实施例的文档处理方法的另一种待判页与档案页的示意图；

图6示出了根据本公开示例性实施例的文档处理方法的特征生成模型的示意图；

图7示出了根据本公开示例性实施例的文档处理装置的示意性框图；

图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面对本公开的实施方式中的术语做说明：

试题文本：试卷、考卷、作业等页面中的试题的文本；

例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，除“大地”、“评价”是作答文本外，其他均为试题文本。

试题片段：试题文本中的片段，可以是试题文本中的一个字符、两个字符或多个字符；

例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中“银装素裹的”、“别有深意”等试题文本中的片段为试题片段。

作答文本：试卷、作业等页面中的答案的文本；

例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中的“大地”、“评价”属于作答文本。

作答区域：试卷、作业等页面中的用于填写答案的区域。

例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，“大地”、“评价”所在的区域是作答区域。

图1是本公开示例性实施例提供的文档处理方法的一种应用场景的示意图，应当知道的，该应用场景不构成对本申请应用场景的限制，本公开示例性实施例提供的文档处理方法也可在其他应用场景中使用。

以文档处理方法的一个具体应用场景为例，参见图1，该应用场景100包括拍摄设备101、显示终端102和服务器104。拍摄设备101、显示终端102等均可以通过网络103与服务器104通信。拍摄设备101可以为摄像机、相机、光电传感器等具有图像采集功能的设备。显示终端102可以为手机、笔记本电脑、台式电脑、手持终端等具有显示功能的终端。此处拍摄设备101的功能可以集成在显示终端102中，也可以独立于显示终端102，可以根据实际需要进行设计。

上述拍摄设备101可以直接拍摄待判页文档，获得具有相应图像格式的待判页，该图像格式可以为JPEG（JointPhotographicExpertsGroup，缩写为JPEG）、TIFF（TagImageFileFormat）、RAW（RAWImageFormat）等格式。待判页的图像可以为动态图像或静态图像。

如果上述拍摄设备101可以实现联网功能，该拍摄设备101可以通过网络103直接将待判页图像通过网络103上传至服务器104并进行文档处理，也可以将待判页图像通过拍摄设备101传输至显示终端102，显示终端102通过网络103上传至服务器104并进行文档处理。用户可以从显示终端102通过网络103访问服务器104，获取到处理结果甚至处理过程，并进行显示。同时，如果拍摄设备101还具有图像显示功能，服务器104也可以通过网络103将处理结果甚至处理过程反馈（可以是自动反馈也可以响应于用于针对拍摄设备的操作）至拍摄设备101进行显示。

如果上述拍摄设备101无法实现联网功能，该拍摄设备101拍摄待判页文档后，可以将所获得的待判页图像通过移动硬件、U盘、光盘等存储介质进行保存，显示终端102读取存储介质所存储的待判页图像，将其通过网络103上传至服务器104并进行文档处理，用户可以从显示终端102通过网络103访问服务器104获取到处理结果甚至处理过程。另外，服务器104也可以通过网络103自动将处理结果甚至处理过程反馈至显示终端102进行显示。

本公开示例性实施例提供的一种文档处理方法，其中的文档可以为图2示例出的手机显示界面所显示的内容。如图2所示，手机200的显示界面201内显示有待判页202。待判页202可以为静态图片，也可以是动态图像。当待判页202为动态图像，服务器可以提前从动态的待判页图像中选择的一帧图片。该图片可以是清晰度、拍摄角度最佳的一帧图片，也可以是随机选择的一帧图片。下面以服务器为执行主体，结合附图对本公开示例性的实施例提供的文档处理方法进行描述。

参见图3，本公开示例性实施例提供的一种文档处理方法，包括：

S301，确定表征待判页所含有的第一作答区域的第一信息。

上述待判页包含试题文本和作答文本，待判页中的作答文本是待判答案文本，为了方便描述，将待判页的试题文本定义为第一试题文本，待判页的作答文本定义为第一作答文本。

S302，确定表征与待判页匹配的答案页所含有的多个第二作答区域的多个第二信息，每个第二信息用于表征相应第二作答区域。

上述答案页包含试题文本和作答文本，答案页中的作答文本是参考答案文本，为了方便描述，将答案文本定义为第二试题文本，作答文本定义为第二作答文本。

与待判页匹配的答案页包含了与第一试题文本对应的第二试题文本以及与第一作答区域对应的第二作答区域，第二作答区域内具有作为参考答案的第二作答文本。此处，与第一试题文本对应的第二试题文本指的该第二试题文本与对应第一试题文本是相同题目的试题文本。与第一作答区域对应的第二作答区域指的该第二作答区域是与对应第一作答区域是相同题目的作答区域。待判页和与待判页匹配的答案页的主要区别在于：待判页的作答文本是待判答案文本，答案页的作答文本是参考答案文本。

S303，确定与第一信息相似度最高的相应第二信息。

第一信息是表征第一作答区域的信息，第二信息是表征第二作答区域的信息，使得第一信息与第二信息的相似度越大，则第一信息表征的第一作答区域与第二信息表征的相应第二作答区域匹配的可能性越大。

在实际应用中，上述确定与第一信息相似度最高的相应第二信息包括：确定第一信息与每个第二信息的余弦距离，确定余弦距离的最小值所对应的第二信息为与第一信息相似度最高的相应第二信息。

本实施方式中，利用余弦距离可以快速而准确的得到与第一信息相似度最高的相应第二信息。第一信息与第二信息可以是均为多维向量形式的信息，也可以是其它形式的数据表达形式。例如：当第一信息与第二信息可以是均为多维向量形式表达时，可以采用余弦相似度的方式确定第一信息和第二信息的相似度。

该第一信息可包括第一作答区域的周侧区域的图像特征、第一作答区域的全部区域或局部区域的图像特征等可以表征第一作答区域的特征信息。该第二信息可以包括第二作答区域的周侧区域的图像的特征、第二作答区域的全部区域或局部区域的图像的特征等可以表征第二作答区域的特征信息。当第一作答区域与第二作答区域相应时，第一作答区域的特征信息与第二作答区域的特征信息的相似度最高或者满足预设的相似度，说明第一作答区域与第二作答区域是相同的试题作答区域。例如相似度大于60%，被认为第一作答区域与第二作答区域相应。说明第一作答区域与第二作答区域是相同的试题作答区域。

S304，根据第一信息表征的第一作答区域的文本与相应第二信息表征的第二作答区域的文本输出判题结果。

在实际应用中，上述可以根据第一作答区域的文本与相应第二作答区域的文本是否相同确定并输出判题结果，当然，在实际运用中，针对一些特殊情况，例如近义词填空等题型，因为只要与答案语义相同，则可判定正确，故在该类应用场合，可以根据第一作答区域的文本与相应第二作答区域的文本语义是否相同，确定并输出判断结果。

本公开示例性实施例提供的文档处理方法，是基于待判页的第一作答区域的文本和作答区域的第二作答区域的文本输出判题结果，因此无需理解题目的题意亦可判断试题判题结果，其可适用于填空题、选择题、判断题等不同的题型，具有题型适用范围广的有益效果。同时，本公开示例性实施例提供的文档处理方法是利用第一信息与第二信息的相似度来表征第一作答区域和第二作答区域的匹配度，使得本公开的文档处理方法在确定第一作答区域和第二作答区域是否匹配时，准确率更高，使得根据第一作答区域的文本和相应第二作答区域的文本确定判题结果时，判题的准确率更高。

本公开示例性实施例提供的文档处理方法可以采用已有的区域检测模块检测第一作答区域和第二作答区域，例如，利用能检测作答区域的神经网络模型识别得到第一作答区域和第二作答区域，其中，该神经网络模型可以是目标检测网络模型CenterNet。目标检测网络模型主要包括提取图片特征的残差网络，对特征图进行上采样的反卷积模块，以及预测目标的宽高和目标的中心点坐标的分支卷积网络，其中，可以知道的该神经网络模型是根据本公开的具体应用场合对应的训练样本训练的，其不同在于，训练样本的标签是用于确定作答区域的标签，例如作答区域的中心点坐标和作答区域的宽高，而样本输入是相应需要检测区域的图像，此处不再说明。可以知道的，神经网络模型也可以是其他可实现作答区域检测的网络模型。

本公开示例性实施例提供的文档处理方法可以采用已有的文本识别模型识别第一作答区域的文本和第二作答区域的文本，例如，利用能识别文本的神经网络模型得到第一作答区域的文本和第二作答区域的文本，其中，该神经网络模型可以是CRNN（Convolutional Recurrent Neural Network，图文识别）模型，该CRNN模型可识别较长的文本序列，它包含CNN（Convolutional Neural Networks，卷积神经网络）特征提取层和BiLSTM（Bi-directional Long Short-Term Memory，双向长短期记忆）序列特征提取层，能够进行端到端的联合训练。可以知道的，此处的神经网络模型也可以是其他可实现文本检测的网络模型。

在一个可选实施方式中，第一信息包括相应第一作答区域在待判页中的关联区域的图像所含有的特征信息。每个第二信息包括每个相应第二作答区域在答案页中的关联区域的图像所含有的特征信息。

本公开的示例性实施方式中，第一信息包括相应第一作答区域在待判页中的关联区域图像所含有的特征信息，每个第二信息包括每个相应第二作答区域在答案页中的关联区域图像所含有的特征信息，以此通过第一作答区域的关联区域图像所含有的特征信息来表征该第一作答区域，通过第二作答区域的关联区域的图像所含有的特征信息来表征该第二作答区域，使得第一信息与第二信息的相似度的越高，相应的第一作答区域和相应的第二作答区域匹配的可能性越高，提高判题的准确性。

第一作答区域的关联区域指的是与第一作答区域相关联的区域，可以是第一作答区域内的局部区域、可以是包含第一作答区域的区域、可以是第一作答区域的周侧区域等；第二作答区域的关联区域指的是与第二作答区域相关联的区域，可以是第二作答区域内的局部区域、可以是包含第二作答区域的区域、可以是第二作答区域的周侧区域等。

在一种示例中，参见图4，第一作答区域401A在待判页400A中的关联区域包括相应第一作答区域401A的周侧区域402A，第二作答区域401B在答案页400B中的关联区域包括相应第二作答区域401B的周侧区域402B。至于相似度判断方式则可以参考前文，此处不做赘述。

在本公开的示例性实施方式中，第一信息包括待判页中第一作答区域的周侧区域的图像特征信息，第二信息包括答案页中第二作答区域的周侧区域的图像信息，由于第一作答区域的周侧区域的图像特征信息是与第一作答区域具有较强关联性的区域的图像特征信息，第二作答区域的周侧区域的图像信息是与第二租到区域具有较强关联性的区域的图像特征信息，因此，第一信息与第二信息的相似度能更好的表征第一信息表征的第一作答区域与第二信息表征的第二作答区域的匹配度。

举例来说，第一作答区域在待判页中的关联区域包括与第一作答区域相邻的试题片段所在的区域，第二作答区域在答案页中的关联区域包括与第二作答区域相邻的试题片段所在的区域。此时，第一信息包含第一作答区域相邻的试题片段所在的区域的图像特征，第一信息包含第二作答区域相邻的试题片段所在的区域的图像特征，由于，第一作答区域相邻的试题片段相对于与第一作答区域不相邻的试题片段，其与对应作答区域的关联性更强，第二作答区域相邻的试题片段相对于与第二作答区域不相邻的试题片段，其与对应第二作答区域的关联性更强。因此，第一信息与第二信息的相似度能更好的表征第一信息表征的第一作答区域与第二信息表征的第二作答区域的匹配度。

在另一种示例中，参见图5，第一作答区域501A的关联区域还包括相应第一作答区域501A的局部区域503A，第二作答区域501B的关联区域包括相应第二作答区域501B的局部区域503B。

在本公开的示例性实施方式中，由于第一信息包括待判页500A中第一作答区域501A的局部区域503A的图像特征信息，第二信息包括答案页500B中第二作答区域501B的局部区域503B的图像特征信息。因此，第一信息包含了第一作答区域内图像的图像特征信息以及第二信息包含了第二作答区域内图像的图像特征信息。所以第一信息可以更好的表征第一作答区域，第二信息可以更好的表征第二作答区域，使得第一信息与第二信息的相似度能更好的表征第一信息表征的第一作答区域501A与第二信息表征的第二作答区域501B的匹配度，使得根据第一作答区域501A的文本与相应第二作答区域501B的文本，确定判题结果时，得到的判题结果更为准确，例如在判断时，若附图中的第一作答区域501A的文本是桃树，而第二作答区域501B的文本是桃花，可以判断该填空题答案错误。

举例来说，参见图5，待判页500A中的关联区域中心为第一作答区域501A的中心，答案页500B中的关联区域中心为第二作答区域501B的中心，待判页的关联区域的图像的尺寸与相应答案页的关联区域的图像的尺寸相同。例如，第一作答区域501A的局部区域503A的中心是第一作答区域501A的中心，第二作答区域501B的局部区域503B的中心是第二作答区域501B的中心。又例如，第一作答区域501A的周侧区域502A的中心是第一作答区域501A的中心，第二作答区域502B的周侧区域502B的中心是第二作答区域501B的中心。

上述第一作答区域的局部区域图像可以是以第一作答区域的中心为中心的设定尺寸的区域的图像，第二作答区域的局部区域图像可以是以第二作答区域的中心为中心的设定尺寸的区域图像，其中，设定尺寸可以是N像素×M像素等固定的尺寸，N、M可以是32~128之间的整数。例如，N、M均为64。设定尺寸也可以是相应作答区域的固定比例的尺寸，例如，设定尺寸是相应作答区域的0.5倍~0.9倍的尺寸。

在又一种示例中，参见图5，第一作答区域501A在待判页500A中的关联区域包括相应第一作答区域501A的周侧区域502A和相应第一作答区域500A的局部区域503A，第二作答区域501B在答案页500B中的关联区域包括相应第二作答区域501B的周侧区域502B和相应第二作答区域501B的局部区域503B。

在本公开的示例性实施方式中，第一信息包含第一作答区域501A的周侧区域502A和局部区域503A的图像的特征信息，第二信息包含将述第二作答区域501B的周侧区域502B和局部区域503B的图像的特征信息，使得第一信息与第二信息的相似度能更好的表征第一信息表征的第一作答区域与第二信息表征的第二作答区域的匹配度。可以知道的，此处包含局部区域和周侧区域的特征信息，可以是局部区域的特征信息和周侧区域的特征信息，也可以是局部区域的特征信息和周侧区域的特征信息经过处理后拼接的特征信息。

示例性的，参见图5，待判页500A的作答文本为手写体文本，待判页500A的试题文本为打印体文本，相应第一作答区域501A的周侧区域为相应第一作答区域501A的周侧打印体文本所在的区域。

答案页500B的作答文本为手写体文本，答案页500B的试题文本为打印体文本，相应第二作答区域501B的周侧区域为相应第二作答区域501B的周侧打印体文本所在的区域。

在本公开的示例性实施方式中，待判页500A的作答文本与批改页500A的试题文本的形式不同，使得在获取第一作答区域501A的周侧区域时，可以具体获取相应第一作答区域501A的周侧打印体文本所在的区域，使得第一作答区域501A的周侧区域包含打印体文本，也就是包含试题文本，进一步使得第一信息包含了试题文本的图像的特征信息。

同样的，在获取第二作答区域501B的周侧区域时，可以具体获取相应第二作答区域501B的周侧打印体文本所在的区域，使得第二作答区域501B的周侧区域包含打印体文本，也就是包含试题文本，进一步使得第二信息包含了试题文本的图像的特征信息。因此，使得第一信息与第二信息的相似度能更好的表征第一信息表征的第一作答区域500A与第二信息表征的第二作答区域500B的匹配度。

在一个可选实施方式中，确定表征待判页所含有的第一作答区域的第一信息，包括：利用特征生成模型对第一作答区域在待判页中的关联区域的图像进行编码，以获得第一信息；

确定表征与待判页匹配的答案页所含有的多个第二作答区域的多个第二信息，包括：利用特征生成模型对第二作答区域在答案页中的关联区域的图像进行编码，以获得第二信息。

本实施方式中，利用特征生成模型获得第一信息和第二信息。该特征生成模型包括：

第一子模型，用于提取输入的关联区域中的局部区域的第一特征；

第二子模型，用于提取输入的关联区域中的周侧区域的第二特征；

第三子模型，用于根据第一特征和第二特征得到第三特征。

本实施方式中，在利用特征生成模型对第一作答区域在待判页中的关联区域的图像进行编码，以获得第一信息时，具体通过第一子模型提取第一作答区域的局部区域的第一特征，通过第二子模型提取第一作答区域的周侧区域的第二特征，通过第三子模型根据第一特征和第二特征得到第三特征。该第三特征可以作为第一信息，该图像特征也可以经过其他处理后作为第一信息，例如经过全连接层后得到第一信息。

在利用特征生成模型对第二作答区域在答案页中的关联区域的图像进行编码，以获得第二信息时，具体通过第一子模型提取第二作答区域的局部区域的第一特征，通过第二子模型提取第二作答区域的周侧区域的第二特征，通过第三子模型根据第一特征和第二特征得到第三特征。该第三特征可以作为第二信息，该图像特征也可以经过其他处理后作为第二信息，例如经过全连接层后得到第二信息。

示例性的，第一子模型与第二子模型的模型结构相同；第一子模型包括至少两个第一卷积模块，用于根据局部区域输出至少两个大小不同的特征映射

示例性的，第一子模型和第二子模型均含有残差单元或inception单元。如第一子模型和第二子模型均为ResNet系列网络模型。

上述第一子模型、第二子模型和第三子模型可以构成编码器，并与解码器结合，基于对抗神经网络思想进行模型训练。基于此，上述特征生成模型可以为基于对抗神经的深度网络模型。这些特征生成模型可以是变分自编码器模型、回归模型和生成对抗网络等，下面以变分自编码器模型为例描述特征生成模型。

参见图6，本公开实施例的特征生成模型600包括编码器610和解码器620，编码器610包括第一Resnet18网络611、第二Resnet18网络612、降采样层613、拼接层614和全连接层615，全连接层615与解码器620连接。

上述第一Resnet18网络611、第二Resnet18网络612均可以包括17个卷积层和1个全连接层。第一Resnet18网络611和第二Resnet18网络612由4个block块串联构建，每个block块包括若干卷积层，第一个block块输出的特征映射大小为原图的1/4，第二个为原图1/8，第三个为原图1/16，第四个为原图1/32，每个block块输出的特征映射数量都为128，将4组特征映射全部通过插值的方式将其大小变为原图1/4大小并串联，得到一组特征映射，其通道数量为512，称为第一特征。

第一Resnet18网络611的输入可以为以某个作答区域中心点为中心，大小为64像素×64像素的区域，第二Resnet18网络612的输入可以为某个作答区域上下左右的打印体图像拼接而成的32像素×32像素大小的图像，得到通道数量为512的一组特征，称为第二特征。

上述降采样层613可以根据第二特征对第一特征进行降采样，并将两者进行拼接，然后在其后接一个全连接层615，其后面接解码器620，解码器620可由8个反卷积层组成，最后输出为第一子模型的输入，在训练过程中，使用L1损失函数进行训练。

在实际应用中，降采样层613可以含有步长大于或等于2的卷积核，其可以缩小第一特征的尺寸，实现降采样功能。拼接层614可以含有1×1的卷积核，对第一特征和第二特征进行特征拼接。全连接层615可以为36节点的全连接层615，其可以输出一个第三特征，在输入的是第一作答区域的关联区域的图像时，该第三特征是第一信息，在输入的是第二作答区域的关联区域的图像时，该第三图像是第二信息。

参见图7，一种文档处理装置,包括：

第一确定模块701，用于确定表征待判页所含有的第一作答区域的第一信息；

第二确定模块702，用于确定表征与待判页匹配的答案页所含有的多个第二作答区域的多个第二信息，其中，每个第二信息用于表征相应第二作答区域；

第三确定模块703，用于确定与第一信息相似度最高的相应第二信息；

输出模块704，用于根据第一信息表征的第一作答区域的文本与相应第二信息表征的第二作答区域的文本输出判题结果。

在一个可选实施方式中，第一信息包括相应第一作答区域在待判页中的关联区域的图像所含有的特征信息；

每个第二信息包括每个相应第二作答区域在答案页中的关联区域的图像所含有的特征信息。

在一个可选实施方式中，第一作答区域在待判页中的关联区域包括相应第一作答区域的周侧区域；

第二作答区域在答案页中的关联区域包括相应第二作答区域的周侧区域。

在一个可选实施方式中，第一作答区域在待判页中的关联区域包括与第一作答区域相邻的试题片段所在的区域；

第二作答区域在答案页中的关联区域包括与第二作答区域相邻的试题片段所在的区域。

在一个可选实施方式中，待判页的作答文本为手写体文本，待判页的试题文本为打印体文本；

相应第一作答区域的周侧区域为相应第一作答区域的周侧打印体文本所在的区域；

在一个可选实施方式中，答案页的作答文本为手写体文本，答案页的试题文本为打印体文本；

相应第二作答区域的周侧区域为相应第二作答区域的周侧打印体文本所在的区域。

在一个可选实施方式中，第一作答区域的关联区域包括相应第一作答区域的局部区域，第二作答区域的关联区域包括相应第二作答区域的局部区域。

在一个可选实施方式中，待判页中的关联区域的中心为第一作答区域的中心，答案页中的关联区域的中心为第二作答区域的中心，待判页的关联区域的图像的尺寸与相应答案页的关联区域的图像的尺寸相同。

在一个可选实施方式中，第一确定模块701在用于确定表征待判页所含有的第一作答区域的第一信息时，具体用于：

利用特征生成模型对第一作答区域在待判页中的关联区域的图像进行编码，以获得第一信息；

在一个可选实施方式中，第二确定模块702，在确定表征与待判页匹配的答案页所含有的多个第二作答区域的多个第二信息时，具体用于：

利用特征生成模型对第二作答区域在答案页中的关联区域的图像进行编码，以获得第二信息。

在一个可选实施方式中，特征生成模型包括：

第三子模型，用于根据第一特征和第二特征得到第三特征。

在一个可选实施方式中，第一子模型与第二子模型的模型结构相同；

其中，第一子模型和第二子模型均含有残差单元或inception单元。

在一个可选实施方式中，第一子模型包括：至少两个第一卷积模块，用于根据局部区域输出至少两个大小不同的特征映射。

在一个可选实施方式中，特征生成模型为基于对抗神经的深度网络模型。

在一个可选实施方式中，第一信息与第二信息均为多维向量形式的信息。

在一个可选实施方式中，第三确定模块703，在确定与第一信息相似度最高的相应第二信息时，具体包括：

确定第一信息与每个第二信息的余弦距离；

确定余弦距离的最小值所对应的第二信息为与第一信息相似度最高的相应第二信息。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序，计算机程序在被至少一个处理器执行时用于使电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。

参考图8，现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如，在一些实施例中，文档处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中，计算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为文档处理方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种文档处理方法，其特征在于，包括：

确定表征待判页所含有的第一作答区域的第一信息；

确定与所述第一信息相似度最高的相应所述第二信息；

根据所述第一信息表征的所述第一作答区域的文本与相应所述第二信息表征的所述第二作答区域的文本输出判题结果；

其中，所述确定表征待判页所含有的第一作答区域的第一信息，包括：

通过特征生成模型的第一子模型提取所述第一作答区域的局部区域的特征；

通过所述特征生成模型的第二子模型提取所述第一作答区域的周侧区域的特征；

通过所述特征生成模型的第三子模型，根据所述第一作答区域的局部区域的特征和所述第一作答区域的周侧区域的特征得到第一信息；

所述确定表征与所述待判页匹配的答案页所含有的多个第二作答区域的多个第二信息，包括：

通过所述第一子模型提取所述第二作答区域的局部区域的特征；

通过所述第二子模型提取所述第二作答区域的周侧区域的特征；

通过所述第三子模型，根据第二作答区域的局部区域的特征和第二作答区域的周侧区域的特征得到第二信息；

所述第一作答区域的周侧区域为所述相应所述第一作答区域的周侧打印体文本所在的区域，所述第二作答区域的周侧区域为所述相应所述第二作答区域的周侧打印体文本所在的区域，所述打印体文本为试题文本。

2.根据权利要求1所述的方法，其特征在于，所述第一信息包括相应所述第一作答区域在所述待判页中的关联区域的图像所含有的特征信息；

每个所述第二信息包括每个相应所述第二作答区域在所述答案页中的关联区域的图像所含有的特征信息。

3.根据权利要求2所述的方法，其特征在于，所述第一作答区域在所述待判页中的关联区域包括相应所述第一作答区域的周侧区域；

所述第二作答区域在所述答案页中的关联区域包括相应所述第二作答区域的周侧区域。

4.根据权利要求3所述的方法，其特征在于，所述第一作答区域在所述待判页中的关联区域包括与所述第一作答区域相邻的试题片段所在的区域；

所述第二作答区域在所述答案页中的关联区域包括与所述第二作答区域相邻的试题片段所在的区域。

5.根据权利要求3所述的方法，其特征在于，所述待判页的作答文本为手写体文本，所述待判页的试题文本为打印体文本；

和/或，

所述答案页的作答文本为手写体文本，所述答案页的试题文本为打印体文本。

6.根据权利要求2~5任一项所述的方法，其特征在于，所述第一作答区域的关联区域包括相应所述第一作答区域的局部区域，所述第二作答区域的关联区域包括相应所述第二作答区域的局部区域。

7.根据权利要求6所述的方法，其特征在于，所述待判页中的关联区域的中心为所述第一作答区域的中心，所述答案页中的关联区域的中心为所述第二作答区域的中心，所述待判页的关联区域的图像的尺寸与相应所述答案页的关联区域的图像的尺寸相同。

8.根据权利要求1所述的方法，其特征在于，所述第一子模型与所述第二子模型的模型结构相同；

其中，所述第一子模型和所述第二子模型均含有残差单元或inception单元。

9.根据权利要求1所述的方法，其特征在于，所述第一子模型包括：

至少两个第一卷积模块，用于根据所述局部区域输出所述至少两个大小不同的特征映射。

10.根据权利要求6所述的方法，其特征在于，所述特征生成模型为基于对抗神经的深度网络模型。

11.根据权利要求6所述的方法，其特征在于，所述第一信息与所述第二信息均为多维向量形式的信息。

12.根据权利要求11所述的方法，其特征在于，所述确定与所述第一信息相似度最高的相应所述第二信息，包括：

确定所述第一信息与每个所述第二信息的余弦距离；

确定余弦距离的最小值所对应的所述第二信息为与所述第一信息相似度最高的相应所述第二信息。

13.一种文档处理装置，其特征在于，包括：

输出模块，用于根据所述第一信息表征的所述第一作答区域的文本与相应所述第二信息表征的所述第二作答区域的文本输出判题结果；

14.一种电子设备，其特征在于，包括：

处理器；以及，

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-12中任一项所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。