CN113723367A

CN113723367A - 一种答案确定方法、判题方法及装置和电子设备

Info

Publication number: CN113723367A
Application number: CN202111252945.9A
Authority: CN
Inventors: 刘军; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2021-11-30
Anticipated expiration: 2041-10-27
Also published as: CN113723367B

Abstract

本公开提供一种答案确定方法、判题方法及装置和电子设备，所述方法用于基于未批改的多个作答文本确定待批改图像的答案，所述方法包括：基于相似度评估模型确定与待批改图像相似的多个未批改的作答图像为对比图像；确定每个对比图像中与待批改图像的每个作答文本匹配的多个作答文本为候选答案文本；确定待批改图像的每个作答文本的答案为匹配的候选答案文本中相同数量最多的一个。本公开实施例可以解决相关技术中需要建立题库，并对题库的题目进行标注的问题，进而提升判题效率、节省题库构建和判题成本。

Description

一种答案确定方法、判题方法及装置和电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种答案确定方法、判题方法及装置和电子设备。

背景技术

在教育领域，利用拍照判题应用程序可以对用户端上传的待批改图像进行智能分析，确定待批改图像的批改结果，为用户带来极大便利。

目前市场上已经出现了大量的拍照判题应用程序，其可以对逻辑可批改的简单数学口算题目进行批改，并取得良好的批改效果。对于逻辑可批改的小学数学口算题目，已经取得比较良好的批改效果，并出现大量支持该功能的应用程序，但这无法解决全部类型题目的批改问题，只能满足用户的部分需求。如对于小学数学题中，可以采用上述方案对一些常规计算题型进行判断，如横式、竖式和脱式，无法处理常见的带有语义信息的题型，如选择、填空、判断题。这些题型在小学数学作业尤其是四五六年级中非常常见，而且数量不少。

以小学数学题为例，小学数学题一般可以分为数值可计算的数学题和数值不可计算的数学题。对于数值可计算的数学题，如横式、竖式，可以直接利用题干直接计算出正确答案，然后与答案进行比较得出判题结果。对于数值不可计算的数学题，如选择题、填空题和应用题等题目，存在如下两种方式进行判断：

第一种方式：基于自然语言处理相关技术进行判断，但是自然语言处理技术还不成熟，且需要大量的人工标注数据，导致人力标注成本比较高。第二种方式：基于题目和对应的答案建立题库，通过搜索比对方式从题库内选择试题图像的答案进行判题。在判题时需要对试题图像进行检测和识别，获得题干文本以及作答文本，然后与试题图像的答案进行相似度比较，获得判题结果。但是建立题库的过程主要靠人工收录题目，标注教辅等方式进行，需要人工标注成本比较高。

发明内容

根据本公开的一方面，提供了一种答案确定方法，用于基于未批改的多个作答文本确定待批改图像的答案，所述方法包括：

基于相似度评估模型确定与所述待批改图像相似的多个未批改的作答图像为对比图像；

确定每个所述对比图像中与所述待批改图像的每个作答文本匹配的多个作答文本为候选答案文本；

确定所述待批改图像的每个作答文本的答案为匹配的所述候选答案文本中相同数量最多的一个。

根据本公开的另一方面，提供了判题方法，包括：

基于本公开示例性实施例的所述方法确定待批改图像含有的每个所述作答文本的答案；

基于所述待批改图像含有的每个作答文本和相应所述答案文本确定判题结果。

根据本公开的另一方面，提供了一种答案确定装置，用于基于未批改的多个作答文本确定待批改图像的答案，所述装置包括：

第一确定模块，用于基于相似度评估模型确定与所述待批改图像相似的多个未批改的作答图像为对比图像；

第二确定模块，用于确定每个所述对比图像中与所述待批改图像的每个作答文本匹配的多个作答文本为候选答案文本；

第三确定模块，用于确定所述待批改图像的每个作答文本的答案为匹配的所述候选答案文本中相同数量最多的一个。

根据本公开的另一方面，提供了一种判题装置，包括：

答案确定模块，用于基于本公开示例性实施例的所述方法确定待批改图像含有的每个所述作答文本的答案；

作答批改模块，用于基于所述待批改图像含有的每个作答文本和相应所述答案文本确定判题结果。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及，

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开示例性实施例所述的方法。

根据本公开的另一方面，提供了一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据本公开示例性实施例所述的方法。

本公开实施例中提供的一个或多个技术方案，可以基于相似度评估模型确定与所述待批改图像相似的多个未批改的作答图像为对比图像，确定每个对比图像中与待批改图像的每个作答文本匹配的多个作答文本为候选答案文本。以此为基础基于实际答题规律和统计学思想，采用多人投票的方式确定待批改图像的每个题干文本的答案为：待批改图像的每个题干文本匹配的所述候选答案文本中相同数量最多的一个，因此，本公开实施例可以在不知道正确答案的情况下，使用较少的模型确定题目答案，从而解决相关技术中需要建立题库，并对题库的题目进行标注的问题，进而提升判题效率、节省题库构建和判题成本。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了本公开示例性实施例的应用场景的示意图；

图2示出了本公开示例性实施例的试题图像的题拉框和文本检测框的关联结果示意图；

图3示出了本公开示例性实施例的答案确定方法的流程图；…

图4示出了本公开示例性实施例的相似度评估模型的结构示意图；

图5示出了本公开示例性实施例的文本检测识别模型的结构示意图；

图6示出了本公开示例性实施例的待批改图像的示意图；

图7示出了本公开示例性实施例的对比图像的示意图；

图8示出了本公开示例性实施例的判题方法的流程图

图9示出了本公开示例性实施例的判题方法的原理图；

图10示出了根据本公开示例性实施例的答案确定装置的功能模块示意性框图；

图11示出了根据本公开示例性实施例的判题装置的功能模块示意性框图；

图12示出了根据本公开示例性实施例的芯片的示意性框图；

图13示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义：

卷积循环神经网络（Convolutional Recurrent Neural Network，缩写为CRNN）主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别。

Objects as Points，又称CenterNet，是一种关键点检测的方法，其采用关键点估计的方法来找到中心点，然后将其回归为物体的其他属性：尺寸大小、3D位置、方向甚至姿态。

Long Short Term 网络，又称LSTM，由Hochreiter & Schmidhuber (1997)提出，并被Alex Graves进行了改良和推广。它是一种循环神经网络的特殊类型，可以学习长期依赖信息。

双向LSTM，又称Bi-directional LSTM，其包括的向前隐藏层（Forward层）和向后隐藏层（Backward层）共同连接输出层，其中包含6个共享权值w1-w6。在Forward层从第1时刻到第t时刻正向计算一遍，得到并保存每个时刻向前隐含层的输出。在Backward层沿着第t时刻到第1时刻反向计算一遍，得到并保存每个时刻向后隐含层的输出，最后在每个时刻结合Forward层和Backward层的相应时刻输出的结果得到最终的输出。

Transcription Layer又称转录层，其使用CTC（Connectionist TemporalClassification，缩写为CTC）的损失函数，把从循环层获取的一系列标签分布转换成最终的标签序列。

Focal Loss损失函数是何凯明在RetinaNet网络中提出的，解决了one-stage目标检测中正负样本极不平衡和难分类样本学习的问题，它是在平衡交叉熵损失函数的基础上，增加一个调节因子降低易分类样本权重，聚焦于困难样本的训练。

smooth L ₁损失函数是光滑之后的L1范数损失函数（也被称为最小绝对值偏差）。

Transformer是《Attention is all you need》中提出的一种著名的经典网络结构，其用全attention的结构代替了LSTM，由编码组件和解码组件两个部分组成，其中解码器包括多个编码器一堆叠。每个编码器主要是由多头自注意力层、跳跃连接、层归一化和前馈神经网络组成，而解码组件也是包括多个解码器，解码器与编码器的不同之处在于其包括两层多头自注意力层。

最长公共子序列(The longest common subsequence，缩写为LCS)用于描述两段文字之间的“相似度”，是一个在一个序列集合中(通常为两个序列)用来查找所有序列中最长子序列的问题。一个数列如果分别是两个或多个已知数列的子序列，且是所有符合此条件序列中最长的，则称为已知序列的最长公共子序列。

编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

本公开示例性实施例提供一种答案确定方法，其可以应用在各种需要确定答案的场景中，例如判题、题库构建过程中，但不仅限于此。答案对应的题目可以来自考试试卷、参考书的练习题、模拟试卷等，但不仅限于此。同时，试卷的题目可以是文科类题目、理工科类题目、技能考试类题目等，此处不作限定。

图1示出了本公开示例性实施例的应用场景的示意图。如图1所示，本公开示例性实施例的应用场景100包括多个至少具有拍照功能的用户设备110、服务器120和数据存储系统130。

如图1所示，上述用户设备110可以通过通信网络与服务器120通信。从通信方式来说，通信网络可以分为无线通信网络，如卫星通信、微波通信等，也可以为有线通信网络，如光纤通信、电力线载波通信；从通信范围来说，通信网络可以为局域通信网络，如Wifi、Zigbee通信网络等，也可以为广域通信网络，如Internet网络。

如图1所示，上述用户设备110包括但不仅限于台式电脑、笔记本电脑、智能手机、照相机等具有拍照功能的终端。服务器120可以基于收集的作答图像确定答案，该答案可以用于进行题库构建或者判题中。题库构建和判题功能可以在服务器120实现，也可以在用户设备110执行。

如图1所示，上述服务器120可以是一个服务器，也可以为多个服务器构成的服务器集群。该服务器120可以执行答案确定功能。数据存储系统130可以是一个统称，包括本地存储以及存储历史数据的数据库，该数据存储系统130可以与服务器120分立，也可以集成在服务器120内。

在相关技术中，用户终端上安装有拍照判题的应用程序，其可以对经过用户作答的试题进行拍照，获得试题图像，将试题图像上传至服务器，服务器收集到试题图像后，将试题图像送入题型判断模型进行判题，并将结果反馈至用户终端。

例如：服务器可以对试题图像200进行版面分析，获得每个题目的区域的题拉框（如图2所示的实线框201），并对试题图像进行文本行检测，获得文本行检测框。文本行检测框可以检测横向文本行，因此，对于一道题目来说，其可能输出多个文本检测框（如图2所示的虚线框202），然后将题拉框与文本行检测框关联。同时根据题目特点，可以分析出每道题目由哪些题拉框和文本检测框组成；接着基于题拉框与关联的文本行检测框，可以从试题图像裁剪题目图像，利用识别模型对题目图像进行识别，获得题目内容，然后基于题目内容进行判题，并将判题结果反馈至用户设备。

本公开示例性实施例提供的答案确定方法用于基于未批改的多个作答文本确定待批改图像的答案文本，可以由服务器或应用于服务器的芯片执行，其基于统计学思维，采用模糊化方式确定待批改图像的答案，从而解决相关技术中需要建立题库，并对题库捏的题目进行标注的问题，进而提升判题效率、节省题库构建和判题成本。

图3示出了本公开示例性实施例的答案确定方法的流程图。如图3所示，本公开示例性实施例的答案确定方法包括：

步骤301：服务器基于相似度评估模型确定与待批改图像相似的多个未批改的作答图像为对比图像。

上述待批改图像和作答图像均为用户设备所采集的经过作答的试题图像，这些经过作答的试题图像均含有题干文本和作答文本。针对一道题目来说，本公开示例性实施例的题干文本可以是除答案外的题目信息，作答文本可以是答题人员针对该道题目的作答文本或解题文本。从书写方式的角度划分，题干文本和作答文本均可以为手写体文本或打印体文本。本公开示例性实施例的题干文本和作答文本的书写方式可以不同，如题干文本可以为打印体文本，作答文本为手写体文本。本公开示例性实施例的题干文本和作答文本的书写方式也可以相同，如题干文本和作答文本均可以为手写体文本或打印体文本。

在一种示例中，服务器可以收集多个用户设备上传的试题图像，这些试题图像未进行批改。针对其中一个用户设备来说，其上传的试题图像可以通过其它用户设备上传的试题图像确定答案。此时，该用户设备所上传的试题图像为待批改图像，而其它用户设备所上传的试题图像可以作为作答图像为待批改图像确定答案提供数据。

在另一种示例中，上述待批改图像可以为某个用户设备所上传的试题图像，上述多个作答图像可以为保存在数据存储系统的历史试题图像。例如：该用户设备可以向服务器发送判题请求消息或答案请求消息等请求消息，服务器响应请求消息，可以基于数据存储系统所保存的历史试题图像进行答案确定，并根据请求消息确定反馈答案，或者判题结果。同时，该用户设备所上传的试题图像也可以作为历史作答图像保存在数据存储系统中，供其它用户设备请求反馈答案或判题使用。

为了从众多作答图像中选择与待批改图像相似的多个作答图像作为对比图像，本公开示例性实施例从图像纹理信息和图像文字信息两个角度评价作答图像与待批改图像的相似度，从而更为全面对比作答图像和对比图像的相似度。基于此，图4示出了本公开示例性实施例的相似度评估模型的结构示意图。如图4所示，本公开示例性实施例的相似度评估模型400包括：第一提取网络401、第二提取网络402和分类网络403。第一提取网络401和第二提取网络402不同。

如图4所示，上述第一提取网络401用于基于待批改图像，获得第一图像特征，基于作答图像，获得第二图像特征。该第一提取网络401所提取的第一图像特征和第二图像特征主要含有图像底层特征，还可以含有一些字符位置和字符内容，图像底层特征包括但不仅限于的图像特征有颜色特征、纹理特征、形状特征、空间关系特征等。

如图4所示，上述第一提取网络401可以包括两个相同的图像特征提取子网络，分别包括第一图像特征提取子网络4011和第二图像特征提取子网络4012。第一图像特征提取子网络4011，用于基于待批改图像的图像获得第一图像特征；第二图像特征提取子网络4012，用于基于待批改图像获得第二图像特征。该图像特征提取子网络可以采用各种可以适用于图像特征提取的网络架构，如ResNet、VGG、ALexNet等。

当作答图像与待批改图像相似时，作答图像所含有的题干文本和待批改图像所含有的题干文本相似度极高甚至相同，因此，两个图像特征提取子网络不仅是架构上的相同，还可以是模型参数上的相同，以保证两个特征提取子网络可以基于同一尺度提取图像特征，以提高相似度评估准确性。

如图4所示，上述第二提取网络402主要负责确定待批改图像的图像特征的依赖性和作答图像的图像特征的依赖性，例如第二提取网络402可以用于基于第一图像特征和第二图像特征确定字符编码特征。此处键值和值项可以为融合键值和值项的注意力特征，其可以作为第二提取网络402的输出。该第二提取网络402可以为基于多头注意力机制的神经网络。

示例性的，如图4所示，第二提取网络402可以包括：自注意力编码器4021以及线性转换层4022。该自注意力编码器4021用于提取第一图像特征和第二图像特征确定图像注意力向量集，该注意力向量集含有键向量和值向量。其中，键向量可以表达第一图像特征所述文本内容和第二图像特征所含有的文本内容的每个词与其他部分的词的相关性。而值向量则表示每个词的注意力特征。值向量和键向量具有相同的维度。基于此，线性转换层4022用于对图像注意力向量集进行线性变换，获得融合键值和值项的注意力特征。

在实际应用中，如图4所示，上述自注意力编码器4021可以为多头注意力编码器（即Transformer模型的编码组件），该自注意力编码器4021可以包括多个基础模块，如2个~6个，数量可以根据实际情况选择。例如：可以利用6个基础模块构成的编码器。

如图4所示，上述分类网络403用于基于字符编码特征确定待批改图像与作答图像的相似度分类结果。示例性的，该分类网络403包括增强层4031和分类层4032。增强层4031用于基于字符编码特征，获得增强特征；分类层4032用于对增强特征进行分类，获得相似度分类结果。

如图4所示，上述增强层4031可以为全连接层，能够通过特征组合的方式对字符编码特征进行特征增强，从而获得增强特征。当然，该组合层还可以为池化层，池化层可以采用最大池化、平均池化等方式从注意力特征提取特征，获得增强特征。

如图4所示，上述分类层4032可以根据分类方式的不同，采用不同的结构实现分类。例如：当分类层4032为全连接层，其节点数为2。全连接层可以将增强特征的元素逐个串联在一起，作为判决的投票值，最终得出相似度分类结果；当分类层4032为sigmoid分类器时，可以基于sigmoid函数确定相似度分类结果。

在实际应用中，上述相似度评估模型实质输出的是待批改图像和作答图像的相似度概率，在确定待批改图像和作答图像的相似度时，可以按照待批改图像和作答图像的相似度概率大小，确定不同作答图像与待批改图像的相似度排序，然后选择待批改图像和作答图像的相似度概率大于预设阈值的多个作答图像作为对比图像。

在进行模型训练时候，可以通过拍照判题软件收集各种经过作答的试题图像，将两两试题图像作为样本图像对输入相似度评估模型中进行模型训练，并采用二分类交叉熵损失函数计算相似度评估模型的损失量，以决定是否采用反向传播算法更新模型参数。其中，输入相似度评估模型的图像对可以为相似图像对或不相似图像对。例如：可以收集大量未批改的样本试题图像，并以其中一个样本试题图像为参考图像。一方面，从其它样本试题图像中选择与参考图像相同的样本作答图像，形成相似图像样本集合，该相似图像样本集合所含有任意一个样本试题图像与参考图像可以构成相似图像对；另一方面从其它样本试题图像中选择与参考图像不同的样本试题图像，构建不相似图像样本集合。在此基础上，该不相似图像样本集合所含有任意一个样本试题图像与参考图像可以构成不相似图像对。这些相似图像样本集合和不相似图像样本集合可以构成数据集一。

由上可见，本公开示例性实施例在不需要自注意力解码器的配合的情况下，通过自注意力编码器对第一图像特征和第二图像特征进行注意力特征提取，并通过线性转换层进行线性转换，进而利用分类模型确定待批改图像与作答图像的相似度分类结果。同时，由于作为对比图像的作答图像的题干文本与待批改图像的题干文本相似度极高甚至相同，因此，当采用相同的图像特征提取子网络可以确保待批改图像与作答图像的相似是指针对题干文本进行的相似度评价。另外，可以将判定为不相似的作答图像一些图像保存，以减少不必要的相似度评估模型使用。

步骤302：服务器确定每个对比图像中与待批改图像的每个第一作答文本匹配的多个第二作答文本为候选答案文本。应理解，可以提前将描述第一作答文本的字符信息及其第一作答文本的位置信息（可以第一字符串和第二作答检测框的坐标提前存入数据存储系统中），也可以采用第二作答文本的确定方式确定。

在实际应用中，可以从步骤301所确定的对比图像中选择多个对比图像（如10个），采用基于自然语言处理技术确定每个对比图像的第二作答文本的相关内容，这些相关内容不仅可以包括第二作答文本的字符信息，还可以包括第二作答文本的位置信息。

示例性的，可以由文本检测识别模型基于对比图像确定第二作答文本的字符信息和第二作答文本的位置信息。此时，本公开示例性实施例的文本检测识别模型打破常规技术中先利用文本行检测模型获得位置信息，再利用识别模型获得字符信息的约束，从而减少答案确定过程的模型使用量。

图5示出了本公开示例性实施例的文本检测识别模型的结构示意图。如图5所示，本公开示例性实施例的文本检测识别模型500包括：第三提取网络501、第一分支网络502和第二分支网络503，第一分支网络502和第二分支网络不同，图4中的第二提取网络402与第三提取网络501不同。

如图5所示，上述第三提取网络501用于基于对比图像的图像特征，获得第三图像特征。此处第三提取网络501所获得的第三图像特征主要提取对比图像的底层图像特征，还可以包含少量作答文本的字符信息和位置信息。底层图像特征的类型可以参考前文，此处不做赘述。

如图5所示，上述第三提取网络501可以与图4所示的第一提取网络401和第二提取网络402不同，第三提取网络501也可以与图4所示的第一提取网络401相同或存在一定的关联。示例性的，图4所示的第一提取网络401含有与第三提取网络501的结构和模型参数相同的网络。例如：当图4所示的第一提取网络401包括两个图像特征提取子网络，可以先训练文本检测识别模型，然后将其中所含有的第三提取网络501以复制为两份，作为图4所示的第一提取网络401所包括的两个图像特征提取子网络，因此，当训练相似度评估模型时，可以将图4所示的第一提取网络401所包括的两个图像特征提取子网络的网络参数固定，训练图4所示的第二提取网络402和分类网络403。

示例性的，如图5所示，上述第三提取网络501可以包括主干网络5011和上采样层5012。以ResNet18主干网络为例，该ResNet18主干网络包括串联的4个残差块，每个残差块包括多个卷积层。4个残差块分别为第一残差块、第二残差块、第三残差块和第四残差块。第一残差块可以将原图的尺寸缩小为1/4，通道数为128，第二残差块可以将原图尺寸缩小为1/8，通道数为128，第三残差块可以将原图尺寸缩小为1/16，通道数为128，第四残差块可以将原图尺寸缩小为1/32，通道数为128。上采样层可以采用插值的方式四个残差块输出的图像特征均放大为原图尺寸的1/4，获得四个通道数为128，尺寸为原图1/4的上采样图像，接着将四个上采样图像串在一起，形成第三图像特征，其尺寸变为原图的1/4，通道数量为512。应理解，此处尺寸是指图像的高度或宽度，其尺寸变化，是指高度或宽度的变化。

例如：当原图的尺寸为2048×2048，第一残差块可以将原图的尺寸缩小为512×512，通道数为128，第二残差块可以将原图尺寸缩小为256×256，第三残差块可以将原图尺寸缩小为128×128，第四残差块可以将原图尺寸缩小为64×64，上采样层可以将原图的尺寸调整为512×512。

可以理解的是，如果将第三提取网络复制为两份，作为第一提取网络所包括的两个图像特征提取子网络，则两个图像特征提取子网络也可以参考第三提取网络的结构。本公开示例性实施例的相似度评估模型主要评估的是题干文本的相似度，而文本检测识别模型则是检测和识别作答文本的字符信息和位置信息。在此基础上，将第三提取网络复制为两份，作为两个图像特征提取子网络时，第三图像特征主要含有底层图像特征，以及少量的作答文本的字符信息和位置信息，使得第一图像特征和第二图像特征主要获得底层图像特征。但是，第二提取网络基于第一图像特征和第二图像特征提取到题干文本关联的字符编码特征，从而克服因为复制第三提取网络并固定模型参数作为两个图像特征提取子网络，所带来的特征提取偏差。

如图5所示，上述第一分支网络502可以用于基于第三图像特征确定第二作答文本的位置信息。第二作答文本的位置信息确定方法多种多样，可以是CenterNet，也可以是RCNN、YOLOO等。例如：当基于CRNN原理确定第二作答文本的位置信息时，例如：第二作答文本的位置信息包括确定第二作答文本的作答检测框的中心点坐标以及作答检测框的宽度和高度。而由于第三提取网络501已经获得第三图像特征，因此，可以利用第三提取网络501代替CenterNet的主干网络和上采样层，将第三提取网络剩余的其它结构作为第一分支网络502的结构。此时，第一分支网络502实质为CenterNet的head部分，与常规CenterNet不同的是，本公开示例性实施例的第一分支网络502包括第一预测层5021和第二预测层5022。第一预测层5021和第二预测层5022不同。

如图5所示，上述第一预测层5021用于基于所述图像特征确定第二作答文本的作答检测框中心点得分图，其通道数量为1，在训练过程中可以focal loss作为损失函数，第二预测层5022用于基于第三图像特征确定第二作答文本的作答检测框宽度和高度，其通道数量为2，在训练过程中可以使用smooth L1作为损失函数。

如图5所示，上述第一预测层5021和第二预测层5022可以均为等宽的卷积层，其在进行卷积时，保证特征尺寸不发生变化。由于第一分支网络502不需要增加第三预测层基于第三图像特征确定第二作答文本的中心点在xy方向的偏移值。这种方式所确定的第二作答文本的位置信息虽然准确度不是特别高，但由于本公开示例性实施例只是识别第二作答文本的位置信息，供识别第二作答文本使用，且第二作答文本分布均匀且长宽比正常、不极端，比较容易识别，因此，第二作答文本的位置信息准确度不是特别高，也不会对第二作答文本的识别准确度产生较大的而影响。

示例性的，如图5所示，当第三提取网络501所获得的第三图像特征的通道数为512，尺寸为原图1/4时，第一分支网络502可以获得三个通道特征图，其尺寸为原图的1/4。该第一分支网络可以通过两个预测层进行等宽卷积，获得原图尺寸1/4的第一通道特征图。

上述第一通道特征图可以表示手写体文本的中心点得分图（每个像素值在0-1之间），第二卷积层可以基于第三图像特征进行等宽卷积，获得原图尺寸1/4的两个通道特征图，分别为第二通道特征图和第三通道特征图，第二通道特征图用于表示手写体检测框的宽度（宽度进行归一化，值也在0-1之间），第三通道特征图用于表示手写体检测框的高度（高度进行归一化，值也在0-1之间）。与CenterNet网络不同之处在于，本公开第三提取网络主要用于确定每个手写体文本的位置，其用于选择手写体文本特征的范围，不需要非常精准，因此，只需要确定手写体检测框的中心点和手写体检测框的高宽，并不需要确定手写体检测框的中心点xy偏移值，使得在训练过程时，第一通道特征图以focal loss作为损失函数，第二通道特征图和第三通道特征图使用smooth L1作为损失函数。

如图5所示，上述第二分支网络503用于基于第三图像特征和第二作答文本的位置信息确定第二作答文本的字符信息。第二作答文本的字符信息可以基于各种自然语言技术确定，如可以基于自注意力机制确定第二作答文本的字符信息，也可以基于CRNN原理确定第二作答文本的字符信息，但不仅限于此。

示例性的，当基于CRNN原理确定第二作答文本的字符信息，如图5所示，本公开示例性实施例的第二分支网络可以包括提取单元5031、循环单元5032以及转录单元5033。

如图5所示，上述提取单元5031用于基于第三图像特征和第二作答文本的位置信息提取映射特征序列。例如：提取单元5031可以包括两个卷积层（如第一卷积层5031a和第二卷积层5031b）和序列化层5031c，第一卷积层5031a和第二卷积层5031b对第三图像特征依次进行特征提取，获得特征映射，然后基于第二作答文本的位置信息从特征映射进行截图操作或者说信息截取，截取到的信息可以进行适当的尺寸变换，并利用序列化层5031c序列化成映射特征序列，该映射特征序列包括多个1×1的图像特征。

示例性的，如图5所示，当第三提取网络所501获得的第三图像特征的通道数为512，尺寸为原图1/4时，第一卷积层5031a和第二卷积层5031b可以均为反卷积层，使得第两个卷积层可以将第三图像特征的尺寸缩小为原图的1/16，通道数为256。然后基于特征映射一的尺寸，对第一分支网络502得到的三个通道特征图进行下采样操作，接着利用三个通道特征图可以从特征映射获得多个手写体特征图像，并使用自适应池化操作，以将每个截取到的多个手写体特征图像缩放到同样大小组成批量（batch，批量大小依据手写体框数量而定）训练数据，利用序列化层5031c将每个手写体特征图像进行序列化，形成映射特征序列。

举例来说，如图5所示，当原图的尺寸为2048×2048，第一分支网络502所获得的三个通道特征图的尺寸为512×512。第二分支网络503中的映射特征为128×128，通道数为256。此时，可以对第一分支网络502所获得的三个通道特征图进行两次下采样操作，然后通过三个通道特征图从映射特征截取多个手写体特征图像，并缩放至同样大小，然后利用序列化层将每个手写体特征图像进行序列化，形成映射特征序列。

如图5所示，上述循环单元5032用于基于映射特征序列确定第二作答文本的字符类别预测结果；该循环单元5032可以为单层、双层甚至多层的双向LSTM构成，用以确定映射特征序列的长期依赖，进而获得第二作答文本的字符类别预测结果。上述转录单元5033用于基于字符类别预测结果确定第二作答文本的字符信息。应理解，可以参考或不参考识别字典，基于字符类别预测结果确定在确定第二作答文本的字符信息。同时，在训练过程中，可以使用CTC损失函数损失进行训练。

在实际训练时，在已经构建前文数据集一的基础上，可以采用标注框对相似图像样本集合的作答文本进行标注，构成数据集二，然后对数据集二的标注框内文字进行转录，获得作答文本的字符信息及识别字典。在此基础上，可以先将数据集二和数据集三输入文本检测识别模型进行模型训练，以focal loss损失函数、smooth-L1损失函数和CTC损失函数为文本检测识别模型的损失损失函数进行综合训练，获得训练后的文本检测识别模型。

当服务器利用文本检测识别模型确定对比图像的第二作答文本的字符信息和位置信息时，服务器可以采用位置对应的方式获得候选答案文本。例如：服务器确定每个所述对比图像中与待批改图像的每个第一作答文本匹配的多个第二作答文本为候选答案文本，可以包括：服务器基于每个第一作答文本的位置信息，确定相应的第二作答文本的位置信息，服务器基于每个第一作答文本的位置信息相应的第二作答文本的位置信息确定候选答案文本。

图6示出了本公开示例性实施例的待批改图像的示意图。如图6所示，本公开示例性实施例的待批改图像600中，第一作答文本的检测框一6011指示第一作答文本的字符信息一6021的位置，第一作答文本的检测框二6012指示第一作答文本的字符信息二6022的位置。图7示出了本公开示例性实施例的对比图像的示意图。如图7所示，本公开示例性实施例的对比图像700中，第二作答文本的检测框一7011指示第二作答文本的字符信息一7021的位置，第二作答文本的检测框二7012指示第二作答文本的字符信息二7022的位置。当采用位置对应的方式确定候选答案文本时，第一作答文本的检测框一6011与第二作答文本的检测框一7011对应，因此，第一作答文本的字符信息一6021的候选答案文本为第二作答文本的字符信息一7021；第一作答文本的检测框二6012与第二作答文本的检测框二7012对应，因此，第一作答文本的字符信息二6022的候选答案文本为第二作答文本的字符信息二7022。

步骤303：服务器确定待批改图像的每个第二作答文本的答案为匹配的所述候选答案文本中相同数量最多的一个。应理解，可以通过最长公共子序列或者编辑距离等多种传统度量方式度量候选答案文本是否相同。

本公开示例性实施例的方法基于用户答题正确性规律，可以发现大部分用户对于题目的作答文本都是正确答案，因此，基于用户答题正确性规律，采用类似多人投票的方式，将候选答案文本中相同数量最多的一个作为待批改图像的题干文本的答案，从而解决相关技术中标注数据人力投入过大的问题，节省题库构建和判题成本。同时，在判题的过程中，可以通过相似度评估模型从大量作答图像中选择与待批改图像相似的多个对比图像进行答案确定，无需提前构建题库，且使用模型数量少，可以有效缩减判题应用程序的链路，提升了效能，从而达到提高判题效率的目的。

本公开示例性实施例还提供一种判题方法。图8示出了本公开示例性实施例的判题方法的流程图。如图8所示，本公开示例性实施例的判题方法包括：

步骤801：服务器基于本公开示例性实施例的答案确定方法确定待批改图像含有的每个作答文本的答案文本。应理解，可以训练文本检测识别模型和相似度评估模型后，然后执行步骤801，训练方法和模型架构可以参考前文此处不做赘述。

步骤802：服务器基于待批改图像含有的每个作答文本和相应答案文本确定判题结果。

图9示出了本公开示例性实施例的判题方法的原理图。如图9所示，本公开示例性实施例的判题方法包括：

第一步，服务器收到一个用户设备安装的判题程序上传的待批改图像901，和其它用户设备安装的判题程序上传的多张作答图像902。多个作答图像902可以提前存储在数据存储系统中，也可以在上传待批改图像901时，在线收集其它用户设备安装的判题程序上传的待批改图像作为作答图像902

第二步，服务器利用相似度评估模型903将待批改图像901和每张作答图像1202进行相似度判断，可以根据输出的结果，从其中找出相似度排列靠前的10张作答图像作为对比图像904。同时将与待批改图像不同的10张作答图像保存，后续可以减少相似度模型的使用。应理解，相似度评估模型903实质输出的是待批改图像和作答图像的相似度概率，在确定待批改图像和作答图像的相似度时，可以按照待批改图像和作答图像的相似度概率大小，确定不同作答图像与待批改图像的相似度排序。

第三步，服务器利用文本检测识别模型905确定待批改图像901和每张对比图像904的手写体信息906，其包括手写体位置信息（手写体检测框坐标）和手写体字符内容信息907（手写体字符串）。

第四步，服务器针对待批改图像的每个手写体作答字符串内容信息，可以按照步骤302和步骤303的相关描述从10张对比图像中筛选出相同答案数量最多的手写体字符内容信息作为答案文本907。

第五步，服务器针对待批改图像的每个手写体作答和对应的答案文本907进行比较，得出判题结果908。

由上可知，本公开实施例中提供的一个或多个技术方案，可以基于相似度评估模型确定与待批改图像相似的多个未批改的作答图像为对比图像，确定每个对比图像中与待批改图像的每个作答文本匹配的多个作答文本为候选答案文本。以此为基础，基于实际答题规律和统计学思想，采用多人投票的方式确定待批改图像的每个题干文本的答案为：待批改图像的每个题干文本匹配的所述候选答案文本中相同数量最多的一个，因此，本公开实施例可以在不知道正确答案的情况下，确定题目答案，从而解决相关技术中需要建立题库，并对题库的题目进行标注的问题，进而提升判题效率、节省题库构建和判题成本。

同时，本公开示例性实施例可以在采集必要的信息的情况下，利用相似度评估模型可以完成对比图像筛选，通过文本检测识别模型可以完成文本检测和文本识别，其所需的模型数量少，这不仅极大降低了人工成本，还缩减了拍照判题应用程序的链路，提升了效能，同时应用程序在正常使用过程中，不仅再为用户提供判题服务，同时也能直接将用户的作答题目及答案汇总记录，作为数据来源，形成闭环。

上述主要从服务器的角度对本公开实施例提供的方案进行了介绍。可以理解的是，服务器为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对服务器进行功能单元的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，本公开示例性实施例提供一种答案确定装置，用于基于未批改的多个作答文本确定待批改图像的答案。该答案确定装置可以为服务器或应用于服务器的芯片。图10示出了根据本公开示例性实施例的答案确定装置的功能模块示意性框图。如图10所示，该答案确定装置1000包括：

第一确定模块1001，用于基于相似度评估模型确定与待批改图像相似的多个未批改的作答图像为对比图像；

第二确定模块1002，用于确定每个对比图像中与待批改图像的每个作答文本匹配的多个作答文本为候选答案文本；

第三确定模块1003，用于确定待批改图像的每个作答文本的答案为匹配的候选答案文本中相同数量最多的一个。

在一种可能的实现方式中，所述相似度评估模型包括：第一提取网络、第二提取网络和分类网络，所述第一提取网络和所述第二提取网络不同；

所述第一提取网络用于基于所述待批改图像，获得第一图像特征，基于所述作答图像，获得第二图像特征；

所述第二提取网络用于基于所述第一图像特征和所述第二图像特征确定字符编码特征；

所述分类网络用于基于所述字符编码特征确定所述待批改图像与所述作答图像的相似度分类结果。

在一种可能的实现方式中，所述第一提取网络包括：第一图像特征提取子网络以及与所述第一图像特征提取子网络相同的第二图像特征提取子网络；

所述第一图像特征提取子网络用于基于所述待批改图像，获得第一图像特征；

所述第二图像特征提取子网络用于基于所述作答图像，获得第二图像特征。

在一种可能的实现方式中，所述字符编码特征为融合键值和值项的注意力特征；和/或，

所述第二提取网络包括：自注意力编码器以及线性转换层；

所述自注意力编码器用于提取所述第一图像特征和所述第二图像特征确定图像注意力向量集，所述注意力向量集含有键向量和值向量；

所述线性转换层用于对所述图像注意力向量集进行线性变换，获得融合键值和值项的注意力特征。

在一种可能的实现方式中，所述分类网络包括：增强层和分类层；

所述增强层用于基于所述键值和值项进行组合，获得增强特征；

所述分类层用于对所述增强特征进行分类，获得相似度分类结果。

在一种可能的实现方式中，所述第二作答文本的字符信息和所述第二作答文本的位置信息均由文本检测识别模型基于所述对比图像确定。

在一种可能的实现方式中，所述文本检测识别模型包括：第三提取网络、第一分支网络和第二分支网络，所述第一分支网络和所述第二分支网络不同；

所述第三提取网络用于基于所述对比图像的图像特征，获得第三图像特征；

所述第一分支网络用于基于所述第三图像特征确定所述第二作答文本的位置信息；

所述第二分支网络用于基于所述第三图像特征和所述第二作答文本的位置信息确定所述第二作答文本的字符信息。

在一种可能的实现方式中，所述第一提取网络含有与所述第三提取网络的结构和模型参数相同的网络；和/或，

所述第二作答文本的位置信息包括确定所述第二作答文本的作答检测框的中心点得分图以及所述作答检测框的宽度和高度。

在一种可能的实现方式中，所述第一分支网络包括：第一预测层和第二预测层，所述第一预测层和所述第二预测层不同；

所述第一预测层用于基于所述图像特征确定所述第二作答文本的作答检测框中心点坐标；

所述第二预测层用于基于所述第三图像特征确定所述第二作答文本的作答检测框宽度和高度。

在一种可能的实现方式中，所述第二分支网络包括：提取单元、循环单元以及转录单元；其中，

所述提取单元用于基于所述第三图像特征和所述第二作答文本的位置信息提取映射特征序列；

所述循环单元用于基于所述映射特征序列确定所述第二作答文本的字符类别预测结果；

所述转录单元用于基于所述字符类别预测结果确定所述第二作答文本的字符信息。

在一种可能的实现方式中，上述第二确定模块1002用于基于每个所述第一作答文本的位置信息，确定相应的所述第二作答文本的位置信息；基于每个所述第一作答文本的位置信息相应的所述第二作答文本的位置信息确定所述候选答案文本。

在采用对应各个功能划分各个功能模块的情况下，本公开示例性实施例提供一种判题装置，该判题装置可以为服务器或应用于服务器的芯片。图11示出了根据本公开示例性实施例的判题装置的功能模块示意性框图。如图11所示，该判题装置1100包括：

答案确定模块1101，用于基于本公开示例性实施例的答案确定方法确定待批改图像含有的每个所述作答文本的答案；

作答批改模块1102，用于基于所述答案批改所述待批改图像含有的每个所述作答文本。

图12示出了根据本公开示例性实施例的芯片的示意性框图。如图12所示，该芯片1200包括一个或两个以上（包括两个）处理器1201和通信接口1202。通信接口1202可以支持服务器执行上述答案确定方法和/或判题方法中的数据收发步骤，处理器1201可以支持服务器执行上述答案确定方法和/或判题方法中的数据处理步骤。

可选的，如图12所示，该芯片1200还包括存储器1203，存储器1203可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器（non-volatile random access memory，NVRAM）。

在一些实施方式中，如图12所示，处理器1201通过调用存储器存储的操作指令（该操作指令可存储在操作系统中），执行相应的操作。处理器1201控制终端设备中任一个的处理操作，处理器还可以称为中央处理单元（central processing unit，CPU）。存储器1203可以包括只读存储器和随机存取存储器，并向处理器1201提供指令和数据。存储器1203的一部分还可以包括NVRAM。例如应用中存储器、通信接口以及存储器通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图12中将各种总线都标为总线系统1204。

上述本公开实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器（digital signal processing，DSP）、ASIC、现成可编程门阵列（field-programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的答案确定方法和/或判题方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的答案确定方法和/或判题方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的答案确定方法和/或判题方法。

参考图13，现将描述可以作为本公开的服务器或客户端的电子设备的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器（ROM）1302中的计算机程序或者从存储单元1308加载到随机访问存储器（RAM）1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元801、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出（I/O）接口1305也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306、输出单元1307、存储单元1308以及通信单元1309。输入单元1306可以是能向电子设备1300输入信息的任何类型的设备，输入单元1306可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1307可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1304可以包括但不限于磁盘、光盘。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理。例如，在一些实施例中，本公开示例性实施例的答案确定方法和/或判题方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。在一些实施例中，计算单元1301可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行答案确定方法和/或判题方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘（digital video disc，DVD）；还可以是半导体介质，例如，固态硬盘（solid state drive，SSD）。

尽管结合具体特征及其实施例对本公开进行了描述，显而易见的，在不脱离本公开的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明，且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包括这些改动和变型在内。

Claims

1.一种答案确定方法，其特征在于，用于基于未批改的多个作答文本确定待批改图像的答案，所述方法包括：

确定每个所述对比图像中与所述待批改图像的每个第一作答文本匹配的多个第二作答文本为候选答案文本；

确定所述待批改图像的每个第二作答文本的答案为匹配的所述候选答案文本中相同数量最多的一个。

2.根据权利要求1所述的方法，其特征在于，所述相似度评估模型包括：第一提取网络、第二提取网络和分类网络，所述第一提取网络和所述第二提取网络不同；

3.根据权利要求2所述的方法，其特征在于，所述第一提取网络包括：第一图像特征提取子网络以及与所述第一图像特征提取子网络相同的第二图像特征提取子网络；

4.根据权利要求2所述的方法，其特征在于，所述字符编码特征为融合键值和值项的注意力特征；和/或，

所述第二提取网络包括：自注意力编码器以及线性转换层；

5.根据权利要求2所述的方法，其特征在于，所述分类网络包括：增强层和分类层；

所述增强层用于基于所述字符编码特征进行组合，获得增强特征；

6.根据权利要求2所述的方法，其特征在于，所述第二作答文本的字符信息和所述第二作答文本的位置信息均由文本检测识别模型基于所述对比图像确定。

7.根据权利要求6所述的方法，其特征在于，所述文本检测识别模型包括：第三提取网络、第一分支网络和第二分支网络，所述第一分支网络和所述第二分支网络不同；

8.根据权利要求7所述的方法，其特征在于，所述第一提取网络含有与所述第三提取网络的结构和模型参数相同的网络；和/或，

9.根据权利要求7所述的方法，其特征在于，所述第一分支网络包括：第一预测层和第二预测层，所述第一预测层和所述第二预测层不同；

10.根据权利要求7所述的方法，其特征在于，所述第二分支网络包括：提取单元、循环单元以及转录单元；其中，

所述转录单元，用于基于所述字符类别预测结果确定所述第二作答文本的字符信息。

11.根据权利要求1~10任一项所述的方法，其特征在于，所述确定每个所述对比图像中与所述待批改图像的每个第一作答文本匹配的多个第二作答文本为候选答案文本，包括：

基于每个所述第一作答文本的位置信息，确定相应的所述第二作答文本的位置信息；

基于每个所述第一作答文本的位置信息相应的所述第二作答文本的位置信息确定所述候选答案文本。

12.一种判题方法，其特征在于，包括：

基于权利要求1~11任一项所述方法确定待批改图像含有的每个所述作答文本的答案文本；

13.一种答案确定装置，其特征在于，用于基于未批改的多个作答文本确定待批改图像的答案，所述装置包括：

14.一种判题装置，其特征在于，包括：

答案确定模块，用于基于权利要求1~11任一项所述方法确定待批改图像含有的每个所述作答文本的答案文本；

15.一种电子设备，其特征在于，包括：

处理器；以及，

存储程序的存储器；

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1~12任一项所述的方法。

16.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据权利要求1~12任一项所述的方法。