CN113705736A

CN113705736A - 一种答案确定方法、判题方法及装置和电子设备

Info

Publication number: CN113705736A
Application number: CN202111252961.8A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2021-11-26

Abstract

本公开提供一种答案确定方法、判题方法及装置和电子设备，所述方法包括：确定与待批改图像匹配的多个作答图像作为对比图像，确定每个对比图像中与所述待批改图像的每个题干文本匹配的作答文本为候选答案文本；确定待批改图像的每个题干文本的答案为待批改图像的每个题干文本匹配的候选答案文本中相同数量最多的一个。待批改图像与每个对比图像具有第一匹配关系和第二匹配关系。本公开方法可以解决相关技术需要建立题库，并对题库的题目进行标注的问题，进而提升判题效率、节省题库构建和判题成本。

Description

一种答案确定方法、判题方法及装置和电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种答案确定方法、判题方法及装置和电子设备。

背景技术

在教育领域，利用拍照判题应用程序可以对用户端上传的待批改图像进行智能分析，确定待批改图像的批改结果，为用户带来极大便利。

目前市场上已经出现了大量的拍照判题应用程序，其可以对逻辑可批改的简单数学口算题目进行批改，并取得良好的批改效果，出现大量支持该功能的应用程序，但这无法解决全部类型题目的批改问题，只能满足用户的部分需求。如对于小学数学题中，可以采用上述方案对一些常规计算题型进行判断，如横式、竖式和脱式，无法处理常见的带有语义信息的题型，如选择、填空、判断题。这些题型在小学数学作业尤其是四五六年级中非常常见，而且数量不少。

以小学数学题为例，小学数学题一般可以分为数值可计算的数学题和数值不可计算的数学题。对于数值可计算的数学题，如横式、竖式，可以直接利用题干直接计算出正确答案，然后与答案进行比较得出判题结果。对于数值不可计算的数学题，如选择题、填空题和应用题等题目，存在如下两种方式进行判断：

第一种方式：基于自然语言处理相关技术进行判断，但是自然语言处理技术还不成熟，且需要大量的人工标注数据，导致人力标注成本比较高。第二种方式：基于题目和对应的答案建立题库，通过搜索比对方式从题库内选择试题图像的答案进行判题。在判题时需要对试题图像进行检测和识别，获得题干文本以及作答文本，然后与试题图像的答案进行相似度比较，获得判题结果。但是建立题库的过程主要靠人工收录题目，标注教辅等方式进行，需要人工标注成本比较高。

发明内容

根据本公开的一方面，提供了一种答案确定方法，用于基于未批改的多个作答文本确定待批改图像的答案文本，所述方法包括：

确定与待批改图像匹配的多个作答图像作为对比图像，所述待批改图像与每个所述对比图像具有第一匹配关系和第二匹配关系，所述第一匹配关系至少包括所述待批改图像与每个所述对比图像的知识水平、题目数量和检测框数量匹配，所述第二匹配关系为所述待批改图像的题干文本与每个所述对比图像的题干文本匹配；

确定每个所述对比图像中与所述待批改图像的每个题干文本匹配的作答文本为候选答案文本；

确定所述待批改图像的每个题干文本的答案为所述待批改图像的每个题干文本匹配的所述候选答案文本中相同数量最多的一个。

根据本公开的另一方面，提供了一种判题装置，包括：

答案确定模块，用于基于本公开示例性实施例的所述方法确定待批改图像含有的每个所述作答文本的答案文本；

作答批改模块，用于基于所述待批改图像含有的每个作答文本和相应所述答案文本确定判题结果。

根据本公开的另一方面，提供了一种答案确定装置，用于基于未批改的多个作答文本确定待批改图像的答案文本，所述装置包括：

第一确定模块，用于确定与待批改图像匹配的多个作答图像作为对比图像，所述待批改图像与每个所述对比图像具有第一匹配关系和第二匹配关系，所述第一匹配关系至少包括所述待批改图像与每个所述对比图像的知识水平、题目数量和检测框数量匹配，所述第二匹配关系为所述待批改图像的题干文本与每个所述对比图像的题干文本匹配；

第二确定模块，用于确定每个所述对比图像中与所述待批改图像的每个题干文本匹配的作答文本为候选答案文本；

第三确定模块，用于确定所述待批改图像的每个题干文本的答案为所述待批改图像的每个题干文本匹配的所述候选答案文本中相同数量最多的一个。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及，

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开示例性实施例所述的方法。

根据本公开的另一方面，提供了一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据本公开示例性实施例所述的方法。

本公开实施例中提供的一个或多个技术方案，可以基于第一匹配关系和第二匹配关系确定与待批改图像匹配的多个作答图像作为对比图像。由于第一匹配关系包括待批改图像与每个对比图像的知识水平、题目数量和检测框数量匹配，第二匹配关系为待批改图像的题干文本与每个对比图像的题干文本匹配，因此，可以确定这些对比图像与待批改图像的题目相同。在此基础上，可以确定每个所述对比图像中与所述待批改图像的每个题干文本匹配的作答文本为候选答案文本，然后基于实际答题规律和统计学思想，采用多人投票的方式确定待批改图像的每个题干文本的答案为：待批改图像的每个题干文本匹配的所述候选答案文本中相同数量最多的一个，因此，本公开实施例可以在不知道正确答案的情况下，确定题目答案，从而解决相关技术中需要建立题库，并对题库的题目进行标注的问题，进而提升判题效率、节省题库构建和判题成本。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了本公开示例性实施例的应用场景的示意图；

图2示出了本公开示例性实施例的试题图像的题拉框和文本检测框的关联结果示意图；

图3示出了本公开示例性实施例的答案确定方法的流程图；

图4示出了本公开示例性实施例的待批改图像的示意图；

图5示出了本公开示例性实施例的作答图像的示意图；

图6示出了本公开示例性实施例的判题方法的流程示意图；

图7示出了本公开示例性实施例的判题方法的原理图；

图8示出了根据本公开示例性实施例的答案确定装置的示意性框图；..

图9示出了根据本公开示例性实施例的判题装置的功能模块示意性框图；

图10示出了根据本公开示例性实施例的芯片的示意性框图；

图11示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义：

卷积循环神经网络（Convolutional Recurrent Neural Network，缩写为CRNN）主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别。

Objects as Points，又称CenterNet，是一种关键点检测的方法，其采用关键点估计的方法来找到中心点，然后将其回归为物体的其他属性：尺寸大小、3D位置、方向甚至姿态。

最长公共子序列(The longest common subsequence，缩写为LCS)用于描述两段文字之间的“相似度”，是一个在一个序列集合中(通常为两个序列)用来查找所有序列中最长子序列的问题。一个数列如果分别是两个或多个已知数列的子序列，且是所有符合此条件序列中最长的，则称为已知序列的最长公共子序列。

编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

本公开示例性实施例提供一种答案确定方法，其可以应用在各种需要确定答案的场景中，例如判题、题库构建过程中，但不仅限于此。答案对应的题目可以来自考试试卷、参考书的练习题、模拟试卷等，但不仅限于此。同时，试卷的题目可以是文科类题目、理工科类题目、技能考试类题目等，此处不作限定。

图1示出了本公开示例性实施例的应用场景的示意图。如图1所示，本公开示例性实施例的应用场景100包括多个至少具有拍照功能的用户设备110、服务器120和数据存储系统130。

如图1所示，上述用户设备110可以通过通信网络与服务器120通信。从通信方式来说，通信网络可以分为无线通信网络，如卫星通信、微波通信等，也可以为有线通信网络，如光纤通信、电力线载波通信；从通信范围来说，通信网络可以为局域通信网络，如Wifi、Zigbee通信网络等，也可以为广域通信网络，如Internet网络。

如图1所示，上述用户设备110包括但不仅限于台式电脑、笔记本电脑、智能手机、照相机等具有拍照功能的终端。服务器120可以基于收集的作答图像确定答案，该答案可以用于进行题库构建或者判题中。题库构建和判题功能可以在服务器120实现，也可以在用户设备110执行。

如图1所示，上述服务器120可以是一个服务器，也可以为多个服务器构成的服务器集群。该服务器120可以执行答案确定功能。数据存储系统130可以是一个统称，包括本地存储以及存储历史数据的数据库，该数据存储系统130可以与服务器120分立，也可以集成在服务器120内。

在相关技术中，用户终端上安装有拍照判题的应用程序，其可以对经过用户作答的试题进行拍照，获得试题图像，将试题图像上传至服务器，服务器收集到试题图像后，将试题图像送入题型判断模型进行判题，并将结果反馈至用户终端。

例如：服务器可以对图2所示的试题图像200进行版面分析，获得每个题目的区域的题拉框（如图2所示的实线框201），并对试题图像进行文本行检测，获得文本行检测框。文本行检测框可以检测横向文本行，因此，对于一道题目来说，其可能输出多个文本检测框（如图2所示的虚线框202），然后将题拉框与文本行检测框关联。同时根据题目特点，可以分析出每道题目由哪些题拉框和文本检测框组成；接着基于题拉框与关联的文本行检测框，可以从试题图像裁剪题目图像，利用识别模型对题目图像进行识别，获得题目内容，然后基于题目内容进行判题，并将判题结果反馈至用户设备。

本公开示例性实施例提供的答案确定方法用于基于未批改的多个作答文本确定待批改图像的答案文本，可以由服务器或应用于服务器的芯片执行，其基于统计学思维，采用模糊化方式确定待批改图像的答案，从而解决相关技术中需要建立题库，并对题库捏的题目进行标注的问题，进而提升判题效率、节省题库构建和判题成本。

图3示出了本公开示例性实施例的答案确定方法的流程图。如图3所示，本公开示例性实施例的答案确定方法包括：

步骤301：服务器确定与待批改图像匹配的多个作答图像作为对比图像，待批改图像与每个对比图像具有第一匹配关系和第二匹配关系，第一匹配关系至少包括待批改图像与每个对比图像的知识水平、题目数量和检测框数量匹配，第二匹配关系为待批改图像的题干文本与每个对比图像的题干文本匹配。应理解，待批改图像的知识水平、题目数量和检测框数量，可以是提前保存在数据存储系统，也可以是依据下述作答图像的知识水平、题目数量和检测框数量确定。

上述待批改图像和作答图像均为用户设备所采集的经过作答的试题图像，这些经过作答的试题图像均含有题干文本和作答文本。针对一道题目来说，本公开示例性实施例的题干文本可以是除答案外的题目信息，作答文本可以是答题人员针对该道题目的作答文本或解题文本。从书写方式的角度划分，题干文本和作答文本均可以为手写体文本或打印体文本。本公开示例性实施例的题干文本和作答文本的书写方式可以不同，如题干文本可以为打印体文本，作答文本为手写体文本。本公开示例性实施例的题干文本和作答文本的书写方式也可以相同，如题干文本和作答文本均可以为手写体文本或打印体文本。

在一种示例中，服务器可以收集多个用户设备上传的试题图像，这些试题图像未进行批改。针对其中一个用户设备来说，其上传的试题图像可以通过其它用户设备上传的试题图像确定答案。此时，该用户设备所上传的试题图像为待批改图像，而其它用户设备所上传的试题图像可以作为作答图像为待批改图像确定答案提供数据。

在另一种示例中，上述待批改图像可以为某个用户设备所上传的试题图像，上述多个作答图像可以为保存在数据存储系统的历史试题图像。例如：该用户设备可以向服务器发送判题请求消息或答案请求消息等请求消息，服务器响应请求消息，可以基于数据存储系统所保存的历史试题图像进行答案确定，并根据请求消息确定反馈答案，或者判题结果。同时，该用户设备所上传的试题图像也可以作为历史作答图像保存在数据存储系统中，供其它用户设备请求反馈答案或判题使用。

当待批改图像与每个对比图像的知识水平匹配时，可以认为待批改图像与对比图像的题目难易程度相当。当待批改图像与对比图像的题目数量和检测框数量匹配时，可以认为待批改图像与对比图像的内容布局匹配。基于此，当待批改图像与每个对比图像满足第一匹配关系时，这些对比图像有可能与待批改图像的试卷相同。同时，当待批改图像的题干文本与每个对比图像的题干文本匹配时，说明待批改图像与对比图像的题干内容相似度极高。由此可见，本公开示例性实施例可以确定这些对比图像与待批改图像的题目相同。

在实际应用中，上述服务器确定与待批改图像匹配的多个作答图像作为对比图像可以包括：服务器确定与待批改图像具有第一匹配关系的多个作答图像作为参考图像，然后确定待批改图像具有第二匹配关系的多个参考图像作为对比图像。基于此，本公开示例性实施例可以在不考虑图像字符内容的情况下，从多个作答图像中可以选择出与待批改图像具有第一匹配关系的多个作答图像作为参考图像，这个选择属于初级选择过程。在此基础上，在考虑图像字符内容的情况下，从多个参考图像中选择与待批改图像具有第二匹配关系的多个参考图像作为对比图像，这个选择属于高级选择过程。因此，本公开示例性实施例可以通过初级选择过程和高级选择过程两级选择，确定出与待批改图像匹配的多个作答图像作为对比图像。下面从初级选择过程和高级选择过程两方面分别描述从多个作答图像筛选对比图像的过程。

一、初级筛选过程

上述知识水平的评价标准可以依据作答者的年级信息、作答者的最高学历水平或者历史学习记录确定。对于在校学生用户来说，不同地域采用的教材有可能不同，使得待批改图像与对比图像的作答者虽然知识水平相同，但是所学习的教材不同，导致待批改图像和对比图像的题目形式和侧重点有所差异。基于此，上述第一匹配关系还包括：待批改图像与每个对比图像的身份标识归属同一地域。

上述身份标识可以是用户设备的身份认真信息，其可以以电子标签的形式与作答图像一起被服务器接收。如果用户设备安装有应用客户端，在利用该应用客户端上传作答图像前，需要在应用客户端注册账号，因此，当用户设备利用应用客户端上传作答图像时，可以基于通过应用客户端上传作答图像的账号的基注册信本息，确定作答图像的身份标识归属地域。应理解，待批改图像的身份标识归属地域可以保存在数据存储系统，也可以依据作答图像的身份标识归属地域确定方法确定。

上述地域可以是按照国家制定的标准地域划分方式进行划分，也可以以学校为地域单位进行划分，具体根据实际情况决定。例如：甲学校的学生在校所学习的数学教材为人民教育出版社的数学教材，乙学校的学生在校所学习的数学教材为北京师范大学出版社的数学教材，那么甲学校和乙学校在考试或做测试题时，其试题题目会存在一定的区别。

基于上述原因，如果忽略在校学生用户所采用的教材等差异，会使得与待批改图像进行比较的作答图像数量比较多，从而增加参考图像数量。而由于高级选择过程实质存在字符识别过程，且字符识别过程使用模型计算量比较大，因此，当第一匹配关系还包括待批改图像与每个对比图像的身份标识归属同一地域时，可以克服忽略同等知识水平的在校学生用户所采用的教材等差异，所导致的高级选择过程计算量比较大的问题，有利于节省资源。

在一种示例中，对于未毕业的在校学生用户，知识水平的评价标准可以为该在校学生用户在校的年级信息。例如：当作答图像和待批改图像的题目作答者所在年级为四年级，则可以确定作答图像和待批改图像的知识水平为四年级知识水平。

在另一种示例中，对于已经毕业的在职用户，知识水平的评价标准可以为在职员工的最高学历。例如：当作答图像和待批改图像的作答者均为在职员工，其最高学历均为大学本科学历，则可以确定知识水平为大学本科知识水平。

在又一种示例中，在用户设备中安装学习客户端，通过学习客户端收集使用该学习客户端的用户账号以往的历史学习记录，包括但不仅限于学习内容、考试内容等，通过大数据分析的方式确定使用该学习客户端的用户账号上传的作答图像的知识水平。

举例来说，上述每个用户设备使用学习客户端进行学习时，需要注册账号，并填写注册基本信息，这些注册基本信息包括但不仅限于用户姓名、年级、就学地域（省、市等）等。服务器还可以采集该账号的历史学习记录，与注册基本信息一同保存在数据存储系统中。

当服务器接收到大量用户设备通过学习客户端上传的作答图像，且其中一个用户设备请求反馈判题结果或答案，发送请求的用户设备所上传的作答图像可以作为待批改图像。此时，可以基于该待批改图像和其它作答图像的注册基本信息或者历史学习记录，确定待批改图像和其它作答图像的身份标识和学习水平，进而从除待批改图像外的其它多个作答图像中选择参考图像。

示例性的，本公开示例性实施例可以从版面分析和文本行检测两个角度衡量待批改图像和作答图像的布局，从而保证所筛选出的对比图像满足要求。可以先进行版面分析，然后再进行文本行检测。

当待批改图像与每个所述对比图像的题目数量匹配，待批改图像可以与每个对比图像的题目数量相同。每个作答图像的题目数量可以采用版面检测模型确定，待批改图像的题目数量可以提前保存，也可以采用版面检测模型确定。

当待批改图像与每个对比图像的检测框数量匹配，待批改图像与每个对比图像的检测框数量的差值小于或等于第一预设阈值。此处的差值为绝对值。换句话说，待批改图像的检测框数量可以比对比图像的检测框数量大，也可以比对比图像的检测框数量小。当待批改图像的检测框数量比对比图像的检测框数量大，待批改图像的检测框数量与对比图像的检测框数量之差小于或等于第一预设阈值；当待批改图像的检测框数量比对比图像的检测框数量小，对比图像的检测框数量与待批改图像的检测框数量之差小于或等于第一预设阈值。

上述第一预设阈值可以根据实际情况选择，如第一预设阈值为3~5个。通过第一预设阈值可以调节与待批改图像匹配的对比图像的数量，使得二者的检测框数量差值在可控范围内，从而避免因为模型训练精度不高所导致的检测误差，继而提高本公开示例性实施例的方法的误差容忍度。应理解，待批改图像的检测框数量可以是提前预存在数据存储系统中，也可以依据作答图像的题干检测框确定方法确定。

上述检测框数量可以包括题干检测框数量、作答检测框数量和每个题干检测框关联的作答检测框的数量中的一种。每个作答图像的题干检测框数量、作答检测框数量以及每个题干检测框关联的作答检测框的数量均由文本行检测模型确定。应理解，待批改图像的题干检测框数量、作答检测框数量以及每个题干检测框关联的作答检测框的数量也可以由检测模型确定，或者提前预存在数据存储系统中。

本公开示例性实施例的版面检测模型和文本行检测模型，均可以采用目标检测模型进行识别，目标检测模型的架构可以包括但不仅限于CenterNet、YOLOO等，但不仅限于此。以CenterNet架构的目标检测模型为例，该目标检测模型包括主干网络、上采样网络和预测网络。

上述主干网络可以为Resnet、DLA-34和Hourglass-104中的一个，但不仅限于此。在实际工作中可以选择Resnet-18作为主干网络进行图像特征提取。上采样网络用于对图像特征进行上采样操作，获得高分辨率特征图。其中，上采样操作可以通过反卷积、双线性插值、上池化操作等。上述预测网络可以分为三个分支，第一分支用于预测热力图，该热力图可以表示每个热力点是否有目标物体存在以及该目标物体的种类，其通道数与目标物体的类别数相同，可以定义每个通道的热力图为相应类别的中心点得分图（每个像素点的值在0到1之间，表示这个点是某类物体中心的概率），N个通道的热力图，即为N种类别的中心点得分图。第二分支用于预测检测框的宽高，通道数为2个，第三分支用于预测检测框的中心点在xy偏移量，通道数为2个。在此基础上，通过设定阈值在中心点得分图找到目标物体的可能中心点，然后根据中心点对应的xy偏移量对中心点进行校正，最后结合检测框的宽高结合预测到的宽高可以得到矩形的检测框的尺寸、坐标和类型，继而获得检测框的数量。本公开所涉及的版面检测模型和文本行检测模型可以以目标检测模型的结构为基础进行模型训练。

在进行模型训练前，可以通过拍照判题应用程序或者学习客户端收集大量样本作答图像，这些样本作答图像是指用户经过作答的试题图像，然后根据版面检测模型的要求利用标注框对样本作答图像进行标注，形成数据集一，根据文本行检测模型的要求利用标注框对样本作答图像进行标注，形成数据集二。

对于版面检测模型来说，数据集一包括样本作答图像和标注样本作答图像中每道题目的题干文本和作答文本所在的区域的标注框，将这种标注框称为题拉框。例如：当基于数据集一训练版面检测模型。向版面检测模型输入待批改图像或作答图像，可以获得待批改图像或作答图像的题拉框数量。

对于文本行检测模型来说，数据集二包括样本作答图像和检测标记信息。按照是否标记题干区域，检测标记信息包括题干标注框和作答标注框。其中，题干标注框用来标注每道题目的题干文本所在位置，作答标注框用来标注作答文本所在位置。同时，为了降低模型训练难度，提高文本行检测模型的检测准确度，样本作答图像所含有的所述作答标注框内的字符为标记作答文本的字符，这些字符可以用一些特殊符号表示，如￥、$、%、@等，但不限于此。例如：可以将样本作答图像所含有的作答文本用这些特殊符号替换。例如：当基于数据集二训练文本行检测模型后，将作答图像或者待批改图像输入文本行检测模型，可以获得题干检测框、作答检测框以及每个题干检测框与作答检测框的关系。在此基础上，可以确定题干检测框数量、作答检测框数量，并基于题干检测框与作答检测框的关联关系确定题干检测框关联的作答检测框的数量。

由上可见，本公开示例性实施例的方法通过对数据集进行适当的改变，使得文本行检测模型可以获得题干检测框和作答检测框以及二者的关联关系，进而得到题干检测框的数量、作答检测框数量和定题干检测框关联的作答检测框的数量。这种做法不需一起训练版面检测模型和文本行检测模型，从而降低训练难度，提高文本航检测模型的精度，解决相对于题干文本和作答文本的字符串长度，题目文本长度比较大所导致的版面检测模型和文本行检测模型一起训练难度大的问题。

在实际应用中，上述文本行检测模型可以预测题干检测框的中心点得分图、中心点在x方向和y方向的偏移值，以及题干检测框的宽和高（对应题干检测框的中心点到题干检测框的左边框和上边框的距离）等预测结果，这些预测结果可以确定题干检测框的尺寸、坐标，进而获得题干检测框数量。上述文本行检测模型还可以预测作答检测框的中心点得分图、中心点在x方向和y方向的偏移值，以及作答检测框的宽和高（对应作答检测框的中心点到作答检测框的左边框和上边框的距离）。这些预测结果可以确定作答检测框的尺寸、坐标，进而获得作答检测框数量。

当确定作答图像的题干检测框数量、作答检测框数量和每个所述题干检测框关联的所述作答检测框数量后，可以以题干检测框为单位，对照待批改图像与每个作答图像的题干检测框数量，又可以以作答检测框为单位，对照待批改图像与每个作答图像的作答检测框数量，还可以以每个题干检测框关联的作答检测框数量为单位，对照待批改图像和每个作答图像的作答检测框数量。

在实际应用中，服务器可以先确定待批改图像与每个作答图像的题干检测框数量差值是否小于或等于第一预设阈值，如果是，说明待批改图像与每个作答图像的题干检测框数量匹配，否则确定待批改图像与每个作答图像的作答检测框数量差值是否小于或等于第一预设阈值，如果是，说明待批改图像与每个作答图像的作答检测框数量匹配，否则，确定待批改图像与每个作答图像的每个题干检测框关联的作答检测框的数量是否小于或等于第一预设阈值，从而从多个作答图像中确定与待批改图像的检测框匹配的对比图像。

举例来说，针对不同作答人对同一试题作答，所获得的多个作答图像，其题目布局相同，因此，如果不同作答人对其进行作答，并通过作答人所持有的用户设备采集作答图像，上传至服务器，那么这些作答图像所含有的题目数量和题干检测框数量理论上相同。基于此，若需要筛选出10个对比图像，可以先以题干检测框为单位，对照待批改图像与每个作答图像的题干检测框数量。如果无法从大量作答图像筛选出10个对比图像，或者无法筛选出对比图像，则可以基于相同试题的作答检测框数量理论相同，以作答检测框数量为单位，对照待批改图像与作答图像的作答检测框数量。如果无法从大量作答图像筛选出10个对比图像，或者无法筛选出对比图像，那么可以基于相同题目内所含有的作答检测框相同这一原理，对照待批改图像与作答图像的每个题干检测框关联的作答检测框数量，如果仍然无法从大量作答图像筛选出10个对比图像或者无法筛选出对比图像，则可以重新获取作答图像。

下面以题干检测框为例描述待批改图像和作答图像的题拉框数量和检测框数量匹配过程。其中，待批改图像的题目数量为5道，题干检测框数量为10个。本公开示例性实施例选择知识水平和身份标识归属地域与待批改图像匹配的20张作答图像进行版面分析和文本行检测，可以获得题目数量和题干数量示例，表1所示出的20张作答图像的检测结果。

表1 20张作答图像的检测结果

编号	题目数量	题干检测框数量	编号	题目数量	题干检测框数量
						1#	5	12	11#	5	11
2#	8	20	12#	2	8
						3#	4	9	13#	5	10
4#	5	9	14#	5	9
						5#	7	10	15#	8	15
6#	5	15	16#	5	16
						7#	3	8	17#	11	25
8#	10	7	18#	5	13
						9#	5	8	19#	9	23
10#	5	16	20#	3	8

表1示出了1#~20#的作答图像，其中1#作答图像、4#作答图像、6#作答图像、9#作答图像、10#作答图像、11#作答图像、13#作答图像、14#作答图像、16#作答图像和18#作答图像的题目数量为5，与待批改图像的题目数量相同。在此基础上，将1#作答图像、4#作答图像、6#作答图像、9#作答图像、10#作答图像、11#作答图像、13#作答图像、14#作答图像、16#作答图像和18#作答图像的题干检测框数量与待批改图像的题干检测框数量进行求差，并取绝对值，按照差值绝对值从小到大的顺序排列这些作答图像，得到的结果为：13#作答图像＜4#作答图像=11#作答图像=14#作答图像＜1#作答图像=9#作答图像＜18#作答图像＜6#作答图像＜10#作答图像＜16#作答图像。

假设第一预设阈值为3，则可以从1#作答图像、4#作答图像、6#作答图像、9#作答图像、10#作答图像、11#作答图像、13#作答图像、14#作答图像、16#作答图像和18#作答图像选择13#作答图像、4#作答图像、11#作答图像、14#作答图像、1#作答图像和9#作答图像这6张作答图像，与待批改图像的题干检测框数量匹配，将这6张作答图像作为参考图像作为后续题干文本的识别基础。如果需要筛选出8个与待批改图像的题干检测框数量匹配的作答图像，此时，需要考虑基于作答检测框数量筛选与待批改图像的题干检测框数量匹配的作答图像。

二、高级选择过程

鉴于第二匹配关系为待批改图像的题干文本与每个对比图像的题干文本匹配，在确定与待批改图像具有第二匹配关系的多个参考图像作为对比图像时，可以采用各种题干识别模型对多个参考图像的题干文本进行识别，题干识别模型的架构包括但不仅限于CRNN、自注意力模型架构等，具体架构可以参考相关技术，此处不作赘述。应理解，待批改图像的题干文本也可以通过该题干识别模型识别，或者预存在数据存储系统中。

当采用题干识别模型识别多个参考图像的题干文本后，可以采用编辑距离、最长公共子序列等多种传统度量方式度量待批改图像的每个题干文本与每个参考图像相应的题干文本的相似度，然后从其中选择相似度大于或等于第二预设阈值。第二预设阈值可以根据实际情况设定。应理解，待批改图像与参考图像的题干文本存在位置上的相应性，因此，待批改图像的每个题干文本与每个参考图像相应的题干文本是指位置的相应性。

示例性的，当有20张参考图像与待批改图像进行相似度比较，可以按照相似度大小对20张参考图像进行排序，可以从其中选择与待批改图像的相似度大于或等于第二预设阈值的多张参考图像作为对比图像，使得待批改图像的每个题干文本与每个对比图像的题干文本的相似度大于或等于第二预设阈值。例如：以最长公共子序列为度量标准，度量待批改图像的每个题干文本与参考图像的题干文本的相似度。假设待批改图像的某个题干文本的字符串长度为Smax，可以将第二预设阈值限定为0.75Smax。从20张参考图像中选择满足第二预设阈值限定为0.75Smax的多个参考图像作为对比图像。至于对比图像的数量，可以通过调整第二预设阈值的大小控制，同时由于第二预设阈值越大，对比图像与待批改图像的相似度也就越高，因此，最终确定的答案文本的准确度也就越高。

步骤302：服务器确定每个对比图像中与待批改图像的每个题干文本匹配的作答文本为候选答案文本。在确定与对比图像中与待批改图像的题干文本匹配的作答文本前，可以采用前述题干识别模型架构训练作答识别模型，用以识别对比图像的作答文本。也就是说，本公开示例性实施例通过题干识别模型可以识别参考图像的题干文本，通过作答识别模型可以识别作为对比图像的作答文本。

在训练题干识别模型和作答识别模型时，所选择的数据集可以基于数据集二生成，例如：对于数据集二来说，可以基于题干标注框对样本作答图像进行截图，获得样本作答图像位于题干标注框内的第一图像，对该第一图像进行转录，从而识别第一图像内的题干文本。可以基于作答标注框对样本图像进行截图，获得样本作答图像位于作答标注框内的第二图像，对第二图像进行转录，从而识别第二图像的作答文本。转录的方式可以采用相关自然语言技术实现，或者相关字符识别模型识别。

当训练题干识别模型和作答识别模型后，利用题干识别模型识别作答图像位于题干检测框内的题干文本，利用作答识别模型识别作答图像位于作答检测框内的作答文本。同时由于利用文本行识别模型确定每个题干检测框与作答检测框的关联关系，因此，服务器基于作答图像和待批改图像的每个题干检测框与作答检测框的关联关系，可以确定作答图像和待批改图像中每个题干文本与作答文本的关系，使得本公开示例性实施例的方法可以适用于各种题目的答案确定中，如简单的横式、竖式、脱式等这种题干文本和作答文本界线分明的题目，又例如：判断题、选择题、应用题等有可能存在题干文本和作答文本存在包围关系的题目。基于此，本公开示例性实施例可以采用两种示例性方式确定候选答案文本。

第一种示例性方式，服务器确定每个对比图像中与待批改图像的每个题干文本匹配的作答文本为候选答案文本，可以包括：服务器基于待批改图像的题干检测框关联的作答检测框确定每个对比图像的作答检测框，基于每个对比图像的作答检测框确定与待批改图像的每个题干检测文本匹配的候选答案文本。其中，待批改图像的每个题干检测框用于指示待批改图像的相应题干文本的位置。

第二种示例性方式，上述服务器确定每个对比图像中与待批改图像的题干文本匹配的作答文本，可以包括：服务器基于待批改图像的题干检测框确定每个对比图像的题干检测框；基于每个对比图像的题干检测框与作答检测框的关联关系，确定与待批改图像的每个题干检测文本匹配的所述候选答案文本。待批改图像的题干检测框用于指示待批改图像的题干文本的位置。

下面以图4示出的待批改图像400和图5示出的作答图像500为例描述两种示例性方式确定候选答案文本的方法。

将图4示出的待批改图像400和图5示出的作答图像500的知识水平、身份标识所属地域相同，并通过版面检测模型检测，确定二者的题目数量相同。

将图4示出的待批改图像400输入文本行检测模型进行检测，可以输出待批改图像400的题干检测框、作答检测框以及题干检测框和作答检测框的关联关系。将待批改图像400的题干检测框定义为第一题干检测框4011，待批改图像400的作答检测框有两个，定义为第一1#作答检测框4012和第一2#作答检测框4013。将待批改图像400位于第一题干检测框4011的图像输入题干识别模型进行识别，可以获得第一题干检测框指示的题干文本，将其定义为第一题干文本4021；将待批改图像400位于第一1#作答检测框4012和第一2#作答检测框4013的图像输入前述作答识别模型进行识别，可以获得第一1#作答检测框4012指示的作答文本和第一2#作答检测框4013指示的作答文本，将第一1#作答检测框4012指示的作答文本定义为第一1#作答文本4022，将第一2#作答检测框4013指示的作答文本定义为第一2#作答文本4023。

图5所示的对比图像500的题干检测框定义为第二题干检测框5011，对比图像500的作答检测框有两个定义为第二1#作答检测框5012和第二2#作答检测框5013。对比图像500的题干检测框、两个作答检测框以及题干检测框和两个作答检测框的关联关系可以由上述文本行检测模型获得。第二题干检测框5011指示的题干文本，将其定义为第二题干文本5021，第二题干文本5021可以通过题干识别模型对对比图像500位于第二题干检测框5011的图像进行识别获得。第二1#作答检测框5012指示的作答文本，将其定义为第二1#作答文本5022。第二1#作答文本5022可以通过作答识别模型对对比图像500位于第二作答检测框5012的图像进行识别获得。第二2#作答检测框5013指示的作答文本，将其定义为第二2#作答文本5023。第二2#作答文本5023可以通过作答识别模型对对比图像500位于第二作答检测框5012的图像进行识别获得。

如图4和图5所示，当采用第一种示例性方式确定第一题干文本4021匹配的候选答案文本，鉴于第一题干检测框4011指示第一题干文本4021的位置，可以利用第一题干检测框4011、第一1#作答检测框4012和第一2#作答检测框4013的关联关系，确定第一1#作答检测框4012和第一2#作答检测框4013，然后基于第一1#作答检测框4012与第二1#作答检测框5012的对应关系，第一2#作答检测框4013和第二2#作答检测框5013的对应关系，确定第二1#作答检测框5012和第二2#作答检测框5013，最后基于第二1#作答检测框5012和第二2#作答检测框5013可以获得与第一题干文本5011匹配的候选答案文本，即第二1#作答文本5022和第二2#作答文本5023。

如图4和图5所示，当采用第二种示例性方式确定第一题干文本4021匹配的候选答案文本，鉴于第一题干检测框4011指示第一题干文本4021的位置，可以利用第一题干检测框4011与第二题干检测框5011的对应关系，确定第二题干检测框5011，结合基于第二题干检测框5011、第二1#作答检测框5012和第二2#作答检测框5013的关联关系，确定第二1#作答检测框5012和第二2#作答检测框5013，最后基于第二1#作答检测框5012和第二2#作答检测框5013可以获得与第一题干文本5011匹配的候选答案文本，即第二1#作答文本5022和第二2#作答文本5023。

步骤303：服务器确定待批改图像的每个题干文本的答案为待批改图像的每个题干文本匹配的候选答案文本中相同数量最多的一个。

在实际应用中，基于用户答题正确性规律，可以发现大部分用户对于题目的作答文本都是正确答案，因此，可以基于用户答题正确性规律，采用类似多人投票的方式，将候选答案文本中相同数量最多的一个作为待批改图像的题干文本的答案，从而解决相关技术中标注数据人力投入过大的问题，节省题库构建和判题成本。同时，在判题的过程中，可以直接利用待批改图像从其它大量作答图像中选择多个对比图像进行答案确定，无需提前构建题库，可以有效缩减判题应用程序的链路，提升了效能，从而达到提高判题效率的目的。

本公开示例性实施例还提供一种上述答案确定方法在题库构建方法中的应用。在实际应用中，服务器可以确定待批改图像的每个题干文本的答案文本后，可以将待批改图像所含有的题干文本（即作答题目）以及对应的答案文本进行汇总记录，作为题库内的答案。这种方式可以无需人工标注答案，从而有效降低题库构建成本。从另外一个角度来说，本公开示例性实施例的方法确定答案后，将作答题目和答案汇总，作为题库内的数据，为后续拍照判题提供便利，整个方法与拍照判题形成闭环，只需一次答案确定过程，从而提高判题效率。

本公开示例性实施例还提供一种判题方法。图6示出了本公开示例性实施例的判题方法的流程示意图。如图6所示，本公开示例性实施例的判题方法包括：

步骤601：服务器基于本公开示例性实施例的答案确定方法确定待批改图像含有的每个作答文本的答案文本。应理解，可以训练文本检测识别模型和相似度评估模型后，然后执行步骤801，训练方法和模型架构可以参考前文此处不做赘述。

步骤602：服务器基于待批改图像含有的每个作答文本和相应答案文本确定判题结果。

上述服务器可以先对未经作答的空白试卷进行答案确定，并构建题库。当待批改图像上传至服务器，服务器可以基于上述步骤301从调库调取答案进行比对。也可以在服务器接收到待批改图像后，基于步骤301~步骤303，确定待批改图像的每个题干文本的答案文本，然后基于答案文本批改待批改图像的每个题干文本关联的作答文本。下面结合附图描述本公开实施例的判题方法。应理解，下文所涉及的作答图像和待批改图像均以所含有的题干文本为打印体文本，作答文本为手写体文本为例进行描述。

图7示出了本公开示例性实施例的判题方法的原理图。如图7所示，本公开示例性实施例的判题方法包括：

第一步，服务器收到一个用户设备安装的判题程序上传的待批改图像701，和其它用户设备安装的判题程序上传的多个作答图像702。

第二步，服务器根据各个用户设备安装的判题程序的注册基本信息，确定待批改图像和多个作答图像的年级和地域信息。

第三步，服务器以待批改图像的年级和地域为筛选条件，从多个作答图像702中选择与待批改图像的年级和地域相同的多个作答图像作为一级筛选图像703。

第四步，服务器利用版面检测模型对待批改图像和多个一级筛选图像进行检测，得到待批改图像的题目数量和多个一级筛选图像的题目数量。此处版面检测模型可以参考前文，此处不作赘述。

第五步，服务器以待批改图像的题目数量为筛选条件，从多个一级筛选图像703选择与待批改图像的题目数量相同的多个一级筛选图像为二级筛选图像704。

第六步，服务器利用文本行检测模型检测待批改图像701和二级筛选图像704的检测框数量。此处文本行检测模型可以参考前文描述，此处不作赘述。

例如：可以向文本行检测模型输入待批改图像和多个二级筛选图像，获得手写体检测框、打印体检测框以及每个打印体检测框关联的手写体检测框，从而获得待批改图像和二级筛选图像的手写体检测框数量、打印体检测框数量以及每个打印体检测框关联的手写体检测框的数量。

第七步，服务器以待批改图像的检测框数量为筛选条件，从多个二级筛选图像704中筛选出多个与待批改图像701的检测框数量接近的二级筛选图像作为参考图像705。至于通过检测框筛选出参考图像的具体方案，可以参考前文，此处不作赘述。此处的检测框数量接近，是指待批改图像的检测框数量和二级筛选图像的检测框数量差值小于或等于第一预设阈值，从而减少文本行检测模型多检或漏检的问题发生，为这种问题提供了冗余空间。

第八步，服务器利用题干识别模型检测待批改图像701和多个参考图像705的打印体文本，利用作答识别模型检测待批改图像和多个参考图像705的手写体文本。

第九步，服务器使用打印体字符串相似度的方式度量测待批改图像701和每个参考图像705的相似度，以题干文本相似度为筛选条件，从其中选择相似度大于或等于第二预设阈值的多张参考图像作为对比图像706。对比图像的数量可以根据实际需要设定，如10张~20张。

第十步，服务器针对待批改图像701的作答文本，可以从多个对比图像706的手写体文本中选择相同数量最多的一个为答案文本707。

在实际应用中，可以参考步骤302的方式先查找候选答案文本，然后从候选答案文本中找到相同数量最多的一个为答案文本。

第十一步，服务器基于答案文本707对待批改图像701相应的作答文本进行批改。

由上可知，本公开示例性实施例的方法可以基于第一匹配关系和第二匹配关系确定与待批改图像匹配的多个作答图像作为对比图像。由于第一匹配关系包括待批改图像与每个对比图像的知识水平、题目数量和检测框数量匹配，第二匹配关系为待批改图像的题干文本与每个对比图像的题干文本匹配，因此，可以确定这些对比图像与待批改图像的题目相同。在此基础上，可以确定每个所述对比图像中与所述待批改图像的每个题干文本匹配的作答文本为候选答案文本，然后基于实际答题规律和统计学思想，采用多人投票的方式确定待批改图像的每个题干文本的答案为：待批改图像的每个题干文本匹配的所述候选答案文本中相同数量最多的一个，因此，本公开实施例可以在不知道正确答案的情况下，确定题目答案，从而解决相关技术中需要建立题库，并对题库的题目进行标注的问题，进而提升判题效率、节省题库构建和判题成本。

上述主要从服务器的角度对本公开实施例提供的方案进行了介绍。可以理解的是，服务器为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对服务器进行功能单元的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，本公开示例性实施例提供一种答案确定装置，该答案确定装置可以为服务器或应用于服务器的芯片。

图8示出了本公开示例性实施例的答案确定装置的示意性框图。如图8所示，本公开示例性实施例的装置用于基于未批改的多个作答文本确定待批改图像的答案文本，所述装置包括：

第一确定模块801，用于确定与待批改图像匹配的多个作答图像作为对比图像，所述待批改图像与每个所述对比图像具有第一匹配关系和第二匹配关系，所述第一匹配关系至少包括所述待批改图像与每个所述对比图像的知识水平、题目数量和检测框数量匹配，所述第二匹配关系为所述待批改图像的题干文本与每个所述对比图像的题干文本匹配；

第二确定模块802，用于确定每个所述对比图像中与所述待批改图像的每个题干文本匹配的作答文本为候选答案文本；

第三确定模块803，用于确定所述待批改图像的每个题干文本的答案为所述待批改图像的每个题干文本匹配的所述候选答案文本中相同数量最多的一个。

在一种可能的实现方式中，上述第一确定模块801用于确定与所述待批改图像具有所述第一匹配关系的多个所述作答图像作为参考图像；

确定与所述待批改图像具有所述第二匹配关系的多个所述参考图像作为所述对比图像。

在一种可能的实现方式中，所述第一匹配关系还包括：所述待批改图像与每个所述对比图像的身份标识归属同一地域。

在一种可能的实现方式中，所述待批改图像与每个所述对比图像的题目数量相同。

在一种可能的实现方式中，所述待批改图像和/或每个所述对比图像的题目数量由版面检测模型确定。

在一种可能的实现方式中，所述待批改图像与每个所述对比图像的检测框数量的差值小于或等于第一预设阈值。

在一种可能的实现方式中，所述检测框数量包括题干检测框数量、作答检测框数量和每个所述题干检测框关联的所述作答检测框的数量中的一种。

示例性的，每个所述作答图像的题干检测框数量、作答检测框数量以及每个所述题干检测框关联的所述作答检测框的数量均由文本行检测模型确定。

示例性的，所述文本行检测模型在训练阶段的数据集包括的样本作答图像和检测标记信息；

其中，所述检测标记信息包括题干标注框和作答标注框，所述样本作答图像所含有的所述作答标注框内的字符为标记作答文本的字符。

在一种示例中，上述第二确定模块802用于基于所述待批改图像的每个题干检测框关联的作答检测框确定每个所述对比图像的作答检测框，基于每个所述对比图像的作答检测框确定与所述待批改图像的每个题干检测文本匹配的所述候选答案文本，所述待批改图像的每个题干检测框用于指示所述待批改图像的相应题干文本的位置。

在另一种示例中，上述第二确定模块802用于基于所述待批改图像的题干检测框确定每个所述对比图像的题干检测框，基于每个所述对比图像的题干检测框与作答检测框的关联关系，确定与所述待批改图像的每个题干检测文本匹配的所述候选答案文本；所述待批改图像的题干检测框用于指示所述待批改图像的题干文本的位置；

在一种可能的实现方式中，所述待批改图像的每个题干文本与每个所述对比图像相应的题干文本的相似度大于或等于第二预设阈值。

在采用对应各个功能划分各个功能模块的情况下，本公开示例性实施例提供一种判题装置，该判题装置可以为服务器或应用于服务器的芯片。图9示出了根据本公开示例性实施例的判题装置的功能模块示意性框图。如图9所示，该判题装置900包括：

答案确定模块901，用于基于本公开示例性实施例的答案确定方法确定待批改图像含有的每个所述作答文本的答案；

作答批改模902，用于基于所述答案批改所述待批改图像含有的每个所述作答文本。

图10示出了根据本公开示例性实施例的芯片的示意性框图。如图10所示，该芯片1000包括一个或两个以上（包括两个）处理器1001和通信接口1002。通信接口1002可以支持服务器执行上述答案确定方法和/或判题方法中的数据收发步骤，处理器801可以支持服务器执行上述答案确定方法和/或判题方法中的数据处理步骤。

可选的，如图10所示，该芯片1000还包括存储器1003，存储器1003可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器（non-volatile random access memory，NVRAM）。

在一些实施方式中，如图10所示，处理器1001通过调用存储器存储的操作指令（该操作指令可存储在操作系统中），执行相应的操作。处理器1001控制终端设备中任一个的处理操作，处理器还可以称为中央处理单元（central processing unit，CPU）。存储器1003可以包括只读存储器和随机存取存储器，并向处理器1001提供指令和数据。存储器1003的一部分还可以包括NVRAM。例如应用中存储器、通信接口以及存储器通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图10中将各种总线都标为总线系统1004。

上述本公开实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器（digital signal processing，DSP）、ASIC、现成可编程门阵列（field-programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的答案确定方法和/或判题方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的答案确定方法和/或判题方法

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的答案确定方法和/或判题方法。

参考图11，现将描述可以作为本公开的服务器或客户端的电子设备的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（ROM）1102中的计算机程序或者从存储单元908加载到随机访问存储器（RAM）1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出（I/O）接口1105也连接至总线1104。

如图11所示，电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备，输入单元1106可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

如图11所示，计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如，在一些实施例中，本公开示例性实施例的方法，如答案确定方法和/或判题方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行本公开示例性实施例的方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘（digital video disc，DVD）；还可以是半导体介质，例如，固态硬盘（solid state drive，SSD）。

尽管结合具体特征及其实施例对本公开进行了描述，显而易见的，在不脱离本公开的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明，且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包括这些改动和变型在内。

Claims

1.一种答案确定方法，其特征在于，用于基于未批改的多个作答文本确定待批改图像的答案文本，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定与所述待批改图像匹配的多个所述作答图像作为对比图像，包括：

确定与所述待批改图像具有所述第一匹配关系的多个所述作答图像作为参考图像；

3.根据权利要求1所述的方法，其特征在于，所述第一匹配关系还包括：所述待批改图像与每个所述对比图像的身份标识归属同一地域。

4.根据权利要求1所述的方法，其特征在于，所述待批改图像与每个所述对比图像的题目数量相同。

5.根据权利要求1所述的方法，其特征在于，所述待批改图像和/或每个所述对比图像的题目数量由版面检测模型确定。

6.根据权利要求1所述的方法，其特征在于，所述待批改图像与每个所述对比图像的检测框数量的差值小于或等于第一预设阈值。

7.根据权利要求1所述的方法，其特征在于，所述检测框数量包括题干检测框数量、作答检测框数量和每个所述题干检测框关联的所述作答检测框的数量中的一种。

8.根据权利要求7所述的方法，其特征在于，每个所述作答图像的题干检测框数量、作答检测框数量以及每个所述题干检测框关联的所述作答检测框的数量均由文本行检测模型确定。

9.根据权利要求8所述的方法，其特征在于，所述文本行检测模型在训练阶段的数据集包括样本作答图像和检测标记信息；

10.根据权利要求8所述的方法，其特征在于，所述确定每个所述对比图像中与所述待批改图像的每个题干文本匹配的作答文本为候选答案文本，包括：

基于所述待批改图像的每个题干检测框关联的作答检测框确定每个所述对比图像的作答检测框，所述待批改图像的每个题干检测框用于指示所述待批改图像的相应题干文本的位置；

基于每个所述对比图像的作答检测框确定与所述待批改图像的每个题干检测文本匹配的所述候选答案文本。

11.根据权利要求8所述的方法，其特征在于，所述确定每个所述对比图像中与所述待批改图像的每个题干文本匹配的作答文本为候选答案文本，包括：

基于所述待批改图像的题干检测框确定每个所述对比图像的题干检测框，所述待批改图像的题干检测框用于指示所述待批改图像的题干文本的位置；

基于每个所述对比图像的题干检测框与作答检测框的关联关系，确定与所述待批改图像的每个题干检测文本匹配的所述候选答案文本。

12.根据权利要求1~11任一项所述的方法，其特征在于，所述待批改图像的每个题干文本与每个所述对比图像相应的题干文本的相似度大于或等于第二预设阈值。

13.一种判题方法，其特征在于，包括：

基于权利要求1~12任一项所述方法确定待批改图像含有的每个所述作答文本的答案文本；

基于所述待批改图像含有的每个作答文本和相应所述答案文本确定判题结果。

14.一种答案确定装置，其特征在于，用于基于未批改的多个作答文本确定待批改图像的答案文本，所述装置包括：

15.一种判题装置，其特征在于，包括：

答案确定模块，用于基于权利要求1~12任一项所述方法确定待批改图像含有的每个所述作答文本的答案文本；

16.一种电子设备，其特征在于，包括：

处理器；以及，

存储程序的存储器；

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1~13中任一项所述的方法。

17.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据权利要求1~13中任一项所述的方法。