CN114358579A

CN114358579A - 评阅方法、评阅装置、电子设备以及计算机可读存储介质

Info

Publication number: CN114358579A
Application number: CN202111665520.0A
Authority: CN
Inventors: 陈子恒; 沙晶; 刘丹; 王士进; 魏思
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-15

Abstract

本申请公开了评阅方法、评阅装置、电子设备以及计算机可读存储介质。该评阅方法包括：获取到待评分的数学文本；其中，数学文本包括标准答案以及用户作答内容，数学文本包括数学式子和文字信息；其中，数学文本为经过分词处理后的文本；将数学文本输入到评分预测模型中，利用评分预测模型对数学文本中的文字信息以及数学式子进行识别；其中，评分预测模型是利用不完整的数学文本进行训练得到的；其中，不完整的数学文本包括被掩盖的数学式子以及被掩盖的文字信息；基于识别结果对用户作答内容进行评分并输出得分率。本申请能够较好地根据用户作答内容进行预测，从而满足解答题自动评阅的需求。

Description

评阅方法、评阅装置、电子设备以及计算机可读存储介质

技术领域

本申请涉及自然语言处理领域，特别是涉及评阅方法、评阅装置、电子设备以及计算机可读存储介质。

背景技术

随着互联网技术的发展，在线教育的用户数量日益俱增，需要大量的人力应对大规模的题目评阅。其中，对于选择填空题，可以通过简单的答案匹配实现高效的评阅，而由于解答题过程的主观性及解法的多样性，导致不同老师对于评阅结果也存在一定的主观性，既不利于学生对自己进行客观的评价，也增加了老师的工作强度。

现有的数学题自动批改方法，主要是依据标准答案与学生作答的匹配程度来计算得分。例如，通过真值代入学生作答，并与标准答案进行匹配的办法来进行数学代数式类型题目的评阅。或者，利用大量人为定义的规则分别对学生作答与标准答案进行结构化以及结论提取，并最终根据结论的匹配程度得出学生的得分。

然而，现有的评分预测模型无法准确理解数学文本中的数学语句的规律，就需要通过人工预先对标准答案以及学生作答进行结构化以及结论提取，这仍然会极大增加人力成本，无法满足解答题自动评阅的需求。

发明内容

本申请主要解决的技术问题是提供评阅方法、评阅装置、电子设备以及计算机可读存储介质，能够解决现有技术中解答题评阅导致的高额人力成本问题。

为解决上述技术问题，本申请采用的第一技术方案是提供一种评阅方法，包括：获取到待评分的数学文本；其中，数学文本包括标准答案以及用户作答内容，数学文本包括数学式子和文字信息；其中，数学文本为经过分词处理后的文本；将数学文本输入到评分预测模型中，利用评分预测模型对数学文本中的文字信息以及数学式子进行识别；其中，评分预测模型是利用不完整的数学文本进行训练得到的；其中，不完整的数学文本包括被掩盖的数学式子以及被掩盖的文字信息；基于识别结果对用户作答内容进行评分并输出得分率。

其中，获取到待评分的数学文本的步骤，具体包括：获取到多个待评分的数学文本；将数学文本输入到评分预测模型中，利用评分预测模型对数学文本中的文字信息以及数学式子进行识别的步骤，包括：将各数学文本输入评分预测模型中，利用评分预测模型对各数学文本中的文字信息以及数学式子进行识别，得到多个识别结果；基于识别结果对用户作答内容进行评分并输出得分率的步骤，包括：通过评分预测模型对多个全部识别结果进行评分，输出多个得分率，并通过评分预测模型得到多个得分率的均值；通过评分预测模型对多个得分率的均值以及各数学文本对应的得分率进行高斯分布拟合，并基于获得的各方差与第二设定阈值的对比结果，判断是否拒绝对各数学文本进行评阅；其中，响应于单个数学文本的方差大于第二设定阈值，拒绝对单个数学文本进行评分。

其中，利用不完整的数学文本进行训练的方法，具体包括：获取到第一样本数据集，各第一样本数据为不完整的数学文本；利用第一样本数据集对预设语言模型进行数学式子以及文字预测训练，得到第一模型；获取到第二样本数据集，各第二样本数据包括题目、标准答案、用户作答内容以及用户作答内容的评判信息；且第二样本数据包括数学式子以及文字信息；利用第二样本数据集对第一模型进行评分训练，得到评分预测模型。

其中，获取到第一样本数据集，各第一样本数据为不完整的数学文本的步骤，包括：获取到原始样本集，其中，各原始样本包括数学式子和文字信息；对各原始样本中的数学式子以及文字信息进行分词处理，以将数学式子以及文字信息切分成多个分词；将数学式子对应的分词以及文字信息对应的分词进行部分掩盖，得到第一样本数据集。

其中，利用第一样本数据集对预设语言模型进行数学式子以及文字预测训练，得到第一模型的步骤，包括：对原始样本中的数学式子进行构建，以生成公式解析树；对公式解析树进行遍历，得到公式解析树的各个节点在原始样本中的位置信息，并将公式解析树以及对应的位置信息进行存储；利用第一样本数据以及位置信息对预设语言模型进行数学式子以及文字预测训练，得到第一模型。

其中，利用第一样本数据以及位置信息对预设语言模型进行数学式子以及文字预测训练，得到第一模型的步骤，包括：通过预设语言模型对第一样本数据中被掩盖的数学式子以及被掩盖的文字信息进行内容以及位置的预测，得到第一预测信息；利用第一预测信息、位置信息、以及各第一样本数据对预设语言模型进行数学式子以及文字预测训练，得到第一模型。

其中，对原始样本中的数学式子进行构建，以生成公式解析树的步骤，包括：获取数学式子对应的分词中的至少一个变量与至少一个运算符；将变量与运算符分别加入到第一堆栈与第二堆栈中，并在根据运算符的优先级将数学式子转化为逆波兰式，以基于逆波兰式生成公式解析树。

其中，预设语言模型依次包括输入层、卷积下采样层、双向编码器、全连接层以及输出层；通过预设语言模型对第一样本数据中被掩盖的数学式子以及被掩盖的文字信息进行内容以及位置的预测，得到第一预测信息的步骤，包括：将第一样本数据输入到输入层进行处理，得到分词对应的词向量、位置向量以及段落向量；将词向量、位置向量以及段落向量输入到卷积下采样层进行特征提取，得到特征向量；将特征向量输入到双向编码器进行多维信息提取，并将提取的信息输入到全连接层进行内容以及位置的预测，得到第一预测信息；利用第一预测信息、位置信息、以及各第一样本数据对预设语言模型进行数学式子以及文字预测训练，得到第一模型的步骤，具体包括：基于位置信息以及第一样本数据判断第一预测信息与被掩盖的数学式子以及被掩盖的文字信息的内容以及位置是否匹配，并基于匹配结果对预设语言模型的模型参数进行调整，以得到第一模型。

其中，利用第二样本数据集对第一模型进行评分训练，得到评分预测模型的步骤，包括：通过第一模型对用户作答内容与标准答案进行预测，得到第二预测信息；利用第二预测信息以及评判信息对第一模型进行得分预测训练，得到评分预测模型。

其中，通过第一模型对用户作答内容与标准答案进行预测，得到第二预测信息的步骤，包括：将第二样本数据中的题目、标准答案以及用户作答内容输入第一模型中，以使第一模型基于用户作答内容与标准答案的匹配程度进行预测，得到第二预测信息；利用第二预测信息以及评判信息对第一模型进行得分预测训练，得到评分预测模型的步骤，包括：对比第二预测信息与评判信息，并基于对比结果对第一模型的模型参数进行调整，以得到评分预测模型。

其中，通过第一模型对用户作答内容与标准答案进行预测，得到第二预测信息的步骤，包括：将各第二样本数据中的题目、标准答案、用户作答内容以及用户作答内容的评判信息输入第一模型中，以使第一模型基于用户作答内容与标准答案的匹配程度进行预测，得到各第二样本数据的全部第二预测信息；利用第二预测信息以及评判信息对第一模型进行得分预测训练，得到评分预测模型的步骤，包括：通过第一模型得到全部第二预测信息的均值；通过第一模型对均值以及各第二样本数据对应的用户作答内容的评判信息进行高斯分布拟合，并基于获得的各方差与第一设定阈值的对比结果对第一模型的模型参数进行调整，以得到评分预测模型。

为解决上述技术问题，本申请采用的第二技术方案是提供一种评阅装置，包括：获取模块，用于获取到待评分的数学文本；其中，数学文本包括标准答案以及用户作答内容，数学文本包括数学式子和文字信息；其中，数学文本为经过分词处理后的文本；识别模块，用于将数学文本输入到评分预测模型中，利用评分预测模型对数学文本中的文字信息以及数学式子进行识别；其中，评分预测模型是利用不完整的数学文本进行训练得到的；其中，不完整的数学文本包括被掩盖的数学式子以及被掩盖的文字信息；评分模块，用于基于识别结果对用户作答内容进行评分并输出得分率。

为解决上述技术问题，本申请采用的第三技术方案是提供一种电子设备，包括：存储器，用于存储程序数据，程序数据被执行时实现如上述的评阅方法中的步骤；处理器，用于执行存储器存储的程序数据以实现如上述的评阅方法中的步骤。

为解决上述技术问题，本申请采用的第四技术方案是提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的评阅方法中的步骤。

本申请的有益效果是：区别于现有技术，本申请提供评阅方法、评阅装置、电子设备以及计算机可读存储介质，通过评分预测模型对包括数学式子和文字信息的数据文本进行识别并评分，且评分预测模型是通过不完整的数学文本训练得到的，对含有数学式子的数学文本具有一定的理解能力，能够较好地根据用户作答内容进行自主预测，从而降低人工成本，满足解答题自动评阅的需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请评阅方法第一实施方式的流程示意图；

图2是本申请获取评分预测模型的方法；

图3是图2中S21一具体实施方式的流程示意图；

图4是图2中S22一具体实施方式的流程示意图；

图5是本申请一数字式子对应的公式解析树的结构示意图；

图6是图5中公式解析树被掩盖部分节点后的结构示意图；

图7是本申请预设语言模型一实施方式的结构示意图；

图8是图2中S24第一具体实施方式的流程示意图；

图9是图2中S24第二具体实施方式的流程示意图；

图10是本申请评阅方法第二实施方式的流程示意图；

图11是本申请评阅装置一实施方式的结构示意图；

图12是本申请电子设备一实施方式的结构示意图；

图13是本发明计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，本文中使用的术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

请参阅图1，图1是本申请评阅方法第一实施方式的流程示意图。如图1所示，在本实施方式中，该方法包括：

S11：获取到待评分的数学文本；其中，数学文本包括标准答案以及用户作答内容，数学文本包括数学式子和文字信息；其中，数学文本为经过分词处理后的文本。

其中，标准答案为该题目所对应的满分解答过程，用户作答内容即为学生作答内容。

其中，数学式子指的是用数学语言以及数学符号来表达某种关系、某种运算或某种性质的统称，既包括公式等关于某个结论用代数式表示的等式，也包括用数学符号连接的一组代数式。

本实施方式中，数学文本为经过分词处理后得到的题目、标准答案以及用户作答内容三部分拼接得到的文本token(分词)序列。

具体地，在分词过程中可以借助数学相关的词典，以尽可能地保持数学术语的完整性。例如，文字信息中包括一段文本“平行四边形”，这一小段文本对应5个字符，但由于“平行四边形”为一个单独的数学术语，因而在进行分词处理时，将这段文本直接处理成一个token。又例如，在对数学式子进行分词处理时，将数学式子中的每一个运算符以及变量均处理为一个token。此处以一个具体的实施例进行说明，数学式子(-a+b)c＞10，对该数学式子进行分词处理后，共包括8个token，分别为“-”、“a”、“+”、“b”、“*”、“c”、“＞”以及“10”。

本实施方式中，在进行分词处理时，还须对数学术语进行规范化，以便于后续模型的训练。例如，将LaTeX公式中的乘号与来自不同编码系统的称号约束成统一的符号。其中，LaTeX是一种排版系统，适用于大型论文排版和数学式子输入。

S12：将数学文本输入到评分预测模型中，利用评分预测模型对数学文本中的文字信息以及数学式子进行识别；其中，评分预测模型是利用不完整的数学文本进行训练得到的；其中，不完整的数学文本包括被掩盖的数学式子以及被掩盖的文字信息。

本实施方式中，评分预测模型基于输入的文本token序列，识别出标准答案与用户作答内容。

具体地，请参阅图2，图2是本申请获取评分预测模型的方法。如图2所示，在本实施方式中，利用不完整的数学文本进行训练的方法，具体包括：

S21：获取到第一样本数据集，各第一样本数据为不完整的数学文本。

请参阅图3，图3是图2中S21一具体实施方式的流程示意图。如图3所示，在本实施方式中，获取到第一样本数据集，各第一样本数据为不完整的数学文本的步骤具体包括：

S211：获取到原始样本集，其中，各原始样本包括数学式子和文字信息。

本实施方式中，原始样本为包括题目、标准答案以及用户作答内容的数学文本。

本实施方式中，原始样本集中包括海量的原始样本。

具体地，可以通过如下两种方式高效地获取到海量的原始样本：其一，通过网络爬取的方式从网络上获得大量的数学解答题题目以及对应的满分解答过程信息和用户作答内容。其二，通过拍照、扫描数学习题册以及数学试卷等方式得到数学解答题题目及作答相关的图片，然后再通过OCR(Optical Character Recognition光学字符识别)技术，将图片转成包括数学式子与文字信息的数学文本。

S212：对各原始样本中的数学式子以及文字信息进行分词处理，以将数学式子以及文字信息切分成多个分词。

本实施方式中，获取到海量的原始样本后，对原始样本中的数学式子以及文字信息进行分词处理，以将数学式子以及文字信息切分成多个分词(token)。

S213：将数学式子对应的分词以及文字信息对应的分词进行部分掩盖，得到第一样本数据集。

本实施方式中，第一样本数据集的作用是预设语言模型进行预训练，以得到一个能够理解数学文本的语言模型。

具体地，预训练需要完成两个训练目标，其一是使语言模型能够根据文字信息中被掩盖的token的上下文去预测被掩盖的具体内容，即完成屏蔽语言模型(MaskedLanguage Model)的训练目标。其二是使语言模型能够对数学式子中被掩盖的token的父子节点去预测被掩盖的父子节点在序列中的位置，即能够对数学式子的子结构进行预测，因而需要将数学式子对应的分词以及文字信息对应的分词进行部分掩盖。

本实施方式中，将原始样本中设定比例的文字信息以及数学式子分别对应的token进行掩盖。在优选实施方式中，设定比例为15％，将15％的文字信息对应的token以及15％的数学式子对应的token进行掩盖，在其他实施方式中，设定比例还可以是10％、20％或其他比例，本申请对此不作限定。

S22：利用第一样本数据集对预设语言模型进行数学式子以及文字预测训练，得到第一模型。

请参阅图4，图4是图2中S22一具体实施方式的流程示意图。如图4所示，在本实施方式中，利用第一样本数据集对预设语言模型进行数学式子以及文字预测训练，得到第一模型的步骤具体包括：

S221：对原始样本中的数学式子进行构建，以生成公式解析树。

本实施方式中，获取数学式子对应的分词中的至少一个变量与至少一个运算符，将变量与运算符分别加入到第一堆栈与第二堆栈中，并在根据运算符的优先级将数学式子转化为逆波兰式，以基于逆波兰式生成公式解析树。其中，公式解析树中的公式并不仅指代公式，还指代一般的数学式子。

其中，逆波兰式又叫做后缀表达式，指的是把运算量写在前面,把算符写在后面。

其中，变量是表示数字的字母字符，而运算符大致可以分为5种类型：算术运算符、连接运算符、关系运算符、赋值运算符和逻辑运算符。优先级靠前的运算符为先进行运算的运算符，为子节点；优先级靠后的运算符为后进行运算的运算符，为父节点。

此处继续以数学式子(-a+b)c＞10进行说明，在该数学式子中，变量为“a”、“b”与“c”，运算符包括“-”、“+”、“*”与“＞”，其中，“-”、“+”与“*”为算数运算符，“＞”为关系运算符。在该数学式子中，“-”与“+”为优先进行运算的运算符，为子节点，“*”为后进行运算的运算符，为父节点。

具体地，请参阅图5，图5是本申请一数字式子对应的公式解析树的结构示意图。如图5所示，公式解析树中每一个圈以及所包含的变量或运算符都是一个token。

S222：对公式解析树进行遍历，得到公式解析树的各个节点在原始样本中的位置信息，并将公式解析树以及对应的位置信息进行存储。

本实施方式中，获取到原始样本中的每个数学式子对应的公式解析树后，对公式解析树进行中序遍历，以计算出数学式子中的每一个token对应的父节点或子节点在原始样本的原始序列中的位置信息，并将公式解析树以及对应的位置信息进行存储。

其中，中序遍历(LDR)是二叉树遍历的一种，也叫做中根遍历、中序周游。在二叉树中，中序遍历首先遍历左子树，然后访问根结点，最后遍历右子树。

S223：利用第一样本数据以及位置信息对预设语言模型进行数学式子以及文字预测训练，得到第一模型。

本实施方式中，通过预设语言模型对第一样本数据中被掩盖的数学式子以及被掩盖的文字信息进行内容以及位置的预测，得到第一预测信息后，再利用第一预测信息、位置信息、以及各第一样本数据对预设语言模型进行数学式子以及文字预测训练，得到第一模型。

可以理解地，位置信息的主要作用是用于监督学习，并不输入到预设语言模型中，只是在预设语言模型对第一样本数据中被掩盖的数学式子以及被掩盖的文字信息进行内容以及位置的预测，并得到第一预测信息后，利用位置信息对预设语言模型进行提示，以使预设语言模型知晓本次预测结果是否准确，从而决定是否对预设语言模型的参数进行调整。

具体地，请参阅图6，图6是图5中公式解析树被掩盖部分节点后的结构示意图。如图6所示，token“a”与token“b”为需要优先进行计算的子节点，被掩盖的token“+”为需要进行加法运算的运算符，在进行完加法运算后，才能通过token“*”进行乘法运算。由于token“+”被掩盖了，因而在训练时需要让预设语言模型学会如何去判断被掩盖的token“+”所对应的父节点或子节点在原始序列中的位置，并判断该token的具体内容，并在预设语言模型生成第一预测信息后，利用存储的位置信息对预设语言模型进行提示，以使预设语言模型知晓本次预测的内容以及位置是否准确，从而决定是否对预设语言模型的参数进行调整。

现有技术中，对数学文本进行分词处理时，是将数学式子与文字信息分成两部分进行处理，并在样本数据中将数学式子附在文字信息的后面，模型在处理时无法准确地将数学式子嵌入在文本信息中，对数学文本的理解能力较弱。

区别于现有技术，本实施方式在进行分词处理时，不会改变数学式子在原始序列中的位置，而是通过构造公式解析树以及中序遍历的方式对数学式子进行结构解析，并通过计算出每一个公式解析数对应的数学式子中的每一个token对应的父节点或子节点在原本输入序列中的位置信息，以使预设语言模型对嵌入在文字信息中的数学式子的子结构进行预测，从而加深对数学文本的理解能力。

本实施方式中，预设语言模型为基于BERT(Bidirectional EncoderRepresentations from Transformers，多层双向Transformer编码器)的模型。为了清楚说明上述对预设语言模型的结构以及训练方式，如图7所示，图7是本申请预设语言模型一实施方式的结构示意图。

本实施方式中，预设语言模型20依次包括输入层21、卷积下采样层22、双向编码器23、全连接层24以及输出层25。

其中，双向编码器23由12层Transformer组成。具体地，预设语言模型20的层数越多，效果指标越好，因而本实施方式根据效果指标选择12层Transformer作为双向编码器23。在其他实施方式中，还可根据不同需求选择不同层数的Transformer，例如24层Transformer等，本申请对此不作限定。

本实施方式中，将第一样本数据输入到输入层21进行处理，得到分词对应的词向量、位置向量以及段落向量。具体地，以第一样本数据分词后得到的题目、标准答案以及用户作答内容三部分拼接得到的文本token序列作为输入层21的输入，以将序列中的每个token映射为对应的词向量、位置向量以及段落向量。

本实施方式中，为了减少后续双向编码器23的计算量，将词向量、位置向量以及段落向量输入到卷积下采样层22进行特征提取，得到特征向量。具体地，通过多层的卷积神经网络对输入序列进行下采样处理，能够在缓解信息减损的情况下，缩短输入序列的长度，从而极大减少后续的计算复杂度。在其他实施方式中，还可以通过最大池化或平均池化等结构对输入序列进行下采样处理，本申请对此不作限定。

将特征向量输入到双向编码器23进行多维信息提取，并将提取的信息输入到全连接层24进行内容以及位置的预测，得到第一预测信息。具体地。双向编码器23以特征向量(下采样的结果)作为的输入，通过多头注意力机制对特征向量进行多维信息提取(高层信息提取)，能够拓宽信息的丰富度，以进一步加深预设语言模型对数学文本的理解能力。输出层25根据全连接层24提供的高层信息计算出预设语言模型20的输出(第一预测信息)。

进一步地，基于位置信息以及第一样本数据判断第一预测信息与被掩盖的数学式子以及被掩盖的文字信息的内容以及位置是否匹配，并基于匹配结果对预设语言模型20的模型参数进行调整，以得到第一模型。

可以理解地，位置信息的主要作用是用于监督预设语言模型20学习，并不输入到预设语言模型20中，只是在预设语言模型20对第一样本数据中被掩盖的数学式子以及被掩盖的文字信息进行内容以及位置的预测，并得到第一预测信息后，利用位置信息对预设语言模型20进行提示，以使预设语言模型20知晓本次预测结果是否准确，从而决定是否对预设语言模型20的参数进行调整。

通过上述对预设语言模型20的训练，不仅能够使最终获得的第一模型学会理解数学文本的基本语法规律，还能够使第一模型关注到数学式子中的每个组成部分(token)在数学式子中所起的作用，从而使第一模型可以更准确地理解数学文本的内容。

S23：获取到第二样本数据集，各第二样本数据包括题目、标准答案、用户作答内容以及用户作答内容的评判信息；且第二样本数据包括数学式子以及文字信息。

本实施方式中，第二样本数据可以是各原始样本加上对应的用户作答内容的评判信息组成的样本数据，也可以是重新通过网络爬取或拍照获得的携带用户作答内容的评判信息的样本数据。

其中，用户作答内容的评判信息即得分标签，是基于标准答案对用户作答内容进行批阅得到的真实得分率(真实得分与满分的比例)。

S24：利用第二样本数据集对第一模型进行评分训练，得到评分预测模型。

本实施方式中，通过第一模型对用户作答内容与标准答案进行预测，得到第二预测信息，并利用第二预测信息以及评判信息对第一模型进行得分预测训练，得到评分预测模型。

其中，第一模型的训练目标可以是仅根据输入的题目、标准答案以及用户作答内容等信息去预测相应的得分率，也可以是根据输入的题目、标准答案、用户作答内容以及用户作答内容的评判信息预测每个第二样本数据所属的高斯分布。

具体地，请参阅图8，图8是图2中S24第一具体实施方式的流程示意图。如图8所示，在本实施方式中，第一模型的训练目标是仅根据输入的题目、标准答案以及用户作答内容等信息去预测相应的得分率，该方法具体包括：

S2411：将第二样本数据中的题目、标准答案以及用户作答内容输入第一模型中，以使第一模型基于用户作答内容与标准答案的匹配程度进行预测，得到第二预测信息。

本实施方式中，第二预测信息为第一模型基于用户作答内容与标准答案的匹配度进行预测得到的预测得分率。

本实施方式中，第一模型的输出层输出的数据仅包括第二预测信息。

S2412：对比第二预测信息与评判信息，并基于对比结果对第一模型的模型参数进行调整，以得到评分预测模型。

本实施方式中，评判信息的主要作用是用于监督第一模型学习，并不输入到第一模型中，只是在第一模型基于用户作答内容以及标准答案的匹配程度进行得分预测，并得到第二预测信息后，利用评判信息对第一模型进行提示，以使第一模型知晓本次预测结果是否准确，从而决定是否对第一模型的参数进行调整，继而得到评分预测模型。

继续请参阅图9，图9是图2中S24第二具体实施方式的流程示意图。如图9所示，在本实施方式中，第一模型的训练目标是根据输入的题目、标准答案、用户作答内容以及用户作答内容的评判信息预测每个第二样本数据所属的高斯分布，该方法具体包括：

S2421：将各第二样本数据中的题目、标准答案、用户作答内容以及用户作答内容的评判信息输入第一模型中，以使第一模型基于用户作答内容与标准答案的匹配程度进行预测，得到各第二样本数据的全部第二预测信息。

本实施方式中，获取到第二样本数据集中的全部第二样本数据对应的第二预测信息，是为了后续拟合高斯分布。

S2422：通过第一模型得到全部第二预测信息的均值。

本实施方式中，通过第一模型得到全部第二预测信息的预测得分率均值。

S2423：通过第一模型对均值以及各第二样本数据对应的用户作答内容的评判信息进行高斯分布拟合，并基于获得的各方差与第一设定阈值的对比结果对第一模型的模型参数进行调整，以得到评分预测模型。

本实施方式中，第一模型的输出层输出的数据包括全部第二预测信息的均值以及每个第二样本数据对应的标准差。

本实施方式中，通过第一模型对如下公式进行高斯分布拟合：

其中，p(y)为概率密度函数；y为随机变量；μ为数学期望，是高斯分布的位置参数，描述高斯分布的集中趋势位置，高斯分布以y＝μ为对称轴，左右完全对称，且高斯分布的均数、中位数以及众数相同，均等于μ；σ为标准差，描述高斯分布资料数据分布的离散程度，决定分布的幅度，σ越大，数据分布越分散，σ越小，数据分布越集中；σ²为方差。

本实施方式中，μ为全部第二预测信息的预测得分率均值，y为每个第二样本数据对应的用户作答内容的评判信息，即每个第二样本数据的真实得分率(得分标签)。

具体地，通过对每个第二样本数据进行高斯分布拟合，可以获得每个第二样本数据的方差(标准差的2次方)，如果某个第二样本数据对应的方差大于第一设定阈值，表明第一模型基于该第二样本数据预测出的第二预测信息不够准确，对该次评分的结果不自信，需要拒绝批改。

本实施方式中，通过验证集确定第一设定阈值。

具体地，验证集中的样本数据可以是第二样本数据集中的部分第二样本数据，也可以是额外获取的样本数据，其结构组成与第二样本数据相同。将验证集中的样本数据输入到第一模型中，通过上述公式获取整个样本集中所有样本数据的方差，并从大至小对全部方差进行排序，排序后将全部方差数据分为十等份，选取十等份中排第一份的一组数据，即包括最大方差的一组数据，从该组数据中选择最小的一个方差，将该方差作为第一设定阈值。

可以理解地，将数值大小位于前10％的方差选取出来作为第一设定阈值，能够使第一模型拒绝对第二样本数据集中大概10％的第二样本数据拒绝批阅，从而确保第一模型的预测自信度。

可以理解地，第一设定阈值不宜过小，是为了防止过拟合而提高第一模型的泛化性能，可以保证第一模型在验证集与测试集中测试的一致性。

本实施方式中，如果某个第二样本数据对应的方差小于第一设定阈值，表明第一模型基于该第二样本数据预测出的第二预测信息比较准确，对该次评分的结果自信，不拒绝此次批改，但还可以依据第二预测信息与得分标签的匹配程度对第一模型的参数进行适当调整，重复上述操作，以得到较为准确的评分预测模型。

通过上述训练过程，可以得到一个评分能力较为强大的评分预测模型，但是由于训练时使用了大量标注数据，因而评分预测模型对于训练过的解答题类型的评分准确度要明显高于未用于训练过的解答题类型。如果后续加入未训练过的解答题类型，并用该类型解答题对应的作答内容对评分预测模型进行重新训练，会导致非常高的计算成本。

为解决上述成本问题，本实施方式在通过上述训练得到一个相对可靠的评分预测模型的基础上，固定评分预测模型的大部分参数，针对新增的解答题类型对应的数据的训练过程中，通过仅调整评分预测模型中的全连接层的参数，可以在最大限度保持评分预测模型在已训练过的解答题类型上的评分准确度的同时，使评分预测模型有效地适配新增的数据。

本实施方式通过第一样本数据集对预设语言模型进行预测训练，能够使构建的第一模型学习到隐含在数学语句中的规律，以更准确地对不同的数学文本进行提取以及识别。进一步地，通过第二样本数据集对第一模型进行评分训练，能够使获取的评分预测模型可以较好地根据用户作答内容进行预测，从而满足解答题自动评阅的需求。此外，通过对训练好的评分预测模型进行微调，还能使评分预测模型有效适配新增的不同类型的解答题，从而进一步提高评分预测模型的应用范围。

S13：基于识别结果对用户作答内容进行评分并输出得分率。

本实施方式中，评分预测模型基于识别出的标准答案与用户作答内容，确定用户作答内容与标准答案的匹配程度后，基于匹配程度对用户作答内容进行评分并输出预测得分率。

区别于现有技术，本实施方式通过评分预测模型对包括数学式子和文字信息的数据文本进行识别并评分，且评分预测模型是通过不完整的数学文本训练得到的，对含有数学式子的数学文本具有一定的理解能力，能够较好地根据用户作答内容进行自主预测，从而降低人工成本，满足解答题自动评阅的需求。

上述评阅方法，能够对输入的单个数学文本进行评分，但是无法确定单次批改的自信度。基于此，本申请提供又一种评阅方法。

具体地，请参阅图10，图10是本申请评阅方法第二实施方式的流程示意图。如图10所示，在本实施方式中，评分预测模型是通过上述的训练方法训练得到的，评阅方法包括：

S41：获取到多个待评分的数学文本。

本实施方式中，数学文本包括标准答案以及用户作答内容，数学文本包括数学式子和文字信息；其中，数学文本为经过分词处理后的文本。

其中，数学文本为经过分词处理后得到的题目、标准答案以及用户作答内容三部分拼接得到的文本token序列。

S42：将各数学文本输入评分预测模型中，利用评分预测模型对各数学文本中的文字信息以及数学式子进行识别，得到多个识别结果。

本实施方式中，评分预测模型基于输入的多个文本token序列，识别出多个对应的标准答案与用户作答内容，以得到多个识别结果。

S43：通过评分预测模型对多个全部识别结果进行评分，输出多个得分率，并通过评分预测模型得到多个得分率的均值。

S44：通过评分预测模型对多个得分率的均值以及各数学文本对应的得分率进行高斯分布拟合，并基于获得的各方差与第二设定阈值的对比结果，判断是否拒绝对各数学文本进行评阅；其中，响应于单个数学文本的方差大于第二设定阈值，拒绝对单个数学文本进行评分。

本实施方式中，通过评分预测模型对如下公式进行高斯分布拟合：

其中，p(y)为概率密度函数；y为随机变量；μ为数学期望；σ为标准差；σ²为方差。

本实施方式中，μ为多个得分率的均值，y为每个待评分的数学文本对应的得分率。

具体地，通过对每个待评分的数学文本进行高斯分布拟合，可以获得每个待评分的数学文本的方差(标准差的2次方)，如果某个待评分的数学文本对应的方差大于第二设定阈值，表明评分预测模型基于该待评分的数学文本预测出的得分率不够准确，对该次评分的结果不自信，需要拒绝批改。

本实施方式中，第二设定阈值的确定方法与上文一致，此处不再赘述。

区别于现有技术，本实施方式能够使评分预测模型可以较好地根据用户作答内容进行预测，从而满足解答题自动评阅的需求。此外，通过对部分数学文本拒绝批改，还能够提高评分预测模型的评分准确率，从而提高评阅方法的准确性。

对应地，本申请提供一种评阅装置。

请参阅图11，图11是本申请评阅装置一实施方式的结构示意图。如图11所示，评阅装置50包括获取模块51、识别模块52以及评分模块53。

本实施方式中，获取模块51用于获取到待评分的数学文本；其中，数学文本包括标准答案以及用户作答内容，数学文本包括数学式子和文字信息；其中，数学文本为经过分词处理后的文本。

识别模块52用于将数学文本输入到评分预测模型中，利用评分预测模型对数学文本中的文字信息以及数学式子进行识别；其中，评分预测模型是利用不完整的数学文本进行训练得到的；其中，不完整的数学文本包括被掩盖的数学式子以及被掩盖的文字信息。

评分模块53用于基于识别结果对用户作答内容进行评分并输出得分率。

其中，具体评阅过程请参阅S11～S13、S21～S24、S211～S213、S221～S223、S2411～S2412以及S2421～S2423中的相关文字描述，在此不再赘述。

区别于现有技术，本实施方式通过获取模块51获取待评分的数学文本，并通过识别模块52对数学文本中的文字信息以及数学式子进行识别，且识别过程是通过对数学文本具有一定理解能力的评分预测模型进行的，能够准确地对不同的数学文本进行提取以及识别。进一步地，通过评分模块53基于识别结果对用户作答内容进行评分并输出得分率，能够较好地根据用户作答内容进行预测，从而降低人工成本，满足解答题自动评阅的需求。

对应地，本申请提供一种电子设备。

请参阅图12，图12是本申请电子设备一实施方式的结构示意图。如图12所示，电子设备60包括存储器61以及处理器62。

本实施方式中，存储器61用于存储程序数据，程序数据被执行时实现如上述的评阅方法中的步骤；处理器62用于执行存储器61存储的程序指令以实现如上述的评阅方法中的步骤。

具体而言，处理器62用于控制其自身以及存储器61以实现如上述的评阅方法中的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由多个集成电路芯片共同实现。

区别于现有技术，本实施方式通过处理器62获取待评分的数学文本，并对数学文本中的文字信息以及数学式子进行识别，且识别过程是通过对数学文本具有一定理解能力的评分预测模型进行的，能够准确地对不同的数学文本进行提取以及识别。进一步地，基于识别结果对用户作答内容进行评分并输出得分率，能够较好地根据用户作答内容进行预测，从而降低人工成本，满足解答题自动评阅的需求。

对应地，本申请提供一种计算机可读存储介质。

请参阅图13，图13是本发明计算机可读存储介质一实施方式的结构示意图。

计算机可读存储介质70包括计算机可读存储介质70上存储的计算机程序701，所述计算机程序701被上述处理器执行时实现如上述的评阅方法中的步骤。具体地，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质100中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质70中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质70包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种评阅方法，其特征在于，包括：

获取到待评分的数学文本；其中，所述数学文本包括标准答案以及用户作答内容，所述数学文本包括数学式子和文字信息；其中，所述数学文本为经过分词处理后的文本；

将所述数学文本输入到评分预测模型中，利用所述评分预测模型对所述数学文本中的所述文字信息以及所述数学式子进行识别；其中，所述评分预测模型是利用不完整的数学文本进行训练得到的；其中，所述不完整的数学文本包括被掩盖的数学式子以及被掩盖的文字信息；

基于识别结果对所述用户作答内容进行评分并输出得分率。

2.根据权利要求1所述的评阅方法，其特征在于，所述获取到待评分的数学文本的步骤，具体包括：

获取到多个所述待评分的数学文本；

所述将所述数学文本输入到评分预测模型中，利用所述评分预测模型对所述数学文本中的所述文字信息以及所述数学式子进行识别的步骤，包括：

将各所述数学文本输入所述评分预测模型中，利用所述评分预测模型对所述各所述数学文本中的所述文字信息以及所述数学式子进行识别，得到多个识别结果；

所述基于识别结果对所述用户作答内容进行评分并输出得分率的步骤，包括：

通过所述评分预测模型对多个全部识别结果进行评分，输出多个得分率，并通过所述评分预测模型得到所述多个得分率的均值；

通过所述评分预测模型对所述多个得分率的均值以及各所述数学文本对应的得分率进行高斯分布拟合，并基于获得的各方差与第二设定阈值的对比结果，判断是否拒绝对各所述数学文本进行评阅；其中，响应于单个所述数学文本的所述方差大于所述第二设定阈值，拒绝对单个所述数学文本进行评分。

3.根据权利要求1或2任一项所述的评阅方法，其特征在于，所述利用不完整的数学文本进行训练的方法，具体包括：

获取到第一样本数据集，各第一样本数据为所述不完整的数学文本；

利用所述第一样本数据集对预设语言模型进行数学式子以及文字预测训练，得到第一模型；

获取到第二样本数据集，各第二样本数据包括题目、标准答案、用户作答内容以及所述用户作答内容的评判信息；且所述第二样本数据包括数学式子以及文字信息；

利用所述第二样本数据集对所述第一模型进行评分训练，得到所述评分预测模型。

4.根据权利要求3所述的评阅方法，其特征在于，所述获取到第一样本数据集，各第一样本数据为所述不完整的数学文本的步骤，包括：

获取到原始样本集，其中，各原始样本包括所述数学式子和所述文字信息；

对各原始样本中的所述数学式子以及所述文字信息进行分词处理，以将所述数学式子以及所述文字信息切分成多个分词；

将所述数学式子对应的分词以及所述文字信息对应的分词进行部分掩盖，得到所述第一样本数据集。

5.根据权利要求4所述的评阅方法，其特征在于，所述利用所述第一样本数据集对预设语言模型进行数学式子以及文字预测训练，得到第一模型的步骤，包括：

对所述原始样本中的所述数学式子进行构建，以生成公式解析树；

对所述公式解析树进行遍历，得到所述公式解析树的各个节点在所述原始样本中的位置信息，并将所述公式解析树以及对应的位置信息进行存储；

利用所述第一样本数据以及所述位置信息对所述预设语言模型进行数学式子以及文字预测训练，得到所述第一模型。

6.根据权利要求5所述的评阅方法，其特征在于，所述利用所述第一样本数据以及所述位置信息对所述预设语言模型进行数学式子以及文字预测训练，得到所述第一模型的步骤，包括：

通过所述预设语言模型对所述第一样本数据中所述被掩盖的数学式子以及所述被掩盖的文字信息进行内容以及位置的预测，得到第一预测信息；

利用所述第一预测信息、所述位置信息、以及各所述第一样本数据对所述预设语言模型进行数学式子以及文字预测训练，得到所述第一模型。

7.根据权利要求5所述的评阅方法，其特征在于，所述对所述原始样本中的所述数学式子进行构建，以生成公式解析树的步骤，包括：

获取所述数学式子对应的所述分词中的至少一个变量与至少一个运算符；

将所述变量与所述运算符分别加入到第一堆栈与第二堆栈中，并在根据所述运算符的优先级将所述数学式子转化为逆波兰式，以基于所述逆波兰式生成所述公式解析树。

8.根据权利要求6所述的评阅方法，其特征在于，所述预设语言模型依次包括输入层、卷积下采样层、双向编码器、全连接层以及输出层；

所述通过所述预设语言模型对所述第一样本数据中所述被掩盖的数学式子以及所述被掩盖的文字信息进行内容以及位置的预测，得到第一预测信息的步骤，包括：

将所述第一样本数据输入到输入层进行处理，得到所述分词对应的词向量、位置向量以及段落向量；

将所述词向量、所述位置向量以及所述段落向量输入到所述卷积下采样层进行特征提取，得到特征向量；

将所述特征向量输入到所述双向编码器进行多维信息提取，并将提取的信息输入到所述全连接层进行所述内容以及所述位置的预测，得到所述第一预测信息；

所述利用所述第一预测信息、所述位置信息、以及各所述第一样本数据对所述预设语言模型进行数学式子以及文字预测训练，得到所述第一模型的步骤，具体包括：

基于所述位置信息以及所述第一样本数据判断所述第一预测信息与所述被掩盖的数学式子以及所述被掩盖的文字信息的内容以及位置是否匹配，并基于匹配结果对所述预设语言模型的模型参数进行调整，以得到所述第一模型。

9.根据权利要求8所述的评阅方法，其特征在于，所述利用所述第二样本数据集对所述第一模型进行评分训练，得到所述评分预测模型的步骤，包括：

通过所述第一模型对所述用户作答内容与所述标准答案进行预测，得到第二预测信息；

利用所述第二预测信息以及所述评判信息对所述第一模型进行得分预测训练，得到所述评分预测模型。

10.根据权利要求9所述的评阅方法，其特征在于，所述通过所述第一模型对所述用户作答内容与所述标准答案进行预测，得到第二预测信息的步骤，包括：

将所述第二样本数据中的所述题目、所述标准答案以及所述用户作答内容输入所述第一模型中，以使所述第一模型基于所述用户作答内容与所述标准答案的匹配程度进行预测，得到所述第二预测信息；

所述利用所述第二预测信息以及所述评判信息对所述第一模型进行得分预测训练，得到所述评分预测模型的步骤，包括：

对比所述第二预测信息与所述评判信息，并基于对比结果对所述第一模型的模型参数进行调整，以得到所述评分预测模型。

11.根据权利要求9所述的评阅方法，其特征在于，所述通过所述第一模型对所述用户作答内容与所述标准答案进行预测，得到第二预测信息的步骤，包括：

将各所述第二样本数据中的所述题目、所述标准答案、所述用户作答内容以及所述用户作答内容的评判信息输入所述第一模型中，以使所述第一模型基于所述用户作答内容与所述标准答案的匹配程度进行预测，得到各所述第二样本数据的全部第二预测信息；

通过所述第一模型得到所述全部第二预测信息的均值；

通过所述第一模型对所述均值以及各所述第二样本数据对应的所述用户作答内容的评判信息进行高斯分布拟合，并基于获得的各方差与第一设定阈值的对比结果对所述第一模型的模型参数进行调整，以得到所述评分预测模型。

12.一种评阅装置，其特征在于，包括：

获取模块，用于获取到待评分的数学文本；其中，所述数学文本包括标准答案以及用户作答内容，所述数学文本包括数学式子和文字信息；其中，所述数学文本为经过分词处理后的文本；

识别模块，用于将所述数学文本输入到评分预测模型中，利用所述评分预测模型对所述数学文本中的所述文字信息以及所述数学式子进行识别；其中，所述评分预测模型是利用不完整的数学文本进行训练得到的；其中，所述不完整的数学文本包括被掩盖的数学式子以及被掩盖的文字信息；

评分模块，用于基于识别结果对所述用户作答内容进行评分并输出得分率。

13.一种电子设备，其特征在于，包括：

存储器，用于存储程序数据，所述程序数据被执行时实现如权利要求1～11任一项所述的评阅方法中的步骤；

处理器，用于执行所述存储器存储的所述程序数据以实现如权利要求1～11任一项所述的评阅方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～11任一项所述的评阅方法中的步骤。