CN117252209A

CN117252209A - 一种理科大题自动评分方法、系统、存储介质及处理终端

Info

Publication number: CN117252209A
Application number: CN202311519462.XA
Authority: CN
Inventors: 梁泽熙; 陈崇雨; 罗歆昱
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2023-12-19
Anticipated expiration: 2043-11-15
Also published as: CN117252209B

Abstract

本发明公开了一种理科大题自动评分方法、系统、存储介质及处理终端，包括：将每个主观题题目的各得分点的参考答案及相应得分点分数进行标注，并连同对应的主观题题目，录入题库；构建提示词模板；根据主观题题目、预先标注的得分点参考答案和需评分的实际回答，以及构建的提示词模板，生成相应提示词；将提示词输入大型语言模型，输出得到实际回答是否包含各个评分点参考答案的判定结果；将非结构化的模型输出解析为得分点判定结果的布尔列表，并根据题库标注的得分点分数，计算实际评分；该系统包括基础数据采集模块、题库、提示词模板构建模块、提示词生成模块、大型语言模型、模型输出解析模块和评分模块；本发明评分精确度更高，健壮性更好。

Description

一种理科大题自动评分方法、系统、存储介质及处理终端

技术领域

本发明涉及人工智能技术领域，更具体的说是涉及一种理科大题自动评分方法、系统、存储介质及处理终端。

背景技术

目前，现有的主观题自动评分方案主要依赖关键词匹配和相似度计算等方法对学生答案进行评估。

但是，这些方法都存在一定的问题，导致评分精确度和健壮性不足：

（1）评分精确度：

基于关键词匹配的方案虽然能够提取关键词，但由于语言的多义性和复杂性，可能会忽略词义或语义，以及词与词之间的关系所隐藏的大量语义信息，容易造成评分不准确的情况，特别是对于含有语义深度的学科题目，效果会更为不理想；

（2）评分健壮性：

在目前的自动评分方案中，大部分算法都是基于文本相似度计算，没有考虑到文本中不同词对最终结果的影响权重不同，因此对回答中一些关键过程的判定不够灵敏，评分的健壮性也会受到很大的影响。

因此，如何克服语言表达的多义性和复杂性，以及相似度计算缺少权重等因素对评分效果的影响，从而优化自动评分方案，以便于提高自动评分的效果是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种理科大题自动评分方法、系统、存储介质及处理终端以解决背景技术中提到的部分技术问题。

为了实现上述目的，本发明采用如下技术方案：

一种理科大题自动评分方法，包括以下步骤：

S1.将每个主观题题目的各个得分点的参考答案以及相应的得分点分数进行标注，并连同对应的主观题题目，录入题库；

S2.构建提示词模板；

S3.根据主观题题目、预先标注的得分点参考答案和需要评分的实际回答，以及构建的提示词模板，生成相应的提示词；

S4.将提示词作为大型语言模型输入，输出得到实际回答是否包含各个评分点参考答案的判定结果，输出每个得分点是否得分；

S5.将非结构化的模型输出解析为得分点判定结果的布尔列表，并根据题库标注的得分点分数，计算得到实际的评分。

优选的，S2中的提示词模板包括：

明确指示要求模型执行主观题评分任务；

先解析主观题，再给出评分判定；

明确模型输出格式。

优选的，明确模型输出格式的具体内容为：给出明确的输出模版定义，并使用分隔符来区分格式描述和槽位。

优选的，输出的模板定义的具体内容包括：问题，参考解决方案及参考步骤，学生的解决方案，以及学生的解决方案是否与参考解决方案步骤n相同，n≥1。

优选的，S2包括构建大型语言模型提示词模板或使用自动提示词工程技术构建提示词模板。

优选的，S3中的大型语言模型包括通用大模型或使用基于一定量训练数据对通用大模型微调后的定制模型。

一种理科大题自动评分系统，基于所述的一种理科大题自动评分方法，包括基础数据采集模块、题库、提示词模板构建模块、提示词生成模块、大型语言模型、模型输出解析模块和评分模块；

基础数据采集模块，用于获取并将每个主观题题目的各个得分点的参考答案以及相应的得分点分数进行标注，并连同对应的主观题题目，录入题库；

提示词模板构建模块，用于构建提示词模板；

提示词生成模块，用于根据主观题题目、预先标注的得分点参考答案和需要评分的实际回答，以及构建的提示词模板，生成相应的提示词；

大型语言模型，根据输入的提示词输出得到实际回答是否包含各个评分点参考答案的判定结果，输出每个得分点是否得分；

模型输出解析模块，用于将非结构化的模型输出解析为得分点判定结果的布尔列表；

评分模块，用于根据题库标注的得分点分数，计算得到实际的评分。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的一种理科大题自动评分方法。

一种处理终端，包括存储器和处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现所述的一种理科大题自动评分方法。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种理科大题自动评分方法、系统、存储介质及处理终端，将题库标注的题目数据和大型语言模型的推理能力相结合，能够处理主观题作答中由自然语言带来的多义性和复杂性，将评分粒度细化到得分点级别，和常见评分方案只给出总分相比，评分的精确度更高；

本发明利用大型语言模型的深度语义能力，能够理解回答中影响结果推导的关键部位（例如一些运算结果的数值），可以检出与正确答案文本相似度很高的错误，评分的健壮性更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种理科大题自动评分方法示意图；

图2附图为本发明提供的一种理科大题自动评分系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种理科大题自动评分方法，如图1，包括以下步骤：

S2.构建提示词模板；

为了进一步实施上述技术方案，S2中的提示词模板包括：

明确指示要求模型执行主观题评分任务；

先解析主观题，再给出评分判定；

明确模型输出格式。

在本实施例中，提示词模块的指令具体内容为：

你的任务是确定学生的答案是否正确；

要解决该问题，请执行以下操作:

首先解析问题的参考解，然后将参考答案与学生的答案进行比较，并评估学生的答案是否正确；

在你自己分析了问题的参考答案之前，不要判断学生的答案是否正确。

为了进一步实施上述技术方案，明确模型输出格式的具体内容为：给出明确的输出模版定义，并使用分隔符来区分格式描述和槽位。

在本实施例中，模型输出格式具体为：

使用以下格式:

问题:

```

此处有问题：

```

参考解决方案：

```

参考步骤:此处参考解决方案：

```

学生的解决方案:

```

这里是学生的解决方案：

```

学生的解决方案是否与参考解决方案相同步骤1:

```

是或否

```

学生的解决方案是否与参考解决方案相同步骤2:

```

是或否

```

学生的解决方案是否与参考解决方案相同步骤n:

```

是或否

```。

为了进一步实施上述技术方案，输出的模板定义的具体内容包括：问题，参考解决方案及参考步骤，学生的解决方案，以及学生的解决方案是否与参考解决方案步骤n相同，n≥1。

为了进一步实施上述技术方案，S2包括构建大型语言模型提示词模板或使用自动提示词工程技术构建提示词模板。

为了进一步实施上述技术方案，S3中的大型语言模型包括通用大模型或使用基于一定量训练数据对通用大模型微调后的定制模型。

以给定一道主观题为例：

S1.标注录入其题目、各个得分点的参考答案和分数到题库，如下表：

；

S2.定义提示词模板，用于大型语言模型推理。

给出明确指令要求模型执行主观题解析任务，并将该任务拆分为更细的子任务，具体和直接的指令有利于模型输出更准确的结果；

给出明确指令要求模型先解析主观题，再给出评分判定，这一指令能让模型有足够的时间去思考，而不是直接生成错误答案；

给出明确的输出模版定义，并使用分隔符来区分格式描述和槽位。

我们限定了模型需要判定的得分点个数（step1和step2）以及判定结果的标识（yes or no），有利于模型输出更准确的结果并便于后续非结构化数据解析。

S3.给定上述题目的实际答案输入：

解:当x=t时,t²-2t-1=0,则t²-2t=1,所以2t²-4t=2(t²-2t)=2.故答案为2.

根据先前定义的提示词模板和录入题库的题目数据，生成提示词：

Question（问题）:

```

如果t是方程x^2-2x-1=0的根,那么代数式2t²-4t的值是多少.

```

Reference solution（参考解决方案）:

```

step1:解:当x=t时,t²-2t-1=0,则t²-2t=1,

step2:所以2t²-4t=2(t²-2t)=2.故答案为2.

```

Student's solution（学生的解决方案）:

```

解:当x=t时,t²-2t-1=0,则t²-2t=1,所以2t²-4t=2(t²-2t)=2.故答案为2.

```

Is the student's solution the same as reference solution step1（学生的解决方案是否与参考解决方案相同步骤1）:

Is the student's solution the same as reference solution step2（学生的解决方案是否与参考解决方案相同步骤2）:。

S4.大型语言模型推理输出结果：

Is the student's solution the same as reference solution step1:

```

yes

```

Is the student's solution the same as reference solution step 2:

```

yes

```。

S5.经由输出解析将以上非结构化输出转换为布尔列表[True,True]，可得输入的实际答案在该题的两个得分点均得分，即得分点的得分为[5,5]，总得分为10。

一种理科大题自动评分系统，如图2，基于一种理科大题自动评分方法，包括基础数据采集模块、题库、提示词模板构建模块、提示词生成模块、大型语言模型、模型输出解析模块和评分模块；

提示词模板构建模块，用于构建提示词模板；

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种理科大题自动评分方法。

一种处理终端，包括存储器和处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现一种理科大题自动评分方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种理科大题自动评分方法，其特征在于，包括以下步骤：

S2.构建提示词模板；

2.根据权利要求1所述的一种理科大题自动评分方法，其特征在于，S2中的提示词模板包括：

明确指示要求模型执行主观题评分任务；

先解析主观题，再给出评分判定；

明确模型输出格式。

3.根据权利要求2所述的一种理科大题自动评分方法，其特征在于，明确模型输出格式的具体内容为：给出明确的输出模版定义，并使用分隔符来区分格式描述和槽位。

4.根据权利要求3所述的一种理科大题自动评分方法，其特征在于，输出的模板定义的具体内容包括：问题，参考解决方案及参考步骤，学生的解决方案，以及学生的解决方案是否与参考解决方案步骤n相同，n≥1。

5.根据权利要求1所述的一种理科大题自动评分方法，其特征在于，步骤S2中构建提示词模板包括构建大型语言模型提示词模板或使用自动提示词工程技术构建提示词模板。

6.根据权利要求1所述的一种理科大题自动评分方法，其特征在于，S3中的大型语言模型包括通用大模型或使用基于一定量训练数据对通用大模型微调后的定制模型。

7.一种理科大题自动评分系统，其特征在于，基于权利要求1-6任意一项所述的一种理科大题自动评分方法，包括基础数据采集模块、题库、提示词模板构建模块、提示词生成模块、大型语言模型、模型输出解析模块和评分模块；

提示词模板构建模块，用于构建提示词模板；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-6任意一项所述的一种理科大题自动评分方法。

9.一种处理终端，包括存储器和处理器，存储器中存储有可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如权利要求1-6任意一项所述的一种理科大题自动评分方法。