CN117252209A - 一种理科大题自动评分方法、系统、存储介质及处理终端 - Google Patents

一种理科大题自动评分方法、系统、存储介质及处理终端 Download PDF

Info

Publication number
CN117252209A
CN117252209A CN202311519462.XA CN202311519462A CN117252209A CN 117252209 A CN117252209 A CN 117252209A CN 202311519462 A CN202311519462 A CN 202311519462A CN 117252209 A CN117252209 A CN 117252209A
Authority
CN
China
Prior art keywords
scoring
question
model
answers
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311519462.XA
Other languages
English (en)
Other versions
CN117252209B (zh
Inventor
梁泽熙
陈崇雨
罗歆昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DMAI Guangzhou Co Ltd
Original Assignee
DMAI Guangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DMAI Guangzhou Co Ltd filed Critical DMAI Guangzhou Co Ltd
Priority to CN202311519462.XA priority Critical patent/CN117252209B/zh
Publication of CN117252209A publication Critical patent/CN117252209A/zh
Application granted granted Critical
Publication of CN117252209B publication Critical patent/CN117252209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种理科大题自动评分方法、系统、存储介质及处理终端,包括:将每个主观题题目的各得分点的参考答案及相应得分点分数进行标注,并连同对应的主观题题目,录入题库;构建提示词模板;根据主观题题目、预先标注的得分点参考答案和需评分的实际回答,以及构建的提示词模板,生成相应提示词;将提示词输入大型语言模型,输出得到实际回答是否包含各个评分点参考答案的判定结果;将非结构化的模型输出解析为得分点判定结果的布尔列表,并根据题库标注的得分点分数,计算实际评分;该系统包括基础数据采集模块、题库、提示词模板构建模块、提示词生成模块、大型语言模型、模型输出解析模块和评分模块;本发明评分精确度更高,健壮性更好。

Description

一种理科大题自动评分方法、系统、存储介质及处理终端
技术领域
本发明涉及人工智能技术领域,更具体的说是涉及一种理科大题自动评分方法、系统、存储介质及处理终端。
背景技术
目前,现有的主观题自动评分方案主要依赖关键词匹配和相似度计算等方法对学生答案进行评估。
但是,这些方法都存在一定的问题,导致评分精确度和健壮性不足:
(1)评分精确度:
基于关键词匹配的方案虽然能够提取关键词,但由于语言的多义性和复杂性,可能会忽略词义或语义,以及词与词之间的关系所隐藏的大量语义信息,容易造成评分不准确的情况,特别是对于含有语义深度的学科题目,效果会更为不理想;
(2)评分健壮性:
在目前的自动评分方案中,大部分算法都是基于文本相似度计算,没有考虑到文本中不同词对最终结果的影响权重不同,因此对回答中一些关键过程的判定不够灵敏,评分的健壮性也会受到很大的影响。
因此,如何克服语言表达的多义性和复杂性,以及相似度计算缺少权重等因素对评分效果的影响,从而优化自动评分方案,以便于提高自动评分的效果是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种理科大题自动评分方法、系统、存储介质及处理终端以解决背景技术中提到的部分技术问题。
为了实现上述目的,本发明采用如下技术方案:
一种理科大题自动评分方法,包括以下步骤:
S1.将每个主观题题目的各个得分点的参考答案以及相应的得分点分数进行标注,并连同对应的主观题题目,录入题库;
S2.构建提示词模板;
S3.根据主观题题目、预先标注的得分点参考答案和需要评分的实际回答,以及构建的提示词模板,生成相应的提示词;
S4.将提示词作为大型语言模型输入,输出得到实际回答是否包含各个评分点参考答案的判定结果,输出每个得分点是否得分;
S5.将非结构化的模型输出解析为得分点判定结果的布尔列表,并根据题库标注的得分点分数,计算得到实际的评分。
优选的,S2中的提示词模板包括:
明确指示要求模型执行主观题评分任务;
先解析主观题,再给出评分判定;
明确模型输出格式。
优选的,明确模型输出格式的具体内容为:给出明确的输出模版定义,并使用分隔符来区分格式描述和槽位。
优选的,输出的模板定义的具体内容包括:问题,参考解决方案及参考步骤,学生的解决方案,以及学生的解决方案是否与参考解决方案步骤n相同,n≥1。
优选的,S2包括构建大型语言模型提示词模板或使用自动提示词工程技术构建提示词模板。
优选的,S3中的大型语言模型包括通用大模型或使用基于一定量训练数据对通用大模型微调后的定制模型。
一种理科大题自动评分系统,基于所述的一种理科大题自动评分方法,包括基础数据采集模块、题库、提示词模板构建模块、提示词生成模块、大型语言模型、模型输出解析模块和评分模块;
基础数据采集模块,用于获取并将每个主观题题目的各个得分点的参考答案以及相应的得分点分数进行标注,并连同对应的主观题题目,录入题库;
提示词模板构建模块,用于构建提示词模板;
提示词生成模块,用于根据主观题题目、预先标注的得分点参考答案和需要评分的实际回答,以及构建的提示词模板,生成相应的提示词;
大型语言模型,根据输入的提示词输出得到实际回答是否包含各个评分点参考答案的判定结果,输出每个得分点是否得分;
模型输出解析模块,用于将非结构化的模型输出解析为得分点判定结果的布尔列表;
评分模块,用于根据题库标注的得分点分数,计算得到实际的评分。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的一种理科大题自动评分方法。
一种处理终端,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现所述的一种理科大题自动评分方法。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种理科大题自动评分方法、系统、存储介质及处理终端,将题库标注的题目数据和大型语言模型的推理能力相结合,能够处理主观题作答中由自然语言带来的多义性和复杂性,将评分粒度细化到得分点级别,和常见评分方案只给出总分相比,评分的精确度更高;
本发明利用大型语言模型的深度语义能力,能够理解回答中影响结果推导的关键部位(例如一些运算结果的数值),可以检出与正确答案文本相似度很高的错误,评分的健壮性更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种理科大题自动评分方法示意图;
图2附图为本发明提供的一种理科大题自动评分系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种理科大题自动评分方法,如图1,包括以下步骤:
S1.将每个主观题题目的各个得分点的参考答案以及相应的得分点分数进行标注,并连同对应的主观题题目,录入题库;
S2.构建提示词模板;
S3.根据主观题题目、预先标注的得分点参考答案和需要评分的实际回答,以及构建的提示词模板,生成相应的提示词;
S4.将提示词作为大型语言模型输入,输出得到实际回答是否包含各个评分点参考答案的判定结果,输出每个得分点是否得分;
S5.将非结构化的模型输出解析为得分点判定结果的布尔列表,并根据题库标注的得分点分数,计算得到实际的评分。
为了进一步实施上述技术方案,S2中的提示词模板包括:
明确指示要求模型执行主观题评分任务;
先解析主观题,再给出评分判定;
明确模型输出格式。
在本实施例中,提示词模块的指令具体内容为:
你的任务是确定学生的答案是否正确;
要解决该问题,请执行以下操作:
首先解析问题的参考解,然后将参考答案与学生的答案进行比较,并评估学生的答案是否正确;
在你自己分析了问题的参考答案之前,不要判断学生的答案是否正确。
为了进一步实施上述技术方案,明确模型输出格式的具体内容为:给出明确的输出模版定义,并使用分隔符来区分格式描述和槽位。
在本实施例中,模型输出格式具体为:
使用以下格式:
问题:
```
此处有问题:
```
参考解决方案:
```
参考步骤:此处参考解决方案:
```
学生的解决方案:
```
这里是学生的解决方案:
```
学生的解决方案是否与参考解决方案相同步骤1:
```
是或否
```
学生的解决方案是否与参考解决方案相同步骤2:
```
是或否
```
学生的解决方案是否与参考解决方案相同步骤n:
```
是或否
```。
为了进一步实施上述技术方案,输出的模板定义的具体内容包括:问题,参考解决方案及参考步骤,学生的解决方案,以及学生的解决方案是否与参考解决方案步骤n相同,n≥1。
为了进一步实施上述技术方案,S2包括构建大型语言模型提示词模板或使用自动提示词工程技术构建提示词模板。
为了进一步实施上述技术方案,S3中的大型语言模型包括通用大模型或使用基于一定量训练数据对通用大模型微调后的定制模型。
以给定一道主观题为例:
S1.标注录入其题目、各个得分点的参考答案和分数到题库,如下表:
S2.定义提示词模板,用于大型语言模型推理。
给出明确指令要求模型执行主观题解析任务,并将该任务拆分为更细的子任务,具体和直接的指令有利于模型输出更准确的结果;
给出明确指令要求模型先解析主观题,再给出评分判定,这一指令能让模型有足够的时间去思考,而不是直接生成错误答案;
给出明确的输出模版定义,并使用分隔符来区分格式描述和槽位。
我们限定了模型需要判定的得分点个数(step1和step2)以及判定结果的标识(yes or no),有利于模型输出更准确的结果并便于后续非结构化数据解析。
S3.给定上述题目的实际答案输入:
解:当x=t时,t2-2t-1=0,则t2-2t=1,所以2t2-4t=2(t2-2t)=2.故答案为2.
根据先前定义的提示词模板和录入题库的题目数据,生成提示词:
Question(问题):
```
如果t是方程x^2-2x-1=0的根,那么代数式2t2-4t的值是多少.
```
Reference solution(参考解决方案):
```
step1:解:当x=t时,t2-2t-1=0,则t2-2t=1,
step2:所以2t2-4t=2(t2-2t)=2.故答案为2.
```
Student's solution(学生的解决方案):
```
解:当x=t时,t2-2t-1=0,则t2-2t=1,所以2t2-4t=2(t2-2t)=2.故答案为2.
```
Is the student's solution the same as reference solution step1(学生的解决方案是否与参考解决方案相同步骤1):
Is the student's solution the same as reference solution step2(学生的解决方案是否与参考解决方案相同步骤2):。
S4.大型语言模型推理输出结果:
Is the student's solution the same as reference solution step1:
```
yes
```
Is the student's solution the same as reference solution step 2:
```
yes
```。
S5.经由输出解析将以上非结构化输出转换为布尔列表[True,True],可得输入的实际答案在该题的两个得分点均得分,即得分点的得分为[5,5],总得分为10。
一种理科大题自动评分系统,如图2,基于一种理科大题自动评分方法,包括基础数据采集模块、题库、提示词模板构建模块、提示词生成模块、大型语言模型、模型输出解析模块和评分模块;
基础数据采集模块,用于获取并将每个主观题题目的各个得分点的参考答案以及相应的得分点分数进行标注,并连同对应的主观题题目,录入题库;
提示词模板构建模块,用于构建提示词模板;
提示词生成模块,用于根据主观题题目、预先标注的得分点参考答案和需要评分的实际回答,以及构建的提示词模板,生成相应的提示词;
大型语言模型,根据输入的提示词输出得到实际回答是否包含各个评分点参考答案的判定结果,输出每个得分点是否得分;
模型输出解析模块,用于将非结构化的模型输出解析为得分点判定结果的布尔列表;
评分模块,用于根据题库标注的得分点分数,计算得到实际的评分。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种理科大题自动评分方法。
一种处理终端,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现一种理科大题自动评分方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种理科大题自动评分方法,其特征在于,包括以下步骤:
S1.将每个主观题题目的各个得分点的参考答案以及相应的得分点分数进行标注,并连同对应的主观题题目,录入题库;
S2.构建提示词模板;
S3.根据主观题题目、预先标注的得分点参考答案和需要评分的实际回答,以及构建的提示词模板,生成相应的提示词;
S4.将提示词作为大型语言模型输入,输出得到实际回答是否包含各个评分点参考答案的判定结果,输出每个得分点是否得分;
S5.将非结构化的模型输出解析为得分点判定结果的布尔列表,并根据题库标注的得分点分数,计算得到实际的评分。
2.根据权利要求1所述的一种理科大题自动评分方法,其特征在于,S2中的提示词模板包括:
明确指示要求模型执行主观题评分任务;
先解析主观题,再给出评分判定;
明确模型输出格式。
3.根据权利要求2所述的一种理科大题自动评分方法,其特征在于,明确模型输出格式的具体内容为:给出明确的输出模版定义,并使用分隔符来区分格式描述和槽位。
4.根据权利要求3所述的一种理科大题自动评分方法,其特征在于,输出的模板定义的具体内容包括:问题,参考解决方案及参考步骤,学生的解决方案,以及学生的解决方案是否与参考解决方案步骤n相同,n≥1。
5.根据权利要求1所述的一种理科大题自动评分方法,其特征在于,步骤S2中构建提示词模板包括构建大型语言模型提示词模板或使用自动提示词工程技术构建提示词模板。
6.根据权利要求1所述的一种理科大题自动评分方法,其特征在于,S3中的大型语言模型包括通用大模型或使用基于一定量训练数据对通用大模型微调后的定制模型。
7.一种理科大题自动评分系统,其特征在于,基于权利要求1-6任意一项所述的一种理科大题自动评分方法,包括基础数据采集模块、题库、提示词模板构建模块、提示词生成模块、大型语言模型、模型输出解析模块和评分模块;
基础数据采集模块,用于获取并将每个主观题题目的各个得分点的参考答案以及相应的得分点分数进行标注,并连同对应的主观题题目,录入题库;
提示词模板构建模块,用于构建提示词模板;
提示词生成模块,用于根据主观题题目、预先标注的得分点参考答案和需要评分的实际回答,以及构建的提示词模板,生成相应的提示词;
大型语言模型,根据输入的提示词输出得到实际回答是否包含各个评分点参考答案的判定结果,输出每个得分点是否得分;
模型输出解析模块,用于将非结构化的模型输出解析为得分点判定结果的布尔列表;
评分模块,用于根据题库标注的得分点分数,计算得到实际的评分。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6任意一项所述的一种理科大题自动评分方法。
9.一种处理终端,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如权利要求1-6任意一项所述的一种理科大题自动评分方法。
CN202311519462.XA 2023-11-15 2023-11-15 一种理科大题自动评分方法、系统、存储介质及处理终端 Active CN117252209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311519462.XA CN117252209B (zh) 2023-11-15 2023-11-15 一种理科大题自动评分方法、系统、存储介质及处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311519462.XA CN117252209B (zh) 2023-11-15 2023-11-15 一种理科大题自动评分方法、系统、存储介质及处理终端

Publications (2)

Publication Number Publication Date
CN117252209A true CN117252209A (zh) 2023-12-19
CN117252209B CN117252209B (zh) 2024-03-19

Family

ID=89137203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311519462.XA Active CN117252209B (zh) 2023-11-15 2023-11-15 一种理科大题自动评分方法、系统、存储介质及处理终端

Country Status (1)

Country Link
CN (1) CN117252209B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005045786A1 (en) * 2003-10-27 2005-05-19 Educational Testing Service Automatic essay scoring system
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN116029306A (zh) * 2023-03-30 2023-04-28 中南民族大学 一种限定域文科简答题自动评分方法
CN116702737A (zh) * 2023-08-07 2023-09-05 腾讯科技(深圳)有限公司 文案生成方法、装置、设备、存储介质及产品
CN116860925A (zh) * 2023-06-09 2023-10-10 国网吉林省电力有限公司吉林供电公司 基于LLMs提示词优化的电网调度智能问答系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005045786A1 (en) * 2003-10-27 2005-05-19 Educational Testing Service Automatic essay scoring system
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN116029306A (zh) * 2023-03-30 2023-04-28 中南民族大学 一种限定域文科简答题自动评分方法
CN116860925A (zh) * 2023-06-09 2023-10-10 国网吉林省电力有限公司吉林供电公司 基于LLMs提示词优化的电网调度智能问答系统及方法
CN116702737A (zh) * 2023-08-07 2023-09-05 腾讯科技(深圳)有限公司 文案生成方法、装置、设备、存储介质及产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
肖国亮 等: "智能评分技术应用效果的评价研究", 中国考试, no. 10, pages 17 - 27 *
陈龙: "基于文本相似度计算的主观题自动阅卷系统研究与实现", 中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑, no. 02, pages 127 - 554 *

Also Published As

Publication number Publication date
CN117252209B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
US10528878B2 (en) Tailoring question answering system output based on user experience
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
US20160071022A1 (en) Machine Learning Model for Level-Based Categorization of Natural Language Parameters
Deepak et al. OntoQuest: an ontological strategy for automatic question generation for e-assessment using static and dynamic knowledge
KR102259390B1 (ko) 앙상블 질의 응답을 위한 시스템 및 방법
CN107506346A (zh) 一种基于机器学习的中文阅读难度分级方法及系统
CN106649742A (zh) 数据库维护方法和装置
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
WO2016114790A1 (en) Reading difficulty level based resource recommendation
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
US10332411B2 (en) Computer-implemented systems and methods for predicting performance of automated scoring
CN112445831B (zh) 数据标注方法及装置
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN117252209B (zh) 一种理科大题自动评分方法、系统、存储介质及处理终端
CN113157932B (zh) 基于知识图谱表示学习的隐喻计算和装置
CN111666770B (zh) 一种语义匹配方法及装置
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
CN111949783A (zh) 知识库中问答结果生成方法及装置
CN112989001A (zh) 一种问答处理方法、装置、介质及电子设备
Walker The need for annotated corpora from legal documents, and for (Human) protocols for creating them: the attribution problem
Abdul-Kader et al. Automatic Web-Based Question Answer Generation System for Online Feedable New-Born Chatbot
CN113657097B (zh) 一种摘要事实一致性的评估验证方法及其系统
Chakravarthy et al. Opinion mining from student text review for choosing better online courses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant