CN117391902A

CN117391902A - 基于大语言模型的语文核心素养教育的评价方法和装置

Info

Publication number: CN117391902A
Application number: CN202311707772.4A
Authority: CN
Inventors: 郑国民; 孙波; 何珺; 齐腾达; 钱荃; 岳名扬; 赵一帆; 阮旺; 梁国铭; 王明轩; 王旭
Original assignee: Zhuhai Campus Of Beijing Normal University
Current assignee: Zhuhai Campus Of Beijing Normal University
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-01-12
Anticipated expiration: 2043-12-13
Also published as: CN117391902B

Abstract

本发明提供一种基于大语言模型的语文核心素养教育的评价方法和装置，涉及大数据处理技术领域，方法包括：获取教学语言文本数据；将教学语言文本数据输入至预先训练的语文核心素养教育评价模型，输出教学语言文本数据对应的编码结果；基于编码结果进行分析，得到面向语文核心素养的教学语言评价结果；其中，语文核心素养教育评价模型是基于拓展标注数据集进行训练得到，拓展标注数据集是基于初始标注数据集进行数据增强得到，初始标注数据集是基于预先构造的编码评价体系对历史教学语言文本数据进行编码得到；编码评价体系对历史教学语言文本数据编码，以对历史教学语言多维度评价。通过本发明提供的方法，得到面向语文核心素养的评价，效率高。

Description

基于大语言模型的语文核心素养教育的评价方法和装置

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种基于大语言模型的语文核心素养教育的评价方法和装置。

背景技术

教学讲述/对话是教学的重要形式和组成部分。语文学科的教育教学即是以师生、生生交互为典型特征。丰富的语言实践互动能培养学生语言的建构与运用，为发展和提升学生思维、审美的鉴赏与创造、文化的传承与理解奠定基础。由此可见，语文核心素养的提升和教学语言的内容密切相关，有必要评价教学语言内容在语文核心素养教育层面的价值。

现有技术中，对语文教学语言的分析与评价以专家的感性经验为主，缺乏基于量化数据的系统性探究，在教学语言文本数据较多的情况下，进行专家人工评价的效率很低，且受主观因素影响会导致评价准确性不高。

如何实现对于语文教学语言进行有效准确的评价，是目前需要解决的技术问题。

发明内容

本发明提供一种基于大语言模型的语文核心素养教育的评价方法和装置，用以解决现有技术中存在的缺陷。

本发明提供一种基于大语言模型的语文核心素养教育的评价方法，包括：

获取教学语言文本数据；

将所述教学语言文本数据输入至预先训练的语文核心素养教育评价模型，输出所述教学语言文本数据对应的编码结果；

基于所述编码结果进行分析，得到面向语文核心素养的教学语言评价结果；

其中，所述语文核心素养教育评价模型是基于拓展标注数据集进行训练得到，所述拓展标注数据集是基于初始标注数据集进行数据增强得到，所述初始标注数据集是基于预先构造的编码评价体系对历史教学语言文本数据进行编码得到；

所述编码评价体系用于对历史教学语言文本数据进行编码，以基于编码后的历史教学语言文本数据实现对于历史教学语言的多维度评价。

根据本发明提供的一种基于大语言模型的语文核心素养教育的评价方法，所述编码评价体系的构造过程，包括：

基于历史语文文献资料，通过文献计量法确定所述编码评价体系的多个维度以及每个维度的多个指标；

其中，所述编码评价体系的一级维度包括对话主体、对话目的、对话形式和对话内容；

所述对话主体的二级指标包括教师和学生，所述对话形式的二级指标包括发起互动、做出回应和进行反馈，所述对话目的的二级指标包括拓展和深化，所述对话内容的二级指标包括语言建构与运用、思维发展与提升、审美鉴赏与创造和文化传承与理解；

所述语言建构与运用的三级指标包括感知积累、梳理整合、理解分析和表达交流，所述思维发展与提升的三级指标包括联想想象、归纳比较、推理演绎和洞察反思，所述审美鉴赏与创造的三级指标包括审美体验、鉴赏评价和表现创造，所述文化传承与理解的三级指标包括关注了解、把握体认和传承借鉴。

根据本发明提供的一种基于大语言模型的语文核心素养教育的评价方法，所述语文核心素养教育评价模型的训练过程，包括：

获取历史教学语言文本数据，基于预先构造的编码评价体系对所述历史教学语言文本数据进行编码，得到初始标注数据集；

基于数据增强策略对所述初始标注数据集进行数据增强，得到拓展标注数据集；

通过所述拓展标注数据集对基础大语言模型进行训练，得到语文核心素养教育评价模型；其中，所述基础大语言模型是通过对预训练的神经网络模型进行训练得到。

根据本发明提供的一种基于大语言模型的语文核心素养教育的评价方法，所述初始标注数据集包括初始文本集以及对应的编码标签和初始编码说明；

所述基于数据增强策略对所述初始标注数据集进行数据增强，得到拓展标注数据集，包括：

对所述初始文本集和外部文本数据集进行文本增强处理，分别得到初始拓展文本集和外部标注数据集；其中，所述外部标注数据集包括外部文本集以及对应的编码标签；

基于所述初始编码说明，通过外部大语言模型对所述初始拓展文本集进行编码说明增强处理，得到初始拓展标注数据集；其中，所述初始拓展标注数据集包括初始拓展文本集以及对应的编码标签和初始拓展编码说明；所述外部大语言模型用于对所述初始拓展文本集进行编码说明增强处理；

基于所述外部标注数据集和所述初始拓展标注数据集，得到所述拓展标注数据集。

根据本发明提供的一种基于大语言模型的语文核心素养教育的评价方法，在基于所述外部标注数据集和所述初始拓展标注数据集，得到所述拓展标注数据集之后，所述方法还包括：

基于所述拓展标注数据集进行维度编码分析，得到训练标注数据集；

其中，所述训练标注数据集包括先修子集和后修子集，所述先修子集包括先修文本集以及对应的先修维度的编码标签和编码说明，所述后修子集包括后修文本集以及对应的后修维度的编码标签和编码说明。

根据本发明提供的一种基于大语言模型的语文核心素养教育的评价方法，在基于所述拓展标注数据集进行维度编码分析，得到训练标注数据集之后，所述方法还包括：

基于所述先修子集和所述后修子集分别进行提示词设计优化处理，分别得到先修训练指令和后修训练指令。

根据本发明提供的一种基于大语言模型的语文核心素养教育的评价方法，所述通过所述拓展标注数据集对基础大语言模型进行训练，得到语文核心素养教育评价模型，包括：

通过所述先修训练指令对所述基础大语言模型进行先修维度训练，得到初调大语言模型；

通过所述后修训练指令对所述初调大语言模型进行后修维度训练，得到语文核心素养教育评价模型。

根据本发明提供的一种基于大语言模型的语文核心素养教育的评价方法，所述获取教学语言文本数据，包括：

获取教学语音；

对所述教学语音进行文本转录处理，得到所述教学语言文本数据。

本发明还提供一种基于大语言模型的语文核心素养教育的评价装置，包括：

获取模块，用于获取教学语言文本数据；

编码模块，用于将所述教学语言文本数据输入至预先训练的语文核心素养教育评价模型，输出所述教学语言文本数据对应的编码结果；

评价模块，用于基于所述编码结果进行分析，得到面向语文核心素养的教学语言评价结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于大语言模型的语文核心素养教育的评价方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于大语言模型的语文核心素养教育的评价方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于大语言模型的语文核心素养教育的评价方法。

本发明提供的一种基于大语言模型的语文核心素养教育的评价方法和装置，通过获取教学语言文本数据，将教学语言文本数据输入至预先训练的语文核心素养教育评价模型，输出教学语言文本数据对应的编码结果，基于编码结果进行分析，得到面向语文核心素养的教学语言评价结果；其中，语文核心素养教育评价模型是基于拓展标注数据集进行训练得到，拓展标注数据集是基于初始标注数据集进行数据增强得到，初始标注数据集是基于预先构造的编码评价体系对历史教学语言文本数据进行编码得到，编码评价体系用于对历史教学语言文本数据进行编码，以基于编码后的历史教学语言文本数据实现对于历史教学语言的多维度评价。由此可知，本发明通过编码评价体系对历史教学语言文本数据进行编码得到初始标注数据集，通过对初始标注数据集进行数据增强得到用于进行模型训练的拓展标注数据集，保证数据量充足，提高模型训练准确性；基于拓展标注数据集训练得到语文核心素养教育评价模型，通过将教学语言文本数据输入至语文核心素养教育评价模型，输出编码结果，从而得到面向语文核心素养的教学语言评价结果，效率较高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于大语言模型的语文核心素养教育的评价方法的流程示意图之一；

图2是本发明提供的基于大语言模型的语文核心素养教育的评价方法的流程示意图之二；

图3是本发明提供的基于大语言模型的语文核心素养教育的评价方法的流程示意图之三；

图4是本发明提供的基于大语言模型的语文核心素养教育的评价方法的完整流程示意图；

图5是本发明提供的基于大语言模型的语文核心素养教育的评价方法的流程示意图之四；

图6是本发明提供的基于大语言模型的语文核心素养教育的评价装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明的一种基于大语言模型的语文核心素养教育的评价方法和装置。

需要说明的是，教学讲述/对话是教学的重要形式和组成部分。语文学科的教育教学即是以师生、生生交互为典型特征。丰富的语言实践互动能培养学生语言的建构与运用，为发展和提升学生思维、审美的鉴赏与创造、文化的传承与理解奠定基础。由此可见，语文核心素养的提升和教学语言的内容密切相关，有必要评价教学语言内容在语文核心素养教育层面的价值。

现有技术中，对语文教学语言的分析与评价以专家的感性经验为主，缺乏基于量化数据的系统性探究，在教学语言文本数据较多的情况下，进行专家人工评价的效率很低，且受主观因素影响会导致评价准确性不高。基于此，本发明实施例提出一种基于大语言模型的语文核心素养教育的评价方法，用于解决上述问题。

图1是本实施例提供的基于大语言模型的语文核心素养教育的评价方法的流程示意图之一，如图1所示，本实施例提供的基于大语言模型的语文核心素养教育的评价方法，包括：

步骤100、获取教学语言文本数据。

需要进行说明的是，在语文教学场景下，“对话”与“分享”是语文学习的本质特征，语文教育视角下的教学对话，指的是师生、生生、生师或学习共同体成员之间围绕语文教育教学目标的实现，在课堂、教研、讲座、会议等教学场域，形成彼此间良性的互动和语言交流活动。

具体地，本实施例中，首先获取课堂教学场景下的教学语音，教学语音可包括教师语音、师生互动语音对话等，对教学语音进行文本转录处理，得到教学语言文本数据。

步骤200、将所述教学语言文本数据输入至预先训练的语文核心素养教育评价模型，输出所述教学语言文本数据对应的编码结果。

步骤300、基于所述编码结果进行分析，得到面向语文核心素养的教学语言评价结果；

需要说明的是，目前，对语文教学对话的分析，以专家感性经验为主要分析载体，以理论思辨为主要分析形式，以课堂对话为唯一分析内容，忽视了语文的外延与生活的外延相等这一语文学习的重要特征，使得更为广阔鲜活的语文学习场域处在研究视野之外。同时，对语文教学对话的研究，存在缺乏指向语文学科的对话指标体系、需要人工编码大量语文教学对话数据等问题。因此，需要以通用性的课堂对话指标体系为基础，聚焦语文学习内容、学习规律和学习方式等特征，关联指向语文学习规律的对话形式、对话目的、对话主体与对话内容，建构指向语文核心素养的教学对话指标体系。基于此，本实施例提出一种编码评价体系，用于历史教学语言文本数据进行编码，以基于编码后的数据进行模型训练。

具体地，编码评价体系的构造过程，包括：

需要说明的是，历史语文文献资料的来源为Web of Science（WOS）数据库和相关数据库，收录了SCI、CSSCI和北大核心期刊文献，历史语文文献资料具体可以为近10年语文教学领域的期刊文献，以及高中语文课程标准（2017版、2020修订）、义教语文课程标准（2022版）等。

文献计量法是以文献体系和文献计量特征为研究对象，采用数学、统计学等计量研究方法，研究文献的分布结构、数量关系、变化规律，并进而探讨相应领域的结构、特征和规律的现代科学研究方法，能够从宏观视角对该领域研究状况提供科学客观的概述。

具体地，表1示出了此编码评价体系的具体构成。

表1

具体地，参见表1，该编码评价体系由对话主体、对话目的、对话形式和对话内容4个一级维度构成。其中，对话主体的二级指标为教师和学生；对话形式的二级指标为发起互动、做出回应和进行反馈；对话目的的二级指标为拓展和深化。

进一步地，采用文献计量法，系统梳理政策文件、语文课程标准、期刊论文，并进行词频分析，提炼语文课堂对话内容要素，以语言建构与运用、思维发展与提升、审美鉴赏与创造、文化传承与理解为对话内容的二级指标。

进一步地，语文教学中，对话内容维度的评价指标具有较高频次的出现率，且能够体现语文核心素养发展的综合性和情境性特征，并且能够体现语文学习的本质规律，居于教学对话研究与分析的核心地位。

因此，对话内容维度又包含若干三级指标：语言建构与运用包含感知积累梳理整合、理解分析、表达交流4个三级指标；思维发展与提升包含联想想象、归纳比较、推理演绎、洞察反思4个三级指标；审美鉴赏与创造包含审美体验、鉴赏评价、表现创造3个三级指标；文化传承与理解包含关注了解、把握体认、传承借鉴3个三级指标。

具体地，“语言建构与运用”类对话的功能为帮助学生积累语言材料和言语活动经验，结构化语文知识，在具体的语言情境中提升语言运用与表达的能力和水平；“思维发展与提升”类对话的功能为引导学生表获得对语言及文学形象的直觉体验，增强想象力，开拓精神意义空间，增强逻辑分析能力和批判性思维能力；“审美鉴赏与创造”类对话的功能为帮助学生获得并且表达个体审美和情感体验，表达或者创造心中的美好形象；“文化的传承与理解”类对话的功能在于帮助学生了解、领悟古今中外优秀的文化，增强文化自信和社会责任意识。同时，该编码评价体系还区分了对话主体、对话形式和对话目的，通过融合语文教学对话内容、主体、形式、目的4个维度，本实施例能够较好地探究语文教育教学规律，推动语文教育教学目标的实现。

进一步地，依据上述编码评价体系，选取名师课例开展人工编码。编码课例涵盖义务教育和高中各个学段，同时涵盖各种文体，具有广泛性和典型性。将最终获得的编码课例和编码句作为模型训练的核心数据。

在一个实施例中，将教学语言文本数据输入至预先训练的语文核心素养教育评价模型之后，输出该教学语言文本数据在上述编码评价体系下对应的编码结果，根据编码结果评价该教学语言文本数据在语文核心素养教育中的意义。

以上是对本实施例提供的基于大语言模型的语文核心素养教育的评价方法的步骤说明。从上述步骤的描述可以看出，根据本实施例提供的基于大语言模型的语文核心素养教育的评价方法，通过获取教学语言文本数据，将教学语言文本数据输入至预先训练的语文核心素养教育评价模型，输出教学语言文本数据对应的编码结果，基于编码结果进行分析，得到面向语文核心素养的教学语言评价结果；其中，语文核心素养教育评价模型是基于拓展标注数据集进行训练得到，拓展标注数据集是基于初始标注数据集进行数据增强得到，初始标注数据集是基于预先构造的编码评价体系对历史教学语言文本数据进行编码得到，编码评价体系用于对历史教学语言文本数据进行编码，以基于编码后的历史教学语言文本数据实现对于历史教学语言的多维度评价。由此可知，本实施例通过编码评价体系对历史教学语言文本数据进行编码得到初始标注数据集，通过对初始标注数据集进行数据增强得到用于进行模型训练的拓展标注数据集，保证数据量充足，提高模型训练准确性；基于拓展标注数据集训练得到语文核心素养教育评价模型，通过将教学语言文本数据输入至语文核心素养教育评价模型，输出编码结果，从而得到面向语文核心素养的教学语言评价结果，效率较高。

基于上述实施例，在本实施例中，图2是本实施例提供的基于大语言模型的语文核心素养教育的评价方法的流程示意图之二，如图2所示，所述语文核心素养教育评价模型的训练过程，包括：

步骤210、获取历史教学语言文本数据，基于预先构造的编码评价体系对所述历史教学语言文本数据进行编码，得到初始标注数据集。

需要说明的是，初始标注数据集包括初始文本集以及对应的编码标签和初始编码说明，其中，初始文本集为预先收集的教学语言文本，编码标签为上述编码评价体系中的标签，初始编码说明为人工基于编码评价体系中的标签对初始文本集进行编码标注得到的。

步骤220、基于数据增强策略对所述初始标注数据集进行数据增强，得到拓展标注数据集。

需要说明的是，数据增强策略可以为基于文本集进行文本增强处理或基于编码说明进行编码说明增强处理。

步骤230、通过所述拓展标注数据集对基础大语言模型进行训练，得到语文核心素养教育评价模型；其中，所述基础大语言模型是通过对预训练的神经网络模型进行训练得到。

具体地，基础大语言模型例如可以为GPT-3、T5等。GPT-3使用大量的无标签文本进行训练，并可以通过人类反馈来微调模型，使其更符合人类需求，GPT-3可以用于各种自然语言处理任务，如文本生成、文本分类、问答等；T5（Text-to-Text Transfer Transformer）可以将任何文本处理问题转换为“Text-to-Text”问题，即输入文本并生成新的文本作为输出，T5可以用于各种自然语言处理任务，如文本分类、问答、文本生成等。

上述基础大语言模型都是基于神经网络技术，经过大规模的训练和优化，可以学习语言的结构、规则和语义，并生成具有自然语言风格的文本或回答自然语言的问题。

本实施例提供的基于大语言模型的语文核心素养教育的评价方法，通过编码评价体系对历史教学语言文本数据进行编码得到初始标注数据集，通过对初始标注数据集进行数据增强得到用于进行模型训练的拓展标注数据集，保证数据量充足，提高模型训练准确性；基于拓展标注数据集训练得到语文核心素养教育评价模型，通过将教学语言文本数据输入至语文核心素养教育评价模型，输出编码结果，从而得到面向语文核心素养的教学语言评价结果，效率较高。

基于上述实施例，在本实施例中，所述初始标注数据集包括初始文本集以及对应的编码标签和初始编码说明；

图3是本实施例提供的基于大语言模型的语文核心素养教育的评价方法的流程示意图之三，图4是本实施例提供的基于大语言模型的语文核心素养教育的评价方法的完整流程示意图，结合图3和图4，对本实施例提供的语文核心素养教育评价模型的数据增强过程和模型训练过程进行说明。

步骤310、对所述初始文本集和外部文本数据集进行文本增强处理，分别得到初始拓展文本集和外部标注数据集；其中，所述外部标注数据集包括外部文本集以及对应的编码标签。

需要说明的是，数据增强是一种有效的数据处理方法，可以有效地增加模型的训练数据量，提高模型的文化维度，从而使其更加适应语文课堂对话评价的需求。

具体地，对初始文本集和外部文本数据集进行文本增强处理可包括近义增强策略和外部生成策略。

具体地，在初期编码数据量较少的情况下，可采取以下方法进行文本增强：

1、搜集网上的课堂对话，并用sota-LLM（星火）大语言模型做编码用于训练；

2、EDA（同义字词替换）；

3、用大语言模型做同义句和回译，即对每一句课堂对话，扩充一条同义句数据和一条回译数据。

进一步地，通过尝试通过调节lora的低秩矩阵的秩（lora_r），提高性能。

进一步地，训练时尝试不同Prompt提示训练，例如：

Prompt1、只输入句子，并明确分类维度，训练大语言模型得到句子编码；

Prompt2、输入句子，并明确分类维度，给出该维度下的标签值，训练大语言模型得到句子编码；

Prompt3、输入句子，明确分类维度，给出该维度下的标签值以及标签的意义，训练大模型得到句子编码。

步骤320、基于所述初始编码说明，通过外部大语言模型对所述初始拓展文本集进行编码说明增强处理，得到初始拓展标注数据集；其中，所述初始拓展标注数据集包括初始拓展文本集以及对应的编码标签和初始拓展编码说明；所述外部大语言模型用于对所述初始拓展文本集进行编码说明增强处理。

需要说明的是，外部大语言模型例如可以为GPT-3.5、星火大模型V3.0、BERT、XLNet等，本实施例对此不作详细说明。

具体地，通过外部生成策略，借助于外部大语言模型，对已有的无法确认维度的课例数据集进行编码说明增强。具体的Prompt提示设计如下：

1、输入生成数据的需求

1）给模型输入文化传承与理解的编码规则和定义：

Input：①关注了解：这指的是在课堂对话中，教师和学生有意识地关注语言材料中的文化要素，例如历史文化、文学艺术、伦理道德等，并将其联系到日常生活，以便更深入地理解文本。②把握体认：在特定的文化语境中，师生一起理解古今中外优秀文化的典型特征，主动体悟并发现不同文化之间的特点和差异。这包括了文化要素的深入理解和阐释。③传承借鉴：这一指标强调学生和教师在语文实践活动中吸收、融合古今中外优秀文化精华，运用这些知识并参与各种文化活动。同时，它也强调增强社会责任意识，使学生明白自身在社会中承担的责任。

2）给模型输入10个具体维度的数据例句（例句的格式相同）；

格式如下：{'content': '师：在阅读《红楼梦》这部古代文学名著时，我们可以从中汲取关于家族伦理、人性弱点和社会变迁的深刻启示。', 'summary': '传承借鉴'}。

2、不同维度的生成输入

1）关注了解：

Input：编码规则：关注了解是指在课堂对话中，师生有意识地关注语言材料中的文化要素，例如历史文化、文学艺术、伦理道德等，联系到日常生活，了解古今中外优秀文化，以便更深入地理解文本，例如，在学习古诗词时，了解作者所处的时代背景，将文学作品与日常生活联系起来。请依据给出的关注了解的编码规则，仿照给出的例句，在关注了解维度上生成20个例句，要求生成的例句和给出的例句格式相同。

2）把握体认：

Input：编码规则：把握体认是指在教育过程中，通过创造适当的文化环境和语境，引导并帮助学生更好地理解、认识和体验古今中外的优秀文化的典型特征和差异，以促进跨文化的理解和尊重。请依据给出的把握体认的编码规则，仿照给出的例句，在把握体认维度上生成20个例句，要求生成的例句和给出的例句格式相同。

3）传承借鉴：

Input：编码规则：传承借鉴是指在语文实践活动中，师生积极主动地吸收、融合古今中外优秀文化精华，尤其是中华优秀传统文化、先进文化，并在课堂教学中具体的语言实践活动中进行借鉴和运用。例如，在口头作文、演讲或角色扮演过程中，师生将自身所了解到的古今中外文化精华有机地融入到自己讲述的内容之中，并恰当自然地呈现出来，以帮助他人更好地理解、体悟自己所讲述的内容。同时，传承借鉴也强调在具体的语文实践活动中，师生共同组织和参与各类文化活动。请依据给出的传承借鉴的编码规则，仿照给出的例句，在传承借鉴维度上生成20个例句，要求生成的例句和给出的例句格式相同。

具体地，对外部大语言模型输出数据进行筛选，去除重复数据或格式不正确的数据，将筛选后的数据加入训练集中。表2示出了进行编码说明增强后的统计结果。

表2

步骤330、基于所述外部标注数据集和所述初始拓展标注数据集，得到所述拓展标注数据集。

步骤340、基于所述拓展标注数据集进行维度编码分析，得到训练标注数据集；

步骤350、基于所述先修子集和所述后修子集分别进行提示词设计优化处理，分别得到先修训练指令和后修训练指令。

步骤360、通过所述先修训练指令对所述基础大语言模型进行先修维度训练，得到初调大语言模型。

步骤370、通过所述后修训练指令对所述初调大语言模型进行后修维度训练，得到语文核心素养教育评价模型。

需要说明的是，模型训练过程中融合多种训练方式优化模型性能，利用混合式和课程式训练方式，获得一套对各维度均适用的模型参数，并在训练过程中引入“思维链”增强模型的推理能力。

需要说明的是，LoRa微调是一种高效的参数优化方法，它可以有效地调整大语言模型编码体系中的参数，从而提高编码体系的准确率。为了将编码评价体系应用于语文课堂教学语言的评价，采用LoRa微调的参数设置。

混合训练：这种训练策略基于基础模型的参数，合并各个维度的训练数据，并使用合并后的数据集训练。这种策略的优势包括使得各维度间的知识可以作为彼此的参考；且仅需训练出一套参数即可对各维度均进行编码。

课程式训练：这种训练策略先基于基础模型的参数在“先修”维度的训练数据上进行训练，再使用目标维度的训练数据进行训练。“先修”维度是在单维度训练下编码准确率性能较高的维度（例如实际结果中为的“对话形式”和“对话目的”），认为在这些维度上的编码任务较为简单。这种策略借鉴了人类学习中“从易到难”、“循序渐进”的思想，让模型在拥有完成简单任务的基本能力后，再学习完成复杂的任务。

具体的Prompt设计说明如下：

根据语文教学文本编码体系内对各维度的各指标的定义，构造Prompt，以对话形式维度为例：

“语文课堂上的对话在对话形式（维度名称）维度上有4（维度编码种类数，含“不能确定”）种编码类别，这些类别的名称和定义是：

联想想象（A）：就文本内容或形式展开联想和想象，获得对语言及文学形象的直觉体验。（各编码类别名称、代码及定义）

……

不能确定（X）：明显没有指向以上任何一种编码类别。（额外增加的定义）

以下是一条语文课堂对话文本，请将这些文本分别编码为以上4类中的1类，要求给出编码类别：{语文教学文本}”。

进一步地，为了提高语文核心素养教育评价模型的准确率，引入思维链。思维链是一种prompt设计方法，可以将复杂的推理过程转化为简单的文本描述，从而提高语文核心素养教育评价模型的推理能力。

需要说明的是，思维链（CoT）是一种改进的提示策略，用于提高大语言模型在复杂推理任务中的性能，如算术推理、常识推理和符号推理。思维链是一种离散式提示学习，相比于传统的上下文学习，即通过作为输入来让大模型补全输出，思维链多了中间的推导提示，带有思维链的模型输出给出了正确答案，而直接给出答案的传统提示学习，结果是错的。事实说明，带有推理过程的思维链模型具有更好的性能。

具体的Prompt设计说明如下：

确定目标：在思维链的设计过程中，首先需要确定训练目标，即希望通过思维链实现的功能。这一目标可以是为了帮助模型更好地理解数据，也可以是为了测试模型的推理能力。

考虑问题的复杂程度：基于确定的训练目标，应该考虑问题或任务应该具有多大的复杂程度。如果目标是为了测试推理能力，则问题应该较为简单，并且答案应该易于得出。如果目标是为了帮助模型更好地理解数据，则问题应该更为复杂，需要模型进行推理。

连贯性：设计思维链的prompt应该是一个连贯的、逻辑上相互关联的序列。这样可以帮助模型理解问题的背景，并更好地回答问题。

避免误导答案：在设置问题时，应避免任何可能导致模型产生误导答案的信息。这样可以确保模型进行正确的推理，而不是简单地寻找特定的答案。

基于上述说明，对于prompt的框架设计示例如下：

PROMPT_PATTERN="发生在语文课堂上师生之间的课堂对话，在思维发展与提升维度上可以分为联想想象、归纳比较、推理演绎、洞察反思和无法确定五个类别。请你对#{}#这句课堂对话进行分类，并把你的分类结果输出出来。答："。

训练集中的思维链实例如下：

{'content': '师：我觉得还不够味，我们离杨某的文字有距离。', 'summary': '因为教师在与学生交流过程中对学生的朗读表现提出质疑，引导学生对作者在文章寄寓的情感进行反思。所以这段对话的分类结果是：洞察反思'}。

思维链的格式如下：

{'content': '问题', 'summary': '因为。。。，所以。。。'}。

需要说明的是，思维链的构造方式遵循<问题，推理，结果>的形式即可，本实施对于思维链的构造方式不作任何特别限定。

具体地，基于LoRA方法在训练集上使用Aquila2-7B模型进行训练，设置训练轮次为20次，训练完成后在测试集进行测试，提高模型的准确率。表3示出了基于LoRA方法，在最优的基础大语言模型的基础上，利用经数据增强策略得到的训练标注数据集，采用上述训练策略，训练得到最优的语文核心素养教育评价模型，进行编码测试的结果。

表3

基于上述实施例，在本实施例中，图5是本实施例提供的基于大语言模型的语文核心素养教育的评价方法的流程示意图之四，如图5所示，步骤100中获取教学语言文本数据，包括：

步骤510、获取教学语音。

步骤520、对所述教学语音进行文本转录处理，得到所述教学语言文本数据。

下面对本发明提供的基于大语言模型的语文核心素养教育的评价装置进行描述，下文描述的基于大语言模型的语文核心素养教育的评价装置与上文描述的基于大语言模型的语文核心素养教育的评价方法可相互对应参照。

图6是本实施例提供的基于大语言模型的语文核心素养教育的评价装置的结构示意图，如图6所示，本实施例提供的基于大语言模型的语文核心素养教育的评价装置，包括：

获取模块601，用于获取教学语言文本数据；

编码模块602，用于将所述教学语言文本数据输入至预先训练的语文核心素养教育评价模型，输出所述教学语言文本数据对应的编码结果；

评价模块603，用于基于所述编码结果进行分析，得到面向语文核心素养的教学语言评价结果；

本实施例提供的基于大语言模型的语文核心素养教育的评价装置，通过获取教学语言文本数据，将教学语言文本数据输入至预先训练的语文核心素养教育评价模型，输出教学语言文本数据对应的编码结果，基于编码结果进行分析，得到教学语言评价结果；其中，语文核心素养教育评价模型是基于拓展标注数据集进行训练得到，拓展标注数据集是基于初始标注数据集进行数据增强得到，初始标注数据集是基于预先构造的编码评价体系对历史教学语言文本数据进行编码得到，编码评价体系用于对历史教学语言文本数据进行编码，以基于编码后的历史教学语言文本数据实现对于历史教学语言的多维度评价。由此可知，本实施例通过编码评价体系对历史教学语言文本数据进行编码得到初始标注数据集，通过对初始标注数据集进行数据增强得到用于进行模型训练的拓展标注数据集，保证数据量充足，提高模型训练准确性；基于拓展标注数据集训练得到语文核心素养教育评价模型，通过将教学语言文本数据输入至语文核心素养教育评价模型，输出编码结果，从而得到面向语文核心素养的教学语言评价结果，效率较高。

基于上述实施例，在本实施例中，所述装置还包括训练模块，具体用于：

所述装置还包括数据增强模块，具体用于：

基于上述实施例，在本实施例中，所述装置还包括编码分析模块，具体用于：

在基于所述外部标注数据集和所述初始拓展标注数据集，得到所述拓展标注数据集之后，基于所述拓展标注数据集进行维度编码分析，得到训练标注数据集；

基于上述实施例，在本实施例中，所述装置还包括提示优化模块，具体用于：

在基于所述拓展标注数据集进行维度编码分析，得到训练标注数据集之后，基于所述先修子集和所述后修子集分别进行提示词设计优化处理，分别得到先修训练指令和后修训练指令。

基于上述实施例，在本实施例中，所述训练模块，具体用于：

基于上述实施例，在本实施例中，所述获取模块601，具体用于：

获取教学语音；

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行基于大语言模型的语文核心素养教育的评价方法，该方法包括：

获取教学语言文本数据；

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于大语言模型的语文核心素养教育的评价方法，该方法包括：

获取教学语言文本数据；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于大语言模型的语文核心素养教育的评价方法，该方法包括：

获取教学语言文本数据；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于大语言模型的语文核心素养教育的评价方法，其特征在于，包括：

获取教学语言文本数据；

2.根据权利要求1所述的基于大语言模型的语文核心素养教育的评价方法，其特征在于，所述编码评价体系的构造过程，包括：

3.根据权利要求1所述的基于大语言模型的语文核心素养教育的评价方法，其特征在于，所述语文核心素养教育评价模型的训练过程，包括：

4.根据权利要求3所述的基于大语言模型的语文核心素养教育的评价方法，其特征在于，所述初始标注数据集包括初始文本集以及对应的编码标签和初始编码说明；

5.根据权利要求4所述的基于大语言模型的语文核心素养教育的评价方法，其特征在于，在基于所述外部标注数据集和所述初始拓展标注数据集，得到所述拓展标注数据集之后，所述方法还包括：

6.根据权利要求5所述的基于大语言模型的语文核心素养教育的评价方法，其特征在于，在基于所述拓展标注数据集进行维度编码分析，得到训练标注数据集之后，所述方法还包括：

7.根据权利要求6所述的基于大语言模型的语文核心素养教育的评价方法，其特征在于，所述通过所述拓展标注数据集对基础大语言模型进行训练，得到语文核心素养教育评价模型，包括：

8.根据权利要求1所述的基于大语言模型的语文核心素养教育的评价方法，其特征在于，所述获取教学语言文本数据，包括：

获取教学语音；

9.一种基于大语言模型的语文核心素养教育的评价装置，其特征在于，包括：

获取模块，用于获取教学语言文本数据；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述基于大语言模型的语文核心素养教育的评价方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于大语言模型的语文核心素养教育的评价方法。