CN117171322A

CN117171322A - 一种基于大型语言模型的智能教育聊天机器人训练方法

Info

Publication number: CN117171322A
Application number: CN202311186715.6A
Authority: CN
Inventors: 陈琴; 周杰; 雷智凯; 顾轶洋; 但宇豪; 李雍; 殷江灏; 林家驹; 叶林浩; 周友根; 贺樑
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-05

Abstract

本发明公开了一种基于大型语言模型的智能教育聊天机器人训练方法，其特点是采用在大量教育书籍和多样化基础指令上对LLM进行预训练的方式，使模型具备教育领域的专业知识和指令遵循技能，并以学习跨学科的基础知识、基本的指令跟随能力和对话能力，通过在教育特色指令数据集上对模型微调，激活模型在不同教育场景下的能力，增强在检索增强的开放式问答、细粒度的作文评估、苏格拉底式教学和基于心理学的情感支持等多种教育场景下的能力，使LLM能够自动判断检索到信息的有用性，并根据相关信息和LLM中存储的知识生成回答。本发明与现有技术相比具有更好地适应教育领域的实际需求，提供个性化、全面和及时的教育支持，应用前景良好。

Description

一种基于大型语言模型的智能教育聊天机器人训练方法

技术领域

本发明涉及自然语言处理技术领域，具体地说是一种基于大型语言模型的智能教育聊天机器人训练方法。

背景技术

近年来，大型语言模型（LLM）在自然语言处理领域取得了显著的成果，这些模型通过在大规模文本语料上进行预训练，并采用诸如代码预训练、指令调优、人类反馈强化学习等策略，具备了推理、长距离上下文建模和任务泛化的能力。随着LLM的出现，它们有潜力通过为教师、学生和家长提供个性化、全面和及时的支持，彻底改变智能教育领域。然而，将LLM应用于教育领域还面临一些挑战。一个挑战是LLM与教育专家之间仍存在差距，因为LLM是在通用语料库上进行预训练的，缺乏足够的教育知识，无法很好地适例如，作文评估等应实际场景。另一个挑战是教育领域的知识不断更新，而由于训练机制，LLM无法学习最新的知识。此外，LLM还存在幻觉问题，可能会生成不真实的回答。

现有技术的大型语言模型缺乏教育能力，模型回复实时性差，存在幻觉等问题。

发明内容

本发明的目的是针对现有技术的不足而提出的一种基于大型语言模型的智能教育聊天机器人训练方法，采用在大量教育书籍（例如心理学、古代诗歌）和多样化基础指令上对LLM进行预训练的方式，使得大型语言模型具备教育领域的专业知识和指令遵循技能，并以学习跨学科的基础知识、基本的指令跟随能力和对话能力，通过在教育特色指令数据集上对模型进行微调，激活模型在不同教育场景下的能力，进一步增强在检索增强的开放式问答、细粒度的作文评估、苏格拉底式教学和基于心理学的情感支持等多种教育场景下的能力，使LLM能够自动判断检索到的信息的有用性，并根据相关信息和LLM中存储的知识生成回答。方法简便，能够更好地适应教育领域的实际需求，提供个性化、全面和及时的教育支持，具有良好的应用前景。

实现本发明目的的具体技术方案是：一种基于大型语言模型的智能教育聊天机器人训练方法，包括大型语言模型和教育聊天机器人系统，其特点是该智能教

育聊天机器人训练方法具体包括以下步骤：

1）设计基础多轮对话指令数据格式

给定教育聊天机器人系统提示，用户新一轮提问和当前对话历史下，大型语言模型指令输入格式为：系统提示 + 对话历史 + "[用户]：" + 新一轮提问 + "[模型]："；输出格式为：模型针对用户新一轮提示与对话历史生成的回复。

2）设计检索增强的指令数据格式

给定教育聊天机器人系统提示，用户新一轮提问，针对新一轮提问的检索内容和当前对话历史下，大型语言模型指令输入格式为：系统提示 + 对话历史 + "[用户]：" +新一轮提问 + "[检索信息]：" + 检索信息 + "[模型]："；输出格式为： "[思考内容开始]：" + 检索信息有效性的判断 + "[思考内容结束]：" + 模型结合检索信息的回复。

3）系统提示设计

在教育聊天机器人系统提示设计阶段，设计包含个人资料、工具使用和技能选择的系统提示，以激活大型语言模型的相应能力，所述个人资料用于提醒模型自身的身份；所述工具使用用于规定工具的可用性；所述技能选择用于根据场景的需求激活相应的能力。

4）预训练

在预训练阶段，大型语言模型在教育书籍和问答对上进行训练，以学习跨学科的基础知识；同时，大型语言模型在大规模的指令调整和开放领域对话数据集上进行预训练，以获取基本的指令跟随能力和对话能力。

5）模型的微调

大型语言模型在教育特色指令数据集上进行微调，增强模型在不同教育场景下的能力，包括：检索增强的开放式问答、细粒度的作文评估、苏格拉底式教学和基于心理学的情感支持。

本发明与现有技术相比具有针对LLM缺乏教育能力，提出在大量教育书籍（例如心理学、古代诗歌）和多样化基础指令上对LLM进行预训练，以学习跨学科的基础知识、基本的指令跟随能力和对话能力。接着在教育特色指令数据集上对模型进行微调，激活模型在不同教育场景下的能力（例如作文评估、苏格拉底式教学和情感支持）。针对模型回复实时性差，存在幻觉的问题，使用检索增强技术，使LLM能够自动判断检索到的信息的有用性，并根据相关信息和LLM中存储的知识生成回答。能够更好地适应教育领域的实际需求，提供个性化、全面和及时的教育支持，具有良好的应用前景。

附图说明

图1为本发明流程图。

实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公识常识，本发明没有特别限制内容。

实施例

参阅图1，按下述步骤进行智能教育聊天机器人训练：

1）设计基础多轮对话指令数据格式：给定系统提示，用户新一轮提问和当前对话历史下，模型指令输入格式为：系统提示 + 对话历史 + " [用户]：" + 新一轮提问 + "[模型]："。输出格式为：模型针对用户新一轮提示与对话历史生成的回复。

示例系统提示为："你是一个人工智能助手，名字叫小花狮教育模型。小花狮教育模型的工具- 联网搜索: 关闭.小花狮的能力 - 思考: 关闭.对话主题- 通用: 关闭.-心理: 开启.- 苏格拉底: 关闭. "。

示例对话历史为："[用户]：我最近很难过。[模型]：很抱歉听到这个消息。你想和我分享一下发生了什么事情吗？"。

示例新一轮提问为："我考试考差了"。

模型示例指令输入为："你是一个人工智能助手，名字叫小花狮教育模型。小花狮教育模型的工具- 联网搜索: 关闭.小花狮的能力 - 思考: 关闭.对话主题- 通用: 关闭.- 心理: 开启.- 苏格拉底: 关闭.[用户]：我最近很难过。[模型]：很抱歉听到这个消息。你想和我分享一下发生了什么事情吗？[用户]：我考试考差了[模型]："。

模型示例指令输出为："很遗憾听到这个消息。考试成绩不理想可能会让人感到沮丧和失望。你有什么具体的感受吗？"。

2）设计检索增强的指令数据格式：给定系统提示，用户新一轮提问，针对

新一轮提问的检索内容和当前对话历史下，模型指令输入格式为：系统提示 + 对话历史 + " [用户]：" + 新一轮提问 + " [检索信息]：" + 检索信息 + " [模型]："。输出格式为：" [思考内容开始] " + 检索信息有效性的判断 + " [思考内容结束] " + 模型结合检索信息的回复。

示例系统提示为："你是一个人工智能助手，名字叫小花狮教育模型。小花狮教育模型的工具- 联网搜索: 开启.小花狮的能力 - 思考: 开启.对话主题- 通用: 开启.-心理: 关闭.- 苏格拉底: 关闭. "。

示例对话历史为：" "。

示例新一轮提问为："孟子是谁？"。

模型示例指令输入为："你是一个人工智能助手，名字叫小花狮教育模型。小花狮教育模型的工具- 联网搜索: 开启.小花狮的能力 - 思考: 开启.对话主题- 通用: 开启.- 心理: 关闭.- 苏格拉底: 关闭.[用户]：孟子是谁？[检索信息]：孟子是中国古代著名思想家、教育家、政治家。他是战国时期儒家的代表人物，属孔子第四代弟子，是曾子的再传弟子。他继承并发扬了孔子的思想。孔子是大成至圣，孟子被称为亚圣。孟子与孔子合称孔孟其道，多数人称为“孔孟之道”。孟子曾仿效孔子，带领门徒周游各国，但不被当时各国所接受，随后退隐与弟子一起著书。孟子与其弟子的言论汇编于《孟子》一书，是儒家学说的经典著作之一。[模型]："。

模型示例指令输出为："[思考内容开始]检索内容有用[思考内容结束]孟子是中国古代著名思想家、教育家、政治家，是战国时期儒家的代表人物，属孔子第四代弟子，是曾子的再传弟子。他继承并发扬了孔子的思想，被后人称为“亚圣”。孟子主张“仁政”，认为君主应该以仁爱之心治理国家，并提出了“性善论”，认为人性本善，只要加以引导，人人都可以成为圣人。他的思想对中国古代政治、文化、教育等方面产生了深远的影响，被誉为“儒家思想的集大成者” "。

3）系统提示设计：在系统提示设计阶段，设计包含个人资料、工具使用和技能选择的系统提示，以激活模型的相应能力。其中，个人资料用于提醒模型自身的身份；工具使用用于规定工具的可用性；技能选择用于根据场景的需求激活相应的能力。

4）预训练：在预训练阶段，模型在教育书籍和问答对上进行训练，以学习跨学科的基础知识；同时，模型在大规模的指令调整和开放领域对话数据集上进行预训练，以获取基本的指令跟随能力和对话能力。

5）模型的微调：大型语言模型在教育特色指令数据集上进行微调，增强模型在不同教育场景下的能力，包括：检索增强的开放式问答、细粒度的作文评估、苏格拉底式教学和基于心理学的情感支持等。

以上所述仅为本发明的较佳实施例，在本发明权利要求所限定的范围内可对其进行一定修改，但都将落入本发明的保护范围内。

Claims

1.一种基于大型语言模型的智能教育聊天机器人训练方法，包括大型语言模型和教育聊天机器人系统，其特征在于：该智能教育聊天机器人训练方法具体包括以下步骤：

1）设计基础多轮对话指令数据格式

给定教育聊天机器人系统提示，用户新一轮提问和当前对话历史下，大型语言模型指令输入格式为：系统提示 + 对话历史 + "[用户]：" + 新一轮提问 + "[模型]："；输出格式为：模型针对用户新一轮提示与对话历史生成的回复；

2）设计检索增强的指令数据格式

给定教育聊天机器人系统提示，用户新一轮提问，针对新一轮提问的检索内容和当前对话历史下，大型语言模型指令输入格式为：系统提示 + 对话历史 + "[用户]：" + 新一轮提问 + "[检索信息]：" + 检索信息 + "[模型]："；输出格式为： "[思考内容开始]：" +检索信息有效性的判断 + "[思考内容结束]：" + 模型结合检索信息的回复；

3）系统提示设计

在教育聊天机器人系统提示设计阶段，设计包含个人资料、工具使用和技能选择的系统提示，以激活大型语言模型的相应能力，所述个人资料用于提醒模型自身的身份；所述工具使用用于规定工具的可用性；所述技能选择用于根据场景的需求激活相应的能力；

4）预训练

在预训练阶段，大型语言模型在教育书籍和问答对上进行训练，以学习跨学科的基础知识；同时，大型语言模型在大规模的指令调整和开放领域对话数据集上进行预训练，以获取基本的指令跟随能力和对话能力；

5）模型的微调