CN118377877A

CN118377877A - 教务大模型系统及数据清洗方法

Info

Publication number: CN118377877A
Application number: CN202410543363.3A
Authority: CN
Inventors: 冯欣悦
Original assignee: Foshan Polytechnic
Current assignee: Foshan Polytechnic
Priority date: 2024-05-05
Filing date: 2024-05-05
Publication date: 2024-07-23

Abstract

本申请涉及大模型技术领域，尤其涉及一种教务大模型及数据清洗方法。所述教务大模型系统包括：数据清洗子系统，根据预设的数据清洗规则对教务数据进行数据清洗得到第一清洗数据和第二清洗数据；前置大模型系统；后置大模型系统；大模型调取系统，计算用户提出的问题的特征向量和前置大模型系统的偏移矩阵的余弦相似度；若用户提出的问题的特征向量和前置大模型系统的偏移矩阵的余弦相似度大于预设的第一阈值时，使用前置大模型系统解答用户提出的问题。本申请提供的教务大模型系统，能够自动解答用户提出的教务问题，降低了人力成本。

Description

教务大模型系统及数据清洗方法

技术领域

本申请涉及大模型技术领域，尤其涉及一种教务大模型及数据清洗方法。

背景技术

目前教务活动和各类教务行政文件的传递都是通过网站公示以及通过辅导员传递至学生所在的班级群内。当学生或者老师在遇到一些不常见的教务问题时，通常难以找到对应问题的行政通知或者规定。

并且由于每个人的身份和年级不同，不同人问出的相同问题的答案可能对应于行政通知或者规定中的不同章节中的解答。

因此现有的教务问题的解答需要人工进行，人力成本较高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种教务大模型系统及数据清洗方法，能够降低人力成本。

第一方面，本申请提供了一种教务大模型系统，所述教务大模型系统包括：

数据清洗子系统，根据预设的数据清洗规则对教务数据进行数据清洗得到第一清洗数据和第二清洗数据，所述第一清洗数据不包括与身份或校区相关的教务数据，所述第二清洗数据为与身份或校区相关的教务数据；

前置大模型系统，使用第一清洗数据通过LoRA方法对通用大语言模型进行微调，得到前置大模型系统；

后置大模型系统，使用第二清洗数据通过LoRA方法对通用大语言模型进行微调，得到后置大模型系统；

大模型调取系统，通过预设的偏移矩阵提取方法获取前置大模型系统的偏移矩阵，通过预设的特征提取方法获取用户提出的问题的特征向量；计算用户提出的问题的特征向量和前置大模型系统的偏移矩阵的余弦相似度；若用户提出的问题的特征向量和前置大模型系统的偏移矩阵的余弦相似度大于预设的第一阈值时，使用前置大模型系统解答用户提出的问题。

可选的，所述大模型调取系统还包括，若用户提出的问题的特征向量和前置大模型系统的偏移矩阵的余弦相似度小于预设的第一阈值时：

生成关于用户的特征标识问题，所述特征标识问题包括用户提出的问题以及用户的校区和身份标识；

通过预设的偏移矩阵提取方法获取后置大模型系统的偏移矩阵，通过预设的特征提取方法获取用户的特征标识问题的特征向量；

计算用户的特征标识问题的特征向量和后置大模型系统的偏移矩阵的余弦相似度；

若用户的特征标识问题的特征向量和后置大模型系统的偏移矩阵的余弦相似度大于预设的第二阈值时，使用后置大模型系统解答用户提出的问题。

可选的，所述大模型调取系统还包括，若用户的特征标识问题的特征向量和后置大模型系统的偏移矩阵的余弦相似度小于预设的第二阈值，判断教务大模型系统无法解答用户的问题。

可选的，所述预设的偏移矩阵提取方法包括以下步骤：

获取通用大模型系统中在通过LoRA方法过程中的权重更新中所有使用到的ΔW矩阵；

将所有ΔW矩阵进行累加得到在通用大模型系统基础上通过LoRA方法训练后的大模型的偏移矩阵。

可选的，所述预设的特征提取方法包括以下步骤：

使用前置大模型的tokenizer将用户输入的问题转换成第一token；

将第一token输入到前置大模型中，通过前置大模型的词嵌入层获取用户提出的问题在词嵌入层的向量表示；

获取前置大模型中已插入ΔW矩阵的层节点作为第一调整层节点；

将用户提出的问题的词嵌入层的向量表示在前置大模型中前向传递通过预设数量的第一调整层节点后，将该第一调整层节点的输出作为用户输入的问题的特征向量。

可选的，所述预设的特征提取方法包括以下步骤：

使用后置大模型的tokenizer将特征标识问题转换成第二token；

将第二token输入到后置大模型中，通过后置大模型的词嵌入层获取特征标识问题在词嵌入层的向量表示；

获取后置大模型中插入ΔW矩阵的层节点作为第二调整层节点；

将特征标识问题在词嵌入层的向量表示在后置大模型中前向传递通过预设数量的第二调整层节点后，将该第二调整层节点的输出作为特征标识问题的特征向量。

可选的，所述预设的数据清洗规则包括：

按照教务文件的类型将教务文件分为校历文件、讲座通知、活动通知、表彰文件、办事指引和规章制度；

将校历文件、表彰文件和规章制度先筛选出来作为第一清洗数据的一部分；

根据选取的预设的校区和身份关键词列表，从讲座通知、活动通知和办事指引中筛选出来与校区或身份相关的教务文件作为第二清洗数据。

可选的，所述预设的校区和身份关键词列表包括：校区、年级和届。

第二方面，本申请提供了一种数据清洗方法，由第一方面所述的教务大模型系统中的数据清洗子系统执行，所述数据清洗方法包括：

获取学校的教务文件；

本申请提供的技术方案与现有技术相比具有如下优点：

本申请提供的教务大模型系统，根据教务文件特性，针对与身份和校区无关的教务文件训练得到前置大模型系统，针对与身份和校区相关的教务文件训练得到后置大模型系统，可以根据具体情况动态选择合适的模型进行回答。对于与身份、校区无关的问题，可以直接使用前置大模型系统进行快速回答，节省时间和资源。而对于复杂问题或者需要考虑身份、校区因素的问题，可以加入用户的身份和校区信息，选择后置大模型系统进行更深层次的处理和回答，提供更精准和个性化的解答。

并且本申请提供的大模型调取系统能够自动根据用户提出的问题和身份信息，动态选择前置或后置大模型系统进行回答。这种机制避免了每次输入都需要补充身份和校区信息导致token长度增长的问题，同时根据不同情况选择合适的模型，减少了计算资源的浪费，提高了系统的效率和性能。

因此，本申请提供的教务大模型系统，能够自动解答用户提出的教务问题，降低了人力成本。

附图说明

图1为本申请实施例提供的教务大模型系统的结构示意图；

图2为本申请实施例提供的执行教务大模型系统的流程示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但本申请还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本申请的一部分实施例，而不是全部的实施例。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

本申请实施例提供的教务大模型系统被部署在学校内或云端的服务器中，以向学生和教职工等用户群体提供教务咨询服务，从而减少人工回答教务问题的次数，进而节约人力成本。

而且对于构建一个减少人力成本的教务大模型而言，需要准确回答用户提出的问题，因此不能直接将教务文件提交给通用大语言模型进行学习。这是因为，对于教务问题上，通常由于每个人的身份和校区不同，同一问题可能有不同的正确回答，例如在不同的校区中，办理相同业务的流程和地点可能会有所不同，不同年级的学生可能有不同的课程安排，学生和教师身份的人也有不同的行政流程等。

而大语言模型在有准确答案的问题时表现才良好，在这种有多种答案的情形下，大模型容易模糊回答用户的问题，因此直接将教务文件提交给通用大语言模型进行学习后得到的教务大模型，其表现并不良好。

并且如果直接在每次用户提出问题时，自动补充用户的身份信息和校区信息会导致每次输入的token的长度变长，导致模型需要消耗更多的算力资源。

本申请实施例提供了一种教务大模型系统，所述教务大模型系统包括：

S202：获取教务文件，清洗得到第一清洗数据和第二清洗数据。

数据清洗子系统，根据预设的数据清洗规则对教务数据进行数据清洗得到第一清洗数据和第二清洗数据，所述第一清洗数据不包括与身份或校区相关的教务数据，所述第二清洗数据为与身份或校区相关的教务数据。

具体的，所述预设的数据清洗规则包括：

具体的，所述预设的校区或身份关键词列表包括：校区、年级和届。

具体的，在本申请实施例中，数据清洗的具体步骤为，先由教务工作人员选取能够用来作为教务问题咨询的一些教务文件，这些教务文件的种类一般包括校历文件、讲座通知、活动通知、表彰文件、办事指引和规章制度类型的文件。

然后，使用正则表达式从讲座通知、活动通知和办事指引类型的文件中，筛选出来具有“校区”、“年级”或“届”的讲座通知、活动通知或办事指引的文件，随后通过人工确定这些文件是否都与身份或校区相关，将包含关键词但不与身份或校区相关的文件排除之后，得到第二清洗数据。

将教务文件剩余的文件作为第一清洗数据。即直接将校历文件、表彰文件和规章制度先筛选出来作为第一清洗数据的一部分。然后将上述步骤中包含关键词但不与身份或校区相关的文件作为第一清洗数据的另一部分。

S204：根据第一清洗数据和第二清洗数据分别训练得到前置大模型系统和后置大模型系统。

前置大模型系统，使用第一清洗数据通过LoRA方法对通用大语言模型进行微调，得到前置大模型系统。

后置大模型系统，使用第二清洗数据通过LoRA方法对通用大语言模型进行微调，得到后置大模型系统。

在本申请实施例中，使用到的LoRA（Low-Rank Adaptation）方法是一种通过在通用大语言模型的Transformer层中插入低秩矩阵，用于微调通用大语言模型的现有技术，在本申请文件中不再详述其具体的工作原理。

在本实施例中，通过针对第一清洗数据和第二清洗数据中文件的类型，去选择直接将文件喂入通用大语言大模型或采用人工构建问答对的形式对通用大语言模型进行训练。在本申请实施例中，对于校历文件和表彰文件可以直接喂入通用大语言模型系统进行训练，对于规章制度由于文件内容过多，可以选择构建问答对后喂入通用大语言模型进行训练，例如：

Q1：纪律处分的类型有哪些？

A1：校规A，根据校规第A条的记载，纪律处分的类型有警告、记过、留校察看和开除学籍。

Q2：考试作弊会有什么处罚？

A2：校规B，根据校规第B条的记载，考试作弊会记过并通知家长。

在本申请实施例中，对于讲座通知、活动通知和办事指引类型的文件，由于各个文件的大小并不大，选择直接喂入通用大语言模型系统进行训练。

在另一实施例中，还可以通过分别直接将第一清洗数据和第二清洗数据分别喂入通用大语言模型中对通用大语言模型的教务知识进行补充，从而利用LoRA方法完成对大语言模型的微调，进而分别得到前置大模型系统和后置大模型系统。

S206：计算用户提出的问题的特征向量和前置大模型系统的偏移矩阵的余弦相似度，若大于预设的第一阈值时，使用前置大模型系统解答用户提出的问题。

具体的，所述预设的偏移矩阵提取方法包括以下步骤：

在LoRA方法中，ΔW矩阵实际上在LoRA方法在通用大语言模型中Transformer层中插入的低秩矩阵，而权重矩阵的更新过程是更新后的权重矩阵等于原权重矩阵和低秩矩阵ΔW的加合。

低秩矩阵ΔW在LoRA中描述了模型参数从原始状态到经过特定域训练后的状态的转变。这种转变反映了模型为适应教务领域数据而做出的调整。

基于此，形象的来说，如果将原来的通用大语言模型的初始能力视作为一个圆，那么微调后的前置大模型或后置大模型的能力可以视为其能力向教务领域偏移的不同形状椭圆。那么将所有ΔW矩阵进行累加得到的偏移矩阵而言，可以用来描述前置大模型或后置大模型能力偏移的方向。

具体的，所述预设的特征提取方法包括以下步骤：

具体的，在本申请实施例中预设数量为5或6。

在本申请实施例中，第一阈值是通过以下方法得到的：人工选取一部分前置大模型能够解答和无法解答的问题。按照上述实施例提供的方法分别得到这些问题的特征向量和偏移矩阵的余弦相似度。将计算得到的相似度分为两组，一组是模型能解答的问题的相似度，另一组是模型不能解答的问题的相似度。选取能够区分两组相似度的数值作为第一阈值。

其具体的工作原理在于，ΔW矩阵即是对于插入ΔW矩阵的层节点的模型参数的变化，同时在LoRA方法中通过损失回归的方式最终调整得到ΔW矩阵。在这种情况下，全部ΔW矩阵的加合即偏移矩阵代表了模型参数的线性变化。而对于用户提出的问题的特征向量通过前置大模型的层节点传递时，前置大模型会对这些特征向量进行线性变换以生成输出，因此，传递后的用户提出的问题的特征向量和偏移矩阵都属于同一个线性变换空间。

同时在本申请实施例中，选择将通过预设数量的第一调整层节点的输出作为用户提出的问题的特征向量，同时利用了特征向量被模型的领域特定调整的影响程度，来帮助区分用户提出的问题前置大模型是否能够解答。因为对于教务领域的问题来说，如果前置大模型通过其领域特定的训练已经学习到针对教务领域问题的有效表示，则其在前几层的输出就能较好地将这些教务领域问题映射到一个相近的特征空间中。而对于教务领域以外的问题来说，则无法将其映射到与教务领域相近的特征空间中。进而提高了通过余弦相似度上的判断前置大模型能否解答该问题的准确性。

S208：若余弦相似度小于预设的第一阈值时，生成特征标识问题，判断特征标识问题的特征向量和后置大模型系统的余弦相似度是否大于第二阈值，若是，选择后置大模型解答用户提出的问题。

具体的，所述大模型调取系统还包括，若用户提出的问题的特征向量和前置大模型系统的偏移矩阵的余弦相似度小于预设的第一阈值时：

在本申请实施例中，通过在用户提出问题后，在问题后面直接加上用户的身份和所在校区的文字信息，来得到特征标识问题。

具体的，所述预设的特征提取方法包括以下步骤：

使用后置大模型的tokenizer将特征标识问题转换成第二token；

具体的，将特征标识问题传递给后置大模型系统，用于使后置大模型系统解答用户的问题。

其中，预设数量，特征标识问题的特征向量和后置大模型系统的偏移矩阵的获取流程和效果与上述实施例中一致，在此不再详述。

S210：否则，判断教务大模型系统无法解答用户的问题。

具体的，所述大模型调取系统还包括，若用户的特征标识问题的特征向量和后置大模型系统的偏移矩阵的余弦相似度小于预设的第二阈值，判断教务大模型系统无法解答用户的问题。此步骤的后续做法，可以转为由人工解答教务大模型系统无法解答的问题。

综上所述，本申请提供的教务大模型其有益效果在于：

本申请提供的教务大模型系统，根据教务文件特性，针对与身份和校区无关的教务文件训练得到前置大模型系统，针对与身份和校区相关的教务文件训练得到后置大模型系统。对于与身份、校区无关的问题，可以直接使用前置大模型系统进行快速回答，节省时间和资源。而对于复杂问题或者需要考虑身份、校区因素的问题，可以加入用户的身份和校区信息，选择后置大模型系统进行更深层次的处理和回答，提供更精准和个性化的解答。

并且本申请实施例提供的大模型调取系统能够自动根据用户提出的问题和身份信息，动态选择前置或后置大模型系统进行回答。这种机制避免了每次输入都需要补充身份和校区信息导致token长度增长的问题，同时根据不同情况选择合适的模型，减少了计算资源的浪费，提高了系统的效率和性能。

因此，本申请实施例提供的教务大模型系统，能够自动解答用户提出的教务问题，降低了人力成本。

第二方面，本申请实施例提供了一种数据清洗方法，由上述实施例所述的教务大模型系统中的数据清洗子系统执行，所述数据清洗方法包括：

获取学校的教务文件；

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。另外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。而且，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。并且，在本申请实施例的描述中，“多个”是指两个或多于两个。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.教务大模型系统，其特征在于，所述教务大模型系统包括：

2.根据权利要求1所述的教务大模型系统，其特征在于，所述大模型调取系统还包括，若用户提出的问题的特征向量和前置大模型系统的偏移矩阵的余弦相似度小于预设的第一阈值时：

3.根据权利要求2所述的教务大模型系统，其特征在于，所述大模型调取系统还包括，若用户的特征标识问题的特征向量和后置大模型系统的偏移矩阵的余弦相似度小于预设的第二阈值，判断教务大模型系统无法解答用户的问题。

4.根据权利要求1或2所述的教务大模型系统，其特征在于，所述预设的偏移矩阵提取方法包括以下步骤：

5.根据权利要求1所述的教务大模型系统，其特征在于，所述预设的特征提取方法包括以下步骤：

6.根据权利要求2所述的教务大模型系统，其特征在于，所述预设的特征提取方法包括以下步骤：

使用后置大模型的tokenizer将特征标识问题转换成第二token；

7.根据权利要求1所述的教务大模型系统，其特征在于，所述预设的数据清洗规则包括：

8.根据权利要求7所述的教务大模型系统，其特征在于，所述预设的校区和身份关键词列表包括：校区、年级和届。

9.数据清洗方法，其特征在于，由权利要求1-6所述的教务大模型系统中的数据清洗子系统执行，所述数据清洗方法包括：

获取学校的教务文件；