CN117648430B

CN117648430B - 对话式大语言模型监督训练评价系统

Info

Publication number: CN117648430B
Application number: CN202410121885.4A
Authority: CN
Inventors: 赵静; 董桂峰; 樊静; 李文友; 杨亮文
Original assignee: Nanjing Dajing Tcm Information Technology Co ltd
Current assignee: Nanjing Dajing Tcm Information Technology Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-16
Anticipated expiration: 2044-01-30
Also published as: CN117648430A

Abstract

本发明公开了对话式大语言模型监督训练评价系统，涉及人工智能领域，改善了现有对话模型由于训练不到位造成语言模型出现回复效率低下、输出结果精度不足等问题的问题，包括数据获取模块：获取模型训练数据，初次训练模块：对对话式大语言模型进行初次训练，并获取模型训练数据，模型评价模块：根据模型训练数据计算模型评价系数进行语言模型分类，二次训练模块：根据语言模型分类数据对对话式大语言模型进行二次训练，本发明通过采用两次监督训练的方式对对话式大语言模型进行训练，能够有效提高对话式大语言模型的对话准确性和一致性，更好地满足用户对对话式大语言模型的需求。

Description

对话式大语言模型监督训练评价系统

技术领域

本发明属于人工智能领域，涉及机器学习技术，具体是对话式大语言模型监督训练评价系统。

背景技术

对话式大语言模型是指通过训练大规模对话数据得到的高容量语言模型，这类模型主要用于生成自然流畅的语言来回复问答或完成对话相关的任务，中医领域的对话式大语言模型能够生成符合中医领域语言风格的专业性对话回复，以及执行与中医领域相关的对话任务，对话式大语言模型的训练通常是基于深度学习技术，例如循环神经网络、长短期记忆网络和变形注意力机制等。

当前中医领域的大语言模型通常采用单次监督训练来实现模型的问答，由于训练不到位造成语言模型出现回复效率低下、输出结果精度不足等问题，为此，我们提出对话式大语言模型监督训练评价系统。

发明内容

针对现有技术的不足，本发明的目的是提供对话式大语言模型监督训练评价系统，本发明基于通过互联网获取的中医领域数据，使用中医领域数据对对话式大语言模型进行初次训练，并获取训练后模型的模型评价系数，根据模型评价系数设定阈值对对话式大语言模型进行评价分类，得到语言模型分类数据，根据语言模型分类数据对话式大语言模型进行二次训练。

为了实现上述目的，本发明采用了如下技术方案，对话式大语言模型监督训练评价系统各模块具体工作过程如下：

对话式大语言模型监督训练评价系统，包括：

数据获取模块：通过爬虫技术利用互联网获取中医领域数据，通过基于人工智能的对话生成模型对中医领域数据进行处理，得到模型训练数据；

初次训练模块：根据模型训练数据对对话式大语言模型进行初次训练，对训练结果进行获取，得到初次训练质量数据，针对初次训练质量数据通过混淆矩阵得到对话式大语言模型的对话准确率和对话召回率，利用对话式大语言模型的对话准确率和对话召回率计算得到对话式大语言模型的F1值；

模型评价模块：分别根据对话式大语言模型的对话准确率，对话召回率以及F1值计算得到模型评价系数，并对模型评价系数进行阈值划分，得到语言模型分类数据；

二次训练模块：根据语言模型分类数据对对话式大语言模型进行二次训练；

还包括服务器，所述数据获取模块、初次训练模块、模型评价模块和二次训练模块分别与服务器相连。

进一步地，数据获取模块获取模型训练数据，具体如下：

数据获取模块包括数据采集单元、样本生成单元以及样本划分单元；

数据采集单元使用Scrapy爬虫技术通过互联网获取中医领域数据；

样本生成单元根据中医领域数据获取训练样本基础数据；

样本划分单元通过训练样本划分比例将训练样本基础数据进行随机划分得到训练集数据和测试集数据；

综合训练集数据和测试集数据得到模型训练数据。

进一步地，样本生成单元获取训练样本基础数据，具体如下：

通过基于人工智能的对话生成模型将中医领域数据转换为问题和回答的对话对，例如：针对中医疾病的病例报告，将患者的症状定义为问题，将针对患者症状进行的治疗措施或症状对应的疾病名称作为回答；

使用符号“Q”对问题进行标注，使用符号“A”对回答进行标注，通过增加问题和回答的变体实现样本的泛化，以扩充样本的数量，由问题和回答的对话对得到训练样本基础数据。

进一步地，初次训练模块对对话式大语言模型进行初次训练，得到初次训练质量数据，具体如下：

初次训练模块包括模型训练单元和训练结果单元；

模型训练单元通过模型训练数据进行对话式大语言模型的初次训练，具体如下：

使用jieba分词工具将模型训练数据中的中文切分为单个词语，将模型训练数据中的英文切分为单词，使用Word2Vec映射工具将词语或单词映射为转换为固定维度的稠密向量来捕捉词语或单词的上下文关系；

选择Seq2Seq模型作为对话式大语言模型的建模架构，使用模型训练数据中用“Q”标注的问题作为输入数据，将对话式大语言模型自动生成的回复作为输出数据，设计无监督目标函数和用“A”标注的回答来引导对话式大语言模型的训练，由输入数据和输出数据得到一组对话对；

分别获取n个对话式大语言模型的输入数据和输出数据组成的多组对话对，由多组对话对得到初次训练结果数据；

训练结果单元根据初次训练结果数据获取初次训练质量数据。

进一步地，训练结果单元获取初次训练质量数据，具体如下：

根据初次训练结果数据获取对话式大语言模型的输入数据和输出数据，将输出数据与用“A”标注的回答进行答案匹配，使用混淆矩阵获取对话式大语言模型的对话准确率和对话召回率，并通过F1值计算公式，计算得到对话式大语言模型的F1值；

分别获取n个对话式大语言模型的对话准确率、对话召回率和F1值，由n个对话式大语言模型的对话准确率、对话召回率和F1值得到初次训练质量数据。

进一步地，模型评价模块根据初次训练质量数据计算模型评价系数进行语言模型分类，具体如下：

模型评价模块包括评价系数单元和评价分级单元；

评价系数单元根据初次训练质量数据计算模型评价系数；

评价分级单元根据模型评价系数进行语言模型分类；

由模型评价系数和模型评价系数阈值数据判断的结果得到语言模型分类数据。

进一步地，评价系数单元计算模型评价系数，具体如下：

根据初次训练质量数据获取对话式大语言模型的对话准确率、对话召回率和F1值；

将对话式大语言模型的对话准确率、对话召回率和F1值通过评价系数计算公式计算得到模型评价系数P _j；

分别获取n个对话式大语言的评价系数。

进一步地，评价分级单元对语言模型进行分类，具体如下：

根据初次训练质量数据分别获取n个对话式大语言模型的对话准确率、对话召回率和F1值；

将n个对话式大语言模型的对话准确率通过准确率平均数计算公式计算得到n个对话式大语言模型的平均对话准确率；

将n个对话式大语言模型的对话召回率通过召回率平均数计算公式计算得到n个对话式大语言模型的平均对话召回率；

将n个对话式大语言模型的对话F1值通过F1值平均数计算公式计算得到n个对话式大语言模型的平均对话F1值；

将n个对话式大语言模型的平均对话准确率、平均对话召回率和平均对话F1值通过评价系数阈值计算公式计算得到模型评价系数阈值数据P _j1；

根据模型评价系数和模型评价系数阈值数据获取语言模型分类数据，具体如下：

当P _j≥P _j1，判断对应对话式大语言模型为中医类高精度语言模型；

当0＜ P _j ＜ P _j1，判断对应对话式大语言模型为中医类低精度语言模型。

进一步地，二次训练模块对对话式大语言模型进行二次训练，具体如下：

二次训练模块包括半监督学习单元和迁移学习单元；

半监督学习单元对中医类低精度语言模型进行训练，具体如下：

根据模型训练数据获取训练集数据和测试集数据；

利用人工标注的方式对训练集数据中的问题和对应的正确回答进行标注，得到带有正确回答的训练数据样本并将作为标签数据，使用标签数据对中医类低精度语言模型进行初步训练；

将训练集数据中未标注问题和回答的数据作为无标签数据，通过Self-Training对无标签数据进行预测，并获取预测结果置信度高并进行置信度高低判断，将置信度高的无标签数据加入标签数据，成为新的标签数据，由此反复迭代，提高中医类低精度语言模型的精度和性能；

迁移学习单元对中医类高精度语言模型进行训练。

进一步地，迁移学习单元对中医类高精度语言模型进行训练，具体如下：

根据模型训练数据获取训练集数据；

在对中医类高精度语言模型进行无监督学习训练的基础上使用增量学习通过模型训练数据进行部分微调，针对输入的问题涉及的需求进行增量学习；

使用部分微调后的中医类高精度语言模型对无标签数据进行预测，得到伪标签，将伪标签加入标签数据中，扩充训练数据，使用扩充后的数据集进行重新训练，调整模型参数；

重复以上训练过程，对中医类高精度语言模型进行多次微调和自训练的迭代训练，以逐步提升模型在中医领域的性能和适应能力。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明通过采用两次监督训练的方式对对话式大语言模型进行训练，能够有效提高对话式大语言模型的对话准确性和一致性，更好地满足用户对对话式大语言模型的需求；

2、本发明通过获取对话式大语言模型的模型评价系数并据此对大语言模型进行分类，本根据语言模型分类数据针对不同的语言模型采取不同的训练方式，提高了对话式大语言模型的监督训练针对性。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的整体系统框图；

图2为本发明的实施步骤图；

图3为本发明中Scrapy爬虫技术的工作示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

请参阅图1和图2，本发明提供一种技术方案：对话式大语言模型监督训练评价系统，包括数据获取模块、初次训练模块、模型评价模块和二次训练模块，数据获取模块、初次训练模块、模型评价模块和二次训练模块分别与服务器相连；

数据获取模块获取模型训练数据；

数据获取模块包括数据采集单元、样本生成单元和样本划分单元，数据采集单元收集中医领域数据，样本生成单元对中医领域数据转化为对话对的格式并将其作为训练样本基础数据，样本划分单元将训练样本基础数据划分为训练集数据和测试集数据；

数据采集单元收集中医领域数据，具体如下：

使用Scrapy爬虫技术通过互联网获取中医领域数据；

此处需要说明的是：请参阅图3，Scrapy爬虫技术是一个开源的Python框架，用于快速、灵活地构建Web爬虫和数据抓取工具，在本实施例中，通过Scrapy爬虫技术获取中医领域数据符合相关法律要求和道德伦理准则；

样本生成单元根据中医领域数据获取训练样本基础数据，具体如下：

使用符号“Q”对问题进行标注，使用符号“A”对回答进行标注，通过增加问题和回答的变体实现样本的泛化，以扩充样本的数量，由问题和回答的对话对得到训练样本基础数据；

此处需要说明的是：

此处涉及的中医领域数据包括但不限于中医领域的相关文献、研究报告、学术论文、中医疾病的病例报告、中药材的分类、功效、用法和制剂方法、中医学术研究和临床实践的相关数据；

基于人工智能的对话生成模型是一类使用机器学习和自然语言处理技术来模拟自然语言对话的模型；

此处的变体指的是同一问题的不同表达方式，变体可以通过同义词替换、数据增强等方式实现；

样本划分单元通过训练样本划分比例将训练样本基础数据进行随机划分得到训练集数据和测试集数据；其中，所述训练样本划分比例配置为5:1；

数据获取模块由训练集数据和测试集数据得到模型训练数据并输送至初次训练模块和二次训练模块；

初次训练模块根据模型训练数据对对话式大语言模型进行初次训练，并获取初次训练质量数据；

初次训练模块包括模型训练单元和训练结果单元，模型训练单元通过模型训练数据进行对话式大语言模型的初次训练，训练结果单元获取初次训练结果数据；

选择Seq2Seq模型作为对话式大语言模型的建模架构，使用模型训练数据中用“Q”标注的问题作为输入数据，将对话式大语言模型自动生成的回复作为输出数据，设计无监督目标函数和用“A”标注的回答来引导对话式大语言模型的训练，由输入数据和输出数据得到一组对话对，由输入数据和输出数据得到一组对话对；

其中，无监督目标函数J具体配置：

J=(1/N)*∑i

=1 toN∑j

=1 toN(d(x _i，x _j) /N)/(1/M)*∑i

=1 toN∑j

=1 toM(d(x _i，y _j)/M)；

其中，N表示训练集数据的对话对数量，M表示测试集数据的对话对数量，x _i表示第i个训练集数据对话对，x _j表示第_j个训练集数据对话对，y _j表示第j个测试集数据对话对，d(· ，·)表示相似度度量方法；

重复上述过程，获取n个对话式大语言模型的输入数据和输出数据组成的多组对话对，由多组对话对得到初次训练结果数据；

此处需要说明的是：

jieba分词工具是一个基于Python的分词工具；

Word2Vec映射工具是一种用于将词语映射到低维向量空间的工具；

Seq2Seq模型是一种基于编码器－解码器结构的序列到序列模型；

固定维度的稠密向量是一种表示向量，它具有固定长度（维度）且每个元素都是实数，与稀疏向量不同，稠密向量中的大多数元素都是非零的，它常用于机器学习和自然语言处理等领域中的特征表示；

在本实施例中，针对对话式大语言模型进行初次训练使用的训练方法为无监督学习；

训练结果单元根据初次训练结果数据获取初次训练质量数据；

F1值计算公式具体配置为：

；

其中，Fz为对话式大语言模型的F1值，Zq为对话式大语言模型的对话准确率，Zh为对话式大语言模型的对话召回率；

重复上述过程，分别获取n个对话式大语言模型的对话准确率、对话召回率和F1值，由n个对话式大语言模型的对话准确率、对话召回率和F1值得到初次训练质量数据；

此处需要说明的是：

混淆矩阵是一个二维矩阵，用于比较模型的预测结果和真实标签之间的差异，根据混淆矩阵，可以计算出准确性和召回性；

对话准确率是指系统在对话中给出正确回答的比例，它衡量了对话系统在回答用户提问时的准确性和正确性，对话准确率通常以百分比进行表示；

对话召回率是指系统在对话中能够正确回答问题的能力，它衡量了系统对于多样化问题的覆盖程度，对话召回率通常以百分比进行表示；

模型评价模块根据初次训练质量数据计算模型评价系数进行语言模型分类；

模型评价模块包括评价系数单元和评价分级单元，评价系数单元根据初次训练质量数据计算模型评价系数，评价分级单元根据模型评价系数进行语言模型分类；

评价系数单元根据初次训练质量数据计算模型评价系数，具体如下：

评价系数计算公式具体配置为：

；

其中，P _j为模型评价系数，Fz为对话式大语言模型的F1值，Zq为对话式大语言模型的对话准确率，Zh为对话式大语言模型的对话召回率，a ₁为设定的F1值比例系数，且a ₁＞0；

重复上述过程，分别获取n个对话式大语言的评价系数；

评价分级单元根据模型评价系数进行语言模型分类，具体如下：

准确率平均数计算公式配置为：

；

其中，Zqp为n个对话式大语言模型的平均对话准确率，Zq1、Zq2、Zq3、……Zqn分别为n个对话式大语言模型的对话准确率；

召回率平均数计算公式配置为：

；

其中，Zhp为n个对话式大语言模型的平均对话召回率，Zh1、Zh2、Zh3、……Zhn分别为n个对话式大语言模型的对话召回率；

F1值平均数计算公式配置为：

；

其中，Zhp为n个对话式大语言模型的平均对话F1值，Fz1、Fz2、Fz3、……Fzn分别为n个对话式大语言模型的对话F1值；

评价系数阈值计算公式具体配置为：

；

其中，P _j1为模型评价系数阈值数据且P _j1＞0，Zqp为n个对话式大语言模型的平均对话准确率、Zhp为n个对话式大语言模型的平均对话召回率、Fzp为n个对话式大语言模型的平均对话F1值；

当0＜ P _j＜ P _j1，判断对应对话式大语言模型为中医类低精度语言模型；

由模型评价系数和模型评价系数阈值数据判断的结果得到语言模型分类数据；

模型评价模块将语言模型分类数据输送至二次训练模块；

二次训练模块根据语言模型分类数据对对话式大语言模型进行二次训练；

二次训练模块包括半监督学习单元和迁移学习单元；

根据模型训练数据获取训练集数据和测试集数据；

此处需要说明的是：此处使用的模型训练方法为半监督学习，半监督学习是一种通过结合有标签数据和无标签数据进行训练的机器学习方法，在中医类低精度语言模型的训练中，可以利用半监督学习来提高模型的精度和性能；

自训练（Self-Training）是一种半监督学习的方法，可以用于利用无标签数据来改进模型的性能；

迁移学习单元对中医类高精度语言模型进行训练，具体如下：

根据模型训练数据获取训练集数据；

重复上述过程，对中医类高精度语言模型进行多次微调和自训练的迭代训练，以逐步提升模型在中医领域的性能和适应能力。

此处需要说明的是：

无标签数据为未标注的训练集数据，标签数据为对问题及回答进行标注的训练集数据；

增量学习，也被称为在线学习或渐进式学习，是一种机器学习的方法，用于处理动态环境下的学习任务；

在本申请中，若出现相应的计算公式，则上述计算公式均是去量纲取其数值计算，公式中存在的权重系数、比例系数等系数，其设置的大小是为了将各个参数进行量化得到的一个结果值，关于权重系数和比例系数的大小，只要不影响参数与结果值的比例关系即可。

实施例2

基于同一发明的又一构思，现提出对话式大语言模型监督训练评价方法，包括如下步骤：

步骤S1：获取模型训练数据；

步骤S11：使用Scrapy爬虫技术通过互联网获取中医领域数据；

步骤S12：根据中医领域数据获取训练样本基础数据，具体如下：

步骤S121：通过基于人工智能的对话生成模型将中医领域数据转换为问题和回答的对话对；

步骤S122：使用符号“Q”对问题进行标注，使用符号“A”对回答进行标注，通过增加问题和回答的变体实现样本的泛化，以扩充样本的数量，由问题和回答的对话对得到训练样本基础数据；

步骤S13：通过训练样本划分比例将训练样本基础数据进行随机划分得到训练集数据和测试集数据；其中，所述训练样本划分比例配置为5:1；

步骤S14：由训练集数据和测试集数据得到模型训练数据；

步骤S2：根据模型训练数据对对话式大语言模型进行初次训练，并获取初次训练质量数据；

步骤S21：通过模型训练数据进行对话式大语言模型的初次训练，具体如下：

步骤S211：使用jieba分词工具将模型训练数据中的中文切分为单个词语，将模型训练数据中的英文切分为单词，使用Word2Vec映射工具将词语或单词映射为转换为固定维度的稠密向量来捕捉词语或单词的上下文关系；

步骤S212：选择Seq2Seq模型作为对话式大语言模型的建模架构，使用模型训练数据中用“Q”标注的问题作为输入数据，将对话式大语言模型自动生成的回复作为输出数据，设计无监督目标函数和用“A”标注的回答来引导对话式大语言模型的训练，由输入数据和输出数据得到一组对话对；

步骤S213：重复上述过程，获取n个对话式大语言模型的输入数据和输出数据组成的多组对话对，由多组对话对得到初次训练结果数据；

步骤S22：根据初次训练结果数据获取初次训练质量数据，具体如下：

步骤S221：根据初次训练结果数据获取对话式大语言模型的输入数据和输出数据，将输出数据与用“A”标注的回答进行答案匹配，使用混淆矩阵获取对话式大语言模型的对话准确率和对话召回率，并通过F1值计算公式，计算得到对话式大语言模型的F1值；

步骤S222：重复上述过程，分别获取n个对话式大语言模型的对话准确率、对话召回率和F1值，由n个对话式大语言模型的对话准确率、对话召回率和F1值得到初次训练质量数据；

步骤S3：根据初次训练质量数据计算模型评价系数进行语言模型分类；

步骤S31：根据初次训练质量数据计算模型评价系数，具体如下：

步骤S311：根据初次训练质量数据获取对话式大语言模型的对话准确率、对话召回率和F1值；

步骤S312：将对话式大语言模型的对话准确率、对话召回率和F1值通过评价系数计算公式计算得到模型评价系数Pj；

步骤S313：重复上述过程，分别获取n个对话式大语言的评价系数；

步骤S32：根据模型评价系数进行语言模型分类，具体如下：

步骤S321：根据初次训练质量数据分别获取n个对话式大语言模型的对话准确率、对话召回率和F1值；

步骤S322：将n个对话式大语言模型的对话准确率通过准确率平均数计算公式计算得到n个对话式大语言模型的平均对话准确率；

步骤S323：将n个对话式大语言模型的对话召回率通过召回率平均数计算公式计算得到n个对话式大语言模型的平均对话召回率；

步骤S324：将n个对话式大语言模型的对话F1值通过F1值平均数计算公式计算得到n个对话式大语言模型的平均对话F1值；

步骤S325：将n个对话式大语言模型的平均对话准确率、平均对话召回率和平均对话F1值通过评价系数阈值计算公式计算得到模型评价系数阈值数据P _j1；

步骤S326：根据模型评价系数和模型评价系数阈值数据获取语言模型分类数据，具体如下：

当0＜P _j＜P _j1，判断对应对话式大语言模型为中医类低精度语言模型；

步骤S33：由模型评价系数和模型评价系数阈值数据判断的结果得到语言模型分类数据；

步骤S4：根据语言模型分类数据对对话式大语言模型进行二次训练；

步骤S41：对中医类低精度语言模型进行训练，具体如下：

步骤S411：根据模型训练数据获取训练集数据和测试集数据；

步骤S412：利用人工标注的方式对训练集数据中的问题和对应的正确回答进行标注，得到带有正确回答的训练数据样本并将作为标签数据，使用标签数据对中医类低精度语言模型进行初步训练；

步骤S413：将训练集数据中未标注问题和回答的数据作为无标签数据，通过Self-Training对无标签数据进行预测，并获取预测结果置信度高并进行置信度高低判断，将置信度高的无标签数据加入标签数据，成为新的标签数据，由此反复迭代，提高中医类低精度语言模型的精度和性能；

步骤S42：对中医类高精度语言模型进行训练，具体如下：

步骤S421：根据模型训练数据获取训练集数据；

步骤S422：在对中医类高精度语言模型进行无监督学习训练的基础上使用增量学习通过模型训练数据进行部分微调，针对输入的问题涉及的需求进行增量学习；

步骤S423：使用部分微调后的中医类高精度语言模型对无标签数据进行预测，得到伪标签，将伪标签加入标签数据中，扩充训练数据，使用扩充后的数据集进行重新训练，调整模型参数；

步骤S424：重复上述步骤S422和步骤S423，对中医类高精度语言模型进行多次微调和自训练的迭代训练，以逐步提升模型在中医领域的性能和适应能力。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.对话式大语言模型监督训练评价系统，其特征在于，包括：

初次训练模块：根据模型训练数据对对话式大语言模型进行初次训练，得到初次训练质量数据，针对初次训练质量数据通过混淆矩阵得到对话式大语言模型的对话准确率和对话召回率，利用对话式大语言模型的对话准确率和对话召回率计算得到对话式大语言模型的F1值；

模型评价模块：分别根据对话式大语言模型的对话准确率、对话召回率以及F1值计算得到模型评价系数，并对模型评价系数进行阈值划分，得到语言模型分类数据；

还包括服务器，所述数据获取模块、初次训练模块、模型评价模块和二次训练模块分别与服务器相连；

所述模型评价模块根据初次训练质量数据计算模型评价系数进行语言模型分类，具体如下：

模型评价模块包括评价系数单元和评价分级单元；

评价系数单元根据初次训练质量数据计算模型评价系数；

评价分级单元根据模型评价系数进行语言模型分类；

所述评价系数单元计算模型评价系数，具体如下：

根据对话式大语言模型的对话准确率、对话召回率和F1值计算模型评价系数Pj；

分别获取n个对话式大语言的评价系数；

所述评价分级单元对语言模型进行分类，具体如下：

根据n个对话式大语言模型的对话准确率计算n个对话式大语言模型的平均对话准确率；

根据n个对话式大语言模型的对话召回率计算n个对话式大语言模型的平均对话召回率；

根据n个对话式大语言模型的对话F1值计算n个对话式大语言模型的平均对话F1值；

根据n个对话式大语言模型的平均对话准确率、平均对话召回率和平均对话F1值通过评价系数阈值计算公式计算得到模型评价系数阈值数据Pj1；

当Pj ≥ Pj1，判断对应对话式大语言模型为中医类高精度语言模型；

当0＜ Pj ＜ Pj1，判断对应对话式大语言模型为中医类低精度语言模型；

所述二次训练模块对对话式大语言模型进行二次训练，具体如下：

二次训练模块包括半监督学习单元和迁移学习单元；

根据模型训练数据获取训练集数据和测试集数据；

迁移学习单元对中医类高精度语言模型进行训练；

所述迁移学习单元对中医类高精度语言模型进行训练，具体如下：

根据模型训练数据获取训练集数据；

2.根据权利要求1所述的对话式大语言模型监督训练评价系统，其特征在于，所述数据获取模块获取模型训练数据的具体过程如下：

样本生成单元根据中医领域数据获取训练样本基础数据；

综合训练集数据和测试集数据得到模型训练数据。

3.根据权利要求2所述的对话式大语言模型监督训练评价系统，其特征在于，所述样本生成单元获取训练样本基础数据的具体过程如下：

通过基于人工智能的对话生成模型将中医领域数据转换为问题和回答的对话对；

4.根据权利要求1所述的对话式大语言模型监督训练评价系统，其特征在于，所述初次训练模块对对话式大语言模型进行初次训练，得到初次训练质量数据的具体过程如下：

初次训练模块包括模型训练单元和训练结果单元；

使用jieba分词工具将模型训练数据中的中文切分为单个词语，将模型训练数据中的英文切分为单词，使用Word2Vec映射工具将词语或单词映射并转换为固定维度的稠密向量来捕捉词语或单词的上下文关系；

5.根据权利要求4所述的对话式大语言模型监督训练评价系统，其特征在于，所述训练结果单元获取初次训练质量数据的具体过程如下：

根据初次训练结果数据获取对话式大语言模型的输入数据和输出数据，将输出数据与用“A”标注的回答进行答案匹配，使用混淆矩阵获取对话式大语言模型的对话准确率和对话召回率，计算对话式大语言模型的F1值；