CN116662523B

CN116662523B - 一种基于gpt模型的生化知识问答方法、系统及存储介质

Info

Publication number: CN116662523B
Application number: CN202310958861.XA
Authority: CN
Inventors: 何加铭; 郑韶伟; 王家功; 金錱
Original assignee: Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Current assignee: Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-10-20
Anticipated expiration: 2043-08-01
Also published as: CN116662523A

Abstract

本发明提供一种基于GPT模型的生化知识问答方法、系统及存储介质，涉及智能问答技术领域，包括：步骤S1，收集生化知识相关的语料，记为生化知识语料；建立若干成对的问答语料，将若干成对的问答语料记为生化知识问答语料库；步骤S2，将生化知识问答语料库中的文本数据进行分词并构建字典进行编码；步骤S3，构建生化问答模型；步骤S4，当生化问答模型通过测试时，将生化问答模型部署在服务器上，通过接口进行访问使用；本发明用于解决现有技术中通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进，导致无法对生化领域的问答系统进行比较细致的改进的问题。

Description

一种基于GPT模型的生化知识问答方法、系统及存储介质

技术领域

本发明涉及智能问答技术领域，尤其涉及一种基于GPT模型的生化知识问答方法、系统及存储介质。

背景技术

GPT是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型，使用GPT可以将文本录入并根据需要的条件对模型进行训练；同时目前生成式问答系统主要基于ELMo、BERT、XLNet、Transformer、GPT等经典的深度学习算法来实现。这些预训练模型通过提高训练样本数量与质量、增加深度神经网络成熟的方式来对文本自动生成算法进行优化；

现有的基于GPT用于问答方面的改进通常是对问答系统中文本生成方面的改进，比如在申请公开号为：“CN115809322A”的发明专利中，公开了“一种基于GPT3的问答系统文本生成方法及装置”，该方案就是“通过该生成式问答系统，能够对答案库进行扩展，便于与用户进行无感交互，解决了现有业务知识库中业务问答对较多，但无法覆盖所有业务场景、无法覆盖用户问题的技术问题”，其他现有的问答系统通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进，这会导致无法对某一领域的问答系统进行比较细致的改进，比如生物领域以及化学领域，鉴于此，有必要对现有的基于GPT模型的问答系统进行改进。

发明内容

针对现有技术存在的不足，本发明目的是提供一种基于GPT模型的生化知识问答方法、系统及存储介质，用于解决现有技术中通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进，导致无法对生化领域的问答系统进行比较细致的改进的问题。

为了实现上述目的，第一方面，本发明提供一种基于GPT模型的生化知识问答方法，包括：

步骤S1，使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料，记为生化知识语料；

使用GPT基于生化知识语料生成问题语料，建立若干成对的问答语料，将若干成对的问答语料记为生化知识问答语料库；

步骤S2，将生化知识问答语料库中的文本数据进行分词并构建字典进行编码，将生化知识问答语料库中的文本数据记为数据集，将数据集划分为训练集、验证集以及测试集；

步骤S3，构建生化问答模型，使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练；

步骤S4，基于步骤S3中生化问答模型的模拟训练结果，判断生化训练模型是否通过测试，当生化问答模型通过测试时，将生化问答模型部署在服务器上，通过接口进行访问使用。

进一步地，所述步骤S1包括如下子步骤：

步骤S101，使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料，记为生化基础语料；

步骤S102，对生化基础语料进行数据清洗；

步骤S103，对生化基础语料进行数据去噪；

步骤S104，对生化基础语料进行标准化处理；

步骤S105，将经过步骤S102、步骤S103以及步骤S104处理后的生化基础语料记为生化知识语料。

进一步地，所述步骤S101包括如下子步骤：

步骤S1011，将网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索到的若干语料记为未处理语料；

步骤S1012，在化学图片素材库中获取若干图片，记为化学图片，使用图像比对法将化学图片与未处理语料中的图片进行比对，将比对结果一致的未处理语料记为生化基础语料；

获取未处理语料中的六边形，记为语料六边形，当语料六边形的顶点连接有直线且直线末端为字母时，将语料六边形所在的未处理语料记为生化基础语料；

步骤S1013，使用网络爬虫在数据库中获取若干生物学相关的符号，记为生物符号，将生物符号逐一与未处理语料中的符号进行比对，将比对结果一致的未处理语料记为生化基础语料。

进一步地，进一步地，所述步骤S102包括如下子步骤：

步骤S1021，将生化基础语料中的若干文本语料记为文本语料1至文本语料N，其中，N为正整数；

步骤S1022，对文本语料1至文本语料N使用第一数据清洗法，所述第一数据清洗法包括，将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重，获取每个文本语料对应的查重率最高的文本语料，记为相似文本语料；

对于文本语料1至文本语料N中的任意一个文本语料，当文本语料与其对应的相似文本语料的查重率大于第一标准查重率时，将该文本语料在生化基础语料中删除；

步骤S1023，对经过步骤S1022的文本语料1至文本语料M使用第二数据清洗法，其中，M为正整数且小于等于N；

所述第二数据清洗法包括，获取文本语料1至文本语料M中所有文本语料的文本格式，记为文本格式1至文本格式M；

在文件格式查询信息库中以生化为关键词获取所有与生化相关的文本格式，记为生化格式库；

将文本格式1至文本格式M中的每一个文本格式放入生化格式库中进行逐一匹配，当文本格式未在生化格式库中匹配到对应的格式时，将该文本格式对应的文本语料在生化基础语料中删除。

进一步地，所述步骤S103包括如下子步骤：

步骤S1031，以生化为关键词在关键词数据库中获取生化相关的关键词，记为生化关键词库；

步骤S1032，对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N，所述数据去噪法包括，对于文本语料1至文本语料N中的任意一个文本语料，对文本语料进行中文分词处理，将所有的中文词记为中文词1至中文词Z；

将中文词1至中文词Z与生化关键词库中的所有关键词进行逐一匹配，当中文词1至中文词Z中的任意一个中文词与生化关键词库中的任意一个关键词完全相同时记为匹配成功，获取文本语料中匹配成功的中文词的数量，记为关键数量；

步骤S1033，对于关键数量1至关键数量N中的任意一个关键数量，当关键数量小于等于标准关键数量时，将该关键数量对应的文本语料在生化基础语料中删除。

进一步地，所述步骤S104包括如下子步骤：

步骤S1041，对文本语料1至文本语料N中的所有文本语料使用指标一致化处理，其中，对于指标一致化处理中的逆指标一致化处理使用减法一致化进行处理；

步骤S1042，对经过步骤S1041处理后的文本语料1至文本语料N使用无量纲化处理。

进一步地，所述步骤S1还包括如下子步骤：

步骤S106，将生化知识语料录入GPT，使用GPT基于生化知识语料生成问题语料，记为问题语料库；

步骤S107，将问题语料库中的问题语料与其对应的生化知识语料记为一对问答语料；

步骤S108，将所有成对的问答语料记为生化知识问答语料库，将生化知识问答语料库中的若干对问答语料记为问答语料1至问答语料T。

进一步地，所述步骤S2包括如下子步骤：

步骤S201，使用生化关键词库获取问答语料1至问答语料T中每个问答语料出现次数最多的关键词，并记为该语料的头部关键词；

步骤S202，将生化知识问答语料库中的所有问答语料放入字典内，并基于所有问答语料的头部关键词建立字典的目录，所述字典的目录使用若干头部关键词的第一个字的首字母进行排序；

随机选取生化知识语料库中第一百分比的问答语料，记为训练集，并将剩下的若干问答语料记为测试集；

步骤S203，获取生化知识语料库中的若干问答语料，将每个问答语料中问题语料对应的答案进行整合，记为验证集。

进一步地，所述步骤S3包括如下子步骤：

步骤S301，使用GPT获取数据库中存储的生化相关的若干问题，记为若干训练问题，并基于若干训练问题在验证集中找到每个问题对应的答案，记为标准答案；

步骤S302，建立生化问答模型，所述生化问答模型包括训练集中的若干问答语料；

步骤S303，随机挑选若干训练问题中的一个训练问题并将其放入生化问答模型中，生化问答模型通过遍历查询训练集中与训练问题相关的答案，并将答案输出，其中，答案具有唯一性。

进一步地，所述步骤S4包括如下子步骤：

步骤S401，将生化问答模型输出的答案记为训练答案，将训练答案与训练问题对应的标准答案进行比对，当比对结果一致时，将此次输出记为成功输出，当比对结果不一致时，记录不一致的训练答案以及标准答案对应的训练问题，并在生化问答模型内进行修正；

步骤S402，当所有训练问题均放入生化问答模型后，获取放入生化问答模型中训练问题的数量，记为训练总数；

获取成功输出的数量，记为成功总数，将成功总数除以训练总数，将结果记为训练成功率，当训练成功率小于等于标准成功率时，继续使用GPT挑选若干问题放入生化问答模型内进行训练。

进一步地，所述步骤S4还包括如下子步骤：

步骤S403，当连续第一标准次数的训练中训练成功率均大于标准成功率时，记为通过测试的生化训练模型；

步骤S404，将通过测试的生化训练模型部署在服务器上，通过接口进行访问使用。

第二方面，本发明提供一种基于GPT模型的生化知识问答系统，包括语料获取模块、生化问答模型建立模块以及测试模块，所述语料获取模块以及生化问答模型建立模块与测试模型通讯连接；

所述语料获取模块使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料，记为生化知识语料；

将生化知识问答语料库中的文本数据进行分词并构建字典进行编码，将生化知识问答语料库中的文本数据记为数据集，将数据集划分为训练集、验证集以及测试集；

所述生化问答模型建立模块用于构建生化问答模型，使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练；

所述测试模块基于生化问答模型建立模块中生化问答模型的模拟训练结果，判断生化训练模型是否通过测试，当生化问答模型通过测试时，将生化问答模型部署在服务器上，通过接口进行访问使用。

第三方面，本发明提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，运行如上方法中的步骤。

本发明的有益效果：本发明通过使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料；使用GPT基于生化知识语料生成问题语料，建立若干成对的问答语料，将若干成对的问答语料记为生化知识问答语料库，这样的好处在于，使用网络爬虫以及API下载可以更加广泛地查询生化知识相关的语料，使用GPT可以基于生化知识语料生成更加标准的问题语料，从而使建立的生化问答模型更加符合使用者的使用习惯，提高使用者的舒适度；

本发明还通过将生化知识问答语料库中的文本数据进行分词并构建字典进行编码，将生化知识问答语料库中的文本数据记为数据集，将数据集划分为训练集、验证集以及测试集；除此之外，还构建生化问答模型，使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练；最后判断生化训练模型是否通过测试，当生化问答模型通过测试时，将生化问答模型部署在服务器上，通过接口进行访问使用，这样的好处在于，对生化知识问答语料库中的文本数据进行编码有利于在查询过程中基于编码进行查找，能够提高系统的运行速度，通过建立生化问答模型可以将问题与答案进行一一对应并进行问答测试，有利于提高生化问答模型对于问题回答的正确率，从而使生化问答模型更快投入使用。

本发明附加方面的优点将在下面的具体实施方式的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1为本发明的方法的步骤流程图；

图2为本发明的系统的原理框图；

图3为本发明的生化知识语料的获取方法示意图；

图4为本发明的生化基础语料中的语料六边形的结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

请参阅图1所示，本发明提供一种基于GPT模型的生化知识问答方法，包括：

步骤S1包括如下子步骤：

步骤S101，请参阅图3所示，使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料，记为生化基础语料；

在具体实施过程中，使用网络爬虫以及API下载可以在科学论文以及数据库中获取更多的生化知识相关的语料，有利于扩大生化知识问答中的生化知识量；

步骤S101包括如下子步骤：

请参阅图4所示，获取未处理语料中的六边形，记为语料六边形，当语料六边形的顶点连接有直线且直线末端为字母时，将语料六边形所在的未处理语料记为生化基础语料；

步骤S1013，使用网络爬虫在数据库中获取若干生物学相关的符号，记为生物符号，将生物符号逐一与未处理语料中的符号进行比对，将比对结果一致的未处理语料记为生化基础语料；

在具体实施过程中，通过步骤S1012以及步骤S1013对未处理语料进行筛选，可以进一步更加准确地查询与生化相关的语料，使生化基础语料中的语料更加贴合生化相关的知识；

步骤S102，对生化基础语料进行数据清洗；

步骤S102包括如下子步骤：

步骤S1022，对文本语料1至文本语料N使用第一数据清洗法，第一数据清洗法包括，将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重，获取每个文本语料对应的查重率最高的文本语料，记为相似文本语料；

在具体实施过程中，第一标准查重率为80%，当两个文本语料之间的查重率为80%时，说明其中一个文本语料在生化基础语料中属于重复的文本语料，应当将该语料在生化基础语料中删除；

第二数据清洗法包括，获取文本语料1至文本语料M中所有文本语料的文本格式，记为文本格式1至文本格式M；

将文本格式1至文本格式M中的每一个文本格式放入生化格式库中进行逐一匹配，当文本格式未在生化格式库中匹配到对应的格式时，将该文本格式对应的文本语料在生化基础语料中删除；

在具体实施过程中，未在生化格式库中匹配到对应的格式的文本格式对应的文本语料属于格式不规范的文本语料，如果不进行删除则在建立生化问答模型后会对生化问答模型中的问题以及答案造成影响；

步骤S103，对生化基础语料进行数据去噪；

步骤S103包括如下子步骤：

步骤S1032，对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N，数据去噪法包括，对于文本语料1至文本语料N中的任意一个文本语料，对文本语料进行中文分词处理，将所有的中文词记为中文词1至中文词Z；

步骤S1033，对于关键数量1至关键数量N中的任意一个关键数量，当关键数量小于等于标准关键数量时，将该关键数量对应的文本语料在生化基础语料中删除；

在具体实施过程中，标准关键数量为关键数量对应的中文词的数量的10%；

步骤S104，对生化基础语料进行标准化处理；

步骤S104包括如下子步骤：

在具体实施过程中，如果在逆指标一致化处理时使用倒数一致化进行处理，则有可能会改变文本语料的分散程度，减法一致化不会改变文本语料的分散程度，结果较为稳定，因此使用减法一致化进行处理；

步骤S1042，对经过步骤S1041处理后的文本语料1至文本语料N使用无量纲化处理；

步骤S105，将经过步骤S102、步骤S103以及步骤S104处理后的生化基础语料记为生化知识语料；

步骤S1还包括如下子步骤：

步骤S108，将所有成对的问答语料记为生化知识问答语料库，将生化知识问答语料库中的若干对问答语料记为问答语料1至问答语料T；

步骤S2包括如下子步骤：

步骤S202，将生化知识问答语料库中的所有问答语料放入字典内，并基于所有问答语料的头部关键词建立字典的目录，字典的目录使用若干头部关键词的第一个字的首字母进行排序；

在具体实施过程中，第一百分比为80%；

步骤S203，获取生化知识语料库中的若干问答语料，将每个问答语料中问题语料对应的答案进行整合，记为验证集；

步骤S3包括如下子步骤：

步骤S302，建立生化问答模型，生化问答模型包括训练集中的若干问答语料；

步骤S303，随机挑选若干训练问题中的一个训练问题并将其放入生化问答模型中，生化问答模型通过遍历查询训练集中与训练问题相关的答案，并将答案输出，其中，答案具有唯一性；

步骤S4，基于步骤S3中生化问答模型的模拟训练结果，判断生化训练模型是否通过测试，当生化问答模型通过测试时，将生化问答模型部署在服务器上，通过接口进行访问使用；

步骤S4包括如下子步骤：

在具体实施过程中，当生化问题模型进行改正后，当生化问题模型再次被输入相同的训练问题时，将采用改正后的标准答案进行输出；

获取成功输出的数量，记为成功总数，将成功总数除以训练总数，将结果记为训练成功率，当训练成功率小于等于标准成功率时，继续使用GPT挑选若干问题放入生化问答模型内进行训练；

在具体实施过程中，标准成功率为95%；

步骤S4还包括如下子步骤：

在具体实施过程中，第一标准次数为10次；

实施例二

请参阅图2所示，本发明提供一种基于GPT模型的生化知识问答系统，包括语料获取模块、生化问答模型建立模块以及测试模块，语料获取模块以及生化问答模型建立模块与测试模型通讯连接；

语料获取模块使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料，记为生化知识语料；

语料获取模块配置有语料提取策略，语料提取策略包括使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料，记为生化基础语料；

语料获取模块还配置有数据处理策略，数据处理策略包括数据清洗子策略、数据去噪子策略以及标准化处理子策略；

数据清洗子策略为将生化基础语料中的若干文本语料记为文本语料1至文本语料N，其中，N为正整数；

对文本语料1至文本语料N使用第一数据清洗法，第一数据清洗法包括，将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重，获取每个文本语料对应的查重率最高的文本语料，记为相似文本语料；

对文本语料1至文本语料M使用第二数据清洗法，其中，M为正整数且小于等于N；

数据去噪子策略为以生化为关键词在关键词数据库中获取生化相关的关键词，记为生化关键词库；

对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N，数据去噪法包括，对于文本语料1至文本语料N中的任意一个文本语料，对文本语料进行中文分词处理，将所有的中文词记为中文词1至中文词Z；

对于关键数量1至关键数量N中的任意一个关键数量，当关键数量小于等于标准关键数量时，将该关键数量对应的文本语料在生化基础语料中删除；

标准化处理子策略为对文本语料1至文本语料N中的所有文本语料使用指标一致化处理，其中，对于指标一致化处理中的逆指标一致化处理使用减法一致化进行处理；

对经过步骤S1041处理后的文本语料1至文本语料N使用无量纲化处理；

语料获取模块将经过数据处理策略后的生化基础语料记为生化知识语料，将生化知识语料录入GPT，使用GPT基于生化知识语料生成问题语料，记为问题语料库；

将问题语料库中的问题语料与其对应的生化知识语料记为一对问答语料；

将所有成对的问答语料记为生化知识问答语料库，将生化知识问答语料库中的若干对问答语料记为问答语料1至问答语料T；

语料获取模块还配置有语料编码策略，语料编码策略包括使用生化关键词库获取问答语料1至问答语料T中每个问答语料出现次数最多的关键词，并记为该语料的头部关键词；

将生化知识问答语料库中的所有问答语料放入字典内，并基于所有问答语料的头部关键词建立字典的目录，字典的目录使用若干头部关键词的第一个字的首字母进行排序；

在具体实施过程中，第一百分比为80%；

获取生化知识语料库中的若干问答语料，将每个问答语料中问题语料对应的答案进行整合，记为验证集；

生化问答模型建立模块用于构建生化问答模型，使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练；

生化问答模型建立模块配置有模型建立策略，模型建立策略包括使用GPT获取数据库中存储的生化相关的若干问题，记为若干训练问题，并基于若干训练问题在验证集中找到每个问题对应的答案，记为标准答案；

建立生化问答模型，生化问答模型包括训练集中的若干问答语料；

随机挑选若干训练问题中的一个训练问题并将其放入生化问答模型中，生化问答模型通过遍历查询训练集中与训练问题相关的答案，并将答案输出，其中，答案具有唯一性；

测试模块基于生化问答模型建立模块中生化问答模型的模拟训练结果，判断生化训练模型是否通过测试，当生化问答模型通过测试时，将生化问答模型部署在服务器上，通过接口进行访问使用；

测试模块配置有模型判断策略，模型判断策略包括将生化问答模型输出的答案记为训练答案，将训练答案与训练问题对应的标准答案进行比对，当比对结果一致时，将此次输出记为成功输出，当比对结果不一致时，记录不一致的训练答案以及标准答案对应的训练问题，并在生化问答模型内进行修正；

当所有训练问题均放入生化问答模型后，获取放入生化问答模型中训练问题的数量，记为训练总数；

在具体实施过程中，标准成功率为95%；

当连续第一标准次数的训练中训练成功率均大于标准成功率时，记为通过测试的生化训练模型；

在具体实施过程中，第一标准次数为10次；

将通过测试的生化训练模型部署在服务器上，通过接口进行访问使用。

实施例三

本申请提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，运行如上任意一项方法中的步骤。通过上述技术方案，计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法，以实现以下功能：首先通过使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料；使用GPT基于生化知识语料生成问题语料，建立若干成对的问答语料，将若干成对的问答语料记为生化知识问答语料库，然后通过将生化知识问答语料库中的文本数据进行分词并构建字典进行编码，将生化知识问答语料库中的文本数据记为数据集，将数据集划分为训练集、验证集以及测试集；除此之外，还构建生化问答模型，使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练；最后判断生化训练模型是否通过测试，当生化问答模型通过测试时，将生化问答模型部署在服务器上，通过接口进行访问使用。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static RandomAccess Memory，简称SRAM），电可擦除可编程只读存储器（Electrically ErasableProgrammable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（ErasableProgrammable Read Only Memory，简称EPROM），可编程只读存储器（Programmable Red-Only Memory，简称PROM），只读存储器（Read-OnlyMemory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于GPT模型的生化知识问答方法，其特征在于，包括：

所述步骤S1包括如下子步骤：

步骤S102，对生化基础语料进行数据清洗；

步骤S103，对生化基础语料进行数据去噪；

步骤S104，对生化基础语料进行标准化处理；

所述步骤S101包括如下子步骤：

所述步骤S102包括如下子步骤：

2.根据权利要求1所述的一种基于GPT模型的生化知识问答方法，其特征在于，所述步骤S103包括如下子步骤：

3.根据权利要求2所述的一种基于GPT模型的生化知识问答方法，其特征在于，所述步骤S104包括如下子步骤：

4.根据权利要求3所述的一种基于GPT模型的生化知识问答方法，其特征在于，所述步骤S1还包括如下子步骤：

5.根据权利要求4所述的一种基于GPT模型的生化知识问答方法，其特征在于，所述步骤S2包括如下子步骤：

6.根据权利要求5所述的一种基于GPT模型的生化知识问答方法，其特征在于，所述步骤S3包括如下子步骤：

7.根据权利要求6所述的一种基于GPT模型的生化知识问答方法，其特征在于，所述步骤S4包括如下子步骤：

8.根据权利要求7所述的一种基于GPT模型的生化知识问答方法，其特征在于，所述步骤S4还包括如下子步骤：

9.适用于权利要求1-8任意一项所述的一种基于GPT模型的生化知识问答方法的系统，其特征在于，包括语料获取模块、生化问答模型建立模块以及测试模块，所述语料获取模块以及生化问答模型建立模块与测试模型通讯连接；

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，运行如权利要求1-8任一项所述方法中的步骤。