CN116662523B - 一种基于gpt模型的生化知识问答方法、系统及存储介质 - Google Patents

一种基于gpt模型的生化知识问答方法、系统及存储介质 Download PDF

Info

Publication number
CN116662523B
CN116662523B CN202310958861.XA CN202310958861A CN116662523B CN 116662523 B CN116662523 B CN 116662523B CN 202310958861 A CN202310958861 A CN 202310958861A CN 116662523 B CN116662523 B CN 116662523B
Authority
CN
China
Prior art keywords
biochemical
question
corpus
text
answering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310958861.XA
Other languages
English (en)
Other versions
CN116662523A (zh
Inventor
何加铭
郑韶伟
王家功
金錱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Original Assignee
Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Yongheng Yaoyao Intelligent Technology Co ltd filed Critical Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority to CN202310958861.XA priority Critical patent/CN116662523B/zh
Publication of CN116662523A publication Critical patent/CN116662523A/zh
Application granted granted Critical
Publication of CN116662523B publication Critical patent/CN116662523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于GPT模型的生化知识问答方法、系统及存储介质,涉及智能问答技术领域,包括:步骤S1,收集生化知识相关的语料,记为生化知识语料;建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码;步骤S3,构建生化问答模型;步骤S4,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用;本发明用于解决现有技术中通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,导致无法对生化领域的问答系统进行比较细致的改进的问题。

Description

一种基于GPT模型的生化知识问答方法、系统及存储介质
技术领域
本发明涉及智能问答技术领域,尤其涉及一种基于GPT模型的生化知识问答方法、系统及存储介质。
背景技术
GPT是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,使用GPT可以将文本录入并根据需要的条件对模型进行训练;同时目前生成式问答系统主要基于ELMo、BERT、XLNet、Transformer、GPT等经典的深度学习算法来实现。这些预训练模型通过提高训练样本数量与质量、增加深度神经网络成熟的方式来对文本自动生成算法进行优化;
现有的基于GPT用于问答方面的改进通常是对问答系统中文本生成方面的改进,比如在申请公开号为:“CN115809322A”的发明专利中,公开了“一种基于GPT3的问答系统文本生成方法及装置”,该方案就是“通过该生成式问答系统,能够对答案库进行扩展,便于与用户进行无感交互,解决了现有业务知识库中业务问答对较多,但无法覆盖所有业务场景、无法覆盖用户问题的技术问题”,其他现有的问答系统通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,这会导致无法对某一领域的问答系统进行比较细致的改进,比如生物领域以及化学领域,鉴于此,有必要对现有的基于GPT模型的问答系统进行改进。
发明内容
针对现有技术存在的不足,本发明目的是提供一种基于GPT模型的生化知识问答方法、系统及存储介质,用于解决现有技术中通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,导致无法对生化领域的问答系统进行比较细致的改进的问题。
为了实现上述目的,第一方面,本发明提供一种基于GPT模型的生化知识问答方法,包括:
步骤S1,使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;
使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;
步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;
步骤S3,构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;
步骤S4,基于步骤S3中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用。
进一步地,所述步骤S1包括如下子步骤:
步骤S101,使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料,记为生化基础语料;
步骤S102,对生化基础语料进行数据清洗;
步骤S103,对生化基础语料进行数据去噪;
步骤S104,对生化基础语料进行标准化处理;
步骤S105,将经过步骤S102、步骤S103以及步骤S104处理后的生化基础语料记为生化知识语料。
进一步地,所述步骤S101包括如下子步骤:
步骤S1011,将网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索到的若干语料记为未处理语料;
步骤S1012,在化学图片素材库中获取若干图片,记为化学图片,使用图像比对法将化学图片与未处理语料中的图片进行比对,将比对结果一致的未处理语料记为生化基础语料;
获取未处理语料中的六边形,记为语料六边形,当语料六边形的顶点连接有直线且直线末端为字母时,将语料六边形所在的未处理语料记为生化基础语料;
步骤S1013,使用网络爬虫在数据库中获取若干生物学相关的符号,记为生物符号,将生物符号逐一与未处理语料中的符号进行比对,将比对结果一致的未处理语料记为生化基础语料。
进一步地,进一步地,所述步骤S102包括如下子步骤:
步骤S1021,将生化基础语料中的若干文本语料记为文本语料1至文本语料N,其中,N为正整数;
步骤S1022,对文本语料1至文本语料N使用第一数据清洗法,所述第一数据清洗法包括,将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重,获取每个文本语料对应的查重率最高的文本语料,记为相似文本语料;
对于文本语料1至文本语料N中的任意一个文本语料,当文本语料与其对应的相似文本语料的查重率大于第一标准查重率时,将该文本语料在生化基础语料中删除;
步骤S1023,对经过步骤S1022的文本语料1至文本语料M使用第二数据清洗法,其中,M为正整数且小于等于N;
所述第二数据清洗法包括,获取文本语料1至文本语料M中所有文本语料的文本格式,记为文本格式1至文本格式M;
在文件格式查询信息库中以生化为关键词获取所有与生化相关的文本格式,记为生化格式库;
将文本格式1至文本格式M中的每一个文本格式放入生化格式库中进行逐一匹配,当文本格式未在生化格式库中匹配到对应的格式时,将该文本格式对应的文本语料在生化基础语料中删除。
进一步地,所述步骤S103包括如下子步骤:
步骤S1031,以生化为关键词在关键词数据库中获取生化相关的关键词,记为生化关键词库;
步骤S1032,对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N,所述数据去噪法包括,对于文本语料1至文本语料N中的任意一个文本语料,对文本语料进行中文分词处理,将所有的中文词记为中文词1至中文词Z;
将中文词1至中文词Z与生化关键词库中的所有关键词进行逐一匹配,当中文词1至中文词Z中的任意一个中文词与生化关键词库中的任意一个关键词完全相同时记为匹配成功,获取文本语料中匹配成功的中文词的数量,记为关键数量;
步骤S1033,对于关键数量1至关键数量N中的任意一个关键数量,当关键数量小于等于标准关键数量时,将该关键数量对应的文本语料在生化基础语料中删除。
进一步地,所述步骤S104包括如下子步骤:
步骤S1041,对文本语料1至文本语料N中的所有文本语料使用指标一致化处理,其中,对于指标一致化处理中的逆指标一致化处理使用减法一致化进行处理;
步骤S1042,对经过步骤S1041处理后的文本语料1至文本语料N使用无量纲化处理。
进一步地,所述步骤S1还包括如下子步骤:
步骤S106,将生化知识语料录入GPT,使用GPT基于生化知识语料生成问题语料,记为问题语料库;
步骤S107,将问题语料库中的问题语料与其对应的生化知识语料记为一对问答语料;
步骤S108,将所有成对的问答语料记为生化知识问答语料库,将生化知识问答语料库中的若干对问答语料记为问答语料1至问答语料T。
进一步地,所述步骤S2包括如下子步骤:
步骤S201,使用生化关键词库获取问答语料1至问答语料T中每个问答语料出现次数最多的关键词,并记为该语料的头部关键词;
步骤S202,将生化知识问答语料库中的所有问答语料放入字典内,并基于所有问答语料的头部关键词建立字典的目录,所述字典的目录使用若干头部关键词的第一个字的首字母进行排序;
随机选取生化知识语料库中第一百分比的问答语料,记为训练集,并将剩下的若干问答语料记为测试集;
步骤S203,获取生化知识语料库中的若干问答语料,将每个问答语料中问题语料对应的答案进行整合,记为验证集。
进一步地,所述步骤S3包括如下子步骤:
步骤S301,使用GPT获取数据库中存储的生化相关的若干问题,记为若干训练问题,并基于若干训练问题在验证集中找到每个问题对应的答案,记为标准答案;
步骤S302,建立生化问答模型,所述生化问答模型包括训练集中的若干问答语料;
步骤S303,随机挑选若干训练问题中的一个训练问题并将其放入生化问答模型中,生化问答模型通过遍历查询训练集中与训练问题相关的答案,并将答案输出,其中,答案具有唯一性。
进一步地,所述步骤S4包括如下子步骤:
步骤S401,将生化问答模型输出的答案记为训练答案,将训练答案与训练问题对应的标准答案进行比对,当比对结果一致时,将此次输出记为成功输出,当比对结果不一致时,记录不一致的训练答案以及标准答案对应的训练问题,并在生化问答模型内进行修正;
步骤S402,当所有训练问题均放入生化问答模型后,获取放入生化问答模型中训练问题的数量,记为训练总数;
获取成功输出的数量,记为成功总数,将成功总数除以训练总数,将结果记为训练成功率,当训练成功率小于等于标准成功率时,继续使用GPT挑选若干问题放入生化问答模型内进行训练。
进一步地,所述步骤S4还包括如下子步骤:
步骤S403,当连续第一标准次数的训练中训练成功率均大于标准成功率时,记为通过测试的生化训练模型;
步骤S404,将通过测试的生化训练模型部署在服务器上,通过接口进行访问使用。
第二方面,本发明提供一种基于GPT模型的生化知识问答系统,包括语料获取模块、生化问答模型建立模块以及测试模块,所述语料获取模块以及生化问答模型建立模块与测试模型通讯连接;
所述语料获取模块使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;
使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;
将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;
所述生化问答模型建立模块用于构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;
所述测试模块基于生化问答模型建立模块中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用。
第三方面,本发明提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,运行如上方法中的步骤。
本发明的有益效果:本发明通过使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料;使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库,这样的好处在于,使用网络爬虫以及API下载可以更加广泛地查询生化知识相关的语料,使用GPT可以基于生化知识语料生成更加标准的问题语料,从而使建立的生化问答模型更加符合使用者的使用习惯,提高使用者的舒适度;
本发明还通过将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;除此之外,还构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;最后判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用,这样的好处在于,对生化知识问答语料库中的文本数据进行编码有利于在查询过程中基于编码进行查找,能够提高系统的运行速度,通过建立生化问答模型可以将问题与答案进行一一对应并进行问答测试,有利于提高生化问答模型对于问题回答的正确率,从而使生化问答模型更快投入使用。
本发明附加方面的优点将在下面的具体实施方式的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1为本发明的方法的步骤流程图;
图2为本发明的系统的原理框图;
图3为本发明的生化知识语料的获取方法示意图;
图4为本发明的生化基础语料中的语料六边形的结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
请参阅图1所示,本发明提供一种基于GPT模型的生化知识问答方法,包括:
步骤S1,使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;
使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;
步骤S1包括如下子步骤:
步骤S101,请参阅图3所示,使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料,记为生化基础语料;
在具体实施过程中,使用网络爬虫以及API下载可以在科学论文以及数据库中获取更多的生化知识相关的语料,有利于扩大生化知识问答中的生化知识量;
步骤S101包括如下子步骤:
步骤S1011,将网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索到的若干语料记为未处理语料;
步骤S1012,在化学图片素材库中获取若干图片,记为化学图片,使用图像比对法将化学图片与未处理语料中的图片进行比对,将比对结果一致的未处理语料记为生化基础语料;
请参阅图4所示,获取未处理语料中的六边形,记为语料六边形,当语料六边形的顶点连接有直线且直线末端为字母时,将语料六边形所在的未处理语料记为生化基础语料;
步骤S1013,使用网络爬虫在数据库中获取若干生物学相关的符号,记为生物符号,将生物符号逐一与未处理语料中的符号进行比对,将比对结果一致的未处理语料记为生化基础语料;
在具体实施过程中,通过步骤S1012以及步骤S1013对未处理语料进行筛选,可以进一步更加准确地查询与生化相关的语料,使生化基础语料中的语料更加贴合生化相关的知识;
步骤S102,对生化基础语料进行数据清洗;
步骤S102包括如下子步骤:
步骤S1021,将生化基础语料中的若干文本语料记为文本语料1至文本语料N,其中,N为正整数;
步骤S1022,对文本语料1至文本语料N使用第一数据清洗法,第一数据清洗法包括,将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重,获取每个文本语料对应的查重率最高的文本语料,记为相似文本语料;
对于文本语料1至文本语料N中的任意一个文本语料,当文本语料与其对应的相似文本语料的查重率大于第一标准查重率时,将该文本语料在生化基础语料中删除;
在具体实施过程中,第一标准查重率为80%,当两个文本语料之间的查重率为80%时,说明其中一个文本语料在生化基础语料中属于重复的文本语料,应当将该语料在生化基础语料中删除;
步骤S1023,对经过步骤S1022的文本语料1至文本语料M使用第二数据清洗法,其中,M为正整数且小于等于N;
第二数据清洗法包括,获取文本语料1至文本语料M中所有文本语料的文本格式,记为文本格式1至文本格式M;
在文件格式查询信息库中以生化为关键词获取所有与生化相关的文本格式,记为生化格式库;
将文本格式1至文本格式M中的每一个文本格式放入生化格式库中进行逐一匹配,当文本格式未在生化格式库中匹配到对应的格式时,将该文本格式对应的文本语料在生化基础语料中删除;
在具体实施过程中,未在生化格式库中匹配到对应的格式的文本格式对应的文本语料属于格式不规范的文本语料,如果不进行删除则在建立生化问答模型后会对生化问答模型中的问题以及答案造成影响;
步骤S103,对生化基础语料进行数据去噪;
步骤S103包括如下子步骤:
步骤S1031,以生化为关键词在关键词数据库中获取生化相关的关键词,记为生化关键词库;
步骤S1032,对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N,数据去噪法包括,对于文本语料1至文本语料N中的任意一个文本语料,对文本语料进行中文分词处理,将所有的中文词记为中文词1至中文词Z;
将中文词1至中文词Z与生化关键词库中的所有关键词进行逐一匹配,当中文词1至中文词Z中的任意一个中文词与生化关键词库中的任意一个关键词完全相同时记为匹配成功,获取文本语料中匹配成功的中文词的数量,记为关键数量;
步骤S1033,对于关键数量1至关键数量N中的任意一个关键数量,当关键数量小于等于标准关键数量时,将该关键数量对应的文本语料在生化基础语料中删除;
在具体实施过程中,标准关键数量为关键数量对应的中文词的数量的10%;
步骤S104,对生化基础语料进行标准化处理;
步骤S104包括如下子步骤:
步骤S1041,对文本语料1至文本语料N中的所有文本语料使用指标一致化处理,其中,对于指标一致化处理中的逆指标一致化处理使用减法一致化进行处理;
在具体实施过程中,如果在逆指标一致化处理时使用倒数一致化进行处理,则有可能会改变文本语料的分散程度,减法一致化不会改变文本语料的分散程度,结果较为稳定,因此使用减法一致化进行处理;
步骤S1042,对经过步骤S1041处理后的文本语料1至文本语料N使用无量纲化处理;
步骤S105,将经过步骤S102、步骤S103以及步骤S104处理后的生化基础语料记为生化知识语料;
步骤S1还包括如下子步骤:
步骤S106,将生化知识语料录入GPT,使用GPT基于生化知识语料生成问题语料,记为问题语料库;
步骤S107,将问题语料库中的问题语料与其对应的生化知识语料记为一对问答语料;
步骤S108,将所有成对的问答语料记为生化知识问答语料库,将生化知识问答语料库中的若干对问答语料记为问答语料1至问答语料T;
步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;
步骤S2包括如下子步骤:
步骤S201,使用生化关键词库获取问答语料1至问答语料T中每个问答语料出现次数最多的关键词,并记为该语料的头部关键词;
步骤S202,将生化知识问答语料库中的所有问答语料放入字典内,并基于所有问答语料的头部关键词建立字典的目录,字典的目录使用若干头部关键词的第一个字的首字母进行排序;
随机选取生化知识语料库中第一百分比的问答语料,记为训练集,并将剩下的若干问答语料记为测试集;
在具体实施过程中,第一百分比为80%;
步骤S203,获取生化知识语料库中的若干问答语料,将每个问答语料中问题语料对应的答案进行整合,记为验证集;
步骤S3,构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;
步骤S3包括如下子步骤:
步骤S301,使用GPT获取数据库中存储的生化相关的若干问题,记为若干训练问题,并基于若干训练问题在验证集中找到每个问题对应的答案,记为标准答案;
步骤S302,建立生化问答模型,生化问答模型包括训练集中的若干问答语料;
步骤S303,随机挑选若干训练问题中的一个训练问题并将其放入生化问答模型中,生化问答模型通过遍历查询训练集中与训练问题相关的答案,并将答案输出,其中,答案具有唯一性;
步骤S4,基于步骤S3中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用;
步骤S4包括如下子步骤:
步骤S401,将生化问答模型输出的答案记为训练答案,将训练答案与训练问题对应的标准答案进行比对,当比对结果一致时,将此次输出记为成功输出,当比对结果不一致时,记录不一致的训练答案以及标准答案对应的训练问题,并在生化问答模型内进行修正;
在具体实施过程中,当生化问题模型进行改正后,当生化问题模型再次被输入相同的训练问题时,将采用改正后的标准答案进行输出;
步骤S402,当所有训练问题均放入生化问答模型后,获取放入生化问答模型中训练问题的数量,记为训练总数;
获取成功输出的数量,记为成功总数,将成功总数除以训练总数,将结果记为训练成功率,当训练成功率小于等于标准成功率时,继续使用GPT挑选若干问题放入生化问答模型内进行训练;
在具体实施过程中,标准成功率为95%;
步骤S4还包括如下子步骤:
步骤S403,当连续第一标准次数的训练中训练成功率均大于标准成功率时,记为通过测试的生化训练模型;
在具体实施过程中,第一标准次数为10次;
步骤S404,将通过测试的生化训练模型部署在服务器上,通过接口进行访问使用。
实施例二
请参阅图2所示,本发明提供一种基于GPT模型的生化知识问答系统,包括语料获取模块、生化问答模型建立模块以及测试模块,语料获取模块以及生化问答模型建立模块与测试模型通讯连接;
语料获取模块使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;
使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;
将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;
语料获取模块配置有语料提取策略,语料提取策略包括使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料,记为生化基础语料;
在具体实施过程中,使用网络爬虫以及API下载可以在科学论文以及数据库中获取更多的生化知识相关的语料,有利于扩大生化知识问答中的生化知识量;
语料获取模块还配置有数据处理策略,数据处理策略包括数据清洗子策略、数据去噪子策略以及标准化处理子策略;
数据清洗子策略为将生化基础语料中的若干文本语料记为文本语料1至文本语料N,其中,N为正整数;
对文本语料1至文本语料N使用第一数据清洗法,第一数据清洗法包括,将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重,获取每个文本语料对应的查重率最高的文本语料,记为相似文本语料;
对于文本语料1至文本语料N中的任意一个文本语料,当文本语料与其对应的相似文本语料的查重率大于第一标准查重率时,将该文本语料在生化基础语料中删除;
在具体实施过程中,第一标准查重率为80%,当两个文本语料之间的查重率为80%时,说明其中一个文本语料在生化基础语料中属于重复的文本语料,应当将该语料在生化基础语料中删除;
对文本语料1至文本语料M使用第二数据清洗法,其中,M为正整数且小于等于N;
第二数据清洗法包括,获取文本语料1至文本语料M中所有文本语料的文本格式,记为文本格式1至文本格式M;
在文件格式查询信息库中以生化为关键词获取所有与生化相关的文本格式,记为生化格式库;
将文本格式1至文本格式M中的每一个文本格式放入生化格式库中进行逐一匹配,当文本格式未在生化格式库中匹配到对应的格式时,将该文本格式对应的文本语料在生化基础语料中删除;
在具体实施过程中,未在生化格式库中匹配到对应的格式的文本格式对应的文本语料属于格式不规范的文本语料,如果不进行删除则在建立生化问答模型后会对生化问答模型中的问题以及答案造成影响;
数据去噪子策略为以生化为关键词在关键词数据库中获取生化相关的关键词,记为生化关键词库;
对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N,数据去噪法包括,对于文本语料1至文本语料N中的任意一个文本语料,对文本语料进行中文分词处理,将所有的中文词记为中文词1至中文词Z;
将中文词1至中文词Z与生化关键词库中的所有关键词进行逐一匹配,当中文词1至中文词Z中的任意一个中文词与生化关键词库中的任意一个关键词完全相同时记为匹配成功,获取文本语料中匹配成功的中文词的数量,记为关键数量;
对于关键数量1至关键数量N中的任意一个关键数量,当关键数量小于等于标准关键数量时,将该关键数量对应的文本语料在生化基础语料中删除;
在具体实施过程中,标准关键数量为关键数量对应的中文词的数量的10%;
标准化处理子策略为对文本语料1至文本语料N中的所有文本语料使用指标一致化处理,其中,对于指标一致化处理中的逆指标一致化处理使用减法一致化进行处理;
在具体实施过程中,如果在逆指标一致化处理时使用倒数一致化进行处理,则有可能会改变文本语料的分散程度,减法一致化不会改变文本语料的分散程度,结果较为稳定,因此使用减法一致化进行处理;
对经过步骤S1041处理后的文本语料1至文本语料N使用无量纲化处理;
语料获取模块将经过数据处理策略后的生化基础语料记为生化知识语料,将生化知识语料录入GPT,使用GPT基于生化知识语料生成问题语料,记为问题语料库;
将问题语料库中的问题语料与其对应的生化知识语料记为一对问答语料;
将所有成对的问答语料记为生化知识问答语料库,将生化知识问答语料库中的若干对问答语料记为问答语料1至问答语料T;
语料获取模块还配置有语料编码策略,语料编码策略包括使用生化关键词库获取问答语料1至问答语料T中每个问答语料出现次数最多的关键词,并记为该语料的头部关键词;
将生化知识问答语料库中的所有问答语料放入字典内,并基于所有问答语料的头部关键词建立字典的目录,字典的目录使用若干头部关键词的第一个字的首字母进行排序;
随机选取生化知识语料库中第一百分比的问答语料,记为训练集,并将剩下的若干问答语料记为测试集;
在具体实施过程中,第一百分比为80%;
获取生化知识语料库中的若干问答语料,将每个问答语料中问题语料对应的答案进行整合,记为验证集;
生化问答模型建立模块用于构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;
生化问答模型建立模块配置有模型建立策略,模型建立策略包括使用GPT获取数据库中存储的生化相关的若干问题,记为若干训练问题,并基于若干训练问题在验证集中找到每个问题对应的答案,记为标准答案;
建立生化问答模型,生化问答模型包括训练集中的若干问答语料;
随机挑选若干训练问题中的一个训练问题并将其放入生化问答模型中,生化问答模型通过遍历查询训练集中与训练问题相关的答案,并将答案输出,其中,答案具有唯一性;
测试模块基于生化问答模型建立模块中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用;
测试模块配置有模型判断策略,模型判断策略包括将生化问答模型输出的答案记为训练答案,将训练答案与训练问题对应的标准答案进行比对,当比对结果一致时,将此次输出记为成功输出,当比对结果不一致时,记录不一致的训练答案以及标准答案对应的训练问题,并在生化问答模型内进行修正;
在具体实施过程中,当生化问题模型进行改正后,当生化问题模型再次被输入相同的训练问题时,将采用改正后的标准答案进行输出;
当所有训练问题均放入生化问答模型后,获取放入生化问答模型中训练问题的数量,记为训练总数;
获取成功输出的数量,记为成功总数,将成功总数除以训练总数,将结果记为训练成功率,当训练成功率小于等于标准成功率时,继续使用GPT挑选若干问题放入生化问答模型内进行训练;
在具体实施过程中,标准成功率为95%;
当连续第一标准次数的训练中训练成功率均大于标准成功率时,记为通过测试的生化训练模型;
在具体实施过程中,第一标准次数为10次;
将通过测试的生化训练模型部署在服务器上,通过接口进行访问使用。
实施例三
本申请提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,运行如上任意一项方法中的步骤。通过上述技术方案,计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:首先通过使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料;使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库,然后通过将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;除此之外,还构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;最后判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于GPT模型的生化知识问答方法,其特征在于,包括:
步骤S1,使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;
使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;
步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;
步骤S3,构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;
步骤S4,基于步骤S3中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用;
所述步骤S1包括如下子步骤:
步骤S101,使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料,记为生化基础语料;
步骤S102,对生化基础语料进行数据清洗;
步骤S103,对生化基础语料进行数据去噪;
步骤S104,对生化基础语料进行标准化处理;
步骤S105,将经过步骤S102、步骤S103以及步骤S104处理后的生化基础语料记为生化知识语料;
所述步骤S101包括如下子步骤:
步骤S1011,将网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索到的若干语料记为未处理语料;
步骤S1012,在化学图片素材库中获取若干图片,记为化学图片,使用图像比对法将化学图片与未处理语料中的图片进行比对,将比对结果一致的未处理语料记为生化基础语料;
获取未处理语料中的六边形,记为语料六边形,当语料六边形的顶点连接有直线且直线末端为字母时,将语料六边形所在的未处理语料记为生化基础语料;
步骤S1013,使用网络爬虫在数据库中获取若干生物学相关的符号,记为生物符号,将生物符号逐一与未处理语料中的符号进行比对,将比对结果一致的未处理语料记为生化基础语料;
所述步骤S102包括如下子步骤:
步骤S1021,将生化基础语料中的若干文本语料记为文本语料1至文本语料N,其中,N为正整数;
步骤S1022,对文本语料1至文本语料N使用第一数据清洗法,所述第一数据清洗法包括,将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重,获取每个文本语料对应的查重率最高的文本语料,记为相似文本语料;
对于文本语料1至文本语料N中的任意一个文本语料,当文本语料与其对应的相似文本语料的查重率大于第一标准查重率时,将该文本语料在生化基础语料中删除;
步骤S1023,对经过步骤S1022的文本语料1至文本语料M使用第二数据清洗法,其中,M为正整数且小于等于N;
所述第二数据清洗法包括,获取文本语料1至文本语料M中所有文本语料的文本格式,记为文本格式1至文本格式M;
在文件格式查询信息库中以生化为关键词获取所有与生化相关的文本格式,记为生化格式库;
将文本格式1至文本格式M中的每一个文本格式放入生化格式库中进行逐一匹配,当文本格式未在生化格式库中匹配到对应的格式时,将该文本格式对应的文本语料在生化基础语料中删除。
2.根据权利要求1所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S103包括如下子步骤:
步骤S1031,以生化为关键词在关键词数据库中获取生化相关的关键词,记为生化关键词库;
步骤S1032,对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N,所述数据去噪法包括,对于文本语料1至文本语料N中的任意一个文本语料,对文本语料进行中文分词处理,将所有的中文词记为中文词1至中文词Z;
将中文词1至中文词Z与生化关键词库中的所有关键词进行逐一匹配,当中文词1至中文词Z中的任意一个中文词与生化关键词库中的任意一个关键词完全相同时记为匹配成功,获取文本语料中匹配成功的中文词的数量,记为关键数量;
步骤S1033,对于关键数量1至关键数量N中的任意一个关键数量,当关键数量小于等于标准关键数量时,将该关键数量对应的文本语料在生化基础语料中删除。
3.根据权利要求2所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S104包括如下子步骤:
步骤S1041,对文本语料1至文本语料N中的所有文本语料使用指标一致化处理,其中,对于指标一致化处理中的逆指标一致化处理使用减法一致化进行处理;
步骤S1042,对经过步骤S1041处理后的文本语料1至文本语料N使用无量纲化处理。
4.根据权利要求3所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S1还包括如下子步骤:
步骤S106,将生化知识语料录入GPT,使用GPT基于生化知识语料生成问题语料,记为问题语料库;
步骤S107,将问题语料库中的问题语料与其对应的生化知识语料记为一对问答语料;
步骤S108,将所有成对的问答语料记为生化知识问答语料库,将生化知识问答语料库中的若干对问答语料记为问答语料1至问答语料T。
5.根据权利要求4所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S2包括如下子步骤:
步骤S201,使用生化关键词库获取问答语料1至问答语料T中每个问答语料出现次数最多的关键词,并记为该语料的头部关键词;
步骤S202,将生化知识问答语料库中的所有问答语料放入字典内,并基于所有问答语料的头部关键词建立字典的目录,所述字典的目录使用若干头部关键词的第一个字的首字母进行排序;
随机选取生化知识语料库中第一百分比的问答语料,记为训练集,并将剩下的若干问答语料记为测试集;
步骤S203,获取生化知识语料库中的若干问答语料,将每个问答语料中问题语料对应的答案进行整合,记为验证集。
6.根据权利要求5所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S3包括如下子步骤:
步骤S301,使用GPT获取数据库中存储的生化相关的若干问题,记为若干训练问题,并基于若干训练问题在验证集中找到每个问题对应的答案,记为标准答案;
步骤S302,建立生化问答模型,所述生化问答模型包括训练集中的若干问答语料;
步骤S303,随机挑选若干训练问题中的一个训练问题并将其放入生化问答模型中,生化问答模型通过遍历查询训练集中与训练问题相关的答案,并将答案输出,其中,答案具有唯一性。
7.根据权利要求6所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S4包括如下子步骤:
步骤S401,将生化问答模型输出的答案记为训练答案,将训练答案与训练问题对应的标准答案进行比对,当比对结果一致时,将此次输出记为成功输出,当比对结果不一致时,记录不一致的训练答案以及标准答案对应的训练问题,并在生化问答模型内进行修正;
步骤S402,当所有训练问题均放入生化问答模型后,获取放入生化问答模型中训练问题的数量,记为训练总数;
获取成功输出的数量,记为成功总数,将成功总数除以训练总数,将结果记为训练成功率,当训练成功率小于等于标准成功率时,继续使用GPT挑选若干问题放入生化问答模型内进行训练。
8.根据权利要求7所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S4还包括如下子步骤:
步骤S403,当连续第一标准次数的训练中训练成功率均大于标准成功率时,记为通过测试的生化训练模型;
步骤S404,将通过测试的生化训练模型部署在服务器上,通过接口进行访问使用。
9.适用于权利要求1-8任意一项所述的一种基于GPT模型的生化知识问答方法的系统,其特征在于,包括语料获取模块、生化问答模型建立模块以及测试模块,所述语料获取模块以及生化问答模型建立模块与测试模型通讯连接;
所述语料获取模块使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;
使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;
将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;
所述生化问答模型建立模块用于构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;
所述测试模块基于生化问答模型建立模块中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1-8任一项所述方法中的步骤。
CN202310958861.XA 2023-08-01 2023-08-01 一种基于gpt模型的生化知识问答方法、系统及存储介质 Active CN116662523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310958861.XA CN116662523B (zh) 2023-08-01 2023-08-01 一种基于gpt模型的生化知识问答方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310958861.XA CN116662523B (zh) 2023-08-01 2023-08-01 一种基于gpt模型的生化知识问答方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN116662523A CN116662523A (zh) 2023-08-29
CN116662523B true CN116662523B (zh) 2023-10-20

Family

ID=87717545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310958861.XA Active CN116662523B (zh) 2023-08-01 2023-08-01 一种基于gpt模型的生化知识问答方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116662523B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427492A (zh) * 2019-07-10 2019-11-08 阿里巴巴集团控股有限公司 生成关键词库的方法、装置和电子设备
CN111368088A (zh) * 2020-03-31 2020-07-03 成都信息工程大学 一种基于深度学习的文本情感分类方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN113076543A (zh) * 2021-03-22 2021-07-06 四川大学 一种针对社交网络中漏洞利用知识库的构建方法
CN113157897A (zh) * 2021-05-26 2021-07-23 中国平安人寿保险股份有限公司 语料生成方法、装置、计算机设备及存储介质
WO2021151271A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 基于命名实体的文本问答的方法、装置、设备及存储介质
CN113254610A (zh) * 2021-05-14 2021-08-13 廖伟智 面向专利咨询的多轮对话生成方法
CN114020799A (zh) * 2021-11-02 2022-02-08 北京库睿科技有限公司 数据采集、数据搜索方法及系统、电子设备、存储介质
WO2022222942A1 (zh) * 2021-04-21 2022-10-27 康键信息技术(深圳)有限公司 问答记录生成方法、装置、电子设备及存储介质
CN115809322A (zh) * 2022-11-11 2023-03-17 航天信息股份有限公司 一种基于gpt3的问答系统文本生成方法及装置
CN115952263A (zh) * 2022-12-16 2023-04-11 桂林电子科技大学 一种融合机器阅读理解的问答方法
CN116011425A (zh) * 2022-12-14 2023-04-25 中电万维信息技术有限责任公司 一种基于gpt网络模型的中文问题重写方法
CN116059646A (zh) * 2023-04-06 2023-05-05 深圳尚米网络技术有限公司 一种交互式专家指导系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230134798A1 (en) * 2021-11-02 2023-05-04 International Business Machines Corporation Reasonable language model learning for text generation from a knowledge graph

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427492A (zh) * 2019-07-10 2019-11-08 阿里巴巴集团控股有限公司 生成关键词库的方法、装置和电子设备
CN111368088A (zh) * 2020-03-31 2020-07-03 成都信息工程大学 一种基于深度学习的文本情感分类方法
WO2021151271A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 基于命名实体的文本问答的方法、装置、设备及存储介质
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN113076543A (zh) * 2021-03-22 2021-07-06 四川大学 一种针对社交网络中漏洞利用知识库的构建方法
WO2022222942A1 (zh) * 2021-04-21 2022-10-27 康键信息技术(深圳)有限公司 问答记录生成方法、装置、电子设备及存储介质
CN113254610A (zh) * 2021-05-14 2021-08-13 廖伟智 面向专利咨询的多轮对话生成方法
CN113157897A (zh) * 2021-05-26 2021-07-23 中国平安人寿保险股份有限公司 语料生成方法、装置、计算机设备及存储介质
CN114020799A (zh) * 2021-11-02 2022-02-08 北京库睿科技有限公司 数据采集、数据搜索方法及系统、电子设备、存储介质
CN115809322A (zh) * 2022-11-11 2023-03-17 航天信息股份有限公司 一种基于gpt3的问答系统文本生成方法及装置
CN116011425A (zh) * 2022-12-14 2023-04-25 中电万维信息技术有限责任公司 一种基于gpt网络模型的中文问题重写方法
CN115952263A (zh) * 2022-12-16 2023-04-11 桂林电子科技大学 一种融合机器阅读理解的问答方法
CN116059646A (zh) * 2023-04-06 2023-05-05 深圳尚米网络技术有限公司 一种交互式专家指导系统

Also Published As

Publication number Publication date
CN116662523A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110569353B (zh) 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN110019843B (zh) 知识图谱的处理方法及装置
Creutz et al. Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN109508458B (zh) 法律实体的识别方法及装置
CN111626048A (zh) 文本纠错方法、装置、设备及存储介质
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
CN108334489B (zh) 文本核心词识别方法和装置
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN110852056A (zh) 一种获取文本相似度的方法、装置、设备及可读存储介质
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN107451106A (zh) 文本纠正方法及装置、电子设备
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN112434211A (zh) 一种数据处理方法、装置、存储介质及设备
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN111639485A (zh) 基于文本相似性的课程推荐方法及相关设备
CN113627159A (zh) 纠错模型的训练数据确定方法、装置、介质及产品
CN113076740A (zh) 政务服务领域的同义词挖掘方法及装置
CN111950265A (zh) 一种领域词库构建方法和装置
CN116662523B (zh) 一种基于gpt模型的生化知识问答方法、系统及存储介质
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant