CN116881470A - 一种生成问答对的方法及装置 - Google Patents

一种生成问答对的方法及装置 Download PDF

Info

Publication number
CN116881470A
CN116881470A CN202310830969.0A CN202310830969A CN116881470A CN 116881470 A CN116881470 A CN 116881470A CN 202310830969 A CN202310830969 A CN 202310830969A CN 116881470 A CN116881470 A CN 116881470A
Authority
CN
China
Prior art keywords
question
answer
candidate
corpus
target field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310830969.0A
Other languages
English (en)
Inventor
唐添翼
管健
夏敏
韩冬
易丛文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhixian Future Industrial Software Co ltd
Original Assignee
Shenzhen Zhixian Future Industrial Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhixian Future Industrial Software Co ltd filed Critical Shenzhen Zhixian Future Industrial Software Co ltd
Priority to CN202310830969.0A priority Critical patent/CN116881470A/zh
Publication of CN116881470A publication Critical patent/CN116881470A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种生成问答对的方法及装置,方法包括:获取问题模板、目标领域的语料数据与知识图谱数据;分别根据所述语料数据和知识图谱数据对所述问题模板进行填充,得到多个所述目标领域的候选问题;对所述多个候选问题与所述语料数据进行第一相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合;将所述问题集合中的任一问题输入到大语言模型中,得到多个所述目标领域的候选答案;对所述多个候选答案与所述语料数据进行第二相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合;根据所述问题集合和答案集合,生成多个所述目标领域的问答对。

Description

一种生成问答对的方法及装置
技术领域
本发明涉及自然语言处理领域,尤其涉及一种生成问答对的方法及装置。
背景技术
近年来,大语言模型在自然语言处理领域得到了广泛的关注和应用。尤其是GPT(Generative Pre-trained Transformer)系列模型,通过无监督学习和自我监督学习的方式,学习了更加复杂的语言模式和知识表示,在自然语言生成、对话系统、文本分类等任务中,展现了强大的语言生成和推理能力。
当语言模型参数规模超过一定水平时,该模型将表现出小模型不具备的能力,这种能力被称为“涌现能力”,包括更强的上下文理解能力、推理能力等。然而,这种能力所带来的结果通常是不稳定和不准确的,目前还无法依靠大语言模型提供准确的专业领域问答对(Query and Answer,QA)生成任务,问答对生成任务是实现人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)的关键一环。虽然现有的模型可以被用来生成一些通用领域的问答对,但是在专业领域生成的问答对缺乏准确性和专业性。
发明内容
本说明书一个或多个实施例描述了一种生成问答对的方法及装置,通过使用问题模板和知识图谱生成问题,并使用大语言模型生成对应的答案,使用语料库分别筛选出问题和答案中匹配度高的结果,进而生成问答对。
第一方面,提供了一种生成问答对的方法,包括:
获取问题模板、目标领域的语料数据与知识图谱数据;
分别根据所述语料数据和知识图谱数据对所述问题模板进行填充,得到多个所述目标领域的候选问题;
对所述多个候选问题与所述语料数据进行第一相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合;
将所述问题集合中的任一问题输入到大语言模型中,得到多个所述目标领域的候选答案;
对所述多个候选答案与所述语料数据进行第二相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合;
根据所述问题集合和答案集合,生成多个所述目标领域的问答对。
在一种可能的实施方式中,在将所述问题集合中的任一问题输入到大语言模型之前,所述方法还包括:
根据所述第一相似度匹配的结果,使用所述语料数据对所述问题集合中的问题的内容进行扩充。
在一种可能的实施方式中,获取问题模板,包括:
获取与所述问题相关的提示词;
根据所述提示词,使用大语言模型生成所述问题模板。
在一种可能的实施方式中,根据所述语料数据对所述问题模板进行填充,包括:
从所述语料数据中提取与所述目标领域相关的词语,使用所述词语对所述问题模板进行填充。
在一种可能的实施方式中,根据知识图谱数据对所述问题模板进行填充,包括:
从所述知识图谱中提取与所述目标领域相关的知识,使用所述知识对所述问题模板进行匹配填充。
在一种可能的实施方式中,对所述多个候选问题与所述语料数据进行第一相似度匹配,包括:
对所述多个候选问题中的任一候选问题进行编码,得到候选问题表征;
对所述语料数据中的任一语料进行编码,得到语料表征;
对所述候选问题表征和所述语料表征进行相似度匹配。
在一种可能的实施方式中,对所述多个候选答案与所述语料数据进行第二相似度匹配,包括:
对所述多个候选答案中的任一候选答案进行编码,得到候选答案表征;
对所述语料数据中的任一语料进行编码,得到语料表征;
对所述候选答案表征和所述语料表征进行相似度匹配。
在一种可能的实施方式中,根据所述问题集合和答案集合,生成多个所述目标领域的问答对,包括:
对于所述答案集合中的第一答案,从所述问题集合中确定与其对应的第一问题,根据第一问题和第一答案组成第一问答对。
第二方面,提供了一种生成问答对的装置,包括:
获取单元,配置为,获取问题模板、目标领域的语料数据与知识图谱数据;
问题生成单元,配置为,分别根据所述语料数据和知识图谱数据对所述问题模板进行填充,得到多个所述目标领域的候选问题;
问题确定单元,配置为,对所述多个候选问题与所述语料数据进行第一相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合;
答案生成单元,配置为,将所述问题集合中的任一问题输入到大语言模型中,得到多个所述目标领域的候选答案;
答案确定单元,配置为,对所述多个候选答案与所述语料数据进行第二相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合;
问答对生成单元,配置为,根据所述问题集合和答案集合,生成多个所述目标领域的问答对。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
本发明提出的一种生成问答对的方法及装置,通过使用问题模板和知识图谱生成问题,并使用大语言模型生成对应的答案,使用语料库分别筛选出问题和答案中匹配度高的结果,进而生成问答对,可以在短时间高效地生成大量的专业领域的问答对,并且具有高质量和高准确性。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例公开的一种生成问答对的方法的框架图;
图2为本发明实施例公开的一种生成问答对的方法的流程图;
图3为本发明实施例公开的一种生成问答对的装置的示意性框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据一个实施例,图1示出一种生成问答对的方法的框架图。如图1所示,整个流程主要分为问题生成和答案生成两个阶段,用于生成在某个专业的目标领域的问答对。在问题生成阶段,首先,通过使用提示词(prompt)让大语言模型生成一些提问模版,例如,“如何____?”、“怎样____?”。然后,从目标领域语料库中通过命名实体识别(Named EntityRecognition,NER)技术抽取出相关领域术语,并将术语填充进模版中,生成与目标领域有关的问题,例如:“如何制造玻璃纤维?”、“怎样生产玻璃涂料?”;与此同时,通过对目标领域语料库进行实体和关系的抽取,构造专业领域的名词关系知识图谱,利用图谱和模版匹配生成与目标领域有关的问题。然后,使用语言模型基于目标领域语料库对问题进行相似度匹配,如果匹配分数良好(相似度高),则说明生成问题符合一定逻辑,可以添加进问题集合中。如果匹配分数不理想,说明这种表达不符合该领域常见表达形式,应当弃用该问题。
在答案生成阶段,使用补全模型的补全方法处理问题,将上一步目标领域语料库匹配的相似文本适应性嵌入问题生成上下文,把问题完善成更加优质和清楚的专业领域提示词。然后将提示词输入到大语言模型中,得到对于提示词中问题的候选答案。将候选答案添加进答案集合指前,也需要使用语言模型基于目标领域语料库对答案进行相似度匹配,检验语义和语法的可行性,并保留匹配分数高的答案,并与相应的问题组成问答对。
以下将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图2为本发明实施例公开的一种生成问答对的方法的流程图。如图2所示,所述方法至少包括:步骤201,获取问题模板、目标领域的语料数据与知识图谱数据;步骤202,分别根据所述语料数据和知识图谱数据对所述问题模板进行填充,得到多个所述目标领域的候选问题;步骤203,对所述多个候选问题与所述语料数据进行第一相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合;步骤205,将所述问题集合中的任一问题输入到大语言模型中,得到多个所述目标领域的候选答案;步骤206,对所述多个候选答案与所述语料数据进行第二相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合;步骤207,根据所述问题集合和答案集合,生成多个所述目标领域的问答对。
在步骤201,获取问题模板、目标领域的语料数据与知识图谱数据。
问题模板可以直接从已有模板库中获取,也可以先获取与所述问题相关的提示词prompt,然后根据所述提示词,使用大语言模型生成所述问题模板,这里不做限定。问题模板包含疑问词,用于辅助生成问题,例如,“如何____?”、“怎样____?”。
知识图谱可以是直接获取已有的知识图谱,也可以通过对目标领域的语料库进行实体和关系的抽取,然后根据实体和关系构造知识图谱。
在步骤202,分别根据所述语料数据和知识图谱数据对所述问题模板进行填充,得到多个所述目标领域的候选问题。
在一个实施例中,根据所述语料数据对所述问题模板进行填充可以包括:从所述语料数据中提取与所述目标领域相关的词语,使用所述词语对所述问题模板进行填充。
具体地,对所述语料数据使用命名实体识别NER技术抽取出与所述目标领域相关的词语,然后使用所述词语对所述问题模板进行填充。
本领域技术人员知晓,命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的一种技术,其主要目的是识别文本中具有特定实体意义的词汇,例如人名、地名、组织机构名、日期、时间等,并将其分类为预先定义好的实体类型。
在另一个实施例中,根据知识图谱数据对所述问题模板进行填充可以包括:从所述知识图谱中提取与所述目标领域相关的知识,使用所述知识对所述问题模板进行匹配填充。
在步骤203,对所述多个候选问题与所述语料数据进行第一相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合。
在一个实施例中,对所述多个候选问题中的任一候选问题进行编码,得到候选问题表征,同时,对所述语料数据中的任一语料进行编码,得到语料表征,然后对所述候选问题表征和所述语料表征进行相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合。
可以使用多种编码方法对候选问题和语料数据进行编码,例如one-hot、word2vec、BERT编码器等,这里不做限定。
可以使用多种相似度匹配方法对所述候选问题表征和所述语料表征进行相似度匹配。
在一个实施例中,通过问题表征与语料表征之间的欧式距离、曼哈顿距离、或切比雪夫距离,进而进行第一相似度匹配。
在另一个实施例中,通过计算问题表征与语料表征之间的余弦相似度,进而进行第一相似度匹配。
然后,在步骤205,将所述问题集合中的任一问题输入到大语言模型中,得到多个所述目标领域的候选答案。
在一些可能的实施方式中,在步骤205之前,所述方法还包括:步骤204,根据所述第一相似度匹配的结果,使用所述语料数据对所述问题集合中的问题的内容进行扩充。将上一步目标领域语料库匹配的相似文本适应性嵌入问题生成上下文,把问题完善成更加优质和清楚的目标专业领域提示词。通过将提示词输入到大语言模型中,可以得到多个所述目标领域的更加优质和清楚的候选答案。
在步骤206,对所述多个候选答案与所述语料数据进行第二相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合。
在一个实施例中,对所述多个候选答案中的任一候选答案进行编码,得到候选答案表征,对所述语料数据中的任一语料进行编码,得到语料表征,然后对所述候选答案表征和所述语料表征进行相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合。
对候选答案和语料的编码以及相似度匹配的方法可以参照步骤203相关的方法进行,这里不再赘述。
在步骤207,根据所述问题集合和答案集合,生成多个所述目标领域的问答对。
对于所述答案集合中的第一答案,从所述问题集合中确定与其对应的第一问题,根据第一问题和第一答案组成第一问答对。
通过如图2所示的方法,可以在短时间内根据目标领域语料库以及行业知识图谱生成大量的目标领域内合理的QA问答对,并且通过相似度匹配模型,保证了输出答案的逻辑性和专业性,避免了语言模型生成不准确答案对QA问答对样本集合的污染。
根据另一方面的实施例,还提供一种生成问答对的装置。图3示出根据一个实施例的生成问答对的装置的示意性框图,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图3所示,该装置300包括:
获取单元301,配置为,获取问题模板、目标领域的语料数据与知识图谱数据;
问题生成单元302,配置为,分别根据所述语料数据和知识图谱数据对所述问题模板进行填充,得到多个所述目标领域的候选问题;
问题确定单元303,配置为,对所述多个候选问题与所述语料数据进行第一相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合;
答案生成单元305,配置为,将所述问题集合中的任一问题输入到大语言模型中,得到多个所述目标领域的候选答案;
答案确定单元306,配置为,对所述多个候选答案与所述语料数据进行第二相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合;
问答对生成单元307,配置为,根据所述问题集合和答案集合,生成多个所述目标领域的问答对。
在一些可能的实施方式中,所述装置还包括:扩充单元304,配置为,根据所述第一相似度匹配的结果,使用所述语料数据对所述问题集合中的问题的内容进行扩充。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一实施例所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一实施例所描述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种生成问答对的方法,其特征在于,所述方法包括:
获取问题模板、目标领域的语料数据与知识图谱数据;
分别根据所述语料数据和知识图谱数据对所述问题模板进行填充,得到多个所述目标领域的候选问题;
对所述多个候选问题与所述语料数据进行第一相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合;
将所述问题集合中的任一问题输入到大语言模型中,得到多个所述目标领域的候选答案;
对所述多个候选答案与所述语料数据进行第二相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合;
根据所述问题集合和答案集合,生成多个所述目标领域的问答对。
2.根据权利要求1所述的方法,其特征在于,在将所述问题集合中的任一问题输入到大语言模型之前,所述方法还包括:
根据所述第一相似度匹配的结果,使用所述语料数据对所述问题集合中的问题的内容进行扩充。
3.根据权利要求1所述的方法,其特征在于,获取问题模板,包括:
获取与所述问题相关的提示词;
根据所述提示词,使用大语言模型生成所述问题模板。
4.根据权利要求1所述的方法,其特征在于,根据所述语料数据对所述问题模板进行填充,包括:
从所述语料数据中提取与所述目标领域相关的词语,使用所述词语对所述问题模板进行填充。
5.根据权利要求1所述的方法,其特征在于,根据知识图谱数据对所述问题模板进行填充,包括:
从所述知识图谱中提取与所述目标领域相关的知识,使用所述知识对所述问题模板进行匹配填充。
6.根据权利要求1所述的方法,其特征在于,对所述多个候选问题与所述语料数据进行第一相似度匹配,包括:
对所述多个候选问题中的任一候选问题进行编码,得到候选问题表征;
对所述语料数据中的任一语料进行编码,得到语料表征;
对所述候选问题表征和所述语料表征进行相似度匹配。
7.根据权利要求1所述的方法,其特征在于,对所述多个候选答案与所述语料数据进行第二相似度匹配,包括:
对所述多个候选答案中的任一候选答案进行编码,得到候选答案表征;
对所述语料数据中的任一语料进行编码,得到语料表征;
对所述候选答案表征和所述语料表征进行相似度匹配。
8.根据权利要求1所述的方法,其特征在于,根据所述问题集合和答案集合,生成多个所述目标领域的问答对,包括:
对于所述答案集合中的第一答案,从所述问题集合中确定与其对应的第一问题,根据第一问题和第一答案组成第一问答对。
9.一种生成问答对的装置,其特征在于,所述装置包括:
获取单元,配置为,获取问题模板、目标领域的语料数据与知识图谱数据;
问题生成单元,配置为,分别根据所述语料数据和知识图谱数据对所述问题模板进行填充,得到多个所述目标领域的候选问题;
问题确定单元,配置为,对所述多个候选问题与所述语料数据进行第一相似度匹配,保留相似度大于第一阈值的候选问题,得到问题集合;
答案生成单元,配置为,将所述问题集合中的任一问题输入到大语言模型中,得到多个所述目标领域的候选答案;
答案确定单元,配置为,对所述多个候选答案与所述语料数据进行第二相似度匹配,保留相似度大于第二阈值的候选答案,得到答案集合;
问答对生成单元,配置为,根据所述问题集合和答案集合,生成多个所述目标领域的问答对。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
CN202310830969.0A 2023-07-07 2023-07-07 一种生成问答对的方法及装置 Pending CN116881470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310830969.0A CN116881470A (zh) 2023-07-07 2023-07-07 一种生成问答对的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310830969.0A CN116881470A (zh) 2023-07-07 2023-07-07 一种生成问答对的方法及装置

Publications (1)

Publication Number Publication Date
CN116881470A true CN116881470A (zh) 2023-10-13

Family

ID=88265568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310830969.0A Pending CN116881470A (zh) 2023-07-07 2023-07-07 一种生成问答对的方法及装置

Country Status (1)

Country Link
CN (1) CN116881470A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290490A (zh) * 2023-11-24 2023-12-26 新华三人工智能科技有限公司 一种模型训练的处理、信息处理方法、装置、设备及介质
CN117556920A (zh) * 2023-10-23 2024-02-13 星环信息科技(上海)股份有限公司 一种大模型幻觉治理方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556920A (zh) * 2023-10-23 2024-02-13 星环信息科技(上海)股份有限公司 一种大模型幻觉治理方法、装置、设备及存储介质
CN117290490A (zh) * 2023-11-24 2023-12-26 新华三人工智能科技有限公司 一种模型训练的处理、信息处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN116881470A (zh) 一种生成问答对的方法及装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN116304748A (zh) 一种文本相似度计算方法、系统、设备及介质
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
CN116910185B (zh) 模型训练方法、装置、电子设备及可读存储介质
CN117077792B (zh) 一种基于知识图谱生成提示数据的方法及装置
CN113705207A (zh) 语法错误识别方法及装置
CN115345177A (zh) 意图识别模型训练方法和对话方法及装置
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN111666770B (zh) 一种语义匹配方法及装置
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN113722477A (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN105808522A (zh) 一种语义联想的方法及装置
CN114444470B (zh) 专利文本中的领域命名实体识别方法、装置、介质及设备
CN115049899B (zh) 模型训练方法、指代表达式生成方法及相关设备
CN117573841B (zh) 基于大语言模型的知识引导问答方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination