CN117217233A

CN117217233A - 文本纠正、文本纠正模型训练方法及装置

Info

Publication number: CN117217233A
Application number: CN202311266352.7A
Authority: CN
Inventors: 吴及; 尤心心; 刘喜恩; 金子裕
Original assignee: Tsinghua University; iFlytek Co Ltd
Current assignee: Tsinghua University; iFlytek Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-12

Abstract

本发明提供一种文本纠正、文本纠正模型训练方法及装置，所述方法包括：确定待纠正的答案文本以及答案文本对应的提问文本，以及与提问文本关联的知识文本；将答案文本、提问文本以及知识文本输入至文本纠正模型，得到文本纠正模型输出的答案文本的文本纠正结果；文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练。本发明提供的种文本纠正、文本纠正模型训练方法及装置，文本纠正模型是联合错误实体识别任务与文本纠正任务进行训练的，从而错误实体识别任务与文本纠正任务之间能够相互提供辅助增强信息，进一步提高文本纠正模型的文本纠正精度。

Description

文本纠正、文本纠正模型训练方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本纠正、文本纠正模型训练方法及装置。

背景技术

大语言模型是指拥有巨大参数量和强大语言表达能力的自然语言处理模型，能够处理各种自然语言任务，例如机器翻译、自动问答、语言生成等。然而，大语言模型存在幻觉问题，幻觉是指模型生成的文本不遵循输入原文本或不符合事实，生成完全捏造的信息，使其输出看起来是正确的，但是它本质上是错误的。

对此，目前多通过将提问文本以及提问文本关联的知识文本输入至大语言模型，由知识文本对提问文本进行上下文数据增强理解，但大语言模型会根据每次数据增强内容的长度和质量的不同带来新的幻觉问题。

发明内容

本发明提供一种文本纠正、文本纠正模型训练方法及装置，用以解决现有技术中大语言模型存在幻觉问题的缺陷。

本发明提供一种文本纠正方法，包括：

确定待纠正的答案文本以及所述答案文本对应的提问文本，以及与所述提问文本关联的知识文本；

将所述答案文本、所述提问文本以及所述知识文本输入至文本纠正模型，得到所述文本纠正模型输出的所述答案文本的文本纠正结果；

所述文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练；所述预测错误实体基于样本文本的分词编码特征以及分句编码特征确定，所述文本纠正预测结果基于所述样本文本的分词解码特征以及分句编码特征确定，所述样本文本包括样本答案文本、样本提问文本以及样本知识文本。

根据本发明提供的一种文本纠正方法，所述将所述答案文本、所述提问文本以及所述知识文本输入至文本纠正模型，得到所述文本纠正模型输出的所述答案文本的文本纠正结果，包括：

基于所述文本纠正模型的分词编码层，对所述答案文本、所述提问文本以及所述知识文本进行分词编码，得到文本分词编码特征；

基于所述文本纠正模型的分句编码层，对所述文本分词编码特征进行分句编码，得到文本分句编码特征；

基于所述文本纠正模型的分词解码层，对所述文本分词编码特征进行分词解码，得到文本分词解码特征；

基于所述文本纠正模型的文本纠正层，应用所述文本分句编码特征以及所述文本分词解码特征，对所述答案文本进行文本纠正，得到所述文本纠正结果。

根据本发明提供的一种文本纠正方法，所述对所述答案文本、所述提问文本以及所述知识文本进行分词编码，得到文本分词编码特征，包括：

拼接所述答案文本、所述提问文本以及所述知识文本，得到拼接文本；

对所述拼接文本进行特征提取，得到拼接文本特征；

对所述拼接文本特征进行分词编码，得到所述文本分词编码特征。

根据本发明提供的一种文本纠正方法，所述对所述拼接文本特征进行分词编码，得到所述文本分词编码特征，包括：

对所述拼接文本特征进行注意力计算，得到注意力特征；

对所述注意力特征进行分词编码，得到所述文本分词编码特征。

根据本发明提供的一种文本纠正方法，所述知识文本的确定步骤包括：

基于所述提问文本的语义信息，生成提问文本特征；

基于各候选知识文本的语义信息，生成各候选知识文本特征；

基于所述提问文本特征以及各候选知识文本特征，确定所述提问文本与各候选知识文本之间的语义相关度，并将语义相关度大于阈值的候选知识文本作为所述提问文本对应的知识文本。

本发明还提供一种文本纠正模型训练方法，包括：

获取样本文本，所述样本文本包括样本答案文本、样本提问文本以及样本知识文本；

基于所述样本文本的分词编码特征以及分句编码特征，确定所述样本答案文本的预测错误实体；

基于所述样本文本的分词解码特征以及分句编码特征，确定所述样本答案文本的文本纠正预测结果；

以最小化所述预测错误实体与错误实体标签之间的差异，以及最小化所述文本纠正预测结果与文本纠正标签之间的差异为目标，对初始模型进行训练，得到文本纠正模型。

本发明还提供一种文本纠正装置，包括：

文本确定单元，用于确定待纠正的答案文本以及所述答案文本对应的提问文本，以及与所述提问文本关联的知识文本；

文本纠正单元，用于将所述答案文本、所述提问文本以及所述知识文本输入至文本纠正模型，得到所述文本纠正模型输出的所述答案文本的文本纠正结果；

本发明还提供一种文本纠正模型训练装置，包括：

文本获取单元，用于获取样本文本，所述样本文本包括样本答案文本、样本提问文本以及样本知识文本；

实体确定单元，用于基于所述样本文本的分词编码特征以及分句编码特征，确定所述样本答案文本的预测错误实体；

纠正预测单元，用于基于所述样本文本的分词解码特征以及分句编码特征，确定所述样本答案文本的文本纠正预测结果；

模型训练单元，用于以最小化所述预测错误实体与错误实体标签之间的差异，以及最小化所述文本纠正预测结果与文本纠正标签之间的差异为目标，对初始模型进行训练，得到文本纠正模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述文本纠正方法或实现如上任一种所述文本纠正模型训练方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本纠正方法或实现如上任一种所述文本纠正模型训练方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本纠正方法或实现如上任一种所述文本纠正模型训练方法。

本发明提供的文本纠正、文本纠正模型训练方法及装置，文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练，即文本纠正模型是联合错误实体识别任务与文本纠正任务进行训练的，从而错误实体识别任务与文本纠正任务之间能够相互提供辅助增强信息，进一步提高文本纠正模型的文本纠正精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本纠正方法的流程示意图；

图2是本发明提供的文本纠正方法中步骤120的实施方式的流程示意图；

图3是本发明提供的文本纠正方法中步骤121的实施方式的流程示意图；

图4是本发明提供的知识文本确定方法的流程示意图；

图5是本发明提供的又一文本纠正方法的流程示意图；

图6是本发明提供的文本纠正模型的结构示意图；

图7是本发明提供的文本纠正模型训练方法的流程示意图；

图8是本发明提供的文本纠正装置的结构示意图；

图9是本发明提供的文本纠正模型训练装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，大语言模型存在两类幻觉问题，一是未遵循提问文本的幻觉，即大语言模型的答案文本未严格遵循提问文本内容，捏造了答案文本外的内容。二是未遵循客观事实的幻觉，即大语言模型的答案文本与客观事实相矛盾。

针对大模型存在上述幻觉的问题，目前多通过将提问文本以及提问文本关联的知识文本输入至大语言模型，由知识文本对提问文本进行上下文数据增强理解，以缓解大模型的幻觉问题。然而，大语言模型会根据每次数据增强内容的长度和质量的不同带来新的幻觉问题。

此外，也有基于相信大语言模型内部有足够的知识，希望通过让大语言模型自己生成思维链的方法引导出正确的答案，而不是直接给出某种结论，即大语言模型先对复杂任务进行拆解，逐步进行推理，最终根据推理中提及的知识和分析引导出更加准确的答案。然而，在大语言模型生成推理步骤时，大语言模型会生成更多的信息点，大语言模型基于前一步推理的信息点引导出下一步更准确的推理，可是更多的知识点也带来的更多产生幻觉的可能，产生幻觉式滚雪球的风险。

对此，本发明提供一种文本纠正方法。图1是本发明提供的文本纠正方法的流程示意图，如图1所示，该方法可以应用于医疗领域中的文本纠正，如对医疗领域的答案文本进行文本纠正，也可以应用于其它领域中的文本纠正，如对教育领域的答案文本进行文本纠正，以下实施例以医疗领域的答案文本为例进行说明，该方法包括如下步骤：

步骤110、确定待纠正的答案文本以及答案文本对应的提问文本，以及与提问文本关联的知识文本；

步骤120、将答案文本、提问文本以及知识文本输入至文本纠正模型，得到文本纠正模型输出的答案文本的文本纠正结果；

文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练；预测错误实体基于样本文本的分词编码特征以及分句编码特征确定，文本纠正预测结果基于样本文本的分词解码特征以及分句编码特征确定，样本文本包括样本答案文本、样本提问文本以及样本知识文本。

具体地，提问文本是指用户或者系统向大语言模型提出的问题或者查询的文本，如提问文本可以为“请根据给定病历内容进行总结。病历内容：XXX”。答案文本则是大语言模型根据提问文本生成的回答或者查询结果文本。由于大语言模型存在幻觉问题，因此大语言模型根据提问文本生成的答案文本中可能存在幻觉，即答案文本可以理解为需要进行幻觉纠正的文本。

知识文本是指存储和组织着知识，且与提问文本领域相同的文本，知识文本用于提供提问文本对应的增强信息，知识文本可以是对提问文本中的名词进行解释，也可以提供提问文本的背景信息，以便更深入理解提问文本的上下文信息。可选地，可以基于提问文本与医学知识库中各候选知识文本之间的语义相关度，从各候选文本中选取与提问文本关联的知识文本。

此外，答案文本、提问文本以及知识文本可以是用户直接输入的文本，也可以是对用户输入的图像进行OCR(Optical Character Recognition，光学字符识别)得到的文本，还可以是对用户输入的语音进行语音识别得到的文本，本发明实施例对此不作具体限定。

在获取将答案文本、提问文本以及知识文本后，将答案文本、提问文本以及知识文本输入至文本纠正模型，由文本纠正模型基于知识文本提供的提问文本对应的增强信息，以及提问文本自身的语义信息，对答案文本进行文本纠正，得到答案文本的文本纠正结果。其中，文本纠正结果可以是对答案文本进行纠正后的纠正文本，也可以是答案文本中的错误实体以及错误实体对应的纠正实体，本发明实施例对此不作具体限定。

其中，文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练。

预测错误实体可以理解为预测得到的样本答案文本中存在幻觉的实体，即预测需要进行纠正的错误实体。预测错误实体基于样本文本的分词编码特征以及分句编码特征确定，分词编码特征可以理解为样本文本中各分词的向量表示，其用于表征样本文本中各分词的语义信息，分句编码特征可以理解为样本文本中各分句的向量表示，其用于表征样本文本中各分句的语义信息。预测错误实体与错误实体标签之间的差异越小，表明文本纠正模型识别样本答案文本中错误实体的精度越高。

文本纠正预测结果可以理解为样本答案文本中错误实体的预测纠正结果，文本纠正预测结果基于样本文本的分词解码特征以及分句编码特征确定，分词解码特征可以理解为对分词编码特征进行解码后的分词向量表示。文本纠正预测结果与文本纠正标签之间的差异越小，表明文本纠正模型对样本答案文本进行文本纠正的精度越高。

进一步地，文本纠正模型以最小化预测错误实体与错误实体标签之间的差异进行训练可以理解为文本纠正模型是针对错误实体识别任务进行训练，文本纠正模型以最小化文本纠正预测结果与文本纠正标签之间的差异进行训练可以理解为文本纠正模型是针对文本纠正任务进行训练。由于错误实体识别任务中的预测错误实体用于表征样本答案文本中的错误实体，文本纠正任务中的文本纠正预测结果用于表征样本答案文本中错误实体的预测纠正结果，从而错误实体识别任务能够将从样本答案文本中识别得到的错误实体作为辅助增强信息供文本纠正任务进行文本纠正，且文本纠正任务能够将样本答案文本的文本纠正结果过作为辅助增强信息供错误实体识别任务进行错误实体识别，进而使得最终训练得到的文本纠正模型不仅能够准确识别答案文本中的错误实体，而且能够准确对答案文本进行文本纠正，进一步提高了文本纠正模型的纠正精度。

此外，本发明实施例中的文本纠正模型是基于大语言模型输出的答案文本、答案文本对应的提问文本以及与提问文本关联的知识文本，对答案文本进行文本纠正，即文本纠正模型是与大语言模型解耦的，从而能够避免传统方法中大语言模型进行推理时导致新增幻觉的问题。

本发明实施例提供的文本纠正方法，文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练，即文本纠正模型是联合错误实体识别任务与文本纠正任务进行训练的，从而错误实体识别任务与文本纠正任务之间能够相互提供辅助增强信息，进一步提高文本纠正模型的文本纠正精度。

基于上述实施例，图2是本发明提供的文本纠正方法中步骤120的实施方式的流程示意图，如图2所示，步骤120包括：

步骤121、基于文本纠正模型的分词编码层，对答案文本、提问文本以及知识文本进行分词编码，得到文本分词编码特征。

具体地，分词编码层用于对输入的答案文本、提问文本以及知识文本进行分词编码，并输出对应的文本分词编码特征。进一步地，分词编码层分别对答案文本、提问文本以及知识文本进行分词编码，从而提取答案文本、提问文本以及知识文本各自的分词语义，得到文本分词编码特征。

此处，对于文本进行分词编码的方式有很多，例如通过长短时记忆网络对输入文本中各个分词的词向量进行上下文特征提取，或者通过Transformer的编码器对输入文本中各个分词的词向量进行上下文特征提取。

步骤122、基于文本纠正模型的分句编码层，对文本分词编码特征进行分句编码，得到文本分句编码特征。

具体地，分词编码层用于对输入的文本分词编码特征进行分句编码，并输出对应的文本分句编码特征。进一步地，分句编码层对文本分词编码特征进行分句编码，从而提取分词编码特征中的分句语义，得到文本分句编码特征。

步骤123、基于文本纠正模型的分词解码层，对文本分词编码特征进行分词解码，得到文本分词解码特征。

具体地，分词解码层用于对文本分词编码特征进行分词解码，从而得到文本分词解码特征。在解码过程中，可以通过Transformer的解码器对文本分词编码特征进行解码，得到文本分词解码特征。

步骤124、基于文本纠正模型的文本纠正层，应用文本分句编码特征以及文本分词解码特征，对答案文本进行文本纠正，得到文本纠正结果。

具体地，文本纠正层用于结合文本分句编码特征以及文本分词解码特征，对答案文本进行文本纠正，得到文本纠正结果。由于文本分句编码特征用于表征文本的分句语义信息，文本分词解码特征是对文本分词编码特征进行解码后得到的，即文本分词解码特征可以用于表征文本的分词语义信息，从而可以将分句语义信息中携带的上下文信息作为指导信息，指导文本纠正层基于分词语义信息，对答案文本的错误实体进行文本纠正，准确得到文本纠正结果。

基于上述任一实施例，图3是本发明提供的文本纠正方法中步骤121的实施方式的流程示意图，如图3所示，步骤121中对答案文本、提问文本以及知识文本进行分词编码，得到文本分词编码特征，包括：

步骤1211、拼接答案文本、提问文本以及知识文本，得到拼接文本；

步骤1212、对拼接文本进行特征提取，得到拼接文本特征；

步骤1213、对拼接文本特征进行分词编码，得到文本分词编码特征。

具体地，在拼接答案文本、提问文本以及知识文本时，可以采用预设符号拼接答案文本、提问文本以及知识文本。例如，答案文本为A，提问文本为E，知识文本为K，可以采用符号“&”拼接上述文本，即得到拼接文本为“A&E&K”。

此外，拼接文本特征用于表征拼接文本的语义信息，其可以采用拼接文本的词向量(Word Embedding)来表征。进一步地，对拼接文本特征进行分词编码，从而提取拼接文本的分词语义，得到文本分词编码特征。

基于上述任一实施例，步骤1213包括：

对拼接文本特征进行注意力计算，得到注意力特征；

对注意力特征进行分词编码，得到文本分词编码特征。

具体地，对拼接文本特征进行注意力计算时，可以确定拼接文本特征中各分词之间的关系，各分词之间的关系可以包括各分词之间的相似性、各分词之间的上下文相关性等，即对拼接文本特征进行注意力计算后得到的注意力特征用于表征拼接文本特征中各分词之间的关系。可选地，可以基于Transformer模型的自注意力机制对拼接文本特征进行注意力计算，得到注意力特征。

由于注意力特征用于表征拼接文本特征中各分词之间的关系，进而在对注意力特征进行分词编码时，能够基于各分词之间的关系准确提取拼接文本的分词语义，进而能够准确得到文本分词编码特征。

基于上述任一实施例，图4是本发明提供的知识文本确定方法的流程示意图，如图4所示，知识文本的确定步骤包括：

步骤410、基于提问文本的语义信息，生成提问文本特征；

步骤420、基于各候选知识文本的语义信息，生成各候选知识文本特征；

步骤430、基于提问文本特征以及各候选知识文本特征，确定提问文本与各候选知识文本之间的语义相关度，并将语义相关度大于阈值的候选知识文本作为提问文本对应的知识文本。

具体地，候选知识文本可以是医学知识库中的文本。提问文本特征用于表征提问文本的语义信息，各候选知识文本特征用于表征各候选知识文本的语义信息。提问文本与各候选知识文本之间的语义相关度越大，表明对应候选知识文本与提问文本的关联程度越大，进而对应候选知识文本所提供提问文本对应增强信息的可信度越高。

在任一候选知识文本对应的语义相关度大于阈值的情况下，表明对应候选知识文本所提供提问文本对应增强信息的可信度较高，因此将对应候选知识文本作为提问文本对应的知识文本，从而文本纠正模型能够基于知识文本提供的增强信息更加理解提问文本的上下文信息，进而准确对提问文本对应的答案文本进行文本纠正。

可选地，医学知识库还可以包含一个向量库，该向量库用于存储医学知识库中各候选知识文本的句向量。在确定知识文本时，可以基于提问文本的句向量与各候选知识文本的句向量之间的距离确定提问文本与各候选知识文本之间的语义相关度，距离越大，语义相关度越低。

基于上述任一实施例，图5是本发明提供的又一文本纠正方法的流程示意图，如图5所示，该方法包括：

确定用户的提问文本，并将提问文本输入至大语言模型(Large Language Model，LLM)，得到大语言模型输出的提问文本对应的答案文本。

同时，从知识库中抽取与提问文本的语义相关度大于阈值的知识文本，并将提问文本、答案文本以及知识文本输入至文本纠正模型，得到文本纠正模型输出的答案文本对应的文本纠正结果。其中，文本纠正模型可以基于HeroNet(Hallucination Recognitionand Correction Network)模型构建得到。

图6是本发明提供的文本纠正模型的结构示意图，如图6所示，文本纠正模型包括分词编码层、分句编码层、分词解码层、错误实体识别层以及文本纠正层。其中，分词编码层用于对答案文本、提问文本以及知识文本进行分词编码，得到文本分词编码特征；分句编码层用于对文本分词编码特征进行分句编码，得到文本分句编码特征；分词解码层用于对文本分词编码特征进行分词解码，得到文本分词解码特征；错误实体识别层用于基于文本分词编码特征以及文本分句编码特征，对答案文本进行错误实体识别，确定答案文本中的错误实体。文本纠正层用于基于文本分句编码特征以及文本分词解码特征，对答案文本进行文本纠正，得到文本纠正结果。

可选地，分词编码层可以基于Transformer模型的编码器构建得到，分词解码层可以基于Transformer模型的解码器构建得到。其中，Transformer模型是一种基于自注意力机制的神经网络模型，自注意力机制如下：

自注意力机制允许模型在处理输入特征时进行“self-attention”，也就是根据输入特征中token间的重要性来加权计算出每个token的向量表示。其中，查询向量Q，键向量K和值向量V为输入Embedding乘上可训练矩阵经过线性变换后得到的向量。

Transformer模型的自注意力机制可以有效地捕捉输入特征中的长距离依赖关系。此外，Transformer模型的编码器主要用于将输入特征转换为一组含有语义信息的向量表示，解码器则用于根据这些向量表示生成目标序列，及生成新的文本。

由于错误实体识别任务对于文本纠正任务有极强的辅助性，从而本发明实施例通过同一个模型框架(文本纠正模型)对两个任务同时进行学习以增强相互间的能力。其中，两个任务的输入是一致的，输入包括提问文本E，待纠正的答案文本A，以及与提问文本E关联的知识文本K，K＝[k₁,k₂,…,k_n]。对于错误实体识别任务f_Hner，它的预测结果为即根据跟定E，A，K找出A中存在的错误实体：/>其中，/>表明A中的i^thtoken是错误实体的开始，/>表明错误实体的中间token，/>表明该位置token非错误实体。另一方面，对于文本纠正任务f_Hcor，它的输出为纠正后新生成的句子其中/>为模型预测词表中的某一个token。

在获取分词编码特征时，将提问文本E，答案文本A，以及知识文本K拼接得到拼接文本X＝[[CLS],Q,[SEP],A,[SEP],K,[SEP]]，其中K中的每个句子间也用[SEP]分割开，拼接文本经过Embedding层f_Embed得到Embedding层的拼接文本特征H⁰，H⁰再被输入由n个Transformer编码块堆叠的分词编码层f_nBlock，得到每个token在f_nBlock最后一层输出的向量表示，即分词编码特征Hⁿ：

其中，n∈{1,2,…,n}对应分词编码层中编码块的层数，N表示拼接文本的序列长度，d表示编码向量维度。

在获取分词编码特征Hⁿ后，将每个由[SEP]分割的句子分别输入分句编码层中的Max-pooling层，以将句子对应的token向量转换为句向量

其中，的i表示进行Max-pooling的第i^th个句子，S_i表示第i^th个句子中包含的所有token集合，m表示句子数量。

接着，将输入句子交互层f_sInter，句子交互层的作用是使各句向量/>学习到彼此之间最相关的信息。f_sInter的实现可以是基于一个超参数L层的Bert，利用其多头注意力机制来实现：

I^s中包含所有句子交互后的句向量以及特殊token[CLS]的向量表示，其中分句编码特征代表f_sInter最后的输出I^S中[CLS]所对应的向量表示。

错误实体识别层用于参考分句编码特征预测答案文本A中的每一个token是否为错误实体。具体来说，首先获取分词编码特征Hⁿ中所有A句子中的token向量形成一个集合H^A。然后将H^A中i^thtoken向量和分句编码特征/>拼接后输入错误实体识别层中的全连接层降维至1维，再通过Sigmoid函数得到i^thtoken是错误实体的概率/>

其中，代表在错误实体识别层中的全连接层参数。

对于分词解码层，当分词解码层f_dec收到第一个时刻[BOS]特殊token向量v₀和分词编码层f_nBlock输出的分词编码特征Hⁿ后开始解码，得到第一个时刻解码器的分词解码特征并将分词解码特征/>和分句编码特征/>进行拼接，输入至文本纠正层的全连接层进行维度变换，维度变换至词表维度大小，然后分词解码特征/>经过文本纠正层的Softmax层后，得到第一个时刻词表中词的概率分布/>

其中代表可学习的参数，V为词表的大小。上述为生成第一个token的过程，分词解码层f_dec在生成第t^th个时刻的token向量时会将上一个时刻输出token的向量v_t-1作为当前时刻的输入，实现自回归的生成方式，直到生成[EOS]特殊字符停止生成：

v_t-1＝f′_Embed(token_t-1)

其中t∈{1,2,…,l}，l表示输出目标序列的长度，f′_Embed为分词解码层的嵌入层，Hⁿ是cross-attention时需要用到的参考向量。

此外，文本纠正模型的损失函数由两部分组成，第一个损失函数来自于错误实体识别任务，文本纠正模型对答案文本A的每个词进行错误实体识别，预测每个词为错误实体的概率p^A，采用错误实体的概率p^A和错误实体标签之间进行对比，产生的损失记作Loss_Hner。第二个损失函数来自文本纠正任务，文本纠正模型对答案文本A进行文本纠正，生成纠错后的目标序列，生成目标词概率(文本纠正预测结果)和真实目标词概率(文本纠正标签)之间的损失记作Loss_Hcor。两者的联合损失函数即为文本纠正模型的损失函数Loss_Total：

Loss_Total＝αLoss_Hner+βLoss_Hcor

其中，α，β为超参数，α+β＝1。

基于上述任一实施例，图7是本发明提供的文本纠正模型训练方法的流程示意图，如图7所示，该方法包括：

步骤710、获取样本文本，样本文本包括样本答案文本、样本提问文本以及样本知识文本；

步骤720、基于样本文本的分词编码特征以及分句编码特征，确定样本答案文本的预测错误实体；

步骤730、基于样本文本的分词解码特征以及分句编码特征，确定样本答案文本的文本纠正预测结果；

步骤740、以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标，对初始模型进行训练，得到文本纠正模型。

具体地，预测错误实体可以理解为预测得到的样本答案文本中存在幻觉的实体，即预测需要进行纠正的错误实体。预测错误实体基于样本文本的分词编码特征以及分句编码特征确定，分词编码特征可以理解为样本文本中各分词的向量表示，其用于表征样本文本中各分词的语义信息，分句编码特征可以理解为样本文本中各分句的向量表示，其用于表征样本文本中各分句的语义信息。预测错误实体与错误实体标签之间的差异越小，表明文本纠正模型识别样本答案文本中错误实体的精度越高。

本发明提供的文本纠正模型训练方法，以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练得到文本纠正模型，即文本纠正模型是联合错误实体识别任务与文本纠正任务进行训练的，从而错误实体识别任务与文本纠正任务之间能够相互提供辅助增强信息，进一步提高文本纠正模型的文本纠正精度。

下面对本发明提供的文本纠正装置进行描述，下文描述的文本纠正装置与上文描述的文本纠正方法可相互对应参照。

基于上述任一实施例，图8是本发明提供的文本纠正装置的结构示意图，如图8所示，该装置包括：

文本确定单元810，用于确定待纠正的答案文本以及答案文本对应的提问文本，以及与提问文本关联的知识文本；

文本纠正单元820，用于将答案文本、提问文本以及知识文本输入至文本纠正模型，得到文本纠正模型输出的答案文本的文本纠正结果；

基于上述任一实施例，文本纠正单元820包括：

分词编码单元，用于基于文本纠正模型的分词编码层，对答案文本、提问文本以及知识文本进行分词编码，得到文本分词编码特征；

分句编码单元，用于基于文本纠正模型的分句编码层，对文本分词编码特征进行分句编码，得到文本分句编码特征；

分词解码单元，用于基于文本纠正模型的分词解码层，对文本分词编码特征进行分词解码，得到文本分词解码特征；

文本纠正单元，用于基于文本纠正模型的文本纠正层，应用文本分句编码特征以及文本分词解码特征，对答案文本进行文本纠正，得到文本纠正结果。

基于上述任一实施例，分词编码单元包括：

拼接单元，用于拼接答案文本、提问文本以及知识文本，得到拼接文本；

提取单元，用于对拼接文本进行特征提取，得到拼接文本特征；

第一编码单元，用于对拼接文本特征进行分词编码，得到文本分词编码特征。

基于上述任一实施例，编码单元包括：

计算单元，用于对拼接文本特征进行注意力计算，得到注意力特征；

第二编码单元，用于对注意力特征进行分词编码，得到文本分词编码特征。

基于上述任一实施例，所述装置还包括：

第一生成单元，用于基于提问文本的语义信息，生成提问文本特征；

第二生成单元，用于基于各候选知识文本的语义信息，生成各候选知识文本特征；

文本选取单元，用于基于提问文本特征以及各候选知识文本特征，确定提问文本与各候选知识文本之间的语义相关度，并将语义相关度大于阈值的候选知识文本作为提问文本对应的知识文本。

下面对本发明提供的文本纠正模型训练装置进行描述，下文描述的文本纠正模型训练装置与上文描述的文本纠正模型训练方法可相互对应参照。

基于上述任一实施例，图9是本发明提供的文本纠正模型训练装置的结构示意图，如图9所示，该装置包括：

文本获取单元910，用于获取样本文本，样本文本包括样本答案文本、样本提问文本以及样本知识文本；

实体确定单元920，用于基于样本文本的分词编码特征以及分句编码特征，确定样本答案文本的预测错误实体；

纠正预测单元930，用于基于样本文本的分词解码特征以及分句编码特征，确定样本答案文本的文本纠正预测结果；

模型训练单元940，用于以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标，对初始模型进行训练，得到文本纠正模型。

图10是本发明提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、存储器(memory)1020、通信接口(Communications Interface)1030和通信总线1040，其中，处理器1010，存储器1020，通信接口1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1020中的逻辑指令，以执行文本纠正方法，该方法包括：确定待纠正的答案文本以及所述答案文本对应的提问文本，以及与所述提问文本关联的知识文本；将所述答案文本、所述提问文本以及所述知识文本输入至文本纠正模型，得到所述文本纠正模型输出的所述答案文本的文本纠正结果；所述文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练；所述预测错误实体基于样本文本的分词编码特征以及分句编码特征确定，所述文本纠正预测结果基于所述样本文本的分词解码特征以及分句编码特征确定，所述样本文本包括样本答案文本、样本提问文本以及样本知识文本。

或，以执行文本纠正模型训练方法，该方法包括：获取样本文本，所述样本文本包括样本答案文本、样本提问文本以及样本知识文本；基于所述样本文本的分词编码特征以及分句编码特征，确定所述样本答案文本的预测错误实体；基于所述样本文本的分词解码特征以及分句编码特征，确定所述样本答案文本的文本纠正预测结果；以最小化所述预测错误实体与错误实体标签之间的差异，以及最小化所述文本纠正预测结果与文本纠正标签之间的差异为目标，对初始模型进行训练，得到文本纠正模型。

此外，上述的存储器1020中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文本纠正方法，该方法包括：确定待纠正的答案文本以及所述答案文本对应的提问文本，以及与所述提问文本关联的知识文本；将所述答案文本、所述提问文本以及所述知识文本输入至文本纠正模型，得到所述文本纠正模型输出的所述答案文本的文本纠正结果；所述文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练；所述预测错误实体基于样本文本的分词编码特征以及分句编码特征确定，所述文本纠正预测结果基于所述样本文本的分词解码特征以及分句编码特征确定，所述样本文本包括样本答案文本、样本提问文本以及样本知识文本。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文本纠正方法，该方法包括：确定待纠正的答案文本以及所述答案文本对应的提问文本，以及与所述提问文本关联的知识文本；将所述答案文本、所述提问文本以及所述知识文本输入至文本纠正模型，得到所述文本纠正模型输出的所述答案文本的文本纠正结果；所述文本纠正模型以最小化预测错误实体与错误实体标签之间的差异，以及最小化文本纠正预测结果与文本纠正标签之间的差异为目标训练；所述预测错误实体基于样本文本的分词编码特征以及分句编码特征确定，所述文本纠正预测结果基于所述样本文本的分词解码特征以及分句编码特征确定，所述样本文本包括样本答案文本、样本提问文本以及样本知识文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本纠正方法，其特征在于，包括：

2.根据权利要求1所述的文本纠正方法，其特征在于，所述将所述答案文本、所述提问文本以及所述知识文本输入至文本纠正模型，得到所述文本纠正模型输出的所述答案文本的文本纠正结果，包括：

3.根据权利要求2所述的文本纠正方法，其特征在于，所述对所述答案文本、所述提问文本以及所述知识文本进行分词编码，得到文本分词编码特征，包括：

对所述拼接文本进行特征提取，得到拼接文本特征；

4.根据权利要求3所述的文本纠正方法，其特征在于，所述对所述拼接文本特征进行分词编码，得到所述文本分词编码特征，包括：

对所述拼接文本特征进行注意力计算，得到注意力特征；

5.根据权利要求1至4任一项所述的文本纠正方法，其特征在于，所述知识文本的确定步骤包括：

基于所述提问文本的语义信息，生成提问文本特征；

6.一种文本纠正模型训练方法，其特征在于，包括：

7.一种文本纠正装置，其特征在于，包括：

8.一种文本纠正模型训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文本纠正方法，或实现如权利要求6所述文本纠正模型训练方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本纠正方法，或实现如权利要求6所述文本纠正模型训练方法。