CN117272938A

CN117272938A - 一种用于文本生成的动态限定域解码方法、设备及介质

Info

Publication number: CN117272938A
Application number: CN202311557656.9A
Authority: CN
Inventors: 张琨; 闵万里; 田钿; 朱锦雷; 张传锋; 张鑫
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2023-12-22
Anticipated expiration: 2043-11-22
Also published as: CN117272938B

Abstract

本申请实施例公开了一种用于文本生成的动态限定域解码方法、设备及介质。属于电数字数据处理技术领域。解决文本生成效率较低的问题。包括，基于解码内容构建词树结构；获取词树结构中根目录下所有词的第一关键字，基于所有词的第一关键字构建第一解码范围；在第一解码范围中进行字采样，基于第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字；将第二关键字作为父节点，基于词树结构与第二关键字，构建第二解码范围；在第二解码范围中重新进行字采样，基于第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字；直至得到所需采样结果，结束解码范围生成与采样，并确定文本生成过程完成。

Description

一种用于文本生成的动态限定域解码方法、设备及介质

技术领域

本申请涉及电数字数据处理技术领域，尤其涉及一种用于文本生成的动态限定域解码方法、设备及介质。

背景技术

随着计算语言学的不断发展，自然语言生成在越来越多的领域得到了应用落地，使用计算机来生成文本，以满足对话、评价、描述、作文等的任务需求，使得自然语言生成技术越来越受到学界和工业界的重视。

现有技术中，文本生成模型是逐字生成的，通常的做法是针对每个token（token指用于将数据划分为不同部分或用于跟踪特定数据对象的处理状态的标识符），在整个词典上计算概率分布，然后进行采样。

由于现有的文本生成方法所需要的解码范围是整个词典，数据量较大，解码范围大，以致使得文本生成结果的可信度较低。

发明内容

本申请实施例提供了一种用于文本生成的动态限定域解码方法、设备及介质，用于解决如下技术问题：由于现有的文本生成方法所需要的解码范围是整个词典，数据量较大，解码范围大，以致使得文本生成结果的可信度较低。

本申请实施例采用下述技术方案：

本申请实施例提供一种用于文本生成的动态限定域解码方法。包括，基于解码内容构建词树结构；获取词树结构中根目录下所有词的第一关键字，基于所有词的第一关键字构建第一解码范围；在第一解码范围中进行字采样，基于第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字；将第二关键字作为父节点，基于词树结构与第二关键字，构建第二解码范围；在第二解码范围中重新进行字采样，基于第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字；直至得到所需采样结果，结束解码范围生成与采样，并确定文本生成过程完成。

本申请实施例通过构建词树结构，限定范围不再是单一词典，而是词树，每个token的解码限定域根据在词树中的位置而定。通过词树结构中根目录下所有词的第一关键字构建第一解码范围，限定范围解码使得生成的文本保证在词树中，不乱生成。其次，基于第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字，兼顾生成内容整体的概率，从而确保生成的文本的准确率，提高文本生成的可信度。

在本申请的一种实现方式中，基于第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字，具体包括：确定出第一解码范围中多个第一关键字分别出现的次数；以及确定出第一解码范围中多个第一关键字的总数量；基于出现的次数与总数量，确定出多个第一关键字分别对应的采样概率；基于采样概率，对多个第一关键字进行排序，以基于排序顺序，将预设数量的第一关键字筛除，以得到筛选后的第一解码范围；在筛选后的第一解码范围中，对剩余的多个第一关键字进行随机采样，以确定出第二关键字。

在本申请的一种实现方式中，将第二关键字作为父节点，基于词树结构与第二关键字，构建第二解码范围，具体包括：基于第二关键字，在词树结构中确定出与第二关键字存在连接关系的多个参考字；其中，多个参考字均为第二关键字的子节点；基于多个参考字构建第二解码范围。

在本申请的一种实现方式中，在第二解码范围中重新进行字采样，基于第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字，具体包括：确定出第二解码范围中多个第二关键字分别出现的次数；以及确定出第二解码范围中多个第二关键字的总数量；基于出现的次数与总数量，确定出多个第二关键字分别对应的采样概率；基于采样概率，对多个第二关键字进行排序，以基于排序顺序，将预设数量的第二关键字筛除，以得到筛选后的第二解码范围；在筛选后的第二解码范围中，对剩余的多个第二关键字进行随机采样，以确定出下一关键字。

在本申请的一种实现方式中，获取词树结构中根目录下所有词的第一关键字，基于所有词的第一关键字构建第一解码范围，具体包括：将词树结构中的根节点设为查找节点；确定出查找节点所对应的多个子节点；确定出多个子节点分别对应的词语，并确定出每个词语的第一个字；根据第一个字，确定是否存在与第一个字相连接的下一个字；在不存在下一个字的情况下，将第一个字对应的子节点设为最后匹配节点；基于每个词语的第一个字，构建第一解码范围。

在本申请的一种实现方式中，基于解码内容构建词树结构，具体包括：获取待构建词树结构的数据；其中，待构建词树结构的数据与解码内容相关；将预置词树结构的根节点作为当前节点，以及，将当前节点的子树确定为当前目标子树；在当前目标子树中对待构建词树结构的数据进行查询，并基于查询结果，将待构建词树结构的数据插入预置词树结构中，以对预置词树结构进行更新，得到基于解码内容构建的词树结构。

在本申请的一种实现方式中，在当前目标子树中对待构建词树结构的数据进行查询，并基于查询结果，将待构建词树结构的数据插入预置词树结构中，以对预置词树结构进行更新，具体包括：在当前目标子树的第一层，查找待构建词树结构的数据的第一个字符；在当前目标子树中，不存在待构建词树结构的数据的第一个字符的情况下，依次将待构建词树结构的数据插入当前目标子树中对应的层；以及依次连接所插入的字符，生成预置词树结构新的路径，以对预置词树结构进行更新。

在本申请的一种实现方式中，在当前目标子树的第一层，查找待构建词树结构的数据的第一个字符之后，方法还包括：在当前目标子树中，存在待构建词树结构的数据的第一个字符的情况下，则将当前节点更新为查找到的第一个字符；以及将待构建词树结构的数据中的第一个字符进行移出，以更新待构建词树结构的数据。

本申请实施例提供一种用于文本生成的动态限定域解码设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：基于解码内容构建词树结构；获取词树结构中根目录下所有词的第一关键字，基于所有词的第一关键字构建第一解码范围；在第一解码范围中进行字采样，基于第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字；将第二关键字作为父节点，基于词树结构与第二关键字，构建第二解码范围；在第二解码范围中重新进行字采样，基于第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字；直至得到所需采样结果，结束解码范围生成与采样，并确定文本生成过程完成。

本申请实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，计算机可执行指令设置为：基于解码内容构建词树结构；获取词树结构中根目录下所有词的第一关键字，基于所有词的第一关键字构建第一解码范围；在第一解码范围中进行字采样，基于第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字；将第二关键字作为父节点，基于词树结构与第二关键字，构建第二解码范围；在第二解码范围中重新进行字采样，基于第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字；直至得到所需采样结果，结束解码范围生成与采样，并确定文本生成过程完成。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：本申请实施例通过构建词树结构，限定范围不再是单一词典，而是词树，每个token的解码限定域根据在词树中的位置而定。通过词树结构中根目录下所有词的第一关键字构建第一解码范围，限定范围解码使得生成的文本保证在词树中，不乱生成，其次，基于所述第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字，兼顾生成内容整体的概率，从而确保生成的文本的准确率，提高文本生成的可信度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请实施例提供的一种用于文本生成的动态限定域解码方法流程图；

图2为本申请实施例提供的一种用于文本生成的动态限定域解码设备的结构示意图。

附图标记：

200用于文本生成的动态限定域解码设备，201处理器，202存储器。

具体实施方式

本申请实施例提供一种用于文本生成的动态限定域解码方法、设备及介质。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

图1为本申请实施例提供的一种用于文本生成的动态限定域解码方法流程图，如图1所示，用于文本生成的动态限定域解码方法包括如下步骤：

S101、基于解码内容构建词树结构。

在本申请的一个实施例中，获取待构建词树结构的数据；其中，待构建词树结构的数据与解码内容相关。将预置词树结构的根节点作为当前节点，以及，将当前节点的子树确定为当前目标子树。在当前目标子树中对待构建词树结构的数据进行查询，并基于查询结果，将待构建词树结构的数据插入预置词树结构中，以对预置词树结构进行更新，得到基于解码内容构建的词树结构。

具体地，获取待构建词树结构的数据，该待构建词树结构的数据与当前解码内容相关。获取预置词树结构，在该预置词树结构中，可能不存在该待构建词树结构的数据，也可能存在或部分存在该待构建词树结构的数据。

进一步地，将该预置词树结构的根节点作为当前节点，以及，将当前节点的子树确定为当前目标子树，以便在该当前目标子树中进行查询。具体地，在当前目标子树中对待构建词树结构的数据进行查询，例如，该待构建词树结构的数据存在该当前目标子树中，或者该待构建词树结构的数据不存在于该当前目标子树中。基于不同的查询结果，对当前预置词树结构进行更新，从而得到与当前待构建词树结构的数据相关的词树结构。

在本申请的一个实施例中，在当前目标子树的第一层，查找待构建词树结构的数据的第一个字符。在当前目标子树中，不存在待构建词树结构的数据的第一个字符的情况下，依次将待构建词树结构的数据插入当前目标子树中对应的层；以及依次连接所插入的字符，生成预置词树结构新的路径，以对预置词树结构进行更新。

具体地，在对当前目标子树进行查询时，首先在该目标子树的第一层进行查询，以确定在第一层是否存在待构建词树结构的数据的第一个字符。若不存在该待构建词树结构的数据的第一个字符，则说明当前目标子树中不存在该待构建词树结构的数据，此时，需要将该待构建词树结构的数据插入至当前目标子树对应的层。其中，将待构建词树结构的数据插入当前层时，需要按照待构建词树结构的数据所对应的排列顺序依次进行插入，以确保词树结构的准确性。基于插入的数据，对当前预置词树结构进行更新，从而得到与当前解码内容相匹配的词树结构。

在本申请的一个实施例中，在当前目标子树中，存在待构建词树结构的数据的第一个字符的情况下，则将当前节点更新为查找到的第一个字符。以及将待构建词树结构的数据中的第一个字符进行移出，以更新待构建词树结构的数据。

具体地，若当前目标子树中，存在该待构建词树结构的数据的第一个字符，此时说明该目标子树中存在当前数据，无需对其进行更新。此时，可以将当前节点更新为查到到的第一个字符，以便后续解码。其次，将待构建词树结构的数据中的该第一个字符进行删除，以更新待构建词树结构的数据。从而确保不会对该第一个字符进行重复查询，减少词树结构更新的失误次数。

S102、获取词树结构中根目录下所有词的第一关键字，基于所有词的第一关键字构建第一解码范围。

在本申请的一个实施例中，将词树结构中的根节点设为查找节点。确定出查找节点所对应的多个子节点。确定出多个子节点分别对应的词语，并确定出每个词语的第一个字。根据第一个字，确定是否存在与第一个字相连接的下一个字。在不存在下一个字的情况下，将第一个字对应的子节点设为最后匹配节点。基于每个词语的第一个字，构建第一解码范围。

具体地，将词树结构中的根节点设为查找节点，对该查找节点进行子节点查询，若存在子节点，则确定出各子节点分别对应的词语，并确定出每个词语分别对应的第一个字。其次，确定出是否还存在与该第一个字相连的下一个字，若不存在下一个字，则说明当前子结点不存在下一个结点，无需对其进行下一节点查询，因此对其进行标注，设为最后匹配节点，从而减轻在词语查找中的工作量。将确定出的多个词语分别对应的第一个字进行统计，以建立第一节解码范围。

例如，若构建的词树结构中的词语包括“体育”、“财经”、“时政”以及“娱乐”。对其进行查询，确定出每个词语的第一个字，即，“体育”中的第一个字，“财经”中的第一个字，“时政”中的第一个字以及“娱乐”中的第一个字。基于确定出的多个第一个字，构建第一解码范围。

S103、在第一解码范围中进行字采样，基于第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字。

在本申请的一个实施例中，确定出第一解码范围中多个第一关键字分别出现的次数，以及确定出第一解码范围中多个第一关键字的总数量。基于出现的次数与总数量，确定出多个第一关键字分别对应的采样概率，基于采样概率，对多个第一关键字进行排序，以基于排序顺序。将预设数量的第一关键字筛除，以得到筛选后的第一解码范围。在筛选后的第一解码范围中，对剩余的多个第一关键字进行随机采样，以确定出第二关键字。

具体地，在第一解码范围中，确定出各个第一关键字分别出现的次数，以及确定出该第一解码范围中含有的第一关键词的总数量。基于各第一关键词出现的次数与该总数量之间的比值，确定出各个第一关键词分别对应的采样概率。

进一步地，基于该采样概率，对该第一解码范围中的多个第一关键字进行排序，例如，可以按照采样概率从高至低进行排序，基于排列顺序，将采样概率较低的第一关键字进行筛除，以得到筛选后的第一解码范围。

进一步地，在筛选后的第一解码范围中，对剩余的多个第一关键字进行随机采样，以得到第二关键字。

S104、将第二关键字作为父节点，基于词树结构与第二关键字，构建第二解码范围。

在本申请的一个实施例中，基于所述第二关键字，在所述词树结构中确定出与所述第二关键字存在连接关系的多个参考字，其中，所述多个参考字均为所述第二关键字的子节点。基于所述多个参考字构建所述第二解码范围。

具体地，基于确定出的第二关键字，在词树结构中进行查询，以确定出与该第二关键字相关联的参考字，并统计出得到的多个参考字构建第二解码范围。

S105、在第二解码范围中重新进行字采样，基于第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字。

在本申请的一个实施例中，确定出第二解码范围中多个第二关键字分别出现的次数；以及确定出第二解码范围中多个第二关键字的总数量。基于出现的次数与总数量，确定出多个第二关键字分别对应的采样概率。基于采样概率，对多个第二关键字进行排序，以基于排序顺序，将预设数量的第二关键字筛除，以得到筛选后的第二解码范围。在筛选后的第二解码范围中，对剩余的多个第二关键字进行随机采样，以确定出下一关键字。

具体地，在第二解码范围中，确定出各个第二关键字分别出现的次数，以及确定出该第二解码范围中含有的第二关键词的总数量。基于各第二关键词出现的次数与该总数量之间的比值，确定出各个第二关键词分别对应的采样概率。

进一步地，基于该采样概率，对该第二解码范围中的多个第二关键字进行排序，例如，可以按照采样概率从高至低进行排序，基于排列顺序，将采样概率较低的第二关键字进行筛除，以得到筛选后的第二解码范围。

进一步地，在筛选后的第二解码范围中，对剩余的多个二关键字进行随机采样，以得到下一关键字。

S106、直至得到所需采样结果，结束解码范围生成与采样，并确定文本生成过程完成。

在本申请的一个实施例中，在得到需要的采样结果后，结束解码范围生成与采样，以确定文本生成过程结束。

图2为本申请实施例提供的一种用于文本生成的动态限定域解码设备的结构示意图。如图2所示，用于文本生成的动态限定域解码设备200，包括：至少一个处理器201；以及，与至少一个处理器201通信连接的存储器202；其中，存储器202存储有可被至少一个处理器201执行的指令，指令被至少一个处理器201执行，以使至少一个处理器201能够：基于解码内容构建词树结构；获取所述词树结构中根目录下所有词的第一关键字，基于所述所有词的第一关键字构建第一解码范围；在所述第一解码范围中进行字采样，基于所述第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字；将所述第二关键字作为父节点，基于所述词树结构与所述第二关键字，构建第二解码范围；在所述第二解码范围中重新进行字采样，基于所述第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字；直至得到所需采样结果，结束解码范围生成与采样，并确定文本生成过程完成。

本申请实施例还提供一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：基于解码内容构建词树结构；获取所述词树结构中根目录下所有词的第一关键字，基于所述所有词的第一关键字构建第一解码范围；在所述第一解码范围中进行字采样，基于所述第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字；将所述第二关键字作为父节点，基于所述词树结构与所述第二关键字，构建第二解码范围；在所述第二解码范围中重新进行字采样，基于所述第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字；直至得到所需采样结果，结束解码范围生成与采样，并确定文本生成过程完成。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请的实施例可以有各种更改和变化。而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用于文本生成的动态限定域解码方法，其特征在于，所述方法包括：

基于解码内容构建词树结构；

获取所述词树结构中根目录下所有词的第一关键字，基于所述所有词的第一关键字构建第一解码范围；

在所述第一解码范围中进行字采样，基于所述第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字；

将所述第二关键字作为父节点，基于所述词树结构与所述第二关键字，构建第二解码范围；

在所述第二解码范围中重新进行字采样，基于所述第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字；

直至得到所需采样结果，结束解码范围生成与采样，并确定文本生成过程完成。

2.根据权利要求1所述的一种用于文本生成的动态限定域解码方法，其特征在于，所述基于所述第一解码范围中多个第一关键字分别对应的采样概率，确定出第二关键字，具体包括：

确定出所述第一解码范围中多个第一关键字分别出现的次数；

以及，确定出所述第一解码范围中所述多个第一关键字的总数量；

基于所述出现的次数与所述总数量，确定出所述多个第一关键字分别对应的采样概率；

基于所述采样概率，对所述多个第一关键字进行排序，以基于排序顺序，将预设数量的第一关键字筛除，以得到筛选后的第一解码范围；

在所述筛选后的第一解码范围中，对剩余的所述多个第一关键字进行随机采样，以确定出所述第二关键字。

3.根据权利要求1所述的一种用于文本生成的动态限定域解码方法，其特征在于，所述将所述第二关键字作为父节点，基于所述词树结构与所述第二关键字，构建第二解码范围，具体包括：

基于所述第二关键字，在所述词树结构中确定出与所述第二关键字存在连接关系的多个参考字；其中，所述多个参考字均为所述第二关键字的子节点；

基于所述多个参考字构建所述第二解码范围。

4.根据权利要求1所述的一种用于文本生成的动态限定域解码方法，其特征在于，所述在所述第二解码范围中重新进行字采样，基于所述第二解码范围中多个第二关键字分别对应的采样概率，确定出下一关键字，具体包括：

确定出所述第二解码范围中多个第二关键字分别出现的次数；

以及，确定出所述第二解码范围中所述多个第二关键字的总数量；

基于所述出现的次数与所述总数量，确定出所述多个第二关键字分别对应的采样概率；

基于所述采样概率，对所述多个第二关键字进行排序，以基于排序顺序，将预设数量的第二关键字筛除，以得到筛选后的第二解码范围；

在所述筛选后的第二解码范围中，对剩余的所述多个第二关键字进行随机采样，以确定出所述下一关键字。

5.根据权利要求1所述的一种用于文本生成的动态限定域解码方法，其特征在于，所述获取所述词树结构中根目录下所有词的第一关键字，基于所述所有词的第一关键字构建第一解码范围，具体包括：

将所述词树结构中的根节点设为查找节点；

确定出所述查找节点所对应的多个子节点；

确定出所述多个子节点分别对应的词语，并确定出每个词语的第一个字；

根据所述第一个字，确定是否存在与所述第一个字相连接的下一个字；

在不存在下一个字的情况下，将所述第一个字对应的子节点设为最后匹配节点；

基于所述每个词语的第一个字，构建所述第一解码范围。

6.根据权利要求1所述的一种用于文本生成的动态限定域解码方法，其特征在于，所述基于解码内容构建词树结构，具体包括：

获取待构建词树结构的数据；其中，所述待构建词树结构的数据与所述解码内容相关；

将预置词树结构的根节点作为当前节点，以及，将当前节点的子树确定为当前目标子树；

在所述当前目标子树中对所述待构建词树结构的数据进行查询，并基于查询结果，将所述待构建词树结构的数据插入所述预置词树结构中，以对所述预置词树结构进行更新，得到基于所述解码内容构建的词树结构。

7.根据权利要求6所述的一种用于文本生成的动态限定域解码方法，其特征在于，所述在所述当前目标子树中对所述待构建词树结构的数据进行查询，并基于查询结果，将所述待构建词树结构的数据插入所述预置词树结构中，以对所述预置词树结构进行更新，具体包括：

在所述当前目标子树的第一层，查找所述待构建词树结构的数据的第一个字符；

在所述当前目标子树中，不存在所述待构建词树结构的数据的第一个字符的情况下，依次将所述待构建词树结构的数据插入所述当前目标子树中对应的层；

以及，依次连接所插入的字符，生成所述预置词树结构新的路径，以对所述预置词树结构进行更新。

8.根据权利要求7所述的一种用于文本生成的动态限定域解码方法，其特征在于，所述在所述当前目标子树的第一层，查找所述待构建词树结构的数据的第一个字符之后，所述方法还包括：

在所述当前目标子树中，存在所述待构建词树结构的数据的第一个字符的情况下，则将所述当前节点更新为查找到的所述第一个字符；

以及，将所述待构建词树结构的数据中的所述第一个字符进行移出，以更新所述待构建词树结构的数据。

9.一种用于文本生成的动态限定域解码设备，其特征在于，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行权利要求1-8中的任一项所述的方法。

10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令能够执行权利要求1-8任一项所述的方法。