CN114925659B

CN114925659B - 动态宽度最大化解码方法、文本生成方法及存储介质

Info

Publication number: CN114925659B
Application number: CN202210547659.3A
Authority: CN
Inventors: 陈峥; 陶锐文
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-04-28
Anticipated expiration: 2042-05-18
Also published as: CN114925659A

Abstract

本发明公开了一种动态宽度最大化解码方法、文本生成方法及存储介质。为了克服现有技术中波束搜索不能满足需求，搜索结果性能下降或生成效率低的技术问题，本发明通过输出的概率分布动态地调整波束搜索的搜索宽度等技术手段，降低了搜索错误，在较高的搜索宽度参数设置下实现更高的质量的文本生成，相同的搜索宽度生成的文本与目标文本有更高的重合度，该方法还实现了降低了搜索宽度对文本质量的影响，减少了模型解码的时间的技术效果。本发明适用于自然语言处理领域。

Description

动态宽度最大化解码方法、文本生成方法及存储介质

技术领域

本发明属于自然语言处理领域，具体涉及一种动态宽度最大化解码方法、文本生成方法及存储介质。

背景技术

定向文本生成，在实际生成中有着广泛的应用，如机器翻译，文本对话，文本复述、文本摘要、表格-文本生成等。基于语言模型处理模块和解码方法的定向文本生成框架在现阶段有着最好的结果。在定向文本生成任务中，解码的目标是生成根据输入序列生成最可能的输出序列。找到最佳序列的最基本的方法是对所有步长输出的整个搜索空间进行精确搜索。

然而，由于神经网络语言模型处理模块词表中的词汇量很大，大词汇量在生成长文本的情况下实现完全搜索几乎是不可能的。使用语言模型处理模块进行完全搜索是一个NP完全问题，无法完全穷尽地进行输出。搜索全局的文本序列形式的最简单的方法是每个时间步的字符都选择最有可能的词，即最大化搜索。这种最大化解码方法以完全本地化的方式得到概率序列会产生严重的重复文本；而代替最大化解码方法，并实现次优的精确搜索的方法是波束搜索解码。通常使用波束搜索解码方法来完成语言模型处理模块输出的概率空间的目标搜索工作，即在规定搜索时间内找到概率序列空间中相对于输入的次优输出。

定向生成任务中由于输入输出具有明显的联系，这些任务使用最大化搜索或者波束搜索(Beam-Search)来实现文本生成时的解码工作。作为一种启发式的探索方法，在降低计算时间复杂度的情况下，Beam-Search尽可能的搜寻全局最优解——给定输入文本情况下，联合概率最高的输出序列。由于生成目标是全局最优，因此，拥有尽可能大的搜索宽度来似乎可以进一步提高生成文本的质量。但是实验表明，过度的提高搜索宽度不仅会大量增加搜索时间，而且生成的文本中拥有大量空白。

现有技术中的波束搜索方法在实际应用中，主要为以下几种：

1)搜索宽度不变，并在预定义时间步长内停止搜索；

2)宽度缩减的搜索方式，即在找到完整假设时搜索宽度减少，并在宽度达到0时终止搜索；

3)对搜索长度进行惩罚，将每个搜索序列的得分除以序列序列作为最终评判标准；

4)引入多样性分组方法以鼓励生成文本的多样性。

这些方法都是为了避免波束搜索方法中的问题，这些问题集中体现在：波束搜索在具有合适时间的搜索宽度中找到目标输出不能满足需求，并在提高搜索宽度后搜索结果的性能出现了下降，高搜索宽度方式下成大规模数据集时解码时间非常长，十分影响生成效率。大的波束搜索宽度在语言模型处理模块下游的定向文本生成任务会破坏文本生成的质量从而生成大量的重复可空白，而过小的波束搜索宽度会造成生成文本多样性的缺失。这种矛盾造成了搜索宽度参数选择的困难以及文本生成质量的下降。

鉴于现有技术中上述的缺陷，本领域亟需一种技术方案以克服或缓解以上技术问题。

发明内容

为了解决或缓解上述部分或全部技术问题，本发明是通过如下技术方案实现的：

一种动态宽度最大化解码方法，应用于文本生成过程中，该方法包括如下步骤：根据语言模型处理模块生成的概率分布集合，选择候选集；计算选择得到字符对应的生成该字符候选序列的概率序列得分；选择得分最大的K个候选序列作为输出文本，其中K为搜索宽度。

在某类实施例中，根据语言模型处理模块生成的概率分布集合，选择候选集，包括：根据搜索宽度K限制候选集的数量；根据概率过滤参数P，从每个候选集的生成的概率分布中选择核心字符。

在某类实施例中，对于每个候选序列最多选择K个候选集；当候选序列由于概率过滤参数P的过滤而小于搜索宽度K时，不进行补齐。

在某类实施例中，所述动态宽度最大化解码方法，还包括：对于语言模型输出的概率分布集合，从中选择最后一个字符的概率分布d：

(i)从概率分布d中选择n个概率最大的字符，并限制这些字符的概率和小于P，n的大小由P决定，其中n为正整数，P为0-1之间的一个数；

(ii)以搜索宽度K截取K个字符W；

(iii)对于K个字符W中的每个字符w：计算序列的信息分数，信息分数为所有字符信息量之和的平均值。

在某类实施例中，按照搜索宽度和候选集计算得到的分数对候选序列进行更新。

在某类实施例中，所述语言模型处理模块为Transformer语言模型处理模块。

一种文本生成方法，所述文本生成方法为密码猜测集生成方法；并且，在生成密码猜测集的过程中还包括如下步骤：1)文本预处理步骤：采用文本词条化工具对数据集进行文本预处理，所述文本预处理包括数据清洗、文本转码或编码；2)语言模型处理步骤：根据文本预处理的结果，训练语言模型处理模块，生成下一可能字符的概率表；3)波束搜索解码步骤：根据权利要求1至6任意一项所述的动态宽度最大化解码方法，利用语言模型处理模块的输出结果动态调整解码时波束搜索的宽度，并从中采样以生成候选集；4)碰撞步骤：清洗数据集，将生成的密码猜测集与密码测试集进行匹配碰撞。

一种存储介质，该存储介质上存储有计算机代码，处理器通过读取该存储介质上的计算机代码，以执行前述任意一种动态宽度最大化解码方法，或前述的文本生成方法。

本发明的部分或全部实施例，具有如下有益技术效果：

为了解决现有技术中存在的缺点，本专利提出提出了一种基于Beam-Search的动态宽度最大化解码方法。本发明对于现有技术，做出如下技术贡献：

1)提出了一种全新的动态宽度的波束搜索揭发方法，在定向文本生成的过程中，解码模型根据语言模型处理模块输出的概率分布动态的选择字符作，从而达到提高文本生成准确度的效果，避免了传统波束搜索方法在高搜索宽度下出现搜索空白的问题，并加快了解码时间。

该方法根据输出的概率分布动态的调整Beam-Search的搜索宽度，以降低搜索错误，能够提高在较高的搜索宽度参数设置下实现更高的质量的文本生成。这种动态调整概率分布的Beam-Search方法在多项生成任务中都有效，相同的搜索宽度生成的文本与目标文本有更高的重合度(BLEU值)，该方法降低了搜索宽度对文本质量的影响，减少了模型解码的时间。

2)借助自然语言处理中的编码工具对输入文本进行处理，并引入了在文本生成领域具有良好效果的Transformer语言模型处理模块，在输入相同文本输入的情况下，提高了现阶段定向文本生成中生成文本的质量。

更多的有益效果将在优选实施例中作进一步的介绍。

以上披露的技术方案/特征，旨在对具体实施方式部分中所描述的技术方案、技术特征进行概括，因而记载的范围可能不完全相同。但是该部分披露的这些新的技术方案同样属于本发明文件所公开的众多技术方案的一部分，该部分披露的技术特征与后续具体实施方式部分公开的技术特征、未在说明书中明确描述的附图中的部分内容，以相互合理组合的方式披露更多的技术方案。

本发明任意位置所披露的所有技术特征所组合出的技术方案，用于支撑对技术方案的概括、专利文件的修改、技术方案的披露。

附图说明

图1是本发明中文本生成方法流程图；

图2是语言模型处理模块的结构示意图；

图3是动态宽度最大化解码方法的详细流程图；

图4是本发明的解码方法的某个实例示意图；

图5是密码猜测集生成示意图。

具体实施方式

由于不能穷尽描述各种替代方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案中的要点内容进行清楚、完整地描述。对于下文未详细披露的其它的技术方案和细节，一般均属于本领域通过常规手段即可实现的技术目标或技术特征，限于篇幅，本发明不对其详细介绍。

除非是除法的含义，本发明中任意位置的“/”均表示逻辑“或”。本发明任意位置中的“第一”、“第二”等序号仅仅用于描述上的区分标记，并不暗示时间或空间上的绝对顺序，也不暗示冠以这种序号的术语与冠以其它定语的相同术语必然是不同的指代。

本发明会对各种用于组合成各种不同具体实施例的要点进行描述，这些要点将被组合至各种方法、产品中。在本发明中，即便仅在介绍方法/产品方案时所描述的要点，意味着对应的产品/方法方案也明确地包括该技术特征。

本发明中任意位置处描述存在或包括某步骤、模块、特征时，并不暗示这种存在是排它性地唯一存在，本领域技术人员完全可以根据本发明所披露的技术方案而辅以其它技术手段而获得其它实施例；基于本发明中具体实施例描述的要点，本领域技术人员完全可以对某些技术特征施加替换、删减、增加、组合、调换顺序等手段，获得一个仍遵循本发明构思的技术方案。这些未脱离本发明技术构思的方案也在本发明保护范围之内。

参考图1，其是本发明文本生成的整体流程图。为了生成文本，该方法包括如下步骤：

步骤1)：对文本语料进行清洗，按照子词编码方法建立词表，根据子词表对输入文本进行分词；

步骤2)：根据分词后的结果，获得Transformer语言模型处理模块；

步骤3)：根据语言模型产生的概率分布D和解码方法进行文本生成。

参考图2，其给了本发明中Transformer语言模型处理模块的具体实施方式。本领域技术人员清楚，Transformer语言模型处理模块和解码网络的网络结构和训练过程可以进行调整，比如改变网络的层数、改变每层网络的维度、调整学习率都可以实现本申请的方案，解码方法的解码参数也可以进行调整，本发明不以某种具体的某种具体的模块参数为限制。在某类实施例中，Transformer语言模型处理模块至少包括：

输入层：其是语言模型处理模块的输入，其接收前述的文本预处理后的文本序列，具体为经过清洗并编码预处理后的文本序列(即文本字符序列)；

词嵌入层与位置编码：对输入的文本序列进一步处理，将文本序列转化为词向量矩阵与位置编码向量并进行合并；

N个Transformer编码器层和N个对应的Transformer解码器层：对于编码层，其接收前述的合并的词向量矩阵与位置编码向量；

对于每个解码器层，其包括多头注意力层和前向多层感知机层；具体地，每个解码器层包含自回归式的多头自注意力层、自编码式的多头交叉注意力层和前向多层感知机层；N为正整数，其中：

多头注意力层：即多头注意力机制模块，为Transformer模型的核心模块，该模块允许模型在不同位置共同关注来自不同表示子空间的信息。编码器层中由于拥有完整的文本，因此其多头自注意力层使用双向编码方式。

自注意力层：使用Mask矩阵自回归式的建模语言，即每个字符利用前文产生概率分布，并避免后文对生成产生影响；

交叉注意力层：与多头自注意力层有相同的模型结构，不同的是部分输入来自于编码器层，交叉注意力层使用自编码的建模方式；

前向多层感知机层：对多头注意力层产生的结果进行放缩与线性变换；

输出层：根据解码器层的输出，经过线性化和softmax处理后，输出语言模型处理模块下个词的概率分布供波束搜索解码模块进行处理。

Transformer语言模型处理模块为本领域所熟知的内容，对于未详细描述的内容，根据本领域技术人员的普通技术知识即可获知，并解读为本领域的通常的含义，此处不在赘述。

继续参考图1，详细地，本发明中的文本生成方法(包括动态宽度最大化解码方法)的详细步骤包括：

步骤2)：根据分词后的结果，获得Transformer语言模型处理模块，该步骤具体包括如下子步骤：

子步骤a)：将训练集中的序列打乱并批量依次输入Transformer语言模型处理模块；

子步骤b)：Transformer语言模型处理模块将输入进行编码预处理，将其转化为词嵌入，然后再合并位置嵌入信息得到编码器上下文嵌入；

子步骤c)：将Transformer语言模型处理模块的训练集的训练目标或者部分输出编码预处理，将其转为词嵌入，合并位置嵌入信息得到解码器的上下文嵌入；

子步骤d)：将编码器嵌入输入神经网络，进行映射后得到Q、K、V三个矩阵，Q、K、V分别经过自注意力模块得到每个字符与其他字符之间的注意力分数矩阵，运算方式如下：

其中Q是目标词矩阵，K是关键词矩阵，V是原始特征,d_k为一个query和key向量的维度，i为序号标记，1≤i≤n，M为自回归式的掩码矩阵，n为当前序列长度；

子步骤e)：将Z_1～n拼接(concat)后传入线性层得到一个具有与多头注意力层的输入矩阵同维度的最终输出Z；

子步骤f)：将Z输入多层感知机层P得到中间输出向量，并将Z与中间输出向量进行残差连接后进行线性正则化操作，即将每一层神经元的输入都转化为均值方差都符合特定分布的输出X：

X＝LayerNorm(P(Z)+Z)

子步骤g)：将X输入Transformer语言模型处理模块解码模块进行并与解码器的上下文嵌入求交叉注意力，交叉注意力计算方式与子步骤d)，其中V为解码器的上下文嵌入，Q，K为X的线性变换；

子步骤h)：将交叉注意力的输出结果与求自注意力，得到文本的解码器的输出，计算方法过程与子步骤d)相同，而M为自回归掩码矩阵；

子步骤i)：解码器输出从子步骤d)开始作为下一次循环的输入，训练循环N次后结束并得到隐层向量输出；其中，N为预设的一正整数。

子步骤j)：将隐层向量输出经过线性层映射为词表大小的向量后采用Softmax进行归一化操作得到所有的下一个字符概率分布集合D；

子步骤k)：训练采用随机梯度下降的方法，并采用交叉熵损失函数进行损失l的运算：

l＝CrossEntropyLoss(output，Y)，

其中Y为训练集的训练目标，output为Transformer语言模型处理模块实际输出。

子步骤l)：重复子步骤a)～k)，直到Transformer语言模型处理模块训练完成。

步骤3)：根据语言模型处理模块生成的最后一个概率分布d和解码方法进行文本生成：

子步骤m)：从概率分布d中选择候选集，在动态宽度波束搜索实现过程中，除了搜索宽度参数K外，引入概率过滤参数(简称概率参数)P，两个参数共同作用在解码阶段。搜索宽度K用于限制加入到生成文本中的字符候选集的数量，避免过长的计算时间，而概率过滤参数P用于从每个候选集的生成的概率分布中选择核心字符。

子步骤n)：计算选择得到字符对应的生成该字符候选序列的概率序列得分，即每个候选序列最多选择搜索宽度K个候选集，当加入到生成文本中的候选字符数量由于概率过滤参数P的过滤小于搜索宽度K时，不进行补齐。

子步骤o)：选择得分最大的搜索宽度K个新候选序列作为输出文本。

子步骤p)：调整控制概率过滤参数P和搜索宽度K，确定波束搜索的生成过程。根据本发明所提出的方法，用户可以随时控制生成结束。

参考图3，其给出了动态宽度最大化解码方法的详细流程图。本发明动态宽度最大化解码方法包括：

步骤I)初始化：参考集Pr＝{[“开始符”，分数＝]}，搜索宽度为K，概率过滤参数为P；

步骤II)在整体时间步长T内：

子步骤A)将参考集输入解码模型得到候选输出的概率分布集合D；

子步骤B)对于语言模型输出的概率分布集合D，从中选择最后一个字符的概率分布d：

(ii)以搜索宽度K截取K个字符W；

(iii)对于W中的每个字符w：计算序列的信息分数，信息分数为所有字符信息量之和的平均值；若序列的信息分数大于参考集Pr中的最小值，则将该序列加入参考集Pr；若参考集Pr的长度大于搜索宽度K，则截取为K；

步骤III)返回参考集Pr中所有的输入序列。

参考图4，其是本发明的解码方法的某个实例示意图。其包括：

候选集决策步骤：根据概率分布，动态选择每个候选序列对应候选集；

如图所示，在某个实施例中，以搜索宽度为3、概率参数为0.8开始动态波束搜索。概率参数0.8限制了候选序列的核心字符数，在后一级中，共有两个分支留下，其中第一分支的概率参数为0.45，第二分支的概率参数为0.35，其对应2个概率最大的字符且二者之和不超过0.8，而0.15这一分支则被丢弃。

分数计算步骤：计算所有候选序列对应候选集的分数；

对于第一分支，一方面要根据搜索宽度K＝3限制候选集的大小，另一方面根据概率过滤参数P限制核心字符数。

根据所有字符信息量之和的平均值，计算信息分数。

候选集更新步骤：按照搜索宽度和候选集计算分数对候选序列进行更新，即删除不同的候选集。

根据最终的得分大小，选取搜索宽度K＝3个候选序列，作为输出文本。作为示例，图中得分为0.1125、0.14、0.14对应的3个候选序列为文本最终的构成序列。

参考图5，其展示了本发明某类实施例的流程图。以定向文本生成中的生成密码猜测集为例，实现该目的所采用的技术方案整体上包括如下步骤：

1)文本预处理步骤：采用文本词条化工具对数据集进行文本预处理，包括数据清洗，文本转码/编码等。

2)语言模型处理步骤：根据文本预处理的结果，训练语言模型处理模块，生成下一可能字符的概率表。

3)波束搜索解码步骤：根据语言模型处理模块的输出结果动态调整解码时波束搜索的宽度，并从中采样以生成候选集。

4)碰撞步骤：清洗数据集，将生成的密码猜测集与密码测试集进行匹配碰撞。

此外，本发明还公开一种计算机存储介质，该存储介质上存储有计算机代码，处理器通过读取该存储介质上的计算机代码，以执行以上文本生成方法，尤其是动态宽度最大化解码方法。

综上，传统的波束搜索方法主要面向良好的搜索停止标志和正则化方法优化候选集分数来避免短文本生成输出，提高定向文本生成质量。不同于上述方法，本发明以波束搜索过程中候选集的选择为目标，可以与上述方法综合利用。

尽管已经参考本发明的具体特征和实施例描述了本发明，但是在不脱离本发明的情况下仍可以对其进行各种修改、组合、替换。本发明的保护范围旨在不限于说明书中描述的过程、机器、制造、物质组成、装置、方法和步骤的特定实施例，并且这些方法、模块可能还被实施在相关联、相互依赖、相互配合、前/后级的一个或多个产品、方法当中。

因此，说明书和附图应简单地视为由所附权利要求限定的技术方案的部分实施例的介绍，因而应根据最大合理解释原则对所附权利要求解读，并旨在尽可能涵盖本发明公开范围内的所有修改、变化、组合或等同物，同时还应避免不合常理的解读方式。

为了实现更好的技术效果或出于某些应用的需求，本领域技术人员可能在本发明的基础之上，对技术方案做出进一步的改进。然而，即便该部分改进/设计具有创造性或/和进步性，只要依赖本发明的技术构思，覆盖了权利要求所限定的技术特征，该技术方案同样应落入本发明的保护范围之内。

所附的权利要求中所提及的若干技术特征可能存在替代的技术特征，或者对某些技术流程的顺序、物质组织顺序可以重组。本领域普通技术人员知晓本发明后，容易想到该些替换手段，或者改变技术流程的顺序、物质组织顺序，然后采用了基本相同的手段，解决基本相同的技术问题，达到基本相同的技术效果，因此即便权利要求中明确限定了上述手段或/和顺序，然而该些修饰、改变、替换，均应依据等同原则而落入权利要求的保护范围。

结合本文中所公开的实施例中描述的各方法步骤或模块，能够以硬件、软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用或设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为在本发明所要求保护的范围之外。

Claims

1.一种动态宽度最大化解码方法，应用于文本生成过程中，其特征在于，该方法包括如下步骤：

根据语言模型处理模块生成的概率分布集合，选择候选集，具体包括：根据搜索宽度K限制候选集的数量；根据概率过滤参数P，从每个候选集的生成的概率分布中选择核心字符；

计算选择得到字符对应的生成该字符候选序列的概率序列得分；

选择得分最大的K个候选序列作为输出文本，其中K为搜索宽度；此外，

对于每个候选序列最多选择K个候选集；

当候选序列由于概率过滤参数P的过滤而小于搜索宽度K时，不进行补齐；

对于语言模型输出的概率分布集合，从中选择最后一个字符的概率分布d：

(ii)以搜索宽度K截取K个字符W；

2.根据权利要求1所述的动态宽度最大化解码方法，其特征在于：

按照搜索宽度和候选集计算得到的分数对候选序列进行更新。

3.根据权利要求1至2任意一项所述的动态宽度最大化解码方法，其特征在于：

所述语言模型处理模块为Transformer语言模型处理模块。

4.一种文本生成方法，其特征在于：所述文本生成方法为密码猜测集生成方法；并且，在生成密码猜测集的过程中还包括如下步骤：

1)文本预处理步骤：采用文本词条化工具对数据集进行文本预处理，所述文本预处理包括数据清洗、文本转码或编码；

2)语言模型处理步骤：根据文本预处理的结果，训练语言模型处理模块，生成下一可能字符的概率表；

3)波束搜索解码步骤：根据权利要求1至3任意一项所述的动态宽度最大化解码方法，利用语言模型处理模块的输出结果动态调整解码时波束搜索的宽度，并从中采样以生成候选集；

5.一种存储介质，该存储介质上存储有计算机代码，其特征在于：处理器通过读取该存储介质上的计算机代码，以执行权利要求1～3任意一种所述的动态宽度最大化解码方法，或权利要求4所述的文本生成方法。