CN115062139A

CN115062139A - 一种对话文本摘要模型自动搜索方法

Info

Publication number: CN115062139A
Application number: CN202210508935.5A
Authority: CN
Inventors: 林劼; 白毅; 梁玉龙; 李赛鹏; 王元芳; 姜铼
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-09-16
Anticipated expiration: 2042-05-10
Also published as: CN115062139B

Abstract

本发明公开了一种对话文本摘要模型自动搜索方法，方法先将完整的对话文本按照主题信息划分为若干个离散段落，使用文本聚类算法聚类描述相同一主题内容的段落；基于可微的NAS算法和生成对抗网络构建对话文本摘要生成模型，并分别设计生成器和判别器的搜索空间，联合优化对话摘要生成模型；将聚类获得的主题段落输入对话文本摘要模型中，生成对应主题的子摘要，并对子摘要进行排序构成最后的对话摘要。本发明考虑了生成器和判别器在对抗过程中的相关性和平衡性，以可微NAS方法设计了它们各自的搜索空间，实现了模型参数和架构参数的联合优化，能够有效避免曝光偏差的积累，能确保其生成的文本摘要能鲜明地体现主题信息。

Description

一种对话文本摘要模型自动搜索方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种对话文本摘要模型自动搜索方法。

背景技术

随着计算机网络的发展，一类以对话为主体的文本数据逐渐增多，如社交聊天、客服对话、医患诊断、AI问答等。随着这些对话文本数据的急剧增长,人们很难高效地获取其中关键的信息。这不仅影响着人们的阅读体验,也会大大增加人们在时间和精力上的损耗。因此，研究出一种高效的对话文本摘要技术具有十分重要的意义。

与文章式文本相比，对话文本有着更加鲜明的特点，主要表现在以下几个方面：(1)文章式文本通常以段落进行划分，篇幅一般较长，进行特征提取时更容易捕获到丰富的语义内容。而对话文本通常以多轮对话的形式展开，每条对话语句长度一般不会过长，语义内容较为稀疏，特征提取时很难捕获到有用的信息。(2)对话文本的主题通常随着对话的进展而变化，显著信息被稀释到整篇对话文本中。不像文章式文本主题通常是集中的，对话文本中主题分散在整个聊天中，甚至会出现一个主题的相关信息分散在不连续的对话中的现象。而当聊天记录过长时，语句之间的潜在联系更难被捕获到，这种长期依赖现象也是对话文本摘要面临的重要挑战之一。(3)对话文本中存在着大量的噪声干扰，这些噪声通常以非正式单词、缩写、表情符号等形式存在。而对话中高频率出现的无效冗余信息，如“请”、“谢谢”、“哈哈”等语气词，更是为对话文本摘要区分有用信息与无关信息增加了困难。

正是由于这些不同之处，那些在文章式文本上表现优异的模型用在对话文本上并不能取得同样的效果。对于对话文本而言，对话参与多方通常是围绕多个主题进行讨论的，每个主题的语义信息以对话语句的方式穿插在整篇对话中。因此，能否将主题信息从对话文本中抽取出来关系着后续对话摘要生成的质量。

发明内容

本发明的目的在于克服现有技术的不足，针对对话文本这类特殊文本数据,基于自动机器学习领域下的神经网络架构搜索技术，提供了一种对话文本摘要模型自动搜索方法。

本发明的目的是通过以下技术方案来实现的：

一种对话文本摘要模型自动搜索方法，包括以下步骤：

步骤1：对话文本主题划分，将完整的对话文本按照主题信息划分为若干个离散段落，使用文本聚类算法聚类描述相同一主题内容的段落；

步骤2：构建对话文本摘要模型，基于可微的NAS算法和生成对抗网络构建对话文本摘要生成模型，并分别设计生成器和判别器的搜索空间，联合优化对话摘要生成模型；

步骤3：基于主题段落生成对话摘要，将聚类获得的主题段落输入对话文本摘要模型中，生成对应主题的子摘要，并对子摘要进行排序构成最后的对话摘要。

具体的，所述步骤1具体包括以下步骤：

步骤11：使用句向量模型1，将对话语句转换为同一维度的句向量特征；

步骤12：将对话文本分段处理，使用双向长短期记忆网络BiLSTM捕获对话语句之间的上下文信息，并用CRF输出每条对话语句对应的分段符号，其中<S>表示段落起始语句，<M>表示段落中间语句，<E>表示段落终结语句；

步骤13：将分好的段落按照主题内容进行聚类处理，使用DBSCAN算法，按照段落之间的语义距离进行主题段落划分。

具体的，所述步骤2具体包括以下步骤：

步骤21：分别设计生成器和判别器的搜索空间，即特征之间的待选操作集合；其中两者的搜索空间为一个有向无环图，图中节点表示中间隐藏特征，特征节点之间的连线表示可选操作的权重大小；对于具有N个隐藏特征的搜索空间，中间节点x^(j)上的特征可以通过其所有前继节点计算得到，如下式所示：

其中O^(i,j)表示从隐藏特征x⁽ⁱ⁾到隐藏特征x^(j)的变换操作；

定义

为有向无环图中有向边上的待选操作集合，且将搜索空间表示为连续的，通过softmax输出一个对所有操作选择的概率值，之后再通过加权求和来获得最终结果，具体计算如下式所示：

其中

表示第i个特征到第j个特征之间的权重，x表示要进行变换的特征向量，o’表示从待选操作集合

中选择出来的具体操作；

步骤22：分别设计生成器和判别器的优化目标；

步骤23：联合优化对话摘要生成模型，对话摘要生成模型存在四类参数，分别是生成器的架构参数、生成器的权重参数、判别器的架构参数以及判别器的权重参数；采用先训练判别器再训练生成器的方式对对话摘要生成模型训练；在对生成器和判别器进行训练时，在验证集上更新架构参数，在训练集上更新权重参数。

具体的，所述步骤21具体包括以下子步骤：

步骤211：设计生成器的搜索空间，生成器的可选操作集合包括标准卷积、深度可分离卷积、取等、无操作、Transformer的多头selft-Attention和多头context-Attention；

步骤212：设计判别器的搜索空间，判别器的可选操作集合包括标准卷积、深度可分离卷积、取等、无操作、平均池化和最大池化。

具体的，所述步骤22具体包括以下子步骤：

步骤221：判别器的优化目标与原始GAN相同，如下式所示：

其中，φ表示判别器参数，θ表示生成器参数，p_data表示原始对话中的数据分布，X表示输入对话文本，Y表示对话摘要，G_θ表示生成对话摘要的过程，D_φ则表示判别器判断输入摘要序列为真实摘要的概率大小。

步骤222：生成器的损失函数由两部分组成，一部分是通过策略梯度从判别器传递过来的反馈损失L_pg，另一部分则是来自于自身的极大似然估计损失L_ml；生成器的损失函数如下式所示：

其中，β是可控制的平滑参数，用于平衡L_pg和L_ml；

L_ml的计算过程如下式所示：

其中，m表示生成摘要的长度，X表示原始对话文本，θ表示生成器参数；而p(y_t|y_1:t-1,X；θ)则表示在给定输入对话文本序列X和之前的生成的对话摘要序列y_1:t-1时在t时刻生成单词y_t的概率。

L_pg的计算过程如下式所示即可，如下式所示：

其中，

表示action-value函数，使用判别器的输出作为该函数。

具体的，所述步骤23包括以下子步骤：

步骤231：固定判别器的架构参数，在验证集上更新判别器的权重参数；

步骤232：固定判别器的权重参数，在训练集上更新判别器的架构参数；

步骤233：固定生成器的架构参数，在验证集上更新生成器的权重参数；

步骤234：固定生成器的权重参数，在训练集上更新生成器的架构参数。

具体的，所述步骤3包括以下子步骤：

步骤31：将主题段落集合Topic＝{t₁,t₂,...,t_m}输入对话摘要生成模型中，获得各个主题段落对应的主题子摘要集合S＝{s₁,s₂,...,s_m}；

步骤32：每个主题T由多个段落聚类形成的，每个段落由多条对话语句构成；以每条对话语句在原始对话文本中的先后顺序进行编号，并按照主题T所包含的语句编号来确定每条对话语句对应的子摘要在最终完整摘要中的相对位置，计算过程如下式所示：

其中，line表示主题T中的对话语句，idx(line)表示对话语句line在原始文本中的编号；

最后按照主题段落中语句编号顺序对子摘要进行排序，生成最后的对话摘要。

本发明的有益效果：

1、提出了一种联合搜索GAN网络中生成器和判别器的方法。在整个搜索过程中，考虑了生成器和判别器在对抗过程中的相关性和平衡性，以可微NAS方法设计了它们各自的搜索空间，在训练集和验证集上分别实现了模型参数和架构参数的联合优化。

2、采用了主流的编码器-解码器(Encoder-Decoder)框架来生成对话摘要，所以在进行对话摘要生成时与一些传统的摘要生成模型一样简单又直观。除此以外，将生成器作为强化学习中的一个智能体，并使用策略梯度来优化生成器以期望其生成具有更高奖励值的摘要，能够有效避免曝光偏差的积累。

3、通过先进行主题划分形成主题段落再根据主题段落生成对话摘要的形式，能确保其生成的文本摘要能鲜明地体现主题信息。

附图说明

图1是是本发明的方法流程示意图；

图2是本发明提出的对话摘要生成模型结构图；

图3是生成器的搜索空间结构图；

图4是生成器的待选操作集合展示图；

图5是判别器的搜索空间结构图；

图6是判别器的待选操作集合展示图。

具体实施方式

为了对本发明的技术特征、目的和有益效果有更加清楚的理解，现对本发明的技术方案精选以下详细说明。显然，所描述的实施案例是本发明一部分实施例，而不是全部实施例，不能理解为对本发明可实施范围的限定。基于本发明的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的其他所有实施例，都属于本发明的保护范围。

实施例一：

本实施例中，如图1所示，一种对话文本摘要模型自动搜索方法，包括以下步骤：

步骤1：对话文本主题划分，将完整的对话文本按照主题信息划分为若干个离散段落，再使用文本聚类算法将描述同一主题内容的段落聚在一起；

步骤2：构建对话文本摘要模型，基于可微的NAS算法和生成对抗网络(GAN)构建一个对话文本摘要生成模型，分别设计了生成器和判别器的搜索空间，并实现了整个网络的联合搜索过程。构建好的对话文本摘要生成模型如图2所示，其由生成器和判别器组成，其中生成器的目标是根据输入的对话文本来生成对话摘要，并以此来欺骗判别器，使其相信该摘要序列就是真实的对话摘要。而判别器的目标就是分辨来自于生成器的摘要序列是真实的还是虚假的，并将结果作为反馈传递给生成器。在具体实现时，用Transformer作为生成器，而判别器则是一个文本分类器。对话摘要生成模型结构如图2所示。

步骤3：基于主题段落生成对话摘要，将主题段落输入对话文本摘要模型中，生成对应的主题子摘要，之后再对这些子摘要进行排序构成最后的对话摘要。

其中，作为自动机器学习的子领域之一，神经网络架构搜索(NAS)是一种针对特定任务来设计的用于自动搜索网络模型架构的技术。神经网络架构搜索技术具有十分广阔的应用价值与研究意义，近年来得到了研究人员的广泛关注，并取得了一定的研究进展。搜索空间、搜索策略、评估是评估神经网络架构搜索技术最重要的三个方向，其中，搜索空间定义了网络架构的基本单元或者操作方式，而搜索策略则定义了从搜索空间中搜索一个完整的子架构的具体实现方法，最后评价策略负责对搜索到的子架构的最终表现进行打分，并将得分结果返回给搜索策略，指导其进行下一步的搜索过程。

DARTS是第一个提出基于可微的NAS方法。在DARTS之前，不管是基于强化学习还是进化算法，NAS的搜索过程都是不连续的，目标函数不可微，也无法通过梯度信息直接更新搜索网络，这样的方式带来的最大问题就是整个搜索过程对算力要求是非常高的。DARTS的搜索策略是将整个网络架构看作是若干个特征图之间的信息流动，其中特征图之间具有若干个可选的操作，而每个操作的权重作为架构参数通过搜索得到。在具体实施上，DARTS在训练集上训练整个模型的权重参数，而在验证集上训练模型的架构参数。

进一步的，所述步骤1包括以下子步骤：

步骤11：使用句向量模型1，将对话语句转换为同一维度的句向量特征。

步骤12：将对话文本分段处理，具体来说，使用双向长短期记忆网络(BiLSTM)捕获对话语句之间的上下文信息，并用CRF输出每条对话语句对应的分段符号，其中<S>表示段落起始语句，<M>表示段落中间语句，<E>表示段落终结语句。

步骤13：将分好的段落按照主题内容进行聚类处理，使用DBSCAN算法，按照段落之间的语义距离进行划分。

进一步的，所述步骤2包括以下子步骤：

步骤21：分别设计生成器和判别器的搜索空间，即特征之间的待选操作集合。其中两者的搜索空间为一个有向无环图，图中节点表示中间隐藏特征，而特征节点之间的连线表示可选操作的权重大小。对于一个具有N个隐藏特征的搜索空间来说，中间节点x^(j)上的特征可以通过其所有前继节点计算得到，如下式所示，其中O^(i,j)表示从隐藏特征x⁽ⁱ⁾到隐藏特征x^(j)的变换操作。

定义

为图中有向边上的待选操作集合，为了将搜索空间表示为连续的，可以通过softmax输出一个对所有操作选择的概率值，之后再通过加权求和来获得最终结果，具体计算如下式所示，其中

表示第i个特征到第j个特征之间的权重，这也是要进行搜索的架构参数；x表示要进行变换的特征向量，o’表示从待选操作集合

中选择出来的具体操作。

进一步的，步骤21包括以下子步骤：

步骤211：对于生成器而言，其可选操作集合不仅包括标准卷积、深度可分离卷积这类全新的操作，也保留了Transformer中所特有的多头selft-Attention和多头context-Attention。其中多头selft-Attention在Transformer的编解码端都是存在的，而多头context-Attention则只存在于解码端。除此以外，还有两种特殊的操作。其中，“取等”表示将直接使用上一个特征来作为当前的特征，这起到了和残差网络中的跳跃连接同样的作用。而“无操作”则表示两个特征图之间不具有操作关系，这有利于搜索模型产生多种多样的网络架构。生成器的搜索空间设计如图3所示，待选操作集合如图4所示。

步骤212：至于判别器的搜索空间设计，主要考虑到判别器和生成器在整个训练过程中是以对抗的形式进行的，所以简单反转生成器中的基本单元架构来确定判别器的网络架构，而判别器的可选操作集合去除了多头self-Attention和多头context-Attention这两种独属于Transformer的操作，但新增了平均池化和最大池化这两个操作，这两个池化操作主要用于对输入文本特征进行下采样。判别器的搜索空间设计如图5所示，待选操作集合如图6所示。

步骤22：分别设计生成器和判别器的优化目标。

进一步的，步骤22包括以下子步骤：

步骤221：判别器本质上是一个文本分类器，所以其损失函数只是常见的分类损失，所以其优化目标与原始GAN一样如下式所示：

步骤222：生成器的损失函数由两部分组成，一部分是通过策略梯度从判别器传递过来的反馈损失L_pg，另一部分则是来自于自身的极大似然估计损失L_ml。所以生成器的损失函数如下式所示，其中β是一个可以控制的平滑参数，它主要用于平衡L_pg和L_ml，简单将其设置为0.5，则最后的损失函数就可以认为同时考虑到了生成器自身的损失以及来自于判别器的反馈损失。

L_ml的计算过程如下式所示，其中m表示生成摘要的长度，X表示原始对话文本，θ表示生成器参数；而p(y_t|y_1:t-1,X；θ)则表示在给定输入对话文本序列X和之前的生成的对话摘要序列y_1:t-1时在t时刻生成单词y_t的概率。

L_pg的计算过程如下式所示，其中

表示action-value函数，直接使用判别器的输出作为该函数即可，如下式所示：

步骤23：联合优化对话摘要生成模型，该模型存在四类参数，分别是生成器的架构参数、生成器的权重参数、判别器的架构参数以及判别器的权重参数。训练时，采用先训练判别器再训练生成器的方式，这和原始GAN的训练方式一样。在对两个模块进行训练时，在验证集上更新架构参数，在训练集上更新权重参数。

进一步的，步骤23包括以下子步骤：

步骤231：固定判别器的架构参数，在验证集上更新判别器的权重参数。

步骤232：固定判别器的权重参数，在训练集上更新判别器的架构参数。

步骤233：固定生成器的架构参数，在验证集上更新生成器的权重参数。

进一步的，所述步骤3包括以下子步骤：

步骤31：将主题段落集合Topic＝{t₁,t₂,...,t_m}输入对话摘要生成模型中，获得各个主题段落对应的主题子摘要集合S＝{s₁,s₂,...,s_m}。

步骤32：按照主题段落中语句编号对子摘要进行排序，生成最后的对话摘要。对于每个主题T，其是由多个段落聚类形成的，而每个段落又是由多条对话语句构成。可以为每条对话语句按照其在原始对话文本的先后顺序进行编号，之后按照主题T所包含的语句编号来确定其对应的摘要在最终完整摘要中的相对位置，计算过程如下式所示，其中line表示主题T中的对话语句，idx(line)表示对话语句line在原始文本中的编号。通过这种方式，就可以求出每个主题对应的主题摘要的相对位置，之后进行排列后就可以得到最终的对话文本摘要。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。