CN111651561B

CN111651561B - 一种高质量困难样本生成方法

Info

Publication number: CN111651561B
Application number: CN202010503558.7A
Authority: CN
Inventors: 王春辉; 胡勇
Original assignee: Polar Intelligence Technology Co ltd
Current assignee: Polar Intelligence Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-05-02
Anticipated expiration: 2040-06-05
Also published as: CN111651561A

Abstract

本发明公开一种高质量困难样本生成方法。所述方法包括：将输入文本和包含多样化信息的指定标签输入至条件变分自编码器，得到指定标签类别的生成样本；以输入文本和生成样本为训练样本，训练真伪判别器和相似判别器，真伪判别器判断生成样本是真实样本还是伪造样本，相似判别器通过计算输入文本与生成样本的余弦相似度，并与设定的阈值比较判断输入文本与生成样本是否相似；训练结果使真伪判别器判为真实样本的概率尽量大，使相似判别器判为相似的概率尽量大；条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。本发明能够输出既包含多样化信息、又能尽量保留本身语义的困难样本，提高了困难样本生成的质量。

Description

一种高质量困难样本生成方法

技术领域

本发明属于自然语言理解技术领域，具体涉及一种高质量困难样本生成方法。

背景技术

目前针对困难样本生成的方法主要包括基于VAE(Variational Auto-Encoders，变分自编码器)的样本生成和基于GAN(Generative Adversarial Networks，生成对抗网络模型)的样本生成。

变分自编码器在数据生成方面表现出了巨大的应用价值。变分自编码器主要由编码器和解码器两部分组成。编码器根据训练样本建模隐变量所服从的概率分布p(z|x)中的参数，然后从p(z|x)概率分布进行采样得到隐变量z；解码器基于隐变量建模样本变量。由于在解码时进行随机采样，使得最后解码得到的结果具有随机性，即与x相似但又不完全一样。其中隐含变量z可以表示为语义信息。Zhao等人在CVAE(Conditional VariationalAuto-Encoder，条件变分自编码器)的基础上加入特征信息y提出了kg-CVAE(Knowledge-Conditional Variational Auto-Encoder，知识条件变分自编码器)的方法来增强样本生成的质量。kg-VAE同样是由编码器和解码器两部分组成，编码器根据训练样本x以及对应的标签y建模隐变量服从的概率分布p(z|x,y)，然后采样隐含变量z，解码器根据隐含变量z以及y建模，使得隐含变量z中不仅包含x的语义信息，而且根据标签y嵌入语法、话题、情感等其它信息。变分自编码器生成样本的方法存在的问题是，有时会存在KL消失的问题，导致生成的样本比较单一。

生成对抗网络是进行样本生成的一种强大的深度学习算法。生成对抗网络包括生成网络和判别网络。传统的生成对抗网络首先根据随机噪声生成样本和真实样本训练生成器，利用真实样本和生成器生成的样本训练判别器，使其尽可能多地分辨真实样本和生成的伪样本。然后训练生成网络，使其尽可能减小训练样本和生成样本之间的差距。两者循环迭代更新，最后使生成样本和真实样本分布一致，从而生成高质量的困难样本。生成对抗网络生成的样本多样性比较高，但是由于随机性比较大，生成的样本的质量不是很稳定。

发明内容

为了解决现有技术中存在的上述问题，本发明提出一种高质量困难样本生成方法。

为实现上述目的，本发明采用如下技术方案：

一种高质量困难样本生成方法，包括以下步骤：

步骤1，将输入文本和包含多样化信息的指定标签输入至条件变分自编码器，得到指定标签类别的生成样本；

步骤2，以输入文本和生成样本为训练样本，训练真伪判别器和相似判别器，同时对条件变分自编码器进行训练；真伪判别器判断生成样本是真实样本还是伪造样本，相似判别器通过计算输入文本与生成样本的余弦相似度，并与设定的阈值比较判断输入文本与生成样本是否相似；训练的优化目标是使真伪判别器判为真实样本的概率尽量大，使相似判别器判为相似的概率尽量大；

步骤3，条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。

与现有技术相比，本发明具有以下有益效果：

本发明通过将输入文本和包含多样化信息的指定标签输入至条件变分自编码器，得到指定标签类别的生成样本，以输入文本和生成样本为训练样本训练真伪判别器和相似判别器，使真伪判别器判为真实样本的概率尽量大，使相似判别器判为相似的概率尽量大，能够使条件变分自编码器输出既包含多样化信息，又能尽量保留本身语义的困难样本，提高了困难样本生成的质量。

附图说明

图1为本发明实施例一种高质量困难样本生成方法的流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明实施例一种高质量困难样本生成方法，流程图如图1所示，所述方法包括以下步骤：

S101、将输入文本和包含多样化信息的指定标签输入至条件变分自编码器，得到指定标签类别的生成样本；

S102、以输入文本和生成样本为训练样本，训练真伪判别器和相似判别器，同时对条件变分自编码器进行训练；真伪判别器判断生成样本是真实样本还是伪造样本，相似判别器通过计算输入文本与生成样本的余弦相似度，并与设定的阈值比较判断输入文本与生成样本是否相似；训练的优化目标是使真伪判别器判为真实样本的概率尽量大，使相似判别器判为相似的概率尽量大；

S103、条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。

本实施例生成高质量困难样本的原理是：将给定输入句子x，输入自编码器生成句子的语义信息z，然后在z的基础上引入多样性的信息进行解码。为了保证生成的句子既没有丢失句子本身的语义信息，同时包含多样化的信息，设计了两个独特的判别器即真伪判别器和相似判别器，对生成句子的多样性以及真实性进行分类。通过对两个判别器的训练，尽可能地减小训练样本和生成样本之间的差距，从而使生成的句子既最大程度地保留句子本身的语义信息。

在本实施例中，步骤S101主要用于将输入文本x和指定标签y输入条件变分自编码器，得到指定标签类别的生成样本z。传统的变分自编码器生成的样本可以看作是多个样本的平均值，生成的样本存在单一模糊的缺点。本实施例的条件变分自编码在基于指定标签的约束模型考虑输入本身的语义信息的条件下，可以优先学习到与指定标签相关的特性，使得生成的样本质量更高。指定标签是表明句式的一些标签，如疑问句、陈述句等。指定标签中包含了表示情感等的多样化信息。在条件变分自编码器训练过程中，首先假设p(z|x)服从标准正态分布，编码器根据训练样本建模隐变量服从的概率分布p(z|x,y)。然后以KL散度为优化目标使先验概率p(z|x)和后验概率p(z|x,y)尽量逼近，那么先验即可以与后验生成较为相似的隐变量。解码器端将隐变量与对话上下文拼接起来作为其输入，然后再对解码的结果进行极大似然优化。

在本实施例中，步骤S102主要用于实现对真伪判别器和相似判别器进行训练。条件变分自编码器相当于生成对抗网络中的生成器，本实施例的判别器主要是基于attention机制实现的。与传统的对抗网络相比，本实施例设计了两种独特的判别器：一种判别器用于对训练样例真伪进行分类，称为真伪判别器；另一种判别器用于根据真实样本和生成样本的语义相关性，判断两个样本是否相似，具体通过计算两个样本的余弦相似度，并与设定的阈值进行比较，如果超过设定的阈值，则相似；否则不相似。对两个判别器训练的同时，对条件变分自编码器也进行训练，以使真伪判别器判为真实样本的概率和相似判别器判为相似的概率尽量大为优化目标，这样可使条件变分自编码器生成的样本能够很好地保留输入文本的本身语义。

在本实施例中，步骤S103主要用于输出高质量的困难样本。模型训练好后，将输入文本和指定的标签输入条件变分自编码器，便可输出既包含多样化信息又保留本身语义的高质量困难样本。

作为一种可选实施例，训练真伪判别器和相似判别器的损失函数为：

Loss＝L₁+βL₂+γL_reg (1)

L₁＝-(y_tlog_ey_p+(1-y_t)log_e(1-y_p)) (2)

L₂＝-(y_slog_ey_q+(1-y_s)log_e(1-y_q)) (3)

式中，Loss为总损失，L₁为真伪判别器损失，L₂为相似判别器损失，β、γ为平衡不同损失项的系数，L_reg为防止模型过拟合的正则项；将真伪判别器判为真实样本记为y_t＝1，y_p为y_t＝1时的概率；将相似判别器判为相似记为y_s＝1，y_q为y_s＝1时的概率。

本实施例给出了训练真伪判别器和相似判别器的损失函数。损失函数如式(1)～(3)。总损失Loss由三部分组成，分别是真伪判别器损失L₁、相似判别器损失L₂和防止模型过拟合的正则项L_reg。β、γ用来平衡不同损失项所占的比例。根据(2)式，当y_t＝1时，L₁＝-log_ey_p，L₁是y_p的单调减函数，即y_p越大L₁越小；同理，根据(3)式，当y_s＝1时，L₂＝-log_ey_q，L₂是y_q的单调减函数，即y_q越大L₂越小。也就是说，训练结束后L₁、L₂最小，y_p、y_q接近最大值1(由于设置了正则项，不可能为1)，达到了使真伪判别器判为真实样本的概率y_p和相似判别器判为相似的概率y_q尽量大的优化目标。

上述仅对本发明中的几种具体实施例加以说明，但并不能作为本发明的保护范围，凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等，均应认为落入本发明的保护范围。

Claims

1.一种高质量困难样本生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的高质量困难样本生成方法，其特征在于，训练真伪判别器和相似判别器的损失函数为：

Loss＝L₁+βL₂+γL_reg (1)

L₁＝-(y_t log_e y_p+(1-y_t)log_e(1-y_p)) (2)

L₂＝-(y_s log_e y_q+(1-y_s)log_e(1-y_q)) (3)

式中，Loss为总损失，L₁为真伪判别器损失，L₂为相似判别器损失，β、γ为平衡不同损失项的系数，L_reg为防止模型过拟合的正则项；将真伪判别器判为真实样本记为y_t＝1，y_p为y_t＝1时的概率，y_t表示真伪判别器判断生成样本是否为真实样本，y_p表示真伪判别器判为真实样本的概率；将相似判别器判为相似记为y_s＝1，y_q为y_s＝1时的概率，y_s表示相似判别器判断输入文本与生成样本是否相似，y_q表示相似判别器判为相似的概率。