CN111651561B - 一种高质量困难样本生成方法 - Google Patents
一种高质量困难样本生成方法 Download PDFInfo
- Publication number
- CN111651561B CN111651561B CN202010503558.7A CN202010503558A CN111651561B CN 111651561 B CN111651561 B CN 111651561B CN 202010503558 A CN202010503558 A CN 202010503558A CN 111651561 B CN111651561 B CN 111651561B
- Authority
- CN
- China
- Prior art keywords
- sample
- true
- similarity
- discriminator
- false
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种高质量困难样本生成方法。所述方法包括:将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练结果使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。本发明能够输出既包含多样化信息、又能尽量保留本身语义的困难样本,提高了困难样本生成的质量。
Description
技术领域
本发明属于自然语言理解技术领域,具体涉及一种高质量困难样本生成方法。
背景技术
目前针对困难样本生成的方法主要包括基于VAE(Variational Auto-Encoders,变分自编码器)的样本生成和基于GAN(Generative Adversarial Networks,生成对抗网络模型)的样本生成。
变分自编码器在数据生成方面表现出了巨大的应用价值。变分自编码器主要由编码器和解码器两部分组成。编码器根据训练样本建模隐变量所服从的概率分布p(z|x)中的参数,然后从p(z|x)概率分布进行采样得到隐变量z;解码器基于隐变量建模样本变量。由于在解码时进行随机采样,使得最后解码得到的结果具有随机性,即与x相似但又不完全一样。其中隐含变量z可以表示为语义信息。Zhao等人在CVAE(Conditional VariationalAuto-Encoder,条件变分自编码器)的基础上加入特征信息y提出了kg-CVAE(Knowledge-Conditional Variational Auto-Encoder,知识条件变分自编码器)的方法来增强样本生成的质量。kg-VAE同样是由编码器和解码器两部分组成,编码器根据训练样本x以及对应的标签y建模隐变量服从的概率分布p(z|x,y),然后采样隐含变量z,解码器根据隐含变量z以及y建模,使得隐含变量z中不仅包含x的语义信息,而且根据标签y嵌入语法、话题、情感等其它信息。变分自编码器生成样本的方法存在的问题是,有时会存在KL消失的问题,导致生成的样本比较单一。
生成对抗网络是进行样本生成的一种强大的深度学习算法。生成对抗网络包括生成网络和判别网络。传统的生成对抗网络首先根据随机噪声生成样本和真实样本训练生成器,利用真实样本和生成器生成的样本训练判别器,使其尽可能多地分辨真实样本和生成的伪样本。然后训练生成网络,使其尽可能减小训练样本和生成样本之间的差距。两者循环迭代更新,最后使生成样本和真实样本分布一致,从而生成高质量的困难样本。生成对抗网络生成的样本多样性比较高,但是由于随机性比较大,生成的样本的质量不是很稳定。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种高质量困难样本生成方法。
为实现上述目的,本发明采用如下技术方案:
一种高质量困难样本生成方法,包括以下步骤:
步骤1,将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;
步骤2,以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,同时对条件变分自编码器进行训练;真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练的优化目标是使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;
步骤3,条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。
与现有技术相比,本发明具有以下有益效果:
本发明通过将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本,以输入文本和生成样本为训练样本训练真伪判别器和相似判别器,使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大,能够使条件变分自编码器输出既包含多样化信息,又能尽量保留本身语义的困难样本,提高了困难样本生成的质量。
附图说明
图1为本发明实施例一种高质量困难样本生成方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种高质量困难样本生成方法,流程图如图1所示,所述方法包括以下步骤:
S101、将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;
S102、以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,同时对条件变分自编码器进行训练;真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练的优化目标是使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;
S103、条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。
本实施例生成高质量困难样本的原理是:将给定输入句子x,输入自编码器生成句子的语义信息z,然后在z的基础上引入多样性的信息进行解码。为了保证生成的句子既没有丢失句子本身的语义信息,同时包含多样化的信息,设计了两个独特的判别器即真伪判别器和相似判别器,对生成句子的多样性以及真实性进行分类。通过对两个判别器的训练,尽可能地减小训练样本和生成样本之间的差距,从而使生成的句子既最大程度地保留句子本身的语义信息。
在本实施例中,步骤S101主要用于将输入文本x和指定标签y输入条件变分自编码器,得到指定标签类别的生成样本z。传统的变分自编码器生成的样本可以看作是多个样本的平均值,生成的样本存在单一模糊的缺点。本实施例的条件变分自编码在基于指定标签的约束模型考虑输入本身的语义信息的条件下,可以优先学习到与指定标签相关的特性,使得生成的样本质量更高。指定标签是表明句式的一些标签,如疑问句、陈述句等。指定标签中包含了表示情感等的多样化信息。在条件变分自编码器训练过程中,首先假设p(z|x)服从标准正态分布,编码器根据训练样本建模隐变量服从的概率分布p(z|x,y)。然后以KL散度为优化目标使先验概率p(z|x)和后验概率p(z|x,y)尽量逼近,那么先验即可以与后验生成较为相似的隐变量。解码器端将隐变量与对话上下文拼接起来作为其输入,然后再对解码的结果进行极大似然优化。
在本实施例中,步骤S102主要用于实现对真伪判别器和相似判别器进行训练。条件变分自编码器相当于生成对抗网络中的生成器,本实施例的判别器主要是基于attention机制实现的。与传统的对抗网络相比,本实施例设计了两种独特的判别器:一种判别器用于对训练样例真伪进行分类,称为真伪判别器;另一种判别器用于根据真实样本和生成样本的语义相关性,判断两个样本是否相似,具体通过计算两个样本的余弦相似度,并与设定的阈值进行比较,如果超过设定的阈值,则相似;否则不相似。对两个判别器训练的同时,对条件变分自编码器也进行训练,以使真伪判别器判为真实样本的概率和相似判别器判为相似的概率尽量大为优化目标,这样可使条件变分自编码器生成的样本能够很好地保留输入文本的本身语义。
在本实施例中,步骤S103主要用于输出高质量的困难样本。模型训练好后,将输入文本和指定的标签输入条件变分自编码器,便可输出既包含多样化信息又保留本身语义的高质量困难样本。
作为一种可选实施例,训练真伪判别器和相似判别器的损失函数为:
Loss=L1+βL2+γLreg (1)
L1=-(ytlogeyp+(1-yt)loge(1-yp)) (2)
L2=-(yslogeyq+(1-ys)loge(1-yq)) (3)
式中,Loss为总损失,L1为真伪判别器损失,L2为相似判别器损失,β、γ为平衡不同损失项的系数,Lreg为防止模型过拟合的正则项;将真伪判别器判为真实样本记为yt=1,yp为yt=1时的概率;将相似判别器判为相似记为ys=1,yq为ys=1时的概率。
本实施例给出了训练真伪判别器和相似判别器的损失函数。损失函数如式(1)~(3)。总损失Loss由三部分组成,分别是真伪判别器损失L1、相似判别器损失L2和防止模型过拟合的正则项Lreg。β、γ用来平衡不同损失项所占的比例。根据(2)式,当yt=1时,L1=-logeyp,L1是yp的单调减函数,即yp越大L1越小;同理,根据(3)式,当ys=1时,L2=-logeyq,L2是yq的单调减函数,即yq越大L2越小。也就是说,训练结束后L1、L2最小,yp、yq接近最大值1(由于设置了正则项,不可能为1),达到了使真伪判别器判为真实样本的概率yp和相似判别器判为相似的概率yq尽量大的优化目标。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。
Claims (2)
1.一种高质量困难样本生成方法,其特征在于,包括以下步骤:
步骤1,将输入文本和包含多样化信息的指定标签输入至条件变分自编码器,得到指定标签类别的生成样本;
步骤2,以输入文本和生成样本为训练样本,训练真伪判别器和相似判别器,同时对条件变分自编码器进行训练;真伪判别器判断生成样本是真实样本还是伪造样本,相似判别器通过计算输入文本与生成样本的余弦相似度,并与设定的阈值比较判断输入文本与生成样本是否相似;训练的优化目标是使真伪判别器判为真实样本的概率尽量大,使相似判别器判为相似的概率尽量大;
步骤3,条件变分自编码器输出既包含多样化信息又保留本身语义的困难样本。
2.根据权利要求1所述的高质量困难样本生成方法,其特征在于,训练真伪判别器和相似判别器的损失函数为:
Loss=L1+βL2+γLreg (1)
L1=-(yt loge yp+(1-yt)loge(1-yp)) (2)
L2=-(ys loge yq+(1-ys)loge(1-yq)) (3)
式中,Loss为总损失,L1为真伪判别器损失,L2为相似判别器损失,β、γ为平衡不同损失项的系数,Lreg为防止模型过拟合的正则项;将真伪判别器判为真实样本记为yt=1,yp为yt=1时的概率,yt表示真伪判别器判断生成样本是否为真实样本,yp表示真伪判别器判为真实样本的概率;将相似判别器判为相似记为ys=1,yq为ys=1时的概率,ys表示相似判别器判断输入文本与生成样本是否相似,yq表示相似判别器判为相似的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010503558.7A CN111651561B (zh) | 2020-06-05 | 2020-06-05 | 一种高质量困难样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010503558.7A CN111651561B (zh) | 2020-06-05 | 2020-06-05 | 一种高质量困难样本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651561A CN111651561A (zh) | 2020-09-11 |
CN111651561B true CN111651561B (zh) | 2023-05-02 |
Family
ID=72344875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010503558.7A Active CN111651561B (zh) | 2020-06-05 | 2020-06-05 | 一种高质量困难样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651561B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801297B (zh) * | 2021-01-20 | 2021-11-16 | 哈尔滨工业大学 | 一种基于条件变分自编码器的机器学习模型对抗性样本生成方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018063504A (ja) * | 2016-10-12 | 2018-04-19 | 株式会社リコー | 生成モデル学習方法、装置及びプログラム |
US11468262B2 (en) * | 2017-10-30 | 2022-10-11 | Nec Corporation | Deep network embedding with adversarial regularization |
CN109543740B (zh) * | 2018-11-14 | 2022-07-15 | 哈尔滨工程大学 | 一种基于生成对抗网络的目标检测方法 |
CN111127385B (zh) * | 2019-06-06 | 2023-01-13 | 昆明理工大学 | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 |
CN111046673B (zh) * | 2019-12-17 | 2021-09-03 | 湖南大学 | 一种用于防御文本恶意样本的对抗生成网络的训练方法 |
-
2020
- 2020-06-05 CN CN202010503558.7A patent/CN111651561B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111651561A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN107908715A (zh) | 基于Adaboost和分类器加权融合的微博情感极性判别方法 | |
CN113254610B (zh) | 面向专利咨询的多轮对话生成方法 | |
CN101599071A (zh) | 对话文本主题的自动提取方法 | |
WO2020114302A1 (zh) | 一种行为预测方法 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
JP2015511733A (ja) | テキストを分類する方法 | |
CN114911932A (zh) | 基于主题语义增强的异构图结构多会话者情感分析方法 | |
CN114218379B (zh) | 一种面向智能问答系统的无法回答问题的归因方法 | |
CN112182230A (zh) | 一种基于深度学习的文本数据分类方法和装置 | |
CN114742016B (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
Yordanova et al. | Automatic detection of everyday social behaviours and environments from verbatim transcripts of daily conversations | |
Agarla et al. | Semi-supervised cross-lingual speech emotion recognition | |
CN111651561B (zh) | 一种高质量困难样本生成方法 | |
CN114548117A (zh) | 一种基于bert语义增强的因果关系抽取方法 | |
CN115062139A (zh) | 一种对话文本摘要模型自动搜索方法 | |
Wang et al. | Linguistic steganalysis in few-shot scenario | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN112417118A (zh) | 一种基于标记文本和神经网络的对话生成方法 | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |