CN112906820A - 基于遗传算法的对抗卷积神经网络句子相似度计算方法 - Google Patents

基于遗传算法的对抗卷积神经网络句子相似度计算方法 Download PDF

Info

Publication number
CN112906820A
CN112906820A CN202110295650.3A CN202110295650A CN112906820A CN 112906820 A CN112906820 A CN 112906820A CN 202110295650 A CN202110295650 A CN 202110295650A CN 112906820 A CN112906820 A CN 112906820A
Authority
CN
China
Prior art keywords
sentence
neural network
similarity
calculating
genetic algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110295650.3A
Other languages
English (en)
Inventor
黄兴哲
高亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202110295650.3A priority Critical patent/CN112906820A/zh
Publication of CN112906820A publication Critical patent/CN112906820A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于遗传算法的对抗卷积神经网络句子相似度计算方法,属于中文自然语言处理领域。针对现有方法缺少对抗样本的检测机制无法实现模型安全性的保证问题。本发明基于遗传算法和对抗卷积神经网络通过设置文本的修改率并与深度学习模型交互的形式来提升句子相似度计算模型的安全性。模型中在生成对抗样本时考虑了文本的同义词,位置信息,改变率等参数。本发明在微软释义语料库上做了大量的实验验证了该方法的有效性,可用于提升句子相似度计算模型的安全性。

Description

基于遗传算法的对抗卷积神经网络句子相似度计算方法
技术领域
本发明属于一种算法程序,涉及到文本处理模型的安全机制,主要是句子语义评估模型对抗样本的生成与检测。
背景技术
文本处理模型在经过数据的训练后可以对文本的语义进行识别进而实现大量文本数据的分析,深度学习模型通过预训练的参数根据输入文本的特征完成文本的语义分类任务。然而,对语句进行同义词或者语序的转化来干扰模型输出的结果对深度学习模型的安全性产生了挑战。这类经过了同义词替换或者语序转化的文本被称为对抗样本。在传统的安全增强模型中通过掺杂对抗样本来训练文本处理模型提高模型的安全性。对抗样本的生成大多通过粒子群算法来实现,例如萤火虫算法,蚁群算法等。这种将对抗样本的生成和模型的训练分离开的机制并不能有效地提升模型的安全性,有效增强模型安全性的关键在于对抗样本的质量和文本处理模型对对抗样本特征的学习率。
对抗样本的生成是通过替换原始样本中的单词和语序来实现的,Alzantot等人提出了一种基于遗传算法的文本生成模型,通过遗传算法的交叉、变异和遗传操作,替换原始文本内容,得到对抗样本。该方法通过对文本中的单词进行同义替换来生成对抗文本。然而,在被替换的对抗性例句中存在许多语法错误。另外,这种换词方法不能有效地利用梯度信息产生干扰。对抗样本的关键是如何尽可能减少对语义的影响,欺骗深度学习模型,这需要结合深度学习模型的分类结果来评判。
对抗样本的检测在是由文本分类模型完成的,安全性高的模型可以将对抗样本进行正确的语义评估。Ali等人提出了一种基于对抗训练的文本分类模型,该模型通过改变输入深度学习模型的数据来降低拟合度,提高安全性能。这种方法虽然在一定程度上提高了模型的安全性,但是降低了模型分类的准确性。
不同于现有的方法,我们的模型将对抗样本的生成与深度学习模型的训练结合起来进行交互式的信息反馈从而指导参数向更优的方向训练。模型中使用遗传算法来生成对抗样本,并设置对抗例句的改变率,将训练后的样本输入到对抗卷积神经网络中评估样本的攻击性。为了同时保证样本的攻击性与模型的安全性,我们设置了样本改变率和模型准确率两个阈值,在训练的过程寻找出一组能同时保证样本攻击性和准确率的阈值参数。
发明内容
本发明的目的是解决对抗样本的训练缺少与深度学习模型的交互,模型对样本的识别和判断能力不能被保证的问题。
为了解决以上问题提出了交互式的对抗样本训练与模型安全性增强机制,通过设置阈值参数的形式来保证对抗样本的攻击性和语义评估模型的安全性。其主要技术方案如下:
S1.在遗传算法和深度学习模型中分别通过设置修改率和准确率阈值的形式来保证对抗样本的攻击性和深度学习模型的安全性;
S2.设置语义相似度阈值,使用余弦距离相似度从同义词集合中筛选待替换词的同义词并根据设置的改变率来进行替换;
S3.在传统的卷积神经网络基础上加入了对抗训练和对抗丢失层,使用对抗卷积神经网络来学习对抗样本的原始样本的特征。
其中,基于遗传算法的对抗样本生成首先完成对原始句子的分词并对句子中的动词根据同义词表生成同义词集合,通过余弦距离公式计算待替换词和同义词集合中单词的相似度并根据设置的阈值threshold1进行过滤,相似度大于threshold1的单词被保留,小于threshold1的单词被舍弃,相似度计算公式如下所示。
Sim(i,j)=cos(i,j),j∈syn(word) (1)
其中,i为待替换句子中的单词,j为同义词集合中的单词,syn(word)为待过滤的同义词集合。
遗传算法的过程包括交叉,遗传和变异,根据适应度函数来选择基因优良的个体遗传下去。初始总群由原始的句子和经过阈值过滤的同义词构成。交叉过程通过句子对之间同义词集合中单词的互换来完成,遗传过程将上一次迭代中保留下来的同义词再加入下一次迭代的集合中来实现,变异则是使用被阈值过滤掉的同义词来进行。算法的适应度函数设置如下。
Figure BDA0002984248250000021
其中,sta_score为原始句子对的相似度,jud_score为深度学习模型计算的语义相似度,α为加权系数,revWords为句子中替换的单词的个数,totalWords为句子中单词的总个数。
在通过词向量得到句子的特征矩阵后,需要对句子中包含大量信息的实数矩阵进行进一步的处理。提出的模型中,在传统的卷积神经网络中加入了对抗训练层和对抗丢失层,以提高模型的鲁棒性和防止过拟合。本文提出的对抗式神经网络与传统的神经网络多出了对抗训练层和对抗丢失层。同时网络具有不同的训练样本。在对抗性神经网络中,按照一定混合比例输入遗传算法生成的对抗性实例和原始的句子对。对抗训练是一种正则化方法,可以有效地降低模型的拟合度,防止过拟合现象。与传统的训练方法一样,对抗性训练采用反向传播算法,根据分类损失对对抗性训练进行更新。对抗训练的计算公式如下。
γap=-βg/||g||2 (3)
其中,g是反向传播的梯度。输入到对抗卷积神经网络的样本需要使用下列公式进行均一化。
Figure BDA0002984248250000031
Figure BDA0002984248250000032
Figure BDA0002984248250000033
其中,Senvec代表原始句子向量,Sen'vec代表均一化后的句子向量,vi代表句子中第i个单词,fi代表句子中单词出现的次数。针对模型中输入的句子对训练过程中采用的损失函数如下。
Figure BDA0002984248250000034
附图说明
图1为遗传算法流程图。
图2为对抗卷积神经网络结构图。
图3为模型与相关模型实验的F1值以及精确度的对比图。
图4为模型在不同的对抗样本掺杂比例下的精确度对比。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和实施实例对本发明做进一步的阐述。
图1为对抗样本生成的流程图。对抗样本使用遗传算法生成过程一共分为三步。①样本经过分词后获得输入遗传算法的输入样本,该样本为句子中的单词。②样本根据语法规则和词性规则按照遗传算法的交叉,遗传和变异过程进行迭代。③迭代完成后的样本输入到卷积神经网络模型中判断是否满足预先设定的阈值条件。如果满足则结束迭代过程获得对抗样本的输入。如果不满足则继续执行步骤②。
图2为对抗卷积神经网络的结构图。在获取到对抗样本之后,将对抗样本与原始样本按照一定的比列进行参杂输入到卷积神经网络中学习样本的特征。在经过多轮训练之后获得调整好参数的模型。
模型中使用微软释义语料库作为模型训练的数据集。对抗卷积神经网络的学习率设置为0.002,每次输入的批次大小为128,迭代的轮数为1000轮。在基于遗传算法的对抗文本生成中设置文本的改变率为0.3,当对抗卷积神经网络的分类精确度大于0.75时终止遗传算法的迭代过程。
最后,本发明的示例解释仅为说明本专利所进行的举例,本领域的研究人员,对上述实例的任何修改和替换均包含在本发明专利要求保护的范围之内。

Claims (4)

1.基于遗传算法的对抗卷积神经网络句子相似度计算方法,其特征在于,所述方法应该包括以下步骤:
S1.使用遗传算法来生成对抗样本并通过设置修改率和准确率阈值的形式来保证对抗样本的攻击性和深度学习模型的安全性;
S2.设置语义相似度阈值,使用余弦距离相似度从同义词集合中筛选待替换词的同义词并根据设置的改变率来进行替换;
S3.在传统的卷积神经网络基础上加入了对抗训练和对抗丢失层,使用对抗卷积神经网络来学习对抗样本原始样本的特征。
2.根据权利要求1所述的基于遗传算法的对抗卷积神经网络句子相似度计算方法,其特征在于,所述S1具体过程为:
遗传算法的过程包括交叉,遗传和变异,根据适应度函数来选择基因优良的个体遗传下去,初始总群由原始的句子和经过阈值过滤的同义词构成,交叉过程通过句子对之间同义词集合中单词的互换来完成,遗传过程将上一次迭代中保留下来的同义词再加入下一次迭代的集合中来实现,变异则是使用被阈值过滤掉的同义词来进行,算法的适应度函数设置如下:
Figure FDA0002984248240000011
其中,sta_score为原始句子对的相似度,jud_score为深度学习模型计算的语义相似度,α为加权系数,revWords为句子中替换的单词的个数,totalWords为句子中单词的总个数,此外,在对抗文本生成过程中设置修改率来保证样本的攻击性,在与深度学习模型的交互过程中设置准确率阈值来保证安全性。
3.根据权利要求1所述的基于遗传算法的对抗卷积神经网络句子相似度计算方法,其特征在于,所述的S2具体过程为:
通过余弦距离公式计算待替换词和同义词集合中单词的相似度并根据设置的阈值threshold1进行过滤,相似度大于threshold1的单词被保留,小于threshold1的单词被舍弃,相似度计算公式如下:
Sim(i,j)=cos(i,j),j∈syn(word) (2)
其中,i为待替换句子中的单词,j为同义词集合中的单词,syn(word)为待过滤的同义词集合。
4.根据权利要求1所述的基于遗传算法的对抗卷积神经网络句子相似度计算方法,其特征在于,所述的S3具体过程为:
提出的对抗式神经网络与传统的神经网络多出了对抗训练层和对抗丢失层,同时网络具有不同的训练样本,在对抗性神经网络中,按照一定混合比例输入遗传算法生成的对抗性实例和原始的句子对,对抗训练是一种正则化方法,可以有效地降低模型的拟合度,防止过拟合现象。
γap=-βg/||g||2 (3)
其中,g是反向传播的梯度,输入到对抗卷积神经网络的样本需要使用下列公式进行均一化,
Figure FDA0002984248240000021
Figure FDA0002984248240000022
Figure FDA0002984248240000023
其中,Senvec代表原始句子向量,Sen'vec代表均一化后的句子向量,vi代表句子中第i个单词,fi代表句子中单词出现的次数,针对模型中输入的句子对训练过程中采用的损失函数如下。
Figure FDA0002984248240000024
CN202110295650.3A 2021-03-19 2021-03-19 基于遗传算法的对抗卷积神经网络句子相似度计算方法 Pending CN112906820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110295650.3A CN112906820A (zh) 2021-03-19 2021-03-19 基于遗传算法的对抗卷积神经网络句子相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110295650.3A CN112906820A (zh) 2021-03-19 2021-03-19 基于遗传算法的对抗卷积神经网络句子相似度计算方法

Publications (1)

Publication Number Publication Date
CN112906820A true CN112906820A (zh) 2021-06-04

Family

ID=76105529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110295650.3A Pending CN112906820A (zh) 2021-03-19 2021-03-19 基于遗传算法的对抗卷积神经网络句子相似度计算方法

Country Status (1)

Country Link
CN (1) CN112906820A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837370A (zh) * 2021-10-20 2021-12-24 北京房江湖科技有限公司 用于训练基于对比学习的模型的方法和装置
CN117272303A (zh) * 2023-09-27 2023-12-22 四川大学 一种基于遗传对抗的恶意代码样本变体生成方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837370A (zh) * 2021-10-20 2021-12-24 北京房江湖科技有限公司 用于训练基于对比学习的模型的方法和装置
CN113837370B (zh) * 2021-10-20 2023-12-05 贝壳找房(北京)科技有限公司 用于训练基于对比学习的模型的方法和装置
CN117272303A (zh) * 2023-09-27 2023-12-22 四川大学 一种基于遗传对抗的恶意代码样本变体生成方法及系统

Similar Documents

Publication Publication Date Title
Sun et al. RpBERT: a text-image relation propagation-based BERT model for multimodal NER
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN112069397B (zh) 自注意力机制与生成对抗网络相结合的谣言检测方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN111627429B (zh) 一种基于CycleGAN的语音识别模型的防御方法及装置
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN113723075B (zh) 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法
CN112685597A (zh) 一种基于擦除机制的弱监督视频片段检索方法和系统
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN112906820A (zh) 基于遗传算法的对抗卷积神经网络句子相似度计算方法
CN110415071A (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN117494727B (zh) 用于大语言模型的去偏倚方法
CN113705678A (zh) 利用词屏蔽数据增强与对抗学习的特定目标情感分析方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
CN115658890A (zh) 基于主题增强的情感共注意力bert模型的中文评论分类方法
CN113111180B (zh) 基于深度预训练神经网络的中文医疗同义词聚类方法
CN116912599A (zh) 基于条件变分自编码和对比学习的图像多样化描述方法
CN115309894A (zh) 一种基于对抗训练和tf-idf的文本情感分类方法及装置
CN113988074A (zh) 一种动态融合词典信息的中文命名实体识别方法和装置
Li et al. Textual Adversarial Attacks on Named Entity Recognition in a Hard Label Black Box Setting
CN112784036A (zh) 基于无监督集成学习的抽取式文本摘要方法
CN111709245A (zh) 基于语义自适应编码的汉-越伪平行句对抽取方法
Ma et al. Semi-supervised sentence classification based on user polarity in the social scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210604