CN112380845B - 句子噪声设计方法、设备及计算机存储介质 - Google Patents
句子噪声设计方法、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN112380845B CN112380845B CN202110051556.3A CN202110051556A CN112380845B CN 112380845 B CN112380845 B CN 112380845B CN 202110051556 A CN202110051556 A CN 202110051556A CN 112380845 B CN112380845 B CN 112380845B
- Authority
- CN
- China
- Prior art keywords
- noise
- text
- sentence
- word
- fluency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种句子噪声设计方法、设备及计算机存储介质,该方法包括以下步骤:对原始文本进行预处理,生成第一噪声文本;基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。本发明解决了噪声文本流畅度不高的问题,实现在基于迭代方式定位与噪声词注入攻击基础上,加入了生成噪声流畅度优化算法,使得生成的噪声文本更加符合正确语法与人类阅读习惯。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种句子噪声设计方法、设备及计算机存储介质。
背景技术
对抗样本是指在输入样本中故意添加细微干扰,导致模型输出一个置信度较高的错误结果,其在图像与语音领域取得了一些成果,然而在文本领域,由于其离散特质,仍然面临诸多挑战。对于自然语言处理攻击模型来说,不仅仅是需要能够欺骗目标模型,对于其生成的对抗样本需要满足三个属性
(1)人预测一致性,即人类对输入文本的预测保持不变;
(2)语义的相似性,生成的对抗样本应该尽可能与原文本保持相似的含义。
(3)句子流畅度,生成的文本应该读上去自然且语法正确。
目前许多攻击模型存在如下缺点:
(1)由于文本的离散特性,噪声注入后效果不像语音、图像那样直观,有的对抗文本哪怕欺骗过了检测模型,从语义上也给人一种难以理解的感觉。
(2)目前很多文本对抗算法,噪声注入比较粗糙,无法保持对应单词在句子中的形式,比如第三人称,动词ing形式,数词的基数词与序数词等,导致生成的对抗文本读起来存在语法错误,影响了句子的流畅度。
发明内容
有鉴于此,提供一种句子噪声设计方法、设备及计算机存储介质,解决噪声文本流畅度不高的问题。
本申请实施例提供了一种句子噪声设计方法,所述方法包括:
对原始文本进行预处理,生成第一噪声文本;
基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;
采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。
在一实施例中,所述对原始文本进行预处理,生成第一噪声文本,包括:
计算原始文本中每个词的概率值;
基于所述概率值,获得每个词的重要度;
基于所述重要度,获得所述重要度大于第一预设阈值的候选词;
使用噪声词替换所述候选词,生成所述第一噪声文本;其中噪声词为利用余弦相似度计算方法在同义词词典中获得的所述候选词的同义词。
在一实施例中,所述利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,包括:
获得预设数量个所述句子结构相似度大于第二预设阈值的相似句子结构文本;
获得所述相似句子结构文本中与所述第一噪声文本的噪声词对应位置的对应词;
基于第一预设规则对所述对应词进行词形标注以及词性标注;
基于预设的统计方法对所述对应词的词形及词性进行统计,以获得所述第一噪声文本的噪声词位置的确定词形及确定词性;
使用所述对应词中与确定词形及确定词性相同的词,替换所述第一噪声文本中的噪声词,生成流畅度优化后的噪声文本。
在一实施例中,所述基于自适应滑动窗口计算噪声文本与预加载语料库中的文本之间句子结构相似度,包括:
根据所述第一噪声文本的长度设置滑动窗口的长度,并根据第二预设规则截取所述第一噪声文本的索引区间;
计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度。
在一实施例中,所述计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度的计算公式包括:
Sim=V×UT
其中,U表示所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的词性比较向量;V表示所述预加载语料库中的文本中词的权重向量。
在一实施例中,获得流畅度符合预设条件的第二噪声文本,包括:
基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测;
当所述流畅度优化后的噪声文本的所述困惑度小于第三预设阈值,则令所述流畅度优化后的噪声文本为第二噪声文本。
在一实施例中,获得流畅度符合预设条件的第二噪声文本,还包括:
当所述困惑度大于所述第三预设阈值时,重新对所述第一噪声文本执行流畅度优化处理。
在一实施例中,所述基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测的步骤中利用交叉熵损失函数计算所述困惑度的公式,包括:
其中,Jt表示LSTM中某一时刻t的交叉熵损失函数,L表示输入样本的大小,即输入文本中词向量大小;yt,j表示在t时刻时样本j处词的实际输出概率;表示在t时刻时样本j处词的期望输出概率;T为时刻总数;J为交叉熵损失误差;Pperplexity为困惑度。
在一实施例中,所述采用深度学习模型对所述第二噪声文本进行预测,包括:
获得所述第二噪声文本对应的词向量、句子向量以及词位置向量;
将所述词向量、所述句子向量以及所述词位置向量叠加后作为所述深度学习模型的输入;
获得所述深度学习模型的所述预测值。
在一实施例中,所述方法,还包括:
若预测值与采用深度学习模型对原始文本的预测值的相同,则重新执行所述第一噪声文本的生成过程。
在一实施例中,所述第一预设规则,包括以下至少一种:
语言规则、词典映射形式和语法知识。
在一实施例中,所述根据第二预设规则截取所述第一噪声文本的索引区间包括:
[iw-k,iw+(L'-k-1)] 0≤k<iw
定义滑动窗口长度值为L',L'属于[L-2,L],L为所述第一噪声文本的句子长度,噪声词w在噪声文本的索引为iw,iw>1,噪声词的左步长为k,k表示截取噪声文本最左边的词离噪声词的距离。
为实现上述目的,还提供一种计算机存储介质,所述计算机存储介质上存储有句子噪声设计方法程序,所述句子噪声设计方法程序被处理器执行时实现上述任一所述的方法的步骤。
为实现上述目的,还提供一种句子噪声生成设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的句子噪声设计方法程序,所述处理器执行所述句子噪声设计方法程序时实现上述任一所述的方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:对原始文本进行预处理,生成第一噪声文本;该步骤主要是生成一个相对粗糙的文本噪声,其文本的流畅度不高,该步骤为后续进行流畅度优化提供噪声词的位置信息。基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;该步骤经过流畅度优化后,生成流畅度佳的第二噪声文本,其中流畅度优化使得第二噪声文本在语义和语法上符合正常的语句,同时保证第二噪声文本读起来更加合理。采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。该步骤是对第二噪声是否符合目标结果的判断条件,保证目标结果符合文本流畅度。本发明解决了噪声文本流畅度不高的问题,实现在基于迭代方式定位与噪声词注入攻击基础上,加入了生成噪声流畅度优化算法,使得生成的噪声文本更加符合正确语法与人类阅读习惯。
附图说明
图1为本申请实施例中涉及的句子噪声设计方法的硬件架构示意图;
图2为本发明句子噪声设计方法的第一实施例的流程示意图;
图3为本发明句子噪声设计方法第一实施例中步骤S110的具体实施步骤流程示意图;
图4为本发明句子噪声设计方法第一实施例中步骤S120的具体实施步骤流程示意图;
图5为本发明句子噪声设计方法中步骤S121的具体实施步骤流程示意图;
图6为本发明句子噪声设计方法句子结构相似度计算流程图;
图7为本发明句子噪声设计方法句子结构相似度计算示例;
图8为本发明句子噪声设计方法第一实施例中步骤S120的另一具体实施步骤流程示意图;
图9为本发明句子噪声设计方法第一实施例中步骤S130的具体实施步骤流程示意图;
图10为本发明句子噪声设计方法的预测流程示意图;
图11为本发明句子噪声设计方法的第二实施例的流程示意图;
图12为本发明句子噪声设计方法的流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:对原始文本进行预处理,生成第一噪声文本;基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。本发明解决了噪声文本流畅度不高的问题,实现在基于迭代方式定位与噪声词注入攻击基础上,加入了生成噪声流畅度优化算法,使得生成的噪声文本更加符合正确语法与人类阅读习惯。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本申请涉及一种句子噪声生成设备010包括如图1所示:至少一个处理器012、存储器011。
处理器012可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器012中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器012可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器011,处理器012读取存储器011中的信息,结合其硬件完成上述方法的步骤。
可以理解,本发明实施例中的存储器011可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器、可编程只读存储器、可擦除可编程只读存储器、电可擦除可编程只读存储器或闪存。易失性存储器可以是随机存取存储器,其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器、动态随机存取存储器、同步动态随机存取存储器、双倍数据速率同步动态随机存取存储器、增强型同步动态随机存取存储器、同步连接动态随机存取存储器和直接内存总线随机存取存储器。本发明实施例描述的系统和方法的存储器011旨在包括但不限于这些和任意其它适合类型的存储器。
参照图2,图2为本发明句子噪声设计方法的第一实施例,所述方法包括:
步骤S110:对原始文本进行预处理,生成第一噪声文本。
原始文本可以是预加载语料库中的文本,也可以是任意语料库中的文本,在此不作限定。
预处理可以是在原始文本生成第一噪声文本以前进行的准备过程。
第一噪声文本可以是在原始文本中加入噪声词后形成的文本,第一噪声文本同时提供第一噪声文本中噪声词的位置信息,以便后续进行流畅度处理。
步骤S120:基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本。
预加载语料库可以是任意一个语料库,根据具体应用来指定,在此不作限定。
句子结构相似度可以是两个句子的句子结构的相似度。例如第一噪声文本的句子的结构是代词+动词+代词+名词结构,则在预加载语料库中找到与第一噪声文本结构相似的文本。
流畅度优化处理主要从词性与词形方面进行优化,当执行过流畅度优化处理过程的第一噪声文本符合预设条件,则令执行过流畅度优化处理过程的第一噪声文本为第二噪声文本。
预设条件可以是预先设定的条件,可以根据具体应用具体设置,在此不作限定。
步骤S130:采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。
其中深度学习模型用来对所述第二噪声文本进行预测,可以采用基于BERT,LSTM,CNN等深度学习领域的预测模型,在本实施例中采用的是BERT预测模型,所述深度学习模型在此不限定,可以是其他具有预测功能的深度学习模型。
若预测值与采用深度学习模型对原始文本的预测值不同的情况,说明对第二噪声文本进行流畅度优化处理后,第二噪声文本的流畅度发生变化。将更加符合正常语义与语法的第二噪声文本输出为目标文本。
在本实施例中存在的有益效果:对原始文本进行预处理,生成第一噪声文本;该步骤主要是生成一个相对粗糙的文本噪声,其文本的流畅度不高,该步骤为后续进行流畅度优化提供噪声词的位置信息。对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;该步骤经过流畅度优化后,生成流畅度佳的第二噪声文本,其中流畅度优化使得第二噪声文本在语义和语法上符合正常的语句,同时保证第二噪声文本读起来更加合理。采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。该步骤是对第二噪声是否符合目标结果的判断条件,保证目标结果符合文本流畅度。本发明解决了噪声文本流畅度不高的问题,实现在基于迭代方式定位与噪声词注入攻击基础上,加入了生成噪声流畅度优化算法,使得生成的噪声文本更加符合正确语法与人类阅读习惯。
参照图3,图3为本发明句子噪声设计方法第一实施例中步骤S110的具体实施步骤,所述对原始文本进行预处理,生成第一噪声文本,包括:
步骤S111:计算原始文本中每个词的概率值;
先通过计算原始文本的预测标签值以及预测概率,计算原理可以是先将句子处理变为张量,利用下述公式计算概率值:
P(xi)表示文本属于标签i的概率,n为标签的数目,i,j表示分类标签,x表示句子的张量,xi和xj分别表示张量x在位置标签i和位置标签j上的值。
步骤S112:基于所述概率值,获得每个词的重要度;
基于所述概率值通过遍历的方式依次计算每个词的重要度,重要度的计算公式如下:
I=P(xi)-P(xi')
xi为原始文本的张量,xi'表示去掉某词后文本的张量,P(xi)表示文本xi属于标签i的概率,P(xi')表示文本xi'同样属于标签i的概率。
步骤S113:基于所述重要度,获得所述重要度大于第一预设阈值的候选词;
当重要度I越来越大时,表示该词越重要。
经过上述遍历计算与过滤的方式得到一组数[I1,I2,I3,……],首先需要过滤掉I小于0的词,然后对重要度执行归一化处理,将重要度大于第一预设阈值的词作为需要进行噪声替换和注入的词。其中所述第一预设阈值可以为0.5,也可以是其他值,根据具体数据动态调整,在此不作限定。
步骤S114:使用噪声词替换所述候选词,生成所述第一噪声文本;其中噪声词为利用余弦相似度计算方法在同义词词典中获得的所述候选词的同义词。
将所述候选词进行噪声注入,从而生成第一噪声文本。
噪声词的获取可以采用余弦相似度计算方法进行相似度计算,也可以使用其他的相似度计算方法,在此不作限定。其中可以设置相似度阈值与候选词数目来获取指定的噪声词,根据相似度的值降序排列,当相似度大于相似度阈值,且在候选词数目范围内,则选定为噪声词。可以设置相似度阈值为0.5,候选词数目为100,即以降序的方式,找到100个相似度最高且相似度都大于0.5的值,当找到的词数目不足100时,以实际找到的词数为准。相似度阈值也可以是其他的值,在此不作限定。
在上述实施例中存在的有益效果:本实施例具体给出对原始文本进行预处理,生成第一噪声文本的具体实施步骤,保证第一噪声文本生成的正确性,为后续进行流畅度优化处理提供正确的数据支持,从而保证第二噪声文本的正确输出。
参照图4,图4为本发明句子噪声设计方法第一实施例中步骤S120的具体实施步骤,所述利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,包括:
步骤S121:获得预设数量个所述句子结构相似度大于第二预设阈值的相似句子结构文本。
比如获得预加载语料库中句子结构相似度最相近的500条句子,相似度相同时按照句子长度由长到短筛选,在所得到的1500(500*3)条句子里面再次取相似度前500的句子,其中数值3表示三种滑动窗口长度。
所述第二预设阈值可以是预先设定的阈值,用来判断句子结构相似度是否满足条件,可以根据具体情况动态调整,在此不作限定。
步骤S122:获得所述相似句子结构文本中与所述第一噪声文本的噪声词对应位置的对应词。
获得所述相似句子结构文本中与所述第一噪声文本的噪声词对应位置的对应词可以获取相似句子结构文本中噪声词的位置信息,为后续进行噪声词的替换提供对应位置,正确获取位置信息,保证替换位置的正确,从而保证流畅度优化处理的正确。
步骤S123:基于第一预设规则对所述对应词进行词形标注以及词性标注。
根据第一预设规则对相似句子结构文本中的对应词进行词形标注以及词性标注。
词形变化指同一单词在不同语境下,由于人称、时态和语态差异而使用不同的形式;这是出于表达意义的需要而使用词形变化。
词性是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。
其中标注的过程可以使用经过训练所得的机器学习模型进行自动标注。
步骤S124:基于预设的统计方法对所述对应词的词形及词性进行统计,以获得所述第一噪声文本的噪声词位置的确定词形及确定词性。
统计上述500条句子对应噪声词的词性以及词形,采用投票的方式,得到最符合的噪声词的词性以及词形,然后依次对原始噪声文本中的噪声词进行修改。其中基于预设的统计方法可以是利用机器学习模型进行投票,也可以是其他基于统计的预设方法,在此不作限定。
步骤S125:使用所述对应词中与确定词形及确定词性相同的词,替换所述第一噪声文本中的噪声词,生成流畅度优化后的噪声文本。
将对应词中与确定词形及确定词性相同的词用来替换第一噪声文本中的噪声词,从而生成流畅度优化后的噪声文本,流畅优化后的噪声文本要经过再判断,才能判定是否可以作为目标结果输出。
在本实施例中存在的有益效果:本实施例具体给出对所述第一噪声文本执行流畅度优化处理的具体实施步骤,规范流畅度优化处理流程,保证流畅度优化后的噪声文本符合语义和语法,更加符合人类的阅读习惯。
参照图5,图5为本发明句子噪声设计方法中步骤S121的具体实施步骤,所述基于自适应滑动窗口计算噪声文本与预加载语料库中的文本之间句子结构相似度,包括:
步骤S1211:根据所述第一噪声文本的长度设置滑动窗口的长度,并根据第二预设规则截取所述第一噪声文本的索引区间。
根据噪声文本的长度自适应的设置滑动窗口的长度,所述滑动窗口的长度即所需截取的字符串的长度。
步骤S1212:计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度。
根据句子结构相似度的计算公式进行计算,如图6所示为句子结构相似度计算流程图。
在其中一个实施例中,所述计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度的计算公式包括:
Sim=V×UT
其中,U表示所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的词性比较向量;V表示所述预加载语料库中的文本中词的权重向量。
句子结构相似度的计算,采用配置不同权重的方式,权重的配置与每个词和噪声词之间的距离有关,距离越近,其权重配置越大,反之越小。
如图7所示为句子结构相似度计算示例,假设滑动窗口为4,
噪声文本Snoise=[‘I’,‘like’,‘this’,‘movie’],
样例文本Ssample=[‘He’,‘loves’,‘this’,‘game’],
权重矩阵配置为V=[0.2,0.5,0.2,0.1],噪声词为like。根据词性结构解析,这两条句子都为代词+动词+代词+名词结构,两个样本词性结构一样,因此得到词性对比矩阵U=[1,1,1,1]。
根据上述公式,针对图7所示噪声文本与样例文本,其句子结构相似度为:[0.2,0.5,0.2,0.1]*[1,1,1,1]T=0.2*1+0.5*1+0.2*1+0.1*1=1。
参照图8,图8为本发明句子噪声设计方法第一实施例中步骤S120的另一具体实施步骤,所述获得流畅度符合预设条件的第二噪声文本,包括:
步骤S121':基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测;
在信息论中,困惑度(perplexity)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。低困惑度的概率分布模型或概率模型能更好地预测样本。
步骤S122':当所述流畅度优化后的噪声文本的所述困惑度小于第三预设阈值,则令所述流畅度优化后的噪声文本为第二噪声文本。
第三预设阈值可以根据具体应用具体设定,在此不作限定。若困惑度小于第三预设阈值,说明所述流畅度优化噪声文本得到正确的流畅度优化处理,可以满足基本满足语义与语法的正确。
在本实施例中存在的有益效果为:本实施例具体给出获得流畅度符合预设条件的第二噪声文本的具体实施步骤,保证第二噪声文本具有合格的流畅度,使第二噪声文本更加符合人的阅读习惯。
在其中一个实施例中,所述获得流畅度符合预设条件的第二噪声文本,还包括:
当所述困惑度大于所述第三预设阈值时,重新对所述第一噪声文本执行流畅度优化处理。
在本实施例中,提供了在当困惑度大于第三预设阈值,说明当前流畅度优化噪声文本的流畅度不符合预设条件,则重新对第一噪声文本执行流畅度优化处理。
在本实施例中存在的有益效果:本实施例使得本发明的方法更加全面,使得获得的第二噪声文本质量更高。
在其中一个实施例中,所述基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测的步骤中利用交叉熵损失函数计算所述困惑度的公式,包括:
其中,Jt表示LSTM中某一时刻t的交叉熵损失函数,L表示输入样本的大小,即输入文本中词向量大小;yt,j表示在t时刻时样本j处词的实际输出概率;表示在t时刻时样本j处词的期望输出概率;T为时刻总数;J为交叉熵损失误差;Pperplexity为困惑度。
参照图9,图9为本发明句子噪声设计方法第一实施例中步骤S130的具体实施步骤,所述采用深度学习模型对所述第二噪声文本进行预测,包括:
步骤S131:获得所述第二噪声文本对应的词向量、句子向量以及词位置向量。
词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
句子向量主要研究如何有效地从词嵌入通过不同方式的组合得到句子表示,可以采用以下四种方法中的至少一种:神经词袋模型、递归神经网络、循环神经网络以及卷积神经网络。
词位置向量可以是标识句子中词的位置信息的向量,可以帮助识别句子结构。
步骤S132:将所述词向量、所述句子向量以及所述词位置向量叠加后作为所述深度学习模型的输入。
将三个向量叠加后作为深度学习模型的输入,叠加的方式可以是直接叠加,也可以将三个向量经过其他的运算,比如加权叠加等。
步骤S133:获得所述深度学习模型的所述预测值。
如图10所示为本发明句子噪声设计方法的预测流程示意图。
首先需要训练好一个BERT模型,然后加载该模型进行预测:输入实际上是上面词向量,句子向量,位置向量三个嵌入的叠加。词向量即表示文本中单个单词。句子向量对于句子整体而言,不同句子的项不同。位置向量表示句子中单词的位置信息,单词在不同位置中含义是存在差异的。然后输入到BERT预测模型中计算,输出预测值。
在本实施例中存在的有益效果为:本实施例具体给出采用深度学习模型对所述第二噪声文本进行预测的实施步骤,保证预测结果的正确性,从而保证目标结果输出的正确性。
参照图11,图11为本发明句子噪声设计方法的第二实施例,所述方法,还包括:
步骤S210:对原始文本进行预处理,生成第一噪声文本。
步骤S220:对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本。
步骤S230:采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。
步骤S240:若预测值与采用深度学习模型对原始文本的预测值的相同,则重新执行所述第一噪声文本的生成过程。
预测值与采用深度学习模型对原始文本的预测值的相同,说明流畅度优化处理效果不佳,重新执行第一噪声文本的生成过程。
与第一实施例相比,第二实施例包括步骤S240。其他步骤和第一实施例相同,不再赘述。
在本实施例中存在的有益效果为:本实施例提供了当预测值与采用深度学习模型对原始文本的预测值的相同情况下的处理步骤,保证了目标结果的质量。
在其中一个实施例中,所述第一预设规则,包括以下至少一种:
语言规则、词典映射形式和语法知识。
所述第一预设规则可以根据具体语言的情况来具体设定,可以根据对应语言的语言规则、词典映射形式以及语法知识来对词形以及词性进行标注。
在其中一个实施例中,所述根据第二预设规则截取所述第一噪声文本的索引区间包括:
[iw-k,iw+(L'-k-1)] 0≤k<iw
定义滑动窗口长度值为L',L'属于[L-2,L],L为所述第一噪声文本的句子长度,噪声词w在噪声文本的索引为iw,iw>1,噪声词的左步长为k,k表示截取噪声文本最左边的词离噪声词的距离。
首先根据噪声文本的长度自适应地设置滑动窗口长度,所谓滑动窗口长度即我们需要截取的字符串的长度。定义句子长度为L(建议L最大值为64),则设定滑动窗口长度区间为[L-2,L],而且取这一区间中的所有整数,即L,L-1,L-2。
在本实施例中存在的有益效果为:本实施例具体给出根据第二预设规则截取所述第一噪声文本的索引区间的实施步骤,保证获得一定数量的相似结构的句子,从而保证对应词的确定词形及确定词性的正确,保证流畅度优化处理的正确性。
参照图12,图12为本发明句子噪声设计方法的流程示意图。
本发明还提供一种计算机存储介质,所述计算机存储介质上存储有句子噪声设计方法程序,所述句子噪声设计方法程序被处理器执行时实现上述任一所述的方法的步骤。
本发明还提供一种句子噪声生成设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的句子噪声设计方法程序,所述处理器执行所述句子噪声设计方法程序时实现上述任一所述的方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发
明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种句子噪声设计方法,其特征在于,所述方法包括:
对原始文本进行预处理,生成第一噪声文本;
基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;
采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。
2.如权利要求1所述的句子噪声设计方法,其特征在于,所述对原始文本进行预处理,生成第一噪声文本,包括:
计算原始文本中每个词的概率值;
基于所述概率值,获得每个词的重要度;
基于所述重要度,获得所述重要度大于第一预设阈值的候选词;
使用噪声词替换所述候选词,生成所述第一噪声文本;其中噪声词为利用余弦相似度计算方法在同义词词典中获得的所述候选词的同义词。
3.如权利要求1所述的句子噪声设计方法,其特征在于,所述利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,包括:
获得预设数量个所述句子结构相似度大于第二预设阈值的相似句子结构文本;
获得所述相似句子结构文本中与所述第一噪声文本的噪声词对应位置的对应词;
基于第一预设规则对所述对应词进行词形标注以及词性标注;
基于预设的统计方法对所述对应词的词形及词性进行统计,以获得所述第一噪声文本的噪声词位置的确定词形及确定词性;
使用所述对应词中与所述确定词形及所述确定词性相同的词,替换所述第一噪声文本中的噪声词,生成流畅度优化后的噪声文本。
4.如权利要求1所述的句子噪声设计方法,其特征在于,所述基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,包括:
根据所述第一噪声文本的长度设置滑动窗口的长度,并根据第二预设规则截取所述第一噪声文本的索引区间;
计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度。
5.如权利要求4所述的句子噪声设计方法,其特征在于,所述计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度的计算公式包括:
Sim=V×UT
其中,U表示所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的词性比较向量;V表示所述预加载语料库中的文本中词的权重向量。
6.如权利要求3所述的句子噪声设计方法,其特征在于,所述获得流畅度符合预设条件的第二噪声文本,包括:
基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测;
当所述流畅度优化后的噪声文本的所述困惑度小于第三预设阈值,则令所述流畅度优化后的噪声文本为第二噪声文本。
7.如权利要求6所述的句子噪声设计方法,其特征在于,所述获得流畅度符合预设条件的第二噪声文本,还包括:
当所述困惑度大于所述第三预设阈值时,重新对所述第一噪声文本执行流畅度优化处理。
9.如权利要求1所述的句子噪声设计方法,其特征在于,所述采用深度学习模型对所述第二噪声文本进行预测,包括:
获得所述第二噪声文本对应的词向量、句子向量以及词位置向量;
将所述词向量、所述句子向量以及所述词位置向量叠加后作为所述深度学习模型的输入;
获得所述深度学习模型的所述预测值。
10.如权利要求1所述的句子噪声设计方法,其特征在于,所述方法,还包括:
若预测值与采用深度学习模型对原始文本的预测值的相同,则重新执行所述第一噪声文本的生成过程。
11.如权利要求3所述的句子噪声设计方法,其特征在于,所述第一预设规则,包括以下至少一种:
语言规则、词典映射形式和语法知识。
12.如权利要求4所述的句子噪声设计方法,其特征在于,所述根据第二预设规则截取所述第一噪声文本的索引区间包括:
[iw-k,iw+(L'-k-1)] 0≤k<iw
定义滑动窗口长度值为L',L'属于[L-2,L],L为所述第一噪声文本的句子长度,噪声词w在噪声文本的索引为iw,iw>1,噪声词的左步长为k,k表示截取噪声文本最左边的词离噪声词的距离。
13.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有句子噪声设计方法程序,所述句子噪声设计方法程序被处理器执行时实现权利要求1-12任一所述的方法的步骤。
14.一种句子噪声生成设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的句子噪声设计方法程序,所述处理器执行所述句子噪声设计方法程序时实现权利要求1-12任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110051556.3A CN112380845B (zh) | 2021-01-15 | 2021-01-15 | 句子噪声设计方法、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110051556.3A CN112380845B (zh) | 2021-01-15 | 2021-01-15 | 句子噪声设计方法、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380845A CN112380845A (zh) | 2021-02-19 |
CN112380845B true CN112380845B (zh) | 2021-04-09 |
Family
ID=74581829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110051556.3A Active CN112380845B (zh) | 2021-01-15 | 2021-01-15 | 句子噪声设计方法、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380845B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011164B (zh) * | 2021-03-17 | 2023-10-20 | 平安科技(深圳)有限公司 | 数据质量检测方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170681A (zh) * | 2018-01-15 | 2018-06-15 | 中南大学 | 文本情感分析方法、系统及计算机可读存储介质 |
US20200159924A1 (en) * | 2018-11-15 | 2020-05-21 | International Business Machines Corporation | Protecting a machine learning model |
CN111539194A (zh) * | 2020-03-24 | 2020-08-14 | 华东理工大学 | 一种医疗文本结构化算法的可用度评估方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324233B (zh) * | 2011-08-03 | 2014-05-07 | 中国科学院计算技术研究所 | 汉语语音识别中重复出现词识别错误的自动修正方法 |
CN109117482B (zh) * | 2018-09-17 | 2021-07-06 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN110378474A (zh) * | 2019-07-26 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 对抗样本生成方法、装置、电子设备和计算机可读介质 |
CN111046176B (zh) * | 2019-11-25 | 2023-04-07 | 百度在线网络技术(北京)有限公司 | 对抗样本生成方法、装置、电子设备及存储介质 |
CN111160568B (zh) * | 2019-12-27 | 2021-04-06 | 北京百度网讯科技有限公司 | 机器阅读理解模型训练方法、装置、电子设备和存储介质 |
CN111382837B (zh) * | 2020-02-05 | 2023-07-18 | 鹏城实验室 | 一种基于深度乘积量化的对抗样本生成方法 |
CN111444346B (zh) * | 2020-03-31 | 2023-04-18 | 广州大学 | 一种用于文本分类的词向量对抗样本生成方法及装置 |
CN111507093A (zh) * | 2020-04-03 | 2020-08-07 | 广州大学 | 一种基于相似字典的文本攻击方法、装置及存储介质 |
CN111652267B (zh) * | 2020-04-21 | 2023-01-31 | 清华大学 | 对抗样本的生成方法、装置、电子设备及存储介质 |
-
2021
- 2021-01-15 CN CN202110051556.3A patent/CN112380845B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170681A (zh) * | 2018-01-15 | 2018-06-15 | 中南大学 | 文本情感分析方法、系统及计算机可读存储介质 |
US20200159924A1 (en) * | 2018-11-15 | 2020-05-21 | International Business Machines Corporation | Protecting a machine learning model |
CN111539194A (zh) * | 2020-03-24 | 2020-08-14 | 华东理工大学 | 一种医疗文本结构化算法的可用度评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112380845A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7031101B2 (ja) | 方法、システムおよび有形コンピュータ可読デバイス | |
Badjatiya et al. | Attention-based neural text segmentation | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111666409B (zh) | 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法 | |
US11941361B2 (en) | Automatically identifying multi-word expressions | |
Gildea et al. | Human languages order information efficiently | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113672731B (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
CN112380845B (zh) | 句子噪声设计方法、设备及计算机存储介质 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN114091448A (zh) | 文本对抗样本生成方法、系统、计算机设备和存储介质 | |
CN111324831A (zh) | 一种欺诈网站的检测方法及装置 | |
JP6127778B2 (ja) | モデル学習方法、モデル学習プログラム及びモデル学習装置 | |
Long | The construction of machine translation model and its application in English grammar error detection | |
CN115861995A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
Yuan et al. | Personalized sentence generation using generative adversarial networks with author-specific word usage | |
Mahafdah et al. | Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination. | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
Muaidi | Levenberg-Marquardt learning neural network for part-of-speech tagging of Arabic sentences | |
CN113886559A (zh) | 针对黑盒文本分类模型的对抗文本生成方法、系统及介质 | |
CN112183117B (zh) | 一种翻译评价的方法、装置、存储介质及电子设备 | |
CN113158675B (zh) | 基于人工智能的实体抽取方法、装置、设备及介质 | |
Nikiforova et al. | Language Models for Cloze Task Answer Generation in Russian |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |