CN113282746B - 一种网络媒体平台变体评论对抗文本生成方法 - Google Patents

一种网络媒体平台变体评论对抗文本生成方法 Download PDF

Info

Publication number
CN113282746B
CN113282746B CN202010791900.8A CN202010791900A CN113282746B CN 113282746 B CN113282746 B CN 113282746B CN 202010791900 A CN202010791900 A CN 202010791900A CN 113282746 B CN113282746 B CN 113282746B
Authority
CN
China
Prior art keywords
word
variant
words
text
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010791900.8A
Other languages
English (en)
Other versions
CN113282746A (zh
Inventor
刘春�
刘峥
殷茗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010791900.8A priority Critical patent/CN113282746B/zh
Publication of CN113282746A publication Critical patent/CN113282746A/zh
Application granted granted Critical
Publication of CN113282746B publication Critical patent/CN113282746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种新型网络媒体平台变体评论对抗文本生成方法,在总结新型网络媒体平台常用的变体文本变体规则基础上,首先对分类标注文本进行特征词提取;然后对特征词分别进行了基于各种规则的变体词汇生成,并在此基础上进行了基于变体规则的变体文本生成;接着通过word2vec词向量方法对标注文本进行训练获得各词汇的词向量,并根据词向量得到各词汇的相似词列表,实现基于神经网络词向量的变体文本生成;最后通过概率随机化方法实现了组合变体规则和词向量相似词的变体文本生成方法。本发明能够生成海量不同形式变体文本,能够对抗常规文本过滤,具有较高的逼真度。

Description

一种网络媒体平台变体评论对抗文本生成方法
技术领域
本发明涉及一种自然语言处理评论文本生成技术领域,具体为一种网络媒体平台变体评论对抗文本生成方法。
背景技术
网络媒体平台,如抖音、快手、网易云音乐等每天产生数以亿计用户评论,其中不乏部分不良用户为避免审查通过同音同形等变体方法产生的垃圾评论。这些具有负面情绪或者不良隐喻的变体垃圾评论严重污染了网络环境,对平台使用者造成了消极影响,分析并正确识别这些变体垃圾评论对于平台健康发展具有重要意义。
现有的变体垃圾文本分类方法主要包括两类,一类是基于变体词识别和规范化的方法,通过提取变体词特征识别出文本变体词,并确定对应的目标实体词进行文本规范化,然后对规范化的文本使用常用文本分类方法进行分类。文献[沙灜,梁棋,王斌.中文变体词的识别与规范化综述[J].信息安全学报,2016,1(03):77-87.]对当前的变体词识别和规范化技术进行了总结,总结了包括缩写、语音替换和汉字拆分组合等9类变体词生成方法,并对各种变体特征提取以及识别与解析流程进行了分析。文献[陈儒,张宇,刘挺.面向中文特定信息变异的过滤技术研究[J].高技术通讯,2005,15(9):7-12.]总结了5种网络文本变换方法,并提出了结合压缩编码思想的WM算法进行变体词从模糊到精确的匹配识别。另一类是基于深度神经网络的方法,利用词向量嵌入结合深度学习语言模型特征向量表达实现变体文本特征的自动学习,通过大规模变体文本训练学习,基于深度神经网络的变体文本分类方法能够实现变体垃圾文本的正确分类。文献[Liang B,Li H,Su M,et al.Deep TextClassification Can be Fooled[J].2017.]验证了通过对训练文本使用插入、修正和删除等操作进行文本增强能够有效提高基于字符和基于词语的深度神经网络DNN分类器性能。
基于特征提取的变体文本分类方法受限于变体规则的多样性和网络新词的不断涌现,无法达到较高的分类精度。而基于深度神经网络的变体文本分类方法存在的问题是需要大量变体文本训练数据。
发明内容
针对基于深度神经网络的文本分类方法变体文本训练数据不足导致变体文本分类精度不高的问题,本发明通过变体文本规则分析,利用自然语言处理的特征词提取、词序列随机化、词向量和文本生成技术实现不同形式的变体对抗文本生成。
本发明基本原理是:
在总结网络媒体平台常用的变体文本变体规则基础上,首先对分类标注文本进行特征词提取;然后对特征词分别进行了基于各种规则的变体词汇生成,并在此基础上进行了基于变体规则的变体文本生成;接着通过word2vec词向量方法对标注文本进行训练获得各词汇的词向量,并根据词向量得到各词汇的相似词列表,实现基于神经网络词向量的变体文本生成;最后通过概率随机化方法实现了组合变体规则和词向量相似词的变体文本生成方法。
本发明的技术方案为:
所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:包括以下步骤:
步骤1:标注文本特征词提取:
对于标注文本中的词语t,计算t对于标注类别集合S中各个类别的卡方检测子,以最大的卡方检测子值为词语t的卡方值;
对标注文本中的所有词语计算卡方值,并对卡方值进行排序,选择卡方值最大的k个词为标注文本的特征词;
步骤2:基于规则的变体词汇和变体文本生成:包括基于单个词语的变体文本生成和基于文本整体的变体文本生成;
所述基于单个词语的变体文本生成是针对特征词或设定的敏感词进行变体;
所述基于文本整体的变体文本生成是针对文本整体进行变体;
步骤3:基于词向量相似词的变体文本生成:
所述基于词向量相似词的变体文本生成属于基于单个词语的变体文本生成方式;
通过输入大量文本进行CBOW神经网络词向量模型训练得到各个词语的嵌入向量,计算词汇对应嵌入向量余弦距离得到词语之间的相似度,按照相似度进行排序,并在设定的阈值下得到词语的相似词,从而能够建立相似词列表,并通过词语查找替换实现基于词向量相似词的变体文本生成;
步骤4:基于概率随机的组合变体文本生成:
设定文本进行基于单个词语的变体生成以及进行基于文本整体的变体生成的先验概率为P1和P2,然后分别对这两种变体类别设计变体选择概率分布进行组合变体文本生成。
进一步的,步骤1中,通过公式
Figure GDA0004167311600000031
计算词语t与标注类别集合S中的某个类别c的卡方检测子χ2(t,c),其中类别c包含词语t的文本条数为A,非类别c包含词语t的文本条数为B,类别c不包含词语t的文本条数为C,非类别c不包含词语t的文本条数为D。
进一步的,步骤2中,所述基于单个词语的变体文本生成中的变体方式包括词语变拼音、词语变emoji符号、词语拆字、词语简体变繁体、词语插入标点符号、词语插入emoji符号、词语插入数字、词语数字汉字变换、词语同音同形变换、词语缩写和词语乱序11种类型。
进一步的,所述基于单个词语的变体文本生成中的变体方式分为四类,第一类是将词语变拼音、词语变emoji符号、词语数字汉字变换、词语拆字、词语简体变繁体、词语缩写;第二类是在词语插入标点符号、词语插入emoji符号和词语插入数字;第三类是词语同音同形变换;第四类是词语乱序;
其中第一类变体方式,建立词语和变体词语的字典,通过查字典实现变体转换;
对于第二类变体方式,采用随机插入实现变体转换;
对于第三类变体方式,先对音近形近进行度量,并确定音近形近候选字体集合,然后建立同音同形字体转移概率矩阵,最后按照转移概率矩阵进行变体词语生成;
对于第四类变体方式,采用洗牌算法实现变体转换。
进一步的,步骤2中,对于第二类变体方式,采用随机插入实现变体转换的过程为:若词语为c1c2…cM,共M个字,则在词语前后位置共M+1个位置可插入;实现随机插入时,首先以1/2概率从{0,1}中随机选择生成一个长度M+1的序列,然后在序列值为1的地方插入单个特殊字符;
对于第四类变体方式,采用洗牌算法实现变体转换的过程为:若词语为c1c2…cM,共M个字,则洗牌算法每次从{1,2,…,M}中随机选择一个数字p并将p从{1,2,…,M}中删除,以此类推将每次选出的数字按顺序输出p1p2…pM,由此将词语变体为
Figure GDA0004167311600000043
进一步的,步骤2中,对于第三类变体方式,实现变体转换的过程为:
对于词语中的某个字x,分别计算其他字与其形近相似度与音近相似度,若某字z与字x的相似度sxz高于阈值T,则认为字z为字x的相似度为sxz的音近形近字,由此可得到字x的音近形近字集合Sx
其中字x与字z的相似度由形近相似度和音近相似度相乘得到;
所述形近相似度通过以下过程得到:
若字x的笔顺编码为x1x2…xm,字体结构为ux,笔画数为vx,字y的笔顺编码为y1y2…yn,字体结构为uy,笔画数为vy,则字x和字y的形近相似度定义为笔顺编码、笔画数和字体结构距离的加权组合:笔顺编码相似度s1定义为1-edit(x1x2…xm,y1y2…yn)/max(m,n),edit(.)为编辑距离;笔画数相似度s2定义为1-|vx-vy|/max(m,n);字体结构相似度s3定义为σ(|ux-uy|),σ(|.|)为冲激函数;字x和字y最终的形近相似度s=w1s1+w2s2+w3s3
所述音近相似度通过判断两个字拼音的声母以及韵母是否符合设定的音近标准,如果符合,则两个字的音近相似度为1,否则为0;
得到字x的音近形近字集合Sx后,根据Sx中各字与x的相似度可得x的变体概率转移向量
Figure GDA0004167311600000044
其中字x变体至集合Sx中的字z的概率为
Figure GDA0004167311600000041
分别计算词语中各个字的概率转移向量可得到最终的音近形近变体概率转移矩阵P;进行变体生成时,对于词语的各个字按照公式
Figure GDA0004167311600000042
概率转移关系进行变体转换。
进一步的,所述基于文本整体的变体文本生成中的变体方式包括插入标点符号、插入emoji符号和插入数字;当进行其中一种特定类型字符插入的变体文本生成时,先列出特殊字符集合U,然后进行多次字符随机插入操作。
进一步的,步骤3中所述CBOW神经网络词向量模型为三层神经网络模型,包括输入层,隐藏层和输出层三层;对CBOW神经网络词向量模型进行训练的过程为:首先统计输入文本中所有词汇及频次,并建立n-gram词汇组;根据词汇表和频次得到各个词语的独热向量(0,0,…,1,…,0,0);对于c(t)而言,以其余词语的独热向量作为输入向量,输入向量乘以输入-嵌入网络权重W并累加得到其嵌入向量表示,嵌入向量经过嵌入-输出网络的softmax层可得到实际的输出向量,输出向量与词语c(t)的独热向量的差值为模型的输出误差;CBOW模型的目标就是通过调节权重W使得所有n-gram词汇的输出误差和最小,最终输入-嵌入网络权重W的每一行即为各个对应词汇的嵌入向量。
进一步的,步骤4中,所述变体选择概率分布采用高斯函数离散化分布:
对于按J种变体方式组合的情况,选择半径为(J-1)/2的一维高斯核密度(p1,p2,…,pJ),根据变体文本可能发生的概率与高斯核密度进行对应,得到设计的变体方式选择概率分布
Figure GDA0004167311600000051
有益效果
本发明定性来说:能够生成海量不同形式变体文本,能够对抗常规文本过滤,具有较高的逼真度,
而定量上考虑:
通过对800万条视频评论文本标注数据进行变体文本生成,标注文本包含“黑”和“白”两类。首先根据标注类别进行卡方检测特征词提取,确定出类别“黑”的3万个特征词。然后对于单一类型的变体文本生成,分别建立了汉字拼音、汉字emoji符号、汉字拆字、汉字简繁体、数字形态转换字典,并建立了标点符号、emoji符号、数字、特殊符号列表;使用CBOW模型训练词向量模型时,窗口半径设为2,嵌入词向量维数为200,确定近义词时相似度阈值T设置为0.85,由此确定了3万个特征词的近义词集合。如图3列出了文本“哇哦,造飞机,太帅了,点赞”按照各种变体类型生成的变体文本,图4列出了文本“同学,比个心,可以加你微信吗”按照各种变体类型生成的变体文本;进行组合方式的变体文本生成时,基于文本整体的变体文本生成选择概率设置为0.3,基于词汇的变体文本生成选择概率设置为0.5,如图3最后两行列出了文本按照组合方式生成的变体文本。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1:本发明提出的变体文本生成方法流程;
图2:CBOW词向量模型;
图3:单一方式和组合方式生成变体文本结果;文本内容为“哇哦,造飞机,太帅了,点赞”;
图4:单一方式和组合方式生成变体文本结果;文本内容为“同学,比个心,可以加你微信吗”;
图5:基于词汇的变体方式;
图6:基于文本整体的变体方式。
具体实施方式
下面详细描述本发明的实施例,所述实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明在总结网络媒体平台常用的变体文本变体规则基础上,首先对分类标注文本进行特征词提取;然后对特征词分别进行了基于各种规则的变体词汇生成,并在此基础上进行了基于变体规则的变体文本生成;接着通过word2vec词向量方法对标注文本进行训练获得各词汇的词向量,并根据词向量得到各词汇的相似词列表,实现基于神经网络词向量的变体文本生成;最后通过概率随机化方法实现了组合变体规则和词向量相似词的变体文本生成方法。具体流程如图1所示。
1.标注文本特征词提取
变体文本一般倾向于对文本关键词进行同音同形等变体处理,因此为实现变体文本增强,首先需要根据文本类别标注结果进行特征词提取。这里采用卡方检验方法进行特征词提取。对于词语t和类别c,卡方检验通过构建词语与类别相关性的统计检测子χ2来判断词语与类别的相关性。若χ2越小,则词语和类别相互独立,词语t不是类别c的特征词;反之,若χ2超过一定的值,则词语t是类别c的特征词。若类别c包含词语t的文本条数为A,非类别c包含词语t的文本条数为B,类别c不包含词语t的文本条数为C,非类别c不包含词语t的文本条数为D,则词语t和类别c的卡方检测子为
Figure GDA0004167311600000071
对于标注文本中的词语t,若标注类别集合为S,计算t对于S中各个类别的卡方检测子,以最大的χ2(t,c)值为词语t的χ2值。对标注文本所有词语计算卡方值,并对卡方值进行排序,选择χ2值最大的k个词为特征词。
2.基于规则的变体词汇和变体文本生成
网络媒体平台评论文本具有长度短,随意性高,表情符号多等特点。常用的基于规则的变体文本包括两类,一类是对特征词或敏感词进行变体,另外一类是对文本整体进行变体。基于词汇的变体方式包括词语变拼音、词语变emoji符号、词语拆字、词语简体变繁体、词语插入标点符号、词语插入emoji符号、词语插入数字、词语数字汉字变换、词语同音同形变换、词语缩写和词语乱序11种类型。基于文本整体的变体方式包括文本随机插入标点、文本随机插入数字、文本随机插入emoji符号3种类型。下面分别对各种变体类型进行举例并说明其变体文本生成算法。
2.1基于单个词语的变体文本生成
基于词汇的11种变体方式可以分为四类,第一类是将词语变拼音、词语变emoji符号、词语数字汉字变换、词语拆字、词语简体变繁体、词语缩写;第二类是在词语插入标点符号、词语插入emoji符号和词语插入数字;第三类是词语同音同形变换;第四类是词语乱序。图5列出了各种变体方式的实例及变体实现方式。
其中第一类变体词语的实现方式主要是建立词语和变体词语的字典,通过查字典实现变体转换;第二类变体词语的实现方式主要是随机插入,若词语为c1c2…cM共M个字,则包括词语前后位置共M+1个位置可插入,实现随机插入时,首先以1/2概率从{0,1}中随机选择生成一个长度M+1的序列,然后在序列值为1的地方插入单个特殊字符;第四类通过洗牌算法将词语包含字体打乱顺序,若词语为c1c2…cM共M个字,则洗牌算法每次从{1,2,…,M}中随机选择一个数字p并将p从{1,2,…,M}中删除,以此类推将每次选出的数字按顺序输出p1p2…pM,由此将词语变体为cp1cp2…cpM;第三类变体对于词语同音同形变换,首先需要对音近形近进行度量,并确定音近形近候选字体集合,然后建立同音同形字体转移概率矩阵;最后按照转移概率矩阵进行变体词语生成。
对于同音同形字,通过字体编码结构来度量字体的形近相似度。若字x的笔顺编码为x1x2…xm,字体结构为ux,笔画数为vx,字y的笔顺编码为y1y2…yn,字体结构为uy,笔画数为vy,则字x和字y的形近相似度定义为笔顺编码、笔画数和字体结构距离的加权组合。笔顺编码相似度s1定义为1-edit(x1x2…xm,y1y2…yn)/max(m,n),edit(.)为编辑距离。笔画数相似度s2定义为1-|vx-vy|/max(m,n)。字体结构相似度s3定义为σ(|ux-uy|),σ(|.|)为冲激函数。字x和字y最终的形近相似度s=w1s1+w2s2+w3s3。通过字拼音声母韵母是否相似度量字的音近相似度,若两个字拼音的声母和韵母相同或相似,则认为字音近相似度s为1,否则为0,这里声母和韵母的相似,指发音相似,如声母中的b与p,d与t,在实现时可以预先设定好。对于字x,分别计算所有其他字与其形近相似度与音近相似度,若某字z与字x的相似度sxz高于阈值T,则认为字z为字体x的相似度为sxz的音近形近字,由此可得到字体x的音近形近字集合Sx,其中相似度sxz可以取字体z与字体x的形近相似度与音近相似度之积;根据Sx中各字与x的相似度可得x的变体概率转移向量
Figure GDA0004167311600000091
字x变体至字z的概率为
Figure GDA0004167311600000092
分别计算词语中各个字的概率转移向量可得到最终的音近形近变体概率转移矩阵P。进行变体生成时,对于词语的各个字按照公式(3)的概率转移关系进行变体转换,即字体x有α概率不变,而变换至集合Sx中字体z的概率为(1-α)p(x,z)。
Figure GDA0004167311600000093
例如对词语“微信”进行同音同形变体时,首先对“微”字进行变体,确定“微”字的音近形近字集合Sx为{薇,嶶,徽,溦,徵,威},然后按照公式(3)进行转移;然后对“信”字进行变体,确定“信”的音近形近字集合Sy为{倍,狺,心,鑫,新},同样按照公式(3)进行转移,由此得到“微信”可能转化的变体词集合{薇信,嶶信,徽信,溦信,徵信,威信,微心,微鑫,微新,…}。
2.2基于文本整体的变体文本生成
图6列出了三种基于文本整体的变体方式的实例及变体实现方式。基于文本整体的三种变体方式生成方法相同,与基于词汇的插入方法差异在于插入更具有随机性,两个字之间可以插入任意多的符号,因此其生成方法与基于词汇的插入变体生成方法不同。
进行某一特定类型字符插入的变体文本生成时,首先列出特殊字符集合U,然后进行多次字符随机插入操作。执行单次插入操作时,若文本表示为c1c2…cN共N个字,词语前后位置共N+1个位置可插入,实现随机插入时,首先以1/2概率从{0,1}中随机选择生成一个长度N+1的序列,然后在序列值为1的地方插入从U中随机选择的单个特殊字符。此时文本表示为d1d2…dK共K个字,为实现字间插入多个特殊字符,重复执行单次插入操作l次。
举例在文本中插入标点符号,若文本为“又来个同学”,则第一次插入变体文本为“又,来个.同*学^”。第二次插入变体为“.又,来,个.同*.学^”。
3.基于词向量相似词的变体文本生成
除了基于规则的变体文本生成,另一种常用的变体文本生成方式通过近义词替换实现。常用的近义词可通过建立近义词词典进行转换,但对于网络媒体平台而言,由于网络用语的随意化以及网络新词的不断涌现,通过手动建立近义词词典方式无法保证实时性,因此需要通过评论文本统计分析进行近义词的发掘。近义词的特点是通常具有相同或相似的上下文,词语的这种上下文相似可通过建立统计模型确定词语词向量嵌入实现。这里采用CBOW(Continuous Bag-of-Words)神经网络词向量模型进行词向量的学习,如图2,CBOW模型为三层神经网络模型,包括输入层,隐藏层和输出层三层。首先统计输入文本中所有词汇及频次,并建立n-gram词汇组,图2中为n为5时的输入输出示意图;根据词汇表和频次得到各个词语的独热向量(0,0,…,1,…,0,0),对于c(t)而言,以其余词语的独热向量作为输入向量,输入向量乘以输入-嵌入网络权重W并累加可得到其嵌入向量表示,嵌入向量经过嵌入-输出的softmax层可得到实际的输出向量,输出向量与c(t)的独热向量的差值为模型的输出误差。CBOW模型的目标就是通过调节权重W使得所有n-gram词汇组输出误差和最小,最终输入-嵌入网络权重W的每一行即为各个对应词汇的嵌入向量。
输入大量文本进行CBOW词向量模型训练得到各个词语的嵌入向量,计算词汇对应嵌入向量余弦距离可得到词语之间的相似度,按照相似度进行排序在设定的阈值下可确定词语的相似词,如“加油”的相似词为“打call,点赞,打气,比心,粉丝”。结合词向量建立相似词列表,并通过词语查找替换可实现基于词向量相似词的变体文本生成。
4.基于概率随机的组合变体文本生成
实际中的变体文本不仅包含单一变体形式,可能为多种变体的组合,因此需要按照一定的策略进行变体方式的组合生成。若同时对文本进行J种变体,变体方式结合为(F1,F2,…,FJ),其中Fj表示第j种变体方式,则一种最简单的组合策略是按均匀分布概率对文本进行随机变体方式选择,即第j种变体方式选择的概率为1/J。实际情况中,不同变体方式生成的变体文本发生的概率不尽相同,因此按均匀分布进行变体组合选择并不合理,这里选择高斯函数离散化分布进行变体方式的选择。对于按J种变体方式组合的情况,选择半径为(J-1)/2的一维高斯核密度(p1,p2,…,pJ),根据变体文本可能发生的概率与高斯核密度进行对应,得到设计的变体方式选择概率分布
Figure GDA0004167311600000111
考虑到变体生成方式同时包括基于词汇和基于文本整体两类。分别对文本进行两类变体方式的选择,分别设定文本进行基于词汇的变体(类别1)和基于文本整体(类别2)的变体生成先验概率为P1和P2,然后根据变体子类组合方式分别对类别1和类别2设计变体子类选择概率分布进行组合变体文本生成。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种网络媒体平台变体评论对抗文本生成方法,其特征在于:包括以下步骤:
步骤1:标注文本特征词提取:
对于标注文本中的词语t,计算t对于标注类别集合S中各个类别的卡方检测子,以最大的卡方检测子值为词语t的卡方值;
对标注文本中的所有词语计算卡方值,并对卡方值进行排序,选择卡方值最大的k个词为标注文本的特征词;
步骤2:基于规则的变体词汇和变体文本生成:包括基于单个词语的变体文本生成和基于文本整体的变体文本生成;
所述基于单个词语的变体文本生成是针对特征词或设定的敏感词进行变体;
所述基于文本整体的变体文本生成是针对文本整体进行变体;
所述基于文本整体的变体文本生成中的变体方式包括插入标点符号、插入emoji符号和插入数字;当进行其中一种特定类型字符插入的变体文本生成时,先列出特殊字符集合U,然后进行多次字符随机插入操作;
步骤3:基于词向量相似词的变体文本生成:
所述基于词向量相似词的变体文本生成属于基于单个词语的变体文本生成方式;
通过输入大量文本进行CBOW神经网络词向量模型训练得到各个词语的嵌入向量,计算词汇对应嵌入向量余弦距离得到词语之间的相似度,按照相似度进行排序,并在设定的阈值下得到词语的相似词,从而能够建立相似词列表,并通过词语查找替换实现基于词向量相似词的变体文本生成;
步骤4:基于概率随机的组合变体文本生成:
设定文本进行基于单个词语的变体生成以及进行基于文本整体的变体生成的先验概率为P1和P2,然后分别对这两种变体类别设计变体选择概率分布进行组合变体文本生成;
所述变体选择概率分布采用高斯函数离散化分布:
对于按J种变体方式组合的情况,选择半径为(J-1)/2的一维高斯核密度(p1,p2,...,pJ),根据变体文本可能发生的概率与高斯核密度进行对应,得到设计的变体方式选择概率分布
Figure FDA0004167311590000021
2.根据权利要求1所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:步骤1中,通过公式
Figure FDA0004167311590000022
计算词语t与标注类别集合S中的某个类别c的卡方检测子X2(t,c),其中类别c包含词语t的文本条数为A,非类别c包含词语t的文本条数为B,类别c不包含词语t的文本条数为C,非类别c不包含词语t的文本条数为D。
3.根据权利要求1所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:步骤2中,所述基于单个词语的变体文本生成中的变体方式包括词语变拼音、词语变emoji符号、词语拆字、词语简体变繁体、词语插入标点符号、词语插入emoji符号、词语插入数字、词语数字汉字变换、词语同音同形变换、词语缩写和词语乱序11种类型。
4.根据权利要求3所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:所述基于单个词语的变体文本生成中的变体方式分为四类,第一类是将词语变拼音、词语变emoji符号、词语数字汉字变换、词语拆字、词语简体变繁体、词语缩写;第二类是在词语插入标点符号、词语插入emoji符号和词语插入数字;第三类是词语同音同形变换;第四类是词语乱序;
其中第一类变体方式,建立词语和变体词语的字典,通过查字典实现变体转换;
对于第二类变体方式,采用随机插入实现变体转换;
对于第三类变体方式,先对音近形近进行度量,并确定音近形近候选字体集合,然后建立同音同形字体转移概率矩阵,最后按照转移概率矩阵进行变体词语生成;
对于第四类变体方式,采用洗牌算法实现变体转换。
5.根据权利要求4所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:
步骤2中,对于第二类变体方式,采用随机插入实现变体转换的过程为:若词语为c1c2…cM,共M个字,则在词语前后位置共M+1个位置可插入;实现随机插入时,首先以1/2概率从{0,1}中随机选择生成一个长度M+1的序列,然后在序列值为1的地方插入单个特殊字符;
对于第四类变体方式,采用洗牌算法实现变体转换的过程为:若词语为c1c2...cM,共M个字,则洗牌算法每次从{1,2,...,M}中随机选择一个数字p并将p从{1,2,...,M}中删除,以此类推将每次选出的数字按顺序输出p1p2...pM,由此将词语变体为
Figure FDA0004167311590000032
6.根据权利要求4所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:
步骤2中,对于第三类变体方式,实现变体转换的过程为:
对于词语中的某个字x,分别计算其他字与其形近相似度与音近相似度,若某字z与字x的相似度sxz高于阈值T,则认为字z为字x的相似度为sxz的音近形近字,由此可得到字x的音近形近字集合Sx
其中字x与字z的相似度由形近相似度和音近相似度相乘得到;
所述形近相似度通过以下过程得到:
若字x的笔顺编码为x1x2...xm,字体结构为ux,笔画数为vx,字y的笔顺编码为y1y2...yn,字体结构为uy,笔画数为vy,则字x和字y的形近相似度定义为笔顺编码、笔画数和字体结构距离的加权组合:笔顺编码相似度s1定义为1-edit(x1x2...xm,y1y2...yn)/max(m,n),edit(.)为编辑距离;笔画数相似度s2定义为1-|vx-vy|/max(m,n);字体结构相似度s3定义为σ(|ux-uy|),σ(|.|)为冲激函数;字x和字y最终的形近相似度s=w1s1+w2s2+w3s3
所述音近相似度通过判断两个字拼音的声母以及韵母是否符合设定的音近标准,如果符合,则两个字的音近相似度为1,否则为0;
得到字x的音近形近字集合Sx后,根据Sx中各字与x的相似度可得x的变体概率转移向量
Figure FDA0004167311590000033
其中字x变体至集合Sx中的字z的概率为
Figure FDA0004167311590000031
分别计算词语中各个字的概率转移向量可得到最终的音近形近变体概率转移矩阵P;进行变体生成时,对于词语的各个字按照公式
Figure FDA0004167311590000041
概率转移关系进行变体转换。
7.根据权利要求1所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:步骤3中所述CBOW神经网络词向量模型为三层神经网络模型,包括输入层,隐藏层和输出层三层;对CBOW神经网络词向量模型进行训练的过程为:首先统计输入文本中所有词汇及频次,并建立n-gram词汇组;根据词汇表和频次得到各个词语的独热向量(0,0,…,1,…,0,0);对于c(t)而言,以其余词语的独热向量作为输入向量,输入向量乘以输入-嵌入网络权重W并累加得到其嵌入向量表示,嵌入向量经过嵌入-输出网络的softmax层可得到实际的输出向量,输出向量与词语c(t)的独热向量的差值为模型的输出误差;CBOW模型的目标就是通过调节权重W使得所有n-gram词汇的输出误差和最小,最终输入-嵌入网络权重W的每一行即为各个对应词汇的嵌入向量。
CN202010791900.8A 2020-08-08 2020-08-08 一种网络媒体平台变体评论对抗文本生成方法 Active CN113282746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010791900.8A CN113282746B (zh) 2020-08-08 2020-08-08 一种网络媒体平台变体评论对抗文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010791900.8A CN113282746B (zh) 2020-08-08 2020-08-08 一种网络媒体平台变体评论对抗文本生成方法

Publications (2)

Publication Number Publication Date
CN113282746A CN113282746A (zh) 2021-08-20
CN113282746B true CN113282746B (zh) 2023-05-23

Family

ID=77275591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010791900.8A Active CN113282746B (zh) 2020-08-08 2020-08-08 一种网络媒体平台变体评论对抗文本生成方法

Country Status (1)

Country Link
CN (1) CN113282746B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688630B (zh) * 2021-08-31 2023-09-12 中国平安人寿保险股份有限公司 文本内容审核方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009150591A1 (en) * 2008-06-11 2009-12-17 Koninklijke Philips Electronics N.V. Method and device for the generation of a topic-specific vocabulary and computer program product
CN107315734A (zh) * 2017-05-04 2017-11-03 中国科学院信息工程研究所 一种基于时间窗口和语义的变体词规范化的方法和系统
CN109241523A (zh) * 2018-08-10 2019-01-18 北京百度网讯科技有限公司 变体作弊字段的识别方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996358B2 (en) * 2012-05-25 2015-03-31 International Business Machines Corporation Entity variant generation and normalization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009150591A1 (en) * 2008-06-11 2009-12-17 Koninklijke Philips Electronics N.V. Method and device for the generation of a topic-specific vocabulary and computer program product
CN107315734A (zh) * 2017-05-04 2017-11-03 中国科学院信息工程研究所 一种基于时间窗口和语义的变体词规范化的方法和系统
CN109241523A (zh) * 2018-08-10 2019-01-18 北京百度网讯科技有限公司 变体作弊字段的识别方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Context-Aware entity morph decoding;Boliang Zhang等;《Association for Computational Linguistics(ACL)》;20151231;586-595 *
中文变体词的识别与规范化综述;沙瀛等;《信息安全学报》;20160731;77-87 *
基于字词联合的变体词规范化研究;施振辉等;《计算机系统应用》;20171015(第10期);31-37 *
基于深度学习的仿冒域名生成工具;邹可欣等;《电子技术应用》;20200706(第07期);114-118 *

Also Published As

Publication number Publication date
CN113282746A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN109766432B (zh) 一种基于生成对抗网络的中文摘要生成方法和装置
CN110489760A (zh) 基于深度神经网络文本自动校对方法及装置
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111259151B (zh) 一种混合文本敏感词变体识别方法和装置
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN110826298B (zh) 一种智能辅助定密系统中使用的语句编码方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN107797987A (zh) 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN108563725A (zh) 一种中文症状体征构成识别方法
Khatun et al. Authorship Attribution in Bangla literature using Character-level CNN
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
Giridharan et al. Identification of Tamil ancient characters and information retrieval from temple epigraphy using image zoning
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN113282746B (zh) 一种网络媒体平台变体评论对抗文本生成方法
CN111581377B (zh) 文本分类方法、装置、存储介质及计算机设备
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant