CN111324744B - 一种基于目标情感分析数据集的数据增强方法 - Google Patents
一种基于目标情感分析数据集的数据增强方法 Download PDFInfo
- Publication number
- CN111324744B CN111324744B CN202010095397.2A CN202010095397A CN111324744B CN 111324744 B CN111324744 B CN 111324744B CN 202010095397 A CN202010095397 A CN 202010095397A CN 111324744 B CN111324744 B CN 111324744B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- words
- module
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于目标情感分析数据集的数据增强方法,包括采集目标领域内的数据集;对文本进行分词处理得到对应的单词序列,用全词掩盖方法掩盖待增强文本中的非情感表达的单词与待训练文本中的随机单词;将预处理后的待训练文本输入语言模型BERT进行训练,BERT对文本中每个单词对应的隐藏状态计算其概率分布及损失,相加所有被掩盖单词的损失并把其反向传播更新BERT的参数至模型收敛;把预处理后的待增强文本输入收敛后的BERT中,随机采样单词出现概率作为新目标,用其替换文本中的目标,得到增强后的新样本。本发明能预测出更符合语境的单词,从而得到基于目标情感分析任务的数据增强后的新样本。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于目标情感分析数据集的数据增强方法。
背景技术
在自然语言数据处理领域,有人提出基于上下文的数据增强方法是给定需要进行替换的单词对应的上下文,它使用一个语言模型去预测一个新的单词用于替换,通过使用一个双向的长短期记忆网络来构建语言模型,把目标单词两边位置经过双向长短期记忆网络后的输出进行拼接,并让其经过前馈神经网络,用Softmax函数来得到目标位置的单词在词典上的概率分布,最后根据给定的概率视乎需要从整个词典或前若干个最可能的词范围中随机抽样得到最终预测出的词,替换掉原本的单词来生成新的样本。传统的语言模型在对单词进行预测时,本身不会带有特定的情感倾向,这会有新样本的标签被改变的危险。为了保证产生的新样本不会改变原样本的标签,把传统的语言模型转化为“基于标签的语言模型,在双向语言模型的前馈神经网络层中拼接上样本标签的嵌入,使得输出的单词能同时考虑上下文信息和标签信息。如此,语言模型预测出的词就能带有标签相对应的情感信息,保证了新样本的标签不会改变。为了保证语言模型的质量,论文先在一个较大的语料数据集上不使用标签信息来进行双向长短期记忆网络语言模型的预训练,然后才在具体的有标签数据集上使用标签信息继续进行训练。
这个方法在对语言模型进行建模的时候,主要使用了双向长短期记忆网络。使用这种网络主要有四个缺点:其一是长短期记忆网络在处理较长的输入时依然无法保证信息的长期保存,距离较远的信息可能无法被较好地编码;其二是双向长短期记忆网络在本质上还是两个不同方向的单向长短期记忆网络拼接而成的,在建模时不能很好地利用两个方向上的语义信息;其三是长短期记忆网络不能进行并行运算,必须按顺序对输入逐步处理,这使得它的计算效率受到限制;其四是这种网络难以进行多层堆叠,信息抽取能力受限。
还有人提出BERT(Bidirectional Encoder Representations fromTransformers)模型来进行实验文本的数据增强。由于BERT模型主体由多层新的网络结构Transformer堆叠而成,并且在预训练阶段使用了新的预训练任务“掩盖语言模型(MaskedLanguage Model)”,它能够获取到深层的双向语义表示,比传统的语言模型效果好很多,它使用BERT模型作为基础的语言模型,把BERT模型在词嵌入层的“分割嵌入(SegmentEmbedding)”改造成“标签嵌入(Label Embedding)”,用直接相加的形式在词嵌入层就引入标签信息。它先让BERT在更大规模的语料上进行预训练,然后再在有标签的数据集上使用掩盖语言模型任务进行微调直到收敛。
第二个方法主要适用于传统的对单个句子输入进行情感分析的数据集,主要原因有二:其一是此方法假定整句话的输入有一个统一的情感标签,由此才能设定相应的类别嵌入,但实际上在这个数据集里,一句话可能会对不同的“目标”表达不同的情感,因此无法设定一个合适的类别嵌入来满足需求。另外,此方法在挑选替换词时没有进行特别针对,而是随机选择单词进行替换,结合上一点,这会导致我们无法准确预知增强得到的样本的标签,可能会出现不慎修改样本标签的情况;其二是此方法要求在数据集上进行掩盖语言模型任务的微调,但我们针对的数据集规模很小,不足以支持掩盖语言模型任务的训练,此外BERT本身主要是使用维基百科的文本来进行预训练的,而我们的数据集则是专门针对笔记本的评论进行收集的,二者的领域不一样,这更是加大了在我们数据集上进行掩盖语言模型任务的微调的难度,最终无法得到一个强大的语言模型,从而预测单词的性能也会受到影响。此外,由于此方法把BERT模型在词嵌入层的“分割嵌入”改造成“标签嵌入”,而BERT原本的“分割嵌入”只有两类,在面对标签不止两类的数据集时,此方法需要修改模型的结构,并重新对嵌入层进行训练,会更加麻烦。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种基于目标情感分析数据集的数据增强方法。
本发明旨在至少在一定程度上解决上述技术问题。
为了达到上述技术效果,本发明的技术方案如下:
一种基于目标情感分析数据集的数据增强方法,包括:
S10预训练语言模型BERT:采集目标领域内的数据集预训练语言模型BERT;
S20对文本预处理:对待增强文本进行分词处理得到其对应的单词序列,从待增强文本的单词序列中挑选出非情感类单词作为目标,用全词掩盖方法掩盖目标;从待训练文本的单词序列中随机挑选单词用全词掩盖方法掩盖;
S30将预处理后的待训练文本输入预训练后的语言模型BERT进行训练,语言模型BERT对文本中每个单词根据其语义和位置对应的隐藏状态计算其概率分布及损失,相加所有被掩盖目标的损失得到文本总损失,把文本总损失反向传播更新语言模型BERT的参数至模型收敛;
S40把预处理后的待增强文本输入收敛后的语言模型BERT中,随机采样单词出现概率作为新目标,将新目标替换文本中的目标,得到增强后的新样本。
优选地,所述语言模型BERT包括:
分词模块,用于对输入的文本基于语义进行分词生成单词序列;
掩盖模块,用于从单词序列中挑选单词以用遮掩词掩盖;
词嵌入模块,用于对掩盖后的单词序列编码成神经网络能够识别的单词向量序列E且将其输入Transformer模块,其中每个单词对应的向量均包括语义信息和该单词在文本中的位置信息,被掩盖的非情感类词的语义信息用遮掩词代替;
Transformer模块,由多个Transformer网络堆叠而成,每个Transformer网络均采用了多头自注意力机制,每一个Transformer网络将单词向量序列E作为输入,其他Transformer网络的输入是前一个Transformer网络的输出,以获取单词向量序列E中每个单词以不同的权重注意单词向量序列中的所有单词,并对单词向量序列E中每个单词加权求和得到新单词向量序列H;
输出模块,用于根据其语义和位置对应的隐藏状态获取新单词向量序列H中每个单词在语言模型BERT词表中所分配的概率;
损失模块,用于根据被掩盖词的语义信息和其位置上每个单词的概率采用交叉熵计算在训练过程中每个被掩盖词的损失之和,再反向传播以更新网络参数;
采样模块,用于在增强阶段,随机采样输出模块输出概率的一个单词作为新目标;
替换模块,用于将新目标替换文本中的目标,得到增强后的新样本。
优选地,所述Transformer模块由12层Transformer网络堆叠而成,每层Transformer网络包括12头注意力模块,其词嵌入的维度与词嵌入模块的维度相等。
优选地,每层所述Transformer网络包括多头注意力模块、多头残差归一层、前馈神经网络及前馈残差归一层,词嵌入表示E输入多头注意力模块抽取文本特征,所抽取的文本特征输入多头残差归一层梯度传递至前馈神经网络,前馈神经网络对文本特征进行非线性变换后输入前馈残差归一层得到梯度输出的文本特征。
优选地,所述多头注意力模块包括N头子空间、拼接层和线性总层,其中每头子空间包括3个线性层和1个缩放点积注意力层,词嵌入层表示E分别输入每头子空间的3个线性层进行线性转换得到线性向量Q、线性向量K、线性向量V的投影,再把投影后的结果汇积到每个缩放点积注意力层计算得到一定角度提取的语义信息作为每头子空间的输出,拼接N头子空间所有的输出,再经过线性总层线性转换得到不同角度提取的最终语义信息,以作为多头注意力模块的输出。
优选地,所述输出模块包括线性层和激活层,新单词向量序列H经过线性层线性变换以使其维度与语言模型BERT的词表维度相当,输入激活层通过Softmax函数进行归一化,为词表中每一个单词分配一个概率。
优选地,所述词嵌入模块由单词嵌入、分割嵌入和位置嵌入相加得到,单词嵌入用于输入每个单词的语义信息,分割嵌入用于分段区分所输入的文本,位置嵌入用于输入每个单词的位置信息。
优选地,所述语言模型BERT采用在维基百科上的BERT-base版本。
优选地,所述S10包括:
S101使用爬虫爬取目标领域的评论语料且将其输入语言模型BERT训练至收敛,以得到具有目标领域知识的语言模型BERT;
S102将待增强文本处理为以非情感词为目标的目标情感文本,将其输入语言模型BERT迭代训练至收敛,以得到即具有目标领域知识又贴合待增强文本的文本分布特征的语言模型BERT。
优选地,所述S20具体包括:
S201从语料中随机选择一段文本,对这段文本根据空格或者标点进行分词,得到其对应的单词序列;
S202从待增强文本的单词序列中挑选出非情感类词作为掩盖目标;从待训练文本的单词序列中随机挑选单词;
S203从S202所挑选出的掩盖目标或单词按词根和词缀进行子词切分,用遮盖词分别对所切分的所有目标或单词的子词掩盖。
与现有技术相比,本发明技术方案的有益效果是:本发明先采集目标领域的大规模评论语料(数据集)预训练语言模型BERT,微调语言模型BERT让其学习到目标领域相关的知识,训练出一个掌握目标领域知识且熟悉待增强文本的BERT模型;再对待增强文本分词处理,目标掩盖,对待训练文本分词处理后随机挑选单词掩盖,并将预处理后的待训练文本输入语言模型BERT进行训练,进行一次掩盖语言模型任务训练至模型收敛,接着输入待增强文本至语言模型BERT从而得到基于目标的情感分析任务的数据增强后的样本。
附图说明
图1为本发明所述语言模型BERT在训练阶段的数据流图。
图2为本发明所述语言模型BERT在增强阶段的数据流图。
图3为本发明所述词嵌入模块的结构示意图。
图4为本发明所述语言模块BERT主体内部的数据流图。
图5为本发明所述Transformer网络的结构示意图。
图6为本发明所述多头注意力模块的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1-6所示,一种基于目标情感分析数据集的数据增强方法,包括:
S10预训练语言模型BERT:采集目标领域内的数据集预训练语言模型BERT;
S20对文本预处理:对待增强文本进行分词处理得到其对应的单词序列,从待增强文本的单词序列中挑选出非情感类单词作为目标,用全词掩盖方法掩盖目标;从待训练文本的单词序列中随机挑选单词用全词掩盖方法掩盖;
S30将预处理后的待训练文本输入预训练后的语言模型BERT进行训练,语言模型BERT对文本中每个单词根据其语义和位置对应的隐藏状态计算其概率分布及损失,相加所有被掩盖目标的损失得到文本总损失,把文本总损失反向传播更新语言模型BERT的参数至模型收敛;
S40把预处理后的待增强文本输入收敛后的语言模型BERT中,随机采样单词出现概率作为新目标,将新目标替换文本中的目标,得到增强后的新样本。
在本实施例中,本发明分为训练阶段及增强阶段,S10、S20和S30是训练阶段,S40是增强阶段。训练阶段的目的是训练出一个掌握目标领域知识且熟悉待增强文本的BERT模型;增强阶段的目的是利用训练阶段得到的语言模型BERT生成新样本,使用所生成的新样本用于任意模型训练,相比直接用原样本进行训练,使用新样本训练出的模型表现更优秀。本发明沿用语言模型BERT作为基础进行训练,它不但能够提取深层次的双向语义特征,还拥有高度可并化的特点,在提高语义表达能力的同时还提高了计算效率。本发明的目标通常为一个非情感类的名词或名词性短语,其内容不会影响输入文本表达的情感倾向。即,一个样本中句子对目标的情感倾向只与目标以外的单词相关,通过限定目标,保证了增强前后样本的标签不会发生变化,提高了增强得到的新样本的标签的准确度。同时,也避免了需要额外设置“标签嵌入”并对其重新进行训练的麻烦,可以直接在语言模型BERT的基础上训练,而不必对网络结构再进行修改,减少训练难度。
本发明采用目标领域内的数据集预训练语言模型BERT,得到即具有目标领域知识又贴合数据集文本分布特征的语言模型BERT,这样预测出来的单词也会更加贴切,在语义上与原句子的联系更加紧密;另一方面,通过这种方法来增强数据,有助于产生更多样化的“目标”,大大提高模型的泛化能力。
本发明专门针对文本的目标进行掩盖和替换,省去了标签信息的引入的同时还能保证增强出的样本标签不变。
优选地,所述语言模型BERT包括:
分词模块,用于对输入的文本基于语义进行分词生成单词序列;
掩盖模块,用于从单词序列中挑选单词以用遮掩词掩盖;
词嵌入模块,用于对掩盖后的单词序列编码成神经网络能够识别的单词向量序列E且将其输入Transformer模块,其中每个单词对应的向量均包括语义信息和该单词在文本中的位置信息,被掩盖的非情感类词的语义信息用遮掩词代替;
Transformer模块,由多个Transformer网络堆叠而成,每个Transformer网络均采用了多头自注意力机制,第一个Transformer网络将单词向量序列E作为输入,其他Transformer网络的输入是前一个Transformer网络的输出,以获取单词向量序列E中每个单词以不同的权重注意单词向量序列中的所有单词,并对单词向量序列E中每个单词加权求和得到新单词向量序列H;
输出模块,用于根据其语义和位置对应的隐藏状态获取新单词向量序列H中每个单词在语言模型BERT词表中所分配的概率;
损失模块,用于根据被掩盖词的语义信息和其位置上每个单词的概率采用交叉熵计算在训练过程中每个被掩盖词的损失之和,再反向传播以更新网络参数;
采样模块,用于在增强阶段,随机采样输出模块输出概率的一个单词作为新目标;
替换模块,用于将新目标替换文本中的目标,得到增强后的新样本。
优选地,所述Transformer模块由12层Transformer网络堆叠而成,每层Transformer网络包括12头注意力模块,其其词嵌入的维度与词嵌入模块的维度相等。
优选地,每层所述Transformer网络包括多头注意力模块、多头残差归一层、前馈神经网络及前馈残差归一层,词嵌入表示E输入多头注意力模块抽取文本特征,所抽取的文本特征输入多头残差归一层梯度传递至前馈神经网络,前馈神经网络对文本特征进行非线性变换后输入前馈残差归一层得到梯度输出的文本特征。
优选地,所述多头注意力模块包括N头子空间、拼接层和线性总层,其中每头子空间包括3个线性层和1个缩放点积注意力层,词嵌入层表示E分别输入每头子空间的3个线性层进行线性转换得到线性向量Q、线性向量K、线性向量V的投影,再把投影后的结果汇积到每个缩放点积注意力层计算得到一定角度提取的语义信息作为每头子空间的输出,拼接N头子空间所有的输出,再经过线性总层线性转换得到不同角度提取的最终语义信息,以作为多头注意力模块的输出。
优选地,所述输出模块包括线性层和激活层,新单词向量序列H经过线性层线性变换以使其维度与语言模型BERT的词表维度相当,输入激活层通过Softmax函数进行归一化,为词表中每一个单词分配一个概率。
优选地,所述词嵌入模块由单词嵌入、分割嵌入和位置嵌入相加得到,单词嵌入用于输入每个单词的语义信息,分割嵌入用于分段区分所输入的文本,位置嵌入用于输入每个单词的位置信息。
在本实施例中,本发明的语言模型BERT的分词模块、掩盖模块、词嵌入模块、Transformer模块、输出模块和损失模块用于完成训练阶段任务,通过输入的文本得到训练阶段的损失,从而进行反向传播,更新语言模型BERT的网络参数。
以“I like to use Windows because it is cool"这句话作为输入的文本,对每个模块具体说明如下:
1.分词模块。该模块负责使用BERT提供的分词工具对输入的文本基于空格、标点等进行分词,把输入的文本转化为对应的一个单词序列。
例如对输入文本进行分词得到:[“I”,“like”,“to”,“use”,“Windows”,“because”,“it”,“is”,“cool”]。
2.掩盖模块。该模块负责把上一步得到的单词序列中的一些单词进行掩盖,得到一个被掩盖的单词序列,用于后续的训练。其中,被掩盖的单词是随机挑选得到的,掩盖的具体方法是将该单词使用一个特殊的词“[MASK]”进行替换。对分词后的结果进行随机掩盖,得到:[“I”,“like”,“[MASK]”,“use”,“Windows”,“[MASK]”,“it”,“is”,“cool”]的结果。其中,原本的“to”和“because”这两个单词被掩盖了。
3.词嵌入模块。该模块负责把被掩盖的单词序列进行编码,把其转化成为神经网络能够识别的向量形式。其中,被掩盖的单词序列中的每个单词对应的向量,主要由两个因素决定:其一为单词本身的内容;其二为单词在这个序列中所处的位置。经过词嵌入模块的编码后,每个单词对应的向量同时具有单词的语义信息以及位置信息。例如,对上一步的结果进行编码,会得到每个单词对应的向量:[“EI_0”,“Elike_1”,“E[MASK]_2”,“Euse_3”,“EWindows_4”,“E[MASK]_5”,“Eit_6”,“Eis_7”,“Ecool_8”]。其中,下标左边的部分表示原单词,右边的部分表示位置编号。注意,两个“[MASK]”词经过编码后得到的是两个不一样的编码“E[MASK]_2”和“E[MASK]_5”。
4.Transformer模块。该模块负责使用多个堆叠的Transformer网络结构来对上一步得到的单词向量进行编码。其中,第一个Transformer以上一步的单词向量作为输入,其他Transformer的输入都是前一个Transformer的输出。Transformer网络内部主要使用了多头自注意力机制(Multi-Head Self-Attention),每一个单词都以不同的权重去注意序列中的所有词,把他们加权求和得到新的向量。多个Transformer模块堆叠,能够充分学习单词之间的关系,最终得到更好的向量表示。使用H表示经过整个Transformer模块后得到的向量,有:[“HI_0”,“Hlike_1”,“H[MASK]_2”,“Huse_3”,“HWindows_4”,“H[MASK]_5”,“Hit_6”,“His_7”,“Hcool_8”]。
5.输出模块。该模块负责根据上一步编码得到的向量H去计算每个被掩盖的位置上的词表中每个单词的概率分布(没被掩盖的位置则无需计算)。其中,对于任一个被掩盖的位置上的向量(例如H[MASK]_2),该模块首先让其经过线性层,把其维度变为词表大小,再用Softmax函数进行归一化,得到词表里每一个词的概率分布。例如,我们可能得到:[“I”,“like”,“[MASK]”,“use”,“Windows”,“[MASK]”,“it”,“is”,“cool”]这个序列中的第一个“[MASK]”的位置有90%的可能性是“to”,10%的可能性是其他词(并非真实概率,只用于举例说明)。
6.损失模块。该模块负责根据被掩盖的词原本的内容与其位置上词表中单词的概率分布去计算训练过程中的损失,用于网络的训练。训练中具体使用的是交叉熵损失,计算出来的概率分布中原本的单词的概率越大,则损失越小。针对每一个被掩盖的词计算出一个损失,而最终的损失为每个被掩盖的词的损失之和。例如,上面的例子中,训练过程的损失应该由“H[MASK]_2”和“H[MASK]_5”这两个向量分别对应的概率分布计算得到,从而反向传播,更新语言模型BERT的网络参数。
本发明的语言模型BERT的分词模块、掩盖模块、词嵌入模块、Transformer模块、输出模块、采样模块和替换模块完成增强阶段任务。随机采样输出模块的一个概率的单词作为新目标,和待增强文本和初始目标一起输入语言模型BERT,得到一个增强的新样本。
下面以文本“I love Windows 7which is better than Vista”,目标为“Vista”的一个样本为例对模块进行说明。
1.分词模块负责对文本与目标进行分词,其方法与训练阶段中一致。对文本进行分词得到对应的单词序列,例如:[“I”,“love”,“Windows”,“7”,“which”,“is”,“better”,“than”,“Vista”]。而“Vista”分词后仍为[“Vista”]。
2.掩盖模块负责对文本进行掩盖。与训练阶段不一致的是,本方案专门对文本中的目标进行掩盖。例如,由于目标是“Vista”,针对上一步得到的单词序列里的“Vista”进行掩盖,得到掩盖后的单词序列为[“I”,“love”,“Windows”,“7”,“which”,“is”,“better”,“than”,“[MASK]”]。
3.词嵌入模块与训练阶段一致,不再赘述。上一步中被掩盖的单词序列经过词嵌入模块编码可得每个单词对应的向量:[“EI_0”,“Elove_1”,“EWindows_2”,“E7_3”,“Ewhich_4”,“Eis_5”,“Ebetter_6”,“Ethan_7”,“E[MASK]_8”]。
4.Transformer模块与训练阶段一致。对上一步得到的词向量使用多层Transformer编码,最终得到:[“HI_0”,“Hlove_1”,“HWindows_2”,“H7_3”,“Hwhich_4”,“His_5”,“Hbetter_6”,“Hthan_7”,“H[MASK]_8”]。
5.输出模块与训练阶段一致,经过线性层和Softmax函数后,可得被掩盖的位置的词表中单词概率分布。例如,可能得到:[“I”,“love”,“Windows”,“7”,“which”,“is”,“better”,“than”,“[MASK]”]中的“[MASK]”位置上有40%的可能是词“XP”,30%的可能是词“7”,20%的可能是词“Vista”,10%的可能是其他词。
6.采样模块负责根据上一步中得到的概率进行随机采样,得到一个单词作为新的“目标”。例如,根据上面例子中的概率,采样得到单词“XP”作为新“目标”。
7.替换模块负责根据原有的文本、目标以及上一步采样的结果,把原文本中的目标替换成新的目标,形成新的样本。承接上面的例子,原文本为“I love Windows 7whichis better than Vista”,目标为“Vista”,该模块把“Vista”替换为“XP”,会得到文本为“Ilove Windows 7which is better than XP”,目标为“XP”的一个新样本。
优选地,所述语言模型BERT采用在维基百科上的BERT-base版本。
优选地,所述S10包括:
S101使用爬虫爬取目标领域的评论语料且将其输入语言模型BERT训练至收敛,以得到具有目标领域知识的语言模型BERT;
S102将待增强文本处理为以非情感词为目标的目标情感文本,将其输入语言模型BERT迭代训练至收敛,以得到即具有目标领域知识又贴合待增强文本的文本分布特征的语言模型BERT。
在本发明实施例中,本发明首先获取公开发布的BERT在维基百科上进行预训练后的模型(如使用BERT-base版本,它主要由12层Transformer网络堆叠而成,每个Transformer中使用了12个头的多头注意力(Multi-Head Attention),词嵌入的维度为768维,整个模型共有约1.1亿个参数)。
进一步地,通过爬虫抓取大量同领域的外部评论语料,使用一次掩盖语言模型任务的训练,让语言模型BERT在这些语料上训练至基本收敛。
进一步地,采用待增强文本输入语言模型BERT进行第二次掩盖语言模型任务的训练,让语言模型BERT在数据集上训练至基本收敛。本发明通过针对基于目标的情感分析任务的数据集进行数据增强,并允许句子中对两个目标表达不一致的情感,提高情感分析任务的细粒度。
优选地,所述S20具体包括:
S201从语料中随机选择一段文本,对这段文本根据空格或者标点进行分词,得到其对应的单词序列;
S202从待增强文本的单词序列中挑选出非情感类词作为掩盖目标;从待训练文本的单词序列中随机挑选单词;
S203从S202所挑选出的掩盖目标或单词按词根和词缀进行子词切分,用遮盖词分别对所切分的所有目标或单词的子词掩盖。
在本发明实施例中,本发明为了让模型更好地学习整体语义,我们采用了“全词掩盖(Whole-Word Masking)”技术。在根据空格或者标点分出完整的英语单词时,这种技术先随机选取若干需要掩盖的单词,再把它们切分成的子词全部掩盖。例如,先根据空格切分为['I','love','the','torchpad','of','macbook'],在随机挑选“torchpad”进行掩盖后,再做子词切分,最后得到['I','love','the','[MASK]','[MASK]','of','mac','##book']。在保持被掩盖的子词数不变的同时,模型能够对“torchpad”这一整体进行学习,从而更好地提升语义表达能力。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种基于目标情感分析数据集的数据增强方法,其特征在于,包括:
S10预训练语言模型BERT:采集目标领域内的数据集预训练语言模型BERT;
S20对文本预处理:对待增强文本进行分词处理得到其对应的单词序列,从待增强文本的单词序列中挑选出非情感类单词作为目标,用全词掩盖方法掩盖目标;从待训练文本的单词序列中随机挑选单词用全词掩盖方法掩盖;
所述语言模型BERT包括:
分词模块,用于对输入的文本基于语义进行分词生成单词序列;
掩盖模块,用于从单词序列中挑选单词以用遮掩词掩盖;
词嵌入模块,用于对掩盖后的单词序列编码成神经网络能够识别的单词向量序列E且将其输入Transformer模块,其中每个单词对应的向量均包括语义信息和该单词在文本中的位置信息,被掩盖的非情感类词的语义信息用遮掩词代替;
Transformer模块,由多个Transformer网络堆叠而成,每个Transformer网络均采用了多头自注意力机制,第一个Transformer网络将单词向量序列E作为输入,其他Transformer网络的输入是前一个Transformer网络的输出,以获取单词向量序列E中每个单词以不同的权重注意单词向量序列中的所有单词,并对单词向量序列E中每个单词加权求和得到新单词向量序列H;
输出模块,用于根据其语义和位置对应的隐藏状态获取新单词向量序列H中每个单词在语言模型BERT词表中所分配的概率;
损失模块,用于根据被掩盖词的语义信息和其位置上每个单词的概率采用交叉熵计算在训练过程中每个被掩盖词的损失之和,再反向传播以更新网络参数;
采样模块,用于在增强阶段,随机采样输出模块输出概率的一个单词作为新目标;
替换模块,用于将新目标替换文本中的目标,得到增强后的新样本;
所述S20具体包括:
S201从语料中随机选择一段文本,对这段文本根据空格或者标点进行分词,得到其对应的单词序列;
S202从待增强文本的单词序列中挑选出非情感类词作为掩盖目标;从待训练文本的单词序列中随机挑选单词;
S203从S202所挑选出的掩盖目标或单词按词根和词缀进行子词切分,用遮盖词分别对所切分的所有目标或单词的子词掩盖;
S30将预处理后的待训练文本输入预训练后的语言模型BERT进行训练,语言模型BERT对文本中每个单词根据其语义和位置对应的隐藏状态计算其概率分布及损失,相加所有被掩盖目标的损失得到文本总损失,把文本总损失反向传播更新语言模型BERT的参数至模型收敛;
S40把预处理后的待增强文本输入收敛后的语言模型BERT中,随机采样单词出现概率作为新目标,将新目标替换文本中的目标,得到增强后的新样本。
2.如权利要求1所述的基于目标情感分析数据集的数据增强方法,其特征在于,所述Transformer模块由12层Transformer网络堆叠而成,每层Transformer网络包括12头注意力模块,其词嵌入的维度与词嵌入模块的维度相等。
3.如权利要求2所述的基于目标情感分析数据集的数据增强方法,其特征在于,每层所述Transformer网络包括多头注意力模块、多头残差归一层、前馈神经网络及前馈残差归一层,词嵌入表示E输入多头注意力模块抽取文本特征,所抽取的文本特征输入多头残差归一层梯度传递至前馈神经网络,前馈神经网络对文本特征进行非线性变换后输入前馈残差归一层得到梯度输出的文本特征。
4.如权利要求3所述的基于目标情感分析数据集的数据增强方法,其特征在于,所述多头注意力模块包括N头子空间、拼接层和线性总层,其中每头子空间包括3个线性层和1个缩放点积注意力层,词嵌入层表示E分别输入每头子空间的3个线性层进行线性转换得到线性向量Q、线性向量K、线性向量V的投影,再把投影后的结果汇积到每个缩放点积注意力层计算得到一定角度提取的语义信息作为每头子空间的输出,拼接N头子空间所有的输出,再经过线性总层线性转换得到不同角度提取的最终语义信息,以作为多头注意力模块的输出。
5.如权利要求1所述的基于目标情感分析数据集的数据增强方法,其特征在于,所述输出模块包括线性层和激活层,新单词向量序列H经过线性层线性变换以使其维度与语言模型BERT的词表维度相当,输入激活层通过Softmax函数进行归一化,为词表中每一个单词分配一个概率。
6.如权利要求1所述的基于目标情感分析数据集的数据增强方法,其特征在于,所述词嵌入模块由单词嵌入、分割嵌入和位置嵌入相加得到,单词嵌入用于输入每个单词的语义信息,分割嵌入用于分段区分所输入的文本,位置嵌入用于输入每个单词的位置信息。
7.如权利要求1所述的基于目标情感分析数据集的数据增强方法,其特征在于,所述语言模型BERT采用在维基百科上的BERT-base版本。
8.如权利要求1所述的基于目标情感分析数据集的数据增强方法,其特征在于,所述S10包括:
S101使用爬虫爬取目标领域的评论语料且将其输入语言模型BERT训练至收敛,以得到具有目标领域知识的语言模型BERT;
S102将待增强文本处理为以非情感词为目标的目标情感文本,将其输入语言模型BERT迭代训练至收敛,以得到即具有目标领域知识又贴合待增强文本的文本分布特征的语言模型BERT。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095397.2A CN111324744B (zh) | 2020-02-17 | 2020-02-17 | 一种基于目标情感分析数据集的数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095397.2A CN111324744B (zh) | 2020-02-17 | 2020-02-17 | 一种基于目标情感分析数据集的数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111324744A CN111324744A (zh) | 2020-06-23 |
CN111324744B true CN111324744B (zh) | 2023-04-07 |
Family
ID=71165249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010095397.2A Active CN111324744B (zh) | 2020-02-17 | 2020-02-17 | 一种基于目标情感分析数据集的数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324744B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737996B (zh) * | 2020-05-29 | 2024-03-26 | 北京百度网讯科技有限公司 | 基于语言模型获取词向量的方法、装置、设备及存储介质 |
CN112328734B (zh) * | 2020-11-05 | 2024-02-13 | 中国平安人寿保险股份有限公司 | 生成文本数据的方法、装置和计算机设备 |
CN112307212A (zh) * | 2020-11-11 | 2021-02-02 | 上海昌投网络科技有限公司 | 一种用于广告投放的投放舆情监测方法 |
CN112883724A (zh) * | 2021-02-03 | 2021-06-01 | 虎博网络技术(上海)有限公司 | 文本数据增强处理方法、装置、电子设备和可读存储介质 |
CN113033410B (zh) * | 2021-03-26 | 2023-06-06 | 中山大学 | 基于自动数据增强的域泛化行人重识别方法、系统及介质 |
CN113255365A (zh) * | 2021-05-28 | 2021-08-13 | 湖北师范大学 | 文本数据增强方法、装置、设备及计算机可读存储介质 |
CN113220892A (zh) * | 2021-06-15 | 2021-08-06 | 苏州大学 | 基于bert的自适应文本分类方法及装置 |
CN113657093A (zh) * | 2021-07-12 | 2021-11-16 | 广东外语外贸大学 | 基于真实错误模式的语法纠错数据增强方法及装置 |
CN113723075B (zh) * | 2021-08-28 | 2023-04-07 | 重庆理工大学 | 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法 |
CN113705678B (zh) * | 2021-08-28 | 2023-04-28 | 重庆理工大学 | 利用词屏蔽数据增强与对抗学习的特定目标情感分析方法 |
CN113779959B (zh) * | 2021-08-31 | 2023-06-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 小样本文本数据混合增强方法 |
CN114357204B (zh) * | 2021-11-25 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 媒体信息的处理方法及相关设备 |
CN114462018B (zh) * | 2022-01-10 | 2023-05-30 | 电子科技大学 | 一种基于Transformer模型和深度强化学习的密码猜测系统及方法 |
CN114882430A (zh) * | 2022-04-29 | 2022-08-09 | 东南大学 | 一种基于Transformer的轻量化早期火灾检测方法 |
CN116756326B (zh) * | 2023-08-18 | 2023-11-24 | 杭州光云科技股份有限公司 | 情感和非情感文本特征分析判断方法、装置及电子设备 |
CN117312579B (zh) * | 2023-11-28 | 2024-02-06 | 一铭寰宇科技(北京)有限公司 | 一种数据模型搜索分析文本的生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103079117A (zh) * | 2012-12-30 | 2013-05-01 | 信帧电子技术(北京)有限公司 | 视频摘要生成方法和视频摘要生成装置 |
CN106559712A (zh) * | 2016-11-28 | 2017-04-05 | 北京小米移动软件有限公司 | 视频播放处理方法、装置及终端设备 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
CN110377739A (zh) * | 2019-07-19 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 文本情感分类方法、可读存储介质和电子设备 |
-
2020
- 2020-02-17 CN CN202010095397.2A patent/CN111324744B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103079117A (zh) * | 2012-12-30 | 2013-05-01 | 信帧电子技术(北京)有限公司 | 视频摘要生成方法和视频摘要生成装置 |
CN106559712A (zh) * | 2016-11-28 | 2017-04-05 | 北京小米移动软件有限公司 | 视频播放处理方法、装置及终端设备 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
CN110377739A (zh) * | 2019-07-19 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 文本情感分类方法、可读存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111324744A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111324744B (zh) | 一种基于目标情感分析数据集的数据增强方法 | |
Sun et al. | Token-level ensemble distillation for grapheme-to-phoneme conversion | |
Abandah et al. | Automatic diacritization of Arabic text using recurrent neural networks | |
Deng et al. | Use of kernel deep convex networks and end-to-end learning for spoken language understanding | |
CN112989834A (zh) | 一种基于平格增强线性转换器的命名实体识别方法和系统 | |
CN110619034A (zh) | 基于Transformer模型的文本关键词生成方法 | |
Xu et al. | Cross-domain and semisupervised named entity recognition in chinese social media: A unified model | |
Zhang et al. | Towards end-to-end speech recognition with deep multipath convolutional neural networks | |
Deng et al. | Self-attention-based BiGRU and capsule network for named entity recognition | |
Mukhamadiyev et al. | Development of language models for continuous Uzbek speech recognition system | |
Lin et al. | Towards multilingual end‐to‐end speech recognition for air traffic control | |
KR102574337B1 (ko) | Bert 언어 모델을 사용한 한국어 대화 기반 폭력 및 비폭력 상황 인식 방법 | |
Fenghour et al. | An effective conversion of visemes to words for high-performance automatic lipreading | |
Qin et al. | Improving low-resource Tibetan end-to-end ASR by multilingual and multilevel unit modeling | |
Yolchuyeva et al. | Self-attention networks for intent detection | |
Wang et al. | Investigation of using continuous representation of various linguistic units in neural network based text-to-speech synthesis | |
CN115906854A (zh) | 一种基于多级对抗的跨语言命名实体识别模型训练方法 | |
Amari et al. | Arabic speech recognition based on a CNN-BLSTM combination | |
Xie et al. | Automatic chinese spelling checking and correction based on character-based pre-trained contextual representations | |
Jayaraman et al. | Sarcasm Detection in News Headlines using Supervised Learning | |
Bekarystankyzy et al. | Automatic speech recognition improvement for Kazakh language with enhanced language model | |
Nazih et al. | Arabic Syntactic Diacritics Restoration Using BERT Models | |
Yolchuyeva | Novel NLP Methods for Improved Text-To-Speech Synthesis | |
Lin et al. | Siamese bert model with adversarial training for relation classification | |
Xu et al. | Continuous space discriminative language modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |