发明内容
本发明的目的在于提供一种基于BERT微调模型的评论目标情感分析,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于BERT微调模型的评论目标情感分析,包括BCR-CRF目标抽取模型和BCR-DA目标情感分类模型,其特征在于:所述BCR-DA目标情感分类模型分为在线课程评论情感分析、BCR-CRF目标抽取模型、BCR-DA目标情感分析模型和真实中文在线课程评论数据集上的实验结果;所述BCR-CRF目标抽取模型分析步骤如下:
第一步:基于大规模中文评论语料库进行域内无监督训练BERT预训练模型BCR;
第二步:引入Conditional Random Field层,简称CRF层,对BCR模型中语义表征层的输出序列添加语法约束,保证预测标签间依赖关系的合理性,准确抽取课程评论文本中的评论目标;
第三步:构建包含双注意力层的BCR-DA模型分类表达课程评论目标的情感极性;上注意力机制根据目标向量学习上下文向量分配注意力值,下注意力机制计算上下文中每个汉字对评论目标中某个汉字的重要程度,缓解上注意力层出现的信息丢失问题。
优选的,所述在线课程情感分析分为评论目标抽取、目标情感分析和预训练语言模型;
评论目标抽取可看作序列标注任务,是目标情感分析的基础,对评论目标进行随机抽取,并进行详细记录;
目标情感分析旨在获取目标实体情感极性,在评论目标在线课程结束后进行采集情感数据,并进行分析;
目前使用较为广泛的预训练模型有ULMFiT、OpenAI GPT、ELMo、BERT等BERT模型被广泛应用于阅读理解、情感分析、序列标注等诸多领域。
优选的,所述BCR-CRF中文在线课程评论目标抽取模型步骤为:输入编码层对预处理完成后的原始中文在线课程评论进行编码;语义表征层接收输入编码层输出的评论编码进行语义提取,并将其输入到CRF层进行联合建模,有效解决了原始BERT在中文在线课程评论目标抽取中存在的依赖性和相关性问题。
优选的,所述输入编码层采用与上下文有关的BCR动态字编码模型,不仅能够动态编码短句课程评论中某字在不同语境中的语义,而且也可以编码长句课程评论中各个分句间的逻辑关系,短句课程评论采用随机MASK评论语句中15%的汉字进行编码,其中,80%的几率用MASK替换;10%的几率用任意另外一个汉字替换;10%的几率保持原本语句不变,长句课程评论编码的具体做法是:在各个分句的起始位置添加特殊的SEP令牌,随机替换部分子句,通过模型中内嵌的二分类子模型判断各个分句间是否存在逻辑关系。
优选的,所述语义表征层由n个transformer编码单元构成,Transformer编码单元中最重要的部分是由多个自注意力机制构成的多头注意力模块,多头注意力模块通过计算课程评论语句中的每个汉字与句中其余汉字词的相互关系,为了解决传深度学习中的梯度消失问题和加速模型训练,Transformer编码单元还使用了shortcut connection和层归一化方法。
优选的,所述CRF在抽取在线课程评论文本目标时会严格限定输出的标签仅与上一级标签以及当前输入相关,BCR模型以整个句子作为上下文来抽取在线课程评论文本中的目标,但是状态转移条件的缺失使其可能输出一个完全错误的目标序列,将BCR模型的输出作为CRF的输入来实现在线课程评论文本目标抽取,既可以有效获取评论文本中目标的上下文信息,又能保证标签间依赖关系的合理性。
优选的,所述输入编码层对BCR-CRF目标抽取完成的课程评论目标及其上下文进行编码;语义表征层对输入编码层输出的目标编码和上下文编码分别进行语义提取,并将其输入到DA层捕获目标和上下文词之间的相互联系;最后,通过情感分类层对课程评论中所含目标对应的情感极性进行分类表达;
DA层采用双层注意力机制连接和融合来自目标和上下文的语义信息,为目标相关的情感特征提供更多的线索,上层注意力机制主要关注目标序列与上下文序列间的关系,下层注意力机制通过捕获目标序列和上下文序列内汉字级别交互的关键信息,解决上层注意力机制在处理多个汉字目标序列和长序列上下文时目标情感分析模型信息缺失的问题。
与现有技术相比,本发明的有益效果是:
本发明使用含有中文在线课程评论在内的评论语料库训练BERT预训练模型,得到更加适用于中文在线课程评论的目标抽取和目标情感分析下游任务的BCR预训练模型。
本发明提出一种BCR-CRF模型。该模型通过增加考虑标签之间的相邻关系的CRF层,对BCR模型语义表征层的输出序列添加语法约束,保证预测标签间依赖关系的合理性,实现中文在线课程评论目标抽取。
本发明提出一种BCR-DA模型。该模型使用包含上下两层的双注意力层微调预训练BCR模型,实现中文在线课程评论目标情感极性分类。上注意力层采用目标和上下文双向注意机制,有效解决了评论目标与上下文之间的交互问题。下注意力层通过描述汉字级交互,计算上下文中每个汉字对目标中的某个汉字的重要程度,缓解上注意力层在目标和上下文较长时出现的信息丢失问题。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参阅图1至图2,本发明提供的一种实施例:一种基于BERT微调模型的评论目标情感分析,包括BCR-CRF目标抽取模型和BCR-DA目标情感分类模型,其特征在于:所述BCR-DA目标情感分类模型分为在线课程评论情感分析、BCR-CRF目标抽取模型、BCR-DA目标情感分析模型和真实中文在线课程评论数据集上的实验结果;所述BCR-CRF目标抽取模型分析步骤如下:
第一步:基于大规模中文评论语料库进行域内无监督训练BERT预训练模型BCR;
第二步:引入Conditional Random Field层,简称CRF层,对BCR模型中语义表征层的输出序列添加语法约束,保证预测标签间依赖关系的合理性,准确抽取课程评论文本中的评论目标;
第三步:构建包含双注意力层的BCR-DA模型分类表达课程评论目标的情感极性;上注意力机制根据目标向量学习上下文向量分配注意力值,下注意力机制计算上下文中每个汉字对评论目标中某个汉字的重要程度,缓解上注意力层出现的信息丢失问题。
在线课程情感分析分为评论目标抽取、目标情感分析和预训练语言模型;
评论目标抽取可看作序列标注任务,是目标情感分析的基础,对评论目标进行随机抽取,并进行详细记录;
目标情感分析旨在获取目标实体情感极性,在评论目标在线课程结束后进行采集情感数据,并进行分析;
目前使用较为广泛的预训练模型有ULMFiT、OpenAI GPT、ELMo、BERT等BERT模型被广泛应用于阅读理解、情感分析、序列标注等诸多领域。
BCR-CRF中文在线课程评论目标抽取模型步骤为:输入编码层对预处理完成后的原始中文在线课程评论进行编码;语义表征层接收输入编码层输出的评论编码进行语义提取,并将其输入到CRF层进行联合建模,有效解决了原始BERT在中文在线课程评论目标抽取中存在的依赖性和相关性问题。
输入编码层采用与上下文有关的BCR动态字编码模型,不仅能够动态编码短句课程评论中某字在不同语境中的语义,而且也可以编码长句课程评论中各个分句间的逻辑关系,短句课程评论采用随机MASK评论语句中15%的汉字进行编码,其中,80%的几率用MASK替换;10%的几率用任意另外一个汉字替换;10%的几率保持原本语句不变,长句课程评论编码的具体做法是:在各个分句的起始位置添加特殊的SEP令牌,随机替换部分子句,通过模型中内嵌的二分类子模型判断各个分句间是否存在逻辑关系。
语义表征层由n个transformer编码单元构成,Transformer编码单元中最重要的部分是由多个自注意力机制构成的多头注意力模块,多头注意力模块通过计算课程评论语句中的每个汉字与句中其余汉字词的相互关系,为了解决传深度学习中的梯度消失问题和加速模型训练,Transformer编码单元还使用了shortcut connection和层归一化方法。
CRF在抽取在线课程评论文本目标时会严格限定输出的标签仅与上一级标签以及当前输入相关,BCR模型以整个句子作为上下文来抽取在线课程评论文本中的目标,但是状态转移条件的缺失使其可能输出一个完全错误的目标序列,将BCR模型的输出作为CRF的输入来实现在线课程评论文本目标抽取,既可以有效获取评论文本中目标的上下文信息,又能保证标签间依赖关系的合理性;
将BCR模型语义表征层的输出x={x1,x2,…,xn}作为CRF层的输入,其中xi是评论文本中第i个汉字经过BCR模型后的对应输出向量。y={y1,y2,…,yn},y∈Y(x),表示x对应标签序列集合Y(x)中一条标签序列。CRF层的概率模型定义了输入x所对应的所有可能标签序列y∈Y(x)的条件概率,形式如下:
其中,是势函数,/>和by',y分别为标签对(y',y)的权重向量和偏差。
使用最大似然估计训练CRF,即选择使对数似然L(w,b)最大化的参数。对于一个训练集{(xi,yi)},对数似然由式4所得。
然后,采用Viterbi算法搜索条件概率最大的标签序列y*进行训练和解码,即为最终输出的目标抽取序列。
输入编码层对BCR-CRF目标抽取完成的课程评论目标及其上下文进行编码;语义表征层对输入编码层输出的目标编码和上下文编码分别进行语义提取,并将其输入到DA层捕获目标和上下文词之间的相互联系;最后,通过情感分类层对课程评论中所含目标对应的情感极性进行分类表达;
DA层采用双层注意力机制连接和融合来自目标和上下文的语义信息,为目标相关的情感特征提供更多的线索,上层注意力机制主要关注目标序列与上下文序列间的关系,下层注意力机制通过捕获目标序列和上下文序列内汉字级别交互的关键信息,解决上层注意力机制在处理多个汉字目标序列和长序列上下文时目标情感分析模型信息缺失的问题;
上层注意力机制通过目标向量学习上下文向量分配注意力值,对评论目标与上下文间关系进行双向建模,主要包括:Target2Upcontext、Upcontext2Target、Belowcontext2Target和Target2Belowcontext四种。由于经过BCR模型编码和语义提取后的任一隐藏单元均含有评论文本中的所有成分的信息,故使用BCR模型第一个令牌CLS的最终隐藏状态作为目标表示和上下文表示,与上层注意力机制关注课程评论目标及其上下文间关系不同的是,下层注意力机制主要描述汉字级交互,计算上下文中每个汉字对目标中的某个汉字的重要程度。
由于中文在线课程评论数据规模限制和中性情感的模糊不清,BCR-DA模型在训练中会出现过拟合问题。我们采用L2正则化和标签平滑正则化LSR降低模型过拟合风险,提高模型的泛化能力。LSR可以把一些概率分到其他概率较小类别上,防止模型把预测值过度集中在概率较大类别上,实现模型约束。并通过在输出中添加噪声来降低过拟合程度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。