CN111444709B

CN111444709B - 文本分类方法、装置、存储介质及设备

Info

Publication number: CN111444709B
Application number: CN202010159121.6A
Authority: CN
Inventors: 刘巍
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2022-08-12
Anticipated expiration: 2040-03-09
Also published as: CN111444709A

Abstract

本申请公开了一种文本分类方法、装置、存储介质及设备，属于人工智能技术领域。包括：获取待处理文本；调用情感分析模型中的目标语言模型对待处理文本进行编码处理，得到特征向量序列，目标语言模型为BERT模型，特征向量序列表征了待处理文本中词之间的上下文关系；对确定的目标词进行向量化处理得到目标特征向量；对特征向量序列和目标特征向量进行第一特征融合处理，根据得到的第一特征向量和特征向量序列获取第二特征向量；对第二特征向量和目标特征向量进行第二特征融合处理；基于得到的第三特征向量，预测目标词在待处理文本中的情感极性。本申请能够准确预测目标词在文本中的情感极性，即可实现在文本中精准地对目标词进行情感分类。

Description

文本分类方法、装置、存储介质及设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种文本分类方法、装置、存储介质及设备。

背景技术

对文本进行情感分析(Sentiment Analysis，SA)，是人工智能技术领域中一种典型的自然语言处理(Natural Language Processing，NLP)任务，目前具有广泛的应用场景。

情感分析也可称之为意见挖掘或倾向性分析，用于分析人们的观点或情绪，以评估用户对诸如产品或服务等实体的情感趋向。示例性地，用户在对指定产品发表文本评价之后，可通过对该文本评价进行情感分析来确定其情感极性(比如积极、消极或中立)，从而确定用户对该指定产品的情感趋向，比如用户是否喜爱该指定产品。

目标情感分析(Targeted Sentiment Analysis，TSA)是情感分析的一个分支，旨在分析目标词在文本中的情感极性。例如，给定一个文本和目标词(比如服务或口味等)，确定目标词在该文本中的情感分类。其中，准确预测目标词在文本中的情感极性至关重要，是衡量一个情感分析方案的重要指标。为此，如何进行文本分类，便成为了时下本领域技术人员亟待解决的一个问题。

发明内容

本申请实施例提供了一种文本分类方法、装置、存储介质及设备，能够准确地预测目标词在文本中的情感极性，即可实现在文本中精准地对目标词进行情感分类。所述技术方案如下：

一方面，提供了一种文本分类方法，所述方法包括：

获取待处理文本；

调用情感分析模型中的目标语言模型对所述待处理文本进行编码处理，得到特征向量序列，所述目标语言模型为BERT(Bidirectional Encoder Representat- ions fromTransformers，基于变换器的双向编码表征)模型，所述特征向量序列表征了所述待处理文本中词之间的上下文关系；

对确定的目标词进行向量化处理得到目标特征向量；

对所述特征向量序列和所述目标特征向量进行第一特征融合处理，根据得到的第一特征向量和所述特征向量序列获取第二特征向量；

对所述第二特征向量和所述目标特征向量进行第二特征融合处理；基于得到的第三特征向量，预测所述目标词在所述待处理文本中的情感极性。

另一方面，提供了一种文本分类装置，所述装置包括：

获取模块，用于获取待处理文本；

第一处理模块，用于调用情感分析模型中的目标语言模型对所述待处理文本进行编码处理，得到特征向量序列，所述目标语言模型为BERT模型，所述特征向量序列表征了所述待处理文本中词之间的上下文关系；

第二处理模块，用于对确定的目标词进行向量化处理得到目标特征向量；

第三处理模块，用于对所述特征向量序列和所述目标特征向量进行第一特征融合处理；根据得到的第一特征向量和所述特征向量序列获取第二特征向量；对所述第二特征向量和所述目标特征向量进行第二特征融合处理；

预测模块，用于基于得到的第三特征向量，预测所述目标词在所述待处理文本中的情感极性。

在一种可能的实现方式中，所述装置还包括：

第一训练模块，用于获取训练数据集和目标训练参数，所述训练数据集中包括训练样本和与所述训练样本匹配的情感极性标签；根据所述目标训练参数，以所述训练样本作为初始模型的输入，以与所述训练样本匹配的情感极性标签作为所述初始模型的输出，对所述初始模型进行训练；获取测试数据集，响应于所述初始模型对所述测试数据集的预测准确率高于目标阈值，停止训练过程，得到所述情感分析模型，所述测试数据集中包括测试样本和与所述测试样本匹配的情感极性标签；

其中，所述预测准确率是基于所述初始模型输出的情感极性预测结果和与所述测试样本匹配的情感极性标签确定的。

在一种可能的实现方式中，所述目标语言模型包括顺次堆叠设置的N层结构相同的特征编码器，N的取值为正整数，所述装置还包括：

第二训练模块，用于在所述目标语言模型的预训练过程中，获取训练语料的词向量、句子编码向量和位置编码向量；将所述词向量、所述句子编码向量和所述位置编码向量进行相加处理，将得到的特征向量作为输入特征输入所述目标语言模型的第一层特征编码器；通过堆叠设置的各层特征编码器依次对所述输入特征进行编码处理，直至最后一层特征编码器，其中，上一层特征编码器的输入作为下一层特征编码器的输出；将所述最后一层特征编码器输出的特征确定为所述训练语料的特征向量序列。

在一种可能的实现方式中，各层特征编码器中均包括多头注意力层和前馈神经网络层；所述第二训练模块，还用于对于第j层特征编码器中包含的多头注意力层的第i个头结构，获取所述第i个头结构对应的第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵；其中，i和j的取值均为正整数，1≤j≤N；分别根据所述第一变换矩阵、所述第二变换矩阵和所述第三变换矩阵，对所述第i 个头结构的输入特征进行线性变换处理，依次得到所述第i个头结构的查询序列、键序列和值序列；根据所述第i个头结构的查询序列、键序列和值序列，获取所述第i个头结构的输出特征；将各个头结构的输出特征进行特征拼接处理，得到组合特征；基于第四线性变换矩阵对所述组合特征进行线性变换处理，得到所述多头注意力层的输出特征；将所述多头注意力层的输出特征输入所述前馈神经网络层，将所述前馈神经网络层的输出作为第j+1层特征编码器的输入特征。

在一种可能的实现方式中，所述目标训练参数包括：学习率、所述训练数据集的遍历次数和L2正则化项中的一种或多种。

在一种可能的实现方式中，所述第三处理模块，还用于将所述特征向量序列和所述目标特征向量输入所述情感分析模型中的第一全连接层进行特征拼接处理，得到第一中间特征序列；对所述第一中间特征序列进行第一线性变换处理；将得到的第一线性变换结果通过第一激活函数进行第一非线性变换处理，得到所述第一特征向量。

在一种可能的实现方式中，所述第三处理模块，还用于对所述第二特征向量和所述目标特征向量输入所述情感分析模型中的第二全连接层进行特征拼接处理，得到第二中间特征序列；对所述第二中间特征序列进行第二线性变换处理；将得到的第二线性变换结果通过第二激活函数进行第二非线性变换处理，得到所述第三特征向量。

在一种可能的实现方式中，所述第三处理模块，还用于对所述第一特征向量和所述特征向量序列进行点积运算处理，得到所述第二特征向量。

在一种可能的实现方式中，所述预测模块，还用于将所述第三特征向量输入分类层进行归一化处理，得到情感分类预测结果，其中，所述情感分类预测结果包括所述目标词归属于各个情感极性的预测概率；将最大预测概率指示的情感类别，作为所述目标词在所述待处理文本中的情感极性。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的文本分类方法。

另一方面，提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的文本分类方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例基于BERT模型对待处理文本进行特征抽取，由于BERT模型能够对文本进行双向学习且支持文本一次性全部读取，因此得到的特征表示可以更准确地学习到文本中词之间的上下文关系，对语境的理解更加深刻，即得到的特征表示不但涉及了每个词本身的特征，还涉及了其他词与这个词的关系，更具有全局性，该种特征抽取方式为后续准确地进行情感分析预测提供了保障。另外，本申请实施例还对待处理文本的特征信息和目标词的特征信息进行了复杂的结合，充分考虑了两者之间的复杂互动，即保证了待处理文本的特征信息和目标词的特征信息之间交互的复杂性，使得最终输出的情感极性预测结果由二者共同决定，考虑了目标词的特征信息对情感极性预测结果的强大影响力，因此该种文本分类方式能够准确地预测目标词在文本中的情感极性，即可实现在文本中精准地对目标词进行情感分类。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的情感分析方案涉及的实施环境的示意图；

图2是本申请实施例提供的一种文本分类方法的流程图；

图3是本申请实施例提供的一种情感分析模型的结构示意图；

图4是本申请实施例提供的一种BERT模型的结构示意图；

图5是本申请实施例提供的一种目标语言模型的训练方法的流程图；

图6是本申请实施例提供的一种实验数据集的示意图；

图7是本申请实施例提供的一种训练语料的输入形式示意图；

图8是本申请实施例提供的一种文本分类装置的结构示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

深度学习是机器学习的核心部分，其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中，深度学习是机器学习领域中一个新的研究方向。即，深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理和深度学习等技术，现通过如下实施例进行说明。

先对本申请实施例涉及到的一些关键术语或缩略语进行介绍。

情感分析：是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中，情感分析是自然语言处理的子任务，也可称之为意见挖掘或倾向性分析，对人们对产品、服务、组织、个人、问题、事件、话题及其属性的观点、情感、情绪、评价和态度进行计算研究，即情感分析用于评估用户对诸如产品或服务等的情感趋向。

也即，情感分析带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点。

方面级别的情感分析(Aspect Based Sentiment Analysis，ABSA)：旨在预测文本中Apect的情感极性(sentiment polarities)，即对文本中Apect进行情感分析。示例性地，情感极性包括但不限于积极(正面)、消极(负面)和中立。

另外，基于Aspect的情感分析是一种细粒度的情感分析任务。其中，一个文本中可能含有多个不同的Aspect，每个Aspect的情感极性可能不同。基于 Aspect的情感分析有很多实际应用价值，比如针对商品评论的基于Aspect的情感分析，可以提取用户对一个商品不同部分/方面的评价，进而为厂商进一步改进商品提供更细粒度的参考。

在一种可能的实现方式中，ABSA任务可以分为两类，分别是ACSA (Aspect-Category Sentiment Analysis)任务和ATSA(Aspect-Term Sentiment Analysis)任务。针对ACSA任务，该任务的Aspect是事先确定的一些类别，且可能该Aspect在文本中并未出现，比如服务和价格等，举例来说，“这件衬衫居然要1000块钱！”即是针对“价格”的情感句，但是价格这个词并未直接出现在句子中。针对ATSA任务，与第一种任务相反，该任务的Aspect不是事先确定的，而是从文本中提取出来的，因此该任务的Aspect必然在文本中出现。

目标情感分析任务：分析出文本(比如对一家餐厅的评价)中不同实体(比如服务、口味等)的情感极性(比如积极、消极、中立)。示例性地，给定一个文本和目标实体，确预测目标实体在该文本中的情感极性。

近年来，目标情感分析任务作为更深层次的情感分析任务，已成为自然语言处理领域的研究热点之一。和普通情感分析不同，目标情感分析需要针对文本中不同的特定目标来分析其情感极性，这不仅依赖于文本的上下文信息，同时也要考虑文本中不同目标的情感极性。

例如，句子“Good food but dreadful service at that restaurant”，目标词“food”的情感极性是积极，而目标词“service”的情感极性则是消极，所以同一个文本中的不同目标词可能会出现截然相反的情感极性。

Aspect(方面)：指代情感极性的归属对象。即情感属性会对应一个对象，这个对象便是Aspect。其中，在文本中抽取到的Aspect都是文本中出现的实体，比如名词，且在一个文本中可能会抽取到多个Aspect。

Aspect embedding：指代对Aspect进行词嵌入(word embedding)处理。

示例性地，在本申请实施例中，Aspect embedding即指代对目标实体(也称目标词)进行词嵌入处理。

实体(Entity)：其是NLU系统中的重要概念，广义来来讲，只要是业务需要的特殊词语都可以称之为实体。详细来说，实体的词性一般为名词，实体通常指的是文本中具有特殊意义或指代性非常强的词语。作为一个示例，实体可以包括诸如人名、地名、机构名、时间、专有名词、产品名等等。

下面再对本申请实施例提供的情感分析方案涉及的实施环境进行介绍。

本申请实施例提供的针对文本的情感分析方法可以应用于线上的情感分析系统。其中，该情感分析系统可以表现为服务器。示例性地，参见图1，该实施环境可以包括：终端101和情感分析系统102。

在一种可能的实现方式中，情感分析系统102用于进行情感分析的文本可以来自于信息分享平台。其中，上述信息分享平台可以为社交平台、电子商务平台或点评网站等，本申请在此不做限制。

其中，用户可以在终端101上执行文本输入操作，比如，该文本可以是用户对上述信息分享平台提供的某一种产品或某一项服务的评价。而用户可以在上述信息分享平台针对某一种产品或某一项服务提供的评价页面上进行评价。

其中，情感分析系统102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，本申请实施例对此不进行具体限定。

在本申请实施例中，终端101的类型包括但不限于：移动式终端和固定式终端。作为一个示例，移动式终端包括但不限于：智能手机、平板电脑、笔记本电脑、电子阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器等；固定式终端包括但不限于台式电脑。

另外，终端101以及情感分析系统102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例提供的针对文本的情感分析方法的应用场景包括但不限于：

场景1、在用户评论领域，比如利用情感分析可以自动分析出客户对餐厅各个方面的评价，给出详细的小项分，以便后续客户参考；还比如，利用情感分析可以自动分析出客户对一款新产品的各个功能的好评度，以便选择关键的功能进行优化；又比如，利用情感分析可以自动分析出客户对一个电影的情节、音乐等各方面的评价，以便影评的细化。

又比如，在商品零售领域，用户的评价对于零售商和生产商都是非常重要的反馈信息，通过对海量用户的评价进行情感分析，可以量化用户对产品及其竞品的褒贬程度，从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。简言之，可以从海量用户的评价中识别出产品属性的情感信息，进而可以为零售商和生产商提供决策支持。

场景2、在舆情监控中，利用情感分析方法可以及时了解民众对突发事件、社会现象的态度，引导舆论趋势。比如，在社会舆情领域，通过分析大众对于社会热点事件的评价可以有效地掌握舆论的走向。又比如，在企业舆情方面，利用情感分析可以快速了解社会对企业的评价，为企业的战略规划提供决策依据，提升企业在市场中的核心竞争力。

场景3、情感分析也可应用在其他的自然语言处理任务中，例如在问答系统中，利用情感分析可以选取与提问最相关的答案，答案会更容易被用户采纳。

场景4、在自动翻译领域中，对输入文本进行情感倾向判断，有助于更精准地选择带有正面或负面的同义词进行翻译，提高翻译系统的准确率。

场景5、在金融交易领域，利用情感分析可以分析交易者对于股票及其他金融衍生品的态度，进而可以为行情交易提供辅助依据。

以上仅是例举了情感分析的几个可能应用场景，实际上应用场景并不局限与此，比如，情感分析可以应用在比上述示例更多的场景下，本申请实施例对此不进行具体限定。

基于上述的实施环境，本申请实施例提出了一种基于BERT模型的目标情感分析方案，使用该种方案可以保证目标情感分析的准确性。

其中，本申请实施例使用BERT模型对待处理文本进行特征抽取。由于BERT 模型采用了多层Transformer(变换器)对文本进行双向学习，且Transformer采用一次性读取方式对文本进行读取，因此可以更准确地学习到文本中词之间的上下文关系，对语境的理解更加深刻，即双向训练的语言模型对语境的理解会比单向的语言模型更深刻，从而能够准确地对文本进行特征抽取，因此，BERT 模型相较于处理自然语言处理任务的其他模型而言，具有更好的任务处理效果。

另外，本申请实施例对待处理文本的语义信息和目标词的目标信息进行了更复杂的集合，充分考虑了两者之间的复杂互动，使得最终输出的情感极性预测结果由语义信息和目标信息共同决定，考虑了目标信息对情感极性预测结果的强大影响力。

下面基于以上描述，对本申请实施例提供的文本分类方法的方法实现流程进行详细介绍。

图2是本申请实施例提供的一种文本分类方法的流程图。该方法的执行主体为图1中所示的情感分析系统102，参见图2，本申请实施例提供的方法流程包括：

201、获取待处理文本。

作为一个示例，待处理文本可以为英文文本，即输入情感分析系统中进行目标情感分析的源语言序列可以是英文形式；另外，待处理文本还可以为中文文本，即输入情感分析系统中进行目标情感分析的源语言序列还可以是中文形式，本申请实施例此不进行具体限定。示例性地，待处理文本可以为收集的用户评论数据，比如，用户评论数据可以是用户对某种产品或某项服务的评价。

202、调用情感分析模型中的目标语言模型对待处理文本进行编码处理，得到特征向量序列，其中，目标语言模型为BERT模型。

图3示出了情感分析模型301的结构，如图3所示，该情感分析模型301 可以包括目标语言模型(BERT模型)3011、词嵌入模块(Aspect embedding) 3012、第一全连接层3013、第二全连接层3014、点积运算单元3015以及分类层3016。

本申请实施例利用BERT模型对待处理文本进行编码处理。

图4示出了BERT模型3011的内部结构。其中，BERT模型本质上是由双向Transformer组成的一个特征抽取模型。在图4中，E表示词的embedding，T 表示经过BERT模型编码后每个词的新的特征表示，Trm指代的是Transformer 的encoder，在本文中简称为Transformer。其中，BERT模型可以包含12层 Transformer(BERT-base模型)，也可以包含24层Transformer(BERT-large模型)。

在BERT模型的预训练过程中，可以使用MLM(Masked Language Model，掩蔽语言模型)随机mask(掩蔽)掉输入语料中的一些词，然后在预训练过程中对它们进行预测，并增加句子级别任务next sentence prediction(下一句预测)，即随机替换掉一些句子，然后利用上一句进行IsNext或NotNext的预测。通过这两项任务，使用大规模的无标注语料对词的三种表示(词向量表示、位置编码表示和句子编码表示)进行优化，进而得到预训练好的BERT模型。

由于BERT模型采用多层Transformer对文本进行双向学习，且Transformer 采用一次性读取方式对文本进行读取，因此可以更准确地学习到文本中词之间的上下文关系，对语境的理解更加深刻，即双向训练的语言模型对语境的理解会比单向的语言模型更深刻，从而能够准确地对文本进行处理，因此，BERT模型相较于处理自然语言处理任务的其他模型而言，具有更好的任务处理效果。

参见图3，在得到待处理文本的特征向量序列后，会输入第一全连接层3013。

203、对确定的目标词进行向量化处理得到目标特征向量。

在本申请实施例中，通过图3中的词嵌入模块3012对目标词进行词嵌入即向量化处理，得到目标特征向量。其中，针对word embedding，可以用一个低维稠密的向量去表示一个词，通常这个向量的维度在几百到上千之间。

需要说明的是，目标词既可以出现在待处理文本中，也可以未出现在待处理文本中。举例来说，“这件衬衫居然要1000块钱！”即是针对“价格”的情感句，但是价格这个词并未直接出现在句子中。又比如，针对句子“这家餐厅菜的口味不错”，目标词可以为出现在该句中的“口味”，相应的情感极性为积极。

参见图3，在得到目标词的目标特征向量后，也会输入第一全连接层3013。

204、对待处理文本的特征向量序列和目标词的目标特征向量进行第一特征融合处理，得到第一特征向量。

在一种可能的实现方式中，对待处理文本的特征向量序列和目标词的目标特征向量进行第一特征融合处理，包括但不限于：

将待处理文本的特征向量序列Xs和目标词的目标特征向量Wa输入情感分析模型中的第一全连接层进行特征拼接处理，得到第一中间特征序列；对第一中间特征序列进行第一线性变换处理；将得到的第一线性变换结果通过第一激活函数进行第一非线性变换处理，得到第一特征向量R。

示例性地，可以通过concat()方法对待处理文本的特征向量序列Xs和目标词的目标特征向量Wa进行特征拼接处理，本申请实施例对此不进行具体限定。

在得到第一中间特征序列后，本申请实施例对第一中间特征序列进行第一线性变换处理，即可以通过第一全连接层对第一中间特征序列进行线性加权求和处理。也即，第一全连接层的输出可以看做是第一中间特征序列乘以一个权重系数W1，最后加上一个偏置值b1得到。

其中，第一激活函数可以为tanh函数，本申请实施例对此不进行具体限定。

205、根据第一特征向量和待处理文本的特征向量序列获取第二特征向量；对第二特征向量和目标词的目标特征向量进行第二特征融合处理，得到第三特征向量。

作为一个示例，根据第一特征向量和待处理文本的特征向量序列获取第二特征向量，包括但不限于：将第一特征向量R和特征向量序列Xs输入点积运算单元3015进行点积运算处理，得到第二特征向量Rs。

在一种可能的实现方式中，对第二特征向量和目标词的目标特征向量进行第二特征融合处理，包括但不限于：

将第二特征向量Rs和目标特征向量Wa输入情感分析模型中的第二全连接层进行特征拼接处理，得到第二中间特征序列；对第二中间特征序列进行第二线性变换处理；将得到的第二线性变换结果通过第二激活函数进行第二非线性变换处理，得到第三特征向量H。

示例性地，可以通过concat()方法对第二特征向量Rs和目标特征向量Wa 进行特征拼接处理，本申请实施例对此不进行具体限定。

在得到第二中间特征序列后，本申请实施例对第二中间特征序列进行第二线性变换处理，即可以通过第二全连接层对第二中间特征序列进行线性加权求和处理。也即，第二全连接层的输出可以看做是第二中间特征序列乘以一个权重系数W2，最后加上一个偏置值b2得到。

其中，第二激活函数可以为Relu函数，本申请实施例对此不进行具体限定。

另外，上述权重系数和偏置值可以通过训练得到。

需要说明的是，本申请实施例通过上述204和步骤205对待处理文本的语义信息和目标词的目标信息进行了更复杂的结合，充分考虑了两者之间的复杂互动，使得最终输出的情感极性预测结果由语义信息和目标信息共同决定，考虑了目标信息对情感极性预测结果的强大影响力，使得最后的情感极性预测结果更加准确。

206、基于第三特征向量预测目标词在待处理文本中的情感极性。

在一种可能的实现方式中，基于第三特征向量预测目标词在待处理文本中的情感极性，包括但不限于：将第三特征向量输入分类层进行归一化处理，得到情感分类预测结果，其中，情感分类预测结果包括目标词归属于各个情感极性的预测概率；将最大预测概率指示的情感类别，作为目标词在待处理文本中的情感极性。示例性地，可以通过计算Y＝softmax(H)来计算目标词在待处理文本中归属于各个情感类别的概率，本申请实施例对此不进行具体限定。

本申请实施例提供的文本分类方法，基于BERT模型对待处理文本进行特征抽取，由于BERT模型能够对文本进行双向学习且支持文本一次性全部读取，因此得到的特征表示可以更准确地学习到文本中词之间的上下文关系，对语境的理解更加深刻，即得到的特征表示不但涉及了每个词本身的特征，还涉及了其他词与这个词的关系，更具有全局性，该种特征抽取方式为后续准确地进行情感分析预测提供了保障。

另外，本申请实施例通过两个全连接层以及一次点积运算，对待处理文本的语义信息和目标词的目标信息进行了更复杂的结合，充分考虑了两者之间的复杂互动，即保证语义信息和目标信息之间交互的复杂性，使得最终输出的情感极性预测结果由语义信息和目标信息共同决定，考虑了目标信息对情感极性预测结果的强大影响力，因此该种文本分类方式能够准确地预测目标词在文本中的情感极性，即可实现在文本中精准地对目标词进行情感分类。

图5是本申请实施例提供的一种目标语言模型的训练过程示意图。参见图5，该方法流程包括：

501、获取训练数据集和目标训练参数，训练数据集中包括训练样本和与训练样本匹配的情感极性标签。

示例性地，如图6所示，本申请实施例可以使用Restaurant数据集作为实验数据集，其中，实验数据集601的构成参见图6。在一种可能的实现方式中，目标训练参数包括但不限于：学习率(learning_rate)、训练数据集的遍历次数 (epoch)和L2正则化项中的一种或多种。

作为一个示例，在训练过程中，优化器可以选择SGD(Stochastic GradientDescent，随机梯度下降)优化器，learning_rate＝1e-3，L2＝1e-3，epoch＝10，本申请实施例对此不进行具体限定。

502、根据目标训练参数，以训练样本作为初始模型的输入，以与训练样本匹配的情感极性标签作为初始模型的输出，对初始模型进行训练。

在模型训练过程中，通常使用损失函数来判断模型是否收敛。其中，损失函数可以为交叉熵损失函数，本申请实施例对此不进行具体限定。通常情况下，损失函数用于计算模型输出的预测结果与标注标签之间的差异程度。

在基于损失函数确定模型输出的预测结果与标注标签匹配时，比如当二者之间的差异程度小于预设值时认为二者匹配，并对此时得到的模型进行测试。

又或者，还可以在训练迭代次数达到预设次数后，对此时得到的模型进行测试，本申请实施例对此不进行具体限定。

503、获取测试数据集，响应于当前得到的模型对该测试数据集的预测准确率高于目标阈值，停止训练过程，得到情感分析模型，该测试数据集中包括测试样本和与测试样本匹配的情感极性标签。

其中，测试数据集可以如图6所示，而预测准确率是基于当前得到的模型输出的情感极性预测结果和与测试样本匹配的情感极性标签确定的。示例性地，目标阈值可以为95％或其他数值，本申请实施例对此不进行具体限定。

在另一种可能的实现方式中，BERT模型包括顺次堆叠设置的N层结构相同的特征编码器。其中，N的取值为正整数，比如N的取值可以为12或24，即BERT模型可以包括12层特征编码器或24层特征编码器。

需要说明的是，此处的特征编码器指代的是Transformer的encoder。其中，在BERT模型的预训练过程中，还包括：

对于任意一个训练语料，获取该训练语料的词向量、句子编码向量和位置编码向量；将该词向量、该句子编码向量和该位置编码向量进行相加处理；将得到的特征向量作为输入特征输入BERT模型的第一层特征编码器；通过堆叠设置的各层特征编码器依次对该输入特征进行编码处理，直至最后一层特征编码器，其中，上一层特征编码器的输入作为下一层特征编码器的输出；将最后一层特征编码器输出的特征确定为该训练语料的特征向量序列。

举例来说，图7为句子“w1 w2 w3 w4，w5 w6 w7”的输入形式表示。每个词的输入由3部分构成，一个是词本身的embedding，即词向量；第二个是表示上下句的embedding，如果是上句，使用A embedding，如果是下句，使用B embedding，即句子编码向量；最后，根据Transformer的特点还要加上位置编码，这里的位置编码是通过学习得到的；将词向量、句子编码向量和位置编码向量三者相加作为该句的输入。

另外，需要注意的是，在每个句子的开头还需要加一个Classification(CLS) 符号，并通过符号(SEP)来区分句与句。

即，图7示出了句子中每一个词的输入的组成成分。即，每一个词的输入由TokenEmbedding(词嵌入编码)701、Segment Embedding(句子编码)702、 Position Embedding(位置编码)703三个部分相加得到。其中，Token Embedding 是一个查表操作，SegmentEmbedding表示该词所属的句子，Position Embedding 是该字在句子中对应的位置信息，也是一个查表操作。

在另一种可能的实现方式中，还可以将注意力机制结合到自然语言处理任务中，结合了注意力机制的网络模型在训练过程中高度关注特定目标的特征信息，并且能有效针对不同的目标调整网络参数，挖掘更多的隐藏特征信息。

注意力(Attention)机制是指源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也即注意力焦点，而后对这一区域投入更多注意力资源，以获取更多需要关注的目标的细节信息，而抑制其他无用信息。

综上，注意力机制主要有两个方面：一是决定需要关注输入的哪部分；二是分配有限的信息处理资源给重要的部分。其中，深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务更关键的信息。

作为一个示例，上述各层特征编码器中均包括多头注意力层和前馈神经网络层；即，特征编码器使用了多头注意力机制。

在一种可能的实现方式中，通过堆叠设置的各层特征编码器依次对输入特征进行编码处理，包括但不限于：

(a)、对于第j层特征编码器中包含的多头注意力层的第i个头结构，获取第i个头结构对应的第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵；其中，i和j的取值均为正整数，1≤j≤N。

在本文中，第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵，可以分别以符号W_i ^Q、W_i ^K和W_i ^V指代。

(b)、分别根据第一变换矩阵、第二变换矩阵和第三变换矩阵，对第i个头结构的输入特征进行线性变换处理，依次得到第i个头结构的查询序列、键序列和值序列；根据第i个头结构的查询序列、键序列和值序列，获取第i个头结构的输出特征。

首先，将第i个头结构的输入特征分别与W_i ^Q、W_i ^K和W_i ^V进行矩阵相乘运算，依次得到第i个头结构的查询序列Q_i、键序列K_i和值序列V_i。

之后，基于第i个头结构的查询序列Q_i、键序列K_i和值序列V_i，计算第i 个头结构的输出特征Zi。

其中，

d_k指代键序列K_i的维度。

(c)、将各个头结构的输出特征进行特征拼接处理，得到组合特征。

其中，可以通过concat()方法进行特征拼接处理，得到组合特征Z。

以计算公式来表达即为：组合特征Z＝Concat(head₁,...,headm)W^O；其中，m 的取值为头结构的数量。

(d)、基于第四线性变换矩阵对组合特征进行线性变换处理，得到多头注意力层的输出特征。

在本文中第四线性变换矩阵可以符号W^O指代，其中，W_i ^Q、W_i ^K和W_i ^V和 W^O可以随机初始化并通过训练得到，本申请实施例对此不进行具体限定。

(e)、将多头注意力层的输出特征输入前馈神经网络层，将前馈神经网络层的输出作为第j+1层特征编码器的输入特征。

示例性地，前馈神经网络可以对该输出特征进行两次线性变换和一次非线性变换，本申请实施例对此不进行具体限定。

在获取到预训练好的BERT模型构成初始模型后，本申请实施例在文本情感分析任务的实验数据集上对初始模型进行训练，得到目标语言模型，进而基于目标语言模型中的BERT模型对待处理文本进行特征抽取，由于BERT模型能够对文本进行双向学习且支持文本一次性全部读取，因此得到的特征表示可以更准确地学习到文本中词之间的上下文关系，对语境的理解更加深刻，即特征表示不但涉及了每个词本身的特征，还涉及了其他词与这个词的关系，更具有全局性，该种特征抽取方式为后续准确地进行情感分析预测提供了保障。

需要说明的第一点是，下述表1示出了多种模型在两种实验数据集 Restaurant-Large和Restaurant 2014上的预测准确率。由下述表1可知，相较于其他模型，本申请实施例提供的目标语言模型具有良好的预测准确率。

表1

需要说明的第二点是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，本申请实施例对此不进行具体限定。

图8是本申请实施例提供的一种文本处理装置的结构示意图。参见图8，该装置包括：

获取模块801，用于获取待处理文本；

第一处理模块802，用于调用情感分析模型中的目标语言模型对所述待处理文本进行编码处理，得到特征向量序列，所述目标语言模型为BERT模型，所述特征向量序列表征了所述待处理文本中词之间的上下文关系；

第二处理模块803，用于对确定的目标词进行向量化处理得到目标特征向量；

第三处理模块804，用于对所述特征向量序列和所述目标特征向量进行第一特征融合处理；根据得到的第一特征向量和所述特征向量序列获取第二特征向量；对所述第二特征向量和所述目标特征向量输入所述情感分析模型进行第二特征融合处理；

预测模块805，用于基于得到的第三特征向量，预测所述目标词在所述待处理文本中的情感极性。

本申请实施例提供的装置，基于BERT模型对待处理文本进行特征抽取，由于BERT模型能够对文本进行双向学习且支持文本一次性全部读取，因此得到的特征表示可以更准确地学习到文本中词之间的上下文关系，对语境的理解更加深刻，即得到的特征表示不但涉及了每个词本身的特征，还涉及了其他词与这个词的关系，更具有全局性，该种特征抽取方式为后续准确地进行情感分析预测提供了保障。另外，本申请实施例还对待处理文本的特征信息和目标词的特征信息进行了复杂的结合，充分考虑了两者之间的复杂互动，即保证了待处理文本的特征信息和目标词的特征信息之间交互的复杂性，使得最终输出的情感极性预测结果由二者共同决定，考虑了目标词的特征信息对情感极性预测结果的强大影响力，因此该种文本分类方式能够准确地预测目标词在文本中的情感极性，即可实现在文本中精准地对目标词进行情感分类。

在一种可能的实现方式中，该装置还包括：

在一种可能的实现方式中，所述目标语言模型包括顺次堆叠设置的N层结构相同的特征编码器，N的取值为正整数，在所述目标语言模型的预训练过程中，该装置还包括：

第二训练模块，用于获取训练语料的词向量、句子编码向量和位置编码向量；将所述词向量、所述句子编码向量和所述位置编码向量进行相加处理，将得到的特征向量作为输入特征输入所述目标语言模型的第一层特征编码器；通过堆叠设置的各层特征编码器依次对所述输入特征进行编码处理，直至最后一层特征编码器，其中，上一层特征编码器的输入作为下一层特征编码器的输出；将所述最后一层特征编码器输出的特征确定为所述训练语料的特征向量序列。

在一种可能的实现方式中，各层特征编码器中均包括多头注意力层和前馈神经网络层；第二训练模块，还用于对于第j层特征编码器中包含的多头注意力层的第i个头结构，获取所述第i个头结构对应的第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵；其中，i和j的取值均为正整数，1≤j≤N；分别根据所述第一变换矩阵、所述第二变换矩阵和所述第三变换矩阵，对所述第i个头结构的输入特征进行线性变换处理，依次得到所述第i个头结构的查询序列、键序列和值序列；根据所述第i个头结构的查询序列、键序列和值序列，获取所述第i个头结构的输出特征；将各个头结构的输出特征进行特征拼接处理，得到组合特征；基于第四线性变换矩阵对所述组合特征进行线性变换处理，得到所述多头注意力层的输出特征；将所述多头注意力层的输出特征输入所述前馈神经网络层，将所述前馈神经网络层的输出作为第j+1层特征编码器的输入特征。

在一种可能的实现方式中，第三处理模块，还用于对所述特征向量序列和所述目标特征向量输入所述情感分析模型中的第一全连接层进行特征拼接处理，得到第一中间特征序列；对所述第一中间特征序列进行第一线性变换处理；将得到的第一线性变换结果通过第一激活函数进行第一非线性变换处理，得到所述第一特征向量。

在一种可能的实现方式中，第三处理模块，还用于对所述第二特征向量和所述目标特征向量输入所述情感分析模型中的第二连接层进行特征拼接处理，得到第二中间特征序列；对所述第二中间特征序列进行第二线性变换处理；将得到的第二线性变换结果通过第二激活函数进行第二非线性变换处理，得到所述第三特征向量。

在一种可能的实现方式中，第三处理模块，还用于对所述第一特征向量和所述特征向量序列进行点积运算处理，得到所述第二特征向量。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的文本分类装置在进行文本分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本分类装置与文本分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种电子设备的结构示意图，其中，该电子设备可以表现为服务器。其中，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)901 和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器901加载并执行以实现上述各个方法实施例提供的文本分类方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由情感分析系统中的处理器执行以完成上述实施例中的文本分类方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取待处理文本；

调用情感分析模型中的目标语言模型对所述待处理文本进行编码处理，得到特征向量序列，所述目标语言模型为基于变换器的双向编码表征BERT模型，所述特征向量序列表征了所述待处理文本中词之间的上下文关系；

对确定的目标词进行向量化处理得到目标特征向量，所述目标词包括出现在所述待处理文本中的词语，或者所述目标词包括未出现在所述待处理文本中的词语；

将所述第二特征向量和所述目标特征向量输入所述情感分析模型中的第二全连接层进行特征拼接处理，得到第二中间特征序列；

对所述第二中间特征序列进行第二线性变换处理；

将得到的第二线性变换结果通过第二激活函数进行第二非线性变换处理，得到第三特征向量；基于得到的所述第三特征向量，预测所述目标词在所述待处理文本中的情感极性；

所述方法还包括：

获取训练数据集和目标训练参数，所述训练数据集中包括训练样本和与所述训练样本匹配的情感极性标签；

根据所述目标训练参数，以所述训练样本作为初始模型的输入，以与所述训练样本匹配的情感极性标签作为所述初始模型的输出，对所述初始模型进行训练；

获取测试数据集，响应于所述初始模型对所述测试数据集的预测准确率高于目标阈值，停止训练过程，得到所述情感分析模型，所述测试数据集中包括测试样本和与所述测试样本匹配的情感极性标签；

2.根据权利要求1所述的方法，其特征在于，所述目标语言模型包括顺次堆叠设置的N层结构相同的特征编码器，N的取值为正整数，所述方法还包括：

在所述目标语言模型的预训练过程中，获取训练语料的词向量、句子编码向量和位置编码向量；

将所述词向量、所述句子编码向量和所述位置编码向量进行相加处理，将得到的特征向量作为输入特征输入所述目标语言模型的第一层特征编码器；

通过堆叠设置的各层特征编码器依次对所述输入特征进行编码处理，直至最后一层特征编码器，其中，上一层特征编码器的输入作为下一层特征编码器的输出；将所述最后一层特征编码器输出的特征确定为所述训练语料的特征向量序列。

3.根据权利要求2所述的方法，其特征在于，各层特征编码器中均包括多头注意力层和前馈神经网络层；所述通过堆叠设置的各层特征编码器依次对所述输入特征进行编码处理，包括：

对于第j层特征编码器中包含的多头注意力层的第i个头结构，获取所述第i个头结构对应的第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵；其中，i和j的取值均为正整数，1≤j≤N；

分别根据所述第一线性变换矩阵、所述第二线性变换矩阵和所述第三线性变换矩阵，对所述第i个头结构的输入特征进行线性变换处理，依次得到所述第i个头结构的查询序列、键序列和值序列；根据所述第i个头结构的查询序列、键序列和值序列，获取所述第i个头结构的输出特征；

将各个头结构的输出特征进行特征拼接处理，得到组合特征；

基于第四线性变换矩阵对所述组合特征进行线性变换处理，得到所述多头注意力层的输出特征；

将所述多头注意力层的输出特征输入所述前馈神经网络层，将所述前馈神经网络层的输出作为第j+1层特征编码器的输入特征。

4.根据权利要求1所述的方法，其特征在于，所述目标训练参数包括：学习率、所述训练数据集的遍历次数和L2正则化项中的一种或多种。

5.根据权利要求1至4中任一项权利要求所述的方法，其特征在于，所述对所述特征向量序列和所述目标特征向量进行第一特征融合处理，包括：

将所述特征向量序列和所述目标特征向量输入所述情感分析模型中的第一全连接层进行特征拼接处理，得到第一中间特征序列；

对所述第一中间特征序列进行第一线性变换处理；

将得到的第一线性变换结果通过第一激活函数进行第一非线性变换处理，得到所述第一特征向量。

6.根据权利要求1至4中任一项权利要求所述的方法，其特征在于，所述根据得到的第一特征向量和所述特征向量序列获取第二特征向量，包括：

对所述第一特征向量和所述特征向量序列进行点积运算处理，得到所述第二特征向量。

7.根据权利要求1至4中任一项权利要求所述的方法，其特征在于，所述基于得到的所述第三特征向量，预测所述目标词在所述待处理文本中的情感极性，包括：

将所述第三特征向量输入分类层进行归一化处理，得到情感分类预测结果，其中，所述情感分类预测结果包括所述目标词归属于各个情感极性的预测概率；

将最大预测概率指示的情感类别，作为所述目标词在所述待处理文本中的情感极性。

8.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取待处理文本；

第一处理模块，用于调用情感分析模型中的目标语言模型对所述待处理文本进行编码处理，得到特征向量序列，所述目标语言模型为基于变换器的双向编码表征BERT模型，所述特征向量序列表征了所述待处理文本中词之间的上下文关系；

第二处理模块，用于对确定的目标词进行向量化处理得到目标特征向量，所述目标词包括出现在所述待处理文本中的词语，或者所述目标词包括未出现在所述待处理文本中的词语；

第三处理模块，用于对所述特征向量序列和所述目标特征向量进行第一特征融合处理；根据得到的第一特征向量和所述特征向量序列获取第二特征向量；

所述第三处理模块，还用于将所述第二特征向量和所述目标特征向量输入所述情感分析模型中的第二全连接层进行特征拼接处理，得到第二中间特征序列；对所述第二中间特征序列进行第二线性变换处理；将得到的第二线性变换结果通过第二激活函数进行第二非线性变换处理，得到第三特征向量；

预测模块，用于基于得到的所述第三特征向量，预测所述目标词在所述待处理文本中的情感极性；

所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述目标语言模型包括顺次堆叠设置的N层结构相同的特征编码器，N的取值为正整数，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，各层特征编码器中均包括多头注意力层和前馈神经网络层；所述第二训练模块，还用于对于第j层特征编码器中包含的多头注意力层的第i个头结构，获取所述第i个头结构对应的第一线性变换矩阵、第二线性变换矩阵和第三线性变换矩阵；其中，i和j的取值均为正整数，1≤j≤N；分别根据所述第一线性变换矩阵、所述第二线性变换矩阵和所述第三线性变换矩阵，对所述第i个头结构的输入特征进行线性变换处理，依次得到所述第i个头结构的查询序列、键序列和值序列；根据所述第i个头结构的查询序列、键序列和值序列，获取所述第i个头结构的输出特征；将各个头结构的输出特征进行特征拼接处理，得到组合特征；基于第四线性变换矩阵对所述组合特征进行线性变换处理，得到所述多头注意力层的输出特征；将所述多头注意力层的输出特征输入所述前馈神经网络层，将所述前馈神经网络层的输出作为第j+1层特征编码器的输入特征。

11.根据权利要求8所述的装置，其特征在于，所述目标训练参数包括：学习率、所述训练数据集的遍历次数和L2正则化项中的一种或多种。

12.根据权利要求8至11中任一项权利要求所述的装置，其特征在于，所述第三处理模块，还用于将所述特征向量序列和所述目标特征向量输入所述情感分析模型中的第一全连接层进行特征拼接处理，得到第一中间特征序列；对所述第一中间特征序列进行第一线性变换处理；将得到的第一线性变换结果通过第一激活函数进行第一非线性变换处理，得到所述第一特征向量。

13.根据权利要求8至11中任一项权利要求所述的装置，其特征在于，所述第三处理模块，还用于对所述第一特征向量和所述特征向量序列进行点积运算处理，得到所述第二特征向量。

14.根据权利要求8至11中任一项权利要求所述的装置，其特征在于，所述预测模块，还用于将所述第三特征向量输入分类层进行归一化处理，得到情感分类预测结果，其中，所述情感分类预测结果包括所述目标词归属于各个情感极性的预测概率；将最大预测概率指示的情感类别，作为所述目标词在所述待处理文本中的情感极性。

15.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至7中任一项权利要求所述的文本分类方法。

16.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至7中任一项权利要求所述的文本分类方法。