CN109992668B

CN109992668B - 一种基于自注意力的企业舆情分析方法和装置

Info

Publication number: CN109992668B
Application number: CN201910272396.8A
Authority: CN
Inventors: 顾凌云
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2023-02-21
Anticipated expiration: 2039-04-04
Also published as: CN109992668A

Abstract

本发明提供了一种基于自注意力的企业舆情分析方法和装置，其中方法包括：从获取的中文企业舆情数据集中提取文本数据，检查情感标签，对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据，其中，文本数据包括舆情数据的标题、摘要和正文；使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量；将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式；根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果。

Description

一种基于自注意力的企业舆情分析方法和装置

技术领域

本发明涉及情感分析技术领域，尤其涉及一种基于自注意力的企业舆情分析方法和装置。

背景技术

互联网的普及极大的促进了社交网络的发展，舆情管理得到企业相关部门的日益重视，在面对汹涌的舆论时，没有处理过类似事件的部门常常显得手足无措，以疏替堵，以表及里是舆情处置中需要遵循的基本原则。合理的对企业舆情数据进行监测，不仅可以维护企业良好的口碑，更有利于企业对产品或战略的调整，如何快速地从网络文本中挖掘情感倾向，为政府、企业以及个人的决策提供有效地帮助已经成为自然语言处理领域研究的热点问题，情感分析系统在此过程中起着十分重要的角色。

情感分析又称为倾向性分析，主要分为两类，粗粒度的情感分析和细粒度的情感分析，前者属于单一模式，后者针对评价对象及其属性进行分析，商业舆情情感分析大多属于粗力度的情感分析。现阶段主要的情感分析方法分为两类：基于词典的方法和基于评分的方法。基于字典的方法通过指定一系列的情感词典和规则，对文本进行段落解析，句法分析，计算情感值，最后通过情感值作为文本的情感倾向依据，该方法存在明显的缺点:需要人工进行规则的制定，不同领域的规则不尽相同，工作量十分庞大，语言的多变性导致有些规则不适用。基于评分的方法很多，使用贝叶斯，支持向量机以及神经网络对文本进行分类，最终使用评分系统输出舆情情感标签，需要事先设定一个阈值范围，若经过评分系统输出的结果大于该范围，则评判为正向情感，若小于该范围，则判为负向情感，若在该阈值范围内，则判定为中立情感，这种做法最大的缺点是不灵活，算法存在一定的缺陷，同一类的情感数据的特征可能相差很大，把不同程度上的特征转化为指定的阈值范围，会出现一定程度上的偏差，导致最终舆情分析的结果不准确。

发明内容

本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的基于自注意力的企业舆情分析方法和装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种基于自注意力的企业舆情分析方法，包括：从获取的中文企业舆情数据集中提取文本数据，检查情感标签，对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据，其中，文本数据包括舆情数据的标题、摘要和正文；使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量；将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式；根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果。

其中，对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据包括：建立中文停用词词典，去除文本数据中的停用词；根据文本数据建立文本字典，计算各字词出现的频率，设置频率阈值，过滤掉低于频率阈值的字词，形成新的文本字典；删除文本数据中带有缺失值的文本数据。

其中，使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量包括：使用双向GRU算法对处理后的文本数据进行预训练操作，用各层之间的线性组合表示词向量，通过组合前向语言模型与反向语言模型，学习得到字向量。

其中，将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式包括：根据字向量输入自注意力编码器，按照语句中词语的顺序作为不同时间步进行输入，使用自注意力编码器训练情感分析模型，计算各处理后的文本数据内所有字词间的关系，计算源语句内的每个字词与目标语句中所有字词之间的自注意力系数，将计算得到的自注意力系数与目标语句进行乘积并求和，得到句法层面文本的向量表示。

其中，根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果包括：对向量化的文本进行特征提取，降低特征维度，设置三个情感标签：正向、中立、负向情感，通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率，获取概率最大的情感标签作为舆情分析的分析结果。

本发明另一方面提供了一种基于自注意力的企业舆情分析装置，包括：文本预处理单元，用于从获取的中文企业舆情数据集中提取文本数据，检查情感标签，对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据，其中，文本数据包括舆情数据的标题、摘要和正文；语言模型预学习单元，用于使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量；自注意力编码单元，用于将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式；情感分析单元，用于根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果。

其中，文本预处理单元通过如下方式对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据：文本预处理单元，具体用于建立中文停用词词典，去除文本数据中的停用词；根据文本数据建立文本字典，计算各字词出现的频率，设置频率阈值，过滤掉低于频率阈值的字词，形成新的文本字典；删除文本数据中带有缺失值的文本数据。

其中，语言模型预学习单元通过如下方式使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量：语言模型预学习单元，具体用于使用双向GRU算法对处理后的文本数据进行预训练操作，用各层之间的线性组合表示词向量，通过组合前向语言模型与反向语言模型，学习得到字向量。

其中，自注意力编码单元通过如下方式将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式：自注意力编码单元，具体用于根据字向量输入自注意力编码器，按照语句中词语的顺序作为不同时间步进行输入，使用自注意力编码器训练情感分析模型，计算各处理后的文本数据内所有字词间的关系，计算源语句内的每个字词与目标语句中所有字词之间的自注意力系数，将计算得到的自注意力系数与目标语句进行乘积并求和，得到句法层面文本的向量表示。

其中，情感分析单元通过如下方式根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果：情感分析单元，具体用于对向量化的文本进行特征提取，降低特征维度，设置三个情感标签：正向、中立、负向情感，通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率，获取概率最大的情感标签作为舆情分析的分析结果。

由此可见，通过本发明实施例提供的基于自注意力的企业舆情分析方法和装置，将每个舆情的情感分类设置为三类：正向、中立、负向，分别计算待分析的舆情数据属于三个情感类别的概率，取概率最大的类别作为该篇舆情数据的情感标签，可以帮助政府或企业对新闻或金融消息进行文本情感倾向的分析，掌握企业的动态信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于自注意力的企业舆情分析方法的流程图；

图2为本发明实施例提供的自注意力编码器的实施方式流程图；

图3为本发明实施例提供的基于自注意力的企业舆情分析装置的结构示意图；

图4为本发明实施例提供的基于自注意力的企业舆情分析方法的具体流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在企业舆情分析过程中，重要的是提取出对最终情感倾向具有决定性的关键字词和语句，难点在于如何准确地抽取与表达这些词语和语句，中文表达的多样性这一特性导致情感的倾向性不能直接在语句中通过字词来表示，具有否定词的语句表示不一定是负向的感情，企业的舆情种类繁多，有公司公告、产品动态、人事变动、财务经营、研究成果等，中立情感的舆情数据偏多，正向和负向在产品、财务、成果舆情中出现的较多，所以重要的是在学习词法层面的基础上需要更深层次的学习句法层面的含义，因此本发明的核心是学习一个能表述文本含义和特征的语言模型。

在一个实施方式中，参见图1，本发明实施方式可以包括以下几个步骤：

步骤101：从获取的舆情数据中提取出标题、摘要和正文三个文本特征代表，检查情感标签。

步骤102：对特征文本进行清洗，建立整个文本字典库，去除停用词、低频词，删除具有缺失值的记录。

步骤103：使用双向GRU在整个语料集上进行训练，得到一个双向的语言模型，学习词法层面的含义，同时得到向量化的字词表示方法。

步骤104：通过字向量得到向量化的文本表述方式，使用自注意力编码器对向量化的文本数据进一步编码，学习语句内部字词之间的联系，同时计算自注意力系数，得到最终的文本特征向量。

步骤105：使用分类器对编码器学习到的文本表示进行情感倾向性分析，计算一舆情文本属于各情感类别的概率，得到情感分析结果。

具体来讲，本发明具有如下四种处理操作：

1.文本预处理：对获取的企业舆情数据集进行标题、摘要和正文的提取，检查情感标签；接着对数据进行停用词、低频词过滤和缺失值的处理。

2.语言模型预学习：通过训练双向GRU语言模型，得到一个基于词法层面的语义表示，将文本数据进行向量化。

3.自注意力编码：将预学习的文本表示输入到自注意力编码器中，进一步学习句法层面的语义表达方式，学习句子内部各词汇之间的关系，得到最终的文本特征向量。

4.情感分析：基于编码器学习到的文本表示，将其输入到分类器中，计算各情感类别的概率，得到舆情的情感分析结果。

图4示出了本发明实施例提供的基于自注意力的企业舆情分析方法的具体流程图，参见图4，本发明实施例提供的基于自注意力的企业舆情分析方法，包括：

S1，从获取的中文企业舆情数据集中提取文本数据，检查情感标签，对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据，其中，文本数据包括舆情数据的标题、摘要和正文。

具体地，从获取的中文企业舆情数据集中提取舆情的标题、摘要和正文三个文本特征代表，检查情感标签，之后对对特征文本进行清洗，建立中文停用词字典，去除停用词、低频词，删除具有缺失值的记录。

首先对获取的原始中文企业舆情数据进行标题、摘要和正文的提取，通常情况下，标题的长度小于摘要，摘要的长度小于正文文本的长度。而标题和摘要则是对正文的总结与概括，能很好地反应舆情的主题信息，根据主题信息判断情感倾向往往比正文文本要准确，因为正文中的噪声较大，干扰信息较多，很多与主题无关的语句会直接影响舆情的分析，导致最终分类的结果不准确。为了提高舆情分析的准确率，除了提取正文外，本发明还使用标题和摘要两个属性作为舆情的特征。

作为本发明实施例的一个可选实施方式，对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据包括：建立中文停用词词典，去除文本数据中的停用词；根据文本数据建立文本字典，计算各字词出现的频率，设置频率阈值，过滤掉低于频率阈值的字词，形成新的文本字典；删除文本数据中带有缺失值的文本数据。具体地，建立中文停用词词典，去除企业舆情数据中的停用词，接着根据文本数据建立文本字典，计算各字词出现的频率，同时设置一个频率阈值，过滤掉低于该阈值的所有字词，形成新的文本字典。该字典用于将字词序列化，接下来对舆情文本进行缺失值的处理，检查舆情数据中带有缺失值的文本并将其删除。

具体实施时，建立中文停用字典，可以表示为：D_stop＝{d_1,d_2,…,d_t}，对标题和正文进行停用词表的过滤，过滤后的标题和正文表示为x＝{x_t,x_a}，其中x_t表示标题，x_a表示摘要信息。对x建立文本字典(词库字典)，去掉重复的字词以及出现频率较低的字词，在此设定一个频率阈值th，规定小于th的字词从字典中删除，大于th的字词保留，处理后的字典可以表示为：D_w＝{d_1,d_2,…,d_n,}，经过以上步骤处理后，得到干净易使用的样本数据。

其中，通过文本字典进行序列化文本的操作为：将x替换为每个字词在字典D_w里对应的序号，序列化后的x可以表示为x＝{w_1,w_2,…,w_m}，m为样本里标题与摘要相加最大的长度，亦可以人工设定，不足该长度的以0相补，如此便完成了文本的序列化。

S2，使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量。

具体地，本步骤实质是使用双向GRU算法对上步处理得到的数据进行训练得到相应的字向量，完成词法级别语言模型的学习；即使用双向GRU在整个语料集上进行训练，得到一个双向的语言模型，学习词法层面的含义，同时得到向量化的字词表示方法。

作为本发明实施例的一个可选实施方式，使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量包括：使用双向GRU算法对处理后的文本数据进行预训练操作，用各层之间的线性组合表示词向量，通过组合前向语言模型与反向语言模型，学习得到字向量。

具体实施时，可以使用Bidirectional GRU预训练一个语言模型，学习词法层面的语言表示方式。用各层之间的线性组合表示字向量。

前向的语言模型表示为：

反向的语言模型表示为：

优化目标为最大似然函数：

GRU全称为Gated Recurrent Unit，它优化了LSTM的长依赖计算开销的问题，其具体的计算公式如下：

r_i＝σ(W_r·[h_t-1,x_t])

z_i＝σ(W_z·[h_t-1,x_t])

y_i＝σ(W_o·h_t)

S3，将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式。

在通过上述步骤实现字词向量化后，将其输入基于自注意力机制的编码器中，通过学习语句自身内部所有字词间的关系，计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数，经过线性变化学习句法级别的文本表示方法。可见，本步骤中，使用自注意力编码器对向量化的文本数据进一步编码，学习语句内部字词之间的联系，同时计算自注意力系数，可以得到最终的文本特征向量。

作为本发明实施例的一个可选实施方式，将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式包括：根据字向量输入自注意力编码器，按照语句中词语的顺序作为不同时间步进行输入，使用自注意力编码器训练情感分析模型，计算各处理后的文本数据内所有字词间的关系，计算源语句内的每个字词与目标语句中所有字词之间的自注意力系数，将计算得到的自注意力系数与目标语句进行乘积并求和，得到句法层面文本的向量表示。具体地，可以分两步实现：

S31，根据上述步骤获取的字词向量表示，在其基础上加上位置信息编码后作为每个字的向量，按照语句中词语的顺序作为不同时间步进行输入，使用基于自注意力机制的编码器训练情感分析模型，该模型主要分为两部分：编码器和分类器；每个编码器由两大构件组成，首先是自注意力编码器，根据输入的舆情数据计算各文本内所有字词间的关系，得到源语句每个字词语目标语句中所有字词见的自注意力系数，根据该系数进一步计算输入数据的文本向量化表示方法，通过自注意力编码后，不仅学习了整个语料集上的词汇含义，同时学习到了语句内部字词之间的关系，完成文本的向量表示方式。多个编码器可以堆叠同步计算，分别提取文本的不同特征，分别计算相应的自注意力系数。

S32：将计算得到的自注意力系数与输入的文本向量进行乘积并求和，得到文本的向量表示，接着进行平滑操作，目的是在特征融合的过程中，提高有效特征的使用率。通过对各个维度的特征值进行标准化，可以降低波动较大的特征对模型的影响，使得数据更加的稳定。在数据的测试过程中，需要用整个训练数据的各特征维度上的期望和方差对测试文本进行标准化，因此需要计算整个输入数据的特征期望和方差，为了降低时间的消耗和空间的开销，使用一阶滞后滤波技术来计算所有训练数据集上的期望和方差，在每一次的期望和方差估计中，只需要用到上一批次计算得到的估计期望和方差即可，而不需要保存整个训练数据集，很大程度上减少了内存的占用情况。

具体实施时，经过双向GRU训练后，输入向量转换成矩阵或张量X,x∈R^m×d，其中d为变换的维度，将上述最后得到的字向量作为预训练的语言向量表示输入到自注意力编码器中，按照语句中字词的顺序作为不同时间步进行输入，使用基于自注意力机制的编码器训练情感分析模型，该模型分类两部分:编码器和分类器。编码器可以多个堆叠同时使用，每个编码器由两大构件组成。

首先是自注意力模型，图2为自注意力编码器的实施方式流程图。

步骤201：输入的字向量为X,x∈R^m×d，其中m为样本n中标题和摘要相加最大的长度。每个字向量经过双向GRU处理后的维度均为d。自注意力机制的原理是通过计算目标语句与源语句之间的关系，得到源语句中每个字词对应的目标语句中所有字词的自注意力系数，可以把源目标语句表示为Q，目标语句拆分成key-value健值对，分别表示为K、V，其中K的作用是为了与Q计算自注意力系数，三次线性变换计算过程的具体实现公式如下:

Q＝X·W^Q,

K＝X·W^K,

V＝X·W^V,

步骤202：得到转换后的源语句与目标语句的表示向量后，使用softmax计算字词间的自注意力系数，因为需要计算源语句中每个字词对应的目标语句中所有字词，为了保证自注意力系数的变化范围较为明显，需要对Q和K进行缩放，这里对其同时除以

然后使用softmax归一化，得到源语句对应目标语句的自注意力系数，计算公式如下:

步骤203：得到自注意力系数后再与目标语句V做乘积并求和，得到每个编码器学习到的新的输入文本的向量表示:A。由此可知，Q与K的维度必须一致。经过该步骤操作后，输入的文本数据便完成了语句内所有字词间内部关系的自注意力计算，在基于词法级别的字词表示基础上进一步学习了句法级别的文本表示方式。可由以下公式计算:

其中，Q为输入字向量，K和V均是输出字向量，不同的是其维度不相同，代表的含义是目标语句的向量表示；W^Q,W^K,W^V是模型训练过程中需要学习的参数，因此Q,K,V本质上是经过线性转换的源语句、目标语句的向量表示，自注意力机制最大的特点在于源语句、目标语句的向量表示均是根据输入向量X通过线性变换得到的。

步骤204：在进行线性变换后，暂不使用激活函数，此时文本的表示特征可能波动较大，为了使大部分特征能够进入激活函数的有效范围内，此时需要对特征进行批量标准化操作，称为batch normalization，此时计算每一批次的训练样本在各特征维度上的期望和方差，使用该值对每个样本的各维度特征进行标准化，使每一批次的每一维特征均服从正态分布，具体的实现公式如下所示：

其中，x_i为经过编码器编码后的文本向量，n代表batch大小，一个batch即为一次训练过程中输入模型中的文本数量，m表示所有文本中语句的最大长度，d_v是经过编码器编码后的字向量的维度。∈是一个常量，目的是为了保证稳定性，防止分母出现0的情况从而导致计算出错。由上述公式可以看出，经过标准化的文本向量表示为

为了减小此过程中特征被缩放导致的错误，需要一定程度上对原特征进行还原，还原后的文本特征向量表示为

而w与b则是训练期间需要学习的参数。

经过编码器及标准化处理后，接下来需要对多个编码器编码的结果进行融合，通过一个线性变换不仅可以将多个向量拼接起来转换成单一特征向量，更重要的是降低了多个编码结果融合时的特征数量，在此将拼接后的文本特征用Y表示，则上述的操作可以用以下公式表示：

最终的文本特征向量则表示为E。其中W_e和b是需要学习的参数。在测试数据上进行预测时，同样需要对测试数据的文本特征进行标准化操作，因为测试时不存在批量输入的概念，在此依然使用训练数据集对测试数据的文本特征进行标准化，但不同于训练时期使用批量样本数据标准化的操作，测试时期使用的是整个训练样本集，计算整个训练集上每个维度特征的期望和方差，用该值对测试数据各维度特征进行标准化，因此需要计算整个训练样本集上各维度特征的期望和方差，这里使用的是一阶滞后滤波方法，根据训练时每个批次计算的各维度特征上的期望和方差来估计整个训练样本集上各维度特征的期望和方差，计算公式如下:

v_t＝α·v_t-1+(1-α)·θ_t

其中，v_t表示当前时刻的估计值，v_t-1表示上一时刻的估计值，θ_t为当前时刻的计算值，使用该滤波方法最大的优点是可以避免波动较大的数据的影响，平滑了整体的期望和均值，与此同时，每次估计值的计算只需使用上一批次估计的结果，而不必存储所有批次计算的期望和方差的结果，从而减小了内存空间的开销。

S4，根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果。

具体的，编码器得到的结果作为情感分析分类器的输入，分析得到企业舆情数据最终的情感标签。使用情感分类器对编码器学习到的文本表示进行情感倾向性分析，计算一舆情文本属于各情感类别的概率，得到情感分析结果。

作为本发明实施例的一个可选实施方式，根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果包括：对向量化的文本进行特征提取，降低特征维度，设置三个情感标签：正向、中立、负向情感，通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率，获取概率最大的情感标签作为舆情分析的分析结果。将经过多个编码器编码的结果进行线性融合，把多个文本特征向量转变为单一向量，降低特征的维度，从而可以将平滑后的字向量输入到情感分类器里面，实现舆情的情感分类。

具体实施时，语言表示模型学习完成后，需要将学习的文本特征向量输入到情感分类器中进行情感倾向性分析。对向量化的文本进行特征提取，降低特征维度，分为三个情感标签:正向、中立、负向情感，通过一个线性变换和softmaxt归一化计算舆情所属各情感类别的概率，取概率最大的情感标签作为舆情分析的最终结果。

由此可见，通过本发明实施例提供的基于自注意力的企业舆情分析方法，对获取的中文企业舆情数据集通过标题、摘要与正文对其进行标注与检查，基于标注后的数据进行文本预处理，对处理后的数据进行语言模型的预训练，得到相应的字向量，将训练文本向量化后输入基于自注意力机制的编码器中进行训练，同时在验证集上进行模型的验证，将编码器输出的结果输入到分类器中，得到舆情的情感标签。可以帮助政府或企业对新闻或金融消息进行文本情感倾向的分析，掌握企业的动态信息。

图3示出了本发明实施例提供的基于自注意力的企业舆情分析装置，该基于自注意力的企业舆情分析装置应用于上述基于自注意力的企业舆情分析方法，以下仅对基于自注意力的企业舆情分析装置的结构进行简要说明，其他未尽事宜，请参照上述基于自注意力的企业舆情分析方法的相关说明，在此不再赘述。参见图3，本发明实施例提供的基于自注意力的企业舆情分析装置，包括：

文本预处理单元301，用于从获取的中文企业舆情数据集中提取文本数据，检查情感标签，对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据，其中，文本数据包括舆情数据的标题、摘要和正文；

语言模型预学习单元302，用于使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量；

自注意力编码单元303，用于将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式；

情感分析单元304，用于根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果。

由此可见，通过本发明实施例提供的基于自注意力的企业舆情分析装置，对获取的中文企业舆情数据集通过标题、摘要与正文对其进行标注与检查，基于标注后的数据进行文本预处理，对处理后的数据进行语言模型的预训练，得到相应的字向量，将训练文本向量化后输入基于自注意力机制的编码器中进行训练，同时在验证集上进行模型的验证，将编码器输出的结果输入到分类器中，得到舆情的情感标签。可以帮助政府或企业对新闻或金融消息进行文本情感倾向的分析，掌握企业的动态信息。

作为本发明实施例的一个可选实施方式，文本预处理单元301通过如下方式对文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据：文本预处理单元301，具体用于建立中文停用词词典，去除文本数据中的停用词；根据文本数据建立文本字典，计算各字词出现的频率，设置频率阈值，过滤掉低于频率阈值的字词，形成新的文本字典；删除文本数据中带有缺失值的文本数据。

作为本发明实施例的一个可选实施方式，语言模型预学习单元302通过如下方式使用双向GRU算法对处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量：语言模型预学习单元302，具体用于使用双向GRU算法对处理后的文本数据进行预训练操作，用各层之间的线性组合表示词向量，通过组合前向语言模型与反向语言模型，学习得到字向量。

作为本发明实施例的一个可选实施方式，自注意力编码单元304通过如下方式将字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式：自注意力编码单元304，具体用于根据字向量输入自注意力编码器，按照语句中词语的顺序作为不同时间步进行输入，使用自注意力编码器训练情感分析模型，计算各处理后的文本数据内所有字词间的关系，计算源语句内的每个字词与目标语句中所有字词之间的自注意力系数，将计算得到的自注意力系数与目标语句进行乘积并求和，得到句法层面文本的向量表示。

作为本发明实施例的一个可选实施方式，情感分析单元304通过如下方式根据句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果：情感分析单元304，具体用于对向量化的文本进行特征提取，降低特征维度，设置三个情感标签：正向、中立、负向情感，通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率，获取概率最大的情感标签作为舆情分析的分析结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于自注意力的企业舆情分析方法，其特征在于，包括：

从获取的中文企业舆情数据集中提取文本数据，检查情感标签，对所述文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据，其中，所述文本数据包括舆情数据的标题、摘要和正文；

使用双向GRU算法对所述处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量；

将所述字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式；

根据所述句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果；

其中：

所述使用双向GRU算法对所述处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量包括：

使用所述双向GRU算法对所述处理后的文本数据进行预训练操作，用各层之间的线性组合表示词向量，通过组合前向语言模型与反向语言模型，学习得到所述字向量；

所述将所述字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式包括：

根据所述字向量输入自注意力编码器，按照语句中词语的顺序作为不同时间步进行输入，使用自注意力编码器训练情感分析模型，计算各处理后的文本数据内所有字词间的关系，计算源语句内的每个字词与目标语句中所有字词之间的自注意力系数，将计算得到的所述自注意力系数与所述目标语句进行乘积并求和，得到句法层面文本的向量表示；

所述根据所述句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果包括：

对向量化的文本进行特征提取，降低特征维度，设置三个情感标签：正向、中立、负向情感，通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率，获取概率最大的情感标签作为舆情分析的分析结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据包括：

建立中文停用词词典，去除所述文本数据中的停用词；

根据所述文本数据建立文本字典，计算各字词出现的频率，设置频率阈值，过滤掉低于所述频率阈值的字词，形成新的文本字典；

删除所述文本数据中带有缺失值的文本数据。

3.一种基于自注意力的企业舆情分析装置，其特征在于，包括：

文本预处理单元，用于从获取的中文企业舆情数据集中提取文本数据，检查情感标签，对所述文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据，其中，所述文本数据包括舆情数据的标题、摘要和正文；

语言模型预学习单元，用于使用双向GRU算法对所述处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量；

自注意力编码单元，用于将所述字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式；

情感分析单元，用于根据所述句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果；

其中：

所述语言模型预学习单元通过如下方式使用双向GRU算法对所述处理后的文本数据进行词法学习，训练得到语言模型，学习得到相应的字向量：

所述语言模型预学习单元，具体用于使用所述双向GRU算法对所述处理后的文本数据进行预训练操作，用各层之间的线性组合表示词向量，通过组合前向语言模型与反向语言模型，学习得到所述字向量；

所述自注意力编码单元通过如下方式将所述字向量输入自注意力编码器学习字词间的关系，通过计算自注意力系数学习句法层面文本表示方式：

所述自注意力编码单元，具体用于根据所述字向量输入自注意力编码器，按照语句中词语的顺序作为不同时间步进行输入，使用自注意力编码器训练情感分析模型，计算各处理后的文本数据内所有字词间的关系，计算源语句内的每个字词与目标语句中所有字词之间的自注意力系数，将计算得到的所述自注意力系数与所述目标语句进行乘积并求和，得到句法层面文本的向量表示；

所述情感分析单元通过如下方式根据所述句法层面文本表示方式，通过情感分析分类器计算各情感类别的概率，得到企业舆情的分析结果：

情感分析单元，具体用于对向量化的文本进行特征提取，降低特征维度，设置三个情感标签：正向、中立、负向情感，通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率，获取概率最大的情感标签作为舆情分析的分析结果。

4.根据权利要求3所述的装置，其特征在于，所述文本预处理单元通过如下方式对所述文本数据进行预处理，去除停用词、低频词和缺失值，得到处理后的文本数据：

所述文本预处理单元，具体用于建立中文停用词词典，去除所述文本数据中的停用词；根据所述文本数据建立文本字典，计算各字词出现的频率，设置频率阈值，过滤掉低于所述频率阈值的字词，形成新的文本字典；删除所述文本数据中带有缺失值的文本数据。