CN110196976A

CN110196976A - 文本的情感倾向分类方法、装置和服务器

Info

Publication number: CN110196976A
Application number: CN201910391612.0A
Authority: CN
Inventors: 王振杰
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-09-03
Anticipated expiration: 2039-05-10
Also published as: CN110196976B

Abstract

本公开提供了一种文本的情感倾向分类方法、装置和服务器；其中，该方法包括：获取待处理的文本数据；对文本数据进行分词处理，得到至少一个分词；通过预设的转换规则，将分词转换成词向量；将词向量输入至预先训练完成的情感倾向分类模型中，输出文本数据的情感倾向分类结果；其中，情感倾向分类模型包括双向GRU网络层和单向GRU网络层；双向GRU网络层包括多个依次连接的双向GRU网络单元；单向GRU网络层包括多个依次连接的单向GRU网络单元；双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接。本公开可以提高情感倾向分类结果的准确性和鲁棒性。

Description

文本的情感倾向分类方法、装置和服务器

技术领域

本公开涉及舆情分析技术领域，尤其是涉及一种文本的情感倾向分类方法、装置和服务器。

背景技术

相关技术中，可以使用情感词典判断文本的情感倾向，具体可以将文本与情感词典中的词进行匹配，对匹配结果进行统计分析，再基于预设的判断规则确定文本的情感倾向；但是情感词典和所需的判断规则均需要人工设计，因而使用该方式分析文本的情感倾向准确性依赖于人工经验和先验知识，易导致分析结果准确性不稳定且缺少广泛适用性。另一种方式中，可以采用LSTM(Long Short-Term Memory，长短期记忆网络)对文本的情感倾向进行分类；但是该LSTM网络不仅结构复杂、难以实现，而且仅能捕捉到文本的一部分语义信息，导致分析结果的准确性较差。

发明内容

本公开的目的在于提供一种文本的情感倾向分类方法、装置和服务器，以提高情感倾向分类结果的准确性和鲁棒性。

为了实现上述目的，本公开采用的技术方案如下：

第一方面，本公开提供了一种文本的情感倾向分类方法，该方法包括：获取待处理的文本数据；对文本数据进行分词处理，得到至少一个分词；通过预设的转换规则，将分词转换成词向量；将词向量输入至预先训练完成的情感倾向分类模型中，输出文本数据的情感倾向分类结果；其中，情感倾向分类模型包括双向GRU网络层和单向GRU网络层；双向GRU网络层包括多个依次连接的双向GRU网络单元；单向GRU网络层包括多个依次连接的单向GRU网络单元；双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接。

第二方面，本公开提供了一种文本的情感倾向分类装置，装置包括：数据获取模块，用于获取待处理的文本数据；分词模块，用于对文本数据进行分词处理，得到至少一个分词；转换模块，用于通过预设的转换规则，将分词转换成词向量；分类模块，用于将词向量输入至预先训练完成的情感倾向分类模型中，输出文本数据的情感倾向分类结果；其中，情感倾向分类模型包括双向GRU网络层和单向GRU网络层；双向GRU网络层包括多个依次连接的双向GRU网络单元；单向GRU网络层包括多个依次连接的单向GRU网络单元；双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接。

第三方面，本公开提供了一种服务器，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述文本的情感倾向分类方法。

第四方面，本公开提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述文本的情感倾向分类方法。

上述文本的情感倾向分类方法、装置、服务器和机器可读存储介质，其使用的情感倾向分类模型中包含双向GRU网络层和单向GRU网络层，并且双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接。待处理文本进行分词、将分词转换成词向量后，将词向量输入至上述情感倾向分类模型中，从而得到文本数据的情感倾向分类结果；该方式中，通过模型中的双向GRU网络层可以获得分词间的双向语义依赖关系，通过单向GRU网络层可以将双向GRU网络层输出的双向GRU运算结果进行进一步汇总，从而输出最终的运算结果进行情感倾向分类，在全面提取文本语义信息的基础上实现情感倾向分类，分类结果的准确性和鲁棒性更佳。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施方式提供的一种情感倾向分类模型的结构示意图；

图2为本公开实施方式提供的一种文本的情感倾向分类方法的流程图；

图3为本公开实施方式提供的另一种情感倾向分类模型的结构示意图；

图4为本公开实施方式提供的另一种文本的情感倾向分类方法的流程图；

图5为本公开实施方式提供的情感倾向分类模型中，一种双向GRU网络单元计算前向GRU结果和后向GRU结果的原理示意图；

图6为本公开实施方式提供的一种GRU的神经网络结构图；

图7为本公开实施方式提供的情感倾向分类模型中，一种双向GRU网络单元和单向GRU网络单元的原理示意图；

图8为本公开实施方式提供的另一种情感倾向分类模型的结构示意图；

图9为本公开实施方式提供的另一种情感倾向分类模型的原理示意图；

图10为本公开实施方式提供的一种文本的情感倾向分类装置的结构示意图；

图11为本公开实施方式提供的一种服务器的结构示意图。

具体实施方式

下面将结合实施方式对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本公开一部分实施方式，而不是全部的实施方式。基于本公开中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本公开保护的范围。

考虑到相关技术中使用感情词典和LSTM网络分析文本的情感倾向时准确性较差的问题，本公开实施方式提供了一种文本的情感倾向分类方法、装置和服务器；该技术可以应用于高校舆情分析、社会舆情、网络舆情分析等场景中。下面具体描述。

首先，本实施方式中提供的文本的情感倾向分类方法，拟采用深度学习网络训练得到的情感倾向分类模型，如图1所示，该情感倾向分类模型包括双向GRU(GatedRecurrent Unit，门控循环单元)网络层和单向GRU网络层；双向GRU网络层包括多个依次连接的双向GRU网络单元；单向GRU网络层包括多个依次连接的单向GRU网络单元；双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接。

作为示例，图1中的双向GRU网络层包括四个依次连接的双向GRU网络单元，单向GRU网络层包括四个依次连接的单向GRU网络单元。在实际实现时，双向GRU网络单元和单向GRU网络单元的数量可以根据实际需求设置，如70个、100个等。通常，双向GRU网络单元和单向GRU网络单元的数量相同，且相应位置的双向GRU网络单元与单向GRU网络单元相连接。

上述相应位置可以理解为：如果双向GRU网络单元和单向GRU网络单元的数量为N，则第i个双向GRU网络单元与第i个单向GRU网络单元为相应位置的双向GRU网络单元与单向GRU网络单元，即第i个双向GRU网络单元与第i个单向GRU网络单元相连接；其中，N为大于1的自然数；1≤i≤N。

基于上述情感倾向分类模型，如图2所示的一种文本的情感倾向分类方法的流程图；该方法包括如下步骤：

步骤S202，获取待处理的文本数据。

该文本数据通常由字符或字符串组成；该文本数据可以从网络上爬取，如微博、贴吧、评论网站等。

步骤S204，对文本数据进行分词处理，得到至少一个分词。

词语通常是文本数据中最小的语义单元，通过分析文本数据中各个词语的语义，可以统计得到该文本数据的情感倾向。因此，需要对文本数据进行分词处理，分词处理是自然语言处理中较为基础的一个处理方法，分词处理可以上述文本数据切割成一个个单独的词语。在实际实现时，分词处理具体可以采用开源的分词工具包实现，如Jieba工具包等。

步骤S206，通过预设的转换规则，将分词转换成词向量。

由于计算机或服务器不能直接处理文本格式的数据，因而需要将文本数据中的各个分词转换成数字格式的向量，即上述词向量。其中一种方式中，可以将每个分词转换成一个只含有一个非零元素的向量，不同分词对应的向量中，非零元素的位置不同，该方式得到的向量为高维度高稀疏的向量。例如，文本数据“我的家乡在河南”，经分词处理后，得到分词“我”“的”“家乡”“在”“河南”；其中，“我”对应的词向量为“10000”，“的”对应的词向量为“01000”，“家乡”对应的词向量为“00100”，“在”对应的词向量为“00010”，“河南”对应的词向量为“00001”。

另一种方式中，可以将分词转换成稠密低密度的实数向量，相对于上述高维度高稀疏的向量，该方式转换得到的向量包含有较为丰富的语义信息。在实际实现时，将分词转换成词向量的过程，也可以采用相关的开源工具实现，如gensim工具包等。

步骤S208，将词向量输入至预先训练完成的情感倾向分类模型中，输出文本数据的情感倾向分类结果。

基于前述图1提供的情感倾向分类模型，可以将上述词向量输入至该模型中双向GRU网络层中的各个双向GRU网络单元中；如果文本数据被切分成多个分词，则可以按照分词在文本数据中的排列顺序，将每个分词转换得到的词向量输入至相应位置上的双向GRU网络单元；例如，文本数据包含有四个分词，按照分词在文本数据中的位置，从左往右依次为分词1、分词2、分词3和分词4；则分词1对应的词向量1输入至左数第一个双向GRU网络单元中，分词2对应的词向量2输入至左数第二个双向GRU网络单元中，分词3对应的词向量3输入至左数第三个双向GRU网络单元中，分词4对应的词向量4输入至左数第四个双向GRU网络单元中，依次类推。

分词对应的词向量输入至双向GRU网络单元后，双向GRU网络单元会对该分词进行前向的GRU运算和后向GRU运算，得到该分词的双向GRU运算结果，以获取分词之间前向和后向的语义依赖关系。双向GRU网络单元将该分词的双向GRU运算结果输入至与该双向GRU网络单元连接的单向GRU网络单元；单向GRU网络层中的各个单向GRU网络单元将接收到的各个分词的双向GRU运算结果进行汇总，并由最后一个单向GRU网络单元输出最终的运算结果，即上述情感倾向分类结果。

上述文本的情感倾向分类方法，其使用的情感倾向分类模型中包含双向GRU网络层和单向GRU网络层，并且双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接。待处理文本进行分词、将分词转换成词向量后，将词向量输入至上述情感倾向分类模型中，从而得到文本数据的情感倾向分类结果；该方式中，通过模型中的双向GRU网络层可以获得分词间的前后双向语义依赖关系，通过单向GRU网络层可以将双向GRU网络层输出的双向GRU运算结果进行进一步汇总，从而输出最终的运算结果进行情感倾向分类，在全面提取文本语义信息的基础上实现情感倾向分类，分类结果的准确性和鲁棒性更佳。

本公开还提供另一种文本的情感倾向分类方法，该实施方式中，提供一种更加具体的情感倾向分类模型，以及基于该模型的情感倾向分类方法，并描述该模型中各个单元、层等的功能。

该方法所使用的情感倾向分类模型如图3所示，该模型中的双向GRU网络层包括n个依次连接的双向GRU网络单元，相应地，单向GRU网络层中包括n个依次连接的单向GRU网络单元；相应位置的双向GRU网络单元与单向GRU网络单元连接。其中的n为大于1的整数。

图3中的箭头示出了模型中的数据流向，词向量进入双向GRU网络单元后，双向GRU网络单元需要获取前后相邻的双向GRU网络单元的相关数据进行双向GRU计算，将计算结果输出至所连接的单向GRU网络单元，单向GRU网络层中的各个单向GRU网络单元进行后向的GRU计算，直至最后一个单向GRU网络单元将计算结果输出至全连接层，进而通过分类函数层输出最终的分类结果。

考虑到文本数据中分词的数量不同，可能大于n也可能小于n；该情况下，为了使文本数据的词向量的数量与模型相匹配，如果该文本数据对应的词向量的数量为m，且m小于n，可以将该文本数据对应的词向量依次输入至第1至第m个双向GRU网络单元中，对于m+1至n的双向GRU网络单元，则输入预设的补充向量，如零向量；如果m大于n，则可以将该文本数据对应的第1至第n个词向量依次输入至第1至第n个双向GRU网络单元中，对于第n+1至第m个词向量，则丢弃处理。

基于上述情感倾向分类模型，参见图4所示的情感倾向分类方法的流程图；该方法包括如下步骤：

步骤S402，获取待处理的文本数据。

步骤S404，对文本数据进行分词处理，得到至少一个分词。

步骤S406，通过预设的转换规则，将分词转换成词向量。

上述步骤可以通过jieba对文本数据进行分词处理，通过Word2vec将分词转换成词向量。该Word2vec是开源的词向量训练工具，包含CBOW和Skip-Gram两个可选择的训练模型，每种模型又同时包括Hierarchical Softmax和Negative Sampling两种优化加速算法。下述表1为Word2vec运行的硬件环境示例，下述表2为Word2vec的主要参数示例。

表1

表2

由上述表2可知，词向量维度可以预先设置，当设置值为100时，分词转化的词向量为100位的数字。

步骤S408，如果分词为多个，将每个分词对应的词向量分别输入至双向GRU网络层中的指定位置上的双向GRU网络单元；该指定位置为：分词在文本数据中的排列位置；

通常，文本数据经分词处理后，各个分词的排列顺序与分词在文本数据中的排列位置相同；分词被转换成词向量后，词向量的排列顺序与分词的排列顺序相同。为了获取文本数据中前后分词之间的语义依赖关系，上述步骤中按照分词在文本数据中的排列位置，将每个分词对应的词向量输入至与分词在文本数据中的排列位置相同的排列位置上的双向GRU网络单元。例如，文本数据中第一个分词对应的词向量输入至双向GRU网络层中的第一个双向GRU网络单元，文本数据中第二个分词对应的词向量输入至双向GRU网络层中的第二个双向GRU网络单元，依次类推。

步骤S410，通过双向GRU网络单元计算输入的词向量的前向GRU结果和后向GRU结果，输出前向GRU结果和后向GRU结果的拼接结果。

图5示出了双向GRU网络单元计算前向GRU结果和后向GRU结果的原理示意图；双向GRU网络单元也可以称为BiGRU。双向GRU网络单元中包含有两个GRU计算模块，分属于前向层和后向层，相邻的双向GRU网络单元中的前向层的GRU计算模块相连接，后向层的GRU计算模块相连接。

以第t个双向GRU网络单元为例，第t-1个双向GRU网络单元的前向层的GRU计算模块的前向GRU结果输入至第t个双向GRU网络单元的前向层的GRU计算模块中，同时第t个分词的词向量x_t也输入至第t个双向GRU网络单元的前向层的GRU计算模块中，第t个双向GRU网络单元的前向层的GRU计算模块对输入的第t-1个双向GRU网络单元的前向层的GRU计算模块的前向GRU结果和词向量x_t进行GRU计算，即前向GRU结果再输入至第t+1个双向GRU网络单元的前向层的GRU计算模块。

同理，第t+1个双向GRU网络单元的后向层的GRU计算模块的后向GRU结果输入至第t个双向GRU网络单元的后向层的GRU计算模块中，同时第t个分词的词向量x_t也输入至第t个双向GRU网络单元的后向层的GRU计算模块中，第t个双向GRU网络单元的后向层的GRU计算模块对输入的第t+1个双向GRU网络单元的后向层的GRU计算模块的后向GRU结果和词向量x_t进行GRU计算，即其后向GRU结果再输入至第t-1个双向GRU网络单元的后向层的GRU计算模块。

另外，第t个双向GRU网络单元的前向层的GRU计算模块的前向GRU结果与后向层的GRU计算模块的后向GRU结果的拼接结果h_t＝σ 即h_t为和加和后的结果。

步骤S412，将上述拼接结果输入至与双向GRU网络单元连接的单向GRU网络单元。

步骤S414，对于第一个单向GRU网络单元，计算输入的拼接结果的后向GRU结果，将计算结果输出至第二个单向GRU网络单元。

步骤S416，对于除第一个单向GRU网络单元以外的单向GRU网络单元，将前一个单向GRU网络单元输出的计算结果与当前单向GRU网络单元接收到的拼接结果进行后向GRU运算，将计算结果输出至下一个单向GRU网络单元；直至最后一个单向GRU网络单元输出计算结果。

图6示出了GRU的神经网络结构图；GRU运算原理如图6所示，以后向GRU计算为例，对于第t个单向GRU网络单元，h_t-1为第t-1个单向GRU网络单元输出的计算结果，x_t为第t个双向GRU网络单元输出的拼接结果，h_t为第t个单向GRU网络单元输出的计算结果；该GRU运算中包含有两个门，分别为更新门和重置门。上述更新门用于控制前一个单向GRU网络单元输出的计算结果被带到当前单向GRU网络单元的程度，值越大表示带入的信息越多，重置门用于控制忽略前一个单向GRU网络单元输出的计算结果的程度，值越小说明忽略的越多。

GRU运算原理描述如下：首先，通过第t-1个单向GRU网络单元输出的计算结果h_t-1和第t个双向GRU网络单元输出的拼接结果来获取两个门控状态：z_t＝σ(W_z·[h_t-1,x_t])；r_t＝σ(W_r·[h_t-1,x_t])；得到门控状态后，使用重置门控状态得到重置之后的数据r_t*h_t-1，再将r_t*h_t-1与输入的x_t进行拼接；然后通过一个tanh激活函数将数据缩放到-1～1的范围内，即可得到这里的主要包含当前输入的x_t数据。通过该方式，将添加到当前的隐藏状态，相当于记忆了当前的状态。在这个阶段，同时进行了遗忘和记忆两个步骤；最后使用先前得到的更新门控z_t，得到

图7示出了双向GRU网络单元和单向GRU网络单元的原理示意图；其中的单向GRU网络单元具体可以通过GRU计算模块实现；第一个双向GRU网络单元输出的拼接结果输入至单向GRU网络层中的第一个单向GRU网络单元，基于输入的拼接结果进行后向GRU运算，输出计算结果至下一个单向GRU网络单元。直至第n个单向GRU网络单元根据第n-1个单向GRU网络单元输出的计算结果，以及第n个双向GRU网络单元输出的拼接结果进行后向GRU运算，即输出H_t计算结果至全连接层。其中，为双向GRU网络层中各个双向GRU网络单元的输出集合中第i个拼接结果；h_t'_-1为第t个双向GRU网络单元的上一个双向GRU网络单元输出的拼接结果。

步骤S418，将最后一个单向GRU网络单元输出的计算结果输入至全连接层；

步骤S420，通过全连接层对接收到的计算结果进行特征映射处理，得到文本数据对应的特征向量；该全连接层预设有权重参数和偏置参数，特征映射处理基于权重参数和偏置参数进行；

步骤S422，将特征向量输入至分类函数层；

步骤S424，通过分类函数层对特征向量进行归一化处理，得到文本数据的情感倾向分类结果。

继续参见图3或图7，该情感倾向分类模型还包括全连接层和分类函数层；该全连接层也可以称为全连接神经网络，全连接层对接收到的计算结果进行特征映射处理，具体可以采用下述公式实现：y_t＝H_tW_p+b_p；其中，y_t为映射后的特征向量；H_t为最后一个单向GRU网络单元的输出结果，W_p为全连接层的权重参数，b_p为全连接层的偏置参数。

如图7所示，该分类函数层可以通过SoftMax函数实现，当然也可以通过其他分类函数实现，如sigmoid函数等。以SoftMax函数为例，该SoftMax函数的计算公式如下：Softmax(x)＝exp(y_i)/∑_jexp(y_j)；该SoftMax函数也可以理解为对全连接层输出的特征向量的归一化处理。如果预先划分文本的情感倾向为四类，则该SoftMax函数输出的是一个四维的向量，该向量中的第一个值表示该文本数据的情感倾向属于第一类的概率值，向量中的第二个值表示该文本数据的情感倾向属于第二类的概率值，以此类推。该向量中的四个值的总和为1，哪个概率值最大，则该文本数据属于最大概率值对应的情感倾向类型。

上述方式中，具体描述了在通过情感倾向分类模型对词向量进行处时，双向GRU网络层、单向GRU网络层、全连接层以及分类函数层的具体功能；通过双向GRU网络层可以获得分词间的双向语义依赖关系，通过单向GRU网络层可以将双向GRU网络层输出的双向GRU运算结果进行进一步汇总，从而输出最终的运算结果进行情感倾向分类，在全面提取文本语义信息的基础上实现情感倾向分类，分类结果的准确性和鲁棒性更佳。

为了进一步提高模型分类的准确性，本实施方式还提供另一种情感倾向分类模型。如图8所示，该模型中的双向GRU网络层为多层；多层双向GRU网络层的相应位置上的双向GRU网络单元依次连接；最后一层双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接。该模型结构也可以称为SBU-GRUs(Deep StackedBidirectional and Unidirectional GRU，深层堆叠的双向和单向GRU)结构；该结构可以充分提取文本数据的前向和后向依赖关系，结合深层BiGRUs能够更好地提取文本的特征，学习的特征将更加全面，在准确性和鲁棒性方面实现了卓越的分类性能。

图8中以三层双向GRU网络层为例，双向GRU网络层为1中的双向GRU网络单元1、双向GRU网络层为2中的双向GRU网络单元1和双向GRU网络层为3中的双向GRU网络单元1依次连接，依次类推，双向GRU网络层为1中的双向GRU网络单元n、双向GRU网络层为2中的双向GRU网络单元n和双向GRU网络层为3中的双向GRU网络单元n依次连接。并且，双向GRU网络层为3中的双向GRU网络单元1与单向GRU网络层中的单向GRU网络单元1连接，依次类推，双向GRU网络层为3中的双向GRU网络单元n与单向GRU网络层中的单向GRU网络单元n连接。

词向量x_t从双向GRU网络层1中的双向GRU网络单元t输入，经过三个双向GRU网络单元的循环处理，最终由双向GRU网络层3中的双向GRU网络单元t输出h_t。每个双向GRU网络单元的数据处理方式与上述实施方式相同。

基于该模型，上述实施方式中的通过双向GRU网络单元计算输入的词向量的前向GRU结果和后向GRU结果，输出前向GRU结果和后向GRU结果的拼接结果的步骤，还可以通过下述方式实现：对于第一层双向GRU网络层，通过双向GRU网络层中的双向GRU网络单元计算输入的词向量的前向GRU结果和后向GRU结果，输出前向GRU结果和后向GRU结果的中间拼接结果至第二层双向GRU网络层；对于除第一层双向GRU网络层以外的双向GRU网络层，通过当前层的双向GRU网络层中的双向GRU网络单元计算上一层双向GRU网络层输出的中间拼接结果的前向GRU结果和后向GRU结果，输出当前层的双向GRU网络层对应的中间拼接结果至下一层双向GRU网络层；直至最后一层双向GRU网络层输出最终拼接结果。

结合图9，图9中的三层双向GRU网络层的结构相同，运算原理也相同，第一层双向GRU网络层中某个双向GRU网络单元输出的中间拼接结果输入至第二次双向GRU网络层中，与该双向GRU网络单元连接的双向GRU网络单元中，依次类推；词向量经过三层双向GRU网络层的处理，由最后一层双向GRU网络层输入最终拼接结果。经过多层双向GRU网络单元的处理，可以提取出文本数据的词语之间深层次的语义依赖关系，因而模型最终输出的分类结果更加准确、稳定。

另外，本实施方式还提供一种情感倾向分类模型的训练数据的获取方式。以高校舆情分析为例，针对高校论坛等网络平台，通过网络爬虫爬取论坛空间的页面信息，然后进行页面解析，得到所需要的数据集。具体而言，可以读取论坛的页面文件，然后定位HTML标签，获取话题信息，该话题信息包括作者、标题、正文、发表时间、人气数、回帖数，评论等，进而将这些话题信息存储到数据库中。

然后再对上述话题信息进行进一步的整理，具体地，从数据库中获取上述话题信息，将话题信息中的所有话题整理到一个文件中，每个话题可以占据一行，该文件可以保存为“话题.txt”文件；针对每个话题的评论内容，可以使用一个文件保存，如：“话题1.txt”、“话题2.txt”“话题3.txt”等；该文件中的每条评论内容可以占据一行，上述“话题.txt”文件中还保存有每个话题对应的话题标识，该话题标识用于查找该话题的评论内容的文件。

基于上述文件生成模型的训练数据时，可以将保存话题的评论内容的文件整合成一个文件。预先划定四类情感等级，分别为喜欢、平和、悲伤和愤慨，四个情感等级分别对应四个情感标识，分别为0、1、2和3。采用人工的方式，将上述整合得到的文件中每条评论标注上述情感标识。为了保证情感标识的准确性，可以由多位工作人员在不同的时间段进行标注，因而每条评论内容对应三个情感标识，取其中数量较多的情感标识作为该评论内容的最终情感标识。

然后，可以采用随机切分的方法随机将上述评论数据切分为训练集和测试集，切分比例可以预先设置，如8:2；其中的训练集用于训练模型，测试集用于测试分类模型的分类效果。在模型的训练过程时，还需要预先设置迭代次数，当训练到达该迭代次数时，停止训练，然后基于损失函数评估模型的准确度；该损失函数可以为其中y为预测值，为实际值，N为样本数目。

在模型的测试阶段，可以通过下述指标评估模型，如模型分类的精准率、召回率及F1值等；其中，模型分类的精准率召回率F1值其中，a表模型判断文本数据的情感倾向类别正确的数目，b表示模型判断文本数据的情感倾向类别错误，且将不属于此类的文本数据判别为此类别的数目，c表示模型判断文本数据的情感倾向类别错误，且将此类的情感数据判断成其它类别的数目。

下述表3为采用上述训练方式训练得到的模型的评估结果。

表3

情感分类模型	精准率	召回率	F1值
				SBU-GRUs	0.892	0.886	0.889

模型经上述方式训练完成后，即可使用上述实施方式中提供的情感倾向分类方法进行情感倾向分类。针对于某一话题的多条评论内容，可以通过模型输出每条评论内容的情感倾向类别，判断完毕后，可以再进行统计分析，比如，持喜欢态度的人群占比、持悲伤态度的人群占比等。该模型还可以接入综合的舆情分析平台，基于该平台获取论坛数据，以实时分析论坛中评论的情感倾向。

通过上述训练数据训练得到的模型可以用于高校舆情分析，该模型可以对高校的论坛或者其他平台的数据集进行探索分析和处理，首先利用自然语言处理方法进行文本数据的预处理、分词、特征提取等，然后利用上述情感倾向分类模型进行情感分类，挖掘出人们对这些教育问题或现象的情感倾向，从而聚集到关于师生权益，校园声誉等方面的舆情监控，实现对高校舆情的主动监测和智能化管理。

如图10所示，本公开还提供一种文本的情感倾向分类装置，该装置包括：

数据获取模块101，用于获取待处理的文本数据；

分词模块102，用于对文本数据进行分词处理，得到至少一个分词；

转换模块103，用于通过预设的转换规则，将分词转换成词向量；

分类模块104，用于将词向量输入至预先训练完成的情感倾向分类模型中，输出文本数据的情感倾向分类结果；其中，情感倾向分类模型包括双向GRU网络层和单向GRU网络层；双向GRU网络层包括多个依次连接的双向GRU网络单元；单向GRU网络层包括多个依次连接的单向GRU网络单元；双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接。

进一步地，上述分类模块还用于：如果分词为多个，将每个分词对应的词向量分别输入至双向GRU网络层中的指定位置上的双向GRU网络单元；指定位置为：分词在文本数据中的排列位置；通过双向GRU网络单元计算输入的词向量的前向GRU结果和后向GRU结果，输出前向GRU结果和后向GRU结果的拼接结果；将拼接结果输入至与双向GRU网络单元连接的单向GRU网络单元；对于第一个单向GRU网络单元，计算输入的拼接结果的后向GRU结果，将计算结果输出至第二个单向GRU网络单元；对于除第一个单向GRU网络单元以外的单向GRU网络单元，将前一个单向GRU网络单元输出的计算结果与当前单向GRU网络单元接收到的拼接结果进行后向GRU运算，将计算结果输出至下一个单向GRU网络单元；直至最后一个单向GRU网络单元输出计算结果；根据最后一个单向GRU网络单元输出的计算结果确定文本数据的情感倾向分类结果。

进一步地，上述情感倾向分类模型还包括全连接层和分类函数层；上述分类模块还用于：将最后一个单向GRU网络单元输出的计算结果输入至全连接层；通过全连接层对接收到的计算结果进行特征映射处理，得到文本数据对应的特征向量；全连接层预设有权重参数和偏置参数，特征映射处理基于权重参数和偏置参数进行；将特征向量输入至分类函数层；通过分类函数层对特征向量进行归一化处理，得到文本数据的情感倾向分类结果。

进一步地，上述情感倾向分类模型中的双向GRU网络层为多层；多层双向GRU网络层的相应位置上的双向GRU网络单元依次连接；最后一层双向GRU网络层中的双向GRU网络单元与单向GRU网络层中相应位置上的单向GRU网络单元连接；上述分类模块还用于：对于第一层双向GRU网络层，通过双向GRU网络层中的双向GRU网络单元计算输入的词向量的前向GRU结果和后向GRU结果，输出前向GRU结果和后向GRU结果的中间拼接结果至第二层双向GRU网络层；对于除第一层双向GRU网络层以外的双向GRU网络层，通过当前层的双向GRU网络层中的双向GRU网络单元计算上一层双向GRU网络层输出的中间拼接结果的前向GRU结果和后向GRU结果，输出当前层的双向GRU网络层对应的中间拼接结果至下一层双向GRU网络层；直至最后一层双向GRU网络层输出最终拼接结果。

本实施方式提供了一种与上述方法实施方式相对应的服务器，图11为该服务器的结构示意图，如图11所示，该设备包括处理器1101和存储器1100；其中，存储器1100用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述情感倾向分类方法。

图11所示的服务器还包括总线1102和通信接口1103，处理器1101、通信接口1103和存储器1100通过总线1102连接。该服务器可以是网络边缘设备。

其中，存储器1100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线1102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1103用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv11报文通过网络接口发送至用户终端。

处理器1101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1100，处理器1101读取存储器1100中的信息，结合其硬件完成前述实施方式的方法的步骤。

本公开实施方式还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述情感倾向分类方法，具体实现可参见方法实施方式，在此不再赘述。

本公开实施方式所提供的服务器，其实现原理及产生的技术效果和前述方法实施方式相同，为简要描述，装置实施方式部分未提及之处，可参考前述方法实施方式中相应内容。

在本申请所提供的几个实施方式中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施方式仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

最后应说明的是：以上所述实施方式，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施方式对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施方式所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施方式技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本的情感倾向分类方法，其特征在于，所述方法包括：

获取待处理的文本数据；

对所述文本数据进行分词处理，得到至少一个分词；

通过预设的转换规则，将所述分词转换成词向量；

将所述词向量输入至预先训练完成的情感倾向分类模型中，输出所述文本数据的情感倾向分类结果；

其中，所述情感倾向分类模型包括双向GRU网络层和单向GRU网络层；所述双向GRU网络层包括多个依次连接的双向GRU网络单元；所述单向GRU网络层包括多个依次连接的单向GRU网络单元；所述双向GRU网络层中的双向GRU网络单元与所述单向GRU网络层中相应位置上的单向GRU网络单元连接。

2.根据权利要求1所述的方法，其特征在于，将所述词向量输入至预先训练完成的情感倾向分类模型中，输出所述文本数据的情感倾向分类结果的步骤，包括：

如果所述分词为多个，将每个分词对应的所述词向量分别输入至所述双向GRU网络层中的指定位置上的双向GRU网络单元；所述指定位置为：所述分词在所述文本数据中的排列位置；

通过所述双向GRU网络单元计算输入的词向量的前向GRU结果和后向GRU结果，输出所述前向GRU结果和所述后向GRU结果的拼接结果；

将所述拼接结果输入至与所述双向GRU网络单元连接的单向GRU网络单元；

对于第一个单向GRU网络单元，计算输入的拼接结果的后向GRU结果，将计算结果输出至第二个单向GRU网络单元；

对于除所述第一个单向GRU网络单元以外的单向GRU网络单元，将前一个单向GRU网络单元输出的计算结果与当前单向GRU网络单元接收到的拼接结果进行后向GRU运算，将计算结果输出至下一个单向GRU网络单元；直至最后一个单向GRU网络单元输出计算结果；

根据最后一个单向GRU网络单元输出的计算结果确定所述文本数据的情感倾向分类结果。

3.根据权利要求2所述的方法，其特征在于，所述情感倾向分类模型还包括全连接层和分类函数层；

根据最后一个单向GRU网络单元输出的计算结果确定所述文本数据的情感倾向分类结果的步骤，包括：

将最后一个单向GRU网络单元输出的计算结果输入至所述全连接层；

通过所述全连接层对接收到的计算结果进行特征映射处理，得到所述文本数据对应的特征向量；所述全连接层预设有权重参数和偏置参数，所述特征映射处理基于所述权重参数和所述偏置参数进行；

将所述特征向量输入至所述分类函数层；

通过所述分类函数层对所述特征向量进行归一化处理，得到所述文本数据的情感倾向分类结果。

4.根据权利要求2所述的方法，其特征在于，所述情感倾向分类模型中的双向GRU网络层为多层；多层双向GRU网络层的相应位置上的双向GRU网络单元依次连接；最后一层双向GRU网络层中的双向GRU网络单元与所述单向GRU网络层中相应位置上的单向GRU网络单元连接；

通过所述双向GRU网络单元计算输入的词向量的前向GRU结果和后向GRU结果，输出所述前向GRU结果和所述后向GRU结果的拼接结果的步骤，包括：

对于第一层双向GRU网络层，通过所述双向GRU网络层中的双向GRU网络单元计算输入的词向量的前向GRU结果和后向GRU结果，输出所述前向GRU结果和所述后向GRU结果的中间拼接结果至第二层双向GRU网络层；

对于除所述第一层双向GRU网络层以外的双向GRU网络层，通过当前层的双向GRU网络层中的双向GRU网络单元计算上一层双向GRU网络层输出的中间拼接结果的前向GRU结果和后向GRU结果，输出当前层的双向GRU网络层对应的中间拼接结果至下一层双向GRU网络层；直至最后一层双向GRU网络层输出最终拼接结果。

5.一种文本的情感倾向分类装置，其特征在于，所述装置包括：

数据获取模块，用于获取待处理的文本数据；

分词模块，用于对所述文本数据进行分词处理，得到至少一个分词；

转换模块，用于通过预设的转换规则，将所述分词转换成词向量；

分类模块，用于将所述词向量输入至预先训练完成的情感倾向分类模型中，输出所述文本数据的情感倾向分类结果；

6.根据权利要求5所述的装置，其特征在于，所述分类模块还用于：

7.根据权利要求6所述的装置，其特征在于，所述情感倾向分类模型还包括全连接层和分类函数层；

所述分类模块还用于：

将所述特征向量输入至所述分类函数层；

8.根据权利要求6所述的装置，其特征在于，所述情感倾向分类模型中的双向GRU网络层为多层；多层双向GRU网络层的相应位置上的双向GRU网络单元依次连接；最后一层双向GRU网络层中的双向GRU网络单元与所述单向GRU网络层中相应位置上的单向GRU网络单元连接；

所述分类模块还用于：

9.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至4任一项所述的方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1至4任一项所述的方法。