CN106055673B

CN106055673B - 一种基于文本特征嵌入的中文短文本情感分类方法

Info

Publication number: CN106055673B
Application number: CN201610392495.6A
Authority: CN
Inventors: 张胜; 李沛; 程佳军; 丁兆云; 张鑫; 王晖; 沈大勇; 陈科第; 叶栋; 乔凤才
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-06-06
Filing date: 2016-06-06
Publication date: 2019-09-13
Anticipated expiration: 2036-06-06
Also published as: CN106055673A

Abstract

本发明公开了一种基于文本特征嵌入的中文短文本情感分类方法，采用文本特征嵌入的方式进行特征提取，首先通过词嵌入将词表示为较短长度的向量，一方面降低了特征的维度，另一方面可以较好地描述词与词之间的相似关系；然后根据不同的词在文本中所处的位置对词向量进行加权，从而进行文本特征嵌入，得到较低维度的文本特征，在基础上进行中文短文本情感分类，从而提高中文短文本情感分类精度。另外，由于网络语言变化快，中文短文本的随意性强，本发明采用增量学习的方式不断更新词向量，使其能够紧跟待训练文本的变化，以提高文本情感分类的精度。

Description

一种基于文本特征嵌入的中文短文本情感分类方法

技术领域

本发明属于信息技术领域，涉及一种针对Twitter文本事件抽取的方法。

背景技术

随着互联网技术的飞速发展和通讯设备的普及化、移动化，微博、网络社群等便捷的网络应用迅速崛起，更多的人在网络上获取信息并对其表明态度、发表看法。Internet逐渐发展成为信息发布、获取和传递的主要载体。把握互联网用户在网络中发表的观点、情感，可准确评价产品、服务的受欢迎程度，以改善产品、服务的质量；把握事件的发生发展过程中网民的态度，正确进行舆情监控和引导；透析不同网民的个人喜好，正确进行信息推荐。因此对互联网文本进行情感分析具有重要的现实意义。由于产品评论和主流社交媒体(如微博)上面以短文本为主，包含信息较少，并且口语化严重，加上中文的变化性强，对短文本的情感分析存在较大困难，因此研究中文短文本情感分类方法具有重要的理论研究价值。

文本情感分类一般包括文本预处理、文本特征提取、分类器训练与预测三个步骤，其中核心是文本特征提取与分类器的选择，由于文本情感分类研究中对分类器的选择已有较多研究，本发明着重研究文本特征提取。文本特征提取一般有文本特征选择和文本特征嵌入两种方式，其中特征选择是最常用的方法，即从高维的基本特征中选择一些对分类任务有利的特征来表示样本，以增强分类器的区分性从而提高精度；而特征嵌入采用一定的数学方法将高维的基本特征向量嵌入到一个固定长度的低维特征向量中，以降低特征维度。对于文本分类，文本基本特征主要是词，文本特征选择即选择对分类任务有利的词组成分类特征，文本特征嵌入即将词和文本嵌入到固定长度的分布式向量中作为分类特征。由于中文短文本的开放性、随意性和口语化，分词难以取得很好效果，词义与上下文关系较大，在不同的语境下相同的词可表现出不同的情感，传统基于向量空间模型和特征选择的方法存在特征空间稀疏，无法表示词与词之间相似程度等问题，无法很好地对中文短文本进行情感分类。

发明内容

针对上述现有技术存在的缺陷，本发明提供一种基于文本特征嵌入的中文短文本情感分类方法，用于解决中文短文本情感分类算法精度有待于进一步提高的问题。

本发明中使用如下的定义和计算公式。

(1)分布式词向量。分布式词向量就是将传统的通过向量空间模型得来的高维稀疏词向量映射到一个低维空间的词向量，分布式词向量的相似性代表两个词的相似性。即对于数据集的词表V，对应一个映射矩阵C∈R^m×|V|，其中C(j)∈R^m为词w_j对应的词向量，m为指定的分布式词向量长度，词向量矩阵C往往是作为一组参数，伴随着语言模型的大量训练而获得，本发明的词向量是采用Word2Vec词向量训练方法，首先在所有Wiki中文数据上进行初始化训练，然后根据采集的数据流进行在线增量训练得到的，是对普适性和领域性的一个折中。

(2)基于加权词向量的文本特征嵌入。

对于一个文本D＝{w₁,w₂,...w_d}，其中w_i表示第i个词，记v(w_i)为词w_i对应的分布式词向量，v(D)为文本D对应的分布式词向量。通常，一个文本的中心点一般出现在文本的开头或者文本的结尾以作为强调或总结，因此，文本开头和结尾的词的重要程度应该比其他区域的词更高，它们的权重也应该更大。基于这个判断，本发明在得到的词向量的基础上，通过对文本中包含的词进行加权得到文本的分布式特征，其中位于开头或者结尾的词向量权重较大，其它部分权重较小。具体地，根据文本D包含的词的个数，将文档分为2部分：中间部分D₁、开头和结尾部分D₂，即D＝{D₁,D₂}，其中|D₁|＝|D₂|，文本分布式特征向量的计算方法为：

其中|D|为词的总个数，C为权重因子，且满足0＜C＜1，表示文本中间部分的词向量所占的权重。

(3)logistic分类。

Logistic函数是形如“S”型的曲线，其函数表达式如下：

可以看出，Logistic函数有以下的特点：

①其值域为(0,1)，函数连续且处处可导，函数在正无穷大时趋近1，负无穷大时趋近于0；

②函数值在y轴附近变化很快，在x＝0时，y＝0.5，并且该点二阶导为0。

Logistic分类的函数如下：

其中θ^Tx为特征的线性加权。如果把Logistic函数用作二分类问题，那么可以规定：当g(x)＞0.5时，为正类，否则为负类。

本发明提出一种基于文本特征嵌入的中文短文本情感分类方法，包括如下步骤：

步骤1)采用Wiki中文所有数据进行初始化词向量训练，从Wiki公开网站下载Wiki中文所有数据；

步骤11)对Wiki中文所有数据进行预处理，由于下载的Wiki中文数据格式是xml格式，首先要对其进行文本内容解析，在内容解析的基础上对文本进行分词和去停用词的预处理；

步骤12)在预处理的基础上，首先采用均匀分布对词向量进行随机初始化，然后采用Word2Vec词向量训练工具，对在所有数据中出现次数大于3的词进行词向量训练；

步骤2)以Wiki中文训练出的词向量为初始向量，采用分类相关数据集进行词向量优化训练；

步骤21)对训练集文本进行预处理，将训练集的文本进行分词，然后去掉停用词；

步骤22)在预处理的基础上，使用Wiki训练出的词向量作为初始化词向量，采用Word2Vec词向量训练工具，对在训练集中出现次数大于3的词进行词向量训练；

步骤3)采用步骤2)训练的词向量，对每一个分类训练集中的文本，首先检索出文本中所包含的每一个词的分布式词向量，然后根据词在文本中所处位置，根据公式(1)对词向量进行加权，得到文本分布式特征向量；

步骤4)以步骤3)得到的文本分布式特征向量为文本特征，采用公式(3)介绍的logistic分类方法进行分类器训练；

步骤5)采集需要进行情感分类的中文短文本。需要分类的文本一般来自于互联网，并且数据在不断产生，因此在本步骤主要对目标文本进行采集；

步骤6)对采集到的文本进行预处理。对采集到的文本，首先进行去重处理，然后对剩下的文本进行分词并去除停用词；

步骤7)如需要更新词向量，对新采集到的数据为训练集，重复步骤2)至步骤4)。这是一个增量学习的过程，词向量的更新可以定期进行也可以在采集到的数据量达到一定规模是进行。以上一次训练到此次训练之间采集到的数据作为数据集，重复2)-4)步骤分别进行词向量、分类训练集文本向量和logistic分类器的更新训练；

步骤8)采用上一次更新过程中步骤2)训练出的分布式词向量，对于每一个待分类的文本，首先检索出文本中所包含的每一个词的分布式词向量，然后根据词在文本中所处位置，根据公式(1)对词向量进行加权，得到文本分布式特征向量；

步骤9)以步骤8)中得到的文本向量为特征，采用上一次更新过程中步骤4)训练出的logistic分类器进行文本情感分类。

本发明有益效果：

1、本发明采用特征嵌入的方法来进行文本中文短文本特征提取，克服了传统基于向量空间模型和特征选择的文本特征提取方法中高维稀疏和无法表示词的相似性的问题，更好地表示文本特征，可以得到更准确的文本描述；

2、本发明采用首先以内容全面的Wiki中文数据进行词向量初始化训练，再使用领域相关文本进行词向量优化训练的词向量增量训练方法。不但满足了普适性和领域性的折中，而且能够更好地适应网络语言的变化，可以得到更持续的情感分类结果；

3、本发明根据不同词在文本中的位置对词向量进行加权，使得能够代表文本的词具有更大的权重，从而更好地描述文本，经过分类器分类后，确实提高了中文短文本情感分类的精度。

附图说明

图1为文本情感分类方法的一般过程。

图2为本发明基于文本特征嵌入的中文短文本情感分类方法的基本过程。

图3为基于Wiki中文数据和领域知识的分布式词向量训练过程。

图4为分类器训练的过程。

图5为分布式词向量增量优化学习的过程。

图6为对待分类文本进行情感分类的具体过程。

具体实施方式

下面通过具体实施例对本发明作进一步的说明。

图1是文本情感分类方法的一般流程，即首先对训练集和待分类文本分别进行预处理和文本特征提取，得到每一个文本的特征，然后用训练集文本训练分类器，最后利用训练好的分类器，根据待分类文本的特征，对待分类文本进行情感分类。图2是本发明基于文本特征嵌入的中文短文本情感分类方法的基本过程，通过图1和图2的对比可以发现，本发明提出的方法主要从三个方面进行了改进和设计，一方面是在文本特征提取上本发明采用特征嵌入的方式进行文本特征提取；二是本发明展现了一个在线的训练和分类过程，即新的数据源源不断地输入系统，要进行情感分类；三是本发明的文本嵌入特征过程采用的词向量是一个在线增量训练的过程，随着采集数量的增多，词向量会不断进行增量优化，进一步调整分类器的训练，对方法的适应性具有更好的作用。

对于本发明的具体实施方式，现假设有如下实例：存在两个静态数据集和一个动态数据集。静态数据集包括Wiki中文所有数据，用于训练基础词向量和分类相关数据集中随机挑选的带有情感标记的训练集，用于第一次词向量优化训练和分类器训练，动态数据集为源源不断采集到的待分类文本，用于后续词向量增量优化训练和对他们进行情感分类。具体步骤为：

步骤1)：离线词向量训练，流程图如图3。采用两个静态数据集进行离线的词向量基础训练和首次优化训练。本发明采用的词向量首先经过Wiki中文所有数据进行基础性训练，使词向量具有一定的普适性，然后以此为初始参数，采用领域相关的训练集进行词向量优化训练，使得词向量不仅满足普适性，而且也满足领域性的要求。

步骤13)对训练集文本进行预处理，将训练集的文本进行分词，然后去掉停用词；

步骤14)在预处理的基础上，使用Wiki训练出的词向量作为初始化词向量，采用Word2Vec词向量训练工具，对在训练集中出现次数大于3的词进行词向量训练；

步骤15)将优化训练后的词向量保存；

步骤2)分类器训练，流程如图4。采用离线训练好的词向量和带有情感标记的训练集，进行分类其训练。

步骤21)对训练集文本进行预处理，包括分词、去停用词等操作；

步骤22)确定文本中词的位置，将文本中的词划分到相应的集合中；

步骤23)读取文本中词的词向量；

步骤24)计算训练集中每一个文本的嵌入式特征；

步骤25)根据训练集文本的嵌入式特征进行分类器训练；

步骤26)保存训练好的分类器参数；

步骤1)和步骤2)为离线过程，在之后为在线过程，在线过程主要包括在线增量训练过程和在线分类过程。

步骤3)在线训练过程，包括词向量增量优化和分类器更新。在线训练过程是当动态数据量或者时间达到一定条件进行的。

步骤31)词向量增量优化，如图5所示，根据新采集的数据对词向量增量训练达到优化目的；

步骤311)对新的词向量增量训练数据集进行预处理，包括去重、分词、去停用词等；

步骤312)读取上一次保存的词向量；

步骤313)将上一次的词向量作为初始参数，采用新的增量训练数据集训练新的词向量；

步骤314)保存新的词向量；

步骤32)分类器更新，步骤与步骤2)相同。

步骤4)在线文本情感分类，流程图如图6，即对源源不断采集到的数据进行文本情感分类。

步骤41)对待分类文本进行预处理，包括分词、去停用词等操作；

步骤42)确定文本中词的位置，将文本中的词划分到相应的集合中；

步骤43)读取文本中词的词向量；

步骤44)计算每一个待分类文本的嵌入式特征；

步骤45)根据待分类文本的嵌入式特征对其进行情感分类。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种基于文本特征嵌入的中文短文本情感分类方法，其特征在于，包含如下步骤：

步骤1)采用Wiki中文所有数据进行初始化词向量训练；

步骤3)采用步骤2)训练出的词向量，对分类训练集中文本进行特征嵌入；

步骤4)以步骤3)得到的文本分布式特征向量为文本特征，采用logistic分类进行分类器训练；

步骤5)采集需要进行情感分类的中文短文本；

步骤6)对采集到的数据进行预处理，首先进行去重处理，然后对剩下的文本进行分词并去除停用词；

步骤7)如需要更新词向量，以新采集到的数据为训练集，重复步骤2)至步骤4)，分别进行词向量、分类训练集文本向量和logistic分类器的更新训练；

步骤8)采用上一次更新过程中步骤2)训练出的分布式词向量，对待分类文本进行特征嵌入；

2.如权利要求1所述的一种基于文本特征嵌入的中文短文本情感分类方法，其特征在于：步骤1)具体包括如下步骤：

步骤11)对Wiki中文所有数据进行预处理，首先要对其进行文本内容解析，在内容解析的基础上对文本进行分词和去停用词的预处理；

步骤12)用预处理后的Wiki中文数据，训练初始化词向量。

3.如权利要求1所述的一种基于文本特征嵌入的中文短文本情感分类方法，其特征在于：步骤2)具体包括如下步骤：

步骤22)用预处理后的训练集文本，在Wiki训练出的初始化词向量基础上进行词向量优化训练。

4.如权利要求1所述的一种基于文本特征嵌入的中文短文本情感分类方法，其特征在于：所述词向量训练采用Word2Vec词向量训练工具。

5.如权利要求1—4任一所述的一种基于文本特征嵌入的中文短文本情感分类方法，其特征在于：本方法中基于词向量的文本特征嵌入方法包括：根据文本中词的位置不同将其分为重要词和普通词两个集合，给予不同的权重，然后读取训练好的词向量，根据词所在集合进行词向量加权，得到文本特征向量。

6.如权利要求5所述的一种基于文本特征嵌入的中文短文本情感分类方法，其特征在于：对于一个文本D＝{w₁,w₂,...w_d}，其中w_i表示第i个词，记v(w_i)为词w_i对应的分布式词向量，v(D)为文本D对应的分布式词向量，根据文本D包含的词的个数，将文档分为2部分：中间部分D₁、开头和结尾部分D₂，即D＝{D₁,D₂}，其中|D₁|＝|D₂|，文本分布式特征向量的计算方法为：