CN106055633A

CN106055633A - 一种中文微博主客观句分类方法

Info

Publication number: CN106055633A
Application number: CN201610367978.0A
Authority: CN
Inventors: 佟玲玲; 杜翠兰; 钮艳; 易立; 李鹏霄; 刘洋; 查奇文; 万欣欣; 孙旷怡
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2016-10-26

Abstract

本发明提出了一种中文微博主客观句分类方法，所述方法包括：根据预设的主观句训练语料集和客观句训练语料集形成如下的六个特征集：3‑POS主观模式特征集、句法依存关系特征集、情感词特征集、情感影响因子特征集、语气词及标点符号特征集、字数及链接特征集；根据所述六个特征集，利用支持向量机SVM算法，形成中文微博主客观句分类模型，以利用所述中文微博主客观句分类模型对待测试语句进行主客观句分类。所述方法不但考虑了中文文本的语言学特点，同时也充分利用微博的个性化特征，使得本文所选取的特征更加接近微博本身的语义描述。

Description

一种中文微博主客观句分类方法

技术领域

本发明涉及计算机自然语言处理技术领域，尤其涉及一种中文微博主客观句分类方法。

背景技术

随着互联网技术的发展及其应用的迅猛增长，包括微博、社交网站、即时通讯等在内的一些新型社交媒体正在从根本上改变着人类的生活。网民的增加和微博的发展使得大量主观信息迅速膨胀，仅靠人工的方法难以应对微博海量信息的收集和处理，如何有效地管理和使用这些微博评论信息成为当前的迫切需求。

微博情感分析是目前自然语言处理中的一个重要研究领域，其主要目的就是从用户发布的微博信息中识别主观信息，挖掘出用户的观点以及情感倾向性。因此，有效的识别微博用户表达主观意见、态度的内容，是实现微博情感分析的重要前提。

发明内容

本发明要解决的技术问题是，提供一种中文微博主客观句分类方法，能够大幅度的提高分类精准度。

本发明采用的技术方案是，所述中文微博主客观句分类方法，包括：

根据预设的主观句训练语料集和客观句训练语料集形成如下的六个特征集：3-POS主观模式特征集、句法依存关系特征集、情感词特征集、情感影响因子特征集、语气词及标点符号特征集、字数及链接特征集；

根据所述六个特征集，利用支持向量机SVM算法，形成中文微博主客观句分类模型，以利用所述中文微博主客观句分类模型对待测试语句进行主客观句分类。

进一步的，所述根据预设的主观句训练语料集和客观句训练语料集形成3-POS主观模式特征集，包括：

对所述主观句训练语料集和客观句训练语料集中的每个句子进行词语划分；并对所述词语划分后的每个词语进行词性标注；将所述每个句子中任意连续三个词语的词性构成一个3-POS模式；提取出所述每个句子中包含的所有不同的3-POS模式；

针对提取出的任一3-POS模式，计算所述任一3-POS模式在主观句训练语料集中的卡方统计量值与所述任一3-POS模式在客观句训练语料集中的卡方统计量值的差值；若所述任一3-POS模式对应的所述差值大于第一预设阈值，则将所述任一3-POS模式存入3-POS主观模式特征集中。

进一步的，针对所述主观句训练语料集和客观句训练语料集中的任一训练语料集J中的任一3-POS模式P，所述3-POS模式P的卡方统计量值K按照如下公式计算得出：

K (P, J) = \frac{N \times {(A \times D - C \times B)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)};

其中，N表示训练语料集J中包含的句子总数；

A表示在训练语料集J中，包含3-POS模式P的句子的总数；

B表示不在训练语料集J中，但是包含3-POS模式P的句子的总数；

C表示在训练语料集J中，不包含3-POS模式P的句子的总数；

D表示不在训练语料集J中，也不包含3-POS模式P的句子的总数。

进一步的，所述根据预设的主观句训练语料集和客观句训练语料集形成句法依存关系特征集，包括：

步骤1：针对所述主观句训练语料集和客观句训练语料集中的任一句子，找出所述任一句子的中心词以及与所述中心词有依存关系的依存词；

步骤2：逐一确定所述任一句子中的中心词与各个依存词的结构关系，将与所述中心词的结构关系为连动结构关系、独立分句结构关系或依存分句结构关系的依存词也设置为中心词；

步骤3：重复步骤2直至所述任一句子中没有中心词与依存词之间存在连动结构关系、独立分句结构和依存分句结构关系；

步骤4：针对所述任一句子中的任一中心词，按照“所述任一中心词前面的词与所述任一中心词的结构关系+任一中心词+所述任一中心词后面的词与所述任一中心词的结构关系”形成一个句法依存关系模式；提取出所述任一句子中包含的所有句法依存关系模式；

步骤5：针对提取出的所述任一句法依存关系模式，计算所述任一句法依存关系模式在所述主观句训练语料集中出现的次数N_s和在所述客观句训练语料集中出现的次数N_O；若所述任一句法依存关系模式的N_S大于第二预设阈值，且所述任一句法依存关系模式的N_O小于第二预设阈值，则将所述任一句法依存关系模式存入句法依存关系特征集中。

进一步的，所述情感词特征集，包括：

从所述主观句训练语料集中提取出的反映情感色彩的词语、网络词汇和微博表情符号。

进一步的，所述情感影响因子特征集，包括：

从所述主观句训练语料集中提取出的否定词、程度词和连词。

进一步的，所述语气词及标点符号特征集，包括：

问号、感叹号以及从所述主观句训练语料集中提取出的语气词。

进一步的，所述字数及链接特征集，包括：预设的主观句字数阈值和URL(UniformResoure Locator，统一资源定位器)链接。

采用上述技术方案，本发明至少具有下列优点：

本发明所述的中文微博主客观句分类方法，通过对预设的主观句训练语料集和客观句训练语料集的预处理分析，提取用于判定中文微博主客观性的六种基本特征，不但考虑了中文文本的语言学特点，同时也充分利用微博的个性化特征，使得本文所选取的特征更加接近微博本身的语义描述。所述方法不仅是对传统文本分类方法的改进，而且更有利于提高分类结果的精确度和工作效率。

附图说明

图1为本发明第一实施例的中文微博主客观句分类方法的流程图；

图2为本发明第二实施例的句法依存关系的示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

本发明第一实施例，提供一种中文微博主客观句分类方法，如图1所述，具体包括：

步骤S101：根据预设的主观句训练语料集和客观句训练语料集形成如下的六个特征集：3-POS主观模式特征集、句法依存关系特征集、情感词特征集、情感影响因子特征集、语气词及标点符号特征集、字数及链接特征集；

具体的，所述根据预设的主观句训练语料集和客观句训练语料集形成3-POS主观模式特征集，包括：

进一步的，通过分词工具ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)对所述每个句子进行词语划分；

K (P, J) = \frac{N \times {(A \times D - C \times B)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)};

其中，N表示训练语料集J中包含的句子总数；

A表示在训练语料集J中，包含3-POS模式P的句子的总数；

C表示在训练语料集J中，不包含3-POS模式P的句子的总数；

D表示不在训练语料集J中，也不包含3-POS模式P的句子的总数；

所述根据预设的主观句训练语料集和客观句训练语料集形成句法依存关系特征集，包括：

步骤A1：针对所述主观句训练语料集和客观句训练语料集中的任一句子，找出所述任一句子的中心词以及与所述中心词有依存关系的依存词；

进一步的，通过哈尔滨工业大学信息检索研究中心的依存关系分析工具LTP找出所述任一句子的中心词以及与所述中心词有依存关系的依存词；

所述依存关系表示的是中心词与依存词之间在语义上的某种结构关系。

步骤B1：逐一确定所述任一句子中的中心词与各个依存词的结构关系，将与所述中心词的结构关系为连动结构关系、独立分句结构关系或依存分句结构关系的依存词也设置为中心词；

步骤C1：重复步骤B1直至所述任一句子中没有中心词与依存词之间存在连动结构关系、独立分句结构和依存分句结构关系；

步骤D1：针对所述任一句子中的任一中心词，按照“所述任一中心词前面的词与所述任一中心词的结构关系+任一中心词+所述任一中心词后面的词与所述任一中心词的结构关系”形成一个句法依存关系模式；提取出所述任一句子中包含的所有句法依存关系模式；

步骤E1：针对提取出的所述任一句法依存关系模式，计算所述任一句法依存关系模式在所述主观句训练语料集中出现的次数N_S和在所述客观句训练语料集中出现的次数N_O；若所述任一句法依存关系模式的N_S大于第二预设阈值，且所述任一句法依存关系模式的N_O小于第二预设阈值，则将所述任一句法依存关系模式存入句法依存关系特征集中；

所述情感词特征集，具体包括：从所述主观句训练语料集中提取出的反映情感色彩的词语、网络词汇和微博表情符号；

所述情感影响因子特征集，具体包括：从所述主观句训练语料集中提取出的否定词、程度词和连词；

所述语气词及标点符号特征集，具体包括：问号、感叹号以及从所述主观句训练语料集中提取出的语气词；

所述字数及链接特征集，具体包括：预设的主观句字数阈值和统一资源定位器URL链接；

例如：若待测试语句的字数超过所述预设的主观句字数阈值，则所述待测试语句为客观句；若所述待测试语句中包含待URL链接，则所述待测试语句为客观句。

步骤S102：根据所述六个特征集，利用支持向量机SVM算法，形成中文微博主客观句分类模型，以利用所述中文微博主客观句分类模型对待测试语句进行主客观句分类。

本发明第二实施例，提供一种中文微博主客观句分类方法，具体包括：

步骤S201：根据预设的主观句训练语料集和客观句训练语料集提取以下五类特征作为支持向量机SVM算法的候选特征向量：情感词特征、情感影响因子特征、语气词及标点符号特征、上下文特征、字数及链接特征；

具体的，所述情感词特征，包括：

情感词，是指蕴含情感色彩的词语，包含正负面“情感词语”和“评价词语”。这类词对于判别微博句子是否带有主观色彩具有关键的作用。例如：“蒙牛这种一而再再而三出恶性事故的垃圾企业必须坚决抵制！”；

本发明基于大连理工大学的情感词汇本体库、HowNet情感分析用语集、中国台湾大学NTU情感词典、《知网》和《同义词林》中收录的情感词，形成了基本情感词；并基于微博语料做了网络词和表情符号扩充，最终形成了包含基本情感词30035个，网络词1031个，微博表情539个的情感词特征；

所述情感影响因子特征，包括：否定词32个、程度词196个，连词30个；

所述语气词及标点符号特征，包括：感叹号、问号、和语气词39个，例如“吧”、“咯”、“呐”等；

所述上下文特征包括：3-POS主观模式特征和句法依存关系特征；

进一步的，所述3-POS主观模式特征，包括：

对预设的主观句训练语料集和客观句训练语料集中的每个句子进行词语划分；并对所述词语划分后的每个词语进行词性标注；将所述每个句子中任意连续三个词语的词性构成一个3-POS模式；提取出所述每个句子中包含的所有不同的3-POS模式；

更进一步的，利用分词工具ICTCLAS对所述主观句训练语料集和客观句训练语料集中的每个句子进行分词和词性标注；本发明针对分词工具ICTCLAS不能有效识别网络词汇、微博表情符号等缺点，专门另外构建了网络词库和微博表情符号库，加入到了分词词表，对分词工具ICTCLAS做了优化处理；

针对提取出的任一3-POS模式，计算所述任一3-POS模式在主观句训练语料集中的卡方统计量值与所述任一3-POS模式在客观句训练语料集中的卡方统计量值的差值；若所述任一3-POS模式对应的所述差值大于第一预设阈值，则将所述任一3-POS模式存入3-POS主观模式特征集中；

更进一步的，按照如下公式计算任一3-POS模式的卡方统计量值：

χ^{2} ({Pos}_{j}, X_S e t) = \frac{N \times {(A \times D - C \times B)}^{2}}{(A + C) (B + D) (A + B) (C + D)};

其中，Pos_j表示任一3-POS模式；

X_Set表示主观句训练语料集或客观句训练语料集；

A表示属于类别X_Set并且包含Pos_j的句子数；

B表示不属于类X_Set但是包含Pos_j的句子数；

C表示属于类X_Set但是不包含Pos_j的句子数；

D表示不属于类X_Set并且不包含Pos_j的句子数；

如表1所示，为3-POS主观模式特征集中的部分3-POS主观模式：

表1

所述句法依存关系特征，包括：

句子中的成分(如词语)是相互联系的，依存句法是通过分析语言单位内各个语言成分之间的依存关系揭示其句法结构；其中，依存关系表示的是中心词与依存词之间在语义上的某种依赖关系；依存句法主张句子中的中心动词是支配其他成分的中心成分，而它本身却不受其它任何成分的支配，所有的受支配成分都以某种依存关系从属于支配者；

本发明使用哈尔滨工业大学信息检索研究中心开发的LTP系统对微博句子进行依存句法分析；把句子由一个线性序列转化为一棵结构化的依存分析树，通过依存弧来反映句子中词汇之间的依存关系，弧的方向是由中心词指向依存词，弧上的标记表示依存关系的类型；如图2所示，“管管”是中心动词，是支配其它成分的中心成分，其它节点以某种结构依存于它；ADV表示“状中”结构、SBV表示“主谓”结构、ATT表示“定中”结构、HED表示中心词；

进一步的，按照如下步骤提取句法依存关系特征：

步骤A2：针对预设的主观句训练语料集和客观句训练语料集中的任一句子，找出所述任一句子的中心词以及与所述中心词有依存关系的依存词；

步骤B2：逐一确定所述任一句子中的中心词与各个依存词的结构关系，将与所述中心词的结构关系为连动结构关系、独立分句结构关系或依存分句结构关系的依存词也设置为中心词；

步骤C2：重复步骤B2直至所述任一句子中没有中心词与依存词之间存在连动结构关系、独立分句结构和依存分句结构关系；

步骤D2：针对所述任一句子中的任一中心词，按照“所述任一中心词前面的词与所述任一中心词的结构关系+任一中心词+所述任一中心词后面的词与所述任一中心词的结构关系”形成一个句法依存关系模式；提取出所述任一句子中包含的所有句法依存关系模式；

步骤E2：针对提取出的所述任一句法依存关系模式，计算所述任一句法依存关系模式在所述主观句训练语料集中出现的次数N_S和在所述客观句训练语料集中出现的次数N_O；若所述任一句法依存关系模式的N_S大于第二预设阈值，且所述任一句法依存关系模式的N_O小于第二预设阈值，则将所述任一句法依存关系模式存入句法依存关系特征集中；

如表2所示，为句法依存关系特征中的部分依存关系模式：

表2

所述字数及链接特征，包括：一条微博的总字数主要集中在1-140字之间，经统计发现，这其中时事新闻、公告声明和广告微博、哲理警句等会出现长句以外，大部分用户发表的观点微博都较短。将微博句子长度和微博中是否含有URL链接也作为一类特征用于主客观句的分类。

步骤S202：采用SVM机器学习算法作为微博主客观句分类的核心算法，选用中国台湾大学林智仁博士设计的通用支持向量机软件包LibSVM，利用多种特征融合方法进行了文本特征抽取和归一化，实现了对微博句子的主客观二元分类。基于多特征融合的SVM分类模型主要包括两部分：微博特征选择和SVM分类。微博特征选择部分采用前述的5大类基本特征进行特征项的确定和权重计算。SVM算法用于实现微博句子的主客观句分类，它根据文本训练样本集和类别标签，选取最佳分类超平面，学习得到最佳的分类模型。测试语料根据训练好的分类模型，预测句子的主客观二元特征性。

本发明实施例中介绍的中文微博主客观句分类方法，通过对预设的主观句训练语料集和客观句训练语料集的预处理分析，提取用于判定中文微博主客观性的六种基本特征，不但考虑了中文文本的语言学特点，同时也充分利用微博的个性化特征，使得本文所选取的特征更加接近微博本身的语义描述。所述方法不仅是对传统文本分类方法的改进，而且更有利于提高分类结果的精确度和工作效率。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种中文微博主客观句分类方法，其特征在于，包括：

2.根据权利要求1所述的中文微博主客观句分类方法，其特征在于，所述根据预设的主观句训练语料集和客观句训练语料集形成3-POS主观模式特征集，包括：

3.根据权利要求2所述的中文微博主客观句分类方法，其特征在于，针对所述主观句训练语料集和客观句训练语料集中的任一训练语料集J中的任一3-POS模式P，所述3-POS模式P的卡方统计量值K按照如下公式计算得出：

K (P, J) = \frac{N \times {(A \times D - C \times B)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)};

其中，N表示训练语料集J中包含的句子总数；

A表示在训练语料集J中，包含3-POS模式P的句子的总数；

C表示在训练语料集J中，不包含3-POS模式P的句子的总数；

4.根据权利要求1所述的中文微博主客观句分类方法，其特征在于，所述根据预设的主观句训练语料集和客观句训练语料集形成句法依存关系特征集，包括：

5.根据权利要求1所述的中文微博主客观句分类方法，其特征在于，所述情感词特征集，包括：

6.根据权利要求1所述的中文微博主客观句分类方法，其特征在于，所述情感影响因子特征集，包括：

7.根据权利要求1所述的中文微博主客观句分类方法，其特征在于，所述语气词及标点符号特征集，包括：

8.根据权利要求1所述的中文微博主客观句分类方法，其特征在于，所述字数及链接特征集，包括：预设的主观句字数阈值和统一资源定位器URL链接。