CN102930042A

CN102930042A - 一种倾向性文本自动分类系统及其实现方法

Info

Publication number: CN102930042A
Application number: CN2012104535232A
Authority: CN
Inventors: 吴明芬; 陈涛; 刘兴林
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2012-11-13
Filing date: 2012-11-13
Publication date: 2013-02-13

Abstract

本发明提供一种倾向性文本自动分类系统及其实现方法。涉及自然语言处理技术领域、文本数据挖掘、文本自动化分类技术领域。该系统包括依存关系分析模块，用于对中文句子进行依存关系分析；中文分词模块，用于对中文句子进行分词；句法分析模块，用于对分词后的中文句子进行句法分析；多层级情感分类句模库，用于对与业务相关知识进行管理；其特征在于：多层级情感分类句模库分为态度文法、感受文法和思想文法三大类120个小类，根据汉语使用规则和业务相关知识手工整理而成；对多层级情感分类句模库中所有句模进行句法分析，建立句法树库；对多层级情感分类句模库中所有句模进行依存关系分析，建立依存关系图库。

Description

一种倾向性文本自动分类系统及其实现方法

技术领域

本发明涉及自然语言处理技术领域、文本数据挖掘、文本自动化分类技术领域，特别是涉及一种倾向性文本自动化分类系统，具体地说涉及一种基于句法和依存关系的倾向性文本自动化分类系统。

背景技术

对文本数据进行自动化分类是文本数据挖掘、自然语言处理等人工智能技术的重要应用领域，其主要功能是把以数字化形式存储的非结构化文本数据，通过自然语言处理技术、文本数据挖掘技术，自动按照事先组织好的与具体业务相关的类别进行分类。随着信息技术的不断发展和信息系统应用范围的不断深化，对文本数据进行自动化分类是提高企业生产效率和竞争优势的重要技术措施。

倾向性文本又称情感文本，是与主要陈述事实的客观性文本相对应的主要表达意见或情感的主观性文本。倾向性文本自动化分类系统是对文本数据中的情感进行多层级的细致分类，挖掘文本潜在的情感表达，进而发掘用户的兴趣与需求，对企业未来的发展提供决策依据具有很重要的意义。

更具体的，对于需要处理大量文本数据的行业而言，随着各类数字化业务的开拓，需求将不断增强，伴随而来的是传统的人工处理方式劳动强度的增加，如何在海量的资料中挖掘用户对产品的情绪，发掘用户的兴趣与需求都是大数据处理行业面对的直接挑战。

因此寻找一条科学的倾向性文本自动分类方法，在最大程度上减轻数据处理人员的压力与提高服务质量是一个迫切的任务。

发明内容

本发明的目的在于提供一种能够对倾向性文本进行多层级的细致的自动化分类系统及其实现方法，并使用户能对业务相关知识进行管理，根据具体业务调整分类结果。

为实现上述发明目的，本发明提供的一种倾向性文本自动分类系统及其实现方法，包括依存关系分析模块，用于对中文句子进行依存关系分析；中文分词模块，用于对中文句子进行分词；句法分析模块，用于对分词后的中文句子进行句法分析；多层级情感分类句模库，用于对与业务相关知识进行管理；其特征在于：多层级情感分类句模库分为态度文法、感受文法和思想文法三大类120个小类，根据汉语使用规则和业务相关知识手工整理而成；对多层级情感分类句模库中所有句模进行句法分析，建立句法树库；对多层级情感分类句模库中所有句模进行依存关系分析，建立依存关系图库；对待分类句子进行中文分词和句法分析，将句法分析的结果与句法树库中候选分类下的每个句模的句法树进行匹配，按照相关算法依次计算每个句模的句法树与待分类句子对应的句法树的匹配程度得分；对待分类句子进行依存关系分析，将依存关系分析的结果与依存关系图库中候选分类下的每个句模的依存关系图进行匹配，并按照相关算法依次计算每个句模对应的依存关系图与待分类句子对应的依存关系图的匹配程度得分；每个句模的两次得分相加为该句模与待分类句子匹配程度的总得分，总得分最高的句模所属的分类为最终分类结果。

上述的多层级情感分类句模库要对其中的句模进行依存关系分析，建立依存关系图库。

上述的多层级情感分类句模库要为其中的句模进行句法分析，建立句法树库。

本发明相比现有技术突出的优点是：

本发明采用基于统计的方法和基于规则的方法相结合的方法，提高倾向性文本自动分类的准确性和灵敏度。基于统计的方法是指本发明采用的分词模块和句法分析模块分别使用美国斯坦福大学自然语言处理小组推出的中文分词器和句法分析器；本发明采用的依存关系分析模块使用哈尔滨工业大学社会计算与信息检索研究中心推出的语言技术平台。这三个软件都采用了多种基于统计的机器学习算法对句子进行分析。基于规则的方法是指多层级情感分类句模库根据汉语使用规则和业务相关知识手工整理而成。本发明的分类算法是对待分类句子进行分析后与句模库进行匹配，故本发明不需要使用任何测试语料，对单个句子只要能与句模库匹配就能准确分类。

附图说明

图1是本发明的一个实施例的软件操作界面显示图；

图2是本发明的一个实施例的句法分析模块可视化结果示意图；

图3是本发明的一个实施例的依存关系模块可视化结果示意图；

图4是本发明的一个实施例的多层级情感分类句模库层次结构示意图；

图5是本发明的一种倾向性文本自动分类系统及其实现方法的基本模块关系图；

图6是本发明的一种倾向性文本自动分类系统及其实现方法的分类算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图从图1至图6及实施例，对本发明的一种倾向性文本自动分类系统及其实现方法进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明。

本发明的一种倾向性文本自动分类系统及其实现方法，通过多层级情感分类句模库提高系统对具体业务中的倾向性文本进行多层级的细致的自动化分类。本发明采用基于统计的方法和基于规则的方法相结合的方法，提高系统准确性、反应速度和容错性。

下面以具体实施例对本发明作进一步的描述，图1是本发明的一个实施例的软件操作界面显示图；图2是本发明的一个实施例的句法分析模块可视化结果显示图；图3是本发明的一个实施例的依存关系模块可视化结果显示图。具体实施步骤如下：

1、用户在图1所示软件操作界面左上角输入待分类句子，点击右上角的“分词”按钮，系统会对句子进行中文分词，将分词结果显示在最下面的文本框中。

2、用户点击图1所示软件操作界面右上角的“分类”按钮，系统会对句子进行自动分类，将分类处理中间过程生成的句法树和依存关系图分别用文本和图形的形式显示在中间的文本框中，如图2和图3所示，将分类结果以及相应得分显示在最下面的文本框中，如图1所示。

3、用户点击图1所示软件操作界面右上角的“载入文件”按钮，可以批量处理文本，文本格式为每个句子一行，处理结果存入数据库。

图4是本发明的一个实施例的多层级情感分类句模库层次结构示意图；本发明的一种倾向性文本自动分类系统及其实现方法将多层级情感分类句模库存储在数据库中，并为用户提供了通过浏览器对句模库中的各级分类、分类中的句模以及涉及的词类进行查看、增加、修改和删除操作的功能。

图5是本发明的一种倾向性文本自动分类系统及其实现方法的基本模块关系图。本发明采用模块化设计，主要包括依存关系分析模块、中文分词模块、句法分析模块和多层级情感分类句模库。基本模块之间的关系如图5所示，其中句法树库是对多层级情感分类句模库中所有句模进行句法分析后生成的；依存关系图库是对多层级情感分类句模库中所有句模进行依存关系分析后生成的；分类算法使用句法分析模块和依存关系分析模块的分析结果；中文分词模块为句法分析模块提供中文分词功能。

下面详细介绍各个模块的组成：

(1)多层级情感分类句模库：将手工整理的句模分为3个大类，120个小类。句模的形式如：<感事><喜爱词类><向事>，其中“感事”和“向事”分别是一种语义角色，“感事”表示感受的主体，“向事”表示感受施加的对象，“喜爱词类”包括与喜爱相关的一组近义词，例如：热爱、怜爱、心爱、钟爱、惠爱、酷爱、疼、慈、向慕、老牛舐犊、喜爱、疼爱、喜好、喜欢、感兴趣、有好感、爱慕、爱好、欣赏、希罕、好尚、好奇、爱等。我们将所有句模划分为3个大类：态度文法、感受文法和思想文法，态度文法分为证据类、反对类、轻视类、严格类等40多个二级分类，感受文法分类知道类、不知道类、喜爱类等50多个二级分类，思想文法分为希望类、主张类、想念类等10多个二级分类，二级分类下面还分有三级分类，如证据类下面分支持类1个三级分类，希望类下面分为希他类、希己类和目标类3个三级分类等。对所有句模进行句法分析和依存关系分析，生成对应的句法树库和依存关系图库，用于对待分类句子进行分类算法匹配。

(2)分词模块：此模块采用美国斯坦福大学自然语言处理小组推出的中文分词器进行分词。此分词器采用条件随机场模型，F-度量值达到95％，支持用户自主添加新词。

(3)句法分析模块：此模块采用美国斯坦福大学自然语言处理小组推出的句法分析器。此句法分析器是一个词汇化的概率上下文无关语法分析器，可以将句子分析成句法树。例如：句子“我爱自然语言处理”通过该句法分析器分析之后的结果图形化表示如图2所示。图中ROOT表示要处理文本的语句；IP表示简单从句；NP表示名词短语；VP表示动词短语；PU表示断句符，通常是句号、问号、感叹号等标点符号；PN表示代词；VV表示动词；NN表示常用名词。

(4)依存关系分析模块：此模块采用哈尔滨工业大学社会计算与信息检索研究中心推出的语言技术平台。语言技术平台(Language Technology Platform，LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术)，以及基于动态链接库(Dynamic Link Library，DLL)的应用程序接口，可视化工具，并且能够以网络服务(Web Service)的形式进行使用。例如：句子“我爱自然语言处理”通过LTP分析之后的结果图形化表示如图3所示。图中HED表示句子的核心词；SBV表示主谓关系；VOB表示动宾关系；ATT表示定中关系。

图6是本发明的一种基于句法和语义的倾向性文本自动分类系统的分类算法流程图；进一步地，参考图6，基于上述一种倾向性文本自动分类系统及其实现方法基本处理流程包括下列步骤：

(1)分析待分类句子中的特征词，在多层级情感分类句模库中找出包含这些特征词的所有可能的分类即候选分类。

(2)如果找不到候选分类，则将该句子手工加入多层级情感分类句模库中；如果找到了候选分类，则执行第3步。

(3)提取候选分类包含的句模。

(4)对第3步提取出的句模通过依存关系分析模块，计算待分类句子与该句模的依存关系图匹配的得分。具体打分规则可根据具体业务不同调整，此实施例中的打分规则为：核心词匹配加4分，每个附属词匹配加1分，依存关系中每条边匹配加2分。

(5)对第3步提取出的句模通过句法分析模块，计算待分类句子与该句模句法树匹配的得分。具体打分规则可根据具体业务不同调整，此实施例中的打分规则为：句法树中每条边匹配加2分。

(6)将第4步的得分与第5步的得分相加，得到该句模与待分类句子匹配的总得分。

(7)检查候选分类中的句模是否提取完毕，如果没有就执行第3步；如果是，执行第8步。

(8)对每个候选分类中所有句模按总得分由高到低对候选分类进行排序，排位最前的分类为最终分类结果，即为该待分类句子的分类结果，其它分类可作为参考结果。如果最终分类结果的总得分为0，则将此待分类句子手工添加到多层级情感分类句模库中。

通过结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

上述内容仅仅是为描述本发明而列举的较佳实施例之一，并非依此限制本发明专利保护的范围，一切不脱离本发明宗旨进行的修改或者等同替换的技术方案及其改进，均不应排除在本发明的权利要求的保护范围之外。

Claims

1.一种倾向性文本自动分类系统及其实现方法，包括依存关系分析模块、中文分词模块、句法分析模块和多层级情感分类句模库，其特征在于：多层级情感分类句模库分为态度文法、感受文法和思想文法三大类120个小类，根据汉语使用规则和业务相关知识手工整理而成。

2.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法，其特征在于对所述的多层级情感分类句模库中的句模进行依存关系分析，建立依存关系图库。

3.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法，其特征在于对所述的多层级情感分类句模库中的句模进行句法分析，建立句法树库。

4.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法，其特征在于对待分类的句子进行中文分词和句法分析，将句法分析的结果与句法树库中候选分类下的每个句模的句法树进行匹配，按照相关算法依次计算每个句模的句法树与待分类句子对应的句法树的匹配程度得分。

5.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法，其特征在于对待分类的句子进行依存关系分析，将依存关系分析的结果与依存关系图库中候选分类下的每个句模的依存关系图进行匹配，并按照相关算法依次计算每个句模对应的依存关系图与待分类句子对应的依存关系图的匹配程度得分。

6.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法，其特征在于将权利要求4计算的得分与权利要求5计算的得分相加每个句模的两次得分相加为该句模与待分类句子匹配程度的总得分，总得分最高的句模所属的分类为最终分类结果。