CN102930042A - 一种倾向性文本自动分类系统及其实现方法 - Google Patents
一种倾向性文本自动分类系统及其实现方法 Download PDFInfo
- Publication number
- CN102930042A CN102930042A CN2012104535232A CN201210453523A CN102930042A CN 102930042 A CN102930042 A CN 102930042A CN 2012104535232 A CN2012104535232 A CN 2012104535232A CN 201210453523 A CN201210453523 A CN 201210453523A CN 102930042 A CN102930042 A CN 102930042A
- Authority
- CN
- China
- Prior art keywords
- sentence
- classification
- mould
- module
- syntax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种倾向性文本自动分类系统及其实现方法。涉及自然语言处理技术领域、文本数据挖掘、文本自动化分类技术领域。该系统包括依存关系分析模块,用于对中文句子进行依存关系分析;中文分词模块,用于对中文句子进行分词;句法分析模块,用于对分词后的中文句子进行句法分析;多层级情感分类句模库,用于对与业务相关知识进行管理;其特征在于:多层级情感分类句模库分为态度文法、感受文法和思想文法三大类120个小类,根据汉语使用规则和业务相关知识手工整理而成;对多层级情感分类句模库中所有句模进行句法分析,建立句法树库;对多层级情感分类句模库中所有句模进行依存关系分析,建立依存关系图库。
Description
技术领域
本发明涉及自然语言处理技术领域、文本数据挖掘、文本自动化分类技术领域,特别是涉及一种倾向性文本自动化分类系统,具体地说涉及一种基于句法和依存关系的倾向性文本自动化分类系统。
背景技术
对文本数据进行自动化分类是文本数据挖掘、自然语言处理等人工智能技术的重要应用领域,其主要功能是把以数字化形式存储的非结构化文本数据,通过自然语言处理技术、文本数据挖掘技术,自动按照事先组织好的与具体业务相关的类别进行分类。随着信息技术的不断发展和信息系统应用范围的不断深化,对文本数据进行自动化分类是提高企业生产效率和竞争优势的重要技术措施。
倾向性文本又称情感文本,是与主要陈述事实的客观性文本相对应的主要表达意见或情感的主观性文本。倾向性文本自动化分类系统是对文本数据中的情感进行多层级的细致分类,挖掘文本潜在的情感表达,进而发掘用户的兴趣与需求,对企业未来的发展提供决策依据具有很重要的意义。
更具体的,对于需要处理大量文本数据的行业而言,随着各类数字化业务的开拓,需求将不断增强,伴随而来的是传统的人工处理方式劳动强度的增加,如何在海量的资料中挖掘用户对产品的情绪,发掘用户的兴趣与需求都是大数据处理行业面对的直接挑战。
因此寻找一条科学的倾向性文本自动分类方法,在最大程度上减轻数据处理人员的压力与提高服务质量是一个迫切的任务。
发明内容
本发明的目的在于提供一种能够对倾向性文本进行多层级的细致的自动化分类系统及其实现方法,并使用户能对业务相关知识进行管理,根据具体业务调整分类结果。
为实现上述发明目的,本发明提供的一种倾向性文本自动分类系统及其实现方法,包括依存关系分析模块,用于对中文句子进行依存关系分析;中文分词模块,用于对中文句子进行分词;句法分析模块,用于对分词后的中文句子进行句法分析;多层级情感分类句模库,用于对与业务相关知识进行管理;其特征在于:多层级情感分类句模库分为态度文法、感受文法和思想文法三大类120个小类,根据汉语使用规则和业务相关知识手工整理而成;对多层级情感分类句模库中所有句模进行句法分析,建立句法树库;对多层级情感分类句模库中所有句模进行依存关系分析,建立依存关系图库;对待分类句子进行中文分词和句法分析,将句法分析的结果与句法树库中候选分类下的每个句模的句法树进行匹配,按照相关算法依次计算每个句模的句法树与待分类句子对应的句法树的匹配程度得分;对待分类句子进行依存关系分析,将依存关系分析的结果与依存关系图库中候选分类下的每个句模的依存关系图进行匹配,并按照相关算法依次计算每个句模对应的依存关系图与待分类句子对应的依存关系图的匹配程度得分;每个句模的两次得分相加为该句模与待分类句子匹配程度的总得分,总得分最高的句模所属的分类为最终分类结果。
上述的多层级情感分类句模库要对其中的句模进行依存关系分析,建立依存关系图库。
上述的多层级情感分类句模库要为其中的句模进行句法分析,建立句法树库。
本发明相比现有技术突出的优点是:
本发明采用基于统计的方法和基于规则的方法相结合的方法,提高倾向性文本自动分类的准确性和灵敏度。基于统计的方法是指本发明采用的分词模块和句法分析模块分别使用美国斯坦福大学自然语言处理小组推出的中文分词器和句法分析器;本发明采用的依存关系分析模块使用哈尔滨工业大学社会计算与信息检索研究中心推出的语言技术平台。这三个软件都采用了多种基于统计的机器学习算法对句子进行分析。基于规则的方法是指多层级情感分类句模库根据汉语使用规则和业务相关知识手工整理而成。本发明的分类算法是对待分类句子进行分析后与句模库进行匹配,故本发明不需要使用任何测试语料,对单个句子只要能与句模库匹配就能准确分类。
附图说明
图1是本发明的一个实施例的软件操作界面显示图;
图2是本发明的一个实施例的句法分析模块可视化结果示意图;
图3是本发明的一个实施例的依存关系模块可视化结果示意图;
图4是本发明的一个实施例的多层级情感分类句模库层次结构示意图;
图5是本发明的一种倾向性文本自动分类系统及其实现方法的基本模块关系图;
图6是本发明的一种倾向性文本自动分类系统及其实现方法的分类算法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图从图1至图6及实施例,对本发明的一种倾向性文本自动分类系统及其实现方法进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明。
本发明的一种倾向性文本自动分类系统及其实现方法,通过多层级情感分类句模库提高系统对具体业务中的倾向性文本进行多层级的细致的自动化分类。本发明采用基于统计的方法和基于规则的方法相结合的方法,提高系统准确性、反应速度和容错性。
下面以具体实施例对本发明作进一步的描述,图1是本发明的一个实施例的软件操作界面显示图;图2是本发明的一个实施例的句法分析模块可视化结果显示图;图3是本发明的一个实施例的依存关系模块可视化结果显示图。具体实施步骤如下:
1、用户在图1所示软件操作界面左上角输入待分类句子,点击右上角的“分词”按钮,系统会对句子进行中文分词,将分词结果显示在最下面的文本框中。
2、用户点击图1所示软件操作界面右上角的“分类”按钮,系统会对句子进行自动分类,将分类处理中间过程生成的句法树和依存关系图分别用文本和图形的形式显示在中间的文本框中,如图2和图3所示,将分类结果以及相应得分显示在最下面的文本框中,如图1所示。
3、用户点击图1所示软件操作界面右上角的“载入文件”按钮,可以批量处理文本,文本格式为每个句子一行,处理结果存入数据库。
图4是本发明的一个实施例的多层级情感分类句模库层次结构示意图;本发明的一种倾向性文本自动分类系统及其实现方法将多层级情感分类句模库存储在数据库中,并为用户提供了通过浏览器对句模库中的各级分类、分类中的句模以及涉及的词类进行查看、增加、修改和删除操作的功能。
图5是本发明的一种倾向性文本自动分类系统及其实现方法的基本模块关系图。本发明采用模块化设计,主要包括依存关系分析模块、中文分词模块、句法分析模块和多层级情感分类句模库。基本模块之间的关系如图5所示,其中句法树库是对多层级情感分类句模库中所有句模进行句法分析后生成的;依存关系图库是对多层级情感分类句模库中所有句模进行依存关系分析后生成的;分类算法使用句法分析模块和依存关系分析模块的分析结果;中文分词模块为句法分析模块提供中文分词功能。
下面详细介绍各个模块的组成:
(1)多层级情感分类句模库:将手工整理的句模分为3个大类,120个小类。句模的形式如:<感事><喜爱词类><向事>,其中“感事”和“向事”分别是一种语义角色,“感事”表示感受的主体,“向事”表示感受施加的对象,“喜爱词类”包括与喜爱相关的一组近义词,例如:热爱、怜爱、心爱、钟爱、惠爱、酷爱、疼、慈、向慕、老牛舐犊、喜爱、疼爱、喜好、喜欢、感兴趣、有好感、爱慕、爱好、欣赏、希罕、好尚、好奇、爱等。我们将所有句模划分为3个大类:态度文法、感受文法和思想文法,态度文法分为证据类、反对类、轻视类、严格类等40多个二级分类,感受文法分类知道类、不知道类、喜爱类等50多个二级分类,思想文法分为希望类、主张类、想念类等10多个二级分类,二级分类下面还分有三级分类,如证据类下面分支持类1个三级分类,希望类下面分为希他类、希己类和目标类3个三级分类等。对所有句模进行句法分析和依存关系分析,生成对应的句法树库和依存关系图库,用于对待分类句子进行分类算法匹配。
(2)分词模块:此模块采用美国斯坦福大学自然语言处理小组推出的中文分词器进行分词。此分词器采用条件随机场模型,F-度量值达到95%,支持用户自主添加新词。
(3)句法分析模块:此模块采用美国斯坦福大学自然语言处理小组推出的句法分析器。此句法分析器是一个词汇化的概率上下文无关语法分析器,可以将句子分析成句法树。例如:句子“我爱自然语言处理”通过该句法分析器分析之后的结果图形化表示如图2所示。图中ROOT表示要处理文本的语句;IP表示简单从句;NP表示名词短语;VP表示动词短语;PU表示断句符,通常是句号、问号、感叹号等标点符号;PN表示代词;VV表示动词;NN表示常用名词。
(4)依存关系分析模块:此模块采用哈尔滨工业大学社会计算与信息检索研究中心推出的语言技术平台。语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library,DLL)的应用程序接口,可视化工具,并且能够以网络服务(Web Service)的形式进行使用。例如:句子“我爱自然语言处理”通过LTP分析之后的结果图形化表示如图3所示。图中HED表示句子的核心词;SBV表示主谓关系;VOB表示动宾关系;ATT表示定中关系。
图6是本发明的一种基于句法和语义的倾向性文本自动分类系统的分类算法流程图;进一步地,参考图6,基于上述一种倾向性文本自动分类系统及其实现方法基本处理流程包括下列步骤:
(1)分析待分类句子中的特征词,在多层级情感分类句模库中找出包含这些特征词的所有可能的分类即候选分类。
(2)如果找不到候选分类,则将该句子手工加入多层级情感分类句模库中;如果找到了候选分类,则执行第3步。
(3)提取候选分类包含的句模。
(4)对第3步提取出的句模通过依存关系分析模块,计算待分类句子与该句模的依存关系图匹配的得分。具体打分规则可根据具体业务不同调整,此实施例中的打分规则为:核心词匹配加4分,每个附属词匹配加1分,依存关系中每条边匹配加2分。
(5)对第3步提取出的句模通过句法分析模块,计算待分类句子与该句模句法树匹配的得分。具体打分规则可根据具体业务不同调整,此实施例中的打分规则为:句法树中每条边匹配加2分。
(6)将第4步的得分与第5步的得分相加,得到该句模与待分类句子匹配的总得分。
(7)检查候选分类中的句模是否提取完毕,如果没有就执行第3步;如果是,执行第8步。
(8)对每个候选分类中所有句模按总得分由高到低对候选分类进行排序,排位最前的分类为最终分类结果,即为该待分类句子的分类结果,其它分类可作为参考结果。如果最终分类结果的总得分为0,则将此待分类句子手工添加到多层级情感分类句模库中。
通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
上述内容仅仅是为描述本发明而列举的较佳实施例之一,并非依此限制本发明专利保护的范围,一切不脱离本发明宗旨进行的修改或者等同替换的技术方案及其改进,均不应排除在本发明的权利要求的保护范围之外。
Claims (6)
1.一种倾向性文本自动分类系统及其实现方法,包括依存关系分析模块、中文分词模块、句法分析模块和多层级情感分类句模库,其特征在于:多层级情感分类句模库分为态度文法、感受文法和思想文法三大类120个小类,根据汉语使用规则和业务相关知识手工整理而成。
2.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法,其特征在于对所述的多层级情感分类句模库中的句模进行依存关系分析,建立依存关系图库。
3.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法,其特征在于对所述的多层级情感分类句模库中的句模进行句法分析,建立句法树库。
4.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法,其特征在于对待分类的句子进行中文分词和句法分析,将句法分析的结果与句法树库中候选分类下的每个句模的句法树进行匹配,按照相关算法依次计算每个句模的句法树与待分类句子对应的句法树的匹配程度得分。
5.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法,其特征在于对待分类的句子进行依存关系分析,将依存关系分析的结果与依存关系图库中候选分类下的每个句模的依存关系图进行匹配,并按照相关算法依次计算每个句模对应的依存关系图与待分类句子对应的依存关系图的匹配程度得分。
6.根据权利要求1所述的一种倾向性文本自动分类系统及其实现方法,其特征在于将权利要求4计算的得分与权利要求5计算的得分相加每个句模的两次得分相加为该句模与待分类句子匹配程度的总得分,总得分最高的句模所属的分类为最终分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012104535232A CN102930042A (zh) | 2012-11-13 | 2012-11-13 | 一种倾向性文本自动分类系统及其实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012104535232A CN102930042A (zh) | 2012-11-13 | 2012-11-13 | 一种倾向性文本自动分类系统及其实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102930042A true CN102930042A (zh) | 2013-02-13 |
Family
ID=47644839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012104535232A Pending CN102930042A (zh) | 2012-11-13 | 2012-11-13 | 一种倾向性文本自动分类系统及其实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102930042A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473262A (zh) * | 2013-07-17 | 2013-12-25 | 北京航空航天大学 | 一种基于关联规则的Web评论观点自动分类系统及分类方法 |
CN104573030A (zh) * | 2015-01-14 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种文本情绪预测方法及装置 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN107943784A (zh) * | 2017-11-02 | 2018-04-20 | 南华大学 | 基于生成对抗网络的关系抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609459A (zh) * | 2009-07-21 | 2009-12-23 | 北京大学 | 一种情感特征词提取系统 |
US20110131485A1 (en) * | 2009-11-30 | 2011-06-02 | International Business Machines Corporation | Publishing specified content on a webpage |
CN102236650A (zh) * | 2010-04-20 | 2011-11-09 | 日电(中国)有限公司 | 用于修正和/或扩展情感词典的方法和装置 |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
-
2012
- 2012-11-13 CN CN2012104535232A patent/CN102930042A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609459A (zh) * | 2009-07-21 | 2009-12-23 | 北京大学 | 一种情感特征词提取系统 |
US20110131485A1 (en) * | 2009-11-30 | 2011-06-02 | International Business Machines Corporation | Publishing specified content on a webpage |
CN102236650A (zh) * | 2010-04-20 | 2011-11-09 | 日电(中国)有限公司 | 用于修正和/或扩展情感词典的方法和装置 |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
Non-Patent Citations (5)
Title |
---|
付永陈: ""基于博客搜索的博文情感倾向性分析技术的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
宗宝琴: ""基于自然语言理解的智能检索接口技术的研究及其应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
庞娜: ""基于OCC模型的文本情感识别方法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
许松: ""现代汉语"对"字句研究"", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 * |
鲁川: ""现代汉语基本句模"", 《世界汉语教学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473262A (zh) * | 2013-07-17 | 2013-12-25 | 北京航空航天大学 | 一种基于关联规则的Web评论观点自动分类系统及分类方法 |
CN103473262B (zh) * | 2013-07-17 | 2016-12-28 | 北京航空航天大学 | 一种基于关联规则的Web评论观点自动分类系统及分类方法 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN105095223B (zh) * | 2014-04-25 | 2018-09-11 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN104573030A (zh) * | 2015-01-14 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种文本情绪预测方法及装置 |
CN104573030B (zh) * | 2015-01-14 | 2017-12-12 | 哈尔滨工业大学深圳研究生院 | 一种文本情绪预测方法及装置 |
CN107943784A (zh) * | 2017-11-02 | 2018-04-20 | 南华大学 | 基于生成对抗网络的关系抽取方法 |
CN107943784B (zh) * | 2017-11-02 | 2020-12-29 | 南华大学 | 基于生成对抗网络的关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | " what parts of your apps are loved by users?"(T) | |
Hogenboom et al. | Multi-lingual support for lexicon-based sentiment analysis guided by semantics | |
CN106919689A (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
Liu et al. | Measuring similarity of academic articles with semantic profile and joint word embedding | |
CN102866989A (zh) | 基于词语依存关系的观点抽取方法 | |
CN104794212A (zh) | 基于用户评论文本的上下文情感分类方法及分类系统 | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
CN103544246A (zh) | 互联网多种情感词典构建方法及系统 | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
Spasić et al. | Idiom-based features in sentiment analysis: Cutting the Gordian knot | |
Parameswarappa et al. | Kannada word sense disambiguation using decision list | |
CN107038163A (zh) | 一种面向海量互联网信息的文本语义建模方法 | |
Tratz et al. | Tweet conversation annotation tool with a focus on an arabic dialect, moroccan darija | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
Ruppenhofer et al. | FrameNet | |
Appidi et al. | Creation of corpus and analysis in code-mixed kannada-english twitter data for emotion prediction | |
Yang et al. | Ontology generation for large email collections. | |
CN102930042A (zh) | 一种倾向性文本自动分类系统及其实现方法 | |
Alhazmi et al. | Arabic SentiWordNet in relation to SentiWordNet 3.0 | |
Jabreel et al. | Sentirich: Sentiment analysis of tweets based on a rich set of features | |
Bandyopadhyay | Emerging Applications of Natural Language Processing: Concepts and New Research: Concepts and New Research | |
Wachsmuth et al. | Back to the roots of genres: Text classification by language function | |
Jayashree et al. | Suitability of naïve Bayesian methods for paragraph level text classification in the Kannada language using dimensionality reduction technique | |
Harrigan | A Quantitative Account of Nêhiyawêwin Order: Using mixed-effects modelling to uncover syntactic, semantic, and morphological motivations in Nêhiyawêwin |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130213 |
|
RJ01 | Rejection of invention patent application after publication |