CN103123620A

CN103123620A - 一种基于命题逻辑的网络文本情感分析方法

Info

Publication number: CN103123620A
Application number: CN2012105299720A
Authority: CN
Inventors: 田玉成; 马晶; 赵萱; 陆月明
Original assignee: CHINA INTERNET NETWORK NEWS CENTER; Beijing University of Posts and Telecommunications
Current assignee: CHINA INTERNET NETWORK NEWS CENTER; Beijing University of Posts and Telecommunications
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2013-05-29

Abstract

本发明涉及一种基于命题逻辑的网络文本情感分析方法，包括文本预处理、文本情感分词、文本情感逻辑符号表达和文本情感分析四个模块。本发明能够实现对网络文本进行规范化预处理、去除非情感等冗余文本信息、逻辑联接词提取、文本符号化、短句情感倾向分析、情感量化分析、情感倾向计算和全文情感分析等功能，完成情感词的抽取和量化分析，对情感发现应用、舆情搜索应用、内容安全应用、搜索引擎应用等具有重要的作用。

Description

一种基于命题逻辑的网络文本情感分析方法

技术领域

本发明涉及一种基于命题逻辑的网络文本情感分析方法，本发明采用命题逻辑理论分析网络文本情感的问题，应用于网络舆情、情感等现象的发现、搜索和数据挖掘等领域，属于信息领域和自然语言处理领域。

背景技术

传统对网络上的情感分析主要依赖于关键词，如“愤怒”、“高兴”等词，也包括了一些重大事件的感情词、关键词等，但这些词在一定程度上并没有反映到整个文章、网站、通信信息的感情，而感情是推动一个事情、事件发展的重大因素，从感情的强弱，能够分析出事件和事情发展的状况等，这些事件和事情的发展，一定程度上影响着网络舆情和网络信息的安全。情感分析对舆情的发展和控制舆情起到重要的作用。

近年来，网络上带有主观倾向性的文本与日俱增，这些文本表达了用户在某领域的主观倾向性观点，例如，网民对产品、服务、重大事件的评价和对热点事件的评论。这些带有情感倾向性的文本在新闻、电子商务、政务等方面具有巨大的挖掘潜力。

如何通过有效的计算机辅助手段来应对网络上海量文本信息的分析和提取是我们关注的焦点。

现有的文本情感分析技术大多基于情感词词典，但是由于网络文本所涉及领域、所处地域、表达习惯、结构风格等的差异，纯粹的基于情感词典技术会存在效率低下、准确率较低的问题。针对上述的问题，我们提出了一种基于命题逻辑的网络文本情感分析方法，能有效应对网络文本领域倾向明显、结构风格松散的问题。

本专利提出将命题逻辑理论应用于对网络文本的情感分析，我们将所获取的网络文本看作是复合命题，提取文本中的逻辑联接词(如否定联接词、并列联接词、转折联接词等)，并得到由该逻辑联接词联接的简单句或短语，利用领域情感词词典判断简单句或短语的情感倾向，并将该倾向用布尔量0、1来表示(如0代表负倾向情感，1代表正倾向情感)，不同种类的情感也可以使用多位二进制来表示(如00代表愤怒，01代表反感，10代表喜爱，11代表羡慕)。通过分析由逻辑联接词联接的简单句或短语的逻辑关系，将该文本进行符号化。根据命题逻辑的演算准则，计算出复合命题文本的真值(0或1)，得到整篇文本的情感倾向(负倾向、正倾向或无倾向)。

发明内容

本发明“一种基于命题逻辑的网络文本情感分析方法”旨在提供一种基于命题逻辑理论实现网络文本情感分析的方法，该方法包括四个模块：文本预处理模块、文本情感分词模块、文本情感逻辑符号表达模块、文本情感分析模块。该方法改善了现有文本分析方法中准确度不高、算法过于复杂的问题。下面详细介绍本发明的结构、组成部分、符号化规则、两个字典、各执行步骤。

1.本发明的结构和组成部分

本发明“一种基于命题逻辑的网络文本情感分析方法”的结构和模块组成如图1所示，本发明包括四个模块：文本预处理模块、文本情感分词模块、文本情感逻辑符号表达模块、文本情感分析模块。下面就各模块作具体说明：

(1)文本预处理模块：该模块将网络文本(例如网页、文档和微博等)进行规范化预处理，去除不带有情感、格式不规范的网络符号等冗余文本信息。

(2)文本情感分词模块：该模块对文本进行分词处理，提取句号、分号等句子结束标志，将较长的信息文本分为多个短文本。

(3)文本情感逻辑符号表达模块：该模块通过逻辑词词典提取文本中的逻辑联接词，并将短文本划分为由该逻辑联接词联接的简单短语。

(4)文本情感分析模块：该模块通过领域情感词词典(下面将介绍)，对每个简单短语进行情感倾向分析并将情感进行布尔量化。文本情感分析模块以简单短语作为简单命题将短文本符号化，并根据量化结果计算短文本情感倾向。该模块对其余的多个短文本进行相同处理，并统计短文本的情感倾向，从而得到整篇长文本的情感倾向。

2.本发明的符号化规则

(1)否定规则：该规则表示相反含义，在其所修饰的简单命题前加否定联接符

，多重否定可简化为单重否定。

●文本出现否定词表示一重否定，如“不、无、莫、非、没有、否”；

●文本出现反问句表示一重否定，即否定的反问句表示肯定、肯定的反问句表示否定；

●文本出现隐性否定词表示一重否定，如“忌、禁止、防止、难以、忘记、忽视、放弃、拒绝、杜绝”；

●文本出现“无时无刻、不明不白”等特殊否定词表示一重否定，“不无、无不”等则表示双重否定；

●特殊否定词“差点儿、差点儿没”，如果是不希望出现的事情，表否定，如差点儿摔倒，差点儿没摔倒；如果是希望实现的事情，表肯定，如差点儿赶上了，差点儿没赶上。

(2)合取规则：该规则表示并列关系或递进关系，一般情况下由该类逻辑联接词联接的简单命题之间所表达的情感相同或相近，若文本中出现合取连词，如“同时、同样、何况、甚至、又、既......又、不但......而且、不仅......还、不但不......反而、连......也、也......也”等时，就在由该联接词联接的简单命题间加合取联接符“∩”。

(3)析取规则：该规则表示转折关系，一般情况下由该逻辑联接词联接的简单命题所表达的情感相反。若文本中出现析取连接词，如“但是、然而、却、不是......而是、尽管......可是、虽然......但是”等时，在联接词联接的简单命题间加析取联接符“∪”。但是转折关系的符号表示依据其强烈程度又有所不同。

●对于某些具有强烈转折关系的联接词，如“但是、然而”，文本主要偏重于表达转折词之后的内容，因此在文本符号化的时候要注意，如果负倾向情感在转折联接词之前，则使用析取联接词“∪”，反之则使用析取联接词的否定即或非联接词“↓”。

●对于某些转折程度较轻的联接词，如“只是、不过、只不过”，文本主要偏重于表达转折之前的内容，因此在进行文本符号化时要注意，如果正倾向情感在转折联接词之前，则使用析取联接词“∪”，反之则使用或非联接词“↓”。

(4)抑或规则：该规则表达选择关系、非此即彼的关系，若文本中出现“或者、抑或”等联接词时，在该联接词联接的简单命题间加入抑或连接符。实际应用中该情况较少。

(5)其他情况处理：若出现由多个逗号或其他标点符号分隔的多个短语，但短语之间没有出现任何逻辑联接词，则将此关系定为合取联接符“∩”。

3.本发明的两个辅助词典

本发明“一种基于命题逻辑的网络文本情感分析方法”需要两个辅词典：逻辑连接词词典、领域情感词词典。本发明的两个词典及使用方法如图2所示。以下就各部分及其方法做详细说明。

●逻辑联接词词典：该词典由五类逻辑联接词构成，分别表示否定关系、并列递进关系、转折关系、选择关系、其它特殊关系。每个部分都包含相应的词库，主要用于检索文本中的逻辑关系。

●领域情感词词典：该词典包含宾馆酒店、电子产品等领域，每个领域都有其对应的情感词及情感分类，比如二分类情感(正倾向情感、负倾向情感)、四分类情感(喜欢、羡慕、讨厌、憎恶)等，每一类情感都对应其特定的情感词库，用于判别短文本的情感倾向。

本发明的有益效果是，能比较准确地分析并得到网络文本的情感倾向，基于上述规则该方法的时间复杂度和空间复杂度都比较小。

4.本发明各步骤的执行流程

本发明“一种基于命题逻辑的网络文本情感分析方法”各步骤的执行流程分五步走，各步骤的执行编号如图3所示。下面详细解释五步骤的执行情况：

(1)文本预处理：文本预处理该模块将网络文本(例如网页、微博、文档文件等文本)进行规范化预处理，该模块去除格式、不带有情感词、格式不规范的网络符号、HTML标记等冗余文本信息。

(2)文本情感分词：文本情感分词模块对预处理的文本，依据情感分词词典、领域情感词词典、分词词库对文本进行情感词分词，提取句号、分号等句子结束标志，将较长的信息文本分为多个短情感词文本。

(3)文本情感逻辑符号表达：文本情感逻辑符号表达模块通过逻辑词词典提取句子中的逻辑联接词，并将短文本划分为由该逻辑联接词联接的简单短语。

(4)文本情感分析：文本情感分析模块通过领域情感词词典，对每个简单短语进行情感倾向分析并将情感进行布尔量化。文本情感分析模块以简单短语作为简单命题将短文本符号化，并根据量化结果计算短文本情感倾向。

(5)文章情感分析：文本情感分析模块依次处理其余的多个短文本，统计短文本的情感倾向，从而得到整篇长文本的情感倾向。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1本发明的结构和模块组成

图2本发明的两个词典及使用方法

图3本发明的执行流程标号

图4本发明各步骤的执行流程

图5网络文本情感分析系统验证

5.具体实施方式

下面将结合本发明实施例中的附图，给出几个实例，具体分析展示本发明的技术要点。显然，所描述的实施例也仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

(1)例子：帮朋友订的，据朋友说，酒店比较新，装潢和设施也还不错，只是房间有些刺鼻的油漆味。而房间虽然不算太大，但是放两张双人床倒还不显得太局促。/＞

本发明的执行流程实例为：

经过文本预处理去除HTML标记“/＞”以及不带有情感词的部分“帮朋友订的，据朋友说”。将剩余部分利用句号将该长文本分隔为2个短文本第一个短句通过宾馆酒店领域情感词词典和逻辑连接词词典可以提取出情感词：“新”、“不错”、“刺鼻”，分别量化为“1”、“1”、“0”，以及并列联接词“也”(符号化为∩)、轻度转折联接词“只是”，由于该轻度转折词偏重于转折之前的情感，且转折前的情感倾向为1∩1＝1，因此符号化为↓，故该短句情感倾向为(1∩1)↑0＝1；同理第二个短句可提取情感词：“大”、“局促”，可分别量化为“1”和“0”，以及否定联接词“不”(符号化为

)、强烈转折联接词“虽然、但是”，由于该联接词偏重表达转折后的内容，且转折后的情感倾向为

故符号化为∪，因此该短句情感倾向为

经统计由2个短句得到的该长文本中正倾向句所占比例为1，负倾向句为0，因此该文本表现的情感倾向为正向。该文本的情感分析系统结果参见图3。

(2)今天买了两台液晶，一台等离子。大尺寸的等离子看起来是爽，不过画面没有液晶的清晰，看大片就得选择等离子。这款LG的等离子是我看到的合资品牌中最便宜的，用着也不错，而且换台很快。

本发明的执行流程实例为：

经过文本预处理去除不带有情感词部分“今天买了两台液晶，一台等离子。”、“看大片就得选择等离子。”将剩余部分利用句号将该长文本分隔为2个短文本，第一个短句通过电子产品领域情感词词典和逻辑连接词词典可以提取出情感词：“大”、“爽”、“清晰”，量化为“1”、“1”、“1”，以及否定联接词“没有”(符号化为

)和轻度转折联接词“不过”，由于“不过”偏重表达转折前的内容，且转折前的情感倾向为“1”，符号化为↓。因此该短句情感倾向为

同理第二个短句可提取情感词：“便宜”、“不错”、“快”，可量化为“1”、“1”、“1”，逻辑联接词“也”、“而且”(都符号化为∩)，因此该短句情感倾向为1∩1∩1＝1。经统计由2个短句得到的该长文本中正倾向句所占比例为1，负倾向句为0，因此该文本表现的情感倾向为正向。

(3)产品很稀，涂上也不好吸收，而且用后白花花的一片。美白效果倒是没看出来，只能自认倒霉了。完全和专柜里的隔离霜不同，希望亲们不要再买这个隔离霜了。

本发明的执行流程实例为：

经过文本预处理去除不带有情感词部分“完全和专柜里的隔离霜不同，”利用句号将该长文本分隔为3个短文本，第一个短句通过美容护肤领域情感词词典和逻辑连接词词典可以提取出情感词“稀”、“吸收”、“白花花”，量化为“0”、“1”、“0”，以及否定联接词“不”(符号化为

)和并列联接词“也”、“而且”(符号化为∩)，因此该短句情感倾向为

同理第二个短句可提取情感词：“美白”、“倒霉”，可量化为“1”、“0”，逻辑联接词“没”(符号化为

)、特殊并列联接词逗号(符号化为∩)，因此该短句情感倾向为

第三个短句可提取情感词“希望”，量化为“1”，以及否定联接词“不”(符号化为

)，因此该短句情感倾向为

经统计由3个短句得到的该长文本中负倾向句所占比例为1，正倾向句为0，因此该文本表现的情感倾向为负向。

6.本发明的优势

本发明提出的一种基于命题逻辑的网络文本情感分析方法，通过将网络信息进行逻辑联接关系的提取和简单短文本的情感判断，得到文本的符号化模型，并计算出文本情感倾向。

本发明的优点主要有：

(1)与现有基于情感词词典分析文本情感的方法相比，本发明将网络信息中难以处理的复杂情感通过基于逻辑的符号化计算可以简明、准确地得到文本情感倾向。

(2)基于规则的符号化将文本情感倾向量化为布尔量的计算，时间复杂度和空间复杂度明显降低。

(3)逻辑联接词数量非常有限，逻辑联接词典更新容易。