CN103123620A - 一种基于命题逻辑的网络文本情感分析方法 - Google Patents

一种基于命题逻辑的网络文本情感分析方法 Download PDF

Info

Publication number
CN103123620A
CN103123620A CN2012105299720A CN201210529972A CN103123620A CN 103123620 A CN103123620 A CN 103123620A CN 2012105299720 A CN2012105299720 A CN 2012105299720A CN 201210529972 A CN201210529972 A CN 201210529972A CN 103123620 A CN103123620 A CN 103123620A
Authority
CN
China
Prior art keywords
text
emotion
sentiment
word
tendency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105299720A
Other languages
English (en)
Inventor
田玉成
马晶
赵萱
陆月明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA INTERNET NETWORK NEWS CENTER
Beijing University of Posts and Telecommunications
Original Assignee
CHINA INTERNET NETWORK NEWS CENTER
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA INTERNET NETWORK NEWS CENTER, Beijing University of Posts and Telecommunications filed Critical CHINA INTERNET NETWORK NEWS CENTER
Priority to CN2012105299720A priority Critical patent/CN103123620A/zh
Publication of CN103123620A publication Critical patent/CN103123620A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及一种基于命题逻辑的网络文本情感分析方法,包括文本预处理、文本情感分词、文本情感逻辑符号表达和文本情感分析四个模块。本发明能够实现对网络文本进行规范化预处理、去除非情感等冗余文本信息、逻辑联接词提取、文本符号化、短句情感倾向分析、情感量化分析、情感倾向计算和全文情感分析等功能,完成情感词的抽取和量化分析,对情感发现应用、舆情搜索应用、内容安全应用、搜索引擎应用等具有重要的作用。

Description

一种基于命题逻辑的网络文本情感分析方法
技术领域
本发明涉及一种基于命题逻辑的网络文本情感分析方法,本发明采用命题逻辑理论分析网络文本情感的问题,应用于网络舆情、情感等现象的发现、搜索和数据挖掘等领域,属于信息领域和自然语言处理领域。
背景技术
传统对网络上的情感分析主要依赖于关键词,如“愤怒”、“高兴”等词,也包括了一些重大事件的感情词、关键词等,但这些词在一定程度上并没有反映到整个文章、网站、通信信息的感情,而感情是推动一个事情、事件发展的重大因素,从感情的强弱,能够分析出事件和事情发展的状况等,这些事件和事情的发展,一定程度上影响着网络舆情和网络信息的安全。情感分析对舆情的发展和控制舆情起到重要的作用。
近年来,网络上带有主观倾向性的文本与日俱增,这些文本表达了用户在某领域的主观倾向性观点,例如,网民对产品、服务、重大事件的评价和对热点事件的评论。这些带有情感倾向性的文本在新闻、电子商务、政务等方面具有巨大的挖掘潜力。
如何通过有效的计算机辅助手段来应对网络上海量文本信息的分析和提取是我们关注的焦点。
现有的文本情感分析技术大多基于情感词词典,但是由于网络文本所涉及领域、所处地域、表达习惯、结构风格等的差异,纯粹的基于情感词典技术会存在效率低下、准确率较低的问题。针对上述的问题,我们提出了一种基于命题逻辑的网络文本情感分析方法,能有效应对网络文本领域倾向明显、结构风格松散的问题。
本专利提出将命题逻辑理论应用于对网络文本的情感分析,我们将所获取的网络文本看作是复合命题,提取文本中的逻辑联接词(如否定联接词、并列联接词、转折联接词等),并得到由该逻辑联接词联接的简单句或短语,利用领域情感词词典判断简单句或短语的情感倾向,并将该倾向用布尔量0、1来表示(如0代表负倾向情感,1代表正倾向情感),不同种类的情感也可以使用多位二进制来表示(如00代表愤怒,01代表反感,10代表喜爱,11代表羡慕)。通过分析由逻辑联接词联接的简单句或短语的逻辑关系,将该文本进行符号化。根据命题逻辑的演算准则,计算出复合命题文本的真值(0或1),得到整篇文本的情感倾向(负倾向、正倾向或无倾向)。
发明内容
本发明“一种基于命题逻辑的网络文本情感分析方法”旨在提供一种基于命题逻辑理论实现网络文本情感分析的方法,该方法包括四个模块:文本预处理模块、文本情感分词模块、文本情感逻辑符号表达模块、文本情感分析模块。该方法改善了现有文本分析方法中准确度不高、算法过于复杂的问题。下面详细介绍本发明的结构、组成部分、符号化规则、两个字典、各执行步骤。
1.本发明的结构和组成部分
本发明“一种基于命题逻辑的网络文本情感分析方法”的结构和模块组成如图1所示,本发明包括四个模块:文本预处理模块、文本情感分词模块、文本情感逻辑符号表达模块、文本情感分析模块。下面就各模块作具体说明:
(1)文本预处理模块:该模块将网络文本(例如网页、文档和微博等)进行规范化预处理,去除不带有情感、格式不规范的网络符号等冗余文本信息。
(2)文本情感分词模块:该模块对文本进行分词处理,提取句号、分号等句子结束标志,将较长的信息文本分为多个短文本。
(3)文本情感逻辑符号表达模块:该模块通过逻辑词词典提取文本中的逻辑联接词,并将短文本划分为由该逻辑联接词联接的简单短语。
(4)文本情感分析模块:该模块通过领域情感词词典(下面将介绍),对每个简单短语进行情感倾向分析并将情感进行布尔量化。文本情感分析模块以简单短语作为简单命题将短文本符号化,并根据量化结果计算短文本情感倾向。该模块对其余的多个短文本进行相同处理,并统计短文本的情感倾向,从而得到整篇长文本的情感倾向。
2.本发明的符号化规则
(1)否定规则:该规则表示相反含义,在其所修饰的简单命题前加否定联接符
Figure BSA00000821007100041
,多重否定可简化为单重否定。
●文本出现否定词表示一重否定,如“不、无、莫、非、没有、否”;
●文本出现反问句表示一重否定,即否定的反问句表示肯定、肯定的反问句表示否定;
●文本出现隐性否定词表示一重否定,如“忌、禁止、防止、难以、忘记、忽视、放弃、拒绝、杜绝”;
●文本出现“无时无刻、不明不白”等特殊否定词表示一重否定,“不无、无不”等则表示双重否定;
●特殊否定词“差点儿、差点儿没”,如果是不希望出现的事情,表否定,如差点儿摔倒,差点儿没摔倒;如果是希望实现的事情,表肯定,如差点儿赶上了,差点儿没赶上。
(2)合取规则:该规则表示并列关系或递进关系,一般情况下由该类逻辑联接词联接的简单命题之间所表达的情感相同或相近,若文本中出现合取连词,如“同时、同样、何况、甚至、又、既......又、不但......而且、不仅......还、不但不......反而、连......也、也......也”等时,就在由该联接词联接的简单命题间加合取联接符“∩”。
(3)析取规则:该规则表示转折关系,一般情况下由该逻辑联接词联接的简单命题所表达的情感相反。若文本中出现析取连接词,如“但是、然而、却、不是......而是、尽管......可是、虽然......但是”等时,在联接词联接的简单命题间加析取联接符“∪”。但是转折关系的符号表示依据其强烈程度又有所不同。
●对于某些具有强烈转折关系的联接词,如“但是、然而”,文本主要偏重于表达转折词之后的内容,因此在文本符号化的时候要注意,如果负倾向情感在转折联接词之前,则使用析取联接词“∪”,反之则使用析取联接词的否定即或非联接词“↓”。
●对于某些转折程度较轻的联接词,如“只是、不过、只不过”,文本主要偏重于表达转折之前的内容,因此在进行文本符号化时要注意,如果正倾向情感在转折联接词之前,则使用析取联接词“∪”,反之则使用或非联接词“↓”。
(4)抑或规则:该规则表达选择关系、非此即彼的关系,若文本中出现“或者、抑或”等联接词时,在该联接词联接的简单命题间加入抑或连接符。实际应用中该情况较少。
(5)其他情况处理:若出现由多个逗号或其他标点符号分隔的多个短语,但短语之间没有出现任何逻辑联接词,则将此关系定为合取联接符“∩”。
3.本发明的两个辅助词典
本发明“一种基于命题逻辑的网络文本情感分析方法”需要两个辅词典:逻辑连接词词典、领域情感词词典。本发明的两个词典及使用方法如图2所示。以下就各部分及其方法做详细说明。
●逻辑联接词词典:该词典由五类逻辑联接词构成,分别表示否定关系、并列递进关系、转折关系、选择关系、其它特殊关系。每个部分都包含相应的词库,主要用于检索文本中的逻辑关系。
●领域情感词词典:该词典包含宾馆酒店、电子产品等领域,每个领域都有其对应的情感词及情感分类,比如二分类情感(正倾向情感、负倾向情感)、四分类情感(喜欢、羡慕、讨厌、憎恶)等,每一类情感都对应其特定的情感词库,用于判别短文本的情感倾向。
本发明的有益效果是,能比较准确地分析并得到网络文本的情感倾向,基于上述规则该方法的时间复杂度和空间复杂度都比较小。
4.本发明各步骤的执行流程
本发明“一种基于命题逻辑的网络文本情感分析方法”各步骤的执行流程分五步走,各步骤的执行编号如图3所示。下面详细解释五步骤的执行情况:
(1)文本预处理:文本预处理该模块将网络文本(例如网页、微博、文档文件等文本)进行规范化预处理,该模块去除格式、不带有情感词、格式不规范的网络符号、HTML标记等冗余文本信息。
(2)文本情感分词:文本情感分词模块对预处理的文本,依据情感分词词典、领域情感词词典、分词词库对文本进行情感词分词,提取句号、分号等句子结束标志,将较长的信息文本分为多个短情感词文本。
(3)文本情感逻辑符号表达:文本情感逻辑符号表达模块通过逻辑词词典提取句子中的逻辑联接词,并将短文本划分为由该逻辑联接词联接的简单短语。
(4)文本情感分析:文本情感分析模块通过领域情感词词典,对每个简单短语进行情感倾向分析并将情感进行布尔量化。文本情感分析模块以简单短语作为简单命题将短文本符号化,并根据量化结果计算短文本情感倾向。
(5)文章情感分析:文本情感分析模块依次处理其余的多个短文本,统计短文本的情感倾向,从而得到整篇长文本的情感倾向。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1本发明的结构和模块组成
图2本发明的两个词典及使用方法
图3本发明的执行流程标号
图4本发明各步骤的执行流程
图5网络文本情感分析系统验证
5.具体实施方式
下面将结合本发明实施例中的附图,给出几个实例,具体分析展示本发明的技术要点。显然,所描述的实施例也仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
(1)例子:帮朋友订的,据朋友说,酒店比较新,装潢和设施也还不错,只是房间有些刺鼻的油漆味。而房间虽然不算太大,但是放两张双人床倒还不显得太局促。/>
本发明的执行流程实例为:
经过文本预处理去除HTML标记“/>”以及不带有情感词的部分“帮朋友订的,据朋友说”。将剩余部分利用句号将该长文本分隔为2个短文本第一个短句通过宾馆酒店领域情感词词典和逻辑连接词词典可以提取出情感词:“新”、“不错”、“刺鼻”,分别量化为“1”、“1”、“0”,以及并列联接词“也”(符号化为∩)、轻度转折联接词“只是”,由于该轻度转折词偏重于转折之前的情感,且转折前的情感倾向为1∩1=1,因此符号化为↓,故该短句情感倾向为(1∩1)↑0=1;同理第二个短句可提取情感词:“大”、“局促”,可分别量化为“1”和“0”,以及否定联接词“不”(符号化为
Figure BSA00000821007100091
)、强烈转折联接词“虽然、但是”,由于该联接词偏重表达转折后的内容,且转折后的情感倾向为
Figure BSA00000821007100092
故符号化为∪,因此该短句情感倾向为
Figure BSA00000821007100093
经统计由2个短句得到的该长文本中正倾向句所占比例为1,负倾向句为0,因此该文本表现的情感倾向为正向。该文本的情感分析系统结果参见图3。
(2)今天买了两台液晶,一台等离子。大尺寸的等离子看起来是爽,不过画面没有液晶的清晰,看大片就得选择等离子。这款LG的等离子是我看到的合资品牌中最便宜的,用着也不错,而且换台很快。
本发明的执行流程实例为:
经过文本预处理去除不带有情感词部分“今天买了两台液晶,一台等离子。”、“看大片就得选择等离子。”将剩余部分利用句号将该长文本分隔为2个短文本,第一个短句通过电子产品领域情感词词典和逻辑连接词词典可以提取出情感词:“大”、“爽”、“清晰”,量化为“1”、“1”、“1”,以及否定联接词“没有”(符号化为
Figure BSA00000821007100101
)和轻度转折联接词“不过”,由于“不过”偏重表达转折前的内容,且转折前的情感倾向为“1”,符号化为↓。因此该短句情感倾向为
Figure BSA00000821007100102
同理第二个短句可提取情感词:“便宜”、“不错”、“快”,可量化为“1”、“1”、“1”,逻辑联接词“也”、“而且”(都符号化为∩),因此该短句情感倾向为1∩1∩1=1。经统计由2个短句得到的该长文本中正倾向句所占比例为1,负倾向句为0,因此该文本表现的情感倾向为正向。
(3)产品很稀,涂上也不好吸收,而且用后白花花的一片。美白效果倒是没看出来,只能自认倒霉了。完全和专柜里的隔离霜不同,希望亲们不要再买这个隔离霜了。
本发明的执行流程实例为:
经过文本预处理去除不带有情感词部分“完全和专柜里的隔离霜不同,”利用句号将该长文本分隔为3个短文本,第一个短句通过美容护肤领域情感词词典和逻辑连接词词典可以提取出情感词“稀”、“吸收”、“白花花”,量化为“0”、“1”、“0”,以及否定联接词“不”(符号化为
Figure BSA00000821007100103
)和并列联接词“也”、“而且”(符号化为∩),因此该短句情感倾向为
Figure BSA00000821007100104
同理第二个短句可提取情感词:“美白”、“倒霉”,可量化为“1”、“0”,逻辑联接词“没”(符号化为
Figure BSA00000821007100105
)、特殊并列联接词逗号(符号化为∩),因此该短句情感倾向为
Figure BSA00000821007100111
第三个短句可提取情感词“希望”,量化为“1”,以及否定联接词“不”(符号化为
Figure BSA00000821007100112
),因此该短句情感倾向为
Figure BSA00000821007100113
经统计由3个短句得到的该长文本中负倾向句所占比例为1,正倾向句为0,因此该文本表现的情感倾向为负向。
6.本发明的优势
本发明提出的一种基于命题逻辑的网络文本情感分析方法,通过将网络信息进行逻辑联接关系的提取和简单短文本的情感判断,得到文本的符号化模型,并计算出文本情感倾向。
本发明的优点主要有:
(1)与现有基于情感词词典分析文本情感的方法相比,本发明将网络信息中难以处理的复杂情感通过基于逻辑的符号化计算可以简明、准确地得到文本情感倾向。
(2)基于规则的符号化将文本情感倾向量化为布尔量的计算,时间复杂度和空间复杂度明显降低。
(3)逻辑联接词数量非常有限,逻辑联接词典更新容易。

Claims (2)

1.本发明涉及应用于网络文本情感分析的命题逻辑方法,该发明应用于网络文本的情感分析系统中,由四个模块和两个辅助词典组成:文本预处理模块、文本情感分词模块、文本情感逻辑符号表达模块、文本情感分析模块和逻辑联接词词典、领域情感词词典。 
2.本发明的主要特点有: 
(1)文本情感逻辑的符号化规则包括否定规则、析取规则、合取规则、抑或规则以及其他特殊逻辑规则,可以得到网络文本的符号表达式。 
(2)将基于领域的情感分类布尔量化,如0代表负倾向情感,1代表正倾向情感,能大大提高运算效率。 
(3)将长文本截短,依次处理全部短文本的情感倾向,并统计短文本的情感倾向,能准确地得到文章的情感倾向。 
CN2012105299720A 2012-12-11 2012-12-11 一种基于命题逻辑的网络文本情感分析方法 Pending CN103123620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105299720A CN103123620A (zh) 2012-12-11 2012-12-11 一种基于命题逻辑的网络文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105299720A CN103123620A (zh) 2012-12-11 2012-12-11 一种基于命题逻辑的网络文本情感分析方法

Publications (1)

Publication Number Publication Date
CN103123620A true CN103123620A (zh) 2013-05-29

Family

ID=48454600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105299720A Pending CN103123620A (zh) 2012-12-11 2012-12-11 一种基于命题逻辑的网络文本情感分析方法

Country Status (1)

Country Link
CN (1) CN103123620A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678720A (zh) * 2014-01-02 2014-03-26 中国标准化研究院 用户反馈数据处理方法和装置
WO2016085409A1 (en) * 2014-11-24 2016-06-02 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
CN106202200A (zh) * 2016-06-28 2016-12-07 昆明理工大学 一种基于固定主题的文本情感倾向性分类方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN109165298A (zh) * 2018-08-15 2019-01-08 上海文军信息技术有限公司 一种自主升级且抗噪的文本情感分析系统
CN109522928A (zh) * 2018-10-15 2019-03-26 北京邮电大学 文本的主题情感分析方法、装置、电子设备及存储介质
CN117669566A (zh) * 2024-01-30 2024-03-08 北京点聚信息技术有限公司 一种版式文件的实时数据在线智能处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721734B1 (en) * 2000-04-18 2004-04-13 Claritech Corporation Method and apparatus for information management using fuzzy typing
CN101930428A (zh) * 2009-06-18 2010-12-29 万继华 计算机理解自然语言的系统及方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721734B1 (en) * 2000-04-18 2004-04-13 Claritech Corporation Method and apparatus for information management using fuzzy typing
CN101930428A (zh) * 2009-06-18 2010-12-29 万继华 计算机理解自然语言的系统及方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678720A (zh) * 2014-01-02 2014-03-26 中国标准化研究院 用户反馈数据处理方法和装置
CN103678720B (zh) * 2014-01-02 2017-02-22 中国标准化研究院 用户反馈数据处理方法和装置
WO2016085409A1 (en) * 2014-11-24 2016-06-02 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
CN106202200A (zh) * 2016-06-28 2016-12-07 昆明理工大学 一种基于固定主题的文本情感倾向性分类方法
CN106202200B (zh) * 2016-06-28 2019-09-27 昆明理工大学 一种基于固定主题的文本情感倾向性分类方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN109165298A (zh) * 2018-08-15 2019-01-08 上海文军信息技术有限公司 一种自主升级且抗噪的文本情感分析系统
CN109165298B (zh) * 2018-08-15 2022-11-15 上海五节数据科技有限公司 一种自主升级且抗噪的文本情感分析系统
CN109522928A (zh) * 2018-10-15 2019-03-26 北京邮电大学 文本的主题情感分析方法、装置、电子设备及存储介质
CN117669566A (zh) * 2024-01-30 2024-03-08 北京点聚信息技术有限公司 一种版式文件的实时数据在线智能处理方法
CN117669566B (zh) * 2024-01-30 2024-04-09 北京点聚信息技术有限公司 一种版式文件的实时数据在线智能处理方法

Similar Documents

Publication Publication Date Title
CN103123620A (zh) 一种基于命题逻辑的网络文本情感分析方法
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
Mishra et al. MAULIK: an effective stemmer for Hindi language
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
Sunitha et al. A study on abstractive summarization techniques in Indian languages
CN101794308B (zh) 一种面向有意义串挖掘的重复串提取方法及装置
Drouin et al. Automatic term extraction from newspaper corpora: Making the most of specificity and common features
Venugopal-Wairagade et al. Novel language resources for Hindi: an aesthetics text corpus and a comprehensive stop lemma list
CN113792542A (zh) 一种融合句法分析和语义角色剪枝的意图理解方法
Yang et al. CHoRaL: Collecting humor reaction labels from millions of social media users
Govilkar et al. Extraction of root words using morphological analyzer for devanagari script
Kamal et al. Temporal sentiment analysis for opinion mining of ASEAN free trade area on social media
Peng et al. Research on tree kernel-based personal relation extraction
Tanev Unsupervised learning of social networks from a multiple-source news corpus
Kaji et al. Paraphrasing predicates from written language to spoken language using the web
Cherif et al. New rules-based algorithm to improve Arabic stemming accuracy
Zhai et al. Multiplicity and uncertainty: Media coverage of autism causation
CN106294315A (zh) 基于句法特性与统计融合的自然语言谓语动词识别方法
Kumari et al. Performance improvement of web page genre classification
Gökgöz et al. Two-Level Qazan Tatar Morphology
Munot et al. Conceptual framework for abstractive text summarization
Ma et al. Combining n-gram and dependency word pair for multi-document summarization
Tesema et al. Towards the sense disambiguation of Afan Oromo words using hybrid approach (unsupervised machine learning and rule based)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130529