CN104794211A - 基于微博文本的情绪诱因提取和诱因成分分析方法及系统 - Google Patents
基于微博文本的情绪诱因提取和诱因成分分析方法及系统 Download PDFInfo
- Publication number
- CN104794211A CN104794211A CN201510202591.5A CN201510202591A CN104794211A CN 104794211 A CN104794211 A CN 104794211A CN 201510202591 A CN201510202591 A CN 201510202591A CN 104794211 A CN104794211 A CN 104794211A
- Authority
- CN
- China
- Prior art keywords
- inducement
- mood
- microblogging text
- event
- emo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims abstract description 41
- 239000000284 extract Substances 0.000 claims abstract description 27
- 230000036651 mood Effects 0.000 claims description 201
- 239000000203 mixture Substances 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 24
- 239000000463 material Substances 0.000 claims description 18
- 238000000921 elemental analysis Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- DXMQZKIEVHKNTN-UHFFFAOYSA-N 2-[carbamimidoyl(ethyl)amino]acetic acid Chemical compound CCN(C(N)=N)CC(O)=O DXMQZKIEVHKNTN-UHFFFAOYSA-N 0.000 claims description 8
- 101001002513 Homo sapiens Immunoglobulin superfamily DCC subclass member 3 Proteins 0.000 claims description 8
- 102100021041 Immunoglobulin superfamily DCC subclass member 3 Human genes 0.000 claims description 8
- 238000000546 chi-square test Methods 0.000 claims description 7
- 239000007787 solid Substances 0.000 abstract 1
- 230000008451 emotion Effects 0.000 description 21
- 230000002996 emotional effect Effects 0.000 description 21
- 230000006399 behavior Effects 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000002386 leaching Methods 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 206010027940 Mood altered Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000013410 fast food Nutrition 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000009329 sexual behaviour Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于微博文本的情绪诱因提取和诱因成分分析方法及系统,该方法包括:构建ECOCC情绪模型,所述ECOCC情绪模型包括评价对象层、评价成分层和评价标准层,所述评价对象层包括事件结果、主体行为和实体对象;根据所述ECOCC情绪模型对微博文本进行分析,以从外部事件和内部事件提取所述微博文本中的情绪诱因;构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,并输出所述情绪诱因以及成分比例结果。本发明的实施例可以自动且准确地提取情绪诱因。
Description
技术领域
本发明涉及计算机应用技术与互联网技术领域,特别涉及一种基于微博文本的情绪诱因提取和诱因成分分析方法。
背景技术
随着信息技术的发展和人们生活节奏的加快,正在进入一个信息快餐化、视觉化和碎片化的社会,在线社会关系网络的出现恰好顺应了这种趋势。微博是其中一个基于信息共享、传播及获取的平台,具有即时性、自主性、互动性,用户可通过客户端登录微博,发表140字以内的文字信息,还可在微博上关注好友、名人等动态,了解时事,回复、转发、评论他人消息,拓展自己的社交圈等,可随时将自己所想、所做等琐碎内容发送给朋友等人,它更迎合了广大用户参与、发表意见的需求。如今,越来越多的网民乐意通过微博来表达自己的观点与情感,而庞大的用户规模又进一步巩固了其在网络舆论传播中心的地位,可以说微博已成为重要的情感抒发和交流平台。据中国互联网络信息中心统计,截至2014年6月底,我国微博网民规模为6.32亿,较2013年底增长了1442万。每天数以计万的微博用户发布微博,进而产生了如此大量的微博文本信息,传达了社会各方面的舆论信息,其中包含对突发事件、群体事件、灾害事件、娱乐事件等发展状态的描述以及大众对这些热点事件的情绪反映。比如“日本核泄露事件导致了广大人们对食盐的哄抢,这一度引起了社会大范围的恐慌”,从这句话中我们知道人们的情绪处于恐惧状态,而这一情绪产生的诱因就是日本核事件引起的抢盐浪潮,如果当时能迅速找到人们情绪变化的诱因,在第一时间对其进行过滤和清理,阻止谣言的传播,这样对社会产生的负面影响就会大大减小,进而帮助政府机构等组织提高正面影响力。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为此,本发明的目的在于提出一种基于微博文本的情绪诱因提取和诱因成分分析方法。该方法可以自动且准确地提取情绪诱因.
本发明的另一个目的在于提出一种基于微博文本的情绪诱因提取和诱因成分分析系统。
为了实现上述目的,本发明的第一方面的实施例公开了一种基于微博文本的情绪诱因提取和诱因成分分析方法,包括以下步骤:构建ECOCC情绪模型,所述ECOCC情绪模型包括评价对象层、评价成分层和评价标准层,所述评价对象层包括事件结果、主体行为和实体对象;根据所述ECOCC情绪模型对微博文本进行分析,以从外部事件和内部事件提取所述微博文本中的情绪诱因;构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,并输出所述情绪诱因以及成分比例结果。
另外,根据本发明上述实施例的基于微博文本的情绪诱因提取和诱因成分分析方法还可以具有如下附加的技术特征:
在一些示例中,所述从内部事件提取所述微博文本中的情绪诱因,包括:从事件结果提取情绪诱因、从主体行为提取情绪诱因和从实体对象提取情绪诱因。
在一些示例中,根据卡方测试、点互信息和word2vec方法构建所述基于语料的情绪词典。
在一些示例中,所述微博文本的语言特征包括:表情特征、修饰特征、否定特征、关联特征和标点符号特征中的一个或多个。
在一些示例中,所述构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,进一步包括:
对所述微博文本的语言特征进行分析;
构造关于微博文本的情绪诱因的成分矩阵,其中,所述成分矩阵为:
根据如下公式计算情绪诱因事件所占的比例,所述公式为:
根据如下公式计算情绪诱因成分的情绪得分,所述公式为:
本发明第二方面的实施例公开了一种基于微博文本的情绪诱因提取和诱因成分分析系统,包括:情绪模型构建模块,用于构建ECOCC情绪模型,所述ECOCC情绪模型包括评价对象层、评价成分层和评价标准层,所述评价对象层包括事件结果、主体行为和实体对象;提取模块,用于根据所述ECOCC情绪模型对微博文本进行分析,以从外部事件和内部事件提取所述微博文本中的情绪诱因;诱因比例计算模块,用于构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,输出所述情绪诱因以及成分比例结果。
另外,根据本发明上述实施例的基于微博文本的情绪诱因提取和诱因成分分析系统还可以具有如下附加的技术特征:
在一些示例中,所述提取模块用于:从事件结果提取情绪诱因、从主体行为提取情绪诱因和从实体对象提取情绪诱因。
在一些示例中,所述诱因比例计算模块用于:根据卡方测试、点互信息和word2vec方法构建所述基于语料的情绪词典。
在一些示例中,所述微博文本的语言特征包括:表情特征、修饰特征、否定特征、关联特征和标点符号特征中的一个或多个。
在一些示例中,其特征在于,所述诱因比例计算模块用于:
对所述微博文本的语言特征进行分析;
构造关于微博文本的情绪诱因的成分矩阵,其中,所述成分矩阵为:
根据如下公式计算情绪诱因事件所占的比例,所述公式为:
根据如下公式计算情绪诱因成分的情绪得分,所述公式为:
根据本发明的实施例,首先构造出ECOCC情绪模型,然后通过结合ECOCC情绪模型,从事件结果、主体行为和实体对象作为三个评价成分进行情绪诱因的分析与提取。另外,本发明的实施例根据诱因事件产生的情绪强度,造基于语料的情绪词典,结合微博文本中的多种语言特征,使用基于贝叶斯概率模型实现情绪诱因成分的比例计算。本发明的实施例可以获取用户在不同的情绪下产生的诱因事件;可以获得不同情绪诱因所占的比例,可以帮助用户快速找到产生此类情绪的主要原因。另外,本发明的实施例的应用范围比较广泛,例如可以应用到社会管理中,这对构建健康的网络环境和社会环境具有深远的意义。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的基于微博文本的情绪诱因提取和诱因成分分析方法的总体流程图;
图2是根据本发明一个实施例的基于微博文本的情绪诱因提取和诱因成分分析方法的实施步骤图;
图3是根据本发明一个实施例的情绪模型的示意图;
图4是根据本发明一个实施例的基于微博文本的情绪诱因提取和诱因成分分析系统的结构框图;以及
图5是根据本发明一个实施例的基于微博文本的情绪诱因提取和诱因成分分析系统的架构图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以下结合附图描述根据本发明实施例的基于微博文本的情绪诱因提取和诱因成分分析方法及系统。
图1是根据本发明一个实施例的基于微博文本的情绪诱因提取和诱因成分分析方法的流程图。图2是根据本发明一个实施例的基于微博文本的情绪诱因提取和诱因成分分析方法的实施步骤图。
如图1和图2所示,根据本发明一个实施例的基于微博文本的情绪诱因提取和诱因成分分析方法,包括如下步骤:
S101:构建ECOCC情绪模型,ECOCC情绪模型包括评价对象层、评价成分层和评价标准层,评价对象层包括事件结果、主体行为和实体对象。
如图3所示,本发明的实施例结合微博语言特征,借鉴OCC心理模型,对诱发情绪认知评价过程中的某种诱因进行识别,并建立一个情绪分类体系模型,即ECOCC模型,它是对OCC心理模型中情绪规则的修正,并结合心理学与计算机科学来分析对应的情绪诱因事件。ECOCC模型描述了一个具有22种情绪类型的层次结构,此结构包含三个主要分支,分别是事件结果、主体行为和实体对象,并以此来形成基础情绪,而其他的分支形成复合情绪和延续情绪,情绪间可能具有某种继承关系。
在此基础上,根据事件结果、主体行为、实体对象这三类评价对象,将与模型中的情绪规则相匹配的模型成分分为6类,每类成分有对应的评价成分和评价标准。其中,本文将模型成分、评价成分和评价标准分别定义如下:
(1)模型成分:指根据三类评价对象(事件结果、主体行为和实体对象),按照一定的评价标准,将与ECOCC情绪标记框架中的情绪规则相匹配的文本成分称为模型成分,并将其分为6类:Event_state、Event_goal、Action_agent、Action_norm、Object_entity、Object_norm。
(2)评价成分:指对模型成分中关于三类评价对象的描述,分别从事件的状态、主体的类别和实体对象成分三方面进行的定义。
(3)评价标准:指对模型成分中关于三类评价对象的评价,分别按照事件结果与主体目标的一致性、主体行为的标准以及主体对实体对象的态度三方面进行的定义。对于每一个评价标准都构建相应的情感词库:首先,将HowNet中的正面情感词语、正面评价词语、清华词典中的正向情感词、台湾大学词典正向情感词结合起来,共计3505个词,分别填充评价标准中的Desirable、praiseworthy、positive;将HowNet中的负面情感词语、负面评价词语、清华词典中的负向情感词、台湾大学词典负向情感词结合起来,共计9427个词,分别填充评价标准中的Undesirable、blameworthy、negative;然后分别对描述事件、主体行为的相关信息、以及对象的特征信息进行评价,最终得到对事件的满意程度、对行为的认可程度和对实体对象的喜爱程度的评价。
S102:根据ECOCC情绪模型对微博文本进行分析,以从外部事件和内部事件提取微博文本中的情绪诱因。其中,从内部事件提取微博文本中的情绪诱因,包括:从事件结果提取情绪诱因、从主体行为提取情绪诱因和从实体对象提取情绪诱因。即:利用本发明实施例所使用的情绪模型对从互联网上获取原创的微博文本进行分析,来挖掘情绪产生的诱发条件,并按照该模型中的情绪规则来分析出微博中所包含的情绪。其次,利用分词、词性标准、命名实体识别、依存句法分析、语义角色标注等技术从“外部事件”和“内部事件”两个方面来情绪出情绪产生的诱因成分。在“内部事件”提取过程中,本模块从事件结果、主体行为和实体对象三类评价对象入手,提取出期望性事件、识别事件的发生状态、提取出主体行为以及实体对象特征等方面来完成诱因事件的整个提取过程。最后,从新浪微博抓取的原创微博文本作为数据集,分别从准确率、召回率、F值三个效果评价指标对22类情绪下的诱因提取效果进行评估,实验结果如表1所示。表1示出了情绪诱因提取的测试结果。
表1
情绪 | 准确率(%) | 召回率(%) | F值(%) |
希望 | 76.74 | 55.46 | 64.36 |
喜欢 | 63.75 | 42.86 | 51.25 |
高兴 | 75.81 | 41.96 | 54.02 |
自豪 | 77.62 | 54.95 | 59.84 |
赞赏 | 79.52 | 66.00 | 72.13 |
庆幸 | 78.13 | 50.00 | 60.98 |
满足 | 79.69 | 51.00 | 62.20 |
满意 | 82.80 | 59.69 | 69.37 |
感谢 | 72.50 | 56.31 | 63.39 |
欣喜 | 88.52 | 57.14 | 69.45 |
欣慰 | 80.36 | 45.00 | 57.69 |
愤怒 | 81.44 | 59.40 | 68.70 |
愤恨 | 78.10 | 34.75 | 48.10 |
讨厌 | 73.97 | 51.92 | 61.92 |
责备 | 79.07 | 77.71 | 78.38 |
自责 | 84.06 | 55.23 | 66.67 |
恐惧 | 79.78 | 53.57 | 64.10 |
害怕 | 77.46 | 53.40 | 62.22 |
悲伤 | 70.55 | 44.23 | 54.37 |
失望 | 85.71 | 54.00 | 66.26 |
悔恨 | 79.66 | 45.63 | 58.02 |
同情 | 68.83 | 48.11 | 56.67 |
具体来说,本发明的实施例从“外部事件”和“内部事件”这两个方面进行诱因事件的识别和提取,并以命名实体识别、依存句法分析、语义角色标注等为基础,建立提取子事件集的模型,从“外部事件”和“内部事件”完成对相应诱因事件的识别与提取。
首先,通过分析新浪微博的特点可知,在微博中具有“#话题#”结构的短句往往是当前社会的热点话题,而对于外在因素在一定程度下可能会对个体的情绪变迁产生一定影响,因此可将其作为影响用户情绪的“外部事件”。
“内部事件”是触发主体情绪变化的直接原因,此事件的提取首先需要对博文中的事件进行识别,这也是为以后的诱因事件提取做准备。本发明通过使用哈工大的语言技术平台LTP,从事件结果、主体行为和实体对象三个方面进行情绪诱因提取。
S103:构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,并输出情绪诱因以及成分比例结果。例如:首先从诱因事件产生的情绪强度入手,利用构造的情绪词典可以得到不同的诱因成分在表情符号、程度副词、否定词、标点符号以及关联词等特征的影响下的情绪强度值,最后使用基于贝叶斯概率模型实现情绪诱因成分的比例计算。为了更好地说明微博中不同的语言特征对诱因成分的影响作用,设计了7组对比实验,具体说明如表2所示,并分别从准确率、召回率、F值三个效果评价指标对情绪诱因成分比例计算效果进行评估,最后的实验结果如表3所示。
表2
表3
特征 | 准确率(%) | 召回率(%) | F值(%) |
EW | 76.52 | 64.48 | 69.99 |
EW+DA | 77.05 | 64.94 | 70.48 |
EW+ICON | 79.91 | 67,34 | 73.09 |
EW+NEGA | 79.55 | 67.04 | 72.76 |
EW+PUNC | 77.50 | 65.31 | 70.89 |
EW+CONJ | 77.32 | 65.16 | 70.72 |
EW+ALL | 82.50 | 69.53 | 75.46 |
具体地说,例如:根据卡方测试、点互信息和word2vec方法构建基于语料的情绪词典。微博文本的语言特征包括但不限于:表情特征、修饰特征、否定特征、关联特征和标点符号特征中的一个或多个。
更为具体地,本发明的实施例设计了一种基于22类情绪的词典库,每种情绪下都有对应的情绪词以及对应的情绪强度。首先,本文采用手工分类的方法构造标准词库。此步骤包括3个方面:
(1)情绪类型的选择:在前期工作中,本发明的实施例中得到了在22种不同情绪类型下的诱因事件,每类情绪的划分都是通过对人类复杂情绪及对情绪认知评价理论的研究得到的,并将这22类情绪作为词库的标准情绪类型。
(2)情绪强度的设定:由于不同的情绪词所代表的情绪强度会有所不同,因此本文将情绪强度分为0-1、1-2、2-3、3-4、4-5这五个等级范围,0-1表示该词所属的情感较弱,4-5表示该词所属的情绪最为强。
(3)标准词汇的选取:在前面两项工作完成后,本发明根据情绪心理学、语言学等方面的相关知识,采用人工分类的方法从已有的四种情感词库(清华大学词典、台湾大学词典、大连理工大学词典、WordNet)中选取属22种情绪类型的词汇,并按照情绪强度的设定标准赋予该类词汇相应的强度。
为了使得到大容量且更加全面的情绪词典,本发明的实施例需要进行三次扩充。第一次扩充主要是利用卡方测试完成的。第二次扩充主要是利用基于点互信息(PMI)的方法。第三次扩充主要是利用word2vec完成的。
在本发明的一个实施例中,构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,进一步包括:对微博文本的语言特征进行分析;构造关于微博文本的情绪诱因的成分矩阵;计算情绪诱因事件所占的比例以及计算情绪诱因成分的情绪得分。
具体而言,在微博文本中,一些语言特征在影响诱因事件情绪强度中起到了一定的作用,因此,本发明的实施例首先通过对微博文本中的表情符号程度副词、否定词、关联词以及标点符号等特征进行分析,来为更加准确地计算情绪诱因成分的比例做准备。
其次,本发明的实施例构造关于微博文本(s)的情绪诱因组成成分矩阵ρ(s),如下公式(1)所示,其中,E(Cm)代表具有某种诱因成分的情绪向量,m代表22种不同的情绪序号;Enm代表第m种情绪下的第n种诱因事件成分。
对于第m个情绪下第n个诱因事件所占比例P(Emom|Caun),本文使用贝叶斯公式进行分析,见公式(2):
上式中,已知先验概率(即P(Emom))看作是一条微博文本中包含的第m个情绪所占所有情绪的比例的概率分布,可以通过以下公式(3)计算,由于在博文中会出现不同情况的语言特征,也可能不包含任何修饰特征,因此,在计算情绪强度得分(即SCORE(Emom))时可使用上文中叙述的五种语言特征进行推导,见公式(4),Ei表示不受任何语言特征影响的情绪强度值,表示受程度副词影响的情绪强度值,表示受否定词影响的情绪强度值,表示受表情符号影响的情绪强度值,表示受关联词影响的情绪强度值,表示受标点符号影响的情绪强度值。
上式(2)中的P(Caun|Emom)表示为在已知情绪类别为Emom时的第n个诱因事件Caun出现的概率密度函数,可以通过以下公式(5)计算,同理,在计算诱因事件的情绪得分时,同样需考虑上文中叙述的五种语言特征,见公式(6)所示,SCORE(Caun)表示在第m个情绪下的第n个诱因成分的情绪得分。
根据本发明实施例的基于微博文本的情绪诱因提取和诱因成分分析方法,首先构造出ECOCC情绪模型,然后通过结合ECOCC情绪模型,从事件结果、主体行为和实体对象作为三个评价成分进行情绪诱因的分析与提取。另外,本发明的实施例根据诱因事件产生的情绪强度,造基于语料的情绪词典,结合微博文本中的多种语言特征,使用基于贝叶斯概率模型实现情绪诱因成分的比例计算。本发明的实施例可以获取用户在不同的情绪下产生的诱因事件;可以获得不同情绪诱因所占的比例,可以帮助用户快速找到产生此类情绪的主要原因。另外,本发明的实施例的应用范围比较广泛,例如可以应用到社会管理中,这对构建健康的网络环境和社会环境具有深远的意义。
进一步地,如图4所示,本发明的实施例公开了一种基于微博文本的情绪诱因提取和诱因成分分析系统400,包括:情绪模型构建模块410、提取模块420和诱因比例计算模块430。
其中,情绪模型构建模块410用于构建ECOCC情绪模型,所述ECOCC情绪模型包括评价对象层、评价成分层和评价标准层,所述评价对象层包括事件结果、主体行为和实体对象。提取模块420用于根据所述ECOCC情绪模型对微博文本进行分析,以从外部事件和内部事件提取所述微博文本中的情绪诱因。诱因比例计算模块430用于构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,输出所述情绪诱因以及成分比例结果。
在本发明的一个实施例中,提取模块420用于从事件结果提取情绪诱因、从主体行为提取情绪诱因和从实体对象提取情绪诱因。
在本发明的一个实施例中,诱因比例计算模块430用于根据卡方测试、点互信息和word2vec方法构建所述基于语料的情绪词典。
在本发明的一个实施例中,微博文本的语言特征包括:表情特征、修饰特征、否定特征、关联特征和标点符号特征中的一个或多个。
在本发明的一个实施例中,诱因比例计算模块430用于:
对所述微博文本的语言特征进行分析;
构造关于微博文本的情绪诱因的成分矩阵,其中,所述成分矩阵为:
根据如下公式计算情绪诱因事件所占的比例,所述公式为:
根据如下公式计算情绪诱因成分的情绪得分,所述公式为:
如图5所示,整个系统自顶向下可以分成三大主要层次,顶层是用户界面模块;中间是前台界面接口模块;底层是各个算法功能模块。
用户界面模块主要是给情绪诱因提取和诱因成分分析系统的使用者提供一个图形化的友好的用户操作界面,以方便用户浏览自己和他人的情绪状况。
前台界面接口模块提供了整个系统的前台界面与后台算法相连接的接口,方便其它各个不同的功能模块进行交互。
底层算法模块主要包括如下:1)数据输入模块:用于将从互联网上抓取的微博文本数据输入本系统中;2)情绪模型分析算法模块:用于对输入的微博文本进行情绪分析;3)情绪诱因提取算法模块:用于提取微博文本中的情绪诱因成分;4)情绪诱因成分比例计算模块:用于对提取到的不同情绪下对应的诱因成分进行比例计算。
根据本发明实施例的基于微博文本的情绪诱因提取和诱因成分分析系统,首先构造出ECOCC情绪模型,然后通过结合ECOCC情绪模型,从事件结果、主体行为和实体对象作为三个评价成分进行情绪诱因的分析与提取。另外,本发明的实施例根据诱因事件产生的情绪强度,构造基于语料的情绪词典,结合微博文本中的多种语言特征,使用基于贝叶斯概率模型实现情绪诱因成分的比例计算。本发明的实施例可以获取用户在不同的情绪下产生的诱因事件;可以获得不同情绪诱因所占的比例,可以帮助用户快速找到产生此类情绪的主要原因。另外,本发明的实施例的应用范围比较广泛,例如可以应用到社会管理中,这对构建健康的网络环境和社会环境具有深远的意义。
需要说明的是,本发明实施例的基于微博文本的情绪诱因提取和诱因成分分析系统的具体实现方式与本发明实施例基于微博文本的情绪诱因提取和诱因成分分析方法的具体实现方式类似,具体请参见方法部分的描述,为了减少冗余,不做赘述。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于微博文本的情绪诱因提取和诱因成分分析方法,其特征在于,包括以下步骤:
构建ECOCC情绪模型,所述ECOCC情绪模型包括评价对象层、评价成分层和评价标准层,所述评价对象层包括事件结果、主体行为和实体对象;
根据所述ECOCC情绪模型对微博文本进行分析,以从外部事件和内部事件提取所述微博文本中的情绪诱因;
构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,并输出所述情绪诱因以及成分比例结果。
2.根据权利要求1所述的基于微博文本的情绪诱因提取和诱因成分分析方法,其特征在于,所述从内部事件提取所述微博文本中的情绪诱因,包括:从事件结果提取情绪诱因、从主体行为提取情绪诱因和从实体对象提取情绪诱因。
3.根据权利要求1所述的基于微博文本的情绪诱因提取和诱因成分分析方法,其特征在于,根据卡方测试、点互信息和word2vec方法构建所述基于语料的情绪词典。
4.根据权利要求1所述的基于微博文本的情绪诱因提取和诱因成分分析方法,其特征在于,所述微博文本的语言特征包括:表情特征、修饰特征、否定特征、关联特征和标点符号特征中的一个或多个。
5.根据权利要求1-4任一项所述的基于微博文本的情绪诱因提取和诱因成分分析方法,其特征在于,所述构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,进一步包括:
对所述微博文本的语言特征进行分析;
构造关于微博文本的情绪诱因的成分矩阵,其中,所述成分矩阵为:
根据如下公式计算情绪诱因事件所占的比例,所述公式为:
根据如下公式计算情绪诱因成分的情绪得分,所述公式为:
6.一种基于微博文本的情绪诱因提取和诱因成分分析系统,其特征在于,包括:
情绪模型构建模块,用于构建ECOCC情绪模型,所述ECOCC情绪模型包括评价对象层、评价成分层和评价标准层,所述评价对象层包括事件结果、主体行为和实体对象;
提取模块,用于根据所述ECOCC情绪模型对微博文本进行分析,以从外部事件和内部事件提取所述微博文本中的情绪诱因;
诱因比例计算模块,用于构建基于语料的情绪词典,并结合微博文本的语言特征,根据贝叶斯概率模型计算诱因比例,输出所述情绪诱因以及成分比例结果。
7.根据权利要求6所述的基于微博文本的情绪诱因提取和诱因成分分析系统,其特征在于,所述提取模块用于:从事件结果提取情绪诱因、从主体行为提取情绪诱因和从实体对象提取情绪诱因。
8.根据权利要求6所述的基于微博文本的情绪诱因提取和诱因成分分析系统,其特征在于,所述诱因比例计算模块用于:根据卡方测试、点互信息和word2vec方法构建所述基于语料的情绪词典。
9.根据权利要求6所述的基于微博文本的情绪诱因提取和诱因成分分析系统,其特征在于,所述微博文本的语言特征包括:表情特征、修饰特征、否定特征、关联特征和标点符号特征中的一个或多个。
10.根据权利要求6-9任一项所述的基于微博文本的情绪诱因提取和诱因成分分析系统,其特征在于,所述诱因比例计算模块用于:
对所述微博文本的语言特征进行分析;
构造关于微博文本的情绪诱因的成分矩阵,其中,所述成分矩阵为:
根据如下公式计算情绪诱因事件所占的比例,所述公式为:
根据如下公式计算情绪诱因成分的情绪得分,所述公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510202591.5A CN104794211A (zh) | 2015-04-24 | 2015-04-24 | 基于微博文本的情绪诱因提取和诱因成分分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510202591.5A CN104794211A (zh) | 2015-04-24 | 2015-04-24 | 基于微博文本的情绪诱因提取和诱因成分分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104794211A true CN104794211A (zh) | 2015-07-22 |
Family
ID=53559003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510202591.5A Pending CN104794211A (zh) | 2015-04-24 | 2015-04-24 | 基于微博文本的情绪诱因提取和诱因成分分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104794211A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169013A (zh) * | 2017-03-31 | 2017-09-15 | 北京三快在线科技有限公司 | 一种菜品信息的处理方法及装置 |
CN107807920A (zh) * | 2017-11-17 | 2018-03-16 | 新华网股份有限公司 | 基于大数据的情绪词典的构建方法、装置及服务器 |
CN108416034A (zh) * | 2018-03-12 | 2018-08-17 | 宿州学院 | 基于金融异构大数据的信息采集系统及其控制方法 |
CN108549633A (zh) * | 2018-04-04 | 2018-09-18 | 郑州大学 | 基于概率推理与情感认知的文本细粒度情感生成方法 |
CN109979592A (zh) * | 2019-03-25 | 2019-07-05 | 广东邮电职业技术学院 | 心理健康预警方法、用户终端、服务器与系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054116A (zh) * | 2009-10-30 | 2011-05-11 | 财团法人资讯工业策进会 | 情绪分析方法、情绪分析系统及情绪分析装置 |
-
2015
- 2015-04-24 CN CN201510202591.5A patent/CN104794211A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054116A (zh) * | 2009-10-30 | 2011-05-11 | 财团法人资讯工业策进会 | 情绪分析方法、情绪分析系统及情绪分析装置 |
Non-Patent Citations (2)
Title |
---|
KAI GAO ET AL: "A rule-based approach to emotion cause detection for Chinese micro-blogs", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
SOPHIA YAT MEI LEE ET AL: "a text-driven rule-based system for emotion cause detection", 《PROCEEDINGS OF THE NAACL HLT 2010 WORKSHOP ON COMPUTATIONAL APPROACHES TO ANALYSIS AND GENERATION OF EMOTION IN TEXT》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169013A (zh) * | 2017-03-31 | 2017-09-15 | 北京三快在线科技有限公司 | 一种菜品信息的处理方法及装置 |
CN107169013B (zh) * | 2017-03-31 | 2018-01-19 | 北京三快在线科技有限公司 | 一种菜品信息的处理方法及装置 |
CN107807920A (zh) * | 2017-11-17 | 2018-03-16 | 新华网股份有限公司 | 基于大数据的情绪词典的构建方法、装置及服务器 |
CN108416034A (zh) * | 2018-03-12 | 2018-08-17 | 宿州学院 | 基于金融异构大数据的信息采集系统及其控制方法 |
CN108549633A (zh) * | 2018-04-04 | 2018-09-18 | 郑州大学 | 基于概率推理与情感认知的文本细粒度情感生成方法 |
CN109979592A (zh) * | 2019-03-25 | 2019-07-05 | 广东邮电职业技术学院 | 心理健康预警方法、用户终端、服务器与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN106096664B (zh) | 一种基于社交网络数据的情感分析方法 | |
CN104794211A (zh) | 基于微博文本的情绪诱因提取和诱因成分分析方法及系统 | |
Schulz et al. | A fine-grained sentiment analysis approach for detecting crisis related microposts. | |
Harabagiu et al. | Generating single and multi-document summaries with gistexter | |
CN102567304B (zh) | 一种网络不良信息的过滤方法及装置 | |
CN106598944A (zh) | 一种民航安保舆情情感分析方法 | |
CN103761239B (zh) | 一种利用表情符号对微博进行情感倾向分类的方法 | |
CN103605658B (zh) | 一种基于文本情感分析的搜索引擎系统 | |
CN104063399B (zh) | 一种自动识别文本所承载的情感概率的方法及系统 | |
CN106066866A (zh) | 一种英文文献关键短语自动抽取方法与系统 | |
Gómez-Adorno et al. | Improving feature representation based on a neural network for author profiling in social media texts | |
CN104731770A (zh) | 基于规则和统计模型的中文微博情感分析方法 | |
CN103617158A (zh) | 一种对话文本情感摘要的生成方法 | |
CN104516947A (zh) | 一种融合显性和隐性特征的中文微博情感分析方法 | |
CN103365838A (zh) | 基于多元特征的英语作文语法错误自动纠正方法 | |
CN105893582A (zh) | 一种社交网络用户情绪判别方法 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN102122297A (zh) | 一种基于语义的汉语网络文本情感提取方法 | |
CN101820475A (zh) | 基于智能语义理解的手机彩信生成方法 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
Brönnimann | Multilanguage sentiment-analysis of Twitter data on the example of Swiss politicians |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150722 |
|
WD01 | Invention patent application deemed withdrawn after publication |