CN106469145A - 文本情感分析方法及装置 - Google Patents

文本情感分析方法及装置 Download PDF

Info

Publication number
CN106469145A
CN106469145A CN201610875125.8A CN201610875125A CN106469145A CN 106469145 A CN106469145 A CN 106469145A CN 201610875125 A CN201610875125 A CN 201610875125A CN 106469145 A CN106469145 A CN 106469145A
Authority
CN
China
Prior art keywords
emotion
text
ontology
attribute
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610875125.8A
Other languages
English (en)
Inventor
晋耀红
蒋宏飞
王萌萌
张青
杨凯程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science And Technology (beijing) Co Ltd
Original Assignee
China Science And Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology (beijing) Co Ltd filed Critical China Science And Technology (beijing) Co Ltd
Priority to CN201610875125.8A priority Critical patent/CN106469145A/zh
Publication of CN106469145A publication Critical patent/CN106469145A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本情感分析方法及装置,属于文本挖掘领域。所述方法包括:构建语义分析模型,语义分析模型用于识别文本中不同类型的本体以及指示本体之间的关联规则,本体包括对象本体、属性本体和情感本体;根据语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建待分析文本对应的所有情感三元组,每组情感三元组用于指示对象本体、属性本体和情感本体之间的关联关系;对构建的所有情感三元组进行存储。本发明实施例针对同一文本中不同的对象和属性分析得到不同的情感,提高了文本情感分析结果的准确度;并且,同一文本对应多个情感三元组,使得文本中的情感细节得以体现。

Description

文本情感分析方法及装置
技术领域
本发明实施例涉及文本挖掘领域,特别涉及一种文本情感分析方法及装置。
背景技术
文本情感分析是一种挖掘文本所表达情感或观点的文本挖掘技术。相关技术通常采用基于情感词典的文本挖掘方法对文本进行文本情感分析。
采用基于情感词典的文本挖掘方法进行文本情感分析前,需要构建较为完善的情感词典,该情感词典中即包含大量情感词,比如,喜欢、热爱、讨厌、厌恶等等。在进行文本情感分析时,计算机根据该情感词典识别文本中包含的情感词,并对识别出的情感词进行统计,从而根据统计结果确定文本所表达的情感或观点。
然而,通过上述方法得到的文本情感分析结果仅为简单的二分类结果,即根据该文本情感分析结果仅能判断文本的情感两极倾向,导致文本情感分析结果的准确度较低,且文本中较多的情感细节无法得到体现。
发明内容
为了解决现有技术中文本情感分析结果的准确度较低,且文本中较多的情感细节无法得到体现的问题,本发明实施例提供了一种文本情感分析方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种文本情感分析方法,该方法包括:
构建语义分析模型,语义分析模型用于识别文本中不同类型的本体以及指示本体之间的关联规则,本体包括对象本体、属性本体和情感本体;
根据语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建待分析文本对应的所有情感三元组,每组情感三元组用于指示对象本体、属性本体和情感本体之间的关联关系;
对构建的所有情感三元组进行存储。
根据本发明实施例的第二方面,提供一种文本情感分析装置,该装置包括:
第一构建模块,用于构建语义分析模型,语义分析模型用于识别文本中不同类型的本体以及指示本体之间的关联规则,本体包括对象本体、属性本体和情感本体;
第二构建模块,用于根据语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建待分析文本对应的所有情感三元组,每组情感三元组用于指示对象本体、属性本体和情感本体之间的关联关系;
存储模块,用于对构建的所有情感三元组进行存储。
本发明实施例提供的技术方案带来的有益效果是:
在对文本进行情感分析时,利用预先构建的语义分析模型识别出文本中的对象本体、属性本体和情感本体,并利用语义分析模型中本体之间的关联规则确定对象本体、属性本体和情感本体之间的关联关系,从而为文本构建相应的情感三元组;相较于现有技术中文本情感分析结果仅为二分类结果,本发明实施例中针对同一文本中不同的对象和属性分析得到不同的情感,提高了文本情感分析结果的准确度;并且,同一文本对应多个情感三元组,使得文本中的情感细节得以体现。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的文本情感分析及检索系统的系统架构示意图;
图2示出了本发明一个实施例提供的文本情感分析方法的流程图;
图3A示出了本发明另一个实施例提供的文本情感分析方法的流程图;
图3B是一个实施例提供的情感资源的示意图;
图3C是对象本体树结构的示意图;
图3D是属性本体树结构的示意图;
图3E是情感本体树结构的示意图;
图3F是属性与情感之间的关联规则的示意图;
图3G是对象与情感之间的关联规则的示意图;
图3H示出了本发明再一个实施例提供的文本情感分析方法的流程图;
图4示出了本发明一个实施例提供的文本情感分析装置的结构方框图;
图5示出了本发明一个实施例提供的文本情感分析装置的结构方框图;
图6示出了本发明一个实施例提供的服务器的结构框架图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了方便理解,下面对本发明的整体构思进行说明。
本发明各个实施例提供的文本情感分析方法适用于具有数据处理能力的服务器或服务器集群中。如图1所示,按照功能进行划分,该服务器或服务器集群可以被分为语义分析模型构建系统110、情感三元组构建系统120和情感检索系统130。
在构建语义分析模型阶段,语义分析模型构建系统110以预设词库为输入,通过人工或自动的方式对预设词库中的词汇进行分析,从而构建出用于进行情感分析的语义分析模型,并对构建得到的语义分析模型进行存储;完成模型构建后,情感三元组构建系统120获取待分析文本,利用语义分析模型构建系统110构建的语义分析模型对待分析文本进行情感分析,从而为待分析文本构建至少一个情感三元组,并对待分析文本与情感三元组进行关联存储,供后续检索时复用;在情感检索阶段,情感检索系统130获取到用户检索需求后,在情感三元组构建系统120构建的情感三元组中查找符合该用户检索需求的情感三元组,并进一步计算查找到的情感三元组的情感值,从而将该情感值作为检索结果返回。
关于构建语义分析模型、构建情感单元组和进行情感检索的具体实施方式,下面采用示意性的实施例进行说明。
请参考图2,其示出了本发明一个实施例提供的文本情感分析方法的流程图,本实施例以该文本情感分析方法用于服务器为例进行说明。该文本情感分析方法包括:
步骤201,构建语义分析模型,语义分析模型用于识别文本中不同类型的本体以及指示本体之间的关联规则,本体包括对象本体、属性本体和情感本体。
语义分析模型具有本体识别功能,能够识别并区分文本中包含的对象本体、属性本体和情感本体,其中,对象本体用于指示实物或行业,比如,对象本体可以为XX银行;属性本体用于指示对象本体的某些特征或属性,比如,信用卡、借记卡和客服(属性本体)为银行(对象本体)的特征;情感本体则用于指示用户对对象或属性所表达的情感,比如,情感本体包括动词类的情感本体,例如喜欢、厌恶;还包括形容词类的情感本体,例如棒、差等等。
本体之间的关联规则指文本中存在关联关系的本体所符合的语序规则。可选的,本体之间的关联规则包括属性与情感之间的关联规则以及对象与情感之间的关联规则。
步骤202,根据语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建待分析文本对应的所有情感三元组,每组情感三元组用于指示对象本体、属性本体和情感本体之间的关联关系。
服务器利用语义分析模型提取待分析文本中的对象、属性和情感,并进一步根据提取出的内容构建情感三元组。
可选的,每组情感三元组对应待分析文本中的某一句或某一段落,且情感三元组中的属性本体为对象本体的某一特征,情感三元组中的情感本体指示用于对该属性本体所表达的情感。
比如,构建的情感三元组为(XX银行、A信用卡,太棒了),该情感三元组所表达的意思为:用户觉得XX银行的A信用卡太棒了。
步骤203,对构建的所有情感三元组进行存储。。
为了方便后续检索时进行复用,服务器对构建的所有情感三元组进行存储。
可选的,服务器在存储情感三元组时,对待分析文本和情感三元组进行关联存储,即对每篇待分析文本与情感三元组的对应关系进行存储。其中,每篇待分析文本可对应多组情感三元组。
综上所述,本实施例中,在对文本进行情感分析时,利用预先构建的语义分析模型识别出文本中的对象本体、属性本体和情感本体,并利用语义分析模型中本体之间的关联规则确定对象本体、属性本体和情感本体之间的关联关系,从而为文本构建相应的情感三元组;相较于现有技术中文本情感分析结果仅为二分类结果,本发明实施例中针对同一文本中不同的对象和属性分析得到不同的情感,提高了文本情感分析结果的准确度;并且,同一文本对应多个情感三元组,使得文本中的情感细节得以体现。
需要说明的是,在具体实施过程中,上述步骤201可由图1中的语义分析模型构建系统110执行,步骤202至203可由图1中的情感三元组构建系统120执行,本实施例在此不再赘述。
请参考图3A,其示出了本发明另一个实施例提供的文本情感分析方法的流程图,本实施例以该文本情感分析方法用于服务器为例进行说明。该文本情感分析方法包括:
步骤301,根据预设词库生成本体树结构,本体树结构用于指示本体之间的从属关系,本体树结构包括对象本体树结构、属性本体树结构和情感本体树结构。
获取到预设词库后,服务器对该预设词库中的词汇进行分析挖掘,确定预设词库中词汇所属的本体类型;对于属于同一本体类型的词汇,服务器进一步分析挖掘词汇间(即本体)的从属关系,并根据该从属关系构建本体树结构。
可选的,该预设词库中包括通用词典、近义词词典以及不同业务领域的业务词典等数据。
可选的,服务器可以通过预定文本挖掘技术自动构建不同类型的本体树结构,并通过人工审核的方式对自动构建的本体树结构进行修正,其中,该预定文本挖掘技术可以为word2vec或LDA(Latent Dirichlet Allocation,文档主题生成模型)等等。需要说明的是,该本体树结构也可以由相关业务领域人员人工构建,并录入服务器中,本发明并不对此进行限定。
需要说明的是,在构建情感本体树结构时,服务器可以采用基于词向量的情感词发现方法挖掘情感词,并利用程度词、否定词和疑问词对挖掘出的情感词进行加工,得到相应的情感资源。示意性的,如图3B所示,情感资源包括正向情感词、负向情感词、中性情感词、程度词和否定词。
构建得到的对象本体树结构用于指示各个对象之间的从属关系。比如,如图3B所示,该对象本体树结构用于指示行业之间的从属关系,其中,A银行、B银行和C银行均属于银行业,直属机构、办事机构和刑侦机构均属于政府结构。
构建得到的属性本体树结构用于指示各个属性之间的从属关系。比如,如图3C所示,该属性本体树用于指示各行业所提供服务之间的从属关系,其中,信用卡和客服为银行业所提供的服务,医疗和行政为政府机构所提供的服务,进一步的,信用卡还包括从属的A信用卡和B信用卡,客服还包括从属的C客服和D客服。
构建得到的情感本体树结构用于指示不同情感之间的从属关系。比如,如图3D所示,正向情感和负向情感均属于情感,且正向情感词、程度词+正向情感词以及否定词+负向情感词均能够表现正向情感,负向情感词、程度词+负向情感词以及否定词+正向情感词均能够表现负向情感。
本实施例仅以上述本体树结构为例进行示意性说明,并不对本体树结构的具体表现形式以及本体树中所包含的内容构成限定。
步骤302,获取人工构建的本体之间的关联规则,关联规则包括属性与情感之间的关联规则以及对象与情感之间的关联规则。
在构建本体树结构的同时,服务器获取本体之间的关联规则,其中,该关联规则用于指示文本中存在关联关系的本体所符合的语序规则,即当两个本体在文本中的语序符合相应语序规则时,两个本体之间才存在关联关系。
比如,属性与情感之间的关联规则为“属性+程度词+情感”,即当属性和情感在文本中通过程度词直接相连时,该属性和情感才具有关联关系。例如,文本“小明服务非常棒”中,属性“服务”和情感“棒”直接通过程度词“非常”相连,符合属性与情感之间的关联规则,因此“服务”和“棒”相关联。
示意性的,如图3F所示,属性与情感之间的关联规则包括:属性+“的”+情感、属性+程度词+情感、属性+情感以及情感+属性等等。
示意性的,如图3G所示,对象与情感之间的关联规则包括:对象+程度词+情感、对象+情感、情感+对象等等。
可选的,服务器还可以获取对象、属性和情感三者之间的关联规则,本发明并不对此进行限定。
步骤303,根据本体树结构和本体之间的关联规则构建语义分析模型。
根据上述步骤构建的本体树结构以及本体之间的关联规则,服务器生成语义分析模型,并在情感分析结果利用该语义分析模型对待分析文本进行情感分析。
步骤304,根据语义分析模型识别待分析文本中所有的对象本体、属性本体和情感本体。
服务器对待分析文本进行情感分析时,利用上述步骤301构建的本体树结构对文本中的词汇进行识别,识别文本中包含的所有对象本体、属性本体和情感本体。比如,服务器获取到的待分析文本为“XX银行推出的A信用卡非常棒!”,利用本体树结构对该待分析文本进行分析,识别出对象本体“XX银行”,属性本体“A信用卡”以及情感本体“非常棒”。
可选的,该待分析文本包括一篇或n篇篇章文本,且各篇篇章文本可以是文章、对文章的评论内容、对商品的评价等等,相应的,对于不同类型的待分析文本,服务器可以以句、段落或篇为单位对待分析文本进行分析。
可选的,在对待分析文本进行情感分析时,服务器根据本体树结构以及识别出的本体的语义,对语义相近的本体进行语义归一化。比如,服务器识别出A银行卡和B信用卡,根据对象本体树结构,服务器将A信用卡和B信用卡语义归一为信用卡。
通过语义归一化的过程,服务器能够在保证情感分析准确性的前提下,减少生成情感三元组的数量,从而缓解服务器的处理压力。
可选的,在识别本体的过程中,当对象本体缺省时,服务器则根据预定回溯原则查找缺省的对象本体,其中,该回溯原则包括:在当前基础上向前查找、查找时不跨越段落。需要说明的是,当未查找到缺省的对象本体或查找到的对象本体与属性本体不相关时,服务器即跳过当前句。
比如,服务器在对待分析文本中“该行推出的信用卡还是很好的!”进行分析时,确定对象本体缺省(使用“该行”指代),服务器则获取前一句“XX银行信誉有保证”,并将该句中的“XX银行”确定为缺省的对象本体。
步骤305,根据本体之间的关联规则,识别出存在关联关系的对象本体、属性本体和情感本体。
进一步的,对于识别出的对象本体、属性本体和情感本体,服务器根据语义分析模型中本体之间的关联规则,识别出存在关联关系的对象本体、属性本体和情感本体。对于识别出的存在关联关系的对象本体、属性本体和情感本体,服务器根据识别出的内容构建情感三元组,执行下述步骤306。
服务器利用本体之间的关联规则识别对象本体、属性本体和情感本体之间的关联关系,避免将不相关的对象、属性和情感划分为同一情感三元组,从而提高构建的情感三元组的准确性。
步骤306,根据识别出的存在关联关系的对象本体、属性本体和情感本体构建待分析文本对应的所有情感三元组。
当识别出的对象本体、属性本体和情感本体之间存在关联关系时,服务器则利用对象本体、属性本体和情感本体构建情感三元组。
比如,服务器使用语义分析模型对“XX银行最新推出的A信用卡真的非常棒!”进行情感分析,构建得到的情感三元组为(XX银行,A信用卡,非常棒)。
步骤307,对构建的所有情感三元组进行存储。
服务器重复执行上述步骤304至307,直至对所有待分析文本完成情感分析。
可选的,服务器还可以根据情感三元组中的对象本体和/或属性本体对情感三元组进行分类存储,方便后续检索时根据用户检索需求快速检索到情感三元组。
步骤308,获取用户检索需求。
其中,用户检索需求用于指示检索指定对象或属性在待分析文本中所有篇章文本对应的情感倾向,或,指示检索指定篇章文本针对指定对象或属性的情感倾向,或,指示检索指定篇章文本的情感倾向,或指示检索对指定对象或属性存在情感倾向性表达的篇章文本。
具体的,该用户检索需求可以为一个对象,比如,XX银行、XX办事机构;可以是属性,比如客服服务、信用卡服务;可以是对象与属性的组合,比如“XX银行+A信用卡服务”;可以是对象与指定篇章文本的组合,比如“A信用卡服务+篇章文本A”;甚至可以为情感。本发明并不对用户检索需求的具体表现形式进行限定。
可选的,当用户检索需求中包含多个检索词时,服务器还可以对多个检索词进行语义归一化,并根据归一化后的检索词进行情感检索。
步骤309,根据用户检索需求以及存储的情感三元组,返回与用户检索需求对应的检索结果。
根据不同类型的用户检索需求,服务器返回不同类型的检索结果,其中,该检索结果包括检索到的目标情感三元组、目标情感三元组对应的情感值、包含目标情感三元组的目标文本或目标文本对应的情感值中的至少一种。
可选的,如图3H所示,本步骤包括如下步骤。
步骤309A,若用户检索需求指示检索指定对象或属性在待分析文本中所有篇章文本对应的情感倾向时,从存储的情感三元组中获取指定对象或属性对应的情感倾向结果并返回。
当用户需要检索待分析文本中指定对象或属性在所有篇章文本中的情感倾向时,服务器即获取存储的所有情感三元组,并根据该指定对象或属性在所有情感三元组中查找对应的目标情感三元组。获取到所有目标情感三元组后,服务器进一步计算各个目标情感三元组中目标情感本体对应的第一情感值,并将计算得到的第一情感值作为情感倾向结果进行返回。
比如,当用户检索需求指示检索所有篇章文本对“XX银行”的情感倾向时,服务器即将对象本体为“XX银行”的情感三元组确定为目标情感三元组,并计算各个目标情感三元组中目标情感本体的情感值。
步骤309B,若用户检索需求指示检索指定篇章文本针对指定对象或属性的情感倾向时,从指定篇章文本对应的情感三元组中获取指定对象或属性对应的情感倾向结果并返回。
当用户需要检索待分析文本中指定对象或属性在指定篇章文本中的情感倾向时,服务器即获取指定篇章文本对应的情感三元组,并根据指定对象和指定属性确定出该情感三元组中的目标情感三元组;进一步的,服务器计算各个目标情感三元组中目标情感本体的第一情感值,并将计算得到的各个第一情感值进行累加,得到指定篇章文本对指定对象或属性的第二情感值,最终将该第二情感值作为情感倾向结果进行返回。
比如,当用户检索需求指示检索篇章文本A对“XX银行”的情感倾向时,服务器即获取篇章文本A对应的所有情感三元组,并将对象本体为“XX银行”的情感三元组确定为目标情感三元组。确定出目标情感三元组后,服务器计算各个目标情感三元组中目标情感本体的第一情感值,通过对第一情感值进行累加,服务器即可获取用于指示篇章文本A对“XX银行”情感倾向的第二情感值。
步骤309C,若用户检索需求指示检索指定篇章文本的情感倾向时,从指定篇章文本对应的所有情感三元组获取情感倾向结果并返回。
当用户需要检索待分析文本中指定篇章文本的情感倾向时,服务器即获取指定篇章文本对应的情感三元组,并计算各个情感三元组中情感本体的第一情感值,通过对各个第一情感值进行累加,服务器即可得到指示指定篇章文本情感倾向的第二情感值,并将该第二情感值作为情感倾向结果进行返回。
比如,当用户检索需求指示检索篇章文本A的情感倾向时,服务器即获取篇章文本A对应的所有情感三元组,并计算各个情感三元组中情感本体的第一情感值,通过对第一情感值进行累加,服务器即可获取用于指示篇章文本A情感倾向的第二情感值。
步骤309D,若用户检索需求指示检索对指定对象或属性存在情感倾向性表达的篇章文本时,根据指定对象或属性对应的情感三元组查找对应的篇章文本并返回。
当用户需要检索待分析文本中对指定对象或属性进行情感表达的篇章文本时,服务器即将对象本体与指定对象匹配,或属性本体与指定属性匹配的情感三元组确定为目标情感三元组,并将该目标情感三元组对应的篇章文本作为检索结果进行返回。
比如,当用户需要检索待分析文本中对“XX银行”进行情感表达的篇章文本时,服务器即将对象本体为“XX银行”的情感三元组确定为目标情感三元组,并获取目标情感三元组对应的篇章文本进行返回。
上述可能的实施方式中,服务器返回的情感结果包括命中的所有目标情感三元组;或者;目标情感三元组中目标情感本体的第一情感值;或者,根据命中的所有目标情感三元组的第一情感值计算得到第二情感值。
在一种可能的实施方式中,在计算目标情感三元组中目标情感本体的第一情感值时,可以包括如下步骤。
一、获取目标情感三元组中目标情感本体中的否定词、程度词和情感词。
用户表达对事物的情感时,会使用否定词、程度词对情感词进行修饰,从而体现情感程度。因此,为了确定目标情感本体所表达情感的程度,服务器对目标情感本体中的否定词、程度词和情感词进行识别。
比如,服务器获取到的目标情感本体为“非常棒”,识别出其中包含的程度词为“非常”,情感词为“棒”;
又比如,服务器获取到的目标情感本体为“不是很好”,识别出其中包含的否定词为“不是”,程度词为“很”,情感词为“好”。
二、根据否定词、程度词和情感词各自对应的权重,计算目标情感本体的第一情感值。
进一步的,服务器获取否定词、程度词和情感词各自对应的权重,并根据该权重计算目标情感本体的第一情感值。
考虑到否定词的位置会影响所表达情感的强烈程度,比如,当否定词出现在程度词和情感词之前时,情感的强烈程度将会降低(“不是很好”的强烈程度低于“很好”的强烈程度)。服务器在获取到否定词和程度词后,还需要进一步确定否定词和程度词之间的先后顺序。
可选的,第一情感值=WeightNegative*α*Weightdegree*Weightsentiment,其中WeightNegative为否定词对应的权重,Weightdegree为程度词对应的权重,Weightsentiment为情感词对应的权重,α为衰减系数,且当否定词位于程度词之前时,α<1,当否定词位于程度词之后时,α=1。
比如,“很”对应的权重为1.1,“棒”对应的权重为2.0,且α=0.5时,“行棒”对应的情感值为1.1*2.0=2.2,“不是很棒”对应的情感值为1.1*2.0*0.5=1.1。
需要说明的是,服务器在构建情感三元组的同时,即可计算情感三元组对应的情感值,并进行存储,使得后续检索过程中,服务器可以直接获取到目标情感三元组对应的情感值,而不再需要进行实时计算,本发明实施例并不对此进行限定。
进一步的,服务器可以通过累加第一情感值的方式得到目标情感三元组对应的目标文本的第二情感值。
比如,服务器根据用户检索需求检索到目标文本,且该目标文本中包含目标情感三元组A和目标情感三元组B,其中,目标情感三元组A的第一情感值为1.1,目标情感三元组B的第一情感值为1.8,则该目标文本的第二情感值为1.1+1.8=2.9。可选的,服务器根据各个目标文本对应的第二情感值进行降序排序,并将排序后的各个目标文本作为检索结果返回给检索发起方。进一步的,服务器在返回目标文本的同时,还可以将目标文本中的目标情感三元组作为检索结果的一部分一同返回,方便检索发起方查看,本发明实施例并不对检索结果中包含的具体内容进行限定。
综上所述,本实施例中,在对文本进行情感分析时,利用预先构建的语义分析模型识别出文本中的对象本体、属性本体和情感本体,并利用语义分析模型中本体之间的关联规则确定对象本体、属性本体和情感本体之间的关联关系,从而为文本构建相应的情感三元组;相较于现有技术中文本情感分析结果仅为二分类结果,本发明实施例中针对同一文本中不同的对象和属性分析得到不同的情感,提高了文本情感分析结果的准确度;并且,同一文本对应多个情感三元组,使得文本中的情感细节得以体现。
本实施例中,服务器利用本体之间的关联规则对识别出的对象本体、属性本体和情感本体进行关联检测,避免将不相关的对象、属性和情感划分为同一情感三元组,进一步提高了构建的情感三元组的准确性。
本实施例中,服务器在计算目标情感本体的情感值时,根据目标情感本体中否定词的权重、程度词的权重、情感词的权重以及否定词与程度词之间的先后顺序进行综合计算,提高了情感值的准确性。
需要说明的是,在具体实施过程中,上述步骤301至303可由图1中的语义分析模型构建系统110执行;步骤304至307可由图1中的情感三元组构建系统120执行;步骤308至309可由图1中的情感检索系统130执行,本实施例在此不再赘述。
下述为本发明装置实施例,对于装置实施例中未详尽描述的细节,可以参考上述一一对应的方法实施例。
请参考图4,其示出了本发明一个实施例提供的文本情感分析装置的结构方框图。该文本情感分析装置通过硬件或者软硬件的结合实现成为服务器的全部或者一部分。该文本情感分析装置包括:
第一构建模块410,用于构建语义分析模型,语义分析模型用于识别文本中不同类型的本体以及指示本体之间的关联规则,本体包括对象本体、属性本体和情感本体;
第二构建模块420,用于根据语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建待分析文本对应的所有情感三元组,每组情感三元组用于指示对象本体、属性本体和情感本体之间的关联关系;
存储模块430,用于对构建的所有情感三元组进行存储。
综上所述,本实施例中,在对文本进行情感分析时,利用预先构建的语义分析模型识别出文本中的对象本体、属性本体和情感本体,并利用语义分析模型中本体之间的关联规则确定对象本体、属性本体和情感本体之间的关联关系,从而为文本构建相应的情感三元组;相较于现有技术中文本情感分析结果仅为二分类结果,本发明实施例中针对同一文本中不同的对象和属性分析得到不同的情感,提高了文本情感分析结果的准确度;并且,同一文本对应多个情感三元组,使得文本中的情感细节得以体现。
请参考图5,其示出了本发明另一个实施例提供的文本情感分析装置的结构方框图。该文本情感分析装置通过硬件或者软硬件的结合实现成为服务器的全部或者一部分。该文本情感分析装置包括:
第一构建模块510,用于构建语义分析模型,语义分析模型用于识别文本中不同类型的本体以及指示本体之间的关联规则,本体包括对象本体、属性本体和情感本体;
第二构建模块520,用于根据语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建待分析文本对应的所有情感三元组,每组情感三元组用于指示对象本体、属性本体和情感本体之间的关联关系;
存储模块530,用于对构建的所有情感三元组进行存储。
可选的,第一构建模块510,包括:
生成单元511,用于根据预设词库构建本体树结构,所述本体树结构用于指示本体之间的从属关系,所述本体树结构包括对象本体树结构、属性本体树结构和情感本体树结构;
第一获取单元512,用于获取人工构建的所述本体之间的关联规则,所述关联规则包括属性与情感之间的关联规则以及对象与情感之间的关联规则;
第一构建单元513,用于根据所述本体树结构和所述本体之间的关联规则构建所述语义分析模型。
可选的,第二构建模块520,包括:
第一识别单元521,用于根据所述语义分析模型识别所述待分析文本中所有的对象本体、属性本体和情感本体;
第二识别单元522,用于根据所述本体之间的关联规则,识别出存在关联关系的对象本体、属性本体和情感本体;;
第二构建单元523,用于根据识别出的存在关联关系的对象本体、属性本体和情感本体构建所述待分析文本对应的所有所述情感三元组。
可选的,该装置,还包括:
获取模块540,用于获取用户检索需求;
返回模块550,用于根据所述用户检索需求以及存储的所述情感三元组,返回与所述用户检索需求对应的检索结果;
可选的,所述待分析文本包括一篇或n篇篇章文本,n≥2;
所述返回模块550,包括:
第一返回单元551,用于若所述用户检索需求指示检索指定对象或属性在所述待分析文本中所有篇章文本对应的情感倾向时,从存储的所述情感三元组中获取所述指定对象或属性对应的情感倾向结果并返回;
或,
第二返回单元552,用于若所述用户检索需求指示检索指定篇章文本针对指定对象或属性的情感倾向时,从所述指定篇章文本对应的所述情感三元组中获取所述指定对象或属性对应的情感倾向结果并返回;
或,
第三返回单元553,用于若所述用户检索需求指示检索指定篇章文本的情感倾向时,从所述指定篇章文本对应的所有所述情感三元组获取情感倾向结果并返回;
或,
第四返回单元554,用于若所述用户检索需求为检索针对某一对象或属性有情感倾向性表达的篇章文本时,根据该对象或属性对应的三元组查找对应的篇章文本并返回。
可选的,所述情感倾向结果包括:
命中的所有目标情感三元组;或者;
根据命中的所述目标情感三元组,计算得到每个所述目标情感三元组中目标情感本体的第一情感值;或者,
根据命中的所有所述目标情感三元组的第一情感值计算得到第二情感值。
可选的,所述情感倾向结果包括所述目标情感三元组的所述第一情感值;
所述返回模块550,还用于获取所述目标情感三元组中所述目标情感本体中的否定词、程度词和情感词;
根据所述否定词、所述程度词和所述情感词各自对应的权重,计算所述目标情感本体的所述第一情感值;
其中,所述第一情感值=WeightNegative*α*Weightdegree*Weightsentiment,WeightNegative为所述否定词对应的权重,Weightdegree为所述程度词对应的权重,Weightsentiment为所述情感词对应的权重,α为衰减系数,当所述否定词位于所述程度词之前时,α<1,当所述否定词位于所述程度词之后时,α=1。
综上所述,本实施例中,在对文本进行情感分析时,利用预先构建的语义分析模型识别出文本中的对象本体、属性本体和情感本体,并利用语义分析模型中本体之间的关联规则确定对象本体、属性本体和情感本体之间的关联关系,从而为文本构建相应的情感三元组;相较于现有技术中文本情感分析结果仅为二分类结果,本发明实施例中针对同一文本中不同的对象和属性分析得到不同的情感,提高了文本情感分析结果的准确度;并且,同一文本对应多个情感三元组,使得文本中的情感细节得以体现。
本实施例中,服务器利用本体之间的关联规则对识别出的对象本体、属性本体和情感本体进行关联检测,避免将不相关的对象、属性和情感划分为同一情感三元组,进一步提高了构建的情感三元组的准确性。
本实施例中,服务器在计算目标情感本体的情感值时,根据目标情感本体中否定词的权重、程度词的权重、情感词的权重以及否定词与程度词之间的先后顺序进行综合计算,提高了情感值的准确性。
需要说明的是,上述实施例提供的文本情感分析装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本情感分析装置与文本情感分析方法实施例属于同一构思,文本情感分析装置与文本情感分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图6,其示出了本发明一个实施例提供的服务器的结构框架图。所述服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606,和用于存储操作系统613、应用程序66和其他程序模块66的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本发明的各种实施例,所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的文本情感分析方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的文本情感分析方法中全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本情感分析方法,其特征在于,所述方法包括:
构建语义分析模型,所述语义分析模型用于识别文本中不同类型的本体以及指示本体之间的关联规则,所述本体包括对象本体、属性本体和情感本体;
根据所述语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建所述待分析文本对应的所有情感三元组,每组所述情感三元组用于指示所述对象本体、所述属性本体和所述情感本体之间的关联关系;
对构建的所有所述情感三元组进行存储。
2.根据权利要求1所述的方法,其特征在于,所述构建语义分析模型,包括:
根据预设词库生成本体树结构,所述本体树结构用于指示本体之间的从属关系,所述本体树结构包括对象本体树结构、属性本体树结构和情感本体树结构;
获取人工构建的所述本体之间的关联规则,所述关联规则包括属性与情感之间的关联规则以及对象与情感之间的关联规则;
根据所述本体树结构和所述本体之间的关联规则构建所述语义分析模型。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建所述待分析文本对应的所有情感三元组,包括:
根据所述语义分析模型识别所述待分析文本中所有的对象本体、属性本体和情感本体;
根据所述本体之间的关联规则,识别出存在关联关系的对象本体、属性本体和情感本体;
根据识别出的存在关联关系的对象本体、属性本体和情感本体构建所述待分析文本对应的所有所述情感三元组。
4.根据权利要求1或2所述的方法,其特征在于,所述对构建的所有所述情感三元组进行存储之后,还包括:
获取用户检索需求;
根据所述用户检索需求以及存储的所述情感三元组,返回与所述用户检索需求对应的检索结果。
5.根据权利要求4所述的方法,其特征在于,所述待分析文本包括一篇或n篇篇章文本,n≥2;
所述根据所述用户检索需求以及存储的所述情感三元组,返回与所述用户检索需求对应的检索结果,包括:
若所述用户检索需求指示检索指定对象或属性在所述待分析文本中所有篇章文本对应的情感倾向时,从存储的所述情感三元组中获取所述指定对象或属性对应的情感倾向结果并返回;
或,
若所述用户检索需求指示检索指定篇章文本针对指定对象或属性的情感倾向时,从所述指定篇章文本对应的所述情感三元组中获取所述指定对象或属性对应的情感倾向结果并返回;
或,
若所述用户检索需求指示检索指定篇章文本的情感倾向时,从所述指定篇章文本对应的所有所述情感三元组获取情感倾向结果并返回;
或,
若所述用户检索需求为检索针对某一对象或属性有情感倾向性表达的篇章文本时,根据该对象或属性对应的三元组查找对应的篇章文本并返回。
6.根据权利要求5所述的方法,其特征在于,所述情感倾向结果包括:
命中的所有目标情感三元组;或者;
根据命中的所述目标情感三元组,计算得到每个所述目标情感三元组中目标情感本体的第一情感值;或者,
根据命中的所有所述目标情感三元组的第一情感值计算得到第二情感值。
7.根据权利要求6所述的方法,其特征在于,所述情感倾向结果包括所述目标情感三元组的所述第一情感值;
所述计算得到每个所述目标情感三元组中目标情感本体的第一情感值,包括:
获取所述目标情感三元组中所述目标情感本体中的否定词、程度词和情感词;
根据所述否定词、所述程度词和所述情感词各自对应的权重,计算所述目标情感本体的所述第一情感值;
其中,所述第一情感值=WeightNegative*α*Weightdegree*Weightsentiment,WeightNegative为所述否定词对应的权重,Weightdegree为所述程度词对应的权重,Weightsentiment为所述情感词对应的权重,α为衰减系数,当所述否定词位于所述程度词之前时,α<1,当所述否定词位于所述程度词之后时,α=1。
8.一种文本情感分析装置,其特征在于,所述装置包括:
第一构建模块,用于构建语义分析模型,所述语义分析模型用于识别文本中不同类型的本体以及指示本体之间的关联规则,所述本体包括对象本体、属性本体和情感本体;
第二构建模块,用于根据所述语义分析模型对待分析文本进行情感分析,并根据情感分析结果构建所述待分析文本对应的所有情感三元组,每组所述情感三元组用于指示所述对象本体、所述属性本体和所述情感本体之间的关联关系;
存储模块,用于对构建的所有所述情感三元组进行存储。
9.根据权利要求8所述的装置,其特征在于,所述第一构建模块,包括:
生成单元,用于根据预设词库构建本体树结构,所述本体树结构用于指示本体之间的从属关系,所述本体树结构包括对象本体树结构、属性本体树结构和情感本体树结构;
第一获取单元,用于获取人工构建的所述本体之间的关联规则,所述关联规则包括属性与情感之间的关联规则以及对象与情感之间的关联规则;
第一构建单元,用于根据所述本体树结构和所述本体之间的关联规则构建所述语义分析模型。
10.根据权利要求8或9所述的装置,其特征在于,所述装置,还包括:
获取模块,用于获取用户检索需求;
返回模块,用于根据所述用户检索需求及存储的所述情感三元组,返回与所述用户检索需求对应的检索结果。
CN201610875125.8A 2016-09-30 2016-09-30 文本情感分析方法及装置 Pending CN106469145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610875125.8A CN106469145A (zh) 2016-09-30 2016-09-30 文本情感分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610875125.8A CN106469145A (zh) 2016-09-30 2016-09-30 文本情感分析方法及装置

Publications (1)

Publication Number Publication Date
CN106469145A true CN106469145A (zh) 2017-03-01

Family

ID=58230785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610875125.8A Pending CN106469145A (zh) 2016-09-30 2016-09-30 文本情感分析方法及装置

Country Status (1)

Country Link
CN (1) CN106469145A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491554A (zh) * 2017-09-01 2017-12-19 北京神州泰岳软件股份有限公司 文本分类器的构建方法、构建装置及文本分类方法
CN108197100A (zh) * 2017-12-07 2018-06-22 东软集团股份有限公司 情感分析方法、装置、计算机可读存储介质及电子设备
CN108733644A (zh) * 2018-04-09 2018-11-02 平安科技(深圳)有限公司 一种文本情感分析方法、计算机可读存储介质及终端设备
CN109582947A (zh) * 2017-09-28 2019-04-05 北京国双科技有限公司 Smo中情感判断的方法、装置、存储介质和处理器
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN110334182A (zh) * 2019-06-24 2019-10-15 中国南方电网有限责任公司 具有语音情感识别的在线服务方法
CN110826317A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 基于词典与规则的文本情感分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236722A (zh) * 2011-08-17 2011-11-09 广州索答信息科技有限公司 一种基于三元组的用户评论摘要的生成方法与系统
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103678564A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于数据挖掘的互联网产品调研系统
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法
CN105808721A (zh) * 2016-03-07 2016-07-27 中国科学院声学研究所 一种基于数据挖掘的客服内容分析方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236722A (zh) * 2011-08-17 2011-11-09 广州索答信息科技有限公司 一种基于三元组的用户评论摘要的生成方法与系统
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103678564A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于数据挖掘的互联网产品调研系统
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法
CN105808721A (zh) * 2016-03-07 2016-07-27 中国科学院声学研究所 一种基于数据挖掘的客服内容分析方法及其系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491554A (zh) * 2017-09-01 2017-12-19 北京神州泰岳软件股份有限公司 文本分类器的构建方法、构建装置及文本分类方法
CN109582947A (zh) * 2017-09-28 2019-04-05 北京国双科技有限公司 Smo中情感判断的方法、装置、存储介质和处理器
CN109582947B (zh) * 2017-09-28 2023-01-17 北京国双科技有限公司 Smo中情感判断的方法、装置、存储介质和处理器
CN108197100A (zh) * 2017-12-07 2018-06-22 东软集团股份有限公司 情感分析方法、装置、计算机可读存储介质及电子设备
CN108733644A (zh) * 2018-04-09 2018-11-02 平安科技(深圳)有限公司 一种文本情感分析方法、计算机可读存储介质及终端设备
WO2019196208A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 文本情感分析方法、可读存储介质、终端设备及装置
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109684634B (zh) * 2018-12-17 2023-07-25 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN110334182A (zh) * 2019-06-24 2019-10-15 中国南方电网有限责任公司 具有语音情感识别的在线服务方法
CN110826317A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 基于词典与规则的文本情感分析方法

Similar Documents

Publication Publication Date Title
US9740677B2 (en) Methods and systems for analyzing communication situation based on dialogue act information
CN108073568B (zh) 关键词提取方法和装置
US20190287142A1 (en) Method, apparatus for evaluating review, device and storage medium
US9792279B2 (en) Methods and systems for analyzing communication situation based on emotion information
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN106469145A (zh) 文本情感分析方法及装置
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN112749344B (zh) 信息推荐方法、装置、电子设备、存储介质及程序产品
CN108829893A (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
US20160140234A1 (en) Method and Computer Server System for Receiving and Presenting Information to a User in a Computer Network
CN113220999A (zh) 用户特征的生成方法、装置、电子设备和存储介质
Saranya et al. A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis.
Ruposh et al. A computational approach of recognizing emotion from Bengali texts
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
CN114201622B (zh) 获取事件信息的方法、装置、电子设备和存储介质
CN113792230B (zh) 服务链接方法、装置、电子设备和存储介质
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
US11928180B2 (en) Automatic ground truth selection
CN117933260A (zh) 一种文本质量分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170301

RJ01 Rejection of invention patent application after publication