CN108268439B - 文本情感的处理方法及装置 - Google Patents

文本情感的处理方法及装置 Download PDF

Info

Publication number
CN108268439B
CN108268439B CN201611265791.6A CN201611265791A CN108268439B CN 108268439 B CN108268439 B CN 108268439B CN 201611265791 A CN201611265791 A CN 201611265791A CN 108268439 B CN108268439 B CN 108268439B
Authority
CN
China
Prior art keywords
emotion
word
emotional
words
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611265791.6A
Other languages
English (en)
Other versions
CN108268439A (zh
Inventor
韩旭红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611265791.6A priority Critical patent/CN108268439B/zh
Publication of CN108268439A publication Critical patent/CN108268439A/zh
Application granted granted Critical
Publication of CN108268439B publication Critical patent/CN108268439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本情感的处理方法及装置。其中,该方法包括:采用通过获取情感词,根据情感词所对应的评价对象而确定情感词的情感强度值,再基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值,进而通过各个情感词所对应的评价对象,根据各个情感词对于不同评价对象的情感强度,确定的各个情感词的情感强度值,提高了情感词在不同评价对象中情感强度值的准确性,从而解决了无法准确确定文本的情感倾向的技术问题。

Description

文本情感的处理方法及装置
技术领域
本发明涉及语义处理领域,具体而言,涉及一种文本情感的处理方法及装置。
背景技术
情感词是用来表达情感、态度和意见的词语,如“完美”、“不错”、“糟糕”等。在文本情感分析中,无论是词汇、短语、句子、段落还是篇章,基本情感单元都是情感词,情感词是表达主观情感的基本要素。情感词典中包含情感词及其情感倾向,这些信息是进行文本情感正负倾向判断的主要依据。现有技术中对文本进行情感分析的方法都是建立在情感词典的基础之上,高质量的情感词典能在一定程度上提高文本情感分类的效果。
具体地,在对一个句子或篇章进行正负情感倾向判断时,需要依赖于句子或篇章中包含的情感词的正负情感倾向,例如,当进行产品优缺点挖掘或用户推荐等情感分析任务时,都需要依赖于情感词的情感倾向或情感值进行句子级别或篇章级别的情感判断。现有的实现方式仅对情感词进行正负倾向判断,在很多情况下,仅了解情感词的正负倾向无法准确判断语句的情感。例如,一条评论中包含正向情感词和负向情感词个数相等,单纯依靠情感词的正负倾向无法进行准确判断。
目前情感词典构建的方法包括基于语料语料库的方法和基于词典的方法,大多通过种子情感词进行情感词典扩充。基于语料统计的方法主要通过分析大规模语料库中情感词、评价对象等词语出现的特征和规则,统计领域评论语料库中词语共现信息等挖掘相同情感倾向的词语。利用词汇知识库中词条之间的语义关系,通过种子评价情感词扩展相同情感倾向词语。从构建形式上来说,很多人工构建情感词典,单纯考虑单个词的正负极性,情感信息词语分布不均将导致特征和规则难以提取;基于词典的方法需要依赖种子词的个数和质量,且领域依赖性较强,对于一词多义处理易引入噪声。
在现有技术中,仅仅通过评论中包含的相关词语的情感倾向对评论进行情感分析,分析结果不准确。
针对上述无法准确确定文本的情感倾向的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本情感的处理方法及装置,以至少解决无法准确确定文本的情感倾向的技术问题。
根据本发明实施例的一个方面,提供了一种文本情感的处理方法,包括:获取待分析文本中的多个情感词;获取每个所述情感词的情感强度值,其中,所述情感词的情感强度值至少基于所述情感词所对应的评价对象而确定;基于所述待分析文本中各个情感词的情感强度值,确定所述待分析文本的情感强度值。
进一步地,其特征在于,获取每个所述情感词的情感强度值包括:获取预先生成的情感词集合;从所述情感词集合中读取每个所述情感词的情感强度值。
进一步地,在获取预先生成的情感词集合之前,所述方法还包括:获取多个样本文本的情感信息,其中,情感信息用于记录各个样本文本中情感词与评价对象的对应关系,一个所述情感词至少用于评价一个所述评价对象;确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,其中,所述其它情感词与所述情感词属于同一词语块;基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,获取每个词语块中每个情感词的情感强度值;保存各个情感词与情感强度值的对应关系,生成所述情感词集合。
进一步地,确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括:根据评价对象的属性,将属性相同的评价对象对应的情感词保存入同一词语块;确定每个词语块中,每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。
进一步地,确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括:构建情感词的第一图模型和第二图模型,其中,每个所述第一图模型用于记录一个词语块中每个情感词与其它情感词之间的相似值,所述第一图模型中的一个节点用于记录一个情感词的第一信息,连接两个节点的边用于记录两个情感词之间的相似值;所述第二图模型用于记录一个样本文本与每个情感词的关联值,所述第二图模型中的一个节点用于记录一个情感词的第二信息,其中,所述第一信息包括:对应的情感词的词向量、情感词在当前时间和前一时间的情感强度值;所述第二信息包括:对应的情感词所属的词语块,情感词对于当前文本的关联值、当前文本在当前时间和上一时时间的情感强度值。
进一步地,基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,获取每个词语块中每个情感词的情感强度值包括:初始化情感词和样本文本的情感强度值;计算情感词和样本文本的情感强度值;利用情感词和样本文本的情感强度值进行迭代计算,得到每个情感词的情感强度值。
进一步地,初始化情感词和样本文本的情感强度值包括:获取已标注的情感词和样本文本的情感强度值;对所述已标注的情感词和样本文本利用标注数据进行赋值;对没有标注的情感词和样本文本赋值为预定值。
进一步地,计算情感词的情感强度值包括:获取情感词vi在其所在的第一图模型中与其具有连接关系的其它情感词;计算每个其它情感词的情感强度值、和该情感词与所述情感词vi的相似值的权重乘积;计算包含所述情感词vi的第二图模型的文本情感强度值、和该第二图模型对应文本与所述情感词vi与该文本的关联值的乘积;将所述权重乘积和所述乘积之和作为所述情感词vi的情感强度值。
进一步地,基于所述待分析文本中各个情感词的情感强度值,确定所述待分析文本的情感强度值包括:获取各个情感词的权重;利用各个情感词的权重和情感强度值进行加权计算,得到所述待分析文本的情感强度值。
进一步地,利用情感词和样本文本的情感强度值进行迭代计算包括:在每次迭代计算过程中,对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对,得到校对后的情感词的情感强度值和样本文本的情感强度值,其中,对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对包括:若计算得到的已标注情感词的情感强度值高于情感词标注值,则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第一操作;若否,则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第二操作,其中,所述第一操作用于在对应的情感强度值上减去第一校正参数,所述第二操作用于在对应的情感强度值上加上所述第一校正参数,其中,所述第一校正参数J1=ξ1*(|Sw1-Sw2|),ξ1表示第一预定参数,Sw1表示当前迭代计算得到的已标注情感词的情感强度值,Sw2表示上次迭代计算得到的已标注情感词的情感强度值;若计算得到的已标注样本文本的情感强度值高于文本标注值,则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第三操作,若否,则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第四操作,其中,所述第三操作用于在对应的情感强度值上减去第二校正参数,所述第四操作用于在对应的情感强度值上加上所述第二校正参数,其中,所述第二校正参数J2=ξ2*(|Sr1-Sr2|),ξ2表示第二预定参数,Sr1表示当前迭代计算得到的已标注样本文本的情感强度值,Sr2表示上次迭代计算得到的已标注样本文本的情感强度值。
根据本发明实施例的另一方面,还提供了一种文本情感的处理装置,包括:第一获取单元,用于获取待分析文本中的多个情感词;第二获取单元,用于获取每个所述情感词的情感强度值,其中,所述情感词的情感强度值至少基于所述情感词所对应的评价对象而确定;确定单元,用于基于所述待分析文本中各个情感词的情感强度值,确定所述待分析文本的情感强度值。
在本发明实施例中,采用通过获取情感词,根据情感词所对应的评价对象而确定情感词的情感强度值,再基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值,进而通过各个情感词所对应的评价对象,根据各个情感词对于不同评价对象的情感强度,确定的各个情感词的情感强度值,提高了情感词在不同评价对象中情感强度值的准确性,从而解决了无法准确确定文本的情感倾向的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本情感的处理方法的流程图;
图2是根据本发明实施例的一种可选的文本情感的处理方法的流程图;
图3是根据本发明实施例的另一种可选的文本情感的处理方法的流程图;
图4是根据本发明实施例的一种文本情感的处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种文本情感的处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种文本情感的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取待分析文本中的多个情感词;
步骤S104,获取每个词语块中每个情感词的情感强度值,其中,情感词的情感强度值至少基于情感词所对应的评价对象而确定;
步骤S106,基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值。
通过本发明上述实施例,获取待分析文本中的多个情感词,以获得待分析文件中的全部情感词,基于每个情感词所对应的评价对象从预先生成的情感词集合中确定情感词的强度值,以基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值。在上述实施例中,基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值,而不是按照情感词的情感倾向来确定待分析文本的情感倾向,这样在待分析文本中正向和负向情感词的数量相近或相同时,也可以准确确定待分析文本的情感词,并且,上述实施例中,基于情感词所评价的对象可以准确确定情感词的情感强度值,通过上述实施例,提高了情感词在不同评价对象中情感强度值的准确性,并且通过情感词的情感强度值可以准确确定待分析文本的情感倾向,解决了现有技术中文本情感倾向判断不准确的技术问题。
上述步骤S102,获取待分析文本中的多个情感词可以通过分词获取,可选地,对获取到的待分析文本进行分词处理,得到多个词语,从分词得到的多个词语中提取存在于情感词的词典中的词语,得到待分析文本的多个情感词。
可选地,待分析文本可以为待判断情感倾向的文本,该待分析文本可以从网络爬取,或者,通过输入接口输入。可选地,根据预先设置的情感词的词典,在待分析文本中,遍历待分析文本中的全部词汇,抽取待分析文本中和情感词的词典中所共同包含的情感词。可选地,待分析文本中的情感词,用来对待分析文本中某个特定的对象做评价,其特定的对象即为评价对象,比如“耗电量大”其中,“耗电量”为评价对象,“大”为情感词。
需要说明的是,同一个情感词在评价不同评价对象时,表达的情感可能不同,如,“屏幕大”中的“大”也是情感词,该情感词在评价屏幕和耗电量时表达的情感不同,在获取每个词语块中每个情感词的情感强度值时,加入了情感词评价对象的考量,可以准确地确定一个情感词的情感强度。
另外,在上述实施例中,情感强度值是用来判断情感词的情感强度和情感倾向的参考值,该情感强度值不仅能表示某个情感词的情感倾向,进一步地,情感强度值还可以表示情感强度。
通过上述实施例,基于待分析文本中情感词的情感强度值确定待分析文本的情感强度值,可以有效提高确定情感强度的准确度。
根据上述实施例,获取每个词语块中每个情感词的情感强度值包括:获取预先生成的情感词集合;从情感词集合中读取每个情感词的情感强度值。可选的,在预先生成的情感词集合中,直接抽取词典内包含的该情感词所对应的情感强度值。采用本发明实施例,可以快速、准确的获得每个情感词的情感强度值。可选地,情感强度值的取值范围可以在[-1,1]之间,其中,若情感强度值为负数,则对应的情感词表达的情感为负向情感,若情感强度值为正数,则对应的情感词表达的情感为正向情感,若情感强度值为零,则对应的情感词为中性情感词。
在获取预先生成的情感词集合之前,方法还包括:生成情感词集合。
可选地,生成情感词集合包括:获取多个样本文本的情感信息,其中,情感信息用于记录各个样本文本中情感词与评价对象的对应关系,一个情感词至少用于评价一个评价对象;确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,其中,其它情感词与情感词属于同一词语块;基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,获取每个词语块中每个情感词的情感强度值;保存各个情感词与情感强度值的对应关系,生成情感词集合。
上述实施例中,可以基于各个样本文本中情感词与评价对象的对应关系、和情感词与样本文本的关系,确定情感词的情感强度值,保存各个情感词与情感强度值的对应关系,生成情感词集合。
在通过上述实施例的方法构建情感词典(即上述的情感词集合)的过程中,考虑了情感词的情感强度,并基于评价对象集合对情感词进行分块,通过评论文本和情感词之间的相关度以及情感词之间的相似度迭代计算情感词和评论文本的情感强度值。文本上下文信息的结合可以有效提高情感强度值计算的准确度。
下面结合图2对本申请的上述实施例进行详细描述,如图2所示,该实施例可以通过如下步骤实现:
如图2所示,上述实施例可以通过如下步骤实现:
步骤S201:抓取产品评论。
可选地,可以从网站上抓取大量的产品的评论,这里的产品可以为实体产品(如手机)或者为网络上的虚拟产品(如,淘宝网)。在抓取到大量的产品评论之后,即得到多个样本文本。
步骤S202:抽取评价对象和情感词。
可以从多个样本文本中的评价对象和情感词,得到评价对象和情感词的对应关系,该对应关系可以保存为情感信息,或者将其称之为“<评价对象,情感词>词典”。
在执行该步骤S202之后,确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,该步骤通过如下方案实现:根据评价对象的属性,将属性相同的评价对象对应的情感词保存入同一词语块;确定每个词语块中,每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。
如图2所示,该实施例可以通过步骤S203和步骤S204实现:
步骤S203:基于评价属性集合词典和情感信息对情感词进行聚类。
可选地,依照评价属性集合词典和<评价对象,情感词>词典对情感词进行分块,得到依赖不同评价属性集合的情感词语,也即,将属性相同的评价对象对应的情感词保存入同一词语块,可以将得到的情感词分入多个词语块,对每个词语块中的情感词执行下述步骤以确定每个情感词的情感强度值。
评价对象的属性通过在评价属性集合中直接抽取,其中,评价属性集合为预先记录集合。将属性相同的评价对象与对应的情感词保存到同一词语块。对于每一个评价属性都有一个对应的情感词集合。分块的目的是为了更好的建立评价属性和情感词之间的对应关系,从而更好地预测情感词的情感值。因为在一些特定情境下,相同情感词用来评价不同评价属性词语时可能包含不同的含义,具有不同强度的情感倾向值,甚至相反的情感倾向。例如:“耗电量大”和“屏幕很大”中“大”用来评价“耗电量”和“屏幕”时具有相反的情感倾向,前者表示负面评价,后者表示正面评价。
步骤S204:构建情感词-情感词的相似度矩阵和情感词-样本文本的相关度矩阵。
确定每个词语块中,每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值可以通过该步骤实现,可选地,构建情感词的第一关联矩阵和第二关联矩阵,其中,第一关联矩阵中的元素用于记录两个情感词之间的相似度,第二关联矩阵中的元素用于记录一个情感词与一个样本文本的关联值。这里的情感词-情感词的相似度矩阵可以为第一关联矩阵,情感词-样本文本的相关度矩阵可以为第二关联矩阵。
在一种可选的实施例中,每个情感词与其它情感词之间的相似值,可通过构建第一关联矩阵获得。第一关联矩阵中的每个元素用于记录任意两个情感词之间的相似度(即上述实施例中的相似值),可选地,获取到的这些情感词中有些情感词是标注情感词,即已经标注有情感强度值的情感词,有些是未标注情感词,即未标注情感强度值的情感词,例如,第一关联矩阵中记录有标注情感词和未标注情感词两两之间的相似度,在该实施例中的相似度可以用数值表示,如相似度得分。例如,第i行第j列元素表示第i个情感词与第j个情感词之间的相似度,从而第i个情感词wi和第j个情感词wj之间的相似值sij为:
Figure BDA0001200616580000081
其中,P(wi)表示第i个情感词wi出现的概率,P(wj)表示第j个情感词wj出现的概率,P(wi,wj)第i个情感词wi和第j个情感词wj的共现概率。
上述实施例中,相似值sij的计算采用了词语共现概率和TF-IDF,但不限于这两种方法,还可以通过其它相似度计算的方法来完成该任务。
TF-IDF,是一种用于信息检索与数据挖掘的常用加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
在一种可选的实施例中,确定每个情感词与评价对象的关联值,可通过构建第二关联矩阵获得。第二关联矩阵中的元素可以记录情感词与样本文件之间的关联值,该关联值可以包含标注情感词(或未标注情感词)和标注评价对象(或未标注评价对象)两两之间的关联度得分,也即,第i行第j列元素代表第i个情感词wi与第j条样本文本rj之间的关联度。公式为:
Figure BDA0001200616580000091
其中,
Figure BDA0001200616580000092
表示第i个情感词wi的逆向文件概率(即总的样本文本的数目处于包含该情感词wi的文件的数目,在将得到的商取对数而得到),
Figure BDA0001200616580000093
表示第i个情感词wi的词频,即第i个情感词wi在样本文本中出现的概率,tfw表示关键词w在样本文本rj中出现的概率,idfw表示关键词w的逆向文件概率,关联值cij的计算采用了词语共现概率和TF-IDF,但不限于这两种方法,还可以通过其它相似度计算的方法来完成该任务。对于情感词和评价对象之间的关联度采用TF-IDF计算,可以衡量情感词对于一条评价对象的重要程度,既包含情感词在评价对象中出现的频率,也包括情感词对于同一类评价对象的区分能力。
在确定每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值之后,初始化情感词和样本文本的情感强度值;计算情感词和样本文本的情感强度值;利用情感词和样本文本的情感强度值进行迭代计算,得到每个情感词的情感强度值。可选地,该步骤可以通过步骤S205至步骤S206实现:
步骤S205:初始化情感词的情感强度值和样本文本的情感强度值。
初始化情感词和样本文本的情感强度值包括:获取已标注的情感词和样本文本的情感强度值;对已标注的情感词和样本文本利用标注数据进行赋值;对没有标注的情感词和样本文本赋值为预定值。可选地,预定值为零,其中,通过已标注的情感词和待分析文本对部分情感词和待分析文本进行赋值,并添加标记;同时将未标注的情感词和待分析文本的情感强度值初始化为0。
基于情感词和待分析文本之间的相互关系,进行迭代计算,且每次迭代完成之后计算得到新的待分析文本和情感词的情感强度值进行数据更新,同时对带有标记的情感词和待分析文本的情感值重新赋值(即保持人工标记的情感强度值不变,对结果进行引导),按上述步骤迭代计算情感词的情感强度值和待分析文本的情感强度值直至收敛。
步骤S206:计算情感词的情感强度值和样本文本的情感强度值。
计算情感词的情感强度值包括:从第一关联矩阵和第二关联矩阵中,查找与当前情感词有关联的、且值大于预定阈值的元素;利用查找到的元素计算情感词的情感强度值。
以一种可选的实施例,情感词wi的情感强度值
Figure BDA0001200616580000108
计算公式如下:
Figure BDA0001200616580000101
其中,λ是为了均衡情感词和待分析文本信息而引入的一个常数因子,表示情感词wi与相关的样本文本的关联度、和情感词wi与相关的情感词之间的相似度,这两种相似度信息在情感词wi的情感强度值计算中所占比重。
Figure BDA0001200616580000102
Figure BDA0001200616580000103
分别是第一关联矩阵和第二关联矩阵中,与情感词wi之间的相似度或关联度的值大于给定阈值的元素,K1和K2分别表示是
Figure BDA0001200616580000104
Figure BDA0001200616580000105
对应的元素数目。上述的给定阈值可以通过训练得到。这里情感词的情感强度值计算依赖于情感词之间的相似度和待分析文本包含的上下文信息与情感词之间的关联度,即通过将与当前情感词wi相关的K1个情感词的情感强度值以及与当前情感词wi相关的K2个待分析文本考虑在内,对其赋予不同权值,计算得到当前情感词的情感强度值。
上述实施例中,WL表示已标注的情感词,WU表示未标注的情感词,RL表示已标注的样本文本,RU表示未标注的样本文本,p和q为自然数。
一种可选的实施例中,样本文本rj的情感值计算公式如下:
Figure BDA0001200616580000106
其中,WAm指第m个评价属性类的权重,aspect m为第m个评价属性集合,且wi为修饰aspect m的情感词,
Figure BDA0001200616580000107
为情感词的情感值,means指求平均的函数,是对括号内的内容求平均。这里表示待分析文本的情感强度值是通过其中包含的情感词的情感强度值计算得到,对应不同评价属性集合的不同分块的情感词具有不同的权重,这样可以让用户对不同评价属性有个性化需求。
上述实施例中,情感词和样本文本的情感强度值的计算也不仅限于上述算法,其它自举算法也可以用来完成。
步骤S207:差值校对,避免局部收敛。
在一个可选的实施例中,利用情感词和样本文本的情感强度值进行迭代计算包括:在每次迭代计算过程中,对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对,得到校对后的情感词的情感强度值和样本文本的情感强度值,其中,对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对包括:若计算得到的已标注情感词的情感强度值高于情感词标注值,则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第一操作;若否,则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第二操作,其中,所述第一操作用于在对应的情感强度值上减去第一校正参数,所述第二操作用于在对应的情感强度值上加上所述第一校正参数,其中,所述第一校正参数J1=ξ1*(|Sw1-Sw2|),ξ1表示第一预定参数,Sw1表示当前迭代计算得到的已标注情感词的情感强度值,Sw2表示上次迭代计算得到的已标注情感词的情感强度值;若计算得到的已标注样本文本的情感强度值高于文本标注值,则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第三操作,若否,则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第四操作,其中,所述第三操作用于在对应的情感强度值上减去第二校正参数,所述第四操作用于在对应的情感强度值上加上所述第二校正参数,其中,所述第二校正参数J2=ξ2*(|Sr1-Sr2|),ξ2表示第二预定参数,Sr1表示当前迭代计算得到的已标注样本文本的情感强度值,Sr2表示上次迭代计算得到的已标注样本文本的情感强度值。
步骤S208:判断是否小于等于预定收敛值。
可选地,判断收敛值是否小于等于预定收敛值,若否,则返回执行步骤S206,若是,则执行步骤S209。其中,上述收敛指迭代过程中,情感词的情感值和评论的情感值趋于一个固定的值(即上述的预定收敛值),不变化或变化很小,认为结果收敛。通过关联矩阵迭代计算每一个情感词集合中词语的情感强度值,实现评价属性和情感词的情感强度值的情感双向传播。
可选地,该收敛值可以为本次计算得到的值(如文本或情感词的情感强度值)与上次计算得到的值(如文本或情感词的情感强度值)的差值。
在上述实施例中通过迭代计算情感词的情感强度值和待分析文本的情感强度值;这里迭代计算的步骤为:首先计算情感词的情感值,其次根据计算得到的情感词的情感值计算评论情感值;然后对已标注情感项赋值;再根据评论的情感值重新计算情感词的情感值,进而计算评论情感值。因为未知情感词和评论的情感词都不知道,需要迭代计算让结果更加逼近真实结果。其中,通过迭代计算,获得初始未赋值和已赋值的情感词和待分析文本各自的情感强度值,并对初始未赋值的情感词和评论文更新其赋值,对已赋值的情感词和待分析文本保持人工标记的情感强度值不变。其中,上述收敛指迭代过程中,情感词的情感值和评论的情感值趋于一个固定的值,不变化或变化很小,认为结果收敛。通过关联矩阵迭代计算每一个情感词集合中词语的情感强度值,实现评价属性和情感词的情感强度值的情感双向传播。
步骤S209:获得情感词典。
步骤S210:进行情感分析工作。
在该方案中,确定待分析文本中每个情感词的情感强度值之后,基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值,可选地,获取各个情感词的权重;利用各个情感词的权重和情感强度值进行加权计算,得到待分析文本的情感强度值。
在一个可选的实施例中,确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括如图3所示的步骤S301:构建情感词的第一图模型和第二图模型,其中,每个第一图模型用于记录一个词语块中每个情感词与其它情感词之间的相似值,第一图模型中的一个节点用于记录一个情感词的第一信息,连接两个节点的边用于记录两个情感词之间的相似值;第二图模型用于记录一个样本文本与每个情感词的关联值,第二图模型中的一个节点用于记录一个情感词的第二信息,其中,第一信息包括:对应的情感词的词向量、情感词在当前时间和前一时间的情感强度值;第二信息包括:对应的情感词所属的词语块,情感词对于当前文本的关联值、当前文本在当前时间和上一时时间的情感强度值。
可选地,在图3中示出的实施例中,步骤S201至步骤S203,以及步骤S205至步骤S210的实现方式与图2中示出的对应步骤实现方式一致,在此不再赘述。
作为一个可选的实施例,计算情感词的情感强度值包括:获取情感词vi在其所在的第一图模型中与其具有连接关系的其它情感词;计算每个其它情感词的情感强度值、和该情感词与情感词vi的相似值的权重乘积;计算包含情感词vi的第二图模型的文本情感强度值、和该第二图模型对应文本与情感词与该文本的关联值的乘积;将权重乘积和乘积之和作为情感词vi的情感强度值。
可选地,针对每一个情感词块的情感词集合,构建不同评价属性集合下的情感词图模型及依赖于这些图模型的文本情感关联图模型。
在一个可选的实施例中,构建情感词图模型(即上述实施例中的第一图模型)。对于每一个情感词块构建情感词的图模型,图中每一个点代表一个情感词,每一条边代表情感词之间的相似度,相似度计算首先通过word2vector(用于通过神经网络机器学习算法来进行训练得到向量)将词转化为向量表示,通过余弦相似度计算两个情感词之间的相似度,连接相似度大于0的点。每个情感词节点vi存储该情感词额相关信息,包括word2vector将词转化后的向量wi,当前词当前时间的情感强度值,当前词前一时间的情感强度值,每条边eij表示连接点vi和点vj的边。连接点代表情感词,只要两个情感词之间具有大于0的相似度,即这两个点之间存在边,连接点vi和点vj的边用eij表示。wi和wj存储点vi和点vj代表的词通过word2vector转化之后的词的向量表示,eij存储通过wi和wj计算得到的相似度值。相似值的计算公式为:
Figure BDA0001200616580000131
作为一个可选的实施例,构建文本情感关联图模型(第二图模型)。对于每个文本,通过文本包含的评价属性,记录相关情感词信息的节点,并存储当前迭代次数情况下的当前文本的情感强度值,以及前一迭代次数情况下的当前文本的情感强度值。情感词信息包括,情感词,情感词所属属性类,情感词对于当前文本的影响值。其中情感词对于当前文本的影响值计算通过TF-IDF算法进行计算,公式为:
Figure BDA0001200616580000132
其中,对于情感词和评论文本之间的关联度采用TF-IDF计算,可以衡量情感词对于一条评论文本的重要程度,既包含情感词在评论文本中出现的频率,也包括情感词对于同一类文本的区分能力。
在一个可选的实施例中,通过情感词的图模型及文本情感关联图模型之间进行情感传播计算,获得情感词的情感强度值及文本的情感强度值。
可选地,通过部分标注情感强度值的情感词语作为种子情感词集合,并将标注部分文本的情感强度值作为初始已知文本情感强度值,并对图模型中相应的情感词和文本进行标记。其中,情感词典的种子词选取为所有属性类集合中所共同且情感强度相同的情感词,并且选取的种子词的情感倾向明确,从而可以通过这些种子词更好地计算得到其他的情感强度值。其中,标注的部分文本选取集合为涵盖所有属性类的文本,且作为种子集合,去除了标注存在歧义的文本,标注文本在所有语料中的占比可以通过参数训练获取最佳效果的占比值。
作为一个可选的实施例,初始化每个属性集合对应的图模型中情感词节点的情感强度值,情感词属于种子情感词集合则赋值为标记情感强度值,其它赋初始值0;初始化每个文本的情感强度值,具有情感标注的文本赋值为其标注的情感强度值,其他赋初始值0。
一个可选的实施例,属性类集合aspectAm下的情感词vi的情感强度值为其所在属性类图模型中有相关边连接的情感词的情感强度值与边权重乘积,以及文本情感关联图模型中包含情感词vi节点的文本情感强度值与情感词对于当前文本的关联值的乘积和。计算公式为:
Figure BDA0001200616580000141
其中,
Figure BDA0001200616580000142
为aspectAt属性类下与vi有相同边连接的情感词集合;Tcon_i{aspectAm}为aspectAt属性类下包含vi节点的文本集合;eij是属性集合aspectAm下的情感关系图模型中连接wi和wj的边的权重,代表wi和wj的相似度值;gij为情感词wi对于文本tk之间的关联值。
在一个可选的实施例中,文本情感强度值计算,通过其包含的情感词的情感强度 值及其在文本中的影响值的乘积和进行计算。公式为,
Figure BDA0001200616580000143
可选地,情感词和评论文本情感值的计算也不仅限于上述算法,其他自举算法也可以用来完成该任务,我们不做过多叙述。
可选地,为了避免局部收敛,在每次迭代计算过程中,对种子情感词集中的情感词进行情感强度值计算。其中,种子情感词集合是已经标注情感强度值的情感词语。如果上述计算结果高于标注值,则对相关的情感词连接节点的情感值和包含此情感词的文本的情感强度值减去某一值ξ1和情感强度值回退到上一次迭代时间的差值(这里差值是绝对值)的乘积,否则加上值ξ1和情感强度值回退到上一次迭代时间的差值的乘积;同时对于初始包含标注的文本的情感强度值进行计算,如果结果高于初始标注值,其包含的情感词节点中情感词在相应属性类下的情感强度值减去某一值ξ2和情感强度值回退到上一次迭代时间的差值的乘积,否则加上值ξ2和情感强度值回退到上一次迭代时间的差值的乘积。其中参数ξ1和ξ2可以通过训练得到。
图4是根据本发明实施例的一种文本情感的处理装置的结构示意图,如图4所示,该装置包括:第一获取单元42,用于获取待分析文本中的多个情感词;第二获取单元44,用于获取每个词语块中每个情感词的情感强度值,其中,情感词的情感强度值至少基于情感词所对应的评价对象而确定;确定单元46,用于基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值。
通过本发明上述实施例,通过第一获取单元,获取待分析文本中的多个情感词,以获得待分析文件中的全部情感词;通过第二获取单元,基于每个情感词所对应的评价对象从预先生成的情感词集合中确定情感词的强度值,以基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值。在上述实施例中,通过确定单元,基于待分析文本中各个情感词的情感强度值,确定待分析文本的情感强度值,而不是按照情感词的情感倾向来确定待分析文本的情感倾向,这样在待分析文本中正向和负向情感词的数量相近或相同时,也可以准确确定待分析文本的情感词,并且,上述实施例中,基于情感词所评价的对象可以准确确定情感词的情感强度值,通过上述实施例,提高了情感词在不同评价对象中情感强度值的准确性,并且通过情感词的情感强度值可以准确确定待分析文本的情感倾向,解决了现有技术中文本情感倾向判断不准确的技术问题。
一个可选的实施例,第二获取单元包括:获取模块,用于获取预先生成的情感词集合;读取模块,用于从情感词集合中读取每个情感词的情感强度值。
作为一个可选的实施例,该装置还包括:第一获取子模块,用于获取多个样本文本的情感信息,其中,情感信息用于记录各个样本文本中情感词与评价对象的对应关系,一个情感词至少用于评价一个评价对象;第一确定子模块,用于确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值;第二获取子模块,用于基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,获取每个词语块中每个情感词的情感强度值;记录模块,用于保存各个情感词与情感强度值的对应关系,生成情感词集合。
在一个可选的实施例中,第一确定子模块包括:第一记录子模块,用于根据评价对象的属性,将属性相同的评价对象对应的情感词保存入同一词语块;第二确定子模块,用于确定每个词语块中,每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。
作为一个可选的实施例,第一确定子模块包括:保存子模块,用于根据评价对象的属性,将属性相同的评价对象对应的情感词保存入同一词语块;第三确定子模块,用于确定每个词语块中,每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。
在一个可选的实施例中,第一确定子模块包括:构建模块,用于构建情感词的第一图模型和第二图模型,其中,每个第一图模型用于记录一个词语块中每个情感词与其它情感词之间的相似值,所述第一图模型中的一个节点用于记录一个情感词的第一信息,连接两个节点的边用于记录两个情感词之间的相似值;所述第二图模型用于记录一个样本文本与每个情感词的关联值,所述第二图模型中的一个节点用于记录一个情感词的第二信息,其中,所述第一信息包括:对应的情感词的词向量、情感词在当前时间和前一时间的情感强度值;所述第二信息包括:对应的情感词所属的词语块,情感词对于当前文本的关联值、当前文本在当前时间和上一时时间的情感强度值。
作为一个可选的实施例,第二获取子模块包括:初始化模块,用于初始化情感词和样本文本的情感强度值;第一计算模块,用于计算情感词和样本文本的情感强度值;第二计算模块,用于利用情感词和样本文本的情感强度值进行迭代计算,得到每个情感词的情感强度值。
一个可选的实施例,初始化模块包括:第三获取子模块,用于获取已标注的情感词和样本文本的情感强度值;第一赋值模块,用于对所述已标注的情感词和样本文本利用标注数据进行赋值;第二赋值模块,用于对没有标注的情感词和样本文本赋值为预定值。
作为一个可选的实施例,第二计算模块包括:第四获取模块,用于获取情感词vi在其所在的第一图模型中与其具有连接关系的其它情感词;第三计算模块,用于计算每个其它情感词的情感强度值、和该情感词与所述情感词vi的相似值的权重乘积;第四计算模块,用于计算包含所述情感词vi的第二图模型的文本情感强度值、和该第二图模型对应文本与所述情感词vi与该文本的关联值的乘积;第五计算模块,用于将所述权重乘积和所述乘积之和作为所述情感词vi的情感强度值。
在一个可选的实施例中,确定单元包括:第五获取模块,用户获取各个情感词的权重;第六计算模块,用于利用各个情感词的权重和情感强度值进行加权计算,得到所述待分析文本的情感强度值。
可选地,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种文本情感的处理方法,其特征在于,包括:
获取待分析文本中的多个情感词;
获取每个所述情感词的情感强度值,其中,所述情感词的情感强度值至少基于所述情感词所对应的评价对象而确定;
基于所述待分析文本中各个情感词的情感强度值,确定所述待分析文本的情感强度值;
其中,在获取预先生成的情感词集合之前,所述方法还包括:
获取多个样本文本的情感信息,其中,情感信息用于记录各个样本文本中情感词与评价对象的对应关系,一个所述情感词至少用于评价一个所述评价对象;
根据评价对象的属性,将属性相同的评价对象对应的情感词保存入同一词语块;
确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值;
基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,获取每个词语块中每个情感词的情感强度值;
保存各个情感词与情感强度值的对应关系,生成所述情感词集合。
2.根据权利要求1所述的处理方法,其特征在于,确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括:
确定每个词语块中,每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。
3.根据权利要求1所述的处理方法,其特征在于,确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括:
构建情感词的第一图模型和第二图模型,其中,每个第一图模型用于记录一个词语块中每个情感词与其它情感词之间的相似值,所述第一图模型中的一个节点用于记录一个情感词的第一信息,连接两个节点的边用于记录两个情感词之间的相似值;所述第二图模型用于记录一个样本文本与每个情感词的关联值,所述第二图模型中的一个节点用于记录一个情感词的第二信息,
其中,所述第一信息包括:对应的情感词的词向量、情感词在当前时间和前一时间的情感强度值;所述第二信息包括:对应的情感词所属的词语块,情感词对于当前文本的关联值、当前文本在当前时间和上一时间的情感强度值。
4.根据权利要求1所述的处理方法,其特征在于,基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,获取每个词语块中每个情感词的情感强度值包括:
初始化情感词和样本文本的情感强度值;
计算情感词和样本文本的情感强度值;
利用情感词和样本文本的情感强度值进行迭代计算,得到每个情感词的情感强度值。
5.根据权利要求4所述的处理方法,其特征在于,初始化情感词和样本文本的情感强度值包括:
获取已标注的情感词和样本文本的情感强度值;
对所述已标注的情感词和样本文本利用标注数据进行赋值;
对没有标注的情感词和样本文本赋值为预定值。
6.根据权利要求4所述的处理方法,其特征在于,计算情感词的情感强度值包括:
获取情感词vi在其所在的第一图模型中与其具有连接关系的其它情感词;
计算每个其它情感词的情感强度值、和每个所述其他情感词与所述情感词vi的相似值的权重乘积;
计算包含所述情感词vi的第二图模型的文本情感强度值、和该第二图模型对应文本与所述情感词vi与该文本的关联值的乘积;
将所述权重乘积和所述关联值的乘积之和作为所述情感词vi的情感强度值。
7.根据权利要求4所述的处理方法,其特征在于,利用情感词和样本文本的情感强度值进行迭代计算包括:
在每次迭代计算过程中,对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对,得到校对后的情感词的情感强度值和样本文本的情感强度值,
其中,对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对包括:
若计算得到的已标注情感词的情感强度值高于情感词标注值,则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第一操作;若否,则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第二操作,其中,所述第一操作用于在对应的情感强度值上减去第一校正参数,所述第二操作用于在对应的情感强度值上加上所述第一校正参数,其中,所述第一校正参数J1=ξ1*(|Sw1-Sw2|),ξ1表示第一预定参数,Sw1表示当前迭代计算得到的已标注情感词的情感强度值,Sw2表示上次迭代计算得到的已标注情感词的情感强度值;
若计算得到的已标注样本文本的情感强度值高于文本标注值,则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第三操作,若否,则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第四操作,其中,所述第三操作用于在对应的情感强度值上减去第二校正参数,所述第四操作用于在对应的情感强度值上加上所述第二校正参数,其中,所述第二校正参数J2=ξ2*(|Sr1-Sr2|),ξ2表示第二预定参数,Sr1表示当前迭代计算得到的已标注样本文本的情感强度值,Sr2表示上次迭代计算得到的已标注样本文本的情感强度值。
8.一种文本情感的处理装置,其特征在于,包括:
第一获取单元,用于获取待分析文本中的多个情感词;
第二获取单元,用于获取每个所述情感词的情感强度值,其中,所述情感词的情感强度值至少基于所述情感词所对应的评价对象而确定;
确定单元,用于基于所述待分析文本中各个情感词的情感强度值,确定所述待分析文本的情感强度值;
其中,所述第二获取单元包括:
获取模块,用于获取预先生成的情感词集合;
读取模块,用于从所述情感词集合中读取每个所述情感词的情感强度值;
其中,所述装置还包括:
第一获取子模块,用于获取多个样本文本的情感信息,其中,情感信息用于记录各个样本文本中情感词与评价对象的对应关系,一个所述情感词至少用于评价一个所述评价对象;
第一确定子模块,用于确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值;其中,所述第一确定子模块包括:第一记录子模块,用于根据评价对象的属性,将属性相同的评价对象对应的情感词保存入同一词语块;
第二获取子模块,用于基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值,获取每个词语块中每个情感词的情感强度值;
记录模块,用于保存各个情感词与情感强度值的对应关系,生成所述情感词集合。
CN201611265791.6A 2016-12-30 2016-12-30 文本情感的处理方法及装置 Active CN108268439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611265791.6A CN108268439B (zh) 2016-12-30 2016-12-30 文本情感的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611265791.6A CN108268439B (zh) 2016-12-30 2016-12-30 文本情感的处理方法及装置

Publications (2)

Publication Number Publication Date
CN108268439A CN108268439A (zh) 2018-07-10
CN108268439B true CN108268439B (zh) 2021-09-07

Family

ID=62771127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611265791.6A Active CN108268439B (zh) 2016-12-30 2016-12-30 文本情感的处理方法及装置

Country Status (1)

Country Link
CN (1) CN108268439B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271627B (zh) * 2018-09-03 2023-09-05 深圳市腾讯网络信息技术有限公司 文本分析方法、装置、计算机设备和存储介质
CN109783800B (zh) * 2018-12-13 2024-04-12 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109885687A (zh) * 2018-12-29 2019-06-14 深兰科技(上海)有限公司 一种文本的情感分析方法、装置、电子设备及存储介质
CN109933793B (zh) * 2019-03-15 2023-01-06 腾讯科技(深圳)有限公司 文本极性识别方法、装置、设备及可读存储介质
CN110929516A (zh) * 2019-11-22 2020-03-27 新华网股份有限公司 文本的情感分析方法、装置、电子设备及可读存储介质
CN111563384B (zh) * 2020-04-22 2022-10-25 华南理工大学 面向电商产品的评价对象识别方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880600A (zh) * 2012-08-30 2013-01-16 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
JP2013257677A (ja) * 2012-06-12 2013-12-26 Nec Corp イベント検出装置、イベント検出方法およびイベント検出プログラム
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
CN103744838A (zh) * 2014-01-24 2014-04-23 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
CN103995803A (zh) * 2014-04-25 2014-08-20 西北工业大学 一种细粒度文本情感分析方法
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013257677A (ja) * 2012-06-12 2013-12-26 Nec Corp イベント検出装置、イベント検出方法およびイベント検出プログラム
CN102880600A (zh) * 2012-08-30 2013-01-16 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
CN103744838A (zh) * 2014-01-24 2014-04-23 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN103995803A (zh) * 2014-04-25 2014-08-20 西北工业大学 一种细粒度文本情感分析方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
产品评论中领域情感词典的构建;郗亚辉;《中文信息学报》;20160930;第30卷(第5期);第136-144页 *
面向中文微博的观点挖掘与倾向性分析研究;刘全超;《中国博士学位论文全文数据库-信息科技辑》;20160415(第4期);第I138-89页 *

Also Published As

Publication number Publication date
CN108268439A (zh) 2018-07-10

Similar Documents

Publication Publication Date Title
CN108268439B (zh) 文本情感的处理方法及装置
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN110019843B (zh) 知识图谱的处理方法及装置
CN106547871B (zh) 基于神经网络的搜索结果的召回方法和装置
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN109829162B (zh) 一种文本分词方法及装置
CN110619044B (zh) 一种情感分析方法、系统、存储介质及设备
CN105809473B (zh) 匹配模型参数的训练方法、服务推荐方法及对应装置
CN111209738A (zh) 一种联合文本分类的多任务命名实体识别方法
CN109388743B (zh) 语言模型的确定方法和装置
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN109492213B (zh) 句子相似度计算方法和装置
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN104361037B (zh) 微博分类方法及装置
CN108108347B (zh) 对话模式分析系统及方法
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
WO2018068648A1 (zh) 一种信息匹配方法及相关装置
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant