CN108536671B - 文本数据的情感指数识别方法和系统 - Google Patents

文本数据的情感指数识别方法和系统 Download PDF

Info

Publication number
CN108536671B
CN108536671B CN201810187962.0A CN201810187962A CN108536671B CN 108536671 B CN108536671 B CN 108536671B CN 201810187962 A CN201810187962 A CN 201810187962A CN 108536671 B CN108536671 B CN 108536671B
Authority
CN
China
Prior art keywords
word
emotion
words
text data
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810187962.0A
Other languages
English (en)
Other versions
CN108536671A (zh
Inventor
徐耀宗
杨鹏
谢安涛
张颖
潘浩
赵子颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Digital Life Technology Co Ltd
Original Assignee
CENTURY DRAGON INFORMATION NETWORK CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CENTURY DRAGON INFORMATION NETWORK CO LTD filed Critical CENTURY DRAGON INFORMATION NETWORK CO LTD
Priority to CN201810187962.0A priority Critical patent/CN108536671B/zh
Publication of CN108536671A publication Critical patent/CN108536671A/zh
Application granted granted Critical
Publication of CN108536671B publication Critical patent/CN108536671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及一种文本数据的情感指数识别方法和系统,对获取的文本数据进行分词,得到多个单词,根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,根据结构关系为各单词配置情感权重值;获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。在此方案中,对文本数据进行分词以后,采用依存关系句法分析过程对文本数据中的单词进行合理的逻辑分析,得到各单词之间的结构关系,并以此准确地识别各个单词在不同文本语境中所表达的情感,提高文本数据的情感指数识别的准确性。

Description

文本数据的情感指数识别方法和系统
技术领域
本发明涉及数据分析技术领域,特别是涉及一种文本数据的情感指数识别方法和系统。
背景技术
随着互联网的高速发展,网络已经成为人们获取信息的主要手段。在网络上充斥着各种各样的文本数据,面对多样纷杂的文本数据,对文本数据的梳理就变得十分必要。比如,梳理出网络上公众对社会事件、热点人物以及电商产品的评论信息,评论信息是五花八门的,其中表达了公众对评论对象的态度,这可以通过特定的情感指数来表达,情感指数是指对文本内容所表达的情感的量化数据。
目前对文本数据的情感指数识别通常是通过对文本数据中的某一特定的词汇进行识别,从而对整个文本数据进行情感判断,而同一词汇在不同的文本语境中所表达的情感会有所不同,传统的情感指数识别方式仅识别词汇,在不同的文本语境中识别的情感指数是相同的,导致情感指数识别的准确性较低。
发明内容
基于此,有必要针对传统的通过某一特定的词汇分析文本数据的情感准确性较低的问题,提供一种文本数据的情感指数识别方法和系统。
一种文本数据的情感指数识别方法,包括以下步骤:
获取文本数据,对文本数据进行分词,获得多个单词;
判断各单词的类型,根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,并根据结构关系为各单词配置情感权重值;
获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。
根据上述本发明的文本数据的情感指数识别方法,对获取的文本数据进行分词,得到多个单词,根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,根据结构关系为各单词配置情感权重值;获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。在此方案中,对文本数据进行分词以后,采用依存关系句法分析过程对文本数据中的单词进行合理的逻辑分析,得到各单词之间的结构关系,并以此准确地识别各个单词在不同文本语境中所表达的情感,提高文本数据的情感指数识别的准确性。
在其中一个实施例中,判断各单词的类型的步骤包括以下步骤:
在单词类型对照表中查找各单词,根据单词类型对照表中单词与类型的对应关系确定各单词的类型;其中,单词类型对照表预先记录单词与类型的对应关系。
在其中一个实施例中,在根据各单词的类型对各单词进行依存关系句法分析的步骤之前,还包括以下步骤:
比较各单词的类型与目标类型集合中的单词类型,若任一单词的类型与目标类型集合中的单词类型均不相同,将该任一单词剔除;其中,目标类型集合中的单词类型包括积极情感词、消极情感词、程度词、否定词、结构助词或语气词。
在其中一个实施例中,单词之间的结构关系包括单词之间的否定关系、程度关系、双重否定关系、程度加否定关系或否定加程度关系。
在其中一个实施例中,对文本数据进行分词的步骤包括以下步骤:
加载自定义词库,根据自定义词库中的词语对文本数据进行分词。
在其中一个实施例中,在获得多个单词的步骤之后,还包括以下步骤:
判断各单词中是否含有特定句式特征词,若是,则不对文本数据进行情感指数识别,其中,特定句式特征词包括疑问句特征词、比较句特征词、过去发生句特征词或他人情感句特征词。
在其中一个实施例中,对文本数据进行分词的步骤包括以下步骤:
根据标点符号对文本数据进行分句操作,获得多个子句,对各子句分别进行分词。
在其中一个实施例中,在根据各单词的情感参数和情感权重值获取文本数据的情感指数的步骤之后,还包括以下步骤:
建立基于边际效应递减的情感激活函数,根据情感激活函数和情感指数获取情感强度。
一种文本数据的情感指数识别系统,包括:
文本获取单元,用于获取文本数据,对文本数据进行分词,获得多个单词;
单词分析单元,用于判断各单词的类型,根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,并根据结构关系为各单词配置情感权重值;
情感指数识别单元,用于获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。
根据上述本发明的文本数据的情感指数识别系统,文本获取单元对获取的文本数据进行分词,得到多个单词,单词分析单元根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,根据结构关系为各单词配置情感权重值;情感指数识别单元获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。在此方案中,对文本数据进行分词以后,采用依存关系句法分析过程对文本数据中的单词进行合理的逻辑分析,得到各单词之间的结构关系,并以此准确地识别各个单词在不同文本语境中所表达的情感,提高文本数据的情感指数识别的准确性。
在其中一个实施例中,单词分析单元在单词类型对照表中查找各单词,根据单词类型对照表中单词与类型的对应关系确定各单词的类型;其中,单词类型对照表预先记录单词与类型的对应关系。
在其中一个实施例中,单词分析单元在根据各单词的类型对各单词进行依存关系句法分析的步骤之前,比较各单词的类型与目标类型集合中的单词类型,若任一单词的类型与目标类型集合中的单词类型均不相同,将该任一单词剔除;其中,目标类型集合中的单词类型包括积极情感词、消极情感词、程度词、否定词、结构助词或语气词。
在其中一个实施例中,单词之间的结构关系包括单词之间的否定关系、程度关系、双重否定关系、程度加否定关系或否定加程度关系。
在其中一个实施例中,文本获取单元加载自定义词库,根据自定义词库中的词语对文本数据进行分词。
在其中一个实施例中,单词分析单元判断各单词中是否含有特定句式特征词,若是,则不对文本数据进行情感指数识别,其中,特定句式特征词包括疑问句特征词、比较句特征词、过去发生句特征词或他人情感句特征词。
在其中一个实施例中,文本获取单元根据标点符号对文本数据进行分句操作,获得多个子句,对各子句分别进行分词。
在其中一个实施例中,情感指数识别单元建立基于边际效应递减的情感激活函数,根据情感激活函数和情感指数获取情感强度。
一种可读存储介质,其上存储有可执行程序,该程序被处理器执行时实现上述的文本数据的情感指数识别方法的步骤。
上述可读存储介质,通过其存储的可执行程序,实现了对文本数据进行分词,采用依存关系句法分析过程对文本数据中的单词进行合理的逻辑分析,得到各单词之间的结构关系,并以此准确地识别各个单词在不同文本语境中所表达的情感,提高文本数据的情感指数识别的准确性。
一种识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行程序,处理器执行程序时实现上述的文本数据的情感指数识别方法的步骤。
上述识别设备,通过处理器上运行的可执行程序,实现了对文本数据进行分词,采用依存关系句法分析过程对文本数据中的单词进行合理的逻辑分析,得到各单词之间的结构关系,并以此准确地识别各个单词在不同文本语境中所表达的情感,提高文本数据的情感指数识别的准确性。
附图说明
图1为一个实施例的文本数据的情感指数识别方法的应用场景图;
图2为一个实施例的文本数据的情感指数识别方法的流程示意图;
图3为一个实施例的文本数据的情感指数识别系统的结构示意图;
图4为一个实施例的文本数据的情感指数识别方法的实际应用流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1为一个实施例中文本数据的情感指数识别方法的应用环境示意图,文本数据的情感指数识别方法可以应用在数据分析服务器中,数据分析服务器通过Internet网络获取文本数据,对文本数据进行分词,获得多个单词;判断各单词的类型,根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,并根据结构关系为各单词配置情感权重值;获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。其中,数据分析服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2所示,为一个实施例的文本数据的情感指数识别方法的流程示意图。该实施例中的文本数据的情感指数识别方法,包括以下步骤:
步骤S110:获取文本数据,对文本数据进行分词,获得多个单词;
在本步骤中,文本数据一般是由文字词语组成的,对文本数据进行分词,可以得到多个单词,这些单词可以表达文本数据的情感;
步骤S120:判断各单词的类型,根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,并根据结构关系为各单词配置情感权重值;
在本步骤中,单词的类型会影响单词在文本数据中的结构关系,依存关系句法分析通过分析单词之间的依存关系揭示其句法结构关系,在进行依存关系句法分析后,确定各单词之间的结构关系,根据结构关系为各单词配置情感权重值,该情感权重值可以反映不同文本数据环境对单词的影响;
步骤S130:获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数;
在本步骤中,单词根据其自身的语义以及所处的文本环境,可以表达不同的情感,根据表达的情感的程度大小可以有对应的情感参数,将该情感参数与情感权重值相结合,可以得到文本数据的情感指数。
在本实施例中,对获取的文本数据进行分词,得到多个单词,根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,根据结构关系为各单词配置情感权重值;获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。在此方案中,对文本数据进行分词以后,采用依存关系句法分析过程对文本数据中的单词进行合理的逻辑分析,得到各单词之间的结构关系,并以此准确地识别各个单词在不同文本语境中所表达的情感,提高文本数据的情感指数识别的准确性。
在一个实施例中,判断各单词的类型的步骤包括以下步骤:
在单词类型对照表中查找各单词,根据单词类型对照表中单词与类型的对应关系确定各单词的类型;其中,单词类型对照表预先记录单词与类型的对应关系。
在本实施例中,单词的类型可以通过查找单词类型对照表来获得,单词类型对照表中预先记录有各种不同单词与类型的对应关系,通过查找对照表的方式可以快速便捷地得到不同单词的类型。
进一步的,单词类型对照表可以进行修改和补充,以覆盖不断变化更新的单词,完善单词类型的查找功能。
在一个实施例中,在根据各单词的类型对各单词进行依存关系句法分析的步骤之前,还包括以下步骤:
比较各单词的类型与目标类型集合中的单词类型,若任一单词的类型与目标类型集合中的单词类型均不相同,将该任一单词剔除;其中,目标类型集合中的单词类型包括积极情感词、消极情感词、程度词、否定词、结构助词或语气词。
在本实施例中,文本数据中包括各种不同类型的单词,其中可以表达情感的单词的数量是有限的,在一般的文本数据中包括一些没有情感倾向的单词,这些没有情感倾向的单词对文本数据的情感指数识别没有帮助,因此,可以确定有助于情感表达的单词类型并形成一个目标类型集合,将分词后各个单词的类型与目标类型集合中的单词类型进行比较,剔除其他类型的单词,简化文本数据的情感指数识别过程,提高识别效率。
需要说明的是,目标类型集合中的单词类型可以包括积极情感词、消极情感词、程度词、否定词、结构助词或语气词中的一种或多种,积极情感词、消极情感词所表达的情感较为明显,程度词一般修饰积极情感词、消极情感词,可以调整情感强度,否定词可以改变情感状态,结构助词以及语气词也可以修饰积极情感词、消极情感词,表达不同的情感。
进一步的,上述没有情感倾向的单词有时会将一些表达情感的单词掩藏起来,通过根据单词类型对各单词进行符号化,不仅可以降低分析单词的复杂度,加快依存关系句法分析速度,还因单词符号化,可以明确干扰成分的数量,使分析更加准确。
在一个实施例中,单词之间的结构关系包括单词之间的否定关系、程度关系、双重否定关系、程度加否定关系或否定加程度关系。
在本实施例中,单词之间的结构关系可以有多种,如否定关系、程度关系、双重否定关系、程度加否定关系或否定加程度关系,每种不同的结构关系所表达的情感强度不同,针对每种不同的结构关系,可以相应地配置情感权重值,有效准确地获取文本数据的情感指数。
需要说明的是,程度关系还可以分为三种,弱小程度关系、中等程度关系和高级程度关系,这三种不同的程度关系,也可以与否定关系相结合,对文本数据的情感进行更加细致的划分,从而提高文本数据的情感指数的准确性。
在一个实施例中,对文本数据进行分词的步骤包括以下步骤:
加载自定义词库,根据自定义词库中的词语对文本数据进行分词。
在本实施例中,可以利用加载的自定义词库中的词语对文本数据进行分词,在具体应用时,某一应用场景必然有与之对应的语料词语,根据上述语料词语可构建自定义词库,利用该自定义词库对所要分析的文本数据进行分词,可以提高分词时词语的匹配度,加快分词进程,而且在应用场景中有新的语料词语出现时,也可以及时地对自定义词库进行更新调整,使之符合实际应用的需要。
在一个实施例中,在获得多个单词的步骤之后,还包括以下步骤:
判断各单词中是否含有特定句式特征词,若是,则不对文本数据进行情感指数识别,其中,特定句式特征词包括疑问句特征词、比较句特征词、过去发生句特征词或他人情感句特征词。
在本实施例中,由于特定句式的表达特殊性,其中即使包含表达情感的单词,也不是表达相应的情感,例如,疑问句,它的情感强度一般都不够强烈;比较句在不同的对象环境中所表达的情感会不同甚至完全相反;过去发生句代表的以前的情感,对当前的情感的影响较小;他人情感句是借鉴他人以前的情感等来表达自己的情感的语句,这部分的情感并不是在自己当前角度发生的,因此,上述几种特定句式对文本数据的情感指数的识别会有不利影响,在分词后的单词中出现特定句式的特征词时,可以不对文本数据进行情感指数识别,避免降低情感指数识别的准确性。
在一个实施例中,对文本数据进行分词的步骤包括以下步骤:
根据标点符号对文本数据进行分句操作,获得多个子句,对各子句分别进行分词。
在本实施例中,文本数据中可能出现较长的语句,长句中很容易出现多个主语,导致增加依存关系句法分析的难度,甚至可能得到误判的结果;利用标点符号对文本数据进行分句操作,可以将长句分为多个子句,再对各个子句进行分词,在依存关系句法分析之后可以将结果进行汇合,如此可以大大降低依存关系句法分析的难度,同时保证依存关系句法分析的准确性。
在一个实施例中,在根据各单词的情感参数和情感权重值获取文本数据的情感指数的步骤之后,还包括以下步骤:
建立基于边际效应递减的情感激活函数,根据情感激活函数和情感指数获取情感强度。
在本实施例中,在得到情感指数后,可以通过基于边际效应递减的情感激活函数对情感指数进行进一步的度量,得到的情感强度可以更加准确地反映文本数据的情感,并且更符合实际的应用角度。
需要说明的是,情感激活函数包含情感指数、文本数据的有效长度、有效长度、对情感的影响因子数据等指标。
根据上述文本数据的情感指数识别方法,本发明还提供一种文本数据的情感指数识别系统,以下就本发明的文本数据的情感指数识别系统的实施例进行详细说明。
参见图3所示,为一个实施例的文本数据的情感指数识别系统的结构示意图。该实施例中的文本数据的情感指数识别系统包括:
文本获取单元210,用于获取文本数据,对文本数据进行分词,获得多个单词;
单词分析单元220,用于判断各单词的类型,根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,并根据结构关系为各单词配置情感权重值;
情感指数识别单元230,用于获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。
在本实施例中,文本获取单元210对获取的文本数据进行分词,得到多个单词,单词分析单元220根据各单词的类型对各单词进行依存关系句法分析,获取各单词之间的结构关系,根据结构关系为各单词配置情感权重值;情感指数识别单元230获取各单词的情感参数,根据各单词的情感参数和情感权重值获取文本数据的情感指数。在此方案中,对文本数据进行分词以后,采用依存关系句法分析过程对文本数据中的单词进行合理的逻辑分析,得到各单词之间的结构关系,并以此准确地识别各个单词在不同文本语境中所表达的情感,提高文本数据的情感指数识别的准确性。
在一个实施例中,单词分析单元220在单词类型对照表中查找各单词,根据单词类型对照表中单词与类型的对应关系确定各单词的类型;其中,单词类型对照表预先记录单词与类型的对应关系。
在一个实施例中,单词分析单元220在根据各单词的类型对各单词进行依存关系句法分析的步骤之前,比较各单词的类型与目标类型集合中的单词类型,若任一单词的类型与目标类型集合中的单词类型均不相同,将该任一单词剔除;其中,目标类型集合中的单词类型包括积极情感词、消极情感词、程度词、否定词、结构助词或语气词。
在一个实施例中,单词之间的结构关系包括单词之间的否定关系、程度关系、双重否定关系、程度加否定关系或否定加程度关系。
在一个实施例中,文本获取单元210加载自定义词库,根据自定义词库中的词语对文本数据进行分词。
在一个实施例中,单词分析单元220判断各单词中是否含有特定句式特征词,若是,则不对文本数据进行情感指数识别,其中,特定句式特征词包括疑问句特征词、比较句特征词、过去发生句特征词或他人情感句特征词。
在一个实施例中,文本获取单元220根据标点符号对文本数据进行分句操作,获得多个子句,对各子句分别进行分词。
在一个实施例中,情感指数识别单元230建立基于边际效应递减的情感激活函数,根据情感激活函数和情感指数获取情感强度。
本发明的文本数据的情感指数识别系统与本发明的文本数据的情感指数识别方法一一对应,在上述文本数据的情感指数识别方法的实施例阐述的技术特征及其有益效果均适用于文本数据的情感指数识别系统的实施例中。
根据上述文本数据的情感指数识别方法,本发明实施例还提供一种可读存储介质和一种识别设备。
可读存储介质上存储有可执行程序,该程序被处理器执行时实现上述文本数据的情感指数识别方法的步骤;识别设备包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行程序,处理器执行程序时实现上述文本数据的情感指数识别方法的步骤。
上述可读存储介质和识别设备能够对文本数据进行分词,采用依存关系句法分析过程对文本数据中的单词进行合理的逻辑分析,得到各单词之间的结构关系,并以此准确地识别各个单词在不同文本语境中所表达的情感,提高文本数据的情感指数识别的准确性。
在一个实施例中,本发明实施例的方案可以应用在APP市场评论文本情感分析的场景中。
在具体应用时,如图4所示,可以先初始化,获取多条评论文本,对评论文本中的特殊符号以及图片等信息转化为空,并加载自定义词库;
针对第xi条评论文本,设置i≥0,emo_coef_alli=0,其中,emo_coef_alli表示第xi条评论文本的情感指数总和,根据标点符号将第xi条评论文本切分成若干子句Tj,获取第j条子句Tj,j≥0,将每条子句Tj的情感指数初始化为0,即emo_coef=0,利用自定义词库对子句进行分词;
分词完成后,判断子句的最后一个单词是否为疑问词,子句中是否有比较词、过去发生词、他人情感词等,若有,则跳过该子句,对下一子句进行操作;若无,则根据分词后得到的积极词和消极词的数量计算子句的基础情感指数,即emo_coef=积极词数量-消极词数量;当其中没有情感词时,emo_coef=0;
此时判断该子句中是否有程度词或否定词,若无,则该子句为一般句,可以将基础情感指数作为该子句的情感指数,即emo_coef_alli+=emo_coef,对下一子句进行操作;若有,则可以对该子句中的单词符号化,其中,g可以表示积极词符号,b可以表示消极词符号,cri可以表示否定词符号,pri可以表示弱小程度词符号,more可以表示中级程度词符号,most可以表示高等程度词符号,str可以表示结构助词符号,other可以表示其他类型词符号;
wk表示该子句中的第k个词,k≥0,生成一个记录已经被分析词的空集合Have_been_analysis=set(),获取第k个词wk,判断wk是否已经被分析,若是,则获取下一个词wk+1;若否,则判断wk的单词符号是否为other,是则获取下一个词wk+1,否则执行下一步操作;
判断wk是否为一般情感词、否定词或程度词,若是其中一种,则根据相应的单词类型为之配置相应的情感权重值,之后获取下一个词wk+1,直至该子句分析结束,对下一子句进行操作。
上述过程是对文本句式进行相应的处理,分析单词之间的结构关系,如否定关系、程度关系、双重否定关系、程度加否定关系或否定加程度关系等,程度关系还可以分为三种,弱小程度关系、中等程度关系和高级程度关系,这三种不同的程度关系,也可以与否定关系相结合,对情感进行更加细致的划分。
在得到各个单词的情感权重值后,获取各个单词的情感参数,该参数可以是同一类型单词的数量,或者是根据单词自身的语义设置的数值,对单词的情感参数与情感权重值进行加权算法计算,可以得到评论文本的情感指数。
在图4所展示的文本情感指数识别流程中,第一个过程主要是个性化分词,一般分词是利用开发好的模块,但是目前被开发的算法模块都还存在较多的误差,因此在本实施例中以APP市场上评论文本作为语料,训练出大量的词汇作为自定义词库,来完善分词的效果。
第二个过程主要是分句,由于有的长评论文本含有较多的子句,但是这样的长评论文本很容易出现多个主语,会增加句法分析的难度,也可能会带来较误判,因此可以通过使用正则表达式来对长句分成若干个短句,如使用标点符号进行分句,先对短句处理,最后汇合整理。
第三个过程主要是特殊句式处理,因为在上述基础上已经把长评论文本中的长句切分成了短句,在这里针对短句中的疑问句,比较句,过去发生句和他人情感句进行特殊的处理,这些处理不但可以使分析更加准确还可以节约分析的时间。比如疑问句,那么它的情感强度一般都不够强烈,可以不解析它的组成成分;比较句是一个很难处理的问题,比如“流量宝比流量来了好”,这句话如果在流量宝的产品下它是一句积极的,如果在流量来了的产品下它就是差评,因此也不对其进行分析;他人情感句,也就是常见的借鉴朋友,亲人或则自己以前发生的情感等来表达自己的感情,而这部分的感情并不是自己现在的角度发生的,因此也不对其进行分析,避免降低短句的情感指数。
第四个过程主要是符号化待分析词,因为在分析评论情感时,通常词语是很多种类的,而大部分的词是没有情感倾向的,比如上述、、基本都是没有情感倾向的词,而这些词不但对分析情感没有带来帮助,而且还会把一些情感词给掩藏起来。为了更加高效地处理该类问题,在这里可以借助情感词库(自定义词库)符号化需要分析的词,这样不仅可以加快分析速度,还会使分析更加准确,因为符号化了需要分析的成分,自然也知道了干扰成分的数量,干扰数量也是量化情感强度的指标。
第五个过程主要是依存关系句法分析,这部分是分析的核心,通过句法分析可以详细地解析情感词以及其修饰词的成分。比如:
原句:“今天不是很开心”
分词的结果:“今天不是很开心”
分词结果符号化:“今天:其他,不是:否定词,很:程度词,开心:积极情感词”。
而依存句法分析就是来识别“很”是修饰“开心”,他们构成状中结构(ADV),而“不是”和“很”同样构成这样的结构,可分析得出这句话的情感核心成分为:“不是很开心”。在得到核心情感成分后可以通过定义各个词语的情感参数以及为各个词语配置的情感权重值,利用加权算法快速计算短文本的情感指数。
第六个过程主要是情感强度的度量在得到情感指数后需要对情感指数进行一个度量。而在度量情感强度时尽可能地从生活角度出发,基于边际效应递减的原理拟合出一个情感激活函数。该情感激活函数包含有情感指数,评论的有效长度,评论长度,对情感的影响因子系数等指标,具体如下:
Figure BDA0001590865460000131
上式中,Csi为第i条评论的得分,Cji为第i条评论的正向情感判断结果系数,Culi为第i条评论的有效长度,Cali为第i条评论的总长度,Cci为第i条评论的情感系数。
本实施例在发现有新的词语产生,带来明显的误判的评论时,可以及时地通过调整词库进行快速纠正;由于依存关系句法分析是通过结合句法来分析词汇,它可以克服传统算法处理不了的语义问题,使评论情感指数的识别准确率相对传统算法来说有显著的提升。在使用svm算法测试10万条样本时准确率只有80%左右,而依存句法分析模型可以达到90%,识别效果不低于企鹅风讯;通过本实施例的方案可以还原真实的评论情感,有的评论看似达到5星,但是还是存在很多产品的缺陷,而真实的产品反馈才可以更好地驱动产品进行策略调整。
本实施例利用自己的评论文本语料构建了自定义的分词词库,实现个性化的分词,使分词效果更加准确;结合多种类型符号化与评论情感有关的词,不仅可以提高识别效率,也使分析更加准确;采用了先分短句解析文本,最后汇总处理,由于短句的句式相对简单,分析句式会更加准确;采用依存关系句法分析的思想详细地对情感词及其修饰词进行了合理的逻辑分析,保证了文本情感的识别准确率;采用边际效应递减原理构建了激活情感的计算公式,使文本情感的度量更加合理。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。所述的程序可以存储于可读取存储介质中。该程序在执行时,包括上述方法所述的步骤。所述的存储介质,包括:ROM/RAM、磁碟、光盘等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本数据的情感指数识别方法,其特征在于,包括以下步骤:
获取文本数据,对所述文本数据进行分词,获得多个单词;判断各所述单词中是否含有特定句式特征词,若是,则不对所述文本数据进行情感指数识别,其中,所述特定句式特征词包括疑问句特征词、比较句特征词、过去发生句特征词或他人情感句特征词;
判断各所述单词的类型,根据各所述单词的类型对各所述单词进行依存关系句法分析,获取各所述单词之间的结构关系,并根据所述结构关系为各所述单词配置情感权重值;
获取各所述单词的情感参数,根据各所述单词的情感参数和情感权重值获取所述文本数据的情感指数。
2.根据权利要求1所述的文本数据的情感指数识别方法,其特征在于,所述判断各所述单词的类型的步骤包括以下步骤:
在单词类型对照表中查找各所述单词,根据所述单词类型对照表中单词与类型的对应关系确定各所述单词的类型;其中,所述单词类型对照表预先记录单词与类型的对应关系。
3.根据权利要求2所述的文本数据的情感指数识别方法,其特征在于,所述单词类型对照表预先记录单词与类型的对应关系,还包括:
对所述单词类型对照表进行修改和补充,以覆盖不断变化更新的单词。
4.根据权利要求1所述的文本数据的情感指数识别方法,其特征在于,在所述根据各所述单词的类型对各所述单词进行依存关系句法分析的步骤之前,还包括以下步骤:
比较各所述单词的类型与目标类型集合中的单词类型,若任一单词的类型与所述目标类型集合中的单词类型均不相同,将该任一单词剔除;其中,所述目标类型集合中的单词类型包括积极情感词、消极情感词、程度词、否定词、结构助词或语气词。
5.根据权利要求1所述的文本数据的情感指数识别方法,其特征在于,所述单词之间的结构关系包括单词之间的否定关系、程度关系、双重否定关系、程度加否定关系或否定加程度关系。
6.根据权利要求1所述的文本数据的情感指数识别方法,其特征在于,所述对所述文本数据进行分词的步骤包括以下步骤:
加载自定义词库,根据自定义词库中的词语对所述文本数据进行分词。
7.根据权利要求1所述的文本数据的情感指数识别方法,其特征在于,所述对所述文本数据进行分词的步骤包括以下步骤:
根据标点符号对所述文本数据进行分句操作,获得多个子句,对各所述子句分别进行分词。
8.根据权利要求1至7中任意一项所述的文本数据的情感指数识别方法,其特征在于,在所述根据各所述单词的情感参数和情感权重值获取所述文本数据的情感指数的步骤之后,还包括以下步骤:
建立基于边际效应递减的情感激活函数,根据所述情感激活函数和所述情感指数获取情感强度。
9.一种文本数据的情感指数识别系统,其特征在于,包括:
文本获取单元,用于获取文本数据,对所述文本数据进行分词,获得多个单词;判断各所述单词中是否含有特定句式特征词,若是,则不对所述文本数据进行情感指数识别,其中,所述特定句式特征词包括疑问句特征词、比较句特征词、过去发生句特征词或他人情感句特征词;
单词分析单元,用于判断各所述单词的类型,根据各所述单词的类型对各所述单词进行依存关系句法分析,获取各所述单词之间的结构关系,并根据所述结构关系为各所述单词配置情感权重值;
情感指数识别单元,用于获取各所述单词的情感参数,根据各所述单词的情感参数和情感权重值获取所述文本数据的情感指数。
10.一种识别设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行程序,处理器执行程序时实现权利要求1至7中任意一项所述的文本数据的情感指数识别方法的步骤。
CN201810187962.0A 2018-03-07 2018-03-07 文本数据的情感指数识别方法和系统 Active CN108536671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810187962.0A CN108536671B (zh) 2018-03-07 2018-03-07 文本数据的情感指数识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810187962.0A CN108536671B (zh) 2018-03-07 2018-03-07 文本数据的情感指数识别方法和系统

Publications (2)

Publication Number Publication Date
CN108536671A CN108536671A (zh) 2018-09-14
CN108536671B true CN108536671B (zh) 2021-12-21

Family

ID=63486536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810187962.0A Active CN108536671B (zh) 2018-03-07 2018-03-07 文本数据的情感指数识别方法和系统

Country Status (1)

Country Link
CN (1) CN108536671B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635071A (zh) * 2018-10-31 2019-04-16 宿州学院 一种基于用户指令的论文智能分析方法
CN112560447A (zh) * 2020-12-22 2021-03-26 联想(北京)有限公司 回复信息获取方法、装置及计算机设备
CN114519100A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 餐饮数据分析方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107688576A (zh) * 2016-08-04 2018-02-13 中国科学院声学研究所 一种cnn‑svm模型的构建及倾向性分类方法
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010181993A (ja) * 2009-02-04 2010-08-19 Kddi Corp 絵文字を含む文章ファイルを評価する評価分析サーバ、方法及びプログラム
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN105138506B (zh) * 2015-07-09 2018-07-03 天云融创数据科技(北京)有限公司 一种金融文本情感分析方法
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN107609132B (zh) * 2017-09-18 2020-03-20 杭州电子科技大学 一种基于语义本体库中文文本情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688576A (zh) * 2016-08-04 2018-02-13 中国科学院声学研究所 一种cnn‑svm模型的构建及倾向性分类方法
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"CSMCCVA:Framework of cross-modal semantic mapping based on cognitive computing of visual and auditory sensations";Zuo Xianyu 等;《High Technology Letters》;20160315;第22卷(第1期);第90-98页 *
"用于微博情感分析的一种情感语义增强的深度学习模型";何炎祥 等;《计算机学报》;20160929;第40卷(第4期);第773-790页 *

Also Published As

Publication number Publication date
CN108536671A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
Kumar et al. Iterative edit-based unsupervised sentence simplification
US20100205198A1 (en) Search query disambiguation
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
US9141601B2 (en) Learning device, determination device, learning method, determination method, and computer program product
JP2004110161A (ja) テキスト文比較装置
CN108536671B (zh) 文本数据的情感指数识别方法和系统
WO2014002776A1 (ja) 同義語抽出システム、方法および記録媒体
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
JP6729095B2 (ja) 情報処理装置及びプログラム
CN110717021B (zh) 人工智能面试中获取输入文本和相关装置
CN106610990B (zh) 情感倾向性分析的方法及装置
Henß et al. A Reinforcement Learning Approach for Adaptive Single-and Multi-Document Summarization.
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN109284389A (zh) 一种文本数据的信息处理方法、装置
US11520994B2 (en) Summary evaluation device, method, program, and storage medium
CN109753646B (zh) 一种文章属性识别方法以及电子设备
Hussain et al. A technique for perceiving abusive bangla comments
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
JP5214985B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220121

Address after: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200040

Patentee after: Tianyi Digital Life Technology Co.,Ltd.

Address before: 1 / F and 2 / F, East Garden, Huatian International Plaza, 211 Longkou Middle Road, Tianhe District, Guangzhou, Guangdong 510630

Patentee before: Century Dragon Information Network Co.,Ltd.

TR01 Transfer of patent right