CN106776574A - 用户评论文本挖掘方法及装置 - Google Patents
用户评论文本挖掘方法及装置 Download PDFInfo
- Publication number
- CN106776574A CN106776574A CN201611233341.9A CN201611233341A CN106776574A CN 106776574 A CN106776574 A CN 106776574A CN 201611233341 A CN201611233341 A CN 201611233341A CN 106776574 A CN106776574 A CN 106776574A
- Authority
- CN
- China
- Prior art keywords
- analyzed
- emotion
- word
- emotion word
- syntactic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用户评论文本挖掘方法及装置。该用户评论文本挖掘方法包括:对待分析用户评论进行数据预处理,获取对应的待分析词语集合和待分析词性集合;判断待分析词性集合中是否存在情感词标注;若存在,则基于情感词标注从待分析词语集合中获取待分析情感词集合,并获取与待分析情感词集合相对应的待分析句法结构集合;采用预设的情感词‑句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,获取初级特征提取结果;对初级特征提取结果进行情感极性分类,获取深层特征提取结果。该用户评论文本挖掘方法挖掘获取的深层特征提取结果的操作过程简单方便,无需耗费大量人力物力,可提高处理效率和准确率。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种用户评论文本挖掘方法及装置。
背景技术
随着互联网信息技术的快速发展,尤其是微博、电商和社交网络等应用的普及,网络中蕴含用户情感的用户评论信息呈爆炸式增长,如何从用户评论信息中挖掘出有价值的信息已成为当前各行业关注的焦点。用户评论信息具有长度有限、评价主题不明确和特征很明显的特点。文本挖掘方法是从海量数据中获取关键信息的方法,包括但不限于文本特征提取和文本特征的分类聚类等,被广泛应用于互联网及大数据等热门领域。现有文本挖掘方法包括基于词频统计的文本挖掘方法和基于句法规则的文本挖掘方法。现有文本挖掘方法对用户评论信息进行文本特征提取时存在如下问题:
一、基于词频统计的文本挖掘方法对用户评论信息进行文本特征提取时,一方面,特征提取结果已量化成向量形式,无具体含义,只能获取文本的大致类别,缺乏深层次的特征分析,影响特征提取的准确性。如用户对任一洗衣机的用户评论信息为“效果不错,容量也还蛮大的,物流态度也很好,发货超快,有需要下次还会再来的”,采用基于词频统计的文本挖掘方法对该用户评论信息进行特征提取,只能得到用户对洗衣机的评论结果为正向(或者好评),但无法获取其评价的洗衣机具体好在哪里。另一方面,基于词频统计的文本挖掘方法将用户评论中每一个词语分割成一个个独立的特征,忽略中文中词语的先后顺序对文本特征的影响,缺乏深层次的特征分析。
二、基于句法规则的文本挖掘方法主要通过构建属性词-评价词库进行特征提取,需针对不同领域,耗费大量的人力物力,人工归纳整理相应的属性词-评价词库,成本高,且人工归纳整理属性词-评论词库过程耗时长,人工归纳无法保证属性词-评论词库的完备,使得基于该属性词-评论词库进行特征提取的准确性低。
发明内容
本发明要解决的技术问题在于,针对现有文本挖掘方法对用户评论进行文本特征提取时存在准确性低的缺陷,提供一种用户评论文本挖掘方法及装置。
本发明解决其技术问题所采用的技术方案是:一种用户评论文本挖掘方法,包括:
对待分析用户评论进行数据预处理,获取对应的待分析词语集合和待分析词性集合;
判断所述待分析词性集合中是否存在情感词标注;
若存在,则基于所述情感词标注从所述待分析词语集合中获取待分析情感词集合,并获取与所述待分析情感词集合相对应的待分析句法结构集合;
采用预设的情感词-句法规则词典对所述待分析情感词集合和所述待分析句法结构集合进行特征提取,获取初级特征提取结果;
对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果。
优选地,所述采用预设的情感词-句法规则词典对所述待分析情感词集合和所述待分析句法结构集合进行特征提取,获取初级特征提取结果,包括:
逐一判断所述待分析情感集合中的待分析情感词是否存在于所述情感词-句法规则词典中;
若存在,则从所述情感词-句法规则词典中获取与所述待分析情感词相对应的目标句法结构集合,将所述目标句法结构集合和所述待分析句法结构集合的交集作为所述初级特征提取结果;
若不存在,则判断所述待分析句法结构中是否包含预设句法规则,若存在,则基于所述预设句法规则对所述待分析情感集合中的待分析情感词进行特征提取,获取所述初级特征提取结果;其中,所述预设句法规则为所述情感词-句法规则词典中所有情感词中词频最高的句法规则。
优选地,还包括获取所述情感词-句法规则词典;
所述情感词-句法规则词典包括:
对训练用户评论进行数据预处理,获取对应的训练词语集合和训练词性集合;
对所述训练词语集合和所述训练词性集合进行文本句法分析,获取所述训练词语集合中每一训练词语对应的句法结构;
判断所述训练词性集合中是否存在情感词标注;
若存在,则将与所述情感词标注相对应的训练情感词及其对应的句法结构存储在所述情感词-句法规则词典中;
若不存在,则选取所述训练词性集合中形容词标注对应的训练词语作为候选情感词,判断所述候选情感词对应的句法结构是否为主谓结构;若是,则将所述候选情感词及其对应的主谓结构存储在所述情感词-句法规则词典中。
优选地,所述数据预处理包括:对所述待分析用户评论或所述训练用户评论进行中文分词、词性标注和去停用词处理。
优选地,所述对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果,包括:采用基于情感词典的文本情感极性分类算法或基于支持向量的文本情感极性分类算法对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果。
本发明还提供一种用户评论文本挖掘装置,包括:
预处理模块,用于对待分析用户评论进行数据预处理,获取对应的待分析词语集合和待分析词性集合;
情感词判断模块,用于判断所述待分析词性集合中是否存在情感词标注;
情感词获取模块,用于若存在,则基于所述情感词标注从所述待分析词语集合中获取待分析情感词集合,并获取与所述待分析情感词集合相对应的待分析句法结构集合;
初级特征提取模块,用于采用预设的情感词-句法规则词典对所述待分析情感词集合和所述待分析句法结构集合进行特征提取,获取初级特征提取结果;
深层特征提取模块,用于对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果。
优选地,所述初级特征提取模块包括:
情感词判断单元,用于逐一判断所述待分析情感集合中的待分析情感词是否存在于所述情感词-句法规则词典中;
第一初级特征提取单元,用于若存在,则从所述情感词-句法规则词典中获取与所述待分析情感词相对应的目标句法结构集合,将所述目标句法结构集合和所述待分析句法结构集合的交集作为所述初级特征提取结果;
第二初级特征提取单元,用于若不存在,则判断所述待分析句法结构中是否包含预设句法规则,若存在,则基于所述预设句法规则对所述待分析情感集合中的待分析情感词进行特征提取,获取所述初级特征提取结果;其中,所述预设句法规则为所述情感词-句法规则词典中所有情感词中词频最高的句法规则。
优选地,还包括词典获取模块,用于获取所述情感词-句法规则词典;
所述词典获取模块包括:
训练数据预处理单元,用于对训练用户评论进行数据预处理,获取对应的训练词语集合和训练词性集合;
文本句法分析单元,用于对所述训练词语集合和所述训练词性集合进行文本句法分析,获取所述训练词语集合中每一训练词语对应的句法结构;
训练情感词判断单元,用于判断所述训练词性集合中是否存在情感词标注;
第一情感词存储单元,用于若存在,则将与所述情感词标注相对应的训练情感词及其对应的句法结构存储在所述情感词-句法规则词典中;
第二情感词存储单元,用于若不存在,则选取所述训练词性集合中形容词标注对应的训练词语作为候选情感词,判断所述候选情感词对应的句法结构是否为主谓结构;若是,则将所述候选情感词及其对应的主谓结构存储在所述情感词-句法规则词典中。
优选地,所述数据预处理包括:对所述待分析用户评论或所述训练用户评论进行中文分词、词性标注和去停用词处理。
优选地,所述深层特征提取模块,还用于采用基于情感词典的文本情感极性分类算法或基于支持向量的文本情感极性分类算法对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果。
本发明与现有技术相比具有如下优点:本发明所提供的用户评论文本挖掘方法及装置中,采用预设情感词-句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,使得其获取的初级特征提取结果包含具体含义,以便于对初级特征提取结果进行进一步分析,提高特征提取的准确性;而且,基于预设情感词-句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,此过程操作简单方便,无需耗费大量的人力物力,提高处理效率。再对初级特征提取结果进行极性分类,以获取深层特征提取结果,以提高特征提取的准确性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例1中用户评论文本挖掘方法的一流程图。
图2是本发明实施例2中用户评论文本挖掘装置的一原理框图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
实施例1
图1示出本实施例中的用户评论文本挖掘方法。如图1所示,该用户评论文本挖掘方法包括如下步骤:
S10:对待分析用户评论进行数据预处理,获取对应的待分析词语集合和待分析词性集合。
其中,待分析用户评论是指尚未进行文本挖掘,未获取文本特征的用户评论。待分析词语集合包括至少一个待分析词语,该待分析词语可以包括待分析情感词,也可以不包括待分析情感词。待分析词性集合包括与每一待分析词语对应的词性标注,其中,词性标注包括但不限于情感词、形容词、名词、动词等。
进一步地,步骤S10中,对待分析用户评论进行数据预处理包括:对待分析用户评论进行中文分词、词性标注和去停用词处理。
其中,中文分词是指将待分析用户评论中的字符串分割成一个个独立的待分析词语。词性标注是指对每一待分析词语标注相应的词性标注,如对字符串“我爱北京天安门”进行中文分词和词性标注后的结果为:“('我','r'),('爱','v'),('北京','ns'),('天安门','ns')”,其中,r为代词标注,v为动词标注,ns为名词标注。中文分词是中文自然语言处理的前提和基础,采用中科院的ICTCLAS,哈工大的LTP以及结巴分词等中文分词工具,均可实现对待分析用户评论的中文分词和词性标注。去停用词是在自然语言文本处理之前或之后自动过滤掉的某些字或词(即为停用词),以节省存储空间和提高搜索效率。
具体地,加载用户自定义情感词典对待分析用户评论进行中文分词、词性标注和去停用词处理。其中,用户自定义情感词典由包含用户褒贬情感倾向的情感词构成,可通过知网获取。在用户自定义情感词典构建时,可通过对训练用户评论进行字符正则匹配、文本分割并进行数据整理后获取。其中,对训练用户评论进行字符串正则匹配,用于去除训练用户评论中的数字、英文等非中文字符,只保留中文字符、逗号和句号分隔符。文本分割是基于字符串正则匹配后的逗号或句号分隔符,对训练用户评论进行文本分割,以获取短文本集合。数据整理是将短文本集合中的情感词、停用词、程度副词和否定词等进行整理,通过知网(HowNet)获取构建用户自定义情感词典的情感词。
可以理解地,将待分析用户评论存放在未知特征文本特征集合中,在步骤S10之前,还包括判断未知特征文本特征集合是否为空集;若为空集,则结束执行程序;若不为空集,则执行该用户评论文本挖掘方法中的步骤S10。
S20:判断待分析词性集合中是否存在情感词标注。
即判断待分析词性集合中所有的词性标注中是否包括情感词标注,以确定对应的待分析词语集合中是否包含待分析情感词,以便对确定的情感词进行深层分析。
S30:若存在,则基于情感词标注从待分析词语集合中获取待分析情感词集合,并获取与待分析情感词集合相对应的待分析句法结构集合。
可以理解地,若待分析词性集合中存在情感词标注,则待分析词语集合中存在待分析情感词,则基于情感词标注从待分析词语集合中获取对应的至少一个待分析情感词,基于至少一个待分析情感词形成待分析情感词集合。并且,从待分析用户评论中获取待分析情感词之前和之后的待分析词语,确定待分析情感词对应的至少一个待分析句法结构,基于至少一个待分析句法结构形成待分析句法结构集合。
本实施例中,待分析句法结构是中文句法结构,中文句法结构可以是主谓结构、动宾结构、偏正结构、补充结构和联合结构。其中,主谓结构是结构内部两个成分之间有陈述和被陈述关系,如鲜花盛开、身体好。动宾结构是结构内部两个成分之间有支配与被支配关系,如去北京、是老师。偏正结构是结构内部两个成分之间有修饰和被修饰的关系,包括定语+中心语结构,如高尚的情操、崇高理想;还包括状语+中心语结构,如很好、认真学习。补充结构是结构内部两个成分之间有补充和被补充的关系,如打扫干净,走出来。联合结构是结构内部有两个或两个以上的成分,成分之间有并列或选择关系,如语言文学、研究决定。
S40:采用预设的情感词-句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,获取初级特征提取结果。
采用预设情感词-句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,使得其获取的初级特征提取结果包含具体含义,以便于对初级特征提取结果进行进一步分析,提高特征提取的准确性;而且,基于预设情感词-句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,此过程操作简单方便,无需耗费大量的人力物力,提高处理效率。
进一步地,步骤S40具体包括如下步骤:
S41:逐一判断待分析情感集合中的待分析情感词是否存在于情感词-句法规则词典中。
即遍历待分析情感集合中的每一待分析情感词,判断待分析情感集合是否为空集;若为空集,则结束执行程序;若不为空集,则判断该待分析情感词是否存在于情感词-句法规则词典中,以确定是否可基于情感词-句法规则词典中存储的情感词-句法结构进行特征提取。
S42:若存在,则从情感词-句法规则词典中获取与待分析情感词相对应的目标句法结构集合,将目标句法结构集合和待分析句法结构集合的交集作为初级特征提取结果。
即待分析情感集合中的待分析情感词存在于情感词-句法规则词典中时,则从情感词-句法规则词典中获取与该待分析情感词相对应的目标句法结构集合,该目标句法结构集合是情感词-句法规则词典中的子集。再判断目标句法结构集合与步骤S30获取的待分析句法结构集合是否存在交集;若存在交集,则将目标句法结构集合和待分析句法结构集合的交集作为初级特征提取结果;若不存在交集,则返回步骤S41,对待分析情感集合中的下一待分析情感词进行处理。
S43:若不存在,则判断待分析句法结构中是否包含预设句法规则,若存在,则基于预设句法规则对待分析情感集合中的待分析情感词进行特征提取,获取初级特征提取结果;其中,预设句法规则为情感词-句法规则词典中所有情感词中词频最高的句法规则。
即待分析情感集合中的待分析情感词不存在于情感词-句法规则词典中时,先获取情感词-句法规则词典中所有情感词中词频最高的句法规则作为预设句法规则。再利用该预设句法规则对待分析情感集合中的待分析情感词进行特征提取,以获取初级特征提取结果。
S50:对初级特征提取结果进行情感极性分类,获取深层特征提取结果。
可以理解地,对初级特征提取结果进行情感极性分类,以确定初级特征提取结果为正向特征集合还是负向特征集合,以获取深层特征提取结果,以提高特征提取的准确性。
进一步地,步骤S50具体包括:采用基于情感词典的文本情感极性分类算法或基于支持向量的文本情感极性分类算法对初级特征提取结果进行情感极性分类,获取深层特征提取结果。可以理解地,基于情感词典的文本情感极性分类算法和基于支持向量的文本情感极性分类算法均为较成熟的情感极性分类算法,在进行情感极性分类时,在一定程度上确保处理的准确性。
本实施例所提供的用户评论文本挖掘方法中,采用预设情感词-句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,使得其获取的初级特征提取结果包含具体含义,以便于对初级特征提取结果进行进一步分析,提高特征提取的准确性;而且,基于预设情感词-句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,此过程操作简单方便,无需耗费大量的人力物力,提高处理效率。再对初级特征提取结果进行极性分类,以获取深层特征提取结果,以提高特征提取的准确性。
在一具体实施方式中,对不同领域的用户评论需分析确定对应的情感词-句法规则词典,以便利用该情感词-句法规则词典进行特征提取时,保证特征提取的准确性,提高特征提取的效率。因此,该用户评论文本挖掘方法还包括如下步骤:
S61:对训练用户评论进行数据预处理,获取对应的训练词语集合和训练词性集合。
其中,训练用户评论是指尚未进行文本挖掘,未获取文本特征的用户评论。训练词语集合包括至少一个训练词语,该训练词语可以包括训练情感词,也可以不包括训练情感词。训练词性集合包括与每一训练词语对应的词性标注,其中,词性包括但不限于情感词、形容词、名词、动词等。
进一步地,步骤S61具体包括:对训练用户评论进行中文分词、词性标注和去停用词处理。
其中,中文分词是指将训练用户评论中的字符串分割成一个个独立的训练词语。词性标注是指对每一训练词语标注相应的词性标注,如对字符串“我爱北京天安门”进行中文分词和词性标注后的结果为:“('我','r'),('爱','v'),('北京','ns'),('天安门','ns')”,其中,r为代词标注,v为动词标注,ns为名词标注。中文分词是中文自然语言处理的前提和基础,采用中科院的ICTCLAS,哈工大的LTP以及结巴分词等中文分词工具,均可实现对训练用户评论的中文分词和词性标注。去停用词是在自然语言文本处理之前或之后自动过滤掉的某些字或词(即为停用词),以节省存储空间和提高搜索效率。
具体地,加载用户自定义情感词典对训练用户评论进行中文分词、词性标注和去停用词处理。其中,用户自定义情感词典由包含用户褒贬情感倾向的情感词构成,可通过知网获取。在用户自定义情感词典构建时,可通过对训练用户评论进行字符正则匹配、文本分割并进行数据整理后获取。其中,对训练用户评论进行字符串正则匹配,用于去除训练用户评论中的数字、英文等非中文字符,只保留中文字符、逗号和句号分隔符。文本分割是基于字符串正则匹配后的逗号或句号分隔符,对训练用户评论进行文本分割,以获取短文本集合。数据整理是将短文本集合中的情感词、停用词、程度副词和否定词等进行整理,通过知网(HowNet)获取构建用户自定义情感词典的情感词。
可以理解地,将训练用户评论存放在已知特征文本特征集合中,在步骤S61之前,还包括判断已知特征文本特征集合是否为空集;若为空集,则结束执行程序;若不为空集,则执行该用户评论文本挖掘方法的步骤S61。
S62:对训练词语集合和训练词性集合进行文本句法分析,获取训练词语集合中每一训练词语对应的句法结构。
即将训练词语集合和训练词性集合作为文本句法分析的输入数据,将训练词语集合中每一训练词语与其之前或之后的其他训练词语进行组合,以形成该训练词语对应的句法结构,该句法结构一般用英文字母表示,如主谓结构为“SBV”。可以理解地,文本句法分析可以采用哈工大的LTP及其开放接口实现。
S63:判断训练词性集合中是否存在情感词标注。
即判断训练词性集合中所有词性标注中是否包括情感词标注,以确定对应的训练词语集合中是否包含训练情感词,以便基于训练情感词构建对应的情感词-句法结构。
S64:若存在,则将与情感词标注相对应的训练情感词及其对应的句法结构存储在情感词-句法规则词典中。
即在训练词性集合中存在情感词标注,则将训练词语集合中与情感词标注相对应的训练词语作为训练情感词,并将该训练情感词与之前和之后的训练词语形成的句法结构构建情感词-句法结构,并将该情感词-句法结构存储在情感词-句法规则词典中,以便基于情感词-句法规则词典对训练用户评论进行特征提取。
S65:若不存在,则选取训练词性集合中形容词标注对应的训练词语作为候选情感词,判断候选情感词对应的句法结构是否为主谓结构;若是,则将候选情感词及其对应的主谓结构存储在情感词-句法规则词典中。
即在训练词性集合中不存在情感词标注,则判断训练词性集合中是否存在形容词标注;若存在形容词标注,则训练词语集合中包含形容词;若不存在形容词标注,则训练词语集合中不包含形容词,跳转到步骤S61中对下一训练用户评论进行数据预处理。具体地,在训练词性集合中不存在情感词标注时,判断训练词性集合中是否存在形容词标注,若存在,则将形容词标注对应的训练词语作为候选情感词。再判断候选情感词对应的句法结构是否为主谓结构;若是,则将候选情感词及其对应的主谓结构作为情感词-句法结构存储在情感词-句法规则词典中;若否,则跳转到步骤S61中对下一训练用户评论进行数据预处理。
本实施例中,情感词-句法规则词典的构建过程中,不仅将与用户自定义情感词典中的情感词及其对应的句法结构存储在情感词-句法规则词典中,还将训练词语集合中包含主谓结构的形容词作为情感词-句法结构存储在情感词-句法规则词典中,以使情感词-句法规则词典中存储的情感词-句法结构数量更多,内容更丰富,以便利用该情感词-句法规则词典对待分析用户评论进行分析时,提高分析的准确性。并且,该情感词-句法规则词典的构建过程中,人为干预较小,无需耗费大量的人力物力进行处理,以提高处理效率。
实施例2
对应于上文实施例1中的用户评论文本挖掘方法,图2示出本实施例中与实施例1所提供的用户评论文本挖掘方法一一对应的用户评论文本挖掘装置的结构框图。该用户评论文本挖掘装置能够实现实施例1中用户评论文本挖掘方法的细节,达到相同的技术效果,在此不一一赘述。如图2所示,该用户评论文本挖掘装置包括预处理模块10、情感词判断模块20、情感词获取模块30、初级特征提取模块40和深层特征提取模块50。
预处理模块10,用于对待分析用户评论进行数据预处理,获取对应的待分析词语集合和待分析词性集合;
情感词判断模块20,用于判断待分析词性集合中是否存在情感词标注;
情感词获取模块30,用于若存在,则基于情感词标注从待分析词语集合中获取待分析情感词集合,并获取与待分析情感词集合相对应的待分析句法结构集合;
初级特征提取模块40,用于采用预设的情感词-句法规则词典对待分析情感词集合和待分析句法结构集合进行特征提取,获取初级特征提取结果;
深层特征提取模块50,用于对初级特征提取结果进行情感极性分类,获取深层特征提取结果。
优选地,初级特征提取模块40包括情感词判断单元41、第一初级特征提取单元42和第二初级特征提取单元43。
情感词判断单元41,用于逐一判断待分析情感集合中的待分析情感词是否存在于情感词-句法规则词典中;
第一初级特征提取单元42,用于若存在,则从情感词-句法规则词典中获取与待分析情感词相对应的目标句法结构集合,将目标句法结构集合和待分析句法结构集合的交集作为初级特征提取结果;
第二初级特征提取单元43,用于若不存在,则判断待分析句法结构中是否包含预设句法规则,若存在,则基于预设句法规则对待分析情感集合中的待分析情感词进行特征提取,获取初级特征提取结果;其中,预设句法规则为情感词-句法规则词典中所有情感词中词频最高的句法规则。
优选地,该用户评论文本挖掘装置还包括词典获取模块60,用于获取情感词-句法规则词典;
词典获取模块60包括训练数据预处理单元61、文本句法分析单元62、训练情感词判断单元63、第一情感词存储单元64和第二情感词存储单元65。
训练数据预处理单元61,用于对训练用户评论进行数据预处理,获取对应的训练词语集合和训练词性集合;
文本句法分析单元62,用于对训练词语集合和训练词性集合进行文本句法分析,获取训练词语集合中每一训练词语对应的句法结构;
训练情感词判断单元63,用于判断训练词性集合中是否存在情感词标注;
第一情感词存储单元64,用于若存在,则将与情感词标注相对应的训练情感词及其对应的句法结构存储在情感词-句法规则词典中;
第二情感词存储单元65,用于若不存在,则选取训练词性集合中形容词标注对应的训练词语作为候选情感词,判断候选情感词对应的句法结构是否为主谓结构;若是,则将候选情感词及其对应的主谓结构存储在情感词-句法规则词典中。
优选地,数据预处理包括:对待分析用户评论或训练用户评论进行中文分词、词性标注和去停用词处理。
优选地,深层特征提取模块50,还用于采用基于情感词典的文本情感极性分类算法或基于支持向量的文本情感极性分类算法对初级特征提取结果进行情感极性分类,获取深层特征提取结果。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户评论文本挖掘方法,其特征在于,包括:
对待分析用户评论进行数据预处理,获取对应的待分析词语集合和待分析词性集合;
判断所述待分析词性集合中是否存在情感词标注;
若存在,则基于所述情感词标注从所述待分析词语集合中获取待分析情感词集合,并获取与所述待分析情感词集合相对应的待分析句法结构集合;
采用预设的情感词-句法规则词典对所述待分析情感词集合和所述待分析句法结构集合进行特征提取,获取初级特征提取结果;
对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果。
2.根据权利要求1所述的用户评论文本挖掘方法,其特征在于,所述采用预设的情感词-句法规则词典对所述待分析情感词集合和所述待分析句法结构集合进行特征提取,获取初级特征提取结果,包括:
逐一判断所述待分析情感集合中的待分析情感词是否存在于所述情感词-句法规则词典中;
若存在,则从所述情感词-句法规则词典中获取与所述待分析情感词相对应的目标句法结构集合,将所述目标句法结构集合和所述待分析句法结构集合的交集作为所述初级特征提取结果;
若不存在,则判断所述待分析句法结构中是否包含预设句法规则,若存在,则基于所述预设句法规则对所述待分析情感集合中的待分析情感词进行特征提取,获取所述初级特征提取结果;其中,所述预设句法规则为所述情感词-句法规则词典中所有情感词中词频最高的句法规则。
3.根据权利要求1所述的用户评论文本挖掘方法,其特征在于,还包括获取所述情感词-句法规则词典;
所述情感词-句法规则词典包括:
对训练用户评论进行数据预处理,获取对应的训练词语集合和训练词性集合;
对所述训练词语集合和所述训练词性集合进行文本句法分析,获取所述训练词语集合中每一训练词语对应的句法结构;
判断所述训练词性集合中是否存在情感词标注;
若存在,则将与所述情感词标注相对应的训练情感词及其对应的句法结构存储在所述情感词-句法规则词典中;
若不存在,则选取所述训练词性集合中形容词标注对应的训练词语作为候选情感词,判断所述候选情感词对应的句法结构是否为主谓结构;若是,则将所述候选情感词及其对应的主谓结构存储在所述情感词-句法规则词典中。
4.根据权利要求3所述的用户评论文本挖掘方法,其特征在于,所述数据预处理包括:对所述待分析用户评论或所述训练用户评论进行中文分词、词性标注和去停用词处理。
5.根据权利要求1所述的用户评论文本挖掘方法,其特征在于,所述对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果,包括:采用基于情感词典的文本情感极性分类算法或基于支持向量的文本情感极性分类算法对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果。
6.一种用户评论文本挖掘装置,其特征在于,包括:
预处理模块,用于对待分析用户评论进行数据预处理,获取对应的待分析词语集合和待分析词性集合;
情感词判断模块,用于判断所述待分析词性集合中是否存在情感词标注;
情感词获取模块,用于若存在,则基于所述情感词标注从所述待分析词语集合中获取待分析情感词集合,并获取与所述待分析情感词集合相对应的待分析句法结构集合;
初级特征提取模块,用于采用预设的情感词-句法规则词典对所述待分析情感词集合和所述待分析句法结构集合进行特征提取,获取初级特征提取结果;
深层特征提取模块,用于对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果。
7.根据权利要求6所述的用户评论文本挖掘装置,其特征在于,所述初级特征提取模块包括:
情感词判断单元,用于逐一判断所述待分析情感集合中的待分析情感词是否存在于所述情感词-句法规则词典中;
第一初级特征提取单元,用于若存在,则从所述情感词-句法规则词典中获取与所述待分析情感词相对应的目标句法结构集合,将所述目标句法结构集合和所述待分析句法结构集合的交集作为所述初级特征提取结果;
第二初级特征提取单元,用于若不存在,则判断所述待分析句法结构中是否包含预设句法规则,若存在,则基于所述预设句法规则对所述待分析情感集合中的待分析情感词进行特征提取,获取所述初级特征提取结果;其中,所述预设句法规则为所述情感词-句法规则词典中所有情感词中词频最高的句法规则。
8.根据权利要求6所述的用户评论文本挖掘装置,其特征在于,还包括词典获取模块,用于获取所述情感词-句法规则词典;
所述词典获取模块包括:
训练数据预处理单元,用于对训练用户评论进行数据预处理,获取对应的训练词语集合和训练词性集合;
文本句法分析单元,用于对所述训练词语集合和所述训练词性集合进行文本句法分析,获取所述训练词语集合中每一训练词语对应的句法结构;
训练情感词判断单元,用于判断所述训练词性集合中是否存在情感词标注;
第一情感词存储单元,用于若存在,则将与所述情感词标注相对应的训练情感词及其对应的句法结构存储在所述情感词-句法规则词典中;
第二情感词存储单元,用于若不存在,则选取所述训练词性集合中形容词标注对应的训练词语作为候选情感词,判断所述候选情感词对应的句法结构是否为主谓结构;若是,则将所述候选情感词及其对应的主谓结构存储在所述情感词-句法规则词典中。
9.根据权利要求8所述的用户评论文本挖掘装置,其特征在于,所述数据预处理包括:对所述待分析用户评论或所述训练用户评论进行中文分词、词性标注和去停用词处理。
10.根据权利要求6所述的用户评论文本挖掘装置,其特征在于,所述深层特征提取模块,还用于采用基于情感词典的文本情感极性分类算法或基于支持向量的文本情感极性分类算法对所述初级特征提取结果进行情感极性分类,获取深层特征提取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611233341.9A CN106776574B (zh) | 2016-12-28 | 2016-12-28 | 用户评论文本挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611233341.9A CN106776574B (zh) | 2016-12-28 | 2016-12-28 | 用户评论文本挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106776574A true CN106776574A (zh) | 2017-05-31 |
CN106776574B CN106776574B (zh) | 2020-01-24 |
Family
ID=58922547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611233341.9A Active CN106776574B (zh) | 2016-12-28 | 2016-12-28 | 用户评论文本挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776574B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480257A (zh) * | 2017-08-14 | 2017-12-15 | 中国计量大学 | 基于模式匹配的产品特征提取方法 |
CN109543185A (zh) * | 2018-11-22 | 2019-03-29 | 联想(北京)有限公司 | 语句主题获取方法和装置 |
CN109657248A (zh) * | 2018-12-24 | 2019-04-19 | 出门问问信息科技有限公司 | 一种评论分析方法、装置、设备及存储介质 |
CN109800418A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 文本处理方法、装置和存储介质 |
CN110222181A (zh) * | 2019-06-06 | 2019-09-10 | 福州大学 | 一种基于Python的影评情感分析方法 |
CN110222965A (zh) * | 2019-05-28 | 2019-09-10 | 东华大学 | 基于ugc信息挖掘的在线面料供应商资质标准评分方法 |
CN110263344A (zh) * | 2019-06-25 | 2019-09-20 | 名创优品(横琴)企业管理有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
CN110399494A (zh) * | 2018-04-16 | 2019-11-01 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
WO2020016794A1 (en) * | 2018-07-18 | 2020-01-23 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
CN111126046A (zh) * | 2019-12-06 | 2020-05-08 | 腾讯云计算(北京)有限责任公司 | 语句特征的处理方法和装置、存储介质 |
CN111767725A (zh) * | 2020-06-24 | 2020-10-13 | 中国平安财产保险股份有限公司 | 一种基于情感极性分析模型的数据处理方法及装置 |
CN112417256A (zh) * | 2020-10-20 | 2021-02-26 | 中国环境科学研究院 | 一种基于互联网的自然保护地认知评价系统及方法 |
CN114757489A (zh) * | 2022-03-18 | 2022-07-15 | 国网电子商务有限公司 | 一种商业指标的生成方法及装置、电子设备、存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120259617A1 (en) * | 2011-04-07 | 2012-10-11 | Infosys Technologies, Ltd. | System and method for slang sentiment classification for opinion mining |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
-
2016
- 2016-12-28 CN CN201611233341.9A patent/CN106776574B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120259617A1 (en) * | 2011-04-07 | 2012-10-11 | Infosys Technologies, Ltd. | System and method for slang sentiment classification for opinion mining |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
Non-Patent Citations (1)
Title |
---|
万常选 等: "基于词性标注和依存句法的Web金融信息情感计算", 《计算机研究与发展》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480257A (zh) * | 2017-08-14 | 2017-12-15 | 中国计量大学 | 基于模式匹配的产品特征提取方法 |
CN110399494A (zh) * | 2018-04-16 | 2019-11-01 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
US10740381B2 (en) | 2018-07-18 | 2020-08-11 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
US11687579B2 (en) | 2018-07-18 | 2023-06-27 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
WO2020016794A1 (en) * | 2018-07-18 | 2020-01-23 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
CN109543185A (zh) * | 2018-11-22 | 2019-03-29 | 联想(北京)有限公司 | 语句主题获取方法和装置 |
CN109543185B (zh) * | 2018-11-22 | 2021-11-16 | 联想(北京)有限公司 | 语句主题获取方法和装置 |
CN109800418A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 文本处理方法、装置和存储介质 |
CN109800418B (zh) * | 2018-12-17 | 2023-05-05 | 北京百度网讯科技有限公司 | 文本处理方法、装置和存储介质 |
CN109657248A (zh) * | 2018-12-24 | 2019-04-19 | 出门问问信息科技有限公司 | 一种评论分析方法、装置、设备及存储介质 |
CN110222965A (zh) * | 2019-05-28 | 2019-09-10 | 东华大学 | 基于ugc信息挖掘的在线面料供应商资质标准评分方法 |
CN110222181B (zh) * | 2019-06-06 | 2021-08-31 | 福州大学 | 一种基于Python的影评情感分析方法 |
CN110222181A (zh) * | 2019-06-06 | 2019-09-10 | 福州大学 | 一种基于Python的影评情感分析方法 |
CN110263344B (zh) * | 2019-06-25 | 2022-04-19 | 创优数字科技(广东)有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
CN110263344A (zh) * | 2019-06-25 | 2019-09-20 | 名创优品(横琴)企业管理有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
CN111126046A (zh) * | 2019-12-06 | 2020-05-08 | 腾讯云计算(北京)有限责任公司 | 语句特征的处理方法和装置、存储介质 |
CN111126046B (zh) * | 2019-12-06 | 2023-07-14 | 腾讯云计算(北京)有限责任公司 | 语句特征的处理方法和装置、存储介质 |
CN111767725A (zh) * | 2020-06-24 | 2020-10-13 | 中国平安财产保险股份有限公司 | 一种基于情感极性分析模型的数据处理方法及装置 |
CN111767725B (zh) * | 2020-06-24 | 2023-06-20 | 中国平安财产保险股份有限公司 | 一种基于情感极性分析模型的数据处理方法及装置 |
CN112417256A (zh) * | 2020-10-20 | 2021-02-26 | 中国环境科学研究院 | 一种基于互联网的自然保护地认知评价系统及方法 |
CN112417256B (zh) * | 2020-10-20 | 2024-05-24 | 中国环境科学研究院 | 一种基于互联网的自然保护地认知评价系统及方法 |
CN114757489A (zh) * | 2022-03-18 | 2022-07-15 | 国网电子商务有限公司 | 一种商业指标的生成方法及装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106776574B (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776574A (zh) | 用户评论文本挖掘方法及装置 | |
CN107193805B (zh) | 基于人工智能的文章价值评估方法、装置及存储介质 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
CN108509409A (zh) | 一种自动生成语义相近句子样本的方法 | |
CN104778209A (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN101446943A (zh) | 一种中文处理中基于语义角色信息的指代消解方法 | |
Kaibi et al. | A comparative evaluation of word embeddings techniques for twitter sentiment analysis | |
CN101599071A (zh) | 对话文本主题的自动提取方法 | |
Jha et al. | Homs: Hindi opinion mining system | |
CN114912448B (zh) | 一种文本扩展方法、装置、设备及介质 | |
CN108038205A (zh) | 针对中文微博的观点分析原型系统 | |
CN105893606A (zh) | 文本分类方法和装置 | |
CN113407842B (zh) | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN110019776A (zh) | 文章分类方法及装置、存储介质 | |
CN109815485A (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
Djatmiko et al. | A review of sentiment analysis for non-English language | |
CN108763211A (zh) | 融合蕴含知识的自动文摘方法及系统 | |
CN107807920A (zh) | 基于大数据的情绪词典的构建方法、装置及服务器 | |
Golubev et al. | Transfer learning for improving results on Russian sentiment datasets | |
CN107169011A (zh) | 基于人工智能的网页原创性识别方法、装置及存储介质 | |
Bhattacharyya et al. | A review on natural language processing in opinion mining | |
Ogrodniczuk et al. | Rule-based coreference resolution module for Polish |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |