CN108197104A - 文本分析方法、装置及云平台 - Google Patents
文本分析方法、装置及云平台 Download PDFInfo
- Publication number
- CN108197104A CN108197104A CN201711452861.3A CN201711452861A CN108197104A CN 108197104 A CN108197104 A CN 108197104A CN 201711452861 A CN201711452861 A CN 201711452861A CN 108197104 A CN108197104 A CN 108197104A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- emotion
- analyzed
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本分析方法、装置及云平台,涉及云计算技术领域,该方法包括:获取目标领域的待分析文本数据,并获取目标词库,其中,目标词库包括目标领域的情感词语和/或对词语有修饰作用的修饰词语;通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值;根据情感倾向值确定待分析文本数据的情感倾向。本发明缓解了传统文本分析方法所存在的情感分析准确率较低的技术问题。
Description
技术领域
本发明涉及云计算技术领域,尤其是涉及一种文本分析方法、装置及云平台。
背景技术
我们已经身处大数据时代,而大数据的有效利用之路依旧任重道远。据统计,现今高达80%的网络数据均以文本、图像等非结构化的形式存在,每年因非结构化数据利用不足而造成的损失中,仅世界500强公司就高达120亿美金。在此背景下,对网络文本进行情感分析,抽取网络文本中有价值的情感信息,对信息检索、电子商务、网络舆情预警等有重要意义。
纵观目前的研究现状,情感分析方法多为先抽取情感信息单元,然后将这些情感信息单元和通用情感词典中的情感词语进行匹配得出情感信息,其中,情感信息单元多为评价词语(如优秀、好用)、评价对象(如景区、电脑)等。由于情感词典为通用的词典,对于特定领域的网络文本进行情感分析时,情感词典或存在包含情感词语不全面的问题,或存在词语情感倾向不准确的问题;此外,针对复合情感词的倾向性,存在缺乏量化分析的问题,上述两方面因素都会导致网络文本的情感分析准确度较低。
针对传统文本分析方法存在情感分析准确度较低的技术问题,目前缺乏有效的解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种文本分析方法、装置及云平台,以缓解传统文本分析方法所存在的情感分析准确度较低的技术问题。
第一方面,本发明实施例提供了一种文本分析方法,包括:
获取目标领域的待分析文本数据,并获取目标词库,其中,所述目标词库包括所述目标领域的情感词语和/或对词语有修饰作用的修饰词语;
通过所述目标词库对所述待分析文本数据进行情感分析,得到所述待分析文本数据的情感倾向值;
根据所述情感倾向值确定所述待分析文本数据的情感倾向。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述目标词库包括参考词语和所述参考词语的情感参考值,其中,所述参考词语包括情感词语和修饰词语,通过目标词库对所述待分析文本数据进行情感分析,得到所述待分析文本数据的情感倾向值,包括:
对所述待分析文本数据的子句进行分词处理,得到多个待分析词语;
将每个所述待分析词语和所述目标词库中的情感词语进行匹配,得到目标情感词,其中,所述目标情感词为所述目标词库中和所述待分析词语相匹配的情感词语;
根据所述目标情感词、所述目标词库中的修饰词语以及所述情感参考值,确定所述待分析文本数据的情感倾向值。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述目标词库中的情感词语包括正面情感词语和负面情感词语,将每个所述待分析词语和所述目标词库中的情感词语进行匹配,包括:
将每个所述待分析词语分别和所述目标词库中的正面情感词语和负面情感词语进行匹配,其中,
所述正面情感词语为表示正面情感意义的词语,所述负面情感词语为表示负面情感意义的词语。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述目标词库中的修饰词语的种类至少包括以下之一:程度副词、否定词、关联词,根据所述目标情感词、所述目标词库中的修饰词语以及所述情感参考值,确定所述待分析文本数据的情感倾向值,包括:
将目标待分析词语和所述目标词库中的修饰词语进行匹配,得到目标修饰词,其中,所述目标修饰词为所述目标词库中和所述目标待分析词语相匹配的修饰词语;
根据所述目标情感词、所述目标修饰词以及所述情感参考值确定所述待分析文本数据的情感倾向值,其中,
所述目标待分析词语为处于目标子句中的待分析词语,且所述目标待分析词语与所述目标情感词相匹配的待分析词语不同,所述目标子句为所述待分析文本数据中,所述目标情感词所在的子句。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,根据所述目标情感词、所述目标修饰词以及所述情感参考值确定所述待分析文本数据的情感倾向值,包括:
获取权重值和第一影响系数,其中,所述权重值为所述目标情感词的情感参考值,所述第一影响系数为根据所述目标修饰词的情感参考值所得到的系数;
计算所述权重值和所述第一影响系数的乘积,并将所述乘积确定为情感倾向子值,从而得到多个所述情感倾向子值,其中,一个所述目标情感词关联有一个所述情感倾向子值;
计算多个所述情感倾向子值的总和,并将所述总和确定为所述待分析文本数据的情感倾向值。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述目标词库中的修饰词语的种类包括否定词,在所述目标修饰词为所述目标词库中和所述目标待分析词语相匹配的否定词的情况下,获取权重值和第一影响系数,包括:
计算所述目标修饰词的数量,得到目标计数值;
判断所述目标计数值是0、奇数或者大于0的偶数,其中,在所述目标计数值为0的情况下,将第一数值确定为所述第一影响系数,以使所述目标情感词的情感倾向保持不变;在所述目标计数值为奇数的情况下,将第二数值确定为所述第一影响系数,以对所述目标情感词的情感倾向进行反转;在所述目标计数值为大于0的偶数的情况下,将第三数值确定为所述第一影响系数,以使所述目标情感词的情感程度增强。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:
获取样本数据和所述样本数据的初始情感倾向,其中,所述样本数据属于所述目标领域,所述初始情感倾向为所述样本数据的正确情感倾向;
通过所述目标词库对所述样本数据进行情感分析,得到所述样本数据的被测情感倾向;
根据所述被测情感倾向和初始情感倾向的相似程度,对所述目标词库进行改进。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,根据所述情感倾向值确定所述待分析文本数据的情感倾向,包括:
获取预设数值范围;
将所述情感倾向值分别与所述预设数值范围的极大值和极小值进行比较,得到比较结果;
根据所述比较结果确定所述待分析文本数据的情感倾向。
第二方面,本发明实施例还提供一种文本分析装置,包括:
获取模块,用于获取目标领域的待分析文本数据,并获取目标词库,其中,所述目标词库包括所述目标领域的情感词语和/或对词语有修饰作用的修饰词语;
分析模块,用于通过所述目标词库对所述待分析文本数据进行情感分析,得到所述待分析文本数据的情感倾向值;
确定模块,用于根据所述情感倾向值确定所述待分析文本数据的情感倾向。
第三方面,本发明实施例还提供一种云平台,所述云平台包括数据获取单元、数据处理单元和数据存储单元,所述数据处理单元分别和所述数据获取单元、所述数据存储单元连接,其中,
所述数据获取单元用于获取目标领域的待分析文本数据;
所述数据存储单元用于存储目标词库;
所述数据处理单元用于获取所述待分析文本数据和所述目标词库,并通过执行第一方面所述的文本分析方法对所述待分析文本数据进行情感分析,得到所述待分析文本数据的情感倾向。
本发明实施例带来了以下有益效果:
本发明提供的文本分析方法包括:获取目标领域的待分析文本数据,并获取目标词库,其中,目标词库包括目标领域的情感词语和/或对词语有修饰作用的修饰词语;通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值;根据情感倾向值确定待分析文本数据的情感倾向。
其中,在目标词库包括目标领域的情感词语的情况下,通过目标词库对待分析文本数据进行情感分析,更具针对性,缓解了通用情感词典所存在的情感词语不全面和词语情感倾向不准确的问题;在目标词库包括对词语有修饰作用的修饰词语的情况下,结合目前的通用情感词典和目标词库中的修饰词语对待分析文本数据进行情感分析,有利于精确得到复合情感词的情感倾向性。相较于传统文本分析方法,本发明提供的文本分析方法在情感倾向性的精确度方面具有较大改进,缓解了传统文本分析方法所存在的情感分析准确度较低的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种文本分析方法的流程图;
图2为本发明实施例一提供的一种通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值的方法流程图;
图3为本发明实施例一提供的另一种文本分析方法的流程图;
图4为发明实施例二提供的一种文本分析装置的结构框图;
图5为发明实施例二提供的另一种文本分析装置的结构框图;
图6为发明实施例三提供的一种云平台的结构框图。
图标:100-获取模块;200-分析模块;300-确定模块;400-改进模块;1-数据获取单元;2-数据处理单元;3-数据存储单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,情感分析方法多为先抽取情感信息单元,然后将这些情感信息单元和通用情感词典中的情感词语进行匹配得出情感信息,由于情感词典为通用的词典,对于特定领域的网络文本进行情感分析时,情感词典或存在包含情感词语不全面的问题,或存在词语情感倾向不准确的问题;此外,针对复合情感词的倾向性,存在缺乏量化分析的问题,上述两方面因素都会导致网络文本的情感分析准确度较低。基于此,本发明实施例提供的一种文本分析方法、装置及云平台,可以缓解传统文本分析方法所存在的情感分析准确度较低的技术问题。
实施例一
本发明实施例提供的一种文本分析方法,如图1所示,包括:
步骤S102,获取目标领域的待分析文本数据,并获取目标词库,其中,目标词库包括目标领域的情感词语和/或对词语有修饰作用的修饰词语;
步骤S104,通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值;
步骤S106,根据情感倾向值确定待分析文本数据的情感倾向。
具体地,目标领域可以为旅游领域、美食领域、教育领域等,这里不作具体限定,该文本分析方法可以应用于对任一领域的待分析文本数据进行情感分析。
需要说明的是,通过目标词库对待分析文本数据进行情感分析,可以采用先抽取情感信息单元,然后将这些情感信息单元和目标词库中的情感词语进行匹配得出情感倾向值的传统方法。进一步,可以根据目标情感信息单元的数量来确定情感倾向值,这里目标情感信息单元为待分析文本数据中匹配到情感词语和/或修饰词语的词语。例如,将情感信息单元和表示赞美的多个情感词语进行匹配,得到目标情感信息单元,则目标情感信息单元越多,情感倾向值越大,表示待分析文本数据获得的赞美越高。再例如,将情感信息单元和表示对赞美词语加强语气的修饰词语进行匹配,得到目标情感信息单元,则目标情感信息单元越多,情感倾向值越大,表示待分析文本数据获得的赞美越高。这里对通过目标词库对待分析文本数据进行情感分析的具体实施方式先不做限定。
在本发明实施例中,在目标词库包括目标领域的情感词语的情况下,通过目标词库对待分析文本数据进行情感分析,更具针对性,缓解了通用情感词典所存在的情感词语不全面和词语情感倾向不准确的问题;在目标词库包括对词语有修饰作用的修饰词语的情况下,结合目前的通用情感词典和目标词库中的修饰词语对待分析文本数据进行情感分析,有利于精确得到复合情感词的情感倾向性。相较于传统文本分析方法,本发明提供的文本分析方法在情感倾向性的精确度方面具有较大改进,缓解了传统文本分析方法所存在的情感分析准确度较低的技术问题。
下面对步骤S104,通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值,进行详细说明:
参见图2,本发明实施例的一个可选实施方式中,目标词库包括参考词语和参考词语的情感参考值,其中,参考词语包括情感词语和修饰词语,步骤S104,通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值,包括:
步骤S201,对待分析文本数据的子句进行分词处理,得到多个待分析词语;
步骤S202,将每个待分析词语和目标词库中的情感词语进行匹配,得到目标情感词,其中,目标情感词为目标词库中和待分析词语相匹配的情感词语;
步骤S203,根据目标情感词、目标词库中的修饰词语以及情感参考值,确定待分析文本数据的情感倾向值。
关于情感词语和修饰词语,介绍如下:
(一)关于情感词语
本发明实施例的另一个可选实施方式中,目标词库中的情感词语包括正面情感词语和负面情感词语,将每个待分析词语和目标词库中的情感词语进行匹配,包括:
将每个待分析词语分别和目标词库中的正面情感词语和负面情感词语进行匹配,其中,
正面情感词语为表示正面情感意义的词语,负面情感词语为表示负面情感意义的词语。
具体地,正面情感词语表示正面情感意义,即表示对一件事物的喜爱、赞同等正面情感,从词语色彩上来描述多为褒义词;负面情感词语表示负面情感意义,即表示对一件事物的讨厌、反对等负面情感,从词语色彩上来描述多为贬义词。需要强调的是,正面情感词语和负面情感词语不仅包括形容词,例如,“高兴”、“美好”、“漂亮”等;还包括名词,例如,“混蛋”、“恶棍”等。
对于参考词语的情感参考值,可以作如下规定:正面情感词语的情感参考值为正数,负面情感词语的情感参考值为负数。
详细地,可以根据正面情感词语的正面情感的强烈程度,对不同的正面情感词语赋予不同的情感参考值,例如赋予大于0到不大于1之间的数值,其中,正面情感词语的正面情感越强烈,情感参考值越接近1;同样,可以根据负面情感词语的负面情感的强烈程度,对不同的负面情感词语赋予不同的情感参考值,例如赋予小于0到不小于-1之间的数值,其中,负面情感词语的负面情感越强烈,情感参考值越接近-1。例如,相比于“喜欢”,“爱”的情感参考值较接近于1。进一步,还可以根据情感词语和目标领域的相关度,对不同的情感词语赋予不同的情感参考值,例如,对于旅游业来说,相比于导游车运行迅速来说,玩得愉快更是吸引游客的特点,因而,相比于“迅速”,“愉快”具有更大的正面情感的相关性,故,和“迅速”相比,“愉快”的情感参考值较接近于1。
需要说明的是,对情感词语的情感参考值划分越细致,越有利于情感分析结果的明确化;但为了降低目标词库制定的工作量以及提升情感分析时计算的速度,情感参考值的设定也可以分为不同的等级,例如,对于正向情感词语,设置0.1、0.5、0.8三个等级的情感参考值。
(二)关于修饰词语
本发明实施例的另一个可选实施方式中,目标词库中的修饰词语的种类至少包括以下之一:程度副词、否定词、关联词,根据目标情感词、目标词库中的修饰词语以及情感参考值,确定待分析文本数据的情感倾向值,包括:
将目标待分析词语和目标词库中的修饰词语进行匹配,得到目标修饰词,其中,目标修饰词为目标词库中和目标待分析词语相匹配的修饰词语;
根据目标情感词、目标修饰词以及情感参考值确定待分析文本数据的情感倾向值,其中,
目标待分析词语为处于目标子句中的待分析词语,且目标待分析词语与目标情感词相匹配的待分析词语不同,目标子句为待分析文本数据中,目标情感词所在的子句。
需要说明的是,程度副词为对词语的程度进行修饰的副词,例如“很”、“非常”。否定词为对词语的词义进行否定的词,包括表示否定意义的连词以及表示否定意义的动词,其中,表示否定意义的连词,例如有,非”、“不是”、“没有”、“并不是”等;表示否定意义的动词,例如有,“缺乏”。关联词为和词语在语义和文本逻辑上有关联的词,其中,和词语在语义上有关联的词,包括同义词或反义词,例如,“漂亮”的关联词有“美丽”,“漂亮”的关联词还有“丑陋”;而和词语在文本逻辑上有关联的词,包括对词语表赞同的词以及对词语进行深入强调的词,例如,“赞”、“顶”等表赞同的词,“进一步”表深入强调的词。
本发明实施例的另一个可选实施方式中,步骤S203,根据目标情感词、目标修饰词以及情感参考值确定待分析文本数据的情感倾向值,包括:
获取权重值和第一影响系数,其中,权重值为目标情感词的情感参考值,第一影响系数为根据目标修饰词的情感参考值所得到的系数;
计算权重值和第一影响系数的乘积,并将乘积确定为情感倾向子值,从而得到多个情感倾向子值,其中,一个目标情感词关联有一个情感倾向子值;
计算多个情感倾向子值的总和,并将总和确定为待分析文本数据的情感倾向值。
具体地,在目标词库中参考词包括情感词语和修饰词语,而修饰词语的种类同时包括程度副词、否定词、关联词的情况下,根据目标情感词、目标修饰词以及情感参考值确定待分析文本数据的情感倾向值,通过以下步骤进行实施:
a、将待分析文本数据d按标点符号分成多个子句,利用IKAnalyzer中文分词器对子句进行智能分词,得到待分析词语;
b、将每个子句中的待分析词语和目标词库中的情感词语进行匹配,其中,若匹配失败,则对下一子句进行匹配;若匹配成功,则进行步骤c,直至所有子句匹配完成;
c、从目标情感词的位置开始遍历目标子句,将目标待分析词语和目标词库中的程度副词进行匹配,若匹配到程度副词,则获取所匹配到程度副词的情感参考值α;
e、从目标情感词的位置开始遍历目标子句,将目标待分析词语和目标词库中的否定词进行匹配,若匹配到否定词,则获取所匹配到否定词的情感参考值β。
f、从目标情感词的位置开始遍历目标子句,将目标待分析词语和目标词库中的关联词进行匹配,若匹配到关联词,则获取所匹配到关联词的情感参考值θ;
g、根据如下公式计算待分析文本数据d的情感倾向值:其中,n为待分析文本数据d中目标情感词语的数量,Ori(w)为目标情感词语的情感参考值。
需要说明的是,所匹配到程度副词的情感参考值α以及所匹配到关联词的情感参考值θ的确定,可以直接使用目标词库中存储的相应情感参考值即可,而所匹配到否定词的情感参考值β可以采用如下方式:
即,目标词库中的修饰词语的种类包括否定词,在目标修饰词为目标词库中和目标待分析词语相匹配的否定词的情况下,获取权重值和第一影响系数,包括:
计算目标修饰词的数量,得到目标计数值;
判断目标计数值是0、奇数或者大于0的偶数,其中,在目标计数值为0的情况下,将第一数值确定为第一影响系数,以使目标情感词的情感倾向保持不变;在目标计数值为奇数的情况下,将第二数值确定为第一影响系数,以对目标情感词的情感倾向进行反转;在目标计数值为大于0的偶数的情况下,将第三数值确定为第一影响系数,以使目标情感词的情感程度增强。
具体地,第一数值可以为1,以使目标情感词的情感倾向保持不变;第二数值可以为-1,以对目标情感词的情感倾向进行反转;第三数值可以为2,以使目标情感词的情感程度增强。进一步,在目标计数值为奇数的情况下,如果目标修饰词包括否定词和程度副词,其中,在否定词和程度副词所组短语弱化否定的情况下,第一影响系数的绝对值减小;在否定词和程度副词所组短语强化否定情况下,第一影响系数的绝对值增大。
本发明实施例的另一个可选实施方式中,步骤S106,根据情感倾向值确定待分析文本数据的情感倾向,包括:
获取预设数值范围;
将情感倾向值分别与预设数值范围的极大值和极小值进行比较,得到比较结果;
根据比较结果确定待分析文本数据的情感倾向。
需要强调的是,预设数值范围可以是包括多个数值,例如5-10这样一个跨度,将情感倾向值分别与5、10进行比较,判断情感倾向值是不大于5,还是大于5且小于10,或者不小于10,从而确定三个不同的情感倾向种类。预设数值范围也可以是一个数值,例如0,此时,预设数值范围的极大值和极小值皆为0,将情感倾向值和0进行比较,判断情感倾向值是小于0,还是等于0,或者大于0,从而确定三个不同的情感倾向种类。例如小于0表示差评(即表示负面情感倾向),等于0表示中评,大于0表示好评(即表示正面情感倾向)。
进一步,还可以根据情感倾向值的表示意义来对情感倾向进行更细致的分析,例如,在情感倾向值越大表示正面情感越强烈的情况下,可以根据情感倾向值的大小来对情感倾向的类别(例如,正面情感、负面情感或中立)和相应情感倾向类别的强烈程度进行详细分析。
本发明实施例通过情感倾向值对待分析文本数据的情感倾向进行了量化确定,情感倾向性更加明确,情感分析结果更加精确。
本发明实施例的另一个可选实施方式中,参照图3,在获取目标词库之前,文本分析方法还包括:
步骤S107,获取样本数据和样本数据的初始情感倾向,其中,样本数据属于目标领域,初始情感倾向为样本数据的正确情感倾向;
步骤S108,通过目标词库对样本数据进行情感分析,得到样本数据的被测情感倾向;
步骤S109,根据被测情感倾向和初始情感倾向的相似程度,对目标词库进行改进。
具体地,对目标词库进行改进包括对目标词库进行修正和扩充,其中,修正至少包括以下一种:对对目标词库中情感词语的字词修正、对情感词语的情感参考值的修正;扩充至少包括:向目标词库中增添新的情感词语。
本发明实施例提供了一种对目标词库进行改进的实施方式,有利于目标词库的更新,使得目标词库收录更接近目标领域评价方面的词语,从而有利于对文本进行情感分析时的准确程度。
实施例二
如图4和图5所示,本发明实施例提供的一种文本分析装置。
参照图4,该文本分析装置包括:
获取模块100,用于获取目标领域的待分析文本数据,并获取目标词库,其中,目标词库包括目标领域的情感词语和/或对词语有修饰作用的修饰词语;
分析模块200,用于通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值;
确定模块300,用于根据情感倾向值确定待分析文本数据的情感倾向。
在本发明实施例中,获取模块100获取目标领域的待分析文本数据,并获取目标词库,其中,目标词库包括目标领域的情感词语和/或对词语有修饰作用的修饰词语;分析模块200通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值;确定模块300根据情感倾向值确定待分析文本数据的情感倾向。其中,在目标词库包括目标领域的情感词语的情况下,通过目标词库对待分析文本数据进行情感分析,更具针对性,缓解了通用情感词典所存在的情感词语不全面和词语情感倾向不准确的问题;在目标词库包括对词语有修饰作用的修饰词语的情况下,结合目前的通用情感词典和目标词库中的修饰词语对待分析文本数据进行情感分析,有利于精确得到复合情感词的情感倾向性。相较于传统文本分析方法,本发明提供的文本分析方法在情感倾向性的精确度方面具有较大改进,缓解了传统文本分析方法所存在的情感分析准确度较低的技术问题。
本发明实施例的一个可选实施方式中,目标词库包括参考词语和参考词语的情感参考值,其中,参考词语包括情感词语和修饰词语,分析模块200包括:
分词子模块,用于对待分析文本数据的子句进行分词处理,得到多个待分析词语;
匹配子模块,用于将每个待分析词语和目标词库中的情感词语进行匹配,得到目标情感词,其中,目标情感词为目标词库中和待分析词语相匹配的情感词语;
确定子模块,用于根据目标情感词、目标词库中的修饰词语以及情感参考值,确定待分析文本数据的情感倾向值。
本发明实施例的另一个可选实施方式中,目标词库中的情感词语包括正面情感词语和负面情感词语,匹配子模块用于:
将每个待分析词语分别和目标词库中的正面情感词语和负面情感词语进行匹配,其中,
正面情感词语为表示正面情感意义的词语,负面情感词语为表示负面情感意义的词语。
本发明实施例的另一个可选实施方式中,目标词库中的修饰词语的种类至少包括以下之一:程度副词、否定词、关联词,确定子模块用于:
将目标待分析词语和目标词库中的修饰词语进行匹配,得到目标修饰词,其中,目标修饰词为目标词库中和目标待分析词语相匹配的修饰词语;
根据目标情感词、目标修饰词以及情感参考值确定待分析文本数据的情感倾向值,其中,
目标待分析词语为处于目标子句中的待分析词语,且目标待分析词语与目标情感词相匹配的待分析词语不同,目标子句为待分析文本数据中,目标情感词所在的子句。
本发明实施例的另一个可选实施方式中,确定子模块用于:获取权重值和第一影响系数,其中,权重值为目标情感词的情感参考值,第一影响系数为根据目标修饰词的情感参考值所得到的系数;
计算权重值和第一影响系数的乘积,并将乘积确定为情感倾向子值,从而得到多个情感倾向子值,其中,一个目标情感词关联有一个情感倾向子值;
计算多个情感倾向子值的总和,并将总和确定为待分析文本数据的情感倾向值。
本发明实施例的另一个可选实施方式中,确定子模块用于:计算目标修饰词的数量,得到目标计数值;
判断目标计数值是0、奇数或者大于0的偶数,其中,在目标计数值为0的情况下,将第一数值确定为第一影响系数,以使目标情感词的情感倾向保持不变;在目标计数值为奇数的情况下,将第二数值确定为第一影响系数,以对目标情感词的情感倾向进行反转;在目标计数值为大于0的偶数的情况下,将第三数值确定为第一影响系数,以使目标情感词的情感程度增强。
本发明实施例的另一个可选实施方式中,参照图5,文本分析装置还包括:改进模块400,改进模块400用于:
获取样本数据和样本数据的初始情感倾向,其中,样本数据属于目标领域,初始情感倾向为样本数据的正确情感倾向;
通过目标词库对样本数据进行情感分析,得到样本数据的被测情感倾向;
根据被测情感倾向和初始情感倾向的相似程度,对目标词库进行改进。
本发明实施例的另一个可选实施方式中,确定模块300用于:
获取预设数值范围;
将情感倾向值分别与预设数值范围的极大值和极小值进行比较,得到比较结果;
根据比较结果确定待分析文本数据的情感倾向。
实施例三
本发明实施例提供一种云平台,如图6所示,云平台包括数据获取单元1、数据处理单元2和数据存储单元3,数据处理单元2分别和数据获取单元1、数据存储单元3连接,其中,
数据获取单元1用于获取目标领域的待分析文本数据;
数据存储单元3用于存储目标词库;
数据处理单元2用于获取待分析文本数据和目标词库,并通过执行实施例一的文本分析方法对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向。
本发明实施例中,数据处理单元2执行实施例一的文本分析方法,即,获取目标领域的待分析文本数据,并获取目标词库,其中,目标词库包括目标领域的情感词语和/或对词语有修饰作用的修饰词语;通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值;根据情感倾向值确定待分析文本数据的情感倾向。其中,在目标词库包括目标领域的情感词语的情况下,通过目标词库对待分析文本数据进行情感分析,更具针对性,缓解了通用情感词典所存在的情感词语不全面和词语情感倾向不准确的问题;在目标词库包括对词语有修饰作用的修饰词语的情况下,结合目前的通用情感词典和目标词库中的修饰词语对待分析文本数据进行情感分析,有利于精确得到复合情感词的情感倾向性。因而,本发明提供的云平台在对文本数据处理方面具有更好的精确度,缓解了云平台使用传统文本分析方法进行情感分析时所存在的准确度较低的技术问题。
近年来,随着人们生活水平的提高,旅游逐渐盛行,在当前这个网络环境下,旅游业的许多工作都是在网上进行,其中,有利于景区改进的游客评论就是通过网络渠道收集。然而,景区管理方常常遇到景区评价“多,散,乱”的问题,其中,“多”指的是评价数量相当多,“散”指的是分散于各个在线旅游社(Online Travel Agent,简称ota)网站,“乱”指的有两方面:第一方面评价的排列顺序很乱,并非是最新一条评价放在第一页第一个位置;第二方面指的是评价的得分很乱,经常会出现打满分的评价其实是一条负面评价的情况。景区评价“多,散,乱”的问题使得景区管理方想要整理出游客对景区的喜好态度变得很麻烦。
针对此问题,则可以给数据获取单元1布置多台服务器,多台服务器用于同时迅速抓取各个ota网站上的评价,并将抓取到的景区评论按时间顺序排列,然后将排列了的景区评论作为旅游行业的待分析文本数据。数据存储单元3存储有旅游行业的目标词库,数据处理单元2获取待分析文本数据和目标词库,并通过执行实施例一的文本分析方法对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向,即实现了对景区评论进行情感倾向确定的目的,景区管理方根据景区评论的情感倾向即可了解当前游客对景区的喜好态度,以便进行相应的景区改进或旅游策略制定。
对于数据存储单元3所存储的旅游行业的目标词库,可以通过以下方式确定:先将知网的情感词库HowNet与大连理工词汇本体合并并去掉重复部分;然后,以对西湖景区的5000条评论和对溪口景区的5000条评论作为样本进行验证性测试,根据测试过程中发现的对情感倾向影响较大的词对目标词库进行修正与扩充,并将修正与扩充后的目标词库确定为数据处理单元2用以进行情感分析的词库。
实施例四
本发明实施例提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行实施例一中的方法。
具体地,存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例中,程序代码使处理器执行实施例一的文本分析方法,即,获取目标领域的待分析文本数据,并获取目标词库,其中,目标词库包括目标领域的情感词语和/或对词语有修饰作用的修饰词语;通过目标词库对待分析文本数据进行情感分析,得到待分析文本数据的情感倾向值;根据情感倾向值确定待分析文本数据的情感倾向。
其中,在目标词库包括目标领域的情感词语的情况下,通过目标词库对待分析文本数据进行情感分析,更具针对性,缓解了通用情感词典所存在的情感词语不全面和词语情感倾向不准确的问题;在目标词库包括对词语有修饰作用的修饰词语的情况下,结合目前的通用情感词典和目标词库中的修饰词语对待分析文本数据进行情感分析,有利于精确得到复合情感词的情感倾向性,从而缓解了传统文本分析方法所存在的情感分析准确度较低的技术问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种文本分析方法,其特征在于,包括:
获取目标领域的待分析文本数据,并获取目标词库,其中,所述目标词库包括所述目标领域的情感词语和/或对词语有修饰作用的修饰词语;
通过所述目标词库对所述待分析文本数据进行情感分析,得到所述待分析文本数据的情感倾向值;
根据所述情感倾向值确定所述待分析文本数据的情感倾向。
2.根据权利要求1所述的方法,其特征在于,所述目标词库包括参考词语和所述参考词语的情感参考值,其中,所述参考词语包括情感词语和修饰词语,通过目标词库对所述待分析文本数据进行情感分析,得到所述待分析文本数据的情感倾向值,包括:
对所述待分析文本数据的子句进行分词处理,得到多个待分析词语;
将每个所述待分析词语和所述目标词库中的情感词语进行匹配,得到目标情感词,其中,所述目标情感词为所述目标词库中和所述待分析词语相匹配的情感词语;
根据所述目标情感词、所述目标词库中的修饰词语以及所述情感参考值,确定所述待分析文本数据的情感倾向值。
3.根据权利要求2所述的方法,其特征在于,所述目标词库中的情感词语包括正面情感词语和负面情感词语,将每个所述待分析词语和所述目标词库中的情感词语进行匹配,包括:
将每个所述待分析词语分别和所述目标词库中的正面情感词语和负面情感词语进行匹配,其中,
所述正面情感词语为表示正面情感意义的词语,所述负面情感词语为表示负面情感意义的词语。
4.根据权利要求2所述的方法,其特征在于,所述目标词库中的修饰词语的种类至少包括以下之一:程度副词、否定词、关联词,根据所述目标情感词、所述目标词库中的修饰词语以及所述情感参考值,确定所述待分析文本数据的情感倾向值,包括:
将目标待分析词语和所述目标词库中的修饰词语进行匹配,得到目标修饰词,其中,所述目标修饰词为所述目标词库中和所述目标待分析词语相匹配的修饰词语;
根据所述目标情感词、所述目标修饰词以及所述情感参考值确定所述待分析文本数据的情感倾向值,其中,
所述目标待分析词语为处于目标子句中的待分析词语,且所述目标待分析词语与所述目标情感词相匹配的待分析词语不同,所述目标子句为所述待分析文本数据中,所述目标情感词所在的子句。
5.根据权利要求4所述的方法,其特征在于,根据所述目标情感词、所述目标修饰词以及所述情感参考值确定所述待分析文本数据的情感倾向值,包括:
获取权重值和第一影响系数,其中,所述权重值为所述目标情感词的情感参考值,所述第一影响系数为根据所述目标修饰词的情感参考值所得到的系数;
计算所述权重值和所述第一影响系数的乘积,并将所述乘积确定为情感倾向子值,从而得到多个所述情感倾向子值,其中,一个所述目标情感词关联有一个所述情感倾向子值;
计算多个所述情感倾向子值的总和,并将所述总和确定为所述待分析文本数据的情感倾向值。
6.根据权利要求5所述的方法,其特征在于,所述目标词库中的修饰词语的种类包括否定词,在所述目标修饰词为所述目标词库中和所述目标待分析词语相匹配的否定词的情况下,获取权重值和第一影响系数,包括:
计算所述目标修饰词的数量,得到目标计数值;
判断所述目标计数值是0、奇数或者大于0的偶数,其中,在所述目标计数值为0的情况下,将第一数值确定为所述第一影响系数,以使所述目标情感词的情感倾向保持不变;在所述目标计数值为奇数的情况下,将第二数值确定为所述第一影响系数,以对所述目标情感词的情感倾向进行反转;在所述目标计数值为大于0的偶数的情况下,将第三数值确定为所述第一影响系数,以使所述目标情感词的情感程度增强。
7.根据权利要求1所述的方法,其特征在于,在获取目标词库之前,所述方法还包括:
获取样本数据和所述样本数据的初始情感倾向,其中,所述样本数据属于所述目标领域,所述初始情感倾向为所述样本数据的正确情感倾向;
通过所述目标词库对所述样本数据进行情感分析,得到所述样本数据的被测情感倾向;
根据所述被测情感倾向和初始情感倾向的相似程度,对所述目标词库进行改进。
8.根据权利要求1所述的方法,其特征在于,根据所述情感倾向值确定所述待分析文本数据的情感倾向,包括:
获取预设数值范围;
将所述情感倾向值分别与所述预设数值范围的极大值和极小值进行比较,得到比较结果;
根据所述比较结果确定所述待分析文本数据的情感倾向。
9.一种文本分析装置,其特征在于,包括:
获取模块,用于获取目标领域的待分析文本数据,并获取目标词库,其中,所述目标词库包括所述目标领域的情感词语和/或对词语有修饰作用的修饰词语;
分析模块,用于通过所述目标词库对所述待分析文本数据进行情感分析,得到所述待分析文本数据的情感倾向值;
确定模块,用于根据所述情感倾向值确定所述待分析文本数据的情感倾向。
10.一种云平台,其特征在于,所述云平台包括数据获取单元、数据处理单元和数据存储单元,所述数据处理单元分别和所述数据获取单元、所述数据存储单元连接,其中,
所述数据获取单元用于获取目标领域的待分析文本数据;
所述数据存储单元用于存储目标词库;
所述数据处理单元用于获取所述待分析文本数据和所述目标词库,并通过执行权利要求1-8中任一项所述的文本分析方法对所述待分析文本数据进行情感分析,得到所述待分析文本数据的情感倾向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711452861.3A CN108197104A (zh) | 2017-12-27 | 2017-12-27 | 文本分析方法、装置及云平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711452861.3A CN108197104A (zh) | 2017-12-27 | 2017-12-27 | 文本分析方法、装置及云平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108197104A true CN108197104A (zh) | 2018-06-22 |
Family
ID=62584834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711452861.3A Pending CN108197104A (zh) | 2017-12-27 | 2017-12-27 | 文本分析方法、装置及云平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197104A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096597A (zh) * | 2019-03-22 | 2019-08-06 | 同济大学 | 一种结合情感强度的文本tf-idf特征重构法 |
CN110516249A (zh) * | 2019-08-29 | 2019-11-29 | 新华三信息安全技术有限公司 | 一种情感倾向信息获得方法及装置 |
CN111128189A (zh) * | 2019-12-30 | 2020-05-08 | 秒针信息技术有限公司 | 警示信息的提示方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002041191A1 (en) * | 2000-11-15 | 2002-05-23 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
CN105138506A (zh) * | 2015-07-09 | 2015-12-09 | 天云融创数据科技(北京)有限公司 | 一种金融文本情感分析方法 |
CN105843796A (zh) * | 2016-03-28 | 2016-08-10 | 北京邮电大学 | 一种微博情感倾向分析方法及装置 |
CN106547924A (zh) * | 2016-12-09 | 2017-03-29 | 东软集团股份有限公司 | 文本信息的情感分析方法及装置 |
-
2017
- 2017-12-27 CN CN201711452861.3A patent/CN108197104A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002041191A1 (en) * | 2000-11-15 | 2002-05-23 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
CN105138506A (zh) * | 2015-07-09 | 2015-12-09 | 天云融创数据科技(北京)有限公司 | 一种金融文本情感分析方法 |
CN105843796A (zh) * | 2016-03-28 | 2016-08-10 | 北京邮电大学 | 一种微博情感倾向分析方法及装置 |
CN106547924A (zh) * | 2016-12-09 | 2017-03-29 | 东软集团股份有限公司 | 文本信息的情感分析方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096597A (zh) * | 2019-03-22 | 2019-08-06 | 同济大学 | 一种结合情感强度的文本tf-idf特征重构法 |
CN110516249A (zh) * | 2019-08-29 | 2019-11-29 | 新华三信息安全技术有限公司 | 一种情感倾向信息获得方法及装置 |
CN111128189A (zh) * | 2019-12-30 | 2020-05-08 | 秒针信息技术有限公司 | 警示信息的提示方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408642B (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN103514213B (zh) | 词语提取方法及装置 | |
CN106095996A (zh) | 用于文本分类的方法 | |
CN103678278A (zh) | 一种中文文本情感识别方法 | |
CN105022725A (zh) | 一种应用于金融Web领域的文本情感倾向分析方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110232112B (zh) | 文章中关键词提取方法及装置 | |
CN102081602B (zh) | 确定未登录词的类别的方法和设备 | |
CN107609132A (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN109299480A (zh) | 基于上下文语境的术语翻译方法及装置 | |
Rohini et al. | Domain based sentiment analysis in regional Language-Kannada using machine learning algorithm | |
CN103123633A (zh) | 评价参数的生成方法以及基于评价参数的信息搜索方法 | |
CN105279277A (zh) | 知识数据的处理方法和装置 | |
CN103744953A (zh) | 一种基于中文文本情感识别的网络热点挖掘方法 | |
Jha et al. | Homs: Hindi opinion mining system | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN103995853A (zh) | 基于关键句的多语言情感数据处理分类方法及系统 | |
CN108197104A (zh) | 文本分析方法、装置及云平台 | |
CN111159342A (zh) | 一种基于机器学习的公园文本评论情绪打分方法 | |
CN105912522A (zh) | 基于成分分析的英语语料自动提取方法和提取器 | |
Hasan et al. | Sentiment classification in bangla textual content: A comparative study | |
Patel et al. | Hybrid stemmer for Gujarati | |
CN110489559A (zh) | 一种文本分类方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |