CN107908782A - 一种基于情感分析的数据处理方法和装置 - Google Patents
一种基于情感分析的数据处理方法和装置 Download PDFInfo
- Publication number
- CN107908782A CN107908782A CN201711277819.2A CN201711277819A CN107908782A CN 107908782 A CN107908782 A CN 107908782A CN 201711277819 A CN201711277819 A CN 201711277819A CN 107908782 A CN107908782 A CN 107908782A
- Authority
- CN
- China
- Prior art keywords
- emotion
- obtaining
- weight
- learning machine
- word set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 91
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 230000008451 emotion Effects 0.000 claims abstract description 300
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于情感分析的数据处理方法和装置,涉及计算机技术领域,所述方法包括:获得原始文本数据库,所述原始文本数据库中包含文本数据;获得情感分析词典;根据所述情感分析词典,获得第一情感权值;获得在线序列‑极限学习机模型;根据所述在线序列‑极限学习机模型,动态调整预测模型,获得第二情感权值;根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。达到了基于大数据平台,实现对海量文本进行准实时的情感分析处理的技术效果。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于情感分析的数据处理方法和装置。
背景技术
现有技术中常用的计算平台中的数据具有海量性、实时性和动态变化性的特点,所以数据平台的处理任务大小也具备动态变化特征,同样企业中对于数据流计算的查询也是动态变化的。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术无法实现对实时网络数据流快速、准确的情感分析的技术问题。
发明内容
本发明实施例提供了一种基于情感分析的数据处理方法和装置,解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。
鉴于上述问题,提出了本申请实施例以便提供一种基于情感分析的数据处理方法和装置。
第一方面,本发明提供了一种基于情感分析的数据处理方法,所述方法包括:获得原始文本数据库,所述原始文本数据库中包含文本数据;获得情感分析词典;根据所述情感分析词典,获得第一情感权值;获得在线序列-极限学习机模型;根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
结合第一方面,在第一方面的第一种可能的实现方式中,所述根据所述情感分析词典,获得第一情感权值,具体包括:根据所述情感分析词典,获得情感分数;根据所述情感分数,判断情感极性;根据所述文本数据,获得第一词语集合;去除所述第一词语集合中的停留词,获得第二词语集合;根据所述情感分数、所述情感极性、所述第二词语集合,获得所述第一情感权值。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述情感分数,判断情感极性,具体包括:如果所述情感分数大于零,判断所述情感极性为正;如果所述情感分数小于零,判断所述情感极性为负。
结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述第二词语集合包括否定词和/或程度副词和/或情感词。
结合第一方面,在第一方面的第四种可能的实施方式中,所述根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值,具体包括:根据所述文本数据,获得第三词语集合;去除所述第三词语集合中的停留词,获得第四词语集合;根据所述第四词语集合,获得词向量;获得所述词向量的主成分;获得在线序列-极限学习机模型;根据所述主成分、所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值。
结合第一方面,在第一方面的第五种可能的实施方式中,所述根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值,具体包括:根据所述情感分析词典,获得情感参数;根据所述情感参数、所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
结合第一方面的第五种可能的实施方式,在第一方面的第六种可能的实施方式中,所述情感参数范围为0~1。
第二方面,本发明提供了一种基于情感分析的数据处理装置,所述装置包括:第一获得单元,所述第一获得单元用于获得原始文本数据库,所述原始文本数据库中包含文本数据;第二获得单元,所述第二获得单元用于获得情感分析词典;第三获得单元,所述第三获得单元用于根据所述情感分析词典,获得第一情感权值;第四获得单元,所述第四获得单元用于获得在线序列-极限学习机模型;第五获得单元,所述第五获得单元用于根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;第一确定单元,所述第一确定单元用于根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
结合第二方面,在第二方面的第一种可能的实现方式中,所述第三获得单元具体包括:第六获得单元,所述第六获得单元用于根据所述情感分析词典,获得情感分数;第一判断单元,所述第一判断单元用于根据所述情感分数,判断情感极性;第七获得单元,所述第七获得单元用于根据所述文本数据,获得第一词语集合;第八获得单元,所述第八获得单元用于去除所述第一词语集合中的停留词,获得第二词语集合;第九获得单元,所述第九获得单元用于根据所述情感分数、所述情感极性、所述第二词语集合,获得所述第一情感权值。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述第一判断单元具体包括:第二判断单元,所述第二判断单元用于如果所述情感分数大于零,判断所述情感极性为正;第三判断单元,所述第三判断单元用于如果所述情感分数小于零,判断所述情感极性为负。
结合第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,所述第二词语集合包括否定词和/或程度副词和/或情感词。
结合第二方面,在第二方面的第四种可能的实现方式中,所述第五获得单元具体包括:第十获得单元,所述第十获得单元用于根据所述文本数据,获得第三词语集合;第十一获得单元,所述第十一获得单元用于去除所述第三词语集合中的停留词,获得第四词语集合;第十二获得单元,所述第十二获得单元用于根据所述第四词语集合,获得词向量;第十三获得单元,所述第十三获得单元用于获得所述词向量的主成分;第十四获得单元,所述第十四获得单元用于获得在线序列-极限学习机模型;第十五获得单元,所述第十五获得单元用于根据所述主成分、所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值。
结合第二方面,在第二方面的第五种可能的实现方式中,所述第一确定单元具体包括:第十六获得单元,所述第十六获得单元用于根据所述情感分析词典,获得情感参数;第二确定单元,所述第二确定单元用于根据所述情感参数、所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述情感参数范围为0~1。
第三方面,本发明提供了一种基于情感分析的数据处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:获得原始文本数据库,所述原始文本数据库中包含文本数据;获得情感分析词典;根据所述情感分析词典,获得第一情感权值;获得在线序列-极限学习机模型;根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
1.本申请实施例提供的一种基于情感分析的数据处理方法和装置,通过获得原始文本数据库,所述原始文本数据库中包含文本数据;获得情感分析词典;根据所述情感分析词典,获得第一情感权值;获得在线序列-极限学习机模型;根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。达到了基于大数据平台,实现对海量文本进行准实时的情感分析处理的技术效果。
2.本申请实施例通过根据所述情感分析词典,获得情感分数;根据所述情感分数,判断情感极性;根据所述文本数据,获得第一词语集合;去除所述第一词语集合中的停留词,获得第二词语集合;根据所述情感分数、所述情感极性、所述第二词语集合,获得所述第一情感权值。解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。进一步达到了能够准确判断文本情感色彩的技术效果。
3.本申请实施例通过根据所述文本数据,获得第三词语集合;去除所述第三词语集合中的停留词,获得第四词语集合;根据所述第四词语集合,获得词向量;获得所述词向量的主成分;获得在线序列-极限学习机模型;根据所述主成分、所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值。进一步解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。进一步达到了动态调整预测模型,实现对文本数据库的实时更新的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种基于情感分析的数据处理方法的流程示意图;
图2为本发明实施例中获得第一情感权值的流程示意图;
图3为本发明实施例中获得第二情感权值的流程示意图;
图4为本发明实施例中一种基于情感分析的数据处理装置的结构示意图;
图5为本发明实施例中另一种基于情感分析的数据处理装置的结构示意图.
具体实施方式
本发明实施例提供了一种基于情感分析的数据处理方法和装置,用于解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。为了解决上述技术问题,本发明提供的技术方案总体思路如下:
在本发明实施例的技术方案中,通过获得原始文本数据库,所述原始文本数据库中包含文本数据;获得情感分析词典;根据所述情感分析词典,获得第一情感权值;获得在线序列-极限学习机模型;根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。达到了基于大数据平台,实现对海量文本进行准实时的情感分析处理的技术效果。
应理解,在本发明实施例当中,情感分析(也称为意见挖掘)是指用自然语言处理,文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。
应理解,在本发明实施例当中,神经网络,即人工神经网络(ArtificialNeuralNetworks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
应理解,在本发明实施例当中,极限学习机(extreme learning machine)ELM是一种简单易用、有效的单隐层前馈神经网络SLFNs学习算法。2004年由南洋理工大学黄广斌副教授提出。
应理解,在本发明实施例当中,在线序列-极限学习机(OS-ELM),是针对动态数据应用研制的在线增量式快速学习算法,是极限学习机的一种改进算法。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种基于情感分析的数据处理方法的流程示意图。如图1所示,所述方法包括:
步骤110:获得原始文本数据库,所述原始文本数据库中包含文本数据;
步骤120:获得情感分析词典;
步骤130:根据所述情感分析词典,获得第一情感权值;
步骤140:获得在线序列-极限学习机模型;
步骤150:根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;
步骤160:根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
具体而言,通过获得包含海量文本数据的原始文本数据库,以及情感分析词典,能够获得文本数据的第一情感权值;根据在线序列-极限学习机模型,动态调整预测模型,从而获得第二情感权值;将所述第一情感权值和所述第二情感权值进行综合,需要注意的是,所述第一情感权值与所述第二情感权值的获得是同时进行的,不存在先后之分,从而确定出实时的、动态的、准确的情感权值,为实现对实时网络数据流的快速分析,提供一种分布式实时数据流分析系统,能有效解决并访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全监测提供了一种有效的数据分析平台。
下面将结合图2和图3,对根据本发明实施例的一种基于情感分析的数据处理方法进行详细描述。
在步骤110中,可以通过多种方式获得原始文本数据库,所述原始文本数据库包含文本数据,即文本数据的集合。
在本发明实施例中,可选的,所述文本数据库的获得可以通过网络爬虫获得,网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫
在本发明实施例中,可选的,所述文本数据库的获得还可以通过历史数据获得,应理解,本发明实施例仅以此为例进行说明,但本发明并不仅限于此。
在步骤120中,本发明实施例中,可选的,获得的情感分析词典为BosonNLP数据下载的情感分析词典,来源于社交媒体文本,所以所述情感分析词典适用于处理社交媒体的情感分析。
在步骤130中,所述第一情感权值为根据所述情感分析词典计算予以获得,所述第一情感权值为没有更新的原始文本数据库中的文本数据的情感权值。所述第一情感权值是将所述文本数据的感情色彩进行计算,以数据的形式予以展现,达到使所述文本数据的感情色彩一目了然的效果。
下面结合图2,对计算所述第一情感权值进行详细描述。
步骤131,根据所述情感分析词典,获得情感分数;
步骤132,根据所述情感分数,判断情感极性;
在步骤132中,如果所述情感分数大于零,判断所述情感极性为正;如果所述情感分数小于零,判断所述情感极性为负。
步骤133,根据所述文本数据,获得第一词语集合;
步骤134,去除所述第一词语集合中的停留词,获得第二词语集合;
在步骤134中,所述第二词语集合包括否定词和/或程度副词和/或情感词。
步骤135,根据所述情感分数、所述情感极性、所述第二词语集合,获得所述第一情感权值。
具体而言,所述情感分析词典通常为网络中公用的词典,并附带有对应的情感分数。
进一步的,根据所述情感分数,可以判断出所述文本数据的情感极性,否定词的出现将直接将所述文本数据情感转向相反的方向,而且通常效用是叠加的。例如,常见的否定词:不、没、无、非、莫、弗、勿、毋、未、否、别、無、休、难道等,应理解,本发明实施例仅以此为例进行说明,但本发明并不仅限于此。如果所述文本数据中出现否定词,权重为-1,即所述情感极性为负;如果所述文本数据中不出现否定词,权重为1,即所述情感极性为正。
进一步的,将所述文本数据进行处理,将所述文本数据中的句子拆分成词语集合,即获得所述第一词语集合,例如,将“我的电脑配置是相当高级的”,拆分为“我、的、电脑、配置、是、相当、高级、的”。需要注意的是,在所述第一词语集合中存在停留词,而停留词不具有实际感情色彩,为了提高计算效率,将所述第一词语集合中的停留词去除,得到不包含停留词的所述第二词语集合,这样,在所述第二词语集合中,就仅存在否定词、程度副词、情感词这三种词性中的一种或多种的组合,其中,程度副词用于表示情感强弱。
进一步的,计算第一情感权值,可以根据如下公式进行计算notWords+degreeWords+sentiWords。例如不是很漂亮,其中不是为否定词,很为程度副词,漂亮为情感词,那么这个情感词语组的第一情感权值为:finalSentiScore=(-1)^1*1.25*2.23552351188,应理解,本发明实施例仅以此为例进行说明,但本发明并不仅限于此。
在步骤140中,由于大数据平台spark-stream是准实时流的,随着时间的推移,文本分析预测模型的适用性会逐渐减低,导致预测精度下降。为了解决该问题,采用所述在线序列-极限学习机(OS-ELM)。其建立的OS-ELM模型将之前所述的原始文本数据固化到隐含层输出矩阵中,当有新的数据进入时,就可以对当前网络进行更新,大大的降低了计算所需的资源。
在步骤150中,所述第二情感权值为根据所述在线序列-极限学习机模型计算予以获得,所述第二情感权值为实时更新的数据库中的文本数据的情感权值。
下面结合图3,对计算所述第二情感权值进行详细描述。
步骤151,根据所述文本数据,获得第三词语集合;
步骤152,去除所述第三词语集合中的停留词,获得第四词语集合;
步骤153,根据所述第四词语集合,获得词向量;
步骤154,获得所述词向量的主成分;
步骤155,获得在线序列-极限学习机模型;
步骤156,根据所述主成分、所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值。
具体而言,步骤151和步骤152为对文本数据的预处理,与前述步骤131和步骤132的处理方式相同,具体获得所述第四词语集合的方式参照步骤131和步骤132中获得所述第二词语集合的方式,本发明实施例对此不在赘述。
获得所述第四词语集合后,利用word2vec将词语转换成词向量,其中,所述word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度,再利用pca对词向量进行降维,得到所述词向量的主成分。
PCA的基本算法和步骤可以分为以下几步进行:
1.给定n维随机向量X=(x1,x2,...,xn),取出m个样本xi=(xi1,xi2,...,xin),那么,有样本矩阵X=(xij)m×n。
2.将样本矩阵中包含的逆向指标转化成正向指标,通过取倒数的方法来进行转换,同时通过如下公式:
其中,为第j个变量的平均值,是第j个变量的标准差。对前面转化完的
数据标准化处理后,可以得到标准化的矩阵:
3.计算出公式(1.2)标准化矩阵中的相关系数矩阵为
4.求解上一步的相关系数矩阵的R的特征方程,可以得出n个特征值和n列向量u1,u2,...,un。
5.从前面的几步中,可以求得主成分Yi=u′iXi=1,2,...,n,或Y=UX,
求得所述主成分后,根据所述主成分、所述在线序列-极限学习机模型,对所述原始文本数据库进行更新,获得第二情感权值。
下面具体阐述获得所述第二情感权值的具体方法:
在线序列-极限学习机模型简称OS-ELM,是针对动态数据应用研制的在线增量式快速学习算法。将上述步骤获得的所述历史文本数据库中的文本数据的主成分固化到隐含层输出矩阵中,当有新的数据进入时,就可以对当前网络进行更新,动态调整预测模型,实现对假设输入样本N个,第j个样本设定的训练集,相当于所述文本数据库为:
Ω={(xj,tj)|xj∈Rn,tj∈Rm,j=1,2,L,N} (1.3)
神经网络模型为:
初始化阶段:
从Ω中选取部分文本数据其中N0代表选定的文本数据的初始个数。随机生成隐藏层输入权值ai和隐藏层阈值bi,i=1,2,L,L。计算初始隐藏层输出矩阵
已知目标输出:
计算初始输出权值β0也就是计算||H0β-T0||最小值问题。
神经网络模型可以转写为矩阵形式:Hβ=T
又由得出:其中
在线连续学习阶段:
当输入第k+1个样本数据即所述文本数据,计算隐含层的输出矩阵HK+1,则输出权值βk+1,即所述第二情感权值可表示为:
在本申请实施例中,通过在线序列-极限学习机模型计算得到所述第二情感权值,达到了动态调整预测模型,从而使计算得到的情感权值更加具有实时性、有效性的技术效果。
在步骤160中,根据所述情感分析词典,获得情感参数;根据所述情感参数、所述第一情感权值、所述第二情感权值,确定所述第三情感权值,其中,所述情感参数范围为0~1。
具体而言,假设所述情感参数为a,通过调整所述情感参数的大小,来控制所述第一情感权值与所述第二情感权值的比重,在建模过程中,可以手动调节所述情感参数的大小,所述情感参数的调节范围控制在0~1之间。
进一步的,将所述第一情感权值和所述第二情感权值通过公式Pre=(1-a)Pre1+aPre1进行加权求和计算,从而得到即为所述第三情感权值,所述第三情感权值综合了所述第一情感权值与所述第二情感权值的优点,实现了对海量文本进行准实时的情感分析处理的技术效果。
实施例2
基于与前述实施例中一种基于情感分析的数据处理方法同样的发明构思,本发明还提供一种基于情感分析的数据处理装置,如图2所示,包括:
第一获得单元11,所述第一获得单元11用于获得原始文本数据库,所述原始文本数据库中包含文本数据;
第二获得单元12,所述第二获得单元12用于获得情感分析词典;
第三获得单元13,所述第三获得单元13用于根据所述情感分析词典,获得第一情感权值;
第四获得单元14,所述第四获得单元14用于获得在线序列-极限学习机模型;
第五获得单元15,所述第五获得单元15用于根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;
第一确定单元16,所述第一确定单元16用于根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
在本发明实施例当中,可选的,所述第三获得单元具体包括:
第六获得单元,所述第六获得单元用于根据所述情感分析词典,获得情感分数;
第一判断单元,所述第一判断单元用于根据所述情感分数,判断情感极性;
第七获得单元,所述第七获得单元用于根据所述文本数据,获得第一词语集合;
第八获得单元,所述第八获得单元用于去除所述第一词语集合中的停留词,获得第二词语集合;
第九获得单元,所述第九获得单元用于根据所述情感分数、所述情感极性、所述第二词语集合,获得所述第一情感权值。
在本发明实施例当中,可选的,所述第一判断单元具体包括:
第二判断单元,所述第二判断单元用于如果所述情感分数大于零,判断所述情感极性为正;
第三判断单元,所述第三判断单元用于如果所述情感分数小于零,判断所述情感极性为负。
在本发明实施例当中,可选的,所述第二词语集合包括否定词和/或程度副词和/或情感词。
在本发明实施例当中,可选的,所述第五获得单元具体包括:
第十获得单元,所述第十获得单元用于根据所述文本数据,获得第三词语集合;
第十一获得单元,所述第十一获得单元用于去除所述第三词语集合中的停留词,获得第四词语集合;
第十二获得单元,所述第十二获得单元用于根据所述第四词语集合,获得词向量;
第十三获得单元,所述第十三获得单元用于获得所述词向量的主成分;
第十四获得单元,所述第十四获得单元用于获得在线序列-极限学习机模型;
第十五获得单元,所述第十五获得单元用于根据所述主成分、所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值。
在本发明实施例当中,可选的,所述第一确定单元具体包括:
第十六获得单元,所述第十六获得单元用于根据所述情感分析词典,获得情感参数;
第二确定单元,所述第二确定单元用于根据所述情感参数、所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
在本发明实施例当中,可选的,所述情感参数范围为0~1。
前述图1实施例1中的一种基于情感分析的数据处理方法的各种变化方式和具体实例同样适用于本实施例的一种基于情感分析的数据处理装置,通过前述对一种基于情感分析的数据处理方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于情感分析的数据处理装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例3
基于与前述实施例中一种网络权限的认证方法同样的发明构思,本发明还提供一种基于情感分析的数据处理装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种网络权限的认证方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
1.本申请实施例提供的一种基于情感分析的数据处理方法和装置,通过获得原始文本数据库,所述原始文本数据库中包含文本数据;获得情感分析词典;根据所述情感分析词典,获得第一情感权值;获得在线序列-极限学习机模型;根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。达到了基于大数据平台,实现对海量文本进行准实时的情感分析处理的技术效果。
2.本申请实施例通过根据所述情感分析词典,获得情感分数;根据所述情感分数,判断情感极性;根据所述文本数据,获得第一词语集合;去除所述第一词语集合中的停留词,获得第二词语集合;根据所述情感分数、所述情感极性、所述第二词语集合,获得所述第一情感权值。进一步解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。进一步达到了能够准确判断文本情感色彩的技术效果。
3.本申请实施例通过根据所述文本数据,获得第三词语集合;去除所述第三词语集合中的停留词,获得第四词语集合;根据所述第四词语集合,获得词向量;获得所述词向量的主成分;获得在线序列-极限学习机模型;根据所述主成分、所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值。进一步解决了现有技术中无法实现对实时网络数据流快速、准确的情感分析的技术问题。进一步达到了动态调整预测模型,实现对文本数据库的实时更新的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于情感分析的数据处理方法,其特征在于,所述方法包括:
获得原始文本数据库,所述原始文本数据库中包含文本数据;
获得情感分析词典;
根据所述情感分析词典,获得第一情感权值;
获得在线序列-极限学习机模型;
根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;
根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
2.如权利要求1所述的方法,其特征在于,所述根据所述情感分析词典,获得第一情感权值,具体包括:
根据所述情感分析词典,获得情感分数;
根据所述情感分数,判断情感极性;
根据所述文本数据,获得第一词语集合;
去除所述第一词语集合中的停留词,获得第二词语集合;
根据所述情感分数、所述情感极性、所述第二词语集合,获得所述第一情感权值。
3.如权利要求2所述的方法,其特征在于,所述根据所述情感分数,判断情感极性,具体包括:
如果所述情感分数大于零,判断所述情感极性为正;
如果所述情感分数小于零,判断所述情感极性为负。
4.如权利要求2所述的方法,其特征在于,所述第二词语集合包括否定词和/或程度副词和/或情感词。
5.如权利要求1所述的方法,其特征在于,所述根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值,具体包括:
根据所述文本数据,获得第三词语集合;
去除所述第三词语集合中的停留词,获得第四词语集合;
根据所述第四词语集合,获得词向量;
获得所述词向量的主成分;
获得在线序列-极限学习机模型;
根据所述主成分、所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值。
6.如权利要求1所述的方法,其特征在于,所述根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值,具体包括:
根据所述情感分析词典,获得情感参数;
根据所述情感参数、所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
7.如权利要求6所述的方法,其特征在于,所述情感参数的范围为0~1。
8.一种基于情感分析的数据处理装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得原始文本数据库,所述原始文本数据库中包含文本数据;
第二获得单元,所述第二获得单元用于获得情感分析词典;
第三获得单元,所述第三获得单元用于根据所述情感分析词典,获得第一情感权值;
第四获得单元,所述第四获得单元用于获得在线序列-极限学习机模型;
第五获得单元,所述第五获得单元用于根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;
第一确定单元,所述第一确定单元用于根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
9.一种基于情感分析的数据处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得原始文本数据库,所述原始文本数据库中包含文本数据;
获得情感分析词典;
根据所述情感分析词典,获得第一情感权值;
获得在线序列-极限学习机模型;
根据所述在线序列-极限学习机模型,动态调整预测模型,获得第二情感权值;
根据所述第一情感权值、所述第二情感权值,确定所述第三情感权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711277819.2A CN107908782A (zh) | 2017-12-06 | 2017-12-06 | 一种基于情感分析的数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711277819.2A CN107908782A (zh) | 2017-12-06 | 2017-12-06 | 一种基于情感分析的数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107908782A true CN107908782A (zh) | 2018-04-13 |
Family
ID=61854795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711277819.2A Pending CN107908782A (zh) | 2017-12-06 | 2017-12-06 | 一种基于情感分析的数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908782A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929516A (zh) * | 2019-11-22 | 2020-03-27 | 新华网股份有限公司 | 文本的情感分析方法、装置、电子设备及可读存储介质 |
CN111625648A (zh) * | 2020-05-28 | 2020-09-04 | 西南民族大学 | 一种快速情感极性分类方法 |
CN113157899A (zh) * | 2021-05-27 | 2021-07-23 | 东莞心启航联贸网络科技有限公司 | 一种大数据画像分析方法、服务器及可读存储介质 |
CN114153952A (zh) * | 2021-12-22 | 2022-03-08 | 南京智浩软件科技有限公司 | 一种面试考官管理系统及评分质量监测分析方法 |
US11954443B1 (en) | 2021-06-03 | 2024-04-09 | Wells Fargo Bank, N.A. | Complaint prioritization using deep learning model |
US12008579B1 (en) | 2021-08-09 | 2024-06-11 | Wells Fargo Bank, N.A. | Fraud detection using emotion-based deep learning model |
US12079826B1 (en) | 2021-06-25 | 2024-09-03 | Wells Fargo Bank, N.A. | Predicting customer interaction using deep learning model |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782898A (zh) * | 2010-03-25 | 2010-07-21 | 中国科学院计算技术研究所 | 一种情感词倾向性的分析方法 |
US20120041953A1 (en) * | 2010-08-16 | 2012-02-16 | Microsoft Corporation | Text mining of microblogs using latent topic labels |
CN103544321A (zh) * | 2013-11-06 | 2014-01-29 | 北京国双科技有限公司 | 用于微博情感信息的数据处理方法和装置 |
CN103729431A (zh) * | 2013-12-26 | 2014-04-16 | 东北大学 | 具有增减量功能的海量微博数据分布式分类装置及方法 |
CN104881402A (zh) * | 2015-06-02 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 中文网络话题评论文本语义倾向分析的方法及装置 |
-
2017
- 2017-12-06 CN CN201711277819.2A patent/CN107908782A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782898A (zh) * | 2010-03-25 | 2010-07-21 | 中国科学院计算技术研究所 | 一种情感词倾向性的分析方法 |
US20120041953A1 (en) * | 2010-08-16 | 2012-02-16 | Microsoft Corporation | Text mining of microblogs using latent topic labels |
CN103544321A (zh) * | 2013-11-06 | 2014-01-29 | 北京国双科技有限公司 | 用于微博情感信息的数据处理方法和装置 |
CN103729431A (zh) * | 2013-12-26 | 2014-04-16 | 东北大学 | 具有增减量功能的海量微博数据分布式分类装置及方法 |
CN104881402A (zh) * | 2015-06-02 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 中文网络话题评论文本语义倾向分析的方法及装置 |
Non-Patent Citations (1)
Title |
---|
马力等: ""基于情感特征的主客观分类研究"", 《西安邮电大学学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929516A (zh) * | 2019-11-22 | 2020-03-27 | 新华网股份有限公司 | 文本的情感分析方法、装置、电子设备及可读存储介质 |
CN111625648A (zh) * | 2020-05-28 | 2020-09-04 | 西南民族大学 | 一种快速情感极性分类方法 |
CN111625648B (zh) * | 2020-05-28 | 2023-04-07 | 西南民族大学 | 一种快速情感极性分类方法 |
CN113157899A (zh) * | 2021-05-27 | 2021-07-23 | 东莞心启航联贸网络科技有限公司 | 一种大数据画像分析方法、服务器及可读存储介质 |
CN113157899B (zh) * | 2021-05-27 | 2022-01-14 | 叉烧(上海)新材料科技有限公司 | 一种大数据画像分析方法、服务器及可读存储介质 |
US11954443B1 (en) | 2021-06-03 | 2024-04-09 | Wells Fargo Bank, N.A. | Complaint prioritization using deep learning model |
US12079826B1 (en) | 2021-06-25 | 2024-09-03 | Wells Fargo Bank, N.A. | Predicting customer interaction using deep learning model |
US12008579B1 (en) | 2021-08-09 | 2024-06-11 | Wells Fargo Bank, N.A. | Fraud detection using emotion-based deep learning model |
CN114153952A (zh) * | 2021-12-22 | 2022-03-08 | 南京智浩软件科技有限公司 | 一种面试考官管理系统及评分质量监测分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908782A (zh) | 一种基于情感分析的数据处理方法和装置 | |
CN111951805B (zh) | 一种文本数据处理方法及装置 | |
JP7017640B2 (ja) | データ拡張方策の学習 | |
CN108733837B (zh) | 一种病历文本的自然语言结构化方法及装置 | |
CN106886543B (zh) | 结合实体描述的知识图谱表示学习方法和系统 | |
CN107590133A (zh) | 基于语义的招聘职位与求职简历匹配的方法及系统 | |
CN109241294A (zh) | 一种实体链接方法及装置 | |
CN107480196B (zh) | 一种基于动态融合机制的多模态词汇表示方法 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN110008339A (zh) | 一种用于目标情感分类的深度记忆网络模型及其分类方法 | |
JP7438303B2 (ja) | ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN108536735B (zh) | 基于多通道自编码器的多模态词汇表示方法与系统 | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
CN117501283A (zh) | 文本到问答模型系统 | |
CN111553140B (zh) | 数据处理方法、数据处理设备及计算机存储介质 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
CN114386604A (zh) | 基于多教师模型的模型蒸馏方法、装置、设备及存储介质 | |
CN109299007A (zh) | 一种缺陷修复者自动推荐方法 | |
CN110197521B (zh) | 基于语义结构表示的视觉文本嵌入方法 | |
CN117610608A (zh) | 基于多阶段特征融合的知识蒸馏方法、设备及介质 | |
Sun et al. | Co-training an improved recurrent neural network with probability statistic models for named entity recognition | |
WO2023166747A1 (ja) | 学習データ生成装置、学習データ生成方法、及びプログラム | |
CN105808522A (zh) | 一种语义联想的方法及装置 | |
CN105468657B (zh) | 一种获取领域重要知识点的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |