CN111061876A - 事件舆情数据分析方法及装置 - Google Patents
事件舆情数据分析方法及装置 Download PDFInfo
- Publication number
- CN111061876A CN111061876A CN201911259394.1A CN201911259394A CN111061876A CN 111061876 A CN111061876 A CN 111061876A CN 201911259394 A CN201911259394 A CN 201911259394A CN 111061876 A CN111061876 A CN 111061876A
- Authority
- CN
- China
- Prior art keywords
- emotion
- domain
- participles
- public opinion
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000007405 data analysis Methods 0.000 title claims abstract description 41
- 230000008451 emotion Effects 0.000 claims abstract description 445
- 238000011156 evaluation Methods 0.000 claims abstract description 142
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000004458 analytical method Methods 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000002996 emotional effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 241000239290 Araneae Species 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种事件舆情数据分析方法及装置,基于领域情感词典确定事件对象的整体评价数据,领域情感词典是基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到,也即该情感词典是基于分类器从领域语料库中扩展而来,不需要手动构建一个丰富的情感词典库,也不需要及时更新情感词典库中的词语,节约了人力物力,并且针对不同领域,基于领域语料库自动扩展情感词典,解决了针对不同领域需要人工配置对应的词典库的问题,省时省力,稳定性好,效率较高。
Description
技术领域
本申请涉及舆情处理领域,更具体的,涉及一种事件舆情数据分析方法及装置。
背景技术
目前,舆情分析的技术方法主要是利用NLP技术和情感词典,通过抽取文本中的所有实体,从情感词典中查出实体词对应的情感得分,通过加权等方式将情感词的得分进行汇总,得到整篇文章的情感得分,最后根据文章的得分判断文章的舆情性质。传统的情感词典舆情分析方法的准确度主要依赖情感词典库,需要手动构建一个丰富的情感词典库,并且需要及时更新情感词典库中的词语,耗时耗力,而且不同领域的情感词典不同,情感词的分数也非常依赖人的主观判断。此外,针对事件舆情分析,基于人工专家分析的不稳定性较高、随意性较大、效率低下,使用传统的自然语言处理方法,分析结果准确率较低,同时不能及时进行事件实体之间的互相关联。
发明内容
为了解决上述问题的至少一个,本申请一个方面实施例提供一种事件舆情数据分析方法,包括:
根据事件舆情数据生成事件对象的领域情感词典;所述领域情感词典基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到;
根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据;所述情感路径根据所述实体分词和对应的情感分词确定,并且每个分句包括至少一个所述情感路径;
根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警;其中,
所述事件舆情数据包括多个分句,每个分句中均包括表示事件对象的实体分词以及具有情感词性的情感分词;所述领域情感词典包括多个已标记情感极性值并且按照情感极性值分类的情感分词。
某些实施例中,所述根据事件舆情数据生成事件对象的领域情感词典,包括:
根据事件舆情数据确定事件对象所处的领域;
根据确定的领域调取对应的领域语料库;
将所述情感分词词典作为训练集,构建情感极性分类器;
利用所述情感极性分类器对所述领域语料库进行情感分词提取和分类,生成对应该领域的领域情感词典。
某些实施例中,所述利用所述情感极性分类器对所述领域语料库进行情感分词提取和分类,生成对应该领域的领域情感词典,包括:
提取所述情感词典和所述领域语料库中共同存在的通用情感分词;
计算所述领域语料库中除通用情感分词之外的其他分词与所述通用情感分词的相似度,生成相似度序列,筛选出候选情感分词,所述候选情感分词位于所述相似度序列的设定位置之前;
将所述通用情感分词和所述候选情感分词共同输入至所述情感极性分类器,输出领域情感词典。
某些实施例中,在所述根据所述领域情感词典对所述事件舆情数据中每个分句所对应的情感路径进行评价之前,所述事件舆情数据分析方法还包括:
对所述事件舆情数据中每个分句进行句法分析,根据所述实体分词与所述情感分词的句法关系,生成每个分句所包括的所有情感路径。
某些实施例中,所述根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据,包括:
根据设定的情感分词与评价数据的对应关系,以及对应的情感路径与权重的映射关系,确定每个情感路径所包括的情感分词的评价数据和该情感路径的权重;
根据每个情感路径所包括的情感分词的评价数据和该情感路径的权重生成每个分句中所有情感路径对应的评价数据。
某些实施例中,还包括:
根据预设的神经网络校准模型,对所述事件舆情数据的每个分句进行评价,得到校准评价数据;
所述根据每个分句中实体分词的情感路径评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,包括:
根据每个分句中的每个情感路径对应的所述校准评价数据和所述评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据。
某些实施例中,所述根据预设的神经网络校准模型,对所述事件舆情数据的每个分句进行评价,得到校准评价数据,包括:
将所述事件舆情数据的每个分句输入至所述神经网络校准模型,得到正则化的校准评价数据。
某些实施例中,还包括:
建立所述神经网络校准模型;
利用已人工标注校准评价数据的分句训练所述神经网络校准模型。
某些实施例中,所述建立所述神经网络校准模型,包括:
建立卷积层、池化层、感知层以及输出层;其中所述输出层包括分类逻辑回归函数。
某些实施例中,还包括:
利用已构建的知识图谱对所述实体分词进行实体关系关联,得到关联实体分词;
根据所述知识图谱中关联实体分词与所述实体分词之间的关系权重,生成关联实体分词的情感评价数据,进而确定所述事件舆情对事件对象相关联的其他对象的影响。
本申请另一方面实施例提供一种事件舆情数据分析装置,包括:
领域情感词典获取模块,根据事件舆情数据生成事件对象的领域情感词典;所述领域情感词典基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到;
情感路径评价模块,根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据;所述情感路径根据所述实体分词和对应的情感分词确定,并且每个分句包括至少一个所述情感路径;
整体情感评价模块,根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警;其中,
所述事件舆情数据包括多个分句,每个分句中均包括表示事件对象的实体分词以及具有情感词性的情感分词;所述领域情感词典包括多个已标记情感极性值并且按照情感极性值分类的情感分词。
某些实施例中,所述领域情感词典获取模块,包括:
领域确定单元,根据事件舆情数据确定事件对象所处的领域;
领域语料库调取单元,根据确定的领域调取对应的领域语料库;
情感极性分类器构建单元,将所述情感分词词典作为训练集,构建情感极性分类器;
领域情感词典生成单元,利用所述情感极性分类器对所述领域语料库进行情感分词提取和分类,生成对应该领域的领域情感词典。
某些实施例中,所述领域情感词典生成单元,包括:
通用情感分词提取单元,提取所述情感词典和所述领域语料库中共同存在的通用情感分词;
相似度计算单元,计算所述领域语料库中除通用情感分词之外的其他分词与所述通用情感分词的相似度,生成相似度序列,筛选出候选情感分词,所述候选情感分词位于所述相似度序列的设定位置之前;
领域情感词典输出单元,将所述通用情感分词和所述候选情感分词共同输入至所述情感极性分类器,输出领域情感词典。
某些实施例中,所述事件舆情数据分析装置还包括:
句法分析模块,对所述事件舆情数据中每个分句进行句法分析,根据所述实体分词与所述情感分词的句法关系,生成每个分句所包括的所有情感路径。
某些实施例中,所述情感路径评价模块,包括:
映射单元,根据设定的情感分词与评价数据的对应关系,以及对应的情感路径与权重的映射关系,确定每个情感路径所包括的情感分词的评价数据和该情感路径的权重;
情感路径评价数据生成单元,根据每个情感路径所包括的情感分词的评价数据和该情感路径的权重生成每个分句中所有情感路径对应的评价数据。
某些实施例中,还包括:
校准评价数据获得模块,根据预设的神经网络校准模型,对所述事件舆情数据的每个分句进行评价,得到校准评价数据;
所述整体情感评价模块根据每个分句中的每个情感路径对应的所述校准评价数据和所述评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据。
某些实施例中,所述校准评价数据获得模块将所述事件舆情数据的每个分句输入至所述神经网络校准模型,得到正则化评价数据。
某些实施例中,还包括:
校准模型建立模块,建立所述神经网络校准模型;
校准模型训练模块,利用已人工标注校准评价数据的分句训练所述神经网络校准模型。
某些实施例中,所述校准模型建立模块建立卷积层、池化层、感知层以及输出层;其中所述输出层包括分类逻辑回归函数。
某些实施例中,还包括:
关联模块,利用已构建的知识图谱对所述实体分词进行实体关系关联,得到关联实体分词;
关联对象整体情感评价数据生成模块,根据所述知识图谱中关联实体分词与所述实体分词之间的关系权重,生成关联实体分词的整体情感评价数据,进而确定所述事件舆情对事件对象相关联的其他对象的影响。
本申请又一方面实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。
本申请又一方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
本申请的有益效果如下:
本申请提供一种事件舆情数据分析方法及装置,基于领域情感词典确定事件对象的整体评价数据,领域情感词典是基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到,也即该情感词典是基于分类器从领域语料库中扩展而来,不需要手动构建一个丰富的情感词典库,也不需要及时更新情感词典库中的词语,节约了人力物力,并且针对不同领域,基于领域语料库自动扩展情感词典,解决了针对不同领域需要人工配置对应的词典库的问题,省时省力,稳定性好,效率较高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本申请实施例中一种事件舆情数据分析方法流程示意图。
图2示出本申请实施例中领域情感词典的生成步骤流程示意图。
图3示出本申请实施例中的情感极性分类器的流程示意图。
图4示出本申请实施例中一种事件舆情数据分析装置结构示意图。
图5示出适于用来实现本申请实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的实施例提供一种事件舆情数据分析方法的具体实施方式,参见图1,所述事件舆情数据分析方法具体包括如下内容:
步骤100:根据事件舆情数据生成事件对象的领域情感词典;所述领域情感词典基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到。
在步骤100中,所述事件舆情数据包括多个分句,每个分句中均包括表示事件对象的实体分词以及具有情感词性的情感分词;所述领域情感词典包括多个已标记情感极性值并且按照情感极性值分类的情感分词。
可以理解,事件舆情数据是针对某一话题、某一事件对相关对象的相关数据,例如“多方投资机构看好腾讯”,这属于针对“腾讯”这一事件对象的事件舆情数据。
事件舆情数据可以通过爬虫进行数据采集,在某些实施例中,爬虫框架由Spider、Crawler、Processor、Scheduler和Mysql数据库存储五部分构成。Scheduler负责需要爬取网页Urls的调度;Crawler负责爬取具体网址,返回实际网页的源代码;Processor负责解析网页源代码,从网页中提取新的链接,并判断是否有效或者被站点反爬虫污染;Mysql数据库负责将下载下来的网页源代码进行持久化;Spider是爬虫主程序入口,负责各个模块之间的调度,并且根据爬取情况,自动调整。
预设的情感极性分类器是基于对输入数据按照情感极性进行分类的分类模型,例如现有的SVM分类器等,例如可以向所述情感极性分类器中输入一个情感分词,例如“看好”,情感极性分类器根据预设的“看好”的极性值,判断“看好”这个情感分词属于正面、负面或者中性中的一个,当然,根据具体场景,分类类型可以不局限于正面、负面或者中性,例如还可以根据极性值分为正面偏中性、负面偏中性等,本申请对此不做赘述。
领域语料库是事件对象所在领域的语料库,例如上述的实施例中,事件对象是“腾讯”,“腾讯”属于涉及新闻信息、游戏、聊天、视频等的互联网企业,则语料库包括了所有相关互联网企业,例如网易、微博等互联网企业领域的相关词汇。
步骤200:根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据;所述情感路径根据所述实体分词和对应的情感分词确定,并且每个分句包括至少一个所述情感路径。
在步骤200中,每个分句包括实体分词和情感分词,实体分词是对应的事件对象的词汇,例如“腾讯”,情感分词是表示情感取向的词汇,例如上述实施例中的“看好”,对应的,根据一个实体分词和对应的情感分词,可以确定一条情感路径,“多方投资机构看好腾讯”中,其情感路径即为(腾讯)→(看好)。
步骤300:根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警。
在步骤200和步骤300中,评价数据可以以分数形式体现,例如“看好”为情感词词典中的一个元素,其中对应的得分是3,即评价数据是反映情感路径对应的情感程度的表征形式。
可以理解,一个分句中可以包括多个情感路径,并且一个情感路径也不仅仅可以是实体分词与情感分词的一一对应,举例而言,“个人散户、证券公司以及市值低于100亿元的网络公司都看好腾讯和网易”,那么对于这样一个分句,其实体分词分别是:腾讯和网易,其情感路径分别是:(腾讯)→(看好),(网易)→(看好)。
步骤300:根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警。
在步骤300中,整个事件舆情数据的整体情感评价数据是所有分句中每个情感路径的评价数据整合,随着数据量的增多,例如文本输入的量越多,整体情感评价数据越准确和全面,根据整体评价数据可以进行事件舆情分析,进而得到一份分析结果,例如最终的分析结果从多个维度展示出当前各种领域的人群对该事件对象的看法,例如时间维度、领域维度、人群特性维度等。
从上述描述可知,本申请的实施例提供的事件舆情数据分析方法,基于领域情感词典确定事件对象的整体评价数据,领域情感词典是基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到,也即该情感词典是基于分类器从领域语料库中扩展而来,不需要手动构建一个丰富的情感词典库,也不需要及时更新情感词典库中的词语,节约了人力物力,并且针对不同领域,基于领域语料库自动扩展情感词典,解决了针对不同领域需要人工配置对应的词典库的问题,省时省力,稳定性好,效率较高。
在一种具体实施方式中,在本申请的事件舆情数据分析方法的步骤100具体包含有如下内容:
步骤101:根据事件舆情数据确定事件对象所处的领域。
步骤102:根据确定的领域调取对应的领域语料库。
步骤103:将所述情感分词词典作为训练集,构建情感极性分类器。
步骤104:利用所述情感极性分类器对所述领域语料库进行情感分词提取和分类,生成对应该领域的领域情感词典。
在一种具体实施方式中,本申请的事件舆情数据分析方法中的步骤104包括具体包括如下内容:
步骤1041:提取所述情感词典和所述领域语料库中共同存在的通用情感分词;
步骤1042:计算所述领域语料库中除通用情感分词之外的其他分词与所述通用情感分词的相似度,生成相似度序列,筛选出候选情感分词,所述候选情感分词位于所述相似度序列的设定位置之前;
步骤1043:将所述通用情感分词和所述候选情感分词共同输入至所述情感极性分类器,输出领域情感词典。
参见图2和图3,领域情感词典主要是基于领域语料库和已有情感词典库完成的,通过已有情感词典库作为训练集,构建SVM情感极性分类器,然后将领域预料库的数据进行分词等一系列处理,得到候选情感词集合,将候选情感词集合作为极性分类器的输入,最终输出得到面向领域的情感词典,即领域情感词典库。如图2,词向量模型采用Word2Vec方式,可以简单理解为每个词表示为一个向量,长度为词表大小,只有一个维度值为1,图2中的种子词集合是指从原始语料库中提取出来的原始词集合。图3中关键词构建特征向量,将关键词库中的词通过特征向量构造的方法,将每个词构造成后续LibSVM模型训练需要的特征向量,图3中的one-hot encoding是指one-hot编码,优称为一位有效编码,主要采用N位状态寄存器来对N个状态进行编码,每个状态都有他独立的寄存器位,并且任意时候只有一位有效。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。其原因在于,将离散特征通过one-hot编码映射到欧式空间,在回归、分类、聚类等机器学习算法中,特征之间距离的计算或相似度的计算非常重要,常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,该计算基于欧式空间,因此对离散型特征进行one-hot编码能够让距离的计算显得更加合理。
在一种具体实施方式中,情感路径的具体生成方式包括:对所述事件舆情数据中每个分句进行句法分析,根据所述实体分词与所述情感分词的句法关系,生成每个分句所包括的所有情感路径。
举例而言,对文本进行情感路径打分,情感路径打分模型采用关键技术是依存句法分析,直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。例如这句话“多方投资机构看好腾讯”,我们可以得到一条VOB情感路径:
(腾讯)→(看好)
在一些具体实施例中,步骤200具体包括:
步骤201:根据设定的情感分词与评价数据的对应关系,以及对应的情感路径与权重的映射关系,确定每个情感路径所包括的情感分词的评价数据和该情感路径的权重;
步骤202:根据每个情感路径所包括的情感分词的评价数据和该情感路径的权重生成每个分句中所有情感路径对应的评价数据。
以上面的(腾讯)→(看好)这一情感路径为例,这句话对应的实体“腾讯”对应的情感路径得分公式为:
Sp(腾讯)=S(P)
其中P=(P1,P2,…,PN)
P表示一句话中所有跟腾讯相关的路径集合
整个句法分析标签集合的情感路径得分公式为:
S(P)表示这句话的情感路径得分
L(Pi)表示路径Pi中句法标签的权重值
其中L为句法标签权重映射。设置的句法标签权重见表1所示。
表1句法标签权重表
句法标签英文名 | 句法标签中文名 | 权重 |
SBV | 主谓关系 | 2 |
VOB | 动宾关系 | 2 |
IOB | 间宾关系 | 1 |
FOB | 前置关系 | 1 |
DBL | 兼语 | 1 |
ATT | 定中关系 | 1.5 |
ADV | 状中结构 | 1.5 |
CMP | 动补结构 | 1 |
COO | 并列关系 | 1.5 |
POB | 介宾关系 | 1 |
LAD | 左附加关系 | 0.5 |
RAD | 右附加关系 | 0.5 |
IS | 独立结构 | 0.5 |
下表2示出了情感词典中的部分内容,“看好”为情感词词典中的一个元素,其中对应的得分是3,VOB路径权重为2,那么这句话的情感得分为6。
表2:情感词典部分展示表
词 | 得分 |
跌 | -3 |
低走 | -1 |
暴涨 | +6 |
暴跌 | -6 |
退市 | -9 |
破发 | -7 |
上升 | +4 |
龙头 | +9 |
… | … |
为了提高最终的整体评价数据的准确性,在优选的实施方式中可以增加校准评价数据,校准评价数据可以通过神经网络得到,该实施例中,本申请的事件舆情数据分析方法还包括:
步骤A00:根据预设的神经网络校准模型,对所述事件舆情数据的每个分句进行评价,得到校准评价数据。
该实施例中,步骤300具体包括:根据每个分句中的每个情感路径对应的所述校准评价数据和所述评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据。
具体而言,步骤A00是将所述事件舆情数据的每个分句输入至所述神经网络校准模型,得到正则化的校准评价数据。
同样的道理,校准评价数据也可以采用分数的形式表示,本申请不做赘述。
下表3示出了一种神经网络校准算法说明:
表3:神经网络校准模型说明
算法中可调参数aggrefuction(.,.)代表了一种将两种得分整合起来的方式,方法预置的聚合函数为:
aggrefuctionN:R×[0,1]→R
aggrefuctionN(s,s′)=s×si
R表示句法关系权重
S表示情感路径正则化后的得分,Si表示神经网络校准后的得分。
即该实施例中要求神经网络校准得分为已正则化的。将句子的情感路径得分与神经网络正则化得分进行相乘,作为最终的句子得分,最后将所有句子的得分汇总,得到事件舆情数据的情感得分。采用情感路径打分结合先进的神经网络校准模型,使情感路径打分的准确性得到了更近一步的提升。
在一些实施例中,神经网络校准模型可以在线或者离线建立,即本申请中的事件舆情数据分析方法具体还包括:
步骤A200:建立所述神经网络校准模型;
步骤A300:利用已人工标注校准评价数据的分句训练所述神经网络校准模型。
具体而言,建立神经网络校准模型包括建立卷积层、池化层、感知层以及输出层;其中所述输出层包括分类逻辑回归函数。其原理是使用时域卷积(temporalconvolution),对句子作为词嵌入表示的矩阵(embedding matrix)进行卷积运算,然后通过最大池化操作,过滤掉不必要的噪音,将输出结果投影到全连接的感知层,并使用分类逻辑回归作为输出层,得到文本正则化得分。
此外,在优选的实施例中,还可以通过实体对象间的关联关系,分析出其事件舆情数据对关联实体的情感评价,该实施例中,本申请的事件舆情数据分析方法还包括:
步骤A400:利用已构建的知识图谱对所述实体分词进行实体关系关联,得到关联实体分词;
步骤A500:根据所述知识图谱中关联实体分词与所述实体分词之间的关系权重,生成关联实体分词的情感评价数据,进而确定所述事件舆情对事件对象相关联的其他对象的影响。
具体而言,在预设的知识图谱中包括有多个实体对象、每个实体对象之间的关系以及对应的权重,举例而言,网易对腾讯的权重设定为0.5,该权重可以表示关联程度,即权重为0.5可表示网易与腾讯的关联程度为0.5(表示关联性不大),那么该事件舆情数据对网易的评价影响也相应地具有一个比例系数的调整,这样通过知识图谱关联其他实体,能够更加全面地得出该事件舆情数据对所有能够影响到的实体的影响。
从上述描述可知,本申请的实施例提供一种事件舆情数据分析方法,具有1、全面性、准确性、实时性、安全性、服务性,通过知识图谱实体的关联,能更加全面的得出文本情感影响的实体。2、准确性,采用了最先进的机器学习模型自动扩展情感词典库,极大程度上丰富了情感词典库,提升了情感路径打分的准确性;采用情感路径打分结合先进的神经网络校准模型,使情感路径打分的准确性得到了更近一步的提升。3、实时性,情感词典库和神经网络模型是事先已经部署好的,文本过来后能够进行高效的处理,达到了实时处理的效果。4、安全性,识别到相关的事件负面新闻后,可以马上做出预警,并且快速通知相关人员进行关注。5、服务性,对于事件以及相关人员处理的数据进行统计、分析,可以根据用户的需求进行个性化的实现。
本申请的实施例提供一种用于实现事件舆情数据分析方法中全部内容的事件舆情数据分析装置的具体实施方式,参见图4,所述事件舆情数据分析装置具体包括如下内容:
领域情感词典获取模块100,根据事件舆情数据生成事件对象的领域情感词典;所述领域情感词典基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到;
情感路径评价模块200,根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据;所述情感路径根据所述实体分词和对应的情感分词确定,并且每个分句包括至少一个所述情感路径;
整体情感评价模块300,根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警;其中,
所述事件舆情数据包括多个分句,每个分句中均包括表示事件对象的实体分词以及具有情感词性的情感分词;所述领域情感词典包括多个已标记情感极性值并且按照情感极性值分类的情感分词。
本申请提供的用于实现事件舆情数据分析装置的实施例具体可以用于执行上述实施例中的用于实现事件舆情数据分析方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
其中,所述领域情感词典获取模块100,包括:
领域确定单元,根据事件舆情数据确定事件对象所处的领域;
领域语料库调取单元,根据确定的领域调取对应的领域语料库;
情感极性分类器构建单元,将所述情感分词词典作为训练集,构建情感极性分类器;
领域情感词典生成单元,利用所述情感极性分类器对所述领域语料库进行情感分词提取和分类,生成对应该领域的领域情感词典。
其中,所述领域情感词典生成单元,包括:
通用情感分词提取单元,提取所述情感词典和所述领域语料库中共同存在的通用情感分词;
相似度计算单元,计算所述领域语料库中除通用情感分词之外的其他分词与所述通用情感分词的相似度,生成相似度序列,筛选出候选情感分词,所述候选情感分词位于所述相似度序列的设定位置之前;
领域情感词典输出单元,将所述通用情感分词和所述候选情感分词共同输入至所述情感极性分类器,输出领域情感词典。
其中,所述事件舆情数据分析装置还包括:
句法分析模块,对所述事件舆情数据中每个分句进行句法分析,根据所述实体分词与所述情感分词的句法关系,生成每个分句所包括的所有情感路径。
其中,所述情感路径评价模块,包括:
映射单元,根据设定的情感分词与评价数据的对应关系,以及对应的情感路径与权重的映射关系,确定每个情感路径所包括的情感分词的评价数据和该情感路径的权重;
情感路径评价数据生成单元,根据每个情感路径所包括的情感分词的评价数据和该情感路径的权重生成每个分句中所有情感路径对应的评价数据。
其中,所述事件舆情数据分析装置还包括:
校准评价数据获得模块,根据预设的神经网络校准模型,对所述事件舆情数据的每个分句进行评价,得到校准评价数据;
所述整体情感评价模块根据每个分句中的每个情感路径对应的所述校准评价数据和所述评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据。
其中,所述校准评价数据获得模块将所述事件舆情数据的每个分句输入至所述神经网络校准模型,得到正则化评价数据。
其中,所述事件舆情数据分析装置还包括:
校准模型建立模块,建立所述神经网络校准模型;
校准模型训练模块,利用已人工标注校准评价数据的分句训练所述神经网络校准模型。
其中,所述校准模型建立模块建立卷积层、池化层、感知层以及输出层;其中所述输出层包括分类逻辑回归函数。
其中,所述事件舆情数据分析装置还包括:
关联模块,利用已构建的知识图谱对所述实体分词进行实体关系关联,得到关联实体分词;
关联对象整体情感评价数据生成模块,根据所述知识图谱中关联实体分词与所述实体分词之间的关系权重,生成关联实体分词的整体情感评价数据,进而确定所述事件舆情对事件对象相关联的其他对象的影响。
从上述描述可知,本申请的实施例提供的事件舆情数据分析装置,基于领域情感词典确定事件对象的整体评价数据,领域情感词典是基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到,也即该情感词典是基于分类器从领域语料库中扩展而来,不需要手动构建一个丰富的情感词典库,也不需要及时更新情感词典库中的词语,节约了人力物力,并且针对不同领域,基于领域语料库自动扩展情感词典,解决了针对不同领域需要人工配置对应的词典库的问题,省时省力,稳定性好,效率较高。
本申请的实施例还提供能够实现上述实施例中的事件舆情数据分析方法中全部步骤的一种电子设备的具体实施方式,参见图5,所述电子设备具体包括如下内容:
处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604;
其中,所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信;所述通信接口603用于实现事件舆情数据分析装置以及用户终端等相关设备之间的信息传输;
所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的事件舆情数据分析方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:根据事件舆情数据生成事件对象的领域情感词典;所述领域情感词典基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到。
步骤200:根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据;所述情感路径根据所述实体分词和对应的情感分词确定,并且每个分句包括至少一个所述情感路径。
步骤300:根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警。
从上述描述可知,本申请的实施例提供的电子设备,基于领域情感词典确定事件对象的整体评价数据,领域情感词典是基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到,也即该情感词典是基于分类器从领域语料库中扩展而来,不需要手动构建一个丰富的情感词典库,也不需要及时更新情感词典库中的词语,节约了人力物力,并且针对不同领域,基于领域语料库自动扩展情感词典,解决了针对不同领域需要人工配置对应的词典库的问题,省时省力,稳定性好,效率较高。
本申请的实施例还提供能够实现上述实施例中的事件舆情数据分析方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的事件舆情数据分析方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:根据事件舆情数据生成事件对象的领域情感词典;所述领域情感词典基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到。
步骤200:根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据;所述情感路径根据所述实体分词和对应的情感分词确定,并且每个分句包括至少一个所述情感路径。
步骤300:根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警。
从上述描述可知,本申请的实施例提供的计算机可读存储介质,基于领域情感词典确定事件对象的整体评价数据,领域情感词典是基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到,也即该情感词典是基于分类器从领域语料库中扩展而来,不需要手动构建一个丰富的情感词典库,也不需要及时更新情感词典库中的词语,节约了人力物力,并且针对不同领域,基于领域语料库自动扩展情感词典,解决了针对不同领域需要人工配置对应的词典库的问题,省时省力,稳定性好,效率较高。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的装置、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、装置或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (22)
1.一种事件舆情数据分析方法,其特征在于,包括:
根据事件舆情数据生成事件对象的领域情感词典;所述领域情感词典基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到;
根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据;每个分句中均包括表示事件对象的实体分词以及具有情感词性的情感分词;所述情感路径根据所述实体分词和对应的情感分词确定,并且每个分句包括至少一个所述情感路径;
根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警;其中,
所述事件舆情数据包括多个分句所述领域情感词典包括多个已标记情感极性值并且按照情感极性值分类的情感分词。
2.根据权利要求1所述的事件舆情数据分析方法,其特征在于,所述根据事件舆情数据生成事件对象的领域情感词典,包括:
根据事件舆情数据确定事件对象所处的领域;
根据确定的领域调取对应的领域语料库;
将所述情感分词词典作为训练集,构建情感极性分类器;
利用所述情感极性分类器对所述领域语料库进行情感分词提取和分类,生成对应该领域的领域情感词典。
3.根据权利要求2所述的事件舆情数据分析方法,其特征在于,所述利用所述情感极性分类器对所述领域语料库进行情感分词提取和分类,生成对应该领域的领域情感词典,包括:
提取所述情感词典和所述领域语料库中共同存在的通用情感分词;
计算所述领域语料库中除通用情感分词之外的其他分词与所述通用情感分词的相似度,生成相似度序列,筛选出候选情感分词,所述候选情感分词位于所述相似度序列的设定位置之前;
将所述通用情感分词和所述候选情感分词共同输入至所述情感极性分类器,输出领域情感词典。
4.根据权利要求1所述的事件舆情数据分析方法,其特征在于,在所述根据所述领域情感词典对所述事件舆情数据中每个分句所对应的情感路径进行评价之前,所述事件舆情数据分析方法还包括:
对所述事件舆情数据中每个分句进行句法分析,根据所述实体分词与所述情感分词的句法关系,生成每个分句所包括的所有情感路径。
5.根据权利要求1所述的事件舆情数据分析方法,其特征在于,所述根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据,包括:
根据设定的情感分词与评价数据的对应关系,以及对应的情感路径与权重的映射关系,确定每个情感路径所包括的情感分词的评价数据和该情感路径的权重;
根据每个情感路径所包括的情感分词的评价数据和该情感路径的权重生成每个分句中所有情感路径对应的评价数据。
6.根据权利要求1所述的事件舆情数据分析方法,其特征在于,还包括:
根据预设的神经网络校准模型,对所述事件舆情数据的每个分句进行评价,得到校准评价数据;
所述根据每个分句中实体分词的情感路径评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,包括:
根据每个分句中的每个情感路径对应的所述校准评价数据和所述评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据。
7.根据权利要求6所述的事件舆情数据分析方法,其特征在于,所述根据预设的神经网络校准模型,对所述事件舆情数据的每个分句进行评价,得到校准评价数据,包括:
将所述事件舆情数据的每个分句输入至所述神经网络校准模型,得到正则化的校准评价数据。
8.根据权利要求6所述的事件舆情数据分析方法,其特征在于,还包括:
建立所述神经网络校准模型;
利用已人工标注校准评价数据的分句训练所述神经网络校准模型。
9.根据权利要求8所述的事件舆情数据分析方法,其特征在于,所述建立所述神经网络校准模型,包括:
建立卷积层、池化层、感知层以及输出层;其中所述输出层包括分类逻辑回归函数。
10.根据权利要求1所述的事件舆情数据分析方法,其特征在于,还包括:
利用已构建的知识图谱对所述实体分词进行实体关系关联,得到关联实体分词;
根据所述知识图谱中关联实体分词与所述实体分词之间的关系权重,生成关联实体分词的情感评价数据,进而确定所述事件舆情对事件对象相关联的其他对象的影响。
11.一种事件舆情数据分析装置,其特征在于,包括:
领域情感词典获取模块,根据事件舆情数据生成事件对象的领域情感词典;所述领域情感词典基于预设的情感极性分类器和所述事件对象所处领域的领域语料库得到;
情感路径评价模块,根据所述领域情感词典对所述事件舆情数据中每个分句所包括的情感路径进行评价,得到每个分句中所有情感路径对应的评价数据;每个分句中均包括表示事件对象的实体分词以及具有情感词性的情感分词,所述情感路径根据所述实体分词和对应的情感分词确定,并且每个分句包括至少一个所述情感路径;
整体情感评价模块,根据每个分句中所有情感路径对应的评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据,进而分析所述事件舆情数据,根据所述事件舆情数据的分析结果对关联事件进行预警;其中,
所述事件舆情数据包括多个分句,所述领域情感词典包括多个已标记情感极性值并且按照情感极性值分类的情感分词。
12.根据权利要求11所述的事件舆情数据分析装置,其特征在于,所述领域情感词典获取模块,包括:
领域确定单元,根据事件舆情数据确定事件对象所处的领域;
领域语料库调取单元,根据确定的领域调取对应的领域语料库;
情感极性分类器构建单元,将所述情感分词词典作为训练集,构建情感极性分类器;
领域情感词典生成单元,利用所述情感极性分类器对所述领域语料库进行情感分词提取和分类,生成对应该领域的领域情感词典。
13.根据权利要求12所述的事件舆情数据分析装置,其特征在于,所述领域情感词典生成单元,包括:
通用情感分词提取单元,提取所述情感词典和所述领域语料库中共同存在的通用情感分词;
相似度计算单元,计算所述领域语料库中除通用情感分词之外的其他分词与所述通用情感分词的相似度,生成相似度序列,筛选出候选情感分词,所述候选情感分词位于所述相似度序列的设定位置之前;
领域情感词典输出单元,将所述通用情感分词和所述候选情感分词共同输入至所述情感极性分类器,输出领域情感词典。
14.根据权利要求11所述的事件舆情数据分析装置,其特征在于,所述事件舆情数据分析装置还包括:
句法分析模块,对所述事件舆情数据中每个分句进行句法分析,根据所述实体分词与所述情感分词的句法关系,生成每个分句所包括的所有情感路径。
15.根据权利要求11所述的事件舆情数据分析装置,其特征在于,所述情感路径评价模块,包括:
映射单元,根据设定的情感分词与评价数据的对应关系,以及对应的情感路径与权重的映射关系,确定每个情感路径所包括的情感分词的评价数据和该情感路径的权重;
情感路径评价数据生成单元,根据每个情感路径所包括的情感分词的评价数据和该情感路径的权重生成每个分句中所有情感路径对应的评价数据。
16.根据权利要求11所述的事件舆情数据分析装置,其特征在于,还包括:
校准评价数据获得模块,根据预设的神经网络校准模型,对所述事件舆情数据的每个分句进行评价,得到校准评价数据;
所述整体情感评价模块根据每个分句中的每个情感路径对应的所述校准评价数据和所述评价数据,生成整个所述事件舆情数据针对所述实体分词的整体情感评价数据。
17.根据权利要求16所述的事件舆情数据分析装置,其特征在于,所述校准评价数据获得模块将所述事件舆情数据的每个分句输入至所述神经网络校准模型,得到正则化评价数据。
18.根据权利要求16所述的事件舆情数据分析装置,其特征在于,还包括:
校准模型建立模块,建立所述神经网络校准模型;
校准模型训练模块,利用已人工标注校准评价数据的分句训练所述神经网络校准模型。
19.根据权利要求18所述的事件舆情数据分析装置,其特征在于,所述校准模型建立模块建立卷积层、池化层、感知层以及输出层;其中所述输出层包括分类逻辑回归函数。
20.根据权利要求11所述的事件舆情数据分析装置,其特征在于,还包括:
关联模块,利用已构建的知识图谱对所述实体分词进行实体关系关联,得到关联实体分词;
关联对象整体情感评价数据生成模块,根据所述知识图谱中关联实体分词与所述实体分词之间的关系权重,生成关联实体分词的整体情感评价数据,进而确定所述事件舆情对事件对象相关联的其他对象的影响。
21.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一项所述的方法的步骤。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911259394.1A CN111061876B (zh) | 2019-12-10 | 2019-12-10 | 事件舆情数据分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911259394.1A CN111061876B (zh) | 2019-12-10 | 2019-12-10 | 事件舆情数据分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061876A true CN111061876A (zh) | 2020-04-24 |
CN111061876B CN111061876B (zh) | 2023-06-13 |
Family
ID=70300289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911259394.1A Active CN111061876B (zh) | 2019-12-10 | 2019-12-10 | 事件舆情数据分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061876B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021217843A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN113609298A (zh) * | 2021-08-23 | 2021-11-05 | 南京擎盾信息科技有限公司 | 用于法院舆情语料提取的数据处理的方法和装置 |
CN114385894A (zh) * | 2021-12-30 | 2022-04-22 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
CN114385894B (zh) * | 2021-12-30 | 2024-05-31 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN107885785A (zh) * | 2017-10-17 | 2018-04-06 | 北京京东尚科信息技术有限公司 | 文本情感分析方法和装置 |
CN107945033A (zh) * | 2017-11-14 | 2018-04-20 | 李勇 | 一种网络舆情的分析方法、系统及相关装置 |
CN108255803A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 文档情感的判断方法和装置 |
CN109376251A (zh) * | 2018-09-25 | 2019-02-22 | 南京大学 | 一种基于词向量学习模型的微博中文情感词典构建方法 |
CN109684647A (zh) * | 2019-02-19 | 2019-04-26 | 东北林业大学 | 电影评论情感分析方法及装置 |
CN110362833A (zh) * | 2019-07-22 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种基于文本的情感分析方法及相关装置 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
-
2019
- 2019-12-10 CN CN201911259394.1A patent/CN111061876B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN108255803A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 文档情感的判断方法和装置 |
CN107885785A (zh) * | 2017-10-17 | 2018-04-06 | 北京京东尚科信息技术有限公司 | 文本情感分析方法和装置 |
CN107945033A (zh) * | 2017-11-14 | 2018-04-20 | 李勇 | 一种网络舆情的分析方法、系统及相关装置 |
CN109376251A (zh) * | 2018-09-25 | 2019-02-22 | 南京大学 | 一种基于词向量学习模型的微博中文情感词典构建方法 |
CN109684647A (zh) * | 2019-02-19 | 2019-04-26 | 东北林业大学 | 电影评论情感分析方法及装置 |
CN110362833A (zh) * | 2019-07-22 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种基于文本的情感分析方法及相关装置 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021217843A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN113609298A (zh) * | 2021-08-23 | 2021-11-05 | 南京擎盾信息科技有限公司 | 用于法院舆情语料提取的数据处理的方法和装置 |
CN114385894A (zh) * | 2021-12-30 | 2022-04-22 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
CN114385894B (zh) * | 2021-12-30 | 2024-05-31 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111061876B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021159632A1 (zh) | 智能问答方法、装置、计算机设备及计算机存储介质 | |
Snyder et al. | Interactive learning for identifying relevant tweets to support real-time situational awareness | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN104572631B (zh) | 一种语言模型的训练方法及系统 | |
KR20200007969A (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN109117470B (zh) | 一种评价文本信息的评价关系提取方法及装置 | |
CN111177392A (zh) | 一种数据处理方法及装置 | |
Joshi et al. | Distributed word representations improve ner for e-commerce | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
Kathuria et al. | Real time sentiment analysis on twitter data using deep learning (Keras) | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
CN111061876A (zh) | 事件舆情数据分析方法及装置 | |
Irawaty et al. | Vectorizer comparison for sentiment analysis on social media youtube: A case study | |
Sajeevan et al. | An enhanced approach for movie review analysis using deep learning techniques | |
Zhang et al. | Predicting and visualizing consumer sentiments in online social media | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Wu et al. | Attention-based convolutional neural networks for chinese relation extraction | |
Dasondi et al. | An implementation of graph based text classification technique for social media | |
Vikas et al. | User Gender Classification Based on Twitter Profile Using Machine Learning | |
CN109902273A (zh) | 关键词生成模型的建模方法和装置 | |
Anuradha et al. | Fuzzy based summarization of product reviews for better analysis | |
Zhu et al. | Intelligent product redesign strategy with ontology-based fine-grained sentiment analysis | |
CN115062135A (zh) | 一种专利筛选方法与电子设备 | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
Jiang et al. | Sentiment classification based on clause polarity and fusion via convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220908 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |