CN112612895A

CN112612895A - 一种主体话题态度指数的计算方法

Info

Publication number: CN112612895A
Application number: CN202011594672.1A
Authority: CN
Inventors: 陈中正; 王元卓; 程伯群; 赵俊霞; 胡玉龙; 刘玉茹; 程松庆; 王红强; 雍胜凯
Original assignee: Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Current assignee: Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-06
Anticipated expiration: 2040-12-29
Also published as: CN112612895B

Abstract

本发明属于网络信息挖掘技术领域，具体涉及一种主体话题态度指数计算方法。该方法通过采集相关主体的传统媒体、社交数据，然后对数据进行预处理，通过情感分析建模、话题态度指数建模，建立话题态度分析模型，进而分析话题态度指数。通过多层次、多角度的分析目标主体的话题态度指数，能够宏观的反映了国家、地区、主体的话题态度，客户可方便的进行宏观把控，逐级深入。

Description

一种主体话题态度指数的计算方法

技术领域

本发明属于网络信息挖掘技术领域，具体涉及一种主体话题态度指数计算方法。

背景技术

随着信息技术不断发展,新闻客户端和各类社交媒体成为公众特别是年轻人的第一信息源，但由于信息量庞大繁杂，通过文章分析总结提炼有用的信息成为一种常用的手段。

目前分析主要是对单个文章的情感分析，这种分析方法存在如下弊端：

1、单文章分析缺少话题识别，很难有针对性分析；

2、单文章分析比较片面，缺少主体的整体分析及主体的层次分析。

发明内容

针对目前主体话题分析方法存在缺少识别度、分析较为片面无法整体分析的缺陷和问题，本发明提供一种主体话题态度指数计算方法。

本发明解决其技术问题所采用的方案是：一种主体话题态度指数的计算方法，包括以下步骤，

步骤一、数据采集：采集时间段内全球范围的文章，采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类；

步骤二、数据预处理：包括以下步骤：

(1)收集时间段内全球范围针对某一话题的文章信息数据，其中信息数据包括百科数据、社交媒体数据和传统媒体数据；

(2)基于URL将文章信息数据中的重复数据滤除，同时基于简单关键词规则进行非话题内容和垃圾内容的过滤；

(3)对全球多来源的文章信息数据进行自动语种识别并将其统一翻译成英语；

(4)对文章信息数据进行文本分析，将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签；并同时提取报道的归属地和报道地；

(5)将提取的主体、报道地与基础知识库进行链接，采用一致ID进行标识；

步骤三、对文章信息数据进行情感分析，包括以下步骤：

(1)对信息数据的情感分类进行设计，分为正面、中立和负面；

(2)根据情感分类的每一类情感构建英文话题情感词典；

(3)根据情感分类构建具有规模的真实语料，并对语料中的每篇文章进行话题态度标注；

(4)根据构建的不同情感的情感词典和情感语料构建面向话题态度分析的情感分析模型；

步骤四、计算话题态度指数，包括以下步骤：

(1)根据情感分析模型对时间段内针对该话题的每篇文章的内容进行情感打分，得到单篇文章态度得分和文章话题态度得分；

单篇文章态度得分score＝∑(k-score*k-num/num)

式中：k-score为句子情感分类得分，一篇文章分很多句子，每个句子都有自己情感类型，类型包括：Strongly Positive(1)、Weakly Positive(0.7)、Neutral(0)、StronglyNegative(-1)、Weakly Negative(-0.7)；num是文章分句数量，k-num/num是各项分类数据占句数比例。

文章话题态度得分＝Sigmoid(单篇文章态度得分*文章权重)*100

文章权重：对应每篇文章的权重；根据文章的来源、人工权重进行设计，取值：0——+∞，默认为5。

(2)根据时间段内每个主体发表的文章的情感得分，和不同主体的计算系数，计算得到各个主体的话题态度指数，所述主体传统媒体和社交媒体；

主体话题态度得分＝Sigmoid(∑(文章话题态度得分*文章主体指数)/文章数量)*100

∑主体时间段内全部文章态度得分*文章主体指数之和。

(3)计算时间段内各个国家/地区不同主体的话题态度，进行国家/地区范围文章整体态度计算，得到各个国家/地区的话题态度指数；

(4)根据时间段内全球范围的文章态度整体得分计算得到全球范围的主体话题态度指数即为主体话题指数。

上述的主体话题态度指数的计算方法，步骤一中，针对传统媒体数据通过通用新闻采集器，配置媒体网站地址进行自动化采集抽取，然后对采集结果进行抽样检查，对采集结果较差的数据可配置特定规则进行干预；针对社交媒体通过定制的采集器，利用人工维护的账号池进行自动化采集。

上述的主体话题态度指数的计算方法，采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类，步骤为：

(1)读入一条新文本，文本转化向量；

(2)判断向量与已存在簇的相似度；关于相似度的计算，若文本较长可直接使用tfidf进行判别；或者使用文本向量的cos值判别，或者直接使用jaccad相似度判别；

如果大于阈值，则加入簇执行完毕；

如小于阈值，则判断簇数量是否超过设置簇值(控制簇数量，避免簇数过多)，未超过簇值时，直接创建簇；否则删除已存在簇中最无用的(通过时间及簇大小决定)，之后再新建簇。

上述的主体话题态度指数的计算方法，传统媒体的文章主体指数是以媒体的权威度和文章本身的阅读量、转发量经归一化处理后的传统媒体计算系数；社交媒体的文章主体指数是以社交媒体的影响力、社交媒体账号的权威度、文章本身的点赞数、评论数、转发数经归一化处理后形成的社交媒体计算系数。

本发明的有益效果：本发明的方法使用的各项指数为业务提供了更丰富的分析模式，可通过对主体的话题态度指数走势分析关键节点；可支持中、英两类话题分类模型，可根据业务方特定业务需求进行话题分类模型优化；能够统计话题态度指数消极排行情况，突出重点态度；可分析一个地区的话题态度(积极、消极)排行，为业务员锁定目标；能够宏观的反映了国家、地区、主体的话题态度，客户可方便的进行宏观把控，逐级深入。

附图说明

图1为本发明整体流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1：本实施例提供一种主体话题态度指数分析方法，该方法针对目标主体进行话题态度指数分析，首先要采集相关主体的媒体、社交数据，然后对数据进行预处理，通过情感分析建模、话题态度指数建模，进而分析话题态度指数。

其中目标主体包括世界各个国家或地区表明态度的相关机构和个人，机构分为官方机构和媒体；个人包括政要和网民。

话题态度指数，分别以日、周、月为时间周期计算主体的话题态度指数。

如图1所示，该方法具体包括以下步骤。

步骤一、数据采集

采集时间段内全球范围的文章，采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类；基本思想为：按一定顺序依次读取文章数据，每次读取的新数据都和已经读取并聚类的数据进行比较，若按照一定规则找到相应的近似组别，则将这个新数据归入这个类中；如果没有，则将这个新数据视为一个新类；反复执行，直到所有的数据都读完。

算法流程为：

(1)读入一条新文本，文本转化向量；

如果大于阈值，则加入簇执行完毕；

步骤二、数据预处理：

(5)将提取的主体与基础知识库进行链接，采用一致ID进行标识；

步骤二、情感分析：

(1)对信息数据的情感分类进行设计，将其分为正面、中立和负面；

(2)根据情感分类的每一类情感构建英文话题情感词典；

本实施例的情感分析模型采用“基于Joint embedding of words and labels的文本分类”方法，基于CNN和RNN，加入attention机制来获取文本中的word的依赖和重要度从而更好的学习文本的representation；引入文本的label信息来更好的学习文本表示，提出了一个Label-Embedding Attentive Model(LEAM)，通过模型学习word和label在同一空间内的embedding，利用text和label的相关性构建文本表示。

步骤三、话题态度指数计算

(1)根据情感分析模型对时间段内针对该话题的每篇文章的内容进行情感打分，得到单篇文章的态度得分和文章话题态度得分；

单篇文章态度得分score＝∑(k-score*k-num/num)

文章话题态度得分＝Sigmoid(单篇文章态度得分*文章权重)*100

(2)针对不同类型的主体，基于基础的情感打分，考虑不同计算系数，计算系数取值0—10之间，默认值为5，进行话题态度得分计算；

∑主体时间段内全部文章态度得分*文章主体指数之和。

其中：文章主体指数计算以传统媒体和社交媒体为主体，(传统媒体：以媒体的权威度和文章本身的阅读量、转发量经过归一化后形成媒体计算系数。社交媒体：以社交媒体平台的影响力、社交媒体账号的权威度、博文自身的点赞数、评论数、转发数经过归一化后形成社交媒体的计算系统。)以半年为一个周期进行阶段更新，公式为：

subject_index＝

sum(media_read_num)/sum(read_num)*4+sum(media_forward_num)/sum(forward_num)*6

式中：sum(media_read_num)为近半年，此传统媒体的阅读量之和，此社交媒体的粉丝数*推文数之和；sum(read_num)为近半年，所有传统媒体的阅读量之和，所有社交媒体的粉丝数*推文数之和；sum(media_forward_num)为近半年，此传统媒体的转发数之和，此社交媒体的转发数之和；sum(forward_num)为近半年，所有传统媒体的转发数之和，所有社交媒体的转发数。

(3)针对国家/地区，选取重点媒体的话题态度、重点社交媒体账号的话题态度、官方机构或政要的话题态度，进行国家/地区范围的文章态度整体计算，形成话题态度指数；

国家/地区话题态度指数＝∑国家/地区在时间段内发表的全部文章态度得分之和。

(4)根据时间段内全球范围的文章态度整体得分计算得到全球范围的主体话题态度指数；

全球主体话题态度指数＝∑全球时间段内全部文章态度得分之和。

以上所述仅为本发明的较佳实施例，并不限制本发明，凡在本发明的精神和原则范围内所做的任何修改、等同替换和改进，均应包含在本发明的保护范围之内。

Claims

1.一种主体话题态度指数的计算方法，其特征在于：包括以下步骤，

步骤二、数据预处理：包括以下步骤：

步骤三、对文章信息数据进行情感分析，包括以下步骤：

(2)根据情感分类的每一类情感构建英文话题情感词典；

步骤四、计算话题态度指数，包括以下步骤：

单篇文章态度得分score＝∑(k-score*k-num/num)

式中：k-score为句子情感分类得分，一篇文章分很多句子，每个句子都有自己情感类型，类型包括：Strongly Positive(1)、Weakly Positive(0.7)、Neutral(0)、StronglyNegative(-1)、Weakly Negative(-0.7)；num是文章分句数量，k-num/num是各项分类数据占句数比例；

文章话题态度得分＝Sigmoid(单篇文章态度得分*文章权重)*100

Sigmoid：

文章权重：对应每篇文章的权重；根据文章的来源、人工权重进行设计，取值：0——+∞，默认为5；

(2)根据时间段内每个主体发表的文章的情感得分，和不同主体的文章主体指数，计算得到各个主体的话题态度指数，所述主体包括传统媒体和社交媒体；

∑主体时间段内全部文章态度得分*文章主体指数之和。

(3)计算时间段内各个国家/地区不同主体的话题态度，进行国家/地区范围文章整体态度计算，得到各个国家/地区的话题态度指数，

2.根据权利要求1所述的主体话题态度指数的计算方法，其特征在于：步骤一中，针对传统媒体数据通过通用新闻采集器，配置媒体网站地址进行自动化采集抽取，然后对采集结果进行抽样检查，对采集结果较差的数据可配置特定规则进行干预；针对社交媒体通过定制的采集器，利用人工维护的账号池进行自动化采集。

3.根据权利要求1所述的主体话题态度指数的计算方法，其特征在于：采用流式文本处理single-pass单遍聚类方法对文章的话题进行分类，步骤为：

(1)读入一条新文本，文本转化向量；

如果大于阈值，则加入簇执行完毕；

4.根据权利要求1所述的主体话题态度指数的计算方法，其特征在于：传统媒体的文章主体指数是以媒体的权威度和文章本身的阅读量、转发量经归一化处理后的传统媒体计算系数；社交媒体的文章主体指数是以社交媒体的影响力、社交媒体账号的权威度、文章本身的点赞数、评论数、转发数经归一化处理后形成的社交媒体计算系数。