CN111581370A

CN111581370A - 综合多通道数据来源的网络舆情热度评估方法及装置

Info

Publication number: CN111581370A
Application number: CN202010310036.5A
Authority: CN
Inventors: 刘春阳; 张旭; 王鹏; 李红; 吴俊杰; 张翔宇; 陈志鹏; 解峥; 宋慧慧
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-25
Anticipated expiration: 2040-04-20
Also published as: CN111581370B

Abstract

本发明公开了一种综合多通道数据来源的网络舆情热度评估方法，包括：步骤一、收集各通道的流数据；步骤二、量化流数据对于目标事件的敏感值和情绪标签；步骤三、基于敏感度和影响力量化得到主体指标值；步骤四、基于敏感消息数、各类情绪标签对应的消息数，量化得到内容指标值；步骤五、基于每日的消息数、用户数、群组数，量化得到传播指标值；步骤六、基于主体指标值、内容指标值、传播指标值，量化得到各通道的综合热度值，并计算得到目标事件当日的总热度值。本方法建立了普适的网络舆情热度评估指标体系，评估结果更准确全面。本发明还公开了一种综合多通道数据来源的网络舆情热度评估装置，本装置对网络舆情热度的评估更准确全面。

Description

综合多通道数据来源的网络舆情热度评估方法及装置

技术领域

本发明涉及数据挖掘领域。更具体地说，本发明涉及一种综合多通道数据来源的网络舆情热度评估方法。

背景技术

随着信息技术的迅速发展，互联网已成为思想文化信息的集散地和社会舆论的放大器，社会民众可以更迅速、更直接、更真实的表达自己的观点态度。互联网在为民众提供情绪表达、信息交流、建言献策的同时，更引发了一系列问题。特别是对于敏感事件，如果不能准确把握其传播规律，及时采取有效的管理方法和手段，就会给社会舆论安全乃至国家稳定与和谐带来一系列消极影响。因此，采用科学合理的方法全面且准确的对事件热度进行评估具有重要意义。

目前网络舆情传播途径呈现出多元化特征，国内外的主流社交平台包括：微博、twitter、Facebook、知乎、微信、QQ和telegram等。一个爆点事件一经发布，就会在各大社交平台迅速传播演化，引发社会各界的广泛关注和讨论。因此，对于某事件的舆情热度评估需打破传统局限于单一平台数据来源的约束，综合考虑事件在各个主流社交平台的热度演化情况，从而更加全面准确地对热度进行评估。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种综合多通道数据来源的网络舆情热度评估方法，建立了普适的网络舆情热度评估指标体系，评估结果更准确全面。

提供一种综合多通道数据来源的网络舆情热度评估装置，对网络舆情热度的评估更准确全面。

为了实现根据本发明的这些目的和其它优点，提供了一种综合多通道数据来源的网络舆情热度评估方法，包括以下步骤：

步骤一、收集每日各通道的流数据，并按通道来源分类存储，存储的每条流数据至少包括该条流数据的来源、发布时间、文本内容；

步骤二、量化每条流数据对于目标事件的敏感值，以及提取每条流数据的情绪标签；

步骤三、量化各用户和/或各群组在其对应通道的敏感度和影响力，基于敏感度和影响力量化得到各通道的主体指标值；

步骤四、基于各通道的敏感消息数、各类情绪标签对应的消息数，量化得到各通道的内容指标值，其中，敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数；

步骤五、基于各通道每日的消息数、用户数、群组数，量化得到各通道的传播指标值；

步骤六、基于主体指标值、内容指标值、传播指标值，量化得到各通道的综合热度值，以各通道的综合热度为参数计算得到目标事件当日的总热度值。

优选的是，采用敏感词匹配法量化每条流数据的敏感值，具体步骤为：

预设目标事件的包括多个敏感词的敏感词列表，每项敏感词具有敏感词本身和敏感词权重；

将敏感词列表中的各项敏感词依次与各条流数据的文本内容匹配，各条流数据的敏感值采用公式1计算得到；

sensitive-value＝∑x_i*w_i 公式1

其中，x_i表示一条流数据中包含的敏感词列表中的第i项的敏感词，w_i表示与x_i对应的敏感词权重，sensitive-value表示一条流数据的敏感值。

优选的是，采用情绪词典标注法提取每条流数据的情绪标签，具体步骤为：

预设情绪词典，情绪词典包括“积极情绪”、“消极情绪”、“中性情绪”三类情绪，每类情绪均包括代表该类情绪的多个情绪词语，且每个情绪词语具有词语权重；

将情绪词典中的各项情绪词语依次与各条流数据的文本内容匹配，采用公式2计算每条流数据分别属于三类情绪的情绪权重，

w-sentiment＝∑_wordw_s*count(word) 公式2

其中，w_s表示一条流数据的文本内容中的情绪词语word在情绪词典中对应的词语权重，count(word)表示该情绪词语word在一条流数据的文本内容中出现的频数；

比较每一条流数据在三类情绪标签的权重大小，取情绪权重最大的情绪标签作为该条流数据的情绪标签；

每条流数据的敏感值和情绪标签的结果以键值对的形式保存。

优选的是，所述通道包括不具有群组的知乎、微博、twitter、Facebook和具有群组的QQ、telegram、微信。

优选的是，采用公式3计算各通道的主体指标值；

participant-value＝w₅*[w₁*sigmoid(avg-user-influence)+w₂*sigmoid(avg-user-sensitive)]+w₆*[w₃*sigmoid(avg-group-influence)+w₄*sigmoid(avg-group-sensitive)] 公式3

其中，participant-value代表一个具有群组的通道的主体指标值，w₁代表用户的影响力主体指标权重，w₂代表用户的敏感度主体指标权重，avg-user-influence代表该通道的所有用户的平均影响力，avg-user-sensitive表示该通道的所有用户的平均敏感度，并且w₁+w₂＝1，w₃代表群组的影响力主体指标权重，w₄代表群组的敏感度主体指标权重，avg-group-influence表示该通道的所有用户的平均影响力，avg-group-sensitive表示该通道的所有群组的平均敏感度，并且w₃+w₄＝1，w₅代表用户主体指标权重，w₆代表群组主体指标权重，并且w₅+w₆＝1；

各通道所有用户的平均影响力为该通道内所有用户的影响力相加，并取平均值，该平均值即为该通道的所有用户的平均影响力；

各通道所有用户的平均敏感度为该通道内所有用户的敏感度相加，并取平均值，该平均值即出为该通道的所有用户的平均敏感度；

各通道所有群组的平均影响力为该通道内所有群组的影响力相加，并取平均值，该平均值即为该通道的所有群组的平均影响力；

各通道所有群组的平均敏感度为该通道内所有群组的敏感度相加，并取平均值，该平均值即出为该通道的所有群组的平均敏感度；

各通道用户的影响力、用户的敏感度、群组的影响力、群组的敏感度的计算方法具体为：

筛选预设时间范围内的某一通道的该用户和/或群组的流数据作为语料库，预设时间范围为从当前时间点至历史某一时间点之间的时间范围；

获取语料库中采用步骤二量化得到的每条用户的流数据的敏感值，并计算语料库中各用户的流数据的敏感值的平均值，该敏感值的平均值即为该用户的敏感度；

获取语料库中采用步骤二量化得到的每条群组的流数据的敏感值，并计算语料库中各群组的流数据的敏感值的平均值，该敏感值的平均值即为该群组的敏感度；

用户的影响力采用公式4计算；

user-influence＝w₁*ln(x₁+1)+w₂*ln(x₂+1)+w₃*ln(x₃+1)+w₄*ln(x₄+1) 公式4

其中，user-influence代表一个通道的一个用户的影响力，x₁为该用户在预设时间范围内去除向群组内发送的消息数后的发送消息数，x₂为该用户在预设时间范围内的获赞数，x₃为该用户的粉丝数，x₄为该用户在预设时间范围内新增的粉丝数，w₁、w₂、w₃、w₄、分别表示消息数权重、获赞数权重、粉丝数权重、新增粉丝数权重，并且w₁+w₂+w₃+w₄＝1；

群组的影响力采用公式5计算；

group-influence＝w₁*ln(x₁+1)+w₂*ln(x₂+1)+w₃*ln(x₃+1)+w₄*ln(x₄+1) 公式5

其中，group-influence代表一个通道的一个群组的影响力，x₁为该群组在预设时间范围内向群组内发送的消息数，x₂为该群组内群组成员的平均影响力，x₃为该群组成员数，x₄为该群组在预设时间范围内新增的成员数，w₁、w₂、w₃、w₄分别表示消息数权重、群组成员影响力权重、群组成员数权重、新增成员数权重，并且w₁+w₂+w₃+w₄＝1。

优选的是，采用公式6计算各通道的内容指标值；

content-value＝w₁*sigmoid(sensitive-message)+w₂*sigmoid(neutral-message)+w₃*sigmoid(positive-message)+w₄*sigmoid(negtive-message) 公式6

其中，content-value代表一个通道的内容指标值，sensitive-message代表敏感信息数，neutral-message代表“中性情绪”标签的信息数，positive-message代表“积极情绪”标签的信息数，negtive-message代表“消极情绪”标签的信息数，w₁、w₂、w₃、w₄分别表示敏感信息数权重、“中性情绪”标签权重、积极情绪”标签权重、消极情绪”标签权重,并且w₁+w₂+w₃+w₄＝1。

优选的是，采用公式7计算各通道的传播指标值；

spread-value＝w₂₇*[w₁*sigmoid(message-num)+w₂*sigmoid(user-num)+w₃*sigmoid(group-num)]+w₈*[w₄*tanh(message-diffusion)+w₅*tanh(user-diffusion)+w₆*tanh(group-diffusion)]公式7

其中，spread-value代表一个通道的传播指标值，message-num、user-num、group-num分别代表总消息数、用户数、群组数，message-diffuion、user-diffusion、group-diffusion分别代表消息扩散度、用户扩散度和群组扩散度，消息扩散度为当前日相对于前一日的消息数变化值，用户扩散度为当前日相对于前一日的用户数变化值，群组扩散度为当前日相对于前一日的群组数变化值，w₁、w₂、w₃分别表示总消息数权重、用户数权重、群组数权重，并且w₁+w₂+w₃＝1，w₄、w₅、w₆分别表示消息扩散度权重、用户扩散度权重、群组扩散度权重，并且w₄+w₅+w₆＝1，w₇和w₈分别表示数量的传播指标权重和扩散度的传播指标权重，并且w₇+w₈＝1。

优选的是，采用公式8计算各通道的综合热度值；

value＝w₁*spread-value+w₂*participant-value+w₃*content-value 公式8

其中，spread-value代表一个通道的传播指标值，participant-value代表一个通道的主体指标值，content-value代表一个通道的内容指标值，w₁、w₂、w₃分别表示传播指标权重、主体指标权重、内容指标权重，并且w₁+w₂+w₃＝1。

优选的是，采用公式9计算目标事件的当日总热度值；

hot-value＝∑_cw_c*value_c 公式9

其中，hot-value代表目标事件的当日总热度值，c代表一个通道，w_c代表c通道的热度权重，value_c代表c通道的综合热度值，w_c的计算公式为：

其中，messsage_c代表c通道的消息数。

提供一种综合多通道数据来源的网络舆情热度评估装置，包括：

存储模块，其用于存储收集的每日各通道的流数据，并按通道来源分类存储，存储的每条流数据至少包括该条流数据的来源、发布时间、文本内容，用于存储每条流数据的敏感值和情绪标签，用于存储各通道的主体指标值、内容指标值、传播指标值、总热度值；

数据处理模块，其用于量化每条流数据对于目标事件的敏感值，以及提取每条流数据的情绪标签；

以及，用于量化各用户和/或各群组在其对应通道的敏感度和影响力，基于敏感度和影响力量化得到各通道的主体指标值；

以及，用于基于各通道的敏感消息数、各类情绪标签对应的消息数，量化得到各通道的内容指标值，其中，敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数；

以及，用于以主体指标值、内容指标值、传播指标值为参数计算得到各通道的综合热度值，以各通道的综合热度为参数计算得到当日的总热度值并储存；

以及，用于基于各通道每日的消息数、用户数、群组数，量化得到各通道的传播指标值；

以及，用于基于主体指标值、内容指标值、传播指标值，量化得到各通道的综合热度值，以各通道的综合热度为参数计算得到目标事件当日的总热度值；

输出模块，其用于输出主体指标值、内容指标值、传播指标值、总热度值。

本发明至少包括以下有益效果：

第一、不同社交平台数据格式和内容差异很大，因此需要综合考虑各个平台的特点，建立普适的网络舆情热度评估指标体系。本发明综合考虑多通道的特点，构建了主体指标、内容指标和传播指标共三方面指标，来综合评估目标事件的网络舆情热度。主体指标反映了网络事件参与主体的结构组成，传播指标评估了网络事件在网媒的传播扩散度和舆情热度，内容指标反映了对网络舆情的网民心理特征评价和内容敏感度。

第二、突破了传统方法仅通过单一通道热度来评估事件舆情热度的约束，综合考虑国内外七大主流社交平台对目标事件的讨论热度，确定各平台对舆情热度的贡献程度，从而更加全面准确的对事件热度进行评估。因此，综合多通道数据来源的网络舆情热度计算方法相较之前传统的基于单通道热度计算方法，结果更加准确全面。

第三、针对不同社交平台数据格式和内容差异很大的问题，本发明综合考虑各个平台的特点，并基础目前学术界评估网络舆情热度指标体系构建的研究，建立对七大社交平台普适的网络舆情热度评估指标体系，该指标体系不仅可以评估舆情热度值，更可深入解释网络舆情热度演化背后的作用机制。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的其中一种技术方案的框架图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供一种综合多通道数据来源的网络舆情热度评估方法，包括以下步骤：

每日收集目标事件在知乎、微博、微信、QQ、facebook、twitter和telegram共七个典型通道的流数据，服务器利用传输层ZMQ中的pull-push方案将每日的流数据平均分发到服务器各端口。在服务器接收到流数据后，分别将各通道流数据存储到对应表中，即每个通道都设置有各自的一张流数据存储表。数据库可以采用Elasticsearch分布式存储数据库，实现大规模数据快速处理存储。知乎、twitter、Facebook和微博通道的流数据至少有的字段包括event_id，mid，uid，text，timestamp；QQ、微信和telegram通道必须有的字段包括event_id，mid，group_id，uid，text，timestamp。event_id代表目标事件id，mid代表当前文本的id,，uid代表当前文本的用户id，text代表文本内容，group_id代表群组id，timetamp代表文本发布时间。

敏感值和情绪标签的计算通过字典匹配。设置一个人工维护的敏感词列表，包含若干敏感词-权重对，用户可依需要对敏感词列表进行扩充。将敏感词列表中的各敏感词依次与流数据文本内容进行匹配，比如，某条文本的敏感值(sensitive value)计算如下：

sensitive_value＝∑x_i*w_i

其中，x_i是敏感词列表中的第i项，w_i为相应的权重值。

可以采用情绪词典对文本内容进行情绪标注，具体为：首先，计算每一条流数据的文本内容属于某种情绪的权重w-sentiment，公式如下：

其中，w_s表示某条文本内容中的词语word在情绪词典中对应的权重；词语word是指情绪词典中某种情绪标签包括的具体体现词；count(word)表示该词语word在某条文本中出现的频数；然后，比较每一条文本内容在三类情绪标签下的权重，取权重最高的情绪标签作为该文本的情绪标签。情绪标签共分为“积极情绪”、“消极情绪”和“中性情绪”共三类，在数据库中分别用“1”、“-1”和“0”来表示。

在分别计算完每条流数据的敏感度和情绪标签后，将结果以键值对的形式保存到elasticsearch的流数据表中，格式为{“sensitive”:5,“sentiment”:“1”}

步骤三、量化各用户和/或各群组在其对应通道的敏感度和影响力，基于敏感度和影响力量化得到各通道的主体指标值；搜索流数据表，匹配用户和群组的相关流数据，计算各自的影响力和敏感度。在上述两个指标计算完成后，可求得各通道的用户和群组的平均影响力和平均敏感度。

比如一个通道某一用户的敏感度，可以采用以下方法计算：

筛选一段时间范围内的该通道的该用户的流数据作为语料库，时间范围比如为从当日起算最近1周的时间；

获取语料库中用户的每条流数据的敏感值，然后计算该用户的所有流数据的敏感值的平均值，即得用户的敏感度；

比如一个通道的某一群组的敏感度，可以采用以下方法计算：

筛选一段时间范围内的该通道的该群组的流数据作为语料库，时间范围比如为从当日起算最近一周的时间；

获取语料库中群组的每条流数据的敏感值，然后计算该群组的所有流数据的敏感值的平均值，即得用户的敏感度；

比如计算一个通道某一用户的影响力，可以采用以下公式计算：

user-influence＝0.2*ln(x₁+1)+0.3*ln(x₂+1)+0.3*ln(x₃+1)+0.2*ln(x₄+1)

其中，user-influence代表一个通道的一个用户的影响力，x₁为发送消息数，x₂

为获赞数，x₃为粉丝数，x₄为新增粉丝数；

比如计算一个通道某一群组的影响力，可以采用以下公式计算：

group-influence＝0.2*ln(x₁+1)+0.3*ln(x₂+1)+0.3*ln(x₃+1)+0.2*ln(x₄+1)

其中，group-influence代表一个通道的一个群组的影响力，x₁为群内最近一周发送消息数，x₂为群组内用户平均影响力，x₃为群组成员数量，x₄为最近一周新增成员数量。

一个通道所有用户的敏感度的平均值即为该通道用户的平均敏感度，一个通道所有群组的敏感度的平均值即为该通道群组的平均敏感度，一个通道所有用户的影响力的平均值即为该通道用户的平均影响力，一个通道所有群组的影响力的平均值即为该通道群组的平均影响力；

综合上述方法计算得到的各数值，可以采用以下公式量化得到一个通道的主体指标值：

比如对于知乎、微博、twitter、Facebook等通道，特点为不具有群组，可以采用以下公式计算一个通道的主体指标值：

prticipant-value＝0.5*sigmoid(avg_user-influence)+0.5*sigmoid(avg-user_sensitive)

其中，participant-value表示一个通道的主体指标值，avg-user-influence表示对应通道用户的平均影响力，avg-user-sensitive表示对应通道用户的平均敏感度；

比如对于QQ、微信和telegram通道，特点为具有群组，可以采用以下公式计算一个通道的主体指标值：

participant-value

＝0.4*[0.5*sigmoid(avg-user_influence)+0.5*sigmoid(avg-user-sensitive)]+0.6*[0.5*sigmoid(avg-group-influence)+0.5*sigmoid(avg-group-sensitive)]

其中，participant-value表示一个具有群组的通道的主体指标值，avg-user-influence表示该通道用户的平均影响力，avg-user-sensitive表示该通道用户的平均敏感度，avg-group-influence表示该通道群组的平均影响力，avg-group-sensitive表示该通道群组的平均敏感度；

采用sigmoid函数可以将各指标映射到到(0-1)的区间范围内，sigmoid函数如以下公式所示：

步骤四、统计各通道敏感消息数和各类情绪消息数，基于各通道的敏感消息数、各类情绪标签对应的消息数，量化得到各通道的内容指标值，其中，敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数；

比如可以采用以下公式计算：

content-value＝0.4*sigmod(sensitive-message)+0.1*sigmoid(neutral-message)+0.1*sigmoid(positive-message)+0.4*sigmoid(negtive-message)

其中，sensitive-message代表敏感信息数，neutral-message代表“中性情绪”标签的信息数，positive-message代表“积极情绪”标签的信息数，negtive-message代表“消极情绪”标签的信息数。

步骤五、基于各通道每日的消息数、用户数、群组数，量化得到各通道的传播指标值；统计各通道的消息数、用户数、群组数，可以计算得到消息扩散度、用户扩散度、群组扩散度，消息扩散度为当前日相对于前一日的消息数变化值、用户扩散度为当前日相对于前一日的用户数变化值、群组扩散度为当前日相对于前一日的群组数变化值；

由于扩散度的值可正可负，因此对于扩散度的标准化，可以使用tanh函数映射到(-1,1)，tanh函数的计算公式为：

比如对于知乎、微博、twitter、Facebook等通道，特点为不具有群组，可以采用以下公式计算一个通道的传播指标值：

spread-value＝0.6*[0.6*sigmoid(message-num)+0.4*sigmoid(user-num)]+0.4*[0.6*tanh(message-diffuion)+0.4*tanh(user-diffusion)]

比如对于QQ、微信、telegram等通道，特点为具有群组，可以采用以下公式计算一个通道的传播指标值：

spread-value＝0.6*[0.4*sigmoid(message-num)+0.3*sigmoid(user-num)+0.3*sigmoid(group-num)]+0.4*[0.4*tanh(message-diffuion)+0.3*tanh(user-diffusion)+0.3*tanh(group-diffusion))]

其中，message-num、user-num、group-num分别代表消息数、用户数、群组数；message-diffuion、user-diffusion、group-diffusion分别代表消息扩散度、用户扩散度和群组扩散度。

步骤六、基于主体指标值、内容指标值、传播指标值，量化得到各通道的综合热度值，以各通道的综合热度为参数计算得到目标事件当日的总热度值，可以采用以下公式计算得到各通道的综合热度值：

value＝spread-value*0.4+participant-value*0.2+content-value*0.2

其中，value代表一个通道的综合热度值，spread-value代表一个通道的传播指标值，participant-value代表一个通道的主体指标值，content-value代表一个通道的内容指标值。

在上述技术方案中，由于每天都对目标事件的主体指标、传播指标和内容指标进行计算，在此基础上综合得出当日热度值。所有这些指标和热度值均按时间顺序存储在Elasticsearch数据库中，因此查询数据库可得到目标事件从监测日期开始到当前日期为止的热度演化趋势、分析热度走势的作用机制并进一步对事件未来热度演化作处预测。这有有助于提前发布网络舆情的预警信息，迅速掌握网络舆情的发展变化趋势，更好地了解和引导网民心态，发挥网络舆情的积极作用，消除其不良影响。

在另一种技术方案中，采用敏感词匹配法量化每条流数据的敏感值，具体步骤为：

sensitive-value＝∑x_i*w_i 公式1

设置一个人工维护的敏感词列表，包含若干敏感词-权重对，用户可依需要对敏感词列表进行扩充，将敏感词列表中的各敏感词依次与流数据文本内容进行匹配，敏感词列表可以更精准的反应一个敏感事件涉及到的关键词，为后期的数据挖掘和处理提供数据基础。

在另一种技术方案中，采用情绪词典标注法提取每条流数据的情绪标签，具体步骤为：

w-sentiment＝∑_wordw_s*count(word) 公式2

在上述技术方案中，采用客户数据计算情绪权重，有助于提升一条流数被标记为哪一类情绪标签的准确性。

在另一种技术方案中，所述通道包括不具有群组的知乎、微博、twitter、Facebook和具有群组的QQ、telegram、微信。每日收集目标事件在知乎、微博、微信、QQ、facebook、twitter和telegram共七个典型通道的流数据，由于上述七个通道是当前用户数和群组数最多的，因此，收集上述七个通道的流数据可以全面的反应目标事件的网络舆情情况。

在另一种技术方案中，采用公式3计算各通道的主体指标值；

用户的影响力采用公式4计算；

群组的影响力采用公式5计算；

在上述技术方案中，通过设置各类权重的大小，以及限定权重的范围，以及结合sigmoid函数的规范化处理计算得到的主体指标值可以深入全面的反应网络事件参与主体的结构组成，为网络舆情热度的评估提供扎实可靠的数据基础。

在另一种技术方案中，采用公式6计算各通道的内容指标值；

在上述技术方案中，通过设置各类权重的大小，以及限定权重的范围，以及结合sigmoid函数的规范化处理计算得到的内容指标值可以反映对网络舆情的网民心理特征评价和内容敏感度，为网络舆情热度的评估提供扎实可靠的数据基础。

在另一种技术方案中，采用公式7计算各通道的传播指标值；

spread-value＝w₂₇*[w₁*sigmoid(message-num)+w₂*sigmoid(user-num)+w₃*sigmoid(group-num)]+w₈*[w₄*tanh(message-diffusion)+w₅*tanh(user-diffusion)+w₆*tanh(group-diffusion)] 公式7

在上述技术方案中，通过设置各类权重的大小，以及限定权重的范围，以及结合sigmoid函数的规范化处理计算得到的内容指标值可以全面的评估网络事件在网媒的传播扩散度和舆情热度，为网络舆情热度的评估提供扎实可靠的数据基础。

在另一种技术方案中，采用公式8计算各通道的综合热度值；

value＝w₁*spread-value+w₂*participant-value+w₃*content-value 公式8

在上述技术方案中，基于sigmoid函数的规范化处理和tanh函数映射标准化，综合主体指标、内容指标和传播指标共三方面指标，以综合评估目标事件的网络舆情热度，从而达到评估更准确全面的目的。

在另一种技术方案中，采用公式9计算目标事件的当日总热度值；

hot-value＝∑_cw_c*value_c 公式9

其中，messsage_c代表c通道的消息数。

在上述技术方案中，在综合考虑国内外各大主流社交平台对目标事件讨论热度的基础上，确定各平台对舆情热度的贡献程度，从而更加全面准确的对事件热度进行评估。针对不同社交平台数据格式和内容差异很大的问题，建立对七大社交平台普适的网络舆情热度评估指标体系。该指标体系不仅可以评估舆情热度值，更可深入解释网络舆情热度演化背后的作用机制。

在上述技术方案中，由于每天都对目标事件的主体指标、传播指标和内容指标进行计算，在此基础上综合得出当日热度值。所有这些指标和热度值均按时间顺序存储在数据库中，因此查询数据库可得到目标事件从监测日期开始到当前日期为止的热度演化趋势、分析热度走势的作用机制并进一步对事件未来热度演化作处预测。有助于提前发布网络舆情的预警信息，迅速掌握网络舆情的发展变化趋势，更好地了解和引导网民心态，发挥网络舆情的积极作用，消除其不良影响。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.综合多通道数据来源的网络舆情热度评估方法，其特征在于，包括以下步骤：

2.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法，其特征在于，采用敏感词匹配法量化每条流数据的敏感值，具体步骤为：

sensitive-value＝∑x_i*w_i 公式1

3.如权利要求2所述的综合多通道数据来源的网络舆情热度评估方法，其特征在于，采用情绪词典标注法提取每条流数据的情绪标签，具体步骤为：

w-sentiment＝∑_wordw_s*count(word) 公式2

4.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法，其特征在于，所述通道包括不具有群组的知乎、微博、twitter、Facebook和具有群组的QQ、telegram、微信。

5.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法，其特征在于，采用公式3计算各通道的主体指标值；

用户的影响力采用公式4计算；

群组的影响力采用公式5计算；

6.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法，其特征在于，采用公式6计算各通道的内容指标值；

content-value＝w₁*sigmoid(sensitive-message)+w₂*sigmoid(neutral-message)+w₃*sigmoid(positive-message)+w₄*sigmoid(negtive-message)公式6

7.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法，其特征在于，采用公式7计算各通道的传播指标值；

8.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法，其特征在于，

采用公式8计算各通道的综合热度值；

value＝w₁*spread-value+w₂*participant-value+w₃*content-value 公式8

9.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法，其特征在于，

采用公式9计算目标事件的当日总热度值；

hot-value＝ ∑_cw_c*value_c 公式9

其中，messsage_c代表c通道的消息数。

10.如权利要求1所述的综合多通道数据来源的网络舆情热度评估装置，其特征在于，包括：