CN111506789A

CN111506789A - 一种基于汽车行业的舆情数据分析方法

Info

Publication number: CN111506789A
Application number: CN202010271587.5A
Authority: CN
Inventors: 毛雷雷; 何庆海; 伊鹏翔
Original assignee: Shanghai Branch Of Xuanya International Marketing Technology Beijing Co ltd
Current assignee: Shanghai Branch Of Xuanya International Marketing Technology Beijing Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-08-07

Abstract

本发明提供一种基于汽车行业舆情数据分析方法，通过获取汽车行业的所有网络信息内容；基于特征词对所述网络信息内容进行机器学习，判断是否存在相同特征词；将存在相同特征词的网络信息内容归为相似群；根据所述相似群计算汽车行业的关注度，基于所述关注度计算汽车行业舆情健康状况。本发明能够通过计算所有平台的影响力来衡量其背后的商业价值，辅助验证投入和产出是否合理；本发明还可以在复杂的网络舆论场，汽车品牌利用影响力算法模型合理评估当下舆情健康状况(即正向信息与负向信息的占比情况)，并基于此制定合理的舆情策略。

Description

一种基于汽车行业的舆情数据分析方法

技术领域

本发明涉及数据分析技术领域，特别是涉及一种基于汽车行业的舆情数据分析方法。

背景技术

随着舆论环境的日益发展，品牌舆情越来越难以仅通过人工监测评估，媒体数量粉尘化、内容源头无理化、传播形式病毒化、媒体平台利益化、跟风言论情绪化种种，新舆论环境场，需要建立客观的评估指标来评判舆情状况。目前大多平台数据一般不对外开放通用数据获取接口，导致数据获取难度较大，难以标准化进行分析。同时，目前市场上没有对于文章或视频影响力成型权威的判断标准，个人也无法通过其他的方式来构建这个标准，从而造成了大多数人评定的影响力权威性不强的问题，因而也不具备行业性评估标准。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于汽车行业的舆情数据分析方法，用于解决现有技术存在的问题。

为实现上述目的及其他相关目的，本发明提供一种基于汽车行业的舆情数据分析方法，包括有如下步骤：

获取汽车行业的所有网络信息内容；

基于特征词对所述网络信息内容进行机器学习，判断是否存在相同特征词；将存在相同特征词的网络信息内容归为相似群；

根据所述相似群计算汽车行业的关注度，基于所述关注度计算汽车行业舆情健康状况。

可选地，所述网络信息内容的来源包括以下至少之一：网站、网页、客户端、微博、微信、论坛、视频平台、问答平台。

可选地，若所述网络信息内容的来源为网站或网页，则所述网站或网页中汽车行业的关注度包括可直接采集阅读数的网站或网页文章和不可直接采集阅读数的网站或网页文章；其中，

可直接采集阅读数的网站或网页文章关注度＝相似群阅读数之和÷1000；

不可直接采集阅读数的网站或网页首页单篇文章关注度＝(首页文章页面浏览量加权系数*网站总页面浏览量÷网站总链接数÷10)÷1000。

可选地，若所述网络信息内容的来源为客户端，则所述客户端中汽车行业的关注度包括可直接采集阅读数的客户端文章和不可直接采集阅读数的客户端文章；其中，

可直接采集阅读数的客户端文章关注度＝相似群阅读数之和÷1000；

不可直接采集阅读数的客户端首页单篇文章关注度＝(首页文章页面浏览量加权系数*网站总页面浏览量÷网站总链接数÷10)÷1000。

可选地，若所述网络信息内容的来源为微信，则所述微信中汽车行业的关注度包括可直接采集阅读数的微信文章关注度，其中，

可直接采集阅读数的微信文章关注度＝相似群阅读数之和÷1000。

可选地，若所述网络信息内容的来源为微博，则所述微博中汽车行业的关注度包括微博关注度，其中，

微博关注度＝(EXP(LN(转发数+评论数+点赞数+1)*1.1-LN(转发数+评论数+点赞数+1)^2*0.18+LN(转发数+评论数+点赞数+1)^3*0.013+7.64)-1)÷1000；

当转发数+评论数+点赞数＝0时，赋值微博阅读量为100，即微博关注度为0.1。

可选地，若所述网络信息内容的来源为论坛，则所述论坛中汽车行业的关注度包括论坛帖关注度，其中，

论坛帖关注度＝相似论坛帖阅读数之和÷1000。

可选地，若所述网络信息内容的来源为问答平台，则所述问答平台中汽车行业的关注度包括可直接采集阅读数的问答平台文章关注度和不可直接采集阅读数的问答平台文章关注度，其中，

可直接采集阅读数的问答平台文章关注度＝问题阅读量÷1000；

不可直接采集阅读数的问答平台文章关注度＝(首页文章页面浏览量加权系数*网站总页面浏览量÷网站总链接数÷10)÷1000。

可选地，若所述网络信息内容的来源为视频平台，则所述视频平台中汽车行业的关注度包括可直接采集阅读数的视频平台文章关注度和不可直接采集阅读数的视频平台文章关注度，其中，

可直接采集阅读数的视频平台文章关注度＝相似视频群阅读数之和÷1000；

不可直接采集阅读数的视频平台文章关注度＝(首页文章页面浏览量加权系数*网站总页面浏览量÷网站总链接数÷10)÷1000。

可选地，单篇相似群的关注度＝总阅读量÷1000；至少包括：

单篇相似群在多平台上的关注度＝(微博阅读数+微信阅读数+网站阅读数+网页阅读数+客户端阅读数+论坛阅读数+视频平台阅读数+问答平台阅读数)÷1000。

如上所述，本发明提供的一种基于汽车行业舆情数据分析方法，具有以下有益效果：

通过获取汽车行业的所有网络信息内容；基于特征词对所述网络信息内容进行机器学习，判断是否存在相同特征词；将存在相同特征词的网络信息内容归为相似群；根据所述相似群计算汽车行业的关注度，基于所述关注度计算汽车行业舆情健康状况。本发明能够通过计算所有平台的影响力来衡量其背后的商业价值，辅助验证投入和产出是否合理；本发明还可以在复杂的网络舆论场，汽车品牌利用影响力算法模型合理评估当下舆情健康状况(即正向信息与负向信息的占比情况)，并基于此制定合理的舆情策略。

附图说明

图1为一实施例提供的基于汽车行业的舆情数据分析方法。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

关注度：媒体或用户在统计周期内对品牌或车型或某一事件的关注程度。(1个关注度＝1000个阅读数)

声量：品牌或车型或某一事件在统计周期内网络传播扩散的总量。

请参阅图1，本发明提供一种基于汽车行业的舆情数据分析方法，包括有如下步骤：

S100，获取汽车行业的所有网络信息内容；

S200，基于特征词对所述网络信息内容进行机器学习，判断是否存在相同特征词；将存在相同特征词的网络信息内容归为相似群；其中，客户端、微信、微博、网站中标题相同或文章内容80％相似，则判定客户端、微信、微博、网站中存在相似群；论坛主帖标题一致或主帖内容80％相似，则判定论坛存在相似群；视频标题一致或视频内容相似，则判定视频平台存在相似群。

S300，根据所述相似群计算汽车行业的关注度，基于所述关注度计算汽车行业舆情健康状况。

本发明通过获取汽车行业的所有网络信息内容；基于特征词对所述网络信息内容进行机器学习，判断是否存在相同特征词；将存在相同特征词的网络信息内容归为相似群；根据所述相似群计算汽车行业的关注度，基于所述关注度计算汽车行业舆情健康状况。本发明能够通过计算所有平台的影响力来衡量其背后的商业价值，辅助验证投入和产出是否合理；本发明还可以在复杂的网络舆论场，汽车品牌利用影响力算法模型合理评估当下舆情健康状况(即正向信息与负向信息的占比情况)，并基于此制定合理的舆情策略。

在一些示例性实施例中，所述网络信息内容的来源包括以下至少之一：网站、网页、客户端、微博、微信、论坛、视频平台、问答平台。

具体地，在一示例性实施例中，若所述网络信息内容的来源为网站或网页，则所述网站或网页中汽车行业的关注度包括可直接采集阅读数的网站或网页文章和不可直接采集阅读数的网站或网页文章；其中，

可直接采集阅读数的网站或网页文章关注度＝相似群阅读数之和÷1000；可直接采集阅读数平台：部分网站文章可直接采集到阅读数，认为采集总阅读数即为其覆盖人次；如汽车之家、爱卡汽车等。

不可直接采集阅读数平台：网站平台的覆盖人数或阅读数为页面浏览量(PageView，即PV值)÷10，即10个页面浏览带来一个阅读；基于网站PV值、网站总链接数、频道位置，去计算单篇文章PV值。不可直接采集阅读数的网站或网页首页单篇文章关注度＝(首页文章页面浏览量加权系数*网站总页面浏览量÷网站总链接数÷10)÷1000。例如，基于对149,840篇汽车相关网站文章的数据测算，发现1144篇首页文章平均阅读数和148696篇非首页文章平均阅读数为7.48:1.85，故认为首页文章PV值加权系数约为4(此为动态系数，不同站点、不同时间段的系数值均有不同，一个季度迭代一次)。

首页单篇文章关注度＝[4*网站总PV÷网站总链接数÷10]÷1000。

具体地，在一示例性实施例中，若所述网络信息内容的来源为客户端，则所述客户端中汽车行业的关注度包括可直接采集阅读数的客户端文章和不可直接采集阅读数的客户端文章；其中，

可直接采集阅读数的客户端文章关注度＝相似群阅读数之和÷1000；可直接采集阅读数平台：部分客户端上可直接采集相似群的阅读数，如今日头条、易车、百家号、搜狐新闻等直接将阅读数作为覆盖人次。

不可直接采集阅读数的客户端首页单篇文章关注度＝(首页文章页面浏览量加权系数*网站总页面浏览量÷网站总链接数÷10)÷1000。不可采集阅读数平台：部分无法采集阅读数的客户端，如天天快报、一点资讯、网易新闻、腾讯新闻等，根据其PV和链接数估算其覆盖人次。

具体地，在一示例性实施例中，若所述网络信息内容的来源为微信，则所述微信中汽车行业的关注度包括可直接采集阅读数的微信文章关注度，其中，可直接采集阅读数的微信文章关注度＝相似群阅读数之和÷1000。微信公众号文章可直接采集到阅读数，认为采集总阅读数即为其覆盖人次。

具体地，在一示例性实施例中，若所述网络信息内容的来源为微博，则所述微博中汽车行业的关注度包括微博关注度，其中，微博平台无法采集阅读数，但能采集到转评赞数据。通过对官方3022组微博数据进行线性回归测算，得出如下公式；并通过测算，2.0版本的微博算法较1.0版本更为精确。

微博关注度＝(EXP(LN(转发量+评论量+点赞量+1)*1.1-LN(转发量+评论量+点赞量+1)^2*0.18+LN(转发量+评论量+点赞量+1)^3*0.013+7.64)-1)÷1000；

当转发量+评论量+点赞量＝0时，赋值微博阅读量为100，即微博关注度为0.1。

具体地，在一示例性实施例中，若所述网络信息内容的来源为论坛，则所述论坛中汽车行业的关注度包括论坛帖关注度，其中，论坛帖关注度＝相似论坛帖阅读数之和÷1000论坛帖(太平洋汽车网论坛、爱卡汽车论坛、汽车之家论坛、易车社区)可直接采集到阅读数，故认为点击数即为其阅读数。因论坛平台优质帖一般会在发布后一段时间才被推荐至论坛精选页面，如汽车之家精选日报，将导致该论坛帖流量暴增。因此，在精选页面固定点位进行补录抓取，并作为新增论坛帖收录进当天数据，从而应对论坛帖阅读数暴增的情况。

具体地，在一示例性实施例中，若所述网络信息内容的来源为问答平台，则所述问答平台中汽车行业的关注度包括可直接采集阅读数的问答平台文章关注度和不可直接采集阅读数的问答平台文章关注度，其中，

不可直接采集阅读数的问答平台文章关注度＝(首页文章页面浏览量加权系数*网站总页面浏览量÷网站总链接数÷10)÷1000。部分不对外公开传播数据或在采集页面不显示阅读数的问答平台(爱问问答、搜搜问答)或半公开阅读数平台(悟空问答)，采用PV值与链接换算阅读量。首页加权系数同网站，约为4。

具体地，在一示例性实施例中，若所述网络信息内容的来源为视频平台，则所述视频平台中汽车行业的关注度包括可直接采集阅读数的视频平台文章关注度和不可直接采集阅读数的视频平台文章关注度，其中，

可直接采集阅读数的视频平台文章关注度＝相似视频群阅读数之和÷1000；可直接采集播放量视频平台：部分视频平台可直接采集相似群的阅读数，以采集数直接计算阅读量。如美拍、西瓜app，腾讯，芒果TV，汽车之家，易车网。

其中，部分智能推送平台(如抖音)不显示播放数，只显示转发数、评论、点赞量。抖音为头条系产品，默认采用头条系推荐规则，即抖音视频会先推荐给一部分用户，若点赞、转发、评论达到一定水平，则会将视频推荐给更多的用户。

因此，抖音算法基于汽车话题下440,404组数据的点赞、转发、评论即与用户的互动量来测算其播放量。算法结合转评赞三个变量研究，用以衡量三个变量在其所属维度的相对表现并转换为其变量权重，参考维度更广，且通过汽车官方454组抖音数据，验证算法准确率达90.07％，故得出公式。

抖音视频关注度＝EXP(0.30274594*ln(转发数+1)+0.03097085*ln(评论数+1)+0.80523404*ln(点赞数+1)+3.82411762)÷1000。

不可直接采集阅读数的视频平台文章关注度＝(首页文章页面浏览量加权系数*网站总页面浏览量÷网站总链接数÷10)÷1000。不可采集播放量视频平台：部分无法采集播放量的视频平台，如梨视频，采用PV值与链接换算阅读量。首页加权系数同网站，约为4。

根据上述示例性实施例，单篇相似群的关注度＝总阅读量÷1000；至少包括：

基于以上方法，加和相似群在各大平台的阅读量(覆盖人次)得到总阅读量，由于总阅读量的数据值较大，因此选用关注度为千人阅读量，即关注度＝阅读量÷1000。单篇相似群在多平台上的关注度＝(微博阅读数+微信阅读数+网站阅读数+网页阅读数+客户端阅读数+论坛阅读数+视频平台阅读数+问答平台阅读数)÷1000。

基于关注度计算汽车企业舆情健康状况，具体地，权重系数＝网站或网页：微信：视频：论坛：问答：微博＝67：13：12：5：2：1。如表1所示。

表1权重系数表

权重设置：当下网络环境错综复杂，媒体平台、社交平台对于传播的重要性不同，简单地放在一个盘子里考虑，不考虑平台的特性将无法把控整体舆情环境。将不同平台赋予不同的权重，能够更为科学地衡量舆情健康度。

权重设置原则：各渠道排名前五的平台总PV与其汽车版块PV之间的比重，即为该渠道在汽车行业的流量占比。不同渠道之间的汽车流量比值，即为客观的行业权重系数。

备注：权重设置数据来源：Alexa中国、新榜、Talking data及行业报告等。

权重设置步骤：可直接计算PV值的平台如今日头条、腾讯新闻等)直接通过总PV*汽车版块PV计算占比；不可直接计算PV值需通过月活进行换算(如微博、抖音、微信等)，再通过新榜等行业公开数据测算其在汽车版块流量。

例如：微信汽车版块流量＝新榜中微信公众号影响力TOP 500中的汽车账号的阅读量/TOP500账号总阅读量；具体计算如表2所示。

表2多个平台中汽车板块流量数据表

其中，正关注度为非负面的信息关注度；加总表示对所有的正中关注度进行求和。

获取舆情健康度的计算结果，根据计算结果在表3中确定某一个或多个汽车企业的舆情健康度。例如，根据上述计算公式计算出某一个汽车企业的舆情健康度评分为88分，则根据表3确定该汽车企业舆情健康度为健康。

表3舆情健康度指标

本发明通过获取汽车行业的所有网络信息内容；基于特征词对所述网络信息内容进行机器学习，判断是否存在相同特征词；将存在相同特征词的网络信息内容归为相似群；根据所述相似群计算汽车行业的关注度，基于所述关注度计算汽车行业舆情健康状况。本发明能够通过计算所有平台的影响力来衡量其背后的商业价值，辅助验证投入和产出是否合理；本发明还可以在复杂的网络舆论场，汽车品牌利用影响力算法模型合理评估当下舆情健康状况(即正向信息与负向信息的占比情况)，并基于此制定合理的舆情策略。本发明覆盖媒体及用户平台，算法全面：本算法通过研究媒体文章、微博、视频、用户论坛、问答等平台的转发、回复等互动数据，从而计算并量化其影响力，即本算法模型中提及的关注度。本发明将全网公开数据与半公开数据均纳入考核范围：全面对媒体及用户内容影响力的客观考量，更为真实地展示汽车行业的舆情环境。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于汽车行业的舆情数据分析方法，其特征在于，包括有如下步骤：

获取汽车行业的所有网络信息内容；

2.根据权利要求1所述的基于汽车行业的舆情数据分析方法，其特征在于，所述网络信息内容的来源包括以下至少之一：网站、网页、客户端、微博、微信、论坛、视频平台、问答平台。

3.根据权利要求2所述的基于汽车行业的舆情数据分析方法，其特征在于，若所述网络信息内容的来源为网站或网页，则所述网站或网页中汽车行业的关注度包括可直接采集阅读数的网站或网页文章和不可直接采集阅读数的网站或网页文章；其中，

4.根据权利要求2所述的基于汽车行业的舆情数据分析方法，其特征在于，若所述网络信息内容的来源为客户端，则所述客户端中汽车行业的关注度包括可直接采集阅读数的客户端文章和不可直接采集阅读数的客户端文章；其中，

5.根据权利要求2所述的基于汽车行业的舆情数据分析方法，其特征在于，若所述网络信息内容的来源为微信，则所述微信中汽车行业的关注度包括可直接采集阅读数的微信文章关注度，其中，

6.根据权利要求2所述的基于汽车行业的舆情数据分析方法，其特征在于，若所述网络信息内容的来源为微博，则所述微博中汽车行业的关注度包括微博关注度，其中，

微博关注度＝(EXP(LN(转发数+评论数+点赞数+1)*1.1-LN(转发数+评论数+点赞数+1)^2*0.18+LN(转发数+评论数+点赞数+1)^3*0.013+7.64)–1)÷1000；

7.根据权利要求2所述的基于汽车行业的舆情数据分析方法，其特征在于，若所述网络信息内容的来源为论坛，则所述论坛中汽车行业的关注度包括论坛帖关注度，其中，

论坛帖关注度＝相似论坛帖阅读数之和÷1000。

8.根据权利要求2所述的基于汽车行业的舆情数据分析方法，其特征在于，若所述网络信息内容的来源为问答平台，则所述问答平台中汽车行业的关注度包括可直接采集阅读数的问答平台文章关注度和不可直接采集阅读数的问答平台文章关注度，其中，

9.根据权利要求2所述的基于汽车行业的舆情数据分析方法，其特征在于，若所述网络信息内容的来源为视频平台，则所述视频平台中汽车行业的关注度包括可直接采集阅读数的视频平台文章关注度和不可直接采集阅读数的视频平台文章关注度，其中，

10.根据权利要求2至9任一所述的基于汽车行业的舆情数据分析方法，其特征在于，单篇相似群的关注度＝总阅读量÷1000；至少包括：