CN108492009A - 影响力评价系统构建方法及系统、影响力评价方法 - Google Patents
影响力评价系统构建方法及系统、影响力评价方法 Download PDFInfo
- Publication number
- CN108492009A CN108492009A CN201810182705.8A CN201810182705A CN108492009A CN 108492009 A CN108492009 A CN 108492009A CN 201810182705 A CN201810182705 A CN 201810182705A CN 108492009 A CN108492009 A CN 108492009A
- Authority
- CN
- China
- Prior art keywords
- influence power
- influence
- index
- dimension
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 45
- 238000010276 construction Methods 0.000 title claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 230000001133 acceleration Effects 0.000 claims description 18
- 238000000513 principal component analysis Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 17
- 238000004364 calculation method Methods 0.000 abstract description 9
- 241001269238 Data Species 0.000 abstract description 6
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 238000013178 mathematical model Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 210000003813 thumb Anatomy 0.000 description 5
- 238000013480 data collection Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000003811 finger Anatomy 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种影响力评价系统构建方法及系统、影响力评价方法,其影响力评价系统构建方法,包括:获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据;将获取的各个影响力维度的数据分别转换成分贝数;根据所述分贝数并通过降维算法构建影响力指数模型。本发明通过阅读数、点赞数、转发数、评论数等基础数据,对文章、事件、媒体等媒体对象的综合影响力进行科学、定量的评估。本发明方法除了能保证数学上的最优以外,更重要的特点是不依赖于计算公式设计者自己的偏好。所有权重都是根据大规模的数据计算所得,因此具有客观性。最终计算的网络媒体影响力,即影响力指数,以特定的高影响力的媒体为基准,其值具备清晰的物理含义。
Description
技术领域
本发明涉及数据分析领域,特别涉及一种影响力评价系统构建方法及系统、影响力评价方法。
背景技术
随着互联网的不断发展,信息在网络上的传播已经远远超过传统媒体的传播范围、传播速度、影响范围。在传统媒体里,信息的影响力很容易评估。比如报纸可以用发行量来描述,电视可以用收视率来描述。然而,如何有效的评价每一条网络信息,每一个新闻网站对社会的影响力则很难通过简单的方式完成。主要原因是,在互联网上每条信息的影响力要比传统媒体的影响力要丰富得多。比如可以用总体访问量、发文量、阅读量、点击量、点赞数、回复数、转发数等基础数据来描述一篇文章的影响力;可以用一个站点上的所有的文章数量,结合站点的访问量,独立IP访问量等信息来描述整个站点的影响力;可以用一个事件所有相关文章的基础数据,来衡量这个事件的影响力;可以用一篇文章或者一个事件的基础数据,结合文章的情感分类信息、敏感度等来衡量这篇文章或者事件的“紧急”程度。
目前的方法都是通过人为设定权重,对相关的多个指标进行加权,进而计算出一个综合指数进行评价。但是,由于网络媒体影响力所涉及到的基础数据来源多样,现有方法的最主要缺点是确定每个指标的权重时没有严谨的数学分析与数学基础支撑,从而导致以下一些难以解决的具体问题:
(1)主要依赖专家经验和不断修正调,难以合理科学的设置权重。
(2)权重较难通用。
不同应用场景,权重很难通用。相同应用场景下,不同数据集如果数据发生较大变化时,权重也难以通用。
(3)难以科学的消除数据相关性。
衡量媒体影响力的多个指标影响力维度之间往往具有很大的相关性,通过人工设定权重的方法很难科学的消除这些相关性。
(4)物理含义不清晰。
原有方法设置的权重和最终计算出的网络媒体影响力的物理含义模糊,不具备直观可解释性。
因此,如何根据众多衡量指标,计算出一个通用的可用于衡量单条信息、事件或者网络媒体的影响力或者“紧急”程度的网络影响力指数,是本文要解决的技术问题。
发明内容
本发明实施例的目的是提供一种影响力评价系统构建方法及系统、影响力评价方法,以通过数学方法解决在计算媒体影响力时人工加权的问题。
本发明实施例提出一种影响力评价系统构建方法,包括:
获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据;
将获取的各个影响力维度的数据分别转换成分贝数;
根据所述分贝数并通过降维算法构建影响力指数模型。
依照本发明较佳实施例所述的影响力评价系统构建方法,所述的影响力维度包括广度、深度、速度、加速度、敏感度及时长;
所述获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据的步骤包括:根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度的设定数量的历史数据。
依照本发明较佳实施例所述的影响力评价系统构建方法,所述将获取的各个影响力维度的数据分别转换成分贝数的步骤中,通过以下公式计算所述分贝数:
L=blogcP
其中,L为所述分贝数,P为待计算的影响力维度上的数据总数,b和c均为预设的常数值。
依照本发明较佳实施例所述的影响力评价系统构建方法,所述根据所述分贝数并通过降维算法构建影响力指数模型的步骤包括:根据所述分贝数并通过主成分分析构建影响力指数模型。
依照本发明较佳实施例所述的影响力评价系统构建方法,所述根据所述分贝数并通过降维算法构建影响力指数模型的步骤中,通过以下公式构建所述影响力指数模型:
其中,L为所述分贝数,MID为所述影响力指数,mi为加权系数,且,m1 2+m2 2+……+mi 2=1,ai为预设的业务权重。
本发明另提出一种影响力评价方法,获取待评价对象的数据,并通过如权利要求1~5任一项所述的影响力评价系统构建方法构建的影响力指数模型计算待评价对象的影响力指数。
本发明还提出一种影响力评价系统构建系统,包括:
数据获取模块,用于获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据;
分贝转换模块,用于将获取的各个影响力维度的数据分别转换成分贝数;
模型构建模块,用于根据所述分贝数并通过降维算法构建影响力指数模型。
依照本发明较佳实施例所述的影响力评价系统构建系统,所述的影响力维度包括广度、深度、速度、加速度、敏感度及时长;
所述数据获取模块根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度中至少一个影响力指标的设定数量的历史数据。
依照本发明较佳实施例所述的影响力评价系统构建系统,所述模型构建模块根据所述分贝数并通过主成分分析构建影响力指数模型。
依照本发明较佳实施例所述的影响力评价系统构建系统,所述模型构建模块通过以下公式构建所述影响力指数模型:
其中,MID为所述影响力指数,mi为加权系数,且,m1 2+m2 2+……+mi 2=1,ai为预设的业务权重,P为待计算的影响力维度上的数据总数,b和c均为预设的常数值。
本发明通过阅读数、点赞数、转发数、评论数等基础数据,对文章、事件、媒体等媒体对象的综合影响力进行科学、定量的评估。本发明方法除了能保证数学上的最优以外,更重要的特点是不依赖于计算公式设计者自己的偏好。所有权重都是根据大规模的数据计算所得,因此具有客观性。最终计算的网络媒体影响力,即影响力指数,以特定的高影响力的媒体为基准,其值具备清晰的物理含义。本发明的特点和能解决的问题总结如下:
(1)通过数学模型自动计算权重,具有严谨的数学基础。
通过数学模型,建模和自动计算评价指数,自动确定权重。具有严谨的数学基础。解决了以上总结的人工设定权重的各种问题。
(2)自动消除相关性。
自动计算权重的过程中,通过数学模型,线性最优地消除相关性。
(3)具有通用性。
不同场景、不同数据集的情况下,权重都是自动计算的,所以本发明具有很强的通用性。
(4)具有科学的影响力单位。
用分贝作为影响力单位,更科学合理,更符合人对影响力的主观感受,解决了以往各种排行指数定义中指数含义不明确、指数大小与人主对影响力的观感受不一致的问题。
(5)具有明确的物理含义。
影响力指数的物理含义是:对由各个影响力数据相乘得到的“影响力体积”取自然对数,转换为影响力分贝;并且数据相乘的时候,由自动计算的系数对各个数据以指数方式进行加权。
(6)设定指标媒体作为权威参考基准。
计算指标媒体的平均影响力指数,为影响力指数提供权威的参考基准。
(7)通过影响力级别直观评估影响力。
可以通过影响力级别能很方便粗略估计影响力大小。例如1~10级,类似地震级别,非常直观。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
图1为本发明实施例的一种影响力评价系统构建方法的流程图;
图2为本发明实施例的一种影响力指数示意图;
图3为本发明实施例的一种影响力评价方法计算过程示意图;
图4为本发明实施例的一种影响力评价系统构建系统的结构示意图。
具体实施方式
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
本发明实施例中所述的数据,是指用于影响力评价的基础数据。比如具体的阅读数和转发数数据。本发明实施例中所述的指标,是指用以计算评价结果的基础数据变量及其各种运算的结果,比如新闻的阅读数、转发数、平均阅读数等。本发明实施例中所述的指数,是指用指数表示评价结果的高低。
本发明基于影响力分贝指数模型的的影响力评价体系,旨在通过阅读数、点赞数、转发数、评论数等数据,对文章、事件等媒体的综合影响力进行科学、定量的评估。请参见图1,其为本发明实施例的一种影响力评价系统构建方法的流程图,其包括以下步骤:
S100,获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据。
S200,将获取的各个影响力维度的数据分别转换成分贝数。
S300,根据所述分贝数并通过降维算法构建影响力指数模型。
步骤S100中,需要选取一些基准作为参考标准。比如选取指标媒体,作为媒体影响力的参考基准。例如可以将14家中央重点新闻网站作为指标媒体,如表1所示:
人民网 | 新华网 | 中国网 | 国际在线 | 中国日报网站 |
中国网络电视台 | 中国青年网 | 中国经济网 | 中国台湾网 | 中国西藏网 |
光明网 | 央广网 | 中国新闻网 | 中青在线 |
表1
当然,数据的来源,即基准媒体的选择可以根据需求变化,根据不同的媒体类型选择不同的基准。比如对于微信公众号,我们可以手动选择最有代表性的30个账号作为基准。
所述的影响力维度可以包括广度、深度、速度、加速度、敏感度及时长等。获取数据时,可以根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度的设定数量的历史数据。每个影响力维度下,都可以包含一种或多种指标的数据。如表2所示:
表2
表2中,广度、深度、速度、加速度、敏感度及时长属于影响力维度。其中,维度广度下包括文章数、阅读数等多种影响力指标,维度深度下包括转载量、转发量、评论数、点赞数等多种影响力指标,维度速度、加速度、敏感度及时长下也同样包括一种或多种影响力指标。
不同情况下,可以采用不同影响力维度的指标对影响力进行衡量。比如对文章影响力和媒体影响力,可以用广度和深度指标;对事件影响力,可以再增加速度、时长等指标;对于预警指数,可以再增加加速度和敏感度指标。如表3~表6所示:
表3
表4
表5
表6
表3~表6分别示出了适合媒体、文章、事件、舆情预警指数采集数据的影响力维度和影响力指数。
表2~表6的数据采集方式为本发明实施例的优选方案。但并不以此为限,数据采集可以包含其它类型的和影响力相关的数据,比如网站的访问量,独立IP访问量,每条新闻的访问量,每条新闻的长度等。
步骤S200中,即所述将获取的各个影响力维度的数据分别转换成分贝数的步骤中,通过以下公式计算所述分贝数:
L=blogcP
其中,L为所述分贝数,P为待计算的影响力维度上的数据总数,b和c均为预设的常数值。
本发明优选参考声音响度定义将数据转换为分贝数,也便于计算,即b取20,c取10:
L=20log10P
实验证明,声音的分贝数增加或减少一倍,人耳听觉响度也提高或降低一倍,即人耳听觉与声音功率分贝数成正比。所以,参考声音响度定义,定义影响力分贝作为影响力单位,可以更好的跟人对影响力的主观感受保持一致。
步骤S300中,即根据所述分贝数并通过降维算法构建影响力指数模型的步骤,可以根据分贝数并通过主成分分析(Principal Component Analysis,PCA)构建影响力指数模型。
当然,PCA仅为本发明优选的分析算法,除了PCA,本发明还可以用其他的降维方法。例如,Locally linear embedding,Autoencoder,Laplacian Eigenmaps,LocalPreserving Projection,Isomap,流形嵌入等。
影响力指数计算,实质上是将输入的多个维度的指标组成的向量,映射到一维指数空间。所以采用PCA进行建模和计算。PCA是模式识别和机器学习领域非常经典的数学方法。
本发明实施例优选可以通过以下公式构建所述影响力指数模型:
其中,L为所述分贝数,MID为所述影响力指数,mi为加权系数,且,m1 2+m2 2+……+mi 2=1,ai为预设的业务权重。
为便于理解,以构建媒体的影响力模型为例,现采集广度下的点赞数和深度下的阅读数,用下面公式进行计算:
MID=a1*m1*20log10RM+a2*m2*20log10VM
RM、VM分别为该媒体所有文章总的阅读数和点赞数,m1、m2为加权系数通过PCA自动求取(对应于图2,m1=cosθ,m2=sinθ),m1 2+m2 2=1,保证方差不变。a1和a2是业务权重,表示从业务需要的角度设置设置的指标重要性,即阅读数和点赞数哪一个更重要。默认取值为1,可以根据需要调整。比如0.5或者2,表示重要性降低一半或提升一倍。
通过计算,就可以获得如图2所示的影响力指数示意图,从图2中可以看到,文章的阅读数和点赞数具有明显的线性相关性。通过分析数据分布,自动求解得到图2中蓝色的轴线,该轴线能最大限度的代表原有数据,这里采用该轴线代表影响力指数数据。例如,假设图2中文章a的阅读数是10万,点赞数都是1万,通过将a投影到指数轴上,即可得到影响力指数a’=127分贝。
当有多个影响力维度多个影响力指标的数据时,通过类似上述原理,同样可以将多个影响力维度多个影响力指标的数据合成为一个影响力指数数据。通过影响力指数即可对媒体影响力进行排行,如表7如示:
表7
类似的,可以定义文章影响力分贝指数:AII(Article Influence DB-Index)、事件影响力分贝指数:EII(Event Influence DB-Index)和舆情预警分贝指数:PPI(Public-opinion Precaution DB-Index),计算方法类似。
本发明实施例通过阅读数、点赞数、转发数、评论数等基础数据,对文章、事件、媒体等媒体对象的综合影响力进行科学、定量的评估。本发明方法除了能保证数学上的最优以外,更重要的特点是不依赖于计算公式设计者自己的偏好。所有权重都是根据大规模的数据计算所得,因此具有客观性。最终计算的网络媒体影响力,即影响力指数,以特定的高影响力的媒体为基准,其值具备清晰的物理含义。本发明的特点和能解决的问题总结如下:
(1)通过数学模型自动计算权重,具有严谨的数学基础。
通过数学模型,建模和自动计算评价指数,自动确定权重。具有严谨的数学基础。解决了以上总结的人工设定权重的各种问题。
(2)自动消除相关性。
自动计算权重的过程中,通过数学模型,线性最优地消除相关性。
(3)具有通用性。
不同场景、不同数据集的情况下,权重都是自动计算的,所以本发明具有很强的通用性。
(4)具有科学的影响力单位。
用分贝作为影响力单位,更科学合理,更符合人对影响力的主观感受,解决了以往各种排行指数定义中指数含义不明确、指数大小与人主对影响力的观感受不一致的问题。
(5)具有明确的物理含义。
影响力指数的物理含义是:对由各个影响力数据相乘得到的“影响力体积”取自然对数,转换为影响力分贝;并且数据相乘的时候,由自动计算的系数对各个数据以指数方式进行加权。
(6)设定指标媒体作为权威参考基准。
计算指标媒体的平均影响力指数,为影响力指数提供权威的参考基准。
(7)通过影响力级别直观评估影响力。
可以通过影响力级别能很方便粗略估计影响力大小。例如1~10级,类似地震级别,非常直观。
本发明实施例另提出一种影响力评价方法,首先获取待评价对象的数据,并通过影响力评价系统构建方法构建的影响力指数模型计算待评价对象的影响力指数。
如图3所示,本发明实施例的影响力评价方法的计算包括4个过程:(1)通过维度选择基础数据;(2)计算影响力分贝;(3)将多个基础数据合成为指数;(4)与指标媒体对比。
本发明实施例的评价方法,可以定义每20分贝为一个影响力级别,可以将影响力划分为1~10一共10个级别。
例如表1所示的于2015年9月采集的14家中央重点新闻网站,通过本发明实施例的评价方法,获得平均媒体影响力为150分贝。即,如果一家媒体,影响力分贝数达到150,就表示跟同时期的14家中央重点新闻网站的平均影响力相同。如果是130分贝,则表示影响力数据大约低10倍。
本发明中基于影响力分贝指数模型的的影响力评价体系,旨在通过阅读数、点赞数、转发数、评论数等数据,对文章、事件、媒体的综合影响力进行科学、定量的评估。评价体系包括影响力维度、影响力数据、影响力单位、影响力指数、影响力基准和影响力级别6个要素。通过影响力维度和影响力数据,定义影响力计算所采用的数据;通过影响力单位、影响力指数、影响力基准和影响力级别定义影响力的计算和评估方法。
本发明还提出一种影响力评价系统构建系统,请参见图4,其为本发明实施例的一种影响力评价系统构建系统的结构示意图,其包括:数据获取模块401、分贝转换模块402及模型构建模块403。
数据获取模块401用于获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据。
首先需要选取一些基准作为参考标准。比如选取指标媒体,作为媒体影响力的参考基准。例如可以将14家中央重点新闻网站作为指标媒体,如表1所示。
当然,数据的来源,即基准媒体的选择可以根据需求变化,根据不同的媒体类型选择不同的基准。比如对于微信公众号,我们可以手动选择最有代表性的30个账号作为基准。
所述的影响力维度可以包括广度、深度、速度、加速度、敏感度及时长等。获取数据时,可以根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度的设定数量的历史数据。每个影响力维度下,都可以包含一种或多种指标的数据。如表2所示。
表2中,广度、深度、速度、加速度、敏感度及时长属于影响力维度。其中,维度广度下包括文章数、阅读数等多种影响力指标,维度深度下包括转载量、转发量、评论数、点赞数等多种影响力指标,维度速度、加速度、敏感度及时长下也同样包括一种或多种影响力指标。
不同情况下,可以采用不同影响力维度的指标对影响力进行衡量。比如对文章影响力和媒体影响力,可以用广度和深度指标;对事件影响力,可以再增加速度、时长等指标;对于预警指数,可以再增加加速度和敏感度指标。如表3~表6所示:
表3~表6分别示出了适合媒体、文章、事件、舆情预警指数采集数据的影响力维度和影响力指数。
表2~表6的数据采集方式为本发明实施例的优选方案。但并不以此为限,数据采集可以包含其它类型的和影响力相关的数据,比如网站的访问量,独立IP访问量,每条新闻的访问量,每条新闻的长度等。
分贝转换模块402用于将获取的各个影响力维度的数据分别转换成分贝数。可以通过以下公式计算所述分贝数:
L=blogcP
其中,L为所述分贝数,P为待计算的影响力维度上的数据总数,b和c均为预设的常数值。
本发明优选参考声音响度定义将数据转换为分贝数,也便于计算,即b取20,c取10:
L=20log10P
实验证明,声音的分贝数增加或减少一倍,人耳听觉响度也提高或降低一倍,即人耳听觉与声音功率分贝数成正比。所以,参考声音响度定义,定义影响力分贝作为影响力单位,可以更好的跟人对影响力的主观感受保持一致。
模型构建模块403用于根据所述分贝数并通过降维算法构建影响力指数模型。
模型构建模块403可以根据分贝数并通过主成分分析构建影响力指数模型。当然,PCA仅为本发明优选的分析算法,除了PCA,本发明还可以用其他的降维方法。例如,Locallylinear embedding,Autoencoder,Laplacian Eigenmaps,Local Preserving Projection,Isomap,流形嵌入等。
影响力指数计算,实质上是将输入的多个维度的指标组成的向量,映射到一维指数空间。所以采用PCA进行建模和计算。PCA是模式识别和机器学习领域非常经典的数学方法。
本发明实施例优选可以通过以下公式构建所述影响力指数模型:
其中,L为所述分贝数,MID为所述影响力指数,mi为加权系数,且,m1 2+m2 2+……+mi 2=1,ai为预设的业务权重。
当有多个影响力维度多个影响力指标的数据时,通过类似上述原理,同样可以将多个影响力维度多个影响力指标的数据合成为一个影响力指数数据。通过影响力指数即可对媒体影响力进行排行,如表7如示:
类似的,可以定义文章影响力分贝指数、事件影响力分贝指数和舆情预警分贝指数,计算方法类似。
本发明实施例通过阅读数、点赞数、转发数、评论数等基础数据,对文章、事件、媒体等媒体对象的综合影响力进行科学、定量的评估。本发明方法除了能保证数学上的最优以外,更重要的特点是不依赖于计算公式设计者自己的偏好。所有权重都是根据大规模的数据计算所得,因此具有客观性。最终计算的网络媒体影响力,即影响力指数,以特定的高影响力的媒体为基准,其值具备清晰的物理含义。本发明的特点和能解决的问题总结如下:
(1)通过数学模型自动计算权重,具有严谨的数学基础。
通过数学模型,建模和自动计算评价指数,自动确定权重。具有严谨的数学基础。解决了以上总结的人工设定权重的各种问题。
(2)自动消除相关性。
自动计算权重的过程中,通过数学模型,线性最优地消除相关性。
(3)具有通用性。
不同场景、不同数据集的情况下,权重都是自动计算的,所以本发明具有很强的通用性。
(4)具有科学的影响力单位。
用分贝作为影响力单位,更科学合理,更符合人对影响力的主观感受,解决了以往各种排行指数定义中指数含义不明确、指数大小与人主对影响力的观感受不一致的问题。
(5)具有明确的物理含义。
影响力指数的物理含义是:对由各个影响力数据相乘得到的“影响力体积”取自然对数,转换为影响力分贝;并且数据相乘的时候,由自动计算的系数对各个数据以指数方式进行加权。
(6)设定指标媒体作为权威参考基准。
计算指标媒体的平均影响力指数,为影响力指数提供权威的参考基准。
(7)通过影响力级别直观评估影响力。
可以通过影响力级别能很方便粗略估计影响力大小。例如1~10级,类似地震级别,非常直观。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或网络设备等)执行本发明实施例各个实施场景所述的方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种影响力评价系统构建方法,其特征在于,包括:
获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据;
将获取的各个影响力维度的数据分别转换成分贝数;
根据所述分贝数并通过降维算法构建影响力指数模型。
2.如权利要求1所述的影响力评价系统构建方法,其特征在于,
所述的影响力维度包括广度、深度、速度、加速度、敏感度及时长;
所述获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据的步骤包括:根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度的设定数量的历史数据。
3.如权利要求1所述的影响力评价系统构建方法,其特征在于,所述将获取的各个影响力维度的数据分别转换成分贝数的步骤中,通过以下公式计算所述分贝数:
L=blogcP
其中,L为所述分贝数,P为待计算的影响力维度上的数据总数,b和c均为预设的常数值。
4.如权利要求1所述的影响力评价系统构建方法,其特征在于,所述根据所述分贝数并通过降维算法构建影响力指数模型的步骤包括:根据所述分贝数并通过主成分分析构建影响力指数模型。
5.如权利要求1所述的影响力评价系统构建方法,其特征在于,所述根据所述分贝数并通过降维算法构建影响力指数模型的步骤中,通过以下公式构建所述影响力指数模型:
其中,L为所述分贝数,MID为所述影响力指数,mi为加权系数,且,m1 2+m2 2+……+mi 2=1,ai为预设的业务权重。
6.一种影响力评价方法,其特征在于,获取待评价对象的数据,并通过如权利要求1~5任一项所述的影响力评价系统构建方法构建的影响力指数模型计算待评价对象的影响力指数。
7.一种影响力评价系统构建系统,其特征在于,包括:
数据获取模块,用于获取至少一个影响力维度中至少一个影响力指标的设定数量的历史数据;
分贝转换模块,用于将获取的各个影响力维度的数据分别转换成分贝数;
模型构建模块,用于根据所述分贝数并通过降维算法构建影响力指数模型。
8.如权利要求7所述的影响力评价系统构建系统,其特征在于,
所述的影响力维度包括广度、深度、速度、加速度、敏感度及时长;
所述数据获取模块根据待构建的模型类型,获取广度、深度、速度、加速度、敏感度及时长中一种或多种影响力维度中至少一个影响力指标的设定数量的历史数据。
9.如权利要求7所述的影响力评价系统构建系统,其特征在于,所述模型构建模块根据所述分贝数并通过主成分分析构建影响力指数模型。
10.如权利要求7所述的影响力评价系统构建系统,其特征在于,所述模型构建模块通过以下公式构建所述影响力指数模型:
其中,MID为所述影响力指数,mi为加权系数,且,m1 2+m2 2+……+mi 2=1,ai为预设的业务权重,P为待计算的影响力维度上的数据总数,b和c均为预设的常数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810182705.8A CN108492009A (zh) | 2018-03-06 | 2018-03-06 | 影响力评价系统构建方法及系统、影响力评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810182705.8A CN108492009A (zh) | 2018-03-06 | 2018-03-06 | 影响力评价系统构建方法及系统、影响力评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108492009A true CN108492009A (zh) | 2018-09-04 |
Family
ID=63341431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810182705.8A Pending CN108492009A (zh) | 2018-03-06 | 2018-03-06 | 影响力评价系统构建方法及系统、影响力评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108492009A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359857A (zh) * | 2018-10-12 | 2019-02-19 | 网智天元科技集团股份有限公司 | 一种媒体影响力评估方法、装置及电子设备 |
CN110717668A (zh) * | 2019-09-30 | 2020-01-21 | 上饶市中科院云计算中心大数据研究院 | 一种旅游景区互联网影响力评估及景区自动管理调度方法 |
CN111260197A (zh) * | 2020-01-10 | 2020-06-09 | 光明网传媒有限公司 | 网络文章评价方法、系统、计算机设备及可读存储介质 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120290552A9 (en) * | 2009-12-01 | 2012-11-15 | Rishab Aiyer Ghosh | System and method for search of sources and targets based on relative topicality specialization of the targets |
CN104133897A (zh) * | 2014-08-01 | 2014-11-05 | 哈尔滨工程大学 | 一种基于话题影响力的微博话题溯源方法 |
CN106651884A (zh) * | 2016-12-30 | 2017-05-10 | 西安电子科技大学 | 基于素描结构的平均场变分贝叶斯sar图像分割方法 |
-
2018
- 2018-03-06 CN CN201810182705.8A patent/CN108492009A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120290552A9 (en) * | 2009-12-01 | 2012-11-15 | Rishab Aiyer Ghosh | System and method for search of sources and targets based on relative topicality specialization of the targets |
CN104133897A (zh) * | 2014-08-01 | 2014-11-05 | 哈尔滨工程大学 | 一种基于话题影响力的微博话题溯源方法 |
CN106651884A (zh) * | 2016-12-30 | 2017-05-10 | 西安电子科技大学 | 基于素描结构的平均场变分贝叶斯sar图像分割方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359857A (zh) * | 2018-10-12 | 2019-02-19 | 网智天元科技集团股份有限公司 | 一种媒体影响力评估方法、装置及电子设备 |
CN109359857B (zh) * | 2018-10-12 | 2021-08-27 | 网智天元科技集团股份有限公司 | 一种媒体影响力评估方法、装置及电子设备 |
CN110717668A (zh) * | 2019-09-30 | 2020-01-21 | 上饶市中科院云计算中心大数据研究院 | 一种旅游景区互联网影响力评估及景区自动管理调度方法 |
CN111260197A (zh) * | 2020-01-10 | 2020-06-09 | 光明网传媒有限公司 | 网络文章评价方法、系统、计算机设备及可读存储介质 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104834731B (zh) | 一种自媒体信息的推荐方法及装置 | |
CN108492009A (zh) | 影响力评价系统构建方法及系统、影响力评价方法 | |
TWI598755B (zh) | 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體 | |
Jackson et al. | A modified version of Moran's I | |
CN108133418A (zh) | 实时信用风险管理系统 | |
CN108052505A (zh) | 文本情感分析方法及装置、存储介质、终端 | |
JP2010204966A (ja) | サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。 | |
WO2017071474A1 (zh) | 一种语料处理方法和装置及语料分析方法和装置 | |
JP2011141833A (ja) | 株価予測装置、方法及びプログラム | |
CN109242250A (zh) | 一种基于模糊熵权法与云模型的用户行为可信度检测方法 | |
CN109657962A (zh) | 一种品牌的声量资产的评估方法及系统 | |
Fan et al. | The effect of investor psychology on the complexity of stock market: An analysis based on cellular automaton model | |
CN117421491A (zh) | 社交媒体账号运行数据的量化方法、装置及电子设备 | |
Wells et al. | Investigation of a nonparametric procedure for assessing goodness-of-fit in item response theory | |
Hoff | Bootstrapping Malmquist indices for Danish seiners in the North Sea and Skagerrak | |
Bruhin et al. | Happiness functions with preference interdependence and heterogeneity: The case of altruism within the family | |
TW201820229A (zh) | 資料分析方法、系統及非暫態電腦可讀取媒體 | |
CN109636184A (zh) | 一种品牌的账号资产的评估方法及系统 | |
Eierdanz et al. | Using fuzzy set theory to address the uncertainty of susceptibility to drought | |
CN108733672A (zh) | 实现网络信息质量评估的方法和装置 | |
JP4777941B2 (ja) | 需要予測方法および装置 | |
Green et al. | Explaining the widening distribution of Body Mass Index: A decomposition analysis of trends for England, 2002–2004 and 2012–2014 | |
CN110874667A (zh) | 评分卡模型优化方法、装置、服务器及存储介质 | |
CN115049429A (zh) | 增益预测方法、装置和计算机设备 | |
CN110245775B (zh) | 用户收支数据的分析方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180904 |