CN114357347B - 一种互联网文档的总访问量的估值方法 - Google Patents
一种互联网文档的总访问量的估值方法 Download PDFInfo
- Publication number
- CN114357347B CN114357347B CN202111621632.6A CN202111621632A CN114357347B CN 114357347 B CN114357347 B CN 114357347B CN 202111621632 A CN202111621632 A CN 202111621632A CN 114357347 B CN114357347 B CN 114357347B
- Authority
- CN
- China
- Prior art keywords
- access
- website
- app
- column
- access amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004364 calculation method Methods 0.000 claims abstract description 65
- 238000012937 correction Methods 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 abstract description 14
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 230000002354 daily effect Effects 0.000 description 17
- 230000008520 organization Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种互联网文档的总访问量的估值方法。包括:基于网站、app、社交媒体的日平均访问量,分别构建网站、app以及社交媒体的计算模型;获取用户首发的原创互联网文档并进行初始化分析;根据计算模型分别预估访问量;对所述网站预估访问量、app预估访问量以及社交媒体预估访问量,这三个值进行求和获得当日全网总访问量,再根据发布时间t获得衰减比例,获得已发布t天数内的总访问量。本发明针对互联网中的网站、app、社交媒体为基础全面的进行估算;构建不同的模型及实现算法,同时通过校正系数、配比等分析,客观准确的在全网进行总访问量的估值,为更有效的评估网站影响力、统计效绩及通过客观性排名等需求提供更有力的数据支持。
Description
技术领域
本发明涉及计算机软件技术领域,具体涉及一种互联网文档的总访问量的估值方法。
背景技术
随着互联网技术的不断发展,以平均每周使用互联网至少1小时来看作网民的认定标准,截至2021年6月,中国网民规模达10.11亿,较2020年12月增长2175万,互联网普及率达71.6%。在这么高的普及率的前提下,人们日常的生活逐步迁移至网络中,尤其是客户端的APP等的发展,人们逐渐形成了在终端进行碎片化阅读、评价、点赞、分享等习惯。相对的,对于运营网站或APP的商家或个人来说,了解互联网中的访问量或自己网站的访问量,可以了解用户的习惯、定向对用户运营,可以准确找到网络热点等,对于运营有极大的作用。
目前已经存在很多网站访问量的统计技术,如Alexa是一家专门发布网站世界排名的网站。以搜索引擎起家的Alexa创建于1996年4月(美国),目的是让互联网网民在分享虚拟世界资源的同时,更多地参与互联网资源的组织。Alexa每天在网上搜集超过1,000GB的信息,不仅给出多达几十亿的网址链接,而且为其中的每一个网站进行了排名。可以说,Alexa是当前拥有URL数量最庞大,排名信息发布最详尽的网站。
目前还有很多研究主要对于页面访问量的统计及分析,或基于页面访问量的用户行为分析访。其中如专利文件1CN106210044B,涉及一种基于访问行为的活跃用户识别方法,是依据用户对网站各个模块的访问量,用于判别用户身份识别方法。如专利文件2,CN104504077B页面访问数据的统计方法和装置,解决的是现有技术对访问网页对象的统计请求进行处理时效率低下的问题;而专利文件3CN100566262显示访问量数据的方法及数据访问量发送装置,则采用将统计范围划分为一级或多级区域,计算该区域内的一个页面访问人数信息,所述页面由页面服务器提供,依据区域内的页面的访问人数信息的表征信息,直观地获得不同区域访问页面的情况;专利文件4CN2014100428654一种网络中到访信息收集的方法和系统,涉及的是网络中到访信息收集的方法和系统,解决的是人工手动的方式进行统计,占用管理人员的统计时间比较长,统计效率低下的问题;专利文件5CN104572037A一种基于JavaScript技术的智能统计页面访问量的实现方法,这种方法具体的步骤是添加统计页面,填写统计页面名,起始统计数、绑定ID,在统计管理里面生成一条记录,还需要权限设置等。综合上述现有技术可知,目前的访问量的统计主要集中于某些或局域网站或网页的访问量的研究统计,或针对于用户的行为分析等,缺乏全互联网的访问量的统计方法,尤其是缺乏一种互联网文档在全互联网的访问量的统计方法。
由于,随着微媒体及信息数字化的法展,一篇互联网文档(这里指互联网上的超文本文件,可以为网站的一个页面,文件内容可以是文字、图片、视频等信息)除了在自有的网站发布外,还可能在自有的app、公众号等新媒体上发布,也有可能被各种各样的网站、app、新媒体引用和发布。尤其是,有些网站往往不会提供互联网文档在该网站的具体的访问量的数值信息。
另外,各种新媒体网站、应用也是层出不穷,它们在互联网上的影响力也不一样,而评估一篇文档在整个互联网的总访问量是评估这篇互联网文档在该媒体网站影响力的重要指标,尤其是面对亟需依靠这种影响力评估来统计效绩的采编权的机构;或者,面对亟需在全互联网的范围内的评估政策决策的新闻网站;尤其是面对于某些有榜单机制的互联网机构,其排名的客观性极为重要,尤其是作为一个领域的指南性质的排名榜单。原有的网上评估量用户访问量的方法是在本网站上获取用户行为数据,经过数据处理得出文档的访问量,现在各大媒体机构发布的文档大量的转载、转发至各个网站、应用上,但是不是每个网站、应用都有文档访问量的统计。
因此,亟待找到一种能够较为准确、全面地计算互联网文档在全互联网中的访问量的方法。
发明内容
为了解决如何更为准确、全面地计算互联网文档在全互联网(下称全网)中的访问量,本发明提供了一种互联网文档的总访问量的估值方法。
本发明请求保护以下技术方案:
本发明提供了一种互联网文档的总访问量的估值方法,其特征在于,包括以下步骤:
S1构建访问量预估值计算模型:基于网站、app、社交媒体的日平均访问量,分别构建网站各栏目的访问量预估值计算模型、app各栏目的访问量预估值计算模型以及社交媒体模型比例系数计算模型;
S2获取待评估互联网文档信息:获取用户首发布的原创互联网文档,并对所述互联网文档在步骤S1中构建的计算模型中进行初始化分析;
S3根据计算模型分别预估访问量:将步骤S2中的初始化值根据步骤S1构建的所述网站各栏目的访问量预估值计算模型、所述app各栏目的访问量预估值计算模型以及所述社交媒体模型比例系数计算模型分别计算一段时间内的对应的访问量预估值,记为网站预估访问量、app预估访问量以及社交媒体预估访问量,并将其记录至数据库的文档当日访问量表中;
S4计算全网访问量:对所述网站预估访问量、app预估访问量以及社交媒体预估访问量,这三个值进行求和获得当日全网总访问量;再根据发布时间t获得衰减比例,所述衰减比例计算方法为k=0.963t,t为已发布天数,k为衰减比例;首日全网访问量+当日全网访问量*k=全网总访问量,即已发布t天数内的总全网访问量。
进一步的,所述构建网站各栏目的访问量预估值计算模型包括以下过程:
(a1)获取alexa中各个网站近一月日均pv值及排名情况;
(a2)根据alexa获取的网站排名情况,在所述数据库的文档当日访问量表中,记录排名第一的网站的默认访问量预估值,并依次记录其他网站的默认访问量预估值直到记录到最低值;所述默认访问量预估值的设置根据近30天的日均pv进行计算,根据网站日均pv值与第一名网站日均pv值对比计算访问量预估值;
(a3)根据获取的待评估的所述互联网文档的信息,将转发过所述互联网文档的网站栏目进行整理去重,获得准确的转发过所述互联网文档的网站栏目列表,进而对所述网站栏目列表中的网站栏目做访问量预估值的初始化更新,得到所有的所述网站栏目对应的访问量预估值;
(a4)判断所述栏目列表中所有的所述网站栏目,是否包含首页、轮播、推荐重点栏目名称词汇,若包含,则将得到的所述网站栏目对应的访问量预估值乘以校正系数x;若不包含,则乘以校正系数y,得到校正后的所述网站栏目对应的访问量预估值;
其中,校正系数x=[1,10],校正系数y=[0.1-1]。
进一步的,所述构建网站各栏目的访问量预估值计算模型步骤(a3)具体还包括:
通过访问数据库,获取所述互联网文档在各个网站的转发情况,整理成网站-栏目的对应关系,将得到的对应关系处理成网站-栏目列表的列表,即所述网站栏目列表;
若有新的栏目出现,且不存在所述互联网文档的栏目列表中,则初始化所述新栏目访问量预估值,通过访问数据库获取所述网站栏目列表中的所有栏目的访问量预估值,得到包含新栏目的所有的所述网站栏目对应的访问量预估值。
进一步的,网站的访问量预估值计算中,根据所述网站栏目列表及校正后的所述网站栏目对应的访问量预估值进行求和,得到的求和值即为所述互联网文档在该网站访问量预估值;
最后,对所有转发过所述互联网文档的网站的访问量预估值进行求和,即为所述网站预估访问量。
进一步的,所述构建app各栏目的访问量预估值计算模型,包括以下过程:
(b1)根据获取的待评估的所述互联网文档的信息,通过数据中心采集所述互联网文档在app中的转发情况,并对采集的数据进行整理去重,得到准确的转发所述互联网文档的app及app中的栏目列表;
(b2)分别访问多个主流应用市场,统计上述app列表中的所有app的下载量并记录,将各个app的下载量进行求和并根据下载量进行排名;
(b3)根据统计结果,在所述数据库的文档当日访问量表中,记录排名第一的app的默认访问量预估值,依次设置其他app的默认访问量预估值直到记录到最低值;所述默认访问量预估值的设置根据app的下载量与排名第一的app下载量对比计算;
(b4)对转发所述互联网文档的app中的栏目列表进行初始化,得到所有的所述app中的栏目对应的访问量预估值;
(b5)判断所述app中的栏目是否包含首页、轮播、推荐重点栏目名称词汇,若包含,则所述app中的栏目对应的访问量预估值乘以校正系数x;若不包含,则所述app列表及对应栏目列表中的访问量预估值乘以校正系数y,得到校正后的所述app中的栏目对应的访问量预估值;
其中,校正系数x=[1,10],校正系数y=[0.1-1]。
进一步的,所述构建app各栏目的访问量预估值计算模型的步骤(b3)具体还包括:
通过访问数据库获取所述互联网文档在各个app的转发情况,整理成app-栏目的对应关系,将得到的对应关系处理成app-栏目列表的列表,即所述app中的栏目列表;
若有新的栏目出现,且不存在所述app中的栏目列表中,则初始化该栏目访问量预估值,通过访问数据库获取所述app的栏目列表中的所有的栏目访问量预估值,得到包含新栏目的所有的所述app中的栏目对应的访问量预估值。
进一步的,在app的访问量预估值计算中,根据所述app中的栏目列表及校正后的所述app中的栏目对应的访问量预估值进行求和,得到的求和值即为所述互联网文档在该app访问量预估值;
最后,对所有转发过所述互联网文档的所有app访问量预估值进行求和,即为所述app预估访问量。
进一步的,所述社交媒体的指各类社交媒体账号;所述构建社交媒体模型比例系数计算模型,包括以下过程:
(c1)利用第三方收集到的互联网访问数据,对点赞数、评论数、转发数、浏览量分别进行分类整理;
(c2)根据分类整理的数据,分别计算点赞数与浏览数、评论数与浏览数、转发数与浏览数的比值并记录,将这些比值进行加权求和,得到的结果即为模型多维度比例系数;
(c3)根据获取的所述互联网文档,根据所述模型多维度比例系数来计算分别计算在单个社交媒体的访问量;
(c4)将计算得到的所有的单个社交媒体的访问量进行求和,即为所述社交媒体预估访问量;
最后,计算出所有转发过所述互联网文档的社交媒体的访问量预估值后,进行求和,即为所述社交媒体预估访问量。
进一步的,所述构建社交媒体模型比例系数计算模型的步骤(c3)中根据所述模型多维度比例系数来计算分别计算在单个社交媒体的访问量,其中的计算公式为:
sum=num点赞*k点赞*0.6+num评论*k评论*0.2+num转发*k转发*0.2
sum即为单个社交媒体的访问量,k点赞、k评论、k转发为计算得到的模型系数,num为对应数据值。
优选的,本发明所述的互联网文档的总访问量的估值方法中,所述校正系数x=1.3,校正系数y=0.9;或,校正系数x=1,校正系数y=0.2。
本发明通过已有的访问量与点赞数据构建了一套利用点赞、评论等数据量以及网站中栏目的比重对访问量进行估算,解决了部分网站不提供访问量的问题;发明中还利用alexa获取到的网站访问量为基础对网站访问量进行重新估算,一定程度上缓解了某些网站虚构访问量的问题。全面性体现在,针对全网中的网站、app、社交媒体为基础做的统计,准确性体现在,针对全网中的网站、app、社交媒体的不同之处,分别构建了不同的模型,不同的模型中包含了不同的实现算法,同时通过校正系数、配比等分析,更为准确的得到了网站预估访问量、app预估访问量以及社交媒体预估访问量,最后三者之和,即为全网中预估值;另外考虑到不同日期的访问统计的不同,本发明还通过设置衰减比例计算方法更为准确的、客观的做出预估统计。
附图说明
图1.本发明提供的一种互联网文档的总访问量的估值方法的步骤示意图。
图2.本发明提供的估值方法中构建网站各栏目的访问量预估值计算模型的流程图。
图3.本发明提供的估值方法中构建app各栏目的访问量预估值计算模型的流程图。
图4.本发明提供的估值方法中构建社交媒体模型比例系数计算模型的流程图。
图5.本发明提供的一种互联网文档的总访问量的估值方法的整体实现过程流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆益不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统,产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供一种互联网文档的总访问量的估值方法,其中,所述互联网文档,这里指互联网上的超文本文件,可以为网站的一个页面,文件内容可以是文字、图片、视频等信息。
鉴于在互联网中转发或访问上述信息,这里定义所述全网总访问基于网站、app、社交媒体的范涛中,本发明针对互联网中的网站、app、社交媒体为基础全面的进行估算。
本发明提供一种互联网文档的总访问量的估值方法,包括以下步骤:
步骤S1构建访问量预估值计算模型,基于网站、app、社交媒体的日平均访问量,分别构建网站各栏目的访问量预估值计算模型、app各栏目的访问量预估值计算模型以及社交媒体模型比例系数计算模型。
其中,所述日平均访问量:就是某个网站、app、社交媒体账号的日平均访问量。
步骤S2获取待评估互联网文档信息,获取用户首发布的原创互联网文档,并对所述互联网文档在步骤S1中构建的计算模型中进行初始化分析。
其中,所述获取这里包括,自有的数据中心,会采集核心的互联网,根据需要推送待评估的互联网文档的原始文章,转发文章(可以转发到app,网站,媒体账号)上的。这里所述的用户首发布的原创,是指待评估的原创文章。
步骤S3根据计算模型分别预估访问量,将步骤S2中的初始化值根据步骤S1构建的所述网站各栏目的访问量预估值计算模型、所述app各栏目的访问量预估值计算模型以及所述社交媒体模型比例系数计算模型分别计算一段时间内的(这里所述一段时间内是指近30天,考虑到用户一边以一个月进行进行绩效评估,因此,根据用户实际的需求,作为配置可以修改具体的时间跨度)对应的访问量预估值,记为网站预估访问量、app预估访问量以及社交媒体预估访问量,并将其记录至数据库的文档当日访问量表中。
步骤S4计算全网访问量,对所述网站预估访问量、app预估访问量以及社交媒体预估访问量,这三个值进行求和获得当日全网总访问量;再根据发布时间t获得衰减比例,所述衰减比例计算方法为k=0.963t,t为已发布天数,k为衰减比例;首日全网访问量+当日全网访问量*k=全网总访问量,即已发布t天数内的总全网访问量。k=0.963t其中的K数值取0.963,考虑到根据一般业务需求,例如报社对新闻文章的传播力分析是30天,30天为绩效的评估期限,0.936系数衰减就是30天后也一般认为文档基本上没有人看了,所以取此值。
如图2是本发明提供的方法中,所述构建网站各栏目的访问量预估值计算模型的具体流程图,如图2所示,包括以下过程:
(a1)获取alexa中各个网站近30天均pv值及排名情况;alexa网站上拥有国内绝大部分互联网网站的日均访问量及排名,每日获取alexa各个网站近一月日均pv值及排名情况。
(a2)根据alexa获取的网站排名情况,在所述数据库的文档当日访问量表中,记录排名第一的网站的默认访问量预估值,并依次记录其他网站的默认访问量预估值直到记录到最低值;所述默认访问量预估值的设置根据近30天的日均pv进行计算,根据网站日均pv值与第一名网站日均pv值对比计算访问量预估值。
在本实施例中,根据alexa获取的网站排名情况,对排名第一的网站设置默认访问量预估值为X。根据alexa网站排名情况,依次对其他网站初始化默认访问量预估值,预估值计算根据近一月日均pv进行计算,根据网站日均pv值与第一名网站日均pv值对比计算访问量预估值,最低值为Y。
(a3)根据获取的待评估的所述互联网文档的信息,将转发过所述互联网文档的网站栏目进行整理去重,获得准确的转发过所述互联网文档的网站栏目列表,进而对所述网站栏目列表中的网站栏目做访问量预估值的初始化更新,得到所有的所述网站栏目对应的访问量预估值。在实际业务中,考虑到,有些新闻稿可能编辑在同一个网站同一个栏目里面多发了,因此需要整理去重。
(a4)判断所述栏目列表中所有的所述网站栏目,是否包含首页、轮播、推荐重点栏目名称词汇,若包含,则将得到的所述网站栏目对应的访问量预估值乘以校正系数x;若不包含,则乘以校正系数y,得到校正后的所述网站栏目对应的访问量预估值;其中,校正系数x=[1,10],校正系数y=[0.1-1]。此处的校正系数的取值,主要是根据栏目的种类及内容而定,大部分网站首页访问很多,到二级页面是首页的1/2,如果那么到第四层,那么就是1/10。
在本实施例中,初定是矫正系数x 1.3、矫正系数y 0.9。这个是一个为了使得访问量预估值更为准确的矫正系数。如果这个文档采集的时候,就已经在网站首页里面,或者就在网站的轮播栏目里面,那么这篇文档被打开的概率会很高。所有如果这个栏目包含首页、推荐等信息的,那么里面的文章被打开的概率更高。
进一步的,所述流程步骤(a3)具体还包括:
通过访问数据库,获取所述互联网文档在各个网站的转发情况,整理成网站-栏目的对应关系,将得到的对应关系处理成网站-栏目列表的列表,即所述网站栏目列表;其中,所述数据库中,存放了需要评估的文档和转发信息,可以由第三方提供,也可以是自建立,即本系统提供。
若有新的栏目出现,例如有一个新的栏目,且不存在所述互联网文档的栏目列表中,则对新的栏目进行初始化,采用已有的栏目计算方法一样的算法计算所述新栏目访问量预估值。通过访问数据库获取所述网站栏目列表中的所有栏目的访问量预估值,得到包含新栏目的所有的所述网站栏目对应的访问量预估值。
进一步的,根据所述网站栏目列表及校正后的所述网站栏目对应的访问量预估值进行求和,得到的求和值即为所述互联网文档在该网站访问量预估值;
最后,对所有转发过所述互联网文档的网站的访问量预估值进行求和,即为所述网站预估访问量。
如图3是本发明提供一种的互联网文档的总访问量的估值方法中,所述构建app各栏目的访问量预估值计算模型的流程图,该流程包括以下过程:
(b1)根据获取的待评估的所述互联网文档的信息,通过数据中心采集所述互联网文档在app中的转发情况,并对采集的数据进行整理去重,得到准确的转发所述互联网文档的app列表及app中的栏目列表;所述数据中心是利用自有的数据中心,进行采集互联网数据,这里默认一篇互联网文章已经被转发。根据收集到的互联网文档转发情况,对收集到的数据进行处理,获取转发app列表及对应栏目列表,为模型初始化建造数据资源池。
(b2)分别访问多个主流应用市场,统计上述app列表中的所有app的下载量并记录,将各个app的下载量进行求和并根据下载量进行排名;
(b3)根据统计结果,在所述数据库的文档当日访问量表中,记录排名第一的app的默认访问量预估值,依次设置其他app的默认访问量预估值直到记录到最低值;所述默认访问量预估值的设置根据app的下载量与排名第一的app下载量对比计算;在本实施例中,根据统计结果,对排名第一的app设置默认访问量预估值K。根据app的下载量排名情况,依次对其他app初始化默认访问量预估值,预估值计算根据总下载量进行计算,根据app的下载量与排名第一的app下载量对比计算访问量预估值,最低值为L。
(b4)对转发所述互联网文档的app中的栏目列表进行初始化,得到所有的所述app中的栏目对应的访问量预估值;
(b5)判断所述app中的栏目是否包含首页、轮播、推荐重点栏目名称词汇,若包含,则所述app中的栏目对应的访问量预估值乘以校正系数x;若不包含,则所述app列表及对应栏目列表中的访问量预估值乘以校正系数y,得到校正后的所述app中的栏目对应的访问量预估值;
其中,校正系数x=[1,10],校正系数y=[0.1-1]。此处的校正系数的取值,主要是根据栏目的种类及内容而定,大部分网站首页访问很多,到二级页面是首页的1/2,如果那么到第四层,那么就是1/10。
进一步的,所述流程步骤(b3)具体还包括:
通过访问数据库获取所述互联网文档在各个app的转发情况,整理成app-栏目的对应关系,将得到的对应关系处理成app-栏目列表的列表,即所述app中的栏目列表;
若有新的栏目出现,且不存在所述app中的栏目列表中,则初始化该栏目访问量预估值,通过访问数据库获取所述app的栏目列表中的所有的栏目访问量预估值,得到包含新栏目的所有的所述app中的栏目对应的访问量预估值。
进一步的,根据所述app中的栏目列表及校正后的所述app中的栏目对应的访问量预估值进行求和,得到的求和值即为所述互联网文档在该app访问量预估值;最后,对所有转发过所述互联网文档的所有app访问量预估值进行求和,即为所述app预估访问量。
如图4,是本发明提供的一种互联网文档的总访问量的估值方法中,所述构建社交媒体模型比例系数计算模型流程图,所属流程包括以下过程:
(c1)利用第三方收集到的互联网访问数据,对点赞数、评论数、转发数、浏览量分别进行分类整理;这里的整理分类,按照类别进行分类是指汇总,就是通过代码标识哪些数是点赞的,哪些是评论的,哪些是转发的;还包括将包含浏览量的数据剔除,因为在实际应用中,如果有具体的访问量,就不用估算了,直接使用,因此,需要对一些包含浏览量的数据进行剔除。
(c2)根据分类整理的数据,分别计算点赞数与浏览数、评论数与浏览数、转发数与浏览数的比值并记录,将这些比值进行加权求和,得到的结果即为模型多维度比例系数;
(c3)根据获取的所述互联网文档,根据所述模型多维度比例系数来计算分别计算在单个社交媒体的访问量;
(c4)将计算得到的所有的单个社交媒体的访问量进行求和,即为所述社交媒体预估访问量。
其中,所述社交媒体的指各类社交媒体账号。这里需要注意的是,本领域技术人员应理解的所有的社交媒体都属于本发明保护的范围之内。
其中,所述步骤(c3)中根据所述模型多维度比例系数来计算分别计算在单个社交媒体的访问量,其中的计算公式为:
sum=num点赞*k点赞*0.6+num评论*k评论*0.2+num转发*k转发*0.2
sum即为单个社交媒体的访问量,k点赞、k评论、k转发为计算得到的模型系数,num为对应数据值;最后,计算出所有转发过所述互联网文档的社交媒体的访问量预估值后,进行求和,即为所述社交媒体预估访问量。
如图5所示,本发明提供的一种互联网文档的总访问量的估值方法的整体实现过程流程图。本发明提供的一种互联网文档的总访问量的估值方法,所述互联网文档在全网访问量的计算覆盖网站、app、社交媒体等领域;且网站、app、社交媒体在计算访问量评估值时使用不同的算法来计算。
本方法中,首先进行模型算法准备。互联网文档的访问量估值计算流程中需要使用模型算法来计算访问量,以下是各个模型的计算流程:
网站各栏目访问量预估值计算,互联网文档在网站的访问量计算依赖于各个栏目的访问量预估值来计算,所以每日更新计算网站各栏目的访问量预估值。
app各栏目访问量预估值计算。
社交媒体模型比例系数计算,可以访问互联网文档在社交媒体中的转发情况,获取到用户对文档的点赞、评论、转发等值,根据这些值与社交媒体提供的访问量值进行对比求均值,获得访问量估算模型,以此来估算互联网文档的访问量。
其次,有了模型的准备后,进入互联网文档在全网访问量计算流程。互联网文档在全网的访问量计算是将其在网站、app、社交媒体的访问量预估值进行求和,用户对文档的访问量随着发布时间逐渐递减,这里对每日计算的访问量预估增加了衰减系数0.963(考虑到一般30天后,基本上没有人看这个文章了,0.963这个系数就是30天衰减到30天后为接近为0的值)。访问量估算服务会媒体计算近30天内发布或转发的文章,并增量更新互联网文档总访问量。
进行互联网文档在网站访问量计算,互联网文档在app访问量计算,互联网文档在社交媒体访问量计算。
最后,再进行全网访问量求和,根据上述步骤可以获取到互联网文档在网站、app、社交媒体的访问量评估值,将其记录至数据库的文档当日访问量表中,对这三个值进行求和再根据发布时间获得衰减比例,衰减比例计算方法为k=0.963t,t为已发布天数,k为衰减比例,将当日文档在全网访问量评估值增量更新至总值中。
不同的用户,可以根据本发明的方法得到更为客观准确的互联网文档在全互联网的总访问量的估值,为其更有效的进行评估网站影响力、统计效绩以及提供客观性的排名等需求提供更有力的数据基础,预估得到的访问量,相比于单独的网站或单独的app或单独的社交媒体中的排名,可以更有效的、更全面的进行网站影响力的评估、效绩统计以及客观性的排名等。
这里需要注意的是,这里举例说的是某篇文章的全网计算方法,本方法不局限于只对一篇互联网文档估值,同时可以对多篇互联网文档进行估值,获取到的数据是文章转发情况,只要每次计算的时候获取的是多篇的文章转发情况,即可并行计算多篇文章的访问量。
综上,使用本发明提供的方法,如提供给采编权的机构使用,可以估算其发布的新闻在互联网上某一段时间内影响总访问量,来判断这篇新闻的影响力状况,结果可用于机构的绩效评估。如提供给互联网上某个机构发布一个榜单,榜单的排名状况可以通过该访问评估该榜单的客观性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种互联网文档的总访问量的估值方法,其特征在于,包括以下步骤:
S1构建访问量预估值计算模型:基于网站、app、社交媒体的日平均访问量,分别构建网站各栏目的访问量预估值计算模型、app各栏目的访问量预估值计算模型以及社交媒体模型比例系数计算模型;
S2获取待评估互联网文档信息:获取用户首发布的原创互联网文档,并对所述互联网文档在步骤S1中构建的计算模型中进行初始化分析;
S3根据计算模型分别预估访问量:将步骤S2中的初始化值根据步骤S1构建的所述网站各栏目的访问量预估值计算模型、所述app各栏目的访问量预估值计算模型以及所述社交媒体模型比例系数计算模型分别计算一段时间内的对应的访问量预估值,记为网站预估访问量、app预估访问量以及社交媒体预估访问量,并将其记录至数据库的文档当日访问量表中;
S4计算全网访问量:对所述网站预估访问量、app预估访问量以及社交媒体预估访问量,这三个值进行求和获得当日全网总访问量;再根据发布时间t获得衰减比例,所述衰减比例计算方法为k=0.963t,t为已发布天数,k为衰减比例;首日全网访问量+当日全网访问量*k=全网总访问量,即已发布t天数内的总全网访问量;
其中在步骤S1中,
所述构建网站各栏目的访问量预估值计算模型,包括以下过程:
(a1)获取alexa中各个网站近一月日均pv值及排名情况;
(a2)根据alexa获取的网站排名情况,在所述数据库的文档当日访问量表中,记录排名第一的网站的默认访问量预估值,并依次记录其他网站的默认访问量预估值直到记录到最低值;所述默认访问量预估值的设置根据近30天的日均pv进行计算,根据网站日均pv值与第一名网站日均pv值对比计算访问量预估值;
(a3)根据获取的待评估的所述互联网文档的信息,将转发过所述互联网文档的网站栏目进行整理去重,获得准确的转发过所述互联网文档的网站栏目列表,进而对所述网站栏目列表中的网站栏目做访问量预估值的初始化更新,得到所有的所述网站栏目对应的访问量预估值;
(a4)判断所述栏目列表中所有的所述网站栏目,是否包含首页、轮播、推荐重点栏目名称词汇,若包含,则将得到的所述网站栏目对应的访问量预估值乘以校正系数x;若不包含,则乘以校正系数y,得到校正后的所述网站栏目对应的访问量预估值;其中,校正系数x=[1,10],校正系数y=[0.1-1];
所述构建app各栏目的访问量预估值计算模型,包括以下过程:
(b1)根据获取的待评估的所述互联网文档的信息,通过数据中心采集所述互联网文档在app中的转发情况,并对采集的数据进行整理去重,得到准确的转发所述互联网文档的app及app中的栏目列表;
(b2)分别访问多个主流应用市场,统计上述app列表中的所有app的下载量并记录,将各个app的下载量进行求和并根据下载量进行排名;
(b3)根据统计结果,在所述数据库的文档当日访问量表中,记录排名第一的app的默认访问量预估值,依次设置其他app的默认访问量预估值直到记录到最低值;所述默认访问量预估值的设置根据app的下载量与排名第一的app下载量对比计算;
(b4)对转发所述互联网文档的app中的栏目列表进行初始化,得到所有的所述app中的栏目对应的访问量预估值;
(b5)判断所述app中的栏目是否包含首页、轮播、推荐重点栏目名称词汇,若包含,则所述app中的栏目对应的访问量预估值乘以校正系数x;若不包含,则所述app列表及对应栏目列表中的访问量预估值乘以校正系数y,得到校正后的所述app中的栏目对应的访问量预估值;其中,校正系数x=[1,10],校正系数y=[0.1-1];
所述社交媒体的指各类社交媒体账号;
所述构建社交媒体模型比例系数计算模型,包括以下过程:
(c1)利用第三方收集到的互联网访问数据,对点赞数、评论数、转发数、浏览量分别进行分类整理;
(c2)根据分类整理的数据,分别计算点赞数与浏览数、评论数与浏览数、转发数与浏览数的比值并记录,将这些比值进行加权求和,得到的结果即为模型多维度比例系数;
(c3)根据获取的所述互联网文档,根据所述模型多维度比例系数来计算分别计算在单个社交媒体的访问量;
(c4)将计算得到的所有的单个社交媒体的访问量进行求和,即为所述社交媒体预估访问量;
最后,计算出所有转发过所述互联网文档的社交媒体的访问量预估值后,进行求和,即为所述社交媒体预估访问量。
2.根据权利要求1所述的互联网文档的总访问量的估值方法,其特征还在于,所述步骤(a3)具体还包括:
通过访问数据库,获取所述互联网文档在各个网站的转发情况,整理成网站-栏目的对应关系,将得到的对应关系处理成网站-栏目列表的列表,即所述网站栏目列表;若有新的栏目出现,且不存在所述互联网文档的栏目列表中,则初始化所述新栏目访问量预估值,通过访问数据库获取所述网站栏目列表中的所有栏目的访问量预估值,得到包含新栏目的所有的所述网站栏目对应的访问量预估值。
3.根据权利要求1或2所述的互联网文档的总访问量的估值方法,其特征还在于,
根据所述网站栏目列表及校正后的所述网站栏目对应的访问量预估值进行求和,得到的求和值即为所述互联网文档在该网站访问量预估值;
最后,对所有转发过所述互联网文档的网站的访问量预估值进行求和,即为所述网站预估访问量。
4.根据权利要求1所述的互联网文档的总访问量的估值方法,其特征还在于,所述步骤(b3)具体还包括:
通过访问数据库获取所述互联网文档在各个app的转发情况,整理成app-栏目的对应关系,将得到的对应关系处理成app-栏目列表的列表,即所述app中的栏目列表;
若有新的栏目出现,且不存在所述app中的栏目列表中,则初始化该栏目访问量预估值,通过访问数据库获取所述app的栏目列表中的所有的栏目访问量预估值,得到包含新栏目的所有的所述app中的栏目对应的访问量预估值。
5.根据权利要求1或4所述的互联网文档的总访问量的估值方法,其特征还在于,
根据所述app中的栏目列表及校正后的所述app中的栏目对应的访问量预估值进行求和,得到的求和值即为所述互联网文档在该app访问量预估值;
最后,对所有转发过所述互联网文档的所有app访问量预估值进行求和,即为所述app预估访问量。
6.根据权利要求1所述的互联网文档的总访问量的估值方法,其特征还在于,所述步骤(c3)中,根据所述模型多维度比例系数来计算分别计算在单个社交媒体的访问量,其中的计算公式为:
sum=num点赞*k点赞*0.6+num评论*k评论*0.2+num转发*k转发*0.2
sum即为单个社交媒体的访问量,k点赞、k评论、k转发为计算得到的模型系数,num为对应数据值。
7.根据权利要求1所述的互联网文档的总访问量的估值方法,其特征还在于,所述校正系数x=1.3,校正系数y=0.9,或,校正系数x=1,校正系数y=0.2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111621632.6A CN114357347B (zh) | 2021-12-28 | 2021-12-28 | 一种互联网文档的总访问量的估值方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111621632.6A CN114357347B (zh) | 2021-12-28 | 2021-12-28 | 一种互联网文档的总访问量的估值方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357347A CN114357347A (zh) | 2022-04-15 |
CN114357347B true CN114357347B (zh) | 2024-04-26 |
Family
ID=81103411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111621632.6A Active CN114357347B (zh) | 2021-12-28 | 2021-12-28 | 一种互联网文档的总访问量的估值方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357347B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004066180A1 (en) * | 2003-01-24 | 2004-08-05 | Dmn It Co., Ltd. | System and method for estimating web site |
CN104182801A (zh) * | 2013-05-22 | 2014-12-03 | 阿里巴巴集团控股有限公司 | 一种预测网站访问量的方法及设备 |
CN106372249A (zh) * | 2016-09-23 | 2017-02-01 | 北京三快在线科技有限公司 | 一种点击率预估方法、装置及电子设备 |
CN107577688A (zh) * | 2017-04-25 | 2018-01-12 | 上海市互联网信息办公室 | 基于媒体信息采集的原创文章影响力分析系统 |
CN112035603A (zh) * | 2020-08-03 | 2020-12-04 | 北京宏博知微科技有限公司 | 一种综合计算事件的传播影响力评估方法 |
CN113672744A (zh) * | 2021-07-12 | 2021-11-19 | 北京新联财通咨询有限公司 | 文章可触达人次的估算方法、装置及计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6053249B1 (ja) * | 2016-08-26 | 2016-12-27 | 株式会社シンメトリック | Webページの閲覧回数を推定するための装置、プログラムおよび記録媒体 |
-
2021
- 2021-12-28 CN CN202111621632.6A patent/CN114357347B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004066180A1 (en) * | 2003-01-24 | 2004-08-05 | Dmn It Co., Ltd. | System and method for estimating web site |
CN104182801A (zh) * | 2013-05-22 | 2014-12-03 | 阿里巴巴集团控股有限公司 | 一种预测网站访问量的方法及设备 |
CN106372249A (zh) * | 2016-09-23 | 2017-02-01 | 北京三快在线科技有限公司 | 一种点击率预估方法、装置及电子设备 |
CN107577688A (zh) * | 2017-04-25 | 2018-01-12 | 上海市互联网信息办公室 | 基于媒体信息采集的原创文章影响力分析系统 |
CN112035603A (zh) * | 2020-08-03 | 2020-12-04 | 北京宏博知微科技有限公司 | 一种综合计算事件的传播影响力评估方法 |
CN113672744A (zh) * | 2021-07-12 | 2021-11-19 | 北京新联财通咨询有限公司 | 文章可触达人次的估算方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114357347A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bennett et al. | Inferring and using location metadata to personalize web search | |
Jeon et al. | A framework to predict the quality of answers with non-textual features | |
CN102208992B (zh) | 面向互联网的不良信息过滤系统及其方法 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN110362740B (zh) | 一种水利门户信息混合推荐方法 | |
US20110246462A1 (en) | Method and System for Prompting Changes of Electronic Document Content | |
WO2014180130A1 (en) | Method and system for recommending contents | |
CN102262647A (zh) | 信息处理装置、信息处理方法和程序 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN111447575B (zh) | 短信息推送方法、装置、设备及存储介质 | |
CN111461778B (zh) | 广告推送的方法和装置 | |
KR101816205B1 (ko) | 인터넷 콘텐츠 제공 서버 및 그 방법이 구현된 컴퓨터로 판독 가능한 기록매체 | |
CN111177559A (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
KR20210037842A (ko) | 빅데이터 기반 키워드의 광고 마케팅 시스템 | |
Trejo-Pech et al. | Violations of standard practices by predatory economics journals | |
CN107734534B (zh) | 一种网络负荷评估方法及装置 | |
CN114357347B (zh) | 一种互联网文档的总访问量的估值方法 | |
CN110175289A (zh) | 基于余弦相似度协同过滤的混合推荐方法 | |
CN111523027B (zh) | 基于区块链技术的数据新闻自动撰写机器人 | |
Haruechaiyasak et al. | A data mining framework for building a web-page recommender system | |
JP6467694B1 (ja) | 検索語の評価装置、評価システム、評価方法、及び評価モジュール生産方法 | |
CN111104603A (zh) | 一种基于Lambda架构的实时混合推荐方法及系统 | |
CN112104714A (zh) | 一种基于用户互动元素权重精准推送方法 | |
JP2006228141A (ja) | 情報推薦システム、管理装置、情報推薦方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |