CN111008525A - 一种关注度的计算方法及系统 - Google Patents

一种关注度的计算方法及系统 Download PDF

Info

Publication number
CN111008525A
CN111008525A CN202010164470.7A CN202010164470A CN111008525A CN 111008525 A CN111008525 A CN 111008525A CN 202010164470 A CN202010164470 A CN 202010164470A CN 111008525 A CN111008525 A CN 111008525A
Authority
CN
China
Prior art keywords
article
keywords
analyzed
author
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010164470.7A
Other languages
English (en)
Other versions
CN111008525B (zh
Inventor
黄粲然
于潇潇
郭琪琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN202010164470.7A priority Critical patent/CN111008525B/zh
Publication of CN111008525A publication Critical patent/CN111008525A/zh
Application granted granted Critical
Publication of CN111008525B publication Critical patent/CN111008525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种关注度的计算方法及系统,该方法为:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量;在预设的关键词库中获取待分析关键词在每一篇文章中的权重;获取每一篇文章对应的作者的影响度;利用待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对待分析关键词的关注度。本方案中,利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度。通过利用待分析关键词出现的词频、待分析关键词在不同文章中的权重和文章作者的影响度,提高计算用户对待分析关键词的关注度的准确度。

Description

一种关注度的计算方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种关注度的计算方法及系统。
背景技术
随着互联网的发展,用户在阅读新闻和期刊等文章时会产生大量的阅读数据,通过分析大量的阅读数据可以得到用户对指定行业的特定内容的关注度。
目前分析阅读数据的方式为:提取用户所阅读的文章中的关键词,根据各个关键词出现的频率确定用户对指定行业的特定内容的关注度。但是某一行业的关键词可能出现在不同领域的文章中,该关键词在不同领域中的影响有所不同,因此目前分析阅读数据的方式无法准确计算用户对指定行业的特定内容的关注度。
发明内容
有鉴于此,本发明实施例提供一种关注度的计算方法及系统,以解决目前分析阅读数据的方式无法准确计算用户对指定行业的特定内容的关注度的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种关注度的计算方法,所述方法包括:
获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;
在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;
获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;
利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。
优选的,构建所述关键词库的过程包括:
获取每一行业对应的预设的关键词词典;
针对每一所述行业,利用所述行业对应的关键词词典,对所述行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和所述关键词的权重;
将权重大于阈值的所述关键词存储至关键词库中。
优选的,计算每一篇文章对应的作者的影响度的过程包括:
获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比;
针对每一文章类型,利用其他作者发表的所述文章类型的文章的数据信息,确定所述文章类型对应的发文中位数、阅读量中位数和分享比中位数;
利用每一文章类型对应的所述发文数量、所述平均文章阅读量、所述平均文章分享比、所述发文中位数、所述阅读量中位数和所述分享比中位数,计算所述作者的影响度。
本发明实施例第二方面公开一种关注度的计算系统,所述系统包括:
第一获取单元,用于获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;
第二获取单元,用于在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;
第三获取单元,用于获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;
计算单元,用于利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。
优选的,还包括:构建所述关键词库的预构建单元,所述预构建单元包括:
获取模块,用于获取每一行业对应的预设的关键词词典;
处理模块,用于针对每一所述行业,利用所述行业对应的关键词词典,对所述行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和所述关键词的权重;
存储模块,用于将权重大于阈值的所述关键词存储至关键词库中。
优选的,所述第三获取单元包括:
获取模块,用于获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比;
确定模块,用于针对每一文章类型,利用其他作者发表的所述文章类型的文章的数据信息,确定所述文章类型对应的发文中位数、阅读量中位数和分享比中位数;
计算模块,用于利用每一文章类型对应的所述发文数量、所述平均文章阅读量、所述平均文章分享比、所述发文中位数、所述阅读量中位数和所述分享比中位数,计算所述作者的影响度。
基于上述本发明实施例提供的一种关注度的计算方法及系统,该方法为:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量;在预设的关键词库中获取待分析关键词在每一篇文章中的权重;获取每一篇文章对应的作者的影响度;利用待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对待分析关键词的关注度。本方案中,利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度。通过利用待分析关键词出现的词频、待分析关键词在不同文章中的权重和文章作者的影响度,提高计算用户对待分析关键词的关注度的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种关注度的计算方法的流程图;
图2为本发明实施例提供的构建关键词库的流程图;
图3为本发明实施例提供的计算作者的影响度的过程;
图4为本发明实施例提供的一种关注度的计算系统的结构框图;
图5为本发明实施例提供的一种关注度的计算系统的另一结构框图;
图6为本发明实施例提供的一种关注度的计算系统的又一结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前分析阅读数据的方式通常以关键词出现的频率确定用户对各行业的关注度。但是,某一行业的关键词可能出现在不同领域的文章中,该关键词在不同领域中的影响有所不同,因此目前分析阅读数据的方式无法准确计算用户对指定行业的特定内容的关注度。
因此本发明实施例提供一种关注度的计算方法及系统,利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度,以提高计算准确度。
参见图1,示出了本发明实施例提供的一种关注度的计算方法的流程图,该计算方法包括以下步骤:
步骤S101:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量。
在具体实现步骤S101的过程中,确定待分析关键词并获取包含该待分析关键词的j篇文章,其中j为大于0的整数。
需要说明的是,每一篇文章都包含对应的文章信息,即包含该文章的作者和阅读量。获取包含待分析关键词的j篇文章后,获取j篇文章中每一篇文章的作者和阅读量。
步骤S102:在预设的关键词库中获取待分析关键词在每一篇文章中的权重。
预先从多篇样本文章中的每一篇样本文章中提取关键词,以及提取关键词在样本文章中的权重,利用提取所得到的关键词和关键词的权重构建关键词库。
在具体实现步骤102的过程中,获取包含待分析关键词的j篇文章后,利用预先构建好的关键词库,确定该待分析关键词在j篇文章中每一篇文章的权重。
步骤S103:获取每一篇文章对应的作者的影响度。
需要说明的是,预先基于作者所发表文章的数据信息计算得到该作者的影响度,根据上述方式计算多个作者的影响度。
例如:对于一网络平台,利用该网络平台上每一个作者所发表文章的数据信息,计算每一个作者的影响度。
步骤S104:利用待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对待分析关键词的关注度。
在具体实现步骤S104的过程中,获取待分析关键词在j篇文章中每一篇文章中的权重、j篇文章中每一篇文章对应的作者的影响度和每一篇文章的阅读量,利用公式(1)计算用户对待分析关键词的关注度。
Figure 223339DEST_PATH_IMAGE001
(1)
在公式(1)中,
Figure 202797DEST_PATH_IMAGE002
为第i篇文章的作者的影响度,
Figure 982534DEST_PATH_IMAGE003
为第i篇文章的阅读量,
Figure 440060DEST_PATH_IMAGE004
为 待分析关键词在第i篇文章中的权重。
在本发明实施例中,利用包含待分析关键词的j篇文章中每一篇文章的阅读量和作者的影响度,结合待分析关键词在j篇文章中每一篇文章中的权重,计算用户对待分析关键词的关注度。计算用户对待分析关键词的关注度时,不仅仅利用待分析关键词出现的词频,还利用了待分析关键词在不同文章中的权重和文章作者的影响度,提高计算用户对待分析关键词的关注度的准确度。
上述本发明实施例图1步骤S102中涉及的构建关键词库的过程,参见图2,示出了本发明实施例提供的构建关键词库的流程图,包括以下步骤:
步骤S201:获取每一行业对应的预设的关键词词典。
在具体实现步骤S201的过程中,需要说明的是,对于不同行业,不同行业的关键词有所不同。因此针对每一行业,设置该行业对应的关键词词典。
步骤S202:针对每一行业,利用行业对应的关键词词典,对行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和关键词的权重。
需要说明的是,可根据每一篇文章的类型确定该文章所涉及的行业。因此在具体实现步骤S202的过程中,对于每一篇样本文章,利用该样本文章的类型确定该样本文章所涉及的行业。
可以理解的是,针对每一篇样本文章,确定该样本文章所涉及的行业后,利用所确定的行业对应的关键词词典,对该样本文章进行分词处理,得到该样本文章中的关键词和关键词的权重。
例如:对于一篇样本文章,利用该样本文章所涉及的行业对应的关键词词典,对该样本文章的内容以结巴分词方式进行分词处理,得到该样本文章的关键词和关键词的权重。
步骤S203:将权重大于阈值的关键词存储至关键词库中。
在具有实现步骤S203的过程中,对于每一篇样本文章所提取得到的关键词,将权重大于阈值的关键词存储至关键词库中。
例如:对于一篇样本文章,提取该样本文章中前50个权重最大的关键词,将50个权重最大的关键词和所提取的每个关键词的权重存储至关键词库中。
在本发明实施例中,预设设置每个行业对应的关键词词典。利用每个行业对应的关键词词典对该行业的样本文章进行分词处理,将权重大于阈值的关键词存储至关键词库中。利用包含待分析关键词的j篇文章中每一篇文章的阅读量和作者的影响度,结合待分析关键词在j篇文章中每一篇文章中的权重,计算用户对待分析关键词的关注度,提高计算用户对待分析关键词的关注度的准确度。
上述本发明实施例图1步骤S103中涉及的计算每个作者的影响度的过程,参见图3,示出了本发明实施例提供的计算作者的影响度的过程,包括以下步骤:
步骤S301:获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比。
在具体实现步骤S301的过程中,对应每一个作者,获取该作者在预设时间段内对 于不同文章类型对应的发文数量
Figure 254432DEST_PATH_IMAGE005
、平均文章阅读量
Figure 139212DEST_PATH_IMAGE006
和平均文章分享比
Figure 406245DEST_PATH_IMAGE007
需要说明的是,
Figure 667462DEST_PATH_IMAGE005
是指作者l对于类型i的文章的发文数量。
可以理解的是,对于每一文章类型,都获取该作者在预设时间段内对于该文章类型对应的发文数量、平均文章阅读量和平均文章分享比。
例如:获取一作者在近一个月内发布A类型文章的数量、发布B类型文章的数量和发布C类型文章的数量。
步骤S302:针对每一文章类型,利用其他作者发表的文章类型的文章的数据信息,确定文章类型对应的发文中位数、阅读量中位数和分享比中位数。
在具体实现步骤S302的过程中,对于每一文章类型,获取其他作者中每一作者在预设时间段内发表的该文章类型的文章的数据信息,即获取其他作者中每一作者对应的该文章类型的发文数量、阅读该文章类型的阅读数量和分享该文章类型的分享数量。
根据其他作者中每一作者对应的该文章类型的发文数量、阅读该文章类型的阅读 数量和分享该文章类型的分享数量,确定该文章类型对应的发文中位数
Figure 336341DEST_PATH_IMAGE008
、阅读量 中位数
Figure 329704DEST_PATH_IMAGE009
和分享比中位数
Figure 146351DEST_PATH_IMAGE010
例如:对于文章类型A,该文章类型对应3位作者,提取最近1个月所有作者所发布 的A类文章的数量分别为x、y和z,确定A类文章对应的发文中位数为
Figure 883363DEST_PATH_IMAGE011
步骤S303:利用每一文章类型对应的发文数量、平均文章阅读量、平均文章分享比、发文中位数、阅读量中位数和分享比中位数,计算作者的影响度。
在具体实现步骤S303的过程中,利用上述获取得到的每一文章类型对应的发文数 量
Figure 406748DEST_PATH_IMAGE012
、平均文章阅读量
Figure 898909DEST_PATH_IMAGE013
、平均文章分享比
Figure 202851DEST_PATH_IMAGE014
、发文中位数
Figure 540292DEST_PATH_IMAGE015
、阅读 量中位数
Figure 183763DEST_PATH_IMAGE016
和分享比中位数
Figure 518929DEST_PATH_IMAGE017
,结合公式(2)计算作者的影响度
Figure 310168DEST_PATH_IMAGE018
Figure 388982DEST_PATH_IMAGE019
(2)
可以理解的是,作者的影响度
Figure 886959DEST_PATH_IMAGE020
为多个数值,指示该作者在不同领域的影响度。
在本发明实施例中,获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比,结合每一文章类型对应的发文中位数、阅读量中位数和分享比中位数,计算该作者的影响度。利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度,提高计算用户对待分析关键词的关注度的准确度。
与上述本发明实施例提供的一种关注度的计算方法相对应,参见图4,本发明实施例还提供了一种关注度的计算系统的结构框图,该计算系统包括:第一获取单元401、第二获取单元402、第三获取单元403和计算单元404;
第一获取单元401,用于获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数。
第二获取单元402,用于在预设的关键词库中获取待分析关键词在每一篇文章中的权重。
第三获取单元403,用于获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于作者所发表文章的数据信息计算得到。
计算单元404,用于利用待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对待分析关键词的关注度。
在本发明实施例中,利用包含待分析关键词的j篇文章中每一篇文章的阅读量和作者的影响度,结合待分析关键词在j篇文章中每一篇文章中的权重,计算用户对待分析关键词的关注度。计算用户对待分析关键词的关注度时,不仅仅利用待分析关键词出现的词频,还利用了待分析关键词在不同文章中的权重和文章作者的影响度,提高计算用户对待分析关键词的关注度的准确度。
优选的,结合图4,参考图5,示出了本发明实施例提供的一种关注度的计算系统的结构框图,还包括构建所述关键词库的预构建单元405,该预构建单元405包括:获取模块4051、处理模块4052和存储模块4053;
获取模块4051,用于获取每一行业对应的预设的关键词词典。
处理模块4052,用于针对每一行业,利用行业对应的关键词词典,对行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和关键词的权重。
存储模块4053,用于将权重大于阈值的关键词存储至关键词库中。
在本发明实施例中,预设设置每个行业对应的关键词词典。利用每个行业对应的关键词词典对该行业的样本文章进行分词处理,将权重大于阈值的关键词存储至关键词库中。利用包含待分析关键词的j篇文章中每一篇文章的阅读量和作者的影响度,结合待分析关键词在j篇文章中每一篇文章中的权重,计算用户对待分析关键词的关注度,提高计算用户对待分析关键词的关注度的准确度。
优选的,结合图4,参考图6,示出了本发明实施例提供的一种关注度的计算系统的结构框图,第三获取单元403包括:获取模块4031、确定模块4032和计算模块4033;
获取模块4031,用于获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比。
确定模块4032,用于针对每一文章类型,利用其他作者发表的文章类型的文章的数据信息,确定文章类型对应的发文中位数、阅读量中位数和分享比中位数。
计算模块4033,用于利用每一文章类型对应的发文数量、平均文章阅读量、平均文章分享比、发文中位数、阅读量中位数和分享比中位数,计算作者的影响度。
在本发明实施例中,获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比,结合每一文章类型对应的发文中位数、阅读量中位数和分享比中位数,计算该作者的影响度。利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度,提高计算用户对待分析关键词的关注度的准确度。
综上所述,本发明实施例提供一种关注度的计算方法及系统,该方法为:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量;在预设的关键词库中获取待分析关键词在每一篇文章中的权重;获取每一篇文章对应的作者的影响度;利用待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对待分析关键词的关注度。本方案中,利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度。通过利用待分析关键词出现的词频、待分析关键词在不同文章中的权重和文章作者的影响度,提高计算用户对待分析关键词的关注度的准确度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种关注度的计算方法,其特征在于,所述方法包括:
获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;
在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;
获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;
利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。
2.根据权利要求1所述的方法,其特征在于,构建所述关键词库的过程包括:
获取每一行业对应的预设的关键词词典;
针对每一所述行业,利用所述行业对应的关键词词典,对所述行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和所述关键词的权重;
将权重大于阈值的所述关键词存储至关键词库中。
3.根据权利要求1所述的方法,其特征在于,计算每一篇文章对应的作者的影响度的过程包括:
获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比;
针对每一文章类型,利用其他作者发表的所述文章类型的文章的数据信息,确定所述文章类型对应的发文中位数、阅读量中位数和分享比中位数;
利用每一文章类型对应的所述发文数量、所述平均文章阅读量、所述平均文章分享比、所述发文中位数、所述阅读量中位数和所述分享比中位数,计算所述作者的影响度。
4.一种关注度的计算系统,其特征在于,所述系统包括:
第一获取单元,用于获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;
第二获取单元,用于在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;
第三获取单元,用于获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;
计算单元,用于利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。
5.根据权利要求4所述的系统,其特征在于,还包括:构建所述关键词库的预构建单元,所述预构建单元包括:
获取模块,用于获取每一行业对应的预设的关键词词典;
处理模块,用于针对每一所述行业,利用所述行业对应的关键词词典,对所述行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和所述关键词的权重;
存储模块,用于将权重大于阈值的所述关键词存储至关键词库中。
6.根据权利要求4所述的系统,其特征在于,所述第三获取单元包括:
获取模块,用于获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比;
确定模块,用于针对每一文章类型,利用其他作者发表的所述文章类型的文章的数据信息,确定所述文章类型对应的发文中位数、阅读量中位数和分享比中位数;
计算模块,用于利用每一文章类型对应的所述发文数量、所述平均文章阅读量、所述平均文章分享比、所述发文中位数、所述阅读量中位数和所述分享比中位数,计算所述作者的影响度。
CN202010164470.7A 2020-03-11 2020-03-11 一种关注度的计算方法及系统 Active CN111008525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010164470.7A CN111008525B (zh) 2020-03-11 2020-03-11 一种关注度的计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010164470.7A CN111008525B (zh) 2020-03-11 2020-03-11 一种关注度的计算方法及系统

Publications (2)

Publication Number Publication Date
CN111008525A true CN111008525A (zh) 2020-04-14
CN111008525B CN111008525B (zh) 2020-06-30

Family

ID=70121063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010164470.7A Active CN111008525B (zh) 2020-03-11 2020-03-11 一种关注度的计算方法及系统

Country Status (1)

Country Link
CN (1) CN111008525B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066948A1 (en) * 2013-08-27 2015-03-05 Adobe Systems Incorporated Influence Scoring for Social Media Authors
CN105740436A (zh) * 2016-02-01 2016-07-06 北京京东尚科信息技术有限公司 基于互联网搜索技术的文字作品推送方法和装置
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及系统
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066948A1 (en) * 2013-08-27 2015-03-05 Adobe Systems Incorporated Influence Scoring for Social Media Authors
CN105740436A (zh) * 2016-02-01 2016-07-06 北京京东尚科信息技术有限公司 基于互联网搜索技术的文字作品推送方法和装置
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及系统
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法

Also Published As

Publication number Publication date
CN111008525B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111061957A (zh) 一种文章相似度推荐方法和装置
CN108268439B (zh) 文本情感的处理方法及装置
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN109308311A (zh) 一种多源异构数据融合系统
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN111400521A (zh) 一种图数据处理方法、装置、设备、介质
CN103514269A (zh) 基于自然搜索结果确定与第一查询词相关联的第二查询词
CN111008525B (zh) 一种关注度的计算方法及系统
CN117593089A (zh) 信用卡推荐方法、装置、设备、存储介质及程序产品
CN113239697A (zh) 实体识别模型训练方法、装置、计算机设备及存储介质
CN109766527B (zh) 一种文本相似度的计算方法以及相关设备
CN110851587B (zh) 商品编码预测模型生成和确定商品编码方法、装置及设备
CN114218259B (zh) 基于大数据SaaS的多维科创信息搜索方法及系统
CN110968666A (zh) 基于相似度的标题生成模型的训练方法及计算设备
CN116310994A (zh) 一种视频片段提取方法、装置、电子设备及介质
CN105893397A (zh) 一种视频推荐方法及装置
CN112085522B (zh) 一种工程项目的造价数据处理方法、系统、装置及介质
CN110852078A (zh) 生成标题的方法和装置
CN111178038B (zh) 一种基于潜在语义分析的文档相似度识别方法及装置
CN111191049B (zh) 信息推送方法、装置、计算机设备和存储介质
CN113868373A (zh) 一种词云生成方法、装置、电子设备及存储介质
CN114154064A (zh) 一种商品关键词优化方法及装置
CN109684442B (zh) 一种文本检索方法、装置、设备及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant