CN111931060A - 发布平台影响力的评估方法及相关装置、计算机存储介质 - Google Patents

发布平台影响力的评估方法及相关装置、计算机存储介质 Download PDF

Info

Publication number
CN111931060A
CN111931060A CN202010863457.0A CN202010863457A CN111931060A CN 111931060 A CN111931060 A CN 111931060A CN 202010863457 A CN202010863457 A CN 202010863457A CN 111931060 A CN111931060 A CN 111931060A
Authority
CN
China
Prior art keywords
publishing
articles
publishing platform
platform
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010863457.0A
Other languages
English (en)
Other versions
CN111931060B (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010863457.0A priority Critical patent/CN111931060B/zh
Publication of CN111931060A publication Critical patent/CN111931060A/zh
Application granted granted Critical
Publication of CN111931060B publication Critical patent/CN111931060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种发布平台影响力的评估方法及相关装置、计算机存储介质,所述方法包括:获取被多个发布平台转载的多篇文章;利用文档主题生成模型计算得到每篇文章的主题分布向量;一篇文章的主题分布向量包括文章属于多个主题的概率;根据所述文章的主题分布向量,从发布或转载每一篇文章的发布平台中,筛选出多个主题对应的发布平台集合;其中,每一个发布平台集合包括:对主题分布向量相似的至少两篇文章中的文章执行发布或者转载行为的发布平台;发布平台集合的对应主题为主题分布向量相似的至少两篇所述文章的所属主题;针对每个发布平台集合,计算发布平台集合中的各个发布平台在发布平台集合的对应主题下的文章的阅读量的影响力得分。

Description

发布平台影响力的评估方法及相关装置、计算机存储介质
技术领域
本申请涉及信息处理技术领域,特别涉及一种发布平台影响力的评估方法及相关装置、计算机存储介质。
背景技术
随着自媒体网络的发展,作为自媒体的各个发布平台每天都有大量文章发布,并且所发布的文章所涉及的话题越来越广。其中,发布平台发布的文章可以是原创,也可以是从其他发布平台转载。
由于,每个发布平台在特定的话题下的影响力不同,因此会出现在特定话题下影响力不足的发布平台发布一篇原创文章后,无法获得较多的阅读量,但是被该话题下具有影响力的某些发布平台转载后,被广为传播。因此,现今为了能让发布的文章传播更广,在特定话题下影响力不足的发布平台会主动向影响力较大的发布平台进行投稿,以由在该特定话题下影响力较大的发布平台转载自己的文章,从而获得更多的阅读量。
但是,由于现今没有任何关于各个发布平台在不同话题下的影响力的信息可供参考,因此寻找在特定话题下影响力高的发布平台,主要完全依靠人工进行查找,不仅效率低并且覆盖面相对较小。
发明内容
基于上述现有技术的不足,本申请提供了一种发布平台影响力的评估方法及相关装置、计算机存储介质,以解决现有技术缺少发布平台在不同的话题下的影响力的信息进行参考问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种发布平台影响力的评估方法,包括:
获取被多个发布平台转载的多篇文章;
利用文档主题生成模型计算得到每篇所述文章的主题分布向量;其中,一篇所述文章的主题分布向量包括所述文章属于多个主题的概率;
根据所述文章的主题分布向量,从发布或转载每一篇所述文章的发布平台中,筛选出多个所述主题对应的发布平台集合;其中,每一个所述发布平台集合包括:对所述主题分布向量相似的至少两篇所述文章中的文章执行发布或者转载行为的发布平台;所述发布平台集合的对应主题为所述主题分布向量相似的至少两篇所述文章的所属主题;
针对每个所述发布平台集合,计算所述发布平台集合中的各个所述发布平台在所述发布平台集合的对应主题下的文章的阅读量的影响力得分。
可选地,在上述的发布平台影响力的评估方法中,所述根据所述文章的主题分布向量,从发布或转载每一篇所述文章的发布平台中,筛选出多个所述主题的发布平台集合,包括:
分别计算转载于同一个所述发布平台的至少两篇所述文章的主题分布向量的余弦相似性;
将所述文章的主题分布向量的余弦相似性均大于预设值的至少两篇文章,确定为同一主题下的文章;
将转载所述同一主题下的所述文章的各个所述发布平台以及发布所述同一主题下的所述文章的发布平台,确定为所述主题对应的发布平台集合。
可选地,在上述的发布平台影响力的评估方法中,所述针对每个所述发布平台集合,计算所述发布平台集合中的各个所述发布平台在所述主题下的文章的阅读量的影响力得分,包括:
针对每个所述发布平台集合,分别计算所述发布平台集合中的各个发布平台转载所述发布平台集合的对应主题下的文章获得的阅读量,与所述发布平台集合中各个发布平台发布的所述发布平台集合的对应主题下的文章获得的阅读总量的比值,得到每个所述发布平台在所述主题下的阅读量比重;
将每个所述发布平台在所述主题下的阅读量比重、与所述发布平台转载所述发布平台集合中的各个发布平台发布的所述发布平台集合的对应主题下的所述文章的数量的商,作为所述发布平台在所述主题下的阅读量的影响力得分。
可选地,在上述的发布平台影响力的评估方法中,所述获取被多个发布平台转载的多篇文章,包括:
获取多个发布平台发布的各篇文章;
分别从每篇所述文章中识别用于指示转载行为的转载文本;
选取识别到所述转载文本的文章,作为被所述发布平台转载的多篇文章。
本申请第二方面提供了一种发布平台影响力的评估装置,包括:
第一获取单元,用于获取被多个发布平台转载的多篇文章;
处理单元,用于利用文档主题生成模型计算得到每篇所述文章的主题分布向量;其中,一篇所述文章的主题分布向量包括所述文章属于多个主题的概率;
筛选单元,用于根据所述文章的主题分布向量,从发布或转载每一篇所述文章的发布平台中,筛选出多个所述主题对应的发布平台集合;其中,每一个所述发布平台集合包括:对所述主题分布向量相似的至少两篇所述文章中的文章执行发布或者转载行为的发布平台;所述发布平台集合的对应主题为所述主题分布向量相似的至少两篇所述文章的所属主题;
第一计算单元,用于针对每个所述发布平台集合,计算所述发布平台集合中的各个所述发布平台在所述发布平台集合的对应主题下的文章的阅读量的影响力得分。
可选地,在上述的发布平台影响力的评估装置中,所述筛选单元,包括:
第二计算单元,用于分别计算转载于同一个所述发布平台的至少两篇所述文章的主题分布向量的余弦相似性;
主题确定单元,用于针对每个所述发布平台,将任意两篇所述文章的主题分布向量的余弦相似性均大于预设值的所述文章,确定为同一主题下的文章;
筛选子单元,用于将转载同一个所述发布平台发布的同一主题下的所述文章的各个所述发布平台以及发布所述同一主题下的所述文章的发布平台,确定为所述主题对应的发布平台集合。
可选地,在上述的发布平台影响力的评估装置中,所述第一计算单元,包括:
比值计算单元,用于针对每个所述发布平台集合,分别计算所述发布平台集合中的各个发布平台转载所述发布平台集合的对应主题下的文章获得的阅读量,与所述发布平台集合中各个发布平台发布的所述发布平台集合的对应主题下的文章获得的阅读总量的比值,得到每个所述发布平台在所述主题下的阅读量比重;
得分计算单元,用于将每个所述发布平台在所述主题下的阅读量比重、与所述发布平台转载所述发布平台集合中的各个发布平台发布的所述发布平台集合的对应主题下的所述文章的数量的商,作为所述发布平台在所述主题下的阅读量的影响力得分。
可选地,在上述的发布平台影响力的评估装置中,所述第一获取单元,包括:
获取子单元,用于获取多个发布平台发布的各篇文章;
识别单元,用于分别从每篇所述文章中识别用于指示转载行为的转载文本;
选取单元,用于选取识别到所述转载文本的文章,作为被所述发布平台转载的多篇文章。
本申请第三方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的发布平台影响力的评估方法。
本申请第四方面提供了一种电子设备,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的发布平台影响力的评估方法。
本申请提供的一种发布平台影响力的评估方法,通过获取被多个发布平台转载的多篇文章,然后利用文档主题生成模型计算得到每篇文章的主题分布向量,一篇文章的主题分布向量包括文章属于多个主题的概率,所以可以根据文章的主题分布向量的相似性,确定属于同一主题的文章,进而从发布或转载每一篇文章的发布平台中,筛选出多个主题对应的发布平台集合,每一个发布平台集合对主题分布向量相似的至少两篇文章中的文章执行发布或者转载行为的发布平台,即得到对同一个主题下的文章有发布或转载行为的发布平台的集合,最后针对每个发布平台集合,计算发布平台集合中的各个发布平台在发布平台集合的对应主题下的文章的阅读量的影响力得分,从而通过发布平台在各个主题下的文章阅读量,得到各个发布平台在各个主题下的影响力得分,进而可提供给用户进行参考。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种发布平台影响力的评估方法的流程示意图;
图2为本申请另一实施例提供的另一种发布平台影响力的评估方法的流程示意图;
图3为本申请另一实施例提供的一种有向图网络的示意图;
图4为本申请另一实施例提供的一种筛选发布平台集合的方法的流程示意图;
图5为本申请另一实施例提供的一种发布平台影响力的评估装置的结构示意图;
图6为本申请另一实施例提供的一种筛选单元的结构示意图;
图7为本申请另一实施例提供的一种第一获取单元的结构示意图;
图8为本申请另一实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种发布平台影响力的评估方法,如图1所示,该方法具体包括以下步骤:
S101、获取被多个发布平台转载的多篇文章。
需要说明的是,发布平台指的是可在线上发布文章的对象,具体可以指的是微信公众号或者博主,又或者论坛中的用户等可在所属的网站、平台或应用中发布文章的对象。
可选地,可以是获取当前所有被发布平台转载过的文章。例如,对于微信公众号转载的文章,可以是获取全量的被任意一个微信公众号转载过的文章。当然,也可以是获取部分被发布平台转载过的文章。
具体的,获取文章具体可以指的是获取整个完整的文章。可以是通过公众号发布的文章所对应的超文本标记语言的(HyperTextMarkup Language,HTML)获取到相应的文章,也可以是通过其他方式获得。例如,若数据库存储有文章的文本文件,则也可以是直接从数据库中获取文章的文本文件。需要说明的是,发布平台转载一篇文章,指代:该发布平台将其他发布平台发表的文章进一步在自身发表,一般文章的发表页面中标示出转载来源。
S102、利用文档主题生成模型计算得到每篇文章的主题分布向量,一篇文章的主题分布向量包括文章属于多个主题的概率。
其中,文档主题生成模型一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。具体的,文档主题生成模型可以基于如下的理论构建:
对于给定的多篇文章的文章集合,预先设定的包含多个主题标签的主题标签集合。文章集合中一篇包含单词数量为D的文章Wi的生成过程可理解为:以一定概率从主题标签集合中选择任意一个主题标签Tj,则再以一定概率从这个主题标签下的单词中选择一个单词Dk,并将被选中的单词作为这篇文章Wi中出现的第一个单词,然后重复前述选择主题标签然后基于主题标签选择单词的方式逐一确定文章Wi中的每个单词,最终生成文章Wi。
利用文档主题生成模型对文章集合进行识别过程实质为:根据文章集合中的每一个单词Dk在文章Wi中的出现频率P(Dk|Wi),确定出每一个主题标签Tj在各篇文章Wi中的出现概率P(Tj|Wi),并确定出每一个主题标签Tj对应于哪些单词Dk,以及在文本中给定任意一个主题标签Tj之后,对应的单词Dk被选中的概率P(Dk|Tj)。其中,P(Dk|Wi)等于文章Wi中包含的单词Dk的数量与文章Wi包含的文本单元的总数的比值。
在确定以上信息后,就得到了文本集合对应的一个文档主题生成模型,从文档主题生成模型中可以直接获得文章集合中每一篇文章对应的主题分布向量。
可选地,可以采用隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)对上述获取到的被转载的文章进行统一的计算处理。LDA模型采用词袋的方法,将每一篇文章视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文章代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
其中,LDA模型的核心公式为:
Figure BDA0002648948650000071
其中,P(Dk|Wi)为单词Dk在文章Wi中的出现频率;M为主题标签集合T中包含的主题标识的数量。Tj则表示主题标签T中的第j个主题标识,所以P(Tj|Wi)为主题标签Tj在文章Wi中出现的概率,P(Dk|Tj)则表示文章Wi属于主题标签Tj时,单词Dk出现的概率。
因此通过LDA对获取到的文章进行计算,最终得到每篇文章对应的主题分布向量。其中,主题分布向量为一个多维向量,每一维向量为该文章属于其中一个相应的主题的概率。
S103、根据文章的主题分布向量,从发布或转载每一篇文章的发布平台中,筛选出多个主题对应的发布平台集合。
其中,每一个发布平台集合包括:对主题分布向量相似的至少两篇文章中的文章执行发布或者转载行为的发布平台,发布平台集合的对应主题为主题分布向量相似的至少两篇文章的所属主题。
由于文章的主题分布向量表示了文章属于各个主题的概率,可以通过计算两篇文章的主题分布向量的相似性,确定两篇文章是否属于同一主题的文章。将属于同一主题的文章执行转载操作的发布平台、以及执行发布操作的发布平台,确定为该主题对应的该主题对应的发布平台集合。
发布平台对文章的发布操作,可以理解成是:该文章在发布平台的发表,当然可以不仅限于首次发表,也就是说发布平台并不是转载由其他发布平台发表的文章。
针对步骤S101中获取得到的每一篇文章,将该文章在步骤S101中提及执行转载操作的每一个发布平台,以及执行转载操作的发布平台的转载来源,即发布文章的发布平台,均作为本步骤中被筛选的原始发布平台,从这些原始发布平台进行筛选,筛选出多个主题对应的发布平台集合。
例如:发布平台B转载了发布平台A发表的一篇文章,发布平台C也转载了发布平台A发表的一篇文章,这两篇文章的主题分布向量也是相似的,那就可以把发布平台B转载的文章和发布平台C转载的文章的所属的共同主题,作为一个主题,且把发布平台A、发布平台B和发布平台C组成该主题对应的发布平台集合。
当然,还筛选出属于同一主题下的文章的发布或者转载的发布平台之后,可以是将所有发布或转载过该主题的文章中的任一文章的发布平台,确定为该主题对应的发布平台集合,也可以将部分发布或转载过该主题的文章中的任一文章的发布平台该主题对应的发布平台集合。
还需要说明的是,一个发布平台可以同时属于多个不同主题对应的发布平台集合,并且一个主题可以对应有一个或多个发布平台集合,这都属于本申请的保护范畴。
S104、针对每个发布平台集合,计算发布平台集合中的各个发布平台在发布平台集合的对应主题下的文章的阅读量的影响力得分。
其中,一个发布平台发布其所属发布平台集合的对应主题下的上述各篇文章的阅读量越多,则计算得到的该发布平台在所属发布平台集合的对应主题下的文章的阅读量的影响力得分越大,即本申请通过发布平台发布的一个主题下的文章获得的阅读量,来评估发布平台在所属发布平台集合范围内,且在该主题下的影响力。
可选地,可以直接将发布平台发布其所属发布平台集合的对应主题下的各篇文章的阅读量,作为发布平台在相应的主题下的阅读量的影响力,或者将根据发布平台发布其所属发布平台集合的对应主题下的各篇文章的阅读量,计算得到的绝对值或相对值,作为发布平台在相应的主题下的阅读量的影响力等。
本申请实施例提供的一种发布平台影响力的评估方法,通过获取被多个发布平台转载的多篇文章,然后利用文档主题生成模型计算得到每篇文章的主题分布向量,一篇文章的主题分布向量包括文章属于多个主题的概率,所以可以根据文章的主题分布向量的相似性,确定属于同一主题的文章,进而从发布或转载每一篇文章的发布平台中,筛选出多个主题对应的发布平台集合,每一个发布平台集合对主题分布向量相似的至少两篇文章中的文章执行发布或者转载行为的发布平台,即得到对同一个主题下的文章有发布或转载行为的发布平台的集合,最后针对每个发布平台集合,计算发布平台集合中的各个发布平台在发布平台集合的对应主题下的文章的阅读量的影响力得分,从而通过发布平台在各个主题下的文章阅读量,得到可提供给用户进行参考的各个发布平台在各个主题下的影响力。
本申请另一实施例提供了另一种发布平台影响力的评估方法,如图2所示,具体包括如下步骤:
S201、获取多个发布平台发布的各篇文章。
可选地,可以是扫描遍历全量的文章对应的HTML,获得全量的文章,从而在尽可能大的范围内评估发布平台的影响力。当然,也可以仅是获取部分文章。需要说明的是,由于文章会被多个不同的发布平台转载,因此获取的文章中会存在重复的文章,但这不影响本申请的实现,所以获取的各篇文章中可以包括被不同发布平台转载发布的相同文章。
S202、分别从每篇文章中识别用于指示转载行为的转载文本。
本申请实施例中,主要针对的是被转载过的文章,所以需要从获取到的文章中筛选出被转载过的文章。具体的,通过对各篇文章的标题字段,正文开头或者结尾处的文章进行解析,从而识别文章中是否存在用于指示转载行为的转载文章,例如,文章结尾处的“来源A发布平台”,这段文本即为用于指示该篇文章是转载的,而不是原创的。
S203、选取识别到转载文本的文章,作为被发布平台转载的多篇文章。
由于,从文章中能识别到转载文本,说明文章被转载过,因此选取这部分的文章作为后续处理针对的对象。
可选地,在对各篇文章进行解析时,还可以提取出发布各篇文章的发布平台的名称以及转载来源的发布平台的名称。然后,根据发布平台间的转载关系建立有向网络图。
构建有向图网络的方式具体可以为:将每个发布平台作为一个节点,根据从各篇文章中提取出的转载文章的发布平台的名称和转载来源的发布平台的名称,将存在转载行为的两个发布平台的节点采用有向线段连接。具体可以是由转载文章的发布平台的节点指向被转载的发布平台的节点,即一条有向线段对应一次转载行为。并且,构建有向图网络时还未每条有向线段设置相应的标识,用于指代指向相应的转载行为时所转载的文章,所以转载相同文章的转载行为所对应的有向线段具有相同的标识,并且两个节点间可以存在多条有向线段。例如,如图3所示,发布平台A转载了发布平台B的一篇文章2,因此在有向图网络中,存在由节点B指向节点A的有向线段2。同样,发布平台B转载了发布平台A的一篇文章1,因此存在由节点A指向节点B的有向线段1。同理对其他节点间的转载行为也采用同样的方式进行构建,最终得到一个可反映发布平台的转载行为的有向图网络,从而也构建起了发布平台之间的转载关联关系,便于后续筛选发布平台集合,并且也可以显示给用户,供用户了解各个发布平台间存在的转载行为。
S204、利用文档主题生成模型计算得到每篇文章的主题分布向量。
其中,一篇文章的主题分布向量包括文章属于多个主题的概率。
需要说明的是,步骤S204的具体实施方式可相应地参考上述方法实施例中的步骤S102,此处不再赘述。
S205、根据文章的主题分布向量,从发布或转载每一篇文章的发布平台中,筛选出多个主题对应的发布平台集合。
其中,每一个发布平台集合包括:对主题分布向量相似的至少两篇文章中的文章执行发布或者转载行为的发布平台,发布平台集合的对应主题为主题分布向量相似的至少两篇文章的所属主题。
可选地,在本申请另一实施例中步骤S205的一种具体实施方式,如图4所示,具体包括:
S401、分别计算转载于同一个发布平台的至少两篇文章的主题分布向量的余弦相似性。
具体可以是计算从同一发布平台转载出去的文章中的每两篇文章的主题分布向量的余弦相似性。若在有向网络图中,即计算从同一节点指向其他节点的每两条有向线段对应的文章的主题分布向量的余弦相似性。
S402、将文章的主题分布向量的余弦相似性均大于预设值的至少两篇文章,确定为同一主题下的文章。
其中,两篇文章的主题分布向量的余弦相似性越大,则两篇文章属于同一主题的概率越大。具体的,将从同一发布平台转载出去的任意两篇文章的主题分布向量的余弦相似性均大于预设值的文章,确定为同一主题下的文章,即同一主题下的任意两篇文章的余弦相似性均大于预设值。
S403、将转载同一主题下的文章的各个发布平台以及发布同一主题下的文章的发布平台,确定为主题对应的发布平台集合。
对于在构建了有向图网络时,相当于在有向图网络中选取出多个话题对应的子图。一个子图中的有向线段均由一个节点指向其他节点,并且所有的有限线段指代的转载行为所转载的文章属于同一主题。
需要说明的是,在本申请实施例中,所筛选出的发布平台集合所涉及的到的发布平台相对较少。但是,在转载的文章来源相同发布平台,并且属于相同话题的情况下,计算得到一个发布平台的影响力,更能体现出一个发布平台相比于其所属发布平台集合中其他发布平台的影响力,不再受转发不同发布平台的文章可能对影响力所带来的影响。
S206、针对每个发布平台集合,分别计算发布平台集合中的各个发布平台转载的发布平台集合的对应主题下的文章获得的阅读量,与发布平台集合中各个发布平台发布的发布平台集合的对应主题下的文章获得的阅读总量的比值,得到每个发布平台在该主题下的阅读量比重。
针对一个发布平台,计算该发布平台在其所属的发布平台集合的对应话题下的影响力的,具体为计算该发布平台转载在其所属的发布平台集合的对应话题下的文章所获得阅读量,与发布平台集合中各个发布平台发布的发布平台集合的对应主题下的文章获得的阅读总量的比值,以通过发布平台转发一个主题下的文章的阅读总量与该话题下的总的阅读总量的相比值来反映用户的影响力。采用相对值作为影响力得分,可以更加直观的知道一个发布平台在对应的话题下相比其他发布平台的影响力的大小。
其中,该发布平台转载在其所属的发布平台集合的对应话题下的文章,可以指的是转发发布平台集合中的其他发布平台发布的该主题的文章,也可以是任意发布平台发布的该主题的文章。
S207、将每个发布平台在对应主题下的阅读量比重、与发布平台转载发布平台集合中的各个所述发布平台发布的发布平台集合的对应主题下的所述文章的数量的商,作为发布平台在该主题下的阅读量的影响力得分。
由于,通常情况下转发的文章的数量越多,则获得转发文章的阅读总量也就越多,所得到的阅读量比重也越大,所以直接将阅读量比重作为发布平台的影响力得分不能很好的反映发布平台的影响力,因此本申请在得到发布平台在对应主题下的阅读量比重后,还处于所转发该主题下的文章的数量,从而得到发布平台在该主题下的阅读量的影响力得分。因此,可见在本申请实施例中,一个发布平台在一个主题下的阅读量的影响力等分的计算方式为:
Figure BDA0002648948650000121
其中,Influence(X)为发布平台X在一个主题下的阅读量的影响力等分,Y(X)为发布平台X转载的所属发布平台集合的对应主题下的文章获得的阅读量;Y(Gi(X))为发布平台X所属发布平台集合中的第i个发布平台转载的该发布平台集合的对应主题下的文章获得的阅读量;N为发布平台X所属发布平台集合中的发布平台的数量;Q为发布平台X转载发布平台集合中的各个发布平台发布的发布平台集合的对应主题下的文章的数量。
本申请实施例提供的一种发布平台影响力的评估方法,通过识别文章中用于指示转载行为的转载文本,从而选取出多篇被发布平台转载的文章。然后利用文档主题生成模型计算得到每篇文章的主题分布向量,一篇文章的主题分布向量包括文章属于多个主题的概率,所以可以根据文章的主题分布向量的相似性,确定属于同一主题的文章,进而从发布或转载每一篇文章的发布平台中,筛选出多个主题对应的发布平台集合,每一个发布平台集合对主题分布向量相似的至少两篇文章中的文章执行发布或者转载行为的发布平台,即得到对同一个主题下的文章有发布或转载行为的发布平台的集合,最后针对每个发布平台集合,通过计算发布平台集合中的各个发布平台转载相应主题下的文章的阅读量与发布平台集合在该主题下的所有文章的阅读总量的比值,并将该比值处于发布平台转发的文章的数量,从而通得到可提供给用户进行参考的各个发布平台在各个主题下的影响力。
本申请另一实施例提供了一种发布平台影响力的评估装置,如图5所示,具体包括如下单元:
第一获取单元501,用于获取被多个发布平台转载的多篇文章。
处理单元502,用于利用文档主题生成模型计算得到每篇文章的主题分布向量。
其中,一篇文章的主题分布向量包括文章属于多个主题的概率。
筛选单元503,用于根据文章的主题分布向量,从发布或转载每一篇文章的发布平台中,筛选出多个主题对应的发布平台集合。
其中,每一个发布平台集合包括:对主题分布向量相似的至少两篇文章中的文章执行发布或者转载行为的发布平台。发布平台集合的对应主题为主题分布向量相似的至少两篇文章的所属主题;
第一计算单元504,用于针对每个发布平台集合,计算发布平台集合中的各个发布平台在发布平台集合的对应主题下的文章的阅读量的影响力得分。
可选地,在本申请另一实施提供的发布平台影响力的评估装置中,筛选单元,如图6所示,包括如下单元:
第二计算单元601,用于分别计算转载于同一个发布平台的至少两篇文章的主题分布向量的余弦相似性。
主题确定单元602,用于将文章的主题分布向量的余弦相似性均大于预设值的至少两篇文章,确定为同一主题下的文章。
筛选子单元603,用于将转载同一个发布平台发布的同一主题下的文章的各个发布平台以及发布同一主题的文章的发布平台,确定为主题对应的发布平台集合。
可选地,在本申请另一实施例提供的发布平台影响力的评估装置中,第一计算单元,包括:比值计算单元以及得分计算单元。
其中,比值计算单元,用于针对每个发布平台集合,分别计算发布平台集合中的各个发布平台转载发布平台集合的对应主题下的文章获得的阅读量,与发布平台集合中各个发布平台发布的发布平台集合的对应主题下的文章获得的阅读总量的比值,得到每个发布平台在主题下的阅读量比重;
得分计算单元,用于将每个发布平台在主题下的阅读量比重、与发布平台转载发布平台集合中的各个发布平台发布的发布平台集合的对应主题下的文章的数量的商,作为发布平台在主题下的阅读量的影响力得分。
可选地,在本本申请另一实施例中,第一获取单元,如图7所示,包括如下单元:
第一获取子单元701,用于获取多个发布平台发布的各篇文章。
识别单元702,用于分别从每篇文章中识别用于指示转载行为的转载文本。
选取单元703,用于选取识别到转载文本的文章,作为被发布平台转载的多篇文章。
本申请实施例提供的一种发布平台影响力的评估装置,通过第一获取单元获取被多个发布平台转载的多篇文章,然后处理单元利用文档主题生成模型计算得到每篇文章的主题分布向量。由于一篇文章的主题分布向量包括文章属于多个主题的概率,所以可以根据文章的主题分布向量的相似性,确定属于同一主题的文章,进而筛选单元可以从发布或转载每一篇文章的发布平台中,筛选出多个主题对应的发布平台集合,每一个发布平台集合对主题分布向量相似的至少两篇文章中的文章执行发布或者转载行为的发布平台,即得到对同一个主题下的文章有发布或转载行为的发布平台的集合,最后第一计算单元针对每个发布平台集合,计算发布平台集合中的各个发布平台在发布平台集合的对应主题下的文章的阅读量的影响力得分,从而通过发布平台在各个主题下的文章阅读量,得到可提供给用户进行参考的各个发布平台在各个主题下的影响力。
本申请另一实施例提供了一种计算机存储介质,用于存储计算机程序,计算机程序被执行时,用于实现如上述任意一个实施例提供的发布平台影响力的评估方法。
计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
本申请另一实施例提供了一种电子设备,如图8所示,包括:
存储器801和处理器802。
其中,存储器801用于存储程序,处理器802用于执行存储器801存储的程序,该程序被执行时,具体用于实现如上述任意一个实施例提供的发布平台影响力的评估方法。
本申请另一实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意一个实施例提供的发布平台影响力的评估方法。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种发布平台影响力的评估方法,其特征在于,包括:
获取被多个发布平台转载的多篇文章;
利用文档主题生成模型计算得到每篇所述文章的主题分布向量;其中,一篇所述文章的主题分布向量包括所述文章属于多个主题的概率;
根据所述文章的主题分布向量,从发布或转载每一篇所述文章的发布平台中,筛选出多个所述主题对应的发布平台集合;其中,每一个所述发布平台集合包括:对所述主题分布向量相似的至少两篇所述文章中的文章执行发布或者转载行为的发布平台;所述发布平台集合的对应主题为所述主题分布向量相似的至少两篇所述文章的所属主题;
针对每个所述发布平台集合,计算所述发布平台集合中的各个所述发布平台在所述发布平台集合的对应主题下的文章的阅读量的影响力得分。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文章的主题分布向量,从发布或转载每一篇所述文章的发布平台中,筛选出多个所述主题的发布平台集合,包括:
分别计算转载于同一个所述发布平台的至少两篇所述文章的主题分布向量的余弦相似性;
将所述文章的主题分布向量的余弦相似性均大于预设值的至少两篇文章,确定为同一主题下的文章;
将转载所述同一主题下的所述文章的各个所述发布平台以及发布所述同一主题下的所述文章的发布平台,确定为所述主题对应的发布平台集合。
3.根据权利要求1所述的方法,其特征在于,所述针对每个所述发布平台集合,计算所述发布平台集合中的各个所述发布平台在所述主题下的文章的阅读量的影响力得分,包括:
针对每个所述发布平台集合,分别计算所述发布平台集合中的各个发布平台转载所述发布平台集合的对应主题下的文章获得的阅读量,与所述发布平台集合中各个发布平台发布的所述发布平台集合的对应主题下的文章获得的阅读总量的比值,得到每个所述发布平台在所述主题下的阅读量比重;
将每个所述发布平台在所述主题下的阅读量比重、与所述发布平台转载所述发布平台集合中的各个发布平台发布的所述发布平台集合的对应主题下的所述文章的数量的商,作为所述发布平台在所述主题下的阅读量的影响力得分。
4.根据权利要求1所述的方法,其特征在于,所述获取被多个发布平台转载的多篇文章,包括:
获取多个发布平台发布的各篇文章;
分别从每篇所述文章中识别用于指示转载行为的转载文本;
选取识别到所述转载文本的文章,作为被所述发布平台转载的多篇文章。
5.一种发布平台影响力的评估装置,其特征在于,包括:
第一获取单元,用于获取被多个发布平台转载的多篇文章;
处理单元,用于利用文档主题生成模型计算得到每篇所述文章的主题分布向量;其中,一篇所述文章的主题分布向量包括所述文章属于多个主题的概率;
筛选单元,用于根据所述文章的主题分布向量,从发布或转载每一篇所述文章的发布平台中,筛选出多个所述主题对应的发布平台集合;其中,每一个所述发布平台集合包括:对所述主题分布向量相似的至少两篇所述文章中的文章执行发布或者转载行为的发布平台;所述发布平台集合的对应主题为所述主题分布向量相似的至少两篇所述文章的所属主题;
第一计算单元,用于针对每个所述发布平台集合,计算所述发布平台集合中的各个所述发布平台在所述发布平台集合的对应主题下的文章的阅读量的影响力得分。
6.根据权利要求5所述的装置,其特征在于,所述筛选单元,包括:
第二计算单元,用于分别计算转载于同一个所述发布平台的至少两篇所述文章的主题分布向量的余弦相似性;
主题确定单元,用于将所述文章的主题分布向量的余弦相似性均大于预设值的至少两篇文章,确定为同一主题下的文章;
筛选子单元,用于将转载所述同一主题下的所述文章的各个所述发布平台以及发布所述同一主题下的所述文章的发布平台,确定为所述主题对应的发布平台集合。
7.根据权利要求5所述的装置,其特征在于,所述第一计算单元,包括:
比值计算单元,用于针对每个所述发布平台集合,分别计算所述发布平台集合中的各个发布平台转载所述发布平台集合的对应主题下的文章获得的阅读量,与所述发布平台集合中各个发布平台发布的所述发布平台集合的对应主题下的文章获得的阅读总量的比值,得到每个所述发布平台在所述主题下的阅读量比重;
得分计算单元,用于将每个所述发布平台在所述主题下的阅读量比重、与所述发布平台转载所述发布平台集合中的各个发布平台发布的所述发布平台集合的对应主题下的所述文章的数量的商,作为所述发布平台在所述主题下的阅读量的影响力得分。
8.根据权利要求5所述的装置,其特征在于,所述第一获取单元,包括:
获取子单元,用于获取多个发布平台发布的各篇文章;
识别单元,用于分别从每篇所述文章中识别用于指示转载行为的转载文本;
选取单元,用于选取识别到所述转载文本的文章,作为被所述发布平台转载的多篇文章。
9.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至4任意一项所述的发布平台影响力的评估方法。
10.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至4任意一项所述的发布平台影响力的评估方法。
CN202010863457.0A 2020-08-25 2020-08-25 发布平台影响力的评估方法及相关装置、计算机存储介质 Active CN111931060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010863457.0A CN111931060B (zh) 2020-08-25 2020-08-25 发布平台影响力的评估方法及相关装置、计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010863457.0A CN111931060B (zh) 2020-08-25 2020-08-25 发布平台影响力的评估方法及相关装置、计算机存储介质

Publications (2)

Publication Number Publication Date
CN111931060A true CN111931060A (zh) 2020-11-13
CN111931060B CN111931060B (zh) 2023-11-03

Family

ID=73305171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010863457.0A Active CN111931060B (zh) 2020-08-25 2020-08-25 发布平台影响力的评估方法及相关装置、计算机存储介质

Country Status (1)

Country Link
CN (1) CN111931060B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757170A (zh) * 2022-04-19 2022-07-15 北京字节跳动网络技术有限公司 一种主题聚合方法、装置及电子设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970754A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 文章的自动选取方法及装置
CN106909637A (zh) * 2017-02-14 2017-06-30 国家计算机网络与信息安全管理中心 微信公众号的影响力分析方法和系统
CN107341270A (zh) * 2017-07-28 2017-11-10 东北大学 面向社交平台的用户情感影响力分析方法
CN107577688A (zh) * 2017-04-25 2018-01-12 上海市互联网信息办公室 基于媒体信息采集的原创文章影响力分析系统
CN107784112A (zh) * 2017-11-06 2018-03-09 广州赛宝认证中心服务有限公司 短文本数据增强方法、系统及检测认证服务平台
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
US20180165696A1 (en) * 2016-12-09 2018-06-14 Authors, Inc. Predictive Analytics Diagnostic System and Results on Market Viability and Audience Metrics for Scripted Media
CN109949172A (zh) * 2017-12-15 2019-06-28 深圳市腾讯计算机系统有限公司 社交账号影响力评价方法、装置及存储介质
CN110019776A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN110019805A (zh) * 2017-12-18 2019-07-16 北京京东尚科信息技术有限公司 文章主题挖掘方法和装置及计算机可读存储介质
CN110413994A (zh) * 2019-06-28 2019-11-05 宁波深擎信息科技有限公司 热点话题生成方法、装置、计算机设备和存储介质
CN110750212A (zh) * 2019-09-06 2020-02-04 中国平安财产保险股份有限公司 文章发布方法、装置、计算机设备及存储介质
CN110895586A (zh) * 2018-08-22 2020-03-20 腾讯科技(深圳)有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN111460252A (zh) * 2020-03-16 2020-07-28 青岛智汇文创科技有限公司 一种基于网络舆情分析的自动化搜索引擎方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970754A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 文章的自动选取方法及装置
US20180165696A1 (en) * 2016-12-09 2018-06-14 Authors, Inc. Predictive Analytics Diagnostic System and Results on Market Viability and Audience Metrics for Scripted Media
CN106909637A (zh) * 2017-02-14 2017-06-30 国家计算机网络与信息安全管理中心 微信公众号的影响力分析方法和系统
CN107577688A (zh) * 2017-04-25 2018-01-12 上海市互联网信息办公室 基于媒体信息采集的原创文章影响力分析系统
CN107341270A (zh) * 2017-07-28 2017-11-10 东北大学 面向社交平台的用户情感影响力分析方法
CN110019776A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN107784112A (zh) * 2017-11-06 2018-03-09 广州赛宝认证中心服务有限公司 短文本数据增强方法、系统及检测认证服务平台
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN109949172A (zh) * 2017-12-15 2019-06-28 深圳市腾讯计算机系统有限公司 社交账号影响力评价方法、装置及存储介质
CN110019805A (zh) * 2017-12-18 2019-07-16 北京京东尚科信息技术有限公司 文章主题挖掘方法和装置及计算机可读存储介质
CN110895586A (zh) * 2018-08-22 2020-03-20 腾讯科技(深圳)有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN110413994A (zh) * 2019-06-28 2019-11-05 宁波深擎信息科技有限公司 热点话题生成方法、装置、计算机设备和存储介质
CN110750212A (zh) * 2019-09-06 2020-02-04 中国平安财产保险股份有限公司 文章发布方法、装置、计算机设备及存储介质
CN111460252A (zh) * 2020-03-16 2020-07-28 青岛智汇文创科技有限公司 一种基于网络舆情分析的自动化搜索引擎方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ANTONINO SCLAFANI ET AL.: "Influence of metallic silver and of platinum-silver bimetallic deposits on the photocatalytic activity of titania in organic and aqueous media", 《JOURNAL OF PHOTOCHEMISTRY AND PHOTOBIOLOGY》》, vol. 113, no. 2, pages 181 - 188, XP055138562, DOI: 10.1016/S1010-6030(97)00319-5 *
DTR/RRS-00001: "Technical Report Reconfigurable Radio Systems (RRS); Summary of feasibility studies and potential standardization topics", 《TSI TR 102 838》, no. 1, pages 1 - 21 *
渠北浚;白宇;蔡东风;陈建军;: "基于LambdaMART算法的微信公众号排序", 中文信息学报, no. 12, pages 105 - 113 *
钟若曦;马晓燕;梁宁;郭丽丽;吴崧霖;陈梁;严维娜;马文军;: "公共卫生类微信公众号文章发布情况与传播效果研究", 中国健康教育, no. 09, pages 33 - 36 *
顾远萍;: "图书馆微信公众平台推文研究", 图书馆学研究, no. 24, pages 40 - 44 *
颜月明 等: "一种微信公众号影响力的评估方法", 《情报杂志》, no. 09, pages 145 - 149 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757170A (zh) * 2022-04-19 2022-07-15 北京字节跳动网络技术有限公司 一种主题聚合方法、装置及电子设备

Also Published As

Publication number Publication date
CN111931060B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
US20170116203A1 (en) Method of automated discovery of topic relatedness
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
US20130311517A1 (en) Representing Incomplete and Uncertain Information in Graph Data
US20220188286A1 (en) Data Catalog Providing Method and System for Providing Recommendation Information Using Artificial Intelligence Recommendation Model
CN110019785B (zh) 一种文本分类方法及装置
Ransom et al. Facets of user‐assigned tags and their effectiveness in image retrieval
CN110674178B (zh) 构建用户画像标签的方法及其系统
US20130151519A1 (en) Ranking Programs in a Marketplace System
Ferilli et al. Automatic topics identification for reviewer assignment
CN111581235B (zh) 识别常见关联关系的方法及系统
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
CN111931060A (zh) 发布平台影响力的评估方法及相关装置、计算机存储介质
CN111444368A (zh) 构建用户画像的方法、装置、计算机设备及存储介质
CN116010216A (zh) 数据资产健康度的评估方法、装置、设备及存储介质
CN107315807B (zh) 人才推荐方法和装置
CN116071133A (zh) 基于大数据的跨境电商环境分析方法、系统及计算设备
US20130167115A1 (en) Computing Reusability Index of Software Assets
CN112463896B (zh) 档案编目数据处理方法、装置、计算设备及存储介质
Hong et al. An efficient tag recommendation method using topic modeling approaches
CN110309313B (zh) 生成事件转移图谱的方法及装置
CN110309312B (zh) 一种关联事件获取方法及装置
CN106547921B (zh) 标签生成方法及装置
CN117951303B (zh) 基于生成式大模型的文本信息关联性分析方法及设备
CN116384473B (zh) 一种计算图改进、信息推送方法及装置
CN118261752A (zh) 侵权损失确定方法、侵权损失确定装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant