CN112000709B

CN112000709B - 一种社交媒体信息的总曝光量批量挖掘方法及装置

Info

Publication number: CN112000709B
Application number: CN202010690841.5A
Authority: CN
Inventors: 王嘉伟
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2023-10-24
Anticipated expiration: 2040-07-17
Also published as: CN112000709A

Abstract

本发明实施例提供一种社交媒体信息的总曝光量批量挖掘方法及装置，按照预设周期遍历待挖掘的N条社交媒体信息，生成N条行数据L；根据预先构造的基于键值对数据结构的计数器组C，遍历一次所有的N条行数据L，获得N条行数据L对应的计数器组C’；根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的所述转发列表rlist，递归地确定每个计数器对应的每条社交媒体信息的总曝光量。使用这种社交媒体信息的总曝光量批量挖掘流程之后，现在这个总曝光是可以快速计算，这个算法只对数据进行了一次遍历就能找出这段时间内所有信息的总曝光量，并且是足够迅速和准确的。

Description

一种社交媒体信息的总曝光量批量挖掘方法及装置

技术领域

本发明涉及数据分析和数据挖掘领域，具体地涉及社交媒体信息的总曝光量批量挖掘方法及装置。

背景技术

社交媒体上用户可以发信息，可以转发别人的信息，可以给任意一信息点赞和评论等操作。在现代的社交媒体中，每条信息的总曝光量是非常重要的数据，其可以作为搜索排名的重要依据。但其计算较为困难，因为首先它是一个实时的不断增长的数字，而且随着转发链越来越长，需要计算的地方就越来越多。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：对于一些产生了多级转发的情况总曝光可能和一阶曝光相差很多，现在需要一种方法来足够迅速和准确地计算某信息的总曝光量。

发明内容

本发明实施例提供一种社交媒体信息的总曝光量批量挖掘方法及装置，以迅速和准确地计算某些社交媒体信息的总曝光量。

第一方面，本发明实施例提供了一种社交媒体信息的总曝光量批量挖掘方法，其包括：按照预设周期遍历待挖掘的N条社交媒体信息，生成N条行数据L，N为正整数；其中，针对每条社交媒体信息，执行如下处理：从本条社交媒体信息中提取特征数据并将提取的特征数据按顺序排列成一行以形成一条行数据L，所述特征数据包括本条社交媒体信息的标识mid、本条社交媒体信息的转发标志rmid、本条社交媒体信息自身的曝光次数pv；根据预先构造的基于键值对数据结构的计数器组C，遍历N条行数据L，获得N条行数据L对应的计数器组C’；其中，所述计数器组C’中包括N个计数器，每个计数器对应于一条行数据L，并且每个计数器包括：本条社交媒体信息的标识mid、本条社交媒体信息自身的曝光次数pv，本条社交媒体信息的被转发列表rlist；

根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的被转发列表rlist，递归地确定每个计数器对应的社交媒体信息的总曝光量T；

所述本条社交媒体信息的转发标志rmid中包括由本条社交媒体信息转发的其他社交媒体信息的标识或者用于表示本条社交媒体信息没有转发其他社交媒体信息的指示符；所述本条社交媒体信息的被转发列表rlist中包括本条社交媒体信息被转发的其他社交媒体信息的标识或者用于表示本条社交媒体信息没有被其他社交媒体信息转发的空值。

在一些具体实施方式中，所述根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的被转发列表rlist，递归地确定每个计数器对应的每条社交媒体信息的总曝光量T，具体包括：

步骤S0：提取当前计数器对应的社交媒体信息的标识mid，执行步骤S1确定当前提取标识的社交媒体信息的总曝光量T；

步骤S1：确定当前提取标识的社交媒体信息的总曝光量T为本条社交媒体信息自身的曝光次数pv、与本条社交媒体信息的被转发列表rlist中包含的所有其他社交媒体信息各自对应的总曝光量的和值；

步骤S2：判断步骤S1中本条社交媒体信息的被转发列表rlist是否为空值，如果不为空值，则执行步骤S3，如果为空值，则执行步骤S4；

步骤S3：依次提取步骤S1中本条社交媒体信息的被转发列表rlist中包含的所有其他社交媒体信息的标识，并返回执行步骤S1确定当前提取标识的社交媒体信息的总曝光量T；

步骤S4：确定步骤S1中本条社交媒体信息的被转发列表rlist对应的总曝光量为0，进一步确定步骤S1中本条社交媒体信息的总曝光量T为本条社交媒体信息自身的曝光次数pv；直至确定出当前计数器对应的社交媒体信息的总曝光量T，流程结束。

在一些具体实施方式中，所述根据预先构造的基于键值对数据结构的计数器组C，遍历N条行数据L，获得N条行数据L对应的计数器组C’，具体包括：针对每一条行数据L，假设当前行数据L的取值为mid0 rmid0 pv0，如果计数器组C’中没有mid0的计数器，则在该计数器组C’中建立一项mid0对应的计数器mid0:{pv:pv0,rlist:[]}，再在该计数器组C’中查找主键为rmid0的计数器，在其被转发列表rlist里加入mid0。

在一些具体实施方式中，所述方法还包括：在递归地确定每个计数器对应的社交媒体信息的总曝光量T之后，按照所有计数器的总曝光量进行降序排序，取设定数量的总曝光量最高的计数器对应的社交媒体信息的标识mid，获得总曝光量最多的设定数量的社交媒体信息；或者，设定所有的行数据L中的社交媒体信息自身的曝光次数pv均为固定值，将每条社交媒体信息的总曝光量T与所述固定值之差作为每条社交媒体信息的总转发数，根据每条社交媒体的总转发数确定总转发数最高的社交媒体信息。

第二方面，本发明的实施例还提供一种社交媒体信息的总曝光量T批量挖掘装置，其包括：

第一遍历模块，用于按照预设周期遍历待挖掘的N条社交媒体信息，生成N条行数据L，N为正整数；其中，针对每条社交媒体信息，执行如下处理：从本条社交媒体信息中提取下列特征数据并将提取的特征数据按顺序排列成一行以形成一条行数据L，所述特征数据包括：本条社交媒体信息的标识mid、本条社交媒体信息的转发标志rmid、本条社交媒体信息的自身的曝光次数pv；

第二遍历模块，用于根据预先构造的基于键值对数据结构的计数器组C，遍历N条行数据L，获得N条行数据L对应的计数器组C’；其中，所述计数器组C’中包括N个计数器，每个所述计数器对应于一条行数据L，并且每个计数器包括：本条社交媒体信息的标识mid、本条社交媒体信息自身的曝光次数pv，本条社交媒体信息的被转发列表rlist；

总曝光量确定模块，用于根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的所述被转发列表rlist对应的总曝光量，递归地确定每个计数器对应的社交媒体信息的总曝光量T；

在一些具体实施方式中，所述总曝光量确定模块，用于执行如下处理：

在一些具体实施方式中，所述第二遍历模块，还用于针对每一个行数据L，假设当前的行数据L取值为mid0 rmid0 pv0，如果计数器组里C’没有mid0的计数器，则在该计数器组C’里建立一项mid0对应的计数器mid0:{pv:pv0,rlist:[]}，再在该计数器组C’里找主键为rmid0的计数器，在其转发列表rlist里加入mid0。

在一些具体实施方式中，所述总曝光量确定模块，还用于在递归地确定每个计数器对应的社交媒体信息的总曝光量T之后，按照所有计数器的总曝光量进行降序排序，取设定数量的总曝光量最高的计数器对应的社交媒体信息的标识mid，获得总曝光量最多的设定数量的社交媒体信息；或者，设定所有的行数据L中的社交媒体信息自身的曝光次数pv均为固定值，将每条社交媒体信息的总曝光量T与所述固定值之差作为每条社交媒体信息的总转发数，根据每条社交媒体的总转发数确定总转发数最高的社交媒体信息。

第三方面，本发明的实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如前所述的任意一种的社交媒体信息的总曝光量T批量挖掘方法。

第四方面，本发明的实施例还提供一种计算机设备，其包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前所述的任意一种社交媒体信息的总曝光量T批量挖掘方法。

上述技术方案具有如下有益效果：

本发明的实施例可以快速、准确地批量计算某社交媒体信息的总曝光量。并且，根据本发明的实施例，在确定总曝光量之后可以根据它进行信息流排序，以及以社交媒体信息的总曝光量为基础，生成发布者和阅读者标签、兴趣、进行个性化广告展示。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的实施例的社交媒体信息的总曝光量批量挖掘方法的流程图；

图2是本发明的实施例的社交媒体信息的总曝光量批量挖掘装置的功能框图；

图3是本发明的实施例的一种电子设备的功能框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例的目的在于，对于一些产生了多级转发的情况总曝光可能和一阶曝光相差很多，现在需要一种方法计算某社交媒体信息的总曝光，这个算法还要足够迅速和准确才行。

图1是本发明的实施例的社交媒体信息的总曝光量批量挖掘方法的流程图。如图1所示，本发明实施例的一种社交媒体信息的总曝光量批量挖掘方法，其包括如下步骤：

S110：按照预设周期遍历待挖掘的N条社交媒体信息，生成N条行数据L，N为正整数；其中，针对每条社交媒体信息，执行如下处理：从本条社交媒体信息中提取特征数据并将提取的特征数据按顺序排列成一行以形成一条行数据L，该特征数据包括本条社交媒体信息的标识mid、本条社交媒体信息的转发标志rmid、本条社交媒体信息mid的自身的曝光次数pv；本条社交媒体信息的转发标志rmid中包括由本条社交媒体信息转发的其他社交媒体信息的标识或者用于表示没有转发其他社交媒体信息的指示符。

S120：根据预先构造的基于键值对数据结构的计数器组C，遍历N条行数据L，获得N条行数据L对应的计数器组C’；其中，计数器组C’中包括N个计数器，每个计数器对应于一条行数据L，并且每个计数器包括：本条社交媒体信息的标识mid、本条社交媒体信息自身的曝光次数pv，本条社交媒体信息的被转发列表rlist，该被转发列表rlist指示本条社交媒体信息被转发的其他社交媒体信息的标识或者用于表示本条社交媒体信息没有被其他社交媒体信息转发的空值。rlist是把rmid按被转发的社交媒体信息的统计的结果。

作为一个举例，一条数据L，其格式是：

mid rmid pv，举例为：

28991 2382 991823002

rmid不是一个转发列表而是一个数字，这一行表示28991号微博转发了2382号微博，28991号微博的总曝光是991823002。

后面出现的rlist是一个列表，比如2382号微博的rlist可以是[28991,28992,28993…]等，意思是这些微博转发了2382号微博。

在本步骤中，作为一个举例，m1:{pv:pv1,rlist:[m2,m3,m4…]}表示mid为m1的信息，有pv1的曝光量，转发了m1的mid列表有m2，m3，m4等。

在本步骤中，计数器组C和计数器组C’是同一个计数器组，格式是键值对表，没放计数器之前(即遍历L之前)是空的，遍历完L以后是有数据的(获得N个计数器)。

作为一个举例：

C:{1:{pv:1,rlist:[2，3]},2:{pv:2,rlist:[5]},3:{pv:3,rlist:[]},4:{pv:50,rlist:[]},5:{pv:50,rlist:[]}}。

计数器组C里有5个计数器，分别是mid为1，2，3，4，5对应的5个计数器。mid为1的计数器是{pv:1,rlist:[2，3]}，代表mid为1的微博曝光量是1，转发列表是mid为2和3的微博转发了mid为1的微博。

S130：根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的被转发列表rlist，递归地确定每个计数器对应的社交媒体信息的总曝光量T。

在一些实施例中，S130中的根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的转发列表rlist，递归地确定每个计数器对应的每条社交媒体信息的总曝光量T，具体包括：

在一些实施例中，根据预先构造的基于键值对数据结构的计数器组C，遍历N条行数据L，获得N条行数据L对应的计数器组C’，具体包括：针对每一条行数据L，假设当前行数据L的取值为mid0 rmid0 pv0，如果计数器组C’中没有mid0的计数器，则在该计数器组C’中建立一项mid0对应的计数器mid0:{pv:pv0,rlist:[]}，再在该计数器组C’中查找主键为rmid0的计数器，在其被转发列表rlist里加入mid0。

在一些实施例中，该方法还包括：在递归地确定每个计数器对应的社交媒体信息的总曝光量T之后，按照所有计数器的总曝光量进行降序排序，取设定数量的总曝光量最高的计数器对应的社交媒体信息的标识mid，获得总曝光量最多的设定数量的社交媒体信息；或者，设定所有的行数据L中的社交媒体信息自身的曝光次数pv均为固定值(固定值是根据经验值设置的正整数，通常可以设置为1)，将每条社交媒体信息的总曝光量T与所述固定值之差作为每条社交媒体信息的总转发数，根据每条社交媒体的总转发数确定总转发数最高的社交媒体信息。

以下通过一个举例来详细说明本发明实施例的上述技术方案：

步骤1：每小时一次地遍历所有社交媒体信息，提取其信息id(mid，Message Id，消息ID)、其转发的mid(若是原创信息则此项为空)和该mid的曝光量，将此三种数据写成一行mid rmid pv。把所有数据都写成这样的行，记为L。

假设L是这样的：

1，–，1

2，1，2

3，1，3

4，–，50

5，2，50

rmid为“-”意思是该信息不是转发的。

步骤2：构造计数器组C，例如：{m1:{pv:pv1,rlist:[m2,m3,m4…]},m2:{pv:pv2,rlist:[m5,m6,m7…]}。其中，m1:{pv:pv1,rlist:[m2,m3,m4…]}表示mid为m1的信息，有pv1的曝光量，转发了m1的mid列表有m2，m3，m4等等。C是一种键值对的数据结构。主键是mid，值是另一个小型键值对数据结构D，D里面存了pv和rlist(一个列表，长度可变)。键值对的数据结构可以用来快速地检索主键所存储的值。

步骤3：利用计数器组C遍历一次所有的数据L。

对每一行来说，假设这一行是mid0 rmid0 pv0，如果计数器里没有mid0的计数器，则在计数器里建立一项mid0:{pv:pv0,rlist:[]}，这是一种键值数据结构A，A里面可以查询到pv和rlist，再在计数器里找rmid0的计数器，在其转发列表里加入mid0。

通过在C中加入mid0:{pv:pv0,rlist:[]}键为mid0的这一键值对，有利于避免后续如果有其他行数据要操作mid0的rlist时，发生报错。

rmid0是被转发的原微博。在rmid0的rlist里面加入mid0表明mid0是转发了rmid0的。当数据一遍历完，rmid的rlist里面就存了转发了它的所有微博mid。

现在遍历L：

第一行是1，–，1,则C:{1:{pv:1,rlist:[]}}

第二行是2，1，2，则C:{1:{pv:1,rlist:[2]},2:{pv:2,rlist:[]}}

第三行是3，1，3，则C:{1:{pv:1,rlist:[2，3]},2:{pv:2,rlist:[]},3:{pv:3,rlist:[]}}

第四行是4，–，50，则C:{1:{pv:1,rlist:[2，3]},2:{pv:2,rlist:[]},3:{pv:3,rlist:[]},4:{pv:50,rlist:[]}}

第五行是5，2，50，则C:{1:{pv:1,rlist:[2，3]},2:{pv:2,rlist:[5]},3:{pv:3,rlist:[]},4:{pv:50,rlist:[]},5:{pv:50,rlist:[]}}。

步骤4：上一步完成后，对于C中的所有元素ci，也就是针对每个计数器，例如m0:{pv:pv0,rlist:[m1,m2,m3…]}，都执行第5步。在本实施例中，不同的微博mid对应的浏览量pv不同，转发列表rlist也不同。在一些实施方式中，如果任务是只关心其中一部分mid的总曝光量，则也可以指定一部分计数器进行计算。

步骤5：计算每个mid的社交媒体信息的总曝光量T，将T存入ci。

举例来说，将m0:{pv:pv0,rlist:[m1,m2,m3…]}进行第5步的算法为：

pv0+m1的pv+m2的pv+m3的pv…一直加到rlist结束。

例如，m1的pv可以从计数器组里查到m1:{pv:pv1,rlist:[]}，若m1的rlist里不为空，则把rlist里的mid都拿出来执行第5步，这是一步递归步骤。

步骤6：当第4步计算完毕的时候，C中所有的mid的总曝光量T都已经算出来了，并存入Ci中。例如C1:{m1:{pv:pv1,rlist:[m2,m3,m4…],T:T1}。

具体地，第4步开始时，C中一共有5个计数器。现在若想计算1号信息的总曝光量，则根据算法为1号信息的曝光次数1次+2号信息的总曝光量+3号信息的总曝光量。递归的，问题转化为先求2号信息的总曝光量，再求3号信息的总曝光量。要求2号信息的总曝光量，则由算法为2号信息的自身曝光次数2次+5号信息的总曝光量，递归地，问题转化为5号信息的总曝光量，由C知5号信息没有被转发，所以50次就是5号信息的总曝光。所以52次就是2号信息的总曝光。同理可知3号信息的总曝光是3次，则1号信息的总曝光T1终于可计算了，是1+52+3＝56次。

在计算1号信息的总曝光量时，已经计算出2、3、5号信息的总曝光量，可以直接填入。

最终的C应为：C:{1:{pv:1,rlist:[2，3],T:56},2:{pv:2,rlist:[5],T:52},3:{pv:3,rlist:[],T:3},4:{pv:50,rlist:[],T:50},5:{pv:50,rlist:[],T:50}}。

进一步地，该方法还可以包括如下步骤：

对所有计数器的T值排序，取最高的N个计数器对应的mid来得到最多阅读的微博。

也可以在第二遍历的时候看看哪些微博的总转发数最高，过程类似于总pv，只是计算过程中把所有微博的pv都当成1或者0，递归计算可得总转发数。

本发明的实施例的上述技术方案的有益技术效果在于：

使用这种社交媒体信息的总曝光量T批量挖掘流程之后，总曝光是可以计算的，这个算法只对数据进行了一次遍历就能找出这段时间内所有信息的总曝光量，并且是足够迅速和准确的。并且，根据本发明的实施例，在确定总曝光量之后可以根据它进行信息流排序，以及以社交媒体信息的总曝光量T为基础，生成发布者和阅读者标签、兴趣、进行个性化广告展示。

图2是本发明的实施例的社交媒体信息的总曝光量T批量挖掘装置的功能框图。如图2所示，其包括：

第一遍历模块210，用于按照预设周期遍历待挖掘的N条社交媒体信息，生成N条行数据L，N为正整数；其中，针对每条社交媒体信息，执行如下处理：从本条社交媒体信息中提取下列特征数据并将提取的特征数据按顺序排列成一行以形成一条行数据L，该特征数据包括：本条社交媒体信息的标识mid、本条社交媒体信息的转发标志rmid、本条社交媒体信息的自身的曝光次数pv；

第二遍历模块220，用于根据预先构造的基于键值对数据结构的计数器组C，遍N条行数据L，获得N条行数据L对应的计数器组C’；其中，计数器组C’中包括N个计数器，每个计数器对应于一条行数据L，并且每个计数器包括：本条社交媒体信息的标识mid、本条社交媒体信息自身的曝光次数pv，本条社交媒体信息的转发列表rlist，转发列表rlist指示本条社交媒体信息被转发的其他社交媒体信息的标识或者空值；

总曝光量确定模块230，用于根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的被转发列表rlis，递归地确定每个计数器对应的社交媒体信息的总曝光量T。

本条社交媒体信息的转发标志rmid中包括由本条社交媒体信息转发的其他社交媒体信息的标识或者用于表示本条社交媒体信息没有转发其他社交媒体信息的指示符；本条社交媒体信息的被转发列表rlist中包括本条社交媒体信息被转发的其他社交媒体信息的标识或者用于表示本条社交媒体信息没有被其他社交媒体信息转发的空值。

在一些实施例中，总曝光量确定模块230，用于执行如下处理：

在一些实施例中，第二遍历模块220，还用于针对每一个行数据L，假设当前的行数据L的取值为mid0 rmid0 pv0，如果计数器组中C’没有mid0的计数器，则在该计数器组C’中建立一项mid0对应的计数器mid0:{pv:pv0,rlist:[]}，再在该计数器组C’中查找主键为rmid0的计数器，在其被转发列表rlist里加入mid0。

在一些实施例中，总曝光量确定模块230，还用于在递归地确定每个计数器对应的社交媒体信息的总曝光量T之后，按照所有计数器的总曝光量进行降序排序，取设定数量的总曝光量最高的计数器对应的社交媒体信息的标识mid，获得总曝光量最多的设定数量的社交媒体信息；或者，设定所有的行数据L中的社交媒体信息自身的曝光次数pv均为固定值，将每条社交媒体信息的总曝光量T与所述固定值之差作为每条社交媒体信息的总转发数，根据每条社交媒体的总转发数确定总转发数最高的社交媒体信息。

本发明的实施例的上述技术方案的有益技术效果在于：

使用这种社交媒体信息的总曝光量T批量挖掘流程之后，总曝光是可以计算的，这个算法只对数据进行了一次遍历就能找出这段时间内所有信息的总曝光量，并且是足够迅速和准确的。并且，根据本发明的实施例，在确定总曝光量之后可以根据它进行信息流排序，以及以社交媒体信息的总曝光量为基础，生成发布者和阅读者标签、兴趣、进行个性化广告展示。

本发明实施例还提供了一种电子设备，如图3所示，包括一个或多个处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现上述社交媒体信息的总曝光量批量挖掘方法的各步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述社交媒体信息的总曝光量批量挖掘方法的各步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种社交媒体信息的总曝光量批量挖掘方法，其特征在于，包括：

按照预设周期遍历待挖掘的N条社交媒体信息，生成N条行数据L，N为正整数；其中，针对每条社交媒体信息，执行如下处理：从本条社交媒体信息中提取特征数据并将提取的特征数据按顺序排列成一行以形成一条行数据L，所述特征数据包括本条社交媒体信息的标识mid、本条社交媒体信息的转发标志rmid、本条社交媒体信息自身的曝光次数pv；

根据预先构造的基于键值对数据结构的计数器组C，遍历N条行数据L，获得N条行数据L对应的计数器组C’；其中，所述计数器组C’中包括N个计数器，每个计数器对应于一条行数据L，并且每个计数器包括：本条社交媒体信息的标识mid、本条社交媒体信息自身的曝光次数pv，本条社交媒体信息的被转发列表rlist；

2.根据权利要求1所述的方法，其特征在于，所述根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的被转发列表rlist，递归地确定每个计数器对应的社交媒体信息的总曝光量T，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预先构造的基于键值对数据结构的计数器组C，遍历N条行数据L，获得N条行数据L对应的计数器组C’，具体包括：

针对每一条行数据L，假设当前行数据L的取值为mid0 rmid0 pv0，如果计数器组C’中没有mid0对应的计数器，则在该计数器组C’中建立一项mid0对应的计数器mid0:{pv:pv0,rlist:[]}，再在该计数器组C’中查找主键为rmid0的计数器，在其被转发列表rlist中加入mid0。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在递归地确定每个计数器对应的社交媒体信息的总曝光量T之后，按照所有计数器的总曝光量进行降序排序，取设定数量的总曝光量最高的计数器对应的社交媒体信息的标识mid，获得总曝光量最多的设定数量的社交媒体信息；或者，设定所有的行数据L中的社交媒体信息自身的曝光次数pv均为固定值，将每条社交媒体信息的总曝光量T与所述固定值之差作为每条社交媒体信息的总转发数，根据每条社交媒体的总转发数确定总转发数最高的社交媒体信息。

5.一种社交媒体信息的总曝光量批量挖掘装置，其特征在于，包括：

总曝光量确定模块，用于根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的所述被转发列表rlist，递归地确定每个计数器对应的社交媒体信息的总曝光量T；

6.根据权利要求5所述的装置，其特征在于，所述总曝光量确定模块，具体用于执行如下处理：

7.根据权利要求5所述的装置，其特征在于，所述第二遍历模块，具体用于针对每一条行数据L，假设当前行数据L的取值为mid0 rmid0 pv0，如果计数器组里C’没有mid0对应的计数器，则在该计数器组C’中建立一项mid0对应的计数器mid0:{pv:pv0,rlist:[]}，再在该计数器组C’中查找主键为rmid0的计数器，在其被转发列表rlist中加入mid0。

8.根据权利要求5所述的装置，其特征在于，所述总曝光量确定模块，还用于在递归地确定每个计数器对应的社交媒体信息的总曝光量T之后，按照所有计数器的总曝光量进行降序排序，取设定数量的总曝光量最高的计数器对应的社交媒体信息的标识mid，获得总曝光量最多的设定数量的社交媒体信息；或者，设定所有的行数据L中的社交媒体信息自身的曝光次数pv均为固定值，将每条社交媒体信息的总曝光量T与所述固定值之差作为每条社交媒体信息的总转发数，根据每条社交媒体的总转发数确定总转发数最高的社交媒体信息。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任意一项所述的社交媒体信息的总曝光量T批量挖掘方法。

10.一种计算机设备，其特征在于，其包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的社交媒体信息的总曝光量T批量挖掘方法。