CN109948047B

CN109948047B - 基于转移熵的文化基因排序方法与系统及相关设备

Info

Publication number: CN109948047B
Application number: CN201910047874.5A
Authority: CN
Inventors: 何赛克; 王海亮; 郑晓龙; 曾大军
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2021-09-28
Anticipated expiration: 2039-01-18
Also published as: CN109948047A

Abstract

本发明涉及信息检索领域，具体涉及一种基于转移熵的文化基因排序方法与系统及相关设备，目的在于降低计算的复杂度，并提高排序准确度。本发明的文化基因排序方法包括：针对待排序的每种文化基因，在参与该文化基因传播的所有用户中，根据预设的关联用户数量阈值，筛选出传播该文化基因的关键用户；针对每个关键用户，分别计算该关键用户的每个关联用户到该关键用户的转移熵，进而计算该关键用户的影响力值；根据关键用户的影响力值，分别计算每种文化基因的流行度值；根据每种文化基因的流行度值，分别计算每种文化基因的得分，并根据得分进行排序。本发明提供了一种对文化基因流行度自动排序的方法，降低了计算复杂度，具有较高的排序准确度。

Description

基于转移熵的文化基因排序方法与系统及相关设备

技术领域

本发明涉及信息检索领域，具体涉及一种基于转移熵的文化基因排序方法与系统及相关设备。

背景技术

社会媒体的流行促进了各类事件的扩散和传播。信息量的激增超过了用户的阅读和处理能力，并导致用户有限阅读时间被分散在各个媒体和机构中。用户有限阅读时间，已经成为各大媒体激烈角逐的资源。其次，政府机构也需获取国民关注热点，来了解大众舆论焦点。

然而，目前缺少一种有效算法来对文化基因流行度自动排序，以提高网络用户和管理人员的阅读效率。文化基因是热点事件更透彻的表达，在网络空间中，它可以指主题、标签、想法、观点、事件。文化基因类似于生物学中基因。类比生物进化原理，文化基因在传播过程中，不同的文化基因竞争用户有限的注意力，并且在一定条件下发生“变异”，优秀的文化基因将被继续传播，其它的将逐渐淡出大众视野。

近些年工业界和学术界领域研究人员提出了一些文化基因排序方法，主要可分为两类：自下而上方法(bottom-up)和自上而下方法(top-down)。典型的自下而上方法，如传染病模型(Epidemic Contagion)，竞争者模型(Competition Model)等，这些方法虽然可以构建文化基因模型，但计算复杂度高，而其简化方法又极可能导致错误的结论。另一方面，自上而下方法基于大数据集来量化中心拓扑、内容相似性和用户行为。由于其缺少对文化基因传播过程用户交互细粒度建模，这种方法不能准确地模拟文化基因动态过程。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于转移熵的文化基因排序方法与系统及相关设备，降低了计算复杂度，提高了排序准确度。

本发明的一方面，提出一种基于转移熵的文化基因排序方法，所述方法包括：

针对待排序的每种文化基因，在参与该文化基因传播的所有用户中，根据预设的关联用户数量阈值，筛选出传播该文化基因的关键用户；

针对每个所述关键用户，分别计算该关键用户的每个关联用户到该关键用户的转移熵，进而计算该关键用户的影响力值；

根据所述关键用户的影响力值，分别计算每种文化基因的流行度值；

根据每种文化基因的流行度值，分别计算每种文化基因的得分，并根据所述得分进行排序。

优选地，“在参与该文化基因传播的所有用户中，根据预设的关联用户数量阈值，筛选出传播该文化基因的关键用户”的步骤包括：

选取参与该文化基因传播的所有用户，并分别计算所选取的每个用户的关联用户数量；

根据预设的关联用户数量阈值，筛选出参与该文化基因传播的关键用户。

优选地，“针对每个所述关键用户，分别计算该关键用户的每个关联用户到该关键用户的转移熵，进而计算该关键用户的影响力值”的步骤包括：

针对每个所述关键用户，按照下式分别计算该关键用户的每个关联用户到该关键用户的转移熵：

TE(u_i→u)＝h₂-h₁

其中，u表示一个关键用户，u_i表示关键用户u的第i个关联用户，i＝1,2,...,k，k表示关键用户u的关联用户数量；

表示序列

出现的概率；

表示序列

和x_t+1同时出现的概率；

表示序列

序列

和x_t+1同时出现的概率；m、n均表示马尔科夫的阶数；x_t、y_t分别表示t时刻用户u和u_i发起传播活动情况，x_t＝1表示在t时刻用户u发起传播活动，y_t＝1表示在t时刻用户u_i发起传播活动；

按照下式计算每个关联用户到该关键用户的转移熵之和，得到该关键用户的影响力值：

其中，Influence(u)表示关键用户u的影响力值。

优选地，“根据所述关键用户的影响力值，分别计算每种文化基因的流行度值”的步骤包括：

根据所述关键用户的影响力值，按照下式计算每种文化基因的流行度值：

其中，Pop_g表示第g种文化基因的流行度值，U_g表示第g种文化基因的关键用户的集合，Influence(u)表示关键用户u的影响力值。

优选地，“根据每种文化基因的流行度值，分别计算每种文化基因的得分，并根据所述得分进行排序”的步骤包括：

根据每种文化基因的流行度值，按照下式计算该文化基因的得分：

V_g＝a*Pop_g+b*δ_g

其中，V_g表示第g种文化基因的得分，Pop_g表示第g种文化基因的流行度值，δ_g表示预设时间段内第g种文化基因信息数量的变化率，a、b均为预设的权重；

根据所述得分，对待排序的文化基因进行排序。

优选地，在“针对待排序的每种文化基因，在参与该文化基因传播的所有用户中，根据预设的关联用户数量阈值，筛选出传播该文化基因的关键用户”之前，所述方法还包括：

根据每种文化基因的信息数量和信息数量的变化率，筛选出所述待排序的文化基因。

优选地，“根据每种文化基因的信息数量和信息数量的变化率，筛选出所述待排序的文化基因”的步骤包括：

根据每种文化基因的信息数量和信息数量的变化率，按照下式分别计算每种文化基因的筛选值：

s_g＝p*c_g+q*δ_g

其中，s_g表示第g种文化基因的筛选值，c_g表示第g种文化基因的信息数量，δ_g表示预设时间段内第g种文化基因信息数量的变化率，p、q均表示预设的权重；

根据所述筛选值，筛选出所有大于等于阈值的文化基因，作为所述待排序的文化基因。

本发明的第二方面，提出一种基于转移熵的文化基因排序系统，所述系统包括：

关键用户筛选模块，配置为：针对待排序的每种文化基因，在参与该文化基因传播的所有用户中，根据预设的关联用户数量阈值，筛选出传播该文化基因的关键用户；

影响力计算模块，配置为：针对每个所述关键用户，分别计算该关键用户的每个关联用户到该关键用户的转移熵，进而计算该关键用户的影响力值；

流行度计算模块，配置为：根据所述关键用户的影响力值，分别计算每种文化基因的流行度值；

排序模块，配置为：根据每种文化基因的流行度值，分别计算每种文化基因的得分，并根据所述得分进行排序。

优选地，所述关键用户筛选模块包括：

关联用户数量计算单元，配置为：选取参与该文化基因传播的所有用户，并分别计算所选取的每个用户的关联用户数量；

筛选单元，配置为：根据预设的关联用户数量阈值，筛选出参与该文化基因传播的关键用户。

优选地，所述影响力计算模块包括：

转移熵计算单元，配置为：针对每个所述关键用户，按照下式分别计算该关键用户的每个关联用户到该关键用户的转移熵：

TE(u_i→u)＝h₂-h₁

表示序列

出现的概率；

表示序列

和x_t+1同时出现的概率；

表示序列

序列

影响力计算单元，配置为：按照下式计算每个关联用户到该关键用户的转移熵之和，得到该关键用户的影响力值：

其中，Influence(u)表示关键用户u的影响力值。

优选地，所述流行度计算模块具体配置为：根据所述关键用户的影响力值，按照下式计算每种文化基因的流行度值：

优选地，所述排序模块包括：

得分计算单元，配置为：根据每种文化基因的流行度值，按照下式计算该文化基因的得分：

V_g＝a*Pop_g+b*δ_g

排序单元，配置为：根据所述得分，对待排序的文化基因进行排序。

优选地，所述系统还包括：

文化基因筛选模块，配置为：根据每种文化基因的信息数量和信息数量的变化率，筛选出所述待排序的文化基因。

优选地，所述文化基因筛选模块包括：

筛选值计算单元，配置为：根据每种文化基因的信息数量和信息数量的变化率，按照下式分别计算每种文化基因的筛选值：

s_g＝p*c_g+q*δ_g

筛选单元，配置为：根据所述筛选值，筛选出所有大于等于阈值的文化基因，作为所述待排序的文化基因。

本发明的第三方面，提出一种存储设备，其中存储有多条程序，所述程序适于由处理器加载并执行，以实现上面所述的基于转移熵的文化基因排序方法。

本发明的第四方面，提出一种控制设备，包括：

处理器，适于加载程序；以及

存储器，适于存储所述程序；

所述程序适于由所述处理器加载并执行，以实现上面所述的基于转移熵的文化基因排序方法。

与最接近的现有技术相比，本发明至少具有如下有益效果：

(1)本发明将难以量化的文化基因影响力值转化为对用户影响力的度量，捕捉了文化基因的动态信息；

(2)不需要对文化基因传播过程建模，降低了计算复杂度；

(3)将文化基因流行度值与文化基因变化率加权求和，不仅考虑文化基因当前流行度，而且参考了其后期流行度。

因此，本发明提供了一种对文化基因流行度自动排序的方法，提高了网络用户和管理人员的阅读效率，而且降低了计算复杂度，具有较高的排序准确度。

附图说明

图1是本发明的基于转移熵的文化基因排序方法实施例的主要步骤示意图；

图2是本发明实施例中一个发帖时间序列的示意图；

图3是本发明的基于转移熵的文化基因排序系统实施例的主要构成示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提出的基于转移熵的文化基因排序方法，能很好地解决现有文化基因排序方法中存在的问题。该方法基于转移熵理论，将文化基因流行度转化为对参与该文化基因传播用户的影响力度量，可以有效度量文化基因在大众群体中的流行程度。

如果计算参与该文化基因传播所有用户的影响力值，既不能准确表达该文化基因的流行度值，又需要耗费大量的计算时间。因此，本发明采取阈值筛选方案，选择拥有关联用户(如，好友和/或粉丝)数量大于预设的关联用户数量阈值的用户作为关键用户，用来计算文化基因的流行度值。

图1是本发明的基于转移熵的文化基因排序方法实施例的主要步骤示意图。如图1所示，本实施例的文化基因排序方法包括：

步骤S1，针对待排序的每种文化基因，在参与该文化基因传播的所有用户中，根据预设的关联用户数量阈值，筛选出传播该文化基因的关键用户。

以文化基因“某公司传承计划”为例，首先选择参与其传播的微博用户，其次通过粉丝数量筛选微博用户。可以具体包括步骤S11-S12：

步骤S11，针对待排序的每种文化基因(如微博热点事件)，选取参与该文化基因传播的所有微博用户，并分别计算所选取的每个微博用户的关联用户(粉丝)数量；

步骤S12，针对待排序的每种文化基因，根据预设的关联用户数量阈值(本实施例中取值为100000)，筛选出参与该文化基因传播的关键用户。

步骤S2，针对每个关键用户，分别计算该关键用户的每个关联用户到该关键用户的转移熵，进而计算该关键用户的影响力值。可以具体包括步骤S21-S22：

步骤S21，针对每个关键用户，按照公式(1)-(5)分别计算该关键用户的每个关联用户到该关键用户的转移熵：

TE(u_i→u)＝h₂-h₁ (1)

表示序列

出现的概率；

表示序列

和x_t+1同时出现的概率；

表示序列

序列

和x_t+1同时出现的概率；m、n均表示马尔科夫的阶数(本实施例中m、n均取1)；x_t、y_t分别表示t时刻用户u和u_i发微博的情况，x_t＝1表示用户u在t时刻发微博，y_t＝1表示用户u_i在t时刻发微博，x_t＝-1表示用户u在t时刻未发微博，y_t＝-1表示用户u_i在t时刻未发微博。因为关键用户是从参与某个特定文化基因传播的用户中选取的，所以上面提到的“对应文化基因”就是指用户u作为关键用户参与传播的特定文化基因。

仍以文化基因“某公司传承计划”为例，说明概率

和

的统计流程：

(1)构建用户x、y的发帖时间序列。

以Δt为时间间隔，将一段时间分为若干区间，统计每个时间区间内用户x、y是否发微博。若发微博，则该区间记为1，否则为-1。

(2)在该时间段内统计并计算概率值。

图2是本实施例中一个发帖时间序列的示意图。针对图2，统计结果如下：

(a)

的统计结果为：

p(-1_x,-1_x,-1_y)＝0.0 p(1_x,-1_x,-1_y)＝0.142857

p(-1_x,-1_x,1_y)＝0.0952381 p(1_x,-1_x,1_y)＝0.142857

p(-1_x,1_x,-1_y)＝0.190476 p(1_x,1_x,-1_y)＝0.0952381

p(-1_x,1_x,1_y)＝0.0952381 p(1_x,1_x,1_y)＝0.238095

以p(1_x,-1_x,-1_y)＝0.142857为例，图2中一共22列，其中相邻的x_t+1、x_t、y_t一共有21组，x在t+1时刻为1(即x_t+1＝1)，x在t时刻为-1(即x_t＝-1)，y在t时刻为-1(即y_t＝-1)。从图中可以看出，同时满足x_t+1＝1、x_t＝-1、y_t＝-1的次数为3，因此，p(1_x,-1_x,-1_y)＝3/21＝0.142857。

(b)

的统计结果为：

p(-1_x,-1_x)＝0.0952381 p(-1_x,1_x)＝0.285714

p(1_x,-1_x)＝0.285714 p(1_x,1_x)＝0.333333

(c)

的统计结果为：

p(-1_x,-1_y)＝0.136364 p(-1_x,1_y)＝0.227273

p(1_x,-1_y)＝0.272727 p(1_x,1_y)＝0.363636

(d)

的统计结果为：

p(-1_x)＝0.363636 p(1_x)＝0.636364

以p(-1_x)＝0.363636为例，图2中一共22个x_t值，其中8个为-1，因此，p(-1_x)＝8/22＝0.363636。

步骤S22，按照公式(6)计算每个关联用户到该关键用户的转移熵之和，得到该关键用户的影响力值：

其中，Influence(u)表示关键用户u的影响力值。

步骤S3，根据关键用户的影响力值，分别计算每种文化基因的流行度值。具体为：

根据关键用户的影响力值，按照公式(7)计算每种文化基因的流行度值：

步骤S4，根据每种文化基因的流行度值，分别计算每种文化基因的得分，并根据得分进行排序。

本步骤中将文化基因流行度值和近期变化率加权求和作为文化基因得分，并按其进行排序。可以具体包括步骤S41-S42：

步骤S41，根据每种文化基因的流行度值，按照公式(8)计算该文化基因的得分：

V_g＝a*Pop_g+b*δ_g (8)

其中，V_g表示第g种文化基因的得分，Pop_g表示第g种文化基因的流行度值，δ_g表示预设时间段(本实施例中为10小时)内第g种文化基因信息数量的变化率，a、b均为预设的权重，可以通过网格搜索获得，取值范围为[0-1]。

步骤S42，根据得分，对待排序的文化基因进行排序。

可选地，本发明还提出基于转移熵的文化基因排序方法的另一种实施例。本实施例除了包括上述步骤S1-S4之外，在步骤S1之前还包括筛选文化基因的步骤：

步骤S0，根据每种文化基因的信息数量和信息数量的变化率，筛选出待排序的文化基因。该步骤可以具体包括步骤S01-S02：

步骤S01，根据每种文化基因的信息数量和信息数量的变化率，按照公式(9)分别计算每种文化基因的筛选值：

s_g＝p*c_g+q*δ_g (9)

其中，s_g表示第g种文化基因的筛选值，c_g表示第g种文化基因的信息数量，δ_g表示预设时间段内第g种文化基因信息数量的变化率，p、q均表示预设的权重，取值范围[0-1]。

步骤S02，根据筛选值，筛选出所有大于等于阈值的文化基因，作为待排序的文化基因。

例如，针对微博的热点事件文化基因排序。首先，由微博热搜提取20条热点事件作为测试文化基因，并爬取参与这些文化基因传播的用户信息和好友信息(微博拥有超过4亿用户，且每日活跃用户接近1亿，是理想的热点测试环境。其中，微博热搜是微博统计用户近期关心热点事件的模块)。然后，统计20条热点事件的近期信息数量和其变化率，通过启发式规则筛选文化基因。具体流程如下：

(1)根据公式(9)计算每种文化基因的筛选值。其中，文化基因信息数量事先进行最大最小归一化处理，p、q分别取0.7、0.3。

(2)通过阈值，筛选文化基因。其中，阈值设定为0.5。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

基于与方法实施例相同的技术构思，本发明还提供了文化基因排序系统，下面进行具体说明。

图3是本发明的基于转移熵的文化基因排序系统实施例的主要构成示意图。如图3所示，本实施例的文化基因排序系统1包括：关键用户筛选模块10、影响力计算模块20、流行度计算模块30和排序模块40。

其中，关键用户筛选模块10配置为：针对待排序的每种文化基因，在参与该文化基因传播的所有用户中，根据预设的关联用户数量阈值，筛选出传播该文化基因的关键用户；影响力计算模块20配置为：针对每个关键用户，分别计算该关键用户的每个关联用户到该关键用户的转移熵，进而计算该关键用户的影响力值；流行度计算模块30配置为：根据关键用户的影响力值，分别计算每种文化基因的流行度值；排序模块40配置为：根据每种文化基因的流行度值，分别计算每种文化基因的得分，并根据得分进行排序。

具体地，本实施例中关键用户筛选模块10可以包括：关联用户数量计算单元11和筛选单元12。

其中，关联用户数量计算单元11配置为：选取参与该文化基因传播的所有用户，并分别计算所选取的每个用户的关联用户数量；筛选单元12配置为：根据预设的关联用户数量阈值，筛选出参与该文化基因传播的关键用户。

具体地，本实施例中影响力计算模块20可以包括：转移熵计算单元21和影响力计算单元22。

其中，转移熵计算单元21配置为：针对每个关键用户，按照公式(1)-(5)分别计算该关键用户的每个关联用户到该关键用户的转移熵；影响力计算单元22配置为：按照公式(6)计算每个关联用户到该关键用户的转移熵之和，得到该关键用户的影响力值。

具体地，本实施例中流行度计算模块30可以配置为：根据关键用户的影响力值，按照公式(7)计算每种文化基因的流行度值。

具体地，本实施例中排序模块40可以包括：得分计算单元41和排序单元42。

其中，得分计算单元41配置为：根据每种文化基因的流行度值，按照公式(8)计算该文化基因的得分；排序单元42配置为：根据得分对待排序的文化基因进行排序。

可选地，本发明还提出基于转移熵的文化基因排序系统的另一种实施例。本实施例除了包括上述的关键用户筛选模块10、影响力计算模块20、流行度计算模块30和排序模块40之外，还包括：文化基因筛选模块。

其中，文化基因筛选模块配置为：根据每种文化基因的信息数量和信息数量的变化率，筛选出待排序的文化基因。该模块可以具体包括：筛选值计算单元和筛选单元。筛选值计算单元配置为：根据每种文化基因的信息数量和信息数量的变化率，按照公式(9)分别计算每种文化基因的筛选值；筛选单元配置为：根据筛选值，筛选出所有大于等于阈值的文化基因，作为待排序的文化基因。

进一步地，本发明还提出一种存储设备的实施例，其中存储有多条程序，所述程序适于由处理器加载并执行，以实现上面所述的基于转移熵的文化基因排序方法。

进一步地，本发明还提出一种控制设备的实施例，包括：处理器和存储器。其中，处理器适于加载程序，存储器适于存储所述程序，所述程序适于由所述处理器加载并执行，以实现上面所述的基于转移熵的文化基因排序方法。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。