CN109948047A - 基于转移熵的文化基因排序方法与系统及相关设备 - Google Patents

基于转移熵的文化基因排序方法与系统及相关设备 Download PDF

Info

Publication number
CN109948047A
CN109948047A CN201910047874.5A CN201910047874A CN109948047A CN 109948047 A CN109948047 A CN 109948047A CN 201910047874 A CN201910047874 A CN 201910047874A CN 109948047 A CN109948047 A CN 109948047A
Authority
CN
China
Prior art keywords
cultural gene
user
cultural
gene
key user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910047874.5A
Other languages
English (en)
Other versions
CN109948047B (zh
Inventor
何赛克
王海亮
郑晓龙
曾大军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201910047874.5A priority Critical patent/CN109948047B/zh
Publication of CN109948047A publication Critical patent/CN109948047A/zh
Application granted granted Critical
Publication of CN109948047B publication Critical patent/CN109948047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息检索领域,具体涉及一种基于转移熵的文化基因排序方法与系统及相关设备,目的在于降低计算的复杂度,并提高排序准确度。本发明的文化基因排序方法包括:针对待排序的每种文化基因,在参与该文化基因传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文化基因的关键用户;针对每个关键用户,分别计算该关键用户的每个关联用户到该关键用户的转移熵,进而计算该关键用户的影响力值;根据关键用户的影响力值,分别计算每种文化基因的流行度值;根据每种文化基因的流行度值,分别计算每种文化基因的得分,并根据得分进行排序。本发明提供了一种对文化基因流行度自动排序的方法,降低了计算复杂度,具有较高的排序准确度。

Description

基于转移熵的文化基因排序方法与系统及相关设备
技术领域
本发明涉及信息检索领域,具体涉及一种基于转移熵的文化 基因排序方法与系统及相关设备。
背景技术
社会媒体的流行促进了各类事件的扩散和传播。信息量的激 增超过了用户的阅读和处理能力,并导致用户有限阅读时间被分散在各 个媒体和机构中。用户有限阅读时间,已经成为各大媒体激烈角逐的资 源。其次,政府机构也需获取国民关注热点,来了解大众舆论焦点。
然而,目前缺少一种有效算法来对文化基因流行度自动排序, 以提高网络用户和管理人员的阅读效率。文化基因是热点事件更透彻的 表达,在网络空间中,它可以指主题、标签、想法、观点、事件。文化 基因类似于生物学中基因。类比生物进化原理,文化基因在传播过程中, 不同的文化基因竞争用户有限的注意力,并且在一定条件下发生“变异”, 优秀的文化基因将被继续传播,其它的将逐渐淡出大众视野。
近些年工业界和学术界领域研究人员提出了一些文化基因 排序方法,主要可分为两类:自下而上方法(bottom-up)和自上而下方 法(top-down)。典型的自下而上方法,如传染病模型(Epidemic Contagion), 竞争者模型(Competition Model)等,这些方法虽然可以构建文化基因模 型,但计算复杂度高,而其简化方法又极可能导致错误的结论。另一方 面,自上而下方法基于大数据集来量化中心拓扑、内容相似性和用户行 为。由于其缺少对文化基因传播过程用户交互细粒度建模,这种方法不 能准确地模拟文化基因动态过程。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种基于转 移熵的文化基因排序方法与系统及相关设备,降低了计算复杂度,提高 了排序准确度。
本发明的一方面,提出一种基于转移熵的文化基因排序方法, 所述方法包括:
针对待排序的每种文化基因,在参与该文化基因传播的所有 用户中,根据预设的关联用户数量阈值,筛选出传播该文化基因的关键 用户;
针对每个所述关键用户,分别计算该关键用户的每个关联用 户到该关键用户的转移熵,进而计算该关键用户的影响力值;
根据所述关键用户的影响力值,分别计算每种文化基因的流 行度值;
根据每种文化基因的流行度值,分别计算每种文化基因的得 分,并根据所述得分进行排序。
优选地,“在参与该文化基因传播的所有用户中,根据预设 的关联用户数量阈值,筛选出传播该文化基因的关键用户”的步骤包括:
选取参与该文化基因传播的所有用户,并分别计算所选取的 每个用户的关联用户数量;
根据预设的关联用户数量阈值,筛选出参与该文化基因传播 的关键用户。
优选地,“针对每个所述关键用户,分别计算该关键用户的 每个关联用户到该关键用户的转移熵,进而计算该关键用户的影响力值” 的步骤包括:
针对每个所述关键用户,按照下式分别计算该关键用户的每 个关联用户到该关键用户的转移熵:
TE(ui→u)=h2-h1
其中,u表示一个关键用户,ui表示关键用户u的第i个关联 用户,i=1,2,...,k,k表示关键用户u的关联用户数量;
表示序列出现的概率;表示序列和xt+1同 时出现的概率;表示序列序列和xt+1同时出现的概率;m、 n均表示马尔科夫的阶数;xt、yt分别表示t时刻用户u和ui发起传播活动 情况,xt=1表示在t时刻用户u发起传播活动,yt=1表示在t时刻用户ui发 起传播活动;
按照下式计算每个关联用户到该关键用户的转移熵之和,得 到该关键用户的影响力值:
其中,Influence(u)表示关键用户u的影响力值。
优选地,“根据所述关键用户的影响力值,分别计算每种文 化基因的流行度值”的步骤包括:
根据所述关键用户的影响力值,按照下式计算每种文化基因 的流行度值:
其中,Popg表示第g种文化基因的流行度值,Ug表示第g种 文化基因的关键用户的集合,Influence(u)表示关键用户u的影响力值。
优选地,“根据每种文化基因的流行度值,分别计算每种文 化基因的得分,并根据所述得分进行排序”的步骤包括:
根据每种文化基因的流行度值,按照下式计算该文化基因的 得分:
Vg=a*Popg+b*δg
其中,Vg表示第g种文化基因的得分,Popg表示第g种文化 基因的流行度值,δg表示预设时间段内第g种文化基因信息数量的变化率, a、b均为预设的权重;
根据所述得分,对待排序的文化基因进行排序。
优选地,在“针对待排序的每种文化基因,在参与该文化基 因传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文 化基因的关键用户”之前,所述方法还包括:
根据每种文化基因的信息数量和信息数量的变化率,筛选出 所述待排序的文化基因。
优选地,“根据每种文化基因的信息数量和信息数量的变化 率,筛选出所述待排序的文化基因”的步骤包括:
根据每种文化基因的信息数量和信息数量的变化率,按照下 式分别计算每种文化基因的筛选值:
sg=p*cg+q*δg
其中,sg表示第g种文化基因的筛选值,cg表示第g种文 化基因的信息数量,δg表示预设时间段内第g种文化基因信息数量的变化 率,p、q均表示预设的权重;
根据所述筛选值,筛选出所有大于等于阈值的文化基因,作 为所述待排序的文化基因。
本发明的第二方面,提出一种基于转移熵的文化基因排序系 统,所述系统包括:
关键用户筛选模块,配置为:针对待排序的每种文化基因, 在参与该文化基因传播的所有用户中,根据预设的关联用户数量阈值, 筛选出传播该文化基因的关键用户;
影响力计算模块,配置为:针对每个所述关键用户,分别计 算该关键用户的每个关联用户到该关键用户的转移熵,进而计算该关键 用户的影响力值;
流行度计算模块,配置为:根据所述关键用户的影响力值, 分别计算每种文化基因的流行度值;
排序模块,配置为:根据每种文化基因的流行度值,分别计 算每种文化基因的得分,并根据所述得分进行排序。
优选地,所述关键用户筛选模块包括:
关联用户数量计算单元,配置为:选取参与该文化基因传播 的所有用户,并分别计算所选取的每个用户的关联用户数量;
筛选单元,配置为:根据预设的关联用户数量阈值,筛选出 参与该文化基因传播的关键用户。
优选地,所述影响力计算模块包括:
转移熵计算单元,配置为:针对每个所述关键用户,按照下 式分别计算该关键用户的每个关联用户到该关键用户的转移熵:
TE(ui→u)=h2-h1
其中,u表示一个关键用户,ui表示关键用户u的第i个关联 用户,i=1,2,...,k,k表示关键用户u的关联用户数量;
表示序列出现的概率;表示序列和xt+1同 时出现的概率;表示序列序列和xt+1同时出现的概率;m、 n均表示马尔科夫的阶数;xt、yt分别表示t时刻用户u和ui发起传播活动 情况,xt=1表示在t时刻用户u发起传播活动,yt=1表示在t时刻用户ui发 起传播活动;
影响力计算单元,配置为:按照下式计算每个关联用户到该 关键用户的转移熵之和,得到该关键用户的影响力值:
其中,Influence(u)表示关键用户u的影响力值。
优选地,所述流行度计算模块具体配置为:根据所述关键用 户的影响力值,按照下式计算每种文化基因的流行度值:
其中,Popg表示第g种文化基因的流行度值,Ug表示第g种 文化基因的关键用户的集合,Influence(u)表示关键用户u的影响力值。
优选地,所述排序模块包括:
得分计算单元,配置为:根据每种文化基因的流行度值,按 照下式计算该文化基因的得分:
Vg=a*Popg+b*δg
其中,Vg表示第g种文化基因的得分,Popg表示第g种文化 基因的流行度值,δg表示预设时间段内第g种文化基因信息数量的变化率, a、b均为预设的权重;
排序单元,配置为:根据所述得分,对待排序的文化基因进 行排序。
优选地,所述系统还包括:
文化基因筛选模块,配置为:根据每种文化基因的信息数量 和信息数量的变化率,筛选出所述待排序的文化基因。
优选地,所述文化基因筛选模块包括:
筛选值计算单元,配置为:根据每种文化基因的信息数量和 信息数量的变化率,按照下式分别计算每种文化基因的筛选值:
sg=p*cg+q*δg
其中,sg表示第g种文化基因的筛选值,cg表示第g种文化 基因的信息数量,δg表示预设时间段内第g种文化基因信息数量的变化率, p、q均表示预设的权重;
筛选单元,配置为:根据所述筛选值,筛选出所有大于等于 阈值的文化基因,作为所述待排序的文化基因。
本发明的第三方面,提出一种存储设备,其中存储有多条程 序,所述程序适于由处理器加载并执行,以实现上面所述的基于转移熵 的文化基因排序方法。
本发明的第四方面,提出一种控制设备,包括:
处理器,适于加载程序;以及
存储器,适于存储所述程序;
所述程序适于由所述处理器加载并执行,以实现上面所述的 基于转移熵的文化基因排序方法。
与最接近的现有技术相比,本发明至少具有如下有益效果:
(1)本发明将难以量化的文化基因影响力值转化为对用户 影响力的度量,捕捉了文化基因的动态信息;
(2)不需要对文化基因传播过程建模,降低了计算复杂度;
(3)将文化基因流行度值与文化基因变化率加权求和,不 仅考虑文化基因当前流行度,而且参考了其后期流行度。
因此,本发明提供了一种对文化基因流行度自动排序的方法, 提高了网络用户和管理人员的阅读效率,而且降低了计算复杂度,具有 较高的排序准确度。
附图说明
图1是本发明的基于转移熵的文化基因排序方法实施例的 主要步骤示意图;
图2是本发明实施例中一个发帖时间序列的示意图;
图3是本发明的基于转移熵的文化基因排序系统实施例的 主要构成示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人 员应当理解的是,这些实施方式仅用于解释本发明的技术原理,并非旨 在限制本发明的保护范围。
本发明提出的基于转移熵的文化基因排序方法,能很好地解 决现有文化基因排序方法中存在的问题。该方法基于转移熵理论,将文 化基因流行度转化为对参与该文化基因传播用户的影响力度量,可以有 效度量文化基因在大众群体中的流行程度。
如果计算参与该文化基因传播所有用户的影响力值,既不能 准确表达该文化基因的流行度值,又需要耗费大量的计算时间。因此, 本发明采取阈值筛选方案,选择拥有关联用户(如,好友和/或粉丝)数 量大于预设的关联用户数量阈值的用户作为关键用户,用来计算文化基 因的流行度值。
图1是本发明的基于转移熵的文化基因排序方法实施例的 主要步骤示意图。如图1所示,本实施例的文化基因排序方法包括:
步骤S1,针对待排序的每种文化基因,在参与该文化基因 传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文化 基因的关键用户。
以文化基因“某公司传承计划”为例,首先选择参与其传播 的微博用户,其次通过粉丝数量筛选微博用户。可以具体包括步骤 S11-S12:
步骤S11,针对待排序的每种文化基因(如微博热点事件), 选取参与该文化基因传播的所有微博用户,并分别计算所选取的每个微 博用户的关联用户(粉丝)数量;
步骤S12,针对待排序的每种文化基因,根据预设的关联用 户数量阈值(本实施例中取值为100000),筛选出参与该文化基因传播 的关键用户。
步骤S2,针对每个关键用户,分别计算该关键用户的每个 关联用户到该关键用户的转移熵,进而计算该关键用户的影响力值。可 以具体包括步骤S21-S22:
步骤S21,针对每个关键用户,按照公式(1)-(5)分别 计算该关键用户的每个关联用户到该关键用户的转移熵:
TE(ui→u)=h2-h1 (1)
其中,u表示一个关键用户,ui表示关键用户u的第i个关联 用户,i=1,2,...,k,k表示关键用户u的关联用户数量;表示序列 出现的概率;表示序列和xt+1同时出现的概率;表示序列序列和xt+1同时出现的概率;m、n均表示马尔科夫的阶数 (本实施例中m、n均取1);xt、yt分别表示t时刻用户u和ui发微博的 情况,xt=1表示用户u在t时刻发微博,yt=1表示用户ui在t时刻发微博, xt=-1表示用户u在t时刻未发微博,yt=-1表示用户ui在t时刻未发微博。 因为关键用户是从参与某个特定文化基因传播的用户中选取的,所以上 面提到的“对应文化基因”就是指用户u作为关键用户参与传播的特定 文化基因。
仍以文化基因“某公司传承计划”为例,说明概率 的统计流程:
(1)构建用户x、y的发帖时间序列。
以△t为时间间隔,将一段时间分为若干区间,统计每个时间 区间内用户x、y是否发微博。若发微博,则该区间记为1,否则为-1。
(2)在该时间段内统计并计算概率值。
图2是本实施例中一个发帖时间序列的示意图。针对图2, 统计结果如下:
(a)的统计结果为:
p(-1x,-1x,-1y)=0.0 p(1x,-1x,-1y)=0.142857
p(-1x,-1x,1y)=0.0952381 p(1x,-1x,1y)=0.142857
p(-1x,1x,-1y)=0.190476 p(1x,1x,-1y)=0.0952381
p(-1x,1x,1y)=0.0952381 p(1x,1x,1y)=0.238095
以p(1x,-1x,-1y)=0.142857为例,图2中一共22列,其中相邻 的xt+1、xt、yt一共有21组,x在t+1时刻为1(即xt+1=1),x在t时刻为-1 (即xt=-1),y在t时刻为-1(即yt=-1)。从图中可以看出,同时满足 xt+1=1、xt=-1、yt=-1的次数为3,因此,p(1x,-1x,-1y)=3/21=0.142857。
(b)的统计结果为:
p(-1x,-1x)=0.0952381 p(-1x,1x)=0.285714
p(1x,-1x)=0.285714 p(1x,1x)=0.333333
(c)的统计结果为:
p(-1x,-1y)=0.136364 p(-1x,1y)=0.227273
p(1x,-1y)=0.272727 p(1x,1y)=0.363636
(d)的统计结果为:
p(-1x)=0.363636 p(1x)=0.636364
以p(-1x)=0.363636为例,图2中一共22个xt值,其中8个为 -1,因此,p(-1x)=8/22=0.363636。
步骤S22,按照公式(6)计算每个关联用户到该关键用户 的转移熵之和,得到该关键用户的影响力值:
其中,Influence(u)表示关键用户u的影响力值。
步骤S3,根据关键用户的影响力值,分别计算每种文化基 因的流行度值。具体为:
根据关键用户的影响力值,按照公式(7)计算每种文化基 因的流行度值:
其中,Popg表示第g种文化基因的流行度值,Ug表示第g种 文化基因的关键用户的集合,Influence(u)表示关键用户u的影响力值。
步骤S4,根据每种文化基因的流行度值,分别计算每种文 化基因的得分,并根据得分进行排序。
本步骤中将文化基因流行度值和近期变化率加权求和作为 文化基因得分,并按其进行排序。可以具体包括步骤S41-S42:
步骤S41,根据每种文化基因的流行度值,按照公式(8) 计算该文化基因的得分:
Vg=a*Popg+b*δg (8)
其中,Vg表示第g种文化基因的得分,Popg表示第g种文化 基因的流行度值,δg表示预设时间段(本实施例中为10小时)内第g种 文化基因信息数量的变化率,a、b均为预设的权重,可以通过网格搜索 获得,取值范围为[0-1]。
步骤S42,根据得分,对待排序的文化基因进行排序。
可选地,本发明还提出基于转移熵的文化基因排序方法的另 一种实施例。本实施例除了包括上述步骤S1-S4之外,在步骤S1之前还 包括筛选文化基因的步骤:
步骤S0,根据每种文化基因的信息数量和信息数量的变化 率,筛选出待排序的文化基因。该步骤可以具体包括步骤S01-S02:
步骤S01,根据每种文化基因的信息数量和信息数量的变化 率,按照公式(9)分别计算每种文化基因的筛选值:
sg=p*cg+q*δg (9)
其中,sg表示第g种文化基因的筛选值,cg表示第g种文 化基因的信息数量,δg表示预设时间段内第g种文化基因信息数量的变化 率,p、q均表示预设的权重,取值范围[0-1]。
步骤S02,根据筛选值,筛选出所有大于等于阈值的文化基 因,作为待排序的文化基因。
例如,针对微博的热点事件文化基因排序。首先,由微博热 搜提取20条热点事件作为测试文化基因,并爬取参与这些文化基因传播 的用户信息和好友信息(微博拥有超过4亿用户,且每日活跃用户接近1 亿,是理想的热点测试环境。其中,微博热搜是微博统计用户近期关心 热点事件的模块)。然后,统计20条热点事件的近期信息数量和其变化 率,通过启发式规则筛选文化基因。具体流程如下:
(1)根据公式(9)计算每种文化基因的筛选值。其中,文 化基因信息数量事先进行最大最小归一化处理,p、q分别取0.7、0.3。
(2)通过阈值,筛选文化基因。其中,阈值设定为0.5。
上述实施例中虽然将各个步骤按照上述先后次序的方式进 行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果, 不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠 倒的次序执行,这些简单的变化都在本发明的保护范围之内。
基于与方法实施例相同的技术构思,本发明还提供了文化基 因排序系统,下面进行具体说明。
图3是本发明的基于转移熵的文化基因排序系统实施例的 主要构成示意图。如图3所示,本实施例的文化基因排序系统1包括: 关键用户筛选模块10、影响力计算模块20、流行度计算模块30和排序 模块40。
其中,关键用户筛选模块10配置为:针对待排序的每种文 化基因,在参与该文化基因传播的所有用户中,根据预设的关联用户数 量阈值,筛选出传播该文化基因的关键用户;影响力计算模块20配置为: 针对每个关键用户,分别计算该关键用户的每个关联用户到该关键用户 的转移熵,进而计算该关键用户的影响力值;流行度计算模块30配置为: 根据关键用户的影响力值,分别计算每种文化基因的流行度值;排序模 块40配置为:根据每种文化基因的流行度值,分别计算每种文化基因的 得分,并根据得分进行排序。
具体地,本实施例中关键用户筛选模块10可以包括:关联 用户数量计算单元11和筛选单元12。
其中,关联用户数量计算单元11配置为:选取参与该文化 基因传播的所有用户,并分别计算所选取的每个用户的关联用户数量; 筛选单元12配置为:根据预设的关联用户数量阈值,筛选出参与该文化 基因传播的关键用户。
具体地,本实施例中影响力计算模块20可以包括:转移熵 计算单元21和影响力计算单元22。
其中,转移熵计算单元21配置为:针对每个关键用户,按 照公式(1)-(5)分别计算该关键用户的每个关联用户到该关键用户的 转移熵;影响力计算单元22配置为:按照公式(6)计算每个关联用户 到该关键用户的转移熵之和,得到该关键用户的影响力值。
具体地,本实施例中流行度计算模块30可以配置为:根据 关键用户的影响力值,按照公式(7)计算每种文化基因的流行度值。
具体地,本实施例中排序模块40可以包括:得分计算单元 41和排序单元42。
其中,得分计算单元41配置为:根据每种文化基因的流行 度值,按照公式(8)计算该文化基因的得分;排序单元42配置为:根 据得分对待排序的文化基因进行排序。
可选地,本发明还提出基于转移熵的文化基因排序系统的另 一种实施例。本实施例除了包括上述的关键用户筛选模块10、影响力计 算模块20、流行度计算模块30和排序模块40之外,还包括:文化基因 筛选模块。
其中,文化基因筛选模块配置为:根据每种文化基因的信息 数量和信息数量的变化率,筛选出待排序的文化基因。该模块可以具体 包括:筛选值计算单元和筛选单元。筛选值计算单元配置为:根据每种 文化基因的信息数量和信息数量的变化率,按照公式(9)分别计算每种 文化基因的筛选值;筛选单元配置为:根据筛选值,筛选出所有大于等 于阈值的文化基因,作为待排序的文化基因。
进一步地,本发明还提出一种存储设备的实施例,其中存储 有多条程序,所述程序适于由处理器加载并执行,以实现上面所述的基 于转移熵的文化基因排序方法。
进一步地,本发明还提出一种控制设备的实施例,包括:处 理器和存储器。其中,处理器适于加载程序,存储器适于存储所述程序, 所述程序适于由所述处理器加载并执行,以实现上面所述的基于转移熵 的文化基因排序方法。
本领域技术人员应该能够意识到,结合本文中所公开的实施 例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的 结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明 中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以 电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所 描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技 术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然 不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域 技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换 之后的技术方案都将落入本发明的保护范围之内。

Claims (16)

1.一种基于转移熵的文化基因排序方法,其特征在于,所述方法包括:
针对待排序的每种文化基因,在参与该文化基因传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文化基因的关键用户;
针对每个所述关键用户,分别计算该关键用户的每个关联用户到该关键用户的转移熵,进而计算该关键用户的影响力值;
根据所述关键用户的影响力值,分别计算每种文化基因的流行度值;
根据每种文化基因的流行度值,分别计算每种文化基因的得分,并根据所述得分进行排序。
2.根据权利要求1所述的基于转移熵的文化基因排序方法,其特征在于,“在参与该文化基因传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文化基因的关键用户”的步骤包括:
选取参与该文化基因传播的所有用户,并分别计算所选取的每个用户的关联用户数量;
根据预设的关联用户数量阈值,筛选出参与该文化基因传播的关键用户。
3.根据权利要求1所述的基于转移熵的文化基因排序方法,其特征在于,“针对每个所述关键用户,分别计算该关键用户的每个关联用户到该关键用户的转移熵,进而计算该关键用户的影响力值”的步骤包括:
针对每个所述关键用户,按照下式分别计算该关键用户的每个关联用户到该关键用户的转移熵:
TE(ui→u)=h2-h1
其中,u表示一个关键用户,ui表示关键用户u的第i个关联用户,i=1,2,...,k,k表示关键用户u的关联用户数量;
表示序列出现的概率;表示序列和xt+1同时出现的概率;表示序列序列和xt+1同时出现的概率;m、n均表示马尔科夫的阶数;xt、yt分别表示t时刻用户u和ui发起传播活动情况,xt=1表示在t时刻用户u发起传播活动,yt=1表示在t时刻用户ui发起传播活动;
按照下式计算每个关联用户到该关键用户的转移熵之和,得到该关键用户的影响力值:
其中,Influence(u)表示关键用户u的影响力值。
4.根据权利要求1所述的基于转移熵的文化基因排序方法,其特征在于,“根据所述关键用户的影响力值,分别计算每种文化基因的流行度值”的步骤包括:
根据所述关键用户的影响力值,按照下式计算每种文化基因的流行度值:
其中,Popg表示第g种文化基因的流行度值,Ug表示第g种文化基因的关键用户的集合,Influence(u)表示关键用户u的影响力值。
5.根据权利要求1所述的基于转移熵的文化基因排序方法,其特征在于,“根据每种文化基因的流行度值,分别计算每种文化基因的得分,并根据所述得分进行排序”的步骤包括:
根据每种文化基因的流行度值,按照下式计算该文化基因的得分:
Vg=a*Popg+b*δg
其中,Vg表示第g种文化基因的得分,Popg表示第g种文化基因的流行度值,δg表示预设时间段内第g种文化基因信息数量的变化率,a、b均为预设的权重;
根据所述得分,对待排序的文化基因进行排序。
6.根据权利要求1所述的基于转移熵的文化基因排序方法,其特征在于,在“针对待排序的每种文化基因,在参与该文化基因传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文化基因的关键用户”之前,所述方法还包括:
根据每种文化基因的信息数量和信息数量的变化率,筛选出所述待排序的文化基因。
7.根据权利要求6所述的基于转移熵的文化基因排序方法,其特征在于,“根据每种文化基因的信息数量和信息数量的变化率,筛选出所述待排序的文化基因”的步骤包括:
根据每种文化基因的信息数量和信息数量的变化率,按照下式分别计算每种文化基因的筛选值:
sg=p*cg+q*δg
其中,sg表示第g种文化基因的筛选值,cg表示第g种文化基因的信息数量,δg表示预设时间段内第g种文化基因信息数量的变化率,p、q均表示预设的权重;
根据所述筛选值,筛选出所有大于等于阈值的文化基因,作为所述待排序的文化基因。
8.一种基于转移熵的文化基因排序系统,其特征在于,所述系统包括:
关键用户筛选模块,配置为:针对待排序的每种文化基因,在参与该文化基因传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文化基因的关键用户;
影响力计算模块,配置为:针对每个所述关键用户,分别计算该关键用户的每个关联用户到该关键用户的转移熵,进而计算该关键用户的影响力值;
流行度计算模块,配置为:根据所述关键用户的影响力值,分别计算每种文化基因的流行度值;
排序模块,配置为:根据每种文化基因的流行度值,分别计算每种文化基因的得分,并根据所述得分进行排序。
9.根据权利要求8所述的基于转移熵的文化基因排序系统,其特征在于,所述关键用户筛选模块包括:
关联用户数量计算单元,配置为:选取参与该文化基因传播的所有用户,并分别计算所选取的每个用户的关联用户数量;
筛选单元,配置为:根据预设的关联用户数量阈值,筛选出参与该文化基因传播的关键用户。
10.根据权利要求8所述的基于转移熵的文化基因排序系统,其特征在于,所述影响力计算模块包括:
转移熵计算单元,配置为:针对每个所述关键用户,按照下式分别计算该关键用户的每个关联用户到该关键用户的转移熵:
TE(ui→u)=h2-h1
其中,u表示一个关键用户,ui表示关键用户u的第i个关联用户,i=1,2,...,k,k表示关键用户u的关联用户数量;
表示序列出现的概率;表示序列和xt+1同时出现的概率;表示序列序列和xt+1同时出现的概率;m、n均表示马尔科夫的阶数;xt、yt分别表示t时刻用户u和ui发起传播活动情况,xt=1表示在t时刻用户u发起传播活动,yt=1表示在t时刻用户ui发起传播活动;
影响力计算单元,配置为:按照下式计算每个关联用户到该关键用户的转移熵之和,得到该关键用户的影响力值:
其中,Influence(u)表示关键用户u的影响力值。
11.根据权利要求8所述的基于转移熵的文化基因排序系统,其特征在于,所述流行度计算模块具体配置为:根据所述关键用户的影响力值,按照下式计算每种文化基因的流行度值:
其中,Popg表示第g种文化基因的流行度值,Ug表示第g种文化基因的关键用户的集合,Influence(u)表示关键用户u的影响力值。
12.根据权利要求8所述的基于转移熵的文化基因排序系统,其特征在于,所述排序模块包括:
得分计算单元,配置为:根据每种文化基因的流行度值,按照下式计算该文化基因的得分:
Vg=a*Popg+b*δg
其中,Vg表示第g种文化基因的得分,Popg表示第g种文化基因的流行度值,δg表示预设时间段内第g种文化基因信息数量的变化率,a、b均为预设的权重;
排序单元,配置为:根据所述得分,对待排序的文化基因进行排序。
13.根据权利要求8所述的基于转移熵的文化基因排序系统,其特征在于,所述系统还包括:
文化基因筛选模块,配置为:根据每种文化基因的信息数量和信息数量的变化率,筛选出所述待排序的文化基因。
14.根据权利要求13所述的基于转移熵的文化基因排序系统,其特征在于,所述文化基因筛选模块包括:
筛选值计算单元,配置为:根据每种文化基因的信息数量和信息数量的变化率,按照下式分别计算每种文化基因的筛选值:
sg=p*cg+q*δg
其中,sg表示第g种文化基因的筛选值,cg表示第g种文化基因的信息数量,δg表示预设时间段内第g种文化基因信息数量的变化率,p、q均表示预设的权重;
筛选单元,配置为:根据所述筛选值,筛选出所有大于等于阈值的文化基因,作为所述待排序的文化基因。
15.一种存储设备,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行,以实现权利要求1-7中任一项所述的基于转移熵的文化基因排序方法。
16.一种控制设备,包括:
处理器,适于加载程序;以及
存储器,适于存储所述程序;
其特征在于,所述程序适于由所述处理器加载并执行,以实现权利要求1-7中任一项所述的基于转移熵的文化基因排序方法。
CN201910047874.5A 2019-01-18 2019-01-18 基于转移熵的文化基因排序方法与系统及相关设备 Active CN109948047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910047874.5A CN109948047B (zh) 2019-01-18 2019-01-18 基于转移熵的文化基因排序方法与系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910047874.5A CN109948047B (zh) 2019-01-18 2019-01-18 基于转移熵的文化基因排序方法与系统及相关设备

Publications (2)

Publication Number Publication Date
CN109948047A true CN109948047A (zh) 2019-06-28
CN109948047B CN109948047B (zh) 2021-09-28

Family

ID=67006699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910047874.5A Active CN109948047B (zh) 2019-01-18 2019-01-18 基于转移熵的文化基因排序方法与系统及相关设备

Country Status (1)

Country Link
CN (1) CN109948047B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182457A (zh) * 2014-07-14 2014-12-03 上海交通大学 在社交网络中基于泊松过程模型的事件流行度预测方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN108153914A (zh) * 2018-01-25 2018-06-12 北京东方科诺科技发展有限公司 一种基于感知最大化的网络突发热点的感知方法
CN108536866A (zh) * 2018-04-24 2018-09-14 中国人民解放军战略支援部队信息工程大学 基于话题转移熵的微博隐蔽关键用户分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182457A (zh) * 2014-07-14 2014-12-03 上海交通大学 在社交网络中基于泊松过程模型的事件流行度预测方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN108153914A (zh) * 2018-01-25 2018-06-12 北京东方科诺科技发展有限公司 一种基于感知最大化的网络突发热点的感知方法
CN108536866A (zh) * 2018-04-24 2018-09-14 中国人民解放军战略支援部队信息工程大学 基于话题转移熵的微博隐蔽关键用户分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAIKE HE等: "Ranking Online Memes in Emergency Events Based on Transfer Entropy", 《2014 IEEE JOINT INTELLIGENCE AND SECURITY INFORMATICS CONFERENCE》 *
唐梓淇: "微博网络中隐蔽关键用户发现技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN109948047B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
Csányi et al. Structure of a large social network
Becker et al. Beyond trending topics: Real-world event identification on twitter
CN103678613B (zh) 一种计算影响力数据的方法与装置
Dunbar et al. Primate social group sizes exhibit a regular scaling pattern with natural attractors
CN108170692A (zh) 一种热点事件信息处理方法和装置
CN110362818A (zh) 基于用户关系结构特征的微博谣言检测方法和系统
CN107193836B (zh) 一种识别方法及装置
CN108009220A (zh) 一种网络热点舆情事件中检测和定位异常用户的方法
CN109949174B (zh) 一种异构社交网络用户实体锚链接识别方法
CN108230169B (zh) 基于社交影响力的信息传播模型及态势感知系统及方法
CN101853325A (zh) 一种中医临床信息的计算机辅助分析方法
Huang et al. Social group modeling with probabilistic soft logic
Sha et al. Matching user accounts across social networks based on users message
CN108804676B (zh) 一种帖子排序方法、装置、设备及计算机可读存储介质
CN113268976B (zh) 一种面向微博的话题影响力评估方法
CN109033224A (zh) 一种风险文本识别方法和装置
CN109948047A (zh) 基于转移熵的文化基因排序方法与系统及相关设备
CN103678474A (zh) 一种在社交网络中快速获取大量热门话题的方法
Rogstadius et al. A real-time social media aggregation tool: Reflections from five large-scale events
Kim et al. Propagation of the QAnon conspiracy theory on Facebook
CN110399746A (zh) 一种基于敏感度分级的匿名数据发布方法及装置
CN106157150A (zh) 信息处理方法与信息处理装置
CN104866561B (zh) 一种挖掘微博话题趋势发起人的方法
Luo et al. Detecting community structure based on edge betweenness

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant