CN107609165B - 一种寻找特定人群的方法 - Google Patents

一种寻找特定人群的方法 Download PDF

Info

Publication number
CN107609165B
CN107609165B CN201710888335.5A CN201710888335A CN107609165B CN 107609165 B CN107609165 B CN 107609165B CN 201710888335 A CN201710888335 A CN 201710888335A CN 107609165 B CN107609165 B CN 107609165B
Authority
CN
China
Prior art keywords
node
propagation
nodes
neighbor
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710888335.5A
Other languages
English (en)
Other versions
CN107609165A (zh
Inventor
王睿
潘腊梅
常飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201710888335.5A priority Critical patent/CN107609165B/zh
Publication of CN107609165A publication Critical patent/CN107609165A/zh
Application granted granted Critical
Publication of CN107609165B publication Critical patent/CN107609165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种寻找特定人群的方法,能够快速高效地找到失联群体。所述方法包括:基于社会网络的拓扑结构,将个体映射为节点,将个体之间的关系映射为边,得到社会网络拓扑结构图,基于得到的社会网络拓扑结构图,确定源节点和失联节点;在候选传播节点传播信息之前,选择传播贡献值逐跳递增及转发意愿较强的候选传播节点作为下一跳的传播节点;基于选择的传播节点,形成一组从源节点到失联节点的传播路径;从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径,其中,所述找到失联节点概率值等于每条路径的最后一跳传播节点的传播贡献值与该路径的传播跳数之间的比值。本发明涉及社会网络中信息传播领域。

Description

一种寻找特定人群的方法
技术领域
本发明涉及社会网络中信息传播领域,特别是指一种寻找特定人群的方法。
背景技术
队列研究对于全面了解慢性病人群的病因具有重要的科学价值。也被普遍认为是研究常见但严重疾病的最有效方法。队列研究需要一大群人,5年甚至更长的时间进行持续的随访研究和生物样本收集。然而,由于人口的频繁流动使得队列中存在失联群体,很难保持长期的跟踪随访,这也是队列研究面临的一个严峻挑战。实际上,群体失联问题不仅在队列研究领域有消极作用,对于其他需要固定人群长期参与的研究均有阻碍作用。除去研究,现实生活中最能够直接映射的便是个体走失现象。不论是人口流动带来的群体失联还是特定原因造成的个体走失,这些都可以认为是一类寻找特定人群的问题。
针对该问题的传统解决方法主要是通过媒体的力量。首先通过电话,邮件等方式前期联络,通过获取关于失联者的信息,再发动政府,寻亲公益组织或者志愿者团体等寻找失联的个体。虽然通过网络来加快信息的扩散,但网络只作为一种传播媒介。这些方法不仅耗费资源、效率不高,且缺乏理论指导和系统研究。因此,这种具有星状结构的搜索方法并不理想。
从抽象的角度来看,队列的长期维持可被认为是社会网络中用户的持续参与。因此,可以应用社会网络的理论和研究解决这个问题。通过网络中的节点,信息可以迅速而广泛地传播。目前的解决方法多为无导向传播,即信息可以传播到一个节点的所有相邻节点。也就是说,没有确定一定的传播方向,进而缺少明确的传播路径。因此,目前的方法并不能高效地解决寻找特定人群的问题。
发明内容
本发明要解决的技术问题是提供一种寻找特定人群的方法,以解决现有技术所存在的无导向传播不能高效地寻找特定人群的问题。
为解决上述技术问题,本发明实施例提供一种寻找特定人群的方法,包括:
基于社会网络的拓扑结构,将个体映射为节点,将个体之间的关系映射为边,得到社会网络拓扑结构图,基于得到的社会网络拓扑结构图,确定源节点和失联节点,其中,若特定人群为n个特定个体,则失联节点也为n个,且n个失联节点与n个特定个体是一一对应的关系;
在候选传播节点传播信息之前,选择传播贡献值逐跳递增及转发意愿较强的候选传播节点作为下一跳的传播节点,其中,所述传播贡献值为所述传播节点的权重,用于表示所述传播节点对找到失联节点的传播贡献值,转发意愿较强是指所选的作为下一跳的传播节点的转发意愿大于当前节点的所有邻居节点的转发意愿的平均值;
基于选择的传播节点,形成一组从源节点到失联节点的传播路径;
从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径,其中,所述找到失联节点概率值等于每条路径的最后一跳传播节点的传播贡献值与该路径的传播跳数之间的比值。
进一步地,所述在候选传播节点传播信息之前,选择传播贡献值逐跳递增及转发意愿较强的候选传播节点作为下一跳的传播节点包括:
S1,在候选传播节点传播信息之前,确定当前节点的每个邻居节点对找到失联节点的传播贡献值、及所述当前节点的每个邻居节点的转发意愿,其中,当信息传输到某一节点时,所述某一节点为当前节点,所述邻居节点为下一跳的候选传播节点;
S2,将传播贡献值超过预设的传播贡献阈值且转发意愿超过预设的转发意愿阈值的邻居节点选为下一跳传播节点;
S3,当信息传播到选中的传播节点时,更新所述预设的传播贡献阈值为选中的传播节点的传播贡献值,并更新所述预设的转发意愿阈值为当前选中的作为下一跳的传播节点的所有邻居节点的转发意愿的平均值;
S4,返回继续执行S1-S3,直至找到失联节点。
进一步地,通过公式
Figure BDA0001420506790000021
确定当前节点的每个邻居节点对找到失联节点的传播贡献值;
其中,
Figure BDA0001420506790000031
表示邻居节点ui对找到失联节点的传播贡献值,
Figure BDA0001420506790000032
分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性,α1、α2、1-α12分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性对应的权重。
进一步地,权重α1、α2、1-α12的取值通过熵值法确定。
进一步地,邻居节点ui的影响力表示为:
Figure BDA0001420506790000033
其中,
Figure BDA0001420506790000034
表示邻居节点ui的影响力,
Figure BDA0001420506790000035
表示邻居节点ui的出度,m表示当前节点的所有邻居节点的数量,
Figure BDA0001420506790000036
表示当前节点的所有邻居节点的总出度。
进一步地,邻居节点ui的转发意愿表示为:
Figure BDA0001420506790000037
其中,uj表示当前节点,
Figure BDA0001420506790000038
代表当前节点uj与邻居节点ui之间交互的信息量,m表示当前节点uj的所有邻居节点的数量,
Figure BDA0001420506790000039
代表当前节点uj与其邻居节点之间交互的信息总量,
Figure BDA00014205067900000310
代表邻居节点ui的在线时间,
Figure BDA00014205067900000311
代表当前节点uj的邻居节点的总在线时间,β是权重因子。
进一步地,β的取值通过熵值法确定。
进一步地,邻居节点ui与失联节点之间的信息相关性表示为:
Figure BDA00014205067900000312
其中,
Figure BDA00014205067900000313
表示邻居节点ui与失联节点之间的信息关联度,m表示当前节点的所有邻居节点的数量,
Figure BDA00014205067900000314
表示当前节点的所有邻居节点和失联节点之间的信息关联度,邻居节点ui与失联节点之间的信息关联度为已知的属性中与失联节点属性一致的个数与已知属性总数之比。
进一步地,所述从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径包括:
假设形成的每一条从源节点u0到失联节点uk的路径可以表示为u0→u1→u2→...→uk-1→uk,则通过某条路径找到失联节点的概率P(u0,uk)为:
Figure BDA0001420506790000041
其中,uk-1表示该路径中最后一跳的传播节点,p(uk-1)表示节点uk-1的传播贡献值,l表示该路径的传播跳数;
根据公式Pmax=argmax(P(u0,uk)),得到最优传播路径;
其中,Pmax表示找到失联节点概率最大值。
本发明的上述技术方案的有益效果如下:
上述方案中,基于社会网络的拓扑结构,将个体映射为节点,将个体之间的关系映射为边,以便信息能够迅速而广泛地传播,有助于尽快找到失联个体;且在允许候选传播节点传播信息之前,需评估每个候选传播节点的传播贡献值及转发意愿,选择传播贡献值逐跳递增及转发意愿较强的候选传播节点作为下一跳的传播节点。这样,随着信息的逐次传播和传播贡献值的增大,传播节点与失联节点关系越来越密切,即确定了一定的传播方向,使得找到失联节点的概率逐渐增大;然后,基于选择的传播节点,形成一组从源节点到失联节点的传播路径;从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径,以便可以快速高效地找到失联节点,从而找到特定人群。
附图说明
图1为本发明实施例提供的寻找特定人群的方法的流程示意图;
图2为本发明实施例提供的局部社会网络拓扑结构图;
图3(a)为本发明实施例提供的选择具有高传播贡献值和转发意愿的传播节点流程示意图;
图3(b)为本发明实施例提供的选择最优传播路径的流程示意图;
图4为本发明实施例提供的最优传播路径选择的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的无导向传播不能高效地寻找特定人群的问题,提供一种寻找特定人群的方法。
如图1所示,本发明实施例提供的寻找特定人群的方法,包括:
S101,基于社会网络的拓扑结构,将个体映射为节点,将个体之间的关系映射为边,得到社会网络拓扑结构图,基于得到的社会网络拓扑结构图,确定源节点和失联节点,其中,若特定人群为n个特定个体,则失联节点也为n个,且n个失联节点与n个特定个体是一一对应的关系;
S102,在候选传播节点传播信息之前,选择传播贡献值逐跳递增及转发意愿较强的候选传播节点作为下一跳的传播节点,其中,所述传播贡献值为所述传播节点的权重,用于表示所述传播节点对找到失联节点的传播贡献值,转发意愿较强是指所选的作为下一跳的传播节点的转发意愿大于当前节点的所有邻居节点的转发意愿的平均值;
S103,基于选择的传播节点,形成一组从源节点到失联节点的传播路径;
S104,从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径,其中,所述找到失联节点概率值等于每条路径的最后一跳传播节点的传播贡献值与该路径的传播跳数之间的比值。
本发明实施例所述的寻找特定人群的方法,基于社会网络的拓扑结构,将个体映射为节点,将个体之间的关系映射为边,以便信息能够迅速而广泛地传播,有助于尽快找到失联个体;且在允许候选传播节点传播信息之前,需评估每个候选传播节点的传播贡献值及转发意愿,选择传播贡献值逐跳递增及转发意愿较强的候选传播节点作为下一跳的传播节点,这样,随着信息的逐次传播和传播贡献值的增大,传播节点与失联节点关系越来越密切,即确定了一定的传播方向,使得找到失联节点的概率逐渐增大;然后,基于选择的传播节点,形成一组从源节点到失联节点的传播路径;从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径,以便可以快速高效地找到失联节点,从而找到特定人群。
本实施例中,若特定人群为n个人,则失联节点也为n个,n个失联节点与n个特定个体是一一对应的关系。针对群体失联问题,可以同时进行信息传播,也可以逐个寻找,本质上与单个个体失联是一样的,只是信息传播的内容和数量变化而已。例如,在当前节点选择下一跳的候选传播节点时,首先计算得到候选传播节点对不同失联节点的分别的传播贡献值,再根据相对应的阈值选择合适的传播节点,传播与相应的失联节点的有关信息。
本实施例中,所述失联节点可以对应于走失的个体,也就是说:本实施例中所述的寻找特定人群的方法可以应用于人口流动造成的群体失联,也可以应用于某些特定原因造成的个体走失,即:能够解决寻找特定人群的问题。本实施例中所述的寻找特定人群的方法还可以应用到对人群稳定性要求较高的相关研究中,具有通用性强的优点。
本实施例中,基于社会网络的拓扑结构,将个体映射为节点,将个体之间的关系映射为边,得到社会网络拓扑结构图G=<U,E>,基于得到的社会网络拓扑结构图,确定源节点和失联节点;其中,U表示参与信息传播的节点的集合,E为这些节点间边的集合;节点的权重是指本次传播对找到失联节点的贡献,随着传播跳数的增加,网络的规模不断扩大,图G具有无标度网络特性。
本实施例中,图G中包括:源节点、失联节点、候选传播节点。
本实施例中,基于图G,从候选传播节点中选择合适的传播节点来传播信息以便高效的找到失联节点。首先,确定图G中候选传播节点的权重(即:传播贡献值)。由于候选传播节点的权重反映了其寻找失联节点的能力。因此,选择具有较强能力的候选传播节点进行传播,从而获得最优传播路径。候选传播节点的权重即为其传播贡献值,选择具有传播贡献值逐跳递增的节点传播信息。同时,信息是否可以被连续传播,即节点的转发意愿,也是需要考虑的。因此,选择合适的传播节点,不仅需要计算其传播贡献值,还要考虑其对信息传播的意愿。自然地,如果一个节点不断收到相同的信息,则不太可能会参与下一次传播。若它与失联节点密切相关,如果它拒绝参与,则无法通过该节点找到失联节点。这会对寻找失联节点产生消极作用,所以规定传播是单向的。
在前述寻找特定人群的方法的具体实施方式中,进一步地,所述在候选传播节点传播信息之前,选择传播贡献值逐跳递增及转发意愿较强的候选传播节点作为下一跳的传播节点包括:
S1,在候选传播节点传播信息之前,确定当前节点的每个邻居节点对找到失联节点的传播贡献值、及所述当前节点的每个邻居节点的转发意愿,其中,当信息传输到某一节点时,所述某一节点为当前节点,所述邻居节点为下一跳的候选传播节点;
S2,将传播贡献值超过预设的传播贡献阈值且转发意愿超过预设的转发意愿阈值的邻居节点选为下一跳传播节点;
S3,当信息传播到选中的传播节点时,更新所述预设的传播贡献阈值为选中的传播节点的传播贡献值,并更新所述预设的转发意愿阈值为当前选中的作为下一跳的传播节点的所有邻居节点的转发意愿的平均值;
S4,返回继续执行S1-S3,直至找到失联节点。
本实施例所述的寻找特定人群的方法不同于传统的无导向传播机制,所述无导向传播机制为信息可以传播到当前节点的所有相邻节点。本实施例中,当前节点需将信息传输到传播贡献值超过预设的传播贡献阈值且转发意愿超过预设的转发意愿阈值的邻居节点。
在前述寻找特定人群的方法的具体实施方式中,进一步地,通过公式
Figure BDA0001420506790000071
确定当前节点的每个邻居节点对找到失联节点的传播贡献值;
其中,
Figure BDA0001420506790000072
表示邻居节点ui对找到失联节点的传播贡献值,
Figure BDA0001420506790000073
分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性,α1、α2、1-α12分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性对应的权重。
本实施例中,提出了节点的传播贡献值这一概念,考虑了社会网络中节点与失联节点之间的内在联系。采用多因素法则计算节点的传播贡献值,并利用它来量化每个节点寻找失联节点的能力。
本实施例中,考虑到:节点影响力体现了一个节点对其他节点的影响。转发意愿即节点参与传播的意愿,如果节点愿意转发,则找到失联节点的概率会变大。信息相关性描述节点属性的相似度,两个相似的个体很可能是朋友,也可能以某种方式联系在一起。那么,与失联节点相似的节点更有可能找到失联节点。因此,为了选择合适的传播节点,将邻居节点的影响力、邻居节点的转发意愿、邻居节点与失联节点之间的信息相关性作为节点的传播贡献值的三个指标。
本实施例中,邻居节点ui对找到失联节点的传播贡献值
Figure BDA0001420506790000081
可以用下式计算:
Figure BDA0001420506790000082
其中,
Figure BDA0001420506790000083
分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性,α1、α2、1-α12是它们对应的权重,可以通过熵值法得到。
熵值法将三个指标(邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性),即
Figure BDA0001420506790000084
以及其对应的m个数值综合为一个评估体系。
首先,根据节点相关属性信息构建一个初始矩阵,利用构建的矩阵来计算三个指标对应的权重。在实际应用中,可以根据实际应用场景进行确定,进一步得到每个节点对应的三个指标值。将m个节点及对应的指标值构建一个m×3的初始矩阵。在此基础上,对矩阵进行归一化,通过以下公式计算:
Figure BDA0001420506790000085
其中,xij是矩阵第j列第i行的值;Rij的含义为xij与所在列元素之和的比值。即将矩阵中每个元素除以所在列的元素之和,得到归一化矩阵。接下来,可以通过以下方法来求解每个指标的熵值:
Figure BDA0001420506790000086
第j个指标提供的信息量由1-ej决定,熵值法使用熵来求得每个指标的权重值;因此,每个指标的权重可以通过下式得到:
Figure BDA0001420506790000087
由此,可以计算出W1、W2,则三个指标对应的权重值α1、α2、1-α12也就得到了。
在前述寻找特定人群的方法的具体实施方式中,进一步地,邻居节点ui的影响力表示为:
Figure BDA0001420506790000091
其中,
Figure BDA0001420506790000092
表示邻居节点ui的影响力,
Figure BDA0001420506790000093
表示邻居节点ui的出度,m表示当前节点的所有邻居节点的数量,
Figure BDA0001420506790000094
表示当前节点的所有邻居节点的总出度。
本实施例中,具有高影响力的传播节点可以最大化候选传播节点的数目。通过计算一个候选传播节点所具有的链接数,以评估其在网络中所具有的影响力。如果一个候选传播节点有较多的链接,那么它就有能力将信息传播到多个节点。
在社会网络中,链接可以被映射为该候选传播节点的出度,也就是其具有随从关系的节点总数。给定当前节点的一个邻居节点ui(作为下一跳的一个候选传播节点),将其影响力定义为:
Figure BDA0001420506790000095
其中,
Figure BDA0001420506790000096
表示邻居节点ui的影响力,
Figure BDA0001420506790000097
表示邻居节点ui的出度,m表示当前节点的所有邻居节点的数量,
Figure BDA0001420506790000098
表示当前节点的所有邻居节点的总出度。这意味着在下一跳的所有候选传播节点中,选择具有较多链接的节点作为下一次传播(下一跳)的传播节点。
在前述寻找特定人群的方法的具体实施方式中,进一步地,邻居节点ui的转发意愿表示为:
Figure BDA0001420506790000099
其中,uj表示当前节点,
Figure BDA0001420506790000101
代表当前节点uj与邻居节点ui之间交互的信息量,m表示当前节点uj的所有邻居节点的数量,
Figure BDA0001420506790000102
代表当前节点uj与其邻居节点之间交互的信息总量,
Figure BDA0001420506790000103
代表邻居节点ui的在线时间,
Figure BDA0001420506790000104
代表当前节点uj的邻居节点的总在线时间,β是权重因子。
本实施例中,在计算节点转发意愿时,做出以下两个设想:两个节点之间的关联强度和节点的在线活跃时间。首先,两个节点间的交互频率可以用来量化社会关系的强度。在一段时间内,当前节点uj与邻居节点ui之间交互信息的量表示两个节点之间的密切关系。与源节点关系密切的节点更愿意转发信息。其次,如果节点在社会网络中花费大量的时间,那么可以认为这些节点是活跃节点。也就是说,他们有更大的意愿参与转发。
因此,量化邻居节点ui的转发意愿如下:
Figure BDA0001420506790000105
其中,当前节点uj持有信息并决定是否转发给其邻居节点之一的ui
Figure BDA0001420506790000106
代表当前节点uj与邻居节点ui之间交互的信息量,m表示当前节点uj的所有邻居节点的数量,
Figure BDA0001420506790000107
代表当前节点uj与其邻居节点之间交互的信息总量,
Figure BDA0001420506790000108
表示节点ui和uj之间的关联强度;
Figure BDA0001420506790000109
代表邻居节点ui的在线时间,
Figure BDA00014205067900001010
代表当前节点uj的邻居节点的总在线时间,
Figure BDA00014205067900001011
表示节点ui的在线活跃度,β是权重因子,β的取值可以通过熵值法确定。
在前述寻找特定人群的方法的具体实施方式中,进一步地,邻居节点ui与失联节点之间的信息相关性表示为:
Figure BDA0001420506790000111
其中,
Figure BDA0001420506790000112
表示邻居节点ui与失联节点之间的信息关联度,m表示当前节点的所有邻居节点的数量,
Figure BDA0001420506790000113
表示当前节点的所有邻居节点和失联节点之间的信息关联度,邻居节点ui与失联节点之间的信息关联度为已知的属性中与失联节点属性一致的个数与已知属性总数之比。
本实施例中,信息相关性主要反映了节点属性的相似度,包括但不限于以前的工作场所、居住地点以及兴趣爱好等,节点的属性可以根据实际情况进行设定。因此,总是可以依赖于失联节点的部分信息并根据邻居节点ui与失联节点之间的相似性来选择传播节点。他们具有的相似性越大,邻居节点ui的贡献值越大,即更有可能找到失联节点。
因此,可以运用以下方法计算邻居节点ui与失联节点之间的信息相关性:
Figure BDA0001420506790000114
其中,
Figure BDA0001420506790000115
表示邻居节点ui与失联节点之间的信息关联度,m表示当前节点的所有邻居节点的数量,
Figure BDA0001420506790000116
表示当前节点的所有邻居节点和失联节点之间的信息关联度,邻居节点ui与失联节点之间的信息关联度为已知的属性中与失联节点属性一致的个数与已知属性总数之比。
在前述寻找特定人群的方法的具体实施方式中,进一步地,所述从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径包括:
假设形成的每一条从源节点u0到失联节点uk的路径可以表示为u0→u1→u2→...→uk-1→uk,则通过某条路径找到失联节点的概率P(u0,uk)为:
Figure BDA0001420506790000117
其中,uk-1表示该路径中最后一跳的传播节点,p(uk-1)表示节点uk-1的传播贡献值,l表示该路径的传播跳数;
根据公式Pmax=argmax(P(u0,uk)),得到最优传播路径;
其中,Pmax表示找到失联节点概率最大值。
本实施例中,先确定通过某条路径找到失联节点的概率,具体的:
定义从源节点u0到失联节点uk的路径,即u0→u1→u2→...→uk-1→uk,将通过该路径找到失联节点的概率定义为P(u0,uk),即:
Figure BDA0001420506790000121
其中,uk-1表示该路径中最后一跳的传播节点,p(uk-1)表示节点uk-1的传播贡献值,l表示该路径的传播跳数,u0,uk∈U,0<k<n,n是U的大小,也就是节点的总数。P(u0,uk)该公式表明了找到失联节点的概率和传播跳数之间的逆约束关系。
通过
Figure BDA0001420506790000122
可以获得通过不同的传播路径找到失联节点的概率,然后,根据公式Pmax=argmax(P(u0,uk))得到最优传播路径,即:在可以从源节点找到失联节点的不同路径中,通过某条路径找到失联节点的概率最大的路径为最优路径。
综上,利用社会网络的特点,信息可以迅速而广泛地传播,以便能够尽快找到失联个体;同时,提出了传播贡献值的概念,用于描述参与传播的节点寻找失联节点的能力,量化了每个候选传播节点基于整个网络的传播贡献,从而可以选择合适的传播节点。具体而言,采用影响力、转发意愿、信息相关性计算节点的传播贡献值,选择传播贡献值逐跳递增及转发意愿较强的候选传播节点作为下一跳的传播节点;最后,将具有较大的传播贡献值,同时有较小传播跳数的路径作为最优传播路径。
为了更好地理解本实施例所述的寻找特定人群的方法,结合表1和表2的数据对本实施例所述的寻找特定人群的方法进行详细说明:
表1当前节点的相邻节点的基本信息
候选传播节点 链接数量 与u<sub>0</sub>交互的信息量(条/小时) 在线时间(小时)
u<sub>1</sub> 2 4.7 2.1
u<sub>2</sub> 3 5.1 4.6
u<sub>3</sub> 3 6.5 3.7
表2当前节点的相邻节点与失联节点的基本信息
节点 所在省份 城市 职业 爱好 学历 偶像
失联节点 山东 青岛 酒店管理 打篮球 本科 林书豪
u<sub>1</sub> 福建 福州 服装设计 绘画 本科 郭培
u<sub>2</sub> 山东 淄博 教师 阅读 本科 乔治·马丁
u<sub>3</sub> 山东 济南 酒店管理 羽毛球 专科 林丹
假设,节点u1、u2、u3是当前节点uj的邻居节点,也是下一跳的候选传播节点,他们构成了网络中的一小部分。本实施例中,若所述当前节点为源节点,也可以表示为u0,如图2所示。候选传播节点出度即为其链接数量。与失联节点的信息相关性主要反映了节点属性的相似度,包括但不限于以前的工作场所、居住地点以及兴趣爱好,在实际应用中,可以根据实际应用场景进行确定。在允许下一跳的候选传播节点(下一跳的邻居节点)传播信息之前,需评估当前节点uj的每个邻居节点的贡献值,而每个邻居节点的贡献值的评价指标为节点影响力、转发意愿以及与失联节点的信息相关性。
给定一个邻居节点ui,将其节点影响力定义为:
Figure BDA0001420506790000131
其中,
Figure BDA0001420506790000132
表示邻居节点ui的影响力,
Figure BDA0001420506790000133
表示邻居节点ui的出度,m表示当前节点的所有邻居节点的数量,
Figure BDA0001420506790000134
表示当前节点的所有邻居节点的总出度。
因此,根据表1中的数据可以求得当前节点uj的邻居节点u1、u2、u3的节点影响力分别为:
Figure BDA0001420506790000135
Figure BDA0001420506790000136
Figure BDA0001420506790000137
量化当前节点uj的邻居节点ui的转发意愿如下:
Figure BDA0001420506790000141
其中,uj表示当前节点,
Figure BDA0001420506790000142
代表当前节点uj与邻居节点ui之间交互的信息量,m表示当前节点uj的所有邻居节点的数量,
Figure BDA0001420506790000143
代表当前节点uj与其邻居节点之间交互的信息总量,
Figure BDA0001420506790000144
代表邻居节点ui的在线时间,
Figure BDA0001420506790000145
代表当前节点uj的邻居节点的总在线时间,β是权重因子,可通过如下方法计算其值。
为了更直观的量化节点的转发意愿,首先将当前节点uj所具有的邻居节点ui(i=1,2,3)以及它们的相关属性信息进行矩阵处理。这里,相关属性信息即为影响节点转发意愿的影响因素,分别为一段时间内邻居节点ui与当前节点uj交互的信息量以及ui的在线活跃时间。这样,矩阵的行数代表ui的个数,矩阵的列对应两个影响因素的具体值,根据表1中的数据,形成一个三行两列的矩阵
Figure BDA0001420506790000146
将矩阵归一化,得归一化矩阵:
Figure BDA0001420506790000147
然后,运用求熵公式求得归一化矩阵中每列元素的熵:
Figure BDA0001420506790000148
Figure BDA0001420506790000149
最后,求得权重为:
Figure BDA00014205067900001410
Figure BDA0001420506790000151
得到β=0.173、1-β=0.827。
因此,根据表1中的数据可以求得节点u1、u2、u3的转发意愿分别为:
Figure BDA0001420506790000152
Figure BDA0001420506790000153
Figure BDA0001420506790000154
本实施例中,可以运用以下方法计算节点属性的相似度:
Figure BDA0001420506790000155
其中,
Figure BDA0001420506790000156
表示邻居节点ui与失联节点之间的信息关联度,m表示当前节点的所有邻居节点的数量,
Figure BDA0001420506790000157
表示当前节点的所有邻居节点和失联节点之间的信息关联度,邻居节点ui与失联节点之间的信息关联度为已知的属性中与失联节点属性一致的个数与已知属性总数之比。
根据表2中节点的属性信息,可以求得邻居节点u1、u2、u3与失联节点之间的信息关联度为:
Figure BDA0001420506790000158
Figure BDA0001420506790000159
Figure BDA00014205067900001510
因此,可以求得邻居节点u1、u2、u3与失联节点之间的信息相关性(也可以称为:相似度)分别为:
Figure BDA0001420506790000161
Figure BDA0001420506790000162
Figure BDA0001420506790000163
邻居节点ui的传播贡献值
Figure BDA0001420506790000164
可以用下式计算:
Figure BDA0001420506790000165
其中,
Figure BDA0001420506790000166
表示邻居节点ui对找到失联节点的传播贡献值,
Figure BDA0001420506790000167
分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性,α1、α2、1-α12分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性对应的权重,可以通过如下方法得出。
首先将当前节点uj所具有的邻居节点ui(i=1,2,3)以及它们的相关属性信息进行矩阵处理。这里,相关属性信息即为影响节点传播贡献值的影响因素,分别为邻居节点ui的影响力、邻居节点ui的转发意愿以及邻居节点ui与失联节点之间的信息相关性。这样,矩阵的行数代表ui的个数,矩阵的列对应三个影响因素的具体值。根据表1和表2中的数据可求得三个影响因素的具体值,即上述求解得出的
Figure BDA0001420506790000168
Figure BDA0001420506790000169
形成一个三行三列的矩阵:
Figure BDA00014205067900001610
然后,运用求熵公式求得每列元素的熵:
Figure BDA00014205067900001611
Figure BDA00014205067900001612
Figure BDA00014205067900001613
最后,求得权重为:
Figure BDA0001420506790000171
Figure BDA0001420506790000172
Figure BDA0001420506790000173
则,α1=0.179、α2=0.381、1-α12=0.44。
因此,根据表1和表2中的数据可以求得邻居节点u1、u2、u3的贡献值分别为:
Figure BDA0001420506790000174
Figure BDA0001420506790000175
Figure BDA0001420506790000176
随机选择一个失联节点和一个源节点来验证两个节点之间传播路径的存在。在允许节点传播信息之前,需评估每个节点的传播贡献值,以便选择传播节点。且只能选择传播贡献值和转发意愿超过相应阈值的节点来传播信息。最后,以这种方式选择的节点将形成一组从随机选择的源节点到失联节点的各种路径。最终,确定其中的最优传播路径。图3(a)表示选择具有高传播贡献值和转发意愿的传播节点的流程图,图3(b)表示最优传播路径选择的流程图。
图3(a)中,初始化传播贡献阈值A为所有候选传播节点贡献值的平均值,转发意愿阈值B为所有候选传播节点转发意愿的平均值。当信息传播到某节点时,计算某节点的每个相邻节点的传播贡献值及转发意愿。只能选择传播贡献值
Figure BDA0001420506790000177
和转发意愿y都超过相应阈值的相邻节点作为下一跳的传播节点来传播信息。更新传播贡献阈值A为选中的节点的传播贡献值
Figure BDA0001420506790000178
以及转发意愿阈值B为当前选中的节点的所有邻居节点的转发意愿的平均值y,接着再选择下一跳传播节点。因此,通过这样的方式,可以不断选择传播贡献值逐跳递增且转发意愿较强的节点来传播信息。
假设节点u0为源节点,则A为节点u1、u2、u3贡献值的平均值0.3;B为节点u1、u2、u3转发意愿的平均值0.3。由于节点u1的传播贡献值
Figure BDA0001420506790000181
以及转发意愿
Figure BDA0001420506790000182
没有超过此时相应的阈值A与B,则下一跳的传播节点为u2、u3。当信息传播到节点u2时,更新传播贡献值阈值为u2的传播贡献值,更新转发意愿阈值为u2的所有邻居节点的转发意愿的平均值。则在u2的邻居节点中选择下一跳传播节点时,其传播贡献值需要超过此时的阈值,即u2的传播贡献值。也就是随着传播跳数的增加,传播贡献值不断增大。
如图3(b)所示,在每一跳中,将所选的传播节点添加到路径中,并返回其传播贡献值
Figure BDA0001420506790000183
和跳数i。最后,在可以找到失联节点的不同传播路径中,选择
Figure BDA0001420506790000184
最大的路径作为最优传播路径,通过该最优传播路径可以高效快速地找到失联节点。
图4为最优传播路径选择的一个例子。选择源节点和失联节点的ID分别为1437和3448。从源节点到失联节点可以观察到5条传播路径。在每一跳中,选择具有较高贡献的节点来传播信息。当前传播节点不断选择具有高贡献的邻居作为下一跳中的传播节点,传播贡献值逐跳递增。从图4中可以看到随着传播跳数的增加,传播贡献值不断增大。选择具有最大概率值的传播路径作为最优路径,从而可以快速有效地找到失联节点。最优传播路径的
Figure BDA0001420506790000185
其值最大。如图4中所示,即“1437-107-1805-3437-3448”。因此,失联节点最少经过4跳的传播找到,贡献值的最大值是0.684,如图4所示。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种寻找特定人群的方法,其特征在于,包括:
基于社会网络的拓扑结构,将个体映射为节点,将个体之间的关系映射为边,得到社会网络拓扑结构图,基于得到的社会网络拓扑结构图,确定源节点和失联节点,其中,若特定人群为n个特定个体,则失联节点也为n个,且n个失联节点与n个特定个体是一一对应的关系;
在候选传播节点传播信息之前,选择传播贡献值逐跳递增及转发意愿强的候选传播节点作为下一跳的传播节点,其中,所述传播贡献值为所述传播节点的权重,用于表示所述传播节点对找到失联节点的传播贡献值,转发意愿强是指所选的作为下一跳的传播节点的转发意愿大于当前节点的所有邻居节点的转发意愿的平均值;
基于选择的传播节点,形成一组从源节点到失联节点的传播路径;
从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径,其中,所述找到失联节点概率值等于每条路径的最后一跳传播节点的传播贡献值与该路径的传播跳数之间的比值;
其中,通过公式
Figure FDA0002471873550000011
确定当前节点的每个邻居节点对找到失联节点的传播贡献值;
其中,
Figure FDA0002471873550000012
表示邻居节点ui对找到失联节点的传播贡献值,
Figure FDA0002471873550000013
分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性,α1、α2、1-α12分别表示邻居节点ui的影响力、邻居节点ui的转发意愿、邻居节点ui与失联节点之间的信息相关性对应的权重。
2.根据权利要求1所述的寻找特定人群的方法,其特征在于,所述在候选传播节点传播信息之前,选择传播贡献值逐跳递增及转发意愿强的候选传播节点作为下一跳的传播节点包括:
S1,在候选传播节点传播信息之前,确定当前节点的每个邻居节点对找到失联节点的传播贡献值、及所述当前节点的每个邻居节点的转发意愿,其中,当信息传输到某一节点时,所述某一节点为当前节点,所述邻居节点为下一跳的候选传播节点;
S2,将传播贡献值超过预设的传播贡献阈值且转发意愿超过预设的转发意愿阈值的邻居节点选为下一跳传播节点;
S3,当信息传播到选中的传播节点时,更新所述预设的传播贡献阈值为选中的传播节点的传播贡献值,并更新所述预设的转发意愿阈值为当前选中的作为下一跳的传播节点的所有邻居节点的转发意愿的平均值;
S4,返回继续执行S1-S3,直至找到失联节点。
3.根据权利要求2所述的寻找特定人群的方法,其特征在于,权重α1、α2、1-α12的取值通过熵值法确定。
4.根据权利要求2所述的寻找特定人群的方法,其特征在于,邻居节点ui的影响力表示为:
Figure FDA0002471873550000021
其中,
Figure FDA0002471873550000022
表示邻居节点ui的影响力,
Figure FDA0002471873550000023
表示邻居节点ui的出度,m表示当前节点的所有邻居节点的数量,
Figure FDA0002471873550000024
表示当前节点的所有邻居节点的总出度。
5.根据权利要求2所述的寻找特定人群的方法,其特征在于,邻居节点ui的转发意愿表示为:
Figure FDA0002471873550000025
其中,uj表示当前节点,
Figure FDA0002471873550000026
代表当前节点uj与邻居节点ui之间交互的信息量,m表示当前节点uj的所有邻居节点的数量,
Figure FDA0002471873550000027
代表当前节点uj与其邻居节点之间交互的信息总量,
Figure FDA0002471873550000028
代表邻居节点ui的在线时间,
Figure FDA0002471873550000029
代表当前节点uj的邻居节点的总在线时间,β是权重因子。
6.根据权利要求5所述的寻找特定人群的方法,其特征在于,β的取值通过熵值法确定。
7.根据权利要求2所述的寻找特定人群的方法,其特征在于,邻居节点ui与失联节点之间的信息相关性表示为:
Figure FDA0002471873550000031
其中,
Figure FDA0002471873550000032
表示邻居节点ui与失联节点之间的信息关联度,m表示当前节点的所有邻居节点的数量,
Figure FDA0002471873550000033
表示当前节点的所有邻居节点和失联节点之间的信息关联度,邻居节点ui与失联节点之间的信息关联度为已知的属性中与失联节点属性一致的个数与已知属性总数之比。
8.根据权利要求1所述的寻找特定人群的方法,其特征在于,所述从形成的传播路径中,选取找到失联节点概率值最大的路径作为最优传播路径包括:
假设形成的每一条从源节点u0到失联节点uk的路径可以表示为u0→u1→u2→...→uk-1→uk,则通过某条路径找到失联节点的概率P(u0,uk)为:
Figure FDA0002471873550000034
其中,uk-1表示该路径中最后一跳的传播节点,p(uk-1)表示节点uk-1的传播贡献值,l表示该路径的传播跳数;
根据公式Pmax=argmax(P(u0,uk)),得到最优传播路径;
其中,Pmax表示找到失联节点概率最大值。
CN201710888335.5A 2017-09-27 2017-09-27 一种寻找特定人群的方法 Active CN107609165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710888335.5A CN107609165B (zh) 2017-09-27 2017-09-27 一种寻找特定人群的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710888335.5A CN107609165B (zh) 2017-09-27 2017-09-27 一种寻找特定人群的方法

Publications (2)

Publication Number Publication Date
CN107609165A CN107609165A (zh) 2018-01-19
CN107609165B true CN107609165B (zh) 2020-09-04

Family

ID=61058606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710888335.5A Active CN107609165B (zh) 2017-09-27 2017-09-27 一种寻找特定人群的方法

Country Status (1)

Country Link
CN (1) CN107609165B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191318B (zh) * 2018-07-25 2022-03-22 北京科技大学 一种有效贡献激励信息传播的目标寻找方法及装置
CN111382628B (zh) * 2018-12-28 2023-05-16 成都云天励飞技术有限公司 同行判定方法及装置
CN110674413B (zh) * 2019-09-09 2022-03-25 平安科技(深圳)有限公司 用户关系挖掘方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337773A (zh) * 2015-11-19 2016-02-17 南京邮电大学 基于ReciprocityRank算法的微博网络影响力节点发现方法
CN105704031A (zh) * 2015-12-30 2016-06-22 东软集团股份有限公司 一种数据传输路径确定方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7986617B2 (en) * 2009-08-26 2011-07-26 Noblis, Inc. System and method for providing network resiliency

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337773A (zh) * 2015-11-19 2016-02-17 南京邮电大学 基于ReciprocityRank算法的微博网络影响力节点发现方法
CN105704031A (zh) * 2015-12-30 2016-06-22 东软集团股份有限公司 一种数据传输路径确定方法及装置

Also Published As

Publication number Publication date
CN107609165A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
Pham et al. A general graph-based model for recommendation in event-based social networks
Liu et al. Exploring personal impact for group recommendation
Newman The physics of networks
Li et al. Social network user influence sense-making and dynamics prediction
CN113807616B (zh) 基于时空注意力和异构图卷积网络的信息扩散预测系统
CN107609165B (zh) 一种寻找特定人群的方法
Zhang et al. Who will attend?--predicting event attendance in event-based social network
CN109921939B (zh) 一种通信网络中关键节点的选取方法及系统
CN103279512A (zh) 利用社会网络上最有影响力节点实现高效病毒营销的方法
Zhang et al. Alleviating new user cold-start in user-based collaborative filtering via bipartite network
CN107566249B (zh) 一种训练用于预测社交网络用户转发消息的模型的方法
CN113850446B (zh) 融合时空注意力和异构图卷积网络的信息扩散预测方法
Boutsis et al. Personalized event recommendations using social networks
Chin et al. Who should I add as a" friend"? A study of friend recommendations using proximity and homophily
Wang et al. Bayesian cognitive trust model based self-clustering algorithm for MANETs
CN114928548A (zh) 一种社交网络信息传播规模预测方法及装置
Li et al. Social network user influence dynamics prediction
Bródka A method for group extraction and analysis in multilayer social networks
CN103198432A (zh) 在线社会网络中网络群体的检测方法及系统
Xia et al. Characterization of user online dating behavior and preference on a large online dating site
Li et al. Routing algorithm based on triangular fuzzy layer model and multi‐layer clustering for opportunistic network
Rezaeipanah et al. Link prediction in social networks using the extraction of graph topological features
CN112256756B (zh) 一种基于三元关联图和知识表示的影响力发现方法
Richier et al. Predicting popularity dynamics of online contents using data filtering methods
Amara et al. Identifying i-bridge across online social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant