CN103763151A - 一种通信网络模拟数据生成方法 - Google Patents

一种通信网络模拟数据生成方法 Download PDF

Info

Publication number
CN103763151A
CN103763151A CN201410005380.8A CN201410005380A CN103763151A CN 103763151 A CN103763151 A CN 103763151A CN 201410005380 A CN201410005380 A CN 201410005380A CN 103763151 A CN103763151 A CN 103763151A
Authority
CN
China
Prior art keywords
centerdot
originator
communication network
gamma
liveness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410005380.8A
Other languages
English (en)
Other versions
CN103763151B (zh
Inventor
时金桥
柳厅文
李全刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201410005380.8A priority Critical patent/CN103763151B/zh
Publication of CN103763151A publication Critical patent/CN103763151A/zh
Application granted granted Critical
Publication of CN103763151B publication Critical patent/CN103763151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种通信网络模拟数据生成方法,包括获取一个通讯网络预定量的真实数据,并按预定规则划分为一系列网络快照,记为训练集G;依据活跃度等级对训练集G进行训练,得到通信网络的各个分布参数,其中活跃度等级为节点作为发信者在训练集的各快照中出现的频度;根据通信网络的分布参数随机生成一系列模拟快照G'n,构成所需的通信网络模拟数据;本发明通过引入活跃度这一隐含属性,提出一种线性的通信网络生成算法,利用已有的通信网络数据来快速生成大量模拟通信网络数据,同时能保证生成的模拟网络既能体现通信网络的宏观性质又可保留个体的通信行为特征。

Description

一种通信网络模拟数据生成方法
技术领域
本发明涉及通信网络、复杂网络、网络模拟等领域,尤其涉及一种通信网络模拟数据生成方法。
背景技术
通信网络是指人们之间的信息交流而形成的网络的统称,邮件通信网络、短信通信网络、电话通信网络等都是典型的通信网络。在现代社会中,通信网络已全面渗透到人们的日常生活中,通信网络中包含了人们日常作息时间、工作生活习惯、社交关系、工作性质等诸多十分有价值信息。
通信网络的规模大、时变性强的特点要求面向通信网络的研究需要以大量的真实数据做为研究基础。现实中的通信网络本身规模可能十分庞大,比如一个大型企业的邮件系统可能包含上万节点,大量的邮件通信记录;此外通信网络是典型的时变性网络,网络结构是随时间不断变化的。另一方面近期学术界面向大数据的技术研究及应用正如火如荼地开展,很多应用研究都是以大数据处理为基础的,因此在面向大规模通信网络的应用研究中需要有大量的实验数据作为支撑,进行系统设计调试、算法效率优化等工作。
虽然通信网络在日常生活中随处可见,但是缺乏可供研究用的大规模真实数据。由于用户个人隐私、管理权限、数据采集成本等诸多限制使得获取大量真实的通信网络数据对于绝大多数的研究者而言十分困难。如何获取大规模的实验数据成为开展后续研究的瓶颈,于是利用人工模拟的方法来生成实验数据就显得十分必要。
经典的网络生成模型如ER随机网络模型、WS小世界网络模型、BA无标度网络模型等主要从网络的拓扑结构层面来模拟真实网络的一些重要结构特征,如连通性、小世界性及节点度的幂率分布特性等,但这些模型仅某单一特征出发来对网络性质进行模拟。R-MAT与Kronecker Graph模型利用矩阵乘法迭代的方式来生成一个网络,可使生成的网络能够保留真实网络的数个特性。然而通过矩阵迭代的方式来生成模拟网络会造成网络中节点标签的丢失,使得生成网络与真实网络只能在网络宏观拓扑结构上保证是属于同一类型的网络,但是细节上不具备可比性,尤其是通信网络中无法判定网络中通信双方的身份,这会对后续工作造成极大的不利影响。
总体而言这类网络生成模型更多地是考虑网络的整体特征并没有充分考虑通信网络个体行为的特点,仅从宏观层面对网络数个特征进行模拟,不能很好地保留个体的特征,对于大部分研究而言其生成的模拟数据与真实数据相比信息丢失比较严重。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种通信网络模拟数据生成方法。
本发明解决上述技术问题的技术方案如下:一种通信网络模拟数据生成方法,包括如下步骤:
步骤1:获取一个通信网络预定量的真实数据,并按预定规则划分为一系列网络快照Gm(m=1,2…M),记为训练集G={G1,G2,…Gm,…GM};
步骤2:依据活跃度等级对训练集G进行训练,得到通信网络的各个分布参数,其中活跃度等级为通信网络中通信节点作为发信者在训练集的各快照中出现的频度;
步骤3:根据通信网络的分布参数随机生成一系列模拟快照G'n,构成所需的通信网络模拟数据。
本发明的有益效果是:本发明通过引入活跃度这一隐含属性,提出一种线性的通信网络生成算法,利用已有的通信网络数据来快速生成大量模拟通信网络数据,同时能保证生成的模拟网络既能体现通信网络的宏观性质又可保留个体的通信行为特征。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤2的具体实现为:
步骤2.1:统计训练集G中各网络快照包含的通信记录数量Nm(m=1,2…M),记N=(N1,N2,…Nm,…NM);设G中共有X个发信者,Y个收信者,记为发信者集S={S1,S2,…,SX},收信者集R={R1,R2,…,RY},发信者共划分为K个活跃度等级,标记各发信者Sx的活跃度等级
Figure BDA0000453623310000032
其中
Figure BDA0000453623310000033
记S中所有发信者的活跃度等级为 K s = ( K S 1 , K S 2 , · · · , K S X ) ;
步骤2.2:根据各发信者的活跃度等级Ks统计训练集G中各网络快照的各活跃度等级下的总发信数量,记为n=(n1,n2,…,nM);
步骤2.3:根据各发信者在训练集G中的总发信量统计训练集G中各活跃度等级下发信者的发信频度分布情况,记分布参数集为
Figure BDA0000453623310000031
步骤2.4:统计训练集G中每个发信者Sx(x=1,2,…,X)其对应的收信者集R的联系频度分布情况,分布参数为
Figure BDA0000453623310000035
记全体发信者所各自对应的联系人频度分布参数集为 γ s = ( γ S 1 , γ S 2 , · · · , γ S X ) ;
步骤2.5:根据G中各网络快照包含的通信记录数量N=(N1,N2,…,NM)拟合出通信网络的对数正态分布参数Θ;
步骤2.6:根据G中各网络快照包含的通信记录数量N及各网络快照的各活跃度等级下的总发信数量n,拟合出通信网络的狄利克雷分布参数α。
进一步,步骤3的具体实现为:
步骤3.1:预先设定待生成的模拟快照数量为L;
步骤3.2:利用分布参数Θ建立关于通信网络通信量的对数正态分布Log-Normal(Θ),对通信网络通信量的对数正态分布Log-Normal(Θ)进行一次随机抽样得到一个模拟快照G'n(n=1,2,…)的待生成通信记录数量,记为Nn;
步骤3.3:利用分布参数α建立关于通信网络各活跃度等级的狄利克雷分布Dir(α),对狄利克雷分布Dir(α)进行一次随机抽样,得到该模拟快照的发信者活跃度分布的参数,记为θ;
步骤3.4:根据该模拟快照的发信者活跃度多项式分布Mult(θ)、步骤2.3中各活跃度等级下发信者的发信频度分布参数集
Figure BDA0000453623310000041
和步骤2.4中全体发信者所各自对应的联系人频度分布参数集γS,进行随机抽样得到一条包含发信者和收信者的通信记录,且该模拟快照实际生成通信记录数量N'n加1;
步骤3.5:判断实际生成通信记录数量N'n是否等于该模拟快照的待生成通信记录数量Nn,如果不相等,则返回步骤3.3,如果相等,则实际生成模拟快照数量L′加1,执行步骤3.6;
步骤3.6:判断实际生成模拟快照数量L′与待生成模拟快照数量L是否相等,如果不相等,返回步骤3.2;如果相等,则结束。
进一步,步骤3.4的具体实现为:
步骤3.4.1:对该模拟快照的发信者活跃度多项式分布Mult(θ)进行一次随机抽样,得到该模拟快照某一活跃度等级k,并根据该活跃度等级在步骤2.3中各活跃度等级下发信者的发信频度分布参数集
Figure BDA0000453623310000042
中查找对应等级的发信者的发信频度分布的参数
Figure BDA0000453623310000043
步骤3.4.2:对该活跃度等级内发信者的频度分布
Figure BDA0000453623310000044
进行一次随机抽样,得到该活跃度等级内某一个发信者Sx
步骤3.4.3:根据该发信者在步骤2.4中全体发信者所各自对应的联系人频度分布参数集γS中查找其对应的联系人频度分布参数
Figure BDA0000453623310000045
步骤3.4.4:对该联系人频度的多项式分布
Figure BDA0000453623310000046
进行一次随机抽样,得到该发信者此次通信对应的某一收信者Ry,即产生了一条模拟通信记录(Sx,Ry)。
进一步,步骤2.2中训练集G的网络快照Gm,(m=1,2,…,M)中各活跃度等级的发信者数量nm=(nm1,nm2,…,nmK),则记
n = n 1 n 2 · · · n M = n 11 n 12 · · · n 1 K n 21 n 22 · · · n 2 K · · · · · · · · · · · · n M 1 n M 2 · · · n MK .
进一步,步骤2.3中统计训练集G中各活跃度等级下发信者发信频率分布情况的分布参数集
Figure BDA0000453623310000052
统计过程为:首先统计训练集G中每个活跃度等级k,(k=1,2,…K)下各个发信者的通信量,得到矩阵C,
C = C 11 C 12 · · · C 1 X C 21 C 22 · · · C 2 X · · · · · · · · · · · · C K 1 C k 2 · · · C KX
进而对其每行进行归一化处理,得到各活跃度等级下发信者分布情况的分布参数为,
Figure BDA0000453623310000054
进一步,步骤2.4中统计训练集G中每个发信者Sx其对应的收信者R及相应的联系频度分布情况的布参数
Figure BDA0000453623310000057
,统计过程为:首先统计训练集G中每个发信者的联系人集合及其与各联系人的通信次数,记为联系列表集D,
D = D 11 D 12 · · · D 1 Y D 21 D 22 · · · D 2 Y · · · · · · · · · · · · D X 1 D X 2 · · · D XY
将联系列表集每行进行归一化处理,得到全体发信者所各自对应的联系人频度分布参数集γS
γ s = γ S 1 γ S 2 · · · γ S X = γ 11 γ 12 · · · γ 1 Y γ 21 γ 22 · · · γ 2 Y · · · · · · · · · · · · γ X 1 γ X 2 · · · γ XY .
进一步,步骤2.5中根据各网络快照包含的通信记录数量Nm拟合出通信网络的对数正态分布参数Θ={μ,σ}的具体实现为:
其中,μ为对数正态分布的期望,σ为对数正态分布的标准差,计算公式如下,
μ = Σ m = 1 M ln N m M , σ 2 = Σ m = 1 M ( ln N m - μ ) 2 M
其中,Nm为第m个网络快照的通信记录数量,M为网络快照的个数。
进一步,步骤2.6中根据各网络快照包含的通信记录数量Nm及各网络快照的发信者活跃度分布参数n,拟合出通信网络的狄利克雷分布参数α的具体实现为:
α={α12,…αK},是一个K维向量,利用迭代算法计算α中的每个分量αk,k∈[1,K],计算公式如下:
α k i + 1 = α k i [ ( Σ m = 1 M Ψ ( n mk + α k i ) ) - MΨ ( α k i ) ] [ Σ m = 1 M Ψ ( N m + Σ k = 1 K α k i ) ] - MΨ ( Σ k = 1 K α k i )
其中,
Figure BDA0000453623310000063
为Digamma函数;
计算时可以取α第k个分量αk的初始值为
Figure BDA0000453623310000064
p k = Σ m = 1 M n mk Σ m = 1 M N m
迭代时,利用迭代误差来判断迭代的终止条件,具体为计算相邻两次迭代的欧几里德距离d(αjj+1),当d(αjj+1)≤δ时则停止迭代;
其中, α i = { α 1 i , α 2 i , · · · α K i } , α i + 1 = { α 1 i + 1 , α 2 i + 1 , · · · α K i + 1 } , δ为给定的阈值。
附图说明
图1为本发明本发明所述一种通信网络模拟生成方法流程图;
图2为本发明所述步骤2具体流程图;
图3为本发明所述步骤3具体流程图;
图4为本发明步骤3.3具体流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种通信网络模拟数据生成方法,包括如下步骤:
步骤1:获取一个通信网络预定量的真实数据,并按预定规则划分为一系列网络快照Gm(m=1,2…M),记为训练集G={G1,G2,…Gm,…GM};
步骤2:依据活跃度等级对训练集G进行训练,得到通信网络的各个分布参数,其中活跃度等级为通信网络中通信节点作为发信者在训练集的各快照中出现的频度;
步骤3:根据通信网络的分布参数随机生成一系列模拟快照G'n,构成所需的通信网络模拟数据。
如图2所示,步骤2.1:统计训练集G中各网络快照包含的通信记录数量Nm(m=1,2…M),记N=(N1,N2,…Nm,…NM);设G中共有X个发信者,Y个收信者,记为发信者集S={S1,S2,…,SX},收信者集R={R1,R2,…,RY},发信者共划分为K个活跃度等级,标记各发信者Sx的活跃度等级
其中
Figure BDA0000453623310000073
记S中所有发信者的活跃度等级为 K s = ( K S 1 , K S 2 , · · · , K S X ) ;
步骤2.2:根据各发信者的活跃度等级Ks统计训练集G中各网络快照的各活跃度等级下的总发信数量,记为n=(n1,n2,…,nM);
步骤2.3:根据各发信者在训练集G中的总发信量统计训练集G中各活跃度等级下发信者的发信频度分布情况,记分布参数集为
Figure BDA0000453623310000071
步骤2.4:统计训练集G中每个发信者Sx(x=1,2,…,X)其对应的收信者集R的联系频度分布情况,分布参数为
Figure BDA0000453623310000075
记全体发信者所各自对应的联系人频度分布参数集为 γ s = ( γ S 1 , γ S 2 , · · · , γ S X ) ;
步骤2.5:根据G中各网络快照包含的通信记录数量N=(N1,N2,…,NM)拟合出通信网络的对数正态分布参数Θ;
步骤2.6:根据G中各网络快照包含的通信记录数量N及各网络快照的各活跃度等级下的总发信数量n,拟合出通信网络的狄利克雷分布参数α。
如图3所示,步骤3的具体实现为:
步骤3.1:预先设定待生成的模拟快照数量为L;
步骤3.2:利用分布参数Θ建立关于通信网络通信量的对数正态分布Log-Normal(Θ),对通信网络通信量的对数正态分布Log-Normal(Θ)进行一次随机抽样得到一个模拟快照G'n(n=1,2,…)的待生成通信记录数量,记为Nn;
步骤3.3:利用分布参数α建立关于通信网络各活跃度等级的狄利克雷分布Dir(α),对狄利克雷分布Dir(α)进行一次随机抽样,得到该模拟快照的发信者活跃度分布的参数,记为θ;
步骤3.4:根据该模拟快照的发信者活跃度多项式分布Mult(θ)、步骤2.3中各活跃度等级下发信者的发信频度分布参数集
Figure BDA0000453623310000081
和步骤2.4中全体发信者所各自对应的联系人频度分布参数集γS,进行随机抽样得到一条包含发信者和收信者的通信记录,且该模拟快照实际生成通信记录数量N'n加1;
步骤3.5:判断实际生成通信记录数量N'n是否等于该模拟快照的待生成通信记录数量Nn,如果不相等,则返回步骤3.3,如果相等,则实际生成模拟快照数量L′加1,执行步骤3.6;
步骤3.6:判断实际生成模拟快照数量L′与待生成模拟快照数量L是否相等,如果不相等,返回步骤3.2;如果相等,则结束。
如图4所示,步骤3.4的具体实现为:
步骤3.4.1:对该模拟快照的发信者活跃度多项式分布Mult(θ)进行一次随机抽样,得到该模拟快照某一活跃度等级k,并根据该活跃度等级在步骤2.3中各活跃度等级下发信者的发信频度分布参数集
Figure BDA0000453623310000082
中查找对应等级的发信者的发信频度分布的参数
Figure BDA0000453623310000083
步骤3.4.2:对该活跃度等级内发信者的频度分布
Figure BDA0000453623310000084
进行一次随机抽样,得到该活跃度等级内某一个发信者Sx
步骤3.4.3:根据该发信者在步骤2.4中全体发信者所各自对应的联系人频度分布参数集γS中查找其对应的联系人频度分布参数
Figure BDA0000453623310000085
步骤3.4.4:对该联系人频度的多项式分布
Figure BDA0000453623310000091
进行一次随机抽样,得到该发信者此次通信对应的某一收信者Ry,即产生了一条模拟通信记录(Sx,Ry)。
下面以一个具体实例介绍本发明的实现过程。
步骤1:获取一定量的通讯网络真实数据,并按预定规则划分为一系列网络快照Gm(m=1、2.。。M),记为训练集G={G1,G2…Gm…GM};
本实施例中选取训练集G={G1,G2,G3,G4,G5},下面是5个快照
G1:(a,b)、(a,c)、(a,d)、(b,d)
G2:(b,a)、(b,a)、(a,b)
G3:(c,a)、(c,e)、(e,a)、(b,g)、(b,g)、(a,b)
G4:(b,f)、(f,a)、(d,c)、(a,d)
G5:(c,e)、(d,a)、(a,g)
其中,(a,b)代表由发信者a发送给收信者b的一条通信记录,20条边,共有7个节点{a,b,c,d,e,f,g}
步骤2:依据活跃度等级对训练集G进行训练,得到通信网络的各个分布参数,其中活跃度等级为节点作为发信者在训练集的各快照中出现的频度;本实施例中将活跃度等级K设置为与网络快照数量相等,即K=M=5。
步骤2.1:统计训练集G中各网络快照包含的通信记录数量Nm(m=1,2…M),N=(N1,N2,…Nm,…NM)及各发信者Sx的活跃度等级
Figure BDA0000453623310000092
其中
Figure BDA0000453623310000093
记S中所有发信者的活跃度等级为 K s = ( K S 1 , K S 2 , · · · , K S X ) ;
本实施例中N={4,3,6,4,3},KS={a:5,b:4,c:2,d:2,e:1,f:1};上式说明节点a在5个快照中都作为发信者出现过,其活跃度等级为5,节点b在4个快照中作为发信者出现过,其活跃度等级为4。
步骤2.2:根据各发信者的活跃度等级Ks统计训练集G中各网络快照的各活跃度等级下的总发信数量,记为n=(n1,n2,…,nM); n = n 1 n 2 n 3 n 4 n 5 = 0 0 0 1 3 0 0 0 2 1 1 2 0 2 1 1 1 0 1 1 0 2 0 0 1 = n 1 : { 0,0,0,1,3 } , n 2 : { 0,0,0,2,1 } , n 3 : { 1,2,0,2,1 } , n 4 : { 1,1,0,1,1 } , n 5 : { 0,2,0,0,1 } 上式说明在第一个网络快照中处于1至5活跃度等级的节点发信总量分别为0,0,0,1,3,第二个网络快照中处于1至5活跃度等级的节点发信总量分别为0,0,0,2,1。
步骤2.3:根据各发信者在训练集G中的总发信量统计训练集G中各活跃度等级下发信者的发信频度分布情况,记分布参数集为
Figure BDA0000453623310000102
其统计过程为:首先统计训练集G中每个活跃度等级k,(k=1,2,…,K)下各个发信者的通信量,得到矩阵C,
C = C 11 C 12 · · · C 1 X C 21 C 22 · · · C 2 X · · · · · · · · · · · · C K 1 C k 2 · · · C KX
进而对其每行进行归一化处理,得到各活跃度等级下发信者分布情况的分布参数为,
Figure BDA0000453623310000104
本实施例中 C = 0 0 0 0 1 1 0 0 3 2 0 0 0 0 0 0 0 0 0 6 0 0 0 0 7 0 0 0 0 0 = 1 : { e : 1 , f : 1 } , 2 : { c : 3 , d : 2 } , 3 : { } 4 : { b : 6 } , 5 : { a : 7 } , 上式说明第一活跃度等级中,有两个发信者,分别是e和f,其中e在整个训练集G中的总发信量为1,f的总发信量为1;第二活跃度等级中有两个发信者,分别为c和d,其中,c在整个训练集G中的总发信量为3,d的总发信量为2,第三活跃度等级中没有发信者。
对上式进行归一化处理得到
Figure BDA0000453623310000111
步骤2.4:统计训练集G中每个发信者Sx(x=1,2,…,X)其对应的收信者集R的联系频度分布情况,分布参数为
Figure BDA0000453623310000116
记全体发信者所各自对应的联系人频度分布参数集为
Figure BDA0000453623310000117
其统计过程为:首先统计训练集G中每个发信者的联系人集合及其与各联系人的通信次数,记为联系列表集D,
D = D 11 D 12 · · · D 1 Y D 21 D 22 · · · D 2 Y · · · · · · · · · · · · D X 1 D X 2 · · · D XY
将联系列表集每行进行归一化处理,得到全体发信者所各自对应的联系人频度分布参数集γS
γ s = γ S 1 γ S 2 · · · γ S X = γ 11 γ 12 · · · γ 1 Y γ 21 γ 22 · · · γ 2 Y · · · · · · · · · · · · γ X 1 γ X 2 · · · γ XY .
本实施例中, D = 0 3 1 2 0 0 1 2 0 0 1 0 1 2 1 0 0 0 2 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 = a : { b : 3 , c : 1 , d : 2 , g : 1 } , b : { a : 2 , d : 1 , f : 1 , g : 2 } , c : { a : 1 , e : 2 } , d : { a : 1 , c : 1 } , e : { a : 1 } , f : { a : 1 } , , 上式说明:a:{b:3,c:1,d:2,g:1}表示发信者a共有b、c、d、g四位联系人,其中b收到过3次a发来的信件,c收到过一次,d收到过2次,g收到过1次;a总共发送过7封邮件。
对其进行归一化处理得到,
γ = γ 1 γ 2 γ 3 γ 4 γ 5 = 0 0.43 0.14 0.29 0 0 0.14 0.33 0 0 0.17 0 0.17 0.33 0.34 0 0 0 0.66 0 0 0.5 0 0.5 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 = γ a : { b : 0.43 , c : 0.14 , d : 0.29 , g : 0.14 } , γ b : { a : 0.33 , d : 0.17 , f : 0.17 . g : 0.33 } , γ c : a : 0.34 , e : 0.66 } , γ d : { a : 0.5 , c : 0.5 } , γ e : { a : 1 } , γ f : { a : 1 } ,
步骤2.5:根据G中各网络快照包含的通信记录数量N=(N1,N2,…,NM)拟合出通信网络的对数正态分布参数Θ,其具体实现为;
其中,μ为对数正态分布的期望,σ为对数正态分布的标准差,计算公式如下,
μ = Σ m = 1 M ln N m M , σ 2 = Σ m = 1 M ( ln N m - μ ) 2 M
其中,Nm为第m个网络快照的通信记录数量,M为网络快照的个数。
本实施例中N={4,3,6,4,3},M=5, μ = Σ m = 1 M ln N m M , σ 2 = Σ m = 1 M ( ln N m - μ ) 2 M , 计算得到Θ={μ,σ}={1.35,0.25}
步骤2.6:根据G中各网络快照包含的通信记录数量N及各网络快照的各活跃度等级下的总发信数量n,拟合出通信网络的狄利克雷分布参数α,其具体实现为:
α={α12,…αK},是一个K维向量,利用迭代算法计算α中的每个分量αk,k∈[1,K],计算公式如下:
α k i + 1 = α k i [ ( Σ m = 1 M Ψ ( n mk + α k i ) ) - MΨ ( α k i ) ] [ Σ m = 1 M Ψ ( N m + Σ k = 1 K α k i ) ] - MΨ ( Σ k = 1 K α k i )
其中,
Figure BDA0000453623310000124
为Digamma函数;
计算时可以取α第k个分量αk的初始值为
Figure BDA0000453623310000125
p k = Σ m = 1 M n mk Σ m = 1 M N m
迭代时,利用迭代误差来判断迭代的终止条件,具体为计算相邻两次迭代的欧几里德距离d(αjj+1),当d(αjj+1)≤δ时则停止迭代;
其中, α i = { α 1 i , α 2 i , · · · α K i } , α i + 1 = { α 1 i + 1 , α 2 i + 1 , · · · α K i + 1 } , δ为给定的阈值。例如可取δ=10-4
本实施例中,N={4,3,6,4,3}、步骤2.2中的 n = n 1 n 2 n 3 n 4 n 5 = 0 0 0 1 3 0 0 0 2 1 1 2 0 2 1 1 1 0 1 1 0 2 0 0 1 = n 1 : { 0,0,0,1,3 } , n 2 : { 0,0,0,2,1 } , n 3 : { 1,2,0,2,1 } , n 4 : { 1,1,0,1,1 } , n 5 : { 0,2,0,0,1 } , 迭代时α初始值为
Figure BDA0000453623310000132
最终计算出α={49.9,124.4,0,149.4,174.3}。
步骤3:根据通信网络的分布参数随机生成一系列模拟快照G'n,构成所需的通信网络模拟数据。
步骤3.1:预先设定待生成的模拟快照数量为L;
步骤3.2:利用分布参数Θ建立关于通信网络通信量的对数正态分布Log-Normal(Θ),对通信网络通信量的对数正态分布Log-Normal(Θ)进行一次随机抽样得到一个模拟快照G'n(n=1,2,…)的待生成通信记录数量,记为Nn,本实施例中实施例中Nn=4;
步骤3.3:利用分布参数α建立关于通信网络各活跃度等级的狄利克雷分布Dir(α),对狄利克雷分布Dir(α)进行一次随机抽样,得到该模拟快照的发信者活跃度分布的参数,记为θ;
步骤3.4:根据该模拟快照的发信者活跃度多项式分布Mult(θ)、步骤2.3中各活跃度等级下发信者的发信频度分布参数集和步骤2.4中全体发信者所各自对应的联系人频度分布参数集γS,进行随机抽样得到一条包含发信者和收信者的通信记录,且该模拟快照实际生成通信记录数量N'n加1;
步骤3.5:判断实际生成通信记录数量N'n是否等于该模拟快照的待生成通信记录数量Nn,如果不相等,则返回步骤3.3,如果相等,则实际生成模拟快照数量L′加1,执行步骤3.6;
步骤3.6:判断实际生成模拟快照数量L′与待生成模拟快照数量L是否相等,如果不相等,返回步骤3.2;如果相等,则结束。
步骤3.4的具体实现如下。
步骤3.4.1:对该模拟快照的发信者活跃度多项式分布Mult(θ)进行一次随机抽样,得到该模拟快照某一活跃度等级k,并根据该活跃度等级在步骤2.3中各活跃度等级下发信者的发信频度分布参数集
Figure BDA0000453623310000141
中查找对应等级的发信者的发信频度分布的参数本实施例中为
Figure BDA0000453623310000143
将(0.6,0.4)作为多项式分布的参数;
步骤3.4.2:对该活跃度等级内发信者的频度分布
Figure BDA0000453623310000144
进行一次随机抽样,得到该活跃度等级内某一个发信者Sx,本实施例中为d;
步骤3.4.3:根据该发信者在步骤2.4中全体发信者所各自对应的联系人频度分布参数集γS中查找其对应的联系人频度分布参数γd={a:0.5,c:0.5},将(0.5,0.5)作为多项式分布参数;
步骤3.4.4:对该联系人频度的多项式分布
Figure BDA0000453623310000145
进行一次随机抽样,得到该发信者d对应的某一收信者,本实施例中为a,即产生了一条模拟通信记录(d,a)。
由于本实施例中改模拟快照的待生成通信记录数量为4,因此,要执行步骤3.3.1至步骤3.3.4共4次,才可生成该完整的模拟快照。
本实施例中如果待生成的模拟快照数量为L为10,则要执行步骤3.1至步骤3.5共10次,才可生成所有的模拟网络快照,构成所需的模拟通信网络。
其中,步骤3.2中得到一个模拟快照G'n(n=1,2,……)的待生成通信记录数量Nn时,采样结果要取整数,同时可以人为的过滤掉那些数量偏差十分大的值。比如我们的训练集快照边数量在[min,max]范围内,我们也可以限定抽样的取值在此范围内,或者不要偏离此范围过大
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种通信网络模拟数据生成方法,其特征在于,包括如下步骤:
步骤1:获取一个通信网络预定量的真实数据,并按预定规则划分为一系列网络快照Gm(m=1,2…M),记为训练集G={G1,G2,…Gm,…GM};
步骤2:依据活跃度等级对训练集G进行训练,得到通信网络的各个分布参数,其中活跃度等级为通信网络中通信节点作为发信者在训练集的各快照中出现的频度;
步骤3:根据通信网络的分布参数随机生成一系列模拟快照G'n,构成所需的通信网络模拟数据。
2.根据权利要求1所述一种通信网络模拟数据生成方法,其特征在于,步骤2的具体实现为:
步骤2.1:统计训练集G中各网络快照包含的通信记录数量Nm(m=1,2…M),记N=(N1,N2,…Nm,…NM);设G中共有X个发信者,Y个收信者,记为发信者集S={S1,S2,…,SX},收信者集R={R1,R2,…,RY},发信者共划分为K个活跃度等级,标记各发信者Sx的活跃度等级
Figure FDA0000453623300000012
其中
Figure FDA0000453623300000013
,记S中所有发信者的活跃度等级为 K s = ( K S 1 , K S 2 , · · · , K S X ) ;
步骤2.2:根据各发信者的活跃度等级Ks统计训练集G中各网络快照的各活跃度等级下的总发信数量,记为n=(n1,n2,…,nM);
步骤2.3:根据各发信者在训练集G中的总发信量统计训练集G中各活跃度等级下发信者的发信频度分布情况,记分布参数集为
Figure FDA0000453623300000011
步骤2.4:统计训练集G中每个发信者Sx(x=1,2,…,X)其对应的收信者集R的联系频度分布情况,分布参数为
Figure FDA0000453623300000015
,记全体发信者所各自对应的联系人频度分布参数集为 γ s = ( γ S 1 , γ S 2 , · · · , γ S X ) ;
步骤2.5:根据G中各网络快照包含的通信记录数量N=(N1,N2,…,NM)拟合出通信网络的对数正态分布参数Θ;
步骤2.6:根据G中各网络快照包含的通信记录数量N及各网络快照的各活跃度等级下的总发信数量n,拟合出通信网络的狄利克雷分布参数α。
3.根据权利要求2所述一种通信网络模拟数据生成方法,其特征在于,步骤3的具体实现为:
步骤3.1:预先设定待生成的模拟快照数量为L;
步骤3.2:利用分布参数Θ建立关于通信网络通信量的对数正态分布Log-Normal(Θ),对通信网络通信量的对数正态分布Log-Normal(Θ)进行一次随机抽样得到一个模拟快照G'n(n=1,2,…)的待生成通信记录数量,记为Nn;
步骤3.3:利用分布参数α建立关于通信网络各活跃度等级的狄利克雷分布Dir(α),对狄利克雷分布Dir(α)进行一次随机抽样,得到该模拟快照的发信者活跃度分布的参数,记为θ;
步骤3.4:根据该模拟快照的发信者活跃度多项式分布Mult(θ)、步骤2.3中各活跃度等级下发信者的发信频度分布参数集和步骤2.4中全体发信者所各自对应的联系人频度分布参数集γS,进行随机抽样得到一条包含发信者和收信者的通信记录,且该模拟快照实际生成通信记录数量N'n加1;
步骤3.5:判断实际生成通信记录数量N'n是否等于该模拟快照的待生成通信记录数量Nn,如果不相等,则返回步骤3.3,如果相等,则实际生成模拟快照数量L′加1,执行步骤3.6;
步骤3.6:判断实际生成模拟快照数量L′与待生成模拟快照数量L是否相等,如果不相等,返回步骤3.2;如果相等,则结束。
4.根据权利要求3所述一种通信网络模拟数据生成方法,其特征在于,步骤3.4的具体实现为:
步骤3.4.1:对该模拟快照的发信者活跃度多项式分布Mult(θ)进行一次随机抽样,得到该模拟快照某一活跃度等级k,并根据该活跃度等级在步骤2.3中各活跃度等级下发信者的发信频度分布参数集
Figure FDA0000453623300000021
中查找对应等级的发信者的发信频度分布的参数
Figure FDA0000453623300000031
步骤3.4.2:对该活跃度等级内发信者的频度分布
Figure FDA0000453623300000032
进行一次随机抽样,得到该活跃度等级内某一个发信者Sx
步骤3.4.3:根据该发信者在步骤2.4中全体发信者所各自对应的联系人频度分布参数集γS中查找其对应的联系人频度分布参数
Figure FDA0000453623300000037
步骤3.4.4:对该联系人频度的多项式分布
Figure FDA0000453623300000038
进行一次随机抽样,得到该发信者此次通信对应的某一收信者Ry,即产生了一条模拟通信记录(Sx,Ry)。
5.根据权利要求2所述一种通信网络模拟数据生成方法,其特征在于步骤2.2中训练集G的网络快照Gm,(m=1,2,…,M)中各活跃度等级的发信者数量nm=(nm1,nm2,…,nmK),则记
n = n 1 n 2 · · · n M = n 11 n 12 · · · n 1 K n 21 n 22 · · · n 2 K · · · · · · · · · · · · n M 1 n M 2 · · · n MK .
6.根据权利要求2所述一种通信网络模拟数据生成方法,其特征在于,步骤2.3中统计训练集G中各活跃度等级下发信者发信频率分布情况的分布参数集
Figure FDA0000453623300000034
统计过程为:首先统计训练集G中每个活跃度等级k,(k=1,2,…,K)下各个发信者的通信量,得到矩阵C,
C = C 11 C 12 · · · C 1 X C 21 C 22 · · · C 2 X · · · · · · · · · · · · C K 1 C k 2 · · · C KX
进而对其每行进行归一化处理,得到各活跃度等级下发信者分布情况的分布参数为,
Figure FDA0000453623300000036
7.根据权利要求2所述一种通信网络模拟数据生成方法,其特征在于,步骤2.4中统计训练集G中每个发信者Sx其对应的收信者R及相应的联系频度分布情况的布参数
Figure FDA0000453623300000045
统计过程为:首先统计训练集G中每个发信者的联系人集合及其与各联系人的通信次数,记为联系列表集D,
D = D 11 D 12 · · · D 1 Y D 21 D 22 · · · D 2 Y · · · · · · · · · · · · D X 1 D X 2 · · · D XY
将联系列表集每行进行归一化处理,得到全体发信者所各自对应的联系人频度分布参数集γS
γ s = γ S 1 γ S 2 · · · γ S X = γ 11 γ 12 · · · γ 1 Y γ 21 γ 22 · · · γ 2 Y · · · · · · · · · · · · γ X 1 γ X 2 · · · γ XY .
8.根据权利要求2所述一种通信网络模拟数据生成方法,其特征在于,步骤2.5中根据各网络快照包含的通信记录数量Nm拟合出通信网络的对数正态分布参数Θ={μ,σ}的具体实现为:
其中,μ为对数正态分布的期望,σ为对数正态分布的标准差,计算公式如下,
μ = Σ m = 1 M ln N m M , σ 2 = Σ m = 1 M ( ln N m - μ ) 2 M
其中,Nm为第m个网络快照的通信记录数量,M为网络快照的个数。
9.根据权利要求2所述一种通信网络模拟数据生成方法,其特征在于,步骤2.6中根据各网络快照包含的通信记录数量Nm及各网络快照的发信者活跃度分布参数n,拟合出通信网络的狄利克雷分布参数α的具体实现为:
α={α12,…αK},是一个K维向量,利用迭代算法计算α中的每个分量αk,k∈[1,K],计算公式如下:
α k i + 1 = α k i [ ( Σ m = 1 M Ψ ( n mk + α k i ) ) - MΨ ( α k i ) ] [ Σ m = 1 M Ψ ( N m + Σ k = 1 K α k i ) ] - MΨ ( Σ k = 1 K α k i )
其中,
Figure FDA0000453623300000051
为Digamma函数;
计算时可以取α第k个分量αk的初始值为
Figure FDA0000453623300000052
p k = Σ m = 1 M n mk Σ m = 1 M N m
迭代时,利用迭代误差来判断迭代的终止条件,具体为计算相邻两次迭代的欧几里德距离d(αjj+1),当d(αjj+1)≤δ时则停止迭代;
其中, α i = { α 1 i , α 2 i , · · · α K i } , α i + 1 = { α 1 i + 1 , α 2 i + 1 , · · · α K i + 1 } , δ为给定的阈值。
CN201410005380.8A 2014-01-06 2014-01-06 一种通信网络模拟数据生成方法 Active CN103763151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410005380.8A CN103763151B (zh) 2014-01-06 2014-01-06 一种通信网络模拟数据生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410005380.8A CN103763151B (zh) 2014-01-06 2014-01-06 一种通信网络模拟数据生成方法

Publications (2)

Publication Number Publication Date
CN103763151A true CN103763151A (zh) 2014-04-30
CN103763151B CN103763151B (zh) 2017-01-18

Family

ID=50530314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410005380.8A Active CN103763151B (zh) 2014-01-06 2014-01-06 一种通信网络模拟数据生成方法

Country Status (1)

Country Link
CN (1) CN103763151B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571400A (zh) * 2010-12-29 2012-07-11 中国移动通信集团设计院有限公司 一种通信网络资源模型的更新方法、系统及装置
US8296459B1 (en) * 2010-06-30 2012-10-23 Amazon Technologies, Inc. Custom routing decisions
US20130103373A1 (en) * 2011-10-21 2013-04-25 International Business Machines Corporation Online simulation model optimization
CN103336865A (zh) * 2013-06-26 2013-10-02 中国科学院信息工程研究所 一种动态通信网络构建方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8296459B1 (en) * 2010-06-30 2012-10-23 Amazon Technologies, Inc. Custom routing decisions
CN102571400A (zh) * 2010-12-29 2012-07-11 中国移动通信集团设计院有限公司 一种通信网络资源模型的更新方法、系统及装置
US20130103373A1 (en) * 2011-10-21 2013-04-25 International Business Machines Corporation Online simulation model optimization
CN103336865A (zh) * 2013-06-26 2013-10-02 中国科学院信息工程研究所 一种动态通信网络构建方法及装置

Also Published As

Publication number Publication date
CN103763151B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN105260474B (zh) 一种基于信息交互网络的微博用户影响力计算方法
CN103853821B (zh) 一种面向多用户协作的数据挖掘平台的构建方法
CN103870474A (zh) 一种新闻话题组织方法及装置
CN105184482B (zh) 一种变压器台账数据校验系统及其方法
CN108520365A (zh) 基于大数据分析的教育决策系统
CN106095921B (zh) 面向海量数据流的实时并行分类方法
CN106709192A (zh) 一种基于云物元模型的配电网三维仿真培训可信度评估方法
CN106296425A (zh) 基于带权重联合非负矩阵分解的属性图聚类方法及系统
CN106570763A (zh) 用户影响力评估的方法及系统
CN106228468A (zh) 一种潮汐流能发电场输出功率的概率模拟方法
CN106802958B (zh) Cad数据到gis数据的转换方法及系统
CN103678474B (zh) 一种在社交网络中快速获取大量热门话题的方法
CN104156440B (zh) 一种基于微博的交通数据获取方法
CN103763151A (zh) 一种通信网络模拟数据生成方法
CN107862384A (zh) 一种配电网负荷分类模型的建立方法
CN103793747A (zh) 网络内容安全管理中一种敏感信息模板构建方法
CN109871889A (zh) 突发事件下大众心理评估方法
Zhang et al. Intrusion detection method based on improved growing hierarchical self-organizing map
CN103336865B (zh) 一种动态通信网络构建方法及装置
CN102833085B (zh) 基于海量用户行为数据的通讯网络报文分类系统及方法
CN115081014A (zh) 一种基于联邦学习的目标检测标签自动标注方法
Zhu et al. A reconstructed event-based framework for analyzing community evolution
CN107122852A (zh) 一种基于pmf的微博用户兴趣预测方法
CN104123605B (zh) 一种电网生产数据及影响因子相关关系的挖掘方法
Yang et al. Privacy protection model considering privacy-utility trade-off for data publishing of weighted social networks based on MST-clustering and sub-graph generalization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant