CN103763151A

CN103763151A - 一种通信网络模拟数据生成方法

Info

Publication number: CN103763151A
Application number: CN201410005380.8A
Authority: CN
Inventors: 时金桥; 柳厅文; 李全刚
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-01-06
Filing date: 2014-01-06
Publication date: 2014-04-30
Anticipated expiration: 2034-01-06
Also published as: CN103763151B

Abstract

本发明涉及一种通信网络模拟数据生成方法，包括获取一个通讯网络预定量的真实数据，并按预定规则划分为一系列网络快照，记为训练集G；依据活跃度等级对训练集G进行训练，得到通信网络的各个分布参数，其中活跃度等级为节点作为发信者在训练集的各快照中出现的频度；根据通信网络的分布参数随机生成一系列模拟快照G'_n，构成所需的通信网络模拟数据；本发明通过引入活跃度这一隐含属性，提出一种线性的通信网络生成算法，利用已有的通信网络数据来快速生成大量模拟通信网络数据，同时能保证生成的模拟网络既能体现通信网络的宏观性质又可保留个体的通信行为特征。

Description

一种通信网络模拟数据生成方法

技术领域

本发明涉及通信网络、复杂网络、网络模拟等领域，尤其涉及一种通信网络模拟数据生成方法。

背景技术

通信网络是指人们之间的信息交流而形成的网络的统称，邮件通信网络、短信通信网络、电话通信网络等都是典型的通信网络。在现代社会中，通信网络已全面渗透到人们的日常生活中，通信网络中包含了人们日常作息时间、工作生活习惯、社交关系、工作性质等诸多十分有价值信息。

通信网络的规模大、时变性强的特点要求面向通信网络的研究需要以大量的真实数据做为研究基础。现实中的通信网络本身规模可能十分庞大，比如一个大型企业的邮件系统可能包含上万节点，大量的邮件通信记录；此外通信网络是典型的时变性网络，网络结构是随时间不断变化的。另一方面近期学术界面向大数据的技术研究及应用正如火如荼地开展，很多应用研究都是以大数据处理为基础的，因此在面向大规模通信网络的应用研究中需要有大量的实验数据作为支撑，进行系统设计调试、算法效率优化等工作。

虽然通信网络在日常生活中随处可见，但是缺乏可供研究用的大规模真实数据。由于用户个人隐私、管理权限、数据采集成本等诸多限制使得获取大量真实的通信网络数据对于绝大多数的研究者而言十分困难。如何获取大规模的实验数据成为开展后续研究的瓶颈，于是利用人工模拟的方法来生成实验数据就显得十分必要。

经典的网络生成模型如ER随机网络模型、WS小世界网络模型、BA无标度网络模型等主要从网络的拓扑结构层面来模拟真实网络的一些重要结构特征，如连通性、小世界性及节点度的幂率分布特性等，但这些模型仅某单一特征出发来对网络性质进行模拟。R-MAT与Kronecker Graph模型利用矩阵乘法迭代的方式来生成一个网络，可使生成的网络能够保留真实网络的数个特性。然而通过矩阵迭代的方式来生成模拟网络会造成网络中节点标签的丢失，使得生成网络与真实网络只能在网络宏观拓扑结构上保证是属于同一类型的网络，但是细节上不具备可比性，尤其是通信网络中无法判定网络中通信双方的身份，这会对后续工作造成极大的不利影响。

总体而言这类网络生成模型更多地是考虑网络的整体特征并没有充分考虑通信网络个体行为的特点，仅从宏观层面对网络数个特征进行模拟，不能很好地保留个体的特征，对于大部分研究而言其生成的模拟数据与真实数据相比信息丢失比较严重。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种通信网络模拟数据生成方法。

本发明解决上述技术问题的技术方案如下：一种通信网络模拟数据生成方法，包括如下步骤：

步骤1：获取一个通信网络预定量的真实数据，并按预定规则划分为一系列网络快照G_m(m=1,2…M)，记为训练集G={G₁,G₂,…G_m,…G_M}；

步骤2：依据活跃度等级对训练集G进行训练，得到通信网络的各个分布参数，其中活跃度等级为通信网络中通信节点作为发信者在训练集的各快照中出现的频度；

步骤3：根据通信网络的分布参数随机生成一系列模拟快照G'_n，构成所需的通信网络模拟数据。

本发明的有益效果是：本发明通过引入活跃度这一隐含属性，提出一种线性的通信网络生成算法，利用已有的通信网络数据来快速生成大量模拟通信网络数据，同时能保证生成的模拟网络既能体现通信网络的宏观性质又可保留个体的通信行为特征。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，步骤2的具体实现为：

步骤2.1：统计训练集G中各网络快照包含的通信记录数量N_m（m=1,2…M）,记N=(N₁,N₂,…N_m,…N_M)；设G中共有X个发信者，Y个收信者，记为发信者集S={S₁,S₂,…,S_X}，收信者集R={R₁,R₂,…,R_Y}，发信者共划分为K个活跃度等级，标记各发信者S_x的活跃度等级

其中

记S中所有发信者的活跃度等级为

K_{s} = (K_{S_{1}}, K_{S_{2}}, \cdot \cdot \cdot, K_{S_{X}});

步骤2.2：根据各发信者的活跃度等级K_s统计训练集G中各网络快照的各活跃度等级下的总发信数量，记为n=(n₁,n₂,…,n_M);

步骤2.3：根据各发信者在训练集G中的总发信量统计训练集G中各活跃度等级下发信者的发信频度分布情况，记分布参数集为

步骤2.4：统计训练集G中每个发信者S_x(x=1,2,…,X)其对应的收信者集R的联系频度分布情况，分布参数为

记全体发信者所各自对应的联系人频度分布参数集为

γ_{s} = (γ_{S_{1}}, γ_{S_{2}}, \cdot \cdot \cdot, γ_{S_{X}});

步骤2.5：根据G中各网络快照包含的通信记录数量N=(N₁,N₂,…,N_M)拟合出通信网络的对数正态分布参数Θ；

步骤2.6：根据G中各网络快照包含的通信记录数量N及各网络快照的各活跃度等级下的总发信数量n，拟合出通信网络的狄利克雷分布参数α。

进一步，步骤3的具体实现为：

步骤3.1：预先设定待生成的模拟快照数量为L；

步骤3.2：利用分布参数Θ建立关于通信网络通信量的对数正态分布Log-Normal(Θ)，对通信网络通信量的对数正态分布Log-Normal(Θ)进行一次随机抽样得到一个模拟快照G'_n（n=1,2,…）的待生成通信记录数量，记为N_n;

步骤3.3：利用分布参数α建立关于通信网络各活跃度等级的狄利克雷分布Dir(α)，对狄利克雷分布Dir(α)进行一次随机抽样，得到该模拟快照的发信者活跃度分布的参数，记为θ；

步骤3.4：根据该模拟快照的发信者活跃度多项式分布Mult(θ)、步骤2.3中各活跃度等级下发信者的发信频度分布参数集

和步骤2.4中全体发信者所各自对应的联系人频度分布参数集γ_S，进行随机抽样得到一条包含发信者和收信者的通信记录，且该模拟快照实际生成通信记录数量N'_n加1；

步骤3.5：判断实际生成通信记录数量N'_n是否等于该模拟快照的待生成通信记录数量N_n，如果不相等，则返回步骤3.3，如果相等，则实际生成模拟快照数量L′加1，执行步骤3.6；

步骤3.6：判断实际生成模拟快照数量L′与待生成模拟快照数量L是否相等，如果不相等，返回步骤3.2；如果相等，则结束。

进一步，步骤3.4的具体实现为：

步骤3.4.1：对该模拟快照的发信者活跃度多项式分布Mult(θ)进行一次随机抽样，得到该模拟快照某一活跃度等级k，并根据该活跃度等级在步骤2.3中各活跃度等级下发信者的发信频度分布参数集

中查找对应等级的发信者的发信频度分布的参数

步骤3.4.2：对该活跃度等级内发信者的频度分布

进行一次随机抽样，得到该活跃度等级内某一个发信者S_x；

步骤3.4.3：根据该发信者在步骤2.4中全体发信者所各自对应的联系人频度分布参数集γ_S中查找其对应的联系人频度分布参数

步骤3.4.4：对该联系人频度的多项式分布

进行一次随机抽样，得到该发信者此次通信对应的某一收信者R_y，即产生了一条模拟通信记录（S_x，R_y）。

进一步，步骤2.2中训练集G的网络快照G_m,(m=1,2,…,M)中各活跃度等级的发信者数量n_m=(n_m1,n_m2,…,n_mK)，则记

n = [\begin{matrix} n_{1} \\ n_{2} \\ \cdot \\ \cdot \\ \cdot \\ n_{M} \end{matrix}] = [\begin{matrix} n_{11} & n_{12} & \cdot \cdot \cdot & n_{1 K} \\ n_{21} & n_{22} & \cdot \cdot \cdot & n_{2 K} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ n_{M 1} & n_{M 2} & \cdot \cdot \cdot & n_{MK} \end{matrix}] .

进一步，步骤2.3中统计训练集G中各活跃度等级下发信者发信频率分布情况的分布参数集

统计过程为:首先统计训练集G中每个活跃度等级k,(k=1,2,…K)下各个发信者的通信量，得到矩阵C，

C = [\begin{matrix} C_{11} & C_{12} & \cdot \cdot \cdot & C_{1 X} \\ C_{21} & C_{22} & \cdot \cdot \cdot & C_{2 X} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ C_{K 1} & C_{k 2} & \cdot \cdot \cdot & C_{KX} \end{matrix}]

进而对其每行进行归一化处理，得到各活跃度等级下发信者分布情况的分布参数为，

进一步，步骤2.4中统计训练集G中每个发信者S_x其对应的收信者R及相应的联系频度分布情况的布参数

，统计过程为：首先统计训练集G中每个发信者的联系人集合及其与各联系人的通信次数，记为联系列表集D，

D = [\begin{matrix} D_{11} & D_{12} & \cdot \cdot \cdot & D_{1 Y} \\ D_{21} & D_{22} & \cdot \cdot \cdot & D_{2 Y} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ D_{X 1} & D_{X 2} & \cdot \cdot \cdot & D_{XY} \end{matrix}]

将联系列表集每行进行归一化处理，得到全体发信者所各自对应的联系人频度分布参数集γ_S，

γ_{s} = [\begin{matrix} γ_{S_{1}} \\ γ_{S_{2}} \\ \cdot \\ \cdot \\ \cdot \\ γ_{S_{X}} \end{matrix}] = [\begin{matrix} γ_{11} & γ_{12} & \cdot \cdot \cdot & γ_{1 Y} \\ γ_{21} & γ_{22} & \cdot \cdot \cdot & γ_{2 Y} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ γ_{X 1} & γ_{X 2} & \cdot \cdot \cdot & γ_{XY} \end{matrix}] .

进一步，步骤2.5中根据各网络快照包含的通信记录数量N_m拟合出通信网络的对数正态分布参数Θ={μ,σ}的具体实现为：

其中，μ为对数正态分布的期望，σ为对数正态分布的标准差，计算公式如下，

μ = \frac{Σ_{m = 1}^{M} \ln N_{m}}{M}, σ^{2} = \frac{Σ_{m = 1}^{M} {(\ln N_{m} - μ)}^{2}}{M}

其中，N_m为第m个网络快照的通信记录数量，M为网络快照的个数。

进一步，步骤2.6中根据各网络快照包含的通信记录数量N_m及各网络快照的发信者活跃度分布参数n，拟合出通信网络的狄利克雷分布参数α的具体实现为：

α={α₁,α₂,…α_K}，是一个K维向量，利用迭代算法计算α中的每个分量α_k,k∈[1,K]，计算公式如下：

α_{k}^{i + 1} = \frac{α_{k}^{i} [(Σ_{m = 1}^{M} Ψ (n_{mk} + α_{k}^{i})) - MΨ (α_{k}^{i})]}{[Σ_{m = 1}^{M} Ψ (N_{m} + Σ_{k = 1}^{K} α_{k}^{i})] - MΨ (Σ_{k = 1}^{K} α_{k}^{i})}

其中，

为Digamma函数；

计算时可以取α第k个分量α_k的初始值为

p_{k} = \frac{Σ_{m = 1}^{M} n_{mk}}{Σ_{m = 1}^{M} N_{m}}

迭代时，利用迭代误差来判断迭代的终止条件，具体为计算相邻两次迭代的欧几里德距离d(α^j,α^j+1)，当d(α^j,α^j+1)≤δ时则停止迭代；

其中，

α^{i} = {α_{1}^{i}, α_{2}^{i}, \cdot \cdot \cdot α_{K}^{i}},

α^{i + 1} = {α_{1}^{i + 1}, α_{2}^{i + 1}, \cdot \cdot \cdot α_{K}^{i + 1}},

δ为给定的阈值。

附图说明

图1为本发明本发明所述一种通信网络模拟生成方法流程图；

图2为本发明所述步骤2具体流程图；

图3为本发明所述步骤3具体流程图；

图4为本发明步骤3.3具体流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种通信网络模拟数据生成方法，包括如下步骤：

如图2所示，步骤2.1：统计训练集G中各网络快照包含的通信记录数量N_m（m=1,2…M）,记N=(N₁,N₂,…N_m,…N_M)；设G中共有X个发信者，Y个收信者，记为发信者集S={S₁,S₂,…,S_X}，收信者集R={R₁,R₂,…,R_Y}，发信者共划分为K个活跃度等级，标记各发信者S_x的活跃度等级

其中

记S中所有发信者的活跃度等级为

K_{s} = (K_{S_{1}}, K_{S_{2}}, \cdot \cdot \cdot, K_{S_{X}});

记全体发信者所各自对应的联系人频度分布参数集为

γ_{s} = (γ_{S_{1}}, γ_{S_{2}}, \cdot \cdot \cdot, γ_{S_{X}});

如图3所示，步骤3的具体实现为：

步骤3.1：预先设定待生成的模拟快照数量为L；

如图4所示，步骤3.4的具体实现为：

中查找对应等级的发信者的发信频度分布的参数

步骤3.4.2：对该活跃度等级内发信者的频度分布

进行一次随机抽样，得到该活跃度等级内某一个发信者S_x；

步骤3.4.4：对该联系人频度的多项式分布

下面以一个具体实例介绍本发明的实现过程。

步骤1：获取一定量的通讯网络真实数据，并按预定规则划分为一系列网络快照G_m(m=1、2.。。M)，记为训练集G={G1,G2…Gm…GM}；

本实施例中选取训练集G={G1,G2,G3,G4,G5}，下面是5个快照

G1：(a,b)、(a，c)、(a,d)、(b,d)

G2：(b,a)、（b,a）、(a,b)

G3：(c,a)、（c,e）、(e,a)、(b,g)、(b,g)、(a,b)

G4：(b,f)、(f,a)、(d,c)、(a,d)

G5：(c,e)、(d,a)、(a,g)

其中，（a,b）代表由发信者a发送给收信者b的一条通信记录，20条边，共有7个节点｛a,b,c,d,e,f,g｝

步骤2：依据活跃度等级对训练集G进行训练，得到通信网络的各个分布参数，其中活跃度等级为节点作为发信者在训练集的各快照中出现的频度；本实施例中将活跃度等级K设置为与网络快照数量相等，即K=M=5。

步骤2.1：统计训练集G中各网络快照包含的通信记录数量N_m（m=1,2…M）,N=(N₁,N₂,…N_m,…N_M)及各发信者S_x的活跃度等级

其中

记S中所有发信者的活跃度等级为

K_{s} = (K_{S_{1}}, K_{S_{2}}, \cdot \cdot \cdot, K_{S_{X}});

本实施例中N=｛4，3，6，4，3｝，K_S=｛a:5,b:4,c:2,d:2,e:1,f:1｝;上式说明节点a在5个快照中都作为发信者出现过，其活跃度等级为5，节点b在4个快照中作为发信者出现过，其活跃度等级为4。

n = [\begin{matrix} n_{1} \\ n_{2} \\ n_{3} \\ n_{4} \\ n_{5} \end{matrix}] = [\begin{matrix} 0 & 0 & 0 & 1 & 3 \\ 0 & 0 & 0 & 2 & 1 \\ 1 & 2 & 0 & 2 & 1 \\ 1 & 1 & 0 & 1 & 1 \\ 0 & 2 & 0 & 0 & 1 \end{matrix}] = [\begin{matrix} n_{1} : {0,0,0,1,3}, \\ n_{2} : {0,0,0,2,1}, \\ n_{3} : {1,2,0,2,1}, \\ n_{4} : {1,1,0,1,1}, \\ n_{5} : {0,2,0,0,1} \end{matrix}]

上式说明在第一个网络快照中处于1至5活跃度等级的节点发信总量分别为0,0,0，1,3，第二个网络快照中处于1至5活跃度等级的节点发信总量分别为0,0,0,2,1。

其统计过程为:首先统计训练集G中每个活跃度等级k,(k=1,2,…,K)下各个发信者的通信量，得到矩阵C，

C = [\begin{matrix} C_{11} & C_{12} & \cdot \cdot \cdot & C_{1 X} \\ C_{21} & C_{22} & \cdot \cdot \cdot & C_{2 X} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ C_{K 1} & C_{k 2} & \cdot \cdot \cdot & C_{KX} \end{matrix}]

本实施例中

C = [\begin{matrix} 0 & 0 & 0 & 0 & 1 & 1 \\ 0 & 0 & 3 & 2 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 6 & 0 & 0 & 0 & 0 \\ 7 & 0 & 0 & 0 & 0 & 0 \end{matrix}] = [\begin{matrix} 1 : {e : 1, f : 1}, \\ 2 : {c : 3, d : 2}, \\ 3 : {} \\ 4 : {b : 6}, \\ 5 : {a : 7} \end{matrix}],

上式说明第一活跃度等级中，有两个发信者，分别是e和f，其中e在整个训练集G中的总发信量为1，f的总发信量为1；第二活跃度等级中有两个发信者，分别为c和d,其中，c在整个训练集G中的总发信量为3，d的总发信量为2，第三活跃度等级中没有发信者。

对上式进行归一化处理得到

记全体发信者所各自对应的联系人频度分布参数集为

其统计过程为：首先统计训练集G中每个发信者的联系人集合及其与各联系人的通信次数，记为联系列表集D，

D = [\begin{matrix} D_{11} & D_{12} & \cdot \cdot \cdot & D_{1 Y} \\ D_{21} & D_{22} & \cdot \cdot \cdot & D_{2 Y} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ D_{X 1} & D_{X 2} & \cdot \cdot \cdot & D_{XY} \end{matrix}]

γ_{s} = [\begin{matrix} γ_{S_{1}} \\ γ_{S_{2}} \\ \cdot \\ \cdot \\ \cdot \\ γ_{S_{X}} \end{matrix}] = [\begin{matrix} γ_{11} & γ_{12} & \cdot \cdot \cdot & γ_{1 Y} \\ γ_{21} & γ_{22} & \cdot \cdot \cdot & γ_{2 Y} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ γ_{X 1} & γ_{X 2} & \cdot \cdot \cdot & γ_{XY} \end{matrix}] .

本实施例中，

D = [\begin{matrix} 0 & 3 & 1 & 2 & 0 & 0 & 1 \\ 2 & 0 & 0 & 1 & 0 & 1 & 2 \\ 1 & 0 & 0 & 0 & 2 & 0 & 0 \\ 1 & 0 & 1 & 0 & 0 & 0 & 0 \\ 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 0 & 0 & 0 & 0 & 0 & 0 \end{matrix}] = [\begin{matrix} a : {b : 3, c : 1, d : 2, g : 1}, \\ b : {a : 2, d : 1, f : 1, g : 2}, \\ c : {a : 1, e : 2}, \\ d : {a : 1, c : 1}, \\ e : {a : 1}, \\ f : {a : 1}, \end{matrix}],

上式说明：a:{b:3,c:1,d:2,g:1}表示发信者a共有b、c、d、g四位联系人，其中b收到过3次a发来的信件，c收到过一次，d收到过2次，g收到过1次；a总共发送过7封邮件。

对其进行归一化处理得到，

γ = [\begin{matrix} γ_{1} \\ γ_{2} \\ γ_{3} \\ γ_{4} \\ γ_{5} \end{matrix}] = [\begin{matrix} 0 & 0.43 & 0.14 & 0.29 & 0 & 0 & 0.14 \\ 0.33 & 0 & 0 & 0.17 & 0 & 0.17 & 0.33 \\ 0.34 & 0 & 0 & 0 & 0.66 & 0 & 0 \\ 0.5 & 0 & 0.5 & 0 & 0 & 0 & 0 \\ 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 0 & 0 & 0 & 0 & 0 & 0 \end{matrix}] = [\begin{matrix} γ_{a} : {b : 0.43, c : 0.14, d : 0.29, g : 0.14}, \\ γ_{b} : {a : 0.33, d : 0.17, f : 0.17 . g : 0.33}, \\ γ_{c} : a : 0.34, e : 0.66}, \\ γ_{d} : {a : 0.5, c : 0.5}, \\ γ_{e} : {a : 1}, \\ γ_{f} : {a : 1}, \end{matrix}]

步骤2.5：根据G中各网络快照包含的通信记录数量N=(N₁,N₂,…,N_M)拟合出通信网络的对数正态分布参数Θ，其具体实现为；

μ = \frac{Σ_{m = 1}^{M} \ln N_{m}}{M}, σ^{2} = \frac{Σ_{m = 1}^{M} {(\ln N_{m} - μ)}^{2}}{M}

本实施例中N=｛4，3，6，4，3｝，M=5，

μ = \frac{Σ_{m = 1}^{M} \ln N_{m}}{M}, σ^{2} = \frac{Σ_{m = 1}^{M} {(\ln N_{m} - μ)}^{2}}{M},

计算得到Θ={μ,σ}={1.35,0.25}

步骤2.6：根据G中各网络快照包含的通信记录数量N及各网络快照的各活跃度等级下的总发信数量n，拟合出通信网络的狄利克雷分布参数α，其具体实现为：

α_{k}^{i + 1} = \frac{α_{k}^{i} [(Σ_{m = 1}^{M} Ψ (n_{mk} + α_{k}^{i})) - MΨ (α_{k}^{i})]}{[Σ_{m = 1}^{M} Ψ (N_{m} + Σ_{k = 1}^{K} α_{k}^{i})] - MΨ (Σ_{k = 1}^{K} α_{k}^{i})}

其中，

为Digamma函数；

计算时可以取α第k个分量α_k的初始值为

p_{k} = \frac{Σ_{m = 1}^{M} n_{mk}}{Σ_{m = 1}^{M} N_{m}}

其中，

α^{i} = {α_{1}^{i}, α_{2}^{i}, \cdot \cdot \cdot α_{K}^{i}},

α^{i + 1} = {α_{1}^{i + 1}, α_{2}^{i + 1}, \cdot \cdot \cdot α_{K}^{i + 1}},

δ为给定的阈值。例如可取δ=10^-4。

本实施例中，N=｛4，3，6，4，3｝、步骤2.2中的

n = [\begin{matrix} n_{1} \\ n_{2} \\ n_{3} \\ n_{4} \\ n_{5} \end{matrix}] = [\begin{matrix} 0 & 0 & 0 & 1 & 3 \\ 0 & 0 & 0 & 2 & 1 \\ 1 & 2 & 0 & 2 & 1 \\ 1 & 1 & 0 & 1 & 1 \\ 0 & 2 & 0 & 0 & 1 \end{matrix}] = [\begin{matrix} n_{1} : {0,0,0,1,3}, \\ n_{2} : {0,0,0,2,1}, \\ n_{3} : {1,2,0,2,1}, \\ n_{4} : {1,1,0,1,1}, \\ n_{5} : {0,2,0,0,1} \end{matrix}],

迭代时α初始值为

最终计算出α={49.9,124.4,0,149.4,174.3}。

步骤3：根据通信网络的分布参数随机生成一系列模拟快照G'n，构成所需的通信网络模拟数据。

步骤3.1：预先设定待生成的模拟快照数量为L；

步骤3.2：利用分布参数Θ建立关于通信网络通信量的对数正态分布Log-Normal(Θ)，对通信网络通信量的对数正态分布Log-Normal(Θ)进行一次随机抽样得到一个模拟快照G'_n（n=1,2,…）的待生成通信记录数量，记为N_n，本实施例中实施例中N_n=4;

步骤3.4：根据该模拟快照的发信者活跃度多项式分布Mult(θ)、步骤2.3中各活跃度等级下发信者的发信频度分布参数集和步骤2.4中全体发信者所各自对应的联系人频度分布参数集γ_S，进行随机抽样得到一条包含发信者和收信者的通信记录，且该模拟快照实际生成通信记录数量N'_n加1；

步骤3.4的具体实现如下。

中查找对应等级的发信者的发信频度分布的参数本实施例中为

将（0.6,0.4）作为多项式分布的参数；

步骤3.4.2：对该活跃度等级内发信者的频度分布

进行一次随机抽样，得到该活跃度等级内某一个发信者S_x，本实施例中为d；

步骤3.4.3：根据该发信者在步骤2.4中全体发信者所各自对应的联系人频度分布参数集γ_S中查找其对应的联系人频度分布参数γ_d={a:0.5,c:0.5}，将（0.5,0.5）作为多项式分布参数；

步骤3.4.4：对该联系人频度的多项式分布

进行一次随机抽样，得到该发信者d对应的某一收信者，本实施例中为a,即产生了一条模拟通信记录（d，a）。

由于本实施例中改模拟快照的待生成通信记录数量为4，因此，要执行步骤3.3.1至步骤3.3.4共4次，才可生成该完整的模拟快照。

本实施例中如果待生成的模拟快照数量为L为10，则要执行步骤3.1至步骤3.5共10次，才可生成所有的模拟网络快照，构成所需的模拟通信网络。

其中，步骤3.2中得到一个模拟快照G'_n（n=1,2,……）的待生成通信记录数量N_n时，采样结果要取整数，同时可以人为的过滤掉那些数量偏差十分大的值。比如我们的训练集快照边数量在[min,max]范围内，我们也可以限定抽样的取值在此范围内，或者不要偏离此范围过大

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通信网络模拟数据生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种通信网络模拟数据生成方法，其特征在于，步骤2的具体实现为：

，

其中

，记S中所有发信者的活跃度等级为

K_{s} = (K_{S_{1}}, K_{S_{2}}, \cdot \cdot \cdot, K_{S_{X}});

，记全体发信者所各自对应的联系人频度分布参数集为

γ_{s} = (γ_{S_{1}}, γ_{S_{2}}, \cdot \cdot \cdot, γ_{S_{X}});

3.根据权利要求2所述一种通信网络模拟数据生成方法，其特征在于，步骤3的具体实现为：

步骤3.1：预先设定待生成的模拟快照数量为L；

4.根据权利要求3所述一种通信网络模拟数据生成方法，其特征在于，步骤3.4的具体实现为：

中查找对应等级的发信者的发信频度分布的参数

步骤3.4.2：对该活跃度等级内发信者的频度分布

进行一次随机抽样，得到该活跃度等级内某一个发信者S_x；

步骤3.4.4：对该联系人频度的多项式分布

5.根据权利要求2所述一种通信网络模拟数据生成方法，其特征在于步骤2.2中训练集G的网络快照G_m,(m=1,2,…,M)中各活跃度等级的发信者数量n_m=(n_m1,n_m2,…,n_mK)，则记

n = [\begin{matrix} n_{1} \\ n_{2} \\ \cdot \\ \cdot \\ \cdot \\ n_{M} \end{matrix}] = [\begin{matrix} n_{11} & n_{12} & \cdot \cdot \cdot & n_{1 K} \\ n_{21} & n_{22} & \cdot \cdot \cdot & n_{2 K} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ n_{M 1} & n_{M 2} & \cdot \cdot \cdot & n_{MK} \end{matrix}] .

6.根据权利要求2所述一种通信网络模拟数据生成方法，其特征在于，步骤2.3中统计训练集G中各活跃度等级下发信者发信频率分布情况的分布参数集

统计过程为:首先统计训练集G中每个活跃度等级k,(k=1,2,…,K)下各个发信者的通信量，得到矩阵C，

C = [\begin{matrix} C_{11} & C_{12} & \cdot \cdot \cdot & C_{1 X} \\ C_{21} & C_{22} & \cdot \cdot \cdot & C_{2 X} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ C_{K 1} & C_{k 2} & \cdot \cdot \cdot & C_{KX} \end{matrix}]

7.根据权利要求2所述一种通信网络模拟数据生成方法，其特征在于，步骤2.4中统计训练集G中每个发信者S_x其对应的收信者R及相应的联系频度分布情况的布参数

统计过程为：首先统计训练集G中每个发信者的联系人集合及其与各联系人的通信次数，记为联系列表集D，

D = [\begin{matrix} D_{11} & D_{12} & \cdot \cdot \cdot & D_{1 Y} \\ D_{21} & D_{22} & \cdot \cdot \cdot & D_{2 Y} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ D_{X 1} & D_{X 2} & \cdot \cdot \cdot & D_{XY} \end{matrix}]

γ_{s} = [\begin{matrix} γ_{S_{1}} \\ γ_{S_{2}} \\ \cdot \\ \cdot \\ \cdot \\ γ_{S_{X}} \end{matrix}] = [\begin{matrix} γ_{11} & γ_{12} & \cdot \cdot \cdot & γ_{1 Y} \\ γ_{21} & γ_{22} & \cdot \cdot \cdot & γ_{2 Y} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ γ_{X 1} & γ_{X 2} & \cdot \cdot \cdot & γ_{XY} \end{matrix}] .

8.根据权利要求2所述一种通信网络模拟数据生成方法，其特征在于，步骤2.5中根据各网络快照包含的通信记录数量N_m拟合出通信网络的对数正态分布参数Θ={μ,σ}的具体实现为：

μ = \frac{Σ_{m = 1}^{M} \ln N_{m}}{M}, σ^{2} = \frac{Σ_{m = 1}^{M} {(\ln N_{m} - μ)}^{2}}{M}

9.根据权利要求2所述一种通信网络模拟数据生成方法，其特征在于，步骤2.6中根据各网络快照包含的通信记录数量N_m及各网络快照的发信者活跃度分布参数n，拟合出通信网络的狄利克雷分布参数α的具体实现为：

α_{k}^{i + 1} = \frac{α_{k}^{i} [(Σ_{m = 1}^{M} Ψ (n_{mk} + α_{k}^{i})) - MΨ (α_{k}^{i})]}{[Σ_{m = 1}^{M} Ψ (N_{m} + Σ_{k = 1}^{K} α_{k}^{i})] - MΨ (Σ_{k = 1}^{K} α_{k}^{i})}

其中，

为Digamma函数；

计算时可以取α第k个分量α_k的初始值为

p_{k} = \frac{Σ_{m = 1}^{M} n_{mk}}{Σ_{m = 1}^{M} N_{m}}

其中，

α^{i} = {α_{1}^{i}, α_{2}^{i}, \cdot \cdot \cdot α_{K}^{i}},

α^{i + 1} = {α_{1}^{i + 1}, α_{2}^{i + 1}, \cdot \cdot \cdot α_{K}^{i + 1}},

δ为给定的阈值。