CN113052629A

CN113052629A - 基于cecu体系智能算法模型的网络用户画像方法

Info

Publication number: CN113052629A
Application number: CN202110260517.4A
Authority: CN
Inventors: 李瑶; 张俞佳; 黄雯静; 琚春华; 鲍福光
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-29
Anticipated expiration: 2041-03-10
Also published as: CN113052629B

Abstract

本发明公开了一种基于CECU体系智能算法模型的网络用户画像方法，包含：使用本地链接跨站点搜集用户信息并进行迭代更新信息；利用层次事务模型复制数据库中各数据项的多个一致性级别，将数据项划分为不同的类别；对放置在同一个站点上相互关联的数据项进行用户画像，并建立可视化模型；选取吞吐量参数U，开启动态调优模块进行用户模型离线优化及数据吞吐量升级。本发明使用本地链接跨站点搜集用户信息并进行迭代更新，借助一致性指数CI评估、Apriori支持度算法进行数据挖掘分类，减少通信延迟，调用动态调优板块进行数据优化，有效地解决了传统网络用户画像个性化程度不高，数据吞吐量严重受限的问题。

Description

基于CECU体系智能算法模型的网络用户画像方法

技术领域

本发明属于网络信息技术领域，特别涉及一种基于CECU体系智能算法模型的网络用户画像方法。

背景技术

在互联网信息技术的飞速发展和社会信息变革推动下，大数据时代成为我们现代社会的必然趋势，多样化的网络平台致力于挖掘和分析用户各方面的信息数据，用户画像则是基于特定使用情境下的每个网络用户行为数据挖掘、分析，从而建立起描述用户属性及其行为的标签集合。这种应运而生的用户画像方法，其意义不仅在于为网络用户建立个人数据信息库，更在于网络服务提供方针对性提供个性化服务。

发明内容

本发明提供了一种基于CECU体系智能算法模型的网络用户画像方法，采用如下的技术方案：

一种基于CECU体系智能算法模型的网络用户画像方法，包括以下步骤：

步骤1：使用本地链接跨站点搜集用户信息并进行迭代更新信息；

步骤2：利用层次事务模型，大规模复制数据库中各数据项的多个一致性级别，通过数据挖掘算法，根据一致性要求将数据项划分为不同的类别；

步骤3：基于行为信息的收集分类储存和数据挖掘分析，对放置在同一个站点上相互关联的数据项进行用户画像，并建立可视化模型；

步骤4：选取吞吐量参数U，开启动态调优模块进行用户模型离线优化及数据吞吐量升级。

进一步地，步骤2中，数据挖掘算法为Apriori算法。

进一步地，步骤2具体为：

步骤21：根据一致性要求，使用Apriori算法根据频繁数据项的支持度计算频繁数据项集，利用一致性指数CI对数据项和访问事务进行分类；

步骤22：在层次事务模型中，为每个事务及其关联数据项分配一致性级别；

步骤23：识别强相关数据项，建立频繁项数据集合之间的关联。

进一步地，步骤21具体为：

步骤211：使用50％的相对支持度，将数据库事务分为读事务集D_r和写事务集D_w；

步骤212：每个映射器接受数据库事务和一组数据项作为输入，为每个数据项生成一个支持计数的中间列表；

步骤213：组合器对来自多个映射器的结果进行调动和合并，并为每个数据项创建一组键值对，每个数据项的聚合值在这里被用作CI；

步骤214：减速器将作为CI的聚合值与给定的最小支持阈值进行比较，并输出最终的频繁数据项列表；

步骤215：根据该算法，最终分类结果为：当输入D_r时，返回值为freq_r，即归类为频繁读取数据项的集合，当输入D_w时，返回值为freq_w，即频繁更新数据项的集合，对于任意的数据项x_i∈I,

时，返回值为freq_rw，即既频繁读取也频繁更新数据项的集合，其余不满足最小支持阈值的数据项，返回值为infreq，即不频繁数据项集合；

步骤216：基于以上数据项分类，将读密集型事务归类为T_ri，写密集型事务归类为T_wi，读和写密集型的事务集归类为T_rwi，其余事务集归类为T_rem。

进一步地，步骤3具体为：

步骤31：对步骤2中已分类数据降维，采用主成分分析进行因子提取，得到特征因子；

步骤32：针对提取的特征因子，选取经典K-means聚类算法对所有数据样本进行聚类，建立用户组画像的类数；

步骤33：使用python中的word cloud包绘制一个可视化的用户标记云，直观地显示上述分析得到的用户画像聚类结果。

进一步地，步骤4具体为：

步骤41：将可实现的吞吐量U定义为以终端系统特征、网络特征、数据集和外部流量负载为属性的函数：

U＝f(p_o,p_d，b,τ，f_a，n，cc，p，pp，l_c)，

其中，给定源端点p_o和目标端点p_d，链路带宽为b，往返时间为τ，平均文件大小f_a，文件个数n，争用负载转移l_c以及参数的设置u^1/4fcc；p；ppg；

步骤42：使用对网络条件和数据集近乎最优的参数值来最大化数据传输吞吐量，优化问题为：

约束于：cc×p≤N_str；pp≤P；T≤b，其中，t_s和t_e分别为传输开始时间与传输结束时间，N_str和P是网络中允许的最大流水线值；

步骤43：在历史传输日志上调用动态调优模块，将结果存储在键值存储中；

步骤44：当用户启动一个传输进程时，启动一个有两个线程的主进程——传输线程、动态调优线程，传输过程收集当前网络信息并将其发送给离线分析模块，离线分析模块返回算法初始参数设置开始转移，动态调整线程定期检查网络环境；

步骤45：当动态优化模块检测到低吞吐量,它发送当前的网络状态给离线分析模块并获得新的参数作为当前状态；

步骤46：动态调整线程通知传输线程参数更新，传输线程使用新参数继续传输，在传输期间优化外部流量负载变化参数，当吞吐量下降时，将当前的网络状况再次发送给离线分析模块，循环进行以上步骤实现用户模型离线优化及数据吞吐量升级。

进一步地，步骤45具体为：

步骤451：启用三层次结构集群日志；

步骤452：在每个簇内都包含针对相似的传输任务的数据传输日志的前提下，将不同参数的可实现吞吐量建模为分段的三次样条函数；

步骤453：对参数设置上界，参数搜索空间具有有界的整数域。

进一步地，步骤451具体为：

步骤4511：基于网络和数据，使用网络特性和终端系统特性建立层-1集群，基于数据集信息:进行层-1的细分建立层-2，基于外部负载进行层-2细分层-3，对群法进行聚类,将日志属性归一化，并使用了欧几里德距离；

步骤4512：采用无加权算术平均算法计算初始簇的邻近矩阵，并以最小距离组合两个簇；

步骤4513：用新的簇更新邻近矩阵的行和列，用新的距离值填充矩阵，并循环重复到所有集群合并为一个集群。

进一步地，步骤452具体为：

步骤4521：构造g(pp)＝T的二维三次样条插值，给定二维空间中的一组离散点{(pp_i，T)}，i＝0,1…N，利用分段三次多项式g_i(pp)连接连续对点(pp_i,T_i)和(pp_i+1，T_i+1)；

步骤4522：构造插值函数g(pp)＝th，控制二阶导数在端点处为零；

步骤4523：所有的三次多项式块定义为:g_i(pp)＝a_i,0+a_i,1pp+a_i,2pp+a_i,3pp，

步骤4524：假设周期边界为g(pp_i+1)＝g(pp_i)，分段多项式g_i(pp)的系数a_i，j，其中j＝1，2，3，包含4(N-1)个未知数,即g_i(pp)＝T_i，i＝1…N，得到g(pp)的N个连续性约束为:g_i-1(pp_i)＝T_i＝g_i(pp_i),i＝2…N，得到(N-2)个约束条件；

步骤4525：对二阶导数施加额外的连续性约束：

得到2(N-2)个约束条件；

步骤4526：松弛样条的边界条件为:

因此根据上述步骤得到的总约束条件个数为N+(N-2)+2(N-2)+2＝4(N-1)。

进一步地，步骤453具体为：

步骤4531：假设β为参数的上界，将三次样条曲面函数表示为f_i:

其中Ψ＝{1，2…β}；

步骤4532：对每个f_k执行第二个偏导数检验，即计算f_k的Hessian矩阵：

J为拉比矩阵；

步骤4533：计算相应的{p，pp，cc}使得H_k(p,pp,cc)是负定型的矩阵，得到f_k中所有局部极大值集合；

步骤4535：取F＝{f₁,…,f_p}的所有局部极大值集中的极大值来生成曲面极大值。

本发明的有益之处在于所提供的基于CECU体系智能算法模型的网络用户画像方法，通过使用本地链接跨站点搜集用户信息并进行迭代更新信息使用户信息全面化，通过建立层次事务模型借助一致性指数CI评估、Apriori支持度算法进行数据挖掘分类，减少通信延迟，最后调用动态调优板块进行数据优化，有效地解决了传统网络用户画像个性化程度不高，数据吞吐量严重受限的问题，使用户画像更加精准化。

附图说明

图1是本发明的基于CECU体系智能算法模型的网络用户画像方法的示意图；

图2为本发明的用户画像模型离线优化工作流程图；

图3为本发明的集群日志分层模型说明图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示为本发明的一种基于CECU体系(用户模型离线优化体系)智能算法模型的网络用户画像方法，包括以下步骤：步骤1：使用本地链接跨站点搜集用户信息并进行迭代更新信息。步骤2：利用层次事务模型，大规模复制数据库中各数据项的多个一致性级别，通过数据挖掘算法，根据一致性要求将数据项划分为不同的类别。步骤3：基于行为信息的收集分类储存和数据挖掘分析，对放置在同一个站点上相互关联的数据项进行用户画像，并建立可视化模型。步骤4：选取吞吐量参数U，开启动态调优模块进行用户模型离线优化及数据吞吐量升级。通过使用本地链接跨站点搜集用户信息并进行迭代方更新信息使用户信息全面化，通过建立层次事务模型借助一致性指数CI(Consistency Index，一致性指标)评估、Apriori支持度算法进行数据挖掘分类，减少通信延迟，最后调用动态调优板块进行数据优化，有效地解决了传统网络用户画像个性化程度不高，数据吞吐量严重受限的问题，使用户画像更加精准化。以下具体介绍上述步骤。

对于步骤1：使用本地链接跨站点搜集用户信息并进行迭代更新信息。

具体而言，步骤1为：

步骤11：基于社交媒体数据，进行数据搜集，考虑到在站点之间共享大多数共同朋友的节点更可能是同一个用户。利用一个站点中的普通朋友，跨站点使用相同的启发式，其中F(i，s)表示朋友用户i在站点S上。

步骤12：将已经在S₁(S₂)中映射的用户表示为M₁(M₂)，而未映射的用户表示为V_S1\M1(V_S2\M₂)，具体如下：

步骤13：根据两个用户在映射中的好友数量，在网络上将某一用户映射到另一个用户。每个网络上各有一个用户在映射中拥有最多朋友。由于假定这两个用户代表同一个人，因此将它们相加到映射。此过程将继续，直到在两个网络上都没有进一步的用户被识别为止(

或

)。

对于步骤2：利用层次事务模型，大规模复制数据库中各数据项的多个一致性级别，通过数据挖掘算法，根据一致性要求将数据项划分为不同的类别。

步骤2中，数据挖掘算法为Apriori算法。

步骤2具体为：

步骤21：根据一致性要求，使用Apriori算法根据频繁数据项的支持度计算频繁数据项集，利用一致性指数CI对数据项和访问事务进行分类。步骤21具体为：

步骤211：使用50％的相对支持度，将数据库事务分为读事务集D_r和写事务集D_w。

步骤212：每个映射器接受数据库事务和一组数据项作为输入，为每个数据项生成一个支持计数的中间列表。

步骤213：组合器对来自多个映射器的结果进行调动和合并，并为每个数据项创建一组键值对，每个数据项的聚合值在这里被用作CI。

步骤214：减速器将作为CI的聚合值与给定的最小支持阈值进行比较，并输出最终的频繁数据项列表。

步骤215：根据该算法，最终分类结果为：当输入D_r时，返回值为freq_r，即归类为频繁读取数据项的集合。当输入D_w时，返回值为freq_w，即频繁更新数据项的集合。对于任意的数据项x_i∈I,

时，返回值为freq_rw，即既频繁读取也频繁更新数据项的集合。其余不满足最小支持阈值的数据项，返回值为infreq，即不频繁数据项集合。

步骤22：在层次事务模型中，为每个事务及其关联数据项分配一致性级别。步骤22具体为：

步骤221：由于在一个包含频繁读取和频繁更新数据项的数据库事务中，频繁更新的数据项要求严格的一致性，而频繁读取的数据项要求高可用性，在此共识下，将同时具有读写强度T_rwi与其访问的数据项freq_rw的事务分配到最强的一致性级别SR；读密集型事务T_ri及其访问的数据项freq_r分配到SI级别；写密集型事务T_wi及其访问的数据项freq_w分配到NMSI级别；剩余事务T_rem及访问对应的数据项infreq分配到ASYNC级别。

步骤222：根据事务访问的数据项，事务管理器将选择适当的一致性级别。它调用四个遵循不同的一致性策略的解析器中的一个——SR解析器(SRR)，SI解析器(SIR)，NMSI解析器(NMSIR)，ASYNC解析器(ASYNCR)以执行属于不同一致性级别的事务。

步骤223：通过下述算法的驱动，将事务分配到它们的匹配一致性级别：

输入：某一数据库事务T

输出:调用适当的解析器

步骤23：识别强相关数据项，建立频繁项数据集合之间的关联。具体的，

步骤231：设置最小置信度minconf＝50％，

步骤232：

对于每个频繁项集f生成f的所有非空子集，存在非空子集

当

时，

强关联规则成立。

步骤233：当满足强关联规则，则相互关联的数据项放置在同一个站点上。

对于步骤3：基于行为信息的收集分类储存和数据挖掘分析，对放置在同一个站点上相互关联的数据项进行用户画像，并建立可视化模型。

步骤3具体为：

步骤31：对步骤2中已分类数据降维，采用主成分分析进行因子提取，得到特征因子。

步骤32：针对提取的特征因子，选取经典K-means聚类算法对所有数据样本进行聚类，建立用户组画像的类数。簇的数量建议应该设置在3-6个范围内，结合判别分析和Wilks的Lambda值确定最终聚类数。

步骤33：使用python中的word cloud包绘制一个可视化的用户标记云，直观地显示上述分析得到的用户画像聚类结果。每个特征标签的大小由这些用户画像的相应平均值决定，字体越大，特征越突出。

对于步骤4：选取吞吐量参数U，开启动态调优模块进行用户模型离线优化及数据吞吐量升级。

步骤4具体为：

U＝f(p_o，p_d，b，τ,f_a,n，cc，p，pp，l_c)，

其中，给定源端点p_o和目标端点p_d，链路带宽为b，往返时间为τ，平均文件大小f_a，文件个数n，争用负载转移l_c以及参数的设置u^1/4fcc；p；ppg。

约束于：cc×p≤N_str。pp≤P。T≤b，其中，t_s和t_e分别为传输开始时间与传输结束时间，N_str和P是网络中允许的最大流水线值。

步骤43：在历史传输日志上调用动态调优模块，将结果存储在键值存储中。

步骤44：当用户启动一个传输进程时，启动一个有两个线程的主进程——传输线程、动态调优线程，传输过程收集当前网络信息并将其发送给离线分析模块，离线分析模块返回算法初始参数设置开始转移，动态调整线程定期检查网络环境。

步骤45：当动态优化模块检测到低吞吐量,它发送当前的网络状态离线分析模块并获得新的参数作为当前状态。步骤45具体为：

步骤451：启用三层次结构集群日志。如图3所示。

步骤4511：基于网络和数据，使用网络特性和终端系统特性建立层-1集群，基于数据集信息:进行层-1的细分建立层-2，基于外部负载进行层-2细分层-3，对群法进行聚类,将日志属性归一化，并使用了欧几里德距离。

步骤4512：采用无加权算术平均算法计算初始簇的邻近矩阵，并以最小距离组合两个簇。

步骤4513：用新的簇更新邻近矩阵的行和列，用新的距离值填充矩阵，并循环重复到所有集群合并为一个集群。其中聚类精度取决于适当的数目集群的k。在这项工作中，我们使用Calinski-Harabaz指数(即CH指数)来识别合适的聚类数目。CH指数可计算为:

其中φ_inter为簇间变异，φ_intra为簇内变异，均可定义为欧几里德距离之和，即

其中M_k为簇k的簇心，

为簇k中点的均值，

为总体均值。

步骤452：在每个簇内都包含针对相似的传输任务的数据传输日志的前提下，将不同参数的可实现吞吐量建模为分段的三次样条函数。

步骤4521：构造g(pp)＝T的二维三次样条插值，给定二维空间中的一组离散点{(pp_i，T)}，i＝0，1…N，利用分段三次多项式g_i(pp)连接连续对点(pp_i，T_i)和(pp_i+1，T_i+1)。

步骤4522：构造插值函数g(pp)＝th，控制二阶导数在端点处为零。

步骤4523：所有的三次多项式块定义为:g_i(pp)＝a_i，0+a_i，1pp+a_i,2pp+a_i，3pp，

步骤4524：假设周期边界为g(pp_i+1)＝g(pp_i)，分段多项式g_i(pp)的系数a_i,j，其中j＝1,2,3，包含4(N-1)个未知数,即g_i(pp)＝T_i，i＝1…N，得到g(pp)的N个连续性约束为:g_i-1(pp_i)＝T_i＝g_i(pp_i),i＝2…N，得到(N-2)个约束条件。

步骤4525：对二阶导数施加额外的连续性约束：

得到2(N-2)个约束条件。

步骤4526：松弛样条的边界条件为:

其中Ψ＝{1，2…β}。

J为拉比矩阵。

步骤4533：计算相应的{p，pp，cc}使得H_k(p，pp，cc)是负定型的矩阵，得到f_k中所有局部极大值集合。

步骤4535：取F＝{f₁，…，f_p}的所有局部极大值集中的极大值来生成曲面极大值。

步骤46：动态调整线程通知传输线程参数更新，传输线程使用新参数继续传输，在传输期间优化外部流量负载变化参数，当吞吐量下降时，将当前的网络状况再次发送给离线分析模块，循环进行以上步骤实现用户模型离线优化及数据吞吐量升级。如图2所示为离线优化模型工作流程图。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于CECU体系智能算法模型的网络用户画像方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤2中，数据挖掘算法为Apriori算法。

3.根据权利要求2所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤2具体为：

4.根据权利要求3所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤21具体为：

5.根据权利要求1所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤3具体为：

6.根据权利要求1所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤4具体为：

U＝f(p_o,p_d,b,τ,f_a,n,cc,p,pp，l_c)，

7.根据权利要求6所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤45具体为：

步骤451：启用三层次结构集群日志；

8.根据权利要求7所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤451具体为：

9.根据权利要求8所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤452具体为：

步骤4521：构造g(pp)＝T的二维三次样条插值，给定二维空间中的一组离散点{(pp_i,T)}，i＝0,1…N，利用分段三次多项式g_i(pp)连接连续对点(pp_i,T_i)和(pp_i+l,T_i+l)；

步骤4523：所有的三次多项式块定义为:

步骤4524：假设周期边界为g(pp_i+1)＝g(pp_i)，分段多项式g_i(pp)的系数a_i,j，其中j＝1，2，3，包含4(N-1)个未知数,即g_i(pp)＝T_i，i＝1，…，N，得到g(pp)的N个连续性约束为:g_i-1(pp_i)＝T_i＝g_i(pp_i),i＝2…N，得到(N-2)个约束条件；

步骤4525：对二阶导数施加额外的连续性约束：

得到2(N-2)个约束条件；

步骤4526：松弛样条的边界条件为:

10.根据权利要求9所述的基于CECU体系智能算法模型的网络用户画像方法，其特征在于，

步骤453具体为：

步骤4531：假设β为参数的上界，将三次样条曲面函数表示为

其中Ψ＝{1，2…β}；

J为拉比矩阵，

步骤4533：计算相应的{p，pp，cc}使得H_k(p，pp，cc)是负定型的矩阵，得到f_k中所有局部极大值集合；