CN113052629A - 基于cecu体系智能算法模型的网络用户画像方法 - Google Patents

基于cecu体系智能算法模型的网络用户画像方法 Download PDF

Info

Publication number
CN113052629A
CN113052629A CN202110260517.4A CN202110260517A CN113052629A CN 113052629 A CN113052629 A CN 113052629A CN 202110260517 A CN202110260517 A CN 202110260517A CN 113052629 A CN113052629 A CN 113052629A
Authority
CN
China
Prior art keywords
data
user
cecu
data items
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110260517.4A
Other languages
English (en)
Other versions
CN113052629B (zh
Inventor
李瑶
张俞佳
黄雯静
琚春华
鲍福光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202110260517.4A priority Critical patent/CN113052629B/zh
Publication of CN113052629A publication Critical patent/CN113052629A/zh
Application granted granted Critical
Publication of CN113052629B publication Critical patent/CN113052629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于CECU体系智能算法模型的网络用户画像方法,包含:使用本地链接跨站点搜集用户信息并进行迭代更新信息;利用层次事务模型复制数据库中各数据项的多个一致性级别,将数据项划分为不同的类别;对放置在同一个站点上相互关联的数据项进行用户画像,并建立可视化模型;选取吞吐量参数U,开启动态调优模块进行用户模型离线优化及数据吞吐量升级。本发明使用本地链接跨站点搜集用户信息并进行迭代更新,借助一致性指数CI评估、Apriori支持度算法进行数据挖掘分类,减少通信延迟,调用动态调优板块进行数据优化,有效地解决了传统网络用户画像个性化程度不高,数据吞吐量严重受限的问题。

Description

基于CECU体系智能算法模型的网络用户画像方法
技术领域
本发明属于网络信息技术领域,特别涉及一种基于CECU体系智能算法模型的网络用户画像方法。
背景技术
在互联网信息技术的飞速发展和社会信息变革推动下,大数据时代成为我们现代社会的必然趋势,多样化的网络平台致力于挖掘和分析用户各方面的信息数据,用户画像则是基于特定使用情境下的每个网络用户行为数据挖掘、分析,从而建立起描述用户属性及其行为的标签集合。这种应运而生的用户画像方法,其意义不仅在于为网络用户建立个人数据信息库,更在于网络服务提供方针对性提供个性化服务。
发明内容
本发明提供了一种基于CECU体系智能算法模型的网络用户画像方法,采用如下的技术方案:
一种基于CECU体系智能算法模型的网络用户画像方法,包括以下步骤:
步骤1:使用本地链接跨站点搜集用户信息并进行迭代更新信息;
步骤2:利用层次事务模型,大规模复制数据库中各数据项的多个一致性级别,通过数据挖掘算法,根据一致性要求将数据项划分为不同的类别;
步骤3:基于行为信息的收集分类储存和数据挖掘分析,对放置在同一个站点上相互关联的数据项进行用户画像,并建立可视化模型;
步骤4:选取吞吐量参数U,开启动态调优模块进行用户模型离线优化及数据吞吐量升级。
进一步地,步骤2中,数据挖掘算法为Apriori算法。
进一步地,步骤2具体为:
步骤21:根据一致性要求,使用Apriori算法根据频繁数据项的支持度计算频繁数据项集,利用一致性指数CI对数据项和访问事务进行分类;
步骤22:在层次事务模型中,为每个事务及其关联数据项分配一致性级别;
步骤23:识别强相关数据项,建立频繁项数据集合之间的关联。
进一步地,步骤21具体为:
步骤211:使用50%的相对支持度,将数据库事务分为读事务集Dr和写事务集Dw
步骤212:每个映射器接受数据库事务和一组数据项作为输入,为每个数据项生成一个支持计数的中间列表;
步骤213:组合器对来自多个映射器的结果进行调动和合并,并为每个数据项创建一组键值对,每个数据项的聚合值在这里被用作CI;
步骤214:减速器将作为CI的聚合值与给定的最小支持阈值进行比较,并输出最终的频繁数据项列表;
步骤215:根据该算法,最终分类结果为:当输入Dr时,返回值为freqr,即归类为频繁读取数据项的集合,当输入Dw时,返回值为freqw,即频繁更新数据项的集合,对于任意的数据项xi∈I,
Figure BDA0002969779840000021
时,返回值为freqrw,即既频繁读取也频繁更新数据项的集合,其余不满足最小支持阈值的数据项,返回值为infreq,即不频繁数据项集合;
步骤216:基于以上数据项分类,将读密集型事务归类为Tri,写密集型事务归类为Twi,读和写密集型的事务集归类为Trwi,其余事务集归类为Trem
进一步地,步骤3具体为:
步骤31:对步骤2中已分类数据降维,采用主成分分析进行因子提取,得到特征因子;
步骤32:针对提取的特征因子,选取经典K-means聚类算法对所有数据样本进行聚类,建立用户组画像的类数;
步骤33:使用python中的word cloud包绘制一个可视化的用户标记云,直观地显示上述分析得到的用户画像聚类结果。
进一步地,步骤4具体为:
步骤41:将可实现的吞吐量U定义为以终端系统特征、网络特征、数据集和外部流量负载为属性的函数:
U=f(po,pd,b,τ,fa,n,cc,p,pp,lc),
其中,给定源端点po和目标端点pd,链路带宽为b,往返时间为τ,平均文件大小fa,文件个数n,争用负载转移lc以及参数的设置u1/4fcc;p;ppg;
步骤42:使用对网络条件和数据集近乎最优的参数值来最大化数据传输吞吐量,优化问题为:
Figure BDA0002969779840000022
约束于:cc×p≤Nstr;pp≤P;T≤b,其中,ts和te分别为传输开始时间与传输结束时间,Nstr和P是网络中允许的最大流水线值;
步骤43:在历史传输日志上调用动态调优模块,将结果存储在键值存储中;
步骤44:当用户启动一个传输进程时,启动一个有两个线程的主进程——传输线程、动态调优线程,传输过程收集当前网络信息并将其发送给离线分析模块,离线分析模块返回算法初始参数设置开始转移,动态调整线程定期检查网络环境;
步骤45:当动态优化模块检测到低吞吐量,它发送当前的网络状态给离线分析模块并获得新的参数作为当前状态;
步骤46:动态调整线程通知传输线程参数更新,传输线程使用新参数继续传输,在传输期间优化外部流量负载变化参数,当吞吐量下降时,将当前的网络状况再次发送给离线分析模块,循环进行以上步骤实现用户模型离线优化及数据吞吐量升级。
进一步地,步骤45具体为:
步骤451:启用三层次结构集群日志;
步骤452:在每个簇内都包含针对相似的传输任务的数据传输日志的前提下,将不同参数的可实现吞吐量建模为分段的三次样条函数;
步骤453:对参数设置上界,参数搜索空间具有有界的整数域。
进一步地,步骤451具体为:
步骤4511:基于网络和数据,使用网络特性和终端系统特性建立层-1集群,基于数据集信息:进行层-1的细分建立层-2,基于外部负载进行层-2细分层-3,对群法进行聚类,将日志属性归一化,并使用了欧几里德距离;
步骤4512:采用无加权算术平均算法计算初始簇的邻近矩阵,并以最小距离组合两个簇;
步骤4513:用新的簇更新邻近矩阵的行和列,用新的距离值填充矩阵,并循环重复到所有集群合并为一个集群。
进一步地,步骤452具体为:
步骤4521:构造g(pp)=T的二维三次样条插值,给定二维空间中的一组离散点{(ppi,T)},i=0,1…N,利用分段三次多项式gi(pp)连接连续对点(ppi,Ti)和(ppi+1,Ti+1);
步骤4522:构造插值函数g(pp)=th,控制二阶导数在端点处为零;
步骤4523:所有的三次多项式块定义为:gi(pp)=ai,0+ai,1pp+ai,2pp+ai,3pp,
Figure BDA0002969779840000031
Figure BDA0002969779840000032
步骤4524:假设周期边界为g(ppi+1)=g(ppi),分段多项式gi(pp)的系数ai,j,其中j=1,2,3,包含4(N-1)个未知数,即gi(pp)=Ti,i=1…N,得到g(pp)的N个连续性约束为:gi-1(ppi)=Ti=gi(ppi),i=2…N,得到(N-2)个约束条件;
步骤4525:对二阶导数施加额外的连续性约束:
Figure BDA0002969779840000033
得到2(N-2)个约束条件;
步骤4526:松弛样条的边界条件为:
Figure BDA0002969779840000034
因此根据上述步骤得到的总约束条件个数为N+(N-2)+2(N-2)+2=4(N-1)。
进一步地,步骤453具体为:
步骤4531:假设β为参数的上界,将三次样条曲面函数表示为fi:
Figure BDA0002969779840000041
其中Ψ={1,2…β};
步骤4532:对每个fk执行第二个偏导数检验,即计算fk的Hessian矩阵:
Figure BDA0002969779840000042
Figure BDA0002969779840000043
J为拉比矩阵;
步骤4533:计算相应的{p,pp,cc}使得Hk(p,pp,cc)是负定型的矩阵,得到fk中所有局部极大值集合;
步骤4535:取F={f1,…,fp}的所有局部极大值集中的极大值来生成曲面极大值。
本发明的有益之处在于所提供的基于CECU体系智能算法模型的网络用户画像方法,通过使用本地链接跨站点搜集用户信息并进行迭代更新信息使用户信息全面化,通过建立层次事务模型借助一致性指数CI评估、Apriori支持度算法进行数据挖掘分类,减少通信延迟,最后调用动态调优板块进行数据优化,有效地解决了传统网络用户画像个性化程度不高,数据吞吐量严重受限的问题,使用户画像更加精准化。
附图说明
图1是本发明的基于CECU体系智能算法模型的网络用户画像方法的示意图;
图2为本发明的用户画像模型离线优化工作流程图;
图3为本发明的集群日志分层模型说明图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种基于CECU体系(用户模型离线优化体系)智能算法模型的网络用户画像方法,包括以下步骤:步骤1:使用本地链接跨站点搜集用户信息并进行迭代更新信息。步骤2:利用层次事务模型,大规模复制数据库中各数据项的多个一致性级别,通过数据挖掘算法,根据一致性要求将数据项划分为不同的类别。步骤3:基于行为信息的收集分类储存和数据挖掘分析,对放置在同一个站点上相互关联的数据项进行用户画像,并建立可视化模型。步骤4:选取吞吐量参数U,开启动态调优模块进行用户模型离线优化及数据吞吐量升级。通过使用本地链接跨站点搜集用户信息并进行迭代方更新信息使用户信息全面化,通过建立层次事务模型借助一致性指数CI(Consistency Index,一致性指标)评估、Apriori支持度算法进行数据挖掘分类,减少通信延迟,最后调用动态调优板块进行数据优化,有效地解决了传统网络用户画像个性化程度不高,数据吞吐量严重受限的问题,使用户画像更加精准化。以下具体介绍上述步骤。
对于步骤1:使用本地链接跨站点搜集用户信息并进行迭代更新信息。
具体而言,步骤1为:
步骤11:基于社交媒体数据,进行数据搜集,考虑到在站点之间共享大多数共同朋友的节点更可能是同一个用户。利用一个站点中的普通朋友,跨站点使用相同的启发式,其中F(i,s)表示朋友用户i在站点S上。
步骤12:将已经在S1(S2)中映射的用户表示为M1(M2),而未映射的用户表示为VS1\M1(VS2\M2),具体如下:
Figure BDA0002969779840000051
步骤13:根据两个用户在映射中的好友数量,在网络上将某一用户映射到另一个用户。每个网络上各有一个用户在映射中拥有最多朋友。由于假定这两个用户代表同一个人,因此将它们相加到映射。此过程将继续,直到在两个网络上都没有进一步的用户被识别为止(
Figure BDA0002969779840000052
Figure BDA0002969779840000053
)。
对于步骤2:利用层次事务模型,大规模复制数据库中各数据项的多个一致性级别,通过数据挖掘算法,根据一致性要求将数据项划分为不同的类别。
步骤2中,数据挖掘算法为Apriori算法。
步骤2具体为:
步骤21:根据一致性要求,使用Apriori算法根据频繁数据项的支持度计算频繁数据项集,利用一致性指数CI对数据项和访问事务进行分类。步骤21具体为:
步骤211:使用50%的相对支持度,将数据库事务分为读事务集Dr和写事务集Dw
步骤212:每个映射器接受数据库事务和一组数据项作为输入,为每个数据项生成一个支持计数的中间列表。
步骤213:组合器对来自多个映射器的结果进行调动和合并,并为每个数据项创建一组键值对,每个数据项的聚合值在这里被用作CI。
步骤214:减速器将作为CI的聚合值与给定的最小支持阈值进行比较,并输出最终的频繁数据项列表。
步骤215:根据该算法,最终分类结果为:当输入Dr时,返回值为freqr,即归类为频繁读取数据项的集合。当输入Dw时,返回值为freqw,即频繁更新数据项的集合。对于任意的数据项xi∈I,
Figure BDA0002969779840000061
时,返回值为freqrw,即既频繁读取也频繁更新数据项的集合。其余不满足最小支持阈值的数据项,返回值为infreq,即不频繁数据项集合。
步骤216:基于以上数据项分类,将读密集型事务归类为Tri,写密集型事务归类为Twi,读和写密集型的事务集归类为Trwi,其余事务集归类为Trem
步骤22:在层次事务模型中,为每个事务及其关联数据项分配一致性级别。步骤22具体为:
步骤221:由于在一个包含频繁读取和频繁更新数据项的数据库事务中,频繁更新的数据项要求严格的一致性,而频繁读取的数据项要求高可用性,在此共识下,将同时具有读写强度Trwi与其访问的数据项freqrw的事务分配到最强的一致性级别SR;读密集型事务Tri及其访问的数据项freqr分配到SI级别;写密集型事务Twi及其访问的数据项freqw分配到NMSI级别;剩余事务Trem及访问对应的数据项infreq分配到ASYNC级别。
步骤222:根据事务访问的数据项,事务管理器将选择适当的一致性级别。它调用四个遵循不同的一致性策略的解析器中的一个——SR解析器(SRR),SI解析器(SIR),NMSI解析器(NMSIR),ASYNC解析器(ASYNCR)以执行属于不同一致性级别的事务。
步骤223:通过下述算法的驱动,将事务分配到它们的匹配一致性级别:
输入:某一数据库事务T
输出:调用适当的解析器
Figure BDA0002969779840000071
步骤23:识别强相关数据项,建立频繁项数据集合之间的关联。具体的,
步骤231:设置最小置信度minconf=50%,
步骤232:
Figure BDA0002969779840000072
对于每个频繁项集f生成f的所有非空子集,存在非空子集
Figure BDA0002969779840000073
Figure BDA0002969779840000074
时,
Figure BDA0002969779840000075
强关联规则成立。
步骤233:当满足强关联规则,则相互关联的数据项放置在同一个站点上。
对于步骤3:基于行为信息的收集分类储存和数据挖掘分析,对放置在同一个站点上相互关联的数据项进行用户画像,并建立可视化模型。
步骤3具体为:
步骤31:对步骤2中已分类数据降维,采用主成分分析进行因子提取,得到特征因子。
步骤32:针对提取的特征因子,选取经典K-means聚类算法对所有数据样本进行聚类,建立用户组画像的类数。簇的数量建议应该设置在3-6个范围内,结合判别分析和Wilks的Lambda值确定最终聚类数。
步骤33:使用python中的word cloud包绘制一个可视化的用户标记云,直观地显示上述分析得到的用户画像聚类结果。每个特征标签的大小由这些用户画像的相应平均值决定,字体越大,特征越突出。
对于步骤4:选取吞吐量参数U,开启动态调优模块进行用户模型离线优化及数据吞吐量升级。
步骤4具体为:
步骤41:将可实现的吞吐量U定义为以终端系统特征、网络特征、数据集和外部流量负载为属性的函数:
U=f(po,pd,b,τ,fa,n,cc,p,pp,lc),
其中,给定源端点po和目标端点pd,链路带宽为b,往返时间为τ,平均文件大小fa,文件个数n,争用负载转移lc以及参数的设置u1/4fcc;p;ppg。
步骤42:使用对网络条件和数据集近乎最优的参数值来最大化数据传输吞吐量,优化问题为:
Figure BDA0002969779840000081
约束于:cc×p≤Nstr。pp≤P。T≤b,其中,ts和te分别为传输开始时间与传输结束时间,Nstr和P是网络中允许的最大流水线值。
步骤43:在历史传输日志上调用动态调优模块,将结果存储在键值存储中。
步骤44:当用户启动一个传输进程时,启动一个有两个线程的主进程——传输线程、动态调优线程,传输过程收集当前网络信息并将其发送给离线分析模块,离线分析模块返回算法初始参数设置开始转移,动态调整线程定期检查网络环境。
步骤45:当动态优化模块检测到低吞吐量,它发送当前的网络状态离线分析模块并获得新的参数作为当前状态。步骤45具体为:
步骤451:启用三层次结构集群日志。如图3所示。
步骤4511:基于网络和数据,使用网络特性和终端系统特性建立层-1集群,基于数据集信息:进行层-1的细分建立层-2,基于外部负载进行层-2细分层-3,对群法进行聚类,将日志属性归一化,并使用了欧几里德距离。
步骤4512:采用无加权算术平均算法计算初始簇的邻近矩阵,并以最小距离组合两个簇。
步骤4513:用新的簇更新邻近矩阵的行和列,用新的距离值填充矩阵,并循环重复到所有集群合并为一个集群。其中聚类精度取决于适当的数目集群的k。在这项工作中,我们使用Calinski-Harabaz指数(即CH指数)来识别合适的聚类数目。CH指数可计算为:
Figure BDA0002969779840000082
Figure BDA0002969779840000091
其中φinter为簇间变异,φintra为簇内变异,均可定义为欧几里德距离之和,即
Figure BDA0002969779840000092
其中Mk为簇k的簇心,
Figure BDA0002969779840000093
为簇k中点的均值,
Figure BDA0002969779840000094
为总体均值。
步骤452:在每个簇内都包含针对相似的传输任务的数据传输日志的前提下,将不同参数的可实现吞吐量建模为分段的三次样条函数。
步骤4521:构造g(pp)=T的二维三次样条插值,给定二维空间中的一组离散点{(ppi,T)},i=0,1…N,利用分段三次多项式gi(pp)连接连续对点(ppi,Ti)和(ppi+1,Ti+1)。
步骤4522:构造插值函数g(pp)=th,控制二阶导数在端点处为零。
步骤4523:所有的三次多项式块定义为:gi(pp)=ai,0+ai,1pp+ai,2pp+ai,3pp,
Figure BDA0002969779840000095
Figure BDA0002969779840000096
步骤4524:假设周期边界为g(ppi+1)=g(ppi),分段多项式gi(pp)的系数ai,j,其中j=1,2,3,包含4(N-1)个未知数,即gi(pp)=Ti,i=1…N,得到g(pp)的N个连续性约束为:gi-1(ppi)=Ti=gi(ppi),i=2…N,得到(N-2)个约束条件。
步骤4525:对二阶导数施加额外的连续性约束:
Figure BDA0002969779840000097
得到2(N-2)个约束条件。
步骤4526:松弛样条的边界条件为:
Figure BDA0002969779840000098
因此根据上述步骤得到的总约束条件个数为N+(N-2)+2(N-2)+2=4(N-1)。
步骤453:对参数设置上界,参数搜索空间具有有界的整数域。
步骤4531:假设β为参数的上界,将三次样条曲面函数表示为fi:
Figure BDA0002969779840000099
其中Ψ={1,2…β}。
步骤4532:对每个fk执行第二个偏导数检验,即计算fk的Hessian矩阵:
Figure BDA00029697798400000910
Figure BDA00029697798400000911
J为拉比矩阵。
步骤4533:计算相应的{p,pp,cc}使得Hk(p,pp,cc)是负定型的矩阵,得到fk中所有局部极大值集合。
步骤4535:取F={f1,…,fp}的所有局部极大值集中的极大值来生成曲面极大值。
步骤46:动态调整线程通知传输线程参数更新,传输线程使用新参数继续传输,在传输期间优化外部流量负载变化参数,当吞吐量下降时,将当前的网络状况再次发送给离线分析模块,循环进行以上步骤实现用户模型离线优化及数据吞吐量升级。如图2所示为离线优化模型工作流程图。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于CECU体系智能算法模型的网络用户画像方法,其特征在于,包括以下步骤:
步骤1:使用本地链接跨站点搜集用户信息并进行迭代更新信息;
步骤2:利用层次事务模型,大规模复制数据库中各数据项的多个一致性级别,通过数据挖掘算法,根据一致性要求将数据项划分为不同的类别;
步骤3:基于行为信息的收集分类储存和数据挖掘分析,对放置在同一个站点上相互关联的数据项进行用户画像,并建立可视化模型;
步骤4:选取吞吐量参数U,开启动态调优模块进行用户模型离线优化及数据吞吐量升级。
2.根据权利要求1所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤2中,数据挖掘算法为Apriori算法。
3.根据权利要求2所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤2具体为:
步骤21:根据一致性要求,使用Apriori算法根据频繁数据项的支持度计算频繁数据项集,利用一致性指数CI对数据项和访问事务进行分类;
步骤22:在层次事务模型中,为每个事务及其关联数据项分配一致性级别;
步骤23:识别强相关数据项,建立频繁项数据集合之间的关联。
4.根据权利要求3所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤21具体为:
步骤211:使用50%的相对支持度,将数据库事务分为读事务集Dr和写事务集Dw
步骤212:每个映射器接受数据库事务和一组数据项作为输入,为每个数据项生成一个支持计数的中间列表;
步骤213:组合器对来自多个映射器的结果进行调动和合并,并为每个数据项创建一组键值对,每个数据项的聚合值在这里被用作CI;
步骤214:减速器将作为CI的聚合值与给定的最小支持阈值进行比较,并输出最终的频繁数据项列表;
步骤215:根据该算法,最终分类结果为:当输入Dr时,返回值为freqr,即归类为频繁读取数据项的集合,当输入Dw时,返回值为freqw,即频繁更新数据项的集合,对于任意的数据项xi∈I,
Figure FDA0002969779830000011
时,返回值为freqrw,即既频繁读取也频繁更新数据项的集合,其余不满足最小支持阈值的数据项,返回值为infreq,即不频繁数据项集合;
步骤216:基于以上数据项分类,将读密集型事务归类为Tri,写密集型事务归类为Twi,读和写密集型的事务集归类为Trwi,其余事务集归类为Trem
5.根据权利要求1所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤3具体为:
步骤31:对步骤2中已分类数据降维,采用主成分分析进行因子提取,得到特征因子;
步骤32:针对提取的特征因子,选取经典K-means聚类算法对所有数据样本进行聚类,建立用户组画像的类数;
步骤33:使用python中的word cloud包绘制一个可视化的用户标记云,直观地显示上述分析得到的用户画像聚类结果。
6.根据权利要求1所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤4具体为:
步骤41:将可实现的吞吐量U定义为以终端系统特征、网络特征、数据集和外部流量负载为属性的函数:
U=f(po,pd,b,τ,fa,n,cc,p,pp,lc),
其中,给定源端点po和目标端点pd,链路带宽为b,往返时间为τ,平均文件大小fa,文件个数n,争用负载转移lc以及参数的设置u1/4fcc;p;ppg;
步骤42:使用对网络条件和数据集近乎最优的参数值来最大化数据传输吞吐量,优化问题为:
Figure FDA0002969779830000021
约束于:cc×p≤Nstr;pp≤P;T≤b,其中,ts和te分别为传输开始时间与传输结束时间,Nstr和P是网络中允许的最大流水线值;
步骤43:在历史传输日志上调用动态调优模块,将结果存储在键值存储中;
步骤44:当用户启动一个传输进程时,启动一个有两个线程的主进程——传输线程、动态调优线程,传输过程收集当前网络信息并将其发送给离线分析模块,离线分析模块返回算法初始参数设置开始转移,动态调整线程定期检查网络环境;
步骤45:当动态优化模块检测到低吞吐量,它发送当前的网络状态给离线分析模块并获得新的参数作为当前状态;
步骤46:动态调整线程通知传输线程参数更新,传输线程使用新参数继续传输,在传输期间优化外部流量负载变化参数,当吞吐量下降时,将当前的网络状况再次发送给离线分析模块,循环进行以上步骤实现用户模型离线优化及数据吞吐量升级。
7.根据权利要求6所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤45具体为:
步骤451:启用三层次结构集群日志;
步骤452:在每个簇内都包含针对相似的传输任务的数据传输日志的前提下,将不同参数的可实现吞吐量建模为分段的三次样条函数;
步骤453:对参数设置上界,参数搜索空间具有有界的整数域。
8.根据权利要求7所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤451具体为:
步骤4511:基于网络和数据,使用网络特性和终端系统特性建立层-1集群,基于数据集信息:进行层-1的细分建立层-2,基于外部负载进行层-2细分层-3,对群法进行聚类,将日志属性归一化,并使用了欧几里德距离;
步骤4512:采用无加权算术平均算法计算初始簇的邻近矩阵,并以最小距离组合两个簇;
步骤4513:用新的簇更新邻近矩阵的行和列,用新的距离值填充矩阵,并循环重复到所有集群合并为一个集群。
9.根据权利要求8所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤452具体为:
步骤4521:构造g(pp)=T的二维三次样条插值,给定二维空间中的一组离散点{(ppi,T)},i=0,1…N,利用分段三次多项式gi(pp)连接连续对点(ppi,Ti)和(ppi+l,Ti+l);
步骤4522:构造插值函数g(pp)=th,控制二阶导数在端点处为零;
步骤4523:所有的三次多项式块定义为:
Figure FDA0002969779830000031
Figure FDA0002969779830000032
步骤4524:假设周期边界为g(ppi+1)=g(ppi),分段多项式gi(pp)的系数ai,j,其中j=1,2,3,包含4(N-1)个未知数,即gi(pp)=Ti,i=1,…,N,得到g(pp)的N个连续性约束为:gi-1(ppi)=Ti=gi(ppi),i=2…N,得到(N-2)个约束条件;
步骤4525:对二阶导数施加额外的连续性约束:
Figure FDA0002969779830000033
得到2(N-2)个约束条件;
步骤4526:松弛样条的边界条件为:
Figure FDA0002969779830000034
因此根据上述步骤得到的总约束条件个数为N+(N-2)+2(N-2)+2=4(N-1)。
10.根据权利要求9所述的基于CECU体系智能算法模型的网络用户画像方法,其特征在于,
步骤453具体为:
步骤4531:假设β为参数的上界,将三次样条曲面函数表示为
Figure FDA0002969779830000035
其中Ψ={1,2…β};
步骤4532:对每个fk执行第二个偏导数检验,即计算fk的Hessian矩阵:
Figure FDA0002969779830000041
Figure FDA0002969779830000042
J为拉比矩阵,
步骤4533:计算相应的{p,pp,cc}使得Hk(p,pp,cc)是负定型的矩阵,得到fk中所有局部极大值集合;
步骤4535:取F={f1,…,fp}的所有局部极大值集中的极大值来生成曲面极大值。
CN202110260517.4A 2021-03-10 2021-03-10 基于cecu体系智能算法模型的网络用户画像方法 Active CN113052629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110260517.4A CN113052629B (zh) 2021-03-10 2021-03-10 基于cecu体系智能算法模型的网络用户画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110260517.4A CN113052629B (zh) 2021-03-10 2021-03-10 基于cecu体系智能算法模型的网络用户画像方法

Publications (2)

Publication Number Publication Date
CN113052629A true CN113052629A (zh) 2021-06-29
CN113052629B CN113052629B (zh) 2024-02-13

Family

ID=76510985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110260517.4A Active CN113052629B (zh) 2021-03-10 2021-03-10 基于cecu体系智能算法模型的网络用户画像方法

Country Status (1)

Country Link
CN (1) CN113052629B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115567227A (zh) * 2022-12-02 2023-01-03 华南师范大学 一种基于大数据安全的身份认证方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301575B1 (en) * 1997-11-13 2001-10-09 International Business Machines Corporation Using object relational extensions for mining association rules
WO2007048008A2 (en) * 2005-10-21 2007-04-26 Fair Isaac Corporation Method and apparatus for retail data mining using pair-wise co-occurrence consistency
CN102098175A (zh) * 2011-01-26 2011-06-15 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
CN106294715A (zh) * 2016-08-09 2017-01-04 中国地质大学(武汉) 一种基于属性约简的关联规则挖掘方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301575B1 (en) * 1997-11-13 2001-10-09 International Business Machines Corporation Using object relational extensions for mining association rules
WO2007048008A2 (en) * 2005-10-21 2007-04-26 Fair Isaac Corporation Method and apparatus for retail data mining using pair-wise co-occurrence consistency
CN102098175A (zh) * 2011-01-26 2011-06-15 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
CN106294715A (zh) * 2016-08-09 2017-01-04 中国地质大学(武汉) 一种基于属性约简的关联规则挖掘方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张磊;夏士雄;周勇;牛强;: "具有语义最小支持度的关联规则挖掘方法", 微电子学与计算机, no. 09 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115567227A (zh) * 2022-12-02 2023-01-03 华南师范大学 一种基于大数据安全的身份认证方法及系统
CN115567227B (zh) * 2022-12-02 2023-04-07 华南师范大学 一种基于大数据安全的身份认证方法及系统

Also Published As

Publication number Publication date
CN113052629B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN106897918A (zh) 一种混合式机器学习信用评分模型构建方法
Liu et al. Particle swarm optimization-based support vector regression for tourist arrivals forecasting
JP5137339B2 (ja) クラスタリングされたベクトルデータを検索するサーバ、システム及び方法
WO1999048018A1 (en) A scalable system for clustering of large databases
CN112256739B (zh) 一种基于多臂赌博机的动态流大数据中数据项筛选方法
JP2007317068A (ja) リコメンド装置およびリコメンドシステム
CN113190670A (zh) 一种基于大数据平台的信息展示方法及系统
CN111784204A (zh) 一种基于用户用电行为画像的优质用户挖掘方法及系统
CN106528804A (zh) 一种基于模糊聚类的用户分群方法
CN114860462B (zh) 双路机架式服务器的计算资源智能分配系统及其分配方法
CN111881358A (zh) 一种对象推荐系统、方法、装置、电子设备和存储介质
CN114781717A (zh) 网点设备推荐方法、装置、设备和存储介质
CN110018997B (zh) 一种基于hdfs的海量小文件存储优化方法
CN113052629A (zh) 基于cecu体系智能算法模型的网络用户画像方法
Sundarakumar et al. A heuristic approach to improve the data processing in big data using enhanced Salp Swarm algorithm (ESSA) and MK-means algorithm
Wang et al. A three-way adaptive density peak clustering (3W-ADPC) method
CN117407921A (zh) 基于必连和勿连约束的差分隐私直方图发布方法及系统
CN115412401B (zh) 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置
CN110825965A (zh) 一种基于信任机制和时间加权的改进协同过滤推荐方法
CN116226467A (zh) 基于节点结构特征的图卷积神经网络的社区发现方法
CN114268625B (zh) 特征选择方法、装置、设备及存储介质
CN115658979A (zh) 基于加权GraphSAGE的上下文感知方法、系统及数据访问控制方法
CN113760550A (zh) 资源分配方法和资源分配装置
CN115016889A (zh) 一种用于云计算的虚拟机优化调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant