CN109919219A - 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 - Google Patents
一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 Download PDFInfo
- Publication number
- CN109919219A CN109919219A CN201910156017.9A CN201910156017A CN109919219A CN 109919219 A CN109919219 A CN 109919219A CN 201910156017 A CN201910156017 A CN 201910156017A CN 109919219 A CN109919219 A CN 109919219A
- Authority
- CN
- China
- Prior art keywords
- data
- weight
- sample
- label
- xgboost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 239000008187 granular material Substances 0.000 title abstract 3
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 abstract description 3
- 241001269238 Data Species 0.000 abstract 1
- 102100037651 AP-2 complex subunit sigma Human genes 0.000 description 1
- 101000806914 Homo sapiens AP-2 complex subunit sigma Proteins 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于粒计算ML‑kNN的Xgboost多视角画像构建方法,步骤是:1多源异构数据的融合,2关联数据的权重计算,3基于粒计算的基础上构建ML‑kNN多标签学习,4建立两层Xgboost多视角融合框架。本发明与传统画像构建方法相比,其优点为本发明采用了将多源异构数据作为画像构建的数据集,解决传统画像构建中信息描述角度单一问题。采用基于粒子度的ML‑kNN多标签学习算法,通过对粒度粗细的调控来选择样本的近邻点集。采用双层Xgboost的多视角融合模型解决高维特征问题,提高模型的准确性与泛化能力。
Description
技术领域
本发明涉及计算机技术和数据分析领域,具体地说,主要是一种基于粒计算ML-kNN的Xgboost多视角画像构建方法。
背景技术
目前,大量的相关数据难以被整合和关联,无法充分挖掘数据所带来的更深层次的价值。现阶段的资源信息的知识库仍属于资源管理系统,仅提供信息查询和资料管理等,并不能通过智能分析来深层次挖掘信息来提供更好的服务。同时主要针对单一企业或者用户构建某一特定环境下的画像,没有形成一个通用的、泛化能力强的画像构建方法。
发明内容
为了解决上述问题,本发明提供一种基于粒计算ML-kNN的Xgboost多视角画像构建方法,其具体流程图如图1所示。
技术方案实施步骤如下:
第一步、多源异构数据融合:
对多源数据从数量和质量两方面进行描述,根据描述方式的不同,将数据分为定性和定量两类,主要包括随机变量、二值型、语言程度和词汇术语描述数据。
随机变量服从正态分布,记为:X~(μ,σ2),其中:μ为期望,σ2为标准差,且满足P(μ-3σ<X<μ+3σ)=0.9974。二值型数据分为描述状态的真假,真为1,假为0。语言程度采用等级0至9描述。词汇术语的数据采用词汇空间中规定的词汇或术语给出事物定性的描述。
采用三角模糊数计算多源数据对决策的支持度,将随机性数据区间[μ-3σ,μ+3σ]进行n等分,支持度的转换定义为:
其中,s(x)为支持度,x0=μ-3σ,μ为期望,σ为方差,0<i<n。
二值型数据支持度定义为:
s(x)=(n/n+m,n/n+m,n/n+m)
其中,n和m分别为1和0的个数。
程度类型数据的词汇术语数据中词汇空间w包含n个术语,对词汇按对决策支持度从低到高排序为w=(w0,w1,...,wn-1),支持度定义为:
s(wi)=(i/(n-1),i/(n-1),i/(n-1))
第二步、关联数据权重计算:
综合采用偏好权重和衰减权重来计算关联数据的权重。偏好权重由下式定义:
wi=f(i/n)-f((i-1)/n)
其中,i=1,2,...,n,f为模糊语义量化算子,定义为:
其中:x,a,b∈[0,1]
衰减权重采用自适应指数衰减来表示:
其中,t为当前时间,est为该权重出现的最早时间,hl为兴趣主题衰减的半衰期。
综合标签的偏好权重和衰减权重,某一标签的综合权重表示为:
t=λωi+(1-λ)θ
其中,λ是调和因子,ωi为偏好权重,θi为衰减权重。
第三步、构建ML-GkNN多标签学习算法:
设定数据的数量描述或质量描述源的中心样本点为x,它的近邻点按照与它的距离的由小到大依次记为x′2,x′2,...,x′k,...,与样本点距离记为dist(x,x′k),将最后一个满足条件:
的样本点记为m,则点x′1,x′2,...,x′m,...,x是相互等价的,通过粒度的粗细rate的取值控制等价类大小。
其相应的后验概率的计算式为:
其中,表示事件某样本标签l,s值平滑指数,表示在全体训练集中那些具有mi个最近邻样本点且这mi个最近邻样本点恰好有j个样本点都含有标签的样本点的数目。表示在全体训练集中那些具有mi个最近邻样本点且这mi个最近邻样本点恰好有j个样本点都均不含有标签的样本点的数目。
则通过ML-kNN分析得ML-GkNN计算公式为:
当大于时样本含有标签l。其中:γx表示样本点的标签向量,Px为标签隶属度向量,表示事件某样本含有标签l,表示测试样本x的k个最近邻近样本点中含有标签l的个数为Cx(l)的时间发生,Cx(l)为样本的k个最近邻点中含有标签l的样本个数。
计算得γx(l)就完成了对任意标签未知的样本的标签集的预测和样本对总标签集中每个标签的隶属度值的求解。
第四步、建立两层Xgboost多视角融合框架:
根据多源数据特征建立两层Xgboost多视角融合框架,第一层使用1个Xgboost模型迭代,并保留模型训练时树分裂所用到的全部特征作为第二层的输入:
其中,为预测值,wj为权值大小,xij为样本。
目标函数为:
惩罚项为:
其中,为预测值,γ为惩罚力度,λ为调节因子,为叶子节点的权重。
第二层模型使用Xgboost模型及Bagging模型相融合的方法,融合多源特征以提高模型的准确性与泛化能力。
本发明提供了一种基于粒计算ML-kNN的Xgboost多视角画像构建方法,此方法的优点:
(1)本发明采用了将多源异构数据作为画像构建的数据集,从数量和质量两方面进行描述,解决传统画像构建中信息描述角度单一问题,从多维度充分考虑对象特征。
(2)本发明采用基于粒子度的ML-kNN多标签学习算法,通过对粒度粗细的调控来选择样本的近邻点集,使得领域内的样本点之间具有高相似,并且只有与中心样本点具有高相似性的样本点才能进入此中心样本点近邻点集。
(3)本发明为充分利用多源特征,解决高维特征问题,采用双层Xgboost的多视角融合模型,提高模型的准确性与泛化能力。
为更好的解释本发明,下面结合附图作进一步的说明。
图1是建立多源数据和回归模型的多视角画像构建模型的步骤流程图。
图2是建立多源数据和回归模型的多视角画像构建模型的算法流程图。
图3是多种模型实验结果对比图。
具体实施方案
下面结合附图和具体的实施例,以某互联网企业相关的网络数据进行举例。对本发明进行说明
第一步、多源异构数据融合:
对多源数据从数量和质量两方面进行描述,根据描述方式的不同,将数据分为定性和定量两类,主要包括随机变量、二值型、语言程度和词汇术语描述数据。
随机变量服从正态分布,记为:X~(μ,σ2),其中:期望为1,标准差为4,且满足P(μ-3σ<X<μ+3σ)=0.9974。二值型数据分为描述状态的真假,真为1,假为0。语言程度采用等级0至9描述。词汇术语的数据采用词汇空间中规定的词汇或术语给出事物定性的描述。
采用三角模糊数计算多源数据对决策的支持度,将随机性数据区间[μ-3σ,μ+3σ]进行100等分,将μ=1和σ=2带入公式,支持度的转换定义为:
其中,s(x)为支持度,x0=μ-3σ,μ为期望,σ为方差,0<i<n。得到s(x)为:
二值型数据支持度定义为:
s(x)=(n/n+m,n/n+m,n/n+m)
其中,n和m分别为1和0的个数,取n和m分别为100和150。得s(x)为:
s(x)=(2/5,2/5,2/5)
程度类型数据的词汇术语数据中词汇空间w包含n个术语,设n为30,对词汇按对决策支持度从低到高排序为w=(w0,w1,...,wn-1),由支持度定义得:
s(wi)=(i/29,i/29,i/29)
其中,0<i<29。
第二步、关联数据权重计算:
综合采用偏好权重和衰减权重来计算关联数据的权重。偏好权重由下式定义:
wi=f(i/n)-f((i-1)/n)
其中,i=1,2,...,n,f为模糊语义量化算子,定义为:
其中:x,a,b∈[0,1]
分别取x,a,b的为0.5,0.3,0.6,得到f(x)=2/3。
衰减权重采用自适应指数衰减来表示:
其中,t为当前时间,est为该权重出现的最早时间,hl为兴趣主题衰减的半衰期。t设置为6.7,est为3.2,hl为20,得
综合标签的偏好权重和衰减权重,某一标签的综合权重表示为:
t=λωi+(1-λ)θ
其中,λ是调和因子,ωi为偏好权重,θi为衰减权重,设置调和因子为0.6。
第三步、构建ML-GkNN多标签学习算法:
设定数据的数量描述或质量描述源的中心样本点为20,它的近邻点按照与它的距离的由小到大依次记为x′1,x′2,...,x′k,...,与样本点距离记为dist(x,x′k),将最后一个满足条件:
的样本点记为m,则点x′1,x′2,...,x′m,...,x是相互等价的,通过粒度的粗细rate的取值控制等价类大小。
其相应的后验概率的计算式为:
其中,表示事件某样本标签l,s值平滑指数,表示在全体训练集中那些具有mi个最近邻样本点且这mi个最近邻样本点恰好有j个样本点都含有标签的样本点的数目。表示在全体训练集中那些具有mi个最近邻样本点且这mi个最近邻样本点恰好有j个样本点都均不含有标签的样本点的数目。设定s为1.6,为300,为200。
则通过ML-kNN分析得ML-GkNN计算公式为:
计算得到则样本含有标签l。其中:γx表示样本点的标签向量,Px为标签隶属度向量,表示事件某样本含有标签l,表示测试样本x的k个最近邻近样本点中含有标签l的个数为Cx(l)的事件发生,Cx(l)为样本的k个最近邻点中含有标签l的样本个数。
计算得γx(l)就完成了对任意标签未知的样本的标签集的预测和样本对总标签集中每个标签的隶属度值的求解。
第四步、建立两层Xgboost多视角融合框架:
根据多源数据特征建立两层Xgboost多视角融合框架,第一层使用1个Xgboost模型迭代100次,并保留模型训练时树分裂所用到的全部特征作为第二层的输入:
其中,为预测值,wj为权值大小,xij为样本。
目标函数为:
惩罚项为:
其中,为预测值,γ设置为0.3,λ设置为0.4,为叶子节点的权重。
第二层模型使用Xgboost模型及Bagging模型相融合的方法,融合多源特征以提高模型的准确性与泛化能力。
为了验证本发明对画像构建方法的准确性,对本发明进行了多组画像构建时延,并将结果于其它一些画像构建算法进行了对比,结果如表1所示。有仿真结果可以看出,本发明能够达到较高的准确率,并在不降低准确度的情况下,具有较好的稳定性。
表1多种模型实验结果对比
Claims (1)
1.一种基于粒计算ML-kNN的Xgboost多视角画像构建方法,其特征在于,包括以下步骤:
第一步、多源异构数据融合:
对多源数据从数量和质量两方面进行描述,根据描述方式的不同,将数据分为定性和定量两类,主要包括随机变量、二值型、语言程度和词汇术语描述数据。
随机变量服从正态分布,记为:X~(μ,σ2),其中:μ为期望,σ2为标准差,且满足P(μ-3σ<X<μ+3σ)=0.9974。二值型数据分为描述状态的真假,真为1,假为0。语言程度采用等级0至9描述。词汇术语的数据采用词汇空间中规定的词汇或术语给出事物定性的描述。
采用三角模糊数计算多源数据对决策的支持度,将随机性数据区间[μ-3σ,μ+3σ]进行n等分,支持度的转换定义为:
其中,s(x)为支持度,x0=μ-3σ,μ为期望,σ为方差,0<i<n。
二值型数据支持度定义为:
s(x)=(n/n+m,n/n+m,n/n+m)
其中,n和m分别为1和0的个数。
程度类型数据的词汇术语数据中词汇空间w包含n个术语,对词汇按对决策支持度从低到高排序为w=(w0,w1,...,wn-1),支持度定义为:
s(wi)=(i/(n-1),i/(n-1),i/(n-1))
第二步、关联数据权重计算:
综合采用偏好权重和衰减权重来计算关联数据的权重。偏好权重由下式定义:
wi=f(i/n)-f((i-1)/n)
其中,i=1,2,...,n,f为模糊语义量化算子,定义为:
衰减权重采用自适应指数衰减来表示:
其中,t为当前时间,est为该权重出现的最早时间,hl为兴趣主题衰减的半衰期。
综合标签的偏好权重和衰减权重,某一标签的综合权重表示为:
t=λωi+(1-λ)θ
其中,λ是调和因子,ωi为偏好权重,θi为衰减权重。
第三步、构建ML-GkNN多标签学习算法:
设定数据的数量描述或质量描述源的中心样本点为x,它的近邻点按照与它的距离的由小到大依次记为x′1,x′2,...,x′k,...,与样本点距离记为dist(x,x′k),将最后一个满足条件:
的样本点记为m,则点x′1,x′2,...,x′m,...,x是相互等价的,通过粒度的粗细rate的取值控制等价类大小。
其相应的后验概率的计算式为:
其中,表示事件某样本标签l,s值平滑指数,表示在全体训练集中那些具有mi个最近邻样本点且这mi个最近邻样本点恰好有j个样本点都含有标签的样本点的数目。表示在全体训练集中那些具有mi个最近邻样本点且这mi个最近邻样本点恰好有j个样本点都均不含有标签的样本点的数目。
则通过ML-kNN分析得ML-GkNN计算公式为:
当大于时样本含有标签l。其中:γx表示样本点的标签向量,Px为标签隶属度向量,表示事件某样本含有标签l,表示测试样本x的k个最近邻近样本点中含有标签l的个数为Cx(l)的时间发生,Cx(l)为样本的k个最近邻点中含有标签l的样本个数。
计算得γx(l)就完成了对任意标签未知的样本的标签集的预测和样本对总标签集中每个标签的隶属度值的求解。
第四步、建立两层Xgboost多视角融合框架:
根据多源数据特征建立两层Xgboost多视角融合框架,第一层使用1个Xgboost模型迭代,并保留模型训练时树分裂所用到的全部特征作为第二层的输入:
其中,为预测值,wj为权值大小,xij为样本。
目标函数为:
惩罚项为:
其中,为预测值,γ为惩罚力度,λ为调节因子,为叶子节点的权重。
第二层模型使用Xgboost模型及Bagging模型相融合的方法,融合多源特征以提高模型的准确性与泛化能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910156017.9A CN109919219B (zh) | 2019-03-01 | 2019-03-01 | 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910156017.9A CN109919219B (zh) | 2019-03-01 | 2019-03-01 | 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109919219A true CN109919219A (zh) | 2019-06-21 |
CN109919219B CN109919219B (zh) | 2021-02-26 |
Family
ID=66962891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910156017.9A Active CN109919219B (zh) | 2019-03-01 | 2019-03-01 | 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919219B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722094A (zh) * | 2022-03-28 | 2022-07-08 | 天津大学 | 一种基于kano-g1的供应链业务多源异构数据融合方法 |
CN115270798A (zh) * | 2022-09-23 | 2022-11-01 | 深圳市华云中盛科技股份有限公司 | 一种用于案件审理的辅助决策方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296445A (zh) * | 2016-08-01 | 2017-01-04 | 国网浙江省电力公司 | 一种电力客户标签构建方法 |
CN106548375A (zh) * | 2016-11-04 | 2017-03-29 | 东软集团股份有限公司 | 用于构建产品画像的方法和装置 |
US20170154314A1 (en) * | 2015-11-30 | 2017-06-01 | FAMA Technologies, Inc. | System for searching and correlating online activity with individual classification factors |
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
CN108734327A (zh) * | 2017-04-20 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN108764663A (zh) * | 2018-05-15 | 2018-11-06 | 广东电网有限责任公司信息中心 | 一种电力客户画像生成管理的方法及系统 |
CN109086377A (zh) * | 2018-07-24 | 2018-12-25 | 江苏通付盾科技有限公司 | 设备画像的生成方法、装置及计算设备 |
CN109359868A (zh) * | 2018-10-18 | 2019-02-19 | 国网电子商务有限公司 | 一种电网用户画像的构建方法及系统 |
-
2019
- 2019-03-01 CN CN201910156017.9A patent/CN109919219B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170154314A1 (en) * | 2015-11-30 | 2017-06-01 | FAMA Technologies, Inc. | System for searching and correlating online activity with individual classification factors |
CN106296445A (zh) * | 2016-08-01 | 2017-01-04 | 国网浙江省电力公司 | 一种电力客户标签构建方法 |
CN106548375A (zh) * | 2016-11-04 | 2017-03-29 | 东软集团股份有限公司 | 用于构建产品画像的方法和装置 |
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
CN108734327A (zh) * | 2017-04-20 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN108764663A (zh) * | 2018-05-15 | 2018-11-06 | 广东电网有限责任公司信息中心 | 一种电力客户画像生成管理的方法及系统 |
CN109086377A (zh) * | 2018-07-24 | 2018-12-25 | 江苏通付盾科技有限公司 | 设备画像的生成方法、装置及计算设备 |
CN109359868A (zh) * | 2018-10-18 | 2019-02-19 | 国网电子商务有限公司 | 一种电网用户画像的构建方法及系统 |
Non-Patent Citations (2)
Title |
---|
何雪海 等: "网络安全用户行为画像方案设计", 《通信技术》 * |
郭光明: "基于社交大数据的用户信用画像方法研究", 《中国博士学位论文全文数据库》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722094A (zh) * | 2022-03-28 | 2022-07-08 | 天津大学 | 一种基于kano-g1的供应链业务多源异构数据融合方法 |
CN115270798A (zh) * | 2022-09-23 | 2022-11-01 | 深圳市华云中盛科技股份有限公司 | 一种用于案件审理的辅助决策方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109919219B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210049512A1 (en) | Explainers for machine learning classifiers | |
CN111124689A (zh) | 一种集群中容器资源动态分配方法 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
CN105929690B (zh) | 一种基于分解多目标进化算法的柔性车间鲁棒调度方法 | |
CN109165081B (zh) | 基于机器学习的Web应用自适应资源配置方法 | |
US10963802B1 (en) | Distributed decision variable tuning system for machine learning | |
CN110659363B (zh) | 基于膜计算的Web服务混合进化聚类方法 | |
CN108833302B (zh) | 云环境下基于模糊聚类及严格双边匹配的资源分配方法 | |
CN109919219B (zh) | 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 | |
CN113255873A (zh) | 一种聚类天牛群优化方法、系统、计算机设备和存储介质 | |
CN113032367A (zh) | 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统 | |
Shukla et al. | FAT-ETO: Fuzzy-AHP-TOPSIS-Based efficient task offloading algorithm for scientific workflows in heterogeneous fog–cloud environment | |
CN117764631A (zh) | 基于源端静态数据建模的数据治理优化方法及系统 | |
CN110232151B (zh) | 一种混合概率分布检测的QoS预测模型的构建方法 | |
CN116415177A (zh) | 一种基于极限学习机的分类器参数辨识方法 | |
CN113608855B (zh) | 一种边缘计算中服务功能链放置的强化学习方法 | |
Gong et al. | Evolutionary computation in China: A literature survey | |
CN117993772A (zh) | 一种基于知识图谱的众包数据采集方法、系统及电子设备 | |
Caschera et al. | MONDE: a method for predicting social network dynamics and evolution | |
Scherger et al. | A systematic overview of the prediction of business failure | |
CN112529141A (zh) | 一种基于改进免疫算法的学习路径生成方法 | |
CN117011751A (zh) | 使用变换器网络分割视频图像序列 | |
CN115221955A (zh) | 基于样本差异分析的多深度神经网络参数融合系统及方法 | |
CN113657501A (zh) | 模型自适应训练方法、装置、设备、介质及程序产品 | |
Gao et al. | Adaptive decision method in C3I system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |