CN109919219A

CN109919219A - 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法

Info

Publication number: CN109919219A
Application number: CN201910156017.9A
Authority: CN
Inventors: 胡燕祝; 王英剑; 艾新波; 王松
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-06-21
Anticipated expiration: 2039-03-01
Also published as: CN109919219B

Abstract

本发明公开了一种基于粒计算ML‑kNN的Xgboost多视角画像构建方法，步骤是：1多源异构数据的融合，2关联数据的权重计算，3基于粒计算的基础上构建ML‑kNN多标签学习，4建立两层Xgboost多视角融合框架。本发明与传统画像构建方法相比，其优点为本发明采用了将多源异构数据作为画像构建的数据集，解决传统画像构建中信息描述角度单一问题。采用基于粒子度的ML‑kNN多标签学习算法，通过对粒度粗细的调控来选择样本的近邻点集。采用双层Xgboost的多视角融合模型解决高维特征问题，提高模型的准确性与泛化能力。

Description

一种基于粒计算ML-kNN的Xgboost多视角画像构建方法

技术领域

本发明涉及计算机技术和数据分析领域，具体地说，主要是一种基于粒计算ML-kNN的Xgboost多视角画像构建方法。

背景技术

目前，大量的相关数据难以被整合和关联，无法充分挖掘数据所带来的更深层次的价值。现阶段的资源信息的知识库仍属于资源管理系统，仅提供信息查询和资料管理等，并不能通过智能分析来深层次挖掘信息来提供更好的服务。同时主要针对单一企业或者用户构建某一特定环境下的画像，没有形成一个通用的、泛化能力强的画像构建方法。

发明内容

为了解决上述问题，本发明提供一种基于粒计算ML-kNN的Xgboost多视角画像构建方法，其具体流程图如图1所示。

技术方案实施步骤如下：

第一步、多源异构数据融合：

对多源数据从数量和质量两方面进行描述，根据描述方式的不同，将数据分为定性和定量两类，主要包括随机变量、二值型、语言程度和词汇术语描述数据。

随机变量服从正态分布，记为：X～(μ,σ²)，其中：μ为期望，σ²为标准差，且满足P(μ-3σ＜X＜μ+3σ)＝0.9974。二值型数据分为描述状态的真假，真为1，假为0。语言程度采用等级0至9描述。词汇术语的数据采用词汇空间中规定的词汇或术语给出事物定性的描述。

采用三角模糊数计算多源数据对决策的支持度，将随机性数据区间[μ-3σ,μ+3σ]进行n等分，支持度的转换定义为：

其中，s(x)为支持度，x₀＝μ-3σ，μ为期望，σ为方差，0<i<n。

二值型数据支持度定义为：

s(x)＝(n/n+m,n/n+m,n/n+m)

其中，n和m分别为1和0的个数。

程度类型数据的词汇术语数据中词汇空间w包含n个术语，对词汇按对决策支持度从低到高排序为w＝(w₀,w₁,...,w_n-1)，支持度定义为：

s(w_i)＝(i/(n-1),i/(n-1),i/(n-1))

第二步、关联数据权重计算：

综合采用偏好权重和衰减权重来计算关联数据的权重。偏好权重由下式定义：

w_i＝f(i/n)-f((i-1)/n)

其中,i＝1,2,...,n,f为模糊语义量化算子，定义为：

其中：x,a,b∈[0,1]

衰减权重采用自适应指数衰减来表示:

其中，t为当前时间，est为该权重出现的最早时间，hl为兴趣主题衰减的半衰期。

综合标签的偏好权重和衰减权重，某一标签的综合权重表示为:

t＝λω_i+(1-λ)θ

其中，λ是调和因子，ω_i为偏好权重，θ_i为衰减权重。

第三步、构建ML-GkNN多标签学习算法：

设定数据的数量描述或质量描述源的中心样本点为x，它的近邻点按照与它的距离的由小到大依次记为x′₂,x′₂,...,x′_k,...,与样本点距离记为dist(x,x′_k)，将最后一个满足条件：

的样本点记为m，则点x′₁,x′₂,...,x′_m,...,x是相互等价的，通过粒度的粗细rate的取值控制等价类大小。

其相应的后验概率的计算式为：

其中，表示事件某样本标签l，s值平滑指数，表示在全体训练集中那些具有m_i个最近邻样本点且这m_i个最近邻样本点恰好有j个样本点都含有标签的样本点的数目。表示在全体训练集中那些具有m_i个最近邻样本点且这m_i个最近邻样本点恰好有j个样本点都均不含有标签的样本点的数目。

则通过ML-kNN分析得ML-GkNN计算公式为：

当大于时样本含有标签l。其中：γ_x表示样本点的标签向量，P_x为标签隶属度向量，表示事件某样本含有标签l，表示测试样本x的k个最近邻近样本点中含有标签l的个数为C_x(l)的时间发生，C_x(l)为样本的k个最近邻点中含有标签l的样本个数。

计算得γ_x(l)就完成了对任意标签未知的样本的标签集的预测和样本对总标签集中每个标签的隶属度值的求解。

第四步、建立两层Xgboost多视角融合框架:

根据多源数据特征建立两层Xgboost多视角融合框架，第一层使用1个Xgboost模型迭代，并保留模型训练时树分裂所用到的全部特征作为第二层的输入：

其中，为预测值，w_j为权值大小，x_ij为样本。

目标函数为：

惩罚项为：

其中，为预测值，γ为惩罚力度，λ为调节因子，为叶子节点的权重。

第二层模型使用Xgboost模型及Bagging模型相融合的方法，融合多源特征以提高模型的准确性与泛化能力。

本发明提供了一种基于粒计算ML-kNN的Xgboost多视角画像构建方法，此方法的优点：

(1)本发明采用了将多源异构数据作为画像构建的数据集，从数量和质量两方面进行描述，解决传统画像构建中信息描述角度单一问题，从多维度充分考虑对象特征。

(2)本发明采用基于粒子度的ML-kNN多标签学习算法，通过对粒度粗细的调控来选择样本的近邻点集，使得领域内的样本点之间具有高相似，并且只有与中心样本点具有高相似性的样本点才能进入此中心样本点近邻点集。

(3)本发明为充分利用多源特征，解决高维特征问题，采用双层Xgboost的多视角融合模型，提高模型的准确性与泛化能力。

为更好的解释本发明，下面结合附图作进一步的说明。

图1是建立多源数据和回归模型的多视角画像构建模型的步骤流程图。

图2是建立多源数据和回归模型的多视角画像构建模型的算法流程图。

图3是多种模型实验结果对比图。

具体实施方案

下面结合附图和具体的实施例，以某互联网企业相关的网络数据进行举例。对本发明进行说明

第一步、多源异构数据融合：

随机变量服从正态分布，记为：X～(μ,σ²)，其中：期望为1，标准差为4，且满足P(μ-3σ＜X＜μ+3σ)＝0.9974。二值型数据分为描述状态的真假，真为1，假为0。语言程度采用等级0至9描述。词汇术语的数据采用词汇空间中规定的词汇或术语给出事物定性的描述。

采用三角模糊数计算多源数据对决策的支持度，将随机性数据区间[μ-3σ,μ+3σ]进行100等分，将μ＝1和σ＝2带入公式，支持度的转换定义为：

其中，s(x)为支持度，x₀＝μ-3σ，μ为期望，σ为方差，0<i<n。得到s(x)为：

二值型数据支持度定义为：

s(x)＝(n/n+m,n/n+m,n/n+m)

其中，n和m分别为1和0的个数，取n和m分别为100和150。得s(x)为：

s(x)＝(2/5,2/5,2/5)

程度类型数据的词汇术语数据中词汇空间w包含n个术语，设n为30，对词汇按对决策支持度从低到高排序为w＝(w₀,w₁,...,w_n-1)，由支持度定义得：

s(w_i)＝(i/29,i/29,i/29)

其中，0＜i＜29。

第二步、关联数据权重计算：

w_i＝f(i/n)-f((i-1)/n)

其中,i＝1,2,...,n,f为模糊语义量化算子，定义为：

其中：x,a,b∈[0,1]

分别取x,a,b的为0.5，0.3，0.6，得到f(x)＝2/3。

衰减权重采用自适应指数衰减来表示:

其中，t为当前时间，est为该权重出现的最早时间，hl为兴趣主题衰减的半衰期。t设置为6.7，est为3.2，hl为20，得

t＝λω_i+(1-λ)θ

其中，λ是调和因子，ω_i为偏好权重，θ_i为衰减权重，设置调和因子为0.6。

第三步、构建ML-GkNN多标签学习算法：

设定数据的数量描述或质量描述源的中心样本点为20，它的近邻点按照与它的距离的由小到大依次记为x′₁,x′₂,...,x′_k,...,与样本点距离记为dist(x,x′_k)，将最后一个满足条件：

其相应的后验概率的计算式为：

其中，表示事件某样本标签l，s值平滑指数，表示在全体训练集中那些具有m_i个最近邻样本点且这m_i个最近邻样本点恰好有j个样本点都含有标签的样本点的数目。表示在全体训练集中那些具有m_i个最近邻样本点且这m_i个最近邻样本点恰好有j个样本点都均不含有标签的样本点的数目。设定s为1.6，为300，为200。

则通过ML-kNN分析得ML-GkNN计算公式为：

计算得到则样本含有标签l。其中：γ_x表示样本点的标签向量，P_x为标签隶属度向量，表示事件某样本含有标签l，表示测试样本x的k个最近邻近样本点中含有标签l的个数为C_x(l)的事件发生，C_x(l)为样本的k个最近邻点中含有标签l的样本个数。

第四步、建立两层Xgboost多视角融合框架:

根据多源数据特征建立两层Xgboost多视角融合框架，第一层使用1个Xgboost模型迭代100次，并保留模型训练时树分裂所用到的全部特征作为第二层的输入：

其中，为预测值，w_j为权值大小，x_ij为样本。

目标函数为：

惩罚项为：

其中，为预测值，γ设置为0.3，λ设置为0.4，为叶子节点的权重。

为了验证本发明对画像构建方法的准确性，对本发明进行了多组画像构建时延，并将结果于其它一些画像构建算法进行了对比，结果如表1所示。有仿真结果可以看出，本发明能够达到较高的准确率，并在不降低准确度的情况下，具有较好的稳定性。

表1多种模型实验结果对比

Claims

1.一种基于粒计算ML-kNN的Xgboost多视角画像构建方法，其特征在于，包括以下步骤：

第一步、多源异构数据融合：

二值型数据支持度定义为：

s(x)＝(n/n+m,n/n+m,n/n+m)

其中，n和m分别为1和0的个数。

s(w_i)＝(i/(n-1),i/(n-1),i/(n-1))

第二步、关联数据权重计算：

w_i＝f(i/n)-f((i-1)/n)

其中,i＝1,2,...,n,f为模糊语义量化算子，定义为：

衰减权重采用自适应指数衰减来表示:

t＝λω_i+(1-λ)θ

其中，λ是调和因子，ω_i为偏好权重，θ_i为衰减权重。

第三步、构建ML-GkNN多标签学习算法：

设定数据的数量描述或质量描述源的中心样本点为x，它的近邻点按照与它的距离的由小到大依次记为x′₁,x′₂,...,x′_k,...,与样本点距离记为dist(x,x′_k)，将最后一个满足条件：

其相应的后验概率的计算式为：

则通过ML-kNN分析得ML-GkNN计算公式为：

第四步、建立两层Xgboost多视角融合框架:

其中，为预测值，w_j为权值大小，x_ij为样本。

目标函数为：

惩罚项为：