发明内容
为了克服现有技术中的上述不足,本申请的目的在于提一种大数据融合处理方法,包括:
获取目标用户群体中每个目标用户的行为数据;
根据各所述目标用户的行为数据,获得各目标用户的个体行为特征
将各个所述目标用户的个体行为特征进行融合,得到所述目标用户群体的群体行为特征;
根据所述群体行为特征对所述目标用户群体进行分类,得到所述目标用户群体的至少一个群体类别标识。
在一种可能的实现方式中所述根据各所述目标用户的行为数据,获得各目标用户的个体行为特征的步骤,包括:
针对每个所述目标用户的行为数据,对该目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量;
对所述目标用户的行为数据的全量行为特征向量进行特定行为识别,确定所述目标用户的行为数据的全量行为特征向量的至少一个特定行为;
对所述目标用户的行为数据的全量行为特征向量中各个特定行为进行池化处理,得到所述目标用户的行为数据的各个特定行为的特定行为特征向量;
根据所述目标用户的行为数据的各个特定行为对所述目标用户群体的识别结果的预设影响程度参数,对所述目标用户的行为数据的全量行为特征向量以及各个特定行为的特定行为特征向量进行融合,得到所述目标用户的个体行为特征。
在一种可能的实现方式中,所述根据所述目标用户的行为数据的各个特定行为对所述目标用户群体的识别结果的预设影响程度参数,对所述目标用户的行为数据的全量行为特征向量以及各个特定行为的特定行为特征向量进行融合,得到所述目标用户的个体行为特征,包括:
根据所述目标用户的行为数据的各个特定行为对所述目标用户群体的识别结果的预设影响程度参数,确定所述目标用户的行为数据的各个特定行为对应的权重系数;
根据所述权重系数,对所述目标用户的行为数据的全量行为特征向量以及各个特定行为的特定行为特征向量进行加权处理,得到所述目标用户的个体行为特征。
在一种可能的实现方式中,所述将各个所述目标用户的个体行为特征进行融合,得到所述目标用户群体的群体行为特征,包括:
对各个所述目标用户的个体行为特征进行聚类处理,得到至少一个用户子集,并确定各个用户子集中作为聚类中心的中心个体行为特征;
针对每一个用户子集,计算所述用户子集中的非中心个体行为特征与中心个体行为特征的差值,得到所述用户子集的特征残差;
将各个用户子集的特征残差进行融合,得到所述目标用户群体的群体行为特征。
在一种可能的实现方式中,所述对各个所述目标用户的个体行为特征进行聚类处理,得到至少一个用户子集,并确定各个用户子集中作为聚类中心的中心个体行为特征,包括:
确定用户子集的数量N,其中,N为大于等于2的正整数;
从所述目标用户的个体行为特征中,选取N个个体行为特征分别作为N个用户子集的中心个体行为特征;
计算各个所述目标用户的个体行为特征与各个中心个体行为特征的向量距离;
将各个个体行为特征分别添加到与所述个体行为特征的向量距离最近的中心个体行为特征所属的用户子集中,得到N个用户子集;
针对每个用户子集,从所述用户子集中选取符合聚类中心条件的个体行为特征作为新的中心个体行为特征,返回执行所述计算各个所述目标用户的个体行为特征与各个中心个体行为特征的向量距离的步骤,直到各个用户子集的中心个体行为特征满足聚类结束条件,获得N个用户子集,并获得各用户子集中作为聚类中心的中心个体行为特征。
在一种可能的实现方式中,所述对所述目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量,包括:
通过用户分类模型,对所述目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量;
所述对所述目标用户的行为数据的全量行为特征向量进行特定行为识别,确定所述目标用户的行为数据的全量行为特征向量的至少一个特定行为,包括:
通过所述用户分类模型,对所述目标用户的行为数据的全量行为特征向量进行特定行为识别,确定所述目标用户的行为数据的全量行为特征向量的至少一个特定行为;
所述根据所述群体行为特征对所述目标用户群体进行分类,得到所述目标用户群体的至少一个群体类别标识,包括:
通过所述用户分类模型,根据所述群体行为特征对所述目标用户群体进行分类,得到所述目标用户群体的至少一个群体类别标识。
在一种可能的实现方式中,所述通过用户分类模型,对所述目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量之前,还包括:
获取训练样本,所述训练样本包括样本用户的样本用户的行为数据、以及所述样本用户对应的实际用户分类标签;
通过用户分类模型,对所述样本用户的行为数据进行特征提取,得到所述样本用户的行为数据对应的全量行为特征向量,对所述样本用户的行为数据的全量行为特征向量进行特定行为识别,确定所述样本用户的行为数据的全量行为特征向量的至少一个预测特定行为;
对所述样本用户的行为数据的全量行为特征向量中各个预测特定行为进行特征提取,得到所述样本用户的行为数据的各个预测特定行为的特定行为特征向量,并根据所述样本用户的行为数据的各个预测特定行为对所述样本用户的识别结果的预设影响程度参数,对所述样本用户的行为数据的全量行为特征向量以及各个预测特定行为的特定行为特征向量进行融合,得到所述样本用户的行为数据的个体行为特征;
将各个样本用户的行为数据的个体行为特征进行融合,得到所述样本用户的群体行为特征;
根据所述群体行为特征,确定所述样本用户在各个预设类别上的分类置信度;
计算所述分类置信度和所述样本用户的实际用户分类标签之间的第一损失值;
计算所述第一损失值对所述样本用户的群体行为特征的梯度下降值,并根据所述梯度下降值,计算所述样本用户的样本用户的行为数据的全量行为特征向量对应的命中概率矩阵;
根据所述样本用户的分类置信度,确定所述样本用户的类别信息;
当所述样本用户的类别信息与所述实际用户分类标签一致时,根据所述命中概率矩阵,获取所述样本用户的行为数据的全量行为特征向量的特定行为,并将获取的所述特定行为设置为所述样本用户的行为数据的真实特定行为;
当所述样本用户的类别信息与所述实际用户分类标签不一致时,根据所述命中概率矩阵,获取所述样本用户的行为数据的全量行为特征向量的非特定行为,并将获取的所述非特定行为设置为所述样本用户的行为数据的非真实特定行为;
根据所述真实特定行为和所述非真实特定行为,计算所述样本用户的行为数据的预测特定行为的第二损失值;
根据所述第一损失值和所述第二损失值,对用户分类模型的参数进行调整,得到满足预设条件的用户分类模型。
在一种可能的实现方式中,所述根据所述真实特定行为和所述非真实特定行为,计算所述样本用户的行为数据的预测特定行为的第二损失值,包括:
根据所述样本用户的行为数据的预测特定行为和所述真实特定行为的行为相似度,及所述样本用户的行为数据的预测特定行为和所述非真实特定行为的行为相似度,确定所述预测特定行为的真实特定行为概率;
通过用户分类模型,根据所述预测特定行为的特定行为特征向量,确定所述预测特定行为为真实的特定行为的分类置信度;
根据所述预测特定行为的分类置信度和对应的真实特定行为概率,计算所述预测特定行为的分类损失;
根据所述真实特定行为概率不低于置信度阈值的预测特定行为,在所述样本用户的行为数据的全量行为特征向量中的位置信息,以及所述真实特定行为在所述样本用户的行为数据的全量行为特征向量中的位置信息,计算所述预测特定行为的回归损失;
将所述分类损失和所述回归损失进行融合,得到所述样本用户的行为数据的预测特定行为的第二损失值。
在一种可能的实现方式中,所述方法还包括:
获取各用户的社交定位信息;
针对每一所述用户,根据所述社交定位信息分别获取与该用户距离最近的第一预设数量个最近用户;
从各所述用户中确定第一中心用户;
计算所述第一中心用户与其对应的第一预设数量个所述最近用户中每一个最近用户之间的距离与设定基准距离的商值;
将每个所述商值代入一自然常数的负指数函数,得到所述第一中心用户对应的第一预设数量个中间计算结果;
对所述第一预设数量个所述中间计算结果求和,得到所述第一中心用户对应的正向集中参数;
针对每一所述用户,判断各所述用户对应的正向集中参数与对应的第一预设数量个所述最近用户对应的正向集中参数的大小关系;
若所述用户对应的正向集中参数大于或等于对应的所述第一预设数量个所述最近用户对应的正向集中参数,则计算所述用户与对应的第一预设数量个所述最近用户之间的距离值,并将其中最大的距离值确定为所述用户对应的参考距离;
若所述用户对应的正向集中参数小于对应的所述第一预设数量个所述最近用户中至少一个用户对应的正向集中参数,则计算所述用户与目标最近用户之间的距离值,并将所述距离值中最小的距离值确定为所述用户对应的参考距离,其中所述目标最近用户对应的正向集中参数大于所述用户对应的正向集中参数;
获取各所述用户对应的正向集中参数和对应的第一预设数量个所述最近用户对应的正向集中参数;
从各所述用户中确定第二中心用户,计算所述第二中心用户对应的第一预设数量个所述最近用户中每一个最近用户对应的正向集中参数与所述第二中心用户对应的正向集中参数的商值的平均值,并将所述平均值作为所述第二中心用户的负向集中参数;
判断各所述用户的负向集中参数与预设阈值的大小关系;
若所述用户的负向集中参数大于预设阈值,则判定所述用户为无效用户,并将所述无效用户外的所述用户确定为有效用户;
根据各所述有效用户对应的所述正向集中参数和所述参考距离对所述有效用户进行聚类以获取得到至少一个用户群体。
在一种可能的实现方式中,所述根据各所述有效用户对应的所述正向集中参数和所述参考距离对所述有效用户进行聚类以获取得到至少一个用户群体,包括:
针对每一所述有效用户,计算该有效用户对应的所述正向集中参数和所述参考距离的乘积;
按照所述乘积从大到小的顺序对所述有效用户进行排序,得到有效用户序列;
从所述有效用户序列中的第一个所述有效用户开始,依次提取第二预设数量的所述有效用户为第三中心用户;
从剩余的所述有效用户中确定边缘用户;
计算所述边缘用户与各所述第三中心用户之间的距离值,并将所述边缘用户划分至所述距离值最小的第三中心用户所在的聚类簇,以获取所述用户群体。
本申请还提供一种大数据融合处理系统,包括数据采集设备和数据融合处理设备;
所述数据采集设备用户获取目标用户群体中每个目标用户的行为数据;
所述数据融合处理设备用于针对每个所述目标用户的行为数据,对该目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量;
对所述目标用户的行为数据的全量行为特征向量进行特定行为识别,确定所述目标用户的行为数据的全量行为特征向量的至少一个特定行为;
对所述目标用户的行为数据的全量行为特征向量中各个特定行为进行池化处理,得到所述目标用户的行为数据的各个特定行为的特定行为特征向量;
根据所述目标用户的行为数据的各个特定行为对所述目标用户群体的识别结果的预设影响程度参数,对所述目标用户的行为数据的全量行为特征向量以及各个特定行为的特定行为特征向量进行融合,得到所述目标用户的个体行为特征;
将各个所述目标用户的个体行为特征进行融合,得到所述目标用户群体的群体行为特征;
根据所述群体行为特征对所述目标用户群体进行分类,得到所述目标用户群体的至少一个群体类别标识。
综上所述,本申请提供一种大数据融合处理方法及系统,通过提取目标用户群体中每个目标用户的行为数据,并从单个目标用户的行为数据中识别出特定行为,并据此确定各个所述目标用户的个体行为特征,然后对各个所述目标用户的个体行为特征进行融合,得到整个目标用户群体的群体行为特征,再根据该群体行为特征对目标用户群体进行分类。如此确定出的群体行为特征更能准确地反映出个体对群体的影响,从而更准确地反映整个用户群体的特点,使得基于该群体行为特征进行的用户群体分类动作更加准确。
具体实施方式
请参照图1,本实施例提供了一种大数据融合处理系统,该大数据融合处理系统可以包括数据采集设备10和数据融合处理设备20。
所述数据采集设备10可以为用户使用的终端设备,该数据采集设备10可以采集用户的行为数据。可选地,所述用户行为数据可以包括用户的上网浏览行为、用户运动行为、用户位置轨迹等。
所述数据融合处理设备20可以用于针对已圈定的目标用户群体,根据该目标用户群体中各个所述目标用户的个体行为数据获得该目标用户群体的群体行为数据,并根据该群体行为数据确定该目标用户群体的分类。
请参照图2,图2为本实施例提供的一种大数据融合处理方法的步骤流程示意图,下面对该方法的各个步骤进行详细解释。
步骤S110,获取目标用户群体中每个目标用户的行为数据。
在本实施例中,可以通过各个所述目标用户的数据采集设备获得各个所述目标用户的行为数据。其中,所述行为数据可以包括用户上网浏览行为、购物行为、信息发布行为、搜索行为等,也可以包括数据采集设备采集的运动数据、地理位置数据等。
步骤S120,根据各所述目标用户的行为数据,获得各目标用户的个体行为特征。
在本实施例中,可以通过预先训练的神经网络模型进行特征提取,并对提取到的特征进行筛选、融合等处理后获得所述个体行为特征。
步骤S130,将各个所述目标用户的个体行为特征进行融合,得到所述目标用户群体的群体行为特征。
在本实施例中,通过将各个所述目标用户的个体行为特征进行融合得到整个目标用户群体的群体行为特征,使得该群体行为特征能够反映群体中各个个体的行为对整个群体的影响,能够更准确地表达目标用户群体的特性。
步骤S140,根据所述群体行为特征对所述目标用户群体进行分类,得到所述目标用户群体的至少一个群体类别标识。
可选地,在步骤S140中可以通过例如支持向量机(Support Vector Machine,SVM)或全连接深度神经网络(Deep Neural Networks,DNN)等分类器实现对目标用户群体的分类。
在本实施例中,由于所述群体行为特征为根据各个所述目标用户的个体行为特征融合获得的,因此根据所述群体行为特征执行的目标用户群体的分类可以更加准确。
在一些可能的实现方式中,请参照图3,步骤S120可以包括以下子步骤。
步骤S210,针对每个所述目标用户的行为数据,对该目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量。
在本实施例中,将各个所述目标用户的行为数据分别输入预先训练的卷积神经网络,通过所述卷积神经网络进行一次或多次卷积处理,以对所述行为数据进行特征提取,得到与所述目标用户的行为数据对应的全量行为特征向量。
步骤S220,对所述目标用户的行为数据的全量行为特征向量进行特定行为识别,确定所述目标用户的行为数据的全量行为特征向量的至少一个特定行为。
由于单个目标用户的行为数据中可能具有一些无效的行为,例如普适性的网页浏览行为;或者具有一些过于个性化,不能表征群体行为特性的行为。因此在本实施例中,需要从单个目标用户的全量行为特征向量中识别出具有代表性的特定行为,这些特定行为对应的特征将影响后续的特征提取融合过程。
步骤S230,对所述目标用户的行为数据的全量行为特征向量中各个特定行为进行池化处理,得到所述目标用户的行为数据的各个特定行为的特定行为特征向量。
在本实施例中,在识别出所述特定行为后,可以将所述全量行为特征向量中与所述特定行为对应的向量提取出来并进行池化处理,得到这些特定行为对应的特定行为特征向量。
步骤S240,根据所述目标用户的行为数据的各个特定行为对所述目标用户群体的识别结果的预设影响程度参数,对所述目标用户的行为数据的全量行为特征向量以及各个特定行为的特定行为特征向量进行融合,得到所述目标用户的个体行为特征。
在本实施例中,当确定出所述特定行为特征向量后,可以根据特性行为对用户群体分类动作的重要性对特定行为特征向量和全量行为特征向量进行加权融合。如此,得到的个体行为特征中包括了目标用户的全局行为特征和局部行为特征,能够更准确的反映目标用户的行为特性。
在一些可能的实现方式中,步骤S240可以包括以下子步骤。
步骤S241,根据所述目标用户的行为数据的各个特定行为对所述目标用户群体的识别结果的预设影响程度参数,确定所述目标用户的行为数据的各个特定行为对应的权重系数。
在本实施例中,不同的特定行为可以具有不同的预设影响程度参数,所述影响程度参数可以是会根据所述特定行为对目标用户群体分类的影响程度确定。
以用户的购买行为为例,用户购买日用商品的行为通常各个用户群体普适性具备的,因此,用户购买日用商品的行为对应的影响程度参数可以比较低;而购买奢侈商品的行为不是各个用户群体普适性具有的,因此用户购买奢侈商品的行为的影响程度参数可以较高。
以用户的运动行为为例,用户在工作时段的常规速度运动通常是各个用户群体普适性具有的,因此用户在工作时段的常规速度运动行为程度参数可以比较低;而在工作时间段剧烈运动的行为不是各个用户群体普适性具有的,因此在工作时间段剧烈运动的行为的影响程度参数可以较高。
步骤S242,根据所述权重系数,对所述目标用户的行为数据的全量行为特征向量以及各个特定行为的特定行为特征向量进行加权处理,得到所述目标用户的个体行为特征。
在本实施例中,对所述目标用户的行为数据的全量行为特征向量以及各个特定行为的特定行为特征向量进行加权处理,可以使得获得的个体行为特征中即具表征目标用户全局特征的全量行为特征向量,又具有特性行为局部特征的特定行为特征向量,并且所述特定行为特征向量经过加权处理,更能图像某些特定行为的重要性。如此,得出的个体行为特征更能准确地反映目标用户个体的能对所述目标用户群体造成影响的行为特征。
在一些可能的实现方式中,步骤S130可以包括以下子步骤。
步骤S131,对各个所述目标用户的个体行为特征进行聚类处理,得到至少一个用户子集,并确定各个用户子集中作为聚类中心的中心个体行为特征。
步骤S132,针对每一个用户子集,计算所述用户子集中的非中心个体行为特征与中心个体行为特征的差值,得到所述用户子集的特征残差。
步骤S133,将各个用户子集的特征残差进行融合,得到所述目标用户群体的群体行为特征。
在本实施例中,可以采用K-均值(K-means)聚类算法、K-中心点(K-medoids)算法、根据密度的聚类算法(Density-Based Spatial Clustering of Applications withNoise,DBSCAN)、层次聚类算法或者自组织映射聚类算法等进行上述聚类计算。
在一些可能的实现方式中,步骤S131可以包括以下子步骤。
步骤1311,确定用户子集的数量N,其中,N为大于等于2的正整数。
步骤1312,从所述目标用户的个体行为特征中,选取N个个体行为特征分别作为N个用户子集的中心个体行为特征。
步骤1313,计算各个所述目标用户的个体行为特征与各个中心个体行为特征的向量距离。
在本实施例中,所述个体行为特征和所述中心个体行为特征之间的向量距离可以表示二者之间的相似度。向量距离越小,相似度越大。计算个体行为特征和中心个体行为特征之间的向量距离的方式可以通过余弦距离或欧式距离等来计算。
步骤1314,将各个个体行为特征分别添加到与所述个体行为特征的向量距离最近的中心个体行为特征所属的用户子集中,得到N个用户子集。
步骤1315,针对每个用户子集,从所述用户子集中选取符合聚类中心条件的个体行为特征作为新的中心个体行为特征,返回执行所述计算各个所述目标用户的个体行为特征与各个中心个体行为特征的向量距离的步骤,直到各个用户子集的中心个体行为特征满足聚类结束条件,获得N个用户子集,并获得各用户子集中作为聚类中心的中心个体行为特征。
在本实施例中,对于每一个用户子集而言,分别计算该用户子集最新的中心个体行为特征与聚类过程中最近一次所采用的中心个体行为特征是否相同,即计算二者之间的向量距离是否为0。若相同,则可以认为该用户子集的聚类中心没有变化,如果所有用户子集的聚类中心都不再变化,则聚类过程完成,得到N个用户子集,并获得各用户子集中作为聚类中心的中心个体行为特征;如果不是所有用户子集的聚类中心都没有变化,则返回步骤S1313,直到每个用户子集的聚类中心不再发生变化。
应当理解的是,聚类计算中每个用户子集的最新的中心个体行为特征与该用户子集最近一次所采用的聚类中心相同只是结束循环的一个可选条件,该可选条件也可以是这两个聚类中心之间的差值小于某个预设的值。
在一些可能的实现方式中,在步骤S220中对所述目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量时,可以通过用户分类模型,对所述目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量。
在步骤S220中对所述目标用户的行为数据的全量行为特征向量进行特定行为识别,确定所述目标用户的行为数据的全量行为特征向量的至少一个特定行为时,可以通过所述用户分类模型,对所述目标用户的行为数据的全量行为特征向量进行特定行为识别,确定所述目标用户的行为数据的全量行为特征向量的至少一个特定行为。
在步骤S140中根据所述群体行为特征对所述目标用户群体进行分类,得到所述目标用户群体的至少一个群体类别标识时,可以通过所述用户分类模型,根据所述群体行为特征对所述目标用户群体进行分类,得到所述目标用户群体的至少一个群体类别标识。
在本实施例中,所述用户分类模型可以残差网络(ResNet,Residual Network)和密集连接卷积网络(DenseNet,DenseConvolutional Network)等。
可选地,在本实施例中,所述方法哈可以包括对所述分类模型的训练步骤。
步骤S401,获取训练样本,所述训练样本包括样本用户的样本用户的行为数据、以及所述样本用户对应的实际用户分类标签。
步骤S402,通过用户分类模型,对所述样本用户的行为数据进行特征提取,得到所述样本用户的行为数据对应的全量行为特征向量,对所述样本用户的行为数据的全量行为特征向量进行特定行为识别,确定所述样本用户的行为数据的全量行为特征向量的至少一个预测特定行为。
步骤S403,对所述样本用户的行为数据的全量行为特征向量中各个预测特定行为进行特征提取,得到所述样本用户的行为数据的各个预测特定行为的特定行为特征向量,并根据所述样本用户的行为数据的各个预测特定行为对所述样本用户的识别结果的预设影响程度参数,对所述样本用户的行为数据的全量行为特征向量以及各个预测特定行为的特定行为特征向量进行融合,得到所述样本用户的行为数据的个体行为特征。
步骤S404,将各个样本用户的行为数据的个体行为特征进行融合,得到所述样本用户的群体行为特征。
步骤S405,根据所述群体行为特征,确定所述样本用户在各个预设类别上的分类置信度。
步骤S406,计算所述分类置信度和所述样本用户的实际用户分类标签之间的第一损失值。
步骤S407,计算所述第一损失值对所述样本用户的群体行为特征的梯度下降值,并根据所述梯度下降值,计算所述样本用户的样本用户的行为数据的全量行为特征向量对应的命中概率矩阵。
步骤S408,根据所述样本用户的分类置信度,确定所述样本用户的类别信息。
步骤S409,当所述样本用户的类别信息与所述实际用户分类标签一致时,根据所述命中概率矩阵,获取所述样本用户的行为数据的全量行为特征向量的特定行为,并将获取的所述特定行为设置为所述样本用户的行为数据的真实特定行为。
步骤S410,当所述样本用户的类别信息与所述实际用户分类标签不一致时,根据所述命中概率矩阵,获取所述样本用户的行为数据的全量行为特征向量的非特定行为,并将获取的所述非特定行为设置为所述样本用户的行为数据的非真实特定行为。
步骤S411,根据所述真实特定行为和所述非真实特定行为,计算所述样本用户的行为数据的预测特定行为的第二损失值。
步骤S412,根据所述第一损失值和所述第二损失值,对用户分类模型的参数进行调整,得到满足预设条件的用户分类模型。
在本实施例中,可以采用反向传播算法对用户分类模型的参数进行调整,以使通过用户分类模型得到的分类置信度分类置信度与实际用户分类标签之间的第一损失值小于预设值其中,可以将该预设值设置尽量小,以提高用户分类模型的分类准确度。
通常,用户分类模型在某个预设类别上的分类置信度超过阈值,则可以认为该目标用户群体是该预设类别上的用户群体。在用户分类模型的训练过程中,如果用户分类模型预测出来的类别信息与实际用户分类标签一致时,即表示预测正确,则可以根据此次预测过程中涉及的参数,分析得到命中概率矩阵,可以根据该命中概率矩阵进行特定行为识别,得到样本用户的行为数据的真实特定行为。
在用户分类模型的训练过程中,如果用户分类模型预测出来的类别信息与实际用户分类标签不一致时,也就是说,通过用户分类模型对样本用户的群体类别标识预测错了,则可以根据此次预测过程中涉及的参数,分析得到命中概率矩阵,并根据该命中概率矩阵获取样本用户的行为数据的非真实特定行为。
具体地,在本实施例中,步骤S411可以包括以下子步骤。
步骤S4112,根据所述样本用户的行为数据的预测特定行为和所述真实特定行为的行为相似度,及根据所述样本用户的行为数据的预测特定行为和所述非真实特定行为的行为相似度,确定所述预测特定行为的非真实特定行为概率。
可选的,在一些实施例中,可以将与所述真实特定行为的区域特征相似度大于第一预设值的预测特定行为的真实特定行为概率设置为1;将与所述非真实特定行为的区域特征相似度大于第二预设值的预测特定行为的真实特定行为概率设置为0;所述第一预设值和第二预设值可以根据实际情况进行设置。
步骤S4113,通过用户分类模型,根据所述预测特定行为的特定行为特征向量,确定所述预测特定行为为真实的特定行为的分类置信度。
步骤S4114,根据所述预测特定行为的分类置信度和对应的真实特定行为概率,计算所述预测特定行为的分类损失。
步骤S4115,根据所述真实特定行为概率不低于置信度阈值的预测特定行为,在所述样本用户的行为数据的全量行为特征向量中的位置信息,以及所述真实特定行为在所述样本用户的行为数据的全量行为特征向量中的位置信息,计算所述预测特定行为的回归损失。
步骤S4116,将所述分类损失和所述回归损失进行融合,得到所述样本用户的行为数据的预测特定行为的第二损失值。
在一些实施例中,可以通过梯度下降值加权的类激活图(Grad-CAM,Grad-ClassActivation Map)来分析得到命中概率矩阵,先计算第一损失值对所述样本用户的群体行为特征的梯度下降值,用梯度下降值的全局平均来计算样本用户的行为数据的全量行为特征向量中各区域对应的影响系数,根据全量行为特征向量中各区域影响系数的大小,可以描绘出全量行为特征向量对应的命中概率矩阵。其中,目标用户群体的群体行为特征具体可以是由目标用户群体的各个所述目标用户的行为数据对应的个体行为特征拼接得到的。Grad-CAM其基本思路是对应于某个分类的特征映射的影响系数可以转换为利用反传梯度下降值来表达这个影响系数。
在一种可能的实现方式中,本申请提供的上述针对用户群体进行特征融合然后分类的方法可以用户对某个特定地理位置范围的用户群体进行分类。例如,将某一特定写字楼或某一小区的用户作为目标用户群体进行分类分析。再次情况下,在步骤S110之前,还可以包括根据用户的社交定位信息对用户进行聚类形成用户群体的步骤。具体地,在步骤110之前还可以包括以下步骤。
步骤S501,获取各用户的社交定位信息。
在本实施例中,所述社交定位信息可以包括用户的家庭住址、公司地址、常用付款位置、搜藏的位置、打卡的位置、点赞的位置等等位置信息。
步骤S502,针对每一所述用户,根据所述社交定位信息分别获取与该用户距离最近的第一预设数量个最近用户。
在本实施例中,针对一个用户,可以采用其中一种社交定位信息进行聚类分析。例如,针对日用品商铺选址策略分析时,可以采用用户的家庭住址信息进行聚类;针对奢侈品商铺选址策略分析时,可以采用用户常用支付位置进行聚类分析。
步骤S503,从各所述用户中确定第一中心用户。
在本实施例中,可以一次将每个所述用户作为所述第一中心用户进行分析。
步骤S504,计算所述第一中心用户与其对应的第一预设数量个所述最近用户中每一个最近用户之间的距离与设定基准距离的商值。
步骤S505,将每个所述商值代入一自然常数的负指数函数,得到所述第一中心用户对应的第一预设数量个中间计算结果。
步骤S506,对所述第一预设数量个所述中间计算结果求和,得到所述第一中心用户对应的正向集中参数。
在本实施例中,所述正向集中参数可以表征所述用户附近其他用户的密集程度。
步骤S507,针对每一所述用户,判断各所述用户对应的正向集中参数与对应的第一预设数量个所述最近用户对应的正向集中参数的大小关系。
步骤S508,若所述用户对应的正向集中参数大于或等于对应的所述第一预设数量个所述最近用户对应的正向集中参数,则计算所述用户与对应的第一预设数量个所述最近用户之间的距离值,并将其中最大的距离值确定为所述用户对应的参考距离。
话句话说,若所述用户的正向其中参数为周围预设数量个用户中最大的,则计算所述用户与对应的第一预设数量个所述最近用户之间最远的距离作为参考距离。
步骤S509,若所述用户对应的正向集中参数小于对应的所述第一预设数量个所述最近用户中至少一个用户对应的正向集中参数,则计算所述用户与目标最近用户之间的距离值,并将所述距离值中最小的距离值确定为所述用户对应的参考距离,其中所述目标最近用户对应的正向集中参数大于所述用户对应的正向集中参数。
话句话说,若所述用户的正向其中参数不为周围预设数量个用户中最大的,则计算所述用户与目标最近用户之间的距离值,并将所述距离值中最小的距离值确定为所述用户对应的参考距离。
步骤S510,获取各所述用户对应的正向集中参数和对应的第一预设数量个所述最近用户对应的正向集中参数。
步骤S511,从各所述用户中确定第二中心用户,计算所述第二中心用户对应的第一预设数量个所述最近用户中每一个最近用户对应的正向集中参数与所述第二中心用户对应的正向集中参数的商值的平均值,并将所述平均值作为所述第二中心用户的负向集中参数。
在本实施例中,所述第二目标用户可以是所有用户中的任意一个。所述负向集中参数可以表征所述用户位置的偏僻程度,即远离用户聚集位置的程度。
步骤S512,判断各所述用户的负向集中参数与预设阈值的大小关系。
步骤S513,若所述用户的负向集中参数大于预设阈值,则判定所述用户为无效用户,并将所述无效用户外的所述用户确定为有效用户。
若所述用户的负向集中参数大于预设阈值,则标识该用户距离任意一个用户聚集中心都比较远,该用户对的聚类分许不具有参考价值,因此可以将该用户标识为无效用户,在后续聚类分析过程中提出该无效用户,以避免其对聚类分析的影响。
步骤S514,根据各所述有效用户对应的所述正向集中参数和所述参考距离对所述有效用户进行聚类以获取得到至少一个用户群体。
在本实施例中,通过计算正向集中参数和负向集中参数,可以将社交位置比较零散的用户从聚类动作中排除出去,从而提出这些无效用户的聚类动作的影响。
在本实施例中,根据用户的社交位置信息对用户进行聚类,得到目标用户群体,然后在根据目标用户群体中各个所述目标用户的行为数据进行特征提取和融合,从而对目标用户群体进行分类。如此,可以对和用户行为相关的地域性策略提供指导,例如,对商铺位置安排、市政公共设施安排、供电供水供气布置等提供有利的指导。
在一些可能的实现方式中,步骤S514可以包括以下子步骤。
步骤S5141,针对每一所述有效用户,计算该有效用户对应的所述正向集中参数和所述参考距离的乘积。
步骤S5142,按照所述乘积从大到小的顺序对所述有效用户进行排序,得到有效用户序列。
步骤S5143,从所述有效用户序列中的第一个所述有效用户开始,依次提取第二预设数量的所述有效用户为第三中心用户。
步骤S5144,从剩余的所述有效用户中确定边缘用户。
在本实施例中,针对每个剩余的待聚类用户都需要判断其归属的聚类簇,因此可以先从剩余的待聚类用户中确定边缘用户确定其归属的聚类簇后,再依次判断其它剩余的待聚类用户归属的聚类簇,其中边缘用户可以是剩余的待聚类用户中的任意一个。
步骤S5145,计算所述边缘用户与各所述第三中心用户之间的距离值,并将所述边缘用户划分至所述距离值最小的第三中心用户所在的聚类簇,以获取所述用户群体。
其中,所述距离值可以是欧式距离,还可以是曼哈顿距离、切比雪夫距离等。
本申请还提供一种大数据融合处理系统,包括数据采集设备和数据融合处理设备。
所述数据采集设备用户获取目标用户群体中每个目标用户的行为数据。
所述数据融合处理设备用于针对每个所述目标用户的行为数据,对该目标用户的行为数据进行特征提取,得到所述目标用户的行为数据对应的全量行为特征向量;对所述目标用户的行为数据的全量行为特征向量进行特定行为识别,确定所述目标用户的行为数据的全量行为特征向量的至少一个特定行为;对所述目标用户的行为数据的全量行为特征向量中各个特定行为进行池化处理,得到所述目标用户的行为数据的各个特定行为的特定行为特征向量;根据所述目标用户的行为数据的各个特定行为对所述目标用户群体的识别结果的预设影响程度参数,对所述目标用户的行为数据的全量行为特征向量以及各个特定行为的特定行为特征向量进行融合,得到所述目标用户的个体行为特征;将各个所述目标用户的个体行为特征进行融合,得到所述目标用户群体的群体行为特征;根据所述群体行为特征对所述目标用户群体进行分类,得到所述目标用户群体的至少一个群体类别标识。
综上所述,本申请提供一种大数据融合处理方法及系统,通过提取目标用户群体中每个目标用户的行为数据,并从单个目标用户的行为数据中识别出特定行为,并据此确定各个所述目标用户的个体行为特征,然后对各个所述目标用户的个体行为特征进行融合,得到整个目标用户群体的群体行为特征,再根据该群体行为特征对目标用户群体进行分类。如此确定出的群体行为特征更能准确地反映出个体对群体的影响,从而更准确地反映整个用户群体的特点,使得基于该群体行为特征进行的用户群体分类动作更加准确。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。