CN108171538A

CN108171538A - 用户数据处理方法及系统

Info

Publication number: CN108171538A
Application number: CN201711428531.0A
Authority: CN
Inventors: 彭佳
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-15

Abstract

本发明公开了一种用户数据处理方法及系统。该用户数据处理方法包括：采集与产品相关的用户数据，所述用户数据包括用户访问数据和用户行为数据；根据用户访问数据、用户行为数据和产品属性获取用户的行为关键词集合，用户的行为关键词集合包括用户的行为关键词，所述用户的行为关键词与产品属性相关联；根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体。本发明能够实现实时预测出用户对该类别产品的需求，并预测出产品的受众度。

Description

用户数据处理方法及系统

技术领域

本发明涉及数据分析处理领域，特别涉及一种用户数据处理方法及系统。

背景技术

随着互联网的高速发展，基于互联网的产品竞争加剧，运营商针对互联网也推出了大量的产品，但在多如牛毛的产品中，如何评价产品效益，特别是产品类别的受欢迎程度，以便决定运营商的产品设计方向，是目前运营商产品策略中的难题。传统的方案是通过人工或系统调研，通过事先制定调研方案，然后寻找客户或者诱导客户填写调研问卷来决策产品设计和产品策略，但传统的方案存在如下问题：

1、由于调研策略等制定需要大量时间，无法及时反馈用户需求，无法连续反馈产品受众度的持续变化情况。

2、由于受访的用户在广大网民中是绝对的少数，由于提取用户反馈的数据量不够，常出现以偏概全的问题，不能正确或完整地反馈用户需求。

3、调研反馈缓慢，且调研问卷的方式都是用户有目的地填写，难以保证反馈的质量，使得难以真正反馈用户的需求。

发明内容

本发明提供一种用户数据处理方法及系统，用于实时预测和反馈用户对产品类别的需求和产品类别的受众度。

为实现上述目的，本发明提供一种用户数据处理方法，该用户数据处理方法包括：

采集与产品相关的用户数据，所述用户数据包括用户访问数据和用户行为数据；

根据用户访问数据、用户行为数据和产品属性获取用户的行为关键词集合，用户的行为关键词集合包括用户的行为关键词，所述用户的行为关键词与产品属性相关联；

根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体。

可选地，该用户数据处理方法还包括：

根据用户的行为关键词和预先确定的行为关键词的权值确定用户对产品属性的态度值。

可选地，用户的行为关键词集合还包括用户的行为关键词出现的次数，所述根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体包括：

根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值对与产品相关的用户进行聚类分析处理，获得多类用户群体。

可选地，所述根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值对与产品相关的用户进行聚类分析处理，获得多类用户群体包括：

根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值计算各用户的行为关键词的比重；

根据聚类算法对各用户的行为关键词的比重进行聚类分析处理，以对与产品相关的用户进行聚类分析处理，获得多类用户群体。

可选地，产品属性包括第一属性和第二属性，与第一属性相关联的用户的行为关键词的比重和与第二属性相关联的用户的行为关键词的比重构成多个数据点；所述根据聚类算法对各用户的行为关键词的比重进行聚类分析处理，以对与产品相关的用户进行聚类分析处理，获得多类用户群体包括：

从多个数据点中选取设定数量个数据点作为初始聚类中心，每个初始聚类中心对应一个聚类；

计算其余各数据点与初始聚类中心之间的距离；

根据其余各数据点与初始聚类中心之间的距离确定其余各数据点所属的聚类；

根据当前每个聚类中的数据点计算出当前每个聚类的聚类中心；

计算各数据点与当前聚类的聚类中心之间的距离；

根据各数据点与当前聚类的聚类中心之间的距离确定各数据点当前所属的聚类，每个聚类对应一类用户群体。

可选地，从多个数据点中选取设定数量个数据点作为初始聚类中心，每个初始聚类中心对应一个聚类之前还包括：

设置迭代初始参数k＝0；

所述根据当前每个聚类中的数据点计算出当前每个聚类的聚类中心之前还包括：

将当前迭代次数k进行加1处理；

所述根据各数据点与当前聚类的聚类中心之间的距离确定各数据点所属的聚类之后还包括：

判断当前第k次迭代时计算出的聚类的聚类中心与第k-1次迭代时计算出的聚类的聚类中心之间的差值和当前第k次迭代时计算出的聚类的聚类中心的比值是否小于设定阈值，若是，输出当前聚类，若否，执行所述将当前迭代次数k进行加1处理的步骤。

为实现上述目的，本发明提供一种用户数据处理系统，该用户数据处理系统包括：

数据采集模块，用于采集与产品相关的用户数据，所述用户数据包括用户访问数据和用户行为数据；

关键词获取模块，用于根据用户访问数据、用户行为数据和产品属性获取用户的行为关键词集合，用户的行为关键词集合包括用户的行为关键词，所述用户的行为关键词与产品属性相关联；

关键词处理模块，用于根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体。

可选地，该用户数据处理系统还包括：

确定模块，用于根据用户的行为关键词和预先确定的行为关键词的权值确定用户对产品属性的态度值。

可选地，用户的行为关键词集合还包括用户的行为关键词出现的次数；

所述关键词处理模块具体用于根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值对与产品相关的用户进行聚类分析处理，获得多类用户群体。

可选地，所述关键词处理模块具体用于根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值计算各用户的行为关键词的比重；根据聚类算法对各用户的行为关键词的比重进行聚类分析处理，以对与产品相关的用户进行聚类分析处理，获得多类用户群体。

本发明的有益效果：

本发明所提供的用户数据处理方法及系统的技术方案中，根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体，每类用户群体对应一种用户对产品的态度，从而可以实时预测出用户对该类别产品的需求，并预测出产品的受众度。

附图说明

图1为本发明实施例一提供的一种用户数据处理方法的流程图；

图2为本发明实施例二提供的一种用户数据处理方法的流程图；

图3为本发明实施例三提供的一种用户数据处理系统的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的用户数据处理方法及系统进行详细描述。

图1为本发明实施例一提供的一种用户数据处理方法的流程图，如图1所示，该用户数据处理方法包括：

步骤101、采集与产品相关的用户数据，用户数据包括用户访问数据和用户行为数据。

步骤102、根据用户访问数据、用户行为数据和产品属性获取用户的行为关键词集合，用户的行为关键词集合包括用户的行为关键词，所述用户的行为关键词与产品属性相关联。

步骤103、根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体。

本实施例所提供的用户数据处理方法的技术方案中，根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体，每类用户群体对应一种用户对产品的态度，从而可以实时预测出用户对该类别产品的需求，并预测出产品的受众度。

图2为本发明实施例二提供的一种用户数据处理方法的流程图，如图2所示，该用户数据处理方法包括：

步骤201、采集与产品相关的用户数据，用户数据包括用户访问数据和用户行为数据。

本实施例中，优选地，所述产品为互联网产品。

其中，用户访问数据可用集合模型D{id[手机号，IP]，时间，流量，URL}表示。D表示用户访问数据的集合模型，id表示用户标识，id包括用户手机号和用户IP地址，时间表示用户访问时间，流量表示用户访问产生的流量数据，URL为统一资源定位符。

由于产品在每次推广时，通常通过各种网站论坛等推广站群投放广告和诱导推广链接，用户行为数据可以通过采集各网络站群的数据获取。其中，用户行为数据可用集合模型C{id[手机号，IP]，时间，次数，认可度计量，关键词集合}表示，C表示用户行为数据的集合模型，认可度计量是指对产品的受众的计量，可以根据产品的具体需要进行选择，例如可以选择转化度作为计量，即认可产品的用户会通过点击订购产品，不认可就不订购，关键词集合包括投放诱导推广连接前，对链接的内容中埋下的锚点语义分析词，即关键词，或者从历史上的用户对产品的评价数据中提取出的关键词。

步骤202、根据用户访问数据、用户行为数据和产品属性获取用户的行为关键词集合，用户的行为关键词集合包括用户的行为关键词，用户的行为关键词与产品属性相关联。

具体地，步骤202包括：

步骤202a、根据用户访问数据和用户行为数据生成有效统计数据集。

由于用户行为数据是通过采集各网络站群的数据获取，又由于网络站群中网站的类型众多，因此可以根据网站特征和网站所运营的业务对网站进行分类，例如，娱乐类、新闻类、社区类和综合类等等，网站的类型可以用Tn来标识，例如，T1、T2、T3、…、Tn，分别代表不同网站的类型。根据产品的推广策略，可以确定网络站群中每个类型的网站的权值N，假如公司十分重视在某类型网站上进行推广的数据反馈，那么可以将该类型的网站的权值设置为较高的值，即调整N的值，而如果公司认为所有类型的网站同样重要，那么所有类型的网站的权值N可以均设为1。

本实施例中，有效统计数据集为{id，Tn，k1(次数)，k2(次数)，k3(次数)，…，kn(次数)}，其中，id为用户标识，Tn为网站的类型，kn为用户的行为关键词，次数为用户的行为关键词出现的次数。

步骤202b、根据有效统计数据集和产品属性获取用户的行为关键词集合，用户的行为关键词集合包括用户的行为关键词，用户的行为关键词与产品属性相关联。

本实施例中，产品属性包括第一属性和第二属性。例如，第一属性为颜色，第二属性为功能，那么可以从有效统计数据集中获取与产品的颜色相关联的用户的行为关键词，并获取与产品的功能相关联的用户的行为关键词，形成集合i[ki1(次数)，ki2(次数)，ki3(次数)，…，kin(次数)]和集合j[kj1(次数)，kj2(次数)，kj3(次数)，…，kjm(次数)]，i代表产品的第一属性，kin表示与产品的第一属性相关联的用户的行为关键词，n表示第n个用户的行为关键词，j代表产品的第二属性，kjm表示与产品的第二属性相关联的用户的行为关键词，m表示第m个用户的行为关键词。集合i[ki1(次数)，ki2(次数)，ki3(次数)，…，kin(次数)]和集合j[kj1(次数)，kj2(次数)，kj3(次数)，…，kjm(次数)]构成用户的行为关键词集合。那么，用户的有效统计数据集还可以表示为{id，Tn，i[ki1(次数)，ki2(次数)，ki3(次数)，…，kin(次数)]，j[kj1(次数)，kj2(次数)，kj3(次数)，…，kjm(次数)]}。本实施例中，产品属性包括但不仅限于第一属性和第二属性，还可以包括其他属性，此处不再一一列举。

步骤203、根据用户的行为关键词确定用户对产品属性的态度值。

具体地，根据对用户的行为关键词进行语义分析，结合用户的行为关键词的权值，确定用户对产品属性的态度值。例如，根据对与产品的颜色相关联的用户的行为关键词进行语义分析，确定用户对产品的颜色的态度值，用户对产品的颜色的态度值用于表示用户对产品的颜色的态度，例如，用户喜欢产品的某一颜色，或者用户不喜欢产品的某一颜色，或者用户不注重产品的颜色。

具体地，步骤203包括：根据用户的行为关键词和预先确定的行为关键词的权重值确定用户对产品属性的态度值。

根据步骤203，根据用户的行为关键词确定用户对产品属性的态度值，从而确定用户对产品属性的态度，可以通过统计用户对产品属性的态度，对产品进行改进，提高产品效益，以便于确定产品的设计方向。

步骤204、根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体。

本实施例中，每类用户群体对应一种用户对产品的态度，例如，喜欢、不喜欢或者不关注。

具体地，用户的行为关键词集合还包括用户的行为关键词出现的次数，步骤204包括：根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值对与产品相关的用户进行聚类分析处理，获得多类用户群体。

具体地，步骤204包括：

步骤2041、根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值生成用户的行为关键词的比重集合。

具体地，根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值计算各用户的行为关键词的比重，形成用户的行为关键词的比重集合，用户的行为关键词的比重集合为{id，Tn，i[ki1(Mi1)，ki2(Mi2)，ki3(Mi3)，…，kin(Min)]，j[kj1(Mj1)，kj2(Mj2)，kj3(Mj3)，…，kjm(Mim)]}，其中，Min表示与产品的第一属性相关联的用户的行为关键词中第n个用户的行为关键词的比重，Mim表示与产品的第二属性相关联的用户的行为关键词中第m个用户的行为关键词的比重。

假设用户的有效统计数据集为{id，Tn，i[ki1(次数)，ki2(次数)，ki3(次数)，…，kin(次数)]，j[kj1(次数)，kj2(次数)，kj3(次数)，…，kjm(次数)]}，那么用户的行为关键词的比重为其中，Nn为预先确定的用户的行为关键词的权重值，Nn可以是产品设计人员预先确定。例如，用户的行为关键词ki1的比重为用户的行为关键词ki1出现的次数与用户的行为关键词ki1的权重值Nn及Tn网站的权值的乘积，与ki2出现的次数、ki3出现的次数、…、kin出现的次数之和的比值。

步骤2042、计算所有用户的与产品属性相关联的用户的行为关键词的比重的平均值。

例如，与产品的第一属性相关联的用户的行为关键词的比重集合为i[ki1(Mi1)，ki2(Mi2)，ki3(Mi3)，…，kin(Min)]，那么所有用户的与产品属性相关联的用户的行为关键词的比重的平均值为所有i集合中所有Min的平均值。

步骤2043、将用户的行为关键词的比重与对应的平均值进行对比，筛选出大于平均值的用户的行为关键词的比重。

具体地，将与产品的第一属性向关联的用户的行为关键的比重与与产品的第一属性相关联的用户的行为关键词的比重的平均值进行对比，筛选出与产品的第一属性相关联的用户的行为关键词中比重大于平均值的用户的行为关键词及其对应的比重；将与产品的第二属性向关联的用户的行为关键的比重与与产品的第二属性相关联的用户的行为关键词的比重的平均值进行对比，筛选出与产品的第二属性相关联的用户的行为关键词中比重大于平均值的用户的行为关键词及其对应的比重。

步骤2044、根据聚类算法对各用户的行为关键词的比重进行聚类分析处理，以对与产品相关的用户进行聚类分析处理，获得多类用户群体。

具体地，根据聚类算法对大于对应的平均值的用户的行为关键词的比重进行聚类分析处理，以对与产品相关的用户进行聚类分析处理，获得多类用户群体。

本实施例中，与第一属性相关联的用户的行为关键词的比重和与第二属性相关联的用户的行为关键词的比重构成多个数据点。具体地，大于对应的平均值的用户的行为关键词的比重中，与第一属性相关联的用户的行为关键词的比重和与第二属性相关联的用户的行为关键词的比重构成多个数据点。

具体地，步骤2044包括：

步骤2044a、设置迭代初始参数k＝0。

步骤2044b、从多个数据点中选取设定数量个数据点作为初始聚类中心，每个初始聚类中心对应一个聚类。

步骤2044c、计算其余各数据点与初始聚类中心之间的距离。

步骤2044d、根据其余各数据点与初始聚类中心之间的距离确定其余各数据点所属的聚类。

步骤2044e、将当前迭代次数k进行加1处理。

步骤2044f、根据当前每个聚类中的数据点计算出当前每个聚类的聚类中心。

具体地，根据当前每个聚类中的数据点计算出当前每个聚类中的数据点的均值，该均值即为对应的聚类的聚类中心。

步骤2044g、计算各数据点与当前聚类的聚类中心之间的距离。

步骤2044h、根据各数据点与当前聚类的聚类中心之间的距离确定各数据点当前所属的聚类。

步骤2044i、判断当前迭代次数是否大于预设阈值，若是，输出各数据点当前所属的聚类，每个聚类对应一类用户群体，结束流程，若否，执行步骤2044j。

步骤2044j、判断当前第k次迭代时计算出的聚类的聚类中心与第k-1次迭代时计算出的聚类的聚类中心之间的差值和当前第k次迭代时计算出的聚类的聚类中心的比值是否小于设定阈值，若是，输出各数据点当前所属的聚类，每个聚类对应一类用户群体，若否，执行步骤2044e。

若判断出当前第k次迭代时计算出的聚类的聚类中心与第k-1次迭代时计算出的聚类的聚类中心之间的差值和当前第k次迭代时计算出的聚类的聚类中心的比值小于设定阈值，表明当前聚类的聚类中心的变化波动稳定。例如，假设设定阈值为0.05％，那么若判断出当前聚类的聚类中心的变化波动稳定在0至0.05％的范围时，此时，输出各数据点当前所属的聚类，每个聚类对应一类用户群体，即输出多类用户群体，结束流程。

图3为本发明实施例三提供的一种用户数据处理系统的结构示意图，如图3所示，该用户数据处理系统包括数据采集模块301、关键词获取模块302和关键词处理模块303。

数据采集模块301用于采集与产品相关的用户数据，所述用户数据包括用户访问数据和用户行为数据。

关键词获取模块302用于根据用户访问数据、用户行为数据和产品属性获取用户的行为关键词集合，用户的行为关键词集合包括用户的行为关键词，所述用户的行为关键词与产品属性相关联。

关键词处理模块303用于根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体。

本实施例中，用户数据处理系统还包括确定模块304，确定模块304用于根据用户的行为关键词和预先确定的行为关键词的权值确定用户对产品属性的态度值。

本实施例中，用户的行为关键词集合还包括用户的行为关键词出现的次数。具体地，关键词处理模块303具体用于根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值对与产品相关的用户进行聚类分析处理，获得多类用户群体。

具体地，关键词处理模块303具体用于根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值计算各用户的行为关键词的比重；根据聚类算法对各用户的行为关键词的比重进行聚类分析处理，以对与产品相关的用户进行聚类分析处理，获得多类用户群体。

本实施例所提供的用户数据处理系统，用于实现上述实施例二提供的用户数据处理方法，具体描述可参见上述实施例二，此处不再具体赘述。

本实施例所提供的用户数据处理系统的技术方案中，关键词处理模块用于根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体，每类用户群体对应一种用户对产品的态度，从而可以实时预测出用户对该类别产品的需求，并预测出产品的受众度。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种用户数据处理方法，其特征在于，包括：

2.根据权利要求1所述的用户数据处理方法，其特征在于，还包括：

3.根据权利要求1所述的用户数据处理方法，其特征在于，用户的行为关键词集合还包括用户的行为关键词出现的次数，所述根据用户的行为关键词对与产品相关的用户进行聚类分析处理，获得多类用户群体包括：

4.根据权利要求3所述的用户数据处理方法，其特征在于，所述根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值对与产品相关的用户进行聚类分析处理，获得多类用户群体包括：

5.根据权利要求4用户数据处理方法，其特征在于，产品属性包括第一属性和第二属性，与第一属性相关联的用户的行为关键词的比重和与第二属性相关联的用户的行为关键词的比重构成多个数据点；所述根据聚类算法对各用户的行为关键词的比重进行聚类分析处理，以对与产品相关的用户进行聚类分析处理，获得多类用户群体包括：

计算其余各数据点与初始聚类中心之间的距离；

计算各数据点与当前聚类的聚类中心之间的距离；

6.根据权利要求5所述的用户数据处理系统，其特征在于，

从多个数据点中选取设定数量个数据点作为初始聚类中心，每个初始聚类中心对应一个聚类之前还包括：

设置迭代初始参数k＝0；

将当前迭代次数k进行加1处理；

7.一种用户数据处理系统，其特征在于，包括：

8.根据权利要求7所述的用户数据处理系统，其特征在于，还包括：

9.根据权利要求7所述的用户数据处理系统，其特征在于，用户的行为关键词集合还包括用户的行为关键词出现的次数；

10.根据权利要求9所述的用户数据处理系统，其特征在于，

所述关键词处理模块具体用于根据用户的行为关键词、用户的行为关键词出现的次数和预先确定的行为关键词的权重值计算各用户的行为关键词的比重；根据聚类算法对各用户的行为关键词的比重进行聚类分析处理，以对与产品相关的用户进行聚类分析处理，获得多类用户群体。