CN115239364A

CN115239364A - 用户数据处理方法、装置、设备及存储介质

Info

Publication number: CN115239364A
Application number: CN202210683958.XA
Authority: CN
Inventors: 彭金; 曾祥勇; 徐介夫
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-10-25

Abstract

本发明涉及人工智能领域，公开了一种用户数据处理方法、装置、设备及存储介质，用于提高用户数据处理的准确率。所述用户数据处理方法包括：采集待处理的用户属性和操作数据，并对用户属性和操作数据进行标签量化处理，得到多维指标；通过聚类算法对多维指标进行用户分群，得到多个目标用户分群；获取多个业务设定方案，并根据多个业务设定方案和多个目标用户分群生成多个待测组合方案；调用老虎机算法对多个待测组合方案进行均等流量分配，得到用户行为数据，并计算每个待测组合方案对应的指标均值和置信区间；根据指标均值和置信区间确定目标组合方案。此外，本发明还涉及区块链技术，目标组合方案可存储于区块链节点中。

Description

用户数据处理方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种用户数据处理方法、装置、设备及存储介质。

背景技术

商家为了满足不同的客户需求，通常会营销活动建立多个方案，初期会将多个方案同时进行双向试验，运行一段时间后，根据实验设定的北极星指标对用户行为进行分析，通过统计推断理论判断各个方案的优劣，最后选定某个案作为线上运行方案。

现有方案为了避免用户个体对结论带来偏差，用户通常是被按一定比例随机分配至其中某个方案。为了保证结论可靠，通常采用一周或更长的试运营周期，该时间选择没有合理的理论依据，导致现有方案的准确率低。

发明内容

本发明提供了一种用户数据处理方法、装置、设备及存储介质，用于提高用户数据处理的准确率。

本发明第一方面提供了一种用户数据处理方法，所述用户数据处理方法包括：采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标；通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群；获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案；调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间；根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案。

可选的，在本发明第一方面的第一种实现方式中，所述采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标，包括：从预置的数据库中查询待处理的用户信息和设备信息，并将所述用户信息和所述设备信息作为用户属性；基于预设的页面埋点记录用户的操作数据，其中，所述操作数据包括：浏览时间、停留时长和点击次数；将所述用户数据和所述操作数据转换为标签化数据，并对所述标签化数据进行量化处理，得到多维指标。

可选的，在本发明第一方面的第二种实现方式中，所述通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群，包括：通过所述聚类算法对所述多维指标进行偏好数据提取，得到偏好指标数据；基于所述偏好指标数据构建用户偏好矩阵；对所述用户偏好矩阵进行粗聚类，得到初始群数目，并计算所述初始群数目的平均值；将所述初始群数目作为所述聚类算法的初始值，并根据所述初始值对所述多维指标进行二次聚类，得到所述多维指标对应的多个目标用户分群。

可选的，在本发明第一方面的第三种实现方式中，所述获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案，包括：从所述数据库中查询业务管理员预先配置的多个业务设定方案；分别对所述多个业务设定方案和所述多个目标用户分群进行两两组合，得到多个两两组合的结果；将所述两两组合的结果作为待测组合方案，得到多个待测组合方案。

可选的，在本发明第一方面的第四种实现方式中，所述调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间，包括：对所述多个待测组合方案进行初始化运行，并通过预置的老虎机算法对所述多个待测组合方案进行均等流量分配；根据预设的监控指标属性采集所述多个待测组合方案对应的用户行为数据；提取所述用户行为数据中每个待测组合方案对应的指标值，并计算所述指标值对应的指标均值；调用预置的置信度函数计算每个待测组合方案对应的置信区间。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案，包括：对所述多个待测组合方案对应的指标均值进行比较，并获取所述指标均值最大时对应的待测组合方案，得到最大指标均值方案；对除所述最大指标均值方案之外的所述多个待测组合方案进行置信区间比较，并计算所述置信区间最大时对应的待测组合方案，得到最大置信区间方案；判断所述最大指标均值方案和所述最大置信区间方案对应的置信区间是否重合；若不重合，则按照预设的流量分配策略从所述多个待测组合方案中确定目标组合方案。

可选的，在本发明第一方面的第六种实现方式中，所述若不重合，则按照预设的流量分配策略从所述多个待测组合方案中确定目标组合方案，包括：若不重合，则按照预设比例对流量进行分配，得到第一流量值和第二流量值；按照所述第一流量值和所述第二流量值对所述待测组合方案进行流量分配运行，得到运行置信度；根据所述运行置信度对所述多个待测组合方案进行二次流量分配，并从所述多个待测组合方案中确定目标组合方案。

本发明第二方面提供了一种用户数据处理装置，所述用户数据处理装置包括：采集模块，用于采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标；分群模块，用于通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群；生成模块，用于获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案；计算模块，用于调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间；输出模块，用于根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案。

可选的，在本发明第二方面的第一种实现方式中，所述采集模块具体用于：从预置的数据库中查询待处理的用户信息和设备信息，并将所述用户信息和所述设备信息作为用户属性；基于预设的页面埋点记录用户的操作数据，其中，所述操作数据包括：浏览时间、停留时长和点击次数；将所述用户数据和所述操作数据转换为标签化数据，并对所述标签化数据进行量化处理，得到多维指标。

可选的，在本发明第二方面的第二种实现方式中，所述分群模块具体用于：通过所述聚类算法对所述多维指标进行偏好数据提取，得到偏好指标数据；基于所述偏好指标数据构建用户偏好矩阵；对所述用户偏好矩阵进行粗聚类，得到初始群数目，并计算所述初始群数目的平均值；将所述初始群数目作为所述聚类算法的初始值，并根据所述初始值对所述多维指标进行二次聚类，得到所述多维指标对应的多个目标用户分群。

可选的，在本发明第二方面的第三种实现方式中，所述生成模块具体用于：从所述数据库中查询业务管理员预先配置的多个业务设定方案；分别对所述多个业务设定方案和所述多个目标用户分群进行两两组合，得到多个两两组合的结果；将所述两两组合的结果作为待测组合方案，得到多个待测组合方案。

可选的，在本发明第二方面的第四种实现方式中，所述计算模块具体用于：对所述多个待测组合方案进行初始化运行，并通过预置的老虎机算法对所述多个待测组合方案进行均等流量分配；根据预设的监控指标属性采集所述多个待测组合方案对应的用户行为数据；提取所述用户行为数据中每个待测组合方案对应的指标值，并计算所述指标值对应的指标均值；调用预置的置信度函数计算每个待测组合方案对应的置信区间。

可选的，在本发明第二方面的第五种实现方式中，所述输出模块还包括：第一比较单元，用于对所述多个待测组合方案对应的指标均值进行比较，并获取所述指标均值最大时对应的待测组合方案，得到最大指标均值方案；第二比较单元，用于对除所述最大指标均值方案之外的所述多个待测组合方案进行置信区间比较，并计算所述置信区间最大时对应的待测组合方案，得到最大置信区间方案；判断单元，用于判断所述最大指标均值方案和所述最大置信区间方案对应的置信区间是否重合；输出单元，用于若不重合，则按照预设的流量分配策略从所述多个待测组合方案中确定目标组合方案。

可选的，在本发明第二方面的第六种实现方式中，所述输出单元具体用于：若不重合，则按照预设比例对流量进行分配，得到第一流量值和第二流量值；按照所述第一流量值和所述第二流量值对所述待测组合方案进行流量分配运行，得到运行置信度；根据所述运行置信度对所述多个待测组合方案进行二次流量分配，并从所述多个待测组合方案中确定目标组合方案。

本发明第三方面提供了一种用户数据处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述用户数据处理设备执行上述的用户数据处理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的用户数据处理方法。

本发明提供的技术方案中，采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标；通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群；获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案；调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间；根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案。本发明通过对用户行为数据划分用户分群，再根据用户分群进行智能调节流量分配至最优方案，得到目标组合方案，提高了方案生成的准确率，进而提高了用户数据处理的准确率。

附图说明

图1为本发明实施例中用户数据处理方法的一个实施例示意图；

图2为本发明实施例中用户数据处理方法的另一个实施例示意图；

图3为本发明实施例中用户数据处理装置的一个实施例示意图；

图4为本发明实施例中用户数据处理装置的另一个实施例示意图；

图5为本发明实施例中用户数据处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种用户数据处理方法、装置、设备及存储介质，用于提高用户数据处理的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中用户数据处理方法的第一个实施例包括：

101、采集待处理的用户属性和操作数据，并对用户属性和操作数据进行标签量化处理，得到多维指标；

可以理解的是，本发明的执行主体可以为用户数据处理装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，服务器从预置的数据库采集用户属性，其中，用户属性包括年龄，星座，出生日期，身高，性别，使用设备型号等用户属性信息，该操作数据具体包括用户的浏览时长，在页面的停留时长及点击次数等，需要说明的是，标签的来源可以是用户自己标注的标签，也可以是收集用户言论以及社交行为提取的，对于收集到的用户言论可以通过现有的分词工具对用户言论文本集合提取名词术语，然后用词频分析方法，例如TF-IDF等，将获得较高词频的词作为标签，需要说明的是，多维指标可以指的是用于量化标签准确度的参数，例如：如果用平台中每一种风险类型对应的商户数量来量化风险类型，那么，量化指标可以是商户数量，如果用平台中的交易数量来量化风险类型，那么，量化指标可以是交易数量，本发明实施例中，量化指标至少可以包括商户数量、交易数量、业务类型以及交易额中的一种或多种。

102、通过预置的聚类算法对多维指标进行用户分群，得到多维指标对应的多个目标用户分群；

需要说明的是，聚类算法采用的是无监督的学习方式进行迭代训练，它可以将任意维度的多维指标数据映射到低维空间，既降低了向量维度，又减轻了迭代训练的计算复杂度，同时也保持着多维指标数据的原始拓扑结构。因此，将多维指标数据经过聚类算法进行粗聚类后，一方面，可以得到确定的粗聚类簇数和粗聚类中心数，另一方面，多维指标数据的原始拓扑结构没有被改变，当进入到二次聚类时的样本还是多维指标数据，从而可以确保数据的一致性和稳定性，本发明实施例中，当获得粗聚类簇数和粗聚类中心数后，服务器基于粗聚类簇和粗聚类中心对多维指标数据进行二次聚类，得到目标聚类中心，进而通过该目标聚类中心得到多维指标对应的多个目标用户分群；

103、获取预置的多个业务设定方案，并根据多个业务设定方案和多个目标用户分群生成多个待测组合方案；

需要说明的是，业务设定方案可以为当用户分群为1级用户群时，服务器在该用户群搜索某类商品后优先展示50-200元商品，当用户分群为2级，服务器在该用户群搜索某类商品后优先展示300-500元商品，本发明实施例中，当服务器获取到上述多个业务设定方案后，根据多个目标用户分群进行方案匹配，生成多个待测组合方案。

104、调用预置的老虎机算法对多个待测组合方案进行均等流量分配，得到用户行为数据，并根据用户行为数据计算每个待测组合方案对应的指标均值和置信区间；

具体的，服务器调用预置的老虎机算法对多个待测组合方案的流量采用均匀分配的方式进行分配，同时服务器收集多组用户行为数据，需要说明的是，上述用户行为数据可以为用户购买商品、将商品加入购物车等行为数据，进而服务器利用这些行为数据计算出各目标用户分群的指标均值和95％置信区间。

105、根据指标均值和置信区间从多个待测组合方案中确定目标组合方案。

具体的，基于上述每个待测组合方案对应的指标均值和置信区间，服务器针对每个用户分群筛选选出指标均值最大，以及其余方案中置信区间上界最大的方案，进而服务器判断每个用户分群中选出的两个方案的置信区间是否重合，如果不重合，用户分群中80％的流量分给均值最大，置信区间上界最大者，剩下20％的流量所有方案平均分配，反之80％流量均匀分配至选出的两个方案，剩下20％的流量所有方案平均分配，并进行下一轮，直至确定目标组合方案。需要强调的是，为进一步保证上述目标组合方案的私密性和安全性，上述目标组合方案还可以存储于一区块链的节点中。

本发明实施例中，采集待处理的用户属性和操作数据，并对用户属性和操作数据进行标签量化处理，得到多维指标；通过预置的聚类算法对多维指标进行用户分群，得到多维指标对应的多个目标用户分群；获取预置的多个业务设定方案，并根据多个业务设定方案和多个目标用户分群生成多个待测组合方案；调用预置的老虎机算法对多个待测组合方案进行均等流量分配，得到用户行为数据，并根据用户行为数据计算每个待测组合方案对应的指标均值和置信区间；根据指标均值和置信区间从多个待测组合方案中确定目标组合方案。本发明通过对用户行为数据划分用户分群，再根据用户分群进行智能调节流量分配至最优方案，得到目标组合方案，提高了方案生成的准确率，进而提高了用户数据处理的准确率。

请参阅图2，本发明实施例中用户数据处理方法的第二个实施例包括：

201、采集待处理的用户属性和操作数据，并对用户属性和操作数据进行标签量化处理，得到多维指标；

具体的，服务器从预置的数据库中查询待处理的用户信息和设备信息，并将用户信息和设备信息作为用户属性；服务器基于预设的页面埋点记录用户的操作数据，其中，操作数据包括：浏览时间、停留时长和点击次数；服务器将用户数据和操作数据转换为标签化数据，并对标签化数据进行量化处理，得到多维指标。

需要说明的是，用户属性数据可以表示用户的当前状态，所以，当用户的状态信息发生变化时，对应的用户属性数据也相应发生变化。其中，应用程序之中用户的用户属性数据存储于数据库服务器中。例如，当用户在使用应用程序时，可能会使得用户的状态信息发生变化，从而使得用户的属性数据发生变化。在用户属性数据发生变化时，需要对数据库之中该用户的用户属性数据进行更新，服务器根据预置的数据接口从数据库中获取待处理的用户信息和设备信息，在本实施例中，服务器端通过在用户终端的应用程序中添加埋点代码来设置数据埋点，并进一步通过数据埋点获取具体应用程序的埋点数据用于分析应用程序使用情况，埋点数据包括用户对所述应用程序进行操作的操作记录，本发明实施例中，埋点数据包括但不限于：用户在用户终端的中对应用程序进行操作的操作记录等数据，操作记录包括但不限制于应用程序中具体功能模块一段时间内的使用频率、使用次数、累计使用时长、最大使用时长、使用时间段、平均使用时长、浏览时间、停留时长和点击次数等，然后服务器对用户数据和操作数据进行标签化，需要说明的是当数据的标签存在缺失时，对标签进行重定义，并赋予数据重定义的标签，在进行标签化处理之前，服务器预先存储多个标签，建立标签库，每个标签对应不同的行为属性，最终服务器并标签化数据进行量化处理，得到多维指标。

202、通过预置的聚类算法对多维指标进行用户分群，得到多维指标对应的多个目标用户分群；

具体的，服务器通过聚类算法对多维指标进行偏好数据提取，得到偏好指标数据；服务器基于偏好指标数据构建用户偏好矩阵；服务器对用户偏好矩阵进行粗聚类，得到初始群数目，并计算初始群数目的平均值；服务器将初始群数目作为聚类算法的初始值，并根据初始值对多维指标进行二次聚类，得到多维指标对应的多个目标用户分群。

需要说明的是，在服务器对用户偏好矩阵进行粗聚类时，可以得到确定的粗聚类簇数和粗聚类中心数，进而服务器通过该粗聚类簇数和粗聚类中心数确定初始群数目，并通过对该初始群数目进行算术平均计算，得到初始群数目的平均值，进而在服务器根据初始群数目进行二次聚类时，服务器根据粗聚类和二次聚类处理最终得到的最优聚类中心。具体的，根据粗聚类后确定的粗聚类簇和粗聚类中心对原始样本数据进行二次聚类，随着二次聚类的进行原始样本数据所在的聚类簇可能会发生变化，但是二次聚类的聚类簇的数量不变，与粗聚类簇的数量相同。由此，将确定的粗聚类簇和粗聚类中心作为二次聚类的初始聚类簇数和聚类中心，进而得到得到多维指标对应的多个目标用户分群，可以提高二次聚类的聚类精确性和聚类效果。

203、获取预置的多个业务设定方案，并根据多个业务设定方案和多个目标用户分群生成多个待测组合方案；

具体的，服务器从数据库中查询业务管理员预先配置的多个业务设定方案；服务器分别对多个业务设定方案和多个目标用户分群进行两两组合，得到多个两两组合的结果；服务器将两两组合的结果作为待测组合方案，得到多个待测组合方案。

需要说明的是，业务设定方案可以为当用户分群为1级用户群时，服务器在该用户群搜索某类商品后优先展示50-200元商品，当用户分群为2级，服务器在该用户群搜索某类商品后优先展示300-500元商品，具体的，本发明实施例中，服务器首先对上述多个目标用户分群进行类别分析，确定每一目标用户分群对应的用户群类别，进而服务器根据每一目标用户分群对应的用户群类别确定对应的业务设定方案，得到多个两两组合的结果，最终服务器将两两组合的结果作为待测组合方案，得到多个待测组合方案。

204、调用预置的老虎机算法对多个待测组合方案进行均等流量分配，得到用户行为数据，并根据用户行为数据计算每个待测组合方案对应的指标均值和置信区间；

具体的，服务器对多个待测组合方案进行初始化运行，并通过预置的老虎机算法对多个待测组合方案进行均等流量分配；服务器根据预设的监控指标属性采集多个待测组合方案对应的用户行为数据；服务器提取用户行为数据中每个待测组合方案对应的指标值，并计算指标值对应的指标均值；服务器调用预置的置信度函数计算每个待测组合方案对应的置信区间。

具体的，服务器对各待测组合方案均匀分配所有的流量，此时服务器通过在用户终端的应用程序中添加埋点代码来设置数据埋点，并进一步通过数据埋点获取具体应用程序的埋点数据用于分析应用程序使用情况，埋点数据包括用户对所述应用程序进行操作的操作记录，本发明实施例中，埋点数据包括但不限于：用户在用户终端的中对应用程序进行操作的操作记录等数据，操作记录包括但不限制于应用程序中具体功能模块一段时间内的使用频率、使用次数、累计使用时长、最大使用时长、使用时间段、平均使用时长、浏览时间、停留时长和点击次数等，进而服务器对该上述多种用户行为数据进行指标数值分析，例如当对交易数量指标进行数值分析时，服务器对交易数量进行均值计算，得到每一待测组合方案对应的指标均值，需要说明的是，本发明实施例中，置信区间为95％置信区间，例如由100个样本构造的总体参数的100个置信区间中,有95％的区间包含了总体参数的真正值,5％没包含,这个95％称为置信区间水平，同时服务器根据多个用户行为数据计算每一待测方案对应的95％置信区间。

205、对多个待测组合方案对应的指标均值进行比较，并获取指标均值最大时对应的待测组合方案，得到最大指标均值方案；

其中，当服务器对该上述多种待测组合方案进行指标数值分析后，例如当对交易数量指标进行数值分析时，服务器对交易数量进行均值计算，得到每一待测组合方案对应的指标均值，服务器对该每一待测组合方案对应的指标均值进行数值比较，确定其中最大指标均值对应的待测组合方案，则此时得到最大指标均值方案。

206、对除最大指标均值方案之外的多个待测组合方案进行置信区间比较，并计算置信区间最大时对应的待测组合方案，得到最大置信区间方案；

需要说明的是，服务器对各待测组合方案均匀分配所有的流量，此时服务器通过在用户终端的应用程序中添加埋点代码来设置数据埋点，以通过数据埋点获取用户行为数据，进而服务器通过用户行为数据获得上述各待测组合方案对应的指标值，之后服务器从各待测组合方案对应的指标值中随机抽取的数值，得到多个待测组合方案对应的差异值，进而服务器合并多个待测组合方案对应的差异值，并根据合并后的差异值，得到置信区间，进而服务器对除最大指标均值方案之外的多个待测组合方案进行置信区间比较，其中，在进行置信区间比较时，服务器对该个多个待测组合方案对应的置信区间的上界进行比较，并计算置信区间最大时对应的待测组合方案，得到最大置信区间方案。

207、判断最大指标均值方案和最大置信区间方案对应的置信区间是否重合；

具体的，置信区间是基于服务器求得的上述各待测组合方案的指标均值进行抽样误差计算，得到抽样误差之后，通过上述各待测组合方案的指标均值减去上述各待测组合方案对应的抽样误差之后，得到置信区间的两个端点，进而服务器根据上述各待测组合方案的置信区间的两个端点进行重合分析，判断最大指标均值方案和最大置信区间方案对应的置信区间是否重合。

208、若不重合，则按照预设的流量分配策略从多个待测组合方案中确定目标组合方案。

具体的，若不重合，服务器则按照预设比例对流量进行分配，得到第一流量值和第二流量值；服务器按照所述第一流量值和所述第二流量值对所述待测组合方案进行流量分配运行，得到运行置信度；服务器根据所述运行置信度对所述多个待测组合方案进行二次流量分配，并从所述多个待测组合方案中确定目标组合方案。

其中，如果最大指标均值方案和最大置信区间方案对应的置信区间不重合，则将上述对多个待测组合方案中进行均等流量分配后的用户分群中80％的流量分给均值最大，置信区间上界最大者，剩下20％的流量所有方案平均分配，反之80％流量均匀分配至选出的两个方案，剩下20％的流量所有方案平均分配，如果只存在两个待测组合方案时，在开始比较时置信度设置为75％，此时，三分之二的流量会分配给置信区间上界最大者，三分之一的流量会分配另一待测组合方案中对应的用户分群，之后，当达到95％的置信度时，90％的流量会分配给置信区间上界最大者，10％的流量会分配给另一待测组合方案中对应的用户分群，并确定确定目标组合方案。

本发明实施例中，服务器对用户偏好矩阵进行粗聚类时，可以得到确定的粗聚类簇数和粗聚类中心数，进而服务器通过该粗聚类簇数和粗聚类中心数确定初始群数目，并通过对该初始群数目进行算术平均计算，得到初始群数目的平均值，进而在服务器根据初始群数目进行二次聚类时，服务器根据粗聚类和二次聚类处理最终得到的最优聚类中心，服务器根据粗聚类后确定的粗聚类簇和粗聚类中心对原始样本数据进行二次聚类，随着二次聚类的进行原始样本数据所在的聚类簇可能会发生变化，但是二次聚类的聚类簇的数量不变，与粗聚类簇的数量相同。由此，将确定的粗聚类簇和粗聚类中心作为二次聚类的初始聚类簇数和聚类中心，进而得到得到多维指标对应的多个目标用户分群，可以提高二次聚类的聚类精确性和聚类效果。

上面对本发明实施例中用户数据处理方法进行了描述，下面对本发明实施例中用户数据处理装置进行描述，请参阅图3，本发明实施例中用户数据处理装置第一个实施例包括：

采集模块301，用于采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标；

分群模块302，用于通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群；

生成模块303，用于获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案；

计算模块304，用于调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间；

输出模块305，用于根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案。

本发明实施例中，采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标；通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群；获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案；调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间；根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案。本发明通过对用户行为数据划分用户分群，再根据用户分群进行智能调节流量分配至最优方案，得到目标组合方案，提高了方案生成的准确率，进而提高了用户数据处理的准确率。

请参阅图4，本发明实施例中用户数据处理装置第二个实施例包括：

可选的，所述采集模块301具体用于：从预置的数据库中查询待处理的用户信息和设备信息，并将所述用户信息和所述设备信息作为用户属性；基于预设的页面埋点记录用户的操作数据，其中，所述操作数据包括：浏览时间、停留时长和点击次数；将所述用户数据和所述操作数据转换为标签化数据，并对所述标签化数据进行量化处理，得到多维指标。

可选的，所述分群模块302具体用于：通过所述聚类算法对所述多维指标进行偏好数据提取，得到偏好指标数据；基于所述偏好指标数据构建用户偏好矩阵；对所述用户偏好矩阵进行粗聚类，得到初始群数目，并计算所述初始群数目的平均值；将所述初始群数目作为所述聚类算法的初始值，并根据所述初始值对所述多维指标进行二次聚类，得到所述多维指标对应的多个目标用户分群。

可选的，所述生成模块303具体用于：从所述数据库中查询业务管理员预先配置的多个业务设定方案；分别对所述多个业务设定方案和所述多个目标用户分群进行两两组合，得到多个两两组合的结果；将所述两两组合的结果作为待测组合方案，得到多个待测组合方案。

可选的，所述计算模块304具体用于：对所述多个待测组合方案进行初始化运行，并通过预置的老虎机算法对所述多个待测组合方案进行均等流量分配；根据预设的监控指标属性采集所述多个待测组合方案对应的用户行为数据；提取所述用户行为数据中每个待测组合方案对应的指标值，并计算所述指标值对应的指标均值；调用预置的置信度函数计算每个待测组合方案对应的置信区间。

可选的，所述输出模块305还包括：

第一比较单元3051，用于对所述多个待测组合方案对应的指标均值进行比较，并获取所述指标均值最大时对应的待测组合方案，得到最大指标均值方案；

第二比较单元3052，用于对除所述最大指标均值方案之外的所述多个待测组合方案进行置信区间比较，并计算所述置信区间最大时对应的待测组合方案，得到最大置信区间方案；

判断单元3053，用于判断所述最大指标均值方案和所述最大置信区间方案对应的置信区间是否重合；

输出单元3054，用于若不重合，则按照预设的流量分配策略从所述多个待测组合方案中确定目标组合方案。

可选的，所述输出单元3054具体用于：若不重合，则按照预设比例对流量进行分配，得到第一流量值和第二流量值；按照所述第一流量值和所述第二流量值对所述待测组合方案进行流量分配运行，得到运行置信度；根据所述运行置信度对所述多个待测组合方案进行二次流量分配，并从所述多个待测组合方案中确定目标组合方案。

上面图3和图4从模块化功能实体的角度对本发明实施例中的用户数据处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中用户数据处理设备进行详细描述。

图5是本发明实施例提供的一种用户数据处理设备的结构示意图，该用户数据处理设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对用户数据处理设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在用户数据处理设备500上执行存储介质530中的一系列指令操作。

用户数据处理设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的用户数据处理设备结构并不构成对用户数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种用户数据处理设备，所述用户数据处理设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述用户数据处理方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述用户数据处理方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用户数据处理方法，其特征在于，所述用户数据处理方法包括：

采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标；

通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群；

获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案；

调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间；

根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案。

2.根据权利要求1所述的用户数据处理方法，其特征在于，所述采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标，包括：

从预置的数据库中查询待处理的用户信息和设备信息，并将所述用户信息和所述设备信息作为用户属性；

基于预设的页面埋点记录用户的操作数据，其中，所述操作数据包括：浏览时间、停留时长和点击次数；

将所述用户数据和所述操作数据转换为标签化数据，并对所述标签化数据进行量化处理，得到多维指标。

3.根据权利要求1所述的用户数据处理方法，其特征在于，所述通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群，包括：

通过所述聚类算法对所述多维指标进行偏好数据提取，得到偏好指标数据；

基于所述偏好指标数据构建用户偏好矩阵；

对所述用户偏好矩阵进行粗聚类，得到初始群数目，并计算所述初始群数目的平均值；

将所述初始群数目作为所述聚类算法的初始值，并根据所述初始值对所述多维指标进行二次聚类，得到所述多维指标对应的多个目标用户分群。

4.根据权利要求1所述的用户数据处理方法，其特征在于，所述获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案，包括：

从所述数据库中查询业务管理员预先配置的多个业务设定方案；

分别对所述多个业务设定方案和所述多个目标用户分群进行两两组合，得到多个两两组合的结果；

将所述两两组合的结果作为待测组合方案，得到多个待测组合方案。

5.根据权利要求1所述的用户数据处理方法，其特征在于，所述调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间，包括：

对所述多个待测组合方案进行初始化运行，并通过预置的老虎机算法对所述多个待测组合方案进行均等流量分配；

根据预设的监控指标属性采集所述多个待测组合方案对应的用户行为数据；

提取所述用户行为数据中每个待测组合方案对应的指标值，并计算所述指标值对应的指标均值；

调用预置的置信度函数计算每个待测组合方案对应的置信区间。

6.根据权利要求1-5中任一项所述的用户数据处理方法，其特征在于，所述根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案，包括：

对所述多个待测组合方案对应的指标均值进行比较，并获取所述指标均值最大时对应的待测组合方案，得到最大指标均值方案；

对除所述最大指标均值方案之外的所述多个待测组合方案进行置信区间比较，并计算所述置信区间最大时对应的待测组合方案，得到最大置信区间方案；

判断所述最大指标均值方案和所述最大置信区间方案对应的置信区间是否重合；

若不重合，则按照预设的流量分配策略从所述多个待测组合方案中确定目标组合方案。

7.根据权利要求6所述的用户数据处理方法，其特征在于，所述若不重合，则按照预设的流量分配策略从所述多个待测组合方案中确定目标组合方案，包括：

若不重合，则按照预设比例对流量进行分配，得到第一流量值和第二流量值；

按照所述第一流量值和所述第二流量值对所述待测组合方案进行流量分配运行，得到运行置信度；

根据所述运行置信度对所述多个待测组合方案进行二次流量分配，并从所述多个待测组合方案中确定目标组合方案。

8.一种用户数据处理装置，其特征在于，所述用户数据处理装置包括：

采集模块，用于采集待处理的用户属性和操作数据，并对所述用户属性和所述操作数据进行标签量化处理，得到多维指标；

分群模块，用于通过预置的聚类算法对所述多维指标进行用户分群，得到所述多维指标对应的多个目标用户分群；

生成模块，用于获取预置的多个业务设定方案，并根据所述多个业务设定方案和所述多个目标用户分群生成多个待测组合方案；

计算模块，用于调用预置的老虎机算法对所述多个待测组合方案进行均等流量分配，得到用户行为数据，并根据所述用户行为数据计算每个待测组合方案对应的指标均值和置信区间；

输出模块，用于根据所述指标均值和所述置信区间从所述多个待测组合方案中确定目标组合方案。

9.一种用户数据处理设备，其特征在于，所述用户数据处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述用户数据处理设备执行如权利要求1-7中任一项所述的用户数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的用户数据处理方法。