CN110516184B

CN110516184B - 一种统计uv数量的模拟运算方法

Info

Publication number: CN110516184B
Application number: CN201910444637.2A
Authority: CN
Inventors: 刘志亮
Original assignee: Guangzhou Qimiao Technology Co ltd
Current assignee: Guangzhou Qimiao Technology Co ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2023-03-24
Anticipated expiration: 2039-05-27
Also published as: CN110516184A

Abstract

本发明提供了一种统计UV数量的模拟运算方法，通过提前设置特征值统计维度，将原有的统计过程分解为特征值设计、初步统计、相似度计算和结果统计将原来一次性的工作进行拆分，同时屏蔽了客户的隐私数据，适用于结果允许一定误差，统计口径无法事先确定的分析应用，具有较好的实时性和灵活度，可以有效解决统计UV数量涉及的数据量巨大，包含客户的隐私信息，导致相关应用难以展开的技术问题。

Description

一种统计UV数量的模拟运算方法

技术领域

本发明涉及数据统计技术领域，具体涉及一种统计UV数量的模拟运算方法。

背景技术

在互联网领域，独立访客(UniqueVisitor,UV)，是指访问某个站点或点击某条新闻的自然人，是最能真实反映目标站点访问量的指标。通过统计访问某个站点或点击某条新闻的UV，进而分析UV的属性特征，可以作为制定网站运营、新闻更新、广告投放等策略的依据。例如，通过统计点击某条广告的UV的年龄、性别等属性特征，可以确定关注该广告的用户群体，进而在下次投放同类型广告时，只对该用户群体进行投放，以节省广告投放成本，提高广告点击率。

由于现有互联网访问量PV和UV数据量巨大，而且主业务系统多采用分布式的结构，相关的业务处理主机采用群集的方式，导致数据存储和统计分析需要存储和处理的数据量巨大，要进行数据过滤和去重导致计算资源消耗巨大。而统计分析的应用场景复杂，例如按照不同的客户画像标签进行分组合计，还需要在去重的基础上，将识别的UV标识和客户标签库相关联，计算过程往往需要几十分钟或者几个小时甚至几天，调用的集群主机往往需要十几台或者上百，而提交的分析代码或者语句如果有错漏，将导致结果不可用，需要重新修正后运行。

发明内容

针对现有技术的不足，本发明采用一部分统计数据相似度作为UV数量的参考，在误差允许范围内达到最快最准确的UV数量统计，突破了需要大量的存储和计算资源支撑的限定，具有更好的实时性和灵活度，可实际应用广。

为实现上述目的，本发明采用如下技术方案：

一种统计UV数量的模拟运算方法，包括以下步骤：

步骤S1,根据UV识别可以采用的数据，选择设计特征值的分类维度，主要选取的要求需要满足以下条件：避免标识ID取模，需要让UV数据符合一定的业务规律，而非随机均匀分布；避免男女性别这类枚举值过少的维度；如可以使用IP归属地域这类结果分布较多而且非均匀分布的维度；

步骤S2，按照访问对象、访问时间和特征值分类维度对采集到的原始数据进行去重和并统计，并将特征值的初步统计结果保存在数据库中；

步骤S3，根据UV的统计需求，从数据库中过滤出符合条件的初步统计结果，针对符合条件的初步统计结果计算特征值相似度，得出一组相似度数值S_i，其中i为个数，相似度为0到1之间的一个浮点数，其中0表示两组数据完全不相似，1表示两组数据完全相似；

步骤S4，针对相似度的计算结果使用以下公式得到最终结果，公式如下：

其中D_i为相似度数值，对应各数据分组内的初步统计数据，n为需要汇总统计的数据分组总个数，S为需要统计的UV数量结果。S由两部分相加而成，第一部分是所有初步统计结果乘以(1-S_i)的和，第二部分是所有初步统计结果乘以S_i的最大值。

进一步的，所述步骤S1中，按照数据分析常用的维度选取，维度选取的个数大于一个。如采用IP地址作为维度选取，可以按照IP地址的来源地选取，这样统计结果为国内行政区域的个数，也可以选择两个或多个统计维度，比如按照接入的运营商+来源地，这样统计结果为运营商个数*行政区域个数。划分结果个数过小，将导致模拟结果与真实结果差异较大，划分结果个数过多，将导致运算量过大，划分个数应该控制在50-1000之间。

进一步的，所述步骤S2中，访问时间为小时、天或者周。

进一步的，将步骤S2中，每个维度的统计结果作为一个向量空间，两个向量之间的余弦值代表两个统计结果的相似程度：

进一步的，所述步骤S3中，采用所有向量和初步统计结果各个维度的和作为比较向量，各个初步统计结果与向量和的余弦值作为相似度S_i。

进一步的，所述步骤S3中，采用各个统计结果之间相互计算余弦值，分别取最大的数值作为相似度S_i。

在上述技术方案中，步骤S3采用了不同的方式计算相似度，相似度的结果对步骤S4最终结果以及与实际真实情况的偏差有很大的影响，为了便于分析讨论，采用最简化的场景和最极端的情况来分析步骤S4的结果与真实情况的误差。

假设步骤S1选取的是维度是客户IP最后一位是奇数还是偶数，假设步骤S2一共统计客户修改收货地址页面和商品列表页面两个访问对象，按天统计每个页面去重以后奇数的IP有多少个，偶数的IP有多少个。

首先讨论极限情况1，假设所有浏览了修改收货地址页面的客户也会浏览商品列表页面，这样对于余弦公式里面,使用方案一向量和V_i＝2Va_i，得出的相似度为1，使用方案二有Vb_i＝Va_i，同样相似度为1。在步骤S4中，∑部分为0，MAX因为两个数值相等，得出的结果既是浏览了修改收货地址页面的客户与浏览商品列表页面的客户完全相同。在这种极限情况下，方案一方案二与实际结果无误差。

现在考虑极限情况2的场景，假设所有奇数IP的客户都只访问修改收货地址页面，所有偶数IP的客户都只访问商品列表页面，访问的客户数量相同。在这种极限情概况下，使用方案一，由于两个向量长度相等，夹角为90度，所以每个向量与向量和的夹角为45度，所以相似度的夹角为cos45°＝0.7071；在步骤S4中运算结果的误差为(2*(1-0.7071)+0.7071)/2-1＝35.35％，即在这种极端情况下，计算结果与实际结果有35％左右的误差。如果使用方案二，由于余弦值＝0，所以相似度＝0，计算结果与实际结果无误差。

本发明提供的一种统计UV数量的模拟运算方法的有益效果在于：通过采用本发明的方法，例如在步骤S1设置了1000个统计维度和结果，按天进行步骤S2，访问对象划分为10个，相关一个月的数据存储量为10访问对象*30天*1000初步统计结果＝30万。针对这30万的数据，可以应用步骤S3和步骤S4进行分析和统计，一台普通pc服务器，可以在1分钟内完成大部分的运算和处理，处理效率得到了明显的提高，大大节省了储存空间。本发明得出的结果是近似的结果，与真实结果存在差异，由于大部分UV的分析统计结果与财务类金额类统计不同，并不需要精确的数据对账稽核，可以满足大部分的应用要求。另外，采用本发明方法以后，初步统计结果已经不包含客户的隐私信息，相关数据可以向组织内部分析人员甚至第三方公开，开发进一步的数据分析应用，实现数据价值。

附图说明

图1为本发明流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明的保护范围。

实施例：一种统计UV数量的模拟运算方法。

步骤S1,根据UV识别可以采用的数据，选择设计特征值的分类维度；考虑到不同注册时间的客户使用习惯不同，按照客户首次登陆时间和IP地域值设置特征值统计维度；各维度的枚举值为：首次登陆三个月内、半年内、一年内、两年内和两年以上一个5个，IP地域值分为：境外、广东、上海˙˙˙˙˙˙一共35个；

步骤S2，按照访问对象、访问时间和特征值分类维度对采集到的原始数据进行去重和并统计，并将特征值的初步统计结果保存在数据库中；按照商品列表、我的订单、客服建议和支付4个访问对象每天进行初步统计，每天产生的记录条数为4个访问对象*5个注册时长*35个IP地域＝700条记录，初步统计结果保存如下：

表1初步统计结果表

日期	访问对象	注册时长	地域	UV数
					20190318	商品列表	三个月内	广东	3455
20190318	商品列表	三个月内	上海	4226
					......

步骤S3，根据UV的统计需求，从数据库中过滤出符合条件的初步统计结果，针对符合条件的初步统计结果计算特征值相似度，得出一组相似度数值S_i，其中i为个数，相似度为0到1之间的一个浮点数，其中0表示两组数据完全不相似，1表示两组数据完全相似；统计一个月访问了我的订单和客服建议两部分的UV分布，使用以向量和的方式计算相似度，具体方式如下：

1)计算所有初步统计结果的向量和，对应的sql语句示例为：select注册时长,地域,sum(UV数)from初步统计结果where日期>＝20190201and日期<＝20190218and访问对象in(我的订单,客服建议)group by注册时长,地域。

2)按日期和访问对象依次取出每天每个访问对象的数据，以向量方式保存，对应的sql语句示例为：select注册时长,地域,UV数from初步统计结果where日期＝？and访问对象＝？，在这个场景下每次sql返回的结果数为5*35＝175个，需要执行的次数为2访问对象*28天＝56次。

针对1)的向量结果和2)的56个向量结果用余弦公式计算56个相似度。计算方法如下：a)对1的结果计算向量长度，计算方法为每一个sum(UV数)的结果平方后求和，再对和开平方根，获得1个浮点数；b)对2个56个结果集依次计算向量长度，计算方法为每个UV数平方后求和，再对和开平方根，一共获得56个浮点数。c)对2的56个向量依次计算，按照注册时长、地域相等的条件，在1的结果中找出对应的sum(UV数)，两个做乘积，将乘积求和，除以a和b对应的向量长度乘积，即可以得到56个相似度的浮点数结果。

步骤S4，将步骤S3的数据按照公式：

进行汇总统计，在这个场景里面，步骤S3的2里面，已经获得了56组，每组175个的结果和56个相似度的数据，对每个注册时长和地域对应由56个数里面，依次乘以(1-对应相似度)相加，并对乘以对应相似度的结果取最大值，然后将相加结果和最大值相加，即获得175个数值，即最终结果。最终结果为一组175个的数值，为一个月内访问了我的订单、客服建议两个模块的客户，按照注册时长和地域分布的UV数值。

相对现有的UV数据统计分析和应用方案，本发明采用相似度作为主要的计算因子，通过提前统计一部分初步结果作为计算的输入，大幅度将百万、千万设置亿级别的数据量减低到万级别。相似度的结果为0和1之间的浮点数，可以采用通用的向量余弦值作为相似度因子，也可以选择其他的相似度因子。通过相似度将每一个初步统计结果划分为取最大值和取和两部的数值，将结果相加为最终结果，最终结果为近似数。

由于UV数据与客户的使用习惯有直接关系，数据存在一定的相关性，并不是偶发无序的随机分布，所以应用近似运算，通过初步统计结果模拟UV去重和分组合计的真实统计过程，和最终的实际结果误差并不大。

本发明的向量余弦值作为相似度计算的方法为业内统计常用算法，但是通过设计特征值获取初步统计结果，利用初步统计结果和相似度模拟数据过滤，UV合并和分组统计的过程为创新，适用在结果允许一定程度误差，分析应用的实时性、灵活性要求高的业务策划、优化场景。

以上所述为本发明的较佳实施例而已，但本发明不应局限于该实施例和附图所公开的内容，所以凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种统计UV数量的模拟运算方法，其特征在于，包括以下步骤：

步骤S1,根据UV识别能够采用的数据，选择设计特征值的分类维度；

步骤S2，按照访问对象、访问时间和特征值分类维度对采集到的原始数据进行去重合并统计，并将特征值的初步统计结果保存在数据库中；

步骤S3，根据UV的统计需求，从数据库中过滤出符合条件的初步统计结果，针对符合条件的初步统计结果计算特征值相似度，得出一组相似度数值S_i，其中i为个数；

其中，D_i为相似度数值S_i对应各数据分组内的初步统计数据，n为需要汇总统计的数据分组总个数，S_i为相似度数值，S为需要统计的UV数量结果。

2.如权利要求1所述的统计UV数量的模拟运算方法，其特征在于：所述步骤S1中，按照数据分析常用的维度选取，维度选取的个数大于一个。

3.如权利要求1所述的统计UV数量的模拟运算方法，其特征在于：所述步骤S2中，访问时间为小时、天或者周。

4.如权利要求1所述的统计UV数量的模拟运算方法，其特征在于：将步骤S2中，每个维度的统计结果作为一个向量空间，两个向量之间的余弦值代表两个统计结果的相似度数值：

其中，Va_i为向量a在0-n各个维度空间的坐标,Vb_i为向量b在0-n各个维度空间的坐标。

5.如权利要求4所述的统计UV数量的模拟运算方法，其特征在于：所述步骤S3中，采用所有向量和初步统计结果各个维度的和作为比较向量，各个初步统计结果与向量和的余弦值作为相似度数值S_i。

6.如权利要求4所述的统计UV数量的模拟运算方法，其特征在于：所述步骤S3中，采用各个统计结果之间相互计算余弦值，分别取最大的数值作为相似度数值S_i。