CN107622065B

CN107622065B - 一种数据处理方法及服务器

Info

Publication number: CN107622065B
Application number: CN201610555366.4A
Authority: CN
Inventors: 叶佳木; 余传伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2020-10-16
Anticipated expiration: 2036-07-14
Also published as: CN107622065A

Abstract

本发明公开了一种数据处理方法及服务器，方法包括：获取到至少一条位置相关信息；从所述至少一条位置相关信息中获取到至少一条第一类位置相关信息；基于用户常用地址以及网络地址的位置信息对所述至少一条第一类位置相关信息进行汇聚得到至少一条第一类参考信息，其中，所述第一类参考信息表征在同一用户常用地址以及同一网络地址的位置信息出现的用户数量；基于所述至少一条第一类参考信息中的所述用户数量，选取得到异常的网络地址的位置信息，对所述异常的网络地址的位置信息进行修正以使得修正后的所述网络地址的位置信息与用户常用地址相同。

Description

一种数据处理方法及服务器

技术领域

本发明涉及信息处理领域中的数据处理技术，尤其涉及一种数据处理方法及服务器。

背景技术

通过移动终端上报的用户互联网协议(IP，Internet Protocol)地址可以判断用户所在的国家省份城市，甚至到街道级别。准确地定位海外用户位置不仅需要准确的实时更新的IP库、还需要用户的上报的IP为可信的IP。然而，维护IP库的更新需要较大的人力成本，而且也由于使用海外代理上网、虚拟专用网络(VPN，Virtual Private Network)等存在，用户上报的IP中有部分脏数据存在。手动维护更新IP库的方法为了达到较好效果，一般至少需要多个全职的人来维护，而且想提高效率，还需要做自动化验证和发现的开发工作，而且更新IP库也无法快速并且准确的解决用户使用代理带来的定位错误问题。

发明内容

本发明实施例提供一种数据处理方法及服务器，能至少解决现有技术中存在的上述问题。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种数据处理方法，包括：

获取到至少一条位置相关信息，其中，所述位置相关信息至少包括网络地址的位置信息以及用户常用地址；

从所述至少一条位置相关信息中获取到至少一条第一类位置相关信息；其中，所述第一类位置相关信息为位置相关信息中网络地址的位置信息与用户常用地址不同的位置相关信息；

基于用户常用地址以及网络地址的位置信息对所述至少一条第一类位置相关信息进行汇聚得到至少一条第一类参考信息，其中，所述第一类参考信息表征在同一用户常用地址以及同一网络地址的位置信息出现的用户数量；

基于所述至少一条第一类参考信息中的所述用户数量，选取得到异常的网络地址的位置信息，对所述异常的网络地址的位置信息进行修正以使得修正后的所述网络地址的位置信息与用户常用地址相同。

本发明实施例提供一种服务器，所述服务器包括：

信息获取单元，用于获取到至少一条位置相关信息，其中，所述位置相关信息至少包括网络地址的位置信息以及用户常用地址；

第一选取单元，用于从所述至少一条位置相关信息中获取到至少一条第一类位置相关信息；其中，所述第一类位置相关信息为位置相关信息中网络地址的位置信息与用户常用地址不同的位置相关信息；

汇聚单元，用于基于用户常用地址以及网络地址的位置信息对所述至少一条第一类位置相关信息进行汇聚得到至少一条第一类参考信息，其中，所述第一类参考信息表征在同一用户常用地址以及同一网络地址的位置信息出现的用户数量；

第二选取单元，用于基于所述至少一条第一类参考信息中的所述用户数量，选取得到异常的网络地址的位置信息；

修正单元，用于对所述异常的网络地址的位置信息进行修正以使得修正后的所述网络地址的位置信息与用户常用地址相同。

本发明实施例中提供的数据处理方法及服务器，对全部用户设备对应的至少一条位置相关信息进行聚合，以得到在同一用户常用地址以及同一网络地址的位置信息出现的用户数量，然后利用用户数量选取存在异常的网络地址的位置信息，最后对异常的网络地址的位置信息进行修正。如此，就能够避免人工对错误的网络地址对应的位置信息进行修正而带来的较为耗时、以及正确率低的问题，提升了针对网络地址的位置信息的修正效率以及正确率。

附图说明

图1为本发明实施例中数据处理方法的实现流程示意图一；

图2为本发明实施例确定第一类位置相关信息场景图；

图3为本发明实施例生成第一类参考信息的示意图；

图4为本发明实施例确定第一类参考信息的用户数量均值示意图；

图5为本发明实施例参考矩阵示意图；

图6为本发明实施例数据处理方法的实现流程示意图二；

图7为本发明实施例选取用户常用地址的处理场景示意图；

图8为本发明实施例服务器组成结构示意图一；

图9为本发明实施例服务器组成结构示意图二。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

实施例一、

本发明实施例提供了一种数据处理方法，如图1所示，包括：

步骤101：获取到至少一条位置相关信息，其中，所述位置相关信息至少包括网络地址的位置信息以及用户常用地址；

步骤102：从所述至少一条位置相关信息中获取到至少一条第一类位置相关信息；其中，所述第一类位置相关信息为位置相关信息中网络地址的位置信息与用户常用地址不同的位置相关信息；

步骤103：基于用户常用地址以及网络地址的位置信息对所述至少一条第一类位置相关信息进行汇聚得到至少一条第一类参考信息，其中，所述第一类参考信息表征在同一用户常用地址以及同一网络地址的位置信息出现的用户数量；

步骤104：基于所述至少一条第一类参考信息中的所述用户数量，选取得到异常的网络地址的位置信息，对所述异常的网络地址的位置信息进行修正以使得修正后的所述网络地址的位置信息与用户常用地址相同。

本方案提供的处理方法可以应用于服务器侧，尤其是进行大数据分析的服务器侧。

上述获取到至少一条位置相关信息的方式可以为：从数据库中获取到第一预设时长内至少一条位置相关信息。

其中，所述第一预设时长可以根据实际情况进行设置，比如，可以计算一天之内。

进一步地，所述至少一条位置相关信息可以根据用户通过用户设备上报的用户设备的标识信息、网络地址的位置信息，再结合用户常用地址来生成。其中，所述用户常用地址，用于表示用户的常驻地址，比如，用户所在的国家、所在省市等，所述用户常用地址可以根据实际情况进行设置，也可以根据数据库中保存的信息生成，本实施例中不对具体如何获取到用户常用地址进行限定。

需要说明的是，所述位置相关信息中除了网络地址的位置信息以及用户常用地址之外，还可以包括：用户设备的标识信息、网络地址。相应的，所述网络地址的位置信息可以为根据网络地址确定的位置信息，用于表征用户设备当前的定位的位置信息。

所述从至少一个位置信息中获取到第一类位置相关信息，可以为：对至少一个位置相关信息中每一个位置相关信息均判断其中包含的网络地址的位置信息与用户常用地址是否对应相同区域，若不相同，则确定为第一类位置相关信息；若相同，可以确定位置信息为第二类位置相关信息。

比如，参见图2，用户设备对应两个位置相关信息，分别为位置相关信息一和二，假设位置相关信息一种用户常用地址为位置A、网络地址的位置信息为位置B，而位置相关信息二中用户常用地址以及网络地址的位置信息均为位置A，那么可以选取位置相关信息一作为第一类位置相关信息，剩余的位置相关信息二则为第二类位置相关信息。也就是说，当两个地址不相同的时候，可以初步确定用户当前不在国内或者不在用户的常驻省市区域。

其中，所述网络地址的位置信息中可以包括有以下至少之一：城市、省份、国家。另外，用户常用地址可以为城市、省份以及国家中的一个或多个。

进一步地，所述对至少一个位置相关信息中每一个位置相关信息均判断其中包含的网络地址的位置信息与用户常用地址是否对应相同区域，可以根据划分的区域的大小具备多种处理方式：

处理方式一、获取到每一个位置相关信息中网络地址的位置信息对应的国家，获取到用户常用地址对应的国家，判断位置信息对应的国家与所述用户常用地址对应的国家是否相同，若相同则对应相同区域，否则，对应不同区域。

处理方式二、获取到每一个位置相关信息中网络地址的位置信息对应的省份，获取到用户常用地址对应的省份，判断位置信息对应的省份与所述用户常用地址对应的省份是否相同，若相同则对应相同区域，否则，对应不同区域。

处理方式三、获取到每一个位置相关信息中网络地址的位置信息对应的城市，获取到用户常用地址对应的城市，判断位置信息对应的城市与所述用户常用地址对应的城市是否相同，若相同则对应相同区域，否则，对应不同区域。

通过上述几种处理方式可以看出，通过本实施例提供的方案进行处理，可以根据实际需求进行区域划分，进而通过区域的划分来进行网络地址的修正。比如，可以将错误的定位为海外的网络地址，也就是互联网协议(IP)地址进行对应的位置信息的修正，将其修正为国内正确的地址；也可以为将错误的定位到省外的IP地址对应的位置信息进行修正。

进一步地，基于所述第一类位置相关信息进行汇聚得到第一类参考信息，具体可以包括：从至少一个所述第一类位置相关信息中，获取到至少一个用户常用地址，并且确定每一个用户常用地址对应的至少一种网络地址的位置信息，再确定在每一个用户常用地址、以及每一个网络地址的位置信息对应的用户数量。比如，参见图3，假设当前有用户设备A和B的各两个第一类位置相关信息；其中相同用户常用地址、以及相同位置信息的有两组参考信息，每一个参考信息中分别对应不同的用户数量。

所述基于所述至少一条第一类参考信息中的所述用户数量，选取得到异常的网络地址的位置信息，包括：

根据所述至少一条第一类参考信息中的用户数量计算得到全部用户数量的均值；

至少根据所述均值，从所述至少一条第一类参考信息中选取出至少部分第一类参考信息；

将选取到的至少部分第一类参考信息对应的网络地址的位置信息作为异常的网络地址的位置信息。

其中，所述根据所述至少一条第一类参考信息中的用户数量计算得到全部用户数量的均值，可以参见图4，具备三个第一类参考信息，每一个参考信息中分别包含的用户数量为1、2、6，将全部的用户数量加起来之后除以三，就是用户数量的均值，针对图中的示例均值为3。

下面针对上述计算均值以及至少基于均值选取至少部分第一类参考信息的处理方式进行说明：

所述根据所述至少一条第一类参考信息中的用户数量计算得到全部用户数量的均值之前，所述方法包括：

根据所述第一类参考信息构建参考矩阵，所述参考矩阵中包含有m行n列的元素，每一个元素用于表示一用户常用地址以及一网络地址的位置信息对应的用户数量；m和n均为大于等于1的整数。

比如，参见图5，图中示出m和n均为2的一个参考矩阵，其中两行数据分别为两个用户常用地址对应的数据，每一行中每一个元素对应的是该用户常用地址中不同的位置信息对应的用户数量，比如，第一行第一列的元素对应了用户常用地址为A在第三位置信息对应的用户数量为1，其他的元素的意义与其相同，这里不再进行赘述。

所述根据所述至少一条第一类参考信息中的用户数量计算得到全部用户数量的均值，包括：

对所述参考矩阵中m行中每一行的元素进行求和，以得到m行中每一行对应的元素和，得到c₁,c₂...c_m；对所述参考矩阵中n列中每一列的元素进行求和，以得到n列中每一列对应的元素和，得到g₁,g₂...g_n；

基于所述每一行对应的元素和以及每一列对应的元素和，计算得到针对每一个元素S_mn的目标误差率

其中

并且计算得到全部元素中包含的全部用户数量的均值。

相应的，所述从所述至少一条第一类参考信息中选取用户数量大于所述均值的第一类参考信息包括：

从所述参考矩阵中，选取目标误差率大于第一门限值、并且用户数量大于所述全部用户数量的均值的元素；

将选取到的元素对应的第一类参考信息作为选取到的第一类参考信息。

也就是说，提取满足：目标误差率E_ij大于第一门限值，其中，所述第一门限值经验上可以取2～3；且用户数量大于所述全部用户数量的均值

的元素(Sij)。进而提取出参考矩阵中第i行第j列对应的第一类参考信息中包含的用户常用地址(common_used_position)和网络地址的位置信息position_IP。

需要理解的是，本实施例中提供的基于矩阵进行目标误差率的计算以及均值的计算进而确定的至少部分第一类参考信息的方法，可以替换为：计算参考矩阵每一行的元素和之间的比例关系，选取出比例关系异常的至少一行；计算参考矩阵每一列的元素和之间的比例关系，选取出比例关系异常的至少一列，将选出的至少一行以及至少一列均包含的元素对应的第一类参考信息。

另外，上述选取得到矩阵中的异常值的方法还可以替换的还可以为相关性检测、或者利用频谱进行检测等，本实施例中不进行穷举。

下面结合图6，对本实施例提供的处理方式进行说明：

步骤一：在现有IP库下计算一段时间内所有用户数据上报的IP，位置和常用登录位置(uin,IP,position_IP,common_used_position)，其中position_IP是用户的IP在当前IP库中被定位的位置；

步骤二：去除掉position_IP和common_used_position是同一个国家的数据；

步骤三：统计聚合每一个常用位置，IP的前三段，IP上报位置的人数(common_used_position,IP_setgementation,position_IP,user_number)，比如IP是156.123.42.23，那么IP_setgementation就是156.123.42；

步骤四：根据上述数据构造m×n的矩阵S，其中m是不同的common_used_position的数目，n是不同的position_IP的数目，其中矩阵S的第m行第n列数值S_mn表示常用登录位置是common_used_position在这一段时间内有上报位置数据为position_IP的人数；

步骤五：对于S矩阵的每一行分别求和，得到c₁,c₂...c_m；

步骤六：对于S矩阵的每一列分别求和，得到g₁,g₂...g_n；

步骤七：计算S矩阵中每一个元素S_mn的期望误差率

其中

步骤八：选取目标误差率大于第一门限值、并且用户数量大于所述全部用户数量的均值的元素，即提取出所有i，j满足：E_ij大于第一门限值(经验上可以取2～3)且

并提取出S矩阵第i行第j列对应的common_used_position和position_IP；

步骤九：提取出步骤三计算结果中用户常用地址和网络地址的位置信息出现在步骤八结果中的部分网络地址和用户数量；具体为：提取出步骤三计算结果中common_used_position和position_IP出现在步骤八结果中的IP_setgementation和用户数量user_number；

步骤十：确定针对所述用户数量的阈值；

这里，需要说明的是，选取阈值的方法可以为提取出步骤三计算结果中common_used_position和position_IP没有出现在步骤八结果中的IP_setgementation的用户数量user_number的最大值，作为用户数量的阈值t；

或者，还可以为对用户数量进行排序，选取前指定位的用户数量值作为用户数量的阈值t；其中，前指定位可以为前10位。也就是说，通过用户数量的阈值的调整可以进行不同程度的IP地址的位置信息的修正，当用户数量的阈值较高时，需要调整的位置信息数量较少，当用户数量的阈值较低时，需要调整的位置信息的数量较多。

步骤十一：步骤九中user_number>用户数量的阈值的IP段IP_setgementation都可以认为是错误的IP段，所有被定位为position_IP的用户都应该修正为common_used_position。

可见，通过采用上述方案，就能够对全部用户设备对应的至少一条位置相关信息进行聚合，以得到在同一用户常用地址以及同一网络地址的位置信息出现的用户数量，然后利用用户数量选取存在异常的网络地址的位置信息，最后对异常的网络地址的位置信息进行修正。如此，就能够避免人工对错误的网络地址对应的位置信息进行修正而带来的较为耗时、以及正确率低的问题，提升了针对网络地址的位置信息的修正效率以及正确率。

实施例二、

本发明实施例提供了一种数据处理方法，如图1所示，包括：

进一步地，所述至少一条位置相关信息可以根据用户通过用户设备上报的用户设备的标识信息、网络地址的位置信息，再结合用户常用地址来生成。

其中，所述用户常用地址可以为根据实际情况进行设置，也可以为根据数据库中保存的信息生成。

所述位置相关信息中除了网络地址的位置信息以及用户常用地址之外，还可以包括：用户设备的标识信息、网络地址。相应的，所述网络地址的位置信息可以为根据网络地址确定的位置信息，用于表征用户设备当前的定位的位置信息。

也就是说，当两个地址不相同的时候，可以初步确定用户当前不在国内或者不在本省。

进一步地，基于所述第一类位置相关信息进行汇聚得到第一类参考信息，具体可以包括：从至少一个所述第一类位置相关信息中，获取到至少一个用户常用地址，并且确定每一个用户常用地址对应的至少一种网络地址的位置信息，再确定在每一个用户常用地址、以及每一个网络地址的位置信息对应的用户数量。

其中，所述根据所述至少一条第一类参考信息中的用户数量计算得到全部用户数量的均值。

其中

并且计算得到全部元素中包含的全部用户数量的均值。

的元素(Sij)。进而提取出参考矩阵中第i行第j列对应的第一类参考信息中包含的用户常用地址common_used_position和网络地址的位置信息position_IP。

与实施例一不同之处在于，本实施例提供在进行位置相关信息的获取之前，对数据库中的网络地址及其对应的位置信息首先进行清洗，也就是说，首先将可能错误的网络地址及其位置信息删除掉，以使得进一步修正网络地址的位置信息的处理更加高效以及采用的基础信息的正确率更高，具体说明如下：

所述获取到至少一条位置相关信息，包括：

从数据库中获取到至少一个用户设备中每一个用户设备的用户常用地址以及至少一条数据位置关联信息，所述数据位置关联信息中至少包括有用户设备的标识信息、网络地址的位置信息；

基于所述用户设备的标识信息，至少将用户常用地址以及网络地址位置信息进行关联得到至少一条位置相关信息。

其中，关于获取到用户常用地址的处理方式可以如下：

所述从数据库中获取到至少一个用户设备中每一个用户设备的用户常用地址以及至少一条数据位置关联信息之前，所述方法还包括：

获取到至少一个用户设备上报的数据信息，基于每一个用户设备上报的数据信息确定数据信息的网络地址以及数据位置关联信息；

确定每一个用户设备对应的数据位置关联信息中包含的网络地址的位置信息的出现频次，根据所述出现频次选取得到所述每一个用户设备的用户常用地址。

其中，所述用户设备上报的数据信息可以为网络侧控制用户设备周期性上报的数据信息，也可以为用户设备在于网络侧进行数据交互时服务器提取的信息，具体的获取方式本实施例中不进行穷举。

确定所述数据信息的数据位置关联信息的方式可以为根据用户上报的网络地址，以及数据库中存储的网络地址对应表确定每一个网络地址的位置信息；其中，所述网络地址对应表中包含有至少一个网络地址的至少部分字段及其对应的位置信息。

具体的，将网络地址与位置信息进行处理可以仅采用网络地址中的前三个字段，由于通常同一个国家内的网络地址就可以基于前三个字段进行区分。

也就是说，在现有IP库下计算用户每次数据上报IP的位置信息和时间戳得到数据位置关联信息即(uin,位置position，时间戳timestamp)，其中uin为用户标识信息(ID)，位置信息可以由国家、省份、城市中的至少一个信息组成；比如，位置信息position＝(country、province、city)包含国家省份城市三者信息，timestamp为时间戳，精确到秒。

确定每一个用户设备对应的数据位置关联信息中包含的网络地址的位置信息的出现频次，根据所述出现频次选取得到所述每一个用户设备的用户常用地址，具体可以包括：

针对每一个用户设备，选取在第二预设时长内的数据位置关联信息，统计数据位置关联信息中出现的每一个网络地址的位置信息的出现天数；其中，所述第二预设时长可以根据实际情况进行设置，比如可以选取一年、或者两年的数据位置关联信息；

选取出现天数最多的一个网络地址的位置信息作为所述用户设备对应的用户常用地址。

需要理解的是，若具备多个出现天数最多的网络地址时，可以选取出现次数最多的网络地址的位置信息作为用户常用地址；若每一个网络地址的出现天数相同、出现次数也相同时，选取最后上报的数据信息对应的网络地址的位置信息作为用户常用地址。

比如，可以为利用上述至少一个用户对应的至少一条位置相关信息，从中获取到每一个用户的至少一条位置相关信息；根据所述每一个用户的至少一条所述位置相关信息中的位置信息，确定所述用户在预设时长内(比如最近一个月内)对应的至少一个位置信息，确定每一个位置信息对应的定位时长；比如，可以针对某一位置信息(position)确定用户定位在该位置的天数：(uin、position、day_count)，day_count为上报天数；计算每一个用户上报天数最多的位置信息(position)作为常用登录位置，如果上报最多天数相同，则取上报次数最多的位置，否则取最后上报的位置。

比如，参见图7，用户设备A在一年之内，上报了10条数据信息，分别对应了网络地址IP1-IP4，其中有10个IP对应的位置信息可以有相同的位置信息、也可以存在不同的位置信息，最终对应了位置信息A和位置信息B以及位置信息C，其中，位置信息A出现的天数达到200天，位置信息B则为50天，位置信息C为1天，那么选取位置信息A作为该用户设备对应的用户常用地址。

相应的，所述从数据库中获取到至少一个用户设备中每一个用户设备的用户常用地址以及至少一条数据位置关联信息之前，所述方法还包括：

根据所述至少一个用户设备对应的数据位置关联信息，选取得到至少一个异常用户设备；

判断每一个异常用户设备的网络地址的位置信息中是否包含有异常位置信息，得到判断结果；

若所述判断结果表征异常用户设备的网络地址的位置信息中包含有异常位置信息，则基于所述异常位置信息对所述异常用户设备的网络地址及其数据位置关联信息进行筛选得到所述异常用户设备筛选后的网络地址及其数据位置关联信息。

根据所述至少一个用户设备对应的数据位置关联信息，选取得到至少一个异常用户设备的处理方法可以包括：提取第三预设时长内每一个用户设备的数据位置关联信息中包含的至少一个位置信息，获取到至少一个位置信息对应的目标区域；当至少一个位置信息对应的目标区域中存在至少两个不同的目标区域时，确定该用户设备为异常用户设备。

具体的，所述第二预设时长可以为根据实际情况进行设置，比如，可以设置为一个月；提取出一个月内用户上报的位置信息(position)有多个，而且既有国内、也有国外位置的用户作为异常用户设备，也就是候选出国用户。

所述判断每一个异常用户设备的网络地址的位置信息中是否包含有异常位置信息，得到判断结果，包括：

针对每一个异常用户设备选取在第四预设时长内的至少一个数据位置关联信息；

根据所述数据位置关联信息中出现的至少一个位置信息的时间信息，判断每一个位置信息是否为异常位置信息得到判断结果。

具体的，

针对每一个异常用户设备，根据选取的用户在第四预设时长内上报的数据位置关联信息中出现的位置信息对应的目标区域(比如，国家)的数量，当出现的国家的数量大于第一数量门限值时，将位置信息进行两两配对；根据配对结果判断每一对位置信息是否为可疑数据；

比如，异常用户设备的每一天上报的数据(uin,position,timestamp)，如果这一天内出现的位置所属国家数超过1个时,将上报位置不考虑先后顺序两两配对，比如该用户这一天出现在三个位置pos1,pos2,pos3，那么两两配对结果为(pos1,pos2),(pos1,pos3),(pos2,pos3)，然后对每个配对结果分别做以下处理：

其中，需要优先处理配对中包含用户常用登录城市的，如果没有则优先处理包含常用登录省份的，如果没有则优先处理包含常用登录国家的：

对于某一配对位置(pos1,pos2),计算用户当天在pos1的最早和最晚时间戳为min_t_pos1,max_t_pos1；在pos2的最早和最晚时间戳为min_t_pos2,max_t_pos2；

记录两个位置最早时间戳中较大者为max(min_t_pos1,min_t_pos2)、记录两个位置最晚时间戳中较小者为min(max_t_pos1,max_t_pos2)；

如果满足min(max_t_pos1,max_t_pos2)>max(min_t_pos1,min_t_pos2)，那么可以认为该数据为可疑数据，将pos1,pos2中不是常用登录位置的所有IP和position标记进黑名单1；将用户这一天中所有在这个黑名单1中position的数据从这一天的数据中剔除。

如果满足min(max_t_pos1,max_t_pos2)≤max(min_t_pos1,min_t_pos2)，跳过这一组配对，继续处理下一组。直到所有配对都不在出现可疑数据为止，完成。

利用所述黑名单1，对所述用户设备在第五预设时长内的数据位置关联信息进行过滤，以去除在所述第三预设时长内的数据位置关联信息中包含有所述黑名单中的IP地址信息的数据位置关联信息；也就是说，剔除用户在一段时间内(比如一个月)上报数据中，IP在黑名单1中出现的数据。利用所述黑名单1，对所述用户在第五预设时长内的数据位置关联信息进行过滤，以剔除用户在一段时间内(比如一个月)上报数据中，位置(position)在黑名单1中出现天数≥预设天数(可以取2)的位置(position)的所有数据。

进一步地，对进行过滤之后的用户的数据位置关联信息进行检测，根据所述数据位置关联信息的时间戳，选取在第六预设时长内上报的位置信息对应一个目标区域，并且所述目标区域为非常用登录国家的位置信息；判断所述用户在所述第六预设时长之前以及之后的指定时长内对应的位置信息是否包含有所述目标区域，若没有，则将所述用户信息及其对应的位置信息添加到第二黑名单中、并进行计数；

具体的，生成用户一段时间内(比如一个月)在剔除了脏数据后剩余的据位置关联信息(uin,position,timestamp)中，提取出用户一天之内上报位置只有一个国家，而且还不是常用登录国家的数据(uin,date,country)，其中date为上报日期。对于用户的每个日期和国家(uin,date,country)，如果用户在这个日期的前一天和后一天都再没有这个国家country的上报记录，那么把用户和这个国家组成的配对(uin,country)在第二黑名单(黑名单2)中频次加1。

根据所述第二黑名单，选取用户的位置信息出现次数大于预设次数的位置信息，将所述数据库中所述用户包含有所述位置信息的全部数据位置关联信息；剔除用户这一段时间内上报数据中，position在黑名单2中出现次数≥预设次数(可以取2)的position的所有数据。

上述方案通过对单个用户一段时间内的上报的IP轨迹和全体用户一段时间内上报的国内城市-国外城市配对进行聚合统计建模，在IP库无需更新的情况下检测出用户的代理IP及发现现有IP库中的错误号段从而实现数据清洗。上述方案旨在准确提取海外差旅用户，可以在IP库不更新的情况下，根据海量用户的统计模型来实现错误数据的自动校正和清洗。

使用代理软件或VPN导致的定位错误和因为IP库更新不及时导致的定位错误分别对应于单个用户定位错误和群体用户定位错误，根据这两种特性分别建模；

对于代理问题，上述方案基于以下前提：使用代理上网的移动终端用户不会一天或几天内在各种网络环境下都使用同一代理上网，在上报数据中表现为时间轴上在国内外来回跳转，即单个用户一段时间内频繁来往于两个以上国家，或者在一段较长时间来看，总是有多次短时间内上报为国外IP。

所以基于此，对于使用代理的用户，一天内上报上来的位置有较大可能包含了国内的位置和国外的位置，而且时间轴上很高概率出现国内城市-国外-国内城市这种模式；

所以可以对用户每一天上报上来的不同城市位置两两配对，对每一个配对提取出这两个城市在时间轴上的排序，一旦检测到同一IP引起的可疑切换模式，就将非固定登录地上使用的固定IP提取进黑名单进行过滤修正。

IP库数据错误问题往往是个别IP段由于某些原因更新后，归属于别的国家/城市，而IP库并没有及时更新，导致用户在更新后的国家/城市上报的IP，数据后台关联后仍定位其在旧的国家/城市，该修正模型基于以下前提：实际中某个国家/城市的IP段更新往往只是针对个别IP段，而一个国家/城市一般都有对应于多个IP段，即不可能在一个城市中连接过更新的IP段的所有用户都没人连接该城市其他没更新的IP段；对于国家间IP段的更新，在数据侧表现为如果完全相信现有IP库中的数据是正确的话，那么这个城市中会突然有异常数量的用户每天同时出现在这个城市和国外的某一相同国家，即统计所有用户(国内城市，国外国家/城市)对的数目的话，个别数据会出现异常峰值；对于这些异常的(国内城市，国外国家/城市)对，提取上报这些数据的用户和因为他们上报这些位置的IP，通过阈值过滤即可提取出有问题的IP段，并且还可以得知应该将这些IP段的用户修正回国内的哪个位置。

实施例三、

本发明实施例提供了一种服务器，如图8所示，包括：

信息获取单元81，用于获取到至少一条位置相关信息，其中，所述位置相关信息至少包括网络地址的位置信息以及用户常用地址；

第一选取单元82，用于从所述至少一条位置相关信息中获取到至少一条第一类位置相关信息；其中，所述第一类位置相关信息为位置相关信息中网络地址的位置信息与用户常用地址不同的位置相关信息；

汇聚单元83，用于基于用户常用地址以及网络地址的位置信息对所述至少一条第一类位置相关信息进行汇聚得到至少一条第一类参考信息，其中，所述第一类参考信息表征在同一用户常用地址以及同一网络地址的位置信息出现的用户数量；

第二选取单元84，用于基于所述至少一条第一类参考信息中的所述用户数量，选取得到异常的网络地址的位置信息；

修正单元85，用于对所述异常的网络地址的位置信息进行修正以使得修正后的所述网络地址的位置信息与用户常用地址相同。

上述信息获取单元81，用于从数据库中获取到第一预设时长内至少一条位置相关信息。

所述信息获取单元81，用于对至少一个位置相关信息中每一个位置相关信息均判断其中包含的网络地址的位置信息与用户常用地址是否对应相同区域，若不相同，则确定为第一类位置相关信息；若相同，可以确定位置信息为第二类位置相关信息。也就是说，当两个地址不相同的时候，可以初步确定用户当前不在国内或者不在本省。

进一步地，汇聚单元，用于从至少一个所述第一类位置相关信息中，获取到至少一个用户常用地址，并且确定每一个用户常用地址对应的至少一种网络地址的位置信息，再确定在每一个用户常用地址、以及每一个网络地址的位置信息对应的用户数量。

所述第二选取单元，用于根据所述至少一条第一类参考信息中的用户数量计算得到全部用户数量的均值；

其中，所述根据所述至少一条第一类参考信息中的用户数量计算得到全部用户数量的均值，可以参见图4，将每一个

所述第二选取单元，用于根据所述第一类参考信息构建参考矩阵，所述参考矩阵中包含有m行n列的元素，每一个元素用于表示一用户常用地址以及一网络地址的位置信息对应的用户数量；m和n均为大于等于1的整数。

所述第二选取单元，用于对所述参考矩阵中m行中每一行的元素进行求和，以得到m行中每一行对应的元素和，得到c₁,c₂...c_m；对所述参考矩阵中n列中每一列的元素进行求和，以得到n列中每一列对应的元素和，得到g₁,g₂...g_n；

其中

并且计算得到全部元素中包含的全部用户数量的均值。

相应的，所述第二选取单元，用于从所述参考矩阵中，选取目标误差率大于第一门限值、并且用户数量大于所述全部用户数量的均值的元素；

实施例四、

本发明实施例提供了一种服务器，如图9所示，包括：

与实施例三不同之处在于，本实施例提供另一种处理场景，就是在进行位置相关信息的获取之前，对数据库中的网络地址及其对应的位置信息首先进行清洗，也就是说，首先将可能错误的网络地址及其位置信息删除掉，以使得进一步修正网络地址的位置信息的处理更加高效以及采用的基础信息的正确率更高，具体说明如下：

所述信息获取单元，用于从数据库中获取到至少一个用户设备中每一个用户设备的用户常用地址以及至少一条数据位置关联信息，所述数据位置关联信息中至少包括有用户设备的标识信息、网络地址的位置信息；

其中，关于获取到用户常用地址的处理方式可以如下：

所述服务器还包括：

用户信息获取单元86，用于获取到至少一个用户设备上报的数据信息，基于每一个用户设备上报的数据信息确定数据信息的网络地址以及数据位置关联信息；确定每一个用户设备对应的数据位置关联信息中包含的网络地址的位置信息的出现频次，根据所述出现频次选取得到所述每一个用户设备的用户常用地址。

也就是说，在现有IP库下计算用户每次数据上报IP的位置信息和时间戳(uin,位置position，时间戳timestamp)，其中uin为用户标识信息(ID)，位置信息可以由国家、省份、城市中的至少一个信息组成；比如，位置信息position＝(country、province、city)包含国家省份城市三者信息，timestamp为时间戳，精确到秒。

比如，参见图7，用户设备A在一年之内，上报了10条数据信息，分别对应了网络地址IP1-IP10，其中有10个IP对应的位置信息可以有相同的位置信息、也可以存在不同的位置信息，最终对应了位置信息A和位置信息B以及位置信息C，其中，位置信息A出现的天数达到200天，位置信息B则为50天，位置信息C为1天，那么选取位置信息A作为该用户设备对应的用户常用地址。

具体的，

利用所述黑名单1，对所述用户设备在第五预设时长内的数据位置关联信息进行过滤，以去除在所述第三预设时长内的数据位置关联信息中包含有所述黑名单中的IP地址信息的数据位置关联信息。

具体的，生成用户一段时间内(比如一个月)在剔除了脏数据后剩余的据位置关联信息(uin,position,timestamp)中，提取出用户一天之内上报位置只有一个国家，而且还不是常用登录国家的数据(uin,date,country)，其中date为上报日期。对于用户的每个日期和国家(uin,date,country)，如果用户在这个日期的前一天和后一天都再没有这个国家country的上报记录，那么把用户和这个国家组成的配对(uin,country)在黑名单2中频次加1。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取所述至少一条第一类参考信息中的所述用户数量的和、及所述第一类参考信息的数量；

将所述和与所述第一类参考信息的数量的比值，作为全部用户数量的均值；

从所述至少一条第一类参考信息中选取用户数量大于所述全部用户数量的均值的第一类参考信息；

将选取到的至少部分第一类参考信息对应的网络地址的位置信息作为异常的网络地址的位置信息，对所述异常的网络地址的位置信息进行修正以使得修正后的所述网络地址的位置信息与用户常用地址相同。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一条第一类参考信息中的所述用户数量计算得到全部用户数量的均值之前，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一条第一类参考信息中的所述用户数量计算得到全部用户数量的均值，包括：

对所述参考矩阵中m行中每一行的元素进行求和，以得到m行中每一行对应的元素和；对所述参考矩阵中n列中每一列的元素进行求和，以得到n列中每一列对应的元素和；

基于

计算得到针对每一个元素的目标误差率，其中，

S_ij表示参考矩阵中第i行第j列的元素，E_ij表示参考矩阵中第i行第j列的元素的目标误差率，c_i表示参考矩阵中第i行对应的元素和，g_j表示参考矩阵中第j列对应的元素和；

并且计算得到全部元素中包含的全部用户数量的均值；

相应的，所述从所述至少一条第一类参考信息中选取用户数量大于所述全部用户数量的均值的第一类参考信息包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取到至少一条位置相关信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述从数据库中获取到至少一个用户设备中每一个用户设备的用户常用地址以及至少一条数据位置关联信息之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述从数据库中获取到至少一个用户设备中每一个用户设备的用户常用地址以及至少一条数据位置关联信息之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述判断每一个异常用户设备的网络地址的位置信息中是否包含有异常位置信息，得到判断结果，包括：

8.一种服务器，其特征在于，所述服务器包括：

第二选取单元，用于获取所述至少一条第一类参考信息中的所述用户数量的和、及所述第一类参考信息的数量；将所述和与所述第一类参考信息的数量的比值，作为全部用户数量的均值；从所述至少一条第一类参考信息中选取用户数量大于所述均值的第一类参考信息；将选取到的至少部分第一类参考信息对应的网络地址的位置信息作为异常的网络地址的位置信息；

9.根据权利要求8所述的服务器，其特征在于，所述第二选取单元，用于根据所述第一类参考信息构建参考矩阵，所述参考矩阵中包含有m行n列的元素，每一个元素用于表示一用户常用地址以及一网络地址的位置信息对应的用户数量；m和n均为大于等于1的整数。

10.根据权利要求9所述的服务器，其特征在于，所述第二选取单元，用于对所述参考矩阵中m行中每一行的元素进行求和，以得到m行中每一行对应的元素和；对所述参考矩阵中n列中每一列的元素进行求和，以得到n列中每一列对应的元素和；基于

计算得到针对每一个元素的目标误差率，其中，

S_ij表示参考矩阵中第i行第j列的元素，E_ij表示参考矩阵中第i行第j列的元素的目标误差率，c_i表示参考矩阵中第i行对应的元素和，g_j表示参考矩阵中第j列对应的元素和；并且计算得到全部元素中包含的全部用户数量的均值；

从所述参考矩阵中，选取目标误差率大于第一门限值、并且用户数量大于所述全部用户数量的均值的元素；将选取到的元素对应的第一类参考信息作为选取到的第一类参考信息。

11.根据权利要求8-10任一项所述的服务器，其特征在于，所述信息获取单元，用于从数据库中获取到至少一个用户设备中每一个用户设备的用户常用地址以及至少一条数据位置关联信息，所述数据位置关联信息中至少包括有用户设备的标识信息、网络地址的位置信息；基于所述用户设备的标识信息，至少将用户常用地址以及网络地址位置信息进行关联得到至少一条位置相关信息。

12.根据权利要求11所述的服务器，其特征在于，所述服务器还包括：

用户信息获取单元，用于获取到至少一个用户设备上报的数据信息，基于每一个用户设备上报的数据信息确定数据信息的网络地址以及数据位置关联信息；确定每一个用户设备对应的数据位置关联信息中包含的网络地址的位置信息的出现频次，根据所述出现频次选取得到所述每一个用户设备的用户常用地址。

13.根据权利要求12所述的服务器，其特征在于，所述用户信息获取单元，用于根据所述至少一个用户设备对应的数据位置关联信息，选取得到至少一个异常用户设备；

14.根据权利要求13所述的服务器，其特征在于，所述用户信息获取单元，用于针对每一个异常用户设备选取在第四预设时长内的至少一个数据位置关联信息；根据所述数据位置关联信息中出现的至少一个位置信息的时间信息，判断每一个位置信息是否为异常位置信息得到判断结果。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至7任一项所述的数据处理方法。