CN111245815A

CN111245815A - 数据处理方法、装置、存储介质及电子设备

Info

Publication number: CN111245815A
Application number: CN202010015595.3A
Authority: CN
Inventors: 高慧; 王明英
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Tongdun Holdings Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-06-05
Anticipated expiration: 2040-01-07
Also published as: CN111245815B

Abstract

本发明实施例提供一种数据处理方法、装置、存储介质及电子设备，该方法包括：获取待处理数据；基于包括地址特征的特征组合将所述待处理数据进行分组,获取所述特征组合的分组数据；基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据；基于从所述目标特征组合的分组数据的距离提取出目标数据。将地址特征与其他特征结合，能够挖掘出更全面的异常数据，实现了对目标数据的识别，提升了网络安全性以及数据的准确性。

Description

数据处理方法、装置、存储介质及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种数据处理方法、装置、存储介质及电子设备。

背景技术

随着网络的普及，一些网站为吸引更多的用户以及流量，推出了一些优惠活动，例如，领优惠券，赠送礼品等手段。但是，为了领取更多的优惠政策或者为提升商家的产品销量，催生了营销场景下的网络欺诈，产生了很多数据造假行为。营销场景的欺诈丰富多样，例如，一些账户在购物时虚构地址，在地址中隐藏电话号码，地址中有暗号等。

因此，需要一种新的数据处理方法、装置、存储介质及电子设备，以对数据进行识别，提升网络安全性以及数据的准确性。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种数据处理方法、装置、存储介质及电子设备，实现了对目标数据的识别，提升了网络安全性以及数据的准确性。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供一种数据处理方法，其中，所述方法包括：获取待处理数据；基于包括地址特征的特征组合将所述待处理数据进行分组,获取所述特征组合的分组数据；基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据；基于从所述目标特征组合的分组数据的距离提取出目标数据。

在本发明的一些示例性实施例中，基于前述方案，所述方法还包括：

将地址特征与档案特征、行为活动特征、信息来源与设备特征以及账户属性特征中的至少一个进行组合,获取包括地址特征的特征组合。

在本发明的一些示例性实施例中，基于前述方案，基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据，包括：分别统计出所述特征组合的分组数据在多个维度的系数；基于所述多个维度的权重获取所述特征组合的分组数据的综合系数；提取出超过综合系数阈值的特征组合的分组数据,以获取目标特征组合的分组数据。

在本发明的一些示例性实施例中，基于前述方案，所述多个维度包括：设备标识、地址信息、IP地址、用户账号、手机号码中的至少两个。在本发明的一些示例性实施例中，基于前述方案，基于从所述目标特征组合的分组数据的距离提取出目标数据，包括：对所述目标特征组合的分组数据进行聚类，获取以所述目标特征组合的分组数据为顶点的图数据；提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为目标数据。

在本发明的一些示例性实施例中，基于前述方案，当获取到多个目标特征组合的分组数据时，基于从所述目标特征组合的分组数据的距离提取出目标数据，包括：对每个目标特征组合的分组数据进行聚类，获取以每个目标特征组合的分组数据为顶点的图数据；提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为所述目标特征组合的分组数据的分组目标数据；基于每个目标特征组合的分组数据的分组目标数据中的关联关系，获取目标数据。

在本发明的一些示例性实施例中，基于前述方案，提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，包括：提取出所述图数据中与其他顶点的杰卡德距离和/或欧式距离超过距离阈值的顶点。

根据本发明实施例的第二方面，提供一种数据处理装置，其中，所述装置包括：获取模块，配置为获取待处理数据；分组模块，配置为基于包括地址特征的特征组合将所述待处理数据进行分组,获取所述特征组合的分组数据；筛选模块，配置为基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据；提取模块，配置为基于从所述目标特征组合的分组数据的距离提取出目标数据。

在本发明的一些示例性实施例中，基于前述方案，所述装置还包括：组合模块，配置为将地址特征与档案特征、行为活动特征、信息来源与设备特征以及账户属性特征中的至少一个进行组合,获取包括地址特征的特征组合。

在本发明的一些示例性实施例中，基于前述方案，所述筛选模块，配置为分别统计出所述特征组合的分组数据在多个维度的系数；基于所述多个维度的权重获取所述特征组合的分组数据的综合系数；提取出超过综合系数阈值的特征组合的分组数据,以获取目标特征组合的分组数据。

在本发明的一些示例性实施例中，基于前述方案，所述多个维度包括：设备标识、地址信息、IP地址、用户账号、手机号码中的至少两个。

在本发明的一些示例性实施例中，基于前述方案，所述提取模块，配置为对所述目标特征组合的分组数据进行聚类，获取以所述目标特征组合的分组数据为顶点的图数据；提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为目标数据。

在本发明的一些示例性实施例中，基于前述方案，当获取到多个目标特征组合的分组数据时，所述提取模块，配置为对每个目标特征组合的分组数据进行聚类，获取以每个目标特征组合的分组数据为顶点的图数据；提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为所述目标特征组合的分组数据的分组目标数据；基于每个目标特征组合的分组数据的分组目标数据中的关联关系，获取目标数据。

在本发明的一些示例性实施例中，基于前述方案，所述提取模块，配置为提取出所述图数据中与其他顶点的杰卡德距离和/或欧式距离超过距离阈值的顶点。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现第一方面所述的方法步骤。

根据本发明实施例的第四方面，提供一种电子设备，其中，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面所述的方法步骤。

本发明实施例中，获取待处理数据；基于包括地址特征的特征组合将所述待处理数据进行分组,获取所述特征组合的分组数据；基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据；基于从所述目标特征组合的分组数据的距离提取出目标数据。将地址特征与其他特征结合，能够挖掘出更全面的异常数据，实现了对目标数据的识别，提升了网络安全性以及数据的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是根据一示例性实施例示出的一种数据处理方法的流程图；

图2是根据一示例性实施例示出的一种获取目标特征组合的分组数据的方法的流程图；

图3是根据一示例性实施例示出的一种提取目标数据的方法的流程图；

图4是根据一示例性实施例示出的一种数据处理装置的结构图；

图5是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

目前,由于欺诈手段的不断变换，传统的有监督机器学习和无监督学习无法发挥较大的作用，带来了很大的网络安全隐患。例如,产生了大批的羊毛党，黄牛党和扫码党，并随着发展壮大，形成有组织的团伙和一定规模的合作链路。

无监督机器学习被认为是新一代的营销场景反欺诈技术，但大多数是用在用户的特征进行聚类。解决营销场景的半监督机器学习方法主要有自编码技术的异常检测和用户相似性聚类。

1、自编码技术异常检测：

该技术利用从原始变量空间提取的高阶特征来重构，其输入和输出相同，正常样本重建还原，但无法将异于正常分布的数据点较好的还原，从而导致误差变大。实现方法的步骤如下：

(1)处理数据，将无标签数据集压缩成能直接输入模型的特征向量表示；(2)将特征向量输入到自编码网络中进行训练；(3)根据模型的结果分析出异常数据，其中，异常用户输入与输出的均方差会相对较大。

2、用户相似性聚类：

根据用户的特征将用户划分为多个不同类别，类别内的数据有比较大的相似性，类别间的数据关联性较少。判断结果的好坏主要有两个指标：一致性和关联性。实现步骤为：

(1)特征工程：选择数据中有效的特征，并将特征组成一个向量；(2)聚类分析：将特征向量放入聚类模型中计算关联性，并不断循环调优直至模型达到效果；(3)结果排序评分：主要依赖两个指标，群组的大小和群组的关联。

上述技术中存在以下问题：

1、数据的输入格式固定。无论是自编码还是用户相似性聚类，必须要输入特定的数据类型才能使算法生效，对数据字段的缺失情况要求也是极高的。

2、模型结果的误报率较高，可解释性差。由于营销场景的欺诈的多变性，欺诈特征也在不断变化，模型的原理决定了一些正常的用户也被划分为异常的用户。聚类算法本身只能根据关联性和一致性判断模型的效果，但对异样用户的解释性方面较为薄弱。

3、模型性能较差。要两两计算用户特征向量的形似度，而且要不断对用户进行调整分类，不断计算调整后的新类点，算法的时间消耗是很大的。

针对缺点1，本发明的数据容许度极强，允许数据字段的缺失和数据量少的情况；针对缺点2，本发明清楚的根据地址的模式和用户之间的共同点，可以判断团伙的准确性，从而能减少误报率和增强可解释性，针对缺点3，本发明是针对每个特征组合进行聚类，非数据的全部特征，即减少了数据量也减少了特征列，从而减少算法时间消耗。

下面结合具体的实施例，对本发明实施例提出的人机验证方法数据处理方法进行详细的说明。需要说明的是，执行本发明实施例的执行主体可以包括具有计算处理能力的装置执行，例如：服务器和/或终端设备，但本发明并不限于此。

图1是根据一示例性实施例示出的一种数据处理方法的流程图。

如图1所示，该方法可以包括但不限于以下步骤：

在S110中，获取待处理数据。

本发明实施例中，待处理数据可以是用户在网络营销场景中所产生的账户数据，通过这些服务提供商的数据调用接口，获取到这些数据，例如，待处理数据可以包括用户信息(账户，手机号，设备ID等用户描述信息)、用户属性信息(wi-fi描述，IP，运营商)和用户行为数据(支付时间，金额，收货地址，收货电话等)。待处理数据可以是一批来自不同用户的数据，本发明对这些待处理数据进行处理，从待处理数据中确定目标数据。本发明实施例中，待处理数据可以来自电商，航空，新金融的交易场景下用户端产生的数据，数据能够提供客户用户的交易行为和收获地址的数据，而且信息字段较完整，有利于模型的构建。但本发明并不限于此，例如，待处理数据也可以用于有监督学习训练模型，用于文本的分析。

本发明实施例中，可以关联交易账户注册，登陆的信息，对数据进行补充，并通过交易前的数据信息，能够全面的反应账户的行为。

根据本发明实施例，在获取到待处理数据后，可以对待处理数据进行预设处理，如，数据清洗，字段标准化、异常值清洗、离散化、归一化等预设处理。例如，将数据缺失严重的字段，直接删除。对缺失值少的字段通过均值，中位数，众数进行填补。删除离群点数据。将不是数值型的字段转成数值型，如设备的信息。将量级不同的字段归一化，如金额。将重复的数据删除。预处理后得到字段值有效的、格式统一的、数值化的待处理数据。

本发明实施例中，基于营销场景的数据，地址特征和设备数据，IP数据，交易数据、行为数据的结合，根据业务经验，将能够反应营销欺诈行为的多个特征进行组合，能够全方位的得到用户的信息，能够把更隐蔽的欺诈团伙挖掘出来，数据处理使数据质量更高，从而提高了模型的准备率和召回率。

在S120中，基于包括地址特征的特征组合将所述待处理数据进行分组,获取所述特征组合的分组数据。

本发明实施例中,可以预设置地址特征、档案特征、行为活动特征、信息来源与设备特征以及账户属性特征这个五个特征，然后将地址特征与档案特征、行为活动特征、信息来源与设备特征以及账户属性特征中的至少一个进行组合,获取包括地址特征的特征组合。特征组合的数据为至少一个。例如，将地址特征与档案特征、行为活动特征、信息来源与设备特征以及账户属性特征组合，获取该特征组合。又例如，将地址特征与档案特征组合，获取该特征组合。

需要说明的是，本发明实施例中可以在获取到待处理数据后，基于预设置的上述五个特征将待处理数据进行分组，然后基于特征组合将各特征对应的待处理数据进行组合，获取特征组合的分组数据。

本发明实施例中，根据获取的待处理数据(或者进行预设处理后的待处理数据)提取以下五个方面的特征：

(1)地址特征，包括地址的模式和地址中的异常符号的个数，数字的个数等。例如，对地址做特征处理，如河北保定市涿州市刁窝乡,永安路和信摩尔63栋825室L转换成A11E1A7D2A1D3A1E1B1。

(2)档案特征，包括注册昵称，注册账户，性别，交易账户，账户电话，收货电话，收货地址等。

(3)行为活动特征，包括行为活动包括交易是否是敏感时间，登录状态，交易金额等。例如，时间字段可以生成按小时或者多个小时划分的区间特征，敏感时间等特征。

(4)信息来源与设备特征，包括登录设备类型、版本、浏览器信息、ip地址，交易设备类型、浏览器信息、ip地址、地址位置等。

(5)账户属性特征，包括不同时间段设备关联的账户数，不同时间段ip关联的账户数，不同的账户关联的收货手机号等。例如，提取设备关联账户数，账户交易时间间隔等。

需要指出的是，在进行特征提取时，一条待处理数据可以被划分到多个分组中。

本发明实施例中，在将待处理数据进行分组后，按照特征组合将各特征对应的待处理数据进行组合，获取特征组合的分组数据。

需要说明的是，本发明并不限于先将待处理数据进行分组，然后基于特征组合将各特征对应的待处理数据进行组合，获取特征组合的分组数据。例如，也可以在获取到特征组合后，基于特征组合对待处理数据进行分组，以获取特征组合的分组数据。

上述实施例中，结合营销场景欺诈中的地址特征：存在欺诈的黑样本地址相似或者地址是虚假的，而白样本群组地址相似性较小，可以从特征组合里挑选出与当前营销欺诈场景相关的目标特征组合的分组数据。基于地址特征和其他特征组合的特征组合，根据用户基本特征相同，用户地址相似的概念，将可疑账户紧密的聚成类，正常的用户是分散的。

在S130中，基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据。

本发明实施例中，提取的目标特征组合的分组数据为至少一个。

根据本发明实施例，在获取到特征组合的分组数据后，可以分别统计出每个特征组合的分组数据在多个维度的系数，基于所述多个维度的权重获取每个特征组合的分组数据的综合系数，提取出超过综合系数阈值的特征组合的分组数据,以获取目标特征组合的分组数据。

根据本发明实施例，上述多个维度包括：设备标识、地址信息、IP地址、用户账号、手机号码中的至少两个。

需要说明的是，获取的目标特征组合是指存在欺诈数据较多的特征组合，目标特征组合的分组数据并不全是欺诈数据。因此，后续需要进一步的对目标特征组合内的分组数据进行进一步的提取。

在S140中，基于从所述目标特征组合的分组数据的距离提取出目标数据。

根据本发明实施例，在获取到目标特征组合的分组数据后，对所述目标特征组合的分组数据进行聚类，获取以所述目标特征组合的分组数据为顶点的图数据，提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为目标数据。

根据本发明实施例，在获取到多个目标特征组合的分组数据时，对每个目标特征组合的分组数据进行聚类，获取以每个目标特征组合的分组数据为顶点的图数据，提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为所述目标特征组合的分组数据的分组目标数据，基于每个目标特征组合的分组数据的分组目标数据中的关联关系，获取目标数据。

本发明实施例中，基于上述聚类的结果，提供了可疑的账户群，进一步的，从可疑的账户群内将有相似或者强关联的聚类关联起来，一方面图形关联通过相似的传递性，发现间接的关联账户(例如，某特征组合的分组数据内A与B相似，另一特征组合的分组数据内B与C相似，则可以将A与C通过图形关联在一起)。另一方面图形分析可以将几个强聚类(如某特征组合的分组数据内A与B相似)与弱聚类(如某特征组合的分组数据内A与B相似，另一特征组合的分组数据内B与C相似，则A与C为弱聚类)关联在一起，一个弱聚类可能与几个强聚类联系起来，提高弱聚类的可信度。作为图形问题，两个聚类之间的边缘权重与共享账户的数量、特征和类的大小都有关系。

需要说明的是，待处理数据中的任意一个账户数据可能属于不同的聚类(目标特征组合的分组数据)。例如，一个账户数据可能属于收货地址特征和信息来源与设备特征这一特征组合，同时也可以属于地址特征和行为活动特征这一特征组合。

需要指出的是，步骤S220、S230以及S240为构建无监督机器学习模型的过程，通过该无监督机器学习模型，能够获取到待处理数据中的高欺诈概率的特征组合以及高欺诈概率的目标数据。

本发明实施例中，将获取到的特征组合的分组数据放入聚类算法中，基于异常数据(欺诈数据)在某些特征组合中有很高的相似性或者关联性，从而能检测出异常数据以及目标特征组合。而且，将异常数据通过图形分析将拥有相似账户或者强关联的聚类关联起来，一个弱聚类可能与几个强聚类联系起来，提高弱聚类的可信度。随着欺诈模式的多样化，一些欺诈分子容易绕过目前的识别模型，本发明实施例可以识别一些新的攻击和潜在的风险。

图2是根据一示例性实施例示出的一种获取目标特征组合的分组数据的方法的流程图。需要说明的是，执行本发明实施例的执行主体可以包括具有计算处理能力的装置执行，例如：服务器和/或终端设备，但本发明并不限于此。

如图2所示，该方法可以包括但不限于以下步骤：

在S210中，分别统计出所述特征组合的分组数据在多个维度的系数。

需要指出的是，针对不同的维度，统计出特征组合的分组数据在该维度的系数的方法不同，例如，对于地址信息，可以分别提取特征组合的分组数据中的任意两个地址信息，计算其相似度，并与相似度阈值进行比较，然后统计出该特组合的分组数据中地址信息的相似度超过相似度阈值的地址信息占据该特征组合的分组数据的比例，基于该比例，得到该特征组合的分组数据在该地址信息这个维度的系数。对于设备标识、IP地址、用户账号、手机号码等维度，可以基于这些维度的出现相同的数据的频次来得到每个维度的系数。

在S220中，基于所述多个维度的权重获取所述特征组合的分组数据的综合系数。

根据本发明实施例，可以为每个维度设置权重，对特征组合的分组数据在每个维度的系数以及每个维度的权重进行加权求和，可以得到每个特征组合的分组数据的综合系数，然后按照综合系数对每个特征组合的分组数据进行排序，提取超过综合系阈值的特征组合的分组数据，该特征组合的分组数据为目标特征组合的分组数据。

在S230中，提取出超过综合系数阈值的特征组合的分组数据,以获取目标特征组合的分组数据。

需要说明的是，获取的目标特征组合是指存在欺诈数据较多的特征组合，目标特征组合的分组数据并不全是欺诈数据。

本发明实施例中，分别统计出每个特征组合的分组数据在多个维度的系数，基于所述多个维度的权重获取每个特征组合的分组数据的综合系数，提取出超过综合系数阈值的特征组合的分组数据,以获取目标特征组合的分组数据。将地址特征和其他特征进行特征组合，根据该特征组合内的异常数据确定是否保留此组特征组合，如短时间内，同一设备交易多次，并且地址相似。实现了基于多个维度确定目标特征组合，提升了确定的目标特征组合的准确性。

图3是根据一示例性实施例示出的一种提取目标数据的方法的流程图。需要说明的是，执行本发明实施例的执行主体可以包括具有计算处理能力的装置执行，例如：服务器和/或终端设备，但本发明并不限于此。

如图3所示，该方法可以包括但不限于以下步骤：

在S310中，对每个目标特征组合的分组数据进行聚类，获取以所述目标特征组合的分组数据为顶点的图数据。

本发明实施例中，在进行聚类时，可以采用图模型得到每个目标特征组合的图数据。需要指出的是，图数据中每个顶点表示一个目标特征组合的分组数据。

在S320中，提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为所述目标特征组合的分组数据的分组目标数据。

根据本发明实施例，可以提取出所述图数据中与其他顶点的杰卡德(jaccard)距离和/或欧式距离超过距离阈值的顶点。

需要说明的是，基于特征组合的分组数据可能是类别型(也可以称为枚举category)或者数值型(也可以称为连续值double)，因此，针对不同的数据类型，分别设置不同的距离计算方法。

针对类别型，距离函数为杰卡德距离，其公式如下：

其中，d_j表示数据A和B在j类型下的距离。其中，AΔB＝|A∪B|-|A∩B|。

针对数值型，距离函数为欧式距离，两个n维向量a(x₁₁,x₁₂,…,x_1n)与b(x₂₁,x₂₂,…,x_2n)间的欧式距离公式如下：

其中，d₁₂表示向量a和向量b的欧式距离。

本发明实施例中，基于不同的目标特征组合的分组数据和距离函数，不断迭代聚类数据点，从目标特征组合的分组数据中提取目标数据。

需要指出的是，若仅获取到一个目标特征组合，则从该目标特征组合提取的目标数据即为待处理数据对应的目标数据，若获取到多个目标特征组合，则从该目标特征组合提取的目标数据即为待处理数据对应的分组数据，仅是待处理数据对应的部分目标数据。

在S330中，基于每个目标特征组合的分组数据的分组目标数据中的关联关系，获取目标数据。

根据本发明实施例，对每个目标特征组合的分组数据中提取到分组目标数据后，基于这些分组目标数据的关联关系，获取到目标数据。例如，共提取到两个目标特征组合1和2，其中，目标特征组合1中提取到的分组目标数据为A和B，目标特征组合2中提取到的分组目标数据为A和C，则最后获取到的目标数据为A、B、C。

本发明实施例中，将聚类和图分析算法结合使用，对传统的聚类算法进行改进，只选取特征组合内的数据计算相似度，从而提高算法的性能。图分析根据相似性和关联性，将几个联系的类进行关联在一起，可以提高目标数据的可信度。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施例。

下述为本发明装置实施例，可以用于执行本发明方法实施例。在下文对装置的描述中，与前述方法相同的部分，将不再赘述。

图4是根据一示例性实施例示出的一种数据处理装置的结构图。

如图4所示，该装置400可以包括：获取模块410，分组模块420，筛选模块430，提取模块440。

获取模块410，配置为获取待处理数据。

分组模块420，配置为基于包括地址特征的特征组合将所述待处理数据进行分组,获取所述特征组合的分组数据。

筛选模块430，配置为基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据。

提取模块440，配置为基于从所述目标特征组合的分组数据的距离提取出目标数据。

图5是根据一示例性实施例示出的一种电子设备的结构示意图。需要说明的是，图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器55上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的终端中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括确定模块、发送模块、生成模块以及验证模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

以上具体示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待处理数据；

基于包括地址特征的特征组合将所述待处理数据进行分组,获取所述特征组合的分组数据；

基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据；

基于从所述目标特征组合的分组数据的距离提取出目标数据。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据，包括：

分别统计出所述特征组合的分组数据在多个维度的系数；

基于所述多个维度的权重获取所述特征组合的分组数据的综合系数；

提取出超过综合系数阈值的特征组合的分组数据,以获取目标特征组合的分组数据。

4.如权利要求3所述的方法，其特征在于，所述多个维度包括：设备标识、地址信息、IP地址、用户账号、手机号码中的至少两个。

5.如权利要求1所述的方法，其特征在于，基于从所述目标特征组合的分组数据的距离提取出目标数据，包括：

对所述目标特征组合的分组数据进行聚类，获取以所述目标特征组合的分组数据为顶点的图数据；

提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为目标数据。

6.如权利要求5所述的方法，其特征在于，当获取到多个目标特征组合的分组数据时，基于从所述目标特征组合的分组数据的距离提取出目标数据，包括：

对每个目标特征组合的分组数据进行聚类，获取以每个目标特征组合的分组数据为顶点的图数据；

提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，所述顶点所对应的分组数据为所述目标特征组合的分组数据的分组目标数据；

基于每个目标特征组合的分组数据的分组目标数据中的关联关系，获取目标数据。

7.如权利要求5或6所述的方法，其特征在于，提取出所述图数据中与其他顶点的距离超过距离阈值的顶点，包括：

提取出所述图数据中与其他顶点的杰卡德距离和/或欧式距离超过距离阈值的顶点。

8.一种数据处理装置，其特征在于，所述装置包括：

获取模块，配置为获取待处理数据；

分组模块，配置为基于包括地址特征的特征组合将所述待处理数据进行分组,获取所述特征组合的分组数据；

筛选模块，配置为基于所述特征组合的分组数据的多个维度的综合系数对所述分组数据进行筛选，获取目标特征组合的分组数据；

提取模块，配置为基于从所述目标特征组合的分组数据的距离提取出目标数据。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。