CN113807940A

CN113807940A - 信息处理和欺诈行为识别方法、装置、设备及存储介质

Info

Publication number: CN113807940A
Application number: CN202010552861.6A
Authority: CN
Inventors: 赵宏宇; 呼广跃; 刘坤; 袁朝民
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2021-12-17
Anticipated expiration: 2040-06-17
Also published as: CN113807940B

Abstract

本发明公开了一种信息处理和欺诈行为识别方法、装置、设备及存储介质，涉及信息处理技术领域，以提高对目标用户的识别速度。该方法包括：获取待处理的用户数据，其中，所述待处理的用户数据包括文本型数据和数值型数据；将所述文本型数据进行分类，得到第一文本型数据，以及，将所述数值型数据进行分类，得到第一数值型数据；根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度；其中，在所述第一文本型数据中，文本型数据之间的相似度满足第一预设要求；在所述第一数值型数据中，数值型数据之间的相似度满足第二预设要求。本发明实施例可提高对目标用户的识别速度。

Description

信息处理和欺诈行为识别方法、装置、设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种信息处理和欺诈行为识别方法、装置、设备及存储介质。

背景技术

近年来，随着互联网金融借贷的普及和发展，伴随而来的信贷欺诈事件层出不穷。欺诈行为集中发生在贷款申请环节，其中，团伙骗贷给金融机构带来的危害最为严重，因此，对疑似诈骗用户的识别就显得尤为重要。

现有技术中通过判断大规模数据之间的相似度或数值接近程度可以查找出目标用户，比如具有诈骗风险的用户。但是，现有技术的方案，由于需要大量数据之间的匹配，因此导致其识别速度较慢。

发明内容

本发明实施例提供一种信息处理和欺诈行为识别方法、装置、设备及存储介质，以提高对目标用户的识别速度。

第一方面，本发明实施例提供了一种信息处理方法，包括：

获取待处理的用户数据，其中，所述待处理的用户数据包括文本型数据和数值型数据；

将所述文本型数据进行分类，得到第一文本型数据，以及，将所述数值型数据进行分类，得到第一数值型数据；

根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度；

其中，在所述第一文本型数据中，文本型数据之间的相似度满足第一相似度阈值；在所述第一数值型数据中，数值型数据之间的相似度满足第二相似度阈值。

第二方面，本发明实施例还提供一种信息处理装置，包括：

第一获取模块，用于获取待处理的用户数据，其中，所述待处理的用户数据包括文本型数据和数值型数据；

第二获取模块，用于将所述文本型数据进行分类，得到第一文本型数据，以及，将所述数值型数据进行分类，得到第一数值型数据；

第一处理模块，用于根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度；

第三方面，本发明实施例还提供一种欺诈行为识别方法，包括：

根据上述的信息处理方法获取所述待处理的用户的数据中第一用户数据的相似度；

根据所述相似度，识别欺诈行为。

第四方面，本发明实施例还提供一种信息处理设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上所述的信息处理方法和/或欺诈行为识别方法中的步骤。

第五方面，本发明实施例还提供一种可读存储介质，所述可读存储介质上存储程序，所述程序被处理器执行时实现如上所述的信息处理方法和/或欺诈行为识别方法中的步骤。

在本发明实施例中，对待处理的用户数据包括的文本型数据和数值型数据分别进行分类，然后根据得到的第一文本型数据和第一数值型数据，确定待处理的用户数据的相似度。由此可以看出，通过根据相似度对不同类型的数据进行了分类，可减少数据处理的数据量，从而，利用本发明实施例的方案可提高查询相似数据的速度，进而提高了对目标用户的识别速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的信息处理方法的流程图；

图2是本发明实施例提供的欺诈行为识别方法的流程图；

图3(a)是本发明实施例提供的信息处理装置的结构图之一；

图3(b)是本发明实施例提供的信息处理装置的结构图之二；

图4是本发明实施例提供的信息处理装置的结构图之三；

图5是本发明实施例提供的信息处理装置的结构图之四；

图6是本发明实施例提供的欺诈行为识别装置的结构图；

图7是本发明实施例提供的信息处理设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的信息处理方法的流程图，如图1所示，包括以下步骤：

步骤101、获取待处理的用户数据，其中，所述待处理的用户数据包括文本型数据和数值型数据。

其中，在本发明实施例中，所述待处理的用户数据可包括用户的姓名、年龄、住址、工作地址、电话、GPS(Global Positioning System，全球定位系统)数据等。为了提高数据处理效率，在本发明实施例中，对于获得的待处理的用户数据，可首先去除其中包括的特殊符号，并将非数值型或者非文本型数据对应转化为数值型或文本型数据。

其中，姓名、住址、工作地址等可定义为文本型数据，电话、年龄等可定义为数值型数据。其中，姓名、年龄、住址、工作地址等每一种类型的数据都可认为是用户数据的一种属性。

此外，所述待处理的用户数据可以包括多个用户的数据。

步骤102、将所述文本型数据进行分类，得到第一文本型数据，以及，将所述数值型数据进行分类，得到第一数值型数据。

以下分别描述获得第一文本型数据和第一数值型数据的详细过程。

(一)将所述文本型数据进行分类，得到第一文本型数据。

其中，在所述第一文本型数据中，文本型数据之间的相似度满足第一相似度阈值。例如，所述第一相似度阈值可以是针对所有属性的文本型数据设置统一的相似度阈值，也可以针对不同的属性设置不同的相似度阈值。

在本发明实施例中，采用Minhash(最小哈希)和LSH(Locality SensitiveHashing，局部敏感哈希)相结合的方式，对文本型数据进行分类。

以下对LSH算法和Minhash算法做一简单介绍。

LSH的基本思想是利用多个哈希函数把高维空间中的向量映射到低维空间，利用低维空间的编码来表示高维向量。该算法采用多个哈希函数h(x)对高维向量对象进行多次映射，该向量对象按照其分布以及自身的特性映射到不同哈希桶中。映射的原则是：在高维空间中距离比较接近的向量对象有很大的概率映射到一个桶中，而距离比较远的对象则有很大的概率映射到不同桶中。

h(x)函数的选择方法为：假设i和j为原始空间中的两个原始数据点，i和j之间的距离用d(i,j)表示，令d₁＜d₂，表示距离度量d(i,j)的两个距离阈值。LSH算法的哈希函数h(x)必须同时满足以下两个条件：

(1)如果d(i,j)≤d₁，则h(i)＝h(j)的概率大于或等于p₁；

(2)如果d(i,j)≥d₂，则h(i)＝h(j)的概率小于或等于p₂。

式中，p₁>p₂∈[0,1]。

基于LSH方法，在查找相似近邻的时候，可直接从目标数据(用户数据)对应的哈希桶中取出相似度较高或数值接近的数据。

Minhash算法能够对原始数据进行压缩，并在一定程度上，保持原始数据的相似度不变。Minhash算法从词或字的维度上进行了降维。

在本发明实施例中，利用LSH算法的目的仍然是将高维数据降维到低维数据，保证了集合的Jaccard相似度没有被破坏，最后通过Minhash算法的压缩结果，就可以计算原始文本之间的相似度。

基于以上原理，在本发明实施例中，按照不同的属性对文本型数据进行处理。

以其中一个第一属性(所述第一属性为所述文本型数据具有属性中的任一属性)为例，对于具有第一属性的文本型数据，构造输入矩阵，其中，所述输入矩阵为n×m的矩阵，n表示具有第一属性的文本型数据中词或者字的数量，m表示具有第一属性的文本型数据的数量。然后，利用H个哈希函数对所述输入矩阵进行处理，得到签名矩阵，其中，所述签名矩阵为H×m的矩阵，H表示哈希函数的个数，H为正整数。之后，将所述签名矩阵划分为区块，其中，所述区块的数量为B，B为大于0的整数。对于每个区块，利用对应的哈希函数(例如，每个区块对应一个哈希函数)进行处理，得到所述具有第一属性的文本型数据的预分类。最后，从所述预分类中选择第一子分类，得到第一文本型数据；其中，所述第一子分类中具有所述第一属性的文本型数据之间的相似度满足所述第一相似度阈值。

通过预分类，可将具有第一属性的文本型数据中，相似的文本型数据划分到一起，也可将不相似的文本型数据划分到一起。由于具有第一属性的文本型数据中包括了不同用户的该第一属性的文本型数据，那么，通过这种方式，也相当于将不同用户进行了分类。

在一个应用场景中，所述文本型数据至少包括：繁体字、错别字、通过夹杂特殊字符而伪造的用户信息。在本发明实施例中，通过对包括上述类型的信息的处理，可可更全面的对各种形式的文本型数据进行区分，从而区分通过伪造用户信息而越过风控规则的恶意行为，提高识别具有欺诈行为的用户的准确性。

(二)、将所述数值型数据进行分类，得到第一数值型数据。

数值型数据包括用户年龄、收入、GPS等。以GPS为例，当某一GPS区域附近出现大量的用户贷款申请，说明在该区域出现目标用户的概率较高。此外，审贷系统可能设置为，一个城市的地址比一个农村的地址可以获得更高的信用额度，因此，目标用户可能使用GPS模拟器修改位置骗取高额贷款。相类似地，现有的欺诈用户的数值型数据也会出现相同或相近的情况。针对此种数值型数据的数据量庞大的特性，为提高算法效率，在本发明实施例中，采用基于LSH框架的E2LSH(Exact Euclidean locality sensitive Hashing，欧氏局部敏感哈希)方法进行处理。

E2LSH是基于p-稳定分布的一种有效的近似相似性查询技术，该分布具有如下性质：若两个变量都服从p-稳定分布，则其线性组合也服从p-稳定分布。利用p-稳定分布的特性可以设计有效的哈希函数簇来处理高维特征向量，并能在保证数据间的距离相对不变的情况下，对高维数据进行降维。

在本发明实施例中，E2LSH哈希函数簇采用以下方式构建：

式中，h(x)表示哈希函数，x为d维的数值型数据的原始数据，a为是实数集R下的d维随机向量，且服从p-稳定分布(取自正态分布)，b为服从于U(0,w)均匀分布的随机变量，w用于对投影的点进行间隔量化。a·x表示将特征向量x映射到实数集R上，并将实轴以宽度w等分，b用于投影后的偏置矫正。公式(1)的右侧是向下取整操作，以进一步将x映射到整数集上。通过上述公式可最终计算出原始数据点x的哈希值。

在本发明实施例中，如果需要将原始数据的维度降到K维，需要选择K个如上述公式(1)的哈希函数，组成一个哈希函数簇来进行降维，计算出来的K个哈希值组成一个K个哈希值元组的哈希桶，从而实现原始数据点的聚类，即将高维数据降维到低维数据。

基于以上原理，在本发明实施例中，以其中一个第二属性(所述第二属性为所述数值型数据具有属性中的任一属性)为例，在对于具有第二属性的数值型数据，通过E2LSH算法确定所述具有第二属性的数值型数据的预分类。然后，从所述预分类中选择第一子分类，得到第一数值型数据；其中，所述第一子分类中具有所述第二属性的数值型数据之间的相似度满足所述第二相似度阈值。

通过预分类，可将具有第二属性的数值型数据中，欧式距离较近(或称为相似)的数值型数据划分到一起，也可将欧式距离较远(或称为不相似)的数值型数据划分到一起。

步骤103、根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度。

其中，所述待处理的用户数据中可以包括多个用户对应的数据。那么，对于其中的某一个用户，在此称为第一用户。也就是说，在此步骤中，是以某个第一用户数据作为最基本的处理单位，来计算它和其他用户数据之间的相似度。

在此步骤中，对于第一用户的数据，确定与所述文本型数据的每个属性对应的第一文本型数据的第一数据量，以及确定与所述数值型数据的每个属性对应的第一数值型数据的第二数据量。然后，根据所述第一数据量和所述第二数据量，得到第一用户数据的相似度。

具体的，按照以下公式(2)得到第一用户数据的相似度：

其中，S_i表示相似度，w_j表示属性j的权重，i表示用户数据的索引，E_ij表示属性j对应的第一数据量或者属性j对应的第二数据量，M表示属性的个数，为大于0的整数。

其中，Si可以认为是用户i的综合分数，该值越大说明该用户的信息与其它用户信息重复或相似的概率越高，即该用户越可能是目标用户。

例如，对于某个用户而言，姓名、工作地址对应的第一数据量为A1，A2，权值分别为w1和w2；年龄、GPS数据对应的第二数据量为B1，B2，权值分别为w3和w4。那么，S_i＝A1×w1+A2×w2+B1×w3+B2×w4。

或者，在本发明实施例中，还可基于在步骤102中获得的相似度进行第一用户数据的相似度的计算。

具体的，在此步骤中，获取所述第一用户数据的每一属性对应的相似度，然后，将所述每一属性对应的相似度进行加权求和，得到所述第一用户数据的相似度。

例如，对待处理数据A(A1，A2)、B(B1，B2)、C(C1，C2)。A1，A2分别表示A的不同属性，B1，B2分别表示B的不同属性，C1，C2分别表示C的不同属性。假设，A1，B1，C1为文本型数据且含义相同(如表示姓名)，A2，B2，C2为数值型数据且含义相同(如表示年龄)。

在步骤102中，计算得到A1和B1的相似度为100％，A2和B2相似度95％，对应的权值分别为0.8和0.2。那么，数据A和数据B之间的相似度为：

100％×0.8+95％×0.2＝0.8+0.19＝0.99。

通过不同的计算相似度的方式，可提高本发明实施例处理的灵活性，从而快速的区分出目标用户。

在一个应用场景中，本实施例可以根据所述第一用户数据的相似度，确定具有所述第一用户数据的用户的综合指数。

在本实施例中，所述用户的综合指数可以表示该用户是否为具有欺诈风险的用户。具体的，在此步骤中，基于所述第一用户数据的相似度与预设的相似度阈值，确定所述用户的属性。如果第一用户数据的相似度满足预设要求，例如大于某个阈值，则说明第一用户数据很有可能是重复的数据，那么，即可根据该第一用户数据识别出具有这些第一用户数据的用户有可能是具有欺诈风险的用户。

本发明实施例的方法可应用于贷款审批、贷款申请、潜在用户挖掘等过程中，对应地，用户的综合指数可以设置为风控系数、用户行为习惯、用户喜好等。

作为一个实施例，本申请可以根据用户数据中第一用户数据的相似度，在不同的应用场景中对具有改第一用户数据的用户进行识别，比如如果第一用户数据包括贷款额度、贷款数量、活动场所、工作收入、活动轨迹等，其可以根据这些属性数据综合分析得到用户的风控系数、用户行为习惯、用户喜好。

容易理解的是，本实施例的相似度阈值的具体数值，可以根据上述不同的应用场景，而进行针对性设置，比如在风险评估的场景中，相似度阈值可以设置大于90％，如95％、98％和100％；或者，在潜在用户挖掘时，可以设置相似度阈值为50％，如60％、65％、70％等，而实现较大范围地挖掘潜在客户。

在上述实施例的基础上，由于通过上述方法获得是相似度接近的数据的集合，因此，在实际应用中，可根据实际需求，通过设置阈值对该集合进行细化筛选。

例如，对于步骤102中，根据预设的第一相似度阈值，从所述第一文本型数据中选择目标文本型数据，并利用所述目标文本型数据组成最终的第一文本型数据。对于步骤102中，根据预设的第二相似度阈值，从所述第一数值型数据中选择目标数值型数据，并利用所述目标数值型数据组成最终的第一数值型数据。其中，目标文本型数据对应的相似度大于所述第一相似度阈值，或者目标数值型数据对应的相似度大于所述第二相似度阈值。所述第一相似度阈值所述和第二相似度阈值可根据实际需要设置。

例如，对于第一文本型数据，可从中任意选择一个文本型数据，计算它和其他本文型数据之间的相似度。如果相似度均大于所述第一相似度阈值，那么，该文本型数据可用于后续处理。如果相似度的均值大于所述第一相似度阈值，那么，该文本型数据可用于后续处理。

那么，在步骤103中，则可根据所述最终的第一文本型数据和所述最终第一数值型数据，得到第一用户数据的相似度。也即，需要利用所述最终的第一文本型数据和所述最终第一数值型数据中所包括的数据量进行相似度的运算。

以GPS数据为例，所述数值型数据和所述第一数值型数据包括GPS数据。那么，根据预设的GPS相似度阈值，从所述第一GPS数据中选择目标GPS数据，利用所述目标GPS数据组成最终的GPS数据。

例如，如通过E2LSH方法获得GPS数据数值接近的集合，可以设置距离阈值对结果进行筛选。小于该阈值的GPS数据可认为是相似数据，大于该值的GPS数据则不进行后续处理。

参见图2，图2是本发明实施例提供的欺诈行为识别方法的流程图，本实施例可以采用上述任一实施例的信息处理方法获取待处理的用户的数据中第一用户数据的相似度，再根据所述相似度，识别欺诈行为，具体而言，如图2所示，包括以下步骤：

步骤201、获取待处理的用户数据，其中，所述待处理的用户数据包括文本型数据和数值型数据。

步骤202、将所述文本型数据进行分类，得到第一文本型数据，以及，将所述数值型数据进行分类，得到第一数值型数据。

步骤203、根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度。

其中，步骤201-203的描述可参照前述步骤101-103的描述。

步骤204、根据所述相似度，识别欺诈行为。

如果第一用户数据的相似度满足预设要求，例如大于某个阈值，则说明第一用户数据很有可能是重复的数据，那么，即可根据该第一用户数据识别出具有这些第一用户数据的用户有可能是具有欺诈行为的用户、用户群。如果第一用户数据的相似度不满足预设要求，例如小于某个阈值，则可对其进行正常的贷款申请审批，并提供相应的贷款策略。例如，如果某个第一用户数据的相似度小于第一预设值(该第一预设值小于所述阈值，可任意设置，例如设置为10％)，还可对其贷款审批业务加快办理或者给与相应的贷款优惠等。通过以上处理，能够有效的提高疑似欺诈团伙定位效率，排除团伙作案、机器人申请等情形，从而减少欺诈事件的发生。

在本发明实施例中，对待处理的用户数据包括的文本型数据和数值型数据分别进行分类，然后根据得到的第一文本型数据和第一数值型数据，确定待处理的用户数据的相似度。由此可以看出，通过根据相似度对不同类型的数据进行了分类，可减少数据处理的数据量，从而，利用本发明实施例的方案可提高查询相似数据的速度，进而提高了对目标用户以及欺诈行为的识别速度。

本发明实施例还提供了一种信息处理装置。参见图3，图3是本发明实施例提供的信息处理装置的结构图。由于信息处理装置解决问题的原理与本发明实施例中信息处理方法相似，因此该信息处理装置的实施可以参见方法的实施，重复之处不再赘述。

如图3(a)所示，信息处理装置300包括：第一获取模块301，用于获取待处理的用户数据，其中，所述待处理的用户数据包括文本型数据和数值型数据；第二获取模块302，用于将所述文本型数据进行分类，得到第一文本型数据；以及，将所述数值型数据进行分类，得到第一数值型数据；第一处理模块303，用于根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度；其中，在所述第一文本型数据中，文本型数据之间的相似度满足第一相似度阈值；在所述第一数值型数据中，数值型数据之间的相似度满足第二相似度阈值。

可选的，如果应用于贷款申请、潜在用户挖掘等场景中，如图3(b)所示，本实施例还包括第一确定模块304，用于根据所述第一用户数据的相似度，确定具有所述第一用户数据的用户的综合指数。

具体而言，所述第一确定模块304基于所述第一用户数据的相似度与预设的相似度阈值，确定所述用户的综合指数。

可选的，所述第二获取模块302包括：

第一处理子模块，用于对于具有第一属性的文本型数据，构造输入矩阵，其中，所述输入矩阵为n×m的矩阵，n表示具有第一属性的文本型数据中词或者字的数量，m表示具有第一属性的文本型数据的数量；

第二处理子模块，用于利用H个哈希函数对所述输入矩阵进行处理，得到签名矩阵，其中，所述签名矩阵为H×m的矩阵，H表示哈希函数的个数，H为正整数；

第三处理子模块，用于将所述签名矩阵划分为区块，其中，所述区块的数量为B，B为大于0的整数；

第四处理子模块，用于对于每个区块，利用对应的哈希函数进行处理，得到所述具有第一属性的文本型数据的预分类；第一获取子模块，用于从所述预分类中选择第一子分类，得到第一文本型数据；其中，所述第一子分类中具有所述第一属性的文本型数据之间的相似度满足所述第一相似度阈值；其中，所述第一属性为所述文本型数据具有属性中的任一属性；以及

第五处理子模块，用于对于具有第二属性的数值型数据，通过E2LSH算法确定所述具有第二属性的数值型数据的预分类；第一获取子模块，用于从所述预分类中选择第一子分类，得到第一数值型数据；其中，所述第一子分类中具有所述第二属性的数值型数据之间的相似度满足所述第二相似度阈值；其中，所述第二属性为所述数值型数据具有属性中的任一属性。

可选的，如图4所示，所述装置还可包括：

第一选择模块305，用于根据预设的第一相似度阈值，从所述第一文本型数据中选择目标文本型数据，并利用所述目标文本型数据组成最终的第一文本型数据。

可选的，如图5所示，所述装置还可包括：

第二选择模块306，用于根据预设的第二相似度阈值，从所述第一数值型数据中选择目标数值型数据，并利用所述目标数值型数据组成最终的第一数值型数据。

可选的，所述文本型数据至少包括：繁体字、错别字、通过夹杂特殊字符而伪造的用户信息。

可选的，所述第一处理模块303可包括：

第一确定子模块，用于确定与所述文本型数据的每个属性对应的第一文本型数据的第一数据量；第二确定子模块，用于确定与所述数值型数据的每个属性对应的第一数值型数据的第二数据量；第一处理子模块，用于根据所述第一数据量和所述第二数据量，得到第一用户数据的相似度。其中，所述第一处理子模块，具体用于按照以下公式得到第一用户数据的相似度：

其中，S_i表示相似度，w_j表示属性j的权重，i表示用户数据的索引，E_ij表示属性j对应的第一数据量或者属性j对应的第二数据量，M表示属性的个数。

可选的，所述第一处理模块303可包括：

第一获取子模块，用于获取所述第一用户数据的每一属性对应的相似度；第二获取子模块，用于将所述每一属性对应的相似度进行加权求和，得到所述第一用户数据的相似度。

本发明实施例提供的装置，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供了一种欺诈行为识别装置。参见图6，图6是本发明实施例提供的欺诈行为识别装置的结构图。由于欺诈行为识别装置解决问题的原理与本发明实施例中欺诈行为识别方法相似，因此该欺诈行为识别装置的实施可以参见方法的实施，重复之处不再赘述。

如图6所示，欺诈行为识别装置600包括：

第一获取模块601，用于获取待处理的用户数据，其中，所述待处理的用户数据包括文本型数据和数值型数据；第二获取模块602，用于将所述文本型数据进行分类，得到第一文本型数据，以及，将所述数值型数据进行分类，得到第一数值型数据；第一处理模块603，用于根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度；第二处理模块604，用于根据所述相似度，识别欺诈行为；其中，在所述第一文本型数据中，文本型数据之间的相似度满足第一相似度阈值；在所述第一数值型数据中，数值型数据之间的相似度满足第二相似度阈值。

如图7所示，本发明实施例的信息处理设备，包括：处理器700，用于读取存储器720中的程序，执行下列过程：

其中，在图7中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器700代表的一个或多个处理器和存储器720代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器700负责管理总线架构和通常的处理，存储器720可以存储处理器700在执行操作时所使用的数据。

处理器700负责管理总线架构和通常的处理，存储器720可以存储处理器700在执行操作时所使用的数据。

处理器700还用于读取所述程序，执行如下步骤：

在贷款申请或者潜在客户挖掘等场景中，基于所述第一用户数据的相似度与预设的相似度阈值，确定所述用户的综合指数。

处理器700还用于读取所述程序，执行如下步骤：

对于具有第一属性的文本型数据，构造输入矩阵，其中，所述输入矩阵为n×m的矩阵，n表示具有第一属性的文本型数据中词或者字的数量，m表示具有第一属性的文本型数据的数量；

利用H个哈希函数对所述输入矩阵进行处理，得到签名矩阵，其中，所述签名矩阵为H×m的矩阵，H表示哈希函数的个数，H为正整数；

将所述签名矩阵划分为区块，其中，所述区块的数量为B，B为大于0的整数；

对于每个区块，利用对应的哈希函数进行处理，得到所述具有第一属性的文本型数据的预分类；

从所述预分类中选择第一子分类，得到第一文本型数据；其中，所述第一子分类中具有所述第一属性的文本型数据之间的相似度满足所述第一相似度阈值；

其中，所述第一属性为所述文本型数据具有属性中的任一属性。

处理器700还用于读取所述程序，执行如下步骤：

根据预设的第一相似度阈值，从所述第一文本型数据中选择目标文本型数据，并利用所述目标文本型数据组成最终的第一文本型数据。

其中，所述文本型数据至少包括：繁体字、错别字、通过夹杂特殊字符而伪造的用户信息。

处理器700还用于读取所述程序，执行如下步骤：

对于具有第二属性的数值型数据，通过欧氏局部敏感哈希E2LSH算法确定所述具有第二属性的数值型数据的预分类；

从所述预分类中选择第一子分类，得到第一数值型数据；其中，所述第一子分类中具有所述第二属性的数值型数据之间的相似度满足所述第二相似度阈值；

其中，所述第二属性为所述数值型数据具有属性中的任一属性。

处理器700还用于读取所述程序，执行如下步骤：

根据预设的第二相似度阈值，从所述第一数值型数据中选择目标数值型数据，并利用所述目标数值型数据组成最终的第一数值型数据。

其中，所述数值型数据和所述第一数值型数据包括GPS数据；处理器700还用于读取所述程序，执行如下步骤：

根据预设的GPS相似度阈值，从所述第一GPS数据中选择目标GPS数据，利用所述目标GPS数据组成最终的GPS数据。

处理器700还用于读取所述程序，执行如下步骤：

确定与所述文本型数据的每个属性对应的第一文本型数据的第一数据量；

确定与所述数值型数据的每个属性对应的第一数值型数据的第二数据量；

根据所述第一数据量和所述第二数据量，得到第一用户数据的相似度。

处理器700还用于读取所述程序，执行如下步骤：

按照以下公式得到第一用户数据的相似度：

处理器700还用于读取所述程序，执行如下步骤：

获取所述第一用户数据的每一属性对应的相似度；

将所述每一属性对应的相似度进行加权求和，得到所述第一用户数据的相似度。

在本发明的另一个实施例中，再参照图7，本发明实施例的信息处理设备，包括：处理器700用于读取所述程序，执行如下步骤：

根据所述相似度，识别欺诈行为；

本发明实施例提供的设备，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供一种可读存储介质，可读存储介质上存储有程序，该程序被处理器执行时实现上述信息处理方法或者欺诈行为识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁盘或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。根据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述文本型数据进行分类，得到第一文本型数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述数值型数据进行分类，得到第一数值型数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述数值型数据和所述第一数值型数据包括全球定位系统GPS数据；

所述根据预设的第二相似度阈值，从所述第一数值型数据中选择目标数值型数据，并利用所述目标数值型数据组成最终的第一数值型数据，包括：

根据预设的GPS相似度阈值，从第一GPS数据中选择目标GPS数据，利用所述目标GPS数据组成最终的GPS数据。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一数据量和所述第二数据量，得到第一用户数据的相似度，包括：

按照以下公式得到第一用户数据的相似度：

9.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本型数据和所述第一数值型数据，得到所述待处理的用户数据中第一用户数据的相似度，包括：

获取所述第一用户数据的每一属性对应的相似度；

10.一种欺诈行为识别方法，其特征在于，所述方法包括：

根据权利要求1-9任一项所述信息处理方法，获取所述待处理的用户的数据中第一用户数据的相似度；

根据所述相似度，识别欺诈行为。

11.一种信息处理装置，其特征在于，包括：

12.一种信息处理设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器，用于读取存储器中的程序实现包括如权利要求1至9中任一项所述的信息处理方法中的步骤，和/或，实现包括如权利要求10所述的欺诈行为识别方法中的步骤。

13.一种可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现包括如权利要求1至9中任一项所述的信息处理方法中的步骤，和/或，实现包括如权利要求10所述的欺诈行为识别方法中的步骤。