CN111062800B

CN111062800B - 数据处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN111062800B
Application number: CN201911182005.XA
Authority: CN
Inventors: 陈星为; 张文会; 范芳芳
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Tongdun Holdings Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-09-08
Anticipated expiration: 2039-11-27
Also published as: CN111062800A

Abstract

本公开的实施例提供了一种数据处理方法、装置、电子设备及计算机可读介质。该方法包括：获取目标用户的目标数据，所述目标数据包括对象信息；根据所述目标数据的时间信息确定关联记录；对所述关联记录进行处理，获得所述对象信息的目标指标；通过分类器对所述目标指标进行处理，确定所述目标数据为引流数据或者非引流数据。本公开实施例提供的数据处理方法、装置、电子设备及计算机可读介质，根据目标数据的时间信息确定关联记录，以进一步根据关联记录确定目标指标，能够根据目标指标挖掘各个对象之间的引流关系，以确定目标数据为引流数据或非引流数据，避免由于引流造成的数据统计指标偏高。

Description

数据处理方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及金融数据处理技术领域，具体而言，涉及一种数据处理方法、装置、电子设备及计算机可读介质。

背景技术

在金融场景中，存在金融机构A在接受某个用户的借贷申请时，并不直接进行借款，而是在评估风险后，将借款对象的资料分发给下游的其他金融机构的场景(后文简称引流)。在该场景下，下游的金融机构B及之后的其他机构又会进行风险评估。此时如果金融机构A、B均调用了同一风控公司的接口，那么在风控公司看来，该用户等同于在A、B等金融机构都发生了借贷行为，这一情况下获得的该用户的风险指数(例如用户短期内在多个银行借贷的指标，下文简称多投)将会虚高。

因此，需要一种新的数据处理方法、装置、电子设备及计算机可读介质。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供一种数据处理方法、装置及电子设备，进而至少在一定程度上克服现有技术中多投指标虚高的缺陷。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提出一种数据处理方法，包括：获取目标用户的目标数据，所述目标数据包括对象信息；根据所述目标数据的时间信息确定关联记录；对所述关联记录进行处理，获得所述对象信息的目标指标；通过分类器对所述目标指标进行处理，确定所述目标数据为引流数据或者非引流数据。

在本公开的一种示例性实施例中，根据所述目标数据的时间信息确定关联记录包括：若所述目标数据中，两个目标数据的时间信息的差值小于目标时间阈值，则根据所述两个目标数据生成一条关联记录，其中，所述两个目标数据分别为所述关联记录的第一关联数据和第二关联数据。

在本公开的一种示例性实施例中，所述目标指标包括第一指标，所述关联记录的所述第一关联数据的时间信息早于所述第二关联数据的时间信息；其中，对所述关联记录进行处理，获得目标指标包括：将第一关联数据的对象信息相同的所述关联记录整合为第一关联记录集合，以根据所述第一关联记录集合确定各对象间的条件概率；根据所述各对象间的条件概率生成所述各对象的概率转移矩阵；对所述概率转移矩阵进行迭代，获得符合马尔科夫链式条件的目标转移矩阵，以根据所述目标转移矩阵确定所述各对象的重要性评分；根据所述各对象的重要性评分确定所述第一指标。

在本公开的一种示例性实施例中，所述目标指标包括第二指标；其中，对所述关联记录进行处理，获得目标指标包括：根据所述关联记录确定所述各对象的频繁模式树与频繁项集；对所述各对象的频繁模式树与频繁项集进行处理，获得所述第二指标。

在本公开的一种示例性实施例中，所述目标指标包括第三指标；其中，对所述关联记录进行处理，获得目标指标包括：将第一关联数据的对象信息相同且第二关联数据的对象信息相同的所述关联记录整合为第二关联记录集合；确定所述第二关联记录集合的各关联记录中，两个目标数据的时间信息的差值小于第一时间阈值的关联记录的第一记录数量与小于第二时间阈值的关联记录的第二记录数量，所述第一时间阈值小于所述第二时间阈值；根据所述第一记录数量与所述第二记录数量的比值确定所述第三指标。

在本公开的一种示例性实施例中，所述目标指标包括第四指标，其中，对所述关联记录进行处理，获得目标指标包括：根据所述第二关联记录集合确定时间分布；根据所述时间分布确定所述第四指标。

在本公开的一种示例性实施例中，所述方法还包括：剔除为引流数据的所述目标数据；根据剔除后的所述目标数据确定所述目标用户的风险指数。

在本公开的一种示例性实施例中，所述方法还包括：获取训练样本集，所述训练样本集包括目标数据及其引流标注；根据所述分类器对所述目标数据进行处理，获得训练分类结果；通过所述训练分类结果和所述引流标注调节所述分类器的参数，获得训练完成的所述分类器。

本公开实施例提出一种数据处理装置，包括：数据获取模块，用于获取目标用户的目标数据；记录生成模块，用于根据所述目标数据的时间信息确定关联记录；指标生成模块，用于对所述关联记录进行处理，获得目标指标；数据处理模块，用于通过分类器对所述第一指标进行处理，确定所述目标数据的标签，所述标签包括引流数据与非引流数据。

本公开实施例提出一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的数据处理方法。

在本公开的一些实施例所提供的技术方案中，根据目标数据的时间信息确定关联记录，能够对目标数据进行初步挖掘，获得较大概率为引流数据的关联记录。根据关联记录进一步获得对象信息的目标指标，能够进一步挖掘获得各个对象之间的引流关系。通过分类器对目标指标进行处理，能够对目标数据进行分类，以确定目标数据为引流数据或非引流数据。进而能够对目标数据进行区分，以避免由于引流造成的数据统计指标的虚假现象。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示出了可以应用本公开实施例的数据处理方法或装置的示例性系统架构100的示意图；

图2示意性示出了根据本公开的一个实施例的数据处理方法的流程图；

图3是基于图2的步骤S240在一个示例性实施例中的流程图；

图4是基于图2的步骤S230在一个示例性实施例中的流程图；

图5是基于图2的步骤S230在一个示例性实施例中的流程图；

图6是基于图2的步骤S230在一个示例性实施例中的流程图；

图7是基于图2的步骤S230在一个示例性实施例中的流程图；

图8示意性示出了根据本公开的另一个实施例的数据处理方法的流程图；

图9示意性示出了根据本公开的又一个实施例的数据处理方法的流程图；

图10示意性示出了根据本公开的再一个实施例的数据处理方法的流程图；

图11示意性示出了根据本公开的一实施例的数据处理装置的框图；

图12示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的数据处理方法或装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器105可以是提供各种服务的服务器。例如终端设备103(也可以是终端设备101或102)向服务器105上传目标用户的目标数据。服务器105可以获取目标用户的目标数据，所述目标数据包括对象信息；根据所述目标数据的时间信息确定关联记录；对所述关联记录进行处理，获得所述对象信息的目标指标；通过分类器对所述目标指标进行处理，确定所述目标数据为引流数据或者非引流数据。并将引流数据或者非引流数据反馈给终端设备103，进而终端设备103可以根据引流数据和非引流数据确定目标用户的风险指标，或评估对象的重要程度，从而能够根据目标数据的时间信息确定关联记录，以进一步根据关联记录确定目标指标，能够根据目标指标挖掘各个对象之间的引流关系，以确定目标数据为引流数据或非引流数据。进而能够对目标数据进行区分，以避免出现基于目标数据获得的指标虚假的缺陷。

图2示意性示出了根据本公开的一个实施例的数据处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理，例如上述图1实施例中的服务器105和/或终端设备102、103，在下面的实施例中，以服务器105为执行主体为例进行举例说明，但本公开并不限定于此。

如图2所示，本公开实施例提供的数据处理方法可以包括以下步骤。

在步骤S210中，获取目标用户的目标数据，目标数据包括对象信息。

本公开实施例中，目标数据可为金融场景下的借贷场景的贷前审核下产生的借贷数据。又可例如为其他具有引流现象的场景下的场景数据，本公开对此并不作特殊限定。目标对象可为金融场景下的借贷场景的被借贷对象，即接收或发送目标数据的对象；又可例如为其他具有引流现象的场景下的能够自主进行引流的对象，即接收或发送目标数据的对象。

其中，一个目标用户的目标数据可包括多条，例如，可在数据库中选取预先设定的时间段内的目标用户的多条数据作为目标数据，本公开对目标数据的具体数目并不作特殊限定。

在步骤S220中，根据目标数据的时间信息确定关联记录。

本公开实施例中，目标数据的时间信息可描述目标数据的生成时间或目标数据被引流的具体时间。例如，在金融场景下的借贷场景中，目标数据的时间信息描述了该借贷数据的生成时间，即借贷时间；或目标数据被引流至其他对象时，其他对象接收目标数据的时间。又例如，在其他具有引流现象的场景下，目标数据的时间信息描述了目标数据的生成时间或目标数据被引流至其他对象时，其他对象接收目标数据的时间。

其中，关联记录中可包括两个目标数据，关联记录可包括可能为一个引流过程的数据流中的两个目标数据。例如，在金融场景下的借贷场景中，引流记录可包括目标数据X与目标数据Y，其中，目标数据X与目标数据Y是可能为引流过程的数据流中的两个目标数据。本步骤能够对目标数据进行初步筛选，初步确定目标数据之间的引流关系。

在步骤S230中，对关联记录进行处理，获得对象信息的目标指标。

本公开实施例中，可对关联记录进行数据统计，其中，可以以关联记录中各个记录中的对象信息为统计维度，获得对象信息的目标指标。例如，可通过机器学习算法对关联记录进行处理，获得目标指标。又例如，当采用多个机器学习算法对关联记录进行处理时，可对各机器学习算法获得的指标进行拼接，以获得对象信息的目标指标。

在示例性实施例中，机器学习算法可例如为网页排名算法(PageRank)、关联分析算法(Frequent Pattern)等，但本公开对机器学习算法的具体算法并不作特殊限定。其中，网页排名算法又称网页级别算法，其可通过网络浩瀚的超链接关系来确定一个页面的等级。关联分析算法通过将提供频繁项集的数据库压缩到一棵频繁模式树，但仍保留项集关联信息，以基于该频繁模式树结构加快整个挖掘过程。

在步骤S240中，通过分类器对目标指标进行处理，确定目标数据为引流数据或者非引流数据。

本公开实施例中，分类器可为已经训练完成的具有分类功能的算法模型。分类器可为支持向量机模型(例如单分类支持向量机模型)、机器学习模型等，本公开对分类器的具体形式并不作特殊限定。

其中，分类器可对目标指标进行处理，以挖掘目标指标与引流关系之前的内在关联，进而确定各个目标数据为引流数据或者非引流数据。

本公开实施方式提供的数据处理方法，根据目标数据的时间信息确定关联记录，能够对目标数据进行初步挖掘，获得较大概率为引流数据的关联记录。根据关联记录进一步获得对象信息的目标指标，能够进一步挖掘获得各个对象之间的引流关系。通过分类器对目标指标进行处理，能够对目标数据进行分类，以确定目标数据为引流数据或非引流数据。进而能够对目标数据进行区分，以避免由于引流造成的数据统计指标的虚假现象。

图3是基于图2的步骤S240在一个示例性实施例中的流程图。

如图3所示，上述图2实施例中的步骤S220可以进一步包括以下步骤。

在步骤S221中，若目标数据中，两个目标数据的时间信息的差值小于目标时间阈值，则根据该两个目标数据生成一条关联记录，其中，该两个目标数据分别为该关联记录的第一关联数据和第二关联数据。

本公开实施例中，目标数据的时间信息描述了该目标数据的生成时间。在金融场景下的借贷场景中，目标数据可为借贷数据，该目标数据(即借贷数据)的时间信息可例如为该借贷数据的生成时间。例如，时间信息可为目标用户提交借贷请求时生成相应借贷数据的时间。又例如，时间信息可为该目标用户的目标数据被引流至其他对象时，其他对象接收该借贷数据的时间。

其中，当目标数据X与Y的时间信息的差值小于目标时间阈值，且目标数据X与Z的时间信息的差值小于目标时间阈值时，当目标数据X与Y的时间信息的差值小于目标数据X与Z的时间信息的差值时，则可根据目标数据X、Y生成一条关联记录。而目标数据X、Z不会构成一条关联记录。

在示例性实施例中，目标时间阈值可为一个或多个，当目标时间阈值为多个时，例如3个：第一目标时间阈值、第二目标时间阈值和第三目标时间阈值。可第一次本步骤，以获得在第一目标时间阈值下的关联记录；并第二次执行本步骤，以获得在第二目标时间阈值下的关联记录；以及第三次执行本步骤，以获得在第三目标时间阈值下的关联记录。

本公开实施例的数据处理方法，能够根据目标数据的时间信息对目标数据进行初步筛选，初步确定目标数据之间的引流关系。

图4是基于图2的步骤S230在一个示例性实施例中的流程图。

如图4所示，上述图2实施例中的步骤S230可以进一步包括以下步骤。

本公开实施例中，目标指标包括第一指标，关联记录的第一关联数据的时间信息早于第二关联数据的时间信息。

在步骤S2311中，将第一关联数据的对象信息相同的关联记录整合为第一关联记录集合，以根据该第一关联记录集合确定各对象间的条件概率。

本公开实施例中，第一关联记录集合可包括一个或多个关联记录，该第一关联记录集合中的任意关联记录的第一关联数据的对象信息均相同。

条件概率的公式可通过下式进行计算：

其中，count(AB)表示关联记录AB的统计次数(关联记录AB中，第一关联数据的对象信息为A，第二关联数据的对象信息为B)，∑_ycount(Ax)表示第一关联数据为A的关联记录的统计次数(关联记录Ax中，第一关联数据的对象信息为A，第二关联数据的对象信息为x)，P(A|B)表示对象A在对象B下的条件概率。

在示例性实施例中，若对象A在对象B下的条件概率小于概率阈值时，可将第一关联数据的对象信息为A且第二关联数据的对象信息为B的关联记录剔除，并根据剔除后的关联记录重新执行本步骤，获得各对象间的条件概率。本公开实施例能够滤除杂质数据，以提高各对象间的条件概率的正确性。

在步骤S2312中，根据各对象间的条件概率生成各对象的概率转移矩阵。

本公开实施例中，各对象的概率转移矩阵描述了对象之间的转移概率。例如，该概率转移矩阵可以对象的个数为维度。其中各个元素的值表示了对应行的对象在对应列的对象下的转移概率。其中，对应行的对象在对应列的对象下的转移概率可为该对应行的对象在该对应列的对象下的条件概率。

在步骤S2313中，对概率转移矩阵进行迭代，获得符合马尔科夫链式条件的目标转移矩阵，以根据目标转移矩阵确定各对象的重要性评分。

本公开实施例中，可采用网页排名算法对概率转移矩阵进行迭代，获得符合马尔科夫链式条件的目标转移矩阵。在马儿客服链式条件下，假设初始的权1矩阵为M，则迭代为M(t)＝M(t+1)重复计算直到M(t+1)-M(t)小于预设阈值。其中，该网络中可能存在只进不出的节点，可通过权值按比重转移以避免所有权重汇集到该类节点上。例如，可设定只有1-a(0<a<1)的权值通过概率转移矩阵进行转移，其余的权值进行随机转移到所有节点上。

在步骤S2314中，根据各对象的重要性评分确定第一指标。

本公开实施例中，第一指标可包括来源对象的重要性评分、来源对象的业务数据量、去往对象的重要性评分、去往对象的业务数据量、某一对象的出度统计数据占比大于该对象总数的1％、来源对象和去往对象的重要性评分的比值。其中，可将该目标数据的对象信息作为去往对象，并确定该目标用户的各目标数据中，时间信息处于该目标数据向前回溯一定时间范围内，且与该目标数据的时间信息差值最小的另一目标数据。并将该另一目标数据的对象信息作为来源对象。

图5是基于图2的步骤S230在一个示例性实施例中的流程图。

如图5所示，上述图2实施例中的步骤S230可以进一步包括以下步骤。

本公开实施例中，目标指标包括第二指标。

在步骤S2321中，根据关联记录确定对象信息的频繁模式树与频繁项集。

本公开实施例中，可通过关联分析算法(例如FP-Growth算法)对关联记录进行处理，获得各对象的频繁模式树(Frequent Pattern Tree)与频繁项集(frequent itemset)。

在步骤S2322中，对对象信息的频繁模式树与频繁项集进行处理，获得第二指标。

本公开实施例中，可基于对象信息的繁模式树与频繁项集，计算下述指标中的一个或多个：概率值(Prob)、支持度(Support)、提升度(Lift)、关联强度(KULC)、不平衡比(Ir)等，并将上述各指标作为第二指标。其中，概率值可描述对象A出现的情况下对象A、B同时出现的概率值；支持度可描述对象AB同时出现的次数；提升度可描述去除总体数据量影响后，对象A出现的情况下，对象A、B同时出现的概率值；关联强度可描述无方向的情况下对象A、b关联性的强度；不平衡比可描述对象A至对象B方向性的强弱。其中，可对上述指标中的一个或多个进行拼接，以获得第二指标。

本公开实施例中，可将第二指标与图4中的第一指标中的其中之一作为目标指标，也可将第二指标与图4中的第一指标进行拼接，获得目标指标。

图6是基于图2的步骤S230在一个示例性实施例中的流程图。

如图6所示，上述图2实施例中的步骤S230可以进一步包括以下步骤。

本公开实施例中，目标指标包括第三指标。

在步骤S2331中，将第一关联数据的对象信息相同且第二关联数据的对象信息相同的关联记录整合为第二关联记录集合。

本公开实施例中，第二关联记录集合可包括一个或多个关联记录，该第二关联记录集合中的任一个关联记录的第一关联数据的对象信息相同，且第二关联数据的对象信息相同。

在步骤S2332中，确定第二关联记录集合的各关联记录中，两个目标数据的时间信息的差值小于第一时间阈值的关联记录的第一记录数量，与小于第二时间阈值的关联记录的第二记录数量，第一时间阈值小于第二时间阈值。

本公开实施例中，第一时间阈值可例如为7分钟，第二时间阈值可例如为24小时，但本公开对第一时间阈值和第二时间阈值的具体取值并不作特殊限定。其中，在某一第二关联记录集合中，若该集合中每个关联记录的第一关联数据的对象信息为对象A，且第二关联数据的对象信息为对象B，则将该第二关联记录集合记作AB。统计该集合AB的每一关联记录中，第一关联数据的时间信息与第二关联数据的时间信息的差值。即该第二关联记录集合中的每一关联记录具有一时间信息的差值。统计该时间信息的差值小于第一时间阈值的关联记录的个数，作为第一记录数量；统计该时间信息的差值小于第二时间阈值的关联记录的个数，作为第二记录数量。

在步骤S2333中，根据第一记录数量与第二记录数量的比值确定所述第三指标。

本公开实施例中，可将第三指标、图4中的第一指标、图5中的第二指标中的任一个作为目标指标，也可将第三指标、图4中的第一指标、图5中的第二指标中的至少两个进行拼接，获得目标指标。

本公开实施例的数据处理方法，能够通过计算获得的第一记录数量和第二记录数量的比值描述各个对象之间自然相关和短时间相关的强弱性。

图7是基于图2的步骤S230在一个示例性实施例中的流程图。

本公开实施例中，目标指标包括第四指标。

如图7所示，上述图2实施例中的步骤S230可以进一步包括以下步骤。

在步骤S2341中，根据第二关联记录集合确定时间分布。

本公开实施例中，第二关联记录集合可采用与图6中步骤S2331类似的方式生成，此处不再赘述。其中，可根据第二关联记录集合中各个关联记录的第一关联数据的时间信息与第二关联数据的时间信息的差值作为时间分布的对象，获得该时间信息的差值的时间分布。

在步骤S2342中，根据时间分布确定所述第四指标。

本公开实施例中，可根据时间分布确定分布峰值，并根据分布峰值确定峰值区间，将第一关联数据的时间信息与第二关联数据的时间信息的差值落入峰值区间内的关联记录的个数作为第四指标。其中，当分布峰值为a时，峰值区间可例如为[a-b，a+b]，b为大于0的实数。但本公开对峰值区间的设定并不以此为限。

本公开实施例中，可将第四指标、图4中的第一指标、图5中的第二指标、图6中的第三指标中的任一个作为目标指标，也可将第四指标、图4中的第一指标、图5中的第二指标、图6中的第三指标中的至少两个进行拼接，获得目标指标。

图8示意性示出了根据本公开的另一个实施例的数据处理方法的流程图。

如图8所示，基于上述实施例的数据处理方法还包括以下步骤。

在步骤S810中，剔除为引流数据的目标数据。

本公开实施例中，可根据图2中步骤S240确定每一目标数据为引流数据或非引流数据。本步骤剔除后的目标数据均为非引流数据。

在步骤S820中，根据剔除后的目标数据确定目标用户的风险指数。

本公开实施例中，在金融场景下的借贷场景中，可根据剔除后的目标数据的统计目标用户的实际借贷数据，借贷数据例如借贷时间间隔、借贷次数等，以根据该借贷数据确定目标用户的风险指数。又可例如为其他具有引流现象的场景下，根据剔除后的目标数据确定目标用户的非引流数据，并根据目标用户的非引流数据统计该目标用户的数据提交次数、时间间隔等，并基于此确定目标用户的风险指数。

图9示意性示出了根据本公开的又一个实施例的数据处理方法的流程图。

如图9所示，本实施例提供的数据处理方法包括以下步骤。

在步骤S910中，获取训练样本集，训练样本集包括目标数据及其引流标注。

本公开实施例中，目标数据可包括用户标识、时间信息、对象信息等，引流标注可例如为引流数据的标注、非引流数据的标注。其中，可例如通过二维向量进行表示。例如，[0,1]表示非引流数据的标注，[1,0]表示引流数据的标注。但本公开对引流标注的具体形式并不以此为限。

在示例性实施例中，可根据用户的设备指纹对数据库中的数据进行打标，获得目标数据及其引流标注。例如，在金融场景中，金融机构将目标数据引流至其他机构时，将不包含用户的设备指纹。当金融机构将目标数据封装为请求调用风控接口时，风控接口可根据该请求中的目标数据是否包括设备指纹，来确定该目标数据的引流标注。其中，当该目标数据不包括设备指纹时，确认该目标数据的引流标注为引流数据；当该目标数据包包括设备指纹时，确认该目标数据的引流标注为非引流数据。

在步骤S920中，根据分类器对目标数据进行处理，获得训练分类结果。

在步骤S930中，通过训练分类结果和引流标注调节分类器的参数，获得训练完成的分类器。

本公开实施例的数据处理方法通过训练样本集对分类器进行训练，能够获得具有引流数据和非引流数据的分类功能分类器。

图10示意性示出了根据本公开的再一个实施例的数据处理方法的流程图。

如图10所示，本实施例提供的数据处理方法包括以下步骤。

在步骤S1010中，获取目标用户的目标数据，目标数据包括对象信息。

本步骤可采用与图2中步骤S210类似的步骤，此处不再赘述。

在步骤S1020中，根据目标数据的时间信息确定关联记录。

本步骤可采用与图2中步骤S220或图3中步骤S221类似的步骤，此处不再赘述。

在步骤S1030中，基于网页排名算法对关联记录进行处理，获得对象信息的第一指标。

本步骤可采用与图4中步骤S2311至步骤S2314类似的步骤，此处不再赘述。

在步骤S1040中，基于关联分析算法对关联记录进行处理，获得对象信息的第二指标。

本步骤可采用与图5中步骤S2321至步骤S2322类似的步骤，此处不再赘述。

在步骤S1050中，根据关联记录获得第二关联记录集合，以根据第二关联记录集合确定对象信息的第三指标。

本步骤可采用与图6中步骤S2331至步骤S2333类似的步骤，此处不再赘述。

在步骤S1060中，根据第二关联记录集合确定对象信息的第四指标。

本步骤可采用与图7中步骤S2341至步骤S2342类似的步骤，此处不再赘述。

在步骤S1070中，对第一指标、第二指标、第三指标和第四指标进行拼接，获得对象信息的目标指标。

在步骤S1080中，通过分类器对目标指标进行处理，确定目标数据为引流数据或者非引流数据。

本步骤可采用与图2中步骤S240类似的步骤，此处不再赘述。

本公开实施例的数据处理方法，通过网页排名算法、关联分析算法分别获得对象信息的第一指标和第二指标，并根据关联记录确定第二关联记录集合，以根据第二关联记录集合确定第三指标和第四指标。本公开实施例的第一指标、第二指标、第三指标、第四指标能够分别从重要性程度、关联程度、时间线上的关联程度、频繁时间发生指数等方面描述各个对象。通过分类器对由第一指标、第二指标、第三指标、第四指标拼接生成的目标指标进行处理，能够实现对目标数据的准确分类，以确定目标数据为引流数据或非引流数据，避免多投指标虚高、数据统计指标虚高等现象发生。

以下介绍本公开的装置实施例，可以用于执行本公开上述的数据处理方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的数据处理方法的实施例。

图11示意性示出了根据本公开的一实施例的数据处理装置的框图。

参照图11所示，根据本公开的一个实施例的数据处理装置1100，可以包括：数据获取模块1110、记录生成模块1120、指标生成模块1130以及数据处理模块1140。

数据获取模块1110可以配置为获取目标用户的目标数据，目标数据包括对象信息。

记录生成模块1120可以配置为根据目标数据的时间信息确定关联记录。

在示例性实施例中，记录生成模块1120可以配置为若目标数据中，两个目标数据的时间信息的差值小于目标时间阈值，则根据两个目标数据生成一条关联记录，其中，两个目标数据分别为关联记录的第一关联数据和第二关联数据。

指标生成模块1130可以配置为对关联记录进行处理，获得对象信息的目标指标。

在示例性实施例中，目标指标包括第一指标，关联记录的第一关联数据的时间信息早于第二关联数据的时间信息；其中，指标生成模块1130可以包括条件概率生成单元、转移矩阵生成单元、矩阵迭代单元以及第一指标生成单元。其中，条件概率生成单元可以配置为将第一关联数据的对象信息相同的关联记录整合为第一关联记录集合，以根据第一关联记录集合确定各对象间的条件概率。转移矩阵生成单元可以配置为根据各对象间的条件概率生成各对象的概率转移矩阵。矩阵迭代单元可以配置为对概率转移矩阵进行迭代，获得符合马尔科夫链式条件的目标转移矩阵，以根据目标转移矩阵确定各对象的重要性评分。第一指标生成单元可以配置为根据各对象的重要性评分确定第一指标。

在示例性实施例中，目标指标包括第二指标；其中，指标生成模块1130可以包括频繁模式生成单元和第二指标生成单元。频繁模式生成单元可以配置为根据关联记录确定对象信息的频繁模式树与频繁项集。第二指标生成单元可以配置为对对象信息的频繁模式树与频繁项集进行处理，获得第二指标。

在示例性实施例中，目标指标包括第三指标；其中，指标生成模块1130可以包括第二记录集合生成单元、记录数量统计单元和第三指标生成单元。其中，第二记录集合生成单元可以配置为将第一关联数据的对象信息相同且第二关联数据的对象信息相同的关联记录整合为第二关联记录集合。记录数量统计单元可以配置为确定第二关联记录集合的各关联记录中，两个目标数据的时间信息的差值小于第一时间阈值的关联记录的第一记录数量，与小于第二时间阈值的关联记录的第二记录数量，第一时间阈值小于第二时间阈值。第三指标生成单元可以配置为根据第一记录数量与第二记录数量的比值确定第三指标。

在示例性实施例中，目标指标包括第四指标；其中，指标生成模块1130可以包括时间分布生成单元和第四指标生成单元。时间分布生成单元可以配置为根据第二关联记录集合确定时间分布。第四指标生成单元可以配置为根据时间分布确定第四指标。

数据处理模块1140可以配置为通过分类器对目标指标进行处理，确定目标数据为引流数据或者非引流数据。

在示例性实施例中，数据处理装置1100还可包括数据剔除模块和风险获取模块。其中，数据剔除模块可以配置为剔除为引流数据的目标数据。风险获取模块可以配置为根据剔除后的目标数据确定目标用户的风险指数。

在示例性实施例中，数据处理装置1100还可包括训练样本获取模块、训练结果获取模块和参数调整模块。其中，训练样本获取模块可以配置为获取训练样本集，训练样本集包括目标数据及其引流标注。训练结果获取模块可以配置为根据分类器对目标数据进行处理，获得训练分类结果。参数调整模块可以配置为通过训练分类结果和引流标注调节分类器的参数，获得训练完成的分类器。

本公开实施方式提供的数据处理装置，根据目标数据的时间信息确定关联记录，能够对目标数据进行初步挖掘，获得较大概率为引流数据的关联记录。根据关联记录进一步获得对象信息的目标指标，能够进一步挖掘获得各个对象之间的引流关系。通过分类器对目标指标进行处理，能够对目标数据进行分类，以确定目标数据为引流数据或非引流数据。进而能够对目标数据进行区分，以避免由于引流造成的数据统计指标的虚假现象。

图12示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是，图12示出的电子设备的计算机系统1200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从储存部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的储存部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1212，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入储存部分1208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元也可以设置在处理器中。其中，这些模块和/或单元的名称在某种情况下并不构成对该模块和/或单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图2或图3或图4或图5或图6或图7或图8或图9或图10所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，包括：

获取目标用户的目标数据，所述目标数据包括对象信息；

根据所述目标数据的时间信息确定关联记录；

对所述关联记录进行处理，获得所述对象信息的目标指标；

通过分类器对所述目标指标进行处理，确定所述目标数据为引流数据或者非引流数据；

根据所述目标数据的时间信息确定关联记录包括：

若所述目标数据中，两个目标数据的时间信息的差值小于目标时间阈值，则根据所述两个目标数据生成一条关联记录，其中，所述两个目标数据分别为所述关联记录的第一关联数据和第二关联数据；

所述目标指标包括第三指标；其中，对所述关联记录进行处理，获得目标指标包括：

将第一关联数据的对象信息相同且第二关联数据的对象信息相同的所述关联记录整合为第二关联记录集合；

确定所述第二关联记录集合的各关联记录中，两个目标数据的时间信息的差值小于第一时间阈值的关联记录的第一记录数量，与小于第二时间阈值的关联记录的第二记录数量，所述第一时间阈值小于所述第二时间阈值；

根据所述第一记录数量与所述第二记录数量的比值确定所述第三指标。

2.如权利要求1所述的方法，其特征在于，所述目标指标包括第一指标，所述关联记录的所述第一关联数据的时间信息早于所述第二关联数据的时间信息；其中，对所述关联记录进行处理，获得目标指标包括：

将第一关联数据的对象信息相同的所述关联记录整合为第一关联记录集合，以根据所述第一关联记录集合确定各对象间的条件概率；

根据所述各对象间的条件概率生成所述各对象的概率转移矩阵；

对所述概率转移矩阵进行迭代，获得符合马尔科夫链式条件的目标转移矩阵，以根据所述目标转移矩阵确定所述各对象的重要性评分；

根据所述各对象的重要性评分确定所述第一指标。

3.如权利要求1所述的方法，其特征在于，所述目标指标包括第二指标；其中，对所述关联记录进行处理，获得目标指标包括：

根据所述关联记录确定所述对象信息的频繁模式树与频繁项集；

对所述对象信息的频繁模式树与频繁项集进行处理，获得所述第二指标。

4.如权利要求1所述的方法，其特征在于，所述目标指标包括第四指标，其中，对所述关联记录进行处理，获得目标指标包括：

根据所述第二关联记录集合确定时间分布；

根据所述时间分布确定所述第四指标。

5.如权利要求1所述的方法，其特征在于，还包括：

剔除为引流数据的所述目标数据；

根据剔除后的所述目标数据确定所述目标用户的风险指数。

6.如权利要求1所述的方法，其特征在于，还包括：

获取训练样本集，所述训练样本集包括目标数据及其引流标注；

根据所述分类器对所述目标数据进行处理，获得训练分类结果；

通过所述训练分类结果和所述引流标注调节所述分类器的参数，获得训练完成的所述分类器。

7.一种数据处理装置，其特征在于，包括：

数据获取模块，用于获取目标用户的目标数据，所述目标数据包括对象信息；

记录生成模块，用于根据所述目标数据的时间信息确定关联记录；

指标生成模块，用于对所述关联记录进行处理，获得所述对象信息的目标指标；

数据处理模块，用于通过分类器对所述目标指标进行处理，确定所述目标数据为引流数据或者非引流数据；

记录生成模块，还用于若目标数据中，两个目标数据的时间信息的差值小于目标时间阈值，则根据两个目标数据生成一条关联记录，其中，两个目标数据分别为关联记录的第一关联数据和第二关联数据；

目标指标包括第三指标；其中，所述指标生成模块包括第二记录集合生成单元、记录数量统计单元和第三指标生成单元；其中，第二记录集合生成单元用于为将第一关联数据的对象信息相同且第二关联数据的对象信息相同的关联记录整合为第二关联记录集合；记录数量统计单元用于为确定第二关联记录集合的各关联记录中，两个目标数据的时间信息的差值小于第一时间阈值的关联记录的第一记录数量，与小于第二时间阈值的关联记录的第二记录数量，第一时间阈值小于第二时间阈值；第三指标生成单元用于为根据第一记录数量与第二记录数量的比值确定第三指标。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。