CN111538756A

CN111538756A - 访问路径的融合方法及装置

Info

Publication number: CN111538756A
Application number: CN202010256325.1A
Authority: CN
Inventors: 邵国林; 欧阳瑜; 李佳佳
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: AlipayCom Co ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-08-14
Anticipated expiration: 2040-04-02
Also published as: CN111538756B

Abstract

本说明书实施例提供了一种访问路径的融合方法及装置，包括：首先，获取目标业务所对应的历史业务数据；根据上述历史业务数据挖掘目标业务所对应的第一频繁项集，其中，第一频繁项集由支持度大于或等于第一设定阈值的频繁访问路径构成；确定第一频繁项集中任意两个频繁访问路径之间的距离；根据距离对第一频繁项集中的频繁访问路径进行融合处理，其中，上述历史业务数据包括每次执行所述目标业务时的访问路径，且该访问路径的各个节点为所经历的页面。

Description

访问路径的融合方法及装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种访问路径的融合方法及装置。

背景技术

随着计算机及互联网技术的快速发展，在线业务，如在线充值、在线购物、在线转账等越来越多的应用于人们的生活、工作中。目前，为了实现对黑产行业的打击，可以通过对相关业务的业务路径进行分析挖掘出黑产交易，如可以通过对用户在线充值的充值路径进行分析，挖掘网络赌博充值。但是，由于在线业务得业务量巨大，如果对每条业务路径都进行分析，工作量较大，需要耗费大量的资源。

因此，如何减少业务路径分析的工作量成为当前亟需解决的技术问题。

发明内容

本说明书实施例提供了一种访问路径的融合方法。其中，该访问路径的融合方法包括：获取目标业务所对应的历史业务数据。其中，所述历史业务数据包括每次执行所述目标业务时的访问路径，所述访问路径的各个节点为执行所述目标业务时所经历的页面。根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集。其中，所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径。确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离。其中，所述距离用于表征所述频繁访问路径之间的路径相似度。根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。

本说明书实施例还提供了一种访问路径的融合装置。其中，该访问路径的融合装置包括：获取模块，获取目标业务所对应的历史业务数据。其中，所述历史业务数据包括每次执行所述目标业务时的访问路径，所述访问路径的各个节点为执行所述目标业务时所经历的页面。挖掘模块，根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集。其中，所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径。确定模块，确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离。其中，所述距离用于表征所述频繁访问路径之间的路径相似度。融合处理模块，根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。

本说明书实施例还提供了一种访问路径的融合设备。该访问路径的融合设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取目标业务所对应的历史业务数据。其中，所述历史业务数据包括每次执行所述目标业务时的访问路径，所述访问路径的各个节点为执行所述目标业务时所经历的页面。根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集。其中，所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径。确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离。其中，所述距离用于表征所述频繁访问路径之间的路径相似度。根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。

本说明书实施例还提供了一种存储介质。其中，该存储介质用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：获取目标业务所对应的历史业务数据。其中，所述历史业务数据包括每次执行所述目标业务时的访问路径，所述访问路径的各个节点为执行所述目标业务时所经历的页面。根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集。其中，所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径。确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离。其中，所述距离用于表征所述频繁访问路径之间的路径相似度。根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的访问路径的融合方法的方法流程图之一；

图2为本说明书实施例提供的访问路径的融合方法中，任意两个频繁访问路径与父路径的示意图；

图3为本说明书实施例提供的访问路径的融合方法的方法流程图之二；

图4为本说明书实施例提供的访问路径的融合方法中，各个频访问路径之间距离的示意图；

图5为本说明书实施例提供的访问路径的融合方法的方法流程图之三；

图6为本说明书实施例提供的访问路径的融合装置的模块组成示意图；

图7为本说明书实施例提供的访问路径的融合设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本说明书实施例的思想在于，挖掘出目标业务所对应的频繁项集后，根据频繁项集中任意两个频繁访问路径之间的距离对频繁项集中的频繁访问路径进行融合处理，减少了频繁项集中路径的数量，从而可以减少路径分析的工作量。另外，由于路径之间的距离可以比较准确的反应路径之间的相似程度，因此，基于距离进行融合处理，可以提高融合的准确性。基于此，本说明书实施例提供了一种访问路径的融合方法、装置、设备及存储介质。下述将一一详细进行介绍。

图1为本说明书实施例提供的访问路径的融合方法的方法流程图之一，图 1所示的方法，至少包括如下步骤：

步骤102，获取目标业务所对应的历史业务数据；其中，所述历史业务数据包括每次执行目标业务时的访问路径，该访问路径的各个节点为执行目标业务时所经历的页面。

具体的，可以周期性的从目标业务所对应的数据库中读取设定时间长度内的历史业务数据。如，可以每两天读取过去两天内的历史业务数据，其中，上述设定时间长度和读取周期的具体取值可以根据实际应用场景进行设置，本说明书实施例并不对此进行限定。

一般的，每执行一次目标业务，将执行该目标业务所经历的各个页面构成访问路径进行记录。例如，在一种具体实施方式中，执行目标业务时所经历的页面依次为页面A、页面B、页面C和页面D，则该次执行目标业务所对应的访问路径为：页面A-页面B-页面C-页面D。

步骤104，根据上述历史业务数据挖掘目标业务所对应的第一频繁项集；其中，第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径。

具体的，在上述步骤104中，可以计算历史业务数据中各个访问路径所对应的支持度，并将各个支持度与第一设定阈值进行比对，将支持度大于或等于第一设定阈值的访问路径记为频繁访问路径，将历史业务数据中的频繁访问路径所构成的集合记为第一频繁项集。

其中，在历史业务数据中记录有设定时间长度内的多条业务数据，一条业务数据对应一个访问路径。在计算各个访问路径所对应的支持度时，首先确定该访问路径在历史业务数据中的出现次数，将该访问路径的出现次数与历史业务数据中的数据总条数的比值作为该访问路径所对应的支持度。

为便于理解，下述将以计算访问路径A的支持度为例进行说明。

例如，历史业务数据中总共有1000条业务数据，且一条业务数据对应一个访问路径，访问路径A总共在200条业务数据中出现，即可以理解为这200 条业务数据所对应的访问路径均为访问路径A，因此，访问路径A所对应的支持度为200/1000＝0.2。

另外，需要说明的是，上述第一设定阈值的具体取值可以根据实际应用场景进行设置，本说明书实施例并不对上述第一设定阈值的具体取值进行限定。

步骤106，确定第一频繁项集中任意两个频繁访问路径之间的距离；其中，上述距离用于表征频繁访问路径之间的路径相似度。

步骤108，根据上述距离对第一频繁项集中的频繁访问路径进行融合处理。

优选的，上述步骤106中，确定第一频繁项集中任意两个频繁访问路径之间的距离，具体包括如下步骤一、步骤二和步骤三；

步骤一、采用基于支持度的距离算法计算第一频繁项集中部分频繁访问路径之间的距离；

步骤二、根据部分频繁访问路径之间的距离，确定第一频繁项集中各个频繁访问路径所对应的位置向量；

步骤三、根据各个频繁访问路径所对应的位置向量，计算第一频繁项集中其余频繁访问路径之间的距离。

一般的，针对任意两个频繁访问路径，假设记为频繁访问路径L_i和频繁访问路径L_j，如果频繁访问路径L_i和频繁访问路径L_j融合(路径合并)后的父路径的支持度与频繁访问路径L_i和频繁访问路径L_j的支持度相差较小，则可以认为频繁访问路径L_i和频繁访问路径L_j可以融合到一个相同的父路径中，因此可以认为频繁访问路径L_i和频繁访问路径L_j之间的距离较小；相反，若是频繁访问路径L_i和频繁访问路径L_j融合后的父路径的支持度显著区别于频繁访问路径L_i和频繁访问路径L_j的支持度，则表明频繁访问路径L_i和频繁访问路径L_j不应该被融合，也即频繁访问路径L_i和频繁访问路径L_j之间的距离应该较大。因此，在本说明书实施例中，可以基于支持度计算第一频繁项集中各频繁访问路径之间的距离。

优选的，在本说明书实施例中，上述步骤一中，采用基于支持度的距离算法计算第一频繁项集中部分频繁访问路径之间的距离，包括：

针对第一频繁项集中的任意两个频繁访问路径，确定两个频繁访问路径融合后的父路径；查找第二频繁项集中是否存在上述父路径；若存在，则根据父路径的支持度和两个频繁访问路径的支持度计算两个频繁访问路径之间的距离；其中，第二频繁项集包括支持度大于或等于第二设定阈值的频繁访问路径及各频繁访问路径所对应的支持度，且第二设定阈值小于第一设定阈值。

一般的，若是设定阈值的具体取值越大，则得到的频繁项集的中所包含的频繁访问路径越小。因此，在本发明实施例中，第二设定阈值小于第一设定阈值，则说明第二频繁项集的范围比第一频繁项集更广(即第二频繁项集中包含的频繁访问路径的条数多于第一频繁项集)。在实际实施时，频繁访问路径L_i和频繁访问路径L_j融合后的父路径在第一频繁项集中未必找的到，因此，需要挖掘得到范围更广的第二频繁项集，以便可以在第二频繁项集中查找到更多频繁访问路径所对应的父路径。

需要说明的是，在本说明书实施例中，两个频繁访问路径融合后的父路径可以理解为两个频繁访问路径所对应的路径的合并，即将两个频繁访问路径中共同包含的路径提取出来，作为融合后的父路径，其中，繁访问路径L_i和频繁访问路径L_j融合后的一种示意图如图2所示。为便于理解，下述将举例进行说明。

例如，在一种具体实施方式中，频繁访问路径L_i和频繁访问路径L_j分别如下所示：

频繁访问路径L_i：页面A-页面B-页面D-页面F；

频繁访问路径L_j：页面A-页面C-页面D-页面F；

频繁访问路径L_i和频繁访问路径L_j融合后的父路径则为：页面A-页面D- 页面F。

还例如，频繁访问路径L_i：页面A-页面B-页面F；

频繁访问路径L_j：页面A-页面F；

频繁访问路径L_i和频繁访问路径L_j融合后的父路径则为：页面A-页面F。

具体的，因为在生成第一频繁项集和第二频繁项集时需要计算各个路径的支持度，因此，在第一频繁项集和第二频繁项集中除了包括频繁访问路径外，还包括各个频繁访问路径所对应的支持度。

因此，在本说明书实施例中，若是在第二频繁项集中可以查找到上述两个频繁访问路径所对应的父路径，则说明可以获得该父路径所对应的支持度，这时，可以采用基于支持度的方式计算上述两个频繁访问路径之间的距离。

具体的，根据父路径的支持度和两个频繁访问路径的支持度计算上述两个频繁访问路径之间的距离，具体包括如下过程：

根据父路径的支持度和两个频繁访问路径的支持度，通过如下公式计算两个频繁访问路径之间的距离；

其中，在上述公式中，L_i表示第一频繁项集中的第i条频繁访问路径，L_j表示第一频繁项集中的第j条频繁访问路径，L_i+j表示频繁访问路径L_i和频繁访问路径L_j的父路径，dist(L_i，L_j)表示频繁访问路径L_i和频繁访问路径L_j之间的距离，sup(L_i)表示频繁访问路径L_i的支持度，sup(L_j)表示频繁访问路径L_j的支持度，sup(L_i+j)表示父路径L_i+j的支持度，α表示系数。

在本说明书实施例中，若是在第二频繁项集中可以查找到第一频繁项集中的两个频繁访问路径所对应的父路径，则可以通过基于支持度的方式计算上述两个频繁访问路径之间的距离。虽然通过降低第二设定阈值的取值可以增大第二频繁项集的范围，但是，不能无限降低第二设定阈值的取值，这样会导致计算量较大，甚至难以承受。因此，无法保证第一频繁项集中的任意两个频繁访问路径的父路径都能在第二频繁项集中被找到。所以，对于在第二频繁项集中找不到父路径的两个频繁访问路径之间的距离可以通过基于位置向量的方式计算该两个频繁访问路径之间的距离。

在具体实施时，可以先根据已经计算出的部分频繁访问路径之间的距离，确定第一频繁项集中各个频繁访问路径所对应的位置向量，其具体过程如下所示：

针对已采用基于支持度的距离算法计算出距离的任意两个频繁访问路径，确定两个频繁访问路径所对应的初始化位置向量；调整两个频繁访问路径所对应的初始化位置向量，直至采用基于位置向量的距离算法计算得到的两个频繁访问路径之间的距离与采用基于支持度的距离算法计算得到的两个频繁访问路径之间的距离满足第一设定条件为止，将满足第一设定条件的两个位置向量确定为两个频繁访问路径所对应的位置向量；其中，上述第一设定条件为采用基于位置向量的距离算法计算得到的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值。

其中，在本说明书实施例中，可以将第一频繁项集中的每个频繁访问路径看做空间中的一个点，因此，可以基于各个点的位置向量计算点与点之间的距离，每个点可以通过一个长度为C的位置向量表示，其中，C的值可以为任意正整数。

在具体实施时，可以将频繁访问路径L_i所对应的位置向量记为：

P_i＝(x_i,1,x_i,2,...,x_i,c)

确定上述频繁访问路径L_i的初始化位置向量，实际上是给频繁访问路径L_i所对应的位置向量P_i中的x_i,1、x_i,2、x_i,c等参数进行赋值，所赋的值可以为任意数值。

优选的，在一种具体实施方式中，可以将已知距离的频繁访问路径对及其距离作为训练样本，例如，若是基于支持度计算出频繁访问路径L_i和频繁访问路径L_j之间的距离，则可以将频繁访问路径L_i、频繁访问路径L_j以及两个频繁访问路径之间的距离dist(L_i，L_j)作为一个训练样本。

其中，上述第一设定条件可以为基于位置向量计算的两个频繁访问路径之间的距离与基于支持度计算的上述两个频繁访问路径之间的距离相等或者小于设定阈值。

即上述第一设定条件可以为使得loss值为零或者小于设定阈值，其中，loss 值的计算公式如下所示：

其中，在上述公式中，M表示训练样本的个数，m表示第m个训练样本， C表示位置向量的长度。

在具体实施时，不断调整频繁访问路径L_i所对应的位置向量P_i中的x_i,1、x_i,2、 x_i,c等参数，以及频繁访问路径L_j所对应的位置向量P_j中的x_j,1、x_j,2、x_j,c等参数的取值，直至上述loss的取值为零或者小于设定阈值为止。将上述loss的取值满足第一设定条件时的位置向量P_i作为频繁访问路径L_i的位置向量，将上述 loss的取值满足第一设定条件时的位置向量P_j作为频繁访问路径L_j的位置向量。

在确定出第一频繁项集中各个频繁访问路径所对应的位置向量后，基于位置向量计算在第二频繁项集中无法查找到父路径的频繁访问路径之间的距离。

具体的，在本说明书实施例中，上述步骤108中，根据上述距离对第一频繁访问项集中的频繁访问路径进行融合处理，具体包括如下过程：

根据上述距离按照设定规则对第一频繁项集中的频繁访问路径进行至少一轮融合，直至融合结果满足设定的融合结束条件为止；

其中，上述设定规则为每一轮在融合时选取距离在所有距离中最小、且小于或等于设定距离的距离所对应的两个频繁访问路径进行融合；上述融合结束条件为融合结果中任意两个路径之间的距离均大于设定距离。

可选的，在具体实施时，将第一频繁项集中所对应的所有的距离进行比较，选出最小距离，将最小距离与设定距离进行比对，若是最小距离小于或等于设定距离，则将最小距离所对应的两个频繁访问路径进行融合，将得到的融合路径和第一频繁项集中的其余未融合的频繁访问路径作为第一轮融合结果。然后计算上述融合路径与其余未融合的频繁访问路径之间的距离，将融合路径与其余各个未融合的频繁访问路径之间的距离、以及各个未融合的频繁访问路径之间的距离进行比较，选出最小距离，并将最小距离与设定距离进行比对，若是最小距离小于或等于设定距离，则将最小距离所对应的两个频繁访问路径进行融合，得到第二轮融合结果，以此类推，直至某一轮的融合结果满足设定的融合结束条件时则结束融合过程。

为便于理解，下述将举例进行说明。

例如，在一种具体实施方式中，第一频繁项集中包括四条频繁访问路径，分别记为A、B、C和D，总共包括6个距离(A和B之间的距离、A和C之间的距离、A和D之间的距离、B和C之间的距离、B和D之间的距离、C 和D之间的距离)，在进行第一轮融合时，选取6个距离当中的最小距离，若是最小距离小于或等于设定距离，则将该距离所对应的两个频繁访问路径进行融合，假设A和B之间的距离最小，则将A和B进行融合，将融合后的路径记为融合访问路径1，因此，第一轮融合后得到的融合结果为融合访问路径1、频繁访问路径C和频繁访问路径D；在进行第二轮融合时，先确定融合访问路径1与频发访问路径C之间的距离、融合访问路径1与频繁访问路径D之间的距离，第一轮融合后的融合结果总共对应三个距离(融合访问路径1与C之间的距离、融合访问路径1与D之间的距离、C和D之间的距离)，选取上述三个距离中的最小距离，并判断最小距离是否小于或等于设定距离，若是，则将该最小距离所对应的两个路径进行融合，假设最小距离所对应的两个路径为 C和D，则将C和D进行融合，将融合后的路径记为融合访问路径2，因此，第二轮后得到的融合结果为融合访问路径1和融合访问路径2，以此类推，直至融合结果中的各个路径之间的距离均大于设定阈值时，则结束融合流程。

需要说明的是，在计算融合后的融合访问路径与某未融合的频繁访问路径之间的距离时，则需要将融合访问路径所对应的两个频繁访问路径(例如，融合访问路径为频繁访问路径A和频繁访问路径B融合得到的，则该融合访问路径所对应的两个频繁访问路径则为频繁访问路径A和频繁访问路径B)与某未融合的频繁访问路径之间较小的一个距离作为该融合访问路径与某未融合的频发访问路径之间的距离。

为便于理解，下述将举例进行说明。

例如，在一种具体实施方式中，某融合访问路径1为频繁访问路径A和频繁访问路径B融合得到，在计算融合访问路径1与频繁访问路径C之间的距离时，则将频繁访问路径A与频繁访问路径C之间的距离、频繁访问路径B 与频繁访问路径C之间的距离较小的一个距离，作为融合访问路径1与频繁访问路径C之间的距离；若是融合访问路径2为频繁访问路径C和频繁访问路径D融合得到的，在计算融合访问路径1和融合访问路径2之间的距离时，则将频繁访问路径A与频繁访问路径C之间的距离、频繁访问路径A与频繁访问路径D之间的距离、频繁访问路径B与频繁访问路径C之间的距离、频繁访问路径B与频繁访问路径D之间的距离中较小的一个距离，作为融合访问路径1与融合访问路径2之间的距离。

图3为本说明书实施例提供的访问路径的融合方法的方法流程图之二，图 3所示的方法，至少包括如下步骤：

步骤302，获取目标业务所对应的历史业务数据；其中，历史业务数据包括每次执行目标业务时的访问路径，该访问路径的各个节点为执行目标业务时所经历的页面。

步骤304，计算历史业务数据中各个访问路径所对应的支持度。

步骤306，筛选支持度大于或等于第一设定阈值的频繁访问路径，构成第一频繁项集，以及，筛选支持度大于或等于第二设定阈值的频发访问路径，构成第二频繁项集。

其中，第二设定阈值小于第一设定阈值。

步骤308，针对第一频繁项集中的任意两个频繁访问路径，确定两个频繁访问路径融合后的父路径。

步骤310，查找第二频繁项集中是否存在上述父路径；若存在，则执行步骤312。

步骤312，根据父路径的支持度和两个频繁访问路径的支持度计算上述两个频繁访问路径之间的距离。

步骤314，针对已知距离的任意两个频繁访问路径，确定两个频繁访问路径所对应的初始化位置向量。

步骤316，调整两个频繁访问路径所对应的初始化位置向量，直至基于位置向量计算的两个频繁访问路径之间的距离与基于支持度计算的两个频繁访问路径之间的距离满足第一设定条件为止，将满足第一设定条件时的两个位置向量确定为两个频繁访问路径所对应的位置向量。

步骤318，根据各个频繁访问路径所对应的位置向量，计算第一频繁项集中其余频繁访问路径之间的距离。

步骤320，根据各个频繁访问路径之间的距离按照设定规则对第一频繁项集中的所有频繁访问路径进行至少一轮融合，直至融合结果满足设定的融合结束条件时为止。

其中，上述设定规则为每一轮在融合时选取距离在所有距离中最小、且小于或等于设定距离的距离对所对应的两个频繁访问路径进行融合；上述融合结束条件为融合结果中任意两个路径之间的距离均大于设定距离。

为便于理解本说明书实施例提供的方法，下述将举例进行说明。

例如，在一种具体实施方式中，假设第一频繁项集中包含的频繁访问路径为频繁访问路径L₁、频繁访问路径L₂、频繁访问路径L₃、频繁访问路径L₄和频繁访问路径L₅，在第二频繁项集中可以找到频繁访问路径L₂和频繁访问路径L₃的父路径，以及频繁访问路径L₂和频繁访问路径L₅的父路径，因此，可以基于支持度计算出频繁访问路径L₂和频繁访问路径L₃之间的距离，以及计算出频繁访问路径L₂和频繁访问路径L₅之间的距离。

频繁访问路径L₁对应的位置向量记为P₁、频繁访问路径L₂对应的位置向量记为P₂、频繁访问路径L₃对应的位置向量记为P₃、频繁访问路径L₄所对应的位置向量记为P₄和频繁访问路径L₅所对应的位置向量记为P₅。

根据频繁访问路径L₂和频繁访问路径L₃之间的距离可以确定出位置向量 P₂和位置向量P₃，根据频繁访问路径L₂和频繁访问路径L₅之间的距离，以及位置向量P₂可以确定出位置向量P₅，另外，在第一频繁项集中必然存在P₁以及P₄与另外位置向量的距离，以此类推，可以确定出P₁和的P₄位置向量。最后，基于各个频繁访问路径的位置向量，确定出其余任意两个频繁访问路径(频繁访问路径L₃和频繁访问路径L₅之间、频繁访问路径L₁和频繁访问路径L₃之间、频繁访问路径L₁和频繁访问路径L₄之间、频繁访问路径L₁和频繁访问路径L₂之间、频繁访问路径L₁和频繁访问路径L₅之间、频繁访问路径L₂和频繁访问路径L₄之间、频繁访问路径L₃和频繁访问路径L₄之间、频繁访问路径L₄和频繁访问路径 L₅之间)之间的距离，如图4所示。

在其他实施方式中，上述根据部分频繁访问路径之间的距离，确定第一频繁项集中各个频繁访问路径所对应的位置向量，具体包括如下过程：

针对已采用基于支持度的距离算法计算出距离的任意两个频繁访问路径，确定两个频繁访问路径所对应的初始化位置向量；将两个所述初始化位置向量输入至预先训练的孪生神经网络中，通过所述孪生神经网络对两个所述初始化位置向量进行至少一次调整，直至所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离满足第一设定条件为止；其中，所述第一设定条件为所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值；将经过之前一次调整后且满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量。

在本说明书实施例中，在孪生神经网络中可以对初始化位置向量进行多次调整，直至孪生神经网络输出的距离值与基于支持度的距离算法计算出的距离值满足第一设定条件为止。

图5为本说明书实施例提供的访问路径的融合方法的方法流程图之三，图 5所示的方法，至少包括如下步骤：

步骤502，获取目标业务所对应的历史业务数据；其中，历史业务数据包括每次执行目标业务时的访问路径，该访问路径的各个节点为所经历的页面。

步骤504，计算历史业务数据中各个访问路径所对应的支持度。

步骤506，筛选支持度大于或等于第一设定阈值的频繁访问路径，构成第一频繁项集，以及，筛选支持度大于或等于第二设定阈值的频发访问路径，构成第二频繁项集。

其中，第二设定阈值小于第一设定阈值。

步骤508，针对第一频繁项集中的任意两个频繁访问路径，确定两个频繁访问路径融合后的父路径。

步骤510，查找第二频繁项集中是否存在上述父路径；若存在，则执行步骤512。

步骤512，根据父路径的支持度和两个频繁访问路径的支持度计算上述两个频繁访问路径之间的距离。

步骤514，针对已知距离的任意两个频繁访问路径，确定两个频繁访问路径所对应的初始化位置向量。

步骤516，将两个初始化位置向量输入至预先训练的孪生神经网络中，通过孪生神经网络对两个初始化位置向量进行调整，直至孪生神经网络输出的距离与基于支持度计算的距离满足第一设定条件为止。

其中，上述第一设定条件为基于位置向量计算的距离与基于之师杜计算的距离的差值小于或等于设定值。

步骤518，将调整后满足第一设定条件时的两个位置向量确定为两个频繁访问路径所对应的位置向量。

步骤520，根据各个频繁访问路径所对应的位置向量，计算第一频繁项集中其余频繁访问路径之间的距离。

步骤522，根据各个频繁访问路径之间的距离按照设定规则对第一频繁项集中的所有频繁访问路径进行至少一轮融合，直至融合结果满足设定的融合结束条件时为止。

本说明书实施例提供的访问路径的融合方法，在挖掘出目标业务所对应的第一频繁项集后，基于第一频繁项集中任意两个频繁访问路径之间的距离对各个频繁访问路径进行融合处理，通过对各频繁访问路径进行融合处理，可以减少频繁访问路径的数量，从而减少对频繁访问路径进行分析的工作量，既节省了大量的资源，还可以提高路径分析的效率；另外，在本说明书实施例中，基于频繁访问路径之间的距离对各频繁访问路径进行融合处理，由于路径之间的距离可以比较准确的反应路径之间的相似度，因此，可以提高频繁访问路径融合的准确性。

对应于本说明书实施例提供的方法，基于相同的思路，本说明书实施例还提供了一种访问路径的融合装置，用于执行本说明书实施例提供的方法，图6 为本说明书实施例提供的访问路径的融合装置的模块组成示意图，图6所示的装置，至少包括如下模块：

获取模块602，用于获取目标业务所对应的历史业务数据；其中，所述历史业务数据包括每次执行所述目标业务时的访问路径，所述访问路径的各个节点为执行目标业务时所经历的页面；

挖掘模块604，用于根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集；其中，所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径；

确定模块606，用于确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离；其中，所述距离用于表征所述频繁访问路径之间的路径相似度；

融合处理模块608，用于根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。

可选的，上述确定模块606，包括：

第一计算单元，用于采用基于支持度的方式计算所述第一频繁项集中部分频繁访问路径之间的距离；

确定单元，用于根据部分所述频繁访问路径之间的距离，确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量；

第二计算单元，用于根据各个所述频繁访问路径所对应的位置向量，计算所述第一频繁项集中其余所述频繁访问路径之间的距离。

可选的，上述第一计算单元，具体用于：

针对所述第一频繁项集中的任意两个所述频繁访问路径，确定两个所述频繁访问路径融合后的父路径；查找所述第二频繁项集中是否存在所述父路径；其中，所述第二频繁项集中的频繁访问路径的支持度大于或等于第二设定阈值；所述第二设定阈值小于所述第一设定阈值；若存在，则根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离。

可选的，上述第一计算单元，还具体用于：

根据所述父路径的支持度和两个所述频繁访问路径的支持度，通过如下公式计算两个所述频繁访问路径之间的距离；

其中，在上述公式中，L_i表示所述第一频繁项集中的第i条频繁访问路径， L_j表示所述第一频繁项集中的第j条频繁访问路径，L_i+j表示频繁访问路径L_i和频繁访问路径L_j的父路径，dist(L_i，L_j)表示频繁访问路径L_i和频繁访问路径L_j之间的距离，sup(L_i)表示频繁访问路径L_i的支持度，sup(L_j)表示频繁访问路径L_j的支持度，sup(L_i+j)表示父路径L_i+j的支持度，α表示系数。

可选的，上述确定单元，具体用于：

针对已知距离的任意两个所述频繁访问路径，确定两个所述频繁访问路径所对应的初始化位置向量；调整两个所述频繁访问路径所对应的初始化位置向量，直至基于位置向量计算的两个所述频繁访问路径之间的距离与基于支持度计算的两个所述频繁访问路径之间的距离满足第一设定条件为止，将满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量；其中，所述第一设定条件为基于位置向量计算的距离与基于支持度计算的距离的差值小于或等于设定值。

可选的，上述确定单元，还具体用于：

针对已知距离的任意两个所述频繁访问路径，确定两个所述频繁访问路径所对应的初始化位置向量；将两个所述初始化位置向量输入至预先训练的孪生神经网络中，通过所述孪生神经网络对两个所述初始化位置向量进行调整，直至所述孪生神经网络输出的距离与基于支持度计算的距离满足第一设定条件为止；其中，所述第一设定条件为基于位置向量计算的距离与基于支持度计算的距离的差值小于或等于设定值；将调整后满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量。

可选的，上述融合处理模块608，包括：

融合单元，用于根据上述举例按照设定规则对第一频发项集中的频繁访问路径进行至少一轮融合，直至融合结果满足设定的融合结束条件为止；

其中，上述设定规则为每一轮在融合时选取距离在所有举例中最小、且小于或等于设定距离的距离所对应的两个频繁访问路径进行融合；融合结束条件为融合结果中任意两个路径之间的距离均大于设定距离。

本说明书实施例提供的访问路径的融合装置还可执行图1-图5中访问路径的融合装置执行的方法，并实现访问路径的融合装置在图1-图5所示实施例的功能，在此不再赘述。

本说明书实施例提供的访问路径的融合装置，在挖掘出目标业务所对应的第一频繁项集后，基于第一频繁项集中任意两个频繁访问路径之间的距离对各个频繁访问路径进行融合处理，通过对各频繁访问路径进行融合处理，可以减少频繁访问路径的数量，从而减少对频繁访问路径进行分析挖掘黑产交易的工作量，节省大量的资源；另外，在本说明书实施例中，基于频繁访问路径之间的距离对各频繁访问路径进行融合处理，提高了频繁访问路径融合的准确性。

进一步地，基于上述图1至图5所示的方法，本说明书实施例还提供了一种访问路径的融合设备，如图7所示。

访问路径的融合设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器701和存储器702，存储器702中可以存储有一个或一个以上存储应用程序或数据。其中，存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对访问路径的融合设备中的一系列计算机可执行指令信息。更进一步地，处理器701可以设置为与存储器702通信，在访问路径的融合设备上执行存储器702中的一系列计算机可执行指令信息。访问路径的融合设备还可以包括一个或一个以上电源703，一个或一个以上有线或无线网络接口704，一个或一个以上输入输出接口705，一个或一个以上键盘706等。

在一个具体的实施例中，访问路径的融合设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对访问路径的融合设备中的一系列计算机可执行指令信息，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令信息：

获取目标业务所对应的历史业务数据；其中，所述历史业务数据包括每次执行所述目标业务时的访问路径，所述访问路径的各个节点为所经历的页面；

根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集；其中，所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径；

确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离；其中，所述距离用于表征所述频繁访问路径之间的路径相似度；

根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。

可选的，计算机可执行指令信息在被执行时，所述确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离，包括：

采用基于支持度的方式计算所述第一频繁项集中部分频繁访问路径之间的距离；

根据部分所述频繁访问路径之间的距离，确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量；

根据各个所述频繁访问路径所对应的位置向量，计算所述第一频繁项集中其余所述频繁访问路径之间的距离。

可选的，计算机可执行指令信息在被执行时，采用基于支持度的方式计算所述第一频繁项集中部分频繁访问路径之间的距离，包括：

针对所述第一频繁项集中的任意两个所述频繁访问路径，确定两个所述频繁访问路径融合后的父路径；

查找所述第二频繁项集中是否存在所述父路径；其中，所述第二频繁项集中的频繁访问路径的支持度大于或等于第二设定阈值；所述第二设定阈值小于所述第一设定阈值；

若存在，则根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离。

可选的，计算机可执行指令信息在被执行时，所述根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离，包括：

可选的，计算机可执行指令信息在被执行时，所述根据部分所述频繁访问路径之间的距离，确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量，包括：

针对已知距离的任意两个所述频繁访问路径，确定两个所述频繁访问路径所对应的初始化位置向量；

调整两个所述频繁访问路径所对应的初始化位置向量，直至基于位置向量计算的两个所述频繁访问路径之间的距离与基于支持度计算的两个所述频繁访问路径之间的距离满足第一设定条件为止，将满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量；其中，所述第一设定条件为基于位置向量计算的距离与基于支持度计算的距离的差值小于或等于设定值。

将两个所述初始化位置向量输入至预先训练的孪生神经网络中，通过所述孪生神经网络对两个所述初始化位置向量进行调整，直至所述孪生神经网络输出的距离与基于支持度计算的距离满足第一设定条件为止；其中，所述第一设定条件为基于位置向量计算的距离与基于支持度计算的距离的差值小于或等于设定值；

将调整后满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量。

可选的，计算机可执行指令信息在被执行时，所述根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理，包括：

根据上述举例按照设定规则对第一频发项集中的频繁访问路径进行至少一轮融合，直至融合结果满足设定的融合结束条件为止；

本说明书实施例提供的访问路径的融合设备，在挖掘出目标业务所对应的第一频繁项集后，基于第一频繁项集中任意两个频繁访问路径之间的距离对各个频繁访问路径进行融合处理，通过对各频繁访问路径进行融合处理，可以减少频繁访问路径的数量，从而减少对频繁访问路径进行分析的工作量，既节省了大量的资源，还可以提高路径分析的效率；另外，在本说明书实施例中，基于频繁访问路径之间的距离对各频繁访问路径进行融合处理，由于路径之间的距离可以比较准确的反应路径之间的相似度，因此，可以提高频繁访问路径融合的准确性。

进一步地，基于上述图1至图5所示的方法，本说明书实施例还提供了一种存储介质，用于存储计算机可执行指令信息，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令信息在被处理器执行时，能实现以下流程：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，所述确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离，包括：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时时，采用基于支持度的方式计算所述第一频繁项集中部分频繁访问路径之间的距离，包括：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，所述根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离，包括：

其中，在上述公式中，L_i表示所述第一频繁项集中的第i条频繁访问路径， L_j表示所述第一频繁项集中的第j条频繁访问路径，L_i+j表示频繁访问路径L_i和频繁访问路径Lj的父路径，dist(L_i，L_j)表示频繁访问路径L_i和频繁访问路径L_j之间的距离，sup(L_i)表示频繁访问路径L_i的支持度，sup(L_j)表示频繁访问路径L_j的支持度，sup(L_i+j)表示父路径L_i+j的支持度，α表示系数。

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，所述根据部分所述频繁访问路径之间的距离，确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量，包括：

可选的，该存储介质存储的计算机可执行指令信息在被处理器执行时，所述根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理，包括：

本说明书实施例提供的存储介质存储的计算机可执行指令信息在被处理器执行时，在挖掘出目标业务所对应的第一频繁项集后，基于第一频繁项集中任意两个频繁访问路径之间的距离对各个频繁访问路径进行融合处理，通过对各频繁访问路径进行融合处理，可以减少频繁访问路径的数量，从而减少对频繁访问路径进行分析的工作量，既节省了大量的资源，还可以提高路径分析的效率；另外，在本说明书实施例中，基于频繁访问路径之间的距离对各频繁访问路径进行融合处理，由于路径之间的距离可以比较准确的反应路径之间的相似度，因此，可以提高频繁访问路径融合的准确性。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field ProgrammableGate Array， FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、 Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL (Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL (RubyHardware Description Language)等，目前最普遍使用的是VHDL (Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令信息实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令信息到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令信息产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令信息也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令信息产生包括指令信息装置的制造品，该指令信息装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令信息也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令信息提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令信息、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令信息的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种访问路径的融合方法，所述方法包括：

获取目标业务所对应的历史业务数据；其中，所述历史业务数据包括每次执行所述目标业务时的访问路径，所述访问路径的各个节点为执行所述目标业务时所经历的页面；

2.如权利要求1所述的方法，所述确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离，包括：

采用基于支持度的距离算法计算所述第一频繁项集中部分所述频繁访问路径之间的距离；

3.如权利要求2所述的方法，所述采用基于支持度的距离算法计算所述第一频繁项集中部分所述频繁访问路径之间的距离，包括：

查找第二频繁项集中是否存在所述父路径；其中，所述第二频繁项集包括支持度大于或等于第二设定阈值频繁访问路径及各所述频繁访问路径所对应的支持度，且所述第二设定阈值小于所述第一设定阈值；

4.如权利要求3所述的方法，所述根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离，包括：

其中，在上述公式中，L_i表示所述第一频繁项集中的第i条频繁访问路径，L_j表示所述第一频繁项集中的第j条频繁访问路径，L_i+j表示频繁访问路径L_i和频繁访问路径L_j的父路径，dist(L_i，L_j)表示频繁访问路径L_i和频繁访问路径L_j之间的距离，sup(L_i)表示频繁访问路径L_i的支持度，sup(L_j)表示频繁访问路径L_j的支持度，sup(L_i+j)表示父路径L_i+j的支持度，α表示系数。

5.如权利要求2所述的方法，所述根据部分所述频繁访问路径之间的距离，确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量，包括：

针对已采用基于支持度的距离算法计算出距离的任意两个所述频繁访问路径，确定两个所述频繁访问路径所对应的初始化位置向量；

调整两个所述频繁访问路径所对应的初始化位置向量，直至采用基于位置向量的距离算法计算得到的两个所述频繁访问路径之间的距离与采用基于支持度的距离算法计算得到的两个所述频繁访问路径之间的距离满足第一设定条件为止，将满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量；其中，所述第一设定条件为采用基于位置向量的距离算法计算得到的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值。

6.如权利要求2所述的方法，所述根据部分所述频繁访问路径之间的距离，确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量，包括：

将两个所述初始化位置向量输入至预先训练的孪生神经网络中，通过所述孪生神经网络对两个所述初始化位置向量进行至少一次调整，直至所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离满足第一设定条件为止；其中，所述第一设定条件为所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值；

将经过之前一次调整后且满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量。

7.如权利要求1所述的方法，所述根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理，包括：

根据所述距离按照设定规则对所述第一频繁项集中的所述频繁访问路径进行至少一轮融合，直至融合结果满足设定的融合结束条件为止；

其中，所述设定规则为每一轮在融合时选取距离在所有距离中最小、且小于或等于设定距离的距离所对应的两个所述频繁访问路径进行融合；所述融合结束条件为所述融合结果中任意两个路径之间的距离均大于所述设定距离。

8.一种访问路径的融合装置，所述装置包括：

获取模块，获取目标业务所对应的历史业务数据；其中，所述历史业务数据包括每次执行所述目标业务时的访问路径，所述访问路径的各个节点为执行所述目标业务时所经历的页面；

挖掘模块，根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集；其中，所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径；

确定模块，确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离；其中，所述距离用于表征所述频繁访问路径之间的路径相似度；

融合处理模块，根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。

9.如权利要求8所述的装置，所述确定模块，包括：

第一计算单元，采用基于支持度的距离算法计算所述第一频繁项集中部分所述频繁访问路径之间的距离；

确定单元，根据部分所述频繁访问路径之间的距离，确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量；

第二计算单元，根据各个所述频繁访问路径所对应的位置向量，计算所述第一频繁项集中其余所述频繁访问路径之间的距离。

10.如权利要求9所述的装置，所述第一计算单元，具体用于：

针对所述第一频繁项集中的任意两个所述频繁访问路径，确定两个所述频繁访问路径融合后的父路径；查找第二频繁项集中是否存在所述父路径；其中，所述第二频繁项集包括支持度大于或等于第二设定阈值频繁访问路径及各所述频繁访问路径所对应的支持度，且所述第二设定阈值小于所述第一设定阈值；若存在，则根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离。

11.如权利要求9所述的装置，所述确定单元，具体用于：

针对已采用基于支持度的距离算法计算出距离的任意两个所述频繁访问路径，确定两个所述频繁访问路径所对应的初始化位置向量；调整两个所述频繁访问路径所对应的初始化位置向量，直至采用基于位置向量的距离算法计算得到的两个所述频繁访问路径之间的距离与采用基于支持度的距离算法计算得到的两个所述频繁访问路径之间的距离满足第一设定条件为止，将满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量；其中，所述第一设定条件为采用基于位置向量的距离算法计算得到的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值。

12.如权利要求9所述的装置，所述确定单元，还具体用于：

针对已采用基于支持度的距离算法计算出距离的任意两个所述频繁访问路径，确定两个所述频繁访问路径所对应的初始化位置向量；将两个所述初始化位置向量输入至预先训练的孪生神经网络中，通过所述孪生神经网络对两个所述初始化位置向量进行至少一次调整，直至所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离满足第一设定条件为止；其中，所述第一设定条件为所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值；将经过之前一次调整后且满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量。

13.一种访问路径的融合设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

14.一种存储介质，用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：