CN111538756A - 访问路径的融合方法及装置 - Google Patents
访问路径的融合方法及装置 Download PDFInfo
- Publication number
- CN111538756A CN111538756A CN202010256325.1A CN202010256325A CN111538756A CN 111538756 A CN111538756 A CN 111538756A CN 202010256325 A CN202010256325 A CN 202010256325A CN 111538756 A CN111538756 A CN 111538756A
- Authority
- CN
- China
- Prior art keywords
- frequent
- distance
- access paths
- frequent access
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种访问路径的融合方法及装置,包括:首先,获取目标业务所对应的历史业务数据;根据上述历史业务数据挖掘目标业务所对应的第一频繁项集,其中,第一频繁项集由支持度大于或等于第一设定阈值的频繁访问路径构成;确定第一频繁项集中任意两个频繁访问路径之间的距离;根据距离对第一频繁项集中的频繁访问路径进行融合处理,其中,上述历史业务数据包括每次执行所述目标业务时的访问路径,且该访问路径的各个节点为所经历的页面。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种访问路径的融合方法及装置。
背景技术
随着计算机及互联网技术的快速发展,在线业务,如在线充值、在线购物、 在线转账等越来越多的应用于人们的生活、工作中。目前,为了实现对黑产行 业的打击,可以通过对相关业务的业务路径进行分析挖掘出黑产交易,如可以 通过对用户在线充值的充值路径进行分析,挖掘网络赌博充值。但是,由于在 线业务得业务量巨大,如果对每条业务路径都进行分析,工作量较大,需要耗 费大量的资源。
因此,如何减少业务路径分析的工作量成为当前亟需解决的技术问题。
发明内容
本说明书实施例提供了一种访问路径的融合方法。其中,该访问路径的融 合方法包括:获取目标业务所对应的历史业务数据。其中,所述历史业务数据 包括每次执行所述目标业务时的访问路径,所述访问路径的各个节点为执行所 述目标业务时所经历的页面。根据所述历史业务数据挖掘所述目标业务所对应 的第一频繁项集。其中,所述第一频繁项集包括支持度大于或等于第一设定阈 值的频繁访问路径。确定所述第一频繁项集中任意两个所述频繁访问路径之间 的距离。其中,所述距离用于表征所述频繁访问路径之间的路径相似度。根据 所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。
本说明书实施例还提供了一种访问路径的融合装置。其中,该访问路径的 融合装置包括:获取模块,获取目标业务所对应的历史业务数据。其中,所述 历史业务数据包括每次执行所述目标业务时的访问路径,所述访问路径的各个 节点为执行所述目标业务时所经历的页面。挖掘模块,根据所述历史业务数据 挖掘所述目标业务所对应的第一频繁项集。其中,所述第一频繁项集包括支持 度大于或等于第一设定阈值的频繁访问路径。确定模块,确定所述第一频繁项 集中任意两个所述频繁访问路径之间的距离。其中,所述距离用于表征所述频 繁访问路径之间的路径相似度。融合处理模块,根据所述距离对所述第一频繁 项集中的所述频繁访问路径进行融合处理。
本说明书实施例还提供了一种访问路径的融合设备。该访问路径的融合设 备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行 指令在被执行时使所述处理器:获取目标业务所对应的历史业务数据。其中, 所述历史业务数据包括每次执行所述目标业务时的访问路径,所述访问路径的 各个节点为执行所述目标业务时所经历的页面。根据所述历史业务数据挖掘所 述目标业务所对应的第一频繁项集。其中,所述第一频繁项集包括支持度大于 或等于第一设定阈值的频繁访问路径。确定所述第一频繁项集中任意两个所述 频繁访问路径之间的距离。其中,所述距离用于表征所述频繁访问路径之间的 路径相似度。根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。
本说明书实施例还提供了一种存储介质。其中,该存储介质用于存储计算 机可执行指令,所述可执行指令在被执行时实现以下流程:获取目标业务所对 应的历史业务数据。其中,所述历史业务数据包括每次执行所述目标业务时的 访问路径,所述访问路径的各个节点为执行所述目标业务时所经历的页面。根 据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集。其中,所述第 一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径。确定所述第 一频繁项集中任意两个所述频繁访问路径之间的距离。其中,所述距离用于表 征所述频繁访问路径之间的路径相似度。根据所述距离对所述第一频繁项集中 的所述频繁访问路径进行融合处理。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的访问路径的融合方法的方法流程图之一;
图2为本说明书实施例提供的访问路径的融合方法中,任意两个频繁访问 路径与父路径的示意图;
图3为本说明书实施例提供的访问路径的融合方法的方法流程图之二;
图4为本说明书实施例提供的访问路径的融合方法中,各个频访问路径之 间距离的示意图;
图5为本说明书实施例提供的访问路径的融合方法的方法流程图之三;
图6为本说明书实施例提供的访问路径的融合装置的模块组成示意图;
图7为本说明书实施例提供的访问路径的融合设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本 说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。 基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所 获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书实施例的思想在于,挖掘出目标业务所对应的频繁项集后,根据 频繁项集中任意两个频繁访问路径之间的距离对频繁项集中的频繁访问路径 进行融合处理,减少了频繁项集中路径的数量,从而可以减少路径分析的工作 量。另外,由于路径之间的距离可以比较准确的反应路径之间的相似程度,因 此,基于距离进行融合处理,可以提高融合的准确性。基于此,本说明书实施 例提供了一种访问路径的融合方法、装置、设备及存储介质。下述将一一详细 进行介绍。
图1为本说明书实施例提供的访问路径的融合方法的方法流程图之一,图 1所示的方法,至少包括如下步骤:
步骤102,获取目标业务所对应的历史业务数据;其中,所述历史业务数 据包括每次执行目标业务时的访问路径,该访问路径的各个节点为执行目标业 务时所经历的页面。
具体的,可以周期性的从目标业务所对应的数据库中读取设定时间长度内 的历史业务数据。如,可以每两天读取过去两天内的历史业务数据,其中,上 述设定时间长度和读取周期的具体取值可以根据实际应用场景进行设置,本说 明书实施例并不对此进行限定。
一般的,每执行一次目标业务,将执行该目标业务所经历的各个页面构成 访问路径进行记录。例如,在一种具体实施方式中,执行目标业务时所经历的 页面依次为页面A、页面B、页面C和页面D,则该次执行目标业务所对应的 访问路径为:页面A-页面B-页面C-页面D。
步骤104,根据上述历史业务数据挖掘目标业务所对应的第一频繁项集; 其中,第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径。
具体的,在上述步骤104中,可以计算历史业务数据中各个访问路径所对 应的支持度,并将各个支持度与第一设定阈值进行比对,将支持度大于或等于 第一设定阈值的访问路径记为频繁访问路径,将历史业务数据中的频繁访问路 径所构成的集合记为第一频繁项集。
其中,在历史业务数据中记录有设定时间长度内的多条业务数据,一条业 务数据对应一个访问路径。在计算各个访问路径所对应的支持度时,首先确定 该访问路径在历史业务数据中的出现次数,将该访问路径的出现次数与历史业 务数据中的数据总条数的比值作为该访问路径所对应的支持度。
为便于理解,下述将以计算访问路径A的支持度为例进行说明。
例如,历史业务数据中总共有1000条业务数据,且一条业务数据对应一 个访问路径,访问路径A总共在200条业务数据中出现,即可以理解为这200 条业务数据所对应的访问路径均为访问路径A,因此,访问路径A所对应的支 持度为200/1000=0.2。
另外,需要说明的是,上述第一设定阈值的具体取值可以根据实际应用场 景进行设置,本说明书实施例并不对上述第一设定阈值的具体取值进行限定。
步骤106,确定第一频繁项集中任意两个频繁访问路径之间的距离;其中, 上述距离用于表征频繁访问路径之间的路径相似度。
步骤108,根据上述距离对第一频繁项集中的频繁访问路径进行融合处理。
优选的,上述步骤106中,确定第一频繁项集中任意两个频繁访问路径之 间的距离,具体包括如下步骤一、步骤二和步骤三;
步骤一、采用基于支持度的距离算法计算第一频繁项集中部分频繁访问路 径之间的距离;
步骤二、根据部分频繁访问路径之间的距离,确定第一频繁项集中各个频 繁访问路径所对应的位置向量;
步骤三、根据各个频繁访问路径所对应的位置向量,计算第一频繁项集中 其余频繁访问路径之间的距离。
一般的,针对任意两个频繁访问路径,假设记为频繁访问路径Li和频繁访 问路径Lj,如果频繁访问路径Li和频繁访问路径Lj融合(路径合并)后的父路 径的支持度与频繁访问路径Li和频繁访问路径Lj的支持度相差较小,则可以认 为频繁访问路径Li和频繁访问路径Lj可以融合到一个相同的父路径中,因此可 以认为频繁访问路径Li和频繁访问路径Lj之间的距离较小;相反,若是频繁访 问路径Li和频繁访问路径Lj融合后的父路径的支持度显著区别于频繁访问路 径Li和频繁访问路径Lj的支持度,则表明频繁访问路径Li和频繁访问路径Lj不 应该被融合,也即频繁访问路径Li和频繁访问路径Lj之间的距离应该较大。因此,在本说明书实施例中,可以基于支持度计算第一频繁项集中各频繁访问路 径之间的距离。
优选的,在本说明书实施例中,上述步骤一中,采用基于支持度的距离算 法计算第一频繁项集中部分频繁访问路径之间的距离,包括:
针对第一频繁项集中的任意两个频繁访问路径,确定两个频繁访问路径融 合后的父路径;查找第二频繁项集中是否存在上述父路径;若存在,则根据父 路径的支持度和两个频繁访问路径的支持度计算两个频繁访问路径之间的距 离;其中,第二频繁项集包括支持度大于或等于第二设定阈值的频繁访问路径 及各频繁访问路径所对应的支持度,且第二设定阈值小于第一设定阈值。
一般的,若是设定阈值的具体取值越大,则得到的频繁项集的中所包含的 频繁访问路径越小。因此,在本发明实施例中,第二设定阈值小于第一设定阈 值,则说明第二频繁项集的范围比第一频繁项集更广(即第二频繁项集中包含 的频繁访问路径的条数多于第一频繁项集)。在实际实施时,频繁访问路径Li和 频繁访问路径Lj融合后的父路径在第一频繁项集中未必找的到,因此,需要挖 掘得到范围更广的第二频繁项集,以便可以在第二频繁项集中查找到更多频繁 访问路径所对应的父路径。
需要说明的是,在本说明书实施例中,两个频繁访问路径融合后的父路径 可以理解为两个频繁访问路径所对应的路径的合并,即将两个频繁访问路径中 共同包含的路径提取出来,作为融合后的父路径,其中,繁访问路径Li和频繁 访问路径Lj融合后的一种示意图如图2所示。为便于理解,下述将举例进行说 明。
例如,在一种具体实施方式中,频繁访问路径Li和频繁访问路径Lj分别如 下所示:
频繁访问路径Li:页面A-页面B-页面D-页面F;
频繁访问路径Lj:页面A-页面C-页面D-页面F;
频繁访问路径Li和频繁访问路径Lj融合后的父路径则为:页面A-页面D- 页面F。
还例如,频繁访问路径Li:页面A-页面B-页面F;
频繁访问路径Lj:页面A-页面F;
频繁访问路径Li和频繁访问路径Lj融合后的父路径则为:页面A-页面F。
具体的,因为在生成第一频繁项集和第二频繁项集时需要计算各个路径的 支持度,因此,在第一频繁项集和第二频繁项集中除了包括频繁访问路径外, 还包括各个频繁访问路径所对应的支持度。
因此,在本说明书实施例中,若是在第二频繁项集中可以查找到上述两个 频繁访问路径所对应的父路径,则说明可以获得该父路径所对应的支持度,这 时,可以采用基于支持度的方式计算上述两个频繁访问路径之间的距离。
具体的,根据父路径的支持度和两个频繁访问路径的支持度计算上述两个 频繁访问路径之间的距离,具体包括如下过程:
根据父路径的支持度和两个频繁访问路径的支持度,通过如下公式计算两 个频繁访问路径之间的距离;
其中,在上述公式中,Li表示第一频繁项集中的第i条频繁访问路径,Lj表 示第一频繁项集中的第j条频繁访问路径,Li+j表示频繁访问路径Li和频繁访问 路径Lj的父路径,dist(Li,Lj)表示频繁访问路径Li和频繁访问路径Lj之间的距 离,sup(Li)表示频繁访问路径Li的支持度,sup(Lj)表示频繁访问路径Lj的支持 度,sup(Li+j)表示父路径Li+j的支持度,α表示系数。
在本说明书实施例中,若是在第二频繁项集中可以查找到第一频繁项集中 的两个频繁访问路径所对应的父路径,则可以通过基于支持度的方式计算上述 两个频繁访问路径之间的距离。虽然通过降低第二设定阈值的取值可以增大第 二频繁项集的范围,但是,不能无限降低第二设定阈值的取值,这样会导致计 算量较大,甚至难以承受。因此,无法保证第一频繁项集中的任意两个频繁访 问路径的父路径都能在第二频繁项集中被找到。所以,对于在第二频繁项集中 找不到父路径的两个频繁访问路径之间的距离可以通过基于位置向量的方式 计算该两个频繁访问路径之间的距离。
在具体实施时,可以先根据已经计算出的部分频繁访问路径之间的距离, 确定第一频繁项集中各个频繁访问路径所对应的位置向量,其具体过程如下所 示:
针对已采用基于支持度的距离算法计算出距离的任意两个频繁访问路径, 确定两个频繁访问路径所对应的初始化位置向量;调整两个频繁访问路径所对 应的初始化位置向量,直至采用基于位置向量的距离算法计算得到的两个频繁 访问路径之间的距离与采用基于支持度的距离算法计算得到的两个频繁访问 路径之间的距离满足第一设定条件为止,将满足第一设定条件的两个位置向量 确定为两个频繁访问路径所对应的位置向量;其中,上述第一设定条件为采用 基于位置向量的距离算法计算得到的距离与采用基于支持度的距离算法计算 得到的距离的差值小于或等于设定值。
其中,在本说明书实施例中,可以将第一频繁项集中的每个频繁访问路径 看做空间中的一个点,因此,可以基于各个点的位置向量计算点与点之间的距 离,每个点可以通过一个长度为C的位置向量表示,其中,C的值可以为任意 正整数。
在具体实施时,可以将频繁访问路径Li所对应的位置向量记为:
Pi=(xi,1,xi,2,...,xi,c)
确定上述频繁访问路径Li的初始化位置向量,实际上是给频繁访问路径Li所对应的位置向量Pi中的xi,1、xi,2、xi,c等参数进行赋值,所赋的值可以为任意 数值。
优选的,在一种具体实施方式中,可以将已知距离的频繁访问路径对及其 距离作为训练样本,例如,若是基于支持度计算出频繁访问路径Li和频繁访问 路径Lj之间的距离,则可以将频繁访问路径Li、频繁访问路径Lj以及两个频繁 访问路径之间的距离dist(Li,Lj)作为一个训练样本。
其中,上述第一设定条件可以为基于位置向量计算的两个频繁访问路径之 间的距离与基于支持度计算的上述两个频繁访问路径之间的距离相等或者小 于设定阈值。
即上述第一设定条件可以为使得loss值为零或者小于设定阈值,其中,loss 值的计算公式如下所示:
其中,在上述公式中,M表示训练样本的个数,m表示第m个训练样本, C表示位置向量的长度。
在具体实施时,不断调整频繁访问路径Li所对应的位置向量Pi中的xi,1、xi,2、 xi,c等参数,以及频繁访问路径Lj所对应的位置向量Pj中的xj,1、xj,2、xj,c等参 数的取值,直至上述loss的取值为零或者小于设定阈值为止。将上述loss的取 值满足第一设定条件时的位置向量Pi作为频繁访问路径Li的位置向量,将上述 loss的取值满足第一设定条件时的位置向量Pj作为频繁访问路径Lj的位置向量。
在确定出第一频繁项集中各个频繁访问路径所对应的位置向量后,基于位 置向量计算在第二频繁项集中无法查找到父路径的频繁访问路径之间的距离。
具体的,在本说明书实施例中,上述步骤108中,根据上述距离对第一频 繁访问项集中的频繁访问路径进行融合处理,具体包括如下过程:
根据上述距离按照设定规则对第一频繁项集中的频繁访问路径进行至少 一轮融合,直至融合结果满足设定的融合结束条件为止;
其中,上述设定规则为每一轮在融合时选取距离在所有距离中最小、且小 于或等于设定距离的距离所对应的两个频繁访问路径进行融合;上述融合结束 条件为融合结果中任意两个路径之间的距离均大于设定距离。
可选的,在具体实施时,将第一频繁项集中所对应的所有的距离进行比较, 选出最小距离,将最小距离与设定距离进行比对,若是最小距离小于或等于设 定距离,则将最小距离所对应的两个频繁访问路径进行融合,将得到的融合路 径和第一频繁项集中的其余未融合的频繁访问路径作为第一轮融合结果。然后 计算上述融合路径与其余未融合的频繁访问路径之间的距离,将融合路径与其 余各个未融合的频繁访问路径之间的距离、以及各个未融合的频繁访问路径之 间的距离进行比较,选出最小距离,并将最小距离与设定距离进行比对,若是 最小距离小于或等于设定距离,则将最小距离所对应的两个频繁访问路径进行 融合,得到第二轮融合结果,以此类推,直至某一轮的融合结果满足设定的融 合结束条件时则结束融合过程。
为便于理解,下述将举例进行说明。
例如,在一种具体实施方式中,第一频繁项集中包括四条频繁访问路径, 分别记为A、B、C和D,总共包括6个距离(A和B之间的距离、A和C之 间的距离、A和D之间的距离、B和C之间的距离、B和D之间的距离、C 和D之间的距离),在进行第一轮融合时,选取6个距离当中的最小距离,若 是最小距离小于或等于设定距离,则将该距离所对应的两个频繁访问路径进行 融合,假设A和B之间的距离最小,则将A和B进行融合,将融合后的路径 记为融合访问路径1,因此,第一轮融合后得到的融合结果为融合访问路径1、 频繁访问路径C和频繁访问路径D;在进行第二轮融合时,先确定融合访问路 径1与频发访问路径C之间的距离、融合访问路径1与频繁访问路径D之间 的距离,第一轮融合后的融合结果总共对应三个距离(融合访问路径1与C之 间的距离、融合访问路径1与D之间的距离、C和D之间的距离),选取上述三个距离中的最小距离,并判断最小距离是否小于或等于设定距离,若是,则 将该最小距离所对应的两个路径进行融合,假设最小距离所对应的两个路径为 C和D,则将C和D进行融合,将融合后的路径记为融合访问路径2,因此, 第二轮后得到的融合结果为融合访问路径1和融合访问路径2,以此类推,直 至融合结果中的各个路径之间的距离均大于设定阈值时,则结束融合流程。
需要说明的是,在计算融合后的融合访问路径与某未融合的频繁访问路径 之间的距离时,则需要将融合访问路径所对应的两个频繁访问路径(例如,融 合访问路径为频繁访问路径A和频繁访问路径B融合得到的,则该融合访问 路径所对应的两个频繁访问路径则为频繁访问路径A和频繁访问路径B)与某 未融合的频繁访问路径之间较小的一个距离作为该融合访问路径与某未融合 的频发访问路径之间的距离。
为便于理解,下述将举例进行说明。
例如,在一种具体实施方式中,某融合访问路径1为频繁访问路径A和频 繁访问路径B融合得到,在计算融合访问路径1与频繁访问路径C之间的距 离时,则将频繁访问路径A与频繁访问路径C之间的距离、频繁访问路径B 与频繁访问路径C之间的距离较小的一个距离,作为融合访问路径1与频繁访 问路径C之间的距离;若是融合访问路径2为频繁访问路径C和频繁访问路 径D融合得到的,在计算融合访问路径1和融合访问路径2之间的距离时,则 将频繁访问路径A与频繁访问路径C之间的距离、频繁访问路径A与频繁访 问路径D之间的距离、频繁访问路径B与频繁访问路径C之间的距离、频繁 访问路径B与频繁访问路径D之间的距离中较小的一个距离,作为融合访问 路径1与融合访问路径2之间的距离。
图3为本说明书实施例提供的访问路径的融合方法的方法流程图之二,图 3所示的方法,至少包括如下步骤:
步骤302,获取目标业务所对应的历史业务数据;其中,历史业务数据包 括每次执行目标业务时的访问路径,该访问路径的各个节点为执行目标业务时 所经历的页面。
步骤304,计算历史业务数据中各个访问路径所对应的支持度。
步骤306,筛选支持度大于或等于第一设定阈值的频繁访问路径,构成第 一频繁项集,以及,筛选支持度大于或等于第二设定阈值的频发访问路径,构 成第二频繁项集。
其中,第二设定阈值小于第一设定阈值。
步骤308,针对第一频繁项集中的任意两个频繁访问路径,确定两个频繁 访问路径融合后的父路径。
步骤310,查找第二频繁项集中是否存在上述父路径;若存在,则执行步 骤312。
步骤312,根据父路径的支持度和两个频繁访问路径的支持度计算上述两 个频繁访问路径之间的距离。
步骤314,针对已知距离的任意两个频繁访问路径,确定两个频繁访问路 径所对应的初始化位置向量。
步骤316,调整两个频繁访问路径所对应的初始化位置向量,直至基于位 置向量计算的两个频繁访问路径之间的距离与基于支持度计算的两个频繁访 问路径之间的距离满足第一设定条件为止,将满足第一设定条件时的两个位置 向量确定为两个频繁访问路径所对应的位置向量。
步骤318,根据各个频繁访问路径所对应的位置向量,计算第一频繁项集 中其余频繁访问路径之间的距离。
步骤320,根据各个频繁访问路径之间的距离按照设定规则对第一频繁项 集中的所有频繁访问路径进行至少一轮融合,直至融合结果满足设定的融合结 束条件时为止。
其中,上述设定规则为每一轮在融合时选取距离在所有距离中最小、且小 于或等于设定距离的距离对所对应的两个频繁访问路径进行融合;上述融合结 束条件为融合结果中任意两个路径之间的距离均大于设定距离。
为便于理解本说明书实施例提供的方法,下述将举例进行说明。
例如,在一种具体实施方式中,假设第一频繁项集中包含的频繁访问路径 为频繁访问路径L1、频繁访问路径L2、频繁访问路径L3、频繁访问路径L4和频 繁访问路径L5,在第二频繁项集中可以找到频繁访问路径L2和频繁访问路径L3的父路径,以及频繁访问路径L2和频繁访问路径L5的父路径,因此,可以基于 支持度计算出频繁访问路径L2和频繁访问路径L3之间的距离,以及计算出频繁 访问路径L2和频繁访问路径L5之间的距离。
频繁访问路径L1对应的位置向量记为P1、频繁访问路径L2对应的位置向量 记为P2、频繁访问路径L3对应的位置向量记为P3、频繁访问路径L4所对应的位 置向量记为P4和频繁访问路径L5所对应的位置向量记为P5。
根据频繁访问路径L2和频繁访问路径L3之间的距离可以确定出位置向量 P2和位置向量P3,根据频繁访问路径L2和频繁访问路径L5之间的距离,以及位 置向量P2可以确定出位置向量P5,另外,在第一频繁项集中必然存在P1以及P4与 另外位置向量的距离,以此类推,可以确定出P1和的P4位置向量。最后,基于 各个频繁访问路径的位置向量,确定出其余任意两个频繁访问路径(频繁访问 路径L3和频繁访问路径L5之间、频繁访问路径L1和频繁访问路径L3之间、频繁 访问路径L1和频繁访问路径L4之间、频繁访问路径L1和频繁访问路径L2之间、 频繁访问路径L1和频繁访问路径L5之间、频繁访问路径L2和频繁访问路径L4之间、频繁访问路径L3和频繁访问路径L4之间、频繁访问路径L4和频繁访问路径 L5之间)之间的距离,如图4所示。
在其他实施方式中,上述根据部分频繁访问路径之间的距离,确定第一频 繁项集中各个频繁访问路径所对应的位置向量,具体包括如下过程:
针对已采用基于支持度的距离算法计算出距离的任意两个频繁访问路径, 确定两个频繁访问路径所对应的初始化位置向量;将两个所述初始化位置向量 输入至预先训练的孪生神经网络中,通过所述孪生神经网络对两个所述初始化 位置向量进行至少一次调整,直至所述孪生神经网络输出的距离与采用基于支 持度的距离算法计算得到的距离满足第一设定条件为止;其中,所述第一设定 条件为所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到 的距离的差值小于或等于设定值;将经过之前一次调整后且满足所述第一设定 条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量。
在本说明书实施例中,在孪生神经网络中可以对初始化位置向量进行多次 调整,直至孪生神经网络输出的距离值与基于支持度的距离算法计算出的距离 值满足第一设定条件为止。
图5为本说明书实施例提供的访问路径的融合方法的方法流程图之三,图 5所示的方法,至少包括如下步骤:
步骤502,获取目标业务所对应的历史业务数据;其中,历史业务数据包 括每次执行目标业务时的访问路径,该访问路径的各个节点为所经历的页面。
步骤504,计算历史业务数据中各个访问路径所对应的支持度。
步骤506,筛选支持度大于或等于第一设定阈值的频繁访问路径,构成第 一频繁项集,以及,筛选支持度大于或等于第二设定阈值的频发访问路径,构 成第二频繁项集。
其中,第二设定阈值小于第一设定阈值。
步骤508,针对第一频繁项集中的任意两个频繁访问路径,确定两个频繁 访问路径融合后的父路径。
步骤510,查找第二频繁项集中是否存在上述父路径;若存在,则执行步 骤512。
步骤512,根据父路径的支持度和两个频繁访问路径的支持度计算上述两 个频繁访问路径之间的距离。
步骤514,针对已知距离的任意两个频繁访问路径,确定两个频繁访问路 径所对应的初始化位置向量。
步骤516,将两个初始化位置向量输入至预先训练的孪生神经网络中,通 过孪生神经网络对两个初始化位置向量进行调整,直至孪生神经网络输出的距 离与基于支持度计算的距离满足第一设定条件为止。
其中,上述第一设定条件为基于位置向量计算的距离与基于之师杜计算的 距离的差值小于或等于设定值。
步骤518,将调整后满足第一设定条件时的两个位置向量确定为两个频繁 访问路径所对应的位置向量。
步骤520,根据各个频繁访问路径所对应的位置向量,计算第一频繁项集 中其余频繁访问路径之间的距离。
步骤522,根据各个频繁访问路径之间的距离按照设定规则对第一频繁项 集中的所有频繁访问路径进行至少一轮融合,直至融合结果满足设定的融合结 束条件时为止。
本说明书实施例提供的访问路径的融合方法,在挖掘出目标业务所对应的 第一频繁项集后,基于第一频繁项集中任意两个频繁访问路径之间的距离对各 个频繁访问路径进行融合处理,通过对各频繁访问路径进行融合处理,可以减 少频繁访问路径的数量,从而减少对频繁访问路径进行分析的工作量,既节省 了大量的资源,还可以提高路径分析的效率;另外,在本说明书实施例中,基 于频繁访问路径之间的距离对各频繁访问路径进行融合处理,由于路径之间的 距离可以比较准确的反应路径之间的相似度,因此,可以提高频繁访问路径融 合的准确性。
对应于本说明书实施例提供的方法,基于相同的思路,本说明书实施例还 提供了一种访问路径的融合装置,用于执行本说明书实施例提供的方法,图6 为本说明书实施例提供的访问路径的融合装置的模块组成示意图,图6所示的 装置,至少包括如下模块:
获取模块602,用于获取目标业务所对应的历史业务数据;其中,所述历 史业务数据包括每次执行所述目标业务时的访问路径,所述访问路径的各个节 点为执行目标业务时所经历的页面;
挖掘模块604,用于根据所述历史业务数据挖掘所述目标业务所对应的第 一频繁项集;其中,所述第一频繁项集包括支持度大于或等于第一设定阈值的 频繁访问路径;
确定模块606,用于确定所述第一频繁项集中任意两个所述频繁访问路径 之间的距离;其中,所述距离用于表征所述频繁访问路径之间的路径相似度;
融合处理模块608,用于根据所述距离对所述第一频繁项集中的所述频繁 访问路径进行融合处理。
可选的,上述确定模块606,包括:
第一计算单元,用于采用基于支持度的方式计算所述第一频繁项集中部分 频繁访问路径之间的距离;
确定单元,用于根据部分所述频繁访问路径之间的距离,确定所述第一频 繁项集中各个所述频繁访问路径所对应的位置向量;
第二计算单元,用于根据各个所述频繁访问路径所对应的位置向量,计算 所述第一频繁项集中其余所述频繁访问路径之间的距离。
可选的,上述第一计算单元,具体用于:
针对所述第一频繁项集中的任意两个所述频繁访问路径,确定两个所述频 繁访问路径融合后的父路径;查找所述第二频繁项集中是否存在所述父路径; 其中,所述第二频繁项集中的频繁访问路径的支持度大于或等于第二设定阈值; 所述第二设定阈值小于所述第一设定阈值;若存在,则根据所述父路径的支持 度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离。
可选的,上述第一计算单元,还具体用于:
根据所述父路径的支持度和两个所述频繁访问路径的支持度,通过如下公 式计算两个所述频繁访问路径之间的距离;
其中,在上述公式中,Li表示所述第一频繁项集中的第i条频繁访问路径, Lj表示所述第一频繁项集中的第j条频繁访问路径,Li+j表示频繁访问路径Li和 频繁访问路径Lj的父路径,dist(Li,Lj)表示频繁访问路径Li和频繁访问路径Lj之间的距离,sup(Li)表示频繁访问路径Li的支持度,sup(Lj)表示频繁访问路径Lj的支持度,sup(Li+j)表示父路径Li+j的支持度,α表示系数。
可选的,上述确定单元,具体用于:
针对已知距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径 所对应的初始化位置向量;调整两个所述频繁访问路径所对应的初始化位置向 量,直至基于位置向量计算的两个所述频繁访问路径之间的距离与基于支持度 计算的两个所述频繁访问路径之间的距离满足第一设定条件为止,将满足所述 第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置 向量;其中,所述第一设定条件为基于位置向量计算的距离与基于支持度计算 的距离的差值小于或等于设定值。
可选的,上述确定单元,还具体用于:
针对已知距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径 所对应的初始化位置向量;将两个所述初始化位置向量输入至预先训练的孪生 神经网络中,通过所述孪生神经网络对两个所述初始化位置向量进行调整,直 至所述孪生神经网络输出的距离与基于支持度计算的距离满足第一设定条件 为止;其中,所述第一设定条件为基于位置向量计算的距离与基于支持度计算 的距离的差值小于或等于设定值;将调整后满足所述第一设定条件时的两个位 置向量确定为两个所述频繁访问路径所对应的位置向量。
可选的,上述融合处理模块608,包括:
融合单元,用于根据上述举例按照设定规则对第一频发项集中的频繁访问 路径进行至少一轮融合,直至融合结果满足设定的融合结束条件为止;
其中,上述设定规则为每一轮在融合时选取距离在所有举例中最小、且小 于或等于设定距离的距离所对应的两个频繁访问路径进行融合;融合结束条件 为融合结果中任意两个路径之间的距离均大于设定距离。
本说明书实施例提供的访问路径的融合装置还可执行图1-图5中访问路径 的融合装置执行的方法,并实现访问路径的融合装置在图1-图5所示实施例的 功能,在此不再赘述。
本说明书实施例提供的访问路径的融合装置,在挖掘出目标业务所对应的 第一频繁项集后,基于第一频繁项集中任意两个频繁访问路径之间的距离对各 个频繁访问路径进行融合处理,通过对各频繁访问路径进行融合处理,可以减 少频繁访问路径的数量,从而减少对频繁访问路径进行分析挖掘黑产交易的工 作量,节省大量的资源;另外,在本说明书实施例中,基于频繁访问路径之间 的距离对各频繁访问路径进行融合处理,提高了频繁访问路径融合的准确性。
进一步地,基于上述图1至图5所示的方法,本说明书实施例还提供了一 种访问路径的融合设备,如图7所示。
访问路径的融合设备可因配置或性能不同而产生比较大的差异,可以包括 一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或 一个以上存储应用程序或数据。其中,存储器702可以是短暂存储或持久存储。 存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出), 每个模块可以包括对访问路径的融合设备中的一系列计算机可执行指令信息。 更进一步地,处理器701可以设置为与存储器702通信,在访问路径的融合设 备上执行存储器702中的一系列计算机可执行指令信息。访问路径的融合设备 还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704, 一个或一个以上输入输出接口705,一个或一个以上键盘706等。
在一个具体的实施例中,访问路径的融合设备包括有存储器,以及一个或 一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一 个以上程序可以包括一个或一个以上模块,且每个模块可以包括对访问路径的 融合设备中的一系列计算机可执行指令信息,且经配置以由一个或者一个以上 处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令信 息:
获取目标业务所对应的历史业务数据;其中,所述历史业务数据包括每次 执行所述目标业务时的访问路径,所述访问路径的各个节点为所经历的页面;
根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集;其中, 所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径;
确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离;其中, 所述距离用于表征所述频繁访问路径之间的路径相似度;
根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。
可选的,计算机可执行指令信息在被执行时,所述确定所述第一频繁项集 中任意两个所述频繁访问路径之间的距离,包括:
采用基于支持度的方式计算所述第一频繁项集中部分频繁访问路径之间 的距离;
根据部分所述频繁访问路径之间的距离,确定所述第一频繁项集中各个所 述频繁访问路径所对应的位置向量;
根据各个所述频繁访问路径所对应的位置向量,计算所述第一频繁项集中 其余所述频繁访问路径之间的距离。
可选的,计算机可执行指令信息在被执行时,采用基于支持度的方式计算 所述第一频繁项集中部分频繁访问路径之间的距离,包括:
针对所述第一频繁项集中的任意两个所述频繁访问路径,确定两个所述频 繁访问路径融合后的父路径;
查找所述第二频繁项集中是否存在所述父路径;其中,所述第二频繁项集 中的频繁访问路径的支持度大于或等于第二设定阈值;所述第二设定阈值小于 所述第一设定阈值;
若存在,则根据所述父路径的支持度和两个所述频繁访问路径的支持度计 算两个所述频繁访问路径之间的距离。
可选的,计算机可执行指令信息在被执行时,所述根据所述父路径的支持 度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离, 包括:
根据所述父路径的支持度和两个所述频繁访问路径的支持度,通过如下公 式计算两个所述频繁访问路径之间的距离;
其中,在上述公式中,Li表示所述第一频繁项集中的第i条频繁访问路径, Lj表示所述第一频繁项集中的第j条频繁访问路径,Li+j表示频繁访问路径Li和 频繁访问路径Lj的父路径,dist(Li,Lj)表示频繁访问路径Li和频繁访问路径Lj之间的距离,sup(Li)表示频繁访问路径Li的支持度,sup(Lj)表示频繁访问路径Lj的支持度,sup(Li+j)表示父路径Li+j的支持度,α表示系数。
可选的,计算机可执行指令信息在被执行时,所述根据部分所述频繁访问 路径之间的距离,确定所述第一频繁项集中各个所述频繁访问路径所对应的位 置向量,包括:
针对已知距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径 所对应的初始化位置向量;
调整两个所述频繁访问路径所对应的初始化位置向量,直至基于位置向量 计算的两个所述频繁访问路径之间的距离与基于支持度计算的两个所述频繁 访问路径之间的距离满足第一设定条件为止,将满足所述第一设定条件时的两 个位置向量确定为两个所述频繁访问路径所对应的位置向量;其中,所述第一 设定条件为基于位置向量计算的距离与基于支持度计算的距离的差值小于或 等于设定值。
可选的,计算机可执行指令信息在被执行时,所述根据部分所述频繁访问 路径之间的距离,确定所述第一频繁项集中各个所述频繁访问路径所对应的位 置向量,包括:
针对已知距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径 所对应的初始化位置向量;
将两个所述初始化位置向量输入至预先训练的孪生神经网络中,通过所述 孪生神经网络对两个所述初始化位置向量进行调整,直至所述孪生神经网络输 出的距离与基于支持度计算的距离满足第一设定条件为止;其中,所述第一设 定条件为基于位置向量计算的距离与基于支持度计算的距离的差值小于或等 于设定值;
将调整后满足所述第一设定条件时的两个位置向量确定为两个所述频繁 访问路径所对应的位置向量。
可选的,计算机可执行指令信息在被执行时,所述根据所述距离对所述第 一频繁项集中的所述频繁访问路径进行融合处理,包括:
根据上述举例按照设定规则对第一频发项集中的频繁访问路径进行至少 一轮融合,直至融合结果满足设定的融合结束条件为止;
其中,上述设定规则为每一轮在融合时选取距离在所有举例中最小、且小 于或等于设定距离的距离所对应的两个频繁访问路径进行融合;融合结束条件 为融合结果中任意两个路径之间的距离均大于设定距离。
本说明书实施例提供的访问路径的融合设备,在挖掘出目标业务所对应的 第一频繁项集后,基于第一频繁项集中任意两个频繁访问路径之间的距离对各 个频繁访问路径进行融合处理,通过对各频繁访问路径进行融合处理,可以减 少频繁访问路径的数量,从而减少对频繁访问路径进行分析的工作量,既节省 了大量的资源,还可以提高路径分析的效率;另外,在本说明书实施例中,基 于频繁访问路径之间的距离对各频繁访问路径进行融合处理,由于路径之间的 距离可以比较准确的反应路径之间的相似度,因此,可以提高频繁访问路径融 合的准确性。
进一步地,基于上述图1至图5所示的方法,本说明书实施例还提供了一 种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储 介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在 被处理器执行时,能实现以下流程:
获取目标业务所对应的历史业务数据;其中,所述历史业务数据包括每次 执行所述目标业务时的访问路径,所述访问路径的各个节点为所经历的页面;
根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集;其中, 所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径;
确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离;其中, 所述距离用于表征所述频繁访问路径之间的路径相似度;
根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,所 述确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离,包括:
采用基于支持度的方式计算所述第一频繁项集中部分频繁访问路径之间 的距离;
根据部分所述频繁访问路径之间的距离,确定所述第一频繁项集中各个所 述频繁访问路径所对应的位置向量;
根据各个所述频繁访问路径所对应的位置向量,计算所述第一频繁项集中 其余所述频繁访问路径之间的距离。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时时, 采用基于支持度的方式计算所述第一频繁项集中部分频繁访问路径之间的距 离,包括:
针对所述第一频繁项集中的任意两个所述频繁访问路径,确定两个所述频 繁访问路径融合后的父路径;
查找所述第二频繁项集中是否存在所述父路径;其中,所述第二频繁项集 中的频繁访问路径的支持度大于或等于第二设定阈值;所述第二设定阈值小于 所述第一设定阈值;
若存在,则根据所述父路径的支持度和两个所述频繁访问路径的支持度计 算两个所述频繁访问路径之间的距离。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,所 述根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述 频繁访问路径之间的距离,包括:
根据所述父路径的支持度和两个所述频繁访问路径的支持度,通过如下公 式计算两个所述频繁访问路径之间的距离;
其中,在上述公式中,Li表示所述第一频繁项集中的第i条频繁访问路径, Lj表示所述第一频繁项集中的第j条频繁访问路径,Li+j表示频繁访问路径Li和 频繁访问路径Lj的父路径,dist(Li,Lj)表示频繁访问路径Li和频繁访问路径Lj之间的距离,sup(Li)表示频繁访问路径Li的支持度,sup(Lj)表示频繁访问路径Lj的支持度,sup(Li+j)表示父路径Li+j的支持度,α表示系数。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,所 述根据部分所述频繁访问路径之间的距离,确定所述第一频繁项集中各个所述 频繁访问路径所对应的位置向量,包括:
针对已知距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径 所对应的初始化位置向量;
调整两个所述频繁访问路径所对应的初始化位置向量,直至基于位置向量 计算的两个所述频繁访问路径之间的距离与基于支持度计算的两个所述频繁 访问路径之间的距离满足第一设定条件为止,将满足所述第一设定条件时的两 个位置向量确定为两个所述频繁访问路径所对应的位置向量;其中,所述第一 设定条件为基于位置向量计算的距离与基于支持度计算的距离的差值小于或 等于设定值。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,所 述根据部分所述频繁访问路径之间的距离,确定所述第一频繁项集中各个所述 频繁访问路径所对应的位置向量,包括:
针对已知距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径 所对应的初始化位置向量;
将两个所述初始化位置向量输入至预先训练的孪生神经网络中,通过所述 孪生神经网络对两个所述初始化位置向量进行调整,直至所述孪生神经网络输 出的距离与基于支持度计算的距离满足第一设定条件为止;其中,所述第一设 定条件为基于位置向量计算的距离与基于支持度计算的距离的差值小于或等 于设定值;
将调整后满足所述第一设定条件时的两个位置向量确定为两个所述频繁 访问路径所对应的位置向量。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,所 述根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理,包 括:
根据上述举例按照设定规则对第一频发项集中的频繁访问路径进行至少 一轮融合,直至融合结果满足设定的融合结束条件为止;
其中,上述设定规则为每一轮在融合时选取距离在所有举例中最小、且小 于或等于设定距离的距离所对应的两个频繁访问路径进行融合;融合结束条件 为融合结果中任意两个路径之间的距离均大于设定距离。
本说明书实施例提供的存储介质存储的计算机可执行指令信息在被处理 器执行时,在挖掘出目标业务所对应的第一频繁项集后,基于第一频繁项集中 任意两个频繁访问路径之间的距离对各个频繁访问路径进行融合处理,通过对 各频繁访问路径进行融合处理,可以减少频繁访问路径的数量,从而减少对频 繁访问路径进行分析的工作量,既节省了大量的资源,还可以提高路径分析的 效率;另外,在本说明书实施例中,基于频繁访问路径之间的距离对各频繁访 问路径进行融合处理,由于路径之间的距离可以比较准确的反应路径之间的相 似度,因此,可以提高频繁访问路径融合的准确性。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改 进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对 于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已 经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程 编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的 改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field ProgrammableGate Array, FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造 厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电 路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它 与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用 特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、 Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL (Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL (RubyHardware Description Language)等,目前最普遍使用的是VHDL (Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。 本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作 逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件 电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器 或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件 或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器 的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存 储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序 代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制 器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包 括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以 将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件 部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实 体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。 具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、 智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制 台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然, 在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令信息实现流 程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流 程和/或方框的结合。可提供这些计算机程序指令信息到通用计算机、专用计 算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使 得通过计算机或其他可编程数据处理设备的处理器执行的指令信息产生用于 实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定 的功能的装置。
这些计算机程序指令信息也可存储在能引导计算机或其他可编程数据处 理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储 器中的指令信息产生包括指令信息装置的制造品,该指令信息装置实现在流程 图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令信息也可装载到计算机或其他可编程数据处理设备 上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现 的处理,从而在计算机或其他可编程设备上执行的指令信息提供用于实现在流 程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的 步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输 出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。 内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令信息、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、 其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程 只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带 磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计 算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读 媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设 备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程 序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和 硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算 机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令信息的一般上下文中描 述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据 类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中 实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理 设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内 的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相 似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。 尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技 术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所 作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (14)
1.一种访问路径的融合方法,所述方法包括:
获取目标业务所对应的历史业务数据;其中,所述历史业务数据包括每次执行所述目标业务时的访问路径,所述访问路径的各个节点为执行所述目标业务时所经历的页面;
根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集;其中,所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径;
确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离;其中,所述距离用于表征所述频繁访问路径之间的路径相似度;
根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。
2.如权利要求1所述的方法,所述确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离,包括:
采用基于支持度的距离算法计算所述第一频繁项集中部分所述频繁访问路径之间的距离;
根据部分所述频繁访问路径之间的距离,确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量;
根据各个所述频繁访问路径所对应的位置向量,计算所述第一频繁项集中其余所述频繁访问路径之间的距离。
3.如权利要求2所述的方法,所述采用基于支持度的距离算法计算所述第一频繁项集中部分所述频繁访问路径之间的距离,包括:
针对所述第一频繁项集中的任意两个所述频繁访问路径,确定两个所述频繁访问路径融合后的父路径;
查找第二频繁项集中是否存在所述父路径;其中,所述第二频繁项集包括支持度大于或等于第二设定阈值频繁访问路径及各所述频繁访问路径所对应的支持度,且所述第二设定阈值小于所述第一设定阈值;
若存在,则根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离。
4.如权利要求3所述的方法,所述根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离,包括:
根据所述父路径的支持度和两个所述频繁访问路径的支持度,通过如下公式计算两个所述频繁访问路径之间的距离;
其中,在上述公式中,Li表示所述第一频繁项集中的第i条频繁访问路径,Lj表示所述第一频繁项集中的第j条频繁访问路径,Li+j表示频繁访问路径Li和频繁访问路径Lj的父路径,dist(Li,Lj)表示频繁访问路径Li和频繁访问路径Lj之间的距离,sup(Li)表示频繁访问路径Li的支持度,sup(Lj)表示频繁访问路径Lj的支持度,sup(Li+j)表示父路径Li+j的支持度,α表示系数。
5.如权利要求2所述的方法,所述根据部分所述频繁访问路径之间的距离,确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量,包括:
针对已采用基于支持度的距离算法计算出距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径所对应的初始化位置向量;
调整两个所述频繁访问路径所对应的初始化位置向量,直至采用基于位置向量的距离算法计算得到的两个所述频繁访问路径之间的距离与采用基于支持度的距离算法计算得到的两个所述频繁访问路径之间的距离满足第一设定条件为止,将满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量;其中,所述第一设定条件为采用基于位置向量的距离算法计算得到的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值。
6.如权利要求2所述的方法,所述根据部分所述频繁访问路径之间的距离,确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量,包括:
针对已采用基于支持度的距离算法计算出距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径所对应的初始化位置向量;
将两个所述初始化位置向量输入至预先训练的孪生神经网络中,通过所述孪生神经网络对两个所述初始化位置向量进行至少一次调整,直至所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离满足第一设定条件为止;其中,所述第一设定条件为所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值;
将经过之前一次调整后且满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量。
7.如权利要求1所述的方法,所述根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理,包括:
根据所述距离按照设定规则对所述第一频繁项集中的所述频繁访问路径进行至少一轮融合,直至融合结果满足设定的融合结束条件为止;
其中,所述设定规则为每一轮在融合时选取距离在所有距离中最小、且小于或等于设定距离的距离所对应的两个所述频繁访问路径进行融合;所述融合结束条件为所述融合结果中任意两个路径之间的距离均大于所述设定距离。
8.一种访问路径的融合装置,所述装置包括:
获取模块,获取目标业务所对应的历史业务数据;其中,所述历史业务数据包括每次执行所述目标业务时的访问路径,所述访问路径的各个节点为执行所述目标业务时所经历的页面;
挖掘模块,根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集;其中,所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径;
确定模块,确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离;其中,所述距离用于表征所述频繁访问路径之间的路径相似度;
融合处理模块,根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。
9.如权利要求8所述的装置,所述确定模块,包括:
第一计算单元,采用基于支持度的距离算法计算所述第一频繁项集中部分所述频繁访问路径之间的距离;
确定单元,根据部分所述频繁访问路径之间的距离,确定所述第一频繁项集中各个所述频繁访问路径所对应的位置向量;
第二计算单元,根据各个所述频繁访问路径所对应的位置向量,计算所述第一频繁项集中其余所述频繁访问路径之间的距离。
10.如权利要求9所述的装置,所述第一计算单元,具体用于:
针对所述第一频繁项集中的任意两个所述频繁访问路径,确定两个所述频繁访问路径融合后的父路径;查找第二频繁项集中是否存在所述父路径;其中,所述第二频繁项集包括支持度大于或等于第二设定阈值频繁访问路径及各所述频繁访问路径所对应的支持度,且所述第二设定阈值小于所述第一设定阈值;若存在,则根据所述父路径的支持度和两个所述频繁访问路径的支持度计算两个所述频繁访问路径之间的距离。
11.如权利要求9所述的装置,所述确定单元,具体用于:
针对已采用基于支持度的距离算法计算出距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径所对应的初始化位置向量;调整两个所述频繁访问路径所对应的初始化位置向量,直至采用基于位置向量的距离算法计算得到的两个所述频繁访问路径之间的距离与采用基于支持度的距离算法计算得到的两个所述频繁访问路径之间的距离满足第一设定条件为止,将满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量;其中,所述第一设定条件为采用基于位置向量的距离算法计算得到的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值。
12.如权利要求9所述的装置,所述确定单元,还具体用于:
针对已采用基于支持度的距离算法计算出距离的任意两个所述频繁访问路径,确定两个所述频繁访问路径所对应的初始化位置向量;将两个所述初始化位置向量输入至预先训练的孪生神经网络中,通过所述孪生神经网络对两个所述初始化位置向量进行至少一次调整,直至所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离满足第一设定条件为止;其中,所述第一设定条件为所述孪生神经网络输出的距离与采用基于支持度的距离算法计算得到的距离的差值小于或等于设定值;将经过之前一次调整后且满足所述第一设定条件时的两个位置向量确定为两个所述频繁访问路径所对应的位置向量。
13.一种访问路径的融合设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取目标业务所对应的历史业务数据;其中,所述历史业务数据包括每次执行所述目标业务时的访问路径,所述访问路径的各个节点为执行所述目标业务时所经历的页面;
根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集;其中,所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径;
确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离;其中,所述距离用于表征所述频繁访问路径之间的路径相似度;
根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。
14.一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取目标业务所对应的历史业务数据;其中,所述历史业务数据包括每次执行所述目标业务时的访问路径,所述访问路径的各个节点为执行所述目标业务时所经历的页面;
根据所述历史业务数据挖掘所述目标业务所对应的第一频繁项集;其中,所述第一频繁项集包括支持度大于或等于第一设定阈值的频繁访问路径;
确定所述第一频繁项集中任意两个所述频繁访问路径之间的距离;其中,所述距离用于表征所述频繁访问路径之间的路径相似度;
根据所述距离对所述第一频繁项集中的所述频繁访问路径进行融合处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010256325.1A CN111538756B (zh) | 2020-04-02 | 2020-04-02 | 访问路径的融合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010256325.1A CN111538756B (zh) | 2020-04-02 | 2020-04-02 | 访问路径的融合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538756A true CN111538756A (zh) | 2020-08-14 |
CN111538756B CN111538756B (zh) | 2023-05-02 |
Family
ID=71978581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010256325.1A Active CN111538756B (zh) | 2020-04-02 | 2020-04-02 | 访问路径的融合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538756B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983616A (zh) * | 2023-03-21 | 2023-04-18 | 济南丽阳神州智能科技有限公司 | 一种基于管理系统的业务流程挖掘方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823883A (zh) * | 2014-03-06 | 2014-05-28 | 焦点科技股份有限公司 | 一种网站用户访问路径的分析方法及系统 |
CN106484746A (zh) * | 2015-09-02 | 2017-03-08 | 北京国双科技有限公司 | 网站转化事件的分析方法及装置 |
US20190065587A1 (en) * | 2017-08-31 | 2019-02-28 | Ca, Inc. | Page journey determination from web event journals |
CN110442616A (zh) * | 2018-05-02 | 2019-11-12 | 中国科学院声学研究所 | 一种针对大数据量的页面访问路径分析方法与系统 |
CN110502702A (zh) * | 2019-07-09 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 用户行为预测方法以及装置 |
-
2020
- 2020-04-02 CN CN202010256325.1A patent/CN111538756B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823883A (zh) * | 2014-03-06 | 2014-05-28 | 焦点科技股份有限公司 | 一种网站用户访问路径的分析方法及系统 |
CN106484746A (zh) * | 2015-09-02 | 2017-03-08 | 北京国双科技有限公司 | 网站转化事件的分析方法及装置 |
US20190065587A1 (en) * | 2017-08-31 | 2019-02-28 | Ca, Inc. | Page journey determination from web event journals |
CN110442616A (zh) * | 2018-05-02 | 2019-11-12 | 中国科学院声学研究所 | 一种针对大数据量的页面访问路径分析方法与系统 |
CN110502702A (zh) * | 2019-07-09 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 用户行为预测方法以及装置 |
Non-Patent Citations (1)
Title |
---|
麦权帮;傅仁毅;: "基于Web日志的自适应站点优化研究与应用" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983616A (zh) * | 2023-03-21 | 2023-04-18 | 济南丽阳神州智能科技有限公司 | 一种基于管理系统的业务流程挖掘方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111538756B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200211106A1 (en) | Method, apparatus, and device for training risk management models | |
CN108537568B (zh) | 一种信息推荐方法和装置 | |
CN113011483B (zh) | 一种模型训练和业务处理的方法及装置 | |
CN110826894A (zh) | 超参数确定方法、装置及电子设备 | |
CN115840802A (zh) | 服务处理方法及装置 | |
CN112199416A (zh) | 数据规则生成方法及装置 | |
CN110134860B (zh) | 用户画像生成方法、装置和设备 | |
CN111538756A (zh) | 访问路径的融合方法及装置 | |
CN113256300B (zh) | 一种交易的处理方法及装置 | |
CN112966577B (zh) | 一种模型训练以及信息提供的方法及装置 | |
CN108229564B (zh) | 一种数据的处理方法、装置及设备 | |
CN111538925A (zh) | 统一资源定位符url指纹特征的提取方法及装置 | |
CN116051118A (zh) | 行为时序模型的分析方法及装置 | |
CN115904907A (zh) | 任务处理方法及装置 | |
CN107562533B (zh) | 一种数据加载处理方法及装置 | |
CN113343085B (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
CN111523995B (zh) | 一种模型迁移的特征值确定方法、装置及设备 | |
CN110321433B (zh) | 确定文本类别的方法及装置 | |
CN111401641B (zh) | 业务数据处理方法、装置及电子设备 | |
CN112182116A (zh) | 数据探查方法及装置 | |
CN114722972A (zh) | 一种异常检测的方法及装置 | |
CN113205377A (zh) | 一种信息推荐的方法及装置 | |
CN111753990A (zh) | 一种量子计算机模拟环境方法、设备及介质 | |
Huo et al. | First passage exponential optimality problem for semi-Markov decision processes | |
CN114528931A (zh) | 一种模型训练的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230110 Address after: 200120 Floor 15, No. 447, Nanquan North Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai Applicant after: Alipay.com Co.,Ltd. Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province Applicant before: Alipay (Hangzhou) Information Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |