CN114666391B

CN114666391B - 访问轨迹确定方法、装置、设备及存储介质

Info

Publication number: CN114666391B
Application number: CN202011394177.6A
Authority: CN
Inventors: 林素标; 曾煜; 陈智扬
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2023-09-19
Anticipated expiration: 2040-12-03
Also published as: CN114666391A

Abstract

本发明提供一种访问轨迹确定方法、装置、设备及存储介质，该方法包括：解析获取的网络访问数据，得到会话数据；根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列；将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集；统计第二时序数据序列集对应的访问参数，并根据访问参数确定第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。通过本发明实施例的技术方案，能够通过获取的网络访问数据动态生成网络访问轨迹，进而能够利用该网络访问轨迹识别异常的网络访问行为，提高了识别的准确性。

Description

访问轨迹确定方法、装置、设备及存储介质

技术领域

本文件涉及信息安全、大数据处理和人工智能技术领域，尤其涉及一种访问轨迹确定方法、装置、设备及存储介质。

背景技术

随着互联网大数据时代的到来，网络隐私安全与网络财产安全愈发受到重视。通过确定网络中异常的用户行为数据，能够及时发现高风险行为，采取相应的措施减少由高风险行为造成的隐私泄露或财产损失。

现有技术中，通过分析需求文件或人工的方式来确定用户在正常情况下的标准网络访问轨迹，该标准网络访问轨迹为固定值，难以动态调整。因此，存在利用固定的标准网络访问轨迹识别异常的网络访问行为的准确率低的问题。

发明内容

本发明实施例的目的是提供一种访问轨迹确定方法、装置、设备及存储介质，以解决如何利用固定的标准网络访问轨迹提高识别异常的网络访问行为的准确率的问题。

为解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种访问轨迹确定方法，该方法包括：

解析获取的网络访问数据，得到会话数据；

根据从所述会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列；

将所述第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集；

统计所述第二时序数据序列集对应的访问参数，并根据所述访问参数确定所述第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。

第二方面，本发明实施例提供了一种访问轨迹确定装置，该装置包括：

数据解析模块，用于解析获取的网络访问数据，得到会话数据；

序列生成模块，用于根据从所述会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列；

序列确定模块，用于将所述第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集；

轨迹确定模块，用于统计所述第二时序数据序列集对应的访问参数，并根据所述访问参数确定所述第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。

第三方面，本发明实施例提供了一种访问轨迹确定设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，此计算机程序被处理器执行时实现如上述第一方面所述的访问轨迹确定方法的步骤。

第四方面，本发明实施例提供了一种存储介质，存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的访问轨迹确定方法的步骤。

根据本发明实施例的技术方案，首先，解析获取的网络访问数据，得到会话数据；接着，根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列；然后，将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集；最后，统计第二时序数据序列集对应的访问参数，并根据访问参数确定第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。通过本发明实施例的技术方案，能够通过获取的网络访问数据动态生成网络访问轨迹，进而能够利用该网络访问轨迹识别异常的网络访问行为，提高了识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的访问轨迹确定方法的一种流程示意图；

图2为本发明一实施例提供的异常行为识别方法的一种流程示意图；

图3为本发明一实施例提供的一种访问轨迹确定装置的示意框图；

图4为本发明一实施例提供的一种访问轨迹确定设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图1为本发明一实施例提供的访问轨迹确定方法的一种流程示意图。

参照图1所示，该访问轨迹确定方法包括步骤S102、步骤S104、步骤S106、步骤S108。下面对图1的示例实施例中的访问轨迹确定方法进行详细的说明。

步骤S102，解析获取的网络访问数据，得到会话数据。

网络访问数据包含且不限于网络流量数据中的与网络访问行为对应的数据，用户通过网络参与某项业务时产生的网络访问数据。会话包含一个终端用户与交互系统进行通讯的过程，比如从输入账户密码进入操作系统到退出操作系统就是一个会话过程。会话较多用于网络上，TCP的三次握手就创建了一个会话，传输控制协议(Transmission ControlProtocol，TCP)关闭连接就是关闭会话。会话数据包含与会话队列中的会话对应的数据，例如，TCP会话队列中的TCP会话。

在一个实施例中，网络流量数据通过如下方式获取：采用旁路部署的方式，把现网的网络流量数据通过镜像复制的方式进行全量采集，并传输到采集服务器。采集服务器通过抓包软件来获取网络流量数据中的数据包。对数据包中的数据进行预处理，生成并保存与网络流量数据对应的预处理文件。

解析网络访问数据，得到会话数据的过程如下：通过基于超文本传输协议(HyperText Transfer Protocol，http)，按照会话队列的排列顺序提取网络访问数据中每一个会话队列中的会话，通过协议解析、解码和解压缩操作将该会话还原到数据文件，将该数据文件与对应的会话数据提交至数据库。

其中，将该会话还原到数据文件的步骤如下：从TCP会话队列中顺序提取TCP会话，抽取出会话起始节点和会话结束节点，例如节点“rst＝1，syn＝0，fin＝0”和节点“rst＝0，syn＝0，fin＝1”，以确定会话范围，再根据多种与会话对应的网页地址信息，例如源IP、MAC地址、端口号，目标IP、目标地址、目标端口等，将多条会话合并处理，并区分该条会话是请求会话，还是响应会话，然后通过拆分网络包，得到与每条会话对应的网页地址信息。

网页地址信息包含且不限于：统一资源定位符URL(uniform resource locator)字段和来源地址Refer字段。其中，URL是因特网的万维网服务程序上用于指定信息位置的表示方法。Refer是URL的来源地址。与网页地址信息对应的时间点包含start_time字段的字段值。

表1为一实施例体提供的由还原后的数据文件构建成基础数据表。

各个字段的字段名和字段类型如表1所示，例如，字段Login_id为用户用于进行网络访问行为时的身份标识。

表1

需要注意的是，如表1所示的字段仅为示例，还原后的数据文件在如表1所示的字段外还包括源IP、MAC地址、端口号，目标IP、目标地址、目标端口等字段。

步骤S104，根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列。

根据从步骤S102中获得的URL字段、Refer字段和start_time字段的字段值，生成第一时序数据序列。

可选的，根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列，包括：按照时间点的先后顺序，对网页地址信息中的统一资源定位符进行排序，得到由来源地址和统一资源定位符构成的时序数据序列作为第一时序数据序列。

例如，在确定会话的初始时间点与结束时间点后，将初始时间点的Refer字段值Refer1确定为第一时序数据序列的第一位数据，将初始时间点的URL字段值URL1确定为第一时序数据序列的第二位数据，将初始时间点的下一个时间点的URL字段值URL2确定为第一时序数据序列的第三位数据……将结束时间点的URL字段值URLn确定为第一时序数据序列的最后一位数据，即Refer1-URL1-URL2……URLn。

表2为一实施例提供的会话数据的示意图，展示了从会话数据中提取的网页地址信息和对应的时间点。

表2

参照表2所示，按照时间点，即start_time字段的字段值，对URL进行排序，得到x0-x1-x2-x3-x4的时序数据序列，作为第一时序数据序列。其中，x0是start_time字段的字段值为t0时对应的Refer字段的字段值；x1是start_time字段的字段值为t0时对应的URL字段的字段值；x2是start_time字段的字段值为t1时对应的URL字段的字段值；x3是start_time字段的字段值为t2时对应的URL字段的字段值；x4是start_time字段的字段值为t3时对应的URL字段的字段值。

步骤S106，将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集。

项集是指若干个项的集合。频繁模式是指数据集中频繁出现的项集、序列或子结构。频繁项集是指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。

可选的，第一时序数据序列对应的频繁项集通过如下方式确定：对第一时序数据序列进行清洗处理，得到清洗后的待处理时序数据序列；根据待处理时序数据序列对应的时间点，连接待处理时序数据序列，得到复合时序数据序列；根据复合时序数据序列，生成第一时序数据序列对应的频繁项集。

根据业务特征对第一时序数据序列进行分组，得到多个业务时序数据序列组，可以理解为，基于业务知识及数据分析得出的会话即“滑动窗口”，依据业务知识、数据特征，来确定分组结果。

对业务时序数据序列组中的第一时序数据序列进行清洗处理，得到清洗后的待处理时序数据序列，具体地，针对用户登录的每个会话，依据开始时间字段对其业务操作顺序，针对前后相同的第一时序数据序列，只保留最先发生的第一时序数据序列，剔除后续相同的第一时序数据序列。数据清洗结果是用户登录的的每个会话，按照开始时间顺序业务行为轨迹操作其前后的第一时序数据序列是不相同的。例如，业务时序数据序列组包含四个第一时序数据序列，分别为x0-x1-x2-x3-x4，x1-x3-x2-x4，x0-x1-x2-x3-x4，x0-x1-x2-x3-x4，则对业务时序数据序列组中的第一时序数据序列进行清洗处理后，得到x0-x1-x2-x3-x4和x1-x3-x2-x4。

根据待处理时序数据序列对应的时间点，连接待处理时序数据序列，得到复合时序数据序列；根据复合时序数据序列，生成第一时序数据序列对应的频繁项集，可以采用优化后的URL时序行为轨迹挖掘算法。

从业务角度出发，业务员办理业务操作是具有连贯性的。因此，针对会话，首先考虑依据开始时间序列，找出连贯性操作对应的第一时序数据序列，如Refer-URL-URL2-URL3、URL3-URL5-URL6等的集合，独立性操作对应的第一时序数据序列如Refer-URL、Refer1-URL1、Refer2-URL2、…的集合；然后，针对连贯性Refer-URL集合的元素依据开始字段、Refer-URL序列首尾Refer、URL进行循环匹配连接，对循环连接后的Refer-URL序列进行动态剪枝，删除重复、高度相似的Refer-URL序列，最终得到业务员连贯性业务行为轨迹Refer-URL序列集合。

同理，对独立性Refer-URL集合，得出业务员独立性业务行为轨迹Refer-URL序列集合。最后，由连贯性操作对应的第一时序数据序列与由独立性操作对应的第一时序数据序列，依照开始时间序列，Refer-URL序列首尾Refer、URL进行循环匹配连接，动态剪枝，从而得到至少一个第二时序数据序列。

可选的，将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集，包括：将第一时序数据序列对应的统一资源定位符确定为频繁项集的置信度，并将第一时序数据序列对应的来源地址确定为频繁项集的支持度；在频繁项集的子集中，将置信度满足预设置信度阈值条件且支持度满足预设支持度阈值条件的确定为第二时序数据序列集。

置信度满足预设置信度阈值条件，例如，置信度小于等于预设的置信度阈值。同理，支持度满足预设支持度阈值条件，例如，支持度大于预设的支持度阈值。

在至少一个第一时序数据序列的频繁项集的子集中，将满足预设置信度阈值条件和预设支持度阈值条件的子集确定为目标子集。每个目标子集都作为一个第二时序数据序列，由确定的至少一个目标子集构成的序列集为第二时序数据序列集。

在一些实施例中，根据从会话数据中提取的页面地址信息、对应的时间点以及页面还原参数，生成第三时序数据序列。确定第三时序数据序列对应的频繁项集的目标子集为第二时序数据序列。通过第二时序数据序列中携带的页面还原参数，能够根据第二时序数据序列，进行页面还原处理，回溯与第二时序数据序列对应的业务页面。

步骤S108，统计第二时序数据序列集对应的访问参数，并根据访问参数确定第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。

第二时序数据序列集对应的访问参数包含与第二时序数据序列集对应的业务标识、操作人数和操作次。第二时序数据序列集中的目标时序数据序列，例如，第二时序数据序列集包含x0-x1-x2-x3-x4、x1-x3-x2-x4、x1-x2-x4，其中，根据访问参数确定x1-x3-x2-x4作为第二时序数据序列集中的目标时序数据序列，且将x1-x3-x2-x4对应的网络访问轨迹作为目标访问轨迹。

可选的，访问参数包含与第二时序数据序列集对应的业务标识；统计第二时序数据序列集对应的访问参数，包括：按照数据提取格式，从第二时序数据序列集中的第二时序数据序列中提取出预设数量个统一资源定位符；将预设数量个统一资源定位符构成的标识时序数据序列作为与第二时序数据序列集对应的业务标识。

例如，数据提取格式为提取第二时序数据序列的后四位目标网页地址信息，由4个目标网页地址信息构成的标识时序数据序列作为与第二时序数据序列集对应的业务标识。

在一个实施例中，还可以从预设数量个目标网页地址信息中删去预先确定的网页地址信息，再将由剩下的目标网页地址信息构成的标识时序数据序列作为与第二时序数据序列集对应的业务标识。

可选的，访问参数包含与第二时序数据序列集集对应的业务标识、操作人数和操作次数；根据访问参数确定第二时序数据序列集集中的目标时序数据序列，包括：统计第二时序数据序列集集中的时序数据序列对应的业务标识，根据统计结果，确定目标业务标识以及与目标业务标识对应的至少一个标记时序数据序列；根据标记时序数据序列对应的操作人数和操作次数，生成与标记时序数据序列对应的目标特征值；基于目标特征值，在第二时序数据序列集集中确定与目标业务标识对应的目标时序数据序列；相应的，目标访问轨迹，采用如下方式确定：分析目标时序数据序列，得到与目标时序数据序列对应的业务特征值；统计得到由业务特征值相等的至少一个目标时序数据序列构成的轨迹数据序列集；根据轨迹数据序列集确定目标访问轨迹。

具体地，针对一个用户，获取一段时间周期内的第二时序数据序列集，获取第二时序数据序列集对应的至少一个第二时序数据序列的操作次数、操作人数和业务标识；针对同一业务标识，统计该业务标识对应的至少一个第二时序数据序列对应的操作人数和操作次数；对操作人数和操作次数进行归一化处理，在进行加权计算，得到与第二时序数据序列对应的目标特征值；根据帕累托原则，确定目标特征值中的目标业务特征值，将目标业务特征值对应的第二时序数据序列确定为目标时序数据序列。

分析目标时序数据序列，得到与目标时序数据序列对应的业务特征值，具体如下：

采用基于NLP深度分析算法对每一个目标时序数据序列对应的URL进行多分析，得到与会话对应的关键URL作为与目标时序数据序列对应的业务特征值。

可选的，访问轨迹确定方法基于时序数据序列生成模型实现；时序数据序列生成模型采用如下方式构建：解析获取的样本网络访问数据，得到样本会话数据；构建样本会话数据和第一样本时序数据序列之间的第一逻辑关系；构建第一样本时序数据序列与第二样本时序数据序列集之间的第二逻辑关系；第二样本时序数据序列集由第一样本时序数据序列对应的频繁项集的目标子集构成；构建第二样本时序数据序列集和第二样本时序数据序列集中的目标时序数据序列之间的第三逻辑关系；根据第一逻辑关系、第二逻辑关系和第三逻辑关系，构建时序数据序列生成模型。

解析样本网络访问数据，得到样本会话数据；构建第一样本时序数据序列与第二样本时序数据序列集之间的第二逻辑关系；第二样本时序数据序列集由第一样本时序数据序列对应的频繁项集的目标子集构成；构建第二样本时序数据序列集和第二样本时序数据序列集中的目标时序数据序列之间的第三逻辑关系；根据第一逻辑关系、第二逻辑关系和第三逻辑关系，构建时序数据序列生成模型。

针对时序数据序列生成模型利用大量样本网络访问数据进行模型训练，直到该时序数据序列生成模型的模型评价参数达到预设阈值。

根据图1的示例实施例中的访问轨迹确定方法，首先，解析获取的网络访问数据，得到会话数据；接着，根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列；然后，将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集；最后，统计第二时序数据序列集对应的访问参数，并根据访问参数确定第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。通过本发明实施例的技术方案，能够通过获取的网络访问数据动态生成网络访问轨迹，进而能够利用该网络访问轨迹识别异常的网络访问行为，提高了识别的准确性。

图2为本发明一实施例提供的异常行为识别方法的一种流程示意图。

步骤S202，将目标访问轨迹存入序列模式挖掘模型。

将如图1所示的访问轨迹确定方法中获得的目标访问轨迹存入序列模式挖掘模型，用于识别异常的网络访问轨迹。

步骤S204，将用户行为数据输入序列模式挖掘模型，得到异常行为识别结果。

本实施例中的用户行为数据包含用户通过网络参与某项业务时产生的业务行为数据。将用户行为数据输入训练好的序列模式挖掘模型，得到的初步结果为用户行为轨迹，根据预先存入的目标访问轨迹，对用户行为轨迹进行识别，以判断用户行为轨迹是否异常，将得到的判断结果输出序列模式挖掘模型。具体地，通过序列模式挖掘模型识别异常的用户行为轨迹包括且不限于如下步骤：

(1)数据流自适应划分

数据流(data stream)是一组有序，有起点和终点的字节的数据序列，包括输入流和输出流。本实施例中的数据流包含用户行为数据的数据流。基于业务知识及数据对数据流进行分析处理，得出的会话即“滑动窗口”，依据业务知识、数据特征对滑动窗口进行自适应划分。在数据流场景下，将持续到达、边界未知且没有明显划分标志的数据分离，还原真实的使用场景。对于数据流通过如下方式自适应划分：基于滑动窗口的自适应划分，在滑动窗口基础上，辅助以相应的滑动策略，根据数据特征以及检测需求对数据流进行划分。

(2)序列模式挖掘

序列模式的定义如下：给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，每个元素(交易)由不同项目组成，同时给定一个用户指定的最小支持度阈值，序列模式挖掘就是找出所有的频繁子序列，即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。

序列模式挖掘的核心思想是以序列数据为单位，挖掘其内在的结构性关系，从而构建相应模式以表征正常的数据轮廓。序列模式的好坏直接影响了序列异常行为检测的准确性与效率。根据采用挖掘技术的不同，我们采用的序列模式挖掘技术主要可以分为：

基于频繁序列的模式挖掘技术，以数据流中出现频次为指标，挖掘相对时间或其他模式出现频次高的用户行为，从而构建序列模式；

基于马尔科夫模型的模式挖掘技术，采用马尔科夫模型，通过大量训练数据学习，以构建表征该训练集的数据轮廓；

基于聚类的模式挖掘技术，预先定义行为间关联性，将关联性较强的行为抽象成簇，以簇的形式表征序列模式。

(3)模式异常检测

模式异常检测核心思想是以获取的用户行为数据与通过序列模式挖掘得到的序列模式间的差异程度为判定指标，通过阈值与二者间差异程度的比较判断异常。根据比对方法的不同的，主要可以分为三类：

1)基于距离的异常检测，采用抽象逻辑空间的方式，定义序列模式之间的距离属性，通过距离大小判断异常；

2)基于概率的异常检测，通过推断检测数据在已知的序列模式中出现的概率，并以此为指标判断异常；

3)基于统计模型的异常检测，针对不同统计模型做出的针对性的异常检测，需要与相应统计模型协同完成异常检测任务。

在步骤S212执行之后，还可以执行模型预测步骤和参数调优步骤。模型预测步骤如下所示：

每种建模算法均会生成一个时序数据序列生成模型，因此，为了减少构建时序数据序列生成模型过程中对模型进行训练时占用的资源，需要对多个时序数据序列生成模型进行评估，从而选择最优的时序数据序列生成模型。基于此，根据确定出的建模策略构建时序数据序列生成模型具体包括：根据多个建模算法分别构建每个算法对应的初始时序数据序列生成模型；基于轮廓系数算法评估方法，将待分类业务行为数据进行了聚类，常用的比如使用k均值聚类算法，将待分类数据分为了k个簇，对于簇中的每个向量，分别计算它们的轮廓系数，轮廓系数越趋近于1代表内聚度和分离度都相对较优，将各个向量的轮廓系数求平均，就是该聚类结果总的轮廓系数；分别对每个初始时序数据序列生成模型进行评估，得到每个初始时序数据序列生成模型对应的评估结果；从而，对每个评估结果进行比较，并基于比较结果，确定出一最优的初始时序数据序列生成模型；进而，对该最优的初始时序数据序列生成模型进行训练，完成时序数据序列生成模型的构建。

参数调优步骤如下所示：

如果评估结果不符合预设的业务需求和标准评估指标，采用贝叶斯网络优化搜索对时序数据序列生成模型的参数进行调优,基于序列模型的优化，优化顺序是指一个接一个地运行试验，每次通过应用贝叶斯推理和更新概率模型(代理)来尝试更好的超参数,超参数是由机器学习工程师在训练之前设置的,例如k均值聚类中的簇数、深层神经网络隐藏层数等。

图3为本发明一实施例提供的一种访问轨迹确定装置的示意框图。

参照图3所示，该访问轨迹确定装置300包括：

数据解析模块302，用于解析获取的网络访问数据，得到会话数据；

序列生成模块304，用于根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列；

序列确定模块306，用于将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集；

轨迹确定模块308，用于统计第二时序数据序列集对应的访问参数，并根据访问参数确定第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。

在本发明的一些实施例中，基于上述方案，序列确定模块306，具体用于：

将第一时序数据序列对应的统一资源定位符确定为频繁项集的置信度，并将第一时序数据序列对应的来源地址确定为频繁项集的支持度；

在频繁项集的子集中，将置信度满足预设置信度阈值条件且支持度满足预设支持度阈值条件的目标子集构成的序列集确定为第二时序数据序列集。

在本发明的一些实施例中，基于上述方案，第一时序数据序列对应的频繁项集通过如下方式确定：

对第一时序数据序列进行清洗处理，得到清洗后的待处理时序数据序列；

根据待处理时序数据序列对应的时间点，连接待处理时序数据序列，得到复合时序数据序列；

根据复合时序数据序列，生成第一时序数据序列对应的频繁项集。

在本发明的一些实施例中，基于上述方案，序列生成模块304，具体用于：

按照时间点的先后顺序，对网页地址信息中的统一资源定位符进行排序，得到由来源地址和统一资源定位符构成的时序数据序列作为第一时序数据序列。

在本发明的一些实施例中，基于上述方案，访问参数包含与第二时序数据序列集对应的业务标识、操作人数和操作次数；轨迹确定模块308，具体用于：

统计第二时序数据序列集中的第二时序数据序列对应的业务标识，根据统计结果，确定目标业务标识以及与目标业务标识对应的至少一个标记时序数据序列；

根据标记时序数据序列对应的操作人数和操作次数，生成与标记时序数据序列对应的目标特征值；

基于目标特征值，在第二时序数据序列集中确定与目标业务标识对应的目标时序数据序列；

相应的，目标访问轨迹，采用如下方式确定：

分析目标时序数据序列，得到与目标时序数据序列对应的业务特征值；

统计得到由业务特征值相等的至少一个目标时序数据序列构成的轨迹数据序列集；

根据轨迹数据序列集确定目标访问轨迹。

在本发明的一些实施例中，基于上述方案，访问轨迹确定装置300基于时序数据序列生成模型实现，时序数据序列生成模型采用如下方式构建：

解析获取的样本网络访问数据，得到样本会话数据；

构建样本会话数据和第一样本时序数据序列之间的第一逻辑关系；

构建第一样本时序数据序列与第二样本时序数据序列集之间的第二逻辑关系；第二样本时序数据序列集由第一样本时序数据序列对应的频繁项集的目标子集构成；

构建第二样本时序数据序列集和第二样本时序数据序列集中的目标时序数据序列之间的第三逻辑关系；

根据第一逻辑关系、第二逻辑关系和第三逻辑关系，构建时序数据序列生成模型。

在本发明的一些实施例中，基于上述方案，访问参数包含与第二时序数据序列集对应的业务标识；轨迹确定模块308，还用于：

按照数据提取格式，从第二时序数据序列集中的第二时序数据序列中提取出预设数量个统一资源定位符；

将预设数量个统一资源定位符构成的标识时序数据序列作为与第二时序数据序列集对应的业务标识。

本发明一实施例提供的访问轨迹确定装置能够实现前述访问轨迹确定方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

进一步地，本申请实施例还提供了一种访问轨迹确定设备，图4为本发明一实施例提供的一种访问轨迹确定设备的结构示意图。如图4所示，该设备包括存储器401、处理器402、总线403和通信接口404。存储器401、处理器402和通信接口404通过总线403进行通信，通信接口404可以包括输入输出接口，输入输出接口包括但不限于键盘、鼠标、显示器、麦克风、扩音器等。

图4中，存储器401上存储有可在处理器402上运行的计算机程序，程序被处理器402执行时实现以下流程：

解析获取的网络访问数据，得到会话数据；

根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列；

将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集；

统计第二时序数据序列集对应的访问参数，并根据访问参数确定第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。

可选的，该计算机程序被处理器402执行时，将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集，包括：

可选的，该计算机程序被处理器402执行时，第一时序数据序列对应的频繁项集通过如下方式确定：

可选的，该计算机程序被处理器402执行时，根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列，包括：

可选的，该计算机程序被处理器402执行时，访问参数包含与第二时序数据序列集对应的业务标识、操作人数和操作次数；

根据访问参数确定第二时序数据序列集中的目标时序数据序列，包括：

相应的，目标访问轨迹，采用如下方式确定：

根据轨迹数据序列集确定目标访问轨迹。

可选的，该计算机程序被处理器402执行时，访问轨迹确定方法基于时序数据序列生成模型实现；时序数据序列生成模型采用如下方式构建：

解析获取的样本网络访问数据，得到样本会话数据；

可选的，该计算机程序被处理器402执行时，访问参数包含与第二时序数据序列集对应的业务标识；统计第二时序数据序列集对应的访问参数，包括：

本发明实施例，首先，解析获取的网络访问数据，得到会话数据；接着，根据从会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列；然后，将第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集；最后，统计第二时序数据序列集对应的访问参数，并根据访问参数确定第二时序数据序列集中的目标时序数据序列，以确定目标访问轨迹。通过本发明实施例的技术方案，能够通过获取的网络访问数据动态生成网络访问轨迹，进而能够利用该网络访问轨迹识别异常的网络访问行为，提高了识别的准确性。

本申请实施例提供的访问轨迹确定设备能够实现前述访问轨迹确定方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

进一步地，本发明实施例还提供一种存储介质，存储介质上存储有计算机程序，该计算机程序被处理器402执行时实现以下流程：

解析获取的网络访问数据，得到会话数据；

相应的，目标访问轨迹，采用如下方式确定：

根据轨迹数据序列集确定目标访问轨迹。

解析获取的样本网络访问数据，得到样本会话数据；

本发明一实施例提供的存储介质能够实现前述访问轨迹确定方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

其中，该存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明上述实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种访问轨迹确定方法，其特征在于，包括：

解析获取的网络访问数据，得到会话数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一时序数据序列对应的频繁项集的目标子集构成的序列集确定为第二时序数据序列集，包括：

将所述第一时序数据序列对应的统一资源定位符确定为所述频繁项集的置信度，并将所述第一时序数据序列对应的来源地址确定为所述频繁项集的支持度；

在所述频繁项集的子集中，将所述置信度满足预设置信度阈值条件且所述支持度满足预设支持度阈值条件的目标子集构成的序列集确定为所述第二时序数据序列集。

3.根据权利要求1所述的方法，其特征在于，所述第一时序数据序列对应的频繁项集通过如下方式确定：

对所述第一时序数据序列进行清洗处理，得到清洗后的待处理时序数据序列；

根据所述待处理时序数据序列对应的时间点，连接所述待处理时序数据序列，得到复合时序数据序列；

根据所述复合时序数据序列，生成所述第一时序数据序列对应的频繁项集。

4.根据权利要求1所述的方法，其特征在于，所述根据从所述会话数据中提取的网页地址信息和对应的时间点，生成第一时序数据序列，包括：

按照所述时间点的先后顺序，对所述网页地址信息中的统一资源定位符进行排序，得到由所述统一资源定位符的来源地址和所述统一资源定位符构成的时序数据序列作为所述第一时序数据序列。

5.根据权利要求1所述的方法，其特征在于，所述访问参数包含与所述第二时序数据序列集对应的业务标识、操作人数和操作次数；

所述根据所述访问参数确定所述第二时序数据序列集中的目标时序数据序列，包括：

统计所述第二时序数据序列集中的第二时序数据序列对应的业务标识，根据统计结果，确定目标业务标识以及与目标业务标识对应的至少一个标记时序数据序列；

根据所述标记时序数据序列对应的操作人数和操作次数，生成与所述标记时序数据序列对应的目标特征值；

基于所述目标特征值，在所述第二时序数据序列集中确定与所述目标业务标识对应的目标时序数据序列；

相应的，所述目标访问轨迹，采用如下方式确定：

分析所述目标时序数据序列，得到与所述目标时序数据序列对应的业务特征值；

统计得到由所述业务特征值相等的至少一个目标时序数据序列构成的轨迹数据序列集；

根据所述轨迹数据序列集确定目标访问轨迹。

6.根据权利要求1所述的方法，其特征在于，所述访问轨迹确定方法基于时序数据序列生成模型实现；所述时序数据序列生成模型采用如下方式构建：

解析获取的样本网络访问数据，得到样本会话数据；

构建所述样本会话数据和第一样本时序数据序列之间的第一逻辑关系；

构建所述第一样本时序数据序列与第二样本时序数据序列集之间的第二逻辑关系；所述第二样本时序数据序列集由所述第一样本时序数据序列对应的频繁项集的目标子集构成；

构建所述第二样本时序数据序列集和所述第二样本时序数据序列集中的目标时序数据序列之间的第三逻辑关系；

根据所述第一逻辑关系、第二逻辑关系和所述第三逻辑关系，构建所述时序数据序列生成模型。

7.根据权利要求1所述的方法，其特征在于，所述访问参数包含与所述第二时序数据序列集对应的业务标识；所述统计所述第二时序数据序列集对应的访问参数，包括：

按照数据提取格式，从所述第二时序数据序列集中的第二时序数据序列中提取出预设数量个统一资源定位符；

将所述预设数量个统一资源定位符构成的标识时序数据序列作为与所述第二时序数据序列集对应的业务标识。

8.一种访问轨迹确定装置，其特征在于，包括：

9.一种访问轨迹确定设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述计算机可执行指令在上述处理器上运行时，能够实现上述权利要求1-7任一项所述的访问轨迹确定方法。

10.一种存储介质，该存储介质中存储有计算机可执行指令，其特征在于，所述计算机可执行指令在被处理器执行时，能够实现上述权利要求1-7任一项所述的访问轨迹确定方法。