CN115225328A

CN115225328A - 页面访问数据的处理方法、装置、电子设备以及存储介质

Info

Publication number: CN115225328A
Application number: CN202210702574.8A
Authority: CN
Inventors: 张帅哲; 周怡萍
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-10-21
Anticipated expiration: 2042-06-21
Also published as: CN115225328B

Abstract

本申请涉及一种页面访问数据的处理方法、装置、电子设备以及存储介质。其中，所述方法包括：获取目标页面的第一访问用户的第一溯源数据和第二访问用户的第二溯源数据；确定所述第一溯源数据和所述第二溯源数据之间的文本相似度和语义相似度；根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户。本申请实施例提供的页面访问数据的处理方法，与现有技术相比，能够更加准确且更加全面地确定所述第一访问用户和所述第二访问用户是否为同一访问用户，从而可以为后续判断同源攻击提供更为准确的数据依据，在网络防御时能够更加快速且准确地确定访问用户的身份。

Description

页面访问数据的处理方法、装置、电子设备以及存储介质

技术领域

本申请涉及网络安全技术领域，尤其涉及一种页面访问数据的处理方法、装置、电子设备以及存储介质。

背景技术

目前，计算机网络技术飞速发展，在给人们的生活带来便利的同时也给我们带来不少安全隐患。例如，终端设备或者其他操作系统容易遭受恶意攻击，而攻击者被查处的难度却很大。

相关技术中，判断攻击者是否属于同一攻击组织或者攻击者的IP是否同源主要都是人工处理。具体的，在获得具体的黑客画像后，相关人员对不同的攻击者画像中的溯源信息进行判断，可以确定攻击者是否为同一个攻击者。但种方法会耗费较长时间，可能存在一定的滞后性，新数据和旧数据整合时会存在大量的工作量，效率较低且准确度不高。

因此相关技术中需要一种更准确效率更高的页面访问数据的处理方法。

发明内容

本申请实施例提供了页面访问数据的处理方法、装置、电子设备以及存储介质，以至少解决相关技术中在判断攻击者是否为同一攻击者时效率较低的技术问题。

第一方面，本申请实施例提供了一种页面访问数据的处理方法，所述方法包括：

获取目标页面的第一访问用户的第一溯源数据和第二访问用户的第二溯源数据；

确定所述第一溯源数据和所述第二溯源数据之间的文本相似度和语义相似度；

根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户。

本申请实施例提供的页面访问数据的处理方法，在获取到所述第一溯源数据和所述第二溯源数据之后，可以将两者之间的语义相似度和文本相似度结合起来，作为判断所述第一访问用户和所述第二访问用户是否为同一访问用户的依据。这样得到的判断结果与只根据其中一个相似度得到的判断结果的技术相比，更加准确且更加全面，从而可以为后续判断同源攻击提供更为准确的数据依据，在网络防御时能够更加快速且准确地确定访问用户的身份。

可选的，在本申请的一个实施例中，所述确定所述第一溯源数据和所述第二溯源数据之间的文本相似度，包括：

分别提取所述第一溯源数据和所述第二溯源数据中至少一个预设字段及其字段值；

将所述第一溯源数据中至少一个预设字段的字段值拼接得到第一字符串，将所述第二溯源数据中至少一个预设字段的字段值拼接得到第二字符串；

根据所述第一字符串和所述第二字符串的字符串相似度，确定所述第一溯源数据和所述第二溯源数据之间的文本相似度。

可选的，在本申请的一个实施例中，所述确定所述第一溯源数据和所述第二溯源数据之间的语义相似度，包括：

根据所述第一溯源数据和所述第二溯源数据中相同预设字段的字段值之间的相似度，确定所述第一溯源数据和所述第二溯源数据之间的语义相似度。

可选的，在本申请的一个实施例中，所述根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户，包括：

在所述文本相似度满足第一预设要求的情况下，根据所述语义相似度确定所述第一访问用户和所述第二访问用户是否为同一访问用户；

在所述语义相似度满足第二预设要求的情况下，确定所述第一访问用户和所述第二访问用户为同一访问用户。

在所述文本相似度和所述语义相似度同时满足预设要求的情况下，确定所述第一访问用户和所述第二访问用户为同一访问用户。

可选的，在本申请的一个实施例中，所述获取目标页面的第一访问用户的第一溯源数据和第二访问用户的第二溯源数据，包括：

分别接收第一访问用户和第二访问用户对目标页面的页面访问请求；其中，所述目标页面包括设置有溯源可执行文件的模拟页面，所述模拟页面与易攻击页面的相似度大于预设相似度阈值；

响应于所述页面访问请求，执行所述溯源可执行文件，并分别获取所述第一访问用户的第二溯源数据和所述第二访问用户的第二溯源数据。

可选的，在本申请的一个实施例中，所述确定所述第一访问用户和所述第二访问用户是否为同一访问用户，包括：

在确定所述第一访问用户和所述第二访问用户为同一访问用户的情况下，将所述第一溯源数据和所述第二溯源数据进行合并，生成所述同一访问用户的溯源数据。。

第二方面，本申请实施例还提供了一种页面访问数据的处理装置，所述装置包括：

获取溯源数据模块，用于获取目标页面的第一访问用户的第一溯源数据和第二访问用户的第二溯源数据；

相似度确定模块，用于确定所述第一溯源数据和所述第二溯源数据之间的文本相似度和语义相似度；

确定模块，用于根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户。

第三方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各个实施例所述的页面访问数据的处理方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述各个实施例所述的页面访问数据的处理方法的步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例提供的一种应用场景示意图；

图2是本申请实施例提供的页面访问数据的处理方法的方法流程图；

图3是本申请实施例提供的页面访问数据的处理装置300的模块结构示意图；

图4是本申请实施例提供的电子设备400的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

为了清楚地示出本申请各个实施例的技术方案，下面通过图1对本申请实施例的其中一个示例性场景进行说明。

图1是本申请一个实施例示出的页面访问数据的处理系统的应用场景示意图。如图1所示，客户端101可以通过通信网络与服务器103进行通信连接。其中，所述客户端101可以是具有显示屏并且支持页面浏览的各种电子设备，包括但不限于智能手机、计算机(包括笔记本电脑，台式电脑)、平板电子设备、个人数字助理(PDA)等。用户可以使用所述客户端101通过所述通信网络与所述服务器103交互，以接收或发送消息等。所述服务器103可以是提供各种服务的服务器。例如，所述服务器103可以是为访问用户访问客户端101中的页面提供支持的后台管理服务器。具体的，所述服务器103可以包括单台服务器，也可以包括服务器集群，例如分布式服务器集群等。所述服务器103可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给所述客户端101。

可以理解的是，本申请各个实施例提供的页面访问数据的处理方法可以由所述服务器103执行。相应地，页面访问数据的处理装置一般可以设置于所述服务器103中。例如，多个访问用户在访问所述客户端101的目标页面的过程中，生成的多个溯源数据可以存储在所述客户端101，并由所述客户端101发送至所述服务器103。所述服务器103在接收到所述多个溯源数据后，可以对所述多个溯源数据进行处理，确定所述多个访问用户是否为同一访问用户。当然，所述多个溯源数据还可以由服务器103接收并直接存储在服务器103中，由服务器103直接对所述多个溯源数据进行处理，确定所述多个访问用户是否为同一访问用户。

下面结合附图对本申请所述的页面访问数据的处理方法进行详细的说明。图2是本申请提供的页面访问数据的处理方法的一种实施例的流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的页面访问数据的处理过程中或者方法执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

具体的，本申请提供的页面访问数据的处理方法的一种实施例如图2所示，所述方法可以包括：

S201：获取目标页面的第一访问用户的第一溯源数据和第二访问用户的第二溯源数据。

本申请实施例中，所述目标页面可以是与易攻击页面相似度较高的模拟页面，从而可以起到迷惑攻击者的作用。其中，所述模拟页面可以是用户针对防御网站例如含有重要信息的网站构建的的诱导性虚拟网页。该诱导性虚拟网页可以引导访问用户进入，并可以获取访问用户的溯源数据。在本申请的另一个实施例中，所述目标页面也可以是普通页面。在所述目标页面为普通页面的情况下，可以根据访问该普通页面的访问用户的操作行为，确定所述访问用户是否为攻击用户。具体的，在用户在非登录习惯的登陆时间或者登陆地域登陆该普通页面且登陆失败的情况下，可以确定该用户为访问用户。例如，不属于企业A的用户a在短时间内多次尝试登陆该企业A的内部网站但多次登陆失败，就可以确定用户a为访问用户。需要说明的是，所述目标页面对正常用户并不提供服务，因此用户一旦访问就会被判定为攻击用户。在本申请的一个实施例中，访问用户在通过所述客户端101访问目标页面的过程中，会采集所述访问用户的信息，例如访问用户的操作系统、IP地址等等。这些访问用户的信息会形成访问用户的溯源数据。也就是说，所述溯源数据可以包括访问设备数据、访问用户数据和攻击行为数据等等。所述设备数据可以包括指纹数据、操作系统数据、时区数据、GPU数据、以及设备语言数据等等。其中，所述指纹数据可以是能够通过唯一标识确定所述访问设备的字符串。所述访问用户数据可以是与所述访问用户的个人行为数据，例如所述访问用户数据可以包括用户身份信息。所述身份信息可以包括访问用户在多个社交网站上的账号信息、社交身份信息等等。所述攻击行为数据可以包括攻击时间、攻击类型、攻击次数等等。在本申请的一个实施例中，可以从所述目标页面的服务器103中获取所述访问用户的溯源数据，也可以从所述客户端101中获取所述访问数据的溯源数据。

在实际的应用中，对网站实施攻击尤其是定向攻击的攻击用户，在试图攻击网站之前，往往会访问网站查看可能存在的漏洞，或在探测扫描到网站漏洞时，通常会登录网站进行验证。因此，基于网络欺骗的思想，在本申请的一个实施例中，可以构建一个与易攻击页面相似度较高的目标页面，诱使攻击者访问，并通过其上部署的溯源可执行文件获取攻击者的攻击数据。具体的，在本申请的一个实施例中，所述获取目标页面的第一访问用户的第一溯源数据和第二访问用户的第二溯源数据，可以包括：

S301：分别接收第一访问用户和第二访问用户对目标页面的页面访问请求；其中，所述目标页面包括设置有溯源可执行文件的模拟页面，所述模拟页面与易攻击页面的相似度大于预设相似度阈值；

S303：响应于所述页面访问请求，执行所述溯源可执行文件，并分别获取所述第一访问用户的第二溯源数据和所述第二访问用户的第二溯源数据。

本申请实施例中，所述易攻击页面可以包括存在漏洞或者脆弱点的页面例如存在弱口令的后台登录页面，也可以包括一些大型机构或者政府的门户网站的页面等。基于网络欺骗的思想，用户可以构建与易攻击页面的页面相似度大于预设相似度阈值的模拟页面。其中，所述预设相似度阈值可以为90％、95％等等。所述页面访问请求可以由访问用户发起，用于打开、访问、读取所述目标页面。所述溯源可执行文件可以是具有获取访问用户的相关信息功能的可执行命令集合。其中，所述可执行命令集合可以将不同的命令组合起来，并按确定的顺序自动连续地执行。具体的，在本申请的一个实施例中，所述溯源可执行文件可以包括能够采集访问用户信息的JavaScript脚本。所述JavaScript脚本可以是针对JSONP接口编写的脚本。具体地，在本申请的一个实施例中，所述第一访问用户可以通过所述客户端101访问所述目标页面，所述客户端101可以响应于第一访问用户对所述目标页面的页面访问请求，将目标网页展示给所述第一访问用户。在这个过程中，所述客户端101可以从所述服务器103中获得所述溯源可执行文件，并执行所述溯源可执行文件获取所述第一访问用户的第一溯源数据。可以理解的是，所述第二访问用户的第二溯源数据可以按照相同的溯源数据获取方式获取。

通过上述实施例，可以利用设置有溯源可执行文件的目标页面获取访问用户的溯源数据，这样可以准确且高效的获取各个访问用户的溯源数据，从而可以精准定位访问用户的各种个人信息，为后续的数据处理提供了大量的溯源数据。

S203：确定所述第一溯源数据和所述第二溯源数据之间的文本相似度和语义相似度

本申请实施例中，在获取所述第一溯源数据和所述第二溯源数据之后，可以确定所述第一溯源数据和所述第二溯源数据之间的相似度。所述相似度可以包括文本相似度和语义相似度。在本申请的一个实施例中，所述溯源数据可以包括预设字段以及预设字段对应的字段值。其中，所述预设字段可以是用户预先设置的字段，例如可以包括但不限于操作系统、显卡、邮箱账号等等。所述预设字段的字段值可以用于存储所述访问用户的某种属性数据。所述预设字段及其对应的字段值可以用{A：B}的dict类型表示，其中所述A为预设字段，所述B为所述预设字段对应的字段值。一般不同的溯源数据中所包含的预设字段的类型和数量一般不同。在本申请的一个实施例中，由于所述溯源数据可以是一段字符串，因此所述文本相似度可以是所述第一溯源数据和所述第二溯源数据的字符串相似度。所述字符串相似度是指字符串和字符串之间的相似程度。字符串相似度越高证明字符串之间的差异越小；反之，字符串相似度越低证明字符串之间的差异越大。在本申请的一些实施例中，所述文本相似度可以包括所述第一溯源数据所包含的预设字段和字段值组成的第一字符串与所述第二溯源数据所包含的预设字段和字段值组成的第二字符串之间的相似度。当然，在其他实施例中，为了提高运算效率并得到较准确的文本相似度，所述文本相似度可以包括所述第一溯源数据所包含的字段值组成的第一字符串与所述第二溯源数据所包含的字段值组成的第二字符串之间的相似度。

本申请实施例中，所述溯源数据中可以包括多个预设字段，所述第一溯源数据和所述第二溯源数据中有相同的预设字段，也有不同的预设字段。因此，为了得到更为准确的相似度，可以根据所述第一溯源数据和所述第二溯源数据中相同预设字段的字段值之间的相似度，确定所述第一溯源数据和所述第二溯源数据之间的语义相似度。在本申请的一个实施例中，所述语义相似度可以根据所述第一溯源数据中预设字段各自的字段值与所述第二溯源数据中对应的预设字段的字段值之间的相似度的统计值确定。所述统计值例如可以包括平均值、加权值、中位值等等。在本申请的另一个实施例中，可以将包含有多个预设字段及其字段值的溯源数据当做一个向量，在此基础上，所述语义相似度可以用于表示所述第一溯源数据对应的第一向量与所述第二溯源数据对应的第二向量之间的相似度。所述第一向量和所述第二向量之间的相似度可以根据向量相似度计算方法确定。

具体的，在本申请的一个实施例中，所述确定所述第一溯源数据和所述第二溯源数据之间的文本相似度，可以包括：

S401：分别提取所述第一溯源数据和所述第二溯源数据中至少一个预设字段及其字段值；

S403：将所述第一溯源数据中至少一个预设字段的字段值拼接得到第一字符串，将所述第二溯源数据中至少一个预设字段的字段值拼接得到第二字符串；

S405：根据所述第一字符串和所述第二字符串的字符串相似度，确定所述第一溯源数据和所述第二溯源数据之间的文本相似度。

本申请实施例中，可以分别提取所述第一溯源数据中至少一个预设字段以及预设字段对应的字段值。具体的，可以根据所述至少一根预设字段的具体名称，利用字符串提取工具提取到相对应的字段值。在确定所述第一溯源数据的至少一个字段值后，可以将所述至少一个字段值进行拼接，得到第一字符串。同样，也可以将所述第二溯源数据的至少一个字段值进行拼接得到第二字符串。例如，在一个示例中，所述第一访问用户的溯源数据为{IP：“192.168.23.40”，操作系统:“WIN10”，邮箱名称：“123”}，所述第二访问用户的溯源数据为{IP：“192.168.23.41”，操作系统:“WIN7”，邮箱名称：“123”}。则所述第一字符串可以为{192.168.23.40，WIN10，123}，所述第二字符串可以为{192.168.23.41，WIN7，123}。在本申请的一个实施例中，可以根据所述第一字符串和所述第二字符串的字符串相似度，确定所述第一溯源数据和所述第二溯源数据的文本相似度。具体的，在本申请的一个实施例中，可以利用字符串相似度计算方法确定所述第一字符串和所述第二字符串的字符串相似度。其中，所述字符串相似度计算方法可以包括编辑距离(Edit Distance)计算方法、皮尔逊相关系数计算方法、欧氏距离(Euclidean distance)计算方法、海明距离计算方法等等。在本申请的一个实施例中，可以以皮尔逊相关系数计算方法为例计算所述字符串相似度。所述皮尔逊相关系数计算方法可以用于确定所述第一字符串和所述第二字符串之间的线性关联程度。具体的，可以利用下述公式计算所述线性关联程度：

其中，所述

可以是所述第一字符串的平均值，所述

可以是所述第二字符串的平均值。由于所述皮尔逊相关系数计算方法所计算的数据格式为阿拉伯数字，因此需要将所述第一字符串和所述第二字符串转换成ASCII码格式的数据，并计算两者之间的相关系数r。例如，在一个示例中，可以将所述第一字符串转换成{192.168.23.40，11910511010011111911510，123}，将所述第二字符串转换成{192.168.23.41，11910511010011111911511，123}，然后可以根据上述公式计算所述第一字符串和所述第二字符串的相关系数r。在本申请的一个实施例中，可以根据所述相关系数的大小确定所述第一字符串和所述第二字符串的相似度。例如，若所述相关系数r在0.8-1.0的范围内，则所述第一字符串和所述第二字符串相似程度极高；若所述相关系数r在0.0-0.2的范围内，则所述第一字符串和所述第二字符串相似程度极低。

需要说明的是，为了得到更为准确的文本相似度，在本申请的一个实施例中，可以按照所述第一溯源数据和所述第二溯源数据中相同预设字段的顺序，将所述第一字段值拼接得到第一字符串，将所述第二字段值拼接得到第二字符串。这样计算得到的所述第一字符串和所述第二字符串之间的字符串相似度更加准确。

通过上述实施，根据所述第一溯源数据的第一字符串和所述第二溯源数据的第二字符串之间的相似度，可以确定所述第一溯源数据和所述第二溯源数据的文本相似度。计算得到的所述文本相似度，可以整体地描述所述第一溯源数据和所述第二溯源数据之间的相似度，为后续的相似度的计算提供辅助条件和参考依据。

具体的，在本申请的一个实施例中，所述确定所述第一溯源数据和所述第二溯源数据之间的语义相似度，可以包括：

S501：分别提取所述第一溯源数据和所述第二溯源数据中至少一个预设字段及其字段值；

S503：根据所述第一溯源数据和所述第二溯源数据中相同预设字段的字段值之间的相似度，确定所述第一溯源数据和所述第二溯源数据之间的语义相似度。

本申请实施例中，在计算所述语义相似度的过程中，与上述确定所述文本相似度的步骤S401相同，需要分别提取所述第一溯源数据和所述第二溯源中至少一个预设字段及其字段值。之后，可以提取所述第一溯源数据和所述第二溯源数据中相同的预设字段。在确定相同的预设字段后，可以分别提取所述第一溯源数据中相同的预设字段对应的第一字段值以及所述第二溯源数据中相同的预设字段对应的第二字段值。在本申请的一个实施例中，所述语义相似度可以根据所述第一字段值和所述第二字段值之间的相似度确定。具体的，可以通过余弦相似度、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离等方法计算所述第一字段值和所述第二字段值之间的相似度。在本申请的一个实施例中，可以利用所述余弦相似度的方法计算所述第一溯源数据和所述第二溯源数据之间的相似度。具体的，可以分别将所述第一字段值和所述第二字段值进行向量化，通过计算所述第一字段值对应的第一向量和所述第二字段值对应的第二向量夹角的余弦值，确定所述语义相似度。其中，所述第一向量可以是由所述第一溯源数据中的多个字段值组成的向量，所述第二向量可以是由所述第二溯源数据中的多个字段值组成的向量。具体的，可以利用下述公式确定所述语义相似度：

其中，所述a向量可以是所述第一溯源数据中的n个字段值组成的n维向量，所述b向量可以是所述第二溯源数据中的n个字段值组成的n维向量，所述xi和yi代表了在同一预设字段下的字段值。所述cos(a)为余弦值，所述余弦值越接近1就表明夹角越接近0度，也就是两个向量越相似。

通过上述实施例，可以根据所述第一溯源数据和所述第二溯源数据中相同预设字段的字段值之间的相似度，确定所述语义相似度。计算得到的所述语义相似度可以准确地描述所述第一溯源数据和所述第二溯源数据之间的相似度，为后续的数据分析提供一个较为准确的参考依据。

S205：根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户。

本申请实施例中，在确定所述第一溯源数据和所述第二溯源数据的文本相似度和语义相似度后，可以根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户。具体的，在本申请的一个实施例中，在所述文本相似度大于预设文本相似度阈值且所述语义相似度大于预设语义相似度阈值的情况下，可以确定所述第一访问用户和所述第二访问用户为同一访问用户。其中，所述预设文本相似度阈值可以根据实际的应用情况由用户进行确定，例如可以是0.9、0.8等等。当然，所述预设文本相似度阈值也可以根据所述文本相似度的计算方法确定，例如，在利用皮尔逊相关系数计算方法计算所述文本相似度的情况下，所述预设文本相似度阈值可以是0.6。其中，所述预设语义相似度阈值可以根据实际的应用情况由用户进行确定，例如可以是0.75、0.8等等。需要说明的是，所述预设语义相似度阈值与所述预设文本相似度阈值可以相同，也可以不同。相对应的，在一个示例中，在所述文本相似度大于0.6且所述语义相似度大于0.75的情况下，可以确定所述第一访问用户和所述第二访问用户为同一访问用户。在本申请的另一个实施例中，在所述文本相似度和所述语义相似度的加权值大于预设加权值预设阈值的情况下，可以确定所述第一访问用户和所述第二访问用户为同一访问用户。所述文本相似度和所述语义相似度的权重值可以根据实际的应用情况确定。优选的，由于所述语义相似度的准确性大于所述文本相似度的准确性，因此可以设置所述语义相似度的权重值大于所述文本相似度的权重值。在本申请的其他实施例中，在所述文本相似度和所述语义相似度的乘积值大于预设乘积值阈值的情况下，也可以确定所述第一访问用户和所述第二访问用户为同一访问用户，本申请在此不做限制。

在本申请的一个实施例中，可以首先确定所述第一溯源和所述第二溯源数据之间较为粗略的文本相似度，在文本相似度满足预设要求的情况下再进行后续的计算语义相似度的工作，这样可以节省不必要的判断步骤，提高了效率。具体的，所述根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户，包括：

S601：在所述文本相似度满足第一预设要求的情况下，根据所述语义相似度确定所述第一访问用户和所述第二访问用户是否为同一访问用户；

S603：在所述语义相似度满足第二预设要求的情况下，确定所述第一访问用户和所述第二访问用户为同一访问用户。

本申请实施例中，为了提高判断所述第一访问用户和所述第二访问用户是否为同一访用户的准确性，可以先判断所述文本相似度是否满足第一预设要求。具体的，在本申请的一个实施例中，所述文本相似度满足第一预设要求可以包括所述文本相似度大于或者等于所述预设文本相似度阈值。为了进一步判断所述第一溯源数据和所述第二溯源数据之间相似度的准确性，在本申请的一个实施例中，在确定所述文本相似度满足第一预设要求的情况下，可以根据所述语义相似度是否满足第二预设要求，确定所述第一访问用户和所述第二访问用户是否为同一访问用户。具体的，所述语义相似度满足预设要求可以包括所述语义相似度大于或者等于所述预设语义相似度阈值。可以理解的是，在确定所述文本相似度不满足第一预设要求的情况下，可以直接确定所述第一访问用户和所述第二访问用户不是同一访问用户，不需要进行后续的确定语义相似度是否满足要求的步骤。

通过上述实施例，可以先判断所述文本相似度是否满足所述第一预设要求，再判断所述语义相似度是否满足第二预设要求，从而提供了一个从粗略判断到精细判断的判断过程，提高了判断的结果的准确性。在粗略判断不满足要求的情况下，可以节省后续的判断步骤，提供了判断效率。

当然，在本申请其他实施例中，也可以同时确定所述第一溯源数据和所述第二溯源数据的文本相似度和语义相似度，在所述文本相似度和所述语义相似度同时满足要求的情况下，确定所述第一访问用户和所述第二访问用户为同一访问用户。具体的，根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户，包括：

S701：在所述文本相似度和所述语义相似度同时满足预设要求的情况下，确定所述第一访问用户和所述第二访问用户为同一访问用户。

本申请实施例中，可以在所述文本相似度和所述语义相似度同时满足预设要求的情况下，确定所述第一访问用户和所述第二访问用户是同一访问用户。具体的，在本申请的一个实施例中，可以同时计算所述第一溯源数据和所述第二溯源数据之间的文本相似度和所述语义相似度。之后，可以判断所述文本相似度和所述语义相似度是否同时满足预设要求。在本申请的一个实施例中，所述文本相似度和所述语义相似度是否同时满足预设要求可以包括所述文本相似度大于所述预设文本相似度阈值且所述语义相似度大于所述预设语义相似度阈值。在所述文本相似度和所述语义相似度同时满足预设要求的情况下，确定所述第一访问用户和所述第二访问用户为同一访问用户。当然，在所述文本相似度和所述文本相似度中有一个不满足预设要求的情况下，或者在所述文本相似度和所述语义相似度都不满足预设要求的情况下，可以确定所述第一访问用户和所述第二访问用户不是同一访问用户。

通过上述实施例，可以同时确定所述文本相似度和所述语义相似度，从而可以判断所述文本相似度和所述语义相似度是否同时满足预设要求，这样得到的判断结果更加准确，避免了单种检测方法出现漏检的问题，为后续的溯源分析提供了较为准确的访问用户的画像。

由于网络防御的目的在于确认访问用户的身份或位置，为网络犯罪取证提供依据，进而在攻击者再次浏览网页时，可以对其进行拦截，避免网站被攻击的情况发生。因此，在本申请的一个实施例中，可以将多个访问用户的溯源数据进行合并，形成同一个访问用户的溯源数据，从而可以更加快速且准确的确定攻击者的身份。基于此，在本申请的一个实施例，所述确定所述第一访问用户和所述第二访问用户是否为同一访问用户，可以包括：

S801：在确定所述第一访问用户和所述第二访问用户为同一访问用户的情况下，将所述第一溯源数据和所述第二溯源数据进行合并，生成所述同一访问用户的溯源数据。

本申请实施例中，在按照上述各个实施例所述的方法确定所述第一访问用户和所述第二访问用户为同一访问用户的情况下，可以将所述第一溯源数据和所述第二溯源数据进行合并，形成同一访问用户的溯源数据。具体的，在本申请的一个实施例中，可以将所述第一溯源数据和所述第二溯源数据中相同预设字段中的字段值进行合并。例如，可以将所述第一溯源数据和所述第二溯源数据进行聚合分类，也可以对所述第一溯源数据和所述第二溯源数据求取并集，本申请在此对合并的方式不做限制。在合并所述第一溯源数据和所述第二溯源数据后，可以将合并后的数据进行存储，并分配标识，以便为后续的数据分析提供较为准确的数据样本。

通过上述实施例，可以将确定是同一访问用户的溯源数据合并，这样可以生成访问用户的画像，从而在网络防御时可以更加快速且准确的确定攻击者的身份。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请另一方面还提供了一种页面访问数据的处理装置300，如图3所示，所述页面访问数据的处理装置300包括：

获取溯源数据模块301，用于获取目标页面的第一访问用户的第一溯源数据和第二访问用户的第二溯源数据；

相似度确定模块303，用于确定所述第一溯源数据和所述第二溯源数据之间的文本相似度和语义相似度；

确定模块305，用于根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户。

在确定所述第一访问用户和所述第二访问用户为同一访问用户的情况下，将所述第一溯源数据和所述第二溯源数据进行合并，生成所述同一访问用户的溯源数据。

根据本申请实施例的页面访问数据的处理装置300可对应于执行本申请实施例中描述的方法，并且页面访问数据的处理装置300中的各个模块的上述和其它操作和/或功能分别为了实现上述各个实施例提供的方法的相应流程，为了简洁，在此不再赘述。

另外需说明的是，以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

如图4所示，本申请的实施例还提供了一种电子设备400，该电子设备400包括：处理器以及用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述页面访问数据的处理方法。电子设备400包括存储器401、处理器403、总线405、通信接口407。存储器401、处理器403和通信接口407之间通过总线405通信。总线405可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口407用于与外部通信。其中，处理器403可以为中央处理器(centralprocessing unit，CPU)。存储器401可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器401还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，HDD或SSD。存储器401中存储有可执行代码，处理器403执行该可执行代码以执行上述页面访问数据的处理方法。

本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述页面访问数据的处理方法。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是，但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory，EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory，SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Video Disc，DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

这里所描述的计算机程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机程序指令，并转发该计算机程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Small talk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(WideArea Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(Field-ProgrammableGate Array，FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA)，该电子电路可以执行计算机程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。

这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种页面访问数据的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一溯源数据和所述第二溯源数据之间的文本相似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述第一溯源数据和所述第二溯源数据之间的语义相似度，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述文本相似度和所述语义相似度，确定所述第一访问用户和所述第二访问用户是否为同一访问用户，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取目标页面的第一访问用户的第一溯源数据和第二访问用户的第二溯源数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定所述第一访问用户和所述第二访问用户是否为同一访问用户，包括：

8.一种页面访问数据的处理装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的页面访问数据的处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任一项所述的页面访问数据的处理方法的步骤。