CN114707087A

CN114707087A - 属性识别方法、装置及电子设备

Info

Publication number: CN114707087A
Application number: CN202210345445.8A
Authority: CN
Inventors: 夏威; 赵飞
Original assignee: Lazas Network Technology Shanghai Co Ltd
Current assignee: Lazas Network Technology Shanghai Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-05
Anticipated expiration: 2042-03-31
Also published as: CN114707087B

Abstract

本申请实施例涉及互联网技术领域，公开了一种属性识别方法、装置及电子设备，所述方法包括：获取目标对象的统一资源定位系统URL序列数据；将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，根据所述特征信息对所述URL序列数据进行属性识别；所述特征信息包括时空特征信息；所述时空特征信息包括：URL访问时间间隔信息、请求访问的兴趣点POI位置信息以及所述目标对象的位置信息中的至少一种。本申请实施例提供了一种识别爬虫的方式。

Description

属性识别方法、装置及电子设备

技术领域

本申请涉及互联网技术领域，具体而言，本申请涉及一种属性识别方法、装置及电子设备。

背景技术

随着互联网技术的迅速发展，网络成为大量信息的载体。为了有效地提取并利用网络信息，定向抓取相关网页资源的爬虫应运而生。通常情况下，爬虫是一个自动提取网页的程序，其根据既定的抓取目标，有选择的访问网页与相关的链接，获取所需要的信息。

然而，随着爬虫技术的发展，其对互联网行业带来了一定的负面影响。例如，爬虫不断爬取数据，将数据泄露给不良产业等。因此，需要及时识别爬虫，以避免给用户、企业造成损失。

发明内容

本申请实施例提供了一种属性识别方法，以提供一种识别爬虫的方式。

相应的，本申请实施例还提供了一种属性识别装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种属性识别方法，所述方法包括：

获取目标对象的统一资源定位系统URL序列数据；

将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，根据所述特征信息对所述URL序列数据进行属性识别；

所述特征信息包括时空特征信息；所述时空特征信息包括：URL访问时间间隔信息、请求访问的兴趣点POI位置信息以及所述目标对象的位置信息中的至少一种。

本申请实施例还公开了一种属性识别装置，所述装置包括：

获取模块，用于获取目标对象的统一资源定位系统URL序列数据；

识别模块，用于将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，根据所述特征信息对所述URL序列数据进行属性识别；

本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本申请第一方面所示的属性识别方法。

本申请实施例还公开了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如本申请实施例中一个或多个所述的方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例中，获取目标对象的统一资源定位系统URL序列数据；将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，所述特征信息包括时空特征信息，结合时空特征信息对目标对象进行属性识别，提升识别准确率。

本申请实施例附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的属性识别方法的流程图；

图2为本申请实施例提供的第一示例的示意图；

图3为本申请实施例提供的第二示例的示意图；

图4为本申请实施例提供的第三示例的示意图之一；

图5为本申请实施例提供的第三示例的示意图之二；

图6为本申请实施例提供的第四示例的示意图之一；

图7为本申请实施例提供的第四示例的示意图之二；

图8为本申请实施例提供的第四示例的示意图之三；

图9为本申请实施例提供的第五示例的示意图；

图10为本申请实施例提供的属性识别装置的结构示意图；

图11为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请实施例所提供的方案可以由任一电子设备执行，如可以是终端设备，也可以是服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。对于现有技术中所存在的技术问题，本申请提供的属性识别方法、装置及电子设备，旨在解决现有技术的技术问题中的至少一项。

下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

参见图1，本申请实施例提供了一种属性识别方法，可选地，所述方法可以应用于服务器，所述服务器可以是应用程序(Application，APP)或网站的服务器；为了便于描述，后续以服务器作为本申请实施例的执行主体，可以理解的是，本申请实施例的执行主体并不限于此。

如图1中所示，该方法可以包括以下步骤：

步骤101，获取目标对象的统一资源定位系统URL序列数据。

其中，目标对象可以是用户，例如APP客户端用户或网站用户；以APP为基于地理位置提供的商业服务(Local-Business Service，LBS)为例，网络爬虫通常通过编写软件或脚本浏览网站或APP，大量抓取网站数据、APP数据甚至用户数据，一方面占用服务器带宽，导致正常用户的流量被挤占，服务器带宽成本提高；另一方面，企业或用户信息被爬取，导致信息资源被泄露、滥用。

本申请实施例中，服务器获取目标对象的统一资源定位系统(Uniform ResourceLocator，URL)序列数据；URL序列数据中包括访问地址、访问时间等参数信息，服务器获取目标对象的URL序列数据，以分析URL序列数据的特征信息，识别访问异常的目标对象。可选地，服务器可以按照预设周期获取URL序列数据。

步骤102，将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，根据所述特征信息对所述URL序列数据进行属性识别。

其中，所述识别器为预先训练得到的，例如采用机器学习的方式或卷积神经网络的方式训练识别器(或识别器所执行的识别算法)，使其具有满足预设精确度要求的识别能力。

目标属性例如访问异常属性、操作异常属性、爬虫属性(或者是爬虫的可能性)；以爬虫属性为例，申请人发现，对于日活跃用户数量(Daily Active User，DAU)较高的APP或网站，在大量(数量可能在千万级)真实用户中找到占比相对较小的爬虫账号是一个标签不平衡问题，各类处理方式(例如强制下线、滑动验证码、语音验证码，短信上行验证码)具有其局限性。比如，较简单的滑动验证码容易被技术手段破解，较强的验证如语音验证码对用户打扰较高。因此，通过预训练的识别器识别用户的目标属性，可以有效减少对正常用户的干扰。

具体地，所述识别器提取所述URL序列数据的特征信息，所述特征信息包括时空特征信息；所述时空特征信息包括：URL访问时间间隔信息、请求访问的兴趣点POI位置信息以及所述目标对象的位置信息中的至少一种；其中，URL访问时间间隔信息即URL序列数据中所记载的URL序列的访问时间间隔信息，访问时间间隔信息即与相邻URL序列的访问时间之间的时间间隔；请求访问的兴趣点(Point of Interest，POI)即所述URL序列的目标POI，目标对象的位置信息即目标对象触发访问所述目标POI时的位置信息；可以理解的是，所述目标对象的位置信息为经过所述目标对象在使用所述APP或网站时主动上报的位置信息，或经过目标对象授权后服务器获取的位置信息，或目标对象在使用服务器相关服务时需要向服务器传达的位置信息。

比如，对于基于LBS服务的APP或网站，其爬虫通常具有一定的LBS属性，一个地理位置通常只能浏览其方圆几公里的商户信息。因此，如果一个爬虫系统要爬完所有商户信息，需在有限的时间内分配不同的地理位置点位，其URL序列通常会在短时间内浏览较多的POI位置；因此，通过时空特征信息可反映目标对象的目标属性。

仍以爬虫属性为例，服务器通过识别器提取所述URL序列数据中的URL序列的特征信息，根据所述特征信息对所述URL序列数据进行属性识别，根据识别结果判断该目标对象为爬虫的可能性，例如，通过标签X表示爬虫属性，标签X的取值范围为【0，1】，0表示该目标对象为爬虫的可能性为0，1表示为爬虫的可能性为1。

本申请实施例中，获取目标对象的统一资源定位系统URL序列数据；将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，所述特征信息包括时空特征信息，结合时空特征信息对目标对象进行属性识别，提升识别准确率。本申请实施例提供了一种识别爬虫的方式。

本申请实施例中，所述获取目标对象的统一资源定位系统URL序列数据之前，所述方法包括：

获取样本对象的样本URL序列数据；

根据所述样本URL序列数据，训练得到所述识别器。

其中，可以采集预设数目个样本对象，获取样本对象的样本URL序列数据；作为示例，样本URL序列数据如以下所示：

2020-12-08 00:08:13，*/*/**********；

2020-12-08 00:08:24，*/*/**********；

2020-12-08 00:08:43，*/*/**********；

2020-12-08 00:09:01，*/*/**********；

2020-12-08 00:09:13，*/*/**********；

其中，*表示URL序列数据中的任一字符；上述样本URL序列数据中，每一行作为一个URL序列。

提取所述样本URL序列数据中的特征，通过组合低层特征形成更加抽象的高层特征，使所训练的模型可以完成复杂的分类等学习任务，得到所述识别器。

可选地，本申请实施例中，所述根据所述样本URL序列数据，训练得到所述识别器，包括下述第一步至第五步：

第一步，对于所述样本URL序列数据中的第一URL序列数据，通过第一识别器提取所述第一URL序列数据的行为特征信息、提取所述第一URL序列数据的时空特征信息以及提取所述第一URL序列数据的上下文特征信息。

其中，第一URL序列数据为样本URL序列数据中的任一URL序列；为了便于说明，以第一URL序列数据为例，介绍本申请实施例中对样本URL序列数据的处理过程。

作为第一示例，参见图2中步骤S11、S12、S13，首先拆解第一URL序列数据，提取其中的行为序列(Action Token Sequence)特征信息、时空序列信息(Temporal-spatialAttribute)以及上下文信息(Context Attribute)。

具体地，行为序列信息可以包括用户(样本对象)访问的子系统信息，例如，筛选样本URL序列数据中2000个最常见的序列作为Action token，然后提取第一URL序列数据中包括的Action token；作为示例，以线上购物APP为例，Action token例如MP、PP、CART等，MP表示用户访问商铺主页(main page)，PP表示用户访问促销页(promotion page)，CART表示用户将商品加入购物车。

时空特征信息包括：URL访问时间间隔信息、请求访问的兴趣点POI位置信息以及所述目标对象的位置信息中的至少一种；时空特征信息提取自时空序列信息，时空序列信息中包括用户的访问参数，访问参数例如访问时间间隔、POI位置、用户位置等；以即时配送的线上购物APP为例，访问时间例如用户的访问线上商铺的访问时间，POI位置例如所述线上商铺的位置信息，用户位置例如用户在所述访问时间的位置信息。

上下文信息即所述第一URL序列数据的之前和/或之后的URL序列数据，例如统计预设数目个个上下文信息，得到统计特征，以确定第一URL序列数据的属性。例如，通过上下文信息，确定第一URL序列数据的POI请求过于频繁，则其可能为访问异常用户。

其中，第一识别器即所训练的初始识别器；可选地，参见图2，所述初始识别器可以包括：用于提取行为特征信息的行为序列模块ATS(图2中S11、S21至S31)、提取时空特征信息的时空模块TSA(图2中S12、S22至S32)以及上下文特征信息上下文模块CA(图2中S13、S23至S33。

作为示例，行为序列模块可以包括BERT(Bidirectional EncoderRepresentations from Transformers，基于转换器的双向编码表征)的网络结构。由于URL的token和自然语言的词语之间有着天然的相似性，可将行为序列模块设置BERT(或与BERT类似)网络结构。

与行为序列模块不同，时空模块处理的是时间序列(time series)；可采用Inception network作为时空模块。Inception network以大量的卷积为基础，大量的卷积可以有效的处理时间间隔、经纬度距离，甚至能表示位移速度等信息。多个Inceptionnetwork的集成有助于提升识别器性能。例如，采用3个Inception network，每个随机初始化，在网络的终端将输出拼接(concat)在一起。可选地，时空模块可以执行以下公式1中的算法：

公式1：

其中，TSA_i表示第i个用户的时空序列信息，即输入数据；

Emb表示embedding运算，即提取特征向量运算，

表示时空特征信息；

表示时空序列信息的特征向量；concat表示字符串拼接运算；

表示第1个Inception network计算的特征向量，

表示第2个Inception network计算的特征向量；

表示第3个Inception network计算的特征向量。

上下文模块可以将URL序列数据中的参数统计出统计特征，计算统计特征的特征向量。

可选地，所训练的初始识别器(第一识别器)可以采用自适应聚合网络(AdaptiveAggregation Network for Efficient Stereo Matching，AANet)模型，其接收样本URL序列数据作为输入，同时学习URL序列信息，时空特性和上下文信息。

第二步，确定所述行为特征信息的第一特征向量、所述时空特征信息的第二特征向量、所述上下文特征信息的第三特征向量。

参见图2中步骤S21、S22、S23，通过预设的特征向量计算方法，分别计算三个特征信息的特征向量；例如

表示第一特征向量，ATS_i表示第i个用户的行为特征信息；

表示第二特征向量；

表示第三特征向量，CA_i表示第i个用户的上下文特征信息。

第三步，确定第四特征向量，根据所述第四特征向量确定所述第一URL序列数据的第一识别结果；所述第四特征向量为所述第一特征向量、第二特征向量以及第三特征向量拼接后的字符串的特征向量。

首先对第一特征向量、第二特征向量以及第三特征向量进行字符串拼接，得到拼接后的字符串concat1，如以下公式2所示：

公式2：

然后计算第四特征向量logit_i，如以下公式3所示：

公式3：

其中，第一识别结果为所述第一URL序列数据的目标属性的识别结果，根据第四特征向量确定所述第一URL序列数据的第一识别结果y_i，y_i可以是表示用户是否具有目标属性的标签，例如当目标属性为爬虫时，y_i＝0表示该目标对象为爬虫的可能性为0，y_i＝1表示为爬虫的可能性为1；y_i的计算方式可以如以下公式4所示：

公式4：

其中，λ为预设阈值；当第四特征向量logit_i小于λ，y_i＝0表示该目标对象为具有该目标属性的可能性为0；其他情况下，即第四特征向量大于或等于λ，y_i＝1表示该目标对象为具有该目标属性的可能性为1。

第四步，确定所述第一识别结果的损失函数值，根据所述损失函数值调整所述第一识别器，得到第二识别器。

其中，样本对象具有预先已知的标签值(后续简称为真实标签值)，真实标签值即样本对象的目标属性的真实值；通过真实值与第一识别结果之间的差异计算损失函数值，根据所述损失函数值反向优化所述第一识别器，得到第二识别器。

作为示例，损失函数可以如以下公式5所示：

公式5：

其中，Loss表示损失函数值，x_i＝(ATS_i，TSA_i，CA_i)，D表示样本URL序列数据集；c∈{0,1}表示标签的取值范围，p_c(x_i)表示x_i属于c的概率。

第五步，通过第二识别器对所述样本URL序列数据中的第二URL序列数据进行识别，至得到满足预设损失函数值要求的所述识别器。

后续继续用样本URL序列数据中的第二URL序列数据训练第二识别器，计算损失函数值，根据损失函数值继续优化第二识别器，……，循环执行，至得到满足预设损失函数值要求的所述识别器。

可选地，本申请实施例中，前述第一步中，所述提取所述第一URL序列数据的行为特征信息，包括：

提取所述第一URL序列数据中在第一目标标识符之前的行为序列数据；

提取所述行为序列数据中的行为特征信息。

具体地，第一目标标识符用于指示用户的访问行为，例如可以为“？”，在URL序列中，第一目标标识符之前(例如与第一目标标识符相邻)的字符表示用户的访问行为，以线上购物APP为例，访问行为例如MP、PP、CART等，MP表示用户访问商铺主页(main page)，PP表示用户访问促销页(promotion page)，CART表示用户将商品加入购物车。

通常情况下，URL序列中，一些标识符指示特定的含义；例如，“CLS”表示URL序列的起始符；“SEP”表示日期的分割符，代表一天的开始或结束：“PAD”用于对齐不同序列长度至一致的长度。

可选地，本申请实施例中，前述第一步中，所述提取所述第一URL序列数据的时空特征信息，包括：

提取所述第一URL序列数据中在第二目标标识符之后的时空特征信息；其中，所述时空特征信息包括所述URL访问时间间隔信息、所述请求访问的POI位置信息以及所述样本对象的位置信息。

具体地，第二目标标识符用于指示用户的访问行为，例如也可以为“？”。其中，所述样本对象的时空特征信息与目标对象的时空特征信息所含的参数类型相同，均包括所述URL访问时间间隔信息、所述请求访问的POI位置信息以及所述样本对象的位置信息；可选地，可用time_gap表示两个URL序列之间的时间间隔；POI位置信息、样本对象的位置信息可通过经纬度来表示，则POI位置信息的经度和纬度分别用log_poi、lat_poi表示，样本对象的位置信息的经度和纬度分别用lon_user和lat_user表示。通常情况下，用户请求的POI经纬度和用户所在经纬度是一致(或者距离较小)的，若两者有较大距离代表着用户的异常信号；另外，持续变换的请求POI和用户所在位置变化间隔较小都可能为异常行为。

可选地，本申请实施例中，所述提取所述第一URL序列数据的上下文特征信息，包括：

确定所述第一URL序列数据的每个访问参数的上下文特征信息；所述上下文特征信息包括以下至少一种：出现次数、出现的去重数量以及信息熵；

其中，URL序列的访问参数例如geohash、shop_id、business channel等。可选地，URL序列中可能有多个上下文特征信息，例如类似字符串的信息。上下文特征信息中，出现次数、出现的去重数量以及信息熵与目标属性具有一定的关联性；仍以爬虫属性为例，例如上下文特征信息包括POI_name的情况下，爬虫会访问非常多的POI_name，以尽可能多的爬取商户数据，因此出现次数较多，且相同的POI_name会进行去重处理，去重处理的去重数量也较多；信息熵指示该上下文特征信息中的信息量，例如RND(random，用于线上系统的AB测试分桶)的信息熵，可能存在爬虫忘记替换该参数，导致该指标信息熵为0。

作为示例，若URL序列中包括几千个参数，每个使用出现次数(count)、出现的去重数量(distinct count)、信息熵(entropy)，形成为几千维的特征向量，计算特征向量的过程如以下公式6至公式8所示：

公式6：V₀＝Flatten(X_i ^ca)

公式7：V₁ ^ca＝ρ(W₁ ^caV₀+b₁ ^ca)

公式8：Emb_i ^ca＝ρ(W₂ ^caV₁ ^ca+b₂ ^ca)

其中，Flatten表示向量扁平化函数；ρ为预设激活函数。W_k ^ca表示第k层的权重矩阵，b_k ^ca表示第k层的偏移率bias；V₀表示任一层的特征向量，V₁ ^ca表示第一层的特征向量，Emb_i ^ca表示第二层的特征向量。

可选地，本申请实施例中，所述根据所述样本URL序列数据，训练得到所述识别器，包括：

步骤一，根据所述样本URL序列数据，通过掩码语言模型训练第三识别器；

步骤二，获取所述第三识别器的掩码样本中的第一样本数据，获取所述第一样本数据中的辅助参数，对所述第三识别器进行训练，得到第四识别器；

步骤三，提取所述第一样本数据中的第二样本数据，对所述第四识别器进行训练，得到所述识别器。

其中，第三识别器即初始识别器；在训练初始识别器过程中，可基于掩码语言模型(Masked Language Model，MLM)训练，然后利用一个辅助任务进一步训练整个序列的Embedding(特征向量)。最后，在少量标记样本(标记样本即已知目标属性的样本)上训练所述识别器。

具体地，作为第二示例，参见图3，步骤一中采用自监督预训练的方式，样本数量为N1，N1为千万级数量，例如样本URL序列数据中包括9千万个样本；根据所述样本URL序列数据，训练第三识别器；例如随机掩掉15％的序列作为掩码样本(MASK)，通过第三识别器预测第一样本数据的目标属性。掩码样本中，进一步从中选择80％被掩掉的token用特殊字符[MASK]替代，10％用随机字符替代，10％仍保留原字符。

步骤二中，辅助任务训练，使用辅助任务去帮助任务进行训练。例如爬虫识别场景中，用户在被识别为爬虫之后的n天内是否有下单行为与爬虫属性标签高度相关。因此，通过对所述第三识别器进行训练作为辅助任务，辅助任务为预先设定的，例如样本数量为N2(N2＜N1)，N2为千万级数量，例如包括1千万个样本，辅助任务为通过第三识别器预测第一样本数据中的用户，在后n天是否有下单行为，并通过标记样本的已知结果对第三识别器进行优化，剔除不具有爬虫属性的样本，利用几千万个样本，训练第三识别器得到第四识别器。

步骤三中，训练主任务去预测一个用户的目标属性。在主任务的预测中，提取所述第一样本数据中的第二样本数据，一步减少训练样本，剔除不具有爬虫属性的样本，利用几万个样本(样本数量为N3，N3为万级数量)，对所述第四识别器进行训练，进而得到所述识别器。

作为示例，仍以目标属性为爬虫属性为例，服务器获取用户访问网关的URL数据作为样本URL序列数据；例如原始数据有百亿条访问记录，按账号聚合后形成了千万个URL序列样本。采用d天的数据，每天都提取前k个token，采用特殊字符[SEP]进行每天序列的分割，加上初始的[CLS]字符，序列长度为T＝d*100+d+1。

在步骤一的预训练阶段，正常用户和爬虫账号都会参与此阶段的预训练，因为此阶段旨在通过大量的序列数据去预测被掩掉的少量token。而在辅助任务训练中，一些正常的账号会被过滤掉，不参与辅助任务训练。

可选地，对3个模块进行消融实验，作为第三示例，图4表示辅助任务训练的消融实验的仿真实验结果，图5表示主任务训练的消融实验的仿真实验结果；其中，P90R表示准确率与召回率(Precision&Recall)；AUC表示曲线下面积(Area Under Curve)，其为ROC曲线与坐标轴围成的区域面积，AUC越大，则模型分类效果越好；KS(Kolmogorov-Smirnov)表示统计量，用于衡量模型对正负样本的区分度，其值越大，模型区分正负样本的能力越强；F1分数(F1score)是分类问题的一个衡量指标，是精确率和召回率的调和平均数，最大为1，最小为0。

任意两个模块的组合通常比单独使用其中一个模块的性能要好，同时使用三个模块的效果是最好的；比如，参见图4，行为序列模块ATS与上下文模块CA结合(ATS+CA)后，多数评价指标有一定的上升；三个模块结合(ATS+TAS+CA)后，各个评价指标值均为最高值。参见图5，这种效果更为明显，具体不再赘述。

为了进一步说明三段渐进式训练的效果，作为第四示例，参见图6至图8，还将步骤一的预训练任务和步骤二的辅助任务训练至不同的强度，考察其对其他任务性能的影响。图6至图8中，横轴表示任务训练强度(比如准确率)，纵轴表示对其他任务性能的影响。

图6显示步骤一的自监督预训练任务与辅助任务的关系，只有当预训练任务准确率到一个比较高的值(大于60％)的时候，才对辅助任务有提升作用。

图7显示辅助任务与步骤三的主要任务在性能上的关系，根据图7可知，如果没有步骤一的预训练过程，辅助任务的训练强度对步骤三的主要任务性能的影响较小。

图8显示自监督预训练与步骤三的主要任务在表现上的关系，只有预训练任务到较高的准确率(大于60％)时是否引入辅助任务的差距才开始拉大。

基于图6至图8中三个训练阶段的敏感性研究，可以得出步骤一(自监督预训练)和步骤二(辅助任务)有助于提高步骤三(主要任务)的性能；主要任务的执行对自监督预训练的准确性更敏感。主要任务的显著改进依赖于高自监督预训练和辅助任务训练的准确率(比如准确率超过60％)。

进一步地，作为第五示例，结合图9，还对各个算法对性能的提升做了对比实验，其中，对比的算法包括GBDT(Gradient Boosting Decision Tree，梯度提升决策树)、LSTM(Long Short-Term Memory，长短期记忆网络)、InceptionTime算法、ASE(AttributedSequence Embedding，属性序列嵌入)算法，基于图9可知，AANet在各类指标均超过其他算法，尤其P90R。

基于与本申请实施例所提供的方法相同的原理，本申请实施例还提供了一种属性识别装置，如图10所示，该装置包括：

获取模块1001，用于获取目标对象的统一资源定位系统URL序列数据。

识别模块1002，用于将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，根据所述特征信息对所述URL序列数据进行属性识别。

在一个可选实施例中，所述装置包括：

样本获取模块，用于获取样本对象的样本URL序列数据；

训练模块，用于根据所述样本URL序列数据，训练得到所述识别器。

在一个可选实施例中，所述训练模块包括：

提取子模块，用于对于所述样本URL序列数据中的第一URL序列数据，通过第一识别器提取所述第一URL序列数据的行为特征信息、提取所述第一URL序列数据的时空特征信息以及提取所述第一URL序列数据的上下文特征信息；

第一确定子模块，用于确定所述行为特征信息的第一特征向量、所述时空特征信息的第二特征向量、所述上下文特征信息的第三特征向量；

第二确定子模块，用于确定第四特征向量，根据所述第四特征向量确定所述第一URL序列数据的第一识别结果；所述第四特征向量为所述第一特征向量、第二特征向量以及第三特征向量拼接后的字符串的特征向量；

第三确定子模块，用于确定所述第一识别结果的损失函数值，根据所述损失函数值调整所述第一识别器，得到第二识别器；

识别子模块，用于通过第二识别器对所述样本URL序列数据中的第二URL序列数据进行识别，至得到满足预设损失函数值要求的所述识别器。

在一个可选实施例中，所述提取子模块用于：

提取所述行为序列数据中的行为特征信息。

在一个可选实施例中，所述提取子模块用于：

在一个可选实施例中，所述识别子模块用于：

根据所述样本URL序列数据，通过掩码语言模型训练第三识别器；

获取所述第三识别器的掩码样本中的第一样本数据，获取所述第一样本数据中的辅助参数，对所述第三识别器进行训练，得到第四识别器；

提取所述第一样本数据中的第二样本数据，对所述第四识别器进行训练，得到所述识别器。

本申请实施例提供的属性识别装置能够实现图1至图9的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本申请提供的属性识别装置，获取模块1001获取目标对象的统一资源定位系统URL序列数据；识别模块1002将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，所述特征信息包括时空特征信息，结合时空特征信息对目标对象进行属性识别，提升识别准确率。

本申请实施例的属性识别装置可执行本申请实施例所提供的属性识别方法，其实现原理相类似，本申请各实施例中的属性识别装置中的各模块、单元所执行的动作是与本申请各实施例中的属性识别方法中的步骤相对应的，对于属性识别装置的各模块的详细功能描述具体可以参见前文中所示的对应的属性识别方法中的描述，此处不再赘述。

基于与本申请的实施例中所示的方法相同的原理，本申请实施例还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本申请任一可选实施例所示的属性识别方法。与现有技术相比，本申请提供的属性识别方法，通过获取目标对象的统一资源定位系统URL序列数据；将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，所述特征信息包括时空特征信息，结合时空特征信息对目标对象进行属性识别，提升识别准确率。

在一个可选实施例中，还提供了一种电子设备，如图11所示，图11所示的电子设备11000可以为服务器，包括：处理器11001和存储器11003。其中，处理器11001和存储器11003相连，如通过总线11002相连。可选地，电子设备11000还可以包括收发器11004。需要说明的是，实际应用中收发器11004不限于一个，该电子设备11000的结构并不构成对本申请实施例的限定。

处理器11001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器11001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线11002可包括一通路，在上述组件之间传送信息。总线11002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线11002可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器11003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器11003用于存储执行本申请方案的应用程序代码，并由处理器11001来控制执行。处理器11001用于执行存储器11003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请提供的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云互联网、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请上述的计算机可读存储介质还可以是计算机可读信号介质或者计算机可读存储介质与计算机可读存储介质的组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的属性识别方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，A模块还可以被描述为“用于执行B操作的A模块”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种属性识别方法，其特征在于，包括：

获取目标对象的统一资源定位系统URL序列数据；

2.根据权利要求1所述的属性识别方法，其特征在于，所述获取目标对象的统一资源定位系统URL序列数据之前，所述方法包括：

获取样本对象的样本URL序列数据；

根据所述样本URL序列数据，训练得到所述识别器。

3.根据权利要求2所述的属性识别方法，其特征在于，所述根据所述样本URL序列数据，训练得到所述识别器，包括：

对于所述样本URL序列数据中的第一URL序列数据，通过第一识别器提取所述第一URL序列数据的行为特征信息、提取所述第一URL序列数据的时空特征信息以及提取所述第一URL序列数据的上下文特征信息；

确定所述行为特征信息的第一特征向量、所述时空特征信息的第二特征向量、所述上下文特征信息的第三特征向量；

确定第四特征向量，根据所述第四特征向量确定所述第一URL序列数据的第一识别结果；所述第四特征向量为所述第一特征向量、第二特征向量以及第三特征向量拼接后的字符串的特征向量；

确定所述第一识别结果的损失函数值，根据所述损失函数值调整所述第一识别器，得到第二识别器；

通过第二识别器对所述样本URL序列数据中的第二URL序列数据进行识别，至得到满足预设损失函数值要求的所述识别器。

4.根据权利要求3所述的属性识别方法，其特征在于，所述提取所述第一URL序列数据的行为特征信息，包括：

提取所述行为序列数据中的行为特征信息。

5.根据权利要求3所述的属性识别方法，其特征在于，所述提取所述第一URL序列数据的时空特征信息，包括：

6.根据权利要求5所述的属性识别方法，其特征在于，所述提取所述第一URL序列数据的上下文特征信息，包括：

确定所述第一URL序列数据的每个访问参数的上下文特征信息；所述上下文特征信息包括以下至少一种：出现次数、出现的去重数量以及信息熵。

7.根据权利要求2所述的属性识别方法，其特征在于，所述根据所述样本URL序列数据，训练得到所述识别器，包括：

8.一种属性识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。