CN117473177A

CN117473177A - 一种url识别方法、设备及存储介质

Info

Publication number: CN117473177A
Application number: CN202311424663.1A
Authority: CN
Inventors: 朱林涛; 彭飞; 刘孟
Original assignee: Beijing 58 Information Technology Co Ltd
Current assignee: Beijing 58 Information Technology Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-30

Abstract

本申请实施例提供一种URL识别方法、设备及存储介质。在该方法中，目标插件可在任一个应用基于操作系统进行网络信息传输时对应用进行URL监测，以获取该应用的URL数据；根据当前识别任务的需求信息、该应用类型和/或URL数据的属性信息，确定URL数据的待提取特征项；根据URL数据的待提取特征项，对URL数据进行特征提取，得到URL的特征信息；将URL的特征信息封装为识别请求发送至服务器，服务器可利用URL识别模型根据识别请求中的URL的特征信息对URL进行识别；目标插件可接收服务器返回的识别结果，在识别结果指示URL为风险URL的情况下对URL进行拦截。通过这种方式，可通过目标插件和服务器的协同，针对不同应用较为高效且准确地识别URL。

Description

一种URL识别方法、设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种URL识别方法、设备及存储介质。

背景技术

目前在市场上，存在一些可提供类似URL Schemes(Uniform Resource Locator,统一资源定位器)劫持检测功能的工具，例如URLooker、URL-Schemes、iVerify等。其中，URLSchemes是一种针对移动应用程序的URI(Uniform Resource Identifier，用于标识某一互联网资源名称的字符串)规范，用于在不同的应用程序之间实现数据共享和传输。

这些工具通常可通过比对已知的黑名单和白名单来URL Schemes进行检测以检测出URL Schemes劫持行为，即识别出哪些URL链接是风险链接。但是这种基于黑名单和白名单的风险URL识别方法的识别准确度较低。

因此，亟待提出一种解决方案。

发明内容

本申请的多个方面提供一种URL识别方法、设备及存储介质，用以通过目标插件和服务器之间的协同，针对不同应用较为高效且准确地对URL进行识别。

本申请实施例提供一种URL识别方法，适用于终端设备上的目标插件，所述目标插件集成在所述终端设备的操作系统中，所述终端设备上还安装并运行有至少一个应用，所述方法包括：在任一个应用基于所述操作系统进行网络信息传输时，对所述任一个应用进行统一资源定位符URL监测，以获取所述任一个应用的目标URL数据；所述目标URL数据用于描述目标URL的详情信息；根据所述目标插件接收到的当前识别任务的需求信息、所述任一个应用的类型和/或所述目标URL数据的属性信息，确定所述目标URL数据的待提取特征项；根据所述目标URL数据的待提取特征项，对所述目标URL数据进行特征提取，得到所述目标URL的特征信息；将所述目标URL的特征信息封装为识别请求，并发送至服务器，以使所述服务器利用预先训练的URL识别模型根据所述识别请求中的所述目标URL的特征信息对所述目标URL进行识别；接收所述服务器返回的识别结果，在所述识别结果指示所述目标URL为风险URL的情况下对目标URL进行拦截。

进一步可选地，对所述任一个应用进行统一资源定位符URL监测，以获取所述任一个应用的目标URL数据，包括：对所述任一个应用进行统一资源定位符URL监测，得到所述任一个应用的第一URL数据；根据预设的无效检测规则，检测并去除所述第一URL数据中的无效数据，得到第二URL数据；识别所述第二URL数据中的缺失值，并根据预设的缺失值修正规则，对所述缺失值进行修正，得到第三URL数据；去除所述第三URL数据中的重复数据，得到所述任一个应用的目标URL数据。

进一步可选地，所述目标URL数据的属性信息是利用预设的解析规则对所述目标URL数据进行解析得到的，不同属性信息的目标URL数据对应不同的待提取特征项；所述解析规则用于：解析所述目标URL数据的数据量、数据置信度和数据类型中的至少一种属性信息。

进一步可选地，所述目标插件提供交互界面，所述交互界面包括多种识别任务配置项；根据所述目标插件接收到的当前识别任务的需求信息，确定所述目标URL数据的待提取特征项，包括：响应用户针对所述交互界面上的多种识别任务配置项的配置操作，获取所述当前识别任务的需求信息；所述识别任务配置项包括以下至少一种：识别粒度、识别速度和识别任务量；根据所述当前识别任务的需求信息，确定所述目标URL数据的待提取特征项。

进一步可选地，根据所述目标URL数据的待提取特征项，对所述目标URL数据进行特征提取，得到所述目标URL的特征信息，包括：利用预设的编码规则，对所述目标URL数据中的所述目标URL进行编码，并将所述编码得到的数值特征作为第一URL特征；根据所述目标URL数据的待提取特征项，提取所述目标URL数据在每一个待提取特征项下对应的第二URL特征；对所述第一URL特征和所述第二URL特征进行特征归一化，得到所述目标URL的特征信息。

进一步可选地，所述预设的编码规则包括以下至少一种：哈希算法、URL拆分编码算法以及文本加权算法；所述目标URL数据的待提取特征项包括来源信息、Cookie信息、协议信息、端口信息、路径信息和行为信息中的至少一种。

进一步可选地，还包括：在所述识别结果指示所述目标URL为风险URL的情况下，根据所述目标URL所属的风险类型以及预设的风险类型-打开方式对应关系中，确定与所述目标URL对应的目标打开方式；通过预警窗口向用户输出所述目标URL的风险预警信息；响应所述用户根据风险预警信息发出的确认操作，以所述目标打开方式打开所述目标URL。

本申请实施例还提供一种URL识别方法，适用于服务器，所述方法包括：接收目标插件发送的识别请求，所述目标插件集成在终端设备上的操作系统中，所述终端设备上运行有至少一个应用，所述识别请求是所述目标插件在任一个应用基于所述操作系统进行网络信息传输时，根据从所述任一个应用的目标URL数据中提取的目标URL的特征信息生成并发送的；对所述识别请求进行解析得到所述目标URL的特征信息；所述目标URL的特征信息由所述目标插件根据所述目标URL数据的待提取特征项对所述目标URL数据进行特征提取得到；所述目标URL数据的待提取特征项由所述目标插件根据所述目标插件接收到的当前识别任务的需求信息、所述任一个应用的类型和/或所述目标URL数据的属性信息确定；利用预先训练的URL识别模型，根据所述目标URL的特征信息对所述目标URL进行识别；向所述目标插件返回识别结果，以使所述目标插件在所述识别结果指示所述目标URL为风险URL的情况下对目标URL进行拦截。

本申请实施例还提供一种电子设备，包括：存储器和处理器；其中，所述存储器用于：存储一个或多个计算机指令；所述处理器用于执行所述一个或多个计算机指令，以用于：执行所述URL识别方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，当所述计算机程序被处理器执行时，致使所述处理器能够实现所述URL识别方法中的步骤。

在本实施例中，目标插件可在任一个应用基于操作系统进行网络信息传输时对应用进行URL监测，以获取该应用的URL数据；根据当前识别任务的需求信息、该应用的类型和/或URL数据的属性信息，确定URL数据的待提取特征项；根据URL数据的待提取特征项，对URL数据进行特征提取，得到URL的特征信息；将URL的特征信息封装为识别请求，并发送至服务器，以使服务器利用预先训练的URL识别模型根据识别请求中的URL的特征信息对URL进行识别；接收服务器返回的识别结果，在识别结果指示URL为风险URL的情况下对URL进行拦截。通过这种方式，可通过目标插件和服务器之间的协同，针对不同应用较为高效且准确地对URL进行识别。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的URL识别系统的架构图；

图2为本申请一示例性实施例提供的URL识别方法的流程图；

图3为本申请一示例性实施例提供的另一URL识别方法的流程图；

图4为本申请一示例性实施例提供的电子设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有技术中，存在一些可提供类似URL Schemes(Uniform Resource Locator,统一资源定位器)劫持检测功能的工具，例如URLooker、URL-Schemes、iVerify等。其中，URLSchemes是一种针对移动应用程序的URI(Uniform Resource Identifier，用于标识某一互联网资源名称的字符串)规范，用于在不同的应用程序之间实现数据共享和传输。

针对此技术问题，在本申请一些实施例中，提供了一种解决方案。以下将结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的URL识别系统的结构示意图，如图1所示，URL识别系统包含：终端设备和服务器。

其中，终端设备可为手机、平板电脑、车载电脑或计算机等，本实施例不做限制。终端设备上可运行有操作系统，操作系统中可运行有至少一个应用并可集成有目标插件，该目标插件可用于对至少一个应用的URL识别需求进行感知并生成识别请求发送至服务器。

该服务器可实现为云端服务器或者本地服务器等等，本实施例不做限制。其中，云端服务器可实现为云主机、云端的虚拟中心、云端的弹性计算实例等，本实施例对此不做限制。其中，服务器的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似，不再赘述。该服务器上可配置有预先训练的URL识别模型。

在URL识别系统中，服务器与终端设备之间，可建立无线通信连接，具体的通信连接方式可视不同应用场景而定。在一些实施例中，该无线通信连接，可基于专用虚拟网络(Virtual Private Network，VPN)实现，以确保通信安全。

在URL识别系统中，终端设备上的目标插件主要用于：在任一个应用基于操作系统进行网络信息传输时，对任一个应用进行URL(Uniform Resource Locator，统一资源定位符)监测，以获取任一个应用的目标URL数据。其中，在应用基于操作系统进行网络信息传输时，目标插件可基于自身的URL监控功能，实时对应用访问的网络地址进行监测。其中，目标URL数据用于描述目标URL的详情信息。

由于目标URL数据中存在多个特征项，而基于该多个特征项对目标URL进行特征提取往往存在提取效率较低的问题。因此，目标插件可从该多个特征项中确定待提取特征项。具体地，目标插件获取任一个应用的目标URL数据之后可基于以下实施方式确定待提取特征项：

实施方式一、目标插件可根据目标插件接收到的当前识别任务的需求信息确定目标URL数据的待提取特征项。其中，当前识别任务的需求信息可由用户通过目标插件提供的交互界面进行自定义设置，可用于描述用户对于当前识别任务的要求，比如，当前识别任务的识别粒度要求、识别速度要求、识别任务量要求。其中，当前识别任务的需求信息不同，目标URL数据的待提取特征项也不同，比如，当用户配置的当前识别任务的识别粒度较小时(即识别要求较高)，目标URL数据的待提取特征项较多；当用户配置的当前识别任务的识别粒度较大时(即识别要求较低)，目标URL数据的待提取特征项较少。

实施方式二、目标插件可根据任一个应用的类型确定目标URL数据的待提取特征项。其中，目标插件可根据应用的用途、网络访问频率或历史风险记录为应用进行分类，比如，目标插件可按照用途将应用分类为安全类应用、地图类应用和音频类应用等等；再比如，目标插件可按照网络访问频率将应用分类为高频访问类应用、中频访问类应用和低频访问类应用等等；再比如，目标插件可按照历史风险记录将应用分类为较易被攻击的应用、较难被攻击的应用。其中，不同类型的应用对应不同的待提取特征项，基于此，目标插件可根据应用类型-待提取特征项的对应关系以及任一个应用的类型，确定目标URL数据的待提取特征项。

实施方式三、目标插件可根据目标URL数据的属性信息确定目标URL数据的待提取特征项。其中，属性信息用于描述目标URL数据所表征的不同数据特点，可包括以下至少一种：数据量、数据置信度和数据类型。其中，目标URL数据的属性信息不同，目标URL数据的待提取特征项也不同。比如，当目标URL数据的数据量较大时，为加快识别效率，该目标URL数据的待提取特征项相应较少；再比如，目标插件可根据目标URL数据的数据置信度，从多个特征项中，将置信度高于预设的置信度阈值的特征项作为目标URL数据的待提取特征项。

需要说明的是，以上三种实施方式可单独执行，也可任意两种实施方式组合执行，还可三种实施方式共同执行，本实施例不做限制。

基于上述实施方式，确定目标URL数据的待提取特征项之后，目标插件可根据目标URL数据的待提取特征项，对目标URL数据进行特征提取，得到目标URL的特征信息。其中，目标插件可根据目标URL数据的待提取特征项，提取目标URL数据在不同待提取特征项下的特征，得到目标URL的特征信息。之后，目标插件可将目标URL的特征信息封装为识别请求，并发送至服务器。

对应地，服务器主要用于：接收目标插件发送的识别请求，并对识别请求进行解析得到目标URL的特征信息；利用预先训练的URL识别模型，根据目标URL的特征信息对目标URL进行识别；向目标插件返回识别结果。

对应地，目标插件可接收该识别结果，在识别结果指示目标URL为风险URL的情况下对目标URL进行拦截。

在一些可选的实施例中，目标插件对任一个应用进行统一资源定位符URL监测，以获取任一个应用的目标URL数据时，具体用于：对任一个应用进行统一资源定位符URL监测，得到任一个应用的第一URL数据。其中，第一URL数据可理解为URL监测得到的原始监测数据。由于该原始监测数据可能存在信息冗余或错误的问题，所以后续需要进一步的数据预处理。

目标插件可根据预设的无效检测规则，检测并去除第一URL数据中的无效数据，得到第二URL数据。之后，可识别第二URL数据中的缺失值，并根据预设的缺失值修正规则，对缺失值进行修正，得到第三URL数据；去除第三URL数据中的重复数据，得到任一个应用的目标URL数据。

通过这种方式，目标插件可对URL监测得到的原始监测数据进行无效数据去除、缺失值修正以及数据去重的数据预处理操作，从而对原始监测数据进行优化得到任一个应用的目标URL数据。

在一些可选的实施例中，目标URL数据的属性信息是由目标插件利用预设的解析规则对目标URL数据进行解析得到的，不同属性信息的目标URL数据对应不同的待提取特征项。其中，解析规则用于：解析目标URL数据的数据量、数据置信度和数据类型中的至少一种属性信息。

比如，目标插件可利用预设的解析规则解析目标URL数据的数据量为15kb；数据置信度为：特征项a1-85％、特征项a2-80％和特征项a3-70％；数据类型为：特征项a1-字符串类型、特征项a2-列表类型和特征项a2-集合类型。

通过这种方式，目标插件可较为准确地识别出目标URL数据的属性信息。

在一些可选的实施例中，目标插件可提供交互界面，交互界面可包括多种识别任务配置项。基于此，目标插件在根据目标插件接收到的当前识别任务的需求信息确定目标URL数据的待提取特征项时，具体用于：

响应用户针对交互界面上的多种识别任务配置项的配置操作，获取当前识别任务的需求信息。识别任务配置项包括以下至少一种：识别粒度、识别速度和识别任务量。也就是说，用户可通过交互界面对当前识别任务的识别粒度、识别速度和识别任务量等任务要求进行配置，对应地，目标插件可响应用户的配置操作，获取当前识别任务的需求信息，并根据该需求信息，确定目标URL数据的待提取特征项。其中，当前识别任务的需求信息不同，目标URL数据的待提取特征项也不同，需求信息与待提取特征项相对应。

其中，目标插件可根据当前识别任务的需求信息，动态地调整目标URL数据的待提取特征项。比如，当需求信息中的识别任务量较大、识别速度较快或者识别粒度较大时，那么可降低待提取特征项的数量。

通过这种方式，目标插件可供用户对当前识别任务的需求信息进行自定义设置，从而可根据该需求信息较为准确地确定目标URL数据的待提取特征项。

在一些可选的实施例中，目标插件在根据目标URL数据的待提取特征项，对目标URL数据进行特征提取，得到目标URL的特征信息时，具体用于：利用预设的编码规则，对目标URL数据中的目标URL进行编码，并将编码得到的数值特征作为第一URL特征。其中，预设的编码规则可包括以下至少一种：哈希算法、URL拆分编码算法以及文本加权算法。其中，目标插件可利用哈希算法，将目标URL转换为数字索引，并作为第一URL特征，从而减少了数据库存储量，进而可提高后续的识别效率。其中，URL拆分编码算法可用于将目标URL拆分为多个字符序列，并分别对多个字符序列进行编码得到第一URL特征。其中，文本加权算法(TF-IDF，term frequency-inverse document frequency)指的是一种常用的统计算法，TF是词频，IDF是逆文本频率指数，通过该文本加权算法可将目标URL转换为数值特征，即第一URL特征。

目标插件在得到第一URL特征之后，可根据目标URL数据的待提取特征项，提取目标URL数据在每一个待提取特征项下对应的第二URL特征。其中，目标URL数据的待提取特征项包括来源信息、Cookie信息、协议信息、端口信息、路径信息和行为信息中的至少一种。其中，行为信息用于描述URL的功能，即用于描述URL可指示应用做出的行为，比如，下载或上传。

基于上述步骤，目标插件可对第一URL特征和第二URL特征进行特征归一化，得到目标URL的特征信息。其中，特征归一化指的是将不同特征的取值范围统一化。具体地，目标插件可利用预设的归一化方法对第一URL特征和第二URL特征进行特征归一化。其中，预设的归一化方法可为标准化方法，即将特征值转化为均值为0，方差为1的正态分布，还可为最大最小归一化方法，即将特征值缩放到0-1的区间内。

通过这种方式，目标插件可较为准确地对目标URL数据进行特征提取，得到目标URL的特征信息。

在一些可选的实施例中，目标插件还可在识别结果指示目标URL为风险URL的情况下，根据目标URL所属的风险类型以及预设的风险类型-打开方式对应关系中，确定与目标URL对应的目标打开方式。其中，目标URL所属的风险类型可根据风险大小进行划分，比如高风险类型、低风险类型和中风险类型；还可根据风险URL的来源进行划分，比如局域网类型、城域网类型和个人网类型。其中，目标打开方式可包括以下至少一种：沙盒模型、浏览器普通模式、浏览器安全模式以及防火墙模式等等，本实施例不做限制。比如，当目标URL为低风险类型，那么目标打开方式可为浏览器安全模式，即，在浏览器的安全模式下打开该目标URL；当目标URL为高风险类型，那么目标打开方式可为沙盒模式，即在沙盒中打开该目标URL。

目标插件在确定目标打开方式后，可通过预警窗口向用户输出目标URL的风险预警信息，并响应用户根据风险预警信息发出的确认操作，以目标打开方式打开目标URL。

通过这种方式，目标插件可根据风险URL所属的风险类型，个性化地为用户选择打开方式，以安全且高效地打开该风险URL。

在一些可选的实施例中，服务器中的URL识别模型经过预先训练可具备根据目标URL的特征信息对目标URL进行识别的能力。以下将就URL识别模型的训练过程进行详细说明。

首先，服务器可从多个渠道采集URL数据集，包括公开的数据集、真实的用户数据和互联网上的源数据，确保数据的多样性和覆盖范围。之后，可响应用户的标注操作，对采集到的URL数据集进行标注，即将URL数据集中的URL标注为风险URL或安全URL。

之后，服务器可将URL数据集按照一定比例分为训练集和测试集，利用该训练集对卷积神经网络进行迭代训练，在每一个迭代轮次中，卷积神经网络可根据输入的训练集输出预测值，并基于该预测值与训练集对应的标签之间的差异，对卷积神经网络的参数进行优化。直到预测值与训练集对应的标签之间的差异收敛之预设范围内，服务器可停止上述迭代过程，输出URL识别模型。

经过上述训练结束后，服务器可通过分析混淆矩阵、交叉验证等技术来评估该URL识别模型的准确性，并检验模型的超参数调整是否得当。

可选地，服务器可按照预设周期继续收集新的URL数据集，并对URL识别模型进一步训练，以进一步提升该模型的识别准确率。

本申请实施例还提供一种URL识别方法，该方法适用于终端设备上的目标插件，目标插件集成在终端设备的操作系统中，终端设备上还安装并运行有至少一个应用。

以下将结合图2进行说明。如图2所示，该URL识别方法可包括：

步骤21、在任一个应用基于操作系统进行网络信息传输时，对任一个应用进行统一资源定位符URL监测，以获取任一个应用的目标URL数据；目标URL数据用于描述目标URL的详情信息。

步骤22、根据目标插件接收到的当前识别任务的需求信息、任一个应用的类型和/或目标URL数据的属性信息，确定目标URL数据的待提取特征项。

步骤23、根据目标URL数据的待提取特征项，对目标URL数据进行特征提取，得到目标URL的特征信息；

步骤24、将目标URL的特征信息封装为识别请求，并发送至服务器，以使服务器利用预先训练的URL识别模型根据识别请求中的目标URL的特征信息对目标URL进行识别；

步骤25、接收服务器返回的识别结果，在识别结果指示目标URL为风险URL的情况下对目标URL进行拦截。

进一步可选地，对任一个应用进行统一资源定位符URL监测，以获取任一个应用的目标URL数据，包括：对任一个应用进行统一资源定位符URL监测，得到任一个应用的第一URL数据；根据预设的无效检测规则，检测并去除第一URL数据中的无效数据，得到第二URL数据；识别第二URL数据中的缺失值，并根据预设的缺失值修正规则，对缺失值进行修正，得到第三URL数据；去除第三URL数据中的重复数据，得到任一个应用的目标URL数据。

进一步可选地，目标URL数据的属性信息是利用预设的解析规则对目标URL数据进行解析得到的，不同属性信息的目标URL数据对应不同的待提取特征项；解析规则用于：解析目标URL数据的数据量、数据置信度和数据类型中的至少一种属性信息。

进一步可选地，目标插件提供交互界面，交互界面包括多种识别任务配置项；根据目标插件接收到的当前识别任务的需求信息，确定目标URL数据的待提取特征项，包括：响应用户针对交互界面上的多种识别任务配置项的配置操作，获取当前识别任务的需求信息；识别任务配置项包括以下至少一种：识别粒度、识别速度和识别任务量；根据当前识别任务的需求信息，确定目标URL数据的待提取特征项。

进一步可选地，根据目标URL数据的待提取特征项，对目标URL数据进行特征提取，得到目标URL的特征信息，包括：利用预设的编码规则，对目标URL数据中的目标URL进行编码，并将编码得到的数值特征作为第一URL特征；根据目标URL数据的待提取特征项，提取目标URL数据在每一个待提取特征项下对应的第二URL特征；对第一URL特征和第二URL特征进行特征归一化，得到目标URL的特征信息。

进一步可选地，预设的编码规则包括以下至少一种：哈希算法、URL拆分编码算法以及文本加权算法；目标URL数据的待提取特征项包括来源信息、Cookie信息、协议信息、端口信息、路径信息和行为信息中的至少一种。

进一步可选地，还包括：在识别结果指示目标URL为风险URL的情况下，根据目标URL所属的风险类型以及预设的风险类型-打开方式对应关系中，确定与目标URL对应的目标打开方式；通过预警窗口向用户输出目标URL的风险预警信息；响应用户根据风险预警信息发出的确认操作，以目标打开方式打开目标URL。

本申请实施例还提供一种URL识别方法，该方法适用于服务器，如图3所示，该方法可包括以下步骤：

步骤31、接收目标插件发送的识别请求，目标插件集成在终端设备上的操作系统中，终端设备上运行有至少一个应用，识别请求是目标插件在任一个应用基于操作系统进行网络信息传输时，根据从任一个应用的目标URL数据中提取的目标URL的特征信息生成并发送的。

步骤32、对识别请求进行解析得到目标URL的特征信息；目标URL的特征信息由目标插件根据目标URL数据的待提取特征项对目标URL数据进行特征提取得到；目标URL数据的待提取特征项由目标插件根据目标插件接收到的当前识别任务的需求信息、任一个应用的类型和/或目标URL数据的属性信息确定。

步骤33、利用预先训练的URL识别模型，根据目标URL的特征信息对目标URL进行识别。

步骤34、向目标插件返回识别结果，以使目标插件在识别结果指示目标URL为风险URL的情况下对目标URL进行拦截。

在本实施例中，目标插件可在任一个应用基于操作系统进行网络信息传输时对应用进行URL监测，以获取该应用的URL数据；根据当前识别任务的需求信息、该应用的类型和/或URL数据的属性信息，确定URL数据的待提取特征项；根据URL数据的待提取特征项，对URL数据进行特征提取，得到URL的特征信息；将URL的特征信息封装为识别请求，并发送至服务器。服务器可利用预先训练的URL识别模型根据识别请求中的URL的特征信息对URL进行识别；目标插件可在识别结果指示URL为风险URL的情况下对URL进行拦截。通过这种方式，可通过目标插件和服务器之间的协同，针对不同应用较为高效且准确地对URL进行识别。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤21至步骤25的执行主体可以为设备A；又比如，步骤21到23的执行主体可以为设备A，步骤24和25的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如21、22等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图4是本申请一示例性实施例提供的电子设备的结构示意图，该电子设备适用于前述实施例提供的URL识别方法，如图4所示，该电子设备可包括：存储器401、处理器402以及通信组件403。

存储器401，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

在一些实施例中，处理器402，与存储器401耦合，用于执行存储器401中的计算机程序，以用于：在任一个应用基于所述操作系统进行网络信息传输时，对所述任一个应用进行统一资源定位符URL监测，以获取所述任一个应用的目标URL数据；所述目标URL数据用于描述目标URL的详情信息；根据所述目标插件接收到的当前识别任务的需求信息、所述任一个应用的类型和/或所述目标URL数据的属性信息，确定所述目标URL数据的待提取特征项；根据所述目标URL数据的待提取特征项，对所述目标URL数据进行特征提取，得到所述目标URL的特征信息；将所述目标URL的特征信息封装为识别请求，并发送至服务器，以使所述服务器利用预先训练的URL识别模型根据所述识别请求中的所述目标URL的特征信息对所述目标URL进行识别；接收所述服务器返回的识别结果，在所述识别结果指示所述目标URL为风险URL的情况下对目标URL进行拦截。

进一步可选地，处理器402对所述任一个应用进行统一资源定位符URL监测，以获取所述任一个应用的目标URL数据时，具体用于：对所述任一个应用进行统一资源定位符URL监测，得到所述任一个应用的第一URL数据；根据预设的无效检测规则，检测并去除所述第一URL数据中的无效数据，得到第二URL数据；识别所述第二URL数据中的缺失值，并根据预设的缺失值修正规则，对所述缺失值进行修正，得到第三URL数据；去除所述第三URL数据中的重复数据，得到所述任一个应用的目标URL数据。

进一步可选地，所述目标插件提供交互界面，所述交互界面包括多种识别任务配置项；处理器402根据所述目标插件接收到的当前识别任务的需求信息，确定所述目标URL数据的待提取特征项时，具体用于：响应用户针对所述交互界面上的多种识别任务配置项的配置操作，获取所述当前识别任务的需求信息；所述识别任务配置项包括以下至少一种：识别粒度、识别速度和识别任务量；根据所述当前识别任务的需求信息，确定所述目标URL数据的待提取特征项。

进一步可选地，处理器402根据所述目标URL数据的待提取特征项，对所述目标URL数据进行特征提取，得到所述目标URL的特征信息时，具体用于：利用预设的编码规则，对所述目标URL数据中的所述目标URL进行编码，并将所述编码得到的数值特征作为第一URL特征；根据所述目标URL数据的待提取特征项，提取所述目标URL数据在每一个待提取特征项下对应的第二URL特征；对所述第一URL特征和所述第二URL特征进行特征归一化，得到所述目标URL的特征信息。

进一步可选地，处理器402还用于：在所述识别结果指示所述目标URL为风险URL的情况下，根据所述目标URL所属的风险类型以及预设的风险类型-打开方式对应关系中，确定与所述目标URL对应的目标打开方式；通过预警窗口向用户输出所述目标URL的风险预警信息；响应所述用户根据风险预警信息发出的确认操作，以所述目标打开方式打开所述目标URL。

在另一些实施例中，处理器402，与存储器401耦合，用于执行存储器401中的计算机程序，以用于：接收目标插件发送的识别请求，所述目标插件集成在终端设备上的操作系统中，所述终端设备上运行有至少一个应用，所述识别请求是所述目标插件在任一个应用基于所述操作系统进行网络信息传输时，根据从所述任一个应用的目标URL数据中提取的目标URL的特征信息生成并发送的；对所述识别请求进行解析得到所述目标URL的特征信息；所述目标URL的特征信息由所述目标插件根据所述目标URL数据的待提取特征项对所述目标URL数据进行特征提取得到；所述目标URL数据的待提取特征项由所述目标插件根据所述目标插件接收到的当前识别任务的需求信息、所述任一个应用的类型和/或所述目标URL数据的属性信息确定；利用预先训练的URL识别模型，根据所述目标URL的特征信息对所述目标URL进行识别；向所述目标插件返回识别结果，以使所述目标插件在所述识别结果指示所述目标URL为风险URL的情况下对目标URL进行拦截。

图4中仅示意性给出部分组件，并不意味着电子设备只包括图4所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

上述图4中的存储器401可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述图4中的通信组件403被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种URL识别方法，其特征在于，适用于终端设备上的目标插件，所述目标插件集成在所述终端设备的操作系统中，所述终端设备上还安装并运行有至少一个应用，所述方法包括：

在任一个应用基于所述操作系统进行网络信息传输时，对所述任一个应用进行统一资源定位符URL监测，以获取所述任一个应用的目标URL数据；所述目标URL数据用于描述目标URL的详情信息；

根据所述目标插件接收到的当前识别任务的需求信息、所述任一个应用的类型和/或所述目标URL数据的属性信息，确定所述目标URL数据的待提取特征项；

根据所述目标URL数据的待提取特征项，对所述目标URL数据进行特征提取，得到所述目标URL的特征信息；

将所述目标URL的特征信息封装为识别请求，并发送至服务器，以使所述服务器利用预先训练的URL识别模型根据所述识别请求中的所述目标URL的特征信息对所述目标URL进行识别；

接收所述服务器返回的识别结果，在所述识别结果指示所述目标URL为风险URL的情况下对目标URL进行拦截。

2.根据权利要求1所述的方法，其特征在于，对所述任一个应用进行统一资源定位符URL监测，以获取所述任一个应用的目标URL数据，包括：

对所述任一个应用进行统一资源定位符URL监测，得到所述任一个应用的第一URL数据；

根据预设的无效检测规则，检测并去除所述第一URL数据中的无效数据，得到第二URL数据；

识别所述第二URL数据中的缺失值，并根据预设的缺失值修正规则，对所述缺失值进行修正，得到第三URL数据；

去除所述第三URL数据中的重复数据，得到所述任一个应用的目标URL数据。

3.根据权利要求1所述的方法，其特征在于，所述目标URL数据的属性信息是利用预设的解析规则对所述目标URL数据进行解析得到的，不同属性信息的目标URL数据对应不同的待提取特征项；所述解析规则用于：解析所述目标URL数据的数据量、数据置信度和数据类型中的至少一种属性信息。

4.根据权利要求1所述的方法，其特征在于，所述目标插件提供交互界面，所述交互界面包括多种识别任务配置项；

根据所述目标插件接收到的当前识别任务的需求信息，确定所述目标URL数据的待提取特征项，包括：

响应用户针对所述交互界面上的多种识别任务配置项的配置操作，获取所述当前识别任务的需求信息；所述识别任务配置项包括以下至少一种：识别粒度、识别速度和识别任务量；

根据所述当前识别任务的需求信息，确定所述目标URL数据的待提取特征项。

5.根据权利要求1所述的方法，其特征在于，根据所述目标URL数据的待提取特征项，对所述目标URL数据进行特征提取，得到所述目标URL的特征信息，包括：

利用预设的编码规则，对所述目标URL数据中的所述目标URL进行编码，并将所述编码得到的数值特征作为第一URL特征；

根据所述目标URL数据的待提取特征项，提取所述目标URL数据在每一个待提取特征项下对应的第二URL特征；

对所述第一URL特征和所述第二URL特征进行特征归一化，得到所述目标URL的特征信息。

6.根据权利要求5所述的方法，其特征在于，所述预设的编码规则包括以下至少一种：哈希算法、URL拆分编码算法以及文本加权算法；

所述目标URL数据的待提取特征项包括来源信息、Cookie信息、协议信息、端口信息、路径信息和行为信息中的至少一种。

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：

在所述识别结果指示所述目标URL为风险URL的情况下，根据所述目标URL所属的风险类型以及预设的风险类型-打开方式对应关系中，确定与所述目标URL对应的目标打开方式；

通过预警窗口向用户输出所述目标URL的风险预警信息；

响应所述用户根据风险预警信息发出的确认操作，以所述目标打开方式打开所述目标URL。

8.一种URL识别方法，其特征在于，适用于服务器，所述方法包括：

接收目标插件发送的识别请求，所述目标插件集成在终端设备上的操作系统中，所述终端设备上运行有至少一个应用，所述识别请求是所述目标插件在任一个应用基于所述操作系统进行网络信息传输时，根据从所述任一个应用的目标URL数据中提取的目标URL的特征信息生成并发送的；

对所述识别请求进行解析得到所述目标URL的特征信息；所述目标URL的特征信息由所述目标插件根据所述目标URL数据的待提取特征项对所述目标URL数据进行特征提取得到；所述目标URL数据的待提取特征项由所述目标插件根据所述目标插件接收到的当前识别任务的需求信息、所述任一个应用的类型和/或所述目标URL数据的属性信息确定；

利用预先训练的URL识别模型，根据所述目标URL的特征信息对所述目标URL进行识别；

向所述目标插件返回识别结果，以使所述目标插件在所述识别结果指示所述目标URL为风险URL的情况下对目标URL进行拦截。

9.一种电子设备，其特征在于，包括：存储器和处理器；其中，所述存储器用于：存储一个或多个计算机指令；所述处理器用于执行所述一个或多个计算机指令，以用于：执行权利要求1-7或权利要求8中任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-7或权利要求8中任一项所述方法中的步骤。