CN111460337B - 一种url识别率的分析方法及装置 - Google Patents
一种url识别率的分析方法及装置 Download PDFInfo
- Publication number
- CN111460337B CN111460337B CN202010207359.1A CN202010207359A CN111460337B CN 111460337 B CN111460337 B CN 111460337B CN 202010207359 A CN202010207359 A CN 202010207359A CN 111460337 B CN111460337 B CN 111460337B
- Authority
- CN
- China
- Prior art keywords
- url
- urls
- unidentified
- target
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供一种URL识别率的分析方法及装置,所述方法包括:获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL;获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内;分别统计所述URL集合中未识别URL和已识别URL的数量;计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。本申请提供的分析方法中,用户终端以远程登录的方式直接从审计产品的数据库中查询并计算URL识别率,无需将数据库中URL一一导出之后再进行统计,因此解决了现有URL识别率计算中,利用人工进行分析计算而导致的效率低下的问题。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种URL识别率的分析方法及装置。
背景技术
URL(Uniform Resource Locator,同一资源定位符)是对可以从网络上得到的资源的位置和访问方法的一种简洁的表示,是网络上标准资源的地址。网络上的每个文件都有一个唯一的URL,该URL包含的信息指示文件的位置以及浏览器应该怎样处理它。
目前,工作或学习的场所通常会建立局域网,将局域网内部的网络作为内网,局域网以外的网络作为外网。为了保证处于内网中的用户终端的网络安全,通常在内网和外网之间建立审计产品,例如防火墙,内网和外网之间的通信均需要经过该审计产品的审计,才能建立连接。例如,内网中的用户终端通过浏览器发送访问信息,该访问信息携带的URL首先经过审计产品,如果该访问信息携带的URL的审计结果是合法的且有效的,则从外网中获取该访问信息对应的文件,并反馈至用户终端;如果该访问信息携带的URL的审计结果是不合法的或者无效的,则审计产品将审计未通过的结果反馈至用户终端。
为了审计URL,通常会建立URL库,如果待审计的URL在URL库内,则认为待审计的URL是合法的且有效的;否则,认为待审计的URL是不合法的或者无效的。因此,URL库的建立关系到URL的审计是否准确。在实际应用中,由于网络上会不断出现新的URL,如果URL库中没有及时收录新的URL,则新的URL的审计结果可能存在偏差,为了减少这种偏差,需要定期对URL库进行更新。
现有技术中,主要采用人工的方式对URL库进行更新,即,在固定时间点将审计产品中未识别和URL和已识别的URL一一导出,然后统计分析已识别URL在总URL数量中的占比,将该占比作为URL识别率,如果URL识别率低于预设阈值,需要核对未识别的URL中是否存在未被URL库中收录的合法的URL,如果有,则将该未识别的URL收录进URL库。在此过程中,采用人工将审计产品识别后的URL一一导出再进行统计分析的方式效率低下,且容易出错,因此,目前亟需一种效率较高的URL识别率的分析方法。
发明内容
本申请提供一种URL识别率的分析方法及装置,以解决现有URL识别率计算中,需要人工将审计产品识别后的URL一一导出再进行统计分析的方式效率低下的问题。
本申请的第一方面,提供一种URL识别率的分析方法,所述方法应用于用户终端,用户终端以远程登录的方式与审计产品建立连接,所述方法包括:
获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL;
获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内;
分别统计所述URL集合中未识别URL和已识别URL的数量;
计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。
可选的,分别统计所述URL集合中未识别URL和已识别URL的数量,包括:
根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合,所述URL子集合分别为第一URL子集合和第二URL子集合,其中,所述第一URL子集合中的URL为已识别URL,所述第二URL子集合中的URL为未识别URL,所述第一特征信息指示所述URL集合中的URL是否被识别;
将所述第一URL子集合中URL的数量作为所述URL集合中已识别URL的数量,将所述第二URL子集合中URL的数量作为所述URL集合中未识别URL的数量。
可选的,在根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合之后,还包括:
在所述URL子集合中,判断是否存在第二特征信息相同的第一目标URL,其中,所述第二特征信息指示所述URL子集合中URL的域名;
如果存在,则对所述第一目标URL执行去重操作。
可选的,在计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率之后,还包括:
判断所述URL识别率是否低于预设阈值;
如果是,下载所述URL集合中的未识别URL;
根据所述未识别URL对应的第三特征信息,将所述未识别URL划分为第一组未识别URL和第二组未识别URL,其中,所述第三特征信息指示所述未识别URL的通信协议;
在各组未识别URL中,判断是否存在第四特征信息相同的第二目标URL,其中,所述第四特征信息指示所述未识别URL对应的资源的地址;
如果存在,则统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作。
可选的,在统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作之后,还包括:
将各组未识别URL执行去重操作后剩余的未识别URL作为第三目标URL,判断所述第三目标URL是否合法;
如果是,则将合法的第三目标URL添加至URL库。
本申请的第二方面,提供一种URL识别率的分析装置,所述装置应用于用户终端,用户终端以远程登录的方式与审计产品建立连接,所述装置包括:
第一获取模块,用于获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL;
第二获取模块,用于获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内;
统计模块,用于分别统计所述URL集合中未识别URL和已识别URL的数量;
计算模块,用于计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。
可选的,所述统计模块包括:
划分单元,用于根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合,所述URL子集合分别为第一URL子集合和第二URL子集合,其中,所述第一URL子集合中的URL为已识别URL,所述第二URL子集合中的URL为未识别URL,所述第一特征信息指示所述URL集合中的URL是否被识别;
统计单元,用于将所述第一URL子集合中URL的数量作为所述URL集合中已识别URL的数量,将所述第二URL子集合中URL的数量作为所述URL集合中未识别URL的数量。
可选的,所述统计模块还包括:
判断单元,用于在所述划分单元根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合之后,在所述URL子集合中,判断是否存在第二特征信息相同的第一目标URL,其中,所述第二特征信息指示所述URL子集合中URL的域名;
去重单元,用于在所述判断单元确定存在所述第一目标URL的情况下,对所述第一目标URL执行去重操作。
可选的,所述装置还包括:
第一判断模块,用于在所述计算模块计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率之后,判断所述URL识别率是否低于预设阈值;
下载模块,用于在所述第一判断模块确定所述URL识别率低于预设阈值的情况下,下载所述URL集合中的未识别URL;
划分模块,用于根据所述未识别URL对应的第三特征信息,将所述未识别URL划分为第一组未识别URL和第二组未识别URL,其中,所述第三特征信息指示所述未识别URL的通信协议;
第二判断模块,用于在各组未识别URL中,判断是否存在第四特征信息相同的第二目标URL,其中,所述第四特征信息指示所述未识别URL对应的资源的地址;
去重模块,用于在所述第二判断模块确定存在所述第二目标URL的情况下,统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作。
可选的,所述装置还包括:
第三判断模块,用于在所述去重模块统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作之后,将各组未识别URL执行去重操作后剩余的未识别URL作为第三目标URL,判断所述第三目标URL是否合法;
添加模块,用于在所述第三判断模块确定所述第三目标URL合法的情况下,将合法的第三目标URL添加至URL库。
由以上技术方案可知,本申请提供一种URL识别率的分析方法及装置,所述方法包括:获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL;获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内;分别统计所述URL集合中未识别URL和已识别URL的数量;计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。本申请提供的分析方法中,用户终端以远程登录的方式直接从审计产品的数据库中查询并计算URL识别率,无需将数据库中URL一一导出之后再进行统计,因此解决了现有URL识别率计算中,需要将URL一一导出后,再利用人工进行分析计算而导致的效率低下的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种URL识别率的分析方法;
图2为本申请实施例提供的另一种URL识别率的分析方法;
图3为本申请实施例提供的一种URL识别率的分析装置。
具体实施方式
为解决现有URL识别率计算中,需要人工将审计产品识别后的URL一一导出再进行统计分析的方式效率低下的问题,本申请提供一种URL识别率的分析方法及装置。
参照图1所示的工作流程图,本申请实施例提供一种URL识别率的分析方法。
本申请实施例中,审计产品用于审计内外网之间的往来URL,审计完成的同时生成URL日志,在URL日志中,记录有URL本身,以及,与审计结果或审计过程相关的数据。为了记录以及数据调取的方便,审计产品通常将URL日志存储于数据库中,在该数据库中,建立有URL列表。
在本申请实施例的描述中,直接采用URL表示数据库中所形成URL日志,因此,实施例中的URL不仅代表资源的地址,还包括与审计结果或审计过程相关的数据。
本申请所述的分析方法应用于用户终端,该用户终端位于内网中,用户终端以远程登录的方式与审计产品建立连接。在一种可实现的方式中,用户终端通过SSH(SecureShell,安全外壳协议)的方式登录审计产品并进入设备后台。SSH为建立在应用层和传输层基础上的安全协议。SSH是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。SSH在用于远程登录时,登录方式通常有两种:口令登录和公钥登录。登录成功后,用户终端能够访问审计产品的数据库,并获取数据库中的数据。
本申请实施例提供的分析方法包括以下步骤:
步骤101,获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL。
本申请实施例以远程登录的方式进入审计产品的后台,用户终端采用远程登录的方式,无需将数据库中的数据完全下载下来,而是直接在数据库中查询URL列表,并根据需求直接进行URL识别率的计算。
步骤102,获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内。
该步骤中,由于URL列表中存储有大量URL,而在计算URL识别率时,通常需要以固定的时间段为单位,例如一天。以该固定的时间段为单位,建立预设时间段,例如,2020年3月16日0时至2020年3月16日24时,用户终端需要从URL列表中查询出符合预设时间段的URL,将这些符合预设时间段的URL作为URL集合进行下一步的计算。
审计产品在审计URL时,对于每条URL均记录有生成的时间戳。用户终端在查询符合预设时间段的URL时,需要判断URL的时间戳是否在预设时间段内,如果在,则将该URL列入URL集合内,否则,该URL不在URL集合内。
步骤103,分别统计所述URL集合中未识别URL和已识别URL的数量。
该步骤中,用户终端仍然以远程登录的方式,直接在URL集合中,分别统计未识别URL和已识别URL的数量。在一种可实现的方式中,采用以下步骤进行统计:
步骤10311,根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合,所述URL子集合分别为第一URL子集合和第二URL子集合,其中,所述第一URL子集合中的URL为已识别URL,所述第二URL子集合中的URL为未识别URL,所述第一特征信息指示所述URL集合中的URL是否被识别。
本申请实施例中,审计产品将URL的审计结果以字段的方式记录在URL日志中,将审计结果所在的字段作为第一特征信息,用户终端能够通过第一特征信息直接判断出URL是否被识别。如果URL已经被识别,则将该URL划分到第一URL子集合;如果URL未被识别,则将该URL划分到第二URL子集合。
步骤10312,将所述第一URL子集合中URL的数量作为所述URL集合中已识别URL的数量,将所述第二URL子集合中URL的数量作为所述URL集合中未识别URL的数量。
在另一种可实现的方式中,采用以下步骤进行统计:
步骤10321,根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合,所述URL子集合分别为第一URL子集合和第二URL子集合,其中,所述第一URL子集合中的URL为已识别URL,所述第二URL子集合中的URL为未识别URL,所述第一特征信息指示所述URL集合中的URL是否被识别。
步骤10322,在所述URL子集合中,判断是否存在第二特征信息相同的第一目标URL,其中,所述第二特征信息指示所述URL子集合中URL的域名;
URL通常至少包含以下信息:通信协议、域名、端口号、网站名称以及文件名等,在审计产品对URL的审计过程中,如果某一域名不合法,则与此域名相关的URL均不能被成功识别。本申请实施例为了更准确的统计已识别URL和未识别URL的数量,对URL子集合中具有相同域名的URL执行去重操作,对于相同域名的URL,仅保留其中一个。
实际应用中,用户终端将域名作为第二特征信息,查询URL子集合中的第二特征信息是否相同,如果相同,则将存在第二特征信息的URL作为第一目标URL,并执行步骤10323的操作。
步骤10323,如果存在,则对所述第一目标URL执行去重操作。
步骤10324,将所述第一URL子集合中URL的数量作为所述URL集合中已识别URL的数量,将所述第二URL子集合中URL的数量作为所述URL集合中未识别URL的数量。
其中,步骤10321和步骤10324的具体操作过程分别与步骤10311和步骤10312的具体操作过程一致,可相互参照,此处不作赘述。
上述实现方式中,在统计已识别URL和未识别URL的数量之前,先对域名相同的第一目标URL执行去重操作,从而使得统计结果更为精确。
步骤104,计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。
该步骤中,根据以下公式计算URL识别率:
URL识别率作为URL库维护更新的一个重要数据,工作人员在获得URL识别率之后,根据URL识别率的大小,作出是否更新URL库的判断,进而使得URL库能够得到及时且有效的更新。
由以上技术方案可知,本申请实施例提供一种URL识别率的分析方法,该方法包括:获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL;获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内;分别统计所述URL集合中未识别URL和已识别URL的数量;计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。本申请提供的分析方法中,用户终端以远程登录的方式直接从审计产品的数据库中查询并计算URL识别率,无需将数据库中URL一一导出之后再进行统计,因此解决了现有URL识别率计算中,需要将URL一一导出后,再利用人工进行分析计算而导致的效率低下的问题。
参见图2所示的工作流程图,本申请实施例提供另一种URL识别率的分析方法,所述方法包括以下步骤:
步骤201,获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL。
步骤202,获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内。
步骤203,分别统计所述URL集合中未识别URL和已识别URL的数量。
步骤204,计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。
步骤205,判断所述URL识别率是否低于预设阈值。如果是,则执行步骤206的操作。
该步骤中,预设阈值是根据历史数据预先设定的,URL识别率低于该预设阈值,说明内网中的用户有大量URL在审计产品的审计结果为不合法的,在此情况下,内网中的用户的正常工作可能受到影响,因此将此种情况列为异常情况,执行下一步操作。
步骤206,如果是,下载所述URL集合中的未识别URL。
在SSH远程登录的方式下,用户终端可以通过数据库语句将URL分类中未识别的日志导出并写入csv文件,随后通过http方式下载到本地。
步骤207,根据所述未识别URL对应的第三特征信息,将所述未识别URL划分为第一组未识别URL和第二组未识别URL,其中,所述第三特征信息指示所述未识别URL的通信协议。
通信协议通常包括“http”和“https”两种,由于两种通信协议的传输机制不同,本申请实施例中,为了后续计算的方便,将两种通信协议对应的未识别URL进行分组。其中,将通信协议作为第三特征信息,用户终端查询未识别URL中的第三特征信息,即可对未识别URL进行分组的划分。
步骤208,在各组未识别URL中,判断是否存在第四特征信息相同的第二目标URL,其中,所述第四特征信息指示所述未识别URL对应的资源的地址。
如果内网中的某一用户或者不同用户需要访问同一资源,而该资源的审计结果是未被识别,那么,用户终端下载的未识别URL中可能存在与同一资源相对应的重复的URL。对于资源是否相同,可用资源的地址来判断,如果资源的地址相同,则将具有重复地址的未识别URL作为第二目标URL,执行步骤209的操作。
本申请实施例中,将资源的地址作为第四特征信息,用户终端通过查询各个未识别URL的第四特征信息,判断是否存在第二目标URL。
步骤209,如果存在,则统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作。
其中,步骤201至步骤204的具体操作过程与步骤101至步骤104的具体操作过程一致,可相互参照,此处不作赘述。
本申请实施例中,将未识别URL下载到本地,并对未识别URL作出一系列的处理分析,进一步获得与更新URL库相关的数据,为工作人员的进一步分析提供基础。
可选的,在统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作之后,还包括:
将各组未识别URL执行去重操作后剩余的未识别URL作为第三目标URL,判断所述第三目标URL是否合法;
如果是,则将合法的第三目标URL添加至URL库。
参见图3所示的结构示意图,本申请实施例提供一种URL识别率的分析装置,所述装置应用于用户终端,用户终端以远程登录的方式与审计产品建立连接,所述装置包括:
第一获取模块100,用于获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL;
第二获取模块200,用于获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内;
统计模块300,用于分别统计所述URL集合中未识别URL和已识别URL的数量;
计算模块400,用于计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。
可选的,所述统计模块300包括:
划分单元,用于根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合,所述URL子集合分别为第一URL子集合和第二URL子集合,其中,所述第一URL子集合中的URL为已识别URL,所述第二URL子集合中的URL为未识别URL,所述第一特征信息指示所述URL集合中的URL是否被识别;
统计单元,用于将所述第一URL子集合中URL的数量作为所述URL集合中已识别URL的数量,将所述第二URL子集合中URL的数量作为所述URL集合中未识别URL的数量。
可选的,所述统计模块300还包括:
判断单元,用于在所述划分单元根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合之后,在所述URL子集合中,判断是否存在第二特征信息相同的第一目标URL,其中,所述第二特征信息指示所述URL子集合中URL的域名;
去重单元,用于在所述判断单元确定存在所述第一目标URL的情况下,对所述第一目标URL执行去重操作。
可选的,所述装置还包括:
第一判断模块,用于在所述计算模块计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率之后,判断所述URL识别率是否低于预设阈值;
下载模块,用于在所述第一判断模块确定所述URL识别率低于预设阈值的情况下,下载所述URL集合中的未识别URL;
划分模块,用于根据所述未识别URL对应的第三特征信息,将所述未识别URL划分为第一组未识别URL和第二组未识别URL,其中,所述第三特征信息指示所述未识别URL的通信协议;
第二判断模块,用于在各组未识别URL中,判断是否存在第四特征信息相同的第二目标URL,其中,所述第四特征信息指示所述未识别URL对应的资源的地址;
去重模块,用于在所述第二判断模块确定存在所述第二目标URL的情况下,统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作。
可选的,所述装置还包括:
第三判断模块,用于在所述去重模块统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作之后,将各组未识别URL执行去重操作后剩余的未识别URL作为第三目标URL,判断所述第三目标URL是否合法;
添加模块,用于在所述第三判断模块确定所述第三目标URL合法的情况下,将合法的第三目标URL添加至URL库。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (10)
1.一种URL识别率的分析方法,其特征在于,所述方法应用于用户终端,用户终端以远程登录的方式与审计产品建立连接,所述方法包括:
获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL;
获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内;
分别统计所述URL集合中未识别URL和已识别URL的数量;
计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。
2.根据权利要求1所述的分析方法,其特征在于,分别统计所述URL集合中未识别URL和已识别URL的数量,包括:
根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合,所述URL子集合分别为第一URL子集合和第二URL子集合,其中,所述第一URL子集合中的URL为已识别URL,所述第二URL子集合中的URL为未识别URL,所述第一特征信息指示所述URL集合中的URL是否被识别;
将所述第一URL子集合中URL的数量作为所述URL集合中已识别URL的数量,将所述第二URL子集合中URL的数量作为所述URL集合中未识别URL的数量。
3.根据权利要求2所述的分析方法,其特征在于,在根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合之后,还包括:
在所述URL子集合中,判断是否存在第二特征信息相同的第一目标URL,其中,所述第二特征信息指示所述URL子集合中URL的域名;
如果存在,则对所述第一目标URL执行去重操作。
4.根据权利要求1所述的分析方法,其特征在于,在计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率之后,还包括:
判断所述URL识别率是否低于预设阈值;
如果是,下载所述URL集合中的未识别URL;
根据所述未识别URL对应的第三特征信息,将所述未识别URL划分为第一组未识别URL和第二组未识别URL,其中,所述第三特征信息指示所述未识别URL的通信协议;
在各组未识别URL中,判断是否存在第四特征信息相同的第二目标URL,其中,所述第四特征信息指示所述未识别URL对应的资源的地址;
如果存在,则统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作。
5.根据权利要求4所述的分析方法,其特征在于,在统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作之后,还包括:
将各组未识别URL执行去重操作后剩余的未识别URL作为第三目标URL,判断所述第三目标URL是否合法;
如果是,则将合法的第三目标URL添加至URL库。
6.一种URL识别率的分析装置,其特征在于,所述装置应用于用户终端,用户终端以远程登录的方式与审计产品建立连接,所述装置包括:
第一获取模块,用于获取审计产品的URL列表,所述URL列表用于存储审计产品在任意时刻所审计的URL;
第二获取模块,用于获取预设时间段对应的URL集合,所述URL集合中任意一个URL的时间戳在所述预设时间段内;
统计模块,用于分别统计所述URL集合中未识别URL和已识别URL的数量;
计算模块,用于计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率。
7.根据权利要求6所述的分析装置,其特征在于,所述统计模块包括:
划分单元,用于根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合,所述URL子集合分别为第一URL子集合和第二URL子集合,其中,所述第一URL子集合中的URL为已识别URL,所述第二URL子集合中的URL为未识别URL,所述第一特征信息指示所述URL集合中的URL是否被识别;
统计单元,用于将所述第一URL子集合中URL的数量作为所述URL集合中已识别URL的数量,将所述第二URL子集合中URL的数量作为所述URL集合中未识别URL的数量。
8.根据权利要求7所述的分析装置,其特征在于,所述统计模块还包括:
判断单元,用于在所述划分单元根据所述URL集合中URL对应的第一特征信息,将所述URL集合划分为两个URL子集合之后,在所述URL子集合中,判断是否存在第二特征信息相同的第一目标URL,其中,所述第二特征信息指示所述URL子集合中URL的域名;
去重单元,用于在所述判断单元确定存在所述第一目标URL的情况下,对所述第一目标URL执行去重操作。
9.根据权利要求6所述的分析装置,其特征在于,所述装置还包括:
第一判断模块,用于在所述计算模块计算所述已识别URL在所述URL集合中的占比,将所述占比作为URL识别率之后,判断所述URL识别率是否低于预设阈值;
下载模块,用于在所述第一判断模块确定所述URL识别率低于预设阈值的情况下,下载所述URL集合中的未识别URL;
划分模块,用于根据所述未识别URL对应的第三特征信息,将所述未识别URL划分为第一组未识别URL和第二组未识别URL,其中,所述第三特征信息指示所述未识别URL的通信协议;
第二判断模块,用于在各组未识别URL中,判断是否存在第四特征信息相同的第二目标URL,其中,所述第四特征信息指示所述未识别URL对应的资源的地址;
去重模块,用于在所述第二判断模块确定存在所述第二目标URL的情况下,统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作。
10.根据权利要求9所述的分析装置,其特征在于,所述装置还包括:
第三判断模块,用于在所述去重模块统计所述第二目标URL的重复次数,并对所述第二目标URL执行去重操作之后,将各组未识别URL执行去重操作后剩余的未识别URL作为第三目标URL,判断所述第三目标URL是否合法;
添加模块,用于在所述第三判断模块确定所述第三目标URL合法的情况下,将合法的第三目标URL添加至URL库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010207359.1A CN111460337B (zh) | 2020-03-23 | 2020-03-23 | 一种url识别率的分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010207359.1A CN111460337B (zh) | 2020-03-23 | 2020-03-23 | 一种url识别率的分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460337A CN111460337A (zh) | 2020-07-28 |
CN111460337B true CN111460337B (zh) | 2023-04-11 |
Family
ID=71683241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010207359.1A Active CN111460337B (zh) | 2020-03-23 | 2020-03-23 | 一种url识别率的分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460337B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102118400A (zh) * | 2009-12-31 | 2011-07-06 | 北京四维图新科技股份有限公司 | 数据采集方法和数据采集系统 |
WO2014098372A1 (ko) * | 2012-12-20 | 2014-06-26 | 숭실대학교산학협력단 | 유해 사이트 수집 장치 및 방법 |
CN105868251A (zh) * | 2015-12-22 | 2016-08-17 | 乐视云计算有限公司 | 一种缓存数据更新方法及装置 |
CN105939370A (zh) * | 2015-09-15 | 2016-09-14 | 杭州迪普科技有限公司 | 一种url库更新方法及装置 |
CN107257390A (zh) * | 2017-05-27 | 2017-10-17 | 北京思特奇信息技术股份有限公司 | 一种url地址的解析方法和系统 |
CN109726340A (zh) * | 2018-12-21 | 2019-05-07 | 武汉思普崚技术有限公司 | 统一资源定位符分类的查询方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11271966B2 (en) * | 2018-02-09 | 2022-03-08 | Bolster, Inc | Real-time detection and redirecton from counterfeit websites |
-
2020
- 2020-03-23 CN CN202010207359.1A patent/CN111460337B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102118400A (zh) * | 2009-12-31 | 2011-07-06 | 北京四维图新科技股份有限公司 | 数据采集方法和数据采集系统 |
WO2014098372A1 (ko) * | 2012-12-20 | 2014-06-26 | 숭실대학교산학협력단 | 유해 사이트 수집 장치 및 방법 |
CN105939370A (zh) * | 2015-09-15 | 2016-09-14 | 杭州迪普科技有限公司 | 一种url库更新方法及装置 |
CN105868251A (zh) * | 2015-12-22 | 2016-08-17 | 乐视云计算有限公司 | 一种缓存数据更新方法及装置 |
CN107257390A (zh) * | 2017-05-27 | 2017-10-17 | 北京思特奇信息技术股份有限公司 | 一种url地址的解析方法和系统 |
CN109726340A (zh) * | 2018-12-21 | 2019-05-07 | 武汉思普崚技术有限公司 | 统一资源定位符分类的查询方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111460337A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111277570A (zh) | 数据的安全监测方法和装置、电子设备、可读介质 | |
EP2244418B1 (en) | Database security monitoring method, device and system | |
CN106209488B (zh) | 用于检测网站攻击的方法和设备 | |
CN110602029B (zh) | 一种用于识别网络攻击的方法和系统 | |
CN112350989A (zh) | 一种日志数据的解析方法 | |
CN114915479B (zh) | 一种基于Web日志的Web攻击阶段分析方法及系统 | |
CN111274218A (zh) | 一种电力信息系统多源日志数据处理方法 | |
CN114244564A (zh) | 攻击防御方法、装置、设备及可读存储介质 | |
US7451145B1 (en) | Method and apparatus for recursively analyzing log file data in a network | |
CN113572757B (zh) | 服务器访问风险监测方法及装置 | |
CN115242434A (zh) | 应用程序接口api的识别方法及装置 | |
CN111625700B (zh) | 防抓取的方法、装置、设备及计算机存储介质 | |
CN107911232B (zh) | 一种确定业务操作规则的方法及装置 | |
CN111460337B (zh) | 一种url识别率的分析方法及装置 | |
CN111901199A (zh) | 一种基于海量数据的快速预警匹配实现方法 | |
CN112528325B (zh) | 一种数据信息的安全处理方法及系统 | |
CN111770097A (zh) | 一种基于白名单的内容锁防火墙方法及系统 | |
CN114500122B (zh) | 一种基于多源数据融合的特定网络行为分析方法和系统 | |
CN113608946B (zh) | 基于特征工程和表示学习的机器行为识别方法 | |
CN116108111A (zh) | 一种数据分析管理用分析系统 | |
CN112287252B (zh) | 网站域名劫持检测方法、装置、设备及存储介质 | |
CN115392238A (zh) | 一种设备识别方法、装置、设备及可读存储介质 | |
CN114579809A (zh) | 事件分析方法、装置、电子设备及存储介质 | |
CN112347333A (zh) | 一种数据库的事件关联方法与审计系统 | |
KR100906449B1 (ko) | 데이터베이스 툴 식별 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |