CN112579931A - 网络访问分析方法、装置、计算机设备和存储介质 - Google Patents

网络访问分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112579931A
CN112579931A CN202011437017.5A CN202011437017A CN112579931A CN 112579931 A CN112579931 A CN 112579931A CN 202011437017 A CN202011437017 A CN 202011437017A CN 112579931 A CN112579931 A CN 112579931A
Authority
CN
China
Prior art keywords
field
access
target
type
field value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011437017.5A
Other languages
English (en)
Inventor
梁广鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011437017.5A priority Critical patent/CN112579931A/zh
Publication of CN112579931A publication Critical patent/CN112579931A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种网络访问分析方法、装置、计算机设备和存储介质。所述方法包括:获取目标访问地址集合;所述目标访问地址集合包括多个目标访问地址;提取各个目标访问地址中包含的目标字段和对应的字段值;基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型;基于各个目标字段和对应的字段类型生成所述目标访问地址集合对应的访问解析结果;所述访问解析结果用于对待处理访问地址进行访问处理。采用本方法能够提高访问查询、访问分析的效率。

Description

网络访问分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种网络访问分析方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,网络上的信息资源日益丰富。用户可以通过URL(UniformResource Locator,统一资源定位符)访问网络上的资源。URL是指信息资源在网络上统一且唯一的地址。
传统技术中,对于URL的查询,用户需要准确知道待查询URL中包含的参数,基于已知参数去查询相应的URL。然而,对于未知参数的URL,用户就无法查询到对应的URL,导致URL查询效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高URL查询效率的网络访问分析方法、装置、计算机设备和存储介质。
一种网络访问分析方法,所述方法包括:
获取目标访问地址集合;目标访问地址集合包括多个目标访问地址;
提取各个目标访问地址中包含的目标字段和对应的字段值;
基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型;
基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果;访问解析结果用于对待处理访问地址进行访问处理。
在一个实施例中,获取目标访问地址集合,包括:获取多个候选访问地址;将同一访问接口对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合;从各个候选访问地址集合中确定所述目标访问地址集合。
在一个实施例中,将同一访问接口对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合,包括:提取候选访问地址中包含的访问主机信息和访问路径信息;将同一访问主机信息、访问路径信息对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合。
在一个实施例中,提取各个目标访问地址中包含的目标字段和对应的字段值,包括:获取分割标识符;基于分割标识符将目标访问地址分割为多个候选字段和对应的候选字段值;基于分割标识符的类型从多个候选字段中确定目标字段,得到目标字段和对应的字段值。
在一个实施例中,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,包括:统计当前字段对应的各个字段值中各个字符的出现次数和当前字段对应的字段值数量;基于各个字符出现的次数和字段值数量计算各个字符的出现概率;基于各个字符的出现概率确定字符间的概率距离;当概率距离小于第二预设阈值时,确定当前字段对应的字段类型为无效字段类型。
一种网络访问分析装置,所述装置包括:
访问地址获取模块,用于获取目标访问地址集合;目标访问地址集合包括多个目标访问地址;
字段信息获取模块,用于提取各个目标访问地址中包含的目标字段和对应的字段值;
字段类型确定模块,用于基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型;
访问解析结果确定模块,用于基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果;访问解析结果用于对待处理访问地址进行访问处理。
在一个实施例中,访问地址获取模块还用于获取多个候选访问地址;将同一访问接口对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合;从各个候选访问地址集合中确定目标访问地址集合。
在一个实施例中,访问地址获取模块还用于提取候选访问地址中包含的访问主机信息和访问路径信息;将同一访问主机信息、访问路径信息对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合。
在一个实施例中,字段信息获取模块还用于获取分割标识符;基于分割标识符将目标访问地址分割为多个候选字段和对应的候选字段值;基于分割标识符的类型从多个候选字段中确定目标字段,得到目标字段和对应的字段值。
在一个实施例中,字段类型确定模块还用于从当前字段对应的各个字段值中确定参考字段值;基于参考字段值的特征信息确定当前字段的参考字段类型;从当前字段对应的各个字段值中选取目标比例的字段值作为中间字段值;基于参考字段类型对应的字段类型解析算法对各个中间字段值的特征信息进行解析,得到字段值解析结果;当字段值解析结果满足预设条件时,确定当前字段对应的字段类型为参考字段类型。
在一个实施例中,字段类型确定模块还用于基于各个预设字段类型对应的字段类型解析算法分别对参考字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果;将字段值解析结果为解析成功的字段类型解析算法所对应的预设字段类型作为参考字段类型。
在一个实施例中,字段类型确定模块还用于基于基础字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第一字段值解析结果;基础字段类型包括时间类型、敏感类型和业务类型中的至少一种;基于自定义字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第二字段值解析结果;基于无效字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第三字段值解析结果。
在一个实施例中,字段类型确定模块还用于当基础字段类型为时间类型时,基于至少一种时间解析函数对参考字段值的特征信息进行解析,得到第一字段值解析结果。字段类型确定模块还用于当基础字段类型为敏感类型时,获取多种预设敏感信息分别对应的标准特征信息,将参考字段值的特征信息分别和各个标准特征信息进行匹配,根据匹配结果得到第一字段值解析结果。字段类型确定模块还用于当基础字段类型为业务类型时,从参考字段值中识别子字符串,得到多个参考字符串,将各个参考字符串分别和预设标准词典中的标准字符串进行匹配,根据匹配结果得到第一字段值解析结果。
在一个实施例中,字段类型确定模块还用于获取配置文件;配置文件包括多种自定义字段和各种自定义字段对应的字段值描述信息,字段值描述信息包括正则表达式、逻辑表达式、运算符表达式中的至少一种;将参考字段值的特征信息和字段值描述信息进行匹配;根据匹配结果得到第二字段值解析结果。
在一个实施例中,字段类型确定模块还用于根据参考字段值的各个字符计算参考字段值对应的信息熵,获取标准信息熵,基于参考字段值对应的信息熵和标准信息熵的比较结果得到第三字段值解析结果。字段类型确定模块还用于将参考字段值的特征信息输入字段值解析模型,得到第三字段值解析结果;字段值解析模型是基于无效字段类型对应的正向字段值样本和负向字段值样本训练得到的。
在一个实施例中,字段类型确定模块还用于基于字段值解析结果计算解析成功率;当解析成功率大于第一预设阈值时,确定当前字段对应的字段类型为参考字段类型。
在一个实施例中,字段类型确定模块还用于统计当前字段对应的各个字段值中各个字符的出现次数和当前字段对应的字段值数量;基于各个字符出现的次数和字段值数量计算各个字符的出现概率;基于各个字符的出现概率确定字符间的概率距离;当概率距离小于第二预设阈值时,确定当前字段对应的字段类型为无效字段类型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标访问地址集合;目标访问地址集合包括多个目标访问地址;
提取各个目标访问地址中包含的目标字段和对应的字段值;
基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型;
基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果;访问解析结果用于对待处理访问地址进行访问处理。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标访问地址集合;目标访问地址集合包括多个目标访问地址;
提取各个目标访问地址中包含的目标字段和对应的字段值;
基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型;
基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果;访问解析结果用于对待处理访问地址进行访问处理。
一种网络访问分析方法,所述方法包括:
获取访问查询请求;访问查询请求携带待查询访问地址对应的待查询字段类型;
获取目标访问地址集合和对应的访问解析结果;目标访问地址集合包括多个目标访问地址,访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的;
从访问解析结果中获取待查询字段类型对应的目标字段;
从目标访问地址集合中获取与待查询字段类型对应的目标字段相匹配的目标查询结果;目标查询结果包括目标访问地址和字段值中的至少一种;
向访问查询请求对应的发送方返回目标查询结果。
一种网络访问分析装置,所述装置包括:
请求获取模块,用于获取访问查询请求;访问查询请求携带待查询访问地址对应的待查询字段类型;
访问解析结果获取模块,用于获取目标访问地址集合和对应的访问解析结果;目标访问地址集合包括多个目标访问地址,访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的;
字段信息确定模块,用于从访问解析结果中获取待查询字段类型对应的目标字段;
查询结果确定模块,用于从目标访问地址集合中获取与待查询字段类型对应的目标字段相匹配的目标查询结果;目标查询结果包括目标访问地址和字段值中的至少一种;
查询结果发送模块,用于向访问查询请求对应的发送方返回目标查询结果。
在一个实施例中,请求获取模块还用于获取访问分析请求;访问分析请求携带待分析访问地址。字段信息确定模块还用于提取待分析访问地址中包含的待分析字段和对应的待分析字段值;从访问解析结果中获取待分析字段对应的目标字段类型;基于目标字段类型和待分析字段值生成待分析访问地址对应的访问分析参考信息。查询结果发送模块还用于向访问分析请求对应的发送方返回访问分析参考信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取访问查询请求;访问查询请求携带待查询访问地址对应的待查询字段类型;
获取目标访问地址集合和对应的访问解析结果;目标访问地址集合包括多个目标访问地址,访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的;
从访问解析结果中获取待查询字段类型对应的目标字段;
从目标访问地址集合中获取与待查询字段类型对应的目标字段相匹配的目标查询结果;目标查询结果包括目标访问地址和字段值中的至少一种;
向访问查询请求对应的发送方返回目标查询结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取访问查询请求;访问查询请求携带待查询访问地址对应的待查询字段类型;
获取目标访问地址集合和对应的访问解析结果;目标访问地址集合包括多个目标访问地址,访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的;
从访问解析结果中获取待查询字段类型对应的目标字段;
从目标访问地址集合中获取与待查询字段类型对应的目标字段相匹配的目标查询结果;目标查询结果包括目标访问地址和字段值中的至少一种;
向访问查询请求对应的发送方返回目标查询结果。
上述网络访问分析方法、装置、计算机设备和存储介质,通过获取目标访问地址集合,目标访问地址集合包括多个目标访问地址,提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果,访问解析结果用于对待处理访问地址进行访问处理。这样,基于同一目标字段对应的各个字段值的特征信息可以分析出对应的目标字段的字段类型,基于目标字段的字段类型可以确定目标字段的作用,进而后续在查询访问地址时,无需知道待查询访问地址的详细参数,基于待查询访问地址的作用就可以查询到相应的访问地址,提高了访问地址的查询效率。此外,后续在分析新的访问地址时,基于访问解析结果和待分析访问地址的具体参数就可以确定待分析访问地址的作用,访问地址的作用可以便于用户快速了解访问地址,从而将已知作用的访问地址应用于业务分析和算法开发。
附图说明
图1为一个实施例中网络访问分析方法的应用环境图;
图2为一个实施例中网络访问分析方法的流程示意图;
图3为一个实施例中确定目标字段的字段类型的流程示意图;
图4为一个实施例中确定当前字段的参考字段类型的流程示意图;
图5为另一个实施例中确定当前字段的参考字段类型的流程示意图;
图6为另一个实施例中网络访问分析方法的流程示意图;
图7为又一个实施例中网络访问分析方法的流程示意图;
图8为一个实施例中生成访问解析结果的流程示意图;
图9A为一个实施例中访问解析界面的界面示意图;
图9B为一个实施例中访问查询界面的界面示意图;
图9C为一个实施例中访问分析界面的界面示意图;
图10为一个实施例中网络访问分析装置的结构框图;
图11为另一个实施例中网络访问分析装置的结构框图;
图12为一个实施例中计算机设备的内部结构图;
图13为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的网络访问分析方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
终端102和服务器104均可单独用于执行本申请实施例中提供的网络访问分析方法。例如,终端102获取目标访问地址集合,目标访问地址集合包括多个目标访问地址。终端102提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型生成所述目标访问地址集合对应的访问解析结果,访问解析结果用于对待处理访问地址进行访问处理。
终端102和服务器104也可协同用于执行本申请实施例中提供的网络访问分析方法。例如,服务器104从终端102获取目标访问地址集合,目标访问地址集合包括多个目标访问地址。服务器104提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型生成所述目标访问地址集合对应的访问解析结果,访问解析结果用于对待处理访问地址进行访问处理。
在一个实施例中,如图2所示,提供了一种网络访问分析方法,以该方法应用于图1中的计算机设备为例进行说明,计算机设备可以是上述图1中的终端102或服务器104。参照图2,网络访问分析方法包括以下步骤:
步骤S202,获取目标访问地址集合,目标访问地址集合包括多个目标访问地址。
其中,访问地址是指信息资源在网络上的访问地址。例如,访问地址可以是http请求中的URL,访问地址也可以是http请求中的post请求体。目标访问地址集合包括多个目标访问地址。目标访问地址是指待处理的访问地址。
具体地,计算机设备可以从不同渠道获取目标访问地址集合,渠道包括但不限于各种数据库、中间件、日志文件、用户输入等。其中,中间件是介于应用系统和系统软件之间的一类软件,它使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,能够达到资源共享、功能共享的目的,因此可以从中间件获取目标访问地址集合。通常情况下,中间件会将目标访问地址保持到日志文件中,因此可以从日志文件中读取目标访问地址集合。
在一个实施例中,由于从不同渠道获取到的目标访问地址纷繁复杂,因此,为了提高访问处理的效率和准确性,计算机设备可以先将从不同渠道获取到的访问地址作为候选访问地址,对各个候选访问地址进行分类,得到多个候选访问地址集合,将各个候选访问地址集合分别作为目标访问地址集合进行访问分析,得到各个候选访问地址集合对应的访问解析结果。其中,进行分类具体可以是将同一访问接口对应的候选访问地址归入同一个候选访问地址集合。
步骤S204,提取各个目标访问地址中包含的目标字段和对应的字段值。
其中,目标字段是指通过目标访问地址传递的目标参数。通过访问地址可以传递至少一个参数,一个参数可以对应至少一个参数值,也就是,从一个访问地址中可以提取到至少一个目标字段和各个目标字段对应的字段值。不同的目标访问地址可以包含相同的目标字段,也可以包含不同的目标字段。同一目标字段在不同的目标访问地址中可以对应相同的字段值,也可以对应不同的字段值。
具体地,计算机设备可以基于目标访问地址的结构从目标访问地址中提取目标字段和对应的字段值。当目标访问地址集合包括大量的目标访问地址时,最终可以提取到多个目标字段和各个目标字段分别对应的多个字段值。
在一个实施例中,get和post是http请求的两种请求方式。get请求方式通过URL传递参数,因此可以从URL中提取目标参数和对应的参数值。post请求通过请求体传递参数,因此可以从请求体中提取目标参数和对应的参数值。
在一个实施例中,提取各个目标访问地址中包含的目标字段和对应的字段值,包括:获取分割标识符;基于分割标识符将目标访问地址分割为多个候选字段和对应的候选字段值;基于分割标识符的类型从多个候选字段中确定目标字段,得到目标字段和对应的字段值。
其中,访问地址的结构可以为[协议类型]://[域名或服务器地址]:[端口号]/[目录]/[文件名]?[查询]#[信息片段]。[协议类型]对应的可以是HTTP协议、HTTPS协议等符合上述结构的协议。[查询]用于传递目标参数,所传递的目标参数可以为至少一个,当传递的目标参数为多个时,各个目标参数用“&”符号隔开,每个目标参数和对应的参数值用“=”符号隔开。分割标识符可以为“/”、“&”、“?”和“#”。
具体地,计算机设备可以基于分割标识符对目标访问地址进行分割,将目标访问地址分割为多个候选字段和对应的候选字段值,其中,有的候选字段没有字段值,有的候选字段有对应的字段值。计算机设备再基于分割标识符的类型从各个候选字段中确定目标字段,最终得到目标字段和对应的字段值。具体可以是将“?”和“&”之间的候选字段作为目标字段,将“&”和“&”之间的候选字段作为目标字段,将最后一个“&”和“#”之间的候选字段作为目标字段。此外,若最后一个分割标识符为“&”,将最后一个“&”之后的候选字段也作为目标字段。
举例说明,一个目标访问地址为http://x.com/index.php?a=1&a=2&b=login,基于分割标识符分割得到的候选字段和对应的字段值为:http:,x.com,index.php,a=1,a=2,b=login。其中的目标字段包括“a”、“b”,目标字段“a”对应的字段值包括1和2,目标字段“b”对应的字段值为login。
步骤S206,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型。
其中,字段值的特征信息包括字段值的各个字符、字段值的长度等信息。
具体地,目标字段(目标参数)往往是用一个简单的字符串来标识,该字符串本身并不能反映目标字段的具体含义、作用,但是同一目标字段对应的各个字段值之间是存在一定的共性,因此,通过对字段值的大数据分析可以确定对应的目标字段的字段类型,根据目标字段的字段类型就可以确定目标字段的具体含义、作用。计算机设备可以基于同一目标字段对应的各个字段值的特征信息来确定对应的目标字段的字段类型。
举例说明,目标字段为“a”,该目标字段对应的字段值包括“2020-10-2611:21:23”、“1600508494”、“2020/8/19 17:41:34”。基于字段值的特征信息分析得到这些字段值都是表示时间戳,因此,可以确定目标字段“a”的字段类型为时间类型,目标字段“a”是作为时间戳使用的。
在一个实施例中,一个字段类型的目标字段对应的字段值具有该字段类型的专有特点,因此,可以基于字段类型的专有特点设置相应的字段类型解析算法,基于各种字段类型解析算法来判断目标字段的字段类型。具体地,计算机设备可以基于各个预设字段类型对应的字段类型解析算法分别对同一目标字段对应的各个字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果。当其中一种字段类型解析算法对应的字段值解析结果为大部分字段值都解析成功或全部字段值都解析成功时,可以确定该目标字段对应的字段类型为该字段类型解析算法对应的预设字段类型。其中,预设字段类型包括时间类型、敏感信息类型、业务类型、自定义类型和无效类型中的至少一种。
步骤S208,基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果;访问解析结果用于对待处理访问地址进行访问处理。
其中,待处理访问地址包括待查询访问地址和待分析访问地址中的至少一种。相应的,访问处理包括访问查询和访问分析中的至少一种。访问查询是用于从大量的访问地址中查询具体的访问地址或者查询具体的参数和参数值。访问分析是用于分析具体的访问地址的访问作用。
具体地,计算机设备可以基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果。计算机设备可以将访问解析结果存储在本地,例如,生成日志文件,存储到数据库中,也可以将访问解析结果向用户进行展示,例如通过页面进行展示。后续,基于访问解析结果,计算机设备可以执行访问查询任务和访问分析任务中的至少一种。
在一个实施例中,可以将目标字段和对应的字段类型进行规范化输出,得到访问解析结果。例如,访问解析结果可以是目标字段“a”的字段类型为时间类型,“a”是作为时间戳使用的,目标字段“b”的字段类型为敏感类型,“b”是作为敏感信息使用的,目标字段“g”的字段类型为无效类型,“g”参数是作为随机数使用的。进一步的,访问解析结果还可以包括访问接口,以便区分相同的目标字段在不同访问接口对应的访问地址中的作用。例如,A接口的目标字段“a”的字段类型为时间类型,A接口的“a”是作为时间戳使用的,B接口的目标字段“a”的字段类型为敏感类型,B接口的“a”是作为传递敏感信息使用的。进一步的,访问解析结果还可以包括字段值的解析成功率。例如,A接口的目标字段“a”的解析成功率为80%,对应的字段类型大概率为时间类型,对应的作用大概率是作为时间戳使用的。解析成功率可以作为业务分析人员、算法开发人员的一个参考参数或使用参数。
在一个实施例中,进行访问分析具体可以是获取访问查询请求,访问查询请求携带待查询访问地址对应的待查询字段类型,从访问解析结果中获取待查询字段类型对应的目标字段,从目标访问地址集合中获取与待查询字段类型对应的目标字段相匹配的目标访问信息,目标访问信息包括目标访问地址和目标字段值中的至少一种,向访问查询请求对应的发送方返回目标访问信息。
其中,访问查询请求是用于请求查询访问地址、字段值(参数值)中的至少一种访问信息。待查询访问地址是指待查询的访问地址。待查询字段类型是指待查询访问地址中包含的目标字段的字段类型。
具体地,当用户想要查询具体的访问地址或者具体的参数值时,用户可以设置相应的查询条件,根据查询条件生成访问查询请求。查询条件具体可以是待查询访问地址对应的待查询字段类型。计算机设备可以接收用户通过其他计算机设备发送过来的访问查询请求或者用户在本地触发生成的访问查询请求。当接收到访问查询请求后,计算机设备可以从目标访问地址集合对应的访问解析结果中查找待查询字段类型对应的目标字段,进而从目标访问地址集合中查找与该目标字段相匹配的目标访问信息。当用户想要查询具体的访问地址时,目标访问信息为与该目标字段相匹配的至少一个目标访问地址。当用户想要查询具体的参数值时,目标访问信息可以是与该目标字段相匹配的至少一个字段值。最后,计算机设备将查询到的目标访问信息向访问查询请求对应的发送方返回。
举例说明,用户想要查询包含时间信息、敏感信息的目标访问地址,那么用户可以触发生成访问查询请求,该访问查询请求携带的查询条件可以为访问地址中的目标字段包括时间类型和敏感类型的字段。计算机设备获取到该访问查询请求后,可以从访问解析结果中查询时间类型字段对应的目标字段为“a”、敏感类型对应的目标字段为“b”,进而从目标访问地址集合中查询包含“a”和“b”的目标访问地址,将查询到的目标访问地址向用户返回。
在一个实施例中,访问查询请求可以进一步携带访问接口,以缩小查询范围,提高查询效率。
在一个实施例中,进行访问分析具体可以是获取访问分析请求,访问分析请求携带待分析访问地址,提取待分析访问地址中包含的待分析字段和对应的待分析字段值,从访问解析结果中获取待分析字段对应的目标字段类型,基于目标字段类型和待分析字段值生成待分析访问地址对应的访问分析参考信息,向访问分析请求对应的发送方返回访问分析参考信息。
其中,访问分析请求是用于请求对访问地址进行分析。访问分析参考信息是指待分析访问地址的访问作用的参考分析结果,用于描述待分析访问地址的访问作用,以供用户参考。
具体地,当用户想要了解一个访问地址的作用时,用户可以触发生成访问分析请求,该访问分析请求携带待分析访问地址。计算机设备可以接收用户通过其他计算机设备发送过来的访问分析请求或者用户在本地触发生成的访问分析请求。当接收到访问分析请求后,计算机设备可以从待分析访问地址中提取相应的待分析字段和对应的待分析字段值,从访问解析结果中查找该待分析字段对应的字段类型,基于该待分析字段对应的字段类型和字段值生成待分析访问地址对应的访问分析参考信息。最后,计算机设备可以向访问分析请求对应的发送方返回访问分析参考信息。
举例说明,待分析访问地址为http://x.com/index.php?a=x&b=xx&c=xxx。基于访问解析结果可知“a”的字段类型为时间类型,“b”的字段类型为敏感类型,“c”的字段类型为业务类型,对应的业务为查询业务。综合上述信息可以得到待分析访问地址的访问分析参考信息为该待分析访问地址是应用在查询业务场景下,在该业务场景下需要传递敏感信息,该敏感信息为“xx”,“x”表示发送或生成该敏感信息的时间戳。用户通过查收该访问分析参考信息就可以大致获知该待分析访问地址的作用,进而有助于业务分析和算法开发。
上述网络访问分析方法中,通过获取目标访问地址集合,目标访问地址集合包括多个目标访问地址,提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果,访问解析结果用于对待处理访问地址进行访问处理。这样,基于同一目标字段对应的各个字段值的特征信息可以分析出对应的目标字段的字段类型,基于目标字段的字段类型可以确定目标字段的作用,进而后续在查询访问地址时,无需知道待查询访问地址的详细参数,基于待查询访问地址的作用就可以查询到相应的访问地址,提高了访问地址的查询效率。此外,后续在分析新的访问地址时,基于访问解析结果和待分析访问地址的具体参数就可以确定待分析访问地址的作用,访问地址的作用可以便于用户快速了解访问地址,从而将已知作用的访问地址应用于业务分析和算法开发。
在一个实施例中,获取目标访问地址集合,包括:获取多个候选访问地址;将同一访问接口对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合;从各个候选访问地址集合中确定目标访问地址集合。
具体地,为了提高访问处理的效率和准确性,在对访问地址进行处理前,计算机设备可以对访问地址进行分类。计算机设备可以从不同渠道获取大量的候选访问地址,将同一访问接口对应的候选访问地址进行聚合,也就是将同一访问接口对应的候选访问地址归为一类,从而得到各个访问接口对应的候选访问地址集合。计算机设备可以从各个候选访问地址集合中随机选取一个候选访问地址集合作为目标访问地址集合,也可以将各个候选访问地址集合依次作为目标访问地址集合,对目标访问地址集合进行访问处理,得到对应的访问解析结果。其中,当两个访问地址中的访问主机信息和访问路径信息均一致时,可以确定这两个访问地址是具备相同访问接口的访问地址。
在一个实施例中,将同一访问接口对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合,包括:提取候选访问地址中包含的访问主机信息和访问路径信息;将同一访问主机信息、访问路径信息对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合。
其中,访问主机信息是指访问地址中的访问域名或服务器地址。访问路径信息是指访问地址中的目录和文件名。例如,http://x.com/index.php?a=1和https://x.com/index.php?a=2尽管协议类型不一样,一个为http,一个为https,但是访问主机信息相同,都为x.com,访问路径信息相同,都为index.php,因此二者具有相同的接口。http://x.com/index.php?a=1和http://x.com/start.php?a=1不具备相同的接口,因为访问路径信息不一样,一个为index.php,一个为start.php。http://x.com:8080/index.php?a=1、http://x.com:8088/index.php?a=1和http://x.com/index.php?a=1具有相同的接口,尽管端口号不一样,一个为8080、一个为8088、另一个为默认端口号80。
具体地,计算机设备提取候选访问地址中包含的访问主机信息和访问路径信息,将同一访问主机信息、访问路径信息对应的候选访问地址进行聚合,也就是,将同一访问主机信息、访问路径信息对应的候选访问地址归为一类,从而得到各个访问接口分别对应的候选访问地址集合。
可以理解,同一访问接口对应的各个候选访问地址包含的相同目标字段的字段值存在共性,因此,对同一访问接口对应的各个候选访问地址包含的目字段和对应的字段值进行处理可以得到比较准确的访问解析结果。此外,不同的访问接口对应的候选访问地址可能包含相同的目标字段,但是目标字段对应的字段类型可能不同,目标字段的具体含义可能不同,因此,对同一访问接口对应的各个候选访问地址包含的目字段和对应的字段值进行处理可以得到比较准确的访问解析结果,有效避免其他访问接口对应的候选访问地址中同一目标字段的字段值扰乱当前访问接口对应的访问解析结果。
本实施例中,通过将同一访问主机信息、访问路径信息对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合,从各个候选访问地址集合中确定目标访问地址集合,能够保障目标访问地址集合中的目标访问地址对应的相同的访问接口,进而能够保障后续访问解析结果的准确性,从而保障后续访问分析、访问查询的准确性。
在一个实施例中,如图3所示,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,包括:
步骤S302,从当前字段对应的各个字段值中确定参考字段值。
具体地,为了提高当前字段的字段类型的确定效率,计算机设备可以从当前字段对应的各个字段值中随机选取一个字段值作为参考字段值,先从众多字段类型中根据参考字段值确定一个字段类型作为参考字段类型,再根据当前字段剩余的字段值判断参考字段类型是不是当前字段最终的字段类型。这样,可以快速确定当前字段的字段类型的判断方向,从而提高当前字段的字段类型的确定效率。
步骤S304,基于参考字段值的特征信息确定当前字段的参考字段类型。
具体地,当确定参考字段值后,计算机设备可以基于参考字段值的特征信息确定当前字段的参考字段类型。确定当前字段的参考字段类型具体可以是基于各个预设字段类型对应的字段类型解析算法分别对参考字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果。当其中一种字段类型解析算法对应的字段值解析结果为解析成功时,可以确定当前字段的参考字段类型为该字段类型解析算法对应的预设字段类型。
步骤S306,从当前字段对应的各个字段值中选取目标比例的字段值作为中间字段值。
步骤S308,基于参考字段类型对应的字段类型解析算法对各个中间字段值的特征信息进行解析,得到字段值解析结果。
具体地,当确定当前字段的参考字段类型后,计算机设备可以从当前字段对应的各个字段值中选取目标比例的字段值作为中间字段值,此时就无需基于所有预设字段类型对应的字段类型解析算法对各个中间字段值的特征信息进行解析,可以直接基于参考字段类型对应的字段类型解析算法对各个中间字段值的特征信息进行解析,得到对应的字段值解析结果。其中,目标比例可以是根据实际需要进行设置的比例,例如80%。
步骤S310,当字段值解析结果满足预设条件时,确定当前字段对应的字段类型为参考字段类型。
具体地,当基于参考字段类型对应的字段类型解析算法对各个中间字段值的特征信息进行解析得到的字段值解析结果满足预设条件时,计算机设备可以确定当前字段对应的字段类型为参考字段类型。当字段值解析结果不满足预设条件时,计算机设备可以从当前字段对应的各个字段值中重新选取一个字段值作为新的参考字段值,重复上述过程,直至字段值解析结果满足预设条件,将相应的参考字段类型作为当前字段对应的字段类型。
在一个实施例中,当字段值解析结果满足预设条件时,确定当前字段对应的字段类型为参考字段类型,包括:基于字段值解析结果计算解析成功率;当解析成功率大于第一预设阈值时,确定当前字段对应的字段类型为参考字段类型。
具体地,计算机设备可以根据各个中间字段值分别对应的字段值解析结果计算解析成功率。当计算得到的解析成功率大于第一预设阈值时,计算机设备可以确定当前字段对应的字段类型为参考字段类型。其中,第一预设阈值可以是根据实际需要进行设置的阈值,例如80%。
举例说明,从目标字段“a”对应的各个字段值中随机选一个字段值作为参考字段值,通过时间解析函数对参考字段值进行解析,如果解析成功,则初步判断目标字段“a”的参考字段类型为时间类型,如果解析失败,则通过其他字段值解析算法对参考字段值进行解析。如果解析成功,从目标字段“a”对应的各个字段值中取出80%的字段值作为中间字段值,通过时间解析函数分别对各个中间字段值进行解析,如果都能解析成功,则最终确定目标字段“a”的字段类型为时间类型,可以生成“xxx接口的‘a’字段是作为时间戳使用”这样的访问解析结果。如果不能都解析成功,但是解析成功率大于80%,也可以最终确定目标字段“a”的字段类型为时间类型,可以生成“xxx接口的‘a’字段是作为时间戳使用”或者“xxx接口的‘a’字段大概率是作为时间戳使用”这样的访问解析结果。如果解析成功率为50%,则认为解析失败,继续通过其他字段值解析算法对参考字段值进行解析。例如,将参考字段值的特征信息和常见敏感信息的特征信息进行匹配,如果匹配成功,则确定解析成功,则初步判断目标字段“a”的参考字段类型为敏感类型。进一步的,从目标字段“a”对应的各个字段值中取出80%的字段值作为中间字段值,将各个中间字段值的特征信息和常见敏感信息的特征信息进行匹配,如果都匹配成功,则最终确定目标字段“a”的字段类型为敏感类型,可以生成“xxx接口的‘a’字段是作为传递敏感信息使用”这样的访问解析结果。如果不能都解析成功,但是解析成功率大于80%,也可以最终确定目标字段“a”的字段类型为敏感类型,可以生成“xxx接口的‘a’字段是作为传递敏感信息使用”或者“xxx接口的‘a’字段大概率是作为传递敏感信息使用”这样的访问解析结果。以此类推,最终确定各个目标字段的字段类型。
本实施例中,通过从当前字段对应的各个字段值中确定参考字段值,基于参考字段值的特征信息确定当前字段的参考字段类型,从当前字段对应的各个字段值中选取目标比例的字段值作为中间字段值,基于参考字段类型对应的字段类型解析算法对各个中间字段值的特征信息进行解析,得到字段值解析结果,当字段值解析结果满足预设条件时,确定当前字段对应的字段类型为参考字段类型。这样,先基于小样本初步判断当前字段的字段类型,再基于大样本最终确定当前字段的字段类型,能够提高字段类型的确定效率和准确性,进而提高访问解析结果的确定效率,从而提高访问查询、访问分析的效率。
在一个实施例中,如图4所示,基于参考字段值的特征信息确定当前字段的参考字段类型,包括:
步骤S402,基于各个预设字段类型对应的字段类型解析算法分别对参考字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果。
步骤S404,将字段值解析结果为解析成功的字段类型解析算法所对应的预设字段类型作为参考字段类型。
具体地,计算机设备可以获取各个预设字段类型对应的字段类型解析算法,基于各个预设字段类型对应的字段类型解析算法分别对参考字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果。当其中一种字段类型解析算法对应的字段值解析结果为解析成功时,确定参考字段类型为该字段类型解析算法对应的预设字段类型。由于各个预设字段类型对应的字段值的特征信息彼此之间区别较大,因此,当首次出现解析成功时,就可以停止通过其他字段类型解析算法对参考字段值的特征信息进行解析,从而节省解析时间,提高解析效率。
在一个实施例中,如图5所示,基于各个预设字段类型对应的字段类型解析算法分别对参考字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果,包括:
步骤S502,基于基础字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第一字段值解析结果;基础字段类型包括时间类型、敏感类型和业务类型中的至少一种。
其中,基础字段类型是指简单、基础、常见的字段类型。基础字段类型包括时间类型、敏感类型和业务类型中的至少一种。时间类型的字段对应的字段值为具体的时间信息。敏感类型的字段对应的字段值为具体的敏感信息,例如身份证号码/手机号码/银行卡或其他常见敏感信息,敏感信息表征用户的身份和隐私。业务类型的字段对应的字段值为具体的业务参数,例如登录(login)、查询(query)、删除(delete)等业务参数。
具体地,预设字段类型可以分为三大类,包括基础字段类型、自定义字段类型和无效字段类型。基础字段类型又包括时间类型、敏感类型和业务类型中的至少一种。不同的字段类型对应不同的字段类型解析算法。计算机设备可以基于基础字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第一字段值解析结果。计算机设备根据第一字段值解析结果可以判断当前字段的参考字段类型是否为基础字段类型,并且还可以进一步判断当前字段的参考字段类型具体是时间类型,还是敏感类型,还是业务类型。
步骤S504,基于自定义字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第二字段值解析结果。
其中,自定义字段类型是指用户自定义的字段类型。
具体地,计算机设备可以基于自定义字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第二字段值解析结果。计算机设备根据第二字段值解析结果可以判断当前字段的参考字段类型是否为自定义字段类型,并且还可以进一步判断当前字段的参考字段类型具体是哪个自定义字段。
步骤S506,基于无效字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第三字段值解析结果。
其中,无效字段类型的字段对应的字段值为没有实际含义的随机数。基础字段类型和自定义字段类型均为有效、有用的字段类型。
具体地,计算机设备可以基于无效字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第三字段值解析结果。计算机设备根据第三字段值解析结果可以判断当前字段的参考字段类型是否为无效字段类型。
在一个实施例中,计算机设备可以统计各种字段类型解析算法需要耗费的解析时间,得到各种字段类型解析算法对应的解析时间,按照解析时间的时间顺序确定各种字段类型解析算法的解析优先级,解析时间越短,解析优先级越高。例如,若解析时间的时间顺序为时间类型<敏感类型<业务类型<自定义字段类型<无效字段类型,那么各种字段类型解析算法的解析优先级为时间类型>敏感类型>业务类型>自定义字段类型>无效字段类型。因此,计算机设备可以优先基于时间类型对应的字段类型解析算法对参考字段值的特征信息进行解析,如果解析成功,则无需通过其他字段类型解析算法进行解析,如果解析失败,再基于敏感类型对应的字段类型解析算法对参考字段值的特征信息进行解析,如果解析成功,则无需通过其他字段类型解析算法进行解析,如果解析失败,再基于业务类型对应的字段类型解析算法对参考字段值的特征信息进行解析,以此类推。这样,优先基于解析时间较短的字段类型解析算法对参考字段值的特征信息进行解析,可以有效节约解析时间,提高解析效率。
本实施例中,通过基于基础字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第一字段值解析结果,基于自定义字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第二字段值解析结果,基于无效字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第三字段值解析结果。这样,基于预先设置的多种字段类型解析算法可以快速、准确地确定当前字段的参考字段类型。
在一个实施例中,基于基础字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第一字段值解析结果包括以下方式中的至少一种:当基础字段类型为时间类型时,基于至少一种时间解析函数对参考字段值的特征信息进行解析,得到第一字段值解析结果;当基础字段类型为敏感类型时,获取多种预设敏感信息分别对应的标准特征信息,将参考字段值的特征信息分别和各个标准特征信息进行匹配,根据匹配结果得到第一字段值解析结果;当基础字段类型为业务类型时,从参考字段值中识别子字符串,得到多个参考字符串,将各个参考字符串分别和预设标准词典中的标准字符串进行匹配,根据匹配结果得到第一字段值解析结果。
具体地,当基础字段类型为时间类型时,计算机设备可以基于至少一种时间解析函数对参考字段值的特征信息进行解析,得到第一字段值解析结果。时间解析函数是用于解析时间的函数。例如,时间戳函数,时间戳通常包括10位或13位的纯数字字符串,表示格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数,时间戳解析函数可以将总秒数转化为当前时间。例如,通过时间戳函数可以将时间戳“1600508494”成功转换为“2020/9/19 17:41:34”这样的时间格式。当参考字段值的各个字符都是数字时,可以通过时间戳函数对参考字段值的特征信息进行解析,来判断当前字段的参考字段类型是不是时间类型。当参考字段值的各个字符除了数字还包括其他字母或符号时,可以通过其他常见的时间解析函数进行解析。
当基础字段类型为敏感类型时,计算机设备可以获取多种预设敏感信息分别对应的标准特征信息,将参考字段值的特征信息分别和各个标准特征信息进行匹配,根据匹配结果得到第一字段值解析结果。预设敏感信息包括身份证号码、手机号码、银行卡号等常见敏感信息中的至少一种。例如,预设敏感信息为身份证号码,身份证号码的标准特征信息(格式)可以为包括18位字符,第1、2位是省、自治区、直辖市代码,第3、4位是地级市、盟、自治州代码,第5、6位是县、县级市、区代码,第7至14位是出生年月日,第15、16为顺序号,第17位数字为性别代码,第1至17位的数字为0-9,第18位为校验码,数字为0-9和X。当参考字段值的特征信息满足上述格式要求时,确定当前字段的参考字段类型是敏感类型。预设敏感信息为手机号码时,在中国大陆,手机号码的标准特征信息(格式)可以为包括11位数字,第1-3位是运营商代码,第4-7位是地区编码,第8-11位是随机数字。当参考字段值的特征信息满足上述格式要求时,确定当前字段的参考字段类型是敏感类型。银行卡号的标准特征信息(格式)可以为包括19位数字,第1-6位是发行者标识,第7-18位是个人账号标识,第19位是校验码。当参考字段值的特征信息满足上述格式要求时,确定当前字段的参考字段类型是敏感类型。
在一个实施例中,判断参考字符串是否为手机号码还可以进一步通过调用公开的接口或服务验证是否存在该手机号码,若存在,则确定当前字段的参考字段类型是敏感类型。
业务参数是用于表示访问地址在业务场景上的用途。当字段值包括外语单词、中文词语时,可以判断该字段值对应的目标字段的字段类型为业务类型。例如,若一个访问地址是应用于登录业务时,该访问地址中一个目标字段的字段值可以是login,login用于表示登录的意思;若一个访问地址是应用于查询业务时,该访问地址中一个目标字段的字段值可以是query,query用于表示查询的意思。具体地,当基础字段类型为业务类型时,计算机设备可以从参考字段值中识别子字符串,得到多个参考字符串,将各个参考字符串分别和预设标准词典中的标准字符串进行匹配,根据匹配结果得到第一字段值解析结果。从参考字段值中识别子字符串得到多个参考字符串具体可以是从参考字段值中循环截取长度为x到y之间的字符串,即从参考字段值中循环截取长度在预设长度范围内的字符串,得到多个参考字符串。例如,从参考字段值中循环截取长度为3到6之间的字符串。若参考字段值为“aName”,先从长度为3开始截取,截取结果包括“aNa”、“Nam”、“ame”,再截取长度为4的字符串,截取结果包括“aNam”和“Name”,最后截取长度为5的字符串,截取结果为“aName”,基于标准词典在所有截取结果中可以确定“Name”为英文单词,那么可以确定当前字段的参考字段类型是业务类型。从参考字段值中识别子字符串得到多个参考字符串具体还可以是基于分词词典对参考参数值进行分词,得到多个参考字符串。其中,分词词典包括各种常见的语气词、停顿词、数量词等用于切分短句或长句的单词或词语。标准词典包括各种常见的单词或词语。
在一个实施例中,识别出字段值中包含的外语单词或中文词语时,还可以对具体的外语单词或中文词语进行自然语言识别,确定具体的语言含义,从而确定详细的业务用途。例如,英文单词login的中文含义是登录,当目标字段的各个字段值都为login时,可以确定该目标字段的字段类型为业务类型,并且具体对应的业务为登录业务。
本实施例中,基于各种预设字段类型分别对应的至少一种字段类型解析算法可以快速、准确地确定当前字段的参考字段类型。
在一个实施例中,基于自定义字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第二字段值解析结果,包括:获取配置文件;配置文件包括多种自定义字段和各种自定义字段对应的字段值描述信息,字段值描述信息包括正则表达式、逻辑表达式、运算符表达式中的至少一种;将参考字段值的特征信息和字段值描述信息进行匹配;根据匹配结果得到第二字段值解析结果。
其中,配置文件是用于配置用户自定义的字段类型和对应的字段值解析算法。字段值描述信息是用于描述自定义字段对应的字段值的整体特征信息。字段值描述信息支持正则表达式、逻辑表达式、运算符表达式中的至少一种描述方式。正则表达式是是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种判断逻辑。逻辑表达式是用逻辑运算符组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种判断逻辑。运算符表达式是用算术运算符(用于数值运算)、关系运算符(用于比较运算)、逻辑运算符(用于逻辑运算)、赋值运算符(用于赋值运算)等特殊运算符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种判断逻辑。
具体地,计算机设备可以获取配置文件,从配置文件中读取各种自定义字段和各种自定义字段分别对应的字段值描述信息,再将参考字段值的特征信息分别和各种字段值描述信息进行匹配,根据匹配结果得到第二字段值解析结果。当参考字段值与任意一种字段值描述信息匹配成功时,可以确定当前字段的参考字段类型为自定义类型,进一步的,可以将匹配成功的字段值描述信息对应的具体的自定义字段作为具体的自定义字段类型。
举例说明,字段值描述信息为“*name*”以及“登录”,“*name*”是用于匹配的正则表达式,“登录”是指自定义字段的字段类型为登录类型,是作为登录使用的字段。根据该正则表达式可知,若当前字段“a”的参考字段值中包含字符串name时,则可以确定当前字段“a”的参考字段类型是自定义字段类型,可以生成“xxx接口的‘a’字段满足用户的自定义规则,是自定义字段类型,并且具体是作为登录参数使用”这样的访问解析结果。
字段值描述信息为“name and user”以及“登录”,“name and user”是用于匹配的逻辑表达式,“登录”是指自定义字段的字段类型为登录,是作为登录使用的字段。“A andB”表示字段值必须同时包含A和B。根据该逻辑表达式可知,若参考字段值中同时包含字符串name和字符串user,则可以确定当前字段的参考字段类型是自定义字段类型。
字段值描述信息为“name<user&&name*2”以及“登录”,“name<user,name*2”是用于匹配的运算符表达式,“登录”是指自定义字段的字段类型为登录,是作为登录使用的字段。其中,运算符“<”表示某字符串要在某字符串之后出现,运算符“*”表示某字符串要出现的次数,运算符“&&”表示前后条件必须同时满足。那么根据该运算符表达式可知,若参考字段值中包含字符串name和user,并且字符串name需要出现在字符串user的后面,以及出现两个字符串name,则可以确定当前字段的参考字段类型是自定义字段类型。
本实施例中,通过获取配置文件,配置文件包括多种自定义字段和各种自定义字段对应的字段值描述信息,字段值描述信息包括正则表达式、逻辑表达式、运算符表达式中的至少一种,将参考字段值的特征信息和字段值描述信息进行匹配,根据匹配结果得到第二字段值解析结果。这样,对于不常见的字段类型可以通过配置文件,基于自定义的规则进行判断,灵活性较高。配置文件支持灵活的自定义规则,能够让开发人员根据实际需要快速配置对应的解析规则,并且随着使用时间的增长,配置文件可以覆盖更多需要解析的自定义字段。
在一个实施例中,基于无效字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第三字段值解析结果包括以下方式中的至少一种:根据参考字段值的各个字符计算参考字段值对应的信息熵,获取标准信息熵,基于参考字段值对应的信息熵和标准信息熵的比较结果得到第三字段值解析结果;将参考字段值的特征信息输入字段值解析模型,得到第三字段值解析结果;字段值解析模型是基于无效字段类型对应的正向字段值样本和负向字段值样本训练得到的。
其中,信息熵是用于表示字段值的出现概率,可以反映字段值的不确定性、随机性。信息熵越大,字段值的随机性越大。标准信息熵是指对大量的无效类型的字段对应的字段值进行分析得到的综合信息熵,例如,计算大量的随机数的信息熵,将计算得到的信息熵取平均值得到标准信息熵。
在一个实施例中,信息熵的计算公式可以为
Figure BDA0002829448700000251
H表示信息熵,n表示字段值中字符长度,pi表示字段值中第i个字符的随机出现概率。例如,字符串use的长度为3,每个位置的字符均有m种可能的字符,那么字符串use的随机出现概率为
Figure BDA0002829448700000252
具体地,计算机设备可以根据参考字段值的各个字符计算参考字段值对应的信息熵,将计算得到的信息熵和标准信息熵进行比较。当计算得到的信息熵大于或等于标准信息熵时,可以确定当前字段的参考字段类型为无效类型。当计算得到的信息熵小于标准信息熵时,可以确定当前字段的参考字段类型不是无效类型。
在一个实施例中,为了提高判断准确性,不同长度的字段值可以对应的不同的标准信息熵。计算机设备可以计算参考字段值的信息熵,获取同等长度的随机字符串对应的标准信息熵,将参考字段值的信息熵和标准信息熵进行比较,当参考字段值的信息熵大于或等于标准信息熵时,可以确定参考字段值为随机数,当前字段的参考字段类型为无效类型。
计算机设备还可以预先收集用于模型训练的训练样本,训练样本包括正向字段值样本和负向字段值样本,正向字段值样本包括大量的随机数,负向字段值训练样本包括大量不是随机数的字符串,例如,单词、身份证号码等。计算机设备根据训练样本对字段值解析模型进行有监督训练,将字段值作为输入,对应的字段标签(正向或负向)作为预期输出,最终训练得到字段值解析模型。在模型应用时,计算机设备可以将参考字段值的特征信息输入已训练的字段值解析模型,字段值解析模型输出第三字段值解析结果,当字段值解析模型的输出结果为正向标签时,可以确定当前字段的参考字段类型为无效类型,当字段值解析模型的输出结果为负向标签时,可以确定当前字段的参考字段类型不是无效类型。其中,字段值解析模型可以是机器学习、深度学习中的具体一种或者多种算法,例如支持向量机、AdaBoosting、卷积神经网络等。
本实施例中,通过信息熵计算或字段值解析模型可以快速、准确地确定当前字段的参考字段类型。
在一个实施例中,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,包括:统计当前字段对应的各个字段值中各个字符的出现次数和当前字段对应的字段值数量;基于各个字符出现的次数和字段值数量计算各个字符的出现概率;基于各个字符的出现概率确定字符间的概率距离;当概率距离小于第二预设阈值时,确定当前字段对应的字段类型为无效字段类型。
其中,出现概率是指各个字符在当前字段对应的所有字段值中出现的概率,出现概率具体可以是字符的出现次数和字段值数量的比值。字段值数量是指当前字段对应的所有字段值的总数。例如,当前字段对应的字段值有100个,字符a在100个字段值中出现了10次,那么字符a的出现概率为10%。概率距离是用于确定至少两个出现概率之间的概率差异,具体可以是出现概率两两之间的差值,也可以是所有出现概率的方差、标准差等统计值。
具体地,计算机设备可以基于当前字段对应的所有字段值统计当前字段对应的字段值中各个字符的出现次数和当前字段对应的字段值数量,计算字符的出现次数和字段值数量的比值,得到各个字符的出现概率。当各个字符出现的概率接近,可以判断当前字段对应的所有字段值为随机数,当前字段的字段类型为无效字段类型。具体可以是计算任意两个字符的出现概率的概率差异,当所有的概率差异都小于第二预设阈值时,可以确定当前字段的字段类型为无效字段类型。也可以是计算所有出现概率的方差,当方差小于第二预设阈值时,表明各个出现概率和出现概率平均值的差异不大,当前不存在偏离平均值较大的出现概率,因此,可以确定当前字段的字段类型为无效字段类型。其中,第二预设阈值可以是根据实际需要进行设置的比例,例如1%。
在一个实施例中,还可以根据当前字段的字段名称确定当前字段的字段类型是否为无效字段类型。例如,若当前字段的字段名称中包含常见的请求中用于表示随机字符串的单词,如random、token等用于表示随机数的名称,那么也可以粗略判断当前字段的字段类型为无效字段类型。
本实施例中,通过基于当前字段对应的所有字段值计算字符间的出现概率的概率距离,当概率距离小于第二预设阈值时,确定当前字段对应的字段类型为无效字段类型。这样,通过综合考虑所有字段值的特征信息可以有效提高无效字段类型的确定准确性。
在一个实施例中,如图6所示,提供了一种网络访问分析方法,以该方法应用于图1中的计算机设备为例进行说明,计算机设备可以是上述图1中的终端102或服务器104。参照图6,网络访问分析方法包括以下步骤:
步骤S602,获取访问查询请求;访问查询请求携带待查询访问地址对应的待查询字段类型。
其中,访问查询请求是用于请求查询访问地址、字段值(参数值)中的至少一种访问信息。待查询访问地址是指待查询的访问地址。待查询字段类型是指待查询访问地址中包含的目标字段的字段类型。
具体地,当用户在进行业务分析或者算法开发的时候,若用户想要查询具体的访问地址或者具体的参数值,用户可以设置相应的查询条件,根据查询条件触发生成访问查询请求。查询条件具体可以是待查询访问地址对应的待查询字段类型。计算机设备可以接收用户通过其他计算机设备发送过来的访问查询请求或者用户在本地触发生成的访问查询请求,访问查询请求携带待查询访问地址对应的待查询字段类型。
步骤S604,获取目标访问地址集合和对应的访问解析结果;目标访问地址集合包括多个目标访问地址,访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的。
具体地,在处理访问查询请求或处理访问分析请求前,计算机设备可以从不同渠道收集目标访问地址,组成目标访问地址集合,对目标访问地址集合中的目标访问地址进行访问解析。在进行访问解析时,计算机设备可以从目标访问地址中提取目标字段和对应的目标字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,得到各个目标字段的字段类型,最后基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果。进而,计算机设备可以基于访问解析结果处理访问查询业务或访问分析业务。
其中,基于目标访问地址集合得到对应的访问解析结果的具体处理过程可以参照前述各个实施例所述的方法。
步骤S606,从访问解析结果中获取待查询字段类型对应的目标字段。
步骤S608,从目标访问地址集合中获取与待查询字段类型对应的目标字段相匹配的目标查询结果;目标查询结果包括目标访问地址和字段值中的至少一种。
具体地,当接收到访问查询请求后,计算机设备可以从目标访问地址集合对应的访问解析结果中查找待查询字段类型对应的目标字段,进而从目标访问地址集合中查找与该目标字段相匹配的目标访问信息。当用户想要查询具体的访问地址时,目标访问信息可以是与该目标字段相匹配的至少一个目标访问地址。当用户想要查询具体的参数值时,目标访问信息可以是与该目标字段相匹配的至少一个字段值。例如,用户在进行关于访问时间的算法分析时,需要获取URL中表示时间的参数值作为分析数据,那么用户可以触发生成用于获取URL中时间类型参数所对应的所有参数值的访问查询请求,以获取所有表示时间的参数值。
步骤S610,向访问查询请求对应的发送方返回目标查询结果。
具体地,在得到目标查询结果之后,计算机设备可以将查询到的目标访问信息向访问查询请求对应的发送方返回,向用户展示查询结果。
上述网络访问分析方法中,通过获取访问查询请求;访问查询请求携带待查询访问地址对应的待查询字段类型;获取目标访问地址集合和对应的访问解析结果;目标访问地址集合包括多个目标访问地址,访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的;从访问解析结果中获取待查询字段类型对应的目标字段;从目标访问地址集合中获取与待查询字段类型对应的目标字段相匹配的目标查询结果;目标查询结果包括目标访问地址和字段值中的至少一种,向访问查询请求对应的发送方返回目标查询结果。这样,在查询访问地址时,无需知道待查询访问地址的详细参数,基于待查询访问地址的作用就可以查询到相应的访问地址,提高了访问地址的查询效率。
在一个实施例中,如图7所示,网络访问分析方法还包括:
步骤S702,获取访问分析请求;访问分析请求携带待分析访问地址。
其中,访问分析请求是用于请求对访问地址进行分析。
具体地,当用户在进行业务分析或者算法开发的时候,若用户想要了解一个访问地址的作用时,用户可以触发生成访问分析请求,该访问分析请求携带待分析访问地址。计算机设备可以接收用户通过其他计算机设备发送过来的访问分析请求或者用户在本地触发生成的访问分析请求,访问分析请求携带待分析访问地址。
步骤S704,提取待分析访问地址中包含的待分析字段和对应的待分析字段值。
具体地,计算机设备可以从访问分析请求中获取待分析访问地址,从待分析访问地址中提取待分析字段和对应的待分析字段值。其中,待分析字段和对应的待分析字段值的提取方法可以参考前述实施例中从目标访问地址中提取目标字段和对应的字段值的方法。待分析字段可以为至少一个,待分析字段值也可以为至少一个。
步骤S706,从访问解析结果中获取待分析字段对应的目标字段类型。
步骤S708,基于目标字段类型和待分析字段值生成待分析访问地址对应的访问分析参考信息。
其中,访问分析参考信息是指待分析访问地址的访问作用的参考分析结果,用于描述待分析访问地址的访问作用,以供用户参考。
具体地,当得到待分析访问地址对应的待分析字段和待分析字段值后,计算机设备可以获取访问解析结果,从访问解析结果中查找该待分析字段对应的字段类型,基于待分析字段对应的字段类型和待分析字段值生成待分析访问地址对应的访问分析参考信息。例如,待分析URL的待分析字段为a,待分析字段值为a1,从访问解析结果中确定a对应的字段类型为敏感类型,那么生成的访问分析参考信息可以是a为敏感类型的字段,a1为具体的敏感信息,待分析URL用于传递敏感信息。
步骤S710,向访问分析请求对应的发送方返回访问分析参考信息。
具体地,在得到访问分析参考信息之后,计算机设备可以向访问分析请求对应的发送方返回访问分析参考信息,向用户展示访问分析参考信息。
本实施例中,在分析新的访问地址时,基于访问解析结果和待分析访问地址的具体参数就可以确定待分析访问地址的作用,访问地址的作用可以便于用户快速了解访问地址,从而将已知作用的访问地址应用于业务分析和算法开发。
本申请还提供一种应用场景,该应用场景应用上述的网络访问分析方法。具体地,该网络访问分析方法在该应用场景的应用如下:
如图8所示,图8为一个实施例中生成访问解析结果的流程示意图
1、获取待分析数据
具体地,计算机设备可以从不同来源中获取需要进行解析处理的URL数据,来源包括但不限于各种数据库、中间件、日志文件、用户输入等。
2、数据初始化
具体地,计算机设备可以对获取到的URL数据进行分类,将属于同一个访问接口的URL归为一类。在抽取同一类访问接口的URL之后,遍历URL,从每个URL中提取出其中的参数以及对应的参数值。然后,按照每一类访问接口的每个参数,对其参数值进行聚合,例如,访问接口xxx.com/index.php的参数包括a、b,a对应的参数值有a1,a2,a3,…,an,b对应的参数值有b1,b2,b3,…,bm。
3、判断各个参数是否为基础类型参数
具体地,基础类型参数包括时间类型参数、敏感类型参数、业务类型参数。计算机设备可以基于时间类型参数对应的参数值解析算法(字段值解析算法)对同一参数的各个参数值进行解析,根据解析结果判断该参数是否为时间类型参数。当解析结果为全部参数值都解析成功或大部分参数值解析成功时,可以确定该参数是时间类型参数。同理,计算机设备可以基于敏感类型参数对应的参数值解析算法对同一参数的各个参数值进行解析,根据解析结果判断该参数是否为敏感类型参数。计算机设备可以基于业务类型参数对应的参数值解析算法对同一参数的各个参数值进行解析,根据解析结果判断该参数是否为业务类型参数。
4、判断各个参数是否为自定义类型参数
具体地,当根据上述解析结果确定参数不是基础类型参数时,可以进一步判断参数是否为自定义类型参数。计算机设备可以基于自定义类型参数对应的参数值解析算法(字段值解析算法)对同一参数的各个参数值进行解析,根据解析结果判断该参数是否为自定义类型参数。
5、判断各个参数是否为无效类型参数
具体地,当根据上述解析结果确定参数也不是自定义类型参数时,可以进一步判断参数是否为无效类型参数。计算机设备可以基于无效类型参数对应的参数值解析算法(字段值解析算法)对同一参数的各个参数值进行解析,根据解析结果判断该参数是否为无效类型参数。
上述判断顺序并不一定是先判断是否为基础类型参数、再判断是否为自定义类型参数,最后判断是否为无效类型参数。具体的判断顺序可以是根据实际需要进行设置,也可以根据各种类型参数对应的解析时间确定。
6、判断结果格式化
具体地,当确定各个参数的参数类型后,计算机设备可以基于各个参数和对应的参数类型生成格式化、规范化的访问解析结果。
举例说明访问解析结果的生成过程,假设访问接口xxx.com/index.php的参数包括a、b,a对应的参数值有a1,a2,a3,…,an,b对应的参数值有b1,b2,b3,…,bm。对参数a进行解析具体可以是从a对应的参数值中随机选取a3作为参考参数值,通过至少一种时间解析函数对a3进行解析,如果解析成功,则初步确定参数a是为时间类型参数,参数a的作用是充当时间戳。接着,从a对应的参数值中选取80%的数据作为中间参数值,通过至少一种时间解析函数对各个中间参数值进行解析,如果都能解析成功,则最终确定参数a是为时间类型参数,参数a的作用是充当时间戳,可以生成“xxx.com/index.php访问接口的a参数是时间类型参数,是作为时间戳使用”这样的访问解析结果。如果不能都解析成功,则计算其解析成功率,如果大于80%(用户可控),则认为该参数大概率是时间戳参数,可以生成“xxx.com/index.php访问接口的a参数大概率是时间类型参数,大概率是作为时间戳使用,解析成功率是80%”。如果解析成功率小于80%,则认为参数a不是为时间类型参数。然后,通过其他参数类型对应的参数值解析方法判断参数a的参数类型,例如,通过敏感类型参数对应的参数值解析方法、业务类型参数对应的参数值解析方法、自定义类型参数对应的参数值解析方法和无效类型参数对应的参数值解析方法。
7、输出访问解析结果
具体地,计算机设备可以将最终的访问解析结果进行输出,具体可以是基于访问解析结果生成日志文件并存储,也可以是将访问解析结果存储到数据库中,还可以是将访问解析结果通过页面进行展示等。
参考图9A,用户可以通过点击URL管理页面上的URL解析模块进入URL解析界面。用户可以通过点击“选择”按钮,从本地存储的众多文件中选择目标文件内的URL数据作为目标URL数据。当用户点击“解析”按钮时,计算机设备就会通过上述方法对目标URL数据进行解析,得到访问解析结果,进而在URL解析界面上展示访问解析结果。如图9A展示的访问解析结果可知,目标URL数据中包括两类访问接口对应的URL,一类URL对应的访问接口为xxx.com/index.php,另一类URL对应的访问接口为xxx.com/start.php。xxx.com/index.php访问接口的a参数的参数类型为时间类型参数,b参数的参数类型为敏感类型参数。xxx.com/start.php访问接口的a参数的参数类型为业务类型参数。进一步的,用户通过点击参数值一栏中的下拉按钮可以查阅具体参数对应的具体参数值,例如,xxx.com/start.php访问接口的a参数对应的参数值包括a1、a2和a3,那么xxx.com/start.php访问接口的a参数对应的下拉框会显示a1、a2和a3。
后续,基于访问解析结果,计算机设备可以执行访问查询任务和访问分析任务中的至少一种。
例如,如果用户想要快速定位一起敏感信息泄漏的问题,用户需要获取包含敏感信息的URL作为分析数据,那么用户可以设置相应的查询条件,从而在目标URL数据中查询包含敏感信息的URL。参考图9B,用户可以通过点击URL管理页面上的URL查询模块进入URL查询界面。用户可以在查询条件对应的下拉按钮中选择“敏感类型参数”作为目标查询条件,当用户点击“查询”按钮时,计算机设备就会从目标URL数据中查询包含敏感类型参数的URL,进而在URL查询界面上展示访问解析结果。如图9B展示的访问查询结果可知,访问接口为xxx.com/index.php的URL包含敏感类型参数,且敏感类型参数的参数名为b,访问接口为xxx.com/start.php的URL也包含敏感类型参数,且敏感类型参数对应的参数名为a。此外,访问接口为xxx.com/index.php的URL还包含参数a,参数a为时间类型参数。访问接口为xxx.com/start.php的URL还包含参数c,参数c为业务类型参数。进一步的,用户通过点击URL一栏中的下拉按钮可以查阅具体的URL,获知URL中包含的具体敏感信息。
例如,如果用户想要分析一个URL的作用,那么用户可以基于同一访问接口对应的其他URL的访问解析结果确定待分析URL的作用。参考图9C,用户可以通过点击URL管理页面上的URL分析模块进入URL分析界面。用户可以在URL输入对应的输入框中输入待分析的URL“http://xxx.com/index.php?a=x&b=xx”,当用户点击“分析”按钮时,计算机设备就会从目标URL数据对应的访问解析结果中查询xxx.com/index.php访问接口对应的访问解析结果,从访问解析结果中确定参数a和参数b的参数类型,从而确定待分析URL的作用。如图9C展示的访问分析结果可知,待分析URL中的参数a为时间类型参数,参数b为敏感类型参数,待分析URL的作用为用于传递敏感信息,且敏感信息为xx,敏感信息的生成时间或发送时间为x。
本实施例中,能够对URL的参数进行多维度的分析,获取URL各个参数的实际参数意义、参数作用,从而让分析人员或阅读人员快速理解该参数、该URL的作用。此外,用于判断参数类型是否为自定义类型参数的参数值解析算法支持灵活的自定义规则,能够让使用人员根据实际需要快速配置对应的解析规则,并且随着使用时间的增长,覆盖更多需要解析的参数。此外,访问解析结果支持格式化输出,可以和其他平台或其他业务、算法集成,以便为其他服务提供相关分析原材料或用于佐证的材料。
应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种网络访问分析装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:访问地址获取模块1002、字段信息获取模块1004、字段类型确定模块1006和访问解析结果确定模块1008,其中:
访问地址获取模块1002,用于获取目标访问地址集合;目标访问地址集合包括多个目标访问地址。
字段信息获取模块1004,用于提取各个目标访问地址中包含的目标字段和对应的字段值。
字段类型确定模块1006,用于基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型。
访问解析结果确定模块1008,用于基于各个目标字段和对应的字段类型生成目标访问地址集合对应的访问解析结果;访问解析结果用于对待处理访问地址进行访问处理。
在一个实施例中,访问地址获取模块还用于获取多个候选访问地址;将同一访问接口对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合;从各个候选访问地址集合中确定目标访问地址集合。
在一个实施例中,访问地址获取模块还用于提取候选访问地址中包含的访问主机信息和访问路径信息;将同一访问主机信息、访问路径信息对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合。
在一个实施例中,字段信息获取模块还用于获取分割标识符;基于分割标识符将目标访问地址分割为多个候选字段和对应的候选字段值;基于分割标识符的类型从多个候选字段中确定目标字段,得到目标字段和对应的字段值。
在一个实施例中,字段类型确定模块还用于从当前字段对应的各个字段值中确定参考字段值;基于参考字段值的特征信息确定当前字段的参考字段类型;从当前字段对应的各个字段值中选取目标比例的字段值作为中间字段值;基于参考字段类型对应的字段类型解析算法对各个中间字段值的特征信息进行解析,得到字段值解析结果;当字段值解析结果满足预设条件时,确定当前字段对应的字段类型为参考字段类型。
在一个实施例中,字段类型确定模块还用于基于各个预设字段类型对应的字段类型解析算法分别对参考字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果;将字段值解析结果为解析成功的字段类型解析算法所对应的预设字段类型作为参考字段类型。
在一个实施例中,字段类型确定模块还用于基于基础字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第一字段值解析结果;基础字段类型包括时间类型、敏感类型和业务类型中的至少一种;基于自定义字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第二字段值解析结果;基于无效字段类型对应的字段类型解析算法对参考字段值的特征信息进行解析,得到第三字段值解析结果。
在一个实施例中,字段类型确定模块还用于当基础字段类型为时间类型时,基于至少一种时间解析函数对参考字段值的特征信息进行解析,得到第一字段值解析结果。字段类型确定模块还用于当基础字段类型为敏感类型时,获取多种预设敏感信息分别对应的标准特征信息,将参考字段值的特征信息分别和各个标准特征信息进行匹配,根据匹配结果得到第一字段值解析结果。字段类型确定模块还用于当基础字段类型为业务类型时,从参考字段值中识别子字符串,得到多个参考字符串,将各个参考字符串分别和预设标准词典中的标准字符串进行匹配,根据匹配结果得到第一字段值解析结果。
在一个实施例中,字段类型确定模块还用于获取配置文件;配置文件包括多种自定义字段和各种自定义字段对应的字段值描述信息,字段值描述信息包括正则表达式、逻辑表达式、运算符表达式中的至少一种;将参考字段值的特征信息和字段值描述信息进行匹配;根据匹配结果得到第二字段值解析结果。
在一个实施例中,字段类型确定模块还用于根据参考字段值的各个字符计算参考字段值对应的信息熵,获取标准信息熵,基于参考字段值对应的信息熵和标准信息熵的比较结果得到第三字段值解析结果。字段类型确定模块还用于将参考字段值的特征信息输入字段值解析模型,得到第三字段值解析结果;字段值解析模型是基于无效字段类型对应的正向字段值样本和负向字段值样本训练得到的。
在一个实施例中,字段类型确定模块还用于基于字段值解析结果计算解析成功率;当解析成功率大于第一预设阈值时,确定当前字段对应的字段类型为参考字段类型。
在一个实施例中,字段类型确定模块还用于统计当前字段对应的各个字段值中各个字符的出现次数和当前字段对应的字段值数量;基于各个字符出现的次数和字段值数量计算各个字符的出现概率;基于各个字符的出现概率确定字符间的概率距离;当概率距离小于第二预设阈值时,确定当前字段对应的字段类型为无效字段类型。
在一个实施例中,如图11所示,提供了一种网络访问分析装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:请求获取模块1102、访问解析结果获取模块1104、字段信息确定模块1106、查询结果确定模块1108和查询结果发送模块1110,其中:
请求获取模块1102,用于获取访问查询请求;访问查询请求携带待查询访问地址对应的待查询字段类型。
访问解析结果获取模块1104,用于获取目标访问地址集合和对应的访问解析结果;目标访问地址集合包括多个目标访问地址,访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的。
字段信息确定模块1106,用于从访问解析结果中获取待查询字段类型对应的目标字段。
查询结果确定模块1108,用于从目标访问地址集合中获取与待查询字段类型对应的目标字段相匹配的目标查询结果;目标查询结果包括目标访问地址和字段值中的至少一种。
查询结果发送模块1110,用于向访问查询请求对应的发送方返回目标查询结果。
在一个实施例中,请求获取模块还用于获取访问分析请求;访问分析请求携带待分析访问地址。字段信息确定模块还用于提取待分析访问地址中包含的待分析字段和对应的待分析字段值;从访问解析结果中获取待分析字段对应的目标字段类型;基于目标字段类型和待分析字段值生成待分析访问地址对应的访问分析参考信息。查询结果发送模块还用于向访问分析请求对应的发送方返回访问分析参考信息。
关于网络访问分析装置的具体限定可以参见上文中对于网络访问分析方法的限定,在此不再赘述。上述网络访问分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储候选访问地址集合、目访问地址集合、访问解析结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网络访问分析方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种网络访问分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12、13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种网络访问分析方法,其特征在于,所述方法包括:
获取目标访问地址集合;所述目标访问地址集合包括多个目标访问地址;
提取各个目标访问地址中包含的目标字段和对应的字段值;
基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型;
基于各个目标字段和对应的字段类型生成所述目标访问地址集合对应的访问解析结果;所述访问解析结果用于对待处理访问地址进行访问处理。
2.根据权利要求1所述的方法,其特征在于,所述获取目标访问地址集合,包括:
获取多个候选访问地址;
将同一访问接口对应的候选访问地址进行聚合,得到各个访问接口对应的候选访问地址集合;
从各个候选访问地址集合中确定所述目标访问地址集合。
3.根据权利要求1所述的方法,其特征在于,所述基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,包括:
从当前字段对应的各个字段值中确定参考字段值;
基于所述参考字段值的特征信息确定所述当前字段的参考字段类型;
从所述当前字段对应的各个字段值中选取目标比例的字段值作为中间字段值;
基于所述参考字段类型对应的字段类型解析算法对各个中间字段值的特征信息进行解析,得到字段值解析结果;
当所述字段值解析结果满足预设条件时,确定所述当前字段对应的字段类型为所述参考字段类型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述参考字段值的特征信息确定所述当前字段的参考字段类型,包括:
基于各个预设字段类型对应的字段类型解析算法分别对所述参考字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果;
将字段值解析结果为解析成功的字段类型解析算法所对应的预设字段类型作为所述参考字段类型。
5.根据权利要求4所述的方法,其特征在于,所述基于各个预设字段类型对应的字段类型解析算法分别对所述参考字段值的特征信息进行解析,得到各个字段类型解析算法对应的字段值解析结果,包括:
基于基础字段类型对应的字段类型解析算法对所述参考字段值的特征信息进行解析,得到第一字段值解析结果;所述基础字段类型包括时间类型、敏感类型和业务类型中的至少一种;
基于自定义字段类型对应的字段类型解析算法对所述参考字段值的特征信息进行解析,得到第二字段值解析结果;
基于无效字段类型对应的字段类型解析算法对所述参考字段值的特征信息进行解析,得到第三字段值解析结果。
6.根据权利要求5所述的方法,其特征在于,所述基于基础字段类型对应的字段类型解析算法对所述参考字段值的特征信息进行解析,得到第一字段值解析结果包括以下方式中的至少一种:
当所述基础字段类型为时间类型时,基于至少一种时间解析函数对所述参考字段值的特征信息进行解析,得到所述第一字段值解析结果;
当所述基础字段类型为敏感类型时,获取多种预设敏感信息分别对应的标准特征信息,将所述参考字段值的特征信息分别和各个标准特征信息进行匹配,根据匹配结果得到所述第一字段值解析结果;
当所述基础字段类型为业务类型时,从所述参考字段值中识别子字符串,得到多个参考字符串,将各个参考字符串分别和预设标准词典中的标准字符串进行匹配,根据匹配结果得到所述第一字段值解析结果。
7.根据权利要求5所述的方法,其特征在于,所述基于自定义字段类型对应的字段类型解析算法对所述参考字段值的特征信息进行解析,得到第二字段值解析结果,包括:
获取配置文件;所述配置文件包括多种自定义字段和各种自定义字段对应的字段值描述信息,所述字段值描述信息包括正则表达式、逻辑表达式、运算符表达式中的至少一种;
将所述参考字段值的特征信息和所述字段值描述信息进行匹配;
根据匹配结果得到所述第二字段值解析结果。
8.根据权利要求5所述的方法,其特征在于,所述基于无效字段类型对应的字段类型解析算法对所述参考字段值的特征信息进行解析,得到第三字段值解析结果包括以下方式中的至少一种:
根据所述参考字段值的各个字符计算所述参考字段值对应的信息熵,获取标准信息熵,基于所述参考字段值对应的信息熵和所述标准信息熵的比较结果得到所述第三字段值解析结果;
将所述参考字段值的特征信息输入字段值解析模型,得到所述第三字段值解析结果;所述字段值解析模型是基于所述无效字段类型对应的正向字段值样本和负向字段值样本训练得到的。
9.根据权利要求3所述的方法,其特征在于,所述当所述字段值解析结果满足预设条件时,确定所述当前字段对应的字段类型为所述参考字段类型,包括:
基于所述字段值解析结果计算解析成功率;
当所述解析成功率大于第一预设阈值时,确定所述当前字段对应的字段类型为所述参考字段类型。
10.一种网络访问分析方法,其特征在于,所述方法包括:
获取访问查询请求;所述访问查询请求携带待查询访问地址对应的待查询字段类型;
获取目标访问地址集合和对应的访问解析结果;所述目标访问地址集合包括多个目标访问地址,所述访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的;
从所述访问解析结果中获取所述待查询字段类型对应的目标字段;
从所述目标访问地址集合中获取与所述待查询字段类型对应的目标字段相匹配的目标查询结果;所述目标查询结果包括目标访问地址和字段值中的至少一种;
向所述访问查询请求对应的发送方返回所述目标查询结果。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取访问分析请求;所述访问分析请求携带待分析访问地址;
提取所述待分析访问地址中包含的待分析字段和对应的待分析字段值;
从所述访问解析结果中获取所述待分析字段对应的目标字段类型;
基于所述目标字段类型和所述待分析字段值生成所述待分析访问地址对应的访问分析参考信息;
向所述访问分析请求对应的发送方返回所述访问分析参考信息。
12.一种网络访问分析装置,其特征在于,所述装置包括:
访问地址获取模块,用于获取目标访问地址集合;所述目标访问地址集合包括多个目标访问地址;
字段信息获取模块,用于提取各个目标访问地址中包含的目标字段和对应的字段值;
字段类型确定模块,用于基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型;
访问解析结果确定模块,用于基于各个目标字段和对应的字段类型生成所述目标访问地址集合对应的访问解析结果;所述访问解析结果用于对待处理访问地址进行访问处理。
13.一种网络访问分析装置,其特征在于,所述装置包括:
请求获取模块,用于获取访问查询请求;所述访问查询请求携带待查询访问地址对应的待查询字段类型;
访问解析结果获取模块,用于获取目标访问地址集合和对应的访问解析结果;所述目标访问地址集合包括多个目标访问地址,所述访问解析结果是提取各个目标访问地址中包含的目标字段和对应的字段值,基于同一目标字段对应的各个字段值的特征信息确定对应的目标字段的字段类型,基于各个目标字段和对应的字段类型得到的;
字段信息确定模块,用于从所述访问解析结果中获取所述待查询字段类型对应的目标字段;
查询结果确定模块,用于从所述目标访问地址集合中获取与所述待查询字段类型对应的目标字段相匹配的目标查询结果;所述目标查询结果包括目标访问地址和字段值中的至少一种;
查询结果发送模块,用于向所述访问查询请求对应的发送方返回所述目标查询结果。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202011437017.5A 2020-12-11 2020-12-11 网络访问分析方法、装置、计算机设备和存储介质 Pending CN112579931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011437017.5A CN112579931A (zh) 2020-12-11 2020-12-11 网络访问分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011437017.5A CN112579931A (zh) 2020-12-11 2020-12-11 网络访问分析方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112579931A true CN112579931A (zh) 2021-03-30

Family

ID=75132040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011437017.5A Pending CN112579931A (zh) 2020-12-11 2020-12-11 网络访问分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112579931A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312926A (zh) * 2021-06-07 2021-08-27 浙江贰贰网络有限公司 域名含义翻译方法
CN114257400A (zh) * 2021-11-11 2022-03-29 中国南方电网有限责任公司 基于标识算法的信息获取方法、装置和计算机设备
CN114374644A (zh) * 2021-12-22 2022-04-19 烟台东方瑞创达电子科技有限公司 基于基础设施逻辑架构的工业互联网标识解析方法及系统
CN118368132A (zh) * 2024-05-15 2024-07-19 北京火山引擎科技有限公司 流量检测方法、装置、电子设备、存储介质及程序产品

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312926A (zh) * 2021-06-07 2021-08-27 浙江贰贰网络有限公司 域名含义翻译方法
CN114257400A (zh) * 2021-11-11 2022-03-29 中国南方电网有限责任公司 基于标识算法的信息获取方法、装置和计算机设备
CN114374644A (zh) * 2021-12-22 2022-04-19 烟台东方瑞创达电子科技有限公司 基于基础设施逻辑架构的工业互联网标识解析方法及系统
CN114374644B (zh) * 2021-12-22 2023-09-19 烟台东方瑞创达电子科技有限公司 基于基础设施逻辑架构的工业互联网标识解析方法及系统
CN118368132A (zh) * 2024-05-15 2024-07-19 北京火山引擎科技有限公司 流量检测方法、装置、电子设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN112579931A (zh) 网络访问分析方法、装置、计算机设备和存储介质
CN109510737B (zh) 协议接口测试方法、装置、计算机设备和存储介质
US11218500B2 (en) Methods and systems for automated parsing and identification of textual data
WO2021047326A1 (zh) 信息推荐方法、装置、计算机设备和存储介质
CN111352907A (zh) 流水文件解析方法、装置、计算机设备和存储介质
US20220277106A1 (en) Method and apparatus for de-identification of personal information
US20220019678A1 (en) Method, apparatus, and computer-readable medium for automated construction of data masks
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
WO2019148712A1 (zh) 钓鱼网站检测方法、装置、计算机设备和存储介质
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN110610196A (zh) 脱敏方法、系统、计算机设备和计算机可读存储介质
WO2016188334A1 (zh) 一种用于处理应用访问数据的方法与设备
CN113961764A (zh) 诈骗电话的识别方法、装置、设备及存储介质
CN111586695A (zh) 短信识别方法及相关设备
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质
CN113472686B (zh) 信息识别方法、装置、设备及存储介质
US20220270008A1 (en) Systems and methods for enhanced risk identification based on textual analysis
CN115017256A (zh) 电力数据处理方法、装置、电子设备及存储介质
CN113691525A (zh) 一种流量数据处理方法、装置、设备及存储介质
CN111695031A (zh) 基于标签的搜索方法、装置、服务器及存储介质
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
CN112187768B (zh) 不良信息网站的检测方法、装置、设备及可读存储介质
CN115952459A (zh) 报错识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040652

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination