CN115168755A - 基于url特征的异常数据处理方法及系统 - Google Patents
基于url特征的异常数据处理方法及系统 Download PDFInfo
- Publication number
- CN115168755A CN115168755A CN202210887220.5A CN202210887220A CN115168755A CN 115168755 A CN115168755 A CN 115168755A CN 202210887220 A CN202210887220 A CN 202210887220A CN 115168755 A CN115168755 A CN 115168755A
- Authority
- CN
- China
- Prior art keywords
- url
- website
- rule
- matching
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 150
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000002372 labelling Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims description 29
- 238000004806 packaging method and process Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012858 packaging process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种基于URL特征的异常数据处理方法及系统,该方法通过对入库异常数据,进行URL特征识别,所述URL特征识别包括有效识别、网站识别、属性识别和对象识别;根据URL特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。本发明可以实现对异常数据的深度解析,快速分类识别、灵活精准标注,可以省去处理网页正文的时耗,快速的提取价值信息。
Description
技术领域
本发明属于计算机网络通信技术领域,具体涉及一种基于URL特征的异常数据处理方法及系统。
背景技术
随着计算机科学和网络技术的高速发展,通信网络已成为人们日常生活中不可或缺的信息传播媒介。然而,由于通信网络本身的开放性以及其承载协议的开放性等特性,也出现了大量的异常行为数据,这类异常数据具有复杂性和多样性。
传统的异常数据监测,目的是发现可能存在的网络流量异常行为,并溯源其引起这些异常事件的根本原因,从而进行合理的响应以降低通信网络流量异常行为对正常业务的危害。
现阶段,在异常网站分类、标注过程中,选取特征是其中重要一环,传统的特征从网页正文、锚文本、标题等网页文本中选取,这样的选择方式耗时且代价很高,同时特征冗余,快速鉴别网站类别同时提高分类、标注精度成为难题。如何实现快速鉴别网站类别同时提高分类、标注精度具有现实意义。
发明内容
为此,本发明提供一种基于URL特征的异常数据处理方法及系统,以解决目前异常数据处理效率不高、分类及标注精度不高且耗时的问题。
为了实现上述目的,本发明提供如下技术方案:基于URL特征的异常数据处理方法,包括:
对入库异常数据,进行URL特征识别,所述URL特征识别包括有效识别、网站识别、属性识别和对象识别;
根据URL特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;
通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。
作为基于URL特征的异常数据处理方法优选方案,所述有效识别过程:
利用网页类型字符串和网页访问响应状态字符串,判断URL是否为有效 URL,若URL为无效URL,则丢弃无效URL。
作为基于URL特征的异常数据处理方法优选方案,所述网站识别过程:
利用有效识别得到有效URL地址,识别URL地址所对应的网站属性特征,网站属性特征包括网站品牌、网站名称、网站类型和网站主题。
作为基于URL特征的异常数据处理方法优选方案,所述属性识别过程:
利用网站识别得到的网站属性特征的URL进行网站附加属性识别,网站附加属性识别包括行为识别、站点类型识别和页面类型识别。
作为基于URL特征的异常数据处理方法优选方案,所述对象识别过程:
利用属性识别得到的网站附加属性进行给定对象的信息识别,给定对象的信息包括资源对象类别、内容媒介、收费信息和资源标识变量。
作为基于URL特征的异常数据处理方法优选方案,通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性,包括:
判断URL是否有效,若URL为有效URL,判断URL字符串的合法性,若为合法URL字符串,提取URL字符串中的顶级域名字符串,提取成功后进行URL规则匹配;
基于所述URL规则库,判断是否存在下一条规则,若存在下一条规则,则继续域名匹配;
利用提取的顶级域名字符串进行域名匹配,根据域名规则的匹配优先级,匹配所述URL规则库中优先级高的域名规则,若域名匹配成功,继续协议匹配;
匹配优先级高的域名规则对应的协议类型,若匹配协议成功,继续URI 匹配;
匹配优先级高的域名规则对应的URI,若URI为空,继续网站信息封装;
提取网站属性特征,进行网站信息封装,提取标注对象id并标注给结果对象。
本发明还提供一种基于URL特征的异常数据处理系统,包括:
URL特征识别模块,用于对入库异常数据,进行URL特征识别,所述 URL特征识别包括有效识别子模块、网站识别子模块、属性识别子模块和对象识别子模块;
URL规则库构建模块,用于根据URL特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;
异常数据标注模块,用于通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。
作为基于URL特征的异常数据处理系统优选方案,所述有效识别子模块中:
利用网页类型字符串和网页访问响应状态字符串,判断URL是否为有效 URL,若URL为无效URL,则丢弃无效URL。
作为基于URL特征的异常数据处理系统优选方案,所述网站识别子模块中:
利用有效识别得到有效URL地址,识别URL地址所对应的网站属性特征,网站属性特征包括网站品牌、网站名称、网站类型和网站主题。
作为基于URL特征的异常数据处理系统优选方案,所述属性识别子模块中:
利用网站识别得到的网站属性特征的URL进行网站附加属性识别,网站附加属性识别包括行为识别、站点类型识别和页面类型识别;
所述对象识别子模块中:
利用属性识别得到的网站附加属性进行给定对象的信息识别,给定对象的信息包括资源对象类别、内容媒介、收费信息和资源标识变量。
作为基于URL特征的异常数据处理系统优选方案,所述异常数据标注模块包括:
URL有效识别子模块,用于判断URL是否有效;
合法性判断子模块,用于若URL为有效URL,判断URL字符串的合法性;
顶级域名提取子模块,用于若为合法URL字符串,提取URL字符串中的顶级域名字符串,提取成功后进行URL规则匹配;
规则判断子模块,用于基于所述URL规则库,判断是否存在下一条规则,若存在下一条规则,则继续执行域名匹配子模块;
域名匹配子模块,用于利用提取的顶级域名字符串进行域名匹配,根据域名规则的匹配优先级,匹配所述URL规则库中优先级高的域名规则,若域名匹配成功,继续执行协议匹配子模块;
协议匹配子模块,用于匹配优先级高的域名规则对应的协议类型,若匹配协议成功,继续执行URI匹配子模块;
URI匹配子模块,用于匹配优先级高的域名规则对应的URI,若URI为空,继续网站信息封装;
封装标注子模块,用于提取网站属性特征,进行网站信息封装,提取标注对象id并标注给结果对象。
本发明具有如下优点:通过对入库异常数据,进行URL特征识别,所述 URL特征识别包括有效识别、网站识别、属性识别和对象识别;根据URL特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。本发明可以实现对异常数据的深度解析,快速分类识别、灵活精准标注,可以省去处理网页正文的时耗,快速的提取价值信息。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其他的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明实施例1提供的基于URL特征的异常数据处理方法核心步骤示意图;
图2为本发明实施例1提供的基于URL特征的异常数据处理方法中异常数据规则匹配核心步骤示意图;
图3为本发明实施例1提供的基于URL特征的异常数据处理方法中异常数据规则匹配流程示意图;
图4为本发明实施例2提供的基于URL特征的异常数据处理系统示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有异常数据监测大多属于响应式的,且面对海量数据的采集,无效数据多,磁盘I/O高,查询效果差,数据格式乱,服务器压力大,最重要的是没有一套完整的框架可以对异常数据进行快速挖掘分析,提炼有价值数据。
为此,相关技术公开一种基于URL特征的异常数据处理方法,包括:
数据预处理:基于给定特征码和端口进行原始异常数据采集,将采集的原始异常数据转换成统一的编码数据;
数据解析识别:获取统一编码后的异常数据,提取异常数据流中的IP、端口、时间信息,结合预构建的IP地址库,标注出源地理位置与目的地理位置;
filter框架处理:采用filter框架进行异常数据的过滤与挖掘,实现半自动化治理异常数据,所述半自动化治理异常数据包括丢弃无用数据、继承更新数据、丢弃关键信息缺失的数据和去除重复数据;
数据入库:将去重后的异常数据进行入库处理,作为后续数据处理的基础。
相关技术中,基于给定特征码、端口采集原始异常数据,预处理之前原始数据包括正常数据与异常数据,基于特征码和端口处理后,只保留异常数据,异常数据是涉及违法犯罪层面的数据。对接入的异常数据进行转码(urlcode 解码/html转义解码)、编码转换(字符集(gb2312/big-5/iso8859-6等转utf-8) 等,从中将数据转换成可统一处理的编码数据。
相关技术中,filter框架核心是将sql语句封装成轻量化、高复用、可扩展的处理规则,支持c++/java,代码简洁,利用类sql规则操控数据流,打破以往通过不断修改程序处理数据的费时方式,可内嵌到任何符合条件的程序中,将功能和业务解耦,可任意定制规则,支持自定义插件,自定义函数(兼容已公布的大部分函数以及自创的函数),实现半自动化治理异常数据。
相关技术中,丢弃无用数据过程:判断每条异常数据流情况,异常数据流中若存在前端使用的样式文件、图片、脚本文件和字体文件,则丢弃;若没有前端使用的样式文件、图片、脚本文件和字体文件,则继续判断是否符合预设域名黑名单;若异常数据流符合预设域名黑名单,则丢弃;若没有命中预设域名黑名单,则继续进行继承判断。
相关技术中,继承更新数据过程,对丢弃无用数据后的异常数据流,依次执行以下步骤:
步骤a、对未丢弃的异常数据流按给定格式校验更新IMSI、IMEI、手机号;
步骤b、对未丢弃的异常数据流按给定格式校验更新邮箱;
步骤c、对未丢弃的异常数据流进行系统语言更新;
步骤d、对未丢弃的异常数据流的网站类型、网址类型、网站类别字段初始化,并作为统一的标准默认值,若异常数据流中包含“ag.”字符,则更新对应的网址类型;若异常数据流中不包含“ag.”字符,则保留初始化的标准默认值。
相关技术中,步骤a中,未丢弃的异常数据流按正则格式校验更新,若 IMSI、IMEI、MAC、手机号格式不符合要求,则将其置为空;若IMSI、IMEI、 MAC、手机号格式符合要求、但不正常(如MAC:00:00:00:00:00:00等),也将其置为空;若MAC格式符合要求,采用MAC格式标准化函数,统一处理其大小写、分隔符,统一格式后保留;若IMSI、IMEI、手机号格式符合要求,则保留。
相关技术中,步骤b中,基于步骤a处理后的异常数据流,未丢弃的异常数据流按正则等格式校验更新邮箱,若邮箱格式不正规(没有包含字母、数字、 @等),则将其置为空;若邮箱格式正规,且是标准单独邮箱,则保留;若邮箱格式正规,前后有特殊字符(如“、”“<>”等),采用邮箱格式标准化函数,统一处理邮箱列表,去掉前后特殊字符,统一格式,保留多个标准邮箱。
相关技术中,步骤c中,基于步骤a、步骤b处理后的异常数据流,未丢弃的异常数据流校验更新系统语言,若异常数据流中系统语言为非国内的语言,则更新为对应具体中文描述语言;若异常数据流中系统语言为国内的语言,则保留。
相关技术中,步骤d中,基于步骤a、步骤b和步骤c处理后的异常数据流,统一初始化网站类型、网址类型、网站类别字段,为统一的标准默认值,若异常数据流中包含“ag.”字符,则更新对应的网址类型;若异常数据流中不包含“ag.”字符,则保留初始化的默认值。
相关技术中,基于步骤a形成继承1,更新数据;基于步骤b形成继承2,更新数据;基于步骤c形成继承3,更新数据。
相关技术中,以继承更新数据后的异常数据流为基础,丢弃关键信息缺失的数据过程:
对继承更新后的异常数据流进行处理,若post数据中有登录操作但没有登录密码,则将对应数据丢弃。
相关技术中,以丢弃关键信息缺失的数据后的异常数据流为基础,去除重复数据过程:
对丢弃关键信息缺失数据后的异常数据进行去重,通过计算每条异常数据流的hash值,比较给定时间内或给定条数内的异常数据流hash值是否相同,若是相同,则丢弃最后的数据,若是不同,则将数据入库。
相关技术中,通过计算每条异常数据流的hash值,比较给定时间内或给定条数内的hash值是否相同,若是相同,则丢弃最后的这条数据,若是不同,则将对应数据入库。hash值计算(计算每个具体字段值对应的hash值,并作累加):认证账号+msisdn+imsi+imei+源ip+目的ip+目的端口+evt_type等;若 180秒(每秒最多1万条数据)内,hash值相同,则视为重复,丢弃最后的相同数据;若180秒(每秒最多1万条数据)内,hash值不相同,则为非重复数据,对应数据入库。
相关技术基于filter框架处理数据,实现对异常数据的精准过滤、去重、挖掘,降低了待处理异常数据的规模,提高了处理效率。
但是,由于在异常网站分类、标注过程中,选取特征是其中重要一环,传统的特征从网页正文、锚文本、标题等网页文本中选取,这样的选择方式耗时且代价很高,同时特征冗余,快速鉴别网站类别同时提高分类、标注精度成为难题。
有鉴于此,在相关技术的基础上,本发明实施例提供的一种基于URL特征的异常数据处理方法及系统,适用于异常数据的挖掘、识别、标注,以解决目前异常数据处理效率不高、分类及标注精度不高且耗时等问题。
实施例1
参见图1,本发明实施例1提供一种基于URL特征的异常数据处理方法,包括以下步骤:
S1、对入库异常数据,进行URL特征识别,所述URL特征识别包括有效识别、网站识别、属性识别和对象识别;
S2、根据URL特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;
S3、通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。
本实施例中,所述有效识别过程:
利用网页类型字符串和网页访问响应状态字符串,判断URL是否为有效 URL,若URL为无效URL,则丢弃无效URL。
具体的,根据contenet-type(网页类型字符串)值和status值(网页访问响应状态字符串),判断该URL是否为有效的URL。
若status值为200,则保留URL,继续判断contentType;
若status值非200,则URL无效,丢弃;
若contentType值为css或js或img,则URL无效,丢弃;
若contentType值非css、非js、非img,则保留URL。
本实施例中,所述网站识别过程:利用有效识别得到有效URL地址,识别URL地址所对应的网站属性特征,网站属性特征包括网站品牌、网站名称、网站类型和网站主题。所述属性识别过程:利用网站识别得到的网站属性特征的URL进行网站附加属性识别,网站附加属性识别包括行为识别、站点类型识别和页面类型识别。
具体的,根据识别出的网站属性特征的URL进行其网站附加属性识别。其中,行为识别是识别用户对特定对象执行的操作;站点类型识别是识别URL 所对应的站点类型,包括web、wap、app、html5、微信inside等;页面类型识别是识别URL所对应页面的类型,包括首页、详情页、内容页等。
本实施例中,所述对象识别过程:利用属性识别得到的网站附加属性进行给定对象的信息识别,给定对象的信息包括资源对象类别、内容媒介、收费信息和资源标识变量。
具体的,基于上述步骤得到的已识别出属性的URL,进行特定对象的相关信息识别,包括:
资源对象类别:包括图书、应用、音乐等;
内容媒介:包括文字、图片、音频、视频等;
收费信息:主要使用于资讯类站点是否收费资源标识变量:
获取资源对象的属性,包括分类、名称等信息。
具体的,识别出的URL所包含属性及其格式如下:
本实施例中,基于输出URL属性,由此分类识别出不同异常网站的特征,不断积累异常网站的特征,使用标准规范进行规则梳理,形成URL规则库, URL规则库包括每个域名规则的协议类型、对应的URI规则、规则匹配优先级等,待相关的异常数据再次出现时,可以直接匹配规则库,识别异常网站相关特征,避免了处理的冗余,提高处理效率同时也保证了识别的准确性。
参见图2和图3,本实施例中,通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性,包括以下步骤:
S30、判断URL是否有效,若URL为有效URL,判断URL字符串的合法性,若为合法URL字符串,提取URL字符串中的顶级域名字符串,提取成功后进行URL规则匹配;
S31、基于所述URL规则库,判断是否存在下一条规则,若存在下一条规则,则继续域名匹配;
S32、利用提取的顶级域名字符串进行域名匹配,根据域名规则的匹配优先级,匹配所述URL规则库中优先级高的域名规则,若域名匹配成功,继续协议匹配;
S33、匹配优先级高的域名规则对应的协议类型,若匹配协议成功,继续URI匹配;
S34、匹配优先级高的域名规则对应的URI,若URI为空,继续网站信息封装;
S35、提取网站属性特征,进行网站信息封装,提取标注对象id并标注给结果对象。
具体的,步骤S30中,根据contenet-type值(网页类型字符串)和status 值(网页访问响应状态字符串),判断URL是否为有效的URL。若status值为200,则保留URL,继续判断contenet-type;若status值非200,则URL无效,丢弃。
具体的,content-type值是否为css:
若content-type值为text/css,则URL无效,丢弃;
若content-type值非text/css,则继续判断是否为js或imag;
判断content-type是否为js:
若content-type为如下值:
text/javascript;
application/x-javascript;
application/javascript;
则URL无效,丢弃;
若content-type非如上值,则继续判断是否为imag;
判断content-type是否为imag:
若content-type为如下值:
image/gif;
image/x-xbitmap;
image/x-xpixmap;
image/x-png;
image/jpeg;
image/x-ms-bmp;
application/x-bmp;
image/bmp;image/png;
若content-type非如上值,保留URL。
具体的,合法验证过程:判断URL字符串的合法性,若无效,则丢弃;若有效,则进行下一步提取topHost。
获取topHost过程:提取URL字符串中的顶级域名部分字符串,若提取不成功,则丢弃;若提取成功,则返回topHost字符串,且进行下一步URL 规则匹配。
具体的,步骤S32中,基于提取的topHost(顶级域名字符串),进行域名匹配,按照右匹配的方式,根据域名规则的优先级,匹配URL规则库中优先级高的域名规则,若域名匹配成功,则继续协议匹配,若域名匹配不成功,则返回步骤S31,继续匹配URL规则库中其他优先级的域名规则,执行步骤 S32域名匹配,重复步骤S31、S32,直到域名匹配成功,继续执行协议匹配或匹配不成功返回步骤S31。
具体的,步骤S33中,匹配URL中协议字符串部分,匹配步骤S31中优先级高的域名规则对应的协议类型,若匹配上协议,则继续URI匹配,若协议匹配不成功,则返回步骤S31,继续匹配URL规则库中其他优先级的域名规则,执行步骤S32域名匹配,重复执行步骤S31、S32、S33,直到协议匹配成功,继续执行URI匹配或匹配不成功返回步骤S31。
具体的,步骤S34中,匹配URL中URI部分,若URI为空,则继续网站信息封装,若URI不为空,按照左匹配的方式,匹配步骤S31中优先级高的域名规则对应的URI部分,若URI匹配成功,则继续网站信息封装,若URI 匹配不成功,则返回步骤S31,继续匹配URL规则库中其他优先级的域名规则,执行步骤S32域名匹配,重复执行步骤S31、S32、S33、S34,直到URI匹配成功,继续执行网站信息封装或匹配不成功返回步骤S31。
具体的,步骤S35中,网站信息等封装过程,将相应的网站、行为、网站类型等信息提取出来,并标注出来;对象id提取过程,则根据URL规则库的规则,提取对象id,并标注给结果对象。
综上所述,本发明实施例通过对入库异常数据,进行URL特征识别,所述URL特征识别包括有效识别、网站识别、属性识别和对象识别;根据URL 特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。基于所述 URL规则库,判断是否存在下一条规则,若存在下一条规则,则继续域名匹配;利用提取的顶级域名字符串进行域名匹配,根据域名规则的匹配优先级,匹配所述URL规则库中优先级高的域名规则,若域名匹配成功,继续协议匹配;匹配优先级高的域名规则对应的协议类型,若匹配协议成功,继续URI 匹配;匹配优先级高的域名规则对应的URI,若URI为空,继续网站信息封装;提取网站属性特征,进行网站信息封装,提取标注对象id并标注给结果对象。本发明可以实现对异常数据的深度解析,快速分类识别、灵活精准标注,可以省去处理网页正文的时耗,快速的提取价值信息。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
实施例2
参见图4,本发明实施例2提供一种基于URL特征的异常数据处理系统,包括:
URL特征识别模块01,用于对入库异常数据,进行URL特征识别,所述 URL特征识别包括有效识别子模块11、网站识别子模块12、属性识别子模块 13和对象识别子模块14;
URL规则库构建模块02,用于根据URL特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;
异常数据标注模块03,用于通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。
本实施例中,所述有效识别子模块11中:
利用网页类型字符串和网页访问响应状态字符串,判断URL是否为有效 URL,若URL为无效URL,则丢弃无效URL。
本实施例中,所述网站识别子模块12中:
利用有效识别得到有效URL地址,识别URL地址所对应的网站属性特征,网站属性特征包括网站品牌、网站名称、网站类型和网站主题。
本实施例中,所述属性识别子模块13中:
利用网站识别得到的网站属性特征的URL进行网站附加属性识别,网站附加属性识别包括行为识别、站点类型识别和页面类型识别;
所述对象识别子模块14中:
利用属性识别得到的网站附加属性进行给定对象的信息识别,给定对象的信息包括资源对象类别、内容媒介、收费信息和资源标识变量。
本实施例中,所述异常数据标注模块03包括:
URL有效识别子模块30,用于判断URL是否有效;
合法性判断子模块31,用于若URL为有效URL,判断URL字符串的合法性;
顶级域名提取子模块32,用于若为合法URL字符串,提取URL字符串中的顶级域名字符串,提取成功后进行URL规则匹配;
规则判断子模块33,用于基于所述URL规则库,判断是否存在下一条规则,若存在下一条规则,则继续执行域名匹配子模块;
域名匹配子模块34,用于利用提取的顶级域名字符串进行域名匹配,根据域名规则的匹配优先级,匹配所述URL规则库中优先级高的域名规则,若域名匹配成功,继续执行协议匹配子模块;
协议匹配子模块35,用于匹配优先级高的域名规则对应的协议类型,若匹配协议成功,继续执行URI匹配子模块;
URI匹配子模块36,用于匹配优先级高的域名规则对应的URI,若URI 为空,继续网站信息封装;
封装标注子模块37,用于提取网站属性特征,进行网站信息封装,提取标注对象id并标注给结果对象。
需要说明的是,上述系统各模块之间的信息交互、执行过程等内容,由于与本申请实施例1中的方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述计算机可读存储介质中存储有基于URL特征的异常数据处理方法的程序代码,所述程序代码包括用于执行实施例1或其任意可能实现方式的基于URL特征的异常数据处理方法的指令。
计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。
实施例4
本发明实施例4提供一种电子设备,包括:存储器和处理器;
所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的基于URL特征的异常数据处理方法。
具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.基于URL特征的异常数据处理方法,其特征在于,包括:
对入库异常数据,进行URL特征识别,所述URL特征识别包括有效识别、网站识别、属性识别和对象识别;
根据URL特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;
通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。
2.根据权利要求1所述的基于URL特征的异常数据处理方法,其特征在于,所述有效识别过程:
利用网页类型字符串和网页访问响应状态字符串,判断URL是否为有效URL,若URL为无效URL,则丢弃无效URL。
3.根据权利要求2所述的基于URL特征的异常数据处理方法,其特征在于,所述网站识别过程:
利用有效识别得到有效URL地址,识别URL地址所对应的网站属性特征,网站属性特征包括网站品牌、网站名称、网站类型和网站主题。
4.根据权利要求3所述的基于URL特征的异常数据处理方法,其特征在于,所述属性识别过程:
利用网站识别得到的网站属性特征的URL进行网站附加属性识别,网站附加属性识别包括行为识别、站点类型识别和页面类型识别。
5.根据权利要求4所述的基于URL特征的异常数据处理方法,其特征在于,所述对象识别过程:
利用属性识别得到的网站附加属性进行给定对象的信息识别,给定对象的信息包括资源对象类别、内容媒介、收费信息和资源标识变量。
6.根据权利要求5所述的基于URL特征的异常数据处理方法,其特征在于,通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性,包括:
判断URL是否有效,若URL为有效URL,判断URL字符串的合法性,若为合法URL字符串,提取URL字符串中的顶级域名字符串,提取成功后进行URL规则匹配;
基于所述URL规则库,判断是否存在下一条规则,若存在下一条规则,则继续域名匹配;
利用提取的顶级域名字符串进行域名匹配,根据域名规则的匹配优先级,匹配所述URL规则库中优先级高的域名规则,若域名匹配成功,继续协议匹配;
匹配优先级高的域名规则对应的协议类型,若匹配协议成功,继续URI匹配;
匹配优先级高的域名规则对应的URI,若URI为空,继续网站信息封装;
提取网站属性特征,进行网站信息封装,提取标注对象id并标注给结果对象。
7.基于URL特征的异常数据处理系统,其特征在于,包括:
URL特征识别模块,用于对入库异常数据,进行URL特征识别,所述URL特征识别包括有效识别子模块、网站识别子模块、属性识别子模块和对象识别子模块;
URL规则库构建模块,用于根据URL特征识别结果构建URL规则库,所述URL规则库包括每个域名规则的协议类型、对应的URI规则和规则匹配优先级;
异常数据标注模块,用于通过所述URL规则库对异常数据进行规则匹配,返回异常数据标注结果以获得异常网站的异常属性。
8.根据权利要求7所述的基于URL特征的异常数据处理系统,其特征在于,所述有效识别子模块中:
利用网页类型字符串和网页访问响应状态字符串,判断URL是否为有效URL,若URL为无效URL,则丢弃无效URL;
所述网站识别子模块中:
利用有效识别得到有效URL地址,识别URL地址所对应的网站属性特征,网站属性特征包括网站品牌、网站名称、网站类型和网站主题。
9.根据权利要求8所述的基于URL特征的异常数据处理系统,其特征在于,所述属性识别子模块中:
利用网站识别得到的网站属性特征的URL进行网站附加属性识别,网站附加属性识别包括行为识别、站点类型识别和页面类型识别;
所述对象识别子模块中:
利用属性识别得到的网站附加属性进行给定对象的信息识别,给定对象的信息包括资源对象类别、内容媒介、收费信息和资源标识变量。
10.根据权利要求9所述的基于URL特征的异常数据处理系统,其特征在于,所述异常数据标注模块包括:
URL有效识别子模块,用于判断URL是否有效;
合法性判断子模块,若URL为有效URL,判断URL字符串的合法性;
顶级域名提取子模块,用于若为合法URL字符串,提取URL字符串中的顶级域名字符串,提取成功后进行URL规则匹配;
规则判断子模块,用于基于所述URL规则库,判断是否存在下一条规则,若存在下一条规则,则继续执行域名匹配子模块;
域名匹配子模块,用于利用提取的顶级域名字符串进行域名匹配,根据域名规则的匹配优先级,匹配所述URL规则库中优先级高的域名规则,若域名匹配成功,继续执行协议匹配子模块;
协议匹配子模块,用于匹配优先级高的域名规则对应的协议类型,若匹配协议成功,继续执行URI匹配子模块;
URI匹配子模块,用于匹配优先级高的域名规则对应的URI,若URI为空,继续网站信息封装;
封装标注子模块,用于提取网站属性特征,进行网站信息封装,提取标注对象id并标注给结果对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210887220.5A CN115168755A (zh) | 2022-07-26 | 2022-07-26 | 基于url特征的异常数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210887220.5A CN115168755A (zh) | 2022-07-26 | 2022-07-26 | 基于url特征的异常数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115168755A true CN115168755A (zh) | 2022-10-11 |
Family
ID=83496505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210887220.5A Pending CN115168755A (zh) | 2022-07-26 | 2022-07-26 | 基于url特征的异常数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168755A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117176483A (zh) * | 2023-11-03 | 2023-12-05 | 北京艾瑞数智科技有限公司 | 一种异常url的识别方法、装置及相关产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102638448A (zh) * | 2012-02-27 | 2012-08-15 | 珠海市君天电子科技有限公司 | 一种基于非内容分析的判断钓鱼网站的方法 |
CN103136360A (zh) * | 2013-03-07 | 2013-06-05 | 北京宽连十方数字技术有限公司 | 一种互联网行为标注引擎及对应该引擎的行为标注方法 |
CN106357618A (zh) * | 2016-08-26 | 2017-01-25 | 北京奇虎科技有限公司 | 一种Web异常检测方法和装置 |
US10616274B1 (en) * | 2017-11-30 | 2020-04-07 | Facebook, Inc. | Detecting cloaking of websites using model for analyzing URL redirects |
CN112749360A (zh) * | 2019-10-30 | 2021-05-04 | 北京国双科技有限公司 | 网页分类方法及装置 |
US20210367758A1 (en) * | 2020-05-21 | 2021-11-25 | Tata Consultancy Services Limited | Method and system for privacy preserving classification of websites url |
-
2022
- 2022-07-26 CN CN202210887220.5A patent/CN115168755A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102638448A (zh) * | 2012-02-27 | 2012-08-15 | 珠海市君天电子科技有限公司 | 一种基于非内容分析的判断钓鱼网站的方法 |
CN103136360A (zh) * | 2013-03-07 | 2013-06-05 | 北京宽连十方数字技术有限公司 | 一种互联网行为标注引擎及对应该引擎的行为标注方法 |
CN106357618A (zh) * | 2016-08-26 | 2017-01-25 | 北京奇虎科技有限公司 | 一种Web异常检测方法和装置 |
US10616274B1 (en) * | 2017-11-30 | 2020-04-07 | Facebook, Inc. | Detecting cloaking of websites using model for analyzing URL redirects |
CN112749360A (zh) * | 2019-10-30 | 2021-05-04 | 北京国双科技有限公司 | 网页分类方法及装置 |
US20210367758A1 (en) * | 2020-05-21 | 2021-11-25 | Tata Consultancy Services Limited | Method and system for privacy preserving classification of websites url |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117176483A (zh) * | 2023-11-03 | 2023-12-05 | 北京艾瑞数智科技有限公司 | 一种异常url的识别方法、装置及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9870502B2 (en) | Apparatus for, a method of, and a network server for detecting data patterns in a data stream | |
CN109379326B (zh) | Xml报文规则校验方法、设备和存储介质 | |
CN109948334B (zh) | 一种漏洞检测方法、系统及电子设备和存储介质 | |
CN111367874B (zh) | 一种日志处理方法、装置、介质和设备 | |
CN102143224A (zh) | 基于手机上网用户行为的分析方法和装置 | |
CN114157502B (zh) | 一种终端识别方法、装置、电子设备及存储介质 | |
CN112468520A (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
CN103685307A (zh) | 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器 | |
CN101296441B (zh) | 一种扫描二维条码发送消息的方法及装置 | |
CN107957871B (zh) | 一种基于jsr303的前后端同步正则校验方法 | |
CN115168755A (zh) | 基于url特征的异常数据处理方法及系统 | |
CN110636038A (zh) | 账号解析方法、装置、安全网关及系统 | |
CN104317847A (zh) | 一种识别网络文字信息的语种的方法及系统 | |
CN115146174B (zh) | 基于多维权重模型的重点线索推荐方法及系统 | |
CN108287859A (zh) | 一种多媒体信息检索方法及装置 | |
CN109214846B (zh) | 信息存储方法和装置 | |
CN107222559B (zh) | 信息调用方法 | |
CN106411944B (zh) | 一种网络访问的管理方法及装置 | |
CN115421996B (zh) | 一种高效半自动化异常数据处理方法及系统 | |
CN114629970A (zh) | 一种tcp/ip流量还原方法 | |
CN113946648A (zh) | 结构化信息生成方法、装置、电子设备和介质 | |
CN112752165A (zh) | 字幕处理方法、装置、服务器及计算机可读存储介质 | |
CN114143301B (zh) | 一种移动流量应用识别特征提取方法及系统 | |
CN114205389B (zh) | 基于物联网的信息智能筛选方法及装置 | |
CN115333802B (zh) | 一种基于神经网络的恶意程序检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221011 |
|
RJ01 | Rejection of invention patent application after publication |