CN115858959A - 一种数据处理方法、装置、电子设备以及存储介质 - Google Patents

一种数据处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN115858959A
CN115858959A CN202211684623.6A CN202211684623A CN115858959A CN 115858959 A CN115858959 A CN 115858959A CN 202211684623 A CN202211684623 A CN 202211684623A CN 115858959 A CN115858959 A CN 115858959A
Authority
CN
China
Prior art keywords
data
url
domain name
url data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211684623.6A
Other languages
English (en)
Inventor
宋文芳
郭超
张超
武铜贺
卢加磊
王文俊
李毓宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Industry Engineering Co ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
China Electronics Industry Engineering Co ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronics Industry Engineering Co ltd, Secworld Information Technology Beijing Co Ltd filed Critical China Electronics Industry Engineering Co ltd
Priority to CN202211684623.6A priority Critical patent/CN115858959A/zh
Publication of CN115858959A publication Critical patent/CN115858959A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据处理方法、装置、电子设备以及存储介质,其中方法包括:从数据平台获取URL数据;基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;基于不同类别标签对应的处理方式对所述URL数据进行处理,本申请实现了从URL层面对数据进行处理,使得网络安全从业人员无需专门打开非结构化数据的URL查看内容,从而提高快处理效率。

Description

一种数据处理方法、装置、电子设备以及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置、电子设备以及存储介质。
背景技术
随着网络安全问题的日渐严重,为了应对黑客攻击网站的网络行为,网络安全专家经常发表“安全事件曝光”分享攻击策略,以创建集体知识库,从而打击网络犯罪。“安全事件报告”以非结构化数据在各类媒体网站、论坛等地方传播,网络安全从业人员需要及时获得这些非结构化数据,并快速进行分析或处理。
而非结构化数据具有多语言、发布格式不固定的特点,网络安全从业人员需要人工打开非结构化数据的URL才能查看内容,进而基于查看的内容进行后续处理,而这种处理方式导致了处理效率较低。
发明内容
为克服相关技术中存在的问题,本申请提供一种数据处理方法、装置、电子设备以及存储介质,以提高处理效率。
本申请第一方面提供了一种数据处理方法,包括:
从数据平台获取URL数据;
基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
基于不同类别标签对应的处理方式对所述URL数据进行处理。
可选的,还包括:
对未标注有所述类别标签的URL数据标注用于表征未分类的类别标签。
可选的,还包括:
对标注有所述用于表征未分类的类别标签的URL数据,统计同一域名下的总数量以及同一域名在至少一个关联参数下的状态,生成统计结果;
基于所述统计结果确定是否将用于表征未分类的类别标签的URL数据对应的域名划分到预先建立的类别标签与域名的对应关系中。
可选的,还包括:
基于模糊搜索工具获取待搜索域名;
基于所述待搜索域名对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
可选的,还包括:
基于精确匹配工具获取待搜索URL部分;
基于所述待搜索URL部分对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
本申请第二方面提供了一种数据处理装置,包括:
第一获取单元,用于从数据平台获取URL数据;
第一标注单元,用于基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
第一处理单元,用于基于不同类别标签对应的处理方式对所述URL数据进行处理。
可选的,还包括:
第二标注单元,用于对未标注有所述类别标签的URL数据标注用于表征未分类的类别标签。
可选的,还包括:
第一生成单元,用于对标注有所述用于表征未分类的类别标签的URL数据,统计同一域名下的总数量以及同一域名在至少一个关联参数下的状态,生成统计结果;
第一确定单元,用于基于所述统计结果确定是否将用于表征未分类的类别标签的URL数据对应的域名划分到预先建立的类别标签与域名的对应关系中。
可选的,还包括:
第二获取单元,用于基于模糊搜索工具获取待搜索域名;
第一搜索单元,用于基于所述待搜索域名对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
可选的,还包括:
第二获取单元,用于基于精确匹配工具获取待搜索URL部分;
第二搜索单元,用于基于所述搜索URL部分对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
本申请第三方面提供了一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第四方面提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
由此可见,本申请提供了一种数据处理方法,通过从数据平台获取URL数据,基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签,从而基于不同类别标签对应的处理方式对所述URL数据进行处理;由此可见,本申请实现了从URL层面对数据进行处理,使得网络安全从业人员无需专门打开非结构化数据的URL查看内容,从而提高快处理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例一提供的一种数据处理方法的流程示意图;
图2是本申请实施例二提供的一种数据处理方法的流程示意图;
图3是本申请实施例三提供的一种数据处理方法的流程示意图;
图4是本申请实施例四提供的一种数据处理方法的流程示意图;
图5是本申请实施例五示出的一种数据处理装置的结构示意图;
图6是本申请实施例六提供的一种数据处理装置的结构示意图;
图7为本申请实施例七提供的一种数据处理装置的结构示意图;
图8为本申请实施例八提供的一种数据处理装置的结构示意图;
图9是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
发明人在研究中发现,同一条非结构化数据的URL因为采集方式、渠道等原因,会有多种表现形式。例如:同一篇BBC新闻的URL数据可能的形式如下
bbc.co.uk/xxx(英国地区专属域名)
www.bbc.com/xxxxxx/xxxxx/(官网url)
bbc.in/xxxxxx(bbc专属短链)
bbc.com/xxxxxx/xxxxx/(来自twitter上的url)
www.bbc.com/xxxxxx/xxxxx/?=facebook(带渠道参数据的url)
现有技术中,用户需要专门打开非结构化数据的URL查看内容,而并未公开如何在URL层面进行数据处理。本申请提供的一种数据处理方法、装置、电子设备以及存储介质,能够实现从URL层面对数据进行处理,使得网络安全从业人员无需专门打开非结构化数据的URL查看内容,从而提高快处理效率。
实施例一
本申请实施例一提供了一种数据处理方法,如图1所示,该方法包括如下步骤:
步骤101:从数据平台获取URL数据;
该数据平台为预先指定的数据平台,如为奇安信的数据处理平台。
从数据平台能够获取到大量URL(Uniform Resource Locator,统一资源定位符)数据,本申请可以对这些数据进行处理。
一种方式下,可以对一定时间范围内的URL数据进行处理,具体的,可以指定时间范围,从而从数据平台获取该指定时间范围内的URL数据。例如,指定获取2022-10-4日的URL数据。
步骤102:基于预先建立的类别标签与域名的对应关系对所述URL数据进行分别,并标注对应的类别标签;
一条URL数据包括域名以及URL部分,假设一条URL数据如下:
http://qinanxin.com/123456/?ydkgio=twitter
其中,qinanxin.com为域名,又称为host;123456为URL部分。
本申请预先建立不同域名与不同类别标签的对应关系,而URL数据中包含域名,因此可以基于该对应关系对所获取的URL数据进行分类,并标注对应的类别标签。
类别标签的具体类别本申请不做限定,例如,可以包括:
删除标签、屏蔽标签、参考标签、模板标签、等级标签、结构标签等等。而不同类别标签的表现形式本申请不做限定,具体可以直接以类别作为标签,也可以以其他形式体现,如不同类别标签对应不同的线型,以删除标签为例其可以对应删除线。
步骤103:基于不同类别标签对应的处理方式对所述URL数据进行处理。
本申请中,不同的类别标签还对应有不同的处理方式。具体处理方式可以如下:
删除标签对应的处理方式为:自动忽略该类别下的URL数据;
屏蔽标签对应的处理方式为:后续禁止所有该类别下的URL数据进入数据平台;
参考标签对应的处理方式为:对该类别下的URL数据进行二次采集。
模板标签对应的处理方式为:采用模板标签对应的采集方式采集该类别下URL数据的内容。
其中,不同的模板标签可以对应不同的采集方式,不同的采集方式可以实现对URL数据的不同内容进行采集。例如,设置爬虫针对不同域名采集不同字段的内容。
等级标签对应的处理方式为:设置爬虫采用等级标签对应的爬取频率对该类别下的URL数据进行爬取。
其中,等级标签可以包括高、中、低、自动化中的一种或多种等级标签,而不同等级标签对应不同的爬取频率,例如高等级标签对应的爬取频率为每30分钟爬取一次;中等级对应的爬取频率为每1小时爬取一次;低等于对应的爬取频率为每一天爬取一次。
结构化标签对应的处理方式为:自动忽略该类别下的URL数据。
其中,结构化数据的特点为格式统一、语言一般为英语,因此该类别下的URL数据自动忽略。
由此可见,本实施例中,通过从数据平台获取URL数据,基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签,从而基于不同类别标签对应的处理方式对所述URL数据进行处理;由此可见,本申请实现了从URL层面对数据进行处理,使得网络安全从业人员无需专门打开非结构化数据的URL查看内容,从而提高快处理效率。
实施例二
由于数据平台中的URL数据量大且来源广泛,因此,并不能保证所有URL数据中的域名均预先建立有类别标签。对此,本实施例提供了一种数据处理方法,如图2所示,该方法包括如下步骤:
步骤201:从数据平台获取URL数据;
步骤202:基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
步骤203:基于不同类别标签对应的处理方式对所述URL数据进行处理;
步骤204:对未标注有所述类别标签的URL数据标注用于表征未分类的类别标签。
对于域名没有在预先建立的类别标签与域名的对应关系中的ULR数据,标注用于表征未分类的类别标签,而该类别标签的具体表现形式本申请不做限定,例如以“newsite”表征未分类的类别标签,当然还有其他的表现形式,本申请不再举例。
由此可见,本实施例中,通过从数据平台获取URL数据,基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签,从而基于不同类别标签对应的处理方式对所述URL数据进行处理;由此可见,本申请实现了从URL层面对数据进行处理,使得网络安全从业人员无需专门打开非结构化数据的URL查看内容,从而提高快处理效率;
并且,对于没有标注类别标签的URL数据,标注用于表征未分类的类别标签,以便对其进行统一处理,进一步提高处理效率。
实施例三
本实施例提供了一种数据处理方法,如图3所示,该方法包括如下步骤:
步骤301:从数据平台获取URL数据;
步骤302:基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
步骤303:基于不同类别标签对应的处理方式对所述URL数据进行处理;
步骤304:对未标注有所述类别标签的URL数据标注用于表征未分类的类别标签;
步骤305:对标注有所述用于表征未分类的类别标签的URL数据,统计同一域名下的总数量以及同一域名在至少一个关联参数下的状态,生成统计结果;
通过基于域名对未分类的URL数据进行统计,来确定是否将其加入到域名与类别标签的对应关系中。
具体的,该关联参数可以包括域名的业务评分、是否属于屏蔽域名等。
相应的,同一域名在域名的业务评分下的状态包括同一域名在域名的业务评分低于预设分数的数量,同一域名在是否属于屏蔽域名下的状态包括同一域名为屏蔽域名或者不是屏蔽域名。
如下列表1为基于同一域名下的总数量、score=0以及是否在屏蔽域名中进行统计的统计结果。其中,score=0代表域名的业务评分为零,即属于无关数据。是否在屏蔽域名中可以通过预先建立的屏蔽域名列表确定,其中,屏蔽域名列表中列有屏蔽域名。
表1
Figure BDA0004020483020000081
Figure BDA0004020483020000091
步骤306:基于所述统计结果确定是否将用于表征未分类的类别标签的URL数据对应的域名划分到预先建立的类别标签与域名的对应关系中。
具体的,若关联参数包括域名的业务评分,则可以对同一域名的总数量高于一数量阈值、且同一域名的业务评分低于预设值的数量与总数量的比值低于预设比值的域名进行类别标签的分类。
若关联参数包括是否属于屏蔽域名,则可以对同一域名的总数量高于一数量阈值、且不属于屏蔽域名的域名进行类别标签的分类。
该关联参数可以包括域名的业务评分以及是否属于屏蔽域名,则可以对不属于屏蔽域名、且同一域名的总数量高于一数量阈值、且同一域名的业务评分低于预设值的数量与总数量的比值低于预设比值的域名进行类别标签的分类。
而具体的,能够分类的域名属于哪一类别标签可以基于用户的选择确定,当然也可以基于待分类的域名的URL数据的内容与类别标签下的域名的URL数据的内容是否关联自动划分。
需说明的是,如果域名属于屏蔽域名,说明无需对该域名进行分类,因此对不是屏蔽域名的域名进行分类,在另一方式下,在分类前,还可以确定是否将其加入屏蔽域名,若加入,则无需分类,若不加入,则考虑是否分类。
由此可见,本实施例中,对于没有分类的URL数据,通过该标注用于表征未分类的类别标签,并且统计其在同一域名下的总数量以及同一域名在至少一个关联参数下的状态,生成统计结果,从而基于所述统计结果确定是否将用于表征未分类的类别标签的URL数据对应的域名划分到预先建立的类别标签与域名的对应关系中,以便能够快速对新域名进行分类,进一步提高处理效率。
实施例四
本实施例提供了一种数据处理方法,如图4所示,该方法包括如下步骤:
步骤401:从数据平台获取URL数据;
步骤402:基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
步骤403:基于不同类别标签对应的处理方式对所述URL数据进行处理;
步骤404:基于模糊搜索工具获取待搜索域名;
具体可以在接收到针对模糊搜索工具的触发操作时,展示模糊搜索工具,从而接收用户输入的待搜索域名。
步骤405:基于所述待搜索域名对从所述数据平台中获取的URL数据进行搜索,展示搜索结果;
从URL数据中搜索包含待搜索域名的URL数据,并展示。
例如,待搜索域名host为:qianxin.com
那么,搜索结果可以包括:
http://qinanxin.com/123456;
https://qianxin.com/123456/;
http://www.qianxin.com/3456;
http://a.qianxin.com/123456/
步骤406:基于精确匹配工具获取待搜索URL部分;
待搜索URL部分为URL数据中两个“/”之间的参数,其为URL数据的URL部分。具体可以在接收到针对精确匹配工具的触发操作时,展示精确匹配工具,从而接收用户输入的待搜索URL部分。
步骤407:基于所述待搜索URL部分对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
从URL数据中搜索包含待搜索URL部分的URL数据,并展示。
需说明的是,本实施例中,模糊匹配和精确匹配能够同时实现,而在其他实现方式中,可以分别实现模糊匹配和精确匹配,具体的另一实施例中可以包括步骤401-405,又一实施例中可以包括步骤401-403以及步骤406-407。
例如,对两个“/”之间的参数进行精准匹配时,输入:123456
那么,搜索结果可以包括:
http://qinanxin.com/123456/?ydkgio=twitter;
http://qinanxin.com/123456/;
https://qianxin.com/123456/;
http://a.qianxin.com/123456/。
由此可见,本实施例中,通过模糊搜索工具获取待搜索域名,从而基于所述待搜索域名对从所述数据平台中获取的URL数据进行搜索,展示搜索结果,实现了基于域名对URL数据的统计,从而便于对统计出的URL数据进行处理;
此外,通过基于精确匹配工具获取待搜索URL部分,从而基于所述待搜索URL部分对从所述数据平台中获取的URL数据进行搜索,展示搜索结果,实现了基于URL部分对URL数据的统计,从而便于对统计出的URL数据进行处理,提高了处理效率。
与前述一种数据处理方法实施例相对应,本申请还提供了一种数据处理装置、电子设备、存储介质及相应的实施例。
实施例五
本实施例提供了一种数据处理装置,如图5所示,该装置包括:第一获取单元110、第一标注单元120以及第一处理单元130。具体的:
第一获取单元110,用于从数据平台获取URL数据;
该数据平台为预先指定的数据平台,如为奇安信的数据处理平台。
从数据平台能够获取到大量URL(Uniform Resource Locator,统一资源定位符)数据,本申请可以对这些数据进行处理。
一种方式下,第一获取单元110可以用于从数据平台获取指定时间范围内的URL数据。
第一标注单元120,用于基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
本申请预先建立不同域名与不同类别标签的对应关系,而URL数据中包含域名,因此可以基于该对应关系对所获取的URL数据进行分类,并标注对应的类别标签。
类别标签的具体类别本申请不做限定,例如,可以包括:
删除标签、屏蔽标签、参考标签、模板标签、等级标签、结构标签等等。而不同类别标签的表现形式本申请不做限定,具体可以直接以类别作为标签,也可以以其他形式体现,如不同类别标签对应不同的线型,以删除标签为例其可以对应删除线。
第一处理单元130,用于基于不同类别标签对应的处理方式对所述URL数据进行处理。
本申请中,不同的类别标签还对应有不同的处理方式。具体处理方式可以如下:
删除标签对应的处理方式为:自动忽略该类别下的URL数据;
屏蔽标签对应的处理方式为:后续禁止所有该类别下的URL数据进入数据平台;
参考标签对应的处理方式为:对该类别下的URL数据进行二次采集。
模板标签对应的处理方式为:采用模板标签对应的采集方式采集该类别下URL数据的内容。
其中,不同的模板标签可以对应不同的采集方式,不同的采集方式可以实现对URL数据的不同内容进行采集。例如,设置爬虫针对不同域名采集不同字段的内容。
等级标签对应的处理方式为:设置爬虫采用等级标签对应的爬取频率对该类别下的URL数据进行爬取。
其中,等级标签可以包括高、中、低、自动化中的一种或多种等级标签,而不同等级标签对应不同的爬取频率,例如高等级标签对应的爬取频率为每30分钟爬取一次;中等级对应的爬取频率为每1小时爬取一次;低等于对应的爬取频率为每一天爬取一次。
结构化标签对应的处理方式为:自动忽略该类别下的URL数据。
其中,结构化数据的特点为格式统一、语言一般为英语,因此该类别下的URL数据自动忽略。
由此可见,本实施例中,通过从数据平台获取URL数据,基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签,从而基于不同类别标签对应的处理方式对所述URL数据进行处理;由此可见,本申请实现了从URL层面对数据进行处理,使得网络安全从业人员无需专门打开非结构化数据的URL查看内容,从而提高快处理效率。
实施例六
本实施例提供了一种数据处理装置,如图6所示,该装置包括:第一获取单元110、第一标注单元120、第一处理单元130以及第二标注单元140。具体的:
第一获取单元110,用于从数据平台获取URL数据;
第一标注单元120,用于基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
第一处理单元130,用于基于不同类别标签对应的处理方式对所述URL数据进行处理;
第二标注单元140,用于对未标注有所述类别标签的URL数据标注用于表征未分类的类别标签。
对于域名没有在预先建立的类别标签与域名的对应关系中的ULR数据,标注用于表征未分类的类别标签,而该类别标签的具体表现形式本申请不做限定,例如以“newsite”表征未分类的类别标签,当然还有其他的表现形式,本申请不再举例。
由此可见,本实施例中,通过从数据平台获取URL数据,基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签,从而基于不同类别标签对应的处理方式对所述URL数据进行处理;由此可见,本申请实现了从URL层面对数据进行处理,使得网络安全从业人员无需专门打开非结构化数据的URL查看内容,从而提高快处理效率;
并且,对于没有标注类别标签的URL数据,标注用于表征未分类的类别标签,以便对其进行统一处理,进一步提高处理效率。
实施例七
本实施例提供了一种数据处理装置,如图7所示,该装置包括:第一获取单元110、第一标注单元120、第一处理单元130、第二标注单元140、第一生成单元150以及第一确定单元160。具体的:
第一获取单元110,用于从数据平台获取URL数据;
第一标注单元120,用于基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
第一处理单元130,用于基于不同类别标签对应的处理方式对所述URL数据进行处理;
第二标注单元140,用于对未标注有所述类别标签的URL数据标注用于表征未分类的类别标签;
第一生成单元150,用于对标注有所述用于表征未分类的类别标签的URL数据,统计同一域名下的总数量以及同一域名在至少一个关联参数下的状态,生成统计结果;
通过基于域名对未分类的URL数据进行统计,来确定是否将其加入到域名与类别标签的对应关系中。
具体的,该关联参数可以包括域名的业务评分、是否属于屏蔽域名等。
相应的,同一域名在域名的业务评分下的状态包括同一域名在域名的业务评分低于预设分数的数量,同一域名在是否属于屏蔽域名下的状态包括同一域名为屏蔽域名或者不是屏蔽域名。
第一确定单元160,用于基于所述统计结果确定是否将用于表征未分类的类别标签的URL数据对应的域名划分到预先建立的类别标签与域名的对应关系中。
具体的,若关联参数包括域名的业务评分,则可以对同一域名的总数量高于一数量阈值、且同一域名的业务评分低于预设值的数量与总数量的比值低于预设比值的域名进行类别标签的分类。
若关联参数包括是否属于屏蔽域名,则可以对同一域名的总数量高于一数量阈值、且不属于屏蔽域名的域名进行类别标签的分类。
该关联参数可以包括域名的业务评分以及是否属于屏蔽域名,则可以对不属于屏蔽域名、且同一域名的总数量高于一数量阈值、且同一域名的业务评分低于预设值的数量与总数量的比值低于预设比值的域名进行类别标签的分类。
而具体的,能够分类的域名属于哪一类别标签可以基于用户的选择确定,当然也可以基于待分类的域名的URL数据的内容与类别标签下的域名的URL数据的内容是否关联自动划分。
由此可见,本实施例中,对于没有分类的URL数据,通过该标注用于表征未分类的类别标签,并且统计其在同一域名下的总数量以及同一域名在至少一个关联参数下的状态,生成统计结果,从而基于所述统计结果确定是否将用于表征未分类的类别标签的URL数据对应的域名划分到预先建立的类别标签与域名的对应关系中,以便能够快速对新域名进行分类,进一步提高处理效率。
实施例八
本实施例提供了一种数据处理装置,如图8所示,该装置包括:第一获取单元110、第一标注单元120、第一处理单元130、第二获取单元170、第一搜索单元180、第三获取单元190以及第二搜索单元210;其中:
第一获取单元110,用于从数据平台获取URL数据;
第一标注单元120,用于基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
第一处理单元130,用于基于不同类别标签对应的处理方式对所述URL数据进行处理;
第二获取单元170,用于基于模糊搜索工具获取待搜索域名;
具体可以在接收到针对模糊搜索工具的触发操作时,展示模糊搜索工具,从而接收用户输入的待搜索域名。
第一搜索单元180,用于基于所述待搜索域名对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
从URL数据中搜索包含待搜索域名的URL数据,并展示。
第二获取单元190,用于基于精确匹配工具获取待搜索URL部分;
待搜索URL部分为URL数据中两个“/”之间的参数,其为URL数据的URL部分。具体可以在接收到针对精确匹配工具的触发操作时,展示精确匹配工具,从而接收用户输入的待搜索URL部分。
第二搜索单元210,用于基于所述搜索URL部分对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
从URL数据中搜索包含待搜索URL部分的URL数据,并展示。
需说明的是,本实施例中,模糊匹配和精确匹配能够同时实现,而在其他实现方式中,可以分别实现模糊匹配和精确匹配,具体的另一实施例中可以包括第一获取单元110、第一标注单元120、第一处理单元130、第二获取单元170以及第一搜索单元180;又一实施例中可以包括第一获取单元110、第一标注单元120、第一处理单元130、第三获取单元190以及第二搜索单元210。
由此可见,本实施例中,通过模糊搜索工具获取待搜索域名,从而基于所述待搜索域名对从所述数据平台中获取的URL数据进行搜索,展示搜索结果,实现了基于域名对URL数据的统计,从而便于对统计出的URL数据进行处理;
此外,通过基于精确匹配工具获取待搜索URL部分,从而基于所述待搜索URL部分对从所述数据平台中获取的URL数据进行搜索,展示搜索结果,实现了基于URL部分对URL数据的统计,从而便于对统计出的URL数据进行处理,提高了处理效率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
实施例九
本实施例还提供了一种电子设备,如图9所示,电子设备1000包括存储器1010和处理器1020。
处理器1020可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
上文中已经参考附图详细描述了本申请的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本申请所必须的。另外,可以理解,本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使所述处理器执行根据本申请的上述方法的各个步骤的部分或全部。
本领域技术人员还将明白的是,结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本申请的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
从数据平台获取URL数据;
基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
基于不同类别标签对应的处理方式对所述URL数据进行处理。
2.根据权利要求1所述的方法,其特征在于,还包括:
对未标注有所述类别标签的URL数据标注用于表征未分类的类别标签。
3.根据权利要求2所述的方法,其特征在于,还包括:
对标注有所述用于表征未分类的类别标签的URL数据,统计同一域名下的总数量以及同一域名在至少一个关联参数下的状态,生成统计结果;
基于所述统计结果确定是否将用于表征未分类的类别标签的URL数据对应的域名划分到预先建立的类别标签与域名的对应关系中。
4.根据权利要求1所述的方法,其特征在于,还包括:
基于模糊搜索工具获取待搜索域名;
基于所述待搜索域名对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
5.根据权利要求1或4所述的方法,其特征在于,还包括:
基于精确匹配工具获取待搜索URL部分;
基于所述待搜索URL部分对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
6.一种数据处理装置,其特征在于,包括:
第一获取单元,用于从数据平台获取URL数据;
第一标注单元,用于基于预先建立的类别标签与域名的对应关系对所述URL数据进行分类,并标注对应的类别标签;
第一处理单元,用于基于不同类别标签对应的处理方式对所述URL数据进行处理。
7.根据权利要求6所述的装置,其特征在于,还包括:
第二标注单元,用于对未标注有所述类别标签的URL数据标注用于表征未分类的类别标签。
8.根据权利要求7所述的装置,其特征在于,还包括:
第一生成单元,用于对标注有所述用于表征未分类的类别标签的URL数据,统计同一域名下的总数量以及同一域名在至少一个关联参数下的状态,生成统计结果;
第一确定单元,用于基于所述统计结果确定是否将用于表征未分类的类别标签的URL数据对应的域名划分到预先建立的类别标签与域名的对应关系中。
9.根据权利要求6所述的装置,其特征在于,还包括:
第二获取单元,用于基于模糊搜索工具获取待搜索域名;
第一搜索单元,用于基于所述待搜索域名对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
10.根据权利要求1或9所述的装置,其特征在于,还包括:
第三获取单元,用于基于精确匹配工具获取待搜索URL部分;
第二搜索单元,用于基于所述搜索URL部分对从所述数据平台中获取的URL数据进行搜索,展示搜索结果。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-5中任一项所述的方法。
12.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-5中任一项所述的方法。
CN202211684623.6A 2022-12-27 2022-12-27 一种数据处理方法、装置、电子设备以及存储介质 Pending CN115858959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211684623.6A CN115858959A (zh) 2022-12-27 2022-12-27 一种数据处理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211684623.6A CN115858959A (zh) 2022-12-27 2022-12-27 一种数据处理方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN115858959A true CN115858959A (zh) 2023-03-28

Family

ID=85653491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211684623.6A Pending CN115858959A (zh) 2022-12-27 2022-12-27 一种数据处理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115858959A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982177A (zh) * 2012-12-17 2013-03-20 北京奇虎科技有限公司 一种浏览器中进行搜索的方法和装置
US20170177706A1 (en) * 2015-12-16 2017-06-22 Quixey, Inc. Category-Based Search System and Method for Providing Application Related Search Results
CN110069693A (zh) * 2019-04-29 2019-07-30 百度在线网络技术(北京)有限公司 用于确定目标页面的方法和装置
CN113177169A (zh) * 2021-05-18 2021-07-27 北京天融信网络安全技术有限公司 网络地址的类别获取方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982177A (zh) * 2012-12-17 2013-03-20 北京奇虎科技有限公司 一种浏览器中进行搜索的方法和装置
US20170177706A1 (en) * 2015-12-16 2017-06-22 Quixey, Inc. Category-Based Search System and Method for Providing Application Related Search Results
CN110069693A (zh) * 2019-04-29 2019-07-30 百度在线网络技术(北京)有限公司 用于确定目标页面的方法和装置
CN113177169A (zh) * 2021-05-18 2021-07-27 北京天融信网络安全技术有限公司 网络地址的类别获取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108345642B (zh) 采用代理ip爬取网站数据的方法、存储介质和服务器
US9607059B2 (en) Intelligent data mining and processing of machine generated logs
US8719308B2 (en) Method and system to process unstructured data
US20190347429A1 (en) Method and system for managing electronic documents based on sensitivity of information
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
CN108763952A (zh) 一种数据分类方法、装置及电子设备
US9792341B2 (en) Database query processing using horizontal data record alignment of multi-column range summaries
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
WO2019169978A1 (zh) 资源推荐方法及装置
CN110019785B (zh) 一种文本分类方法及装置
CN110008462B (zh) 一种命令序列检测方法及命令序列处理方法
US11609897B2 (en) Methods and systems for improved search for data loss prevention
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
JP2008310626A (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
US20120254166A1 (en) Signature Detection in E-Mails
US20210271756A1 (en) System and method for detecting leaked documents on a computer network
CN109977328A (zh) 一种url分类方法及装置
CN107590187A (zh) 基于人工智能的图形商标可注册性判断的方法
CN115827903A (zh) 媒体信息的违规检测方法、装置、电子设备及存储介质
CN110008701A (zh) 基于elf文件特征的静态检测规则提取方法及检测方法
US9361198B1 (en) Detecting compromised resources
Alneyadi et al. A semantics-aware classification approach for data leakage prevention
CN115858959A (zh) 一种数据处理方法、装置、电子设备以及存储介质
CN107577667B (zh) 一种实体词处理方法和装置
CN107609020B (zh) 一种基于标注的日志分类的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination