CN111783016A - 一种网站分类方法、装置及设备 - Google Patents

一种网站分类方法、装置及设备 Download PDF

Info

Publication number
CN111783016A
CN111783016A CN202010636907.2A CN202010636907A CN111783016A CN 111783016 A CN111783016 A CN 111783016A CN 202010636907 A CN202010636907 A CN 202010636907A CN 111783016 A CN111783016 A CN 111783016A
Authority
CN
China
Prior art keywords
website
sample
value
data
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010636907.2A
Other languages
English (en)
Other versions
CN111783016B (zh
Inventor
崔阳
章鹏
朱标
刘小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010636907.2A priority Critical patent/CN111783016B/zh
Publication of CN111783016A publication Critical patent/CN111783016A/zh
Application granted granted Critical
Publication of CN111783016B publication Critical patent/CN111783016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种网站分类方法、装置及设备,方案包括:获取目标网站;计算所述目标网站的综合采集价值;根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;将所述采集数据输入到网站评估模型,得到评估结果;根据所述评估值确定所述目标网站是否为违规网站。

Description

一种网站分类方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种网站分类方法、装置及设备。
背景技术
随着计算机技术的发展,网络为人们的生活带来了便捷,例如,人们可以通过网络获取各种新闻消息,还可以进行网购、缴费、转账等等。同时,网络中也充斥着各种风险,例如,网络中存在钓鱼网站、传销网站、赌博网站等违规网站,这些违规网站严重影响人们的生活。因此,有效识别违规网站是提高网络安全的一部分。
目前,对于一些违规网站通常会采用群众反馈或者监测资源转移是否异常等方式来识别,而这些方式存在滞后性,通常是用户在此违规网站已经产生了资源损失,才会投诉举报,因此,如何及时识别违规网站,成为了亟需解决的问题。
发明内容
本说明书实施例提供一种网站分类方法、装置及设备,以解决现有的网站分类方法中存在的滞后性的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种网站分类方法,包括:
获取目标网站;
计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
根据所述评估值确定所述目标网站是否为违规网站。
本说明书实施例提供的一种网站评估模型的更新方法,包括:
获取第一训练样本;
基于所述第一训练样本,得到打标样本;所述打标样本包是由人工对所述第一训练样本进行打标得到的样本;
对所述打标样本进行扩散,得到与所述打标样本相似的样本;
将所述相似的样本进行打标,得到第二训练样本;
利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的所述网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
本说明书实施例提供的一种网站分类装置,包括:
网站获取模块,用于获取目标网站;
价值计算模块,用于计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
采集方式确定模块,用于根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
采集数据获取模块,用于利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
网站评估模块,用于将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
网站类型确定模块,用于根据所述评估值确定所述目标网站是否为违规网站。
本说明书实施例提供的一种网站评估模型的更新装置,包括:
第一样本获取模块,用于获取第一训练样本;
打标样本获取模块,用于基于所述第一训练样本,得到打标样本;所述打标样本包是由人工对所述第一训练样本进行打标得到的样本;
相似样本获取模块,用于对所述打标样本进行扩散,得到与所述打标样本相似的样本;
第二样本获取模块,用于将所述相似的样本进行打标,得到第二训练样本;
模型训练模块,用于利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的所述网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
本说明书实施例提供的一种网站分类设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取目标网站;
计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
根据所述评估值确定所述目标网站是否为违规网站。本说明书实施例提供的一种网站评估模型的更新设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取第一训练样本;
基于所述第一训练样本,得到打标样本;所述打标样本包是由人工对所述第一训练样本进行打标得到的样本;
对所述打标样本进行扩散,得到与所述打标样本相似的样本;
将所述相似的样本进行打标,得到第二训练样本;
利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的所述网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述一种网站分类方法。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述一种网站评估模型的更新方法。
本说明书一个实施例中方案能够达到以下有益效果:本说明书实施例中通过采集目标网站的数据获取网站自身包含的信息,利用网站评估模型来判断目标网站是否为违规网站,可在产生违规交易之前对违规网站进行识别,可有效减少违规交易对用户造成的损失。
并且,本说明书实施例中采集网站数据时,可根据综合采集价值采用不同的采集方式,可充分利用数据采集资源,在有效资源内采集更多对识别违规网站有价值的数据,提高资源利用率,也可一定程度上提高目标网站的识别效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种网站分类方法的流程示意图;
图2为本说明书实施例提供的一种网站评估模型的更新方法的流程图;
图3为本说明书实施例提供的对应于图1的一种网站分类装置的结构示意图;
图4为本说明书实施例提供的对应于图2的一种网站评估模型的更新装置的结构示意图;
图5为本说明书实施例提供的对应于图1的一种网站分类设备的结构示意图;
图6为本说明书实施例提供的对应于图2的一种网站评估模型的更新设备的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
现有技术中,通常是在接收群众反馈或者监测到该网站发生了异常资源流动后,才会去判断该网站是否存在违规操作,例如,某用户在浏览网站时,发现网站中存在违规的内容,可以向第三方权威机构反馈,第三方权威机构可以根据反馈信息对该网站进行检查,确定该网页是否是违规网站,还可根据检查结果进行相应的处理。例如,确定该网页时违规网站时,可将该网页停关,以防更多的用户受到损失。又如,对于异常资源流动的检测,当已经发生异常资源流动时,表示已经有用户的资源受到了损害,对用户已经产生了不良影响,在此基础上,需要尽量挽回用户损失,但还会存在难以挽回的损失。可见,目前对于违规网站的评估需要依据群众反馈或者已经发生的异常资源流动来确定,具有一定的滞后性,需要提供一种能够及时发现违规网站的方法,来尽量避免或减少用户损失,提高用户使用网络的安全性。
为了解决现有技术中的缺陷,本方案给出了以下实施例:
图1为本说明书实施例提供的一种网站分类方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器的程序或应用客户端。
如图1所示,该流程可以包括以下步骤:
步骤102:获取目标网站。
本说明书实施例中的目标网站可以是存在于互联网中的任意网站,为了更具有针对性的分类出违规网站,可以将第三方提供的高危网站名单中的网站作为目标网站,也可以将工信部发布的一些网站名单中的网站作为目标网站,还可以根据用户的特定需求选择特定网站作为目标网站进行分析,等等。本说明书实施例中对目标网站的来源不作具体限定。
步骤104:计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值。
本说明书实施例中需要利用采集到网站数据对网站进行评估,采集数据的质量会影响评估结果,为提高评估效果需要采集高质量的数据,也可以理解为需要采集对评估网站是否为违规网站具有价值的数据,采集数据的价值越高,越能体现该网站为违规网站。
通常情况下,获取的数据越全面,获取有价值数据的概率就越大,但对于合规网站来说,即使获取了很多的数据,也不能得到足够可以判断该网站为违规网站的数据,也可以理解为,对于一些网站来说,即使获取了大量的数据也可能获取不到有价值的数据,但通常情况下获取数据是需要利用特定工具或者执行特定步骤的,同时需要消耗相应的资源,如计算机内存资源,还有人力资源(如,技术人员的时间)以及物力资源(如,数据采集工具)等等。
为减少资源消耗,本说明书实施例中可以计算目标网站的综合采集价值,其中,综合采集价值可以表示在预设时刻采集所述目标网站得到的采集数据能够表示目标网站是否为违规网站的概率值,也可以理解为,在预设时刻对目标网站进行数据采集而产生的有价值数据的预测值。
步骤106:根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关。
本说明书实施例中,当综合采集价值较大时,可以表示若当前时刻对目标网站进行数据采集,可能获取到对于判断目标网站是否为违规网站的具有较高价值的数据,当前对目标网站进行数据采集的潜在价值较高,可以对目标网站进行数据采集。并且为获得较多有价值的数据,可采用资源消耗较高的数据采集方式进行数据采集。
当综合采集价值较小时,可以表示若当前时刻对目标网站进行数据采集,采集到的数据对于判断目标网站是否为违规网站的价值较低,当前对目标网站进行数据采集的潜在价值较低,为减少资源消耗,可采用资源消耗较低的数据采集方式进行数据采集。
步骤108:利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据。
本说明书实施例中可以根据不同的采集价值确定采用不同的采集方式采集网站数据,可以在资源有限时,尽可能多的获取能够表示目标网站是否为违规网站的数据,提高资源利用率。
步骤110:将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值。
本说明书实施例中可以利用网站评估模型对目标网站进行评估,得到用于表示目标网站为违规网站的评估值,其中评估值可以用高、中、低等级别形式表示,也可以用概率值等数值形式表示,用于表示目标网站为违规网站的概率。本说明书实施例中对评估值的具体形式不作具体限定,可以根据需求设定。
步骤112:根据所述评估值确定所述目标网站是否为违规网站。
在实际应用中,评估值反映了目标网站为违规网站的程度,评估值越高表示目标网站为违规网站的概率越大,可以根据评估值确定目标网站是否为违规网站。例如,可以将评估值大于预设值的目标网站确定为违规网站。
应当理解,本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
图1中的方法,通过采集目标网站的数据获取网站自身包含的信息,利用网站评估模型来判断目标网站是否为违规网站,可在产生违规交易之前对违规网站进行识别,可有效减少违规交易对用户造成的损失。
并且,本说明书实施例中采集网站数据时,可根据综合采集价值选择不同的采集方式,可充分利用数据采集资源,在有效资源内采集更多对识别违规网站有价值的数据,提高资源利用率,也可一定程度上提高目标网站的识别效率。
基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
可选的,本说明书所述计算所述目标网站的综合采集价值,具体包括:
获取所述目标网站的间隔采集时长;所述间隔采集时长为当前时刻与上一次对所述目标网站进行数据采集的采集时刻的间隔时长;
根据所述间隔采集时长,确定所述目标网站的第一采集价值;所述第一采集价值用于表示在当前时刻之后的预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
获取所述目标网站的静态信息;
根据所述静态信息,确定所述目标网站的第二采集价值;所述第二采集价值用于表示根据所述目标网站的相关数据对所述目标网站进行风险分析能够表示所述目标网站是否为违规网站的概率值;
根据所述第一采集价值及所述第二采集价值,计算所述目标网站的综合采集价值。
实际应用中,当首次对目标网站进行数据采集时,目标网站的间隔采集时长可以采用预设值。而当再次对目标网站进行数据采集时,则可以将上一次对该目标网站进行数据采集的采集时刻与当前时刻之间的时间间隔,确定为该目标网站的间隔采集时长。
其中,第一采集价值可以为假定在当前时刻不对目标网站进行数据采集,而是在当前时刻之后的预设时刻才对目标网站进行数据采集而产生的价值的预测值,产生的价值也可以理解为采集数据能够表示该目标网站是否为违规网站的概率值。因此,在当前时刻之后的预设时刻时,目标网站的间隔采集时长为上一次对目标网站进行数据采集的采集时刻与该预设时刻之间的时间间隔。
通常情况下,目标网站的间隔采集时长与该目标网站的新增相关数据的数据量之间通常成正比,而目标网站的新增相关数据的数据量与对该目标网站进行数据采集而产生的价值之间通常也成正比,因此,该目标网站的间隔采集时长越大,则确定出的该目标网站的第一采集价值数据的数值通常也越大。
在实际应用中,还可以根据间隔采集时长,利用时间价值预测模型,生成第一采集价值数据;其中,时间价值预测模型可以是利用网站数据变化率对概率模型进行训练而得到的,概率模型可以用于描述不同随机变量之间关系,例如,贝叶斯概率(BayesianProbability)模型、隐马尔可夫模型(Hidden Markov Model)等。
为便于理解,在此对训练时间价值模型的过程进行举例说明。例如,可以先选择连续N天进行了数据采集操作的网站作为样本网站,基于连续N天中的每天采集到的样本网站的相关数据,计算样本网站在间隔i天后的网站数据变化率,i≤N-1。
其中,样本网站在间隔i天后的网站数据变化率可以指在第n+i天采集到的网站数据与第n天采集到的网站数据之间的差异数据的数据量与第n天采集到的网站数据的数据量之比。在实际应用中,还可以采用去除无效信息后的网站数据计算网站数据变化率。在本说明书实施例中,对于计算网站数据变化率的实现方式不做具体限定,可以根据实际需求去确定。
采用样本网站在间隔i天后的网站数据变化率作为训练样本,训练概率模型,使得概率模型可以用于描述网站数据变化率与网站的间隔采集时长之间的关系,即可得到时间价值预测模型,以便于利用该时间价值预测模型去预测在间隔指定时长后的目标网站的网站数据变化率。
由于目标网站的网站数据变化率越大,则目标网站的新增相关数据的数据量就越大,而对该目标网站进行数据采集的潜在价值就越大。可见,目标网站的数据采集价值与该目标网站的数据变化速率正相关。因此,可以将时间价值预测模型预测到的目标网站在当前时刻之后的预设时刻的网站数据变化率,作为该目标网站的第一采集价值。
目标网站的静态信息可以为在较长时间段内通常不会发生变化的与目标网站相关的信息。在实际应用中,目标网站的静态信息的种类可以有多种,例如目标网站为某企业网站时,该企业网站中企业经营范围以及企业规模等信息,还可以是网站域名、网站域名后缀、网站历史采集价值数据等。
实际应用中,数据采集设备的数据库中可以预存有目标网站的静态信息,从而可以从数据库中获取目标网站的静态信息。其中,数据库中的目标网站的静态信息可以在每次采集目标网站的相关数据后进行一次更新,以保证数据库中的目标网站的静态信息的实时性。或者,也可以按照预设路径去从互联网上实时采集目标网站的静态信息,以保证目标网站的静态信息的实时性。
在本说明书实施例中,还可以根据目标网站的静态信息去预先评估该目标网站存在风险的可能性。且该目标网站存在风险的可能性越大,则对该目标网站的相关数据进行风险分析而产生的价值则越大,能够表示该目标网站是违规网站的概率值就越大,从而使得当前对该目标网站进行相关数据采集所产生的潜在价值就越大。
实际应用中,还可以根据样本网站的静态信息,去预先训练用于风险识别的模型,以便基于目标网站的静态信息,初步识别该目标网站是否存在违规的风险。其中,风险识别模型可以采用二分类模型实现,风险识别模型输出的风险识别结果可以表示目标网站存在该违规风险的可能性。
可以根据上述风险识别模型生成的风险识别结果,去确定目标网站的第二采集价值。其中,目标网站的第二采集价值与该风险识别结果所指示的目标网站存在违规风险的可能性之间正相关。在实际应用中,风险识别模型可以采用用于分类的机器学习模型实现,例如,支持向量机、决策树、随机森林、深度神经网络等,对此不做具体限定。
在本说明书实施例中,第一采集价值可以包括在当前时刻之后的多个预设时刻对目标网站进行数据采集,得到多个能够表示目标网站是否为违规网站的采集数据对应的概率值,也可以理解为第一采集价值数据可以包括在当前时刻之后的多个预设时刻对目标网站进行数据采集而产生的价值的预测值;即第一采集价值可以包括多个数值,第二采集价值通常包含一个数值。
本说明书实施例中可以采用公式
Figure BDA0002569393990000121
计算目标网站的综合采集价值F。
其中,Si表示在与当前时刻间隔i天的时刻才对目标网站进行数据采集得到的采集数据能够表示该目标网站为违规网站的概率值,也可以理解为,在与当前时刻间隔i天的时刻才对目标网站进行数据采集而产生的价值的预测值;X为目标网站的第二采集价值;fi(X,Si)表示针对与当前时刻间隔i天的这一预设时刻的混合采集价值,其中,函数f()可以根据实际需求确定,但通常情况下,目标网站的第二采集价值数据X以及与预设时刻对应的第一采集价值Si与该预设时刻的混合采集价值数据fi(X,Si)之间成正相关;b0表示随机非负数,可以保证在综合采集价值较小时,也可选择对应的数据采集方式对目标网站进行数据采集,从而可以降低对于存在违规风险的网站漏检的概率,提升对目标网站评估的全面性以及可靠性;bi表示第i个预设时刻对应的权重系数,也可以理解为时间衰减系数。
本说明书实施例中根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式,具体可以包括:
当所述综合采集价值位于第一价值区间时,采用爬取网页超文本的方式采集所述目标网站的数据;
当所述综合采集价值位于第二价值区间时,采用爬取网页超文本的方式和浏览器渲染的方式采集所述目标网站的数据;
当所述综合采集价值位于第三价值区间时,采用爬取网页超文本的方式、浏览器渲染的方式和图像光学字符识别的方式采集所述目标网站的数据;
当所述综合采集价值位于第四价值区间时,采用爬取网页超文本的方式、浏览器渲染的方式、图像光学字符识别的方式和扩散爬取非网站首页的方式采集所述目标网站的数据;
其中,所述第一价值区间、所述第二价值区间、所述第三价值区间和所述第四价值区间为左开右闭的区间;所述第一价值区间的右端点值小于或等于所述第二价值区间的左端点值,所述第二价值区间的右端点值小于或等于所述第三价值区间的左端点值,所述第三价值区间的右端点值小于或等于所述第四价值区间的左端点值。
实际应用中,对网站进行网页超文本的爬取是一种成本较低的爬取方式,可用于对网站进行简单的HTML巡检;浏览器渲染的方式是指采用渲染引擎将脚本代码内容显示在浏览器中,可以显示html、xml文档及图片,它也可以借助插件显示其他类型数据,例如使用PDF阅读器插件,用于显示PDF格式,这种方式较HTML方式成本大幅提高,其可以有效识别动态加载方式的目标网站;图像光学字符识别的方式是对网站上的图片进行OCR(OpticalCharacter Recognition,光学字符识别)识别,抓取出图片上的有效文本信息,这也是一种较高成本的数据采集方式,可以叠加在网页超文本爬取和浏览器渲染等方式上使用,该方式可以有效克服违规网站刻意更名或把敏感信息转化成图片的反侦察行为,对于高度可疑的违规网站可应用这种方式;扩散爬取非网站首页的方式是指在爬取了网站首页的基础上,结合浏览数据或搜索引擎数据,继续爬取网站首页上的主导航二级页面、爬取网站高访问量页面、爬取网站首页中超链接或者爬取全站等不同深度的爬取,该方式需爬取的数据量较大,所需资源较多,可对高度可疑的违规网站选择性地深度爬取,有利于挖掘隐藏的违规特征,进一步识别隐藏的违规网站,例如,为了规避监管,一些违规网站可能选择以非网站首页的方式开展任务,而制作一个正常的网页挂在首页上,该方法可以深度爬取网站,挖掘隐藏的违规网站,可提高违规网站的识别率。
实际应用中,综合采集价值可以体现在预设时刻得到的采集数据能够表示目标网站为违规网站的概率值,其取值可以取在0~1之间的数值,因此,可以将0~1之间的数值划分为不同的区间,不同的区间对应于不同的数据采集方式,进而可以根据综合采集价值确定数据采集方式。
例如,可以按照价值的由低到高设置四个价值区间,第一价值区间表示价值在(a,b]的区间,第二价值区间表示价值在(b,c]的区间,第三价值区间表示价值在(c,d]的区间,第四价值区间表示价值在(d,e]的区间,其中,0≤a<b<c<d<e≤1。需要说明的是,价值区间的设置数量以及具体端点数值可以根据实际需要进行设置,上述内容仅是示例性说明,本说明书实施例对此不作具体限定。
在实际应用中,综合采集价值越高采用的数据采集方式越多,获得的采集数据就会更全面,采集数据的数量就会更多,进而需要消耗的资源也就较多,本说明书实施例中可以在综合采集价值较低时,采用消耗资源较少的数据采集方式,例如,对于正常的企业网站,其是违规网站的概率较小,即使对其采集更多的数据也不能提高评估其为违规网站的概率,对该网站就可以采用一般的爬取网页超文本的方式进行普通的HTML巡检即可;对于存在一定风险的网站,即综合评估价值较高的网站,可以采用消耗资源较多的数据采集方式,获得更多有价值的采集数据,可以更准确的对网站进行分析,深度挖掘出违规网站。
本说明书实施例中,在采用扩散爬取非网站首页的方式采集所述目标网站的数据时,还可以将预设的价值区间划分为多个子区间,根据综合采集价值位于子区间的情况,进一步选择对非首页网站进行数据采集的方式。
例如,当综合采集价值位于第四区间(d,e]时,可以进一步将第四区间,划分为(d,e1],(e1,e2],(e2,e3],(e3,e]四个子区间,其中d<e1<e2<e3<e;当综合采集价值位于(d,e1]子区间时,可以在采用爬取网页超文本的方式、浏览器渲染的方式、图像光学字符识别的方式和扩散爬取非网站首页的方式获取网站首页信息的基础上,再采用爬取网页超文本的方式获取非首页的信息,其中非首页可以包括首页中包含的超链接对应的网页;当综合采集价值位于(e1,e2]子区间时,可以在采用爬取网页超文本的方式、浏览器渲染的方式、图像光学字符识别的方式和扩散爬取非网站首页的方式获取网站首页信息的基础上,再采用爬取网页超文本的方式和浏览器渲染的方式获取非首页的数据;依次类推,可以根据综合采集价选择不同消耗资源的数据采集方式采集网站的非首页的数据。需要说明的是,上述子价值区间的设置数量以及具体端点数值可以根据实际需要进行设置,该内容仅是示例性说明,本说明书实施例对此不作具体限定。
实际应用中,通常需要对多个网站进行数据采集,但不同网站的数据采集价值通常并不相同。因此在步骤104:计算所述目标网站的综合采集价值之后,还可以包括:
获取每个目标网站的综合采集价值;
按所述综合采集价值从大到小的顺序对各个所述目标网站进行排序,得到目标网站的排序;
按照所述顺序,对所述综合采集价值大于预设阈值的所述目标网站进行数据采集。
在本说明书实施例中,由于每天通常需要对多个目标网站进行数据采集,因此,可以按综合采集价值由大到小的顺序,对各个综合采集价值大于预设阈值的目标网站依序进行数据采集。通过对数据采集价值较高的网站优先进行数据采集,有利于保证采集到的价值较高的网站数据,从而可以降低因数据采集系统瘫痪而导致的未采集到重要网站数据所产生的不利影响,可见,该数据采集方案的抗干扰能力较强。
在实际应用中,可能需要对目标网站进行多次数据采集,例如,按照预设频率对目标网站进行数据采集,可以根据数据采集时刻对应的综合采集价值确定数据采集的方式,可有效避免采用资源消耗较高的数据采集方式获取较低价值的数据,综合考虑信息价值与资源的使用,提高资源利用率。例如,上午采用爬取网页超文本的方式、浏览器渲染的方式、图像光学字符识别的方式和扩散爬取非网站首页的方式采集了目标网站的数据,由于目标网站中数据的变化频率较低,下午的综合采集价值较低,可以仅采用爬取网页超文本的方式对目标网站进行巡检,从而可以避免采用多种数据采集方式但无法获取高价值的数据的情况,可提高资源的使用价值,减少资源的浪费。
实际应用中,网站的网页文本不同于普通文本,网页的结构信息对于网页意图识别有很高价值,一般来说标题中信息价值高于正文价值,页面导航菜单对网站业务的提示性高于页脚超链接广告,将网页结构信息提取后作为特征能提高模型预测精度。因此,本说明书实施例中,所述采集数据至少可以包括网页结构数据和网页文本数据;
所述将所述采集数据输入到网站评估模型,得到评估结果,具体可以包括:
根据所述网页结构数据,确定网页结构特征;
根据所述网页文本数据,确定网页文本特征;
对所述网页结构特征和所述网页文本特征进行向量化处理,得到特征矩阵;
将所述特征矩阵输入到网站评估模型,得到评估结果。
本说明书实施例中将网页结构特征应用于网站评估中,可以提高网站评估模型对目标网站的评估精度,提高对违规网站分类的准确性。
实际应用中,可以利用向量化处理工具对网页结构特征以及网页文本特征进行向量化处理,并借助具有融合计算功能的模型将得到的向量化特征进行融合计算,得到用于网站评估模型的特征矩阵,进入得到评估结果。
同理,在对网站评估模型进行训练时,也可将样本中的网页结构特征和网页文本特征提取出来,得到相应的特征矩阵,用于对网站评估模型的训练。
本说明书实施例中,根据所述评估值确定所述目标网站是否为违规网站,具体可以包括:
判断所述评估值是否大于或者等于预设评估值;
若是,则确定所述目标网站为所述违规网站。
实际应用中,违规网站可以包括钓鱼网站、传销网站、赌博网站等违规网站。其中,预设评估值可以根据实际需求进行设定,例如,为了得到准确性较高的评估结果,可以将预设评估值设置的大一些,如,设定为大于或者等于0.8的目标网站才是违规网站;而减少对违规网站的遗漏,可将预设评估值设置的大一些,如,设定为大于或者等于0.6的目标网站就是违规网站,等等。本说明书实施例中对具体设定不作限定,只要能够满足需求即可。
在实际应用中,确定所述目标网站为所述违规网站之后,还可以包括:
启动预警流程,用于提示管理方对所述目标网站进行处理。
当确定目标网站为违规网站之后,可以向相关部门发出提示信息,用于提示相关部门对该目标网站进行监查,可以使相关部门及时获知目标网站的信息,进而及时采取管控措施,尽可能的降低对网站用户的不良影响。
本说明书实施例提供的网站分类方法,可以利用较低的成本对疑似违规网站进行广域排查以及主动挖掘,可以在网站没有充足时间运营、对人民群众造成危害前,提前预警,提供了主动关闭潜在违规渠道的可能性。
本说明书实施例中,为提高评估结果的准确性,将所述采集数据输入到网站评估模型之前,还可以包括:
判断所述网站评估模型的性能是否满足预设性能,得到第一判断结果;
判断所述网站评估模型的迭代次数是否达到预设迭代次数,得到第二判断结果;
若所述第一判断结果和所述第二判断结果均为否时,则训练所述网站评估模型,得到更新后的网站评估模型;
所述将所述采集数据输入到网站评估模型,得到评估结果,具体可以包括:所述将所述采集数据输入到所述更新后的网站评估模型,得到评估结果。
在实际应用中,可以根据预设条件对网站评估模型进行更新训练,提高网站评估模型的性能,进而提高评估结果的准确性,提高对目标网站分类的准确性。具体的更新训练方式将在后续内容详细说明。
本说明书实施例中,在获取目标网站之前,还可以包括,整合数据源网址,将多个来源的网站域名列表进行去重、清洗、加工成可访问的网址形式,具体的可以包括:从合法渠道获取已注册且未失效的公开网站域名,并进行去重清洗加工,形成网站的首页可访问的URL(Uniform Resource Locator,统一资源定位符)形式。
基于上述网站分类方法,本说明书实施例中,还提供了一种网站评估模型的更新方法,其中,网站评估模型可应用于上述网站分类方法中对目标网站进行评估。图2为本说明书实施例提供的一种网站评估模型的更新方法的流程图,如图2所示:
本说明书实施例中的网站评估模型的更新方法,可以包括:
步骤202:获取第一训练样本。
在实际应用中,第一训练样本可以已知的样本,利用已知样本对模型进行训练,可使模型更符合实际需求。
步骤204:基于所述第一训练样本,得到打标样本;所述打标样本包括由人工对所述第一训练样本进行打标得到的样本。
本说明书实施例中人工可理解为专家人员,即具有较多经验,可以准确的对样本进行分类的人员。打标可以理解为对样本的分类类型进行标注,例如,网站评估模型用于评估网站是否为违规网站时,专家可以根据经验将样本标注为违规网站或非违规网站。在实际应用中,可以根据网站评估模型的具体用途对样本进行打标,打标形式也可以包括文字、数字、符号等等。
步骤206:对所述打标样本进行扩散,得到与所述打标样本相似的样本。
本说明书实施例中可以对打标样本进行扩散处理,得到与打标样本具有一定相似度的样本,进而可以获得更多的样本进行模型训练,并且是通过扩散处理得到的相似样本,无需人工进行处理或标注,可降低人工打标成本,也可提高打标效率。
步骤208:将所述相似的样本进行打标,得到第二训练样本。
在实际应用中,可能存在得到的与打标样本相似的样本是没有标注或者标注有误的样本,为便于后续使用,可对得到的相似的样本进行打标,将打标后的相似样本作为第二训练样本。
步骤210:利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
由于打标样本是由专家标注的,可保证打标样本的准确性,第二训练样本是根据打标样本扩散得到的,也可以保证第二训练样本的准确性,利用准确性较高的打标样本和第二训练样本对原始网站评估模型进行训练,可以得到准确性更高的更新后的网站评估模型。
本说明书实施例提供的网站评估模型的更新方法中,可选择较少数量的样本提供给人工进行打标,并在人工打标结果的基础上进行扩散,得到更多数量的训练样本,并且训练样本的准确性较高,从而大幅减小模型寻优过程的迭代轮次和计算以及人力消耗。
在实际应用中,一些网站具有开得快关得快的特点,因此回溯历史很难获得无偏的、可靠的样本训练模型,在没有足够训练样本时,采用上述方法,也可以对训练样本进行扩充,得到足够数量的训练样本对模型进行训练,可提高模型训练的适用范围,具有较高的实用性。
本说明书实施例中,步骤202获取第一训练样本,具体可以包括:
获取所述原始模型的历史评估网站信息;
从所述历史评估网站信息中选择符合预设标准的网站信息作为所述第一训练样本。
本说明书实施例中的网站评估模型可以采用迭代训练的方式进行模型训练或更新,历史评估网站信息可以包括利用原始模型进行网站评估时得到的评估网站信息,还可以包括原始模型在迭代训练中,每次迭代训练的结果。在实际应用中,还可以将上一次迭代训练的结果作为训练样本,进行本次迭代训练。
其中,预设标准可以包括基于预设信息熵的标准、基于预设置信度的标准、基于预设稀缺代表性的标准中至少一种标准。
实际应用中,信息熵可以被用来作为信息含量的量化指标,从而可以进一步用来作为优化目标或者参数选择的判据。
本说明书实施例中,历史评估网站信息中通常会包含表示历史评估网站为预设类型网站的评估值或者概率值,评估值越大,说明其属于预设类型网站的可能性越大。假设评估值为0~1之间的数值,位于中间区域,如评估值在0.5左右的网站,根据评估值并不能很确定的知道该网站是否为预设类型网站,其不确定程度较高。在实际应用中,利用不确定度较高的样本训练模型,有利于指导分界面的确定,因此,可以选择历史评估网站信息中评估值在中间区域的网站作为第一训练样本。实际应用中,信息熵可以在一定程度上反映信息的混乱程度,通常情况下评估值位于中间区域的网站对应的信息熵也较高,利用信息熵也可以选择出不确定度较高的样本。本说明书实施例中可以从历史评估网站信息中选择大于预设信息熵的网站信息作为第一训练样本。
在实际应用中,置信度也称为可靠度,对于评估值较高的网站,其对应的置信度也较高,利用置信度较高的样本训练模型,可在模型迭代过程中指导预测方向,因此本说明书实施例中可以从历史评估网站信息中选择高于预设置信度的网站信息作为所述第一训练样本。
在实际应用中,还可以对历史评估网站信息按照不同的需求进行分类、聚类等处理,得到各种类别的历史评估网站信息,可以从中选择包含数量较少的历史评估网站信息的类别,由于此类别中包含的历史评估网站信息较少,可以理解为该类别中的历史评估网站信息具有稀缺代表性,本说明书实施例中可从历史评估网站信息中选择具有稀缺代表性的网站信息作为第一训练样本,可以获得更全面的训练样本。
可以从历史评估网站信息中选择大于预设信息熵的网站信息作为第一训练样本。其中信息熵的大小一定程度上反映了样本的价值,例如,出现频率较高的样本,其信息熵较小;出现频率较低的样本,其信息熵较大,可以通过信息熵选择出更具代表性的样本,从而可以获得更全面的训练样本。
本说明书实施例中可以利用向量距离对打标样本进行扩散,步骤206:对所述打标样本进行扩散,得到与所述打标样本相似的样本,具体可以包括:
从样本数据库中选择至少一个预选样本;
计算所述预选样本与所述打标样本之间的向量距离;
判断所述向量距离是否小于或等于预设向量距离,得到距离判断结果;
当所述距离判断结果表示所述向量距离小于或等于所述预设向量距离时,将所述预选样本确定为与所述打标样本相似的样本。
在实际应用中,样本数据库可以包含多个网站信息的集合,也可以将整个互联网看作一个样本数据库,当需要样本时,可以从互联网中抓取。
本说明书实施例中可以将获取的预选样本和打标样本按照预设规则进行向量化处理,并计算两个样本之间的向量距离,通常情况下向量距离越小,表示两个样本的相似度越高,可以将向量距离小于或等于预设向量距离的预先样本确定为与所述打标样本相似的样本。
实际应用中,可以采用现有的向量化工具以及距离计算模型来确定预先样本和标注样本之间的向量距离。例如,可以采用语义分析的方法提取预先样本和标注样本的特征,得到特征对应的向量,进一步利用余弦距离、曼哈顿距离等计算方法得到向量距离,本说明书对得到向量距离的方式不作限定。
本说明书实施例中还可以根据聚类处理对打标样本进行扩散,步骤206:对所述打标样本进行扩散,得到与所述打标样本相似的样本,具体可以包括:
从样本数据库中选择至少一个预选样本;
对所述预选样本和所述打标样本进行聚类处理,得到聚类结果;
根据所述聚类结果,将与所述打标样本为同一类的预选样本确定为与所述打标样本相似的样本。
本说明书实施例中还可以通过聚类计算得到与打标样本属于同一类型的预选样本,将该样本作为与打标样本相似的样本。其中,聚类的方式可采用现有的方式,例如K-Means(K均值)聚类、用高斯混合模型的最大期望聚类等等,本说明书对得到聚类的具体方式不作限定。
为提高训练样本的准确性,本说明书实施例中还可以得到的扩散样本进行修正,步骤208,将所述相似的样本进行打标,得到第二训练样本,具体可以包括:
判断所述相似的样本是否具有标注,得到第一判断结果;
若所述第一判断结果表示所述相似的样本不具有标注,则将所述打标样本的标注确定为所述相似的样本的标注,得到所述第二训练样本;
若所述第一判断结果表示所述相似的样本具有标注,则判断所述相似的样本的标注与所述打标样本的标注是否一致,得到第二判断结果;
若所述第二判断结果表示所述相似的样本的标注与所述打标样本的标注一致,则保持所述相似的样本的标注不变,将所述相似的样本作为所述第二训练样本;
若所述第二判断结果表示所述相似的样本的标注与所述打标样本的标注不一致,则将所述相似的样本的标注替换为所述打标样本的标注,得到所述第二训练样本。
本说明书实施例中可以使与人工打标网站高度相似的网站获得与该打标网站相同的标注,如果该网站之前没有标注则新增标注,如果该网站之前有错误标注则修正标注,从而可以获得数量较多且准确性较高的训练样本。
本说明书实施例中的网站评估模型可以应用在图1所示的网站分类方法中,对目标网站进行评估,步骤210中所述得到更新后的网站评估模型之后,还可以包括:
将采集数据输入到更新后的网站评估模型,得到评估结果;所述评估结果用于表示目标网站为违规网站的评估值;其中所述采集数据是利用根据所述目标网站的综合采集价值确定的数据采集方式获得的。
基于同样的思路,本说明书实施例还提供了上述网站分类方法对应的装置。图3为本说明书实施例提供的对应于图1的一种网站分类装置的结构示意图。如图3所示,该装置可以包括:
网站获取模块302,用于获取目标网站;
价值计算模块304,用于计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
采集方式确定模块306,用于根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
采集数据获取模块308,用于利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
网站评估模块310,用于将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
网站类型确定模块312,用于根据所述评估值确定所述目标网站是否为违规网站。
基于图3的装置,本说明书实施例还提供了该装置的一些具体实施方案,下面进行说明。
可选的,价值计算模块304,具体可以用于:
获取所述目标网站的间隔采集时长;所述间隔采集时长为当前时刻与上一次对所述目标网站进行数据采集的采集时刻的间隔时长;
根据所述间隔采集时长,确定所述目标网站的第一采集价值;所述第一采集价值用于表示在当前时刻之后的预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
获取所述目标网站的静态信息;
根据所述静态信息,确定所述目标网站的第二采集价值;所述第二采集价值用于表示根据所述目标网站的相关数据对所述目标网站进行风险分析能够表示所述目标网站是否为违规网站的概率值;
根据所述第一采集价值及所述第二采集价值,计算所述目标网站的综合采集价值。
可选的,采集方式确定模块306,具体可以用于:
当所述综合采集价值位于第一价值区间时,采用爬取网页超文本的方式采集所述目标网站的数据;
当所述综合采集价值位于第二价值区间时,采用爬取网页超文本的方式和浏览器渲染的方式采集所述目标网站的数据;
当所述综合采集价值位于第三价值区间时,采用爬取网页超文本的方式、浏览器渲染的方式和图像光学字符识别的方式采集所述目标网站的数据;
当所述综合采集价值位于第四价值区间时,采用爬取网页超文本的方式、浏览器渲染的方式、图像光学字符识别的方式和扩散爬取非网站首页的方式采集所述目标网站的数据;
其中,所述第一价值区间、所述第二价值区间、所述第三价值区间和所述第四价值区间为左开右闭的区间;所述第一价值区间的右端点值小于或等于所述第二价值区间的左端点值,所述第二价值区间的右端点值小于或等于所述第三价值区间的左端点值,所述第三价值区间的右端点值小于或等于所述第四价值区间的左端点值。
基于同样的思路,本说明书实施例还提供了上述网站评估模型的更新方法对应的装置。图4为本说明书实施例提供的对应于图2的一种网站评估模型的更新装置的结构示意图。如图4所示,该装置可以包括:
第一样本获取模块402,用于获取第一训练样本;
打标样本获取模块404,用于基于所述第一训练样本,得到打标样本;所述打标样本包是由人工对所述第一训练样本进行打标得到的样本;
相似样本获取模块406,用于对所述打标样本进行扩散,得到与所述打标样本相似的样本;
第二样本获取模块408,用于将所述相似的样本进行打标,得到第二训练样本;
模型训练模块410,用于利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的所述网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
基于图4的装置,本说明书实施例还提供了该装置的一些具体实施方案,下面进行说明。
可选的,第一样本获取模块402,具体可以用于:
获取所述原始模型的历史评估网站信息;
从所述历史评估网站信息中选择符合预设标准的网站信息作为所述第一训练样本。
其中,预设标准可以包括基于预设信息熵的标准、基于预设置信度的标准、基于预设稀缺代表性的标准中的至少一种标准。
可选的,相似样本获取模块406,具体可以用于:
从样本数据库中选择至少一个预选样本;
计算所述预选样本与所述打标样本之间的向量距离;
判断所述向量距离是否小于或等于预设向量距离,得到距离判断结果;
当所述距离判断结果表示所述向量距离小于或等于所述预设向量距离时,将所述预选样本确定为与所述打标样本相似的样本。
可选的,第二样本获取模块408,具体可以用于:
判断所述相似的样本是否具有标注,得到第一判断结果;
若所述第一判断结果表示所述相似的样本不具有标注,则将所述打标样本的标注确定为所述相似的样本的标注,得到所述第二训练样本;
若所述第一判断结果表示所述相似的样本具有标注,则判断所述相似的样本的标注与所述打标样本的标注是否一致,得到第二判断结果;
若所述第二判断结果表示所述相似的样本的标注与所述打标样本的标注一致,则保持所述相似的样本的标注不变,将所述相似的样本作为所述第二训练样本;
若所述第二判断结果表示所述相似的样本的标注与所述打标样本的标注不一致,则将所述相似的样本的标注替换为所述打标样本的标注,得到所述第二训练样本。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图5为本说明书实施例提供的对应于图1的一种网站分类设备的结构示意图。如图5所示,设备500可以包括:
至少一个处理器510;以及,
与所述至少一个处理器通信连接的存储器530;其中,
所述存储器530存储有可被所述至少一个处理器510执行的指令520,所述指令被所述至少一个处理器510执行,以使所述至少一个处理器510能够:
获取目标网站;
计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
根据所述评估值确定所述目标网站是否为违规网站。
图6为本说明书实施例提供的对应于图2的一种网站评估模型的更新设备的结构示意图。如图6所示,设备600可以包括:
至少一个处理器610;以及,
与所述至少一个处理器通信连接的存储器630;其中,
所述存储器630存储有可被所述至少一个处理器610执行的指令620,所述指令被所述至少一个处理器610执行,以使所述至少一个处理器610能够:
获取第一训练样本;
基于所述第一训练样本,得到打标样本;所述打标样本包是由人工对所述第一训练样本进行打标得到的样本;
对所述打标样本进行扩散,得到与所述打标样本相似的样本;
将所述相似的样本进行打标,得到第二训练样本;
利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的所述网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
基于同样的思路,本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述网站分类方法和/或网站评估模型的更新方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于图5和图6所示的设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (24)

1.一种网站分类方法,包括:
获取目标网站;
计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
根据所述评估值确定所述目标网站是否为违规网站。
2.根据权利要求1所述方法,所述计算所述目标网站的综合采集价值,具体包括:
获取所述目标网站的间隔采集时长;所述间隔采集时长为当前时刻与上一次对所述目标网站进行数据采集的采集时刻的间隔时长;
根据所述间隔采集时长,确定所述目标网站的第一采集价值;所述第一采集价值用于表示在当前时刻之后的预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
获取所述目标网站的静态信息;
根据所述静态信息,确定所述目标网站的第二采集价值;所述第二采集价值用于表示根据所述目标网站的相关数据对所述目标网站进行风险分析能够表示所述目标网站是否为违规网站的概率值;
根据所述第一采集价值及所述第二采集价值,计算所述目标网站的综合采集价值。
3.根据权利要求1所述方法,所述根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式,具体包括:
当所述综合采集价值位于第一价值区间时,采用爬取网页超文本的方式采集所述目标网站的数据;
当所述综合采集价值位于第二价值区间时,采用爬取网页超文本的方式和浏览器渲染的方式采集所述目标网站的数据;
当所述综合采集价值位于第三价值区间时,采用爬取网页超文本的方式、浏览器渲染的方式和图像光学字符识别的方式采集所述目标网站的数据;
当所述综合采集价值位于第四价值区间时,采用爬取网页超文本的方式、浏览器渲染的方式、图像光学字符识别的方式和扩散爬取非网站首页的方式采集所述目标网站的数据;
其中,所述第一价值区间的右端点值小于或等于所述第二价值区间的左端点值,所述第二价值区间的右端点值小于或等于所述第三价值区间的左端点值,所述第三价值区间的右端点值小于或等于所述第四价值区间的左端点值。
4.根据权利要求1所述方法,所述采集数据至少包括网页结构数据和网页文本数据;
所述将所述采集数据输入到网站评估模型,得到评估结果,具体包括:
根据所述网页结构数据,确定网页结构特征;
根据所述网页文本数据,确定网页文本特征;
对所述网页结构特征和所述网页文本特征进行向量化处理,得到特征矩阵;
将所述特征矩阵输入到网站评估模型,得到评估结果。
5.根据权利要求1所述方法,所述根据所述评估值确定所述目标网站是否为违规网站,具体包括:
判断所述评估值是否大于或者等于预设评估值;
若是,则确定所述目标网站为所述违规网站。
6.根据权利要求5所述方法,所述确定所述目标网站为所述违规网站之后,还包括:
启动预警流程,用于提示管理方对所述目标网站进行处理。
7.根据权利要求1所述方法,所述将所述采集数据输入到网站评估模型之前,还包括:
判断所述网站评估模型的性能是否满足预设性能,得到第一判断结果;
判断所述网站评估模型的迭代次数是否达到预设迭代次数,得到第二判断结果;
若所述第一判断结果和所述第二判断结果均为否时,则训练所述网站评估模型,得到更新后的网站评估模型;
所述将所述采集数据输入到网站评估模型,得到评估结果,具体包括:
所述将所述采集数据输入到所述更新后的网站评估模型,得到评估结果。
8.一种网站评估模型的更新方法,包括:获取第一训练样本;
基于所述第一训练样本,得到打标样本;所述打标样本包括由人工对所述第一训练样本进行打标得到的样本;
对所述打标样本进行扩散,得到与所述打标样本相似的样本;
将所述相似的样本进行打标,得到第二训练样本;
利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
9.根据权利要求8所述方法,所述获取第一训练样本,具体包括:
获取所述原始模型的历史评估网站信息;
从所述历史评估网站信息中选择符合预设标准的网站信息作为所述第一训练样本。
10.根据权利要求9所述方法,所述预设标准具体包括基于预设信息熵的标准、基于预设置信度的标准、基于预设稀缺代表性的标准中的至少一种标准。
11.根据权利要求8所述方法,所述对所述打标样本进行扩散,得到与所述打标样本相似的样本,具体包括:
从样本数据库中选择至少一个预选样本;
计算所述预选样本与所述打标样本之间的向量距离;
判断所述向量距离是否小于或等于预设向量距离,得到距离判断结果;
当所述距离判断结果表示所述向量距离小于或等于所述预设向量距离时,将所述预选样本确定为与所述打标样本相似的样本。
12.根据权利要求8所述方法,所述对所述打标样本进行扩散,得到与所述打标样本相似的样本,具体包括:
从样本数据库中选择至少一个预选样本;
对所述预选样本和所述打标样本进行聚类处理,得到聚类结果;
根据所述聚类结果,将与所述打标样本为同一类的预选样本确定为与所述打标样本相似的样本。
13.根据权利要求8所述方法,所述将所述相似的样本进行打标,得到第二训练样本,具体包括:
判断所述相似的样本是否具有标注,得到第一判断结果;
若所述第一判断结果表示所述相似的样本不具有标注,则将所述打标样本的标注确定为所述相似的样本的标注,得到所述第二训练样本;
若所述第一判断结果表示所述相似的样本具有标注,则判断所述相似的样本的标注与所述打标样本的标注是否一致,得到第二判断结果;
若所述第二判断结果表示所述相似的样本的标注与所述打标样本的标注一致,则保持所述相似的样本的标注不变,将所述相似的样本作为所述第二训练样本;
若所述第二判断结果表示所述相似的样本的标注与所述打标样本的标注不一致,则将所述相似的样本的标注替换为所述打标样本的标注,得到所述第二训练样本。
14.根据权利要求8所述方法,所述得到更新后的网站评估模型之后,还包括:
将采集数据输入到更新后的网站评估模型,得到评估结果;所述评估结果用于表示目标网站为违规网站的评估值;其中所述采集数据是利用根据所述目标网站的综合采集价值确定的数据采集方式获得的。
15.一种网站分类装置,包括:
网站获取模块,用于获取目标网站;
价值计算模块,用于计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
采集方式确定模块,用于根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
采集数据获取模块,用于利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
网站评估模块,用于将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
网站类型确定模块,用于根据所述评估值确定所述目标网站是否为违规网站。
16.根据权利要求15所述装置,所述价值计算模块,具体用于:
获取所述目标网站的间隔采集时长;所述间隔采集时长为当前时刻与上一次对所述目标网站进行数据采集的采集时刻的间隔时长;
根据所述间隔采集时长,确定所述目标网站的第一采集价值;所述第一采集价值用于表示在当前时刻之后的预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
获取所述目标网站的静态信息;
根据所述静态信息,确定所述目标网站的第二采集价值;所述第二采集价值用于表示根据所述目标网站的相关数据对所述目标网站进行风险分析能够表示所述目标网站是否为违规网站的概率值;
根据所述第一采集价值及所述第二采集价值,计算所述目标网站的综合采集价值。
17.根据权利要求15所述装置,所述采集方式确定模块,具体用于:
当所述综合采集价值位于第一价值区间时,采用爬取网页超文本的方式采集所述目标网站的数据;
当所述综合采集价值位于第二价值区间时,采用爬取网页超文本的方式和浏览器渲染的方式采集所述目标网站的数据;
当所述综合采集价值位于第三价值区间时,采用爬取网页超文本的方式、浏览器渲染的方式和图像光学字符识别的方式采集所述目标网站的数据;
当所述综合采集价值位于第四价值区间时,采用爬取网页超文本的方式、浏览器渲染的方式、图像光学字符识别的方式和扩散爬取非网站首页的方式采集所述目标网站的数据;
其中,所述第一价值区间、所述第二价值区间、所述第三价值区间和所述第四价值区间为左开右闭的区间;所述第一价值区间的右端点值小于或等于所述第二价值区间的左端点值,所述第二价值区间的右端点值小于或等于所述第三价值区间的左端点值,所述第三价值区间的右端点值小于或等于所述第四价值区间的左端点值。
18.一种网站评估模型的更新装置,包括:
第一样本获取模块,用于获取第一训练样本;
打标样本获取模块,用于基于所述第一训练样本,得到打标样本;所述打标样本包是由人工对所述第一训练样本进行打标得到的样本;
相似样本获取模块,用于对所述打标样本进行扩散,得到与所述打标样本相似的样本;
第二样本获取模块,用于将所述相似的样本进行打标,得到第二训练样本;
模型训练模块,用于利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的所述网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
19.根据权利要求18所述装置,所述第一样本获取模块,具体用于:
获取所述原始模型的历史评估网站信息;
从所述历史评估网站信息中选择符合预设标准的网站信息作为所述第一训练样本。
20.根据权利要求19所述装置,所述预设标准具体包括基于预设信息熵的标准、基于预设置信度的标准、基于预设稀缺代表性的标准中的至少一种标准。
21.根据权利要求18所述装置,所述相似样本获取模块,具体用于:
从样本数据库中选择至少一个预选样本;
计算所述预选样本与所述打标样本之间的向量距离;
判断所述向量距离是否小于或等于预设向量距离,得到距离判断结果;
当所述距离判断结果表示所述向量距离小于或等于所述预设向量距离时,将所述预选样本确定为与所述打标样本相似的样本。
22.根据权利要求18所述装置,所述第二样本获取模块,具体用于:
判断所述相似的样本是否具有标注,得到第一判断结果;
若所述第一判断结果表示所述相似的样本不具有标注,则将所述打标样本的标注确定为所述相似的样本的标注,得到所述第二训练样本;
若所述第一判断结果表示所述相似的样本具有标注,则判断所述相似的样本的标注与所述打标样本的标注是否一致,得到第二判断结果;
若所述第二判断结果表示所述相似的样本的标注与所述打标样本的标注一致,则保持所述相似的样本的标注不变,将所述相似的样本作为所述第二训练样本;
若所述第二判断结果表示所述相似的样本的标注与所述打标样本的标注不一致,则将所述相似的样本的标注替换为所述打标样本的标注,得到所述第二训练样本。
23.一种网站分类设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取目标网站;
计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
根据所述评估值确定所述目标网站是否为违规网站。
24.一种网站评估模型的更新设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取第一训练样本;
基于所述第一训练样本,得到打标样本;所述打标样本包是由人工对所述第一训练样本进行打标得到的样本;
对所述打标样本进行扩散,得到与所述打标样本相似的样本;
将所述相似的样本进行打标,得到第二训练样本;
利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的所述网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
CN202010636907.2A 2020-07-03 2020-07-03 一种网站分类方法、装置及设备 Active CN111783016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010636907.2A CN111783016B (zh) 2020-07-03 2020-07-03 一种网站分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010636907.2A CN111783016B (zh) 2020-07-03 2020-07-03 一种网站分类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111783016A true CN111783016A (zh) 2020-10-16
CN111783016B CN111783016B (zh) 2021-05-04

Family

ID=72759479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010636907.2A Active CN111783016B (zh) 2020-07-03 2020-07-03 一种网站分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111783016B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258067A (zh) * 2020-10-30 2021-01-22 国网上海市电力公司 基于高斯混合模型聚类算法的低压用户缴费行为分类方法
CN112565250A (zh) * 2020-12-04 2021-03-26 中国移动通信集团内蒙古有限公司 一种网站识别方法、装置、设备及存储介质
CN112634090A (zh) * 2020-12-15 2021-04-09 深圳市彬讯科技有限公司 家装信息举报管理方法、系统、计算机设备及存储介质
CN113806667A (zh) * 2021-09-26 2021-12-17 上海交通大学 一种支持网页分类的方法和系统
CN114493668A (zh) * 2021-12-28 2022-05-13 北京五八信息技术有限公司 车辆信息处理方法、装置、设备及存储介质
CN117033742A (zh) * 2023-08-18 2023-11-10 广东轻工职业技术学院 基于人工智能的数据安全获取方法
CN118114053A (zh) * 2024-03-20 2024-05-31 慧新全智工业互联科技(青岛)有限公司 一种基于便携式多功能装置的数据采集方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820366A (zh) * 2010-01-27 2010-09-01 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN102063477A (zh) * 2010-12-13 2011-05-18 百度在线网络技术(北京)有限公司 一种网站数据抓取装置及方法
CN102833233A (zh) * 2012-08-06 2012-12-19 北京奇虎科技有限公司 一种识别网站页面的方法和装置
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN103516693A (zh) * 2012-06-28 2014-01-15 中国电信股份有限公司 鉴别钓鱼网站的方法与装置
US8725732B1 (en) * 2009-03-13 2014-05-13 Google Inc. Classifying text into hierarchical categories
CN106789980A (zh) * 2016-12-07 2017-05-31 北京亚鸿世纪科技发展有限公司 一种网站合法性的安全监管方法和装置
CN107181620A (zh) * 2017-06-09 2017-09-19 安徽博约信息科技股份有限公司 一种属地网站监管系统
CN107633032A (zh) * 2017-09-07 2018-01-26 中山市明阳电器有限公司 一种智能网关的数据处理方法
CN108874996A (zh) * 2018-06-13 2018-11-23 北京知道创宇信息技术有限公司 网站分类方法及装置
CN110659657A (zh) * 2018-06-29 2020-01-07 北京京东尚科信息技术有限公司 训练模型的方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725732B1 (en) * 2009-03-13 2014-05-13 Google Inc. Classifying text into hierarchical categories
CN101820366A (zh) * 2010-01-27 2010-09-01 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN102063477A (zh) * 2010-12-13 2011-05-18 百度在线网络技术(北京)有限公司 一种网站数据抓取装置及方法
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN103516693A (zh) * 2012-06-28 2014-01-15 中国电信股份有限公司 鉴别钓鱼网站的方法与装置
CN102833233A (zh) * 2012-08-06 2012-12-19 北京奇虎科技有限公司 一种识别网站页面的方法和装置
CN106789980A (zh) * 2016-12-07 2017-05-31 北京亚鸿世纪科技发展有限公司 一种网站合法性的安全监管方法和装置
CN107181620A (zh) * 2017-06-09 2017-09-19 安徽博约信息科技股份有限公司 一种属地网站监管系统
CN107633032A (zh) * 2017-09-07 2018-01-26 中山市明阳电器有限公司 一种智能网关的数据处理方法
CN108874996A (zh) * 2018-06-13 2018-11-23 北京知道创宇信息技术有限公司 网站分类方法及装置
CN110659657A (zh) * 2018-06-29 2020-01-07 北京京东尚科信息技术有限公司 训练模型的方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258067A (zh) * 2020-10-30 2021-01-22 国网上海市电力公司 基于高斯混合模型聚类算法的低压用户缴费行为分类方法
CN112565250A (zh) * 2020-12-04 2021-03-26 中国移动通信集团内蒙古有限公司 一种网站识别方法、装置、设备及存储介质
CN112634090A (zh) * 2020-12-15 2021-04-09 深圳市彬讯科技有限公司 家装信息举报管理方法、系统、计算机设备及存储介质
CN113806667A (zh) * 2021-09-26 2021-12-17 上海交通大学 一种支持网页分类的方法和系统
CN113806667B (zh) * 2021-09-26 2023-10-03 上海交通大学 一种支持网页分类的方法和系统
CN114493668A (zh) * 2021-12-28 2022-05-13 北京五八信息技术有限公司 车辆信息处理方法、装置、设备及存储介质
CN117033742A (zh) * 2023-08-18 2023-11-10 广东轻工职业技术学院 基于人工智能的数据安全获取方法
CN117033742B (zh) * 2023-08-18 2024-02-20 广东轻工职业技术学院 基于人工智能的数据安全获取方法
CN118114053A (zh) * 2024-03-20 2024-05-31 慧新全智工业互联科技(青岛)有限公司 一种基于便携式多功能装置的数据采集方法

Also Published As

Publication number Publication date
CN111783016B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN111783016B (zh) 一种网站分类方法、装置及设备
US20210216915A1 (en) Systems and Methods for Predictive Coding
CN108319630B (zh) 信息处理方法、装置、存储介质和计算机设备
US20190213488A1 (en) Systems and methods for semantic analysis based on knowledge graph
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN106021583B (zh) 页面流量数据的统计方法及其系统
CN107102993B (zh) 一种用户诉求分析方法和装置
Nokhbeh Zaeem et al. PrivacyCheck v2: A tool that recaps privacy policies for you
WO2017121076A1 (zh) 信息推送方法和装置
CN102402594A (zh) 一种富媒体个性化推荐方法
Story et al. Which apps have privacy policies? an analysis of over one million google play store apps
US20230161947A1 (en) Mathematical models of graphical user interfaces
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
Interdonato et al. A lightweight and multilingual framework for crisis information extraction from Twitter data
Saxe et al. CrowdSource: Automated inference of high level malware functionality from low-level symbols using a crowd trained machine learning model
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
Ceolin et al. Capturing the ineffable: Collecting, analysing, and automating web document quality assessments
Kotenko et al. The intelligent system for detection and counteraction of malicious and inappropriate information on the Internet
Amrit et al. Information waste on the world wide web and combating the clutter
CN111754352A (zh) 一种观点语句正确性的判断方法、装置、设备和存储介质
Spahiu et al. Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned
Lee et al. Abnormal usage sequence detection for identification of user needs via recurrent neural network semantic variational autoencoder
CN111861379A (zh) 一种聊天数据的检测方法和装置
Tolochko et al. What’s in a name? The effect of named entities on topic modelling interpretability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40039074

Country of ref document: HK