CN109241462B - 网页黑词处理方法、装置、设备及存储介质 - Google Patents

网页黑词处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109241462B
CN109241462B CN201810916872.0A CN201810916872A CN109241462B CN 109241462 B CN109241462 B CN 109241462B CN 201810916872 A CN201810916872 A CN 201810916872A CN 109241462 B CN109241462 B CN 109241462B
Authority
CN
China
Prior art keywords
webpage
black
black word
sample
malicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810916872.0A
Other languages
English (en)
Other versions
CN109241462A (zh
Inventor
肖征荣
田新雪
马书惠
邴建
邢建兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201810916872.0A priority Critical patent/CN109241462B/zh
Publication of CN109241462A publication Critical patent/CN109241462A/zh
Application granted granted Critical
Publication of CN109241462B publication Critical patent/CN109241462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供一种网页黑词处理方法、装置、设备及存储介质。该方法包括:获取至少一个样本网页的统一资源定位符;根据所述至少一个样本网页的统一资源定位符,获取所述至少一个样本网页的样本网页内容;根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词;统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数;根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词。本发明实施例提高了对黑词检测的准确性。

Description

网页黑词处理方法、装置、设备及存储介质
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种网页黑词处理方法、装置、设备及存储介质。
背景技术
随着互联网的发展,人们使用互联网的频率越来越高,并利用互联网进行各种购物或者社交活动,如聊天、看视频等。互联网也致力于给人们带来更加方便的生活体验,使得生活更加舒适。但是,在这份舒适方便的生活环境中隐藏这巨大的风险,一旦网站存在漏洞,就可能被攻击者利用,攻击者可能在网站上挂马或者发布虚假信息诱使消费者上当受骗。攻击者也会制作低成本的网页来模仿其他权威网站来欺骗消费者,比如模仿银行的官方网站来套取用户的账号密码。
在基于文本的恶意网址检测模型中,常见的方法是提取页面中的关键词,将页面提取后得到的所有关键词转变成词向量,使用得到的词向量作为这个页面的标示,然后将词向量应用到不同的方法的分类模型中进行模型训练,这种基于文本的恶意网址检测方法比较简单,而随着恶意网站和检测方的不断对抗,关键词提取方法得到的关键词常常是恶意网址有意注入的正常词汇。因此,这种基于关键词提取算法的方法的效果越来越差。
发明内容
本发明实施例提供一种网页黑词处理方法、装置、设备及存储介质,以提高对黑词检测的准确性。
第一方面,本发明实施例提供一种网页黑词处理方法,包括:
获取至少一个样本网页的统一资源定位符;
根据所述至少一个样本网页的统一资源定位符,获取所述至少一个样本网页的样本网页内容;
根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词;
统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数;
根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词。
第二方面,本发明实施例提供一种网页黑词处理装置,包括:
第一获取模块,用于获取至少一个样本网页的统一资源定位符;
第二获取模块,用于根据所述至少一个样本网页的统一资源定位符,获取所述至少一个样本网页的样本网页内容;
第三获取模块,用于根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词;
统计模块,用于统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数;
确定模块,用于根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词。
第三方面,本发明实施例提供一种主机,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
本发明实施例提供的网页黑词处理方法、装置、设备及存储介质,通过获取至少一个样本网页的统一资源定位符,以及至少一个样本网页的样本网页内容,根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词,统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词,即时恶意网站方在恶意网页中注入正常词汇,只要该正常词汇在恶意网页中出现的次数大于在非恶意网页中出现的次数,即可将该正常词汇确定为是黑词,从而提高了对黑词检测的准确性。
附图说明
图1为本发明实施例提供的一种应用场景的示意图;
图2为本发明实施例提供的网页黑词处理方法流程图;
图3为本发明另一实施例提供的网页黑词处理方法流程图;
图4为本发明实施例提供的网页黑词处理装置的结构示意图;
图5为本发明实施例提供的主机的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本发明提供的网页黑词处理方法,可以适用于图1所示的通信系统。如图1所示,该通信系统包括:接入网设备11、终端设备12和主机13。需要说明的是,图1所示的通信系统可以适用于不同的网络制式,例如,可以适用于全球移动通讯(Global System of Mobilecommunication,简称GSM)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、时分同步码分多址(Time Division-Synchronous Code Division Multiple Access,简称TD-SCDMA)、长期演进(Long Term Evolution,简称LTE)系统及未来的5G等网络制式。可选的,上述通信系统可以为5G通信系统中高可靠低时延通信(Ultra-Reliable and Low LatencyCommunications,简称URLLC)传输的场景中的系统。
故而,可选的,上述接入网设备11可以是GSM或CDMA中的基站(Base TransceiverStation,简称BTS)和/或基站控制器,也可以是WCDMA中的基站(NodeB,简称NB)和/或无线网络控制器(Radio Network Controller,简称RNC),还可以是LTE中的演进型基站(Evolutional Node B,简称eNB或eNodeB),或者中继站或接入点,或者未来5G网络中的基站(gNB)等,本发明在此并不限定。
上述终端设备12可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network,简称RAN)与一个或多个核心网设备进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。再例如,无线终端还可以是个人通信业务(Personal Communication Service,简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol,简称SIP)话机、无线本地环路(Wireless LocalLoop,简称WLL)站、个人数字助理(Personal Digital Assistant,简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、远程终端(RemoteTerminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(UserAgent)、用户设备(User Device or User Equipment),在此不作限定。可选的,上述终端设备12还可以是智能手表、平板电脑等设备。
本发明提供的网页黑词处理方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图2为本发明实施例提供的网页黑词处理方法流程图。本发明实施例针对现有技术的如上技术问题,提供了网页黑词处理方法,该方法具体步骤如下:
步骤201、获取至少一个样本网页的统一资源定位符。
本实施例所述的方法可由如图1所示的终端设备12或服务器13执行,可选的,以终端设备12为例,终端设备12获取至少一个样本网页的统一资源定位符。
步骤202、根据所述至少一个样本网页的统一资源定位符,获取所述至少一个样本网页的样本网页内容。
终端设备12根据所述至少一个样本网页的统一资源定位符,获取所述至少一个样本网页的源代码,并根据至少一个样本网页的源代码确定出所述至少一个样本网页的样本网页内容。
步骤203、根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词。
终端设备12获取所述至少一个样本网页的样本网页内容中的关键词,具体的,采用过滤或人工标注的方法收集、确定该样本网页内容中的关键词,例如,博彩、赛马等。可以理解,每个样本网页内容中的关键词不限于一个。
步骤204、统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数。
终端设备12进一步获取包括该关键词的恶意网页和非恶意网页。在本实施例中,该样本网页内容中的关键词可能是黑词也可能是白词,所谓的黑词是指可以明显区分恶意网页和非恶意网页的且位于恶意网页中的词汇,如博彩中的时时彩、六合彩、北京赛车等。所谓的白词是指恶意网站方有意注入在恶意网页中的关键词。恶意网页的主要目的一般是流量劫持、违法博彩、欺诈用户等。因此这些恶意网页中通常会添加有一些热词来提升恶意网页在搜索引擎的检索权重,使得用户可能会访问到这些恶意网页。
终端设备12获取到包括该关键词的恶意网页和非恶意网页之后,进一步统计该关键词在恶意网页中出现的次数和在非恶意网页中出现的次数。
步骤205、根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词。
终端设备12根据该关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词。此处的非黑词指上述的白词,也就是说,终端设备12根据每个关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,将每个关键词区分为黑词或白词。
可选的,所述根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词,包括:根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词对应的权重值,所述权重值表示根据所述关键词区分恶意网页和非恶意网页的难易程度;如果所述关键词对应的权重值大于阈值,则确定所述关键词为黑词。
例如,将样本网页中出现的词语,都当成一个特征,采用特征选择算法,给每一个特征选择出来的关键词分配不同的权重,最后组成一个词向量,词向量的结构为one-hot。权重值大词语可以明显地区分出恶意网页和正常网页。因此,本发明对每个词统计它在恶意网页出现的次数和在正常网页出现的次数。按照一定的阈值将每个词分为黑词和非黑词。而在特征选择算法排序后的特征中权重值大于阈值的黑词就是最终需要的关键词。
本发明实施例通过获取至少一个样本网页的统一资源定位符,以及至少一个样本网页的样本网页内容,根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词,统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词,即时恶意网站方在恶意网页中注入正常词汇,只要该正常词汇在恶意网页中出现的次数大于在非恶意网页中出现的次数,即可将该正常词汇确定为是黑词,从而提高了对黑词检测的准确性。
图3为本发明另一实施例提供的网页黑词处理方法流程图。在上述实施例的基础上,本实施例提供的网页黑词处理方法具体还包括如下步骤:
步骤301、将所述黑词存储在黑词库中。
例如,终端设备12检测出样本网页内容中的黑词后,将该黑词存储在终端设备12中的黑词库中。终端设备12中黑词库内的黑词可以供其他主机例如主机13和主机14查询。
在本实施例中,对于同一个用户来说,可以租用多个容器来存储检测到的黑词,并为其他主机提供有偿的黑词查询服务。该用户可根据自己检测到的黑词数量,选择租用容器的数量。由于租用的时期不同,所以这些容器很可能位于不同的主机上,也就是说在多个不同的主机上有不同的容器用来存储同一个用户的不同的黑词库。例如:终端设备12的容器A负责存储黑词库1,主机13的容器B负责存储黑词库2,主机14的容器C负责存储黑词库3;各个黑词库是独立的、内容不重复。
步骤302、检测所述黑词库中被其他主机查询过的不同黑词的个数或每个黑词被其他主机查询过的次数。
在本实施例中,每个主机上设置有一个黑词查询统计模块,该黑词查询统计模块用于统计每个主机上被查询过的不同黑词的数量和单个黑词被查询过的次数等信息。对于单个容器来说,如果超过一定阈值比例的黑词或者单个黑词被查询的次数超过了一定的阈值,则该黑词查询统计模块通知用户该容器或者该黑词可以释放掉了,免得占用存储空间,增加了存储成本。然后不同的主机例如终端设备12的容器A、主机13的容器B和主机14的容器C之间的黑词可以迁移到同一个主机上。
步骤303、当所述黑词库中被其他主机查询过的不同黑词的个数大于预设个数,或者所述黑词库中每个黑词被其他主机查询过的次数大于预设次数时,释放所述黑词库的存储空间。
可选的,所述释放所述黑词库的存储空间,包括:将所述黑词库中的黑词迁移到其他主机中的黑词库中。
可选的,所述将所述黑词库中的黑词迁移到其他主机中的黑词库中,包括:通过与其他主机之间的直连通道将所述黑词库中的黑词迁移到其他主机中的黑词库中。
例如,当位于不同的主机上的同一个用户的容器A、B、C之间需要黑词库迁移的时候,在终端设备12、主机13、主机14上分别创建一个虚拟用户网桥user1。也就是说,终端设备12、主机13、主机14分别创建的虚拟用户网桥的标识信息相同。
终端设备12、主机13、主机14可分别通过本地的虚拟用户网桥user1发送广播报文。例如,终端设备12的容器A的公网地址为202.x.x.1,端口号为1234;主机13的容器B的公网地址为202.x.x.2,端口号为5678;主机14的容器C的公网地址为202.x.x.3,端口号为9101。主机13可通过本地的虚拟用户网桥user1发送报文,该报文包括虚拟用户网桥user1的标识信息、主机13的容器B的公网地址和端口号,同理,主机14可通过本地的虚拟用户网桥user1发送报文,该报文包括虚拟用户网桥user1的标识信息、主机14的容器C的公网地址和端口号。
当终端设备12的虚拟用户网桥user1接收到主机13和主机14的虚拟用户网桥user1分别发送的报文时,终端设备12的虚拟用户网桥user1确定终端设备12、主机13和主机14的虚拟用户网桥user1的标识信息一致,另外,主机13的虚拟用户网桥user1也可接收到终端设备12和主机14的虚拟用户网桥user1分别发送的报文,并确定终端设备12、主机13和主机14的虚拟用户网桥user1的标识信息一致;主机14的虚拟用户网桥user1也可接收到终端设备12和主机13的虚拟用户网桥user1分别发送的报文,并确定终端设备12、主机13和主机14的虚拟用户网桥user1的标识信息一致。进一步,终端设备12、主机13和主机14的虚拟用户网桥user1之间建立直连通道202.x.x.1:1234和202.x.x.2:5678和202.x.x.3:9101(1234和5678和9101为端口号),终端设备12、主机13和主机14中的任一方通过该直连通道告诉另外两方自己的端口号,然后终端设备12、主机13和主机14上的中央处理模块,衡量下释放后的容器A、B和C的空间大小,如果释放后的容器A的空间最大,则将另外两个容器B和C内的黑词库迁移到容器A中。
可选的,从终端设备12中的容器A发送的所有报文都通过该直连通道直接发送到主机13中的容器B和主机14的容器C。
为了保证容器A、B、C的私网地址不冲突,所有的地址由虚拟用户网桥user1来分配,例如,该虚拟用户网桥user1给容器A分配的私网地址为192.168.0.01,给容器B分配的私网地址为192.168.0.02,给容器C分配的私网地址为192.168.0.03。Docker容器A、B、C分别通过自己所在的主机内的虚拟用户网桥user1发送广播消息,该广播消息中有虚拟用户网桥user1的标识信息。例如,终端设备12中的虚拟用户网桥user1收到了主机13中的容器B和主机14中的容器C发送的广播消息,终端设备12中的虚拟用户网桥user1确定该广播消息中包括的虚拟用户网桥的标识信息和自己的标识信息一致,说明容器A、B、C同属于同一个用户。终端设备12中的虚拟用户网桥user1进一步记录该广播消息中包括的容器B的公网地址和端口号202.x.x.2:5678,以及容器C的202.x.x.3:9101。
通过以上过程,三个不同主机例如终端设备12、主机13、主机14中的同一个虚拟用户网桥user1直接形成了一个直连通道,然后通过该直连通道将容器B和容器C上面的黑词库迁移到容器A上,彻底释放掉容器B和容器C。
本发明实施例通过将属于同一用户的不同主机的容器上的黑词迁移到同一主机的容器中,降低了黑词的存储成本,提高了存储空间的利用率。
图4为本发明实施例提供的网页黑词处理装置的结构示意图。该网页黑词处理装置具体可以是上述实施例中的终端设备12。本发明实施例提供的网页黑词处理装置可以执行网页黑词处理方法实施例提供的处理流程,如图4所示,网页黑词处理装置40包括:第一获取模块41、第二获取模块42、第三获取模块43、统计模块44和确定模块45;其中,第一获取模块41用于获取至少一个样本网页的统一资源定位符;第二获取模块42用于根据所述至少一个样本网页的统一资源定位符,获取所述至少一个样本网页的样本网页内容;第三获取模块43用于根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词;统计模块44用于统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数;确定模块45用于根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词为黑词或非黑词。
可选的,确定模块45具体用于:根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词对应的权重值,所述权重值表示根据所述关键词区分恶意网页和非恶意网页的难易程度;如果所述关键词对应的权重值大于阈值,则确定所述关键词为黑词。
可选的,网页黑词处理装置40还包括:存储模块46、检测模块47和存储空间释放模块48;存储模块46用于将所述黑词存储在黑词库中;检测模块47用于检测所述黑词库中被其他主机查询过的不同黑词的个数或每个黑词被其他主机查询过的次数;存储空间释放模块48用于当所述黑词库中被其他主机查询过的不同黑词的个数大于预设个数,或者所述黑词库中每个黑词被其他主机查询过的次数大于预设次数时,释放所述黑词库的存储空间。
可选的,存储空间释放模块48具体用于:将所述黑词库中的黑词迁移到其他主机中的黑词库中。
可选的,存储空间释放模块48将所述黑词库中的黑词迁移到其他主机中的黑词库中时,具体用于:通过与其他主机之间的直连通道将所述黑词库中的黑词迁移到其他主机中的黑词库中。
图4所示实施例的网页黑词处理装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本发明实施例提供的主机的结构示意图。本发明实施例提供的主机可以执行网页黑词处理方法实施例提供的处理流程,如图5所示,主机50包括存储器51、处理器52、计算机程序和通讯接口53;其中,计算机程序存储在存储器51中,并被配置为由处理器52执行以上实施例所述的网页黑词处理方法。
图5所示实施例的主机可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的网页黑词处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种网页黑词处理方法,其特征在于,应用于终端设备,包括:
获取至少一个样本网页的统一资源定位符;
根据所述至少一个样本网页的统一资源定位符,获取所述至少一个样本网页的样本网页内容;
根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词;
统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数;
根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词对应的权重值,所述权重值表示根据所述关键词区分恶意网页和非恶意网页的难易程度;
如果所述关键词对应的权重值大于阈值,则确定所述关键词为黑词;
将所述黑词存储在所述终端设备中的第一黑词库中;
检测所述第一黑词库中被其他主机查询过的不同黑词的个数或每个黑词被其他主机查询过的次数;
当所述第一黑词库中被其他主机查询过的不同黑词的个数大于预设个数,或者所述第一黑词库中每个黑词被其他主机查询过的次数大于预设次数时,则将所述第一黑词库中的黑词迁移到其他主机中的第二黑词库中;所述第一黑词库和所述第二黑词库用于存储同一用户的不同黑词库。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一黑词库中的黑词迁移到其他主机中的第二黑词库中,包括:
通过与其他主机之间的直连通道将所述第一黑词库中的黑词迁移到其他主机中的第二黑词库中。
3.一种网页黑词处理装置,其特征在于,包括:
第一获取模块,用于获取至少一个样本网页的统一资源定位符;
第二获取模块,用于根据所述至少一个样本网页的统一资源定位符,获取所述至少一个样本网页的样本网页内容;
第三获取模块,用于根据所述至少一个样本网页的样本网页内容,获取所述至少一个样本网页的样本网页内容中的关键词;
统计模块,用于统计所述至少一个样本网页的样本网页内容中的关键词在恶意网页中出现的次数和在非恶意网页中出现的次数;
确定模块,用于根据所述关键词在恶意网页中出现的次数和在非恶意网页中出现的次数,确定所述关键词对应的权重值,所述权重值表示根据所述关键词区分恶意网页和非恶意网页的难易程度;如果所述关键词对应的权重值大于阈值,则确定所述关键词为黑词;
还包括:
存储模块,用于将所述黑词存储在终端设备中的第一黑词库中;
检测模块,用于检测所述第一黑词库中被其他主机查询过的不同黑词的个数或每个黑词被其他主机查询过的次数;
存储空间释放模块,用于当所述第一黑词库中被其他主机查询过的不同黑词的个数大于预设个数,或者所述第一黑词库中每个黑词被其他主机查询过的次数大于预设次数时,则将所述第一黑词库中的黑词迁移到其他主机中的第二黑词库中;所述第一黑词库和所述第二黑词库用于存储同一用户的不同黑词库。
4.根据权利要求3所述的网页黑词处理装置,其特征在于,所述存储空间释放模块将所述第一黑词库中的黑词迁移到其他主机中的第二黑词库中时,具体用于:
通过与其他主机之间的直连通道将所述第一黑词库中的黑词迁移到其他主机中的第二黑词库中。
5.一种主机,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1或2所述的方法。
6.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1或2所述的方法。
CN201810916872.0A 2018-08-13 2018-08-13 网页黑词处理方法、装置、设备及存储介质 Active CN109241462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810916872.0A CN109241462B (zh) 2018-08-13 2018-08-13 网页黑词处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810916872.0A CN109241462B (zh) 2018-08-13 2018-08-13 网页黑词处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109241462A CN109241462A (zh) 2019-01-18
CN109241462B true CN109241462B (zh) 2021-12-14

Family

ID=65071027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810916872.0A Active CN109241462B (zh) 2018-08-13 2018-08-13 网页黑词处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109241462B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312898B (zh) * 2020-02-26 2024-03-01 深信服科技股份有限公司 语料处理方法、设备、存储介质及装置
CN112910925B (zh) * 2021-03-08 2023-06-13 鹏城实验室 域名检测方法、模型训练方法及装置、设备、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924866A (zh) * 2006-09-28 2007-03-07 北京理工大学 基于统计特征的网页恶意脚本检测方法
CN102622435A (zh) * 2012-02-29 2012-08-01 百度在线网络技术(北京)有限公司 一种检测黑链的方法和装置
CN102855320A (zh) * 2012-09-04 2013-01-02 珠海市君天电子科技有限公司 一种利用搜索引擎对关键词相关url的收集方法和装置
CN103593615A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103810425A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
CN107679401A (zh) * 2017-09-04 2018-02-09 北京知道未来信息技术有限公司 一种恶意网页识别方法和装置
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768911B2 (en) * 2005-06-15 2014-07-01 Geronimo Development System and method for indexing and displaying document text that has been subsequently quoted
US20080071616A1 (en) * 2006-09-15 2008-03-20 Speedus Corp. System and Method for Ensuring Delivery of Advertising
CN101132311A (zh) * 2007-09-25 2008-02-27 腾讯科技(深圳)有限公司 一种防范网络广告被恶意点击的方法及系统
CN101964000B (zh) * 2010-11-09 2013-05-15 焦点科技股份有限公司 一种敏感词自动过滤管理系统
CN102339320B (zh) * 2011-11-04 2013-08-28 华为数字技术(成都)有限公司 恶意网页的识别方法以及识别装置
CN103678422A (zh) * 2012-09-25 2014-03-26 北京亿赞普网络技术有限公司 网页分类方法和装置、网页分类器的训练方法和装置
CN103236969B (zh) * 2013-04-03 2016-07-06 中国科学院合肥物质科学研究院 一种用于云服务计费管理的网关系统和方法
CN106686070B (zh) * 2016-12-13 2020-10-16 腾讯科技(深圳)有限公司 一种数据库数据迁移方法、装置、终端及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924866A (zh) * 2006-09-28 2007-03-07 北京理工大学 基于统计特征的网页恶意脚本检测方法
CN102622435A (zh) * 2012-02-29 2012-08-01 百度在线网络技术(北京)有限公司 一种检测黑链的方法和装置
CN102855320A (zh) * 2012-09-04 2013-01-02 珠海市君天电子科技有限公司 一种利用搜索引擎对关键词相关url的收集方法和装置
CN103810425A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
CN103593615A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN107679401A (zh) * 2017-09-04 2018-02-09 北京知道未来信息技术有限公司 一种恶意网页识别方法和装置
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置

Also Published As

Publication number Publication date
CN109241462A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
US20230224232A1 (en) System and method for extracting identifiers from traffic of an unknown protocol
CN110033302B (zh) 恶意账户识别方法及装置
CN107679560B (zh) 数据传输方法、装置、移动终端及计算机可读存储介质
CN103546446B (zh) 一种钓鱼网站的检测方法、装置和终端
US10387460B2 (en) Method and apparatus for processing text information
CN102932775A (zh) 一种利用imei与ua结合进行终端识别的方法及装置
CN103052059A (zh) 一种智能终端以及一种智能终端中的数据处理方法
CN107948199B (zh) 一种对终端共享接入进行快速检测的方法及装置
KR101329034B1 (ko) 에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법
CN109241462B (zh) 网页黑词处理方法、装置、设备及存储介质
CN105898085A (zh) 骚扰通信账号的识别方法及装置
CN113412608A (zh) 内容推送方法、装置、服务端及存储介质
CN105871585A (zh) 终端关联方法及装置
CN105516395A (zh) 网络地址分配方法和装置
CN111049822B (zh) 短信验证码发送方法、装置、短信服务器及存储介质
CN107979845A (zh) 无线接入点的风险提示方法及设备
CN108632087B (zh) 一种基于路由器的上网管理方法及系统
CN112416858A (zh) 文档存储方法、装置、电子设备和计算机可读存储介质
CN106060825B (zh) 一种客户识别卡复制提醒方法及服务器
CN110771113B (zh) 刷量终端检测方法及装置
CN107220262A (zh) 信息处理方法和装置
CN106803830B (zh) 识别上网终端的方法、装置和系统、及uim卡
CN113383360B (zh) 内容推送方法、装置、服务端及存储介质
CN110869910A (zh) 搜索资源推荐方法及相关产品
CN107633180B (zh) 公安系统的数据查询方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant