CN112131507A - 网站内容处理方法、装置、服务器和计算机可读存储介质 - Google Patents
网站内容处理方法、装置、服务器和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112131507A CN112131507A CN202011026470.7A CN202011026470A CN112131507A CN 112131507 A CN112131507 A CN 112131507A CN 202011026470 A CN202011026470 A CN 202011026470A CN 112131507 A CN112131507 A CN 112131507A
- Authority
- CN
- China
- Prior art keywords
- illegal
- content
- detected
- website
- domain name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009193 crawling Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明的实施例提供了一种网站内容处理方法、装置、服务器和计算机可读存储介质,涉及互联网技术领域,方法包括:检测待检测域名所对应的网站中的内容,并将检测得到的内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配,进而判断检测得到的内容是否与违规热点词汇或违规普通词汇相匹配,若匹配,则对待检测域名进行违规处理,通过引入违规热点词汇,并优先基于违规热点词汇进行匹配,能够有效提高高频违规网站的识别效率,实现对待检测域名所对应的网站中的内容的快速检测、处理。
Description
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种网站内容处理方法、装置、服务器和计算机可读存储介质。
背景技术
现阶段流行的SaaS(Software-as-a-Service,软件即服务)服务模式,支持用户在CDN(Content Delivery Network,内容分发网络)服务商提供的云平台自主添加域名,并通过修改DNS(Domain Name System,域名系统)解析达到快速接入的目的,大型CDN服务商可能每日要接受成千上万新域名接入,同时已享受平台服务的网站也可能存在网站内容变更等,为了确保网站内容的健康性,平台必须进行内容审核,对涉及违规的域名进行处理。
发明内容
本发明的目的包括,例如,提供了一种网站内容处理方法、装置、服务器和计算机可读存储介质,其能够实现对待检测域名所对应的网站中的内容的快速检测、处理。
本发明的实施例可以这样实现:
第一方面,本发明实施例提供一种网站内容处理方法,应用于服务器,所述服务器中维护有违规热点词汇和违规普通词汇,所述方法包括:
针对每个待检测域名,检测该待检测域名所对应的网站中的内容;
将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;
判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理。
在可选的实施方式中,所述方法还包括:根据违规处理结果,更新所述违规热点词汇。
在可选的实施方式中,所述根据违规处理结果,更新所述违规热点词汇,包括:
根据以下公式,计算各违规词的热度:总出现次数*第一权重+时间衰减参数*第二权重;
根据各所述违规词的热度大小,得到实时违规热点词汇。
在可选的实施方式中,待检测域名所对应的网站中的内容包括:网站标题、网站首页内容和网站图片内容中的至少一种。
在可选的实施方式中,在待检测域名所对应的网站中的内容包括网站图片内容时,所述检测该待检测域名所对应的网站中的内容,包括:基于Python3的图片解析库pytesseract和PIL,将图片中的内容进行文字解析。
在可选的实施方式中,所述方法还包括获取待检测域名的步骤,该步骤包括:
响应于在云平台添加根域名、需要服务的二级域名并通过修改域名系统接入域名的操作,将所要接入的域名作为待检测域名。
在可选的实施方式中,所述将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理,包括:
将检测得到的所述内容与违规热点词汇进行匹配;
若匹配,则将所述待检测域名进行违规关键词标记,按设定周期将被进行违规关键词标记的所有所述待检测域名进行推送和违规核实;
若不匹配,则再将检测得到的所述内容与违规普通词汇进行匹配,若检测得到的所述内容与所述违规普通词汇匹配,则将所述待检测域名进行违规关键词标记,按设定周期将被进行违规关键词标记的所有所述待检测域名进行推送和违规核实。
第二方面,本发明实施例提供一种网站内容处理装置,应用于服务器,所述服务器中维护有违规热点词汇和违规普通词汇,所述网站内容处理装置包括:
信息检测模块,用于针对每个待检测域名,检测该待检测域名所对应的网站中的内容;
信息匹配模块,用于将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;
信息判断模块,用于判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理。
第三方面,本发明实施例提供一种服务器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施方式任一项所述的网站内容处理方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在服务器执行前述实施方式任一项所述的网站内容处理方法。
本发明实施例的有益效果包括,例如:通过在服务器中维护违规热点词汇和违规普通词汇,并在对待检测域名所对应的网站中的内容进行检测时,先将相应内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配,只要相应内容与违规热点词汇或违规普通词汇相匹配,即对待检测域名进行违规处理。通过引入违规热点词汇,并优先基于违规热点词汇进行匹配,能够有效提高高频违规网站的识别效率,实现对待检测域名所对应的网站中的内容的快速检测、处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种应用场景示意图。
图2示出了本发明实施例提供的一种网站内容处理方法的流程示意图。
图3出了本发明实施例提供的一种网站内容处理方法的另一流程示意图。
图4出了本发明实施例提供的在一种示例性场景中网站内容处理方法的示例性流程示意图。
图5出了本发明实施例提供的一种网站内容处理装置的示例性结构框图。
图标:100-服务器;110-存储器;120-处理器;130-通信模块;140-网站内容处理装置;141-信息检测模块;142-信息匹配模块;143-信息判断模块。
具体实施方式
SaaS服务模式支持用户在CDN服务商提供的云平台进行域名接入,为了确保接入域名所对应的网站内容的健康性,需及时有效的对相应内容进行审核,对涉及违规的域名进行处理,而处理及时性尤为重要。
其中,CDN是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。
云平台又称云计算平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。云计算平台可以划分为三类:以数据存储为主的存储型云平台,以数据处理为主的计算型云平台以及计算和数据存储处理兼顾的综合云计算平台。
为了快速实现对海量网站内容合规性的筛选,云平台厂商可以对接入域名所对应的网站内容进行不定期扫描,以达到第一时间发现并处理违规域名的效果。然而,现今的违规检测和处理效率有待提升,经研究发现,主要原因在于违规内容的种类较多、总量较大,每个扫描周期所需耗时较长,相应地,若违规检测频率设置的较高,对数据处理能力的要求较高,而若降低违规检测的频率,又会进一步降低违规检测的处理效率。
综上可知,如何实现对接入域名所对应的网站中的内容的快速检测、处理为目前所需改善的技术问题。
有鉴于此,本发明实施例提供了一种网站内容处理方案,通过引入违规热点词汇,并优先基于违规热点词汇进行内容匹配,从而有效提高高频违规网站的识别效率,实现对接入域名所对应的网站中的内容的快速检测、处理。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案,都应该是发明人在发明过程中做出的贡献。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
请参照图1,是本实施例提供的一种服务器100的方框示意图,本实施例中的服务器100可以为能够进行数据检测、分析、处理的任意设备。所述服务器100包括存储器110、处理器120及通信模块130。所述存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。
通信模块130用于通过所述网络建立所述服务器100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为服务器100的结构示意图,所述服务器100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请结合参阅图2,为本发明实施例提供的一种网站内容处理方法的流程示意图,可以由图1所述服务器100执行,例如可以由服务器100中的处理器120执行,服务器100中维护有违规热点词汇和违规普通词汇,例如,维护的违规热点词汇和违规普通词汇可以存储或缓存在服务器100的存储器110中。该网站内容处理方法包括S110、S120、S130和S140。
S110,针对每个待检测域名,检测该待检测域名所对应的网站中的内容;
S120,将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;
S130,判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则执行S140。
S140,对所述待检测域名进行违规处理。
在一种实施方式中,服务器100中维护的违规热点词汇和违规普通词汇的总和构成了完整的违规词汇集合。其中,违规热点词汇为违规词汇集合中“命中率”(内容被检测出违规频率)最高的若干词汇,违规普通词汇为违规词汇集合中除违规热点词汇之外的其他词汇。
获得违规热点词汇的方式可以灵活设置,例如,请结合参阅图3,可以通过S210和S220得到。
S210,根据设定公式,计算各违规词的热度。
S220,根据各违规词的热度大小,得到实时违规热点词汇。
又例如,可以预先建立违规热点词汇分析模型,基于违规热点词汇分析模型对最近设定时间段内检测到的违规词汇进行动态分析,从而分析得出最新的违规热点词汇。
违规热点词汇在违规词汇集合中的占比可以根据不同场景灵活设置,例如,可以根据各违规词的热度大小对各违规词进行排名,将前N个热度最高的违规词作为违规热点词汇。又例如,可以设置热度阈值,将热度高于热度阈值的所有违规词作为违规热点词汇。
本实施例中,待检测域名可以通过多种方式获得。例如,可以响应于在云平台添加根域名、需要服务的二级域名并通过修改域名系统接入域名的操作,将所要接入的域名作为待检测域名。又例如,可以将已接入平台的部分域名作为待检测域名。其中,作为待检测域名的部分域名可以包括:所对应的网站内容发生了变更的域名、随机抽取的域名、受到过举报的域名等。又例如,可以将所要接入的域名以及已接入平台的部分域名均作为待检测域名。
待检测域名所对应的网站中的内容可以包括:网站标题、网站首页内容、网站图片中的内容等中的一种或多种。为了提高检测效率,可以从网站标题、网站首页、网站的图片等中提取关键词作为网站的内容。
在待检测域名所对应的网站中的内容包括网站图片内容时,为了提升网站图片内容的检测效率,进而确保对待检测域名进行检测、处理的整体效率,在一种实现方式中,可以基于Python3的图片解析库pytesseract和PIL,将图片中的内容进行文字解析。
利用Python3强大的词库对网站图片内容进行解析匹配,更新违规热点词汇,能够进一步确保快速、有效鉴别网站内容。
在获得待检测域名所对应的网站中的内容后,基于服务器100中维护的违规热点词汇和违规普通词汇,S120至S140可以通过以下方式实现:先将检测得到的所述内容与违规热点词汇进行匹配,若匹配,则将所述待检测域名进行违规关键词标记,按设定周期将被进行违规关键词标记的所有所述待检测域名进行推送和违规核实。若检测得到的所述内容与违规热点词汇不匹配,则再将检测得到的所述内容与违规普通词汇进行匹配,若检测得到的所述内容与所述违规普通词汇匹配,则将所述待检测域名进行违规关键词标记,按设定周期将被进行违规关键词标记的所有所述待检测域名进行推送和违规核实。若检测得到的所述内容与违规热点词汇和违规普通词汇均不匹配,则判定待检测域名不违规,允许待检测域名正常接入并享受服务。
基于上述方案,通过维护包括热度最高的若干违规词的违规热点词汇,先将检测得到的内容与违规热点词汇进行匹配,从而能够有效提高违规网站被检测出的速度,进行关闭等处理,进而提升网络环境。
在检测出违规网站,并对相应待检测域名进行违规处理之后,还可以根据违规处理结果,更新所述违规热点词汇。更新违规热点词汇的方式可以灵活选择,示例性地,可以根据设定公式,如以下公式,计算各违规词的(最新)热度:总出现次数*第一权重+时间衰减参数*第二权重,根据各所述违规词的热度大小,得到实时违规热点词汇。在其他实施方式中,还可以将最新检测出的违规热点词输入预先建立的违规热点词汇分析模型,基于违规热点词汇分析模型分析得出最新的违规热点词汇。
可以理解的是,本发明实施例仅列出了进行违规热点词汇和违规普通词汇划分的示例性实施方式,在其他实施方式中,还可以进行更细的划分,例如,所划分的违规热点词汇可以为两个以上,两个以上违规热点词汇所对应的热度级别不同,在进行违规匹配时,按照热度级别依次进行匹配。例如,若违规词汇集合中一共有3N个词汇,那么,可以按照热度大小对这3N个词汇进行排名,将排名最靠前的N个词汇划分为第一级违规热点词汇,将前排名位于中间的N个词汇划分为第二级违规热点词汇,将前排名最靠后的N个词汇划分为第三级违规热点词汇,相应地,在进行违规匹配时,可以先与第一级违规热点词汇进行匹配,未匹配上再与第二级违规热点词汇进行匹配,还未匹配上再与第三级违规热点词汇进行匹配。通过更细的划分,进一步提升匹配效率。
为了更为清楚地阐述本发明实施例的实现方案,现以下述具体场景为例对本发明实施例的实现方案进行举例说明。
请结合参阅图4,若云平台中维护的热点词汇为标记的热度排名前十的违规词,违规普通词汇为其他违规词,用户在云平台添加一级域名(根域名)、添加需要服务的二级域名并自主通过修改DNS进行快速接入,那么,云平台将接入的域名作为目标域名(待检测域名),云平台不间断检测目标域名内容:爬取网站标题、爬取网站首页内容、对网站图片进行内容解析并执行爬取匹配。云平台优先将检测得到的目标域名内容与云平台标记的前十违规热点词汇进行匹配推送,若匹配成功,则匹配中的域名将被标记“违规关键词”,实现快速标记,若未匹配成功,则再将检测得到的目标域名内容与云平台维护的违规普通词汇进行匹配推送,若匹配成功,则匹配中的域名将被标记“违规关键词”,实现快速标记,若仍然未匹配成功,则允许目标域名正常接入并享受相应服务。
其中,对爬取到的关键词利用热度标记公式进行热度前十高危词汇维护。实现方式如下:
总出现次数(热度)*权重(30%)+时间衰减参数*权重(70%)
其中,时间衰减参数为:一周内出现过则为50,一周到二周出现过则为30,二周到三周出现过则为20,三周到四周出现过则为10。
预先设置检测、标记周期,定时任务结束后,所有被标记的域名将被推送给维护人员,维护人员可再进行进一步核实处理。
采用本发明实施例中的上述方法,实现了对网站内容检测处理方式的优化,对网站内容中文字、图片均会进行识别解析,并优先同检测到的高频关键词(违规热点词汇)进行匹配和热度标记,能够显著提升对违规网站检测的有效性、实用性。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种网站内容处理装置的实现方式。请参阅图5,图5为本发明实施例提供的一种网站内容处理装置140的功能模块图,该网站内容处理装置140可以应用于图1所示服务器100,所述服务器100中维护有违规热点词汇和违规普通词汇。需要说明的是,本实施例所提供的网站内容处理装置140,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该网站内容处理装置140包括信息检测模块141、信息匹配模块142和信息判断模块143。
信息检测模块141,用于针对每个待检测域名,检测该待检测域名所对应的网站中的内容。
信息匹配模块142,用于将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配。
信息判断模块143,用于判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理。
在上述基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行上述的网站内容处理方法。
本发明实施例的有益效果包括,例如:通过在服务器中维护违规热点词汇和违规普通词汇,并在对待检测域名所对应的网站中的内容进行检测时,先将相应内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配,只要相应内容与违规热点词汇或违规普通词汇相匹配,即对待检测域名进行违规处理。通过引入违规热点词汇,并优先基于违规热点词汇进行匹配,能够有效提高高频违规网站的识别效率,实现对待检测域名所对应的网站中的内容的快速检测、处理。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种网站内容处理方法,其特征在于,应用于服务器,所述服务器中维护有违规热点词汇和违规普通词汇,所述方法包括:
针对每个待检测域名,检测该待检测域名所对应的网站中的内容;
将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;
判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理。
2.根据权利要求1所述的网站内容处理方法,其特征在于,所述方法还包括:根据违规处理结果,更新所述违规热点词汇。
3.根据权利要求2所述的网站内容处理方法,其特征在于,所述根据违规处理结果,更新所述违规热点词汇,包括:
根据以下公式,计算各违规词的热度:总出现次数*第一权重+时间衰减参数*第二权重;
根据各所述违规词的热度大小,得到实时违规热点词汇。
4.根据权利要求1所述的网站内容处理方法,其特征在于,待检测域名所对应的网站中的内容包括:网站标题、网站首页内容和网站图片内容中的至少一种。
5.根据权利要求4所述的网站内容处理方法,其特征在于,在待检测域名所对应的网站中的内容包括网站图片内容时,所述检测该待检测域名所对应的网站中的内容,包括:基于Python3的图片解析库pytesseract和PIL,将图片中的内容进行文字解析。
6.根据权利要求1所述的网站内容处理方法,其特征在于,所述方法还包括获取待检测域名的步骤,该步骤包括:
响应于在云平台添加根域名、需要服务的二级域名并通过修改域名系统接入域名的操作,将所要接入的域名作为待检测域名。
7.根据权利要求1至6任意一项所述的网站内容处理方法,其特征在于,所述将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理,包括:
将检测得到的所述内容与违规热点词汇进行匹配;
若匹配,则将所述待检测域名进行违规关键词标记,按设定周期将被进行违规关键词标记的所有所述待检测域名进行推送和违规核实;
若不匹配,则再将检测得到的所述内容与违规普通词汇进行匹配,若检测得到的所述内容与所述违规普通词汇匹配,则将所述待检测域名进行违规关键词标记,按设定周期将被进行违规关键词标记的所有所述待检测域名进行推送和违规核实。
8.一种网站内容处理装置,其特征在于,应用于服务器,所述服务器中维护有违规热点词汇和违规普通词汇,所述网站内容处理装置包括:
信息检测模块,用于针对每个待检测域名,检测该待检测域名所对应的网站中的内容;
信息匹配模块,用于将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;
信息判断模块,用于判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理。
9.一种服务器,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7任一项所述的网站内容处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在服务器执行权利要求1至7任一项所述的网站内容处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011026470.7A CN112131507A (zh) | 2020-09-25 | 2020-09-25 | 网站内容处理方法、装置、服务器和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011026470.7A CN112131507A (zh) | 2020-09-25 | 2020-09-25 | 网站内容处理方法、装置、服务器和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112131507A true CN112131507A (zh) | 2020-12-25 |
Family
ID=73840682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011026470.7A Pending CN112131507A (zh) | 2020-09-25 | 2020-09-25 | 网站内容处理方法、装置、服务器和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131507A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032658A (zh) * | 2021-02-25 | 2021-06-25 | 未鲲(上海)科技服务有限公司 | 违规词检测方法、装置、设备及计算机可读存储介质 |
CN113890866A (zh) * | 2021-09-26 | 2022-01-04 | 恒安嘉新(北京)科技股份公司 | 一种违规应用软件识别方法、装置、介质及电子设备 |
CN114039741A (zh) * | 2021-09-26 | 2022-02-11 | 深圳供电局有限公司 | 一种上网行为的嗅探方法、系统、装置及可读存储介质 |
CN115186657A (zh) * | 2022-07-28 | 2022-10-14 | 北京网景盛世技术开发中心 | 错敏信息检测方法、装置、计算机设备及存储介质 |
CN115277211A (zh) * | 2022-07-29 | 2022-11-01 | 哈尔滨工业大学(威海) | 基于文本和图像的多模态色情和赌博域名自动检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217019A (zh) * | 2014-09-25 | 2014-12-17 | 中国人民解放军信息工程大学 | 基于多级缓存模块的内容查询方法和装置 |
CN110795677A (zh) * | 2019-11-12 | 2020-02-14 | 成都知道创宇信息技术有限公司 | 一种cdn节点的分配方法及装置 |
-
2020
- 2020-09-25 CN CN202011026470.7A patent/CN112131507A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217019A (zh) * | 2014-09-25 | 2014-12-17 | 中国人民解放军信息工程大学 | 基于多级缓存模块的内容查询方法和装置 |
CN110795677A (zh) * | 2019-11-12 | 2020-02-14 | 成都知道创宇信息技术有限公司 | 一种cdn节点的分配方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032658A (zh) * | 2021-02-25 | 2021-06-25 | 未鲲(上海)科技服务有限公司 | 违规词检测方法、装置、设备及计算机可读存储介质 |
CN113890866A (zh) * | 2021-09-26 | 2022-01-04 | 恒安嘉新(北京)科技股份公司 | 一种违规应用软件识别方法、装置、介质及电子设备 |
CN114039741A (zh) * | 2021-09-26 | 2022-02-11 | 深圳供电局有限公司 | 一种上网行为的嗅探方法、系统、装置及可读存储介质 |
CN113890866B (zh) * | 2021-09-26 | 2024-03-12 | 恒安嘉新(北京)科技股份公司 | 一种违规应用软件识别方法、装置、介质及电子设备 |
CN115186657A (zh) * | 2022-07-28 | 2022-10-14 | 北京网景盛世技术开发中心 | 错敏信息检测方法、装置、计算机设备及存储介质 |
CN115277211A (zh) * | 2022-07-29 | 2022-11-01 | 哈尔滨工业大学(威海) | 基于文本和图像的多模态色情和赌博域名自动检测方法 |
CN115277211B (zh) * | 2022-07-29 | 2023-07-28 | 哈尔滨工业大学(威海) | 基于文本和图像多模态色情和赌博域名自动检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399925B (zh) | 账号的风险识别方法、装置及存储介质 | |
CN112131507A (zh) | 网站内容处理方法、装置、服务器和计算机可读存储介质 | |
US10992762B2 (en) | Processing link identifiers in click records of a log file | |
CN109241461B (zh) | 一种用户画像构建方法及装置 | |
US10075463B2 (en) | Bot detection system based on deep learning | |
CN107204960B (zh) | 网页识别方法及装置、服务器 | |
CN110099059B (zh) | 一种域名识别方法、装置及存储介质 | |
CN109597606B (zh) | 使用规则引擎进行业务决策的方法、设备和存储介质 | |
US9304979B2 (en) | Authorized syndicated descriptions of linked web content displayed with links in user-generated content | |
CN105635126B (zh) | 恶意网址访问防护方法、客户端、安全服务器及系统 | |
US10404731B2 (en) | Method and device for detecting website attack | |
US20100268776A1 (en) | System and Method for Determining Information Reliability | |
US20070256033A1 (en) | System and method for flagging information content | |
CN107257390B (zh) | 一种url地址的解析方法和系统 | |
CN110430188B (zh) | 一种快速url过滤方法及装置 | |
US20180131708A1 (en) | Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names | |
US11750649B2 (en) | System and method for blocking phishing attempts in computer networks | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN105376217B (zh) | 一种恶意跳转及恶意嵌套类不良网站的自动判定方法 | |
CN108683631B (zh) | 一种防止扫描权限文件的方法和系统 | |
CN114650176A (zh) | 钓鱼网站的检测方法、装置、计算机设备及存储介质 | |
CN108804501B (zh) | 一种检测有效信息的方法及装置 | |
CN111131236A (zh) | 一种web指纹检测装置、方法、设备及介质 | |
US9521164B1 (en) | Computerized system and method for detecting fraudulent or malicious enterprises | |
CN117254983A (zh) | 涉诈网址检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201225 |
|
RJ01 | Rejection of invention patent application after publication |