CN111177518A - 网页净化方法、系统及计算机可读存储介质 - Google Patents

网页净化方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN111177518A
CN111177518A CN201911313631.8A CN201911313631A CN111177518A CN 111177518 A CN111177518 A CN 111177518A CN 201911313631 A CN201911313631 A CN 201911313631A CN 111177518 A CN111177518 A CN 111177518A
Authority
CN
China
Prior art keywords
search
user
type
data
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911313631.8A
Other languages
English (en)
Inventor
强志明
朱喜红
林亚坤
申常扳
胡致林
沈智杰
景晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Surfilter Network Technology Co ltd
Shenzhen Surfilter Technology Development Co ltd
Original Assignee
Surfilter Network Technology Co ltd
Shenzhen Surfilter Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Surfilter Network Technology Co ltd, Shenzhen Surfilter Technology Development Co ltd filed Critical Surfilter Network Technology Co ltd
Priority to CN201911313631.8A priority Critical patent/CN111177518A/zh
Publication of CN111177518A publication Critical patent/CN111177518A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页净化方法,包括:解析原始数据,识别用户请求类型;在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户。本发明提供的网页净化方法,通过对用户请求进行识别,对搜索类用户请求进行敏感词匹配;在搜索关键词包含敏感词时,又对搜索类用户请求进行细分,针对搜索引擎类搜索和社交门户网站类搜索进行不同处理,由此,实现对搜索引擎类和社交类网页敏感内容的精准过滤;针对访问类用户请求,针对指定的url进行封堵和审计检测,以实现对访问类网页内容在尽可能保留原有风格和数据的情况下,无感知的对网页内容的净化工作。

Description

网页净化方法、系统及计算机可读存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及基于搜索关键词的网页净化的方法、系统及计算机可读存储介质。
背景技术
在网络内容审计产品中,需要对搜索引擎和社交类网页敏感内容进行过滤。现有产品通常是当网页出现敏感词即对整个网页进行封堵,但其实一个网页中往往只有部分条目含有敏感信息,现有的全面封堵方法用户体验感较差。
发明内容
本发明的主要目的在于提供一种网页净化方法及系统。
为实现上述目的,本发明提供一种网页净化方法,所述方法包括:
解析原始数据,识别用户请求类型;
在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户。
在本发明提供的方法中,在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户,包括:
判断搜索关键词是否为敏感词;
在搜索关键词为敏感词时,判断所述搜索类为搜索引擎类搜索还是社交门户网站类搜索;
在用户的搜索为搜索引擎类搜索时,提取缓存库中与搜索关键词最接近但不包含敏感内容的页面作为净化后的数据推送给用户;
在用户的搜索为社交门户网站类搜索时,返回与该社交门户类网站匹配的404页面。
在本发明提供的方法中,还包括:
在搜索关键词不是敏感词时,根据搜索关键词,生成搜索结果,判断搜索结果中是否包含敏感词;
在搜索结果中包含敏感词时,对搜索结果进行逐条过滤删除,将删除敏感内容后的搜索结果推送给用户。
在本发明提供的方法中,还包括:
在用户请求类型为访问类时,判断用户请求是否包含URL或HOST;
在用户请求包含URL或HOST时,返回与站点匹配的404页面。
本发明另一方面还提供一种网页净化系统,所述系统包括:
识别模块,用于解析原始数据,识别用户请求类型;
第一数据处理模块,用于在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户。
在本发明提供的系统中,所述第一数据处理模块包括:
敏感词匹配单元,用于判断搜索关键词是否为敏感词;
类型匹配单元,用于在搜索关键词为敏感词时,判断所述搜索类为搜索引擎类搜索还是社交门户网站类搜索;
数据推送单元,用于在用户的搜索为搜索引擎类搜索时,提取缓存库中与搜索关键词最接近但不包含敏感内容的页面作为净化后的数据推送给用户;在用户的搜索为社交门户网站类搜索时,返回与该社交门户类网站匹配的404页面。
在本发明提供的系统中,所述第一数据处理模块还包括:
搜索结果匹配单元,用于在搜索关键词不是敏感词时,根据搜索关键词,生成搜索结果,判断搜索结果中是否包含敏感词;
所述数据推送单元,还用于在搜索结果中包含敏感词时,对搜索结果进行逐条过滤删除,将删除敏感内容后的搜索结果推送给用户。
在本发明提供的系统中,还包括:
第二数据处理模块,用于在用户请求类型为访问类时,判断用户请求是否包含URL或HOST;在用户请求包含URL或HOST时,返回与站点匹配的404页面。
本发明另一方面还提供一种网页净化系统,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本发明另一方面还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本发明的网页净化方法、系统以及计算机可读存储介质,具有以下有益效果:本发明提供的网页净化方法和系统,通过对用户请求进行识别,对搜索类用户请求进行敏感词匹配;在搜索关键词包含敏感词时,又对搜索类用户请求进行细分,针对搜索引擎类搜索和社交门户网站类搜索进行不同处理,由此,实现对搜索引擎类和社交类网页敏感内容的精准过滤;针对访问类用户请求,针对指定的url进行封堵和审计检测,以实现对访问类网页内容在尽可能保留原有风格和数据的情况下,无感知的对网页内容的净化工作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:
图1为本发明实施例一提供的网页净化方法的流程示意图;
图2是图1所示的步骤S2的具体流程图;
图3为本发明实施例二提供的网页净化系统的功能模块示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明总的思路是:对搜索关键词进行敏感词匹配,在搜索关键词命中敏感词时,针对不同的用户请求类型进行不同的净化处理;在搜索关键词未命中敏感词时,进一步针对搜索结果进行过滤,删除搜索结果中的敏感信息,由此,实现对敏感内容的精准过滤。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例一
图1为本发明实施例一提供的网页净化方法的流程示意图;参考图1,本实施例的网页净化方法包括:
步骤S1、解析原始数据,识别用户请求类型;
具体地,在本发明一实施例中,根据URL规则对用户请求进行分类,将用户请求分为搜索类请求和访问类请求。进一步地,根据URL规则识别用户请求类型可以采用本领域技术人员已知的现有技术,本发明在此不再赘述。
步骤S2、在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户。
具体地,在本发明一实施例中,对于访问类的用户请求一般不是网络安全审计的重点,因此,在本发明中主要针对搜索类的用户请求进行精准过滤。因此,进一步地,步骤S2包括以下子步骤:
步骤S21、判断搜索关键词是否为敏感词,如果搜索关键词是敏感词,则进行到步骤S22,如果搜索关键词不是敏感词,则进行到步骤S25;
步骤S22、判断所述搜索类为搜索引擎类搜索还是社交门户网站类搜索,如果用户的搜索为搜索引擎类搜索,则进行到步骤S23,如果用户的搜索为社交门户网站类搜索,则进行到步骤S24;
步骤S23、提取缓存库中与搜索关键词最接近但不包含敏感内容的页面作为净化后的数据推送给用户;
步骤S24、返回与该社交门户类网站匹配的404页面;
步骤S25、根据搜索关键词,生成搜索结果;
步骤S26、判断搜索结果中是否包含敏感词,如果搜索结果中包含敏感词,则进行到步骤S27,如果搜索结果中不包含敏感词,则进行到步骤S28;
步骤S27、对搜索结果进行逐条过滤删除,将删除敏感内容后的搜索结果推送给用户;
步骤S28、将搜索结果推送给用户。
具体地,在本发明中,对于搜索类用户请求通过域名又细分为搜索引擎类搜索(例如,www.bing.com)和社交门户网站类搜索(例如,www.twitter.com)。针对搜索引擎类的搜索关键词,如果命中敏感词规则,则给用户返回与敏感词相近的但又不包含敏感内容的页面;对于社交门户网站类的搜索关键词,如果命中敏感词规则,直接返回与本站点匹配404页面,其他不包含敏感词区域的内容能正常显示。进一步地,在搜索关键词未命中敏感词规则时,根据搜索关键词,返回搜索结果;针对搜索引擎返回的结果,如果包含敏感词,在推送给用户前以多个维度(敏感账号、敏感词)进行逐条过滤,保留不包含敏感信息的内容展示给用户;针对社交类的访问数据,如果包含敏感词或敏感账号,则进行逐条过滤,防止敏感数据的透传。由此,可以使社交类网页内容在尽可能保留原有风格和数据的情况下,无感知的对网页内容的净化工作。
进一步地,在本发明一实施例中,在用户请求类型为访问类时,判断用户请求是否包含URL或HOST等指定敏感词;在用户请求包含URL或HOST时,返回与站点匹配的404页面。由此,可以提供一种访问类网页净化方案,可以满足很多特殊场合的应用场景。
本发明提供的网页净化方法,通过对用户请求进行识别,对搜索类用户请求进行敏感词匹配;在搜索关键词包含敏感词时,又对搜索类用户请求进行细分,针对搜索引擎类搜索和社交门户网站类搜索进行不同处理,由此,实现对搜索引擎类和社交类网页敏感内容的精准过滤;针对访问类用户请求,针对指定的url进行封堵和审计检测,以实现对访问类网页内容在尽可能保留原有风格和数据的情况下,无感知的对网页内容的净化工作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
实施例二
基于同一发明构思,本实施例公开了一种网页净化系统,如图3所示,所述系统包括:
识别模块10,用于解析原始数据,识别用户请求类型;
第一数据处理模块20,用于在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户。
具体地,在本发明一实施例中,所述第一数据处理模块20包括:
敏感词匹配单元210,用于判断搜索关键词是否为敏感词;
类型匹配单元220,用于在搜索关键词为敏感词时,判断所述搜索类为搜索引擎类搜索还是社交门户网站类搜索;
数据推送单元230,用于在用户的搜索为搜索引擎类搜索时,提取缓存库中与搜索关键词最接近但不包含敏感内容的页面作为净化后的数据推送给用户;在用户的搜索为社交门户网站类搜索时,返回与该社交门户类网站匹配的404页面。
搜索结果匹配单元240,用于在搜索关键词不是敏感词时,根据搜索关键词,生成搜索结果,判断搜索结果中是否包含敏感词;
所述数据推送单元230,还用于在搜索结果中包含敏感词时,对搜索结果进行逐条过滤删除,将删除敏感内容后的搜索结果推送给用户。
进一步地,在本发明一实施例中,还包括第二数据处理模块30,用于在用户请求类型为访问类时,判断用户请求是否包含URL或HOST;在用户请求包含URL或HOST时,返回与站点匹配的404页面。
本发明实施例所述系统的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
上述描述涉及各种模块,需要指出的是,上文对各种模块的描述中,分割成这些模块,是为了说明清楚。然而,在实际实施中,各种模块的界限可以是模糊的。例如,本文中的任意或所有功能性模块可以共享各种硬件和/或软件元件。又例如,本文中的任何和/或所有功能模块可以由共有的处理器执行软件指令来全部或部分实施。另外,由一个或多个处理器执行的各种软件子模块可以在各种软件模块间共享。相应地,除非明确要求,本发明的范围不受各种硬件和/或软件元件间强制性界限的限制。
实施例三
基于同一发明构思,本实施例公开了一种网页净化系统,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述的方法的步骤。
实施例四
基于同一发明构思,本实施例公开了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述的方法的步骤。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种网页净化方法,其特征在于,所述方法包括:
解析原始数据,识别用户请求类型;
在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户。
2.如权利要求1所述的方法,其特征在于,在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户,包括:
判断搜索关键词是否为敏感词;
在搜索关键词为敏感词时,判断所述搜索类为搜索引擎类搜索还是社交门户网站类搜索;
在用户的搜索为搜索引擎类搜索时,提取缓存库中与搜索关键词最接近但不包含敏感内容的页面作为净化后的数据推送给用户;
在用户的搜索为社交门户网站类搜索时,返回与该社交门户类网站匹配的404页面。
3.如权利要求2所述的方法,其特征在于,还包括:
在搜索关键词不是敏感词时,根据搜索关键词,生成搜索结果,判断搜索结果中是否包含敏感词;
在搜索结果中包含敏感词时,对搜索结果进行逐条过滤删除,将删除敏感内容后的搜索结果推送给用户。
4.如权利要求1所述的方法,其特征在于,还包括:
在用户请求类型为访问类时,判断用户请求是否包含URL或HOST;
在用户请求包含URL或HOST时,返回与站点匹配的404页面。
5.一种网页净化系统,其特征在于,所述系统包括:
识别模块,用于解析原始数据,识别用户请求类型;
第一数据处理模块,用于在用户请求类型为搜索类时,对用户的搜索关键词进行敏感词匹配,并根据匹配结果,返回净化后的数据推送给用户。
6.如权利要求5所述的系统,其特征在于,所述第一数据处理模块包括:
敏感词匹配单元,用于判断搜索关键词是否为敏感词;
类型匹配单元,用于在搜索关键词为敏感词时,判断所述搜索类为搜索引擎类搜索还是社交门户网站类搜索;
数据推送单元,用于在用户的搜索为搜索引擎类搜索时,提取缓存库中与搜索关键词最接近但不包含敏感内容的页面作为净化后的数据推送给用户;在用户的搜索为社交门户网站类搜索时,返回与该社交门户类网站匹配的404页面。
7.如权利要求6所述的系统,其特征在于,所述第一数据处理模块还包括:
搜索结果匹配单元,用于在搜索关键词不是敏感词时,根据搜索关键词,生成搜索结果,判断搜索结果中是否包含敏感词;
所述数据推送单元,还用于在搜索结果中包含敏感词时,对搜索结果进行逐条过滤删除,将删除敏感内容后的搜索结果推送给用户。
8.如权利要求5所述的系统,其特征在于,还包括:
第二数据处理模块,用于在用户请求类型为访问类时,判断用户请求是否包含URL或HOST;在用户请求包含URL或HOST时,返回与站点匹配的404页面。
9.一种网页净化系统,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法的步骤。
CN201911313631.8A 2019-12-18 2019-12-18 网页净化方法、系统及计算机可读存储介质 Pending CN111177518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911313631.8A CN111177518A (zh) 2019-12-18 2019-12-18 网页净化方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911313631.8A CN111177518A (zh) 2019-12-18 2019-12-18 网页净化方法、系统及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111177518A true CN111177518A (zh) 2020-05-19

Family

ID=70646387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911313631.8A Pending CN111177518A (zh) 2019-12-18 2019-12-18 网页净化方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111177518A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592523A (zh) * 2021-06-03 2021-11-02 山东大学 一种金融数据处理系统及方法
CN117235247A (zh) * 2023-11-13 2023-12-15 深圳市微克科技有限公司 一种基于智能穿戴设备的小说阅读方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964000A (zh) * 2010-11-09 2011-02-02 焦点科技股份有限公司 一种敏感词自动过滤管理系统
CN103198066A (zh) * 2012-01-06 2013-07-10 腾讯科技(深圳)有限公司 一种基于词表的信息搜索方法及搜索系统
CN105740288A (zh) * 2014-12-11 2016-07-06 北京奇虎科技有限公司 商品信息搜索方法及网络侧设备
CN107169092A (zh) * 2017-05-12 2017-09-15 暴风体育(北京)有限责任公司 交互过程中智能识别并处理敏感内容的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964000A (zh) * 2010-11-09 2011-02-02 焦点科技股份有限公司 一种敏感词自动过滤管理系统
CN103198066A (zh) * 2012-01-06 2013-07-10 腾讯科技(深圳)有限公司 一种基于词表的信息搜索方法及搜索系统
CN105740288A (zh) * 2014-12-11 2016-07-06 北京奇虎科技有限公司 商品信息搜索方法及网络侧设备
CN107169092A (zh) * 2017-05-12 2017-09-15 暴风体育(北京)有限责任公司 交互过程中智能识别并处理敏感内容的方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592523A (zh) * 2021-06-03 2021-11-02 山东大学 一种金融数据处理系统及方法
CN113592523B (zh) * 2021-06-03 2024-03-26 山东大学 一种金融数据处理系统及方法
CN117235247A (zh) * 2023-11-13 2023-12-15 深圳市微克科技有限公司 一种基于智能穿戴设备的小说阅读方法、系统及介质

Similar Documents

Publication Publication Date Title
US7447684B2 (en) Determining searchable criteria of network resources based on a commonality of content
CN108572990B (zh) 信息推送方法和装置
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
JP5616444B2 (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
WO2005109178A2 (en) Extracting information from web pages
US9454535B2 (en) Topical mapping
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
US20130117716A1 (en) Function Extension for Browsers or Documents
CN107330079B (zh) 基于人工智能呈现辟谣信息的方法和装置
CN111177518A (zh) 网页净化方法、系统及计算机可读存储介质
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
JP5070124B2 (ja) フィルタリング装置、およびフィルタリング方法
CN114443928B (zh) 一种网络文本数据爬虫方法与系统
US10235459B1 (en) Creating entries in at least one of a personal cache and a personal index
CN101231655A (zh) 用于处理搜索引擎结果的方法和系统
CN107784054B (zh) 一种页面发布方法和装置
CN113722572B (zh) 一种分布式深度爬取的方法、装置及介质
US20130311449A1 (en) Identifying Referred Documents Based on a Search Result
CN113868373A (zh) 一种词云生成方法、装置、电子设备及存储介质
CN110825976A (zh) 网站页面的检测方法、装置、电子设备及介质
US20130091166A1 (en) Method and apparatus for indexing information using an extended lexicon
US20190056913A1 (en) Information density of documents
US20120030564A1 (en) Domain-Specific Spell Check Overlays
US20110022591A1 (en) Pre-computed ranking using proximity terms
WO2011134020A1 (en) Determining a geographical location relevant to a digital content object

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519

RJ01 Rejection of invention patent application after publication