CN102624703B - 统一资源定位符url的过滤方法及装置 - Google Patents

统一资源定位符url的过滤方法及装置 Download PDF

Info

Publication number
CN102624703B
CN102624703B CN201210022574.XA CN201210022574A CN102624703B CN 102624703 B CN102624703 B CN 102624703B CN 201210022574 A CN201210022574 A CN 201210022574A CN 102624703 B CN102624703 B CN 102624703B
Authority
CN
China
Prior art keywords
url
classification
web page
page contents
connection request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210022574.XA
Other languages
English (en)
Other versions
CN102624703A (zh
Inventor
蒋武
薛智慧
李世光
万时光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN201210022574.XA priority Critical patent/CN102624703B/zh
Publication of CN102624703A publication Critical patent/CN102624703A/zh
Priority to PCT/CN2012/081548 priority patent/WO2013097494A1/zh
Priority to US14/307,014 priority patent/US9331981B2/en
Application granted granted Critical
Publication of CN102624703B publication Critical patent/CN102624703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0245Filtering by information in the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Abstract

本发明公开了一种统一资源定位符URL的过滤方法及装置,该方法能够从预存的类别信息表中查找到URL连接请求对应的第一类别,并将第一类别符合预设的URL通行策略的URL连接请求放行,转发至相应的服务器,并根据所述服务器返回的网页内容确定所述URL对应的第二类别,再判断第二类别是否符合预设的URL通行策略,若第二类别符合所述预设的URL通行策略,将所述网页内容发往客户端;否则,阻断所述网页内容。通过本发明公开的URL过滤方法和装置,能够实时确定URL所属分类,保证在分类更新不及时的情况下,依然能够对放行的,但实际上应该阻断的URL连接请求及时阻断,实现准确分类过滤的功能。

Description

统一资源定位符URL的过滤方法及装置
本申请要求于2011年12月31日提交中国专利局、申请号为201110459686.7、发明名称为“统一资源定位符URL的过滤方法、装置及网关”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及数据通信领域,更具体的说,是涉及统一资源定位符URL的过滤方法及装置。
背景技术
URL(Uniform Resource Locator统一资源定位符)过滤技术现已广泛的应用到通信领域中,成为应用内容安全领域中一种成熟的技术。该技术能够基于网页所属类别的不同,根据用户的需要过滤掉设定类别的网页,例如过滤掉新闻类的网页。
具备URL过滤功能的安全设备在检测到有连接请求时,根据此连接请求要求连接的URL,通过远程查询分类服务器来获取此URL所属的类别,然后缓存在本地存储器中。现有技术中,如果已获取一个URL所属的类别,当用户在缓存的老化时间内再次访问所述URL时,就可以根据缓存的所述URL所属的类别直接执行过滤工作;而在缓存超过老化时间后,则需要再次进行远程查询以获得所述URL所属的类别。
然而在实际情况中,很多网页包含的内容是动态的,也就是说,请求访问的网页在不同的时间段内,其具体内容、所属的类别可能都是不同的,而此时如果分类服务器没有及时发现网页内容的变化,或分类服务器已经更新,但安全设备中缓存的URL所属的类别还处于老化时间内,就使得URL所属的类别不能够得到及时的更新,这种情况下,一些原本应该被过滤掉的一些URL连接请求很可能就会被放行,使得URL分类识别不准确,进而无法准确实现过滤功能。
发明内容
有鉴于此,本发明实施例提供了一种统一资源定位符URL的过滤方法及装置,以克服现有技术中由于分类服务器可能不能及时更新而导致的无法准确过滤URL的问题。
为实现上述目的,本发明提供如下技术方案:
一种统一资源定位符URL的过滤方法,包括:
接收客户端发起的URL连接请求;
从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
判断所述第一类别是否符合预设的URL通行策略,所述URL通行策略中包含允许通过的网页类别;
若符合,则将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;若第二类别符合所述预设的URL通行策略,将所述网页内容发往所述客户端;否则,阻断所述网页内容。
一种统一资源定位符URL的过滤装置,包括:
请求接收模块,用于接收客户端发起的URL连接请求;
第一类别获取模块,用于从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
通行判断模块,用于判断所述第一类别是否符合预设的URL通行策略,所述URL通行策略中包含允许通过的网页类别;
请求发送模块,用于在所述通行判断模块的判断结果为是时,将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
类别判断模块,用于根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;
内容返回模块,用于在所述类别判断模块的判断结果为是时,将所述网页内容发往客户端;
阻断模块,用于在所述类别判断模块的判断结果为否时,阻断所述网页内容。
本发明实施例公开了一种URL的过滤方法和装置,该方法能够从预存的类别信息表中查找到URL连接请求中携带的URL对应的第一类别,在所述URL连接请求符合预设的URL通行策略的情况下将所述URL连接请求转发至相应的服务器,并根据所述服务器返回的网页内容确定所述URL对应的第二类别,再判断第二类别是否符合预设的URL通行策略,如果第二类别符合所述预设的URL通行策略,将所述网页内容发往所述客户端;否则,阻断所述网页内容。上述URL过滤方法和装置,能够实时确定URL所属的类别,保证在网页内容发生变化或类别更新不及时的情况下,依然能够对放行的,但实际上应该阻断的URL连接请求及时阻断,实现准确分类过滤的功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的URL第一过滤方法流程图;
图2为本发明实施例公开的确定网页内容第二类别的流程图;
图3a为本发明实施例公开的URL第二过滤方法流程图;
图3b为本发明实施例公开的URL第三过滤方法流程图;
图4为本发明实施例公开的URL过滤装置的结构示意图;
图5为本发明实施例公开的第一类别获取模块的结构示意图;
图6为本发明实施例公开的类别判断模块的结构示意图;
图7为本发明实施例公开的第二种URL过滤装置的结构示意图;
图8为本发明实施例公开的第三种URL过滤装置的结构示意图;
图9为本发明实施例公开的网关结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例公开的URL第一过滤方法流程图,参见图1所示,所述URL过滤方法可以包括:
步骤101:接收客户端发起的URL连接请求;
步骤102:从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
可选地,所述预存的类别信息表可以是本地缓存的或远程分类服务器上预存的,当然,用户也可以将已经存在的所有URL对应的类别信息存储在本地,周期性的对其进行更新,在一定程度下满足URL连接请求过滤工作的需要;
预存的类别信息表的形式可以有多种,例如,可以采用记录表的形式,也可以采用文件的形式,当然,存储形式也并不仅仅局限于上述两种,只要是能够指示URL与网页类别对应关系的形式,就都可以被采用;
当然,如果本地缓存的类别信息表中没有所述URL连接请求中携带的URL对应的类别信息,或之前缓存的类别信息已过了老化时间,那么就需要从远程分类服务器获取预存的类别信息表缓存至本地,然后根据所述类别信息表中URL与网页类别的对应关系,查找出所述URL连接请求中携带的URL对应的第一类别;
步骤103:判断所述第一类别是否符合预设的URL通行策略,所述URL通行策略中包含允许通过的网页类别,如果是,进入步骤104;
所述URL通行策略规定了不被过滤的URL符合URL通行策略,被过滤出的URL不符合URL通行策略;在所述第一类别符合预设的URL通行策略时,进入步骤104执行相应的步骤,在所述第一类别不符合预设的URL通行策略时,阻断所述URL连接请求;
步骤104:将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
在所述URL连接请求所要求连接的URL所属的分类符合用户设定的通行策略时,相关装置就会将这个URL连接请求发送至对应的URL,URL在接收到这个连接请求时,就将所述连接请求要求访问的网页内容返回给相关装置;
步骤105:根据所述网页内容,确定所述URL对应的第二类别;
可选地,确定URL第二类别的具体方法流程可参见图2,图2为本发明实施例公开的确定网页内容第二类别的流程图,如图所示,确定网页内容第二类别的步骤具体可以包括:
步骤201:对所述网页内容进行解码,提取出所述网页内容的识别关键词;
这里提取出的识别关键词例如:明星、微博、短信等,当然也可以是一些敏感字符段,如非典型肺炎、美国总统等等;
步骤202:根据本地词库列表中存储的识别关键词与网页类别的对应关系,确定所述URL对应的第二类别为提取到的识别关键词对应的网页类别;
本地词库列表里对相关的一些关键词或敏感字符可以有如下分类:休闲娱乐类别对应的识别关键词包括:背景、qq空间、祝福短信、搞笑短信等;新闻类别对应的识别关键词包括:军事、财经、报道、报纸等;体育类别对应的识别关键词包括:街球、篮球、足球、航海、健美操等。如果步骤301提取出的数据内容中包括“足球”这一关键字,那么所述数据内容对应的URL的网页类别可能就被识别为体育类,而所述URL过滤方法的执行主体又规定体育类的URL是不允许访问的,那么包括所述数据内容的网页内容就会被阻断;
当然,根据网页内容来确定URL第二类别的方法不局限于上述流程,例如,从网页内容中提取语义关系,与预先存储的语义库中的语义关系模板进行匹配,将匹配中的语义关系模板对应的网页类别作为第二类别,也可以实现根据网页内容确定第二类别的目的。在这里不再一一列举根据网页内容确定第二类别的具体方式,只要是能够根据网页内容确定URL第二类别的方法,都应属于本发明的保护范围;
步骤106:判断所述第二类别是否符合所述预设的URL通行策略,如果是,进入步骤107,如果否,进入步骤108;
步骤107:将所述网页内容发往所述客户端;
在步骤106判断出的第二类别属于用户设定的通行策略中被允许通过的网页类别时,返回的网页内容即被返回客户端,为客户端正常提供服务;
步骤108:阻断所述网页内容;
在步骤106判断出的第二类别不属于用户设定的通行策略中被允许通过的网页类别时,就会直接被禁止通行,无法连接到对应的URL上,相关返回的网页内容就会被阻断。
本实施例中,所述方法能够从预存的类别信息表中查找到URL连接请求中携带的URL对应的第一类别,并将第一类别符合预设的URL通行策略的URL连接请求放行,转发至相应的服务器,并根据所述服务器返回的网页内容确定所述URL对应的第二类别,再判断第二类别是否符合预设的URL通行策略,若第二类别符合所述预设的URL通行策略,将所述网页内容发往客户端;否则,阻断所述网页内容。通过本发明公开的URL过滤方法,能够实时确定URL所属分类,保证在网页内容经常变化、或分类更新不及时的情况下,依然能够对放行的,但实际上应该阻断的URL连接请求及时阻断,实现准确分类过滤的功能,提高了URL过滤的准确性。
实施例二
图3a为本发明实施例公开的URL第二过滤方法流程图,参见图3a所示,所述URL过滤方法可以包括:
步骤301:接收客户端发起的URL连接请求;
步骤302:从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
步骤303:判断所述第一类别是否符合预设的URL通行策略,如果是,进入步骤306,如果否,进入步骤304;
步骤304:阻断所述URL连接请求,进入步骤305;
步骤305:从已阻断的URL连接请求中,过滤得到其中带有预设标识的URL连接请求,进入步骤306;
因为在实际情况中,一些网页的内容是动态变化的,为了避免同一个URL在某个时间前所属的类别不符合URL通行策略,而某个时间后实际所属的类别符合URL通行策略,且所述URL的分类又没有得到及时的更新,这样使得原本应被允许通过的URL连接请求被阻断的情况发生,用户可以采用本步骤所述的方法,所述预设标识可以为特定的关键词,也可以为某一个固定的连接地址、或者用户名等等;
步骤306:将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
步骤307:根据所述网页内容,确定所述URL对应的第二类别;
步骤308:判断所述第二类别是否符合预设的URL通行策略,如果是,进入步骤309,如果否,进入步骤310;
步骤309:将所述网页内容发往客户端,进入步骤311;
步骤310:阻断所述网页内容;
步骤311:将所述预存的类别信息表中所述URL连接请求中携带的URL对应的网页类别,更新为所述第二类别。
可选地,附图3a所示的流程也可以进行如下调整:将步骤305与步骤304的顺序互换,即在阻断一个URL连接请求之前,先判断所述URL连接请求中是否携带有预设标识,若时,再将该URL连接请求阻断,否则允许该URL连接请求通过,即将批处理的方式调整为实时处理,具体请参照附图3b所示:
步骤321,接收客户端发起的URL连接请求;
步骤322:从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
步骤323:判断所述第一类别是否符合预设的URL通行策略,如果是,进入步骤326,如果否,进入步骤324;
步骤324,判断所述URL连接请求中是否携带有预设标识,若是进入步骤326,否则,进入步骤325;
步骤325,阻断所述URL连接请求;
步骤326:将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
步骤327:根据所述网页内容,确定所述URL对应的第二类别;
步骤328:判断所述第二类别是否符合预设的URL通行策略,如果是,进入步骤329,如果否,进入步骤330;
步骤329:将所述网页内容发往客户端,进入步骤331;
步骤330:阻断所述网页内容;
步骤331:将所述预存的类别信息表中所述URL连接请求中携带的URL对应的网页类别,更新为所述第二类别。
在通过本实施例公开的方法判断出返回的网页内容的第二类别符合预设的URL通行策略时,即可知本地缓存的或远程获取的分类服务器上的相关URL第一类别是不准确的,可以将本地缓存的URL对应的第一类别更新为根据网页内容判断出的第二类别,或给远程分类服务器发送URL分类变更请求,以使分类服务器能够根据所述URL分类变更请求做出相关后续动作。
本实施例中,所述URL过滤方法能够根据预存的URL第一类别判断客户端发起的URL连接请求是否符合预设的URL通行策略,在所述URL连接请求满足所述预设的URL过滤策略的情况下将所述URL连接请求转发至相应的服务器,并根据所述服务器返回的网页内容确定第二类别,并判断第二类别是否符合预设的URL通行策略,如果不符合,就会阻断所述返回的网页内容,且能够避免一些应当被放行,但由于分类更新不及时而被阻断的URL连接请求的情况。通过本发明公开的URL过滤方法,能够实时确定URL所属的分类,保证在分类更新不及时的情况下,依然能够对放行的,但实际上应该阻断的URL连接请求及时阻断,也能够对一些没有放行的,但是实际上应该被放行的URL连接请求及时放行,实现准确分类过滤的功能。
实施例三
图4为本发明实施例公开的URL过滤装置的结构示意图,参见图4所示。所述URL过滤装置40可以包括:
请求接收模块401,用于接收客户端发起的URL连接请求;
第一类别获取模块402,用于从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
所述第一类别获取模块402的具体结构可以参见图5,如图所示,所述连接判断模块402具体可以包括:
信息表获取子模块4021,用于从远程分类服务器获取预存的类别信息表缓存至本地;
如果在本地缓存有URL连接请求对应的URL的类别信息表,那么就可以直接从本地缓存中获取类别信息表;
第一类别确定子模块4022,用于根据所述类别信息表中URL与网页类别的对应关系,查找出所述URL连接请求中携带的URL对应的第一类别;
通行判断模块403,用于判断所述第一类别是否符合预设的URL通行策略,所述URL通行策略中包含允许通过的网页类别;
请求发送模块404,用于在所述通行判断模块403的判断结果为是时,将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
类别判断模块405,用于根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;
所述类别判断模块405具体结构可以参见图6,如图所示,可以包括:
网页解码子模块4051,用于对所述网页内容进行解码,提取出所述网页内容的识别关键词;
第二类别确定子模块4052,用于根据本地词库列表中存储的识别关键词与网页类别的对应关系,确定所述URL对应的第二类别为提取到的识别关键词对应的网页类别;
类别判断子模块4053,用于判断所述第二类别确定子模块4052识别出的第二类别是否符合URL通行策略;
内容返回模块406,用于在所述类别判断模块的判断结果为是时,将所述网页内容发往客户端;
阻断模块407,用于在所述类别判断模块的判断结果为否时,阻断所述网页内容。
需要说明的是,本发明实施例的URL过滤装置,并不仅限于上述一种结构,比如,第一类别获取模块402和通行判断模块403可以为集成于一体的一个独立模块,完成URL连接请求的第一类别获取及判断所述第一类别是否符合预设的通行策略;再如,所述内容返回模块406和阻断模块407可以为一个模块。
在其他的实施例中,URL过滤装置还可以包括分类更新模块,用于在类别判断模块405判断出识别分类不符合所述预设的URL通行策略的情况下,将所述本地缓存的类别信息表中所述URL连接请求中携带的URL对应的网页类别,更新为所述第二类别。
进一步地,参见图7,在其他的实施例中,所述阻断模块407还用于在所述通行判断模块403判断出所述第一类别不符合预设的URL通行策略的情况下,阻断所述URL连接请求;
URL过滤装置还可以包括标识过滤模701,用于从阻断的URL连接请求中,过滤得到带有预设标识的URL连接请求;并触发所述请求发送模块404将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;所述类别判断模块405根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;若识别分类符合所述预设的URL通行策略,所述内容返回模块406将所述网页内容发往所述客户端;否则,所述阻断模块407阻断所述网页内容。
进一步地,参见图8,在其他实施例中,URL过滤装置还可以包括标识判决模块702,用于在通行判断模块403的判断结果为否时,判断所述URL连接请求中是否带有预设标识;若带有预设标识,则触发所述请求发送模块404将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;所述类别判断模块405根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;若识别分类符合所述预设的URL通行策略,所述内容返回模块406将所述网页内容发往所述客户端;否则,触发阻断模块407阻断所述网页内容;
若未带有预设标识,则触发阻断模块407阻断所述URL连接请求。
本实施例中,所述装置能够从预存的类别信息表中查找到URL连接请求对应的第一类别,并将第一类别符合预设的URL通行策略的URL连接请求放行,转发至相应的服务器,并根据所述服务器返回的网页内容确定所述URL对应的第二类别,再判断第二类别是否符合预设的URL通行策略,若第二类别符合所述预设的URL通行策略,将所述网页内容发往客户端;否则,阻断所述网页内容。通过本发明公开的URL过滤装置,能够实时确定URL所属分类,保证在分类更新不及时的情况下,依然能够对放行的,但实际上应该阻断的URL连接请求及时阻断,实现准确分类过滤的功能。
此外,本发明实施例还公开一种网关,如图9所示,该网关90包含本发明实施例公开的URL过滤装置40,首先能够接收客户端发起的URL连接请求;然后根据获取的URL第一类别判断所述URL连接请求是否符合预设的URL通行策略;如果是:将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;再确定所述网页内容的第二类别,判断所述第二类别是否符合预设的URL通行策略;如果是:将所述返回的网页内容发往客户端;如果否:阻断所述返回的网页内容,所述网关能够实时确定URL所属的分类,保证在分类更新不及时的情况下,依然能够对放行的,但实际上应该阻断的URL连接请求及时阻断,实现准确分类过滤的功能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种统一资源定位符URL的过滤方法,其特征在于,包括:
接收客户端发起的URL连接请求;
从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
判断所述第一类别是否符合预设的URL通行策略,所述URL通行策略中包含允许通过的网页类别;
若所述第一类别符合所述预设的URL通行策略,执行:
将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;若第二类别符合所述预设的URL通行策略,将所述网页内容发往所述客户端;否则,阻断所述网页内容;
若所述第一类别不符合所述预设的URL通行策略,执行:
阻断所述URL连接请求;从阻断的URL连接请求中,过滤得到带有预设标识的URL连接请求,将过滤得到的URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;根据返回的网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;若所述第二类别符合所述预设的URL通行策略,将所述网页内容发往所述客户端;否则,阻断所述网页内容。
2.根据权利要求1所述的方法,其特征在于,所述根据所述网页内容,确定所述URL对应的第二类别,包括:
对所述网页内容进行解码,提取出所述网页内容的识别关键词;
根据本地词库列表中存储的识别关键词与网页类别的对应关系,确定所述URL对应的第二类别为提取到的识别关键词对应的网页类别。
3.根据权利要求1所述的方法,其特征在于,所述从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别,包括:
从远程分类服务器获取预存的类别信息表缓存至本地;
根据所述类别信息表中URL与网页类别的对应关系,查找出所述URL连接请求中携带的URL对应的第一类别。
4.根据权利要求1所述的方法,其特征在于,所述确定所述URL对应的第二类别之后,还包括:
将所述预存的类别信息表中所述URL连接请求中携带的URL对应的网
页类别,更新为所述第二类别。
5.一种统一资源定位符URL的过滤方法,其特征在于,包括:
接收客户端发起的URL连接请求;
从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
判断所述第一类别是否符合预设的URL通行策略,所述URL通行策略中包含允许通过的网页类别;
若所述第一类别符合所述预设的URL通行策略,执行:
将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;若第二类别符合所述预设的URL通行策略,将所述网页内容发往所述客户端;否则,阻断所述网页内容;
若所述第一类别不符合预设的URL通行策略,执行:
判断所述URL连接请求中是否带有预设标识;若带有预设标识,则将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;若所述第二类别符合所述预设的URL通行策略,将所述网页内容发往所述客户端;否则,阻断所述网页内容;若未带有预设标识,则阻断所述URL连接请求。
6.一种统一资源定位符URL的过滤装置,其特征在于,包括:
请求接收模块,用于接收客户端发起的URL连接请求;
第一类别获取模块,用于从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
通行判断模块,用于判断所述第一类别是否符合预设的URL通行策略,所述URL通行策略中包含允许通过的网页类别;
请求发送模块,用于在所述通行判断模块的判断结果为是时,将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
类别判断模块,用于根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;
内容返回模块,用于在所述类别判断模块的判断结果为是时,将所述网页内容发往客户端;
阻断模块,用于在所述类别判断模块的判断结果为否时,阻断所述网页内容;
所述阻断模块还用于:
在所述通行判断模块判断出所述第一类别不符合预设的URL通行策略的情况下,阻断所述URL连接请求;
还包括:
标识过滤模块,用于从阻断的URL连接请求中,过滤得到带有预设标识的URL连接请求;
对于过滤得到的每个URL连接请求,所述请求发送模块将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
所述类别判断模块根据返回的网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;
若所述第二类别符合所述预设的URL通行策略,所述内容返回模块将所述网页内容发往所述客户端;否则,所述阻断模块阻断所述网页内容。
7.根据权利要求6所述的装置,其特征在于,所述类别判断模块包括:
网页解码子模块,用于对所述网页内容进行解码,提取出所述网页内容的识别关键词;
第二类别确定子模块,用于根据本地词库列表中存储的识别关键词与网页类别的对应关系,确定所述URL对应的第二类别为提取到的识别关键词对应的网页类别;
类别判断子模块,用于判断所述第二类别确定子模块识别出的第二类别是否符合URL通行策略。
8.根据权利要求6所述的装置,其特征在于,所述第一类别获取模块具体包括:
信息表获取子模块,用于从远程分类服务器获取预存的类别信息表缓存至本地;
第一类别确定子模块,用于根据所述类别信息表中URL与网页类别的对应关系,查找出所述URL连接请求中携带的URL对应的第一类别。
9.根据权利要求6所述的装置,其特征在于,还包括:
分类更新模块,用于在类别判断模块确定所述URL对应的所述第二类别后,将所述预存的类别信息表中所述URL连接请求中携带的URL对应的网页类别,更新为所述第二类别。
10.一种统一资源定位符URL的过滤装置,其特征在于,包括:
请求接收模块,用于接收客户端发起的URL连接请求;
第一类别获取模块,用于从预存的类别信息表中的每个URL对应的网页类别中,查找到所述URL连接请求中携带的URL对应的第一类别;
通行判断模块,用于判断所述第一类别是否符合预设的URL通行策略,所述URL通行策略中包含允许通过的网页类别;
请求发送模块,用于在所述通行判断模块的判断结果为是时,将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;
类别判断模块,用于根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;
内容返回模块,用于在所述类别判断模块的判断结果为是时,将所述网页内容发往客户端;
阻断模块,用于在所述类别判断模块的判断结果为否时,阻断所述网页内容;
标识判决模块,用于在通行判断模块的判断结果为否时,判断所述URL连接请求中是否带有预设标识;若带有预设标识,则触发所述请求发送模块将所述URL连接请求发往与其对应的服务器,并接收所述服务器返回的网页内容;所述类别判断模块根据所述网页内容,确定所述URL对应的第二类别,判断所述第二类别是否符合所述预设的URL通行策略;若所述第二类别符合所述预设的URL通行策略,所述内容返回模块将所述网页内容发往所述客户端;否则,触发阻断模块阻断所述网页内容;
若未带有预设标识,则触发阻断模块阻断所述URL连接请求。
CN201210022574.XA 2011-12-31 2012-02-01 统一资源定位符url的过滤方法及装置 Active CN102624703B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210022574.XA CN102624703B (zh) 2011-12-31 2012-02-01 统一资源定位符url的过滤方法及装置
PCT/CN2012/081548 WO2013097494A1 (zh) 2011-12-31 2012-09-18 统一资源定位符url的过滤方法及装置
US14/307,014 US9331981B2 (en) 2011-12-31 2014-06-17 Method and apparatus for filtering URL

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110459686 2011-12-31
CN201110459686.7 2011-12-31
CN201210022574.XA CN102624703B (zh) 2011-12-31 2012-02-01 统一资源定位符url的过滤方法及装置

Publications (2)

Publication Number Publication Date
CN102624703A CN102624703A (zh) 2012-08-01
CN102624703B true CN102624703B (zh) 2015-01-21

Family

ID=46564388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210022574.XA Active CN102624703B (zh) 2011-12-31 2012-02-01 统一资源定位符url的过滤方法及装置

Country Status (3)

Country Link
US (1) US9331981B2 (zh)
CN (1) CN102624703B (zh)
WO (1) WO2013097494A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624703B (zh) 2011-12-31 2015-01-21 华为数字技术(成都)有限公司 统一资源定位符url的过滤方法及装置
CN102760162A (zh) * 2012-06-11 2012-10-31 北京搜狗信息服务有限公司 展现和获取下载链接的方法及装置
CN102819591B (zh) * 2012-08-07 2016-04-06 北京网康科技有限公司 一种基于内容的网页分类方法及系统
CN102999590B (zh) * 2012-11-16 2015-07-29 北京奇虎科技有限公司 识别官方网站的方法和系统
CN103198091B (zh) * 2012-12-04 2016-12-21 网易(杭州)网络有限公司 一种基于用户行为的在线数据请求的处理方法和设备
US9332291B1 (en) 2012-12-27 2016-05-03 Google Inc. Enforcing publisher content item block requests
CN104079528A (zh) * 2013-03-26 2014-10-01 北大方正集团有限公司 一种Web应用的安全防护方法及系统
CN103366019B (zh) * 2013-08-06 2016-09-28 飞天诚信科技股份有限公司 一种基于iOS设备的网页拦截方法和设备
KR20150078130A (ko) * 2013-12-30 2015-07-08 삼성전자주식회사 콘텐츠 차단 방법 및 시스템
CN103995773B (zh) * 2014-02-28 2019-11-22 上海斐讯数据通信技术有限公司 一种url过滤功能的自动测试方法
CN105591997B (zh) * 2014-10-20 2019-04-09 杭州迪普科技股份有限公司 一种url分类过滤方法及装置
US10021102B2 (en) 2014-10-31 2018-07-10 Aruba Networks, Inc. Leak-proof classification for an application session
DE102015007876A1 (de) 2015-06-22 2017-01-05 Eblocker Gmbh Netzwerkkontrollgerät
CN105704120B (zh) * 2016-01-05 2019-03-19 中云网安科技(北京)有限公司 一种基于自学习形式的安全访问网络的方法
US10034263B2 (en) 2016-06-30 2018-07-24 Hewlett Packard Enterprise Development Lp Determining scale for received signal strength indicators and coordinate information
CN108122090A (zh) * 2016-11-30 2018-06-05 北京国双科技有限公司 一种办公信息处理方法及服务器
CN109726347A (zh) * 2018-12-29 2019-05-07 杭州迪普科技股份有限公司 网络请求自动分类方法及相关设备
CN110311983B (zh) * 2019-07-09 2021-04-06 北京字节跳动网络技术有限公司 服务请求的处理方法、装置、系统、电子设备及存储介质
CN112861031B (zh) * 2019-11-27 2024-04-02 北京金山云网络技术有限公司 Cdn中url刷新方法、装置、设备以及cdn节点
US11595352B2 (en) * 2020-12-21 2023-02-28 Microsoft Technology Licensing, Llc Performing transport layer security (TLS) termination using categories of web categorization
CN114244654B (zh) * 2021-12-20 2023-09-26 中国平安财产保险股份有限公司 一种url的转发方法、装置、设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN101261644A (zh) * 2008-04-30 2008-09-10 杭州华三通信技术有限公司 访问统一资源定位符数据库的方法及装置
CN102077201A (zh) * 2008-06-30 2011-05-25 网圣公司 用于网页的动态及实时归类的系统及方法
CN102137121A (zh) * 2011-05-09 2011-07-27 北京艾普优计算机系统有限公司 数据处理方法、装置和系统
CN102185859A (zh) * 2011-05-09 2011-09-14 北京艾普优计算机系统有限公司 计算机系统和数据交互方法
CN102271331A (zh) * 2010-06-02 2011-12-07 中国移动通信集团广东有限公司 一种检测业务提供商sp站点可靠性的方法及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266664B1 (en) * 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
US6065055A (en) * 1998-04-20 2000-05-16 Hughes; Patrick Alan Inappropriate site management software
US6772214B1 (en) * 2000-04-27 2004-08-03 Novell, Inc. System and method for filtering of web-based content stored on a proxy cache server
US20030014659A1 (en) * 2001-07-16 2003-01-16 Koninklijke Philips Electronics N.V. Personalized filter for Web browsing
US20030163731A1 (en) * 2002-02-28 2003-08-28 David Wigley Method, system and software product for restricting access to network accessible digital information
US20040107177A1 (en) * 2002-06-17 2004-06-03 Covill Bruce Elliott Automated content filter and URL translation for dynamically generated web documents
US7383248B2 (en) * 2002-12-12 2008-06-03 Jay Chieh Chen Hyperlink park and search
US20080209057A1 (en) * 2006-09-28 2008-08-28 Paul Martini System and Method for Improved Internet Content Filtering
CN101350810A (zh) 2007-07-20 2009-01-21 莱克斯信息技术(北京)有限公司 基于认证用户组的url过滤
CN101163161B (zh) * 2007-11-07 2012-02-29 福建星网锐捷网络有限公司 统一资源定位器地址过滤方法及中间传输设备
US20100318681A1 (en) * 2009-06-12 2010-12-16 Barracuda Networks, Inc Protocol-independent, mobile, web filter system provisioning dns triage, uri scanner, and query proxy services
US20110289434A1 (en) * 2010-05-20 2011-11-24 Barracuda Networks, Inc. Certified URL checking, caching, and categorization service
US8732857B2 (en) * 2010-12-23 2014-05-20 Sosvia, Inc. Client-side access control of electronic content
CN102073722A (zh) 2011-01-11 2011-05-25 吕晓东 Url云发布系统
US20130091580A1 (en) * 2011-10-11 2013-04-11 Mcafee, Inc. Detect and Prevent Illegal Consumption of Content on the Internet
CN102624703B (zh) * 2011-12-31 2015-01-21 华为数字技术(成都)有限公司 统一资源定位符url的过滤方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN101261644A (zh) * 2008-04-30 2008-09-10 杭州华三通信技术有限公司 访问统一资源定位符数据库的方法及装置
CN102077201A (zh) * 2008-06-30 2011-05-25 网圣公司 用于网页的动态及实时归类的系统及方法
CN102271331A (zh) * 2010-06-02 2011-12-07 中国移动通信集团广东有限公司 一种检测业务提供商sp站点可靠性的方法及系统
CN102137121A (zh) * 2011-05-09 2011-07-27 北京艾普优计算机系统有限公司 数据处理方法、装置和系统
CN102185859A (zh) * 2011-05-09 2011-09-14 北京艾普优计算机系统有限公司 计算机系统和数据交互方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于URL过滤与内容过滤的网络净化模型;李石君等;《计算机技术与发展》;20060131;第16卷(第1期);第一栏第2段至第四栏倒数第二段 *

Also Published As

Publication number Publication date
WO2013097494A1 (zh) 2013-07-04
US20140298445A1 (en) 2014-10-02
US9331981B2 (en) 2016-05-03
CN102624703A (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN102624703B (zh) 统一资源定位符url的过滤方法及装置
CN101035128B (zh) 基于中文标点符号的三重网页文本内容识别及过滤方法
US8095547B2 (en) Method and apparatus for detecting spam user created content
CN107204960B (zh) 网页识别方法及装置、服务器
WO2007071143A1 (fr) Procédé et appareil destinés à émettre des informations réseau
CN102682091A (zh) 基于云服务的视觉搜索方法和系统
CN103279516B (zh) 网络爬虫识别方法
CN106021510A (zh) 对于由移动设备的用户启动的查询进行处理的方法和系统
US20180025012A1 (en) Web page classification based on noise removal
CN102279875A (zh) 钓鱼网站的识别方法和装置
CN102622553A (zh) 检测网页安全的方法及装置
CN103268328B (zh) 二维码的验证方法及搜索引擎服务器
CN107908695A (zh) 业务系统运行方法、装置、系统及可读存储介质
US8954429B2 (en) Methods, systems, and computer program products for integrated world wide web query classification
WO2017114282A1 (zh) 信息搜索装置及方法、搜索服务器及机器可读存储介质
US20130179421A1 (en) System and Method for Collecting URL Information Using Retrieval Service of Social Network Service
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN103020208B (zh) 一种与移动终端相适应的搜索方法及装置
CN104657474A (zh) 一种广告展示方法、广告查询服务器及客户端
US10924474B2 (en) User security authentication system in internet and method thereof
CN108112026B (zh) WiFi识别方法及装置
CN108664493B (zh) 统计url是否有效的方法、装置、电子设备和存储介质
CN101014021B (zh) 一种在即时通信客户端中查找用户的方法、系统及客户端
WO2014164247A2 (en) System and method to allow a domain name server to process a natural language query and determine context
CN104462257B (zh) 一种校验中间页信息的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Applicant after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Applicant before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHENGDU HUAWEI SYMANTEC TECHNOLOGY CO., LTD. TO: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220804

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 611731 Qingshui River District, Chengdu hi tech Zone, Sichuan, China

Patentee before: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

TR01 Transfer of patent right