CN105938475A - 关键词过滤方法及装置 - Google Patents
关键词过滤方法及装置 Download PDFInfo
- Publication number
- CN105938475A CN105938475A CN201511006238.6A CN201511006238A CN105938475A CN 105938475 A CN105938475 A CN 105938475A CN 201511006238 A CN201511006238 A CN 201511006238A CN 105938475 A CN105938475 A CN 105938475A
- Authority
- CN
- China
- Prior art keywords
- key word
- array
- response message
- crucial phrase
- coupling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供一种关键词过滤方法及装置,应用于网络安全设备上,该方法包括:根据预存储的关键词,对来自外网的响应报文进行匹配;当所述响应报文与预设的至少一个关键词组中的全部关键词都匹配时,生成对应于相匹配的所述关键词组的日志。本申请提供的方法及装置大大减少了日志的数量,提高了网络安全设备的运行效率;而且减轻了日志量庞大给日志管理平台所造成的压力;此外重复的日志大大减少,有利于日志管理平台进行分析处理。
Description
技术领域
本申请涉及网络安全技术领域,具体涉及一种关键词过滤方法及装置。
背景技术
互联网为人们获取知识提供了重要途径,同时互联网中也充斥着大量反动、违法等不健康的信息,对人们造成了毒害和干扰,影响着人们的身心健康。因而纯净、安全、健康的上网环境对人们特别是对于青少年尤为重要。
现有技术中提供了对网页内容的关键词进行过滤的一些方案。例如,网络安全设备对来自外网的报文中的关键词进行匹配,当匹配到关键词时,屏蔽该报文对应的网页,并基于该关键词生成日志发送给日志管理平台。
现有技术中,对于每一个报文中的每一种关键词,网络安全设备都会生成一条日志,从而日志管理平台会接收到大量的而且重复的日志,这使得网络安全设备和日志管理平台的负担都比较重,运行效率都比较低。
发明内容
有鉴于此,本申请提供一种关键词匹配过滤方法,应用于连接内网和外网的网络安全设备上,包括:
根据预存储的关键词,对来自外网的响应报文进行匹配;
当所述响应报文与预设的关键词组中的全部关键词都匹配时,生成对应于相匹配的所述关键词组的日志。
本申请还提供一种关键词过滤装置,应用于连接内网和外网的网络安全设备上,包括:
匹配模块,用于根据预存储的关键词,对来自外网的响应报文进行匹配;
日志生成模块,用于当所述响应报文与预设的关键词组中的全部关键词都匹配时,生成对应于相匹配的所述关键词组的日志。
本发明实施例提供的关键词过滤方法及装置,基于关键词对响应报文进行匹配,仅在响应报文命中预先设置的关键词组中的全部关键词时,才生成对应于该关键词组的日志,与现有技术中对每一种关键词都会生成一条日志相比,大大减少了日志的数量,提高了网络安全设备的运行效率;而且减轻了日志量庞大给日志管理平台所造成的压力;此外重复的日志大大减少,有利于日志管理平台进行分析处理。
附图说明
图1是本申请一个实施例示出的一种关键词过滤方法的流程图;
图2是本申请一个实施例中关键词过滤装置的基础硬件示意图;
图3是本申请一个实施例示出的一种关键词过滤装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在上述关键词过滤的方案中,网络安全设备在某一响应报文中匹配到了任一关键词,都会生成对应的日志发送给日志管理平台,虽然对于同一响应报文中的重复关键词只会生成一条日志,但是当在某一响应报文中匹配到了多种关键词时,会针对每种关键词都分别生成一条日志;由于同一关键词会在不同的响应报文中出现,因而会有很多重复的日志发送给日志管理平台,从而网络安全设备以及日志管理平台的负担都比较重,效率比较低。
针对上述问题,本申请实施例提出一种关键词过滤方法及装置,将多个关键词组成关键词组,来判断响应报文、即网页是否与关键词组相匹配,只有与关键词组相匹配才生成日志,以此减少日志的数量。
参见图1,为本申请一个实施例示出的一种关键词过滤方法的流程图,该方法应用于网络安全设备上,该方法包括以下步骤:
步骤101、接收到来自服务器端的响应报文。
本实施例中,网络安全设备为连接外网与内网的用于对外网发往内网的响应报文进行安全管理的设备,来自内网的PC向外网的服务器端发送访问请求,服务器端基于该访问请求回复对应的响应报文。
步骤102、基于预存储的关键词,对该响应报文进行匹配。
在一个可选的实现方式中,该步骤具体描述如下:
首先,预存储多个关键词,并设置关键词组,其中关键词组由关键词组成。
具体而言,在网络安全设备中,预存储有多个关键词,用于判断所接收到的响应报文中是否含有不健康内容。本实施例中,还设置了关键词组,关键词组可以设置一个或多个,各关键词组可以包含至少两个关键词,优选地,各关键词组里所包含的关键词互不相同。
然后,对应于各关键词组分别设置匹配数组,各匹配数组中的元素至少包括相对应的关键词组所包含的所有关键词的唯一ID,将匹配数组的元素全部置0。
本实施例中,关键词组具有唯一ID,各关键词也具有唯一ID,可选地,关键词ID由关键词组ID及其所位于关键词组中的位置ID组成。
为便于理解,下面举例进行说明。假设设置了两个关键词组,其唯一ID分别为A和B,关键词组A中具有两个关键词,其唯一ID分别为a1和a2,关键词组B中具有三个关键词,其唯一ID分别为b1、b2和b3。对应于关键词组A和B,还分别设置了用于记录各关键词是否匹配成功的匹配数组,该匹配数组的元素至少包括对应于该关键词组所包括的所有关键词的唯一ID,即该匹配数组的元素个数与对应的关键词组中的关键词的个数相同,或多于该对应关键词组中的关键词的个数。优选地,该匹配数组的元素个数与对应的关键词组中可设置的关键词的最多个数相同。本实施例中,假设5为关键词组A能够设置的关键词的最多个数,则对应于关键词组A的数组a可以为a=(a1,a2,a3,a4,a5),当然本领域技术人员理解也可以将数组a设置为a=(a1,a2)。假设6为关键词组B能够设置的关键词的最多个数,则对应于关键词组B的数组b可以为b=(b1,b2,b3,b4,b5),当然也可以将数组b设置为b=(b1,b2,b3)。
最后,对应于各匹配数组设置具有相同元素的参考数组,参考数组中对应于关键词唯一ID的元素置1,剩下的元素置0。
在各参考数组中,将对应于关键词唯一ID的元素初始化为1,作为后续匹配的参考。如果匹配数组中的元素个数多于实际关键词的个数,则将多余的元素置0。本实施例中对应于数组a的参考数组a’=(1,1,0,0,0),对应于数组b的参考数组b’=(1,1,1,0,0,0)。
通过预先设置以上匹配数组以及参考数组,可以对响应报文进行如下匹配。优选地,本实施例采用AC自动机算法(Aho-Corasick string matchalgorithm)对关键词进行匹配,以解决精确集合的匹配问题。
首先,每当在响应报文中匹配到一个关键词,就将匹配数组中对应于该关键词唯一ID的元素置1。如果未匹配到任一个关键词,则再次执行步骤101,等待下一条响应报文进行匹配。
例如,网络安全设备中预先存储有关键词“大麻”,其唯一ID为a1,关键词“步枪”,其唯一ID为a2,关键词“假币”,其唯一ID为b1,关键词“开锁”,其唯一ID为b2,关键词“赌球”,其唯一ID为b3。假设网络安全设备在某一响应报文中匹配到了关键词“大麻”、“步枪”和“赌球”,则将匹配数组a中的a1、a2置1,将匹配数组b中的b3置1。从而匹配数组a=(1,1,0,0,0),匹配数组b=(0,0,1,0,0,0)。
然后,当对响应报文匹配完所有的关键词时,将得到的匹配数组与对应的参考数组进行比较,如果比较结果为完全相同,则响应报文命中该匹配数组对应的关键词组,如果比较结果为部分相同或完全不同,则响应报文未命中该匹配数组对应的关键词组。
接上述例子,分别将匹配数组a与参考数组a’进行比较,将匹配数组b与参考数组b’进行比较,结果可以看出响应报文命中匹配数组a对应的关键词组A,未命中匹配数组b对应的关键词组B。
实际应用中,每个关键词组可以设置数十个甚至上百个关键词,以便进一步提高网络安全设备和日志管理平台的处理效率。
步骤103、判断该响应报文是否与至少一个关键词组中的所有关键词都匹配,如果判断为是,则执行步骤104;如果判断为否,即该响应报文未命中任一个关键词组,则再次执行步骤101,等待下一条响应报文进行匹配。
步骤104、生成对应于该关键词组的日志,执行步骤105。
在上述例子中,匹配数组a被命中,则产生对应于关键词组A的一条日志。
步骤105、屏蔽命中至少一个关键词组的响应报文,并将所生成的日志发往日志管理平台。
步骤106、将所有匹配数组都清0,再次执行步骤101。
需要说明的是,将所有匹配数组都清0的步骤也可以在步骤102将匹配数组与参考数组比较完之后进行,也可以使在步骤104屏蔽掉响应报文之后执行。
由此可以看出,如果采用现有技术中的方案进行上述匹配,则由于在该响应报文中匹配到了三个关键词,则会生成三条对应的日志发送给日志管理平台,与现有技术相比,采用本发明的方案只需生成一条日志即可,因而有效减少了日志的数量,提高了网络安全设备的性能,减轻了网络安全设备和日志管理平台的处理压力,节省了资源,而且提高了网络安全设备和日志管理平台的效率,便于管理员对日志进行处理。
与前述关键词过滤方法的实施例相对应,本申请还提供关键词过滤装置的实施例。
本申请关键词过滤装置的实施例可以应用在网络安全设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本申请关键词过滤装置所在设备的一种硬件结构图,除了图2所示的CPU、内存以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件。
请参考图3,为本申请一个实施例示出的一种关键词过滤装置的结构示意图。该关键词过滤装置包括:匹配模块301和日志生成模块302。
其中,匹配模块301,用于根据预存储的关键词,对来自外网的响应报文进行匹配;
日志生成模块302,用于当响应报文与预设的至少一个关键词组中的全部关键词都匹配时,生成对应于相匹配的关键词组的日志。
进一步地,该关键词过滤装置还包括:
关键词组设置模块,用于预存储多个关键词并预设置至少一个关键词组,各关键词组由至少两个关键词组成;
匹配数组设置模块,用于对应于各关键词组分别设置匹配数组,匹配数组中的元素至少包括相对应的关键词组所包含的所有关键词的唯一ID,将所述匹配数组的元素全部置0;
参考数组设置模块,用于对应于各匹配数组设置具有相同元素的参考数组,所述参考数组中对应于关键词的唯一ID置1,剩下的元素置0。
进一步地,匹配模块301包括:
匹配单元,用于根据预存储的关键词,基于AC自动机算法对来自外网的响应报文进行匹配;
记录单元,用于每当在响应报文中匹配到一个关键词,就将匹配数组中对应于关键词的唯一ID置1;
比较单元,用于当对响应报文匹配完所有的关键词时,将得到的匹配数组与对应的参考数组进行比较,如果比较结果为完全相同,则该响应报文命中所述匹配数组对应的关键词组,如果比较结果为部分相同或完全不同,则该响应报文未命中所述匹配数组对应的关键词组。
进一步地,该关键词过滤装置还包括:
屏蔽模块,用于屏蔽该响应报文;
发送模块,用于将所生成的日志发送给所述内网的日志管理平台。
进一步地,匹配数组设置模块还用于在比较单元将得到的匹配数组与对应的参考数组进行比较之后,将各匹配数组中的元素全部置0。
上述装置中各个模块、单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
从以上方法及装置的实施例中可以看出,本发明实施例提供的关键词过滤方法及装置,基于关键词对响应报文进行匹配,仅在响应报文命中预先设置的关键词组中的全部关键词时,才生成对应于该关键词组的日志,与现有技术中对每一种关键词都会生成一条日志相比,大大减少了日志的数量,提高了网络安全设备的运行效率;而且减轻了日志量庞大给日志管理平台所造成的压力;此外重复的日志大大减少,有利于日志管理平台进行分析处理。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (10)
1.一种关键词过滤方法,其特征在于,应用于连接内网和外网的网络安全设备上,包括:
根据预存储的关键词,对来自外网的响应报文进行匹配;
当所述响应报文与预设的至少一个关键词组中的全部关键词都匹配时,生成对应于相匹配的所述关键词组的日志。
2.根据权利要求1所述的方法,其特征在于,所述根据预存储的关键词,对来自外网的响应报文进行匹配之前包括:
预存储多个关键词并预设置至少一个关键词组,各所述关键词组由至少两个所述关键词组成;
对应于各所述关键词组分别设置匹配数组,所述匹配数组中的元素至少包括相对应的关键词组所包含的所有关键词的唯一ID,将所述匹配数组的元素全部置0;
对应于各匹配数组设置具有相同元素的参考数组,所述参考数组中对应于关键词的唯一ID置1,剩下的元素置0。
3.根据权利要求2所述的方法,其特征在于,所述根据预存储的关键词,对来自外网的响应报文进行匹配包括:
基于AC自动机算法,将预存储的关键词与来自外网的响应报文进行匹配;
当在所述响应报文中匹配到一个关键词时,将所述匹配数组中对应于所述关键词的唯一ID置1;
当对所述响应报文匹配完所有的所述关键词时,将得到的匹配数组与对应的参考数组进行比较,如果比较结果为完全相同,则所述响应报文命中所述匹配数组对应的关键词组,如果比较结果为部分相同或完全不同,则所述响应报文未命中所述匹配数组对应的关键词组。
4.根据权利要求2所述的方法,其特征在于,所述生成对应于相匹配的所述关键词组的日志之后还包括:
屏蔽所述响应报文;
将所述日志发送给所述内网的日志管理平台。
5.根据权利要求2所述的方法,其特征在于,所述将得到的匹配数组与对应的参考数组进行比较之后还包括:
将各所述匹配数组中的元素全部置0。
6.一种关键词过滤装置,其特征在于,应用于连接内网和外网的网络安全设备上,包括:
匹配模块,用于根据预存储的关键词,对来自外网的响应报文进行匹配;
日志生成模块,用于当所述响应报文与预设的至少一个关键词组中的全部关键词都匹配时,生成对应于相匹配的所述关键词组的日志。
7.根据权利要求6所述的装置,其特征在于,还包括:
关键词组设置模块,用于预存储多个关键词并预设置至少一个关键词组,各所述关键词组由至少两个所述关键词组成;
匹配数组设置模块,用于对应于各所述关键词组分别设置匹配数组,所述匹配数组中的元素至少包括相对应的关键词组所包含的所有关键词的唯一ID,将所述匹配数组的元素全部置0;
参考数组设置模块,用于对应于各匹配数组设置具有相同元素的参考数组,所述参考数组中对应于关键词的唯一ID置1,剩下的元素置0。
8.根据权利要求7所述的装置,其特征在于,所述匹配模块包括:
匹配单元,用于基于AC自动机算法,将预存储的关键词与来自外网的响应报文进行匹配;
记录单元,用于当在所述响应报文中匹配到一个关键词时,将所述匹配数组中对应于所述关键词的唯一ID置1;
比较单元,用于当对所述响应报文匹配完所有的所述关键词时,将得到的匹配数组与对应的参考数组进行比较,如果比较结果为完全相同,则所述响应报文命中所述匹配数组对应的关键词组,如果比较结果为部分相同或完全不同,则所述响应报文未命中所述匹配数组对应的关键词组。
9.根据权利要求7所述的装置,其特征在于,还包括:
屏蔽模块,用于屏蔽所述响应报文;
发送模块,用于将所述日志发送给所述内网的日志管理平台。
10.根据权利要求9所述的装置,其特征在于,所述匹配数组设置模块还用于在所述比较单元将得到的匹配数组与对应的参考数组进行比较之后,将各所述匹配数组中的元素全部置0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511006238.6A CN105938475A (zh) | 2015-12-28 | 2015-12-28 | 关键词过滤方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511006238.6A CN105938475A (zh) | 2015-12-28 | 2015-12-28 | 关键词过滤方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105938475A true CN105938475A (zh) | 2016-09-14 |
Family
ID=57153164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511006238.6A Pending CN105938475A (zh) | 2015-12-28 | 2015-12-28 | 关键词过滤方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105938475A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339320A (zh) * | 2011-11-04 | 2012-02-01 | 成都市华为赛门铁克科技有限公司 | 恶意网页的识别方法以及识别装置 |
CN102857493A (zh) * | 2012-06-30 | 2013-01-02 | 华为技术有限公司 | 内容过滤方法和装置 |
CN103401850A (zh) * | 2013-07-19 | 2013-11-20 | 北京星网锐捷网络技术有限公司 | 一种报文过滤方法及装置 |
-
2015
- 2015-12-28 CN CN201511006238.6A patent/CN105938475A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339320A (zh) * | 2011-11-04 | 2012-02-01 | 成都市华为赛门铁克科技有限公司 | 恶意网页的识别方法以及识别装置 |
CN102857493A (zh) * | 2012-06-30 | 2013-01-02 | 华为技术有限公司 | 内容过滤方法和装置 |
CN103401850A (zh) * | 2013-07-19 | 2013-11-20 | 北京星网锐捷网络技术有限公司 | 一种报文过滤方法及装置 |
Non-Patent Citations (1)
Title |
---|
解培岱: "面向内容过滤的协议扩展技术研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Di Nardo et al. | Coverage‐based regression test case selection, minimization and prioritization: A case study on an industrial system | |
US8225402B1 (en) | Anomaly-based detection of SQL injection attacks | |
US20090044279A1 (en) | Systems and methods for fraud detection via interactive link analysis | |
CN106326742A (zh) | 确定修改的网页的系统和方法 | |
CN105046150B (zh) | 防止sql注入的方法及系统 | |
CN107025296A (zh) | 基于科技服务信息智能抓取系统数据收集方法 | |
US9509705B2 (en) | Automated secondary linking for fraud detection systems | |
CN102857493A (zh) | 内容过滤方法和装置 | |
CN111177779B (zh) | 数据库审计方法、其装置、电子设备及计算机存储介质 | |
US7958162B2 (en) | Method and system for generating analogous fictional data from non-fictional data | |
Keibel et al. | CCDB: A corpus-linguistic research and development workbench | |
CN102999723B (zh) | 主动防御xss攻击的数据防御组件生成方法及其装置 | |
CN107194270A (zh) | 一种实现数据脱敏的系统及方法 | |
CN107688743A (zh) | 一种恶意程序的检测分析方法及系统 | |
CN107229627A (zh) | 一种文本处理方法、装置及计算设备 | |
CN106104550A (zh) | 网站信息提取装置、系统、网站信息提取方法以及网站信息提取程序 | |
CN106649362A (zh) | 网页爬取方法和装置 | |
CN109413016A (zh) | 一种基于规则的报文检测方法和装置 | |
CN103885966A (zh) | 电子商务交易平台中的问答交互方法和系统 | |
CN106778226A (zh) | 文件壳脱壳方法及装置 | |
CN104715018B (zh) | 基于语义分析的智能防sql注入方法 | |
US11405374B2 (en) | System and method for automatic mitigation of leaked credentials in computer networks | |
CN110209577A (zh) | 一种测试方法及装置 | |
Yu et al. | Adversarial Textual Robustness of Visual Dialog | |
CN107506355A (zh) | 对象分组方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Binjiang District and Hangzhou city in Zhejiang Province Road 310051 No. 68 in the 6 storey building Applicant after: Hangzhou Dipu Polytron Technologies Inc Address before: Binjiang District and Hangzhou city in Zhejiang Province Road 310051 No. 68 in the 6 storey building Applicant before: Hangzhou Dipu Technology Co., Ltd. |
|
COR | Change of bibliographic data | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160914 |