CN106407475A - 内容筛选方法、装置及服务器 - Google Patents
内容筛选方法、装置及服务器 Download PDFInfo
- Publication number
- CN106407475A CN106407475A CN201611018931.XA CN201611018931A CN106407475A CN 106407475 A CN106407475 A CN 106407475A CN 201611018931 A CN201611018931 A CN 201611018931A CN 106407475 A CN106407475 A CN 106407475A
- Authority
- CN
- China
- Prior art keywords
- content
- http response
- byte stream
- text
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提出一种内容筛选方法、装置及服务器。该内容筛选方法包括:从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流;将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配;在匹配成功时,将所述HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。本发明实施例可解决HTTP响应正文中的内容编码与筛选器中编码规则不一致导致的兼容性差,无法提升网页内容筛选速度的技术问题。
Description
技术领域
本发明涉及互联网资源管理技术领域,具体而言,涉及一种对与设定目标主题相关的内容进行筛选的方法、装置及服务器。
背景技术
现目前,针对设定的目标主题一般通过网络爬虫从互联网中去采集互联网资源。然而,采用网络爬虫采集的内容因数量大对存储空间与计算资源的提出了很高的要求。事实上,在针对设定的目标主题时,用户往往只关心包含有某些关键词的有价值的文本内容。为了解决上述问题,常用的做法是对网络爬虫采集的互联网资源进行内容筛选。传统的内容筛选方法存在因网络文本字符编码的不统一而兼容性差,而导致无法实现内容的快速筛选的缺陷。
发明内容
有鉴于此,本发明一较佳实施例的目的在于提供一种对不同格式文本字符编码兼容性能良好的内容筛选方法,所述方法包括:
从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流;
将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配;及
在匹配成功时,将所述HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。
本发明另一较佳实施例还提供一种内容筛选装置,所述装置包括:
文件获取与编码模块,用于从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流;
模式匹配模块,用于将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配;及
网页内容保存模块,用于在匹配成功时,将所述HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。
本发明另一较佳实施例还提供一种服务器,包括存储器、处理器以及内容筛选装置。所述内容筛选装置安装或存储于所述存储器由所述处理器控制内容筛选装置各功能模块的执行。
与现有技术相比,本发明实施例提供的内容筛选方法及装置,在获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流,将得到的字节流输入根据设定的目标主题生成的筛选器进行模式匹配后进行存储。相对于现有的内容筛选方法,将HTTP响应正文中的内容按照预设的编码规则(如UTF-8)进行编码,可以解决HTTP响应正文中的内容编码与筛选器中编码规则不一致导致的兼容性差,而无法提升网页内容筛选速度的技术问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明较佳实施例提供的服务器的方框示意图。
图2是本发明较佳实施例提供的图1中所示的内容筛选装置的一种功能模块框图。
图3是本发明较佳实施例提供的一种HTTP响应头的示例。
图4是本发明较佳实施例提供的图1中所示的内容筛选装置的另一种功能模块框图。
图5是本发明较佳实施例提供的一种字典树结构图。
图6是由图5的字典树得到的一种确定性有穷自动机筛选器结构示意图。
图7是本发明较佳实施例提供的一个简单确定性有穷自动机筛选器的状态图。
图8是本发明较佳实施例提供的一种内容筛选方法的具体流程图。
图9是本发明较佳实施例提供的另一种内容筛选方法的具体流程图。
图10是本发明较佳实施例提供的生成筛选器的流程图。
图11是图10中步骤S114包括的子步骤流程示意图。
图标:100-服务器;110-内容筛选装置;111-存储器;112-处理器;113-通信单元;1101-文件获取与编码模块;1102-模式匹配模块;1103-网页内容保存模块;1104-队列生成模块;1105-判断与取出模块;1106-响应信息获取模块;1107-关键词编码模块;11071-关键字编码子模块;11072-字节流集合生成子模块;1108-筛选器创建模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本发明实施例提供的服务器100的方框示意图。所述服务器100包括内容筛选装置110、存储器111、处理器112及通信单元113。
所述存储器111、处理器112及通信单元113的各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器111用于存储程序,所述处理器112在接收到执行指令后,执行所述程序。所述通信单元113用于通过网络建立所述服务器100与其它通信终端之间的通信连接,并用于通过网络接收和发送数据。
所述内容筛选装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述服务器100的操作系统(operating system,OS)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块,例如内容筛选装置110所包括的软件功能模块及计算机程序等。本实施例中,所述内容筛选装置110为服务器100提供针对不同设定目标主题的内容筛选服务,具体的方法在后续进行详细说明。
应当理解的是,图1所示的结构仅为示意,所述服务器100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,是本发明较佳实施例提供的图1所示内容筛选装置110的功能模块框图。所述内容筛选装置110包括文件获取与编码模块1101、模式匹配模块1102及网页内容保存模块1103。
所述文件获取与编码模块1101,用于从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流。
请参照图3,图3为一个典型的HTTP响应头的示例,所述文件获取与编码模块1101可以从HTTP响应头的Content-Type中获取文件扩展名。当获取文件的扩展名是文本类型时,对HTTP响应正文中的内容进行编码,其中,所述文本类型包括,但不限于text/xml、text/html、text/plain等格式的文本。若获取文件的扩展名不是文本类型,重新获得新的HTTP响应头进行上述操作。
文件获取与编码模块1101不仅可以直接按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流,还可以先从HTTP响应头中获取字符集(如,charset)。若HTTP响应头中没有charset键值对或charset键值对不是默认的预设的编码规则(比如,UTF-8),文件获取与编码模块1101可将字符集替换为预设的编码规则,并对所述HTTP响应正文中的内容按照预设的编码规则进行编码。若charset键值对为预设的编码规则,直接对所述HTTP响应正文中的内容进行编码。
请参照图4,在本实施例中,所述内容筛选装置110还可以包括用于获取HTTP响应内容的队列生成模块1104、判断与取出模块1105及响应信息获取模块1106,其中,所述HTTP响应内容包括HTTP响应响应头及HTTP响应正文中的内容。下面结合上述模块对获取HTTP响应内容的过程进行描述。
首先,所述队列生成模块1104生成统一资源定位器(Uniform Resoure Locator,URL)队列。
具体地,统一资源定位器队列可以从一定数量的种子统一资源定位器出发,在网络爬虫执行网络资源的爬取过程中,采用搜索算法(比如,广度优先搜索算法)动态的获取新的统一资源定位器,并将新的统一资源定位器追加到队列中。
其次,所述判断与取出模块1105判断所述统一资源定位器队列是否为空,在所述统一资源定位器队列不为空时,从所述统一资源定位器队列中取出任意一个统一资源定位器。
具体地,当所述统一资源定位器队列不为空时,所述判断与取出模块1105通过HTTP的GET方法从所述统一资源定位器队列中取出任意一个统一资源定位器。当所述统一资源定位器队列为空时,结束内容筛选。
最后,所述响应信息获取模块1106由取出的所述统一资源定位器获取访问所述统一资源定位器对应网页的HTTP响应信息,所述HTTP响应信息包括HTTP响应头及HTTP响应正文中的内容。
所述模式匹配模块1102用于将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配。
请再次参照图4,在本实施例中,所述内容筛选装置110还可以包括用于生成所述筛选器的关键词编码模块1107及筛选器创建模块1108。下面结合上述模块对所述筛选器的生成过程进行描述。
所述关键词编码模块1107对所述目标主题的关键词按照所述预设的编码规则进行编码,得到所述目标主题的关键词所对应的字节流集合。
具体地,以从互联网中筛选目标主题为“水门事件”的文本资源为例,与该目标主题相关的关键字可以包括:“水门”、“深喉”及“尼克松”。
请再次参照图4,所述关键词编码模块1107包括关键字编码子模块11071及字节流集合生成子模块11072。
所述关键字编码子模块11071用于对所述关键词中的每个关键字进行编码,得到每个关键字对应的字符串。
具体地,还是以“水门事件”为例,预设的编码规则采用UFT-8编码。该主题的关键字与编码的字符串的关系可以参见表1。
表1
所述字节流集合生成子模块11072用于由关键字对应的字符串得到关键词的字节流,由每个关键词的字节流构成所述目标主题的关键词所对应的字节流集合。
具体地,通过关键字对应的字符串的组合可以得到关键词的字节流,具体可以参照表2。
关键词 | 字节流(十进制表示) |
水门 | 230 176 180 233 151 168 |
深喉 | 230 183 177 229 150 137 |
尼克松 | 229 176 188 229 133 139 230 157 190 |
表2
所述筛选器创建模块1108根据所述字节流集合创建所述筛选器。
具体地,所述筛选器创建模块1108可以创建一字典树,并将所述字节流集合生成子模块11072生成的字节流集合中的元素一一插入到字典树中。字典树的每个节点可以用数据结构TrieNode表示,其中TrieNode的数据结构如表3。
表3
TrieNode包含两个属性,其中code为十进制的字节编码,isEnd为Boolean(布尔)类型,表示一个字节流的结束。对于一个字典树而言,字节流集合中任意一个字节流的最后一个字节对应TrieNode的isEnd为True,缺省为False。
这样的字典树,构造过程首先是初始化树的根节点,然后将每个字节流插入到字典树中,其插入方法可以用以下伪代码实现:
通过上述方法,可以得到如图5所示的字典树。对应地,请参照图6,图6为基于图5中的字典树得到的确定性有穷自动机(Deterministic Finite Automata,DFA)的筛选器的示意图。
在本实施例中,所述模式匹配模块1102通过所述筛选器采用确定性有穷自动机对所述HTTP响应正文中的内容对应的字节流进行模式匹配,其中,所述模式匹配是指根据确定性有穷自动机的状态转移关系,寻找接受状态的过程。
在本实施例中,采用确定性有穷自动机对所述HTTP响应正文中的内容对应的字节流进行模式匹配的具体方式可以如下。
请参照图7,以简单的确定性有穷自动机为例,假设S1和S2是状态;其中S1表示接受状态,状态以双圆圈表示,每条边表示输入。用δ表示边,则对于上述确定性有穷自动机,有以下关系:
δ(S1,1)=S1
δ(S1,0)=S2
δ(S2,1)=S2
δ(S2,0)=S1
模式匹配,是根据确定性有穷自动机的状态转移关系,寻找接受状态的过程。下面举实例说明:
例1:给定数字序列1001,判断是否匹配。
1、δ(S1,1)=S1
2、δ(S1,0)=S2
3、δ(S2,0)=S1
4、δ(S1,1)=S1……S1是接受状态,故匹配成功
例2:给定数字序列0001,判断是否匹配。
1、δ(S1,0)=S2
2、δ(S2,0)=S1
3、δ(S1,0)=S2
4、δ(S2,1)=S2……S2不是接受状态,故未匹配成功。
所述网页内容保存模块1103用于在匹配成功时,将所述HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。
具体地,还是以上面描述的目标主题“水门事件”为例,假设创建的筛选器只要在满足一个关键词的情况下即视为模式匹配。则在所述HTTP响应正文中的内容中只要包括水门、深喉、尼克松中的一个即可将该HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。
请参照图8,是本发明较佳实施例提供的应用于图1所示服务器100的内容筛选方法的流程图。所述方法相关的流程定义的方法步骤可以由所述处理器112实现。下面对图8所示的具体流程进行详细阐述。
步骤S111,从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流。
请参照图9,在本实施例中,所述方法还可以包括用于获取HTTP响应内容的步骤S108-步骤S110,其中,所述HTTP响应内容包括HTTP响应响应头及HTTP响应正文中的内容。下面结合上述步骤S108-步骤S110对获取HTTP响应内容的过程进行描述。
步骤S108,生成统一资源定位器队列。
步骤S109,判断所述统一资源定位器队列是否为空,在所述统一资源定位器队列不为空时,从所述统一资源定位器队列中取出任意一个统一资源定位器。
步骤S110,由取出的所述统一资源定位器获取访问所述统一资源定位器对应网页的HTTP响应信息,所述HTTP响应信息包括HTTP响应头及HTTP响应正文中的内容。
步骤S112,将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配。
所述筛选器采用确定性有穷自动机对所述HTTP响应正文中的内容对应的字节流进行模式匹配,其中,所述模式匹配是指根据确定性有穷自动机的状态转移关系,寻找接受状态的过程。
请参照图10,在本实施例中,所述方法还可以包括用于生成所述筛选器的步骤S114和步骤S115,下面结合步骤S114和步骤S115对所述筛选器的生成过程进行描述。
步骤S114,对所述目标主题的关键词按照所述预设的编码规则进行编码,得到所述目标主题的关键词所对应的字节流集合。
具体地,请参照图11,步骤S114可以包括子步骤S1141及子步骤S1142。
子步骤S1141,对所述关键词中的每个关键字进行编码,得到每个关键字对应的字符串。
子步骤S1142,由关键字对应的字符串得到关键词的字节流,由每个关键词的字节流构成所述目标主题的关键词所对应的字节流集合。
步骤S115,根据所述字节流集合创建所述筛选器。
具体地,创建一字典树,将所述字节流集合中的元素插入所述的字典树中,以生成所述筛选器。
在本具体实施例中,所述步骤S108~S112与步骤S114~S115可以同步进行,在上述步骤同步进行时,可以将时间复杂度降低,以满足高并发、大数据量的爬虫需求。
步骤S113,在匹配成功时,将所述HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。
综上所述,本发明实施例提供的内容筛选方法及装置,在获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流,将得到的字节流输入根据设定的目标主题生成的筛选器进行模式匹配后进行存储。相对于现有的内容筛选方法,将HTTP响应正文中的内容按照预设的编码规则进行编码,可以解决HTTP响应正文中的内容编码与筛选器中编码规则不一致导致的兼容性差,无法提升网页内容筛选速度的技术问题。同时筛选器的创建与网页内容的爬取可以并列进行,时间复杂度低,可以满足高并发、大数据量的爬虫需求。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,也可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (13)
1.一种内容筛选方法,应用于服务器,其特征在于,所述方法包括:
从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流;
将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配;及
在匹配成功时,将所述HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。
2.如权利要求1所述的内容筛选方法,其特征在于,所述方法还包括:
对所述目标主题的关键词按照所述预设的编码规则进行编码,得到所述目标主题的关键词所对应的字节流集合;及
根据所述字节流集合创建所述筛选器。
3.如权利要求2所述的内容筛选方法,其特征在于,所述对所述目标主题的关键词按照所述预设的编码规则进行编码,得到所述目标主题的关键词所对应的字节流集合的步骤包括:
对所述关键词中的每个关键字进行编码,得到每个关键字对应的字符串;及
由关键字对应的字符串得到关键词的字节流,由每个关键词的字节流构成所述目标主题的关键词所对应的字节流集合。
4.如权利要求2所述的内容筛选方法,其特征在于,所述根据所述字节流集合创建所述筛选器的步骤包括:
创建一字典树,将所述字节流集合中的元素插入所述的字典树中,以生成所述筛选器。
5.如权利要求1-4中任意一项中所述的内容筛选方法,其特征在于,在所述从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流的步骤之前,所述方法包括:
生成统一资源定位器队列;
判断所述统一资源定位器队列是否为空,在所述统一资源定位器队列不为空时,从所述统一资源定位器队列中取出任意一个统一资源定位器;及
由取出的所述统一资源定位器获取访问所述统一资源定位器对应网页的HTTP响应信息,所述HTTP响应信息包括HTTP响应头及HTTP响应正文中的内容。
6.如权利要求1所述的内容筛选方法,其特征在于,在所述将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配的步骤中:
所述筛选器采用确定性有穷自动机对所述HTTP响应正文中的内容对应的字节流进行模式匹配,其中,所述模式匹配是指根据确定性有穷自动机的状态转移关系,寻找接受状态的过程。
7.一种内容筛选装置,应用于服务器,其特征在于,所述装置包括:
文件获取与编码模块,用于从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流;
模式匹配模块,用于将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配;及
网页内容保存模块,用于在匹配成功时,将所述HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。
8.如权利要求7所述的内容筛选装置,其特征在于,所述装置还包括:
关键词编码模块,用于对所述目标主题的关键词按照所述预设的编码规则进行编码,得到所述目标主题的关键词所对应的字节流集合;及
筛选器创建模块,用于根据所述字节流集合创建所述筛选器。
9.如权利要求8所述的内容筛选装置,其特征在于,所述关键词编码模块包括:
关键字编码子模块,用于对所述关键词中的每个关键字进行编码,得到每个关键字对应的字符串;及
字节流集合生成子模块,用于由关键字对应的字符串得到关键词的字节流,由每个关键词的字节流构成所述目标主题的关键词所对应的字节流集合。
10.如权利要求8所述的内容筛选装置,其特征在于:
所述筛选器创建模块通过创建一字典树,将所述字节流集合中的元素插入所述的字典树中,以生成所述筛选器。
11.如权利要求7-10中任意一项中所述的内容筛选装置,其特征在于,所述装置还包括:
队列生成模块,用于生成统一资源定位器队列;
判断与取出模块,用于判断所述统一资源定位器队列是否为空,在所述统一资源定位器队列不为空时,从所述统一资源定位器队列中取出任意一个统一资源定位器;及
响应信息获取模块,用于由取出的所述统一资源定位器获取访问所述统一资源定位器对应网页的HTTP响应信息,所述HTTP响应信息包括HTTP响应头及HTTP响应正文中的内容。
12.如权利要求7所述的内容筛选装置,其特征在于:所述模式匹配模块通过所述筛选器采用确定性有穷自动机对所述HTTP响应正文中的内容对应的字节流进行模式匹配,其中,所述模式匹配是指根据确定性有穷自动机的状态转移关系,寻找接受状态的过程。
13.一种服务器,其特征在于,包括:
存储器;
处理器;及
内容筛选装置,所述内容筛选装置安装于所述存储器中并包括一个或多个由所述处理器执行的软件功能模块,所述内容筛选装置包括:
文件获取与编码模块,用于从HTTP响应头中获取文件的类型,在所述获取文件的类型为文本类型时,按照预设的编码规则对HTTP响应正文中的内容进行编码得到字节流;
模式匹配模块,用于将所述HTTP响应正文中的内容对应的字节流输入根据设定的目标主题生成的筛选器中进行模式匹配;及
网页内容保存模块,用于在匹配成功时,将所述HTTP响应正文中的内容作为与所述设定的目标主题相关的网页内容进行保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611018931.XA CN106407475A (zh) | 2016-11-18 | 2016-11-18 | 内容筛选方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611018931.XA CN106407475A (zh) | 2016-11-18 | 2016-11-18 | 内容筛选方法、装置及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106407475A true CN106407475A (zh) | 2017-02-15 |
Family
ID=58069091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611018931.XA Pending CN106407475A (zh) | 2016-11-18 | 2016-11-18 | 内容筛选方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106407475A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734149A (zh) * | 2018-05-29 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种文本数据扫描方法和装置 |
CN109104405A (zh) * | 2018-06-28 | 2018-12-28 | 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) | 二进制协议编码、解码方法和装置 |
CN113688228A (zh) * | 2021-08-27 | 2021-11-23 | 北京房江湖科技有限公司 | 数据筛选方法、装置和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101729520A (zh) * | 2008-10-28 | 2010-06-09 | 北京大学 | 敏感信息的检测方法及装置 |
CN102955832A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的系统 |
-
2016
- 2016-11-18 CN CN201611018931.XA patent/CN106407475A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101729520A (zh) * | 2008-10-28 | 2010-06-09 | 北京大学 | 敏感信息的检测方法及装置 |
CN102955832A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734149A (zh) * | 2018-05-29 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种文本数据扫描方法和装置 |
CN108734149B (zh) * | 2018-05-29 | 2022-01-18 | 创新先进技术有限公司 | 一种文本数据扫描方法和装置 |
CN109104405A (zh) * | 2018-06-28 | 2018-12-28 | 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) | 二进制协议编码、解码方法和装置 |
CN109104405B (zh) * | 2018-06-28 | 2021-05-28 | 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) | 二进制协议编码、解码方法和装置 |
CN113688228A (zh) * | 2021-08-27 | 2021-11-23 | 北京房江湖科技有限公司 | 数据筛选方法、装置和系统 |
CN113688228B (zh) * | 2021-08-27 | 2024-03-22 | 贝壳找房(北京)科技有限公司 | 数据筛选方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9305169B2 (en) | System and methods for scalably identifying and characterizing structural differences between document object models | |
WO2020198254A1 (en) | Automatic extraction of assets data from engineering data sources for generating an hmi | |
US20150254328A1 (en) | Methods and systems that categorize and summarize instrumentation-generated events | |
US20060117055A1 (en) | Client-based web server application verification and testing system | |
US20030040887A1 (en) | System and process for constructing and analyzing profiles for an application | |
US20130275856A1 (en) | Method, system, and apparatus for providing data regarding the operation and monitoring of a control system | |
CN104268148B (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
CN106656607A (zh) | 设备日志解析方法、系统及具有该系统的服务器端 | |
CN105243159A (zh) | 一种基于可视化脚本编辑器的分布式网络爬虫系统 | |
JP2023552308A (ja) | 異常検出および根本原因分析のための分散トレースからの学習 | |
CN105528416B (zh) | 一种网站更新内容的监测方法及系统 | |
CN106951784B (zh) | 一种面向XSS漏洞检测的Web应用逆向分析方法 | |
CN113377373A (zh) | 基于解析引擎的页面加载方法、装置、计算机设备及介质 | |
JP2009523289A (ja) | データベースと電子ドキュメントとの間での階層データの転送および表示 | |
CN106407475A (zh) | 内容筛选方法、装置及服务器 | |
CN109614319B (zh) | 自动化测试方法、装置、电子设备及计算机可读介质 | |
CN112784595A (zh) | 用广义词汇表标记训练和评估机器学习模型的系统和方法 | |
CN106845248A (zh) | 一种基于状态转换图的xss漏洞检测方法 | |
CN110795093A (zh) | 一种交互式视图生成方法和装置 | |
US20150248500A1 (en) | Documentation parser | |
Raj et al. | Distributed component-based crawler for AJAX applications | |
CN115495587A (zh) | 一种基于知识图谱的告警分析方法及装置 | |
Naddaf et al. | Performance modeling and analysis of software architectures specified through graph transformations | |
CN111459793A (zh) | 一种全生命周期的软件自动化测试方法和装置 | |
Jin | Image information collection system based on Python Web crawler technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170215 |