CN108256110A - 情报信息的搜集方法、装置、计算机设备和存储介质 - Google Patents
情报信息的搜集方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108256110A CN108256110A CN201810128411.7A CN201810128411A CN108256110A CN 108256110 A CN108256110 A CN 108256110A CN 201810128411 A CN201810128411 A CN 201810128411A CN 108256110 A CN108256110 A CN 108256110A
- Authority
- CN
- China
- Prior art keywords
- information
- finger url
- seed resource
- page info
- transcoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及一种情报信息的搜集方法、装置、计算机设备和存储介质。所述方法包括:获取种子资源定位符;根据已搜集资源定位符列表筛选该种子资源定位符;将筛选后的种子资源定位符加入情报信息搜集列表中;按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符;根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息;根据该页面信息选取预设转码方案;根据该预设转码方案将该页面信息转码,得到通用格式的情报信息。采用本方法能够在保证将页面信息转码成功的前提下,减少了将页面信息转码花费的时间,提高了搜集情报信息的工作效率。
Description
技术领域
本申请涉及网络爬虫技术领域,特别是涉及一种情报信息的搜集方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,越来越多的信息在互联网上发布和传播。相较于传统的信息发布和传播,互联网有着发布的信息量大、传播速度快和易保存等特点,因此在互联网上发布和传播的信息越来越多。这也导致了在互联网变成了获取情报信息的一种重要渠道,传统技术中通常是通过爬虫引擎获取发布在互联网上的情报信息。
然而,随着互联网上发布的信息越来越多,建设的网站也越来越多,不同网站的网页信息采取的编码格式也不尽相同。虽然传统技术中通过同时运行多个爬虫引擎,以实现快速地获取情报信息,但是面对种类繁多的编码格式,在无法针对性地配置转码方案的情况下,也无法准确地获取情报信息,使得搜集情报信息的工作效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高搜集情报信息的工作效率的情报信息的搜集方法、装置、计算机设备和存储介质。
一种情报信息的搜集方法,该方法包括:
获取种子资源定位符;
根据已搜集资源定位符列表筛选该种子资源定位符;
将筛选后的种子资源定位符加入情报信息搜集列表中;
按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符;
根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息;
根据该页面信息选取预设转码方案;
根据该预设转码方案将该页面信息转码,得到通用格式的情报信息。
在一个实施例中,该根据该页面信息选取预设转码方案,包括:
从该页面信息中读取元信息;
根据该元信息获取该页面信息的编码格式;
根据该页面信息的编码格式选取预设转码方案;
该根据预设转码方案将该页面信息转码,得到通用格式的情报信息,包括:
当检测到该页面信息的编码格式没有相应的预设转码方案时,则
根据该预设转码方案中的通用转码方案将该页面信息转码,得到通用格式的情报信息。
在一个实施例中,该方法还包括:
当接收到导出该通用格式的情报信息的指令时,则
根据该指令所指定的格式选取相应的转码方案;
按照选取的转码方案将该通用格式的情报信息转换成该指定的格式的情报信息文档。
在一个实施例中,该按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符之后,该方法还包括:
根据选取的种子资源定位符计算出相应的校验码;
当检测到该校验码的数值不在当前的爬虫引擎被分配的区间内时,则
将数值不在当前的爬虫引擎被分配的区间内的校验码相应的种子资源定位符传递至下一个爬虫引擎,直至确定该校验码的数值在传递至的爬虫引擎被分配的区间内。
在一个实施例中,该方法还包括:
获取被选取的种子资源定位符相应的网站标识;
统计相同网站标识的种子资源定位符被选取的次数;
根据统计出的次数确定该网站标识对应的优先级;
按照该优先级重新排列该情报信息搜集列表中该种子资源定位符的排列顺序。
在一个实施例中,该根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息,包括:
根据该选取的种子资源定位符与相应的服务器建立连接;
使用该爬虫引擎从建立连接的服务器上获取页面信息相应的页面文件;
解析该页面文件,得到该页面文件的源代码;
在该源代码中选取路径表达式所指定的源代码。
在一个实施例中,该方法还包括:
在系统日志中记录该爬虫引擎的运行记录;
按照该运行记录中的关键词确定该运行记录相应的日志等级;
在该系统日志中添加该运行记录相应的日志等级。
一种情报信息的搜集装置,该装置包括:
定位符获取模块,用于获取种子资源定位符;
定位符筛选模块,用于根据已搜集资源定位符列表筛选该种子资源定位符;
定位符添加模块,用于将筛选后的种子资源定位符加入情报信息搜集列表中;定位符选取模块,用于按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符;
信息获取模块,用于根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息;
方案选取模块,用于根据该页面信息选取预设转码方案;
信息转码模块,用于根据该预设转码方案将该页面信息转码,得到通用格式的情报信息。
一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现如上任一项方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上任一项方法的步骤。
上述情报信息的搜集方法、装置、计算机设备和存储介质,根据获取的种子资源定位符生成情报信息搜集列表,通过按照情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符,以根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息。在爬虫引擎获取到页面信息后,由于不同网站页面信息的编码格式大多都不相同,需要根据页面信息选取预设转码方案,而选取的预设转码方案是根据页面信息针对性地配置的转码方案,因此预设转码方案可以准确地将页面信息转码,而且预设转码方案是预先准备的方案,可以在获取页面信息后直接调用,减少配置的时间,从而使得在保证将页面信息转码成功的前提下,减少了将页面信息转码花费的时间,进而提高了搜集情报信息的工作效率。
附图说明
图1为一个实施例中情报信息的搜集方法的应用场景图;
图2为一个实施例中情报信息的搜集方法的流程示意图;
图3为另一个实施例中情报信息的搜集方法的流程示意图;
图4为一个实施例中情报信息的搜集装置的结构框图;
图5为另一个实施例中情报信息的搜集装置的结构框图;
图6为一个实施例中情报信息的搜集装置的结构框图;
图7为另一个实施例中情报信息的搜集装置的结构框图;
图8为一个实施例中情报信息的搜集装置的结构框图;
图9为另一个实施例中情报信息的搜集装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的情报信息的搜集方法,可以应用于如图1所示的应用环境中。其中,页面服务器110通过网络与服务器120通过网络进行通信。服务器120获取种子资源定位符,根据种子资源定位符生成情报信息搜集列表,按照情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符。服务器120根据选取的种子资源定位符,使用爬虫引擎从页面服务器110获取相应的页面信息。服务器120在获取页面信息后,根据页面信息选取预设转码方案,并根据预设转码方案将页面信息转码,得到通用格式的情报信息。其中,页面服务器110和服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种情报信息的搜集方法,以该方法应用于图1中的服务器120为例进行说明,包括以下步骤:
S202,获取种子资源定位符。
其中,种子资源定位符是统一资源定位符(Uniform Resource Locator,URL)。种子资源定位符具体用于确定网站页面的位置和访问方式。
在一个实施例中,服务器在从网站页面搜集情报信息时,筛选搜集到的情报信息,将情报信息中的统一资源定位符确定为种子资源定位符。
S203,根据已搜集资源定位符列表筛选该种子资源定位符。
其中,已搜集资源定位符列表是已经被选取用于搜集情报信息的资源定位符的列表。具体地,根据已搜集资源定位符列表筛选该种子资源定位符,可以是服务器对比已搜集资源定位符列表中的资源定位符和种子资源定位符,将与已搜集资源定位符列表中的资源定位符相同的种子资源定位符过滤。
S204,将筛选后的种子资源定位符加入情报信息搜集列表中。
其中,情报信息搜集列表是用于搜集情报信息的种子资源定位符的列表。情报信息是网站页面上的有效信息。情报信息具体是网站页面上与相同网站的其它网站页面不同的信息。
在一个实施例中,服务器将筛选后的种子资源定位符依次排列,加入情报信息搜集列表中。
在一个实施例中,服务器在获取种子资源定位符后,根据已搜集资源定位符列表筛选种子资源定位符,将筛选后的种子资源定位符加入情报信息搜集列表中。
S206,按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符。
具体地,按照情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符,可以是在选取种子资源定位符,并根据选取的种子资源定位符搜集情报信息后,按照情报信息搜集列表中种子资源定位符的排列顺序选取下一个种子资源定位符。
在一个实施例中,服务器接收到爬虫引擎发送的获取种子资源定位符的请求时,从情报信息搜集列表中选取种子资源定位符,将选取的种子资源定位符发送给爬虫引擎,并在再次接收到爬虫引擎发送的获取种子资源定位符的请求时,按照情报信息搜集列表中种子资源定位符的排列顺序选取下一个种子资源定位符。
S208,根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息。
其中,爬虫引擎是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。具体地,使用爬虫引擎获取相应的页面信息,可以是服务器使用爬虫引擎下载种子资源定位符相应页面的页面文件,其中,页面文件中包括相应的页面信息。
在一个实施例中,服务器将选取的种子资源定位符发送给爬虫引擎。爬虫引擎在接收到种子资源定位符后,根据种子资源定位符访问相应的网站页面,并将网站页面的页面文件下载到爬虫引擎所在的服务器。
S210,根据该页面信息选取预设转码方案。
其中,预设转码方案是预先配置的转码方案。转码方案是解码后重新编码的方案。编码是信息从一种形式或格式转换为另一种形式的过程。解码是将数码还原成信息的过程。具体地,预设转码方案可以有多个,每种编码格式相应有一种预设转码方案。
在一个实施例中,服务器识别获取到的页面信息的编码格式,在多个预设转码方案中根据识别到的编码格式选取相应的转码方案,并按照选取的转码方案处理页面信息。
S212,根据该预设转码方案将该页面信息转码,得到通用格式的情报信息。
其中,通用格式的情报信息具体的是编码格式统一的情报信息。具体地,根据预设转码方案将页面信息转码,可以是服务器根据预设转码方案将页面信息解码后再编码,也可以是服务器根据预设转码方案直接将页面信息解码。
在一个实施例中,服务器根据预设转码方案将页面信息解码,检查生成的信息是否是通用格式的信息,若否,则按照预设转码方案将生成的信息编码,得到通用格式的情报信息。
上述情报信息的搜集方法,根据获取的种子资源定位符生成情报信息搜集列表,通过按照情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符,以根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息。在爬虫引擎获取到页面信息后,由于不同网站页面信息的编码格式大多都不相同,需要根据页面信息选取预设转码方案,而选取的预设转码方案是根据页面信息针对性地配置的转码方案,因此预设转码方案可以准确地将页面信息转码,而且预设转码方案是预先准备的方案,可以在获取页面信息后直接调用,减少配置的时间,从而使得在保证将页面信息转码成功的前提下,减少了将页面信息转码花费的时间,进而提高了搜集情报信息的工作效率。
在一个实施例中,该根据该页面信息选取预设转码方案,包括:从该页面信息中读取元信息;根据该元信息获取该页面信息的编码格式;根据该页面信息的编码格式选取预设转码方案;该根据预设转码方案将该页面信息转码,得到通用格式的情报信息,包括:当检测到该页面信息的编码格式没有相应的预设转码方案时,则根据该预设转码方案中的通用转码方案将该页面信息转码,得到通用格式的情报信息。
其中,元信息(Meta Information)是诠释信息的信息。元信息具体用于描述信息的结构、语义、用途和用法等。页面信息中读取的元信息可以用于描述页面信息的编码格式。编码格式是预先规定的将文字、数字或其它对象编成数码的格式。编码格式具体可以是ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)、ANSI、GBK(Chinese Internal Code Specification,汉字内码扩展规范)、GB2312、UTF-8(8-bit Unicode Transformation Format,8位统一码转换格式)、GB18030和UNICODE(统一码)等编码格式。
在一个实施例中,服务器从页面信息中读取Meta Information,并从MetaInformation中获取页面信息的编码格式。服务器根据获取的编码格式从预设转码方案中选取相应的转码方案,并根据选取的转码方案将页面信息转码,得到通用格式的情报信息。当服务器检测到获取的编码格式在预设转码方案中没有相应的转码方案时,则根据预设转码方案中的通用转码方案将页面信息转码,得到通用格式的情报信息。
本实施例中,通过页面信息中的元信息确定页面信息的编码格式,并按照确定的编码格式选取预设转码方案,以根据预设转码方案将页面信息转码,从而减少了将页面信息转码花费的时间。而且在页面信息的编码格式没有相应的预设转码方案时,使用通用转码方案将页面信息转码,虽然可能导致获取的情报信息出现误差,但是在没有相应的转码方案时,采用通用转码方案也能够实现页面信息的转码。
在一个实施例中,该方法还包括:当接收到导出该通用格式的情报信息的指令时,则根据该指令所指定的格式选取相应的转码方案;按照选取的转码方案将该通用格式的情报信息转换成该指定的格式的情报信息文档。
其中,指令所指定的格式具体是计算机语言格式,可以是json、jsonlines、csv、xml、marshal和pickle等格式中的至少一种。情报信息文档是承载情报信息的文档。
在一个实施例中,服务器接收到终端发送的导出情报信息的指令时,解析该指令,确定该指令所指定的格式是xml,选取相应的转码方案,将通用格式的情报信息转换成xml格式的情报信息,并导出到文档中。服务器将导出到文档的情报信息通过邮件发送给相应的终端。
本实施例中,在接收到导出通用格式的情报信息的指令时,通过将通用格式的情报信息转换成指定格式的情报信息文档,可以加大情报信息的应用范围,使得情报信息的有效性增加。
在一个实施例中,该按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符之后,该方法还包括:根据选取的种子资源定位符计算出相应的校验码;当检测到该校验码的数值不在当前的爬虫引擎被分配的区间内时,则将数值不在当前的爬虫引擎被分配的区间内的校验码相应的种子资源定位符传递至下一个爬虫引擎,直至确定该校验码的数值在传递至的爬虫引擎被分配的区间内。
其中,校验码是区分种子资源定位符的符号。校验码具体可以是哈希值。哈希值是种子资源定位符根据哈希算法计算得到的数值。具体地,根据选取的种子资源定位符计算出相应的校验码,可以是根据预先设置的哈希算法将种子资源定位符转换成四十位的哈希值。
本实施例中,通过使用校验码区分种子资源定位符,并使用校验码在被分配的区间内的爬虫引擎选取相应的种子资源定位符,可以简单方便地管理多个爬虫引擎,避免爬虫引擎根据相同的种子资源定位符重复搜集情报信息,提高搜集情报信息的效率。
在一个实施例中,该方法还包括:获取被选取的种子资源定位符相应的网站标识;统计相同网站标识的种子资源定位符被选取的次数;根据统计出的次数确定该网站标识对应的优先级;按照该优先级重新排列该情报信息搜集列表中该种子资源定位符的排列顺序。
其中,网站标识是区分网站的标识。网站标识具体可以是一级域名,也可以是网站名称。具体地,根据统计出的次数确定该网站标识对应的优先级,可以是服务器根据统计出的次数,将次数最多的网站标识添加最高等级的优先级,并依照统计出的次数,依次调整其它网站标识的优先级。
在一个实施例中,服务器解析种子资源定位符,获取种子资源定位符中的一级域名,并且统计相同一级域名的种子资源定位符被选取的次数,根据统计出的次数确定该一级域名对应的优先级。服务器按照确定的优先级重新排列情报信息搜集列表中种子资源定位符的排列顺序,将优先级高的一级域名对应的种子资源定位符排列到优先级低的一级域名对应的种子资源定位符前面。
本实施例中,通过按照相同网站标识的种子资源定位符被选取的次数确定网站标识对应的优先级,并按照优先级重新排列情报信息搜集列表中种子资源定位符的排列顺序,可以优先选取优先级高的网站标识相应的种子资源定位符,从而可以搜集到更多的情报信息。
在一个实施例中,该根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息,包括:根据该选取的种子资源定位符与相应的服务器建立连接;使用该爬虫引擎从建立连接的服务器上获取页面信息相应的页面文件;解析该页面文件,得到该页面文件的源代码;在该源代码中选取路径表达式所指定的源代码。
其中,路径表达式(xpath)具体是用于定位文档中的节点,如元素节点、属性节点和文本节点。
在一个实施例中,服务器根据选取的种子资源定位符与相应的页面服务器建立连接,使用爬虫引擎从建立连接的页面服务器上下载种子资源定位符相应的页面文件,解析下载的页面文件,得到页面文件的源代码,并按照路径表达式从该源代码中选取路径表达式所指定的源代码。
本实施例中,在获取页面文件和相应的源代码后,从源代码中选取路径表达式所指定的源代码,可以选取到有效的情报信息,而避免获取无效的信息,从而提高了获取情报信息的效率。
在一个实施例中,该方法还包括:在系统日志中记录该爬虫引擎的运行记录;按照该运行记录中的关键词确定该运行记录相应的日志等级;在该系统日志中添加该运行记录相应的日志等级。
其中,系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。运行记录是爬虫引擎运行时产生的信息。日志等级具体可以是DEBUG(指定细粒度信息事件是最有用的应用程序调试)、ERROR(错误事件可能仍然允许应用程序继续运行)、FATAL(指定非常严重的错误事件,这可能导致应用程序中止)、INFO(指定能够突出在粗粒度级别的应用程序运行情况的信息的消息)、OFF(这是最高等级,为了关闭日志记录)、TRACE(指定细粒度比DEBUG更低的信息事件)和WARN(指定具有潜在危害的情况)等中的至少一种。
在一个实施例中,服务器在系统日志中记录爬虫引擎的运行记录,当检测到运行记录中出现INFO语句时,将相应的运行记录标记位INFO等级。
本实施例中,通过将系统日志中的运行记录添加不同的日志等级,可以在需要调用系统日志时,调用到准确的运行记录,从而使得系统日志更加准确地记录爬虫引擎的运行记录。
在一个实施例中,服务器将有效的情报信息和无效信息混淆,得到混淆后的情报信息,将混淆后的情报信息写入页面的源代码中。在服务器接收到显示页面的指令时,根据无效信息将在页面上显示有效的情报信息。
在一个实施例中,服务器生成页面相应的统一资源定位符时,使用混淆过的JS脚本动态生成的钥匙来构建统一资源定位符,并在构建统一资源定位符时添加定时器。当定时器触发时,更新该页面的统一资源定位符。
如图3所示,在一个实施例中,还提供了一种情报信息的搜集方法,具体包括以下的步骤:
S302,服务器获取种子资源定位符。
S304,服务器根据该种子资源定位符生成情报信息搜集列表。
S306,服务器按照该情报信息搜集列表中种子资源定位符的排列顺序选取种子资源定位符。
S308,服务器根据选取的种子资源定位符计算出相应的校验码。
当服务器检测到该校验码的数值不在当前的爬虫引擎被分配的区间内时,则重复执行步骤S310。
S310,将数值不在当前的爬虫引擎被分配的区间内的校验码相应的种子资源定位符传递至下一个爬虫引擎。
直至服务器确定该校验码的数值在传递至的爬虫引擎被分配的区间内时,停止执行步骤S310。
S312,服务器获取被选取的种子资源定位符相应的网站标识。
S314,服务器统计相同网站标识的种子资源定位符被选取的次数。
S316,服务器根据统计出的次数确定该网站标识对应的优先级。
S318,服务器按照该优先级重新排列该情报信息搜集列表中该种子资源定位符的排列顺序。
S320,服务器根据该选取的种子资源定位符与相应的服务器建立连接。
S322,服务器使用该爬虫引擎从建立连接的服务器上获取页面信息相应的页面文件。
S324,服务器解析该页面文件,得到该页面文件的源代码。
S326,服务器在该源代码中选取路径表达式所指定的源代码。
S328,服务器从该页面信息中读取元信息。
S330,服务器根据该元信息获取该页面信息的编码格式。
S332,服务器根据该页面信息的编码格式选取预设转码方案。
当服务器检测到该页面信息的编码格式没有相应的预设转码方案时,则执行步骤S334。
S334,根据该预设转码方案中的通用转码方案将该页面信息转码,得到通用格式的情报信息。
上述情报信息的搜集方法,根据获取的种子资源定位符生成情报信息搜集列表,通过按照情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符,以根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息。在爬虫引擎获取到页面信息后,由于不同网站页面信息的编码格式大多都不相同,需要根据页面信息选取预设转码方案,而选取的预设转码方案是根据页面信息针对性地配置的转码方案,因此预设转码方案可以准确地将页面信息转码,而且预设转码方案是预先准备的方案,可以在获取页面信息后直接调用,减少配置的时间,从而使得在保证将页面信息转码成功的前提下,减少了将页面信息转码花费的时间,进而提高了搜集情报信息的工作效率。
应该理解的是,虽然图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种情报信息的搜集装置400,包括:定位符获取模块402、定位符筛选模块403、定位符添加模块404、定位符选取模块406、信息获取模块408、方案选取模块410和信息转码模块412,其中:定位符获取模块402,用于获取种子资源定位符;定位符筛选模块403,用于根据已搜集资源定位符列表筛选该种子资源定位符;定位符添加模块404,用于将筛选后的种子资源定位符加入情报信息搜集列表中;定位符选取模块406,用于按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符;信息获取模块408,用于根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息;方案选取模块410,用于根据该页面信息选取预设转码方案;信息转码模块412,用于根据该预设转码方案将该页面信息转码,得到通用格式的情报信息。
上述情报信息的搜集装置400,根据获取的种子资源定位符生成情报信息搜集列表,通过按照情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符,以根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息。在爬虫引擎获取到页面信息后,由于不同网站页面信息的编码格式大多都不相同,需要根据页面信息选取预设转码方案,而选取的预设转码方案是根据页面信息针对性地配置的转码方案,因此预设转码方案可以准确地将页面信息转码,而且预设转码方案是预先准备的方案,可以在获取页面信息后直接调用,减少配置的时间,从而使得在保证将页面信息转码成功的前提下,减少了将页面信息转码花费的时间,进而提高了搜集情报信息的工作效率。
如图5所示,在一个实施例中,该方案选取模块410,还包括:元信息读取模块410a,用于从该页面信息中读取元信息;编码格式获取模块410b,用于根据该元信息获取该页面信息的编码格式;转码方案选取模块410c,用于根据该页面信息的编码格式选取预设转码方案;该信息转码模块412,还用于当检测到该页面信息的编码格式没有相应的预设转码方案时,则根据该预设转码方案中的通用转码方案将该页面信息转码,得到通用格式的情报信息。
在一个实施例中,该转码方案选取模块408c,还用于当接收到导出该通用格式的情报信息的指令时,则根据该指令所指定的格式选取相应的转码方案;该信息转码模块412,还用于按照选取的转码方案将该通用格式的情报信息转换成该指定的格式的情报信息文档。
如图6所示,在一个实施例中,该装置还包括:计算模块414,用于根据选取的种子资源定位符计算出相应的校验码;定位符传递模块416,用于当检测到该校验码的数值不在当前的爬虫引擎被分配的区间内时,则将数值不在当前的爬虫引擎被分配的区间内的校验码相应的种子资源定位符传递至下一个爬虫引擎,直至确定该校验码的数值在传递至的爬虫引擎被分配的区间内。
如图7所示,在一个实施例中,该装置还包括:标识获取模块418,用于获取被选取的种子资源定位符相应的网站标识;次数统计模块420,用于统计相同网站标识的种子资源定位符被选取的次数;优先级确定模块422,用于根据统计出的次数确定该网站标识对应的优先级;顺序排列模块424,用于按照该优先级重新排列该情报信息搜集列表中该种子资源定位符的排列顺序。
如图8所示,在一个实施例中,该信息获取模块408包括:连接建立模块408a,根据该选取的种子资源定位符与相应的服务器建立连接;文件获取模块408b,使用该爬虫引擎从建立连接的服务器上获取页面信息相应的页面文件;页面解析模块408c,用于解析该页面文件,得到该页面文件的源代码;源代码获取模块408d,用于在该源代码中选取路径表达式所指定的源代码。
如图9所示,在一个实施例中,该装置还包括:日志记录模块426,用于在系统日志中记录该爬虫引擎的运行记录;等级确定模块428,用于按照该运行记录中的关键词确定该运行记录相应的日志等级;等级添加模块430,用于在该系统日志中添加该运行记录相应的日志等级。
关于情报信息的搜集装置400的具体限定可以参见上文中对于情报信息的搜集方法的限定,在此不再赘述。上述情报信息的搜集装置400中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储种子资源定位符和情报信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种情报信息的搜集方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取种子资源定位符;据已搜集资源定位符列表筛选该种子资源定位符;将筛选后的种子资源定位符加入情报信息搜集列表中;按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符;根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息;根据该页面信息选取预设转码方案;根据该预设转码方案将该页面信息转码,得到通用格式的情报信息。
上述计算机设备,根据获取的种子资源定位符生成情报信息搜集列表,通过按照情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符,以根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息。在爬虫引擎获取到页面信息后,由于不同网站页面信息的编码格式大多都不相同,需要根据页面信息选取预设转码方案,而选取的预设转码方案是根据页面信息针对性地配置的转码方案,因此预设转码方案可以准确地将页面信息转码,而且预设转码方案是预先准备的方案,可以在获取页面信息后直接调用,减少配置的时间,从而使得在保证将页面信息转码成功的前提下,减少了将页面信息转码花费的时间,进而提高了搜集情报信息的工作效率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从该页面信息中读取元信息;根据该元信息获取该页面信息的编码格式;根据该页面信息的编码格式选取预设转码方案;处理器执行计算机程序时还实现以下步骤:当检测到该页面信息的编码格式没有相应的预设转码方案时,则根据该预设转码方案中的通用转码方案将该页面信息转码,得到通用格式的情报信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当接收到导出该通用格式的情报信息的指令时,则根据该指令所指定的格式选取相应的转码方案;按照选取的转码方案将该通用格式的情报信息转换成该指定的格式的情报信息文档。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据选取的种子资源定位符计算出相应的校验码;当检测到该校验码的数值不在当前的爬虫引擎被分配的区间内时,则将数值不在当前的爬虫引擎被分配的区间内的校验码相应的种子资源定位符传递至下一个爬虫引擎,直至确定该校验码的数值在传递至的爬虫引擎被分配的区间内。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取被选取的种子资源定位符相应的网站标识;统计相同网站标识的种子资源定位符被选取的次数;根据统计出的次数确定该网站标识对应的优先级;按照该优先级重新排列该情报信息搜集列表中该种子资源定位符的排列顺序。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据该选取的种子资源定位符与相应的服务器建立连接;使用该爬虫引擎从建立连接的服务器上获取页面信息相应的页面文件;解析该页面文件,得到该页面文件的源代码;在该源代码中选取路径表达式所指定的源代码。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在系统日志中记录该爬虫引擎的运行记录;按照该运行记录中的关键词确定该运行记录相应的日志等级;在该系统日志中添加该运行记录相应的日志等级。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取种子资源定位符;根据已搜集资源定位符列表筛选该种子资源定位符;将筛选后的种子资源定位符加入情报信息搜集列表中;按照该情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符;根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息;根据该页面信息选取预设转码方案;根据该预设转码方案将该页面信息转码,得到通用格式的情报信息。
上述计算机可读存储介质,根据获取的种子资源定位符生成情报信息搜集列表,通过按照情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符,以根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息。在爬虫引擎获取到页面信息后,由于不同网站页面信息的编码格式大多都不相同,需要根据页面信息选取预设转码方案,而选取的预设转码方案是根据页面信息针对性地配置的转码方案,因此预设转码方案可以准确地将页面信息转码,而且预设转码方案是预先准备的方案,可以在获取页面信息后直接调用,减少配置的时间,从而使得在保证将页面信息转码成功的前提下,减少了将页面信息转码花费的时间,进而提高了搜集情报信息的工作效率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从该页面信息中读取元信息;根据该元信息获取该页面信息的编码格式;根据该页面信息的编码格式选取预设转码方案;处理器执行计算机程序时还实现以下步骤:当检测到该页面信息的编码格式没有相应的预设转码方案时,则根据该预设转码方案中的通用转码方案将该页面信息转码,得到通用格式的情报信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当接收到导出该通用格式的情报信息的指令时,则根据该指令所指定的格式选取相应的转码方案;按照选取的转码方案将该通用格式的情报信息转换成该指定的格式的情报信息文档。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据选取的种子资源定位符计算出相应的校验码;当检测到该校验码的数值不在当前的爬虫引擎被分配的区间内时,则将数值不在当前的爬虫引擎被分配的区间内的校验码相应的种子资源定位符传递至下一个爬虫引擎,直至确定该校验码的数值在传递至的爬虫引擎被分配的区间内。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取被选取的种子资源定位符相应的网站标识;统计相同网站标识的种子资源定位符被选取的次数;根据统计出的次数确定该网站标识对应的优先级;按照该优先级重新排列该情报信息搜集列表中该种子资源定位符的排列顺序。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据该选取的种子资源定位符与相应的服务器建立连接;使用该爬虫引擎从建立连接的服务器上获取页面信息相应的页面文件;解析该页面文件,得到该页面文件的源代码;在该源代码中选取路径表达式所指定的源代码。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在系统日志中记录该爬虫引擎的运行记录;按照该运行记录中的关键词确定该运行记录相应的日志等级;在该系统日志中添加该运行记录相应的日志等级。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种情报信息的搜集方法,所述方法包括:
获取种子资源定位符;
根据已搜集资源定位符列表筛选所述种子资源定位符;
将筛选后的种子资源定位符加入情报信息搜集列表中;
按照所述情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符;
根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息;
根据所述页面信息选取预设转码方案;
根据所述预设转码方案将所述页面信息转码,得到通用格式的情报信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述页面信息选取预设转码方案,包括:
从所述页面信息中读取元信息;
根据所述元信息获取所述页面信息的编码格式;
根据所述页面信息的编码格式选取预设转码方案;
所述根据预设转码方案将所述页面信息转码,得到通用格式的情报信息,包括:
当检测到所述页面信息的编码格式没有相应的预设转码方案时,则
根据所述预设转码方案中的通用转码方案将所述页面信息转码,得到通用格式的情报信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当接收到导出所述通用格式的情报信息的指令时,则
根据所述指令所指定的格式选取相应的转码方案;
按照选取的转码方案将所述通用格式的情报信息转换成所述指定的格式的情报信息文档。
4.根据权利要求1所述的方法,其特征在于,所述按照所述情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符之后,所述方法还包括:
根据选取的种子资源定位符计算出相应的校验码;
当检测到所述校验码的数值不在当前的爬虫引擎被分配的区间内时,则
将数值不在当前的爬虫引擎被分配的区间内的校验码相应的种子资源定位符传递至下一个爬虫引擎,直至确定所述校验码的数值在传递至的爬虫引擎被分配的区间内。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取被选取的种子资源定位符相应的网站标识;
统计相同网站标识的种子资源定位符被选取的次数;
根据统计出的次数确定所述网站标识对应的优先级;
按照所述优先级重新排列所述情报信息搜集列表中所述种子资源定位符的排列顺序。
6.根据权利要求1所述的方法,其特征在于,所述根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息,包括:
根据所述选取的种子资源定位符与相应的服务器建立连接;
使用所述爬虫引擎从建立连接的服务器上获取页面信息相应的页面文件;
解析所述页面文件,得到所述页面文件的源代码;
在所述源代码中选取路径表达式所指定的源代码。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在系统日志中记录所述爬虫引擎的运行记录;
按照所述运行记录中的关键词确定所述运行记录相应的日志等级;
在所述系统日志中添加所述运行记录相应的日志等级。
8.一种情报信息的搜集装置,其特征在于,所述装置包括:
定位符获取模块,用于获取种子资源定位符;
定位符筛选模块,用于根据已搜集资源定位符列表筛选所述种子资源定位符;
定位符添加模块,用于将筛选后的种子资源定位符加入情报信息搜集列表中;
定位符选取模块,用于按照所述情报信息搜集列表中种子资源定位符的排列顺序依次选取种子资源定位符;
信息获取模块,用于根据选取的种子资源定位符,使用爬虫引擎获取相应的页面信息;
方案选取模块,用于根据所述页面信息选取预设转码方案;
信息转码模块,用于根据所述预设转码方案将所述页面信息转码,得到通用格式的情报信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810128411.7A CN108256110A (zh) | 2018-02-08 | 2018-02-08 | 情报信息的搜集方法、装置、计算机设备和存储介质 |
PCT/CN2018/089065 WO2019153588A1 (zh) | 2018-02-08 | 2018-05-30 | 情报信息的搜集方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810128411.7A CN108256110A (zh) | 2018-02-08 | 2018-02-08 | 情报信息的搜集方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108256110A true CN108256110A (zh) | 2018-07-06 |
Family
ID=62744526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810128411.7A Pending CN108256110A (zh) | 2018-02-08 | 2018-02-08 | 情报信息的搜集方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108256110A (zh) |
WO (1) | WO2019153588A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463526A (zh) * | 2020-11-13 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种服务器状态的获取方法及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103841173A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种垂直网络蜘蛛 |
CN105468753A (zh) * | 2015-11-27 | 2016-04-06 | 北京金和网络股份有限公司 | 多编码格式数据显示系统及方法 |
US20160253155A1 (en) * | 2015-02-27 | 2016-09-01 | The Treeline Company | Apparatus and method for metaprogramming platform |
CN107025235A (zh) * | 2016-02-01 | 2017-08-08 | 北京国双科技有限公司 | 爬取网页的方法及装置 |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978430A (zh) * | 2015-07-10 | 2015-10-14 | 无锡天脉聚源传媒科技有限公司 | 一种数据处理方法及装置 |
CN106649810B (zh) * | 2016-12-29 | 2019-05-28 | 山东舜网传媒股份有限公司 | 基于Ajax的新闻网页动态数据的抓取方法及系统 |
-
2018
- 2018-02-08 CN CN201810128411.7A patent/CN108256110A/zh active Pending
- 2018-05-30 WO PCT/CN2018/089065 patent/WO2019153588A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103841173A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种垂直网络蜘蛛 |
US20160253155A1 (en) * | 2015-02-27 | 2016-09-01 | The Treeline Company | Apparatus and method for metaprogramming platform |
CN105468753A (zh) * | 2015-11-27 | 2016-04-06 | 北京金和网络股份有限公司 | 多编码格式数据显示系统及方法 |
CN107025235A (zh) * | 2016-02-01 | 2017-08-08 | 北京国双科技有限公司 | 爬取网页的方法及装置 |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
Non-Patent Citations (1)
Title |
---|
刘荣辉: "《大数据架构技术与实例分析》", 31 January 2018 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463526A (zh) * | 2020-11-13 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种服务器状态的获取方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019153588A1 (zh) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399293B (zh) | 系统测试方法、装置、计算机设备和存储介质 | |
CN110688307B (zh) | JavaScript代码检测方法、装置、设备和存储介质 | |
CN108628748B (zh) | 自动化测试管理方法和自动化测试管理系统 | |
CN107220274B (zh) | 一种可视化数据接口集市实现方法 | |
CN105335246B (zh) | 一种基于问答网站分析的程序崩溃缺陷自动修复方法 | |
CN112528602A (zh) | 一种医药文档结构化内容分析方法、系统和存储介质 | |
CN108632219A (zh) | 一种网站漏洞检测方法、检测服务器及系统 | |
CN104750463B (zh) | 一种插件开发方法及系统 | |
CN111709026B (zh) | 静态安全检测方法、装置、计算机设备和存储介质 | |
CN116089910B (zh) | 一种支持多种格式电子文档的密级检测方法 | |
CN105468511A (zh) | 网页脚本错误定位方法及装置 | |
CN112363706A (zh) | 一种嵌套组合的预处理方法及设备 | |
CN113254023B (zh) | 对象读取方法、装置和电子设备 | |
CN108256110A (zh) | 情报信息的搜集方法、装置、计算机设备和存储介质 | |
CN111190896B (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN116126997A (zh) | 一种文献去重存储方法、系统、设备及存储介质 | |
CN112925874B (zh) | 基于案例标记的相似代码搜索方法及系统 | |
CN110297960A (zh) | 一种基于配置的分布式公文数据采集系统 | |
CN101986303A (zh) | 应用dom解析引擎的数字电视hsml解析方法及系统 | |
CN107943872A (zh) | 图形化文件生成方法及系统 | |
CN117251384B (zh) | 一种接口自动化测试用例生成方法及系统 | |
CN116166617B (zh) | 开放版式文档ofd合并后的目录生成方法及装置 | |
CN116701810B (zh) | 一种网站操作回放方法以及装置 | |
CN116881930B (zh) | 一种基于orm框架的sql注入漏洞的分析方法与装置 | |
CN114201971B (zh) | 一种从网页中提取人物属性的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180706 |