CN110417873A - 一种实现记录网页交互操作的网络信息提取系统 - Google Patents

一种实现记录网页交互操作的网络信息提取系统 Download PDF

Info

Publication number
CN110417873A
CN110417873A CN201910608155.6A CN201910608155A CN110417873A CN 110417873 A CN110417873 A CN 110417873A CN 201910608155 A CN201910608155 A CN 201910608155A CN 110417873 A CN110417873 A CN 110417873A
Authority
CN
China
Prior art keywords
information
server
module
task
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910608155.6A
Other languages
English (en)
Other versions
CN110417873B (zh
Inventor
罗永秀
张华�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hongyi Software Technology Co Ltd
Original Assignee
Shanghai Hongyi Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hongyi Software Technology Co Ltd filed Critical Shanghai Hongyi Software Technology Co Ltd
Priority to CN201910608155.6A priority Critical patent/CN110417873B/zh
Publication of CN110417873A publication Critical patent/CN110417873A/zh
Application granted granted Critical
Publication of CN110417873B publication Critical patent/CN110417873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种实现记录网页交互操作的网络信息提取系统,包括浏览器插件和服务端。系统控制模块控制系统的启动关闭。任务管理模块使用户可以根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务可以根据用户需求配置不同的功能。交互操作录制模块,记录用户在当前浏览器中的操作,包括访问的网站地址及交互信息。服务端基于负载均衡和无头浏览器实现了网络信息的精确高效获取。

Description

一种实现记录网页交互操作的网络信息提取系统
技术领域
本发明涉及互联网技术领域,为一种使用浏览器插件技术实现记录网页交互操作的网络信息提取系统。
背景技术
随着互联网时代的到来,互联网信息数据正以极快的速度增长。随着大数据的发展,也迫切的需要一种快速、大量、稳定获取互联网信息的方法,因此网络信息提取系统有着非常广泛的应用前景。传统的网络信息提取方法大多是基于页面的静态分析,提取页面中的链接标签,从而获取其他页面的链接。这些网络信息提取系统主要针对企业级用户,功能单一,且不够灵活易用。基于分布式网络的网络信息提取系统的稳定性也较差,系统工作依赖于主节点,一旦主节点异常,整个网络提取系统就会瘫痪。而且由于每个从节点都要与主节点进行通信,资源分配的方式是按顺序分配,缺乏统一的资源调度,导致系统性能较差。
发明内容
有鉴于此,本发明提供一种解决或部分解决上述问题的一种使用浏览器插件技术实现记录网页交互操作的网络信息提取系统。
为达到上述技术方案的效果,本发明的技术方案为:一种使用浏览器插件技术实现记录网页交互操作的网络信息提取系统,包含以下:一种实现记录网页交互操作的网络信息提取系统,其特征在于,包括浏览器插件(A)、服务端(B)、网络模块(C);浏览器插件(A),包括系统控制模块(1)、任务管理模块(2)、交互操作录制模块(3),服务端(B),包括服务器模块(4)、数据存储模块(5);
浏览器插件(A)与服务端(B)通过网络模块(C)进行通信,浏览器插件(A) 将系统自定义的配置信息,包括:网络信息提取系统的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度;并通过网络模块(C),发送到服务端(B);服务端(B)根据配置信息提取网络信息;当网络信息提取完成时,服务端(B)通过网络模块(C)通知浏览器插件(A)信息提取完成,用户通过浏览器插件(A)的任务管理模块(2),查看信息提取结果报告和访问任务所提取的数据;其中信息提取结果报告包括:本次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;访问任务所提取的数据根据文件类型、文件大小、与主题相关度进行排序,并以不同的格式批量导出;
用户通过系统控制模块(1),供用户的个人信息及系统级的配置信息,控制网络信息提取系统的开启和关闭,当任务管理模块(2)创建的某一任务完成时,服务端(B),通过网络模块(C)将结果信息发送至系统控制模块(1)配置的邮箱中;查看每个网络信息提取任务的状态及结果;
任务管理模块(2),用户根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务根据用户需求配置不同的功能;任务管理模块(2)包括种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4);
种子信息配置模块(2-1)通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息;当用户选择URL时,指定一个或者多个URL地址。当用户选择关键字时,指定一个或者多个关键字,当用户选择网页交互信息录制时,将启动交互操作录制模块(3)进行交互操作录制;当任务管理模块(2)的任务启动时,将种子信息配置模块(2-1)配置的种子信息,通过网络模块(C) 发送至服务端(B);
智能匹配设置模块(2-2)基于N-Gram模糊匹配算法;在没有智能匹配的模式下,只严格按照种子信息配置模块(2-1)中所配置的内容抓取信息;在智能匹配模式下,将根据所给的种子信息,智能匹配相关信息,实现信息的抓取;
通过任务目标设置模块(2-3)设置任务执行时间、网络信息更新间隔、抓取网络信息数量;并发送至服务端(B),服务端(B)将根据信息执行网络信息抓取任务;
抓取结果管理模块(2-4)实时显示服务器端(B)返回的任务状态,包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率;并查看已完成任务的结果报告,本次任务中所提取的数据;其中信息提取结果报告包括:本信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;抓取数据按文件类型、文件大小、与主题相关度进行排序,并以不同的格式批量导出;
交互操作录制模块(3),记录用户在当前浏览器中的操作,包括访问的网站地址,交互信息,请求的html页面、JavaScript文件、监听到的触发的事件;将其通过网络模块(C)发送至服务端(B);
服务器模块(4),包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2)、数据存储模块(4-3);
负载均衡服务器(4-1),采用加权轮询方法实现对网络信息抓取服务器(4-2) 的负载均衡控制;负载均衡服务器(4-1)每隔一定的时间依次访问所有网络信息抓取服务器(4-2),并根据当前网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重;按负载权重有小到大的顺序更新服务器状态队列,当有新任务到来时,优先分配给排在队列前面的信息抓取服务器,即当前负载较少的服务器;
网络信息抓取服务器(4-2),接收负载均衡服务器(4-1)的调度,根据浏览器插件(A)提供的种子信息及任务配置信息,执行网络信息抓取任务,并将结果保存至数据存储模块(4-3),同时向浏览器插件(A)发送任务完成或者异常信息;网络信息抓取服务器(4-2),基于无头浏览器Headless Chrome;当接收到的种子信息为URL时,通过调用浏览器内核的API,访问种子URL,获取页面的DOM信息及请求的JavaScript文件;然后基于进行深度优先遍历,扫描DOM信息中的所有链接,及绑定的事件,根据绑定事件列表扫描JavaScript文件,并依次触发,重复上述步骤,获得所有URL链接,然后对URL进行去重,并按照网站信用评价数据表中存储的网站信用分数,将信用分数低于30的URL去除,剩余URL按照信用分数,依次进行信息提取;当接收到的种子信息为关键字时,启动关键字搜索引擎,将搜索结果作为种子URL,然后执行URL为原始种子的信息抓取步骤;当接收到的种子信息为交互操作录制模块(3)录制的交互信息时,将启动无头浏览器Headless Chrome,执行录制的交互信息,抓取过程中所有的数据;网络信息抓取服务器(4-2)接收智能匹配设置模块(2-2)的控制,根据智能匹配的程度动态抓取与种子信息相关的数据;数据存储模块(5)接收由网络信息抓取服务器 (4-2)抓取的网络信息,当抓取任务完成时用户通过浏览器插件(A),访问数据存储模块(5)中的所有数据。
附图说明
图1是一种实现记录网页交互操作的网络信息提取系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例1:下面将对一种使用浏览器插件技术实现记录网页交互操作的网络信息提取系统的应用场景举例如下:
一种使用浏览器插件技术实现记录网页交互操作的网络信息提取系统,包含浏览器插件(A)、服务端(B)、网络模块(C),其特征在于,所述浏览器插件(A),包括系统控制模块(1)、任务管理模块(2)、交互操作录制模块(3),所述服务端(B),包括服务器模块(4)、数据存储模块(5);
浏览器插件(A)与所述服务端(B)通过所述网络模块(C)进行通信,所述浏览器插件(A)将系统的自定义配置信息,包括:网络信息提取系统的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度,通过所述网络模块(C),发送到所述服务端(B);所述服务端(B)根据配置信息提取网络信息;当网络信息提取完成时,所述服务端(B)通过所述网络模块(C)通知所述浏览器插件(A)信息提取完成,用户可以通过所述浏览器插件(A)的所述任务管理模块(2),查看信息提取结果报告,访问该任务所提取的数据;其中信息提取结果报告包括:该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;提取数据可以按文件类型、文件大小、与主题相关度进行排序,并能以不同的格式批量导出;
系统控制模块(1),用户通过该模块,供用户的个人信息及系统级的配置信息,控制网络信息提取系统的开启和关闭,当所述任务管理模块(2)创建的某一任务完成时,所述服务端(B),通过所述网络模块(C)将结果信息发送至所述系统控制模块(1)配置的邮箱中。查看每个网络信息提取任务的状态及结果;
任务管理模块(2),用户可以根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务可以根据用户需求配置不同的功能;所述任务管理模块(2),包括:种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4);
种子信息配置模块(2-1),该模块可以通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息;当用户选择URL时,可以指定一个或者多个URL地址。当用户选择关键字时,可以指定一个或者多个关键字,当用户选择网页交互信息录制时,将启动所述交互操作录制模块(3)进行交互操作录制;当所述任务管理模块(2)的任务启动时,将所述种子信息配置模块(2-1)配置的种子信息,通过所述网络模块(C)发送至所述服务端(B);
智能匹配设置模块(2-2),基于N-Gram模糊匹配算法。在没有智能匹配的模式下,该系统只严格按照所述种子信息配置模块(2-1)中所配置的内容抓取信息;在智能匹配模式下,将根据所给的种子信息,智能匹配相关信息,实现相关信息的抓取;
任务目标设置模块(2-3),通过该模块可以设置任务执行时间、网络信息更新间隔、抓取网络信息数量;并发送至所述服务端(B),所述服务端(B)将根据该信息执行网络信息抓取任务;
抓取结果管理模块(2-4),该模块实时显示服务器端(B)返回的任务状态,包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率;并可以查看已完成任务的结果报告,该次任务中所提取的数据;其中信息提取结果报告包括:该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;抓取数据可以按文件类型、文件大小、与主题相关度进行排序,并能以不同的格式批量导出;
交互操作录制模块(3),记录用户在当前浏览器中的操作,包括访问的网站地址,及交互信息;将其通过所述网络模块(C)发送至所述服务端(B);
服务器模块(4),包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2)、数据存储模块(4-3);
负载均衡服务器(4-1),采用加权轮询方法,实现对所述网络信息抓取服务器 (4-2)的负载均衡控制;所述负载均衡服务器(4-1)每隔一定的时间依次访问所有所述网络信息抓取服务器(4-2),并根据当前所述网络信息抓取服务器(4-2) 的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重;按负载权重有小到大的顺序更新服务器状态队列,当有新任务到来时,优先分配给排在队列前面的信息抓取服务器,即当前负载较少的服务器;
网络信息抓取服务器(4-2),接收所述负载均衡服务器(4-1)的调度,根据所述浏览器插件(A)提供的种子信息及任务配置信息,执行网络信息抓取任务,并将结果保存至所述数据存储模块(4-3),同时向所述浏览器插件(A)发送任务完成或者异常信息;所述网络信息抓取服务器(4-2),基于无头浏览器Headless Chrome;当接收到的种子信息为URL时,通过调用浏览器内核的API,访问种子 URL,获取该页面的DOM信息及请求的JavaScript文件;然后基于进行深度优先遍历,扫描DOM信息中的所有链接,及绑定的事件,根据绑定事件列表扫描 JavaScript文件,并依次触发,重复上述步骤,获得所有URL链接,然后对URL 进行去重,并按照网站信用评价数据表中存储的网站信用分数,将信用分数低于 30的URL去除,剩余URL按照信用分数,依次进行信息提取;当接收到的种子信息为关键字时,启动关键字搜索引擎,将搜索结果作为种子URL,然后执行URL 为原始种子的信息抓取步骤;当接收到的种子信息为所述交互操作录制模块(3) 录制的交互信息时,将启动无头浏览器Headless Chrome,执行录制的交互信息,抓取该过程中所有的数据;所述网络信息抓取服务器(4-2),也接收所述智能匹配设置模块(2-2)的控制,根据智能匹配的程度,动态抓取与种子信息相关的数据;
数据存储模块(4-3),接收由所述网络信息抓取服务器(4-2)抓取的网络信息,当抓取任务完成时,用户可以通过任务完成时发送的链接,访问该模块中的所有数据;
浏览器插件(A),包括系统控制模块(1)、任务管理模块(2)、交互操作录制模块(3),服务端(B),包括服务器模块(4)、数据存储模块(5);
浏览器插件(A)与服务端(B)通过网络模块(C)进行通信,浏览器插件(A) 将系统的自定义配置信息,包括:网络信息提取系统的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度,通过网络模块(C),发送到服务端(B);服务端(B)根据配置信息提取网络信息;当网络信息提取完成时,服务端(B)通过网络模块(C)通知浏览器插件(A)信息提取完成,用户可以通过浏览器插件(A)的任务管理模块(2),查看信息提取结果报告,访问该任务所提取的数据;其中信息提取结果报告包括:该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;提取数据可以按文件类型、文件大小、与主题相关度进行排序,并能以不同的格式批量导出;
系统控制模块(1),用户通过该模块,供用户的个人信息及系统级的配置信息,控制网络信息提取系统的开启和关闭,当任务管理模块(2)创建的某一任务完成时,服务端(B),通过网络模块(C)将结果信息发送至系统控制模块(1)配置的邮箱中。查看每个网络信息提取任务的状态及结果;
任务管理模块(2),用户可以根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务可以根据用户需求配置不同的功能;任务管理模块(2),包括:种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4);
种子信息配置模块(2-1),该模块可以通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息;当用户选择URL时,可以指定一个或者多个URL地址。当用户选择关键字时,可以指定一个或者多个关键字,当用户选择网页交互信息录制时,将启动交互操作录制模块(3)进行交互操作录制;当任务管理模块(2)的任务启动时,将种子信息配置模块(2-1)配置的种子信息,通过网络模块(C)发送至服务端(B);
智能匹配设置模块(2-2),基于N-Gram模糊匹配算法。在没有智能匹配的模式下,该系统只严格按照种子信息配置模块(2-1)中所配置的内容抓取信息;在智能匹配模式下,将根据所给的种子信息,智能匹配相关信息,实现相关信息的抓取;
任务目标设置模块(2-3),通过该模块可以设置任务执行时间、网络信息更新间隔、抓取网络信息数量;并发送至服务端(B),服务端(B)将根据该信息执行网络信息抓取任务;
抓取结果管理模块(2-4),该模块实时显示服务器端(B)返回的任务状态,包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率;并可以查看已完成任务的结果报告,该次任务中所提取的数据;其中信息提取结果报告包括:该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;抓取数据可以按文件类型、文件大小、与主题相关度进行排序,并能以不同的格式批量导出;
交互操作录制模块(3),记录用户在当前浏览器中的操作,包括访问的网站地址,及交互信息;将其通过网络模块(C)发送至服务端(B);
服务器模块(4),包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2)、数据存储模块(4-3);
负载均衡服务器(4-1),采用加权轮询方法,实现对网络信息抓取服务器(4-2) 的负载均衡控制;负载均衡服务器(4-1)每隔一定的时间依次访问所有网络信息抓取服务器(4-2),并根据当前网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重;按负载权重有小到大的顺序更新服务器状态队列,当有新任务到来时,优先分配给排在队列前面的信息抓取服务器,即当前负载较少的服务器;
网络信息抓取服务器(4-2),接收负载均衡服务器(4-1)的调度,根据浏览器插件(A)提供的种子信息及任务配置信息,执行网络信息抓取任务,并将结果保存至数据存储模块(4-3),同时向浏览器插件(A)发送任务完成或者异常信息;网络信息抓取服务器(4-2),基于无头浏览器Headless Chrome;当接收到的种子信息为URL时,通过调用浏览器内核的API,访问种子URL,获取该页面的DOM 信息及请求的JavaScript文件;然后基于进行深度优先遍历,扫描DOM信息中的所有链接,及绑定的事件,根据绑定事件列表扫描JavaScript文件,并依次触发,重复上述步骤,获得所有URL链接,然后对URL进行去重,并按照网站信用评价数据表中存储的网站信用分数,将信用分数低于30的URL去除,剩余URL按照信用分数,依次进行信息提取;当接收到的种子信息为关键字时,启动关键字搜索引擎,将搜索结果作为种子URL,然后执行URL为原始种子的信息抓取步骤;当接收到的种子信息为交互操作录制模块(3)录制的交互信息时,将启动无头浏览器Headless Chrome,执行录制的交互信息,抓取该过程中所有的数据;网络信息抓取服务器(4-2),也接收智能匹配设置模块(2-2)的控制,根据智能匹配的程度,动态抓取与种子信息相关的数据;
数据存储模块(4-3),接收由网络信息抓取服务器(4-2)抓取的网络信息,当抓取任务完成时,用户可以通过任务完成时发送的链接,访问该模块中的所有数据;
本发明的有益成果为:本发明提供了一种使用浏览器插件技术实现记录网页交互操作的网络信息提取系统,基于浏览器插件,提供了多种灵活的种子信息配置方案及任务管理方案,尤其提供了一种简单快速的基于网页信息交互操作的种子信息设置方案。服务端基于负载均衡和无头浏览器实现了网络信息的精确高效获取。
以上仅为本发明之较佳实施例,并非用以限定本发明的权利要求保护范围。同时以上说明,对于相关技术领域的技术人员应可以理解及实施,因此其他基于本发明所揭示内容所完成的等同改变,均应包含在本权利要求书的涵盖范围内。

Claims (1)

1.一种实现记录网页交互操作的网络信息提取系统,其特征在于,包括浏览器插件(A)、服务端(B)、网络模块(C);所述浏览器插件(A),包括系统控制模块(1)、任务管理模块(2)、交互操作录制模块(3),所述服务端(B),包括服务器模块(4)、数据存储模块(5);
所述浏览器插件(A)与所述服务端(B)通过所述网络模块(C)进行通信,所述浏览器插件(A)将系统自定义的配置信息,包括:网络信息提取系统的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度;并通过所述网络模块(C),发送到所述服务端(B);所述服务端(B)根据配置信息提取网络信息;当网络信息提取完成时,所述服务端(B)通过所述网络模块(C)通知所述浏览器插件(A)信息提取完成,用户通过所述浏览器插件(A)的所述任务管理模块(2),查看信息提取结果报告和访问任务所提取的数据;其中信息提取结果报告包括:本次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;访问任务所提取的数据根据文件类型、文件大小、与主题相关度进行排序,并以不同的格式批量导出;
用户通过所述系统控制模块(1),供用户的个人信息及系统级的配置信息,控制网络信息提取系统的开启和关闭,当所述任务管理模块(2)创建的某一任务完成时,所述服务端(B),通过所述网络模块(C)将结果信息发送至所述系统控制模块(1)配置的邮箱中;查看每个网络信息提取任务的状态及结果;
所述任务管理模块(2),用户根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务根据用户需求配置不同的功能;所述任务管理模块(2)包括种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4);
所述种子信息配置模块(2-1)通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息;当用户选择URL时,指定一个或者多个URL地址。当用户选择关键字时,指定一个或者多个关键字,当用户选择网页交互信息录制时,将启动所述交互操作录制模块(3)进行交互操作录制;当所述任务管理模块(2)的任务启动时,将所述种子信息配置模块(2-1)配置的种子信息,通过所述网络模块(C)发送至所述服务端(B);
所述智能匹配设置模块(2-2)基于N-Gram模糊匹配算法;在没有智能匹配的模式下,只严格按照所述种子信息配置模块(2-1)中所配置的内容抓取信息;在智能匹配模式下,将根据所给的种子信息,智能匹配相关信息,实现信息的抓取;
通过所述任务目标设置模块(2-3)设置任务执行时间、网络信息更新间隔、抓取网络信息数量;并发送至所述服务端(B),所述服务端(B)将根据信息执行网络信息抓取任务;
所述抓取结果管理模块(2-4)实时显示服务器端(B)返回的任务状态,包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率;并查看已完成任务的结果报告,本次任务中所提取的数据;其中信息提取结果报告包括:本信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;抓取数据按文件类型、文件大小、与主题相关度进行排序,并以不同的格式批量导出;
所述交互操作录制模块(3),记录用户在当前浏览器中的操作,包括访问的网站地址,交互信息,请求的html页面、JavaScript文件、监听到的触发的事件;将其通过所述网络模块(C)发送至所述服务端(B);
所述服务器模块(4),包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2)、数据存储模块(4-3);
所述负载均衡服务器(4-1),采用加权轮询方法实现对所述网络信息抓取服务器(4-2)的负载均衡控制;所述负载均衡服务器(4-1)每隔一定的时间依次访问所有所述网络信息抓取服务器(4-2),并根据当前所述网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重;按负载权重有小到大的顺序更新服务器状态队列,当有新任务到来时,优先分配给排在队列前面的信息抓取服务器,即当前负载较少的服务器;
所述网络信息抓取服务器(4-2),接收所述负载均衡服务器(4-1)的调度,根据所述浏览器插件(A)提供的种子信息及任务配置信息,执行网络信息抓取任务,并将结果保存至所述数据存储模块(4-3),同时向所述浏览器插件(A)发送任务完成或者异常信息;所述网络信息抓取服务器(4-2),基于无头浏览器Headless Chrome;当接收到的种子信息为URL时,通过调用浏览器内核的API,访问种子URL,获取页面的DOM信息及请求的JavaScript文件;然后基于进行深度优先遍历,扫描DOM信息中的所有链接,及绑定的事件,根据绑定事件列表扫描JavaScript文件,并依次触发,重复上述步骤,获得所有URL链接,然后对URL进行去重,并按照网站信用评价数据表中存储的网站信用分数,将信用分数低于30的URL去除,剩余URL按照信用分数,依次进行信息提取;当接收到的种子信息为关键字时,启动关键字搜索引擎,将搜索结果作为种子URL,然后执行URL为原始种子的信息抓取步骤;当接收到的种子信息为所述交互操作录制模块(3)录制的交互信息时,将启动无头浏览器HeadlessChrome,执行录制的交互信息,抓取过程中所有的数据;所述网络信息抓取服务器(4-2)接收所述智能匹配设置模块(2-2)的控制,根据智能匹配的程度动态抓取与种子信息相关的数据;所述数据存储模块(5)接收由所述网络信息抓取服务器(4-2)抓取的网络信息,当抓取任务完成时用户通过所述浏览器插件(A),访问所述数据存储模块(5)中的所有数据。
CN201910608155.6A 2019-07-08 2019-07-08 一种实现记录网页交互操作的网络信息提取系统 Active CN110417873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910608155.6A CN110417873B (zh) 2019-07-08 2019-07-08 一种实现记录网页交互操作的网络信息提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910608155.6A CN110417873B (zh) 2019-07-08 2019-07-08 一种实现记录网页交互操作的网络信息提取系统

Publications (2)

Publication Number Publication Date
CN110417873A true CN110417873A (zh) 2019-11-05
CN110417873B CN110417873B (zh) 2021-04-02

Family

ID=68360526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910608155.6A Active CN110417873B (zh) 2019-07-08 2019-07-08 一种实现记录网页交互操作的网络信息提取系统

Country Status (1)

Country Link
CN (1) CN110417873B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177177A (zh) * 2019-12-02 2020-05-19 国网吉林省电力有限公司吉林供电公司 一种基于多源异构数据融合的自动报表系统及其方法
CN111428115A (zh) * 2020-04-16 2020-07-17 行吟信息科技(上海)有限公司 一种网页信息处理方法及装置
CN112994968A (zh) * 2019-12-17 2021-06-18 北京沃东天骏信息技术有限公司 一种网络信息采集方法、服务器、终端和系统
CN113407760A (zh) * 2021-08-18 2021-09-17 云上(江西)大数据发展有限公司 一种用于共享平台的政务数据分析系统
CN115086752A (zh) * 2022-07-21 2022-09-20 南京百家云科技有限公司 一种针对浏览器页面内容的录制方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095681A (zh) * 2012-12-03 2013-05-08 微梦创科网络科技(中国)有限公司 一种检测漏洞的方法及装置
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和系统
CN105678170A (zh) * 2016-01-05 2016-06-15 广东工业大学 一种动态检测xss漏洞的方法
CN109471993A (zh) * 2018-10-09 2019-03-15 重庆易保全网络科技有限公司 在线实时网页取证方法、装置、存储介质及设备
CN109597927A (zh) * 2018-12-05 2019-04-09 贵阳高新数通信息有限公司 招投标相关网页页面信息提取方法及系统
CN109710830A (zh) * 2018-12-28 2019-05-03 四川新网银行股份有限公司 一种基于浏览器插件的分布式网络爬虫方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095681A (zh) * 2012-12-03 2013-05-08 微梦创科网络科技(中国)有限公司 一种检测漏洞的方法及装置
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和系统
CN105678170A (zh) * 2016-01-05 2016-06-15 广东工业大学 一种动态检测xss漏洞的方法
CN109471993A (zh) * 2018-10-09 2019-03-15 重庆易保全网络科技有限公司 在线实时网页取证方法、装置、存储介质及设备
CN109597927A (zh) * 2018-12-05 2019-04-09 贵阳高新数通信息有限公司 招投标相关网页页面信息提取方法及系统
CN109710830A (zh) * 2018-12-28 2019-05-03 四川新网银行股份有限公司 一种基于浏览器插件的分布式网络爬虫方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177177A (zh) * 2019-12-02 2020-05-19 国网吉林省电力有限公司吉林供电公司 一种基于多源异构数据融合的自动报表系统及其方法
CN111177177B (zh) * 2019-12-02 2023-06-16 国网吉林省电力有限公司吉林供电公司 一种基于多源异构数据融合的自动报表系统及其方法
CN112994968A (zh) * 2019-12-17 2021-06-18 北京沃东天骏信息技术有限公司 一种网络信息采集方法、服务器、终端和系统
CN112994968B (zh) * 2019-12-17 2023-05-02 北京沃东天骏信息技术有限公司 一种网络信息采集方法、服务器、终端和系统
CN111428115A (zh) * 2020-04-16 2020-07-17 行吟信息科技(上海)有限公司 一种网页信息处理方法及装置
CN113407760A (zh) * 2021-08-18 2021-09-17 云上(江西)大数据发展有限公司 一种用于共享平台的政务数据分析系统
CN115086752A (zh) * 2022-07-21 2022-09-20 南京百家云科技有限公司 一种针对浏览器页面内容的录制方法、系统及存储介质
CN115086752B (zh) * 2022-07-21 2022-11-08 南京百家云科技有限公司 一种针对浏览器页面内容的录制方法、系统及存储介质

Also Published As

Publication number Publication date
CN110417873B (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN110417873A (zh) 一种实现记录网页交互操作的网络信息提取系统
CN102819591B (zh) 一种基于内容的网页分类方法及系统
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务系统
CN104216921B (zh) 一种实现浏览器中快速链接的添加提示方法、装置及系统
CN110413864A (zh) 一种网络安全情报采集方法、装置、设备及存储介质
CN105512153A (zh) 一种在线客服系统的服务提供方法、装置及系统
CN106407078B (zh) 基于信息交互的客户端性能监控装置及方法
CN109800244A (zh) 一种在线考试数据处理方法及系统
CN106033428B (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
US8468195B1 (en) System and method for controlling an exchange of information in a network environment
CN107766509A (zh) 一种网页静态备份的方法和装置
CN104699529B (zh) 一种信息获取方法及装置
CN107291956B (zh) 一种快速查询网站搜录信息的系统及方法
CN105224691A (zh) 一种信息处理方法及装置
CN107577748A (zh) 基于大数据的建筑行业信息采集系统及其方法
CN109213919A (zh) 一种基于互联网的信息技术咨询服务系统
CN108108445A (zh) 一种智能数据处理方法和系统
CN110968571A (zh) 面向金融信息服务的大数据分析与处理平台
CN110222253A (zh) 一种数据采集方法、设备及计算机可读存储介质
CN109150585A (zh) 一种网络运维故障解决方法、系统、装置和存储介质
CN110034970A (zh) 网络设备区分判别方法及装置
CN104902498A (zh) 用户重入网识别方法和装置
CN103023944B (zh) 一种sns网络中推送关联用户的方法及系统
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
US20040025055A1 (en) Online recognition of robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant