CN111343253A - 一种信息提取方法及系统 - Google Patents
一种信息提取方法及系统 Download PDFInfo
- Publication number
- CN111343253A CN111343253A CN202010095181.6A CN202010095181A CN111343253A CN 111343253 A CN111343253 A CN 111343253A CN 202010095181 A CN202010095181 A CN 202010095181A CN 111343253 A CN111343253 A CN 111343253A
- Authority
- CN
- China
- Prior art keywords
- proxy
- information extraction
- server
- public network
- pool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 206
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000004044 response Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/59—Network arrangements, protocols or services for addressing or naming using proxies for addressing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
- H04L69/161—Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields
- H04L69/162—Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields involving adaptations of sockets based mechanisms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供一种信息提取方法及系统,所述方法包括步骤:信息提取服务器发送信息提取代理服务请求至代理服务器;所述代理服务器将所述信息提取代理服务请求分发给代理池中的公网代理IP,并通过所述公网代理IP向目标页面发起信息提取请求;所述公网代理IP为从公网中信息提取得到的有效代理IP;所述代理服务器获取所述公网代理IP返回的信息提取结果,并发送给所述信息提取服务器。采用上述方法,可以自动获取可用资源,减少占用自身资源进行信息提取,降低了企业成本。
Description
技术领域
本发明属于网络信息提取技术领域,具体涉及一种信息提取方法及系统。
背景技术
在现代互联网环境中,企业经常需要通过网络信息提取来获得大量的数据信息。
但现在网络资源丰富,需要占用企业大量的信息提取资源,为此,企业也会采用使用一些代理IP进行信息提取,以降低内部资源占用。
但这些代理IP一般需要购买,增加了企业信息提取的成本,因此,如何进行信息提取以降低企业成本,是目前急需解决的问题。
发明内容
本申请的目的之一在于针对现有技术的不足之处,提供一种信息提取方法,以降低企业信息提取的成本,所述方法包括步骤:
信息提取服务器发送信息提取代理服务请求至代理服务器;
所述代理服务器将所述信息提取代理服务请求分发给代理池中的公网代理IP,并通过所述公网代理IP向目标页面发起信息提取请求;所述公网代理IP为从公网中信息提取得到的有效代理IP;
所述代理服务器获取所述公网代理IP返回的信息提取结果,并发送给所述信息提取服务器。
优选地,所述方法还包括:
所述信息提取服务器预先将信息提取代理服务的地址指定为代理服务器的地址。
优选地,所述信息提取服务器预先将信息提取代理服务的地址指定为代理服务器的地址包括:
所述信息提取服务器获取所有的所述信息提取代理服务的等级值;
所述信息提取服务器将每一所述等级值与预设阈值比较;
所述信息提取服务器将小于所述预设阈值的所述等级值对应的所述信息提取代理服务的地址指定为所述代理服务器的地址。
优选地,所述代理池中的所述公网代理IP通过如下步骤获得:
所述代理服务器实时检测检测公网获得公网中的所有代理IP;
所述代理服务器检测所有的所述代理IP的有效性;
所述代理服务器将有效的代理IP存入所述代理池中。
优选地,所述方法还包括:
在满足预设的触发条件时,检测所述代理池中存储的每一所述代理IP的有效性;
将失效的代理IP从所述代理池中剔除。
优选地,所述方法还包括:
所述信息提取服务器根据所述信息提取结果获取所述信息提取代理服务请求被响应的成功率值;
所述信息提取服务器判断所述成功率值是否小于预设阈值;
若是,所述信息提取服务器保持当前运行状态;
若否,所述信息提取服务器按照预设顺序逐一将所有的所述信息提取代理服务请求发送至所述代理服务器。
优选地,所述代理服务器搭建在隔离区;
所述代理服务器采用HttpClient和Jsoup技术检测所述公网;
所述代理池存储在Redis缓存中;
所述代理服务器使用Socket与所述信息提取服务器和所述公网IP进行信息传输。
本申请的目的之二在于针对现有技术的不足之处,提供一种信息提取系统,以降低企业信息提取的成本,所述系统包括:
信息提取服务器,用于发送信息提取代理服务请求至代理服务器;
所述代理服务器,用于将所述信息提取代理服务请求分发给代理池中的公网代理IP,并通过所述公网代理IP向目标页面发起信息提取请求;所述公网代理IP为从公网中信息提取得到的有效代理IP;
所述代理服务器,还用于获取所述公网代理IP返回的信息提取结果,并发送给所述信息提取服务器。
优选地,所述代理服务器,具体用于实时检测公网获得公网中的所有代理IP,检测所有的所述代理IP的有效性并将有效的代理IP存入所述代理池中。
优选地,所述代理服务器,还用于在满足预设的触发条件时,检测所述代理池中存储的每一所述代理IP的有效性并将失效的代理IP从所述代理池中剔除。
本申请的目的之三在于针对现有技术的不足之处,提供一种计算机系统,所述系统包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如上所述的方法。
有益效果:
本申请提供的一种信息提取方法及系统,可以预先获取有效的公网代理IP的资源,以便在有信息提取需求时,采用公网代理IP完成信息提取请求,降低了信息提取成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种信息提取方法实施例1的方法流程图;
图2是本发明提供的一种信息提取方法实施例2的方法流程图;
图3是本发明提供的一种信息提取方法实施例3的方法流程图;
图4是本发明提供的一种信息提取方法实施例4的方法流程图;
图5是本发明提供的一种信息提取方法实施例5的方法流程图;
图6是本发明提供的一种信息提取系统的结构示意图;
图7是本发明提供的一种计算机系统的结构示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
需要着重说明的是,本发明应用在被信息提取网站允许所有IP或者允许信息提取服务器所关联IP的信息提取请求的情形下,仅为减少内部资源占用之目的而采用。
为进一步保证在该情形下实施,以下所有实施例可先由信息提取服务器确定被信息提取网站是否允许信息提取服务器关联的IP进行信息提取,如确定被信息提取网站允许所有IP信息提取或被信息提取网站与所在企业有信息提取允许协议,在允许前提下,进行公网代理资源的获取和应用。
本申请实施例提供一种信息提取方法,该方法可以由一计算系统来执行,该计算系统可以实现为软件,或者实现为软件和硬件的组合,该计算系统可以集成设置在服务器、终端设备等中。
实施例1
如图1,在本申请实施例1中,本申请提供了一种信息提取方法,所述方法包括步骤:
S101:信息提取服务器发送信息提取代理服务请求至代理服务器。
在本步骤中,信息提取服务器向代理服务器发起信息提取代理服务请求,也即,当发起信息提取代理服务请求时,信息提取服务器向代理服务器发起请求命令。
S102:所述代理服务器将所述信息提取代理服务请求分发给代理池中的公网代理IP,并通过所述公网代理IP向目标页面发起信息提取请求;所述公网代理IP为从公网中信息提取得到的有效代理IP。
在本步骤中,当接收到信息提取服务器发送的信息提取代理服务请求时,代理服务器将其分发给代理池中的公网代理IP,并且使用此公网代理IP向目标页面发起信息提取请求;其中,公网代理IP为从公网中信息提取得到的有效代理IP。
S103:所述代理服务器获取所述公网代理IP返回的信息提取结果,并发送给所述信息提取服务器。
在本步骤中,代理服务器获取公网代理IP返回的信息提取结果,并发送给信息提取服务器,从而信息提取服务器可以获取信息提取结果。
在本申请实施例中,本申请提供的一种信息提取方法可以采用有效的公网代理IP完成信息提取服务器发起的信息提取请求,降低了信息提取服务器成本。
在本申请实施例中,实施例1中的一种信息提取方法还包括:
所述信息提取服务器预先将信息提取代理服务的地址指定为代理服务器的地址。
在步骤S101-S103之前,信息提取服务器预先将信息提取代理服务的地址指定为代理服务器的地址,也即,当进行信息提取代理服务时,在网络上的地址显示为代理服务器的地址。
实施例2
如图2,在本申请实施例2中,所述信息提取服务器预先将信息提取代理服务的地址指定为代理服务器的地址包括步骤:
S201:所述信息提取服务器获取所有的所述信息提取代理服务的等级值;
S202:所述信息提取服务器将每一所述等级值与预设阈值比较;
S203:所述信息提取服务器将小于所述预设阈值的所述等级值对应的所述信息提取代理服务的地址指定为所述代理服务器的地址。
下面举例对本实施例进行说明。
表1
信息提取代理服务 | 等级值 |
A | 2 |
B | 4 |
表1示出了信息提取代理服务A和信息提取代理服务B的等级值分别为2和4,而预设阈值为3,根据步骤S303中的原则,将信息提取代理服务A的地址指定为代理服务器的地址,也即,信息提取代理服务A采用实施例1中提供的一种信息提取方法,而信息提取代理服务B无法使用实施例1中提供的一种信息提取方法。
其中,等级值可以为数值,比如整数、小数、分数等;也可以为定义性词语,比如“重要”、“一般”等,对其形式不进行具体限制。
在本申请实施例中,本申请提供的一种信息提取方法可以根据信息提取代理服务的等级值与预设阈值的大小关系决定其地址是否指定为所述代理服务器的地址,增加了一种信息提取方法的灵活性。
实施例3
如图3,在本申请实施例3中,步骤S102中代理池中的公网代理IP通过如下步骤获得:
S301:所述代理服务器实时检测公网获得公网中的所有代理IP;
S302:所述代理服务器检测所有的所述代理IP的有效性;
S303:所述代理服务器将有效的代理IP存入所述代理池中。
通过步骤S301-S303,代理服务器实时检测公网中所有的代理IP,并检测这些代理IP的有效性,然后将有效可用的代理IP存入代理池中,代理池中的代理IP可以为一种信息提取方法的进行提供有效代理IP。
在本申请实施例中,代理服务器搭建在隔离区,可以与公网连接;代理服务器采用HttpClient和Jsoup技术从所述公网中检测有效的代理IP存入代理池,所述代理池存储在Redis缓存中。所述代理服务器使用Socket与所述信息提取服务器和所述公网IP进行信息传输。
在本申请实施例中,本申请提供的一种信息提取方法可以实时获取公网中的代理IP,并持续地为代理池提供有效可用的代理IP,为一种信息提取方法的进行提供代理IP资源。
实施例4
如图4,在本申请实施例4中,步骤S102中代理池中的公网代理IP的获取方法还包括如下步骤:
S401:在满足预设的触发条件时,检测所述代理池中存储的每一所述代理IP的有效性;
S402:将失效的代理IP从所述代理池中剔除。
由于公网中代理IP的有效性和时间存在密切关系,前1秒有效的代理IP可能在下一秒就失效,所以需要对代理池内的所有代理IP进行实时检测,判断其有效性,以确保代理池内的所有代理IP都是有效可用的。
通过步骤S401-S402,代理服务器对代理池内的所有代理IP均进行有效性的检测,剔除无效代理IP,确保代理池内所有代理IP都是有效的。
在本申请实施例中,本申请提供的一种信息提取方法可以实时检测代理池内代理IP的有效性,确保代理池内均为有效可用的代理IP,为一种信息提取方法的进行提供稳定有效的代理IP资源。
实施例5
如图5,在本申请实施例5中,实施例1中的一种信息提取方法还包括步骤:
S501:所述信息提取服务器根据所述信息提取结果获取所述信息提取代理服务请求被响应的成功率值;
S502:所述信息提取服务器判断所述成功率值是否小于预设阈值;
S503:若是,所述信息提取服务器保持当前运行状态;
S504:若否,所述信息提取服务器按照预设顺序逐一将所有的所述信息提取代理服务请求发送至所述代理服务器。
下面举例对本实施例进行说明。
表2
项目 | 信息提取请求个数 | 信息提取代理服务个数 | 成功运行个数 | 成功率 |
A | 10 | 5 | 4 | 0.8 |
B | 10 | 5 | 2 | 0.4 |
表2示出了项目A和项目B的具体情况:项目A和项目B均有10个信息提取请求,其中5个均由代理服务器采用信息提取代理服务的方式运行,剩余5个需要根据成功率值与预设阈值的比较结果,选择继续由代理服务器采用信息提取代理服务的方式运行,或者停止此种方式。
项目A中5个已进行的信息提取代理服务中,成功运行个数为4,成功率值为0.8;项目B中5个已进行的信息提取代理服务中,成功运行个数为2,成功率值为0.4;而预设阈值为0.5,则说明项目A采用由代理服务器采用信息提取代理服务的方式进行信息提取的结果达到了设计人员的预期,设计人员选择继续采用此种方式运行剩余5个信息提取请求,而项目B的信息提取结果未达到预期,剩余5个信息提取请求不再使用此种信息提取代理服务。
在本申请实施例中,本申请提供的一种信息提取方法可以根据信息提取代理服务的成功率值与预设阈值的大小关系来决定是否继续采用此种方法进行信息提取,增加了一种信息提取方法选择的灵活性。
实施例6
如图6,在本申请实施例6中,本申请提供了一种信息提取系统,所述系统包括:
信息提取服务器601,用于发送信息提取代理服务请求至代理服务器602;
所述代理服务器602,用于将所述信息提取代理服务请求分发给代理池中的公网代理IP,并通过所述公网代理IP向目标页面发起信息提取请求;所述公网代理IP为从公网中信息提取得到的有效代理IP;
所述代理服务器602,还用于获取所述公网代理IP返回的信息提取结果,并发送给所述信息提取服务器601。
进一步地,在本申请实施例中,所述代理服务器602,具体用于实时检测公网获得公网中的所有代理IP,检测所有的所述代理IP的有效性并将有效的代理IP存入所述代理池中。
进一步地,所述代理服务器602,还用于在满足预设的触发条件时,检测所述代理池中存储的每一所述代理IP的有效性并将失效的代理IP从所述代理池中剔除。
图6所示系统可以对应的执行上述方法实施例中的内容,本实施例未详细描述的部分,参照上述方法实施例中记载的内容,在此不再赘述。
实施例7
对应上述方法,本申请实施例7提供一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述实施例的方法步骤。
其中,图7示例性的展示出了计算机系统的架构,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520之间可以通过通信总线1530进行通信连接。
其中,处理器1510可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器1520可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521,用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器1523,数据存储管理系统1524,以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1520中,并由处理器1510来调用执行。
输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1530包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520)之间传输信息。
另外,该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,存储器1520,总线1530等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的方法及系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种信息提取方法,其特征在于,所述方法包括步骤:
信息提取服务器发送信息提取代理服务请求至代理服务器;
所述代理服务器将所述信息提取代理服务请求分发给代理池中的公网代理IP,并通过所述公网代理IP向目标页面发起信息提取请求;所述公网代理IP为预先从公网中获得的有效代理IP;
所述代理服务器获取所述公网代理IP返回的信息提取结果,并发送给所述信息提取服务器。
2.根据权利要求1所述的一种信息提取方法,其特征在于,所述方法还包括:
所述信息提取服务器预先将信息提取代理服务的地址指定为代理服务器的地址。
3.根据权利要求2所述的一种信息提取方法,其特征在于,所述信息提取服务器预先将信息提取代理服务的地址指定为代理服务器的地址包括:
所述信息提取服务器获取所有的所述信息提取代理服务的等级值;
所述信息提取服务器将每一所述等级值与预设阈值比较;
所述信息提取服务器将小于所述预设阈值的所述等级值对应的所述信息提取代理服务的地址指定为所述代理服务器的地址。
4.根据权利要求1所述的一种信息提取方法,其特征在于,所述代理池中的所述公网代理IP通过如下步骤获得:
所述代理服务器实时检测公网获得公网中的所有代理IP;
所述代理服务器检测所有的所述代理IP的有效性;
所述代理服务器将有效的代理IP存入所述代理池中。
5.根据权利要求4所述的一种信息提取方法,其特征在于,所述方法还包括:
在满足预设的触发条件时,检测所述代理池中存储的每一所述代理IP的有效性;
将失效的代理IP从所述代理池中剔除。
6.根据权利要求1所述的一种信息提取方法,其特征在于,所述方法还包括:
所述信息提取服务器根据所述信息提取结果获取所述信息提取代理服务请求被响应的成功率值;
所述信息提取服务器判断所述成功率值是否小于预设阈值;
若是,所述信息提取服务器保持当前运行状态;
若否,所述信息提取服务器按照预设顺序逐一将所有的所述信息提取代理服务请求发送至所述代理服务器。
7.根据权利要求4所述的一种信息提取方法,其特征在于,
所述代理服务器搭建在隔离区;
所述代理服务器采用HttpClient和Jsoup技术检测所述公网;
所述代理池存储在Redis缓存中;
所述代理服务器使用Socket与所述信息提取服务器和所述公网代理IP进行信息传输。
8.一种信息提取系统,其特征在于,所述系统包括:
信息提取服务器,用于发送信息提取代理服务请求至代理服务器;
所述代理服务器,用于将所述信息提取代理服务请求分发给代理池中的公网代理IP,并通过所述公网代理IP向目标页面发起信息提取请求;所述公网代理IP为从公网中信息提取得到的有效代理IP;
所述代理服务器,还用于获取所述公网代理IP返回的信息提取结果,并发送给所述信息提取服务器。
9.根据权利要求8所述的一种信息提取系统,其特征在于,所述代理服务器,具体用于实时检测公网获得公网中的所有代理IP,检测所有的所述代理IP的有效性并将有效的代理IP存入所述代理池中。
10.一种计算机系统,其特征在于,所述系统包括:
一个或多个处理器;以及
与所述处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述处理器读取执行时,执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095181.6A CN111343253A (zh) | 2020-02-14 | 2020-02-14 | 一种信息提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095181.6A CN111343253A (zh) | 2020-02-14 | 2020-02-14 | 一种信息提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111343253A true CN111343253A (zh) | 2020-06-26 |
Family
ID=71186040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010095181.6A Pending CN111343253A (zh) | 2020-02-14 | 2020-02-14 | 一种信息提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111343253A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462570A (zh) * | 2014-12-26 | 2015-03-25 | 小米科技有限责任公司 | 网页内容获取方法及装置 |
CN108595543A (zh) * | 2018-04-08 | 2018-09-28 | 北京知道创宇信息技术有限公司 | 数据抓取方法、装置及网络爬虫系统 |
CN110062025A (zh) * | 2019-03-14 | 2019-07-26 | 深圳绿米联创科技有限公司 | 数据采集的方法、装置、服务器及存储介质 |
-
2020
- 2020-02-14 CN CN202010095181.6A patent/CN111343253A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462570A (zh) * | 2014-12-26 | 2015-03-25 | 小米科技有限责任公司 | 网页内容获取方法及装置 |
CN108595543A (zh) * | 2018-04-08 | 2018-09-28 | 北京知道创宇信息技术有限公司 | 数据抓取方法、装置及网络爬虫系统 |
CN110062025A (zh) * | 2019-03-14 | 2019-07-26 | 深圳绿米联创科技有限公司 | 数据采集的方法、装置、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106534281B (zh) | 一种数据请求的响应方法、装置及系统 | |
CN114095567B (zh) | 数据访问请求的处理方法、装置、计算机设备及介质 | |
US9990214B2 (en) | Dynamic agent delivery | |
CN111125057B (zh) | 一种业务请求的处理方法、装置及计算机系统 | |
CN109144619B (zh) | 图标字体信息处理方法、装置及系统 | |
CN107239701B (zh) | 识别恶意网站的方法及装置 | |
US11080322B2 (en) | Search methods, servers, and systems | |
CN113259428A (zh) | 数据访问请求的处理方法、装置、计算机设备及介质 | |
WO2021047239A1 (zh) | 一种页面获取方法、装置及系统 | |
CN113890879B (zh) | 数据访问的负载均衡方法、装置、计算机设备及介质 | |
WO2020088170A1 (zh) | 域名系统配置方法及相关装置 | |
CN109495553A (zh) | 一种网页显示控制方法、系统及反向代理服务器 | |
CN114780615A (zh) | 错误码管理方法及其装置 | |
CN112968927A (zh) | 日志提取方法、日志提取装置、存储介质及电子设备 | |
US20170171357A1 (en) | Apparatus and method for assisting in downloading file successfully | |
WO2020238131A1 (zh) | 网络爬虫系统的测试方法及装置、存储介质、电子设备 | |
CN102301359B (zh) | 通过计算机之间的网络提供用户接口装置处的变化的指示 | |
CN111343253A (zh) | 一种信息提取方法及系统 | |
CN116361584A (zh) | 页面数据的处理方法、装置、计算机设备及存储介质 | |
CN113536168B (zh) | 组件处理方法及设备 | |
WO2015035899A1 (en) | Search methods and terminals | |
CN104539450A (zh) | 网站运营活动处理系统、方法和装置 | |
CN114138358A (zh) | 应用程序的启动优化方法、装置、设备和存储介质 | |
CN112491974A (zh) | 远程浏览方法、装置、存储介质、终端设备及服务器 | |
CN110007863B (zh) | 一种基于lib库接口的存储服务访问方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200626 |