CN103745017A - 信息抓取装置和方法 - Google Patents

信息抓取装置和方法 Download PDF

Info

Publication number
CN103745017A
CN103745017A CN201410046724.XA CN201410046724A CN103745017A CN 103745017 A CN103745017 A CN 103745017A CN 201410046724 A CN201410046724 A CN 201410046724A CN 103745017 A CN103745017 A CN 103745017A
Authority
CN
China
Prior art keywords
information
placement unit
execution module
module
capturing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410046724.XA
Other languages
English (en)
Other versions
CN103745017B (zh
Inventor
邓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northern Boundary Of Imagination (beijing) Software Co Ltd
Original Assignee
Northern Boundary Of Imagination (beijing) Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northern Boundary Of Imagination (beijing) Software Co Ltd filed Critical Northern Boundary Of Imagination (beijing) Software Co Ltd
Priority to CN201410046724.XA priority Critical patent/CN103745017B/zh
Publication of CN103745017A publication Critical patent/CN103745017A/zh
Application granted granted Critical
Publication of CN103745017B publication Critical patent/CN103745017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种信息抓取装置和方法,涉及互联网领域。信息抓取装置包括:抓取模块和执行模块,其中,抓取模块包括:识别单元,用于识别执行模块的类型;抓取单元,用于根据执行模块的类型抓取对应的信息,其中,抓取单元中预存了执行模块和所需抓取的信息之间的对应关系;执行模块分别与识别单元和抓取单元连接,用于获取抓取单元抓取的信息,并通过信息执行预设的任务。通过本发明的实施方式,能够减少信息抓取时所需的系统资源。

Description

信息抓取装置和方法
技术领域
本发明涉及互联网领域,特别涉及一种信息抓取装置和方法。
背景技术
当前的一些计算机/手机应用需要从互联网的海量信息中针对性地抓取和展示特定信息,抓取信息一般通过网络爬虫(简称爬虫)实现。现有技术中,一个爬虫只能服务于一个应用,例如A应用需抓取视频信息,B应用需抓取音频信息,C应用需抓取文本信息,那么A应用、B应用和C应用需要调用不同的爬虫进行信息的抓取,从而导致了一定的应用冗余和资源浪费。
发明内容
本发明实施例提供一种信息抓取装置和方法,以减少信息抓取时所需的系统资源。
本发明为了实现上述目的,提供一种信息抓取装置,该装置包括抓取模块和执行模块,其中,抓取模块包括:识别单元,用于识别执行模块的类型;抓取单元,用于根据执行模块的类型抓取对应的信息,其中,抓取单元中预存了执行模块和所需抓取的信息之间的对应关系;执行模块分别与识别单元和抓取单元连接,用于获取抓取单元抓取的信息,并通过信息执行预设的任务。
在一个实施例中,抓取单元包括:多个抓取模板,用于提供抓取策略,通过不同的抓取策略能够抓取不同的信息。
在一个实施例中,抓取模块还包括:控制单元,用于触发抓取单元,使抓取单元抓取执行模块所需的信息。
在一个实施例中,控制单元用于按先后顺序触发抓取单元。
在一个实施例中,控制单元还用于调用处于空闲状态的抓取单元。
本发明为了实现上述目的,还提供一种信息抓取方法,该方法包括:识别单元识别执行模块的类型;抓取单元根据执行模块的类型抓取对应的信息,其中,抓取单元中预存了执行模块和所需抓取的信息之间的对应关系;执行模块获取抓取单元抓取的信息,并通过信息执行预设的任务。
在一个实施例中,通过抓取模板抓取信息,其中,抓取模板用于提供抓取策略,通过不同的抓取策略能够抓取不同的信息。
在一个实施例中,在根据信息调用者的类型抓取对应的信息之前,上述方法包括:触发抓取单元,使抓取单元抓取执行模块所需的信息。
在一个实施例中,按先后顺序触发抓取单元。
在一个实施例中,调用处于空闲状态的抓取单元。
通过本发明,在识别执行模块后,对不同的执行模块抓取不同的信息,避免了一种抓取模块对应一种执行模块所造成的浪费,节省了系统的资源。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1A示出了本发明实施例中的一种信息抓取装置100的结构框图;
图1B示出了本发明实施例中的另一种信息抓取装置100’的结构框图;
图2示出了本发明优选实施例中的信息抓取装置的结构框图;
图3示出了本发明实施例中的信息抓取方法300的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例作进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
现在将参考附图进一步详细描述本发明。
本发明可以许多不同的形式来实现,不应该被理解为仅限于此处所阐述的实施例。这些实施例只作为示例提供,以便为本领域技术人员提供对本发明的完全理解。
本发明实施例提供了一种信息抓取装置,图1A示出了本发明实施例中的一种信息抓取装置100的结构框图。
如图1所示,该信息抓取装置包括抓取模块110和执行模块120。
抓取模块110可以从互联网或数据库抓取所需的信息,执行模块120可以根据抓取的信息执行相应的任务,不同的执行模块120所需不同的信息,执行不同的任务。
具体的,抓取模块110包括:
识别单元111用于识别执行模块120的类型。
执行模块120的类型可以通过所需信息的来源以及所需信息的数据类型来确定,例如通过执行模块120的projectname属性确定信息的来源,通过执行模块120的datatype属性来确定信息的数据类型。projectname是执行模块120要处理的信息的来源名称,datatype要处理的信息的数据类型,每个“projectname+datatype”对应唯一的执行模块120的类型。
抓取单元112用于根据执行模块120的类型抓取对应的信息。抓取单元112中预存了执行模块120和所需抓取的信息之间的对应关系。
执行模块120分别与识别单元111和抓取单元112连接,用于获取抓取单元112抓取的信息,并通过该信息执行预设的任务。
例如抓取模块110可以从互联网抓取视频、音频、文本或游戏等信息,执行模块120可以将抓取到的信息按点击量或发布时间等条件进行排序,然后推送给互联网用户。
图1B示出了本发明实施例中的另一种信息抓取装置100’的结构框图,在信息抓取装置100’中,与信息抓取装置100中附图标记相同的模块,有相同或相似的功能。具体地,为了使信息抓取装置100’能够有序地进行大量抓取,抓取模块110中还包括控制单元113,该控制单元113用于触发抓取单元112’,使抓取单元112’抓取执行模块120所需的信息。
抓取单元112’是抓取单元112的一种优选形式,具体地,抓取单元112’中可以包括多种抓取模板112-1,112-2,…,112-K(K为自然数,且K大于等于1)。实践中,K的数量根据实际需求设定,各抓取单元均能按照不同的抓取模板的格式抓取对应的信息,例如通过抓取模块112-1可以抓取视频,通过抓取模块112-2可以抓取游戏等。
抓取单元112’中预存了执行模块120和所需抓取的信息之间的对应关系例如,“projectname=x1,datatype=y1”的执行模块120对应模板112-1;“projectname=x2,datatype=y2”的执行模块120对应模板112-2。
由于抓取单元112’和执行模块120均有可能为多个,因此可以通过控制单元113来管理各个抓取单元112’的秩序。例如,该控制单元113可以按先后顺序触发各抓取单元112’,具体地,控制单元113可以通过队列的方式触发抓取单元112’。
为了合理高效地利用各抓取单元112’,优选地,控制单元113可以用于确定抓取单元112’是否处于空闲状态,进一步地,控制单元113还用于选择处于空闲状态的抓取单元112’抓取执行模块120所需的信息。
图2示出了本发明优选实施例中的信息抓取装置的结构框图,如图2所示,该装置包括爬虫服务器210、控制中心220和应用平台230。
本实施例中的爬虫服务器210相当于图1A所示实施例中的抓取单元112或图1B所示实施例中的抓取单元112’(虚线框所示),控制中心220相当于图1A或图1B所示实施例中的识别单元111(虚线框所示),爬虫服务器210和控制中心220共同实现图1A或图1B所示实施例中抓取模块110的功能,应用平台230与各应用(231-1,231-2,…231-K)共同实现图1A或图1B所示实施例中执行模块120(虚线框所示)的功能。
本实施例作为图1A和图1B所示实施例的进一步优化,在控制中心220中设置了控制中心API221以对各应用进行识别,并在该爬虫服务器210中设置了存储单元211,以存储个应用于所需的信息之间的对应关系,爬虫服务器210中包括多个爬虫211-1,211-2,…,211-K,各爬虫均可以单独实现抓取单元112’的功能,每个爬虫的结构都如图1B中的抓取单元112’所示,可以通过不同的抓取模板112-1,112-2,…,112-K抓取信息。
具体地,控制中心API221可以接收应用平台230中的应用发出的调用消息,该调用消息中包括:所需抓取的信息的数据源、信息类型和用于向应用平台230返回信息时所需的回调接口等。
控制中心API221接收到调用消息后,会生成对应的任务ID,并将该任务ID存储于控制中心220的任务队列222中,任务ID是调用消息在任务队列222中的唯一标识,该任务列表222可以根据先后顺序存储各任务ID,从而按先后顺序触发爬虫,使爬虫抓取应用平台230中的应用所需的信息。对于一些有更复杂需求的信息抓取装置,还可以设置为根据优先级或者加权得分的顺序存储各任务ID。
进一步地,爬虫服务器210中还可以包括进程监控器212,进程监控器212用于监控爬虫的进程,例如进程数量和进程ID。每个爬虫在进行抓取时建立一个进程,由于爬虫总数是已知的,通过对比爬虫总数和爬虫进程数量,可以判断目前有多少爬虫在进行抓取,多少爬虫处于空闲状态,由于进程ID和爬虫是一一对应的,通过进程ID,可以确定哪些爬虫正在抓取信息、哪些爬虫目前处于空闲状态,进而可以根据应用的需求,调用相应数量的处于空闲状态的爬虫,进行信息的抓取。
爬虫服务器210在接收到任务队列会发送的任务ID后,从控制中心220中获取任务ID对应的调用消息,根据该调用消息确定爬虫所用的模板以及爬虫的数量,并提供符合要求的爬虫,在爬虫抓取相应信息后,将该信息同步给控制中心220,控制中心220再通过先前获取的回调接口将抓取的信息返回至应用平台230中的相应应用。
本发明实施例还提供了一种信息抓取方法,图3示出了本发明实施例中的信息抓取方法的流程图300。该流程图300结合图1A的信息抓取装置100及图1B的信息抓取装置100’进行说明。
如图3所示,该方法包括以下步骤:
步骤310,识别单元111识别执行模块120的类型。
步骤320,抓取单元112根据执行模块120的类型抓取对应的信息,其中,抓取单元112中预存了执行模块120和所需抓取的信息之间的对应关系。
步骤330,执行模块120获取抓取单元112抓取的信息,并通过信息执行预设的任务。
作为一种优选的实现方式,可以通过抓取模板112-1…112-K抓取信息,抓取模板112-1…112-K用于提供抓取策略,通过不同的抓取策略能够抓取不同的信息。
为了提高对信息抓取的可控性,可以在根据信息调用者的类型抓取对应的信息之前,触发抓取单元112,使抓取单元112抓取执行模块所需的信息。
优选地,可以按先后顺序触发抓取单元112,并调用处于空闲状态的抓取单元112。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种信息抓取装置,其特征在于,包括抓取模块和执行模块,其中,
所述抓取模块包括:
识别单元,用于识别所述执行模块的类型;
抓取单元,用于根据所述执行模块的类型抓取对应的信息,其中,所述抓取单元中预存了所述执行模块和所需抓取的信息之间的对应关系;
所述执行模块分别与所述识别单元和所述抓取单元连接,用于获取所述抓取单元抓取的信息,并通过所述信息执行预设的任务。
2.根据权利要求1所述的装置,其特征在于,所述抓取单元包括:
多个抓取模板,用于提供抓取策略,通过不同的所述抓取策略能够抓取不同的信息。
3.根据权利要求1所述的装置,其特征在于,所述抓取模块还包括:
控制单元,用于触发所述抓取单元,使所述抓取单元抓取所述执行模块所需的信息。
4.根据权利要求3所述的装置,其特征在于,所述控制单元用于按先后顺序触发所述抓取单元。
5.根据权利要求1所述的装置,其特征在于,所述控制单元还用于调用处于空闲状态的所述抓取单元。
6.一种信息抓取方法,其特征在于,包括:
识别单元识别所述执行模块的类型;
抓取单元根据所述执行模块的类型抓取对应的信息,其中,所述抓取单元中预存了所述执行模块和所需抓取的信息之间的对应关系;
所述执行模块获取所述抓取单元抓取的信息,并通过所述信息执行预设的任务。
7.根据权利要求6所述的方法,其特征在于,通过抓取模板抓取所述信息,其中,所述抓取模板用于提供抓取策略,通过不同的所述抓取策略能够抓取不同的信息。
8.根据权利要求6所述的方法,其特征在于,在根据所述信息调用者的类型抓取对应的信息之前,所述方法包括:
触发所述抓取单元,使所述抓取单元抓取所述执行模块所需的信息。
9.根据权利要求8所述的方法,其特征在于,按先后顺序触发所述抓取单元。
10.根据权利要求6所述的方法,其特征在于,调用处于空闲状态的所述抓取单元。
CN201410046724.XA 2014-02-10 2014-02-10 信息抓取装置和方法 Active CN103745017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410046724.XA CN103745017B (zh) 2014-02-10 2014-02-10 信息抓取装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410046724.XA CN103745017B (zh) 2014-02-10 2014-02-10 信息抓取装置和方法

Publications (2)

Publication Number Publication Date
CN103745017A true CN103745017A (zh) 2014-04-23
CN103745017B CN103745017B (zh) 2017-06-16

Family

ID=50502034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410046724.XA Active CN103745017B (zh) 2014-02-10 2014-02-10 信息抓取装置和方法

Country Status (1)

Country Link
CN (1) CN103745017B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105577718A (zh) * 2014-10-15 2016-05-11 卓望数码技术(深圳)有限公司 一种智能化的网络信息采集方法及网络信息采集系统
CN105912471A (zh) * 2016-04-12 2016-08-31 上海斐讯数据通信技术有限公司 一种测试记录抓取系统及方法
CN108268498A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 批量爬虫任务的处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184185A (zh) * 2011-04-12 2011-09-14 北京百度网讯科技有限公司 一种用于多媒体资源搜索的方法与设备
CN103037010A (zh) * 2012-12-26 2013-04-10 人民搜索网络股份公司 一种分布式网络爬虫系统及其抓取方法
CN103365903A (zh) * 2012-04-05 2013-10-23 北京百度网讯科技有限公司 一种为搜索引擎获取结构化数据的方法、装置与系统
CN103475688A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184185A (zh) * 2011-04-12 2011-09-14 北京百度网讯科技有限公司 一种用于多媒体资源搜索的方法与设备
CN103365903A (zh) * 2012-04-05 2013-10-23 北京百度网讯科技有限公司 一种为搜索引擎获取结构化数据的方法、装置与系统
CN103037010A (zh) * 2012-12-26 2013-04-10 人民搜索网络股份公司 一种分布式网络爬虫系统及其抓取方法
CN103475688A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105577718A (zh) * 2014-10-15 2016-05-11 卓望数码技术(深圳)有限公司 一种智能化的网络信息采集方法及网络信息采集系统
CN105912471A (zh) * 2016-04-12 2016-08-31 上海斐讯数据通信技术有限公司 一种测试记录抓取系统及方法
CN108268498A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 批量爬虫任务的处理方法和装置

Also Published As

Publication number Publication date
CN103745017B (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
CN111814089B (zh) 一种页面渲染的方法、装置、渲染服务器和存储介质
CN105260485B (zh) 一种数据加载的方法和装置
US9852220B1 (en) Distributed workflow management system
CN109978290A (zh) 一种业务流程回退处理方法、流程引擎和业务系统
US20130275416A1 (en) Scoring of resource groups
CN110650164B (zh) 文件的上传方法、装置、终端以及计算机存储介质
CN109981715B (zh) 一种会话管理的方法及装置
US9451423B2 (en) Method and apparatus for recording information during a call
CN106685894B (zh) 一种风险识别方法、装置及系统
CN104754153A (zh) 客服系统及其客户服务方法
CN103701653B (zh) 一种接口热插拔配置数据的处理方法及网络配置服务器
CN107145547A (zh) 一种异常数据的获取方法、设备及计算机可读存储介质
CN103745017A (zh) 信息抓取装置和方法
CN110968410B (zh) 任务失败重试方法、装置、计算机设备及存储介质
CN113760611B (zh) 系统站点切换方法、装置、电子设备及存储介质
CN106445936A (zh) 一种数据处理方法及设备
CN110019260B (zh) 一种用户数据的更新方法及相关设备
CN113094125A (zh) 业务流程处理方法、装置、服务器及存储介质
CN106453213A (zh) 一种系统间调用方法及装置
CN104394283A (zh) Ivr菜单的动态调整方法及系统
US20230275997A1 (en) System and method for enhanced outbound campaign management
CN109040491A (zh) 挂机行为处理方法、装置、计算机设备及存储介质
WO2016176919A1 (zh) 一种实现考勤的方法和考勤服务端
CN107396030B (zh) 一种视频通话的处理方法及调度控制端
CN111813529B (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant