CN104462158A - 数据抓取方法和数据抓取系统 - Google Patents

数据抓取方法和数据抓取系统 Download PDF

Info

Publication number
CN104462158A
CN104462158A CN201310450449.3A CN201310450449A CN104462158A CN 104462158 A CN104462158 A CN 104462158A CN 201310450449 A CN201310450449 A CN 201310450449A CN 104462158 A CN104462158 A CN 104462158A
Authority
CN
China
Prior art keywords
data
regular expression
matching
file destination
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310450449.3A
Other languages
English (en)
Inventor
姚康明
邓克毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310450449.3A priority Critical patent/CN104462158A/zh
Publication of CN104462158A publication Critical patent/CN104462158A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供了一种数据抓取方法和一种数据抓取系统,其中,数据抓取方法包括:配置多个正则表达式;按照多个正则表达式的预设顺序,从多个正则表达式中依次选取正则表达式;根据选取到的正则表达式在目标文件中匹配与目标数据相关联的数据,若匹配到相关联的数据,则抓取并返回相关联的数据,并终止从多个正则表达式中选取正则表达式,以及终止在目标文件中的匹配操作,以及,在根据每个正则表达式均未匹配到相关联的数据时,返回提示信息。通过本发明的技术方案,可以在其中一个系统需要获取其他系统中的数据时,只需配置相应的正则表达式就可以从其他系统中匹配并获取相应的数据,实现了不同系统之间能够方便地进行数据的共享。

Description

数据抓取方法和数据抓取系统
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种数据抓取方法和一种数据抓取系统。
背景技术
目前,在企业信息化建设的推动工作中,往往遇到以下问题:企业的各个部门在建设各自的业务信息系统时,对于与其他部门的信息系统或其他业务系统的对接问题考虑不周,这导致了各个系统之间缺乏横向联系,无法共享一些公共的数据信息。而且引发了一系列的问题,比如系统数据的冗余、数据的缺失,甚至是不同系统中相同对象的数据结构定义严重不符,而且还存在数据的二次录入等问题,工作人员可能要向多个系统录入相同的数据,客观上加重了工作人员的工作量。
此外,还有一些业务数据只能通过网页的方式访问、查看,很难成为可以直接利用的数据资源,数据展示格式已固定不变,不能够灵活运用与其他业务系统的数据共享。
因此,如何方便快捷地抓取其他业务系统的数据成为亟待解决的技术问题。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的数据抓取方案,可以在其中一个系统需要获取其他系统中的数据时,只需配置相应的正则表达式就可以从其他系统中匹配并获取相应的数据,实现了不同系统之间可以方便地进行数据的共享。
有鉴于此,本发明提出了一种数据抓取方法,包括:配置对应于目标数据的多个正则表达式;按照所述多个正则表达式的预设顺序,从所述多个正则表达式中依次选取正则表达式;根据选取到的正则表达式在目标文件中匹配与所述目标数据相关联的数据,若匹配到所述相关联的数据,则抓取并返回所述相关联的数据,并终止从所述多个正则表达式中选取正则表达式,以及终止在所述目标文件中的匹配操作,以及,在根据所述多个正则表达式中的每个正则表达式均未匹配到所述相关联的数据时,返回提示信息。
在该技术方案中,通过配置对应于目标数据的多个正则表达式,并根据多个正则表达式的预设顺序依次从目标文件中匹配与目标数据相关联的数据,使得在优先进行匹配的正则表达式未匹配到相关联的数据时,能够通过其他的正则表达式继续进行匹配,从而获取与目标数据相关联的数据,避免了只配置一个正则表达式,而该正则表达式不能匹配到数据的情况发生。此外,由于通过配置正则表达式的方式匹配目标文件中的目标数据,并在匹配到与目标数据相关联的数据时,返回该相关联的数据,使得其中一个系统在需要获取其他系统中的数据时,只需配置相应的正则表达式就可以从其他系统中匹配并获取相应的数据,解决了不同系统之间无法共享数据的技术问题。
另一方面,通过在选取到的正则表达式匹配到相关联的数据之后,终止继续选取其他的正则表达式进行匹配,避免了多个正则表达式都匹配到与目标数据相关联的且重复的数据,而需要继续对匹配抓取到的数据继续进行分析,确保了抓取数据的唯一性,提高了抓取数据的效率。
根据本发明的另一方面,还提出了一种数据抓取系统,包括:配置单元,用于根据接收到的配置指令,配置对应于目标数据的多个正则表达式;选取单元,用于根据选取到的正则表达式在目标文件中匹配与所述目标数据相关联的数据;匹配单元,用于按照所述预设顺序,根据所述正则表达式链中的正则表达式,在目标文件中匹配与所述目标数据相关联的数据;抓取单元,用于在所述匹配单元匹配到所述相关联的数据时,抓取并返回所述相关联的数据,并使所述选取单元终止从所述多个正则表达式中选取正则表达式,以及使所述匹配单元并终止在所述目标文件中的匹配操作,以及,在所述匹配单元根据所述多个正则表达式中的每个正则表达式均未匹配到所述相关联的数据时,返回提示信息。
在该技术方案中,通过配置对应于目标数据的多个正则表达式,并根据多个正则表达式的预设顺序依次从目标文件中匹配与目标数据相关联的数据,使得在优先进行匹配的正则表达式未匹配到相关联的数据时,能够通过其他的正则表达式继续进行匹配,从而获取与目标数据相关联的数据,避免了只配置一个正则表达式,而该正则表达式不能匹配到数据的情况发生。此外,由于通过配置正则表达式的方式匹配目标文件中的目标数据,并在匹配到与目标数据相关联的数据时,返回该相关联的数据,使得其中一个系统在需要获取其他系统中的数据时,只需配置相应的正则表达式就可以从其他系统中匹配并获取相应的数据,解决了不同系统之间无法共享数据的技术问题。
另一方面,通过在选取到的正则表达式匹配到相关联的数据之后,终止继续选取其他的正则表达式进行匹配,避免了多个正则表达式都匹配到与目标数据相关联的且重复的数据,而需要继续对匹配抓取到的数据继续进行分析,确保了抓取数据的唯一性,提高了抓取数据的效率。
通过以上技术方案,可以在其中一个系统需要获取其他系统中的数据时,只需配置相应的正则表达式就可以从其他系统中匹配并获取相应的数据,实现了不同系统之间方便地进行数据的共享。
附图说明
图1示出了根据本发明的实施例的数据抓取方法的示意流程图;
图2示出了根据本发明的实施例的数据抓取系统的示意框图;
图3A示出了根据本发明的实施例的抓取系统的结构示意图;
图3B示出了根据本发明的实施例的抓取系统的示意框图;
图4示出了根据本发明的实施例的抓取系统的抓取流程图;
图5示出了根据本发明的实施例的数据匹配示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的数据抓取方法的示意流程图。
如图1所示,根据本发明的实施例的数据抓取方法,包括:步骤102,配置对应于目标数据的多个正则表达式;步骤104,按照所述多个正则表达式的预设顺序,从所述多个正则表达式中依次选取正则表达式;步骤106,根据选取到的正则表达式在目标文件中匹配与所述目标数据相关联的数据,若匹配到所述相关联的数据,则抓取并返回所述相关联的数据,并终止从所述多个正则表达式中选取正则表达式,以及终止在所述目标文件中的匹配操作,以及,在根据所述多个正则表达式中的每个正则表达式均未匹配到所述相关联的数据时,返回提示信息。
在该技术方案中,通过配置对应于目标数据的多个正则表达式,并根据多个正则表达式的预设顺序依次从目标文件中匹配与目标数据相关联的数据,使得在优先进行匹配的正则表达式未匹配到相关联的数据时,能够通过其他的正则表达式继续进行匹配,从而获取与目标数据相关联的数据,避免了只配置一个正则表达式,而该正则表达式不能匹配到数据的情况发生。此外,由于通过配置正则表达式的方式匹配目标文件中的目标数据,并在匹配到与目标数据相关联的数据时,返回该相关联的数据,使得其中一个系统在需要获取其他系统中的数据时,只需配置相应的正则表达式就可以从其他系统中匹配并获取相应的数据,解决了不同系统之间无法共享数据的技术问题。
另一方面,通过在选取到的正则表达式匹配到相关联的数据之后,终止继续选取其他的正则表达式进行匹配,避免了多个正则表达式都匹配到与目标数据相关联的且重复的数据,而需要继续对匹配抓取到的数据继续进行分析,确保了抓取数据的唯一性,提高了抓取数据的效率。
在上述技术方案中,优选地,所述预设顺序包括:所述多个正则表达式的优先级顺序,其中,所述多个正则表达式中优先级越高的正则表达式的匹配条件越多。
在该技术方案中,匹配条件最多的正则表达式匹配到的数据最精确,且优先级最高,通过在优先级最高的正则表达式未匹配到与目标数据相关联的数据时,选取优选级低的正则表达式继续进行匹配,可以在未匹配到最精确的数据时,能够通过其他的正则表达式匹配到与目标数据相关联的较模糊的数据。在配置多个正则表达式时,可以将配置的多个正则表达式组合成一个链状的结构,组成正则表达式链,位于链首的正则表达式优先级最高,在进行匹配时,按照多个正则表达式在正则表达式链中的顺序依次进行匹配。
比如,用户在网页中查询数据时,并不能准确确定所要查询数据的信息,只能确定部分信息,但是对于需要获取的数据可以通过配置由详细到粗略的配置条件来进行尝试获取,具体地,在用户需要查询与“三国XX”相匹配的内容时,可以定义多个正则表达式组成正则表达式链,其中,位于链首(即优先级最高)的正则表达式可以配置成匹配“三国演义”的正则表达式(即匹配条件包括三、国、演、义四项),以下的正则表达式可以依次配置成匹配“三国演”(即匹配条件包括三、国、演三项)、“三国”(即匹配条件包括三、国两项)的正则表达式,这样即便在未匹配到“三国演义”时,也可以通过其他的正则表达式匹配到与“三国演”或“三国”有关的数据信息。由于优先级越高,匹配条件越精确,因此在通过其中一个正则表达式匹配到数据时,可以终止之后的正则表达式进行匹配,避免之后的正则表达式都匹配到相同的内容,当然,若返回的结果并不是用户所需,用户也可以设置根据链中的正则表达式继续匹配查询。比如通过匹配“三国演”的正则表达式匹配到的数据肯定包括“三国演义”,因此可以在匹配“三国演义”的正则表达式匹配到数据时,终止之后的正则表达式进行匹配,以避免同时匹配到相同的数据。
在上述技术方案中,优选地,还包括:将所述目标文件作为初始文件进行解析,在判定解析后的内容中包含与所述初始文件相关联的其他文件时,将所述其他文件作为所述初始文件继续进行解析,直至判定解析后的内容中不包含与所述初始文件相关联的其他文件为止,并将解析出的每个所述其他文件分别作为所述目标文件。
在该技术方案中,目标文件中可能关联有其他的文件,要匹配的目标数据也可能存在于与目标文件相关联的其他的文件中,因此通过解析目标文件,并将得到的其他文件继续进行解析,可以在解析得到的多个文件中匹配与目标数据相关联的数据,增加了匹配到与目标数据相关联的数据的几率。当然,也可以选择是否解析从目标文件中解析到的其他文件,也可以选择解析其他文件的深度,即在解析得到一个文件时,停止继续解析的过程。比如在网页1中,有网页2的链接地址,而在网页2中有网页3的链接地址,在网页3中没有其它网页的链接地址,当需要在网页1中匹配目标数据时,可以选择是否解析网页1,而在对网页1解析之后,也可以选择是否解析网页2,当然,也可以配置依次进行解析,直到网页中不存在其它网页的链接。
此外,可以将解析得到的多个文件按照顺序放入待匹配列表中,通过正则表达式依次从带匹配列表中的文件中匹配与目标数据相关联的数据。
在上述技术方案中,优选地,还包括:返回匹配到所述相关联的数据的正则表达式。
在该技术方案中,由于正则表达式包含了匹配数据的条件,因此通过返回匹配到与目标数据相关联的数据的正则表达式,可以使用户明确能够匹配到与目标数据相关联的数据的匹配条件,从而方便在下次配置正则表达式时,能够更加准确地配置相应的正则表达式。
在上述技术方案中,优选地,所述相关联的数据包括以下至少一种或其组合:链接地址、文本数据、静态元素。
在该技术方案中,在匹配到链接地址时,可以通过链接地址访问和/或下载目标数据,在匹配到文本数据时,可以直接将文本数据存储起来以便于其他系统的直接调用,静态元素包括图片、音频、视频等,在匹配到静态元素时,也可以通过静态元素的下载链接将静态元素进行下载。
图2示出了根据本发明的实施例的数据抓取系统的示意框图。
如图2所示,根据本发明的实施例的数据抓取系统200,包括:配置单元202,用于根据接收到的配置指令,配置对应于目标数据的多个正则表达式;选取单元204,用于根据选取到的正则表达式在目标文件中匹配与所述目标数据相关联的数据;匹配单元206,用于按照所述预设顺序,根据所述正则表达式链中的正则表达式,在目标文件中匹配与所述目标数据相关联的数据;抓取单元208,用于在所述匹配单元206匹配到所述相关联的数据时,抓取并返回所述相关联的数据,并使所述选取单元204终止从所述多个正则表达式中选取正则表达式,以及使所述匹配单元206并终止在所述目标文件中的匹配操作,以及,在所述匹配单元206根据所述多个正则表达式中的每个正则表达式均未匹配到所述相关联的数据时,返回提示信息。
在该技术方案中,通过配置对应于目标数据的多个正则表达式,并根据多个正则表达式的预设顺序依次从目标文件中匹配与目标数据相关联的数据,使得在优先进行匹配的正则表达式未匹配到相关联的数据时,能够通过其他的正则表达式继续进行匹配,从而获取与目标数据相关联的数据,避免了只配置一个正则表达式,而该正则表达式不能匹配到数据的情况发生。此外,由于通过配置正则表达式的方式匹配目标文件中的目标数据,并在匹配到与目标数据相关联的数据时,返回该相关联的数据,使得其中一个系统在需要获取其他系统中的数据时,只需配置相应的正则表达式就可以从其他系统中匹配并获取相应的数据,解决了不同系统之间无法共享数据的技术问题。
另一方面,通过在选取到的正则表达式匹配到相关联的数据之后,终止继续选取其他的正则表达式进行匹配,避免了多个正则表达式都匹配到与目标数据相关联的且重复的数据,而需要继续对匹配抓取到的数据继续进行分析,确保了抓取数据的唯一性,提高了抓取数据的效率。
在上述技术方案中,优选地,所述预设顺序包括:所述多个正则表达式的优先级顺序,其中,所述多个正则表达式中优先级越高的正则表达式的匹配条件越多。
在该技术方案中,匹配条件最多的正则表达式匹配到的数据最精确,且优先级最高,通过在优先级最高的正则表达式未匹配到与目标数据相关联的数据时,选取优选级低的正则表达式继续进行匹配,可以在未匹配到最精确的数据时,能够通过其他的正则表达式匹配到与目标数据相关联的较模糊的数据。在配置多个正则表达式时,可以将配置的多个正则表达式组合成一个链状的结构,组成正则表达式链,位于链首的正则表达式优先级最高,在进行匹配时,按照多个正则表达式在正则表达式链中的顺序依次进行匹配。
比如,用户在网页中查询数据时,并不能准确确定所要查询数据的信息,只能确定部分信息,但是对于需要获取的数据可以通过配置由详细到粗略的配置条件来进行尝试获取,具体地,在用户需要查询与“三国XX”相匹配的内容时,可以定义多个正则表达式组成正则表达式链,其中,位于链首(即优先级最高)的正则表达式可以配置成匹配“三国演义”的正则表达式(即匹配条件包括三、国、演、义四项),以下的正则表达式可以依次配置成匹配“三国演”(即匹配条件包括三、国、演三项)、“三国”(即匹配条件包括三、国两项)的正则表达式,这样即便在未匹配到“三国演义”时,也可以通过其他的正则表达式匹配到与“三国演”或“三国”有关的数据信息。由于优先级越高,匹配条件越精确,因此在通过其中一个正则表达式匹配到数据时,可以终止之后的正则表达式进行匹配,避免之后的正则表达式都匹配到相同的内容,当然,若返回的结果并不是用户所需,用户也可以设置根据链中的正则表达式继续匹配查询。比如通过匹配“三国演”的正则表达式匹配到的数据肯定包括“三国演义”,因此可以在匹配“三国演义”的正则表达式匹配到数据时,终止之后的正则表达式进行匹配,以避免同时匹配到相同的数据。
在上述技术方案中,优选地,还包括:解析单元210,用于将所述目标文件作为初始文件进行解析,在判定解析后的内容中包含与所述初始文件相关联的其他文件时,将所述其他文件作为所述初始文件继续进行解析,直至判定解析后的内容中不包含与所述初始文件相关联的其他文件为止,并将解析出的每个所述其他文件分别作为所述目标文件。
在该技术方案中,目标文件中可能关联有其他的文件,要匹配的目标数据也可能存在于与目标文件相关联的其他的文件中,因此通过解析目标文件,并将得到的其他文件继续进行解析,可以在解析得到的多个文件中匹配与目标数据相关联的数据,增加了匹配到与目标数据相关联的数据的几率。当然,也可以选择是否解析从目标文件中解析到的其他文件,也可以选择解析其他文件的深度,即在解析得到一个文件时,停止继续解析的过程。比如在网页1中,有网页2的链接地址,而在网页2中有网页3的链接地址,在网页3中没有其它网页的链接地址,当需要在网页1中匹配目标数据时,可以选择是否解析网页1,而在对网页1解析之后,也可以选择是否解析网页2,当然,也可以配置依次进行解析,直到网页中不存在其它网页的链接。
此外,可以将解析得到的多个文件按照顺序放入待匹配列表中,通过正则表达式依次从带匹配列表中的文件中匹配与目标数据相关联的数据。
在上述技术方案中,优选地,所述抓取单元208还用于:返回匹配到所述相关联的数据的正则表达式。
在该技术方案中,由于正则表达式包含了匹配数据的条件,因此通过返回匹配到与目标数据相关联的数据的正则表达式,可以使用户明确能够匹配到与目标数据相关联的数据的匹配条件,从而方便在下次配置正则表达式时,能够更加准确地配置相应的正则表达式。
在上述技术方案中,优选地,所述相关联的数据包括以下至少一种或其组合:链接地址、文本数据、静态元素。
在该技术方案中,在匹配到链接地址时,可以通过链接地址访问和/或下载目标数据,在匹配到文本数据时,可以直接将文本数据存储起来以便于其他系统的直接调用,静态元素包括图片、音频、视频等,在匹配到静态元素时,也可以通过静态元素的下载链接将静态元素进行下载。
下面结合图3A至图5详细说明根据本发明的实施例的数据抓取方案。
图3A示出了根据本发明的实施例的抓取系统的结构示意图。
如图3A所示,抓取系统304通过抓取B/S业务系统302中的数据,以提供给业务系统306利用,方便地实现了不同系统之间数据的共享,避免了开放B/S业务系统302的数据库而造成数据的泄露,同时,也避免了采用同步录入数据而出现二次录入的问题。
图3B示出了根据本发明的实施例的抓取系统的示意框图。
如图3B所示,根据本发明的实施例的抓取系统304,包括:
网页数据获取模块304A
首先配置抓取的入口URL,即配置需要进行抓取的网页链接,然后网页数据获取模块304A模拟浏览器发起Http请求,取得服务器响应的内容。
抓取地址获取与生成模块304B
根据抓取链接从服务器得到的响应内容,抓取地址获取与生成模块304B从响应的内容中,按照配置的正则表达式,分析匹配其他需要抓取的URL,并生成URL的完整链接,即通过正则表达式匹配网页中包含的其他网页的链接。此处可配置从入口URL链接开始的抓取深度。具体来说,以需要进行抓取的网页链接为第一层,第一层网页中包含有其他网页的链接(即第二层),配置抓取深度即配置需要抓取到第几层。
文本内容处理模块304C
根据抓取链接从服务器得到的响应内容,文本内容处理模块304C从响应内容中,按照配置的正则表达式,分析匹配文本内容,在匹配到文本内容之后,将文本内容转存为文本文件或存储在数据库中以供其他业务系统使用。
静态元素处理模块304D
根据抓取链接从服务器得到的响应内容,静态元素处理模块304D从响应内容中,按照配置的正则表达式,分析匹配静态元素链接地址并由资源下载模块304E中执行静态元素的下载。
断点恢复模块304F,可先存储抓取地址获取与生成模块304B得到的待抓取链接,以在暂停抓取系统抓取数据时保存抓取进度,从而便于在重新进行抓取时,恢复之前的抓取进度。
资源下载模块304E,可通过多线程技术自动管理和调度静态资源的下载。静态元素处理模块304D只将需要抓取的静态资源链接加入资源下载模块304E,资源下载模块304E可调度多线程来执行具体下载。当然,资源下载模块304E也可以下载文本内容处理模块304C中匹配到的文本内容。
图4示出了根据本发明的实施例的抓取系统的抓取流程图。
如图4所示,根据本发明的实施例的抓取系统的抓取流程,包括:
步骤402,在启动抓取系统时,判断是否需要恢复之前保存的抓取进度。“断点恢复”是上次未抓取完毕的链接,可选择不恢复或继续抓取。如果不恢复抓取则从配置的入口URL链接开始抓取,入口URL链接是需要从中抓取数据的网页的链接。
步骤404,获取网页数据,读取配置的入口URL链接的网页内容,通过图3B中的网页数据获取模块304A来读取指定的URL链接的网页内容。其中,网页数据获取模块304A是模拟浏览器行为来获得服务器端响应的。
步骤406,分析网页内容,这里会有三个分析网页内容的线程,分别是:待抓取链接地址分析、待抓取文本数据分析、待抓取静态元素分析,三个线程各自对应图3B中的抓取地址获取与生成模块304B、文本内容处理模块304C、静态元素处理模块304D。
步骤408,当分析到网页内容中包含链接地址时,执行步骤410。
步骤410,抓取地址获取与生成模块304B根据配置的正则表达式来匹配该网页内容中的链接地址并放入到待抓取链接队列。并可以配置从入口URL链接开始计算的抓取深度,到达某个抓取深度后不在匹配抓取链接。对抓取到的链接重复步骤404,继续进行抓取。
步骤412,当分析到网页内容中包含文本数据时,文本内容处理模块304C获取得到的文本数据,并进行存储。
步骤414,当分析到网页内容中包含静态元素时,执行步骤416。
步骤416,静态元素处理模块304D将匹配到的图片、音频、视频、Office文件等静态元素的链接地址,交给资源下载模块304E进行下载。资源下载模块304E负责线程池调度管理,分配静态元素链接地址给具体的下载线程执行下载,并将下载完成的静态元素进行存储。
在本发明的上述实施例中进行数据匹配时,针对需要匹配的不同内容,配置不同的匹配条件,通过不同的匹配条件进行匹配。如图5所示,标题正则、作者正则、副标题正则分别匹配网页内容中的标题内容、作者内容和副标题内容,其中配置的每个正则都是多个正则表达式的结合,优选地,可以针对同一个正则将多个正则表达式按照优先级的高低组合成一个正则表达式链,优先级越高的正则表达式匹配条件越多,匹配结果越精确,这样在进行数据匹配时,即便没有匹配到最精确的数据,也可以通过正则表达式链中的其他正则表达式匹配到较为模糊的数据,以便于用户对与目标数据相关联的数据的分析处理。
图3A至图5详细说明了根据本发明的实施例网页数据的抓取方案,本领域的技术人员应该理解,本申请中的数据抓取方案包括但不限于网页数据的抓取。
以上结合附图详细说明了本发明的技术方案,考虑到在相关技术中,不同系统之间不能方便地进行数据的共享。因此,本发明提出了一种新的数据抓取方案,可以在其中一个系统需要获取其他系统中的数据时,只需配置相应的正则表达式就可以从其他系统中匹配并获取相应的数据,实现了不同系统之间可以方便地进行数据的共享。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据抓取方法,其特征在于,包括:
配置对应于目标数据的多个正则表达式;
按照所述多个正则表达式的预设顺序,从所述多个正则表达式中依次选取正则表达式;
根据选取到的正则表达式在目标文件中匹配与所述目标数据相关联的数据,若匹配到所述相关联的数据,则抓取并返回所述相关联的数据,并终止从所述多个正则表达式中选取正则表达式,以及终止在所述目标文件中的匹配操作,以及,在根据所述多个正则表达式中的每个正则表达式均未匹配到所述相关联的数据时,返回提示信息。
2.根据权利要求1所述的数据抓取方法,其特征在于,所述预设顺序包括:所述多个正则表达式的优先级顺序,其中,所述多个正则表达式中优先级越高的正则表达式的匹配条件越多。
3.根据权利要求1所述的数据抓取方法,其特征在于,还包括:
将所述目标文件作为初始文件进行解析,在判定解析后的内容中包含与所述初始文件相关联的其他文件时,将所述其他文件作为所述初始文件继续进行解析,直至判定解析后的内容中不包含与所述初始文件相关联的其他文件为止,并将解析出的每个所述其他文件分别作为所述目标文件。
4.根据权利要求1至3中任一项所述的数据抓取方法,其特征在于,还包括:返回匹配到所述相关联的数据的正则表达式。
5.根据权利要求1至3中任一项所述的数据抓取方法,其特征在于,所述相关联的数据包括以下至少一种或其组合:链接地址、文本数据、静态元素。
6.一种数据抓取系统,其特征在于,包括:
配置单元,用于根据接收到的配置指令,配置对应于目标数据的多个正则表达式;
选取单元,用于根据选取到的正则表达式在目标文件中匹配与所述目标数据相关联的数据;
匹配单元,用于按照所述预设顺序,根据所述正则表达式链中的正则表达式,在目标文件中匹配与所述目标数据相关联的数据;
抓取单元,用于在所述匹配单元匹配到所述相关联的数据时,抓取并返回所述相关联的数据,并使所述选取单元终止从所述多个正则表达式中选取正则表达式,以及使所述匹配单元并终止在所述目标文件中的匹配操作,以及,在所述匹配单元根据所述多个正则表达式中的每个正则表达式均未匹配到所述相关联的数据时,返回提示信息。
7.根据权利要求6所述的数据抓取系统,其特征在于,所述预设顺序包括:所述多个正则表达式的优先级顺序,其中,所述多个正则表达式中优先级越高的正则表达式的匹配条件越多。
8.根据权利要求6所述的数据抓取系统,其特征在于,还包括:
解析单元,用于将所述目标文件作为初始文件进行解析,在判定解析后的内容中包含与所述初始文件相关联的其他文件时,将所述其他文件作为所述初始文件继续进行解析,直至判定解析后的内容中不包含与所述初始文件相关联的其他文件为止,并将解析出的每个所述其他文件分别作为所述目标文件。
9.根据权利要求6至8所述的数据抓取系统,其特征在于,所述抓取单元还用于:返回匹配到所述相关联的数据的正则表达式。
10.根据权利要求6至8中任一项所述的数据抓取系统,其特征在于,所述相关联的数据包括以下至少一种或其组合:链接地址、文本数据、静态元素。
CN201310450449.3A 2013-09-25 2013-09-25 数据抓取方法和数据抓取系统 Pending CN104462158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310450449.3A CN104462158A (zh) 2013-09-25 2013-09-25 数据抓取方法和数据抓取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310450449.3A CN104462158A (zh) 2013-09-25 2013-09-25 数据抓取方法和数据抓取系统

Publications (1)

Publication Number Publication Date
CN104462158A true CN104462158A (zh) 2015-03-25

Family

ID=52908210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310450449.3A Pending CN104462158A (zh) 2013-09-25 2013-09-25 数据抓取方法和数据抓取系统

Country Status (1)

Country Link
CN (1) CN104462158A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138660A (zh) * 2015-09-01 2015-12-09 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN105630673A (zh) * 2015-12-17 2016-06-01 北京锐安科技有限公司 一种网络爬虫率的自动化测试方法及装置
CN106598827A (zh) * 2016-12-19 2017-04-26 东软集团股份有限公司 提取日志数据的方法及装置
CN107786545A (zh) * 2017-09-29 2018-03-09 中国平安人寿保险股份有限公司 一种网络攻击行为检测方法及终端设备
CN108460127A (zh) * 2018-02-28 2018-08-28 泰康保险集团股份有限公司 一种有序数据的获取方法、装置及设备
CN110928793A (zh) * 2019-11-28 2020-03-27 Oppo广东移动通信有限公司 一种正则表达式检测方法、装置及计算机可读存储介质
CN116861058A (zh) * 2023-09-04 2023-10-10 浪潮软件股份有限公司 应用于政务领域的舆情监测系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673256A (zh) * 2008-09-11 2010-03-17 北大方正集团有限公司 一种基于文字流的文章元数据信息自动抽取方法及系统
CN101853301A (zh) * 2010-05-25 2010-10-06 华为技术有限公司 正则表达式匹配的方法和系统
US20120203753A1 (en) * 2011-02-08 2012-08-09 International Business Machines Corporation Upload manager for use in a pattern matchng accelerator
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673256A (zh) * 2008-09-11 2010-03-17 北大方正集团有限公司 一种基于文字流的文章元数据信息自动抽取方法及系统
CN101853301A (zh) * 2010-05-25 2010-10-06 华为技术有限公司 正则表达式匹配的方法和系统
US20120203753A1 (en) * 2011-02-08 2012-08-09 International Business Machines Corporation Upload manager for use in a pattern matchng accelerator
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐晓哲: "基于多Agent的Internet上构件获取技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138660A (zh) * 2015-09-01 2015-12-09 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN105138660B (zh) * 2015-09-01 2018-08-14 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN105630673A (zh) * 2015-12-17 2016-06-01 北京锐安科技有限公司 一种网络爬虫率的自动化测试方法及装置
CN105630673B (zh) * 2015-12-17 2018-12-25 北京锐安科技有限公司 一种网络爬虫率的自动化测试方法及装置
CN106598827A (zh) * 2016-12-19 2017-04-26 东软集团股份有限公司 提取日志数据的方法及装置
CN106598827B (zh) * 2016-12-19 2019-05-31 东软集团股份有限公司 提取日志数据的方法及装置
CN107786545A (zh) * 2017-09-29 2018-03-09 中国平安人寿保险股份有限公司 一种网络攻击行为检测方法及终端设备
CN108460127A (zh) * 2018-02-28 2018-08-28 泰康保险集团股份有限公司 一种有序数据的获取方法、装置及设备
CN110928793A (zh) * 2019-11-28 2020-03-27 Oppo广东移动通信有限公司 一种正则表达式检测方法、装置及计算机可读存储介质
CN110928793B (zh) * 2019-11-28 2023-07-28 Oppo广东移动通信有限公司 一种正则表达式检测方法、装置及计算机可读存储介质
CN116861058A (zh) * 2023-09-04 2023-10-10 浪潮软件股份有限公司 应用于政务领域的舆情监测系统及方法
CN116861058B (zh) * 2023-09-04 2024-04-12 浪潮软件股份有限公司 应用于政务领域的舆情监测系统及方法

Similar Documents

Publication Publication Date Title
CN104462158A (zh) 数据抓取方法和数据抓取系统
CN107317724B (zh) 基于云计算技术的数据采集系统及方法
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
US8214809B2 (en) Grid-enabled ANT compatible with both stand-alone and grid-based computing systems
Crawl et al. A provenance-based fault tolerance mechanism for scientific workflows
JP2015215885A (ja) 変更計画システム、変更計画方法および変更計画プログラム
US10282175B2 (en) Methods and systems for performing a partial build
US11416278B2 (en) Presenting hypervisor data for a virtual machine with associated operating system data
CN105260388A (zh) 一种分布式垂直爬虫服务系统的优化方法
US20180210713A1 (en) Methods and systems for using cross repositories
CN110633120A (zh) 组态软件控件处理方法、装置、服务器、用户终端及系统
US20180150361A1 (en) Identifying similar database queries
CN105745644A (zh) 表示在网页浏览器中的网页的状态表示的建立
US20220350587A1 (en) Methods and systems for deployment of services
Rogers et al. Bundle and pool architecture for multi-language, robust, scalable workflow executions
CN110890987A (zh) 自动创建集群的方法、装置、设备和系统
CN113568604B (zh) 风控策略的更新方法、装置及计算机可读存储介质
Mirtaheri et al. Dist-ria crawler: A distributed crawler for rich internet applications
US10824446B2 (en) Methods and systems for autocompletion
Benjamin et al. Some modeling challenges when testing rich internet applications for security
CN116578497A (zh) 一种接口自动化测试方法、系统、计算机设备及存储介质
CN103488549B (zh) 多镜像数据的回滚处理系统和回滚处理方法
CN109885391A (zh) 一种资源打包方法、装置、电子设备及介质
CN111444412B (zh) 网络爬虫任务的调度方法及装置
US10853131B2 (en) Dataflow life cycles

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325