CN101251852B - 面向领域的Web数据集成系统和方法 - Google Patents
面向领域的Web数据集成系统和方法 Download PDFInfo
- Publication number
- CN101251852B CN101251852B CN2008100561015A CN200810056101A CN101251852B CN 101251852 B CN101251852 B CN 101251852B CN 2008100561015 A CN2008100561015 A CN 2008100561015A CN 200810056101 A CN200810056101 A CN 200810056101A CN 101251852 B CN101251852 B CN 101251852B
- Authority
- CN
- China
- Prior art keywords
- data
- integrated
- page
- xml
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种面向领域的Web数据集成系统和方法,其中该系统包括:数据源;数据集成模块,用于将来自数据源的数据集成到本地;数据处理模块,用于对集成到本地的数据进行处理;以及应用模块,用于将集成出来的数据提供给用户。该面向领域的数据集成系统和方法可实现对数据源所有信息的集成以及对每条记录各个属性段的精确抽取,并实现数据的动态更新的查询结果集成。
Description
技术领域
本方法涉及一种数据集成领域,尤其是涉及一种面向领域的Web数据集成系统和方法。
背景技术
目前,在Deep Web上进行数据集成已经有一些研究,主要有两种方法:接口集成与查询结果集成。
所谓接口集成,是指将各个Deep Web网站的搜索框(即查询接口)集成起来,这样用户可以通过这样一个集成的接口,将关键字发送到各个网站的搜索框上,然后再将搜索结果取回。使用这种方式进行集成,本地服务器上是不保存数据的。
在Deep Web上进行数据集成的另一种方式是查询结果集成。它将各个Deep Web网站上的所有数据爬取到本地,并实现定时更新。这样,用户提交一个查询的时候,实际上是在本地服务器上进行查询,并获取查询结果。这种方法和现有通用搜索引擎,如Google、百度等相似,都在本地服务器上保存数据,并自己建立索引方便用户查询。这种方式又分为3种方法,分别为手工的、半自动的和全自动的方法。其中,手工的方法是最早提出来的,但是它需要用户有较为丰富的相关知识与编程经验。半自动的方法正式为了解决这个问题而提出来的,通常它会提供一种图形化的界面来辅助生成爬取程序。全自动的方法希望能够将用户彻底解放出来,但是这些方法通常有过多的假设,离实际应用还有一段距离。同时,当面对较为复杂的页面时,往往不能得到理想的结果。
而在已有的自动方法中,实际表明,它们所得到的结果距离真正的Web应用还有很大的距离,主要集中在以下几点:
1、自动的方法要么存在许多假设,要么无法达到很好的效果。
2、自动的方法要在初始时设置许多参数,这些参数带有较多的主观因素。同时一旦变更领域,这些参数往往就会失效,用不得不重新耗费大量经历设置参数。
3、自动的方法很难做到在记录(record)层次的区分,而在属性(item)层次的区分就更不理想。
发明内容
为了解决上述传统问题,因此本发明的一个目的就是提出了一种面向领域的Web数据集成系统和方法。
在本发明的一个方面中,提出了一种面向领域的Web数据集成系统,该系统包括:数据源;数据集成模块,用于将来自数据源的数据集成到本地;数据处理模块,用于对集成到本地的数据进行处理;以及应用模块,用于将集成出来的数据提供给用户。
在这个方面中,其中数据集成模块包括:基于配置文件的数据集成系统,用于比较精确地对Deep Web上的数据进行抽取与集成;以及普通检索系统,用于搭建大规模的、快速的、全自动的但准确率稍低的集成系统。
在这个方面中,其中数据处理模块包括:数据存储单元,用于存储集成抽取出来的各个网站的数据;索引单元,用于对集成来的数据属性进行索引以方便未来查询时的各项检索;以及全文索引单元,用于对集成过来的全部数据进行全文索引以处理大规模数据集成后的关键字检索问题。
在这个方面中,其中基于配置文件的Web数据集成系统包括:多个数据源;多个配置文件单元,这多个配置文件单元的每一个与上述多个数据源的每一个相对应;统一的集成单元,用于集成底层的各个数据源并且利用数据源所对应的配置文件,采用统一的方式,对数据源中的数据进行抽取;以及本地服务器,用于保存集成起来的所有数据,以便用户可以直接在本地服务器上对数据进行处理。
在这个方面中,其中统一的集成单元包括:读取模块,用于从list.xml中读取一个查询关键字;发送模块,用于根据config.xml中的配置发送查询请求;获取总页数模块,用于根据config.xml中的页数配置信息抽取出这次查询的返回结果的总页数;获取第一页模块,用于依照GET或者POST方式去获取第一页;获取记录模块,用于根据配置文件中的信息,从config.xml中读取记录xpath,将所有记录抽出;获取记录属性值模块,用于从config.xml中读取属性xpath以提出记录的各项属性值;获取页面模块,用于在如果这条记录还有详细页面的情况下根据config.xml中的配置获取url,即获取这条记录的详细页面;获取页面属性值模块,用于从detail.xml中读取属性xpath,即根据详细页面的配置文件,将记录详细页面中的一些属性值也抽取出来;以及获取结果模块,用于成功获取此次查询结果。
在这个方面中,其中如果抽取的页数小于总页数,则会继续抽取下一页,否则这个以这个关键字的查询抽取就已经完成。
在这个方面中,其中查询请求的方式有两种,分别是GET方式和POST方式,如果是GET方式,则会从config.xml中获取需要发送的查询字符串;如果是POST方式,则会从配置文件中获取需要POST过去的参数。
此外,在本发明的另一方面中,提出了一种用在面向领域的Web数据集成系统中的面向领域的Web数据集成方法,所述面向领域的Web数据集成系统包括数据源、具有基于配置文件的数据集成系统的数据集成模块、数据处理模块,以及应用模块,其中基于配置文件的数据集成系统包括多个数据源、与上述多个数据源的每一个相对应多个配置文件单元、统一的集成单元、以及本地服务器,该面向领域的Web数据集成方法包括:数据集成步骤,数据集成模块将来自数据源的数据集成到本地;数据处理步骤,数据处理模块对集成到本地的数据进行处理;以及应用步骤,用于将集成出来的数据提供给用户。
在这个方面中,其中数据集成步骤包括:基于配置文件的数据集成步骤,用于比较精确地对Deep Web上的数据进行抽取与集成;以及普通检索步骤,用于搭建大规模的、快速的、全自动的但准确率稍低的集成系统。
在这个方面中,其中数据处理步骤包括:存储集成抽取出来的各个网站的数据;对集成来的数据属性进行索引以方便未来查询时的各项检索;以及对集成过来的全部数据进行全文索引以处理大规模数据集成后的关键字检索问题。
在这个方面中,其中基于配置文件的数据集成步骤包括:统一的集成步骤,统一的集成单元集成底层的各个数据源并且利用数据源所对应的配置文件,采用统一的方式,对数据源中的数据进行抽取;以及保存步骤,本地服务器保存集成起来的所有数据,以便用户可以直接在本地服务器上对数据进行处理。
在这个方面中,其中统一的集成步骤包括:从list.xml中读取一个查询关键字;根据config.xml中的配置发送查询请求;根据config.xml中的页数配置信息抽取出这次查询的返回结果的总页数;依照GET或者POST方式去获取第一页,根据配置文件中的信息,从config.xml中读取记录xpath,将所有记录抽出;从config.xml中读取属性xpath以提出记录的各项属性值;如果这条记录还有详细页面的情况下根据config.xml中的配置获取url,即获取这条记录的详细页面;从detail.xml中读取属性xpath,即根据详细页面的配置文件,将记录详细页面中的一些属性值也抽取出来;以及获取结果模块,用于成功获取此次查询结果。
在这个方面中,其中如果抽取的页数小于总页数,则会继续抽取下一页,否则这个以这个关键字的查询抽取就已经完成。
在这个方面中,其中查询请求的方式有两种,分别是GET方式和POST方式,如果是GET方式,则会从config.xml中获取需要发送的查询字符串;如果是POST方式,则会从配置文件中获取需要POST过去的参数。
本发明考虑了一种在保证高精确性的前提下,尽量减少人工参与程度的介于半自动与全自动之间的集成方法。提出了一种以模拟用户在某个网站上实际点击行为的方式,通过专门针对这个网站的配置文件,实现对这个网站所有信息的集成以及对每条记录各个属性段的精确抽取,并实现数据的动态更新的查询结果集成办法。
附图说明
结合随后的附图,从下面的详细说明中可显而易见的得出本发明的上述及其他目的、特征及优点。在附图中:
图1给出了根据本发明的Deep Web数据集成系统的框架图;
图2给出了根据本发明的Deep Web的数据集成系统的数据流图;
图3给出了根据本发明的基于配置文件的集成系统的框架图;
图4给出了根据本发明的Deep Web查询接口的示意图;
图5给出了根据本发明的Deep Web查询结果列表的示意图;
图6给出了根据本发明的HMTL转换成XML示例;
图7给出了根据本发明的动态获取网站入口的流程图;
图8给出了统一集成单元的工作流程图;以及
图9给出了统一集成单元的框架图。
具体实施方式
本发明处理的是Deep Web(深层网络)上的数据集成。与Google、百度等通用搜索引擎有些类似。当然,一个关键的不同点是:Google、百度只能依照链接获取页面,因此所获取的只是Surface Web(浅层网络)的内容。而目前Deep Web(深层网络)的数量是Surface Web(浅层网络)的4倍,并且在继续增多。因此在网络上存在着大量普通搜索引擎如Google、百度所检索不到的资源。电子商务网站、工作信息网站等包含查询接口、搜索框的网站即是Deep Web(深层网络)的典型代表。
现在参考图1,对基于上述思想的Deep Web数据集成系统框架图进行详细的说明。图1给出了根据本发明的Deep Web数据集成系统的框架图。
如图1所示,该Deep Web数据集成系统是一个四层结构。
底层面向的领域是所要处理的Deep Web数据源,我们将其按照领域进行分类,可以分为图书信息领域、工作信息领域、政府新闻领域等等。由于我们的目标是将所有数据集成到本地再进行处理,但由于不同领域的数据结构大不相同,因此,我们在集成的时候,考虑的是面向领域的数据集成。
在该领域之上是数据集成模块。该数据集成模块主要分为两块:基于配置文件的数据集成系统(Config System),用于比较精确地对DeepWeb上的数据进行抽取与集成;普通检索系统(Search System),用于搭建大规模的、快速的、全自动的但准确率稍低的集成系统。由于基于配置文件的数据集成系统的特殊性,它更关注的是获取精确的数据,以及Deep Web上那些普通搜索引擎无法爬取到的数据。但是规模也不可能过大。作为对基于配置文件的数据集成系统的有力补充,本发明采用普通检索系统作为另一个数据集成途径。它可以对Deep Web网站中的SurfaceWeb进行自动集成。同时也极大地增加我们的数据量。随后对基于配置文件的数据集成系统进行更加详细地说明。
在数据集成到本地之后,需要考虑数据处理模块(Data Process),该数据处理模块包括:数据存储单元,用于存储集成抽取出来的各个网站的数据;索引单元,用于对集成来的数据属性进行索引以方便未来查询时的各项检索;以及全文索引单元,用于对集成过来的全部数据进行全文索引以处理大规模数据集成后的关键字检索问题。当这些数据的存储方式、索引方式,以及当数据量过大时,该数据处理模块可进行有效的全文索引以方便用户将来查询。
在该框架图的最顶层,就是基于该Deep Web数据集成系统之上的应用,其包括因特网和WAP移动网上的应用。在因特网上,我们可以利用集成出来的数据提供给用户进行垂直搜索,也可以整合多个数据源产生出数据混合(Mashup)应用。在WAP移动网上,我们可以将集成到的数据以简单的形式提供给用户,以便将因特网上的数据共享到WAP上,也可以将数据提供给手机用户进行移动检索。
这四层构成了整个Deep Web数据集成系统。
图2给出了该Deep Web的数据集成系统的数据流图。如图2所示,首先将Deep web中的大量数据先通过根据本发明的集成方法(如图8所示)集成到本地服务器上,然后通过一个查询接口,提供给用户进行检索,由于所有的检索都是在本地完成,因此相对于接口集成来说,速度将非常快。
下面对数据集成模块中的基于配置文件的数据集成系统进行详细地说明。
图3给出了根据本发明的基于配置文件的集成系统的框架图。该框架图就是图1中的基于配置文件的集成系统的一个细化图。
如图3所示,该基于配置文件的集成系统主要包括:多个数据源,例如Deep Web数据、XML数据、以及其它提供接口查询的网页;多个配置文件单元,这多个配置文件单元的每一个与上述多个数据源的每一个相对应;统一的集成单元,用于集成底层的各个数据源并且利用数据源所对应的配置文件,采用统一的方式,对数据源中的数据进行抽取;以及本地服务器,用于保存集成起来的所有数据,这样用户检索时,便可以直接在本地服务器上进行检索,提高效率。随后对上述统一的集成单元进行更详细的描述。
该基于配置文件的集成系统利用统一的集成单元并且利用针对每一个网站的配置文件来对Deep Web数据、XML数据、以及其它提供接口查询的网页进行集成。
在每一个Deep Web背后,虽然都有一个Web数据库,但是对于用户来说,是无法直接访问这些数据库的。用户只能通过Deep Web网站所提供的接口,如图4所示。
通过这些接口,用户可以通过查询自己感兴趣的信息。网站会以一个统一的形式生成HTML页面,将查询结果呈现给用户。由于在这个过程中,网页是动态生成的,返回结果的数据也是在不断变化的,同时,在这一个过程中,可能还需要传递一些参数,因此,Deep Web网页常常无法被通用搜索引擎爬取。但是随着Deep Web网站的数量的急剧增加,如何有效地利用这些数据,将信息方便地提供给用户查询,显得越来越重要。
查询结果一般是以列表的形式返回给用户,我们将其定义为列表页面(List页面),如图5所示。
在这些查询结果中,记录会以规整的形式展现,每一条记录又是由多个属性项组成的。而这些属性项,一般是用户提交此次查询所最为关注的内容,其中一些属性项,又能够链接到更深一层的页面。这个页面,是有关这条记录的包含更多详细信息的页面,我们将这个页面定义为Detail页面。
当我们面对Deep Web进行数据集成的时候,需要将List页面与Detail页面的信息都集成进来。并且,为了提供给用户更好的检索服务,我们需要将这些数据进行结构化处理。这点,也正是面向领域的数据集成与通用集成的重要区别。由于HTML中的数据是一种非结构化的数据,不方便进行进一步处理。为了能够精确地从List页面和Detail页面中抽取出每条记录的属性项,我们将其转换为XML进行处理。
如图6所示,将网站动态生成的HTML页面转为XML页面之后,我们就可以使用XPath来进行数据抽取。XPath是用于在XML文件上寻找信息的一种语言,它可以通过XML文档中的路径索引,操纵XML文件上的元素和属性。为此,我们需要针对网站的List页面和Detail页面分别写一个配置文件,通过这些配置文件获得属性项的XPath,然后在转换生成的XML文件中将属性值抽取出来。
只要使用特定规则,例如在职位搜索中按照行业类别查询,就可访问到整个Deep Web数据库了。
这种方法的有点在于:
1、能够快速搭建起一个面向领域的集成系统;
2、非常容易商业化。目前,我们已经通过此系统在工作信息领域集成了超过150万条招聘信息,在政府新闻领域集成了近50万条数据,并通过两个网站JobTong(工作通)和GovTong(政务通)提供给外界进行搜索;
3、抽取准确度高,抽取粒度细。这也是其它自动方法未能达到的目标。
4、面向大规模数据。我们的方法并不是做一个简单的应用程序,而是面对实际的海量的Deep Web上的数据;
5、模拟用户点击行为。使得这种方法既不获取冗余数据,也不会少获取数据。
下面对图3中的配置文件单元进行详细说明。
在本发明中,需要针对每个被集成网站配置一组配置文件。通过这组配置文件,程序能够动态获得该网站的入口,并发送不同的参数请求,取回不同的结果数据。这样我们就实现了动态访问该网站的数据库,并取回我们想要的数据。因此,配置文件单元在整个数据集成系统中充当了封装网站的作用。
基于配置文件的数据集成系统需要的配置文件总共有三类:
Config.xml:被集成网站基本信息配置文件;
Detail.xml:查询结果详细信息配置文件;
List.xml:多个查询入口配置文件。
其中,Detail.xml这类配置文件可能包含一至多个,其它两类有且只能有一个配置文件。在这组配置文件中,只有Config.xml是必须的,这个配置文件中指定了如何通过GET或POST方式获取记录集的列表,以及如何获取记录等最重要的配置信息。Detail.xml可能是网站详细页面的配置文件,其内容是内容就是详细页面上各个属性值的xpath,由于一个网站可能有多个模板,因此有可能会有多个Deatil.xml,我们将其分别命名为Deatil1.xml,Deatil2.xml等等。List.xml其实是多个入口,相当于有多个“关键字”,其主要内容包含两块,一部分是这个“关键字”的中文名称,另一部分是用来替换Config.xml中的“$querykeyword$”。
接下来对统一的集成单元进行的详细说明。
本发明的系统试图模拟用户点击行为,因此将所有Deep Web上的数据查询请求抽象为三类:
第一类是查询变量。这类变量体现了Deep Web上的动态特性,当查询发送不同的变量值时,网站将返回不同的数据给我们。
第二类是查询常量。这些常量是相对于查询变量而言,也就是说,在整个查询过程中,他们是可以不用改变的。当然,查询变量和查询常量之间没有固定的界限,在一个查询方案中的查询常量可能是另一个查询方案中的查询变量。
第三类是翻页过程。为了遍历某一个查询的所有数据,要能够自动翻页。在此过程中,需要发送一些查询变量,但是,由于翻页的特殊性,这一过程具有可归纳性。例如,翻页所发送的查询变量一般为页码值,或者是页码值的一个线性变换。
由于一个网站要在页面上能够实现翻页,必然要有某种策略(例如在GET或POST参数中添加页码信息)来实现浏览器中的翻页,因此我们就以程序来模拟浏览器中的这种翻页过程。该过程如下:
如果查询接口的请求发送方式是GET方式,则使用GET方法发送查询参数;如果是POST方式,则使用POST方式发送查询参数。然后统一集成模块就会取回采样页,并根据配置文件提取出总页数TotalPages。此后,统一集成模块会依据此网站的翻页策略,在GET参数或者POST参数中动态修改页码信息,重新发送请求参数,来获取指定页的查询结果页面。这个过程从第一页开始,到最后一页(即TotalPages)结束,因而称为翻页过程。
有了这三类抽象,我们就能够使用统一的方式动态获取网站入口,如图7所示,首先从config.xml中读取出这个网站的URL模式(URLPattern),接着替换其中的查询变量,保留查询常量,利用上述翻页过程设置页码,再根据不用的请求发送方式,如GET方式或者POST方式,发送查询请求和参数,然后取回查询结果。
实现动态访问网站之后,就能够利用配置文件去网站提交一个查询,接着取回查询结果的页数。然后利用翻页过程,将此查询的所有查询结果一页一页取回,再根据配置文件中的xpath,将要抽取的数据获得,并存入本地数据库中。
图8给出了统一集成单元的工作流程图。如图8所示,首先从list.xml中读取一个查询关键字,然后根据config.xml中的配置发送查询请求。查询请求的方式可能有两种,分别是GET方式和POST方式,如果是GET方式,则会从config.xml中获取需要发送的查询字符串;如果是POST方式,则会从配置文件中获取需要POST过去的参数。这样就能够获得一个采样页。再获取这个采样页之后,根据config.xml中的页数配置信息抽取出这次查询的返回结果的总页数,然后依照GET或者POST方式去获取第一页,这样就可以获得一组返回结果记录。根据配置文件中的信息,将所有记录抽出,并提出记录的各项属性值,如果这条记录还有详细页面,则可以根据详细页面的配置文件,将记录详细页面中的一些属性值也抽取出来。此时,如果抽取的页数小于总页数,则会继续抽取下一页,否则这个以这个关键字的查询抽取就已经完成,从list.xml中取出下一个关键字进行查询。
图9给出了能够实现图8所示流程的统一集成单元的方框图。如图9所示,读取模块从list.xml中读取一个查询关键字。发送模块根据config.xml中的配置发送查询请求。查询请求的方式可能有两种,分别是GET方式和POST方式,如果是GET方式,则会从config.xml中获取需要发送的查询字符串;如果是POST方式,则会从配置文件中获取需要POST过去的参数。获取总页数模块这样就能够获得一个采样页,再获取这个采样页之后,根据config.xml中的页数配置信息抽取出这次查询的返回结果的总页数,然后获取第一页模块依照GET或者POST方式去获取第一页,这样就可以获得一组返回结果记录。获取记录模块根据配置文件中的信息,从config.xml中读取记录xpath,将所有记录抽出。获取记录属性值模块从config.xml中读取属性xpath以提出记录的各项属性值。如果这条记录还有详细页面,获取页面模块则根据config.xml中的配置获取url,即获取这条记录的详细页面。获取页面属性值模块从detail.xml中读取属性xpath,即根据详细页面的配置文件,将记录详细页面中的一些属性值也抽取出来。此时,如果抽取的页数小于总页数,则会继续抽取下一页,否则这个以这个关键字的查询抽取就已经完成,获取结果模块则成功获取此次查询结果,从list.xml中取出下一个关键字进行查询。
从以上描述可知,借助于本发明,可以快速地构造出针对某一个具体领域的集成范例。
对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下,可对其做出各种修改。
Claims (14)
1.一种用于面向领域的Web数据集成系统,包括:
数据源;
用于将来自数据源的数据集成到本地的数据集成模块;
对集成到本地的数据进行处理的数据处理模块;以及
用于将集成出来的数据提供给用户的应用模块;
其特征为:所述数据集成模块包括:用于对Deep Web上的数据进行抽取与集成的基于配置文件的Web数据集成系统;所述配置文件的Web数据集成系统包括:
多个数据源;
用于与配置文件的Web数据集成系统中的多个数据源的每一个相对应多个配置文件单元;
用于集成底层的各个数据源,并且利用数据源所对应的配置文件,采用统一的方式,对数据源中的数据进行抽取的统一的集成单元;以及
用于保存集成起来的所有数据,以便用户可以直接在本地服务器上对数据进行处理的本地服务器。
2.根据权利要求1的面向领域的Web数据集成系统,其中数据集成模块还包括:
用于搭建大规模的、快速的、全自动的但准确率稍低的集成系统的普通检索系统。
3.根据权利要求1的面向领域的Web数据集成系统,其中数据处理模块包括:
用于存储集成抽取出来的各个网站数据的数据存储单元;
用于对集成来的数据属性进行索引以方便未来查询时的各项检索的索引单元;以及
用于对集成过来的全部数据进行全文索引以处理大规模数据集成后的关键字检索问题的全文索引单元。
4.根据权利要求1的面向领域的Web数据集成系统,其中统一的集成单元包括:
用于从list.xml中读取一个查询关键字的读取模块;
用于根据config.xml中的配置发送查询请求的发送模块;
用于根据config.xml中的页数配置信息抽取出的本次查询返回结果总页数的获取总页数模块;
用于依照GET或者POST方式获取第一页的获取第一页模块;
用于根据配置文件中的信息,从config.xml中读取记录xpath,并将所有记录抽出的获取记录模块;
用于从config.xml中读取属性xpath以提出记录的各项属性值的获取记录属性值模块;
用于在如果这条记录还有详细页面的情况下,根据config.xml中的配置获取url,即获取这条记录所在的详细页面的获取页面模块;
用于从detail.xml中读取属性xpath,即根据详细页面的配置文件,将记录详细页面中的一些属性值也抽取出来的获取页面属性值模块;以及
用于成功获取此次查询结果的获取结果模块。
5.根据权利要求4中所述的面向领域的Web数据集成系统,其中如果抽取的页数小于总页数,则会继续抽取下一页,否则以这个关键字的查询抽取就已经完成。
6.根据权利要求4的面向领域的Web数据集成系统,其中查询请求的方式有两种,分别是GET方式和POST方式,如果是GET方式,则会从config.xml中获取需要发送的查询字符串;如果是POST方式,则会从配置文件中获取需要POST过去的参数。
7.根据权利要求4的面向领域的Web数据集成系统,其中数据处理模块包括:
用于存储集成抽取出来的各个网站数据的数据存储单元;
用于对集成来的数据属性进行索引以方便未来查询时的各项检索的索引单元;以及
用于对集成过来的全部数据进行全文索引以处理大规模数据集成后的关键字检索问题的全文索引单元。
8.一种用在面向领域的数据集成系统中的面向领域的Web数据集成方法,所述面向领域的数据集成系统包括数据源、具有基于配置文件的数据集成系统的数据集成模块、数据处理模块,以及应用模块,其中基于配置文件的数据集成系统包括多个数据源、与上述多个数据源的每一个相对应多个配置文件单元、统一的集成单元、以及本地服务器,该面向领域的数据集成方法包括:
数据集成步骤,数据集成模块将来自数据源的数据集成到本地;
数据处理步骤,数据处理模块对集成到本地的数据进行处理;以及
应用步骤,用于将集成出来的数据提供给用户;其特征为:其中数据集成步骤包括:
基于配置文件的数据集成步骤,用于比较精确地对Deep Web上的数据进行抽取与集成;该步骤具体为:
统一的集成步骤,统一的集成单元集成底层的各个数据源并且利用数据源所对应的配置文件,采用统一的方式,对数据源中的数据进行抽取;以及
保存步骤,本地服务器保存集成起来的所有数据,以便用户可以直接在本地服务器上对数据进行处理。
9.根据权利要求8的面向领域的Web数据集成方法,其中数据集成步骤还包括:
普通检索步骤,用于搭建大规模的、快速的、全自动的但准确率稍低的集成系统。
10.根据权利要求8的面向领域的Web数据集成方法,其中数据处理步骤包括:
存储集成抽取出来的各个网站的数据;
对集成来的数据属性进行索引以方便未来查询时的各项检索;以及
对集成过来的全部数据进行全文索引以处理大规模数据集成后的关键字检索。
11.根据权利要求8的面向领域的Web数据集成系统,其中统一的集成步骤包括:
从list.xml中读取一个查询关键字;
根据config.xml中的配置发送查询请求;
根据config.xml中的页数配置信息抽取出这次查询的返回结果的总页数;
依照GET或者POST方式去获取第一页;根据配置文件中的信息,从config.xml中读取记录xpath,将所有记录抽出;
从config.xml中读取属性xpath以提出记录的各项属性值;
如果这条记录还有详细页面的情况下根据config.xml中的配置获取url,即获取这条记录的详细页面;
从detail.xml中读取属性xpath,即根据详细页面的配置文件,将记录详细页面中的一些属性值也抽取出来;
获取结果模块,用于成功获取此次查询结果。
12.根据权利要求11的面向领域的Web数据集成方法,其中如果抽取的页数小于总页数,则会继续抽取下一页,否则这个以这个关键字的查询抽取就已经完成。
13.根据权利要求11的面向领域的Web数据集成方法,其中查询请求的方式有两种,分别是GET方式和POST方式,如果是GET方式,则会从config.xml中获取需要发送的查询字符串;如果是POST方式,则会从配置文件中获取需要POST过去的参数。
14.根据权利要求11的面向领域的Web数据集成方法,其中数据处理步骤包括:
存储集成抽取出来的各个网站的数据;
对集成来的数据属性进行索引以方便未来查询时的各项检索;以及
对集成过来的全部数据进行全文索引以处理大规模数据集成后的关键字检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100561015A CN101251852B (zh) | 2008-01-11 | 2008-01-11 | 面向领域的Web数据集成系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100561015A CN101251852B (zh) | 2008-01-11 | 2008-01-11 | 面向领域的Web数据集成系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101251852A CN101251852A (zh) | 2008-08-27 |
CN101251852B true CN101251852B (zh) | 2011-05-18 |
Family
ID=39955243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100561015A Expired - Fee Related CN101251852B (zh) | 2008-01-11 | 2008-01-11 | 面向领域的Web数据集成系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101251852B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699861A (zh) * | 2015-04-09 | 2015-06-10 | 成都卡莱博尔信息技术有限公司 | 一种主数据中心的数据处理方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101771993B (zh) * | 2008-12-31 | 2012-11-07 | 中国移动通信集团公司 | 基于移动网络实现聚合应用的系统及其方法 |
CN101833568B (zh) * | 2010-04-01 | 2012-02-08 | 武汉大学 | Web数据管理系统 |
CN102456028A (zh) * | 2010-10-27 | 2012-05-16 | 金蝶软件(中国)有限公司 | 一种面向多租户的数据获取方法、装置及系统 |
CN102426525B (zh) * | 2011-11-07 | 2014-01-29 | 中国南方电网有限责任公司 | 一种多应用系统的全景建模方法 |
CN103838747B (zh) * | 2012-11-22 | 2017-07-07 | 富士通株式会社 | 网络服务构建方法和设备以及网页数据抽取方法和设备 |
CN103309954A (zh) * | 2013-05-27 | 2013-09-18 | 复旦大学 | 一种基于html网页的数据抽取系统 |
CN104346203B (zh) * | 2014-10-16 | 2017-12-19 | 北京奇虎科技有限公司 | 安装论坛的方法和装置 |
CN105988994A (zh) * | 2015-02-06 | 2016-10-05 | 北京询达数据科技有限公司 | Web领域分布式实时抽取系统 |
CN106469168B (zh) * | 2015-08-19 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 数据集成系统中多类型数据处理的方法及装置 |
CN108648002A (zh) * | 2018-04-28 | 2018-10-12 | 张青 | 一种水果加权价格的推算系统和方法 |
CN111198980A (zh) * | 2019-12-20 | 2020-05-26 | 上海数据交易中心有限公司 | 开放数据的检索方法及装置、存储介质、服务器 |
-
2008
- 2008-01-11 CN CN2008100561015A patent/CN101251852B/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699861A (zh) * | 2015-04-09 | 2015-06-10 | 成都卡莱博尔信息技术有限公司 | 一种主数据中心的数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101251852A (zh) | 2008-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101251852B (zh) | 面向领域的Web数据集成系统和方法 | |
CN100507920C (zh) | 一种基于用户行为信息的搜索引擎检索结果重排序方法 | |
CN104536959B (zh) | 一种Hadoop存取海量小文件的优化方法 | |
US7290061B2 (en) | System and method for internet content collaboration | |
CN1761962B (zh) | 将非结构化数据实时聚集为结构化数据以便关系数据库引擎进行sql处理 | |
CN101647020B (zh) | 搜索结构化地理数据 | |
CN1278263C (zh) | 在一个或多个网络上进行通用搜索管理的系统 | |
US8510377B2 (en) | Methods and systems for exploring a corpus of content | |
US20100318537A1 (en) | Providing knowledge content to users | |
US20030088639A1 (en) | Method and an apparatus for transforming content from one markup to another markup language non-intrusively using a server load balancer and a reverse proxy transcoding engine | |
CN101685444B (zh) | 用于实现元数据搜索的系统和方法 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
US9275145B2 (en) | Electronic document retrieval system with links to external documents | |
CN101178728A (zh) | 一种网址导航的方法和系统 | |
US20100293448A1 (en) | Centralized website local content customization | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
CN105335487A (zh) | 基于农业技术信息本体库的农业专家信息检索系统及方法 | |
CN1822005A (zh) | 基于网站自动生成和搜索引擎的信息推送系统及方法 | |
CN1794239A (zh) | 具有搜索功能的模板式网站自动生成系统及其方法 | |
US10810181B2 (en) | Refining structured data indexes | |
CN102622402B (zh) | 使用页面集而提供信息搜索服务的服务器、方法和系统 | |
EP1143349A1 (en) | Method and apparatus for generating index data for search engines | |
CN105787066A (zh) | 基于全量分析的数字内容分发系统 | |
CN102156749B (zh) | 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统 | |
CN105787029A (zh) | 一种基于solr的关键字词识别办法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110518 Termination date: 20140111 |