CN104182542B - 用于网站集群的数据处理方法和装置 - Google Patents

用于网站集群的数据处理方法和装置 Download PDF

Info

Publication number
CN104182542B
CN104182542B CN201410449676.9A CN201410449676A CN104182542B CN 104182542 B CN104182542 B CN 104182542B CN 201410449676 A CN201410449676 A CN 201410449676A CN 104182542 B CN104182542 B CN 104182542B
Authority
CN
China
Prior art keywords
chain
website
data
goes out
enter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410449676.9A
Other languages
English (en)
Other versions
CN104182542A (zh
Inventor
洪超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410449676.9A priority Critical patent/CN104182542B/zh
Publication of CN104182542A publication Critical patent/CN104182542A/zh
Application granted granted Critical
Publication of CN104182542B publication Critical patent/CN104182542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于网站集群的数据处理方法和装置。其中,该用于网站集群的数据处理方法包括:获取目标网站的配置信息,配置信息为目标网站与链入链出网站之间的配置关系的信息,链入链出网站为与目标网站之间存在数据链入链出的网站,目标网站和链入链出网站为同一网站集群中的网站;获取目标网站的数据源,数据源用于存储目标网站的链入链出数据;通过配置信息对数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据;以及统计过滤后的链入链出数据的流量值。通过本发明,解决了相关技术中在统计网站集群中的目标网站的数据链入链出的流量值时,导致需要抽取很多无关数据的问题。

Description

用于网站集群的数据处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种用于网站集群的数据处理方法和装置。
背景技术
网站集群是指一群能够进行数据共享、数据呈送的相互关联的网站的集合。目前,在相关技术中,在统计某个网站集群内各个网站到该网站集群内其它网站的数据链入链出的流量值时,通常采用传统的统计方式,即,先从各个数据库中抽取链入链出到目标网站的所有数据,再过滤掉不属于目标网站所在的网站集群内的其他网站的数据,得到过滤后的数据,然后统计过滤后的数据的流量值,并将这些数据插入到目标数据源中。
然而,在上述统计方案中,由于要对目标网站的所有数据源中的数据进行全部抽取,导致需要抽取很多无关数据,增加了数据抽取负担,并且降低了系统性能以及数据传输速度。
针对相关技术中在统计网站集群中的目标网站的数据链入链出的流量值时,导致需要抽取很多无关数据的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于网站集群的数据处理方法和装置,以解决相关技术中在统计网站集群中的目标网站的数据链入链出的流量值时,导致需要抽取很多无关数据的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于网站集群的数据处理方法。该方法包括:获取目标网站的配置信息,所述配置信息为所述目标网站与链入链出网站之间的配置关系的信息,所述链入链出网站为与所述目标网站之间存在数据链入链出的网站,所述目标网站和所述链入链出网站为同一网站集群中的网站;获取所述目标网站的数据源,所述数据源用于存储所述目标网站的链入链出数据;通过所述配置信息对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据;以及统计所述过滤后的链入链出数据的流量值。
进一步地,通过所述配置信息对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据包括:根据所述配置信息生成结构化查询语言SQL配置语句;执行所述SQL配置语句以生成临时表,所述临时表用于存储所述配置信息;以及根据所述临时表对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据。
进一步地,根据所述配置信息生成结构化查询语言SQL配置语句包括:将所述配置信息进行转化,得到转化信息;申明临时表变量;以及将所述转化信息插入临时表变量,得到所述SQL配置语句。
进一步地,在统计所述过滤后的链入链出数据的流量值之前,所述数据处理方法还包括:获取结构化查询语言SQL抽取语句;通过所述SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据,其中,统计所述抽取后的链入链出数据的流量值。
进一步地,在通过所述SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据之后,所述数据处理方法还包括:将抽取得到的链入链出数据存储至目标数据库中;或者将所述抽取得到的链入链出数据存储至数据仓库中。
为了实现上述目的,根据本发明的另一方面,提供了一种用于网站集群的数据处理装置。该装置包括:第一获取单元,用于获取目标网站的配置信息,所述配置信息为所述目标网站与链入链出网站之间的配置关系的信息,所述链入链出网站为与所述目标网站之间存在数据链入链出的网站,所述目标网站和所述链入链出网站为同一网站集群中的网站;第二获取单元,用于获取所述目标网站的数据源,所述数据源用于存储所述目标网站的链入链出数据;过滤单元,用于通过所述配置信息对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据;以及统计单元,用于统计所述过滤后的链入链出数据的流量值。
进一步地,所述过滤单元包括:生成模块,用于根据所述配置信息生成结构化查询语言SQL配置语句;执行模块,用于执行所述SQL配置语句以生成临时表,所述临时表用于存储所述配置信息;以及过滤模块,用于根据所述临时表对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据。
进一步地,所述生成模块包括:转化子模块,用于将所述配置信息进行转化,得到转化信息;申明子模块,用于申明临时表变量;以及插入子模块,用于将所述转化信息插入临时表变量,得到所述SQL配置语句。
进一步地,所述数据处理装置还包括:第三获取单元,用于在统计所述过滤后的链入链出数据的流量值之前,获取结构化查询语言SQL抽取语句;抽取单元,用于通过所述SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据,其中,所述统计单元还用于统计所述抽取后的链入链出数据的流量值。
进一步地,所述数据处理装置还包括:第一存储单元,用于在通过所述SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据之后,将抽取得到的链入链出数据存储至目标数据库中;或者第二存储单元,用于将所述抽取得到的链入链出数据存储至数据仓库中。
通过本发明,采用获取目标网站的配置信息,配置信息为目标网站与链入链出网站之间的配置关系的信息,链入链出网站为与目标网站之间存在数据链入链出的网站,目标网站和链入链出网站为同一网站集群中的网站;获取目标网站的数据源,数据源用于存储目标网站的链入链出数据;通过配置信息对数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据;以及统计过滤后的链入链出数据的流量值,由于在抽取数据之前就对链入链出数据进行了过滤,解决了相关技术中在统计网站集群中的目标网站的数据链入链出的流量值时,导致需要抽取很多无关数据的问题,达到了仅仅抽取需要抽取的链入链出数据进行流量值统计的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的用于网站集群的数据处理装置的示意图;
图2是根据本发明实施例的优选的用于网站集群的数据处理装置的示意图;
图3是根据本发明实施例的用于网站集群的数据处理方法的流程图;以及
图4是根据本发明实施例的优选的用于网站集群的数据处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。根据本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
根据本发明的实施例,提供了一种用于网站集群的数据处理装置,该用于网站集群的数据处理装置用于在链入链出数据抽取之前对其进行过滤,并对通过后的链入链出数据进行统计。
图1是根据本发明实施例的用于网站集群的数据处理装置的示意图。如图1所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和统计单元40。
第一获取单元10用于获取目标网站的配置信息,配置信息为目标网站与链入链出网站之间的配置关系的信息,链入链出网站为与目标网站之间存在数据链入链出的网站,目标网站和链入链出网站为同一网站集群中的网站。
配置信息为目标网站与链入链出网站之间的配置关系的信息,链入链出网站为与目标网站之间存在数据链入链出的网站,目标网站和链入链出网站为同一网站集群中的网站。需要说明的是,目标网站和链入链出网站为相对的,目标网站可以成为链入链出网站;链入链出网站也可以成为目标网站。
例如,网站A、网站B、网站C、网站D为第一网站集群中的4个网站,如果以网站A为目标网站,则网站B、网站C、网站D可以作为网站A的链入链出网站,网站B、网站C、网站D作为网站A的链入链出网站时,网站B、网站C、网站D可以向网站A链入链出数据。由于网站A与网站B、网站C、网站D之间可以分别进行数据的链入链出,因此,可以统计网站A与网站B、网站C、网站D之间链入链出数据的流量值。同理,如果以网站B为目标网站,则网站A、网站C、网站D可以作为网站B的链入链出网站;如果以网站C为目标网站,则网站A、网站B、网站D可以作为网站C的链入链出网站;如果以网站D为目标网站,则网站A、网站B、网站C可以作为网站D的链入链出网站。
需要说明的是,目标网站的配置信息即为目标网站链入链出网站之间的网站集群关系的配置信息,例如,目标网站的配置信息可以为目标网站的域名与目标网站处于同一网站集群中的链入链出网站的域名之间的域名配置关系的信息。
具体地,可以从ProfileDomain配置表中获取目标网站的配置信息。其中,在获取目标网站的配置信息之前,可以先创建ProfileDomain配置表,ProfileDomain配置表可以用于记录每个Profile(即,目标网站)的Domain(即,域)的配置信息。在ETL(Extract-Transform-Load,萃取-转置-加载)执行抽取操作之前,可以预先读取ProfileDomain配置表里所有的Domain及Profile信息。
第二获取单元20用于获取目标网站的数据源,数据源用于存储目标网站的链入链出数据。数据源用于存储目标网站的链入链出数据。需要说明的是,获取目标网站的数据源即为获取目标网站的全部数据源,其中,目标网站的全部数据源均与目标网站之间存在数据链入链出行为。但是,目标网站的全部数据源中的全部数据可以均来自与目标网站处于同一网站集群中的网站(即,前述的链入链出网站),或者目标网站的全部数据源中的一部分数据来自与目标网站处于同一网站集群中的网站(即,前述的链入链出网站),而目标网站的全部数据源中的另一部分数据来自与目标网站处于不同网站集群中的网站。
过滤单元30用于通过配置信息对数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据。由于前述的目标网站的数据源中的链入链出数据不一定全部来自目标网站所处的网站集群中除目标网站之外的其他网站,而配置信息为目标网站与该目标网站所处的网站集群中除该目标网站之外的其他网站之间的配置关系的信息,因此,通过配置信息对全部数据源中所有的链入链出数据进行过滤,可以得到过滤后的链入链出数据,其中,过滤后的链入链出数据为来自目标网站所处的网站集群中除该目标网站之外的其他网站的链入链出数据。
统计单元40用于统计过滤后的链入链出数据的流量值。需要说明的是,在本发明实施例中,上述功能模块可以应用于基于ETL的数据仓库技术中。具体地,在从数据源抽取链入链出数据之前,可以先对数据源中的链入链出数据进行过滤处理,再从数据源抽取过滤后的的链入链出数据,并统计过滤后的链入链出数据的流量值。
需要说明的是,上述功能模块的应用场景可以为抽取目标网站的链入链出数据,也即,抽取与目标网站处于同一网站集群内的各网站与目标网站之间的链入链出数据。其中,可以过滤出数据源中网站集群内的链入链出数据,具体地,可以基于网站集群内网站的域名对数据源中的链入链出数据进行过滤。链入链出数据可以包括链入数据;或者可以包括链出数据;或者可以包括链入数据和链出数据。
通过本发明实施例,由于在从数据源抽取链入链出数据之前,先对数据源中的链入链出数据进行了过滤处理,再从数据源抽取过滤后的的链入链出数据,因此,无需抽取目标网站所处的网站集群之外的网站集群中网站的链入链出数据,也即,无需抽取与目标网站所处的网站集群无关的网站的链入链出数据,达到了仅仅抽取需要抽取的链入链出数据进行流量值统计的效果,减少了数据抽取量以及数据传输量,提升了系统性能。
图2是根据本发明实施例的优选的用于网站集群的数据处理装置的示意图。如图2所示,该实施例可以作为图1所示实施例的优选实施方式,该实施例的用于网站集群的数据处理装置包括第一实施例的第一获取单元10、第二获取单元20、过滤单元30和统计单元40,其中,过滤单元30包括生成模块302、执行模块304和过滤模块306。
第一获取单元10、第二获取单元20和统计单元40的作用与第一实施例中的相同,在此不再赘述。
生成模块302用于根据配置信息生成结构化查询语言SQL配置语句。配置信息可以存储在配置表中,配置表中的每条配置信息与结构查询语言SQL配置语句一一对应。
执行模块304用于执行SQL配置语句以生成临时表,临时表用于存储配置信息。需要说明的是,临时表中的变量即为SQL配置语句,由于SQL配置语句与配置信息一一对应,因此,临时表存储配置信息也即存储SQL配置语句。
过滤模块306用于根据临时表对数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据。
需要说明的是,由于临时表中存储有与配置信息一一对应的SQL配置语句,因此根据临时表对数据源中的链入链出数据进行过滤也即根据临时表中的SQL配置语句对数据源中的链入链出数据进行过滤。
具体地,可以通过SQL配置语句所对应的网站的域名对数据源中的链入链出数据进行过滤。需要说明的是,数据源可以为一个或者多个数据库。
通过本发明实施例,由于ETL往往是跨数据库操作的,不能直接传递临时表,因此,通过配置信息先生成SQL配置语句,再执行该SQL配置语句,生成一张临时表,并且临时表里存储着所有的配置信息,这样,在执行ETL操作时,可以避免直接传递临时表。
优选地,在本发明实施例中,生成模块可以包括:转化子模块、申明子模块和插入子模块。转化子模块用于将配置信息进行转化,得到转化信息。申明子模块用于申明临时表变量。插入子模块用于将转化信息插入临时表变量,得到SQL配置语句。
具体地,首先申明一张临时表中的临时表变量,再将ProfileDomain配置表里所有的配置信息都转化成SQL语句,并将SQL语句插入临时表中相应的临时表变量,从而得到SQL配置语句。执行该SQL配置语句,能直接生成和ProfileDomain配置表中的配置信息相同的临时表变量。
优选地,在本发明实施例中,该数据处理装置还可以包括:第三获取单元和抽取单元。第三获取单元用于在统计过滤后的链入链出数据的流量值之前,获取结构化查询语言SQL抽取语句。抽取单元用于通过SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据。其中,统计单元还用于统计抽取后的链入链出数据的流量值。
具体地,在通过结构化查询语言SQL配置语句对数据源中的链入链出数据进行过滤之后,可以得到过滤后的链入链出数据,其中,过滤后的链入链出数据即为网站集群内的链入链出数据。在SQL配置语句的基础上,添加SQL抽取语句,并通过SQL抽取语句对数据源中的过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据,对抽取后的链入链出数据进行流量统计,得到的流量值即为所要统计的流量值。
例如,在ETL抽取时,将SQL抽取语句与临时表变量进行表连接,直接在各目标网站Profile的数据库中对通过Domain配置信息过滤的数据进行数据抽取,可以仅仅抽取网站集群中的Domain所对应的链入链出数据,并统计抽取到的链入链出数据的流量值。
优选地,在本发明实施例中,该数据处理装置还可以包括:第一存储单元或第二存储单元。其中,当该数据处理装置包括第一存储单元时,第一存储单元用于在通过SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据之后,将抽取得到的链入链出数据存储至目标数据库中;当该数据处理装置包括第二存储单元时,第二存储单元用于将抽取得到的链入链出数据存储至数据仓库中。
优选地,在抽取到网站集群中的Domain所对应的链入链出数据之后,可以将其直接插入到目标数据库或数据仓库里,从而实现链入链出数据的加载。
通过本发明实施例,可将配置信息作为过滤信息,并确定配置信息与SQL配置语句的对应关系,以及执行SQL配置语句,在执行该SQL配置语句时生成临时表以存储配置信息,并在链入链出数据抽取时,将该临时表中的临时表变量与数据源做相应的表连接以进行数据过滤,从而达到在数据源端进行数据抽取之前对数据进行过滤,进而无需将所有的数据都抽取到数据仓库或者数据库中,达到了减少数据抽取量以及减少数据传输量的效果,并提升了系统的性能。
根据本发明的实施例,提供了一种用于网站集群的数据处理方法,该用于网站集群的数据处理方法用于在链入链出数据抽取之前对其进行过滤,并对通过后的链入链出数据进行统计。该用于网站集群的数据处理方法可以运行在计算机处理设备上。需要说明的是,本发明实施例所提供的用于网站集群的数据处理方法可以通过本发明实施例的用于网站集群的数据处理装置来执行,本发明实施例的用于网站集群的数据处理装置也可以用于执行本发明实施例的用于网站集群的数据处理方法。
图3是根据本发明实施例的用于网站集群的数据处理方法的流程图。如图3所示,该方法包括如下的步骤S302至步骤S308:
步骤S302,获取目标网站的配置信息。
配置信息为目标网站与链入链出网站之间的配置关系的信息,链入链出网站为与目标网站之间存在数据链入链出的网站,目标网站和链入链出网站为同一网站集群中的网站。需要说明的是,目标网站和链入链出网站为相对的,目标网站可以成为链入链出网站;链入链出网站也可以成为目标网站。
例如,网站A、网站B、网站C、网站D为第一网站集群中的4个网站,如果以网站A为目标网站,则网站B、网站C、网站D可以作为网站A的链入链出网站,网站B、网站C、网站D作为网站A的链入链出网站时,网站B、网站C、网站D可以向网站A链入链出数据。由于网站A与网站B、网站C、网站D之间可以分别进行数据的链入链出,因此,可以统计网站A与网站B、网站C、网站D之间链入链出数据的流量值。同理,如果以网站B为目标网站,则网站A、网站C、网站D可以作为网站B的链入链出网站;如果以网站C为目标网站,则网站A、网站B、网站D可以作为网站C的链入链出网站;如果以网站D为目标网站,则网站A、网站B、网站C可以作为网站D的链入链出网站。
需要说明的是,目标网站的配置信息即为目标网站链入链出网站之间的网站集群关系的配置信息,例如,目标网站的配置信息可以为目标网站的域名与目标网站处于同一网站集群中的链入链出网站的域名之间的域名配置关系的信息。
具体地,可以从ProfileDomain配置表中获取目标网站的配置信息。其中,在获取目标网站的配置信息之前,可以先创建ProfileDomain配置表,ProfileDomain配置表可以用于记录每个Profile(即,目标网站)的Domain(即,域)的配置信息。在ETL(Extract-Transform-Load,萃取-转置-加载)执行抽取操作之前,可以预先读取ProfileDomain配置表里所有的Domain及Profile信息。
步骤S304,获取目标网站的数据源。
数据源用于存储目标网站的链入链出数据。需要说明的是,获取目标网站的数据源即为获取目标网站的全部数据源,其中,目标网站的全部数据源均与目标网站之间存在数据链入链出行为。但是,目标网站的全部数据源中的全部数据可以均来自与目标网站处于同一网站集群中的网站(即,前述的链入链出网站),或者目标网站的全部数据源中的一部分数据来自与目标网站处于同一网站集群中的网站(即,前述的链入链出网站),而目标网站的全部数据源中的另一部分数据来自与目标网站处于不同网站集群中的网站。
步骤S306,通过配置信息对数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据。
由于前述的目标网站的数据源中的链入链出数据不一定全部来自目标网站所处的网站集群中除目标网站之外的其他网站,而配置信息为目标网站与该目标网站所处的网站集群中除该目标网站之外的其他网站之间的配置关系的信息,因此,通过配置信息对全部数据源中所有的链入链出数据进行过滤,可以得到过滤后的链入链出数据,其中,过滤后的链入链出数据为来自目标网站所处的网站集群中除该目标网站之外的其他网站的链入链出数据。
步骤S308,统计过滤后的链入链出数据的流量值。
需要说明的是,在本发明实施例中,上述步骤可以应用于基于ETL的数据仓库技术中。具体地,在从数据源抽取链入链出数据之前,可以先对数据源中的链入链出数据进行过滤处理,再从数据源抽取过滤后的的链入链出数据,并统计过滤后的链入链出数据的流量值。
需要说明的是,上述步骤的应用场景可以为抽取目标网站的链入链出数据,也即,抽取与目标网站处于同一网站集群内的各网站与目标网站之间的链入链出数据。其中,可以过滤出数据源中网站集群内的链入链出数据,具体地,可以基于网站集群内网站的域名对数据源中的链入链出数据进行过滤。链入链出数据可以包括链入数据;或者可以包括链出数据;或者可以包括链入数据和链出数据。
通过本发明实施例,由于在从数据源抽取链入链出数据之前,先对数据源中的链入链出数据进行了过滤处理,再从数据源抽取过滤后的的链入链出数据,因此,无需抽取目标网站所处的网站集群之外的网站集群中网站的链入链出数据,也即,无需抽取与目标网站所处的网站集群无关的网站的链入链出数据,达到了仅仅抽取需要抽取的链入链出数据进行流量值统计的效果,减少了数据抽取量以及数据传输量,提升了系统性能。
图4是根据本发明实施例的优选的用于网站集群的数据处理方法的流程图。如图4所示,该用于数据库名称的修改方法包括如下的步骤S402至步骤S412,该实施例可以作为图3所示实施例的优选实施方式。
步骤S402和步骤S404,同图3所示实施例的步骤S302和步骤S304,在此不再赘述。
步骤S406,根据配置信息生成结构化查询语言SQL配置语句。
配置信息可以存储在配置表中,配置表中的每条配置信息与结构查询语言SQL配置语句一一对应。
步骤S408,执行SQL配置语句以生成临时表,临时表用于存储配置信息。
需要说明的是,临时表中的变量即为SQL配置语句,由于SQL配置语句与配置信息一一对应,因此,临时表存储配置信息也即存储SQL配置语句。
步骤S410,根据临时表对数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据。
需要说明的是,由于临时表中存储有与配置信息一一对应的SQL配置语句,因此根据临时表对数据源中的链入链出数据进行过滤也即根据临时表中的SQL配置语句对数据源中的链入链出数据进行过滤。
具体地,可以通过SQL配置语句所对应的网站的域名对数据源中的链入链出数据进行过滤。需要说明的是,数据源可以为一个或者多个数据库。
步骤S412,同图3所示实施例的步骤S308,在此不再赘述。
通过本发明实施例,由于ETL往往是跨数据库操作的,不能直接传递临时表,因此,通过配置信息先生成SQL配置语句,再执行该SQL配置语句,生成一张临时表,并且临时表里存储着所有的配置信息,这样,在执行ETL操作时,可以避免直接传递临时表。
优选地,在本发明实施例中,根据配置信息生成结构化查询语言SQL配置语句可以包括:
S2,将配置信息进行转化,得到转化信息。
S4,申明临时表变量。也即,定义临时表中的临时表变量。
S6,将转化信息插入临时表变量,得到SQL配置语句。
具体地,首先申明一张临时表中的临时表变量,再将ProfileDomain配置表里所有的配置信息都转化成SQL语句,并将SQL语句插入临时表中相应的临时表变量,从而得到SQL配置语句。执行该SQL配置语句,能直接生成和ProfileDomain配置表中的配置信息相同的临时表变量。
优选地,在本发明实施例中,在统计过滤后的链入链出数据的流量值之前,数据处理方法还可以包括:
S10,获取结构化查询语言SQL抽取语句。
S12,通过SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据。
其中,统计抽取后的链入链出数据的流量值。
具体地,在通过结构化查询语言SQL配置语句对数据源中的链入链出数据进行过滤之后,可以得到过滤后的链入链出数据,其中,过滤后的链入链出数据即为网站集群内的链入链出数据。在SQL配置语句的基础上,添加SQL抽取语句,并通过SQL抽取语句对数据源中的过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据,对抽取后的链入链出数据进行流量统计,得到的流量值即为所要统计的流量值。
例如,在ETL抽取时,将SQL抽取语句与临时表变量进行表连接,直接在各目标网站Profile的数据库中对通过Domain配置信息过滤的数据进行数据抽取,可以仅仅抽取网站集群中的Domain所对应的链入链出数据,并统计抽取到的链入链出数据的流量值。
优选地,在本发明实施例中,在通过SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据之后,该数据处理方法还可以包括:
S14,将抽取得到的链入链出数据存储至目标数据库中;或者
S16,将抽取得到的链入链出数据存储至数据仓库中。
优选地,在抽取到网站集群中的Domain所对应的链入链出数据之后,可以将其直接插入到目标数据库或数据仓库里,从而实现链入链出数据的加载。
通过本发明实施例,可将配置信息作为过滤信息,并确定配置信息与SQL配置语句的对应关系,以及执行SQL配置语句,在执行该SQL配置语句时生成临时表以存储配置信息,并在链入链出数据抽取时,将该临时表中的临时表变量与数据源做相应的表连接以进行数据过滤,从而达到在数据源端进行数据抽取之前对数据进行过滤,进而无需将所有的数据都抽取到数据仓库或者数据库中,达到了减少数据抽取量以及减少数据传输量的效果,并提升了系统的性能。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于网站集群的数据处理方法,其特征在于,包括:
获取目标网站的配置信息,所述目标网站的配置信息为所述目标网站的域名与与所述目标网站处于同一网站集群中的链入链出网站的域名之间的域名配置关系的信息,所述链入链出网站为与所述目标网站之间存在数据链入链出的网站,所述目标网站和所述链入链出网站为同一网站集群中的网站,其中,所述目标网站和所述链入链出网站为相对的;
获取所述目标网站的数据源,所述数据源用于存储所述目标网站的链入链出数据;
通过所述配置信息对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据;以及
统计所述过滤后的链入链出数据的流量值。
2.根据权利要求1所述的用于网站集群的数据处理方法,其特征在于,通过所述配置信息对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据包括:
根据所述配置信息生成结构化查询语言SQL配置语句;
执行所述SQL配置语句以生成临时表,所述临时表用于存储所述配置信息;
以及
根据所述临时表对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据。
3.根据权利要求2所述的用于网站集群的数据处理方法,其特征在于,根据所述配置信息生成结构化查询语言SQL配置语句包括:
将所述配置信息进行转化,得到转化信息;
申明临时表变量;以及
将所述转化信息插入临时表变量,得到所述SQL配置语句。
4.根据权利要求1所述的用于网站集群的数据处理方法,其特征在于,在统计所述过滤后的链入链出数据的流量值之前,所述数据处理方法还包括:
获取结构化查询语言SQL抽取语句;
通过所述SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据,
其中,统计所述抽取后的链入链出数据的流量值。
5.根据权利要求4所述的用于网站集群的数据处理方法,其特征在于,在通过所述SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据之后,所述数据处理方法还包括:
将抽取得到的链入链出数据存储至目标数据库中;或者
将所述抽取得到的链入链出数据存储至数据仓库中。
6.一种用于网站集群的数据处理装置,其特征在于,包括:
第一获取单元,用于获取目标网站的配置信息,所述目标网站的配置信息为所述目标网站的域名与与所述目标网站处于同一网站集群中的链入链出网站的域名之间的域名配置关系的信息,所述链入链出网站为与所述目标网站之间存在数据链入链出的网站,所述目标网站和所述链入链出网站为同一网站集群中的网站,其中,所述目标网站和所述链入链出网站为相对的;
第二获取单元,用于获取所述目标网站的数据源,所述数据源用于存储所述目标网站的链入链出数据;
过滤单元,用于通过所述配置信息对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据;以及
统计单元,用于统计所述过滤后的链入链出数据的流量值。
7.根据权利要求6所述的用于网站集群的数据处理装置,其特征在于,所述过滤单元包括:
生成模块,用于根据所述配置信息生成结构化查询语言SQL配置语句;
执行模块,用于执行所述SQL配置语句以生成临时表,所述临时表用于存储所述配置信息;以及
过滤模块,用于根据所述临时表对所述数据源中的链入链出数据进行过滤,得到过滤后的链入链出数据。
8.根据权利要求7所述的用于网站集群的数据处理装置,其特征在于,所述生成模块包括:
转化子模块,用于将所述配置信息进行转化,得到转化信息;
申明子模块,用于申明临时表变量;以及
插入子模块,用于将所述转化信息插入临时表变量,得到所述SQL配置语句。
9.根据权利要求6所述的用于网站集群的数据处理装置,其特征在于,所述数据处理装置还包括:
第三获取单元,用于在统计所述过滤后的链入链出数据的流量值之前,获取结构化查询语言SQL抽取语句;
抽取单元,用于通过所述SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据,
其中,所述统计单元还用于统计所述抽取后的链入链出数据的流量值。
10.根据权利要求9所述的用于网站集群的数据处理装置,其特征在于,所述数据处理装置还包括:
第一存储单元,用于在通过所述SQL抽取语句对过滤后的链入链出数据进行抽取,得到抽取后的链入链出数据之后,将抽取得到的链入链出数据存储至目标数据库中;或者
第二存储单元,用于将所述抽取得到的链入链出数据存储至数据仓库中。
CN201410449676.9A 2014-09-04 2014-09-04 用于网站集群的数据处理方法和装置 Active CN104182542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410449676.9A CN104182542B (zh) 2014-09-04 2014-09-04 用于网站集群的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410449676.9A CN104182542B (zh) 2014-09-04 2014-09-04 用于网站集群的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN104182542A CN104182542A (zh) 2014-12-03
CN104182542B true CN104182542B (zh) 2018-02-02

Family

ID=51963581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410449676.9A Active CN104182542B (zh) 2014-09-04 2014-09-04 用于网站集群的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN104182542B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280103B (zh) * 2017-02-10 2022-01-07 阿里巴巴(中国)有限公司 网站指标统计方法、装置及服务器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100337432C (zh) * 2004-06-29 2007-09-12 杭州华三通信技术有限公司 数据流量统计方法及装置
US8352490B2 (en) * 2009-10-22 2013-01-08 Vmware, Inc. Method and system for locating update operations in a virtual machine disk image
CN103218411B (zh) * 2013-03-26 2016-10-05 亿赞普(北京)科技有限公司 网站关联信息获取方法与装置

Also Published As

Publication number Publication date
CN104182542A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
CN102332020B (zh) 一种网址导航页面的生成方法和装置
CN103902653B (zh) 一种构建数据仓库表血缘关系图的方法和装置
CN109859854A (zh) 传染病预测方法、装置、电子设备及计算机可读介质
CN110347708B (zh) 一种数据处理方法以及相关设备
CN106777970A (zh) 一种医疗信息系统数据模板化的集成系统及方法
CN104408159B (zh) 一种数据关联、加载、查询方法及装置
CN106682145A (zh) 一种企业信息的处理方法、服务器及客户端
CN103838837B (zh) 基于语义模板的遥感元数据集成方法
CN109829096A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN106897196B (zh) 网站页面间访问路径的确定方法及装置
CN103714086A (zh) 用于生成非关系数据库的模式的方法和设备
CN109582289B (zh) 规则引擎中规则流的处理方法、系统、存储介质和处理器
CN109491857A (zh) 一种基于规则引擎的数据监控方法、系统及终端设备
CN108965337A (zh) 规则匹配方法、装置、防火墙设备及机器可读存储介质
CN108255602A (zh) 任务组合方法及终端设备
CN109783719A (zh) 基于单位名称的资产数据查找方法、装置、设备及介质
CN107391506A (zh) 用于查询数据的方法和装置
CN104182542B (zh) 用于网站集群的数据处理方法和装置
CN109408601B (zh) 基于图数据的数据模型转换方法及图数据结构转换器
CN106648839A (zh) 数据处理的方法和装置
CN110020243A (zh) 物联网数据的查询方法、装置、物联网服务器和存储介质
CN107193870A (zh) 网页内容的提取方法和系统
CN102831232A (zh) 字符串的匹配方法及装置
CN103810241B (zh) 一种低频点击的过滤方法和装置
CN106933902A (zh) 数据多维度自由剖析的查询方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and device for website clusters

Effective date of registration: 20190531

Granted publication date: 20180202

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.

CP02 Change in the address of a patent holder