CN106921703A - 跨境数据同步的方法、系统,以及境内和境外数据中心 - Google Patents

跨境数据同步的方法、系统,以及境内和境外数据中心 Download PDF

Info

Publication number
CN106921703A
CN106921703A CN201510994307.2A CN201510994307A CN106921703A CN 106921703 A CN106921703 A CN 106921703A CN 201510994307 A CN201510994307 A CN 201510994307A CN 106921703 A CN106921703 A CN 106921703A
Authority
CN
China
Prior art keywords
data
data center
domestic
overseas
synchronized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510994307.2A
Other languages
English (en)
Other versions
CN106921703B (zh
Inventor
杨瑞高
乔二磊
刘吉元
申建华
陈巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510994307.2A priority Critical patent/CN106921703B/zh
Publication of CN106921703A publication Critical patent/CN106921703A/zh
Application granted granted Critical
Publication of CN106921703B publication Critical patent/CN106921703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/025Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种跨境数据同步的方法、系统,以及境内和境外数据中心,其中,该方法包括以下步骤:境内数据中心检测第一待同步数据的数据类型;如果数据类型为网页数据,则境内数据中心获取第一待同步数据的同步规则;以及境内数据中心将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,本申请实施例能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

Description

跨境数据同步的方法、系统,以及境内和境外数据中心
技术领域
本申请涉及跨境数据同步技术领域,尤其涉及一种跨境数据同步的方法、系统,以及境内和境外数据中心。
背景技术
目前在海外市场,SEO(搜索引擎优化)仍是拓展流量的重要渠道,也是国内网站迈向国际,向海外拓展流量的重要途径。
但是跨境SEO存在一个很严峻的问题:网络不稳定,且性能差(网络延迟大),网络访问超时现象比较严重。从后台统计的数据来看,海外访问国内网站基本在1.5s以上,而且在面临国际热点事件时,容易出现网络拥塞,加剧网络超时现象。网络性能是影响用户体验的重要原因,同时也是影响SEO的关键因素之一,尤其是搜索引擎的爬虫资源有限,性能问题严重影响爬虫的爬取、收录以及最后的排名。
针对以上跨境网络性能和稳定性差的问题,目前存在两种方案:
第一种,在全球各地实现本地单元化部署,这种方案能够彻底解决网络性能问题。但对于很多大型网站,其核心系统,包括数据中心等均部署在中心机房,要实现在异地尤其是跨境单元化部署,相当于在异地复制一套数据中心,且要实现异地双活同步方案,部署时间长,部署成本非常之高。在海外拓展业务代价太大,尤其在海外业务初始拓展阶段,难以接受如此高的成本。
第二种,缓存方案,目前CDN(Content Delivery Network,内容分发网络)缓存方案已经非常成熟,只要在全球各地部署上CDN节点,推送数据到各地的CDN节点,可以实现用户访问就近CDN缓存,从而避免访问跨国网络的问题。但这种方案需要消耗大量CDN缓存,而且CDN缓存方案是针对重要业务的热点访问内容才具有较好的缓存效果,对于SEO这种大量长尾的网页内容,基本没有热点,且初始业务量极低,采用CDN缓存方案的效果差且成本非常高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种跨境数据同步的方法,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
本申请的第二个目的在于提出一种跨境数据同步的系统。
本申请的第三个目的在于提出一种跨境数据同步的方法。
本申请的第四个目的在于提出一种境内数据中心。
本申请的第五个目的在于提出一种境外数据中心。
为了实现上述目的,本申请第一方面实施例的跨境数据同步的方法,包括以下步骤:境内数据中心检测第一待同步数据的数据类型;如果所述数据类型为网页数据,则所述境内数据中心获取所述第一待同步数据的同步规则;以及所述境内数据中心将所述同步规则发送至境外数据中心,其中,所述境外数据中心根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。
根据本申请实施例的跨境数据同步的方法,首先境内数据中心检测第一待同步数据的数据类型,如果数据类型为网页数据,则境内数据中心获取第一待同步数据的同步规则,而后境内数据中心将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
为了实现上述目的,本申请第二方面实施例的跨境数据同步的系统,包括境内数据中心和境外数据中心,其中,所述境内数据中心,用于检测第一待同步数据的数据类型,并在所述数据类型为网页数据时,获取所述第一待同步数据的同步规则,并将所述同步规则发送至境外数据中心;所述境外数据中心,用于根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。
根据本申请实施例的跨境数据同步的系统,首先通过境内数据中心检测第一待同步数据的数据类型,并在数据类型为网页数据时,获取第一待同步数据的同步规则,并将同步规则发送至境外数据中心,而后境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该系统能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
为了实现上述目的,本申请第三方面实施例的跨境数据同步的方法,包括以下步骤:境外数据中心接收境内数据中心发送的同步规则;所述境外数据中心根据所述同步规则从境内数据中心抓取第一待同步数据,其中,所述第一待同步数据的数据类型为网页数据。
根据本申请实施例的跨境数据同步的方法,首先境外数据中心接收境内数据中心发送的同步规则,并根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。因此,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
为了实现上述目的,本申请第四方面实施例的境内数据中心,包括:检测模块,用于检测第一待同步数据的数据类型;同步规则获取模块,用于在所述数据类型为网页数据时,获取所述第一待同步数据的同步规则;以及第一发送模块,用于将所述同步规则发送至境外数据中心,其中,所述境外数据中心根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。
根据本申请实施例的境内数据中心,首先通过检测模块检测第一待同步数据的数据类型,而后通过同步规则获取模块在数据类型为网页数据时,获取第一待同步数据的同步规则,最后通过第一发送模块将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该境内数据中心能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
为了实现上述目的,本申请第五方面实施例的境外数据中心,包括:第一接收模块,用于接收境内数据中心发送的同步规则;抓取模块,用于根据所述同步规则从境内数据中心抓取第一待同步数据,其中,所述第一待同步数据的数据类型为网页数据。
根据本申请实施例的境外数据中心,首先通过第一接收模块接收境内数据中心发送的同步规则,而后抓取模块根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。因此,该境外数据中心能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
本申请附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
图1是根据本申请一个实施例的跨境数据同步的方法的流程图。
图2是根据本申请一个实施例的跨境数据同步系统示意图。
图3是根据本申请第二个实施例的跨境数据同步的方法的流程图。
图4是根据本申请一个实施例的SEO词库数据同步示意图。
图5是根据本申请第三个实施例的跨境数据同步的方法的流程图。
图6是根据本申请第四个实施例的跨境数据同步的方法的流程图。
图7是根据本申请一个实施例的跨境数据同步的系统的方框示意图。
图8是根据本申请另一个实施例的跨境数据同步的系统的方框示意图
图9是根据本申请又一个实施例的跨境数据同步的系统的方框示意图
图10是根据本申请第五个实施例的跨境数据同步的方法的流程图。
图11是根据本申请第六个实施例的跨境数据同步的方法的流程图。
图12是根据本申请第七个实施例的跨境数据同步的方法的流程图。
图13是根据本申请一个实施例的境内数据中心的方框示意图。
图14是根据本申请另一个实施例的境内数据中心的方框示意图。
图15是根据本申请一个实施例的境外数据中心的方框示意图。
图16是根据本申请另一个实施例的境外数据中心的方框示意图。
图17是根据本申请又一个实施例的境外数据中心的方框示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图来描述根据本申请实施例提出的跨境数据同步的方法、系统,以及境内和境外数据中心。
图1是根据本申请一个实施例的跨境数据同步的方法的流程图。
如图1所示,该跨境数据同步的方法包括以下步骤:
S1,境内数据中心检测第一待同步数据的数据类型。
其中,上述数据类型可包括网页数据、文件数据和结构化数据等。
其中,需要理解的是,该实施例中所说的网页数据可包括HTML(超级文本标记语言)内容,其中,HTML内容可包括HTML(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。
其中,需要理解的是,该实施例中所说的文件数据可包括word文档、PDF文档、Excel文档和PPT文档等,其中上述文档还可被称作为非结构数据。
其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。
S2,如果数据类型为网页数据,则境内数据中心获取第一待同步数据的同步规则。
具体地,当境内数据中心检测出第一待同步数据的数据类型为网页数据类型时,境内数据中心将获取第一待同步数据的同步规则并选择合适的传送通道。
其中,需要理解的是,该实施例中所述的传输通道可包括OSS(Open Storage Service,阿里云开放存储服务)、Filesync(文件同步工具)和DRC(Data Source Control,数据源控制信道)等,其中,OSS主要用于传送非实时数据,Filesync主要用于同步实时数据和关键数据,DRC主要用于结构化数据的同步。
S3,境内数据中心将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。
在本申请的一个实施例中,境内数据中心通过境内数据中心和境外数据中心之间的专线将同步规则发送至境外数据中心。
具体地,境内数据中心通过专线将同步规则发送至境外数据中心,而后,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。
例如,第一待同步数据为在线HTML内容(网页数据)时,如图2所示,可通过定时系统设置定时任务,美国机房(境外数据中心)根据境内数据中心发送的同步规则主动向杭州/上海机房(境内数据中心)拉取在线HTML内容数据,境外数据中心通过爬虫系统从国内爬取核心的SEO(搜索引擎优化)的HTML内容。
在本申请的一个实施例中,如图3所示,上述跨境数据同步的方法还可包括:
S4,如果数据类型为文件数据,则境内数据中心通过云存储服务器将第一待同步数据发送至境外数据中心。
其中,需要理解的是,上述云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务),即传输通道。
具体地,当境内数据中心检测出第一待同步数据的数据类型为文件数据类型时,境内数据中心将可以对该数据类型进行预处理,并通过云存储服务器将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。
例如,如图4所示,首先杭州数据中心(境内数据中心)检测SEO词库(第一待同步数据)的类型,确定SEO词库是个约2GB的文件,然后对SEO词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心)的OSS节点(第二云存储服务器),以便实现第一待同步数据的同步。
进一步而言,在本申请的另一个实施例中,如图5所示,境内数据中心通过云存储服务器将第一待同步数据发送至境外数据中心的具体过程可包括:
S41,境内数据中心将第一待同步数据发送至与境外数据中心处于同一境内的第二云存储服务器。
其中,需要理解的是,上述第二云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务)的一个节点。
S42,境内数据中心通知境外数据中心从第二云存储服务器中抓取第一待同步数据。
例如,如图4所示,当分割压缩后的SEO词库上传到美国数据中心(境外数据中心)的OSS节点(第二云存储服务器)时,杭州数据中心(境内数据中心)通知国际系统(境外数据中心),国际系统收到通知后去拉取数据并存入国际本地存储。
其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。
在本申请的一个实施例中,如图6所示,上述跨境数据同步的方法还可包括:
S43,境外数据中心将第二待同步数据发送至与境内数据中心处于同一境内的第一云存储服务器。
其中,需要理解的是,上述第一云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务)的一个节点。
S44,境外数据中心通知境内数据中心从第一云存储服务器中抓取第二待同步数据。
例如,如图4所示,在国际系统(境外数据中心)将分割压缩后的SEO词库拉取并存入国际本地存储的同时,国际系统再收集到增量词库(即第二待同步数据),而后将增量词库反向推送到国内数据中心(境内数据中心),以此实现跨境数据同步。
根据本申请实施例的跨境数据同步的方法,首先境内数据中心检测第一待同步数据的数据类型,如果数据类型为网页数据,则境内数据中心获取第一待同步数据的同步规则,而后境内数据中心将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
为了实现上述实施例,本申请还提出一种跨境数据同步的系统。
图7是根据本申请一个实施例的跨境数据同步的系统的方框示意图。
如图7所示,该跨境数据同步的系统包括境内数据中心100和境外数据中心200,其中,
境内数据中心100用于检测第一待同步数据的数据类型,并在数据类型为网页数据时,获取第一待同步数据的同步规则,并将同步规则发送至境外数据中心200。
其中,上述数据类型可包括网页数据、文件数据和结构化数据等。
其中,需要理解的是,该实施例中所说的网页数据可包括HTML(超级文本标记语言)内容,其中,HTML内容可包括HTML(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。
其中,需要理解的是,该实施例中所说的文件数据可包括word文档、PDF文档、Excel文档和PPT文档等,其中上述文档还可被称作为非结构数据。
其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。
具体地,当境内数据中心100检测出第一待同步数据的数据类型为网页数据类型时,境内数据中心100将获取第一待同步数据的同步规则并选择合适的传送通道,并将同步规则发送至境外数据中心200。
其中,需要理解的是,该实施例中所述的传输通道可包括OSS(Open Storage Service,阿里云开放存储服务)、Filesync(文件同步工具)和DRC(Data Source Control,数据源控制信道)等,其中,OSS主要用于传送非实时数据,Filesync主要用于同步实时数据和关键数据,DRC主要用于结构化数据的同步。
境外数据中心200用于根据同步规则从境内数据中心抓取第一待同步数据。
在本申请的一个实施例中,境内数据中心100通过境内数据中心100和境外数据中心200之间的专线将同步规则发送至境外数据中心200。
具体地,境内数据中心100通过专线将同步规则发送至境外数据中心200,而后,境外数据中心200根据同步规则从境内数据中心100抓取第一待同步数据。
例如,第一待同步数据为在线HTML内容(网页数据)时,如图2所示,可通过定时系统设置定时任务,美国机房(境外数据中心200)根据境内数据中心100发送的同步规则主动向杭州/上海机房(境内数据中心100)拉取在线HTML内容数据,境外数据中心200通过爬虫系统从国内爬取核心的SEO(搜索引擎优化)的HTML内容。
在本申请的一个实施例中,如图8所示,上述跨境数据同步的系统还可包括云存储服务器300,其中,境内数据中心100在数据类型为文件数据时,通过云存储服务器将第一待同步数据发送至境外数据中心200。
其中,需要理解的是,上述云存储服务器300可以是OSS(Open Storage Service,阿里云开放存储服务),即传输通道。
具体地,当境内数据中心100检测出第一待同步数据的数据类型为文件数据类型时,境内数据中心100将可以对该数据类型进行预处理,并通过云存储服务器300将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。
例如,如图4所示,首先杭州数据中心(境内数据中心100)检测SEO词库(第一待同步数据)的类型,确定SEO词库是个约2GB的文件,然后对SEO词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心200)的OSS节点(第二云存储服务器320)。以便实现第一待同步数据的同步。
进一步而言,在本申请的一个实施例中,如图9所示,云存储服务器300包括与境内数据中心100处于同一境内的第一云存储服务器310,以及与境外数据中心200处于同一境内的第二云存储服务器320。
其中,需要理解的是,上述第一云存储服务器310可以是OSS(Open Storage Service,阿里云开放存储服务)的一个节点。
其中,需要理解的是,上述第二云存储服务器320可以是OSS(Open Storage Service,阿里云开放存储服务)的一个节点。
例如,如图4所示,当分割压缩后的SEO词库上传到美国数据中心(境外数据中心200)的OSS节点(第二云存储服务器320)时,杭州数据中心(境内数据中心100)通知国际系统(境外数据中心200),国际系统收到通知后去拉取数据并存入国际本地存储。
其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。
在本申请的一个实施例中,境内数据中心100还用于将第一待同步数据发送至与第二云存储服务器320,并通知境外数据中心200从第二云存储服务器320中抓取第一待同步数据。
另外,境外数据中心200还用于将第二待同步数据发送至与第一云存储服务器310,并通知境内数据中心100从第一云存储服务器310中抓取第二待同步数据。
例如,如图4所示,在国际系统(境外数据中心)将分割压缩后的SEO词库拉取并存入国际本地存储的同时,国际系统再收集到增量词库(即第二待同步数据),而后将增量词库反向推送到国内数据中心(境内数据中心100),以此实现跨境数据同步。
根据本申请实施例的跨境数据同步的系统,首先通过境内数据中心检测第一待同步数据的数据类型,并在数据类型为网页数据时,获取第一待同步数据的同步规则,并将同步规则发送至境外数据中心,而后境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该系统能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
为了实现上述实施例,本申请还提出一种跨境数据同步的方法。
图10是根据本申请第五个实施例的跨境数据同步的方法的流程图。
如图10所示,该跨境数据同步的方法包括以下步骤:
S101,境外数据中心接收境内数据中心发送的同步规则。
S102,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。
其中,上述数据类型可包括网页数据、文件数据和结构化数据等。
其中,需要理解的是,该实施例中所说的网页数据可包括HTML(超级文本标记语言)内容,其中,HTML内容可包括HTML(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。
其中,需要理解的是,该实施例中所说的文件数据可包括word文档、PDF文档、Excel文档和PPT文档等,其中上述文档还可被称作为非结构数据。
其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。
具体地,当境内数据中心检测出第一待同步数据的数据类型为网页数据类型时,境内数据中心将获取第一待同步数据的同步规则,并选择合适的传送通道。
其中,需要理解的是,该实施例中所述的传输通道可包括OSS(Open Storage Service,阿里云开放存储服务)、Filesync(文件同步工具)和DRC(Data Source Control,数据源控制信道)等,其中,OSS主要用于传送非实时数据,Filesync主要用于同步实时数据和关键数据,DRC主要用于结构化数据的同步。
在本申请的一个实施例中,境外数据中心通过境内数据中心和境外数据中心之间的专线接收境内数据中心发送的同步规则。
具体地,境内数据中心通过专线将同步规则发送至境外数据中心,而后,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。
例如,第一待同步数据为在线HTML内容(网页数据)时,如图2所示,可通过定时系统设置定时任务,美国机房(境外数据中心)根据境内数据中心发送的同步规则主动向杭州/上海机房(境内数据中心)拉取在线HTML内容数据,境外数据中心通过爬虫系统从国内爬取核心的SEO(搜索引擎优化)的HTML内容。
在本申请的一个实施例中,上述跨境数据同步的方法还可包括,如果数据类型为文件数据,则境外数据中心通过云存储服务器接收第一待同步数据。
其中,需要理解的是,上述云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务),即传输通道。
具体地,当境内数据中心检测出第一待同步数据的数据类型为文件数据类型时,境内数据中心将可以对该数据类型进行预处理,并通过云存储服务器将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。
例如,如图4所示,首先杭州数据中心(境内数据中心)检测SEO词库(第一待同步数据)的类型,确定SEO词库是个约2GB的文件,然后对SEO词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心)的OSS节点(第二云存储服务器)。以便实现第一待同步数据的同步。
进一步而言,在本申请的一个实施例中,如图11所示,境外数据中心通过云存储服务器接收第一待同步数据的具体过程可包括:
S201,境外数据中心接收境内数据中心发送的通知。
S202,境外数据中心从第二云存储服务器中抓取第一待同步数据,其中,第二云存储服务器与境外数据中心处于同一境内。
其中,需要理解的是,上述第二云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务)的一个节点。
例如,如图4所示,当分割压缩后的SEO词库上传到美国数据中心(境外数据中心)的OSS节点(第二云存储服务器)时,杭州数据中心(境内数据中心)通知国际系统(境外数据中心),国际系统收到通知后去拉取数据并存入国际本地存储。
其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。
在本申请的一个实施例中,如图12所示,上述跨境数据同步的方法还可包括:
S203,境外数据中心将第二待同步数据发送至与境内数据中心处于同一境内的第一云存储服务器。
其中,需要理解的是,上述第一云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务)的一个节点。
S204,境外数据中心通知境内数据中心从第一云存储服务器中抓取第二待同步数据。
例如,如图4所示,在国际系统(境外数据中心)将分割压缩后的SEO词库拉取并存入国际本地存储的同时,国际系统再收集到增量词库(即第二待同步数据),而后将增量词库反向推送到国内数据中心(境内数据中心),以此实现跨境数据同步。
根据本申请实施例的跨境数据同步的方法,首先境外数据中心接收境内数据中心发送的同步规则,并根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。因此,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
为了实现上述实施例,本申请还提出一种境内数据中心。
图13是根据本申请一个实施例的境内数据中心的方框示意图。
如图13所示,该境内数据中心包括检测模块10、同步规则获取模块20和第一发送模块30。
具体地,检测模块10用于检测第一待同步数据的数据类型。
其中,上述数据类型可包括网页数据、文件数据和结构化数据等。
其中,需要理解的是,该实施例中所说的网页数据可包括HTML(超级文本标记语言)内容,其中,HTML内容可包括HTML(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。
其中,需要理解的是,该实施例中所说的文件数据可包括word文档、PDF文档、Excel文档和PPT文档等,其中上述文档还可被称作为非结构数据。
其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。
同步规则获取模块20用于在数据类型为网页数据时,获取第一待同步数据的同步规则。
具体地,当检测模块10检测出第一待同步数据的数据类型为网页数据类型时,同步规则获取模块20及获取第一待同步数据的同步规则,并选择合适的传输通道。
其中,需要理解的是,该实施例中所述的传输通道可包括OSS(Open Storage Service,阿里云开放存储服务)、Filesync(文件同步工具)和DRC(Data Source Control,数据源控制信道)等,其中,OSS主要用于传送非实时数据,Filesync主要用于同步实时数据和关键数据,DRC主要用于结构化数据的同步。
第一发送模块30用于将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。
在本申请的一个实施例中,第一发送模块30通过境内数据中心和境外数据中心之间的专线将同步规则发送至境外数据中心。
具体地,第一发送模块30通过专线将同步规则发送至境外数据中心,而后,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。
例如,第一待同步数据为在线HTML内容(网页数据)时,如图2所示,可通过定时系统设置定时任务,美国机房(境外数据中心)根据境内数据中心发送的同步规则主动向杭州/上海机房(境内数据中心)拉取在线HTML内容数据,境外数据中心通过爬虫系统从国内爬取核心的SEO(搜索引擎优化)的HTML内容。
在本申请的一个实施例中,如图14所示,上述境内数据中心还包括,第二发送模块40用于在数据类型为文件数据时,通过云存储服务器将第一待同步数据发送至境外数据中心。
其中,需要理解的是,上述云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务),即传输通道。
具体地,当检测模块10检测出第一待同步数据的数据类型为文件数据类型时,第二发送模块40可以对该数据类型进行预处理,并通过云存储服务器将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。
例如,如图4所示,首先杭州数据中心(境内数据中心)检测SEO词库(第一待同步数据)的类型,确定SEO词库是个约2GB的文件,然后对SEO词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心)的OSS节点(第二云存储服务器)。以便实现第一待同步数据的同步。
在本申请的一个实施例中,第二发送模块40将第一待同步数据发送至与境外数据中心处于同一境内的第二云存储服务器,并通知境外数据中心从第二云存储服务器中抓取第一待同步数据。
其中,需要理解的是,上述第二云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务)的一个节点。
例如,如图4所示,当分割压缩后的SEO词库上传到美国数据中心(境外数据中心)的OSS节点(第二云存储服务器)时,杭州数据中心(境内数据中心)通知国际系统(境外数据中心),国际系统收到通知后去拉取数据并存入国际本地存储。
其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。
根据本申请实施例的境内数据中心,首先通过检测模块检测第一待同步数据的数据类型,而后通过同步规则获取模块在数据类型为网页数据时,获取第一待同步数据的同步规则,最后通过第一发送模块将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该境内数据中心能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
为了实现上述实施例,本申请还提出一种境外数据中心。
图15是根据本申请一个实施例的境外数据中心的方框示意图。
如图15所示,该境外数据中心包括第一接收模块50和抓取模块60。
具体地,第一接收模块50用于接收境内数据中心发送的同步规则。
抓取模块60用于根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。
其中,上述数据类型可包括网页数据、文件数据和结构化数据等。
其中,需要理解的是,该实施例中所说的网页数据可包括HTML(超级文本标记语言)内容,其中,HTML内容可包括HTML(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。
其中,需要理解的是,该实施例中所说的文件数据可包括word文档、PDF文档、Excel文档和PPT文档等,其中上述文档还可被称作为非结构数据。
其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。
在本申请的一个实施例中,如图16所示,上述境外数据中心还包括,第二接收模块70用于在数据类型为文件数据时,通过云存储服务器接收第一待同步数据。
其中,需要理解的是,上述云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务),即传输通道。
具体地,当境内数据中心检测出第一待同步数据的数据类型为文件数据类型时,第二接收模块70将可以对该数据类型进行预处理,并通过云存储服务器将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。
例如,如图4所示,首先杭州数据中心(境内数据中心)检测SEO(Search EngineOptimization,搜索引擎优化)词库(第一待同步数据)的类型,确定SEO词库是个约2GB的文件,然后对SEO词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心)的OSS节点(第二云存储服务器)。以便实现第一待同步数据的同步。
其中,需要理解的是,该实施例中所述的传输通道可包括OSS(Open Storage Service,阿里云开放存储服务)、Filesync(文件同步工具)和DRC(Data Source Control,数据源控制信道)等,其中,OSS主要用于传送非实时数据,Filesync主要用于同步实时数据和关键数据,DRC主要用于结构化数据的同步。
进一步地,在本申请的一个实施例中,如图17所示,上述境外数据中心还包括,第三发送模块80用于将第二待同步数据发送至与境内数据中心处于同一境内的第一云存储服务器,并通知境内数据中心从第一云存储服务器中抓取第二待同步数据。
其中,需要理解的是,上述第二云存储服务器可以是OSS(Open Storage Service,阿里云开放存储服务)的一个节点。
例如,如图4所示,当分割压缩后的SEO词库上传到美国数据中心(境外数据中心)的OSS节点(第二云存储服务器)时,杭州数据中心(境内数据中心)通知国际系统(境外数据中心),国际系统收到通知后去拉取数据并存入国际本地存储。
其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。
根据本申请实施例的境外数据中心,首先通过第一接收模块接收境内数据中心发送的同步规则,而后抓取模块根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。因此,该境外数据中心能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (22)

1.一种跨境数据同步的方法,其特征在于,包括以下步骤:
境内数据中心检测第一待同步数据的数据类型;
如果所述数据类型为网页数据,则所述境内数据中心获取所述第一待同步数据的同步规则;以及
所述境内数据中心将所述同步规则发送至境外数据中心,其中,所述境外数据中心根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。
2.如权利要求1所述的跨境数据同步的方法,其特征在于,还包括:
如果所述数据类型为文件数据,则所述境内数据中心通过云存储服务器将所述第一待同步数据发送至所述境外数据中心。
3.如权利要求2所述的跨境数据同步的方法,其特征在于,所述境内数据中心通过云存储服务器将所述第一待同步数据发送至所述境外数据中心具体包括:
所述境内数据中心将所述第一待同步数据发送至与所述境外数据中心处于同一境内的第二云存储服务器;以及
所述境内数据中心通知所述境外数据中心从所述第二云存储服务器中抓取所述第一待同步数据。
4.如权利要求3所述的跨境数据同步的方法,其特征在于,还包括:
所述境外数据中心将所述第二待同步数据发送至与所述境内数据中心处于同一境内的第一云存储服务器;以及
所述境外数据中心通知所述境内数据中心从所述第一云存储服务器中抓取所述第二待同步数据。
5.如权利要求1所述的跨境数据同步的方法,其特征在于,所述境内数据中心通过专线将所述同步规则发送至所述境外数据中心。
6.一种跨境数据同步的系统,其特征在于,包括境内数据中心和境外数据中心,其中,
所述境内数据中心,用于检测第一待同步数据的数据类型,并在所述数据类型为网页数据时,获取所述第一待同步数据的同步规则,并将所述同步规则发送至境外数据中心;
所述境外数据中心,用于根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。
7.如权利要求6所述的跨境数据同步的系统,其特征在于,还包括:
云存储服务器,其中,所述境内数据中心在所述数据类型为文件数据时,通过云存储服务器将所述第一待同步数据发送至所述境外数据中心。
8.如权利要求7所述的跨境数据同步的系统,其特征在于,所述云存储服务器包括与所述境内数据中心处于同一境内的第一云存储服务器,以及与所述境外数据中心处于同一境内的第二云存储服务器。
9.如权利要求8所述的跨境数据同步的系统,其特征在于,
所述境内数据中心,还用于将所述第一待同步数据发送至与所述第二云存储服务器,并通知所述境外数据中心从所述第二云存储服务器中抓取所述第一待同步数据;
所述境外数据中心,还用于将所述第二待同步数据发送至与所述第一云存储服务器,并通知所述境内数据中心从所述第一云存储服务器中抓取所述第二待同步数据。
10.如权利要求6所述的跨境数据同步的系统,其特征在于,所述境内数据中心通过专线将所述同步规则发送至所述境外数据中心。
11.一种跨境数据同步的方法,其特征在于,包括以下步骤:
境外数据中心接收境内数据中心发送的同步规则;
所述境外数据中心根据所述同步规则从境内数据中心抓取第一待同步数据,其中,所述第一待同步数据的数据类型为网页数据。
12.如权利要求11所述的跨境数据同步的方法,其特征在于,还包括:
如果所述数据类型为文件数据,则所述境外数据中心通过云存储服务器接收所述第一待同步数据。
13.如权利要求12所述的跨境数据同步的方法,其特征在于,所述境外数据中心通过云存储服务器接收所述第一待同步数据具体包括:
所述境外数据中心接收所述境内数据中心发送的通知;
所述境外数据中心从第二云存储服务器中抓取所述第一待同步数据,其中,所述第二云存储服务器与所述境外数据中心处于同一境内。
14.如权利要求12所述的跨境数据同步的方法,其特征在于,还包括:
所述境外数据中心将所述第二待同步数据发送至与所述境内数据中心处于同一境内的第一云存储服务器;以及
所述境外数据中心通知所述境内数据中心从所述第一云存储服务器中抓取所述第二待同步数据。
15.如权利要求11所述的跨境数据同步的方法,其特征在于,所述境外数据中心通过专线接收所述境内数据中心发送的所述同步规则。
16.一种境内数据中心,其特征在于,包括:
检测模块,用于检测第一待同步数据的数据类型;
同步规则获取模块,用于在所述数据类型为网页数据时,获取所述第一待同步数据的同步规则;以及
第一发送模块,用于将所述同步规则发送至境外数据中心,其中,所述境外数据中心根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。
17.如权利要求16所述的境内数据中心,其特征在于,还包括:
第二发送模块,用于在所述数据类型为文件数据时,通过云存储服务器将所述第一待同步数据发送至所述境外数据中心。
18.如权利要求17所述的境内数据中心,其特征在于,所述第二发送模块将所述第一待同步数据发送至与所述境外数据中心处于同一境内的第二云存储服务器,并通知所述境外数据中心从所述第二云存储服务器中抓取所述第一待同步数据。
19.如权利要求16所述的境内数据中心,其特征在于,所述第一发送模块通过专线将所述同步规则发送至所述境外数据中心。
20.一种境外数据中心,其特征在于,包括:
第一接收模块,用于接收境内数据中心发送的同步规则;
抓取模块,用于根据所述同步规则从境内数据中心抓取第一待同步数据,其中,所述第一待同步数据的数据类型为网页数据。
21.如权利要求20所述的境外数据中心,其特征在于,还包括:
第二接收模块,用于在所述数据类型为文件数据时,通过云存储服务器接收所述第一待同步数据。
22.如权利要求20所述的境外数据中心,其特征在于,还包括:
第三发送模块,用于将所述第二待同步数据发送至与所述境内数据中心处于同一境内的第一云存储服务器,并通知所述境内数据中心从所述第一云存储服务器中抓取所述第二待同步数据。
CN201510994307.2A 2015-12-25 2015-12-25 跨境数据同步的方法、系统,以及境内和境外数据中心 Active CN106921703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510994307.2A CN106921703B (zh) 2015-12-25 2015-12-25 跨境数据同步的方法、系统,以及境内和境外数据中心

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510994307.2A CN106921703B (zh) 2015-12-25 2015-12-25 跨境数据同步的方法、系统,以及境内和境外数据中心

Publications (2)

Publication Number Publication Date
CN106921703A true CN106921703A (zh) 2017-07-04
CN106921703B CN106921703B (zh) 2020-11-27

Family

ID=59454757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510994307.2A Active CN106921703B (zh) 2015-12-25 2015-12-25 跨境数据同步的方法、系统,以及境内和境外数据中心

Country Status (1)

Country Link
CN (1) CN106921703B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108156247A (zh) * 2017-12-27 2018-06-12 北京金山安全软件有限公司 一种数据通信方法、装置、系统、终端和可读存储介质
CN108718457A (zh) * 2018-06-11 2018-10-30 Oppo广东移动通信有限公司 网络重选方法、装置、芯片及存储介质
CN109033391A (zh) * 2018-07-31 2018-12-18 北京嘀嘀无限科技发展有限公司 一种多数据中心之间数据同步方法、系统及计算机可读存储介质
CN109379277A (zh) * 2018-12-10 2019-02-22 深圳贝尔创意科教有限公司 一种基于路由寻址的分布式im通信方法及其装置
CN109670126A (zh) * 2018-11-27 2019-04-23 广东耐思智慧科技有限公司 一种跨境访问加速方法及装置
CN109788021A (zh) * 2018-04-03 2019-05-21 中建材信息技术股份有限公司 利用公有云远程访问海外crm的系统及方法及存储介质
CN110502575A (zh) * 2019-08-02 2019-11-26 阿里巴巴集团控股有限公司 一种数据同步的方法、装置以及设备
CN111831611A (zh) * 2020-07-09 2020-10-27 中国工商银行股份有限公司 跨境数据交换方法、装置及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561803A (zh) * 2008-04-14 2009-10-21 双扬科技股份有限公司 以手持通讯装置浏览网络信息的方法
CN101739427A (zh) * 2008-11-10 2010-06-16 中国移动通信集团公司 一种爬虫抓取的方法及其装置
US20110252427A1 (en) * 2010-04-07 2011-10-13 Yahoo! Inc. Modeling and scheduling asynchronous incremental workflows
US8484286B1 (en) * 2009-11-16 2013-07-09 Hydrabyte, Inc Method and system for distributed collecting of information from a network
CN103699700A (zh) * 2014-01-16 2014-04-02 北京奇虎科技有限公司 一种搜索引导的生成方法、系统及相关服务器
CN103716384A (zh) * 2013-12-17 2014-04-09 创新科存储技术(深圳)有限公司 跨数据中心实现云存储数据同步的方法和装置
CN103873519A (zh) * 2012-12-14 2014-06-18 北京金山云网络技术有限公司 一种数据同步方法、客户端、服务器、终端和系统
CN104346328A (zh) * 2013-07-23 2015-02-11 同程网络科技股份有限公司 基于网页数据抓取的垂直智能爬虫数据收集方法
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561803A (zh) * 2008-04-14 2009-10-21 双扬科技股份有限公司 以手持通讯装置浏览网络信息的方法
CN101739427A (zh) * 2008-11-10 2010-06-16 中国移动通信集团公司 一种爬虫抓取的方法及其装置
US8484286B1 (en) * 2009-11-16 2013-07-09 Hydrabyte, Inc Method and system for distributed collecting of information from a network
US20110252427A1 (en) * 2010-04-07 2011-10-13 Yahoo! Inc. Modeling and scheduling asynchronous incremental workflows
CN103873519A (zh) * 2012-12-14 2014-06-18 北京金山云网络技术有限公司 一种数据同步方法、客户端、服务器、终端和系统
CN104346328A (zh) * 2013-07-23 2015-02-11 同程网络科技股份有限公司 基于网页数据抓取的垂直智能爬虫数据收集方法
CN103716384A (zh) * 2013-12-17 2014-04-09 创新科存储技术(深圳)有限公司 跨数据中心实现云存储数据同步的方法和装置
CN103699700A (zh) * 2014-01-16 2014-04-02 北京奇虎科技有限公司 一种搜索引导的生成方法、系统及相关服务器
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108156247A (zh) * 2017-12-27 2018-06-12 北京金山安全软件有限公司 一种数据通信方法、装置、系统、终端和可读存储介质
CN109788021A (zh) * 2018-04-03 2019-05-21 中建材信息技术股份有限公司 利用公有云远程访问海外crm的系统及方法及存储介质
CN108718457A (zh) * 2018-06-11 2018-10-30 Oppo广东移动通信有限公司 网络重选方法、装置、芯片及存储介质
CN108718457B (zh) * 2018-06-11 2021-04-09 Oppo广东移动通信有限公司 网络重选方法、装置、芯片及存储介质
CN109033391A (zh) * 2018-07-31 2018-12-18 北京嘀嘀无限科技发展有限公司 一种多数据中心之间数据同步方法、系统及计算机可读存储介质
CN109670126A (zh) * 2018-11-27 2019-04-23 广东耐思智慧科技有限公司 一种跨境访问加速方法及装置
CN109379277A (zh) * 2018-12-10 2019-02-22 深圳贝尔创意科教有限公司 一种基于路由寻址的分布式im通信方法及其装置
CN109379277B (zh) * 2018-12-10 2021-04-09 贝尔合控(深圳)科技有限责任公司 一种基于路由寻址的分布式im通信方法及其装置
CN110502575A (zh) * 2019-08-02 2019-11-26 阿里巴巴集团控股有限公司 一种数据同步的方法、装置以及设备
CN110502575B (zh) * 2019-08-02 2024-04-30 创新先进技术有限公司 一种数据同步的方法、装置以及设备
CN111831611A (zh) * 2020-07-09 2020-10-27 中国工商银行股份有限公司 跨境数据交换方法、装置及系统
CN111831611B (zh) * 2020-07-09 2023-08-25 中国工商银行股份有限公司 跨境数据交换方法、装置及系统

Also Published As

Publication number Publication date
CN106921703B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN106921703A (zh) 跨境数据同步的方法、系统,以及境内和境外数据中心
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN101763357B (zh) 一种用于浏览器加载互联网资源的方法及系统
CN106484828B (zh) 一种分布式互联网数据快速采集系统及采集方法
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
CN103744856B (zh) 联动性扩展搜索方法及装置、系统
CN103902386A (zh) 一种基于连接代理优化管理的多线程网络爬虫处理方法
CN103312725B (zh) 一种基于节点重要程度的内容中心网络缓存判决方法
CN103177005A (zh) 一种数据访问的处理方法和系统
CN104184832A (zh) 网络应用中的数据提交方法及装置
CN105512201A (zh) 数据收集和加工方法及装置
CN103116645B (zh) 移动设备浏览网页的方法及装置
CN102355488A (zh) 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN104933168B (zh) 一种网页内容自动采集方法
CN101916295A (zh) 基于点对点网络的互联网搜索系统和方法
CN106817391A (zh) 文件断点续传方法和装置
CN103400283A (zh) 一种基于家庭网关的广告推送系统及方法
CN102402613A (zh) 网页文本信息过滤系统及方法
CN101674329A (zh) 一种互联网访问方法和互联网访问系统
WO2012071993A1 (zh) 一种环球信息网www页面处理方法和装置
CN104133830A (zh) 一种数据获取方法
CN104298780A (zh) 一种浏览器网页信息的预获取方法及系统
CN103761257A (zh) 基于移动浏览器的网页处理方法及系统
CN103093377A (zh) 一种广告投放方法和系统
CN105338013B (zh) 一种网络加载方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant