CN101908061A

CN101908061A - 词条同步方法及词条同步装置

Info

Publication number: CN101908061A
Application number: CN 201010223999
Authority: CN
Inventors: 潘海东; 梅春; 曾正阳
Original assignee: Interactive Online (beijing) Technology Co Ltd
Current assignee: Interactive Online (beijing) Technology Co Ltd
Priority date: 2010-07-02
Filing date: 2010-07-02
Publication date: 2010-12-08

Abstract

本发明涉及一种词条同步方法及词条同步装置，该装置位于联盟主站内，包括：接收装置，监听装置，分析装置，处理装置。所述的词条同步方法：以一个联盟主站为中心，多个联盟成员站点围绕形成联盟关系，联盟内部可以共享词条数据，各个联盟成员站的基础数据来自联盟主站的共享。各个联盟成员站点对基础数据进行补充和编辑产生新内容，通过联盟的词条同步法，使处在中心点的联盟主站的词条得到不断更新和丰富，同时也让成员站点在联盟的数据共享机制中得到帮助。

Description

词条同步方法及词条同步装置

技术领域

本发明涉及一种网络数据库数据更新方法，特别是涉及词条的同步方法及词条同步装置。

技术背景

词条联盟：以联盟主站为中心，集合了众多以联盟主站提供的建站软件搭建的站点，形成一个数据共享的网状组织。

Wikipedia：维基百科是一个基于Wiki技术的多语言百科全书协作计划，也是一部用不同语言写成的网络百科全书，其目标及宗旨是为全人类提供自由的百科全书——用他们所选择的语言来书写而成的，是一个动态的、可自由访问和编辑的全球知识体。

MediaWiki：MediaWiki是全球最著名的维基程序，运行于PHP+MySQL环境。是Wikipedia网站开发的维基建站软件。

然而，Wikipedia站点和MediaWiki搭建的站点之间，并没有形成联盟关系，相互独立；也就是说联盟成员站点和联盟主站之间没有形成数据的共享机制。导致联盟成员站点和联盟主站之间存在着大量数据的重复建设、版本繁多，而且缺乏统一整理，其参考价值和可用性大大减弱。

发明内容

本发明的目的在于解决以上现有技术的不足，而提出词条的同步方法及词条同步装置。以使得联盟主站与联盟成员站点之间形成联盟组织，彼此之间通过同步法共享数据而不发生冲突，并通过联盟成员站点不断丰富和积累高质量的词条数据。并且当联盟成员站点和联盟主站的数据发生冲突时，通过分析装置判断数据的有效性和可用性。

本发明的技术方案如下：

一种词条同步装置，该装置位于联盟主站内，包括：

接收装置，接收来自联盟成员站的基本信息，存储在词条同步数据库中，标识为未处理数据项；

监听装置，用于监控词条同步数据库，当监听存在未处理数据项时，通过联盟成员站提供的数据接口获取完整的词条数据，并触发分析装置；

分析装置，用于接收并分析所述监听装置传输过来的词条数据，形成一系列分析报告，触发处理装置并传送所述分析报告；

处理装置，用于接收所述分析报告并根据不同的分析报告，对词条数据进行处理；

所述的分析装置包括：

锁定词条单元，当词条进行同步操作时，必须同时锁定联盟主站的相应词条，防止同步过程中其他用户的操作产生中间版本；

版本时间比较单元，比较联盟成员站与联盟主站的相应词条的版本时间，决定是否进行同步操作；

链接分析单元，解析联盟成员站的词条数据，将所有的超链接转换为联盟主站的内部链接；

图片分析单元，解析联盟成员站的词条数据，将所有的图片资源转换为联盟主站的图片资源；

所述的处理装置包括：

更新数据单元，更新联盟主站的词条数据，同时生成最新的词条版本；

解除词条锁定单元，同步操作完成，解除对相应词条的锁定，其他用户可以正常操作。

一种词条同步方法，包括以下步骤：

接收装置接收联盟成员站词条的基本信息，存储于词条同步数据库中，标识为未处理数据项；

监听装置监控词条同步数据库，当监听存在未处理数据项时，通过联盟成员站提供的数据接口获取完整的词条数据，并触发分析装置；

分析装置接收并分析所述监听装置传输过来的数据，形成一系列分析报告，触发处理装置并传送所述分析报告；

处理装置接收所述分析报告并根据不同的分析报告，对词条数据进行处理；

所述分析装置分析监听装置传输过来的数据时，包括以下步骤：

1)分析装置锁定联盟主站的相应数据，不允许用户操作；

2)分析装置比较传输装置传输过来的数据版本的时间，如果早于联盟主站该数据版本的最后编辑时间，忽略此版本数据的同步；

3)如果第2)步中的数据版本时间不早于联盟主站该数据版本的最后编辑时间，则进入链接转换，提取所有文本中的链接，按照规则转换成联盟主站的内部链接；

4)进行图片处理，提取文本中所有图片，获取图片资源，分析图片地址，判断是否获取此图片，转化为联盟主站的内部图片，并更新图片链接地址。

本发明的优点：

通过词条同步装置及同步方法，增加了联盟主站的数据量，拓展了词条内容的领域，使得联盟主站的内容更加全面。

通过词条同步装置及同步方法，完善了联盟主站的数据质量，使联盟主站的数据更加具有权威性和可用性。

附图说明

图1为本发明的结构原理示意图；

图2为本发明的分析和处理流程图。

具体实施方式

如图1所示，本发明的词条同步装置，包括：接收装置，用于接收联盟成员站的词条基本信息；监听装置，用于监控词条同步数据库，当监听存在未处理数据项时，通过联盟成员站提供的数据接口获取完整的词条数据，并触发分析装置；分析装置，用于接收并分析所述监听装置传输过来的数据，形成一系列分析报告，触发处理装置并传送所述分析报告；处理装置，用于接收所述分析报告并根据不同的分析报告，对词条数据进行处理。其中分析装置包括：锁定词条单元，版本时间比较单元，连接分析单元，图片分析单元。

如图2所示，本发明的词条同步装置在进行词条同步时，监听装置监控词条同步数据库中未处理的数据，根据词条数据项的基本信息，通过联盟成员站点提供的数据接口获取完整词条数据信息后触发分析装置，之后的分析装置和处理装置将对此数据信息进行处理。所述的分析装置首先锁定联盟主站的相应数据，不允许用户操作；其次分析装置比较数据版本的时间，即联盟成员站与联盟主站的相应词条的最新版本时间，如果联盟成员站的词条版本时间早于联盟主站的词条的最新版本时间，表明联盟主站的词条内容更新，忽略此版本数据的同步，否则进入第三个环节，链接转换；链接转换提取词条内容文本中的所有链接，按照规则转换成联盟主站的内部链接；第四步进行图片处理，提取文本中所有图片，获取图片资源，分析图片地址，判断是否获取此图片，转化为联盟主站的内部图片，并更新图片链接地址。每一个环节的出错都会导致此版本数据的同步失败。假设数据已经通过分析装置的分析，返回处理后的数据，触发处理装置。处理装置生成新的历史版本的同时，更新数据内容，解除联盟主站的数据操作锁定。

本发明以一个例子来详细说明整个流程。

联盟主站：拥有大量的、分类比较完整的数据。

联盟成员站点A：建站系统搭建的站点，并已加入联盟。

站点A的用户创建词条“北京”，打开编辑器时，如果联盟主站已经有词条“北京”，编辑器从联盟主站下载最新版本的内容，充分体现了数据共享机制，站点A通过链接转换和图片本地化程序，将联盟主站的数据完全转给为站点A的数据。用户在联盟主站的版本基础上编辑完善。假设用户发现“北京”的词条中有一个错别字，将其它改正，或者完善内容后发布。这就是站点A创建或者编辑的所有操作。

站点A在发布“北京”这个词条时，后台将这个信息传送给联盟主站的接收装置，告知联盟主站，“北京”这个词条在站点A上有最新内容。接收装置将这个信息记录在词条同步数据库中，标识为未处理状态。站点A传送给接收装置的信息量很小，只有词条名称以及站点A的基本信息，并没有传送词条内容，站点A的用户在创建编辑操作词条时，将不会觉察出延迟。

监听装置开始工作，它扫描词条同步数据库，取出未处理数据，根据数据项，例如词条名称“北京”、站点A的基本信息，基本信息包括站点A的域名、联盟认证码、站长信息等，并通过站点A提供的数据接口取得词条“北京”数据项的完整数据，包括词条“北京”的内容，编辑时间，编辑者等。监听装置将词条详细数据交付于分析装置后，继续扫描词条同步数据库。

分析装置开始工作，如果联盟主站不存在词条“北京”，则直接进行第三步操作。反之，首先锁定联盟主站的词条“北京”，不允许用户操作，避免数据在同步处理过程又产生新版本。其次进行版本比较。如果联盟主站已经有词条“北京”，比较站点A的词条“北京”的版本时间与联盟主站的“北京”最新版本时间，如果早于联盟主站的最新版本时间，说明在监听并获取同步数据的过程中，联盟主站已经产生过新的版本，为了避免破坏联盟主站的数据，停止词条“北京”的数据同步操作，并进行下一条记录的处理。如果晚于联盟主站的最新版本时间，就可以进行同步操作。第三步是链接转换，因为站点A在同步时，已将链接和图片本地化，产生的版本，其链接和图片资源也是站点A的本地化地址。在同步到联盟主站时，也需要逆处理。分析词条“北京”的所以链接，按照一定规则将其转换联盟主站的链接。第四步进行图片处理，提取文本中所有图片，获取图片资源，分析图片地址，判断是否获取此图片，转化为联盟主站的内部图片，并更新图片链接地址。无论哪一个环节出错，同步操作就立即停止。假设数据已经通过分析装置的分析，返回处理后的数据，触发处理装置生成新的版本数据。

处理装置更新词条同步数据库，“北京”词条的状态置为已处理；更新词条“北京”的内容；以及生成新的历史版本。数据处理完毕后，解除锁定。

Claims

1.一种词条同步装置，其特征在于，该装置位于联盟主站内，包括：

处理装置，用于接收所述分析报告并根据不同的分析报告，对词条数据进行处理。

2.如权利要去1所述的词条同步方法的四个装置，其特征在于，所述的分析装置包括：

图片分析单元，解析联盟成员站的词条数据，将所有的图片资源转换为联盟主站的图片资源。

3.如权利要去1所述的词条同步方法的四个装置，其特征在于，所述的处理装置包括：

4.一种词条同步方法，其特征在于，包括以下步骤：

处理装置接收所述分析报告并根据不同的分析报告，对词条数据进行处理。

5.如权利要求4所述的词条同步方法，其特征在于，所述分析装置分析监听装置传输过来的数据时，包括以下步骤：

1)分析装置锁定联盟主站的相应数据，不允许用户操作；