CN101908061A - 词条同步方法及词条同步装置 - Google Patents
词条同步方法及词条同步装置 Download PDFInfo
- Publication number
- CN101908061A CN101908061A CN 201010223999 CN201010223999A CN101908061A CN 101908061 A CN101908061 A CN 101908061A CN 201010223999 CN201010223999 CN 201010223999 CN 201010223999 A CN201010223999 A CN 201010223999A CN 101908061 A CN101908061 A CN 101908061A
- Authority
- CN
- China
- Prior art keywords
- entry
- data
- alliance
- main website
- analytical equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种词条同步方法及词条同步装置,该装置位于联盟主站内,包括:接收装置,监听装置,分析装置,处理装置。所述的词条同步方法:以一个联盟主站为中心,多个联盟成员站点围绕形成联盟关系,联盟内部可以共享词条数据,各个联盟成员站的基础数据来自联盟主站的共享。各个联盟成员站点对基础数据进行补充和编辑产生新内容,通过联盟的词条同步法,使处在中心点的联盟主站的词条得到不断更新和丰富,同时也让成员站点在联盟的数据共享机制中得到帮助。
Description
技术领域
本发明涉及一种网络数据库数据更新方法,特别是涉及词条的同步方法及词条同步装置。
技术背景
词条联盟:以联盟主站为中心,集合了众多以联盟主站提供的建站软件搭建的站点,形成一个数据共享的网状组织。
Wikipedia:维基百科是一个基于Wiki技术的多语言百科全书协作计划,也是一部用不同语言写成的网络百科全书,其目标及宗旨是为全人类提供自由的百科全书——用他们所选择的语言来书写而成的,是一个动态的、可自由访问和编辑的全球知识体。
MediaWiki:MediaWiki是全球最著名的维基程序,运行于PHP+MySQL环境。是Wikipedia网站开发的维基建站软件。
然而,Wikipedia站点和MediaWiki搭建的站点之间,并没有形成联盟关系,相互独立;也就是说联盟成员站点和联盟主站之间没有形成数据的共享机制。导致联盟成员站点和联盟主站之间存在着大量数据的重复建设、版本繁多,而且缺乏统一整理,其参考价值和可用性大大减弱。
发明内容
本发明的目的在于解决以上现有技术的不足,而提出词条的同步方法及词条同步装置。以使得联盟主站与联盟成员站点之间形成联盟组织,彼此之间通过同步法共享数据而不发生冲突,并通过联盟成员站点不断丰富和积累高质量的词条数据。并且当联盟成员站点和联盟主站的数据发生冲突时,通过分析装置判断数据的有效性和可用性。
本发明的技术方案如下:
一种词条同步装置,该装置位于联盟主站内,包括:
接收装置,接收来自联盟成员站的基本信息,存储在词条同步数据库中,标识为未处理数据项;
监听装置,用于监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员站提供的数据接口获取完整的词条数据,并触发分析装置;
分析装置,用于接收并分析所述监听装置传输过来的词条数据,形成一系列分析报告,触发处理装置并传送所述分析报告;
处理装置,用于接收所述分析报告并根据不同的分析报告,对词条数据进行处理;
所述的分析装置包括:
锁定词条单元,当词条进行同步操作时,必须同时锁定联盟主站的相应词条,防止同步过程中其他用户的操作产生中间版本;
版本时间比较单元,比较联盟成员站与联盟主站的相应词条的版本时间,决定是否进行同步操作;
链接分析单元,解析联盟成员站的词条数据,将所有的超链接转换为联盟主站的内部链接;
图片分析单元,解析联盟成员站的词条数据,将所有的图片资源转换为联盟主站的图片资源;
所述的处理装置包括:
更新数据单元,更新联盟主站的词条数据,同时生成最新的词条版本;
解除词条锁定单元,同步操作完成,解除对相应词条的锁定,其他用户可以正常操作。
一种词条同步方法,包括以下步骤:
接收装置接收联盟成员站词条的基本信息,存储于词条同步数据库中,标识为未处理数据项;
监听装置监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员站提供的数据接口获取完整的词条数据,并触发分析装置;
分析装置接收并分析所述监听装置传输过来的数据,形成一系列分析报告,触发处理装置并传送所述分析报告;
处理装置接收所述分析报告并根据不同的分析报告,对词条数据进行处理;
所述分析装置分析监听装置传输过来的数据时,包括以下步骤:
1)分析装置锁定联盟主站的相应数据,不允许用户操作;
2)分析装置比较传输装置传输过来的数据版本的时间,如果早于联盟主站该数据版本的最后编辑时间,忽略此版本数据的同步;
3)如果第2)步中的数据版本时间不早于联盟主站该数据版本的最后编辑时间,则进入链接转换,提取所有文本中的链接,按照规则转换成联盟主站的内部链接;
4)进行图片处理,提取文本中所有图片,获取图片资源,分析图片地址,判断是否获取此图片,转化为联盟主站的内部图片,并更新图片链接地址。
本发明的优点:
通过词条同步装置及同步方法,增加了联盟主站的数据量,拓展了词条内容的领域,使得联盟主站的内容更加全面。
通过词条同步装置及同步方法,完善了联盟主站的数据质量,使联盟主站的数据更加具有权威性和可用性。
附图说明
图1为本发明的结构原理示意图;
图2为本发明的分析和处理流程图。
具体实施方式
如图1所示,本发明的词条同步装置,包括:接收装置,用于接收联盟成员站的词条基本信息;监听装置,用于监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员站提供的数据接口获取完整的词条数据,并触发分析装置;分析装置,用于接收并分析所述监听装置传输过来的数据,形成一系列分析报告,触发处理装置并传送所述分析报告;处理装置,用于接收所述分析报告并根据不同的分析报告,对词条数据进行处理。其中分析装置包括:锁定词条单元,版本时间比较单元,连接分析单元,图片分析单元。
如图2所示,本发明的词条同步装置在进行词条同步时,监听装置监控词条同步数据库中未处理的数据,根据词条数据项的基本信息,通过联盟成员站点提供的数据接口获取完整词条数据信息后触发分析装置,之后的分析装置和处理装置将对此数据信息进行处理。所述的分析装置首先锁定联盟主站的相应数据,不允许用户操作;其次分析装置比较数据版本的时间,即联盟成员站与联盟主站的相应词条的最新版本时间,如果联盟成员站的词条版本时间早于联盟主站的词条的最新版本时间,表明联盟主站的词条内容更新,忽略此版本数据的同步,否则进入第三个环节,链接转换;链接转换提取词条内容文本中的所有链接,按照规则转换成联盟主站的内部链接;第四步进行图片处理,提取文本中所有图片,获取图片资源,分析图片地址,判断是否获取此图片,转化为联盟主站的内部图片,并更新图片链接地址。每一个环节的出错都会导致此版本数据的同步失败。假设数据已经通过分析装置的分析,返回处理后的数据,触发处理装置。处理装置生成新的历史版本的同时,更新数据内容,解除联盟主站的数据操作锁定。
本发明以一个例子来详细说明整个流程。
联盟主站:拥有大量的、分类比较完整的数据。
联盟成员站点A:建站系统搭建的站点,并已加入联盟。
站点A的用户创建词条“北京”,打开编辑器时,如果联盟主站已经有词条“北京”,编辑器从联盟主站下载最新版本的内容,充分体现了数据共享机制,站点A通过链接转换和图片本地化程序,将联盟主站的数据完全转给为站点A的数据。用户在联盟主站的版本基础上编辑完善。假设用户发现“北京”的词条中有一个错别字,将其它改正,或者完善内容后发布。这就是站点A创建或者编辑的所有操作。
站点A在发布“北京”这个词条时,后台将这个信息传送给联盟主站的接收装置,告知联盟主站,“北京”这个词条在站点A上有最新内容。接收装置将这个信息记录在词条同步数据库中,标识为未处理状态。站点A传送给接收装置的信息量很小,只有词条名称以及站点A的基本信息,并没有传送词条内容,站点A的用户在创建编辑操作词条时,将不会觉察出延迟。
监听装置开始工作,它扫描词条同步数据库,取出未处理数据,根据数据项,例如词条名称“北京”、站点A的基本信息,基本信息包括站点A的域名、联盟认证码、站长信息等,并通过站点A提供的数据接口取得词条“北京”数据项的完整数据,包括词条“北京”的内容,编辑时间,编辑者等。监听装置将词条详细数据交付于分析装置后,继续扫描词条同步数据库。
分析装置开始工作,如果联盟主站不存在词条“北京”,则直接进行第三步操作。反之,首先锁定联盟主站的词条“北京”,不允许用户操作,避免数据在同步处理过程又产生新版本。其次进行版本比较。如果联盟主站已经有词条“北京”,比较站点A的词条“北京”的版本时间与联盟主站的“北京”最新版本时间,如果早于联盟主站的最新版本时间,说明在监听并获取同步数据的过程中,联盟主站已经产生过新的版本,为了避免破坏联盟主站的数据,停止词条“北京”的数据同步操作,并进行下一条记录的处理。如果晚于联盟主站的最新版本时间,就可以进行同步操作。第三步是链接转换,因为站点A在同步时,已将链接和图片本地化,产生的版本,其链接和图片资源也是站点A的本地化地址。在同步到联盟主站时,也需要逆处理。分析词条“北京”的所以链接,按照一定规则将其转换联盟主站的链接。第四步进行图片处理,提取文本中所有图片,获取图片资源,分析图片地址,判断是否获取此图片,转化为联盟主站的内部图片,并更新图片链接地址。无论哪一个环节出错,同步操作就立即停止。假设数据已经通过分析装置的分析,返回处理后的数据,触发处理装置生成新的版本数据。
处理装置更新词条同步数据库,“北京”词条的状态置为已处理;更新词条“北京”的内容;以及生成新的历史版本。数据处理完毕后,解除锁定。
Claims (5)
1.一种词条同步装置,其特征在于,该装置位于联盟主站内,包括:
接收装置,接收来自联盟成员站的基本信息,存储在词条同步数据库中,标识为未处理数据项;
监听装置,用于监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员站提供的数据接口获取完整的词条数据,并触发分析装置;
分析装置,用于接收并分析所述监听装置传输过来的词条数据,形成一系列分析报告,触发处理装置并传送所述分析报告;
处理装置,用于接收所述分析报告并根据不同的分析报告,对词条数据进行处理。
2.如权利要去1所述的词条同步方法的四个装置,其特征在于,所述的分析装置包括:
锁定词条单元,当词条进行同步操作时,必须同时锁定联盟主站的相应词条,防止同步过程中其他用户的操作产生中间版本;
版本时间比较单元,比较联盟成员站与联盟主站的相应词条的版本时间,决定是否进行同步操作;
链接分析单元,解析联盟成员站的词条数据,将所有的超链接转换为联盟主站的内部链接;
图片分析单元,解析联盟成员站的词条数据,将所有的图片资源转换为联盟主站的图片资源。
3.如权利要去1所述的词条同步方法的四个装置,其特征在于,所述的处理装置包括:
更新数据单元,更新联盟主站的词条数据,同时生成最新的词条版本;
解除词条锁定单元,同步操作完成,解除对相应词条的锁定,其他用户可以正常操作。
4.一种词条同步方法,其特征在于,包括以下步骤:
接收装置接收联盟成员站词条的基本信息,存储于词条同步数据库中,标识为未处理数据项;
监听装置监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员站提供的数据接口获取完整的词条数据,并触发分析装置;
分析装置接收并分析所述监听装置传输过来的数据,形成一系列分析报告,触发处理装置并传送所述分析报告;
处理装置接收所述分析报告并根据不同的分析报告,对词条数据进行处理。
5.如权利要求4所述的词条同步方法,其特征在于,所述分析装置分析监听装置传输过来的数据时,包括以下步骤:
1)分析装置锁定联盟主站的相应数据,不允许用户操作;
2)分析装置比较传输装置传输过来的数据版本的时间,如果早于联盟主站该数据版本的最后编辑时间,忽略此版本数据的同步;
3)如果第2)步中的数据版本时间不早于联盟主站该数据版本的最后编辑时间,则进入链接转换,提取所有文本中的链接,按照规则转换成联盟主站的内部链接;
4)进行图片处理,提取文本中所有图片,获取图片资源,分析图片地址,判断是否获取此图片,转化为联盟主站的内部图片,并更新图片链接地址。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010223999 CN101908061A (zh) | 2010-07-02 | 2010-07-02 | 词条同步方法及词条同步装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010223999 CN101908061A (zh) | 2010-07-02 | 2010-07-02 | 词条同步方法及词条同步装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101908061A true CN101908061A (zh) | 2010-12-08 |
Family
ID=43263521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010223999 Pending CN101908061A (zh) | 2010-07-02 | 2010-07-02 | 词条同步方法及词条同步装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101908061A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214206A (zh) * | 2011-04-27 | 2011-10-12 | 百度在线网络技术(北京)有限公司 | 一种用于在信息实体之间建立关联关系的方法与设备 |
CN105930340A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇虎科技有限公司 | 基于百科词条的词条纠错方法及装置 |
CN106878365A (zh) * | 2016-06-08 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种数据同步方法和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1971557A (zh) * | 2005-11-25 | 2007-05-30 | 英业达股份有限公司 | 词汇共享系统及方法 |
CN101030157A (zh) * | 2007-04-20 | 2007-09-05 | 北京搜狗科技发展有限公司 | 一种用户词库同步更新的方法和系统 |
KR100756382B1 (ko) * | 2006-04-26 | 2007-09-10 | 엔에이치엔(주) | 사용자 제작 콘텐츠 축적 방법 및 그 시스템 |
CN101334796A (zh) * | 2008-02-29 | 2008-12-31 | 浙江师范大学 | 一种个性化及协同化融合的网上多媒体检索与查询方法 |
CN101566995A (zh) * | 2008-04-25 | 2009-10-28 | 北京搜狗科技发展有限公司 | 一种互联网信息整合发布的方法和系统 |
-
2010
- 2010-07-02 CN CN 201010223999 patent/CN101908061A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1971557A (zh) * | 2005-11-25 | 2007-05-30 | 英业达股份有限公司 | 词汇共享系统及方法 |
KR100756382B1 (ko) * | 2006-04-26 | 2007-09-10 | 엔에이치엔(주) | 사용자 제작 콘텐츠 축적 방법 및 그 시스템 |
CN101030157A (zh) * | 2007-04-20 | 2007-09-05 | 北京搜狗科技发展有限公司 | 一种用户词库同步更新的方法和系统 |
CN101334796A (zh) * | 2008-02-29 | 2008-12-31 | 浙江师范大学 | 一种个性化及协同化融合的网上多媒体检索与查询方法 |
CN101566995A (zh) * | 2008-04-25 | 2009-10-28 | 北京搜狗科技发展有限公司 | 一种互联网信息整合发布的方法和系统 |
Non-Patent Citations (2)
Title |
---|
《中国优秀硕士学位论文全文数据库》 20091231 魏涵 维基与SNS分析及Dadipedia设计与开发 第2-9页 1-5 , 2 * |
《情报资料工作》 20071231 周庆山 维基百科信息自组织模式探析 30-32 1-5 , 第2期 2 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214206A (zh) * | 2011-04-27 | 2011-10-12 | 百度在线网络技术(北京)有限公司 | 一种用于在信息实体之间建立关联关系的方法与设备 |
CN105930340A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇虎科技有限公司 | 基于百科词条的词条纠错方法及装置 |
CN106878365A (zh) * | 2016-06-08 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种数据同步方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347746B (zh) | 一种异构数据库同步数据一致性校验方法及装置 | |
CN102208060B (zh) | 一种电子笔录、签名、指纹一体化系统 | |
CN102184251B (zh) | 一种数据表同步系统及方法 | |
CN104462477B (zh) | 基于时间戳的数据同步的方法、装置及系统 | |
CN104717085A (zh) | 一种日志解析方法及装置 | |
CN106412697A (zh) | 智能电视自动获取时区的方法和装置 | |
CN101908061A (zh) | 词条同步方法及词条同步装置 | |
CN103488754A (zh) | 一种异构文档协作云服务间透明互操作的方法 | |
CN101807210A (zh) | 一种数据库间数据同步的方法、系统及设备 | |
CN112905536B (zh) | 基于区块链的数据校验同步方法和装置 | |
CN105512171A (zh) | 数据库同步的方法及装置 | |
CN103164422A (zh) | 采用通用数据存储格式进行数据同步的方法、设备与系统 | |
CN111694799B (zh) | 基于日志解析同步的并行日志解析方法和数据同步系统 | |
CN110162980A (zh) | 一种软件开发过程中一站式安全测试和管理的方法 | |
CN106598865B (zh) | 一种软件测试方法及装置 | |
CN102457553A (zh) | 基于B/S模式的离线SaaS应用软件实现方法 | |
CN113672692A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112104896B (zh) | 字幕编辑方法、终端、服务器、系统及存储介质 | |
CN103400050A (zh) | 一种多人协同的核反应堆风险确定方法及系统 | |
CN101656652A (zh) | 动态内容分发的内容同步方法、设备及系统 | |
CN112612802A (zh) | 一种实时数据中台的处理方法、装置及平台 | |
CN104915291B (zh) | 终端重启验证方法和系统 | |
WO2010005129A1 (en) | Method and apparatus for generating storytelling of the new game using the stored storytelling data | |
CN104038824A (zh) | 数字机顶盒开机时自动创建、更新节目数据库的方法 | |
CN104679740A (zh) | 数据处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20101208 |