CN102314453A

CN102314453A - 高质量版本的筛选方法及系统

Info

Publication number: CN102314453A
Application number: CN2010102221299A
Authority: CN
Inventors: 支静; 陈兴华; 王龙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2010-06-30
Filing date: 2010-06-30
Publication date: 2012-01-11
Anticipated expiration: 2030-06-30
Also published as: CN102314453B

Abstract

本发明公开一种高质量版本的筛选方法及系统，该方法包括：读取用户创建的百科版本数据，并对百科版本数据进行解析；对解析后得到的信息进行统计分析；根据统计分析的结果，过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程。发明能够在降低人工筛选投入的前提下，有效提高对复杂编辑的百科版本数据的筛选效率。进一步地，对进入简单编辑版本进程或复杂编辑版本进程的百科版本执行连续版本过滤进程，从而更加准确地从海量百科数据中筛选出待审核的高质量百科版本。通过快速准确筛选出高质量版本和非高质量版本，有针对性地引导用户持续完善词条信息，同时还有利于完善对百科用户的分级管理。

Description

高质量版本的筛选方法及系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种高质量版本的筛选方法及系统。

背景技术

随着互联网的普及，每天都有大量的新闻、事件等消息通过网络被迅速传播，人们对于各种信息的传播热情与共享程度达到了空前的高度，为方便人类不断积累知识，沉淀并传承文明，一种通过电子大百科全书记录信息的方式应运而生。人们可以对已有知识或刚刚形成的智力成果进行梳理和积累，或者在自己感兴趣的领域，凭借自身的知识能力对相关知识主题进行创建、编辑和完善。不断完善的电子大百科全书不仅对知识体系进行了有效的梳理和保存，还有利于人们进行知识检索与查阅。

由于大量的用户参与到百科数据的加工中来，用户创建的百科版本和后续用户编辑的百科版本形成海量版本数据，传统的人工筛选审核方式远不能满足快速筛选百科版本数据的需要，而且在筛选版本中的判断过程还可能由于筛选者的主观随意性而造成误判；此外，单一的机器筛选方式(如仅仅通过百科版本的字节数、有无图片或敏感词汇等因素进行判断)没有对专业性的百科数据的具体分析，使得自动筛选操作缺乏针对性，不能根据百科数据的特点对百科版本进行分级筛选，从而造成大量误判，不利于筛选出高质量版本数据作为优质版本评选的基础；同时也不利于根据版本质量挖掘和管理不同级别的用户，而且也不利于筛选出非高质量版本以推动用户进一步完善该词条，引导用户持续优化词条信息。

如何在海量的百科数据中，通过技术手段有效的对百科版本数据进行多维度的分级筛选审核，从而快速准确筛选出高质量版本和非高质量版本，有针对性地引导用户持续完善词条信息，加快百科数据库的建设成为本领域亟待解决的技术问题。

发明内容

本发明要解决的一个技术问题是提供一种高质量版本的筛选方法及系统，其能够在降低人工投入的前提下，有效提高对复杂编辑的百科版本数据的筛选效率，有利于为高质量版本数据的审核提供评选基础。

本发明的一个方面提供了一种高质量版本的筛选方法，该方法包括：读取用户创建的百科版本数据，并对百科版本数据进行解析；对解析后得到的信息进行统计分析；根据统计分析的结果，过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程。

本发明提供的高质量版本的筛选方法的一个实施例中，对符合预定标准的百科版本执行复杂编辑版本进程的步骤进一步包括：判断过滤后的百科版本是否含有参考资料，如果没有，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。

本发明提供的高质量版本的筛选方法的一个实施例中，对解析后得到的信息进行统计分析的步骤进一步包括：统计信息的段落数、总字节数；分析信息是否含有图片、参考资料和目录信息；以及根据预定规则评估百科版本数据的变化量是否高于复杂版本变化量阈值。

本发明提供的高质量版本的筛选方法的一个实施例中，该方法还包括：对于用户编辑的百科版本数据进入简单编辑版本进程，判断之前的版本是否存在连续的相同用户编辑同名词条版本，如果不存在，则直接过滤百科版本数据；如果之前存在连续的、与版本数据具有相同编辑用户的同名词条版本，则执行连续版本过滤进程。

本发明提供的高质量版本的筛选方法的一个实施例中，该方法还包括：对于用户编辑的百科版本数据进入复杂编辑版本进程，判断之前相邻版本是否是不同用户编辑的同名词条版本或者含有高质量版本/优质版本标识，如果是，则判断过滤后的百科版本是否含有参考资料；如果过滤后的百科版本不含有参考资料，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区；否则，则执行连续版本过滤进程。

本发明提供的高质量版本的筛选方法的一个实施例中，连续版本过滤进程针对由同一用户编辑的连续同名词条版本构成的一组版本，判断之前是否存在获得高质量版本/优质版本标识的百科版本数据，如果不存在，则选取一组版本中最后提交的版本数据与之前不同用户编辑的版本进行对比，先按复杂编辑版本策略过滤，找出符合复杂版本变化量的版本；随后判断过滤后的百科版本是否含有参考资料，如果没有，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区；如果之前存在获得高质量版本/优质版本标识的版本，则选取一组版本中最后提交的版本数据与之前含有高质量版本/优质版本标识的版本进行对比，先按复杂编辑版本策略过滤，找出符合复杂版本变化量的版本；随后判断过滤后的百科版本是否含有参考资料，如果没有，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。

本发明提供的高质量版本的筛选方法的一个实施例中，该方法还包括：对同一词条下，同一用户编辑的连续版本的入选版本进行去重处理，以保证只有最终版本处于高质量版本待审状态；如果在版本处于高质量版本待审状态期间，同名词条存在后续同一用户编辑的版本被过滤策略选入，则原在待审序列中同一用户编辑的同名词条版本将被自动过滤出评选区，并选取最新进入评选区的版本待审核。

本发明的另一个方面提供了一种高质量版本的筛选系统，该系统包括：数据解析模块，用于读取用户创建的百科版本数据，并对百科版本数据进行解析；统计分析模块，用于对解析后得到的信息进行统计分析和判断；版本过滤模块，用于根据统计分析和判断的结果，过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程。

本发明提供的高质量版本的筛选系统的一个实施例中，该系统还包括：去重模块，用于对同一词条下，同一用户编辑的连续版本的入选版本进行去重处理，以保证只有最终版本处于高质量版本待审状态；如果在版本处于高质量版本待审状态期间，同名词条存在后续同一用户编辑的版本被过滤策略选入，则原在待审序列中同一用户编辑的同名词条版本将被自动过滤出评选区，并选取最新进入评选区的版本待审核。

本发明提供的高质量版本的筛选系统的一个实施例中，统计分析模块进一步包括：统计子模块，用于统计信息的段落数、总字节数；分析子模块，用于分析信息是否含有图片、参考资料和目录信息；以及测算子模块，用于根据预定规则计算并评估百科版本数据是否属于高质量版本。

本发明提供的高质量版本的筛选方法及系统，通过对用户创建和编辑的百科版本数据进行解析，对解析后得到的信息进行统计分析；根据统计分析的结果过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程；其能够在降低人工筛选投入的前提下，有效提高对复杂编辑的百科版本数据的筛选效率。进一步地，对进入简单编辑版本进程或复杂编辑版本进程的百科版本执行连续版本过滤进程，从而更加准确、有效地从海量百科数据中筛选出待审核的高质量百科版本，从而为高质量版本数据的审核提供评选基础。此外，通过快速准确筛选出高质量版本和非高质量版本，有针对性地引导用户持续完善词条信息，有利于加快百科数据库的建设；同时还有利于挖掘具有较高编辑能力的用户，完善对百科用户的分级管理。

附图说明

图1示出本发明实施例提供的一种高质量版本的筛选方法的流程图；

图2示出本发明提供的高质量版本的筛选方法的一个实施例中统计分析所采用的具体策略流程图；

图3示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图；

图4示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图；

图5示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图；

图6示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图；

图7示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图；

图8示出本发明实施例提供的一种高质量版本的筛选系统的结构示意图；

图9示出本发明提供的高质量版本的筛选系统的另一个实施例的结构示意图；

图10示出本发明提供的高质量版本的筛选系统的另一个实施例的结构示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

图1示出本发明实施例提供的一种高质量版本的筛选方法的流程图。

如图1所示，高质量版本的筛选方法流程100包括步骤102，读取用户创建的百科版本数据，并对百科版本数据进行解析。例如，用户通过百科频道创建词条信息，词条信息创建完毕后提交以供系统后续筛选审核。接收到用户完成的创建词条信息后，需要对该词条信息中的百科版本数据进行解析，以分解提取相关条目信息。

步骤104，对解析后得到的信息进行统计分析。例如，对前述分解提取的相关条目信息进行统计分析，具体来说，涉及统计百科版本段落数，统计该版本中的总字节数，并分析其中是否含有图片、参考资料等相关信息。稍后的其它实施例还将对统计分析所采用的具体策略作进一步的简要介绍。

步骤106，根据统计分析的结果，过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程。例如，根据统计的段落数、字节数等相关信息对百科版本数据进行过滤，对符合相应预设条件的百科版本分别归入简单编辑版本进程或复杂版本进程，以便对复杂版本百科数据进行高质量版本的审核，并引导用户进一步完善该词条信息等后续操作。

本发明提供的高质量版本的筛选方法，通过对百科版本数据进行解析、统计分析，筛选出复杂编辑版本和简单编辑版本，以减少人工筛选及审核的投入，在提高筛选效率的同时，有利于后续评审高质量版本更有针对性。

图2示出本发明提供的高质量版本的筛选方法的一个实施例中统计分析所采用的具体策略流程图。

如图2所示，本发明提供的高质量版本的筛选方法的一个实施例中统计分析所采用的具体策略流程200包括步骤202，对解析后的百科版本数据进行条目统计，判断该百科版本数据是否只有一条段落；如果不是只有一个段落，则执行步骤204；否则执行步骤212。

步骤204，统计百科版本数据的总字节数；如果其总字节数大于某一阈值，如600字节，则执行步骤214；否则执行步骤206。

步骤206，判断百科版本数据统计的总字节数是否小于某一阈值，如300字节，则执行步骤212；否则执行步骤208。

步骤208，判断百科版本数据中是否没有图片、参考资料和目录；如果都没有，则执行步骤212；否则执行步骤210。

步骤210，对前述统计的信息，依据具体的计算公式来测算版本变化量是否大于预先设置的阈值。如果是则执行步骤214；否则执行步骤212。举例来说，如果统计分析的百科版本数据中含有内链计1分，有图片计2分(对于统计图片变化量来说，对图注文字的修改、添加，居左/居右属性的变化不计入)，有参考资料计1分，有N个目录计N分；可以根据这4项得分相加求和，总分在2分以上的百科版本可视为复杂编辑版本。

步骤212，对所过滤的百科版本数据执行简单编辑版本进程。例如，最简单的做法就是直接过滤该简单编辑版本，而不在展示区显示；但是这样作可能挫伤用户创建、编辑百科词条的积极性，也不利于培养和发掘有创造力的用户；进一步地，可以将归入简单编辑版本进程的简单百科版本直接返回用户，由用户进行重新创建或进一步编辑完善；又或者对简单编辑版本作进一步的判断，以判断是否存在通过连续编辑版本以达到复杂版本的变化量。

步骤214，对所过滤的百科版本数据执行复杂编辑版本进程。例如，判断进入复杂编辑版本进程的复杂百科版本是否含有参考资料，如果没有，则进行二次过滤；过滤后的百科版本数据被转入高质量版本审核区。需要说明的是，如果该复杂编辑版本已经被标记为高质量或优质版本的版本，直接过滤，不进入高质量待审区。

本发明提供的高质量版本的筛选方法的一个实施例中统计分析所采用的具体策略能够用于统计用户编辑版本的版本变化量，并筛选出可能的复杂编辑版本，因而，该流程也可被称之为复杂编辑版本策略。

图3示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图。

如图3所示，高质量版本的筛选方法流程300包括：步骤302-312，其中步骤302-306可以执行与图1所示的步骤102-106相同或相似的技术内容，为简洁起见，这里不再赘述其技术内容。

如图3所示，在步骤306后，依次执行步骤308，判断之前的版本是否存在连续的相同用户编辑同名词条版本。具体来说，对于用户编辑的百科版本数据，当所述百科版本数据进入简单编辑版本进程后，判断之前是否存在连续的同ID的用户编辑同名词条的版本。如果不存在，则执行步骤310，否则执行步骤312。

步骤310，如果之前的版本不存在连续的相同用户编辑同名词条版本，则直接过滤百科版本数据。对于简单编辑的版本，且不存在连续的同ID用户编辑的同名词条版本的情形，系统可以直接过滤该简单编辑的百科版本词条信息，提高了筛选判断的效率，降低了人工审核的成本，也有利于避免单一线性判断模式的误判率。

步骤312，如果之前存在连续的、与版本数据具有相同编辑用户的同名词条版本，则执行连续版本过滤进程。也就是说，存在连续的，由同一用户ID编辑的、且连续被审核通过的同名词条版本所形成的一组版本，系统需要判断该同一用户编辑的连续版本组的累积变化量是否达到复杂版本变化量阈值，如果达到了预先设定的变化量阈值，则有可能被筛选出来成为待审核的高质量版本。稍后的其它实施例还将对连续版本过滤进程作进一步的详细介绍。

本发明提供的高质量版本的筛选方法及系统，通过对用户创建和编辑的百科版本数据进行解析，对解析后得到的信息进行统计分析；根据统计分析的结果过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程；其能够在降低人工筛选投入的前提下，有效提高对复杂编辑的百科版本数据的筛选效率。对进入简单编辑版本进程的百科版本执行连续版本过滤进程，从而更加准确、有效地从海量百科数据中筛选出待审核的高质量百科版本，从而为高质量版本数据的审核提供评选基础。

图4示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图。

如图4所示，高质量版本的筛选方法流程400包括：步骤402-416，其中步骤402-410可以执行与图3所示的步骤302-310相同或相似的技术内容，为简洁起见，这里不再赘述其技术内容。

如图4所示，连续版本过滤进程进一步包括步骤412-416，具体来说，步骤412，判断之前是否存在获得高质量版本/优质版本标识的百科版本数据。如果不存在，则执行步骤414；否则执行步骤416。

步骤414，选取该组版本中最后提交的版本与之前不同用户编辑的版本进行对比，按复杂编辑版本策略找出符合复杂版本变化量的版本。例如，如果在该组版本中，之前不存在获得高质量版本标识或优质版本标识的百科版本，则选取该组版本中该用户最后提交的版本，并将其与之前不同用户编辑的版本进行对比，可以按照图2所示的复杂编辑版本策略来统计分析用户编辑的最后版本的版本变化量，如果其变化量超过预先设定的复杂版本变化量，则筛选出可能的复杂编辑版本待审核。

步骤416，选取该组版本中最后提交的版本数据与之前含有高质量版本/优质版本标识的版本进行对比，按复杂编辑版本策略找出符合复杂版本变化量的版本。例如，如果在该组版本中，之前存在获得高质量版本标识或优质版本标识的百科版本，则选取该组版本中该用户最后提交的版本，并将其与之前的标记为高质量版本或优质版本的版本进行对比，可以按照图2所示的复杂编辑版本策略来统计分析用户编辑的最后版本的版本变化量，如果其变化量超过预先设定的复杂版本变化量，则筛选出可能的复杂编辑版本待审核。

本发明提供的高质量版本的筛选方法的一个实施例中，对于通过连续版本过滤进程中步骤414和416筛选出的版本变化量超过预先设定的复杂版本变化量的备选复杂编辑版本，还可以进一步判断过滤后的百科版本是否含有参考资料，如果没有，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。需要说明的是，如果该复杂编辑版本已经被标记为高质量或优质版本的版本，直接过滤，不进入高质量待审区。通过以上过滤途径获得的编辑和创建版本，进入高质量审核区待审，并按照版本提交时间进行顺序排列。

本发明提供的高质量版本的筛选方法的一个实施例中，对于进入后台“高质量版本审核区”的待审百科版本，在“Diff对比区”进行对比，以展示前后版本之间的变化，可以在后台审核Diff策略中新增：特殊词的前后版本高亮显示，当前版本新增内链高亮显示，敏感词不高亮飘红(同时，修改后台所有Diff区策略，不再显示历史版本中包含优质版本的灰色icon，只显示当前版本的优质/高质量状态，icon与前台展示icon相同)。在“版本变化量区”提示当前版本的变化量，以帮助编审判断版本(可以记录的变化量包括但不限于：字节数、内链、开放分类、一级目录、二级目录、图片数、参考资料、扩展阅读等)。变化量采用累加方式统计，例如添加一张图片，再删除一张已有的图片，变化量是2。在“版本标记区”，由管理员标记该审核的版本属于“高质量版本”或“非高质量版本”，并在“评审建议区”由编审给出该高质量版本后续可完善的建议，例如设置10个大项建议，每个大项设置若干可多选的小项，包括：(1)关于“词条名”的建议：涉及词条名不规范或已存在同义词条等；(2)关于“目录章节”的建议：涉及一二级目录混编，章节划分不当或标题归纳不正确等；(3)关于“概念定义”的建议：涉及概念、定义缺失或不准确，概念、定义信息矛盾等；(4)关于“正文”的建议：涉及添加无效信息或删除了有效信息，叙述重心偏离主题或词条要素信息不完整，非第三方客观表述，含有立场或时效性措辞，正文信息含不规范标点、文字或乱码等，正文内容表述不当等；(5)关于“内链”的建议：涉及与主题关联性差、添加位置不当或内链对象无相关阐述，内链无效、断链或者自链接等；(6)关于“图片”的建议：涉及图片质量低或与主题关联性较差，图片无注释或注释不准确等；(7)关于“参考资料”的建议：涉及参考资料与主题无关，参考资料为无效链接，角标位置不正确等；(8)关于“扩展阅读”的建议：涉及扩展阅读与主题无关，扩展阅读为无效链接等；(9)关于“排版”的建议：涉及版面信息分布琐碎或图文排版不佳，无排版或错误使用编辑功能等；(10)关于“其他”的建议：涉及其他建议或建议申请优质版本等。

已经评为高质量版本的百科版本进入系统的高质量版本管理区，该管理区用于方便后续的版本复审和撤销。其中高质量版本审核区中按照高质量版本的添加时间倒序排列，支持按照版本、编辑者id、添加者等标引信息进行搜索。高质量版本管理区的数据项包括：(1)高质量词条版本：链接新窗口指向后台该词条版本；(2)版本编辑者：链接新窗口指向前台passport profile页；(3)编辑时间：词条版本提交时间；(3)添加者：添加该版本为高质量版本的编审；(4)添加时间：编审标记为该版本为高质量版本的时间；(5)评审建议：编审给高质量版本的评审建议；评审建议与后台高质量版本的反馈建议基本对应。评审建议为评选时勾选的选项+编审文本输入内容。评审建议对应当初标记反馈模板体组成为：一级模板名+序号+二级模板名+如：+输入内容+建议：+输入内容。序号按照排列选中的排列顺序，不选则不分配序号。比如：词条名称不规范的类型，其规范的词条名为“2008年北京奥运会”。建议：建立标准词词条。正文内容表述不当，如第一段主观语气，建议：客观阐述。(6)复审：点击“查看”本窗口打开标记高质量版本时的高质量版本审核Diff页面，复审完成后自本窗口回到高质量版本管理区。点击“复审”中的“查看”，进入高质量版本复审的新页面，该页面和当初该版本进入高质量审核区的Diff对比版本一致。不同之处为：评审建议以文本方式显示在版本变化量之下，无“高质量版本”按钮。编审复审若发现改版本为误审核，点击“非高质量版本”，弹出浮动层，填写取消原因。

复杂编辑版本在高质量版本审核区被标记为非高质量版本后进入非高质量版本管理区，支持添加其他版本进该区的功能(如支持按照任意的、与本区不重复的人工方式将已通过版本ID添加到该区)，目的是回捞高质量版本。非高质量版本按照添加时间倒序排列，可按照：版本(即词条名)、编辑者ID、添加者搜索版本。该区涉及的数据项包括：(1)非高质量词条版本：链接新窗口指向后台该词条版本。(2)版本编辑者：链接新窗口指向前台passport profile页。(3)编辑时间：词条版本成功提交时间。(4)添加者：添加该版本为高质量版本的管理员。(5)添加时间：管理员标记为该版本为高质量版本的时间。(6)复审：点击“查看”新窗口打开复审对比版本页面。进入复审Diff页面(非高质量版本复审)可采用如下策略进行审核：(1)非相同编辑者ID的连续版本，则当前版本和上一个编辑者的版本进行对比。(2)相同编辑者ID的连续版本，则当前版本与该连续版本中最早版本的上一个用户版本进行比较。若连续版本有被标记为优质版本或者高质量版本，则当前版本与连续版本中最近的一个标记为优质版本或高质量版本的版本进行对比。非高质量版本复审Diff页面，默认“高质量版本”灰化不可以点，无“非高质量版本”按钮。只有勾选评审建议后，“高质量版本”按钮才可用，勾选评审建议和高质量审核区策略一致。

有针对性地引导用户持续完善词条信息，有利于加快百科数据库的建设；同时还有利于挖掘具有较高编辑能力的用户，完善对百科用户的分级管理。具体体现在“个人中心区”对用户的管理，在个人中心的查看积分中增加“高质量版本”的词条统计，在我的贡献中增加高质量版本标签，用于展示“词条名称、提交时间、通过原因、评审建议”等。其中评审建议与后台高质量版本的反馈建议基本对应。评审建议为评选时勾选的建议，具体反映在用户的个人中心评审建议组成为：一级模板+序号+二级模板+如：+后台标记输入内容+建议：后台标记输入内容(反馈模板十除外)。序号按照排列选中的排列顺序，不选则不分配序号。关于评审建议，举例说明如下：

您的版本已符合高质量版本评选规则，如果您愿意在以下方面进行后续完善，还有机会申请优质版本。

关于“正文”：

1、XX，如：YY。建议：ZZ。

2、XX，如：YY。建议：ZZ。

关于“参考资料”：

1、XX，如：YY。建议：ZZ。

其中：XX为后台评审建议最细的一级模板内容，YY为编审建议的示例子(如：)的输入内容，ZZ为编审建议的建议输入部分(建议：)。若后台评审建议的建议部分未填写，则个人中心反馈建议不显示“建议：ZZ”。

若“其他”项中勾选了“建议申请优质版本”，个人中心反馈内容为如下：您的版本已符合高质量版本评选规则，甚至已经达到优质版本标准，因此建议您在百科优质版本吧，根据规则申请优质版本。上述各页面的icon展示中，优质版本的优先级高于高质量版本，当同一个版本同时具有高质量版本和优质版本两种属性的时候，只显示优质版本，不需要显示高质量版本。

若“其他”项中该用户无高质量版本，文字内容为：“您目前还没有高质量版本记录，建议您查看高质量版本评选规则，之后在待完善词条中查找感兴趣的内容并编辑：)”。待完善词条新窗口链接至百科待完善词条list页。

通过前述对百科版本的审核以及复审操作，有利于引导编辑用户完善对相应百科词条信息的不断完善，同时也有利于回捞百科版本，真实反映用户编辑状况，鼓励并激励用户完善百科词条信息，从而挖掘并培养编辑用户，以达到有针对性地对编辑用户的分级管理。

本发明提供的高质量版本的筛选方法，通过对简单编辑的百科版本进行连续版本变化量的统计分析，从而以多维度的方式来筛选可能的复杂编辑版本，通过分级审核的方式避免了单一评估手段造成的误判断，通过快速准确筛选出高质量版本和非高质量版本，有针对性地引导用户持续完善词条信息，有利于加快百科数据库的建设；同时还有利于挖掘具有较高编辑能力的用户，完善对百科用户的分级管理。

图5示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图。

如图5所示，高质量版本的筛选方法流程500包括：步骤502-514，其中步骤502-506可以执行与图1所示的步骤102-106相同或相似的技术内容，为简洁起见，这里不再赘述其技术内容。

如图5所示，在步骤506后，依次执行步骤508，判断之前相邻版本是否是不同用户编辑的同名词条版本或者含有高质量版本/优质版本标识。具体来说，对于用户编辑的百科版本数据，当所述百科版本数据进入复杂编辑版本进程后，判断之前的相邻版本是否是不同用户编辑的同名词条版本或者含有高质量版本/优质版本标识。如果相邻版本是不同用户编辑的同名词条版本，或者之前相邻版本含有高质量版本标识或者优质标识，则执行步骤510，否则执行步骤512。

步骤510，判断过滤后的百科版本是否含有参考资料。例如，如果相邻版本是不同用户编辑的同名词条版本，或者之前相邻版本含有高质量版本标识或者优质标识，则判断过滤后的百科版本是否含有参考资料。如果有参考资料，则将该百科版本数据转入高质量版本审核区；否则执行步骤514。

步骤512，如果之前相邻版本是相同用户编辑的同名词条版本，或者之前相邻版本不含有高质量版本标识或者优质标识，则执行连续版本过滤进程。也就是说，存在连续的，由同一用户ID编辑的、且连续被审核通过的同名词条版本所形成的一组版本，系统需要判断该同一用户编辑的连续版本组的累积变化量是否达到复杂版本变化量阈值，如果达到了预先设定的变化量阈值，则有可能被筛选出来成为待审核的高质量版本。稍后的其它实施例还将对连续版本过滤进程作进一步的详细介绍。

步骤514，执行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。

本发明提供的高质量版本的筛选方法及系统，通过对用户创建和编辑的百科版本数据进行解析，对解析后得到的信息进行统计分析；根据统计分析的结果过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程；其能够在降低人工筛选投入的前提下，有效提高对复杂编辑的百科版本数据的筛选效率。对进入复杂编辑版本进程的百科版本执行连续版本过滤进程，从而更加准确、有效地从海量百科数据中筛选出待审核的高质量百科版本，从而为高质量版本数据的审核提供评选基础。

图6示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图。

如图6所示，高质量版本的筛选方法流程600包括：步骤602-618，其中步骤602-610、614可以执行与图5所示的步骤502-510、514相同或相似的技术内容，为简洁起见，这里不再赘述其技术内容。

如图6所示，连续版本过滤进程进一步包括步骤612、616和618，具体来说，步骤612，判断之前是否存在获得高质量版本/优质版本标识的百科版本数据。如果不存在，则执行步骤616；否则执行步骤618。

步骤616，选取该组版本中最后提交的版本与之前不同用户编辑的版本进行对比，按复杂编辑版本策略找出符合复杂版本变化量的版本。例如，如果在该组版本中，之前不存在获得高质量版本标识或优质版本标识的百科版本，则选取该组版本中该用户最后提交的版本，并将其与之前不同用户编辑的版本进行对比，可以按照图2所示的复杂编辑版本策略来统计分析用户编辑的最后版本的版本变化量，如果其变化量超过预先设定的复杂版本变化量，则筛选出可能的复杂编辑版本待审核。

步骤618，选取该组版本中最后提交的版本数据与之前含有高质量版本/优质版本标识的版本进行对比，按复杂编辑版本策略找出符合复杂版本变化量的版本。例如，如果在该组版本中，之前存在获得高质量版本标识或优质版本标识的百科版本，则选取该组版本中该用户最后提交的版本，并将其与之前的标记为高质量版本或优质版本的版本进行对比，可以按照图2所示的复杂编辑版本策略来统计分析用户编辑的最后版本的版本变化量，如果其变化量超过预先设定的复杂版本变化量，则筛选出可能的复杂编辑版本待审核。

本发明提供的高质量版本的筛选方法的一个实施例中，对于通过连续版本过滤进程中步骤616和618筛选出的版本变化量超过预先设定的复杂版本变化量的备选复杂编辑版本，还可以进一步判断过滤后的百科版本是否含有参考资料，如果没有，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。需要说明的是，如果该复杂编辑版本已经被标记为高质量或优质版本的版本，直接过滤，不进入高质量待审区。通过以上过滤途径获得的编辑和创建版本，进入高质量审核区待审，并按照版本提交时间进行顺序排列。

本发明提供的高质量版本的筛选方法的一个实施例中，对于进入后台“高质量版本审核区”的待审百科版本，在“Diff对比区”进行对比，以展示前后版本之间的变化，可以在原有后台审核Diff策略中新增：特殊词的前后版本高亮显示，当前版本新增内链高亮显示，敏感词不高亮飘红(同时，修改后台所有Diff区策略，不再显示历史版本中包含优质版本的灰色icon，只显示当前版本的优质/高质量状态，icon与前台展示icon相同)。在“版本变化量区”提示当前版本的变化量，以帮助编审判断版本(可以记录的变化量包括但不限于：字节数、内链、开放分类、一级目录、二级目录、图片数、参考资料、扩展阅读等)。变化量采用累加方式统计，例如添加一张图片，再删除一张已有的图片，变化量是2。在“版本标记区”，由管理员标记该审核的版本属于“高质量版本”或“非高质量版本”，并在“评审建议区”由编审给出该高质量版本后续可完善的建议，例如设置10个大项建议，每个大项设置若干可多选的小项。

本发明提供的高质量版本的筛选方法，通过对复杂编辑的百科版本进行连续版本变化量的统计分析，从而以多维度的方式进一步来筛选符合条件的复杂编辑版本以有利于提高后续高质量版本的审核效率，同时通过分级审核的方式避免了单一评估手段造成的误判断，通过快速准确筛选出高质量版本和非高质量版本，有针对性地引导用户持续完善词条信息，有利于加快百科数据库的建设；同时还有利于挖掘具有较高编辑能力的用户，完善对百科用户的分级管理。

图7示出本发明提供的高质量版本的筛选方法的另一个实施例的流程图。

如图7所示，高质量版本的筛选方法流程700包括：步骤702-720，其中步骤702-716可以执行与图4所示的步骤402-416相同或相似的技术内容，为简洁起见，这里不再赘述其技术内容。

如图7所示，在步骤716之后，依次执行步骤718，判断过滤后的百科版本是否含有参考资料。例如，如果相邻版本是不同用户编辑的同名词条版本，或者之前相邻版本含有高质量版本标识或者优质标识，则判断过滤后的百科版本是否含有参考资料。如果有参考资料，则将该百科版本数据转入高质量版本审核区；否则执行步骤720，进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。

与图7中的步骤718和720类似的，本发明提供的高质量版本的筛选方法的另一个实施例中，在图6所示的流程图中，在步骤616和618之后，还可以包括：判断过滤后的百科版本是否含有参考资料。例如，如果相邻版本是不同用户编辑的同名词条版本，或者之前相邻版本含有高质量版本标识或者优质标识，则判断过滤后的百科版本是否含有参考资料。如果有参考资料，则将该百科版本数据转入高质量版本审核区；否则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。

图8示出本发明实施例提供的一种高质量版本的筛选系统的结构示意图。

如图8所示，一种高质量版本的筛选系统800包括：数据解析模块802、统计分析模块804和版本过滤模块806。

其中，数据解析模块802，用于读取用户创建的百科版本数据，并对百科版本数据进行解析。例如，用户通过百科频道创建词条信息，词条信息创建完毕后提交以供系统后续筛选审核。接收到用户完成的创建词条信息后，需要对该词条信息中的百科版本数据进行解析，以分解提取相关条目信息。

统计分析模块804，用于对解析后得到的信息进行统计分析和判断。例如，对前述分解提取的相关条目信息进行统计分析，具体来说，涉及统计百科版本段落数，统计该版本中的总字节数，并分析其中是否含有图片、参考资料等相关信息。

版本过滤模块806，用于根据统计分析和判断的结果，过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程。例如，根据统计的段落数、字节数等相关信息对百科版本数据进行过滤，对符合相应预设条件的百科版本分别归入简单编辑版本进程或复杂版本进程，以便对复杂版本百科数据进行高质量版本的审核，并引导用户进一步完善该词条信息等后续操作。

本发明提供的高质量版本的筛选系统的一个实施例中，版本过滤模块806还用于对过滤后的进入简单编辑版本进程或复杂版本进程的百科版本判断其是否含有参考资料，如果没有，则进行二次过滤；否则，过滤后的百科版本数据被转入高质量版本审核区。通过以上过滤途径获得的编辑和创建版本，进入高质量审核区待审，并按照版本提交时间进行顺序排列。

本发明提供的高质量版本的筛选系统的一个实施例中，对于进入后台“高质量版本审核区”的待审百科版本，在“Diff对比区”进行对比，以展示前后版本之间的变化，可以在原有后台审核Diff策略中新增：特殊词的前后版本高亮显示，当前版本新增内链高亮显示，敏感词不高亮飘红(同时，修改后台所有Diff区策略，不再显示历史版本中包含优质版本的灰色icon，只显示当前版本的优质/高质量状态，icon与前台展示icon相同)。在“版本变化量区”提示当前版本的变化量，以帮助编审判断版本(可以记录的变化量包括但不限于：字节数、内链、开放分类、一级目录、二级目录、图片数、参考资料、扩展阅读等)。变化量采用累加方式统计，例如添加一张图片，再删除一张已有的图片，变化量是2。在“版本标记区”，由管理员标记该审核的版本属于“高质量版本”或“非高质量版本”，并在“评审建议区”由编审给出该高质量版本后续可完善的建议，例如设置10个大项建议，每个大项设置若干可多选的小项，包括：(1)关于“词条名”的建议：涉及词条名不规范或已存在同义词条等；(2)关于“目录章节”的建议：涉及一二级目录混编，章节划分不当或标题归纳不正确等；(3)关于“概念定义”的建议：涉及概念、定义缺失或不准确，概念、定义信息矛盾等；(4)关于“正文”的建议：涉及添加无效信息或删除了有效信息，叙述重心偏离主题或词条要素信息不完整，非第三方客观表述，含有立场或时效性措辞，正文信息含不规范标点、文字或乱码等，正文内容表述不当等；(5)关于“内链”的建议：涉及与主题关联性差、添加位置不当或内链对象无相关阐述，内链无效、断链或者自链接等；(6)关于“图片”的建议：涉及图片质量低或与主题关联性较差，图片无注释或注释不准确等；(7)关于“参考资料”的建议：涉及参考资料与主题无关，参考资料为无效链接，角标位置不正确等；(8)关于“扩展阅读”的建议：涉及扩展阅读与主题无关，扩展阅读为无效链接等；(9)关于“排版”的建议：涉及版面信息分布琐碎或图文排版不佳，无排版或错误使用编辑功能等；(10)关于“其他”的建议：涉及其他建议或建议申请优质版本等。

本发明提供的高质量版本的筛选系统，通过数据解析模块对百科版本数据进行解析，通过统计分析模块统计分析，从而由版本过滤模块筛选出复杂编辑版本和简单编辑版本，以减少人工筛选及审核的投入，在提高筛选效率的同时，有利于后续评审高质量版本更有针对性。

图9示出本发明提供的高质量版本的筛选系统的另一个实施例的结构示意图。

如图9所示，一种高质量版本的筛选系统900包括：数据解析模块902、统计分析模块904、版本过滤模块906和去重模块908。其中数据解析模块902、统计分析模块904、版本过滤模块906可以是与图8所示数据解析模块802、统计分析模块804、版本过滤模块806具有相同或相似的功能模块。为简洁起见，这里不再赘述。

如图9所示，筛选系统900还包括去重模块908，用于对同一词条下，同一用户编辑的连续版本的入选版本进行去重处理，以保证只有最终版本处于高质量版本待审状态；如果在版本处于高质量版本待审状态期间，同名词条存在后续同一用户编辑的版本被过滤策略选入，则原在待审序列中同一用户编辑的同名词条版本将被自动过滤出评选区，并选取最新进入评选区的版本待审核。

如图10所示，一种高质量版本的筛选系统1000包括：数据解析模块1002、统计分析模块1004、版本过滤模块1006和去重模块1008。其中数据解析模块1002、版本过滤模块1006、去重模块1008可以是与图9所示数据解析模块902、版本过滤模块906、去重模块908具有相同或相似的功能模块。为简洁起见，这里不再赘述。

统计分析模块1004进一步包括：统计子模块10042、分析子模块10044和测算子模块10046。

其中，统计子模块10042，用于统计信息的段落数、总字节数。例如，对解析后的百科版本数据进行条目统计，判断该百科版本数据是否只有一条段落；统计百科版本数据的总字节数(其总字节数是否大于某一阈值，如600字节，总字节数是否小于某一阈值，如300字节)。

分析子模块10044，用于分析信息是否含有图片、参考资料和目录信息。例如，对解析后的百科版本数据进行条目统计，判断百科版本数据中是否没有图片、参考资料和目录等条目信息。

测算子模块10046，用于根据预定规则计算并评估百科版本数据是否属于复杂编辑版本。对前述统计的信息，依据具体的计算公式来测算版本变化量是否大于预先设置的阈值。举例来说，如果统计分析的百科版本数据中含有内链计1分，有图片计2分(对于统计图片变化量来说，对图注文字的修改、添加，居左/居右属性的变化不计入)，有参考资料计1分，有N个目录计N分；可以根据这4项得分相加求和，总分在2分以上的百科版本可视为复杂编辑版本。

参考前述本发明示例性的描述，本领域技术人员可以清楚的知晓本发明提供的高质量版本的筛选方法及系统所具有的前述优点，本发明通过对用户创建和编辑的百科版本数据进行解析，对解析后得到的信息进行统计分析；根据统计分析的结果过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程；其能够在降低人工筛选投入的前提下，有效提高对复杂编辑的百科版本数据的筛选效率。进一步地，对进入简单编辑版本进程或复杂编辑版本进程的百科版本执行连续版本过滤进程，从而更加准确、有效地从海量百科数据中筛选出待审核的高质量百科版本，从而为高质量版本数据的审核提供评选基础。此外，通过快速准确筛选出高质量版本和非高质量版本，有针对性地引导用户持续完善词条信息，有利于加快百科数据库的建设；同时还有利于挖掘具有较高编辑能力的用户，完善对百科用户的分级管理。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种高质量版本的筛选方法，其特征在于，所述方法包括：

读取用户创建的百科版本数据，并对所述百科版本数据进行解析；

对解析后得到的信息进行统计分析；

根据统计分析的结果，过滤所述百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程。

2.根据权利要求1所述的方法，其特征在于，所述对符合预定标准的百科版本执行复杂编辑版本进程的步骤进一步包括：

判断过滤后的所述百科版本是否含有参考资料，如果没有，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。

3.根据权利要求1所述的方法，其特征在于，所述对解析后得到的信息进行统计分析的步骤进一步包括：

统计所述信息的段落数、总字节数；

分析所述信息是否含有图片、参考资料和目录信息；以及

根据预定规则评估所述百科版本数据的变化量是否高于复杂版本变化量阈值。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：对于用户编辑的百科版本数据进入简单编辑版本进程，

判断之前的版本是否存在连续的相同用户编辑同名词条版本，如果不存在，则直接过滤所述百科版本数据；

如果之前存在连续的、与所述版本数据具有相同编辑用户的同名词条版本，则执行连续版本过滤进程。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：对于用户编辑的百科版本数据进入复杂编辑版本进程，

判断之前相邻版本是否是不同用户编辑的同名词条版本或者含有高质量版本/优质版本标识，如果是，则判断过滤后的百科版本是否含有参考资料；如果过滤后的所述百科版本不含有参考资料，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区；

否则，则执行连续版本过滤进程。

6.根据权利要求4或5所述的方法，其特征在于，所述连续版本过滤进程针对由同一用户编辑的连续同名词条版本构成的一组版本，

判断之前是否存在获得高质量版本/优质版本标识的百科版本数据，如果不存在，则选取所述组版本中最后提交的版本数据与之前不同用户编辑的版本进行对比，先按复杂编辑版本策略过滤，找出符合复杂版本变化量的版本；随后判断过滤后的百科版本是否含有参考资料，如果没有，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区；

如果之前存在获得高质量版本/优质版本标识的版本，则选取所述组版本中最后提交的版本数据与之前含有高质量版本/优质版本标识的版本进行对比，先按复杂编辑版本策略过滤，找出符合复杂版本变化量的版本；随后判断过滤后的百科版本是否含有参考资料，如果没有，则进行二次过滤，过滤后的百科版本数据被转入高质量版本审核区。

7.根据权利要求1-5中任意一项所述的方法，其特征在于，所述方法还包括：对同一词条下，同一用户编辑的连续版本的入选版本进行去重处理，以保证只有最终版本处于高质量版本待审状态；

如果在所述版本处于高质量版本待审状态期间，同名词条存在后续同一用户编辑的版本被过滤策略选入，则原在待审序列中同一用户编辑的同名词条版本将被自动过滤出评选区，并选取最新进入评选区的版本待审核。

8.一种高质量版本的筛选系统，其特征在于，系统包括：

数据解析模块，用于读取用户创建的百科版本数据，并对百科版本数据进行解析；

统计分析模块，用于对解析后得到的信息进行统计分析和判断；

版本过滤模块，用于根据统计分析和判断的结果，过滤百科版本数据，并对符合预定标准的百科版本执行简单编辑版本进程或复杂编辑版本进程。

9.根据权利要求8的系统，其特征在于，系统还包括：

去重模块，用于对同一词条下，同一用户编辑的连续版本的入选版本进行去重处理，以保证只有最终版本处于高质量版本待审状态；

如果在版本处于高质量版本待审状态期间，同名词条存在后续同一用户编辑的版本被过滤策略选入，则原在待审序列中同一用户编辑的同名词条版本将被自动过滤出评选区，并选取最新进入评选区的版本待审核。

10.根据权利要求8的系统，其特征在于，统计分析模块进一步包括：

统计子模块，用于统计信息的段落数、总字节数；

分析子模块，用于分析信息是否含有图片、参考资料和目录信息；以及

测算子模块，用于根据预定规则评估所述百科版本数据的变化量是否高于复杂版本变化量阈值。