CN103544308A - 一种信息词条的审核方法 - Google Patents

一种信息词条的审核方法 Download PDF

Info

Publication number
CN103544308A
CN103544308A CN201310538079.9A CN201310538079A CN103544308A CN 103544308 A CN103544308 A CN 103544308A CN 201310538079 A CN201310538079 A CN 201310538079A CN 103544308 A CN103544308 A CN 103544308A
Authority
CN
China
Prior art keywords
entry
audit
content
module
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310538079.9A
Other languages
English (en)
Inventor
丁智辛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201310538079.9A priority Critical patent/CN103544308A/zh
Publication of CN103544308A publication Critical patent/CN103544308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Abstract

本发明提供了一种信息词条的审核方法,该方法包括以下步骤:获得用户提交的词条;机器审核词条;内审员审核词条;词条审核员审核词条。该方法针对第三代搜索引擎,对单一的审核方式做了进一步改进,增加了机器审核、免审和内审员审核机制,减少人工审核时审核员的工作量,大大提高了工作效率。

Description

一种信息词条的审核方法
技术领域
本发明涉及一种计算机信息审核的方法,具体讲涉及一种信息词条的审核方法。
背景技术
目前,信息发布采用的是“先审核后发布”机制,即,只有审核通过的信息才能在网络上发布。当用户创建或编辑内容开放时,服务器通常直接接受用户提交的创建信息或编辑信息,并不对用户所提交的信息做任何处理,根据对词条的审核通过与否来判断词条是否可以在搜索引擎里搜索到,如果词条审核的时被驳回,则三代搜索引擎中无法找到该词条,但词条可作为二代搜索引擎中的关键词,若词条审核通过,则三代搜索引擎里面就能够搜索到该词,将会以搜索结果页(SRP)聚合页的形式展现给用户,SRP页面的信息包括文字、数字、代码、图片、视频、微件标题、链接地址等,上述信息均要求正确,无错别字、别字、错图等错误信息,链接地址无存在错误地址或无效地址,微件标题必须合乎逻辑。因此,上述内容的审核至关重要,但词条的审核对于审核人员来说工作量巨大,人工审核效率低。
在人工审核过程中,如果由于某个原因未能通过审核,则由审核人员告知用户不能发布,并直接结束当前的审核过程,不再继续审核该信息是否符合其他规定,同样会造成审核效率低,即,用户待发布的信息可能需要多次审核,与审核人员进行多次交互才能实现信息的发布。
因此,提供一种高效、准确的信息词条审核方法对尤为重要。
发明内容
为了克服上述现有技术的不足,本发明提供一种信息词条的审核方法,针对第三代搜索引擎,对单一的审核方式做了进一步改进,增加了机器审核、免审和内审员审核机制,减少人工审核时审核员的工作量,大大提高了工作效率。
实现上述目的所采用的解决方案为:
一种信息词条的审核方法,其改进之处在于:所述方法包括以下步骤:
I、获得用户提交的词条;
II、机器审核词条;
III、内审员审核词条;
IV、词条审核员审核词条。
进一步的,所述步骤I包括:用户创建词条,系统分配词条的ID,根据词条的ID查找所述词条的模板,绑定词条模板并对词条进行优化,获得所述模板的微件配置信息,将所述词条提交至微件前端,申请上线。
进一步的,所述步骤II包括:判断词条是否满足机器审核规则,所述机器审核规则包括死链过滤策略、SRP页面内容过滤策略和内容模块规则策略;
若所述规则中的策略任一项不通过则驳回词条,记录不通过的规则及原因,返回步骤I修改词条重新提交;若均通过,则进入所述步骤III。
进一步的,所述步骤III包括:判断词条是否具有免审权限,若有则词条直接上线,否则词条进入内审员审核词条状态;
所述内审员审核包括SRP整页审核、栏目审核和综合审核;判断所述内审员审核是否均通过,若均通过则内审通过,进入步骤IV,否则驳回词条,返回步骤I修改词条重新提交。
进一步的,所述步骤IV包括:判断词条是否具有免审权限,若有则词条直接上线,否则词条进入词条审核员审核词条状态;
所述词条审核员审核包括SRP整页审核、栏目审核和综合审核;判断所述词条审核员审核是否均通过,若均通过则词条审核员审核通过,则词条上线,否则驳回词条,返回步骤I修改词条重新提交。
进一步的,所述词条上线后续在维护抽审中按比例进行抽审,抽审合格则通过,否则词条下线。
进一步的,所述SRP整页审核包括判断页面文字、格式是否符合文字规则和格式规则,符合则通过,否则显示改进内容。
进一步的,所述栏目审核包括判断页面的块模块是否符合模块规则,符合则通过,否则显示改进内容。
进一步的,所述综合审核包括根据所述SRP整页审核和所述栏目审核的改进内容对词条评分,判断词条分数是否符合评分规则,若符合则上线,否则驳回;
所述评分包括互动评分、美观评分、准确评分和全面评分。
与现有技术相比,本发明具有以下有益效果:
(1)本发明的方法结合词条审核员审核机制,增加了机器审核、免审和内审员审核机制,减少审核人员的工作量,提高工作效率。
(2)本发明的方法中机器审核机制解决人工审核无法查找的死链问题、SRP页面内容为空的模板和内容重复问题、比较复杂的规则内容模块(内容条数问题,样式压字等),提高了审核质量,保证上线词条的准确度。
(3)本发明的方法中内审员审核机制属于一级审核,若是免审词条,则大大节省了无需人工审核的步骤,如果为非免审则也为人工审核奠定了一定得审核基础,为人工审核节省了大量的审核时间。
(4)本发明的方法对于长期经营制作词的用户,将会为该用户设置免审绿色通道,直接机审之后免审上线,后续只需要在维护抽审的时候按照1%的比例进行抽审,如果该用户还继续满足免审的规则,即每批中有5%的不能通过人工审核,则免审权则被迫被取消,从那个时刻起则提交的所有的待审的词都是在机审之后需要人工审核;该方法的审核规则明确简单,大大节省了审核时间,提高工作效率。
附图说明
图1为信息词条审核的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
一种信息词条的审核方法,在词条审核员审核机制的基础上,增加了机器审核、免审和内审员审核机制,减少审核人员的工作量,提高工作效率;结合了词条审核员审核、机器审核、免审和内审员审核的规则为:(1)内审+免审则审核通过之后直接上线;(2)内审+非免审则审核通过之后直接进入人工审核(包括内审员审核和词条审核员审核);(3)非内审+免审则审核通过之后直接上线;(4)非内审+非免审则审核通过之后直接进入人工审核。
人工审核包括词条审核员审核和内审员审核,其审核流程相同,但审核词条范围不同,词条审核员是可以审核所有的词条,而内审员只能审核属于它自己的词条,经过内审员审核后提高词条内容的质量,保证数据的完整性。
如图1信息词条审核流程图所示,审核方法具体包括以下:
步骤一、获得用户提交的词条。
当用户创建完一个关键词之后,会为该关键词选择一个合适的皮肤风格,每个风格都有专人制定好,用户只需要该关键词和该皮肤绑定即可,绑定完成之后需要为关键词进行内容填充,一般一个标准的皮肤风格包括:百科模块,论坛模块,新闻模块,相关链接、图片模块,视频模块,博客模块,微博模块,互动模块,就相当于个人博客一样,每个人都有一个博客一样,每个人也可以为博客添加不同的模块,当用户将以上的模块填充完内容之后,确认无误后便可提交上线申请。
步骤二、机器审核词条。
当用户对词条进行申请上线后,首先进入机器审核阶段。机器审核在五分钟内进行快速审核,审核包括判断词条是否满足机器审核规则,机器审核规则包括死链过滤策略、SRP页面内容过滤策略、内容模块规则策略。分别解决了人工审核无法查看的死链问题、每个SRP页面内容为空的模板和内容重复的问题、较为复杂的规则内容模板的内容条数问题和样式压字等问题。
服务器定时执行服务的命令,设定一定的时间(每5分钟)扫描数据库中已经处于待审核的数据,将会按照以下表1中的规则进行死链过滤、SRP页面内容过滤、内容模块的审核,表1为机器审核规则表:
Figure BDA0000407957310000051
经过机器审核之后,将会对审核过的机审数据状态进行修改,修改为:已经审核,相应的也会对词条进行状态的修改:机器驳回/机审通过,审核过程中,词条必须满足所有上述规则,若所述规则中的策略任一项不通过则驳回词条,返回步骤一修改词条重新提交;若全部通过,则进入步骤三进行内审员审核。
步骤三、内审员审核词条。
内审员审核先进行免审权限的判断,若词条具有免审权限,则开启免审的权限,节省人工审核的步骤,大大的减少了人工审核的时间,提高了工作效率。如果具有免审权限,那么该词条就会被直接上线,后续只需要在维护抽审的时候按照1%的比例进行抽审,如果该用户还继续满足免审的规则,那么该用户还会有免审的权限,如果不满足,则免审权则被迫被取消,从那个时刻起则提交的所有的待审的词都是在机器审核之后需要人工审核,每批中有5%的不能通过人工审核,即当提交的上线词够100个,则算为一批,然后在100个词中抽取5个词,若这5个词都不符合要求,就确认是100%不合格,则会被迫取消免审,之后上线的词都不具备免审权限。若词条不具有免审权限,则词条正式进入内审员审核词条状态,内审员进行词条审核。
上述免审权限是根据用户长期上传词条,词条通过率达到一定比例则赋予该用户免审权限,其上传的词条为免审词。
内审员审核包括SRP整页审核、栏目审核和综合审核。依次进行SRP整页审核、栏目审核和综合审核,判断审核是否均通过,若全部通过则内审通过,进入步骤四进行词条审核员审核词条,否则驳回词条,返回步骤一修改词条重新提交。
其中,关于内审员审核中的SRP整页审核、栏目审核和综合审核,具体来说:
SRP整页审核包括两步,第一步,确定驳回理由,即判断页面中是否有明显错误,如文字、格式是否符合文字规则和格式规则,是否有明显错误字、有样式冲突、字体不一、内容不合符等问题;第二步,显示改进理由,以文字内容将上述出现的问题一一罗列;例如图片消失过小,内容比例失调,内容文字出现乱码等。
通常,上述明显错误包括外观错误和文字逻辑、关联性错误。属于外观的错误:明显错别字、字体不一、内容不合符、图片比例等问题,都是人工经过肉眼看的,可由人工审核。属于文字逻辑、关联性错误:部分内容块具有自动更新的功能:例如:在刘德华的歌曲生涯模块中,可以设置关键词:刘德华/歌曲,而不应该设置为:刘德华/情人,或者是刘德华这样的字眼,然后系统会根据上面设置的关键词(刘德华/歌曲)自动更新数据,利用搜索引擎技术将数据爬虫过来,插入系统中,然后在人工审核的时候,可以看到用户设置的关键词和根据关键词更新出来的内容,如果二者有必然联系则设置为正确,如果不正确,则人工将会抒写内容不符及其驳回理由。
SPR整页审核,按照以下规则进行审核:
·关键词存在同义词(含简称),开词时没有添加到同义词库
·关键词的同义词(含简称)为多义词,开词时添加同义词入库未对同义词加限定
·按关键词的同义词重复制作的SRP
·使用新皮肤(弱化边栏皮肤)左右列长且中列短(凹形页面)相差超过8行条目微件高度
·关键词为多义词,开词时未加分义标注
·分义标注添加错误
·皮肤与SRP细分类别不符
栏目审核同样包括两步,第一步,确定驳回理由,即判断页面的块模块是否符合模块规则,仔细对块内容进行审核;第二步,将块模块的一些常见驳回问题和改进问题和栏目审核一样统一用文字一一罗列出来。
栏目审核,按照以下规则进行审核:
·内容块高度超过600像素
·关键词存在简称或同义词,没有添加到搜索逻辑表达式中
·关键词为多义词,关键词设置项中不加限定
·关键词的同义词(含简称)为多义词,搜索逻辑表达式中同义词没有加限定
·关键词(包括逻辑表达式)设置错误
·使用上一级概念或相关概念(同义词、简称除外)做搜索关键词
·内容块不是自动更新
·内容块的后台设置没有选择“全文+相关性排序”或“标题+时间排序”中的一种
·内容块标题与关键词无关
·内容块标题与其他微件标题有重复
·内容块内容为空
综合审核,包括根据SRP整页审核和栏目审核的审核驳回、改进问题内容综合在一起,结合出现的问题对该词条按照互动、美观、准确、全面分别进行打分,判断词条分数是否符合评分规则,若符合则上线,否则驳回。
综合审核是对以上的整页审核和栏目审核进行组合,显示到综合评审页面,给出一个综合的评分,审核完毕
步骤四、词条审核员审核词条。
在进入词条审核员审核时同样先判断词条是否有这一步骤的免审权限,若词条具有免审权限,则词条直接上线,否则词条正式进入词条审核员审核词条状态。
词条审核员审核类似于内审员审核,包括SRP整页审核、栏目审核和综合审核;判断所述词条审核员审核是否均通过,若均通过则词条审核员审核通过,则词条上线,否则驳回词条,返回步骤一修改词条重新提交。
在上述步骤二、三、四中词条上线后,后续需要在维护抽审中按一定的比例(1%)进行抽审,抽审合格则通过,若抽检出来的词如若不符合要求,那么该词就会被破下线。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (10)

1.一种信息词条的审核方法,其特征在于:所述方法包括以下步骤:
I、获得用户提交的词条;
II、机器审核词条;
III、内审员审核词条;
IV、词条审核员审核词条。
2.如权利要求1所述的一种信息词条的审核方法,其特征在于:所述步骤I包括:用户创建词条;为词条选择皮肤风格,所述皮肤风格包括百科模块,论坛模块,新闻模块,相关链接、图片模块,视频模块,博客模块,微博模块,互动模块;申请上线。
3.如权利要求1所述的一种信息词条的审核方法,其特征在于:所述步骤II包括:判断词条是否满足机器审核规则,所述机器审核规则包括死链过滤策略、SRP页面内容过滤策略和内容模块规则策略;
若所述规则中的策略任一项不通过则驳回词条,记录不通过的规则及原因,返回步骤I修改词条重新提交;若均通过,则进入所述步骤III。
4.如权利要求1所述的一种信息词条的审核方法,其特征在于:所述步骤III包括:判断词条是否具有免审权限,若有则词条直接上线,否则词条进入内审员审核词条状态;
所述内审员审核包括SRP整页审核、栏目审核和综合审核;判断所述内审员审核是否均通过,若均通过则内审通过,进入步骤IV,否则驳回词条,返回步骤I修改词条重新提交。
5.如权利要求1所述的一种信息词条的审核方法,其特征在于:所述步骤IV包括:判断词条是否具有免审权限,若有则词条直接上线,否则词条进入词条审核员审核词条状态;
所述词条审核员审核包括SRP整页审核、栏目审核和综合审核;判断所述词条审核员审核是否均通过,若均通过则词条审核员审核通过,则词条上线,否则驳回词条,返回步骤I修改词条重新提交。
6.如权利要求3、4、5任一项所述的一种信息词条的审核方法,其特征在于:所述词条上线后续在维护抽审中按比例进行抽审,抽审合格则通过,否则词条下线。
7.如权利要求4、5任一项所述的一种信息词条的审核方法,其特征在于:所述SRP整页审核包括判断页面文字、格式是否符合文字规则和格式规则,符合则通过,否则显示改进内容。
8.如权利要求4、5任一项所述的一种信息词条的审核方法,其特征在于:所述栏目审核包括判断页面的块模块是否符合模块规则,符合则通过,否则显示改进内容。
9.如权利要求4、5任一项所述的一种信息词条的审核方法,其特征在于:所述综合审核包括根据所述SRP整页审核和所述栏目审核的改进内容对词条评分,判断词条分数是否符合评分规则,若符合则上线,否则驳回;
所述评分包括互动评分、美观评分、准确评分和全面评分。
10.如权利要求3所示的一种信息词条的审核方法,其特征在于:所述死链过滤策略、SRP页面内容过滤策略、内容模块规则策略分用于别解决人工审核无法查看的死链问题、每个SRP页面内容为空的模板和内容重复的问题、复杂的规则内容模板的内容条数问题和样式压字问题。
CN201310538079.9A 2013-11-04 2013-11-04 一种信息词条的审核方法 Pending CN103544308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310538079.9A CN103544308A (zh) 2013-11-04 2013-11-04 一种信息词条的审核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310538079.9A CN103544308A (zh) 2013-11-04 2013-11-04 一种信息词条的审核方法

Publications (1)

Publication Number Publication Date
CN103544308A true CN103544308A (zh) 2014-01-29

Family

ID=49967760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310538079.9A Pending CN103544308A (zh) 2013-11-04 2013-11-04 一种信息词条的审核方法

Country Status (1)

Country Link
CN (1) CN103544308A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020238567A1 (zh) * 2019-05-30 2020-12-03 华为技术有限公司 一种资源检测方法及装置
CN113537940A (zh) * 2021-07-22 2021-10-22 北京华雨天成文化传播有限公司 基于区块链技术的视听类节目内容审核管理方法及系统
CN114218599A (zh) * 2022-02-22 2022-03-22 飞狐信息技术(天津)有限公司 一种业务数据处理方法及装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035281A (zh) * 2007-04-19 2007-09-12 鲍东山 分级内容审核系统
US20090234819A1 (en) * 2008-03-12 2009-09-17 Miyamoto Kentaro Metadata assigning device, metadata assigning method, and metadata assigning program
CN102314457A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 信息自动审核方法与系统
CN102314458A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 网络百科数据获取方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035281A (zh) * 2007-04-19 2007-09-12 鲍东山 分级内容审核系统
US20090234819A1 (en) * 2008-03-12 2009-09-17 Miyamoto Kentaro Metadata assigning device, metadata assigning method, and metadata assigning program
CN102314457A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 信息自动审核方法与系统
CN102314458A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 网络百科数据获取方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020238567A1 (zh) * 2019-05-30 2020-12-03 华为技术有限公司 一种资源检测方法及装置
CN113537940A (zh) * 2021-07-22 2021-10-22 北京华雨天成文化传播有限公司 基于区块链技术的视听类节目内容审核管理方法及系统
CN114218599A (zh) * 2022-02-22 2022-03-22 飞狐信息技术(天津)有限公司 一种业务数据处理方法及装置、存储介质及电子设备
CN114218599B (zh) * 2022-02-22 2022-05-27 飞狐信息技术(天津)有限公司 一种业务数据处理方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
AU2007290358B2 (en) Systems, methods, software, and interfaces for formatting legal citations
CN103488648B (zh) 一种多语种混合检索方法和系统
CN108829658A (zh) 新词发现的方法及装置
McNeill The diffusion of ideas in development theory and policy
US20110208769A1 (en) Systems and methods for validation of cited authority
CN103729359A (zh) 一种推荐搜索词的方法及系统
CN101609459A (zh) 一种情感特征词提取系统
RU2008142648A (ru) Способ автоматизированной семантической индексации текста на естественном языке, способ автоматизированной семантической индексации коллекции текстов на естественном языке и машиночитаемые носители
CN106528821B (zh) 一种变动列数据导入数据库的方法
CN113051500B (zh) 一种融合多源数据的钓鱼网站识别方法及系统
CN110008309A (zh) 一种短语挖掘方法及装置
CN103544308A (zh) 一种信息词条的审核方法
CN106326498A (zh) 一种作弊视频识别方法及装置
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN112667866A (zh) 一种试卷的生成方法、装置、电子设备及存储介质
CN103778141A (zh) 一种混合pdf图书目录自动抽取算法
CN112948429B (zh) 一种数据报送方法、装置和设备
CN109815337A (zh) 确定文章类别的方法及装置
CN103870590B (zh) 具有报错特征的网页识别方法和装置
Wong et al. Democracy and Accession to GATT/WTO
CN105183633A (zh) 一种测试用例的生成方法及系统
AU2015203283B2 (en) User interface for legal case histories
CN114327607A (zh) 一种bs代码自动生成方法
CN113918705A (zh) 带有预警和推荐功能的投稿审核方法及系统
CN110866407B (zh) 确定互译文本及文本间相似度分析方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170427

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: Beijing Zhongsou Network Technology Co,Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140129