CN106447239A - 一种数据发布的审核方法及装置 - Google Patents

一种数据发布的审核方法及装置 Download PDF

Info

Publication number
CN106447239A
CN106447239A CN201611023322.3A CN201611023322A CN106447239A CN 106447239 A CN106447239 A CN 106447239A CN 201611023322 A CN201611023322 A CN 201611023322A CN 106447239 A CN106447239 A CN 106447239A
Authority
CN
China
Prior art keywords
data
pending trial
review
score value
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611023322.3A
Other languages
English (en)
Other versions
CN106447239B (zh
Inventor
陈建树
王志超
曹欢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Douyin Information Service Co Ltd
Original Assignee
Beijing ByteDance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Technology Co Ltd filed Critical Beijing ByteDance Technology Co Ltd
Priority to CN201611023322.3A priority Critical patent/CN106447239B/zh
Publication of CN106447239A publication Critical patent/CN106447239A/zh
Application granted granted Critical
Publication of CN106447239B publication Critical patent/CN106447239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据发布的审核方法及装置,包括:接收待发布数据,将其作为待审核数据放入审核队列中;对所述审核队列中的所述待审核数据赋予审核优先级分值;根据所述审核优先级分值对所述审核队列进行排序,对排序后的所述待审核数据进行审核。本发明通过对审核队列中的待审核数据赋予审核优先级的分值,进而使得审核队列中的待审核数据是按照审核优先级分值进行排序及优先审核,从而提高审核效率,并且降低审核过程误杀的概率,使放出的评论量更多;影响面更大;被阅读,回复和点赞的概率更大;所述审核方法的过程相当于雇佣更多的审核人员按照简单排序审核评论的效果,在没有增加人力成本的情况下大幅提高的评论的用户体验。

Description

一种数据发布的审核方法及装置
技术领域
本发明涉及计算机互联网技术领域,特别涉及一种数据发布的审核方法及装置。
背景技术
随着互联网技术的普及,在网站或APP上发表评论,或者和其它网友互动,早已成为广大网民除浏览内容之外最主要的上网需求。
网络数据评论的发布一方面能够降低普通公众发表言论的门槛,对政府部门了解民意有很大的帮助;另一方面则会存在一些不良影响,例如:涉嫌违反法律法规的过激言论,恶意引导舆论的网络水军,发布虚假广告信息的恶意用户,格调不高的低俗评论等。
这些不良评论容易引发负面的社会问题,给政府监管部门、网站以及APP的平台运营团队都带来极大的麻烦。为此,对于具有数据评论发布功能的网站或APP都必须花费一定的精力处理所述些不良评论内容。
现有技术中,通过设置相关识别策略来拦截相关数据评论,但通常情况下识别策略要求非常严格,需要做到极高的召回率,方能保证不漏掉不良评论,但其准确性较低。对于大型网站和超级APP,出于用户体验考虑,会有专门的审核团队对被拦截的疑似不良评论做二次确认。如果发现有被误杀的评论数据,可以人工操作放出。对于无力承担审核成本的小型网站和APP,一般情况下会容忍部分正常评论被误杀。
然而,在审核被拦截的疑似不良评论时,待审核评论的排序使得审核团队的审核效率受到较大影响。最常见的排序策略是按照评论发表时间排序,但在实际审核过程中按照评论发表时间排序的策略其审核效率很低。例如:一条被拦截评论发表的时间更早,但是被评论的文章不存在点击量或者点击量较低,审核这条评论后,即使发现所述评论是误杀并成功放出,这条评论存在的意义也不大。反之,如果一条新发的被拦截评论本来是发表在一篇热门文章下面,如果经过审核认为所述评论可以放出,产生的收益就会远大于审核之前那条更老的评论。
基于现有技术存在的问题如何提供一种能够根据数据发布的优先级来实现对所述数据发布的审核成为本领域亟待解决的技术问题。
发明内容
本发明要解决的技术问题是如何提供一种数据发布的审核方法及装置,以解决现有技术中对发布数据审核效率较低的技术问题。
为解决上述技术问题,本发明提供一种数据发布的审核方法,具体包括:
一种数据发布的审核方法,包括:
接收待发布数据,将其作为待审核数据放入审核队列中;
对所述审核队列中的所述待审核数据赋予审核优先级分值;
根据所述审核优先级分值对所述审核队列进行排序,对排序后的所述待审核数据进行审核。
优选的,所述接收待发布数据,将其作为待审核数据放入审核队列中包括:
判断所述待发布数据是否符合发布条件,若是,则发布,若否,则将所述待发布数据作为所述待审核数据放入审核队列,并进入所述对所述待审核数据进行审核优先级分值的步骤。
优选的,所述对所述待审核数据赋予审核优先级分值包括:
预先根据训练数据的数据特征构建优先级评分模型;
根据所述待审核数据的数据特征导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。
优选的,所述数据特征包括:
所述待审核数据本身的特征参数、发表所述待审核数据的用户特征参数和/或与所述待审核数据相对应的数据内容的状态统计参数。
优选的,所述待审核数据本身的特征参数包括:
具有广告词的特征参数和/或具有敏感词的特征参数;
优选的,所述发表所述待审核数据的用户特征参数包括:
发表评论被禁言的次数、距离上次被禁言到当前发表评论为止的时间和/或被禁止评论放出的比例。
优选的,与所述待审核数据相对应的数据内容的状态统计参数包括:
所述数据内容单位时间的阅读量和/或所述数据内容单位时间内所发表评论的点赞量之和。
优选的,所述根据所述审核优先级分值对所述审核队列进行排序,对排序后的所述待审核数据进行审核包括:
在预设时间内检测所述审核队列中的所述待审核数据的所述数据特征是否变化,若变化则进入下一步;
根据所述检测结果对所述待审核数据的审核优先级分值执行更新。
优选的,所述根据所述检测结果对所述待审核数据的审核优先级分值执行更新包括:
判断所述待审核数据的审核优先级分值距离上一次的更新时间是否大于设定的更新时间阈值,若是,则更新所述待审核数据的审核优先级分值;若否,则将所述审核数据放入缓存队列。
优选的,包括:
对更新后的所述待审核数据的审核优先级分值,对所述审核队列进行排序。
一种数据发布的审核装置,包括:
接收模块,用于接收待审核数据,并将其作为待审核数据放入审核队列中;
赋值模块,用于所述审核队列中的所述待审核数据赋予审核优先级分值;
排序审核模块,用于根据所述审核优先级分值对所述审核队列进行排序,并对排序后的所述待审核数据进行审核。
优选的,所述接收模块包括:
拦截模块,拦截所述接收模块中的所述待发布数据是否为疑似不良数据;所述拦截模块包括:判断模块,用于判断所述接收模块中的所述待发布数据是否符合发布条件,若是,则发布;若否,则将所述待发布数据作为待审核数据放入审核队列中,并进入所述赋值模块。
优选的,所述赋值模块包括:
构建模块,用于预先根据训练数据的数据特征构建优先级评分模型;
导出模块,用于根据所述优先级评分模型中导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。
优选的,所述排序审核模块包括:
检测模块,用于在预设时间内检测所述审核队列中的所述待审核数据的所述数据特征是否变化,若变化则进入更新模块;
所述更新模块,用于根据所述检测结果对所述待审核数据的审核优先级分值执行更新。
优选的,所述更新模块包括:
更新时间判断模块,用于判断所述待审核数据的审核优先级分值距离上一次的更新时间是否大于设定的更新时间阈值,若是,则更新所述待审核数据的审核优先级分值;若否,则将所述审核数据放入缓存队列等待更新。
与现有技术相比,本发明的特点在于:通过对审核队列中的待审核数据赋予审核优先级的分值,进而使得审核队列中的待审核数据是按照审核优先级分值进行排序,审核人员能够对较高优先级的待审核数据进行优先审核,从而提高审核效率,并且降低审核过程误杀的概率,使放出的评论量更多;影响面更大;被阅读,回复和点赞的概率更大;所述审核方法的过程相当于雇佣更多的审核人员按照简单排序审核评论的效果,在没有增加人力成本的情况下大幅提高的评论的用户体验。
附图说明
为了更清楚地说明本发明实施例和现有技术中的技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种数据发布的审核方法的流程图;
图2是本发明提供的一种数据发布的审核装置的结构示意图。
具体实施方式
下面将接合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1所示,图1是本发明提供的一种数据发布的审核方法的流程图。
如图1所示,本发明提供的一种数据发布的审核方法包括:
步骤S110:接收待发布数据,将其作为待审核数据放入审核队列中。
在所述步骤S110的具体实现过程中,所述接收待发布数据可以是评论数据信息,即:对文章或对新闻或对某些网络信息发表的评论数据,也或者是基于某些已发表的评论数据发表的评论数据,即:嵌套评论数据;或者是针对已发表评论数据的回复评论数据等等,所述些评论数据可以是文本数据、图形数据和/或语音数据等。
在本实施例中,采用针对文本数据下的评论数据信息的审核过程进行说明,但实际上,在使用本发明提供的数据发布的审核方法,并不仅限于本实施中的内容。
为提高待发布数据的审核效率,在本实施例中,对所述接收发布数据进行判断,即:判断所述待发布数据是否符合发布条件,若是,则发布,若否,则将所述待发布数据作为所述待审核数据放入审核队列,并进入步骤S120中,即:所述对所述待审核数据进行审核优先级分值。也就是说,接收到对某一文本数据(即:文章)的评论数据(即:待发布数据)后,先对所述评论数据进行筛选过滤,判断所述评论数据是否为疑似不良评论,以便将无需进行审核队列的正常评论数据直接发布,进而提高审核效率。
在判断所述待发布的评论数据是否符合发布条件,可以通过基于敏感词命中的简单规则,或者基于敏感词命中次数,位置等额外信息的复杂规则,或者基于文本相似的规则。
通常情况下可以先用敏感词命中做触发,一旦触发后再用一个复杂的机器学习模型对评论打分,比如Logistic Regression,神经网络等。所述机器学习模型需要预先在人工标注的不良评论样本上进行训练,建立评论拦截训练模型。所述评论拦截训练模型在拦截时主要考虑评论的文本内容,或者可以考虑评论发表用户的历史行为。一般来说有过不良行为记录的用户风险更高,即使是在类似的评论数据内容下,这类用户的评论更容易被所述评论拦截训练模型识别为不良评论,并被拦截,并放入审核队列中。
以上仅是对于疑似不良评论的拦截进行简单说明,实际操作过程中,可以选取现有技术中对疑似不良评论的拦截方式,只要是能够将待发布评论数据中存在的疑似不良评论拦截即可,因为拦截的疑似不良评论可能存在有误拦截的情况,因此,还需要对进入审核队列中的疑似不良评论数据进行再次审核,以免发生误杀情况。
步骤S120:对所述待审核数据赋予审核优先级分值。
所述步骤S120的具体实现过程可以是,预先根据训练数据的数据特征构建优先级评分模型,构建所述优先级评分模型可以采用pair-wise算法,具体过程可以是:
具体的,先自动构造数万评论pair然后标注评论pair中那一条应所述被优先审核,不好判断的pair则被丢弃。需要说明的是,此处的判断可以存在两种情况,一种是:当审核队列中的待审核数据为已经被筛选过滤的疑似不良评论数据的情况下,可以将不好判断的pair丢弃;另一种是:当审核队列中的待审核数据没有经过筛选过滤,则可以将没有任何特征的评论数据设定为最高优先级。
比如,如果评论pair中有一条是不良评论,另一条是正常评论,则后一条的审核优先级分值应所述高于前一条的审核优先级分值。再比如,如果评论pair中两条都是正常评论,在单位时间内被点赞更多的评论可以设定为优先审核。如果评论pair中两条都是不良评论,可以设定为丢弃pair。
通过上述规则,得到一定数量的标注pair后,用若干现有的pair-wise学习算法学习任意一个能够把这些pair全部排序正确的排序模型F(x),即给定:x1,x2,如果审核人员认为x1比x2优先级高,F(x1)应所述大于F(x2)。优先级评分模型最后用于给待审核的评论数据分配审核优先级分值,也就是说给定评论x,其优先级为F(x),即:通过审核队列中的评论数据x,可以通过优先级评分模型获知评论x的审核优先级分值F(x)。
在构建优先级评分模型后,根据所述待审核数据的数据特征导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。
再对所述优先级评分模型构建的过程中,可以通过评论数据的数据特征供其构建,并能够通过抽取出审核队列中的待发布评论数据的数据特征得到特征向量,将所述特征向量发送至优先级评分模型中,所述优先级评分模型则会根据特征向量查询到对应的审核优先级分值并导出,从而获得所述待发布评论数据的审核优先级分值。
在本实施例中,所述数据特征可以包括以下形式:
1、所述待审核数据本身的特征参数,即:评论数据本身的特征参数,包括:具有广告词的特征参数和/或具有敏感词的特征参数;具体可以为:机器识别评论是广告的概率,机器识别评论包含脏话的概率,机器识别评论属于人身攻击的概率和/或机器识别评论有色情意味的概率等等。
2、发表所述待审核数据的用户特征参数,即:发表评论数据的用户特征参数,其具体是可以是,用户发表评论被禁言的次数,所述次数可以是统计用户历史发表评论的数据的次数;用户距离最近一次被禁言到当前发表评论为止的时间;和/或,用户被禁止评论数据放出的比例,所述放出比例可以是设定为某一时间端内评论被禁止放出的比例。
3、与所述待审核数据相对应的数据内容的状态统计参数,即:与所述评论数据相对应的文章(数据内容),所述文章已经放出评论的数量;可以理解为对文章冷热程度的判断数据,具体可以是:评论文章(数据内容)单位时间的阅读量和/或评论文章(数据内容)单位时间内所有放出评论的点赞量之和。
需要说明的是,上述数据特征仅为本实施中的举例,实际应用过程中还可以根据审核内容等采用不同的数据特征。所述优先级评分模块是通过待审核数据的数据特征,导出其对应的审核优先级分值。
步骤S130:根据所述审核优先级分值进行排序,对排序后的所述待审核数据进行审核。
所述步骤S130的具体实现过程可以是,根据审核队列中的赋予待审核评论数据审核优先级分值的大小对待审核评论数据进行排序,根据审核要求,按照降序的方式对待审核评论数据进行排序,即:审核优先级分值从大到小排列。
由于在对某一文本数据进行评论时,会在短时间内产生大量的评论数据,审核队列的评论数据量会不断的产生变化,另外,在对已赋予审核优先级分值的评论数据还存在评述数据的数据特征产生变化的情况,例如:点击量和/或阅读量的变化等等,对于已经赋予审核优先级分值的评述数据很有可能发生审核优先级分值的变化,因此,为提高审核效率,保证审核队列中评述数据审核优先级分值能够随数据特征的变化而变化,在本实施例中,所述步骤S130:对审核优先级分值对所述审核队列进行排序,对排序后的所述待审核数据进行审核还包括:
在预设时间内检测所述审核队列中的所述待审核数据的所述数据特征是否变化,若变化则进入下一步;
根据所述检测结果对所述待审核数据的审核优先级分值执行更新。
所述更新的过程可以在原有的审核队列基础上对待审核评论数据的审核优先级分值进行更新,也可以新建一个审核队列将更新后的待审核评论数据的审核优先级分值进行存储,在更新完毕后将就的审核队列删除。
可以理解的是,对一篇文章的评论数据可能在短时间内容生产大量评论数据,而数据特征的变化也发生大量变化,不断的更新优先级分值会对审核人员的审核工作带来困扰,因此,可以通过设定一个更新时间阈值,在更新时间阈值到达后才进行更新,进而提高审核工作的效率。具体可以是:
判断所述待审核数据的审核优先级分值距离上一次的更新时间是否大于设定的更新时间阈值,若是,则更新所述待审核数据的审核优先级分值;若否,则将所述审核数据放入缓存队列。
在本实施例中,更新时间的阈值可以根据通常情况下的审核数据变化量的平均值来设定,也可以根据实际审核工作的时间要求来设定。
在更新后,需要根据更新后的所述待审核数据的审核优先级分值,重新对所述审核队列进行排序,以便审核人员根据最新优先级情况对待审核评论数据进行审核。
可以理解是,在对于放入缓存队列的待审核评论数据当到达更新时间后,其优先权分值会被更新,并放入审核队列中,之后删除缓存队列中的待审核评论数据,对更新后的待审核评论数据的排序也会随之重新排序。在本实施例中,更新审核队列的过程可以新建一个审核队列,所述审核队列可以包括旧审核队列中的评论和缓存队列中的评论,建好后新的审核队列后,审核人员通过新的审核队列对待审核评论数据进行审核,并删除旧的审核队列。
需要说明的是,对于具有审核优先级分值的审核队列,在审核人员审核的显示画面中使将审核优先级分值从高到低显示,进而便于审核人员将审核优先级分值较高的评述数据进行优先审核。
以上为本发明提供的一种数据发布的审核方法的具体实现过程的描述,所述方法能够提高审核效率,并且能够使放出的评论量更多,影响面更大,被阅读,回复和点赞的概率更大,采用所述审核方法的效果相当于雇佣更多的审核人员按照简单排序审核评论的效果,在没有增加人力成本的情况下大幅提高的评论的用户体验。
基于上述本发明提供的一种数据发布的审核方法,本发明还提供一种与数据发布的审核方法相对应的数据发布的审核装置,因为所述数据发布的审核装置与数据发布的审核方法相对应,因此仅为示意性的描述,所述装置的具体实现过程及内容可以参考方法的描述。
请参考图2所示,图2是本发明提供的一种数据发布的审核装置的结构示意图。
如图2所示,本发明提供的一种数据发布的审核装置包括:
接收模块201,用于接收待审核数据,并将其作为待审核数据放入审核队列中;
赋值模块202,用于所述审核队列中的所述待审核数据赋予审核优先级分值;
排序审核模块203,用于根据所述审核优先级分值对所述审核队列进行排序,并对排序后的所述待审核数据进行审核。
其中,所述接收模块201,包括:
拦截模块,用于拦截所述接收模块中的所述待发布数据是否为疑似不良数据,所述拦截模块包括:判断模块,用于判断所述接收模块中的所述待发布数据是否符合发布条件,若是,则发布;若否,则将所述待发布数据作为待审核数据放入审核队列中,并进入所述赋值模块。
所述赋值模块202包括:
构建模块,用于预先根据训练数据的数据特征构建优先级评分模型;
导出模块,用于根据所述优先级评分模型中导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。
所述排序审核模块203包括:
检测模块,用于在预设时间内检测所述审核队列中的所述待审核数据的所述数据特征是否变化,若变化则进入更新模块;
所述更新模块,用于根据所述检测结果对所述待审核数据的审核优先级分值执行更新。
所述更新模块包括:
更新时间判断模块,用于判断所述待审核数据的审核优先级分值距离上一次的更新时间是否大于设定的更新时间阈值,若是,则更新所述待审核数据的审核优先级分值;若否,则将所述审核数据放入缓存队列等待更新。
可以理解的是,本发明提供的一种数据发布的审核装置,还可以包括:交互模块,用于将具有审核优先级分值的审核队列显示供审核人员审核,判断对应的待审核评论数据是否可以放出。
以上所述仅为本发明提供的一种数据发布的审核方法及装置的优选实施方式,并不构成对本发明保护范围的限定。所述实施例中的部件数量并不局限于实施例中所采用的方式,任何在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (15)

1.一种数据发布的审核方法,其特征在于,包括:
接收待发布数据,将其作为待审核数据放入审核队列中;
对所述审核队列中的所述待审核数据赋予审核优先级分值;
根据所述审核优先级分值对所述审核队列进行排序,对排序后的所述待审核数据进行审核。
2.根据权利要求1所述的数据发布的审核方法,其特征在于,所述接收待发布数据,将其作为待审核数据放入审核队列中包括:
判断所述待发布数据是否符合发布条件,若是,则发布,若否,则将所述待发布数据作为所述待审核数据放入审核队列,并进入所述对所述待审核数据进行审核优先级分值的步骤。
3.根据权利要求1或2任意一项所述的数据发布的审核方法,其特征在于,所述对所述待审核数据赋予审核优先级分值包括:
预先根据训练数据的数据特征构建优先级评分模型;
根据所述待审核数据的数据特征导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。
4.根据权利要求3所述的数据发布的审核方法,其特征在于,所述数据特征包括:
所述待审核数据本身的特征参数、发表所述待审核数据的用户特征参数和/或与所述待审核数据相对应的数据内容的状态统计参数。
5.根据权利要求4所述的数据发布的审核方法,其特征在于,所述待审核数据本身的特征参数包括:
具有广告词的特征参数和/或具有敏感词的特征参数。
6.根据权利要求4所述的数据发布的审核方法,其特征在于,所述发表所述待审核数据的用户特征参数包括:
发表评论被禁言的次数、距离上次被禁言到当前发表评论为止的时间和/或被禁止评论放出的比例。
7.根据权利要求4所述的数据发布的审核方法,其特征在于,与所述待审核数据相对应的数据内容的状态统计参数包括:
所述数据内容单位时间的阅读量和/或所述数据内容单位时间内所发表评论的点赞量之和。
8.根据权利要求1所述的数据发布的审核方法,其特征在于,所述根据所述审核优先级分值对所述审核队列进行排序,对排序后的所述待审核数据进行审核包括:
在预设时间内检测所述审核队列中的所述待审核数据的所述数据特征是否变化,若变化则进入下一步;
根据所述检测结果对所述待审核数据的审核优先级分值执行更新。
9.根据权利要求8所述的数据发布的审核方法,其特征在于,所述根据所述检测结果对所述待审核数据的审核优先级分值执行更新包括:
判断所述待审核数据的审核优先级分值距离上一次的更新时间是否大于设定的更新时间阈值,若是,则更新所述待审核数据的审核优先级分值;若否,则将所述审核数据放入缓存队列。
10.根据权利要求8或9任意一项所述的数据发布的审核方法,其特征在于,包括:
对更新后的所述待审核数据的审核优先级分值,对所述审核队列进行排序。
11.一种数据发布的审核装置,其特征在于,包括:
接收模块,用于接收待审核数据,并将其作为待审核数据放入审核队列中;
赋值模块,用于所述审核队列中的所述待审核数据赋予审核优先级分值;
排序审核模块,用于根据所述审核优先级分值对所述审核队列进行排序,并对排序后的所述待审核数据进行审核。
12.根据权利要求11所述的数据发布的审核装置,其特征在于,所述接收模块包括:
拦截模块,拦截所述接收模块中的所述待发布数据是否为疑似不良数据;所述拦截模块包括:判断模块,用于判断所述接收模块中的所述待发布数据是否符合发布条件,若是,则发布;若否,则将所述待发布数据作为待审核数据放入审核队列中,并进入所述赋值模块。
13.根据权利要求11或12所述的数据发布的审核装置,其特征在于,所述赋值模块包括:
构建模块,用于预先根据训练数据的数据特征构建优先级评分模型;
导出模块,用于根据所述优先级评分模型中导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。
14.根据权利要求11所述的数据发布的审核装置,其特征在于,所述排序审核模块包括:
检测模块,用于在预设时间内检测所述审核队列中的所述待审核数据的所述数据特征是否变化,若变化则进入更新模块;
所述更新模块,用于根据所述检测结果对所述待审核数据的审核优先级分值执行更新。
15.根据权利要求14所述的数据发布的审核装置,其特征在于,所述更新模块包括:
更新时间判断模块,用于判断所述待审核数据的审核优先级分值距离上一次的更新时间是否大于设定的更新时间阈值,若是,则更新所述待审核数据的审核优先级分值;若否,则将所述审核数据放入缓存队列等待更新。
CN201611023322.3A 2016-11-21 2016-11-21 一种数据发布的审核方法及装置 Active CN106447239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611023322.3A CN106447239B (zh) 2016-11-21 2016-11-21 一种数据发布的审核方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611023322.3A CN106447239B (zh) 2016-11-21 2016-11-21 一种数据发布的审核方法及装置

Publications (2)

Publication Number Publication Date
CN106447239A true CN106447239A (zh) 2017-02-22
CN106447239B CN106447239B (zh) 2020-09-29

Family

ID=58220442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611023322.3A Active CN106447239B (zh) 2016-11-21 2016-11-21 一种数据发布的审核方法及装置

Country Status (1)

Country Link
CN (1) CN106447239B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109286667A (zh) * 2018-09-25 2019-01-29 北京点网聚科技有限公司 用户账号管理方法及装置
CN109639836A (zh) * 2019-01-28 2019-04-16 上海易点时空网络有限公司 用于社区的内容发布处理方法、客户端、服务器
CN109862091A (zh) * 2019-01-28 2019-06-07 上海易点时空网络有限公司 用于社区的内容发布处理方法及装置
CN110087118A (zh) * 2019-04-26 2019-08-02 北京达佳互联信息技术有限公司 评论消息处理方法、装置、终端、服务器及介质
CN110209795A (zh) * 2018-06-11 2019-09-06 腾讯科技(深圳)有限公司 评论识别方法、装置、计算机可读存储介质和计算机设备
CN110225373A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种视频审核方法、装置及电子设备
CN110413842A (zh) * 2019-07-29 2019-11-05 北京小川在线网络技术有限公司 基于舆情态势感知的内容审核方法系统电子设备及介质
CN110765596A (zh) * 2019-10-10 2020-02-07 北京字节跳动网络技术有限公司 审核过程仿真模型建模方法、装置及电子设备
CN110990166A (zh) * 2019-11-15 2020-04-10 上海易点时空网络有限公司 用于内容发布的数据处理方法及装置
CN111327609A (zh) * 2020-02-14 2020-06-23 北京奇艺世纪科技有限公司 数据审核方法及装置
CN112732895A (zh) * 2018-03-26 2021-04-30 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN113627883A (zh) * 2021-08-09 2021-11-09 杜量 一种云定制招聘会方法及系统
CN114218599A (zh) * 2022-02-22 2022-03-22 飞狐信息技术(天津)有限公司 一种业务数据处理方法及装置、存储介质及电子设备
CN114710692A (zh) * 2022-03-22 2022-07-05 上海哔哩哔哩科技有限公司 多媒体文件处理方法和装置
CN114996165A (zh) * 2022-08-01 2022-09-02 飞狐信息技术(天津)有限公司 一种业务数据审核方法及装置、存储介质及电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070168959A1 (en) * 2005-11-29 2007-07-19 International Business Machines Corporation Method and system for reviewing text files using distributable review data packets
CN101248450A (zh) * 2005-06-29 2008-08-20 谷歌公司 通过例如在广告系统中使用预期收益来按优先顺序排列广告审核
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN103020140A (zh) * 2012-11-21 2013-04-03 合一网络技术(北京)有限公司 一种对互联网用户评论内容自动过滤的方法和装置
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN103874058A (zh) * 2014-03-28 2014-06-18 中国联合网络通信集团有限公司 短信处理方法及短信中心
CN104580529A (zh) * 2015-02-03 2015-04-29 郑州悉知信息技术有限公司 一种信息审核方法及装置
US9092434B2 (en) * 2007-01-23 2015-07-28 Symantec Corporation Systems and methods for tagging emails by discussions
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法
CN105682059A (zh) * 2015-12-24 2016-06-15 努比亚技术有限公司 一种信息拦截方法及装置
CN106055701A (zh) * 2016-06-21 2016-10-26 武汉斗鱼网络科技有限公司 一种论坛内容审核发布方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101248450A (zh) * 2005-06-29 2008-08-20 谷歌公司 通过例如在广告系统中使用预期收益来按优先顺序排列广告审核
US20070168959A1 (en) * 2005-11-29 2007-07-19 International Business Machines Corporation Method and system for reviewing text files using distributable review data packets
US9092434B2 (en) * 2007-01-23 2015-07-28 Symantec Corporation Systems and methods for tagging emails by discussions
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN103020140A (zh) * 2012-11-21 2013-04-03 合一网络技术(北京)有限公司 一种对互联网用户评论内容自动过滤的方法和装置
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN103874058A (zh) * 2014-03-28 2014-06-18 中国联合网络通信集团有限公司 短信处理方法及短信中心
CN104580529A (zh) * 2015-02-03 2015-04-29 郑州悉知信息技术有限公司 一种信息审核方法及装置
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法
CN105682059A (zh) * 2015-12-24 2016-06-15 努比亚技术有限公司 一种信息拦截方法及装置
CN106055701A (zh) * 2016-06-21 2016-10-26 武汉斗鱼网络科技有限公司 一种论坛内容审核发布方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐祖迎: "《以互联网为媒介的冲突管理 基于网络动员的视角》", 30 June 2016 *
董向慧: "《微博如何改变社会:社交媒体与社会风习研究》", 31 May 2016 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732895B (zh) * 2018-03-26 2024-01-19 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN112732895A (zh) * 2018-03-26 2021-04-30 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN110209795A (zh) * 2018-06-11 2019-09-06 腾讯科技(深圳)有限公司 评论识别方法、装置、计算机可读存储介质和计算机设备
CN109286667A (zh) * 2018-09-25 2019-01-29 北京点网聚科技有限公司 用户账号管理方法及装置
CN109286667B (zh) * 2018-09-25 2022-07-01 北京一点网聚科技有限公司 用户账号管理方法及装置
CN109862091B (zh) * 2019-01-28 2021-11-09 上海易点时空网络有限公司 用于社区的内容发布处理方法及装置
CN109639836A (zh) * 2019-01-28 2019-04-16 上海易点时空网络有限公司 用于社区的内容发布处理方法、客户端、服务器
CN109862091A (zh) * 2019-01-28 2019-06-07 上海易点时空网络有限公司 用于社区的内容发布处理方法及装置
CN109639836B (zh) * 2019-01-28 2022-02-01 上海易点时空网络有限公司 用于社区的内容发布处理方法、客户端、服务器
CN110087118A (zh) * 2019-04-26 2019-08-02 北京达佳互联信息技术有限公司 评论消息处理方法、装置、终端、服务器及介质
CN110087118B (zh) * 2019-04-26 2022-01-21 北京达佳互联信息技术有限公司 评论消息处理方法、装置、终端、服务器及介质
CN110225373A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种视频审核方法、装置及电子设备
CN110413842A (zh) * 2019-07-29 2019-11-05 北京小川在线网络技术有限公司 基于舆情态势感知的内容审核方法系统电子设备及介质
CN110413842B (zh) * 2019-07-29 2021-07-27 北京小川在线网络技术有限公司 基于舆情态势感知的内容审核方法系统电子设备及介质
CN110765596A (zh) * 2019-10-10 2020-02-07 北京字节跳动网络技术有限公司 审核过程仿真模型建模方法、装置及电子设备
CN110990166A (zh) * 2019-11-15 2020-04-10 上海易点时空网络有限公司 用于内容发布的数据处理方法及装置
CN111327609A (zh) * 2020-02-14 2020-06-23 北京奇艺世纪科技有限公司 数据审核方法及装置
CN113627883A (zh) * 2021-08-09 2021-11-09 杜量 一种云定制招聘会方法及系统
CN114218599A (zh) * 2022-02-22 2022-03-22 飞狐信息技术(天津)有限公司 一种业务数据处理方法及装置、存储介质及电子设备
CN114218599B (zh) * 2022-02-22 2022-05-27 飞狐信息技术(天津)有限公司 一种业务数据处理方法及装置、存储介质及电子设备
CN114710692A (zh) * 2022-03-22 2022-07-05 上海哔哩哔哩科技有限公司 多媒体文件处理方法和装置
CN114710692B (zh) * 2022-03-22 2024-03-01 上海哔哩哔哩科技有限公司 多媒体文件处理方法和装置
CN114996165A (zh) * 2022-08-01 2022-09-02 飞狐信息技术(天津)有限公司 一种业务数据审核方法及装置、存储介质及电子设备
CN114996165B (zh) * 2022-08-01 2022-12-13 飞狐信息技术(天津)有限公司 一种业务数据审核方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN106447239B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN106447239A (zh) 一种数据发布的审核方法及装置
CN107566358A (zh) 一种风险预警提示方法、装置、介质及设备
CN102591854B (zh) 针对文本特征的广告过滤系统及其过滤方法
CN103299304B (zh) 分类规则生成装置和分类规则生成方法
CN102098332B (zh) 一种内容审核方法和装置
CN108519970A (zh) 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN103176981B (zh) 一种事件信息挖掘并预警的方法
CN102419777B (zh) 一种互联网图片广告过滤系统及其过滤方法
CN107437038A (zh) 一种网页篡改的检测方法及装置
CN103064987A (zh) 一种虚假交易信息识别方法
CN110704572A (zh) 疑似非法集资风险的预警方法、装置、设备和存储介质
CN107169629A (zh) 一种电信诈骗识别方法及数据处理设备
CN104702492A (zh) 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN106709370B (zh) 一种基于文本内容的长词识别方法及系统
CN110880142B (zh) 一种风险实体获取方法及装置
CN103037339A (zh) 一种基于“用户信誉度和短信垃圾度”的短信息过滤方法
CN110781308A (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN105824805B (zh) 一种识别方法及装置
CN106971344A (zh) 保额控制方法和系统
CN107122432A (zh) 企业社会责任分析方法、装置和系统
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN115577172A (zh) 物品推荐方法、装置、设备及介质
CN108920909B (zh) 仿冒移动应用程序判别方法及系统
CN108243046A (zh) 一种基于数据稽核的业务质量评估方法及装置
CN113535848A (zh) 基于区块链的征信等级确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant