CN110245212A - 一种内容审核方法及装置 - Google Patents

一种内容审核方法及装置 Download PDF

Info

Publication number
CN110245212A
CN110245212A CN201910350754.2A CN201910350754A CN110245212A CN 110245212 A CN110245212 A CN 110245212A CN 201910350754 A CN201910350754 A CN 201910350754A CN 110245212 A CN110245212 A CN 110245212A
Authority
CN
China
Prior art keywords
word
content
intersection
pending
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910350754.2A
Other languages
English (en)
Inventor
王猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910350754.2A priority Critical patent/CN110245212A/zh
Publication of CN110245212A publication Critical patent/CN110245212A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本说明书实施例提供了一种内容审核方法,对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合,从第一词语合集中过滤属于预设风险词库的第一词语以及过滤属于预设信任词库的第二词语,形成第二词语合集,输出第二词语合集中的词语,并接收用户针对第二词语合集中的词语的审核结果。再基于第二词语合集中的词语的审核结果,确定与第二词语合集中的词语关联的待审核内容的审核结果。这样,可以有效减少审核人员需要人工审核的词汇量,并根据人工审核的结果,确定待审核内容的审核结果,有效减少审核人员的工作量,进一步提高审核效率。

Description

一种内容审核方法及装置
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种内容审核方法及装置。
背景技术
随着互联网的快速发展,越来越多的信息可以通过网络发布,用户可通过终端设备观看到这些发布的信息。目前,有很多场景需要人工对发布内容进行审核。例如,在购物平台中,商户发布一些商品介绍内容,这些内容会显示到用户端。为了保证商户发布内容的安全性,需要对内容进行人工审核。由于平台中发布的内容较多,人工审核的工作量较大,审核效率较低。
发明内容
本说明书实施例提供及一种内容审核方法及内容审核装置。
第一方面,本说明书实施例提供一种内容审核方法,包括:
对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合;
从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语,形成第二词语合集;
输出所述第二词语合集中的词语,并接收用户针对所述第二词语合集中的词语的审核结果;
基于所述第二词语合集中的词语的审核结果,确定与所述第二词语合集中的词语关联的待审核内容的审核结果。
第二方面,本说明书实施例提供一种内容审核装置,包括:
处理单元,用于对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合;
过滤单元,用于从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语,形成第二词语合集;
输出单元,用于输出所述第二词语合集中的词语,并接收用户针对所述第二词语合集中的词语的审核结果;
审核单元,用于基于所述第二词语合集中的词语的审核结果,确定与所述第二词语合集中的词语关联的待审核内容的审核结果。
第三方面,本说明书实施例提供一种内容审核装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述内容审核方法的步骤。
第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述内容审核方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例中,首先对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合,由于将多个待审核内容的分词合并起来进行批量审核,可以提高审核人员的审核效率。进一步,属于预设风险词库和属于预设信任词库的词语均可通过机器自动进行审核,所以,第一词语合集中过滤属于预设风险词库的第一词语以及过滤属于预设信任词库的第二词语,形成第二词语合集,输出第二词语合集中的词语,并接收用户针对所述第二词语合集中的词语的审核结果,最后,可根据用户针对第二词语集合中的审核结果,确定与第二词语集合中词语关联的待审核内容的。这样,可以有效减少审核人员需要人工审核的词汇量,并根据人工审核的结果,确定待审核内容的审核结果,有效减少审核人员的工作量,提高审核效率。
附图说明
图1本说明书实施例第一方面内容审核方法流程图;
图2本说明书实施例第一方面内容审核方法完整实施过程示意图;
图3本说明书实施例第二方面内容审核装置结构示意图;
图4本说明书实施例第三方面内容审核装置结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
第一方面,本说明书实施例提供一种内容审核方法,请参考图1包括步骤S101-S103。
S101:对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合;
S102:从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语,形成第二词语合集;
S103:输出所述第二词语合集中的词语,并接收用户针对第二词语合集中的词语的审核结果;
S104:基于所述第二词语合集中的词语的审核结果,确定与所述第二词语合集中的词语关联的待审核内容的审核结果。
具体的,本实施例中的方法可以应用于需要进行内容发布的平台,例如:购物平台、新闻发布平台、广告投放平台等。由于在进行内容发布时,需要对发布内容进行内容审核,确保发布至平台的内容是安全的。
目前有不少系统化、在线化的工单系统,可以为人工审核生成标准的工单,工单很好地解决了审核的管理、流程等问题。但在工单量比较多的情况下,仍然需要每个工单去一一审核,工作量比较大,所以如何提升人工审核效率是亟待解决的问题。本实施例才用了工单系统的审核模式,每个待审核内容对应一个工单,为了提高审核效率,本实施例中的方案采用批量审核的方式。即针对多个工单,进行批量审核。
首先,通过步骤S101,对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合。
在该步骤中,一种情况是,针对不同审核人员负责审核的工单的业务属性不同,多个待审核内容可以是对应的同一业务属性的待审核内容。比如:审核人员A负责审核业务A相关的工单,审核人员B负责审核业务B相关的工单,所以,可以集合多个业务属性相同的待审核内容进行批量审核。将业务A相关的待审核内容合并一起审核,机器不能审核的第二词语合集输出至审核人员A。同理,将业务B相关的待审核内容合并一起审核,机器不能审核的第二词语合集输出至审核人员B。
另一种情况,不同审核要求的审核内容对应的预设风险词库和预设信任词库所包含的词汇不同,所以,可获得待审核内容对应的审核要求,将审核要求一致的待审核内容集合在一起进行批量审核。
针对步骤S102中进行批量审核的多个待审核内容,对每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合。
具体的,可通过如下步骤实现:将各个待审核内容对应的分词中重复的分词进行合并后与不重复的分词组合形成第一词语合集,所述第一词语合集中各个词语互不相同,每个词语关联有与之对应的待审核内容。
具体的,将每个待审核内容进行分词处理后,将各个待审核内容对应的分词进行合并,针对重复的分词,合并为一个,这样就形成了第一词语合集。在第一词语合集中,每个词语关联有与之对应的待审核内容,比如:词语A关联当审核内容1和待审核内容3,表明该词语A分别在待审核内容1和待审核内容3中出现。这样,重复的词语合并为一个后,可以有效减少审核人员需要审核的词汇量。
当然,在具体实施过程中,还可以将各个待审核内容对应的分词进行直接拼接的方式进行合并。比如:待审核内容2对应的分词拼接至待审核内容1对应的分词后,依次类推,形成第一词语合集。
进而,在得到第一词语合集后,采用步骤S102,从第一词语合集中过滤掉属于预设风险词库的第一词语和属于预设信任词库的第二词语。
具体的,在本实施例中,属于预设风险词库和属于预设信任词库的词语均可通过机器自动进行审核。所以,审核人员无需对这些词语进行人工审核,所以,可以从第一词语合集中过滤掉属于预设风险词库和属于预设信任词库的词语,形成第二词语合集。这样,审核人员仅需要审核第二词语合集中的词,有效减少了审核人员审核的词量,提高了审核效率。
进一步,在通过步骤S102对第一词语合集进行过滤时,可以先采用预设风险词库进行过滤,再采用预设信任词库对其进行过滤。预设风险词库中存储有多个预先标记好的风险词,预设信任词库存储有预先标记好的安全词。
具体的,可从第一词语合集中确定出属于预设风险词库的第一词语,进而,在确定出第一词语后,针对第一词语,采用如下审核策略:
从所述多个待审核内容确定出与所述第一词语关联的第一待审核内容;将所述第一待审核内容标记为风险内容。
具体的,在本实施例中,针对前述形成第一词语合集的过程可知,第一词语合集中的每个词语均关联有与之对应的待审核内容,这样,在得到属于预设风险词库的第一词语后,确定与第一词语关联的待审核内容,将这些待审核内容标记为风险内容,系统可以拒绝该待审核内容的发布请求。
进而,在过滤了属于预设风险词库的第一词语后,还会过滤掉属于预设信息词库的第二词语,形成第二词语合集。
针对属于预设信任词库的第二词语的审核策略,可通过如下步骤实现:
从所述多个待审核内容除去所述第一待审核内容后,从剩余的待审核内容中确定出与所述第二词语合集中的词语关联的第二待审核内容;将所述多个待审核内容除去所述第一待审核内容和所述第二审核内容后,将剩余的待审核内容标记为安全内容。
具体的,在本实施例中,可确定与第二词语合集中的词语关联的待审核内容,从中的待审核内功去除前述与第一词语关联的风险内容以及与第二词语合集关联的需要审核人员进一步审核的待审核内容后,剩余的就是词语全部属于预设信息词库的待审核内容,将这些待审核内容标记为安全内容,系统可通过该待审核内容的发布请求,将其发布至平台。
举例来说,第一词语合集中包括A1~A10共计10个词语,其中,A1关联待审核内容1,A2关联待审核内容3,A3关联待审核内容1~待审核内容5,A4关联待审核内容1~待审核内容4,A5关联待审核内容2、待审核内容3,A6关联待审核内容2、待审核内容3,A7关联待审核内容2、待审核内容5,A9关联待审核内容1、待审核内容4,A10关联待审核内容1、待审核内容3。其中,A1和A2属于预设风险词库,A3~A8属于预设信任词库,这样,第二词语合集包括词语A9、A10。通过A1和A2确定待审核内容1和待审核内容3为风险内容,从待审核内容1~待审核内容5中除去待审核内容1和待审核内容3后,还剩下待审核内容2、待审核内容4和待审核内容5,然后,待审核内容2、待审核内容4和待审核内容5中与A9、A10关联的仅为待审核内容4。从待审核内容1~待审核内容5中除去待审核内容1、待审核内容3、待审核内容4后,还剩下待审核内容2和待审核内容5,将待审核内容2和待审核内容5标记为安全内容,其包含的全是预设信任词库的词。对其进行验证,待审核内容2关联的是A5、A6、A7,全是预设安全词库中的词。待审核内容5关联的是A3、A7,也全是预设安全词库中的词。
当然,在具体实施过程中,从多个待审核内容中去风险内容后,可以直接针对剩下的每一个待审核内容,确定其包含的词语是否全部属于预设信任词库,如果全部属于预设信任词库,将其标记为安全内容。
进一步,在通过步骤S102对第一词语合集进行过滤时,可以先采用预设安全词库进行过滤,再采用预设风险词库对其进行过滤。具体的,可从第一词语合集中确定出属于预设信任词库的第二词语,进而,在确定出第二词语后,针对第二词语,采用如下审核策略:
从所述多个待审核内容确定出仅包括属于预设信任词库中的词语的待审核内容;将仅包括属于预设信任词库中的词语的待审核内容标记为安全内容。
具体的,在本实施例中,针对前述形成第一词语合集的过程可知,第一词语合集中的每个词语均关联有与之对应的待审核内容,这样,在得到属于预设安全词库的第二词语后,确定仅与第二词语关联的待审核内容,表示这些待审核内容仅包含了安全的词语,将这些待审核内容标记为安全内容,系统可以通过该待审核内容的发布请求。
进而,在过滤了属于预设信任词库的第二词语后,还会过滤掉属于预设风险词库的第一词语,形成第二词语合集。
针对属于预设信任词库的第一词语的审核策略,可通过如下步骤实现:
从多个待审核内容除去标记为安全内容的待审核内容后,从剩余的待审核内容中确定出与第一词语关联的第一待审核内容,将所述第一待审核内容标记为风险内容。
具体的,在本实施例中,第一词语合集中的每个词语均关联有与之对应的待审核内容,这样,在得到属于预设风险词库的第一词语后,从多个待审核内容除去标记为安全内容的待审核内容后剩余的待审核内容中确定与第一词语关联的待审核内容,将这些待审核内容标记为风险内容,系统可以拒绝该待审核内容的发布请求。
进而,通过步骤S103,输出第二词语合集中的词语,相关的审核人员针对第二词语合集中的词语进行审核,反馈审核结果。
具体的,可以在输出第二词语合集后,可以接收到审核人员针对第二词语合集的审核结果,审核人员可以对第二词语合集中风险词语进行标记,审核结果中包括第二词语合集中哪些词语是风险词语,剩下的就是安全词语。或者,审核人员可以对第二词语合集中安全词语进行标记,审核结果中包括第二词语合集中哪些词语是安全词语,剩下的就是风险词语。或者,审核人员可以对第二词语合集中风险词语和安全词语分别进行标记,审核结果中包括第二词语合集中哪些词语是风险词语,哪些词语是安全词语。
进而,根据审核结果确定出哪些属于风险词,哪些属于安全词,将确定出的风险词语添加至预设风险词库,以完善风险词库的构建,使得风险词库更加全面,在下一次审核时,如果待审核内容中包括了之前加入预设风险词库的风险词,可直接通过机器对其进行审核判定为风险内容,后续就无需进行人工审核了,能够对审核系统进行不断优化,使得审核的效率不断提高。
进一步,通过步骤S104,基于用户针对二词语合集中的词语的审核结果,确定与第二词语合集中的词语关联的待审核内容的审核结果。具体的,可以基于第二词语合集中的词语的审核结果,从第二词语合集中确定出风险词语,将与风险词语关联的待审核内容标记为风险内容。
其中,从第二词语合集中确定出风险词语的具体过程参见前述实施例,进而,针对第二词语合集中风险词语,从除去前述标记为风险内容和安全内容后剩余的待审核内容中确定与风险词语关联的待审核内容,将其标记为风险内容。
同理,根据用户针对第二词语合集中的词语的审核结果,可以确定出第二词语合集中的安全词语,这样,将安全词语添加至预设信任词库。并且,从与所述第二词语合集关联的待审核内容中除去标记为风险内容的待审核内容后,将剩余的待审核内容标记为安全内容。
具体的,在本实施例中,在根据审核结果确定出哪些属于风险词,哪些属于安全词后,将确定出的安全词语添加至预设信任词库,以完善信任词库的构建,使得信任词库更加全面,在下一次审核时,如果待审核内容中全部包括了包含之前加入预设信任词库的安全词,可直接通过机器对其进行审核判定为安全内容,后续就无需进行人工审核了,能够对审核系统进行不断优化,使得审核的效率不断提高。
进一步,通过步骤S104,基于用户针对二词语合集中的词语的审核结果,确定与第二词语合集中的词语关联的待审核内容的审核结果。具体的,确定第二词语合集中的词语关联待审核内容中除去通过前述方式标记为风险内容的待审核内容后的剩余的待审核内容,将剩余的内容标记为安全内容。
沿用前述示例,第一词语合集中包括A1~A10共计10个词语,其中,A1关联待审核内容1,A2关联待审核内容3,A3关联待审核内容1~待审核内容5,A4关联待审核内容1~待审核内容4,A5关联待审核内容2、待审核内容3,A6关联待审核内容2、待审核内容3,A7关联待审核内容2、待审核内容5,A9关联待审核内容1、待审核内容4,A10关联待审核内容1、待审核内容3。
其中,A1属于预设风险词库,A3~A8属于预设信任词库,这样,第二词语合集包括词语A2、A9、A10。通过A1确定待审核内容1为风险内容,从待审核内容1~待审核内容5中除去待审核内容1后,还剩下待审核内容2~待审核内容5,然后,待审核内容2~待审核内容5中与A2、A9、A10关联的为待审核内容3和待审核内容4。从待审核内容1~待审核内容5中除去待审核内容1、待审核内容3、待审核内容4后,还剩下待审核内容2和待审核内容5,将待审核内容2和待审核内容5标记为安全内容。
进而,针对第二词语合集包括词语A2、A9、A10,审查人员将A9标记为风险,将A2、A10标记为安全,将A9加入预设风险词库,将A2、A10加入预设安全词库。针对A9关联的待审核内容1、待审核内容4,由于待审核内容1已经通过前面的A1确定其为风险内容,则将待审核内容4标记为风险内容。这样,待审核内容1~待审核内容5中,待审核内容1和待审核内容4已经标记为风险内容,待审核内容2和待审核内容5已经标记为安全内容,剩下了待审核内容3,其与A2关联,将其标记为安全内容。
在另一种方式中,针对审核人员人工标记后的第二词语合集的词语,如果还未被标记的待审核内容,如果全部仅包含了预设安全词库中的词语和人工标记为安全的词语,则将其标记为安全内容,如果待审核内容包含任意一个预设风险词库的词语或被审核人员标记为风险的词,将其标记为风险内容。
下面以一个完整的实施例对本申请中的审核方法进行阐述,请参见图2,每个待审核内容对应一个审核工单,将每个审核工单进行分词处理后,将其进行合并在一起,形成了多工单词语合集,再通过风险词库进行自动审核,,判断是否有命中风险词库中的风险词,如果有,将与命中的风险词关联的审核工单批量拒绝,然后,针对剩余的审核工单,是否有未在信任词库中的词语,如果否,表明该审核工单的所以词语均属于信任词库,将这些工单批量审批通过。针对即未在风险词库,又未在信任词库中的词,输出供审核人员进行批量人工审核。通过审核人员人工判定风险的词,将与该人工标记的风险的词关联的工单进行批量拒绝,并将这些风险词维护到风险词库。通过审核人员人工判定无风险的词,将这些无风险词维护到信任词库。除去前面被拒绝和通过的工单,剩余的工单也是安全的,批量通过。
本实施例中的内容审核方法,通过让多个待审核内容合并起来进行批量审核的方式,快速提升审核效率。同时,除了维护预设风险词库,再维护一个预设信任词库,对于未在预设风险词库和预设信任词库的词语视为可疑词语,进行人工审核,提升安全性,然后在人工审核后,自动将对应的风险词维护到预设风险词库以及将安全词维护至预设信任词库,以提升后续自动审核的效率。
第二方面,基于同一发明构思,本说明书实施例提供一种内容审核装置,请参考图3,包括:
处理单元301,用于对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合;
过滤单元302,用于从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语,形成第二词语合集;
输出单元303,用于输出所述第二词语合集中的词语,并接收用户针对所述第二词语合集中的词语的审核结果;
审核单元304,用于基于所述第二词语合集中的词语的审核结果,确定与所述第二词语合集中的词语关联的待审核内容的审核结果。
在一种可选实现方式中,所述装置还包括第一标记单元,所述第一标记单元具体用于:
在所述从所述第一词语合集中过滤属于预设风险词库的第一词语之后,从所述多个待审核内容确定出与所述第一词语关联的第一待审核内容;
将所述第一待审核内容标记为风险内容。
在一种可选实现方式中,所述第一标记单元还用于:
从所述多个待审核内容除去所述第一待审核内容后,从剩余的待审核内容中确定出与所述第二词语合集中的词语关联的第二待审核内容;
将所述多个待审核内容除去所述第一待审核内容和所述第二审核内容后,将剩余的待审核内容标记为安全内容。
在一种可选实现方式中,所述装置还包括第一更新单元,所述第一更新单元具体用于:
在所述接收用户针对所述第二词语合集中的词语的审核结果之后,基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出风险词语;
将所述风险词语添加至所述预设风险词库。
在一种可选实现方式中,所述装置还包括第二更新单元,所述第二更新单元具体用于:
在所述接收用户针对所述第二词语合集中的词语的审核结果之后,基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出安全词语;
将所述安全词语添加至所述预设信任词库。
在一种可选实现方式中,所述审核单元具体用于:
基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出风险词语;
从所述第二词语合集中确定出风险词语之后,将与所述风险词语关联的待审核内容标记为风险内容。
在一种可选实现方式中,所述审核单元具体用于:
在所述将与所述风险词语关联的待审核内容标记为风险内容之后,从与所述第二词语合集关联的待审核内容中除去标记为风险内容的待审核内容后,将剩余的待审核内容标记为安全内容。
在一种可选实现方式中,所述处理单元具体用于:
将各个待审核内容对应的分词中重复的分词进行合并后与不重复的分词组合形成第一词语合集,所述第一词语合集中各个词语互不相同,每个词语关联有与之对应的待审核内容。
第三方面,基于与前述实施例中内容审核方法同样的发明构思,本发明还提供一种内容审核装置,如图4所示,包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序,处理器402执行程序时实现前文内容审核方法的任一方法的步骤。
其中,在图4中,总线架构(用总线400来代表),总线400可以包括任意数量的互联的总线和桥,总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口406在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理,而存储器404可以被用于存储处理器402在执行操作时所使用的数据。
第四方面,基于与前述实施例中内容审核的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文内容审核的方法的任一方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (18)

1.一种内容审核方法,包括:
对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合;
从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语,形成第二词语合集;
输出所述第二词语合集中的词语,并接收用户针对所述第二词语合集中的词语的审核结果;
基于所述第二词语合集中的词语的审核结果,确定与所述第二词语合集中的词语关联的待审核内容的审核结果。
2.根据权利要求1所述的方法,在从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语之后,所述方法还包括:
从所述多个待审核内容确定出与所述第一词语关联的第一待审核内容;
将所述第一待审核内容标记为风险内容。
3.根据权利要求2所述的方法,在所述从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语之后,所述方法还包括:
从所述多个待审核内容除去所述第一待审核内容后,从剩余的待审核内容中确定出与所述第二词语合集中的词语关联的第二待审核内容;
将所述多个待审核内容除去所述第一待审核内容和所述第二审核内容后,将剩余的待审核内容标记为安全内容。
4.根据权利要求1所述的方法,在所述接收用户针对所述第二词语合集中的词语的审核结果之后,所述方法还包括:
基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出风险词语;
将所述风险词语添加至所述预设风险词库。
5.根据权利要求1所述的方法,在所述接收用户针对所述第二词语合集中的词语的审核结果之后,所述方法还包括:
基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出安全词语;
将所述安全词语添加至所述预设信任词库。
6.根据权利要求1所述的方法,所述基于所述第二词语合集中的词语的审核结果,确定与所述第二词语合集中的词语关联的待审核内容的审核结果,包括:
基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出风险词语;
将与所述风险词语关联的待审核内容标记为风险内容。
7.根据权利要求6所述的方法,所述基于所述第二词语合集中的词语的审核结果,确定与所述第二词语合集中的词语关联的待审核内容的审核结果,包括:
从与所述第二词语合集关联的待审核内容中除去标记为风险内容的待审核内容后,将剩余的待审核内容标记为安全内容。
8.根据权利要求1-7中任一权利要求所述的方法,所述将获得的各个待审核内容对应的分词进行合并,获得第一词语集合,包括:
将各个待审核内容对应的分词中重复的分词进行合并后与不重复的分词组合形成第一词语合集,所述第一词语合集中各个词语互不相同,每个词语关联有与之对应的待审核内容。
9.一种内容审核装置,包括:
处理单元,用于对多个待审核内容中每个待审核内容进行分词处理后,将获得的各个待审核内容对应的分词进行合并,获得第一词语集合;
过滤单元,用于从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语,形成第二词语合集;
输出单元,用于输出所述第二词语合集中的词语,并接收用户针对所述第二词语合集中的词语的审核结果;
审核单元,用于基于所述第二词语合集中的词语的审核结果,确定与所述第二词语合集中的词语关联的待审核内容的审核结果。
10.根据权利要求9所述的装置,所述装置还包括第一标记单元,所述第一标记单元具体用于:
在所述从所述第一词语合集中过滤属于预设风险词库的第一词语之后,从所述多个待审核内容确定出与所述第一词语关联的第一待审核内容;
将所述第一待审核内容标记为风险内容。
11.根据权利要求10所述的装置,所述第一标记单元还用于:
在所述从所述第一词语合集中过滤属于预设风险词库的第一词语和属于预设信任词库的第二词语之后,从所述多个待审核内容除去所述第一待审核内容后,从剩余的待审核内容中确定出与所述第二词语合集中的词语关联的第二待审核内容;
将所述多个待审核内容除去所述第一待审核内容和所述第二审核内容后,将剩余的待审核内容标记为安全内容。
12.根据权利要求9所述的装置,所述装置还包括第一更新单元,所述第一更新单元具体用于:
在所述接收用户针对所述第二词语合集中的词语的审核结果之后,基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出风险词语;
将所述风险词语添加至所述预设风险词库。
13.根据权利要求9所述的装置,所述装置还包括第二更新单元,所述第二更新单元具体用于:
在所述接收用户针对所述第二词语合集中的词语的审核结果之后,基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出安全词语;
将所述安全词语添加至所述预设信任词库。
14.根据权利要求9所述的装置,所述审核单元具体用于:
基于所述第二词语合集中的词语的审核结果,从所述第二词语合集中确定出风险词语;
从所述第二词语合集中确定出风险词语之后,将与所述风险词语关联的待审核内容标记为风险内容。
15.根据权利要求14所述的装置,所述审核单元具体用于:
在所述将与所述风险词语关联的待审核内容标记为风险内容之后,从与所述第二词语合集关联的待审核内容中除去标记为风险内容的待审核内容后,将剩余的待审核内容标记为安全内容。
16.根据权利要求9-15中任一权利要求所述的装置,所述处理单元具体用于:
将各个待审核内容对应的分词中重复的分词进行合并后与不重复的分词组合形成第一词语合集,所述第一词语合集中各个词语互不相同,每个词语关联有与之对应的待审核内容。
17.一种内容审核装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8任一项所述方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
CN201910350754.2A 2019-04-28 2019-04-28 一种内容审核方法及装置 Pending CN110245212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910350754.2A CN110245212A (zh) 2019-04-28 2019-04-28 一种内容审核方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910350754.2A CN110245212A (zh) 2019-04-28 2019-04-28 一种内容审核方法及装置

Publications (1)

Publication Number Publication Date
CN110245212A true CN110245212A (zh) 2019-09-17

Family

ID=67883562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910350754.2A Pending CN110245212A (zh) 2019-04-28 2019-04-28 一种内容审核方法及装置

Country Status (1)

Country Link
CN (1) CN110245212A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN104008169A (zh) * 2014-05-30 2014-08-27 中国测绘科学研究院 一种基于语义的地理标注内容安全检查方法及装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN104008169A (zh) * 2014-05-30 2014-08-27 中国测绘科学研究院 一种基于语义的地理标注内容安全检查方法及装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统

Similar Documents

Publication Publication Date Title
CN110119413A (zh) 数据融合的方法和装置
CN107133221A (zh) 信息审核方法、装置、计算机可读介质和电子设备
US9589242B2 (en) Integrating custom policy rules with policy validation process
CN107070858A (zh) 一种业务处理方法及装置
CN112633691A (zh) 生成自定义审批流程的方法和装置
CN107895311A (zh) 一种订单匹配分发的方法和装置
CN111127214A (zh) 资产组合的方法和装置
CN108255936A (zh) 一种网页的编辑方法、系统及编辑器
CN112184302A (zh) 一种产品推荐方法、装置、规则引擎及存储介质
CN110309142A (zh) 规则管理的方法和装置
DE102014116744A1 (de) Management von Informationstechnologieressourcen
CN108510399A (zh) 投保单自动分配的方法、装置、计算机设备及存储介质
CN108256078B (zh) 信息获取方法和装置
CN103854196B (zh) 一种基于第三方平台的业务对象的处理方法和系统
CN108595712A (zh) 对象特征参数的处理方法、装置和电子设备
CN112598502A (zh) 一种取证方法、装置、设备及存储介质
CN108446270A (zh) 电子装置、系统敏感内容的预警方法及存储介质
CN110245212A (zh) 一种内容审核方法及装置
CN107528822A (zh) 一种业务执行方法以及装置
CN109857748B (zh) 一种合同数据处理方法、装置及电子设备
KR100990690B1 (ko) 계좌관리 시스템 및 그 방법
CN110490554A (zh) 工作流管理方法、装置、计算机设备及存储介质
CN114756277A (zh) 一种页面配置方法和装置
CN108470245A (zh) 一种企业采购管理计算机网络系统
CN112241915A (zh) 一种贷款产品的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200929

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200929

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.