CN111126928B - 对发布内容审核的方法和装置 - Google Patents
对发布内容审核的方法和装置 Download PDFInfo
- Publication number
- CN111126928B CN111126928B CN201811270584.9A CN201811270584A CN111126928B CN 111126928 B CN111126928 B CN 111126928B CN 201811270584 A CN201811270584 A CN 201811270584A CN 111126928 B CN111126928 B CN 111126928B
- Authority
- CN
- China
- Prior art keywords
- auditing
- content
- task
- audit
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012550 audit Methods 0.000 claims abstract description 244
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 abstract description 8
- 230000011218 segmentation Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种对发布内容审核的方法和装置。其中,该方法包括:将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到。本发明解决了由于现有技术中对在线社交内容的审核过程中存在的漏检、误检的问题的技术问题。
Description
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种对发布内容审核的方法和装置。
背景技术
安全场景下需要对一些高危用户发布的社区内容/聊天内容进行审核,例如,敏感话题(词)和/或违禁话题(词),每日的审核量很大,对审核人员来说工作量特别大。且社区/聊天场景垃圾类文本较多,大量黑产用户在短时间内会大量发布相似内容,且这批相似内容与历史违规内容存在较大差异,以聊天群为例,相同信息的频繁刷屏,但是因为是不涉及敏感话题和/或违禁词,所以与历史违规内容并不是同一类问题。
目前对社区内容/聊天内容进行审核的方案包括:
方案一:将历史审核内容加入黑/白样本库,用户发布内容命中白样本库自动通过,命中黑样本库判断自动违规。这种方案的问题是无法对不在黑白样本库的内容进行审核优化,如一批用户在一分钟内发布了一万条相似的新形态的垃圾内容,由于这种新的垃圾内容不在黑白样本库中,审核人员需要全部审核这些10000条数据;
方案二:通过聚类等策略,对相似任务仅保留一条。这种方案的问题是部分任务被丢弃,无法对所有任务都给出审核结论。
针对上述由于现有技术中对在线社交内容的审核过程中存在的漏检、误检的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种对发布内容审核的方法和装置,以至少解决由于现有技术中对在线社交内容的审核过程中存在的漏检、误检的问题的技术问题。
根据本发明实施例的一个方面,提供了一种对发布内容审核的方法,包括:将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到。
可选的,将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度包括:获取待审核内容中的内容特征;将内容特征与预存审核库中的内容特征进行计算,得到相似度。
进一步地,可选的,获取待审核内容中的内容特征包括:对待审核内容进行分词,得到一个文本内每个词和每个词出现的次数的二维数组。
可选的,将内容特征与预存审核库中的内容特征进行计算,得到相似度包括:在预存审核库中的内容特征包括二维数组列表的情况下,统计二维数组与二维数组列表中相同的词和出现的次数;将每个相同的词在二维数组与二维数组列表中出现的次数分别进行计算,并将计算结果相加得到第一数值;统计二维数组中所有词和出现的次数,并将次数的平方值相加,再取平方根,得到第二数值;统计二维数组列表中所有词和出现的次数,并将次数的平方值相加,再取平方根,得到第三数值;将第一数值与第二数值和第三数值的乘积进行计算,得到相似度。
进一步地,可选的,统计二维数组与二维数组列表中相同的词包括:将待审核内容的二维数组依次与预存审核库的二维数组进行余弦相似比较,得到相似度相近或相同的词。
可选的,基于相似度,确定第一审核任务包括:将相似度与预设阈值进行比较,确定第一审核任务。
进一步地,可选的,将相似度与预设阈值进行比较,确定第一审核任务包括:在相似度大于预设阈值的情况下,确定待审核内容与预存审核库存在相似内容,依据相似度对应的内容生成第一审核任务;在相似度小于或等于预设阈值的情况下,确定待审核内容与预存审核库不存在相似内容,依据待审核内容生成第二审核任务,并分配至人工审核。
可选的,依据相似度对应的内容生成第一审核任务包括:将存在相似内容的待审核内容与预存审核库中未审核结束的审核内容进行聚合,得到第一审核任务。
可选的,根据第一审核任务的审核状态审核第二审核任务,得到审核结果包括:若第一审核任务的审核状态为已完结,并得到审核结论,则依据待审核内容生成的第二审核任务直接审核完成,并将第二审核任务的审核结论确定为审核结论;若第一审核任务的审核状态为未完结,且已分配给人工审核,则依据待审核内容生成的第二审核任务记为第一审核任务的子任务,并设置第二审核任务为不可被申领;若人工审核完成,并得到审核结论,则第二审核任务的审核结论确定为审核结论;若第一审核任务的审核状态为未完结,且未分配给人工审核,则依据待审核内容生成的第二审核任务记为第一审核任务的子任务,并设置第二审核任务为不可被申领;若对第一审核任务分配人工审核完成,并得到审核结论,则第二审核任务的审核结论确定为审核结论。
可选的,该方法应用于对在线社交内容审核。
根据本发明实施例的另一个方面,提供了一种对发布内容审核的装置,包括:计算模块,用于将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;获取模块,用于基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;审核模块,用于根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到。
可选的,计算模块包括:获取单元,用于获取待审核内容中的内容特征;计算单元,用于将内容特征与预存审核库中的内容特征进行计算,得到相似度。
根据本发明实施例的又一个方面,提供了一种非暂态存储装置,存储装置存储有指令集,其中,指令集被运行时执行上述对发布内容审核的方法。
在本发明实施例中,采用待审核内容与所有审核内容进行相似度计算,相似任务聚合批量审核的方式,通过将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到,达到了提升在线审核社交内容的效率的目的,从而实现了减少对在线社交内容漏检、误检的技术效果,进而解决了由于现有技术中对在线社交内容的审核过程中存在的漏检、误检的问题的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种对发布内容审核的方法的计算机终端的硬件结构框图;
图2是根据本发明实施例一的对发布内容审核的方法的流程图;
图3是根据本发明实施例一的一种对发布内容审核的方法的流程图;
图4是根据本发明实施例二的对发布内容审核的装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,还提供了一种对发布内容审核的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种对发布内容审核的方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的对发布内容审核的方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的对发布内容审核的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Control ler,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在上述运行环境下,本申请提供了如图2所示的对发布内容审核的方法。图2是根据本发明实施例一的对发布内容审核的方法的流程图。
步骤S202,将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;
在步骤S202中,通过对待审核内容和预存审核库中的至少一个内容特征进行分词,将分词后得到的待审核内容的二维数组和预存审核库中的至少一个内容特征中的二维数组进行相似度计算,得到相似度。
步骤S204,基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;
在步骤S204中,基于相似度,找到相似的内容特征作为审核任务,并将该审核任务作为第一审核任务。在本申请实施例中当某一时间点大量用户发布批量相似内容时,进入审核系统的第一条任务可被前台用户申领,后面所有相似内容的任务都会被处理成第一条任务的子任务。审核用户只需要审核第一条任务,后面所有任务都会在第一条任务审核完成时自动完成。
步骤S206,根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到。
在步骤S206中,基于步骤S204中得到的第一审核任务,根据第一审核任务的审核状态,确定是否分出第二审核任务,其中,第二审核任务作为第一审核任务的子任务进行审核;
具体的,若在步骤S204中未找到相似的任务,则无任务可聚合,将该待审核内容作为新的审核任务交由人工审核;
若该第一审核任务已完结,且有了审核结论,则在对第二审核任务进行审核时,以该审核结论作为最终结论;
若该第一审核任务未完结,且已分配给审核者,则第二审核任务记作第一审核任务的子任务,不可被申领;当第一审核任务审核完成时,记录该第一审核任务的审核结论,并将该审核结论作为第二审核任务的审核结论,此时第二审核任务完结;
若该第一审核任务未完结,且未分配,则第二审核任务记作第一审核任务的子任务,不可被申领;当该第一审核任务被申领,且第一审核任务审核完成时,记录审核结论,并将该审核结论作为第二审核任务的审核结论,此时第二审核任务完结。
综上,结合步骤S202至步骤S206,本申请实施例提供的对发布内容审核的方法可以适用于对在线社交内容审核。
在本发明实施例中,采用待审核内容与所有审核内容进行相似度计算,相似任务聚合批量审核的方式,通过将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到,达到了提升在线审核社交内容的效率的目的,从而实现了减少对在线社交内容漏检、误检的技术效果,进而解决了由于现有技术中对在线社交内容的审核过程中存在的漏检、误检的问题的技术问题。
可选的,步骤S202中将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度包括:
步骤S2021,获取待审核内容中的内容特征;
步骤S2022,将内容特征与预存审核库中的内容特征进行计算,得到相似度。
进一步地,可选的,步骤S2021中获取待审核内容中的内容特征包括:
步骤S20211,对待审核内容进行分词,得到一个文本内每个词和每个词出现的次数的二维数组。
具体的,结合步骤S2021和步骤S20211,在本申请实施例中对待审核内容进行分词,输出一个文本内每一个词及其出现的次数的二维数组,用以标志该条网页内容。
可选的,步骤S2022中将内容特征与预存审核库中的内容特征进行计算,得到相似度包括:
步骤S20221,在预存审核库中的内容特征包括二维数组列表的情况下,统计二维数组与二维数组列表中相同的词和出现的次数;
进一步地,可选的,统计二维数组与二维数组列表中相同的词包括:将待审核内容的二维数组依次与预存审核库的二维数组进行余弦相似比较,得到相似度相近或相同的词。
步骤S20222,将每个相同的词在二维数组与二维数组列表中出现的次数分别进行计算,并将计算结果相加得到第一数值;
步骤S20223,统计二维数组中所有词和出现的次数,并将次数的平方值相加,再取平方根,得到第二数值;
步骤S20224,统计二维数组列表中所有词和出现的次数,并将次数的平方值相加,再取平方根,得到第三数值;
步骤S20225,将第一数值与第二数值和第三数值的乘积进行计算,得到相似度。
具体的,结合步骤S20221至步骤S20225,在本申请实施例中,对预存审核库中所有内容进行分词,输出一个文本内每一个词及其出现的次数的二维数组,得到一个包含一系列二维数组的列表(即,本申请实施例中的二维数组列表)。该二维数组的列表可缓存,无需每次计算。
将待审核内容的二维数组依次与预存审核库的二维数组进行余弦相似比较(即,本申请实施例中的步骤S20221),设定阈值,当余弦值大于阈值时即认为相似,即,得到相似度。
其中,步骤S20222中将每个相同的词在二维数组与二维数组列表中出现的次数分别进行计算,并将计算结果相加得到第一数值包括:统计所有同时出现在待审核内容和预存审核库的词及次数,将这些词在两方出现的次数进行相乘并将结果进行相加,得到值a(即,本申请实施例中的第一数值);
例如,在待审核内容中有“今晚7:00,电影院放映电影《XXX》,我们一起去看吧”,“好啊,一起去看电影吧”,以及“今晚的电影好看吗”,得到分词:“今晚”,“电影院”“电影”,“一起”,“看”;其中,“今晚”出现了2次,“电影院”出现了1次;“电影”出现了3次,“一起”出现了2次,“看”出现了3次;
预存审核库中得到的分词和分词出现次数为:“今晚”出现了4次,“电影院”出现了2次;“电影”出现了6次,“一起”出现了4次,“看”出现了6次;
将这些词在两方出现的次数进行相乘并将结果进行相加,得到值a可以得到:
“今晚”:2×4=8;
“电影院”:1×2=2;
“电影”:3×6=18;
“一起”:2×4=8;
“看”:3×6=18;
a=8+2+18+8+18=54;即,第一数值为54。
步骤S20223中统计二维数组中所有词和出现的次数,并将次数的平方值相加,再取平方根,得到第二数值包括:统计所有出现在待审核内容的词及次数,将所有次数的平方值相加,再取平方根,得到值b(即,本申请实施例中的第二数值);
具体的,仍旧以上述示例为例,待审核内容中“今晚”出现了2次,“电影院”出现了1次;“电影”出现了3次,“一起”出现了2次,“看”出现了3次;
因此,即,第二数值为5.19。
步骤S20224中统计二维数组列表中所有词和出现的次数,并将次数的平方值相加,再取平方根,得到第三数值包括:统计所有出现在审核库的词及次数,将所有次数的平方值相加,再取平方根,得到值c;
具体的,预存审核库中得到的分词和分词出现次数为:“今晚”出现了4次,“电影院”出现了2次;“电影”出现了6次,“一起”出现了4次,“看”出现了6次;
即,第三数值为10.39。
步骤S20225中将第一数值与第二数值和第三数值的乘积进行计算,得到相似度包括:通过余弦值计算公式:a/(bxc)=54/(5.19×10.39)=1.001。
可选的,步骤S204基于相似度,确定第一审核任务包括:
步骤S2041,将相似度与预设阈值进行比较,确定第一审核任务。
基于步骤S20221至步骤S20225,当余弦值结果大于预设阈值时,找到相似审核任务,输出该相似审核任务为第一审核任务。
进一步地,可选的,步骤S2041中将相似度与预设阈值进行比较,确定第一审核任务包括:
步骤S20411,在相似度大于预设阈值的情况下,确定待审核内容与预存审核库存在相似内容,依据相似度对应的内容生成第一审核任务;
其中,依据相似度对应的内容生成第一审核任务包括:将存在相似内容的待审核内容与预存审核库中未审核结束的审核内容进行聚合,得到第一审核任务。步骤S20412,在相似度小于或等于预设阈值的情况下,确定待审核内容与预存审核库不存在相似内容,依据待审核内容生成新的审核任务,并分配至人工审核。
具体的,结合步骤S20411和步骤S20412,在得到相似度后,通过与预设阈值的比较得到对应的第一审核任务,其中,步骤S20412中在相似度小于或等于预设阈值的情况下,表示未找到相似的任务,则无任务可聚合,将该待审核内容作为新的审核任务交由人工审核。
可选的,步骤S206中根据第一审核任务的审核状态审核第二审核任务,得到审核结果包括:
步骤S2061,若第一审核任务的审核状态为已完结,并得到审核结论,则依据待审核内容生成的第二审核任务直接审核完成,并将第二审核任务的审核结论确定为审核结论;
步骤S2062,若第一审核任务的审核状态为未完结,且已分配给人工审核,则依据待审核内容生成的第二审核任务记为第一审核任务的子任务,并设置第二审核任务为不可被申领;
步骤S2063,若人工审核完成,并得到审核结论,则第二审核任务的审核结论确定为审核结论;
步骤S2064,若第一审核任务的审核状态为未完结,且未分配给人工审核,则依据待审核内容生成的第二审核任务记为第一审核任务的子任务,并设置第二审核任务为不可被申领;
步骤S2065,若对第一审核任务分配人工审核完成,并得到审核结论,则第二审核任务的审核结论确定为审核结论。
具体的,结合步骤S2061至步骤S2065,具体如下:
若该第一审核任务已完结,且有了审核结论,则在对第二审核任务进行审核时,以该审核结论作为最终结论;
若该第一审核任务未完结,且已分配给审核者,则第二审核任务记作第一审核任务的子任务,不可被申领;当第一审核任务审核完成时,记录该第一审核任务的审核结论,并将该审核结论作为第二审核任务的审核结论,此时第二审核任务完结;
若该第一审核任务未完结,且未分配,则第二审核任务记作第一审核任务的子任务,不可被申领;当该第一审核任务被申领,且第一审核任务审核完成时,记录审核结论,并将该审核结论作为第二审核任务的审核结论,此时第二审核任务完结。
这里本申请实施例提供的对发布内容审核的方法中由子任务机制(即,本申请实施例中第一审核任务和第二审核任务之间的关系)保证所有相似任务都会被人工审核或者机器审核,所有任务都有确定的审核结论,不存在任务丢弃的问题。
综上,结合上述步骤S202至步骤S206,图3是根据本发明实施例一的一种对发布内容审核的方法的流程图,如图3所示,本申请实施例提供的对发布内容审核的方法具体如下:
通过对待审核内容进行分词,并与预存审核库中的分词进行比较,通过余弦相似度计算得到相似度,在相似度高于预设阈值的情况下,得到第一审核任务,并根据第一审核任务的审核状态确定第二审核任务,并对第二审核任务进行审核。
即,如果未找到相似任务,无任务可聚合,待审核内容生成新审核任务B(即上述的新的审核任务),进行正常人工审核步骤;如果找到相似任务A:待审核内容生成新审核任务B(即上述的第二审核任务);如果相似任务A已完结,审核结论为R:新审核任务B(即上述的第二审核任务)直接审核完成,审核结论为R;如果相似任务A未完结,且已分配给审核者O;新审核任务B(即上述的第二审核任务)记为任务A的子任务,不可被申领;当A任务审核完成时,记录审核结论R,任务B以审核结论R同时完结;如果相似任务A未完结,且未分配;新审核任务B(即上述的第二审核任务)记为任务A的子任务,不可被申领;任务A被申领;当A任务审核完成时,记录审核结论R,任务B以审核结论R同时完结。
这里本申请实施例提供的对发布内容审核的方法对待审核任务进行聚合,但是不丢弃任何任务,达到用户审核一条任务实际审核上万条的效果;并且,新流入任务首先和所有已审核任务进行相似度比对,达到在审核端自动审核效果。
需要说明的是,本申请实施例中在计算相似度的过程中以余弦计算为优选示例,除此之外,相似度计算还可以通过s imhash等其他文本相似计算方法;基于性能考虑,在一些场景还可以使用经过处理的md5值比较,因此以实现本申请实施例提供的对发布内容审核的方法为准,具体不做限定。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的对发布内容审核的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述对发布内容审核的方法的装置,图4是根据本发明实施例二的对发布内容审核的装置的结构图,如图4所示,该装置包括:
计算模块42,用于将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;获取模块44,用于基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;审核模块46,用于根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到。
可选的,计算模块42包括:获取单元,用于获取待审核内容中的内容特征;计算单元,用于将内容特征与预存审核库中的内容特征进行计算,得到相似度。
实施例3
根据本发明实施例的又一个方面,提供了一种存储装置,存储装置用于存储运行程序,其中,程序运行时执行上述对发布内容审核的方法。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的对发布内容审核的方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;基于相似度,确定第一审核任务,第一审核任务包括:对应相似度的待审核内容;根据第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,第二审核任务依据待审核内容生成得到。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将待审核内容与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度包括:获取待审核内容中的内容特征;将内容特征与预存审核库中的内容特征进行计算,得到相似度。
进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待审核内容中的内容特征包括:对待审核内容进行分词,得到一个文本内每个词和每个词出现的次数的二维数组。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将内容特征与预存审核库中的内容特征进行计算,得到相似度包括:在预存审核库中的内容特征包括二维数组列表的情况下,统计二维数组与二维数组列表中相同的词和出现的次数;将每个相同的词在二维数组与二维数组列表中出现的次数分别进行计算,并将计算结果相加得到第一数值;统计二维数组中所有词和出现的次数,并将次数的平方值相加,再取平方根,得到第二数值;统计二维数组列表中所有词和出现的次数,并将次数的平方值相加,再取平方根,得到第三数值;将第一数值与第二数值和第三数值的乘积进行计算,得到相似度。
进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:统计二维数组与二维数组列表中相同的词包括:将待审核内容的二维数组依次与预存审核库的二维数组进行余弦相似比较,得到相似度相近或相同的词。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于相似度,确定第一审核任务包括:将相似度与预设阈值进行比较,确定第一审核任务。
进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将相似度与预设阈值进行比较,确定第一审核任务包括:在相似度大于预设阈值的情况下,确定待审核内容与预存审核库存在相似内容,依据相似度对应的内容生成第一审核任务;在相似度小于或等于预设阈值的情况下,确定待审核内容与预存审核库不存在相似内容,依据待审核内容生成第二审核任务,并分配至人工审核。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:依据相似度对应的内容生成第一审核任务包括:将存在相似内容的待审核内容与预存审核库中未审核结束的审核内容进行聚合,得到第一审核任务。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据第一审核任务的审核状态审核第二审核任务,得到审核结果包括:若第一审核任务的审核状态为已完结,并得到审核结论,则依据待审核内容生成的第二审核任务直接审核完成,并将第二审核任务的审核结论确定为审核结论;若第一审核任务的审核状态为未完结,且已分配给人工审核,则依据待审核内容生成的第二审核任务记为第一审核任务的子任务,并设置第二审核任务为不可被申领;若人工审核完成,并得到审核结论,则第二审核任务的审核结论确定为审核结论;若第一审核任务的审核状态为未完结,且未分配给人工审核,则依据待审核内容生成的第二审核任务记为第一审核任务的子任务,并设置第二审核任务为不可被申领;若对第一审核任务分配人工审核完成,并得到审核结论,则第二审核任务的审核结论确定为审核结论。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种对发布内容审核的方法,包括:
将待审核内容中的内容特征与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;
基于所述相似度,确定第一审核任务,所述第一审核任务包括:对应所述相似度的待审核内容;
根据所述第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,所述第二审核任务为所述第一审核任务的子任务,所述第二审核任务与所述第一审核任务相似,且所述第二审核任务未经过审核;
其中,将所述内容特征与所述预存审核库中的内容特征进行相似度计算,得到所述相似度包括:
在所述预存审核库中的内容特征包括二维数组列表的情况下,统计二维数组与所述二维数组列表中相同的词和出现的次数,其中,所述二维数组用于表征所述待审核内容的内容特征的二维数组;
基于所述相同的词和所述出现的次数,得到所述相似度。
2.根据权利要求1所述的方法,其中,所述将待审核内容中的内容特征与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度包括:
获取所述待审核内容中的内容特征。
3.根据权利要求2所述的方法,其中,所述获取所述待审核内容中的内容特征包括:
对所述待审核内容进行分词,得到一个文本内每个词和所述每个词出现的次数的二维数组。
4.根据权利要求1所述的方法,其中,基于所述相同的词和所述出现的次数,得到所述相似度包括:
将每个相同的词在所述二维数组与所述二维数组列表中出现的次数分别进行计算,并将计算结果相加得到第一数值;
统计所述二维数组中所有词和出现的次数,并将所述次数的平方值相加,再取平方根,得到第二数值;
统计所述二维数组列表中所有词和出现的次数,并将所述次数的平方值相加,再取平方根,得到第三数值;
将所述第一数值与所述第二数值和所述第三数值的乘积进行计算,得到所述相似度。
5.根据权利要求4所述的方法,其中,统计所述二维数组与所述二维数组列表中相同的词包括:
将所述待审核内容的二维数组依次与所述预存审核库的二维数组进行余弦相似比较,得到相似度相近或相同的词。
6.根据权利要求1至5中任一项所述的方法,其中,所述基于所述相似度,确定第一审核任务包括:
将所述相似度与预设阈值进行比较,确定所述第一审核任务。
7.根据权利要求6所述的方法,其中,将所述相似度与预设阈值进行比较,确定所述第一审核任务包括:
在所述相似度大于预设阈值的情况下,确定所述待审核内容与所述预存审核库存在相似内容,依据所述相似度对应的内容生成所述第一审核任务;
在所述相似度小于或等于预设阈值的情况下,确定所述待审核内容与所述预存审核库不存在相似内容,依据所述待审核内容生成新的审核任务,并分配至人工审核。
8.根据权利要求7所述的方法,其中,依据所述相似度对应的内容生成所述第一审核任务包括:将存在所述相似内容的待审核内容与所述预存审核库中未审核结束的审核内容进行聚合,得到所述第一审核任务。
9.根据权利要求1所述的方法,其中,根据所述第一审核任务的审核状态审核所述第二审核任务,得到审核结果包括:
若所述第一审核任务的审核状态为已完结,并得到审核结论,则依据所述待审核内容生成的第二审核任务直接审核完成,并将第二审核任务的审核结论确定为所述审核结论;
若所述第一审核任务的审核状态为未完结,且已分配给人工审核,则依据所述待审核内容生成的第二审核任务记为所述第一审核任务的子任务,并设置所述第二审核任务为不可被申领; 若所述人工审核完成,并得到审核结论,则所述第二审核任务的审核结论确定为所述审核结论;
若所述第一审核任务的审核状态为未完结,且未分配给人工审核,则依据所述待审核内容生成的第二审核任务记为所述第一审核任务的子任务,并设置所述第二审核任务为不可被申领; 若对所述第一审核任务分配人工审核完成,并得到审核结论,则所述第二审核任务的审核结论确定为所述审核结论。
10.根据权利要求1所述的方法,其中,所述方法应用于对在线社交内容审核。
11.一种对发布内容审核的装置,包括:
计算模块,用于将待审核内容中的内容特征与预存审核库中包含的至少一个内容特征进行相似度计算,得到相似度;
获取模块,用于基于所述相似度,确定第一审核任务,所述第一审核任务包括:对应所述相似度的待审核内容;
审核模块,用于根据所述第一审核任务的审核状态审核第二审核任务,得到审核结果,其中,所述第二审核任务为所述第一审核任务的子任务,所述第二审核任务与所述第一审核任务相似,且所述第二审核任务未经过审核;
其中,所述计算模块还用于:
在所述预存审核库中的内容特征包括二维数组列表的情况下,统计二维数组与所述二维数组列表中相同的词和出现的次数,其中,所述二维数组用于表征所述待审核内容的内容特征的二维数组;
基于所述相同的词和所述出现的次数,得到所述相似度。
12.根据权利要求11所述的装置,其中,所述计算模块包括:
获取单元,用于获取所述待审核内容中的内容特征;
计算单元,用于将所述内容特征与所述预存审核库中的内容特征进行计算,得到所述相似度。
13.一种非暂态存储装置,所述存储装置存储有指令集,其中,所述指令集被运行时执行权利要求1所述的对发布内容审核的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811270584.9A CN111126928B (zh) | 2018-10-29 | 2018-10-29 | 对发布内容审核的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811270584.9A CN111126928B (zh) | 2018-10-29 | 2018-10-29 | 对发布内容审核的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126928A CN111126928A (zh) | 2020-05-08 |
CN111126928B true CN111126928B (zh) | 2024-03-22 |
Family
ID=70483986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811270584.9A Active CN111126928B (zh) | 2018-10-29 | 2018-10-29 | 对发布内容审核的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126928B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985900B (zh) * | 2020-08-21 | 2022-08-16 | 支付宝(杭州)信息技术有限公司 | 信息处理方法及装置 |
CN111985857A (zh) * | 2020-09-11 | 2020-11-24 | 支付宝(杭州)信息技术有限公司 | 审核方法以及装置 |
CN112163585B (zh) * | 2020-11-10 | 2023-11-10 | 上海七猫文化传媒有限公司 | 文本的审核方法、装置、计算机设备及存储介质 |
CN115062155A (zh) * | 2022-08-18 | 2022-09-16 | 广州市千钧网络科技有限公司 | 一种直播间评论快速审核的方法、装置及相关产品 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446970A (zh) * | 2008-12-15 | 2009-06-03 | 腾讯科技(深圳)有限公司 | 一种对用户发布的文本内容审核处理的方法及其装置 |
CN103885964A (zh) * | 2012-12-20 | 2014-06-25 | 北京新媒传信科技有限公司 | 一种内容审核方法和系统 |
CN104182539A (zh) * | 2014-09-02 | 2014-12-03 | 五八同城信息技术有限公司 | 异常信息批量处理的方法及系统 |
CN105488023A (zh) * | 2015-03-20 | 2016-04-13 | 广州爱九游信息技术有限公司 | 一种文本相似度评估方法及装置 |
CN106295670A (zh) * | 2015-06-11 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 数据处理方法及数据处理装置 |
CN106372202A (zh) * | 2016-08-31 | 2017-02-01 | 北京奇艺世纪科技有限公司 | 文本相似度计算方法及装置 |
CN107038173A (zh) * | 2016-02-04 | 2017-08-11 | 腾讯科技(深圳)有限公司 | 应用查询方法和装置、相似应用检测方法和装置 |
CN107133221A (zh) * | 2017-06-09 | 2017-09-05 | 北京京东尚科信息技术有限公司 | 信息审核方法、装置、计算机可读介质和电子设备 |
WO2017215553A1 (zh) * | 2016-06-14 | 2017-12-21 | 中兴通讯股份有限公司 | 一种短消息监控方法、装置和监控中心 |
CN107612893A (zh) * | 2017-09-01 | 2018-01-19 | 北京百悟科技有限公司 | 短信的审核系统和方法以及构建短信审核模型方法 |
CN108287831A (zh) * | 2017-01-09 | 2018-07-17 | 阿里巴巴集团控股有限公司 | 一种url分类方法和系统、数据处理方法和系统 |
-
2018
- 2018-10-29 CN CN201811270584.9A patent/CN111126928B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446970A (zh) * | 2008-12-15 | 2009-06-03 | 腾讯科技(深圳)有限公司 | 一种对用户发布的文本内容审核处理的方法及其装置 |
CN103885964A (zh) * | 2012-12-20 | 2014-06-25 | 北京新媒传信科技有限公司 | 一种内容审核方法和系统 |
CN104182539A (zh) * | 2014-09-02 | 2014-12-03 | 五八同城信息技术有限公司 | 异常信息批量处理的方法及系统 |
CN105488023A (zh) * | 2015-03-20 | 2016-04-13 | 广州爱九游信息技术有限公司 | 一种文本相似度评估方法及装置 |
CN106295670A (zh) * | 2015-06-11 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 数据处理方法及数据处理装置 |
CN107038173A (zh) * | 2016-02-04 | 2017-08-11 | 腾讯科技(深圳)有限公司 | 应用查询方法和装置、相似应用检测方法和装置 |
WO2017215553A1 (zh) * | 2016-06-14 | 2017-12-21 | 中兴通讯股份有限公司 | 一种短消息监控方法、装置和监控中心 |
CN107509190A (zh) * | 2016-06-14 | 2017-12-22 | 中兴通讯股份有限公司 | 一种短消息监控方法、装置和监控中心 |
CN106372202A (zh) * | 2016-08-31 | 2017-02-01 | 北京奇艺世纪科技有限公司 | 文本相似度计算方法及装置 |
CN108287831A (zh) * | 2017-01-09 | 2018-07-17 | 阿里巴巴集团控股有限公司 | 一种url分类方法和系统、数据处理方法和系统 |
CN107133221A (zh) * | 2017-06-09 | 2017-09-05 | 北京京东尚科信息技术有限公司 | 信息审核方法、装置、计算机可读介质和电子设备 |
CN107612893A (zh) * | 2017-09-01 | 2018-01-19 | 北京百悟科技有限公司 | 短信的审核系统和方法以及构建短信审核模型方法 |
Non-Patent Citations (1)
Title |
---|
王肖梅 等.信息指纹技术在垃圾短信灰名单审核中的 应用研究.现代电信科技.2016,第46卷(第5期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111126928A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126928B (zh) | 对发布内容审核的方法和装置 | |
CN110399550B (zh) | 一种信息推荐方法及装置 | |
CN108985954B (zh) | 一种建立各标识的关联关系的方法以及相关设备 | |
CN106571933B (zh) | 业务处理方法及装置 | |
CN109685536B (zh) | 用于输出信息的方法和装置 | |
CN110166344B (zh) | 一种身份标识识别方法、装置以及相关设备 | |
CN110009365B (zh) | 非正常转移电子资产的用户群体检测方法、装置和设备 | |
CN110493806A (zh) | 移动网络投诉溯源方法及装置 | |
CN112165445B (zh) | 用于检测网络攻击的方法、装置、存储介质及计算机设备 | |
CN109460930B (zh) | 一种确定风险账户的方法以及相关设备 | |
CN110825466A (zh) | 一种程序卡顿的处理方法以及卡顿处理装置 | |
CN110309373B (zh) | 信息处理方法及装置 | |
CN113065748A (zh) | 业务风险评估方法、装置、设备及存储介质 | |
CN110750749A (zh) | 社群的维护方法、电子设备及计算机可读存储介质 | |
CN107317790B (zh) | 网络行为的监控方法及装置 | |
CN106912066B (zh) | 一种关键绩效指标的计算方法及装置 | |
CN113779336A (zh) | 用户行为数据的处理方法及装置、电子设备 | |
CN109413459B (zh) | 一种直播平台中用户的推荐方法以及相关设备 | |
CN109905722B (zh) | 一种确定嫌疑节点的方法以及相关设备 | |
CN113836167A (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN116134785A (zh) | 网络设备属性的低时延识别 | |
CN112579833A (zh) | 基于用户操作数据的业务关联关系获取方法及装置 | |
CN110971644A (zh) | 一种页面访问监测方法及装置 | |
CN107483532A (zh) | 一种行为数据的上传方法、资源服务器及存储介质 | |
CN113342795B (zh) | 应用程序中数据核对方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40029881 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |