CN114491184B

CN114491184B - 一种数据处理方法及装置、存储介质及电子设备

Info

Publication number: CN114491184B
Application number: CN202210342930.XA
Authority: CN
Inventors: 王硕; 闵博; 孙成新; 王金明
Original assignee: Feihu Information Technology Tianjin Co Ltd
Current assignee: Feihu Information Technology Tianjin Co Ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-12
Anticipated expiration: 2042-04-02
Also published as: CN114491184A

Abstract

本发明提供一种数据处理方法及装置、存储介质及电子设备，该方法包括：根据获取的免审配置信息判断获取的待审核数据是否满足免审条件；若不满足，则根据获取的已审数据信息、待审核数据的第一哈希值和第二哈希值，判断在免审周期内是否存在与待审核数据相同的数据，若存在，则将该数据的审核结果作为待审核数据的审核结果，若不存在，将待审核数据发往审核人员。使用免审配置信息、已审数据信息以及待审核数据的第一哈希值和第二哈希值对待审核数据进行筛选，可以快速的得到待审核数据的审核结论，无需系统对这些数据进行审核，减少数据审核量，减少审核成本。

Description

一种数据处理方法及装置、存储介质及电子设备

技术领域

本发明涉及计算机技术领域，特别涉及一种数据处理方法及装置、存储介质及电子设备。

背景技术

随着互联网技术的普遍应用，人们可以通过互联网分享生活以及各种资料等，为了保证网络环境，用户在互联网上传的数据都需要经过审核才能发布。

审核人员每天都要对需要发布的视频、文件、图片等媒体数据进行审核，而随着信息数据化的发展，需要审核的数据在呈指数增加，海量待审核的数据中存在着大量免审或是已审的重复数据，对这些数据进行重复审核无疑增加了审核人员的工作量，增加审核成本。

发明内容

有鉴于此，本发明提供一种数据处理方法及装置、存储介质及电子设备，应用本发明可以从海量的数据中过滤出不需要审核的数据，无需再对过滤出的数据进行审核，从而可以减少系统的审核工作量，节约系统的计算资源，并且通过使用位图算法，极大程度的减少数据占用的内存。

为实现上述目的，本发明实施例提供如下技术方案：

本发明第一方面公开一种数据处理方法，包括：

获取待审核数据；

获取免审配置信息；

基于所述免审配置信息判断所述待审核数据是否满足预设的免审条件；

当确定所述待审核数据未满足所述免审条件时，获取与所述免审配置信息中的免审周期对应的已审数据信息，所述已审数据信息中包含免审周期中每条已审核的数据的已审核标识，每条已审核的数据的已审核标识使用位图算法进行保存；

获取所述待审核数据的第一哈希值和第二哈希值；

使用所述第一哈希值、所述第二哈希值以及所述已审数据信息，判断在所述免审周期内是否存在与所述待审核数据相同的数据；

若确定在所述免审周期内存在与所述待审核数据相同的数据，则将所述免审周期中与所述待审核数据相同的数据的审核结果作为所述待审核数据的审核结果；

若确定所述待审核数据在所述免审周期中不存在相同的数据，则将所述待审核数据发往对应的审核人员。

上述的方法，可选的，所述获取待审核数据，包括：

接收媒体数据；

对所述媒体数据进行审核；

当所述媒体数据审核通过时，将所述媒体数据确定为待审核数据。

上述的方法，可选的，所述基于所述免审配置信息判断所述待审核数据是否满足预设的免审条件，包括：

基于所述免审配置信息，确定各个免审通道和各个免审用户信息；

确定所述待审核数据的底层通道以及上传者信息；

判断各个所述免审通道中是否存在与所述底层通道一致的通道，以及判断各个所述免审用户信息中是否存在与所述上传者信息一致的信息；

当确定各个所述免审通道中不存在与所述底层通道一致的通道，且确定各个所述免审用户信息中不存在与所述上传者信息一致的信息时，确定所述待审核数据不满足所述免审条件；

当确定各个所述免审通道中存在与所述底层通道一致的通道，和/或确定各个所述免审用户信息中存在与所述上传者信息一致的信息时，确定所述待审核数据满足所述免审条件。

上述的方法，可选的，还包括：

当确定所述待审核数据满足所述免审条件时，确定所述待审核数据为审核通过数据，并生成表征为审核通过的审核结果。

上述的方法，可选的，所述获取所述待审核数据的第一哈希值和第二哈希值，包括：

调用预设的第一哈希函数对所述待审核数据进行处理，得到第一散列值，并将所述第一散列值进行转换，得到第一哈希值；

调用预设的第二哈希函数对所述待审核数据进行处理，得到第二散列值，并将所述第二散列值进行转换，得到第二哈希值。

上述的方法，可选的，所述使用所述第一哈希值、所述第二哈希值以及所述已审数据信息，判断在所述免审周期内是否存在与所述待审核数据相同的数据，包括：

对所述已审数据信息进行解析，获取第一审核通过位图、第二审核通过位图、第一审核未通过位图以及第二审核未通过位图；

将所述第一审核通过位图中与所述第一哈希值对应的比特位确定为第一比特位；

将所述第二审核通过位图中与所述第二哈希值对应的比特位确定为第二比特位；

将所述第一审核未通过位图中与所述第一哈希值对应的比特位确定为第三比特位；

将所述第二审核未通过位图中与所述第二哈希值对应的比特位确定为第四比特位；

判断所述第一比特位和所述第二比特位中是否均存在已审核标识；

若确定所述第一比特位和所述第二比特位中均存在已审核标识，则确定在所述免审周期内存在与所述待审核数据相同的数据；

若确定所述第一比特位和/或所述第二比特位中不存在已审核标识，则判断所述第三比特位和所述第四比特位中是否存在已审核标识；

若确定所述第三比特位和所述第四比特位中均存在已审核标识，则确定在所述免审周期内存在与所述待审核数据相同的数据；

若确定所述第三比特位和/或第四比特位中不存在已审核标识，则确定在所述免审周期内不存在与所述待审核数据相同的数据。

上述的方法，可选的，还包括：

获取所述审核人员反馈的审核结果；

基于所述审核结果和所述位图算法，在所述已审数据信息中添加所述待审核数据的已审核标识。

本发明第二方面公开一种数据处理装置，包括：

第一获取单元，用于获取待审核数据；

第二获取单元，用于获取免审配置信息；

第一判断单元，用于基于所述免审配置信息判断所述待审核数据是否满足预设的免审条件；

第三获取单元，用于当确定所述待审核数据未满足所述免审条件时，获取与所述免审配置信息中的免审周期对应的已审数据信息，所述已审数据信息中包含免审周期中每条已审核的数据的已审核标识，每条已审核的数据的已审核标识使用位图算法进行保存；

第四获取单元，用于获取所述待审核数据的第一哈希值和第二哈希值；

第二判断单元，用于使用所述第一哈希值、所述第二哈希值以及所述已审数据信息，判断在所述免审周期内是否存在与所述待审核数据相同的数据；

确定单元，用于若确定在所述免审周期内存在与所述待审核数据相同的数据，则将所述免审周期中与所述待审核数据相同的数据的审核结果作为所述待审核数据的审核结果；

发送单元，用于若确定所述待审核数据在所述免审周期中不存在相同的数据，则将所述待审核数据发往对应的审核人员。

上述的装置，可选的，所述第一获取单元，包括：

接收模块，用于接收媒体数据；

审核模块，用于对所述媒体数据进行审核；

第一确定模块，用于当所述媒体数据审核通过时，将所述媒体数据确定为待审核数据。

上述的装置，可选的，所述第一判断单元，包括：

第二确定模块，用于基于所述免审配置信息，确定各个免审通道和各个免审用户信息；

第三确定模块，用于确定所述待审核数据的底层通道以及上传者信息；

第一判断模块，用于判断各个所述免审通道中是否存在与所述底层通道一致的通道，以及判断各个所述免审用户信息中是否存在与所述上传者信息一致的信息；

第四确定模块，用于当确定各个所述免审通道中不存在与所述底层通道一致的通道，且确定各个所述免审用户信息中不存在与所述上传者信息一致的信息时，确定所述待审核数据不满足所述免审条件；

第五确定模块，用于当确定各个所述免审通道中存在与所述底层通道一致的通道，和/或确定各个所述免审用户信息中存在与所述上传者信息一致的信息时，确定所述待审核数据满足所述免审条件。

上述的装置，可选的，还包括：

生成单元，用于当确定所述待审核数据满足所述免审条件时，确定所述待审核数据为审核通过数据，并生成表征为审核通过的审核结果。

上述的装置，可选的，所述第四获取单元，包括：

第一调用模块，用于调用预设的第一哈希函数对所述待审核数据进行处理，得到第一散列值，并将所述第一散列值进行转换，得到第一哈希值；

第二调用模块，用于调用预设的第二哈希函数对所述待审核数据进行处理，得到第二散列值，并将所述第二散列值进行转换，得到第二哈希值。

上述的装置，可选的，所述第二判断单元，包括：

获取模块，用于对所述已审数据信息进行解析，获取第一审核通过位图、第二审核通过位图、第一审核未通过位图以及第二审核未通过位图；

第六确定模块，用于将所述第一审核通过位图中与所述第一哈希值对应的比特位确定为第一比特位；

第七确定模块，用于将所述第二审核通过位图中与所述第二哈希值对应的比特位确定为第二比特位；

第八确定模块，用于将所述第一审核未通过位图中与所述第一哈希值对应的比特位确定为第三比特位；

第九确定模块，用于将所述第二审核未通过位图中与所述第二哈希值对应的比特位确定为第四比特位；

第二判断模块，用于判断所述第一比特位和所述第二比特位中是否均存在已审核标识；

第十确定模块，用于若确定所述第一比特位和所述第二比特位中均存在已审核标识，则确定在所述免审周期内存在与所述待审核数据相同的数据；

第三判断模块，用于若确定所述第一比特位和/或所述第二比特位中不存在已审核标识，则判断所述第三比特位和所述第四比特位中是否存在已审核标识；

第十一确定模块，用于若确定所述第三比特位和所述第四比特位中均存在已审核标识，则确定在所述免审周期内存在与所述待审核数据相同的数据；

第十二确定模块，用于若确定所述第三比特位和/或第四比特位中不存在已审核标识，则确定在所述免审周期内不存在与所述待审核数据相同的数据。

上述的装置，可选的，还包括：

第五获取单元，用于获取所述审核人员反馈的审核结果；

添加单元，用于基于所述审核结果和所述位图算法，在所述已审数据信息中添加所述待审核数据的已审核标识。

本发明第三方面公开一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上所述的数据处理方法。

本发明第四方面公开一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上所述的数据处理方法。

与现有技术相比，本发明具有以下优点：

本发明提供一种数据处理方法及装置、存储介质及电子设备，该方法包括：根据获取的免审配置信息判断获取的待审核数据是否满足免审条件；若不满足，则根据获取的已审数据信息、待审核数据的第一哈希值和第二哈希值，判断在免审周期内是否存在与待审核数据相同的数据，若存在，则将该数据的审核结果作为待审核数据的审核结果，若不存在，将待审核数据发往审核人员。使用免审配置信息、已审数据信息以及待审核数据的第一哈希值和第二哈希值对待审核数据进行筛选，可以快速的得到待审核数据的审核结论，无需重复的对这些数据进行审核，减少审核人员的审核量，降低审核成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种数据处理方法的方法流程图；

图2为本发明实施例提供的判断待审核数据是否满足预设的免审条件的方法流程图；

图3为本发明实施例提供的判断在免审周期内是否存在与待审核数据相同的数据的方法流程图；

图4为本发明实施例提供的一种数据处理方法的场景示例图；

图5为本发明实施例提供的一种数据处理装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语解释：

底层通道：在视频审核过程中，业务上将一系列由相同特征组成的审核数据存放在一个通道中，审核管理以通道作为最小管理单位。

审核中台：对视频应用的各业务线进行审核的中台系统。

免审：对数据进行必要的关键字审核、视频散列命中、黑名单处理等机器审核后，免去人工审核流程，直接审核通过。

数据流：对一系列需要进行审核的数据的统称，这些数据包括视频、文字、图片等各种类型。

哈希函数：将任意长度的数据通过散列算法输出固定长度的数据。

哈希碰撞：对于不同的输入数据，经过哈希函数生成输出数据，结果一致。

MurmurHash3：是一种经过广泛测试且速度很快的非加密哈希函数，可以产出32位的散列值。

Fnv-1a：FNV哈希被设计为快速，同时保持较低的冲突率。该FNV速度允许一个快速散列大量的数据，同时保持合理的碰撞率。FNV散列的高度分散性使其非常适合散列几乎相同的字符串，例如URL，主机名，文件名，文本，IP地址等。

redis：一种可基于内存，快速实现读写的key-value数据库，读数据速度大概是11万每秒，写速度大概是8w次每秒。

bitmap：一种数据结构，使用bit位作为存储单位，即0：表示数据不存在，1：表示数据存在，节约存储空间，20亿个数使用bitmap大约占用2000000000/8/1024/1024大约238m内存空间。

目前，在审核系统中，理论上每天要对所有需要发布的视频、文字、图片数据进行审核，但是有些审核数据在真实业务中，出于各种目的本身数据就是安全可靠的，不需要审核人员进行审核。例如：为了应对诸如春节、大型庆典等特殊时期业务，整个视频业务会放大视频上传、评论的流量，以验证特殊时期大流量访问下，系统仍然可以稳定支持业务。而为了放大流量，有时往往采取复制已有安全数据流量的方式，将每天审核通过的视频5倍、10倍的进行重新上传，进行大流量验证，对这些数据进行重复审核增加了审核人员的工作量，增加了审核成本。

除了上述的问题之外，传统的审核流程中，如果需要对某些数据进行免审处理，需要由业务方提出需求，在针对需求进行公共特征提取。例如：标题以“抓取视频”为开头、视频标签包含“过审”等类似公共特征，审核平台进行开发，再进行测试、联调、上线后，对审核数据进行免审。并且，如果需要对历史数据进行比对，一般情况下会将审核历史存储到关系型数据库中，在下次审核时，查询审核数据特征信息，在数据库中查询对比。传统的审核流程中需要针对不同的对接业务方进行编码开发，通过编码实现免审规则的配置，以及实现判断业务方是否需要免审的过程，审核过程中如果命中免审规则，则对数据进行免审。

随着对接业务方不断增多，免审规则与需要进行免审的业务也是不断变化。一来需要进行判断的代码变得冗长、维护困难，二来一旦业务方变更或者添加了新的需求，审核系统都要进行升级，频繁的升级也影响了审核系统自身的稳定运行。并且，如果从数据库中对历史数据进行比对的话，数据库的读取速度较慢，影响审核进度，redis这样的内存数据库读写速度没有问题但内存的容量又有限，如果当前审核数据存储到内存中的话，假设视频审核信息包含视频ID（8字节），视频标题（平均最少5*4字节），视频简介（平均最少10*4字节），视频标签（平均最少2*4字节），视频封面（平均最少32*4字节），视频封面（平均最少10*32*4字节），视频MD5（16字节），视频上传时间（8字节），视频用户信息（8字节），视频通道信息（平均最少35*4字节），视频类型信息（平均最少25*4字节），审核高亮信息（平均最少200*4字节），审核关键词命中信息（平均最少200*4字节），审核人员及相关信息（大概3072字节）最少一条视频审核信息包含8 + 20+40+8+128+1280+16+8+8+140+100+800+800+3072=6428字节，一天的视频信息量大概在25万左右，大概需要250000*6428 =1.5G内存，所需内存空间非常巨大。

传统审核数据的方案中，业务方的免审需求迭代，需要由审核系统进行定制开发，随着对接业务方越来越多，针对不同业务方的逻辑，代码变得复杂和多样，审核系统的开发、测试工作量也会随之加大，冗长的逻辑使得维护量增加，测试完成后，系统频繁升级也会影响系统的稳定性；过往免审需求如果想要下线，或者更新也是需要重新开发、测试、上线的；定制开发时有些配置需要根据不同环境进行开发，例如：线上某个特定用户的ID，在测试环境、线上环境上是不同的，这也给线上环境带来了风险。

如果业务方想要将线上数据完整、多次、重复的发送到测试环境，这种情况，往往因为没有明显特征而无法进行区分，从而无法进行免审，强制通过特征进行免审后，又与测试环境新写入的真实测试数据冲突造成误免审，并且基于内存数据库进行历史审核数据校验，需要内存量巨大，计算量大的方式。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。本发明可以应用在审核系统中，执行主体可以为审核系统的处理器或执行器，本发明提供的方法流程图具体如图1所示，具体说明如下所述：

S101：获取待审核数据。

待审核数据可以为用户上传的需要发布的数据，示例性，如视频、图片、文档或是音乐等。

获取的待审核数据可以是通过初步审核的数据，可以对用户上传的数据进行初步的筛选，减少审核量。

获取待审核数据的具体过程如下所述：

接收媒体数据；

对媒体数据进行审核；

当媒体数据审核通过，将媒体数据确定为待审核数据；

当媒体数据审核不通过时，生成审核未通过的审核结果。

需要说明的是，此处对媒体数据进行审核可以理解为对媒体数据进行机器审核，目的是对媒体数据进行初步筛选，而通过审核的媒体数据可以确定为合格的数据，将该数据确定为待审核数据。

当媒体数据审核不通过时，生成与该媒体数据对应的审核未通过的审核结果，优选的，在生成该媒体数据的审核结果后，可以在已审数据信息中增加该媒体数据的已审核标识。

需要说明的是，对媒体数据进行审核的内容包括但不限于HTML标签过滤、手机号、座机、邮箱过滤、替换视频真正上传者ID、补充上传用户信息、高亮处理标签、简介、标题、MD5视频命中、禁词检测、封禁黑名单禁言用户检测、同盾检测、易盾检测、审核词校验、基因命中查询、版权基因命中查询、境外IP查询等；优选的，审核的内容中只要有任意一项表征为不通过时，则可以直接确定媒体数据审核不通过。

S102：获取免审配置信息。

免审配置信息中包含工作人员设置的各个免审用户、各个免审通道以及免审周期。

需要说明的是，免审配置信息可以随时进行更新。

在设置免审用户时，可以通过在白名单中添加用户的标签实现免审用户的配置；标签的内容包括但不限于用户昵称、用户ID、安全手机号、注册IP、使用的域名等信息，将生成的标签在白名单中保存，完成对免审用户的配置。

在设置免审通道时，在通用的配置后台进行底层通道编辑，然后发布，完成免审通道的配置。

免审周期通常是指距离当天前N天，例如-7~0表示从前7天到当前时间范围，免审周期也可以在通用的配置后台进行时间范围配置得到。

S103：基于免审配置信息判断待审核数据是否满足预设的免审条件；当确定待审核数据未满足免审条件时，执行S104；当确定待审核数据满足免审条件时，执行S109。

参照图2，为本发明实施例提供的判断待审核数据是否满足预设的免审条件的方法流程图，具体说明如下所述：

S201：基于免审配置信息，确定各个免审通道和各个免审用户信息。

对免审配置信息进行解析，得到各个免审通道和各个免审用户信息。

S202：确定待审核数据的底层通道以及上传者信息。

基于用户上传数据时使用的通道信息确定待审核数据的底层通道。

根据用户上传数据前使用的登录信息，确定上传者信息。

S203：判断各个免审通道中是否存在与底层通道一致的通道，当确定各个免审通道中不存在与底层通道一致的通道时，执行S204；当确定各个免审通道中存在与底层通道一致的通道时，执行S206。

将底层通道遍历各个免审通道，以判断各个免审通道中是否存在与底层通道相同的免审通道，当确定不存在时，执行S204；当存在时，执行S206。

进一步的，当确定存在与底层通道相同的免审通道，则可以认为该底层通道上传的数据均是安全的、无需审核的，因此执行S206。

S204：判断各个免审用户信息中是否存在与上传者信息一致的信息；当确定各个免审用户信息中不存在与上传者信息一致的信息时，执行S205；当确定各个免审用户信息中存在与上传者信息一致的信息时，执行S206。

将上传者信息遍历各个免审用户信息，以便判断各个免审用户信息中是否存在与上传者信息一致的免审用户信息；进一步的，当存在时，可以确定该用户上传的信息均是安全、无需审核的，因此执行S206。

S205：确定待审核数据不满足免审条件。

S206：确定待审核数据满足免审条件。

本发明实施例提供的方法中，S203和S204之间的执行顺序无先后之分；当先执行S204时，若确定各个免审用户信息中存在与上传者信息一致的信息，则执行S206；若确定各个免审用户信息中不存在与上传者信息一致的信息时，执行S203；接着，当执行S203，确定各个免审通道中不存在与底层通道一致的通道时，执行S205；确定各个免审通道中存在与底层通道一致的通道时，执行S206。

本发明实施例提供的方法中，在存在与上传者信息一致的免审用户信息，和/或存在与底层通道一致的免审通道时，确定待审核数据满足预设的免审条件，在不存在与上传者信息一致的免审用户信息以及不存在与底层通道一致的免审通道时，确定待审核数据不满足预设的免审条件。在待审核数据满足免审条件时，无需对待审核数据进行审核，可直接确定为审核通过，由此可以有效的对数据进行筛选，有效减少审核人员的审核工作量，减少资源消耗。

S104：获取与免审配置信息中的免审周期对应的已审数据信息。

需要说明的是，已审数据信息中包含免审周期中每条已审核的数据的已审核标识，每条已审核的数据的已审核标识使用位图算法进行保存。

示例性的，在免审周期为-7~0时，已审数据信息中包含前7天至当前时间内所有已审核的数据的已审核标识。

S105：获取待审核数据的第一哈希值和第二哈希值。

需要说明的是，调用预设的第一哈希函数对待审核数据进行处理，得到第一散列值，并将第一散列值进行转换，得到第一哈希值；调用预设的第二哈希函数对待审核数据进行处理，得到第二散列值，并将第二散列值进行转换，得到第二哈希值。

进一步的，第一哈希函数可以为MurmurHash、FNV-1a、FNV等哈希函数，第二哈希函数可以为MurmurHash、FNV-1a、FNV等哈希函数，进一步的，第一哈希函数和第二哈希函数是不同的函数，优选的，第一哈希函数为MurmurHash，第二哈希函数为FNV-1a。

第一散列值和第二散列值均为二进制数，优选的，第一散列值和第二散列值可为32位的二进制数据，在对第一散列值和第二散列值进行转换时，是将二进制数转换成十进制数，因此，第一哈希值和第二哈希值均为十进制数。

S106：使用第一哈希值、第二哈希值以及已审数据信息，判断在免审周期内是否存在与待审核数据相同的数据；若确定在免审周期内存在与待审核数据相同的数据，则执行S107；若确定待审核数据在免审周期中不存在相同的数据，则执行S108。

基于第一哈希值、第二哈希值以及已审数据信息，判断在免审周期中是否存在与待审核数据碰撞的数据。

参照图3，为本发明实施例提供的判断在免审周期内是否存在与待审核数据相同的数据的方法流程图，具体说明如下所述：

S301：对已审数据信息进行解析，获取第一审核通过位图、第二审核通过位图、第一审核未通过位图以及第二审核未通过位图。

本发明实施例提供的方法中，已审数据信息中包含第一审核通过位图、第二审核通过位图、第一审核未通过位图以及第二审核未通过位图。

进一步的，已审数据信息中的各个位图用于保存已审核的数据的已审核标识，第一审核通过位图和第二审核通过位图用于保存审核通过的数据的已审核标识，在数据审核通过时，在第一审核通过位图和第二审核通过位图中均存在该数据的已审核标识；第一审核未通过位图和第二审核未通过位图用于保存审核未通过的数据的已审核标识，在数据审核未通过时，第一审核未通过位图和第二审核未通过位图中均存在该数据的已审核标识。

不同的位图对应不同的哈希函数，其中，第一审核通过位图和第一审核未通过位图对应同一哈希函数，优选的，第一审核通过位图和第一审核未通过位图对应第一哈希函数，第一哈希函数可为MurmurHash；第二审核通过位图和第二审核未通过位图对应第二哈希函数，第二哈希函数可为FNV-1a。

优选的，位图有多个比特位，每个比特位的值为1或0，进一步的，1作为数据的已审核标识。

每个已审核的数据均存在两个已审核标识，如果已审核的数据为审核通过，则在第一审核通过位图和第二审核通过位图中均存在对应的比特位，并且这两个比特位的值均为1；如果已审核数据为审核未通过，则在第一审核未通过位图和第二审核未通过位图中均存在对应的比特位，并且这两个比特位的值均为1。

需要说明的是，位图中的比特位的值为0时，表示该比特位不存在对应的已审核的数据。

S302：将第一审核通过位图中与第一哈希值对应的比特位确定为第一比特位。

S303：将第二审核通过位图中与第二哈希值对应的比特位确定为第二比特位。

S304：将第一审核未通过位图中与第一哈希值对应的比特位确定为第三比特位。

S305：将第二审核未通过位图中与第二哈希值对应的比特位确定为第四比特位。

需要说明的是，S302-S305之间没有先后之分，可以并行执行，也可以逐步执行，在逐步执行时，各步的执行顺序可随意排列。

每个哈希值在位图中均存在对应的比特位，优选的，哈希值还可以表示偏移量，示例性的，第一哈希值为2时，可以将第一审核通过位图中偏移量为2的比特位确定为第一比特位，可以将第一审核未通过位图中偏移量为2的比特位确定为第三比特位；第二哈希值为3时，可以将第二审核通过位图中偏移量为3的比特位确定为第二比特位，可以将第二审核未通过位图中偏移量为3的比特位确定为第四比特位。

S306：判断第一比特位和第二比特位中是否均存在已审核标识；若确定第一比特位和第二比特位中均存在已审核标识，则执行S308；若确定第一比特位和/或第二比特位中不存在已审核标识，则执行S307。

判断第一比特位和第二比特位中是否均存在已审核标识时，可以判断第一比特位和第二比特位中的值是否均为1；当确定第一比特位和第二比特位中的值均为1时，可以确定在免审周期内存在与待审核数据相同的数据，并且该数据的审核结果为审核通过；在判断第一比特位和/或第二比特位中的值不为1时，执行S307。

S307：判断第三比特位和第四比特位中是否均存在已审核标识；若确定第三比特位和第四比特位中均存在已审核标识，则执行S308；若确定第三比特位和/或第四比特位中不存在已审核标识，则执行S309。

判断第三比特位和第四比特位中是否均存在已审核标识时，可以判断第三比特位和第四比特位的值是否均为1，当确定第三比特位和第四比特位的值均为1时，执行S308，进一步的，与待审核数据相同的数据的审核结果为审核未通过；当第三比特位和/或第四比特位的值不为1时，执行S309。

S308：确定在免审周期内存在与待审核数据相同的数据。

S309：确定在免审周期内不存在与待审核数据相同的数据。

需要说明的是，步骤S306和S307的执行顺序可以调整，示例性的，可以先执行S307，在确定第三比特位和第四比特位中均存在已审核标识时，执行S308；在确定第三比特位和/或第四比特位中不存在已审核标识时，执行S306；当确定第一比特位和第二比特位中均存在已审核标识时，执行S308；当确定第一比特位和/或第二比特位中不存在已审核标识时，执行S309。

本发明实施例提供的方法中，使用第一审核通过位图、第二审核通过位图、第一审核未通过位图以及第二审核未通过位图，判断在免审周期中是否存在与待审核数据相同的数据，由此可以进一步判断该待审核数据是否需要人工进行审核，可以快速的筛选出不需要审核的数据，减少审核人员的审核工作量。

S107：将免审周期中与待审核数据相同的数据的审核结果作为待审核数据的审核结果。

需要说明的是，通过使用已审数据信息中的第一审核通过位图、第二审核通过位图、第一审核未通过位图以及第二审核未通过位图，可以筛选出三种状态的数据，一种是已审核且通过的数据，一种是已审核但未通过的数据，一种是尚未审核过的数据；进一步的，通过第一审核通过位图和第二审核通过位图确定免审周期中存在与待审核数据相同的数据时，可以确定免审周期中与待审核数据相同的数据的审核结果为审核通过，故而待审核数据的审核结果为审核通过；通过第一审核未通过位图和第二审核未通过位图确定免审周期中存在与待审核数据相同的数据时，可以确定免审周期中与待审核数据相同的数据的审核结果为审核未通过，故而待审核数据中的审核结果为审核不通过。

进一步的，在确定待审核数据为未审核数据时，需要将该待审核数据发往审核人员，以便审核人员对该待审核数据进行审核。

S108：将待审核数据发往对应的审核人员。

S109：确定待审核数据为审核通过数据，并生成表征为审核通过的审核结果。

需要说明的是，在确定待审核数据满足免审条件时，可以直接将该待审核数据确定为审核通过数据，并为该待审核数据生成审核结果，该审核结果表征为审核通过。优选的，在得到该待审核数据的审核结果后，基于该审核结果和位图算法，在已审数据信息中添加该待审核数据的已审核标识。

进一步的，在将待审核数据发往对应的审核人员后，审核人员对待审核数据进行审核，并向系统反馈审核结果，系统根据审核结果和位图算法，在已审数据信息中添加待审核数据的已审核标识。

对在已审数据信息中添加待审核数据的已审核标识做进一步说明，具体如下所述：

当待审核数据的审核结果表征为审核通过时，将第一比特位中的值更新为1，以及将第二比特位中的值更新为1；当待审核数据的审核结果表征为审核不通过时，将第三比特位中的值更新为1，以及将第四比特位中的值更新为1。

本发明实施例提供的方法中，获取待审核数据和免审配置信息，根据免审配置信息判断待审核数据是否满足免审条件；若不满足，则获取与免审配置信息中的免审周期对应的已审数据信息，以及对待审核数据进行哈希处理，得到第一哈希值和第二哈希值；根据已审数据信息、第一哈希值和第二哈希值，判断在免审周期内是否存在与待审核数据相同的数据，若存在，则将该数据的审核结果作为待审核数据的审核结果，若不存在，将待审核数据发往审核人员。使用免审配置信息、已审数据信息以及待审核数据的第一哈希值和第二哈希值对待审核数据进行筛选，可以快速的筛查出待审核数据是否免审，在确定待审核数据免审时，可快速得到待审核数据的审核结论，无需重复的对这些数据进行审核，减少审核人员的审核量，降低审核成本。

本发明在实际应用的过程中，可以应用在以下的免审业务场景中：

情况1、业务方因需要保证数据接近真实场景，会从线上复制一份数据，进行重复、大量、高并发的请求给到自己的测试环境服务。

情况2、业务方因需要最大限度测试自己程序面临各种业务场景的可能性，自己开发，创造出大量各种各样的数据，请求到自己的测试环境。

情况3、业务方创建一些测试账号，保证自己服务不变，从自己的上游服务模拟大量请求，流转到自己的测试环境。

针对于上述的3种情况，本发明涵盖了这3种应用场景中的免审数据的确定方式，具体如：

对于情况1：审核系统对比历史一段时间的审核数据，进行对比，判断当前审核数据是否已审核过，如果审核过，则按照历史结论下发审核结果。对比数据时，使用MurmurHash，FNV-1a同时对审核数据进行散列，并利用redis的bitmap 进行存取，保证读写速度的同时，也保证了内存可控不会占用过多内存。

对于情况2：审核系统配置统一的审核底层通道给到业务方，审核系统根据通道，进行免审操作。

对于情况3：业务方创建了很多测试账号，审核系统也根据这些账号打上免审标签，进行免审。

在此基础上，审核系统的所有配置，包括审核历史查询时间范围、底层通道配置、上传用户标签，全都做到线上处理，即时生效，这样避免了审核系统的频繁升级，保证系统稳定性。

参照图4为本发明实施例提供的数据处理方法的场景应用流程图，具体说明如下所述：

1、为审核系统设置免审配置；免审配置中包含可以免审的底层通道、可以免审的用户、以及免审周期。

2、审核系统接收到待审核数据后，会对待审核数据进行机器审核，会对待审核数据进行机器审核，当机器审核通过时，进入3；当机器审核不通过时，确定待审核数据审核不通过，并记录该待审核数据的审核结果。

3、根据1中的免审配置判断待审核数据的审核通道、上传用户是否免审；当确定免审时，确定该待审核数据审核通过，并记录该待审核数据的审核结果；当确定不免审时，进入4；

需要说明的是免审通道、免审用户的数据量较小，进行判断所需要的资源较少，在此处如果确定待审核数据可以免审，可以减少资源的消耗。

4、对比免审周期中是否存在相同数据，若确定存在相同数据，则下发相同数据的审核结果，若确定不存在相同数据，则进入5。

5、进行人工审核，当审核不通过时，确定待审核数据审核不通过，并记录该待审核数据的审核结果，当审核通过时，记录该待审核数据的审核结果。

需要说明的是，本发明实施例在判断免审周期中是否存在相同数据时，应用到了哈希算法和bitmap数据技术。

免审周期中已审核的数据的状态使用bitmap（位图）数据结构进行存储。对利用bitmap数据结构进行存储数据进行说明：计算机由于硬件原因，最基本的存储单位为0，1，称之为bit。8个bit组成一个字节Byte而常用的Long型整数，由8个Byte组成，使用这些存储单元来表示一个很大的整数。常用的字符，比如一个’a’字母在UTF8mb4编码下使用4个Byte来存储。而bitmap数据结构存储数据时，使用每一个bit最为偏移量，来纪录数据。例如使用bitmap记录数据1，3，5三个数的集合，可以直接在bitmap的1，3，5偏移量下标记对应bit为1，其他不变，所以整个bitmap 只占用了3个bit。而如果使用Long型整数的话，需要（3*8*8bit）192 bit（一个Long 8Byte 一个Byte 8bit 用三个Long）。所以bitmap极其节省空间。

由于bitmap的存储结构特征，每个bit只能是0或1，在审核系统历史数据判断中，需要三种状态值：历史审核不存在，历史审核通过，历史审核不通过，其中，历史审核不通过也可以理解为历史审核拒接。所以存储时，使用了两个集合，一个为历史通过集合bitmap，则只要此集合中有历史数据与待审核数据命中，可以表示存在与待审核数据相同的已审核过的历史数据，且该历史数据审核通过；一个为历史拒绝集合bitmap，则只要此集合中有历史数据与待审核数据命中，可以表示存在与待审核数据相同的已审核过的历史数据，且该历史数据审核通过；如果两个集合都不存在，则确定待审核数据没审核过。

进一步的，历史通过集合bitmap中存在两个bitmap，一个bitmap与哈希函数MurmurHash对应，一个bitmap与FNV-1a对应；历史拒绝集合bitmap中同样存在两个bitmap，一个bitmap与哈希函数MurmurHash对应，一个bitmap与FNV-1a对应。

再说明一下哈希函数，MurmurHash和FNV-1a都是较低碰撞率的哈希函数，理论上哈希函数生成数据量越长，抗碰撞性能越好，32位散列值理论上有2的32次方数据以上才会产生重复数据。但是由于bitmap虽然节约但也不是无限大的存储容量。所以使用两种哈希函数同时对原始数据进行哈希函数计算，两种不同哈希函数都碰撞了，才算碰撞。那哈希碰撞的概率就是两种碰撞概率相乘，两种都是32位散列结果，那碰撞的概率则是2的64次方分之一。所以之后描述bitmap命中实际上是指两种哈希函数后的bitmap都命中，才算作命中，有一个没命中则算作不命中。

历史数据根据配置的时间范围，从审核历史存储中，将历史数据进行两种哈希，计算后分别存入对应的bitmap中，以备后续查询。

对待审核数据使用MurmurHash、FNV-1a哈希函数进行处理，由于它们联合使用的哈希碰撞率极低，认为它不太可能重复，即如果散列值一致则认为与历史数据一致，否则与历史数据不一致。进一步的，将待审核书的两个散列值进行十进制转换，得到两个哈希值；对于每个哈希值，在历史通过集合bitmap的对应bitmap中确定对应的偏移量；确定历史通过集合bitmap中的两个偏移量是否均为1，如果都是1，则确定待审核数据的审核通过；如果不都是1，则对于每个哈希值，在历史拒绝集合bitmap的对应bitmap中确定对应的偏移量；确定历史通过集合bitmap中的两个偏移量是否均为1，如果都是1，则确定待审核数据的审核不通过，如果不都是1，则确定该待审核数据需要进行人工审核。

进一步的，在进行人工审核，无论审核结果如何，都记录到对应的集合bitmap中，标记为1流程结束。

按照上述描述，每个待审核数据会生成两种32位的散列值（两种哈希函数），一个32位散列值可以看作一个32位2进制数，最大11111111111111111111111111111111（32个1）转换成对应10进制数4294967295，占用bitmap大概需要512MB内存空间。也就是7天的数据，总共需要2种状态（审核通过、审核拒绝）*2种哈希函数*512M，2G内存空间，碰撞概率在2的64次方分之一。也就是说传统方式1天25w数据就需要1.5G内存空间进行存储，而本发明的方案理论上使用2G内存空间能存储2的64次方的审核历史数据，由此可见，本发明可以节约内存。

在现实的应用中，如果业务方明确审核时，视频ID+视频版本可以直接表示视频唯一属性，不需要审核系统判断视频唯一性，此时审核系统进行历史数据判断时，使用的bitmap的偏移量直接就可以用视频ID+视频版本。

此方案视频ID、视频版本皆为整数，且范围确定，使用视频ID拼接视频版本的形式给视频版本预留3位即支持999个版本（实际上没有这么多版本的数据）。25万视频数据范围理论上是250000*1000 这么多ID，算上ID偏差和数据量突增的风险，需要500000*1000 这么多ID，使用bitmap的话，占用内存空间只需要 500000*1000/8/1024/1024 约59M内存。

本发明提供的方案中，数据唯一性交由视频业务方确认，对于审核系统而言存在一定风险，但内存使用率相当高，原因在于，视频ID在新建上传时，是相对自增，紧凑的。即某一天视频ID最大，最小值的差理论上是当天视频的数量，算上业务异常、误差等情况，误差乘以了两倍，这样一来Bitmap的利用率很高，而专利中提到的方法，散列值是平均分布的，无法直接获取某一范围的整形数据存储到bitmap中。

本发明提供的方案中，免审配置对审核系统而言，减少了重复的人工审核的工作量，降低成本。底层通道配置和用户标签免审，将业务方的需求变更开发交还给了业务方来处理，审核系统只维护审核相关的功能，无需因为业务方的需求变更而进行免审变更，增强了审核系统自身稳定性。

审核系统自动免审，使用2G内存空间，可以存储大量审核历史结果（2的64次方），大大节约了内存资源。使用redis的bitmap数据结构，也可以非常快的完成读、写操作不拖慢整体审核速度。

三种免审配置方式均直接在线上进行配置，配置完成后即可生效，无需重启服务，不会因为变更免审配置而影响整体审核系统的数据吞吐量。

本发明实施例还提供一种数据处理装置，该装置用于支持图1所示的方法在现实生活中的实现，该装置可以设置在由计算机组建的审核系统中，该装置的结构示意图如图5所示，具体说明如下所述：

第一获取单元501，用于获取待审核数据；

第二获取单元502，用于获取免审配置信息；

第一判断单元503，用于基于所述免审配置信息判断所述待审核数据是否满足预设的免审条件；

第三获取单元504，用于当确定所述待审核数据未满足所述免审条件时，获取与所述免审配置信息中的免审周期对应的已审数据信息，所述已审数据信息中包含免审周期中每条已审核的数据的已审核标识，每条已审核的数据的已审核标识使用位图算法进行保存；

第四获取单元505，用于获取所述待审核数据的第一哈希值和第二哈希值；

第二判断单元506，用于使用所述第一哈希值、所述第二哈希值以及所述已审数据信息，判断在所述免审周期内是否存在与所述待审核数据相同的数据；

确定单元507，用于若确定在所述免审周期内存在与所述待审核数据相同的数据，则将所述免审周期中与所述待审核数据相同的数据的审核结果作为所述待审核数据的审核结果；

发送单元508，用于若确定所述待审核数据在所述免审周期中不存在相同的数据，则将所述待审核数据发往对应的审核人员。

本发明实施例提供的装置，根据获取的免审配置信息判断获取的待审核数据是否满足免审条件；若不满足，则根据获取的已审数据信息、待审核数据的第一哈希值和第二哈希值，判断在免审周期内是否存在与待审核数据相同的数据，若存在，则将该数据的审核结果作为待审核数据的审核结果，若不存在，将待审核数据发往审核人员。使用免审配置信息、已审数据信息以及待审核数据的第一哈希值和第二哈希值对待审核数据进行筛选，可以快速的得到待审核数据的审核结论，无需重复的对这些数据进行审核，减少审核人员的审核量，降低审核成本。

本发明实施例提供的装置中，所述第一获取单元，包括：

接收模块，用于接收媒体数据；

审核模块，用于对所述媒体数据进行审核；

本发明实施例提供的装置中，所述第一判断单元，包括：

本发明实施例提供的装置中，还包括：

本发明实施例提供的装置中，所述第四获取单元，包括：

本发明实施例提供的装置中，所述第二判断单元，包括：

本发明实施例提供的装置中，还包括：

第五获取单元，用于获取所述审核人员反馈的审核结果；

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述数据处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图6所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作：

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待审核数据；

获取免审配置信息；

获取所述待审核数据的第一哈希值和第二哈希值；

对所述已审数据信息进行解析，获取第一审核通过位图、第二审核通过位图、第一审核未通过位图以及第二审核未通过位图，其中，所述第一审核通过位图和所述第一审核未通过位图对应第一哈希函数，所述第二审核通过位图和所述第二审核未通过位图对应第二哈希函数；

若确定所述第一比特位和/或所述第二比特位中不存在已审核标识，则判断所述第三比特位和所述第四比特位中是否均存在已审核标识；

若确定所述第三比特位和/或第四比特位中不存在已审核标识，则确定在所述免审周期内不存在与所述待审核数据相同的数据；

2.根据权利要求1所述的方法，其特征在于，所述获取待审核数据，包括：

接收媒体数据；

对所述媒体数据进行审核；

3.根据权利要求1所述的方法，其特征在于，所述基于所述免审配置信息判断所述待审核数据是否满足预设的免审条件，包括：

确定所述待审核数据的底层通道以及上传者信息；

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述待审核数据的第一哈希值和第二哈希值，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

获取所述审核人员反馈的审核结果；

7.一种数据处理装置，其特征在于，包括：

第一获取单元，用于获取待审核数据；

第二获取单元，用于获取免审配置信息；

发送单元，用于若确定所述待审核数据在所述免审周期中不存在相同的数据，则将所述待审核数据发往对应的审核人员；

所述第二判断单元，具体用于对所述已审数据信息进行解析，获取第一审核通过位图、第二审核通过位图、第一审核未通过位图以及第二审核未通过位图，其中，所述第一审核通过位图和所述第一审核未通过位图对应第一哈希函数，所述第二审核通过位图和所述第二审核未通过位图对应第二哈希函数；将所述第一审核通过位图中与所述第一哈希值对应的比特位确定为第一比特位；将所述第二审核通过位图中与所述第二哈希值对应的比特位确定为第二比特位；将所述第一审核未通过位图中与所述第一哈希值对应的比特位确定为第三比特位；将所述第二审核未通过位图中与所述第二哈希值对应的比特位确定为第四比特位；判断所述第一比特位和所述第二比特位中是否均存在已审核标识；若确定所述第一比特位和所述第二比特位中均存在已审核标识，则确定在所述免审周期内存在与所述待审核数据相同的数据；若确定所述第一比特位和/或所述第二比特位中不存在已审核标识，则判断所述第三比特位和所述第四比特位中是否均存在已审核标识；若确定所述第三比特位和所述第四比特位中均存在已审核标识，则确定在所述免审周期内存在与所述待审核数据相同的数据；若确定所述第三比特位和/或第四比特位中不存在已审核标识，则确定在所述免审周期内不存在与所述待审核数据相同的数据。

8.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1-6任意一项所述的数据处理方法。

9.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1-6任意一项所述的数据处理方法。