CN114528421A

CN114528421A - 内容审核方法、装置、电子设备及存储介质

Info

Publication number: CN114528421A
Application number: CN202210152539.3A
Authority: CN
Inventors: 张钧辉
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-24

Abstract

本申请实施例提供了一种内容审核方法、装置、电子设备及存储介质，该方法包括：获取待审核的目标内容工单，其中，所述目标内容工单中包括至少一种类型的内容数据；分别对所述至少一种类型的内容数据进行特征提取处理，获得与所述目标内容工单对应的第一特征数据和第二特征数据；将所述第一特征数据和所述第二特征数据与历史内容工单的特征数据进行相似度匹配，获得匹配结果；根据所述匹配结果，对所述目标内容工单进行审核处理，以获得目标审核结果。该方法可以目标审核结果的准确性以及降低审核系统的系统压力，保障系统稳定运行。

Description

内容审核方法、装置、电子设备及存储介质

技术领域

本公开实施例涉及互联网技术领域，更具体地，涉及一种内容审核方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，为避免内容数据的违规发布，通常在对业务系统推送的内容工单进行审核处理时，会将内容工单中内容数据与系统中已经发布的历史内容数据进行相似度计算，以根据相似度匹配结果，确定针对该内容工单的审核结果，其中，在针对内容数据进行相似度计算时，通常或是基于两者的MD5值来进行相似度匹配，或是通过计算两者的余弦相似度(Cosinesimilarity)来进行相似度匹配。

然而，上述针对内容工单进行审核的方法一方面由于是基于较为单一的方法进行相似度匹配，因此，其一方面存在准确度低的问题，另一方面还存在计算复杂度高以及普适性差的问题。

发明内容

本公开的一个目的是提供一种用于审核内容工单的新的技术方案，以方便、准确的对内容工单进行审核处理。

本公开的第一方面，提供了一种内容审核方法，所述方法包括：

获取待审核的目标内容工单，其中，所述目标内容工单中包括至少一种类型的内容数据；

分别对所述至少一种类型的内容数据进行特征提取处理，获得与所述目标内容工单对应的第一特征数据和第二特征数据；

将所述第一特征数据和所述第二特征数据与历史内容工单的特征数据进行相似度匹配，获得匹配结果；

根据所述匹配结果，对所述目标内容工单进行审核处理，以获得目标审核结果。

本公开的第二方面，提供了一种内容审核装置，所述装置包括：

获取模块，用于获取待审核的目标内容工单，其中，所述目标内容工单中包括至少一种类型的内容数据；

特征提取模块，用于分别对所述至少一种类型的内容数据进行特征提取处理，获得与所述目标内容工单对应的第一特征数据和第二特征数据；

相似度匹配模块，用于将所述第一特征数据和所述第二特征数据与历史内容工单的特征数据进行相似度匹配，获得匹配结果；

审核处理模块，用于根据所述匹配结果，对所述目标内容工单进行审核处理。

本公开的第三方面，还提供了一种电子设备，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述指令的控制运行所述电子设备执行本公开的第一方面所述的内容审核方法。

本公开的第四方面，还提供了一种计算机可读存储介质的，所述计算机可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行根据本公开的第一方面所述的内容审核方法。

本公开实施例的一个有益效果在于，根据本公开的实施例，在获取到目标内容工单之后，通过分别对该目标内容工单中不同类型的内容数据进行特征提取处理，以及，根据获得的第一特征数据和第二特征数据与历史内容工单的特征数据进行相似度匹配，并根据获得的匹配结果对目标内容工单进行审核出来，可以解决现有基于单一的相似度匹配方法以确定审核结果时可能存在的准确度不够以及普适性差的问题，从而提升目标审核结果的准确性以及降低审核系统的系统压力，保障系统稳定运行。

通过以下参照附图对本说明书的示例性实施例的详细描述，本说明书的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例，并且连同其说明一起用于解释本说明书的原理。

图1是本公开实施例提供的一种内容审核方法的流程示意图。

图2是本公开实施例提供的内容审核处理的框架示意图。

图3是本公开实施例提供的内容数据相似度处理的框架示意图。

图4是本公开实施例提供的内容审核装置的原理框图。

图5是本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<方法实施例>

目前，针对用户生产的内容数据，在用户申请发布该内容数据时，响应于用户的发布操作，终端设备会根据用户的用户标识、国际码、语言码等，对应生产包含该内容数据的内容工单，并将该内容工单发送至审核系统进行审核，以避免用户违规发布内容数据。在相关技术中，审核系统在接收到待审核的内容工单之后，一般是计算该内容工单中内容数据的MD5值，例如，计算内容数据中文字、图像URL、视频URL的MD5值，并基于该MD5值，查询已经发布的历史内容工单中是否包含相同内容数据；或者是使用余弦相似度算法计算内容工单中内容数据与历史内容工单中的内容数据的相似度；若历史内容工单中存在与当前待审核的内容工单相同或相似的内容数据，则将对应历史内容工单的审核结果作为当前内容工单的审核结果。

然而，在通过比较MD5值以对内容数据进行相似度匹配时，其匹配方法通常较为单一，即，只有完全相同的内容该种方法才会认为两者相同，而对于相似内容该种方法均会认为两者不同。例如，针对文本“hi”和“hi”，两者实际是相似的，但是基于比较MD5值的方式对两者进行相似度匹配，则会判定为两者不同，即，两者不匹配，这明显与实际不符。另外，在基于余弦相似度算法对内容数据进行相似度匹配时，其计算复杂度往往较高，不适合匹配长文本等内容。

为解决上述问题，本公开的实施例提供了一种内容审核方法，请参看图1，其是本公开实施例提供的内容审核方法的流程示意图。该方法可以由电子设备实施，该电子设备具体可以为服务器，当然，根据需要，也可以将该方法应用于终端设备中，此处不作特殊限定。

如图1所述，本实施例的方法可以包括如下步骤S1100-S1400，以下予以详细说明。

步骤S1100，获取待审核的目标内容工单，其中，所述目标内容工单中包括至少一种类型的内容数据。

目标内容工单，是指根据用户待发布的内容数据所生成的、供服务器中的审核系统进行审核的工单。

在本公开的实施例中，内容工单中的内容数据可以包括文本、图像、视频以及音频中的至少一项。

步骤S1200，分别对所述至少一种类型的内容数据进行特征提取处理，获得与所述目标内容工单对应的第一特征数据和第二特征数据。

第一特征数据，可以是基于预设散列算法，例如，MD5算法计算得到的每一种类型的内容数据的散列值，即MD5值。

第二特征数据，可以是根据目标内容工单中内容数据的类型，对其进行针对性的特征提取处理后得到的特征数据。

具体地，在相关技术中，一方面是在基于单一方法进行相似度匹配以确定内容工单的审核结果时，可能存在结果不准确以及计算复杂度高的问题；另一方面，在对内容工单进行审核处理时，往往只能针对单一类型的内容工单进行审核处理，即，只能针对文本类型的内容工单或者图像类型的内容工单进行审核处理，而不能对包含多种类型的内容数据直接进行匹配处理，其匹配耗时往往较高。

因此，在本公开的实施例中，为了可以快速、准确得得到目标内容工单的目标审核结果，通过分别提取目标内容工单中的第一特征数据，以及与其类型分别对应的第二特征数据，以根据该第一特征数据和该第二特征数据，对内容工单中的内容数据进行相似度匹配，进而获得目标审核结果。

在一个实施例中，所述分别对至少一种类型的内容数据进行特征提取处理，获得与目标内容工单对应的第一特征数据和第二特征数据，包括：对至少一种类型的内容数据进行数据清洗处理；基于预设散列算法对进行数据清洗处理后的内容数据分别进行散列计算，并将计算得到的至少一个散列值作为第一特征数据；以及，分别对进行数据清洗处理后的至少一种类型的内容数据进行对应类型的特征提取处理，以获得第二特征数据；其中，所述类型包括以下至少一项：文本、图像、视频、音频，所述第二特征数据包括以下至少一项：与文本类型的内容数据对应的simhash值、与图像类型的内容数据和视频类型的内容数据对应的方向梯度直方图(HOG，HistogramOfOrientedGradients)特征向量、与音频类型的内容数据对应的梅尔频率倒谱系数(MFCC，Mel-FrequencyCepstralCoefficients)特征向量。

在该实施例中，该预设散列算法可以为MD5算法。

具体请参看图2，其是本公开实施例提供的内容审核处理的框架示意图。如图2所示，针对现有在比较MD5值以确定比较双方是否一致时存在的结果不够准确的问题，在具体实施时，在得到目标内容工单之后，可以先进行数据预处理，即，对目标内容工单中的内容数据根据其类型进行分类，以及，进行数据清洗处理。

其中，有关如何对内容数据进行分类此处不再赘述，此处仅对如何对内容数据进行数据清洗进行说明。

在一个实施例中，所述对至少一种类型的内容数据进行数据清洗处理，包括：去除文本类型的内容数据中的空格以及标点符号；以及，去除图像类型的内容数据、视频类型的内容数据以及音频类型的内容数据的统一资源定位器(URL，UniformResourceLocator)中的冗余参数。

例如，针对文本“h,i”，经过数据清洗处理后变为“hi”。又例如，针对图像类型内容数据的url：“http://www.xxx.com/？a＝1&b＝2”，经过数据清洗处理后变为“http://www.xxx.com/”。

请继续参看图2，所述基于预设散列算法对进行数据清洗处理后的内容数据分别进行散列计算，并将计算得到的至少一个散列值作为第一特征数据，具体可以为针对目标内容工单中的文本内容、图像内容的url、视频内容的url以及音频内容的url，基于MD5算法计算其MD5值作为该第一特征数据。

所述分别对所述进行数据清洗处理后的至少一种类型的内容数据进行对应类型的特征提取处理，以获得第二特征数据，包括：基于预设simhash算法计算文本类型内容数据的simhash值；获取图像类型内容数据的第一方向梯度直方图特征向量；获取视频类型内容数据中的视频帧的第二方向梯度直方图特征向量，以及，获取音频类型内容的梅尔频率倒谱系数特征向量；根据该simhash值、该第一方向梯度直方图特征向量、该第二方向梯度直方图特征向量以及该梅尔频率倒谱系数特征向量，构建第二特征数据。

具体地，所述基于预设simhash算法计算文本类型内容数据的simhash值，是指针对文本类型的内容数据，通过对其进行分词处理、第一降维处理、加权处理、合并处理以及第二降维处理后得到其对应的simhash值。

其中，分词处理，是指对该内容数据进行分词，得到其对应的特征向量，同时，为每一特征向量设置预设级别，例如，1-5等5个级别的权重；第一降维处理，也称hash处理，是指基于预设hash函数分别计算分词处理得到的每一特征向量的hash值；加权处理，是指对第一降维处理中得到的hash值分别对应进行加权值累加处理，以形成加权数字串；合并处理，是指将加权处理中得到的各加权数字串进行累加，得到一个序列串；第二降维处理，是指将合并处理得到的序列串转换为二进制，并将转换得到的二进制串作为对应内容数据的simhash值。

需要说明的是，由于如何计算文本对应的simhash在相关技术中有详细说明，因此，此处只做简单说明，其详细计算过程此处不再赘述。

在一个实施例中，所述获取图像类型内容数据的第一方向梯度直方图特征向量，包括：基于OpenCV提供的HOGDescriptor方法计算该第一方向梯度直方图特征向量。

在一个实施例中，所述获取视频类型内容数据的第二方向梯度直方图特征向量，具体可以基于截图应用，例如，FFmpeg应用对视频类型内容数据进行截图处理，将截图得到的视频帧的HOG特征向量作为该内容数据的特征向量。

另外，有关如何提取音频类型的MFCC特征向量此处不再赘述。需要说明的是，在具体实施时，针对不同类型的内容数据，当然也可以基于其他方法获取其特征向量，此处不做特殊限定。

步骤S1300，将所述第一特征数据和所述第二特征数据与历史内容工单的特征数据进行相似度匹配，获得匹配结果。

请参看图3，其是本公开实施例提供的内容数据相似度处理的框架示意图。如图3所示，在一个实施例中，所述将第一特征数据和第二特征数据与历史内容工单的特征数据进行相似度匹配，获得匹配结果，包括：通过确定第一数据库中是否存在与第一特征数据相同的历史特征数据，获得第一匹配结果，其中，第一数据库用于存储历史内容工单的第一特征数据；以及，在第一匹配结果表示未匹配成功的情况下，通过确定第二数据库中是否存在与第二特征数据相似的历史特征数据，获得第二匹配结果，其中，该第二数据库用于存储历史内容工单的第二特征数据。

第一数据库，可以为用于存储历史内容工单中内容数据的第一特征数据，例如，MD5值的数据库，该第一数据库例如可以为MySQL数据库。第二数据库可以是用于存储以及提供特征相似度搜索的数据库，例如，可以为Faiss数据库、Ann数据库等。

具体地，在本公开的实施例中，为了提升审核速度，在对目标内容工单中的内容数据进行相似度匹配时，可以先到第一数据库中与历史内容工单对应的MD值进行匹配，以获取第一匹配结果；若第一数据库中未匹配到相同MD5值，则到第二数据库中搜索与第二特征数据相似的特征向量，以获取第二匹配结果。

在一个实施例中，所述通过确定第二数据库中是否存在与第二特征数据相似的历史特征数据，获得第二匹配结果，具体可以为：针对文本类型内容数据，比较搜索结果中历史特征数据，即历史simhash值与当前内容数据的当前simhash值的海明距离、欧式距离或者曼哈顿距离，以确定比较双方是否相似；对于图像、视频以及音频类型的内容数据，则可以计算比较双方特征向量之间的欧式距离，计算结果越接近1则说明两者较为相似。

在具体实施时，针对包含多种类型内容数据的目标内容工单，在获取匹配结果时，可以对不同类型内容数据进行相似度匹配时得到的结果进行加权平均，以得到归一化的匹配结果。例如，文本类型内容数据的权重可以为10％，图像类型内容数据的权重可以为40％，视频类型内容数据的权重可以为40％，音频类型内容数据的权重可以为10％。

步骤S1400，根据所述匹配结果，对所述目标内容工单进行审核处理，以获得目标审核结果。

请继续参看图3，在一个实施例中，所述根据匹配结果，对目标内容工单进行审核处理，以获得目标审核结果，包括：在第一匹配结果或者第二匹配结果表示匹配成功的情况下，获取匹配历史内容工单的审核结果作为目标审核结果，其中，匹配历史内容工单为与第一特征数据相同或者与第二特征数据相似的历史特征数据所对应的内容工单；或者，在第一匹配结果或者第二匹配结果均表示未匹配成功的情况下，将该目标内容工单推送至人工审核系统，并接收人工审核系统提供的审核结果作为所述目标审核结果。

即，在基于目标内容工单中内容数据的特征数据与历史内容工单进行相似度匹配时，若能匹配到匹配历史内容工单，则为提升审核速度，可以直接将匹配历史内容工单的审核结果作为当前的目标审核结果；而若未能匹配到匹配历史内容工单，则将该目标内容工单推送至人工审核系统进行审核处理，以确保内容数据不会被违规发布。

需要说明的是，在具体实施时，若第一匹配结果或者第二匹配结果均表示未匹配成功，则该方法还包括：将该第一特征数据存储至第一数据库，以及，将该第二特征数据存储至第二数据库。在该实施例中，在该目标内容工单被推送至人工审核系统进行审核并获取到目标审核结果之后，该方法还包括：根据该目标审核结果，更新该第一特征数据和该第二特征数据对应的审核结果。

即，若系统中未发布过当前工单中相同或相似的内容数据，则可以将当前内容数据的特征数据存储至第一数据库和第二数据库，并在获得其审核结果后将其审核结果也更新至对应记录中，以便于在之后出现新的相同或相似内容数据后，可以直接将该审核结果作为其对应的审核结果，进而提升审核速度。

另外，为避免数据库中数据不断增长可能对系统造成的隐患，在一个实施例中，该方法还包括：在所述第一匹配结果表示匹配成功的情况下，更新所述第一数据库中与所述第一特征数据相同的历史特征数据的命中次数；或者，在所述第二匹配结果表示匹配成功的情况下，更新所述第二数据库中与所述第二特征数据相似的历史特征数据的命中次数；以及，根据所述第一数据库、所述第二数据库中对应历史特征数据的命中次数，按照预设时间间隔对最少命中次数的历史特征数据进行淘汰处理。

即，在进行审核处理时，若数据库中的特征数据被成功匹配到，则说明该特征数据的命中频率较高，因此，可以将其继续保留在数据库中；而针对命中次数较少的特征数据，则可以按照预设时间间隔，例如，每天定时对其进行清理，以控制数据库的数据量，减轻数据存储带来的存储资源压力，同时也能保证搜索速度以及系统的稳定运行。

综上所述，本公开的实施例提供的内容审核方法，在获取到目标内容工单之后，通过分别对该目标内容工单中不同类型的内容数据进行特征提取处理，以及，根据获得的第一特征数据和第二特征数据与历史内容工单的特征数据进行相似度匹配，并根据获得的匹配结果对目标内容工单进行审核出来，可以解决现有基于单一的相似度匹配方法以确定审核结果时可能存在的准确度不够以及普适性差的问题，从而提升目标审核结果的准确性以及降低审核系统的系统压力，保障系统稳定运行。

<装置实施例>

与上述方法实施例相对应，在本实施例中，还提供一种内容审核装置，如图4所述，该装置400可以包括获取模块410、特征提取模块420、相似度匹配模块430和审核处理模块440。

该获取模块410，用于获取待审核的目标内容工单，其中，所述目标内容工单中包括至少一种类型的内容数据；该特征提取模块420，用于分别对所述至少一种类型的内容数据进行特征提取处理，获得与所述目标内容工单对应的第一特征数据和第二特征数据；该相似度匹配模块430，用于将所述第一特征数据和所述第二特征数据与历史内容工单的特征数据进行相似度匹配，获得匹配结果；该审核处理模块440，用于根据所述匹配结果，对所述目标内容工单进行审核处理。

<设备实施例>

在本实施例中，还提供一种电子设备，如图5所述，该电子设备500可以包括处理器520和存储器510，该存储器510用于存储可执行的指令；该处理器520用于根据指令的控制运行电子设备以执行根据本公开任意实施例的内容审核方法。

<计算机可读存储介质实施例>

本实施例提供了一种计算机可读存储介质，该存储介质中存储有可执行命令，该可执行命令被处理器执行时，执行本说明书任意方法实施例中描述的内容审核方法。

附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本说明书的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本申请的范围由所附权利要求来限定。

Claims

1.一种内容审核方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别对所述至少一种类型的内容数据进行特征提取处理，获得与所述目标内容工单对应的第一特征数据和第二特征数据，包括：

对所述至少一种类型的内容数据进行数据清洗处理；

基于预设散列算法对所述进行数据清洗处理后的内容数据分别进行散列计算，并将计算得到的至少一个散列值作为所述第一特征数据；以及，

分别对所述进行数据清洗处理后的至少一种类型的内容数据进行对应类型的特征提取处理，以获得所述第二特征数据；

其中，所述类型包括以下至少一项：文本、图像、视频、音频，所述第二特征数据包括以下至少一项：与文本类型的内容数据对应的simhash值、与图像类型的内容数据和视频类型的内容数据对应的方向梯度直方图特征向量、与音频类型的内容数据对应的梅尔频率倒谱系数特征向量。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一特征数据和所述第二特征数据与历史内容工单的特征数据进行相似度匹配，获得匹配结果，包括：

通过确定第一数据库中是否存在与所述第一特征数据相同的历史特征数据，获得第一匹配结果，其中，所述第一数据库用于存储历史内容工单的第一特征数据；

在所述第一匹配结果表示未匹配成功的情况下，通过确定第二数据库中是否存在与所述第二特征数据相似的历史特征数据，获得第二匹配结果，其中，所述第二数据库用于存储历史内容工单的第二特征数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述匹配结果，对所述目标内容工单进行审核处理，以获得目标审核结果，包括：

在所述第一匹配结果或者所述第二匹配结果表示匹配成功的情况下，获取匹配历史内容工单的审核结果作为所述目标审核结果，其中，所述匹配历史内容工单为与所述第一特征数据相同或者与所述第二特征数据相似的历史特征数据所对应的内容工单；或者，

在所述第一匹配结果或者所述第二匹配结果均表示未匹配成功的情况下，将所述目标内容工单推送至人工审核系统，并接收所述人工审核系统提供的审核结果作为所述目标审核结果。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述第一匹配结果或者所述第二匹配结果均表示未匹配成功的情况下，将所述第一特征数据存储至所述第一数据库，以及，将所述第二特征数据存储至所述第二数据库。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述第一匹配结果表示匹配成功的情况下，更新所述第一数据库中与所述第一特征数据相同的历史特征数据的命中次数；或者，

在所述第二匹配结果表示匹配成功的情况下，更新所述第二数据库中与所述第二特征数据相似的历史特征数据的命中次数。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述第一数据库、所述第二数据库中对应历史特征数据的命中次数，按照预设时间间隔对最少命中次数的历史特征数据进行淘汰处理。

8.一种内容审核装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述指令的控制运行所述电子设备执行如权利要求1-7任意一项所述的内容审核方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行根据权利要求1-7中任意一项所述的内容审核方法。