CN118018777A

CN118018777A - 视频审核方法、装置、设备和存储介质

Info

Publication number: CN118018777A
Application number: CN202311844227.XA
Authority: CN
Inventors: 黄赟贺
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-05-10

Abstract

本发明提供一种视频审核方法、装置、设备和存储介质，包括：对待审核视频进行解析，得到待审核视频中的音频和多帧图像；将音频输入至待审核视频的类型对应的音频审核模型中，得到音频审核结果，音频审核结果用于表征音频中是否包含不合规音频内容；将多帧图像进行分组，得到多个分组，各分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度；对各分组进行抽帧处理，得到至少两帧目标图像；将至少两帧目标图像输入至类型对应的图像审核模型中，得到图像审核结果，图像审核结果用于表征目标图像中是否包含不合规图像内容；将音频审核结果和图像审核结果确定为待审核视频的审核结果。本发明可以提高视频审核的速度。

Description

视频审核方法、装置、设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频审核方法、装置、设备和存储介质。

背景技术

随着互联网技术的发展，内容互动平台越来越受到人们的喜爱和关注，比如各种短视频平台。每天都有大量的视频会通过短视频平台进行播放，这些视频中可能包含违规视频，比如视频中包含违反法律法规的内容或者对青少年有不良影响的内容等。

因此，为避免有违规视频通过平台进行传播，在视频播放之前就必须对视频进行审核。现有技术中，可以通过人工智能技术对待审核的视频进行审核，如将待审核的视频输入至预先训练好的视频审核模型中，从而得到视频审核结果。

然而，通过上述方式进行视频审核时，审核速度较慢。

发明内容

本发明提供一种视频审核方法、装置、设备和存储介质，用以解决现有技术中视频审核速度较慢的缺陷，实现提高视频审核速度的目的。

本发明提供一种视频审核方法，包括：

对待审核视频进行解析，得到所述待审核视频中的音频和多帧图像；

将所述音频输入至所述待审核视频的类型对应的音频审核模型中，得到所述音频审核模型输出的音频审核结果，所述音频审核结果用于表征所述音频中是否包含不合规音频内容；

将所述多帧图像进行分组，得到多个分组，各所述分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度；

对各所述分组进行抽帧处理，得到至少两帧目标图像；

将所述至少两帧目标图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果，所述图像审核结果用于表征所述目标图像中是否包含不合规图像内容；

将所述音频审核结果和所述图像审核结果确定为所述待审核视频的审核结果。

根据本发明提供的一种视频审核方法，所述方法还包括：

在所述音频审核结果表征所述音频中包含不合规音频内容的情况下，确定所述音频审核结果中包括的所述不合规音频内容的上下文信息；

对所述上下文信息进行语义理解，得到语义理解结果；

基于所述语义理解结果确定所述不合规音频内容对应的改写音频内容；

基于所述改写音频内容对所述音频进行修改，得到修改后的音频；

将所述修改后的音频和所述多帧图像进行合成，得到第一目标视频。

根据本发明提供的一种视频审核方法，所述方法还包括：

在所述音频审核结果表征所述音频中包含不合规音频内容的情况下，确定所述音频审核结果中包括的所述不合规音频内容的上下文音频信息；

将所述上下文音频信息转换为上下文文本信息，并将所述不合规音频内容转换为不合规文本内容；

基于所述上下文文本信息和所述不合规文本内容生成目标问题，所述目标问题用于指示将所述不合规文本内容进行相似语义替换，且替换后的文本内容为合规内容；

将所述目标问题输入至大语言模型中，得到所述大语言模型输出的目标文本，所述目标文本中包括所述上下文文本信息和所述替换后的文本内容；

将所述目标文本转换为目标音频；

基于所述目标音频对所述音频进行修改，得到修改后的音频；

将所述修改后的音频和所述多帧图像进行合成，得到第二目标视频。

根据本发明提供的一种视频审核方法，所述方法还包括：

在所述图像审核结果表征所述目标图像中包含不合规图像内容、且所述图像审核结果包括的所述不合规图像内容中含有预设人员的情况下，确定所述音频中是否包括所述预设人员的目标音频；

在所述音频中包括所述预设人员的目标音频的情况下，将所述不合规图像内容中的所述预设人员替换为目标人员，得到替换后的图像；

基于所述目标人员的音色替换所述目标音频中的音色，得到替换后的音频；

将所述替换后的图像和所述替换后的音频进行合成，得到第三目标视频。

根据本发明提供的一种视频审核方法，所述方法还包括：

在所述音频中不包括所述预设人员的目标音频的情况下，将所述不合规图像内容中的所述预设人员删除，得到删除人员后的图像；

基于所述删除人员后的图像中其他人员之间的距离，调整各所述其他人员的位置，得到调整后的图像；

将所述调整后的图像和所述音频进行合成，得到第四目标视频。

根据本发明提供的一种视频审核方法，所述方法还包括：

在所述图像审核结果表征所述目标图像中包含不合规图像内容、且所述图像审核结果包括的所述不合规图像内容中含有不良信息的情况下，将所述不合规图像内容中的不良信息进行马赛克处理，得到处理后的图像；

删除所述音频中与所述不良信息对应的音频，得到删除后的音频；

将所述处理后的图像和所述删除后的音频进行合成，得到第五目标视频。

根据本发明提供的一种视频审核方法，所述将所述至少两帧目标图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果，包括：

确定所述至少两帧目标图像的清晰度；

在所述清晰度小于预设清晰度的情况下，将所述至少两帧目标图像的清晰度调整为所述预设清晰度，得到调整清晰度后的至少两帧图像；

将所述调整清晰度后的至少两帧图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果。

本发明还提供一种视频审核装置，包括：

解析模块，用于对待审核视频进行解析，得到所述待审核视频中的音频和多帧图像；

输入模块，用于将所述音频输入至所述待审核视频的类型对应的音频审核模型中，得到所述音频审核模型输出的音频审核结果，所述音频审核结果用于表征所述音频中是否包含不合规音频内容；

分组模块，用于将所述多帧图像进行分组，得到多个分组，各所述分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度；

处理模块，用于对各所述分组进行抽帧处理，得到至少两帧目标图像；

所述输入模块，用于将所述至少两帧目标图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果，所述图像审核结果用于表征所述目标图像中是否包含不合规图像内容；

确定模块，用于将所述音频审核结果和所述图像审核结果确定为所述待审核视频的审核结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频审核方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频审核方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述视频审核方法。

本发明提供的视频审核方法、装置、设备和存储介质，通过对待审核视频进行解析，得到待审核视频中的音频和多帧图像，将音频输入至待审核视频的类型对应的音频审核模型中，得到音频审核模型输出的音频审核结果，音频审核结果用于表征音频中是否包含不合规音频内容，将多帧图像进行分组，得到多个分组，各分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度，并对各分组进行抽帧处理，得到至少两帧目标图像后，将至少两帧目标图像输入至类型对应的图像审核模型中，得到图像审核模型输出的图像审核结果，该图像审核结果用于表征目标图像中是否包含不合规图像内容，最后将音频审核结果和图像审核结果确定为待审核视频的审核结果。由于如果未进行场景转换或者内容未发生变化时，连续的多帧图像往往相似度较高，此时，可以将相似度较高的连续的图像分为一组，从而从各组图像中进行抽帧处理的方式，仅对抽取的目标图像进行审核即可，由此可以提高视频审核的速度。另外，可以基于与待审核视频的类型对应的音频审核模型和图像审核模型进行审核，由于考虑了不同类型的音频或图像其对应的不合规内容可能不同这一情况，从而可以提高审核的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频审核方法的流程示意图；

图2为本发明实施例提供的视频审核装置的结构示意图；

图3示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着人工智能技术的发展，在进行视频审核时，也可以利用人工智能技术对需要审核的视频进行违规内容的检测。例如，将需要审核的视频输入预先训练好的视频检测模型中，从而得到视频检测模型输出的视频审核结果。然而，若需要审核的视频的时长较长时，若将整个视频均输入至视频检测模型中，则视频检测模型就需要对视频中的每一帧图像都进行分析，再基于每一帧图像的分析结果输出视频的审核结果。这一过程会耗费较长的时间，从而导致视频审核的速度较慢。

本发明实施例中考虑到这一问题，提出了一种视频审核方法，在该方法中，可以对待审核视频进行解析，得到待审核视频中的音频和多帧图像后，针对多帧图像，可以采取对图像进行分组，以将连续的且相似度大于预设相似度的图像分为一组，从而对各分组进行抽帧处理，获得至少两帧目标图像，并将抽帧得到的至少两帧图像输入至图像审核模型中进行审核，将音频输入至音频审核模型中进行审核，基于图像审核结果和音频审核结果确定待审核视频的审核结果。由于如果未进行场景转换时，连续的多帧图像往往相似度较高，此时，没有必要对每一帧图像都进行审核，而是采用抽帧处理的方式，对抽取的目标图像进行审核即可，由此可以提高视频审核的速度。

下面基于图1对本发明实施例提供的视频审核方法进行描述。本发明实施例可以适用于任意视频中的音频内容和图像内容的审核。本方法的执行主体可以是计算机、终端设备、服务器、服务器集群或专门设计的视频审核设备等电子设备，也可以是设置在该电子设备中的视频审核装置，该视频审核装置可以通过软件、硬件或两者的结合来实现。

图1是本发明实施例提供的视频审核方法的流程示意图，如图1所示，该方法包括：

步骤101：对待审核视频进行解析，得到待审核视频中的音频和多帧图像。

在本步骤中，待审核视频可以包括各种形式的、需要通过视频播放平台播放的视频，例如短视频或者电视剧等。通常，待审核视频中可能会包括有音频和图像，而音频和图像中包括的不合规内容或者违规内容可能不同，因此，需要对待审核视频进行解析，以得到音频和多帧图像，从而对音频和图像分别进行不合规内容的检测。

步骤102：将音频输入至待审核视频的类型对应的音频审核模型中，得到音频审核模型输出的音频审核结果，音频审核结果用于表征音频中是否包含不合规音频内容。

在本步骤中，待审核视频的类型可以包括娱乐类、财经类、社会生活类或者体育类等等，对于不同的类型，其对应的不合规内容通常是不同的。因此，为了避免不同类型的待审核视频采用相同的审核模型进行审核，导致审核准确度较低的情况，在本发明实施例中，为不同类型的待审核视频，可以预先配置不同的音频审核模型和图像审核模型。

其中，可以将待审核视频输入至分类模型中，从而得到分类模型输出的待审核视频的类型，或者也可以基于待审核视频中的音频内容或者图像内容，确定其对应的类型，进而可以获取待该类型对应的音频审核模型。

在获取到音频后，可以将该音频输入至获取的音频审核模型中，从而得到音频审核模型输出的音频审核结果，其中，该音频审核结果表征了获取的音频中是否包含有不合规音频内容。该不合规音频内容例如可以包括不文明用语、暴力性语言或者低俗的语言等等。

上述的音频审核模型可以为基于预先收集到的相同类型的大量样本音频数据后，再对这些样本音频数据进行标注，以对样本音频数据进行分类和标签化。对标注后的样本音频数据进行预处理，得到适合初始音频审核模型处理的输入格式，该预处理包括音频分割、编码和格式转换等操作。将预处理后的样本音频数据输入至初始音频审核模型中，通过监督学习或者无监督学习的方式，调整初始音频审核模型的模型参数，不断重复上述过程，直至得到的模型收敛或者达到预设训练次数，从而可以将最终得到的模型确定为音频审核模型。其中，音频审核模型的模型架构可以包括Transformer结构、卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent Neural Network，RNN)。

步骤103：将多帧图像进行分组，得到多个分组，各分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度。

在本步骤中，对于待审核视频，若在待审核视频中未进行场景转换、人物转换或者其他内容的转换时，会存在连续的多帧图像较为相似的情况，这些相似的图像没有必要全部进行检测，仅检测其中的一张图像即可。因此，可以通过计算两两相邻的图像之间的相似度，并基于确定出的相似度对图像进行聚类，从而进行分组，其中，分为一组的图像需要满足时间上是连续的图像、且相邻两帧图像之间的相似度大于预设相似度。

其中，预设相似度可以根据视频的长度或者内容进行设置，例如，若视频的长度较长，则可以设置预设相似度的值较小，例如可以设置为98％，若视频的长度较短，则可以设置预设相似度的值较大，例如可以设置为99.5％。

步骤104：对各分组进行抽帧处理，得到至少两帧目标图像。

在本步骤中，在分组完成后，可以对各组中的图像进行抽帧处理，以从每组图像中抽取一帧图像，如可以随机抽取一帧图像或者抽取第一帧图像等等，将每组抽取出的图像确定为目标图像。应理解，这些目标图像之间的相似度大于预设相似度。

步骤105：将至少两帧目标图像输入至类型对应的图像审核模型中，得到图像审核模型输出的图像审核结果，图像审核结果用于表征目标图像中是否包含不合规图像内容。

在本步骤中，不合规图像内容例如可以包括具有暴力性的图像内容、不文明图像内容或者低俗的图像内容等等。

将获取的至少两帧目标图像输入图像审核模型中后，通过图像审核模型进行特征提取，将目标图像转化为具有代表性的特征向量。这些特征向量可以包括目标图像的内容、风格和情感等信息，从而可以基于这些特征向量对目标图像进行检测，以确定目标图像中是否包括不合规图像内容。

上述的图像审核模型可以为基于预先收集到的相同类型的大量样本图像数据后，再对这些样本图像数据进行标注，以对样本图像数据进行分类和标签化。对标注后的样本图像数据进行预处理，得到适合初始图像审核模型处理的输入格式，该预处理包括编码和格式转换等操作。将预处理后的样本图像数据输入至初始音频审核模型中，通过监督学习或者无监督学习的方式，调整初始图像审核模型的模型参数，不断重复上述过程，直至得到的模型收敛或者达到预设训练次数，从而可以将最终得到的模型确定为图像审核模型。其中，图像审核模型的模型架构可以包括Transformer结构、CNN和RNN。

步骤106：将音频审核结果和图像审核结果确定为待审核视频的审核结果。

在本步骤中，在音频审核结果和图像审核结果均为审核通过时，可以确定待审核视频审核通过。另外，在得到待审核视频的审核结果后，可以输出提示信息，以提醒用户待审核视频的审核结果，例如，提示信息可以为“音频中包含有不文明用语，图像审核通过”等。

其中，在待审核视频审核通过后，可以将待审核视频发送至视频播放平台进行播放或者存储至数据库中，从而可以更好的管理视频内容。

需要进行说明的是，在得到待审核视频的审核结果后，还可以基于该审核结果对音频审核模型和图像审核模型的模型参数进行优化和更新，从而进一步提高视频审核的准确率。

另外，对于大规模的待审核视频，需要使用高效的存储和计算技术来处理该视频数据；对于复杂的待审核视频，需要使用多模态的审核模型来更好地理解视频内容；对于高效的审核流程，需要使用自动化和智能化的技术来提高审核效率等。

本发明实施例提供的视频审核方法，通过对待审核视频进行解析，得到待审核视频中的音频和多帧图像，将音频输入至待审核视频的类型对应的音频审核模型中，得到音频审核模型输出的音频审核结果，音频审核结果用于表征音频中是否包含不合规音频内容，将多帧图像进行分组，得到多个分组，各分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度，并对各分组进行抽帧处理，得到至少两帧目标图像后，将至少两帧目标图像输入至类型对应的图像审核模型中，得到图像审核模型输出的图像审核结果，该图像审核结果用于表征目标图像中是否包含不合规图像内容，最后将音频审核结果和图像审核结果确定为待审核视频的审核结果。由于如果未进行场景转换或者内容未发生变化时，连续的多帧图像往往相似度较高，此时，可以将相似度较高的连续的图像分为一组，从而从各组图像中进行抽帧处理的方式，仅对抽取的目标图像进行审核即可，由此可以提高视频审核的速度。另外，可以基于与待审核视频的类型对应的音频审核模型和图像审核模型进行审核，由于考虑了不同类型的音频或图像其对应的不合规内容可能不同这一情况，从而可以提高审核的准确度。

另外，由于通过音频审核模型和图像审核模型实现音频和图像的自动审核，提高了视频审核的自动化程度，减少了人工干预和人力成本，从而可以降低运营成本。

在确定出音频审核结果和图像审核结果不通过时，也即包含有不合规内容时，本发明实施例中并未对不合规的内容直接进行过滤，而是进行了相应的修改，以使得修改后的内容合规。下面，将分别对音频审核结果和图像审核结果不通过时对不合规内容的处理过程进行详细说明。

示例性的，在音频审核结果表征音频中包含不合规音频内容的情况下，确定音频审核结果中包括的不合规音频内容的上下文信息，对上下文信息进行语义理解，得到语义理解结果，并基于语义理解结果确定不合规音频内容对应的改写音频内容；基于改写音频内容对音频进行修改，得到修改后的音频；将修改后的音频和多帧图像进行合成，得到第一目标视频。

具体地，在音频审核结果表征音频中包含不合规音频内容的情况下，该音频审核结果中将包含有不合规的音频内容以及不合规的原因。例如，音频审核结果中包含有“00:30:00-00:30:20这一时段的音频中包含有不文明用语，因此，审核不通过”等。电子设备可以基于解析得到的完整音频，获取音频审核结果中包括的不合规音频内容的上下文信息，并对该上下文信息进行语义理解，以确定上下文的语义理解结果。在具体的实现过程中，可以将上下文信息输入至语义理解模型中，从而得到语义理解结果。

可以基于该上下文的语义理解结果，确定改写音频内容，其中，确定出的改写音频内容的语义和不合规音频内容的语义相似，或者确定出的改写音频内容不影响上下文的语义理解。

在确定出改写音频内容后，可以对原始的音频进行修改，如可以将不合规的音频内容替换为改写音频内容，从而得到修改后的音频。该修改后的音频中将不包含不合规或者违规的内容。

应理解，在该情形下，待审核视频中的图像审核通过，也即图像中不包含有不合规或者违规的图像内容，因此，可以直接将修改后的音频和多帧图像进行合成，从而得到第一目标视频。

在本实施例中，由于可以对不合规音频内容的上下文信息进行语义理解，并基于语义理解结果确定不合规音频内容对应的改写音频内容，以基于改写音频内容对音频进行修改，从而得到修改后的音频，使得得到的改写音频内容和上下文信息的语义理解结果相关，降低了修改后的音频发生语义改变的概率，提高了确定出的改写音频内容的准确度。

示例性的，在音频审核结果表征音频中包含不合规音频内容的情况下，确定音频审核结果中包括的不合规音频内容的上下文音频信息，将上下文音频信息转换为上下文文本信息，并将不合规音频内容转换为不合规文本内容，并基于上下文文本信息和不合规文本内容生成目标问题，目标问题用于指示将不合规文本内容进行相似语义替换，且替换后的文本内容为合规内容，再将目标问题输入至大语言模型中，得到大语言模型输出的目标文本，目标文本中包括上下文文本信息和替换后的文本内容；将目标文本转换为目标音频，并基于目标音频对音频进行修改，得到修改后的音频，将修改后的音频和多帧图像进行合成，得到第二目标视频。

具体地，电子设备可以基于解析得到的完整音频，获取音频审核结果中包括的不合规音频内容的上下文音频信息，并通过音频转换技术，将获取到的上下文音频信息转换为上下文文本信息，并将检测出的不合规音频内容也转换为不合规文本内容。

进一步地，可以基于上下文文本信息和不合规文本内容生成目标问题，例如，生成的目标问题可以为“请将他是一个XX”中的“XX”替换”。其中，该目标问题中的“XX”为不合规文本内容。该目标问题输入至大语言模型中后，通过调用该大语言模型，可以对目标问题中的不合规文本内容进行相似语义替换，使得替换后的文本内容为合规内容，大语言模型在确定出和文本内容后，可以采用该文本内容替换不合规文本内容，并将上下文文本信息和替换后的文本内容进行拼接，从而得到目标文本。

另外，还需要采用文本转换方式，将得到的目标文本转换为目标音频，从而采用目标音频替换原始音频中的不合规音频内容，以对该音频进行修改，得到修改后的音频。

应理解，在该情形下，待审核视频中的图像审核通过，也即图像中不包含有不合规或者违规的图像内容，因此，可以直接将修改后的音频和多帧图像进行合成，从而得到第二目标视频。

在本实施例中，由于通过大语言模型确定不合规文本内容对应的文本内容，并基于上下文文本信息和替换后的文本信息确定目标文本，使得得到的目标文本中不包含有违规或者不合规的内容的同时，还可以使得到的修改后的音频和上下文相关，降低了修改后的音频发生语义改变的概率，提高了确定出的修改后的音频的准确度。

示例性的，在图像审核结果表征目标图像中包含不合规图像内容、且图像审核结果包括的不合规图像内容中含有预设人员的情况下，确定音频中是否包括预设人员的目标音频；在音频中包括预设人员的目标音频的情况下，将不合规图像内容中的预设人员替换为目标人员，得到替换后的图像；基于目标人员的音色替换目标音频中的音色，得到替换后的音频；将替换后的图像和替换后的音频进行合成，得到第三目标视频。

在本步骤中，预设人员可以理解为登记在黑名单中的人员。在图像审核结果中会包含有不合规图像内容以及不合规的原因。例如，图像审核结果中包含有“00:25:10-00:26:20这一时段的图像中包含有预设人员，因此，审核不通过”等。由于该预设人员包含在黑名单中，因此，需要将该预设人员从图像中进行消除。在消除图像之前，还需要确定音频中是否包括该预设人员的目标音频，也即是否有该预设人员的语音。

若在音频中包括有预设人员的目标音频的情况下，可以将检测出的不合规图像内容中的预设人员替换为目标人员，从而得到替换后的图像，其中，目标人员为处于白名单中的人员。另外，为了达到人声合一的目的，还可以获取目标人员的音色，并采用目标人员的音色替换该目标音频中的音色，得到替换后的音频，这样，替换后的音频中将包含有目标人员的声音。

在替换完成后，将替换后的图像和替换后的音频进行合成，得到第三目标视频，这样，得到的第三目标视频中将不再包含预设人员的图像和声音，而是包含有目标人员的图像和声音。

在本实施例中，在检测出不合规图像内容中含有预设人员、且音频中包括预设人员的目标音频的情况下，可以采用目标人员的图像替换预设人员的图像，并采用目标人员的音色替换预设人员的音色，从而得到第三目标视频，由此可以在保证第三目标视频中不包含不合规信息的同时，还可以达到人声合一的目的，提高了第三目标视频的视频质量。

示例性的，在上述实施例的基础上，在音频中不包括预设人员的目标音频的情况下，将不合规图像内容中的预设人员删除，得到删除人员后的图像，并基于删除人员后的图像中其他人员之间的距离，调整各其他人员的位置，得到调整后的图像，再将调整后的图像和音频进行合成，得到第四目标视频。

具体地，若音频中不包括预设人员的目标音频，说明待审核视频中仅包括预设人员的图像，并没有预设人员的语音，此时，为了提高待审核视频的处理速度，可以直接将不合规图像内容中包含的预设人员删除，得到删除人员后的图像。

在将预设人员删除后，可能会出现图像中人员之间的距离不协调的情况，如某一张图像中原本包括用户A、用户B和用户C，这三个用户并排站立，当将用户B删除后，用户A和用户C之间的距离会过大，从而影响图像的整体效果，造成图像质量下降。为了解决该问题，在本发明实施例中，还可以进一步获取删除人员后的图像中其他人员之间的距离，并基于该距离调整各其他人员的位置，得到调整后的图像。例如，可以基于其他用户之间的距离和图像的尺寸，确定需要移动的用户以及该用户移动后的目标位置，该目标位置可以包括需要移动的用户的各骨骼关键点移动之后的位置，从而基于这些目标位置确定移动后的用户，并基于该用户之前所处区域内的各像素点的像素值渲染移动后的用户所处区域内的各像素点的像素值。另外，对于用户移动之前所处区域内的像素点的像素值，可以基于该像素点周围的像素点的像素值进行填充，从而得到调整后的图像。

应理解，在该情形下，待审核视频中的音频审核通过，也即音频中不包含有不合规或者违规的音频内容，因此，可以直接将调整后的图像和音频进行合成，从而得到第四目标视频。

在本实施例中，在音频中不包括预设人员的目标音频的情况下，可以将不合规图像内容中的预设人员删除，在得到删除人员后的图像后，还可以进一步基于其他人员之间的距离，调整各其他人员的位置，从而避免了调整后的图像比例失调的现象，使得调整后的图像的比例较为正常，提高了最终得到的第四目标视频的质量。

示例性的，在图像审核结果表征目标图像中包含不合规图像内容、且图像审核结果包括的不合规图像内容中含有不良信息的情况下，将不合规图像内容中的不良信息进行马赛克处理，得到处理后的图像，并删除音频中与不良信息对应的音频，得到删除后的音频，再将处理后的图像和删除后的音频进行合成，得到第五目标视频。

具体地，若图像审核结果包括的不合规图像内容中含有不良信息时可以直接将该不良信息进行马赛克处理，的带处理后的图像。其中，马赛克是一种图像处理手段，此手段将影像特定区域的色阶细节劣化并造成色块打乱的效果，因为这种模糊看上去有一个个的小格子组成，便形象的称这种画面为马赛克。其目的通常是使之无法辨认，从而模糊化该不良信息。

另外，由于将不良信息进行马赛克处理后，该不良信息对应的音频也应该一并进行处理，如可以将音频中与不良信息对应的音频进行删除或者消音等，得到删除后的音频，从而将处理后的图像和删除后的音频进行合成，得到第五目标视频。这样，得到的第五目标视频中的图像和音频将会保持同步。

上述的不良信息可以包括处于黑名单中的预设人员、暴力性图像或者低俗的图像等等。

在本实施例中，在将不良信息进行马赛克处理后，还可以删除音频中与不良信息对应的音频，从而基于马赛克处理后的图像和删除后的音频，确定最终的第五目标视频，使得第五目标视频中不包含不合规内容的同时，还可以使得图像和音频进行同步，提高了第五目标视频的视频质量。

示例性的，在将至少两帧目标图像输入至类型对应的图像审核模型中，得到图像审核模型输出的图像审核结果时，还可以先确定至少两帧目标图像的清晰度，在清晰度小于预设清晰度的情况下，将至少两帧目标图像的清晰度调整为预设清晰度，得到调整清晰度后的至少两帧图像，再将调整清晰度后的至少两帧图像输入至类型对应的图像审核模型中，得到图像审核模型输出的图像审核结果。

具体地，由于目标图像的清晰度会影响图像质量，从而也会影响图像的审核结果。因此，为了提高审核结果的准确度，还可以在审核之前，先确定各目标图像的清晰度，当清晰度小于预设清晰度时，可以将小于预设清晰度的目标图像的清晰度调整为预设清晰度，也即提高该目标图像的清晰度，从而得到调整清晰度后的图像。其中，预设清晰度可以根据经验或者实际情况进行设置，对于预设清晰度的具体取值，本发明实施例在此不做限制。

在调整之后，可以将调整清晰度后的至少两帧图像输入至图像审核模型中，从而对调整清晰度后的至少两帧图像进行审核，以得到图像审核结果。

在本实施例中，在目标图像的清晰度小于预设清晰度的情况下，可以先将目标图像的清晰度调整为预设清晰度，然后再对调整清晰度后的图像进行审核，由于调整清晰度后的图像的清晰度较高，该图像中的细节信息将会更加清楚，因此，可以提高图像审核结果的准确度。

下面对本发明提供的视频审核装置进行描述，下文描述的视频审核装置与上文描述的视频审核方法可相互对应参照。

图2为本发明实施例提供的视频审核装置的结构示意图，如图2所示，该视频审核装置200包括：

解析模块201，用于对待审核视频进行解析，得到所述待审核视频中的音频和多帧图像；

输入模块202，用于将所述音频输入至所述待审核视频的类型对应的音频审核模型中，得到所述音频审核模型输出的音频审核结果，所述音频审核结果用于表征所述音频中是否包含不合规音频内容；

分组模块203，用于将所述多帧图像进行分组，得到多个分组，各所述分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度；

处理模块204，用于对各所述分组进行抽帧处理，得到至少两帧目标图像；

所述输入模块202，用于将所述至少两帧目标图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果，所述图像审核结果用于表征所述目标图像中是否包含不合规图像内容；

确定模块205，用于将所述音频审核结果和所述图像审核结果确定为所述待审核视频的审核结果。

在一种示例实施例中，所述装置还包括：语义理解模块、修改模块和合成模块，其中：

所述确定模块205，还用于在所述音频审核结果表征所述音频中包含不合规音频内容的情况下，确定所述音频审核结果中包括的所述不合规音频内容的上下文信息；

语义理解模块，用于对所述上下文信息进行语义理解，得到语义理解结果；

所述确定模块205，还用于基于所述语义理解结果确定所述不合规音频内容对应的改写音频内容；

修改模块，用于基于所述改写音频内容对所述音频进行修改，得到修改后的音频；

合成模块，用于将所述修改后的音频和所述多帧图像进行合成，得到第一目标视频。

在一种示例实施例中，所述装置还包括：转换模块和生成模块，其中：

所述确定模块205，还用于在所述音频审核结果表征所述音频中包含不合规音频内容的情况下，确定所述音频审核结果中包括的所述不合规音频内容的上下文音频信息；

转换模块，用于将所述上下文音频信息转换为上下文文本信息，并将所述不合规音频内容转换为不合规文本内容；

生成模块，用于基于所述上下文文本信息和所述不合规文本内容生成目标问题，所述目标问题用于指示将所述不合规文本内容进行相似语义替换，且替换后的文本内容为合规内容；

所述输入模块202，还用于将所述目标问题输入至大语言模型中，得到所述大语言模型输出的目标文本，所述目标文本中包括所述上下文文本信息和所述替换后的文本内容；

转换模块，还用于将所述目标文本转换为目标音频；

修改模块，用于基于所述目标音频对所述音频进行修改，得到修改后的音频；

合成模块，用于将所述修改后的音频和所述多帧图像进行合成，得到第二目标视频。

在一种示例实施例中，所述装置还包括替换模块，其中：

所述确定模块205，还用于在所述图像审核结果表征所述目标图像中包含不合规图像内容、且所述图像审核结果包括的所述不合规图像内容中含有预设人员的情况下，确定所述音频中是否包括所述预设人员的目标音频；

替换模块，用于在所述音频中包括所述预设人员的目标音频的情况下，将所述不合规图像内容中的所述预设人员替换为目标人员，得到替换后的图像；

所述替换模块，还用于基于所述目标人员的音色替换所述目标音频中的音色，得到替换后的音频；

合成模块，用于将所述替换后的图像和所述替换后的音频进行合成，得到第三目标视频。

在一种示例实施例中，所述装置还包括：删除模块和调整模块，其中：

删除模块，用于在所述音频中不包括所述预设人员的目标音频的情况下，将所述不合规图像内容中的所述预设人员删除，得到删除人员后的图像；

调整模块，用于基于所述删除人员后的图像中其他人员之间的距离，调整各所述其他人员的位置，得到调整后的图像；

合成模块，用于将所述调整后的图像和所述音频进行合成，得到第四目标视频。

在一种示例实施例中，处理模块204，还用于在所述图像审核结果表征所述目标图像中包含不合规图像内容、且所述图像审核结果包括的所述不合规图像内容中含有不良信息的情况下，将所述不合规图像内容中的不良信息进行马赛克处理，得到处理后的图像；

删除模块，用于删除所述音频中与所述不良信息对应的音频，得到删除后的音频；

合成模块，用于将所述处理后的图像和所述删除后的音频进行合成，得到第五目标视频。

在一种示例实施例中，所述输入模块202，具体用于：

确定所述至少两帧目标图像的清晰度；

本实施例的装置，可以用于执行视频审核方法侧实施例中任一实施例的方法，其具体实现过程与技术效果与视频审核方法侧实施例中类似，具体可以参见视频审核方法侧实施例中的详细介绍，此处不再赘述。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行视频审核方法，该方法包括：对待审核视频进行解析，得到所述待审核视频中的音频和多帧图像；将所述音频输入至所述待审核视频的类型对应的音频审核模型中，得到所述音频审核模型输出的音频审核结果，所述音频审核结果用于表征所述音频中是否包含不合规音频内容；将所述多帧图像进行分组，得到多个分组，各所述分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度；对各所述分组进行抽帧处理，得到至少两帧目标图像；将所述至少两帧目标图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果，所述图像审核结果用于表征所述目标图像中是否包含不合规图像内容；将所述音频审核结果和所述图像审核结果确定为所述待审核视频的审核结果。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视频审核方法，该方法包括：对待审核视频进行解析，得到所述待审核视频中的音频和多帧图像；将所述音频输入至所述待审核视频的类型对应的音频审核模型中，得到所述音频审核模型输出的音频审核结果，所述音频审核结果用于表征所述音频中是否包含不合规音频内容；将所述多帧图像进行分组，得到多个分组，各所述分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度；对各所述分组进行抽帧处理，得到至少两帧目标图像；将所述至少两帧目标图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果，所述图像审核结果用于表征所述目标图像中是否包含不合规图像内容；将所述音频审核结果和所述图像审核结果确定为所述待审核视频的审核结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视频审核方法，该方法包括：对待审核视频进行解析，得到所述待审核视频中的音频和多帧图像；将所述音频输入至所述待审核视频的类型对应的音频审核模型中，得到所述音频审核模型输出的音频审核结果，所述音频审核结果用于表征所述音频中是否包含不合规音频内容；将所述多帧图像进行分组，得到多个分组，各所述分组中包括的图像为连续图像且相邻两帧图像之间的相似度大于预设相似度；对各所述分组进行抽帧处理，得到至少两帧目标图像；将所述至少两帧目标图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果，所述图像审核结果用于表征所述目标图像中是否包含不合规图像内容；将所述音频审核结果和所述图像审核结果确定为所述待审核视频的审核结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频审核方法，其特征在于，包括：

对各所述分组进行抽帧处理，得到至少两帧目标图像；

2.根据权利要求1所述的视频审核方法，其特征在于，所述方法还包括：

对所述上下文信息进行语义理解，得到语义理解结果；

3.根据权利要求1所述的视频审核方法，其特征在于，所述方法还包括：

将所述目标文本转换为目标音频；

4.根据权利要求1-3任一项所述的视频审核方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的视频审核方法，其特征在于，所述方法还包括：

6.根据权利要求1-3任一项所述的视频审核方法，其特征在于，所述方法还包括：

7.根据权利要求1-3任一项所述的视频审核方法，其特征在于，所述将所述至少两帧目标图像输入至所述类型对应的图像审核模型中，得到所述图像审核模型输出的图像审核结果，包括：

确定所述至少两帧目标图像的清晰度；

8.一种视频审核装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述视频审核方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视频审核方法。