CN117727047B

CN117727047B - 一种基于ai大模型内容安全质检处理方法

Info

Publication number: CN117727047B
Application number: CN202410174525.0A
Authority: CN
Inventors: 高成福; 汪金山
Original assignee: SHENZHEN DUOYIDE INFORMATION TECHNOLOGY CO LTD
Current assignee: SHENZHEN DUOYIDE INFORMATION TECHNOLOGY CO LTD
Priority date: 2024-02-07
Filing date: 2024-02-07
Publication date: 2024-06-18
Anticipated expiration: 2044-02-07
Also published as: CN117727047A

Abstract

本发明涉及内容检测技术领域，尤其涉及一种基于AI大模型内容安全质检处理方法，该方法包括获取待识别视频中当前帧图像与前一帧图像的结构相似度，确定对当前帧图像的初次判定，确定对当前帧图像进行初次判定的判定方式，确定是否将当前帧图像判定为待识别图像，确定待识别图像是否合格，确定对当前帧图像进行二次判定，确定是否将当前帧图像判定为待识别图像，确定待识别图像是否合格，确定对所述文本相似度的调整，确定对预设时长的调整，本发明克服了现有技术中对视频逐帧图像进行内容安全质检分类的效率低，随机抽取图像进行内容安全质检分类的精确度低的问题。

Description

一种基于AI大模型内容安全质检处理方法

技术领域

本发明涉及内容检测技术领域，尤其涉及一种基于AI大模型内容安全质检处理方法。

背景技术

随着互联网技术的飞速发展，视频内容在网络上的传播速度日益加快，视频内容的安全性和合规性成为了社会关注的重点，为了确保视频内容不包含违规信息，违规广告等不当内容，需要对视频进行有效的内容安全质检，传统的方法通常依赖于人工审核或简单的规则匹配，这些方法耗时耗力，且难以应对海量视频数据的快速审核需求，为了提高视频内容审核的效率和准确性，人工智能技术，尤其是深度学习方法，被广泛应用于视频内容的自动识别和分析。卷积神经网络（CNN）由于其在图像识别和分类方面的卓越性能，成为了视频内容安全质检的关键技术之一。然而，由于视频流的连续性，单纯依赖逐帧的图像分类可能会导致重复判定和效率低下的问题。

中国专利公开号：CN115331286A公开了一种基于深度学习的内容安全检测系统，包括内容获取模块、区域提取模块和检测模块；内容获取模块用于获取网页中的图像；区域提取模块用于采用如下方式获取图像中的皮肤区域：对图像进行人脸检测，判断图像中是否包含人脸，若是，则获取人脸区域的像素点的集合U1，获取U1中的像素点在YCrCb颜色空间中的Cr分量的取值范围和Cb分量的取值范围；基于Cr分量的取值范围和Cb分量的取值范围获取图像中的皮肤区域，若否，则分别采用椭圆肤色模型、RGB肤色模型和YCrCb肤色模型对图像进行识别处理，获得对应的肤色像素点的集合U2、U3和U4；获取U2、U3和U4的交集U5；基于交集U5获取图像中的皮肤区域；检测模块用于将皮肤区域输入到深度学习识别模型中进行内容安全检测，判断图像是否为敏感图像；所述基于Cr分量的取值范围和Cb分量的取值范围获取图像中的皮肤区域，包括：将Cr分量的取值范围记为[miCr，maCr]，miCr和maCr分别表示U1中的像素点在YCrCb颜色空间中的Cr分量的最小值和最大值，将Cb分量的取值范围记为[miCb，maCb]，miCb和maCb分别表示U1中的像素点在YCrCb颜色空间中的Cb分量的最小值和最大值；将图像中除了人脸区域的像素点存入集合Utemp；对于Utemp中的像素点pix，若pix在YCrCb颜色空间中满足miCr≤Crpix≤maCr且miCb≤Cbpix≤maCb，则将pix存入第一临时集合Utp1，Crpix和Cbpix分别表示pix在YCrCb颜色空间中的Cr分量和Cb分量的值；将人脸区域的像素点加入到第一临时集合Utp1中，获得第二临时集合Utp2；以第二临时集合Utp2中的像素点为种子点，在图像中进行区域生长处理，获得多个连通区域；按照设定的规则对连通区域进行筛选，获得皮肤区域；所述将皮肤区域输入到深度学习识别模型中进行内容安全检测，判断图像是否为敏感图像，包括：对皮肤区域进行光线调节处理，获得第一图像；对第一图像进行降噪处理，获得第二图像；将第二图像输入到深度学习识别模型中进行内容安全检测，判断图像是否为敏感图像；所述对皮肤区域进行光线调节处理，获得第一图像，包括：获取皮肤区域对应的灰度图像Gr；对于Gr中的像素点gr，若gr的灰度值Gr(gr)大于设定的第一阈值firthr，则将gr的灰度值调节为firthr；若gr的灰度值Gr(gr)小于设定的第二阈值secthr，则将gr的灰度值调节为secthr；若gr的灰度值Gr(gr)大于等于第二阈值secthr且小于等于第一阈值firthr，则使用如下公式计算对gr进行光线调节处理后的像素值aGr(gr)：

由此可见，现有技术存在以下问题：对视频逐帧图像进行内容安全质检分类的效率低，而随机抽取图像进行内容安全质检分类的精确度低。

发明内容

为此，本发明提供一种基于AI大模型内容安全质检处理方法，用以克服现有技术中对视频逐帧图像进行内容安全质检分类的效率低，随机抽取图像进行内容安全质检分类的精确度低的问题。

为实现上述目的，本发明提供一种基于AI大模型内容安全质检处理方法，包括：

获取待识别视频中当前帧图像与前一帧图像的结构相似度，根据所述结构相似度确定是否对当前帧图像进行初次判定；

当确定对当前帧图像进行初次判定时，根据所述结构相似度与预设结构相似度的第一相对差确定对当前帧图像进行初次判定的判定方式；当确定判定方式为第一判定方式时，采用图像内容描述模型生成当前帧图像和前一帧图像的描述文本，根据当前帧图像的描述文本与前一帧图像的描述文本的文本相似度确定是否将当前帧图像判定为待识别图像，或确定对当前帧图像进行二次判定；当确定判定方式为第二判定方式时，所述第二判定方式为采用卷积神经网络对当前帧图像进行分类，根据当前帧图像被分类为违规内容的第一概率确定当前帧图像的合格性；

当确定对当前帧图像进行二次判定时，对待识别视频中当前帧图像之前预设时长内的视频片段进行抽帧，根据文本相似度与第一预设文本相似度的第二相对差确定对所述视频片段进行抽帧的抽帧频率，计算抽帧图像的描述文本与当前帧图像的描述文本的平均语义相似度，并根据所述平均语义相似度确定是否将当前帧图像判定为待识别图像，若否，则根据所述平均语义相似度与预设平均语义相似度的第三相对差确定是否对所述文本相似度进行调整；

当根据所述平均语义相似度与预设平均语义相似度的第三相对差确定是否对所述文本相似度进行调整时，若是，则确定对所述文本相似度进行调整，若否，则确定对预设时长进行调整；

当确定将当前帧图像判定为待识别图像时，根据待识别图像被分类为违规内容的第二概率确定待识别图像的合格性。

进一步地，所述确定是否对当前帧图像进行初次判定包括在所述结构相似度小于等于预设结构相似度的条件下确定对当前帧图像进行初次判定。

进一步地，所述确定对当前帧图像进行初次判定的判定方式包括在所述第一相对差小于等于第一预设相对差的条件下确定以第一判定方式对当前帧图像进行初次判定，在所述第一相对差大于第一预设相对差的条件下确定以第二判定方式对当前帧图像进行初次判定。

进一步地，所述根据文本相似度确定是否将当前帧图像判定为待识别图像包括在所述文本相似度小于第一预设文本相似度的条件下确定将当前帧图像判定为待识别图像，在所述文本相似度大于等于第一预设文本相似度且小于等于第二预设文本相似度的条件下确定对当前帧图像进行二次判定；

所述确定当前帧图像的合格性包括在第一概率大于预设概率的条件下确定当前帧图像不合格。

进一步地，所述确定对所述视频片段进行抽帧的抽帧频率包括在所述第二相对差小于等于第二预设相对差的条件下确定以第一抽帧频率对所述视频片段进行抽帧，在所述第二相对差大于第二预设相对差的条件下确定以第二抽帧频率对所述视频片段进行抽帧，其中△W表示第二相对差。

进一步地，所述平均语义相似度根据以下公式计算，设定：

，

其中，P表示平均语义相似度，Av表示第v个抽帧图像的描述文本的minhash签名，B表示当前帧图像的描述文本的minhash签名，n表示抽帧图像的数量。

进一步地，所述根据所述平均语义相似度确定是否将当前帧图像判定为待识别图像包括在所述平均语义相似度小于等于预设平均语义相似度的条件下确定将当前帧图像判定为待识别图像，在所述平均语义相似度大于预设平均语义相似度的条件下确定根据第三相对差确定是否对所述文本相似度进行调整。

进一步地，所述确定待识别图像的合格性包括在所述第二概率大于预设概率的条件下确定待识别图像不合格。

进一步地，所述根据所述平均语义相似度与预设平均语义相似度的第三相对差确定是否对所述文本相似度进行调整包括在所述第三相对差大于第三预设相对差的条件下确定对所述文本相似度进行调整，在所述第三相对差小于等于第三预设相对差的条件下确定对预设时长进行调整，所述第三相对差由所述平均语义相似度与预设平均语义相似度确定。

进一步地，所述对预设时长进行调整包括根据以下第一调整系数对预设时长进行调整，设定：

，

其中，X1表示所述第一调整系数，△P表示所述第三相对差；

所述对所述文本相似度进行调整包括根据以下第二调整系数对所述文本相似度进行调整，设定：

，

其中，X2表示第二调整系数。

与现有技术相比，本发明的有益效果在于，本发明根据所述结构相似度与预设结构相似度的比对结果确定是否对当前帧图像进行初次判定以避免对高度相似的帧重复进行分析和处理，从而节省计算资源，提高处理效率，一般违规内容穿插在视频中间，与视频的画面信息差异度高，而视频大部分内容相邻帧之间的结构相似度更高，通过当前帧图像与前一帧图像的结构相似度能够精确地判断当前帧是否为违规内容的图像。

进一步地，本发明根据所述第一相对差与第一预设相对差的比对结果确定对当前帧图像进行初次判定的判定方式，更加精确的选择适合当前帧的判定方式，对当前帧图像与前一帧图像的结构相似度较低时直接通过卷积神经网络对当前帧图像进行分类识别，效率更高，对当前帧图像与前一帧图像的结构相似度无法准确判断当前帧时，根据当前帧图像的描述文本与前一帧图像的描述文本的文本相似度确定是否将当前帧图像判定为待识别图像以进一步对当前帧进行判断，因为在大部分视频中，由于蒙太奇的剪辑方法导致部分相邻帧的结构相似度较低，会造成误判，因此通过图像的内容对当前帧进行进一步判断，结果更精确。

进一步地，本发明根据所述文本相似度与预设文本相似度的比对结果确定是否将当前帧图像判定为待识别图像，以在文本相似度较低时对待识别图像直接采用卷积神经网络进行分类识别，当文本相似度无法准确判断当前帧时确定对当前帧图像进行二次判定，避免大量的图像直接采用卷积神经网络识别造成资源浪费，效率更高。

进一步地，本发明根据当前帧图像被分类为违规内容的第一概率与预设概率的比对结果确定当前帧图像是否合格以准确判断当前帧图像是否存在违规内容。

进一步地，本发明根据所述第二相对差与第二预设相对差的比对结果确定对所述视频片段进行抽帧的抽帧频率以根据文本相似度情况精确选择合适的抽帧频率，在保证足够的抽帧频率以确保后续的分析精确度的同时避免了抽帧频率过高导致计算延迟与资源的浪费。

进一步地，本发明根据第v个抽帧图像的描述文本的minhash签名、当前帧图像的描述文本的minhash签名和抽帧图像的数量计算抽帧图像的描述文本与当前帧图像的描述文本的平均语义相似度，更精确地评估当前帧图像的内容与待识别视频的内容的相似度。

进一步地，本发明根据所述平均语义相似度与预设平均语义相似度的比对结果确定是否将当前帧图像判定为待识别图像以精确捕捉图像之间的语义信息，而不仅仅是视觉上的相似性，有助于识别在视觉上不明显，但在内容上有显著变化的视频帧。

进一步地，本发明根据待识别图像被分类为违规内容的第二概率与预设概率的比对结果确定待识别图像是否合格以准确判断待识别图像是否存在违规内容。

进一步地，本发明根据所述第三相对差与第三预设相对差的比对结果确定是否对所述文本相似度进行调整，以精确地判断是否需要对预设时长T进行调整，使平均语义相似度的计算结果更准确，或确定对所述文本相似度进行调整，以提高第一判定方式的灵敏度与精确性，从而提高效率。

进一步地，本发明根据公式计算第一调整系数和第二调整系数以精确调整预设时长和文本相似度，避免过度调整。

附图说明

图1为本发明实施例基于AI大模型内容安全质检处理方法的流程图；

图2为本发明实施例基于AI大模型内容安全质检处理方法的初次判定的逻辑框图；

图3为本发明实施例基于AI大模型内容安全质检处理方法的待识别图像判定过程的逻辑框图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

请参阅图1-3所示，图1为本发明实施例基于AI大模型内容安全质检处理方法的流程图；图2为本发明实施例基于AI大模型内容安全质检处理方法的初次判定的逻辑框图；图3为本发明实施例基于AI大模型内容安全质检处理方法的待识别图像判定过程的逻辑框图。

本发明实施例基于AI大模型内容安全质检处理方法，包括：

步骤S1，获取待识别视频中当前帧图像与前一帧图像的结构相似度J，根据所述结构相似度J确定对当前帧图像的初次判定；

步骤S2，根据所述结构相似度J与预设结构相似度J0的第一相对差△J确定对当前帧图像进行初次判定的判定方式；

步骤S3，根据文本相似度W确定是否将当前帧图像判定为待识别图像，根据待识别图像被分类为违规内容的第二概率L2确定待识别图像是否合格；

或，确定对当前帧图像进行二次判定；

步骤S4，计算抽帧图像的描述文本与当前帧图像的描述文本的平均语义相似度P，并根据所述平均语义相似度P确定是否将当前帧图像判定为待识别图像，根据待识别图像被分类为违规内容的第二概率L2确定待识别图像是否合格；

或，根据第三相对差△P确定对所述文本相似度W的调整；

或，确定对预设时长T的调整。

本发明实施例中，卷积神经网络优选ResNet50。

具体而言，根据所述结构相似度J与预设结构相似度J0的比对结果确定是否对当前帧图像进行初次判定；

当J≤J0时，则确定对当前帧图像进行初次判定；

当J＞J0时，则确定不对当前帧图像进行初次判定；

本发明实施例中，预设结构相似度J0取值为0.8，本领域技术人员可以根据具体情况对预设结构相似度J0进行调整。

具体而言，本发明根据所述结构相似度与预设结构相似度的比对结果确定是否对当前帧图像进行初次判定以避免对高度相似的帧重复进行分析和处理，从而节省计算资源，提高处理效率，一般违规内容穿插在视频中间，与视频的画面信息差异度高，而视频大部分内容相邻帧之间的结构相似度更高，通过当前帧图像与前一帧图像的结构相似度能够精确地判断当前帧是否为违规内容的图像。

具体而言，当确定对当前帧图像进行初次判定时，计算所述结构相似度J与预设结构相似度J0的第一相对差△J，并根据所述第一相对差△J与第一预设相对差△J0的比对结果确定对当前帧图像进行初次判定的判定方式，设定△J=（J0-J）/J0；

当△J≤△J0时，则确定以第一判定方式对当前帧图像进行初次判定；

当△J＞△J0时，则确定以第二判定方式对当前帧图像进行初次判定；

其中，所述第一判定方式为采用图像内容描述模型生成当前帧图像和前一帧图像的描述文本，根据当前帧图像的描述文本与前一帧图像的描述文本的文本相似度W确定是否将当前帧图像判定为待识别图像；

所述第二判定方式为采用卷积神经网络对当前帧图像进行分类，根据当前帧图像被分类为违规内容的第一概率L1确定当前帧图像是否合格。

本发明实施例中，第一预设相对差△J0取值为0.375，第一预设相对差△J0是在结构相似度J为0.5的情况下取得的，本领域技术人员可以根据具体情况对第一预设相对差△J0进行调整。

本发明实施例中，图像内容描述模型优选AttnGAN模型，数据集优选COCO数据集。

具体而言，本发明根据所述第一相对差与第一预设相对差的比对结果确定对当前帧图像进行初次判定的判定方式，更加精确的选择适合当前帧的判定方式，对当前帧图像与前一帧图像的结构相似度较低时直接通过卷积神经网络对当前帧图像进行分类识别，效率更高，对当前帧图像与前一帧图像的结构相似度无法准确判断当前帧时，根据当前帧图像的描述文本与前一帧图像的描述文本的文本相似度确定是否将当前帧图像判定为待识别图像以进一步对当前帧进行判断，因为在大部分视频中，由于蒙太奇的剪辑方法导致部分相邻帧的结构相似度较低，会造成误判，因此通过图像的内容对当前帧进行进一步判断，结果更精确。

具体而言，当确定第一判定方式对当前帧图像进行初次判定时，根据所述文本相似度W与预设文本相似度的比对结果确定是否将当前帧图像判定为待识别图像，所述预设文本相似度包括第一预设文本相似度W1和第二预设文本相似度W2，W1＜W2；

当W＜W1时，则确定将当前帧图像判定为待识别图像；

当W1≤W≤W2时，则确定对当前帧图像进行二次判定；

当W＞W2时，则确定不将当前帧图像判定为待识别图像；

本发明实施例中，所述文本相似度W为当前帧图像的描述文本与前一帧图像的描述文本的余弦相似度，第一预设文本相似度W1取值为0.3，第二预设文本相似度W2取值为0.6，本领域技术人员可以根据具体情况对预设文本相似度W0进行调整。

具体而言，本发明根据所述文本相似度与预设文本相似度的比对结果确定是否将当前帧图像判定为待识别图像，以在文本相似度较低时对待识别图像直接采用卷积神经网络进行分类识别，当文本相似度无法准确判断当前帧时确定对当前帧图像进行二次判定，避免大量的图像直接采用卷积神经网络识别造成资源浪费，效率更高。

具体而言，当确定以第二判定方式对当前帧图像进行初次判定时，根据当前帧图像被分类为违规内容的第一概率L1与预设概率L0的比对结果确定当前帧图像是否合格；

当L1≤L0，则确定当前帧图像合格；

当L1＞L0，则确定当前帧图像不合格。

具体而言，本发明根据当前帧图像被分类为违规内容的第一概率与预设概率的比对结果确定当前帧图像是否合格以准确判断当前帧图像是否存在违规内容。

具体而言，当确定对当前帧图像进行二次判定时，对待识别视频中当前帧图像之前预设时长T内的视频片段进行抽帧，计算所述文本相似度W与第一预设文本相似度W1的第二相对差△W，并根据所述第二相对差△W与第二预设相对差△W0的比对结果确定对所述视频片段进行抽帧的抽帧频率，设定△W=（W-W1）/W1；

当△W≤△W0，则确定以第一抽帧频率F1对所述视频片段进行抽帧；

当△W＞△W0，则确定以第二抽帧频率F2对所述视频片段进行抽帧；

其中，所述第一抽帧频率，第二抽帧频率。

本发明实施例中，预设时长T取值为10秒，第二预设相对差△W0取值为0.5，第二预设相对差△W0是在所述文本相似度W为0.45的情况下取得的，本领域技术人员可以根据具体情况对预设时长T和第二预设相对差△W0进行调整。

具体而言，本发明根据所述第二相对差与第二预设相对差的比对结果确定对所述视频片段进行抽帧的抽帧频率以根据文本相似度情况精确选择合适的抽帧频率，在保证足够的抽帧频率以确保后续的分析精确度的同时避免了抽帧频率过高导致计算延迟与资源的浪费。

具体而言，当对所述视频片段进行抽帧完成并得到抽帧图像时，根据图像内容描述模型生成抽帧图像的描述文本，根据以下公式计算抽帧图像的描述文本与当前帧图像的描述文本的平均语义相似度P，设定：

，

其中，Av表示第v个抽帧图像的描述文本的minhash签名，B表示当前帧图像的描述文本的minhash签名，n表示抽帧图像的数量。

具体而言，本发明根据第v个抽帧图像的描述文本的minhash签名、当前帧图像的描述文本的minhash签名和抽帧图像的数量计算抽帧图像的描述文本与当前帧图像的描述文本的平均语义相似度，更精确地评估当前帧图像的内容与待识别视频的内容的相似度。

具体而言，当所述平均语义相似度P计算完成时，根据所述平均语义相似度P与预设平均语义相似度P0的比对结果确定是否将当前帧图像判定为待识别图像；

当P≤P0时，则确定将当前帧图像判定为待识别图像；

当P＞P0时，则根据第三相对差△P确定是否对所述文本相似度W进行调整；

本发明实施例中，预设平均语义相似度P0取值为0.5，本领域技术人员可以根据具体情况对预设平均语义相似度P0进行调整。

具体而言，本发明根据所述平均语义相似度与预设平均语义相似度的比对结果确定是否将当前帧图像判定为待识别图像以精确捕捉图像之间的语义信息，而不仅仅是视觉上的相似性，有助于识别在视觉上不明显，但在内容上有显著变化的视频帧。

具体而言，当确定将当前帧图像判定为待识别图像时，根据待识别图像被分类为违规内容的第二概率L2与预设概率L0的比对结果确定待识别图像是否合格；

当L2≤L0，则确定待识别图像合格；

当L2＞L0，则确定待识别图像不合格；

本发明实施例中，预设概率L0取值为0.6，本领域技术人员可以根据具体情况对预设概率L0进行调整。

具体而言，本发明根据待识别图像被分类为违规内容的第二概率与预设概率的比对结果确定待识别图像是否合格以准确判断待识别图像是否存在违规内容。

具体而言，当确定是否对所述文本相似度W进行调整时，计算所述平均语义相似度P与预设平均语义相似度P0的第三相对差△P，并根据所述第三相对差△P与第三预设相对差△P0的比对结果确定是否对所述文本相似度W进行调整，设定△P=（P-P0）/P0；

当△P≤△P0时，则确定对预设时长T进行调整；

当△P＞△P0时，则确定对所述文本相似度W进行调整；

本发明实施例中，第三预设相对差△P0取值为0.4，第三预设相对差△P0是在所述平均语义相似度P为0.7的情况下取得的，本领域技术人员可以根据具体情况对第三预设相对差△P0进行调整。

具体而言，本发明根据所述第三相对差与第三预设相对差的比对结果确定是否对所述文本相似度进行调整，以精确地判断是否需要对预设时长T进行调整，使平均语义相似度的计算结果更准确，或确定对所述文本相似度进行调整，以提高第一判定方式的灵敏度与精确性，从而提高效率。

具体而言，当确定对预设时长T进行调整时，根据以下第一调整系数X1对预设时长T进行调整，设定：

；

将调整后的预设时长设置为Tt=T×X1。

具体而言，当确定对所述文本相似度W进行调整时，根据以下第二调整系数X2对所述文本相似度W进行调整，设定：

；

将调整后的文本相似度设置为Ww=W×X2。

具体而言，本发明根据公式计算第一调整系数和第二调整系数以精确调整预设时长和文本相似度，避免过度调整。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于AI大模型内容安全质检处理方法，其特征在于，包括：

2.根据权利要求1所述的基于AI大模型内容安全质检处理方法，其特征在于，所述确定是否对当前帧图像进行初次判定包括在所述结构相似度小于等于预设结构相似度的条件下确定对当前帧图像进行初次判定。

3.根据权利要求2所述的基于AI大模型内容安全质检处理方法，其特征在于，所述确定对当前帧图像进行初次判定的判定方式包括在所述第一相对差小于等于第一预设相对差的条件下确定以第一判定方式对当前帧图像进行初次判定，在所述第一相对差大于第一预设相对差的条件下确定以第二判定方式对当前帧图像进行初次判定。

4.根据权利要求3所述的基于AI大模型内容安全质检处理方法，其特征在于，所述根据文本相似度确定是否将当前帧图像判定为待识别图像包括在所述文本相似度小于第一预设文本相似度的条件下确定将当前帧图像判定为待识别图像，在所述文本相似度大于等于第一预设文本相似度且小于等于第二预设文本相似度的条件下确定对当前帧图像进行二次判定；

5.根据权利要求4所述的基于AI大模型内容安全质检处理方法，其特征在于，所述确定对所述视频片段进行抽帧的抽帧频率包括在所述第二相对差小于等于第二预设相对差的条件下确定以第一抽帧频率对所述视频片段进行抽帧，在所述第二相对差大于第二预设相对差的条件下确定以第二抽帧频率/>对所述视频片段进行抽帧，其中△W表示第二相对差。

6.根据权利要求5所述的基于AI大模型内容安全质检处理方法，其特征在于，所述平均语义相似度根据以下公式计算，设定：

，

7.根据权利要求6所述的基于AI大模型内容安全质检处理方法，其特征在于，所述根据所述平均语义相似度确定是否将当前帧图像判定为待识别图像包括在所述平均语义相似度小于等于预设平均语义相似度的条件下确定将当前帧图像判定为待识别图像，在所述平均语义相似度大于预设平均语义相似度的条件下确定根据第三相对差确定是否对所述文本相似度进行调整。

8.根据权利要求7所述的基于AI大模型内容安全质检处理方法，其特征在于，所述确定待识别图像的合格性包括在所述第二概率大于预设概率的条件下确定待识别图像不合格。

9.根据权利要求8所述的基于AI大模型内容安全质检处理方法，其特征在于，所述根据所述平均语义相似度与预设平均语义相似度的第三相对差确定是否对所述文本相似度进行调整包括在所述第三相对差大于第三预设相对差的条件下确定对所述文本相似度进行调整，在所述第三相对差小于等于第三预设相对差的条件下确定对预设时长进行调整，所述第三相对差由所述平均语义相似度与预设平均语义相似度确定。

10.根据权利要求9所述的基于AI大模型内容安全质检处理方法，其特征在于，所述对预设时长进行调整包括根据以下第一调整系数对预设时长进行调整，设定：

，

其中，X1表示所述第一调整系数，△P表示所述第三相对差；

，

其中，X2表示第二调整系数。