CN115512259A

CN115512259A - 一种基于多模态的短视频审核方法

Info

Publication number: CN115512259A
Application number: CN202211144105.5A
Authority: CN
Inventors: 易黎; 宋南; 王涛; 苏俊亮; 沈梦强; 卓奕炜
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-23

Abstract

本发明公开了一种基于多模态的短视频审核方法，涉及互联网安全技术领域，更具体地，通过对短视频进行处理分成音频部分和图像部分，分别判断被测短视频是否存在违规内容,实现判别短视频是否违规的前提是通过moviepy的工具分离出短视频的音频部分和图像部分，通过自动语音识别ASR技术分析音频内容，通过光学字符识别OCR与人脸识别技术分析图像内容，最终再利用关键词识别技术判断被测视频是否存在违规内容，其对违规短视频进行高效的自动审核，提升短视频审核的效率，并从语音、图像和文本三方面进行综合判断。

Description

一种基于多模态的短视频审核方法

技术领域

本发明涉及互联网安全技术领域，更具体地，本发明涉及一种基于多模态的短视频审核方法。

背景技术

在信息安全技术领域，很多短视频应用审核依赖于人工审核和自动审核两种方式，如人工审核用在视频平台的场景较多，由于视频有一定时长，其中某一秒出现违规内容都会给运营平台带来麻烦，所以针对新用户首次发布的内容，运营平台通常会采用人工审核的方式。

实际中，除了正常的用户之外，运营平台主要面对的违规者，都是有组织，有预谋的黑灰产。他们通常会利用大量账号来发布相同或相似的非法或垃圾内容。

如果这些内容全部都由人工审核，将大大地消耗平台的人力。

所以为了对抗这些批量自动化上传、发布的内容，可以采取自动化的处置方式和应对策略。

发明内容

本发明所要解决的技术问题是针对背景技术的不足提供一种基于多模态的短视频审核方法，其对违规短视频进行高效的自动审核，提升短视频审核的效率，并从语音、图像和文本三方面进行综合判断。

本发明为解决上述技术问题采用以下技术方案：

一种基于多模态的短视频审核方法，具体包含如下步骤；

步骤1，利用moviepy库对短视频进行语音和图像分离，并按照设定时间间隔截取图像帧；

步骤2，利用卷积循环神经网络对截取的图像帧进行字幕检测与识别，获取文本关键信息；

步骤3，利用深度全序列卷积神经网络，搭建ASR语音识别模块，音频数据以语谱图特征的形式输入模型，并通过路径解码算法确定输出结果；

步骤4，利用深度残差网络模型对图像帧中出现的人脸进行识别并对比；

步骤5，利用关键词提取技术和k-means聚类机器学习模型，对OCR模块以及ASR语音识别模块识别的文本进行对照判别，进而判断被测视频是否存在违规内容。

作为本发明一种基于多模态的短视频审核方法的进一步优选方案，在步骤1中：

帧抽取音频时，通过音频文件切割方法读取短视频的音频；

抽取图像时，利用视频文件切割方法读取短视频的视频数据，并设置时间间隔TimeF参数为60秒，对于超过60秒的视频以60秒为单位时长切分视频数据；

切分出来的视频以切割时间(cuttime)参数为时间间隔，利用计算机视觉处理库(cv2)中的图像编码方法按设定cuttime来提取图像帧。

作为本发明一种基于多模态的短视频审核方法的进一步优选方案，在步骤2中，利用光学字符识别OCR模块对图像中的字符进行检测与识别，包含字幕检测和字幕识别两个阶段，且所有图像帧将直接以RGB三通道图的形式送入该模块；

步骤2.1，将经过预处理得到的图像帧进行文字检测，判断该图像帧是否包含字幕，再判断存在字幕后，给出字幕的坐标；

步骤2.2，根据预先设定的文本检测阈值，对图像帧进行二值化处理，图像帧会被划分出存在字幕的区域，区域在经过去重、合并、排序、旋转处理后给到后续模块进行字幕识别；

步骤2.3，根据给出的目标区域坐标范围提取出像素值数据，送入由7层二维卷积层与2层双向长短期时序记忆层所组成的卷积循环神经网络以提取高维特征，输出的结果再经解码得到字符序列，最终确定出字幕识别结果。

作为本发明一种基于多模态的短视频审核方法的进一步优选方案，在步骤3中，预处理模块输入的语音数据将以语谱图特征的形式送入深层卷积网络，利用序列解码算法获取文字序列作为本模块的识别结果，具体包含如下步骤：

步骤3.1，将输入的音频数据的采样率统一转换为16kHz，并做分帧、加汉明窗、傅里叶变换、数值归一化等操作，获得数据的语谱图特征，接着将语谱图的时间和频率维度看做图像的长和宽，送入深度全序列卷积(DFCNN)网络做高维特征提取；

步骤3.2，输入的特征需要经过8个卷积层，每2层卷积核个数分别为32、64、128和128，卷积核的尺寸均设置为3×3，每层卷积之后均设有一个批次归一化BatchNormalization层，每2层卷积之后均设有一个最大池化层；

步骤3.3，上述网络的输出经过线性层映射为语料词汇表的大小，再经过归一化指数函数Softmax层给出输出字符的概率分布；

步骤3.4，在整个序列范围上通过集束搜索算法确定出最有可能的字符序列，以作为语音识别模块的文本输出结果。

作为本发明一种基于多模态的短视频审核方法的进一步优选方案，在步骤4中，利用预处理阶段获得图像帧进行人脸检测，并进行特征编码，最终与违规阈值进行对比，获得判别结果，具体包含如下步骤：

步骤4.1，输入图片以批次大小送入模型，模型首先对输入图片进行人脸检测，定位人脸坐标；

步骤4.2，根据人脸坐标提取人脸范围内的像素值数据，对于不同尺寸大小的图像将会被强制使用双三次插值的方法压缩到112×112；

步骤4.3，输入图像经过50层的残差网络，每个残差块由二维卷积层、批次归一化层和激活函数层构成，每个残差块输出与输入拼接送入下一个残差块；

步骤4.4，模型根据输入的待测图片人脸提取并保存每个关键点的特征向量，同时再计算目标人脸图片的特征向量，

利用欧式距离：

其中，x_i和y_i分别表示待测人脸图片与目标人脸图片的特征向量，n为特征向量的长度，计算两个向量间的距离值d(x,y)；

步骤4.5，模型会依次将图像中识别的所有人脸计算距离值d_i(i＝1,2,3,…)，然后找到最小距离值d_min与阈值进行比较，小于1.5则输出存在违规内容，大于0.5则输出内容正常。

作为本发明一种基于多模态的短视频审核方法的进一步优选方案，所述步骤5具体如下：

步骤5.1，读取待审核文本语料，利用结巴分词jieba函数库分词，并转换成词频矩阵；其中，矩阵元素a[i][j]表示j词在i类文本下的词频；

步骤5.2，调用词频-逆向文件频率转换器类将矩阵抽取出词频-逆向文件频率(tfidf)矩阵，统计每个词语的tfidf权值，其中，用元素w[i][j]表示j词在i类文本中的tfidf权值，并获取词袋模型中的所有词语；

步骤5.3，获取词语单元的词语特征、词语单元在对应分析语句中的语句特征、以及词语单元在提取文本中的文本特征；

步骤5.4，根据违规语料库将文本特征转换为对应的违规语料库向量；

步骤5.5，选择初始化的k个样本作为初始聚类中心，针对词语中每个权值计算它到k个违规词语特征中心的距离并将其分到距离最小的违规词语所对应的类中，若违规词与所测词匹配概率大于预设阈值，则判别为违规视频。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明通过音视频分离技术，对短视频进行音频和图像提取，将两部分内容分别进行后续识别，通过视频分帧技术提取视频中的图像帧，再通过OCR技术进行图像上的文本识别，对识别出的文本进行敏感词的检索，通过人脸识别技术，对图像帧进行关键人物人脸匹配，判断是否存在违规人物。通过ASR对分离的音频识别出文本，再与敏感词进行检索。集成上述功能模块，编写web网页界面进行短视频的上传和识别结果显示，本发明所描述的方法即通过对视频的音频和图像切割处理，运用OCR、ASR、人脸识别、敏感词判别等方法，只需要上传相应的视频，就能自动完成鉴别短视频是否含有违规内容。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明基于多模态的短视频审核方法示意图；

图2是本发明该网页终端的示范性结构图；

图3是本发明该视频预处理结构示意图；

图4是本发明OCR和人脸识别模块结构示意图；

图5是本发明ASR识别模块结构示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

一种基于多模态的短视频审核方法，具体包含如下步骤：

步骤1，短视频预处理：利用moviepy库对短视频进行语音和图像分离，并按一定时间间隔截取图像帧。

步骤2，OCR技术：利用卷积循环神经网络(Convolutional Recurrent NeuralNetworks，CRNN)对截取的图像帧进行字幕检测与识别。

步骤3，ASR技术：利用深度全序列卷积神经网络(Deep Fully ConvolutionalNeural Network，DFCNN)搭建语音识别模块，音频数据以语谱图(Spectrogram)特征的形式输入模型，并通过路径解码算法确定输出结果。

步骤4，人脸识别技术：利用深度残差网络(Deep Residual Network,ResNet)模型对图像帧中出现的人脸进行识别并对比。

步骤5，关键词识别技术：利用关键词提取技术和k-means聚类机器学习模型，对OCR以及ASR识别的文本进行对照判别。

处理具体步骤如下：

短视频预处理：从网络接口收集到的短视频是视频和音频结合。本发明从图片帧和音频的角度出发进行审核。短视频在审核前先对其进行预处理可以大大加快审核的速度。本发明的短视频预处理模块使用了moviepy工具，在短视频中分别抽取音频和图像，再按照各个形式送入相应的模块中进行解析判别。

帧抽取音频时，通过音频文件切割(AudioFileClip)方法读取短视频的音频；

抽取图像时，利用视频文件切割(VideoFileClip)方法读取短视频的视频数据，并设置时间间隔(TimeF)参数为60秒，对于超过60秒的视频以60秒为单位时长切分视频数据；

切分出来的视频以切割时间(cuttime)参数为时间间隔，利用计算机视觉处理库(cv2)中的图像编码(imencode)方法按设定cuttime来提取图像帧。

OCR技术：利用光学字符识别技术可以对图像中的字符进行检测与识别，得到文本关键信息。这种特点特别适合短视频的字幕识别等场景。利用OCR技术，短视频数据中出现的文字、数字、特殊符号等文本信息可以被自动提取出来，提供给后续模块进行进一步的鉴定，这为短视频场景的数据结构化以及信息审核提供了一项十分关键的能力，极大地提高了短视频场景的审核效率。

本字幕识别模块的工作流程被设计为字幕检测和字幕识别两个阶段，所有图像帧将直接以RGB三通道图的形式送入该模块。首先将经过预处理得到的图像帧进行文字检测，判断该图像帧是否包含字幕，并在判断存在字幕后给出字幕的坐标。根据预先设定的文本检测阈值，对图像帧进行二值化处理，图像帧会被划分出存在字幕的区域，这些区域在经过去重、合并、排序、旋转等处理后给到后续模块进行字幕识别。根据给出的目标区域坐标范围提取出像素值数据，送入由7层2维卷积层与2层双向长短期时序记忆(BiLSTM)层所组成的卷积循环神经网络(CRNN)以提取高维特征，输出的结果再经解码得到字符序列，最终确定出字幕识别结果。

ASR技术：短视频的音频维度同样涵盖了包罗万象的信息，从与视频场景密切相关的环境声音、调动观众情绪的背景音乐，乃至人们借以交流的语音信息等等不一而足。利用本发明的语音识别模块对短视频的音频维度进行提取、识别，可以获取到有别于其他维度的信息，在整个短视频审核系统中发挥独特作用。

在本发明的语音识别模块中，预处理模块输入的语音数据将以语谱图特征的形式送入深层卷积网络，方便提取高维度特征。接着，利用序列解码算法获取最有可能的文字序列作为本模块的识别结果。本发明的语音识别模块首先将输入的音频数据的采样率统一转换为16kHz，并做分帧、加汉明窗、傅里叶变换、数值归一化等操作，获得数据的语谱图特征，接着将语谱图的时间和频率维度看做图像的长和宽，送入DFCNN网络做深度特征提取。输入的特征需要经过8个卷积层，每2层卷积核个数分别为32、64、128和128，卷积核的尺寸均设置为3×3，每层卷积之后均设有一个批次归一化(Batch Normalization，BN)层，每2层卷积之后均设有一个最大池化层。最终的模型输出经过线性层映射为语料词汇表的大小，再经过归一化指数函数(Softmax)层给出输出字符的概率分布。最后在整个序列范围上通过集束搜索(Beam Search)算法确定出最有可能的字符序列，以作为语音识别模块的文本输出结果。

人脸识别技术：对比文本内容，图像中可以存储更丰富的信息，这就对网络内容的违规内容分析造成了较大的分析障碍，且图像往往比文字更具有表达性，尤其是涉政、涉黄等违规的图片的传播更加快速。

本发明的人脸识别模块利用预处理阶段获得图像帧进行人脸检测，并进行特征编码，最终与违规阈值进行对比，获得判别结果。输入图片以批次大小送入模型，模型首先对输入图片进行人脸检测，定位人脸坐标；然后根据人脸坐标提取人脸范围内的像素值数据，对于不同尺寸大小的图像将会被强制使用双三次插值的方法压缩到112×112；输入图像经过50层的残差网络，每个残差块由二维卷积层、批次归一化层和激活函数层构成，每个残差块输出与输入拼接送入下一个残差块；模型根据输入的待测图片人脸提取并保存每个关键点的特征向量，同时再计算目标人脸图片的特征向量，利用欧式距离：

其中，x_i和y_i分别表示待测人脸图片与目标人脸图片的特征向量，n为特征向量的长度，计算两个向量间的距离值d。在设置判别阈值时，根据实际情况进行设置，本发明设置判别阈值为1.5。

因此，模型会依次将图像中识别的所有人脸计算距离值d_i(i＝1,2,3,…)，然后找到最小距离值d_min与阈值进行比较，小于1.5表示存在违规内容，大于等于1.5则表示内容正常。

关键词判别技术：

获取设定数量的已标注所有违规词语单元的词语特征、语句特征、文本特征以及关键词的分析语句构建违规语料库。将通过上述过程得到的待审核文本，使用违规语料库创建k-means聚类机器学习模型，并作判别。

读取待审核文本语料，利用结巴分词(jieba)函数库分词，并转换成词频矩阵；其中，矩阵元素a[i][j]表示j词在i类文本下的词频；

调用词频-逆向文件频率转换器(TfidfTransformer)类将矩阵抽取出词频-逆向文件频率(tfidf)矩阵，统计每个词语的tfidf权值，其中，用元素w[i][j]表示j词在i类文本中的tfidf权值，并获取词袋模型中的所有词语。

获取词语单元的词语特征、词语单元在对应分析语句中的语句特征、以及词语单元在提取文本中的文本特征。根据违规语料库将文本特征转换为对应的违规语料库向量。

选择初始化的k个样本作为初始聚类中心，针对词语中每个权值计算它到k个违规词语特征中心的距离并将其分到距离最小的违规词语所对应的类中，若违规词与所测词匹配概率大于预设阈值，则判别为违规视频。

本专利的目的是通过对短视频进行处理分成音频部分和图像部分，分别判断被测短视频是否存在违规内容。实现判别短视频是否违规的前提是通过moviepy的工具分离出短视频的音频部分和图像部分，通过ASR技术分析音频内容，通过OCR与人脸识别技术分析图像内容，最终再利用关键词识别技术判断被测视频是否存在违规内容。

具体实施例如下；如图1所示，一种基于多模态的短视频审核方法示意图。

1.短视频预处理，使用moviepy工具读取短视频，抽取短视频音频内容，并按照设定时间间隔截取图像。

2.音频通过ASR语音识别模块识别出文字内容。

3.利用光学字符识别OCR模块识别视频内容是否有字幕，若有，识别字幕内容。

4.对图像进行人脸识别，并与涉及敏感人脸库进行对比。

5.使用关键词判别技术，若与敏感词库匹配概率大于预设阈值，则判别为违规视频。

本专利所描述的方法即是通过对视频的音频和图像切割处理，运用光学字符识别(OCR)，自动语音识别(ASR)，人脸识别，敏感词判别等方法，只需要上传相应的视频，就能自动完成鉴别短视频是否含有违规内容。

图2为该网页终端的示范性结构图。本发明通过运用轻量级web开发框架—Flask启动审核接口，设计网页终端来传指定的待识别视频(mp4格式)，并能在网页界面上实时播放待识别视频，便于同输出的识别结果进行验证。

图3为该视频预处理结构。经过网页上传的视频首先经过预处理模块运用moviepy工具进行语音和图像的抽取，语音用于ASR模块进行文字识别；而图像首先判断时长是否大于60s，若是则进行切分，再进一步按照设定切割时间100ms截取图像帧内容，获得截取图像帧数据。

图4为OCR和人脸识别模块结构。截取的图像帧同时送入OCR识别模块和人脸识别模块，分别识别图像帧中存在的文本信息和人脸数据，识别的文本与敏感词库进行匹配，输出是否存在违规内容；而人脸识别过程中需设置判别阈值1.5，计算待识别人脸与目标人脸的欧式距离d，如d<1.5，则显示存在违规内容(True)；若d>＝1.5，则显示是不存在违规内容(False)。最后分别将各自判别的结果输出到界面终端显示。

图5为ASR识别模块结构，在ASR识别过程中，将预处理阶段的语音信号送入ASR模块，输出对应的文本识别内容，再与敏感词库进行匹配，输出是否存在违规内容。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多模态的短视频审核方法，其特征在于：具体包含如下步骤；

步骤2，利用卷积循环神经网络CRNN对截取的图像帧进行字幕检测与识别，获取文本关键信息；

步骤3，利用深度全序列卷积神经网络DFCNN，搭建ASR语音识别模块，音频数据以语谱图特征的形式输入模型，并通过路径解码算法确定输出结果；

步骤4，利用深度残差网络ResNet模型对图像帧中出现的人脸进行识别并对比；

步骤5，利用关键词提取技术和k-means聚类机器学习模型，对光学字符识别OCR模块以及自动语音识别ASR模块识别的文本进行对照判别，进而判断被测视频是否存在违规内容。

2.根据权利要求1所述的一种基于多模态的短视频审核方法，其特征在于：在步骤1中：

帧抽取音频时，通过音频文件切割方法读取短视频的音频；

切分出来的视频以切割时间cuttime参数为间隔，利用计算机视觉处理库cv2中的图像编码方法按设定cuttime来提取图像帧。

3.根据权利要求1所述的一种基于多模态的短视频审核方法，其特征在于：在步骤2中，利用光学字符识别OCR模块对图像中的字符进行检测与识别，包含字幕检测和字幕识别两个阶段，且所有图像帧将直接以RGB三通道图的形式送入该模块；

4.根据权利要求1所述的一种基于多模态的短视频审核方法，其特征在于：在步骤3中，预处理模块输入的语音数据将以语谱图特征的形式送入深层卷积网络，利用序列解码算法获取文字序列作为本模块的识别结果，具体包含如下步骤：

步骤3.1，将输入的音频数据的采样率统一转换为16kHz，并做分帧、加汉明窗、傅里叶变换、数值归一化等操作，获得音频数据的语谱图特征，接着将语谱图的时间和频率维度看做图像的长和宽，送入深度全序列卷积DFCNN网络做高维特征提取；

步骤3.2，输入的特征需要经过8个卷积层，每2层卷积核个数分别为32、64、128和128，卷积核的尺寸均设置为3×3，每层卷积之后均设有一个批次归一化Batch Normalization层，每2层卷积之后均设有一个最大池化层；

5.根据权利要求1所述的一种基于多模态的短视频审核方法，其特征在于：在步骤4中，利用预处理阶段获得图像帧进行人脸检测，并进行特征编码，最终与违规阈值进行对比，获得判别结果，具体包含如下步骤：

步骤4.4，模型根据输入的待测图片人脸提取并保存每个关键点的特征向量，同时再计算目标人脸图片的特征向量；

利用欧式距离：

步骤4.5，模型会依次将图像中识别的所有人脸计算距离值d_i(i＝1,2,3,…)，然后找到最小距离值d_min与阈值进行比较，小于1.5则输出存在违规内容，大于0.5则输出内容正常，其中，设置判别阈值为1.5。

6.根据权利要求1所述的一种基于多模态的短视频审核方法，其特征在于：所述步骤5具体如下：

步骤5.1，读取待审核文本语料，利用结巴分词函数库分词，并转换成词频矩阵；其中，矩阵元素a[i][j]表示j词在i类文本下的词频；

步骤5.2，调用词频-逆向文件频率转换器类将矩阵抽取出词频-逆向文件频率tfidf矩阵，统计每个词语的tfidf权值，其中，用元素w[i][j]表示j词在i类文本中的tfidf权值，并获取词袋模型中的所有词语；