CN116208802A

CN116208802A - 视频数据多模态合规检测方法、存储介质和合规检测设备

Info

Publication number: CN116208802A
Application number: CN202310491117.3A
Authority: CN
Inventors: 高伟; 王全胜
Original assignee: Guangzhou Xin'an Data Co ltd
Current assignee: Guangzhou Xin'an Data Co ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-06-02

Abstract

本发明公开了一种视频数据多模态合规检测方法、存储介质和合规检测设备。该方法为：A.把待检测的视频数据中的语音信息转换为第一文本信息；B.对待检测的视频数据中的每帧图像：B1.进行文本识别得出第二文本信息，B2.采用敏感图像识别模型进行图像识别，得到敏感图像检测结果；C.采用敏感信息检测模型对第一文本信息和第二文本信息进行敏感信息检测，得到敏感信息检测结果；D.根据敏感图像检测结果和敏感信息检测结果生成该视频数据的合规检测结果；步骤B中，判断当前帧图像与前一帧图像相比是否有变化，若没变化，则不对当前帧图像执行步骤B1和B2。该方法可减少视频数据合规检测所占用的计算资源，缩短视频数据合规检测耗时。

Description

视频数据多模态合规检测方法、存储介质和合规检测设备

技术领域

本发明涉及数据合规检测技术领域，尤其涉及一种视频数据多模态合规检测方法、存储介质和合规检测设备。

背景技术

随着互联网技术的发展，数据的交易与传播越发便利。在我国，数据需要符合相关法规的规定才允许进行交易或者传播。现有技术中，针对不同数据类型有不同的数据合规质检方法，例如：针对文本数据，采用OCR来进行文本识别后判断其是否含有敏感信息；针对图像数据，采用图像识别来判断其是否含有敏感物体。视频数据中所含有的信息类型有多种，包括语音、文本、图像，任一种信息中都有可能包含隐私、涉恐、涉黄等违法信息，因此，视频数据的合规质检相比于文本数据的、图像数据的合规质检要复杂得多。专利文献CN114786035A公开了一种直播场景的合规质检方法，针对直播视频数据中的语音、文本、图像分别采用不同的检测方式进行合规检测，得出直播视频的合规性结果，实现对直播视频数据的多模态合规检测。该合规质检方法步骤具体如下：(1)从直播间提取直播音频流数据、文本流数据、视频流数据；(2)通过智能语音识别模型将步骤(1)中的音频流数据转换为文本数据；(3)通过OCR识别模型对视频流数据中的文本进行检测识别；(4)通过文本合规检测模型对步骤(1)、步骤(2)和步骤(3)中的文本数据进行合规性检测；(5)通过图像合规检测模型对步骤(3)中的视频流数据进行合规性检测；(6)通过违规提醒模块将步骤(4)和步骤(5)中的检测结果在直播间进行实时推送提醒。该专利文献实现了根据视频数据的信息特点对其进行全方位的合规检测。由于视频数据需分别进行多种信息的合规检测，相比于仅需进行单一类型信息合规检测的文本数据/图像数据，视频数据合规检测需占用更多计算资源，并且检测耗时相对较长。

发明内容

本发明所要解决的技术问题是如何减少视频数据合规检测所占用的计算资源，缩短检测耗时。

为了解决上述技术问题，本发明第一方面提供了一种视频数据多模态合规检测方法，包括以下步骤：

A.把待检测的视频数据中的语音信息转换为第一文本信息；

B.对待检测的视频数据中的每帧图像：B1. 进行文本识别得出第二文本信息，B2.采用敏感图像识别模型进行图像识别，得到敏感图像检测结果；

C.采用敏感信息检测模型分别对上述第一文本信息、第二文本信息进行敏感信息检测，得到敏感信息检测结果；

D.根据敏感图像检测结果和敏感信息检测结果生成该视频数据的合规检测结果；

步骤B中，判断当前帧图像与前一帧图像相比是否有变化，若没变化，则不对当前帧图像执行步骤B1和B2。

进一步地，步骤B中，只对当前帧图像的相比前一帧图像变化的区域执行步骤B1和B2。

进一步地，步骤C中，敏感信息检测模型包括命名实体识别单元、正则表达式识别单元和敏感词识别单元，具体地，采用命名实体识别单元和正则表达式识别单元对上述第一文本信息和第二文本信息进行隐私信息识别，采用敏感词识别单元对上述第一文本信息和第二文本信息进行敏感词识别。

进一步地，该方法包括步骤E.若视频数据的合规检测结果中含有违规信息，则在视频数据中违规信息所在帧标记违规标签。

进一步地，步骤A具体采用自动语音识别技术把待检测的视频数据中的语音信息转换为第一文本信息。

进一步地，步骤B1具体采用OCR进行文本识别。

进一步地，步骤B2中，敏感图像识别模型采用神经网络模型构建而成。

本发明还提供了一种计算机可读存储介质，其上存储有可执行的计算机程序，该计算机程序被执行时实现如上所述的视频数据多模态合规检测方法。

本发明还提供了一种数据合规检测设备，包括处理器和计算机可读存储介质，该计算机可读存储介质是如上所述的计算机可读存储介质。

本发明给出的视频数据多模态合规检测方法在对视频数据的每帧图像执行步骤B1和B2之前，先判断当前帧图像是否在前一帧图像的基础上产生变化，如果没有变化，意味着当前帧图像和前一帧图像一样，而先前已对前一帧图像执行步骤B1和B2，故不对该当前帧图像执行步骤B1和B2，这样就减少了对视频数据执行步骤B1和B2的次数，如此则可减少视频数据合规检测所占用的计算资源，缩短视频数据合规检测耗时。

附图说明

图1是本发明提供的视频数据多模态合规检测方法的流程示意图。

具体实施方式

以下结合具体实施方式对本发明创造作进一步详细说明。

数据合规检测设备包括处理器和计算机可读存储介质，该计算机可读存储介质中存储有可执行的计算机程序，处理器执行该计算机程序从而实现如图1所示的视频数据多模态合规检测方法。下文以视频数据上传到网络平台时的合规检测为例来说明该方法的执行过程。

用户想在网络平台上分享一个视频供广大网友观看，就在该网络平台的视频上传入口上传视频数据。网络平台接收到该视频数据后，将其转发给数据合规检测设备进行合规检测。数据合规检测设备第一方面采用自动语音识别技术（ASR）把该视频数据中的语音信息转换为第一文本信息；第二方面从该视频数据中提取每一帧的图像并存放至该视频数据对应的图像集中。技术人员预先采用Yolo3神经网络模型构建出敏感图像识别初始模型，然后收集大量的敏感图像样本并人工对各个敏感图像样本中的违规内容进行标注，得到敏感图像训练样本集，使用该样本集对敏感图像识别初始模型进行迁移学习，得到训练好的敏感图像识别模型，其具备对图像进行识别标注出图像中的违规内容的能力。技术人员把该敏感图像识别模型存储到数据合规检测设备中。数据合规检测设备获得上述视频数据的图像集之后，按照次序逐帧对各个图像进行文本识别步骤B1和敏感图像识别步骤B2，具体地：从图像集中取出第一帧图像，执行步骤B1采用OCR对该第一帧图像进行文本识别得出该帧图像的第二文本信息，同时执行步骤B2采用敏感图像识别模型对第一帧图像进行图像识别，敏感图像识别模型如果识别出图像中含有违规内容，就自动在该帧图像中标注出违规内容并将标注后的图像存在图像违规信息集中，否则就认为该帧图像正常；从图像集中取出第二帧图像，判断第二帧图像与第一帧图像相比是否有变化，本例中，第二帧图像与第一帧图像相比有变化，数据合规检测设备提取第二帧图像的相比于第一帧图像变化的区域，对第二帧图像的变化区域执行步骤B1采用OCR对该变化区域进行文本识别得出该帧图像的第二文本信息，同时对第二帧图像的变化区域执行步骤B2采用敏感图像识别模型对变化区域进行图像识别，敏感图像识别模型如果识别出图像中含有违规内容，就自动在该帧图像中标注出违规内容并将标注后的图像存在图像违规信息集中，否则就认为该帧图像正常；从图像集中取出第三帧图像，判断第三帧图像与第二帧图像相比是否有变化，本例中，第三帧图像与第二帧图像相比没有变化，数据合规检测设备则跳过第三帧图像，不对第三帧图像执行步骤B1和B2；照此同理依次逐帧处理图像集中的各个图像。处理完图像集中的各帧图像后所得到的图像违规信息集就是视频数据的敏感图像检测结果。

数据合规检测设备得到视频数据各帧图像的第二文本信息之后，采用敏感信息检测模型来对第一文本信息和各个第二文本信息进行敏感信息检测。敏感信息一般包括用户隐私信息以及涉暴、涉黄、涉政等敏感词，针对这两类敏感信息的特点，敏感信息检测模型包括命名实体识别单元、正则表达式识别单元和敏感词识别单元，数据合规检测设备采用命名实体识别单元来识别第一文本信息和各个第二文本信息中的例如姓名、地址等隐私信息，例如识别到地址信息广东省广州市天河区xxx街道xxx号，那么就得到第一敏感信息检测结果“敏感信息：地址信息广东省广州市天河区xxx街道xxx号”；采用正则表达式识别单元对第一文本信息和各个第二文本信息中的例如电话、邮箱、银行账号等有特定规则的隐私信息进行正则匹配识别，例如识别到电话号码159xxxxxxxx，那么就得到第二敏感信息检测结果“敏感信息：电话159xxxxxxxx”；采用敏感词识别单元对第一文本信息和各个第二文本信息进行敏感词匹配识别，例如识别到涉黄敏感词xxx、涉政敏感词xxx，那么就得到第三敏感信息检测结果“敏感信息：涉黄敏感词xxx、涉政敏感词xxx”。第一、第二、第三敏感信息检测结果汇总形成视频数据的敏感信息检测结果“敏感信息：地址信息广东省广州市天河区xxx街道xxx号、电话159xxxxxxxx、涉黄敏感词xxx、涉政敏感词xxx”。本实施例是在得到第一文本信息和各个第二文本信息之后，采用敏感信息检测模型一起对第一文本信息和各个第二文本信息进行敏感信息检测。其他实施例可以改为，在得到第一文本信息后就采用敏感信息检测模型对第一文本信息进行敏感信息检测，得到语音敏感信息检测结果；等得到各个第二文本信息后再采用敏感信息检测模型对各个第二文本信息进行敏感信息检测，得到文字敏感信息检测结果。语音敏感信息检测结果和文字敏感信息检测结果汇总后即是视频数据的敏感信息检测结果。

数据合规检测设备得到视频数据的敏感信息检测结果后，根据视频数据的敏感信息检测结果和敏感图像检测结果生成该视频数据的合规检测结果。假设数据合规检测设备在进行敏感图像检测时，只检测到第十帧图像中含有裸体人物，属于涉黄敏感图像，其余帧图像都是正常图像，那么视频数据的合规检测结果是“敏感信息：地址信息广东省广州市天河区xxx街道xxx号、电话159xxxxxxxx、涉黄敏感词xxx、涉政敏感词xxx；敏感图像：第十帧图像是涉黄敏感图像”。数据合规检测设备在得到视频数据的合规检测结果之后，根据合规检测结果中的违规信息（即敏感信息和敏感图像信息）在视频数据中违规信息所在帧标记违规标签，例如数据合规检测设备是在第二帧图像的文本信息中检测到地址信息和电话号码，则在视频数据的第二帧处标记违规标签，标签内容是文本含有隐私信息；又例如在视频数据第8秒的语音信息中检测到涉黄敏感词xxx和涉政敏感词xxx，则在视频数据第8秒所在帧标记违规标签，标签内容是语音含有涉黄、涉政敏感词；再例如检测到第十帧图像是涉黄敏感图像，则在视频数据第十帧处标记违规标签，标签内容是涉黄敏感图像。在视频数据各个违规信息所在帧处标记好之后，数据合规检测设备就发送审核不通过不予以上传的信息给上传该视频数据的用户，同时把合规检测结果和标记后的视频数据发送给该用户，供其对视频数据进行整改。

如上所述仅为本发明创造的实施方式，不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换，仍落入专利保护范围。

Claims

1.一种视频数据多模态合规检测方法，包括以下步骤：

A.把待检测的视频数据中的语音信息转换为第一文本信息；

B.对待检测的视频数据中的每帧图像：B1. 进行文本识别得出第二文本信息，B2. 采用敏感图像识别模型进行图像识别，得到敏感图像检测结果；

其特征是，步骤B中，判断当前帧图像与前一帧图像相比是否有变化，若没变化，则不对当前帧图像执行步骤B1和B2。

2.如权利要求1所述的视频数据多模态合规检测方法，其特征是，步骤B中，只对当前帧图像的相比前一帧图像变化的区域执行步骤B1和B2。

3.如权利要求1所述的视频数据多模态合规检测方法，其特征是，步骤C中，敏感信息检测模型包括命名实体识别单元、正则表达式识别单元和敏感词识别单元，具体地，采用命名实体识别单元和正则表达式识别单元对上述第一文本信息和第二文本信息进行隐私信息识别，采用敏感词识别单元对上述第一文本信息和第二文本信息进行敏感词识别。

4.如权利要求1所述的视频数据多模态合规检测方法，其特征是，包括步骤E.若视频数据的合规检测结果中含有违规信息，则在视频数据中违规信息所在帧标记违规标签。

5.如权利要求1所述的视频数据多模态合规检测方法，其特征是，步骤A具体采用自动语音识别技术把待检测的视频数据中的语音信息转换为第一文本信息。

6.如权利要求1所述的视频数据多模态合规检测方法，其特征是，步骤B1具体采用OCR进行文本识别。

7.如权利要求1所述的视频数据多模态合规检测方法，其特征是，步骤B2中，敏感图像识别模型采用神经网络模型构建而成。

8.一种计算机可读存储介质，其上存储有可执行的计算机程序，其特征是，该计算机程序被执行时实现如权利要求1至7所述的视频数据多模态合规检测方法。

9.一种数据合规检测设备，包括处理器和计算机可读存储介质，其特征是，该计算机可读存储介质是如权利要求8所述的计算机可读存储介质。