CN115238105A

CN115238105A - 融合多媒体的违规内容检测方法及系统、设备和介质

Info

Publication number: CN115238105A
Application number: CN202210767582.0A
Authority: CN
Inventors: 阎志远; 戴琳琳; 景辉; 朱建生; 单杏花; 随玉腾; 袁枫; 衣帅; 李雯; 樊春梅; 朱志亮; 李贝贝; 梅巧玲; 张智
Original assignee: China Academy of Railway Sciences Corp Ltd CARS; China State Railway Group Co Ltd; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Current assignee: China Academy of Railway Sciences Corp Ltd CARS; China State Railway Group Co Ltd; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-25

Abstract

本申请公开了一种融合多媒体的违规内容检测方法，该方法包括：多模态数据识别步骤、音频数据转换步骤、视频数据转换步骤及内容违规检测步骤；将待检测数据进行识别分类为视频数据、图像数据、文本数据及音频数据；音频数据通过语音识别算法转换成文本数据；视频数据分别提取音频序列和视频序列，针对音频序列使用语音识别算法转换文本数据，针对视频序列拆解为图片，采用图像处理算法模型，转换为图像数据，汇总输出所有的文本数据及图像数据；将汇总的文本数据及图像数据进行内容分类，并实现对包含正常、涉黄、涉政、广告、违禁、漫骂及暴恐违规内容的检测。本发明还公开了一种融合多媒体的违规内容检测系统。

Description

融合多媒体的违规内容检测方法及系统、设备和介质

技术领域

本申请涉及信息检测领域，特别是涉及一种融合多媒体的违规内容检测方法、系统、计算机设备和计算机可读存储介质。

背景技术

近年来，信息技术和人工智能技术发展飞速，为社会各界的发展带来巨大推动作用。推进国铁企业治理体系信息化，是国铁集团加强现代企业制度建设的政治担当，又是着眼铁路长远发展、做强做优做大国铁企业的实际行动。而在信息化治理过程中，由于庞大的互联网数据，势必造成对互联网信息数据监管的困难，需耗费大量人力成本。借助人工智能的AI+内容安全技术能够极大地减轻人工工作量，并高效发现问题、及时预警、快速解决。因此，基于AI+内容安全的国铁企业信息化治理技术研究亟需开展。

AI+内容安全在国内外已有一些研究基础，但仍存在一些问题，针对多模态内容安全的识别与理解性能有待提升：如今网络数据逐渐呈多元化，表现形式也十分丰富，包含图片、文字、音频和视频。而针对多模态内容的分析与识别能力还不足以满足使用需求，如小目标检测的漏报、误报率仍然很高，目标与事件检测准确度有待提升，基于视频内容的行为分析与语义理解性能有待改善。因此本专利通过融合多模态的内容，进行安全识别准确率的提升。

基于针对融合多媒体的违规内容识别的日益强烈的智能化需求，目前的违规内容识别功能仍然存在无法统一管理、自动化程度低及用户体验不佳的现实问题，因此亟需提出一种融合多媒体的违规内容检测方法。

发明内容

本申请实施例提供了一种融合多媒体的违规内容识别解决方案，实现语音识别、图像识别、视频序列识别、文本内容识别等技术，实现铁路旅客用户与客服沟通过程中识别涉黄、涉政、广告、违禁、漫骂、暴恐等违规内容和行为的融合多媒体技术的违规行为检测技术。

第一方面，本申请实施例提供了一种融合多媒体的违规内容检测方法，方法包括：

多模态数据识别步骤：将待检测数据进行识别分类为：视频数据、图像数据、文本数据及音频数据；

音频数据转换步骤：将音频数据通过语音识别算法转换成文本数据；

视频数据转换步骤：将视频数据分别提取音频序列和视频序列，针对音频序列使用语音识别算法转换文本数据，针对视频序列拆解为图片，采用图像处理算法模型，转换为图像数据，汇总输出所有的文本数据及图像数据；

内容违规检测步骤：将汇总的文本数据及图像数据进行内容分类，并实现违规内容的检测，内容分类包含正常、涉黄、涉政、广告、违禁、漫骂及暴恐。

优选地，上述视频数据转换步骤包括：

视频序列提取步骤：将视频序列拆解成图像帧，通过MobileNet图像处理算法模型，提取图像帧的图像特征值，抽取一连续时段内的多张图像帧的特征值，每张图像帧之间间隔相同时间，提取连续时段内的多张不同图像帧的图像特征值；

视频数据分类步骤：将多张不同图像的图像特征值输入到Transformer算法模型中分类，提取多张不同图像特征值的时序特征，输出连续时段内的视频内容分类结果。

优选地，上述内容违规检测步骤还包括：

文本数据检测步骤：将文本数据通过Embeding算法模型，输出特征值，特征值输入到Transformer算法模型中，输出文本内容分类；

图像数据检测步骤：将图像数据输入到MobileNet算法模型中，提取图像数据中图像的特征值，提取并判断图像中是否包含违规内容，输出图像的内容分类。

优选地，上述视频序列提取步骤包括：

滑动窗口步骤：采用滑动窗口在连续时段内进行平移推进，在滑动窗口中选取多个图像帧，每张图像帧之间间隔相同时间，提取连续时段内的多张不同图像帧的图像特征值。

第二方面，本申请实施例提供了一种融合多媒体的违规内容检测系统，采用如上所述融合多媒体的违规内容检测方法，系统包括：

多模态数据识别模块：将待检测数据进行识别分类为：视频数据、图像数据、文本数据及音频数据；

音频数据转换模块：将音频数据通过语音识别算法转换成文本数据；

视频数据转换模块：将视频数据分别提取音频序列和视频序列，针对音频序列使用语音识别算法转换文本数据，针对视频序列拆解为图片，采用图像处理算法模型，转换为图像数据，汇总输出所有的文本数据及图像数据；

违规检测模块：将汇总的文本数据及图像数据进行内容分类，并实现违规内容的检测，内容分类包含正常、涉黄、涉政、广告、违禁、漫骂及暴恐。

优选地，上述视频数据转换模块包括：

视频序列提取模块：将视频序列拆解成图像帧，通过MobileNet图像处理算法模型，提取图像帧的图像特征值，抽取一连续时段内的多张图像帧的特征值，每张图像帧之间间隔相同时间，提取连续时段内的多张不同图像帧的图像特征值；

视频数据分类模块：将多张不同图像的图像特征值输入到Transformer算法模型中分类，提取多张不同图像特征值的时序特征，输出连续时段内的视频内容分类结果。

优选地，上述违规检测模块还包括：

文本数据检测模块：将文本数据通过Embeding算法模型，输出特征值，特征值输入到Transformer算法模型中，输出文本内容分类；

图像数据检测模块：将图像数据输入到MobileNet算法模型中，提取图像数据中图像的特征值，提取并判断图像中是否包含违规内容，输出图像的内容分类。

优选地，上述视频序列提取模块包括：

滑动窗口模块：采用滑动窗口在连续时段内进行平移推进，在滑动窗口中选取多个图像帧，每张图像帧之间间隔相同时间，提取连续时段内的多张不同图像帧的图像特征值。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述第一方面所述的融合多媒体的违规内容检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述融合多媒体的违规内容检测方法。

相比于相关现有技术，具有以下突出的有益效果：

1、本发明模型使用多模态识别技术，融合人工智能中的语音识别、图像识别、视频序列识别、文本内容识别等技术，实现旅客与客服沟通过程中识别涉黄、涉政、广告、违禁、漫骂、暴恐等违规内容和行为的融合多媒体技术的违规行为检测技术；

2、本发明使用独立图像+图像序列的方式提取视频内容，达到对视频内容分类的效果，一秒30帧，图像帧重复率高，间隔一秒取帧，本发明采用滑动窗口，重叠滚动取帧方法，节省网络传输帧数，同一时间处理图片数减少，可以实时提取更长的视频分类；

3、本发明融合视频、图像、文本、音频中的文本信息，达到综合处理的效果，如有的视频中没有画面，但是有音频，单纯的视频违规内容审查无法筛查出违规行为。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明融合多媒体的违规内容检测方法的流程图；

图2为本发明具体实施例违规内容检测方法示意图；

图3为本发明融合多媒体的违规内容检测系统示意图；

图4为根据本申请实施例的计算机设备的硬件结构示意图。

以上图中：

10多模态数据识别模块 20音频数据转换模块

30视频数据转换模块 40内容违规检测模块

81、处理器； 82、存储器； 83、通信接口； 80、总线。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请旨在使用多模态识别技术，融合人工智能中的语音识别、图像识别、视频序列识别、文本内容识别等技术，实现铁路旅客与客服沟通过程中识别涉黄、涉政、广告、违禁、漫骂、暴恐等违规内容和行为的融合多媒体技术的违规行为检测技术。

如图1所示，本申请实施例提供了一种融合多媒体的违规内容检测方法，方法包括：

多模态数据识别步骤S10：将待检测数据进行识别分类为：视频数据、图像数据、文本数据及音频数据；

音频数据转换步骤S20：将音频数据通过语音识别算法转换成文本数据；

视频数据转换步骤S30：将视频数据分别提取音频序列和视频序列，针对音频序列使用语音识别算法转换文本数据，针对视频序列拆解为图片，采用图像处理算法模型，转换为图像数据，汇总输出所有的文本数据及图像数据；

内容违规检测步骤S40：将汇总的文本数据及图像数据进行内容分类，并实现违规内容的检测，内容分类包含正常、涉黄、涉政、广告、违禁、漫骂及暴恐。

优选地，上述视频数据转换步骤S30包括：

优选地，上述内容违规检测步骤S40还包括：

优选地，上述视频序列提取步骤包括：

以下结合附图，对本发明具体实施例进行详细说明：

本发明具体实施例中，如图2所示，实现了客服提供方式分为音频、视频和文本三种，因为文本和图像识别在深度学习领域发展较为成熟，数据的获取较为便捷，因此，本专利通过语音识别技术等，把多模态的数据转换为文本和图像数据，基于文本和图像识别技术，综合分析，进行分类，识别客服交流过程中的涉黄、涉政、广告、违禁、漫骂、暴恐等违规内容，有效提升违规内容识别的准确率。

客服数据中的音频数据，使用语音识别算法，把音频转换成文本数据。对于视频数据。提取视频中的音频和视频序列，对于音频序列，使用语音识别算法，提取音频中的文本内容。

对于视频序列，处理成图片，设计基于深度学习的算法，进行分类，类别包含正常、涉黄、涉政、广告、违禁、漫骂、暴恐共7类。

1、视频数据：

1)把视频拆解成图像帧；

2)通过MobileNet，提取图像特征值；

MobileNet输入：图像；

MobileNet输出：图像的特征值，用于表征这张图像；

本步骤作用：在本步骤，抽取三张图片的特征值，每张图片之间间隔0.5秒，本步骤能够提取这1.5秒内不同图片的特征，用于表征这三张图片独立的内容；

3)把图像特征值输入到Transformer算法模型中；

本步骤输入：三帧图像的特征值；

本步骤输出：1.5秒内的视频内容类别(正常、涉黄、涉政等)

本步骤作用：本步骤使用transformer算法，本算法能够提取上步骤独立图像特征的时序特征，如三张图片中人的行为等；

4)Transformer算法模型输出视频类别；

本步骤表示本段1.5秒视频的内容分类结果；

2、图像数据：

1)使用OCR算法，把图像中的文本信息提取出来，输出到文本分类算法；

2)把图像输入到MobileNet算法模型中；

MobileNet输入：图像；

MobileNet输出：图像的特征值，用于表征这张图像；

本步骤作用：在本步骤，抽取图像的特征值，提取本张图像中是否有违规内容；

3)直接输出图像的类别；

3、文本数据：

1)文本内容通过Embeding算法，输出特征值；

2)特征值输入到Transformer算法中，输出文本类别；

本发明使用独立图像+图像序列的方式提取视频内容，达到对视频内容分类的效果，每一秒30个图像帧，重复率高，间隔一秒取帧，采用滑动窗口，重叠滚动取帧方法，节省网络传输帧数，同一时间处理图片数减少，可以提取更长的视频分类；

本发明滑动窗口根据视频内容自动选取窗口间隔和步长，对于实时视频，选择0.5秒作为图像帧间隔，选择不定长的帧数，提取单独图像帧的特征。对于视频文件，小于10分钟的视频采用0.1秒作为图像帧间隔，选择10帧作为图像窗大小。对于大于10分钟的视频文件，采用0.5秒作为图像帧间隔，选择10帧作为图像窗大小。对于不同图像帧提取的特征值，作为时间序列的输入，通过时间序列神经网络Transformer，完成整个视频的分类。

融合视频、图像、文本、音频中的文本信息，达到综合处理的效果，如有的视频中没有画面，但是有音频，单纯的视频违规内容审查无法筛查出违规行为。

本申请实施例提供了一种融合多媒体的违规内容检测系统，采用如上所述融合多媒体的违规内容检测方法，系统包括：

多模态数据识别模块10：将待检测数据进行识别分类为：视频数据、图像数据、文本数据及音频数据；

音频数据转换模块20：将音频数据通过语音识别算法转换成文本数据；

视频数据转换模块30：将视频数据分别提取音频序列和视频序列，针对音频序列使用语音识别算法转换文本数据，针对视频序列拆解为图片，采用图像处理算法模型，转换为图像数据，汇总输出所有的文本数据及图像数据；

违规检测模块40：将汇总的文本数据及图像数据进行内容分类，并实现违规内容的检测，内容分类包含正常、涉黄、涉政、广告、违禁、漫骂及暴恐。

优选地，上述视频数据转换模块30包括：

优选地，上述违规检测模块40还包括：

优选地，上述视频序列提取模块包括：

本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的融合多媒体的违规内容检测方法。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的融合多媒体的违规内容检测方法。

另外，结合图1描述的本申请实施例的基于语音识别的信息查询方法可以由计算机设备来实现。图4为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种融合多媒体的违规内容检测方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图4所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于多媒体识别，从而实现结合图1描述的融合多媒体的违规内容检测方法。

本发明方法相比于现有技术，本发明采用使用独立图像+图像序列的方式提取视频内容，达到对视频内容分类的效果，一秒内30帧，图像帧重复率高，间隔一秒取帧，采用滑动窗口，重叠滚动取帧方法，节省网络传输帧数，同一时间处理图片数减少，可以提取更长的视频分类；融合视频、图像、文本、音频中的文本信息，达到综合处理的效果，如有的视频中没有画面，但是有音频，单纯的视频违规内容审查无法筛查出违规行为。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种融合多媒体的违规内容检测方法，其特征在于，所述方法包括：

音频数据转换步骤：将所述音频数据通过语音识别算法转换成文本数据；

视频数据转换步骤：将所述视频数据分别提取音频序列和视频序列，针对所述音频序列使用语音识别算法转换文本数据，针对所述视频序列拆解为图片，采用图像处理算法模型，转换为图像数据，汇总输出所有的所述文本数据及所述图像数据；

内容违规检测步骤：将汇总的所述文本数据及所述图像数据进行内容分类，并实现违规内容的检测，所述内容分类包含正常、涉黄、涉政、广告、违禁、漫骂及暴恐。

2.根据权利要求1所述融合多媒体的违规内容检测方法，其特征在于，所述视频数据转换步骤包括：

视频序列提取步骤：将所述视频序列拆解成图像帧，通过MobileNet图像处理算法模型，提取所述图像帧的图像特征值，抽取一连续时段内的多张图像帧的特征值，每张图像帧之间间隔相同时间，提取所述连续时段内的多张不同图像帧的图像特征值；

视频数据分类步骤：将所述多张不同图像的图像特征值输入到Transformer算法模型中分类，提取所述多张不同图像特征值的时序特征，输出所述连续时段内的视频内容分类结果。

3.根据权利要求1所述融合多媒体的违规内容检测方法，其特征在于，所述内容违规检测步骤还包括：

文本数据检测步骤：将所述文本数据通过Embeding算法模型，输出特征值，所述特征值输入到Transformer算法模型中，输出文本内容分类；

图像数据检测步骤：将所述图像数据输入到MobileNet算法模型中，提取所述图像数据中图像的特征值，提取并判断所述图像中是否包含违规内容，输出所述图像的内容分类。

4.根据权利要求2所述融合多媒体的违规内容检测方法，其特征在于，所述视频序列提取步骤包括：

滑动窗口步骤：采用滑动窗口在所述连续时段内进行平移推进，在所述滑动窗口中选取多个所述图像帧，每张图像帧之间间隔相同时间，提取所述连续时段内的多张不同图像帧的图像特征值。

5.一种融合多媒体的违规内容检测系统，采用如权利要求1-4中任意一项所述融合多媒体的违规内容检测方法，其特征在于，所述系统包括：

音频数据转换模块：将所述音频数据通过语音识别算法转换成文本数据；

视频数据转换模块：将所述视频数据分别提取音频序列和视频序列，针对所述音频序列使用语音识别算法转换文本数据，针对所述视频序列拆解为图片，采用图像处理算法模型，转换为图像数据，汇总输出所有的所述文本数据及所述图像数据；

违规检测模块：将汇总的所述文本数据及所述图像数据进行内容分类，并实现违规内容的检测，所述内容分类包含正常、涉黄、涉政、广告、违禁、漫骂及暴恐。

6.根据权利要求5所述融合多媒体的违规内容检测系统，其特征在于，所述视频数据转换模块包括：

视频序列提取模块：将所述视频序列拆解成图像帧，通过MobileNet图像处理算法模型，提取所述图像帧的图像特征值，抽取一连续时段内的多张图像帧的特征值，每张图像帧之间间隔相同时间，提取所述连续时段内的多张不同图像帧的图像特征值；

视频数据分类模块：将所述多张不同图像的图像特征值输入到Transformer算法模型中分类，提取所述多张不同图像特征值的时序特征，输出所述连续时段内的视频内容分类结果。

7.根据权利要求5所述融合多媒体的违规内容检测系统，其特征在于，所述违规检测模块还包括：

文本数据检测模块：将所述文本数据通过Embeding算法模型，输出特征值，所述特征值输入到Transformer算法模型中，输出文本内容分类；

图像数据检测模块：将所述图像数据输入到MobileNet算法模型中，提取所述图像数据中图像的特征值，提取并判断所述图像中是否包含违规内容，输出所述图像的内容分类。

8.根据权利要求6所述融合多媒体的违规内容检测系统，其特征在于，所述视频序列提取模块包括：

滑动窗口模块：采用滑动窗口在所述连续时段内进行平移推进，在所述滑动窗口中选取多个所述图像帧，每张图像帧之间间隔相同时间，提取所述连续时段内的多张不同图像帧的图像特征值。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述融合多媒体的违规内容检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述融合多媒体的违规内容检测方法。