CN115909390A

CN115909390A - 低俗内容识别方法、装置、计算机设备以及存储介质

Info

Publication number: CN115909390A
Application number: CN202111166277.8A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-04

Abstract

本申请涉及一种低俗内容识别方法、装置、计算机设备和存储介质。方法通过获取待识别数据；提取待识别数据如视频数据中的图像数据与文本数据；获取所述图像数据的人体部位图像特征、所述内容文本的第一文本特征以及所述标签文本的第二文本特征；而后基于人体部位图像特征、第一文本特征以及第二文本特征，对待识别数据进行多模态融合识别，获取待识别数据对应的低俗内容识别结果。本申请基于融合不同类型文本以及人体部位图像等多维度特征信息，来进行低俗内容的多模态融合识别，通过不同特征信息相互补充，能很大程度上提升低俗内容识别的准确率。

Description

低俗内容识别方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种低俗内容识别方法、装置、计算机设备以及存储介质。

背景技术

随着互联网快速发展的时代，随着内容生产的门槛降低，各种内容的发布量以指数级的速度增长。这些内容来源来自各种内容创作机构，比如自媒体和机构的PGC(Professional Generated Content，专业生产内容)，UGC(User Generated Content，用户生成内容)。图文内容(包括图集)通过算法分发以Feeds流展示获得了快速的发展。在过去半年内，视频内容在各个来源渠道的入库峰值日上传量已超过百万级别乃至千万级别。互联网上内容来源非常广泛也非常多，包括文各种各样的视频(包括短视频和小视频)，这些内容来源渠道和质量层次不齐。随着UGC内容爆发式增长，信息流产品占领越来越多的用户时间。

目前，信息流产品上存在着大量低俗内容，例如软色情内容，软色情不是色情，但内容(包括视频包含的文字、图片或视频本身等)却又充满挑逗、诱惑、让人想入非非，其程度介于性感和色情之间。而目前针对这类低俗内容，当前大多数算法识别目标主要聚焦于人体部位的暴露，而忽视了其他性暗示、亲密行为、低俗着装等其他内容，因而导致低俗内容的识别准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能有效提高低俗内容识别准确率的低俗内容识别方法、装置、计算机设备和存储介质。

一种低俗内容识别方法，所述方法包括：

获取待识别数据；

提取所述待识别数据中的图像数据与文本数据，所述文本数据包括内容文本以及标签文本；

获取所述图像数据的人体部位图像特征、所述内容文本的第一文本特征以及所述标签文本的第二文本特征，所述人体部位图像特征基于预设图卷积网络模型与预设迁移学习模型识别获取，所述预设图卷积网络基于不同人体部位之间关联关系的先验知识构建，所述预设迁移学习模型用于识别人体部位对应的低俗内容标签；

基于所述人体部位图像特征、所述第一文本特征以及所述第二文本特征，对所述待识别数据进行多模态融合识别，获取所述待识别数据对应的低俗内容识别结果。

一种低俗内容识别装置，所述装置包括：

数据获取模块，用于获取待识别数据；

数据提取模块，用于提取所述待识别数据中的图像数据与文本数据，所述文本数据包括内容文本以及标签文本；

特征提取模块，用于获取所述图像数据的人体部位图像特征、所述内容文本的第一文本特征以及所述标签文本的第二文本特征，所述人体部位图像特征基于预设图卷积网络模型与预设迁移学习模型识别获取，所述预设图卷积网络基于不同人体部位之间关联关系的先验知识构建，所述预设迁移学习模型用于识别人体部位对应的低俗内容标签；

多模态识别模块，用于基于所述人体部位图像特征、所述第一文本特征以及所述第二文本特征，对所述待识别数据进行多模态融合识别，获取所述待识别数据对应的低俗内容识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别数据；

提取所述待识别数据中的图像数据与文本数据；

获取所述图像数据的人体部位图像特征，以及所述文本数据中的文本特征；

基于所述人体部位图像特征以及所述文本特征，对所述待识别数据进行多模态融合识别，获取所述待识别数据对应的低俗内容识别结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别数据；

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别数据；

上述低俗内容识别方法、装置、计算机设备和存储介质，通过获取待识别数据；提取待识别数据中的图像数据与文本数据；获取所述图像数据的人体部位图像特征、所述内容文本的第一文本特征以及所述标签文本的第二文本特征；而后基于人体部位图像特征、第一文本特征以及第二文本特征，对待识别数据进行多模态融合识别，获取待识别数据对应的低俗内容识别结果。本申请基于融合不同类型文本以及人体部位图像等多维度特征信息，来进行低俗内容的多模态融合识别，通过不同特征信息相互补充，能很大程度上提升低俗内容识别的准确率。

附图说明

图1为一个实施例中低俗内容识别方法的应用环境图；

图2为一个实施例中低俗内容识别方法的流程示意图；

图3为一个实施例中提取视频数据中图像数据与文本数据步骤的流程示意图；

图4为一个实施例中从图像数据中提取人体部位图像特征步骤的流程示意图；

图5为一个实施例中通过预设区域生成网络对图像进行处理步骤的流程示意图；

图6为一个实施例中通过预设图卷积网络模型来获取图像融合特征步骤的流程示意图；

图7为一个实施例中图卷积网络实现过程的示意图；

图8为一个实施例中从文本数据中提取文本特征步骤的流程示意图；

图9为一个实施例中Bert模型的训练过程示意图；

图10为一个实施例中基于预设多模态融合识别模型进行低俗内容识别的流程示意图；

图11为一个实施例中预设多模态融合识别模型的结构示意图；

图12为一个实施例中基于本申请低俗内容识别方法的软色情内容识别平台的处理结构示意图；

图13为一个实施例中低俗内容识别装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

目前各种内容发布平台上，针对低俗内容，如软色情内容的识别维度缺乏全面性，当前大多数算法在软色情的识别主要聚焦于人体部位暴露。但除了裸露以外的标签，软色情还涉及性暗示、亲密行为、低俗着装等不同形态的标签，当前方案人工审核效率低下，软色情内容的有效样本稀疏。而且标准难统一，大多数软色情内容识别较粗粒度，无法满足不同场景的细粒度的标准需求。同时，申请人发现，判断一个内容是否属于软色情，除了内容的文本信息，封面图外，还应该包括视频帧内容等上下文的多模态信息，多维度信息融合才可能取得更好的效果，因此，针对软色情内容等低俗内容进行识别的本质可以视为一个多模态机器学习任务。基于上述一种或多种问题，本申请提供了低俗内容识别方法，来进行平台发布内容相关的低俗内容识别。

本申请主要涉及人工智能技术与云计算技术。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请的低俗内容识别方法具体可以通过人工智能技术中的机器学习、计算机视觉技术以及自然语言处理等技术来实现低俗内容识别。

本方案还涉及云计算的内容，云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as aService,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

本申请的方案中云计算主要适用于人工智能云服务。所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

本申请提供的低俗内容识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以向服务器104发送待识别数据，以通过服务器104来对待识别数据中是否包含有低俗内容进行识别，服务器104则获取终端102提交的待识别数据；提取待识别数据中的图像数据与文本数据；获取图像数据的人体部位图像特征、内容文本的第一文本特征以及标签文本的第二文本特征；而后基于人体部位图像特征、第一文本特征以及第二文本特征，对待识别数据进行多模态融合识别，获取待识别数据对应的低俗内容识别结果图像数据的人体部位图像特征。而后将所得的识别结果反馈至终端102。其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种低俗内容识别方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤201，获取待识别数据。

步骤203，提取待识别数据中的图像数据与文本数据，文本数据包括内容文本以及标签文本。

其中，待识别数据是指本申请的低俗内容识别方法所对应的识别对象。在一个具体的实施例中，待识别数据具体可以为一个新发布的短视频，或者是一篇包含图像和文字内容的博客，此外待识别数据还可以同时包含图像数据以及文本数据等多种不同类型的数据。同时，待识别数据中的图像数据与文本数据则是指基于待识别数据所获得的图像数据与文本数据。

具体地，当终端102方的平台审核人员在进行平台的新发布内容审核时，为了提高审核的效率，可以通过服务器104来对这些新发布内容是否含有低俗内容来进行审核。因此将新发布的内容作为待识别数据发送至服务器104，而服务器104则获取待识别数据，从而在后续的低俗内容识别中，对这些待识别数据是否包含有低俗内容进行识别。而在低俗内容识别过程，需要先从待识别数据中分别提取出各类不同模态的数据来辅助进行识别，因此，先提取待识别数据中的图像数据与文本数据。在具体的实施例中，对于视频类型的待识别数据可以通过抽帧的方式来提取图像数据并进一步地提取文本数据。而对于图文类型的待识别数据，则可以直接获得其中的图像数据与文本数据。在一个具体地实施例中，本申请中提取出的数据具体包括以下如下几个重要维度：(1)图片自身，对于视频内容指封面图和及来自视频抽帧；(2)低俗内容标签和说明信息(如果有的话，比如图片OCR文字识别的文本信息)；(3)内容标题。这些信息包含判断内容是否是软色情的多个上下文信息。而本申请中低俗内容识别的结果主要用于内容审核和过滤，比如女性胸部性感、腿部性感、足部性感、亲密行为、不雅姿态、情趣着装多个细分场景，以满足平台不同场景的需求，比如主Feeds推荐，号主资料卡页，频道，相关推荐等。文本数据具体包括内容文本以及标签文本，其中内容文本是指待识别数据中自带的文本内容，包括内容文本、摘要文本以及内容自带文本，而标签文本是指通过人工标记的或者分类标签算法，根据待识别数据的具体内容预先添加的文本信息。

步骤205，获取图像数据的人体部位图像特征、内容文本的第一文本特征以及标签文本的第二文本特征，人体部位图像特征基于预设图卷积网络模型与预设迁移学习模型识别获取，预设图卷积网络基于不同人体部位之间关联关系的先验知识构建，预设迁移学习模型用于识别人体部位对应的低俗内容标签。

其中，人体部位图像特征具体包括图像中的人体类型以及这些人体类型对应的类型标签。而文本特征则是待识别数据中文本中包含的特征信息，其具体包括待识别数据自带的内容文本的第一文本特征，以及对待识别数据进行标注而确定的标签文本的第二文本特征。一般对于低俗内容，如软色情类的内容，一般都是通过图片来展示人体部位的信息。同时，软色情信息区别于直接裸露器官或者性行为的纯色情，但又含有性暗示、性挑逗的倾向，借着瑜伽、健身、表演、换衣、街拍、Cosplay(角色扮演)等主题实际专注于展示各种低俗着装或者特写身体隐私部位。同时，其对应的内容文本也会包含一些相关的软色情内容文本，而标签文本也会依据待识别数据的具体内容为其添加相应的标签。

具体地，在进行低俗内容识别时，为了保证识别的准确率，可以基于待识别数据中的图像数据与文本数据来提取出多维度的特征信息来进行识别。基于图像数据可以提取出包含的人体部位图像特征，而基于文本数据则可以提取出包含的文本特征。在具体地实施中，获取图像数据的人体部位图像特征可以通过计算机视觉相关的机器学习模型实现，即基于预设图卷积网络模型与预设迁移学习模型识别获取，其中，预设图卷积网络基于不同人体部位之间关联关系的先验知识构建，用于确定图像数据中人体部位的位置关系，而预设迁移学习模型用于识别人体部位对应的低俗内容标签，用于确定各个人体部位对应的语义关系，从而可以根据人体部位之间的位置关系以及人体部位体现的语义关系，确定图像数据的人体部位图像特征。而获取文本数据中的文本特征则是通过自然语言处理相关的机器学习模型来实现。通过机器学习模型分别对内容文本以及标签文本进行处理，得到相应的内容文本的第一文本特征以及标签文本的第二文本特征。

步骤207，基于人体部位图像特征、第一文本特征以及第二文本特征，对待识别数据进行多模态融合识别，获取待识别数据对应的低俗内容识别结果。

其中，对于多模态，现实世界中的信息通常以不同的模态出现。每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表示学习是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。例如，图像通常与标签和文本解释联系在一起；文本包含图像以便更清楚地表达内容的主要思想。不同的模态由迥异的统计特性刻画。例如，图像通常表示为特征提取器的像素强度或输出，而文本则表示为离散的词向量。由于不同信息资源的统计特性不同，发现不同模态之间的关系是非常重要的。而本申请的方案，则是通过学习图像数据的人体部位图像特征以及文本数据中的文本特征之间的关联，来进行低俗内容方面的识别。多模态融合识别具体可以通过预先构建的多模态融合识别模型来实现，多模态融合能够充分利用文本，图像，视频内容(视频抽帧图像)三种特征间的交互关系，将文本，图像，视频内容作为一个整体进行识别，提升模型识别的效果，同时模型的部署相比每个模态都做一个模型来说，成本及资源消耗较低。

具体地，可以在获得图像数据的人体部位图像特征、文本数据中的第一文本特征以及第二文本特征后，即可基于人体部位图像特征以及文本特征，对待识别数据做一个多模态的融合，这种融合可以融合出多个结果来给出图片内容的细粒度低俗标签信息，经过这样整体准确率大幅度提升。从而可以保证审核过程中的低俗内容识别准确率。

上述低俗内容识别方法，通过获取待识别数据；提取待识别数据中的图像数据与文本数据；获取图像数据的人体部位图像特征、内容文本的第一文本特征以及标签文本的第二文本特征；而后基于人体部位图像特征、第一文本特征以及第二文本特征，对待识别数据进行多模态融合识别，获取待识别数据对应的低俗内容识别结果。本申请基于融合不同类型文本以及人体部位图像等多维度特征信息，来进行低俗内容的多模态融合识别，通过不同特征信息相互补充，能很大程度上提升低俗内容识别的准确率。

在一个实施例中，如图3所示，步骤203包括：

步骤302，对视频数据进行抽帧处理，获取视频数据对应的图像数据。

步骤304，对视频数据对应的图像数据进行文本识别，获取视频数据对应的第一内容文本。

步骤306，获取视频数据对应的视频标题以及视频摘要，将视频标题以及视频摘要作为视频数据对应的第二内容文本。

步骤308，获取视频数据对应的视频标签，将视频标签作为视频数据对应的标签文本。

步骤310，根据第一内容文本、第二内容文本以及标签文本，获取视频数据对应的文本数据。

其中，视频数据具体可以看成有多张图像组成的图像集合，而对所有的图像都进行处理的话处理的数据量太大，处理效率低，因此可以通过视频抽帧的方法来对视频进行处理，从视频数据中取出部分视频帧来作为处理对象。视频抽帧就是在一段视频中，通过间隔一定帧抽取若干帧的方式，模拟每隔一段时间拍摄一张照片并接合起来形成视频的过程。其中文本识别具体可以通过光学字符识别来处理，光学字符识别即OCR(OpticalCharacter Recognition)，是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。本申请中的光学字符识别主要是指将抽帧所得的图像视频中的字符信息识别出来作为一部分内容文本数据进行处理。而视频数据对应的视频标题以及视频摘要，则是视频自带的文本说明信息，可以将这部分作为视频数据对应的第二内容文本，同时可以获取视频数据对应的视频标签，根据这些得到视频数据对应的标签文本。第一内容文本和第二内容文本都可以视为内容文本的一部分，两部分组合起来形成完整的内容文本。从第一内容文本和第二内容文本中提取的特征组合形成第一文本特征。

具体地，本申请可以对结合多种不同模态数据的待识别数据进行处理，其中较为典型的是包含图像以及文本等类型数据的视频数据。在进行视频数据的处理时，具体可以通过抽帧，来将视频数据转化为图像数据。同时通过光学字符识别技术，识别出这些视频帧内的文本，来作为视频数据对应的第一文本数据。而后获取视频数据对应的视频标题以及视频摘要，将这些视频标题以及视频摘要作为视频数据对应的第二内容文本。同时，获取视频数据对应的视频标签，将视频标签作为视频数据对应的标签文本；最终根据第一内容文本、第二内容文本以及标签文本，获取视频数据对应的文本数据。具体地，本申请中处理待识别数据不仅仅可以包括视频数据，还可以包括图文数据或者单纯的文本数据等。而待识别数据中的图像数据除了抽帧所得的图像数据外，具体还可以包括视频的封面图以及待识别数据中原本就附带的图像数据。待识别数据中的图像数据除了从抽帧所得的图像数据提取出的文本外，具体还可以包括待识别数据的标题、待识别数据中原本就附带的图像数据中提取出的文本以及待识别数据中原本就附带的文本数据。本实施例中，先通过抽帧来提取视频数据对应的图像数据，而后通过光学字符识别来提取视频数据对应的文本数据，可以有效保证从待识别数据中提取出能用于内容识别的多模态信息，从而保证低俗内容识别的准确率。

在其中一个实施例中，步骤302包括：采用关键帧抽取以及均匀抽取对视频数据进行抽帧处理，获取视频数据对应的图像数据。

其中，帧——是动画中最小单位的单幅影像画面，相当于电影胶片上的每一格镜头。而关键帧是计算机动画术语，指角色或者物体运动变化中关键动作所处的那一帧画。在动画软件的时间轴上帧表现为一格或一个标记。关键帧——相当于二维动画中的原画。关键帧抽取即将视频中的关键帧识别并提取出来，而均匀抽取则是每隔一个固定时间段抽取一帧图像。均匀抽取通常是依据视频时长来进行设置，例如可以每隔5秒取一帧进行采样。

具体地，在进行视频处理时，本申请具体通过关键帧和均匀抽帧结合的方式来进行视频抽帧处理，从而从视频数据中提取出更多有效的图像数据。在另外的实施例中，还可以仅采用关键帧抽取或者均匀抽取中任意一种来对所述视频数据进行抽帧处理，从而保证抽帧处理的处理效率。本实施例中，采用关键帧抽取以及均匀抽取结合的方式来进行图像数据的抽取，可以有效保证提取出视频数据的有效性，从而保证低俗内容识别的准确率。

在其中一个实施例中，如图4所示，步骤205中获取图像数据的人体部位图像特征包括：

步骤401，通过预设区域生成网络提取图像数据中包含人体部位的候选区域。

步骤403，提取候选区域对应的人体部位之间的位置关联特征以及人体部位的语义特征，通过预设图卷积网络模型将人体部位之间的位置关联特征以及人体部位的语义特征融合，获取图像融合特征。

步骤405，将图像融合特征输入预设目标检测模型，获取图像数据的人体部位图像特征。

其中，预设区域生成网络具体是指通过RPN(RegionProposal Network)所预先构建的神经网络。RPN一般用于提取候选区域。本申请中预设区域生成网络则主要用于提取包含人体部位的候选区域。如图5所示，可以将一张图片作为输入，而后通过RPN提取进行候选区域的标注，并通过相关处理，就可以对每个候选区域进行标注，确定候选框所对应的人体部位类别。而预设图卷积网络模型则是指通过GCN(Graph Convolutional Networks)所预先构建的神经网络。本申请主要通过来GCN网络建模不同部位之间的关系，比如人体部件检测面临的问题，对于人体部件检测，现在面临的主要难点是：人体部分部件边界定义不清晰(颈部，胸部，臀部等)，部分部件混淆性较大(手和脚，胳膊和腿部等)。本申请中利用人体部件相对位置具有一定的关联的先验信息(比如手是和上肢相连，脚是和下肢相连，臀部是下肢与上身相连的部分，每个部位有可以细分不同的软色情类型和标签等等)进而提出了利用GCN来增强各个人体部件特征关联。从而将人体部位之间的位置关联特征以及人体部位的语义特征融合，获取图像融合特征。而预设目标检测模型可用于提取出图像融合特征对应的隐层向量特征，而后可以将隐层向量特征与其他模态的特征数据进行融合来进行追踪的低俗内容识别。在一种实施方式中，预设目标检测模型具体可以是指Faster R-CNN模型，在其他实施方式中，预设目标检测模型还可以是Mask R-CNN等，本申请实施例对此不作限定。

具体地，在进行图像的处理时，本申请主要通过预设区域生成网络提取图像数据中的候选区域，同时提取候选区域对应的人体部位之间的位置关联特征以及人体部位的语义特征，通过预设图卷积网络模型将人体部位之间的位置关联特征以及人体部位的语义特征融合，获取人体部位图像特征。在一个具体的实施例中，本申请具体可以Faster R-CNN作为图像处理过程模型的基本框架，通过预设区域生成网络提取候选区域后，通过预设图卷积网络模型来建模不同候选区域之间的位置和语义关系，进而增强每个候选区域的特征，而后将位置关联特征和语义特征2个向量点积融合后，作为Faster R-CNN第二阶段的特征输入，最终取第二阶段模型当中的隐层向量特征作为最终模型的人体部位图像特征，并将这部分特征和其他模态特征融合。本实施例中，通过预设区域生成网络提取图像数据中的候选区域，同时通过图卷积神经网络来建模不同人体部位之间的关系，从而确定人体部位之间的位置关联特征，而后通过图卷积神经网络来进行位置关联特征以及人体部位的语义特征融合，并通过预设目标检测模型来进行最终处理，可以有效地提取出图像数据的人体部位图像特征，并保证特征提取的准确性。

在其中一个实施例中，如图6所示，步骤403包括：

步骤601，获取候选区域对应的人体部位之间的位置关联特征，人体部位之间的位置关联特征由人体部位相对之间的关联性作为先验知识获取。

步骤603，通过预设迁移学习模型，获取候选区域所对应的低俗内容标签，低俗内容标签用于表征人体部位的语义特征。

步骤605，基于预设图卷积网络模型，将候选区域对应的人体部位之间的位置关联特征以及候选区域所对应的低俗内容标签融合，获取图像融合特征。

其中，先验知识是指根据已有知识预先设置的部分内容，比如手是和上肢相连，脚是和下肢相连，臀部是下肢与上身相连的部分，每个人体部位有哪些可以细分的不同的低俗类型和标签等等。预设迁移学习模型具体是指Big Transfer模型，Big Transfer模型是一组预训练的图像模型：即便每个最终子类标签对应只有少量样本，经迁移后也能够在新数据集上实现出色的性能，通用视觉表征学习来对图像进行特征提取，从而获得图像所对应的低俗内容标签。具体地，本申请的方案中通过不同类型的标签来对不同类型的低俗内容进行标注，比如对于业务侧输出一级和二级标签，能力在实际样本标记和区分实时的时候采用原子能力可以动态按照不同场景需要来配置，而不是直接讲所有实际检测的细粒度标签全部在服务层面展现出来，这样用户侧需要的标记数量增加非常多而且成本非常高。即算法模型提供原子能力标签预测，业务使用一二级标签的结果。其中一二级标签具体可以参照下表1所示，一二级标签与原子标签则参照下表2所示。

表1部分低俗内容一二级标签示意

表2部分低俗内容一二级标签以及原子能力标签示意

具体地，本申请中通过图卷积网络来建模不同候选区域之间的位置和语义关系，进而增强每个候选的特征。因此在获取图像融合特征时，可以将人体部位相对之间的关联性作为先验知识，构建候选区域对应的人体部位之间的位置关联特征。最后基于预设图卷积神经网络来实现两者的融合，获得相应的图像融合特征。在其中一个具体的实施例中，本实施例中的图卷积神经网络实现过程可以参照图7所示，图7中d以及图D中人工定义的人体部位之间的关系可以作为先验知识融入，具体可以通过一个邻接矩阵来表示，1表示他们之间在图上有一条线，为0表示没有关联。比如人体可以分为头部(比如头部接吻动作)，颈部，肩部，胸部，臀部，腿部，脚部。对于肩部有裸露肩部，男性上半身裸露两点，上半身全裸等标签；对于胸部，可以有女性胸部性感，女性胸部重度裸露，女性胸部轻度裸露等标签；对于腿部有女性腿部特写，女性穿着暴露内衣，女性黑丝特写等低俗内容标签。由于需要区分的场景和类别较多，识别维度较细，需要识别出人体部位和程度，通过预设迁移学习模型提取特征来作为低俗内容标签，低俗内容标签通过每个低俗内容图片子类下的训练样本BiT特征平均值得到，比如这里二级标签对应原子能力标签一共有50个的话，会得到一个50*2048的矩阵，然后依据候选区域对应的人体部位之间的位置关联特征来自定义一个50*50的标签无向图矩阵，这两个矩阵会做一些矩阵乘法得到上部分图里的C矩阵，而这个C矩阵，即最终需要的图像融合特征。本实施中，通过图卷积神经网络来进行位置关联特征以及语义低俗内容标签特征的特征融合，可以得到更加有效的人体部位图像特征，从而保证低俗内容识别的准确性。

在其中一个实施例中，如图8所示，步骤205中的获取文本数据中的文本特征包括：

内容文本

步骤801，通过预设预训练语言模型对文本数据进行语义识别处理，得到内容文本对应的内容语义特征以及标签文本对应的标签语义特征中的至少一种内容文本。

步骤803，基于内容语义特征以及标签语义特征中的至少一种，确定文本数据中的文本特征内容文本。

其中，内容文本是指待识别数据所对应内容的标题以及摘要的文本，还包括了从待提取数据中所提取的内容涉及到的标签，如从视频数据的字幕中获取的文本，而标签文本即tag，通常是上游人工标记的或者分类标签算法获取，本申请中可以直接获取待识别数据中文本数据的所对应的标签文本。低俗内容通常都会有人工或者机器打的标签，同时通过用户的举报和负反馈，能够得到用户举报负反馈内容集中的Tag，因此可以有效地收集到待识别数据对应文本标签。将文本标签作为内容描述和相关的上下文的文本信息参与建模。而在其中一个实施例中，预设预训练语言模型具体是指Bert模型，Bert是使用大规模数据上训练出来的预训练模型，它的语义理解能力较强。首先把内容文本经过Bert提取出内容的语义特征，也就是把内容文本字符串转化成了一个向量，一般是提取Bert的倒数第二层的向量作为文本表示向量。它能够综合局部和整体的优缺点，很好提取语义。BERT的核心是双向Transformer Encoder。Bert用12层的transformer encoder将NLP任务的基准性能提高了一大截。相比word2vec，经过海量文本预训练的Bert能够在视频分类算法中引入更多的迁移知识，提供更精准的文本特征。Bert能学习文本中有软色情倾向的重要片段(部分具有软色情倾向的文本中每个词单独看可能不涉及色情、低俗，但如果放在一起理解容易被解读出色情、低俗意味)，不受切词影响，如：“如愿/娶/甜蜜/贴贴/床单”等文本。Bert的训练过程具体可以参照图9。

具体地，在进行文本特征提取时，可以将数据的具体内容以及数据的标签分开进行考虑，而后分别获得两者对应的模态特征数据，通过预设预训练语言模型，提取数据自带的内容文本对应的语义特征，同时还可以提取标签文本对应的语义特征，将提取得到的两个语义特征中的至少一种作为文本数据中的文本特征。本实施例中，通过预设预训练语言模型来进行标签以及内容的文本特征提取，可以有效保证文本标签提取的准确性，从而保证低俗内容识别的准确率。

在其中一个实施例中，如图10所示，步骤207包括：

步骤1001，将人体部位图像特征以及文本特征进行融合，获取多模态融合特征。

步骤1003，将多模态融合特征输入预设多模态融合识别模型，获取待识别数据对应的低俗内容识别结果。

具体地，标题和标签所对应的文本特征提取出来之后，有三种方式来融入到模型，以得到多模态融合特征。第一种方式是跟人体部位图像特征做拼接之后，加入到编码器输入，第二种方式是直接加到编码器输出，第三种方式是加到解码器的初始化向量。本申请优先采用第一种方式，通过这种方式把文本特征加入到模型中，文本的语义理解能力能获得增强。而后将多模态融合特征输入预设多模态融合识别模型，获取待识别数据对应的低俗内容识别结果。这里最终采用的是一个端到端的方式，它能够充分利用文本，图像，视频内容(视频抽帧图像)三种特征间的交互关系，提升预设多模态融合识别模型识别的效果，预设多模态融合识别模型可以将文本，图像，视频内容作为一个整体进行识别。在模型训练过程中，可以利用初始多模态融合识别模型预测训练集中的样本，将人工标注和模型预测不一致的样本，重新进行人工标注和模型训练，迭代几轮基本可以快速提升样本标注质量。只有通过图像和文本两种模态的输入，才能较好判断样本是否属于低俗内容。在其中一个实施例中，预设多模态融合识别模型的结构具体可以参照图11所示。本实施例中，通过将人体部位图像特征以及文本特征进行融合，获取多模态融合特征，而后基于预设多模态融合识别模型来进行特征是否对应低俗内容来进行识别，可以有效地融合文本、图像、视频内容等多维度特征信息，不同特征信息相互补充，能够大幅消除了人工审核的主观因素和“知识”盲区，很大程度上提升识别的准确率和效果。

在其中一个实施例中，本申请的低俗内容识别方法用于实现平台的低俗内容中的软色情内容的识别处理，平台的整个处理结构可以参照图12所示。

一，如图12的内容生产端1201，包括PGC或者UGC，MCN(Multi-Channel Network，多频道网络)或者PUGC(Professional User Generated Content，专业用户生产内容)的内容生产者，以及内容消费端1202，其在平台内可进行的操作包括：

(1)通过移动端或者后端接口API系统，提供本地或者拍摄的视频内容或者撰写的自媒体文章或者图集，作者可以选择主动上传对应内容的封面图，这些都是分发内容的主要内容来源。

(2)通过和上下行内容接口服务的通讯，先获取上传服务器接口地址，然后在上传本地文件，拍摄过程当中本地视频内容可以选择搭配的音乐，滤镜模板和视频的美化功能等等。

(3)作为消费者，和内容分发出口服务器通讯，获取对应内容的索引信息，视频的话然后和视频存储服务器同学，下载对应的流媒体文件并且通过本地播放器来播放观看，图文的话通常是直接边缘部署的CDN服务通讯；

(4)同时将上传和下载过程当中用户浏览的行为数据，阅读速度，完成率，阅读时间，卡顿，加载时间，播放点击等上报给服务器。

(5)消费端通常通过Feeds流方式浏览消费数据，对于消费端软色情内容提供直接举报和反馈的入口，直接和人工审核系统对接，进行确认和复核，复核的结果保存在软色情内容样本库，作为后续训练模型的数据来源。

二、对于与内容生产者对接的上下行内容接口服务器1203，其在平台内可进行的操作包括：

(1)和内容生产端直接通讯，从前端提交的内容，通常是内容的标题，发布者，摘要，封面图，发布时间，或者是拍摄的视频直接通过该服务器进入服务端，把文件存入视频内容存储服务。

(2)将视频内容的元信息，比如视频文件大小，封面图链接，码率，文件格式，标题，发布时间，作者等信息写入内容数据库。

(3)将上传的文件和内容元信息提交给调度中心服务，进行后续的内容处理和流转。

三、对于上下行内容接口服务器连接的内容数据库1204，其在平台内可进行的操作包括：

(1)内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是内容本身的元信息比如文件大小，封面图链接，码率，文件格式，标题，发布时间，作者，视频文件大小，视频格式，是否原创的标记或者首发还包括人工审核过程中对内容的分类(包括一，二，三级别分类和标签信息，比如一篇讲解A品牌手机的文章，一级分科是科技，二级分类是智能手机，三级分类是国内手机，标签信息是A平台，X型号)。

(2)人工审核过程当中会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库。

(3)调度中心对内容处理主要包括机器处理和人工审核处理，这里机器处理核心各种质量判断比如低质过滤，低俗内容标签比如分类，标签信息，还有就是内容排重，他们的结果会写入内容数据库，完全重复一样的内容不会给人工进行重复的二次处理。

(4)后续抽取标签的时候会从内容数据库读取内容的元信息，多模态预测软色情内容获取的元信息也来自此数据库。

四、对于上下行内容接口服务器以及人工审核系统连接的调度中心服务器1205，其在平台内可进行的操作包括：

(1)负责视频和图文内容流转的整个调度过程，通过上下行内容接口服务器接收入库的内容，然后从内容元信息数据库中获取内容的元信息；

(2)在作为图文和视频链路运行的实际调度控制者，按照内容的类型，对链路当中的图片内容，调度多模态软色情内容识别服务系统来处理对应的内容，直接过滤和对内容打赏对应的标记；

(3)调度人工审核系统和机器处理系统，控制调度的顺序和优先级；

(4)通过人工审核系统内容被启用，然后通过内容出口分发服务(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给终端的内容消费者，也就是消费端获得的内容索引信息。

五、对于平台中的人工审核系统1206，其对应的可进行操作包括：

(1)其通常是一个WEB系统，在链路上，承接机器过滤的结果，对结果进行人工确认和复核，将复核的结果写入内容信息元数据库记录下来，同时可以通过这里人工复核的结果来在线评估机器打击和过滤模型的实际效果。

(2)上报人工审核过程领取任务的来源，审核结果，审核开始和结束时间等审核的详细流水到统计服务器。

(3)和用户消费端的投诉和内容举报及巡检的复核系统对接，高优先级处理投诉和举报及主动巡检发现的软色情内容，同时复核的结果在软色情内容样本库当中为后续构建多模态软色情内容识别提供了数据基础。

六、对于平台中的内容存储服务器，其对应的可进行操作包括：

(1)通常是一组分布范围很广，离C侧用户很久的就近接入的存储服务器通常外围还有CDN加速服务器进行分布式缓存加速，通过上下行内容接口服务器将内容生产者上传的视频和图片内容保存起来。

(2)终端消费者在获取内容索引信息后，也可以直接访问视频内容存储服务器下载对应的内容。

(3)除了作为对外服务的数据源意外，还作为对内服务的数据源，供下载文件系统获取原始的视频数据进行相关的处理，内外数据源的通路通常是分开部署的，避免相互影响。

七、对于平台中的软色情内容库1208，其对应的可进行操作包括：

(1)从内容元信息及存储库中获取人工审核标记的内容作为建立软色情内容样本的原型库，保存举报及主动人工巡检发现的软色情样本内容。

(2)定期通常的周期是周，捞取软色情内容的更新模型。

八、对于平台中的模态软色情内容特征和模型1209，其对应的可进行操作包括：

(1)按照上面定义的标准和类型，对软色情内容分级标签及类型进行梳理。

(2)然后按照上面的多模态软色情模型的描述，通过图片模态和文本模态构建对应的机器学习算法模型提取特征，实现对软色情内容的预测和识别。

九、对于平台中的多模态软色情内容识别服务器1210，其对应的可进行操作包括：

(1)将上面构建的软色情内容模型服务化，构建能够在链路上被调用的服务来实现软色情内容的识别和标记。

十、对于平台中的下载文件系统1211，其对应的可进行操作包括：

(1)从内容存储服务器下载和获取原始的视频内容，控制下载的速度和进度，通常是一组并行的服务器，有相关的任务调度和分发集群构成。

(2)下载完成的文件调用抽帧服务从视频源文件当中获取必要的视频文件关键帧，作为后续构造软色情多模态模型来服务。

十一、对于平台中的抽帧服务器1213，其对应的可进行操作包括：

(1)按照上面描述的抽帧方法，下载文件系统从视频内容存储服务上下载到的文件进行视频文件特征的初级处理-视频抽帧，包括关键帧和均匀抽到的帧，作为后续多模态的帧输入；

十二、对于平台中的统计服务器，其对应的可进行操作包括：

(1)接收内容审核端和内容消费端的消费流水的上报；

(2)对上报的流水进行统计挖掘和分析，提供调度中心服务对内容启用率和内容审核积压时间延迟的监控和分析。

如图13所示，平台通过上述内容生产端、内容消费端以及平台各级数据库以及服务器的配合，在内容生产端提交内容后，通过接收内容以及内容的多模态软色情内容识别，从而提高软色情内容的识别能力，同时能够减少大量进行软色情清查的审核人员，大幅提升审核效率，降低人工成本。并且平台还可以通过持续收集用户负反馈和主动巡检相关的软色情内容，定期更新软色情识别模型，避免模型衰退，保证平台内容生态的健康。

上述平台基于本申请提供的低俗内容识别方法所构建，该方法可以基于多模态的信息流进行低俗内容识别，方法从平台发布内容的封面图，标题文本(可能还包括tag标签信息，OCR文本信息等)和内容本身音视频内容本身，进行建模，最终构建一个有效的多模态融合识别模型，提升整体识别效果。核心思想是：采用多模态机器学习技术和GCN图网络技术，对视频内容的多维度内容比如标题文本(tag文本)，封面图自身，视频内容抽帧等及人体不同部位的关联关系进行建模，然后对这些内容分别进行深度学习机器模型向量化特征提取，从内容语义角度来识别软色情内容，构建融合文本、图片、视频内容的多模态软色情识别模型，进行联合概率预测。通过本申请的低俗内容识别方法，能够减少大量进行低俗内容清查的审核人员，同时大幅提升审核效率。本申请的低俗内容识别方法能同时能够融合文本、图片、视频内容等多维度特征信息，基于不同特征信息相互补充，能够大幅消除了人工审核的主观因素和“知识”盲区，从而很大程度上提升识别的准确率和效果；此外，平台还可以通过持续收集用户负反馈和主动巡检相关的软色情内容，定期更新软色情识别模型，来避免模型衰退，保证平台内容生态的健康。

应该理解的是，虽然图2-12的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-12中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图13所示，提供了一种低俗内容识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：数据获取模块1302、数据提取模块1304、特征提取模块1306和多模态识别模块1308，其中：

数据获取模块1302，用于获取待识别数据。

数据提取模块1304，用于提取待识别数据中的图像数据与文本数据，文本数据包括内容文本以及标签文本。

特征提取模块1306，用于获取图像数据的人体部位图像特征、内容文本的第一文本特征以及标签文本的第二文本特征，人体部位图像特征基于预设图卷积网络模型与预设迁移学习模型识别获取，预设图卷积网络基于不同人体部位之间关联关系的先验知识构建，预设迁移学习模型用于识别人体部位对应的低俗内容标签。

多模态识别模块1308，用于基于人体部位图像特征、第一文本特征以及第二文本特征，对待识别数据进行多模态融合识别，获取待识别数据对应的低俗内容识别结果。

在其中一个实施例中，数据提取模块1304具体用于：对视频数据进行抽帧处理，获取视频数据对应的图像数据；对视频数据对应的图像数据进行文本识别，获取视频数据对应的第一内容文本；获取视频数据对应的视频标题以及视频摘要，将视频标题以及视频摘要作为视频数据对应的第二内容文本；获取视频数据对应的视频标签，将视频标签作为视频数据对应的标签文本；根据第一内容文本、第二内容文本以及标签文本，获取视频数据对应的文本数据。

在其中一个实施例中，数据提取模块1304具体用于：采用关键帧抽取以及均匀抽取对视频数据进行抽帧处理，获取视频数据对应的图像数据。

在其中一个实施例中，特征提取模块1306具体用于：通过预设区域生成网络提取图像数据中包含人体部位的候选区域；提取候选区域对应的人体部位之间的位置关联特征以及人体部位的语义特征，通过预设图卷积网络模型将人体部位之间的位置关联特征以及人体部位的语义特征融合，获取图像融合特征；将图像融合特征输入预设目标检测模型，获取图像数据的人体部位图像特征。

在其中一个实施例中，特征提取模块1306具体用于：获取候选区域对应的人体部位之间的位置关联特征，人体部位之间的位置关联特征由人体部位相对之间的关联性作为先验知识获取；通过预设迁移学习模型，获取候选区域所对应的低俗内容标签，低俗内容标签用于表征人体部位的语义特征；基于预设图卷积网络模型，将候选区域对应的人体部位之间的位置关联特征以及候选区域所对应的低俗内容标签融合，获取图像融合特征。

在其中一个实施例中，特征提取模块1306具体用于：通过预设预训练语言模型对文本数据进行语义识别处理，得到内容文本对应的内容语义特征以及标签文本对应的标签语义特征中的至少一种；基于内容语义特征以及标签语义特征中的至少一种，确定文本数据中的文本特征。

在其中一个实施例中，多模态识别模块1308具体用于：将人体部位图像特征以及文本特征进行融合，获取多模态融合特征；将多模态融合特征输入预设多模态融合识别模型，获取待识别数据对应的低俗内容识别结果。

关于低俗内容识别装置的具体限定可以参见上文中对于低俗内容识别方法的限定，在此不再赘述。上述低俗内容识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器1401、存储器和网络接口1402。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质1403、内存储器1404。该非易失性存储介质存储有操作系统1405、计算机程序1406和数据库1407。该内存储器1404为非易失性存储介质1403中的操作系统1405和计算机程序1406的运行提供环境。该计算机设备的数据库1407用于存储低俗内容识别相关的模型数据。该计算机设备的网络接口1402用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种低俗内容识别方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种低俗内容识别方法，其特征在于，所述方法包括：

获取待识别数据；

2.根据权利要求1所述的方法，其特征在于，所述待识别数据包括视频数据，所述提取所述待识别数据中的图像数据与文本数据包括：

对所述视频数据进行抽帧处理，获取所述视频数据对应的图像数据；

对所述视频数据对应的图像数据进行文本识别，获取所述视频数据对应的第一内容文本；

获取所述视频数据对应的视频标题以及视频摘要，将所述视频标题以及视频摘要作为所述视频数据对应的第二内容文本；

获取所述视频数据对应的视频标签，将所述视频标签作为所述视频数据对应的标签文本；

根据所述第一内容文本、所述第二内容文本以及所述标签文本，获取所述视频数据对应的文本数据。

3.根据权利要求2所述的方法，其特征在于，所述对所述视频数据进行抽帧处理，获取所述视频数据对应的图像数据包括：

采用关键帧抽取以及均匀抽取对所述视频数据进行抽帧处理，获取所述视频数据对应的图像数据。

4.根据权利要求1所述的方法，其特征在于，所述获取所述图像数据的人体部位图像特征包括：

通过预设区域生成网络提取所述图像数据中包含人体部位的候选区域；

提取所述候选区域对应的人体部位之间的位置关联特征以及人体部位的语义特征，通过预设图卷积网络模型将所述人体部位之间的位置关联特征以及所述人体部位的语义特征融合，获取图像融合特征；

将所述图像融合特征输入预设目标检测模型，获取所述图像数据的人体部位图像特征。

5.根据权利要求4所述的方法，其特征在于，所述提取所述候选区域对应的人体部位之间的位置关联特征以及人体部位的语义特征，通过预设图卷积网络模型将所述人体部位之间的位置关联特征以及所述人体部位的语义特征融合，获取图像融合特征包括：

获取所述候选区域对应的人体部位之间的位置关联特征，所述人体部位之间的位置关联特征由人体部位相对之间的关联性作为先验知识获取；

通过预设迁移学习模型，获取候选区域所对应的低俗内容标签，所述低俗内容标签用于表征人体部位的语义特征；

基于预设图卷积网络模型，将所述候选区域对应的人体部位之间的位置关联特征以及候选区域所对应的低俗内容标签融合，获取图像融合特征。

6.根据权利要求1所述的方法，其特征在于，所述文本数据包括内容文本以及标签文本中的至少一种，获取所述文本数据中的文本特征包括：

内容文本通过预设预训练语言模型对所述文本数据进行语义识别处理，得到所述内容文本对应的内容语义特征以及所述标签文本对应的标签语义特征中的至少一种；

基于所述内容语义特征以及所述标签语义特征中的至少一种，确定所述文本数据中的文本特征。

7.根据权利要求1所述的方法，其特征在于，所述基于所述人体部位图像特征以及所述文本特征，对所述待识别数据进行多模态融合识别，获取所述待识别数据对应的低俗内容识别结果包括：

将所述人体部位图像特征以及所述文本特征进行融合，获取多模态融合特征；

将所述多模态融合特征输入预设多模态融合识别模型，获取所述待识别数据对应的低俗内容识别结果。

8.一种低俗内容识别装置，其特征在于，所述装置包括：

数据获取模块，用于获取待识别数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。