CN111414496A

CN111414496A - 基于人工智能的多媒体文件的检测方法和装置

Info

Publication number: CN111414496A
Application number: CN202010228053.4A
Authority: CN
Inventors: 田植良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-14
Anticipated expiration: 2040-03-27
Also published as: CN111414496B

Abstract

本申请公开了一种基于人工智能的多媒体文件的检测方法和装置，属于互联网技术领域。该方法包括：对目标多媒体文件进行内容检测，得到目标多媒体文件的内容预测结果，基于参与传播目标多媒体文件的至少一个目标用户，确定目标多媒体文件的传播预测结果，基于内容预测结果与传播预测结果，确定目标多媒体文件是否属于限制性内容。本申请实施例中，由于不同用户可以对应不同的传播情况，该传播情况可以体现用户经常传播的多媒体文件的类型，因此在预测目标多媒体文件时，可以根据参与传播目标多媒体文件的多个用户的传播情况来进行预测，能够很好的利用目标用户在传播过程中产生的相关信息，实现了对多媒体文件的有效检测。

Description

基于人工智能的多媒体文件的检测方法和装置

技术领域

本申请涉及互联网技术领域，特别涉及一种基于人工智能的多媒体文件的检测方法和装置。

背景技术

随着互联网的不断发展，人们可以通过互联网发布多媒体文件，该多媒体文件可以为视频。但是，个别用户或平台却利用互联网发布不合规的多媒体文件，例如，含有敏感内容的视频。不合规的多媒体文件的传播，严重影响了互联网的秩序。为净化互联网环境，需要对多媒体文件进行检测，识别出不合规的多媒体文件，从而减小不合规的多媒体文件的传播。

目前，多媒体文件的检测方法通常为：利用图像识别技术和文本识别技术，对多媒体文件的视频内容和文本描述分别进行检测，识别出包含有不合规内容的多媒体文件，从而检测出不合规的多媒体文件。

上述技术中根据视频内容和文本描述来检测多媒体文件时，若被检测的文件是经过打包、压缩、转换文件格式等操作的多媒体文件，则无法进行检测，因此，上述技术无法实现对多媒体文件的有效检测。

发明内容

本申请实施例提供了一种基于人工智能的多媒体文件的检测方法和装置，能够实现对多媒体文件的有效检测。所述基于人工智能的多媒体文件的检测方法和装置的技术方案如下：

一方面，提供了一种基于人工智能的多媒体文件的检测方法，所述方法包括：

对目标多媒体文件进行内容检测，得到所述目标多媒体文件的内容预测结果，所述内容预测结果用于表示基于内容所确定的所述目标多媒体文件属于限制性内容的概率；

基于参与传播所述目标多媒体文件的至少一个目标用户，确定所述目标多媒体文件的传播预测结果，所述传播预测结果用于表示基于传播情况所确定的所述目标多媒体文件属于限制性内容的概率；

基于所述内容预测结果与所述传播预测结果，确定所述目标多媒体文件是否属于所述限制性内容。

一方面，提供了一种基于人工智能的多媒体文件的检测装置，所述装置包括：

检测模块，用于对目标多媒体文件进行内容检测，得到所述目标多媒体文件的内容预测结果，所述内容预测结果用于表示基于内容所确定的所述目标多媒体文件属于限制性内容的概率；

预测结果确定模块，用于基于参与传播所述目标多媒体文件的至少一个目标用户，确定所述目标多媒体文件的传播预测结果，所述传播预测结果用于表示基于传播情况所确定的所述目标多媒体文件属于限制性内容的概率；

文件类型确定模块，用于基于所述内容预测结果与所述传播预测结果，确定所述目标多媒体文件是否属于限制性内容。

在一种可能实现方式中，所述检测模块，用于：

在所述至少一个片段的内容预测结果中，选取数值最大的内容预测结果，作为所述目标多媒体文件的内容预测结果；

或，

将所述至少一个片段的内容预测结果的平均值，作为所述目标多媒体文件的内容预测结果。

在一种可能实现方式中，所述预测结果确定模块，用于：

基于所述至少一个目标用户的历史传播事件以及与所述历史传播事件关联的会话消息，确定所述至少一个目标用户的敏感度，所述敏感度用于指示所述目标用户传播属于限制性内容的多媒体文件的可能性；

对所述至少一个目标用户的敏感度，进行加权平均处理，得到所述目标多媒体文件的传播预测结果。

在一种可能实现方式中，所述预测结果确定模块，用于：

基于所述目标用户，确定所述目标用户参与的至少一个历史传播事件以及与所述历史传播事件关联的会话消息；

获取所述至少一个历史传播事件对应的历史多媒体文件的内容预测结果，获取对应所述会话消息的文本预测结果，所述文本预测结果用于表示基于会话消息所确定的所述历史多媒体文件属于限制性内容的概率；

对所述历史多媒体文件的内容预测结果与所述会话消息的文本预测结果，进行加权平均处理，得到所述至少一个历史传播事件的事件预测结果，所述事件预测结果用于表示所述历史传播事件对应的历史多媒体文件属于限制性内容的概率；

将所述目标用户参与的至少一个历史传播事件的事件预测结果中，大于目标阈值的至少一个事件预测结果进行求和，得到所述目标用户的敏感度。

在一种可能实现方式中，所述预测结果确定模块，用于：

获取所述会话消息中的多个词语，以及所述会话消息中的目标词语，所述目标词语为包含有指定内容的词语；

将所述多个词语和所述目标词语，输入第二卷积神经网络，通过所述第二卷积神经网络根据所述多个词语和所述目标词语对所述至少一个历史多媒体文件预测，得到所述会话消息的文本预测结果。

在一种可能实现方式中，所述预测结果确定模块，用于：

通过所述第二卷积神经网络的第一特征提取层，对所述多个词语和所述目标词语分别进行特征提取，得到所述多个词语的第一文本特征及所述目标词语的第二文本特征；

将所述第一文本特征和所述第二文本特征进行拼接，得到文本特征，将所述文本特征输入所述第二卷积神经网络的全连接层，得到所述文本预测结果。

在一种可能实现方式中，所述预测结果确定模块，用于：

基于所述至少一个历史多媒体文件的会话消息，在目标词库中查询，确定所述会话消息中包含的目标词语，所述目标词库存储有包含指定内容的多个词语。

在一种可能实现方式中，所述装置还包括训练模块，用于：

获取样本会话消息中的多个词语和目标词语，以及所述样本会话消息的样本文本结果；

基于所述样本会话消息中的多个词语、所述目标词语和所述样本会话消息的样本文本结果，进行模型训练，得到所述第二卷积神经网络模型。

在一种可能实现方式中，所述装置还包括查询模块，用于：

基于所述目标多媒体文件的文件标识，查询到参与传播所述目标多媒体文件的所有用户，进行随机采样处理，得到所述至少一个目标用户；

所述目标用户参与的至少一个历史传播事件的确定过程包括：

基于所述目标用户的用户标识，查询到所述目标用户参与的所有历史传播事件，进行随机采样处理，得到所述至少一个历史传播事件。

在一种可能实现方式中，所述文件类型确定模块，用于：

对所述内容预测结果与所述传播预测结果，进行加权求和处理，得到所述目标多媒体文件的目标预测结果，若所述目标预测结果大于所述目标阈值，则所述目标多媒体文件属于限制性内容，所述目标预测结果用于表示所述目标多媒体文件属于限制性内容的概率。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的基于人工智能的多媒体文件的检测方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的基于人工智能的多媒体文件的检测方法所执行的操作。

本申请实施例中，由于不同用户可以对应不同的传播情况，该传播情况可以体现用户经常传播的多媒体文件的类型，因此，在预测目标多媒体文件是否属于限制性内容时，可以根据参与传播目标多媒体文件的多个用户的传播情况，来进行预测，能够很好的利用目标用户在传播过程中产生的相关信息，实现了对多媒体文件的有效检测。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于人工智能的多媒体文件的检测方法的实施环境的示意图；

图2是本申请实施例提供的一种基于人工智能的多媒体文件的检测方法的流程图；

图3是本申请实施例提供的一种基于人工智能的多媒体文件的检测方法的流程图；

图4是本申请实施例提供的一种第一卷积神经网络的示意图；

图5是本申请实施例提供的一种第二卷积神经网络的示意图；

图6是本申请实施例提供的一种多媒体文件播放方法的流程图；

图7是本申请实施例提供的一种多媒体文件播放方法的流程图；

图8是本申请实施例提供的一种多媒体文件播放方法的流程图；

图9是本申请实施例提供的一种基于人工智能的多媒体文件的检测装置的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图；

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

图1是本申请实施例提供的一种基于人工智能的多媒体文件的检测方法的实施环境示意图，参见图1，该实施环境中可以包括终端101和服务器102。

终端101通过无线网络或有线网络与服务器102相连。终端101可以是智能手机、平板电脑、智能电视、台式计算机，车载计算机以及便携计算机等设备。终端101安装和运行有支持多媒体文件分享的应用程序。

可选地，服务器102可以为一台服务器、也可以为多台服务器、云计算平台或虚拟化中心等。服务器102用于提供多媒体文件分享有关的后台服务。

终端101可以泛指多个终端中的一个，本申请实施例仅以终端101来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

在一种可能实现方式中，本申请实施例提供的基于人工智能的多媒体文件的检测过程可以由终端在需要播放目标多媒体文件时触发，下面以一个播放场景为例对该应用场景进行介绍：

终端可以在应用程序界面上显示有目标多媒体文件的播放选项，当用户想要进行播放时，可以对该播放选项实施点击操作，以触发终端向服务器发送播放请求，服务器接收到该播放请求后，会响应于该播放请求，执行本申请实施例提供的目标多媒体文件的检测步骤，以确定目标多媒体文件是否属于限制性内容，从而可以控制终端是否播放该目标多媒体文件，若该目标多媒体文件属于限制性内容，则可以控制终端不缓存该目标多媒体文件，进而达到不播放该目标多媒体文件的效果。若该目标多媒体文件不属于限制性内容，则可以控制终端缓存该目标多媒体文件，播放该目标多媒体文件。

在一种可能实现方式中，本申请实施例提供的基于人工智能的多媒体文件的检测过程可以时服务器定期进行，下面一个播放场景为例对该应用场景进行介绍：

服务器可以定期对服务器上已发布的多媒体文件执行本申请实施例提供的基于人工智能的多媒体文件的检测步骤，以确定出已发布的多媒体文件中属于限制性内容的多媒体文件，并将该多媒体文件的文件标识记录下来，以便在接收到任一终端对目标多媒体文件的播放请求时，可以根据目标多媒体文件的文件标识，以及记录的多媒体文件的文件标识，判断目标多媒体文件是否属于限制性内容，进而可以控制终端是否播放该目标多媒体文件。

而基于上述的可能应用场景，基于目标多媒体文件是在线播放还是离线播放的不同，在其播放过程中还可以具有不同的处理过程，例如，对于在线播放的目标多媒体文件来说，终端在缓存目标多媒体文件的数据时，可以仅缓存不属于限制性内容的目标多媒体文件，而对于离线播放的目标多媒体文件来说，终端已经缓存有目标多媒体文件，则在播放时，可以仅解析不属于限制性内容的目标多媒体文件。其具体处理方式在后续的实施例中会进行详细描述。

特别的，当用户想要进行播放目标多媒体文件时，服务器可以根据该用户账号的相关信息，判断是否播放该目标多媒体文件，进而可以控制终端是否播放该目标多媒体文件。例如，服务器可以根据该用户账号中设置的年龄参数，判断该用户是否满足年龄要求，若满足，则可以控制终端播放该目标多媒体文件，若不满足，则可以控制终端不播放该目标多媒体文件。

在本申请实施例中，可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方法，本申请实施例对此不作限定。图2是本申请实施例提供的一种基于人工智能的多媒体文件的检测方法的流程图。该实施例以执行主体为服务器为例进行说明，参见图2，该实施例包括：

201、服务器对目标多媒体文件进行内容检测，得到目标多媒体文件的内容预测结果，内容预测结果用于表示基于内容所确定的目标多媒体文件属于限制性内容的概率。

其中，目标多媒体文件为待检测的多媒体文件，目标多媒体文件的类型可以为视频、图片、音频等。内容检测是指基于目标多媒体文件的多媒体内容进行检测，例如，当目标多媒体文件为视频时，该多媒体内容可以为视频内容，该内容检测是指基于视频内容进行检测，该内容预测结果为视频内容属于限制性内容的概率。

202、服务器基于参与传播目标多媒体文件的至少一个目标用户，确定目标多媒体文件的传播预测结果，传播预测结果用于表示基于传播情况所确定的目标多媒体文件属于限制性内容的概率。

其中，目标用户是指参与传播目标多媒体文件的用户，例如发送、接收或分享过目标多媒体文件的用户。

若这些目标用户的历史传播事件表示该目标用户传播属于限制性内容的多媒体文件的概率较大，则说明该目标用户本次也很可能是在传播这类多媒体文件，因此，可以基于目标用户的历史传播事件，来确定该目标多媒体文件的传播预测结果。

203、服务器基于内容预测结果与传播预测结果，确定目标多媒体文件是否属于限制性内容。

其中，是否属于限制性内容是指目标多媒体文件是否包含有指定内容，该指定内容是指包含有敏感内容，如包含有色情内容、裸露内容等。

在一种可能实施方式中，服务器可以在接收到终端发送的播放请求后，执行目标多媒体文件的检测步骤。例如，服务器可以获取到目标多媒体文件，根据目标多媒体文件的内容进行预测，可以得到目标多媒体文件的内容预测结果。根据参与传播目标多媒体文件的至少一个目标用户，可以确定出目标多媒体文件的传播预测结果，根据内容预测结果与传播预测结果，可以确定出目标多媒体文件是否属于限制性内容，进而服务器可以控制终端是否播放该目标多媒体文件。

本申请实施例提供的技术方案，由于不同用户可以对应不同的传播情况，该传播情况可以体现用户经常传播的多媒体文件的类型，因此，在预测目标多媒体文件是否属于限制性内容时，可以根据参与传播目标多媒体文件的多个用户的传播情况，来进行预测，能够很好的利用目标用户在传播过程中产生的相关信息，实现了对多媒体文件的有效检测。

图3是本申请实施例提供的一种基于人工智能的多媒体文件的检测方法的流程图。该实施例仅以服务器为执行主体进行说明，参见图3，该实施例包括：

301、服务器获取目标多媒体文件的至少一个片段。

在本申请实施例中，目标多媒体文件可以为多种类型，例如视频、图片、音频等。一个目标多媒体文件可以包含多个片段，各个片段的片段时长相同，例如，每个片段可以为5s。每个片段可以用片段标识来标识。

在一种可能实现方式中，上述服务器获取至少一个片段的过程可以包括：服务器接收到终端发送的播放请求后，响应于该播放请求来进行目标多媒体文件的检测步骤。可选的，该播放请求携带有目标多媒体文件的文件标识，服务器接收到播放请求后，解析播放请求，可以得到目标多媒体文件的文件标识，根据该文件标识，可以获取到目标多媒体文件，对目标多媒体文件进行分割处理，可以得到目标多媒体文件的至少一个片段。

302、服务器对目标多媒体文件进行内容检测，得到目标多媒体文件的内容预测结果，内容预测结果用于表示基于内容所确定的目标多媒体文件属于限制性内容的概率。

在本申请实施例中，内容检测是指基于目标多媒体文件的多媒体内容进行检测，例如，当目标多媒体文件为视频时，该多媒体内容可以为视频内容，该内容检测是指基于视频内容进行检测，该内容预测结果为视频内容属于限制性内容的概率。属于限制性内容的概率是指目标多媒体文件包含有指定内容的概率，该指定内容是指包含有敏感内容，如包含有色情内容和裸露内容等。

在一种可能实现方式中，服务器可以基于卷积神经网络(Convolutional NeuralNetworks,CNN)来对目标多媒体的片段进行预测，以获知片段的内容预测结果，进而确定目标多媒体文件属于限制性内容的概率，也即是，对于目标多媒体文件的每个片段，服务器可以将该片段输入第一卷积神经网络，通过第一卷积神经网络对该片段进行预测，得到该片段的内容预测结果，进而得到目标多媒体文件中至少一个片段的内容预测结果，基于该至少一个片段的内容预测结果，可以确定目标多媒体文件的内容预测结果。

其中，第一卷积神经网络是指基于片段进行预测的卷积神经网络，第一卷积神经网络可以包括输入层、特征提取层、第一全连接层、第二全连接层及输出层。卷积神经网络是一类包含卷积计算且具有深度结构的神经网络。输入层可以对输入特征进行去均值、归一化等预处理，使输入特征标准化。特征提取层用于提取片段的视频内容特征。第一全连接层和第二全连接层均可以对输入特征进行非线性组合以得到输出特征，在第一卷积神经网络中设置两层全连接层可以有效解决非线性问题。输出层的上一层通常为全连接层，输出层可以基于全连接层的输出特征，输出分类结果，该分类结果可以为属于限制性内容的概率。

相应的，服务器基于第一卷积神经网络确定片段的内容预测结果的具体过程可以包括：对于该至少一个片段中的每个片段，将该片段输入第一卷积神经网络，通过第一卷积神经网络的特征提取层，对该片段进行特征提取，得到该片段的视频内容特征，该视频内容特征为用于表示片段的视频内容的特征向量，将该片段的视频内容特征输入第一卷积神经网络的第一全连接层和第二全连接层，可以得到该片段的类型特征，该类型特征可以为向量形式，通过第一卷积神经网络的输出层，可以基于该片段的类型特征，使用逻辑函数将类型特征进行转化，得到该片段属于限制性内容的概率，也即是得到该片段的内容预测结果。

可选的，服务器基于至少一个片段的内容预测结果确定目标多媒体文件的内容预测结果的过程可以包括：服务器可以在至少一个片段的内容预测结果中，选取数值最大(max pooling)的内容预测结果，作为目标多媒体文件的内容预测结果。或者，确定目标多媒体文件的内容预测结果的过程也可以包括：服务器可以将至少一个片段的内容预测结果的平均值(mean pooling)，作为目标多媒体文件的内容预测结果。

在一种可能实现方式中，上述确定目标多媒体文件的内容预测结果的过程可以包括：服务器确定出至少一个片段的内容预测结果后，可以将至少一个片段的内容预测结果再次输入第一卷积神经网络，通过Pooling层可以获取片段的数值最大的内容预测结果，以及内容预测结果的平均值，将该数值最大的内容预测结果和该平均值融合，得到目标多媒体文件的内容预测结果。本申请实施例对此不作限定。

例如，如图4所示，图4是本申请实施例提供的一种第一卷积神经网络的示意图，第一卷积神经网络可以包括输入层401、特征提取层402、第一全连接层403、第二全连接层404及输出层405。对于目标多媒体文件的每个片段，在输入层401输入该片段，通过第一卷积神经网络的特征提取层402，对该片段进行特征提取，得到该片段的视频内容特征。将该片段的视频内容特征输入第一卷积神经网络的第一全连接层403和第二全连接层404，对该片段进行预测，得到该片段的类型特征，通过第一卷积神经网络的输出层405，可以基于第二全连接层404输出的类型特征，使用逻辑函数进行转化，得到该片段属于限制性内容的概率。

上述第一卷积神经网络可以事先通过训练得到。在一种可能实现方式中，技术人员可以通过人工标注的方式，标注出多个多媒体文件中属于限制性内容的片段，得到每个片段的片段标签。将该多个多媒体文件中至少一个片段作为样本片段，服务器可以获取到样本片段和样本片段的片段标签，基于样本片段和片段标签，进行模型训练，得到第一卷积神经网络。其中，片段标签用于表示片段是否为属于限制性内容的片段。具体的，上述第一卷积神经网络的训练过程可以包括：在第一次迭代过程中，将样本片段，输入初始模型，得到第一次迭代过程的分类结果。基于第一次迭代过程的分类结果与片段标签，确定损失函数，基于损失函数，对初始模型中的模型参数进行调整。将第一次迭代调整后的模型参数作为第二次迭代的模型参数，再进行第二次迭代。重复多次上述迭代过程，在第N次过程中，以第N-1次迭代调整后的模型参数作为新的模型参数，进行模型训练，直到训练满足目标条件，则将满足目标条件的迭代过程所对应的模型获取为第一卷积神经网络。其中，模型参数包括全连接层的各个参数。N为正整数，且N大于1。可选的，训练满足的目标条件可以为初始模型的训练迭代次数达到目标次数，技术人员可以预先设定训练迭代次数。或者，训练满足的目标条件可以为损失值满足目标阈值条件，如损失值小于0.00001。本申请实施例对此不作限定。

303、服务器对于至少一个目标用户中的每个目标用户，基于该目标用户，确定该目标用户参与的至少一个历史传播事件以及与历史传播事件关联的会话消息。

在本申请实施例中，目标用户是指参与传播目标多媒体文件的用户，例如发送、接收以及分享过目标多媒体文件的用户，目标用户可以采用用户标识来表示，用户标识可以为用户的账号、ID(Identification，身份标识)等。可选的，服务器获取目标多媒体文件的至少一个目标用户的过程可以为：服务器基于目标多媒体文件的文件标识，查询到参与传播目标多媒体文件的用户，以得到至少一个目标用户。可选地，该至少一个目标用户的获取过程还可以包括：基于目标多媒体文件的文件标识，查询到参与传播目标多媒体文件的所有用户，进行随机采样处理，得到至少一个目标用户，从而降低后续的计算量。

历史传播事件是指目标用户对多媒体文件的发送事件、接收事件或分享事件。该历史传播事件可以通过下述过程获取：服务器基于至少一个目标用户的用户标识，查询该至少一个目标用户的用户标识，可以确定该至少一个目标用户参与的历史传播事件。也即是，对于每个目标用户，根据该目标用户的用户标识和目标事件类型，对用户行为数据库进行查询，可以得到该目标用户参与传播的至少一个历史传播事件，其中，该目标事件类型是指文件发送、文件接收或文件分享等类型，用户行为数据库可以用于存储用户标识和用户标识对应的行为。可选地，该目标用户的至少一个历史传播事件的获取过程还可以包括：基于目标用户的用户标识，查询到目标用户参与的所有历史传播事件，进行随机采样处理，得到至少一个历史传播事件，从而降低后续的计算量。

历史传播事件关联的会话消息是指在目标用户对多媒体文件进行传播之前、过程中以及传播后的会话消息，也即是，传播上下文，例如目标用户在发送、接收或分享多媒体文件时的会话消息。

需要说明的是，本申请实施例提供的方法可以是基于社交网络实现的，基于用户与用户之间的好友关系，可以构成一个社交网络，该网络上用户为点、用户与用户之间的好友关系为边，服务器可以在社交网络中标注出用户所参与的每一个传播事件，一个传播事件包括一个source(源)用户和一个target(目标)用户，该历史传播事件由source用户对多媒体文件的发送以及target用户对该多媒体文件的接收实现的，因此，也可以基于社交网络来进行上述的传播事件获取。

304、服务器获取至少一个历史传播事件对应的历史多媒体文件的内容预测结果，获取对应会话消息的文本预测结果，文本预测结果用于表示基于会话消息所确定的历史多媒体文件属于限制性内容的概率。

其中，服务器获取至少一个历史传播事件对应的历史多媒体文件的内容预测结果的过程与上述步骤302中的内容预测结果获取过程同理，本申请实施例在此不做赘述。

在上述步骤304中，该获取对应会话消息的文本预测结果的过程可以包括下述步骤(1)和步骤(2)：

(1)获取会话消息中的多个词语，以及会话消息中的目标词语，目标词语为包含有指定内容的词语。

获取会话消息中的多个词语可以通过分词实现，在分词处理中可以去除会话消息中的语气词、介词等无关词汇。

其中，会话消息中的目标词语的获取过程包括：基于至少一个历史多媒体文件的会话消息，在目标词库中查询，确定会话消息中包含的目标词语，目标词库存储有包含指定内容的多个词语。

可选的，技术人员可以提前对会话消息进行人工判断，挑选出会话消息中含有敏感内容的词语，作为目标词语，并建立目标词库。当服务器获取到历史多媒体文件对应的会话消息后，根据该会话消息中每个词语，在目标词库中进行查询，若目标词库中存在相同的词语，则该词语为目标词语，若目标词库中不存在相同的词语，则该词语为非目标词语，从而可以确定出会话消息中的目标词语。这种词库匹配的方式可以快速确定目标词语，从而保证能够定位到一些敏感内容的词语。

(2)将多个词语和目标词语，输入第二卷积神经网络，通过第二卷积神经网络根据多个词语和目标词语对至少一个历史多媒体文件预测，得到会话消息的文本预测结果。

其中，第二卷积神经网络是指基于会话消息中的多个词语和目标词语进行预测的卷积神经网络，第二卷积神经网络可以包括输入层、特征提取层、全连接层及输出层。卷积神经网络是一类包含卷积计算且具有深度结构的神经网络。输入层可以对输入特征进行去均值、归一化等预处理，使输入特征标准化。特征提取层用于提取文本特征。全连接层可以对输入特征进行非线性组合以得到输出特征。输出层的上一层通常为全连接层，输出层可以基于全连接层的输出特征，输出分类结果，该分类结果可以为属于限制性内容的概率。

在上述步骤(2)中，第二卷积神经网络的具体处理过程可以包括：通过第二卷积神经网络的第一特征提取层，对多个词语和目标词语分别进行特征提取，得到多个词语的第一文本特征及目标词语的第二文本特征，将第一文本特征和第二文本特征进行拼接，得到文本特征，将文本特征输入第二卷积神经网络的全连接层，得到文本类型特征，基于文本类型特征，确定会话消息的文本预测结果。

例如，一个历史多媒体文件的会话消息可以包括N个词语，分别为词语1、词语2……词语N。如图5所示，图5是本申请实施例提供的一种第二卷积神经网络的示意图，第二卷积神经网络可以包括输入层501、词向量层502、特征提取层503、全连接层504及输出层505。在输入层501输入N个词语和目标词语，通过第二卷积神经网络的词向量层502，找到N个词语和目标词语对应的向量，再通过第二卷积神经网络的特征提取层503，将N个词语和目标词语对应的向量分别转换为第一文本特征和第二文本特征，该第一文本特征和第二文本特征可以为一个句子级别的向量，对第一文本特征和第二文本特征进行拼接，得到文本特征，将文本特征输入第二卷积神经网络的全连接层504，对目标多媒体文件进行预测，得到文本类型特征，通过第二卷积神经网络的输出层，将文本类型特征进行转化，得到会话消息的文本预测结果，也即是得到会话消息属于限制性内容的概率。

上述第二卷积神经网络可以事先通过训练得到。其训练过程包括：获取样本会话消息中的多个词语和目标词语，以及样本会话消息的样本文本结果，基于样本会话消息中的多个词语、目标词语和样本会话消息的样本文本结果，进行模型训练，得到第二卷积神经网络模型。在一种可能实现方式中，技术人员可以通过人工标注的方式，标注出多个会话消息中的多个词语和属于限制性内容的目标词语，将该多个会话消息作为样本会话消息，对多个会话消息中的多个词语和属于限制性内容的目标词语进行人工标注，确定出多个会话消息的样本文本结果，该样本文本结果用于表示会话消息是否属于限制性内容，再基于上述样本进行训练。具体的，上述第二卷积神经网络的训练过程可以包括：在第一次迭代过程中，将样本会话消息中的多个词语和目标词语，输入初始模型，得到第一次迭代过程的分类结果。基于第一次迭代过程的分类结果与样本文本结果，确定损失函数，基于损失函数，对初始模型中的模型参数进行调整。将第一次迭代调整后的模型参数作为第二次迭代的模型参数，再进行第二次迭代。重复多次上述迭代过程，在第N次过程中，以第N-1次迭代调整后的模型参数作为新的模型参数，进行模型训练，直到训练满足目标条件，则将满足目标条件的迭代过程所对应的模型获取为第二卷积神经网络。其中，模型参数包括全连接层的各个参数。N为正整数，且N大于1。可选的，训练满足的目标条件可以为初始模型的训练迭代次数达到目标次数，技术人员可以预先设定训练迭代次数。或者，训练满足的目标条件可以为损失值满足目标阈值条件，如损失值小于0.00001。本申请实施例对此不作限定。

305、服务器对历史多媒体文件的内容预测结果与会话消息的文本预测结果，进行加权平均处理，得到至少一个历史传播事件的事件预测结果，事件预测结果用于表示历史传播事件对应的历史多媒体文件属于限制性内容的概率。

由于一个历史传播事件可以基于其对应历史对媒体文件的内容预测结果与会话消息的文本预测结果来进行确定，而不同类型的预测结果可以对该历史传播事件的事件预测结果造成不同影响，因此，可以为不同类型的预测结果赋予对应权重，用以反映其对结果的影响程度，再基于加权平均处理，以得到历史传播事件的事件预测结果。

306、将目标用户参与的至少一个历史传播事件的事件预测结果中，大于目标阈值的至少一个事件预测结果进行求和，得到目标用户的敏感度，敏感度用于指示目标用户传播属于限制性内容的多媒体文件的可能性。

在本申请实施例中，敏感度是指用户经常传播属于限制性内容的多媒体文件的可能性，例如，属于限制性内容可以为包含敏感内容，则敏感度可以为用户经常传播包含敏感内容的多媒体文件的可能性。

由于一个目标用户所参与的历史传播事件可以反映该目标用户的一些行为特性，比如，喜欢传播一些属于限制性内容的多媒体文件等，因此，通过一个目标用户的至少一个历史传播事件，可以对确定该目标用户的传播倾向有一定的参考作用。相应的，技术人员可以预先设置目标阈值，该目标阈值用于确定历史传播事件是否属于限制性内容。在一种可能实现方式中，服务器可以在目标用户参与的至少一个历史传播事件的事件预测结果中，选取大于目标阈值的事件预测结果，则该大于目标阈值的事件预测结果对应的历史传播事件属于限制性内容，对大于目标阈值的至少一个事件预测结果进行求和，得到目标用户的敏感度。

例如，目标用户参与的至少一个历史传播事件可以包括目标用户发送、接收的多个历史传播事件，目标用户发送的历史传播事件可以有5个，分别对应的事件预测结果可以为20％、20％、30％、60％、60％。接收的历史传播事件可以有3个，分别对应的事件预测结果可以为20％、50％、80％。目标阈值可以为技术人员预先设定的固定阈值，如50％，在目标用户参与的8个历史传播事件的事件预测结果中，大于目标阈值的有3个，也即是属于限制性内容的历史传播事件有3个，分别为60％、60％、80％，进行求和，得到目标用户的敏感度为2。

上述步骤303至步骤306为基于至少一个目标用户的历史传播事件以及与历史传播事件关联的会话消息，确定至少一个目标用户的敏感度。需要说明的是，在确定敏感度时，还可以参考其他的用户信息，例如用户资料信息等，本申请对此不作具体限定。

需要说明的是，步骤303至步骤306可以在本申请实施例的处理过程之前进行，也即是，服务器可以提前根据多个目标用户的历史传播事件，以及与历史传播事件关联的会话消息，确定该多个目标用户的历史传播事件的事件预测结果，从而得到该多个目标用户的敏感度，生成该多个目标用户的敏感度记录。当服务器执行目标多媒体文件的检测过程时，可以直接根据目标多媒体文件的文件标识，在敏感度记录中查询，得到参与传播该目标多媒体文件的目标用户的敏感度，再进行后续操作。或者，步骤303至步骤305也可以在本申请实施例的处理过程中进行，如上述步骤所示，本申请实施例对此不作限定。

307、服务器对至少一个目标用户的敏感度，进行加权平均处理，得到目标多媒体文件的传播预测结果。

可选的，服务器得到至少一个目标用户的敏感度后，可以确定出每个敏感度的权重，根据每个敏感度及每个敏感度对应的权重，进行加权平均处理，可以得到目标多媒体文件的传播预测结果。

例如，参与传播目标多媒体文件的目标用户可以有100个，其中敏感度为a的目标用户可以有10个，敏感度为b的目标用户可以有20个，敏感度为c的目标用户可以有30个，敏感度为d的目标用户可以有40个，则敏感度为a的权重为10％，敏感度为b的权重为20％，敏感度为c的权重为30％，敏感度为d的权重为40％，进行加权平均处理，可以得到目标多媒体文件的传播预测结果为(10％*a+20％*b+30％c+40％*d)/100，其中，a、b、c、d均可以为数值。

需要说明的是，步骤301至步骤307以先确定内容预测结果再确定传播预测结果的次序为例进行说明，在另一种可能实现方式中，服务器可以先确定传播预测结果再确定内容预测结果，或者服务器可以同时确定内容预测结果和传播预测结果。本申请实施例对确定内容预测结果和传播预测结果的次序不作限定。

308、服务器基于内容预测结果与传播预测结果，确定目标多媒体文件的目标预测结果，目标预测结果用于表示目标多媒体文件属于限制性内容的概率。

在一种可能实现方式中，服务器对内容预测结果与传播预测结果，进行加权求和处理，可以得到目标多媒体文件的目标预测结果。

例如，内容预测结果与传播预测结果的权重均可以为50％，内容预测结果可以为m，传播预测结果可以为n，进行加权求和处理，可以得到目标多媒体文件的目标预测结果为50％m+50％n，其中，m、n均可以为数值。

309、服务器基于目标多媒体文件的目标预测结果，确定目标多媒体文件是否属于限制性内容。

在一种可能实现方式中，服务器确定出目标多媒体文件的目标预测结果后，根据目标预测结果和目标阈值，可以确定目标多媒体文件是否属于限制性内容，若该目标预测结果大于目标阈值，则目标多媒体文件属于限制性内容，若该目标预测结果小于或等于目标阈值，则目标多媒体文件不属于限制性内容。

在一种可能实现方式中，目标多媒体资源可以为在线播放的多媒体资源，下面以对目标多媒体文件进行在线播放为例，对多媒体文件的播放方法进行说明。图6是本申请实施例提供的一种多媒体文件播放方法的流程图，参见图6，该实施例包括：

601、终端响应于播放指令，确定播放指令指示的目标多媒体文件。

在一种可能实现方式中，当用户想要播放目标多媒体文件时，可以在应用程序界面上点击目标多媒体文件的播放选项，触发播放指令，终端接收到该播放指令后，根据该播放指令，可以确定目标多媒体文件。

602、终端向服务器发送播放请求，播放请求携带目标多媒体文件的文件标识。

在一种可能实现方式中，终端确定目标多媒体文件后，可以根据目标多媒体文件的文件标识，生成携带有目标多媒体文件的文件标识的播放请求，向服务器发送该播放请求。

603、服务器接收到播放请求，对目标多媒体文件进行检测，确定目标多媒体文件是否属于限制性内容。

在一种可能实现方式中，服务器接收到播放请求后，触发执行步骤301至步骤309的目标多媒体文件的检测步骤。可选的，根据该播放请求中携带的文件标识，可以确定目标多媒体文件，以及参与传播目标多媒体文件的至少一个目标用户，再利用本申请实施例提供的多媒体文件检测方法，可以确定出目标多媒体文件的目标预测结果，进而可以确定目标多媒体文件是否属于限制性内容。

604、若目标多媒体文件不属于限制性内容，则服务器向终端发送该目标多媒体文件。

在一种可能实现方式中，若服务器确定出目标多媒体文件不属于限制性内容，则可以向终端发送该目标多媒体文件，再进行后续终端缓存并播放的操作。若服务器确定出目标多媒体文件属于限制性内容，则不发送该目标多媒体文件，进而终端无法播放该目标多媒体文件。

需要说明的是，该发送目标多媒体文件可以是指发送目标多媒体文件的数据流，以实现在线播放。

605、终端响应于播放请求，播放该目标多媒体文件。

在一种可能实现方式中，终端接收到目标多媒体文件后，可以缓存并播放该目标多媒体文件。

在本申请实施例中，由于终端对目标多媒体文件在线播放，可以实时获取目标多媒体文件的播放数据，因此，终端在接收到该播放指令后，可以先由服务器确定目标多媒体文件是否属于限制性内容，再确定是否向终端发送该目标多媒体文件，若目标多媒体文件属于限制性内容，则不向终端发送该目标多媒体文件，则终端就不会播放目标多媒体文件。

上述步骤601至步骤605中，以目标多媒体文件实时播放、实时检测为例进行说明。在另一种可能实现方式中，服务器可以提前对目标多媒体文件进行多媒体文件检测，以确定出该目标多媒体文件是否属于限制性内容，得到该目标多媒体文件的类型标识，并将类型标识进行记录。当服务器接收到终端对目标多媒体文件的播放请求后，基于该播放请求中携带的文件标识进行查询，可以得到目标多媒体文件的类型标识，服务器根据目标多媒体文件的类型标识，可以确定该目标多媒体文件是否属于限制性内容，进而确定是否向终端发送该目标多媒体文件。

上述的提前检测过程可以是指服务器对上传但未发布的多媒体资源，或者，已发布的多媒体资源进行周期性检测。当多媒体文件为上传但未发布的多媒体资源时，服务器进行多媒体文件检测的过程可以包括：服务器在接收到多媒体文件发布请求后，触发执行多媒体文件的检测步骤。

本申请实施例提供的技术方案，终端在线播放目标多媒体文件时，可以由服务器先确定目标多媒体文件是否属于限制性内容，再确定是否向终端发送该目标多媒体文件，对于属于限制性内容的目标多媒体文件，由于服务器不向终端发送该目标多媒体文件，因此终端无法缓存更无法播放该目标多媒体文件，进而达到不播放该目标多媒体文件的效果，能够有效避免属于限制性内容的多媒体文件的传播，起到了净化互联网环境的作用。

在一种可能实现方式中，目标多媒体资源可以为离线播放的多媒体资源，下面以目标多媒体文件下载及离线播放的一种情况为例，对多媒体文件的播放方法进行说明。图7是本申请实施例提供的一种多媒体文件播放方法的流程图，参见图7，该实施例包括：

701、终端响应于下载指令，确定下载指令指示的目标多媒体文件。

在一种可能实现方式中，当用户想要下载目标多媒体文件时，可以在应用程序界面上点击目标多媒体文件的下载选项，触发下载指令，终端接收到该下载指令后，根据该下载指令，可以确定目标多媒体文件。

702、终端向服务器发送下载请求，该下载请求携带目标多媒体文件的文件标识。

在一种可能实现方式中，终端确定目标多媒体文件后，可以根据目标多媒体文件的文件标识，生成携带有目标多媒体文件的文件标识的下载请求，向服务器发送该下载请求。

703、服务器接收到该下载请求，对目标多媒体文件进行检测，确定目标多媒体文件是否属于限制性内容。

在一种可能实现方式中，服务器接收到下载请求后，触发执行步骤301至步骤309的目标多媒体文件的检测步骤。可选的，根据该下载请求中携带的文件标识，可以确定目标多媒体文件，以及参与传播目标多媒体文件的至少一个目标用户，再利用本申请实施例提供的多媒体文件检测方法，可以确定出目标多媒体文件的目标预测结果，进而可以确定目标多媒体文件是否属于限制性内容。

704、若目标多媒体文件不属于限制性内容，则服务器向终端发送该目标多媒体文件。

在一种可能实现方式中，若服务器确定出目标多媒体文件不属于限制性内容，则可以向终端发送该目标多媒体文件，再进行后续终端下载并存储的操作。若服务器确定出目标多媒体文件属于限制性内容，则不向发送该目标多媒体文件，进而终端无法下载该目标多媒体文件。

705、终端对接收到的目标多媒体文件进行存储，响应于对该目标多媒体文件的播放指令，基于已存储的目标多媒体文件进行播放。

在一种可能实现方式中，终端接收到该目标多媒体文件后，将该目标多媒体文件进行存储。当终端接收到对该目标多媒体文件的播放指令后，可以根据该播放指令所指示的目标多媒体文件的文件标识查询，得到目标多媒体文件，再进行播放。

本申请实施例提供的技术方案，终端在接收到下载指令后，可以先由服务器确定目标多媒体文件是否属于限制性内容，再确定是否向终端发送该目标多媒体文件，对于属于限制性内容的目标多媒体文件，由于服务器不向终端发送该目标多媒体文件，因此终端无法下载存储更无法播放该目标多媒体文件，进而达到不播放该目标多媒体文件的效果，能够有效避免属于限制性内容的多媒体文件的传播，起到了净化互联网环境的作用。

下面以目标多媒体文件下载及离线播放的另一种情况为例，对多媒体文件的播放方法进行说明。图8是本申请实施例提供的一种多媒体文件播放方法的流程图，参见图8，该实施例包括：

801、终端对下载到的目标多媒体文件进行存储。

在一种可能实现方式中，终端接收到下载指令后，向服务器发送下载请求，服务器接收到下载请求后，根据该下载请求中携带的文件标识，确定目标多媒体文件，向终端发送该目标多媒体文件，终端接收到该目标多媒体文件后，可以将该目标多媒体文件存储至目标存储空间中，该目标存储空间中可以存储有多个多媒体文件。

802、终端响应于播放指令，向服务器发送目标多媒体文件确定请求，该目标多媒体文件确定请求携带该目标多媒体文件的文件标识。

在一种可能实现方式中，当终端接收到播放指令后，根据该播放指令，可以确定目标多媒体文件，根据目标多媒体文件的文件标识，生成携带有该目标多媒体文件的文件标识的目标片段确定请求，并向服务器发送目标片段确定请求。

803、服务器响应于该目标多媒体文件确定请求，确定该目标多媒体文件的类型标识，该类型标识用于表示该目标多媒体文件是否属于限制性内容。

在一种可能实现方式中，服务器接收到目标多媒体文件确定请求后，可以根据该目标多媒体文件确定请求中携带的文件标识，确定该目标多媒体文件的类型标识。

需要说明的是，该确定类型标识的过程可以是实时对目标多媒体文件检测的过程，还可以是基于目标多媒体文件提前已经确定好的获取过程，本申请实施例对此不作限定。

804、服务器将该目标多媒体文件的类型标识发送给终端。

在一种可能实现方式中，服务器确定出该目标多媒体文件的类型标识后，向终端发送该目标多媒体文件的类型标识。

需要说明的是，在本申请实施例中，上述目标多媒体文件的类型标识还可以在步骤801下载目标多媒体文件时一并下载到终端并存储至本地的目标存储空间中，相应的，该步骤802至804可以替换为下述步骤：终端响应于播放指令，从终端本地的目标存储空间中获取已存储的目标多媒体文件的类型标识，以便执行后续的播放过程。

805、终端响应于该播放指令和该类型标识，确定是否播放该目标多媒体文件。

在一种可能实现方式中，终端接收到该目标多媒体文件的类型标识后，在播放目标多媒体文件时，可以根据该目标多媒体文件的类型标识，确定该目标多媒体文件是否属于限制性内容，若目标多媒体文件不属于限制性内容，则终端解析并播放该目标多媒体文件，若目标多媒体文件属于限制性内容，则终端不会解析该目标多媒体文件，进而不会播放该目标多媒体文件。

本申请实施例提供的技术方案，终端可以下载并存储目标多媒体文件，在播放该目标多媒体文件时，根据目标多媒体文件的类型标识，确定目标多媒体文件是否属于限制性内容，对于属于限制性内容的目标多媒体文件，不进行解析，进而不播放属于限制性内容的目标多媒体文件，能够有效避免属于限制性内容的多媒体文件的传播，起到了净化互联网环境的作用。

图9是本申请实施例提供的一种基于人工智能的多媒体文件的检测装置的结构示意图，参见图9，该装置包括：

检测模块901，用于对目标多媒体文件进行内容检测，得到目标多媒体文件的内容预测结果，内容预测结果用于表示基于内容所确定的目标多媒体文件属于限制性内容的概率；

预测结果确定模块902，用于基于参与传播目标多媒体文件的至少一个目标用户，确定目标多媒体文件的传播预测结果，传播预测结果用于表示基于传播情况所确定的目标多媒体文件属于限制性内容的概率；

文件类型确定模块903，用于基于内容预测结果与传播预测结果，确定目标多媒体文件是否属于限制性内容。

在一种可能实现方式中，检测模块901，用于：

将目标多媒体文件的至少一个片段输入第一卷积神经网络，通过第一卷积神经网络对至少一个片段进行预测，得到至少一个片段的内容预测结果；

基于至少一个片段的内容预测结果，确定目标多媒体文件的内容预测结果。

在一种可能实现方式中，检测模块901，用于：

在至少一个片段的内容预测结果中，选取数值最大的内容预测结果，作为目标多媒体文件的内容预测结果；

或，

将至少一个片段的内容预测结果的平均值，作为目标多媒体文件的内容预测结果。

在一种可能实现方式中，预测结果确定模块902，用于：

基于至少一个目标用户的历史传播事件以及与历史传播事件关联的会话消息，确定至少一个目标用户的敏感度，敏感度用于指示目标用户传播属于限制性内容的多媒体文件的可能性；

对至少一个目标用户的敏感度，进行加权平均处理，得到目标多媒体文件的传播预测结果。

在一种可能实现方式中，预测结果确定模块902，用于：

基于目标用户，确定目标用户参与的至少一个历史传播事件以及与历史传播事件关联的会话消息；

获取至少一个历史传播事件对应的历史多媒体文件的内容预测结果，获取对应会话消息的文本预测结果，文本预测结果用于表示基于会话消息所确定的历史多媒体文件属于限制性内容的概率；

对历史多媒体文件的内容预测结果与会话消息的文本预测结果，进行加权平均处理，得到至少一个历史传播事件的事件预测结果，事件预测结果用于表示历史传播事件对应的历史多媒体文件属于限制性内容的概率；

将目标用户参与的至少一个历史传播事件的事件预测结果中，大于目标阈值的至少一个事件预测结果进行求和，得到目标用户的敏感度。

在一种可能实现方式中，预测结果确定模块902，用于：

获取会话消息中的多个词语，以及会话消息中的目标词语，目标词语为包含有指定内容的词语；

将多个词语和目标词语，输入第二卷积神经网络，通过第二卷积神经网络根据多个词语和目标词语对至少一个历史多媒体文件预测，得到会话消息的文本预测结果。

在一种可能实现方式中，预测结果确定模块902，用于：

通过第二卷积神经网络的第一特征提取层，对多个词语和目标词语分别进行特征提取，得到多个词语的第一文本特征及目标词语的第二文本特征；

将第一文本特征和第二文本特征进行拼接，得到文本特征，将文本特征输入第二卷积神经网络的全连接层，得到文本类型特征；

基于文本类型特征，确定会话消息的文本预测结果。

在一种可能实现方式中，预测结果确定模块902，用于：

基于至少一个历史多媒体文件的会话消息，在目标词库中查询，确定会话消息中包含的目标词语，目标词库存储有包含指定内容的多个词语。

在一种可能实现方式中，装置还包括训练模块，用于：

获取样本会话消息中的多个词语和目标词语，以及样本会话消息的样本文本结果；

基于样本会话消息中的多个词语、目标词语和样本会话消息的样本文本结果，进行模型训练，得到第二卷积神经网络模型。

在一种可能实现方式中，装置还包括查询模块，用于：

基于目标多媒体文件的文件标识，查询到参与传播目标多媒体文件的所有用户，进行随机采样处理，得到至少一个目标用户；

目标用户参与的至少一个历史传播事件的确定过程包括：

基于目标用户的用户标识，查询到目标用户参与的所有历史传播事件，进行随机采样处理，得到至少一个历史传播事件。

在一种可能实现方式中，文件类型确定模块903，用于：

对内容预测结果与传播预测结果，进行加权求和处理，得到目标多媒体文件的目标预测结果，若目标预测结果大于目标阈值，则目标多媒体文件属于限制性内容，目标预测结果用于表示目标多媒体文件属于限制性内容的概率。

需要说明的是：上述实施例提供的基于人工智能的多媒体文件的检测装置在多媒体文件检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于人工智能的多媒体文件的检测装置与基于人工智能的多媒体文件的检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供的技术方案，由于参与传播目标多媒体文件的目标用户可以对应不同的传播情况，因此，根据目标用户来确定目标多媒体文件的传播预测结果，进而确定目标多媒体文件是否属于限制性内容，能够很好的利用目标用户在传播过程中产生的相关信息，实现了对多媒体文件的有效检测。

本申请实施例提供的计算机设备，可以提供为一种终端，图10是本申请实施例提供的一种终端的结构示意图，该终端1000可以是：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、10核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的基于人工智能的多媒体文件的检测方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1006以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1006的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1006的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1006的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例提供的计算机设备，可以提供为一种服务器，图11是本申请实施例提供的一种服务器的结构示意图，该计算机设备1100可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)1101和一个或多个的存储器1102，其中，所述一个或多个存储器1102中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器1101加载并执行以实现上述各个方法实施例提供的方法。当然，该计算机设备1100还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备1100还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中基于人工智能的多媒体文件的检测方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的多媒体文件的检测方法，其特征在于，所述方法包括：

基于所述内容预测结果与所述传播预测结果，确定所述目标多媒体文件是否属于限制性内容。

2.根据权利要求1所述的方法，其特征在于，所述对目标多媒体文件进行内容检测，得到所述目标多媒体文件的内容预测结果，包括：

将所述目标多媒体文件的至少一个片段输入第一卷积神经网络，通过所述第一卷积神经网络对所述至少一个片段进行预测，得到所述至少一个片段的内容预测结果；

基于所述至少一个片段的内容预测结果，确定所述目标多媒体文件的内容预测结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个片段的内容预测结果，确定所述目标多媒体文件的内容预测结果，包括：

或，

4.根据权利要求1所述的方法，其特征在于，所述基于参与传播所述目标多媒体文件的至少一个目标用户，确定所述目标多媒体文件的传播预测结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个目标用户的历史传播事件以及与所述历史传播事件关联的会话消息，确定所述至少一个目标用户的敏感度，包括：

6.根据权利要求5所述的方法，其特征在于，所述获取对应所述会话消息的文本预测结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述多个词语和所述目标词语，输入第二卷积神经网络，通过所述第二卷积神经网络根据所述多个词语和所述目标词语对所述至少一个历史多媒体文件预测，得到所述会话消息的文本预测结果，包括：

将所述第一文本特征和所述第二文本特征进行拼接，得到文本特征，将所述文本特征输入所述第二卷积神经网络的全连接层，得到文本类型特征；

基于所述文本类型特征，确定所述会话消息的文本预测结果。

8.根据权利要求6所述的方法，其特征在于，所述目标词语的获取过程包括：

9.根据权利要求6所述的方法，其特征在于，所述第二卷积神经网络的确定过程包括：

10.根据权利要求5所述的方法，其特征在于，所述参与传播所述目标多媒体文件的至少一个目标用户的确定过程包括：

11.根据权利要求1所述的方法，其特征在于，所述基于所述内容预测结果与所述传播预测结果，确定所述目标多媒体文件是否属于限制性内容，包括：

12.一种基于人工智能的多媒体文件的检测装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述检测模块，用于：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求11任一项所述的基于人工智能的多媒体文件的检测方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的基于人工智能的多媒体文件的检测方法所执行的操作。