CN114765693A

CN114765693A - 直播流内容处理方法和装置、存储介质及电子设备

Info

Publication number: CN114765693A
Application number: CN202110051003.8A
Authority: CN
Inventors: 沈伟; 彭健腾
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2022-07-19
Anticipated expiration: 2041-01-14
Also published as: CN114765693B

Abstract

本发明公开了一种直播流内容处理方法和装置、存储介质及电子设备。其中，该方法包括：获取待处理的直播流片段中的多媒体帧序列；确定多媒体帧序列中每个多媒体帧各自匹配的拦截置信度，其中，拦截置信度用于指示是否识别多媒体帧；根据拦截置信度从多媒体帧序列中确定出第一时间点及第二时间点；获取第一时间点至第二时间点之间的多个多媒体帧对应的内容安全系数；在内容安全系数指示确定拦截多个多媒体帧的情况下，拦截直播流片段。本发明解决了直播流数据识别效率低的技术问题。

Description

直播流内容处理方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种直播流内容处理方法和装置、存储介质及电子设备。

背景技术

现有技术中，在对直播流数据进行内容识别的过程中，通常获取到待识别的内容的时候，需要对所有的待识别的内容进行识别，以确定直播流的内容是否健康正常。

然而，若是采用上述方法，由于在识别直播流时，是识别所有的直播流，造成直播流数据的识别效率低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种直播流内容处理方法和装置、存储介质及电子设备，以至少解决直播流数据识别效率低的技术问题。

根据本发明实施例的一个方面，提供了一种直播流内容处理方法，包括：获取待处理的直播流片段中的多媒体帧序列；确定上述多媒体帧序列中每个多媒体帧各自匹配的拦截置信度，其中，上述拦截置信度用于指示是否识别上述多媒体帧；根据上述拦截置信度从上述多媒体帧序列中确定出第一时间点及第二时间点，其中，上述第一时间点用于指示上述拦截置信度从第一目标值变化到第二目标值的时间点，上述第二时间点用于指示上述拦截置信度从上述第二目标值变化到上述第一目标值的时间点；获取上述第一时间点至上述第二时间点之间的多个多媒体帧对应的内容安全系数；在上述内容安全系数指示确定拦截上述多个多媒体帧的情况下，拦截上述直播流片段。

根据本发明实施例的另一方面，还提供了一种直播流内容处理装置，包括：第一获取单元，用于获取待处理的直播流片段中的多媒体帧序列；第一确定单元，用于确定上述多媒体帧序列中每个多媒体帧各自匹配的拦截置信度，其中，上述拦截置信度用于指示是否识别上述多媒体帧；第二确定单元，用于根据上述拦截置信度从上述多媒体帧序列中确定出第一时间点及第二时间点，其中，上述第一时间点用于指示上述拦截置信度从第一目标值变化到第二目标值的时间点，上述第二时间点用于指示上述拦截置信度从上述第二目标值变化到上述第一目标值的时间点；第二获取单元，用于获取上述第一时间点至上述第二时间点之间的多个多媒体帧对应的内容安全系数；拦截单元，用于在上述内容安全系数指示确定拦截上述多个多媒体帧的情况下，拦截上述直播流片段。

作为一种可选的示例，上述第二获取单元包括：第三输入模块，用于将上述多个多媒体帧中的每一个多媒体帧输入到目标识别模型中，其中，上述目标识别模型用于识别上述每一个多媒体帧的上述内容安全系数；第二获取模块，用于获取上述目标识别模型输出的上述每一个多媒体帧的上述内容安全系数。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述直播流内容处理方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的直播流内容处理方法。

在本发明实施例中，采用了获取待处理的直播流片段中的多媒体帧序列；确定上述多媒体帧序列中每个多媒体帧各自匹配的拦截置信度，其中，上述拦截置信度用于指示是否识别上述多媒体帧；根据上述拦截置信度从上述多媒体帧序列中确定出第一时间点及第二时间点，其中，上述第一时间点用于指示上述拦截置信度从第一目标值变化到第二目标值的时间点，上述第二时间点用于指示上述拦截置信度从上述第二目标值变化到上述第一目标值的时间点，上述第一目标值对应的多媒体帧不被识别，上述第二目标值对应的多媒体帧将被识别；获取上述第一时间点至上述第二时间点之间的多个多媒体帧对应的内容安全系数；在上述内容安全系数指示确定拦截上述多个多媒体帧的情况下，拦截上述直播流片段的方法，由于在上述方法中，在获取到待处理的直播流片段之后，并不是对直播流片段的所有内容进行识别，而是对直播流片段中置信度为第二目标值的多媒体帧进行识别，以确定直播流片段是否通过审核，实现了提高对直播流数据进行识别的效率的效果，进而解决了直播流数据识别效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的直播流内容处理方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的直播流内容处理方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的直播流内容处理方法的流程的示意图；

图4是根据本发明实施例的一种可选的直播流内容处理方法的直播流分流的示意图；

图5是根据本发明实施例的一种可选的直播流内容处理方法的直播流拦截的示意图；

图6是根据本发明实施例的一种可选的直播流内容处理方法的第一时间点与第二时间点的示意图；

图7是根据本发明实施例的一种可选的直播流内容处理方法的目标拦截模型训练过程示意图；

图8是根据本发明实施例的一种可选的直播流内容处理方法的目标拦截模型与目标识别模型使用过程示意图；

图9是根据本发明实施例的一种可选的直播流内容处理装置的结构示意图；

图10是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种直播流内容处理方法，可选地，作为一种可选的实施方式，上述直播流内容处理方法可以但不限于应用于如图1所示的环境中。

如图1所示，终端设备102包括了存储器104，用于存储终端设备102运行过程中产生的各项数据、处理器106，用于处理运算上述各项数据、显示器108，用于显示直播内容。终端设备102可以通过网络110与服务器112之间进行数据交互。服务器112包括数据库114，用于存储各项数据，处理引擎116，用于处理上述各项数据。步骤S102到S106，终端设备102可以获取直播流片段，然后将直播流片段发送到服务器112，服务器112可以识别直播流数据，然后返回识别结果。

作为一种可选的实施方式，上述直播流内容处理方法可以但不限于应用于如图2所示的环境中。

如图2所示，终端设备202包括了存储器204，用于存储终端设备202运行过程中产生的各项数据、处理器206，用于处理运算上述各项数据、显示器208，用于显示直播数据。终端设备可以获取直播流片段，然后对直播流片段进行识别，然后将识别后的直播流数据发送到服务器112。服务器112包括数据库114，用于存储各项数据，处理引擎116，用于处理上述各项数据。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

所述直播可以是视频直播或音频直播，当为视频直播时，即对视频直播中的视频帧进行分析识别；当为音频直播时，即对音频直播中的音频帧进行分析识别。

本实施方式中以视频直播为例进行举例说明，如图3所示，上述直播流内容处理方法包括：

S302，获取待处理的直播流片段中的视频帧序列；

S304确定视频帧序列中每个视频帧各自匹配的拦截置信度，其中，拦截置信度用于指示是否识别视频帧；

S306，根据拦截置信度从视频帧序列中确定出第一时间点及第二时间点，其中，第一时间点用于指示拦截置信度从第一目标值变化到第二目标值的时间点，第二时间点用于指示拦截置信度从第二目标值变化到第一目标值的时间点，第一目标值对应的视频帧不被识别，第二目标值对应的视频帧将被识别；

S308，获取第一时间点至第二时间点之间的多个视频帧对应的内容安全系数；

S310，在内容安全系数指示确定拦截多个视频帧的情况下，拦截直播流片段。

可选地，本申请实施例可以但不限于应用与对直播数据进行识别的过程中。可以应用在主播客户端产生直播数据之后，产生直播数据立即进行识别。或者应用在直播数据发送到观众的客户端时识别，在即将被观众的客户端播放或者在观众的客户端播放直播数据过程中进行识别。识别的目的在于，确定直播数据中是否包括了不允许被直播的内容。如包含有暴力、色情、恐怖、非法等内容的直播。

可选地，上述直播流片段可以为直播数据中的一段。对于主播客户端来说，随着时间的流逝，直播数据持续产生，直播流片段可以为直播数据中的连续或者不连续的数据段。如直播数据中，第3-6分钟的内容。直播流片段中包括了视频帧序列，视频帧序列包括了多帧连续的视频帧。如上述3-6分钟的直播内容，每一秒可以包括30帧数据。

可选地，本申请实施例中获取上述直播流片段的方式并不限定。例如，可以在直播流从直播客户端传输向观众客户端的过程中，进行识别，识别过程中，观众客户端同步播放。如图4所示，当直播流数据从主播客户端402流向观众客户端404的过程中，可以将直播流数据进行分流，分流后的直播流数据流向识别模块406，由识别模块进行识别。识别模块可以位于观众客户端一侧或主播客户端一侧或者服务器一侧，并不限定。另外，还可以在直播流从直播客户端传输向观众客户端的过程中，拦截直播流，进行识别，识别通过后发送到观众客户端进行播放。如果识别未通过，则不允许播放。如图5所示，当直播流数据从主播客户端502流向观众客户端504的过程中，可以使用识别模块506将直播流数据进行拦截，并识别，如果识别出不允许播放的内容，则进行拦截，将允许播放的内容发送给观众客户端504。

作为另一种示例，本申请实施例中，还可以暂时不进行识别，直播流从主播客户端传输到观众客户端进行播放，而如果在观众客户端观看过程中，进行举报，则自动对直播流进行识别，以审核直播数据中是否包含不允许被直播的内容。

例如，以直播为例，直播流片段可以为10帧的视频帧序列，10帧视频帧序列每一帧对应一个拦截置信度。拦截置信度为第二目标值的视频帧将被确定为待识别的视频帧，拦截置信度为第一目标值的视频帧将不被识别。如10帧中，5帧被丢弃，5帧被识别。识别5帧视频帧，确定出5帧视频帧的内容安全系数。如果内容安全系数指示拦截5帧视频帧，则拦截上述10帧的直播流片段。也就是说，在审核直播流数据的过程中，不需要对直播流数据的直播流片段的所有内容进行识别，而是根据拦截置信度选择其中的一部分进行识别，需要识别的视频帧数量减少，识别效率提高。

通过本实施例，通过在对直播流片段进行识别的过程中，根据拦截置信度，确定直播流片段中的第一时间点到第二时间点间的视频帧，并对第一时间点到第二时间点间的视频帧进行识别，而不是对整个直播流片段进行识别，从而提高了审核直播流片段的效率。

可选地，本申请实施例中，在获取到直播流片段后，需要确定出其中的第一时间点到第二时间点的视频帧，对确定出的视频帧进行识别。确定第一时间点与第二时间点包括：

S1，将视频帧序列中拦截置信度为第二目标值的第一个视频帧所在的时间点确定为第一时间点；

S2，将第一时间点后，视频帧序列中拦截置信度为第一目标值的第一个视频帧所在的时间点确定为第二时间点。

也就是说，由于视频帧序列中的每一个视频帧都包括一个拦截置信度，因此，可以按照拦截置信度的数值来确定第一时间点与第二时间点。第一时间点和第二时间点可以有一个或多个。例如，如图6所示，图6中包括了多个第一时间点602与第二时间点604，对应包括了视频帧序列606中的多段视频帧，每一段视频帧包括多个视频帧。识别每一段的多个视频帧，根据每一段的多个视频帧的内容安全系数确定是否拦截直播流片段对应的直播内容。如果有任意一段视频帧的多个视频帧的内容安全系数被识别为应拦截直播流片段，则拦截直播流片段。

可选地，本申请实施例中，在使用拦截置信度确定待识别的视频帧之前，还需要确定直播流数据中每一个视频帧的拦截置信度。拦截置信度可以由目标拦截模型来识别视频帧得到。步骤可以为：

S1，将视频帧序列中的每一个视频帧输入到目标拦截模型中；

S2，获取目标拦截模型输出的每一个视频帧的目标向量；

S3，对目标向量进行二分类，得到每一个视频帧的拦截置信度。

也就是说，在获取到视频帧序列之后，将视频帧序列中的每一个视频帧输入到目标拦截模型中，由目标拦截模型可以得到每一个视频帧的目标向量，最后使用二分类，对目标向量进行分类。如分类结果可以为0或1，分类结果为1表示将被识别，分类结果为0表示不被识别。0可以为第一目标值，1可以为第二目标值，从而得到直播流片段的每一个视频帧的拦截置信度。

可选地，本申请实施例中，目标拦截模型的训练可以为：

S1，获取样本直播流；

S2，将样本直播流输入到原始拦截模型中，得到原始拦截模型输出的第一向量，其中，原始拦截模型用于识别样本直播流得到第一向量；

S3，将样本直播流输入到目标识别模型中，得到样本直播流的第二向量，其中，目标识别模型用于识别样本直播流得到第二向量；

S4，根据第一向量与第二向量确定第一损失并根据第一向量确定第二损失；

S5，根据第一损失和第二损失调整原始拦截模型的模型参数，直到得到目标拦截模型，其中，目标拦截模型为用于确定视频帧序列中的每个视频帧的拦截置信度的模型。

上述目标识别模型为本申请中识别拦截置信度为第二目标值的视频帧的模型。目标识别模型为训练好的模型。可以识别出每一帧视频帧的内容安全系数。

在训练原始拦截模型的时候，可以将获取的样本直播流输入到原始拦截模型，得到第一向量，将样本直播流输入到目标识别模型中，得到第二向量，确定第一向量与第二向量之间的第一损失，确定第一向量的第二损失，最后根据第一损失和第二损失确定是否要调整原始拦截模型的模型参数。直到得到目标拦截模型。

在此过程中，可以通过确定第一向量与第二向量之间的最小化特征距离，作为第一损失，以及将第一向量输入二分类损失函数，得到第二损失。如果第一损失大于或等于第一阈值或第二损失大于或等于第二阈值，那么就调整原始拦截模型的模型参数，并使用调整后的原始拦截模型识别样本直播流，得到新的第一向量，使用新的第一向量确定第一损失与第二损失，判断第一损失和第二损失，以确定是否调整原始拦截模型的模型参数，直到得到目标拦截模型。训练原始拦截模型得到目标拦截模型的过程中，目标识别模型是不变的，因为目标识别模型是预先训练好的模型。

如果目标识别模型有多个，分别用于识别不同类型的不允许播放的视频，那么，在确定第一损失的时候，需要根据多个目标识别模型输出的多个向量中，每个向量与第一向量的最小化特征距离的加权求和结果作为第一损失。

在使用第一损失和第二损失确定是否改变原始拦截模型的模型参数的时候，还可以使用第一损失和相邻两张图片的向量之间的距离是否大于一个阈值来判断。该阈值的具体计算方式为：取多个不含有和含有拦截图像的直播流片段，计算拦截图像的向量的均值和正常图像的向量的均值，使用两个均值的差值来作为阈值。如果第一损失小于或等于第一阈值，或者上述相邻两张图片的向量之间的距离大于上述差值，则对原始拦截模型的模型参数进行调整。

目标拦截模型在使用过程中，在输入直播流片段后，可以输出直播流片段的向量特征，可以通过一个二分类层将向量特征转换为拦截置信度。

在从直播流片段中确定出第一时间点到第二时间点间的多个视频帧之后，包括：

S1，将多个视频帧中的每一个视频帧输入到目标识别模型中，其中，目标识别模型用于识别每一个视频帧的内容安全系数；

S2，获取目标识别模型输出的每一个视频帧的内容安全系数。

目标识别模型可以包括一个特征提取层和一个全连接层。特征提取层负责识别出每一个视频帧的向量特征，然后全连接层用于确定出内容安全系数。如果内容安全系数的值大于第三阈值，则说明输入到目标识别模型中进行识别的多个视频帧是不被允许播放的视频帧。则可以确定直播流片段包括了不被允许播放的内容，此时需要拦截直播流片段。

以下以直播过程为例，以目标识别模型为色情识别模型和惊悚识别模型为例，从目标拦截模型的训练到使用，解释上述直播流的内容处理方法。

图7为一种可选的训练过程的结构示意图。如图7所示。样本直播流片段为训练色情识别模型和惊悚识别模型的训练集。色情识别模型和惊悚识别模型是使用样本直播流片段训练好的模型。将样本直播流片段输入到色情识别模型和惊悚识别模型中，色情识别模型的特征提取层会提取出抽象特征向量f1，惊悚识别模型的特征提取层会提取出抽象特征向量f2，而原始拦截模型会识别样本直播流片段得到特征向量f。将f映射为f3和f4，映射过程是将f和全连接层相乘，f3和f4不同是因为所乘的全连接层的结构相同但是权值不同。比对f3和f1的最小化特征距离，以及f4和f2的最小化差异，也就是最小化特征距离，并将两个距离加权求和，作为约束条件，也就是第一损失。而原始拦截模型识别到的特征向量f会经由二分类损失函数，得到第二损失。步骤可以如下：

将样本视频流片段训练集中的图像分别输入到原始拦截模型和对应的目标识别模型中，目标识别模型包括了惊悚识别模型和色情识别模型。得到中间特征f和f1，f2，将f继续映射到两个向量f3，f4，构建损失函数一：最小化(f1，f3)之间的距离以及(f2，f4)之间的距离，构建损失函数二：在f的基础上构造一个二分类的分类器，构造分类损失函数，其标签为是否是需要拦截的图像。利用上述两个损失函数训练原始拦截模型，得到目标拦截模型。目标拦截模型可以在输入视频流片段后，确定出视频流片段中每一个视频帧的拦截置信度。拦截置信度可以为0或1。

第一损失的公式可以为：

loss1＝||f₁-f₃||+||f₂-f₄|| (1)

第二损失的公式可以为：

其中，N为正整数，y为权重，p为标签数据。

为在模型训练好之后，对直播流抽取直播流片段，将直播流片段输入到目标拦截模型中，目标拦截模型输出直播流片段中的每一个视频帧的拦截置信度，如果目标拦截模型输出0，则视频帧可以丢弃；如果目标拦截模型输出1，则将视频帧保存到缓存中，在按照顺序识别视频帧的拦截置信度的过程中，记录拦截置信度从0跳变到1的时间点t0，继续识别下一个视频帧，直至目标拦截模型输出的拦截置信度从1跳变至0，记录时间点t1。如图8所示。图8中的T为时间，将目标拦截模型输出的T为2、3、4的视频帧输入到色情识别模型与暴力识别模型中。由色情识别模型与暴力识别模型进行审核。

将t0和t1时间点之间的视频帧输入到下游目标识别模型中做进一步判断，并将该时间段输出给审核人员，告知安审人员如果目标识别模型有拦截输出，则这些输出属于同一段相似场景，也就是说，如果目标识别模型输出的视频帧的内容安全系数是大于第三阈值的，则说明对应的视频帧是应该被拦截的视频帧，不允许被播放。说明视频帧序列中包括了不允许被播放的视频帧。拦截视频帧序列。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述直播流内容处理方法的直播流内容处理装置，该直播流可以为视频直播流或音频直播流。如图9所示，该装置包括：

第一获取单元902，用于获取待处理的直播流片段中的多媒体帧序列；

第一确定单元904，用于确定多媒体帧序列中每个多媒体帧各自匹配的拦截置信度，其中，拦截置信度用于指示是否识别多媒体帧；

第二确定单元906，用于根据拦截置信度从多媒体帧序列中确定出第一时间点及第二时间点，其中，第一时间点用于指示拦截置信度从第一目标值变化到第二目标值的时间点，第二时间点用于指示拦截置信度从第二目标值变化到第一目标值的时间点，第一目标值对应的多媒体帧不被识别，第二目标值对应的多媒体帧将被识别；

第二获取单元908，用于获取第一时间点至第二时间点之间的多个多媒体帧对应的内容安全系数；

拦截单元910，用于在内容安全系数指示确定拦截多个多媒体帧的情况下，拦截直播流片段。

可选地，本申请实施例可以但不限于应用与对直播数据进行识别的过程中。可以应用在主播客户端产生直播数据之后，产生直播数据立即进行识别。或者应用在直播数据发送到观众的客户端时识别，在即将被观众的客户端播放或者在观众的客户端播放直播数据过程中进行识别。识别的目的在于，确定直播数据中是否包括了不允许被直播的内容。如暴力直播、非法直播等内容。

作为一种示例，上述第二确定单元包括：

第一确定模块，用于将多媒体帧序列中拦截置信度为第二目标值的第一个多媒体帧所在的时间点确定为第一时间点；

第二确定模块，用于将第一时间点后，多媒体帧序列中拦截置信度为第一目标值的第一个多媒体帧所在的时间点确定为第二时间点。

作为一种示例，上述第一确定单元包括：

第一输入模块，用于将多媒体帧序列中的每一个多媒体帧输入到目标拦截模型中；

第一获取模块，用于获取目标拦截模型输出的每一个多媒体帧的目标向量；

处理模块，用于对目标向量进行二分类，得到每一个多媒体帧的拦截置信度。

作为一种示例，上述装置还包括：

第三获取单元，用于在确定多媒体帧序列中每个多媒体帧各自匹配的拦截置信度之前，获取样本直播流；

第一输入单元，用于将样本直播流输入到原始拦截模型中，得到原始拦截模型输出的第一向量，其中，原始拦截模型用于识别样本直播流得到第一向量；

第二输入单元，用于将样本直播流输入到目标识别模型中，得到样本直播流的第二向量，其中，目标识别模型用于识别样本直播流得到第二向量；

第三确定单元，用于根据第一向量与第二向量确定第一损失并根据第一向量确定第二损失；

调整单元，用于根据第一损失和第二损失调整原始拦截模型的模型参数，直到得到目标拦截模型，其中，目标拦截模型为用于确定多媒体帧序列中的每个多媒体帧的拦截置信度的模型。

作为一种示例，上述第三确定单元包括：

第三确定模块，用于确定第一向量与第二向量之间的最小化特征距离，作为第一损失；

第二输入模块，用于将第一向量输入二分类损失函数，得到第二损失。

作为一种示例，上述调整单元包括：

循环模块，用于重复执行如下操作，直到得到目标拦截模型：

在第一损失大于或等于第一阈值或第二损失大于或等于第二阈值的情况下，调整原始拦截模型的模型参数，使用调整模型参数后的原始拦截模型识别样本直播流，得到新的第一向量，根据第二向量和新的第一向量确定新的第一损失和新的第二损失。

作为一种示例，上述第二获取单元包括：

第三输入模块，用于将多个多媒体帧中的每一个多媒体帧输入到目标识别模型中，其中，目标识别模型用于识别每一个多媒体帧的内容安全系数；

第二获取模块，用于获取目标识别模型输出的每一个多媒体帧的内容安全系数。

本实施例的其他示例请参见上述示例，在此不再赘述。

根据本发明实施例的又一个方面，还提供了一种用于实施上述直播流内容处理方法的电子设备，该电子设备可以是图10所示的终端设备或服务器。本实施例以该电子设备为终端为例来说明。如图10所示，该电子设备包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

获取待处理的直播流片段中的多媒体帧序列；

确定多媒体帧序列中每个多媒体帧各自匹配的拦截置信度，其中，拦截置信度用于指示是否识别多媒体帧；

根据拦截置信度从多媒体帧序列中确定出第一时间点及第二时间点，其中，第一时间点用于指示拦截置信度从第一目标值变化到第二目标值的时间点，第二时间点用于指示拦截置信度从第二目标值变化到第一目标值的时间点，第一目标值对应的多媒体帧不被识别，第二目标值对应的多媒体帧将被识别；

获取第一时间点至第二时间点之间的多个多媒体帧对应的内容安全系数；

在内容安全系数指示确定拦截多个多媒体帧的情况下，拦截直播流片段。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的直播流内容处理方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的直播流内容处理方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储直播流片段等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述直播流内容处理装置中的第一获取单元902、第一确定单元904、第二确定单元906、第二获取单元908和拦截单元910。此外，还可以包括但不限于上述直播流内容处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1008，用于显示直播流片段；和连接总线1010，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

获取待处理的直播流片段中的多媒体帧序列；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种直播流的内容处理方法，其特征在于，包括：

获取待处理的直播流片段中的多媒体帧序列；

确定所述多媒体帧序列中每个多媒体帧各自匹配的拦截置信度，其中，所述拦截置信度用于指示是否识别所述多媒体帧；

根据所述拦截置信度从所述多媒体帧序列中确定出第一时间点及第二时间点，其中，所述第一时间点用于指示所述拦截置信度从第一目标值变化到第二目标值的时间点，所述第二时间点用于指示所述拦截置信度从所述第二目标值变化到所述第一目标值的时间点；

获取所述第一时间点至所述第二时间点之间的多个多媒体帧对应的内容安全系数；

在所述内容安全系数指示确定拦截所述多个多媒体帧的情况下，拦截所述直播流片段。

2.根据权利要求1所述的方法，其特征在于，所述根据所述拦截置信度从所述多媒体帧序列中确定出第一时间点及第二时间点包括：

将所述多媒体帧序列中所述拦截置信度为所述第二目标值的第一个多媒体帧所在的时间点确定为所述第一时间点；

将所述第一时间点后，所述多媒体帧序列中所述拦截置信度为所述第一目标值的第一个多媒体帧所在的时间点确定为所述第二时间点。

3.根据权利要求1所述的方法，其特征在于，所述确定所述多媒体帧序列中每个多媒体帧各自匹配的拦截置信度包括：

将所述多媒体帧序列中的每一个多媒体帧输入到目标拦截模型中；获取所述目标拦截模型输出的所述每一个多媒体帧的目标向量；

对所述目标向量进行二分类，得到每一个所述多媒体帧的所述拦截置信度。

4.根据权利要求1所述的方法，其特征在于，在确定所述多媒体帧序列中每个多媒体帧各自匹配的拦截置信度之前，所述方法还包括：

获取样本直播流；

将所述样本直播流输入到原始拦截模型中，得到所述原始拦截模型输出的第一向量，其中，所述原始拦截模型用于识别所述样本直播流得到所述第一向量；

将所述样本直播流输入到目标识别模型中，得到所述样本直播流的第二向量，其中，所述目标识别模型用于识别所述样本直播流得到所述第二向量；

根据所述第一向量与所述第二向量确定第一损失并根据所述第一向量确定第二损失；

根据所述第一损失和所述第二损失调整所述原始拦截模型的模型参数，直到得到目标拦截模型，其中，所述目标拦截模型为用于确定所述多媒体帧序列中的所述每个多媒体帧的所述拦截置信度的模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一向量与所述第二向量确定第一损失并根据所述第一向量确定第二损失：

确定所述第一向量与所述第二向量之间的最小化特征距离，作为所述第一损失；

将所述第一向量输入二分类损失函数，得到所述第二损失。

6.根据权利要求4所述的方法，其特征在于，所述根据所述第一损失和所述第二损失调整所述原始拦截模型的模型参数，直到得到所述目标拦截模型包括：

重复执行如下操作，直到得到所述目标拦截模型：

在所述第一损失大于或等于第一阈值或所述第二损失大于或等于第二阈值的情况下，调整所述原始拦截模型的所述模型参数，使用调整所述模型参数后的所述原始拦截模型识别所述样本直播流，得到新的所述第一向量，根据所述第二向量和新的所述第一向量确定新的所述第一损失和新的所述第二损失。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述获取所述第一时间点至所述第二时间点之间的多个多媒体帧对应的内容安全系数包括：

将所述多个多媒体帧中的每一个多媒体帧输入到目标识别模型中，其中，所述目标识别模型用于识别所述每一个多媒体帧的所述内容安全系数；

获取所述目标识别模型输出的所述每一个多媒体帧的所述内容安全系数。

8.一种直播流的内容处理装置，其特征在于，包括：

第一获取单元，用于获取待处理的直播流片段中的多媒体帧序列；

第一确定单元，用于确定所述多媒体帧序列中每个多媒体帧各自匹配的拦截置信度，其中，所述拦截置信度用于指示是否识别所述多媒体帧；

第二确定单元，用于根据所述拦截置信度从所述多媒体帧序列中确定出第一时间点及第二时间点，其中，所述第一时间点用于指示所述拦截置信度从第一目标值变化到第二目标值的时间点，所述第二时间点用于指示所述拦截置信度从所述第二目标值变化到所述第一目标值的时间点；

第二获取单元，用于获取所述第一时间点至所述第二时间点之间的多个多媒体帧对应的内容安全系数；

拦截单元，用于在所述内容安全系数指示确定拦截所述多个多媒体帧的情况下，拦截所述直播流片段。

9.根据权利要求8所述的装置，其特征在于，所述第二确定单元包括：

第一确定模块，用于将所述多媒体帧序列中所述拦截置信度为所述第二目标值的第一个多媒体帧所在的时间点确定为所述第一时间点；

第二确定模块，用于将所述第一时间点后，所述多媒体帧序列中所述拦截置信度为所述第一目标值的第一个多媒体帧所在的时间点确定为所述第二时间点。

10.根据权利要求8所述的装置，其特征在于，所述第一确定单元包括：

第一输入模块，用于将所述多媒体帧序列中的每一个多媒体帧输入到目标拦截模型中；

第一获取模块，用于获取所述目标拦截模型输出的所述每一个多媒体帧的目标向量；

处理模块，用于对所述目标向量进行二分类，得到每一个所述多媒体帧的所述拦截置信度。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于在确定所述多媒体帧序列中每个多媒体帧各自匹配的拦截置信度之前，获取样本直播流；

第一输入单元，用于将所述样本直播流输入到原始拦截模型中，得到所述原始拦截模型输出的第一向量，其中，所述原始拦截模型用于识别所述样本直播流得到所述第一向量；

第二输入单元，用于将所述样本直播流输入到目标识别模型中，得到所述样本直播流的第二向量，其中，所述目标识别模型用于识别所述样本直播流得到所述第二向量；

第三确定单元，用于根据所述第一向量与所述第二向量确定第一损失并根据所述第一向量确定第二损失；

调整单元，用于根据所述第一损失和所述第二损失调整所述原始拦截模型的模型参数，直到得到目标拦截模型，其中，所述目标拦截模型为用于确定所述多媒体帧序列中的所述每个多媒体帧的所述拦截置信度的模型。

12.根据权利要求11所述的装置，其特征在于，所述第三确定单元包括：

第三确定模块，用于确定所述第一向量与所述第二向量之间的最小化特征距离，作为所述第一损失；

第二输入模块，用于将所述第一向量输入二分类损失函数，得到所述第二损失。

13.根据权利要求11所述的装置，其特征在于，所述调整单元包括：

循环模块，用于重复执行如下操作，直到得到所述目标拦截模型：

14.一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，其特征在于，所述计算机程序运行时执行所述权利要求1至7任一项中所述的方法。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。