CN112262582A

CN112262582A - 用于识别包含不良内容的视频的方法、系统和介质

Info

Publication number: CN112262582A
Application number: CN201980038483.5A
Authority: CN
Inventors: 巴特洛梅伊·沃洛维茨; 安德列-亚历山大·甘奇勒斯库
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-12-14
Filing date: 2019-11-22
Publication date: 2021-01-22
Also published as: US20210227291A1; EP3782373A1; WO2020123124A1; US11956484B2

Abstract

提供用于识别包含不良内容的视频的方法、系统以及介质。根据所公开的主题的一些实施例，提供一种用于识别包含不良内容的视频的方法，该方法包括：使用硬件处理器来识别已被上传到视频共享服务的视频；使用神经网络来预测用于所上传的视频的嵌入，其中，嵌入指定所述视频在其中视频基于该视频的内容所位于的多维空间中的位所；基于所预测的嵌入识别在多维空间中位于所上传的视频附近的多个视频；基于在多维空间中位于所上传的视频附近的多个视频的内容来确定所上传的视频是否可能包括不良内容；以及响应于确定所上传的视频可能包括不良内容，使从视频共享服务阻止所上传的视频。

Description

用于识别包含不良内容的视频的方法、系统和介质

相关申请的交叉引用

本申请要求于2018年12月14日提交的美国临时申请No.62/779,717的权益，在此通过引用将其全部内容合并于此。

技术领域

所公开的主题涉及用于识别包含不良内容的视频的方法、系统和媒体。

背景技术

视频共享服务和社交媒体服务可以向用户提供用户生成的视频内容，这些内容可以由用户上传并由其他用户查看。例如，第一用户可以创建视频并将该视频上传到视频共享服务或社交媒体服务，而第二用户可能想要流传输或下载该视频以供观看。在一些情况下，用户可能会上传包含不良内容(诸如色情、不良语言、暴力等)的视频。但是，对于视频共享服务或社交媒体服务来说可能很难检测到包含不良内容的所上传的视频并且可能很难快速检测到此类不良内容以潜在地将其从服务中删除。

因此，提供用于识别包含不良内容的视频的新方法、系统和媒体是可取的。

发明内容

提供了用于识别包含不良内容的视频的方法、系统和介质。

根据所公开的主题的一些实施例，提供了一种用于识别包含不良内容的视频的方法，该方法包括：使用硬件处理器来识别已被上传到视频共享服务的视频；使用神经网络来预测用于所上传的视频的嵌入，其中，嵌入指定所述视频在视频基于视频的内容所位于的多维空间中的位所；基于所预测的嵌入识别在多维空间中位于所上传的视频附近的多个视频；基于在多维空间中位于所述视频附近的多个视频的内容来确定所上传的视频是否可能包括不良内容；以及响应于确定所上传的视频可能包括不良内容，使从视频共享服务阻止所上传的视频。

在一些实施例中，该方法还包括：在使从视频共享服务阻止所上传的视频之前将所上传的视频的指示传送到与验证者相关联的用户账户，其中，所上传的视频响应于从与验证者相关联的用户账户接收到所上传的视频包括不良内容的验证而被阻止。

在一些实施例中，所上传的视频的指示响应于确定所上传的视频可能包括不良内容的置信水平低于预定阈值而被传送到与验证者相关联的用户账户。

在一些实施例中，所上传的视频的指示响应于确定已知多个视频中的视频包括特定类型的不良内容而被传送到与验证者相关联的用户账户。

在一些实施例中，识别位于所上传的视频附近的多个视频包括向远程服务器传送包括用于所上传的视频的所预测的嵌入的查询。

在一些实施例中，确定所上传的视频是否可能包括不良内容包括确定是否已知多个视频中的视频包括特定类型的不良内容。

在一些实施例中，确定所上传的视频是否可能包括不良内容包括确定在多维空间中被识别为视频的最近邻近者的超过预定数目的视频或预定百分比的视频包含不良内容。

在一些实施例中，多个视频的内容包括多个视频中的每个视频是否包括多种类型的不良内容以及多个视频中的每个视频是否与多个主题相关联。

根据所公开的主题的一些实施例，提供了一种用于识别包含不良内容的视频的系统，该系统包括硬件处理器，该硬件处理器被配置成：识别已被上传到视频共享服务的视频；使用神经网络来预测用于所上传的视频的嵌入，其中，嵌入指定所述视频在视频基于视频的内容所位于的多维空间中的位所；基于所预测的嵌入识别在多维空间中位于所上传的视频附近的多个视频；基于在多维空间中位于所述视频附近的多个视频的内容来确定所上传的视频是否可能包含不良内容；并且，响应于确定所上传的视频可能包含不良内容，使从视频共享服务阻止所上传的视频。

根据所公开的主题的一些实施例，提供了一种包含计算机可执行指令的非暂时性计算机可读介质，这些计算机可执行指令当由处理器执行时，使处理器执行一种用于识别包含不良内容的视频的方法，该方法包括：识别已被上传到视频共享服务的视频；使用神经网络来预测用于所上传的视频的嵌入，其中，嵌入指定所述视频在视频基于视频的内容所位于的多维空间中的位所；基于所预测的嵌入识别在多维空间中位于所上传的视频附近的多个视频；基于在多维空间中位于所述视频附近的多个视频的内容来确定所上传的视频是否可能包含不良内容；以及，响应于确定所上传的视频可能包含不良内容，使从视频共享服务阻止所上传的视频。

根据所公开的主题的一些实施例，提供了一种用于识别包含不良内容的视频的系统，该系统包括：用于识别已被上传到视频共享服务的视频的手段；用于使用神经网络来预测用于所上传的视频的嵌入的手段，其中，嵌入指定所述视频在视频基于视频的内容所位于的多维空间中的位所；用于基于所预测的嵌入识别在多维空间中位于所上传的视频附近的多个视频的手段；用于基于在多维空间中位于所述视频附近的多个视频的内容来确定所上传的视频是否可能包含不良内容的手段；以及，响应于确定所上传的视频可能包含不良内容，用于使从视频共享服务阻止所上传的视频的手段。

附图说明

当结合以下附图考虑时，参考对所公开主题的以下详细描述，可以更充分地理解所公开主题的各种目的、特征和优点，其中，相同的附图标记识别相同的元件。

图1示出根据所公开的主题的一些实施例的用于确定所上传的视频是否包含不良内容的过程的说明性示例。

图2示出根据所公开主题的一些实施例的用于为神经网络创建训练集的过程的说明性示例。

图3示出根据所公开主题的一些实施例的适用于实现本文所述的用于识别包含不良内容的视频的机制的说明性系统的示意图。

图4示出根据所公开的主题的一些实施例的可以在图3的服务器和/或用户设备中使用的硬件的详细示例。

具体实施方式

根据各种实施例，提供了用于识别包含不良内容的视频的机制(其能够包括方法、系统和介质)。

在一些实施例中，本文描述的机制能够用于预测视频(例如，上传到视频共享服务的视频和/或任何其他合适的视频)是否包括不良内容，诸如暴力、色情、不良语言、动物虐待和/或任何其他类型的不良内容。

在一些实施例中，机制能够通过基于特定视频的任何合适的特征(例如，视频的视频内容的特征、视频的音频内容的特征、与视频的元数据相关联的特征和/或任何其他合适的特征)确定特定视频的嵌入来预测该视频是否包括不良内容，其中嵌入指示特定视频在多维空间中的位置。在一些此类实施例中，基于视频中包括的内容，诸如视频是否包括特定类型的不良内容(例如，暴力、色情、不良语言等)、视频的主题和/或基于任何其他合适的内容来放置多维空间内的视频。

在一些实施例中，机制然后能够通过基于在多维空间内的特定视频的嵌入和其他视频的嵌入识别特定视频的N个最近邻近者来预测特定视频是否包括不良内容。例如，在一些实施例中，机制能够基于是否已知N个最近邻近者视频包括特定类型的不良内容(例如，如由人类验证者所确定的和/或以任何其他合适的方式获知的)来确定特定视频是否可能包括特定类型的不良内容。作为更特定示例，在一些实施例中，在机制确定多维空间中的超过预定百分比的N个最近邻近者视频包含暴力内容的情况下，机制能够确定特定视频可能包括暴力内容。

在一些实施例中，机制能够以任何合适的方式确定特定视频的嵌入。例如，在一些实施例中，机制能够使用已经使用其他视频作为已知包含特定类型的内容(例如，特定类型的不良内容、与特定主题有关和/或包括任何其他合适类型的内容)的样本来训练的神经网络(例如，深度卷积网络和/或任何其他合适类型的神经网络)来确定嵌入。在一些实施例中，能够使用任何合适格式的训练集来训练神经网络。例如，在一些实施例中，能够使用已被指派了标签的视频集来训练神经网络，这些标签指示视频集中的每个视频是否包括特定类型的内容(例如，视频是否包括暴力、视频是否包括色情等)，如在下面结合图1更详细地描述的。在一些此类实施例中，能够以任何合适的方式如人工地、在算法上、按照在算法上和人工地的组合和/或以任何其他合适的方式指派所指派的标签。作为另一示例，在一些实施例中，训练集中的每个训练样本能够包括视频样本的三元组，诸如锚-正-负三元组，其中正样本与锚样本相似而负样本与锚样本不相似，如在下面结合图2更详细地描述的。

也就是说，在一些实施例中，本文描述的机制能够训练网络以学习用于特定视频的欧几里德嵌入，使得多维嵌入空间中的平方L2距离直接对应于关于视频的内容的视频之间的相似度。特别地，在一些实施例中，包含相似类型的内容(例如，包含相同类型的不良内容、与相似主题有关和/或任何其他相似类型的内容)的视频彼此可能具有小距离，而包含不相似类型的内容的视频可能具有大距离。在一些实施例中，在已生成嵌入之后，机制能够使用多维嵌入空间中的k-最近邻近者识别来预测特定视频是否可能包含不良内容。

转向图1，根据所公开的主题的一些实施例示出了用于识别包含不良内容的视频的过程的示例100。在一些实施例中，过程100的各框能够由诸如嵌入生成服务器和/或识别服务器的任何合适的设备执行，如图3中所示并在下面结合图3所描述的。

过程100能够在102处通过接收所上传的视频而开始。在一些实施例中，过程100能够从任何合适的源接收视频。例如，在一些实施例中，嵌入生成服务器能够从与视频共享服务相关联的服务器接收所上传的视频，该视频共享服务接收由用户创建和/或由用户生成的视频。在一些实施例中，所上传的视频能够包括任何合适的内容(例如，视频内容、与视频内容相对应的音频内容、字幕和/或任何其他合适的内容)。在一些实施例中，所上传的视频能够与由上传视频的用户提供的任何合适的信息相关联，该任何合适的信息诸如视频的标题、视频的创建者的名字、视频被创建的日期、视频的主题和/或任何其他合适的信息。

在104处，过程100能够使用经训练的神经网络来生成用于视频的嵌入。在一些实施例中，神经网络可以是任何合适类型的神经网络，诸如深度卷积网络和/或任何其他合适类型的神经网络。在一些实施例中，嵌入能够指示任何合适的信息。例如，在一些实施例中，嵌入能够指示视频在多维空间内的位所或位置，该多维空间基于视频的内容对视频进行聚类。作为更特定示例，在一些实施例中，能够将包含相似类型的不良内容(例如，暴力、色情、不良语言等)的视频彼此聚类在一起。作为具体示例，能够将包含或可能包含暴力的视频一起聚类在多维空间内，并且能够将包含或可能包含不良语言的视频一起聚类在多维空间内。在一些此类实施例中，视频的嵌入能够指示视频在多维空间内的位置。

在一些实施例中，能够以任何合适的方式训练神经网络。例如，在一些实施例中，能够使用训练集来训练神经网络，该训练集包括先前已被验证(例如，由人类人工地验证和/或以任何其他合适的方式验证)为包含特定类型的内容的视频。作为更特定示例，在一些实施例中，能够使用各自与不良内容标签的第一矢量和主题标签的第二矢量相关联的视频的训练集来训练神经网络。在一些此类实施例中，每个矢量能够包括任何合适数目的元素，其中每个元素对应于特定类型的内容。例如，不良内容矢量中的元素能够对应于具体类型的不良内容(例如，暴力、色情、不良语言等)。继续此示例，能够使已知包含暴力和色情两者但是没有不良语言的视频与诸如[1,1,0]的不良内容矢量相关联。作为另一示例，在一些实施例中，主题标签矢量的元素能够对应于具体主题或内容，诸如音乐视频、新闻内容、拆箱视频等。继续此示例，能够使已知为音乐视频的视频与诸如[1,0,0]的主题标签矢量相关联。

注意，在一些实施方式中，能够以任何合适的方式识别或确定标签矢量中使用的标签。例如，在一些实施例中，能够基于对视频的视频内容的算法分析、人工分析(例如，由人工验证者进行)和/或以任何其他合适的方式确定特定视频的不良内容矢量。作为另一示例，在一些实施例中，能够基于算法分析(例如，对与视频相关联的元数据的算法分析、对与视频相关联的音频内容或视频内容的算法分析和/或基于任何其他合适的信息)、人工分析和/或以任何其他合适的方式确定特定视频的主题标签矢量。

在一些实施例中，能够识别视频的特征并将其用作神经网络的输入。例如，在一些实施例中，特征能够指示视频的视频内容的视觉特征、与视频相关联的音频内容的音频特征、与视频相关联的元数据(例如，指示视频的标题、视频的创建者、与视频相关联的频道、视频的观看次数、视频的主题、与视频相关联的关键词、视频的持续时间的元数据，和/或任何其他合适的元数据)和/或任何其他合适的特征。在一些实施例中，任何合适数目的特征能够作为神经网络的输入被用于特定视频。

在一些实施例中，能够使用任何合适的技术或技术的组合来训练神经网络。例如，在一些实施例中，能够使用锚-正-负三元组来训练神经网络，其中每个训练样本包括锚样本、与锚样本相似的正样本和与锚样本不相似的负样本。在图2中示出并在下面结合图2更详细地描述用于为神经网络生成训练集并训练神经网络的更详细技术。

在106处，过程100能够基于嵌入识别作为在多维空间中与所上传的视频最近的邻近者的视频。在一些实施例中，过程100能够以任何合适的方式识别视频。例如，在一些实施例中，过程100能够查询识别服务器(例如，如图3中所示并在下面结合图3所描述的)，该识别服务器存储视频的嵌入和关联指派的标签(例如，如上面结合框104所描述的)并且基于每个视频的嵌入返回被聚类在所上传的视频附近的N个视频。作为更特定示例，在一些实施例中，过程100能够使用应用于每个视频的嵌入的任何合适的聚类算法(例如，K-最近邻近者、k-均值、附聚聚类和/或任何其他合适的聚类算法)来识别N个最近邻近者。注意，在一些实施例中，过程100能够识别任何合适数目(例如，十、十五、二十和/或任何其他合适数目)的最近邻近者视频。

在108处，过程100能够确定所上传的视频是否可能包含不良内容。在一些实施例中，过程100能够基于任何合适的信息确定所上传的视频是否可能包含不良内容，任何合适的信息诸如被识别为与所上传的视频最近的邻近者并指派了与被识别为最近邻近者的视频中的每一个相对应的标签的视频。例如，在一些实施例中，过程100能够响应于基于指派给所识别的邻近视频中的每一个的标签确定被识别为最近邻近者的超过预定数目的视频或超过预定百分比的视频包含特定类型的不良内容而确定所上传的视频可能包含特定类型的不良内容。作为更特定示例，在超过预定百分比的视频(例如，超过50％、超过70％和/或任何其他合适的百分比)基于不良内容矢量(如上面结合框104所描述的)包含暴力的情况下，过程100能够确定所上传的视频也可能包含暴力。注意，在一些实施例中，过程100能够确定所上传的视频可能包含多种类型的不良内容。

注意，在一些实施例中，过程100能够确定与所上传的视频是否可能包含不良内容的确定相关联的置信水平。在一些实施例中，过程100能够基于任何合适的信息确定置信水平。例如，在一些实施例中，过程100能够基于包含特定类型的不良内容的邻近视频的百分比来确定所上传的视频包含特定类型的不良内容的置信水平。作为更特定示例，与70％的邻近视频包含特定类型的不良内容的情况相比，过程100能够在100％的邻近视频包含特定类型的不良内容的情况下指派相对较高的置信水平。作为另一示例，在一些实施例中，过程100能够基于所识别的邻近视频所属于的聚类中的视频的数目来确定置信水平。作为更特定示例，与将所识别的邻近视频指派给较小的聚类(例如，100个视频和/或任何其他合适的数目的聚类)的情况相比，过程100能够在所识别的邻近视频被指派给较大的聚类(例如，1000个视频和/或任何其他合适的数目的聚类)的情况下指派相对较高的置信水平。

如果在108处，过程100确定所上传的视频可能包含不良内容(在108处“是”)，则过程100能够进行到110并且能够将所上传的视频传送到人类验证者。在一些实施例中，能够以任何合适的方式传送所上传的视频。例如，在一些实施例中，过程100能够向与人类验证者相关联的用户账户传送指示所上传的视频(例如，包含到所上传的视频的链接、所上传的视频的识别符和/或任何其他合适的信息)的消息和/或在框108处识别的不良内容的指示。在一些实施例中，人类验证者然后能够确定所上传的视频是否确实包含不良内容。

注意，在一些实施例中，过程100能够确定所上传的视频是否将被传送到人类验证者以进行验证。例如，在一些实施例中，过程100能够基于与所上传的视频包含特定类型的不良内容的确定相关联的置信水平来确定所上传的视频是否将被传送到人类验证者。作为更特定示例，在一些实施例中，过程100能够响应于置信度水平低于预定阈值(例如，低于50％、低于70％和/或任何其他合适的阈值)的确定而确定所上传的视频将被传送到人类验证者。在一些实施例中，在过程100确定所上传的视频将未被传送到人类验证者的情况下，能够省略框110。

在112处，过程100能够阻止视频。在一些实施例中，过程100能够以任何合适的方式阻止视频。例如，在一些实施例中，过程100能够从视频被上传到的服务器中移除所上传的视频。作为另一示例，在一些实施例中，过程100能够响应于确定视频可能包含特定类型的不良内容而向与视频的上传相关联的用户账户传送指示视频已被阻止的消息。

注意，在所上传的视频被传送给人类验证者并且人类验证者确定了所上传的视频不包含不良内容的情况下，能够省略框112，并且过程100能够进行到框114并能够允许视频。

附加地，注意，在一些实施例中，过程100能够响应于确定所上传的视频可能包含不良内容而在112处执行任何其他合适的动作。例如，在一些实施例中，过程100能够对观看所上传的视频的观看者应用年龄限制。作为更特定示例，在一些实施例中，过程100能够指派任何合适的最小年龄(例如，18岁和/或任何其他合适的年龄)，并且可能要求请求呈现所上传的视频的用户设备的用户确认用户比最小年龄老。作为另一示例，在一些实施例中，过程100能够禁止广告连同所上传的视频一起被显示(例如，禁止在呈现所上传的视频之前显示前插播广告，禁止在所上传的视频内插入广告，和/或禁止任何其他合适类型的广告)。

返回框108，如果在108处，过程100确定所上传的视频不包含不良内容(在108处“否”)，则过程100能够进行到114并能够允许视频。在一些实施例中，过程100能够以任何合适的方式允许视频。例如，在一些实施例中，过程100能够允许将视频添加到视频共享服务，该视频共享服务允许用户下载和/或流传输视频。作为另一示例，在一些实施例中，过程100能够将视频包括在视频的任何合适的播放列表或合集中。

注意，在一些实施例中，能够应用上面结合过程100描述的技术来识别一组与已知包含特定类型的不良内容的视频相似的视频。例如，在已知第一视频包含特定类型的不良内容的情况下(例如，基于第一视频包含特定类型的不良内容的算法验证、基于第一视频包含该类型的不良内容的人工验证和/或基于任何其他合适的验证)，过程100能够识别与在多维空间内位于第一视频的嵌入的预定距离(例如，欧几里德距离和/或任何其他合适的距离度量)内的嵌入相关联的一个或多个视频。作为更特定示例，在一些实施例中，过程100能够为尚未被分析为包含不良内容的一组视频生成嵌入并且能够识别关联嵌入在第一视频的嵌入的预定距离内的视频。在一些此类实施例中，过程100能够确定经识别的视频可能包含与第一视频的类型相同类型的不良内容。在一些此类实施例中，过程100能够使可能包含与第一视频相同类型的不良内容的经识别的一个或多个视频的指示被传送到与人类验证者相关联的用户账户，如上面结合图1的框110所描述的。

转向图2，根据所公开的主题的一些实施例示出了用于为神经网络生成训练样本并且训练生成特定视频的嵌入的神经网络的过程的示例200。如上面结合图1的框104所描述的，在一些实施例中，由神经网络生成的嵌入能够指示特定视频在视频基于每个视频中包括的内容的类型而被聚类在其中的多维空间中的位所。

注意，在一些实施例中，神经网络能够具有任何合适的结构。例如，在一些实施例中，神经网络能够包括输入层。在一些实施例中，输入层可以是任何合适类型的输入层，诸如前馈输入层、卷积神经网络和递归神经网络。作为另一示例，在一些实施例中，神经网络能够包括具有任何合适数目的层且每层具有任何合适数目的神经元的深度卷积神经网络层。作为又一个示例，在一些实施例中，深度卷积神经网络层可以接着是L2归一化，其能够生成嵌入。

在一些实施例中，能够使用锚-正-负三元组示例来训练神经网络，其中训练集中的每个示例包括锚样本、与锚样本相似的正样本和与正样本不相似的负样本。在一些实施例中，每个样本可以是具有已知内容(例如，已知包括特定类型的不良内容和/或已知包括任何其他合适类型的内容)的视频。在一些实施例中，在训练期间，神经网络能够使三元组损失函数最小化。在下面描述用于在神经网络的训练期间选择锚-正-负三元组的详细技术以允许神经网络快速地收敛。

过程200能够在202处通过识别满足第一准则的一组潜在三元组而开始。在一些实施例中，该组潜在三元组中的每个三元组能够包括三个样本：锚样本、与锚样本相似的正样本和与锚样本不相似的负样本。注意，在一些实施例中，每个样本能够对应于已被上传到视频共享服务的视频和/或任何其他合适的视频。

在一些实施例中，能够基于第一准则识别该组潜在三元组中的每个三元组，该第一准则指示正样本是否与锚样本相似并且指示负样本是否与锚样本不相似。例如，在一些实施例中，第一准则能够基于如上面结合图1的框104所描述的不良内容标签矢量和/或主题标签矢量。作为更特定示例，在一些实施例中，第一准则可以是在不良内容标签矢量和/或主题标签矢量中为1并且对于与锚样本相对应的视频和与正样本相对应的视频指示存在相同类型的内容的公共元素的数目大于在不良内容标签矢量和/或主题标签矢量中对于与锚样本相对应的视频和与负样本相对应的视频来说为1的公共元素的数目。作为具体示例，在第一视频的不良内容矢量为[1,1,0]、第二视频的不良内容矢量为[1,1,0]并且第三视频的不良内容矢量为[1,0,0]的情况下，过程200能够确定第一视频和第二视频分别可以是锚样本和正样本，而第三视频可以是负样本，因为第一视频和第二视频都与对于前两个元素具有1的矢量相关联，然而第三视频与对于第一元素仅具有1的矢量相关联。也就是说，在一些实施例中，过程200能够确定第一视频和第二视频分别可以是锚样本和正样本，因为第一视频和第二视频与第一视频和第三视频相比共享更多为1的元素。

在一些实施例中，过程200能够以任何合适的方式选择满足第一准则的三元组。例如，在一些实施例中，过程200能够枚举任何合适的潜在三元组集(例如，样本的任何合适的逐三元组配对)，并且能够消除潜在三元组集中不满足第一准则的三元组。作为更特定示例，在一些实施例中，给定三个视频(例如，A、B和C)集，过程200能够枚举潜在三元组集，诸如：{锚＝A,正＝B,负＝C；锚＝B，正＝A,负＝C；等)，并且能够从潜在三元组集中消除不满足如上所述的第一准则的三元组。作为另一示例，在一些实施例中，过程200能够选择将与锚样本相对应的任何合适的视频并且能够基于第一准则针对每个锚样本选择将与正样本和/或负样本相对应的视频。

在204处，过程200能够针对该组潜在三元组中的每个三元组，基于第二准则选择新负样本。在一些实施例中，第二准则能够基于任何合适的信息，诸如由每个样本的嵌入所指示的多维空间中的三元组中的两个样本之间的距离之间的关系。注意，在一些实施例中，能够相对于第二准则使用以下定义，其中d是样本之间的欧几里德距离，并且其中α是神经网络的参数(注意，在下面结合框206更详细地在下面描述α的选择)：

硬：d(A,N)<d(A,P)

半硬：d(A,P)<d(A,N)<d(A,P)+α

容易：d(A,P)+α<d(A,N))

作为更特定示例，在一些实施例中，第二准则可以是当替换该组潜在三元组的三元组中的负样本时选择给出最难的半硬三元组的新负样本。在一些实施例中，在没有给出最难的半硬三元组的负样本的情况下，过程200能够选择给出最容易的硬三元组的负样本。

在一些实施例中，过程200能够遍历该组潜在三元组并且为每个三元组选择满足第二准则的新负样本以为神经网络构造训练集。

在206处，过程200能够使用在框204处生成的锚-正-负三元组来训练神经网络。注意，在一些实施例中，锚-正-负三元组可以是在输入层中输入到神经网络的一批训练样本。在一些实施例中，神经网络能够在每个层中具有任何合适数目的层和任何合适数目的人工神经元。注意，在一些实施例中，神经网络能够具有任何合适的参数，诸如α(如上面结合框204所描述的)、学习速率、退出参数和/或任何其他合适的参数。在一些实施例中，能够使用诸如超参数调谐的任何合适的技术来确定与神经网络相关联的任何合适的参数以及层数和每层中神经元的数目。

在一些实施例中，能够以任何合适的方式训练神经网络。例如，在一些实施例中，能够针对每个输入批次计算三元组损失，并且能够使用诸如具有反向传播和/或AdaGrad的随机梯度下降和/或任何其他合适的技术或技术的组合的任何合适的技术来更新神经网络的权重。能够计算并最小化的三元组损失函数的示例是：

其中A_i、P_i和N_i分别是锚样本、正样本和负样本，其中α是三元组损失余量。能够计算并最小化的三元组损失函数的另一示例是：

其中A_i、P_i和N_i分别是锚样本、正样本和负样本。注意，在一些实施例中，能够对损失函数应用任何合适的加权归一化。

在一些实施例中，在用如在框202和204处生成的输入批次计算三元组损失(如上所述)之后，过程200能够循环回到框202并生成三元组的新输入批次并且再次遍历神经网络。在一些此类实施例中，过程200能够循环直到满足任何合适的收敛准则为止。

如上面结合图1的框104所描述的，在一些实施例中，经训练的神经网络能够用于生成用于视频的嵌入，其中嵌入基于视频包括特定类型的内容如特定类型的不良内容的可能性来指定视频在多维空间中的位所。

转向图3，示出了能够根据所公开的主题的一些实施例使用的用于识别包含不良内容的视频的硬件的示例300。如图所示，硬件300能够包括嵌入生成服务器302、识别服务器304、通信网络306和/或一个或多个用户设备308，诸如用户设备310和312。

嵌入生成服务器302可以是用于生成特定视频的嵌入的任何合适的服务器。例如，如上面结合图1所描述的，在一些实施例中，嵌入生成服务器302能够使用已经使用其他视频来训练的神经网络来生成所识别的视频的嵌入。在一些实施例中，嵌入能够指示视频在多维空间中的位所，其中基于视频中包括的内容(例如，不同类型的不良内容、视频的主题和/或任何其他合适的视频内容)将视频聚类在多维空间内。

识别服务器304可以是用于确定特定视频是否可能包含不良内容的任何合适的服务器。例如，如以上结合图1所述，在一些实施例中，识别服务器304可以接收针对特定视频生成的嵌入的指示，并且可以基于每个视频在多维空间中的嵌入来识别在特定视频附近的视频。在一些这样的实施例中，识别服务器304然后可以基于特定视频在多维空间内的邻近者是否包含特定类型的不良内容确定特定视频是否有可能包含特定类型的不良内容(例如，暴力、色情、不良语言等)。

在一些实施例中，通信网络306可以是一个或多个有线和/或无线网络的任何合适的组合。例如，通信网络306能够包括以下中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备308能够通过一个或多个通信链路(例如，通信链路314)连接到通信网络306，该通信网络306能够经由一个或多个通信链路(例如，通信链路316)被链接到服务器302和/或304。通信链路可以是适合于在用户设备308、嵌入生成服务器302和/或识别服务器302当中传达数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备308可以包括适合于创建视频内容、将视频内容上传到视频共享服务、查看视频内容和/或执行任何其他合适功能的任何一个或多个用户设备。在一些实施例中，用户设备308可以包括任何合适类型的用户设备，诸如移动电话、可穿戴计算机、平板计算机、膝上型计算机、台式计算机、车辆信息或娱乐系统、游戏控制台、电视、媒体播放器、扬声器和/或任何其他合适类型的用户设备。

尽管将嵌入生成服务器302和标识服务器304均被图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行服务器302和304执行的功能。例如，在一些实施例中，可以使用多个设备来实现由嵌入生成服务器302执行的功能。在另一示例中，在一些实施例中，可以使用单个设备来实现由嵌入生成服务器302和标识服务器304执行的功能。

尽管在图3中示出了两个用户设备310和312以避免使图过于复杂，但是能够在一些实施例中使用任何合适数目的用户设备和/或任何合适类型的用户设备。

在一些实施例中，能够使用任何合适的硬件来实现服务器302和304和用户设备308。例如，在一些实施例中，能够使用任何合适的通用计算机或专用计算机来实现设备302、304和308。例如，可以使用专用计算机来实现移动电话。任何这种通用计算机或专用计算机能够包括任何合适的硬件。例如，如图4的示例硬件400中图示的，这种硬件能够包括硬件处理器402、存储器和/或储存器404、输入设备控制器406、输入设备408、显示/音频驱动器410、显示和音频输出电路412、通信接口414、天线416和总线418。

在一些实施例中，硬件处理器402能够包括任何合适的硬件处理器，诸如微处理器、微控制器、数字信号处理器、专用逻辑和/或用于控制通用计算机或专用计算机的功能的任何其它合适的电路。在一些实施例中，能够通过存储在诸如嵌入生成服务器302和/或标识服务器304的服务器的存储器和/或储存器中的服务器程序来控制硬件处理器402。例如，在一些实施例中，嵌入生成服务器302的服务器程序能够使硬件处理器402使用经训练的神经网络生成用于特定视频的嵌入，和/或执行任何其他合适的功能。作为另一示例，在一些实施例中，识别服务器304的服务器程序可以使硬件处理器402基于每个视频的嵌入来识别在多维空间中作为特定视频的邻近者的视频，基于识别出的邻近者的内容确定该视频是否有可能包含不良内容，并且/或者执行任何其他合适的功能。

在一些实施例中，存储器和/或储存器404可以是用于存储程序、数据和/或任何其它合适的信息的任何合适的存储器和/或储存器。例如，存储器和/或储存器404能够包括随机存取存储器、只读存储器、闪速存储器、硬盘存储装置、光学介质和/或任何其它合适的存储器。

在一些实施例中，输入设备控制器406可以是用于控制并接收来自一个或多个输入设备408的输入的任何合适的电路。例如，输入设备控制器406可以是用于接收来自触摸屏、来自键盘、来自一个或多个按钮、来自话音辨识电路、来自麦克风、来自相机、来自光学传感器、来自加速度计、来自温度传感器、来自近场传感器、来自压力传感器、来自编码器和/或任何其它类型的输入设备的输入的电路。

在一些实施例中，显示/音频驱动器410可以是用于控制并驱动到一个或多个显示/音频输出设备412的输出的任何合适的电路。例如，显示/音频驱动器410可以是用于驱动触摸屏、平板显示器、阴极射线管显示器、投影仪、一个或多个扬声器和/或任何其它合适的显示器和/或呈现设备的电路。

通信接口414可以是用于与一个或多个通信网络(例如，计算机网络306)对接的任何合适的电路。例如，接口414能够包括网络接口卡电路、无线通信电路和/或任何其它合适类型的通信网络电路。

在一些实施例中，天线416可以是用于以无线方式与通信网络(例如，通信网络306)进行通信的任何合适的一个或多个天线。在一些实施例中，能够省略天线416。

在一些实施例中，总线418可以是用于在两个或更多个组件402、404、406、410和414之间进行通信的任何合适的机制。

能够在根据一些实施例的硬件400中包括任何其它合适的组件。

在一些实施例中，能够以不限于连同各图示出并描述的次序和顺序的任何次序或顺序实行或执行图1和图2的过程的上述框中的至少一些。另外，能够在适当的情况下基本上同时地或并行地实行或执行图1和图2的上述框中的一些以减少时延和处理时间。附加地或替换地，能够省略图1和图2的过程的上述框中的一些。

在一些实施例中，任何合适的计算机可读介质能够被用于存储用于执行本文的功能和/或过程的指令。例如，在一些实施例中，计算机可读介质可以是暂时性的或非暂时性的。例如，非暂时性计算机可读介质能够包括诸如以下各项的介质：非暂时性形式的磁性介质(诸如硬盘、软盘和/或任何其它合适的磁性介质)、非暂时性形式的光学介质(诸如紧致盘、数字视频盘、蓝光盘和/或其它任何合适的光学介质)、非暂时性形式的半导体介质(诸如闪速存储器、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和/或任何其它合适的半导体介质)、在传输不是短暂或缺少任何永久表象的任何合适的介质和/或任何合适的有形介质。作为另一示例，暂时性计算机可读介质能够包括网络上、电线、导体、光纤、电路、在传输期间是短暂且缺少任何永久表象的任何合适的介质和/或任何合适的无形介质中的信号。

因此，提供用于识别包含不良内容的视频的方法、系统和媒体。

尽管已经在前面的说明性实施例中描述并图示了本发明，但是应理解，已经仅通过示例做出了本公开，并且在不脱离本发明的精神和范围的情况下，能够做出本发明的实现方式的细节方面的许多变化，本发明的精神和范围仅由以下权利要求限定。能够以各种方式组合并重新布置所公开的实施例的特征。

Claims

1.一种用于识别包含不良内容的视频的方法，所述方法包括：

使用硬件处理器来识别已被上传到视频共享服务的视频；

使用神经网络来预测用于所上传的视频的嵌入，其中，所述嵌入指定所述视频在多维空间中的位所，所述视频基于所述视频的内容而位于所述多维空间中；

基于所预测的嵌入，识别在所述多维空间中位于所上传的视频附近的多个视频；

基于在所述多维空间中位于所述视频附近的所述多个视频的内容来确定所上传的视频是否可能包括不良内容；以及

响应于确定所上传的视频可能包括不良内容，使得从所述视频共享服务阻止所上传的视频。

2.根据权利要求1所述的方法，进一步包括，在使得从所述视频共享服务阻止所上传的视频之前，将所上传的视频的指示传送到与验证者相关联的用户账户，其中，响应于从与所述验证者相关联的所述用户账户接收到所上传的视频包括所述不良内容的验证而阻止所上传的视频。

3.根据权利要求2所述的方法，其中，响应于确定所上传的视频可能包括所述不良内容的置信水平低于预定阈值，将所上传的视频的指示传送到与所述验证者相关联的所述用户账户。

4.根据权利要求2所述的方法，其中，响应于确定已知所述多个视频中的视频包括特定类型的不良内容，将所上传的视频的指示传送到与所述验证者相关联的所述用户账户。

5.根据前述权利要求中任一项所述的方法，其中识别位于所上传的视频附近的所述多个视频包括：向远程服务器传送查询，所述查询包括用于所上传的视频的所预测的嵌入。

6.根据前述权利要求中任一项所述的方法，其中确定所上传的视频是否可能包括不良内容包括：确定是否已知所述多个视频中的视频包括特定类型的不良内容。

7.根据前述权利要求中任一项所述的方法，其中，确定所上传的视频是否可能包括不良内容包括：确定在所述多维空间中被识别为视频的最近邻近者的超过预定数目的视频或预定百分比的视频包含不良内容。

8.根据前述权利要求中任一项所述的方法，其中所述多个视频的内容包括所述多个视频中的每个视频是否包括多种类型的不良内容以及所述多个视频中的每个视频是否与多个主题相关联。

9.一种用于识别包含不良内容的视频的系统，所述系统包括：

硬件处理器，所述硬件处理器被配置成执行根据所述前述权利要求中任一项所述的方法。

10.一种包含计算机可执行指令的非暂时性计算机可读介质，所述计算机可执行指令在由处理器执行时，将使所述处理器执行根据权利要求1至8中任一项所述的方法。