CN115701612A

CN115701612A - 用于检测主题发散数字视频的机器学习模型

Info

Publication number: CN115701612A
Application number: CN202210844205.2A
Authority: CN
Inventors: A·P·B·维塞赫; F·德恩昂克特
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2021-08-02
Filing date: 2022-07-18
Publication date: 2023-02-10
Also published as: US11822893B2; US20230046248A1; DE102022001733A1; AU2022203806A1

Abstract

本公开关于用于检测主题发散数字视频的机器学习模型。本公开涉及用于基于来自数字视频的词并且进一步基于表示目标主题的数字文本语料库来准确并且灵活地针对数字视频生成主题发散分类的系统、方法和非暂态计算机可读介质。特别地，所公开的系统利用主题特定知识编码器神经网络针对数字视频生成主题发散分类以指示数字视频是否与目标主题发散。在一些实施例中，所公开的系统同时地实时针对直播数字视频或所存储的数字视频(例如，数字视频教程)确定主题发散分类。例如，为了生成主题发散分类，所公开的系统利用主题特定知识编码器神经网络从数字视频生成上下文化特征向量并且将其与表示目标主题的数字文本语料库的语料库嵌入进行比较。

Description

用于检测主题发散数字视频的机器学习模型

背景技术

在数字视频分类的领域，常规的视频分析系统能够确定数字视频内所描绘的内容的各种分类。例如，一些常规的视频分析系统分析数字视频的视觉内容以基于视觉内容来确定数字视频的分类。其他常规的视频分析系统分析数字视频的话语内容以确定指示数字视频的主题的分类。然而，尽管取得了这些进步，很多常规的视频分析系统仍存在多个缺陷和缺点，特别是在它们的准确性、效率性和灵活性方面。

发明内容

本公开描述了利用机器学习方法解决了本领域的前述问题或其他问题中的一个或多个问题的系统、方法和非暂态计算机可读介质的一个或多个实施例，该机器学习方法用于基于来自数字视频的词并且进一步基于表示目标主题的数字文本语料库针对数字视频生成主题发散分类。特别地，在一个或多个实施例中，所公开的系统利用主题特定知识编码器神经网络针对数字视频生成主题发散分类，以指示数字视频是否与目标主题发散(例如，所选择的或经由客户端设备以其他方式指示的目标主题)。例如，所公开的系统将来自数字视频的词与主题特定数字文本语料库进行比较，以自动检测与数字文本语料库的目标主题无关的内容。在一些实施例中，所公开的系统同时地实时针对直播数字视频或所存储的数字视频(诸如，数字教程视频)确定主题发散分类。通过利用主题特定知识编码器神经网络，所公开的系统可以利用深度学习模型准确地标识离题、闲聊的数字视频，同时灵活并且有效地将领域特定知识结合到深度模型中。

此外，在一些实施例中，所公开的系统执行数据扩充以扩充或修改训练数据以训练或调节主题特定知识编码器神经网络。例如，所公开的系统生成合成数字视频抄本和/或混合数字视频抄本以用作训练数据以用于学习主题特定知识编码器神经网络的参数。在一些情况下，所公开的系统利用生成语言模型生成与已经被标识为主题发散的数字视频的抄本相似的合成抄本。在这些或其他情况下，所公开的系统利用混合技术，通过用来自主题符合视频的抄本的句子替换主题发散视频的抄本内的句子来生成混合抄本。通过利用合成抄本和/或混合抄本作为训练数据集的一部分，所公开的系统有效地学习主题特定知识编码器神经网络的鲁棒参数，从而产生对主题发散分类的准确预测。

本公开的一个或多个实施例的附加特征和优点在以下的描述中被概述，并且部分地根据描述将是很显而易见的，或者可以通过这样的示例实施例的实践来获知。

附图说明

本公开通过参考附图以附加的详情和细节描述了本发明的一个或多个实施例。以下段落简要描述了这些附图，在附图中：

图1示出了根据一个或多个实施例的发散视频分类系统在其中操作的示例系统环境；

图2示出了根据一个或多个实施例的生成主题发散分类的概述；

图3示出了根据一个或多个实施例的用于生成上下文化特征向量的示例流程；

图4示出了根据一个或多个实施例的用于生成语料库嵌入的示例流程；

图5示出了根据一个或多个实施例的用于生成主题发散分类的动作的示例序列；

图6示出了根据一个或多个实施例的主题特定知识编码器神经网络的示例架构；

图7示出了根据一个或多个实施例的利用合成抄本和/或混合抄本来学习主题特定知识编码器神经网络的参数的示例过程；

图8示出了根据一个或多个实施例的生成合成抄本；

图9A-图9B示出了根据一个或多个实施例的预训练主题特定知识编码器神经网络并且利用主题特定知识编码器神经网络来标识合成抄本；

图10示出了根据一个或多个实施例的生成混合抄本；

图11示出了根据一个或多个实施例的用于学习主题特定知识编码器神经网络的参数的训练过程；

图12示出了根据一个或多个实施例的示例数字视频搜索界面；

图13示出了根据一个或多个实施例的发散视频分类系统的示意图；

图14示出了根据一个或多个实施例的用于基于来自数字视频的词并且进一步基于表示目标主题的数字文本语料库针对数字视频生成主题发散分类的神经网络方法的一系列动作的流程图；

图15示出了根据一个或多个实施例的用于学习主题特定知识编码器神经网络的参数的一系列动作的流程图；以及

图16示出了根据一个或多个实施例的示例计算设备的框图。

具体实施方式

本公开描述了发散视频分类系统的一个或多个实施例，该发散视频分类系统利用主题特定知识编码器神经网络针对数字视频准确地生成主题发散分类。特别地，在一些实施例中，发散视频分类系统通过确定数字视频的词与表示目标主题的数字文本语料库的词之间的关系来生成主题发散分类。在一些情况下，发散视频分类系统从搜索查询(或者，从与特定主题相关的数字视频的选择或从来自潜在目标主题的菜单的主题选择)接收指示目标主题的客户端设备交互。在一些实施例中，发散视频分类系统另外生成、收集或标识定义或表示目标主题的数字文本语料库(例如，关于指示的目标主题的数字视频教程、来自工具地名词典的与目标主题相关的工具名称、和/或来自与目标主题相关的本体的关键字)。在这些或其他实施例中，发散视频分类系统还生成主题特定特征向量，该主题特定特征向量表示在数字视频(例如，作为搜索结果的一部分出现的数字视频)中使用的个体词如何与数字文本语料库的目标主题相关。从主题特定特征向量，在一些情况下，发散视频分类系统进一步利用主题特定知识编码器神经网络来生成主题发散分类。

如刚刚提到的，在一个或多个实施例中，发散视频分类系统针对数字视频生成主题发散分类。例如，主题发散分类指示数字视频与目标主题发散还是符合目标主题。在一些情况下，发散视频分类系统生成两种可能的主题发散分类中的一种主题发散分类：主题发散或主题符合。在一些实施例中，为了针对数字视频生成主题发散分类，发散视频分类系统分析数字视频的词(例如，作为搜索结果的一部分出现的数字视频)以及与目标主题相关联的数字文本语料库的词。在一些情况下，发散视频分类系统针对数字视频的每个词生成主题特定特征向量，并且按照由数字视频的词序列定义的序列对主题特定特征向量进行排序。在一些实施例中，主题特定特征向量表示来自数字视频的相应词与数字文本语料库的目标主题之间的关系。实际上，数字文本语料库有时包括：经由客户端设备交互指示的目标主题的教程的集合(例如，用于数字图像编辑或使用特定图像编辑工具的教程)、以及指示与数字内容编辑应用相关联的各种(特定主题)工具名称的工具地名词典、和/或来自主题本体的关键字(例如，与由数字内容管理系统维护的特定目标主题相关联的关键字的集合)。

在某些实施例中，发散视频分类系统生成主题特定特征向量作为视频相关组件和语料库相关组件的组合(例如，包括来自数字视频和数字文本语料库两者的特征)。例如，发散视频分类系统从数字视频的词生成上下文化特征向量，其中上下文化特征向量表示词在数字视频中出现的上下文中的词义。在一些情况下，发散视频分类系统还从数字文本语料库的词生成或提取语料库嵌入，其中语料库嵌入表示数字文本语料库内的词的含义(例如，基于针对数字文本语料库的词提取的n元语法)。

在某些实施例中，发散视频分类系统进一步比较上下文化特征向量和语料库嵌入，以建立或确定数字视频的词如何与数字文本语料库的目标主题相关。基于该比较，在一些情况下，发散视频分类系统针对数字视频的每个词选择语料库嵌入的子集作为主题特定嵌入，主题特定嵌入表示相应词与目标主题之间的关系。在某些实现中，发散视频分类系统进一步通过利用主题特定知识编码器神经网络的长短期记忆(“LSTM”)层从主题特定嵌入生成主题特定特征向量。因此，在一些实施例中，主题特定特征向量表示数字视频的词的上下文化主题相关知识，以说明词在数字视频中出现的顺序。

在一个或多个实现中，发散视频分类系统利用主题特定特征向量针对数字视频生成主题发散分类。例如，发散视频分类系统组合(例如，级联)上下文化特征向量(对于数字视频的词)与主题特定特征向量。此外，在一些实施例中，发散视频分类系统利用主题特定知识编码器神经网络的前馈层从级联向量生成词特征向量。在一些情况下，词特征向量表示视频相关特征以及数字视频中每个词的主题相关特征的完整集合。

在一些实施例中，发散视频分类系统还从每个词的词特征向量生成主题发散分类。例如，发散视频分类系统将最大池化层应用于词特征向量，并且利用主题特定知识编码器神经网络的前馈层从池化词特征向量生成主题发散分类。在一些情况下，发散视频分类系统以跨与数字视频的词相对应的词特征向量的概率分布的形式生成主题发散分类。

如上所述，在一个或多个实施例中，发散视频分类系统生成经定制或经修改的数据集(与常规的系统使用的数据集不同)，用于训练或调节主题特定知识编码器神经网络。例如，发散视频分类系统生成合成数字视频脚本和/或混合数字视频脚本以包括在训练数据集内。在某些实现中，发散视频分类系统利用经增强或经修改的训练数据集内的合成抄本和/或混合抄本。实际上，在一些情况下，发散视频分类系统从经增强或经修改的训练数据集学习主题特定知识编码器神经网络的参数。

在一些实施例中，发散视频分类系统通过利用在数字视频的原始数据集(例如，主题发散数字视频和主题符合数字视频)上预训练的生成语言模型来生成合成抄本。实际上，在一些情况下，发散视频分类系统训练或调节生成语言模型以生成与已知主题发散数字视频相似或类似的合成抄本。例如，发散视频分类系统通过利用生成语言模型来预测属于数字视频内(或者，合成抄本内)的特定时间步长的词来生成合成抄本。

在一个或多个实施例中，发散视频分类系统还(或者，备选地)生成混合抄本。例如，发散视频分类系统通过将主题发散脚本的句子与来自主题符合脚本的句子组合来生成混合脚本。在一些情况下，发散视频分类系统用来自主题符合脚本的句子替换主题发散脚本内的一定百分比的句子(反之亦然)。利用混合抄本和/或合成抄本，发散视频分类系统经由训练或调节过程学习主题特定知识编码器神经网络的参数。

如上所述，常规的视频分析系统表现出很多缺点或不足。例如，很多常规的视频分析系统不准确并且低效地针对数字视频生成分类。事实上，常规的系统的准确性受到用于训练神经网络或其他机器学习模型的可用数据的限制。不幸的是，现有数据集不是很鲁棒，几乎不包括有关主题相关性的信息(例如，数字视频是主题发散还是主题符合)。由于使用较差的可用数据(或者，低效地收集数据)训练模型，现有系统以高度不准确和低置信度对数字视频进行分类。

很多现有数字视频分析系统也缺乏灵活性，这导致它们在对数字视频进行分类时不准确。详细地，很多常规的系统严格固定在现有数据集上以训练用于对数字视频进行分类的模型。此外，现有系统利用通常仅限于只基于视频数据来生成分类的模型，而没有考虑可能为分类提供信息的其他相关数据。实际上，很多现有系统不生成或利用定义或表示目标主题的数字文本语料库作为生成主题发散分类的基线。

与常规的视频分析系统相比，发散视频分类系统可以提供多种改进或优势。例如，与常规的系统相比，发散视频分类系统的一个或多个实施例提高了效率性和准确性。详细地，与常规的系统相比，发散视频分类系统可以数字视频更准确地为生成主题发散分类。具体地，通过生成和利用更鲁棒的经定制的训练数据，包括合成抄本和/或混合抄本，发散视频分类系统有效地学习生成更准确的主题发散分类的主题特定知识编码器神经网络的参数。进一步有助于提高发散视频分类系统的准确性，主题特定知识编码器神经网络具有独特的架构，这有助于针对数字视频生成高度准确的主题发散分类。

作为相对于常规的系统的进一步优势，发散视频分类系统的实施例灵活地结合现有系统忽略或无法利用的主题相关信息。详细地，与仅基于视频信息针对数字视频生成分类的一些常规的系统不同，发散视频分类系统的实施例利用定义或表示目标主题的数字文本语料库来指导主题发散分类。例如，发散视频分类系统利用数字文本语料库作为基线，用于与数字视频进行比较以确定数字视频与数字文本语料库的目标主题的相关性。

此外，发散视频分类系统能够执行现有系统中没有的某些功能。例如，现有系统通常对数字视频进行分类以指示视频内所描绘的视觉内容的类型(例如，标签)和/或视频中所表达的话语内容的类型(例如，标签)。相比之下，发散视频分类系统的实施例生成主题发散分类，该主题发散分类指示数字视频相对于目标主题的相关性，这是在现有系统中没有的功能。实际上，如上所述，发散视频分类系统利用主题特定知识编码器神经网络来生成主题发散分类。

现在将参考附图来提供关于发散视频分类系统的附加细节。例如，图1示出了根据一个或多个实施例的用于实现发散视频分类系统102的示例系统环境的示意图。关于图1描述了发散视频分类系统102的概述。其后，将结合随后的附图来提供发散视频分类系统102的组件和过程的更详细的描述。

如图所示，环境包括(多个)服务器104、客户端设备108、数据库112和网络114。环境的组件中的每一个经由网络114通信，并且网络114是计算设备可以经由其通信的任何合适的网络。下面结合图16更详细地讨论示例网络。

如上所述，环境包括客户端设备108。客户端设备108是多种计算设备中的一种，包括智能手机、平板电脑、智能电视、台式计算机、膝上型计算机、虚拟现实设备、增强现实设备、或者如关于图16描述的另一计算设备。尽管图1示出了客户端设备108的单个实例，但是在一些实施例中，环境包括多个不同的客户端设备，每个客户端设备与不同的用户(例如，数字内容请求者或搜索者)相关联。客户端设备108经由网络114与(多个)服务器104通信。例如，客户端设备108向(多个)服务器104提供指示客户端设备交互的信息(例如，目标主题的指示、包括查询词的数字视频搜索、和/或其他输入)并且从(多个)服务器104接收信息，诸如主题发散分类和数字视频搜索结果，包括主题发散和主题符合数字视频的指示。因此，在一些情况下，(多个)服务器104上的发散视频分类系统102经由客户端设备108基于客户端设备交互提供和接收信息。

如图1中所示，客户端设备108包括客户端应用110。具体地，客户端应用110是网络应用程序、安装在客户端设备108上的本地应用程序(例如，移动应用、桌面应用等)、或者全部或部分功能由(多个)服务器104执行的基于云的应用。基于来自客户端应用110的指令，客户端设备108向用户呈现或显示信息，包括数字视频和/或主题发散分类(例如，在数字视频搜索界面内)。

如图1中所示，环境包括(多个)服务器104。(多个)服务器104生成、跟踪、存储、处理、接收和传输电子数据，诸如客户端设备交互的指示、数字视频、主题发散分类、主题特定知识编码器神经网络的全部或一部分、和/或训练数据(例如，包括合成抄本和/或混合抄本)。例如，(多个)服务器104以客户端设备交互的指示的形式从客户端设备108接收数据，以搜索与特定目标主题有关的数字视频。作为响应，(多个)服务器104将数据传输到客户端设备108以使客户端设备108显示或呈现搜索结果，该搜索结果包括数字视频的集合以及数字视频的相应主题发散分类的指示。

在一些实施例中，(多个)服务器104与客户端设备108通信以经由网络114传输和/或接收数据。在一些实施例中，(多个)服务器104包括分布式服务器，其中(多个)服务器104包括分布在网络114上并且位于不同物理位置的多个服务器设备。(多个)服务器104可以包括内容服务器、应用服务器、通信服务器、网络托管服务器、多维服务器或机器学习服务器。(多个)服务器104可以进一步访问和利用数据库112来存储和检索信息，诸如数字视频、数字文本语料库和主题特定知识编码器神经网络。

如图1中进一步所示，(多个)服务器104还包括作为数字内容管理系统106的一部分的发散视频分类系统102。例如，在一个或多个实现中，数字内容管理系统106可以存储、生成、修改、编辑、增强、提供、分发和/或共享数字内容，诸如数字视频和主题发散分类的指示。例如，数字内容管理系统106为客户端设备108提供工具以经由客户端应用110指示目标主题和/或经由数字视频搜索界面提供搜索查询。在一些实现中，数字内容管理系统106作为响应提供数字视频的集合，包括主题发散分类的指示。

在一个或多个实施例中，(多个)服务器104包括发散视频分类系统102的全部或一部分。例如，发散视频分类系统102在(多个)服务器上操作以基于来自数字视频的词和来自数字文本语料库的词针对数字视频生成主题发散分类(例如，经由主题特定知识编码器神经网络)。

在一些情况下，客户端设备108包括发散视频分类系统102的全部或部分。例如，客户端设备108可以生成、获取(例如，下载)或利用发散视频分类系统102的一个或多个方面，诸如来自(多个)服务器104的主题特定知识编码器神经网络。实际上，在一些实现中，如图1中所示，发散视频分类系统102位于客户端设备108的全部或部分中。例如，发散视频分类系统102包括允许客户端设备108与(多个)服务器104交互的网络托管应用。为了说明，在一个或多个实现中，客户端设备108访问由(多个)服务器104支持和/或托管的网页。

尽管图1示出了环境的特定布置，但是在一些实施例中，环境具有不同布置的组件和/或可以具有完全不同数目或不同集合的组件。例如，如上所述，发散视频分类系统102由客户端设备108实现(例如，完全或部分位于客户端设备108上)。此外，在一个或多个实施例中，客户端设备108直接与发散视频分类系统102通信，而绕过网络114。此外，在一些实施例中，环境包括由(多个)服务器104、客户端设备108或第三方设备维护的数据库112中所存储的主题特定知识编码器神经网络。

如上所述，在一个或多个实施例中，发散视频分类系统102针对数字视频生成主题发散分类以指示数字视频是否与目标主题分散(或者，符合目标主题)。特别地，发散视频分类系统102利用包括多个组成神经网络组件或层的主题特定知识编码器神经网络来基于数字视频与表示目标主题的数字文本语料库的比较来生成主题发散分类。图2示出了根据一个或多个实施例的发散视频分类系统102执行以生成主题发散分类的动作的示例序列。图2的描述提供了生成主题发散分类的概述，并且后续附图的描述提供了关于图2的各种动作的附加细节。

如图2中所示，发散视频分类系统102执行动作202以从数字视频提取词嵌入。为了提取词嵌入，发散视频分类系统102首先标识、检测或确定在数字视频内使用的词。例如，发散视频分类系统102访问来自数字视频的话语内容的(预生成的)抄本，该抄本包括按其使用顺序使用的词。在一些实施例中，发散视频分类系统102通过利用识别语音并且将语音转录成文本的自动抄本模型针对数字视频生成抄本。

在一个或多个实施例中，从抄本中，发散视频分类系统102检测、标识或确定在数字视频内使用的词。例如，发散视频分类系统102从数字视频抄本中确定词，如由图2中的[w]表示的。此外，发散视频分类系统102从词[w]提取词嵌入。例如，发散视频分类系统102利用词嵌入模型针对数字视频中所使用的每个词提取词嵌入(由[x]表示)。例如，词嵌入可以包括(低维)潜在向量，该向量反映了词的特征(例如，经由词的分布语义获得的)。在一些情况下，发散视频分类系统102利用特定词嵌入模型来提取词嵌入，诸如GloVe或word2vec。

如图2进一步所示，发散视频分类系统102还执行动作204以生成上下文化特征向量。更具体地，发散视频分类系统102根据从数字视频提取的词嵌入生成上下文化特征向量。例如，如上面所建议的，上下文化特征向量可以包括(潜在)向量，该向量表示词在与数字视频内的其他伴随词相关(例如，在序列内)出现的上下文中的词的含义。在一个或多个实施例中，为了针对词嵌入中的每一个(并且因此针对数字视频的词中的每一个)生成上下文化特征向量，发散视频分类系统102利用LSTM层(例如，主题特定知识编码器神经网络内的)从词嵌入[x]确定每个时间步长的隐藏状态。如图2中所示，上下文化特征向量由[h]表示。

如图2中进一步所示，发散视频分类系统102执行动作206以确定来自数字文本语料库的词。特别地，发散视频分类系统102确定定义或表示目标主题的数字文本语料库中的词。例如，发散视频分类系统102确定来自各种教程(例如，基于文本的教程或具有已知与给定目标主题相关的脚本的其他教程)的词、特定数字内容编辑应用的工具地名词典中与目标主题相关的工具名称、以及来自主题本体(例如，由数字内容管理系统106维护的包括与目标主题相关的关键字的词汇本体)的关键字，以包括在数字文本语料库内。在一些情况下，发散视频分类系统102仅包括数字文本语料库内的上述内容的子集，或者包括已知与目标主题相关的附加或备选文本内容。如上所述，目标主题通常是指被指定为搜索查询的目的或目标的数字内容主题或数字内容域(例如，显示与目标主题有关的数字视频)。

在一些情况下，发散视频分类系统102基于客户端设备交互(例如，来自客户端设备108)来生成数字文本语料库。例如，发散视频分类系统102从客户端设备108接收特定目标主题的指示，并且发散视频分类系统102确定与目标主题相关的内容以包括在数字文本语料库内。在一些实施例中，发散视频分类系统102存储和维护与不同目标主题相对应的多个数字文本语料库。因此，基于从客户端设备108接收到用于搜索与目标主题相关的数字视频的搜索查询，发散视频分类系统102访问对应的数字文本语料库以用作参考，以用于针对与目标主题相关的数字视频生成主题发散分类。

如图2中进一步所示，发散视频分类系统102执行动作208以从数字文本语料库的词提取语料库嵌入。更具体地，发散视频分类系统102提取表示数字文本语料库的词的词含义的语料库嵌入。在一些实施例中，发散视频分类系统102通过针对数字文本语料库的词确定或生成n元语法来提取语料库嵌入。此外，发散视频分类系统102从n元语法提取语料库嵌入(由图2中的[e]表示)。在一些情况下，发散视频分类系统102经由最大池化提取语料库嵌入。

也如图2中所示，发散视频分类系统102执行动作210以生成主题特定嵌入。详细地，一旦发散视频分类系统102从给定数字视频(例如，经由动作204生成的)生成上下文化特征向量[h]并且从数字文本语料库(例如，经由动作208提取的)生成语料库嵌入[e]，发散视频分类系统102进一步生成表示数字视频的词与数字文本语料库的词之间的关系的主题特定嵌入。实际上，主题特定嵌入通常包括(潜在)特征，该特征表示目标主题与数字视频中的词之间的相关性。

为了生成主题特定嵌入，发散视频分类系统102比较上下文化特征向量[h]和语料库嵌入[e]。例如，对于[h]内的给定上下文化特征向量，发散视频分类系统102针对[e]内的语料库嵌入中的每一个确定相似性得分。在一些情况下，发散视频分类系统102进一步将相似性得分与相似性阈值进行比较。此外，发散视频分类系统102选择满足相似性阈值的语料库嵌入的子集作为给定上下文化特征向量(对应于数字视频中的特定词)的主题特定嵌入。如图所示，发散视频分类系统102选择e₁和e₂，但是拒绝或排除相似性得分不满足相似性阈值的e₃。发散视频分类系统102进一步重复比较以针对[h]内的每个上下文化特征向量选择主题特定嵌入。

因此，发散视频分类系统102针对[h]内的每个相应上下文化特征向量生成多个主题特定嵌入。在一些情况下，例如，如果没有语料库嵌入[e]具有与上下文化特征向量相关的相似性得分满足相似性阈值，则发散视频分类系统102不针对特定上下文化特征向量选择任何语料库嵌入[e]。在其他情况下，发散视频分类系统102不使用相似性阈值，而是相对于每个相应上下文化特征向量[h]对语料库嵌入[e]进行排名，并且选择特定于每个上下文化特征向量[h]的特定数目(例如，1、2或5)的排名靠前的语料库嵌入[e]。

如图2中进一步所示，发散视频分类系统102执行动作212以生成主题特定特征向量。更具体地，发散视频分类系统102生成主题特定特征向量，该主题特定特征向量包括表示来自数字视频的词与来自数字文本语料库的词之间的关系或相关性的(潜在)特征，还结合了表示文字出现在数字视频中的顺序或序列的信息。在一些实施例中，发散视频分类系统102通过利用LSTM层作为主题特定知识编码器神经网络的一部分来生成主题特定特征向量[k]。例如，发散视频分类系统102利用LSTM层处理或分析从语料库嵌入[e]中选择的主题特定嵌入，以在LSTM的每个时间步长从隐藏状态生成主题特定特征向量[k]。

另外，如图2中所示，发散视频分类系统102执行动作214以生成主题发散分类。特别地，发散视频分类系统102针对数字视频生成主题发散分类，最初经由动作202从该主题发散分类中确定词。为了生成主题发散分类，发散视频分类系统102利用主题特定知识编码器神经网络从主题特定特征向量[k]生成数字视频是主题发散(或者，主题符合)的概率。在一些实现中，发散视频分类系统102将该概率与分类阈值进行比较，并且如果概率满足分类阈值则将数字视频分类为主题发散(或者，如果概率不满足阈值，则将其分类为主题符合)。在其他实现中，发散视频分类系统102生成概率并且根据概率指示(例如，经由显示的通知)主题发散的数字视频的比例或百分比(以及，主题一致的互补比例或百分比)。发散视频分类系统102进一步针对任何数目的数字视频和/或任何数字文本语料库重复图2的动作以针对与给定数字文本语料库相关的数字视频生成主题发散分类。

在一些实施例中，神经网络是指机器学习模型，该机器学习模型可以基于输入来训练和/或调节以确定分类或近似未知函数。例如，神经网络包括互连的人工神经元模型(例如，分层组织的)，该神经元通信和学习逼近复杂函数并且基于提供给神经网络的多个输入来生成输出(例如，生成的数字图像)。在一些情况下，神经网络是指一种算法(或者，算法的集合)，该算法实现了深度学习技术以对数据中的高级抽象进行建模。例如，神经网络可以包括卷积神经网络、循环神经网络(例如，LSTM)、图神经网络或生成对抗神经网络。沿着这些思路，主题特定知识编码器神经网络有时是指特定类型的神经网络，它基于主题特定特征向量和/或词特征向量针对数字视频生成主题发散分类。在一些情况下，主题特定知识编码器神经网络具有特定架构，并且包括一个或多个LSTM层和一个或多个前馈层，如下面参考后续附图更详细描述的。

虽然图2主要描述了利用不同神经网络的各种动作，但是在一些实施例中，发散视频分类系统102利用不同的机器学习模型而不是神经网络。例如，发散视频分类系统102不是利用主题特定知识编码器神经网络，而是利用具有不同架构的主题特定知识编码器机器学习模型来生成主题发散分类。在一些情况下，主题特定知识编码器机器学习模型是一个或多个决策树、支持向量机、贝叶斯网络、随机森林模型或某种其他机器学习模型的集合。类似地，基本调用者重新校准系统106可以利用不同的机器学习模型架构来生成上下文化向量、主题特定特征向量和/或本文中所描述的其他向量。

如上所述，在某些实施例中，发散视频分类系统102从数字视频的词生成上下文化向量。特别地，发散视频分类系统102利用主题特定知识编码器神经网络的LSTM层从数字视频内使用的词的词嵌入生成上下文化特征向量。图3示出了根据一个或多个实施例的用于生成上下文化特征向量的示例流程。

如图3中所示，发散视频分类系统102标识或选择数字视频302。例如，发散视频分类系统102选择数字视频302以用于与目标主题进行比较以生成主题发散分类。在一些实施例中，发散视频分类系统102从客户端设备108接收数字视频302(例如，作为来自网站的上传或选择)。在其他实施例中，发散视频分类系统102从存储在数据库112内并且由数字内容管理系统106维护的数字视频的存储库访问数字视频。

如图3中进一步所示，发散视频分类系统102生成或获取数字视频302的数字视频抄本304。为了详细说明，在一些实施例中，发散视频分类系统102利用语音到文本模型(例如，来自现有应用程序编程接口)(诸如，S2T)生成数字视频抄本304。在其他实施例中，发散视频分类系统102访问或检索数字视频抄本304作为来自数据库112的并且由数字内容管理系统106维护为与数字视频302相对应的抄本。如图3中所示，数字视频抄本304包括文本“HiTom,how are you？ How is your family？”

也如图3中所示，发散视频分类系统102从数字视频抄本304确定数字视频词306。具体地，发散视频分类系统102分析数字视频抄本304以确定个体词w₁、w₂、……、w_n。实际上，发散视频分类系统102在数字视频抄本304内生成词的向量或数组，如由D＝[w₁，w₂，...，w_n]表示的。例如，对于数字视频抄本304的每个词，词“Hi”由w₁表示，词“Tom”由w₂表示，等等。

另外，如图3中所示，发散视频分类系统102利用词嵌入模型308来生成词嵌入310。更具体地，发散视频分类系统102从数字视频词306生成词嵌入310。例如，发散视频分类系统102利用词嵌入模型308(例如，GloVe嵌入表、word2vec模型或某种其他的词嵌入模型)来生成词嵌入310，如由X＝[x₁，x₂，...，x_n]表示的。词嵌入310中的每一个对应于来自数字视频词306的相应词(例如，w₁对应于x₁，等等)。

如图3中进一步所示，发散视频分类系统102利用LSTM 312来生成上下文化特征向量314。具体地，发散视频分类系统102从词嵌入310生成上下文化特征向量314，其中每个词嵌入(并且因此来自数字视频302的每个词)对应于相应上下文化特征向量。发散视频分类系统102利用LSTM 312处理或分析词嵌入310，并且确定LSTM 312的每个时间步长的隐藏状态以用作上下文化特征向量314。如图所示，上下文化特征向量314由H＝[h₁，h₂，...，h_n]表示。发散视频分类系统102进一步利用上下文化特征向量314来与来自数字文本语料库的语料库嵌入进行比较，如下文进一步详细描述的。

如上所述，在某些描述的实施例中，发散视频分类系统102从数字文本语料库生成语料库嵌入。特别地，发散视频分类系统102生成语料库嵌入以与上下文化特征向量314进行比较以最终生成数字视频302的主题发散分类。图4示出了根据一个或多个实施例的用于生成语料库嵌入的示例流程。

如图4中所示，发散视频分类系统102标识或生成数字文本语料库402。更具体地，发散视频分类系统102标识或访问由数字内容管理系统106维护并且存储在数据库112内的数字文本语料库402。在一些情况下，发散视频分类系统102(或者，数字内容管理系统106)为不同的目标主题指定或指派个体数字文本语料库，其中每个数字文本语料库包括对应于相应目标主题的文本内容。例如，数字文本语料库402包括来自不同主题相关教程的文本、用于特定数字内容编辑应用的工具地名词典、和/或来自与目标主题(或者，特定数字内容编辑应用)相关的词汇的主题相关本体的文本。在一些实施例中，发散视频分类系统102通过聚集、收集或组合来自教程、工具地名词典和主题本体的文本内容来生成数字文本语料库402。

如图4中进一步所示，发散视频分类系统102从数字文本语料库提取或标识词404。具体地，发散视频分类系统102从教程文本、来自工具地名词典的个体工具名称(例如，磁性套索、铅笔、橡皮擦或某种其他工具)、以及来自主题本体的关键字提取个体词。例如，发散视频分类系统102通过从本体中确定与特定目标主题相关的词来从主题本体中确定关键词。在一些情况下，发散视频分类系统102将来自教程文本的词、工具名称和/或来自主题本体的关键字组合成单个文本文档。

此外，如图4中所示，发散视频分类系统102针对数字文本语料库406提取或确定n元语法。具体地，发散视频分类系统102通过将词分组在不同大小的组或集合中来确定n元语法。例如，发散视频分类系统102通过在之前出现的给定项目(例如，词)的序列中预测即将出现的项目(例如，词)的概率来确定来自数字文本语料库404的所有词的1元语法、2元语法和3元语法。在一些情况下，1元语法是个体词，2元语法是两个连续词的集合，3元语法是三个连续词的集合。

如图4中进一步所示，发散视频分类系统102从数字文本语料库404提取词的语料库嵌入408。更具体地，发散视频分类系统102从数字文本语料库406的n元语法提取语料库嵌入408。在一些实施例中，发散视频分类系统102用它们对应的词嵌入E＝[e₁，e₂，...，e_n]表示所提取的n元语法。实际上，发散视频分类系统102为所有0<＝j<＝|{1元语法}|+|{2元语法}|+|{3元语法}|提取语料库嵌入408。为了生成语料库嵌入408，在一些实施例中，发散视频分类系统102确定n元语法的最大池(例如，n元语法中的每一个中的词嵌入的最大池)。

通过从数字文本语料库402生成语料库嵌入408，发散视频分类系统102利用未被现有系统利用的数据生成目标主题的参考。在一些实施例中，发散视频分类系统102因此通过更准确地生成由语料库嵌入(例如，语料库嵌入408)定义的特定目标主题的主题发散分类来展示出优于这些现有系统的改进的准确性和增加的功能。实际上，很多现有系统不使用数字文本语料库，并且不能准确地针对与特定目标主题相关的数字视频生成主题发散分类。

如上所述，在某些描述的实施例中，发散视频分类系统102基于语料库嵌入408与上下文化特征向量314之间的比较生成主题发散分类。具体地，发散视频分类系统102将语料库嵌入408与上下文化特征向量314进行比较以生成主题特定特征向量，并且利用主题特定知识编码器神经网络从主题特定特征向量生成主题发散分类。图5示出了根据一个或多个实施例的用于生成主题发散分类的示例流程。

如图5中所示，发散视频分类系统102执行语料库嵌入(例如，语料库嵌入408)与上下文化特征向量(例如，上下文化特征向量314)之间的比较502。更具体地，发散视频分类系统102通过确定相似性得分来执行比较502。在一些情况下，发散视频分类系统102利用余弦相似性函数(或者，某种其他相似性函数)来确定相似性得分。例如，发散视频分类系统102针对[h]中的每个上下文化特征向量确定所有语料库嵌入[e]的相似性得分。另外，发散视频分类系统102将相似性得分与相似性阈值进行比较以确定或标识满足相似性阈值的相似性得分。因此，对于数字视频(例如，数字视频302)的每个词，发散视频分类系统102确定语料库嵌入[e]的多个相似性得分并且将相似性得分与相似性阈值进行比较。

另外，如图5中所示，生成主题特定嵌入504。具体地，发散视频分类系统102通过选择相似性得分满足相似性阈值的语料库嵌入来生成主题特定嵌入504作为语料库嵌入408的子集。例如，发散视频分类系统102通过选择满足关于相应上下文化特征向量的相似性阈值的语料库嵌入[e]针对上下文化特征向量[h]中的每一个生成主题特定嵌入504的集合。如图所示，发散视频分类系统102选择语料库嵌入e₁和e₂作为上下文化特征向量的主题特定嵌入，并且基于其相似性得分排除或拒绝e₃。

如图5中进一步所示，发散视频分类系统102生成主题特定知识库506。具体地，发散视频分类系统102针对每个上下文化特征向量[h]中的每一个(或者，针对数字视频302的词中的每一个)生成主题特定知识库。实际上，在一些情况下，给定词的所选择的主题特定嵌入504充当该词的知识库(例如，与目标主题有关的知识)。在一个或多个实施例中，发散视频分类系统102根据下式池化词的主题知识：

其中h_i⊙e_j≥δ

其中PK_i是第i词w_i的知识库，⊙是Hadamard积，δ是在w_i的知识库中包括n元语法的相似性阈值。

在某些实现中，为了表示词w_i的主题特定知识库，发散视频分类系统102使用其最大池化表示，如下所示：

其中

表示用于w_i的最大池化主题特定知识库(从语料库嵌入408中选择的主题特定嵌入504)，其中MP表示最大池化函数。

如图5中进一步所示，发散视频分类系统102从主题特定知识库506生成主题特定特征向量510。例如，发散视频分类系统102利用LSTM 508通过分析主题特定知识库506并且在每个时间步长确定LSTM 508的隐藏状态来生成主题特定特征向量510。在一些实施例中，LSTM 508是一层LSTM，其从由

表示的主题特定知识库506生成由K＝[k₁，k₂，...，k_n]表示的主题特定特征向量510。在某些实现中，LSTM 508是多层和/或双向LSTM。通过利用LSTM 508来生成或提取主题特定特征向量510，发散视频分类系统102编码或合并与每个词有关的主题特定知识的顺序信息(例如，顺序)(例如，作为词出现在数字视频302内的位置上)。

另外，如图5中所示，发散视频分类系统102从主题特定特征向量510生成级联特征向量512。更具体地，发散视频分类系统102组合(例如，级联、相加、相乘)主题特定特征向量[k]与上下文化特征向量[h](例如，上下文化特征向量314)。

如图5中所示，发散视频分类系统102进一步利用主题特定知识编码器神经网络的主题发散分类层514从级联特征向量512生成主题发散分类522。更具体地，发散视频分类系统102利用主题发散分类层514的前馈层516(例如，两层前馈层)从级联特征向量512生成词特征向量518。在一些实施例中，发散视频分类系统102针对数字视频302的词生成词特征向量，由V＝[v₁，v₂，...，v_n]表示。例如，发散视频分类系统102利用前馈层516根据下式生成词特征向量518：

v_i＝FF([h_i：k_i])

其中FF表示前馈层516，h_i表示词w_i的上下文化特征向量，k_i表示词w₁的主题特定特征向量，并且：表示级联函数(或者，某种其他类型的组合)。

在一个或多个实施例中，发散视频分类系统102进一步使词特征向量518最大池化并且利用另一前馈层520从词特征向量518的最大池化表示生成主题发散分类522。例如，发散视频分类系统102以由下式给出的概率分布的形式生成主题发散分类522：

P(.|D)＝FF(MP(v₁,v₂,...，v_n))

其中P是概率分布，FF是前馈层520，MP是最大池化函数。因此，发散视频分类系统102生成主题发散分类522，主题发散分类522指示主题发散(或者，主题符合)的概率(跨词特征向量518分布)。

如上所述，发散视频分类系统102生成主题发散分类522，主题发散分类522指示数字视频302是与目标主题发散还是符合目标主题。在一些情况下，发散视频分类系统102将主题发散分类522生成为数字视频302是主题发散的总体(例如，跨词特征向量518的组合或平均)概率。在某些实施例中，发散视频分类系统102进一步将主题发散的概率与主题发散阈值(例如，0.7)进行比较，并且仅当概率满足主题发散阈值时才指示数字视频302是主题发散的。否则，发散视频分类系统102确定数字视频302是主题符合的。

在一些情况下，发散视频分类系统102进一步(或者，备选地)利用主题符合阈值(例如，0.3)，并且仅当主题发散的概率低于30％或0.3时才确定数字视频302是主题符合的。在这些或其他情况下，如果数字视频302的主题发散概率在两个阈值之间(例如，在0.3与0.7之间)，则发散视频分类系统102确定数字视频部分是主题发散的并且部分是主题符合的。在一些实施例中，发散视频分类系统102根据跨词特征向量518的概率分布确定数字视频302的主题发散的比例和主题符合的部分。

在一些实现中，发散视频分类系统102分析数字视频(例如，数字视频302)并且不同地分类数字视频的不同部分。详细地，发散视频分类系统102可以确定单个数字视频的第一部分是主题发散的并且数字视频的第二部分是主题符合的。在一些情况下，发散视频分类系统102通过提供指示哪些片段或部分是主题发散的以及哪些是主题符合的时间标记来指定主题发散部分和主题符合部分。

在一个或多个实施例中，发散视频分类系统102为数字视频302提供主题发散分类522的通知。该通知可以采取二进制指示的形式(例如，“主题发散”或“主题符合”)，可以包括数字视频302是主题发散的概率的数字表示，或者可以包括被确定为主题发散的数字视频302的比例或百分比的数字表示(例如，根据跨词特征向量518的概率分布)。

如上所述，在某些描述的实施例中，发散视频分类系统102利用主题特定知识编码器神经网络针对数字视频生成主题发散分类。特别地，发散视频分类系统102利用具有特定结构或网络架构的主题特定知识编码器神经网络。图6示出了根据一个或多个实施例的主题特定知识编码器神经网络的示例结构。

如图6中所示，主题特定知识编码器神经网络602接受词嵌入604(例如，词嵌入310)并且利用LSTM层606(例如，LSTM 312)来从词嵌入604生成上下文化特征向量608(例如，上下文化特征向量314)。实际上，主题特定知识编码器神经网络602确定LSTM层606的隐藏状态以用作上下文化特征向量608。

此外，发散视频分类系统102基于将上下文化特征向量608与来自数字文本语料库的语料库嵌入(例如，语料库嵌入408)进行比较来生成主题特定知识库610(例如，主题特定知识库506)。此外，发散视频分类系统102利用第二LSTM层612(例如，LSTM 508)从主题特定知识库610生成主题特定特征向量614(例如，主题特定特征向量510)。

此外，发散视频分类系统102从主题特定特征向量614和对应的上下文化特征向量(例如，上下文化特征向量314)生成级联特征向量616(例如，级联特征向量512)。如图所示，主题特定知识编码器神经网络602还包括主题发散分类层618。实际上，发散视频分类系统102利用主题特定知识编码器神经网络602的主题发散分类层618来生成主题发散分类624(例如，主题发散分类522)。

在一些实施例中，发散视频分类系统102利用主题发散分类层618的第一前馈层620(例如，前馈层516)和第二前馈层622(例如，前馈层520)来生成主题发散分类624。实际上，如关于图5所述，发散视频分类系统102利用第一前馈层620生成词特征向量并且利用第二前馈层从词特征向量生成主题发散分类624。图6示出了针对主题特定知识编码器神经网络602的特定架构，尽管其他架构也是可能的。例如，在不同的实施例中，LSTM层和/或前馈层可以具有不同数目的层或神经元。

如上所述，在某些描述的实施例中，发散视频分类系统102经由训练或调节过程来学习主题特定知识编码器神经网络602的参数。特别地，发散视频分类系统102利用迭代训练过程来生成预测，将这些预测与真实数据进行比较，并且反向传播以修改主题特定知识编码器神经网络602的内部参数(例如，权重和偏差)以提高其准确性。在一些实施例中，发散视频分类系统102利用专门的训练数据来学习用于主题特定知识编码器神经网络602的参数，包括数字视频的合成抄本和/或混合抄本。图7示出了根据一个或多个实施例的发散视频分类系统102执行以利用合成抄本和混合抄本来学习主题特定知识编码器神经网络602的参数的动作的示例序列。

如图7中所示，发散视频分类系统102执行动作702以生成合成抄本。更具体地，发散视频分类系统102利用生成语言模型703生成合成数字视频抄本。例如，发散视频分类系统102生成合成抄本，该合成抄本实际上不是来自任何数字视频，而是经由生成语言模型703制造以类似于来自主题发散数字视频的抄本。例如，发散视频分类系统102利用生成语言模型703来生成包括词语“今天看起来下雨……”的合成抄本704。事实上，合成抄本有时是指人工生成的数字视频抄本，它是主题发散的(或者，主题符合的)。此外，生成语言模型有时是指机器学习模型(例如，神经网络)，诸如被预训练以生成主题不同的抄本的生成预训练Transformer-2(“GPT-2”)模型。关于生成合成抄本和预训练生成语言模型703的附加细节在下文中参考后续附图提供。

如图7中进一步所示，发散视频分类系统102执行动作706以生成混合抄本。特别地，发散视频分类系统102生成混合数字视频脚本，该混合数字视频脚本包括来自主题发散脚本的句子和来自主题符合脚本的句子。如图所示，发散视频分类系统102从主题符合抄本707和主题发散抄本708生成混合抄本709。具体地，发散视频分类系统102将主题符合抄本707(的部分)与主题发散抄本708(的部分)组合。实际上，发散视频分类系统102用来自主题符合抄本707的句子替换主题发散抄本708内的一定百分比的句子(或者，反之亦然)。如图所示，混合抄本709包括来自主题符合抄本707(“本教程用于……”)和主题发散抄本708(“果冻豆好吃”)中的每一个的句子。下文参考后续附图提供关于生成混合抄本的附加细节。

也如图7中所示，发散视频分类系统102执行动作710以学习主题特定知识编码器神经网络的参数。更具体地，发散视频分类系统102利用合成抄本704(和其他合成抄本)和混合抄本709(和其他混合抄本)来学习主题特定知识编码器神经网络711(例如，主题特定知识编码器神经网络602)的参数。

例如，发散视频分类系统102利用主题特定知识编码器神经网络711针对合成抄本704生成预测主题发散分类。此外，发散视频分类系统102利用合成损失函数将预测主题发散分类与真实主题发散分类进行比较(例如，合成抄本是主题发散的指示)。此外，发散视频分类系统102反向传播以修改主题特定知识编码器神经网络711的参数(例如，权重和偏差)，以减少损失度量并且提高准确性。发散视频分类系统102对多个迭代或历元重复上述迭代过程，直到阈值损失度量(或者，阈值准确性)满足——例如，直到预测主题发散分类在真实主题发散分类的阈值损失内。

另外地(或者，备选地)，发散视频分类系统102利用混合抄本709来学习参数。例如，发散视频分类系统102利用与上述相同的迭代过程：i)利用主题特定知识编码器神经网络711从混合抄本709生成预测主题发散分类，ii)利用混合损失函数将预测主题发散分类与混合抄本已知的真实主题发散分类进行比较(例如，用主题符合句子替换的主题发散句子的百分比的非二进制指示)，以及iii)反向传播以修改主题特定知识编码器神经网络711的参数，以调节主题特定知识编码器神经网络711如何传递和处理数据以减少损失度量。发散视频分类系统102重复该过程预定次数(或者，迭代次数)或直到预测主题发散分类与真实主题发散分类之间的损失度量满足阈值损失度量。

如上所述，在某些描述的实施例中，发散视频分类系统102生成合成抄本。特别地，发散视频分类系统102生成合成抄本以用于学习主题特定知识编码器神经网络的参数。图8示出了根据一个或多个实施例的生成合成抄本的示例。

如图8中所示，发散视频分类系统102生成合成抄本802。具体地，发散视频分类系统102利用生成语言模型(例如，生成语言模型703)来生成合成抄本802。例如，发散视频分类系统102利用生成语言模型来预测属于数字视频(或者，合成抄本802)的每个时间步长(例如，t₁、t₂、……、t_n)的词。在一些情况下，发散视频分类系统102基于先前的词(例如，预先预测的词)在相应时间步长生成词的预测。

为了在不同时间步长生成预测词，在某些描述的实施例中，发散视频分类系统102预训练生成语言模型(例如，生成语言模型703)。实际上，发散视频分类系统102预训练生成语言模型以准确生成类似于主题发散抄本的合成抄本。特别地，发散视频分类系统102利用目标函数来调节生成语言模型的参数。例如，发散视频分类系统102基于之前出现的i-1个词生成对合成抄本802的第i词的预测。在一些实施例中，发散视频分类系统102根据以下目标函数预训练生成语言模型：

其中D表示合成抄本802，D_1：t-1表示D从开始到第(i-1)词的词，θ表示生成语言模型的参数。

在一些实施例中，发散视频分类系统102用两个特殊标记扩充合成抄本802(D)，<BOS>在开头，<EOS>在结尾。例如，发散视频分类系统102以<BOS>标记开始合成抄本802，并且确定整个合成抄本802中每个时间步长t处词的概率。实际上，发散视频分类系统102针对每个时间步长生成特定词属于合成抄本802内的特定时间步长的概率。在一些实施例中，发散视频分类系统102根据下式确定时间步长的词的概率：

P(·|D′_1：t-1，θ)

其中D′_1：t-1表示经过时间步长t到t-1的词。发散视频分类系统102还针对合成抄本802中的每个相应时间步长选择具有最高概率的词。

如图所示，发散视频分类系统102基于先前时间步长t₁-t₃中的词生成时间步长t₄的预测词。实际上，发散视频分类系统102针对诸如“Happy”、“Outside”和“Since”等不同词生成概率。如图所示，发散视频分类系统102针对t₄选择词“Outside”，因为它在86％处具有最高概率，而其他两个词的概率分别为4％和10％。

发散视频分类系统102继续针对合成抄本802生成预测词，直到终止标准满足。例如，发散视频分类系统102继续生成预测词，直到添加或检测到停止标记<EOS>。作为另一示例，发散视频分类系统102继续添加词，直到合成抄本802达到最大长度或阈值长度(例如，阈值词数)。

如上所述，在一些实施例中，发散视频分类系统102生成经修改的数据集以用于基于合成抄本训练主题特定知识编码器神经网络。特别地，发散视频分类系统102修改初始数据集(例如，数据集)以包括合成抄本以用于学习主题特定知识编码器神经网络的参数。图9A-图9B示出了根据一个或多个实施例的发散视频分类系统102执行以生成包括合成抄本的经修改的数据集的示例过程。

如图9A中所示，发散视频分类系统102访问原始数据集902。具体地，发散视频分类系统102标识或确定原始数据集902，原始数据集902包括被标记为主题发散和主题符合的所存储的数字视频。在一些实施例中，原始数据集902包括相对少量的主题发散数字视频(或者，主题发散抄本)，并且原始数据集902(由于偏差)最终对于主题特定知识编码器神经网络的鲁棒训练是无效的。然而，发散视频分类系统102基于原始数据集902预训练主题特定知识编码器神经网络904a(例如，主题特定知识编码器神经网络602)以用作确定用于包括在经修改的数据集(例如，图9B的经修改的数据集918)内的合成抄本的基线。然后，利用经修改的数据集918，发散视频分类系统102重新学习主题特定知识编码器神经网络904a的参数。

详细地，发散视频分类系统102最初利用原始数据集902预训练主题特定知识编码器神经网络904a。具体地，发散视频分类系统102从原始数据集902中选择数字视频(或者，抄本)，并且利用主题特定知识编码器神经网络904a针对所选择的数字视频生成预测主题发散分类906。例如，发散视频分类系统102针对主题发散视频(或者，主题发散抄本)生成预测主题发散分类906。

此外，发散视频分类系统102执行预测主题发散分类906与真实主题发散分类908的比较910。实际上，发散视频分类系统102访问或标识与从原始数据集902中选择的数字视频相对应的真实主题发散分类908。为了执行比较910，发散视频分类系统102利用损失函数，诸如交叉熵损失函数或对数似然损失函数。例如，发散视频分类系统102利用以下形式的损失函数：

其中l是真实主题发散分类908，D是所选择的数字视频或所选择的抄本。

基于该比较(例如，基于预测主题发散分类906与真实主题发散分类908之间的损失度量)，发散视频分类系统102进一步执行反向传播912。实际上，发散视频分类系统102反向传播以修改主题特定知识编码器神经网络904a的参数，诸如影响不同层和神经元如何分析和传递数据的内部权重和参数。例如，发散视频分类系统102修改参数以减少由比较910产生的损失度量。发散视频分类系统102进一步重复在原始数据集902上预训练主题特定知识编码器神经网络904a的过程，直到损失度量满足阈值损失(或者，阈值迭代次数)。

一旦使用导致准确预测的参数训练主题特定知识编码器神经网络904a，发散视频分类系统102利用预先训练的主题特定知识编码器神经网络904b来标识或选择合成抄本以包括在经修改的数据集918内。事实上，如图9B中所示，发散视频分类系统102访问或标识多个合成抄本914(例如，如关于图8所述地生成的)并且选择合成抄本914的子集以包括在经修改的数据集918内以用于最终训练(或者，再训练)主题特定知识编码器神经网络904a。

更具体地，发散视频分类系统102利用预训练主题特定知识编码器神经网络904b(例如，如关于图9A所述地预训练的)针对多个合成抄本914生成预测主题发散分类。另外，发散视频分类系统102从多个合成抄本914中选择被预测为主题发散的合成抄本916以包括在经修改的数据集918内。在一些情况下，发散视频分类系统102从经修改的数据集918中丢弃或排除未分类为主题发散的合成抄本(例如，分类为主题符合的合成抄本)。例如，发散视频分类系统102仅将分类为主题发散的合成抄本添加到经修改的数据集918中。然后发散视频分类系统102可以利用来自经修改的数据集918的主题发散的合成抄本以训练主题特定知识编码器神经网络(例如，进一步训练主题特定知识编码器神经网络904b)。

如上所述，在某些描述的实施例中，发散视频分类系统102生成混合抄本(例如，混合抄本709)以用于学习主题特定知识编码器神经网络的参数。具体地，发散视频分类系统102通过组合主题发散抄本和主题符合抄本来生成混合抄本。图10示出了根据一个或多个实施例的生成混合抄本。通过利用如上所述的训练数据集内的混合抄本，发散视频分类系统102提高了主题特定知识编码器神经网络的泛化能力和鲁棒性。

如图10中所示，发散视频分类系统102将主题发散抄本1002和主题符合抄本1004组合在一起以生成混合抄本1006。更具体地，发散视频分类系统102确定用于使用主题符合抄本中的句子进行替换的主题发散抄本的句子的数目、比例或百分比。例如，发散视频分类系统102从[0,1]中统一选择随机数p，并且从主题发散抄本1002中移除p百分比的句子，以用从主题符合抄本1004中随机选择的句子进行替换。

如图所示，发散视频分类系统102选择句子1005来替换主题发散抄本1002中的句子。具体地，发散视频分类系统102使用来自主题符合抄本1004的句子1005(“主题符合句子2”)替换来自主题发散抄本1002的第二句子(“主题发散句子2”)。在一些情况下，发散视频分类系统102替换抄本的其他部分，诸如个体词、段落或其他文本段。如图所示，混合抄本1006包括来自主题发散抄本1002的第一句子和第三句子，并且包括来自主题符合抄本1004的第二句子。

如上所述，在一些实施例中，发散视频分类系统102利用经修改的数据集(例如，经修改的数据集918)来学习主题特定知识编码器神经网络(例如，主题特定知识编码器神经网络904a或602)的参数。例如，发散视频分类系统102生成经修改的数据集以包括合成抄本和/或混合抄本以及原始主题发散抄本和原始主题符合抄本。在一些实施例中，发散视频分类系统102进一步利用经修改的数据集来学习主题特定知识编码器神经网络的参数。图11示出了根据一个或多个实施例的利用混合抄本学习主题特定知识编码器神经网络的参数。

为了详细说明，发散视频分类系统102访问、生成或标识混合抄本1102(例如，混合抄本1006)。此外，发散视频分类系统102利用主题特定知识编码器神经网络1104(例如，主题特定知识编码器神经网络904a或602)从混合抄本1102生成预测主题发散分类1106。如图所示，发散视频分类系统102进一步执行预测主题发散分类1106与真实主题发散分类1112之间的比较1110。在一些情况下，预测主题发散分类1106不是二元分类，而是指示或反映是主题发散的(或者，主题符合的)混合抄本1102的预测比例或预测百分比。

在一个或多个实现中，发散视频分类系统102针对混合抄本1102生成或确定真实主题发散分类1112。例如，发散视频分类系统102确定或随机选择主题发散抄本内被替换的句子的百分比1108(p)，以生成混合抄本1102。基于被替换的句子的百分比1108，发散视频分类系统102确定真实主题发散分类1112。具体地，发散视频分类系统102确定真实主题发散分类1112作为标签，以反映被替换的句子的百分比1108(例如，p)或未被替换的句子的百分比(例如，1-p)。

为了执行比较1110，发散视频分类系统102利用损失函数并且确定预测主题发散分类1106与真实主题发散分类1112之间的损失度量。例如，发散视频分类系统102利用混合损失函数，如果预测主题发散分类1106在真实主题发散分类1112的特定阈值内，则混合损失函数包括用于第一损失度量的第一项，如果预测主题发散分类1106不在阈值内，则混合损失函数包括用于第二损失度量的第二项。在一些实施例中，发散视频分类系统102利用由下式表示的混合损失函数：

其中

是，FF(V)是预测主题发散分类1106(例如，经由主题特定知识编码器神经网络1104的前馈层FF从词向量V预测的)，δ是阈值超参数(例如，预测与真实之间的阈值)，l″是混合抄本1102(D”)的真实主题发散分类1112。

如图11中进一步所示，发散视频分类系统102执行反向传播1114。实际上，发散视频分类系统102反向传播以修改主题特定知识编码器神经网络1104的参数(例如，权重和偏差)以减少经由比较1110(例如，经由混合损失函数)确定的损失度量。此外，发散视频分类系统102重复图11中所示的过程。直到损失度量满足阈值损失。

尽管略有不同，但是发散视频分类系统102实现了与图11中所示的类似的过程以基于合成抄本学习参数。实际上，如上所述，发散视频分类系统102利用主题特定知识编码器神经网络1104从合成抄本生成预测主题发散分类。在一些情况下，如上所述，发散视频分类系统102从合成抄本针对主题发散分类生成二进制预测(例如，主题发散或主题符合)。

此外，发散视频分类系统102将预测主题发散分类与真实主题发散分类进行比较，真实主题发散分类指示二进制分类中的哪个实际上对应于初始合成抄本。实际上，发散视频分类系统102利用合成损失函数来确定预测主题发散分类与真实主题发散分类之间的损失度量。例如，发散视频分类系统102利用由下式给出的合成损失函数：

其中

表示合成损失，l′表示合成抄本D′的真实主题发散分类。

在某些实施例中，发散视频分类系统102利用混合抄本和合成抄本两者来训练主题特定知识编码器神经网络1104。具体地，发散视频分类系统102将混合抄本和合成抄本添加到经修改的数据集并且利用经修改的数据集以学习主题特定知识编码器神经网络1104的参数。在这些实施例中，发散视频分类系统102利用由下式给出的组合损失函数：

其中

和

在上面定义。发散视频分类系统102进一步修改主题特定知识编码器神经网络1104的参数以减少多次迭代的组合损失。

如上所述，发散视频分类系统102可以提供优于现有数字视频分析系统的准确性改进。实际上，通过利用主题特定知识编码器神经网络和通过使用包括合成抄本和混合抄本的经定制的数据训练主题特定知识编码器神经网络，发散视频分类系统102可以实现超出常规的系统的准确性度量。为了说明，实验者已执行测试以将发散视频分类系统102的示例实施例与备选系统进行比较。

对于测试，实验者确定三个不同模型的F1得分(例如，反映精度与召回之间的平衡的得分)：随机选择系统、现有分类器系统和发散视频分类系统102的示例实现。更具体地，随机选择系统针对测试集中的每个文档随机选择标签(例如，主题发散分类)。现有分类器系统使用单层LSTM对输入文档D进行编码，并且采用前馈层针对每个输入文档生成二进制预测。将这些模型与不同的视频分类系统102一起使用，实验者在

数据集生成了预测和测量结果，包括在

社交网络上流式传输的6,003个5分钟数字视频(大约500小时的数字视频)的抄本。下表说明了实验的结果。

如上表所示，实验者证明了发散视频分类系统102优于两个备选系统。实际上，发散视频分类系统102在测试数据集上表现出67.12的F1得分，而随机选择系统具有19.02的F1得分，并且现有分类器系统具有64.28的F1得分。

如上所述，在某些描述的实施例中，发散视频分类系统102提供主题发散分类的通知以用于显示。特别地，发散视频分类系统102作为搜索结果的一部分或在用户浏览数字视频时提供指示或反映相应数字视频的一个或多个主题发散分类的通知。图12示出了根据一个或多个实施例的包括主题发散分类的数字视频搜索界面。

如图12中所示，客户端设备108显示数字视频搜索界面1202。例如，发散视频分类系统102接收指示目标主题的搜索查询，或者接收与目标主题相关的特定网页的导航输入。此外，发散视频分类系统102标识或选择数字视频以作为搜索查询的搜索结果的一部分或在客户端设备108导航到的网页内提供。此外，发散视频分类系统102针对与目标主题相关的数字视频生成主题发散分类。

如图所示，发散视频分类系统102生成并且提供通知1204和通知1206以用于显示。通知1204指示紧接在通知1204上方的数字视频与目标主题相关(“这个视频是关于您的主题”)，而通知1206指示紧接在通知1206上方的数字视频与目标主题无关(“这个视频不是关于您的主题”)。因此，发散视频分类系统102响应于针对第一数字视频生成主题符合的主题发散分类而提供通知1204，并且响应于针对第二数字视频生成主题发散的主题发散分类而提供通知1206。

现在看图13，将提供关于发散视频分类系统102的组件和能力的附加细节。图13示出了示例计算设备1300(例如，客户端设备108和/或(多个)服务器104中的一个或多个)上的发散视频分类系统102的示例示意图。在一些实施例中，计算设备1300是指分布式计算系统，其中不同的管理器位于不同的设备上，如上所述。如图13中所示，发散视频分类系统102包括数字视频信息管理器1302、数字文本语料库信息管理器1304、分类生成管理器1306、参数学习管理器1308和存储管理器1310。

如刚刚提到的，发散视频分类系统102包括数字视频信息管理器1302。具体地，数字视频信息管理器1302管理、维护、提取、检测、确定或标识来自数字视频的信息，诸如文本或字。例如，数字视频信息管理器1302通过访问或生成数字视频的抄本来确定在数字视频中使用的词。此外，数字视频信息管理器1302根据本文中的公开针对数字视频的词来生成上下文化特征向量。

如图13中所示，发散视频分类系统102包括数字文本语料库信息管理器1304。具体地，数字文本语料库信息管理器1304管理、维护、生成、收集、收集、布置、检测、确定、选择或标识数字内容以包括在数字文本语料库内。例如，数字文本语料库信息管理器1304通过访问已知与目标主题相关的教程、与目标主题相对应的数字内容编辑工具名称和/或与目标主题有关来自主题本体的关键字针对特定目标主题生成数字文本语料库。此外，数字文本语料库信息管理器1304根据本文中的公开从数字文本语料库中的词生成语料库嵌入。

如图13中进一步所示，发散视频分类系统102包括分类生成管理器1306。具体地，分类生成管理器1306针对数字视频管理、维护、确定、生成、产生、预测或标识主题发散分类。例如，如本文中所描述的，分类生成管理器1306将数字视频的词与数字文本语料库的词进行比较以生成主题发散分类。具体地，分类生成管理器1306比较来自数字视频的上下文化特征向量和来自数字文本语料库的语料库嵌入，以利用主题特定知识编码器神经网络生成主题发散分类。

另外，如图13中所示，发散视频分类系统102包括参数学习管理器1308。具体地，参数学习管理器1308管理、维护、确定、学习、训练或调节诸如主题特定知识编码器神经网络的权重和偏差等参数。例如，参数学习管理器1308生成合成抄本和/或混合抄本以包括在经修改的数据集内。参数学习管理器1308进一步利用经修改的数据集来训练或调节主题特定知识编码器神经网络以学习其参数，如本文中所描述的。

发散视频分类系统102还包括存储管理器1310。存储管理器1310结合一个或多个存储器设备进行操作或者包括一个或多个存储器设备，诸如数据库1312(例如，数据库112)，该存储器设备存储各种数据，诸如主题特定知识编码器神经网络、数字视频和数字文本语料库。

在一个或多个实施例中，发散视频分类系统102的组件中的每一个使用任何合适的通信技术彼此通信。此外，发散视频分类系统102的组件与一个或多个其他设备通信，包括一个或多个上述客户端设备。将认识到，尽管发散视频分类系统102的组件在图13中被示出为是分开的，但是任何子组件可以组合成更少的组件，诸如组合成单个组件，或者被分成更多的组件，以服务于特定实现。此外，尽管图13结合发散视频分类系统102进行描述，但是用于结合本文中所描述的发散视频分类系统102执行操作的至少一些组件可以在环境内的其他设备上实现。

发散视频分类系统102的组件可以包括软件、硬件或这两者。例如，发散视频分类系统102的组件可以包括存储在计算机可读存储介质上并且可以由一个或多个计算设备(例如，计算设备1300)的处理器执行的一个或多个指令。当由一个或多个处理器执行时，发散视频分类系统102的计算机可执行指令可以使计算设备1300执行本文中所描述的方法。备选地，发散视频分类系统102的组件可以包括硬件，诸如用于执行特定功能或功能组的专用处理设备。另外地或备选地，发散视频分类系统102的组件可以包括计算机可执行指令和硬件的组合。

此外，执行本文中所描述的功能的发散视频分类系统102的组件可以例如被实现为独立应用的一部分、应用的模块、应用的插件(包括内容管理应用)、可以被其他应用调用的一个或多个库函数、和/或云计算模型。因此，发散视频分类系统102的组件可以被实现为个人计算设备或移动设备上的独立应用的一部分。备选地或另外地，发散视频分类系统102的组件可以在允许创建营销内容并且将其传送给用户的任何应用中实现，包括但不限于

EXPERIENCE MANAGER和CREATIVE

中的应用，诸如ADOBE

ADOBE

和

“ADOBE”、“ADOBEEXPERIENCE MANAGER”、“CREATIVE CLOUD”、“BEHANCE”、“ADOBE PREMIERE”和“INDESIGN”是Adobe Inc.在美国和/或其他国家/地区的注册商标或商标。

图1-图13的对应文本和示例提供了用于神经网络方法的很多不同系统、方法和非暂态计算机可读介质，该神经网络方法用于基于来自数字视频的词并且进一步基于表示目标主题的数字文本语料库数字视频生成主题发散分类。除了前述内容之外，还可以根据包括用于完成特定结果的动作的流程图来描述实施例。例如，图14-图15示出了根据一个或多个实施例的动作的示例序列或系列的流程图。

虽然图14-图15示出了根据特定实施例的动作，但备选实施例可以省略、添加、重新排序和/或修改图14-图15中所示的任何动作。图14-图15的动作可以作为方法的一部分来执行。备选地，非暂态计算机可读介质可以包括指令，该指令在由一个或多个处理器执行时使计算设备执行图14-图15的动作。在另外的实施例中，系统可以执行图14-图15的动作。此外，本文中所描述的动作可以彼此平行地重复或执行，或与相同或其他类似动作的不同实例平行地执行。

图14示出了用于基于来自数字视频的词并且进一步基于表示目标主题的数字文本语料库针对数字视频生成主题发散分类的神经网络方法的示例动作系列1400。特别地，一系列动作1400包括从数字视频提取词嵌入的动作1402。例如，动作1402涉及利用词嵌入模型从数字视频的词提取词嵌入。

此外，一系列动作1400包括从词嵌入生成上下文化特征向量的动作1404。特别地，动作1404涉及利用第一长短期记忆(“LSTM”)层从词嵌入生成上下文化特征向量。实际上，动作1404有时涉及利用第一LSTM层从在数字视频内使用的词生成上下文化特征向量。例如，动作1404涉及利用词嵌入模型从在数字视频内使用的词提取词嵌入，并且利用第一LSTM层确定从词嵌入生成的隐藏状态。

如图14中进一步所示，一系列动作1400包括生成主题特定特征向量的动作1406。特别地，动作1406涉及利用第二LSTM层从与数字视频的目标主题相关联的数字文本语料库生成主题特定特征向量。例如，动作1406包括一个或多个组成动作，诸如针对数字文本语料库的词生成n元语法的动作1408。实际上，动作1408涉及从数字文本语料库的词中确定n元语法。

此外，动作1406包括从n元语法生成主题特定嵌入的动作1410。特别地，动作1410涉及通过将上下文化特征向量与来自数字文本语料库的词进行比较针对目标主题生成主题特定嵌入。在一些情况下，动作1410涉及从与数字文本语料库的词相关联的n元语法提取语料库嵌入，并且对于数字视频内的特定词，选择语料库嵌入的子集作为与特定词相关联的主题特定嵌入。例如，动作1410涉及通过如下操作选择语料库嵌入的子集：确定语料库嵌入的相似性得分，相似性得分表示语料库嵌入相对于与特定词相关联的上下文化特征向量的相似性；以及根据相似性得分，选择相似性得分满足相似性阈值的一个或多个语料库嵌入以包括在特定词的语料库嵌入的子集内。实际上，在一些实施例中，动作1410涉及利用第二LSTM层从主题特定嵌入生成主题特定特征向量。

在一些实施例中，动作1410包括通过如下操作生成主题特定嵌入：从数字文本语料库的词提取多个语料库嵌入；确定多个语料库嵌入相对于与在数字视频中使用的特定词相关联的上下文化特征向量的相似性得分；以及选择相似性得分满足相似性阈值的多个语料库嵌入的子集作为特定词的主题特定嵌入。实际上，动作1410可以涉及确定与数字文本语料库中的词相关联的多个n元语法；以及从与数字文本语料库中的词相关联的多个n元语法提取多个语料库嵌入。

此外，动作1406包括从主题特定嵌入生成主题特定特征向量的动作1412。特别地，动作1412涉及利用第二LSTM层从主题特定嵌入生成主题特定特征向量。例如，动作1412涉及利用第二LSTM层以由数字视频的词定义的顺序生成主题特定特征向量。在一些实施例中，一系列动作1400(例如，作为动作1412的一部分)包括通过如下操作针对数字视频的词生成主题特定知识库：从目标主题的主题特定嵌入中选择与来自数字视频的词相关联的主题特定嵌入的子集；以及使针对词选择的主题特定嵌入的子集最大池化。在一些实施例中，动作1412涉及针对在数字视频内使用的每个词生成单独的主题特定特征向量。

在一些情况下，一系列动作1400包括：将主题特定特征向量和上下文化特征向量组合成级联特征向量；利用主题发散分类层的第一前馈层从级联特征向量生成词特征向量；以及通过利用主题发散分类层的第二前馈层从词特征向量生成概率分布来生成主题发散分类。

另外，一系列动作1400包括针对数字视频生成主题发散分类的动作1414。特别地，动作1414涉及：利用主题特定知识编码器神经网络从来自词嵌入的上下文化特征向量和来自数字文本语料库的主题特定特征向量针对数字视频生成主题发散分类。例如，动作1414涉及通过利用主题特定知识编码器神经网络确定数字视频与数字视频的目标主题发散的概率来生成主题发散分类。在一些情况下，动作1414涉及利用主题发散分类层从主题特定特征向量和上下文化特征向量针对数字视频生成主题发散分类。在某些实施例中，动作1414涉及将数字视频分类为主题发散视频，以指示该数字视频与目标主题发散。

图15示出了用于学习主题特定知识编码器神经网络的参数的一系列示例动作1500。例如，一系列动作1500包括生成合成抄本的动作1502。特别地，动作1502涉及利用生成语言模型生成多个合成抄本，该生成语言模型包括从主题发散视频的抄本调节的参数。在一些情况下，动作1502包括附加动作，诸如从初始数据集预训练生成语言模型的动作1504和利用预训练的生成语言模型生成合成抄本的动作1506。在一些实施例中，动作1506包括利用生成语言模型确定词属于多个合成抄本的相应时间步长的概率，并且根据相应时间步长的概率选择要添加到多个合成抄本的词，直到终止标准满足。

在某些实施例中，一系列动作1500包括利用主题特定知识编码器神经网络针对多个合成抄本生成主题发散分类，并且选择多个合成抄本中具有指示与目标主题的发散的主题发散分类的一个或多个合成抄本，以包括在样本数据集内以用于学习主题特定知识编码器神经网络的参数。

如图15中所示，一系列动作1500包括生成混合抄本的动作1508。特别地，动作1508涉及通过将主题发散视频的一个或多个抄本与主题符合视频的一个或多个抄本组合来生成混合抄本。在一些实施例中，动作1508包括附加动作，诸如确定要在主题发散抄本中替换的句子的动作1510和用来自主题符合抄本的句子替换主题发散抄本中的句子的动作1512。

如图15中进一步所示，一系列动作1500包括学习主题特定知识编码器神经网络的参数的动作1514。特别地，动作1514涉及利用合成抄本和混合抄本来学习主题特定知识编码器神经网络的参数。在一些情况下，动作1514涉及：根据用主题符合视频的抄本中的主题句子替换的句子的百分比，将真实主题发散分类指派给混合抄本；利用主题特定知识编码器神经网络针对混合抄本生成预测主题发散分类；以及将预测主题发散分类与真实主题发散分类进行比较。在这些或其他实施例中，动作1514涉及利用组合损失函数，该组合损失函数包括与合成抄本相关联的合成损失函数和与混合抄本相关联的混合损失函数。

本公开的实施例可以包括或利用包括计算机硬件(诸如，例如一个或多个处理器和系统存储器)的专用或通用计算机，如下面更详细地讨论的。在本公开的范围内的实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。特别地，本文中所描述的一个或多个过程可以至少部分被实现为体现在非暂态计算机可读介质中并且由一个或多个计算设备(例如，本文中所描述的任何媒体内容访问设备)可执行的指令。通常，处理器(例如，微处理器)从非暂态计算机可读介质(例如，存储器等)接收指令，并且执行这些指令，从而执行一个或多个过程，包括本文中所描述的一个或多个过程。

计算机可读介质可以是可以由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此，作为示例而非限制，本公开的实施例可以包括至少两种明显不同类型的计算机可读介质：非暂态计算机可读存储介质(设备)和传输介质。

非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如，基于RAM)、闪存、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储、磁盘存储或其他磁性存储设备、或者可以用于以计算机可执行指令或数据结构形式存储期望的程序代码并且可以由通用或专用计算机访问的任何其他介质。

“网络”被定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或其他通信连接(硬连线、无线或硬连线或无线的组合)将信息传输或提供给计算机时，计算机将该连接正确地视为传输介质。传输介质可以包括可以用于以计算机可执行指令或数据结构的形式携带期望的程序代码装置并且可以由通用或专用计算机访问的网络和/或数据链路。上述各项的组合也应当被包括在计算机可读介质的范围内。

此外，在到达各种计算机系统组件时，计算机可执行指令或数据结构形式的程序代码装置可以从传输介质自动传输到非暂态计算机可读存储介质(设备)(反之亦然)。例如，通过网络或数据链路接收的计算机可执行指令或数据结构可以缓冲在网络接口模块(例如，“NIC”)内的RAM中，并且然后最终传输到计算机系统RAM和/或到计算机系统处的较少易失性计算机存储介质(设备)。因此，应当连接，非暂态计算机可读存储介质(设备)可以被包括在也(或者，甚至主要地)利用传输介质的计算机系统组件中。

计算机可执行指令包括例如在处理器处执行时使通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。在一些实施例中，计算机可执行指令在通用计算机上执行以将通用计算机变成实现本公开的元素的专用计算机。计算机可执行指令可以是例如二进制、中间格式指令(诸如，汇编语言)或甚至源代码。尽管已用特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求书中定义的主题不必限于上述描述的特征或动作。而是，所描述的特征和动作被公开作为实现权利要求的示例形式。

本领域技术人员应当理解，本公开可以在具有很多类型的计算机系统配置的网络计算环境中实践，包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器或可编程的消费类电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实践，在分布式系统环境中，通过网络链接的本地和远程计算机系统(通过硬连线数据链接、无线数据链接、或通过硬连线和无线数据链接的组合)各自执行任务。在分布式系统环境中，程序模块可以位于本地和远程存储器存储设备中。

本公开的实施例也可以在云计算环境中实现。在本说明书中，“云计算”被定义为用于使得能够对可配置计算资源的共享池进行按需网络访问的模型。例如，可以在市场中使用云计算来提供对可配置计算资源共享池的无处不在且方便的按需访问。可配置计算资源的共享池可以经由虚拟化快速配置，并且以较少的管理工作量或服务提供商交互来释放，然后进行相应缩放。

云计算模型可以由诸如以下项的各种特征组成，例如按需自助服务、广泛的网络访问、资源池、快速弹性、测量的服务等。云计算模型还可以公开诸如以下项的各种服务模型，例如软件即服务(“SaaS”)、平台即服务(“PaaS”)和基础设施即服务(“IaaS”)。还可以使用不同的部署模型(诸如，私有云、社区云、公共云、混合云等)来部署云计算模型。在本说明书和权利要求书中，“云计算环境”是采用云计算的环境。

图16以框图形式示出了示例计算设备1600(例如，计算设备1300、客户端设备108和/或(多个)服务器104)，计算设备1600可以被配置为执行上述过程中的一个或多个。人们将理解，发散视频分类系统102可以包括计算设备1600的实现。如图16中所示，计算设备可以包括处理器1602、存储器1604、存储设备1606、I/O接口1608和通信接口1610。此外，计算设备1600可以包括输入设备，诸如触摸屏、鼠标、键盘等。在某些实施例中，计算设备1600可以包括比图16中所示的组件更少或更多的组件。现在将更详细地描述图16中所示的计算设备1600的组件。

在特定实施例中，(多个)处理器1602包括用于执行诸如构成计算机程序的指令等指令的硬件。作为示例而非限制，为了执行指令，(多个)处理器1602可以从内部寄存器、内部高速缓存、存储器1604或存储设备1606中检索(或者，取回)指令，并且解码和执行指令。

计算设备1600包括耦合到(多个)处理器1602的存储器1604。存储器1604可以用于存储由(多个)处理器执行的数据、元数据和程序。存储器1604可以包括易失性和非易失性存储器中的一种或多种，诸如随机存取存储器(“RAM”)、只读存储器(“ROM”)、固态磁盘(“SSD”)、闪存、相变存储器(“PCM”)或其他类型的数据存储。存储器1604可以是内部或分布式存储器。

计算设备1600存储设备1606，该存储设备1606包括用于存储数据或指令的存储装置。作为示例而非限制，存储设备1606可以包括上述非暂态存储介质。存储设备1606可以包括硬盘驱动器(HDD)、闪存、通用串行总线(USB)驱动器或这些或其他存储设备的组合。

计算设备1600还包括一个或多个输入或输出(“I/O”)设备/接口1608，该I/O接口1608被提供以允许用户向计算设备1600提供输入(诸如，用户笔画)，从计算设备1600接收输出，以及以其他方式向和从计算设备1600传输数据。这些I/O设备/接口1608可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或这样的I/O设备/接口1608的组合。触摸屏可以用书写设备或手指激活。

I/O设备/接口1608可以包括用于向用户呈现输出的一个或多个设备，包括但不限于图形引擎、显示器(例如，显示屏)、一个或多个输出驱动(例如，显示驱动)、一个或多个音频扬声器和一个或多个音频驱动。在某些实施例中，I/O设备/接口1608被配置为将图形数据提供给显示器以呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实现的任何其他图形内容。

计算设备1600还可以包括通信接口1610。通信接口1610可以包括硬件、软件或两者。通信接口1610可以提供一个或多个接口以用于计算设备与一个或多个其他计算设备1600或一个或多个网络之间的通信(诸如，例如基于分组的通信)。作为示例而非限制，通信接口1610可以包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器、或者用于与诸如WI-FI等无线网络通信的无线NIC(WNIC)或无线适配器。计算设备1600还可以包括总线1612。总线1612可以包括将计算设备1600的组件彼此耦合的硬件、软件或两者。

在前述说明书中，已参考本发明的特定示例实施例描述了本发明。参考本文中所讨论的细节描述了(多个)本发明的各个实施例和方面，并且附图示出了各个实施例。上面的描述和附图是本发明的说明，而不应当解释为限制本发明。描述了很多具体细节以提供对本发明的各种实施例的透彻理解。

在不脱离本发明的精神或基本特征的情况下，本发明可以以其他特定形式体现。所描述的实施例在所有方面仅被认为是说明性的而非限制性的。例如，本文中所描述的方法可以用更少或更多的步骤/动作来执行，或者步骤/动作可以以不同的顺序来执行。另外，本文中所描述的步骤/动作可以重复，或者彼此平行地或与相同或相似步骤/动作的不同实例并行地执行。因此，本发明的范围由所附权利要求书而不是前面的描述指示。落在权利要求的等同含义和范围内的所有改变均应当被包含在其范围内。

Claims

1.一种非暂态计算机可读介质，包括指令，所述指令在由至少一个处理器执行时使计算设备：

利用词嵌入模型从数字视频的词提取词嵌入；

利用第一长短期记忆(“LSTM”)层从所述词嵌入生成上下文化特征向量；

利用第二LSTM层从与针对所述数字视频的目标主题相关联的数字文本语料库生成主题特定特征向量；以及

利用主题特定知识编码器神经网络从来自所述词嵌入的所述上下文化特征向量和来自所述数字文本语料库的所述主题特定特征向量针对所述数字视频生成主题发散分类。

2.根据权利要求1所述的非暂态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时使所述计算设备：

通过将所述上下文化特征向量与来自所述数字文本语料库的词进行比较，针对所述目标主题生成主题特定嵌入；以及

利用所述第二LSTM层从所述主题特定嵌入生成所述主题特定特征向量。

3.根据权利要求2所述的非暂态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时使所述计算设备通过如下操作针对所述目标主题生成所述主题特定嵌入：

从所述数字文本语料库的所述词确定n元语法；

从所述n元语法提取与所述数字文本语料库的所述词相关联的语料库嵌入；以及

针对所述数字视频内的特定词，选择所述语料库嵌入的子集作为与所述特定词相关联的主题特定嵌入。

4.根据权利要求3所述的非暂态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时使所述计算设备通过如下操作选择所述语料库嵌入的所述子集：

确定针对所述语料库嵌入的相似性得分，所述相似性得分表示所述语料库嵌入相对于与所述特定词相关联的上下文化特征向量的相似性；以及

根据所述相似性得分，选择具有满足相似性阈值的相似性得分的一个或多个语料库嵌入以包括在针对所述特定词的所述语料库嵌入的所述子集内。

5.根据权利要求2所述的非暂态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时使所述计算设备通过如下操作针对所述数字视频的词生成主题特定知识库：

从针对所述目标主题的所述主题特定嵌入之中选择与来自所述数字视频的词相关联的主题特定嵌入的子集；以及

使针对所述词选择的所述主题特定嵌入的所述子集最大池化。

6.根据权利要求1所述的非暂态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时使所述计算设备利用所述第二LSTM层按照由所述数字视频的所述词定义的顺序生成所述主题特定特征向量。

7.根据权利要求1所述的非暂态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时使所述计算设备通过利用所述主题特定知识编码器神经网络来确定所述数字视频与针对所述数字视频的所述目标主题发散的概率，来生成主题发散分类。

8.一种系统，包括：

一个或多个存储器设备，包括数字视频；数字文本语料库，与针对所述数字视频的目标主题相关联；以及主题特定知识编码器神经网络，包括第一LSTM层、第二LSTM层和主题发散分类层；以及

一个或多个计算设备，被配置为使所述系统：

利用所述第一LSTM层从在所述数字视频内使用的词生成上下文化特征向量；

通过将所述上下文化特征向量与来自所述数字文本语料库的词进行比较，来生成主题特定嵌入；

利用所述第二LSTM层从所述主题特定嵌入生成主题特定特征向量；以及

利用所述主题发散分类层从所述主题特定特征向量和所述上下文化特征向量针对所述数字视频生成主题发散分类。

9.根据权利要求8所述的系统，其中所述一个或多个计算设备还被配置为使所述系统通过如下操作生成所述上下文化特征向量：

利用词嵌入模型从在所述数字视频内使用的所述词提取词嵌入；以及

利用所述第一LSTM层来确定从所述词嵌入生成的隐藏状态。

10.根据权利要求8所述的系统，其中所述一个或多个计算设备还被配置为使所述系统通过如下操作生成所述主题特定嵌入：

从所述数字文本语料库的所述词提取多个语料库嵌入；

确定针对多个语料库嵌入相对于与在所述数字视频中使用的特定词相关联的上下文化特征向量的相似性得分；以及

选择具有满足相似性阈值的相似性得分的所述多个语料库嵌入的子集作为针对所述特定词的主题特定嵌入。

11.根据权利要求10所述的系统，其中所述一个或多个计算设备还被配置为使所述系统：

确定与来自所述数字文本语料库的所述词相关联的多个n元语法；以及

从与来自所述数字文本语料库的所述词相关联的所述多个n元语法提取所述多个语料库嵌入。

12.根据权利要求8所述的系统，其中所述一个或多个计算设备还被配置为使所述系统：

将所述主题特定特征向量与所述上下文化特征向量组合成级联特征向量；

利用所述主题发散分类层的第一前馈层从所述级联特征向量生成词特征向量；以及

通过利用所述主题发散分类层的第二前馈层从所述词特征向量生成概率分布，来生成所述主题发散分类。

13.根据权利要求8所述的系统，其中所述一个或多个计算设备还被配置为使所述系统通过针对在所述数字视频内使用的每个词生成单独的主题特定特征向量，来生成所述主题特定特征向量。

14.根据权利要求8所述的系统，其中所述一个或多个计算设备还被配置为使所述系统通过将所述数字视频分类为指示所述数字视频与所述目标主题发散的主题发散视频，来生成所述主题发散分类。

15.一种计算机实现的方法，包括：

利用生成语言模型来生成多个合成抄本，所述生成语言模型包括从主题发散视频的抄本调节的参数；

通过将主题发散视频的一个或多个抄本与主题符合视频的一个或多个抄本组合，来生成混合抄本；以及

利用所述合成抄本和所述混合抄本来学习针对主题特定知识编码器神经网络的参数。

16.根据权利要求15所述的计算机实现的方法，还包括：

利用所述主题特定知识编码器神经网络针对所述多个合成抄本生成主题发散分类；以及

选择所述多个合成抄本中的具有指示与目标主题的发散的主题发散分类的一个或多个合成抄本，以包括在样本数据集中以用于学习所述主题特定知识编码器神经网络的所述参数。

17.根据权利要求15所述的计算机实现的方法，其中生成所述多个合成抄本包括：

利用所述生成语言模型来确定针对词属于所述多个合成抄本的相应时间步长的概率；以及

根据所述相应时间步长的所述概率选择用以添加到所述多个合成抄本的词，直到终止标准被满足。

18.根据权利要求15所述的计算机实现的方法，其中生成所述混合抄本包括用来自主题符合视频的抄本的句子替换来自主题发散视频的抄本的句子。

19.根据权利要求15所述的计算机实现的方法，其中学习针对所述主题特定知识编码器神经网络的所述参数包括：

根据用来自主题符合视频的抄本的主题句子替换的句子的百分比，将真实主题发散分类指派给混合抄本；

利用所述主题特定知识编码器神经网络针对所述混合抄本生成预测主题发散分类；以及

将所述预测主题发散分类与所述真实主题发散分类进行比较。

20.根据权利要求18所述的计算机实现的方法，其中学习针对所述主题特定知识编码器神经网络的所述参数包括利用组合损失函数，所述组合损失函数包括与所述合成抄本相关联的合成损失函数和与所述混合抄本相关联的混合损失函数。