CN109947989A

CN109947989A - 用于处理视频的方法和装置

Info

Publication number: CN109947989A
Application number: CN201910204127.8A
Authority: CN
Inventors: 李伟健; 王长虎
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-28
Anticipated expiration: 2039-03-18
Also published as: CN109947989B

Abstract

本公开的实施例公开了用于处理视频的方法和装置。该方法的一具体实施方式包括：获取视频；将视频输入预先训练的视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率；以及响应于确定概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。该实施方式实现了将机器识别和人工标注相结合，有针对性地将视频发送到相应的标注终端，有助于提高对视频进行标注的准确性和效率，同时降低了因使用电子设备对视频进行人工标注所占用的时间，从而节约了电子设备的硬件资源。

Description

用于处理视频的方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及用于处理视频的方法和装置。

背景技术

随着互联网技术的发展，越来越多的视频出现在互联网中。为了便于对这些视频进行管理，可以使用视频分类模型，对视频进行类型识别。为了训练视频分类模型，通常需要预先获得大量的样本视频，并对样本视频进行标注，以区分样本视频的类型。目前通常由标注人员对各个样本视频进行观看，以区分各个样本视频的类型，并对样本视频进行标注。

发明内容

本公开的实施例提出了用于处理视频的方法和装置，以及用于更新视频分类模型的方法和装置。

第一方面，本公开的实施例提供了一种用于处理视频的方法，该方法包括：获取视频；将视频输入预先训练的视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率；以及响应于确定概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。

在一些实施例中，将视频发送到预先与视频类别建立对应关系的标注终端，包括：利用预先与视频类别建立对应关系的标注队列，将视频发送到与标注队列对应的标注终端。

第二方面，本公开的实施例提供了一种用于更新视频分类模型的方法，该方法包括：获取视频；将视频输入视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率；响应于确定概率值大于等于预设的概率阈值，将视频和类别信息发送到标注终端，以便视频在标注终端被标注为正样本或负样本；从标注终端接收指示视频是正样本还是负样本的类别指示信息；以及基于视频和类别信息，来更新视频分类模型。

在一些实施例中，基于视频和类别指示信息来更新视频分类模型包括：基于类别指示信息确定视频是否为正样本；响应于确定视频为正样本，通过将视频作为视频分类模型的输入，并将输入的视频的类别指示信息作为视频分类模型的期望输出，利用第一损失函数，来更新视频分类模型的参数；响应于确定视频为负样本，通过将视频作为视频分类模型的输入，并将类别指示信息作为视频分类模型的期望输出，利用第二损失函数，来更新视频分类模型的参数。

在一些实施例中，第一损失函数包括多分类损失函数，并且第二损失函数包括二分类损失函数。

在一些实施例中，类别指示信息由具有预设数目的元素的向量来表示，预设数目的元素中的元素对应于多个预设类别中的类别。

第三方面，本公开的实施例提供了一种用于处理视频的装置，该装置包括：视频获取单元，被配置成获取视频；分类单元，被配置成将视频输入预先训练的视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率；发送单元，被配置成响应于确定概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。

在一些实施例中，发送单元进一步被配置成：利用预先与视频类别建立对应关系的标注队列，将视频发送到与标注队列对应的标注终端。

第四方面，本公开的实施例提供了一种用于更新视频分类模型的装置，该装置包括：视频获取单元，被配置成获取视频；分类单元，被配置成将视频输入视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率；发送单元，被配置成响应于确定概率值大于等于预设的概率阈值，将视频和类别信息发送到标注终端，以便视频在标注终端被标注为正样本或负样本；接收单元，被配置成从标注终端接收指示视频是正样本还是负样本的类别指示信息；更新单元，被配置成基于视频和类别指示信息，来更新视频分类模型。

在一些实施例中，更新单元包括：确定模块，被配置成基于类别指示信息确定视频是否为正样本；第一更新模块，被配置成响应于确定视频为正样本，通过将视频作为视频分类模型的输入，并将输入的视频的类别指示信息作为视频分类模型的期望输出，利用第一损失函数，来更新视频分类模型的参数；第二更新模块，被配置成响应于确定视频为负样本，通过将视频作为视频分类模型的输入，并将类别指示信息作为视频分类模型的期望输出，利用第二损失函数，来更新视频分类模型的参数。

第四方面，本公开的实施例提供了一种电子设备，该电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面或第二方面中任一实现方式描述的方法。

第五方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面中任一实现方式描述的方法。

本公开的实施例提供的用于处理视频的方法和装置，通过使用预先训练的视频分类模型，对视频进行识别，以确定视频的类别信息和概率值，如果概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。从而通过使用视频分类模型和标注终端，实现了将机器识别和人工标注相结合，有针对性地将视频发送到相应的标注终端，有助于提高对视频进行标注的准确性和效率。通过使用视频分类模型首先对视频进行分类，可以在视频的数量较多时，降低人工对视频进行标注所耗费的人力成本，同时降低使用电子设备对视频进行标注所占用的时间，从而节约了电子设备的硬件资源。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的实施例的用于处理视频的方法的一个实施例的流程图；

图3是根据本公开的实施例的用于处理视频的方法的一个应用场景的示意图；

图4是根据本公开的实施例的用于更新视频分类模型的方法的一个实施例的流程图；

图5是根据本公开的实施例的用于处理视频的装置的一个实施例的结构示意图；

图6是根据本公开的实施例的用于更新视频分类模型的装置的一个实施例的结构示意图；

图7是适于用来实现本公开的实施例的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的实施例的用于处理视频的方法或用于处理视频的装置，以及用于更新视频分类模型的方法或用于更新视频分类模型的装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104、服务器105和多个标注终端106。网络104用以在终端设备101、102、103、服务器105、标注终端106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频播放类应用，视频处理类应用、网页浏览器应用、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

标注终端106可以是硬件，也可以是软件。当为硬件时，可以是各种电子设备。当为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。通常，标注人员可以使用标注终端106，对接收的视频进行标注。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的视频进行处理的后台视频处理服务器。后台视频处理服务器可以对获取的视频进行处理，并根据处理结果(例如类别信息和概率值)将视频发送到对应的标注终端。

需要说明的是，本公开的实施例所提供的用于处理视频的方法可以由服务器105执行，也可以由终端设备101、102、103，相应地，用于处理视频的装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。此外，本公开的实施例所提供的用于更新视频分类模型的方法可以由服务器105执行，也可以由终端设备101、102、103，相应地，用于更新视频分类模型的装置可以设置于服务器105中，也可以设置于终端设备101、102、103中

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在视频不需要从远程获取的情况下，上述系统架构可以包括服务器和标注终端，或者包括终端设备和标注终端。

继续参考图2，示出了根据本公开的用于处理视频的方法的一个实施例的流程200。该用于处理视频的方法，包括以下步骤：

步骤201，获取视频。

在本实施例中，用于处理视频的方法的执行主体(例如图1所示的服务器或终端设备)可以通过有线连接方式或者无线连接方式从远程获取视频，或从本地获取视频。其中，上述视频是待对其进行类别标注的视频。例如上述执行主体实时获取的、用户上传的视频。

步骤202，将视频输入预先训练的视频分类模型，以得到类别信息和概率值。

在本实施例中，上述执行主体可以将视频输入预先训练的视频分类模型，得到类别信息和概率值。其中，视频分类模型用于表征视频和类别信息、概率值的对应关系。其中，类别信息用于指示视频所属的视频类别。通常，属于同一视频类别的视频，包括属于同一类别的画面。例如视频类别为宠物，则属于该视频类别的视频包括宠物画面。类别信息可以包括但不限于以下至少一种形式的信息：数字、文字、符号。作为示例，类别信息可以包括如下文字形式的类别信息：宠物、汽车、森林等。作为另一示例，类别信息可以包括如下数字形式的类别信息：001、002、003，其中每个类别信息用于表征一个视频类别。

在本实施例中，类别信息对应的概率值用于表征视频属于类别信息指示的视频类别的概率。例如，假设类别信息“宠物”对应的概率值为0.6，则该概率值用于表征视频所属的类别为“宠物”的概率为0.6。

通常，上述视频分类模型可以包括特征提取层和分类层。其中，特征提取层用于提取表征视频的各种特征(例如颜色特征、形状特征等)的特征数据。分类层可以对特征数据进行分类，从而得到视频的类别信息。作为示例，视频分类模型可以是卷积神经网络模型，特征提取层包括卷积层、池化层等，用于根据视频包括的视频帧(可以是全部视频帧或部分视频帧)，生成特征数据，分类层包括全连接层和分类器(例如softmax分类函数)，全连接层用于将生成的特征数据连接为一个特征向量，分类器用于对该特征向量进行分类，最终得到视频的类别信息和概率值。

实践中，上述视频分类模型可以是多分类模型。多分类模型最终的输出结果用于表征从多个类别中选择一类，即选择对应的概率值最大的类别信息作为最终结果。通常，多分类模型为卷积神经网络模型，包括用于对视频进行分类的分类器，分类器可以输出多个类别信息和每个类别信息对应的概率值，所有概率值的和为一，选择其中最大的概率值和对应的类别信息作为视频分类模型输出的概率值和类别信息。

步骤203，响应于确定概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。

在本实施例中，上述执行主体可以响应于确定概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端(例如图1所示的标注终端)。

通常，上述视频分类模型可以区分预设数量种视频类别，每种视频类别对应于一组标注终端(包括至少一个标注终端)。针对其中一组标注终端，标注人员判断接收的视频是否属于该组标注终端对应的视频类别，从而利用标注终端对视频进行标注。

在本实施例中，类别信息指示的视频类别与标注终端的对应关系可以由诸如二维表格、链表等形式表征。例如，标注终端可以对应于预设的标识(例如网络地址)，标识和类别信息可以对应地存储到二维表格中，上述执行主体可以根据类别信息，从二维表格中查找与类别信息对应的标识，从而根据标识将视频发送到对应的标注终端。

需要说明的是，标注终端可以是软件，例如，与上述执行主体通信连接的电子设备的显示屏上可以显示至少一个标注界面，每个标注界面即可以为一个标注终端。每个标注界面对应于一个视频类别，标注人员可以通过该标注界面对视频标注针对该视频类别的标注类别信息(例如用于表征是否属于该视频类别的标注类别信息)。

通过执行步骤203，可以实现有针对性的将视频发送到相应的标注终端，标注人员可以只判断所接收的视频是否属于与标注终端对应的视频类别，从而简化了对视频标注的过程，有利于提高对视频标注的效率。

在本实施例的一些可选的实现方式中，上述执行主体可以利用预先与视频类别建立对应关系的标注队列，将视频发送到与标注队列对应的标注终端。

其中，标注队列可以是预先设置的、用于存储视频及发送视频的消息队列。视频类别与标注队列的对应关系可以是预先建立的。视频类别与标注队列的对应关系可以由诸如二维表格、链表等形式表征。例如，标注队列可以对应于预设的编号，编号和类别信息可以对应地存储到二维表格中，上述执行主体可以根据类别信息，从二维表格中查找与类别信息对应的编号，从而确定出标注队列。标注队列与标注终端的对应关系也可以是预先建立的。标注队列与标注终端的对应关系也可以由诸如二维表格、链表等形式表征。例如，二维表格中存储有标注队列的编号和标注终端的标识，上述执行主体可以根据标注队列的编号，查找到对应的标注终端的标识，从而根据标识将视频发送到对应的标注终端。当标注队列存储了至少两个视频时，可以按照存入标注队列的时间顺序，依次发送到与标注队列对应的标注终端。

需要说明的是，标注队列可以设置在上述执行主体中(即上述执行主体通过消息队列直接向标注终端发送视频)，也可以设置在与上述执行主体通信连接的其他电子设备中(即上述执行主体通过消息队列间接向标注终端发送视频)。

通过使用标注队列，可以在视频的数量较多时，顺序地将各个视频发送到相应的标注终端，有利于缓解在将大量的标注视频发送至标注终端时产生的通信线路拥堵。

继续参见图3，图3是根据本实施例的用于处理视频的方法的应用场景的一个示意图。在图3的应用场景中，电子设备301首先从本地获取一个视频302。然后，电子设备301将视频302输入预先训练的视频分类模型303，得到类别信息304(例如“宠物”)和概率值305(例如0.8)。其中，概率值305用于表征视频302属于“宠物”类别的概率。随后，电子设备301确定概率值305大于等于预设的概率阈值(例如0.6)，将视频302发送到预先与“宠物”类别的视频建立对应关系的标注终端306。例如，电子设备301从预设的、包括多个类别信息和标注终端的网络地址的对应关系表307中，查找到与类别信息“宠物”对应的标注终端的网络地址A。电子设备301根据该网络地址A，将视频302和类别信息304发送到标注终端306。标注人员可以利用标注终端306而基于类别信息304对接收的视频302进行标注。

本公开的上述实施例提供的方法，通过使用预先训练的视频分类模型，对视频进行识别，以确定视频的类别信息和概率值，如果概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。从而通过使用视频分类模型和标注终端，实现了将机器识别和人工标注相结合，有针对性地将视频发送到相应的标注终端，有助于提高对视频进行标注的准确性和效率。通过使用视频分类模型首先对视频进行分类，可以在视频的数量较多时，降低人工对视频进行标注所耗费的人力成本，同时降低使用电子设备对视频进行标注所占用的时间，从而节约了电子设备的硬件资源。

继续参考图4，示出了根据本公开的用于更新视频分类模型的方法的一个实施例的流程400。该用于更新视频分类模型的方法，包括以下步骤：

步骤401，获取视频。

在本实施例中，用于更新视频分类模型的方法的执行主体(例如图1所示的服务器或终端设备)可以通过有线连接方式或者无线连接方式从远程获取视频，或从本地获取视频。其中，上述视频是待对其进行类别标注的视频。例如上述执行主体实时获取的、用户上传的视频。

步骤402，将视频输入视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率。

在本实施例中，上述执行主体可以将视频输入视频分类模型，得到类别信息和概率值。其中，视频分类模型与上述图2对应实施例描述的视频分类模型相同。类别信息用于指示视频所属的视频类别。类别信息对应的概率值用于表征视频属于类别信息指示的视频类别的概率。关于类别信息和概率值的描述，可以参考上述图2对应实施例，这里不再赘述。

步骤403，响应于确定概率值大于等于预设的概率阈值，将视频和类别信息发送到标注终端，以便视频在标注终端被标注为正样本或负样本。

在本实施例中，上述执行主体可以响应于确定概率值大于等于预设的概率阈值，将视频和类别信息发送到标注终端。标注终端处的标注人员可以基于所接收的类别信息将接收的视频标注为正样本或负样本。

具体地，正样本为属于预设的至少两个类别中的类别的样本，负样本为不属于预设的至少两个类别中的类别的样本。正样本和负样本可以分别具有对应的类别指示信息。正样本对应的类别指示信息用于表征正样本所属的类别，负样本对应的类别指示信息用于表征负样本不属于类别指示信息指示的类别。

作为示例，假设某正样本对应的类别指示信息为“1”，用于表征该正样本所属的视频类型为“猫”(即该类型的视频包括表征猫的画面)，某正样本对应的类别指示信息为“2”，用于表征该正样本所属的视频类型为“狗”。假设某负样本对应的类别指示信息为“101”，该类别指示信息对应于视频类型“猫”，用于表征该负样本不属于“猫”类型的视频，某负样本对应的类别指示信息为“102”，该类别指示信息对应于视频类型“狗”，用于表征该负样本不属于“狗”类型的视频。

在本实施例的一些可选的实现方式中，类别指示信息由具有预设数目的元素的向量来表示，预设数目的元素中的元素对应于多个预设类别中的类别。

作为示例，正样本对应的向量中的目标元素用于表征正样本属于正样本对应的类别，负样本对应的向量中的目标元素用于表征负样本不属于负样本对应的类别，目标元素为向量中的元素中，位于预先与样本对应的类别建立对应关系的位置处的元素。假设预设数目为200，对于一个正样本，该正样本对应的视频类别为“猫”，则该正样本对应的类别指示信息可以是向量(1,0,0,0，…，0)，该向量包括200个元素，其中第一个元素(即目标元素)对应于“猫”类。这里，数字1表示该视频属于“猫”类，其他的元素0表示该视频不属于0所在的元素位置对应的视频类别。假设该正样本对应的视频类别为“狗”，则该正样本对应的类别指示信息可以是向量(0,1,0,0，…，0)，其中第二个元素对应于“狗”类。

此外，对于一个负样本，其对应的类别指示信息可以是向量(0,0,0,0，…0，1,0…，0)，对应于“猫”类，其中，第101个元素(即目标元素)为数字1，其他元素为数字0，表示该负样本不属于“猫”类。对于另一个负样本，其对应的类别指示信息可以是向量(0,0,0,0，…0，0,1…，0)，对应于“狗”类，其中，第102个元素为数字1，表示该负样本不属于“狗”类。

需要说明的是，向量中的数值也可以是其他数值，不限于0和1。通过使用向量表征类别指示信息，可以灵活地对分类模型识别的类别进行扩展。例如，实际应用中，只需识别10个类别，向量包括的元素的数量大于10，其中的第1到第10个元素分别对应于预设的类别。当需要使视频分类模型能够识别更多类别时，只需设置其他元素对应的类别，从而可以灵活地对视频分类模型的识别能力进行扩展。

步骤404，从标注终端接收指示视频是正样本还是负样本的类别指示信息。

在本实施例中，上述执行主体可以从标注终端接收指示视频是正样本还是负样本的类别指示信息。

具体地，标注终端在对上述视频标注后，将上述视频以及上述视频对应的类别指示信息发送到上述执行主体。

步骤405，基于视频和类别指示信息，来更新视频分类模型。

在本实施例中，上述执行主体可以基于视频和类别指示信息，来更新视频分类模型。

具体地，上述执行主体可以利用机器学习方法，将上述视频作为视频分类模型的输入，将与输入的视频对应的类别指示信息作为视频分类模型的期望输出，对视频分类模型进行训练，得到更新后的视频分类模型。

上述执行主体可以按照各种方式对上述视频分类模型进行训练。作为示例，上述执行主体可以利用机器学习方法，将上述视频作为输入，将与输入的视频对应的类别指示信息作为期望输出，对视频分类模型(例如可以包括循环神经网络、卷积神经网络等)进行训练，针对每次训练输入的视频，可以得到实际输出。其中，实际输出是视频分类模型实际输出的类别指示信息。然后，上述执行主体可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整视频分类模型的参数。

在本实施例的一些可选的实现方式中，上述执行主体可以按照如下步骤更新视频分类模型：

步骤一，基于类别指示信息确定视频是否为正样本。如果为正样本，执行步骤二，否则执行步骤三。

步骤二，响应于确定视频为正样本，通过将视频作为视频分类模型的输入，并将输入的视频的类别指示信息作为视频分类模型的期望输出，利用第一损失函数，来更新视频分类模型的参数。

其中，第一损失函数可以包括各种用于训练分类模型的损失函数。上述分类模型可以包括特征提取层和分类层，其中，特征提取层用于提取输入的样本的特征(例如当样本为视频或图像时，特征可以包括颜色、形状、纹理等特征)，得到用于表征样本的特征的特征数据。分类层可以是用于对特征数据进行分类的各种分类器(例如支持向量机，softmax分类函数等)。

步骤三，响应于确定视频为负样本，通过将视频作为视频分类模型的输入，并将类别指示信息作为视频分类模型的期望输出，利用第二损失函数，来更新视频分类模型的参数。其中，第二损失函数可以包括各种用于训练分类模型的损失函数。

在本实施例的一些可选的实现方式中，第一损失函数包括多分类损失函数，并且第二损失函数包括二分类损失函数。

通常，由于输入的正样本对应的类别指示信息用于表征正样本所属的类别，通常视频分类模型可以识别的类别为多个，因此，上述执行主体可以针对输入的正样本，采用多分类损失函数确定损失值，所确定的损失值可以用于表征实际输出和期望输出的差距。作为示例，多分类损失函数可以为交叉熵损失函数。上述执行主体可以采用梯度下降法和反向传播法，基于上述多分类损失函数，调整视频分类模型的参数。

由于输入的负样本对应的类别指示信息用于表征负样本是否属于类别指示信息对应的类别，即模型的实际输出用于表征两种识别结果(属于或不属于)，因此，上述执行主体可以针对输入的负样本，采用二分类损失函数确定损失值。作为示例，二分类损失函数可以为交叉熵损失函数。需要说明的是，这里的二分类损失函数虽然与上述多分类损失函数均为交叉熵损失函数，但是，这两个交叉熵损失函数的形式不同。上述执行主体可以采用梯度下降法和反向传播法，基于上述二分类损失函数，调整分类模型的参数。

需要说明的是，视频分类模型包括的分类层可以包括多个二分类器和一个多分类器，每个二分类器对应于一个类别，二分类器和多分类器的参数是共享的，在使用二分类损失函数或多分类损失函数进行训练时，二分类器和多分类器的参数可以同时优化。在使用分类模型进行视频分类时，可以使用上述多分类器进行视频分类。

现有技术在训练视频分类模型的过程中，使用某个视频类别的训练样本进行参数优化时，会造成对其他视频类别的视频进行分类的准确性降低。上述可选的实现方式，通过利用多分类损失函数和二分类损失函数，有针对性地利用不同类别的视频对模型进行优化，在训练过程中，避免因使用相似度较高但不属于同一视频类别的视频造成的分类准确性降低的现象。此外，现有技术中，为了提高视频分类模型的分类准确性，通常需要大量的训练样本对模型进行训练，上述可选的实现方式可以在训练样本较少的情况下，提高分类的准确性，减少对训练样本的需求量，因而可以提高模型训练的效率，有助于降低获取大量训练样本所耗费的存储资源，以及降低训练模型时所占用的处理器的时间。

需要说明的是，本实施例训练得到的更新后的视频分类模型，可以作为上述图2对应实施例中描述的视频分类模型，从而本实施例中的各步骤可以与上述图2对应实施例中的各步骤相结合，反复地对视频分类模型进行更新，使得更新后的视频分类模型对视频进行分类的准确性逐渐提高。

本公开的上述实施例提供的方法，通过利用标注终端对视频进行标注得到的类别指示信息，对视频分类模型进行更新，由于更新视频分类模型所用的视频是经过视频分类模型分类后的视频，再由标注人员使用标注终端对视频进行标注，其对应的类别指示信息的准确性更高，因此，可以提高更新后的视频分类模型对视频进行分类的准确性。当电子设备利用更新后的视频分类模型进行分类时，可以提高该电子设备对视频进行分类的准确性。

进一步参考图5，作为对上述图2所示方法的实现，本公开提供了一种用于处理视频的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于处理视频的装置500包括：视频获取单元501，被配置成获取视频；分类单元502，被配置成将视频输入预先训练的视频分类模型，得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于类别信息指示的视频类别的概率；发送单元503，被配置成响应于确定概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。

在本实施例中，视频获取单元501可以通过有线连接方式或者无线连接方式从远程获取视频，或从本地获取视频。其中，视频是待对其进行类别标注的视频。例如上述视频获取单元501实时获取的、用户上传的视频。

在本实施例中，分类单元502可以将视频输入预先训练的视频分类模型，得到类别信息和概率值。其中，视频分类模型用于表征视频和类别信息、概率值的对应关系。其中，类别信息用于指示视频所属的视频类别。通常，属于同一视频类别的视频，包括属于同一类别的画面。例如视频类别为宠物，则属于该视频类别的视频包括宠物画面。类别信息可以包括但不限于以下至少一种形式的信息：数字、文字、符号。作为示例，类别信息可以包括如下文字形式的类别信息：宠物、汽车、森林等。作为另一示例，类别信息可以包括如下数字形式的类别信息：001、002、003，其中每个类别信息用于表征一个视频类别。

在本实施例中，发送单元503可以响应于确定概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端(例如图1所示的标注终端)。

在本实施例中，类别信息指示的视频类别与标注终端的对应关系可以由诸如二维表格、链表等形式表征。例如，标注终端可以对应于预设的标识(例如网络地址)，标识和类别信息可以对应地存储到二维表格中，上述发送单元503可以根据类别信息，从二维表格中查找与类别信息对应的标识，从而根据标识将视频发送到对应的标注终端。

需要说明的是，标注终端可以是软件，例如，与上述装置500通信连接的电子设备的显示屏上可以显示至少一个标注界面，每个标注界面即可以为一个标注终端。每个标注界面对应于一个视频类别，标注人员可以通过该标注界面对视频标注针对该视频类别的标注类别信息(例如用于表征是否属于该视频类别的标注类别信息)。

在本实施例的一些可选的实现方式中，发送单元503可以进一步被配置成：利用预先与类别信息指示的视频类别建立对应关系的标注队列，将视频发送到与标注队列对应的标注终端

本公开的上述实施例提供的装置500，通过使用预先训练的视频分类模型，对视频进行识别，以确定视频的类别信息和概率值，如果概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。从而通过使用视频分类模型和标注终端，实现了将机器识别和人工标注相结合，有针对性地将视频发送到相应的标注终端，有助于提高对视频进行标注的准确性和效率。通过使用视频分类模型首先对视频进行分类，可以在视频的数量较多时，降低人工对视频进行标注所耗费的人力成本，同时降低使用电子设备对视频进行标注所占用的时间，从而节约了电子设备的硬件资源。

进一步参考图6，作为对上述图4所示方法的实现，本公开提供了一种用于处理视频的装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于处理视频的装置600包括：视频获取单元601，被配置成获取视频；分类单元602，被配置成将视频输入视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率；发送单元603，被配置成响应于确定概率值大于等于预设的概率阈值，将视频和类别信息发送到标注终端，以便视频在标注终端被标注为正样本或负样本；接收单元604，被配置成从标注终端接收指示视频是正样本还是负样本的类别指示信息；更新单元605，被配置成基于视频和类别指示信息，来更新视频分类模型。

在本实施例中，视频获取单元601可以通过有线连接方式或者无线连接方式从远程获取视频，或从本地获取视频。其中，上述视频是待对其进行类别标注的视频。例如上述视频获取单元601实时获取的、用户上传的视频。

在本实施例中，分类单元602可以将视频输入视频分类模型，得到类别信息和概率值。其中，视频分类模型与上述图2对应实施例描述的视频分类模型相同。类别信息用于指示视频所属的视频类别。类别信息对应的概率值用于表征视频属于类别信息指示的视频类别的概率。关于类别信息和概率值的描述，可以参考上述图2对应实施例，这里不再赘述。

在本实施例中，发送单元603可以响应于确定概率值大于等于预设的概率阈值，将视频和类别信息发送到标注终端。标注终端可以将接收的视频标注为正样本或负样本。

在本实施例中，接收单元604可以从标注终端接收指示视频是正样本还是负样本的类别指示信息。

具体地，标注终端在对上述视频标注后，将上述视频以及上述视频对应的类别指示信息发送到上述装置600。

在本实施例中，更新单元605可以基于视频和类别指示信息，来更新视频分类模型。

具体地，上述更新单元605可以利用机器学习方法，将上述视频作为视频分类模型的输入，将与输入的视频对应的类别指示信息作为视频分类模型的期望输出，对视频分类模型进行训练，得到更新后的视频分类模型。

上述更新单元605可以按照各种方式对上述视频分类模型进行训练。作为示例，上述更新单元605可以利用机器学习方法，将上述视频作为输入，将与输入的视频对应的类别指示信息作为期望输出，对视频分类模型(例如可以包括循环神经网络、卷积神经网络等)进行训练，针对每次训练输入的视频，可以得到实际输出。其中，实际输出是视频分类模型实际输出的类别指示信息。然后，上述更新单元605可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整视频分类模型的参数。

在本实施例的一些可选的实现方式中，更新单元605可以包括：确定模块(图中未示出)，被配置成基于类别指示信息确定视频是否为正样本；第一更新模块(图中未示出)，被配置成响应于确定视频为正样本，通过将视频作为视频分类模型的输入，并将输入的视频的类别指示信息作为视频分类模型的期望输出，利用第一损失函数，来更新视频分类模型的参数；第二更新模块(图中未示出)，被配置成响应于确定视频为负样本，通过将视频作为视频分类模型的输入，并将类别指示信息作为视频分类模型的期望输出，利用第二损失函数，来更新视频分类模型的参数。

本公开的上述实施例提供的装置600，通过利用标注终端对视频进行标注得到的标注后视频，对上述图2对应实施例中的初始视频分类模型进行更新，由于标注后视频是经过利用初始视频分类模型对视频分类，再由标注人员使用标注终端对视频进行标注后得到的视频，其对应的标注类别指示信息的准确性更高，因此，可以提高更新后的视频分类模型对视频进行分类的准确性。

下面参考图7，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)700的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开的实施例中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取视频；将视频输入预先训练的视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率；以及响应于确定概率值大于等于预设的概率阈值，将视频发送到预先与视频类别建立对应关系的标注终端。

此外，当上述一个或者多个程序被该电子设备执行时，还可以使得该电子设备：获取视频；将视频输入视频分类模型，以得到类别信息和概率值，其中，类别信息用于指示视频所属的视频类别，概率值用于表征视频属于视频类别的概率；响应于确定概率值大于等于预设的概率阈值，将视频和类别信息发送到标注终端，以便视频在标注终端被标注为正样本或负样本；从标注终端接收指示视频是正样本还是负样本的类别指示信息；以及基于视频和类别指示信息，来更新视频分类模型。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括视频获取单元、分类单元和发送单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，视频获取单元还可以被描述为“获取视频的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于处理视频的方法，包括：

获取视频；

将所述视频输入预先训练的视频分类模型，以得到类别信息和概率值，其中，所述类别信息用于指示所述视频所属的视频类别，所述概率值用于表征所述视频属于所述视频类别的概率；以及

响应于确定所述概率值大于等于预设的概率阈值，将所述视频发送到预先与所述视频类别建立对应关系的标注终端。

2.根据权利要求1所述的方法，其中，将所述视频发送到预先与所述视频类别建立对应关系的标注终端，包括：

利用预先与所述视频类别建立对应关系的标注队列，将所述视频发送到与所述标注队列对应的标注终端。

3.一种用于更新视频分类模型的方法，包括：

获取视频；

将所述视频输入所述视频分类模型，以得到类别信息和概率值，其中，所述类别信息用于指示所述视频所属的视频类别，所述概率值用于表征所述视频属于所述视频类别的概率；

响应于确定所述概率值大于等于预设的概率阈值，将所述视频和所述类别信息发送到标注终端，以便所述视频在所述标注终端被标注为正样本或负样本；

从所述标注终端接收指示所述视频是正样本还是负样本的类别指示信息；以及

基于所述视频和所述类别指示信息，来更新所述视频分类模型。

4.根据权利要求3所述的方法，其中，基于所述视频和所述类别指示信息来更新所述视频分类模型包括：

基于所述类别指示信息确定所述视频是否为正样本；

响应于确定所述视频为正样本，通过将所述视频作为所述视频分类模型的输入，并将所述类别指示信息作为所述视频分类模型的期望输出，利用第一损失函数，来更新所述视频分类模型的参数；

响应于确定所述视频为负样本，通过将所述视频作为所述视频分类模型的输入，并将所述类别指示信息作为所述视频分类模型的期望输出，利用第二损失函数，来更新所述视频分类模型的参数。

5.根据权利要求4所述的方法，其中，所述第一损失函数包括多分类损失函数，并且所述第二损失函数包括二分类损失函数。

6.根据权利要求3-5之一所述的方法，其中，所述类别指示信息由具有预设数目的元素的向量来表示，预设数目的元素中的元素对应于多个预设类别中的类别。

7.一种用于处理视频的装置，包括：

视频获取单元，被配置成获取视频；

分类单元，被配置成将所述视频输入预先训练的视频分类模型，以得到类别信息和概率值，其中，所述类别信息用于指示所述视频所属的视频类别，所述概率值用于表征所述视频属于所述视频类别的概率；

发送单元，被配置成响应于确定所述概率值大于等于预设的概率阈值，将所述视频发送到预先与所述视频类别建立对应关系的标注终端。

8.根据权利要求7所述的装置，其中，所述发送单元进一步被配置成：

9.一种用于更新视频分类模型的装置，包括：

视频获取单元，被配置成获取视频；

分类单元，被配置成将所述视频输入所述视频分类模型，以得到类别信息和概率值，其中，所述类别信息用于指示所述视频所属的视频类别，所述概率值用于表征所述视频属于所述视频类别的概率；

发送单元，被配置成响应于确定所述概率值大于等于预设的概率阈值，将所述视频和所述类别信息发送到标注终端，以便所述视频在所述标注终端被标注为正样本或负样本；

接收单元，被配置成从所述标注终端接收指示所述视频是正样本还是负样本的类别指示信息；

更新单元，被配置成基于所述视频和所述类别指示信息，来更新所述视频分类模型。

10.根据权利要求9所述的装置，其中，所述更新单元包括：

确定模块，被配置成基于所述类别指示信息确定所述视频是否为正样本；

第一更新模块，被配置成响应于确定所述视频为正样本，通过将所述视频作为所述视频分类模型的输入，并将所述类别指示信息作为所述视频分类模型的期望输出，利用第一损失函数，来更新所述视频分类模型的参数；

第二更新模块，被配置成响应于确定所述视频为负样本，通过将所述视频作为所述视频分类模型的输入，并将所述类别指示信息作为所述视频分类模型的期望输出，利用第二损失函数，来更新所述视频分类模型的参数。

11.根据权利要求10所述的装置，其中，所述第一损失函数包括多分类损失函数，并且所述第二损失函数包括二分类损失函数。

12.根据权利要求9-11之一所述的装置，其中，所述类别指示信息由具有预设数目的元素的向量来表示，预设数目的元素中的元素对应于多个预设类别中的类别。

13.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。