CN112765403A

CN112765403A - 一种视频分类方法、装置、电子设备及存储介质

Info

Publication number: CN112765403A
Application number: CN202110029269.2A
Authority: CN
Inventors: 迟至真; 李思则; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-05-07

Abstract

本公开公开了一种视频分类方法、装置、电子设备及存储介质，用于解决对视频标注标签效率较低的问题。该方法包括：确定待分类的视频；提取待分类的视频的图像特征，获得待分类的视频的图像特征信息；提取待分类的视频的音频信号，并对音频信号进行特征提取处理，获得待分类的视频的语音特征信息；对图像特征信息和语音特征信息进行上下文转换增强处理，获得目标信息；对目标信息进行分类处理，获得对应的多个类别信息和与类别信息对应的概率值，并将概率值大于预设阈值的类别信息对应的标签确定为待分类的视频的类别标签。

Description

一种视频分类方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术

由于科技的不断发展，生活工作节奏越来越快，因而播放时长在几分钟以内的视频受到人们的喜爱和关注。

目前，视频内容越来越丰富，仅仅依靠上传视频内容者在上传时为视频标注的类别标签，可能存在类别分化不够细致的问题，导致不能满足用户的精细化要求。并且，随着视频数量与内容的不断增长，需要人工进行审核标注，然而人工的标注效率与视频内容和数量的增长速度并不匹配，导致视频不能及时且准确的呈现给用户。

可见，相关技术中存在对视频标注标签效率较低的技术问题。

发明内容

本公开提供一种视频分类方法、装置、电子设备及存储介质，用于解决相关技术中存在对视频标注标签效率较低的技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频分类方法，所述方法包括：

确定待分类的视频；

提取所述待分类的视频的图像特征，获得所述待分类的视频的图像特征信息；以及提取所述待分类的视频的音频信号，并对所述音频信号进行特征提取处理，获得所述待分类的视频的语音特征信息；

对所述图像特征信息和所述语音特征信息进行上下文转换增强处理，获得目标信息，所述目标信息用于表征所述待分类视频中每个帧图像以及每个帧图像与相邻图像所对应的信息；

对所述目标信息进行分类处理，获得对应的多个类别信息和与所述类别信息对应的概率值，并将所述概率值大于预设阈值的类别信息对应的标签确定为所述待分类的视频的类别标签。

在一种可能的实施方式中，通过训练后的视频分类模型提取所述待分类的视频的图像特征，获得所述待分类的视频的图像特征信息，包括：

将所述待分类的视频均匀划分为固定段数的子视频，并从每个子视频中提取一帧图像，获得待处理帧图像集；

对所述待处理帧图像集中的帧图像进行特征提取处理，获得所述待分类的视频的图像特征信息。

在一种可能的实施方式中，若通过训练后的视频分类模型实现对所述待分类的视频的分类，则所述训练后的视频分类模型通过以下方式训练：

确定待训练的数据集，其中，所述待训练的数据集包括已标注标签的视频；

将所述待训练的数据集中的视频输入待训练的视频分类模型中的预设空域子模型进行训练，获得训练后的空域子模型；

通过所述训练后的空域子模型，提取所述待训练的数据集中的视频的所有图像特征，并将所述所有图像特征输入待训练的视频分类模型中的预设时域子模型进行训练，获得训练后的时域子模型；

将输入所述训练后的时域子模型和所述训练后的空域子模型后所获得的信息，输入待训练的视频分类模型中的预设局部聚集子模型进行训练，获得训练后的视频分类模型。

在一种可能的实施方式中，确定待训练的数据集，包括：

确定可用的实体标签词语集合；

对所述可用的实体标签词语集合中的词语进行合并处理，获得第一标签词语集合；

确定所述第一标签词语集合中词语对应的视频的内容是否与所述第一标签词语集合中的词语相匹配，若是，则确定将包括所述第一标签词语集合中的词语和对应的视频的数据确定为待训练的数据集。

在一种可能的实施方式中，将所述待训练的数据集中的视频输入待训练的视频分类模型中的预设空域子模型进行训练，获得训练后的空域子模型，包括：

将所述待训练的数据集中的视频进行均匀抽帧处理，获得多帧图像，并将所述多帧图像输入到所述预设空域子模型进行训练，获得多个输出结果；

根据所述多个输出结果与预设信息的比对，对所述预设空域子模型进行调整；

确定所述预设空域子模型对应的损失函数；

在对所述预设空域子模型进行调整之后，通过所述损失函数对训练后的空域子模型进行收敛检验；

当确定所述训练后的空域子模型已收敛，则获得所述训练后的空域子模型。

根据本公开实施例的第二方面，提供一种视频分类装置，所述装置包括：

确定单元，被配置为执行确定待分类的视频；

提取单元，被配置为执行提取所述待分类的视频的图像特征，获得所述待分类的视频的图像特征信息；以及提取所述待分类的视频的音频信号，并对所述音频信号进行特征提取处理，获得所述待分类的视频的语音特征信息；

处理单元，被配置为执行对所述图像特征信息和所述语音特征信息进行上下文转换增强处理，获得目标信息，所述目标信息用于表征所述待分类视频中每个帧图像以及每个帧图像与相邻图像所对应的信息；

分类单元，被配置为执行对所述目标信息进行分类处理，获得对应的多个类别信息和与所述类别信息对应的概率值，并将所述概率值大于预设阈值的类别信息对应的标签确定为所述待分类的视频的类别标签。

在一种可能的实施方式中，所述提取单元，被配置为执行：

在一种可能的实施方式中，若通过训练后的视频分类模型实现对所述待分类的视频的分类，则所述装置还包括训练单元，所述训练单元被配置为执行：

在一种可能的实施方式中，所述训练单元，被配置为执行：

确定可用的实体标签词语集合；

在一种可能的实施方式中，所述训练单元被配置为执行：

确定所述预设空域子模型对应的损失函数；

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现本公开实施例上述第一方面以及第一方面涉及的任一可能涉及的方法。

根据本公开实施例的第四方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例上述第一方面以及第一方面涉及的任一可能涉及的方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述第一方面以及第一方面任一可能涉及的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开实施例中，可以确定待分类的视频，然后提取待分类的视频的图像特征，获得待分类的视频的图像特征信息；以及提取待分类的视频的音频信号，并对音频信号进行特征提取处理，获得待分类的视频的语音特征信息。还可以对图像特征信息和语音特征信息进行上下文转换增强处理，获得目标信息，目标信息用于表征待分类视频中每个帧图像以及每个帧图像与相邻图像所对应的信息。

可见，本公开实施例中，可以结合待分类视频的语音特征信息和图像特征信息获得目标信息，即可以综合考虑到语音特征信息和图像特征信息对视频内容类别的影响，为对视频进行标签标注提供较好的实施基础。此外，本公开实施例获得的语音特征信息和图像特征信息还考虑到了每帧信息的相邻帧对其产生的影响，即可以基于少量的帧信息获得视频时序特征的信息，在保证对标签标注准确的基础上，还提高了标注效率。

进一步地，可以对目标信息进行分类处理，获得对应的多个类别信息和与类别信息对应的概率值，并将概率值大于预设阈值的类别信息对应的标签确定为待分类的视频的类别标签。即本公开实施例中可以对视频的标签进行更为细致的判断，提高标注标签的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用场景的示意图；

图2是根据一示例性实施例示出的一种训练后的视频分类模型的训练流程示意图；

图3是根据一示例性实施例示出的视频分类方法的流程示意图；

图4是根据一示例性实施例示出的一种视频分类装置的结构框图；

图5为根据一示例性实施例示出的电子设备的结构示意图；

图6为根据一示例性实施例示出的电子设备的另一结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面对本公开实施例的设计思想进行简要介绍：

目前，相关技术中对视频进行打标签处理即分类时，一般的处理方法为对视频进行抽取图像帧，然后根据图像检测技术对图像帧中的物体进行识别，从而实现对视频的分类。然而，这样的方式，对于视频的理解是将视频切割成独立的一帧帧图像的来进行识别，会导致丢失帧图像与帧图像之间的联系，即丢失掉视频本身的属性，导致对视频的标签识别的准确性较差。若是考虑到视频内容的连续性，则需要人工进行审核，导致对视频进行打标签的处理效率较低。

鉴于此，本公开提供了一种视频分类方法，通过该方法可以对视频进行分析，理解视频的内容，获得视频的目标信息，从而可以对目标信息进行处理，以自动输出与该视频相关的标签，实现对视频的自动打标签功能，提高对视频打标签的效率。

介绍完本公开实施例的设计思想之后，下面对本公开实施例中的视频分类技术方案适用的应用场景做一些简单介绍，需要说明的是，本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

在本公开实施例中，该技术方案可以应用于基于视频内容视频分类任一场景，例如中长视频分类、短视频分类等，本公开实施例中不做限定，为了便于更好的理解方案，本公开后文中以对中长视频分类为例进行说明。

需要说明的是，在本公开实施例中，中长视频可以理解为传播的时长在预定时长范围以内的视频，该预定时长可以是3分钟，还可以是10分钟，当然也可以是5分钟等等，可以根据具体的情况对应确定，本公开实施例中不做限制。

在具体的实施过程中，请参见图1所示的一种应用场景示意图，应用场景图中包括两个终端101和一个电子设备102，可以通过终端101登录中长视频平台(未示出)。需要说明的是，图1中仅以两个终端101和一个电子设备102进行交互为例进行示出，在具体实施过程中，可以是多个终端101与一个电子设备102之间进行交互。

在具体的实施过程中，终端101和电子设备102之间可以通过一个或者多个通信网络103进行通信连接。该通信网络103可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真(WIreless-Fidelity，WIFI)网络，当然还可以是其他可能的网络，本公开实施例对此不做限定。

在本公开实施例中，用户可以通过终端101登录中长视频平台进行中长视频发布操作，也可以进行中长视频播放等操作。电子设备102可以是从终端101处获取用户在中长视频平台发布的中长视频，也可以是从与终端101对应的中长视频数据存储云端对应的服务器获取中长视频，本公开实施例中不做限制。

在具体的实施过程中，电子设备102可以接收终端101发送的视频，然后对视频进行分类处理，并向终端101发送分类处理后的视频，从而终端101可以将标注有标签的视频发布，进而用户在搜索视频时，终端101可以对应呈现与该视频属于同一类别的视频，即向用户推荐感兴趣的视频。此外，用户也可以直接搜索视频类别，为用户呈现更精准的搜索结果。

在具体实施过程中，图1所示的电子设备可以是笔记本电脑、个人电脑、手机、个人数字助理(Personal Digital Assistant，PDA)、个人计算机等终端设备，或者也可以是服务器，该服务器例如是个人计算机、大中型计算机、计算机集群，等等。

基于前述对本公开方法的大致介绍可以知晓，本公开实施例所实施的对视频进行分类的方法可以基于训练后的视频分类模型实现。为了更好的理解本公开所提供的技术方案，下面先介绍训练视频分类模型的过程，其中，在本公开实施例中具体实现视频分类模型训练的大致方案可以是：确定待训练的数据集，再使用这些待训练的数据集对待训练的视频分类模型进行训练，以得到训练后的视频分类模型，然后再通过训练后的视频分类模型检测新的待分类的视频。

请参见图2，图2为本公开实施例中获得训练后的视频分类模型的流程示意图。

步骤201：确定待训练的数据集，其中，待训练的数据集包括已标注标签的视频。

在本公开实施例中，可以确定可用的实体标签词语集合，然后可以对可用的实体标签词语集合中的词语进行合并处理，获得第一标签词语集合，进一步地，可以判断第一标签词语集合中词语对应的视频的内容是否与第一标签词语集合中的词语相匹配，若是，则可以确定将包括第一标签词语集合中的词语和对应的视频的数据确定为待训练的数据集。

具体的，前述的对可用实体标签词语集合中词语进行合并处理，可以理解为将词语含义的相似度较高的词语进行合并处理，例如可以将“萌物”和“萌宠”确定为可以合并处理的词语，获得标签为“萌宠物”。在后续的实施过程中，当用户搜索“萌物”或“萌宠”时，均可以搜索到标签为“萌宠物”的视频。这样的方式，可以在尽量确保标签标注准确的基础上，降低标注词语的匹配标签计算量，提高训练模型的速度。

在具体的实施过程中，可以获取数据库中所有已标注标签的视频集合，然后根据已标注标签在数据库中从高到低的出现频率，筛选预设数目的标签作为第一候选标签集合，其中，预设筛选数目可以是10000个，也可以是5000个，当然还可以是其它数目，本公开实施例中不做限制。进一步地，当获得第一候选标签集合之后，可以对第一候选标签集合进行过滤形容词、动词、不能视觉可分词(例如绕口令、歇后语等)以及明星人名词语处理，获得第二候选标签集合。具体的，第二候选标签集合可以理解为前述的可用的实体标签词语集合。需要说明的是，前述的不能视觉可分词可以理解为不能通过对视频内容的分析直接提取的有实际含义的词语。可见，在本公开实施例中，可以对第一候选标签集合进行词语的筛选处理，从而可以确定出与实际打标签的标注需求更为贴合的词语。

在具体的实施过程中，当获得实体标签词语集合之后，还可以通过word2vec技术对第二候选标签集合中的每个词语进行向量化，计算任意两个标签之间的相似度，若任意两个标签之间的相似度较高，例如大于预设阈值，则可以对两个标签进行合并处理，获得第三候选标签集合即第一标签词语集合。进一步地，可以判断第一标签词语集合中词语对应的视频的内容是否与第一标签词语集合中的词语相匹配，具体的，可以是判断同一标签下的视频是否具有外观一致性和/或语义相似性，例如“饺子”可能是食物饺子相关的视频，也可能是与昵称为“饺子”关联的视频，即同一标签下的视频不具有语义相似性即词语与内容不匹配，则可以将有歧义的视频过滤掉，例如将昵称为“饺子”关联的视频过滤掉，若是，则可以确定将包括第一标签词语集合中的词语和对应的视频的数据确定为待训练的数据集。这样的方式，可以尽量确保待训练数据集中一个词语仅与一种视频内容相匹配。

在本公开实施例中，当获得待训练的数据集之后，还可以将每个标签构造成多级体系，例如体育-球类运动-足球。这样的方式，可以使得每个标签对应各自的种类的细化类别和整体类别，从而可以为后续标签的标注提供较好的标注蓝本。

步骤202：将待训练的数据集中的视频输入待训练的视频分类模型中的预设空域子模型进行训练，获得训练后的空域子模型。

在本公开实施例中，可以将待训练的数据集中的视频进行均匀抽帧处理，获得多帧图像，并将多帧图像输入到预设空域子模型进行训练，获得多个输出结果，根据多个输出结果与预设信息的比对，对预设空域子模型进行调整，然后可以确定预设空域子模型对应的损失函数，并在对预设空域子模型进行调整之后，通过损失函数对训练后的空域子模型进行收敛检验，当确定训练后的空域子模型已收敛，则获得训练后的空域子模型。

在本公开实施例中，可以将视频均匀的划分为预定段数的片段，例如划分为8个或者16个片段，其中，每个片段包括多帧图像，然后可以从每个片段中随机选择一帧图像，即该视频可以用8帧或者是16帧图像表征。进一步地，将多帧图像输入到预设空域子模型进行训练，获得多个输出结果，根据多个输出结果与预设信息的比对，对预设空域子模型进行调整。

在具体的实施过程中，可以将视频V等间隔划分为K段，表示为：{S₁,S₂,…,S_K}，然后利用预设空域子模型对获取的帧图像进行特征提取。具体的，可以通过以下方式表示预设空域子模型对获取的帧图像进行特征提取的过程：

其中，TSM用于表征时序分段网络，T用于表征视频帧，1，2，…，K用于表征切分的段数的标号,W用于表征网络的参数，F用于表征网络模型结构。

在本公开实施例中，可以确定预设空域子模型对应的损失函数，并在对预设空域子模型进行调整之后，通过损失函数对训练后的空域子模型进行收敛检验，当确定训练后的空域子模型已收敛，则获得训练后的空域子模型。

在具体的实施过程中，损失函数可以表示为：

其中，G用于表征网络模型的输出信息，y用于表征视频的标签，C用于表征类别数目，i用于表征视频，j用于表征每个类别。

步骤203：通过训练后的空域子模型，提取待训练的数据集中的视频的所有图像特征，并将所有图像特征输入待训练的视频分类模型中的预设时域子模型进行训练，获得训练后的时域子模型。

步骤204：将输入训练后的时域子模型和训练后的空域子模型后所获得的信息，输入待训练的视频分类模型中的预设局部聚集子模型进行训练，获得训练后的视频分类模型。

在本公开实施例中，可以利用训练后的空域子模型，提取待训练的数据集中的视频的所有图像特征，并将所有图像特征输入待训练的视频分类模型中的预设时域子模型中进行训练。

在具体的实施过程中，预设时域子模型可以对待训练的数据集中的视频中的音频信号进行提取，具体的，可以提取对应的梅尔标度滤波器组特征，然后根据获取的梅尔标度滤波器组特征对预设语音分类的卷积神经网络进行训练，获得训练后的时域子模型，从而可以利用训练后的时域子模型提取语音特征信息。

在本公开实施例中，可以将输入训练后的时域子模型和训练后的空域子模型后所获得的信息，输入待训练的视频分类模型中的预设局部聚集子模型进行训练，获得训练后的视频分类模型。

在具体的实施过程中，可以将预设局部聚集子模型的中间层的参数进行优化，例如可以将原始文字簇的大小设置为64，降低模型的参数，在保证检测效果的基础上，减少计算量，提高检测效率。

在具体的实施过程中，训练后的局部聚集子模型可以接收视觉相关的特征和语音相关的特征，然后通过预设局部聚集子模型中的注意力机制对视觉相关的特征和语音相关的特征进行处理，并将处理后的视觉相关的特征和语音相关的特征的信息输入双向长短时记忆循环神经网络，获得视频对应的类别信息以及类别信息的概率值。

在本公开实施例中，可以使用训练后的空域子模型获取视觉特征，即获取视频对应的视觉相关的特征，然后使用训练后的时域子模型对视频中每秒的语音进行提取，得到视频对应的语音相关的特征，从而可以使用训练后的局部聚集描述模型同时输入视觉相关的特征和语音相关的特征，进而可以获得视频对应的标签。可见，本公开实施例中的基于训练后的视频分类模型对视频进行打标签处理时，可以依据视频自身的时序特点构建视频对应的完整事件，也同时考虑了图像和语音的信息，从而使得对视频标注的标签更加精准。

进一步地，在本公开实施例中，当获得训练后的视频分类模型之后，可以根据该模型对待分类的视频进行检测，具体的，请参见如图3所示的方法流程图对本公开实施例中的视频分类方法进行说明，图3所示的各步骤可以由如图1所示的电子设备执行。

步骤301：确定待分类的视频。

在本公开实施例中，可以接收终端发送的待分类的视频，例如用户上传的待发布的视频，也可以接收其它设备发送的待分类的视频。当电子设备接收到多个视频时，可以按照接收的时间顺序确定视频的顺序，然后可以是按照顺序依次将视频确定为待分类的视频，即待处理的目标视频，当然，也可以是同时将多个视频确定为待分类的视频，即同时对多个视频进行标签标注处理，本公开实施例中不做限制。

步骤302：提取待分类的视频的图像特征，获得待分类的视频的图像特征信息；以及提取待分类的视频的音频信号，并对音频信号进行特征提取处理，获得待分类的视频的语音特征信息。

在本公开实施例中，当确定待分类的视频之后，可以通过前述的训练后的空域子模型提取待分类的视频的图像特征，获得待分类的视频的图像特征信息。具体的，可以通过训练后的空域子模型将待分类的视频均匀划分为固定段数的子视频，并从每个子视频中提取一帧图像，获得待处理帧图像集；然后通过训练后的空域子模型对待处理帧图像集中的帧图像进行特征提取处理，获得待分类的视频的图像特征信息。

在本公开实施例中，还可以通过训练后的时域子模型提取待分类的视频的音频信号，并对音频信号进行特征提取处理，获得待分类的视频的语音特征信息。具体的，可以是对每秒的语音进行特征提取，获得语音的特征序列。

步骤303：对图像特征信息和语音特征信息进行上下文转换增强处理，获得目标信息，目标信息用于表征待分类视频中每个帧图像以及每个帧图像与相邻图像所对应的信息。

步骤304：对目标信息进行分类处理，获得对应的多个类别信息和与类别信息对应的概率值，并将概率值大于预设阈值的类别信息对应的标签确定为待分类的视频的类别标签。

在本公开实施例中，可以通过训练后的视频分类模型中的局部聚集子模型对图像特征信息和语音特征信息进行上下文转换增强处理，获得目标信息。进一步地，可以通过训练后的视频分类模型中的局部聚集子模型中的双向长短时记忆循环神经网络，获得视频对应的类别信息以及类别信息的概率值，然后可以将概率值大于预设阈值的类别信息对应的标签确定为待分类的视频的类别标签。

基于同一发明构思，本公开实施例提供了一种视频分类装置，该视频分类装置能够实现前述的视频分类方法对应的功能。该视频分类装置可以是硬件结构、软件模块、或硬件结构加软件模块。该视频分类装置可以由芯片系统实现，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。请参见图4所示，该视频分类装置包括确定单元401、提取单元402、处理单元403以及分类单元404。其中：

确定单元401，被配置为执行确定待分类的视频；

提取单元402，被配置为执行提取所述待分类的视频的图像特征，获得所述待分类的视频的图像特征信息；以及提取所述待分类的视频的音频信号，并对所述音频信号进行特征提取处理，获得所述待分类的视频的语音特征信息；

处理单元403，被配置为执行对所述图像特征信息和所述语音特征信息进行上下文转换增强处理，获得目标信息，所述目标信息用于表征所述待分类视频中每个帧图像以及每个帧图像与相邻图像所对应的信息；

分类单元404，被配置为执行对所述目标信息进行分类处理，获得对应的多个类别信息和与所述类别信息对应的概率值，并将所述概率值大于预设阈值的类别信息对应的标签确定为所述待分类的视频的类别标签。

在一种可能的实施方式中，所述提取单元402，被配置为执行：

在一种可能的实施方式中，所述装置还包括训练单元，所述训练单元被配置为执行：

在一种可能的实施方式中，所述训练单元，被配置为执行：

确定可用的实体标签词语集合；

在一种可能的实施方式中，所述训练单元被配置为执行：

确定所述预设空域子模型对应的损失函数；

前述如图3的视频分类方法的实施例涉及的各步骤的所有相关内容均可以援引到本公开实施例中的视频分类装置所对应的功能单元的功能描述，在此不再赘述。

本公开实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本公开各个实施例中的各功能单元可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

基于同一发明构思，本公开实施例还提供一种电子设备，如图5所示，本公开实施例中的电子设备包括至少一个处理器501，以及与至少一个处理器501连接的存储器502和通信接口503，本公开实施例中不限定处理器501与存储器502之间的具体连接介质，图5中是以处理器501和存储器502之间通过总线500连接为例，总线500在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线500可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本公开实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前述的视频分类方法中所包括的步骤。

其中，处理器501是电子设备的控制中心，可以利用各种接口和线路连接整个故障检测设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，计算设备的各种功能和处理数据，从而对计算设备进行整体监控。可选的，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，处理器501主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本公开实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本公开实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通信接口503是能够用于进行通信的传输接口，可以通过通信接口503接收数据或者发送数据。

参见图6所示的电子设备的进一步地的结构示意图，该电子设备还包括帮助电子设备内的各个器件之间传输信息的基本输入/输出系统(I/O系统)601、用于存储操作系统602、应用程序603和其他程序模块604的大容量存储设备605。

基本输入/输出系统601包括有用于显示信息的显示器606和用于用户输入信息的诸如鼠标、键盘之类的输入设备607。其中显示器606和输入设备607都通过连接到系统总线500的基本输入/输出系统601连接到处理器501。所述基本输入/输出系统601还可以包括输入输出控制器以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备605通过连接到系统总线500的大容量存储控制器(未示出)连接到处理器501。所述大容量存储设备605及其相关联的计算机可读介质为该服务器包提供非易失性存储。也就是说，大容量存储设备605可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

根据本公开的各种实施例，该计算设备包还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即该计算设备可以通过连接在所述系统总线500上的通信接口503连接到网络608，或者说，也可以使用通信接口503来连接到其他类型的网络或远程计算机系统(未示出)。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器502，上述指令可由装置的处理器501执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一些可能的实施方式中，本公开提供的视频分类方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本公开各种示例性实施方式的视频分类方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

确定待分类的视频；

提取所述待分类的视频的图像特征，获得所述待分类的视频的图像特征信息；以及，提取所述待分类的视频的音频信号，并对所述音频信号进行特征提取处理，获得所述待分类的视频的语音特征信息；

2.如权利要求1所述的方法，其特征在于，提取所述待分类的视频的图像特征，获得所述待分类的视频的图像特征信息，包括：

3.如权利要求1所述的方法，其特征在于，若通过训练后的视频分类模型实现对所述待分类的视频的分类，则所述训练后的视频分类模型通过以下方式训练：

4.如权利要求3所述的方法，其特征在于，确定待训练的数据集，包括：

确定可用的实体标签词语集合；

5.如权利要求4所述的方法，其特征在于，将所述待训练的数据集中的视频输入待训练的视频分类模型中的预设空域子模型进行训练，获得训练后的空域子模型，包括：

确定所述预设空域子模型对应的损失函数；

6.一种视频分类装置，其特征在于，所述方法包括：

确定单元，被配置为执行确定待分类的视频；

7.如权利要求6所述的装置，其特征在于，所述提取单元，被配置为执行：

8.如权利要求6所述的装置，其特征在于，若通过训练后的视频分类模型实现对所述待分类的视频的分类，则所述装置还包括训练单元，所述训练单元被配置为执行：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至权利要求5中任一项所述的视频分类方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求5中任一项所述的视频分类方法。