CN114610948A

CN114610948A - 视频分类方法、装置、电子设备及存储介质

Info

Publication number: CN114610948A
Application number: CN202210239617.3A
Authority: CN
Inventors: 赵波; 胡郡郡; 唐大闰
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-10

Abstract

本发明提供了一种视频分类方法、装置、电子设备及存储介质，该方法包括：获取待处理的目标视频；通过人工智能模型从所述目标视频中识别出目标文本；通过文本分类模型将所述目标文本划分为多种子文本；其中，所述文本分类模型由携带有标签类型的训练文本训练分类器得到；提取每种子文本对应的文本特征；根据所述多种子文本对应的多个文本特征确定所述目标视频的视频类别。本发明通过人工智能模型从视频中识别出目标文本数据，然后将目标文本进行更细粒度划分，得到多种子文本，根据子文本对应的文本特征标识目标视频的视频类别，提高了视频分类的准确率。

Description

视频分类方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能领域，具体而言，涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术

近几年来，随着互联网技术的快速发展，互联网社交平台也得到了快速发展，各种短视频直播平台深受不同规模城市、不同年龄段的人群的追捧，每分钟就会有成千上万的短视频出现，这些短视频由于地域场景的不同，有共性的同时也有个性，因此，对短视频的类别进行准确分类也是一项重要的问题。

科学技术的不断进步，人工智能技术也快速发展，基于多模态技术的研究也越来越多，视频、文本等多模态技术也在不断发展，只有对短视频进行正确的分类，才能与时俱进，满足用户的体验，提供更好的服务。

当前常用的短视频分类方法，有的通过OCR提取短视频中的文本特征来进行分类，但是采用OCR处理方式缺点是简单粗暴，提取到的文本里含有大量的无效文本，会增加短视频识别的噪声，导致对短视频的分类不准确。此外，还有利用ASR技术，将视频的音频转化为文本，该方法的缺点是ASR提取的文本中也会包含噪声，并且有的文本不会出现在音频中，只是用ASR技术会将这部分文本漏掉，也会导致对短视频的分类不准确。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明提供了一种视频分类方法、装置、电子设备及存储介质。

第一方面，本发明提供了一种视频分类方法，所述方法包括：获取待处理的目标视频；通过人工智能模型从所述目标视频中识别出目标文本；通过文本分类模型将所述目标文本划分为多种子文本；其中，所述文本分类模型由携带有标签类型的训练文本训练分类器得到；提取每种子文本对应的文本特征；根据所述多种子文本对应的多个文本特征确定所述目标视频的视频类别。

可选地，所述人工智能模型包括用于进行语音识别的第一人工智能模型和用于进行字符识别的第二人工智能模型，所述通过人工智能模型从所述目标视频中识别出目标文本至少包括以下之一：通过所述第一人工智能模型从所述目标视频中识别出音频信息，并将所述音频信息转换为第一文本；基于预设的抽帧策略从所述目标视频中抽取视频帧图像，经由所述第二人工智能模型识别所述帧图像中包含的文字信息，并将所述文字信息转换为第二文本。

可选地，所述通过文本分类模型将所述目标文本划分为多种子文本至少包括以下之一：所述训练文本的标签类型至少包括用于标记视频中背景音的第一类标签和用于标记视频中主体音的第二类标签，将所述第一文本输入所述文本分类模型，以得到标签类型为所述第一类标签的第一子文本和标签类型为所述第二类标签的第二子文本；所述训练文本的标签类型至少包括用于标记视频帧图像中的字幕的第三类标签和用于标记视频帧图像中的版面的第四类标签，将所述第二文本输入所述文本分类模型，以得到标签类型为所述第三类标签的第三子文本和标签类型为所述第四类标签的第四子文本。

可选地，在提取每种子文本对应的文本特征之后，所述方法还包括：将所述多种子文本中没被选过的目标子文本对应的目标文本特征与预设文本携带的预设标签进行比较；若所述目标文本特征与所述预设标签属于相同的类别，则所述目标子文本与所述目标文本特征对应；否则，所述目标子文本与所述目标文本特征不对应，并确定为所述目标视频中不存在所述目标子文本。

可选地，根据所述多种子文本对应的多个文本特征确定所述目标视频的视频类别包括：将从所述目标视频中抽取到的视频帧图像输入预设的图像分类模型，以进行特征提取，得到多个帧特征；按照时序将所述多个帧特征进行特征拼接，以得到视频帧特征；根据所述多种子文本对应的多个文本特征和所述视频帧特征确定所述目标视频的视频类别。

可选地，所述根据所述多种子文本对应的多个文本特征和所述视频帧特征确定所述目标视频的视频类别包括：对每个文本特征和所述视频帧特征进行求和运算，得到多个第一特征；将所述多个第一特征输入逻辑回归模型以进行特征学习，得到多个权重值，其中，所述权重值用于表征每种子文本影响所述目标视频所属的视频类别的重要程度；利用所述多个文本特征和所述多个权重值标识所述目标视频的视频类别。

可选地，所述利用所述多个文本特征和所述多个权重值标识所述目标视频的视频类别包括：选定所述多个文本特征中没被选过的目标特征，所述目标特征对应目标权重值，对所述目标特征与所述目标权重值进行乘法运算，得到第二特征；对所述多个文本特征对应的多个第二特征进行求和运算，得到第三特征；对所述第三特征进行分类，得到所述第三特征的标签类型；将所述第三特征的标签类型标识为所述目标视频的视频类别。

第二方面，本发明提供了一种视频分类装置，所述装置包括：获取模块，用于获取待处理的目标视频；识别模块，用于通过人工智能模型从所述目标视频中识别出目标文本；划分模块，用于通过文本分类模型将所述目标文本划分为多种子文本；其中，所述文本分类模型由携带有标签类型的训练文本训练分类器得到；提取模块，用于提取每种子文本对应的文本特征；确定模块，用于根据所述多种子文本对应的多个文本特征确定所述目标视频的视频类别。

可选地，所述人工智能模型包括用于进行语音识别的第一人工智能模型和用于进行字符识别的第二人工智能模型，所述识别模块包括以下之一：第一处理单元，用于通过所述第一人工智能模型从所述目标视频中识别出音频信息，并将所述音频信息转换为第一文本；第二处理单元，用于基于预设的抽帧策略从所述目标视频中抽取视频帧图像，经由所述第二人工智能模型识别出所述帧图像中包含的文字信息，并将所述文字信息转换为第二文本。

可选地，所述划分模块包括以下之一：第一分类单元，用于所述训练文本的标签类型至少包括用于标记视频中背景音的第一类标签和用于标记视频中主体音的第二类标签，将所述第一文本输入所述文本分类模型，以得到标签类型为所述第一类标签的第一子文本和标签类型为所述第二类标签的第二子文本；第二分类单元，用于所述训练文本的标签类型至少包括用于标记视频帧图像中的字幕的第三类标签和用于标记视频帧图像中的版面的第四类标签，将所述第二文本输入所述文本分类模型，以得到标签类型为所述第三类标签的第三子文本和标签类型为所述第四类标签的第四子文本。

可选地，所述装置还包括：比较单元，用于在所述提取模块提取每种子文本对应的文本特征之后，将所述多种子文本中没被选过的目标子文本对应的目标文本特征与预设文本携带的预设标签进行比较；第一确定单元，用于当所述目标文本特征与所述预设标签属于相同的类别时，所述目标子文本与所述目标文本特征对应；否则，所述目标子文本与所述目标文本特征不对应，并确定为所述目标视频中不存在所述目标子文本。

可选地，所述确定模块包括：提取单元，用于将从所述目标视频中抽取到的视频帧图像输入预设的图像分类模型，以进行特征提取，得到多个帧特征；拼接单元，用于按照时序将所述多个帧特征进行特征拼接，以得到视频帧特征；第二确定单元，用于根据所述多种子文本对应的多个文本特征和所述视频帧特征确定所述目标视频的视频类别。

可选地，所述第二确定单元包括：第一计算子单元，用于对每个文本特征和所述视频帧特征进行求和运算，得到多个第一特征；学习子单元，用于将所述多个第一特征输入逻辑回归模型以进行特征学习，得到多个权重值，其中，所述权重值用于表征每种子文本影响所述目标视频所属的视频类别的重要程度；标识子单元，用于利用所述多个文本特征和所述多个权重值标识所述目标视频的视频类别。

可选地，所述标识子单元用于：选定所述多个文本特征中没被选过的目标特征，所述目标特征对应目标权重值，对所述目标特征与所述目标权重值进行乘法运算，得到第二特征；对所述多个文本特征对应的多个第二特征进行求和运算，得到第三特征；对所述第三特征进行分类，得到所述第三特征的标签类型；将所述第三特征的标签类型标识为所述目标视频的视频类别。

第三方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明技术方案可以应用于基于计算机视觉的深度学习技术领域。本发明实施例提供的上述技术方案与相关技术相比具有如下有点：

本发明实施例提供的一种视频分类方法，针对待处理的目标视频，通过人工智能模型从目标视频中识别出目标文本数据，然后将目标文本进行更细粒度划分，得到多种子文本，根据子文本对应的文本特征标识目标视频的视频类别，提高了视频分类的准确率，解决了相关技术中对视频分类不准确的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频分类方法的流程示意图；

图2为本发明一具体实施例提供的一种短视频分类示意图；

图3为本发明实施例提供的一种视频分类装置的结构示意图；

图4为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，本发明实施例提供的一种视频分类方法。图1为本发明实施例提供的一种视频分类方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，获取待处理的目标视频；

可以理解的是，本发明的执行主体可以为视频分类装置，还可以是服务器，具体此处不作限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

具体地，服务器从预置的视频数据库中查找待处理的目标视频。

步骤S104，通过人工智能模型从目标视频中识别出目标文本；

本实施例中待处理的目标视频可以为包括音频和文字的视频，也可以为不包括音频的视频，也可以为帧图像中不包括文字的视频等，在此不作限定。

在具体实施时，人工智能模型包括用于进行语音识别的第一人工智能模型和用于进行字符识别的第二人工智能模型，上述步骤S104包括以下至少之一：通过第一人工智能模型从目标视频中识别出音频信息，并将音频信息转换为第一文本；基于预设的抽帧策略从目标视频中抽取视频帧图像，经由第二人工智能模型识别出帧图像中包含的文字信息，并将文字信息转换为第二文本。

以自动语音识别ASR为例，利用自动语音识别ASR提取目标视频中的音频信息，并将音频信息转换为文本数据。

以光学字符识别OCR为例，基于预设的抽帧策略从目标视频中抽取视频帧图像，利用光学字符识别OCR对目标视频中包含的帧图像进行分析，识别帧图像中的字幕、版面等信息。

步骤S106，通过文本分类模型将目标文本划分为多种子文本；其中，文本分类模型由携带有标签类型的训练文本训练分类器得到；

在本实施例的一个可选地示例中，训练文本的标签类型至少包括用于标记视频中背景音的第一类标签和用于标记视频中主体音的第二类标签，将第一文本输入文本分类模型，以得到标签类型为第一类标签的第一子文本和标签类型为第二类标签的第二子文本。

可选地，本实施例中的文本分类模型优选利用训练样本训练二分类模型得到，利用二分类模型将音频数据中的主体音和背景音分离开，从而将音频对应的文本数据划分为包含背景音的子文本数据(即上述第一子文本)和包含主体音的子文本数据(即上述第二子文本)。

进一步地，以利用自动语音识别ASR将目标视频的音频转化为文本数据为例，假如目标视频中的主体没有说话(即没有上述主体音)，而有背景音乐(即存在上述背景音)，ASR技术会也会将背景音乐转为文本，这部分文本对于目标视频的分类来说是无用的，并且还会添加噪声。因此，由于ASR提取的文本数据中会包含噪声，如果直接将ASR得到的文本数据的文本特征结合视频的帧特征来标识目标视频，显然是不准确地。而通过本发明实施例，可以训练一个噪声文本与有用文本的分类器，将两种文本分开，然后将两种文本分别提取特征，并进行分类，对通过语音识别模型得到的音频对应的文本数据进行了更细粒度的划分，提高了ASR文本在目标视频分类的准确率。

在本实施例的一个可选地示例中，训练文本的标签类型至少包括用于标记视频帧图像中的字幕的第三类标签和用于标记视频帧图像中的版面的第四类标签，将第二文本输入文本分类模型，以得到标签类型为第三类标签的第三子文本和标签类型为第四类标签的第四子文本。

可选地，本实施例中的文本分类模型优选利用训练样本训练二分类模型得到，利用二分类模型将视频帧图像中的字幕(即上述第三子文本)和版面(即上述第四子文本)分离开，从而将文字信息对应的文本数据划分为包含字幕的子文本数据和包含版面信息的子文本数据。

进一步地，以利用光学字符识别OCR将目标视频的帧图像中的文字信息提取出来为例，利用OCR技术提取文本，操作简单，但是文本里里会存在很多无效的文本，会增加目标视频类别识别的噪声，如果直接将OCR得到的文本特征结合视频帧特征来标识目标视频，显然也是不准确地，比如在A视频中，字“A”可能从开始到结束都会存在，而这部分文本对于短视频分类来说几乎没有价值。而通过本发明实施例，训练一个字幕识别分类器，将两种文本分开，然后将两种文本分别提取特征，并进行分类，对字符识别模型得到的文本数据进行了更细粒度的划分，可以将文字信息中的字幕信息和版面信息等无效信息分离开，过滤掉无效文本，提高了OCR文本在目标视频分类的准确率。

此外，针对有的文本不会出现在音频中，而是出现在视频帧上，只是用ASR技术会将这部分文本漏掉；利用OCR技术提取文本，文本中不含语义信息，通过利用ASR技术和OCR技术的结合得到的音频文本和文字文本，再经过分类模型对不同文本进行的细粒度划分，可提高短视频分类的准确率。

步骤S108，提取每种子文本对应的文本特征；

本实施例中，优选Bert网络对多种子文本进行特征提取，以提取出能够标记子文本所属的标签类型的文本特征。

步骤S110，根据多种子文本对应的多个文本特征确定目标视频的视频类别。

在本案的一个可选的实施例中，上述步骤S108之后，还包括：将多种子文本中没被选过的目标子文本对应的目标文本特征与预设文本携带的预设标签进行比较；若目标文本特征与预设标签属于相同的类别，则目标子文本与目标文本特征对应；否则，目标子文本与目标文本特征不对应，并确定为目标视频中不存在目标子文本。在本实施例中，优选Bert网络模型分别提取每个子文本数据对应的文本特征，然后跟预先设定的每种标签类型对应的文本特征进行比较，从而验证经过分类模型分类的结果是否与目标视频中的相关数据匹配，即(即目标文本特征与子文本是否对应)，通过验证进一步地提高了分类的准确率。

在本案的一个可选的实施例中，上述步骤S110包括：将从目标视频中抽取到的视频帧图像输入预设的图像分类模型进行特征提取，得到多个帧特征；按照时序将多个帧特征进行特征拼接，以得到视频帧特征；根据多种子文本对应的多个文本特征和视频帧特征确定目标视频的视频类别。

在本实施例的一个可选示例中，将目标视频按一定的抽帧策略抽帧以后，用resnet50对视频帧提取特征，逐帧提取特征以后，再根据帧的顺序将帧特征拼接在一起，拼接成一个视频帧特征；利用能够表征视频所属标签类型的视频帧特征和能够表征子文本所属标签类型的文本特征的融合，得到融合特征，来标识目标视频，提高了视频的分类的准确率。需要说明的是，目标视频是由多个连续的静止画面组成的，这些连续的静止画面被称为视频帧。

进一步地，根据多种子文本对应的多个文本特征和视频帧特征确定目标视频的视频类别包括：对每个文本特征和视频帧特征进行求和运算，得到多个第一特征；将多个第一特征输入逻辑回归模型以进行特征学习，得到多个权重值，其中，权重值用于表征每种子文本影响目标视频所属的视频类别的重要程度；利用多个文本特征和多个权重值标识目标视频的视频类别。

在具体实施时，利用多个文本特征和多个权重值标识目标视频的视频类别包括：选定多个文本特征中没被选过的目标特征，目标特征对应目标权重值，对目标特征与目标权重值进行乘法运算，得到第二特征；对多个文本特征对应的多个第二特征进行求和运算，得到第三特征；对第三特征进行分类，得到第三特征的标签类型；将第三特征的标签类型标识为目标视频的视频类别。

举例来说，比如一个露脸种草的短视频，图2为本发明一具体实施例提供的一种短视频分类示意图，如图2所示，首先，对该短视频进行抽帧，并利用抽帧结果提取OCR文本，以及提取该短视频的ASR文本；

其次，对提取的OCR文本的图片框进行二分类分为字幕文本和其他文本(包括版面等)两类，以及将ASR按标点进行切分，利用分类网络将切分的每一句划分为背景音和主体音两类；

再者，分别将分为字幕和其他文本的OCR文本，用BERT网络提取特征，分别将这两个特征进行分类，判定是否为字幕文本和其他文本；以及，分别将分为主体音和背景音的ASR文本，用BERT网络提取特征，判定是否为主体音和背景音；

进一步地，将抽取的视频帧，利用ResNet50网络提取图片特征，并将图片帧特征组合为视频帧特征，并对该特征进行分类；

在得到背景音的ASR特征、主体音的ASR特征、文本特征1和文本特征2之后，再将视频帧特征分别与背景音的ASR特征、主体音的ASR特征、文本特征1和文本特征2加到一起，然后经过softmax函数(即上述逻辑回归模型)，将经过softmax得到的4个概率值(即上述权重值)，与原来对应的4个文本特征进行相乘，再求和后，最后即可获得短视频事件的类别。

通过上述实施步骤，本发明实施例可以实现将视频转换为文本，并对文本进行细粒度划分，使得可以对文本的特征进行加权，不同文本特征有不同的权重，实现方式简单，可以实现短视频的准确分类，更好的为互联网平台的用户推荐喜欢的短视频。

第二方面，基于上文各个实施例提供的视频分类方法，基于同一发明构思，在本实施例中还提供了一种视频分类装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3为本发明实施例提供的一种视频分类装置的结构示意图，如图3所示，该装置包括：获取模块30，用于获取待处理的目标视频；识别模块32，连接至上述获取模块30，用于通过人工智能模型从目标视频中识别出目标文本；划分模块34，连接至上述识别模块32，用于通过文本分类模型将目标文本划分为多种子文本；其中，文本分类模型由携带有标签类型的训练文本训练分类器得到；提取模块36，连接至上述划分模块34，用于提取每种子文本对应的文本特征；确定模块38，连接至上述提取模块36，用于根据多种子文本对应的多个文本特征确定目标视频的视频类别。

可选地，人工智能模型包括用于进行语音识别的第一人工智能模型和用于进行字符识别的第二人工智能模型，识别模块32包括以下之一：第一处理单元，用于通过第一人工智能模型从目标视频中识别出音频信息，并将音频信息转换为第一文本；第二处理单元，用于基于预设的抽帧策略从目标视频中抽取视频帧图像，经由第二人工智能模型识别出帧图像中包含的文字信息，并将文字信息转换为第二文本。

可选地，划分模块34包括以下之一：第一分类单元，用于训练文本的标签类型至少包括用于标记视频中背景音的第一类标签和用于标记视频中主体音的第二类标签，将第一文本输入文本分类模型，以得到标签类型为第一类标签的第一子文本和标签类型为第二类标签的第二子文本；第二分类单元，用于训练文本的标签类型至少包括用于标记视频帧图像中的字幕的第三类标签和用于标记视频帧图像中的版面的第四类标签，将第二文本输入文本分类模型，以得到标签类型为第三类标签的第三子文本和标签类型为第四类标签的第四子文本。

可选地，上述装置还包括：比较单元，用于在提取每种子文本对应的文本特征之后，将多种子文本中没被选过的目标子文本对应的目标文本特征与预设文本携带的预设标签进行比较；第一确定单元，用于当目标文本特征与预设标签属于相同的类别时，目标子文本与目标文本特征对应；否则，目标子文本与目标文本特征不对应，并确定为目标视频中不存在目标子文本。

可选地，确定模块38包括：提取单元，用于将从目标视频中抽取到的视频帧图像输入预设的图像分类模型，以进行特征提取，得到多个帧特征；拼接单元，用于按照时序将多个帧特征进行特征拼接，以得到视频帧特征；第二确定单元，用于根据多种子文本对应的多个文本特征和视频帧特征确定目标视频的视频类别。

可选地，第二确定单元包括：第一计算子单元，用于对每个文本特征和视频帧特征进行求和运算，得到多个第一特征；学习子单元，用于将多个第一特征输入逻辑回归模型以进行特征学习，得到多个权重值，其中，权重值用于表征每种子文本影响目标视频所属的视频类别的重要程度；标识子单元，用于利用多个文本特征和多个权重值标识目标视频的视频类别。

可选地，标识子单元用于：选定多个文本特征中没被选过的目标特征，目标特征对应目标权重值，对目标特征与目标权重值进行乘法运算，得到第二特征；对多个文本特征对应的多个第二特征进行求和运算，得到第三特征；对第三特征进行分类，得到第三特征的标签类型；将第三特征的标签类型标识为目标视频的视频类别。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现第一方面提供的语句翻译方法的步骤。

图4示出了一个实施例中计算机设备的内部结构图。如图4所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏等。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可以存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现视频分类方法。该内存储器中也可以储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行视频分类方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本发明提供的视频分类装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该翻译装置的各个程序模块，比如，图3所示的获取模块30、识别模块32、划分模块34、提取模块36、确定模块38。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本发明各个实施例的视频分类方法中的步骤。

例如，图4所示的计算机设备可以通过如图3所示的视频分类装置中的获取模块30执行获取待处理的目标视频；计算机设备可以通过识别模块32执行通过人工智能模型从目标视频中识别出目标文本；计算机设备可以通过划分模块34执行通过文本分类模型将目标文本划分为多种子文本；其中，文本分类模型由携带有标签类型的训练文本训练分类器得到；计算机设备可以通过提取模块36执行提取每种子文本对应的文本特征；计算机设备可以通过确定模块38执行根据多种子文本对应的多个文本特征确定目标视频的视频类别。

可理解的是，本发明实施例提供的计算机设备，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的视频分类方法的步骤。

可理解的是，本发明实施例提供的计算机可读存储介质，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。

可理解的是，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取待处理的目标视频；

通过人工智能模型从所述目标视频中识别出目标文本；

通过文本分类模型将所述目标文本划分为多种子文本；其中，所述文本分类模型由携带有标签类型的训练文本训练分类器得到；

提取每种子文本对应的文本特征；

根据所述多种子文本对应的多个文本特征确定所述目标视频的视频类别。

2.根据权利要求1所述的方法，其特征在于，所述人工智能模型包括用于进行语音识别的第一人工智能模型和用于进行字符识别的第二人工智能模型，所述通过人工智能模型从所述目标视频中识别出目标文本至少包括以下之一：

通过所述第一人工智能模型从所述目标视频中识别出音频信息，并将所述音频信息转换为第一文本；

基于预设的抽帧策略从所述目标视频中抽取视频帧图像，经由所述第二人工智能模型识别出所述帧图像中包含的文字信息，并将所述文字信息转换为第二文本。

3.根据权利要求2所述的方法，其特征在于，所述通过文本分类模型将所述目标文本划分为多种子文本至少包括以下之一：

所述训练文本的标签类型至少包括用于标记视频中背景音的第一类标签和用于标记视频中主体音的第二类标签，将所述第一文本输入所述文本分类模型，以得到标签类型为所述第一类标签的第一子文本和标签类型为所述第二类标签的第二子文本；

所述训练文本的标签类型至少包括用于标记视频帧图像中的字幕的第三类标签和用于标记视频帧图像中的版面的第四类标签，将所述第二文本输入所述文本分类模型，以得到标签类型为所述第三类标签的第三子文本和标签类型为所述第四类标签的第四子文本。

4.根据权利要求1所述的方法，其特征在于，在提取每种子文本对应的文本特征之后，所述方法还包括：

将所述多种子文本中没被选过的目标子文本对应的目标文本特征与预设文本携带的预设标签进行比较；

若所述目标文本特征与所述预设标签属于相同的类别，则所述目标子文本与所述目标文本特征对应；否则，所述目标子文本与所述目标文本特征不对应，并确定为所述目标视频中不存在所述目标子文本。

5.根据权利要求1所述的方法，其特征在于，根据所述多种子文本对应的多个文本特征确定所述目标视频的视频类别包括：

将从所述目标视频中抽取到的视频帧图像输入预设的图像分类模型，以进行特征提取，得到多个帧特征；

按照时序将所述多个帧特征进行特征拼接，以得到视频帧特征；

根据所述多种子文本对应的多个文本特征和所述视频帧特征确定所述目标视频的视频类别。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多种子文本对应的多个文本特征和所述视频帧特征确定所述目标视频的视频类别包括：

对每个文本特征和所述视频帧特征进行求和运算，得到多个第一特征；

将所述多个第一特征输入逻辑回归模型以进行特征学习，得到多个权重值，其中，所述权重值用于表征每种子文本影响所述目标视频所属的视频类别的重要程度；

利用所述多个文本特征和所述多个权重值标识所述目标视频的视频类别。

7.根据权利要求6所述的方法，其特征在于，所述利用所述多个文本特征和所述多个权重值标识所述目标视频的视频类别包括：

选定所述多个文本特征中没被选过的目标特征，所述目标特征对应目标权重值，对所述目标特征与所述目标权重值进行乘法运算，得到第二特征；

对所述多个文本特征对应的多个第二特征进行求和运算，得到第三特征；

对所述第三特征进行分类，得到所述第三特征的标签类型；

将所述第三特征的标签类型标识为所述目标视频的视频类别。

8.一种视频分类装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的目标视频；

识别模块，用于通过人工智能模型从所述目标视频中识别出目标文本；

划分模块，用于通过文本分类模型将所述目标文本划分为多种子文本；其中，所述文本分类模型由携带有标签类型的训练文本训练分类器得到；

提取模块，用于提取每种子文本对应的文本特征；

确定模块，用于根据所述多种子文本对应的多个文本特征确定所述目标视频的视频类别。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。