CN111797850A

CN111797850A - 视频分类方法、装置、存储介质及电子设备

Info

Publication number: CN111797850A
Application number: CN201910282007.XA
Authority: CN
Inventors: 何明; 陈仲铭; 李文瑞; 刘耀勇; 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2020-10-20

Abstract

本申请实施例提供一种视频分类方法、装置、存储介质及电子设备，视频分类方法包括：对视频进行分割，得到多个视频片段；获取每一个所述视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量；将所述图像类别概率向量、所述语音类别概率向量、所述语义类别概率向量融合，得到每一个所述视频片段的目标类别概率向量；根据所述目标类别概率向量确定所述视频的类别信息。从图像、语音和语义三个方面进行分类，可以提高视频分类的准确度。

Description

视频分类方法、装置、存储介质及电子设备

技术领域

本申请涉及电子技术领域，特别涉及一种视频分类方法、装置、存储介质及电子设备。

背景技术

随着视频技术和网络技术的发展，尤其是短视频的发展，越来越多的用户开始自己拍摄视频，视频的数量越来越多，而且视频的内容越来越丰富，对视频的分类也要求越来越高。相关技术中的视频分类方法对视频的分类的准确度不高。

发明内容

本申请实施例提供一种视频分类方法、装置、存储介质及电子设备，能够提高视频分类的准确度。

本申请实施例提供一种视频分类方法，其包括：

对视频进行分割，得到多个视频片段；

获取每一个所述视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量；

将所述图像类别概率向量、所述语音类别概率向量、所述语义类别概率向量融合，得到每一个所述视频片段的目标类别概率向量；

根据所述目标类别概率向量确定所述视频的类别信息。

本申请实施例还提供一种视频分类装置，其包括：

分割模块，用于对视频进行分割，得到多个视频片段；

概率向量获取模块，用于获取每一个所述视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量；

目标类别概率向量获取模块，用于将所述图像类别概率向量、所述语音类别概率向量、所述语义类别概率向量融合，得到每一个所述视频片段的目标类别概率向量；

处理模块，用于根据所述目标类别概率向量确定所述视频的类别信息。

本申请实施例还提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述视频分类方法的步骤。

本申请实施例还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行上述视频分类方法的步骤。

本申请实施例提供的视频分类方法、装置、存储介质及电子设备，其首先对视频进行分割，得到多个视频片段；然后获取每一个所述视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量；接着将所述图像类别概率向量、所述语音类别概率向量、所述语义类别概率向量融合，得到每一个所述视频片段的目标类别概率向量；最后根据所述目标类别概率向量确定所述视频的类别信息。本申请实施例从图像、语音和语义三个方面进行分类，可以提高视频分类的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频分类方法的第一种应用场景示意图。

图2为本申请实施例提供的视频分类方法的第一种流程示意图。

图3为本申请实施例提供的视频分类方法的第二种应用场景示意图。

图4为本申请实施例提供的视频分类方法的第二种流程示意图。

图5为本申请实施例提供的视频分类方法的第三种应用场景示意图。

图6为本申请实施例提供的视频分类装置的结构示意图。

图7为本申请实施例提供的电子设备的第一种结构示意图。

图8为本申请实施例提供的电子设备的第二种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

请参阅图1，图1为本申请实施例提供的视频分类方法的第一种应用场景示意图。所述视频分类方法应用于电子设备。电子设备可以是智能手机、平板电脑、游戏设备、增强现实(Augmented Reality，AR)设备、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如手表、眼镜、头盔、电子手链、电子项链、电子衣物等设备。所述电子设备中设置有全景感知架构。所述全景感知架构为电子设备中用于实现所述视频分类方法的硬件和软件的集成。

其中，全景感知架构包括信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。

信息感知层用于获取电子设备自身的信息和/或外部环境中的信息。所述信息感知层可以包括多个传感器。例如，所述信息感知层包括距离传感器、磁场传感器、光线传感器、加速度传感器、指纹传感器、霍尔传感器、位置传感器、陀螺仪、惯性传感器、姿态感应器、气压计、心率传感器等多个传感器。

其中，距离传感器可以用于检测电子设备与外部物体之间的距离。磁场传感器可以用于检测电子设备所处环境的磁场信息。光线传感器可以用于检测电子设备所处环境的光线信息。加速度传感器可以用于检测电子设备的加速度数据。指纹传感器可以用于采集用户的指纹信息。霍尔传感器是根据霍尔效应制作的一种磁场传感器，可以用于实现电子设备的自动控制。位置传感器可以用于检测电子设备当前所处的地理位置。陀螺仪可以用于检测电子设备在各个方向上的角速度。惯性传感器可以用于检测电子设备的运动数据。姿态感应器可以用于感应电子设备的姿态信息。气压计可以用于检测电子设备所处环境的气压。心率传感器可以用于检测用户的心率信息。

数据处理层用于对信息感知层获取到的数据进行处理。例如，数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。

其中，数据清理是指对信息感知层获取到的大量数据进行清理，以剔除无效数据和重复数据。数据集成是指将信息感知层获取到的多个单维度数据集成到一个更高或者更抽象的维度，以对多个单维度的数据进行综合处理。数据变换是指对信息感知层获取到的数据进行数据类型的转换或者格式的转换等，以使变换后的数据满足处理的需求。数据归约是指在尽可能保持数据原貌的前提下，最大限度的精简数据量。

特征抽取层用于对数据处理层处理后的数据进行特征抽取，以提取所述数据中包括的特征。提取到的特征可以反映出电子设备自身的状态或者用户的状态或者电子设备所处环境的环境状态等。

其中，特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。

过滤法是指对提取到的特征进行过滤，以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起，以构建一种更加高效、更加准确的特征提取方法，用于提取特征。

情景建模层用于根据特征抽取层提取到的特征来构建模型，所得到的模型可以用于表示电子设备的状态或者用户的状态或者环境状态等。例如，情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。

智能服务层用于根据情景建模层所构建的模型为用户提供智能化的服务。例如，智能服务层可以为用户提供基础应用服务，可以为电子设备进行系统智能优化，还可以为用户提供个性化智能服务。

此外，全景感知架构中还可以包括多种算法，每一种算法都可以用于对数据进行分析处理，所述多种算法可以构成算法库。例如，所述算法库中可以包括马尔科夫算法、隐含狄里克雷分布算法、贝叶斯分类算法、支持向量机、K均值聚类算法、K近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络、循环神经网络等算法。

请参阅图2，图2为本申请实施例提供的视频分类方法的第一种流程示意图。其中，视频分类方法包括以下步骤：

101，对视频进行分割，得到多个视频片段。

视频可以为电影视频、电视视频、短视频等。短视频可以为个人拍摄的，如个人用智能手机拍摄的短视频等。

视频包括图像内容、音频内容、字幕内容等。其中，音频内容和字幕内容在一些视频中可以仅有其中一项，或都没有。

电子设备获取视频后，对视频进行分割得到多个视频片段。其中，可以根据预设的时间段进行分割，如以10秒划分视频片段，即将视频划分为N个10秒的视频片段。当然，若视频按10秒划分完，还有超出的的但不足10的部分可以单独作为最后一个视频片段，也可以并入最后一个10秒的视频片段。当然，预设的时间段可以根据需要设置，如5秒、8秒、15秒、20秒、60秒等。

视频分割还可以根据视频的帧数划分，如100帧、300帧、500帧、1000帧等。视频分割还可以根据视频内容的连贯性进行划分，如拍摄时，一个镜头连续拍摄的图像(如图像背景)是大致相同的或连贯的，也可以理解为获取图像的镜头为同一个，并且拍摄的时间是连续的。例如，以室内为拍摄场景，镜头拍摄的背景为客厅，演员都在客厅内进行的视频片段，且拍摄角度和位置没有变化。又例如，一个用户手持拍摄设备从客厅走到卧室一直拍摄的视频片段，因为拍摄图像的镜头一直打开且持续拍摄，则这段视频也可以为一个连贯的视频片段，若中途关掉镜头再重新打开，则为两个视频片段。

102，获取每一个视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量。

电子设备根据预设算法分别获取每一个视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量。

图像类别概率向量为根据视频图像进行分类学习得到的类别概率值。

语音类别概率向量为根据视频语音进行分类学习得到的类别概率值。

语义类别概率向量为根据视频语义进行分类学习得到的类别概率值。

103，将图像类别概率向量、语音类别概率向量、语义类别概率向量融合，得到每一个视频片段的目标类别概率向量。

电子设备得到每一个视频片段的图像类别概率向量、语音类别概率向量、语义类别概率向量后，将其融合得到每一个视频片段的目标类别概率向量。其中，可以赋予图像类别概率向量、语音类别概率向量、语义类别概率向量不同的权重，然后将图像类别概率向量、语音类别概率向量、语义类别概率向量分别乘以对应的权重后相加，得到目标类别概率向量。因为图像为最能表达视频类别的参数，所以图像类别概率向量的权重最大。例如，图像类别概率向量、语音类别概率向量、语义类别概率向量的权重可以分别为0.5、0.25、0.25。当然可以根据需要设置为其他比例，如0.5、0.3、0.2等。针对每种类型的类别概率向量设置不同的权重，使得最终融合后的结果更加合理、更加精确。

其中，电子设备可以根据视频的内容进行设置图像类别概率向量、语音类别概率向量、语义类别概率向量的权重。即不同的视频的权重分布可以不同。例如，一个视频中的语音内容特别丰富(如家庭情景剧、小品等)，则该视频的语音类别概率向量的权重可以更高，如0.4、0.4、0.2分布。一个视频中的语音内容特别少(如魔术等)，则该视频的语音类别概率向量的权重可以更低，如0.6、0.2、0.2分布。对应的，图像类别概率向量、语义类别概率向量同样适用，如体育比赛类视频，图像类别概率向量的权重可以更高。如纪录片视频，语义类别概率向量的权重可以更高。其中，权重的设置可以根据视频内容自动调整，如不同类的视频对应不同组权重值。也可以预先设置一组或多组预设权重值，然后根据视频内容对其中一个或多个权重值进行调整。

其中，一些视频片段没有语音信息，则语音类别概率向量的权重值可以按比例或均分给其他两个向量。比例可以为图像类别概率向量和语义类别概率向量的权重比。同样的，一些视频片段没有语义信息，则语义类别概率向量的权重值可以按比例或均分给其他两个向量。

104，根据目标类别概率向量确定视频的类别信息。

电子设备得到目标类别概率向量后，可以选择其中最大概率值的类别信息作为视频的类别信息。可以选择其中最大概率值的几个类别信息(如3个、5个等)作为视频的类别信息。

其中，电子设备可以根据视频的时长来确定视频的类别信息的数目，如视频的时长短，则设置较少(如1个或2个或更多个)的类别信息数目，如视频的时长长，则设置较多(如3个或5个或更多个)的类别信息数目。例如，个人拍摄的5分钟的短视频，则可以设置2个的类别信息数目，2个小时的电源视频，则可以设置5个的类别信息数目。

电子设备也可以根据目标类别概率向量中各个类别信息的概率值来确定数目。可以预先设置一个概率阈值，只要达到该概率阈值的类别信息都作为视频的类别信息。例如，概率阈值为0.6，目标类别概率向量中包括10个类别信息，其中概率值达到0.6的类别信息有7个，则视频类别信息的数目为7个，类别信息对应的概率值都达到了0.6。

本实施例通过从图像、语音、语义三个角度分别学习出相应的类别概率分布，考虑到的信息更多、更全，使得视频片段的分类更加准确和全面。

请参阅图3，图3为本申请实施例提供的视频分类方法的第二种场景示意图。首先视频分割成多个视频片段，然后对每一个视频片段进行类别学习，得到图像类别概率向量、语音类别概率向量和语义类别概率向量，接着将将所述图像类别概率向量、所述语音类别概率向量、所述语义类别概率向量融合，得到每一个所述视频片段的目标类别概率向量，再然后根据目标类别概率向量对相邻两个视频片段进行相似度计算，若相似度高于相似度阈值则进行视频片段合并，直至任意两个相邻的视频片段的相似度低于相似度阈值，最后根据目标类别概率向量对视频分类，得到视频的类别信息。

请参阅图4，图4为本申请实施例提供的视频分类方法的第二种流程示意图。其中，视频分类方法包括以下步骤：

201，对视频进行分割，得到多个视频片段。

202，获取每一个视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量。

其中，电子设备获取每一个视频片段的图像类别概率向量可以对每一个视频片段进行关键帧抽取，得到多帧关键帧；利用预设图像算法对多帧关键帧进行处理，得到对应每一个视频片段的图像类别概率向量。

具体的，基于图像的图像类别概率向量p_1s计算方式，首先对视频片段进行关键帧的抽取，即每一个视频片段获得相应帧数的关键帧。随后，采用预设图像算法(如卷积神经网络、循环神经网络等)对抽取出的关键帧进行分类学习(如羽毛球、聚会、美食等)，学习出类别概率向量p_1s＝(p_1s，1，p_1s，2，...，p_1s，n)。其中，s表示第s个视频片段，n表示第n个类别信息。

其中，电子设备获取每一个视频片段的语音类别概率向量可以获取每一个视频片段的语音信息；利用预设语音算法对语音信息进行处理，得到对应每一个视频片段的语音类别概率向量。

示例性的，基于语音的语音类别概率向量p_2s计算方式可以为首先抽取视频片段的语音信息。随后，采用语音图像算法(如卷积神经网络、循环神经网络等)对提取出的语音片段进行分类学习(如羽毛球、聚会、美食等)，学习出类别概率向量p_2s＝(p_2s，1，p_2s，2，...，p_2s，n)。其中，s表示第s个视频片段，n表示第n个类别信息。

其中，电子设备获取每一个视频片段的语义类别概率向量可以为获取每一个视频片段的文本信息；利用词向量方法得到对文本信息进行处理，得到对应文本信息的文本特征向量；根据临近算法对文本特征向量进行处理，得到对应每一个视频片段的语义类别概率向量。

示例性的，基于语义的语义类别概率向量p_2s计算方式可以为首先抽取视频片段的文本信息。随后，对提取出的文本信息的文字采用词向量的方法获得文本信息的文本特征向量；最后，直接采用临近算法模型(k-NearestNeighbor，kNN)对学习出的文本特征向量进行分类，学习出类别概率向量p_3s＝(p_3s，1，p_3s，2，...，p_3s，n)。其中，s表示第s个视频片段，n表示第n个类别信息。

若该视频片段具有字幕，则直接将字幕作为文本信息；如果视频片段没有字幕，则直接将提取出的语音进行语音识别，提取出文本信息。

需要说明的是，每一个视频片段可以对应一个类别信息，也可以对应多个类别信息。

203，将图像类别概率向量、语音类别概率向量、语义类别概率向量融合，得到每一个视频片段的目标类别概率向量。

204，计算相邻两个视频片段的相似度，当相似度大于相似度阈值时，将相邻的两个视频片段合并得到新的视频片段，直至任意两个相邻视频片段的相似度不大于相似度阈值。

可以采用欧几里得距离计算公式计算相邻片段之间的概率向量的相似度。当相似度大于相似度阈值时，则将相邻片段进行合并；当相似度小于或等于相似度阈值时，不进行合并，作为独立的片段。直至任意两个相邻视频片段的相似度不大于相似度阈值。

其中，电子设备将相邻的两个视频片段的目标类别概率向量进行融合，得到新的视频片段的目标类别概率向量。

示例性的，电子设备可以将相邻两个视频片段的目标类别概率向量乘以对应的权重值后相加，如分别乘以0.5的权重值后相加。若其中一个视频片段为已经是多个视频片段合并后的视频片段，则可以提高该视频片段的权重，如以最原始的视频片段的数量比为权重值比，例如，9个原始视频片段合并后的视频片段与1个原始视频片段的权重比为0.9:0.1。

需要说明的是，204对应的步骤在一些实施例中可以省略。

205，根据目标类别概率向量获取每一个视频片段的一个或多个类别信息。

电子设备得到目标类别概率向量后，对应得到每一个视频片段具有一个或多个类别信息以及其对应的概率值。然后可以获取预设数量(预设数量可以根据用户需要设置，如1个、2个、3个或更多个)的类别信息作为该视频片段的类别信息。例如，选择概率值最大的三个类别信息的作为对应视频片段的类别信息。

电子设备也可以将每一个视频片段的类别信息根据其对应的概率值进行排列，得到列表，然后选取概率值最大的预设数量的类别信息作为该视频片段的类别信息。

电子设备也可以设置概率阈值进行筛选，如大于概率值0.6的均为该视频片段的类别信息。

206，根据类别信息将多个视频片段分成多个视频片段集合，其中，每一个视频片段集合中的每一个视频片段均包括同一个类别信息。

电子设备得到每一个视频片段的一个或多个类别信息后，可以根据类别信息将所有的视频片段进行分类，得到多个视频片段集合，每一个视频片段集合对应一个类别信息，如体育类、电影类、小品类等。因为很多视频片段都可能具有2个或2个以上的类别信息，所以，多个视频片段集合中均有同一个视频片段，也可以理解为很多视频片段在多个视频集合中都有。

其中，可以形成将多个视频片段集合，每一个视频片段集合内可以包括对应多个视频片段的链接地址，如可以按照时间设置，即一个视频片段通过一个时间段来表示。

电子设备得到每一个视频片段的类别信息及其对应的概率后，用户可以根据需要进行剪辑，如得到某个类别信息对应的视频片段集合。

207，从目标类别概率向量中，获取对应视频片段的最大概率的一个或多个类别信息。

每一个视频片段可以对应一个类别信息及其对应的概率值，从而得到对应多个类别信息的多个概率值，然后选取最大概率的一个或多个类别信息。其中，若同一个类别信息具有不同的概率值，则可以选取最大的概率值为该类别信息对应的概率值，也可以根据平均法确定概率值，即将所有概率值相加后平均得到的概率值。

每一个视频片段也可以对应多个类别信息及每一个类别信息对应的概率值，从而得到对应多个类别信息的多个概率值，然后选取最大概率的一个或多个类别信息。其中，若同一个类别信息具有不同的概率值，则可以选取最大的概率值为该类别信息对应的概率值，也可以选取最大的概率值后根据其他概率值进行调整得到最终的概率值。

208，将一个或多个类别信息作为视频的目标类别信息。

电子设备将一个或多个类别信息作为视频的类别信息。可以选择其中最大概率值的一个或多个类别信息(如3个、5个等)作为视频的类别信息。

在一些实施例中，在得到视频的多个目标类别信息之后，视频方法还可以包括：

将多个目标类别信息展示；

获取用户控制指令，并根据控制指令获取对应的目标类别信息；

根据目标类别信息获取对应的视频片段并播放。

电子设备得到视频的多个目标类别信息后，将其展示在电子设备的显示界面上，一个目标类别信息对应一个虚拟按键，当其中一个目标类别信息对应的虚拟按键被用户触发后，获取对应的目标类别信息，然后根据对应的目标类别信息得到对应的一个或多个视频片段，并将该一个或多个视频片段依次播放。其中，目标类别信息也可以通过方式触发，如不设置虚拟按键，只显示多个目标类别信息，然后通过语音输入获取对应的目标类别信息。

本实施例通过从图像、语音、语义三个角度分别学习出相应的类别概率分布，考虑到的信息更多、更全，使得视频片段的分类更加准确和全面。并且每种类型的类别概率向量设置不同的权重，使得最终融合后的结果更加合理、更加精确；通过视频片段目标类别概率向量分布进行视频片段距离计算和合并，简化了视频片段合并的计算过程和视频片段合并的有效性；通过对视频片段多个维度的类别分类，实现了视频片段的语义理解，能够为用户的搜索提供相应的视频片段，还可以极大地简化了用户的视频剪辑操作。

请参阅图5，图5为本申请实施例提供的视频分类方法的第三种场景示意图。在电子设备上播放一个视频，并根据上述实施例的视频分类方法得到该视频的4个类别信息，分别为类别信息A、类别信息B、类别信息C、类别信息D，当其中类别信息B被触发时，电子设备切换为播放类别信息B对应的一个或多个视频片段。例如，电子设备上播放篮球比赛，得到对应的多个球员类别信息，并在显示界面上显示球员A、球员B、球员C和球员D，当球员B对应的标签被触发，电子设备上播放关于球员B的集锦。

在一些实施例中，视频分类方法具体可以包括：电子设备首先通过信息感知层获取用户的电子设备的信息，然后通过数据处理层对电子设备的信息进行处理(如无效数据删除等)，接着再通过特征抽取层从数据处理层处理后的信息中提取出需要的视频信息，情景建模层或数据处理层根据视频信息进行分割，到多个视频片段，然后情景建模层获取每一个视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量，将图像类别概率向量、语音类别概率向量、语义类别概率向量融合，得到每一个视频片段的目标类别概率向量，再根据目标类别概率向量确定视频的类别信息。智能服务层可以向用户展示视频的不同类别信息的多个视频片段，以及根据用户的选择播放对应类别的多个视频片段。

请参阅图6，图6为本申请实施例提供的视频分类装置的结构示意图。视频分类装置400包括分割模块401、概率向量获取模块402、目标类别概率向量获取模块403和处理模块404。

分割模块401，用于对视频进行分割，得到多个视频片段；

概率向量获取模块402，用于获取每一个视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量；

目标类别概率向量获取模块403，用于将图像类别概率向量、语音类别概率向量、语义类别概率向量融合，得到每一个视频片段的目标类别概率向量；

处理模块404，用于根据目标类别概率向量确定视频的类别信息。

本实施例的视频分类装置400可以设置在用户使用的电子设备中。

在一些实施例中，处理模块404，还用于根据目标类别概率向量获取每一个视频片段的一个或多个类别信息；根据类别信息将多个视频片段分成多个视频片段集合，其中，每一个视频片段集合中的每一个视频片段均包括同一个类别信息。

在一些实施例中，处理模块404，还用于从目标类别概率向量中，获取对应视频片段的最大概率的一个或多个类别信息；将一个或多个类别信息作为视频的目标类别信息。

在一些实施例中，处理模块404，还用于将多个目标类别信息展示；获取用户控制指令，并根据控制指令获取对应的目标类别信息；根据目标类别信息获取对应的视频片段并播放。

在一些实施例中，处理模块404，还用于计算相邻两个视频片段的相似度，当相似度大于相似度阈值时，将相邻的两个视频片段合并得到新的视频片段，直至任意两个相邻视频片段的相似度不大于相似度阈值。

在一些实施例中，处理模块404，还用于将相邻的两个视频片段的目标类别概率向量进行融合，得到新的视频片段的目标类别概率向量。

在一些实施例中，目标类别概率向量获取模块403，还用于对每一个视频片段进行关键帧抽取，得到多帧关键帧；利用预设图像算法对多帧关键帧进行处理，得到对应每一个视频片段的图像类别概率向量。

在一些实施例中，目标类别概率向量获取模块403，还用于获取每一个视频片段的语音信息；利用预设语音算法对语音信息进行处理，得到对应每一个视频片段的语音类别概率向量。

在一些实施例中，目标类别概率向量获取模块403，还用于获取每一个视频片段的文本信息；利用词向量方法得到对文本信息进行处理，得到对应文本信息的文本特征向量；根据临近算法对文本特征向量进行处理，得到对应每一个视频片段的语义类别概率向量。

请参阅图7，图7为本申请实施例提供的电子设备的第一种结构示意图。其中，电子设备600包括处理器601和存储器602。处理器601与存储器602电性连接。

处理器601是电子设备600的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或调用存储在存储器602内的计算机程序，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备600中的处理器601会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的计算机程序，从而实现各种功能：

对视频进行分割，得到多个视频片段；

根据所述目标类别概率向量确定所述视频的类别信息。

在一些实施例中，在得到每一个所述视频片段的目标类别概率向量之后，处理器601执行以下步骤：

根据所述目标类别概率向量获取每一个所述视频片段的一个或多个类别信息；

根据所述类别信息将多个视频片段分成多个视频片段集合，其中，每一个所述视频片段集合中的每一个所述视频片段均包括同一个类别信息。

在一些实施例中，在根据所述目标类别概率向量确定所述视频的类别信息时，处理器601执行以下步骤：

从所述目标类别概率向量中，获取对应所述视频片段的最大概率的一个或多个类别信息；

将一个或多个所述类别信息作为所述视频的目标类别信息。

在一些实施例中，在一个或多个所述类别信息作为所述视频的目标类别信息之后，处理器601执行以下步骤：

将所述多个目标类别信息展示；

获取用户控制指令，并根据所述控制指令获取对应所述目标类别信息；

根据所述目标类别信息获取对应的所述视频片段并播放。

计算相邻两个所述视频片段的相似度，当所述相似度大于相似度阈值时，将相邻的两个视频片段合并得到新的视频片段，直至任意两个相邻视频片段的相似度不大于所述相似度阈值。

在一些实施例中，在将相邻的两个视频片段合并得到新的视频片段之后，处理器601执行以下步骤：

将所述相邻的两个视频片段的目标类别概率向量进行融合，得到所述新的视频片段的目标类别概率向量。

在一些实施例中，在获取每一个所述视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量时，处理器601执行以下步骤：

对每一个所述视频片段进行关键帧抽取，得到多帧关键帧；

利用预设图像算法对所述多帧关键帧进行处理，得到对应每一个所述视频片段的图像类别概率向量。

获取每一个所述视频片段的语音信息；

利用预设语音算法对所述语音信息进行处理，得到对应每一个所述视频片段的语音类别概率向量；

和/或

获取每一个所述视频片段的文本信息；

利用词向量方法得到对所述文本信息进行处理，得到对应所述文本信息的文本特征向量；

根据临近算法对文本特征向量进行处理，得到对应每一个所述视频片段的语义类别概率向量。

在一些实施例中，请参阅图8，图8为本申请实施例提供的电子设备的第二种结构示意图。

其中，电子设备600还包括：显示屏603、控制电路604、输入单元605、传感器606以及电源607。其中，处理器601分别与显示屏603、控制电路604、输入单元605、传感器606以及电源607电性连接。

显示屏603可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图像、文本、图标、视频和其任意组合来构成。

控制电路604与显示屏603电性连接，用于控制显示屏603显示信息。

输入单元605可用于接收输入的数字、字符信息或用户特征信息(例如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中，输入单元605可以包括指纹识别模组。

传感器606用于采集电子设备自身的信息或者用户的信息或者外部环境信息。例如，传感器606可以包括距离传感器、磁场传感器、光线传感器、加速度传感器、指纹传感器、霍尔传感器、位置传感器、陀螺仪、惯性传感器、姿态感应器、气压计、心率传感器等多个传感器。

电源607用于给电子设备600的各个部件供电。在一些实施例中，电源607可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图8中未示出，电子设备600还可以包括摄像头、蓝牙模块等，在此不再赘述。

由上可知，本申请实施例提供了一种电子设备，电子设备中的处理器执行以下步骤：获取全景感知信息，并将全景感知信息作为训练样本输入预测模型进行训练，得到训练后预测模型的模型参数；将模型参数发送至服务器；接收服务器返回的共用模型参数，共用模型参数为模型参数与其他用户对应的模型参数联合得到的；根据共用模型参数得到最终预测模型。

本申请实施例还提供一种存储介质，存储介质中存储有计算机程序，当计算机程序在计算机上运行时，计算机执行上述任一实施例所述的视频分类方法。

例如，在一些实施例中，当所述计算机程序在计算机上运行时，所述计算机执行以下步骤：

对视频进行分割，得到多个视频片段；

根据所述目标类别概率向量确定所述视频的类别信息。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上对本申请实施例所提供的视频分类方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频分类方法，其特征在于，包括：

对视频进行分割，得到多个视频片段；

根据所述目标类别概率向量确定所述视频的类别信息。

2.根据权利要求1所述的视频分类方法，其特征在于，所述得到每一个所述视频片段的目标类别概率向量之后，还包括：

3.根据权利要求1所述的视频分类方法，其特征在于，所述根据所述目标类别概率向量确定所述视频的类别信息包括：

将一个或多个所述类别信息作为所述视频的目标类别信息。

4.根据权利要求3所述的视频分类方法，其特征在于，所述将一个或多个所述类别信息作为所述视频的目标类别信息之后，还包括：

将所述多个目标类别信息展示；

获取用户控制指令，并根据所述控制指令获取对应的所述目标类别信息；

根据所述目标类别信息获取对应的所述视频片段并播放。

5.根据权利要求1所述的视频分类方法，其特征在于，所述得到每一个所述视频片段的目标类别概率向量之后，还包括：

6.根据权利要求5所述的视频分类方法，其特征在于，所述将相邻的两个视频片段合并得到新的视频片段之后，还包括：

7.根据权利要求1所述的视频分类方法，其特征在于，所述获取每一个所述视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量包括：

对每一个所述视频片段进行关键帧抽取，得到多帧关键帧；

8.根据权利要求1所述的视频分类方法，其特征在于，所述获取每一个所述视频片段的图像类别概率向量、语音类别概率向量和语义类别概率向量包括：

获取每一个所述视频片段的语音信息；

和/或

获取每一个所述视频片段的文本信息；

9.一种视频分类装置，其特征在于，包括：

分割模块，用于对视频进行分割，得到多个视频片段；

10.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至8任一项所述的视频分类方法。

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求如权利要求1至8任一项所述的视频分类方法。