CN110147846A

CN110147846A - 视频分割方法、装置、设备及存储介质

Info

Publication number: CN110147846A
Application number: CN201910436410.3A
Authority: CN
Inventors: 李�城
Original assignee: Iss Technology Co ltd
Current assignee: Iss Technology Co ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-08-20

Abstract

本发明公开了视频分割方法、装置、设备及存储介质。所述方法包括：确定视频信号中各帧图像对应的描述文本；对各所述描述文本进行聚类，得到聚类后的描述文本；基于聚类后的描述文本和文本图像对应关系，对所述视频信号进行分割，得到预设数量的子视频。利用该方法，能够实现对视频信号的自动分割，得到预设数量的独立语义场景的子视频，提升了对视频信号分割的效率。

Description

视频分割方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及视频分割方法、装置、设备及存储介质。

背景技术

随着通信技术的发展，无线传输的带宽日益增大。视频采集和传输的成本越来越低，大大促进了互联网上视频数据的采集和分享的频次和速度。然而越来越长的视频直播和录制时间，成为了视频分享和消费的门槛，并不利于社交媒体短视频平台的信息分发。

目前需要人工判读视频中的图像后对视频进行分割操作，以得到多个子视频。然而人工进行视频分割使得分割效率较低。

发明内容

本发明实施例提供了视频分割方法、装置、设备及存储介质，以提升视频分割的效率。

第一方面，本发明实施例提供了一种视频分割方法，包括：

确定视频信号中各帧图像对应的描述文本；

对各所述描述文本进行聚类，得到聚类后的描述文本；

基于聚类后的描述文本和文本图像对应关系，对所述视频信号进行分割，得到预设数量的子视频。

可选的，所述确定视频信号中各帧图像对应的描述文本，包括：

根据预先确定的目标检测模型，依次从视频信号中识别与图像对应的目标元素，并将所述目标元素输入预先确定的场景描述模型，得到对应所述目标元素的描述文本，直至确定出所述视频信号中各帧图像对应的描述文本。

可选的，该方法，还包括：

构建并训练检测模型，获得目标检测模型。

可选的，构建并训练检测模型，获得目标检测模型，包括：

构建模型结构为卷积神经网络的检测模型；

基于第一样本元素库训练所述检测模型，获得目标检测模型。

可选的，基于下述操作确定第一样本元素库：

获取第一设定数量的包含第一历史目标元素的历史图像；

确定各所述历史图像所包括的第一历史目标元素；

基于各所述历史图像和对应的第一历史目标元素，形成第一样本元素库。

可选的，该方法，还包括：

构建并训练初始描述模型，获得场景描述模型。

可选的，构建并训练初始描述模型，获得场景描述模型，包括：

构建模型结构为长短期记忆网络的初始描述模型；

基于第二样本元素库训练所述初始描述模型，获得场景描述模型，所述第二样本元素库包括第二设定数量的第二历史目标元素及对应的历史描述文本。

第二方面，本发明实施例还提供了一种视频分割装置，包括：

确定模块，用于确定视频信号中各帧图像对应的描述文本；

聚类模块，用于对各所述描述文本进行聚类，得到聚类后的描述文本；

分割模块，用于基于聚类后的描述文本和文本图像对应关系，对所述视频信号进行分割，得到预设数量的子视频。

第三方面，本发明实施例还提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的视频分割方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的视频分割方法。

本发明实施例提供了视频分割方法、装置、设备及存储介质，利用上述技术方案，能够确定出视频信号中各帧图像对应的描述文本，通过将各描述文本聚类，得到聚类后的描述文本。然后基于聚类后的描述文本和文本图像对应关系，实现对视频信号的自动分割，得到预设数量的独立语义场景的子视频，提升了对视频信号分割的效率。

附图说明

图1为本发明实施例一提供的一种视频分割方法的流程示意图；

图2a为本发明实施例二提供的一种视频分割方法的流程示意图；

图2b为本发明实施例提供的视频分割的流程示意图；

图2c为本发明实施例提供了目标检测模型训练的示意图；

图3为本发明实施例三提供的一种视频分割装置的结构示意图；

图4为本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

图1为本发明实施例一提供的一种视频分割方法的流程示意图，该方法可适用于对视频进行分割的情况，具体的，该方法可适用于对视频长度大于预设数值的视频信号进行分割的情况。预设数值的具体数值不作限定，视频长度大于预设数值的视频信号可以认为是长视频信号。该方法可以由视频分割装置来执行，其中该装置可由软件和/或硬件实现，并一般集成在设备上，在本实施例中设备包括但不限于：个人电脑、服务器等设备。

目前长视频的语义级分割和碎片化精准分发，变得愈发的重要，分割后的短视频，将极大降低用户侧视频消费的时间成本，可进一步促进影像数据的分发和消费。

通过人工进行视频分割，无法应用在互联网社交媒体和直播等大规模视频采集的场景下，本实施例自动实现长视频的语义级分割，即将一个多场景的长视频分割为若干个独立语义场景的短视频，从而达到促进视频影像信息的精准分发和消费的目的。

如图1所示，本发明实施例一提供的一种视频分割方法，包括如下步骤：

S101、确定视频信号中各帧图像对应的描述文本。

在本实施例中，视频信号可以为需要进行视频分割的信号。图像可以为视频信号中所包括的画面帧。描述文本可以理解为图像的语义级描述，如一个男子骑着摩托车。描述文本可以为场景描述文本。

在对视频信号进行分割前，本步骤可以先确定视频信号中各帧图像的描述文本，以基于各描述文本进行语义级的分割。

本步骤可以将视频信号所包括的各帧图像输入预先确定的文本模型，得到视频信号中各帧图像的描述文本。其中，文本模型基于设定数量的历史画面和对应的历史描述文本训练得到。历史画面可以为包括视频信号中待检测的目标元素的画面或包括与视频信号中待检测的目标元素处于同一类别的元素的画面。历史画面对应的历史描述文本可以为该历史画面的场景描述文本。

本步骤在确定描述文本时，还可以通过目标检测模型对图像进行目标检测，然后将检测后的图像输入场景描述模型，得到对应该图像的描述文本。

在通过目标检测模型和场景描述模型确定描述文本时，本步骤可以依次从视频信号中提取一帧图像输入至目标检测模型，得到对应的目标元素，然后将目标元素输入至场景描述模型，得到对应的描述文本，直至视频信号所包括的图像均确定完成或确定完一定数量图像的描述文本。

可以理解的是，为了提升分割效率，本步骤可以不确定出视频信号中全部图像的描述文本，直接基于视频信号中部分图像的描述文本，对视频信号进行分割。

本步骤也可以将视频信号中各图像依次输入至目标检测模型，得到各图像对应的目标元素。然后将各目标元素输入场景描述模型，得到对应各目标元素的描述文本。

S102、对各所述描述文本进行聚类，得到聚类后的描述文本。

得到视频信号的描述文本后，本步骤可以对各描述文本进行聚类操作。聚类操作可以认为是把各描述文本形成的集合，分组成多个类。每个类中的描述文本都是彼此相似的，各类间的描述文本的差别都是大于一定值的。

对各描述文本进行聚类后，可以得到聚类后的描述文本，即各描述文本按照语义进行了分组。基于聚类后的描述文本可以对视频信号进行分割，得到场景独立的子视频。

为了使得长视频所分割的每段短视频具有独立的场景和意义，需要将每帧图像的描述文本通过K-Means聚类算法进行连续帧的聚类，使得聚类后的每一组帧的集合(短视频)，具有观看和传播价值。

K-Means聚类算法思想，即对于给定的样本集(帧的语义描述单词向量集合，即各描述文本)，按照样本之间的距离大小，将样本集划分为K个簇(K个帧的集合，即K个短视频)。让簇内的点尽量紧密的连在一起(帧之间的语义尽量接近)，而让簇间的距离尽量的大(分割的小视频之间语义差异尽量大)。

S103、基于聚类后的描述文本和文本图像对应关系，对所述视频信号进行分割，得到预设数量的子视频。

文本图像对应关系可以理解为视频中图像与该图像的描述文本的对应关系。

得到聚类后的描述文本后，本步骤可以基于聚类后的描述文本和文本图像对应关系，确定各帧图像的分组情况，从而得到预设数量的子视频。

具体的，基于文本图像对应关系，确定聚类后的描述文本所对应的图像。聚类后的描述文本可以转换为处于不同组的图像，基于每组所包括的图像或各组分界出的图像，对视频信号进行分割，得到预设数量的子视频。

其中，预设数量的数值不作限定，可以由聚类操作中确定的簇数决定。聚类操作中的簇数可以根据实际情况设定。

本发明实施例一提供的一种视频分割方法，利用上述方法，能够确定出视频信号中各帧图像对应的描述文本，通过将各描述文本聚类，得到聚类后的描述文本。然后基于聚类后的描述文本和文本图像对应关系，实现对视频信号的自动分割，得到预设数量的独立语义场景的子视频，提升了对视频信号分割的效率。

进一步地，视频分割方法，还包括：构建并训练检测模型，获得目标检测模型。

进一步地，视频分割方法，还包括：构建并训练初始描述模型，获得场景描述模型。

在确定视频信号中各帧图像对应的描述文本时，可以首先使用目标检测模型进行目标检测，然后将检测后的数据输入至场景描述模型，得到对应的描述文本。故，本实施例可以包括确定目标检测模型和场景描述模型的操作。

在确定目标检测模型时，可以首先构建并训练检测模型，此处不限定构建检测模型的手段，如检测模型可以基于卷积神经网络(Convolutional Neural Networks，CNN)或一次多区检测器(Single Shot MultiBox Detector，SSD)构建。

构建检测模型后，基于第一样本元素库训练检测模型，得到目标检测模型。第一样本元素库中可以包括第一设定数量的第一历史目标元素和对应的历史图像。第一历史目标元素可以为目标元素的历史数据和/或与目标元素处于同一类别的元素。

在确定场景描述模型时，可以首先构建并训练初始描述模型，此处不限定构建初始描述模型的手段，如初始描述模型可以为长短期记忆网络(Long Short-Term Memory，LSTM)或循环神经网络(Recurrent Neural Network，RNN)构建。

构建初始描述模型后，基于第二样本元素库训练检测模型，得到场景描述模型。第二样本元素库中可以包括第二设定数量的第二历史目标元素及对应的历史描述文本。经过第二样本元素库训练初始描述模型后，得到场景描述模型。基于该场景描述模型能够确定目标元素对应的描述文本。

需要注意的是，在进行视频分割时，不限定确定目标检测模型和场景描述模型的先后顺序。

实施例二

图2a为本发明实施例二提供的一种视频分割方法的流程示意图，本实施例二在上述各实施例的基础上进行优化。在本实施例中，将确定视频信号中各帧图像对应的描述文本，进一步具体化为：根据预先确定的目标检测模型，依次从视频信号中识别与图像对应的目标元素，并将所述目标元素输入预先确定的场景描述模型，得到对应所述目标元素的描述文本，直至确定出所述视频信号中各帧图像对应的描述文本。

进一步地，本实施例还将构建并训练检测模型，获得目标检测模型，进一步优化为：构建模型结构为一次多区检测器的检测模型；

在上述优化的基础上，将构建并训练初始描述模型，获得场景描述模型，具体优化为：构建模型结构为长短期记忆网络的初始描述模型；

基于第二样本元素库训练所述初始描述模型，获得场景描述模型，所述第二样本元素库包括第二设定数量的第二历史目标元素及对应的历史描述文本。本实施例尚未详尽的内容请参考实施例一。

如图2a所示，本发明实施例二提供的一种视频分割方法，包括如下步骤：

S210、构建模型结构为卷积神经网络的检测模型。

本实施例在确定目标检测模型时，首先构建模型结构为卷积神经网络(Convolutional Neural Networks，CNN)的检测模型。即目标检测过程通过卷积神经网络(Convolutional Neural Networks，CNN)算法实现。

S220、基于第一样本元素库训练所述检测模型，获得目标检测模型。

第一样本元素库可以包括多个历史图像和历史图像所包括的第一历史目标元素的对应关系。

本步骤训练得到的目标检测模型能够进行目标检测，即判断图像所包括目标种类的能力。

构建完检测模型后，本步骤可以基于第一样本元素库训练检测模型，即将第一样本元素库输入至检测模型，供检测模型学习。

第一样本元素库可以包括目标检测模型的应用场景确定，如基于目标检测模型需要检测的目标元素确定，此处不对第一样本元素库所包括的具体内容进行限定。

进一步地，基于下述操作确定第一样本元素库：

获取第一设定数量的包含第一历史目标元素的历史图像；

确定各所述历史图像所包括的第一历史目标元素；

同一目标元素可以对应多个的第一历史目标元素，该第一历史目标元素可以为目标元素或与目标元素处于同一类别的元素在不同时刻、不同位姿下获取的。不同的历史图像可以包括不同的第一历史目标元素。

历史图像的获取手段不作限定，可以为预先收集的。第一设定数量的具体数值不作限定，本领域技术人员可以根据实际情况确定。可以理解的是第一设定数量的数值越大，得到的目标检测模型的准确度可以越高。

获取各历史图像后，可以确定每个历史图像所包括的第一历史目标元素，如对每个历史图像中所包括的第一历史目标元素进行标记，供检测模型学习。然后将各历史图像和对应的历史目标元素形成第一样本元素库，即在第一样本元素库中构建每个历史图像和对应的历史目标元素的对应关系。

S230、构建模型结构为长短期记忆网络的初始描述模型。

在确定场景描述模型时，先构建模型结构为LSTM的初始描述模型，LSTM的学习过程考虑了时间维度信息，善于从时间(顺序)序列数据里提取模式化特征，从而基于训练后的初始模型能够有效进行视频分割。

S240、基于第二样本元素库训练所述初始描述模型，获得场景描述模型，所述第二样本元素库包括第二设定数量的第二历史目标元素及对应的历史描述文本。

第二设定数量的数值不作限定，本领域技术人员可以根据实际情况设定。可以理解的是，第二设定数量的数值越大，场景描述模型的准确度可以越高。

得到初始描述模型后，本步骤可以使用第二样本元素库训练初始描述模型，得到场景描述模型。场景描述模型可以用于确定目标元素的描述文本，即将目标元素输入场景描述模型，场景描述模型输出该目标元素的描述文本。

第二历史目标元素可以理解为目标元素的历史数据和/或与目标元素处于同一类别的元素。第二历史目标元素用于训练初始描述模型。历史描述文本可以对第二历史目标元素的场景进行描述。

基于第二样本元素库训练初始描述模型可以为将第二样本元素库输入初始描述模型，供初始描述模型学习。

S250、根据预先确定的目标检测模型，依次从视频信号中识别与图像对应的目标元素，并将所述目标元素输入预先确定的场景描述模型，得到对应所述目标元素的描述文本，直至确定出所述视频信号中各帧图像对应的描述文本。

确定目标检测模型和场景描述模型后，本步骤可以根据目标检测模型对视频信号中的图像进行目标检测，得到对应的目标元素。然后将检测得到的目标元素输入预先确定的场景描述模型，得到对应该目标元素的描述文本。

具体的，本步骤从视频信号中依次提取图像输入至目标检测模型，并将目标检测模型的检测结果输入至场景描述模型得到对应的描述文本，直至视频信号中各帧图像对应的描述文本均识别成功，即目标检测模型逐帧对视频信号进行目标检测，并将检测得到的目标元素输入至场景描述模型，得到对应的描述文本。

S260、对各所述描述文本进行聚类，得到聚类后的描述文本。

S270、基于聚类后的描述文本和文本图像对应关系，对所述视频信号进行分割，得到预设数量的子视频。

以下对本实施例进行示例性的描述：本实施例的视频分割方法可以认为是基于图像语义分析的长视频分割方法，该方法基于训练后的SSD模型进行目标检测和人脸识别。基于LSTM模型的语义级文本描述和基于K-Means(K均值算法)的视频帧集合聚类技术，实现长视频的语义级分割，即将一个多场景的长视频，分割成为若干个独立语义场景的短视频，从而达到促进视频影像信息的精准分发和消费的目的。

图2b为本发明实施例提供的视频分割的流程示意图。如图2b所示，在进行视频分割时，包括以下步骤：

S1、获取包含多场景的长视频。

S2、通过CNN模型对长视频进行目标检测，识别出画面元素。

目标检测：通过CNN模型实现视频每个单帧画面的目标检测。

目标检测的实现，分为训练和应用两个过程：

A、训练过程

图2c为本发明实施例提供了目标检测模型训练的示意图。参见图2c，使用包含常见物体和目标元素的大量图片素材21，对检测模型进行训练，使得该检测模型具有将待检测画面分区，并判断画面所包含目标种类的能力。

训练过程中，将图片素材21中的目标元素(如：狗)的图片的所有像素点数据，通过输入层22输入CNN神经网络，经过若干个隐含层23的神经元231间激活函数(Activationfunction)的非线性变换后(即前向传播Forward propagation)，经由输出层24进行目标分类。

前向传播算法：a²＝σ(z²)＝σ(a¹*W²+b²)。

其中，上标代表层数，星号表示卷积，b表示偏置项，σ表示激活函数，W为权重值。

在训练的第一次前向传播机制完成后，输出的目标分类结果近乎随机，其中错误的分类结果，通过神经网络的反向传播机制(Back propagation)，将会对神经网络25神经突触的权重值W进行负向调整；反之，正确的分类结果，反向传播机制对神经网络25的神经突触的权重值W进行正向调整。

上述过程通过大量训练样本的多次迭代后，使得该目标检测模型的输出结果对目标的分类正确率达到一定的精度(如99％以上)，即完成该检测模型对目标元素的训练过程，得到目标检测模型。

B、目标检测过程

目标检测过程，与训练过程相反，即通过已经训练好的模型，在输入包含未知目标的图片后，模型给出画面包含的目标类型的分类结果。

S3、通过LSTM模型生成画面元素的场景描述文本。

图片描述：通过LSTM模型实现对单帧画面所表示场景，实现画面的语义级的描述，如：一个男子骑着摩托车。生成语义级的图像场景描述文本。

图片描述过程，使用了LSTM算法，LSTM作为RNN的变体，相对于DNN(Deep NeuralNetwork:深度神经网络)来说，很重要的特性是，LSTM的学习过程考虑了时间维度信息，善于从时间(顺序)序列数据里提取模式化特征。

LSTM模型可以简单理解为，在两套符号体系(目标元素和对应的描述文本)之间构建序列之间的模式化关联特征。

本发明的场景描述模型，将目标检测(CNN以及SSD)模型的语义级画面元素转换成图像的场景描述文本。

LSTM模型的核心是一个记忆单元(memory block)，它在每个时序(顺序)步骤中都包含了在这一步骤中观察到的输入信息，记忆单元的行为由“门”(gates)控制，这些门被多次应用，因此，如果门为1，则可以保留门层的值(记忆)；如果门为0，则可以将该值置零(遗忘)。实际上，LSTM模型使用了三个门来控制：遗忘门f:是否忘记当前记忆单元的值；输入门i:是否它应该读取它的输入；输出门o：是否输出新的单元值。

S4、通过K-Means模型对长视频对应的多个场景描述文本进行聚类，划分场景描述文本。

帧聚类：通过K-Means模型实现整个待分割视频流所有画面的场景描述的聚类，将语义近似的连续帧集合，聚合为独立的场景的短视频。

K-Means模型中k值的选择一般按照实际需求确定或直接给定k值。特征距离采用闵可夫斯基距离算法(Minkowski distance)。

S5、基于划分后的场景描述文本，得到多个子视频。

本发明实施例二提供的一种视频分割方法，具体化了确定描述文本的操作、获取目标检测模型的操作和获取场景描述模型的操作。利用该方法，能够基于目标检测模型进行目标检测，该目标检测模型基于卷积网络构建，具有较高的检测速度和准确度。基于场景描述模型确定目标元素的描述文本，考虑了时间维度，使得视频分割结果更加准确。在得到描述文本时，异步得到各帧图像对应的描述文本，提升了视频分割的效率。

实施例三

图3为本发明实施例三提供的一种视频分割装置的结构示意图，该装置可适用于对视频进行分割的情况，具体的，该方法可适用于对视频长度大于一定值的视频信号进行分割的情况。其中该装置可由软件和/或硬件实现，并一般集成在设备上。

如图3所示，该装置包括：确定模块31、聚类模块32和分割模块33；

其中，确定模块31，用于确定视频信号中各帧图像对应的描述文本；

聚类模块32，用于对各所述描述文本进行聚类，得到聚类后的描述文本；

分割模块33，用于基于聚类后的描述文本和文本图像对应关系，对所述视频信号进行分割，得到预设数量的子视频。

在本实施例中，该装置首先通过确定模块31确定视频信号中各帧图像对应的描述文本；然后通过聚类模块32对各所述描述文本进行聚类，得到聚类后的描述文本；最后通过分割模块33基于聚类后的描述文本和文本图像对应关系，对所述视频信号进行分割，得到预设数量的子视频。

本实施例提供了一种视频分割装置，能够确定出视频信号中各帧图像对应的描述文本，通过将各描述文本聚类，得到聚类后的描述文本。然后基于聚类后的描述文本和文本图像对应关系，实现对视频信号的自动分割，得到预设数量的独立语义场景的子视频，提升了对视频信号分割的效率。

在上述优化的基础上，确定模块31，具体用于：

在上述优化的基础上，该装置还包括：

第一训练模块，用于构建并训练检测模型，获得目标检测模型。

进一步地，第一训练模块，具体用于：构建模型结构为卷积神经网络的检测模型；基于第一样本元素库训练所述检测模型，获得目标检测模型。

进一步地，该装置还包括第一元素库确定模块，用于基于下述操作确定第一样本元素库：

获取第一设定数量的包含第一历史目标元素的历史图像；

确定各所述历史图像所包括的第一历史目标元素；

进一步地，该装置还包括：第二训练模块，用于构建并训练初始描述模型，获得场景描述模型。

进一步地，第二训练模块，具体用于：构建模型结构为长短期记忆网络的初始描述模型；基于第二样本元素库训练所述初始描述模型，获得场景描述模型，所述第二样本元素库包括第二设定数量的第二历史目标元素及对应的历史描述文本。

上述视频分割装置可执行本发明任意实施例所提供的视频分割方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种设备的结构示意图。如图4所示，本发明实施例四提供的设备包括：一个或多个处理器41和存储装置42；该设备中的处理器41可以是一个或多个，图4中以一个处理器41为例；存储装置42用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器41执行，使得所述一个或多个处理器41实现如本发明实施例中任一项所述的视频分割方法。

所述设备还可以包括：输入装置43和输出装置44。

设备中的处理器41、存储装置42、输入装置43和输出装置44可以通过总线或其他方式连接，图4中以通过总线连接为例。

该设备中的存储装置42作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例一或二所提供视频分割方法对应的程序指令/模块(例如，附图3所示的视频分割装置中的模块，包括：确定模块31、聚类模块32和分割模块33)。处理器41通过运行存储在存储装置42中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述方法实施例中视频分割方法。

存储装置42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储装置42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置43可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。

并且，当上述设备所包括一个或者多个程序被所述一个或者多个处理器41执行时，程序进行如下操作：

确定视频信号中各帧图像对应的描述文本；

对各所述描述文本进行聚类，得到聚类后的描述文本；

实施例五

本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行视频分割方法，该方法包括：

确定视频信号中各帧图像对应的描述文本；

对各所述描述文本进行聚类，得到聚类后的描述文本；

可选的，该程序被处理器执行时还可以用于执行本发明任意实施例所提供的视频分割方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频分割方法，其特征在于，包括：

确定视频信号中各帧图像对应的描述文本；

对各所述描述文本进行聚类，得到聚类后的描述文本；

2.根据权利要求1所述的方法，其特征在于，所述确定视频信号中各帧图像对应的描述文本，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

构建并训练检测模型，获得目标检测模型。

4.根据权利要求3所述的方法，其特征在于，构建并训练检测模型，获得目标检测模型，包括：

构建模型结构为卷积神经网络的检测模型；

5.根据权利要求4所述的方法，其特征在于，基于下述操作确定第一样本元素库：

获取第一设定数量的包含第一历史目标元素的历史图像；

确定各所述历史图像所包括的第一历史目标元素；

6.根据权利要求1所述的方法，其特征在于，还包括：

构建并训练初始描述模型，获得场景描述模型。

7.根据权利要求6所述的方法，其特征在于，构建并训练初始描述模型，获得场景描述模型，包括：

构建模型结构为长短期记忆网络的初始描述模型；

8.一种视频分割装置，其特征在于，包括：

确定模块，用于确定视频信号中各帧图像对应的描述文本；

9.一种设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的视频分割方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的视频分割方法。