CN113539304A

CN113539304A - 视频拆条方法和装置

Info

Publication number: CN113539304A
Application number: CN202010315890.0A
Authority: CN
Inventors: 陈大友; 金鑫; 涂丹丹
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2021-10-22
Anticipated expiration: 2040-04-21
Also published as: CN113539304B

Abstract

本申请提供了一种视频拆条方法和装置，根据多个模态的信息来决定视频拆分点，从而提高视频拆条的准确性。第一方面，提供了一种视频拆条方法，该方法包括：根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段；提取多个细粒度拆条片段中每个细粒度拆条片段的特征，特征包括图片特征、音频特征；根据第一神经网络模型对多个细粒度拆条片段的特征进行处理，以得到视频的拆分点预测序列，拆分点预测序列包括多个拆分点和多个拆分点对应的概率。

Description

视频拆条方法和装置

技术领域

本申请涉及视频加工领域，并且更具体地，涉及一种视频拆条方法和装置。

背景技术

随着电视广播和互联网视频技术的发展，存储和视频采集设备成本的降低，以及各种智能终端设备的普及，海量视频被生产出来的同时，广大用户对各类视频的点播需求也越来越大。海量的视频需要经过二次加工后形成新媒体节目，最终再呈现给用户。视频拆条是将一段长的视频拆分成多个不同主题的片段，是视频二次加工中最主要和最重要的一个步骤。传统的视频拆条是由人工拆分，即工作人员先浏览视频素材，理解视频后再进行拆分。这种拆分方法效率低、实时性差，不能满足日益增长的多媒体市场需求。

已有的视频自动拆条方法只根据单个模态的信息来决策拆分点，对于结构复杂、内容多样的视频，这种拆条方法可能导致拆分不准确。

发明内容

本申请提供一种视频拆条方法和装置，根据多个模态的信息来决定视频拆分点，从而提高视频拆条的准确性。

第一方面，提供了一种视频拆条方法，该方法包括：根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段；提取多个细粒度拆条片段中每个细粒度拆条片段的特征，特征包括图片特征、音频特征；根据第一神经网络模型对多个细粒度拆条片段的特征进行处理，以得到视频的拆分点预测序列，拆分点预测序列包括多个拆分点和多个拆分点对应的概率。

对于结构复杂、内容多样的新闻视频或互联网视频，准确的拆条需要系统性的视频内容理解。视频拆条需要解决两个主要问题，一是要保证拆条的边界干净，即画面完整性和音频完整性，二是要保证拆分点的准确性。本申请实施例提供的视频拆条方法，先根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段，保证拆条的边界干净；然后根据视频片段的图片特征、音频特征等多个模态特征，结合神经网络模型得到视频的拆分点预测序列，保证拆分点的准确性。

结合第一方面，在第一方面的某些实现方式中，特征还包括字幕特征。

对于有字幕的视频，本申请实施例的视频拆条方法还包括根据视频片段的字幕特征来获取视频的拆分点预测序列。

结合第一方面，在第一方面的某些实现方式中，第一神经网络模型为多模态融合拆条检测器模型。

结合第一方面，在第一方面的某些实现方式中，根据第一神经网络模型对多个细粒度拆条片段的特征进行处理之前，该方法还包括：对多个细粒度拆条片段的特征在时间维度上进行对齐。

将多个细粒度拆条片段的特征在时间维度上进行对齐，使得同一时间段内的图片特征、音频特征和/或字幕特征为一组特征，提高视频拆条的准确性。

第二方面，提供了一种训练神经网络模型的方法，该方法包括：获取训练数据，训练数据包括多个视频片段的特征和多个视频片段对应的标准拆分点序列，特征包括图片特征、音频特征；根据训练数据对初始神经网络模型进行训练；当神经网络模型根据多个视频片段的特征得到的视频的拆分点预测序列与标准拆分点序列的差异满足预设条件时，得到第一神经网络模型，拆分点预测序列包括一个或多个拆分点和一个或多个拆分点对应的概率。

本申请实施例的方法还包括神经网络模型的训练方法，该训练好的神经网络模型可以用于执行根据细粒度拆条片段的特征得到拆分点预测序列，提高视频拆条的准确性。

结合第二方面，在第二方面的某些实现方式中，特征还包括字幕特征。

第三方面，提供了一种视频拆条装置，该装置包括：处理器，用于根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段；处理器还用于，提取多个细粒度拆条片段中每个细粒度拆条片段的特征，特征包括图片特征、音频特征；处理器还用于，根据第一神经网络模型对多个细粒度拆条片段的特征进行处理，以得到视频的拆分点预测序列，拆分点预测序列包括多个拆分点和多个拆分点对应的概率。

结合第三方面，在第三方面的某些实现方式中，特征还包括字幕特征。

结合第三方面，在第三方面的某些实现方式中，第一神经网络模型为多模态融合拆条检测器模型。

结合第三方面，在第三方面的某些实现方式中，处理器根据第一神经网络模型对一个或多个细粒度拆条片段的特征进行处理之前，处理器还用于：对多个细粒度拆条片段的特征在时间维度上进行对齐。

第四方面，提供了一种训练神经网络模型的装置，该装置包括：传输接口和处理器；传输接口用于获取训练数据，训练数据包括多个视频片段的特征和多个视频片段对应的标准拆分点序列，特征包括图片特征、音频特征；处理器被配置为用于执行如下步骤：根据训练数据对初始神经网络模型进行训练；当神经网络模型根据多个视频片段的特征得到的视频的拆分点预测序列与标准拆分点序列的差异满足预设条件时，得到第一神经网络模型，拆分点预测序列包括一个或多个拆分点和一个或多个拆分点对应的概率。

结合第四方面，在第四方面的某些实现方式中，特征还包括字幕特征。

第五方面，提供了一种充电认证的装置，该装置包括：存储器、处理器，存储器中存储代码和数据，存储器与处理器耦合，处理器运行存储器中的代码使得装置执行上述第一方面或第二方面中的任意一种实现方式中的方法。

第六方面，提供了一种计算机可读存储介质，其上存储有指令，该指令被执行时执行上述第一方面或第二方面中的任意一种实现方式中的方法。

第七方面，提供了一种计算机程序产品，包括：指令，当计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或第二方面中的任意一种实现方式中的方法。

第八方面，提供一种芯片，芯片包括处理器与数据接口，处理器通过数据接口读取存储器上存储的指令，执行上述第一方面或第二方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，芯片还可以包括存储器，存储器中存储有指令，处理器用于执行存储器上存储的指令，当指令被执行时，处理器用于执行第一方面或第二方面中的任意一种实现方式中的方法。

附图说明

图1是本申请实施例的一种视频拆条系统的架构示意图；

图2是本申请实施例的一种现有视频拆条方法的示意性框图；

图3是本申请实施例的一种视频拆条方法的示意性流程图；

图4是本申请实施例的一种训练神经网络模型的方法；

图5是本申请实施例的一种视频拆条方法的示意性框图；

图6是本申请实施例中对视频进行细粒度拆条的方法的示意性框图；

图7是本申请实施例的多模态融合精确拆条过程的示意性框图；

图8是本申请实施例的多模态融合拆条检测器的神经网络模型结构；

图9是本申请实施例的视频拆条装置的硬件结构示意图；

图10是本申请实施例的模型训练装置的硬件结构示意图。

具体实施方式

为了便于理解本申请的技术方案，首先对本申请涉及的概念做简要介绍。

深度学习(deep learning，DL)：一类基于深层次神经网络算法的机器学习技术，其主要特征是使用多重非线性变换结构对数据进行处理和分析。主要应用于人工智能领域的感知、决策等场景，例如图像和语音识别、自然语言翻译、计算机博弈等。

由于本申请实施例涉及神经网络的应用，为了便于理解，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)循环神经网络(recurrent neural networks，RNN)是用来处理序列数据的。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题，但是却仍然对很多问题无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层本层之间的节点不再无连接而是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。

既然已经有了卷积神经网络，为什么还要循环神经网络？原因很简单，在卷积神经网络中，有一个前提假设是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，再比如一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去__。这里填空，人类应该都知道是填“云南”。因为人类会根据上下文的内容进行推断，但如何让机器做到这一步？RNN就应运而生了。RNN旨在让机器像人一样拥有记忆的能力。因此，RNN的输出就需要依赖当前的输入信息和历史的记忆信息。

(5)长短时记忆模型(long short term memory，LSTM)是一种特殊的RNN网络，在普通RNN基础上，在隐含层各神经单元中增加记忆单元，从而使时间序列上的记忆信息可控，每次在隐含层各单元间传递时通过几个可控门(忘记门、输入门、输出门)，可以控制之前信息和当前信息的记忆和遗忘程度，从而使RNN具备了长期记忆功能。忘记门用于决定单元中需要丢弃哪些信息，输入门用于决定单元中添加哪些新的信息，输出门用于判断要输出单元的哪些部分。由于独特的设计结构，LSTM适合处理和预测时间序列中间隔和延迟较长的事件。

视频拆条系统在互联网视频分析和广电视频编辑生产中有着广泛的应用。图1示出了一种典型的视频拆条系统的架构。如图1所示，采集好的视频被传输给视频拆条系统，经过视频拆条系统分析和拆分后得到拆条结果，根据拆条结果做视频再发布。

现有的一种视频拆条的方法，是针对新闻视频，基于画面帧计算画面相似度和分析关键人物，结合先验规则，把关键人物出现点作为拆分点而进行新闻视频拆分。

这种方法只利用了画面帧单模态的视频人物分析，缺乏音频和字幕信息，因此只能解决关键人物切换时候的主题拆分。这会导致拆分边界不精确，无关键人物的主题切换情形无法拆分，或者关键人物切换但是主题不变时依然被拆分，拆分误差较大。

图2示出了现有的另一种视频拆条方法的示意性框图。该方法同样针对新闻视频，首先根据新闻视频解码图片和音频，根据解码的图片进行主持人检测和字幕检测，根据解码的音频进行语音停顿检测。然后通过启发式规则获取新闻条目边界的视觉候选点(支持人拆分点、字幕拆分点)和语音候选点(语音停顿点)。最后将视觉候选点和语音候选点基于启发式规则进行多模态融合合并作为最终的视频拆分点。最终多模态的融合只是在决策层的简单结果合并。

这种方法根据主持人、字幕、语音等三个模态的信息，分别单独分析得到拆分点，再基于一定规则合并为最终的拆分点。由于模态间的信息没有有效的融合互补，导致拆条容易碎片化，而且单模态拆分的误差叠加后可能造成更大的拆分误差，此外，这种方法依然没有解决在没有关键人物时的主题切换情况下的视频拆分。

现有的再一种针对新闻视频的自动拆条方法，包括，初始化广播电视数据自动获得新闻节目音频波形和视频图像；提取新闻数据的音视频特征，包括主持人检测、字幕检测与跟踪和语音检测；通过启发式规则获取新闻条目边界的视觉候选点和语音候选点；根据音视频融合实现对新闻条目边界的定位计算；上述步骤提供的处理结果，经人工审核后，结果入知识库作为支撑监管需求的知识资源。

这种方法是基于传统模型进行主持人和字幕跟踪，寻找的单模态拆分点本身误差比较大。主持人、字幕、语音等三个模态的信息，也是在决策层基于一定规则合并成最终的拆分点，依然无法解决在没有关键人物时的主题切换情况下的视频拆分。

对于结构复杂、内容多样的新闻视频或互联网视频，准确的拆条需要系统性的视频内容理解。视频拆条需要解决两个主要问题，一是要保证拆条的边界干净，即画面完整性和音频完整性，二是要保证拆分点的准确性。单个模态的信息不足以准确判断主题的变换，例如画面没有切换的情况下，解说的主题变换，则单靠画面信息是不足以判定的；再例如字幕切换而解说的主题没有变换，则单靠文字的信息也是不足以判定的。因此，准确的视频拆条需要对视频画面、字幕和语音等多个模态的综合分析才能准确判定主题的变换。

图3示出了本申请实施例提供的一种视频拆条方法的示意性流程图，如图3所示，本申请实施例的视频拆条方法包括步骤301至步骤303，以下分别对这些步骤进行详细介绍。

S301，根据视频的镜头切换点和该视频的语音停顿点获取视频的多个细粒度拆条片段。

具体地，对于待处理的视频，首先提取该视频的视频帧和音频。

然后根据视频帧获取镜头切换点。具体地，可以根据神经网络模型，提取视频帧的特征，通过比对当前视频帧与前一视频帧的特征距离，如果特征距离比较大，则判定为发生了镜头切换。其中，该神经网络模型可以是用于根据视频帧的特征判定是否发生镜头切换的任一神经网络模型，本申请实施例对此不做限定。

再根据音频获取语音停顿点。具体地，可以对音频信号进行物理波形分析，选取波动振幅较小点为音频停顿点。

应理解，根据视频帧获取镜头切换点的过程和根据音频获取语音停顿点的过程可以先后进行，也可以同时进行，本申请实施例对此不做限定。

最后根据视频的镜头切换点和该视频的语音停顿点获取视频的多个细粒度拆条片段。具体地，在同时发生镜头切换和语音停顿的位置处对视频进行拆条。例如，可以选取镜头切换点，然后判定该镜头切换点是否也发生了语音停顿，如果该镜头切换点也发生了语音停顿，则在该位置处对视频进行拆条，如果该镜头切换点没有发生语音停顿，则不在该位置处对视频进行拆条。由此可以得到视频的多个细粒度拆条片段。

S302，提取多个细粒度拆条片段中每个细粒度拆条片段的特征，该特征包括图片特征、音频特征。

具体地，对于一个细粒度拆条片段，提取该细粒度拆条片段的视频帧和音频。

根据视频帧获取该细粒度拆条片段的图片特征。具体地，可以将该视频帧输入图片特征提取器提取该细粒度拆条片段的图片特征。其中，图片特征提取器可以是任一种用于提取图片特征的神经网络模型，本申请实施例对此不做限定。

根据音频获取该细粒度拆条片段的音频特征。具体地，可以将该音频输入音频特征提取器提取该细粒度拆条片段的音频特征。其中，音频特征提取器可以是任一种用于提取音频特征的神经网络模型，本申请实施例对此不做限定。

可选地，本申请实施例的视频拆条方法还包括，根据视频帧获取该细粒度拆条片段的字幕特征。具体地，可以先通过光学字符识别技术获取该片段的光学字符识别(optical character recognition，OCR)字幕，然后将该OCR字幕输入字幕特征提取器提取该片段的字幕特征。其中字幕特征提取器可以是任一种用于提取字幕特征的神经网络模型，本申请实施例对此不做限定。

由此，根据以上方法，对于多个细粒度拆条片段，可以获取多个图片特征、多个音频特征和/或字幕特征。

S303，根据第一神经网络模型对多个细粒度拆条片段的特征进行处理，以得到该视频的拆分点预测序列，拆分点预测序列包括多个拆分点和多个拆分点对应的概率。

具体地，可以将上述多个细粒度拆条片段的多个图片特征、多个音频特征和/或多个字幕特征作为第一神经网络模型的输入，第一神经网络模型的输出为该视频的拆分点预测序列。其中，该拆分点预测序列包括多个拆分点和多个拆分点对应的概率，多个拆分点中的每个拆分点表示该视频可能拆分的位置，每个拆分点对应的概率表示该视频在该位置处拆分的可能性。

可选地，在根据第一神经网络模型对多个细粒度拆条片段的特征进行处理之前，本申请实施例的视频拆条方法还包括，对多个细粒度拆条片段的特征在时间维度上进行对齐。具体地，将多个细粒度拆条片段的多个图片特征按照视频播放时间顺序进行排序，将多个音频特征按照视频播放时间顺序进行排序，将多个字幕特征按照视频播放时间顺序进行排序，将同一个时间段内的图片特征、音频特征和/或字幕特征作为同一组特征。由此可以得到多组特征，即为对齐后的特征序列。

第一神经网络模型是用于根据细粒度拆条片段的特征得到拆分点预测序列的神经网络模型，第一神经网络模型可以事先训练，具体过程可以参照如下对于图4的描述。

图4示出了本申请实施例的一种训练神经网络模型的方法，包括步骤401至步骤403，以下分别对这些步骤进行描述。

S401，获取训练数据，训练数据包括多个视频片段的特征和所述多个视频片段对应的标准拆分点序列，特征包括图片特征、音频特征。

其中，多个视频片段的特征可以是根据已有的视频片段提取的图片特征和音频特征，多个视频片段对应的标准拆分点序列可以是人工标定的拆分点。

可选地，视频片段的特征还包括字幕特征。

S402，根据训练数据对初始神经网络模型进行训练。

本申请实施例中的根据训练数据对神经网络模型训练，可以是现有的任一种神经网络模型的训练方法，本申请实施例对此不做限定。

S403，当神经网络模型根据多个视频片段的特征得到的视频的拆分点预测序列与标准拆分点序列的差异满足预设条件时，得到第一神经网络模型，拆分点预测序列包括一个或多个拆分点和一个或多个拆分点对应的概率。

根据图4中的方法训练得到的神经网络模型可以用于图3中根据细粒度拆条片段的特征得到拆分点预测序列。

图5示出了本申请实施例提供的视频拆条方法的示意性框图。如图5所示，本申请实施例提供的视频拆条方法分为两个阶段，第一个阶段为基于镜头切换和语音停顿进行细粒度拆条，第二个阶段为对细粒度拆条片段在特征层进行多模态融合从而得到精确拆条结果。具体如下。

首先将需要进行拆条的视频进行解码，得到解码后的图片或频帧和解码后的音频。由于视频是一种视觉信号和音频信号的共载体，因此视频拆条的基本要求就是拆分后的视频画面和音频都要有完整干净的边界。基于此，需要精确检测到画面帧的镜头切换点和音频的停顿点，然后以镜头切换点和音频停顿点作为拆分点，把视频细粒度地拆分为多个连续的片段。图6示出了本申请实施例中对视频进行细粒度拆条的示意性框图。如图6所示，对解码后的图片进行镜头切换检测，得到一个或多个镜头切换点，对解码后的音频进行语音停顿检测，得到一个或多个语音停顿点。然后根据一个或多个镜头切换点和一个或多个语音停顿点得到细粒度拆条结果。例如，在视频的某个位置处，同时存在镜头切换点和语音停顿点，则在该位置处拆分视频；如果在视频的某个位置处，只存在镜头切换点或语音停顿点，或者既不存在镜头切换点也不存在语音停顿点，则不在该位置处拆分视频。

具体地，可以根据神经网络模型确定镜头切换点和音频停顿点。例如，利用神经网络模型提取视频帧的特征，然后对比当前帧与之前帧的特征距离，如果特征距离比较大，则判定为发生了镜头切换点。再例如，利用神经网络模型对音频信号进行物理波形分析，波动振幅较小的点则判定为音频停顿点。

本申请实施例的视频拆条方法首先对视频进行细粒度拆条，保证了细粒度拆条的片段的画面完整性和音频完整性。并且可以将细粒度拆条的片段作为基本单位，来对齐不同模态的特征以便进行第二阶段的特征融合。此外以细粒度拆条片段为基本单位提取特征，可以有效降低多模态融合特征序列在时间方向上的维度。

由于视频中图片、字幕、音频等是融合在一起的整体，需要结合不同模态的信息才能准确地对视频进行理解。因此本申请实施例的多模态融合方法融合字幕、视频帧和音频等三个模态的信息，综合各个模态对拆分点的预测得到精确的视频拆条结果。

图7示出了多模态融合精确拆条过程的示意性框图，具体步骤如下：

1、选取任一个细粒度拆条的片段，提取其中的视频帧和音频。

2、根据视频帧提取该片段的光学字符识别(optical character recognition，OCR)字幕，然后将OCR字幕输入字幕特征提取器，提取该片段的字幕特征。其中，字幕特征提取器可以是一种神经网络模型，用于实现字幕特征提取，本申请实施例在此不作具体限定。

3、将视频帧输入图片特征提取器，提取该片段的图片特征。其中，图片特征提取器可以是一种神经网络模型，用于实现图片特征提取，本申请实施例在此不作具体限定。

4、将音频输入音频特征提取器，提取该片段的音频特征。其中，音频特征提取器可以是一种神经网络模型，用于实现音频特征提取，本申请实施例在此不作具体限定。

5、重复以上步骤1至4，则可以得到多个细粒度拆条的片段的多模态特征。将每个片段作为一个基本单位对三个模态的特征做时间维度上的对齐。例如，有十个细粒度拆条的片段，则对应的，有十组字幕特征、十组图片特征、十组音频特征。将十组字幕特征案子视频播放时间顺序进行排序，将十组图片特征案子视频播放时间顺序进行排序，将十组音频特征案子视频播放时间顺序进行排序，则第一组字幕特征、第一组图片特征、第一组音频特征对齐，记为第一组特征。由此，可以得到十组特征，构成特征序列，每组特征包括字幕特征、图片特征和音频特征。

6、将该特征序列输入多模态融合拆条检测器(multimodal breakpointdetector)，进行特征层面上的多模态融合，最后输出精确拆条结果。

具体地，该多模态融合拆条检测器可以是一个神经网络模型，图8示出了多模态融合拆条检测器的神经网络模型结构，如图8所示，该神经网络模型可以包括一个一维的卷积神经网络CNN和多个长短时记忆模型LSTM。例如输入多个连续片段的特征序列[x¹,x²,...,xⁱ,...x^m]，其中xⁱ表示细粒度拆条的片段中第i个片段的字幕特征、图片特征和音频特征的对齐叠加，即第i组特征。多模态融合拆条检测器输出拆分点预测序列[y¹,y²,...,yⁱ,...y^m]，表示预测该视频有m个位置可能为拆分点，其中yⁱ表示第i个位置为拆分点的概率。

图9是本申请实施例的视频拆条装置900的硬件结构示意图。图9所示的视频拆条装置900包括存储器901、处理器902、通信接口903以及总线904。其中，存储器901、处理器902、通信接口903通过总线904实现彼此之间的通信连接。

存储器901可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器901可以存储程序，当存储器901中存储的程序被处理器902执行时，处理器902和通信接口903用于执行本申请实施例的视频拆条装置的各个步骤。

处理器902可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的视频拆条装置中的单元所需执行的功能，或者执行本申请方法实施例的视频拆条方法。

处理器902还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请实施例的视频拆条方法的各个步骤可以通过处理器902中的硬件的集成逻辑电路或者软件形式的指令完成。具体地，处理器902用于执行如下步骤：

处理器，用于根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段。

处理器还用于，提取多个细粒度拆条片段中每个细粒度拆条片段的特征，特征包括图片特征、音频特征。

处理器还用于，根据第一神经网络模型对多个细粒度拆条片段的特征进行处理，以得到视频的拆分点预测序列，拆分点预测序列包括多个拆分点和多个拆分点对应的概率。

可选地，上述特征还包括字幕特征。

可选地，第一神经网络模型为多模态融合拆条检测器模型。

可选地，处理器还用于，对多个细粒度拆条片段的特征在时间维度上进行对齐。

上述处理器902还可以是通用处理器、数字信号处理器(digital signalprocessing，DSP)、ASIC、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。上述通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器901，处理器902读取存储器901中的信息，结合其硬件完成本申请实施例的视频拆条装置中包括的单元所需执行的功能，或者执行本申请方法实施例的视频拆条方法。

通信接口903使用例如但不限于收发器一类的收发装置，来实现装置900与其他设备或通信网络之间的通信。例如，可以通过通信接口903获取待处理视频或训练数据。

总线904可包括在装置900各个部件(例如，存储器901、处理器902、通信接口903)之间传送信息的通路。

图10是本申请实施例的模型训练装置1000的硬件结构示意图。与上述装置900类似，图10所示的模型训练装置1000包括存储器1001、处理器1002、通信接口1003以及总线1004。其中，存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。

存储器1001可以存储程序，当存储器1001中存储的程序被处理器1002执行时，处理器1002用于执行训练本申请实施例的视频拆条装置的训练方法的各个步骤。

处理器1002可以采用通用的CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现训练本申请实施例的视频拆条装置的训练方法。

处理器1002还可以是一种集成电路芯片，具有信号的处理能力。在实现训练过程中，本申请实施例的视频拆条装置的训练方法的各个步骤可以通过处理器1002中的硬件的集成逻辑电路或者软件形式的指令完成。

应理解，通过图10所示的模型训练装置1000对神经网络模型进行训练，训练得到的神经网络模型就可以用于执行本申请实施例的视频拆条方法了。具体地，通过装置1000对神经网络模型进行训练能够得到图9所示的方法中的多模态融合拆条检测器模型。

具体地，图10所示的装置可以通过通信接口1003从外界获取训练数据以及待训练的初始神经网络模型，然后由处理器根据训练数据对待训练的初始神经网络模型进行训练。

可选地，上述训练数据可以包括多个视频片段的特征和多个视频片段对应的标准拆分点序列，其中，特征包括图片特征、音频特征，可选地，还可以包括字幕特征。训练数据的多个视频片段对应的标准拆分点序列可以是人工预先标注好的视频片段拆分点。

应注意，尽管上述装置900和装置1000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置900和装置1000还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置900和装置1000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置900和装置1000也可仅仅包括实现本申请实施例所必须的器件，而不必包括图9和图10中所示的全部器件。

应理解，本申请实施例中的处理器可以为中央处理单元(central processingunit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random accessmemory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行计算机指令或计算机程序时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频拆条方法，其特征在于，包括：

根据视频的镜头切换点和所述视频的语音停顿点获取所述视频的多个细粒度拆条片段；

提取所述多个细粒度拆条片段中每个细粒度拆条片段的特征，所述特征包括图片特征、音频特征；

根据第一神经网络模型对所述多个细粒度拆条片段的特征进行处理，以得到所述视频的拆分点预测序列，所述拆分点预测序列包括多个拆分点和所述多个拆分点对应的概率。

2.根据权利要求1所述的方法，其特征在于，所述特征还包括字幕特征。

3.根据权利要求1或2所述的方法，其特征在于，所述第一神经网络模型为多模态融合拆条检测器模型。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据第一神经网络模型对所述多个细粒度拆条片段的特征进行处理之前，所述方法还包括：

对所述多个细粒度拆条片段的特征在时间维度上进行对齐。

5.一种训练神经网络模型的方法，其特征在于，包括：

获取训练数据，所述训练数据包括多个视频片段的特征和所述多个视频片段对应的标准拆分点序列，所述特征包括图片特征、音频特征；

根据所述训练数据对初始神经网络模型进行训练；

当所述神经网络模型根据所述多个视频片段的特征得到的所述视频的拆分点预测序列与所述标准拆分点序列的差异满足预设条件时，得到第一神经网络模型，所述拆分点预测序列包括一个或多个拆分点和所述一个或多个拆分点对应的概率。

6.根据权利要求5所述的方法，其特征在于，所述特征还包括字幕特征。

7.一种视频拆条装置，其特征在于，包括：

处理器，用于根据视频的镜头切换点和所述视频的语音停顿点获取所述视频的多个细粒度拆条片段；

所述处理器还用于，提取所述多个细粒度拆条片段中每个细粒度拆条片段的特征，所述特征包括图片特征、音频特征；

所述处理器还用于，根据第一神经网络模型对所述多个细粒度拆条片段的特征进行处理，以得到所述视频的拆分点预测序列，所述拆分点预测序列包括多个拆分点和所述多个拆分点对应的概率。

8.根据权利要求7所述的装置，其特征在于，所述特征还包括字幕特征。

9.根据权利要求7或8所述的装置，其特征在于，所述第一神经网络模型为多模态融合拆条检测器模型。

10.根据权利要求7至9中任一项所述的装置，其特征在于，所述处理器根据第一神经网络模型对所述多个细粒度拆条片段的特征进行处理之前，所述处理器还用于：

对所述多个细粒度拆条片段的特征在时间维度上进行对齐。

11.一种训练神经网络模型的装置，其特征在于，包括：传输接口和处理器；

所述传输接口用于获取训练数据，所述训练数据包括多个视频片段的特征和所述多个视频片段对应的标准拆分点序列，所述特征包括图片特征、音频特征；

所述处理器被配置为用于执行如下步骤：

根据所述训练数据对初始神经网络模型进行训练；

12.根据权利要求11所述的装置，其特征在于，所述特征还包括字幕特征。

13.一种充电认证的装置，其特征在于，所述装置包括：存储器、处理器，所述存储器中存储代码和数据，所述存储器与所述处理器耦合，所述处理器运行所述存储器中的代码使得所述装置执行权利要求1至4中任一项所述的充电认证的方法，或者执行权利要求5或6所述的充电认证的方法。

14.一种计算机可读存储介质，其上存储有指令，其特征在于，该指令被执行时执行如权利要求1至4中任一项所述的充电认证的方法，或者执行权利要求5或6所述的充电认证的方法。

15.一种计算机程序产品，其特征在于，包括：指令，当所述计算机程序产品在计算机上运行时，使得计算机执行如权利要求1至4中任一项所述的充电认证的方法，或者执行权利要求5或6所述的充电认证的方法。