CN113453065A

CN113453065A - 一种基于深度学习的视频分段方法、系统、终端及介质

Info

Publication number: CN113453065A
Application number: CN202110748226.XA
Authority: CN
Inventors: 李志雄
Original assignee: Shenzhen Zhongke Wangwei Technology Co ltd
Current assignee: Shenzhen Zhongke Wangwei Technology Co ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-09-28

Abstract

本发明公开了一种基于深度学习的视频分段方法，包括以下步骤：获取待处理的视频数据，从视频数据中获取音频数据；将所述音频数据转化为文本信息，对文本信息进行预处理和文本向量化，得到词向量；将词向量输入训练好的文本分类模型进行文本分类，输出识别的文本类别；将识别的文本类别与预设的视频分段中的文本类别进行对比；根据符合分段的文本类别对视频数据进行分段。该方法通过将视频中的语音数据转化为文本信息，将文本信息输入文本分类模型中进行预测，输出文本类别，并将输出的文本类别与可视频分段的文本类别进行对比，根据符合分段的文本类别对视频数据进行分段，通过这种方式能快速、准确地对视频分段，提高视频分段的准确性。

Description

一种基于深度学习的视频分段方法、系统、终端及介质

技术领域

本发明涉及视频处理技术领域，具体涉及一种基于深度学习的视频分段方法、系统、终端及介质。

背景技术

随着网络的迅速发展，在线教育成为学生学习知识的重要途径，各种课程中的历程可以记录成不同的资料形态，而要把课程中的历程记录下来最简单的方式就是存储成课程视频。对课程视频进行分析，不仅可以了解教师的教学质量也可以了解学生的学习情况。为了方便观看视频，可以将完整的视频划分为多个分段，便于直接观看感兴趣的分段。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种基于深度学习的视频分段方法及系统，能快速、准确地对视频进行分段。

第一方面，本发明实施例提供的一种基于深度学习的视频分段方法，包括以下步骤：

获取待处理的视频数据，从视频数据中获取音频数据；

将所述音频数据转化为文本信息，对文本信息进行预处理和文本向量化，得到词向量；

将词向量输入训练好的文本分类模型进行文本分类，输出识别的文本类别；

将识别的文本类别与预设的视频分段中的文本类别进行对比；

根据符合分段的文本类别对视频数据进行分段。

可选地，所述对文本信息进行预处理和文本向量化具体包括：

将文本信息进行数据清洗，得到清洗后的文本信息；

将清洗后的文本信息进行分词处理得到文本数据；

将文本数据输入转化模型中转化为分布式表示的词向量。

可选地，所述转化模型为Word2vec模型。

可选地，文本分类模型的训练方法包括：

将词向量分别输入卷积神经网络和分层注意力模型中进行训练，分别得到第一概率预测矩阵和第二概率预测矩阵；

将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合，得到融合后的数据；

将融合后的数据输入到全连接层，预测出文本类别。

第二方面，本发明实施例提供的一种基于深度学习的视频分段系统，包括：获取模块、数据预处理模块、文本分类模块、对比模块和分段模块；

所述获取模块用于获取待处理的视频数据，从视频数据中获取音频数据；

所述数据预处理模块用于将所述音频数据转化为文本信息，对文本信息进行预处理和文本向量化，得到词向量；

所述文本分类模块用于将词向量输入训练好的文本分类模型进行文本分类，输出识别的文本类别；

所述对比模块用于将识别的文本类别与预设的视频分段中的文本类别进行对比；

所述分段模块用于根据符合分段的文本类别对视频数据进行分段。

可选地，所述数据预处理模块包括数据清洗单元、分词单元和转化单元，

所述数据清洗单元用于将文本信息进行数据清洗，得到清洗后的文本信息；

所述分词单元用于将清洗后的文本信息进行分词处理得到文本数据；

所述转化单元用于将文本数据输入转化模型中转化为分布式表示的词向量。

可选地，所述转化模型为Word2vec模型。

可选地，所述文本分类模块包括模型训练单元，所述模型训练单元用于将词向量分别输入卷积神经网络和分层注意力模型中进行训练，分别得到第一概率预测矩阵和第二概率预测矩阵；

将融合后的数据输入到全连接层，预测出文本类别。

第三方面，本发明实施例提供的一种智能终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述实施例描述的方法。

第四方面，本发明实施例提供的一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

本发明的有益效果：

本发明实施例提供的一种基于深度学习的视频分段方法，通过将视频中的语音数据转化为文本信息，将文本信息输入文本分类模型中进行预测，输出文本类别，并将输出的文本类别与可视频分段的文本类别进行对比，根据符合分段的文本类别对视频数据进行分段，通过这种方式能快速、准确地对视频分段，提高视频分段的准确性。

本发明实施例提供的一种基于深度学习的视频分段系统、终端及介质与基于深度学习的视频分段方法出于相同的发明构思，具有相同的有益效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明第一实施例所提供的一种基于深度学习的视频分段方法的流程图；

图2示出了本发明第二实施例所提供的一种基于深度学习的视频分段系统的结构框图；

图3示出了本发明第三实施例所提供的一种智能终端的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，示出了本发明第一实施例所提供的一种基于深度学习的视频分段方法的流程图，该方法包括以下步骤：

获取待处理的视频数据，从视频数据中获取音频数据。

将所述音频数据转化为文本信息，对文本信息进行预处理和文本向量化，得到词向量。

将词向量输入训练好的文本分类模型进行文本分类，输出识别的文本类别。

将识别的文本类别与预设的视频分段中的文本类别进行对比。

根据符合分段的文本类别对视频数据进行分段。

在本实施例中，将音频数据转化为文本信息，对文本信息进行预处理和文本向量化。其中，对文本信息进行预处理和文本向量化具体包括：将文本信息进行数据清洗，得到清洗后的文本信息；将清洗后的文本信息进行分词处理得到文本数据；将文本数据输入转化模型中转化为分布式表示的词向量。分词采用结巴分词工具对文本进行分词处理得到文本数据，将文本数据构建成专用词典。文本表示的作用是将文本转化为数字向量形式。采用经过预训练的Word2vec模型将文本数据转化为数字向量。通过Word2vec模型将文本数据生成关键词词向量，矩阵的每行表示一个词语，而每一行的长度表示词向量的长度，词向量的维度是训练过程中可以调节的超参数。通过词向量的表示方法不仅数据量更小，而且还保留了文本的上下文信息，有利于神经网络模型来处理。采用深度学习的文本分类方法构建分类器，采用神经网络模型来提取文本特征。

在本实施例中，文本分类模型采用卷积神经网络模型和分层注意力模型构建分类器。卷积神经网络构建特征提取器来学习文本特征，完成文本分类等文本处理任务。分层是运用两个基于注意力机制的Bi-LSTM(或者Bi-GRU)模型从两个方面来学习文本的特征，其中两个方面包括训练文本的词语级和句子级结构，这样模型就可以在词语级和句子级两个层次来学习文本的特征。通过输入词向量，模型下层的词语级编码层和注意力层从词语层次提取文本的特征信息，模型上层部分是将词语之间提取的特征向量作为输入，构建一个句子级编码层和注意力层来提取不同句子之间的特征。

在文本分类中，卷积神经网络构建的特征提取器主要分为卷积层、池化层和全连接层。文本分类模型的训练方法包括：将词向量分别输入卷积神经网络和分层注意力模型中进行训练，分别得到第一概率预测矩阵和第二概率预测矩阵；将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合，得到融合后的数据；将融合后的数据输入到全连接层，预测出文本类别。本实施例中采用线性加权的方法将卷积神经网络模型和分层注意力模型进行融合，在训练的过程中通过调节权重大小来提高融合文本分类模型分类的准确性。

在上述的第一实施例中，提供了一种基于深度学习的视频分段方法，与之相对应的，本申请还提供一种基于深度学习的视频分段系统。请参考图2，其为本发明第二实施例提供的一种基于深度学习的视频分段系统的结构框图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

可选地，所述转化模型为Word2vec模型。

将融合后的数据输入到全连接层，预测出文本类别。

以上，为本发明第二实施例提供的一种基于深度学习的视频分段系统的说明。

本发明提供的一种基于深度学习的视频分段系统与上述基于深度学习的视频分段方法出于相同的发明构思，具有相同的有益效果，此处不再赘述。

如图3所示，示出了本发明第三实施例提供的一种智能终端的结构框图，该终端包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一实施例描述的方法。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备可以包括显示器(LCD等)、扬声器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器、输入设备、输出设备可执行本发明实施例提供的方法实施例所描述的实现方式，也可执行本发明实施例所描述的系统实施例的实现方式，在此不再赘述。

在本发明还提供一种计算机可读存储介质的实施例，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

所述计算机可读存储介质可以是前述实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度学习的视频分段方法，其特征在于，包括以下步骤：

获取待处理的视频数据，从视频数据中获取音频数据；

根据符合分段的文本类别对视频数据进行分段。

2.如权利要求1所述的基于深度学习的视频分段方法，其特征在于，所述对文本信息进行预处理和文本向量化具体包括：

将文本信息进行数据清洗，得到清洗后的文本信息；

将清洗后的文本信息进行分词处理得到文本数据；

将文本数据输入转化模型中转化为分布式表示的词向量。

3.如权利要求2所述的基于深度学习的视频分段方法，其特征在于，所述转化模型为Word2vec模型。

4.如权利要求1所述的基于深度学习的视频分段方法，其特征在于，文本分类模型的训练方法包括：

将融合后的数据输入到全连接层，预测出文本类别。

5.一种基于深度学习的视频分段系统，其特征在于，包括：获取模块、数据预处理模块、文本分类模块、对比模块和分段模块；

6.如权利要求5所述的基于深度学习的视频分段系统，其特征在于，所述数据预处理模块包括数据清洗单元、分词单元和转化单元，

7.如权利要求6所述的基于深度学习的视频分段系统，其特征在于，所述转化模型为Word2vec模型。

8.如权利要求5所述的基于深度学习的视频分段系统，其特征在于，所述文本分类模块包括模型训练单元，所述模型训练单元用于将词向量分别输入卷积神经网络和分层注意力模型中进行训练，分别得到第一概率预测矩阵和第二概率预测矩阵；

将融合后的数据输入到全连接层，预测出文本类别。

9.一种智能终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，其特征在于，所述处理器被配置用于调用所述程序指令，执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。