CN108419123B

CN108419123B - 一种教学视频的虚拟切片方法

Info

Publication number: CN108419123B
Application number: CN201810266852.3A
Authority: CN
Inventors: 任光杰; 黄海晖; 张锐; 韩后; 林振潮; 许骏
Original assignee: Guangzhou Institute Of Innovation Internet Educational Research
Current assignee: Chuang'exin Beijing Technology Co ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2020-09-04
Anticipated expiration: 2038-03-28
Also published as: CN108419123A

Abstract

本发明公开了一种教学视频的虚拟切片方法，首先从教学视频中提取出音频数据，由音频数据转换得到的各句子文本组合得到第一文本集合；确定各句子文本起始时间、结束时间和内容信息，对第一文本集合中的各句子文本进行合并处理，得初始视频切片集合；获取初始视频切片集合中各切片的关键词；根据关键词计算相邻两个切片的相似度，最后根据相邻两切片的相似度、相邻两切片之间的时间间隔、相邻两切片各自的时间长度以及相邻两切片各自的句子文本总数确定是否要对相邻两个切片进行合并，得到最终的视频切片集合。本发明能够为用户提供基于语义相似的教学视频切片列表，用户根据关键词可以直接访问到视频中特定知识点位置。

Description

一种教学视频的虚拟切片方法

技术领域

本发明涉及视频处理技术领域，特别涉及一种教学视频的虚拟切片方法。

背景技术

教学视频是一种常见的视频类型，当用户在观看教学视频时，时常想要快速跳到特定的知识点位置，但往往很难准确定位，需要多次调整，甚至逐帧观察才能到达理想位置。

为了快速定位内容位置，制作者可以手工将教学视频切片，并标注上关键字，让用户根据切片信息，快速定位到感兴趣的内容位置。然而在海量视频的环境下，手工切片标注的成本巨大，无法推广。

现有技术中，视频自动切片方案大都是基于场景或图像检测的方式，如影视视频，根据场景的改变来确定切片关键帧；如运动视频或监控视频，根据局部图像的信息变化来确定切片关键帧。教学视频的场景与局部图像变化频率很低，可能整个视频都不切换场景，如讲授型视频；也可能场景或局部图像变化，但其实还在讲授同一个知识单元，如课堂提问、课件页面切换等事件。

因此，应用现有的场景检测或图像检测方式对教学视频进行切片，无法为用户提供准确的、便于操作的切片定位信息，影响用户体验。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种教学视频的虚拟切片方法，该方法能够为用户提供基于语义相似的教学视频切片列表，用户通过关键词可以直接访问到视频中特定知识点位置，为视频资源智能导航及个性化推荐奠定基础。

本发明的目的通过下述技术方案实现：一种教学视频的虚拟切片方法，步骤如下：

步骤S1、首先从教学视频中提取出音频数据，然后由音频数据转换得到各句子文本，由各句子文本组合得到第一文本集合；

步骤S2、获取第一文本集合中每一句子文本在视频中的起始时间、结束时间和内容信息；根据第一文本集合中各句子文本的起始时间和结束时间对其中第一文本集合中的各句子文本进行合并处理，得到第二文本集合，将该第二文本集合作为初始视频切片集合；

步骤S3、针对于初始视频切片集合中的每一切片，选取出该切片的候选关键词，由所有切片的候选关键词依次组合后得到候选关键词集合；

步骤S4、针对于候选关键词集合设定滑动窗口，针对于候选关键词集合中的每一候选关键词，通过移动滑动窗口获取到与该候选关键词处于同一滑动窗口的其他候选关键词，构成该候选关键词的第三集合，通过第三集合中的各候选关键词对该候选关键词进行投票，以得到该候选关键词的投票结果；比较其中的所有候选关键词的投票结果，将投票结果最高的N个候选关键词选取出来构成关键词集合；

步骤S5、针对于初始视频切片集合中的每一切片，将该切片与关键词集合做交集，得到该切片的关键词；

步骤S6、针对于初始视频切片集合中的每一切片，若步骤S5中没有得到该切片的关键词，则分别计算该切片的候选关键词和前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离，将该切片与上述和其向量距离小的切片进行合并处理，通过上述得到合并处理后的视频切片集合；

步骤S7、针对于步骤S6中得到的视频切片集合中的每一切片，从第一切片开始，根据对应关键词计算该切片或该切片所合并到的切片与后一切片之间的相似度，当该切片或该切片所合并到的切片与后一切片之间的相似度大于第一阈值时，则判断该切片或该切片所合并到的切片的结束时间与后一切片的起始时间之间的时间间隔小于第二阈值、该切片或该切片所合并到的切片的时间长度与后一切片的时间长度均小于第三阈值以及该切片或该切片所合并到的切片与后一切片中句子的总数均小于第四阈值时，则将该切片或该切片所合并到的切片合并到后一切片，以得到最终的视频切片集合。

优选的，所述步骤S1中，采用FFMPEG开源框架从MP4格式的教学视频提取出音频；采用语音识别方法将音频转换成JSON格式文本，从而得到各句子文本。

优选的，所述步骤S2中，得到第二文本集合的过程如下：

针对于第一文本集合中的每一句子文本，从第二个句子文本开始，判断该句子文本的起始时间和前一句子文本的结束时间之间的时间间隔是否小于第二阈值时，若是，则将该句子文本与前一句子文本进行合并，或者将该句子文本合并到前一句子文本所合并到的句子文本中；同时，针对于第一文本集合中的每一句子文本，从第一个句子文本开始，判断该句子文本或该句子文本所合并到的句子文本的时间长度是否小于第三阈值时，若是，则将其合并到后一句子文本中。

优选的，所述步骤S3中，针对于初始视频切片集合中的每一切片，选取出该切片的候选关键词的具体过程如下：首先将该切片对应句子文本进行分词和词性标注，然后过滤掉其中的停用词，最后选取出词性为名词、动词、形容词、副词的词集合作为该切片的候选关键词。

优选的，所述步骤S4中，针对于候选关键词集合中的每一候选关键词，通过第三集合中的候选关键词对该候选关键词进行如下公式的迭代计算，在结果收敛时，得到该候选关键词的投票结果：

其中WS(V_i)为候选关键词V_i的权重；

其中In(V_i)为给候选关键词V_i投票的其他候选关键词所构成的集合，即第三集合，其中候选关键词V_i属于第三集合；

其中Out(V_j)为通过第三集合中候选关键词V_j进行投票的候选关键词所构成的候选关键词集合；其中候选关键词V_j属于Out(V_j)中；

其中W_ji为候选关键词V_j向候选关键词V_i投票时所占的边的权重，W_jk为候选关键词V_j向候选关键词_Vk投票时所占的边的权重；

其中WS(V_j)为候选关键词V_j的权重；

其中d为阻尼系数。

优选的，所述步骤S5中，当获取到初始视频切片集合中每一切片的关键词后，针对于每一切片的所有关键词，若存在关键词形成相邻词组，则将这些关键词组合成关键词短语。

优选的，所述步骤S6中，针对于初始视频切片集合中的每一切片，若步骤S5中没有得到该切片的关键词，则分别计算该切片的候选关键词与前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离，将该切片与其中向量距离小的切片进行合并；若该切片的候选关键词与前一有关键词的切片的候选关键词之间的向量距离和该切片的候选关键词与后一有关键词的切片的候选关键词之间的向量距离是相等的，那么将该切片与前一有关键词的切片进行合并。

优选的，所述步骤S7中，两个切片之间的相似度计算公式为：

其中f_x(c_i)为切片p_x中关键词c_i的词频向量，f_y(c_i)为切片p_y中关键词c_i的词频向量；c_i为切片p_x和切片p_y两者关键词集合中的第i个关键词，n为切片p_x和切片p_y两者关键词集合中关键词的总数。

优选的，当所述步骤S2中的初始视频切片集合中句子文本的个数超过一定数时，将初始视频切片集合分割成多个初始视频切片集合，然后针对于分割得到的各个初始视频切片集合分别进行步骤S3至S6的处理后，得到分割后的各个初始视频切片集合对应的各合并处理后的视频切片集合，然后各合并处理后的视频切片集合直接组合生成一个集合，该集合通过步骤S7处理后得到最终的视频切片集合。

优选的，所述第一阈值为0.618，所述第二阈值为0.1秒，所述第三阈值为3秒，所述第四阈值为3；

所述步骤S4中针对于候选关键词集合设定窗口值大小为5的滑动窗口。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明一种教学视频的虚拟切片方法，首先从教学视频中提取出音频数据，由音频数据转换得到的各句子文本组合得到第一文本集合；确定各句子文本起始时间、结束时间和内容信息，根据上述信息对第一文本集合中的各句子文本进行合并处理，得到初始视频切片集合；针对于初始视频切片集合中的每一切片，选取出候选关键词，得到候选关键词集合；然后通过滑动窗口得到候选关键词集合中为各候选关键词进行投票的其他候选关键词，最终根据投票结果选取出对应关键词集合，然后由关键词集合对应确定出初始视频切片集合中各切片的关键词；根据关键词计算相邻两个切片的相似度，最后根据相邻两个切片的相似度、相邻两个切片之间的时间间隔、相邻两个切片各自的时间长度以及相邻两个切片各自的句子文本总数确定是否要对相邻两个切片进行合并，以得到最终的视频切片集合。由上述可知，本发明中根据切片的关键词计算得到切片之间的语义相似度，再结合切片的特征和相似度进行合并的逻辑拼接处理，从而得到基于内容的视频切片信息，因此本发明能够为用户提供基于语义相似的教学视频切片列表，用户根据关键词可以直接访问到视频中特定知识点位置，为视频资源智能导航及个性化推荐奠定基础。

(2)本发明一种教学视频的虚拟切片方法中，在获取到句子文本所构成的第一文本集合后，根据第一文本集合中各句子文本的起始时间和结束时间对其中第一文本集合中的各句子文本进行合并处理，将时间间隔小于一定值的相邻切片进行和平，同时将时间长度小于一定值的切片合并到相邻切片中，从而能够得到更加简化以及合理的初始视频切片集合。

(3)本发明一种教学视频的虚拟切片方法中，当获取到教学视频的时间太长时，得到的初始视频切片集合中句子文本会比较多，在这种情况下，本发明方法中将初始视频切片集合分割成多个初始视频切片集合，然后通过分别通过本发明方法得到分割的各个初始视频切片集合中各个切片的关键词，进而获取到最初未分割的初始视频切片集合中每一切片的关键词，再通过本发明方法对初始视频切片集合处理后得到最终的视频切片集合，能够有效提高教学视频切片的效率。

附图说明

图1是本发明方法实施例中所形成的视频切片列表图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例公开了一种教学视频的虚拟切片方法，步骤如下：

步骤S1、首先从教学视频中提取出音频数据，然后由音频数据转换得到各句子文本，由各句子文本组合得到第一文本集合，例如第一文本集合ST＝{st₁,st₂,st₃,....,st_m}，ST中的各元素st₁至st_m分别第一文本集合中的第1至m个句子文本。

在本实施例中采用FFMPEG开源框架从MP4格式的教学视频提取出音频，在获取到教学视频时，首先判断教学视频是否为FFMPEG支持的视频格式，FFMPEG支持市面上主流视频格式，但仍有可能是不支持的格式，如存在这种情况，则需先转换教学视频格式。在本实施例中，若提取的教学视频里面存在多条音轨，则只提取中文音轨；另外，本实施例中提取的音频格式标准为：16KHZ，PCM无损编码的原始WAV音频，有利于提高语音识别的准确率，在资源与性能允许的情况下，也可以使用pcm、alaw或ulaw编码的原始wav音频或者无损音频压缩编码(FLAC)。在本实施例中，采用语音识别方法将音频转换成JSON格式文本，从而得到各句子文本。

步骤S2、获取第一文本集合中每一句子文本在视频中的起始时间、结束时间和内容信息；根据第一文本集合中各句子文本的起始时间和结束时间对其中第一文本集合中的各句子文本进行合并处理，得到第二文本集合，将该第二文本集合作为初始视频切片集合；其中，第一文本集合中ST＝{st1,st2,st3,....,stm}中各句子文本在视频中的起始时间集合为TB＝{tb1,tb2,tb3,......,tbm}，各句子文本在视频中的结束时间集合为TE＝{te1,te2,te3,....tem}。

其中，本步骤中得到第二文本集合的过程如下：

针对于第一文本集合中的每一句子文本，从第二个句子文本开始，判断该句子文本的起始时间和前一句子文本的结束时间之间的时间间隔是否小于第二阈值时，若是，则将该句子文本与前一句子文本进行合并，或者将该句子文本合并到前一句子文本所合并到的句子文本中；其中，当前一句子文本已合并到更前其他句子文本时，则本实施例中，在该句子文本的起始时间和前一句子文本的结束时间之间的时间间隔小于第二阈值时，直接将该句子文本合并到前一句子文本所合并到的句子文本中，以将相邻的几个时间间隔短的句子文本合并到一个句子文本中。在本实施例中，第二阈值可以设定为0.1秒。例如当|te_i-tb_i+1|<0.1秒时，i＝1,2,…,m，则表明第一文本集合中第i+1个句子文本的起始时间和第i个句子文本的结束时间之间的时间间隔小于0.1秒，此时就将第一文本集合中第i+1个句子文本和第i个句子文本进行合并。

同时，针对于第一文本集合中的每一句子文本，从第一个句子文本开始，判断该句子文本或该句子文本所合并后的句子文本的时间长度小于第三阈值时，若是，则将其合并到后一句子文本中。在本实施例，当该句子文本为已经合并了前面句子文本时，若该句子文本所合并后的句子文本的时间长度还是小于第三阈值，则将该句子所合并后的句子文本再与后一句子文本进行合并，上述操作使得相邻的连续几个时间长度总和小于第三阈值的句子文本能够合并为同一个句子文本。在本实施例中，第三阈值为3秒。例如，当|te_i-tb_i|<3秒时，则将第一文本集合中第i个句子文本和第i+1个句子文本进行合并。

在本实施例中，针对于初始视频切片集合中的每一切片，选取出该切片的候选关键词的具体过程如下：首先将该切片对应句子文本进行分词和词性标注，然后过滤掉其中的停用词，最后选取出词性为名词、动词、形容词、副词的词集合作为该切片的候选关键词。在本实施例中，可以采用北京理工大学的NLPIR/ICTCLAS2016开源工具包实现分词功能。在本实施例中，停用词集合结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等。

在本实施例中，假设初始视频切片集合中包括4个切片，其中4个切片对应句子文本分别如下：

sk1＝{程序员(programmer)是从事程序开发维护的专业人员}

sk2＝{程序员分为程序设计人员和程序编码人员}

sk3＝{但两者的界限并不非常清楚特别是在中国}

sk4＝{软件从业人员分为初级程序员高级程序员系统分析员和项目经理四大类}

在本步骤中，对上述每个切片进行分词和词性标注处理，过滤掉停用词，选取词性为名词、动词、形容词、副词的词集合作为候选关键词，即sk′_i＝(t_i,1,t_i,2,...,t_i,J)，其中t_i,j为候选关键词，J为初始视频切片集合中第i个切片sk_i中候选关键词的总数。最终处理后得到对应候选关键词集合如下：

其中K为初始视频切片集合中切片总数。

步骤S4、针对于候选关键词集合设定滑动窗口，针对于候选关键词集合中的每一候选关键词，通过移动滑动窗口获取到与该候选关键词处于同一滑动窗口的其他候选关键词，由这些候选关键词构成该候选关键词的第三集合，通过第三集合中的各候选关键词对该候选关键词进行投票，以得到该候选关键词的投票结果；比较其中的所有候选关键词的投票结果，将投票结果最高的N个候选关键词选取出来构成关键词集合；

在本实施例中，设定滑动窗口的窗口值为5，通过滑动窗口在步骤S3中得到的候选关键词集合进行移动的情况下，分别对应得到候选关键词集合中例如开发、软件、程序员的投票内容即第三集合分别如下：

开发＝{专业，程序员，维护，英文，程序，人员}

软件＝{程序员，分为，界限，高级，中国，特别，人员}

程序员＝{开发，软件，分析员，维护，系统，项目，经理，分为，英文，程序，专业，设计，高级，人员，中国}

在本步骤中，针对于候选关键词集合中的每一候选关键词，通过该候选关键词第三集合中的候选关键词对该候选关键词进行如下公式的迭代计算，在结果收敛时，得到该候选关键词的投票结果：

其中WS(V_i)为候选关键词V_i的权重；

其中W_ji为候选关键词V_j向候选关键词V_i投票时所占的边的权重，W_jk为候选关键词V_j向候选关键词Vk投票时所占的边的权重；在本实施例中W_ji和W_jk均设定为1；也可以根据知识图谱中关键词之间的关系对W_ji和W_jk的进行设定。

其中WS(V_j)为候选关键词V_j的权重；

其中d为阻尼系数；在本实施例中，阻尼系数d可以设置为0.85。

本实施例中，经过上述公式的迭代计算后，将迭代计算完成后得到的最终的WS(V_i)作为候选关键词V_i的投票结果。

在本实施例中，各候选关键词的权值初始值可以设置为1，针对于候选关键词V_i的权重WS(V_i)，当上述公式中第三集合中候选关键词V_j的权重WS(V_j)为1代入时，候选关键词V_i的权重WS(V_i)将发生变化，而WS(V_i)的变化也可能会引起第三集合中候选关键词V_j的权重WS(V_j)的变化，第三集合中候选关键词V_j的权重WS(V_j)的变化又将导致候选关键词V_i的权重WS(V_i)变化，因此本实施例中，经过上述公式的多次迭代计算，候选关键词V_i的权重WS(V_i)将会不断变化，在本实施例中设定迭代次数或者设定当候选关键词V_i的权重WS(V_i)的精度为一定值是迭代结束，将迭代结束后最终的计算的候选关键词V_i的权重WS(V_i)最为候选关键词V_i的投票结果。

在本实施例中，如步骤S3中得到的候选关键词集合，在本步骤上述公式迭代计算后，得到各候选关键词的投票结果如下：

{程序员＝1.9249977，人员＝1.6290349，分为＝1.4027836，程序＝1.4025855，高级＝0.9747374，软件＝0.93525416，中国＝0.93414587，特别＝0.93352026，维护＝0.9321688，专业＝0.9321688，系统＝0.885048，编码＝0.82671607，界限＝0.82206935，开发＝0.82074183，分析员＝0.77101076，项目＝0.77101076，英文＝0.7098714，设计＝0.6992446，经理＝0.64640945}

本实施例中，设定N为4，则将上述投票结果中排名前四的4个关键词选取处理，即得到{程序员，人员，分为，程序}作为关键词集合。

其中在本步骤中，当获取到初始视频切片集合中每一切片的关键词后，针对于每一切片的所有关键词，若存在关键词形成相邻词组，则将这些关键词组合成关键词短语。

在本实施例中，当上述步骤S4获取到关键词集合为{程序员，人员，分为，程序}时，则通过本步骤，可以获取到步骤S3中的四个切片sk1、sk2、sk3和sk4的关键词分别为：sk″₁＝{程序员，人员，程序}，sk″₂＝{程序员，分为，程序，人员}，sk″₃＝{}，sk″₄＝{人员，程序员}；

步骤S6、针对于初始视频切片集合中的每一切片，若步骤S5中没有得到该切片的关键词，则通过word2vec分别计算该切片的候选关键词和前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离，将该切片与上述和其向量距离小的切片进行合并；若该切片的候选关键词与前一有关键词的切片的候选关键词之间的向量距离和该切片的候选关键词与后一有关键词的切片的候选关键词之间的向量距离是相等的，那么将该切片与前一切片合并；通过上述得到合并处理后的视频切片集合P＝{p₁,p₂,p₃,....,p_n}，其中p₁至p_n分别为视频切片集合中第1至n个切片。

例如，针对于步骤S5中得到的切片sk3的关键词sk″₃为空集，即切片sk3中没有关键词的情况下，则通过本步骤计算切片sk3的候选关键词与切片sk2的候选关键词之间的向量距离以及与切片sk4的候选关键词之间的向量距离，在本步骤通过上述计算后，得到切片sk3的候选关键词与切片sk2的候选关键词之间的向量距离小于切片sk3的候选关键词与切片sk4的候选关键词之间的向量距离，因此将切片sk3和切片sk2进行合并。因此通过本步骤将得到P＝{p₁,p₂,p₃}，如图1中所示；其中

p₁＝{程序员是从事程序开发、维护的专业人员}

p₂＝{程序员分为程序设计人员和程序编码人员。但两者的界限并不非常清楚，特别是在中国}

p₃＝{软件从业人员分为初级程序员高级程序员系统分析员和项目经理四大类}

将上述三个切片p₁、p₂和p₃分别与关键词集合{程序员，人员，分为，程序}进行交集后，得到三个切片p₁、p₂和p₃的关键词分别为：{程序员，人员}、{程序员，分为，程序，人员}和{人员，程序员}。

步骤S7、针对于步骤S6中得到的视频切片集合中的每一切片，从第一切片开始，根据对应关键词计算该切片或该切片所合并到的切片与后一切片之间的相似度，其中当该切片为已合并到前面切片时，则本步骤中根据对应关键词计算该切片所合并到的切片与后一切片之间的相似度；当该切片或该切片所合并到的切片与后一切片之间的相似度大于第一阈值时，则判断该切片或该切片所合并到的切片的结束时间与后一切片的起始时间之间的时间间隔小于第二阈值、该切片或该切片所合并到的切片的时间长度与后一切片的时间长度均小于第三阈值以及该切片或该切片所合并到的切片与后一切片中句子的总数均小于第四阈值时，则将该切片或该切片所合并到的切片合并到后一切片，以得到最终的视频切片集合。在本实施例中，第一阈值为0.618，第四阈值为3。

在本实施例中，两个切片之间采用余弦向量相似度算法计算相似度，具体两个切片之间的相似度计算公式为：

例如，切片p_x为：我喜欢开发，不喜欢设计。切片p_y为我不喜欢开发，也不喜欢设计，我最喜欢建模。

若经过本实施例上述方法得到切片p_x和切片p_y两者关键词集合为：{喜欢、设计、开发、建模}；则可以得到上述n为4，c₁至c₄分别为喜欢、设计、开发、建模，由于切片p_x中喜欢出现2次，设计出现1次，开发出现1次，建模出现0次，所以得到切片p_x的各关键词的词频分量分别为：f_x(c₁)＝2，f_x(c₂)＝1，f_x(c₃)＝1，f_x(c₄)＝0；由于切片p_y中喜欢出现3次，设计出现1次，开发出现1次，建模出现1次，所以得到切片p_y的各关键词的词频分量分别为：f_y(c₁)＝3，f_y(c₂)＝1，f_y(c₃)＝1，f_y(c₄)＝0；

则通过上述公式计算到切片p_x和切片p_y的相似度为：

在本实施例中，由于切片p1，p2，p3间隔时间短，所占时间不长，句子总数不多，经过计算后切片p1和切片p2的相似度大于第一阈值，因此需要将切片p1和切片p2进行合并，另外，由于将切片p1和切片p2合并后的切片的间隔时间短、所占时间、句子总数也均符合步骤S7的要求，因此在步骤S7计算后切片p1和切片p2合并后的切片与切片p3的相似度也是大于第一阈值的情况下，将切片p1和切片p2合并后的切片与切片p3进行合并，因此通过上述合并处理后，切片p1，p2，p3被合并为同一切片q1，即初始视频切片集合中的四个切片sk1、sk2、sk3和sk4经过上述步骤最终被合并为一个切片q1：

q₁＝{程序员是从事程序开发维护的专业人员。程序员分为程序设计人员和程序编码人员。但两者的界限并不非常清楚，特别是在中国。软件从业人员分为初级程序员高级程序员系统分析员和项目经理四大类}，如图1中所示，该切片的起始时间是0秒，结束时间是25.21秒。

将切片q₁与关键词集合{程序员，人员，分为，程序}进行交集后，得到切片q₁的关键词为：{程序员，分为，程序，人员}。

在本实施例中，当所述步骤S2中的初始视频切片集合中句子文本的个数超过一定数时，将初始视频切片集合分割成多个初始视频切片集合，然后针对于分割得到的各个初始视频切片集合分别进行步骤S3至S6的处理后，得到分割后的各个初始视频切片集合对应的各合并处理后的视频切片集合，然后各合并处理后的视频切片集合直接组合生成一个集合，该集合通过步骤S7处理后得到最终的视频切片集合。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种教学视频的虚拟切片方法，其特征在于，步骤如下：

2.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，所述步骤S1中，采用FFMPEG开源框架从MP4格式的教学视频提取出音频；采用语音识别方法将音频转换成JSON格式文本，从而得到各句子文本。

3.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，所述步骤S2中，得到第二文本集合的过程如下：

4.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，所述步骤S3中，针对于初始视频切片集合中的每一切片，选取出该切片的候选关键词的具体过程如下：首先将该切片对应句子文本进行分词和词性标注，然后过滤掉其中的停用词，最后选取出词性为名词、动词、形容词、副词的词集合作为该切片的候选关键词。

5.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，所述步骤S4中，针对于候选关键词集合中的每一候选关键词，通过第三集合中的候选关键词对该候选关键词进行如下公式的迭代计算，在结果收敛时，得到该候选关键词的投票结果：

其中WS(V_i)为候选关键词V_i的权重；

其中W_ji为候选关键词V_j向候选关键词V_i投票时所占的边的权重，W_jk为候选关键词V_j向候选关键词V_k投票时所占的边的权重；

其中WS(V_j)为候选关键词V_j的权重；

其中d为阻尼系数。

6.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，所述步骤S5中，当获取到初始视频切片集合中每一切片的关键词后，针对于每一切片的所有关键词，若存在关键词形成相邻词组，则将这些关键词组合成关键词短语。

7.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，所述步骤S6中，针对于初始视频切片集合中的每一切片，若步骤S5中没有得到该切片的关键词，则分别计算该切片的候选关键词与前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离，将该切片与其中向量距离小的切片进行合并；若该切片的候选关键词与前一有关键词的切片的候选关键词之间的向量距离和该切片的候选关键词与后一有关键词的切片的候选关键词之间的向量距离是相等的，那么将该切片与前一有关键词的切片进行合并。

8.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，所述步骤S7中，两个切片之间的相似度计算公式为：

9.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，当所述步骤S2中的初始视频切片集合中句子文本的个数超过一定数时，将初始视频切片集合分割成多个初始视频切片集合，然后针对于分割得到的各个初始视频切片集合分别进行步骤S3至S6的处理后，得到分割后的各个初始视频切片集合对应的各合并处理后的视频切片集合，然后各合并处理后的视频切片集合直接组合生成一个集合，该集合通过步骤S7处理后得到最终的视频切片集合。

10.根据权利要求1所述的教学视频的虚拟切片方法，其特征在于，所述第一阈值为0.618，所述第二阈值为0.1秒，所述第三阈值为3秒，所述第四阈值为3；