CN108419123B - 一种教学视频的虚拟切片方法 - Google Patents

一种教学视频的虚拟切片方法 Download PDF

Info

Publication number
CN108419123B
CN108419123B CN201810266852.3A CN201810266852A CN108419123B CN 108419123 B CN108419123 B CN 108419123B CN 201810266852 A CN201810266852 A CN 201810266852A CN 108419123 B CN108419123 B CN 108419123B
Authority
CN
China
Prior art keywords
slice
keyword
candidate
video
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810266852.3A
Other languages
English (en)
Other versions
CN108419123A (zh
Inventor
任光杰
黄海晖
张锐
韩后
林振潮
许骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuang'exin Beijing Technology Co ltd
Original Assignee
Guangzhou Institute Of Innovation Internet Educational Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute Of Innovation Internet Educational Research filed Critical Guangzhou Institute Of Innovation Internet Educational Research
Priority to CN201810266852.3A priority Critical patent/CN108419123B/zh
Publication of CN108419123A publication Critical patent/CN108419123A/zh
Application granted granted Critical
Publication of CN108419123B publication Critical patent/CN108419123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Abstract

本发明公开了一种教学视频的虚拟切片方法,首先从教学视频中提取出音频数据,由音频数据转换得到的各句子文本组合得到第一文本集合;确定各句子文本起始时间、结束时间和内容信息,对第一文本集合中的各句子文本进行合并处理,得初始视频切片集合;获取初始视频切片集合中各切片的关键词;根据关键词计算相邻两个切片的相似度,最后根据相邻两切片的相似度、相邻两切片之间的时间间隔、相邻两切片各自的时间长度以及相邻两切片各自的句子文本总数确定是否要对相邻两个切片进行合并,得到最终的视频切片集合。本发明能够为用户提供基于语义相似的教学视频切片列表,用户根据关键词可以直接访问到视频中特定知识点位置。

Description

一种教学视频的虚拟切片方法
技术领域
本发明涉及视频处理技术领域,特别涉及一种教学视频的虚拟切片方法。
背景技术
教学视频是一种常见的视频类型,当用户在观看教学视频时,时常想要快速跳到特定的知识点位置,但往往很难准确定位,需要多次调整,甚至逐帧观察才能到达理想位置。
为了快速定位内容位置,制作者可以手工将教学视频切片,并标注上关键字,让用户根据切片信息,快速定位到感兴趣的内容位置。然而在海量视频的环境下,手工切片标注的成本巨大,无法推广。
现有技术中,视频自动切片方案大都是基于场景或图像检测的方式,如影视视频,根据场景的改变来确定切片关键帧;如运动视频或监控视频,根据局部图像的信息变化来确定切片关键帧。教学视频的场景与局部图像变化频率很低,可能整个视频都不切换场景,如讲授型视频;也可能场景或局部图像变化,但其实还在讲授同一个知识单元,如课堂提问、课件页面切换等事件。
因此,应用现有的场景检测或图像检测方式对教学视频进行切片,无法为用户提供准确的、便于操作的切片定位信息,影响用户体验。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种教学视频的虚拟切片方法,该方法能够为用户提供基于语义相似的教学视频切片列表,用户通过关键词可以直接访问到视频中特定知识点位置,为视频资源智能导航及个性化推荐奠定基础。
本发明的目的通过下述技术方案实现:一种教学视频的虚拟切片方法,步骤如下:
步骤S1、首先从教学视频中提取出音频数据,然后由音频数据转换得到各句子文本,由各句子文本组合得到第一文本集合;
步骤S2、获取第一文本集合中每一句子文本在视频中的起始时间、结束时间和内容信息;根据第一文本集合中各句子文本的起始时间和结束时间对其中第一文本集合中的各句子文本进行合并处理,得到第二文本集合,将该第二文本集合作为初始视频切片集合;
步骤S3、针对于初始视频切片集合中的每一切片,选取出该切片的候选关键词,由所有切片的候选关键词依次组合后得到候选关键词集合;
步骤S4、针对于候选关键词集合设定滑动窗口,针对于候选关键词集合中的每一候选关键词,通过移动滑动窗口获取到与该候选关键词处于同一滑动窗口的其他候选关键词,构成该候选关键词的第三集合,通过第三集合中的各候选关键词对该候选关键词进行投票,以得到该候选关键词的投票结果;比较其中的所有候选关键词的投票结果,将投票结果最高的N个候选关键词选取出来构成关键词集合;
步骤S5、针对于初始视频切片集合中的每一切片,将该切片与关键词集合做交集,得到该切片的关键词;
步骤S6、针对于初始视频切片集合中的每一切片,若步骤S5中没有得到该切片的关键词,则分别计算该切片的候选关键词和前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离,将该切片与上述和其向量距离小的切片进行合并处理,通过上述得到合并处理后的视频切片集合;
步骤S7、针对于步骤S6中得到的视频切片集合中的每一切片,从第一切片开始,根据对应关键词计算该切片或该切片所合并到的切片与后一切片之间的相似度,当该切片或该切片所合并到的切片与后一切片之间的相似度大于第一阈值时,则判断该切片或该切片所合并到的切片的结束时间与后一切片的起始时间之间的时间间隔小于第二阈值、该切片或该切片所合并到的切片的时间长度与后一切片的时间长度均小于第三阈值以及该切片或该切片所合并到的切片与后一切片中句子的总数均小于第四阈值时,则将该切片或该切片所合并到的切片合并到后一切片,以得到最终的视频切片集合。
优选的,所述步骤S1中,采用FFMPEG开源框架从MP4格式的教学视频提取出音频;采用语音识别方法将音频转换成JSON格式文本,从而得到各句子文本。
优选的,所述步骤S2中,得到第二文本集合的过程如下:
针对于第一文本集合中的每一句子文本,从第二个句子文本开始,判断该句子文本的起始时间和前一句子文本的结束时间之间的时间间隔是否小于第二阈值时,若是,则将该句子文本与前一句子文本进行合并,或者将该句子文本合并到前一句子文本所合并到的句子文本中;同时,针对于第一文本集合中的每一句子文本,从第一个句子文本开始,判断该句子文本或该句子文本所合并到的句子文本的时间长度是否小于第三阈值时,若是,则将其合并到后一句子文本中。
优选的,所述步骤S3中,针对于初始视频切片集合中的每一切片,选取出该切片的候选关键词的具体过程如下:首先将该切片对应句子文本进行分词和词性标注,然后过滤掉其中的停用词,最后选取出词性为名词、动词、形容词、副词的词集合作为该切片的候选关键词。
优选的,所述步骤S4中,针对于候选关键词集合中的每一候选关键词,通过第三集合中的候选关键词对该候选关键词进行如下公式的迭代计算,在结果收敛时,得到该候选关键词的投票结果:
Figure GDA0002541016570000031
其中WS(Vi)为候选关键词Vi的权重;
其中In(Vi)为给候选关键词Vi投票的其他候选关键词所构成的集合,即第三集合,其中候选关键词Vi属于第三集合;
其中Out(Vj)为通过第三集合中候选关键词Vj进行投票的候选关键词所构成的候选关键词集合;其中候选关键词Vj属于Out(Vj)中;
其中Wji为候选关键词Vj向候选关键词Vi投票时所占的边的权重,Wjk为候选关键词Vj向候选关键词Vk投票时所占的边的权重;
其中WS(Vj)为候选关键词Vj的权重;
其中d为阻尼系数。
优选的,所述步骤S5中,当获取到初始视频切片集合中每一切片的关键词后,针对于每一切片的所有关键词,若存在关键词形成相邻词组,则将这些关键词组合成关键词短语。
优选的,所述步骤S6中,针对于初始视频切片集合中的每一切片,若步骤S5中没有得到该切片的关键词,则分别计算该切片的候选关键词与前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离,将该切片与其中向量距离小的切片进行合并;若该切片的候选关键词与前一有关键词的切片的候选关键词之间的向量距离和该切片的候选关键词与后一有关键词的切片的候选关键词之间的向量距离是相等的,那么将该切片与前一有关键词的切片进行合并。
优选的,所述步骤S7中,两个切片之间的相似度计算公式为:
Figure GDA0002541016570000041
其中fx(ci)为切片px中关键词ci的词频向量,fy(ci)为切片py中关键词ci的词频向量;ci为切片px和切片py两者关键词集合中的第i个关键词,n为切片px和切片py两者关键词集合中关键词的总数。
优选的,当所述步骤S2中的初始视频切片集合中句子文本的个数超过一定数时,将初始视频切片集合分割成多个初始视频切片集合,然后针对于分割得到的各个初始视频切片集合分别进行步骤S3至S6的处理后,得到分割后的各个初始视频切片集合对应的各合并处理后的视频切片集合,然后各合并处理后的视频切片集合直接组合生成一个集合,该集合通过步骤S7处理后得到最终的视频切片集合。
优选的,所述第一阈值为0.618,所述第二阈值为0.1秒,所述第三阈值为3秒,所述第四阈值为3;
所述步骤S4中针对于候选关键词集合设定窗口值大小为5的滑动窗口。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明一种教学视频的虚拟切片方法,首先从教学视频中提取出音频数据,由音频数据转换得到的各句子文本组合得到第一文本集合;确定各句子文本起始时间、结束时间和内容信息,根据上述信息对第一文本集合中的各句子文本进行合并处理,得到初始视频切片集合;针对于初始视频切片集合中的每一切片,选取出候选关键词,得到候选关键词集合;然后通过滑动窗口得到候选关键词集合中为各候选关键词进行投票的其他候选关键词,最终根据投票结果选取出对应关键词集合,然后由关键词集合对应确定出初始视频切片集合中各切片的关键词;根据关键词计算相邻两个切片的相似度,最后根据相邻两个切片的相似度、相邻两个切片之间的时间间隔、相邻两个切片各自的时间长度以及相邻两个切片各自的句子文本总数确定是否要对相邻两个切片进行合并,以得到最终的视频切片集合。由上述可知,本发明中根据切片的关键词计算得到切片之间的语义相似度,再结合切片的特征和相似度进行合并的逻辑拼接处理,从而得到基于内容的视频切片信息,因此本发明能够为用户提供基于语义相似的教学视频切片列表,用户根据关键词可以直接访问到视频中特定知识点位置,为视频资源智能导航及个性化推荐奠定基础。
(2)本发明一种教学视频的虚拟切片方法中,在获取到句子文本所构成的第一文本集合后,根据第一文本集合中各句子文本的起始时间和结束时间对其中第一文本集合中的各句子文本进行合并处理,将时间间隔小于一定值的相邻切片进行和平,同时将时间长度小于一定值的切片合并到相邻切片中,从而能够得到更加简化以及合理的初始视频切片集合。
(3)本发明一种教学视频的虚拟切片方法中,当获取到教学视频的时间太长时,得到的初始视频切片集合中句子文本会比较多,在这种情况下,本发明方法中将初始视频切片集合分割成多个初始视频切片集合,然后通过分别通过本发明方法得到分割的各个初始视频切片集合中各个切片的关键词,进而获取到最初未分割的初始视频切片集合中每一切片的关键词,再通过本发明方法对初始视频切片集合处理后得到最终的视频切片集合,能够有效提高教学视频切片的效率。
附图说明
图1是本发明方法实施例中所形成的视频切片列表图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例公开了一种教学视频的虚拟切片方法,步骤如下:
步骤S1、首先从教学视频中提取出音频数据,然后由音频数据转换得到各句子文本,由各句子文本组合得到第一文本集合,例如第一文本集合ST={st1,st2,st3,....,stm},ST中的各元素st1至stm分别第一文本集合中的第1至m个句子文本。
在本实施例中采用FFMPEG开源框架从MP4格式的教学视频提取出音频,在获取到教学视频时,首先判断教学视频是否为FFMPEG支持的视频格式,FFMPEG支持市面上主流视频格式,但仍有可能是不支持的格式,如存在这种情况,则需先转换教学视频格式。在本实施例中,若提取的教学视频里面存在多条音轨,则只提取中文音轨;另外,本实施例中提取的音频格式标准为:16KHZ,PCM无损编码的原始WAV音频,有利于提高语音识别的准确率,在资源与性能允许的情况下,也可以使用pcm、alaw或ulaw编码的原始wav音频或者无损音频压缩编码(FLAC)。在本实施例中,采用语音识别方法将音频转换成JSON格式文本,从而得到各句子文本。
步骤S2、获取第一文本集合中每一句子文本在视频中的起始时间、结束时间和内容信息;根据第一文本集合中各句子文本的起始时间和结束时间对其中第一文本集合中的各句子文本进行合并处理,得到第二文本集合,将该第二文本集合作为初始视频切片集合;其中,第一文本集合中ST={st1,st2,st3,....,stm}中各句子文本在视频中的起始时间集合为TB={tb1,tb2,tb3,......,tbm},各句子文本在视频中的结束时间集合为TE={te1,te2,te3,....tem}。
其中,本步骤中得到第二文本集合的过程如下:
针对于第一文本集合中的每一句子文本,从第二个句子文本开始,判断该句子文本的起始时间和前一句子文本的结束时间之间的时间间隔是否小于第二阈值时,若是,则将该句子文本与前一句子文本进行合并,或者将该句子文本合并到前一句子文本所合并到的句子文本中;其中,当前一句子文本已合并到更前其他句子文本时,则本实施例中,在该句子文本的起始时间和前一句子文本的结束时间之间的时间间隔小于第二阈值时,直接将该句子文本合并到前一句子文本所合并到的句子文本中,以将相邻的几个时间间隔短的句子文本合并到一个句子文本中。在本实施例中,第二阈值可以设定为0.1秒。例如当|tei-tbi+1|<0.1秒时,i=1,2,…,m,则表明第一文本集合中第i+1个句子文本的起始时间和第i个句子文本的结束时间之间的时间间隔小于0.1秒,此时就将第一文本集合中第i+1个句子文本和第i个句子文本进行合并。
同时,针对于第一文本集合中的每一句子文本,从第一个句子文本开始,判断该句子文本或该句子文本所合并后的句子文本的时间长度小于第三阈值时,若是,则将其合并到后一句子文本中。在本实施例,当该句子文本为已经合并了前面句子文本时,若该句子文本所合并后的句子文本的时间长度还是小于第三阈值,则将该句子所合并后的句子文本再与后一句子文本进行合并,上述操作使得相邻的连续几个时间长度总和小于第三阈值的句子文本能够合并为同一个句子文本。在本实施例中,第三阈值为3秒。例如,当|tei-tbi|<3秒时,则将第一文本集合中第i个句子文本和第i+1个句子文本进行合并。
步骤S3、针对于初始视频切片集合中的每一切片,选取出该切片的候选关键词,由所有切片的候选关键词依次组合后得到候选关键词集合;
在本实施例中,针对于初始视频切片集合中的每一切片,选取出该切片的候选关键词的具体过程如下:首先将该切片对应句子文本进行分词和词性标注,然后过滤掉其中的停用词,最后选取出词性为名词、动词、形容词、副词的词集合作为该切片的候选关键词。在本实施例中,可以采用北京理工大学的NLPIR/ICTCLAS2016开源工具包实现分词功能。在本实施例中,停用词集合结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等。
在本实施例中,假设初始视频切片集合中包括4个切片,其中4个切片对应句子文本分别如下:
sk1={程序员(programmer)是从事程序开发维护的专业人员}
sk2={程序员分为程序设计人员和程序编码人员}
sk3={但两者的界限并不非常清楚特别是在中国}
sk4={软件从业人员分为初级程序员高级程序员系统分析员和项目经理四大类}
在本步骤中,对上述每个切片进行分词和词性标注处理,过滤掉停用词,选取词性为名词、动词、形容词、副词的词集合作为候选关键词,即sk′i=(ti,1,ti,2,...,ti,J),其中ti,j为候选关键词,J为初始视频切片集合中第i个切片ski中候选关键词的总数。最终处理后得到对应候选关键词集合如下:
Figure GDA0002541016570000071
Figure GDA0002541016570000072
其中K为初始视频切片集合中切片总数。
步骤S4、针对于候选关键词集合设定滑动窗口,针对于候选关键词集合中的每一候选关键词,通过移动滑动窗口获取到与该候选关键词处于同一滑动窗口的其他候选关键词,由这些候选关键词构成该候选关键词的第三集合,通过第三集合中的各候选关键词对该候选关键词进行投票,以得到该候选关键词的投票结果;比较其中的所有候选关键词的投票结果,将投票结果最高的N个候选关键词选取出来构成关键词集合;
在本实施例中,设定滑动窗口的窗口值为5,通过滑动窗口在步骤S3中得到的候选关键词集合进行移动的情况下,分别对应得到候选关键词集合中例如开发、软件、程序员的投票内容即第三集合分别如下:
开发={专业,程序员,维护,英文,程序,人员}
软件={程序员,分为,界限,高级,中国,特别,人员}
程序员={开发,软件,分析员,维护,系统,项目,经理,分为,英文,程序,专业,设计,高级,人员,中国}
在本步骤中,针对于候选关键词集合中的每一候选关键词,通过该候选关键词第三集合中的候选关键词对该候选关键词进行如下公式的迭代计算,在结果收敛时,得到该候选关键词的投票结果:
Figure GDA0002541016570000081
其中WS(Vi)为候选关键词Vi的权重;
其中In(Vi)为给候选关键词Vi投票的其他候选关键词所构成的集合,即第三集合,其中候选关键词Vi属于第三集合;
其中Out(Vj)为通过第三集合中候选关键词Vj进行投票的候选关键词所构成的候选关键词集合;其中候选关键词Vj属于Out(Vj)中;
其中Wji为候选关键词Vj向候选关键词Vi投票时所占的边的权重,Wjk为候选关键词Vj向候选关键词Vk投票时所占的边的权重;在本实施例中Wji和Wjk均设定为1;也可以根据知识图谱中关键词之间的关系对Wji和Wjk的进行设定。
其中WS(Vj)为候选关键词Vj的权重;
其中d为阻尼系数;在本实施例中,阻尼系数d可以设置为0.85。
本实施例中,经过上述公式的迭代计算后,将迭代计算完成后得到的最终的WS(Vi)作为候选关键词Vi的投票结果。
在本实施例中,各候选关键词的权值初始值可以设置为1,针对于候选关键词Vi的权重WS(Vi),当上述公式中第三集合中候选关键词Vj的权重WS(Vj)为1代入时,候选关键词Vi的权重WS(Vi)将发生变化,而WS(Vi)的变化也可能会引起第三集合中候选关键词Vj的权重WS(Vj)的变化,第三集合中候选关键词Vj的权重WS(Vj)的变化又将导致候选关键词Vi的权重WS(Vi)变化,因此本实施例中,经过上述公式的多次迭代计算,候选关键词Vi的权重WS(Vi)将会不断变化,在本实施例中设定迭代次数或者设定当候选关键词Vi的权重WS(Vi)的精度为一定值是迭代结束,将迭代结束后最终的计算的候选关键词Vi的权重WS(Vi)最为候选关键词Vi的投票结果。
在本实施例中,如步骤S3中得到的候选关键词集合,在本步骤上述公式迭代计算后,得到各候选关键词的投票结果如下:
{程序员=1.9249977,人员=1.6290349,分为=1.4027836,程序=1.4025855,高级=0.9747374,软件=0.93525416,中国=0.93414587,特别=0.93352026,维护=0.9321688,专业=0.9321688,系统=0.885048,编码=0.82671607,界限=0.82206935,开发=0.82074183,分析员=0.77101076,项目=0.77101076,英文=0.7098714,设计=0.6992446,经理=0.64640945}
本实施例中,设定N为4,则将上述投票结果中排名前四的4个关键词选取处理,即得到{程序员,人员,分为,程序}作为关键词集合。
步骤S5、针对于初始视频切片集合中的每一切片,将该切片与关键词集合做交集,得到该切片的关键词;
其中在本步骤中,当获取到初始视频切片集合中每一切片的关键词后,针对于每一切片的所有关键词,若存在关键词形成相邻词组,则将这些关键词组合成关键词短语。
在本实施例中,当上述步骤S4获取到关键词集合为{程序员,人员,分为,程序}时,则通过本步骤,可以获取到步骤S3中的四个切片sk1、sk2、sk3和sk4的关键词分别为:sk″1={程序员,人员,程序},sk″2={程序员,分为,程序,人员},sk″3={},sk″4={人员,程序员};
步骤S6、针对于初始视频切片集合中的每一切片,若步骤S5中没有得到该切片的关键词,则通过word2vec分别计算该切片的候选关键词和前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离,将该切片与上述和其向量距离小的切片进行合并;若该切片的候选关键词与前一有关键词的切片的候选关键词之间的向量距离和该切片的候选关键词与后一有关键词的切片的候选关键词之间的向量距离是相等的,那么将该切片与前一切片合并;通过上述得到合并处理后的视频切片集合P={p1,p2,p3,....,pn},其中p1至pn分别为视频切片集合中第1至n个切片。
例如,针对于步骤S5中得到的切片sk3的关键词sk″3为空集,即切片sk3中没有关键词的情况下,则通过本步骤计算切片sk3的候选关键词与切片sk2的候选关键词之间的向量距离以及与切片sk4的候选关键词之间的向量距离,在本步骤通过上述计算后,得到切片sk3的候选关键词与切片sk2的候选关键词之间的向量距离小于切片sk3的候选关键词与切片sk4的候选关键词之间的向量距离,因此将切片sk3和切片sk2进行合并。因此通过本步骤将得到P={p1,p2,p3},如图1中所示;其中
p1={程序员是从事程序开发、维护的专业人员}
p2={程序员分为程序设计人员和程序编码人员。但两者的界限并不非常清楚,特别是在中国}
p3={软件从业人员分为初级程序员高级程序员系统分析员和项目经理四大类}
将上述三个切片p1、p2和p3分别与关键词集合{程序员,人员,分为,程序}进行交集后,得到三个切片p1、p2和p3的关键词分别为:{程序员,人员}、{程序员,分为,程序,人员}和{人员,程序员}。
步骤S7、针对于步骤S6中得到的视频切片集合中的每一切片,从第一切片开始,根据对应关键词计算该切片或该切片所合并到的切片与后一切片之间的相似度,其中当该切片为已合并到前面切片时,则本步骤中根据对应关键词计算该切片所合并到的切片与后一切片之间的相似度;当该切片或该切片所合并到的切片与后一切片之间的相似度大于第一阈值时,则判断该切片或该切片所合并到的切片的结束时间与后一切片的起始时间之间的时间间隔小于第二阈值、该切片或该切片所合并到的切片的时间长度与后一切片的时间长度均小于第三阈值以及该切片或该切片所合并到的切片与后一切片中句子的总数均小于第四阈值时,则将该切片或该切片所合并到的切片合并到后一切片,以得到最终的视频切片集合。在本实施例中,第一阈值为0.618,第四阈值为3。
在本实施例中,两个切片之间采用余弦向量相似度算法计算相似度,具体两个切片之间的相似度计算公式为:
Figure GDA0002541016570000101
其中fx(ci)为切片px中关键词ci的词频向量,fy(ci)为切片py中关键词ci的词频向量;ci为切片px和切片py两者关键词集合中的第i个关键词,n为切片px和切片py两者关键词集合中关键词的总数。
例如,切片px为:我喜欢开发,不喜欢设计。切片py为我不喜欢开发,也不喜欢设计,我最喜欢建模。
若经过本实施例上述方法得到切片px和切片py两者关键词集合为:{喜欢、设计、开发、建模};则可以得到上述n为4,c1至c4分别为喜欢、设计、开发、建模,由于切片px中喜欢出现2次,设计出现1次,开发出现1次,建模出现0次,所以得到切片px的各关键词的词频分量分别为:fx(c1)=2,fx(c2)=1,fx(c3)=1,fx(c4)=0;由于切片py中喜欢出现3次,设计出现1次,开发出现1次,建模出现1次,所以得到切片py的各关键词的词频分量分别为:fy(c1)=3,fy(c2)=1,fy(c3)=1,fy(c4)=0;
则通过上述公式计算到切片px和切片py的相似度为:
Figure GDA0002541016570000111
在本实施例中,由于切片p1,p2,p3间隔时间短,所占时间不长,句子总数不多,经过计算后切片p1和切片p2的相似度大于第一阈值,因此需要将切片p1和切片p2进行合并,另外,由于将切片p1和切片p2合并后的切片的间隔时间短、所占时间、句子总数也均符合步骤S7的要求,因此在步骤S7计算后切片p1和切片p2合并后的切片与切片p3的相似度也是大于第一阈值的情况下,将切片p1和切片p2合并后的切片与切片p3进行合并,因此通过上述合并处理后,切片p1,p2,p3被合并为同一切片q1,即初始视频切片集合中的四个切片sk1、sk2、sk3和sk4经过上述步骤最终被合并为一个切片q1:
q1={程序员是从事程序开发维护的专业人员。程序员分为程序设计人员和程序编码人员。但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员高级程序员系统分析员和项目经理四大类},如图1中所示,该切片的起始时间是0秒,结束时间是25.21秒。
将切片q1与关键词集合{程序员,人员,分为,程序}进行交集后,得到切片q1的关键词为:{程序员,分为,程序,人员}。
在本实施例中,当所述步骤S2中的初始视频切片集合中句子文本的个数超过一定数时,将初始视频切片集合分割成多个初始视频切片集合,然后针对于分割得到的各个初始视频切片集合分别进行步骤S3至S6的处理后,得到分割后的各个初始视频切片集合对应的各合并处理后的视频切片集合,然后各合并处理后的视频切片集合直接组合生成一个集合,该集合通过步骤S7处理后得到最终的视频切片集合。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种教学视频的虚拟切片方法,其特征在于,步骤如下:
步骤S1、首先从教学视频中提取出音频数据,然后由音频数据转换得到各句子文本,由各句子文本组合得到第一文本集合;
步骤S2、获取第一文本集合中每一句子文本在视频中的起始时间、结束时间和内容信息;根据第一文本集合中各句子文本的起始时间和结束时间对其中第一文本集合中的各句子文本进行合并处理,得到第二文本集合,将该第二文本集合作为初始视频切片集合;
步骤S3、针对于初始视频切片集合中的每一切片,选取出该切片的候选关键词,由所有切片的候选关键词依次组合后得到候选关键词集合;
步骤S4、针对于候选关键词集合设定滑动窗口,针对于候选关键词集合中的每一候选关键词,通过移动滑动窗口获取到与该候选关键词处于同一滑动窗口的其他候选关键词,构成该候选关键词的第三集合,通过第三集合中的各候选关键词对该候选关键词进行投票,以得到该候选关键词的投票结果;比较其中的所有候选关键词的投票结果,将投票结果最高的N个候选关键词选取出来构成关键词集合;
步骤S5、针对于初始视频切片集合中的每一切片,将该切片与关键词集合做交集,得到该切片的关键词;
步骤S6、针对于初始视频切片集合中的每一切片,若步骤S5中没有得到该切片的关键词,则分别计算该切片的候选关键词和前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离,将该切片与上述和其向量距离小的切片进行合并处理,通过上述得到合并处理后的视频切片集合;
步骤S7、针对于步骤S6中得到的视频切片集合中的每一切片,从第一切片开始,根据对应关键词计算该切片或该切片所合并到的切片与后一切片之间的相似度,当该切片或该切片所合并到的切片与后一切片之间的相似度大于第一阈值时,则判断该切片或该切片所合并到的切片的结束时间与后一切片的起始时间之间的时间间隔小于第二阈值、该切片或该切片所合并到的切片的时间长度与后一切片的时间长度均小于第三阈值以及该切片或该切片所合并到的切片与后一切片中句子的总数均小于第四阈值时,则将该切片或该切片所合并到的切片合并到后一切片,以得到最终的视频切片集合。
2.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,所述步骤S1中,采用FFMPEG开源框架从MP4格式的教学视频提取出音频;采用语音识别方法将音频转换成JSON格式文本,从而得到各句子文本。
3.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,所述步骤S2中,得到第二文本集合的过程如下:
针对于第一文本集合中的每一句子文本,从第二个句子文本开始,判断该句子文本的起始时间和前一句子文本的结束时间之间的时间间隔是否小于第二阈值时,若是,则将该句子文本与前一句子文本进行合并,或者将该句子文本合并到前一句子文本所合并到的句子文本中;同时,针对于第一文本集合中的每一句子文本,从第一个句子文本开始,判断该句子文本或该句子文本所合并到的句子文本的时间长度是否小于第三阈值时,若是,则将其合并到后一句子文本中。
4.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,所述步骤S3中,针对于初始视频切片集合中的每一切片,选取出该切片的候选关键词的具体过程如下:首先将该切片对应句子文本进行分词和词性标注,然后过滤掉其中的停用词,最后选取出词性为名词、动词、形容词、副词的词集合作为该切片的候选关键词。
5.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,所述步骤S4中,针对于候选关键词集合中的每一候选关键词,通过第三集合中的候选关键词对该候选关键词进行如下公式的迭代计算,在结果收敛时,得到该候选关键词的投票结果:
Figure FDA0002541016560000021
其中WS(Vi)为候选关键词Vi的权重;
其中In(Vi)为给候选关键词Vi投票的其他候选关键词所构成的集合,即第三集合,其中候选关键词Vi属于第三集合;
其中Out(Vj)为通过第三集合中候选关键词Vj进行投票的候选关键词所构成的候选关键词集合;其中候选关键词Vj属于Out(Vj)中;
其中Wji为候选关键词Vj向候选关键词Vi投票时所占的边的权重,Wjk为候选关键词Vj向候选关键词Vk投票时所占的边的权重;
其中WS(Vj)为候选关键词Vj的权重;
其中d为阻尼系数。
6.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,所述步骤S5中,当获取到初始视频切片集合中每一切片的关键词后,针对于每一切片的所有关键词,若存在关键词形成相邻词组,则将这些关键词组合成关键词短语。
7.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,所述步骤S6中,针对于初始视频切片集合中的每一切片,若步骤S5中没有得到该切片的关键词,则分别计算该切片的候选关键词与前一有关键词的切片的候选关键词以及后一带有关键词的切片的候选关键词的向量距离,将该切片与其中向量距离小的切片进行合并;若该切片的候选关键词与前一有关键词的切片的候选关键词之间的向量距离和该切片的候选关键词与后一有关键词的切片的候选关键词之间的向量距离是相等的,那么将该切片与前一有关键词的切片进行合并。
8.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,所述步骤S7中,两个切片之间的相似度计算公式为:
Figure FDA0002541016560000031
其中fx(ci)为切片px中关键词ci的词频向量,fy(ci)为切片py中关键词ci的词频向量;ci为切片px和切片py两者关键词集合中的第i个关键词,n为切片px和切片py两者关键词集合中关键词的总数。
9.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,当所述步骤S2中的初始视频切片集合中句子文本的个数超过一定数时,将初始视频切片集合分割成多个初始视频切片集合,然后针对于分割得到的各个初始视频切片集合分别进行步骤S3至S6的处理后,得到分割后的各个初始视频切片集合对应的各合并处理后的视频切片集合,然后各合并处理后的视频切片集合直接组合生成一个集合,该集合通过步骤S7处理后得到最终的视频切片集合。
10.根据权利要求1所述的教学视频的虚拟切片方法,其特征在于,所述第一阈值为0.618,所述第二阈值为0.1秒,所述第三阈值为3秒,所述第四阈值为3;
所述步骤S4中针对于候选关键词集合设定窗口值大小为5的滑动窗口。
CN201810266852.3A 2018-03-28 2018-03-28 一种教学视频的虚拟切片方法 Active CN108419123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810266852.3A CN108419123B (zh) 2018-03-28 2018-03-28 一种教学视频的虚拟切片方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810266852.3A CN108419123B (zh) 2018-03-28 2018-03-28 一种教学视频的虚拟切片方法

Publications (2)

Publication Number Publication Date
CN108419123A CN108419123A (zh) 2018-08-17
CN108419123B true CN108419123B (zh) 2020-09-04

Family

ID=63133710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810266852.3A Active CN108419123B (zh) 2018-03-28 2018-03-28 一种教学视频的虚拟切片方法

Country Status (1)

Country Link
CN (1) CN108419123B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743617B (zh) * 2018-12-03 2020-11-24 清华大学 一种视频播放的跳转导航方法和设备
CN111726692B (zh) * 2019-03-22 2022-09-09 北京图音数码科技有限公司 音视图数据的互动播放方法
CN109960747B (zh) * 2019-04-02 2022-12-16 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN110400559B (zh) * 2019-06-28 2020-09-29 北京达佳互联信息技术有限公司 一种音频合成的方法、装置及设备
CN110619035B (zh) * 2019-08-01 2023-07-25 平安科技(深圳)有限公司 识别面试视频中关键词的方法、装置、设备及存储介质
CN111510765B (zh) * 2020-04-30 2021-10-22 浙江蓝鸽科技有限公司 基于教学视频的音频标签智能标注方法、设备及存储介质
CN112288708B (zh) * 2020-10-27 2021-10-15 推想医疗科技股份有限公司 Ct图像中淋巴结的检测方法、装置、介质及电子设备
CN112560663A (zh) * 2020-12-11 2021-03-26 南京谦萃智能科技服务有限公司 教学视频打点方法、相关设备及可读存储介质
CN115243077A (zh) * 2022-07-21 2022-10-25 平安信托有限责任公司 音视频资源点播方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539929A (zh) * 2009-04-17 2009-09-23 无锡天脉聚源传媒科技有限公司 利用计算机系统进行的电视新闻标引方法
CN102004724A (zh) * 2010-12-23 2011-04-06 哈尔滨工业大学 文档段落分割方法
CN103136332A (zh) * 2013-01-28 2013-06-05 福州新锐同创电子科技有限公司 一种知识点制作、管理、检索的实现方法
CN105227968A (zh) * 2014-06-30 2016-01-06 惠州市伟乐科技股份有限公司 基于切片的视频转码加速方法
CN105744356A (zh) * 2016-01-29 2016-07-06 杭州观通科技有限公司 一种基于内容的视频分段方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539929A (zh) * 2009-04-17 2009-09-23 无锡天脉聚源传媒科技有限公司 利用计算机系统进行的电视新闻标引方法
CN102004724A (zh) * 2010-12-23 2011-04-06 哈尔滨工业大学 文档段落分割方法
CN103136332A (zh) * 2013-01-28 2013-06-05 福州新锐同创电子科技有限公司 一种知识点制作、管理、检索的实现方法
CN105227968A (zh) * 2014-06-30 2016-01-06 惠州市伟乐科技股份有限公司 基于切片的视频转码加速方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN105744356A (zh) * 2016-01-29 2016-07-06 杭州观通科技有限公司 一种基于内容的视频分段方法

Also Published As

Publication number Publication date
CN108419123A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108419123B (zh) 一种教学视频的虚拟切片方法
KR102455616B1 (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
Wang et al. An overview of image caption generation methods
CN108986186B (zh) 文字转化视频的方法和系统
US20220270369A1 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
US8775174B2 (en) Method for indexing multimedia information
CN110162591B (zh) 一种面向数字教育资源的实体对齐方法及系统
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN112733660B (zh) 一种视频拆条的方法和装置
CN114580382A (zh) 文本纠错方法以及装置
CN112733654B (zh) 一种视频拆条的方法和装置
Stappen et al. Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild
Lison et al. Automatic turn segmentation for movie & tv subtitles
Álvarez et al. Automating live and batch subtitling of multimedia contents for several European languages
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
US20230325611A1 (en) Video translation platform
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN117093739A (zh) 图像生成以及图文对齐方法、装置、终端设备及存储介质
Zahariev et al. Semantic analysis of voice messages based on a formalized context
US11580737B1 (en) Search results within segmented communication session content
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
Hukkeri et al. Erratic navigation in lecture videos using hybrid text based index point generation
Das et al. Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos
Soares et al. A framework for automatic topic segmentation in video lectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211124

Address after: 100089 4th Floor 403, No. 15 Wanquanzhuang Road, Haidian District, Beijing

Patentee after: CREATIVE KNOWLEDGE (BEIJING) EDUCATION TECHNOLOGY Co.,Ltd.

Address before: 602b, No.7 caipin Road, Science City, Guangzhou Development Zone, Guangdong 510000

Patentee before: GUANGZHOU INSTITUTE OF INNOVATION INTERNET EDUCATIONAL RESEARCH

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 100089 4th Floor 403, No. 15 Wanquanzhuang Road, Haidian District, Beijing

Patentee after: Chuang'exin (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: 100089 4th Floor 403, No. 15 Wanquanzhuang Road, Haidian District, Beijing

Patentee before: CREATIVE KNOWLEDGE (BEIJING) EDUCATION TECHNOLOGY Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address