CN117830910B - 一种用于视频检索的自动混剪视频方法、系统及存储介质 - Google Patents
一种用于视频检索的自动混剪视频方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117830910B CN117830910B CN202410250047.7A CN202410250047A CN117830910B CN 117830910 B CN117830910 B CN 117830910B CN 202410250047 A CN202410250047 A CN 202410250047A CN 117830910 B CN117830910 B CN 117830910B
- Authority
- CN
- China
- Prior art keywords
- sub
- keyword
- video
- search
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000012634 fragment Substances 0.000 claims abstract description 52
- 230000033764 rhythmic process Effects 0.000 claims abstract description 40
- 238000010008 shearing Methods 0.000 claims abstract description 6
- 238000002156 mixing Methods 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000009354 mixed cropping Methods 0.000 claims 2
- 238000004364 calculation method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 238000004880 explosion Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- QERYCTSHXKAMIS-UHFFFAOYSA-M thiophene-2-carboxylate Chemical compound [O-]C(=O)C1=CC=CS1 QERYCTSHXKAMIS-UHFFFAOYSA-M 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Abstract
本发明公开了一种用于视频检索的自动混剪视频方法、系统及存储介质,属于数据处理技术领域,该方法包括:对新增视频进行识别,生成多条语句文本;将语句文本划分至不同的主题分组中;基于主题分组将新增视频拆分为多个子片段,从主题分组中抽取描述关键词,并与子片段关联存储;基于输入文本生成检索关键词,检索描述关键词中包括检索关键词的子片段;计算检索关键词与子片段对应主题分组的相关值,将相关值大于第二阈值主题分组对应的子片段定义为备选片段;将选择的背景音乐拆分多个律动区间,将备选片段插入至对应的律动区间内,以生成混剪视频。通过本发明可以解决建立视频素材库还需人工标注、进而会出现耗费人力的问题。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种用于视频检索的自动混剪视频方法、系统及存储介质。
背景技术
混剪视频作为一种新兴的视频创作形式,在近年来得到了广泛的发展和应用。在创造过程中,作者通过自身的创作思想,将来自不同电影、电视及网络视频中的片段剪辑汇总,并配置相关的背景音乐,以使得受众者可以看到自己喜欢的视频合辑。过去,视频混剪依赖于创造者自身的视频观看量,且需要通过手工进行剪辑,随着图像算力技术的发展,现有技术中提出了多种方式来辅助创作者进行剪辑。
如中国专利文件“CN116614672A”公开了一种基于文本-视频检索的自动混剪视频的方法,该方法将视频分割为片段,组成视频素材库,之后通过输入文本段落,搜索最匹配的若干视频片段,最后根据不同片段的组合,选择一致性最高的组合。从而自动获得风格接近、一致性较高的混剪视频。又例如中国专利文件“CN117319746A”公开了一种基于序列标注算法的多源素材混合剪辑视频的方法,该方法根据长文本预测完整的视频token,不需要迭代生成长视频,视频表示模块将每条子视频表示为token,用token将风格、主题不一致的视频加以区分,自动剪辑出的视频的风格一致和帧间连贯性,从而提高剪辑的长视频的风格一致性。
然而,实现上述技术方案需要事先建立视频素材库,当前视频素材库还需要通过人工对每个视频进行标记,因此存在耗费人力的问题。
发明内容
为解决上述问题,本发明提供了一种用于视频检索的自动混剪视频方法、系统及存储介质,以解决建立视频素材库会出现耗费人力的问题。
为了达到上述的发明目的,本发明提出一种用于视频检索的自动混剪视频方法,包括:
对被录入至数据库中的新增视频进行识别,生成多条包含编号的语句文本;
基于划分间隔将编号相邻的多条所述语句文本划分至同一初始分组内,若相邻所述初始分组的相似度小于第一阈值,则继续使用所述划分间隔将所述初始分组划分,直至由所述初始分组划分出子分组之间所述相似度大于所述第一阈值,此时将所述子分组来源的所述初始分组定义为主题分组;
基于所述主题分组将所述新增视频拆分为多个子片段,从所述主题分组中抽取描述关键词,并与所述子片段关联存储至数据库中;
获取输入文本,基于所述输入文本生成检索关键词,检索所述描述关键词中包括所述检索关键词的所述子片段;
若检索到多个所述子片段,则计算所述检索关键词与所述子片段对应所述主题分组的相关值,将所述相关值大于第二阈值所述主题分组对应的所述子片段定义为备选片段;
将选择的背景音乐拆分多个律动区间,将所述备选片段插入至对应的所述律动区间内,以自动生成混剪视频。
进一步的,所述输入文本生成所述检索关键词包括以下步骤:
从所述输入文本中提取第一关键词,基于所述第一关键词生成关联的第二关键词,基于所述第一关键词和所述第二关键词生成检索式1;
基于所述检索式1搜索并获得多个所述子片段,计算每个所述子片段与所述检索式1的所述相关值,基于所述相关值的大小对所述子片段排序后,抽取前X个所述子片段组成第一集合,去除所述检索式1中一对关联的所述第一关键词和所述第二关键词,定义本次去除的所述第一关键词为目标词1,去除所述目标词1和对应所述第二关键词后的所述检索式1为检索式2,基于所述检索式2重新检索并获得第二集合;
抽取所述第一集合和所述第二集合中不同的所述子片段,定义为差异片段,基于第一公式计算所述目标词1的贡献值,所述第一公式为:/>,其中,d为所述差异片段的数量,/>为第i个所述差异片段与对应所述检索式1或所述检索式2的所述相关值,在所述检索式1中重新选取一对所述第一关键词和所述第二关键词,定义本次选取的所述第一关键词为目标词2,重复本步骤以计算所述目标词2的所述贡献值,再次从所述检索式1中抽取新的所述第一关键词并计算所述贡献值,直至所述检索式1中不再存在未被抽取过的所述第一关键词;
将所述贡献值大于第三阈值的目标词,以及关联的所述第二关键词定义为所述检索关键词,同时将所述贡献值小于等于所述第三阈值的目标词定义为备选关键词,将所述备选关键词对应的所述差异片段进行可视化显示,若所述差异片段被标记,则将所述备选关键词定义为所述检索关键词。
进一步的,基于以下步骤计算所述检索关键词与所述主题分组的所述相关值:
提取要对比的M个所述主题分组中包括的所述检索关键词,基于第二公式计算其中第n个所述检索关键词在第m个所述主题分组的第一数值,所述第二公式为:,其中,/>为第n个所述检索关键词在第m个所述主题分组中出现的次数,/>为第n个所述检索关键词在所有所述主题分组中出现的次数;
基于第三公式计算第n个所述检索关键词的第二数值,所述第三公式为:,其中,S为预设数值;
基于第四公式计算所述检索关键词与第m个所述主题分组的所述相关值,所述第四公式为:/>,其中,K为所述主题分组中包括的所述检索关键词类型数量,L为所述输入文本中所有所述检索关键词的所述第二数值之和。
进一步的,基于所述主题分组将所述新增视频拆分为多条所述子片段包括以下步骤:
获取所述主题分组中编号最小和最大所述语句文本的第一时间锚和第二时间锚,从所述新增视频中拆分出第一片段,所述第一片段的起始时间和终止时间分别为所述第一时间锚和所述第二时间锚,若所述第一片段中不存在超过第四阈值的无声片段,则将所述第一片段作为所述子片段;
若所述第一片段中存在超过所述第四阈值的所述无声片段,则从所述第一片段中抽出第二片段,所述第二片段的起始时间在所述无声片段之前,终止时间在所述无声片段之后,将被抽取后的所述第一片段和所述第二片段均定义为所述子片段。
进一步的,基于以下步骤确定所述第二片段的所述描述关键词:
预先设置多个模板画面和对应的所述描述关键词,获取所述第二片段的代表画面,获取与所述代表画面图像相似度最高的所述模板画面,将所述模板画面的所述描述关键词赋予所述第二片段。
进一步的,基于以下步骤将所述备选片段插入至对应的所述律动区间内:
绘制所述背景音乐每秒的频谱图,所述频谱图包括频谱曲线,所述频谱曲线绘制于以频率为横轴、振幅为纵轴的坐标系中,基于所述频谱曲线与横轴之间的面积将所述频谱图划分为多种律动类型,将同律动类型且时间连续所述频谱图划分在同一所述律动区间,基于所述描述关键词将所述备选片段划分为多种律动类型,将对应律动类型所述备选片段填充至对应所述律动区间中。
本发明还提供了一种用于视频检索的自动混剪视频方法系统,该系统用于实现上述所述的一种用于视频检索的自动混剪视频方法,该系统包括:
识别单元,对被录入至数据库中的新增视频进行识别,生成多条包含编号的语句文本;
分组单元,基于划分间隔将编号相邻的多条所述语句文本划分至同一初始分组内,若相邻所述初始分组的相似度小于第一阈值,则继续使用所述划分间隔将所述初始分组划分,直至由所述初始分组划分出子分组之间所述相似度大于所述第一阈值,此时将所述子分组来源的所述初始分组定义为主题分组;
剪辑单元,基于所述主题分组将所述新增视频拆分为多个子片段,从所述主题分组中抽取描述关键词,并与所述子片段关联存储至数据库中;
检索单元,获取输入文本,基于所述输入文本生成检索关键词,检索所述描述关键词中包括所述检索关键词的所述子片段,若检索到多个所述子片段,则计算所述检索关键词与所述子片段对应所述主题分组的相关值,将所述相关值大于第二阈值所述主题分组对应的所述子片段定义为备选片段;
混剪单元,将选择的背景音乐拆分多个律动区间,将所述备选片段插入至对应的所述律动区间内,以自动生成混剪视频。
本发明还提供一种计算机存储介质,所述计算机存储介质存储有程序指令,其中,在所述程序指令运行时控制所述计算机存储介质所在设备执行上述所述的一种用于视频检索的自动混剪视频方法。
与现有技术相比,本发明的有益效果至少如下所述:
本发明在数据库中设置有预设的视频拆分规则,当新的视频被录入至数据库中后,数据库会基于拆分规则将新录入的视频拆分为多个子片段,并且为每个子片段标注对应的描述关键词,之后,当用户想要获取需求类型的视频片段时,只需输入一段输入文本或关键词,数据库就会从输入文本或关键词中提取检索关键词自动进行检索,以获得多个符合要求的备选片段,最后,本发明还可以根据输入文本自动获取合适的背景音乐,并将备选片段填充被背景音乐中,从而自动生成混剪视频,这样大大减少了创作者的工作量。
本发明的视频拆分规则是基于文本的拆分规则,在将视频中的语音或字幕转换为整段文本后,将相同主题的文本划分至同一个主题分组内,从而将整段文本拆分为多个小段,最后,再根据主题分组中语句文本的开始和结束时间将新增视频拆分为多个子片段,那么被拆分出的子片段对应一个主题,这样就实现自动将新增视频拆分为多个主题的子片段。
附图说明
图1为本发明用于视频检索的自动混剪视频方法的步骤流程图;
图2为本发明用于视频检索的自动混剪视频方法的系统结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,一种用于视频检索的自动混剪视频方法,包括:
步骤S1:对被录入至数据库中的新增视频进行识别,生成多条包含编号的语句文本。
新增视频包括电影、电视和网络视频等,识别方法包括音频识别和图像识别,音频识别为识别视频中的人声,例如将开始说话至出现停顿时的语音转换为一条语句文本,图像识别为视频中已经存在的字幕,如使用CNN等深度学习模型将某个时刻出现的字幕转换为一个语句文本。若视频中既有语音也有字幕,则只识别字幕;另外,本实施例按照语句文本的生成顺序进行编号。另外,语句文本还包括在新增视频中的时间信息,如语句文本1的时间信息为00:05~00:08。
步骤S2:基于划分间隔将编号相邻的多条语句文本划分至同一初始分组内,若相邻初始分组的相似度小于第一阈值,则继续使用划分间隔将初始分组划分,直至由初始分组划分出子分组之间相似度大于第一阈值,此时将子分组来源的初始分组定义为主题分组。
本实施按照以下步骤划分主题分组,预先设置划分间隔和第一阈值,按照划分间隔将语句文本划分为多个初始分组,如存在80个语句文本,划分间隔为2,那么将划分出2个初始分组,如初始分组1包括语句文本1-40,初始分组2包括语句文本41-80;对比初始分组1和初始分组2的相似度,这里采用基于词向量的语义相似度对比方法,获得初始分组1和初始分组2的相似度,若相似度小于判定阈值80%,则认为初始分组1和初始分组2表达不同的主题,将初始分组1拆分为子分组11和12,子分组11包括语句文本1-20,子分组12包括语句文本21-40,继续对比子分组11和12的相似度,若子分组11和12的相似度大于80%,则将初始分组1设置为主题分组,若小于80%,继续进行划分。直至所有语句文本均被划分至对应的主题分组内。
步骤S3:基于主题分组将新增视频拆分为多个子片段,从主题分组中抽取描述关键词,并与子片段关联存储至数据库中。
拆分时,获取主题分组编号最小和最大语句文本的时间信息,如00:05~00:08和01:05~02:06,则00:05为作为第一时间锚,02:06为第二时间锚,将新增视频中00:05~02:06拆分出来,若在00:05~02:06之间没有超过1分钟的无声片段,则将00:05~02:06作为子片段,若有无声片段,处理方式在之后进行介绍。之后再主题分组中各个语句文本提取出描述关键词,本发明首先将语句文本进行分词,然后再提取描述关键词,如“我刚从火灾中逃生”,则“火灾”和“逃生”被作为描述关键词提取出,最后将子片段和对应的描述关键词关联存储至数据库中。
步骤S4:获取输入文本,基于输入文本生成检索关键词,检索描述关键词中包括检索关键词的子片段。
输入文本为用户输入的文本,可以是一句话,也可以是多个词语,之后从输入文本中提取并生成检索关键词,生成检索关键词的方式在之后进行描述。之后根据检索关键词在数据库中进行检索,以搜寻到包含同样词语的子片段。
步骤S5:若检索到多个子片段,则计算检索关键词与子片段对应主题分组的相关值,将相关值大于第二阈值主题分组对应的子片段定义为备选片段。
若只检索到一个子片段,则直接将子片段作为备选片段,不再计算相关值;若获得多个字片段,则计算检索关键词与各个子片段对应描述关键词的相关值,相关值的计算方式在之后进行介绍,若相关值大于第二阈值,则认为对应的子片段符合要求,将子片段定义为备选片段,否则,将子片段丢弃。
步骤S6:将选择的背景音乐拆分多个律动区间,将备选片段插入至对应的律动区间内,以自动生成混剪视频。
如果用户想要多种风格的视频片段,则会多次输入文本进行检索,本实施例设置有视频生成按钮,当用户停止检索后并点击视频生成按钮后,自动将用户选择的背景音乐分成多个律动区间,如鼓点有规律的区间,音乐轻柔的区间等,将描述关键词包括爆炸、交战等的备选区段填充至鼓点有规律的区段中,将描述关键词包括漫步、秋天等的备选区段填充至乐轻柔的区段,以生成混剪视频。这样就大大减少了创作者的工作量。另外,被填充备选区段的时长小于等于区段时长。
本发明在数据库中设置有预设的视频拆分规则,当新的视频被录入至数据库中后,数据库会基于拆分规则将新录入的视频拆分为多个子片段,并且为每个子片段标注对应的描述关键词,之后,当用户想要获取需求类型的视频片段时,只需输入一段输入文本或关键词,数据库就会从输入文本或关键词中提取检索关键词自动进行检索,以获得多个符合要求的备选片段,最后,本发明还可以根据输入文本自动获取合适的背景音乐,并将备选片段填充被背景音乐中,从而自动生成混剪视频,这样大大减少了创作者的工作量。
本发明的视频拆分规则是基于文本的拆分规则,在将视频中的语音或字幕转换为整段文本后,将相同主题的文本划分至同一个主题分组内,从而将整段文本拆分为多个小段,最后,再根据主题分组中语句文本的开始和结束时间将新增视频拆分为多个子片段,那么被拆分出的子片段对应一个主题,这样就实现自动将新增视频拆分为多个主题的子片段。
尤为注意的是,通过本发明可以自动对录入至数据库中的视频拆分并标注描述关键词,从而解决建立视频素材库还需人工标注、进而会出现耗费人力的问题。
在本实施例中,输入文本生成检索关键词包括以下步骤:
从输入文本中提取第一关键词,基于第一关键词生成关联的第二关键词,基于第一关键词和第二关键词生成检索式1。
提取第一关键词的方法与提取描述关键词的方法相同,本实施例还设置有过滤词典,过滤词典中包括多个提取后需要被过滤的词语,如视频、画面、心情等描述类词语,因为这些词经常会出现在输入文本中且不具备指向性,假设输入文本为“让人心情平静的风景视频”,则提取出“心情”“平静”“风景”“视频”,并将“心情”“视频”过滤掉。然后,搜寻与第一关键词同义或近义的第二关键词,获得了“安谧”“景色”,之后生成检索式,检索式具体为(第一关键词AND第一关键词···)OR(第二关键词AND第二关键词···),如(平静AND风景)OR((安谧AND景色),这里定义为检索式1。
基于检索式1搜索并获得多个子片段,计算每个子片段与检索式1的相关值,基于相关值的大小对子片段排序后,抽取前X个子片段组成第一集合,去除检索式1中一对关联的第一关键词和第二关键词,定义本次去除的第一关键词为目标词1,去除目标词1和对应第二关键词后的检索式1为检索式2,基于检索式2重新检索并获得第二集合。
在使用检索式1检索时,获取描述关键字中包括平静和风景的子片段,或安谧和景色的子片段,之后计算检索式1与每个子片段对应主题分组的相关值,计算方式与计算检索关键词与主题分组相关值的方式相同,在之后进行统一介绍。之后按照相关值由大到小对子片段进行排序,并抽取前X=100个子片段作为第一集合。之后,删除一个关键词,例如删除“风景”,只保留“平静”,则生成(平静)OR(安谧)的检索式2,在此检索获得多个子片段,按照上述方法从结果中组成第二集合。
抽取第一集合和第二集合中不同的子片段,定义为差异片段,基于第一公式计算目标词1的贡献值,第一公式为:/>,其中,d为差异片段的数量,/>为第i个差异片段与对应检索式1或检索式2的相关值,在检索式1中重新选取一对第一关键词和第二关键词,定义本次选取的第一关键词为目标词2,重复本步骤以计算目标词2的贡献值,再次从检索式1中抽取新的第一关键词并计算贡献值,直至检索式1中不再存在未被抽取过的第一关键词。
由于改变了检索式1,因此第一集合和第二集合中子片段可能有相同的子片段,也有不同的子片段,因此获取第一集合和第二集合中包括的不同子片段作为差异片段,如存在2个差异片段,其中第一集合中存在子片段1,第二集合中存在子片段2,则获取子片段1与检索式1的相关值,子片段2与检索式2的相关值,代入至第一公式可得出风景的贡献值。其意义在于,贡献值越大,表明被删除的第一关键词对检索结果的影响越大。之后再删除“风景”,保留“平静”,继续计算“平静”的贡献值。
将贡献值大于第三阈值的目标词,以及关联的第二关键词定义为检索关键词,同时将贡献值小于等于第三阈值的目标词定义为备选关键词,将备选关键词对应的差异片段进行可视化显示,若差异片段被标记,则将备选关键词定义为检索关键词。
第三阈值可以根据实际情况设置,若保留了“平静”,则“平静”和“静谧”为检索关键词,另外,虽然将“风景”删除,但是本实施例还在屏幕的一侧显示由于“风景”被删除后,所无法检索出的个别子片段供创作者查看,若创作者点击选择了这些片段,则将“风景”和“景色”重新添加至检索关键词中。因而,通过上述步骤可以剔除对检索结果影响较低的关键词,如此可以提升后续相关值的计算准确性。
在本实施例中,基于以下步骤计算检索关键词与主题分组的相关值:
提取要对比的M个主题分组中包括的检索关键词,基于第二公式计算其中第n个检索关键词在第m个主题分组的第一数值,第二公式为:/>,其中,/>为第n个检索关键词在第m个主题分组中出现的次数,/>为第n个检索关键词在所有主题分组中出现的次数。
基于第三公式计算第n个检索关键词的第二数值,第二公式为:,其中,S为预设数值。
基于第四公式计算检索关键词与第m个主题分组的相关值,第四公式为:,其中,K为主题分组中包括的检索关键词类型数量,L为输入文本中所有检索关键词的第二数值之和。
假设通过检索关键词检索出了m=50个子片段,也即有50个主题分组,包括主题分组1、主题分组2、……、主题分组50,统计每个检索关键词在每个主题分组的出现次数,例如主题分组1中有20条语句文本,“平静”在其中出现了20次,则为20,“平静”在所有的主题分组中出现100次,则/>为100,则宁静在主题分组1的第一数值为20/100=0.2。
本实施例将S设置为10,由第一公式可知,每个检索关键词的第一数值会在0-1之间,那么的计算结果小于0,假设,检索关键词1的/> 、/>、/>均为0.1,那么针对/>计算结果为-1.347,检索关键词2的/>、/>、、/>均为0.25,那么针对/>计算结果为-2,分别与10相加后得8.653和8,由此可知,检索关键词在各个主题分组分布的越平均,对应获得第二数值越小,表明检索关键词没有代表性,反之,若第二数值越大,表明代表关键词越倾向于出现在某个主题分组内,表明代表关键词具有代表性。
如主题分组包括了检索关键词包括“风景”“平静”“安谧”,则检索关键词的数量K=3,在第四公式中可以推导出,主题分组中包括的检索关键词类型越多,关键词的第二数值越大,出现频率越高,主题分组与检索关键词的相关值越高。
基于主题分组将新增视频拆分为多条子片段包括以下步骤:
获取主题分组中编号最小和最大语句文本的第一时间锚和第二时间锚,从新增视频中拆分出第一片段,第一片段的起始时间和终止时间分别为第一时间锚和第二时间锚,若第一片段中不存在超过第四阈值的无声片段,则将第一片段作为子片段。
若第一片段中存在超过第四阈值的无声片段,则从第一片段中抽出第二片段,第二片段的起始时间在无声片段之前,终止时间在无声片段之后,将被抽取后的第一片段和第二片段均定义为子片段。
例如抽取的第一片段为01:05~05:36,其中在02:14~04:01为无声片段,且超过了第四阈值,则将无声片段02:14~04:01抽取出,并且抽取时,将抽取范围进行扩大,具体的,将抽取的起始时间设置为02:12,终止时间为04:03,即第二片段的时间为02:12~04:03,被抽取后,原有的第一片段被拆分为两个,本实施例将两个第一片段合并为一个后,继续作为子片段存储,同时抽取出的第二片段也作为子片段存储。这里扩大截取范围的原因是,单独截取无声片段作为子片段,创作者在观看时给与的直观感觉较为突兀,而扩大截取范围可以减少这种突兀感。
基于以下步骤确定第二片段的描述关键词:
预先设置多个模板画面和对应的描述关键词,获取第二片段的代表画面,获取与代表画面图像相似度最高的模板画面,将模板画面的描述关键词赋予第二片段。
由于第二片段为无声片段,因此无法生成对应的语句文本,为了生成第二片段的描述关键词,从第二片段中抽取代表画面,可以将第二片段中图图像亮度最高的画面作为代表画面,因为视频拍摄者通常使用较高亮度来展示视频中的重要片段,从而便于观众观看。之后采用深度学习CNN对比代表画面和模板画面的画面相似度,若大于80%,则将模板画面对应的描述关键词赋予第二片段,如模板画面对应爆炸的描述关键词,则将“爆炸”赋予第二片段。
基于以下步骤将备选片段插入至对应的律动区间内:
绘制背景音乐每秒的频谱图,频谱图包括频谱曲线,频谱曲线绘制于以频率为横轴、振幅为纵轴的坐标系中,基于频谱曲线与横轴之间的面积将频谱图划分为多种律动类型,将同律动类型且时间连续频谱图划分在同一律动区间,基于描述关键词将备选片段划分为多种律动类型,将对应律动类型备选片段填充至对应律动区间中。
一般的,音乐鼓点越密集,节奏型越强,频谱曲线与横轴之间的面积越大,音乐鼓点越少,音乐越舒缓,频谱曲线与横轴之间的面积越小;本实施例将频谱图划分为3种律动类型,律动类型1、律动类型2、律动类型3的面积分别在第一范围、第二范围和第三范围中,之后,根据频谱图的律动类型将音乐划分为具有时间长度的多个区段,如在00:01~00:32的区间为律动类型3;律动类型1的律动感最强,若备选片段的描述关键词包括“爆炸”,将备选片段插入至律动类型1的区段中。
如图2所示,本发明还提供了一种用于视频检索的自动混剪视频方法系统,该系统用于实现上述的一种用于视频检索的自动混剪视频方法,该系统包括:
识别单元,对被录入至数据库中的新增视频进行识别,生成多条包含编号的语句文本;
分组单元,基于划分间隔将编号相邻的多条语句文本划分至同一初始分组内,若相邻初始分组的相似度小于第一阈值,则继续使用划分间隔将初始分组划分,直至由初始分组划分出子分组之间相似度大于第一阈值,此时将子分组来源的初始分组定义为主题分组;
剪辑单元,基于主题分组将新增视频拆分为多个子片段,从主题分组中抽取描述关键词,并与子片段关联存储至数据库中;
检索单元,获取输入文本,基于输入文本生成检索关键词,检索描述关键词中包括检索关键词的子片段,若检索到多个子片段,则计算检索关键词与子片段对应主题分组的相关值,将相关值大于第二阈值主题分组对应的子片段定义为备选片段;
混剪单元,将选择的背景音乐拆分多个律动区间,将备选片段插入至对应的律动区间内,以自动生成混剪视频。
本发明还提供一种计算机存储介质,计算机存储介质存储有程序指令,其中,在程序指令运行时控制计算机存储介质所在设备执行上述的一种用于视频检索的自动混剪视频方法。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种用于视频检索的自动混剪视频方法,其特征在于,包括:
对被录入至数据库中的新增视频进行识别,生成多条包含编号的语句文本;
基于划分间隔将编号相邻的多条所述语句文本划分至同一初始分组内,若相邻所述初始分组的相似度小于第一阈值,则继续使用所述划分间隔将所述初始分组划分,直至由所述初始分组划分出子分组之间所述相似度大于所述第一阈值,此时将所述子分组来源的所述初始分组定义为主题分组;
基于所述主题分组将所述新增视频拆分为多个子片段,从所述主题分组中抽取描述关键词,并与所述子片段关联存储至数据库中;
获取输入文本,基于所述输入文本生成检索关键词,检索所述描述关键词中包括所述检索关键词的所述子片段;
若检索到多个所述子片段,则计算所述检索关键词与所述子片段对应所述主题分组的相关值,将所述相关值大于第二阈值所述主题分组对应的所述子片段定义为备选片段;
将选择的背景音乐拆分多个律动区间,将所述备选片段插入至对应的所述律动区间内,以自动生成混剪视频;
所述输入文本生成所述检索关键词包括以下步骤:
从所述输入文本中提取第一关键词,基于所述第一关键词生成关联的第二关键词,基于所述第一关键词和所述第二关键词生成检索式1;
基于所述检索式1搜索并获得多个所述子片段,计算每个所述子片段与所述检索式1的所述相关值,基于所述相关值的大小对所述子片段排序后,抽取前X个所述子片段组成第一集合,去除所述检索式1中一对关联的所述第一关键词和所述第二关键词,定义本次去除的所述第一关键词为目标词1,去除所述目标词1和对应所述第二关键词后的所述检索式1为检索式2,基于所述检索式2重新检索并获得第二集合;
抽取所述第一集合和所述第二集合中不同的所述子片段,定义为差异片段,基于第一公式计算所述目标词1的贡献值,所述第一公式为:/>,其中,d为所述差异片段的数量,/>为第i个所述差异片段与对应所述检索式1或所述检索式2的所述相关值,在所述检索式1中重新选取一对所述第一关键词和所述第二关键词,定义本次选取的所述第一关键词为目标词2,重复本步骤以计算所述目标词2的所述贡献值,再次从所述检索式1中抽取新的所述第一关键词并计算所述贡献值,直至所述检索式1中不再存在未被抽取过的所述第一关键词;
将所述贡献值大于第三阈值的目标词,以及关联的所述第二关键词定义为所述检索关键词,同时将所述贡献值小于等于所述第三阈值的目标词定义为备选关键词,将所述备选关键词对应的所述差异片段进行可视化显示,若所述差异片段被标记,则将所述备选关键词定义为所述检索关键词;
基于以下步骤计算所述检索关键词与所述主题分组的所述相关值:
提取要对比的M个所述主题分组中包括的所述检索关键词,基于第二公式计算其中第n个所述检索关键词在第m个所述主题分组的第一数值,所述第二公式为:/>,其中,/>为第n个所述检索关键词在第m个所述主题分组中出现的次数,/>为第n个所述检索关键词在所有所述主题分组中出现的次数;
基于第三公式计算第n个所述检索关键词的第二数值,所述第三公式为:,其中,S为预设数值;
基于第四公式计算所述检索关键词与第m个所述主题分组的所述相关值,所述第四公式为:/>,其中,K为所述主题分组中包括的所述检索关键词类型数量,L为所述输入文本中所有所述检索关键词的所述第二数值之和。
2.根据权利要求1所述的一种用于视频检索的自动混剪视频方法,其特征在于,基于所述主题分组将所述新增视频拆分为多条所述子片段包括以下步骤:
获取所述主题分组中编号最小和最大所述语句文本的第一时间锚和第二时间锚,从所述新增视频中拆分出第一片段,所述第一片段的起始时间和终止时间分别为所述第一时间锚和所述第二时间锚,若所述第一片段中不存在超过第四阈值的无声片段,则将所述第一片段作为所述子片段;
若所述第一片段中存在超过所述第四阈值的所述无声片段,则从所述第一片段中抽出第二片段,所述第二片段的起始时间在所述无声片段之前,终止时间在所述无声片段之后,将被抽取后的所述第一片段和所述第二片段均定义为所述子片段。
3.根据权利要求2所述的一种用于视频检索的自动混剪视频方法,其特征在于,基于以下步骤确定所述第二片段的所述描述关键词:
预先设置多个模板画面和对应的所述描述关键词,获取所述第二片段的代表画面,获取与所述代表画面图像相似度最高的所述模板画面,将所述模板画面的所述描述关键词赋予所述第二片段。
4.根据权利要求3所述的一种用于视频检索的自动混剪视频方法,其特征在于,基于以下步骤将所述备选片段插入至对应的所述律动区间内:
绘制所述背景音乐每秒的频谱图,所述频谱图包括频谱曲线,所述频谱曲线绘制于以频率为横轴、振幅为纵轴的坐标系中,基于所述频谱曲线与横轴之间的面积将所述频谱图划分为多种律动类型,将同律动类型且时间连续所述频谱图划分在同一所述律动区间,基于所述描述关键词将所述备选片段划分为多种律动类型,将对应律动类型所述备选片段填充至对应所述律动区间中。
5.一种用于视频检索的自动混剪视频方法系统,用于实现如权利要求1-4任一项所述的一种用于视频检索的自动混剪视频方法,其特征在于,包括:
识别单元,对被录入至数据库中的新增视频进行识别,生成多条包含编号的语句文本;
分组单元,基于划分间隔将编号相邻的多条所述语句文本划分至同一初始分组内,若相邻所述初始分组的相似度小于第一阈值,则继续使用所述划分间隔将所述初始分组划分,直至由所述初始分组划分出子分组之间所述相似度大于所述第一阈值,此时将所述子分组来源的所述初始分组定义为主题分组;
剪辑单元,基于所述主题分组将所述新增视频拆分为多个子片段,从所述主题分组中抽取描述关键词,并与所述子片段关联存储至数据库中;
检索单元,获取输入文本,基于所述输入文本生成检索关键词,检索所述描述关键词中包括所述检索关键词的所述子片段,若检索到多个所述子片段,则计算所述检索关键词与所述子片段对应所述主题分组的相关值,将所述相关值大于第二阈值所述主题分组对应的所述子片段定义为备选片段;
混剪单元,将选择的背景音乐拆分多个律动区间,将所述备选片段插入至对应的所述律动区间内,以自动生成混剪视频。
6.一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序指令,其中,在所述程序指令运行时控制所述计算机存储介质所在设备执行权利要求1-4任意一项所述的一种用于视频检索的自动混剪视频方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410250047.7A CN117830910B (zh) | 2024-03-05 | 一种用于视频检索的自动混剪视频方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410250047.7A CN117830910B (zh) | 2024-03-05 | 一种用于视频检索的自动混剪视频方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117830910A CN117830910A (zh) | 2024-04-05 |
CN117830910B true CN117830910B (zh) | 2024-05-31 |
Family
ID=
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018104834A1 (en) * | 2016-12-07 | 2018-06-14 | Yogesh Chunilal Rathod | Real-time, ephemeral, single mode, group & auto taking visual media, stories, auto status, following feed types, mass actions, suggested activities, ar media & platform |
CN111683209A (zh) * | 2020-06-10 | 2020-09-18 | 北京奇艺世纪科技有限公司 | 混剪视频的生成方法、装置、电子设备及计算机可读存储介质 |
CN112423023A (zh) * | 2020-12-09 | 2021-02-26 | 珠海九松科技有限公司 | 一种智能化视频自动混剪的方法 |
CN115134646A (zh) * | 2022-08-25 | 2022-09-30 | 荣耀终端有限公司 | 视频编辑方法和电子设备 |
CN115442540A (zh) * | 2022-08-31 | 2022-12-06 | 中国联合网络通信集团有限公司 | 音乐视频生成方法、装置、计算机设备及存储介质 |
CN116847043A (zh) * | 2023-07-31 | 2023-10-03 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种混剪视频生成方法、系统、存储介质及电子设备 |
CN117176981A (zh) * | 2023-07-25 | 2023-12-05 | 特赞(上海)信息科技有限公司 | 混剪视频的生成方法、装置、计算机设备和介质 |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018104834A1 (en) * | 2016-12-07 | 2018-06-14 | Yogesh Chunilal Rathod | Real-time, ephemeral, single mode, group & auto taking visual media, stories, auto status, following feed types, mass actions, suggested activities, ar media & platform |
CN111683209A (zh) * | 2020-06-10 | 2020-09-18 | 北京奇艺世纪科技有限公司 | 混剪视频的生成方法、装置、电子设备及计算机可读存储介质 |
CN112423023A (zh) * | 2020-12-09 | 2021-02-26 | 珠海九松科技有限公司 | 一种智能化视频自动混剪的方法 |
CN115134646A (zh) * | 2022-08-25 | 2022-09-30 | 荣耀终端有限公司 | 视频编辑方法和电子设备 |
CN115442540A (zh) * | 2022-08-31 | 2022-12-06 | 中国联合网络通信集团有限公司 | 音乐视频生成方法、装置、计算机设备及存储介质 |
CN117176981A (zh) * | 2023-07-25 | 2023-12-05 | 特赞(上海)信息科技有限公司 | 混剪视频的生成方法、装置、计算机设备和介质 |
CN116847043A (zh) * | 2023-07-31 | 2023-10-03 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种混剪视频生成方法、系统、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10031649B2 (en) | Automated content detection, analysis, visual synthesis and repurposing | |
US6925455B2 (en) | Creating audio-centric, image-centric, and integrated audio-visual summaries | |
CN112632326B (zh) | 一种基于视频脚本语义识别的视频生产方法及装置 | |
US7487524B2 (en) | Method and apparatus for presenting content of images | |
US8938153B2 (en) | Representative image or representative image group display system, representative image or representative image group display method, and program therefor | |
KR20070121810A (ko) | 복합 뉴스 스토리 합성 | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
CN105893478A (zh) | 一种标签提取方法及设备 | |
KR20010054421A (ko) | 계층적 동영상 트리구조에서의 충실도를 이용한 동영상검색, 브라우징 및 요약에 관한 방법 및 장치 | |
CN112929746B (zh) | 视频生成方法和装置、存储介质和电子设备 | |
US20230368448A1 (en) | Comment video generation method and apparatus | |
CN110049377A (zh) | 表情包生成方法、装置、电子设备及计算机可读存储介质 | |
CN111125384B (zh) | 一种多媒体答案生成方法、装置、终端设备以及存储介质 | |
CN117830910B (zh) | 一种用于视频检索的自动混剪视频方法、系统及存储介质 | |
CN110297965B (zh) | 课件页面的显示及页面集的构造方法、装置、设备和介质 | |
JP2003018492A (ja) | テレビジョン番組情報表示装置 | |
CN117830910A (zh) | 一种用于视频检索的自动混剪视频方法、系统及存储介质 | |
JP2007079736A (ja) | データ編集装置、データ編集方法およびデータ編集プログラム | |
JP2004341948A (ja) | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 | |
JP2009081733A (ja) | 画像再生装置、及びプログラム | |
JP2022061935A (ja) | サーバおよびデータ割り当て方法 | |
JP2001101195A (ja) | テレビ番組検索装置および自動番組選択装置 | |
JP2002049625A (ja) | 画像検索装置および画像検索方法 | |
JPH07134720A (ja) | 文章作成システムにおける関連情報提示方法及び装置 | |
KR101647442B1 (ko) | 비주얼 컨텐츠 제작 시스템, 방법 및 컴퓨터 판독 가능한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |