CN114694070A - 一种自动视频剪辑方法、系统、终端及存储介质 - Google Patents
一种自动视频剪辑方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN114694070A CN114694070A CN202210318902.4A CN202210318902A CN114694070A CN 114694070 A CN114694070 A CN 114694070A CN 202210318902 A CN202210318902 A CN 202210318902A CN 114694070 A CN114694070 A CN 114694070A
- Authority
- CN
- China
- Prior art keywords
- video
- key frame
- similarity
- asr
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 45
- 238000005516 engineering process Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012015 optical character recognition Methods 0.000 description 41
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23424—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种自动视频剪辑方法、系统、终端及存储介质。所述方法包括:获取待剪辑视频的关键帧,并采用图像对比算法对所述关键帧进行自我标记,生成所述关键帧的无监督向量表示;获取待剪辑视频的语料信息,并采用文本对比算法获取所述语料信息的无监督向量表示;根据所述关键帧对所述待剪辑视频进行分割,生成与所述关键帧数量相对应的视频片段;根据所述关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段的相似度,将所述相似度大于设定相似度阈值的相邻视频片段进行合并,生成所述待剪辑视频的视频剪辑结果。本发明实施例利用了图像和文本信息,避免人工数据标注,实现了视频的自动剪辑,大大提高了视频剪辑效率。
Description
技术领域
本发明涉及多媒体技术领域,特别是涉及一种自动视频剪辑方法、系统、终端及存储介质。
背景技术
借助4G网络的发展,短视频技术得到了蓬勃发展,随着抖音、快手、B站等大量视频APP的涌现,视频数量呈现指数级增长。虽然视频比文字、图片更加直观,但观看视频需要耗费大量时间。对于一段很长的视频,有价值或用户感兴趣的片段往往只占视频总长的一部分,因此视频剪辑的需求也在与日俱增。
现有技术中的视频剪辑通常需要依赖人力资源,既费财力,且视频剪辑效率低下,在一定程度上阻碍了短视频技术的发展。
发明内容
本发明提供了一种自动视频剪辑方法、系统、终端及存储介质,旨在解决现有的视频剪辑需要依赖人力资源存在的费财力、视频剪辑效率低下等技术问题。
为解决上述技术问题,本发明采用的技术方案为:
一种自动视频剪辑方法,所述方法包括:
获取待剪辑视频的关键帧,并采用图像对比算法对所述关键帧进行自我标记,生成所述关键帧的无监督向量表示;
获取待剪辑视频的语料信息,并采用文本对比算法获取所述语料信息的无监督向量表示;
根据所述关键帧对所述待剪辑视频进行分割,生成与所述关键帧数量相对应的视频片段;
根据所述关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段之间的相似度,将所述相似度大于预设相似度阈值的相邻视频片段进行合并,生成所述待剪辑视频的视频剪辑结果。
本发明实施例采取的技术方案还包括:所述关键帧为待剪辑视频中角色或者物体运动变化中关键动作所处的帧,所述获取待剪辑视频的关键帧包括:
采用ffmpeg对所述待剪辑视频进行抽帧处理;
对于所有抽帧后的图像,计算相邻图像之间的相似度,将相似度低于设定阈值的图像作为关键帧。
本发明实施例采取的技术方案还包括:所述采用图像对比算法对所述关键帧进行自我标记,包括:
基于获取的关键帧,采用无监督算法训练Selflabel模型,所述Selflabel模型采用图像对比算法学习关键帧图像的无监督向量表示,通过聚类和表示学习对关键帧进行自我标记,输出所述关键帧的self_label(framek),其中,framek表示第k幅关键帧图像。
本发明实施例采取的技术方案还包括:所述获取待剪辑视频的语料信息包括:
采用ASR技术收集待剪辑视频的ASR语音信息,并将收集到的ASR语音信息切割为设定长度的ASR文本信息;
采用OCR技术从抽帧后的图像中获取OCR文本信息;
将切割后的ASR文本信息和OCR文本信息作为待剪辑视频的语料信息。
本发明实施例采取的技术方案还包括:所述采用文本对比算法获取所述语料信息的无监督向量表示包括:
基于所述语料信息训练SimCSE模型,所述SimCSE模型采用文本对比算法学习ASR文本信息和OCR文本信息的无监督向量表示,输出待剪辑视频的文本向量simcse(asrk)和simcse(ocrk);其中,asrk表示待剪辑视频的第k个ASR文本信息,ocrk表示第k幅关键帧图像的OCR文本信息。
本发明实施例采取的技术方案还包括:所述根据所述关键帧对所述待剪辑视频进行分割,生成与所述关键帧数量相对应的视频片段包括:
将每一个关键帧分别作为一个切割点,将所述待剪辑视频分割成与所述关键帧数量相对应的视频片段,并使每个视频片段中分别包括一幅关键帧图像以及所述视频片段对应的ASR文本信息和OCR文本信息。
本发明实施例采取的技术方案还包括:所述根据所述关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段的相似度包括:
分别计算所述相邻视频片段的关键帧、ASR文本信息以及OCR文本信息的相似度:
simi1=cos(self_label(framek),self_label(framek+1))
simi2=cos(simcse(asrk),simcse(asrk+1))
simi3=cos(simcse(ocrk),simcse(ocrk+1))
其中,simi1、simi2以及simi3分别表示相邻视频片段中关键帧、ASR文本信息以及OCR文本信息的相似度;
根据所述关键帧、ASR文本信息以及OCR文本信息的相似度计算相邻视频片段的相似度:
simi=α*simi1+β*simi2+(1―α―β)*simi3
simi表示所述相邻视频片段的相似度,α、β分别为可调节参数。
本发明实施例采取的另一技术方案为:一种自动视频剪辑系统,包括:
第一获取模块:用于获取待剪辑视频的关键帧,并采用图像对比算法对所述关键帧进行自我标记,生成所述关键帧的无监督向量表示;
第二获取模块:用于获取待剪辑视频的语料信息,并采用文本对比算法获取所述语料信息的无监督向量表示;
视频分割模块:用于根据所述关键帧对所述待剪辑视频进行分割,生成与所述关键帧数量相对应的视频片段;
视频合并模块:用于根据所述关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段的相似度,将所述相似度大于设定相似度阈值的相邻视频片段进行合并,生成所述待剪辑视频的视频剪辑结果。
本发明实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现上述的自动视频剪辑方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以执行所述自动视频剪辑操作。
本发明实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行上述的自动视频剪辑方法。
本发明实施例的自动视频剪辑方法、系统、终端及存储介质通过收集待剪辑视频的关键帧以及语料信息,通过关键帧将待剪辑视频分割为多个视频片段,并基于关键帧和语料信息的向量表示计算相邻视频片段的相似性,对相似性较高的视频片段进行合并,得到最终的视频剪辑结果。本发明实施例同时利用了图像和文本信息,避免了人工数据标注,实现了视频的自动剪辑,并大大提高了视频剪辑效率。
附图说明
图1是本发明第一实施例的自动视频剪辑方法的流程示意图;
图2是本发明第二实施例的自动视频剪辑方法的流程示意图;
图3是本发明实施例自动视频剪辑系统的结构示意图;
图4是本发明实施例的终端结构示意图;
图5是本发明实施例的存储介质结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参阅图1,是本发明第一实施例的自动视频剪辑方法的流程示意图。本发明第一实施例的自动视频剪辑方法包括以下步骤S101-S104:
S101:获取待剪辑视频的关键帧,并采用图像对比算法对关键帧进行自我标记,生成关键帧的无监督向量表示;
其中,关键帧为待剪辑视频中角色或者物体运动变化中关键动作所处的帧。关键帧获取方式为:采用ffmpeg对待剪辑视频进行抽帧处理;其中,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序,FFmpeg具有视频采集、视频格式转换、视频抓图、给视频加水印等功能。对于所有抽帧后的图像,计算相邻图像之间的相似度,将相似度低于设定阈值的图像作为关键帧。
采用图像对比算法对关键帧进行自我标记具体为:基于获取的关键帧,采用无监督算法训练Self label模型,Self label模型采用图像对比算法学习关键帧图像的无监督向量表示,通过聚类和表示学习对关键帧进行自我标记,输出关键帧的self_label(framek),framek表示第k幅关键帧图像。
S102:获取待剪辑视频的语料信息,并采用文本对比算法获取语料信息的无监督向量表示;
其中,语料信息获取方式具体为:采用ASR技术收集待剪辑视频的ASR语音信息,并将收集到的ASR语音信息切割为设定长度的ASR文本信息;采用OCR技术从抽帧后的图像中获取OCR文本信息;将切割后的ASR文本信息和OCR文本信息作为待剪辑视频的语料信息。
采用文本对比算法获取语料信息的无监督向量表示具体为:基于语料信息训练SimCSE模型,SimCSE模型采用文本对比算法学习ASR文本信息和OCR文本信息的无监督向量表示,输出待剪辑视频的文本向量simcse(asrk)和simcse(ocrk);其中,asrk表示待剪辑视频的第k个ASR文本信息,ocrk表示第k幅关键帧图像的OCR文本信息。
S103:根据关键帧对待剪辑视频进行分割,生成与关键帧数量相对应的视频片段;
其中,视频分割方式具体为:将每一个关键帧分别作为一个切割点,将待剪辑视频分割成与关键帧数量相对应的视频片段,并使每个视频片段中分别包括一幅关键帧图像以及视频片段对应的ASR文本信息和OCR文本信息。
S104:根据关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段之间的相似度,将相似度大于预设相似度阈值的相邻视频片段进行合并,生成待剪辑视频的视频剪辑结果;
其中,相邻视频片段的相似度计算方式具体为:
首先,分别计算相邻视频片段的关键帧、ASR文本信息以及OCR文本信息的相似度:
simi1=cos(self_label(framek),self_label(framek+1)) (1)
simi2=cos(simcse(asrk),simcse(asrk+1)) (2)
simi3=cos(simcse(ocrk),simcse(ocrk+1)) (3)
其中,simi1、simi2以及simi3分别表示相邻视频片段中关键帧、ASR文本信息以及OCR文本信息的相似度;
然后,根据关键帧、ASR文本信息以及OCR文本信息的相似度计算相邻视频片段的相似度:
simi=α*simi1+β*simi2+(1―α―β)*simi3 (4)
simi表示相邻视频片段的相似度,α、β分别为可调节参数。
本发明第一实施例的自动视频剪辑方法通过获取待剪辑视频的关键帧和语料信息,采用图像对比算法学习关键帧图像的无监督向量表示,采用文本对比算法学习语料信息的无监督向量表示,通过关键帧将待剪辑视频分割为多个视频片段,并基于关键帧和语料信息的向量表示计算相邻视频片段的相似性,对相似性较高的视频片段进行合并,得到最终的视频剪辑结果。本发明实施例同时利用了图像和文本信息,避免了人工数据标注,实现了视频的自动剪辑,并大大提高了视频剪辑效率。
请参阅图2,是本发明第二实施例的自动视频剪辑方法的流程示意图。本发明第二实施例的自动视频剪辑方法包括以下步骤S201-S209:
S201:收集至少一个待剪辑视频;
S202:对待剪辑视频进行抽帧处理,获取待剪辑视频的关键帧;
本步骤中,采用ffmpeg程序对收集到的待剪辑视频进行抽帧处理,其中,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序,FFmpeg具有视频采集、视频格式转换、视频抓图、给视频加水印等功能。关键帧是指待剪辑视频中角色或者物体运动变化中关键动作所处的帧。本发明实施例中,关键帧的获取方式为:对于所有抽帧后的图像,计算相邻图像之间的相似度,将相似度低于设定阈值的图像帧作为关键帧。在获取关键帧的同时,按照设定比例保留一定数目的其余帧,其余帧即非关键帧,其余帧的保留数目k可随机设定。
S203:基于获取的关键帧,采用无监督算法训练Self label模型,Self label模型通过聚类和表示学习对关键帧进行自我标记;
本步骤中,Self label模型是一种通过最大化数据和标签之间的互信息来标定label的自监督算法,Self label模型借助于图像对比算法学习关键帧图像的无监督向量表示,通过聚类和表示学习对关键帧图像进行自我标记,输出关键帧的self_label(framek),framek表示第k幅关键帧图像。
S204:采用ASR(Automatic Speech Recognition,自动语音识别技术)技术以及OCR(Optical Character Recognition,光学字符识别)识别技术收集待剪辑视频的语料信息;
本步骤中,视频是典型的多模态数据,包括图像以及丰富的文本信息。待剪辑视频的语料信息包括待剪辑视频中的ASR语音信息以及抽帧图像中的OCR文本信息。本发明实施例中,待剪辑视频的语料信息获取方式具体为:采用ASR技术收集待剪辑视频的ASR语音信息,并将收集到的ASR语音信息切割为设定长度的ASR文本信息;同时,采用OCR技术从抽帧后的图像中获取OCR文本信息,将切割后的ASR文本信息和OCR文本信息作为待剪辑视频的语料信息。其中,ASR语音信息的切割长度为100,具体可根据实际应用进行设定。
S205:基于收集的语料信息训练SimCSE模型,通过SimCSE模型输出待剪辑视频的SimCSE文本向量;
本发明实施例中,SimCSE模型可以无监督训练,基于BERT模型的自监督训练,通过dropout保持语义等价的自然语言数据增强,借助于文本对比算法学习文本的无监督向量表示,输出待剪辑视频的文本向量simcse(asrk)和simcse(ocrk),其中,asrk表示待剪辑视频的第k个ASR文本信息,ocrk表示第k幅关键帧图像的OCR文本信息。
S206:将每一个关键帧分别作为一个切割点,将待剪辑视频分割成多个视频片段,并使每个视频片段中分别包括一幅关键帧以及该视频片段对应的ASR文本信息和OCR文本信息;
本步骤中,基于待剪辑视频的关键帧将长视频划分为多个较短的视频片段。在每个视频片段中,分别包括一张关键帧图像以及该视频片段对应的ASR文本和OCR文本,即每个视频片段的表示为(frame,asr,ocr)。
S207:基于待剪辑视频的关键帧、ASR文本信息以及OCR文本,分别计算前后两个相邻视频片段的相似度;
本步骤中,相邻视频片段的相似度计算方式具体为:首先分别计算相邻视频片段的关键帧、ASR文本以及OCR文本的相似度,然后根据关键帧、ASR文本以及OCR文本的相似度计算相邻视频片段的相似度。具体计算公式如下:
simi1=cos(self_label(framek),self_label(framek+1)) (1)
simi2=cos(simcse(asrk),simcse(asrk+1)) (2)
simi3=cos(simcse(ocrk),simcse(ocrk+1)) (3)
simi=α*simi1+β*simi2+(1―α―β)*simi3 (4)
其中,simi1、simi2以及simi3分别表示相邻视频片段中关键帧、ASR文本以及OCR文本的相似度,simi表示相邻视频片段的相似度。α、β分别为可调节参数。优选地,本发明实施例设定α及β的值为0.45。
S208:判断两个相邻视频片段之间的相似度是否大于设定的相似度阈值,如果两个相邻视频片段之间的相似度大于预设的相似度阈值,执行S209;
本步骤,相似度阈值设定为0.5,即如果两个相邻视频片段之间的相似度大于0.5,则认为这两个视频片段足够相似,可以进行合并。否则,则丢弃这两个视频片段。
S209:将相似度大于预设的相似度阈值的相邻视频片段进行合并,得到最终的视频剪辑结果;
本步骤中,通过将相似度较高的视频片段进行合并,得到剪辑后的短视频,使得剪辑后的短视频更加顺畅,提升观看者的观看体验。
基于上述,本发明第二实施例的自动视频剪辑方法通过收集待剪辑视频的关键帧以及语料信息,采用图像对比算法学习关键帧图像的无监督向量表示,采用文本的对比算法学习语料信息的无监督向量表示,通过关键帧将待剪辑视频分割为多个视频片段,并基于关键帧和语料信息的向量表示计算相邻视频片段的相似性,对相似性较高的视频片段进行合并,得到最终的视频剪辑结果。本发明实施例同时利用了图像和文本信息,避免了人工数据标注,实现了视频的自动剪辑,并大大提高了视频剪辑效率。
在一个可选的实施方式中,还可以:将所述的自动视频剪辑方法的结果上传至区块链中。
具体地,基于所述的自动视频剪辑方法的结果得到对应的摘要信息,具体来说,摘要信息由所述的自动视频剪辑方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述的自动视频剪辑方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图3,是本发明实施例自动视频剪辑系统的结构示意图。本发明实施例自动视频剪辑系统40包括:
第一获取模块41:用于获取待剪辑视频的关键帧,并采用图像对比算法对关键帧进行自我标记,生成关键帧的无监督向量表示;其中,关键帧为待剪辑视频中角色或者物体运动变化中关键动作所处的帧。关键帧获取方式为:采用ffmpeg对待剪辑视频进行抽帧处理;对于所有抽帧后的图像,计算相邻图像之间的相似度,将相似度低于设定阈值的图像作为关键帧。
第一获取模块41采用图像对比算法对关键帧进行自我标记具体为:基于获取的关键帧,采用无监督算法训练Self label模型,Self label模型采用图像对比算法学习关键帧图像的无监督向量表示,通过聚类和表示学习对关键帧进行自我标记,输出关键帧的self_label(framek),framek表示第k幅关键帧图像。
第二获取模块42:用于获取待剪辑视频的语料信息,并采用文本对比算法获取语料信息的无监督向量表示;其中,语料信息获取方式具体为:采用ASR技术收集待剪辑视频的ASR语音信息,并将收集到的ASR语音信息切割为设定长度的ASR文本信息;采用OCR技术从抽帧后的图像中获取OCR文本信息;将切割后的ASR文本信息和OCR文本信息作为待剪辑视频的语料信息。
第二获取模块42采用文本对比算法获取语料信息的无监督向量表示具体为:基于语料信息训练SimCSE模型,SimCSE模型采用文本对比算法学习ASR文本信息和OCR文本信息的无监督向量表示,输出待剪辑视频的文本向量simcse(asrk)和simcse(ocrk);其中,asrk表示待剪辑视频的第k个ASR文本信息,ocrk表示第k幅关键帧图像的OCR文本信息。
视频分割模块43:用于根据关键帧对待剪辑视频进行分割,生成与关键帧数量相对应的视频片段;其中,视频分割模块的视频分割方式具体为:将每一个关键帧分别作为一个切割点,将待剪辑视频分割成与关键帧数量相对应的视频片段,并使每个视频片段中分别包括一幅关键帧图像以及视频片段对应的ASR文本信息和OCR文本信息。
视频合并模块44:用于根据关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段的相似度,将相似度大于设定相似度阈值的相邻视频片段进行合并,生成待剪辑视频的视频剪辑结果;其中,相邻视频片段的相似度计算方式具体为:
首先,分别计算相邻视频片段的关键帧、ASR文本信息以及OCR文本信息的相似度:
simi1=cos(self_label(framek),self_label(framek+1)) (1)
simi2=cos(simcse(asrk),simcse(asrk+1)) (2)
simi3=cos(simcse(ocrk),simcse(ocrk+1)) (3)
其中,simi1、simi2以及simi3分别表示相邻视频片段中关键帧、ASR文本信息以及OCR文本信息的相似度;
然后,根据关键帧、ASR文本信息以及OCR文本信息的相似度计算相邻视频片段的相似度:
simi=α*simi1+β*simi2+(1―α―β)*simi3 (4)
simi表示相邻视频片段的相似度,α、β分别为可调节参数。
本发明实施例的自动视频剪辑系统通过获取待剪辑视频的关键帧和语料信息,采用图像对比算法学习关键帧图像的无监督向量表示,采用文本对比算法学习语料信息的无监督向量表示,通过关键帧将待剪辑视频分割为多个视频片段,并基于关键帧和语料信息的向量表示计算相邻视频片段的相似性,对相似性较高的视频片段进行合并,得到最终的视频剪辑结果。本发明实施例同时利用了图像和文本信息,避免了人工数据标注,实现了视频的自动剪辑,并大大提高了视频剪辑效率。
请参阅图4,为本发明实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。
存储器52存储有用于实现上述自动视频剪辑方法的程序指令。
处理器51用于执行存储器52存储的程序指令以执行自动视频剪辑操作。
其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参阅图5,图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种自动视频剪辑方法,其特征在于,所述方法包括:
获取待剪辑视频的关键帧,并采用图像对比算法对所述关键帧进行自我标记,生成所述关键帧的无监督向量表示;
获取待剪辑视频的语料信息,并采用文本对比算法获取所述语料信息的无监督向量表示;
根据所述关键帧对所述待剪辑视频进行分割,生成与所述关键帧数量相对应的视频片段;
根据所述关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段之间的相似度,将所述相似度大于预设相似度阈值的相邻视频片段进行合并,生成所述待剪辑视频的视频剪辑结果。
2.根据权利要求1所述的自动视频剪辑方法,其特征在于,所述关键帧为待剪辑视频中角色或者物体运动变化中关键动作所处的帧,所述获取待剪辑视频的关键帧,包括:
采用ffmpeg对所述待剪辑视频进行抽帧处理;
对于所有抽帧后的图像,计算相邻图像之间的相似度,将相似度低于设定阈值的图像作为关键帧。
3.根据权利要求2所述的自动视频剪辑方法,其特征在于,所述采用图像对比算法对所述关键帧进行自我标记,包括:
基于获取的关键帧,采用无监督算法训练Selflabel模型,所述Selflabel模型采用图像对比算法学习关键帧图像的无监督向量表示,通过聚类和表示学习对关键帧进行自我标记,输出所述关键帧的self_label(framek),其中,framek表示第k幅关键帧图像。
4.根据权利要求1至3任一项所述的自动视频剪辑方法,其特征在于,所述获取待剪辑视频的语料信息,包括:
采用ASR技术收集待剪辑视频的ASR语音信息,并将收集到的ASR语音信息切割为设定长度的ASR文本信息;
采用OCR技术从抽帧后的图像中获取OCR文本信息;
将切割后的ASR文本信息和OCR文本信息作为待剪辑视频的语料信息。
5.根据权利要求4所述的自动视频剪辑方法,其特征在于,所述采用文本对比算法获取所述语料信息的无监督向量表示,包括:
基于所述语料信息训练SimCSE模型,所述SimCSE模型采用文本对比算法学习ASR文本信息和OCR文本信息的无监督向量表示,输出待剪辑视频的文本向量simcse(asrk)和simcse(ocrk);其中,asrk表示待剪辑视频的第k个ASR文本信息,ocrk表示第k幅关键帧图像的OCR文本信息。
6.根据权利要求5所述的自动视频剪辑方法,其特征在于,所述根据所述关键帧对所述待剪辑视频进行分割,生成与所述关键帧数量相对应的视频片段,包括:
将每一个关键帧分别作为一个切割点,将所述待剪辑视频分割成与所述关键帧数量相对应的视频片段,并使每个视频片段中分别包括一幅关键帧图像以及所述视频片段对应的ASR文本信息和OCR文本信息。
7.根据权利要求3或5所述的自动视频剪辑方法,其特征在于,所述根据所述关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段的相似度,包括:
分别计算所述相邻视频片段的关键帧、ASR文本信息以及OCR文本信息的相似度:
simi1=cos(self_label(framek),self_label(framek+1))
simi2=cos(simcse(asrk),simcse(asrk+1))
simi3=cos(simcse(ocrk),simcse(ocrk+1))
其中,simi1、simi2以及simi3分别表示相邻视频片段中关键帧、ASR文本信息以及OCR文本信息的相似度;
根据所述关键帧、ASR文本信息以及OCR文本信息的相似度计算相邻视频片段的相似度:
simi=α*simi1+β*simi2+(1―α―β)*simi3,
simi表示所述相邻视频片段的相似度,α、β分别为可调节参数。
8.一种自动视频剪辑系统,其特征在于,所述系统包括:
第一获取模块:用于获取待剪辑视频的关键帧,并采用图像对比算法对所述关键帧进行自我标记,生成所述关键帧的无监督向量表示;
第二获取模块:用于获取待剪辑视频的语料信息,并采用文本对比算法获取所述语料信息的无监督向量表示;
视频分割模块:用于根据所述关键帧对所述待剪辑视频进行分割,生成与所述关键帧数量相对应的视频片段;
视频合并模块:用于根据所述关键帧的无监督向量表示以及语料信息的无监督向量表示计算相邻视频片段的相似度,将所述相似度大于设定相似度阈值的相邻视频片段进行合并,生成所述待剪辑视频的视频剪辑结果。
9.一种终端,其特征在于,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现权利要求1至7任一项所述的自动视频剪辑方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以执行所述自动视频剪辑方法。
10.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至7任一项所述的自动视频剪辑方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210318902.4A CN114694070A (zh) | 2022-03-29 | 2022-03-29 | 一种自动视频剪辑方法、系统、终端及存储介质 |
PCT/CN2022/089560 WO2023184636A1 (zh) | 2022-03-29 | 2022-04-27 | 一种自动视频剪辑方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210318902.4A CN114694070A (zh) | 2022-03-29 | 2022-03-29 | 一种自动视频剪辑方法、系统、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114694070A true CN114694070A (zh) | 2022-07-01 |
Family
ID=82140927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210318902.4A Pending CN114694070A (zh) | 2022-03-29 | 2022-03-29 | 一种自动视频剪辑方法、系统、终端及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114694070A (zh) |
WO (1) | WO2023184636A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118397309A (zh) * | 2024-01-18 | 2024-07-26 | 原创卫士(无锡)科技有限公司 | 一种高鲁棒的侵权视频分析识别方法 |
CN118400575B (zh) * | 2024-06-24 | 2024-09-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 视频处理方法及相关装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9620168B1 (en) * | 2015-12-21 | 2017-04-11 | Amazon Technologies, Inc. | Cataloging video and creating video summaries |
CN108882057B (zh) * | 2017-05-09 | 2021-08-17 | 北京小度互娱科技有限公司 | 视频摘要生成方法及装置 |
CN111797850A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 视频分类方法、装置、存储介质及电子设备 |
CN111526382B (zh) * | 2020-04-20 | 2022-04-29 | 广东小天才科技有限公司 | 一种直播视频文本生成方法、装置、设备及存储介质 |
CN113709561B (zh) * | 2021-04-14 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 视频剪辑方法、装置、设备及存储介质 |
-
2022
- 2022-03-29 CN CN202210318902.4A patent/CN114694070A/zh active Pending
- 2022-04-27 WO PCT/CN2022/089560 patent/WO2023184636A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023184636A1 (zh) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117777B (zh) | 生成信息的方法和装置 | |
CN111582241B (zh) | 视频字幕识别方法、装置、设备及存储介质 | |
CN112287914B (zh) | Ppt视频段提取方法、装置、设备及介质 | |
CN113766314B (zh) | 视频切分方法、装置、设备、系统及存储介质 | |
CN114694070A (zh) | 一种自动视频剪辑方法、系统、终端及存储介质 | |
WO2022227218A1 (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN114598933B (zh) | 一种视频内容处理方法、系统、终端及存储介质 | |
CN113411517B (zh) | 视频模板的生成方法、装置、电子设备及存储介质 | |
CN113076720B (zh) | 长文本的分段方法及装置、存储介质、电子装置 | |
WO2023045635A1 (zh) | 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN112995749A (zh) | 视频字幕的处理方法、装置、设备和存储介质 | |
CN112733654A (zh) | 一种视频拆条的方法和装置 | |
CN113705300A (zh) | 音转文训练语料的获取方法、装置、设备以及存储介质 | |
CN107122393B (zh) | 电子相册生成方法以及装置 | |
WO2023029389A1 (zh) | 视频指纹的生成方法及装置、电子设备、存储介质、计算机程序、计算机程序产品 | |
CN114051154A (zh) | 一种新闻视频拆条方法和系统 | |
EP4345814A1 (en) | Video-generation system | |
CN113762056A (zh) | 演唱视频识别方法、装置、设备及存储介质 | |
CN115438223B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN116017088A (zh) | 视频字幕处理方法、装置、电子设备和存储介质 | |
CN115474088A (zh) | 一种视频处理方法、计算机设备及存储介质 | |
CN113194333A (zh) | 视频剪辑方法、装置、设备及计算机可读存储介质 | |
Weng et al. | A multimodal framework for video ads understanding | |
CN115205757B (zh) | 风险识别方法、装置、设备和存储介质 | |
CN114782718B (zh) | 基于组合哈希加权算法的新闻类视频拆条方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |