CN112511907A - 一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质 - Google Patents

一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN112511907A
CN112511907A CN202110161143.0A CN202110161143A CN112511907A CN 112511907 A CN112511907 A CN 112511907A CN 202110161143 A CN202110161143 A CN 202110161143A CN 112511907 A CN112511907 A CN 112511907A
Authority
CN
China
Prior art keywords
video
detection module
module
detection
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110161143.0A
Other languages
English (en)
Other versions
CN112511907B (zh
Inventor
谭亮
杜晨婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhiyi Technology Co ltd
Original Assignee
Hangzhou Aigeng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Aigeng Technology Co ltd filed Critical Hangzhou Aigeng Technology Co ltd
Priority to CN202110161143.0A priority Critical patent/CN112511907B/zh
Publication of CN112511907A publication Critical patent/CN112511907A/zh
Application granted granted Critical
Publication of CN112511907B publication Critical patent/CN112511907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种自动化视频拆分剪辑系统,包括参数配置模块、主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块、决策模块、剪辑与渲染模块,参数配置模块分别与主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块连接,参数配置模块、主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块分别与决策模块连接,决策模块和剪辑与渲染模块连接;本发明还公开了一种自动化视频拆分剪辑方法、计算机设备及可读存储介质,用户可以一次上传多个待处理长视频,本发明系统可以分别对每个长视频进行处理,即可以支持批处理,本发明的系统可以对上传的长视频进行自动化编辑,效率高,效果好,自动化的同时保证了用户的个性化设定,复用度高。

Description

一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储 介质
技术领域
本发明具体涉及一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质。
背景技术
随着短视频软件的快速发展,短视频的需求与日俱增,目前将长视频进行合适拆分编辑主要依赖于人工使用视频编辑软件,如premier、绘声绘影等,需要人为对标定水印图标等影响观感的部分进行处理,根据短视频平台的时长要求剪辑成合适的长度,添加标题及封面,整个流程耗时耗力,难以实现快速批量化生产。
现有技术中,主要采用人工手动的方式进行视频拆分编辑。比如,用户有一段5分钟长的视频,为了得到满足短视频平台对于视频时长的要求,比如要求视频时长需要在50-60秒之间,用户需要人工使用视频剪辑软件进行时长拆分、找到水印图标等要处理的位置、设计背景模版、添加视频标题等。整个过程需要人工全程参与,耗时费力。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质。
为了实现上述目的,本发明提供以下技术方案:
一种自动化视频拆分剪辑系统,包括参数配置模块、主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块、决策模块、剪辑与渲染模块,参数配置模块分别与主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块连接,参数配置模块、主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块分别与决策模块连接,决策模块和剪辑与渲染模块连接;
参数配置模块被配置为能够对视频进行参数配置;主视图窗口区域检测模块被配置为能够检测主视图窗口区域;视频水印图标检测模块被配置为能够对视频进行检测得出视频中的水印图标区域;断句检测模块被配置为能够对视频进行检测得出视频中的断句点;决策模块被配置为能够根据配置参数信息、主视图窗口区域检测、视频水印图标检测和人声断句检测的结果生成需要对视频进行剪辑与渲染操作列表,并能够将所述操作列表传输至剪辑与渲染模块;剪辑与渲染模块被配置为能够根据操作列表对对视频进行剪辑与渲染。
一种自动化视频拆分剪辑方法,采用以上所述的系统,包括以下步骤:
(1)输入待处理视频;
(2)参数配置模块对步骤(1)中的视频进行参数配置,并将配置后的视频传输至主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块;
(3)主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块分别对视频进行主视图窗口区域检测、水印图标检测以及人声的断句检测;
(4)决策模块根据步骤(2)配置的参数与步骤(3)得到的检测结果,进行决策,生成需要对视频进行剪辑与渲染操作列表,并将所述操作列表传输至剪辑与渲染模块;
(5)剪辑与渲染模块对视频进行自动化编辑处理,输出短视频。
进一步地,步骤(3)中,主视图窗口区域检测模块采用基于梯度引导的直线检测方法来检测主视图窗口区域,包括以下步骤:
(1.1)对输入视频抽取若干视频帧;
(1.2)对步骤(1.1)中抽取的视频帧转为灰度图,并使用y方向的sobel算子计算每一帧的y方向的梯度值,计算它们的平均梯度值;
(1.3)将步骤(1.2)中得到的平均梯度值与视频帧的灰度图像拼接,然后输入直线检测器进行直线检测,每个视频会选取3帧同时进行预测,选取同时在至少2帧中检测到的直线作为最终检测到的主视图窗口的分割线;
(1.4)如果用户在参数配置中不要求一定要在主视图窗口中包含字幕,则结束;否则继续下面的步骤;
(1.5)将步骤(1.1)中抽取的视频帧输入OCR模型进行文字检测与识别,对每一帧检测到的文字区域根据是否被视频帧水平方向的中线通过进行过滤,过滤掉完全位于中线左侧或右侧的文本区域,将所有帧剩余的文本区域根据垂直方向的IoU对文本区域进行分组;然后过滤掉包含文本区域的数量少于给定阈值的组,然后对剩余的组,计算组内的文本与文本之间编辑距离的平均值,去掉平均值小于某一阈值的组,剩下的便是字幕组;
(1.6)将步骤(1.5)中检测到的字幕区域与主视图区域进行比较,如果字幕区域已经包含在主视图区域,则结束;否则更改主视图区域的分割线位置,从而将字幕区域包含进来。
进一步地,步骤(3)中,视频水印图标检测模块采取基于梯度引导的自动视频检测方法进行检测,包括如下步骤:
(2.1)对输入视频抽取若干视频帧,
(2.2)对步骤(2.1)中抽取的视频帧转为灰度图,并使用sobel算子计算每一帧的梯度值,计算它们的平均梯度值;
(2.3)将步骤(2.2)中得到的平均梯度值与步骤1中抽取的视频帧拼接,然后输入训练好的水印图标检测器进行水印图标区域检测,每个视频选取3帧同时进行检测,选取同时在至少2帧中检测到的区域作为最终检测到的水印图标区域。
进一步地,步骤(3)中,断句检测模块进行自动化人声断句检测的步骤如下:
(3.1)对输入的视频提取音频信号;
(3.2)以固定采样窗口和步长对音频信号进行归一化采样,按照如下公式求得音频信号的能量
Figure 127011DEST_PATH_IMAGE002
其中,
Figure 467993DEST_PATH_IMAGE004
表示第n个采样窗口内的音频信号的能量,
Figure 399040DEST_PATH_IMAGE006
表示第n个采样窗口中第 i个采样点的声音信号值;
(3.3)统计低于全部能量10%部分的平均值作为阈值,遍历这些低于阈值的时刻点,当此时刻点与上一个断句点间隔大于1秒,则此时刻点为下一个断句点。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器在执行所述计算机程序时能够以上所述的自动化视频拆分剪辑方法中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能够实现以上所述的自动化视频拆分剪辑方法中的步骤。
本发明的有益效果是:
(1)用户可以一次上传多个待处理长视频,本发明系统可以分别对每个长视频进行处理,即可以支持批处理,不用用户每次只能上传完一个视频,处理完成,再上传下一个视频。本发明的系统可以对上传的长视频进行自动化编辑,效率高,效果好,节省人力,自动化的同时保证了用户的个性化设定,复用度高。
(2)本发明中通过前期的视频拆分,参数配置能够一次性拆分出多条满足发布要求的短视频,效率高。
(3)本发明脱离人工繁琐的操作流程,无需任何视频编辑软件的使用经验;
自动化检测水印图标并进行遮挡,根据配置时长自动化拆分视频片段,自动化生成标题,能够结合预设模板生成符合用户预期的短视频。
(4)本发明的系统能够批量快速的生产短视频,提高效率。比如,对于一个时长为10分钟左右的视频,本发明系统可以在1min内完成对它的拆分剪辑。
附图说明
图1是本发明中自动化视频拆分剪辑方法的流程图。
图2是视频模版拆解示意图。
图3是 y方向sobel算子。
图4是计算机设备的示意图。
图5是模版及其默认参数示意图。
图6是拆分剪辑好的视频示意图。
具体实施方式
以下结合附图对本发明的技术方案做进一步详细说明,应当指出的是,具体实施方式只是对本发明的详细说明,不应视为对本发明的限定。
实施例1
一种自动化视频拆分剪辑系统包括参数配置模块、主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块、决策模块、剪辑与渲染模块,参数配置模块分别与主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块连接,参数配置模块、主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块分别与决策模块连接,决策模块和剪辑与渲染模块连接。
参数配置模块被配置为能够对视频进行参数配置并将配置后的视频传输至主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块;主视图窗口区域检测模块被配置为能够检测主视图窗口区域,视频水印图标检测模块被配置为能够对视频进行检测得出视频中的水印图标区域;断句检测模块被配置为能够对视频进行检测得出视频中的断句点;决策模块被配置为能够根据配置参数信息、主视图窗口区域检测、视频水印图标检测和人声断句检测的结果生成需要对视频进行剪辑与渲染操作列表,并能够将所述操作列表传输至剪辑与渲染模块;剪辑与渲染模块被配置为能够根据操作列表对视频进行自动化剪辑与渲染。
一种自动化视频拆分剪辑方法,采用以上所述的系统,如图1所示,包括以下步骤:
(1)输入待处理视频;
(2)参数配置模块对步骤(1)中的视频进行参数配置,并将配置后的视频传输至主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块;
(3)主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块分别对步骤(2)得到的视频进行主视图窗口区域检测、水印图标检测以及人声的断句检测;
(4)决策模块根据步骤(2)配置的参数与步骤(3)得到的检测结果,进行决策,生成需要对视频进行剪辑与渲染操作列表,并将所述操作列表传输至剪辑与渲染模块;
(5)剪辑与渲染模块对视频进行自动化编辑处理,输出短视频。
具体地,步骤(1)中,用户上传需要处理的视频。
在一些优选的方式中,步骤(2)中,事先对视频进行主标题、副标题、主窗口区域、辅助窗口区域、个人logo与信息、水印图标等进行拆解,根据视频的布局、样式、视频宽高比等设计成不同模版并存储在存储器中。一种视频宽高比为9:16的模版示例如图2所示,该视频帧采用上-中-下的布局,其中中间区域为主要视频区域(即主视图窗口区域),上下区域为辅助信息区域(即辅助窗口区域),用于展示视频标题、用户个人信息等内容。根据用户选择的目标视频的宽高比,系统会列举出该宽高比下的模版,然后用户选择相应的模版,完成对应地参数配置(因为模版给定了默认参数值)。模板的设置能够简化用户操作,便于设置参数。
模版给定的默认参数值,如辅助信息区域的背景选择、正副标题字体、字号、颜色以及样式等设置、生成的短视频的时长与分辨率设置、头尾切割时长控制、去除片头片尾的长度设置、视频播放倍速设置等,一个模版以及其默认参数示例如图5所示,用户可以自行修改进行个性化设置。
在一些优选的方式中,步骤(3)中,主视图窗口区域检测模块能够自动检测主视图窗口区域。本发明采用一种基于梯度引导的直线检测方法来检测主视图窗口区域(主视图窗口区域指的是主要视频区域),该检测方法充分利用了视频结构信息,可以使用很轻量的模型便可以得到非常鲁棒性的结果。
一种基于梯度引导的直线检测方法来检测主视图窗口区域包括以下步骤:
(1.1)对输入视频抽取若干视频帧,一般抽取m>=3视频帧,本实施例中,采用等间隔的方式抽取了5帧;本发明不对视频帧的抽取方式与视频帧的抽取数量进行具体的限定。
(1.2)将步骤(1.1)中抽取的视频帧转为灰度图,并使用y方向的sobel算子(如图3所示)计算每一帧的y方向的梯度值,计算它们的平均梯度值;
(1.3)将步骤(1.2)中得到的平均梯度值与视频帧的灰度图拼接,然后输入训练好的直线检测器进行直线检测,在实际实施中,为了更鲁棒地得到结果,减少误检率,每个视频会选取3帧同时进行预测,选取同时在至少2帧中检测到的直线作为最终检测到的主视图窗口的分割线;本实施例中,采用等间隔的方式选取了3帧,当然也可以不采用等间隔的方式选取;本发明不对视频帧的抽取方式进行具体的限定。
本实施例中,将直线检测转换成标注目标检测任务,采用yolov5模型,输入由3通道改为了2通道,第一个卷积层的输入channel变成2;本实施例中,模型训练过程中,参数设置:batch size为16;使用Adam优化器,初始learning rate为0.001;一共训练80 epochs。
当然也可以采用其他检测模型或者其他边缘检测方法。
本实施例中模型的训练数据采用自动化方式合成,不需要人为标注,具体合成方式如下:
(a)准备大量只有主窗口区域的视频,比如电影、电视剧、淘宝直播带货视频等;本实施例中,选用2000个视频;
(b)准备大量图片(如ImageNet、COCO等数据集);本实施例中,选用1000张图片。
(c)对每个步骤(a)中的视频,每次随机挑选若干帧(实际实施中,每次选择5帧),随机选择一个步骤(b)中配置的模版(如图2示例)对这些帧进行处理,记录辅助窗口区域与主窗口区域的分界线的位置,这里将其记录成一个高度为4像素的矩形区域,这样便构成一个样本<5帧图片, 分界线列表>,训练的时候,先将5帧图片根据(1.2)步骤中的操作计算平均梯度图,然后随机选择一帧图片,将其灰度图与平均梯度图拼接得到2通道的输入图片。
(1.4)如果用户在参数配置中不要求一定要在主视图窗口中包含字幕,则结束;否则继续下面的步骤;
(1.5)将步骤(1.1)中抽取的视频帧输入OCR模型进行文字检测与识别,根据字幕在视频中出现的位置一致的特点(同一个视频中各个帧的字幕出现的区域是比较一致的,字幕的高度以及出现在帧中的行的位置都是一致的,只是字幕长度可能会有一些不一致,有的长一些,有的短一些,但它们的排布一般也是一致的,比如都居中,所以,各帧中检测到的字幕区域应该基本一致,它们在垂直方向上彼此会有比较大的重叠),对每一帧检测到的文字区域根据是否被视频帧水平方向的中线通过进行过滤,过滤掉完全位于中线左侧或右侧的文本区域,将所有帧剩余的文本区域根据垂直方向的IoU对文本区域进行分组;然后过滤掉包含文本区域的数量少于给定阈值的组,实际实施中,所述阈值设为步骤(1.1)中抽取的帧的数量的1/2,然后对剩余的组,计算组内的文本与文本之间编辑距离的平均值,去掉平均值小于某一阈值的组,剩下的便是字幕组,在实际实施中,设置每一组的阈值为该组中最短文本的长度的1/2;
所述OCR模型中文本检测采用的是DB模型,文本识别采用的是CRNN模型,这些模型均是现有技术中存在的,本发明不对模型进行改进,当然也可以采用其他文本检测和识别模型。
(1.6)将步骤(1.5)中检测到的字幕区域与主视图区域进行比较,如果字幕区域已经包含在主视图区域,则结束;否则更改主视图区域的分割线位置,从而将字幕区域包含进来。
在一些优选的方式中,视频水印图标检测模块采取一种基于梯度引导的自动视频检测算法进行检测与处理,能够遮挡视频中的一些水印,如平台logo,避免影响观看者的观感。
一种基于梯度引导的自动视频检测方法,包括如下步骤:
(2.1)对输入视频抽取若干视频帧,一般抽取m>=3视频帧,本实施例中,采用等间隔的方式抽取了5帧,这样可以得到比较鲁棒性的结果;本发明不对视频帧的抽取方式与视频帧的抽取数量进行具体的限定。
(2.2)对步骤(2.1)中抽取的视频帧转为灰度图,并使用sobel算子计算每一帧的梯度值,计算它们的平均梯度值;
(2.3)将步骤(2.2)中得到的梯度图(即平均梯度值)与步骤(2.1)中抽取的视频帧拼接,然后输入训练好的水印图标检测器进行水印图标区域检测,在实际实施中,为了更鲁棒地得到结果,每个视频会选取3帧同时进行检测,选取同时在至少2帧中检测到的区域作为最终检测到的水印图标区域。
所述拼接就是通道维上的concat,也就是视频帧3通道图,梯度图1通道图,拼接完就是4通道图。
所述水印图标检测器采用yolov5模型,输入由3通道改为了4通道,第一个卷积层的输入channel就变成4;本实施例中,模型训练过程中,参数设置:
batch size为16,使用Adam优化器,初始learning rate为0.001,一共训练120epochs。
当然也可以采用做通向调整的其他目标检测模型。模型的训练数据采用自动化方式合成,不需要人为标注,具体合成方式如下:
(a)准备大量没有水印图标的电影或电视剧视频;本实施例中,选用2000个视频;
(b)准备大量常见的网站、品牌、表情包等图片;本实施例中,选用500张图片。
(c)收集常见英文单词和汉字组成的列表,每次随机选取3-6个单词或汉字,生成纯色背景的文字图片;
(d)对每个步骤(a)中的视频,每次随机挑选若干帧(实际实施中,每次选择5帧),然后随机选择1-2张步骤(b)和步骤(c)中的图片,将它们随机融合到前面挑选的帧中,其中融合参数alpha从区间[0.2, 1]中随机选取,每一帧融合的位置都是一致的,并记录这些融合的位置,即待检测的水印图标包围框,这样便构成一个样本<5帧图片, 水印包围框列表>;训练的时候,先将5帧图片根据(2.2)步骤中的操作计算平均梯度图,然后随机选择一帧图片与平均梯度图拼接得到4通道的图片作为模型的输入,模型输出的是标准目标检测的结果,也就是bounding box,就是包含水印图标的矩形框(即水印包围框)。
在一些优选的方式中,由于本发明中需要对输入的长视频根据用户设定的时间进行拆分,考虑到裁剪的时刻会影响人声的连贯,因此需要进行人声断句检测。
断句检测模块进行自动化人声断句检测的步骤如下:
(3.1)对输入的视频提取音频信号;
(3.2)以固定采样窗口和步长对音频信号进行归一化采样,按照如下公式求得音 频信号的能量
Figure DEST_PATH_IMAGE007
其中,
Figure 91053DEST_PATH_IMAGE008
表示第n个采样窗口内的音频信号的能量,
Figure DEST_PATH_IMAGE009
表示第n个采样窗口中第i 个采样点的声音信号值;所述采样窗口固定为0.02秒,固定步长也为0.02秒,N是采样窗口 内的采样点总数。
(3.3)统计音频信号能量低于整个视频中音频信号的总能量(即各个采样窗口内的音频信号能量之和)10%的采样窗口,求得这些采样窗口音频信号能量的平均值,以此平均值作为阈值,对所有的采样窗口过滤,遍历这些低于阈值的采样窗口的结束时刻点,当此时刻点与上一个断句点间隔大于1秒,则此时刻点为下一个断句点。
在一些优选的方式中,决策模块根据用户的配置参数信息以及主视图窗口区域检测、视频水印图标检测和人声断句检测的结果生成需要对视频进行的剪辑与渲染操作表,然后将所述操作表交由剪辑与渲染模块进行实际的处理。
在一些优选的方式中,基于上述决策模块得到的操作列表,剪辑与渲染模块对视频进行自动化编辑,包括裁剪出视频的主视图区域,对水印图标等位置进行模糊或自动补全处理,根据用户输入的时长区间和断句检测结果分成多个视频片段;然后对背景、标题、个人logo和标语等元素进行渲染生成;最后根据用户配置选择的模板,将这些辅助元素(所述辅助元素就是上文所述渲染的背景、标题等元素)与上面裁剪得到的视频片段组合生成符合用户需求的一系列短视频。默认输出视频的封面是系统利用开源工具Hecate从输入视频中自动选择的,用户也可以选择视频中的任意一帧或上传自己特定的封面图进行替换。
实施例2,参照附图4。
在本实施例中,提供了一种计算机设备100,包括存储器102、处理器101及存储在存储器102上并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时能够实现上述实施例1所提供的自动化视频拆分剪辑方法中的步骤。
实施例3
在本实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时能够实现上述各个实施例所提供的自动化视频拆分剪辑方法中的步骤。
在本实施例中,所述计算机程序可以是实施例2中的计算机程序。
在本实施例中,所述计算机可读存储介质可以被实施例2中的计算机设备所运行。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例的所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.一种自动化视频拆分剪辑系统,其特征是,包括参数配置模块、主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块、决策模块、剪辑与渲染模块,参数配置模块分别与主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块连接,参数配置模块、主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块分别与决策模块连接,决策模块和剪辑与渲染模块连接;
参数配置模块被配置为能够对视频进行参数配置;主视图窗口区域检测模块被配置为能够检测主视图窗口区域;视频水印图标检测模块被配置为能够对视频进行检测得出视频中的水印图标区域;断句检测模块被配置为能够对视频进行检测得出视频中的断句点;决策模块被配置为能够根据配置参数信息、主视图窗口区域检测、视频水印图标检测和人声断句检测的结果生成需要对视频进行剪辑与渲染操作列表,并能够将所述操作列表传输至剪辑与渲染模块;剪辑与渲染模块被配置为能够根据操作列表对视频进行剪辑与渲染。
2.一种自动化视频拆分剪辑方法,其特征是,采用权利要求1所述的系统,并包括以下步骤:
(1)输入待处理视频;
(2)参数配置模块对步骤(1)中的视频进行参数配置,并将配置后的视频传输至主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块;
(3)主视图窗口区域检测模块、视频水印图标检测模块、断句检测模块分别对步骤(2)得到的视频进行主视图窗口区域检测、水印图标检测以及人声的断句检测;
(4)决策模块根据步骤(2)配置的参数与步骤(3)得到的检测结果,进行决策,生成需要对视频进行剪辑与渲染操作列表,并将所述操作列表传输至剪辑与渲染模块;
(5)剪辑与渲染模块对视频进行自动化编辑处理,输出短视频。
3.根据权利要求2所述的一种自动化视频拆分剪辑方法,其特征是,步骤(3)中,主视图窗口区域检测模块采用基于梯度引导的直线检测方法来检测主视图窗口区域,包括以下步骤:
(1.1)对输入视频抽取视频帧;
(1.2)对步骤(1.1)中抽取的视频帧转为灰度图,并使用y方向的sobel算子计算每一帧的y方向的梯度值,计算它们的平均梯度值;
(1.3)将步骤(1.2)中得到的平均梯度值与视频帧的灰度图像拼接,然后输入直线检测器进行直线检测,每个视频会选取3帧同时进行预测,选取同时在至少2帧中检测到的直线作为最终检测到的主视图窗口的分割线;
(1.4)如果用户在参数配置中不要求一定要在主视图窗口中包含字幕,则结束;否则继续下面的步骤;
(1.5)将步骤(1.1)中抽取的视频帧输入OCR模型进行文字检测与识别,对每一帧检测到的文字区域根据是否被视频帧水平方向的中线通过进行过滤,过滤掉完全位于中线左侧或右侧的文本区域,将所有帧剩余的文本区域根据垂直方向的IoU对文本区域进行分组;然后过滤掉包含文本区域的数量少于给定阈值的组,然后对剩余的组,计算组内的文本与文本之间编辑距离的平均值,去掉平均值小于某一阈值的组,剩下的便是字幕组;
(1.6)将步骤(1.5)中检测到的字幕区域与主视图区域进行比较,如果字幕区域已经包含在主视图区域,则结束;否则更改主视图区域的分割线位置,从而将字幕区域包含进来。
4.根据权利要求2所述的一种自动化视频拆分剪辑方法,其特征是,步骤(3)中,视频水印图标检测模块采取基于梯度引导的自动视频检测方法进行检测,包括如下步骤:
(2.1)对输入视频抽取若干视频帧,
(2.2)对步骤(2.1)中抽取的视频帧转为灰度图,并使用sobel算子计算每一帧的梯度值,计算它们的平均梯度值;
(2.3)将步骤(2.2)中得到的平均梯度值与步骤1中抽取的视频帧拼接,然后输入水印图标检测器进行水印图标区域检测,每个视频选取3帧同时进行检测,选取同时在至少2帧中检测到的区域作为最终检测到的水印图标区域。
5.根据权利要求2所述的一种自动化视频拆分剪辑方法,其特征是,步骤(3)中,断句检测模块进行自动化人声断句检测的步骤如下:
(3.1)对输入的视频提取音频信号;
(3.2)以固定采样窗口和步长对音频信号进行归一化采样,按照如下公式求得音频信号的能量
Figure 251655DEST_PATH_IMAGE001
其中,
Figure 41494DEST_PATH_IMAGE002
表示第n个采样窗口内的音频信号的能量,
Figure 42948DEST_PATH_IMAGE003
表示第n个采样窗口中第i个采 样点的声音信号值;
(3.3)统计音频信号能量低于整个视频中音频信号的总能量10%的采样窗口,求得这些采样窗口音频信号能量的平均值,以此平均值作为阈值,对所有的采样窗口过滤,遍历这些低于阈值的采样窗口的结束时刻点,当此时刻点与上一个断句点间隔大于1秒,则此时刻点为下一个断句点。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征是,所述处理器在执行所述计算机程序时能够实现权利要求2-5中任一项所述的自动化视频拆分剪辑方法中的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行时能够实现权利要求2-5中任一项所述的自动化视频拆分剪辑方法中的步骤。
CN202110161143.0A 2021-02-05 2021-02-05 一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质 Active CN112511907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110161143.0A CN112511907B (zh) 2021-02-05 2021-02-05 一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110161143.0A CN112511907B (zh) 2021-02-05 2021-02-05 一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112511907A true CN112511907A (zh) 2021-03-16
CN112511907B CN112511907B (zh) 2021-05-14

Family

ID=74952725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110161143.0A Active CN112511907B (zh) 2021-02-05 2021-02-05 一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112511907B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257823A (zh) * 2021-11-11 2022-03-29 广州方硅信息技术有限公司 自定义视频水印处理方法、装置、存储介质及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8934734B1 (en) * 2009-03-05 2015-01-13 Google Inc. Video identification through detection of proprietary rights logos in media
CN108256508A (zh) * 2018-02-28 2018-07-06 北京奇艺世纪科技有限公司 一种新闻主副标题检测方法及装置
CN108810569A (zh) * 2018-05-23 2018-11-13 北京奇艺世纪科技有限公司 一种视频新闻分割方法和装置
CN111739128A (zh) * 2020-07-29 2020-10-02 广州筷子信息科技有限公司 一种目标视频生成方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8934734B1 (en) * 2009-03-05 2015-01-13 Google Inc. Video identification through detection of proprietary rights logos in media
CN108256508A (zh) * 2018-02-28 2018-07-06 北京奇艺世纪科技有限公司 一种新闻主副标题检测方法及装置
CN108810569A (zh) * 2018-05-23 2018-11-13 北京奇艺世纪科技有限公司 一种视频新闻分割方法和装置
CN111739128A (zh) * 2020-07-29 2020-10-02 广州筷子信息科技有限公司 一种目标视频生成方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257823A (zh) * 2021-11-11 2022-03-29 广州方硅信息技术有限公司 自定义视频水印处理方法、装置、存储介质及计算机设备
CN114257823B (zh) * 2021-11-11 2024-02-23 广州方硅信息技术有限公司 自定义视频水印处理方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
CN112511907B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN110012237B (zh) 基于交互引导及云端增强渲染的视频生成方法及系统
US8582834B2 (en) Multi-image face-based image processing
US8655074B2 (en) Document editing apparatus and method
CN111415399A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
US20030152277A1 (en) Method and system for interactive ground-truthing of document images
CN109583443B (zh) 一种基于文字识别的视频内容判断方法
CN102542268A (zh) 用于视频中文本区域检测与定位的方法
CN111813998B (zh) 一种视频数据处理方法、装置、设备及存储介质
CN112511907B (zh) 一种自动化视频拆分剪辑方法、系统、计算机设备及可读存储介质
CN110705534A (zh) 一种适用于电子助视器的错题本生成方法
CN113052169A (zh) 视频字幕识别方法、装置、介质及电子设备
JP2016189158A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
US11348331B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2012038286A (ja) コンテンツ解析装置、方法およびプログラム
CN112735476A (zh) 一种音频数据标注方法及装置
CN111432290B (zh) 基于音频调节的视频生成方法
CN111432289B (zh) 基于视频调节的视频生成方法
CN111798543A (zh) 模型训练方法、数据处理方法、装置、设备及存储介质
WO2012120695A1 (ja) 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体
CN117596433B (zh) 一种基于时间轴微调的国际中文教学视听课件编辑系统
WO2013152682A1 (zh) 一种新闻视频字幕标注方法
JP4496358B2 (ja) オープンキャプションに対する字幕表示制御方法
JP4181328B2 (ja) 数式認識装置および数式認識方法
CN111414908A (zh) 一种视频中字幕字符的识别方法及装置
CN115460462A (zh) 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220902

Address after: Room 1201, Building 1, No. 371, Mingxing Road, Xiaoshan Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province, 310000

Patentee after: HANGZHOU ZHIYI TECHNOLOGY Co.,Ltd.

Address before: Room D3052, 3rd floor, building 1 (North), 368 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou aigeng Technology Co.,Ltd.

TR01 Transfer of patent right