CN113747235A - 一种视频处理方法、装置及设备 - Google Patents
一种视频处理方法、装置及设备 Download PDFInfo
- Publication number
- CN113747235A CN113747235A CN202111177678.3A CN202111177678A CN113747235A CN 113747235 A CN113747235 A CN 113747235A CN 202111177678 A CN202111177678 A CN 202111177678A CN 113747235 A CN113747235 A CN 113747235A
- Authority
- CN
- China
- Prior art keywords
- target video
- video
- key frame
- frames
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 39
- 238000004891 communication Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 30
- 238000005516 engineering process Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 244000068988 Glycine max Species 0.000 description 2
- 235000010469 Glycine max Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 235000012149 noodles Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 235000015067 sauces Nutrition 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/454—Content or additional data filtering, e.g. blocking advertisements
- H04N21/4545—Input to filtering algorithms, e.g. filtering a region of the image
- H04N21/45457—Input to filtering algorithms, e.g. filtering a region of the image applied to a time segment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4665—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4825—End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种视频处理方法、装置及设备,该方法包括:获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册。通过上述方式,本发明可以有效地自动生成精简的剧集简介相册,保证相册规模的精简与信息的完整性。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种视频处理方法、装置及设备。
背景技术
现在剧集简介相册的自动生成主流的技术方案分为两大类:第一类,有人工参与的处理方案。人工会通过发送截屏指令将视频帧进行初步选择,然后辅助机器处理;第二类,机器处理的方案,机器处理的方案省去了人工选择提炼的过程,直接使用机器对所有视频帧进行处理。
现在技术方案在进行剧集简介相册生成时,会出现图集太大或者剧集信息丢失的问题。若加入人工辅助,虽然可以减少得到的图集中视频帧数量,但人工成本增加且容易造成信息丢失,失去了人工智能的优势。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频处理方法、装置及设备。
根据本发明实施例的一个方面,提供了一种视频处理方法,包括:获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;
基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册。
根据本发明实施例的另一方面,提供了一种视频处理装置,包括:
获取模块,用于获取目标视频;
处理模块,用于获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述视频处理方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述视频处理方法对应的操作。
根据本发明上述实施例提供的方案,通过获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册可以有效地自动生成精简的剧集简介相册,保证相册规模的精简与信息的完整性。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的视频处理方法流程图;
图2示出了本发明另一实施例提供的视频处理方法的流程图;
图3示出了本发明实施例提供的一种具体的视频处理方法的流程图;
图4示出了本发明实施例提供的人机多轮交互的处理流程图;
图5示出了本发明实施例提供的视频处理装置的结构示意图;
图6示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的视频处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤11,获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;
步骤12,基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册。
该实施例中,通过获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册可以有效地自动生成精简的剧集简介相册,保证相册规模的精简与信息的完整性。
图2示出了本发明另一个实施例提供的视频处理方法的流程图。如图2所示,该方法包括以下步骤:
步骤21,获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;
步骤22,基于所述目标视频的时间信息,将所述关键帧序列按时间先后顺序排序,得到排序后的所述关键帧序列;
具体的,假设关键帧图片序列为TF,对关键帧图片序列TF按时间点顺序排序,即排序后使TFx在视频中出现的时间早于TFx+1。
步骤23,基于所述目标视频的时间信息,获得所述概要信息列表中每条文本为Wk的开始时间Wkxts;
具体的,设概要文本信息列表为W,每条文本为Wk。根据人机多轮交互对话系统,获得Wk的开始时间,设为Wkxts。
步骤24,在排序后的所述关键帧序列中,查找到时间晚于Wkxts一预设时间段或者等于Wkxts的关键帧,将查找到的所述关键帧与文本Wk进行合成,得到所述目标视频的简介相册。
具体的,得到所述目标视频的简介相册后,相册中的每一张图片都包含一个索引和锚点。以电视剧视频为例,索引是指电视剧的剧集,锚点是指该剧集播放进度中的一个时间点。当点击简介相册中的一张图片时,会自动跳转到对应剧集的对应时间点进行视频播放。
该实施例中,主要是封装相册的过程,即将概要文本信息列表与关键帧结合。这个过程使用全程的时间点数据,可以方便的将一段对话的概要信息与关键帧建立关联关系。
在本发明的一可选的实施例中,步骤21中,获取目标视频的关键帧序列可以包括:
步骤211,对目标视频进行分割处理,得到至少一个视频段;
具体的,首先将所述目标视频进行图像直方图处理,获得在目标视频中细粒度差别超过预设差别值的至少一个视频段,所述图像直方图的计算公式为:其中,k为图像帧的像素总数,hm(i)为图像直方图在该像素下的值,hm(i)-hm-1(i)为相邻两帧在图像直方图上像素i的距离,X2为细粒度,当X2大于预设判断值,则初步判断该视频段出现镜头切换。当判断出镜头切换时,将切换时间点前后T秒的视频段数据取出,得到至少一段时长为2T的视频段。
初步判断视频段出现镜头切换不仅限于用图像直方图处理,可以用其他镜头分割算法代替。
然后将至少一段时长为2T的视频段送入场景识别算法模型中进行处理:第一步,对所述至少一段时长为2T的视频段中每一张视频帧进行背景信息提取,并将提取后的数字离散化,得到离散化后的结果;
第二步,对所述离散化后的结果进行聚类算法处理,得到聚类结果;
第三步,对所述聚类结果进行分类,当存在至少两个分类时,第二次判断时长为2T的视频段出现镜头切换,保留时长为2T的视频段;当不存在至少两个分类时,判断时长为2T的视频段未出现镜头切换,则丢弃时长为2T的视频段。
步骤212,对所述至少一个视频段进行处理,得到包括目标人物图像的多个图片;
步骤213,对所述多个图片进行筛选,得到关键帧序列。
具体的,步骤212和213中,在获取多个视频段后,可以对多个视频段进行并发处理,以下以一个视频段为例,其他多个视频段的处理方式与一个视频段的处理方式相同。
假设一个视频段时长为20秒钟,帧率为25帧/秒,以秒为单位处理一组视频帧。设Tij为第i秒中的第j帧(1<=i<=20,1<=j<=25),则批处理的单位为Ti。
首先,对视频段以秒为单位进行拆帧,当Ti中包含目标人物图像时,记录图片中目标人物图像数量记为SN,再根据SN数量大小降序排列拆帧后图片的帧号,得到视频帧序列,记为LSN。
其次,在LSN中根据图片质量进行判断,采用多人脸识别技术筛选出n至m张高质量的图片帧,所述m>n≥1,筛选的标准尽可能的选择人物多、空间占比大的视频帧,具体如下:
第一,当图片X中包含目标人物多于图片Y中包含的目标人物,选择图片X为关键帧。
第二,当图片X与图片Y包含相同个数的目标人物时,选择图片质量高的图片为关键帧。质量高的判别标准是调用图片质量分析服务,对人眼、侧脸等信息进行评估,输出质量评分。这样可以杜绝关键帧中目标人物眼睛是闭着的、主演人物多为侧脸状态的情况。
第三,在似乎近似的相邻帧中,选择字幕小的或无字幕的作为关键帧。关键帧的选择中,字幕是降分的因素,即关键帧中尽量做到不包含或少包含字幕。
第四,对于场景类的关键帧,采用数量限制策略,仅用于捕获美图。
筛选的过程为:对LSN依次进行图片质量判断,选出最小输出帧数量后,设Tix为第n个满足高质量图片的帧,若Tix+1中SN的个数与Tix相等且高质量图片帧个数少于m张,则继续对排序后的图片序列进行图片质量判断,直至不满足判断条件或图片序列遍历完。若直至遍历完图片序列,尚未找齐n张高质量图片帧,则从LSN的头取帧补齐,并进行属性标记。
然后对n~m张高质量图片帧进行字幕识别。保留无字幕或字幕中字数最少的帧,得到一帧关键帧。若所有图片均无字幕或字幕字数相差很小,则取质量得分最高的非补齐帧做为关键帧,若所有图片均为补齐帧,则输出质量得分最高的做为关键帧。这样保证了这一秒中Ti必然会输出一张满意或可接受的关键帧。
最后将所有Ti中筛选出的关键帧组合成关键帧序列,记为TF。
该实施例中,场景识别智能模型是基于分类思想构建的无监督聚类算法模型。使用无监督的聚类算法,基于使用场景的因素,摒弃了扩展性差的弊端,而且准确率同样高。
在本发明的一可选的实施例中,步骤21中,获取所述目标视频的音频数据的概要信息列表,可以包括:
步骤214,对所述目标视频进行音频提取,得到所述目标视频的音频数据;
步骤215,将所述目标视频的音频数据进行音轨数据处理,得到所述音频数据的信息列表;
具体的,首先对所述目标视频的音频数据进行OCR字幕识别,得到识别后的台词文件,所述台词文件记为L,表示一个文本列表,结构为:L={e1,e2,e3,...,en};然后通过语音识别技术将所述台词文件L进行划分,得到对话数据;例如分为两个,即:A={e1,e2,e5,e7,...};B={e3,e4,e6,e8,...},其中,A或B代表关键视频段中的人物,A或B的列表为A或B代表关键视频段中的人物所说的台词。
步骤216,根据所述音频数据的信息列表,得到所述目标视频的音频数据的概要信息列表。
具体的,如图4所示,将所述音频数据的信息列表借助深度学习、增强学习、自然语言处理、数据挖掘等技术构建的基础原子能力,并依靠情感分析、语义理解和逻辑推理等上层服务创建人机多轮交互的处理,得到所述目标视频的音频数据的概要信息列表。
该实施例中,通过语音识别技术将所述台词文件L进行划分,完全解决了OCR在字幕识别中丢失说话人信息的问题,而且由于引入字幕文本辅助信息,语音识别的准确率也得到了很大提升,保证了台词对话列表的精准度。
步骤216中,以一种台词选取为预设剧集里的真实的一段对话为例来进一步说明,具体如下:
【角色A:想吃一碗你做的炸酱面,就是不知道这么晚了还有没有卖酱的。
角色B:没有】
人机多轮交互对话系统处理结果为:
【角色A想吃角色B做的炸酱面,但家里没有酱。】
在本发明的又一可选的实施例中,步骤24包括:
步骤241,若查找到的所述关键帧为补齐帧,则向后查找第一数量的关键帧,选择一个非补齐帧替换所述关键帧,若后面第一数量的关键帧均为补齐帧,则保持最初选中的补齐帧不变;
步骤242,将所述关键帧与所述文本Wk进行合成,得到所述目标视频的简介相册。
该实施例中,假设[a,b,c,d,e]中b是时间点上被选中的关键帧,若b是补齐帧,则选择c、d或e中一个非补齐帧替换,若c、d或e也都是补齐帧,则b保持为关键帧不变。
在本发明的再一可选的实施例中,步骤24还包括:
步骤243,若所述关键帧包含字幕,则清除所述关键帧中的字幕,再将所述文本Wk输出到所述关键帧中的原字幕的位置;若所述关键帧不包含字幕,则所述将文本Wk输出到所述关键帧的下方。
该实施例中,清除所述关键帧中的字幕技术包括:摭标技术,但不限于如上所述。
图3示出了本发明实施例提供的一种具体的视频处理方法的流程图。如图3所示,该方法包括:
首先使用镜头分割和场景识别两大技术对原始视频进行分割,然后对多个视频段进行过滤删减,去除无意义的视频段。
对分割好的每段视频进行拆帧,并利用OCR技术输出字幕信息待用,利用关键帧提取技术对视频帧序列进行过滤提取,获得关键帧序列(包含人物识别信息)。
对视频对应区域的音频处理,使用语音识别技术分割人物对话,将字幕信息与人物对话信息融合匹配,获得对话数据。
将对话数据输入到人机多轮互动对话系统中分析得出对话意图和概要信息列表,最后基于时间点数据将关键帧与对话概要信息合成得到新的图片,完成简介相册。
利用该方法生成的简介相册进行视频帧的选取,有效地节约了想了解故事梗概的用户的观看时间。另外,本发明的方案引入了镜头分割和场景识别技术,分割视频段增加了并发处理能力,且场景识别技术使用无监督学习的聚类算法,在保证准确率的前提下有效地解决了扩展难、模型重复训练等难题,且关键帧筛选技术舍弃了字幕因素加分的权重,引入了图片质量检测系统,保证关键帧的美化,取得了可以有效地自动生成精简的剧集简介相册,保证相册规模的精简与信息的完整的有益效果。并且生成的剧集简介相册中的图片与索引和锚点对应,具备了引流的功能。同时使用镜头分割和场景识别两大技术对原始视频进行分割,然后对多个视频段进行过滤删减,去除无意义的视频段。最后将多个视频段同时放入接下来的处理流程中,解决一个视频的并发处理,提高了效能。
图5示出了本发明实施例提供的视频处理装置50的结构示意图。如图3所示,该装置包括:
获取模块51,用于获取目标视频;
处理模块52,用于获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册。
可选的,所述处理模块52获取目标视频的关键帧序列时,具体用于:
对目标视频进行分割处理,得到至少一个视频段;
对所述至少一个视频段进行处理,得到包括目标人物图像的多个图片;
对所述多个图片进行筛选,得到关键帧序列。
可选的,所述处理模块52还用于对所述目标视频进行音频提取,得到所述目标视频的音频数据;
将所述目标视频的音频数据进行音轨数据处理,得到所述音频数据的信息列表;
根据所述音频数据的信息列表,得到所述目标视频的音频数据的概要信息列表。
可选的,所述处理模块52还用于基于所述目标视频的时间信息,将所述关键帧序列按时间先后顺序排序,得到排序后的所述关键帧序列;
基于所述目标视频的时间信息,获得所述概要信息列表中每条文本为Wk的开始时间Wkxts;
在排序后的所述关键帧序列中,查找到时间晚于Wkxts一预设时间段或者等于Wkxts的关键帧,将查找到的所述关键帧与文本Wk进行合成,得到所述目标视频的简介相册。
可选的,所述处理模块52还用于若查找到的所述关键帧为补齐帧,则向后查找第一数量的关键帧,选择一个非补齐帧替换所述关键帧,若后面第一数量的关键帧均为补齐帧,则保持最初选中的补齐帧不变;
将所述关键帧与所述文本Wk进行合成,得到所述目标视频的简介相册。
可选的,所述处理模块52还用于若所述关键帧包含字幕,则清除所述关键帧中的字幕,再将所述文本Wk输出到所述关键帧中的原字幕的位置;若所述关键帧不包含字幕,则将文本Wk输出到所述关键帧的下方。
可选的,所述处理模块52还用于将所述关键帧序列中未与所述文本Wk合成的关键帧丢弃。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的视频处理方法。
图6示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图6所示,该计算设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的视频处理方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的视频处理方法。程序中各步骤的具体实现可以参见上述视频处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种视频处理方法,包括:
获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;
基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册。
2.根据权利要求1所述的视频处理方法,其特征在于,获取目标视频的关键帧序列,包括:
对目标视频进行分割处理,得到至少一个视频段;
对所述至少一个视频段进行处理,得到包括目标人物图像的多个图片;
对所述多个图片进行筛选,得到关键帧序列。
3.根据权利要求1所述的视频处理方法,其特征在于,获取所述目标视频的音频数据的概要信息列表,包括:
对所述目标视频进行音频提取,得到所述目标视频的音频数据;
将所述目标视频的音频数据进行音轨数据处理,得到所述音频数据的信息列表;
根据所述音频数据的信息列表,得到所述目标视频的音频数据的概要信息列表。
4.根据权利要求2所述的视频处理方法,其特征在于,基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册,包括:
基于所述目标视频的时间信息,将所述关键帧序列按时间先后顺序排序,得到排序后的所述关键帧序列;
基于所述目标视频的时间信息,获得所述概要信息列表中每条文本为Wk的开始时间Wkxts;
在排序后的所述关键帧序列中,查找到时间晚于Wkxts一预设时间段或者等于Wkxts的关键帧,将查找到的所述关键帧与文本Wk进行合成,得到所述目标视频的简介相册。
5.根据权利要求4所述的视频处理方法,其特征在于,将查找到的所述关键帧与文本Wk进行合成,得到所述目标视频的简介相册,包括:
若查找到的所述关键帧为补齐帧,则向后查找第一数量的关键帧,选择一个非补齐帧替换所述关键帧,若后面第一数量的关键帧均为补齐帧,则保持最初选中的补齐帧不变;
将所述关键帧与所述文本Wk进行合成,得到所述目标视频的简介相册。
6.根据权利要求5所述的视频处理方法,其特征在于,将所述关键帧与文本Wk进行合成时,还包括:
若所述关键帧包含字幕,则清除所述关键帧中的字幕,再将所述文本Wk输出到所述关键帧中的原字幕的位置;若所述关键帧不包含字幕,则所述将文本Wk输出到所述关键帧的下方。
7.根据权利要求5所述的视频处理方法,其特征在于,还包括:
将所述关键帧序列中未与所述文本Wk合成的关键帧丢弃。
8.一种视频处理装置,包括:
获取模块,用于获取目标视频;
处理模块,用于获取目标视频的关键帧序列以及所述目标视频的音频数据的概要信息列表;基于所述目标视频的时间信息,将所述关键帧序列与所述概要信息列表进行合成,得到所述目标视频的简介相册。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的视频处理方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的视频处理方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111177678.3A CN113747235B (zh) | 2021-10-09 | 2021-10-09 | 一种视频处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111177678.3A CN113747235B (zh) | 2021-10-09 | 2021-10-09 | 一种视频处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113747235A true CN113747235A (zh) | 2021-12-03 |
CN113747235B CN113747235B (zh) | 2023-09-19 |
Family
ID=78726231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111177678.3A Active CN113747235B (zh) | 2021-10-09 | 2021-10-09 | 一种视频处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113747235B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339299A (zh) * | 2021-12-27 | 2022-04-12 | 司法鉴定科学研究院 | 一种汽车行车记录仪视频取证方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060209947A1 (en) * | 2003-06-06 | 2006-09-21 | Gerard De Haan | Video compression |
US20110267544A1 (en) * | 2010-04-28 | 2011-11-03 | Microsoft Corporation | Near-lossless video summarization |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN103646094A (zh) * | 2013-12-18 | 2014-03-19 | 上海紫竹数字创意港有限公司 | 实现视听类产品内容摘要自动提取生成的系统及方法 |
CN108882057A (zh) * | 2017-05-09 | 2018-11-23 | 北京小度互娱科技有限公司 | 视频摘要生成方法及装置 |
CN112052841A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
-
2021
- 2021-10-09 CN CN202111177678.3A patent/CN113747235B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060209947A1 (en) * | 2003-06-06 | 2006-09-21 | Gerard De Haan | Video compression |
US20110267544A1 (en) * | 2010-04-28 | 2011-11-03 | Microsoft Corporation | Near-lossless video summarization |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN103646094A (zh) * | 2013-12-18 | 2014-03-19 | 上海紫竹数字创意港有限公司 | 实现视听类产品内容摘要自动提取生成的系统及方法 |
CN108882057A (zh) * | 2017-05-09 | 2018-11-23 | 北京小度互娱科技有限公司 | 视频摘要生成方法及装置 |
CN112052841A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339299A (zh) * | 2021-12-27 | 2022-04-12 | 司法鉴定科学研究院 | 一种汽车行车记录仪视频取证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113747235B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145784B (zh) | 用于处理视频的方法和装置 | |
US7949188B2 (en) | Image processing apparatus, image processing method, and program | |
JP4612772B2 (ja) | 画像処理方法、画像処理装置、コンピュータ読み取り可能な記憶媒体 | |
CN108509880A (zh) | 一种视频人物行为语义识别方法 | |
CN110263215B (zh) | 一种视频情感定位方法及系统 | |
CN110110648B (zh) | 基于视觉感知与人工智能的动作提名方法 | |
CN110730381A (zh) | 基于视频模板合成视频的方法、装置、终端及存储介质 | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN110866563B (zh) | 相似视频检测、推荐方法、电子设备和存储介质 | |
WO2008040150A1 (en) | Method and device for adaptive video presentation | |
CN107464217A (zh) | 一种图像处理方法及装置 | |
CN104700442A (zh) | 一种自动添加滤镜与文字的图像处理方法和系统 | |
CN111091122B (zh) | 一种多尺度特征卷积神经网络的训练和检测方法、装置 | |
CN108108669A (zh) | 一种基于显著子区域的面部特征解析方法 | |
CN113747235A (zh) | 一种视频处理方法、装置及设备 | |
CN107205172A (zh) | 一种基于视频内容发起搜索的方法及装置 | |
CN110766645B (zh) | 基于人物识别与分割的目标人物复现图生成方法 | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN113407842A (zh) | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 | |
WO2024125312A1 (zh) | 一种画质识别方法、装置、设备、存储介质及产品 | |
EP4322115A1 (en) | Finding the semantic region of interest in images | |
CN116095363A (zh) | 基于关键行为识别的移动端短视频高光时刻剪辑方法 | |
Lee et al. | Summarizing long-length videos with gan-enhanced audio/visual features | |
JP3802964B2 (ja) | 映像編集システムおよび動画像分割方法 | |
CN115150636B (zh) | 视频处理方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |