CN116320535B - 生成视频的方法、装置、电子设备及存储介质 - Google Patents

生成视频的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116320535B
CN116320535B CN202310403003.9A CN202310403003A CN116320535B CN 116320535 B CN116320535 B CN 116320535B CN 202310403003 A CN202310403003 A CN 202310403003A CN 116320535 B CN116320535 B CN 116320535B
Authority
CN
China
Prior art keywords
video
determining
incremental
segment
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310403003.9A
Other languages
English (en)
Other versions
CN116320535A (zh
Inventor
朱祥祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310403003.9A priority Critical patent/CN116320535B/zh
Publication of CN116320535A publication Critical patent/CN116320535A/zh
Application granted granted Critical
Publication of CN116320535B publication Critical patent/CN116320535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种生成视频的方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及视频处理领域。具体实现方案为:响应于接收到待处理输入信息,确定与待处理输入信息中源数据相对应的检索信息;其中,待处理输入信息包括源数据和处理模式;根据检索信息,从视频库中检索多个视频片段;以及根据处理模式,处理多个视频片段,得到目标视频。

Description

生成视频的方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及视频处理领域,更具体地,本公开提供了一种生成视频的方法、装置、电子设备、存储介质以及计算机程序产品。
背景技术
一些视频处理平台可以对用户提供的某个视频进行处理,但是该种视频平台仅能对视频进行单一处理,无法对视频进行其他处理。但是用户有时需要对视频进行多种处理,上述视频处理平台无法满足用户的使用需求。
发明内容
本公开提供了一种生成视频的方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种生成视频的方法,包括:响应于接收到待处理输入信息,确定与待处理输入信息中源数据相对应的检索信息;其中,待处理输入信息包括源数据和处理模式;根据检索信息,从视频库中检索多个视频片段;以及根据处理模式,处理多个视频片段,得到目标视频。
根据本公开的另一方面,提供了一种生成视频的装置,包括:第一确定模块、检索模块和处理模块。第一确定模块用于响应于接收到待处理输入信息,确定与待处理输入信息中源数据相对应的检索信息。其中,待处理输入信息包括源数据和处理模式。检索模块用于根据检索信息,从视频库中检索多个视频片段。处理模块用于根据处理模式,处理多个视频片段,得到目标视频。
根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的方法。
根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的方法。
根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的生成视频的方法和装置的应用场景示意图;
图2是根据本公开实施例的生成视频的方法的示意流程图;
图3A是根据本公开实施例的生成视频的方法的示意原理图;
图3B是根据本公开实施例的根据处理模式处理多个视频片段的方法的示意流程图;
图4是根据本公开实施例的创建视频库的方法的示意流程图;
图5是根据本公开实施例的视频生成系统的示意原理图;
图6是根据本公开实施例的生成视频的装置的示意结构框图;以及
图7是用来实施本公开实施例的生成视频的方法的电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例的生成视频的方法和装置的应用场景示意图。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据待处理输入信息生成的目标视频)反馈给终端设备。
需要说明的是,本公开实施例所提供的生成视频的方法一般可以由服务器105执行。相应地,本公开实施例所提供的生成视频的装置一般可以设置于服务器105中。本公开实施例所提供的生成视频的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的生成视频的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据本公开实施例的生成视频的方法的示意流程图。
如图2所示,该生成视频的方法200可以包括操作S210~操作S230。
在操作S210,响应于接收到待处理输入信息,确定与待处理输入信息中源数据相对应的检索信息。
例如,待处理输入信息包括源数据,源数据可以表示用户输入的信息,例如,用户可以通过前端页面上传视频数据、语音数据、文本数据、图像数据、背景音频数据等。
例如,基于源数据可以确定检索信息,检索信息可以体现用户的检索目标。例如,用户输入源数据包括文本数据,且文本数据为“给我查找一个A参加某活动的视频,并且把A的脸换成B”,则该源数据体现的检索目标为“A明星参加某活动”。检索信息可以包括关键词,例如检索信息包括“A明星”、“某活动”等,检索信息也可以包括特征向量,例如某个关键词的特征向量或者用户输入的源数据的特征向量。
在操作S220,根据检索信息,从视频库中检索多个视频片段。
例如,根据关键词、特征向量等,利用预定检索算法从视频库中检索出与检索信息相关性较高的多个视频片段,本公开实施例对预定检索算法不做限定。在实际检索的过程中,可以基于特征向量进行检索,提高准确率,对于大规模特征向量检索,可以使用AISE特征检索系统,可以通过GPU等进行加速检索。
在操作S230,根据待处理输入信息中的处理模式,处理多个视频片段,得到目标视频。
例如,待处理输入信息还包括处理模式,处理模式表示对检索到的多个视频片段进行何种操作,例如进行对象替换、添加标志、添加水印、添加字幕、添加背景音乐、不替换对象并拼接多个视频片段然后输出等处理,其中,对象替换可以包括人脸替换、五官替换、头发颜色替换、发型替换、服装替换、物品替换等。
需要说明的是,在实际应用中,例如,可以在前端页面预先配置多个处理模式的选项,并将用户选择的处理模式,作为待处理输入信息中的处理模式。又例如,可以通过分析用户输入的语音数据、文本数据,来确定处理模式。
例如,每个处理模式对应有特定的处理逻辑,可以按照处理逻辑来处理视频片段。例如,处理模式为人脸替换,则可以将检索到的视频片段中的某个人脸替换为另一个人脸。又例如,处理模式为添加背景音乐,则可以将背景音乐与检索到的多个视频片段组合。
本公开实施例提供的技术方案,可以按照用户输入的处理模式,处理多个视频片段,因此可以对视频进行多种处理,满足用户的处理需求。
以下对确定与待处理输入信息中源数据相对应的检索信息的方法进行说明。
在一种示例中,源数据包括文本数据,可以将文本数据确定为输入文本,然后对输入文本进行切词,得到多个分词。然后根据多个分词,确定至少一个标签,例如从多个分词中选取预定词典中出现的分词,或者从多个分词中随机选择一些分词,并将选择的分词确定为标签,然后将标签作为上述检索信息。
在另一种示例中,源数据包括音频数据,可以对音频数据进行语音识别,得到输入文本,然后可以参考上述输入文本的处理方式,来确定检索信息。
在另一种实施例中,源数据包括视频数据,处理模式包括检索处理,此时表示用户上传了视频数据,且用户想要在视频库中检索出与上传视频相似的其他视频。因此,可以提取源数据中视频数据的特征,然后将视频数据的特征作为检索信息。
以上对确定检索信息的方法进行了说明,可以看出,本实施例可以对文本数据、音频数据、视频数据进行处理,并确定出检索信息,因此用户可以根据实际需求输入不同模态的输入信息,提高用户的灵活性。
图3A是根据本公开实施例的生成视频的方法的示意原理图。
如图3A所述,本实施例中,待处理输入信息310可以包括源数据311和处理模式312,源数据311例如可以包括待替换对象的信息和目标对象的信息,处理模式312例如可以包括替换处理。可以基于待处理输入信息310确定检索信息320,然后利用检索信息320在视频库330中进行检索,得到N个视频片段340。然后对N个视频片段340进行替换处理,例如将视频片段中的待替换对象的图像替换为目标对象的图像,替换后得到N个替换图像350。然后可以将N个替换图像350拼接,得到拼接视频360。然后基于拼接视频360确定目标视频370。
图3B是根据本公开实施例的根据处理模式处理多个视频片段的方法的示意流程图。
如图3B所示,本实施例以多个视频片段包括N个视频片段,且处理模式为对象替换为例进行说明,N为大于等于1的整数。本实施例提供的方法330可以进行对象替换处理,从而满足用户的人脸替换、物品替换等使用需求。该方法330可以包括操作S331~操作S332。
在操作S331,响应于检测到源数据包括待替换对象的信息和目标对象的信息,且处理模式包括替换处理,利用目标对象的图像,分别替换N个视频片段中待替换对象的图像,得到N个替换视频片段。
例如,待替换对象的信息可以包括待替换的对象的图像、标识等,目标对象的信息可以包括目标对象的图像、标识等。
在操作S332,根据N个替换视频片段,确定目标视频。
可以将N个替换视频片段进行拼接,得到拼接视频,以下对拼接N个替换视频片段的方式进行说明。
在一种示例中,N个替换视频片段的拼接顺序可以随机,从而减小计算量。
在另一种示例中,可以基于每个替换视频中后第一数量个图像和前第二数量个图像,对N个替换视频片段进行拼接,得到拼接视频。相比于随机顺序拼接的方式,该种拼接方式可以提高视频的连续性,从而提高视频的展示效果。
例如,可以对N个替换视频片段进行多轮次拼接。在首次拼接时,可以从N个替换视频片段中随机选择一个作为当前拼接视频片段。在非首次拼接时,将上一次拼接操作之后得到的处理片段确定为当前拼接视频片段。可以确定当前拼接视频片段中的后a个图像和每个剩余替换视频片段的前b个图像之间的相似度,然后将相似度最大的剩余替换视频片段拼接至当前拼接视频片段之后,得到处理片段。接下来,将处理片段确定为当前拼接视频片段,并返回确定相似度的操作,直至N个替换视频片段中的剩余片段数量为0。当剩余片段数量为0时,可以将当前拼接视频片段确定为拼接视频。
又例如,可以确定N个替换视频片段的多个候选序列。例如N个替换视频片段分别为V1、V2和V3,则可以确定出以下多个候选序列:V1-V2-V3,V1-V3-V2,V2-V1-V3,V2-V3-V1,V3-V1-V2,V3-V2-V1。候选序列中相邻的两个替换视频片段,一个称为前一个替换视频片段,另一个称为后一个替换视频片段,例如候选序列V1-V2-V3中相邻两个替换视频片段为V1-V2时,V1为前一个替换视频片段,V2为后一个替换视频片段。
接下来,可以针对每个候选序列,执行以下操作:根据前一个替换视频片段中后a个图像和后一个替换视频片段中前b个图像之间的相似度,确定候选序列的平滑度。例如,a为第一数量,a可以是1、2、3等,b为第二数量,b可以是1、2、3等,a和b可以相同。以下以候选序列V1-V2-V3为例对确定平滑度的方式进行说。例如可以计算替换视频片段V1的后a个图像和替换视频片段V2的前b个图像之间的相似度S1,计算替换视频片段V2的后a个图像和替换视频片段V3的前b个图像之间的相似度S2,然后可以基于相似度S1和相似度S2确定平滑度,例如将相似度S1和相似度S2的加权和确定为平滑度。平滑度表征N个替换视频片段拼接后的连贯性,可以理解的是,相邻两个视频片段中,前一个替换视频片段中后a个图像与后一个替换视频片段中前b个图像之间的相似度越大,则该两个替换视频片段拼接后的连贯性越高。
在得到各个候选序列的平滑度之后,可以根据与最大平滑度相对应的候选序列,确定拼接视频。例如按照与最大平滑度相对应的候选序列的顺序对N个替换视频片段进行拼接,并将拼接后的视频确定为目标视频。
本实施例先确定多个候选序列,然后确定每个候选序列的平滑度,并基于最大平滑度的候选序列来拼接N个替换视频片段,通过该种方式可以得到连贯性较高的拼接视频。并且由于平滑度是基于候选序列中多组相邻替换视频片段计算得到的,因此该平滑度可以体现后候选片段的全局连贯性,而非局部连贯性,从而确保替换视频片段的拼接效果。
以上对拼接N个替换视频片段的方式进行了说明,在得到拼接视频之后,可以基于拼接视频,确定目标视频。
例如,若源数据中包括背景音频数据,则可以将背景音频与拼接视频组合,得到目标视频。又例如,若源数据中不包括背景音频数据,则可以将拼接视频确定为目标视频,或者将拼接视频与预定背景音频组合。需要说明的是,源数据中的背景音频数据可以为音频本身,也可以为音频标识,且该音频标识可以映射到特定的音频数据。本实施例可以根据用户实际需求来确定是否在目标视频中插入背景音频数据,从而提高处理的灵活性,提高用户体验。
根据本公开另一实施例,上述生成视频的方法还可以在确定检索信息之前,先确定是否可以复用之前已有的处理结果,以下对本实施例进行说明。
本实施例中,响应于接收到待处理输入信息,可以确定多个历史输入信息中是否存在与待处理输入信息一致的目标历史输入信息。例如,待处理输入信息与历史输入信息相比,二者的源数据类似且处理模式相同,则可以认为二者一致。
若不存在目标历史输入信息,则可以确定与待处理输入信息中源数据相对应的检索信息,然后基于检索信息从视频库中检索多个视频片段,以及根据处理模式处理多个视频片段,得到目标视频。
若存在目标历史输入信息,则可以根据目标历史输入信息,以及根据多个历史输入信息和多个视频索引之间的对应关系,从多个视频索引中确定与目标历史输入信息相对应的目标视频索引。然后根据目标视频索引,从视频库中查找视频。接下来,可以根据查找到的视频,确定针对待处理输入信息的目标视频。
本实施例中,对于相同或类似的输入信息,可以直接复用之前已有的处理结果,节约计算资源。例如输入信息均是将同一个视频中的第一物品替换为第二物品,则该些输入信息可以复用同一个目标视频。又例如,第一个输入信息为将某个视频中的第一物品替换为第二物品,第二个输入信息为将该视频中的第一物品替换为第二物品,且更换背景音频数据,则第二个输入信息可以复用第一个输入信息的处理结果。
此外,在得到目标视频之后,还可以将目标视频添加至视频库中,以及将待处理输入信息作为历史输入信息,并建立历史输入信息和目标视频在视频库中的索引之间对应关系,以便在之后处理与该历史输入信息相同或相近的待处理输入信息时,可以复用该历史输入信息的处理结果。
需要说明的是,上文主要以处理模式为替换操作为例,对生成视频的方法进行了说明。在其他实施例中,该方法还可以适用于其他场景,例如,用户可以上传视频数据,并指定对用户上传的视频数据进行对象替换处理,此时无需从视频库中检索多个视频片段,直接对用户上传的视频数据进行替换处理即可。
需要说明的是,上文中的拼接处理还可以适用于替换处理之外的其他场景,例如,从视频库检索到多个视频片段之后,可以按照处理模式处理多个视频片段,然后可以采用上文介绍的拼接过程来对处理之后的多个视频片段进行拼接,随后基于拼接后的视频来确定目标视频。
图4是根据本公开实施例的创建视频库的方法的示意流程图。
如图4所示,本实施例中生成视频的方法还可以包括:创建视频库。本实施例可以利用增量视频来更新视频库,从而为后续的视频生成提供更多的可用素材。在实际应用中,处理待处理输入信息并生成目标视频的过程可以在线进行,而创建视频库的过程可以离线进行,还可以在用户请求低峰期错峰进行离线处理,从而提升系统资源利用率。本实施例中,创建视频库的方法440可以包括操作S441~操作S444。
在操作S441,获取增量视频。
例如,可以通过爬虫等方式,离线从互联网上采集各类视频,新采集到的视频称为增量视频。
在操作S442,对增量视频进行分段处理,得到多个增量视频片段。
在一种示例中,可以按照预定时长来对增量视频进行分段处理,例如每隔10秒划分为一个增量视频片段。
在另一种示例中,可以根据转场图像帧进行粗切分,利用对象进行细切分。例如,可以根据增量视频中的转场图像帧,将增量视频划分为多个初始视频片段。然后针对每个初始视频片段,对初始视频片段中的多个图像帧分别进行目标检测,得到多个图像帧各自的对象信息,并且将多个图像帧中包含有同一个对象且连续的若干个图像帧,划分为一个增量视频片段。
例如增量视频中的某个图像帧,该图像帧与之前的图像和之后的图像差别较大,可以通过边缘检测等判断是否有转场图像帧,并基于转场图像帧对增量视频进行粗切分,此外,还可以确定粗切分的初始视频片段的场景标签。接下来,对粗切分后的初始视频片段中图像帧进行目标检测和聚类,按照图像帧中的单个对象来划分增量视频片段。例如,某个物品在4~30帧连续出现,某个人脸在10~25帧连续出现,则可以将4~30帧切分为一个增量视频片段,将10~25帧切分为另一个增量视频片段。此外,需要说明的是,若一个图像帧中包括多个对象,则可以将面积最大或图像质量最高的对象作为该图像中的核心对象,并基于核心对象进行分段,可以不基于其他非核心对象进行分段。
可以看出,上述示例先根据转场图像帧进行粗切分,然后利用对象进行细切分,减小细化切分后的视频粒度,并且切分后的每个视频片段均可以对应到一个特定的对象,进而优化后续的检索效果。
在操作S443,确定多个增量视频片段各自的特征。
例如,可以通过对增量视频片段进行特征提取,来确定特征。此外,每个增量视频片段还可以对应有自身的标签。
在操作S444,基于多个增量视频片段各自的特征和视频库中视频片段各自的特征,利用多个增量视频片段更新视频库。
在一种实施例中,可以将视频库中的全部视频片段确定为候选视频片段。
在另一种示例中,视频库中的多个视频片段是对多个原始视频进行分段处理得到的。可以根据增量视频片段的特征和多个原始视频的特征,从视频库中确定多个候选视频片段。例如,可以根据增量视频片段的特征和多个原始视频的特征,确定增量视频片段和多个原始视频之间的相似度。然后将相似度大于相似度阈值的原始视频,确定为候选原始视频,并将对候选原始视频进行分段处理得到的视频片段,确定为候选视频片段。本实施例基于原始视频的特征来确定候选视频片段,原始视频的特征可以看作是多个视频的特征聚合后的向量化表示,基于原始视频的特征可以提高检索效率。需要说明的是,本实施例提供的检索方式还可以应用于在线阶段,例如用户输入一个视频数据,则可以采用上述方式从视频库中检索多个视频片段。
接下来,在得到候选视频片段之后,可以计算增量视频片段和候选视频片段之间的相似度,相似度可以采用均方差值、余弦相似度等。然后基于相似度、第一阈值和第二阈值之间的大小关系,来确定如何处理增量视频,其中,第一阈值小于第二阈值,第一阈值例如可以是0.8,第二阈值例如可以是0.95。
例如,若增量视频片段的特征与每个候选视频片段的特征之间的相似度小于等于第一阈值,可以将增量视频片段添加至视频库中。
例如,若增量视频片段的特征与多个候选视频片段中第二视频片段的特征之间的相似度大于等于第二阈值,表示该两个视频片段的内容相近,可以保留图像质量更高的视频片段。即,若增量视频片段的图像质量高于第二视频片段的图像质量,则利用增量视频片段替换第二视频片段。若增量视频片段的图像质量低于第二视频片段的图像质量,则在视频库中继续保留第二视频片段,还可以删除增量视频片段。
例如,若增量视频片段的特征与每个候选视频片段的特征之间的相似度小于第二阈值,且增量视频片段与多个候选视频片段中第一视频片段之间的相似度大于第一阈值,将增量视频片段与第一视频片段进行拼接,并利用拼接后的视频片段替换第一视频片段。
上述示例基于增量视频片段和候选视频片段之间的相似度、第一阈值和第二阈值之间的大小关系,对增量视频片段采用不同的处理,可以优化视频库中视频片段的质量。
在拼接增量视频片段和第一视频片段的过程中,可以确定增量视频片段中后c个图像帧和第一视频片段中前d个图像帧之间的第一相似度。还可以确定第一视频片段中后c个图像帧和增量视频片段中前d个图像帧之间的第二相似度。然后根据第一相似度和第二相似度,确定增量视频片段和第一视频片段的拼接顺序,例如,第一相似度大于等于第二相似度,则确定增量视频片段在第一视频片段之前,否则确定增量视频片段在第一视频片段之后。然后根据拼接顺序,对增量视频片段和第一视频片段进行拼接。上述c为第三数量,d为第四数量,从可以是1、2、3等,d可以是1、2、3等,c和d可以相同。采用本实施例提供的方法拼接增量视频片段和第一视频片段,可以提高视频拼接后的连贯性。
图5是根据本公开实施例的视频生成系统的示意原理图。
如图5所示,本实施例中的视频生成系统500包括源数据管理子系统510、标签数据管理子系统520、视频内容生成子系统530和视频输出子系统540。
源数据管理子系统510可以管理离线采集和用户在线输入的视频数据511、图像数据512、音频数据513、文本数据514等数据,并对该些数据进行结构化存储管理,数据存储可采用分布式存储系统。
标签数据管理子系统520可以对源数据管理子系统510中的各个数据进行清洗、打标签、去重、分段等处理,例如,可以进行视频内容理解521和分段处理,并确定标签522和确定特征向量523,之后将增量视频中的各个视频片段更新视频库524。还可以对视频库中的视频片段构建标签数据库525。
视频内容生成子系统530可以根据用户输入的输入信息,基于标签进行检索531,然后按照场景需求对检索到的视频片段进行替换处理532、拼接处理533等处理,初步得到待输出的视频数据。此外,若用户输入的输入信息中包括背景音频数据,还可以在拼接后的视频数据中添加背景音频数据534。
视频输出子系统540可以对待输出的视频数据进行格式转化,以及更新标签数据库541中的数据。在转码时,可以采用1:M的方式进行转码542,即利用一组视频片段生成M个目标视频,M是大于等于1的整数,M个目标视频的格式和分辨率可以彼此不同,还可以选取视频的封面543,输出目标视频544。
以下对上述视频生成系统500的工作过程进行说明。
在离线阶段,可以通过爬虫等方式,离线从互联网上采集各类视频,采集到的视频称为增量视频,增量视频存储于源数据管理子系统510中。然后可以批量处理增量视频,主要进行视频内容理解和分段处理,并生成各类标签和特征向量,之后将增量视频中的各个视频片段更新视频库。还可以对视频库中的视频片段构建标签数据库。
在在线阶段,用户输入一些待处理输入信息,该待处理输入信息例如为对已有影视片段中的A替换为B。此时可以直接在标签数据库中搜索标签为A的多个视频片段,然后并行对每个视频片段进行人脸替换处理,其中并行可以通过多设备同时处理实现,从而缩短处理时间。然后可以对替换后的替换视频片段进行拼接,得到拼接视频。若待处理输入信息包括背景音频数据,则合并背景音频数据和拼接视频,从而得到待输出视频。
接下来,视频输出子系统540对待输出视频进行处理,可以先更新标签数据库,扩充标签数据量,方便后续有相同操作时直接复用,减少计算处理。还可以对待输出视频采用1:M的方式进行转码,获得M个不同格式及分辨率的目标视频。转码操作可以包括前处理、解码和编码,可以先对待输出视频进行解码,解码成一系列图像帧,然后在对一系列图像帧做编码,生成新的目标视频。前处理可以包括图像缩放、格式转换等。在转码过程中前处理和解码可以仅处理一次,解码可以处理M次。可以将得到的不同格式目标视频插入封面,并且按照用户要求输出成视频文件。
图6是根据本公开实施例的生成视频的装置的示意结构框图。
如图6所示,该生成视频的装置600可以包括第一确定模块610、检索模块620和处理模块630。
第一确定模块610用于响应于接收到待处理输入信息,确定与待处理输入信息中源数据相对应的检索信息。其中,待处理输入信息包括源数据和处理模式。
检索模块620用于根据检索信息,从视频库中检索多个视频片段。
处理模块630用于根据处理模式,处理多个视频片段,得到目标视频。
根据本公开另一实施例,多个视频片段包括N个视频片段,N为大于等于1的整数;处理模块包括:第一替换子模块和第一确定子模块。第一替换子模块用于响应于检测到源数据包括待替换对象的信息和目标对象的信息,且处理模式包括替换处理,利用目标对象的图像,分别替换N个视频片段中待替换对象的图像,得到N个替换视频片段。第一确定子模块用于根据N个替换视频片段,确定目标视频。
根据本公开另一实施例,第一确定子模块包括:第一拼接单元和视频确定单元。第一拼接单元用于基于每个替换视频中后第一数量个图像和前第二数量个图像,对N个替换视频片段进行拼接,得到拼接视频。视频确定单元用于基于拼接视频,确定目标视频。
根据本公开另一实施例,第一拼接单元包括:序列确定子单元、平滑度确定子单元和第一确定子单元。序列确定子单元用于确定N个替换视频片段的多个候选序列。平滑度确定子单元用于针对每个候选序列,根据前一个替换视频片段中后第一数量个图像和后一个替换视频片段中前第二数量个图像之间的相似度,确定候选序列的平滑度;其中,前一个替换视频片段和后一个替换视频片段是候选序列中相邻的两个替换视频片段。第一确定子单元用于根据与最大平滑度相对应的候选序列,确定拼接视频。
根据本公开另一实施例,视频确定单元包括:组合子单元和第二确定子单元。组合子单元用于响应于检测到源数据中包括背景音频数据,将背景音频与拼接视频组合,得到目标视频。第二确定子单元用于响应于检测到源数据中不包括背景音频数据,将拼接视频确定为目标视频。
根据本公开另一实施例,第一确定模块包括:第二确定子模块、识别子模块、切词子模块、标签确定子模块以及第三确定子模块。第二确定子模块用于响应于检测到源数据包括文本数据,将文本数据确定为输入文本。识别子模块用于响应于检测到源数据包括音频数据,对音频数据进行语音识别,得到输入文本。切词子模块用于对输入文本进行切词,得到多个分词。标签确定子模块用于根据多个分词,确定至少一个标签。第三确定子模块用于将至少一个标签作为检索信息。
根据本公开另一实施例,第一确定模块包括:提取子模块和第四确定子模块。提取子模块用于响应于检测到源数据包括视频数据且处理模式包括检索处理,提取视频数据的特征。第四确定子模块用于将视频数据的特征作为检索信息。
根据本公开另一实施例,上述装置还包括:第二确定模块、查找模块和第三确定模块。第二确定模块用于响应于检测到待处理输入信息与多个历史输入信息中的目标历史输入信息一致,根据目标历史输入信息,以及多个历史输入信息和多个视频索引之间的对应关系,从多个视频索引中确定与目标历史输入信息相对应的目标视频索引。查找模块用于根据目标视频索引,从视频库中查找视频。第三确定模块用于根据查找到的视频,确定针对待处理输入信息的目标视频。
根据本公开另一实施例,上述装置还包括:添加模块和建立模块。添加模块用于在得到目标视频之后,将目标视频添加至视频库中。建立模块用于将待处理输入信息作为历史输入信息,并建立历史输入信息和目标视频在视频库中的索引之间对应关系。
根据本公开另一实施例,上述装置还包括:分段模块、特征确定模块和更新模块。分段模块用于响应于接收到增量视频,对增量视频进行分段处理,得到多个增量视频片段。特征确定模块用于确定多个增量视频片段各自的特征。更新模块用于基于多个增量视频片段各自的特征和视频库中视频片段各自的特征,利用多个增量视频片段更新视频库。
根据本公开另一实施例,分段模块包括:划分子模块和处理子模块。划分子模块用于根据增量视频中的转场图像帧,将增量视频划分为多个初始视频片段。处理子模块用于针对每个初始视频片段,对初始视频片段中的多个图像帧分别进行目标检测,得到多个图像帧各自的对象信息;将多个图像帧中包含有同一个对象且连续的若干个图像帧,划分为一个增量视频片段。
根据本公开另一实施例,视频库中的多个视频片段是对多个原始视频进行分段处理得到的。更新模块包括:第五确定子模块、添加子模块、第二替换子模块、第三替换子模块以及删除子模块。第五确定子模块用于根据增量视频片段的特征和多个原始视频的特征,从视频库中确定多个候选视频片段。添加子模块用于响应于检测到增量视频片段的特征与每个候选视频片段的特征之间的相似度小于等于第一阈值,将增量视频片段添加至视频库中。第二替换子模块用于响应于检测到增量视频片段的特征与每个候选视频片段的特征之间的相似度小于第二阈值,且增量视频片段与多个候选视频片段中第一视频片段之间的相似度大于第一阈值,将增量视频片段与第一视频片段进行拼接,并利用拼接后的视频片段替换第一视频片段。第三替换子模块用于响应于检测到增量视频片段的特征与多个候选视频片段中第二视频片段的特征之间的相似度大于等于第二阈值,且增量视频片段的图像质量高于第二视频片段的图像质量,利用增量视频片段替换第二视频片段。删除子模块用于响应于检测到增量视频片段的特征与多个候选视频片段中第二视频片段的特征之间的相似度大于等于第二阈值,且增量视频片段的图像质量低于第二视频片段的图像质量,删除增量视频片段。
根据本公开另一实施例,第五确定子模块包括:相似度确定单元、原始确定单元以及片段确定单元。相似度确定单元用于根据增量视频片段的特征和多个原始视频的特征,确定增量视频片段和多个原始视频之间的相似度。原始确定单元用于将相似度大于相似度阈值的原始视频,确定为候选原始视频。片段确定单元用于将对候选原始视频进行分段处理得到的视频片段,确定为候选视频片段。
根据本公开另一实施例,第二替换子模块包括:第一相似度确定单元、第二相似度确定单元、顺序确定单元以及第二拼接单元。第一相似度确定单元用于确定增量视频片段中后第三数量个图像帧和第一视频片段中前第四数量个图像帧之间的第一相似度。第二相似度确定单元用于确定第一视频片段中后第三数量个图像帧和增量视频片段中前第四数量个图像帧之间的第二相似度。顺序确定单元用于根据第一相似度和第二相似度,确定增量视频片段和第一视频片段的拼接顺序。第二拼接单元用于根据拼接顺序,对增量视频片段和第一视频片段进行拼接。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
根据本公开的实施例,本公开还提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述生成视频的方法。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述生成视频的方法。
根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述生成视频的方法。
图7是用来实施本公开实施例的生成视频的方法的电子设备的结构框图。
电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如生成视频的方法。例如,在一些实施例中,生成视频的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的生成视频的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行生成视频的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (26)

1.一种生成视频的方法,包括:
响应于接收到待处理输入信息,确定与所述待处理输入信息中源数据相对应的检索信息;其中,所述待处理输入信息包括所述源数据和处理模式,所述源数据包括待替换对象的信息和目标对象的信息,所述处理模式包括替换处理;
根据所述检索信息,从视频库中检索N个视频片段,N为大于等于1的整数;
根据所述处理模式,处理所述N个视频片段,得到目标视频;
响应于接收到增量视频,根据所述增量视频中的转场图像帧,将所述增量视频划分为多个初始视频片段;
针对每个初始视频片段,对所述初始视频片段中的多个图像帧分别进行目标检测,得到所述多个图像帧各自的对象信息;将所述多个图像帧中包含有同一个对象且连续的若干个图像帧,划分为一个增量视频片段,得到多个增量视频片段;若一个图像帧中包括多个对象,则基于面积最大或图像质量最高的对象进行分段;
确定所述多个增量视频片段各自的特征;以及
基于所述多个增量视频片段各自的特征和所述视频库中视频片段各自的特征,利用所述多个增量视频片段更新所述视频库。
2. 根据权利要求1所述的方法,其中,所述根据所述处理模式,处理所述N个视频片段,得到目标视频包括:
响应于检测到所述源数据包括待替换对象的信息和目标对象的信息,且所述处理模式包括替换处理,利用所述目标对象的图像,分别替换所述N个视频片段中待替换对象的图像,得到N个替换视频片段;以及
根据所述N个替换视频片段,确定所述目标视频。
3. 根据权利要求2所述的方法,其中,所述根据所述N个替换视频片段,确定所述目标视频包括:
基于每个替换视频中后第一数量个图像和前第二数量个图像,对所述N个替换视频片段进行拼接,得到拼接视频;以及
基于拼接视频,确定目标视频。
4.根据权利要求3所述的方法,其中,所述基于每个替换视频中后第一数量个图像和前第二数量个图像,对所述N个替换视频片段进行拼接,得到拼接视频包括:
确定N个替换视频片段的多个候选序列;
针对每个候选序列,根据前一个替换视频片段中后第一数量个图像和后一个替换视频片段中前第二数量个图像之间的相似度,确定所述候选序列的平滑度;其中,所述前一个替换视频片段和所述后一个替换视频片段是所述候选序列中相邻的两个替换视频片段;以及
根据与最大平滑度相对应的候选序列,确定所述拼接视频。
5. 根据权利要求3所述的方法,其中,所述基于拼接视频,确定目标视频包括:
响应于检测到所述源数据中包括背景音频数据,将所述背景音频与所述拼接视频组合,得到所述目标视频;以及
响应于检测到所述源数据中不包括背景音频数据,将所述拼接视频确定为所述目标视频。
6.根据权利要求1所述的方法,其中,所述确定与所述待处理输入信息中源数据相对应的检索信息包括:
响应于检测到所述源数据包括文本数据,将所述文本数据确定为输入文本;
响应于检测到所述源数据包括音频数据,对所述音频数据进行语音识别,得到输入文本;
对所述输入文本进行切词,得到多个分词;
根据所述多个分词,确定至少一个标签;以及
将所述至少一个标签作为所述检索信息。
7. 根据权利要求1所述的方法,其中,所述确定与所述待处理输入信息中源数据相对应的检索信息包括:
响应于检测到所述源数据包括视频数据且所述处理模式包括检索处理,提取所述视频数据的特征;以及
将所述视频数据的特征作为所述检索信息。
8.根据权利要求1所述的方法,还包括:
响应于检测到所述待处理输入信息与多个历史输入信息中的目标历史输入信息一致,根据所述目标历史输入信息,以及所述多个历史输入信息和多个视频索引之间的对应关系,从所述多个视频索引中确定与所述目标历史输入信息相对应的目标视频索引;
根据所述目标视频索引,从所述视频库中查找视频;以及
根据查找到的视频,确定针对所述待处理输入信息的目标视频。
9. 根据权利要求1所述的方法,还包括:在得到目标视频之后,
将所述目标视频添加至所述视频库中;以及
将所述待处理输入信息作为历史输入信息,并建立所述历史输入信息和所述目标视频在所述视频库中的索引之间对应关系。
10.根据权利要求1所述的方法,其中,所述视频库中的多个视频片段是对多个原始视频进行分段处理得到的;所述基于所述多个增量视频片段各自的特征和所述视频库中视频片段各自的特征,利用所述多个增量视频片段更新所述视频库包括:
根据所述增量视频片段的特征和所述多个原始视频的特征,从所述视频库中确定多个候选视频片段;
响应于检测到所述增量视频片段的特征与每个候选视频片段的特征之间的相似度小于等于第一阈值,将所述增量视频片段添加至所述视频库中;
响应于检测到所述增量视频片段的特征与每个候选视频片段的特征之间的相似度小于第二阈值,且所述增量视频片段与所述多个候选视频片段中第一视频片段之间的相似度大于所述第一阈值,将所述增量视频片段与所述第一视频片段进行拼接,并利用拼接后的视频片段替换所述第一视频片段;
响应于检测到所述增量视频片段的特征与所述多个候选视频片段中第二视频片段的特征之间的相似度大于等于所述第二阈值,且所述增量视频片段的图像质量高于所述第二视频片段的图像质量,利用所述增量视频片段替换所述第二视频片段;以及
响应于检测到所述增量视频片段的特征与所述多个候选视频片段中第二视频片段的特征之间的相似度大于等于所述第二阈值,且所述增量视频片段的图像质量低于所述第二视频片段的图像质量,删除所述增量视频片段。
11.根据权利要求10所述的方法,其中,所述根据所述增量视频片段的特征和所述多个原始视频的特征,从所述视频库中确定多个候选视频片段包括:
根据所述增量视频片段的特征和所述多个原始视频的特征,确定所述增量视频片段和所述多个原始视频之间的相似度;
将相似度大于相似度阈值的原始视频,确定为候选原始视频;以及
将对所述候选原始视频进行分段处理得到的视频片段,确定为所述候选视频片段。
12.根据权利要求10所述的方法,其中,将所述增量视频片段与所述第一视频片段进行拼接包括:
确定所述增量视频片段中后第三数量个图像帧和所述第一视频片段中前第四数量个图像帧之间的第一相似度;
确定所述第一视频片段中后第三数量个图像帧和所述增量视频片段中前第四数量个图像帧之间的第二相似度;
根据所述第一相似度和所述第二相似度,确定所述增量视频片段和所述第一视频片段的拼接顺序;以及
根据所述拼接顺序,对所述增量视频片段和所述第一视频片段进行拼接。
13.一种生成视频的装置,包括:
第一确定模块,用于响应于接收到待处理输入信息,确定与所述待处理输入信息中源数据相对应的检索信息;其中,所述待处理输入信息包括所述源数据和处理模式;
检索模块,用于根据所述检索信息,从视频库中检索N个视频片段,N是大于等于1的整数;以及
处理模块,用于根据所述处理模式,处理所述N个视频片段,得到目标视频;
划分子模块,用于根据增量视频中的转场图像帧,将所述增量视频划分为多个初始视频片段;
处理子模块,用于针对每个初始视频片段,对所述初始视频片段中的多个图像帧分别进行目标检测,得到所述多个图像帧各自的对象信息;将所述多个图像帧中包含有同一个对象且连续的若干个图像帧,划分为一个增量视频片段,得到多个增量视频片段;若一个图像帧中包括多个对象,则基于面积最大或图像质量最高的对象进行分段;
特征确定模块,用于确定所述多个增量视频片段各自的特征;以及
更新模块,用于基于所述多个增量视频片段各自的特征和所述视频库中视频片段各自的特征,利用所述多个增量视频片段更新所述视频库。
14. 根据权利要求13所述的装置,其中,所述处理模块包括:
第一替换子模块,用于响应于检测到所述源数据包括待替换对象的信息和目标对象的信息,且所述处理模式包括替换处理,利用所述目标对象的图像,分别替换所述N个视频片段中待替换对象的图像,得到N个替换视频片段;以及
第一确定子模块,用于根据所述N个替换视频片段,确定所述目标视频。
15. 根据权利要求14所述的装置,其中,所述第一确定子模块包括:
第一拼接单元,用于基于每个替换视频中后第一数量个图像和前第二数量个图像,对所述N个替换视频片段进行拼接,得到拼接视频;以及
视频确定单元,用于基于拼接视频,确定目标视频。
16.根据权利要求15所述的装置,其中,所述第一拼接单元包括:
序列确定子单元,用于确定N个替换视频片段的多个候选序列;
平滑度确定子单元,用于针对每个候选序列,根据前一个替换视频片段中后第一数量个图像和后一个替换视频片段中前第二数量个图像之间的相似度,确定所述候选序列的平滑度;其中,所述前一个替换视频片段和所述后一个替换视频片段是所述候选序列中相邻的两个替换视频片段;以及
第一确定子单元,用于根据与最大平滑度相对应的候选序列,确定所述拼接视频。
17. 根据权利要求15所述的装置,其中,所述视频确定单元包括:
组合子单元,用于响应于检测到所述源数据中包括背景音频数据,将所述背景音频与所述拼接视频组合,得到所述目标视频;以及
第二确定子单元,用于响应于检测到所述源数据中不包括背景音频数据,将所述拼接视频确定为所述目标视频。
18.根据权利要求13所述的装置,其中,所述第一确定模块包括:
第二确定子模块,用于响应于检测到所述源数据包括文本数据,将所述文本数据确定为输入文本;
识别子模块,用于响应于检测到所述源数据包括音频数据,对所述音频数据进行语音识别,得到输入文本;
切词子模块,用于对所述输入文本进行切词,得到多个分词;
标签确定子模块,用于根据所述多个分词,确定至少一个标签;以及
第三确定子模块,用于将所述至少一个标签作为所述检索信息。
19. 根据权利要求13所述的装置,其中,所述第一确定模块包括:
提取子模块,用于响应于检测到所述源数据包括视频数据且所述处理模式包括检索处理,提取所述视频数据的特征;以及
第四确定子模块,用于将所述视频数据的特征作为所述检索信息。
20.根据权利要求13所述的装置,还包括:
第二确定模块,用于响应于检测到所述待处理输入信息与多个历史输入信息中的目标历史输入信息一致,根据所述目标历史输入信息,以及所述多个历史输入信息和多个视频索引之间的对应关系,从所述多个视频索引中确定与所述目标历史输入信息相对应的目标视频索引;
查找模块,用于根据所述目标视频索引,从所述视频库中查找视频;以及
第三确定模块,用于根据查找到的视频,确定针对所述待处理输入信息的目标视频。
21. 根据权利要求13所述的装置,还包括:
添加模块,用于在得到目标视频之后,将所述目标视频添加至所述视频库中;以及
建立模块,用于将所述待处理输入信息作为历史输入信息,并建立所述历史输入信息和所述目标视频在所述视频库中的索引之间对应关系。
22.根据权利要求13所述的装置,其中,所述视频库中的多个视频片段是对多个原始视频进行分段处理得到的;所述更新模块包括:
第五确定子模块,用于根据所述增量视频片段的特征和所述多个原始视频的特征,从所述视频库中确定多个候选视频片段;
添加子模块,用于响应于检测到所述增量视频片段的特征与每个候选视频片段的特征之间的相似度小于等于第一阈值,将所述增量视频片段添加至所述视频库中;
第二替换子模块,用于响应于检测到所述增量视频片段的特征与每个候选视频片段的特征之间的相似度小于第二阈值,且所述增量视频片段与所述多个候选视频片段中第一视频片段之间的相似度大于所述第一阈值,将所述增量视频片段与所述第一视频片段进行拼接,并利用拼接后的视频片段替换所述第一视频片段;
第三替换子模块,用于响应于检测到所述增量视频片段的特征与所述多个候选视频片段中第二视频片段的特征之间的相似度大于等于所述第二阈值,且所述增量视频片段的图像质量高于所述第二视频片段的图像质量,利用所述增量视频片段替换所述第二视频片段;以及
删除子模块,用于响应于检测到所述增量视频片段的特征与所述多个候选视频片段中第二视频片段的特征之间的相似度大于等于所述第二阈值,且所述增量视频片段的图像质量低于所述第二视频片段的图像质量,删除所述增量视频片段。
23.根据权利要求22所述的装置,其中,所述第五确定子模块包括:
相似度确定单元,用于根据所述增量视频片段的特征和所述多个原始视频的特征,确定所述增量视频片段和所述多个原始视频之间的相似度;
原始确定单元,用于将相似度大于相似度阈值的原始视频,确定为候选原始视频;以及
片段确定单元,用于将对所述候选原始视频进行分段处理得到的视频片段,确定为所述候选视频片段。
24.根据权利要求22所述的装置,其中,所述第二替换子模块包括:
第一相似度确定单元,用于确定所述增量视频片段中后第三数量个图像帧和所述第一视频片段中前第四数量个图像帧之间的第一相似度;
第二相似度确定单元,用于确定所述第一视频片段中后第三数量个图像帧和所述增量视频片段中前第四数量个图像帧之间的第二相似度;
顺序确定单元,用于根据所述第一相似度和所述第二相似度,确定所述增量视频片段和所述第一视频片段的拼接顺序;以及
第二拼接单元,用于根据所述拼接顺序,对所述增量视频片段和所述第一视频片段进行拼接。
25. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至12中任一项所述的方法。
CN202310403003.9A 2023-04-14 2023-04-14 生成视频的方法、装置、电子设备及存储介质 Active CN116320535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310403003.9A CN116320535B (zh) 2023-04-14 2023-04-14 生成视频的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310403003.9A CN116320535B (zh) 2023-04-14 2023-04-14 生成视频的方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116320535A CN116320535A (zh) 2023-06-23
CN116320535B true CN116320535B (zh) 2024-03-22

Family

ID=86820702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310403003.9A Active CN116320535B (zh) 2023-04-14 2023-04-14 生成视频的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116320535B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002093450A1 (en) * 2001-05-16 2002-11-21 Cellavision Ab Information processing for distinguishing an object
KR20090022755A (ko) * 2007-08-31 2009-03-04 (주)에프엑스기어 사용자지정 안면이미지/음성데이터가 반영된 특화영상컨텐츠 제공 시스템
WO2015055081A1 (en) * 2013-10-15 2015-04-23 Tencent Technology (Shenzhen) Company Limited Method, apparatus and mobile terminal for browser based video playback
CN110012238A (zh) * 2019-03-19 2019-07-12 腾讯音乐娱乐科技(深圳)有限公司 多媒体拼接方法、装置、终端及存储介质
CN110147469A (zh) * 2019-05-14 2019-08-20 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法、设备及存储介质
CN110598042A (zh) * 2019-08-29 2019-12-20 北京睿企信息科技有限公司 一种基于增量更新的视频结构化实时更新方法及系统
CN111062289A (zh) * 2019-12-10 2020-04-24 懂频智能科技(上海)有限公司 一种选取特定人脸视频片段替换模板窗口成短视频的方法
CN111145778A (zh) * 2019-11-28 2020-05-12 科大讯飞股份有限公司 音频数据的处理方法、装置、电子设备及计算机存储介质
CN112153462A (zh) * 2019-06-26 2020-12-29 腾讯科技(深圳)有限公司 视频处理方法、装置、终端及存储介质
CN112203122A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112801861A (zh) * 2021-01-29 2021-05-14 恒安嘉新(北京)科技股份公司 一种影视作品的制作方法、装置、设备及存储介质
CN114005156A (zh) * 2021-10-12 2022-02-01 咪咕文化科技有限公司 人脸替换方法、系统、终端设备及计算机存储介质
CN114398517A (zh) * 2021-12-31 2022-04-26 北京达佳互联信息技术有限公司 视频数据获取方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002093450A1 (en) * 2001-05-16 2002-11-21 Cellavision Ab Information processing for distinguishing an object
KR20090022755A (ko) * 2007-08-31 2009-03-04 (주)에프엑스기어 사용자지정 안면이미지/음성데이터가 반영된 특화영상컨텐츠 제공 시스템
WO2015055081A1 (en) * 2013-10-15 2015-04-23 Tencent Technology (Shenzhen) Company Limited Method, apparatus and mobile terminal for browser based video playback
CN110012238A (zh) * 2019-03-19 2019-07-12 腾讯音乐娱乐科技(深圳)有限公司 多媒体拼接方法、装置、终端及存储介质
CN110147469A (zh) * 2019-05-14 2019-08-20 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法、设备及存储介质
CN112153462A (zh) * 2019-06-26 2020-12-29 腾讯科技(深圳)有限公司 视频处理方法、装置、终端及存储介质
CN110598042A (zh) * 2019-08-29 2019-12-20 北京睿企信息科技有限公司 一种基于增量更新的视频结构化实时更新方法及系统
CN111145778A (zh) * 2019-11-28 2020-05-12 科大讯飞股份有限公司 音频数据的处理方法、装置、电子设备及计算机存储介质
CN111062289A (zh) * 2019-12-10 2020-04-24 懂频智能科技(上海)有限公司 一种选取特定人脸视频片段替换模板窗口成短视频的方法
CN112203122A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112801861A (zh) * 2021-01-29 2021-05-14 恒安嘉新(北京)科技股份公司 一种影视作品的制作方法、装置、设备及存储介质
CN114005156A (zh) * 2021-10-12 2022-02-01 咪咕文化科技有限公司 人脸替换方法、系统、终端设备及计算机存储介质
CN114398517A (zh) * 2021-12-31 2022-04-26 北京达佳互联信息技术有限公司 视频数据获取方法及装置

Also Published As

Publication number Publication date
CN116320535A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN113378784B (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
CN113613065B (zh) 视频编辑方法、装置、电子设备以及存储介质
US11310559B2 (en) Method and apparatus for recommending video
US11758088B2 (en) Method and apparatus for aligning paragraph and video
CN108776676B (zh) 信息推荐方法、装置、计算机可读介质及电子设备
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN113159010A (zh) 视频分类方法、装置、设备和存储介质
CN112765478B (zh) 用于推荐内容的方法、装置、设备、介质和程序产品
US20180210961A1 (en) Information search method and apparatus
CN113286173A (zh) 一种视频剪辑方法和装置
CN112541125A (zh) 序列标注模型训练方法、装置及电子设备
CN113660541A (zh) 新闻视频的摘要生成方法及装置
CN111984825A (zh) 用于搜索视频的方法和装置
US20200321026A1 (en) Method and apparatus for generating video
CN117851639A (zh) 视频处理方法、装置、电子设备以及存储介质
WO2024099171A1 (zh) 视频生成方法和装置
CN113239215B (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN114186093A (zh) 多媒体数据的处理方法、装置、设备和介质
CN116320535B (zh) 生成视频的方法、装置、电子设备及存储介质
CN112651449A (zh) 确定视频的内容特征的方法、装置、电子设备及存储介质
CN114880520B (zh) 视频标题生成方法、装置、电子设备和介质
CN115169489B (zh) 数据检索方法、装置、设备以及存储介质
CN111368693A (zh) 一种身份证信息的识别方法和装置
CN114885188B (zh) 视频处理方法、装置、设备以及存储介质
CN116866669A (zh) 视频推荐方法、装置及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant