CN112218159B - 多媒体信息播放方法、装置、存储介质及电子装置 - Google Patents
多媒体信息播放方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN112218159B CN112218159B CN202011079542.4A CN202011079542A CN112218159B CN 112218159 B CN112218159 B CN 112218159B CN 202011079542 A CN202011079542 A CN 202011079542A CN 112218159 B CN112218159 B CN 112218159B
- Authority
- CN
- China
- Prior art keywords
- target
- multimedia information
- event
- replaced
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013499 data model Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009191 jumping Effects 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 3
- 241000287828 Gallus gallus Species 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
本发明实施例提供了一种多媒体信息播放方法、装置、存储介质及电子装置,其中,该方法包括:从实时获取的媒体流中确定出预定时长的第一多媒体信息;在确定所述第一多媒体信息中包括目标待替换事件的情况下,将所述目标待替换事件替换为目标事件,以生成第二多媒体信息;播放所述第二多媒体信息。通过本发明,解决了相关技术中存在的无法实时替换播放的多媒体信息中的事件问题,达到了在播放多媒体信息的过程中实时替换多媒体信息中包括的目标待替换事件的效果,提高了多媒体信息的娱乐性,提升了用户体验。
Description
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种多媒体信息播放方法、装置、存储介质及电子装置。
背景技术
在生活中,用户通常通过观看视频、图片等缓解生活压力,提高生活品质。然而,在相关技术中,要实现视频元素替换都是通过特定视频编辑器人工编辑的,无法实现播放过程中进行编辑替换。即,用户观看的视频、图片均是已经制作完成得到文件,无法在用户观看视频或图片等多媒体信息时对多媒体信息中包括的事件进行替换,以提高多媒体信息的娱乐性。
由此可知,相关技术中存在无法实时替换播放的多媒体信息中的事件的问题。
针对相关技术中存在的上述问题,目前尚未提出有效的解决方法。
发明内容
本发明实施例提供了一种多媒体信息播放方法、装置、存储介质及电子装置,以至少解决相关技术中存在的无法实时替换播放的多媒体信息中的事件的问题。
根据本发明的一个实施例,提供了一种多媒体信息播放方法,包括:从实时获取的媒体流中确定出预定时长的第一多媒体信息;在确定所述第一多媒体信息中包括目标待替换事件的情况下,将所述目标待替换事件替换为目标事件,以生成第二多媒体信息;播放所述第二多媒体信息。
根据本发明的另一个实施例,提供了一种多媒体信息播放装置,包括:确定模块,用于从实时获取的媒体流中确定出预定时长的第一多媒体信息;替换模块,用于在确定所述第一多媒体信息中包括目标待替换事件的情况下,将所述目标待替换事件替换为目标事件,以生成第二多媒体信息;播放模块,用于播放所述第二多媒体信息。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,从实时获取的媒体流中确定出预定时长的第一多媒体信息,在确定第一多媒体信息中包括目标待替换事件时,将目标待替换事件替换为目标事件,生成第二多媒体信息,并播放第二多媒体信息。由于可以实时获取第一多媒体信息,对第一多媒体信息中包括的目标待替换事件进行替换,播放替换后的第二多媒体事件,因此,可以解决相关技术中存在的无法实时替换播放的多媒体信息中的事件问题,达到了在播放多媒体信息的过程中实时替换多媒体信息中包括的目标待替换事件的效果,提高了多媒体信息的娱乐性,提升了用户体验。
附图说明
图1是本发明实施例的一种多媒体信息播放方法的移动终端的硬件结构框图;
图2是根据本发明实施例的多媒体信息播放方法的流程图;
图3是根据本发明示例性实施例的使用第一模型分析第一多媒体信息以确定第一多媒体信息中包括的待替换事件类型流程图;
图4是根据本发明示例性实施例的将目标待替换事件替换为目标事件流程图一;
图5是根据本发明示例性实施例的将目标待替换事件替换为目标事件流程图二;
图6是根据本发明示例性实施例的确定第一多媒体信息中包括的与目标待替换事件对应的目标区域流程图;
图7是根据本发明示例性实施例的对目标区域进行抠图处理以去除掉目标区域内的多媒体信息流程图;
图8是根据本发明示例性实施例的贝叶斯算法示意图;
图9是根据本发明具体实施例的多媒体信息播放方法流程图;
图10是根据本发明实施例的多媒体信息播放装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种多媒体信息播放方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的多媒体信息播放方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种多媒体信息播放方法,图2是根据本发明实施例的多媒体信息播放方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,从实时获取的媒体流中确定出预定时长的第一多媒体信息;
步骤S204,在确定所述第一多媒体信息中包括目标待替换事件的情况下,将所述目标待替换事件替换为目标事件,以生成第二多媒体信息;
步骤S206,播放所述第二多媒体信息。
在上述实施例中,多媒体信息可以包括视频、图像、声音等多媒体信息,多媒体信息可以为本地保存的多媒体文件,还可以是从服务器中拉取的多媒体文件。媒体流可以包括视频流、图片流、音频流等。当媒体流为视频流时,可以从媒体流中确定出预定时长的第一多媒体信息,例如,从媒体流中获取3s(该时长仅是一种示例性说明,预定时长可以根据多媒体文件的类型确定,本发明对预定时长不做限制,本领域技术人员还可以对预定时长进行调整,例如,预定时长还可以取2s、5s等)的视频流,即第一多媒体信息,在确定视频流中包括目标待替换事件时,将目标待替换事件替换为目标事件。其中,目标待替换事件可以为视频流中包括的动作,例如,人吃饭、人追人、人跳绳、动物跳跃等动作,相应的目标时间可以为小狗吃骨头、猫捉老鼠、动物跳绳、人跳跃等动作。
在上实施例中,预定时长还可以取一个较小的值,使确定出的第一多媒体信息是一帧图像,则对应的目标待替换事件可以为图像中包括的对象,例如,人、动物、植物等,相应的目标事件也可以为人、动物、植物等。即,可以将第一多媒体信息中包括人脸换成动物的头,或将人体换成动物的身体或换成植物等。
在上述实施例中,将第一多媒体信息中包括的目标待替换事件替换为目标事件后生成的第二多媒体信息可以直接在客户端播放,即可以在客户端观看多媒体信息的过程中,实时完成事件的替换。
示例性的,上述步骤的执行主体可以是后台处理器,或者其他的具备类似处理能力的设备,还可以是至少集成有图像播放设备以及数据处理设备的机器,其中,图像播放设备可以包括显示器等图形采集模块,数据处理设备可以包括计算机、手机等终端,但不限于此。
通过本发明,从实时获取的媒体流中确定出预定时长的第一多媒体信息,在确定第一多媒体信息中包括目标待替换事件时,将目标待替换事件替换为目标事件,生成第二多媒体信息,并播放第二多媒体信息。由于可以实时获取第一多媒体信息,对第一多媒体信息中包括的目标待替换事件进行替换,播放替换后的第二多媒体事件,因此,可以解决相关技术中存在的无法实时替换播放的多媒体信息中的事件问题,达到了在播放多媒体信息的过程中实时替换多媒体信息中包括的目标待替换事件的效果,提高了多媒体信息的娱乐性,提升了用户体验。
在一个示例性实施例中,所述方法还包括:通过如下方式确定所述第一多媒体信息中包括所述目标待替换事件:使用第一模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的待替换事件类型,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:多媒体信息和事件类型;将所述待替换事件类型与场景库中的事件类型相匹配,其中,所述场景库中存储有多类需要替换的事件类型;将与所述场景库中的事件类型匹配成功的待替换事件类型所对应的待替换事件确定为所述目标待替换事件。在本实施例中,可以通过第一模型分析第一多媒体信息,确定第一多媒体信息中包括的待替换事件类型,将待替换事件类型与场景库中的事件类型相匹配,将匹配城中的待替换事件类型所对应的待替换事件确定为目标待替换事件。即,根据第一模型可以确定出第一多媒体信息中包括多个待替换事件类型,如,第一多媒体信息中包括“人吃饭”、“人追人”和“羊吃草”三个类型,可以分别将多个待替换事件类型与场景库中的事件类型相匹配,将匹配成功的待替换事件类型所对应的事件确定为目标待替换事件。例如,将“人吃饭”人追人”和“羊吃草”与场景库中的事件类型相匹配,确定场景库中存在与“人追人”相似的事件,如猫捉老鼠,则将“人追人”确定为目标待替换事件。若“人追人”和“人吃饭”均匹配成功,可以将“人追人”和“人吃饭”均确定为目标待替换事件,也可以根据匹配的效果选择一个事件作为目标待替换事件,例如,将“人追人”替换为“猫捉老鼠”更能体现娱乐效果,则可以选择将“人追人”确定为目标待替换事件。当然,在多个事件匹配成功时,可以随机确定一个目标待替换事件。
在本实施例中,待替换事件类型与场景库中的事件类型匹配时,可能会匹配出多个事件类型,则,可以将匹配度最大的事件类型所对应的事件确定为目标事件。
在本实施例中,第一模型可以为双通道识别算法模型。
在一个示例性实施例中,使用第一模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的待替换事件类型流程图可参见附图3,如图3所示,该流程包括:
步骤S302,使用第一子模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括特征信息,其中,所述第一子模型为使用多组第二训练数据通过机器学习训练出的,所述多组第二训练数据中的每组数据包括:多媒体信息和特征信息;和/或,使用第二子模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的运动信息,其中,所述第二子模型为使用多组第三训练数据通过机器学习训练出的,所述多组第三训练数据中的每组数据包括:多媒体信息和运动信息;
步骤S304,基于所述特征信息和/或所述运动信息确定所述目标待替换事件的待替换事件类型。
在本实施例中,可以将第一多媒体信息划分为空间部分和时间部分,空间部分以视频的单个帧形式存在,带有大量的场景、目标信息,时间部分指视频帧间的运动信息。基本思路是对视频序列中每相邻两帧计算密集光流,得到了视频的光流信息。然后利用视频解码出的帧和由帧提取出的光流,分别训练两路CNN(卷积神经网络)识别模型,利用第一CNN识别模型识别第一多媒体信息中包括的空间部分,确定第一多媒体信息中包括的第一待替换事件类型,利用第二CNN识别模型识别第一多媒体信息中包括的时间部分,确定第一多媒体信息中包括的第二待替换事件类型。最后分别采用基于堆叠的L2规范化的softmax分数和多分类线性SVM融合两路CNN模型的识别结果,确定出待替换事件类型。
在一个示例性实施例中,将所述目标待替换事件替换为目标事件流程图一可参见附图4,如图4所示,该流程包括:
步骤S402,确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域;
步骤S404,将所述目标事件置于所述目标区域的顶层,以覆盖所述目标待替换事件。
在本实施例中,在将目标待替换事件替换为目标时间时,可以直接将目标事件覆盖到目标待替换事件的顶层,操作方便快捷,采用此方法需要新建图层,会占用较大的内存。
在一个示例性实施例中,将所述目标待替换事件替换为目标事件流程图二可参见附图5,如图5所示,该流程包括:
步骤S502,确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域;
步骤S504,对所述目标区域进行抠图处理,以去除掉所述目标区域内的多媒体信息;
步骤S506,将所述目标事件对应的目标多媒体信息嵌入至所述目标区域中,以将所述目标待替换事件替换为所述目标事件。
在本实施例中,还可以通过抠图的方式,将目标事件嵌入到目标区域中,以替换目标待替换事件。采用此方式,无需新建图层,占用的内存小。
在一个示例性实施例中,确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域流程图可参见附图6,如图6所示,该流程包括:
步骤S602,确定所述目标待替换事件所在的第一目标区域;
步骤S604,比对所述第一目标区域的第一参数信息与所述目标多媒体信息的第二参数信息;
将参数信息相似度大于第一阈值的区域确定为目标区域;
对所述目标区域进行抠图处理,以去除掉所述目标区域内的多媒体信息流程图可参见附图7,如图7所示,该流程包括:
步骤S702,将所述目标区域的第三参数信息设置为预定值,以去除掉所述目标区域内的多媒体信息。
在本实施例中,可以在确定目标区域后,将目标区域中的参数信息设置为预定值,以达到抠图的目的。其中,抠图时,可以采用贝叶斯框架的算法,确定第一多媒体信息中的前景区域、背景区域和未知区域:贝叶斯算法可以使用圆形的活动窗口对未知区域像素进行采样,由未知区域边界的像素点开始逐渐向未知区域中心移动,由外到内估计未知区域的像素的颜色,最终将未知区域中的像素分别划分到前景区域或背景区域中。其中,前景区域对应于上述第一目标区域。在确定出第一目标区域后,可以将先把场景识别中得到对应关键帧中需要替换的场景元素进行采样,即,对目标多媒体信息进行采样。然后,将采样的颜色值(对应于上述第二参数信息)与关键帧颜色值(对应于上述第一目标区域的第一参数信息)对比,找出紧密相连的区域(对应于上述目标区域)。在确定出目标区域后,可以将目标区域的第三参数信息设置为预定值,如颜色值设置为0,再设置透明层为100%透明。其中,贝叶斯算法示意图可参见附图8。
在一个示例性实施例中,在将所述目标事件对应的目标多媒体信息嵌入至所述目标区域中,以将所述目标待替换事件替换为所述目标事件之前,所述方法还包括:确定数据模型;基于所述数据模型确定所述目标区域中每个像素点的方差,其中,所述方差包括所述目标区域中每个像素点所在行的第一方差和/或所述目标区域中每个像素点所在列的第二方差;将所述目标区域中每个像素点的参数值设置为基于所述第一多媒体信息中除目标区域之外的区域中的每个像素点的参数信息以及所述目标区域中每个像素点的方差确定的参数值。在本实施例中,在抠图完成后,由于替换的元素与原来的元素肯定有差异,为了让画面效果看起来和谐,可以把抠图后缺的图,通过人工智能填补。具体实现如下:确定目标多媒体信息的数据模型,数据模型具有以下形式:u0|Ω\D=[k*u+n]Ω\D,其中,Ω表示整个图像区,D表示信息丢失区(对应于上述目标区域),Ω\D表示没有丢失信息的区域,即没有进行抠图处理的区域,μ0为Ω\D上可利用的图像部分,μ为需要复原的目标图像,k为系数(k为预设的系数,可以人为调整)。整个公式μ0|Ω\D表示μ0=Ω\D,即可用的图像部分为整体部分与丢失部分的交集,[k*μ+n]Ω\D为系数k乘以丢失的图像加上高斯值n,表示当前的可用图像部分,其可以分成Ω\D个数据。将未知区域分割成已知区域一样的像素点集合,每个像素点乘以一个系数k值加上一个高斯值,就等于已知区域的一个像素点的值,这样就可以反过来算出未知区域的每个像素点与已知像素点的方差。那么关于数据模型的能量函数,常用最小均方误差定义其中λ为拉格朗日乘子,用于求解最优结果,因为公式中存在系数,系数变化时,得到的像素值也会变化,引入拉格朗日乘子后,可以在众多数值中取出一个最贴近原值的值。例如,通过方差计算出来的值是一串数据,如一条曲线,可以通过拉格朗日乘子对曲线做切线,这样就能获取最优值。
由于待修补区域无任何可用的数据,图像模型可以从图像数据中经过滤波、参数或非参数估计,以及嫡方法得到。最后利用颜色渐变来填充。由于还需要用其他元素覆盖,因此,不需要太过复杂算法去真正还原修补区。在将目标除去进行填补后,可以将场景库元素(对应于上面目标事件)嵌入原元素(对应于上述目标待替换事件)的位置,把替换原元素的关键帧输出到显示窗口,当多个关键帧都替换了原元素后,看起来的效果就是替换后的元素组的动作效果。如狗吃骨头在场景库中也是一串按时间戳的动作帧。
在上述实施例中,用户在观看完第二多媒体信息后,还可以另存第二多媒体信息。将第二多媒体信息保存在本地,打开本地的第二多媒体信息即可直接观看替换过目标事件的多媒体信息。
下面结合具体实施方式对多媒体信息播放进行说明:
图9是根据本发明具体实施例的多媒体信息播放方法流程图,如图9所示,该流程包括:
步骤S902,播放视频前开启搞笑视频插件功能。
步骤S904,视频加载。
步骤S906,缓冲。
步骤S908,解码器解码视频。
步骤S910,得到视频关键帧。
步骤S912,获取3秒内的视频,使用双通道识别算法识别视频关键帧。基本原理如下:
视频信息可以被划分为空间部分和时间部分,空间部分以视频的单个帧形式存在,带有大量的场景、目标信息,时间部分指视频帧间的运动信息,基本思路是对视频序列中每相邻两帧计算密集光流,得到了视频的光流信息。然后利用视频解码出的帧和由帧提取出的光流,分别训练两路CNN识别模型。最后分别采用基于堆叠的L2规范化的softmax分数和多分类线性SVM融合两路CNN模型的识别结果。
步骤S914,确定视频动作事件,如吃饭,奔跑,逃亡,追杀等。
步骤S916,根据事件类型与应用中场景库事件进行对比,判断是否存在匹配的事件,如果判断结果为是,则执行步骤S918,如果判断结果为否,则执行步骤S924。
步骤S918,对关键帧进行抠图处理。抠图原理如下:
贝叶斯框架的算法,确定输入图像的前景区域,背景区域和未知区域这三部分之后,贝叶斯算法使用圆形的活动窗口对未知区域像素进行采样,由未知区域边界的像素点开始逐渐向未知区域中心移动,由外到内估计未知区域的像素的颜色,最终将未知区域中的像素分别划分到前景或背景中。先把场景识别中得到对应关键帧中需要替换的场景元素进行采样,然后针对采样的颜色值与关键帧颜色对比,找出紧密相连的区域,然后填充0,再设置透明层为100%透明。
步骤S920,修补关键。帧抠图完成后,由于替换的元素与原来的元素肯定有差异,为了让画面效果看起来和谐,可以把抠图后缺的图,通过人工智能填补。原理如下:
数据模型具有以下形式:u0|Ω\D=[k*u+n]Ω\D,其中,Ω表示整个图像区,D表示信息丢失区,Ω\D表示没有丢失信息的区域,μ0为Ω\D上可利用的图像部分,μ为需要复原的目标图像,k为系数(k为预设的系数,可以人为调整)。n为高斯值,关于数据模型的能量函数,常用最小均方误差定义其中,λ为拉格朗日乘子。由于待修补区域无任何可用的数据,图像模型可以从图像数据中经过滤波、参数或非参数估计以及嫡方法得到。最后利用颜色渐变来填充,由于还需要用其他元素覆盖,因此不需要太过复杂算法去真正还原修补区。
步骤S922,用场景库元素覆盖原元素的位置。把替换原元素的关键帧输出到显示窗口,当多个关键帧都替换了原元素后,看起来的效果就是替换后的元素组的动作效果。如狗吃骨头在场景库中也是一串按时间戳的动作帧。
步骤S924,在显示窗口显示画面。
在前述实施例中,通过提前解码一段视频流,利用视频双通道识别算法识别出动作场景,然后从软件中对应场景元素里找到匹配最高的关联元素,再基于采样抠图方法对每帧画面里匹配场景的人或物进行向量计算,把原画面里的人或物抠掉,然后利用数字图像修复技术补全背景,再把需要替换的元素替换,最后实现了在视频中播放到某些场景时,自动把场景中的某个元素替换或覆盖为其他娱乐元素,提高娱乐氛围。例如:当视频中一个人拿着一个烧鸡在吃的时候,口水掉了,场景则适配到吃,掉口水,则直接从软件场景库里查到这个场景,利用里面的元素如狗替换为人,烧鸡换为骨头的组合。在播放视频过程中,解码后再利用算法进行场景匹配,去掉视屏中原元素,修补,替换新场景元素。整个过程无须人参与,关键在于场景库的多少,能匹配多少个场景库。用户还可以给场景库添加各种场景,观看视频时在匹配的场景中自动替换场景元素,实现娱乐视频的效果,提升用户体验。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种多媒体信息播放装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图10是根据本发明实施例的多媒体信息播放装置的结构框图,如图10所示,该装置包括:
确定模块1002,用于从实时获取的媒体流中确定出预定时长的第一多媒体信息;
替换模块1004,用于在确定所述第一多媒体信息中包括目标待替换事件的情况下,将所述目标待替换事件替换为目标事件,以生成第二多媒体信息;
播放模块1006,用于播放所述第二多媒体信息。
在一个示例性实施例中,所述装置可以用于:通过如下方式确定所述第一多媒体信息中包括所述目标待替换事件:使用第一模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的待替换事件类型,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:多媒体信息和事件类型;将所述待替换事件类型与场景库中的事件类型相匹配,其中,所述场景库中存储有多类需要替换的事件类型;将与所述场景库中的事件类型匹配成功的待替换事件类型所对应的待替换事件确定为所述目标待替换事件。
在一个示例性实施例中,所述装置可以通过如下方式实现使用第一模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的待替换事件类型:使用第一子模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括特征信息,其中,所述第一子模型为使用多组第二训练数据通过机器学习训练出的,所述多组第二训练数据中的每组数据包括:多媒体信息和特征信息;和/或,使用第二子模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的运动信息,其中,所述第二子模型为使用多组第三训练数据通过机器学习训练出的,所述多组第三训练数据中的每组数据包括:多媒体信息和运动信息;基于所述特征信息和/或所述运动信息确定所述目标待替换事件的待替换事件类型。
在一个示例性实施例中,所述替换模块可以通过如下方式实现将所述目标待替换事件替换为目标事件:确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域;将所述目标事件置于所述目标区域的顶层,以覆盖所述目标待替换事件。
在一个示例性实施例中,所述替换模块还可以通过如下方式实现将所述目标待替换事件替换为目标事件:确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域;对所述目标区域进行抠图处理,以去除掉所述目标区域内的多媒体信息;将所述目标事件对应的目标多媒体信息嵌入至所述目标区域中,以将所述目标待替换事件替换为所述目标事件。
在一个示例性实施例中,所述替换模块可以通过如下方式实现确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域:确定所述目标待替换事件所在的第一目标区域;比对所述第一目标区域的第一参数信息与所述目标多媒体信息的第二参数信息;将参数信息相似度大于第一阈值的区域确定为目标区域;所述替换模块通过如下方式实现对所述目标区域进行抠图处理,以去除掉所述目标区域内的多媒体信息:将所述目标区域的第三参数信息设置为预定值,以去除掉所述目标区域内的多媒体信息。
在一个示例性实施例中,所述装置还可以用于在将所述目标事件对应的目标多媒体信息嵌入至所述目标区域中,以将所述目标待替换事件替换为所述目标事件之前:确定数据模型;基于所述数据模型确定所述目标区域中每个像素点的方差,其中,所述方差包括所述目标区域中每个像素点所在行的第一方差和/或所述目标区域中每个像素点所在列的第二方差;将所述目标区域中每个像素点的参数值设置为基于所述第一多媒体信息中除目标区域之外的区域中的每个像素点的参数信息以及所述目标区域中每个像素点的方差确定的参数值。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种多媒体信息播放方法,其特征在于,包括:
从实时获取的媒体流中确定出预定时长的第一多媒体信息;
在确定所述第一多媒体信息中包括目标待替换事件的情况下,将所述目标待替换事件替换为目标事件,以生成第二多媒体信息;
播放所述第二多媒体信息;
将所述目标待替换事件替换为目标事件还包括:确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域;对所述目标区域进行抠图处理,以去除掉所述目标区域内的多媒体信息;将所述目标事件对应的目标多媒体信息嵌入至所述目标区域中,以将所述目标待替换事件替换为所述目标事件;
在将所述目标事件对应的目标多媒体信息嵌入至所述目标区域中,以将所述目标待替换事件替换为所述目标事件之前,所述方法还包括:确定数据模型;基于所述数据模型确定所述目标区域中每个像素点的方差,其中,所述方差包括所述目标区域中每个像素点所在行的第一方差和/或所述目标区域中每个像素点所在列的第二方差;将所述目标区域中每个像素点的参数值设置为基于所述第一多媒体信息中除目标区域之外的区域中的每个像素点的参数信息以及所述目标区域中每个像素点的方差确定的参数值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过如下方式确定所述第一多媒体信息中包括所述目标待替换事件:
使用第一模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的待替换事件类型,其中,所述第一模型为使用多组第一训练数据通过机器学习训练出的,所述多组第一训练数据中的每组数据包括:多媒体信息和事件类型;
将所述待替换事件类型与场景库中的事件类型相匹配,其中,所述场景库中存储有多类需要替换的事件类型;
将与所述场景库中的事件类型匹配成功的待替换事件类型所对应的待替换事件确定为所述目标待替换事件。
3.根据权利要求2所述的方法,其特征在于,使用第一模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的待替换事件类型包括:
使用第一子模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括特征信息,其中,所述第一子模型为使用多组第二训练数据通过机器学习训练出的,所述多组第二训练数据中的每组数据包括:多媒体信息和特征信息;和/或,使用第二子模型分析所述第一多媒体信息,以确定所述第一多媒体信息中包括的运动信息,其中,所述第二子模型为使用多组第三训练数据通过机器学习训练出的,所述多组第三训练数据中的每组数据包括:多媒体信息和运动信息;
基于所述特征信息和/或所述运动信息确定所述目标待替换事件的待替换事件类型。
4.根据权利要求1所述的方法,其特征在于,将所述目标待替换事件替换为目标事件包括:
确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域;
将所述目标事件置于所述目标区域的顶层,以覆盖所述目标待替换事件。
5.根据权利要求1所述的方法,其特征在于,
确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域包括:确定所述目标待替换事件所在的第一目标区域;比对所述第一目标区域的第一参数信息与所述目标多媒体信息的第二参数信息;将参数信息相似度大于第一阈值的区域确定为目标区域;
对所述目标区域进行抠图处理,以去除掉所述目标区域内的多媒体信息包括:将所述目标区域的第三参数信息设置为预定值,以去除掉所述目标区域内的多媒体信息。
6.一种多媒体信息播放装置,其特征在于,包括:
确定模块,用于从实时获取的媒体流中确定出预定时长的第一多媒体信息;
替换模块,用于在确定所述第一多媒体信息中包括目标待替换事件的情况下,将所述目标待替换事件替换为目标事件,以生成第二多媒体信息;
播放模块,用于播放所述第二多媒体信息;
所述替换模块通过如下方式实现将所述目标待替换事件替换为目标事件:确定所述第一多媒体信息中包括的与所述目标待替换事件对应的目标区域;对所述目标区域进行抠图处理,以去除掉所述目标区域内的多媒体信息;将所述目标事件对应的目标多媒体信息嵌入至所述目标区域中,以将所述目标待替换事件替换为所述目标事件;
所述装置还用于在将所述目标事件对应的目标多媒体信息嵌入至所述目标区域中,以将所述目标待替换事件替换为所述目标事件之前,确定数据模型;基于所述数据模型确定所述目标区域中每个像素点的方差,其中,所述方差包括所述目标区域中每个像素点所在行的第一方差和/或所述目标区域中每个像素点所在列的第二方差;将所述目标区域中每个像素点的参数值设置为基于所述第一多媒体信息中除目标区域之外的区域中的每个像素点的参数信息以及所述目标区域中每个像素点的方差确定的参数值。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011079542.4A CN112218159B (zh) | 2020-10-10 | 2020-10-10 | 多媒体信息播放方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011079542.4A CN112218159B (zh) | 2020-10-10 | 2020-10-10 | 多媒体信息播放方法、装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112218159A CN112218159A (zh) | 2021-01-12 |
CN112218159B true CN112218159B (zh) | 2022-09-06 |
Family
ID=74053121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011079542.4A Active CN112218159B (zh) | 2020-10-10 | 2020-10-10 | 多媒体信息播放方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112218159B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884664B (zh) * | 2021-01-22 | 2024-03-29 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN112791399B (zh) * | 2021-02-08 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 云游戏画面的显示方法及装置、系统、介质、电子设备 |
CN114449355B (zh) * | 2022-01-24 | 2023-06-20 | 腾讯科技(深圳)有限公司 | 一种直播互动的方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104901939B (zh) * | 2014-12-30 | 2019-01-08 | 腾讯科技(北京)有限公司 | 多媒体文件播放方法和终端及服务器 |
US9232190B1 (en) * | 2015-04-01 | 2016-01-05 | Ringcentral, Inc. | Systems and methods for managing multimedia conference calls |
CN110099298B (zh) * | 2018-01-29 | 2022-12-30 | 北京三星通信技术研究有限公司 | 多媒体内容处理方法及终端设备 |
-
2020
- 2020-10-10 CN CN202011079542.4A patent/CN112218159B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112218159A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112218159B (zh) | 多媒体信息播放方法、装置、存储介质及电子装置 | |
CN110166827B (zh) | 视频片段的确定方法、装置、存储介质及电子装置 | |
CN109145784B (zh) | 用于处理视频的方法和装置 | |
US11308993B2 (en) | Short video synthesis method and apparatus, and device and storage medium | |
CN111988638B (zh) | 一种拼接视频的获取方法、装置、电子设备和存储介质 | |
CN108718417B (zh) | 直播间预览图标的生成方法、装置、服务器及存储介质 | |
CN107707931B (zh) | 根据视频数据生成解释数据、数据合成方法及装置、电子设备 | |
CN110602554A (zh) | 封面图像确定方法、装置及设备 | |
CN106797498A (zh) | 信息处理设备、信息处理方法和程序 | |
CN111401100B (zh) | 视频质量评估方法、装置、设备及存储介质 | |
CN111739027A (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN107730461A (zh) | 图像处理方法、装置、设备及介质 | |
CN111444822B (zh) | 对象识别方法和装置、存储介质和电子装置 | |
CN111432206A (zh) | 基于人工智能的视频清晰度处理方法、装置及电子设备 | |
US9185419B2 (en) | Method and device for coding a sequence of images | |
CN113313065A (zh) | 一种视频处理方法、装置、电子设备和可读存储介质 | |
US11095901B2 (en) | Object manipulation video conference compression | |
CN114222077A (zh) | 视频处理方法、装置、存储介质及电子设备 | |
CN110691246A (zh) | 视频编码方法、装置及电子设备 | |
KR101163774B1 (ko) | 비디오 압축용 장치 및 프로세스 | |
CN117750158A (zh) | 视频封面选择方法、装置、计算机设备及存储介质 | |
CN112837350A (zh) | 目标运动对象识别方法、装置、电子设备及存储介质 | |
CN111954082B (zh) | 蒙版文件结构、蒙版文件的读取方法、计算机设备及可读存储介质 | |
CN113472834A (zh) | 一种对象推送方法及设备 | |
CN115243073A (zh) | 一种视频处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |