CN117560549A - 视频播放方法、装置、存储介质、电子设备及计算机程序产品 - Google Patents

视频播放方法、装置、存储介质、电子设备及计算机程序产品 Download PDF

Info

Publication number
CN117560549A
CN117560549A CN202311544152.3A CN202311544152A CN117560549A CN 117560549 A CN117560549 A CN 117560549A CN 202311544152 A CN202311544152 A CN 202311544152A CN 117560549 A CN117560549 A CN 117560549A
Authority
CN
China
Prior art keywords
video
format
target
video format
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311544152.3A
Other languages
English (en)
Inventor
马文泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202311544152.3A priority Critical patent/CN117560549A/zh
Publication of CN117560549A publication Critical patent/CN117560549A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频播放方法、装置、存储介质、电子设备及计算机程序产品,该方法包括:获取针对目标视频的视频播放指令;根据视频播放指令,利用已训练的视频格式识别模型确定目标视频的目标视频格式,视频格式识别模型是利用视频样本集、以及视频样本集中每个视频样本对应的视频格式标签训练得到;根据目标视频格式确定目标视频的播放模式;以该播放模式播放所述目标视频,从而能通过深度学习模型实现对各种视频格式的正确识别,识别精准度高,适用范围广,且能自动选取合适的视频播放模式,无需用户手动进行模式选择和切换,视频播放效果好,用户体验高。

Description

视频播放方法、装置、存储介质、电子设备及计算机程序产品
技术领域
本申请属于视频处理技术领域,尤其涉及一种视频播放方法、装置、存储介质、电子设备及计算机程序产品。
背景技术
随着显示设备的发展,当前市面上的视频播放器支持的视频格式越来越多,视频格式实质上体现了视频编码方式,视频播放器播放视频的方式取决于视频格式。
目前,常见的视频格式包括AVI、3GP、RM(RMVB)、WMV、FLV(F4V)、蓝光(Blu-ray)BD、MKV、VR180、VR360等,VR180和VR360格式是最常见的两种VR视频格式。VR180通常是指180度的全景视角,观众只需向左或向右转动头部即可观察到视频中的内容。而VR360则是指360度全景视角,可以让观众在所有方向上观看视频内容。不同视频格式的视频对应不同的解码方式、以及播放方式,比如对于MKV格式的视频,可以采用2D播放模式进行视频播放,对于VR180格式的视频,采用VR播放模式进行视频播放。现有的视频格式识别技术大多是基于对视频文件扩展名的分析来实现,例如,常见的VR视频格式(如VR180和VR360)的视频,可能使用特定的标识(如VR180、VR360)作为文件扩展名。
但是,由于用户可以随意更改文件扩展名或某些视频格式可能使用相同的扩展名,故现有视频格式识别技术容易导致视频格式的误识别,识别精准度较低,误差较大,进而不利于采用正确的播放模式播放视频,比如将VR视频以2D的表现形式播放。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种视频播放方法、装置、存储介质、电子设备及计算机程序产品,能通过深度学习模型实现对各种视频格式的正确识别,识别精准度高。
第一方面,本申请提供了一种视频播放方法,包括:
获取针对目标视频的视频播放指令;
根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式,所述视频格式识别模型是利用视频样本集、以及所述视频样本集中每个视频样本对应的视频格式标签训练得到;
根据所述目标视频格式确定所述目标视频的播放模式;
以所述播放模式播放所述目标视频。
在一些实施例中,所述利用已训练的视频格式识别模型确定所述目标视频的目标视频格式,包括:
从当前的所述目标视频中选取一张视频帧,作为第一关键视频帧;
利用已训练的视频格式识别模型对所述第一关键视频帧进行预测,得到第一预测视频格式、以及所述第一预测视频格式对应的第一预测值;
当所述第一预测值大于或等于预设阈值,或者已预测次数到达预设次数时,将所述第一预测视频格式作为所述目标视频的目标视频格式;
当所述第一预测值小于所述预设阈值,且已预测次数小于所述预设次数时,将除所述第一关键视频帧之外的所述目标视频作为当前的所述目标视频,并返回执行所述从当前的所述目标视频中选取一张视频帧的步骤。
在一些实施例中,在根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式之前,所述视频播放方法还包括:
获取已创建的视频预识别文件,所述视频预识别文件包括至少一个已存储视频的第二预测视频格式、以及所述第二预测视频格式对应的第二预测值,所述第二预测视频格式和所述第二预测值是在所述已存储视频存储时对所述已存储视频预测得到;
判断所述视频预识别文件中是否存在所述目标视频的所述第二预测值,且所述目标视频的所述第二预测值大于或等于预设阈值;
若是,则将相应的所述第二预测视频格式作为所述目标视频的目标视频格式;
若否,则执行所述根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式的操作。
在一些实施例中,所述视频播放方法还包括:
当检测到针对至少一个视频的存储操作时,从存储的所述视频中提取第二关键视频帧;
利用所述视频格式识别模型对所述第二关键视频帧进行预测,得到相应视频的所述第二预测视频格式和所述第二预测值;
根据每个所述视频的所述第二预测视频格式和所述第二预测值,创建所述视频预识别文件。
在一些实施例中,所述视频格式识别模型部署于视频播放应用和文件管理应用中,所述利用所述视频格式识别模型对所述第二关键视频帧进行预测,包括:
通过所述文件管理应用中的所述视频格式识别模型,对所述第二关键视频帧进行预测;
所述根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式的操作,包括:
根据所述视频播放指令,通过所述视频播放应用中的所述视频格式识别模型确定所述目标视频的目标视频格式。
在一些实施例中,所述根据每个所述视频的所述第二预测视频格式和所述第二预测值,创建所述视频预识别文件,包括:
获取每个所述视频的存储地址;
将所述第二预测视频格式和所述第二预测值,与相应视频的所述存储地址关联存储在所述视频预识别文件中,以创建所述视频预识别文件;
所述判断所述视频预识别文件中是否存在所述目标视频的所述第二预测值,包括:根据所述目标视频的存储地址,判断所述视频预识别文件中是否存在所述目标视频的所述第二预测值。
在一些实施例中,所述视频格式识别模型的训练步骤包括:
获取视频样本集以及视频格式标签集,所述视频样本集中的视频样本和所述视频格式标签集中的视频格式标签一一对应,且所述视频样本集包括训练样本集和验证样本集;
利用所述训练样本集和相应的所述视频格式标签,对所述视频格式识别模型进行训练,且在训练过程中,利用所述验证样本集和相应的所述视频格式标签,对所述视频格式识别模型进行验证。
在一些实施例中,所述视频格式识别模型是基于Tensorflow框架或者pytorch框架构建的深度学习模型。
第二方面,本申请提供了一种视频播放装置,包括:
获取模块,用于获取针对目标视频的视频播放指令;
第一确定模块,用于根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式,所述视频格式识别模型是利用视频样本集、以及所述视频样本集中每个视频样本对应的视频格式标签训练得到;
第二确定模块,用于根据所述目标视频格式确定所述目标视频的播放模式;
播放模块,用于以所述播放模式播放所述目标视频。
在一些实施例中,所述第一确定模块具体用于:
从当前的所述目标视频中选取一张视频帧,作为第一关键视频帧;
利用已训练的视频格式识别模型对所述第一关键视频帧进行预测,得到第一预测视频格式、以及所述第一预测视频格式对应的第一预测值;
当所述第一预测值大于或等于预设阈值,或者已预测次数到达预设次数时,将所述第一预测视频格式作为所述目标视频的目标视频格式;
当所述第一预测值小于所述预设阈值,且已预测次数小于所述预设次数时,将除所述第一关键视频帧之外的所述目标视频作为当前的所述目标视频,并返回执行所述从当前的所述目标视频中选取一张视频帧的步骤。
在一些实施例中,在根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式之前,所述第一确定模块还用于:
获取已创建的视频预识别文件,所述视频预识别文件包括至少一个已存储视频的第二预测视频格式、以及所述第二预测视频格式对应的第二预测值,所述第二预测视频格式和所述第二预测值是在所述已存储视频存储时对所述已存储视频预测得到;
判断所述视频预识别文件中是否存在所述目标视频的所述第二预测值,且所述目标视频的所述第二预测值大于或等于预设阈值;
若是,则将相应的所述第二预测视频格式作为所述目标视频的目标视频格式;
若否,则执行所述根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式的操作。
在一些实施例中,所述视频播放装置还包括创建模块,用于:
当检测到针对至少一个视频的存储操作时,从存储的所述视频中提取第二关键视频帧;
利用所述视频格式识别模型对所述第二关键视频帧进行预测,得到相应视频的所述第二预测视频格式和所述第二预测值;
根据每个所述视频的所述第二预测视频格式和所述第二预测值,创建所述视频预识别文件。
在一些实施例中,所述视频格式识别模型部署于视频播放应用和文件管理应用中,所述创建模块具体用于:
通过所述文件管理应用中的所述视频格式识别模型,对所述第二关键视频帧进行预测;
所述第一确定模块具体用于:根据所述视频播放指令,通过所述视频播放应用中的所述视频格式识别模型确定所述目标视频的目标视频格式。
在一些实施例中,所述创建模块具体用于:
获取每个所述视频的存储地址;
将所述第二预测视频格式和所述第二预测值,与相应视频的所述存储地址关联存储在所述视频预识别文件中,以创建所述视频预识别文件;
所述第一确定模块具体用于:根据所述目标视频的存储地址,判断所述视频预识别文件中是否存在所述目标视频的所述第二预测值。
在一些实施例中,还包括训练模块,用于:
获取视频样本集以及视频格式标签集,所述视频样本集中的视频样本和所述视频格式标签集中的视频格式标签一一对应,且所述视频样本集包括训练样本集和验证样本集;
利用所述训练样本集和相应的所述视频格式标签,对所述视频格式识别模型进行训练,且在训练过程中,利用所述验证样本集和相应的所述视频格式标签,对所述视频格式识别模型进行验证。
在一些实施例中,所述视频格式识别模型是基于Tensorflow框架或者pytorch框架构建的深度学习模型。
第三方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的视频播放方法。
第四方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述任一项所述的视频播放方法。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的视频播放方法。
本申请实施例提供的视频播放方法、装置、存储介质、电子设备和计算机程序产品,通过获取针对目标视频的视频播放指令;根据视频播放指令,利用已训练的视频格式识别模型确定目标视频的目标视频格式,视频格式识别模型是利用视频样本集、以及视频样本集中每个视频样本对应的视频格式标签训练得到;根据目标视频格式确定目标视频的播放模式;以该播放模式播放所述目标视频,从而能通过深度学习模型实现对各种视频格式的正确识别,识别精准度高,适用范围广,且能自动选取合适的视频播放模式,无需用户手动进行模式选择和切换,视频播放效果好,用户体验高。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例提供的视频播放方法的流程示意图;
图2是本申请实施例提供的视频播放方法的另一流程示意图;
图3是本申请实施例提供的目标视频的播放场景示意图;
图4是本申请实施例提供的视频播放装置的结构示意图;
图5是本申请实施例提供的视频播放装置的另一结构示意图;
图6是本申请实施例提供的电子设备的结构示意图;
图7是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
虚拟现实(Virtual Reality,VR),顾名思义,就是虚拟和现实相互结合。从理论上来讲,虚拟现实技术(VR)是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,使用户沉浸到该环境中。虚拟现实技术就是利用现实生活中的数据,通过计算机技术产生的电子信号,将其与各种输出设备结合使其转化为能够让人们感受到的现象,这些现象可以是现实中真真切切的物体,也可以是我们肉眼所看不到的物质,通过三维模型表现出来。因为这些现象不是我们直接所能看到的,而是通过计算机技术模拟出来的现实中的世界,故称为虚拟现实。
本申请实施例提供了一种视频播放方法、装置、存储介质、电子设备及计算机程序产品。
请参见图1,图1是本申请实施例提供的视频播放方法的流程示意图。该视频播放方法应用于电子设备中,该电子设备可以实施为支持VR视频播放功能的用户终端或服务器,该用户终端包括VR设备、笔记本电脑、平板电脑、台式计算机、机顶盒、移动设备(例如移动电话、个人数字助理、专用消息设备、便携式游戏设备)等。具体的,该视频播放方法包括以下步骤101-104,其中:
101.获取针对目标视频的视频播放指令。
其中,目标视频通常是存储在电子设备中的本地视频,视频播放指令可以是用户手动触发生成的,比如,用户可以通过安装在电子设备中的文件管理应用或视频播放应用找到该目标视频,并通过右键菜单选项选中播放功能来触发生成该视频播放指令。或者,视频播放指令也可以是系统自动触发生成的,比如用户提前为目标视频设定一个播放时间,到达该播放时间则自动触发生成该视频播放指令。
102.根据该视频播放指令,利用已训练的视频格式识别模型确定该目标视频的目标视频格式,该视频格式识别模型是利用视频样本集、以及该视频样本集中每个视频样本对应的视频格式标签训练得到。
其中,视频格式识别模型是部署在电子设备中的轻量级深度学习模型,其可以通过海量视频样本训练得到,主要用于识别视频的视频格式。视频格式实质上体现了视频的编码方式,目前常见的视频格式包括AVI、3GP、RM(RMVB)、WMV、FLV(F4V)、蓝光(Blu-ray)BD、MKV、VR180、VR360等,VR180通常指180度的全景视角,观众只需向左或向右转动头部即可观察到视频中的内容。而VR360则是指360度全景视角,可以让观众在所有方向上观看视频内容。视频格式决定了视频的播放方式,不同的播放方式可能需要调用不同的硬件来实现播放,比如以VR播放模式进行播放时,需要借助VR眼镜。
在一些实施例中,请参见图2,图2是本申请实施例提供的视频播放方法的另一流程示意图,上述步骤102具体可以包括:
1021.从当前的该目标视频中选取一张视频帧,作为第一关键视频帧;
1022.利用已训练的视频格式识别模型对该第一关键视频帧进行预测,得到第一预测视频格式、以及该第一预测视频格式对应的第一预测值;
1023.当该第一预测值大于或等于预设阈值,或者已预测次数到达预设次数时,将该第一预测视频格式作为该目标视频的目标视频格式;
1024.当该第一预测值小于该预设阈值,且已预测次数小于该预设次数时,将除该第一关键视频帧之外的该目标视频作为当前的该目标视频,并返回执行该从当前的该目标视频中选取一张视频帧的步骤。
其中,预设阈值和预设次数可以人为设定,比如预设阈值为0.95,预设次数为10次。视频格式识别模型可以对目标视频进行至少一次预测识别,每次只从目标视频中选取一张视频帧(第一关键视频帧)进行预测识别。通常,对于每次预测识别,视频格式识别模型能识别出目标视频针对各个已知视频格式的预测概率,其只需输出最大预测概率对应的已知视频格式(也即上述第一预测视频格式)及实际概率值(也即上述第一预测值)即可。
视频格式识别模型的实际预测次数取决于每次预测得到的第一预测值,比如若视频格式识别模型对首张第一关键视频帧预测的第一预测值(例如0.97)大于或等于预设阈值,则直接结束整个预测识别操作,且将首张第一关键视频帧的第一预测视频格式作为整个目标视频的目标视频格式,若小于预设阈值,则从目标视频中选取下一张第一关键视频帧进行下一次预测,直至第一预测值大于或等于预设阈值,或者已预测次数达到预设次数时结束整个预测识别操作。具体的,首张第一关键视频帧可以由用户指定,考虑到部分视频的前后部分可能存在无效视频帧,比如前5张视频帧为黑屏视频帧,故首张第一关键视频帧可以是非首张视频帧,比如指定第10张视频帧为选取的首张第一关键视频帧。除首张第一关键视频帧之外,其它的第一关键视频帧可以根据提前设定好的选取规则来选取,比如从首张第一关键视频帧开始,以固定的间隔帧数(例如间隔4帧)依次进行视频帧采集,每次只采集一张视频帧作为下一次的第一关键视频帧,或者,从首张第一关键视频帧开始,以一定的采样间隔时长(比如4s)依次进行视频帧采样,固定采样间隔时长可以根据整体时长和默认的最大采样次数来计算出。
在一些实施例中,请继续参见图2,在上述步骤102之前,该视频播放方法还可以包括以下步骤1051-1053,其中:
1051.获取已创建的视频预识别文件,该视频预识别文件包括至少一个已存储视频的第二预测视频格式、以及该第二预测视频格式对应的第二预测值,该第二预测视频格式和该第二预测值是在该已存储视频存储时对该已存储视频预测得到;
1052.判断该视频预识别文件中是否存在该目标视频的该第二预测值,且该目标视频的该第二预测值大于或等于预设阈值;
1053.若是,则将相应的该第二预测视频格式作为该目标视频的目标视频格式;若否,则执行上述步骤102。
其中,第二预测视频格式和第二预测值是将视频存储到本地数据库时预测得到的,第一预测视频格式和第一预测值是播放视频时预测得到的。本地数据库中所有已存储视频的预测识别结果,都可以存储在同一个视频预识别文件中,后续当需要播放该视频时,可以先查看视频预识别文件中的识别结果,再决定是否需要重新进行预测识别,比如若视频识别文件中目标视频的第二预测值大于或等于预设阈值(例如0.95),则可以直接将视频预识别文件中的第二预测视频格式作为最终的目标视频格式,后续基于该目标视频格式选取合适的播放模式进行播放,以缩短播放的准备时长,提高整个播放效率,反之,重新对目标视频进行视频格式的预测识别。
在一些实施例中,第一预测视频格式和第二预测视频格式可以采用相同的学习模型进行预测,也可以采用不同的学习模型进行预测,当采用相同的学习模型进行预测时,该视频播放方法还可以包括:
当检测到针对至少一个视频的存储操作时,从存储的该视频中提取第二关键视频帧;
利用该视频格式识别模型对该第二关键视频帧进行预测,得到相应视频的该第二预测视频格式和该第二预测值;
根据每个视频的该第二预测视频格式和该第二预测值,创建该视频预识别文件。
其中,当在本地数据库中存储任一视频时,可以通过视频格式识别模型对其进行预测识别,并在视频识别文件中存储相关的识别结果。容易理解的是,第一预测视频格式和第二预测视频格式应当是针对目标视频中不同的关键视频帧预测识别得到的,也即第一关键视频帧和第二关键视频帧并不是相同的视频帧,且为避免影响视频的存储操作,占用过多的CPU资源,在存储视频时,可以只进行一次预测识别,得到一个初步的识别结果即可。
在一些实施例中,上述步骤“根据每个视频的该第二预测视频格式和该第二预测值,创建该视频预识别文件”,具体可以包括:
获取每个视频的存储地址;
将该第二预测视频格式和该第二预测值,与相应视频的该存储地址关联存储在该视频预识别文件中,以创建该视频预识别文件;
该判断该视频预识别文件中是否存在该目标视频的该第二预测值,包括:根据该目标视频的存储地址,判断该视频预识别文件中是否存在该目标视频的该第二预测值。
其中,视频预识别文件中关联存储的是每个视频的存储地址和识别结果,后续当需要播放视频时,直接根据该播放视频的存储地址在视频预识别文件中匹配对应的识别结果即可。视频预识别文件中的数据可以表现为json数组的形式,数组中元素的个数等于存储视频的个数,数组中的单个元素包括单个存储视频的存储地址、第二预测视频格式和第二预测值,例如,某个元素为{
"fi lename":"/sdcard/videoOne.mp4",
"videoType":"VR180",
"probability":0.95
},
其中,filename代表视频的存储地址(文件路径),videoType代表上述第二预测视频格式,通常用数字表示,这里为了比较清晰的表达,写作明文。probability代表上述第二预测值,也就是说此视频为VideoType所代表的视频格式的概率是多少,通常范围在0-1之间,1为最高概率100%,0为最低概率0%。
需要指出的是,本实施例中的视频格式识别模型通常是部署在电子设备的应用程序中的,比如,该视频格式识别模型可以部署于视频播放应用和文件管理应用中,文件管理应用主要用于管理电子设备中本地数据库的数据,比如在本地数据库中存储视频,或者从本地数据库中删除视频,视频播放应用中可以封装有各种已知视频格式对应的功能驱动,以提供各种已知视频格式的视频播放功能。
此时,上述步骤“利用该视频格式识别模型对该第二关键视频帧进行预测”,具体可以包括:
通过该文件管理应用中的该视频格式识别模型,对该第二关键视频帧进行预测;
与此同时,上述步骤102具体可以包括:
根据该视频播放指令,通过该视频播放应用中的该视频格式识别模型确定该目标视频的目标视频格式。
也即,当用户通过文件管理应用在本地数据库中导入任一视频时,在导入过程中,文件管理应用可以利用自身内置的视频格式识别模型对该视频的视频格式进行一个初步的预测识别,并将识别结果存储在视频预识别文件中,后续当用户通过视频播放应用播放该视频时,若视频预识别文件中该视频的识别结果的第二预测值小于预设阈值,则视频播放应用可以利用自身内置的视频格式识别模型对该视频的视频格式再次进行预测识别,以得到比较准确的识别结果,而若视频预识别文件中该视频的识别结果的第二预测值大于或等于预设阈值,则视频播放应用无需再次进行预测识别。
需要说明的是,该视频格式识别模型应当提前训练好,且该训练过程可以由本电子设备执行,也可以由其它电子设备执行,此处不做限制。
例如,该视频格式识别模型的训练步骤具体可以包括:
获取视频样本集以及视频格式标签集,该视频样本集中的视频样本和该视频格式标签集中的视频格式标签一一对应,且该视频样本集包括训练样本集和验证样本集;
利用该训练样本集和相应的该视频格式标签,对该视频格式识别模型进行训练,且在训练过程中,利用该验证样本集和相应的该视频格式标签,对该视频格式识别模型进行验证。
其中,用户可以收集具有不同视频格式的视频样本集。确保视频样本集包含各种视频格式的样本,以便模型能够学习不同格式的特征,同时,将视频样本集分为训练样本集和验证样本集,用于训练和评估模型。
需要指出的是,在利用训练样本集训练模型之前,还需对训练样本集进行数据预处理,这可能包括调整训练样本的大小和分辨率,进行帧采样和剪辑,以及将训练样本转换为适当的格式,确保所有训练样本具有一致的输入格式,并在预处理过程中保持数据的一致性。
此外,在一些实施例中,该视频格式识别模型可以是基于Tensorflow框架或者pytorch框架构建的深度学习模型,例如MNN模型(一个轻量级的深度学习端侧推理引擎),Tensorflow框架和pytorch框架都提供了强大的工具和库,用于构建和训练深度学习模型。当视频格式识别模型训练完成后,可以将模型保存为MNN框架支持的文件,例如.pb,.pbtxt,.ckpt等,之后再将其部署到视频播放应用和文件管理应用中,以供它们使用。
103.根据该目标视频格式确定该目标视频的播放模式。
其中,可以提前设定各种已知的视频格式和相应播放模式之间的关联关系,后续基于该关联关系匹配目标视频格式对应的播放模式即可。播放模式可以包括2D播放模式和VR播放模式,2D播放模式可以基于电子设备中已有的现有硬件来实现播放,VR播放模式需要借助VR眼镜来实现播放。
104.以该播放模式播放该目标视频。
其中,不同的播放模式,可能需要通过不同的功能驱动来调用相应硬件执行播放功能,该硬件可以是内置于电子设备中的硬件,比如扬声器、显示屏,也可以是通过外设方式与电子设备通信连接的硬件,比如VR眼镜。例如,请参见图3,图3是本申请实施例提供的目标视频的播放场景示意图,若目标视频通过电子设备中部署的文件管理应用或者视频播放应用识别出最终的目标视频格式为VR180格式时,也即该目标视频为VR视频时,对应的播放模式即为VR播放模式,此时,视频播放应用需调用VR眼镜进行VR视频(目标视频)的播放。
由上述可知,本申请实施例提供的视频播放方法,通过获取针对目标视频的视频播放指令;根据视频播放指令,利用已训练的视频格式识别模型确定目标视频的目标视频格式,视频格式识别模型是利用视频样本集、以及视频样本集中每个视频样本对应的视频格式标签训练得到;根据目标视频格式确定目标视频的播放模式;以该播放模式播放该目标视频,从而能通过深度学习模型实现对各种视频格式的正确识别,识别精准度高,适用范围广,且能自动选取合适的视频播放模式,无需用户手动进行模式选择和切换,视频播放效果好,用户体验高。
根据上述实施例描述的方法,本申请实施例还提供了一种视频播放装置,用于执行上述视频播放方法中的步骤。请参见图4,图4是本申请实施例提供的视频播放装置200的结构示意图。该视频播放装置200应用于电子设备中,包括获取模块201、第一确定模块202、第二确定模块203和播放模块204,其中:
获取模块201,用于获取针对目标视频的视频播放指令;
第一确定模块202,用于根据该视频播放指令,利用已训练的视频格式识别模型确定该目标视频的目标视频格式,该视频格式识别模型是利用视频样本集、以及该视频样本集中每个视频样本对应的视频格式标签训练得到;
第二确定模块203,用于根据该目标视频格式确定该目标视频的播放模式;
播放模块204,用于以该播放模式播放该目标视频。
在一些实施例中,该第一确定模块202具体用于:
从当前的该目标视频中选取一张视频帧,作为第一关键视频帧;
利用已训练的视频格式识别模型对该第一关键视频帧进行预测,得到第一预测视频格式、以及该第一预测视频格式对应的第一预测值;
当该第一预测值大于或等于预设阈值,或者已预测次数到达预设次数时,将该第一预测视频格式作为该目标视频的目标视频格式;
当该第一预测值小于该预设阈值,且已预测次数小于该预设次数时,将除该第一关键视频帧之外的该目标视频作为当前的该目标视频,并返回执行该从当前的该目标视频中选取一张视频帧的步骤。
在一些实施例中,在根据该视频播放指令,利用已训练的视频格式识别模型确定该目标视频的目标视频格式之前,该第一确定模块202还用于:
获取已创建的视频预识别文件,该视频预识别文件包括至少一个已存储视频的第二预测视频格式、以及该第二预测视频格式对应的第二预测值,该第二预测视频格式和该第二预测值是在该已存储视频存储时对该已存储视频预测得到;
判断该视频预识别文件中是否存在该目标视频的该第二预测值,且该目标视频的该第二预测值大于或等于预设阈值;
若是,则将相应的该第二预测视频格式作为该目标视频的目标视频格式;
若否,则执行该根据该视频播放指令,利用已训练的视频格式识别模型确定该目标视频的目标视频格式的操作。
在一些实施例中,请参见图5,图5是本申请实施例提供的视频播放装置200的另一结构示意图,该视频播放装置200还包括创建模块205,用于:
当检测到针对至少一个视频的存储操作时,从存储的该视频中提取第二关键视频帧;
利用该视频格式识别模型对该第二关键视频帧进行预测,得到相应视频的该第二预测视频格式和该第二预测值;
根据每个视频的该第二预测视频格式和该第二预测值,创建该视频预识别文件。
在一些实施例中,该视频格式识别模型部署于视频播放应用和文件管理应用中,该创建模块205具体用于:
通过该文件管理应用中的该视频格式识别模型,对该第二关键视频帧进行预测;
该第一确定模块202具体用于:根据该视频播放指令,通过该视频播放应用中的该视频格式识别模型确定该目标视频的目标视频格式。
在一些实施例中,该创建模块205具体用于:
获取每个视频的存储地址;
将该第二预测视频格式和该第二预测值,与相应视频的该存储地址关联存储在该视频预识别文件中,以创建该视频预识别文件;
该第一确定模块202具体用于:根据该目标视频的存储地址,判断该视频预识别文件中是否存在该目标视频的该第二预测值。
在一些实施例中,还包括训练模块206,用于:
获取视频样本集以及视频格式标签集,该视频样本集中的视频样本和该视频格式标签集中的视频格式标签一一对应,且该视频样本集包括训练样本集和验证样本集;
利用该训练样本集和相应的该视频格式标签,对该视频格式识别模型进行训练,且在训练过程中,利用该验证样本集和相应的该视频格式标签,对该视频格式识别模型进行验证。
在一些实施例中,该视频格式识别模型是基于Tensorflow框架或者pytorch框架构建的深度学习模型。
需要说明的是,上述视频播放装置200中各模块单元的具体细节已经在上述视频播放方法的实施例中进行了详细描述,这里不再赘述。
在一些实施例中,本申请实施例中的视频播放装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(MobileInternet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(televi sion,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
在一些实施例中,如图6所示,本申请实施例还提供一种电子设备300,包括处理器301、存储器302及存储在存储器302上并可在处理器301上运行的计算机程序,该程序被处理器301执行时实现上述视频播放方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图7为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409以及处理器410等部件。
本领域技术人员可以理解,电子设备400还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
应理解的是,本申请实施例中,输入单元404可以包括图形处理器(GraphicsProcessing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072中的至少一种。触控面板4071,也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器409可以包括易失性存储器或非易失性存储器,或者,存储器409可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器409包括但不限于这些和任意其它适合类型的存储器。
处理器410可包括一个或多个处理单元;处理器410集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
本申请实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述视频播放方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述视频播放方法。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请的描述中,“多个”的含义是两个或两个以上。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

Claims (12)

1.一种视频播放方法,其特征在于,包括:
获取针对目标视频的视频播放指令;
根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式,所述视频格式识别模型是利用视频样本集、以及所述视频样本集中每个视频样本对应的视频格式标签训练得到;
根据所述目标视频格式确定所述目标视频的播放模式;
以所述播放模式播放所述目标视频。
2.根据权利要求1所述的视频播放方法,其特征在于,所述利用已训练的视频格式识别模型确定所述目标视频的目标视频格式,包括:
从当前的所述目标视频中选取一张视频帧,作为第一关键视频帧;
利用已训练的视频格式识别模型对所述第一关键视频帧进行预测,得到第一预测视频格式、以及所述第一预测视频格式对应的第一预测值;
当所述第一预测值大于或等于预设阈值,或者已预测次数到达预设次数时,将所述第一预测视频格式作为所述目标视频的目标视频格式;
当所述第一预测值小于所述预设阈值,且已预测次数小于所述预设次数时,将除所述第一关键视频帧之外的所述目标视频作为当前的所述目标视频,并返回执行所述从当前的所述目标视频中选取一张视频帧的步骤。
3.根据权利要求1所述的视频播放方法,其特征在于,在根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式之前,所述视频播放方法还包括:
获取已创建的视频预识别文件,所述视频预识别文件包括至少一个已存储视频的第二预测视频格式、以及所述第二预测视频格式对应的第二预测值,所述第二预测视频格式和所述第二预测值是在所述已存储视频存储时对所述已存储视频预测得到;
判断所述视频预识别文件中是否存在所述目标视频的所述第二预测值,且所述目标视频的所述第二预测值大于或等于预设阈值;
若是,则将相应的所述第二预测视频格式作为所述目标视频的目标视频格式;
若否,则执行所述根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式的操作。
4.根据权利要求3所述的视频播放方法,其特征在于,所述视频播放方法还包括:
当检测到针对至少一个视频的存储操作时,从存储的所述视频中提取第二关键视频帧;
利用所述视频格式识别模型对所述第二关键视频帧进行预测,得到相应视频的所述第二预测视频格式和所述第二预测值;
根据每个所述视频的所述第二预测视频格式和所述第二预测值,创建所述视频预识别文件。
5.根据权利要求4所述的视频播放方法,其特征在于,所述视频格式识别模型部署于视频播放应用和文件管理应用中,所述利用所述视频格式识别模型对所述第二关键视频帧进行预测,包括:
通过所述文件管理应用中的所述视频格式识别模型,对所述第二关键视频帧进行预测;
所述根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式的操作,包括:
根据所述视频播放指令,通过所述视频播放应用中的所述视频格式识别模型确定所述目标视频的目标视频格式。
6.根据权利要求4所述的视频播放方法,其特征在于,所述根据每个所述视频的所述第二预测视频格式和所述第二预测值,创建所述视频预识别文件,包括:
获取每个所述视频的存储地址;
将所述第二预测视频格式和所述第二预测值,与相应视频的所述存储地址关联存储在所述视频预识别文件中,以创建所述视频预识别文件;
所述判断所述视频预识别文件中是否存在所述目标视频的所述第二预测值,包括:根据所述目标视频的存储地址,判断所述视频预识别文件中是否存在所述目标视频的所述第二预测值。
7.根据权利要求1-6中任一项所述的视频播放方法,其特征在于,所述视频格式识别模型的训练步骤包括:
获取视频样本集以及视频格式标签集,所述视频样本集中的视频样本和所述视频格式标签集中的视频格式标签一一对应,且所述视频样本集包括训练样本集和验证样本集;
利用所述训练样本集和相应的所述视频格式标签,对所述视频格式识别模型进行训练,且在训练过程中,利用所述验证样本集和相应的所述视频格式标签,对所述视频格式识别模型进行验证。
8.根据权利要求7所述的视频播放方法,其特征在于,所述视频格式识别模型是基于Tensorflow框架或者pytorch框架构建的深度学习模型。
9.一种视频播放装置,其特征在于,包括:
获取模块,用于获取针对目标视频的视频播放指令;
第一确定模块,用于根据所述视频播放指令,利用已训练的视频格式识别模型确定所述目标视频的目标视频格式,所述视频格式识别模型是利用视频样本集、以及所述视频样本集中每个视频样本对应的视频格式标签训练得到;
第二确定模块,用于根据所述目标视频格式确定所述目标视频的播放模式;
播放模块,用于以所述播放模式播放所述目标视频。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的视频播放方法。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的视频播放方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的视频播放方法。
CN202311544152.3A 2023-11-17 2023-11-17 视频播放方法、装置、存储介质、电子设备及计算机程序产品 Pending CN117560549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311544152.3A CN117560549A (zh) 2023-11-17 2023-11-17 视频播放方法、装置、存储介质、电子设备及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311544152.3A CN117560549A (zh) 2023-11-17 2023-11-17 视频播放方法、装置、存储介质、电子设备及计算机程序产品

Publications (1)

Publication Number Publication Date
CN117560549A true CN117560549A (zh) 2024-02-13

Family

ID=89821486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311544152.3A Pending CN117560549A (zh) 2023-11-17 2023-11-17 视频播放方法、装置、存储介质、电子设备及计算机程序产品

Country Status (1)

Country Link
CN (1) CN117560549A (zh)

Similar Documents

Publication Publication Date Title
CN109240576B (zh) 游戏中的图像处理方法及装置、电子设备、存储介质
US10425679B2 (en) Method and device for displaying information on video image
US20190235833A1 (en) Method and system based on speech and augmented reality environment interaction
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN109154862B (zh) 用于处理虚拟现实内容的装置、方法和计算机可读介质
CN111295708A (zh) 语音识别设备及其操作方法
CN111479129B (zh) 直播封面的确定方法、装置、服务器、介质及系统
CN108965981B (zh) 视频播放方法、装置、存储介质及电子设备
CN112188267B (zh) 视频播放方法、装置和设备及计算机存储介质
US20230285854A1 (en) Live video-based interaction method and apparatus, device and storage medium
CN111629253A (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
CN111063024A (zh) 三维虚拟人驱动方法、装置、电子设备及存储介质
CN112511818A (zh) 视频播放质量检测方法、装置
CN113407436A (zh) 播放组件兼容性检测方法、装置、计算机设备和存储介质
CN114449162B (zh) 一种播放全景视频的方法、装置、计算机设备及存储介质
US10841544B2 (en) Systems and methods for media projection surface selection
CN113965665A (zh) 一种用于确定虚拟直播图像的方法与设备
US20210048881A1 (en) Electronic apparatus and method for recognizing view angle of displayed screen thereof
CN114143568B (zh) 一种用于确定增强现实直播图像的方法与设备
CN117560549A (zh) 视频播放方法、装置、存储介质、电子设备及计算机程序产品
CN114449355B (zh) 一种直播互动的方法、装置、设备及存储介质
CN112328152B (zh) 媒体文件的播放控制方法、装置、电子设备及存储介质
CN112929685B (zh) Vr直播间的互动方法、装置、电子设备和存储介质
US20210289266A1 (en) Video playing method and apparatus
CN116453005A (zh) 一种视频封面的提取方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination