CN112839256B - 视频播放方法、装置和电子设备 - Google Patents
视频播放方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112839256B CN112839256B CN202011604741.2A CN202011604741A CN112839256B CN 112839256 B CN112839256 B CN 112839256B CN 202011604741 A CN202011604741 A CN 202011604741A CN 112839256 B CN112839256 B CN 112839256B
- Authority
- CN
- China
- Prior art keywords
- data
- target video
- category
- decoding
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440281—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
Abstract
本申请提供一种视频播放方法、装置和电子设备,方法包括:将目标视频片段的至少一种数据输入第一模型,得到至少一种数据的类别;至少一种数据包括:音频数据,和/或图像数据,和/或字幕数据;第一模型用于检测至少一种数据的类别;根据至少一种数据的类别确定目标视频片段的解码码率;接收到目标视频片段的解码指令,根据确定的解码码率对目标视频片段进行解码,得到第一数据;第一数据是目标视频片段解码后的数据;播放第一数据。本申请能够在视频播放过程中自动调整编码码率,减少电子设备播放视频所消耗的电量,达到省电的目的。
Description
技术领域
本申请涉及智能终端技术领域,特别涉及一种视频播放方法、装置和电子设备。
背景技术
随着科技发展,用户使用电子设备观看视频非常普遍。目前,电子设备例如手机一般调用预设的处理参数来进行视频的播放。预设的处理参数例如分辨率、播放倍速等一般由电子设备预设或者由用户自主设置,如果设置为高画质观看方式,耗电严重。如果用户希望在观看视频时节省电子设备的电量,需要自己调整参数,例如降低视频数据的分辨率、或者增加播放倍速等,操作繁琐,影响用户体验。
发明内容
本申请提供了一种视频播放方法、装置和电子设备,能够在视频播放过程中自动调整编码参数,减少电子设备播放视频所消耗的电量,达到省电的目的。
第一方面,本申请实施例提供一种视频播放方法,包括:
将目标视频片段的至少一种数据输入第一模型,得到所述至少一种数据的类别;所述至少一种数据包括:音频数据,和/或图像数据,和/或字幕数据;所述第一模型用于检测所述至少一种数据的类别;
根据所述至少一种数据的类别确定所述目标视频片段的解码码率;
接收到所述目标视频片段的解码指令,根据确定的所述解码码率对所述目标视频片段进行解码,得到第一数据;所述第一数据是所述目标视频片段解码后的数据;
播放所述第一数据。
在一种可能的实现方式中,所述根据所述至少一种数据的类别确定所述目标视频片段的解码码率,包括:
根据预设的类别与解码码率之间的对应关系,确定所述至少一种数据的类别对应的解码码率,作为所述目标视频片段的解码码率。
在一种可能的实现方式中,所述根据所述至少一种数据的类别确定所述目标视频片段的解码码率,包括:
根据所述至少一种数据的类别确定所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率;
所述使用确定的所述解码码率对所述目标视频片段进行解码,包括:
使用确定的所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率,对所述目标视频片段进行解码。
在一种可能的实现方式中,所述根据所述至少一种数据的类别确定所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率,包括:
根据预设的类别与帧率,和/或视频封装格式,和/或码率流,和/或分辨率之间的对应关系,确定所述至少一种数据的类别对应的帧率,和/或视频封装格式,和/或码率流,和/或分辨率,作为所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率。
在一种可能的实现方式中,所述播放所述第一数据,包括:
根据所述至少一种数据的类别、以及对所述目标视频片段进行解码所使用的视频封装格式确定所述目标视频片段的播放倍速;
按照所述播放倍速播放所述第一数据。
在一种可能的实现方式中,所述根据所述至少一种数据的类别、以及对所述目标视频片段解码所使用的视频封装格式确定所述目标视频片段的播放倍速,包括:
获取对所述目标视频片段解码所使用的视频封装格式;
根据预设的所述至少一种数据的类别、视频封装格式以及播放倍速之间的对应关系,确定所述至少一种数据的类别以及所述目标视频片段的视频封装格式对应的播放倍速,作为所述目标视频片段的播放倍速。
在一种可能的实现方式中,还包括:
接收到对目标视频文件的播放指令,将所述目标视频文件划分为视频片段,从划分得到的所述视频片段中确定目标视频片段。
在一种可能的实现方式中,所述从划分得到的所述视频片段中确定目标视频片段,包括:
将播放位置靠前的第一数量个视频片段之后的视频片段,依次确定为所述目标视频片段。
在一种可能的实现方式中,接收到对目标视频文件的播放指令之后,还包括:
接收到针对于目标视频文件的动态解码控制指令;
所述将所述目标视频文件划分为视频片段,包括:
将未解码的目标视频文件划分为视频片段。
在一种可能的实现方式中,所述第一模型预先训练得到,所述训练方法包括:
获取标注有类别的训练样本;每个所述训练样本包括:所述至少一种数据中各数据的样本;
将所述训练样本输入预设模型进行训练,得到所述第一模型。
在一种可能的实现方式中,所述获取标注有类别的训练样本,包括:
获取训练样本;
确定所述训练样本的类别,将所述训练样本标注为确定的所述类别。
在一种可能的实现方式中,所述至少一种数据包括:音频数据,所述音频数据的类别包括:对话、和非对话,或者,自然声、和人声,或者,自然声、普通话和方言;或者,
所述至少一种数据包括:字幕数据,所述字幕数据的类别包括:对话、和非对话,或者,背景内容介绍、和人物关系;或者,
所述至少一种数据包括:图像数据,所述图像数据的类别包括:人物场景、和空镜头,或者,打斗场景、非打斗场景和空镜头;或者,
所述至少一种数据包括:音频数据和字幕数据,所述音频数据和字幕数据的类别包括:对话、和非对话;或者,
所述至少一种数据包括:音频数据和图像数据,所述音频数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头;或者,
所述至少一种数据包括:字幕数据和图像数据,所述字幕数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头;或者,
所述至少一种数据包括:音频数据、字幕数据和图像数据,所述音频数据、字幕数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头。
第二方面,本申请实施例提供一种视频播放装置,包括:
类别检测单元,用于将目标视频片段的至少一种数据输入第一模型,得到所述至少一种数据的类别;所述至少一种数据包括:音频数据,和/或图像数据,和/或字幕数据;所述第一模型用于检测所述至少一种数据的类别;
码率确定单元,用于根据所述至少一种数据的类别确定所述目标视频片段的解码码率;
解码单元,用于接收到所述目标视频片段的解码指令,根据确定的所述解码码率对所述目标视频片段进行解码,得到第一数据;所述第一数据是所述目标视频片段解码后的数据;
播放单元,用于播放所述第一数据。
第三方面,本申请实施例提供一种电子设备,包括:
显示屏;一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行第一方面任一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第一方面任一项所述的方法。
第五方面,本申请提供一种计算机程序,当所述计算机程序被计算机执行时,用于执行第一方面所述的方法。
在一种可能的设计中,第五方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上,也可以部分或者全部存储在不与处理器封装在一起的存储器上。
本申请视频播放方法中,将目标视频片段的至少一种数据输入第一模型,得到至少一种数据的类别,至少一种数据包括:音频数据,和/或图像数据,和/或字幕数据,第一模型用于检测至少一种数据的类别,根据至少一种数据的类别确定目标视频片段的解码码率,接收到目标视频片段的解码指令,根据确定的解码码率对目标视频片段进行解码,得到第一数据,第一数据是目标视频片段解码后的数据,播放第一数据。从而在进行视频文件播放时,可以根据目标视频片段的类别,对不同的目标视频片段使用不同的解码码率进行解码,从可以对用户感兴趣的类别设置相对较高的解码码率,对用户不感兴趣的类别设置相对较低的解码码率,从而动态调整视频文件解码时的解码码率,使得电子设备在播放视频时能够满足用户的观看需求,且更为合理的使用电子设备的电量,达到省电的目的。
附图说明
图1A为本申请视频播放方法一个实施例的流程图;
图1B为本申请视频播放方法另一个实施例的流程图;
图2为本申请视频播放方法另一个实施例的流程图;
图3为本申请视频播放方法又一个实施例的流程图;
图4为本申请视频播放方法又一个实施例的流程图;
图5为本申请视频播放方法又一个实施例的流程图;
图6为本申请视频播放装置一个实施例的结构示意图;
图7为本申请电子设备一个实施例的结构示意图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
首先对本申请实施例中涉及的名词进行示例性而非限定性的说明:
人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
数字信号处理器(Digital Signal Processor,DSP),是一种特别适合于进行数字信号处理运算的微处理器,其主要应用是实时快速地实现各种数字信号处理算法。
AI培育:在人工智能领域的AI培育,利用大量加速器如图形处理器(GraphicsProcessing Unit,GPU)或中央处理器(Central Processing Unit,CPU)等能提供算力的装置,找到一个合适的神经网络架构和计算得到神经网络最优结构参数,使得该网络能完成特定的工作。通俗而言,便是给机器“投喂”大量的数据,让它学会识别和区分对象。
本申请实施例中处理的对象可以为视频片段,该视频片段可以是对一个视频文件按照时长进行划分得到的若干个视频片段中的一个视频片段,如果视频文件没有划分视频片段,也可以认为一个视频文件就是一个视频片段。视频片段的长度本申请实施例不作限定。本申请实施例的方法可以适用于电子设备,例如手机、平板电脑(PAD)、个人电脑(PC)等。具体可以作为电子设备中视频播放类应用(App)的一个功能,或者,电子设备的操作系统提供的一种视频播放功能的一个子功能。
图1A为本申请视频播放方法一个实施例的流程图,如图1A所示,该方法可以包括:
步骤101:将目标视频片段的至少一种数据输入预先训练得到的第一模型,得到上述至少一种数据的类别;第一模型用于检测至少一种数据的类别;至少一种数据包括:音频数据,和/或图像数据,和/或字幕数据。
可选地,第一模型可以通过AI培育的方式来进行AI模型培育得到。具体可以通过将大量的训练样本例如超过千条的训练样本“投喂”给AI机器,由AI机器根据训练样本的数据之间的关系特征,计算得到最优的用于检测至少一种数据的类别的神经网络架构和神经网络结构参数,得到上述第一模型。
步骤102:根据至少一种数据的类别确定目标视频片段的解码码率。
其中,解码码率一般是指数据传输时单位时间传送的数据位数,单位可以是kbps即千位每秒,也可以称为取样率,单位时间内取样率越大,精度就越高,处理出来的文件就越接近原始文件,但是文件体积与取样率是成正比的,所以几乎所有的编码格式重视的都是如何用最低的码率达到最少的失真,围绕这个核心衍生出来固定码率(cbr)与可变码率(vbr),码率与失真度关联,码率越高视频图像越清晰,反之则画面粗糙而多马赛克。
在一种可能的实现方式中,可以预先设置至少一种数据的可能类别中的每种类别与解码码率之间的对应关系,不同类别对应的解码码率可能相同,优选为不同。不同类别对应的解码码率可以基于用户对于上述类别数据的心理感知进行设置,对用户心理感知上更容易感兴趣的数据的类别设置视觉效果相对更好的解码码率,例如设置相对更高的解码码率。相应的,本步骤中可以根据预设的上述对应关系,查找到目标视频片段的至少一种数据的类别对应的解码码率。
在另一种可能的实现方式中,解码码率的高低设置具体可以通过帧率,和/或视频封装格式,和/或码率流,和/或分辨率的不同设置体现。具体的:
帧率与解码码率一般正相关,也即帧率越高,解码码率越高,视频播放的画面越流程,帧率越低,解码码率越低,视频播放的画面越有跳动感;
视频封装格式的实现方式很多,但是,不同视频封装格式之间也具有对于解码码率高低的排序,例如,以目前主流的动态图像专家组(Moving Picture Experts Group,MPEG)2,视讯编解码器(Video Codec 1,VC-1)以及H.264这三种视频封装格式为例,一般解码码率排序为H.264>VC-1>MPEG2,据此,可以按照解码码率的高低而设置不同的视频封装格式;
码率流与解码码率一般正相关,也即码率流越大,解码码率越高,反之亦然;码率流一般与解码中的冗余数据相关。
分辨率与解码码率一般正相关,分辨率越高,解码码率越高,反之亦然。基于此,可以预先设置至少一种数据的可能类别中的每种类别与帧率,和/或视频封装格式,和/或码率流,和/或分辨率之间的对应关系,不同类别对应的上述参数可以基于用户对于上述类别数据的心理感知进行设置,对用户心理感知上更容易感兴趣的数据的类别设置视觉效果相对更好的上述参数值。相应的,本步骤中可以根据预设的上述对应关系,查找到目标视频片段的至少一种数据的类别对应的帧率,和/或视频封装格式,和/或码率流,和/或分辨率。
步骤103:接收到目标视频片段的解码指令,使用确定的解码码率对目标视频片段进行解码,得到第一数据。
第一数据是对目标视频片段解码得到的数据。
在对视频文件进行解码时,可以依次对视频文件中的每个视频片段进行解码,前一个视频片段解码完成,可以接收到下一个视频片段的解码指令。
其中,如果步骤102中确定的是解码码率,本步骤中可以根据该解码码率计算帧率、和/或视频封装格式、和/或码率流、和/或分辨率等解码相关参数,对目标视频片段进行解码;
如果步骤102中确定的是帧率、和/或视频封装格式、和/或码率流、和/或分辨率等解码相关参数,可以根据确定的上述帧率、和/或视频封装格式、和/或码率流、和/或分辨率等解码相关参数,对目标视频片段进行解码,此时,对于解码过程中步骤102未确定的解码相关参数可以基于预先设置的默认值确定。例如,步骤102中仅确定了帧率和分辨率,则视频封装格式和码率流可以基于预先设置的默认值确定,之后,可以基于确定的上述参数实现目标视频片段的解码。
步骤104:播放第一数据。
具体如何播放第一数据本申请实施例不作限定。
可选地,播放第一数据可以包括:
根据所述至少一种数据的类别、以及对目标视频片段解码所使用的视频封装格式确定目标视频片段的播放倍速;
按照播放倍速播放第一数据。
其中,不同的视频封装格式支持的播放倍速不同,如h.264格式,播放倍速可以是0.8、1、1.6、3,而对于MP4格式,播放倍速可以是0.5、1、1.5;
为了更好的省电,可以预设所述至少一种数据的可能类别、视频封装格式与播放倍速之间的对应关系,同样可以基于用户对于上述类别数据的心理感知进行设置,用户感兴趣的数据对应的类别可以设置正常的播放倍速,例如播放倍速1,用户不感兴趣的数据对应的类别设置相对更高的播放倍速,例如播放倍速1.6、或者3、或者1.5等等。相应的,可以根据至少一种数据的类别以及目标视频片段解码的视频封装格式查找到目标视频片段对应的播放倍速。
图1A所示的方法,在进行目标视频文件播放时,可以根据目标视频片段的类别,对不同的目标视频片段使用不同的解码码率进行解码,从可以对用户感兴趣的类别设置相对较高的解码码率,对用户不感兴趣的类别设置相对较低的解码码率,从而动态调整视频文件解码时的解码码率,使得电子设备在播放视频时能够满足用户的观看需求,且更为合理的使用电子设备的电量,达到省电的目的。
进而,还可以根据视频片段的类别、以及对目标视频片段解码所适用的视频封装格式动态调整目标视频片段的播放倍速,从而使得视频播放的功耗更为合理,达到省电的目的。
可选地,参见图1B,步骤101之前,还可以包括:
步骤100:接收到对目标视频文件的播放指令,将所述目标视频文件划分为视频片段,确定目标视频片段。
其中,用户可以通过选择一个视频文件,选择针对于该视频文件的“播放”控件,来指示对视频文件进行播放,相应的,电子设备可以接收到对目标视频文件的播放指令,目标视频文件也即是用户选择的视频文件。
在进行目标视频文件的划分时,划分得到的视频片段的长度可以相同或者不相同,目标视频文件划分视频片段的数量本申请实施例不作限定,可以是任意自然数。需要说明的是,一般目标视频文件中最小的单位可以是视频帧,视频片段最小可以为一个视频帧。
其中,步骤101中可以将目标视频文件划分得到的视频片段按照播放顺序依次作为目标视频片段。可选地,为了目标视频文件播放的及时性,可以将目标视频文件中位置靠前的一定数量个视频片段直接按照预设的解码码率进行解码、进而播放,对上述一定数量个视频片段之后的视频片段依次作为目标视频片段。上述一定数量的具体取值本申请实施例不作限定,与视频片段的长度、电子设备的处理速度等相关,可以基于电子设备能够为用户提供流畅的视频播放效果的角度来具体设置;另外,基于省电考虑,上述一定数量个视频片段所使用的上述预设的解码码率可以相对较低,或者,基于用户观看效果角度考虑,上述预设的解码码率可以相对较高,本申请实施例不作限定。
图2为本申请视频播放方法一个实施例的流程图,如图2所示,该方法可以包括:
步骤201:预先训练第一模型,第一模型用于检测音频数据的类别。
本步骤为预先准备步骤,该步骤可以在电子设备中完成,也可以在其他电子设备中完成。
可选地,音频数据的可能类别的数量大于等于2,具体数量本申请实施例不作限定。
音频数据的类别可以根据划分方式的不同而不同。例如,音频数据的类别可以包括:对话、和非对话;或者,音频数据的类别可以包括:自然声、和人声;或者,音频数据的类别可以包括:自然声、普通话和方言。
第一模型的初始模型可以是AI模型,具体算法本申请实施例不作限定,例如可以是深度神经网络等。训练第一模型所使用的训练样本可以是:标注有类别的音频数据;初始模型可以通过学习训练样本中数据之间的关系特征,例如音量、音色、音频或者声音的空间分布等,来训练得到最终的第一模型。举例来说,可以使用以下的AI基础模型作为第一模型的初始模型:AX+BY+CZ+DW=U,其中,X为音量,Y为音色,Z为音频,W为声音的空间分布,A、B、C和D分别为各音频特征对应的待求加权数,U为第一模型。通过训练样本进行训练,可以最终训练得到上述音频特征对应的加权数,也即A、B、C和D的数值,从而得到第一模型。
举例来说,如果第一模型需要检测的音频数据的类别包括:对话和非对话,则,训练训练样本可以是:标注有对话或非对话类别的音频数据;将训练样本输入初始模型进行模型训练,最终得到第一模型。
作为训练样本的音频数据的类别可以人工标注,也可以由电子设备自动标注,在一种可能的自动标注的方法中,可以根据待标注的音频数据的特征参数例如音量、音色、音频和/或声音的空间分布等的参数值以及对应的权重计算待标注的音频数据的分数,按照分数来确定待标注的音频数据的类别,进行音频数据类别的标注。
步骤202:接收到针对于目标视频文件的动态解码控制指令。
在视频文件的播放界面上,可以为用户设置“动态解码”的控件,用户可以在视频文件播放的初始或者过程中选择该控件,相应的,电子设备接收到针对于视频文件的动态解码控制指令,执行下述处理。
步骤203:将目标视频片段的音频数据输入第一模型,得到音频数据的类别。
目标视频片段是视频文件中即将被处理的视频片段。举例来说,如果在视频文件播放的初始接收到针对于视频文件的动态解码控制指令,可以按照视频片段在视频文件中的顺序,依次作为上述目标视频片段,进行步骤203以及后续步骤的处理;如果在视频文件播放的过程中接收到针对于视频文件的动态解码控制指令,可以将接收到动态解码控制指令时未被解码处理的视频片段,按照视频片段在视频文件中的顺序,依次作为上述目标视频片段,进行步骤203以及后续步骤的处理。
步骤204:根据目标视频片段的音频数据的类别确定目标视频片段的解码码率。
可以预先设置不同音频数据的类别对应的解码码率。不同音频数据的类别对应的解码码率可以基于用户听觉上的心理感知进行设置,对用户听觉上更容易感兴趣的音频数据的类别设置视觉效果相对更好的解码码率。举例来说,如果音频数据的类别包括:对话和非对话,那么,一般来说用户更容易对对话感兴趣,可以为“对话”这一类别设置相对较高的解码码率,为“非对话”这一类别设置相对较低的解码码率。
可选地,如果本申请视频播放方法作为电子设备中的应用或者电子设备操作系统的一个视频播放功能的子功能时,电子设备进行视频播放一般设置有默认的解码码率,在用户未指示的情况下按照该默认的解码码率进行视频数据的解码、播放,此时,对于用户听觉上更容易感兴趣的音频数据的类别例如上述举例中的“对话”这一类别,可以直接从电子设备获取上述默认的解码码率作为该类别的解码码率,对于用户听觉上相对不容易感兴趣的音频数据的类别例如上述举例中的“非对话”这一类别,可以根据上述默认的解码码率计算一个相对于上述默认的解码码率较低的解码码率作为该类别的解码码率,从而使得本申请视频播放方法在解码、播放一视频文件时,相对于电子设备使用上述默认解码码率解码、播放该视频文件,具有更低的功耗。
解码码率的高低设置具体可以通过帧率,和/或视频封装格式,和/或码率流,和/或分辨率的不同设置体现。具体的,
帧率可以依据解码码率的不同级别而设置不同数值,延续前述举例,可以为“对话”这一类别设置相对较高的帧率,为“非对话”这一类别设置相对较低的帧率,相应的,通过帧率数值的不同,“对话”这一类别得到了较高的解码码率,“非对话”这一类别得到了较低的解码码率。
与帧率类似的,视频封装格式可以依据解码码率的不同级别而设置不同数值,延续前述举例,可以为“对话”这一类别设置视觉效果相对较好的视频封装格式,为“非对话”这一类别设置视觉效果相对较差的视频封装格式,以目前主流的MPEG2,VC-1以及H.264这三种封装格式为例,一般视觉效果排序为H.264>VC-1>MPEG2,则可以为“对话”这一类别设置视频封装格式为H.264,为“非对话”这一类别设置MPEG2,相应的,通过视频封装格式的不同,“对话”这一类别得到了较高的解码码率,“非对话”这一类别得到了较低的解码码率。
与帧率、视频封装格式类似的,码率流可以依据解码码率的不同级别而设置不同数值,解码码率越高,码率流越高,解码码率越低,码率流越低。
同样的,分辨率可以依据解码码率的不同级别而设置不同数值,解码码率越高,分辨率越高,解码码率越低,分辨率越低。延续前述举例,可以为“对话”这一类别设置相对较高的分辨率,例如3840*2048,为“非对话”这一类别设置相对较低的分辨率,例如1280*720。
可选地,本申请视频播放方法作为电子设备中的应用或者电子设备操作系统的一个视频播放功能的子功能时,电子设备一般为视频播放设置有默认的帧率、和/或视频封装格式、和/或分辨率等参数,在用户未指示的情况下按照该默认的帧率、和/或视频封装格式、和/或分辨率等参数进行视频数据的解码、播放,此时,对于用户听觉上更容易感兴趣的音频数据的类别例如上述举例中的“对话”这一类别,可以直接从电子设备获取上述默认的帧率、和/或视频封装格式、和/或分辨率作为该类别的帧率、和/或视频封装格式、和/或分辨率,对于用户听觉上相对不容易感兴趣的音频数据的类别例如上述举例中的“非对话”这一类别,可以根据上述默认的帧率、和/或视频封装格式、和/或分辨率计算相对更低的帧率、和/或视频封装格式、和/或分辨率,作为该类别的帧率、和/或视频封装格式、和/或分辨率,从而使得本申请视频播放方法在解码、播放一视频文件时,相对于电子设备使用上述默认解码码率解码、播放该视频文件,具有更低的功耗。
步骤205:接收到对目标视频片段的解码指令,使用确定的解码码率对目标视频片段进行解码,得到第一数据。
步骤206:播放第一数据。
步骤205和步骤206的实现可以参考步骤103~步骤104中的描述,这里不赘述。
图2所示的方法,通过目标视频片段中音频数据的类别,来使用对应的解码码率进行目标视频片段的解码,从而可以基于用户听觉上的心理感知为用户感兴趣的音频数据对应的类别设置相对较高的解码码率,为用户不感兴趣的音频数据对应的类别设置相对较低的解码码率,使得视频文件中各视频片段的解码码率可以动态调整,进而功耗可以动态调整,达到用户观看效果与功耗的合理配置,达到合理省电的目的。
区别于图2中根据视频片段的音频数据的类别进行视频片段的动态解码播放,在图3所示的实施例中,根据视频片段的字幕数据的类别进行视频片段的动态解码播放,参见图3所示实施例,与图2的区别主要在于将音频数据替换为字幕数据,相应的:
在步骤301中,第一模型用于检测字幕数据的类别。
字幕数据的类别可以划分为:对话和非对话;或者,背景内容介绍和人物关系;等等。初始模型可以通过学习训练样本中字幕数据之间的关系特征,例如字体的大小、词语的结构、语法、时间属性等等,来训练得到最终的第一模型。初始模型的建立方法可以参见步骤201中关于音频数据初始模型的建立方法,建立关于字体的大小、词语的结构、语法、时间属性等字幕特征的初始模型,通过训练样本的训练,得到初始模型中每个字幕特征的加权数,从而得到第一模型。
在步骤304中,根据字幕数据的类别确定目标视频片段的解码码率时,不同字幕数据的类别对应的解码码率可以基于用户观看到字幕数据对应的视频片段的心理感知进行设置,对用户更容易感兴趣的字幕数据的类别设置视觉效果相对更好的解码码率。举例来说,如果字幕数据的类别包括:对话和非对话,那么,一般来说用户更容易对对话感兴趣,可以为“对话”这一类别设置相对较高的解码码率,为“非对话”这一类别设置相对较低的解码码率。
作为训练样本的字幕数据的类别可以人工标注,也可以由电子设备自动标注,在一种可能的自动标注的方法中,可以根据待标注的字幕数据的特征参数例如字体的大小、词语的结构、语法、时间属性等的参数值以及对应的权重计算待标注的音频数据的分数,按照分数来确定待标注的字幕数据的类别,进行字幕数据类别的标注。
图3所示的方法,通过目标视频片段中字幕数据的类别,来使用对应的解码码率进行目标视频片段的解码,从而可以基于用户心理感知为用户感兴趣的字幕数据对应的类别设置相对较高的解码码率,为用户不感兴趣的字幕数据对应的类别设置相对较低的解码码率,使得视频文件中各视频片段的解码码率可以动态调整,进而功耗可以动态调整,达到用户观看效果与功耗的合理配置,达到合理省电的目的。
区别于图2中根据视频片段的音频数据的类别进行视频片段的动态解码播放,在图4所示的实施例中,根据视频片段的图像数据的类别进行视频片段的动态解码播放,参见图4所示实施例,与图2的区别主要在于将音频数据替换为图像数据,相应的:
在步骤401中,第一模型用于检测图像数据的类别。
图像数据的类别可以划分为:人物场景和空镜头;或者,打斗场景、非打斗场景和空镜头;等等。初始模型可以通过学习训练样本中图像数据之间的关系特征,例如画面的亮暗、色彩等等,来训练得到最终的第一模型。初始模型的建立方法可以参见步骤201中关于音频数据初始模型的建立方法,建立关于画面的亮暗、色彩等图像特征的初始模型,通过训练样本的训练,得到初始模型中每个图像特征的加权数,从而得到第一模型。
在步骤404中,根据图像数据的类别确定目标视频片段的解码码率时,不同图像数据的类别对应的解码码率可以基于用户观看到图像数据对应的视频片段的心理感知进行设置,对用户更容易感兴趣的图像数据的类别设置视觉效果相对更好的解码码率。举例来说,如果图像数据的类别包括:打斗场景、非打斗场景和空镜头,那么,一般来说用户感兴趣的场景排序可以为:打斗场景、非打斗场景和空镜头,相应的,可以为“打斗场景”这一类别设置相对最高的解码码率,为“非打斗场景”这一类别设置相对较低的解码码率,为“空镜头”这一类别设置相对最低的解码码率。
作为训练样本的图像数据的类别可以人工标注,也可以由电子设备自动标注,在一种可能的自动标注的方法中,可以根据待标注的图像数据的特征参数例如画面的亮暗、色彩等的参数值以及对应的权重计算待标注的图像数据的分数,按照分数来确定待标注的图像数据的类别,进行图像数据类别的标注。
图4所示的方法,通过目标视频片段中图像数据的类别,来使用对应的解码码率进行目标视频片段的解码,从而可以基于用户心理感知为用户感兴趣的图像数据对应的类别设置相对较高的解码码率,为用户不感兴趣的图像数据对应的类别设置相对较低的解码码率,使得视频文件中各视频片段的解码码率可以动态调整,进而功耗可以动态调整,达到用户观看效果与功耗的合理配置,达到合理省电的目的。
区别于图2~4中根据视频片段的单一一种数据的类别,例如音频数据、或者字幕数据或者视频数据的类别,进行视频片段的动态解码播放,在图5所示的实施例中,根据视频片段的至少两种数据的类别进行视频片段的动态解码播放,从而提高目标视频片段的类别的识别精确度,使得用户观看效果与功耗得到更为合理的配置,达到合理省电的目的。参见图5所示实施例,与图2的区别主要在于将音频数据替换为视频片段的至少两种数据,相应的:
在步骤501中,第一模型用于检测视频片段的至少两种数据的类别。
本步骤中,在确定至少两种数据对应的可能类别时,可以将每一种数据的可能类别分别作为一个维度,结合至少两种数据之间的内在联系,进行类别组合,得到至少两种数据对应的可能类别。基于至少两种数据和可能类别来准备训练样本,进行模型训练,得到第一模型。例如,初始模型的建立方法可以参见步骤201中关于音频数据初始模型的建立方法,建立关于图像特征、和/或音频特征、和/或字幕特征的初始模型,通过训练样本的训练,得到初始模型中每个图像特征、和/或音频特征、和/或字幕特征对应的加权数,从而得到第一模型。
举例来说,上述至少两种数据包括:音频数据和字幕数据,音频数据的可能类别包括:对话和非对话,而字幕数据的可能类别也包括:对话和非对话,字幕数据往往和音频数据对应,从而,可以将两种数据的可能类别仍然组合为:对话和非对话;相应的,可以将类别为对话的音频数据和字幕数据组合为一个训练样本,输入模型进行训练,将类别为非对话的音频数据和字幕数据组合为一个训练样本,输入模型进行训练,经过大量训练样本的训练后,可以得到上述的第一模型。第一模型的输入为目标视频片段的音频数据和字幕数据,输出为目标视频片段的音频数据和字幕数据的类别,例如对话,或者非对话。
如果上述至少两种数据包括:音频数据和图像数据,音频数据的可能类别包括:对话和非对话,图像数据的可能类别包括:人物场景和空镜头,两种数据的可能类别之间不存在必然联系,相应的,可以按照两个维度组合为4种可能类别:对话人物场景,对话空镜头,非对话人物场景,非对话空镜头;相应的,可以将类别为对话的音频数据和类别为人物的图像数据作为一个训练样本,输入模型进行训练,将类别为对话的音频数据和类别为空镜头的图像数据作为一个训练样本,输入模型进行训练,将类别为非对话的音频数据和类别为人物的图像数据作为一个训练样本,输入模型进行训练,将类别为非对话的音频数据和类别为空镜头的图像数据作为一个训练样本,输入模型进行训练,经过大量训练样本的训练后,可以得到上述的第一模型。第一模型的输入为目标视频片段的音频数据和图像数据,输出为目标视频片段的音频数据和图像数据的类别,例如对话人物场景,对话空镜头,非对话人物场景,或者非对话空镜头。
如果上述至少两种数据包括:字幕数据和图像数据,字幕数据的可能类别包括:对话和非对话,图像数据的可能类别包括:人物场景和空镜头,两种数据的可能类别之间不存在必然联系,相应的,可以按照两个维度组合为4种可能类别:对话人物场景,对话空镜头,非对话人物场景,非对话空镜头;相应的,可以将类别为对话的字幕数据和类别为人物的图像数据作为一个训练样本,输入模型进行训练,将类别为对话的字幕数据和类别为空镜头的图像数据作为一个训练样本,输入模型进行训练,将类别为非对话的字幕数据和类别为人物的图像数据作为一个训练样本,输入模型进行训练,将类别为非对话的字幕数据和类别为空镜头的图像数据作为一个训练样本,输入模型进行训练,经过大量训练样本的训练后,可以得到上述的第一模型。第一模型的输入为目标视频片段的字幕数据和图像数据,输出为目标视频片段的字幕数据和图像数据的类别,例如对话人物场景,对话空镜头,非对话人物场景,或者非对话空镜头。
如果上述至少两种数据包括:音频数据、字幕数据和图像数据,音频数据的可能类别包括:对话和非对话,字幕数据的可能类别也包括:对话和非对话,图像数据的可能类别包括:人物场景和空镜头,而字幕数据往往和音频数据对应,从而,可以按照三个维度组合为4种可能类别:对话人物场景,对话空镜头,非对话人物场景,非对话空镜头;相应的,可以将类别为对话的字幕数据、类别为对话的音频数据和类别为人物的图像数据作为一个训练样本,输入模型进行训练,将类别为对话的字幕数据、类别为对话的音频数据和类别为空镜头的图像数据作为一个训练样本,输入模型进行训练,将类别为非对话的字幕数据、类别为非对话的音频数据和类别为人物的图像数据作为一个训练样本,输入模型进行训练,将类别为非对话的字幕数据、类别为非对话的音频数据和类别为空镜头的图像数据作为一个训练样本,输入模型进行训练,经过大量训练样本的训练后,可以得到上述的第一模型。第一模型的输入为目标视频片段的音频数据、字幕数据和图像数据,也即整个目标视频片段,输出为目标视频片段的类别,例如对话人物场景,对话空镜头,非对话人物场景,或者非对话空镜头。
作为训练样本的至少两种数据的类别可以人工标注,也可以由电子设备自动标注,在一种可能的自动标注的方法中,可以分别按照数据的种类使用例如图2~图4所提供的自动标注方法,分别计算得到训练样本中每种数据的类别,组合得到训练样本的类别。例如,训练样本是图像数据和音频数据的组合,那么,可以分别计算图像数据的类别和音频数据的类别,之后组合得到训练样本的类别。
以上是以上述至少两种数据的样本组合成一个训练样本,标注训练样本的类别,来进行第一模型的训练。在另一个实施例中,也可以把至少两种数据中每一种数据分别作为训练样本,按照该训练样本的数据的种类来进行类别标注,之后输入预设模型中进行训练,得到第一模型。例如,以至少两种数据包括音频数据、字幕数据和图像数据为例,将标注有音频数据类别(例如对话、非对话)的音频数据作为训练样本,将标注有字幕数据类别(例如对话、非对话)的字幕数据作为训练样本,将标注有图像数据类别(例如人物场景、空镜头)的图像数据作为训练样本,将以上的训练样本均输入模型进行训练,经过大量训练样本的训练后,可以得到上述的第一模型。第一模型的输入为目标视频片段的音频数据、字幕数据和图像数据,也即整个目标视频片段,输出为目标视频片段的音频数据的类别,字幕数据的类别,以及图像数据的类别,通过将三个维度的类别进行组合,即得到目标视频片段的类别(对应于上述至少两种的类别)。通过以上方式训练得到的第一模型,同样可以实现输入至第一模型的目标视频片段的至少两种数据的类别的识别。这种情况下,第一模型的初始模型的建立方法可以分别参考步骤201、步骤301、和步骤401中初始模型的建立方法,分别建立每一种数据对应的初始模型,按照输入的训练样本的种类(如音频数据、字幕数据或者图像数据)进行对应的初始模型的训练,这里不赘述。
可以理解的是,上述实施例中的部分或全部步骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
图6为本申请视频播放装置一个实施例的结构图,如图6所示,该装置600可以包括:
类别检测单元610,用于将目标视频片段的至少一种数据输入第一模型,得到所述至少一种数据的类别;所述至少一种数据包括:音频数据,和/或图像数据,和/或字幕数据;所述第一模型用于检测所述至少一种数据的类别
码率确定单元620,用于根据所述至少一种数据的类别确定所述目标视频片段的解码码率;
解码单元630,用于接收到所述目标视频片段的解码指令,根据确定的所述解码码率对所述目标视频片段进行解码,得到第一数据;所述第一数据是所述目标视频片段解码后的数据;
播放单元640,用于播放所述第一数据。
可选地,码率确定单元620具体可以用于:根据预设的类别与解码码率之间的对应关系,确定所述至少一种数据的类别对应的解码码率,作为所述目标视频片段的解码码率。
可选地,码率确定单元620具体可以用于:根据所述至少一种数据的类别确定所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率;
所述使用确定的所述解码码率对所述目标视频片段进行解码,包括:
使用确定的所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率,对所述目标视频片段进行解码。
可选地,码率确定单元620具体可以用于:根据预设的类别与帧率,和/或视频封装格式,和/或码率流,和/或分辨率之间的对应关系,确定所述至少一种数据的类别对应的帧率,和/或视频封装格式,和/或码率流,和/或分辨率,作为所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率。
可选地,播放单元640具体可以用于:根据所述至少一种数据的类别、以及对所述目标视频片段进行解码所使用的视频封装格式确定所述目标视频片段的播放倍速;按照所述播放倍速播放所述第一数据。
可选地,播放单元640具体可以用于:获取对所述目标视频片段解码所使用的视频封装格式;根据预设的所述至少一种数据的类别、视频封装格式以及播放倍速之间的对应关系,确定所述至少一种数据的类别以及所述目标视频片段的视频封装格式对应的播放倍速,作为所述目标视频片段的播放倍速。
可选地,该装置还可以包括:视频文件处理单元,用于接收到对目标视频文件的播放指令,将所述目标视频文件划分为视频片段,从划分得到的所述视频片段中确定目标视频片段。
可选地,视频文件处理单元具体可以用于:将播放位置靠前的第一数量个视频片段之后的视频片段,依次确定为所述目标视频片段。
可选地,视频文件处理单元还可以用于:接收到针对于目标视频文件的动态解码控制指令;将未解码的目标视频文件划分为视频片段。
可选地,还可以包括:训练单元,用于获取标注有类别的训练样本;每个所述训练样本包括:所述至少一种数据中各数据的样本;将所述训练样本输入预设模型进行训练,得到所述第一模型。
可选地,训练单元具体可以用于:获取训练样本;确定所述训练样本的类别,将所述训练样本标注为确定的所述类别。
可选地,所述至少一种数据包括:音频数据,所述音频数据的类别包括:对话、和非对话,或者,自然声、和人声,或者,自然声、普通话和方言;或者,
所述至少一种数据包括:字幕数据,所述字幕数据的类别包括:对话、和非对话,或者,背景内容介绍、和人物关系;或者,
所述至少一种数据包括:图像数据,所述图像数据的类别包括:人物场景、和空镜头,或者,打斗场景、非打斗场景和空镜头;或者,
所述至少一种数据包括:音频数据和字幕数据,所述音频数据和字幕数据的类别包括:对话、和非对话;或者,
所述至少一种数据包括:音频数据和图像数据,所述音频数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头;或者,
所述至少一种数据包括:字幕数据和图像数据,所述字幕数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头;或者,
所述至少一种数据包括:音频数据、字幕数据和图像数据,所述音频数据、字幕数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头。
图6所示实施例提供的装置600可用于执行本申请图1A~图5所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图6所示的装置的各个单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元通过硬件的形式实现。例如,类别检测单元可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些单元可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
图7为本申请电子设备一个实施例的结构示意图,如图7所示,上述电子设备可以包括:显示屏;一个或多个处理器;存储器;以及一个或多个计算机程序。
其中,上述电子设备可以为移动终端(手机),电脑,PAD,可穿戴设备,智慧屏,无人机,智能网联车(Intelligent Connected Vehicle;以下简称:ICV),智能(汽)车(smart/intelligent car)或车载设备等设备。
其中上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备图1A~图5任一个实施例所述的方法。
如图7所示,电子设备700包括处理器710和收发器720。可选地,该电子设备700还可以包括存储器730。其中,处理器710、收发器720和存储器730之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器730用于存储计算机程序,该处理器710用于从该存储器730中调用并运行该计算机程序。
上述存储器730可以是只读存储器(read-only memory,ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory,RAM)或可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备,或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。
可选地,电子设备700还可以包括天线740,用于将收发器720输出的无线信号发送出去。
上述处理器710可以和存储器730可以合成一个处理装置,更常见的是彼此独立的部件,处理器710用于执行存储器730中存储的程序代码来实现上述功能。具体实现时,该存储器730也可以集成在处理器710中,或者,独立于处理器710。
除此之外,为了使得电子设备700的功能更加完善,该电子设备700还可以包括输入单元760、显示单元770、音频电路780、摄像头790和传感器701等中的一个或多个,所述音频电路还可以包括扬声器782、麦克风784等。其中,显示单元770可以包括显示屏。
可选地,上述电子设备700还可以包括电源750,用于给终端设备中的各种器件或电路提供电源。
应理解,图7所示的电子设备700能够实现本申请图1~图5所示实施例提供的方法的各个过程。电子设备700中的各个模块的操作和/或功能,分别为了实现上述方法实施例中的相应流程。具体可参见本申请图1~图5所示方法实施例中的描述,为避免重复,此处适当省略详细描述。
应理解,图7所示的电子设备700中的处理器710可以是片上系统SOC,该处理器710中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等。
总之,处理器710内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器730中。
本申请还提供一种电子设备,所述设备包括存储介质和中央处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述中央处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现本申请图1A~图5所示实施例提供的方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请图1A~图5所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请图1A~图5所示实施例提供的方法。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种视频播放方法,其特征在于,包括:
将目标视频片段的至少一种数据输入第一模型,得到所述至少一种数据的类别;所述至少一种数据包括:音频数据,和/或图像数据,和/或字幕数据;所述第一模型用于检测所述至少一种数据的类别;
根据所述至少一种数据的类别确定所述目标视频片段的解码码率;不同类别对应的解码码率基于用户对于所述类别的数据的心理感知进行设置,对所述用户的心理感知上更容易感兴趣的数据的类别设置视觉效果相对更好的解码码率;
接收到所述目标视频片段的解码指令,根据确定的所述解码码率对所述目标视频片段进行解码,得到第一数据;所述第一数据是所述目标视频片段解码后的数据;
播放所述第一数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一种数据的类别确定所述目标视频片段的解码码率,包括:
根据预设的类别与解码码率之间的对应关系,确定所述至少一种数据的类别对应的解码码率,作为所述目标视频片段的解码码率。
3.根据权利要求1所述的方法,其特征在于,所述根据所述至少一种数据的类别确定所述目标视频片段的解码码率,包括:
根据所述至少一种数据的类别确定所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率;
所述根据确定的所述解码码率对所述目标视频片段进行解码,包括:
使用确定的所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率,对所述目标视频片段进行解码。
4.根据权利要求3所述的方法,其特征在于,所述根据所述至少一种数据的类别确定所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率,包括:
根据预设的类别与帧率,和/或视频封装格式,和/或码率流,和/或分辨率之间的对应关系,确定所述至少一种数据的类别对应的帧率,和/或视频封装格式,和/或码率流,和/或分辨率,作为所述目标视频片段的帧率,和/或视频封装格式,和/或码率流,和/或分辨率。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述播放所述第一数据,包括:
根据所述至少一种数据的类别、以及对所述目标视频片段进行解码所使用的视频封装格式确定所述目标视频片段的播放倍速;
按照所述播放倍速播放所述第一数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述至少一种数据的类别、以及对所述目标视频片段解码所使用的视频封装格式确定所述目标视频片段的播放倍速,包括:
获取对所述目标视频片段解码所使用的视频封装格式;
根据预设的所述至少一种数据的类别、视频封装格式以及播放倍速之间的对应关系,确定所述至少一种数据的类别以及所述目标视频片段的视频封装格式对应的播放倍速,作为所述目标视频片段的播放倍速。
7.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
接收到对目标视频文件的播放指令,将所述目标视频文件划分为视频片段,从划分得到的所述视频片段中确定目标视频片段。
8.根据权利要求7所述的方法,其特征在于,所述从划分得到的所述视频片段中确定目标视频片段,包括:
将播放位置靠前的第一数量个视频片段之后的视频片段,依次确定为所述目标视频片段。
9.根据权利要求7所述的方法,其特征在于,接收到对目标视频文件的播放指令之后,还包括:
接收到针对于目标视频文件的动态解码控制指令;
所述将所述目标视频文件划分为视频片段,包括:
将未解码的目标视频文件划分为视频片段。
10.根据权利要求1至4任一项所述的方法,其特征在于,所述第一模型预先训练得到,所述训练方法包括:
获取标注有类别的训练样本;每个所述训练样本包括:所述至少一种数据中各数据的样本;
将所述训练样本输入预设模型进行训练,得到所述第一模型。
11.根据权利要求10所述的方法,其特征在于,所述获取标注有类别的训练样本,包括:
获取训练样本;
确定所述训练样本的类别,将所述训练样本标注为确定的所述类别。
12.根据权利要求1至4任一项所述的方法,其特征在于,所述至少一种数据包括:音频数据,所述音频数据的类别包括:对话、和非对话,或者,自然声、和人声,或者,自然声、普通话和方言;或者,
所述至少一种数据包括:字幕数据,所述字幕数据的类别包括:对话、和非对话,或者,背景内容介绍、和人物关系;或者,
所述至少一种数据包括:图像数据,所述图像数据的类别包括:人物场景、和空镜头,或者,打斗场景、非打斗场景和空镜头;或者,
所述至少一种数据包括:音频数据和字幕数据,所述音频数据和字幕数据的类别包括:对话、和非对话;或者,
所述至少一种数据包括:音频数据和图像数据,所述音频数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头;或者,
所述至少一种数据包括:字幕数据和图像数据,所述字幕数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头;或者,
所述至少一种数据包括:音频数据、字幕数据和图像数据,所述音频数据、字幕数据和图像数据的类别包括:对话人物场景、对话空镜头、非对话人物场景、非对话空镜头。
13.一种视频播放装置,其特征在于,包括:
类别检测单元,用于将目标视频片段的至少一种数据输入第一模型,得到所述至少一种数据的类别;所述至少一种数据包括:音频数据,和/或图像数据,和/或字幕数据;所述第一模型用于检测所述至少一种数据的类别;
码率确定单元,用于根据所述至少一种数据的类别确定所述目标视频片段的解码码率;不同类别对应的解码码率基于用户对于所述类别的数据的心理感知进行设置,对所述用户的心理感知上更容易感兴趣的数据的类别设置视觉效果相对更好的解码码率;
解码单元,用于接收到所述目标视频片段的解码指令,根据确定的所述解码码率对所述目标视频片段进行解码,得到第一数据;所述第一数据是所述目标视频片段解码后的数据;
播放单元,用于播放所述第一数据。
14.一种电子设备,其特征在于,包括:
显示屏;一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行权利要求1至12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604741.2A CN112839256B (zh) | 2020-12-30 | 2020-12-30 | 视频播放方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604741.2A CN112839256B (zh) | 2020-12-30 | 2020-12-30 | 视频播放方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112839256A CN112839256A (zh) | 2021-05-25 |
CN112839256B true CN112839256B (zh) | 2022-06-17 |
Family
ID=75925291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011604741.2A Active CN112839256B (zh) | 2020-12-30 | 2020-12-30 | 视频播放方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112839256B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113395551A (zh) * | 2021-07-20 | 2021-09-14 | 珠海极海半导体有限公司 | 处理器、npu芯片和电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101033442B1 (ko) * | 2008-06-12 | 2011-05-09 | 주식회사 몬도시스템즈 | 영상 처리 시스템에서 비트 레이트를 제어하는 장치 및방법 |
JP2009301638A (ja) * | 2008-06-12 | 2009-12-24 | Toshiba Corp | 情報記憶媒体、情報再生装置、及び情報再生方法 |
CN105139792B (zh) * | 2015-08-18 | 2018-04-20 | 京东方科技集团股份有限公司 | 显示方法和显示装置 |
CN107094263B (zh) * | 2017-03-13 | 2019-04-19 | 华为技术有限公司 | 一种视频播放方法、用户终端以及服务器 |
CN108683826B (zh) * | 2018-05-15 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN109413480B (zh) * | 2018-09-30 | 2021-10-08 | Oppo广东移动通信有限公司 | 画面处理方法、装置、终端及存储介质 |
CN111010619A (zh) * | 2019-12-05 | 2020-04-14 | 北京奇艺世纪科技有限公司 | 处理短视频数据的方法、装置、计算机设备和存储介质 |
CN111491203B (zh) * | 2020-03-16 | 2023-01-24 | 浙江大华技术股份有限公司 | 视频回放方法、装置、设备和计算机可读存储介质 |
CN111327967B (zh) * | 2020-03-27 | 2022-02-08 | 深圳市酷开网络科技股份有限公司 | 视频智能倍速播放方法、系统及存储介质 |
CN111541900B (zh) * | 2020-04-28 | 2022-05-17 | 山东浪潮科学研究院有限公司 | 基于gan的安防视频压缩方法、装置、设备及存储介质 |
CN111787357A (zh) * | 2020-07-28 | 2020-10-16 | 联想(北京)有限公司 | 一种视频处理方法及电子设备 |
-
2020
- 2020-12-30 CN CN202011604741.2A patent/CN112839256B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112839256A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11308332B1 (en) | Intelligent content rating determination using multi-tiered machine learning | |
CN111010586B (zh) | 基于人工智能的直播方法、装置、设备及存储介质 | |
TWI619114B (zh) | 環境敏感之自動語音辨識的方法和系統 | |
CN115145529B (zh) | 语音控制设备的方法及电子设备 | |
CN112543342B (zh) | 虚拟视频直播处理方法及装置、存储介质、电子设备 | |
JP7269286B2 (ja) | 字幕生成方法および字幕生成装置 | |
US10999566B1 (en) | Automated generation and presentation of textual descriptions of video content | |
US9898850B2 (en) | Support and complement device, support and complement method, and recording medium for specifying character motion or animation | |
CN112399258B (zh) | 直播回放视频生成播放方法、装置、存储介质及电子设备 | |
CN113570686A (zh) | 虚拟视频直播处理方法及装置、存储介质、电子设备 | |
WO2023011221A1 (zh) | 混合变形值的输出方法及存储介质、电子装置 | |
CN111263227A (zh) | 一种多媒体播放方法、装置和存储介质 | |
CN106686445A (zh) | 对多媒体文件进行按需跳转的方法 | |
CN112839256B (zh) | 视频播放方法、装置和电子设备 | |
CN112822546A (zh) | 基于内容感知的倍速播放方法、系统、存储介质和设备 | |
CN110992926A (zh) | 语音合成方法、装置、系统和存储介质 | |
CN103929640A (zh) | 用于管理视频流播的技术 | |
CN103270764A (zh) | 用于处理视频信号的方法和设备 | |
CN113821188A (zh) | 调整音频播放速度的方法、装置、电子设备及存储介质 | |
CN110781327B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
JP2010124391A (ja) | 情報処理装置、機能設定方法及び機能設定プログラム | |
CN114255737B (zh) | 语音生成方法、装置、电子设备 | |
WO2020234939A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN117036555A (zh) | 数字人的生成方法、装置和数字人的生成系统 | |
CN111265851A (zh) | 数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |