CN112822546A - 基于内容感知的倍速播放方法、系统、存储介质和设备 - Google Patents

基于内容感知的倍速播放方法、系统、存储介质和设备 Download PDF

Info

Publication number
CN112822546A
CN112822546A CN202011606246.5A CN202011606246A CN112822546A CN 112822546 A CN112822546 A CN 112822546A CN 202011606246 A CN202011606246 A CN 202011606246A CN 112822546 A CN112822546 A CN 112822546A
Authority
CN
China
Prior art keywords
video
speed
scene
character
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011606246.5A
Other languages
English (en)
Inventor
刘夏聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Geehy Semiconductor Co Ltd
Original Assignee
Zhuhai Geehy Semiconductor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Geehy Semiconductor Co Ltd filed Critical Zhuhai Geehy Semiconductor Co Ltd
Priority to CN202011606246.5A priority Critical patent/CN112822546A/zh
Publication of CN112822546A publication Critical patent/CN112822546A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明实施例提供了基于内容感知的倍速播放方法、系统、存储介质和计算机设备。本发明实施例提供的技术方案中,读取目标音视频;将目标音视频输入具备指定功能的AI模型,输出识别结果;根据识别结果,从设定的多个待选倍速指令中确定出倍速指令;基于倍速指令,对目标音视频进行播放,可以基于用户听觉和视觉上的心理感知进行动态调整播放倍速,提高用户体验,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力。

Description

基于内容感知的倍速播放方法、系统、存储介质和设备
【技术领域】
本发明涉及视频倍速播放技术领域,尤其涉及基于内容感知的倍速播放方法、系统和存储介质。
【背景技术】
目前各类视频节目层出不穷,海量的综艺节目和长篇电视剧等可供用户观看,用户在观看视频节目时,若需要尽快看完一部视频节目,用户可以选择倍速播放、跳跃播放或人工拖动进度条;在倍速播放中,对数字信号处理器(Digital Signal Processing,简称:DSP)配置是根据应用层预先设置好的解码倍速来进行运算,该应用层设置很多时候是根据用户设定或者操作系统的功耗策略来定义的。
现有技术中,跳跃播放或人工拖动进度条属于手工操作,会影响流畅的观看体验,且用户难以浏览全部内容,并有可能错过真正感兴趣的视频内容;用户使用倍速播放时,虽然能观看完整剧情,但仍会播放用户不感兴趣的内容,需要用户频繁干预调速,并且关键剧情仍需要用户手动恢复正常播放以保证观看效果,倍速过快容易错过重要信息,倍速过慢容易浪费时间,用户体验较低,播放设备的功耗较高。
【发明内容】
有鉴于此,本发明实施例提供了基于内容感知的倍速播放方法、系统和存储介质,可以基于用户听觉和视觉上的心理感知进行动态调整播放倍速,提高用户体验,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力。
一方面,本发明实施例提供了一种基于内容感知的倍速播放方法,所述方法包括:
读取目标音视频;
将目标音视频输入具备指定功能的人工智能模型,输出识别结果;
根据识别结果,从设定的多个待选倍速指令中确定出倍速指令;
基于倍速指令,对目标音视频进行播放。
可选地,基于倍速指令,实时地对目标音视频进行倍速播放。
可选地,在将目标音视频输入具备指定功能的人工智能模型,输出识别结果之前,还包括:
读取培育音视频;
基于设定的一种或多种培育类别对培育音视频进行分类,生成一种或多种类别的培育音视频;
将一种或多种类别的培育音视频输入神经网络算法,构建出具备指定功能的人工智能模型。
可选地,可选的具备指定功能的人工智能模型:P(X│V)=αX+βY+γZ其中X为培育音频数据,Y为培育字幕数据,Z为培育视频数据,α、β、γ为AI培育过程中待计算参数,P(X│V)为识别不同类别的音视频片段,对倍速播放参数设置。
可选地,在读取目标音视频之后,还包括:
若目标音视频包括目标视频,降低目标视频的解码精度。
可选地,在根据识别结果,从设定的多个待选倍速指令中确定出倍速指令之后,还包括:
查询出识别结果对应的解码精度指令;
基于解码精度指令,对目标音视频进行播放。
可选地,从设定的多个待选倍速指令中确定出倍速指令,包括:
根据识别结果和目标音视频,从设定的多个待选倍速指令中确定出倍速指令。
可选地,识别结果包括人物关系介绍场景或非人物关系介绍场景;
根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于识别结果包括人物关系介绍场景,根据人物关系介绍场景和目标音视频,从设定的多个待选倍速指令中确定出倍速指令;
响应于识别结果包括非人物关系介绍场景,根据非人物关系介绍场景和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令。
可选地,识别结果包括对话场景或非对话场景;
根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于识别结果包括对话场景,根据对话场景和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令;
响应于识别结果包括非对话场景,根据非对话场景和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令。
可选地,识别结果包括人物场景或非人物场景;
根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于识别结果包括人物场景,根据人物场景和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令;
响应于识别结果包括非人物场景,根据非人物场景和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令。
可选地,识别结果包括人物对话场景、非人物非对话场景、人物非对话场景或非人物对话场景;
根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于识别结果包括人物对话场景,根据人物对话场景和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令;
响应于识别结果包括非人物非对话场景,根据非人物非对话场景和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令;
响应于识别结果包括人物非对话场景,根据目标音视频格式和人物非对话场景,从设定的多个待选倍速指令中确定出倍速指令;
响应于识别结果包括非人物对话场景,根据目标音视频格式和非人物对话场景,从设定的多个待选倍速指令中确定出倍速指令。
可选地,根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于识别结果与设定的第一条件匹配,根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,第一条件包括人物、人物关系介绍和对话场景;非人物、人物关系介绍和非对话场景;非人物、非人物关系介绍和对话场景中之一。
可选地,根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于识别结果与设定的第二条件匹配,根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,第二条件包括人物、非人物关系介绍和对话场景;人物、人物关系介绍和非对话场景;非人物、人物关系介绍和对话场景中之一。
可选地,根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于识别结果与设定的第三条件匹配,根据识别结果和目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令,第三条件包括:人物、非人物关系介绍和非对话场景;非人物、非人物关系介绍和非对话场景中之一。
可选地,目标音视频包括目标音频、目标视频和目标字幕中之一或其任意组合。
可选地,培育音视频包括培育音频、培育视频和培育字幕中之一或其任意组合。
另一方面,本发明实施例提供了一种基于内容感知的倍速播放系统,包括:
读取模块,用于读取目标音视频;
人工智能模块,用于将目标音视频输入具备指定功能的人工智能模型,输出识别结果;
播放控制模块,用于根据识别结果,从设定的多个待选倍速指令中确定出倍速指令;
播放模块,用于基于倍速指令,对目标音视频进行播放。
另一方面,本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述基于内容感知的倍速播放方法。
另一方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现上述基于内容感知的倍速播放方法。
本发明实施例的方案中,读取目标音视频;将目标音视频输入具备指定功能的AI模型,输出识别结果;根据识别结果从设定的多个待选倍速指令中确定出倍速指令;基于倍速指令,对目标音视频进行播放,可以基于用户听觉和视觉上的心理感知进行动态调整播放倍速,提高用户体验,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于内容感知的倍速播放方法的流程图;
图2为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图;
图3为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图;
图4为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图;
图5为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图;
图6为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图;
图7为本发明实施例提供的一种基于内容感知的倍速播放系统的结构示意图;
图8为本发明实施例提供的一种计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述设定阈值,但这些设定阈值不应限于这些术语。这些术语仅用来将设定阈值彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一设定阈值也可以被称为第二设定阈值,类似地,第二设定阈值也可以被称为第一设定阈值。
首先对本发明所涉及的名词进行解释:
人工智能(Artificial Intelligence,简称:AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
数字信号处理器(Digital Signal Processor,简称:DSP),是一种适合于进行数字信号处理运算的微处理器,其主要应用是实时快速地实现各种数字信号处理算法。
图1为本发明实施例提供的一种基于内容感知的倍速播放方法的流程图,如图1所示,该方法包括:
步骤101、读取培育音视频。
本发明实施例中,培育音视频包括培育音频、培育视频和培育字幕中之一或其任意组合。培育音视频包括多个特征,例如:若培育音视频包括培育字幕,培育字幕的特征包括字体大小、词语结构、语法和时间属性中之一或其任意组合;若培育音视频包括培育音频,培育音频的特征包括音量、音色、音频和声音的空间分布中之一或其任意组合;若培育音视频包括培育视频,培育视频包括画面亮度、画面色彩和画面纹理中之一或其任意组合。
本发明实施例中,培育音视频文件存储于寄存器中,可以从寄存器中读取培育音视频。
步骤102、基于设定的一种或多种培育类别对培育音视频进行分类,生成一种或多种类别的培育音视频。
本发明实施例中,培育类别可以根据培育音视频的特征进行设定。例如:将培育类别设定为对话类别、背景内容介绍类别或者人物关系介绍类别。
步骤103、将一种或多种类别的培育音视频输入神经网络算法,构建出具备指定功能的人工智能(Artificial Intelligence,简称:AI)模型。
本发明实施例中,利用大量加速器,通过将一种或多种培育类别的培育音视频输入神经网络算法,计算得到神经网络最优参数,从而构建出具备指定功能的AI模型。通俗而言,便是给机器“投喂”大量的数据,让它学会识别对象。作为一种可选方案,加速器包括图形处理器(Graphics Processing Unit,简称:GPU)或中央处理器(Central ProcessingUnit,简称:CPU)等能提供算力的装置。
可选地,可选的具备指定功能的人工智能模型:P(X│V)=αX+βY+γZ其中X为培育音频数据,Y为培育字幕数据,Z为培育视频数据,α、β、γ为AI培育过程中待计算参数,P(X│V)为识别不同类别的音视频片段,对倍速播放参数设置。
可选地,通过培育音频构建出的AI模型可以识别自然声、人声、普通话和方言,即:该AI模型具备识别自然声、人声、普通话和方言的功能。
可选地,通过培育字幕构建出的AI模型可以识别背景内容介绍和人物关系介绍,即:该AI模型具备识别背景内容介绍和人物关系介绍的功能。
可选地,通过培育视频构建出的AI模型可以识别打斗场景和空镜头,即:该AI模型具备识别打斗场景和空镜头的功能。
可选地,通过包括培育音频和培育视频的叠加音视频构建出的AI模型可以识别室外打斗场景,即:该AI模型具备识别室外打斗场景的功能。
可选地,通过包括培育字幕和培育视频的叠加音视频构建出AI模型可以识别空镜头下的人物关系介绍场景,即:该AI模型具备识别空镜头下的人物关系介绍场景的功能。
可选地,通过包括培育音频和培育字幕的叠加音视频构建出的AI模型可以识别方言介绍人物关系的场景。
步骤104、读取目标音视频。
本发明实施例中,在读取目标音视频之前,接收用户输入的智能调节操作;响应于接收到智能调节操作,读取目标音视频;响应于未接收到智能调节操作,控制目标音视频原速播放。
本发明实施例中,目标音视频包括目标音频、目标视频和目标字幕中之一或其任意组合。例如,目标音视频为歌曲,则目标音视频包括目标音频和目标字幕;目标音视频为电影,则目标音视频包括目标音频、目标字幕和目标视频。其中,目标视频包括目标图像。
进一步地,若该目标音视频包括目标视频,则在读取目标音视频之后,降低目标音视频的解码精度,可以在后续AI模型的分析识别的过程中节省设备功耗。作为一种可选方案,当降低目标音视频的解码精度包括降低分辨率省电策略,将分辨率降低至360P。
步骤105、将目标音视频输入具备指定功能的AI模型,输出识别结果。
步骤106、根据识别结果从设定的多个待选倍速指令中确定出倍速指令。
可选地,根据识别结果和目标音视频格式从设定的多个待选倍速指令中确定出倍速指令。
本发明实施例中,待选倍速指令与目标音视频的格式对应,根据目标音视频的格式可以查询出对应的待选倍速指令,例如:目标音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,识别结果和目标音视频格式与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若目标音视频的格式为MP4格式且目标音视频包括人物场景,放慢目标音视频播放速度,即:将0.5倍速确定为倍速指令。
进一步地,响应于识别结果,还可以对识别结果对应的片段进行解码处理,具体地,可以查询出识别结果对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若识别结果包括非人物场景,查询出对应的分辨率指令为360P,使得以360P分辨率播放非人物场景对应的片段,可以进一步节省设备功耗。
步骤107、基于倍速指令,对目标音视频进行播放。
本发明实施例中,按照倍速指令,控制目标音视频进行播放。
可选地,基于倍速指令,实时地对目标音视频进行倍速播放。
进一步地,按照解码精度指令调节目标音视频的解码精度,从而控制目标视频进行播放。
相较于现有技术,基于用户听觉、视觉上的心理感知,用户在倍速播放视频的过程中,注意力会根据视频内容动态发生改变,例如:当视频出现对话时,用户的注意力会提升,这时候会期望不错过任何细节;当视频呈现过场、风景、细节时,相反的,注意力会下降。本发明实施例利用上述现象以及背后的心理学原理,对AI模型进行培育构建,使构建出的AI模型能够了解用户对音视频各段不同内容播放倍速动态需求,为后续的AI模型自动分类控制硬件加速器实现倍速和调控解码精度奠定基础。
图2为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图,如图2所示,该方法包括:
步骤201、读取培育音视频,培育音视频包括培育字幕。
本发明实施例中,培育字幕包括多个特征,例如:字体大小、词语结构、语法和时间属性中之一或其任意组合。
步骤202、基于设定的一种或多种字幕类别对培育字幕进行分类,生成一种或多种类别的培育字幕。
本发明实施例中,字幕类别可以根据培育字幕的特征进行设定,例如:将字幕类别设定为对话类别、背景内容介绍类别或者人物关系介绍类别。作为一种优选方式,字幕类别设定为对话类别。
步骤203、将一种或多种类别的培育字幕输入神经网络算法,构建出具备第一功能的AI模型。
本发明实施例中,第一功能是能够识别目标音视频中目标字幕的字幕类别的功能,第一功能与字幕类别对应,例如:若字幕类别为人物关系介绍类别,则第一功能为能够识别该字幕是否包括人物关系介绍的功能。
本发明实施例中,以字幕类别设定为人物关系介绍类别为例,将包括人物关系介绍的培育字幕输入神经网络算法,根据培育字幕的特征进行迭代训练,训练出具备该字幕是否包括人物关系介绍功能的AI模型,该人工智能模型具备最优参数。
本发明实施例中,为保证构建出的具备第一功能的AI模型的识别准确率较高,输入神经网络算法的培育字幕的数量应足够多,作为一种优选方式,培育字幕的数量大于1000条。
步骤204、读取目标音视频,目标音视频包括目标字幕。
本发明实施例中,在读取目标音视频之前,接收用户输入的智能调节操作;响应于接收到智能调节操作,读取目标音视频;响应于未接收到智能调节操作,控制目标音视频原速播放。
本发明实施例中,目标字幕为需要识别的字幕。
步骤205、将目标字幕输入具备第一功能的AI模型,输出识别结果。
若识别结果包括人物关系介绍场景,根据人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令(步骤206-1);若识别结果包括非人物关系介绍场景,根据非人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令(步骤206-2)。
步骤207、基于倍速指令,对目标音视频进行播放。
以字幕类别设定为人物关系介绍类别为例,则第一功能为能够识别该字幕上是否包括人物关系介绍,将目标字幕输入具备第一功能的AI模型,AI模型根据目标字幕的特征进行识别并输出识别结果,识别结果包括人物关系介绍场景或非人物关系介绍场景;若识别结果包括人物关系介绍场景,表明目标字幕包括人物关系介绍,根据人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令;若识别结果包括非人物关系介绍场景,表明目标字幕不包括人物关系介绍,根据非人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令;响应于识别结果包括人物关系介绍场景,根据人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令,基于倍速指令,对目标音视频进行播放。
本发明实施例中,待选倍速指令与目标音视频的格式对应,根据目标音视频的格式可以查询出对应的待选倍速指令,例如:目标音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标音视频的格式为MP4格式为例,根据人物关系介绍场景,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,人物关系介绍场景和目标字幕与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若识别结果包括人物关系介绍场景,放慢目标音视频播放速度,即:将0.5倍速确定为倍速指令。
进一步地,响应于识别结果包括人物关系介绍场景,还可以对人物关系介绍场景对应的片段进行解码处理,具体地,可以查询出人物关系介绍场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标字幕包括人物关系介绍,查询出对应的分辨率指令为1080P,使得以1080P分辨率播放人物关系介绍场景对应的片段,可以提高用户体验。
步骤206-2、响应于识别结果包括非人物关系介绍场景,根据非人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令。
本发明实施例中,待选倍速指令与目标音视频的格式对应,根据目标音视频的格式可以查询出对应的待选倍速指令,例如:目标音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标音视频的格式为MP4格式为例,根据非人物关系介绍场景,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,非人物关系介绍场景和目标字幕与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若目标字幕不包括人物关系介绍,加速目标音视频播放速度,即:将1.5倍速确定为倍速指令。
进一步地,响应于识别结果包括非人物关系介绍场景,还可以对非人物关系介绍场景对应的片段进行解码处理,具体地,可以查询出非人物关系介绍场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标字幕不包括人物关系介绍,查询出对应的分辨率指令为360P,使得以360P分辨率播放非人物关系介绍场景对应的片段,可以进一步节省设备功耗。
步骤207、基于倍速指令,对目标音视频进行播放,流程结束。
本发明实施例中,按照倍速指令,控制目标音视频进行播放。
可选地,基于倍速指令,实时地对目标音视频进行倍速播放。
进一步地,按照解码精度指令调节目标音视频的解码精度,从而控制目标音视频进行播放。
本发明实施例中,基于预先构建出的具备第一功能的AI模型自动对目标音视频中的目标字幕进行识别,通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标音视频播放,使得能够以智能变化的最适合用户的倍速播放目标音视频,可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。
图3为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图,如图3所示,该方法包括:
步骤301、读取培育音视频,培育音视频包括培育音频。
本发明实施例中,培育音频包括多个特征。例如:音量、音色、音频和声音的空间分布中之一或其任意组合。
步骤302、基于设定的一种或多种音频类别对培育音频进行分类,生成一种或多种类别的培育音频。
本发明实施例中,音频类别可以根据培育音频的特征进行设定,例如:将音频类别设定为对话类别、自然声类别、人声类别、方言类别或普通话类别。作为一种优选方式,音频类别设定为对话类别。
步骤303、将一种或多种音频类别的培育音频输入神经网络算法,构建出具备第二功能的AI模型。
本发明实施例中,第二功能是能够识别目标音视频中目标音频的音频类别的功能,第二功能与音频类别对应,例如:若音频类别为对话类别,则第二功能为能够识别该音频是否包括对话的功能。
本发明实施例中,以音频类别设定为对话类别为例,将包括对话的培育音频输入神经网络算法,根据培育音频的特征进行迭代训练,训练出具备识别该音频是否包括对话功能的AI模型,该人工智能模型具备最优参数。
本发明实施例中,为保证构建出的具备第二功能的AI模型的识别准确率较高,输入神经网络算法的培育音频的数量应足够多,作为一种优选方式,培育音频的数量大于1000条。
步骤304、读取目标音视频,目标音视频包括目标音频。
本发明实施例中,在读取目标音视频之前,接收用户输入的智能调节操作;响应于接收到智能调节操作,读取目标音视频;响应于未接收到智能调节操作,控制目标音视频原速播放。
本发明实施例中,目标音频为需要识别的音频。
步骤305、将目标音频输入具备第二功能的AI模型,输出识别结果。
若识别结果包括对话场景,根据对话场景和目标音频格式从设定的多个待选倍速指令中确定出倍速指令(步骤306-1);若识别结果包括非对话场景,根据非对话场景和目标音频从设定的多个待选倍速指令中确定出倍速指令(步骤306-2)。
步骤307、基于倍速指令,对目标音视频进行播放。
本发明实施例中,将目标音频输入具备第二功能的AI模型,AI模型根据目标音频的特征进行识别并输出识别结果,识别结果包括对话场景或非对话场景,若识别结果包括对话场景,表明目标音频包括对话,根据对话场景和目标音频格式从设定的多个待选倍速指令中确定出倍速指令;若识别结果包括非对话场景,表明目标音频不包括对话,根据非对话场景和目标音频从设定的多个待选倍速指令中确定出倍速指令;响应于识别结果包括对话场景,根据对话场景和目标音频从设定的多个待选倍速指令中确定出倍速指令,基于倍速指令,对目标音视频进行播放。
本发明实施例中,待选倍速指令与目标音视频的格式对应,根据目标音视频的格式可以查询出对应的待选倍速指令,例如:目标音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标音视频的格式为MP4格式为例,根据对话场景,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,对话场景和目标音频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若目标音频包括对话,放慢目标音视频播放速度,即:将0.5倍速确定为倍速指令。
进一步地,响应于识别结果包括对话场景,还可以对对话场景对应的片段进行解码处理,具体地,可以查询出对话场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标音频包括对话,查询出对应的分辨率指令为1080P,使得以1080P分辨率播放对话场景对应的片段,可以提高用户体验。
步骤306-2、响应于识别结果包括非对话场景,根据非对话场景和目标音频从设定的多个待选倍速指令中确定出倍速指令。
本发明实施例中,待选倍速指令与目标音视频的格式对应,根据目标音视频的格式可以查询出对应的待选倍速指令,例如:目标音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标音视频的格式为MP4格式为例,根据非对话场景,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,非对话场景和目标音频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若目标音频不包括对话,加速目标音视频播放速度,即:将1.5倍速确定为倍速指令。
进一步地,响应于识别结果包括非对话场景,还可以对非对话场景对应的片段进行解码处理,具体地,可以查询出非对话场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标音频不包括对话,查询出对应的分辨率指令为720P,使得以720P分辨率播放非对话场景对应的片段,可以进一步节省设备功耗。
步骤307、基于倍速指令,对目标音视频进行播放,流程结束。
本发明实施例中,按照倍速指令,控制目标音视频进行播放。
可选地,基于倍速指令,实时地对目标音视频进行倍速播放。
进一步地,按照解码精度指令调节目标音视频的解码精度,从而控制目标音视频进行播放。
本发明实施例中,基于预先构建出的具备第二功能的AI模型自动对目标音视频的目标音频进行识别,通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标音视频播放,使得能够以智能变化的最适合用户的倍速播放目标音视频,可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。
图4为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图,如图4所示,该方法包括:
步骤401、读取培育音视频,培育音视频包括培育视频。
本发明实施例中,培育视频包括多个特征。例如:画面亮度、画面色彩和画面纹理中之一或其任意组合。
步骤402、基于设定的一种或多种视频类别对培育视频进行分类,生成一种或多种类别的培育视频。
本发明实施例中,视频类别可以根据培育视频的特征进行设定,例如:将视频类别设定为人物场景类别、打斗场景类别或者空镜头类别。作为一种优选方式,视频类别设定为人物场景类别。
步骤403、将一种或多种类别的培育视频输入神经网络算法,构建出具备第三功能的AI模型。
本发明实施例中,第三功能是能够识别目标音视频中目标视频的视频类别的功能,第三功能与视频类别对应,例如:若视频类别为人物场景类别,则第三功能为能够识别该视频是否为人物场景的功能。
本发明实施例中,以视频类别设定为人物场景类别为例,将包括人物场景的培育视频输入神经网络算法,根据培育视频的特征进行迭代训练,训练出具备识别该视频是否为人物场景功能的AI模型,该人工智能模型具备最优参数。
本发明实施例中,为保证构建出的具备第三功能的AI模型的识别准确率较高,输入神经网络算法的培育视频的数量应足够多,作为一种优选方式,培育视频的数量大于1000条。
步骤404、读取目标音视频,目标音视频包括目标视频。
本发明实施例中,在读取目标音视频之前,接收用户输入的智能调节操作;响应于接收到智能调节操作,读取目标音视频;响应于未接收到智能调节操作,控制目标音视频原速播放。
本发明实施例中,目标视频为需要识别的视频。
进一步地,读取目标音视频之后,降低目标音视频的解码精度,可以在后续AI模型的分析识别的过程中节省设备功耗。作为一种可选方案,当解码精度包括分辨率时,将分辨率降低至360P。
步骤405、将目标视频输入具备第三功能的AI模型,输出识别结果。
若识别结果包括人物场景,根据人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令(步骤406-1);若识别结果包括非人物场景,根据非人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令(步骤406-2)。
步骤407、基于倍速指令,对目标视频进行播放。
本发明实施例中,将目标视频输入具备第三功能的AI模型,AI模型根据目标视频的特征进行识别并输出识别结果,识别结果包括人物场景或非人物场景,若识别结果包括人物场景,表明目标视频包括人物场景,根据人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令;若识别结果包括非人物场景,表明目标视频不包括人物场景,根据非人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令;基于倍速指令,对目标音视频进行播放。
本发明实施例中,待选倍速指令与目标音视频的格式对应,根据目标音视频的格式可以查询出对应的待选倍速指令,例如:目标音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标音视频的格式为MP4格式为例,根据人物场景,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,人物场景和目标视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若目标视频包括人物场景,放慢目标音视频播放速度,即:将0.5倍速确定为倍速指令。
进一步地,响应于识别结果包括人物场景,还可以对人物场景对应的片段进行解码处理,具体地,可以查询出人物场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标视频包括人物场景,查询出对应的分辨率指令为1080P,使得以1080P分辨率播放人物场景对应的片段,可以提高用户体验。
步骤406-2、响应于识别结果包括非人物场景,根据非人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令。
本发明实施例中,待选倍速指令与目标音视频的格式对应,根据目标音视频的格式可以查询出对应的待选倍速指令,例如:目标音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标音视频的格式为MP4格式为例,根据非人物场景,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,非人物场景和目标视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若目标视频包括非人物场景,加速目标音视频播放速度,即:将1.5倍速确定为倍速指令。
进一步地,响应于识别结果包括非人物场景,还可以对非人物场景对应的片段进行解码处理,具体地,可以查询出非人物场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标视频包括非人物场景,查询出对应的分辨率指令为360P,以使得以360P分辨率播放非人物场景对应的片段,可以进一步节省设备功耗。
步骤407、基于倍速指令,对目标音视频进行播放,流程结束。
本发明实施例中,按照倍速指令,控制目标音视频进行播放。
可选地,基于倍速指令,实时地对目标音视频进行倍速播放。
进一步地,按照解码精度指令调节目标音视频的解码精度,从而控制目标音视频进行播放。
本发明实施例中,基于预先构建出的具备第三功能的AI模型自动对目标音视频的目标视频进行识别,通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标音视频播放,使得能够以智能变化的最适合用户的倍速播放目标音视频,可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。
图5为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图,如图5所示,该方法包括:
步骤501、读取培育音视频,培育音视频包括第一叠加音视频。
本发明实施例中,第一叠加音视频为包括音频和视频的叠加音视频,第一叠加音视频包括多个特征,例如:画面亮度和音量。
步骤502、基于设定的第一叠加类别对第一叠加音视频进行分类,生成一种或多种类别的第一叠加音视频。
本发明实施例中,第一叠加类别可以根据第一叠加音视频的特征进行设定,例如:将第一叠加类别设定为人物场景类别和对话场景类别的叠加类别,则第一叠加类别包括人物对话场景类别、人物非对话场景类别、非人物对话场景类别和非人物非对话场景类别。
步骤503、将一种或多种类别的第一叠加音视频输入神经网络算法,构建出具备第四功能的AI模型。
本发明实施例中,第四功能是能够识别目标叠加音视频中音频和视频的第一叠加类别的功能,第四功能与第一叠加类别对应,例如:若第一叠加类别为人物场景类别和对话场景类别的叠加类别,则第四功能为能够识别该叠加音视频是否为人物场景和/或对话场景的功能。
本发明实施例中,以第一叠加类别为人物场景类别和对话场景类别的叠加类别为例,将包括人物场景和/或对话场景的第一叠加音视频输入神经网络算法,根据第一叠加音视频的特征进行迭代训练,训练出具备识别该视频是否为人物场景和/或对话场景功能的AI模型,该人工智能模型具备最优参数。
本发明实施例中,为保证构建出的具备第四功能的AI模型的识别准确率较高,输入神经网络算法的第一叠加音视频的数量应足够多,作为一种优选方式,第一叠加视频的数量大于1000条。
步骤504、读取目标音视频,目标音视频包括目标叠加音视频。
本发明实施例中,在读取目标音视频之前,接收用户输入的智能调节操作;响应于接收到智能调节操作,读取目标音视频;响应于未接收到智能调节操作,控制目标音视频原速播放。
本发明实施例中,目标叠加音视频为需要识别的叠加音视频,目标叠加音视频由目标音频和目标视频叠加组成。
进一步地,读取目标音视频之后,降低目标音视频的解码精度,可以在后续AI模型的分析识别的过程中节省设备功耗。作为一种可选方案,当解码精度包括分辨率时,将分辨率降低至360P。
步骤505、将目标叠加音视频输入具备第四功能的AI模型,输出识别结果。
若识别结果包括人物对话场景,根据人物对话场景和目标叠加音视频格式从设定的多个待选倍速指令中确定出倍速指令(步骤506-1);若识别结果包括非人物非对话场景,根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令(执行步骤506-2);若识别结果包括人物非对话场景或者非人物对话场景,根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令(执行步骤506-3)。
步骤507、基于倍速指令,对目标叠加音视频进行播放。
本发明实施例中,将目标叠加音视频输入具备第四功能的AI模型,AI模型根据目标叠加音视频的特征进行识别并输出识别结果,识别结果包括四种可能结果,分别是人物对话场景、人物非对话场景、非人物对话场景或非人物非对话场景,若识别结果包括人物对话场景,表明该目标叠加既包括人物场景又包括对话场景,根据人物对话场景和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令;若识别结果包括非人物非对话场景,表明该目标叠加音视频既不包括人物场景又不包括对话场景,根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令;若识别结果包括人物非对话场景,表明该目标叠加音视频包括人物场景但不包括对话场景,根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令;若识别结果包括非人物对话场景,表明该目标叠加音视频不包括人物场景但包括对话场景,根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令;基于倍速指令,对目标叠加音视频进行播放。
本发明实施例中,待选倍速指令与目标叠加音视频的格式对应,根据目标叠加音视频的格式可以查询出对应的待选倍速指令,例如:目标叠加音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标叠加音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标叠加音视频的格式为H.264格式为例,根据人物对话场景,从0.8倍速、1倍速、1.6倍速或3倍速中确定出对应的倍速指令。具体地,人物对话场景和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若识别结果包括人物对话场景,放慢目标叠加音视频播放速度,即:将0.8倍速确定为倍速指令。
进一步地,响应于识别结果包括人物对话场景,还可以对人物对话场景对应的片段进行解码处理,具体地,可以查询出人物对话场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标叠加音视频包括人物对话场景,查询出对应的分辨率指令为1080P,使得以1080P分辨率播放人物对话场景对应的片段,可以提高用户体验。
步骤506-2、响应于识别结果包括非人物非对话场景,根据非人物非对话场景和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令,基于倍速指令,对目标叠加音视频进行播放(步骤507)。
本发明实施例中,待选倍速指令与目标叠加音视频的格式对应,根据目标叠加音视频的格式可以查询出对应的待选倍速指令,例如:目标叠加音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标叠加音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标叠加音视频的格式为H.264格式为例,根据非人物非对话场景,从0.8倍速、1倍速、1.6倍速或3倍速中确定出对应的倍速指令。具体地,非人物非对话场景和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若识别结果包括非人物非对话场景,加速目标叠加音视频播放速度,即:将3倍速确定为倍速指令。
进一步地,响应于识别结果包括非人物非对话场景,还可以对非人物非对话场景对应的片段进行解码处理,具体地,可以查询出非人物非对话场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标叠加音视频包括非人物非对话场景,查询出对应的分辨率指令为360P,以使得以360P分辨率播放非人物非对话场景对应的片段,可以进一步节省设备功耗。
步骤506-3、响应于识别结果包括人物非对话场景或者非人物对话场景,根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令。
本发明实施例中,待选倍速指令与目标叠加音视频的格式对应,根据目标叠加音视频的格式可以查询出对应的待选倍速指令,例如:目标叠加音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标叠加音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标叠加音视频的格式为H.264格式为例,根据人物非对话场景或者非人物对话场景,从0.8倍速、1倍速、1.6倍速或3倍速中确定出对应的倍速指令。具体地,非人物对话场景和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若识别结果包括非人物对话场景,保持目标叠加音视频播放速度不变,即:将1倍速确定为倍速指令;具体地,人物非对话场景和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若识别结果包括人物非对话场景,保持目标叠加音视频播放速度不变,即:将1倍速确定为倍速指令。
进一步地,响应于识别结果包括人物非对话场景或者非人物对话场景,还可以对人物非对话场景或者非人物对话场景对应的片段进行解码处理,具体地,可以查询出人物非对话场景或者非人物对话场景对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若目标叠加音视频包括人物非对话场景或者非人物对话场景,查询出对应的分辨率指令为720P,以使得以720P分辨率播放人物非对话场景或者非人物对话场景对应的片段,可以提高用户体验。
步骤507、基于倍速指令,对目标叠加音视频进行播放,流程结束。
本发明实施例中,按照倍速指令,控制目标叠加音视频进行播放。
可选地,基于倍速指令,实时地对目标音视频进行倍速播放。
进一步地,按照解码精度指令调节目标叠加音视频的解码精度,从而控制目标叠加音视频进行播放。
本发明实施例中,基于预先构建出的具备第四功能的AI模型自动对目标音视频的音频和视频进行识别,通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标叠加音视频播放,使得能够以智能变化的最适合用户的倍速播放目标叠加音视频,可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。
本发明实施例中,还可以通过其它方式构建具备第四功能的AI模型,本发明实施例在此仅作示例性展示,并不对此做出限定。
作为一种可选方案,读取培育音视频,培育音视频包括第二叠加音视频,第二叠加音视频为包括字幕和视频的叠加音视频,第二叠加音视频包括多个特征,例如:画面亮度和词语结构;基于设定的第二叠加类别对第二叠加音视频进行分类,生成一种或多种类别的第二叠加音视频;将第二叠加类别的第二叠加音视频输入神经网络算法,构建出具备第四功能的AI模型,第五功能是能够识别目标叠加音视频中字幕和视频的第二叠加类别的功能,第五功能与第二叠加类别对应,例如:若第二叠加类别为人物场景类别和对话场景类别的叠加类别,则第五功能为能够识别该叠加音视频是否为人物场景和/或对话场景的功能。本发明实施例中,可以通过具备第五功能的AI模型对自动第二叠加音视频进行识别,通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标叠加音视频播放,使得能够以智能变化的最适合用户的倍速播放目标叠加音视频,可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。
作为一种可选方案,读取培育音视频,培育音视频包括第三叠加音视频,第三叠加音视频为包括字幕和音频的叠加音视频,第三叠加音视频包括多个特征,例如:音量和时间属性;基于设定的第三叠加类别对第三叠加音视频进行分类,生成一种或多种类别的第三叠加音视频;将第三叠加类别的第三叠加音视频输入神经网络算法,构建出具备第六功能的AI模型,第六功能是能够识别目标叠加音视频中字幕和音频的第三叠加类别的功能,第六功能与第三叠加类别对应,例如:若第三叠加类别为对话类别和普通话类别的叠加类别,则第六功能为能够识别该叠加音视频是否为普通话对话场景的功能。本发明实施例中,可以通过具备第六功能的AI模型对自动第三叠加音视频进行识别,通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标叠加音视频播放,使得能够以智能变化的最适合用户的倍速播放目标叠加音视频,可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。
图6为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图,如图6所示,该方法包括:
步骤601、读取培育音视频,培育音视频包括第四叠加音视频。
本发明实施例中,第四叠加音视频为包括字幕、音频和视频的叠加音视频,第四叠加音视频包括多个特征,例如:字体大小、画面亮度和声音的空间分布。
步骤602、基于设定的第四叠加类别对第四叠加音视频进行分类,生成一种或多种叠加类别的第四叠加音视频。
本发明实施例中,第四叠加类别可以根据第四叠加音视频的特征进行设定,例如:将第四叠加类别设定为人物场景类别、人物关系介绍场景类别和对话场景类别的叠加类别,则第四叠加类别包括人物、人物关系介绍和对话场景类别;非人物、人物关系介绍和非对话场景类别;非人物、非人物关系介绍和对话场景类别;人物、非人物关系介绍和对话场景类别;人物、人物关系介绍和非对话场景类别;非人物、人物关系介绍和对话场景类别;人物、非人物关系介绍和非对话场景类别;非人物、非人物关系介绍和非对话场景类别。
步骤603、将一种或多种类别的第四叠加音视频输入神经网络算法,构建出具备第七功能的AI模型。
本发明实施例中,第七功能是能够识别目标叠加音视频中音频、字幕和视频的第四叠加类别的功能,第七功能与第四叠加类别对应,例如:若第四叠加类别为人物场景类别、人物关系介绍场景类别和对话场景类别的叠加类别,则第七功能为能够识别该叠加音视频是否包括人物、人物关系介绍和对话中之一或其任意组合的功能。
本发明实施例中,以第四叠加类别为人物场景类别、人物关系介绍场景类别和对话场景类别的叠加类别为例,将包括人物场景和/或人物关系介绍和/或对话场景的第四叠加音视频输入神经网络算法,根据第四叠加音视频的特征进行迭代训练,训练出具备识别该视频是否包括人物、人物关系介绍和对话中之一或其任意组合功能的AI模型,该人工智能模型具备最优参数。
本发明实施例中,为保证构建出的具备第七功能的AI模型的识别准确率较高,输入神经网络算法的第四叠加音视频的数量应足够多,作为一种优选方式,第一叠加视频的数量大于1000条。
步骤604、读取目标音视频,目标音视频包括目标叠加音视频。
本发明实施例中,在读取目标音视频之前,接收用户输入的智能调节操作;响应于接收到智能调节操作,读取目标音视频;响应于未接收到智能调节操作,控制目标音视频原速播放。
本发明实施例中,目标叠加音视频为需要识别的叠加音视频,目标叠加音视频由目标字幕、目标音频和目标视频叠加组成。
进一步地,读取目标音视频之后,降低目标音视频的解码精度,可以在后续AI模型的分析识别的过程中节省设备功耗。作为一种可选方案,当解码精度包括分辨率时,将分辨率降低至360P。
步骤605、将目标叠加音视频输入具备第七功能的AI模型,输出识别结果。若识别结果与设定的第一条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令(步骤606-1);若识别结果与设定的第二条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令(步骤606-2);若识别结果与设定的第三条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令(步骤606-3)。
步骤607、基于倍速指令,对目标叠加音视频进行播放。
本发明实施例中,将目标叠加音视频输入具备第七功能的AI模型,AI模型根据目标叠加音视频的特征进行识别并输出识别结果,识别结果包括四种可能结果,分别是:人物、人物关系介绍和对话场景;非人物、人物关系介绍和非对话场景;非人物、非人物关系介绍和对话场景;人物、非人物关系介绍和对话场景;人物、人物关系介绍和非对话场景;非人物、人物关系介绍和对话场景;人物、非人物关系介绍和非对话场景;非人物、非人物关系介绍和非对话场景。
本发明实施例中,第一条件可以根据实际情况进行设置,作为一种可选方案,第一条件包括:人物、人物关系介绍和对话场景;非人物、人物关系介绍和非对话场景;非人物、非人物关系介绍和对话场景。第二条件可以根据实际情况进行设置,作为一种可选方案,第二条件包括:人物、非人物关系介绍和对话场景;人物、人物关系介绍和非对话场景;非人物、人物关系介绍和对话场景。第三条件可以根据实际情况进行设置,作为一种可选方案,第三条件包括:人物、非人物关系介绍和非对话场景;非人物、非人物关系介绍和非对话场景。
例如:若识别结果为人物、人物关系介绍和对话场景,与第一条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令;若识别结果为人物、非人物关系介绍和对话场景,与第二条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令;若识别结果为非人物、非人物关系介绍和非对话场景,与第三条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令。
步骤606-1、响应于识别结果与设定的第一条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令。
本发明实施例中,待选倍速指令与目标叠加音视频的格式对应,根据目标叠加音视频的格式可以查询出对应的待选倍速指令,例如:目标叠加音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标叠加音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标叠加音视频的格式为MP4格式为例,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,识别结果和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若识别结果与设定的第一条件匹配,放慢目标叠加音视频播放速度,即:将0.5倍速确定为倍速指令。
进一步地,响应于识别结果与设定的第一条件匹配,还可以对与第一条件匹配的片段进行解码处理,具体地,可以查询出第一条件对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若识别结果与设定的第一条件匹配,查询出对应的分辨率指令为1080P,以使得以1080P分辨率播放与第一条件匹配的片段,可以提高用户体验。
步骤606-2、响应于识别结果与设定的第二条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令。
本发明实施例中,待选倍速指令与目标叠加音视频的格式对应,根据目标叠加音视频的格式可以查询出对应的待选倍速指令,例如:目标叠加音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标叠加音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标叠加音视频的格式为MP4格式为例,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,识别结果和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若识别结果与设定的第二条件匹配,保持目标叠加音视频播放速度不变,即:将1倍速确定为倍速指令。
进一步地,响应于识别结果与设定的第二条件匹配,还可以对与第二条件匹配的片段进行解码处理,具体地,可以查询出第二条件对应的解码精度指令,例如:解码处理包括分辨率处理,即:可以查询出第二条件对应的解码精度指令包括分辨率指令,若识别结果与设定的第二条件匹配,查询出对应的分辨率指令为720P,以使得以720P分辨率播放与第二条件匹配的片段,可以提高用户体验。
步骤606-3、响应于识别结果与设定的第三条件匹配,根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令。
本发明实施例中,待选倍速指令与目标叠加音视频的格式对应,根据目标叠加音视频的格式可以查询出对应的待选倍速指令,例如:目标叠加音视频的格式为H.264格式,对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速;目标叠加音视频的格式为MP4格式,对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。
本发明实施例中,以目标叠加音视频的格式为MP4格式为例,从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地,识别结果和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置,作为一种可选方案,若识别结果与设定的第三条件匹配,加快目标叠加音视频播放速度,即:将1.5倍速确定为倍速指令。
进一步地,响应于识别结果与设定的第三条件匹配,还可以对与第三条件匹配的片段进行解码处理,具体地,可以查询出第三条件对应的解码精度指令,例如:解码处理包括分辨率处理,即:解码精度指令包括分辨率指令,若识别结果与设定的第三条件匹配,查询出对应的分辨率指令,使得以360P分辨率播放对应目标叠加音视频,可以进一步节省设备功耗。
步骤607、基于倍速指令,对目标叠加音视频进行播放,流程结束。
本发明实施例中,按照倍速指令,控制目标叠加音视频进行播放。
可选地,基于倍速指令,实时地对目标音视频进行倍速播放。
进一步地,按照解码精度指令调节目标叠加音视频的解码精度,从而控制目标叠加音视频进行播放。
本发明实施例中,基于预先构建出的具备第六功能的AI模型自动对目标音视频的音频、字幕和视频进行识别,通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标叠加音视频播放,使得能够以智能变化的最适合用户的倍速播放目标叠加音视频,可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。
图7为本发明实施例提供的一种基于内容感知的倍速播放系统的结构示意图,该系统用于执行上述基于内容感知的倍速播放方法,如图7所示,该系统包括:读取模块11、AI模块12、播放控制模块13和播放模块14。其中,读取模块11与AI模块12连接,AI模块12与播放控制模块13连接,播放控制模块13与播放模块14连接。
本发明实施例中,读取模块11用于读取目标音视频;AI模块12用于将目标音视频输入具备指定功能的AI模型,对输入的目标音视频进行识别,并向播放控制模块13输出识别结果;播放控制模块13用于基于识别结果,从设定的多个待选倍速指令中确定出倍速指令;播放模块14用于基于倍速指令,对目标音视频进行播放。
作为一种可选方案,培育音视频文件存储于该系统的寄存器中,读取模块11可以从寄存器中读取培育音视频。
值得说明的是,目标音视频的还可以有其它的读取方式,本发明实施例在此仅作示例性说明,并不对此做出限定。
本发明实施例中,通过对传统DSP结构进行改动,即:在读取模块11与播放控制模块13之间的数据通路上引入AI模块12,通过预先培育好的AI模块12对目标音视频进行识别并输出识别结果,播放控制模块13根据识别结果和目标音视频动态确定出倍速指令,使得播放模块14根据倍速指令,对目标音视频进行动态播放,最终能够达到改善用户体验且省时省电的目的;进一步地,播放控制模块13可以输出解码指令,控制目标音视频的播放过程中动态解码。
本发明实施例中,图7提供的一种基于内容感知的倍速播放系统还用于执行上述图1至图6所示的一种基于内容感知的倍速播放方法,在此不再一一赘述。
本发明实施例的方案中,读取目标音视频;将目标音视频输入具备指定功能的AI模型,输出识别结果;根据识别结果和目标音视频从设定的多个待选倍速指令中确定出倍速指令;基于倍速指令,对目标音视频进行播放,可以基于用户听觉和视觉上的心理感知进行动态调整播放倍速,提高用户体验,深度挖掘硬件加速设备等播放相关联设备的低功耗潜力。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述基于内容感知的倍速播放方法的实施例的各步骤,具体描述可参见上述基于内容感知的倍速播放方法的实施例。
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述基于内容感知的倍速播放方法的实施例的各步骤,具体描述可参见上述基于内容感知的倍速播放方法的实施例。
图8为本发明实施例提供的一种计算机设备的示意图。如图8所示,该实施例的计算机设备30包括:处理器31、存储器32以及存储在存储32中并可在处理器31上运行的计算机程序33,该计算机程序33被处理器31执行时实现实施例中的应用于基于内容感知的倍速播放方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器31执行时实现实施例中应用于基于内容感知的倍速播放装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备30包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,图8仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器31可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器32可以是计算机设备30的内部存储单元,例如计算机设备30的硬盘或内存。存储器32也可以是计算机设备30的外部存储设备,例如计算机设备30上配备的插接式硬盘,智能存储(Smart Media,SM)卡,安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。进一步地,存储器32还可以既包括计算机设备30的内部存储单元也包括外部存储设备。存储器32用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器32还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种基于内容感知的倍速播放方法,其特征在于,所述方法包括:
读取目标音视频;
将所述目标音视频输入具备指定功能的人工智能模型,输出识别结果;
基于所述识别结果,从设定的多个待选倍速指令中确定出倍速指令;
基于所述倍速指令,对所述目标音视频进行播放。
2.根据权利要求1所述的方法,其特征在于,将所述目标音视频输入具备指定功能的人工智能模型,输出识别结果之前,还包括:
读取培育音视频;
基于设定的一种或多种培育类别对所述培育音视频进行分类,生成一种或多种类别的培育音视频;
将所述一种或多种类别的培育音视频输入神经网络算法,构建出所述具备指定功能的人工智能模型。
3.根据权利要求1所述的方法,其特征在于,在所述从设定的多个待选倍速指令中确定出倍速指令之后,还包括:
查询出所述识别结果对应的解码精度指令;
基于所述解码精度指令,对所述目标音视频进行播放。
4.根据权利要求1所述的方法,其特征在于,所述从设定的多个待选倍速指令中确定出倍速指令,包括:
根据所述识别结果和所述目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令。
5.根据权利要求1所述的方法,其特征在于,所述识别结果包括人物关系介绍场景或非人物关系介绍场景;
所述根据所述识别结果,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于所述识别结果包括所述人物关系介绍场景,根据所述人物关系介绍场景,从设定的多个待选倍速指令中确定出倍速指令;
响应于所述识别结果包括所述非人物关系介绍场景,根据所述非人物关系介绍场景和所述目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令。
6.根据权利要求1所述的方法,其特征在于,所述识别结果包括对话场景或非对话场景;
所述根据所述识别结果,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于所述识别结果包括所述对话场景,根据所述对话场景和所述目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令;
响应于所述识别结果包括所述非对话场景,根据所述非对话场景和所述目标音视频格式,从设定的多个待选倍速指令中确定出倍速指令。
7.根据权利要求1所述的方法,其特征在于,所述识别结果包括人物场景或非人物场景;
所述根据所述识别结果,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于所述识别结果包括所述人物场景,根据所述人物场景,从设定的多个待选倍速指令中确定出倍速指令;
响应于所述识别结果包括所述非人物场景,根据所述非人物场景,从设定的多个待选倍速指令中确定出倍速指令。
8.根据权利要求1所述的方法,其特征在于,所述识别结果包括人物对话场景、非人物非对话场景、人物非对话场景或非人物对话场景;
所述根据所述识别结果,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于所述识别结果包括所述人物对话场景,根据所述人物对话场景,从设定的多个待选倍速指令中确定出倍速指令;
响应于所述识别结果包括所述非人物非对话场景,根据所述非人物非对话场景,从设定的多个待选倍速指令中确定出倍速指令;
响应于所述识别结果包括所述人物非对话场景,根据所述人物非对话场景,从设定的多个待选倍速指令中确定出倍速指令;
响应于所述识别结果包括所述非人物对话场景,根据所述非人物对话场景,从设定的多个待选倍速指令中确定出倍速指令。
9.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果,从设定的多个待选倍速指令中确定出倍速指令,包括:
响应于所述识别结果与设定的第一条件匹配,根据所述识别结果,从设定的多个待选倍速指令中确定出倍速指令,所述第一条件包括人物、人物关系介绍和对话场景;非人物、人物关系介绍和非对话场景;非人物、非人物关系介绍和对话场景中之一;
响应于所述识别结果与设定的第二条件匹配,根据所述识别结果,从设定的多个待选倍速指令中确定出倍速指令,所述第二条件包括人物、非人物关系介绍和对话场景;人物、人物关系介绍和非对话场景;非人物、人物关系介绍和对话场景中之一;
响应于所述识别结果与设定的第三条件匹配,根据所述识别结果,从设定的多个待选倍速指令中确定出倍速指令,所述第三条件包括:人物、非人物关系介绍和非对话场景;非人物、非人物关系介绍和非对话场景中之一。
10.一种基于内容感知的倍速播放系统,其特征在于,所述系统包括:
读取模块,用于读取目标音视频;
人工智能模块,用于将所述目标音视频输入具备指定功能的人工智能模型,输出识别结果;
播放控制模块,用于基于所述识别结果,从设定的多个待选倍速指令中确定出倍速指令;
播放模块,用于基于所述倍速指令,对所述目标音视频进行播放。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的基于内容感知的倍速播放方法。
12.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现权利要求1至9任意一项所述的基于内容感知的倍速播放方法。
CN202011606246.5A 2020-12-30 2020-12-30 基于内容感知的倍速播放方法、系统、存储介质和设备 Pending CN112822546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011606246.5A CN112822546A (zh) 2020-12-30 2020-12-30 基于内容感知的倍速播放方法、系统、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011606246.5A CN112822546A (zh) 2020-12-30 2020-12-30 基于内容感知的倍速播放方法、系统、存储介质和设备

Publications (1)

Publication Number Publication Date
CN112822546A true CN112822546A (zh) 2021-05-18

Family

ID=75855394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011606246.5A Pending CN112822546A (zh) 2020-12-30 2020-12-30 基于内容感知的倍速播放方法、系统、存储介质和设备

Country Status (1)

Country Link
CN (1) CN112822546A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113347475A (zh) * 2021-05-31 2021-09-03 北京达佳互联信息技术有限公司 多媒体信息的播放倍速调节方法和装置
CN114257846A (zh) * 2021-12-23 2022-03-29 杭州登虹科技有限公司 基于内容感知的移动端自适应视频倍速播放方法
CN115442661A (zh) * 2021-06-01 2022-12-06 北京字跳网络技术有限公司 视频处理方法、设备、存储介质及计算机程序产品
WO2022253053A1 (zh) * 2021-05-31 2022-12-08 华为技术有限公司 一种播放视频的方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050025465A1 (en) * 2003-08-01 2005-02-03 Danieli Damon V. Enhanced functionality for audio/video content playback
CN103313091A (zh) * 2012-09-27 2013-09-18 中兴通讯股份有限公司 倍速播放方法、装置及系统
CN105978910A (zh) * 2016-07-14 2016-09-28 中国联合网络通信集团有限公司 一种视频业务质量指标生成方法、装置和系统
CN107801100A (zh) * 2017-09-27 2018-03-13 北京潘达互娱科技有限公司 一种视频定位播放方法及装置
CN108184169A (zh) * 2017-12-28 2018-06-19 广东欧珀移动通信有限公司 视频播放方法、装置、存储介质及电子设备
CN110113677A (zh) * 2018-02-01 2019-08-09 阿里巴巴集团控股有限公司 视频主题的生成方法和装置
CN110769314A (zh) * 2019-11-20 2020-02-07 三星电子(中国)研发中心 一种视频播放方法、装置和计算机可读存储介质
CN111327958A (zh) * 2020-02-28 2020-06-23 北京百度网讯科技有限公司 视频播放方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050025465A1 (en) * 2003-08-01 2005-02-03 Danieli Damon V. Enhanced functionality for audio/video content playback
CN103313091A (zh) * 2012-09-27 2013-09-18 中兴通讯股份有限公司 倍速播放方法、装置及系统
CN105978910A (zh) * 2016-07-14 2016-09-28 中国联合网络通信集团有限公司 一种视频业务质量指标生成方法、装置和系统
CN107801100A (zh) * 2017-09-27 2018-03-13 北京潘达互娱科技有限公司 一种视频定位播放方法及装置
CN108184169A (zh) * 2017-12-28 2018-06-19 广东欧珀移动通信有限公司 视频播放方法、装置、存储介质及电子设备
CN110113677A (zh) * 2018-02-01 2019-08-09 阿里巴巴集团控股有限公司 视频主题的生成方法和装置
CN110769314A (zh) * 2019-11-20 2020-02-07 三星电子(中国)研发中心 一种视频播放方法、装置和计算机可读存储介质
CN111327958A (zh) * 2020-02-28 2020-06-23 北京百度网讯科技有限公司 视频播放方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113347475A (zh) * 2021-05-31 2021-09-03 北京达佳互联信息技术有限公司 多媒体信息的播放倍速调节方法和装置
WO2022253053A1 (zh) * 2021-05-31 2022-12-08 华为技术有限公司 一种播放视频的方法及装置
CN113347475B (zh) * 2021-05-31 2023-02-28 北京达佳互联信息技术有限公司 多媒体信息的播放倍速调节方法和装置
CN115442661A (zh) * 2021-06-01 2022-12-06 北京字跳网络技术有限公司 视频处理方法、设备、存储介质及计算机程序产品
CN115442661B (zh) * 2021-06-01 2024-03-19 北京字跳网络技术有限公司 视频处理方法、设备、存储介质及计算机程序产品
CN114257846A (zh) * 2021-12-23 2022-03-29 杭州登虹科技有限公司 基于内容感知的移动端自适应视频倍速播放方法

Similar Documents

Publication Publication Date Title
CN112822546A (zh) 基于内容感知的倍速播放方法、系统、存储介质和设备
KR102148392B1 (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
US9208227B2 (en) Electronic apparatus, reproduction control system, reproduction control method, and program therefor
US20220392224A1 (en) Data processing method and apparatus, device, and readable storage medium
CN102111601B (zh) 内容可适性的多媒体处理系统与处理方法
CN108307229A (zh) 一种影音数据的处理方法及设备
US20100278419A1 (en) Information processing apparatus and method, and program
CN114157920B (zh) 一种展示手语的播放方法、装置、智能电视及存储介质
CN111681678B (zh) 自动生成音效并匹配视频的方法、系统、装置及存储介质
WO2023197749A9 (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN110475139B (zh) 一种视频字幕的遮挡方法、装置、存储介质及电子设备
CN108614872A (zh) 课程内容展示方法及装置
CN112149599B (zh) 表情追踪方法、装置、存储介质和电子设备
CN113992972A (zh) 一种字幕显示方法、装置、电子设备和可读存储介质
KR102541008B1 (ko) 화면해설 컨텐츠를 제작하는 방법 및 장치
US12058410B2 (en) Information play control method and apparatus, electronic device, computer-readable storage medium and computer program product
CN111681680B (zh) 视频识别物体获取音频方法、系统、装置及可读存储介质
CN112333531A (zh) 音频数据播放方法、设备及可读存储介质
CN114501160A (zh) 生成字幕的方法和智能字幕系统
CN114741541B (zh) 基于模板化编辑的ai数字人对ppt的交互控制方法及装置
CN118118747A (zh) 视频简介生成方法、装置、存储介质及计算机设备
EP4315329A1 (en) Information processing device, information processing method, and program
CN117372577A (zh) 虚拟对象的口型图像生成方法及装置
CN117061785A (zh) 信息播报视频的生成方法、装置、设备及存储介质
CN111681677A (zh) 视频物体音效构建方法、系统、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210518

RJ01 Rejection of invention patent application after publication