CN112822546A

CN112822546A - 基于内容感知的倍速播放方法、系统、存储介质和设备

Info

Publication number: CN112822546A
Application number: CN202011606246.5A
Authority: CN
Inventors: 刘夏聪
Original assignee: Zhuhai Geehy Semiconductor Co Ltd
Current assignee: Zhuhai Geehy Semiconductor Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-18

Abstract

本发明实施例提供了基于内容感知的倍速播放方法、系统、存储介质和计算机设备。本发明实施例提供的技术方案中，读取目标音视频；将目标音视频输入具备指定功能的AI模型，输出识别结果；根据识别结果，从设定的多个待选倍速指令中确定出倍速指令；基于倍速指令，对目标音视频进行播放，可以基于用户听觉和视觉上的心理感知进行动态调整播放倍速，提高用户体验，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力。

Description

基于内容感知的倍速播放方法、系统、存储介质和设备

【技术领域】

本发明涉及视频倍速播放技术领域，尤其涉及基于内容感知的倍速播放方法、系统和存储介质。

【背景技术】

目前各类视频节目层出不穷，海量的综艺节目和长篇电视剧等可供用户观看，用户在观看视频节目时，若需要尽快看完一部视频节目，用户可以选择倍速播放、跳跃播放或人工拖动进度条；在倍速播放中，对数字信号处理器(Digital Signal Processing，简称：DSP)配置是根据应用层预先设置好的解码倍速来进行运算，该应用层设置很多时候是根据用户设定或者操作系统的功耗策略来定义的。

现有技术中，跳跃播放或人工拖动进度条属于手工操作，会影响流畅的观看体验，且用户难以浏览全部内容，并有可能错过真正感兴趣的视频内容；用户使用倍速播放时，虽然能观看完整剧情，但仍会播放用户不感兴趣的内容，需要用户频繁干预调速，并且关键剧情仍需要用户手动恢复正常播放以保证观看效果，倍速过快容易错过重要信息，倍速过慢容易浪费时间，用户体验较低，播放设备的功耗较高。

【发明内容】

有鉴于此，本发明实施例提供了基于内容感知的倍速播放方法、系统和存储介质，可以基于用户听觉和视觉上的心理感知进行动态调整播放倍速，提高用户体验，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力。

一方面，本发明实施例提供了一种基于内容感知的倍速播放方法，所述方法包括：

读取目标音视频；

将目标音视频输入具备指定功能的人工智能模型，输出识别结果；

根据识别结果，从设定的多个待选倍速指令中确定出倍速指令；

基于倍速指令，对目标音视频进行播放。

可选地，基于倍速指令，实时地对目标音视频进行倍速播放。

可选地，在将目标音视频输入具备指定功能的人工智能模型，输出识别结果之前，还包括：

读取培育音视频；

基于设定的一种或多种培育类别对培育音视频进行分类，生成一种或多种类别的培育音视频；

将一种或多种类别的培育音视频输入神经网络算法，构建出具备指定功能的人工智能模型。

可选地，可选的具备指定功能的人工智能模型：P(X│V)＝αX+βY+γZ其中X为培育音频数据，Y为培育字幕数据，Z为培育视频数据，α、β、γ为AI培育过程中待计算参数，P(X│V)为识别不同类别的音视频片段，对倍速播放参数设置。

可选地，在读取目标音视频之后，还包括：

若目标音视频包括目标视频，降低目标视频的解码精度。

可选地，在根据识别结果，从设定的多个待选倍速指令中确定出倍速指令之后，还包括：

查询出识别结果对应的解码精度指令；

基于解码精度指令，对目标音视频进行播放。

可选地，从设定的多个待选倍速指令中确定出倍速指令，包括：

根据识别结果和目标音视频，从设定的多个待选倍速指令中确定出倍速指令。

可选地，识别结果包括人物关系介绍场景或非人物关系介绍场景；

根据识别结果和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令，包括：

响应于识别结果包括人物关系介绍场景，根据人物关系介绍场景和目标音视频，从设定的多个待选倍速指令中确定出倍速指令；

响应于识别结果包括非人物关系介绍场景，根据非人物关系介绍场景和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令。

可选地，识别结果包括对话场景或非对话场景；

响应于识别结果包括对话场景，根据对话场景和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令；

响应于识别结果包括非对话场景，根据非对话场景和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令。

可选地，识别结果包括人物场景或非人物场景；

响应于识别结果包括人物场景，根据人物场景和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令；

响应于识别结果包括非人物场景，根据非人物场景和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令。

可选地，识别结果包括人物对话场景、非人物非对话场景、人物非对话场景或非人物对话场景；

响应于识别结果包括人物对话场景，根据人物对话场景和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令；

响应于识别结果包括非人物非对话场景，根据非人物非对话场景和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令；

响应于识别结果包括人物非对话场景，根据目标音视频格式和人物非对话场景，从设定的多个待选倍速指令中确定出倍速指令；

响应于识别结果包括非人物对话场景，根据目标音视频格式和非人物对话场景，从设定的多个待选倍速指令中确定出倍速指令。

可选地，根据识别结果和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令，包括：

响应于识别结果与设定的第一条件匹配，根据识别结果和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令，第一条件包括人物、人物关系介绍和对话场景；非人物、人物关系介绍和非对话场景；非人物、非人物关系介绍和对话场景中之一。

响应于识别结果与设定的第二条件匹配，根据识别结果和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令，第二条件包括人物、非人物关系介绍和对话场景；人物、人物关系介绍和非对话场景；非人物、人物关系介绍和对话场景中之一。

响应于识别结果与设定的第三条件匹配，根据识别结果和目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令，第三条件包括：人物、非人物关系介绍和非对话场景；非人物、非人物关系介绍和非对话场景中之一。

可选地，目标音视频包括目标音频、目标视频和目标字幕中之一或其任意组合。

可选地，培育音视频包括培育音频、培育视频和培育字幕中之一或其任意组合。

另一方面，本发明实施例提供了一种基于内容感知的倍速播放系统，包括：

读取模块，用于读取目标音视频；

人工智能模块，用于将目标音视频输入具备指定功能的人工智能模型，输出识别结果；

播放控制模块，用于根据识别结果，从设定的多个待选倍速指令中确定出倍速指令；

播放模块，用于基于倍速指令，对目标音视频进行播放。

另一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述基于内容感知的倍速播放方法。

另一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现上述基于内容感知的倍速播放方法。

本发明实施例的方案中，读取目标音视频；将目标音视频输入具备指定功能的AI模型，输出识别结果；根据识别结果从设定的多个待选倍速指令中确定出倍速指令；基于倍速指令，对目标音视频进行播放，可以基于用户听觉和视觉上的心理感知进行动态调整播放倍速，提高用户体验，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于内容感知的倍速播放方法的流程图；

图2为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图；

图3为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图；

图4为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图；

图5为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图；

图6为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图；

图7为本发明实施例提供的一种基于内容感知的倍速播放系统的结构示意图；

图8为本发明实施例提供的一种计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述设定阈值，但这些设定阈值不应限于这些术语。这些术语仅用来将设定阈值彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一设定阈值也可以被称为第二设定阈值，类似地，第二设定阈值也可以被称为第一设定阈值。

首先对本发明所涉及的名词进行解释：

人工智能(Artificial Intelligence，简称：AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

数字信号处理器(Digital Signal Processor，简称：DSP)，是一种适合于进行数字信号处理运算的微处理器，其主要应用是实时快速地实现各种数字信号处理算法。

图1为本发明实施例提供的一种基于内容感知的倍速播放方法的流程图，如图1所示，该方法包括：

步骤101、读取培育音视频。

本发明实施例中，培育音视频包括培育音频、培育视频和培育字幕中之一或其任意组合。培育音视频包括多个特征，例如：若培育音视频包括培育字幕，培育字幕的特征包括字体大小、词语结构、语法和时间属性中之一或其任意组合；若培育音视频包括培育音频，培育音频的特征包括音量、音色、音频和声音的空间分布中之一或其任意组合；若培育音视频包括培育视频，培育视频包括画面亮度、画面色彩和画面纹理中之一或其任意组合。

本发明实施例中，培育音视频文件存储于寄存器中，可以从寄存器中读取培育音视频。

步骤102、基于设定的一种或多种培育类别对培育音视频进行分类，生成一种或多种类别的培育音视频。

本发明实施例中，培育类别可以根据培育音视频的特征进行设定。例如：将培育类别设定为对话类别、背景内容介绍类别或者人物关系介绍类别。

步骤103、将一种或多种类别的培育音视频输入神经网络算法，构建出具备指定功能的人工智能(Artificial Intelligence，简称：AI)模型。

本发明实施例中，利用大量加速器，通过将一种或多种培育类别的培育音视频输入神经网络算法，计算得到神经网络最优参数，从而构建出具备指定功能的AI模型。通俗而言，便是给机器“投喂”大量的数据，让它学会识别对象。作为一种可选方案，加速器包括图形处理器(Graphics Processing Unit，简称：GPU)或中央处理器(Central ProcessingUnit，简称：CPU)等能提供算力的装置。

可选地，通过培育音频构建出的AI模型可以识别自然声、人声、普通话和方言，即：该AI模型具备识别自然声、人声、普通话和方言的功能。

可选地，通过培育字幕构建出的AI模型可以识别背景内容介绍和人物关系介绍，即：该AI模型具备识别背景内容介绍和人物关系介绍的功能。

可选地，通过培育视频构建出的AI模型可以识别打斗场景和空镜头，即：该AI模型具备识别打斗场景和空镜头的功能。

可选地，通过包括培育音频和培育视频的叠加音视频构建出的AI模型可以识别室外打斗场景，即：该AI模型具备识别室外打斗场景的功能。

可选地，通过包括培育字幕和培育视频的叠加音视频构建出AI模型可以识别空镜头下的人物关系介绍场景，即：该AI模型具备识别空镜头下的人物关系介绍场景的功能。

可选地，通过包括培育音频和培育字幕的叠加音视频构建出的AI模型可以识别方言介绍人物关系的场景。

步骤104、读取目标音视频。

本发明实施例中，在读取目标音视频之前，接收用户输入的智能调节操作；响应于接收到智能调节操作，读取目标音视频；响应于未接收到智能调节操作，控制目标音视频原速播放。

本发明实施例中，目标音视频包括目标音频、目标视频和目标字幕中之一或其任意组合。例如，目标音视频为歌曲，则目标音视频包括目标音频和目标字幕；目标音视频为电影，则目标音视频包括目标音频、目标字幕和目标视频。其中，目标视频包括目标图像。

进一步地，若该目标音视频包括目标视频，则在读取目标音视频之后，降低目标音视频的解码精度，可以在后续AI模型的分析识别的过程中节省设备功耗。作为一种可选方案，当降低目标音视频的解码精度包括降低分辨率省电策略，将分辨率降低至360P。

步骤105、将目标音视频输入具备指定功能的AI模型，输出识别结果。

步骤106、根据识别结果从设定的多个待选倍速指令中确定出倍速指令。

可选地，根据识别结果和目标音视频格式从设定的多个待选倍速指令中确定出倍速指令。

本发明实施例中，待选倍速指令与目标音视频的格式对应，根据目标音视频的格式可以查询出对应的待选倍速指令，例如：目标音视频的格式为H.264格式，对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速；目标音视频的格式为MP4格式，对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。

本发明实施例中，识别结果和目标音视频格式与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若目标音视频的格式为MP4格式且目标音视频包括人物场景，放慢目标音视频播放速度，即：将0.5倍速确定为倍速指令。

进一步地，响应于识别结果，还可以对识别结果对应的片段进行解码处理，具体地，可以查询出识别结果对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若识别结果包括非人物场景，查询出对应的分辨率指令为360P，使得以360P分辨率播放非人物场景对应的片段，可以进一步节省设备功耗。

步骤107、基于倍速指令，对目标音视频进行播放。

本发明实施例中，按照倍速指令，控制目标音视频进行播放。

进一步地，按照解码精度指令调节目标音视频的解码精度，从而控制目标视频进行播放。

相较于现有技术，基于用户听觉、视觉上的心理感知，用户在倍速播放视频的过程中，注意力会根据视频内容动态发生改变，例如：当视频出现对话时，用户的注意力会提升，这时候会期望不错过任何细节；当视频呈现过场、风景、细节时，相反的，注意力会下降。本发明实施例利用上述现象以及背后的心理学原理，对AI模型进行培育构建，使构建出的AI模型能够了解用户对音视频各段不同内容播放倍速动态需求，为后续的AI模型自动分类控制硬件加速器实现倍速和调控解码精度奠定基础。

图2为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图，如图2所示，该方法包括：

步骤201、读取培育音视频，培育音视频包括培育字幕。

本发明实施例中，培育字幕包括多个特征，例如：字体大小、词语结构、语法和时间属性中之一或其任意组合。

步骤202、基于设定的一种或多种字幕类别对培育字幕进行分类，生成一种或多种类别的培育字幕。

本发明实施例中，字幕类别可以根据培育字幕的特征进行设定，例如：将字幕类别设定为对话类别、背景内容介绍类别或者人物关系介绍类别。作为一种优选方式，字幕类别设定为对话类别。

步骤203、将一种或多种类别的培育字幕输入神经网络算法，构建出具备第一功能的AI模型。

本发明实施例中，第一功能是能够识别目标音视频中目标字幕的字幕类别的功能，第一功能与字幕类别对应，例如：若字幕类别为人物关系介绍类别，则第一功能为能够识别该字幕是否包括人物关系介绍的功能。

本发明实施例中，以字幕类别设定为人物关系介绍类别为例，将包括人物关系介绍的培育字幕输入神经网络算法，根据培育字幕的特征进行迭代训练，训练出具备该字幕是否包括人物关系介绍功能的AI模型，该人工智能模型具备最优参数。

本发明实施例中，为保证构建出的具备第一功能的AI模型的识别准确率较高，输入神经网络算法的培育字幕的数量应足够多，作为一种优选方式，培育字幕的数量大于1000条。

步骤204、读取目标音视频，目标音视频包括目标字幕。

本发明实施例中，目标字幕为需要识别的字幕。

步骤205、将目标字幕输入具备第一功能的AI模型，输出识别结果。

若识别结果包括人物关系介绍场景，根据人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令(步骤206-1)；若识别结果包括非人物关系介绍场景，根据非人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令(步骤206-2)。

步骤207、基于倍速指令，对目标音视频进行播放。

以字幕类别设定为人物关系介绍类别为例，则第一功能为能够识别该字幕上是否包括人物关系介绍，将目标字幕输入具备第一功能的AI模型，AI模型根据目标字幕的特征进行识别并输出识别结果，识别结果包括人物关系介绍场景或非人物关系介绍场景；若识别结果包括人物关系介绍场景，表明目标字幕包括人物关系介绍，根据人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令；若识别结果包括非人物关系介绍场景，表明目标字幕不包括人物关系介绍，根据非人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令；响应于识别结果包括人物关系介绍场景，根据人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令，基于倍速指令，对目标音视频进行播放。

本发明实施例中，以目标音视频的格式为MP4格式为例，根据人物关系介绍场景，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，人物关系介绍场景和目标字幕与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若识别结果包括人物关系介绍场景，放慢目标音视频播放速度，即：将0.5倍速确定为倍速指令。

进一步地，响应于识别结果包括人物关系介绍场景，还可以对人物关系介绍场景对应的片段进行解码处理，具体地，可以查询出人物关系介绍场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标字幕包括人物关系介绍，查询出对应的分辨率指令为1080P，使得以1080P分辨率播放人物关系介绍场景对应的片段，可以提高用户体验。

步骤206-2、响应于识别结果包括非人物关系介绍场景，根据非人物关系介绍场景和目标字幕从设定的多个待选倍速指令中确定出倍速指令。

本发明实施例中，以目标音视频的格式为MP4格式为例，根据非人物关系介绍场景，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，非人物关系介绍场景和目标字幕与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若目标字幕不包括人物关系介绍，加速目标音视频播放速度，即：将1.5倍速确定为倍速指令。

进一步地，响应于识别结果包括非人物关系介绍场景，还可以对非人物关系介绍场景对应的片段进行解码处理，具体地，可以查询出非人物关系介绍场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标字幕不包括人物关系介绍，查询出对应的分辨率指令为360P，使得以360P分辨率播放非人物关系介绍场景对应的片段，可以进一步节省设备功耗。

步骤207、基于倍速指令，对目标音视频进行播放，流程结束。

进一步地，按照解码精度指令调节目标音视频的解码精度，从而控制目标音视频进行播放。

本发明实施例中，基于预先构建出的具备第一功能的AI模型自动对目标音视频中的目标字幕进行识别，通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标音视频播放，使得能够以智能变化的最适合用户的倍速播放目标音视频，可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。

图3为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图，如图3所示，该方法包括：

步骤301、读取培育音视频，培育音视频包括培育音频。

本发明实施例中，培育音频包括多个特征。例如：音量、音色、音频和声音的空间分布中之一或其任意组合。

步骤302、基于设定的一种或多种音频类别对培育音频进行分类，生成一种或多种类别的培育音频。

本发明实施例中，音频类别可以根据培育音频的特征进行设定，例如：将音频类别设定为对话类别、自然声类别、人声类别、方言类别或普通话类别。作为一种优选方式，音频类别设定为对话类别。

步骤303、将一种或多种音频类别的培育音频输入神经网络算法，构建出具备第二功能的AI模型。

本发明实施例中，第二功能是能够识别目标音视频中目标音频的音频类别的功能，第二功能与音频类别对应，例如：若音频类别为对话类别，则第二功能为能够识别该音频是否包括对话的功能。

本发明实施例中，以音频类别设定为对话类别为例，将包括对话的培育音频输入神经网络算法，根据培育音频的特征进行迭代训练，训练出具备识别该音频是否包括对话功能的AI模型，该人工智能模型具备最优参数。

本发明实施例中，为保证构建出的具备第二功能的AI模型的识别准确率较高，输入神经网络算法的培育音频的数量应足够多，作为一种优选方式，培育音频的数量大于1000条。

步骤304、读取目标音视频，目标音视频包括目标音频。

本发明实施例中，目标音频为需要识别的音频。

步骤305、将目标音频输入具备第二功能的AI模型，输出识别结果。

若识别结果包括对话场景，根据对话场景和目标音频格式从设定的多个待选倍速指令中确定出倍速指令(步骤306-1)；若识别结果包括非对话场景，根据非对话场景和目标音频从设定的多个待选倍速指令中确定出倍速指令(步骤306-2)。

步骤307、基于倍速指令，对目标音视频进行播放。

本发明实施例中，将目标音频输入具备第二功能的AI模型，AI模型根据目标音频的特征进行识别并输出识别结果，识别结果包括对话场景或非对话场景，若识别结果包括对话场景，表明目标音频包括对话，根据对话场景和目标音频格式从设定的多个待选倍速指令中确定出倍速指令；若识别结果包括非对话场景，表明目标音频不包括对话，根据非对话场景和目标音频从设定的多个待选倍速指令中确定出倍速指令；响应于识别结果包括对话场景，根据对话场景和目标音频从设定的多个待选倍速指令中确定出倍速指令，基于倍速指令，对目标音视频进行播放。

本发明实施例中，以目标音视频的格式为MP4格式为例，根据对话场景，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，对话场景和目标音频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若目标音频包括对话，放慢目标音视频播放速度，即：将0.5倍速确定为倍速指令。

进一步地，响应于识别结果包括对话场景，还可以对对话场景对应的片段进行解码处理，具体地，可以查询出对话场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标音频包括对话，查询出对应的分辨率指令为1080P,使得以1080P分辨率播放对话场景对应的片段，可以提高用户体验。

步骤306-2、响应于识别结果包括非对话场景，根据非对话场景和目标音频从设定的多个待选倍速指令中确定出倍速指令。

本发明实施例中，以目标音视频的格式为MP4格式为例，根据非对话场景，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，非对话场景和目标音频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若目标音频不包括对话，加速目标音视频播放速度，即：将1.5倍速确定为倍速指令。

进一步地，响应于识别结果包括非对话场景，还可以对非对话场景对应的片段进行解码处理，具体地，可以查询出非对话场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标音频不包括对话，查询出对应的分辨率指令为720P,使得以720P分辨率播放非对话场景对应的片段，可以进一步节省设备功耗。

步骤307、基于倍速指令，对目标音视频进行播放，流程结束。

本发明实施例中，基于预先构建出的具备第二功能的AI模型自动对目标音视频的目标音频进行识别，通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标音视频播放，使得能够以智能变化的最适合用户的倍速播放目标音视频，可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。

图4为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图，如图4所示，该方法包括：

步骤401、读取培育音视频，培育音视频包括培育视频。

本发明实施例中，培育视频包括多个特征。例如：画面亮度、画面色彩和画面纹理中之一或其任意组合。

步骤402、基于设定的一种或多种视频类别对培育视频进行分类，生成一种或多种类别的培育视频。

本发明实施例中，视频类别可以根据培育视频的特征进行设定，例如：将视频类别设定为人物场景类别、打斗场景类别或者空镜头类别。作为一种优选方式，视频类别设定为人物场景类别。

步骤403、将一种或多种类别的培育视频输入神经网络算法，构建出具备第三功能的AI模型。

本发明实施例中，第三功能是能够识别目标音视频中目标视频的视频类别的功能，第三功能与视频类别对应，例如：若视频类别为人物场景类别，则第三功能为能够识别该视频是否为人物场景的功能。

本发明实施例中，以视频类别设定为人物场景类别为例，将包括人物场景的培育视频输入神经网络算法，根据培育视频的特征进行迭代训练，训练出具备识别该视频是否为人物场景功能的AI模型，该人工智能模型具备最优参数。

本发明实施例中，为保证构建出的具备第三功能的AI模型的识别准确率较高，输入神经网络算法的培育视频的数量应足够多，作为一种优选方式，培育视频的数量大于1000条。

步骤404、读取目标音视频，目标音视频包括目标视频。

本发明实施例中，目标视频为需要识别的视频。

进一步地，读取目标音视频之后，降低目标音视频的解码精度，可以在后续AI模型的分析识别的过程中节省设备功耗。作为一种可选方案，当解码精度包括分辨率时，将分辨率降低至360P。

步骤405、将目标视频输入具备第三功能的AI模型，输出识别结果。

若识别结果包括人物场景，根据人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令(步骤406-1)；若识别结果包括非人物场景，根据非人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令(步骤406-2)。

步骤407、基于倍速指令，对目标视频进行播放。

本发明实施例中，将目标视频输入具备第三功能的AI模型，AI模型根据目标视频的特征进行识别并输出识别结果，识别结果包括人物场景或非人物场景，若识别结果包括人物场景，表明目标视频包括人物场景，根据人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令；若识别结果包括非人物场景，表明目标视频不包括人物场景，根据非人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令；基于倍速指令，对目标音视频进行播放。

本发明实施例中，以目标音视频的格式为MP4格式为例，根据人物场景，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，人物场景和目标视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若目标视频包括人物场景，放慢目标音视频播放速度，即：将0.5倍速确定为倍速指令。

进一步地，响应于识别结果包括人物场景，还可以对人物场景对应的片段进行解码处理，具体地，可以查询出人物场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标视频包括人物场景，查询出对应的分辨率指令为1080P,使得以1080P分辨率播放人物场景对应的片段，可以提高用户体验。

步骤406-2、响应于识别结果包括非人物场景，根据非人物场景和目标视频从设定的多个待选倍速指令中确定出倍速指令。

本发明实施例中，以目标音视频的格式为MP4格式为例，根据非人物场景，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，非人物场景和目标视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若目标视频包括非人物场景，加速目标音视频播放速度，即：将1.5倍速确定为倍速指令。

进一步地，响应于识别结果包括非人物场景，还可以对非人物场景对应的片段进行解码处理，具体地，可以查询出非人物场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标视频包括非人物场景，查询出对应的分辨率指令为360P，以使得以360P分辨率播放非人物场景对应的片段，可以进一步节省设备功耗。

步骤407、基于倍速指令，对目标音视频进行播放，流程结束。

本发明实施例中，基于预先构建出的具备第三功能的AI模型自动对目标音视频的目标视频进行识别，通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标音视频播放，使得能够以智能变化的最适合用户的倍速播放目标音视频，可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。

图5为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图，如图5所示，该方法包括：

步骤501、读取培育音视频，培育音视频包括第一叠加音视频。

本发明实施例中，第一叠加音视频为包括音频和视频的叠加音视频，第一叠加音视频包括多个特征，例如：画面亮度和音量。

步骤502、基于设定的第一叠加类别对第一叠加音视频进行分类，生成一种或多种类别的第一叠加音视频。

本发明实施例中，第一叠加类别可以根据第一叠加音视频的特征进行设定，例如：将第一叠加类别设定为人物场景类别和对话场景类别的叠加类别，则第一叠加类别包括人物对话场景类别、人物非对话场景类别、非人物对话场景类别和非人物非对话场景类别。

步骤503、将一种或多种类别的第一叠加音视频输入神经网络算法，构建出具备第四功能的AI模型。

本发明实施例中，第四功能是能够识别目标叠加音视频中音频和视频的第一叠加类别的功能，第四功能与第一叠加类别对应，例如：若第一叠加类别为人物场景类别和对话场景类别的叠加类别，则第四功能为能够识别该叠加音视频是否为人物场景和/或对话场景的功能。

本发明实施例中，以第一叠加类别为人物场景类别和对话场景类别的叠加类别为例，将包括人物场景和/或对话场景的第一叠加音视频输入神经网络算法，根据第一叠加音视频的特征进行迭代训练，训练出具备识别该视频是否为人物场景和/或对话场景功能的AI模型，该人工智能模型具备最优参数。

本发明实施例中，为保证构建出的具备第四功能的AI模型的识别准确率较高，输入神经网络算法的第一叠加音视频的数量应足够多，作为一种优选方式，第一叠加视频的数量大于1000条。

步骤504、读取目标音视频，目标音视频包括目标叠加音视频。

本发明实施例中，目标叠加音视频为需要识别的叠加音视频，目标叠加音视频由目标音频和目标视频叠加组成。

步骤505、将目标叠加音视频输入具备第四功能的AI模型，输出识别结果。

若识别结果包括人物对话场景，根据人物对话场景和目标叠加音视频格式从设定的多个待选倍速指令中确定出倍速指令(步骤506-1)；若识别结果包括非人物非对话场景，根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令(执行步骤506-2)；若识别结果包括人物非对话场景或者非人物对话场景，根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令(执行步骤506-3)。

步骤507、基于倍速指令，对目标叠加音视频进行播放。

本发明实施例中，将目标叠加音视频输入具备第四功能的AI模型，AI模型根据目标叠加音视频的特征进行识别并输出识别结果，识别结果包括四种可能结果，分别是人物对话场景、人物非对话场景、非人物对话场景或非人物非对话场景，若识别结果包括人物对话场景，表明该目标叠加既包括人物场景又包括对话场景，根据人物对话场景和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令；若识别结果包括非人物非对话场景，表明该目标叠加音视频既不包括人物场景又不包括对话场景，根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令；若识别结果包括人物非对话场景，表明该目标叠加音视频包括人物场景但不包括对话场景，根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令；若识别结果包括非人物对话场景，表明该目标叠加音视频不包括人物场景但包括对话场景，根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令；基于倍速指令，对目标叠加音视频进行播放。

本发明实施例中，待选倍速指令与目标叠加音视频的格式对应，根据目标叠加音视频的格式可以查询出对应的待选倍速指令，例如：目标叠加音视频的格式为H.264格式，对应的待选倍速指令为0.8倍速、1倍速、1.6倍速或3倍速；目标叠加音视频的格式为MP4格式，对应的待选倍速指令为0.5倍速、1倍速或1.5倍速。

本发明实施例中，以目标叠加音视频的格式为H.264格式为例，根据人物对话场景，从0.8倍速、1倍速、1.6倍速或3倍速中确定出对应的倍速指令。具体地，人物对话场景和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若识别结果包括人物对话场景，放慢目标叠加音视频播放速度，即：将0.8倍速确定为倍速指令。

进一步地，响应于识别结果包括人物对话场景，还可以对人物对话场景对应的片段进行解码处理，具体地，可以查询出人物对话场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标叠加音视频包括人物对话场景，查询出对应的分辨率指令为1080P，使得以1080P分辨率播放人物对话场景对应的片段，可以提高用户体验。

步骤506-2、响应于识别结果包括非人物非对话场景，根据非人物非对话场景和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令，基于倍速指令，对目标叠加音视频进行播放(步骤507)。

本发明实施例中，以目标叠加音视频的格式为H.264格式为例，根据非人物非对话场景，从0.8倍速、1倍速、1.6倍速或3倍速中确定出对应的倍速指令。具体地，非人物非对话场景和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若识别结果包括非人物非对话场景，加速目标叠加音视频播放速度，即：将3倍速确定为倍速指令。

进一步地，响应于识别结果包括非人物非对话场景，还可以对非人物非对话场景对应的片段进行解码处理，具体地，可以查询出非人物非对话场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标叠加音视频包括非人物非对话场景，查询出对应的分辨率指令为360P，以使得以360P分辨率播放非人物非对话场景对应的片段，可以进一步节省设备功耗。

步骤506-3、响应于识别结果包括人物非对话场景或者非人物对话场景，根据目标叠加音视频和人物非对话场景或者非人物对话场景从设定的多个待选倍速指令中确定出倍速指令。

本发明实施例中，以目标叠加音视频的格式为H.264格式为例，根据人物非对话场景或者非人物对话场景，从0.8倍速、1倍速、1.6倍速或3倍速中确定出对应的倍速指令。具体地，非人物对话场景和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若识别结果包括非人物对话场景，保持目标叠加音视频播放速度不变，即：将1倍速确定为倍速指令；具体地，人物非对话场景和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若识别结果包括人物非对话场景，保持目标叠加音视频播放速度不变，即：将1倍速确定为倍速指令。

进一步地，响应于识别结果包括人物非对话场景或者非人物对话场景，还可以对人物非对话场景或者非人物对话场景对应的片段进行解码处理，具体地，可以查询出人物非对话场景或者非人物对话场景对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若目标叠加音视频包括人物非对话场景或者非人物对话场景，查询出对应的分辨率指令为720P，以使得以720P分辨率播放人物非对话场景或者非人物对话场景对应的片段，可以提高用户体验。

步骤507、基于倍速指令，对目标叠加音视频进行播放，流程结束。

本发明实施例中，按照倍速指令，控制目标叠加音视频进行播放。

进一步地，按照解码精度指令调节目标叠加音视频的解码精度，从而控制目标叠加音视频进行播放。

本发明实施例中，基于预先构建出的具备第四功能的AI模型自动对目标音视频的音频和视频进行识别，通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标叠加音视频播放，使得能够以智能变化的最适合用户的倍速播放目标叠加音视频，可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。

本发明实施例中，还可以通过其它方式构建具备第四功能的AI模型，本发明实施例在此仅作示例性展示，并不对此做出限定。

作为一种可选方案，读取培育音视频，培育音视频包括第二叠加音视频，第二叠加音视频为包括字幕和视频的叠加音视频，第二叠加音视频包括多个特征，例如：画面亮度和词语结构；基于设定的第二叠加类别对第二叠加音视频进行分类，生成一种或多种类别的第二叠加音视频；将第二叠加类别的第二叠加音视频输入神经网络算法，构建出具备第四功能的AI模型，第五功能是能够识别目标叠加音视频中字幕和视频的第二叠加类别的功能，第五功能与第二叠加类别对应，例如：若第二叠加类别为人物场景类别和对话场景类别的叠加类别，则第五功能为能够识别该叠加音视频是否为人物场景和/或对话场景的功能。本发明实施例中，可以通过具备第五功能的AI模型对自动第二叠加音视频进行识别，通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标叠加音视频播放，使得能够以智能变化的最适合用户的倍速播放目标叠加音视频，可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。

作为一种可选方案，读取培育音视频，培育音视频包括第三叠加音视频，第三叠加音视频为包括字幕和音频的叠加音视频，第三叠加音视频包括多个特征，例如：音量和时间属性；基于设定的第三叠加类别对第三叠加音视频进行分类，生成一种或多种类别的第三叠加音视频；将第三叠加类别的第三叠加音视频输入神经网络算法，构建出具备第六功能的AI模型，第六功能是能够识别目标叠加音视频中字幕和音频的第三叠加类别的功能，第六功能与第三叠加类别对应，例如：若第三叠加类别为对话类别和普通话类别的叠加类别，则第六功能为能够识别该叠加音视频是否为普通话对话场景的功能。本发明实施例中，可以通过具备第六功能的AI模型对自动第三叠加音视频进行识别，通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标叠加音视频播放，使得能够以智能变化的最适合用户的倍速播放目标叠加音视频，可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。

图6为本发明实施例提供的又一种基于内容感知的倍速播放方法的流程图，如图6所示，该方法包括：

步骤601、读取培育音视频，培育音视频包括第四叠加音视频。

本发明实施例中，第四叠加音视频为包括字幕、音频和视频的叠加音视频，第四叠加音视频包括多个特征，例如：字体大小、画面亮度和声音的空间分布。

步骤602、基于设定的第四叠加类别对第四叠加音视频进行分类，生成一种或多种叠加类别的第四叠加音视频。

本发明实施例中，第四叠加类别可以根据第四叠加音视频的特征进行设定，例如：将第四叠加类别设定为人物场景类别、人物关系介绍场景类别和对话场景类别的叠加类别，则第四叠加类别包括人物、人物关系介绍和对话场景类别；非人物、人物关系介绍和非对话场景类别；非人物、非人物关系介绍和对话场景类别；人物、非人物关系介绍和对话场景类别；人物、人物关系介绍和非对话场景类别；非人物、人物关系介绍和对话场景类别；人物、非人物关系介绍和非对话场景类别；非人物、非人物关系介绍和非对话场景类别。

步骤603、将一种或多种类别的第四叠加音视频输入神经网络算法，构建出具备第七功能的AI模型。

本发明实施例中，第七功能是能够识别目标叠加音视频中音频、字幕和视频的第四叠加类别的功能，第七功能与第四叠加类别对应，例如：若第四叠加类别为人物场景类别、人物关系介绍场景类别和对话场景类别的叠加类别，则第七功能为能够识别该叠加音视频是否包括人物、人物关系介绍和对话中之一或其任意组合的功能。

本发明实施例中，以第四叠加类别为人物场景类别、人物关系介绍场景类别和对话场景类别的叠加类别为例，将包括人物场景和/或人物关系介绍和/或对话场景的第四叠加音视频输入神经网络算法，根据第四叠加音视频的特征进行迭代训练，训练出具备识别该视频是否包括人物、人物关系介绍和对话中之一或其任意组合功能的AI模型，该人工智能模型具备最优参数。

本发明实施例中，为保证构建出的具备第七功能的AI模型的识别准确率较高，输入神经网络算法的第四叠加音视频的数量应足够多，作为一种优选方式，第一叠加视频的数量大于1000条。

步骤604、读取目标音视频，目标音视频包括目标叠加音视频。

本发明实施例中，目标叠加音视频为需要识别的叠加音视频，目标叠加音视频由目标字幕、目标音频和目标视频叠加组成。

步骤605、将目标叠加音视频输入具备第七功能的AI模型，输出识别结果。若识别结果与设定的第一条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令(步骤606-1)；若识别结果与设定的第二条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令(步骤606-2)；若识别结果与设定的第三条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令(步骤606-3)。

步骤607、基于倍速指令，对目标叠加音视频进行播放。

本发明实施例中，将目标叠加音视频输入具备第七功能的AI模型，AI模型根据目标叠加音视频的特征进行识别并输出识别结果，识别结果包括四种可能结果，分别是：人物、人物关系介绍和对话场景；非人物、人物关系介绍和非对话场景；非人物、非人物关系介绍和对话场景；人物、非人物关系介绍和对话场景；人物、人物关系介绍和非对话场景；非人物、人物关系介绍和对话场景；人物、非人物关系介绍和非对话场景；非人物、非人物关系介绍和非对话场景。

本发明实施例中，第一条件可以根据实际情况进行设置，作为一种可选方案，第一条件包括：人物、人物关系介绍和对话场景；非人物、人物关系介绍和非对话场景；非人物、非人物关系介绍和对话场景。第二条件可以根据实际情况进行设置，作为一种可选方案，第二条件包括：人物、非人物关系介绍和对话场景；人物、人物关系介绍和非对话场景；非人物、人物关系介绍和对话场景。第三条件可以根据实际情况进行设置，作为一种可选方案，第三条件包括：人物、非人物关系介绍和非对话场景；非人物、非人物关系介绍和非对话场景。

例如：若识别结果为人物、人物关系介绍和对话场景，与第一条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令；若识别结果为人物、非人物关系介绍和对话场景，与第二条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令；若识别结果为非人物、非人物关系介绍和非对话场景，与第三条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令。

步骤606-1、响应于识别结果与设定的第一条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令。

本发明实施例中，以目标叠加音视频的格式为MP4格式为例，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，识别结果和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若识别结果与设定的第一条件匹配，放慢目标叠加音视频播放速度，即：将0.5倍速确定为倍速指令。

进一步地，响应于识别结果与设定的第一条件匹配，还可以对与第一条件匹配的片段进行解码处理，具体地，可以查询出第一条件对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若识别结果与设定的第一条件匹配，查询出对应的分辨率指令为1080P，以使得以1080P分辨率播放与第一条件匹配的片段，可以提高用户体验。

步骤606-2、响应于识别结果与设定的第二条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令。

本发明实施例中，以目标叠加音视频的格式为MP4格式为例，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，识别结果和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若识别结果与设定的第二条件匹配，保持目标叠加音视频播放速度不变，即：将1倍速确定为倍速指令。

进一步地，响应于识别结果与设定的第二条件匹配，还可以对与第二条件匹配的片段进行解码处理，具体地，可以查询出第二条件对应的解码精度指令，例如：解码处理包括分辨率处理，即：可以查询出第二条件对应的解码精度指令包括分辨率指令，若识别结果与设定的第二条件匹配，查询出对应的分辨率指令为720P，以使得以720P分辨率播放与第二条件匹配的片段，可以提高用户体验。

步骤606-3、响应于识别结果与设定的第三条件匹配，根据识别结果和目标叠加音视频从设定的多个待选倍速指令中确定出倍速指令。

本发明实施例中，以目标叠加音视频的格式为MP4格式为例，从0.5倍速、1倍速或1.5倍速中确定出对应的倍速指令。具体地，识别结果和目标叠加音视频与倍速指令之间的对应关系可根据实际情况进行设置，作为一种可选方案，若识别结果与设定的第三条件匹配，加快目标叠加音视频播放速度，即：将1.5倍速确定为倍速指令。

进一步地，响应于识别结果与设定的第三条件匹配，还可以对与第三条件匹配的片段进行解码处理，具体地，可以查询出第三条件对应的解码精度指令，例如：解码处理包括分辨率处理，即：解码精度指令包括分辨率指令，若识别结果与设定的第三条件匹配，查询出对应的分辨率指令,使得以360P分辨率播放对应目标叠加音视频，可以进一步节省设备功耗。

步骤607、基于倍速指令，对目标叠加音视频进行播放，流程结束。

本发明实施例中，基于预先构建出的具备第六功能的AI模型自动对目标音视频的音频、字幕和视频进行识别，通过识别结果自动确定出倍速指令和/或解码精度指令从而动态控制目标叠加音视频播放，使得能够以智能变化的最适合用户的倍速播放目标叠加音视频，可以达到基于用户听觉和视觉上的心理感知进行动态的倍速和/或解码精度调整，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力的目的。

图7为本发明实施例提供的一种基于内容感知的倍速播放系统的结构示意图，该系统用于执行上述基于内容感知的倍速播放方法，如图7所示，该系统包括：读取模块11、AI模块12、播放控制模块13和播放模块14。其中，读取模块11与AI模块12连接，AI模块12与播放控制模块13连接，播放控制模块13与播放模块14连接。

本发明实施例中，读取模块11用于读取目标音视频；AI模块12用于将目标音视频输入具备指定功能的AI模型，对输入的目标音视频进行识别，并向播放控制模块13输出识别结果；播放控制模块13用于基于识别结果，从设定的多个待选倍速指令中确定出倍速指令；播放模块14用于基于倍速指令，对目标音视频进行播放。

作为一种可选方案，培育音视频文件存储于该系统的寄存器中，读取模块11可以从寄存器中读取培育音视频。

值得说明的是，目标音视频的还可以有其它的读取方式，本发明实施例在此仅作示例性说明，并不对此做出限定。

本发明实施例中，通过对传统DSP结构进行改动，即：在读取模块11与播放控制模块13之间的数据通路上引入AI模块12，通过预先培育好的AI模块12对目标音视频进行识别并输出识别结果，播放控制模块13根据识别结果和目标音视频动态确定出倍速指令，使得播放模块14根据倍速指令，对目标音视频进行动态播放，最终能够达到改善用户体验且省时省电的目的；进一步地，播放控制模块13可以输出解码指令，控制目标音视频的播放过程中动态解码。

本发明实施例中，图7提供的一种基于内容感知的倍速播放系统还用于执行上述图1至图6所示的一种基于内容感知的倍速播放方法，在此不再一一赘述。

本发明实施例的方案中，读取目标音视频；将目标音视频输入具备指定功能的AI模型，输出识别结果；根据识别结果和目标音视频从设定的多个待选倍速指令中确定出倍速指令；基于倍速指令，对目标音视频进行播放，可以基于用户听觉和视觉上的心理感知进行动态调整播放倍速，提高用户体验，深度挖掘硬件加速设备等播放相关联设备的低功耗潜力。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述基于内容感知的倍速播放方法的实施例的各步骤，具体描述可参见上述基于内容感知的倍速播放方法的实施例。

本发明实施例提供了一种计算机设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现上述基于内容感知的倍速播放方法的实施例的各步骤，具体描述可参见上述基于内容感知的倍速播放方法的实施例。

图8为本发明实施例提供的一种计算机设备的示意图。如图8所示，该实施例的计算机设备30包括：处理器31、存储器32以及存储在存储32中并可在处理器31上运行的计算机程序33，该计算机程序33被处理器31执行时实现实施例中的应用于基于内容感知的倍速播放方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器31执行时实现实施例中应用于基于内容感知的倍速播放装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备30包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，图8仅仅是计算机设备30的示例，并不构成对计算机设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器32可以是计算机设备30的内部存储单元，例如计算机设备30的硬盘或内存。存储器32也可以是计算机设备30的外部存储设备，例如计算机设备30上配备的插接式硬盘，智能存储(Smart Media,SM)卡，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器32还可以既包括计算机设备30的内部存储单元也包括外部存储设备。存储器32用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器32还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于内容感知的倍速播放方法，其特征在于，所述方法包括：

读取目标音视频；

将所述目标音视频输入具备指定功能的人工智能模型，输出识别结果；

基于所述识别结果，从设定的多个待选倍速指令中确定出倍速指令；

基于所述倍速指令，对所述目标音视频进行播放。

2.根据权利要求1所述的方法，其特征在于，将所述目标音视频输入具备指定功能的人工智能模型，输出识别结果之前，还包括：

读取培育音视频；

基于设定的一种或多种培育类别对所述培育音视频进行分类，生成一种或多种类别的培育音视频；

将所述一种或多种类别的培育音视频输入神经网络算法，构建出所述具备指定功能的人工智能模型。

3.根据权利要求1所述的方法，其特征在于，在所述从设定的多个待选倍速指令中确定出倍速指令之后，还包括：

查询出所述识别结果对应的解码精度指令；

基于所述解码精度指令，对所述目标音视频进行播放。

4.根据权利要求1所述的方法，其特征在于，所述从设定的多个待选倍速指令中确定出倍速指令，包括：

根据所述识别结果和所述目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令。

5.根据权利要求1所述的方法，其特征在于，所述识别结果包括人物关系介绍场景或非人物关系介绍场景；

所述根据所述识别结果，从设定的多个待选倍速指令中确定出倍速指令，包括：

响应于所述识别结果包括所述人物关系介绍场景，根据所述人物关系介绍场景，从设定的多个待选倍速指令中确定出倍速指令；

响应于所述识别结果包括所述非人物关系介绍场景，根据所述非人物关系介绍场景和所述目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令。

6.根据权利要求1所述的方法，其特征在于，所述识别结果包括对话场景或非对话场景；

响应于所述识别结果包括所述对话场景，根据所述对话场景和所述目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令；

响应于所述识别结果包括所述非对话场景，根据所述非对话场景和所述目标音视频格式，从设定的多个待选倍速指令中确定出倍速指令。

7.根据权利要求1所述的方法，其特征在于，所述识别结果包括人物场景或非人物场景；

响应于所述识别结果包括所述人物场景，根据所述人物场景，从设定的多个待选倍速指令中确定出倍速指令；

响应于所述识别结果包括所述非人物场景，根据所述非人物场景，从设定的多个待选倍速指令中确定出倍速指令。

8.根据权利要求1所述的方法，其特征在于，所述识别结果包括人物对话场景、非人物非对话场景、人物非对话场景或非人物对话场景；

响应于所述识别结果包括所述人物对话场景，根据所述人物对话场景，从设定的多个待选倍速指令中确定出倍速指令；

响应于所述识别结果包括所述非人物非对话场景，根据所述非人物非对话场景，从设定的多个待选倍速指令中确定出倍速指令；

响应于所述识别结果包括所述人物非对话场景，根据所述人物非对话场景，从设定的多个待选倍速指令中确定出倍速指令；

响应于所述识别结果包括所述非人物对话场景，根据所述非人物对话场景，从设定的多个待选倍速指令中确定出倍速指令。

9.根据权利要求1所述的方法，其特征在于，所述根据所述识别结果，从设定的多个待选倍速指令中确定出倍速指令，包括：

响应于所述识别结果与设定的第一条件匹配，根据所述识别结果，从设定的多个待选倍速指令中确定出倍速指令，所述第一条件包括人物、人物关系介绍和对话场景；非人物、人物关系介绍和非对话场景；非人物、非人物关系介绍和对话场景中之一；

响应于所述识别结果与设定的第二条件匹配，根据所述识别结果，从设定的多个待选倍速指令中确定出倍速指令，所述第二条件包括人物、非人物关系介绍和对话场景；人物、人物关系介绍和非对话场景；非人物、人物关系介绍和对话场景中之一；

响应于所述识别结果与设定的第三条件匹配，根据所述识别结果，从设定的多个待选倍速指令中确定出倍速指令，所述第三条件包括：人物、非人物关系介绍和非对话场景；非人物、非人物关系介绍和非对话场景中之一。

10.一种基于内容感知的倍速播放系统，其特征在于，所述系统包括：

读取模块，用于读取目标音视频；

人工智能模块，用于将所述目标音视频输入具备指定功能的人工智能模型，输出识别结果；

播放控制模块，用于基于所述识别结果，从设定的多个待选倍速指令中确定出倍速指令；

播放模块，用于基于所述倍速指令，对所述目标音视频进行播放。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的基于内容感知的倍速播放方法。

12.一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现权利要求1至9任意一项所述的基于内容感知的倍速播放方法。