CN113766295A

CN113766295A - 一种播放处理方法、装置、设备及存储介质

Info

Publication number: CN113766295A
Application number: CN202110414570.5A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-12-07

Abstract

本申请实施例公开了一种播放处理方法、装置、设备及存储介质，该播放处理方法包括：显示视频的播放界面；响应于音频播放触发事件，隐藏视频的图像画面；以及，播放视频对应的内容音频；在播放内容音频的过程中，播放视频的旁白音频，旁白音频是基于对视频的剧情内容进行识别而生成的。采用本申请实施例，可以在音频播放过程中对剧情内容进行提示，有效提升音频播放效果。

Description

一种播放处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及音视频处理技术领域，具体涉及一种播放处理方法、一种播放处理装置、一种播放处理设备以及一种计算机可读存储介质。

背景技术

目前，当用户不方便观看视频(例如电视剧、电影、综艺节目等视频)时，可以播放视频对应的内容音频；所谓内容音频是指视频的同步音频，内容音频中可以包括视频中的人物对话、背景音乐、环境音效(例如风声、水声等环境音效)等等。在实际应用场景中，播放视频对应的内容音频，由于缺少视频图像画面的提示作用，用户无法获知视频的剧情内容中的一些关键信息，这样不便于用户对剧情内容进行理解，音频播放效果较差。

发明内容

本申请实施例提供了一种播放处理方法、装置、设备及存储介质，可以在音频播放过程中对剧情内容进行提示，有效提升音频播放效果。

一方面，本申请实施例提供一种播放处理方法，该播放处理方法包括：

显示视频的播放界面；

响应于音频播放触发事件，隐藏视频的图像画面；以及，播放视频对应的内容音频；

在播放内容音频的过程中，播放视频的旁白音频，旁白音频是基于对视频的剧情内容进行识别而生成的。

本申请实施例中，响应于音频播放触发事件，可以隐藏视频的图像画面，播放视频对应的内容音频，并在播放内容音频的过程中播放视频的旁白音频。该旁白音频是基于对视频的剧情内容进行识别而生成的，因此旁白音频能够对视频的剧情内容进行提示，在播放内容音频的过程中播放旁白音频可以帮助用户对剧情内容进行更为丰富、深刻地理解，有效提升音频播放效果。

另一方面，本申请实施例提供一种播放处理方法，该播放处理方法包括：

获取待处理的视频；

对视频的剧情内容进行识别，得到剧情内容的关键信息；

根据关键信息生成视频的旁白音频，旁白音频用于当视频的图像画面被隐藏时，在播放视频对应的内容音频的过程中被播放。

本申请实施例中，可以对视频的剧情内容进行识别，得到剧情内容的关键信息，并根据剧情内容的关键信息生成视频的旁白音频；旁白音频可以用于当视频的图像画面被隐藏时，在播放视频对应的内容音频的过程中被播放。该旁白音频是根据对剧情内容识别得到的关键信息生成的，因此旁白音频能够对视频的剧情内容中的关键信息进行提示，当视频的图像画面被隐藏时，在播放内容音频的过程中播放旁白音频可以帮助用户对剧情内容进行更为丰富、深刻地理解，有效提升音频播放效果。

另一方面，本申请实施例提供一种播放处理装置，该播放处理装置包括：

显示单元，用于显示视频的播放界面；

处理单元，用于响应于音频播放触发事件，隐藏视频的图像画面；以及，播放视频对应的内容音频；

处理单元，还用于在播放内容音频的过程中，播放视频的旁白音频，旁白音频是基于对视频的剧情内容进行识别而生成的。

在一种实现方式中，旁白音频包括N个音频片段，每个音频片段分别与内容音频的一个播放时间点相对应；N个音频片段中的任一个音频片段表示为第i个音频片段，第i个音频片段与内容音频的第i个播放时间点对应；其中，i、N均为正整数且i≤N；

处理单元用于在播放所述内容音频的过程中，播放所述视频的旁白音频时，具体用于执行如下步骤：

当内容音频播放至第i个播放时间点时，暂停播放内容音频，并播放第i个音频片段；以及，在第i个音频片段播放结束后，继续播放内容音频。

在一种实现方式中，播放界面为应用程序的服务界面，应用程序包括旁白音频播放开关；处理单元还用于执行如下步骤：

在播放第i个音频片段的过程中，响应于旁白音频播放开关被触发关闭，停止第i个音频片段的播放过程，继续播放内容音频。

在一种实现方式中，旁白音频用于对视频的剧情内容的关键信息进行提示；其中，第i个音频片段用于提示以下至少一种关键信息：视频在第i个播放时间点发生的场景切换信息，视频在第i个播放时间点出现的角色对象，视频在第i个播放时间点出现的角色对象所执行的动作信息。

在一种实现方式中，显示单元还用于执行如下步骤：

当内容音频播放至第一进度时，响应于视频播放触发事件，在播放界面中从第一进度恢复显示视频的图像画面。

在一种实现方式中，处理单元还用于执行如下步骤：

在显示视频的播放界面的过程中，响应于第一重力感应操作，产生音频播放触发事件；

或者，在内容音频或旁白音频的播放过程中，响应于第二重力感应操作，产生视频播放触发事件。

在一种实现方式中，播放界面包括音频播放选项和视频播放选项；处理单元还用于执行如下步骤：

当音频播放选项被选中时，产生音频播放触发事件；

或者，当视频播放选项被选中时，产生视频播放触发事件。

在一种实现方式中，播放界面为应用程序的服务界面；处理单元还用于执行如下步骤：

若应用程序从前台运行切换至后台运行，则产生音频播放触发事件；

或者，若应用程序从后台运行切换至前台运行，则产生视频播放触发事件。

当旁白音频播放开关处于开启状态时，在播放内容音频的过程中，播放视频的旁白音频。

获取单元，用于获取待处理的视频；

处理单元，用于对视频的剧情内容进行识别，得到剧情内容的关键信息；

处理单元，还用于根据关键信息生成视频的旁白音频，旁白音频用于当视频的图像画面被隐藏时，在播放视频对应的内容音频的过程中被播放。

在一种实现方式中，视频包含多个按序排列的视频帧，第j帧为视频中的任一视频帧；处理单元用于对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

分别对视频的第j帧对应的图像画面及第j+1帧对应的图像画面进行场景识别；

比较第j帧与第j+1帧之间的场景变化值；

若场景变化值大于变化阈值，则将第j+1帧在视频中对应的第i个播放时间点以及场景识别得到的第j+1帧的场景标签记录为一个关键信息，所记录的关键信息用于表示视频在第i个播放时间点发生的场景切换信息。

在一种实现方式中，视频包含多个按序排列的视频帧，第j+1帧为视频中的任一视频帧；处理单元用于对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

对视频的第j+1帧对应的图像画面进行人脸识别，得到一个或多个角色人脸特征以及每个角色人脸特征对应的人脸坐标区域；

获取人脸模板集合，人脸模板集合包括多个模板人脸特征以及每个模板人脸特征对应的角色对象标签；

若人脸识别得到的目标角色人脸特征与人脸模板集合包括的目标模板人脸特征相匹配，则将第j+1帧在视频中对应的第i个播放时间点、目标模板人脸特征对应的角色对象标签、以及目标角色人脸特征对应的人脸坐标区域记录为一个关键信息，所记录的关键信息用于表示视频在第i个播放时间点出现的一个角色对象。

在一种实现方式中，视频包含多个按序排列的视频帧；处理单元用于对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

对视频包含的多个视频帧的图像画面逐帧进行动作识别，得到一个或多个角色动作特征、每个角色动作特征对应的人脸坐标区域以及每个角色动作特征的持续时间范围；

获取动作模板集合，所述动作模板集合包括多个模板动作特征以及每个模板动作特征对应的动作标签；

若识别得到的目标角色动作特征与所述动作模板集合包括的目标模板动作特征相匹配，则将所述目标模板动作特征对应的动作标签、所述目标角色动作特征对应的人脸坐标区域、以及所述目标角色动作特征对应的持续时间范围记录为一个关键信息，所记录的关键信息用于表示视频在一个持续时间范围内出现的角色对象所执行的动作信息。

在一种实现方式中，关键信息包括视频在第i个播放时间点的场景标签；处理单元用于根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

将第i个播放时间点的场景标签作为一个剧情标签；

将剧情标签转换为第i个播放时间点对应的音频片段，所述旁白音频包括第i个播放时间点对应的音频片段。

在一种实现方式中，关键信息包括视频在第i个播放时间点的场景标签和视频在第i个播放时间点的角色对象标签；处理单元用于根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

将第i个播放时间点的场景标签和第i个播放时间点的角色对象标签拼接为一个剧情标签；

将剧情标签转换为第i个播放时间点对应的音频片段，旁白音频包括第i个播放时间点对应的音频片段。

在一种实现方式中，关键信息包括：视频在第i个播放时间点的场景标签、视频在第i个播放时间点的角色对象标签、第i个播放时间点的角色对象标签对应的人脸坐标区域、视频在目标持续时间范围的动作标签、以及目标持续时间范围的动作标签对应的人脸坐标区域；其中，第i个播放时间点处于目标持续范围内，第i个播放时间点的角色对象标签对应的人脸坐标区域与目标持续时间范围的动作标签对应的人脸坐标区域相匹配；

处理单元用于根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

将第i个播放时间点的场景标签、第i个播放时间点的角色对象标签、以及目标持续时间范围的动作标签拼接为一个剧情标签；

另一方面，本申请实施例提供一种播放处理设备，该播放处理设备包括：

处理器，适于实现计算机程序；以及，计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序适于由处理器加载并执行上述的播放处理方法。

另一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的播放处理方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的播放处理方法。

本申请实施例中，当视频的图像画面被隐藏时，可以在播放视频对应的内容音频的过程中播放视频的旁白音频；该旁白音频是对视频的剧情内容进行识别生成的，因此旁白音频能够对视频的剧情内容进行提示，在播放内容音频的过程中播放旁白音频可以帮助用户对剧情内容进行更为丰富、深刻地理解，有效提升音频播放效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的一种播放处理系统的架构示意图；

图2示出了本申请一个示例性实施例提供的一种播放处理方案的流程示意图；

图3示出了本申请一个示例性实施例提供的一种播放处理方法的流程示意图；

图4a示出了本申请一个示例性实施例提供的一种播放处理方法的界面示意图；

图4b示出了本申请另一个示例性实施例提供的一种播放处理方法的界面示意图；

图4c示出了本申请另一个示例性实施例提供的一种播放处理方法的界面示意图；

图4d示出了本申请另一个示例性实施例提供的一种播放处理方法的界面示意图；

图4e示出了本申请一个示例性实施例提供的一种旁白音频的播放方式的流程示意图；

图4f示出了本申请一个示例性实施例提供的一种旁白音频播放开关的示意图；

图5示出了本申请另一个示例性实施例提供的一种播放处理方法的流程示意图；

图6a示出了本申请一个示例性实施例提供的一种角色对象的识别过程的流程示意图；

图6b示出了本申请另一个示例性实施例提供的一种角色对象的识别过程的流程示意图；

图7示出了本申请一个示例性实施例提供的一种动作识别过程的流程示意图；

图8示出了本申请一个示例性实施例提供的一种播放处理装置的结构示意图；

图9示出了本申请另一个示例性实施例提供的一种播放处理装置的结构示意图；

图10示出了本申请一个示例性实施例提供的一种播放处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当用户不方便观看视频(例如电视剧、电影、综艺节目等视频)时，可以选择后台播放该视频，或者选择播放该视频对应的内容音频。内容音频是指视频的同步音频，即在视频的播放过程中同步播放的音频便是视频对应的内容音频，内容音频中可以包括视频中的人物对话、背景音乐、环境音效(例如风声、水声等环境音效)等等，通过播放视频对应的内容音频可以对视频的剧情内容进行大致了解。其中，后台播放是指将目前正在播放视频的播放器(例如可以是应用程序)隐藏，但播放器的功能仍然在运行中；后台播放时，播放器的播放界面是关闭(或隐藏)的，对用户是不可见的，但播放器的所有功能都是在正常运行的；因此，后台播放视频的时候，视频的图像画面是被隐藏的，对于用户而言不能观看到视频的图像画面，但能够听到视频对应的内容音频；例如，在视频的播放过程中按下手机的Home键(Home键是指能够触发显示手机的主界面的控件)，视频的图像画面被隐藏，显示手机的主界面，对于用户而言观看到的是手机的主界面，但能够听到视频对应的内容音频，这便是后台播放视频；又如，在视频的播放过程中按下手机的息屏键(息屏键是指可以用于控制手机进入休眠状态或取消休眠状态的控件)，手机息屏进入休眠状态，视频的图像画面被隐藏，对于用户而言观看到的是息屏后的手机屏幕，但能够听到视频对应的内容音频，这也是后台播放视频；再如，在视频的播放界面中选择“最小化”按键，视频的播放界面被最小化显示，视频的图像画面被隐藏，仅输出视频对应的内容音频，这同样也是后台播放视频。其中，选择播放视频对应的内容音频可以指：通过特殊的操作直接在视频的播放界面中隐藏视频的图像画面，仅播放视频对应的内容音频，视频的播放界面中的其他界面元素(例如视频标题信息、视频简介信息等界面元素)可以保持原有的显示状态不变；例如，视频的播放界面中提供音频播放选项，在视频播放的过程中，如果用户操作该音频播放选项，表示用户选择播放视频对应的内容音频，那么，在该播放界面中隐藏视频的图像画面，而仅在该播放界面中播放视频对应的内容音频。

在播放视频对应的内容音频的过程中，由于缺少视频图像画面的提示作用，用户无法获知视频的剧情内容中的一些关键信息，这样不便于用户对剧情内容进行理解。基于此，本申请实施例提供一种播放处理方案，能够对视频的剧情内容进行识别并生成视频的旁白音频；旁白音频可以是指能够对视频的剧情内容中的关键信息进行提示的音频，视频对应的内容音频不能对剧情内容的关键信息进行提示，关键信息对视频剧情内容的理解起到非常重要的提示作用；剧情内容的关键信息可以包括以下至少一种：场景切换信息、角色对象、角色对象所执行的动作信息；场景切换信息可以用于指示在视频的某个播放时间点，视频的图像画面由一个场景(例如可以为“雪上”)切换为另一个场景(例如可以为“湖面”)；角色对象可以用于指示在视频的某个播放时间点出现的角色对象(例如“张XX”)；角色对象所执行的动作信息可以用于指示在视频的某个播放时间点角色对象所执行的动作(例如“张XX跑步”)。在播放内容音频的过程中，增加旁白音频的播放，这样通过旁白音频的播放可以帮助用户对剧情内容进行更丰富、更深刻地理解，有效提升音频播放效果。

下面结合图1所示的播放处理系统对本申请实施例提供的播放处理方案进行介绍。图1示出了本申请一个示例性实施例提供的一种播放处理系统的架构示意图，播放处理系统10可以包括终端101和服务器102。其中，终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、车载设备、智能音箱、智能手表等，但并不局限于此。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)服务、以及大数据和人工智能平台等基础云计算服务的云服务器。终端101和服务器102可以通过有线通信或无线通信方式进行直接或间接地连接，本申请在此不做限制。

(1)旁白音频的播放过程由终端101执行，旁白音频的识别过程由服务器102执行。

终端中可以运行有视频点播应用程序，服务器可以是视频点播应用程序的数据处理服务器。视频点播应用程序可以在用户点播视频时，向服务器发送视频点播请求，视频点播请求中可以携带被点播视频的视频标识(例如视频ID(Identity document，身份识别号码)等等)；服务器可以根据被点播视频的视频标识获取视频，并将获取到的视频传输至视频点播应用程序中进行播放。响应于音频播放触发事件，则视频点播应用程序可以向服务器发送音频播放请求，音频播放请求中可以包括所请求视频的视频标识。服务器可以根据所请求视频的视频标识获取视频以及视频对应的内容音频，并对获取到的视频的剧情内容进行识别，得到剧情内容的关键信息；服务器还可以根据剧情内容的关键信息生成旁白音频，并将内容音频和旁白音频发送至视频点播应用程序，从而视频点播应用程序可以在播放内容音频的过程中播放旁白音频。

需要说明的是，本申请实施例中提及的服务器102可以是视频后台服务器、语音转换服务器和剧情内容识别服务器组成的服务器集群。视频点播应用程序、视频后台服务器、语音转换服务器和剧情内容识别服务器之间的数据交互过程可参见图2，图2示出了本申请一个示例性实施例提供的一种播放处理方案的流程示意图，图2所示的播放处理方案可以包括以下①至⑧：

①用户执行音频播放触发操作。音频播放触发操作可以包括以下任意一种：在视频点播应用程序显示视频的播放界面的过程中执行摇晃终端、旋转终端、翻转终端等重力感应操作；或者，选中视频的播放界面中的音频播放选项；或者，将视频点播应用程序从前台运行切换至后台运行，例如在视频点播应用程序显示视频的播放界面的过程中选中Home键，在视频点播应用程序显示视频的播放界面的过程中选中息屏键，选中视频的播放界面中的“最小化”按键等等。

②视频点播应用程序根据用户的音频播放触发操作生成音频播放请求，并将音频播放请求发送至视频后台服务器。具体地，视频点播应用程序响应于用户的音频播放触发操作，产生音频播放触发事件，并生成音频播放请求，然后将音频播放请求发送至视频后台服务器；音频播放请求中可以包括所请求视频的视频标识。

③视频后台服务器响应于音频播放请求，获取视频对应的内容音频，并将音频播放请求发送至剧情内容识别服务器。具体地，视频后台服务器可以响应于音频播放请求，根据音频播放请求中包括的所请求视频的视频标识获取视频对应的内容音频；然后视频后台服务器还可以将音频播放请求发送至剧情内容识别服务器，请求剧情内容识别服务器对所请求视频的剧情内容进行识别，得到剧情内容的关键信息。

④剧情内容识别服务器响应于音频播放请求，根据音频播放请求获取视频，并对视频的剧情内容进行识别，得到剧情内容的关键信息。具体地，剧情内容识别服务器可以响应于音频播放请求，根据音频播放请求中包括的所请求视频的视频标识获取视频，并对视频的剧情内容进行识别，得到剧情内容的至少一个关键信息。

剧情内容识别服务器还可以对各个关键信息之间进行拼接组合，得到一个或多个剧情标签，每个剧情标签对应一个内容音频的播放时间点。然后，剧情内容识别服务器可以将各个剧情标签以及每个剧情标签对应的播放时间点发送至视频后台服务器。

⑤视频后台服务器将视频对应的内容音频、剧情标签以及剧情标签对应的播放时间点发送至视频点播应用程序。具体地，视频后台服务器可以将视频对应的内容音频、对关键信息进行拼接组合得到的各个剧情标签以及每个剧情标签对应的播放时间点发送至视频点播应用程序。

⑥视频点播应用程序向语音转换服务器发送语音转换请求。具体地，视频点播应用程序接收到视频后台服务器发送的视频对应的内容音频、对关键信息进行拼接组合得到的各个剧情标签以及每个剧情标签对应的播放时间点之后，视频点播应用程序可以播放内容音频，在播放内容音频的过程中，当内容音频播放至目标剧情标签对应的播放时间点时，视频点播应用程序可以暂停播放内容音频，目标剧情标签是视频点播应用程序接收到的任一个剧情标签；然后，视频点播应用程序向语音转换服务器发送语音转换请求，语音转换请求中可以包括目标剧情标签。

⑦语音转换服务器响应语音转换请求，对目标剧情标签进行语音转换，得到目标剧情标签对应的音频片段。具体地，语音转换服务器可以响应语音转换请求，对目标剧情标签进行语音转换，得到目标剧情标签对应的音频片段；旁白音频中包括对各个剧情标签进行转换得到的音频片段；然后，语音转换服务器将目标剧情标签转换得到的音频片段发送至视频点播应用程序。

⑧视频点播应用程序从目标剧情标签对应的播放时间点开始播放目标剧情标签对应的音频片段。具体地，视频点播应用程序可以从目标剧情标签对应的播放时间点开始播放目标剧情标签对应的音频片段，在目标剧情标签对应的音频片段播放结束后，从目标剧情标签对应的播放时间点开始接续播放内容音频。

需要说明的是，当内容音频播放至下一个剧情标签对应的播放时间点时，则重复上述⑥至⑧；下一个剧情标签是拼接组合得到的各个剧情标签中，播放时间点位于目标剧情标签对应的播放时间点之后的剧情标签。也就是说，在播放内容音频的过程中，当内容音频播放至下一个剧情标签对应的播放时间点时，视频点播应用程序暂停播放内容音频；然后，视频点播应用程序向语音转换服务器发送语音转换请求，语音转换请求中可以包括下一个剧情标签。语音转换服务器可以响应语音转换请求，对下一个剧情标签进行语音转换，得到下一个剧情标签对应的音频片段；然后，语音转换服务器可以将下一个剧情标签对应的音频片段发送至视频点播应用程序。视频点播应用程序可以从下一个剧情标签对应的播放时间点开始播放下一个剧情标签对应的音频片段，在下一个剧情标签对应的音频片段播放结束后，从下一个剧情标签对应的播放时间点开始接续播放内容音频。

(2)旁白音频的播放过程和旁白音频的识别过程均由终端101执行。

在旁白音频的播放过程和旁白音频的识别过程均由终端101执行的情况下，视频点播应用程序中具备剧情内容识别功能和语音转换功能。在视频应用程序的播放界面中播放视频的过程中，响应于音频播放触发事件，视频点播应用程序可以获取视频对应的内容音频，并播放视频对应的内容音频；视频点播应用程序还可以对视频的剧情内容进行识别，得到剧情内容的至少一个关键信息以及每个关键信息对应的播放时间点；然后，视频点播应用程序可以对各个关键信息之间进行拼接组合，得到一个或多个剧情标签，每个剧情标签对应一个内容音频的播放时间点；视频点播应用程序可以分别对每个剧情标签进行语音转换，得到各个剧情标签对应的音频片段，旁白音频由各个剧情标签对应的音频片段组成；当内容音频播放到达目标剧情标签对应的播放时间点时，视频点播应用程序暂停播放内容音频，并开始播放目标剧情标签对应的音频片段；在目标剧情标签对应的音频片段播放结束后，视频点播应用程序可以从目标剧情标签对应的播放时间点开始接续播放内容音频；其中，目标剧情标签是拼接组合得到的任一个剧情标签。

本申请实施例中，剧情内容识别服务器可以对视频的剧情内容进行识别，得到剧情内容对应的关键信息；语音转换服务器可以对拼接组合得到的剧情标签进行语音转换，得到旁白音频中与剧情标签对应的音频片段；由此可见，通过视频后台服务器、语音转换服务器和剧情内容识别服务器组成的服务器集群，可以生成视频的旁白音频，旁白音频能够对视频的剧情内容进行提示；从而，视频点播应用程序在播放内容音频的过程中播放视频的旁白音频，可以帮助用户对剧情内容进行更丰富、更深刻地理解，提升音频的播放效果。

可以理解的是，本申请实施例描述的播放处理系统是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

需要说明的是，本申请实施例提供的播放处理方案涉及人工智能的语音技术、自然语言处理技术、计算机视觉技术、机器学习技术等等。具体地，将关键信息转换为音频片段的过程涉及人工智能的语音技术；对视频的剧情内容进行识别得到关键信息的过程涉及人工智能的计算机视觉技术、机器学习技术、自然语言处理技术。其中：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-Dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、信息抽取、文本挖掘、信息检索、机器翻译、机器人问答、对话系统、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的播放处理方案还涉及云技术的云计算、人工智能云服务等技术。具体地，对视频的剧情内容进行别得到关键信息的过程需要强大的计算能力，可以采用云计算提供的计算服务；另外，对视频的剧情内容进行别得到关键信息的过程还可以采用人工智能云服务提供的服务支持。其中：

云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是指基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(Cloud Computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务))平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分，在IaaS层上可以部署PaaS(Platform as a Service，平台即服务)层，PaaS层之上再部署SaaS(Software asa Service，软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

云计算是指IT(Internet Technology，互联网技术)基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算是指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Com puting)、效用计算(Utility Computing)、网络存储(Network Storage Techno logies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

人工智能云服务，一般也被称作是AIaaS(AIas a Service，AI即服务)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

本申请实施例的播放处理方案还涉及区块链技术，区块链是分布式数据存储、P2P(Peer to Peer，点对点)传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链以密码学方式保证数据不可篡改和不可伪造。例如终端、视频后台服务器、语音转换服务器、剧情内容识别服务器等均可以是区块链网络中的节点，本申请实施例中涉及的诸如视频的视频标识、视频对应的内容音频、关键信息、剧情标签以及剧情标签对应的音频片段等可以区块的形式关联存储在区块链网络中；当相同的视频被多次点播、被多次请求播放音频时，可以直接获取与视频标识关联的视频标识、视频对应的内容音频、关键信息、剧情标签以及剧情标签对应的音频片段，可以快速实现音频播放，提升音频播放的效率；另外，视频的视频标识、视频对应的内容音频、关键信息、剧情标签以及剧情标签对应的音频片段等在区块链网络中进行传输，基于区块链中的区块不可被篡改和不可被伪造的特点，使得传输过程更加安全可靠。

请参见图3，图3示出了本申请一个示例性实施例提供的一种播放处理方法的流程示意图。该播放处理方法可以由本申请实施例提供的播放处理设备来执行，播放处理设备可以是图1所示的播放处理系统中的终端101，该播放处理方法可以包括但不限于以下步骤S301至步骤S304：

S301，显示视频的播放界面。

显示视频的播放界面，播放界面中可以包括视频的图像画面。图4a示出了本申请一个示例性实施例提供的一种播放处理方法的界面示意图，如图4a所示，视频的播放界面40中显示有视频的图像画面401(例如图4a所示的包括狗、牛、大树等的图像画面)。

S302，响应于音频播放触发事件，隐藏视频的图像画面。

S303，播放视频对应的内容音频。

步骤S302至步骤S303中，响应于音频播放触发事件，可以隐藏视频的图像画面，并播放视频对应的内容音频。具体地，当视频在播放界面中播放至第二进度(例如图4a所示的“10:00”)时，响应于音频播放触发事件，可以隐藏视频的图像画面，并从第二进度开始播放视频对应的内容音频。当内容音频播放至第一进度(例如图4a所示的“20:00”)时，响应于视频播放触发事件，可以在播放界面中从第一进度恢复显示视频的图像画面。需要说明的是，视频的播放进度与内容音频的播放进度是同步的，因此第一进度和第二进度均可以用于描述视频的播放进度，也可以用于描述内容音频的播放进度；本申请实施例中，第一进度对应的数值大于第二进度对应的数值。其中，以视频的播放进度为例，视频的播放进度是指视频中已被播放的内容相对于全部内容的占比；视频未被播放时，其播放进度为0％；视频被完整播放时，其播放进度为100％；而视频未被完整播放时，其播放进度为区间(0％，100％)之间的数值。例如，设视频的全部内容的播放时长为40分钟，视频当前被播放到第10分钟的内容，则视频的当前播放进度为10/40＝25％。

本申请实施例中，音频播放触发事件可以包括但不限于以下任意一种：

(1)选中音频播放选项而产生音频播放触发事件。具体地，播放界面中可以包括音频播放选项；若音频播放选项被选中，则可以产生音频播放触发事件。如图4a所示，播放界面40中包括音频播放选项402，当音频播放选项402被选中时，可以产生音频播放触发事件。在此方式下，隐藏视频的图像画面可以是指：在播放界面中不显示视频的图像画面，可以在播放界面中显示音频播放提示，音频播放提示用于提示当前正在播放视频对应的音频，如图4a所示，音频播放提示403显示于播放界面40中。

(2)响应于重力感应操作而产生音频播放触发事件。具体地，在显示视频的播放界面的过程中，响应于第一重力感应操作，可以产生音频播放触发事件。其中，第一重力感应操作可以是指使终端的重力发生变化的操作，终端的重力感应器感知到终端的重力发生变化后，完成从重力变化到电信号的转换，从而产生音频播放触发事件；第一重力感应操作包括以下任意一种：摇晃操作、旋转操作、翻转操作等等；摇晃操作可以是指快速晃动终端的操作；旋转操作可以是指按照旋转方向对终端进行旋转的操作，旋转方向可以包括从左往右、从右往左、从前往后、从上到下等等，旋转一次的旋转角度一般小于180度；翻转操作可以是指按照翻转方向对终端进行翻转的操作，翻转方向可以包括从左往右、从右往左、从前往后、从上到下等等，翻转一次的翻转角度一般为180度。图4b示出了本申请另一个示例性实施例提供的一种播放处理方法的界面示意图，如图4b所示，在显示视频的播放界面40的过程中，终端用户可以通过摇晃终端而产生音频播放触发事件。图4c示出了本申请另一个示例性实施例提供的一种旋转操作的示意图，如图4c所示，在显示视频的播放界面40的过程中，终端用户可以通过翻转终端而产生音频播放触发事件。在此方式下，隐藏视频的图像画面可以是指：在播放界面中不显示视频的图像画面，可以在播放界面中显示音频播放提示，音频播放提示用于提示当前正在播放视频对应的音频，如图4b或图4c所示，音频播放提示403显示于播放界面40中。

(3)应用程序(例如可以是上述的视频点播应用程序)从前台运行切换至后台运行而产生音频播放触发事件。此时，播放界面为应用程序的服务界面；在应用程序中显示视频的播放界面的过程中，若应用程序从前台运行切换至后台运行，则产生音频播放触发事件。例如，在应用程序中显示视频的播放界面的过程中，若Home键被选中，则应用程序从前台运行切换至后台运行，产生音频播放触发事件；又如，在应用程序中显示视频的播放界面的过程中，若息屏键被选中，则应用程序从前台运行切换至后台运行，产生音频播放触发事件；再如，在应用程序中显示视频的播放界面的过程中，若“最小化”按键被选中，则应用程序从前台运行切换至后台运行，产生音频播放触发事件。在Home键被选中的情况下，隐藏视频的图像画面可以是指：不显示视频的播放界面，可以显示终端的主界面；图4d示出了本申请另一个示例性实施例提供的一种播放处理方法的界面示意图，如图4d所示，视频的播放界面40中包括Home键404，在应用程序中显示视频的播放界40的过程中，若Home键404被选中，则显示终端的主界面41。

上述三种音频播放触发事件的触发方式仅为举例，并不构成对本申请的限定。用户可以灵活选择适用的方式触发产生音频播放触发事件，从而可以提升音频播放效率，提升音频播放效果，满足用户的将视频切换至音频播放的需求。

本申请实施例中，视频播放触发事件可以包括但不限于以下任意一种：

(1)选中视频播放选项而产生音频播放触发事件。具体地，视频的播放界面中可以包括视频播放选项；若视频播放选项被选中，则产生视频播放触发事件。如图4a所示，播放界面40中包括音频播放选项405，当内容音频播放至第一进度时，若视频播放选项405被选中，产生视频播放触发事件，则可以在播放界面中40从第一进度开始恢复显示视频的图像画面401。

(2)响应于重力感应操作而产生视频播放触发事件。具体地，在内容音频或旁白音频的播放过程中，响应于第二重力感应操作，可以产生视频播放触发事件。其中，第二重力感应操作可以是指使终端的重力发生变化的操作，终端的重力感应器感知到终端的重力发生变化后，完成从重力变化到电信号的转换，从而产生音频播放触发事件；第二重力感应操作包括以下至少一种：摇晃操作、旋转操作、翻转操作等等；摇晃操作可以是指快速晃动终端的操作；旋转操作可以是指按照旋转方向对终端进行旋转的操作，旋转方向可以包括从左往右、从右往左、从前往后、从上到下等等，旋转一次的旋转角度一般小于180度；翻转操作可以是指按照翻转方向对终端进行翻转的操作，翻转方向可以包括从左往右、从右往左、从前往后、从上到下等等，翻转一次的翻转角度一般为180度。如图4b所示，当内容音频播放至第一进度时，若终端用户通过摇晃终端而产生视频播放触发事件，则可以在播放界面40中从第一进度开始恢复显示视频的图像画面401。如图4c所示，当内容音频播放至第一进度时，若终端用户通过翻转终端而产生视频播放触发事件，则可以在播放界面40中从第一进度开始恢复显示视频的图像画面401。

(3)应用程序(例如可以是上述的视频点播应用程序)从后台运行切换至前台运行的事件。此时，播放界面为应用程序的服务界面；当内容音频播放至第一进度时，若应用程序从后台运行切换至前台运行，则产生视频播放触发事件。如图4d所示，当内容音频播放至第一进度时，若主界面41中显示的应用程序的图标406被选中，则应用程序从后台运行切换至前台运行，产生视频播放触发事件，可以在播放界面40中从第一进度开始恢复显示视频的图像画面401。又如，当内容音频播放至第一进度时，若息屏键被选中，则应用程序从后台运行切换至前台运行，产生音频播放触发事件，则可以在播放界面中从第一进度开始恢复显示视频的图像画面。

上述三种视频播放触发事件的触发方式仅为举例，并不构成对本申请的限定。用户可以灵活选择适用的方式触发产生视频播放触发事件，从而可以便捷地将音频播放切换为视频播放，满足用户将音频切换为视频播放的需求。

需要说明的是，上述各种音频播放触发事件与各种视频播放触发事件可以灵活组合使用；例如，通过点击音频播放选项产生音频播放触发事件时，并不是必须要求点击视频播放选项来产生视频播放触发事件，也可以通过对终端执行重力感应操作来产生视频播放触发事件，本申请实施例对此不作限定。第一重力感应操作和第二重力感应操作可以相同，例如第一重力感应操作和第二重力感应操作均是摇晃操作；第一重力感应操作和第二重力感应操作也可以不相同，例如第一重力感应操作是摇晃操作，第二重力感应操作是翻转操作。

S304，在播放内容音频的过程中，播放视频的旁白音频。

旁白音频是基于对视频的剧情内容进行识别而生成的，旁白音频可以用于对视频的剧情内容进行提示。旁白音频可以包括N个音频片段，每个音频片段分别与内容音频的一个播放时间点相对应；N个音频片段中的任一个音频片段表示为第i个音频片段，第i个音频片段与内容音频的第i个播放时间点对应；其中，i、N均为正整数且i≤N。视频的旁白音频的播放方式可参见图4e，图4e示出了本申请一个示例性实施例提供的一种旁白音频的播放方式的流程示意图，如图4e所示，响应于音频播放触发事件，播放视频对应的内容音频；在内容音频的播放过程中，当内容音频播放至第i个播放时间点时，可以暂停播放内容音频，并播放所述第i个音频片段；在第i个音频片段播放结束后，可以继续播放内容音频；继续播放内容音频可以是指从第i个播放时间点开始接续播放内容音频。

旁白音频可以用于对视频的剧情内容的关键信息进行提示；其中，第i个音频片段可以用于提示以下至少一种关键信息：视频在第i个播放时间点发生的场景切换信息，视频在第i个播放时间点出现的角色对象，视频在第i个播放时间点出现的角色对象所执行的动作信息。视频可以包括多个按序排列的视频帧，视频在第i个播放时间点发生的场景切换信息可以是指：从第i-1个播放时间点对应的视频帧的图像画面，到第i个播放时间点对应的视频帧的图像画面发生了场景切换，可以选取第i个播放时间点对应的视频帧的场景标签作为视频在第i个播放时间点发生的场景切换信息。视频在第i个播放时间点出现的角色对象可以是指：第i个播放时间点对应的视频帧的图像画面中包括的角色对象。视频在第i个播放时间点出现的角色对象所执行的动作信息可以是指：第i个播放时间点对应的视频帧的图像画面中包括的角色对象所执行的动作信息。

在一种实现方式中，第i个音频片段可以用于提示视频在第i个播放时间点发生的场景切换信息；例如，第i个播放时间点发生的场景切换信息为“在船头”，则第i个音频片段提示的关键信息可以为“在船头”。

在另一种实现方式中，第i个音频片段可以用于提示视频在第i个播放时间点发生的场景切换信息和视频在第i个播放时间点出现的角色对象；并且第i个播放时间点发生的场景切换信息和视频在第i个播放时间点出现的角色对象的提示顺序可以为视频在第i个播放时间点出现的角色对象在前、视频在第i个播放时间点发生的场景切换信息在后；例如，视频在第i个播放时间点出现的角色对象为“杰克”，视频在第i个播放时间点发生的场景切换信息为“在船头”，则第i个音频片段提示的关键信息可以为“杰克在船头”。

在另一种实现方式中，第i个音频片段可以用于提示视频在第i个播放时间点发生的场景切换信息、视频在第i个播放时间点出现的角色对象以及视频在第i个播放时间点出现的角色对象所执行的动作信息；并且第i个播放时间点发生的场景切换信息、视频在第i个播放时间点出现的角色对象和视频在第i个播放时间点出现的角色对象所执行的动作信息的提示顺序可以依次为视频在第i个播放时间点出现的角色对象在前，其次是视频在第i个播放时间点发生的场景切换信息，然后是视频在第i个播放时间点出现的角色对象所执行的动作信息；例如，视频在第i个播放时间点出现的角色对象为“杰克”，视频在第i个播放时间点发生的场景切换信息为“在船头”，视频在第i个播放时间点出现的角色对象所执行的动作信息为“拥抱”，则第i个音频片段提示的关键信息可以为“杰克在船头拥抱”。

视频的播放界面是应用程序的一个服务界面，应用程序中还可以包括旁白音频播放开关，例如，视频的播放界面中可以包括旁白音频播放开关。当旁白音频播放开关处于开启状态时，可以在播放内容音频的过程中，播放视频的旁白音频。在播放第i个音频片段的过程中，响应于旁白音频播放开关被触发关闭，停止第i个音频片段的播放过程，继续播放内容音频，继续播放内容音频可以是指从第i个播放时间点开始接续播放内容音频。图4f示出了本申请一个示例性实施例提供的一种旁白音频播放开关的示意图，如图4f所示，视频的播放界面40中可以包括旁白音频播放开关407；响应于音频播放触发事件，此时若旁白音频播放开关407处于开启状态，则可以在播放内容音频的过程中，播放视频的旁白音频。在播放第i个音频片段的过程中，响应于旁白音频播放开关407被触发关闭，停止第i个音频片段的播放过程，继续播放内容音频，继续播放内容音频可以是指从第i个播放时间点开始接续播放内容音频。通过这种方式，应用程序的用户可以根据需求，自主决定开启或关闭旁白音频播放开关，从而开启或关闭旁白音频播放功能，进一步提升音频播放效果，提升应用程序的使用体验。

本申请实施例中，响应于音频播放触发事件，可以隐藏视频的图像画面，播放视频对应的内容音频，并在播放内容音频的过程中播放视频的旁白音频。该旁白音频是基于对视频的剧情内容进行识别而生成的，因此旁白音频能够对视频的剧情内容进行提示，在播放内容音频的过程中播放旁白音频可以帮助用户对剧情内容进行更为丰富、深刻地理解，有效提升音频播放效果。此外，用户可以灵活选择适用的方式触发产生音频播放触发事件，从而可以提升音频播放效率，提升音频播放效果，满足用户的将视频切换为音频播放的需求。用户可以灵活选择适用的方式触发产生视频播放触发事件，从而可以便捷地将音频播放切换为视频播放，满足用户的将音频转换为视频播放的需求。另外，应用程序的用户可以根据需求，自主决定开启或关闭旁白音频播放开关，从而开启或关闭旁白音频播放功能，进一步提升音频播放效果，提升应用程序的使用体验。

请参见图5，图5示出了本申请另一个示例性实施例提供的一种播放处理方法的流程示意图。该播放处理方法可以由本申请实施例提供的播放处理设备来执行，该播放处理方法可以包括但不限于以下步骤S501至步骤S503：

S501，获取待处理的视频。

在一种实现方式中，该播放处理设备可以是图1所示的播放处理系统中的服务器102，即图5所示的播放处理方法可以由该服务器102执行。终端中可以运行有视频点播应用程序，服务器可以是视频点播应用程序的数据处理服务器。视频点播应用程序可以在用户请求播放视频对应的音频时，向服务器发送音频播放请求，音频播放请求中可以携带所请求视频的视频标识(例如视频ID等等)；服务器可以根据所请求视频的视频标识获取待处理的视频以及视频对应的内容音频，并对视频进行识别处理，得到剧情内容的关键信息；然后，服务器可以根据关键信息生成视频的旁白音频，并将内容音频和旁白音频发送至视频点播应用程序，从而视频点播应用程序可以在播放内容音频的过程中播放旁白音频。

在另一种实现方式中，该播放处理设备可以是图1所示的播放处理系统中的终端101，即图5所示的播放处理方法由该终端执行。终端中可以运行有视频点播应用程序，终端的视频点播应用程序可以在用户请求播放视频对应的音频时，获取所请求的视频，并对视频进行识别处理，得到剧情内容的关键信息；然后，终端的视频点播应用程序可以根据关键信息生成视频的旁白音频，从而视频点播应用程序可以在播放内容音频的过程中播放旁白音频。

S502，对视频的剧情内容进行识别，得到剧情内容的关键信息。

对视频的剧情内容进行识别，可以得到剧情内容的至少一个关键信息。关键信息可以包括但不限于以下至少一种：场景切换信息、角色对象、角色对象所执行的动作信息。视频可以包含多个按序排列的视频帧，对视频的剧情内容进行识别具体可以是指对视频包含的每个视频帧逐帧进行识别。

在一种实现方式中，关键信息可以包括角色对象。当关键信息为角色对象时，对视频的剧情内容进行识别，得到剧情内容的关键信息的过程可参见图6a所示的流程示意图和图6b所示的流程示意图；图6a示出了本申请一个示例性实施例提供的一种角色对象的识别过程的流程示意图，图6b示出了本申请另一个示例性实施例提供的一种角色对象的识别过程的流程示意图。如图6a所示，对视频的剧情内容进行识别，得到剧情内容的关键信息的过程可以包括以下子步骤s61至s64：

s61，对视频的第j+1帧对应的图像画面进行人脸识别，得到一个或多个角色人脸特征以及每个角色人脸特征对应的人脸坐标区域。

第j+1帧为视频包含的多个视频帧中的任一视频帧，j为非负整数。如图6b所示流程图中的右侧检测流程，对视频的第j+1帧对应的图像画面进行人脸识别的过程可以包括：对第j+1帧对应的图像画面进行图像预处理；其中，图像预处理可以包括：对第j+1帧对应的图像画面进行去除毛刺处理、对比度拉伸处理、动态范围压缩处理等等；经过图像预处理可以消除图像画面中无关的信息，恢复有用的真实信息，有效增强图像画面的可检测性。然后，可以采用人脸识别模型对图像预处理后的第j+1帧对应的图像画面进行人脸识别与切割，得到图像画面中的人脸坐标区域，切割得到的人脸坐标区域可以包括一个或多个；人脸坐标区域是指图像画面中包含人脸的一个区域，人脸坐标区域可以是根据左上坐标点和右下坐标点确定的一个矩形区域，或者人脸坐标区域还可以是根据圆心和半径确定的一个圆形区域，或者人脸坐标区域还可以是根据圆心、长轴和短轴确定的一个椭圆形区域等等，本申请实施例对此不作限定。进一步地，针对任一个人脸坐标区域，可以采用人脸识别模型对图像画面中人脸坐标区域对应的图像块进行特征提取处理，得到与人脸坐标区域对应的角色人脸特征；特征提取处理是指从图像块包含的初始信息中提取出能够提供有效信息、非冗余信息的特征的过程，通过特征提取处理能够有效提升人脸识别效率。经过人脸识别模型对j+1帧对应的图像画面进行人脸识别，最终可以得到一个或多个角色人脸特征以及每个角色人脸特征对应的人脸坐标区域。

人脸识别模型与分类器的训练过程可以参见图6b所示流程图中的左侧训练流程，可以采用样本图像集对人脸识别模型与分类器进行训练；其中，样本图像集可以包括第一图像集和第二图像集，第一图像集中可以包括多张样本人脸图像，第二图像集中可以包括与第一图像集中的各张样本人脸图像对应的模板人脸图像。如图6a左侧训练流程所示，人脸识别模型与分类器的训练过程简述如下：针对第一图像集中的目标样本人脸图像，目标样本人脸图像是第一图像集中的任一张样本人脸图像；可以对目标样本人脸图像进行图像预处理，并采用人脸识别模型对图像预处理之后的目标样本人脸图像进行人脸识别处理，得到目标样本人脸图像中的第一样本人脸特征以及第一样本人脸特征对应的人脸坐标区域。然后，针对第二图像集中与目标样本人脸图像对应的目标模板人脸图像，可以对目标模板人脸图像进行图像预处理，并采用人脸识别模型对图像预处理之后的目标模板人脸图像进行人脸识别处理，得到目标模板人脸图像中的第二样本人脸特征以及第二样本人脸特征对应的人脸坐标区域。其次，可以将第一样本人脸特征和第二样本人脸特征输入至分类器中进行特征匹配，得到第一样本人脸特征与第二样本人脸特征之间的匹配结果。然后，可以根据第一样本人脸特征和第二样本人脸特征之间的匹配结果对分类器的模型参数进行训练与优化；可以根据第一样本人脸特征对应的人脸坐标区域与目标样本人脸图像中的实际人脸坐标区域之间的差异性，对人脸识别模型的模型参数进行训练与优化；类似地，可以根据第二样本人脸特征对应的人脸坐标区域与目标模板人脸图像中的实际人脸坐标区域之间的差异性，对人脸识别模型的模型参数进行训练与优化。针对第一图像集中的每张样本人脸图像均采用与目标样本人脸图像类似的方式对人脸识别模型与分类器进行训练，以便于采用训练好的人脸识别模型进行人脸识别、采用训练好的分类器进行特征匹配。

其中，特征提取过程中可以采用卷积神经网络(Convolution Neural Netwo rk，CNN)。CNN是基于深度学习理论的一种人工神经网络，它主要利用权值共享来减小普通神经网络中的参数膨胀问题，并在前向计算过程中使用卷积核对输入数据进行卷积操作，将得到的结果通过一个非线性函数作为该层的输出，这样的层称为卷积层。卷积层和卷积层之间会出现下采样层，下采样层主要用于获取局部特征的不变性，同时降低特征空间的尺度。一般在卷积层和下采样层之后是一个全连接的神经网络用于最终的识别。

s62，获取人脸图像集合。

人脸图像集合中可以包括多张角色人脸图像，以及每张角色人脸图像对应的角色对象标签；人脸图像集合可以是应用程序的管理员上传的；人脸图像集合中的一张角色人脸图像中可以包括一个角色对象，包括的角色对象可以是视频中的主要角色，角色人脸图像对应的角色对象标签可以是视频中的主要角色在视频中角色名称，例如“张XX”、“李XX”等等。

s63，对人脸图像集合中的角色人脸图像进行人脸识别处理，得到人脸模板集合。

人脸模板集合包括多个模板人脸特征以及每个模板人脸特征对应的角色对象标签。如图6b所示流程图中的右侧检测流程，对人脸图像集合中的角色人脸图像进行人脸识别处理的过程可以包括：针对人脸图像集合中的任一张角色人脸图像，对角色人脸图像进行图像预处理；采用人脸识别模型对图像预处理后的角色人脸图像进行人脸识别与切割，并进行特征提取处理，最终得到包括多个模板人脸特征以及每个模板人脸特征对应的角色对象标签的人脸模板集合。针对人脸图像集合中的任一张角色人脸图像的人脸识别过程与对第j+1帧对应的图像画面的人脸识别过程类似，可参见上述步骤s61中关于第j+1帧对应的图像画面的人脸识别过程，在此不再赘述。

s64，若人脸识别得到的目标角色人脸特征与人脸模板集合包括的目标模板人脸特征相匹配，则将第j+1帧在视频中对应的第i个播放时间点、目标模板人脸特征对应的角色对象标签、以及目标角色人脸特征对应的人脸坐标区域记录为一个关键信息。

可以采用分类器对人脸识别得到的目标角色人脸特征与人脸模板集合包括的目标模板人脸特征进行特征匹配，得到目标角色人脸特征与目标模板人脸特征之间的匹配结果；若目标角色人脸特征与目标模板人脸特征之间的匹配结果指示：人脸识别得到的目标角色人脸特征与人脸模板集合包括的目标模板人脸特征相匹配，则可以将第j+1帧在视频中对应的第i个播放时间点、目标模板人脸特征对应的角色对象标签、以及目标角色人脸特征对应的人脸坐标区域记录为一个关键信息。其中，目标角色人脸特征与目标模板人脸特征相匹配表明：目标角色人脸特征所指示的角色对象与目标模板人脸特征所指示的角色对象为同一角色对象的可能性极高，因此，通过此实现方式所记录的关键信息可以用于表示视频在第i个播放时间点出现的一个角色对象。

在另一种实现方式中，关键信息可以包括场景切换信息。当关键信息为场景切换信息时，对视频的剧情内容进行识别，得到剧情内容的关键信息的过程可以包括以下子步骤s71至s73：

s71，分别对视频的第j帧对应的图像画面及第j+1帧对应的图像画面进行场景识别。

第j帧是视频包含的任一个视频帧，第j+1帧是视频包含的多个视频帧中排列于第j帧后一个的视频帧，j为正整数。可以采用场景识别模型分别对视频的第j帧对应的图像画面及第j+1帧对应的图像画面进行场景识别，得到第j帧对应的图像画面的场景特征值，以及得到第j+1帧对应的图像画面的场景特征值。

s72，比较第j帧与第j+1帧之间的场景变化值。

可以根据第j帧对应的图像画面的场景特征值，以及第j+1帧对应的图像画面的场景特征值，确定第j帧与第j+1帧之间的场景变化值。其中，第j帧与第j+1帧之间的场景变化值可以用于表示第j帧对应的图像画面与第j+1帧对应的图像画面之间的场景变化情况。第j帧与第j+1帧之间的场景变化值越大，表示第j帧对应的图像画面与第j+1帧对应的图像画面之间的场景变化幅度越大；例如第j帧对应的图像画面中包括一座山，第j+1帧对应的图像画面中包括一辆车，第j帧对应的图像画面与第j+1帧对应的图像画面之间的场景变化幅度很大。第j帧与第j+1帧之间的场景变化值越小，表示第j帧对应的图像画面与第j+1帧对应的图像画面之间的场景变化幅度越小，例如第j帧对应的图像画面中包括一座山，第j+1帧对应的图像画面中也包括一座山；第j帧对应的图像画面与第j+1帧对应的图像画面之间的场景变化幅度较小。

s73，若场景变化值大于变化阈值，则将第j+1帧在视频中对应的第i个播放时间点以及场景识别得到的第j+1帧的场景标签记录为一个关键信息。

若场景变化值大于变化阈值，则表明第j帧对应的图像画面与第j+1帧对应的图像画面之间的场景变化幅度较大，可以将第j+1帧在视频中对应的第i个播放时间点以及场景识别得到的第j+1帧的场景标签记录为一个关键信息，通过此实现方式所记录的关键信息用于表示视频在第i个播放时间点发生的场景切换信息。其中，场景标签可以是第j+1帧对应的图像画面中的风景实物的名称。例如场景标签可以为“田野”、“车”、“大海”等等。

对于关键信息包括场景切换信息的情况，若场景切换过于频繁，则可以对记录的关键信息进行过滤。举例来说，若视频的第一帧与第二帧之间存在场景切换、第二帧与第三帧之间存在场景切换、第三帧与第四帧之间存在场景切换，则可以将第二帧在视频中对应的播放时间点以及第二帧的场景标签记录为第一关键信息，可以将第三帧在视频中对应的播放时间点以及第三帧的场景标签记录为第二关键信息，以及可以将第四帧在视频中对应的播放时间点以及第四帧的场景标签记录为第三关键信息；以上第一关键信息、第二关键信息与第三关键信息之间的时间间隔比较短。在这样的情况下，可以设置一个时间阈值，当第二关键信息中的播放时间点与第一关键信息中的播放时间点之间的时间间隔大于时间阈值时，第二关键信息才能被保留，否则第二关键信息将会被过滤。

在另一种实现方式中，关键信息可以包括角色对象所执行的动作信息。当关键信息为角色对象所执行的动作信息时，对视频的剧情内容进行识别，得到剧情内容的关键信息的过程可以参见图7，图7示出了本申请一个示例性实施例提供的一种动作识别过程的流程示意图。如图7所示，可以采用动作识别模型对视频包含的多个视频帧的图像画面逐帧进行动作识别，得到一个或多个角色动作特征、每个角色动作特征对应的人脸坐标区域以及每个角色动作特征的持续时间范围；持续时间范围是指由起始时间点和结束时间点共同形成的一个时间区间，例如起始时间点为3分20秒，结束时间点为4分30秒，则形成的时间区间[3分20秒，4分30秒]就是一个持续时间范围。进一步地，可以获取动作模板集合，动作模板集合中可以包括多个模板动作特征以及每个模板动作特征对应的动作标签；动作标签可以是指模板动作特征所指示的动作信息，可以是动作名称，例如可以是“跑步”、“拥抱”等等。然后，可以采用分类器对识别得到的目标角色动作特征与动作模板集合包括的目标模板动作特征进行特征匹配，得到目标角色动作特征与目标模板动作特征之间的匹配结果；若目标角色动作特征与目标模板动作特征之间的匹配结果指示：识别得到的目标角色动作特征与动作模板集合包括的目标模板动作特征相匹配，则可以将目标模板动作特征对应的动作标签、目标角色动作特征对应的人脸坐标区域、以及目标角色动作特征对应的持续时间范围记录为一个关键信息。其中，识别得到的目标角色动作特征与动作模板集合包括的目标模板动作特征相匹配表明：目标角色动作特征所指示的动作信息与目标模板动作特征所指示的动作信息为同一动作信息的可能性极高；通过此实现方式所记录的关键信息可以用于表示视频在一个持续时间范围内出现的角色对象所执行的动作信息。

需要说明的是，场景识别模型、人脸识别模型以及动作识别模型的训练过程类似，只是对场景识别模型、人脸识别模型以及动作识别模型进行训练时采用的样本图像集不相同；对场景识别模型进行训练时采用的样本图像集主要包括风景实物图像(例如图像中包含山、田野、火车站等等)；对人脸识别模型进行训练时采用的样本图像集主要包括各式各样的人脸图像；对动作识别模型进行训练时采用的样本图像集主要包括动作图像，动作图像即图像中包含人物多样的动作形态。

S503，根据关键信息生成视频的旁白音频。

对视频的剧情内容进行识别，可以得到剧情内容的至少一个关键信息。关键信息可以包括但不限于以下至少一种：场景切换信息、角色对象、角色对象所执行的动作信息。根据关键信息生成视频的旁白音频可以包括以下任意一种：

(1)关键信息可以包括视频在第i个播放时间点的场景标签。在此情况下，可以将第i个播放时间点的场景标签作为一个剧情标签，并将剧情标签转换为第i个播放时间点对应的音频片段，旁白音频包括所述第i个播放时间点对应的音频片段。举例来说，视频在第i个播放时间点的场景标签为“在船头”，那么可以将第i个播放时间点的场景标签作为一个剧情标签“在船头”。

(2)关键信息可以包括视频在第i个播放时间点的场景标签和视频在所述第i个播放时间点的角色对象标签。在此情况下，可以将视频在第i个播放时间点的场景标签和视频在第i个播放时间点的角色对象标签拼接为一个剧情标签，并将剧情标签转换为第i个播放时间点对应的音频片段，旁白音频包括第i个播放时间点对应的音频片段。进一步地，剧情标签的拼接格式可以为“视频在第i个播放时间点的角色对象标签+视频在第i个播放时间点的场景标签”。举例来说，视频在第i个播放时间点的角色对象标签为“杰克”，视频在第i个播放时间点的场景标签为“在船头”，那么可以将视频在第i个播放时间点的场景标签和视频在第i个播放时间点的角色对象标签拼接为一个剧情标签“杰克在船头”。

(3)关键信息可以包括：视频在第i个播放时间点的场景标签、视频在第i个播放时间点的角色对象标签、第i个播放时间点的角色对象标签对应的人脸坐标区域、视频在目标持续时间范围的动作标签、以及目标持续时间范围的动作标签对应的人脸坐标区域；其中，第i个播放时间点处于目标持续范围内，第i个播放时间点的角色对象标签对应的人脸坐标区域与目标持续时间范围的动作标签对应的人脸坐标区域相匹配。第i个播放时间点的角色对象标签对应的人脸坐标区域与目标持续时间范围的动作标签对应的人脸坐标区域相匹配表明：第i个播放时间点的角色对象标签所指示的角色对象与目标持续时间范围内执行动作的角色对象是同一个。在此情况下，可以将视频在第i个播放时间点的场景标签、视频在第i个播放时间点的角色对象标签、以及视频在目标持续时间范围的动作标签拼接为一个剧情标签；然后将剧情标签转换为第i个播放时间点对应的音频片段，旁白音频包括第i个播放时间点对应的音频片段。进一步地，剧情标签的拼接格式可以为“视频在第i个播放时间点的角色对象标签+视频在第i个播放时间点的场景标签+视频在目标持续时间范围的动作标签”。举例来说，视频在第i个播放时间点的角色对象标签为“杰克”，视频在第i个播放时间点的场景标签为“在船头”，视频在第i个播放时间点的动作标签为“拥抱”，那么可以将视频在第i个播放时间点的场景标签、视频在第i个播放时间点的角色对象标签、以及视频在目标持续时间范围的动作标签拼接为一个剧情标签“杰克在船头拥抱”。

旁白音频可以用于当视频的图像画面被隐藏时，在播放视频对应的内容音频的过程中被播放。具体地，第i个播放时间点与旁白音频中的第i个音频片段相对应；在播放视频对应的内容音频的过程中播放旁白音频可以包括：响应于音频播放触发事件，隐藏视频的图像画面，以及播放视频对应的内容音频；在内容音频的播放过程中，当内容音频播放至第i个播放时间点时，可以暂停播放内容音频，并播放所述第i个音频片段；在第i个音频片段播放结束后，可以从第i个播放时间点开始接续播放内容音频。

本申请实施例中，可以对视频的剧情内容进行识别，得到剧情内容的关键信息，并根据剧情内容的关键信息生成视频的旁白音频；旁白音频可以用于当视频的图像画面被隐藏时，在播放视频对应的内容音频的过程中被播放。该旁白音频是根据对剧情内容识别得到的关键信息生成的，因此旁白音频能够对视频的剧情内容中的关键信息进行提示，当视频的图像画面被隐藏时，在播放内容音频的过程中播放旁白音频可以帮助用户对剧情内容进行更为丰富、深刻地理解，有效提升音频播放效果。此外，对于关键信息包括场景识别信息的情况，若场景切换过于频繁，则可以对记录的关键信息进行过滤，以减轻剧情标签拼接时的负担，提升音频播放效率，从而提升音频播放效果。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图8，图8示出了本申请一个示例性实施例提供的一种播放处理装置的结构示意图，该播放处理装置80可以设置于播放处理设备中，播放处理设备可以是图1所示的播放处理系统中的终端101；播放处理装置80可以用于执行图3所示的方法实施例中的相应步骤，该播放处理装置80可以包括如下单元：

显示单元801，用于显示视频的播放界面；

处理单元802，用于响应于音频播放触发事件，隐藏视频的图像画面；以及，播放视频对应的内容音频；

处理单元802，还用于在播放内容音频的过程中，播放视频的旁白音频，旁白音频是基于对视频的剧情内容进行识别而生成的。

处理单元802用于在播放所述内容音频的过程中，播放所述视频的旁白音频时，具体用于执行如下步骤：

当内容音频播放至第i个播放时间点时，暂停播放内容音频，并播放第i个音频片段；以及，在第i个音频片段播放结束后，从第i个播放时间点开始接续播放内容音频。

在一种实现方式中，播放界面为应用程序的服务界面，应用程序包括旁白音频播放开关；处理单元802还用于执行如下步骤：

在一种实现方式中，显示单元801还用于执行如下步骤：

在一种实现方式中，处理单元802还用于执行如下步骤：

在一种实现方式中，播放界面包括音频播放选项和视频播放选项；处理单元802还用于执行如下步骤：

当音频播放选项被选中时，产生音频播放触发事件；

或者，当视频播放选项被选中时，产生视频播放触发事件。

在一种实现方式中，播放界面为应用程序的服务界面；处理单元802还用于执行如下步骤：

根据本申请的一个实施例，图8所示的播放处理装置80中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该播放处理装置80也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的播放处理装置80，以及来实现本申请实施例的播放处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

请参见图9，图9示出了本申请另一个示例性实施例提供的一种播放处理装置的结构示意图，该播放处理装置90可以设置于播放处理设备中，播放处理设备可以是图1所示的播放处理系统中的终端101或服务器102；播放处理装置90可以用于执行图5所示的方法实施例中的相应步骤，该播放处理装置90可以包括如下单元：

获取单元901，用于获取待处理的视频；

处理单元902，用于对视频的剧情内容进行识别，得到剧情内容的关键信息；

处理单元902，还用于根据关键信息生成视频的旁白音频，旁白音频用于当视频的图像画面被隐藏时，在播放视频对应的内容音频的过程中被播放。

在一种实现方式中，视频包含多个按序排列的视频帧，第j帧为视频中的任一视频帧；处理单元902用于对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

比较第j帧与第j+1帧之间的场景变化值；

在一种实现方式中，视频包含多个按序排列的视频帧，第j+1帧为视频中的任一视频帧；处理单元902用于对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

在一种实现方式中，视频包含多个按序排列的视频帧；处理单元902用于对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

在一种实现方式中，关键信息包括视频在第i个播放时间点的场景标签；处理单元902用于根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

将第i个播放时间点的场景标签作为一个剧情标签；

在一种实现方式中，关键信息包括视频在第i个播放时间点的场景标签和视频在第i个播放时间点的角色对象标签；处理单元902用于根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

处理单元902用于根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

根据本申请的一个实施例，图9所示的播放处理装置90中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该播放处理装置90也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的播放处理装置90，以及来实现本申请实施例的数据处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

请参见图10，图10示出了本申请一个示例性实施例提供的一种播放处理设备的结构示意图，该播放处理设备100至少包括处理器1001、计算机可读存储介质1002以及通信接口1003。其中，处理器1001、计算机可读存储介质1002以及通信接口1003可通过总线或者其它方式连接。通信接口1003可以用于接收或发送音频播放请求、语音转换请求、视频、旁白音频等等。计算机可读存储介质1002可以存储在存储器中，计算机可读存储介质1002用于存储计算机程序，计算机程序包括计算机指令。处理器1001用于执行计算机指令。处理器1001(或称CPU(Central Processing Unit，中央处理器))是播放处理设备100的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是播放处理设备100中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质1002既可以包括播放处理设备100中的内置存储介质，当然也可以包括播放处理设备100所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了播放处理设备100的操作系统。并且，在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质1002可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器1001的计算机可读存储介质。

该播放处理设备100可以是图1所示的数据处理系统中的终端101，该计算机可读存储介质1002中存储有计算机程序，计算机程序包括一条或多条计算机指令；由处理器1001加载并执行一条或多条计算机指令，以实现图3所示方法实施例中的相应步骤；具体实现中，计算机可读存储介质1002中的计算机指令由处理器1001加载并执行如下步骤：

显示视频的播放界面；

计算机可读存储介质1002中的计算机指令由处理器1001加载并且执行在播放所述内容音频的过程中，播放所述视频的旁白音频时，具体用于执行如下步骤：

在一种实现方式中，播放界面为应用程序的服务界面，应用程序包括旁白音频播放开关；计算机可读存储介质1002中的计算机指令由处理器1001加载并且还用于执行如下步骤：

在播放第i个音频片段的过程中，若旁白音频播放开关被触发关闭，则停止第i个音频片段的播放过程，继续播放内容音频。

在一种实现方式中，计算机可读存储介质1002中的计算机指令由处理器1001加载并且还用于执行如下步骤：

在一种实现方式中，播放界面包括音频播放选项和视频播放选项；计算机可读存储介质1002中的计算机指令由处理器1001加载并且还用于执行如下步骤：

当音频播放选项被选中时，产生音频播放触发事件；

或者，当视频播放选项被选中时，产生视频播放触发事件。

在一种实现方式中，播放界面为应用程序的服务界面；计算机可读存储介质1002中的计算机指令由处理器1001加载并且还用于执行如下步骤：

该播放处理设备100还可以是图1所示的数据处理系统中的终端101或服务器102，该计算机可读存储介质1002中存储有计算机程序，计算机程序包括一条或多条计算机指令；由处理器1001加载并执行一条或多条计算机指令，以实现图5所示方法实施例中的相应步骤；具体实现中，计算机可读存储介质1002中的计算机指令由处理器1001加载并执行如下步骤：

获取待处理的视频；

对视频的剧情内容进行识别，得到剧情内容的关键信息；

在一种实现方式中，视频包含多个按序排列的视频帧，第j帧为视频中的任一视频帧；计算机可读存储介质1002中的计算机指令由处理器1001加载并且执行对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

比较第j帧与第j+1帧之间的场景变化值；

在一种实现方式中，视频包含多个按序排列的视频帧，第j+1帧为视频中的任一视频帧；计算机可读存储介质1002中的计算机指令由处理器1001加载并且执行对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

在一种实现方式中，视频包含多个按序排列的视频帧；计算机可读存储介质1002中的计算机指令由处理器1001加载并且执行对视频的剧情内容进行识别，得到剧情内容的关键信息时，具体用于执行如下步骤：

在一种实现方式中，关键信息包括视频在第i个播放时间点的场景标签；计算机可读存储介质1002中的计算机指令由处理器1001加载并且执行根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

将第i个播放时间点的场景标签作为一个剧情标签；

在一种实现方式中，关键信息包括视频在第i个播放时间点的场景标签和视频在第i个播放时间点的角色对象标签计算机可读存储介质1002中的计算机指令由处理器1001加载并且执行根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

计算机可读存储介质1002中的计算机指令由处理器1001加载并且执行根据关键信息生成视频的旁白音频时，具体用于执行如下步骤：

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选方式中提供的播放处理方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种播放处理方法，其特征在于，所述方法包括：

显示视频的播放界面；

响应于音频播放触发事件，隐藏所述视频的图像画面；以及，

播放所述视频对应的内容音频；

在播放所述内容音频的过程中，播放所述视频的旁白音频，所述旁白音频是基于对所述视频的剧情内容进行识别而生成的。

2.如权利要求1所述的方法，其特征在于，所述旁白音频包括N个音频片段，每个音频片段分别与所述内容音频的一个播放时间点相对应；所述N个音频片段中的任一个音频片段表示为第i个音频片段，所述第i个音频片段与所述内容音频的第i个播放时间点对应；其中，i、N均为正整数且i≤N；

所述在播放所述内容音频的过程中，播放所述视频的旁白音频，包括：

当所述内容音频播放至所述第i个播放时间点时，暂停播放所述内容音频，并播放所述第i个音频片段；以及，

在所述第i个音频片段播放结束后，继续播放所述内容音频。

3.如权利要求2所述的方法，其特征在于，所述播放界面为应用程序的服务界面，所述应用程序包括旁白音频播放开关；所述方法还包括：

在播放所述第i个音频片段的过程中，响应于所述旁白音频播放开关被触发关闭，停止所述第i个音频片段的播放过程，继续播放所述内容音频。

4.如权利要求2所述的方法，其特征在于，所述旁白音频用于对所述视频的剧情内容的关键信息进行提示；其中，所述第i个音频片段用于提示以下至少一种关键信息：所述视频在所述第i个播放时间点发生的场景切换信息，所述视频在所述第i个播放时间点出现的角色对象，所述视频在所述第i个播放时间点出现的角色对象所执行的动作信息。

5.如权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

当所述内容音频播放至第一进度时，响应于视频播放触发事件，在所述播放界面中从所述第一进度恢复显示所述视频的图像画面。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

在显示所述视频的播放界面的过程中，响应于第一重力感应操作，产生所述音频播放触发事件；或者，

在所述内容音频或所述旁白音频的播放过程中，响应于第二重力感应操作，产生所述视频播放触发事件。

7.如权利要求5所述的方法，其特征在于，所述播放界面包括音频播放选项或视频播放选项；所述方法还包括：

当所述音频播放选项被选中时，产生所述音频播放触发事件；或者，

当所述视频播放选项被选中时，产生所述视频播放触发事件。

8.如权利要求5所述的方法，其特征在于，所述播放界面为应用程序的服务界面；所述方法还包括：

若所述应用程序从前台运行切换至后台运行，则产生所述音频播放触发事件；或者，

若所述应用程序从后台运行切换至前台运行，则产生所述视频播放触发事件。

9.如权利要求1所述的方法，其特征在于，所述播放界面为应用程序的服务界面，所述应用程序包括旁白音频播放开关；所述方法还包括：

当所述旁白音频播放开关处于开启状态时，在播放所述内容音频的过程中，播放所述视频的旁白音频。

10.一种播放处理方法，其特征在于，所述方法包括：

获取待处理的视频；

对所述视频的剧情内容进行识别，得到所述剧情内容的关键信息；

根据所述关键信息生成所述视频的旁白音频，所述旁白音频用于当所述视频的图像画面被隐藏时，在播放所述视频对应的内容音频的过程中被播放。

11.如权利要求10所述的方法，其特征在于，所述视频包含多个按序排列的视频帧，第j帧为所述视频中的任一视频帧；所述对所述视频的剧情内容进行识别，得到所述剧情内容的关键信息，包括：

分别对所述视频的第j帧对应的图像画面及第j+1帧对应的图像画面进行场景识别；

比较所述第j帧与所述第j+1帧之间的场景变化值；

若所述场景变化值大于变化阈值，则将所述第j+1帧在所述视频中对应的第i个播放时间点以及场景识别得到的所述第j+1帧的场景标签记录为一个关键信息，所记录的所述关键信息用于表示所述视频在所述第i个播放时间点发生的场景切换信息。

12.如权利要求10所述的方法，其特征在于，所述视频包含多个按序排列的视频帧，第j+1帧为所述视频中的任一视频帧；所述对所述视频的剧情内容进行识别，得到所述剧情内容的关键信息，包括：

对所述视频的第j+1帧对应的图像画面进行人脸识别，得到一个或多个角色人脸特征以及每个角色人脸特征对应的人脸坐标区域；

获取人脸模板集合，所述人脸模板集合包括多个模板人脸特征以及每个模板人脸特征对应的角色对象标签；

若人脸识别得到的目标角色人脸特征与所述人脸模板集合包括的目标模板人脸特征相匹配，则将所述第j+1帧在所述视频中对应的第i个播放时间点、所述目标模板人脸特征对应的角色对象标签、以及所述目标角色人脸特征对应的人脸坐标区域记录为一个关键信息，所记录的所述关键信息用于表示所述视频在所述第i个播放时间点出现的一个角色对象。

13.如权利要求10所述的方法，其特征在于，所述视频包含多个按序排列的视频帧；所述对所述视频的剧情内容进行识别，得到所述剧情内容的关键信息，包括：

对所述视频包含的多个视频帧的图像画面逐帧进行动作识别，得到一个或多个角色动作特征、每个角色动作特征对应的人脸坐标区域以及每个角色动作特征的持续时间范围；

若识别得到的目标角色动作特征与所述动作模板集合包括的目标模板动作特征相匹配，则将所述目标模板动作特征对应的动作标签、所述目标角色动作特征对应的人脸坐标区域、以及所述目标角色动作特征对应的持续时间范围记录为一个关键信息，所记录的所述关键信息用于表示所述视频在一个持续时间范围内出现的角色对象所执行的动作信息。

14.如权利要求10所述的方法，其特征在于，所述关键信息包括所述视频在第i个播放时间点的场景标签；所述根据所述关键信息生成所述视频的旁白音频，包括：

将所述第i个播放时间点的场景标签作为一个剧情标签；

将所述剧情标签转换为所述第i个播放时间点对应的音频片段，所述旁白音频包括所述第i个播放时间点对应的音频片段。

15.如权利要求10所述的方法，其特征在于，所述关键信息包括所述视频在第i个播放时间点的场景标签和所述视频在所述第i个播放时间点的角色对象标签；所述根据所述关键信息生成所述视频的旁白音频，包括：

将所述第i个播放时间点的场景标签和所述第i个播放时间点的角色对象标签拼接为一个剧情标签；

16.如权利要求10所述的方法，其特征在于，所述关键信息包括：所述视频在第i个播放时间点的场景标签、所述视频在所述第i个播放时间点的角色对象标签、所述第i个播放时间点的角色对象标签对应的人脸坐标区域、所述视频在目标持续时间范围的动作标签、以及所述目标持续时间范围的动作标签对应的人脸坐标区域；其中，所述第i个播放时间点处于所述目标持续范围内，所述第i个播放时间点的角色对象标签对应的人脸坐标区域与所述目标持续时间范围的动作标签对应的人脸坐标区域相匹配；

所述根据所述关键信息生成所述视频的旁白音频，包括：

将所述第i个播放时间点的场景标签、所述第i个播放时间点的角色对象标签、以及所述目标持续时间范围的动作标签拼接为一个剧情标签；

17.一种播放处理装置，其特征在于，所述播放处理装置包括：

显示单元，用于显示视频的播放界面；

处理单元，用于响应于音频播放触发事件，则隐藏所述视频的图像画面；以及，播放所述视频对应的内容音频；

所述处理单元，还用于在播放所述内容音频的过程中，播放所述视频的旁白音频，所述旁白音频是基于对所述视频的剧情内容进行识别而生成的。

18.一种播放处理装置，其特征在于，所述播放处理装置包括：

获取单元，用于获取待处理的视频；

处理单元，用于对所述视频的剧情内容进行识别，得到所述剧情内容的关键信息；

所述处理单元，还用于根据所述关键信息生成所述视频的旁白音频，所述旁白音频用于当所述视频的图像画面被隐藏时，在播放所述视频对应的内容音频的过程中被播放。

19.一种播放处理设备，其特征在于，所述播放处理设备包括：

处理器，适于实现计算机程序；以及，

计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1至9任一项所述的播放处理方法，或者执行如权利要求10至16任一项所述的播放处理方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1至9任一项所述的播放处理方法，或者执行如权利要求10至16任一项所述的播放处理方法。