CN112732152A

CN112732152A - 直播处理方法、装置、电子设备及存储介质

Info

Publication number: CN112732152A
Application number: CN202110113969.XA
Authority: CN
Inventors: 刘平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-04-30
Anticipated expiration: 2041-01-27
Also published as: CN112732152B

Abstract

本申请提供了一种直播处理方法、装置、电子设备及计算机可读存储介质；涉及人工智能领域中的计算机视觉技术，方法包括：响应于虚拟场景播放操作，在人机交互界面的第一区域中呈现虚拟场景；响应于所述虚拟场景中发生的交互事件，执行以下处理：在所述人机交互界面的第二区域中呈现主播针对所述交互事件的讲解内容、以及与所述交互事件匹配的特效。通过本申请，能够以资源集约的方式实现针对直播内容的深入和高效的互动，从而提高直播的信息传播效率。

Description

直播处理方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网技术和人工智能技术，尤其涉及一种直播处理方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用。

以直播应用场景为例，网络视频直播是一种目前流行的直播方式，用户可以通过进入直播平台的直播间观看主播的视频直播。视频直播的种类繁多，其中一种常见的直播方式是虚拟场景直播(例如游戏直播)，虚拟场景直播一般可以同时向观众展示主播画面和虚拟场景画面(例如游戏画面)。

相关技术中，只能够依靠主播的言语和动作来和观众进行互动，这种传统的互动模式限制了主播和观众之间的信息交互的深度和效率，为此，主播不得不在直播过程中寻求其他途径来进行进一步互动。显然，这会对直播的资源(包括后台服务器的计算资源和通信资源)造成巨大的浪费。

综上，如何以资源集约的方式在直播过程中拓展深入和高效的互动方式，提高直播的信息传播效率，相关技术尚无有效解决方案。

发明内容

本申请实施例提供一种直播处理方法、装置、电子设备及计算机可读存储介质，能够以资源集约的方式实现针对直播内容的深入和高效的互动，从而提高直播的信息传播效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种直播处理方法，包括：

响应于虚拟场景播放操作，在人机交互界面的第一区域中呈现虚拟场景；

响应于所述虚拟场景中发生的交互事件，执行以下处理：

在所述人机交互界面的第二区域中呈现主播针对所述交互事件的讲解内容、以及与所述交互事件匹配的特效。

在上述方案中，在所述人机交互界面的第二区域中呈现与所述交互事件匹配的特效之前，所述方法还包括：

对所述虚拟场景的直播数据进行解码，以获得多个视频帧；

在所述多个视频帧中选取对应所述交互事件的交互视频帧，并调用第三神经网络模型执行以下处理：提取所述交互视频帧的特征向量，将所述特征向量映射为分别属于感兴趣类型和不感兴趣类型的概率；

当最大概率所对应的类型是感兴趣类型时，确定将执行在所述人机交互界面的第二区域中呈现与所述交互事件匹配的特效的操作；

其中，所述第三神经网络模型是以样本视频帧、以及针对所述样本视频帧的标注数据训练得到的，所述标注数据包括所述样本视频帧所属的兴趣类型。

在上述方案中，在所述人机交互界面的第二区域中呈现主播针对所述交互事件的讲解内容、以及与所述交互事件匹配的特效之后，所述方法还包括：

响应于针对所述特效的修正操作，获取所述修正操作提交的修正特效，并将与所述交互事件存在映射关系的特效更新为所述修正特效，以

当所述虚拟场景中再次发生所述交互事件时，在所述人机交互界面的第二区域中呈现所述修正特效。

本申请实施例提供一种直播处理装置，包括：。

第一呈现模块，用于响应于虚拟场景播放操作，在人机交互界面的第一区域中呈现虚拟场景；

第二呈现模块，用于响应于所述虚拟场景中发生的交互事件，执行以下处理：在所述人机交互界面的第二区域中呈现主播针对所述交互事件的讲解内容、以及与所述交互事件匹配的特效。

在上述方案中，所述第一呈现模块，还用于在所述第一区域中呈现用于评论所述交互事件的弹幕；其中，所述特效的类型包括以下至少之一：贴图、动画、滤镜、声音；其中，所述交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助。

在上述方案中，所述第二呈现模块，还用于获取与所述交互事件匹配的特效；将所述特效和所述讲解内容进行合成处理，并在所述人机交互界面的第二区域呈现合成处理结果。

在上述方案中，所述第二呈现模块，还用于识别所述虚拟场景中发生的交互事件的类型；将针对所述虚拟场景预先配置的多个特效中与所述交互事件的类型存在映射关系的特效，作为与所述交互事件匹配的特效。

在上述方案中，所述第二呈现模块，还用于将针对所述虚拟场景预先配置的多个特效中与所述交互事件的类型存在映射关系、且与热点信息匹配的特效，作为与所述交互事件匹配的特效；其中，所述热点信息的类型包括以下至少之一：节日信息、新闻信息、地点信息。

在上述方案中，所述第二呈现模块，还用于对所述虚拟场景的直播数据进行解码，以获得多个视频帧；在所述多个视频帧中选取对应所述交互事件的交互视频帧，并调用第一神经网络模型执行以下处理：提取所述交互视频帧的特征向量，将所述特征向量映射为分别属于多个候选交互事件的类型的概率；将最大概率所对应的候选交互事件的类型确定为所述交互事件的类型；其中，所述第一神经网络模型是以样本视频帧、以及针对所述样本视频帧的标注数据训练得到的，所述标注数据包括所述样本视频帧中的交互事件的类型以及所处的区域。

在上述方案中，所述第二呈现模块，还用于将所述样本视频帧划分为多个子区域，并在所述多个子区域中选取满足截取条件的子区域作为特征区域；将所述特征区域中发生的交互事件的类型、以及所述特征区域在所述样本视频帧中的位置，作为针对所述样本视频帧的标注数据；基于所述样本视频帧、以及针对所述样本视频帧的标注数据，对所述第一神经网络模型进行训练；其中，所述截取条件包括以下至少之一：所述子区域中发生的交互事件是目标交互事件，所述目标交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助；所述子区域是根据截取操作所确定的。

在上述方案中，所述第二呈现模块，还用于对所述虚拟场景的直播数据进行解码，以获得多个视频帧；在所述多个视频帧中选取对应所述交互事件的交互视频帧，并调用第二神经网络模型执行以下处理：提取所述交互视频帧的特征向量，将所述特征向量映射为分别对应多个候选特效的概率，将最大概率所对应的候选特效确定为所述特效；其中，所述第二神经网络模型是以样本视频帧、以及针对所述样本视频帧的标注数据训练得到的，所述标注数据包括所述样本视频帧中应用的特效。

在上述方案中，所述第二呈现模块，还用于当所述讲解内容是视频、且所述特效关联有作用部位时，从所述讲解内容中识别对应所述作用部位的位置，将所述特效叠加到所述讲解内容中的对应所述作用部位的位置；当所述特效未关联有作用部位时，将所述特效叠加到在所述讲解内容中设定的位置。

在上述方案中，所述第二呈现模块，还用于将所述特效包括的多个特效帧和所述讲解内容包括的多个视频帧对齐到相同的时间轴；针对对齐到所述时间轴中相同时间点的所述特效帧和所述视频帧执行以下操作：确定所述特效帧的色彩通道信息、以及对应的透明度通道信息；在所述视频帧中叠加所述特效帧的色彩通道信息，并根据所述透明度通道信息调整叠加的所述特效帧的色彩通道信息的透明度。

在上述方案中，所述第二呈现模块，还用于对所述虚拟场景的直播数据进行解码，以获得多个视频帧；在所述多个视频帧中选取对应所述交互事件的交互视频帧，并调用第三神经网络模型执行以下处理：提取所述交互视频帧的特征向量，将所述特征向量映射为分别属于感兴趣类型和不感兴趣类型的概率；当最大概率所对应的类型是感兴趣类型时，确定将执行在所述人机交互界面的第二区域中呈现与所述交互事件匹配的特效的操作；其中，所述第三神经网络模型是以样本视频帧、以及针对所述样本视频帧的标注数据训练得到的，所述标注数据包括所述样本视频帧所属的兴趣类型。

在上述方案中，所述直播处理装置还包括：修正模块，用于响应于针对所述特效的修正操作，获取所述修正操作提交的修正特效，并将与所述交互事件存在映射关系的特效更新为所述修正特效，以当所述虚拟场景中再次发生所述交互事件时，在所述人机交互界面的第二区域中呈现所述修正特效。

在上述方案中，所述直播处理装置还包括：配置模块，用于响应于特效入口触发操作，呈现包括多个候选虚拟场景的特效设置页面；响应于针对所述多个候选虚拟场景的选择操作，呈现与被选择的候选虚拟场景对应的交互事件类型设置入口；其中，所述交互事件类型设置入口包括与被选择的候选虚拟场景对应的多个候选交互事件的类型，所述候选交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助；响应于针对所述多个候选交互事件的类型的选择操作，呈现与被选择的候选交互事件的类型对应的特效设置入口；其中，所述特效设置入口包括与被选择的候选交互事件的类型对应的默认特效；所述特效的类型包括以下至少之一：贴图、动画、滤镜、声音；响应于特效选择操作，建立被选择的特效与所述被选择的候选交互事件的类型之间的映射关系。

在上述方案中，所述配置模块，还用于在所述响应于特效选择操作，建立被选择的特效与所述被选择的候选交互事件的类型之间的映射关系之前，所述方法还包括：响应于针对所述特效设置入口的触发操作，显示与所述被选择的候选交互事件的类型匹配、且与热点信息匹配的多个候选特效；其中，所述热点信息的类型包括以下至少之一：节日信息、新闻信息、地点信息；响应于针对所述多个候选特效的选择操作，将所述特效设置入口中显示的默认特效替换为被选择的候选特效。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的直播处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本申请实施例提供的直播处理方法。

本申请实施例具有以下有益效果：

在呈现主播针对交互事件的讲解内容的区域中呈现与虚拟场景中发生的交互事件匹配的特效，不仅能够节约主播在直播过程中的互动操作以提升操作效率，还能够以资源集约的方式实现针对直播内容的深入和高效的互动，从而提高直播的信息传播效率。

附图说明

图1是相关技术提供的应用场景示意图；

图2是本申请实施例提供的直播处理系统100的架构示意图；

图3是本申请实施例提供的终端400的结构示意图；

图4是本申请实施例提供的直播处理方法的流程示意图；

图5是本申请实施例提供的直播处理方法的流程示意图；

图6是本申请实施例提供的直播处理方法的流程示意图；

图7A、图7B、图7C和图7D是本申请实施例提供的直播处理方法的应用场景示意图；

图8是本申请实施例提供的直播处理方法的流程示意图；

图9是本申请实施例提供的直播处理方法的原理示意图；

图10是本申请实施例提供的终端的功能架构示意图；

图11是本申请实施例提供的直播处理方法的应用场景示意图；

图12是本申请实施例提供的直播处理方法的应用场景示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以包括所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)直播：是指通过设备采集主播端的数据，经过一系列处理，例如，视频编码压缩成可观看可传输的视频流，输出至观众端的技术。

2)游戏直播，或称电竞直播：指利用互联网技术在游戏的同时，对游戏画面进行直播。

3)露脸直播，或称摄像头直播：指主播在直播时，添加了摄像头元素，从而将包括主播的画面同步至观众端。

4)图像识别：指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术。

5)特效：通常是由应用程序制作出的现实中一般不会出现的特殊效果，特效一般包括声音特效和视觉特效。特效的类型包括：贴图、动画、滤镜、声音、弹幕。

6)客户端：终端中运行的用于提供各种服务的应用程序，例如直播客户端和视频客户端等。

7)响应于：用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以包括实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

8)虚拟场景：应用程序在终端上运行时显示(或提供)的虚拟场景。该虚拟场景可以是对真实世界的仿真环境，也可以是半仿真半虚构的虚拟环境，还可以是纯虚构的虚拟环境。虚拟场景可以包括二维虚拟场景、2.5维虚拟场景或者三维虚拟场景中的任意一种，本申请实施例对虚拟场景的维度不加以限定。例如，虚拟场景可以包括天空、陆地、海洋等，该陆地可以包括沙漠、城市等环境元素，用户可以控制虚拟对象在该虚拟场景中进行移动。

虚拟场景直播(例如游戏直播)一般可以同时向观众展示主播画面和虚拟场景画面，相较于仅展示虚拟场景画面的直播具有以下优点：

(1)可以让观众更好的体会到主播对直播的情感投入状态，认真对待粉丝对主播的支持和喜欢，能获取更多的礼物和打赏。

(2)主播还可以表现更多才艺，在直播间活跃氛围，增加直播间的趣味性，从而吸引更多粉丝。

(3)能够证实虚拟场景中的虚拟对象的交互行为是主播本人控制，而非代替操作或者外挂，增加观众对主播实力的认可。

(4)更好的打造主播自己的品牌，增加观众用户粘性。

但是对于很多主播而言，在操纵虚拟场景中的虚拟对象实施交互行为时往往比较专注，不经常和观众沟通，又或者新人主播自身性格比较内向，导致直播间氛围平淡，没有趣味性，继而直播间观众的数量较少。

参见图1，图1是相关技术提供的应用场景示意图，图1中，主播通常会在直播间中加入一些趣味内容，以优化直播场景，增加直播效果，例如，主播在直播画面的左下角加入图片102，图片102的内容可以是个人公众号、店铺等；主播在主播区域101中加入头像贴图103以实现遮挡。

但是，相关技术中提供的方案较为死板、固定、不灵活、且趣味性低，主播添加的素材(例如图片102和头像贴图103)容易被观众忽略；并且在直播过程中，主播添加的素材是一成不变的。仍然需要主播在直播过程中寻求其他途径来进行进一步互动。显然，这会对直播的资源(包括后台服务器的计算资源和通信资源)造成巨大的浪费。

针对上述技术问题，本申请实施例提供一种直播处理方法、装置、电子设备和计算机可读存储介质，能够以资源集约的方式实现针对直播内容的深入和高效的互动，从而提高直播质量。下面说明本申请实施例提供的直播处理方法的示例性应用，本申请实施例提供的直播处理方法可以由各种电子设备实施，例如，可以应用到智能手机、平板电脑、车载终端、智能穿戴设备、笔记本电脑、台式电脑等各种类型的用户终端(下文也简称为终端)。接下来，将说明电子设备实施为终端时示例性应用。

参见图2，图2是本申请实施例提供的直播处理系统100的架构示意图。直播处理系统100包括：服务器200、网络300、以及终端400，将分别进行说明。

服务器200，是客户端410的后台服务器，用于响应客户端410的虚拟场景播放请求，向客户端410发送虚拟场景的直播数据；还用于当虚拟场景中发生的交互事件时，向客户端410发送主播数据。

网络300，用于作为服务器200和终端400之间通信的媒介，可以是广域网或者局域网，又或者是二者的组合。

终端400，用于运行客户端410，客户端410是具备直播功能的客户端，例如直播客户端或视频客户端等。客户端410，用于响应于虚拟场景播放操作，接收服务器200发送的直播数据，根据直播数据在人机交互界面的第一区域中呈现虚拟场景；还用于响应于虚拟场景中发生的交互事件，接收主播数据，根据主播数据在人机交互界面的第二区域中呈现主播针对交互事件的讲解内容、以及与交互事件匹配的特效。

在一些实施例中，终端400通过运行计算机程序来实现本申请实施例提供的直播中的信息处理方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，例如直播APP或视频APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的直播小程序或视频小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，例如，视频的门户网站。

作为示例，服务器200可以包括独立的物理服务器，也可以包括多个物理服务器构成的服务器集群或者分布式系统，还可以包括提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

接下来说明图2中的终端400的结构。参见图3，图3是本申请实施例提供的终端400的结构示意图，图3所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统440。

处理器410可以包括一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以包括微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以包括可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以包括只读存储器(ROM，Read Only Memory)，易失性存储器可以包括随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，UniversalSerial Bus)等。呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)。输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的直播处理装置可以采用软件方式实现，图3示出了存储在存储器450中的直播处理装置455，其可以包括程序和插件等形式的软件，包括以下软件模块：第一呈现模块4551和第二呈现模块4552，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

下面，以由图1中的终端400执行本申请实施例提供的直播处理方法为例说明。参见图4，图4是本申请实施例提供的直播处理方法的流程示意图，将结合图4示出的步骤进行说明。

需要说明的是，图4示出的方法可以由终端400运行的各种形式计算机程序执行，并不局限于上述的视频客户端410，例如上文的操作系统451、软件模块和脚本。

在步骤S101中，响应于虚拟场景播放操作，在人机交互界面的第一区域中呈现虚拟场景。

在一些实施例中，响应于虚拟场景播放操作，接收虚拟场景的直播数据，对虚拟场景的直播数据进行解码，根据解码后的直播数据在人机交互界面的第一区域中呈现虚拟场景。

以游戏直播为例，图7D中，人机交互界面中包括两个区域，分别是第一区域705和第二区域706，第一区域705中呈现包括虚拟场景的游戏画面，第二区域706中呈现包括主播人像的主播画面。如此，能够使观众在观看游戏直播的同时还能够观看主播的动作，从而能够提高直播的交互效率。

在步骤S102中，响应于虚拟场景中发生的交互事件，在人机交互界面的第二区域中呈现主播针对交互事件的讲解内容、以及与交互事件匹配的特效。

这里，特效的类型包括以下至少之一：贴图、动画、滤镜、声音、弹幕。交互事件的类型包括以下至少之一：击杀(例如单独击杀和合作击杀)、被击杀(或称死亡、阵亡)、对抗(或称攻击)、协助(或称辅助，例如加血，加速度，将防护能力)、开始(例如游戏开局、或虚拟对象复活)。

在一些实施例中，响应于虚拟场景中发生的交互事件，接收主播数据，并对主播数据进行解码，根据解码后的主播数据执行以下处理：在人机交互界面的第二区域中呈现主播针对交互事件的讲解内容、以及与交互事件匹配的特效。

作为示例，在虚拟场景中发生交互事件之前，也可以在人机交互界面的第二区域中呈现主播针对交互事件的讲解内容。

在一些实施例中，在人机交互界面的第二区域中呈现与交互事件匹配的特效之前，还可以对虚拟场景的直播数据进行解码，以获得多个视频帧；在多个视频帧中选取对应交互事件的交互视频帧，并调用第三神经网络模型执行以下处理：提取交互视频帧的特征向量，将特征向量映射为分别属于感兴趣类型和不感兴趣类型的概率；当最大概率所对应的类型是感兴趣类型时，确定将执行在人机交互界面的第二区域中呈现与交互事件匹配的特效的操作。

作为示例，第三神经网络模型是以样本视频帧、以及针对样本视频帧的标注数据训练得到的，标注数据包括样本视频帧所属的兴趣类型，例如，感兴趣类型和不感兴趣类型。

作为示例，对应交互事件的交互视频帧是包括交互事件的视频帧，对应交互事件的交互视频帧可以包括一个或多个视频帧。例如，解码后的视频帧包括视频帧1-15，只有视频帧7-12中包括发生的交互事件，如此，视频帧7-12是交互视频帧。

作为示例，第三神经网络模型可以包括各种类型，例如，卷积神经网络(CNN，Convolutional Neural Networks)模型、循环神经网络(RNN，Recurrent Neural Network)模型、以及多层前馈神经网络模型等。可以结合有监督的方式来训练第三神经网络模型，其中，用于训练第三神经网络模型的损失函数用于表示预测值与实际标注数据之间的差异，损失函数可以是0-1损失函数、感知损失函数或交叉熵损失函数等。

本申请实施例中通过机器学习的方式确定出现的交互事件是否是用户(例如主播或观众)感兴趣的交互事件，并且只针对用户感兴趣的交互事件呈现相应的特效，如此，不仅能够提高特效处理的效率，还能够避免终端资源的消耗。

在一些实施例中，在步骤S102之后还可以响应于针对特效的修正操作，获取修正操作提交的修正特效，并将与交互事件存在映射关系的特效更新为修正特效，以当虚拟场景中再次发生交互事件时，在人机交互界面的第二区域中呈现修正特效。

作为示例，当用户认为针对发生的交互事件不应该使用呈现的特效时，可以通过特效修正页面提交修正特效，以使后续发生相同的交互事件时，直接采用提交的修正特效。例如，映射表中与交互事件A存在映射关系的是特效A，当发生交互事件A时，在第二区域中呈现特效A，此时，用户可以通过特效修正页面将特效A修改为特效B，并将映射表中与交互事件A存在映射关系的特效A更新为特效B，以当虚拟场景中再次发生交互事件A时，在第二区域中呈现特效B。

举例来说，图11中，用户触发特效修正按钮111后，呈现特效修正框112(即上述的特效修正页面)，用户可以在特效修正框112中选择修正特效，当用户点击“特效C”后，当虚拟场景中再次发生交互事件时，呈现修正特效113(即用户选择的“特效C”)。如此，能够提高用户设置特效的效率。

在一些实施例中，在步骤S102之前还可以响应于特效入口触发操作，呈现包括多个候选虚拟场景的特效设置页面；响应于针对多个候选虚拟场景的选择操作，呈现与被选择的候选虚拟场景对应的交互事件类型设置入口；其中，交互事件类型设置入口包括与被选择的候选虚拟场景对应的多个候选交互事件的类型，候选交互事件的类型包括以下至少之一：击杀(例如单独击杀和合作击杀)、被击杀(或称死亡、阵亡)、对抗(或称攻击)、协助(或称辅助，例如加血，加速度，将防护能力)、开始(例如游戏开局、或虚拟对象复活)；响应于针对多个候选交互事件的类型的选择操作，呈现与被选择的候选交互事件的类型对应的特效设置入口；其中，特效设置入口支持自定义特效，还包括与被选择的候选交互事件的类型对应的默认特效；特效的类型包括以下至少之一：贴图、动画、滤镜、声音；响应于特效选择操作，建立被选择的特效与被选择的候选交互事件的类型之间的映射关系。

作为示例，被选择的特效可以是默认特效，如此，可以建立默认特效与被选择的候选交互事件的类型之间的映射关系。

作为示例，还可以在特效设置页面中，呈现当在第二区域中应用被选择的特效时的预览画面。

以游戏直播为例，候选虚拟场景可以是终端中已经安装的游戏中的虚拟场景，也可以是用户使用频率高于频率阈值的游戏中的虚拟场景，其中，频率阈值可以是缺省值，也可以是用户、客户端或服务器设定的值，还可以是根据所有游戏对应的使用频率所确定的，例如，将所有游戏对应的使用频率的平均值作为频率阈值。

举例来说，图7A是特效设置页面，用户可以通过虚拟场景设置入口707选择候选虚拟场景，通过交互事件类型设置入口708选择候选交互事件，通过特效设置入口709设置非声音类型的特效，通过声音设置入口710设置声音类型的特效。

作为示例，在响应于特效选择操作，建立被选择的特效与被选择的候选交互事件的类型之间的映射关系之前，还可以响应于针对特效设置入口的触发操作，显示与被选择的候选交互事件的类型匹配、且与热点信息匹配的多个候选特效；响应于针对多个候选特效的选择操作，将特效设置入口中显示的默认特效替换为被选择的候选特效。

举例来说，热点信息的类型包括以下至少之一：节日信息，例如中秋期间可以呈现月饼特效或月亮特效；新闻信息，例如世界杯期间可以呈现足球特效；地点信息，例如在A地点时可以呈现和A地点的风俗相关的特效。

本申请实施例支持呈现和当前热点匹配的特效，能够在节约主播在直播过程中的互动操作的次数的情况下，提高直播间的趣味性以实现直播间信息的充分传播。

在一些实施例中，参见图5，图5是本申请实施例提供的直播处理方法的流程示意图，基于图4，在步骤S102可以包括步骤S1021至步骤S1023。

在步骤S1021中，响应于虚拟场景中发生的交互事件，获取与交互事件匹配的特效。

在一些实施例中，获取与交互事件匹配的特效可以包括识别虚拟场景中发生的交互事件的类型；将针对虚拟场景预先配置的多个特效中与交互事件的类型存在映射关系的特效，作为与交互事件匹配的特效。

作为示例，可以通过映射表查找与交互事件的类型存在映射关系的特效，其中，映射表中包括多个交互事件的类型，以及与交互事件的类型一一对应的特效。

作为示例，识别虚拟场景中发生的交互事件的类型可以是对虚拟场景的直播数据进行解码，以获得多个视频帧；在多个视频帧中选取对应交互事件的交互视频帧，并调用第一神经网络模型执行以下处理：提取交互视频帧的特征向量，将特征向量映射为分别属于多个候选交互事件的类型的概率(或称得分)；将最大概率所对应的候选交互事件的类型确定为交互事件的类型；其中，第一神经网络模型是以样本视频帧、以及针对样本视频帧的标注数据训练得到的，标注数据包括样本视频帧中的交互事件的类型以及所处的区域，从而使得第一神经网络模型具有从视频帧中识别包括交互事件的类型以及所处区域的能力。

举例来说，可以通过端到端的方式预测交互视频帧中所包括的交互事件的类型、以及包括交互事件的区域；还可以基于候选框预测交互视频帧中所包括的交互事件的类型、以及包括交互事件的区域，例如，将交互视频帧划分为多个候选框；根据每个候选框的特征向量，预测包括交互事件的候选框以及所包括交互事件的类型。

举例来说，调用第一神经网络模型之前，还可以对第一神经网络模型进行训练，训练的过程可以包括：将样本视频帧划分为多个子区域，并在多个子区域中选取满足截取条件的子区域作为特征区域；将特征区域中发生的交互事件的类型、以及特征区域在样本视频帧中的位置，作为针对样本视频帧的标注数据；基于样本视频帧、以及针对样本视频帧的标注数据，对第一神经网络模型进行训练。

例如，截取条件包括以下至少之一：子区域中发生的交互事件是目标交互事件，目标交互事件的类型包括以下至少之一：击杀(例如单独击杀和合作击杀)、被击杀(或称死亡、阵亡)、对抗(或称攻击)、协助(或称辅助，例如加血，加速度，将防护能力)、开始(例如游戏开局、或虚拟对象复活)，如此，可以自动确定包含目标交互事件的区域，提高训练的效率；子区域是根据截取操作所确定的，如此，可以根据用户的手动操作确定包含特定交互事件的区域，提高第一神经网络模型识别包括特定交互事件的区域的准确性。

作为示例，将针对虚拟场景预先配置的多个特效中与交互事件的类型存在映射关系的特效，作为与交互事件匹配的特效可以包括：将针对虚拟场景预先配置的多个特效中与交互事件的类型存在映射关系、且与热点信息匹配的特效，作为与交互事件匹配的特效。

举例来说，通过映射表查找与交互事件的类型存在映射关系的多个候选特效，在多个候选特效中选取与热点信息匹配的候选特效，以作为与交互事件匹配的特效。其中，映射表中包括多个交互事件的类型，以及与交互事件的类型对应的多个候选特效，其中，多个候选特效分别对应不同的热点信息。

在另一些实施例中，获取与交互事件匹配的特效还可以包括对虚拟场景的直播数据进行解码，以获得多个视频帧；在多个视频帧中选取对应交互事件的交互视频帧，并调用第二神经网络模型执行以下处理：提取交互视频帧的特征向量，将特征向量映射为分别对应多个候选特效的概率，将最大概率所对应的候选特效确定为特效。

作为示例，第二神经网络模型是以样本视频帧、以及针对样本视频帧的标注数据训练得到的，标注数据包括样本视频帧中应用的特效。

作为示例，第二神经网络模型可以包括各种类型，例如，卷积神经网络模型、循环神经网络模型、以及多层前馈神经网络模型等。可以结合有监督的方式来训练第二神经网络模型，其中，用于训练第二神经网络模型的损失函数用于表示预测值与实际标注数据之间的差异，损失函数可以是0-1损失函数、感知损失函数或交叉熵损失函数等。

本申请实施例中通过机器学习的方式直接确定对应交互事件的特效，无需花费时间和计算资源判断交互事件的类型，从而能够提高特效的处理速度。

在步骤S1022中，将特效和讲解内容进行合成处理，以获得合成处理结果。

在一些实施例中，接收主播数据，从主播数据中提取主播的讲解内容；将特效和讲解内容进行合成处理，以获得合成处理结果。

作为上述实施例的替换方案，主播数据可以是特效和讲解内容的合成处理结果，也就是说，在服务器中将特效和讲解内容进行合成处理，将合成处理结果直接发送至终端进行显示，如此，能够节约终端用于执行合成处理的计算资源。

作为示例，讲解内容可以是视频形式，如此，解码得到的讲解内容的形式是视频帧；也可以是音频形式，如此，解码得到的讲解内容的形式是音频帧。

在一些实施例中，将特效包括的多个特效帧和讲解内容包括的多个视频帧对齐到相同的时间轴；针对对齐到时间轴中相同时间点的特效帧和视频帧执行以下操作：确定特效帧的色彩通道信息(即RGB三色信息)、以及对应的透明度通道信息；在视频帧中叠加特效帧的色彩通道信息，并根据透明度通道信息调整叠加的特效帧的色彩通道信息的透明度。

在另一些实施例中，可以通过图层叠加的方式显示讲解内容包括的视频帧和特效包括的特效帧。例如，将特效包括的多个特效帧和讲解内容包括的多个视频帧对齐到相同的时间轴；针对对齐到时间轴中相同时间点的特效帧和视频帧执行以下操作：将视频帧在底层图层中显示，将特效帧在上层图层中显示，其中，特效帧具有透明度。如此，不需要将讲解内容包括的视频帧和特效包括的特效帧合成为一帧，从而能够节约终端用于执行合成处理的计算资源。

在一些实施例中，当讲解内容是视频、且特效关联有作用部位(例如人体头部或人体四肢)时，从讲解内容中识别对应作用部位的位置，将特效叠加到讲解内容中的对应作用部位的位置。

作为示例，当特效是头像挂件时，该特效指定作用于主播头部，因此，还需要对第二区域中的内容进行人脸识别，以确定主播的头部区域，以在主播的头部显示头像挂件。

在另一些实施例中，当特效未关联有作用部位时，将特效叠加到在讲解内容中设定的位置。

作为示例，在讲解内容中设定的位置可以是固定位置或动态位置。例如，当特效是弹幕时，可以直接将特效叠加在第二区域的动态位置，从而使得弹幕具有在视频中移动的效果。当特效是边框挂件时，可以直接将特效叠加在第二区域固定的边缘位置。

在步骤S1023中，在人机交互界面的第二区域呈现合成处理结果。

作为示例，图7D中，当主播操控的角色(例如英雄)被击杀时，将主播画面和头像贴图702进行合成，以在人机交互界面的第二区域中呈现合成后的效果。

本申请实施例中，在呈现主播针对交互事件的讲解内容的区域中呈现与虚拟场景中发生的交互事件匹配的特效，不仅能够在提高直播趣味性的同时减少主播在直播过程中的互动频率，还能够以资源集约的方式实现针对直播内容的深入和高效的互动，从而提高直播的信息传播效率。

在一些实施例中，参见图6，图6是本申请实施例提供的直播处理方法的流程示意图，基于图4，在呈现主播针对所述交互事件的讲解内容、以及与所述交互事件匹配的特效时，还可以在步骤S103中，在第一区域中呈现用于评论交互事件的弹幕。

在一些实施例中，还可以在第一区域中呈现与交互事件匹配的贴图、动画或滤镜。

作为示例，图7D中，当主播操控的英雄被击杀时，在人机交互界面的第一区域中呈现弹幕701。

在一些实施例中，获取与交互事件匹配的弹幕；将弹幕和虚拟场景进行合成处理，以获得合成处理结果；在人机交互界面的第一区域呈现合成处理结果。需要说明的是，将弹幕和虚拟场景进行合成处理和上述的将特效和讲解内容进行合成处理的实现方式相同，在此将不再进行赘述。

作为第一个示例，获取与交互事件匹配的弹幕可以包括识别虚拟场景中发生的交互事件的类型；将针对虚拟场景预先配置的多个弹幕中与交互事件的类型存在映射关系的弹幕，作为与交互事件匹配的弹幕。

作为第二个示例，获取与交互事件匹配的弹幕可以包括识别虚拟场景中发生的交互事件的类型；将针对虚拟场景预先配置的多个弹幕中与交互事件的类型存在映射关系、且与热点信息匹配的弹幕，作为与交互事件匹配的弹幕。

作为第三个示例，获取与交互事件匹配的弹幕可以包括对虚拟场景的直播数据进行解码，以获得多个视频帧；在多个视频帧中选取对应交互事件的交互视频帧，并调用第四神经网络模型执行以下处理：提取交互视频帧的特征向量，将特征向量映射为分别对应多个候选弹幕的概率，将最大概率所对应的候选弹幕确定为弹幕。

举例来说，第四神经网络模型是以样本视频帧、以及针对样本视频帧的标注数据训练得到的，标注数据包括样本视频帧中应用的弹幕的类型和位置，其中，弹幕的类型包括弹幕所使用的文字或文字的格式(例如字体、颜色和粗细等)，从而使得第四神经网络模型具有从视频帧中识别出弹幕的类型和位置的能力。

举例来说，第四神经网络模型可以包括各种类型，例如，卷积神经网络模型、循环神经网络模型、以及多层前馈神经网络模型等。可以结合有监督的方式来训练第四神经网络模型，其中，用于训练第四神经网络模型的损失函数用于表示预测值与实际标注数据之间的差异，损失函数可以是0-1损失函数、感知损失函数或交叉熵损失函数等。

本申请实施例中通过机器学习的方式直接确定对应交互事件的弹幕，无需花费时间和计算资源判断交互事件的类型，从而能够提高弹幕的处理速度。

在一些实施例中，在步骤S103之后还可以响应于针对弹幕的修正操作，获取修正操作提交的修正弹幕，并将与交互事件存在映射关系的弹幕更新为修正弹幕，以当虚拟场景中再次发生交互事件时，在人机交互界面的第一区域中呈现修正弹幕。

作为示例，当用户认为针对发生的交互事件不应该使用呈现的弹幕时，可以通过弹幕修正页面提交修正弹幕，以使后续发生相同的交互事件时，直接采用提交的修正弹幕。例如，映射表中与交互事件A存在映射关系的是弹幕A，当发生交互事件A时，在第二区域中呈现弹幕A，此时，用户可以通过弹幕修正页面将弹幕A修改为弹幕B，并将映射表中与交互事件A存在映射关系的弹幕A更新为弹幕B，以当虚拟场景中再次发生交互事件A时，在第二区域中呈现弹幕B。

举例来说，图12中，用户触发弹幕修正按钮121后，呈现弹幕修正框122(即上述的弹幕修正页面)，用户可以在弹幕修正框122中选择修正弹幕，当用户点击“弹幕C”后，当虚拟场景中再次发生交互事件时，呈现修正弹幕123(即用户选择的“弹幕C”)。如此，能够提高用户设置弹幕的效率。

在一些实施例中，在步骤S103之前还可以响应于特效入口触发操作，呈现包括多个候选虚拟场景的特效设置页面；响应于针对多个候选虚拟场景的选择操作，呈现与被选择的候选虚拟场景对应的交互事件类型设置入口；其中，交互事件类型设置入口包括与被选择的候选虚拟场景对应的多个候选交互事件的类型，候选交互事件的类型包括以下至少之一：击杀(例如单独击杀和合作击杀)、被击杀(或称死亡、阵亡)、对抗(或称攻击)、协助(或称辅助，例如加血，加速度，将防护能力)、开始(例如游戏开局、或虚拟对象复活)；响应于针对多个候选交互事件的类型的选择操作，呈现与被选择的候选交互事件的类型对应的弹幕设置入口；其中，弹幕设置入口支持自定义弹幕，还包括与被选择的候选交互事件的类型对应的默认弹幕；弹幕的类型是文字；响应于弹幕选择操作，建立被选择的弹幕与被选择的候选交互事件的类型之间的映射关系。

作为示例，被选择的弹幕可以是默认弹幕，如此，可以建立默认弹幕与被选择的候选交互事件的类型之间的映射关系。

作为示例，还可以在特效设置页面中，呈现当在第一区域中应用被选择的弹幕时的预览画面。

举例来说，图7A是特效设置页面，用户可以通过弹幕设置入口711设置弹幕的文字。

作为示例，在响应于弹幕选择操作，建立被选择的弹幕与被选择的候选交互事件的类型之间的映射关系之前，还可以响应于针对弹幕设置入口的触发操作，显示与被选择的候选交互事件的类型匹配、且与热点信息匹配的多个候选弹幕；响应于针对多个候选弹幕的选择操作，将弹幕设置入口中显示的默认弹幕替换为被选择的候选弹幕。

举例来说，热点信息的类型包括以下至少之一：节日信息，例如中秋期间可以呈现月饼弹幕或月亮弹幕；新闻信息，例如世界杯期间可以呈现足球弹幕；地点信息，例如在A地点时可以呈现和A地点的风俗相关的弹幕。

本申请实施例支持呈现和当前热点匹配的弹幕，不仅能够提高直播间的趣味性，还能够减少主播在直播过程中的互动频率。

下面，以应用场景是游戏直播为例说明本申请实施例提供的直播处理方法。

本申请实施例能够在主播直播游戏的过程中，结合游戏中发生的游戏事件(即上述的交互事件)，智能给主播摄像头采集的主播画面中插入与发生的游戏事件相关的趣味特效，增强直播间的趣味性，营造欢乐的直播氛围。具体的，本申请实施例可以基于实时的游戏事件和当下热点(即上述的热点事件)，智能插入趣味特效；还可以结合AI图像识别技术预设不同事件下的特效，不会打断游戏操作，并且无需主播单独操作客户端，即可在特定时间出现特效。

参见图7A、图7B、图7C和图7D，图7A、图7B、图7C和图7D是本申请实施例提供的直播处理方法的应用场景示意图，下面结合图7A、图7B、图7C和图7D说明本申请实施例提供的直播处理方法的应用场景。

(一)特效配置过程

在一些实施例中，主播可以在图7A所示的特效设置页面选择需要趣味特效的游戏、事件(或称场景)、弹幕、特效和声音，下面具体说明图7A所示的特效设置页面。

(1)游戏选择：主播可以在此处选择自己想要融入特效的游戏，例如图7A中选择游戏“王XXX”。

(2)事件选择(或称场景选择)：主播可以在此处选择自己想要出现趣味特效对应的事件，可以根据不同的事件配置不同的特效。例如，游戏“王XXX”的死亡时刻是游戏中自己不慎被对方英雄(即虚拟对象)击杀。下拉可以针对不同事件，设置不同的特效，事件的类型可以包括开始时刻、三杀时刻、五杀时刻或死亡时刻等。

(3)弹幕设置：主播可以在此处设置自己想要出现在游戏画面中的弹幕文字，例如图7A中默认设置为“这波大意了，没有闪”。

(4)特效设置：特效一般是动态挂件特效，例如图7A中默认设置是头像贴图。

(5)声音设置：主播可以在此处设置播放特效时，同时播放的声音，通常是录音文件。当主播点击“路径”按钮时，可以开启文件管理器，从而可以选择想要插入的声音内容。

(6)效果预览：是用于展示主播设置完成后的预览画面。例如，图7A中的预览画面中呈现上述设置的弹幕701和头像贴图702。

(二)直播游戏配置过程

在一些实施例中，图7B是直播游戏设置页面，主播可以通过点击手游设置按钮703将需要直播的游戏客户端和直播客户端进行连接。

(三)摄像头配置过程

在一些实施例中，图7C是摄像头设置页面，主播可以通过点击摄像头设置按钮704选择、添加、以及设置摄像头。

在一些实施例中，图7D中上面的图是无特效的直播界面，图7D中下面的图是有特效的直播界面。例如，当主播操控的英雄被击杀时，可以在主播画面中添加头像贴图702、在游戏画面中添加弹幕701、以及添加对应的声音特效。

接下来，以事件是死亡时刻为例说明本申请实施例提供的直播处理方法的具体实现方式。参见图8，图8是本申请实施例提供的直播处理方法的流程示意图，将结合图8进行说明。

在步骤S801中，素材的收集及预处理。

在一些实施例中，可以通过人工分析游戏画面中能够代表该事件的特征区域，并标注位置。

作为示例，参见图9，图9是本申请实施例提供的直播处理方法的原理示意图，可以将图9中表征“您已阵亡”的区域901、表征“击杀者头像”的区域902、表征“被击杀者头像”的区域903、表征“英雄技能”的区域904、以及表征“召唤师技能”的区域905作为特征区域。

作为示例，可以使用音视频处理应用程序(例如ffmpeg)按每秒一张的速度截取特征区域，以获得相应的图像。这里可以使用自动化工具批量处理视频中的图像，剔除没有特征的图像，并将上述图像进行分类，定义完成配置文件，以处理不同特征区域的事件，其中，配置文件包括识别的事件标识信息(ID，Identity Document)、击杀者英雄ID、被击杀者英雄ID、以及位置坐标和宽高等信息。

举例来说，上述区域可以分为事件类(例如阵亡、三杀、五杀等)、头像类(例如击杀者英雄和被击杀者英雄)、英雄技能类(例如当前所操控的英雄的技能，以确定当前主播使用的英雄)、以及召唤师技能类(例如闪现、斩杀等)，其中，每个区域都有对应的位置坐标及宽高等信息。

在一些实施例中，可以使用数据增强库(例如python imgaug)对上述图像进行对比度变换和增加噪声等操作以实现图像增强以及数据集扩充。

在步骤S802中，模型的训练。

在一些实施例中，可以使用深度学习框架，例如快速特征嵌入的卷积神经网络框架(Caffe，Convolutional Architecture for Fast Feature Embedding)，可以使用轻量级卷积神经网络模型SqueezeNet，该神经网络对模型进行了深度压缩，相较于AlexNet模型参数数量明显降低；还可以使用深度压缩(Deep Compression)技术，压缩比可以达到461X。

作为示例，首先调整神经网络的卷积输出层参数，适配需要识别的类数。然后将步骤S801中获得的图像通过Caffe Convcert_Imageset转化为lmdb文件，其中，转换过程中可以打乱顺序，并将图像的宽高调整为256像素，使用图像处理器(GPU，Graphics ProcessingUnit)和微调方式对模型进行训练。

在步骤S803中，对图像中的事件进行识别。

在一些实施例中，可以使用基于OpenCV的AI识别引擎，加载训练得到的Caffe模型，进行图像识别，也就是说，将每秒从游戏画面中获取的数据，输入至AI识别引擎中，即可获得识别结果。

作为示例，识别过程可以包括：首先获取事件类区域(即图9中的区域901)的坐标和宽高，从游戏画面中按比例截取相应的图像，并发送至AI识别引擎中进行识别，当识别到事件时，得到一个得分，如果得分高于预设阈值(例如0.95)时，确定事件识别成功，否则不继续识别。事件识别成功后，可以按照上述事件识别的方式，对每个头像类、英雄技能类、召唤师技能类的区域进行识别。

在步骤S804中，识别结果的应用。

在一些实施例中，当识别到特定事件时，可以将识别结果发送至相应的业务方。其中，图像处理时间大约在50-100ms内，基本可以实现实时处理每秒采集的游戏画面。

参见图10，图10是本申请实施例提供的终端的功能架构示意图，下面结合图10具体说明，其中，图10示出的终端可以是图2中的终端400。

游戏画面：游戏画面数据，一般是RGBA格式的数据，通过画面采集的方式获得。

AI模型与配置：AI模型是通过机器训练得到的模型文件，配置是配套模型的事件ID、以及位置等信息。

AI识别引擎：使用基于OpenCV的AI识别引擎，加载训练得到的Caffe模型，进行图像识别。

特效素材：包含弹幕文字、声音、贴图等素材，其中，有些特效素材可以是带透明度通道的PNG图片序列帧。

文字源：特效素材的文字生成的纹理。

媒体播放器：可以播放音视频的组件。

特效纹理合成器：接收摄像头画面(即主播画面)和特效素材，根据一定的时间轴，生成合成纹理。

特效处理器：接收特效素材和AI识别引擎的事件触发，并将特效素材分发给相应的文字源、媒体播放器、和特效纹理合成器进行处理。

最终画面：包含游戏画面和特效合成画面。

下面说明本申请实施例提供的直播处理方法的具体流程。

第一步，用户(例如主播)在特效设置页面选择游戏和设置特效，后台会下发相应的AI模型和配置，AI识别引擎将会加载AI模型和配置。

第二步，当用户开始游戏时，游戏画面会不断送入AI识别引擎，当出现相应事件时，会触发相应事件响应，事件会将位置、事件ID等信息发送至特效处理器。

第三步，特效处理器会根据用户的设置和事件触发，分发特定的特效素材和不同的特效处理器，以生成对应的画面纹理和声音。

第四步，特效合成器会接收摄像头画面，并进行人脸识别，然后按一定的时间轴，将特效素材中的图片生成纹理，并和摄像头画面中的人体进行贴合。

第五步，将游戏画面、特效合成画面、以及声音合成最终画面。

第六步，将最终画面通过实时消息传输协议(RTMP，Real Time MessagingProtocol)推流到服务器。

下面继续说明本申请实施例提供的直播处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器450的直播处理装置455中的软件模块可以包括：第一呈现模块4551，用于响应于虚拟场景播放操作，在人机交互界面的第一区域中呈现虚拟场景；第二呈现模块4552，用于响应于虚拟场景中发生的交互事件，执行以下处理：在人机交互界面的第二区域中呈现主播针对交互事件的讲解内容、以及与交互事件匹配的特效。

在上述方案中，第一呈现模块4551，还用于在第一区域中呈现用于评论交互事件的弹幕；其中，特效的类型包括以下至少之一：贴图、动画、滤镜、声音；其中，交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助。

在上述方案中，第二呈现模块4552，还用于获取与交互事件匹配的特效；将特效和讲解内容进行合成处理，并在人机交互界面的第二区域呈现合成处理结果。

在上述方案中，第二呈现模块4552，还用于识别虚拟场景中发生的交互事件的类型；将针对虚拟场景预先配置的多个特效中与交互事件的类型存在映射关系的特效，作为与交互事件匹配的特效。

在上述方案中，第二呈现模块4552，还用于将针对虚拟场景预先配置的多个特效中与交互事件的类型存在映射关系、且与热点信息匹配的特效，作为与交互事件匹配的特效；其中，热点信息的类型包括以下至少之一：节日信息、新闻信息、地点信息。

在上述方案中，第二呈现模块4552，还用于对虚拟场景的直播数据进行解码，以获得多个视频帧；在多个视频帧中选取对应交互事件的交互视频帧，并调用第一神经网络模型执行以下处理：提取交互视频帧的特征向量，将特征向量映射为分别属于多个候选交互事件的类型的概率；将最大概率所对应的候选交互事件的类型确定为交互事件的类型；其中，第一神经网络模型是以样本视频帧、以及针对样本视频帧的标注数据训练得到的，标注数据包括样本视频帧中的交互事件的类型以及所处的区域。

在上述方案中，第二呈现模块4552，还用于将样本视频帧划分为多个子区域，并在多个子区域中选取满足截取条件的子区域作为特征区域；将特征区域中发生的交互事件的类型、以及特征区域在样本视频帧中的位置，作为针对样本视频帧的标注数据；基于样本视频帧、以及针对样本视频帧的标注数据，对第一神经网络模型进行训练；其中，截取条件包括以下至少之一：子区域中发生的交互事件是目标交互事件，目标交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助；子区域是根据截取操作所确定的。

在上述方案中，第二呈现模块4552，还用于对虚拟场景的直播数据进行解码，以获得多个视频帧；在多个视频帧中选取对应交互事件的交互视频帧，并调用第二神经网络模型执行以下处理：提取交互视频帧的特征向量，将特征向量映射为分别对应多个候选特效的概率，将最大概率所对应的候选特效确定为特效；其中，第二神经网络模型是以样本视频帧、以及针对样本视频帧的标注数据训练得到的，标注数据包括样本视频帧中应用的特效。

在上述方案中，第二呈现模块4552，还用于当讲解内容是视频、且特效关联有作用部位时，从讲解内容中识别对应作用部位的位置，将特效叠加到讲解内容中对应作用部位的位置；当特效未关联有作用部位时，将特效叠加到在讲解内容中设定的位置。

在上述方案中，第二呈现模块4552，还用于将特效包括的多个特效帧和讲解内容包括的多个视频帧对齐到相同的时间轴；针对对齐到时间轴中相同时间点的特效帧和视频帧执行以下操作：确定特效帧的色彩通道信息、以及对应的透明度通道信息；在视频帧中叠加特效帧的色彩通道信息，并根据透明度通道信息调整叠加的特效帧的色彩通道信息的透明度。

在上述方案中，第二呈现模块4552，还用于对虚拟场景的直播数据进行解码，以获得多个视频帧；在多个视频帧中选取对应交互事件的交互视频帧，并调用第三神经网络模型执行以下处理：提取交互视频帧的特征向量，将特征向量映射为分别属于感兴趣类型和不感兴趣类型的概率；当最大概率所对应的类型是感兴趣类型时，确定将执行在人机交互界面的第二区域中呈现与交互事件匹配的特效的操作；其中，第三神经网络模型是以样本视频帧、以及针对样本视频帧的标注数据训练得到的，标注数据包括样本视频帧所属的兴趣类型。

在上述方案中，直播处理装置455还包括：修正模块，用于响应于针对特效的修正操作，获取修正操作提交的修正特效，并将与交互事件存在映射关系的特效更新为修正特效，以当虚拟场景中再次发生交互事件时，在人机交互界面的第二区域中呈现修正特效。

在上述方案中，直播处理装置455还包括：配置模块，用于响应于特效入口触发操作，呈现包括多个候选虚拟场景的特效设置页面；响应于针对多个候选虚拟场景的选择操作，呈现与被选择的候选虚拟场景对应的交互事件类型设置入口；其中，交互事件类型设置入口包括与被选择的候选虚拟场景对应的多个候选交互事件的类型，候选交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助；响应于针对多个候选交互事件的类型的选择操作，呈现与被选择的候选交互事件的类型对应的特效设置入口；其中，特效设置入口包括与被选择的候选交互事件的类型对应的默认特效；特效的类型包括以下至少之一：贴图、动画、滤镜、声音；响应于特效选择操作，建立被选择的特效与被选择的候选交互事件的类型之间的映射关系。

在上述方案中，配置模块，还用于在响应于特效选择操作，建立被选择的特效与被选择的候选交互事件的类型之间的映射关系之前，方法还包括：响应于针对特效设置入口的触发操作，显示与被选择的候选交互事件的类型匹配、且与热点信息匹配的多个候选特效；其中，热点信息的类型包括以下至少之一：节日信息、新闻信息、地点信息；响应于针对多个候选特效的选择操作，将特效设置入口中显示的默认特效替换为被选择的候选特效。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的直播处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的直播处理方法，例如，如图4、图5、图6或图8示出的直播处理方法。

在一些实施例中，计算机可读存储介质可以包括FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以包括包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例在呈现主播针对交互事件的讲解内容的区域中呈现与虚拟场景中发生的交互事件匹配的特效，不仅能够在提高直播趣味性的同时减少主播在直播过程中的互动频率，还能够以资源集约的方式实现针对直播内容的深入和高效的互动，从而提高直播质量。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种直播处理方法，其特征在于，包括：

响应于所述虚拟场景中发生的交互事件，执行以下处理：

2.根据权利要求1所述的方法，其特征在于，呈现主播针对所述交互事件的讲解内容、以及与所述交互事件匹配的特效时，所述方法还包括：

在所述第一区域中呈现用于评论所述交互事件的弹幕；

其中，所述特效的类型包括以下至少之一：贴图、动画、滤镜、声音；

其中，所述交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助。

3.根据权利要求1所述的方法，其特征在于，所述在所述人机交互界面的第二区域中呈现主播针对所述交互事件的讲解内容、以及与所述交互事件匹配的特效，包括：

获取与所述交互事件匹配的特效；

将所述特效和所述讲解内容进行合成处理，并在所述人机交互界面的第二区域呈现合成处理结果。

4.根据权利要求3所述的方法，其特征在于，所述获取与所述交互事件匹配的特效，包括：

识别所述虚拟场景中发生的交互事件的类型；

将针对所述虚拟场景预先配置的多个特效中与所述交互事件的类型存在映射关系的特效，作为与所述交互事件匹配的特效。

5.根据权利要求4所述的方法，其特征在于，所述将针对所述虚拟场景预先配置的多个特效中与所述交互事件的类型存在映射关系的特效，作为与所述交互事件匹配的特效，包括：

将针对所述虚拟场景预先配置的多个特效中与所述交互事件的类型存在映射关系、且与热点信息匹配的特效，作为与所述交互事件匹配的特效；

其中，所述热点信息的类型包括以下至少之一：节日信息、新闻信息、地点信息。

6.根据权利要求4所述的方法，其特征在于，所述识别所述虚拟场景中发生的交互事件的类型，包括：

对所述虚拟场景的直播数据进行解码，以获得多个视频帧；

在所述多个视频帧中选取对应所述交互事件的交互视频帧，并调用第一神经网络模型执行以下处理：

提取所述交互视频帧的特征向量，将所述特征向量映射为分别属于多个候选交互事件的类型的概率；

将最大概率所对应的候选交互事件的类型确定为所述交互事件的类型；

其中，所述第一神经网络模型是以样本视频帧、以及针对所述样本视频帧的标注数据训练得到的，所述标注数据包括所述样本视频帧中的交互事件的类型以及所处的区域。

7.根据权利要求6所述的方法，其特征在于，在所述调用第一神经网络模型之前，所述方法还包括：

将所述样本视频帧划分为多个子区域，并在所述多个子区域中选取满足截取条件的子区域作为特征区域；

将所述特征区域中发生的交互事件的类型、以及所述特征区域在所述样本视频帧中的位置，作为针对所述样本视频帧的标注数据；

基于所述样本视频帧、以及针对所述样本视频帧的标注数据，对所述第一神经网络模型进行训练；

其中，所述截取条件包括以下至少之一：

所述子区域中发生的交互事件是目标交互事件，所述目标交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助；

所述子区域是根据截取操作所确定的。

8.根据权利要求3所述的方法，其特征在于，所述获取与所述交互事件匹配的特效，包括：

对所述虚拟场景的直播数据进行解码，以获得多个视频帧；

在所述多个视频帧中选取对应所述交互事件的交互视频帧，并调用第二神经网络模型执行以下处理：

提取所述交互视频帧的特征向量，将所述特征向量映射为分别对应多个候选特效的概率，将最大概率所对应的候选特效确定为所述特效；

其中，所述第二神经网络模型是以样本视频帧、以及针对所述样本视频帧的标注数据训练得到的，所述标注数据包括所述样本视频帧中应用的特效。

9.根据权利要求3所述的方法，其特征在于，所述将所述特效和所述讲解内容进行合成处理，包括：

当所述讲解内容是视频、且所述特效关联有作用部位时，从所述讲解内容中识别对应所述作用部位的位置，将所述特效叠加到所述讲解内容中的对应所述作用部位的位置；

当所述特效未关联有作用部位时，将所述特效叠加到在所述讲解内容中设定的位置。

10.根据权利要求3所述的方法，其特征在于，所述将所述特效和所述讲解内容进行合成处理，包括：

将所述特效包括的多个特效帧和所述讲解内容包括的多个视频帧对齐到相同的时间轴；

针对对齐到所述时间轴中相同时间点的所述特效帧和所述视频帧执行以下操作：

确定所述特效帧的色彩通道信息、以及对应的透明度通道信息；

在所述视频帧中叠加所述特效帧的色彩通道信息，并根据所述透明度通道信息调整叠加的所述特效帧的色彩通道信息的透明度。

11.根据权利要求1所述的方法，其特征在于，在所述人机交互界面的第二区域中呈现主播针对所述交互事件的讲解内容、以及与所述交互事件匹配的特效之前，所述方法还包括：

响应于特效入口触发操作，呈现包括多个候选虚拟场景的特效设置页面；

响应于针对所述多个候选虚拟场景的选择操作，呈现与被选择的候选虚拟场景对应的交互事件类型设置入口；

其中，所述交互事件类型设置入口包括与被选择的候选虚拟场景对应的多个候选交互事件的类型，所述候选交互事件的类型包括以下至少之一：击杀、被击杀、对抗、协助；

响应于针对所述多个候选交互事件的类型的选择操作，呈现与被选择的候选交互事件的类型对应的特效设置入口；

其中，所述特效设置入口包括与被选择的候选交互事件的类型对应的默认特效；所述特效的类型包括以下至少之一：贴图、动画、滤镜、声音；

响应于特效选择操作，建立被选择的特效与所述被选择的候选交互事件的类型之间的映射关系。

12.根据权利要求11所述的方法，其特征在于，在所述响应于特效选择操作，建立被选择的特效与所述被选择的候选交互事件的类型之间的映射关系之前，所述方法还包括：

响应于针对所述特效设置入口的触发操作，显示与所述被选择的候选交互事件的类型匹配、且与热点信息匹配的多个候选特效；

其中，所述热点信息的类型包括以下至少之一：节日信息、新闻信息、地点信息；

响应于针对所述多个候选特效的选择操作，将所述特效设置入口中显示的默认特效替换为被选择的候选特效。

13.一种直播处理装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的直播处理方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的直播处理方法。