CN110536171A

CN110536171A - 互动场景中的多媒体处理方法、装置及电子设备

Info

Publication number: CN110536171A
Application number: CN201910792832.4A
Authority: CN
Inventors: 周扬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-12-03
Anticipated expiration: 2039-08-26
Also published as: CN110536171B

Abstract

本发明提供了一种互动场景中的多媒体处理方法、装置、电子设备及存储介质；互动场景中的多媒体处理方法包括：获取第一客户端在互动场景中实施的操作事件；获取互动场景中用于响应操作事件的互动场景音频和互动场景视频，并将互动场景音频及互动场景视频发送至第一客户端；通过语音服务器获取参与互动场景的第二客户端采集的第一通话音频，第一通话音频的目标为第一客户端；将第一通话音频发送至第一客户端，以使第一客户端将互动场景音频和第一通话音频进行混合后输出声音，并基于互动场景视频同步输出画面。通过本发明，能够减少音频在传输过程中的损耗，提升客户端输出声音的音质。

Description

互动场景中的多媒体处理方法、装置及电子设备

技术领域

本发明涉及计算机云技术，尤其涉及一种互动场景中的多媒体处理方法、装置、电子设备及存储介质。

背景技术

计算机云技术是指将数据计算和逻辑处理的工作置于云服务器中，从而减少客户端的工作量，大大降低客户端的性能需求。在基于计算机云技术构建的互动场景，如云游戏场景中，通过在互动场景服务器处理游戏相关的逻辑，使图形处理与数据运算能力相对有限的轻端设备，即客户端能够运行高品质游戏。

互动场景涉及到多媒体的相关处理，多媒体包括通话音频和互动场景音频，通话音频即语音。在相关技术提供的方案中，通常是由互动场景服务器对通话音频和互动场景音频进行混合，再将混合后的音频发送至客户端，由于音频传输的过程涉及到二次编解码，导致客户端得到的混合音频的损耗较大，客户端输出声音的音质差。

发明内容

本发明实施例提供一种互动场景中的多媒体处理方法、装置、电子设备及存储介质，能够提升客户端输出声音的音质，提升互动场景下的声音展现效果。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种互动场景中的多媒体处理方法，包括：

获取第一客户端在互动场景中实施的操作事件；

获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景视频，并将所述互动场景音频及所述互动场景视频发送至所述第一客户端；

通过语音服务器获取参与所述互动场景的第二客户端采集的第一通话音频，所述第一通话音频的目标为所述第一客户端；

将所述第一通话音频发送至所述第一客户端，以使

所述第一客户端将所述互动场景音频和所述第一通话音频进行混合后输出声音，并基于所述互动场景视频同步输出画面。

本发明实施例提供一种互动场景中的多媒体处理装置，包括：

操作获取模块，用于获取第一客户端在互动场景中实施的操作事件；

第一发送模块，用于获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景视频，并将所述互动场景音频及所述互动场景视频发送至所述第一客户端；

第一语音获取模块，用于通过语音服务器获取参与所述互动场景的第二客户端采集的第一通话音频，所述第一通话音频的目标为所述第一客户端；

第二发送模块，用于将所述第一通话音频发送至所述第一客户端，以使

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的多媒体处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的多媒体处理方法。

本发明实施例具有以下有益效果：

在本发明实施例中，将根据操作事件得到的互动场景音频及互动场景视频发送至第一客户端，同时，对于通过语音服务器获取到的第一通话音频，将其直接发送至第一客户端，以使第一客户端将互动场景音频和第一通话音频进行混合后输出声音，本发明实施例减小了第一通话音频在传输过程中的损耗，提升了客户端最终输出声音的音质，并且通过传输互动场景视频，实现了音画同步输出，提升了多媒体展示效果。

附图说明

图1是本发明实施例提供的互动场景中的多媒体处理系统的一个可选的架构示意图；

图2是本发明实施例提供的互动场景中的多媒体处理装置的一个可选的架构示意图；

图3是本发明实施例提供的互动场景中的多媒体处理方法的一个可选的流程示意图；

图4是本发明实施例提供的云游戏场景的一个可选的架构示意图；

图5A是本发明实施例提供的云游戏场景的下行架构的比对示意图；

图5B是本发明实施例提供的云游戏场景的上行架构的比对示意图；

图6A是本发明实施例提供的云游戏客户端的上行模块示意图；

图6B是本发明实施例提供的云游戏客户端的下行模块示意图；

图6C是本发明实施例提供的云游戏服务器的模块示意图；

图7A是本发明实施例提供的通话音频的接收方的配置示意图；

图7B是本发明实施例提供的通话音频的发送方的配置示意图；

图8A是本发明实施例提供的云游戏客户端的下行通信示意图；

图8B是本发明实施例提供的云游戏客户端的上行通信示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)互动场景：指利用设备输出的区别于现实世界，且能够支持用户互动的虚拟场景，如游戏场景，通过裸眼或设备的辅助能够形成对互动场景的视觉感知，例如通过显示屏幕输出的二维影像，通过立体投影、虚拟现实和增强现实技术等立体显示技术来输出的三维影像；此外，还可以通过各种可能的硬件形成听觉感知、触觉感知、嗅觉感知和运动感知等各种模拟现实世界的感知。

2)互动场景服务器：指支撑互动场景的服务器，在本文中，互动场景服务器为云服务器。

3)操作事件：指客户端实施的能够对互动场景造成影响的事件，本发明实施例对操作事件的具体形式不做限定，如操作事件可为用户点击互动场景中的某个虚拟角色或虚拟按钮、用户输入一段文字或用户输入一段语音等。

4)互动场景音频：指响应于操作事件而得到的音频，操作事件与互动场景音频之间的对应关系可预先设定。

5)通话音频：指用户通过麦克风或其他录入设备输入的语音。

6)语音服务器：指用于转发通话音频的服务器。

发明人在实施本发明的过程中发现，对于互动场景中音频的处理，通常是语音服务器对通话音频进行编码，将编码后的通话音频发送至互动场景服务器，互动场景服务器经解码得到通话音频后，将通话音频与互动场景音频进行混合，再将混合音频经过编码后，发送至客户端，从而使客户端解码后输出混合音频，由于音频传输的过程中涉及到二次编解码，导致音频的损耗较大，客户端最终输出声音的音质差，并且，由于互动场景服务器混合了音频，导致客户端只能对混合音频的音量进行统一调整，而无法对通话音频的音量或互动场景音频的音量进行单独调整。

本发明实施例提供一种互动场景中的多媒体处理方法、装置、电子设备及存储介质，能够提升客户端输出声音的音质，提升互动场景下的声音展现效果，并且实现音画同步输出，下面说明本发明实施例提供的电子设备的示例性应用。

参见图1，图1是本发明实施例提供的互动场景中的多媒体处理系统100的一个可选的架构示意图，为实现支撑一个互动场景中的多媒体处理应用，终端设备400-1通过网络300-1连接互动场景服务器200，互动场景服务器200通过网络300-2连接语音服务器500，语音服务器500通过网络300-3连接终端设备400-2，其中，网络300-1、300-2及300-3中的每个网络，可以是广域网或者局域网，又或者是二者的组合。

终端设备400-1用于在图形界面410-1中显示互动场景；终端设备400-2用于图形界面410-2中显示互动场景；终端设备400-1还用于在互动场景中实施操作事件，并将操作事件发送至互动场景服务器200；互动场景服务器200用于获取该操作事件，获取互动场景中用于响应操作事件的互动场景音频和互动场景视频，并将互动场景音频及互动场景视频发送至终端设备400-1；终端设备400-2还用于采集用户B输入的第一通话音频，将第一通话音频发送至语音服务器500，该第一通话音频的目标为终端设备400-1；语音服务器500用于获取第一通话音频，并将第一通话音频发送至互动场景服务器200；互动场景服务器200还用于获取第一通话音频，并将第一通话音频发送至终端设备400-1；终端设备400-1还用于将互动场景音频和第一通话音频进行混合后输出声音，并基于互动场景视频同步输出画面。

值得说明的是，图1仅示出了不存在与终端设备400-2对应的互动场景服务器，即终端设备400-2不为云设备时，终端设备400-2将第一通话音频发送至语音服务器500的方式，除了这种方式，当存在与终端设备400-2对应的互动场景服务器(终端设备400-1与终端设备400-2对应的是不同的互动场景服务器)时，终端设备400-2先将第一通话音频发送至对应的互动场景服务器，再由该互动场景服务器将第一通话音频转发至语音服务器500。

以互动场景为云游戏场景，终端设备400-1运行云游戏客户端，终端设备为400-2运行本地客户端，终端设备400-1及终端设备400-2运行同一款云游戏应用为例，进行说明。参与图1，对于终端设备400-1来说，云游戏场景的相关数据计算依赖于互动场景服务器200的计算能力，互动场景服务器200将计算结果，如渲染好的视频发送至终端设备400-1，终端设备400-1根据获取到的计算结果进行云游戏场景的输出；对于终端设备400-2来说，云游戏场景的相关数据计算依赖于终端设备400-2自身的计算能力，在计算完成，如在本地渲染好视频后，终端设备400-2根据计算结果进行云游戏场景的输出。

当形成云游戏场景的视觉感知时，终端设备400(包括终端设备400-1及400-2)在图形输出硬件输出能够对云游戏场景形成视觉感知的视频帧，例如，在智能手机的显示屏幕呈现二维的视频帧，或者，在增强现实/虚拟现实眼镜的镜片上投射实现三维显示效果的视频帧。当形成云游戏场景的听觉感知时，终端设备400在音频输出硬件输出能够对云游戏场景形成听觉感知的音频，例如，通过个人电脑外接的麦克风输出音频。此外，为了丰富感知效果，终端设备400还可以借助不同的硬件来形成触觉感知、运动感知和味觉感知的一种或多种。

在图1所示的云游戏场景中，示例性地示出了人物C和人物D，人物C是终端设备400-1控制的游戏角色，人物D是终端设备400-2控制的游戏角色，以云游戏场景是供人物C和人物D搏击对战的擂台为例，假设响应于用户A针对终端设备400-1的控制器(包括触控屏、声控开关、键盘、鼠标和摇杆等，可为实体控制器，也可为虚拟控制器)的操作，终端设备400-1确定操作事件为“人物C击打人物D”，并将操作事件发送至互动场景服务器200。互动场景服务器200根据云游戏的游戏逻辑(互动场景逻辑)，在数据库中获取用于响应该操作事件的击打音效(互动场景音频)和多个击打画面，并对多个击打画面进行渲染，进行视频流捕捉，得到击打视频(互动场景视频)，并将击打音效和击打视频发送至终端设备400-1。同时，互动场景服务器200获取到语音服务器500转发的，来自终端设备400-2的通话音频，互动场景服务器200将该通话音频同样发送至终端设备400-1。终端设备400-1输出击打视频，从而在云游戏场景中形成视觉感知，使用户A看见人物C击打人物D的一连串画面，同时，终端设备400-1将击打音效和通话音频进行混合，并进行输出，从而在云游戏场景中形成听觉感知，使用户A听到击打音效及通话音频，同时实现云游戏的游玩以及用户之间的语音沟通。

下面继续说明本发明实施例提供的电子设备的示例性应用。电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端设备，也可以实施为服务器。下面，以电子设备为服务器为例进行说明。

参见图2，图2是本发明实施例提供的互动场景服务器200的架构示意图，图2所示的互动场景服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的互动场景中的多媒体处理装置可以采用软件方式实现，图2示出了存储在存储器250中的互动场景中的多媒体处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：操作获取模块2551、第一发送模块2552、第一语音获取模块2553及第二发送模块2554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的互动场景中的多媒体处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的互动场景中的多媒体处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的互动场景中的多媒体处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

本发明实施例提供的互动场景中的多媒体处理方法可以由上述的服务器执行，也可以由终端设备执行，或者由服务器和终端设备共同执行。

下面将结合上文记载的电子设备的示例性应用和结构，说明电子设备中通过嵌入的互动场景中的多媒体处理装置而实现互动场景中的多媒体处理方法的过程。

参见图3，图3是本发明实施例提供的互动场景中的多媒体处理方法的一个可选的流程示意图，以图1示出的语音服务器500(下文简称为语音服务器)、互动场景服务器200(下文)和终端设备400-1(下文简称为终端设备)为例，结合图3示出的步骤进行说明。

在步骤301中，终端设备400-1中的第一客户端接收用户在互动场景中实施的操作事件。

这里，第一客户端展示互动场景以接收用户在互动场景中实施的操作事件，例如，用户的点击操作或滑动操作相应的操作事件。

在步骤302中，所述第一客户端将所述操作事件发送至互动场景服务器。

在本发明实施例中，第一客户端为云客户端，互动场景服务器是对应于第一客户端的云服务器。

在步骤303中，所述互动场景服务器获取所述操作事件。

在步骤304中，所述互动场景服务器获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景视频。

在一些实施例中，可以通过这样的方式实现上述的所述互动场景服务器获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景视频：所述互动场景服务器根据设定的互动场景逻辑，获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景画面；渲染所述互动场景画面，并对渲染的至少两帧所述互动场景画面进行视频流捕捉，得到互动场景视频。

例如，在互动场景逻辑中，设定用于响应操作事件A的是互动场景音频A₁和互动场景画面A₂；设定用于响应操作事件B的是互动场景音频B₁和互动场景画面B₂。则互动场景服务器在获取到的操作事件为B时，获取互动场景音频B₁和互动场景画面B₂。通常来说，互动场景画面的数量为至少两帧，互动场景服务器在获取到互动场景画面后，对其进行渲染，并对渲染的至少两帧互动场景画面进行视频流捕捉，得到互动场景视频。通过上述方式，提升了对操作事件的响应效率，并且，在互动场景服务器进行画面的渲染，降低了第一客户端的处理压力。

在步骤305中，所述互动场景服务器将所述互动场景音频及所述互动场景视频发送至所述第一客户端。

在一些实施例中，可以通过这样的方式实现上述的所述互动场景服务器将所述互动场景音频及所述互动场景视频发送至所述第一客户端：所述互动场景服务器对所述互动场景音频进行编码处理，并将编码后的所述互动场景音频发送至所述第一客户端，以使所述第一客户端对编码后的所述互动场景音频进行解码；对所述互动场景视频进行编码处理，并将编码后的所述互动场景视频发送至所述第一客户端，以使所述第一客户端对编码后的所述互动场景视频进行解码。

互动场景服务器在将互动场景音频及互动场景视频发送至第一客户端时，可应用音频编解码标准，如MP3，对互动场景音频进行编码处理，再将编码后的互动场景音频发送至第一客户端，以使第一客户端对其进行解码；可应用视频编解码标准，如H.264，对互动场景视频进行编码处理，再将编码后的互动场景视频发送至第一客户端，以使第一客户端对其进行解码。通过上述的编码方式，提升了向第一客户端发送视频和音频的容易度，降低了传输的带宽要求。

在步骤306中，语音服务器获取参与所述互动场景的第二客户端采集的第一通话音频，所述第一通话音频的目标为所述第一客户端。

语音服务器是用于转发通话音频的服务器，在本发明实施例中，对于不同的客户端，可设置一一对应的语音服务器进行通话音频的转发，也可设置一个语音服务器，对不同客户端的通话音频进行统一转发，为了便于理解，后文以一个统一的语音服务器的情况进行阐述。通过语音服务器，获取参与互动场景的第二客户端采集的第一通话音频，该第一通话音频的目标为第一客户端，即第一通话音频由第二客户端输入，且预期输出至第一客户端。

当存在与第二客户端对应的互动场景服务器(此处，第二客户端对应的互动场景服务器与第一客户端对应的互动场景服务器不同)时，第二客户端先将第一通话音频发送至对应的互动场景服务器，再由互动场景服务器将其发送至语音服务器；当不存在与第二客户端对应的互动场景服务器时，第二客户端将第一通话音频直接发送至语音服务器。

在步骤307中，所述语音服务器将所述第一通话音频发送至所述互动场景服务器。

这里，语音服务器不对第一通话音频进行编码操作，而是将原始的第一通话音频发送至互动场景服务器。

在一些实施例中，在任意步骤之间，所述多媒体处理方法还包括：所述互动场景服务器获取参与所述互动场景的所述第一客户端采集的第二通话音频，所述第二通话音频的目标为所述第二客户端；将所述第二通话音频发送至所述语音服务器，以使所述语音服务器将所述第二通话音频发送至所述第二客户端。

互动场景服务器除了获取第一通话音频外，还可获取第一客户端采集的第二通话音频，该第二通话音频的目标为第二客户端。互动场景服务器在获取到第一通话音频后，同样将其发送至语音服务器，以将语音服务器作为中转，使第二通话音频最终抵达第二客户端。通过上述方式提升了传输通话音频的灵活性。

在一些实施例中，在任意步骤之间，所述多媒体处理方法还包括：所述互动场景服务器将所述第一客户端的地址信息发送至所述语音服务器，将所述语音服务器的地址信息发送至所述第一客户端，以使所述第一客户端与所述语音服务器基于各自接收的地址信息，建立所述第一客户端与所述服务器之间的通信连接，所述通信连接用于传输所述第二通话音频。

在本发明实施例中，可对转发第二通话音频的机制进行优化。具体地，互动场景服务器将第一客户端的地址信息发送至语音服务器，将语音服务器的地址信息发送至第一客户端，地址信息至少包括网络地址，例如，地址信息可包括密钥、设备标识及网络地址。第一客户端与语音服务器基于各自接收的地址信息，建立第一客户端与服务器之间的通信连接，其中，建立通信连接的请求可由第一客户端发起，也可由语音服务器发起，另外，建立的通信连接可为传输控制协议(Transmission Control Protocol，TCP)连接或用户数据报协议(User Datagram Protocol，UDP)连接等，本发明实施例对此不做限定。在第一客户端与语音服务器已建立通信连接的基础上，若第一客户端采集到第二通话音频，则通过通信连接将第二通话音频直接发送至语音服务器，而不经过互动场景服务器的转发。通过上述方式，精简了第二通话音频的发送过程，从而降低了发送过程中的网络延迟。

在步骤308中，所述互动场景服务器获取所述第一通话音频。

在步骤309中，所述互动场景服务器将所述第一通话音频发送至所述第一客户端。

在一些实施例中，可以通过这样的方式实现上述的所述互动场景服务器将所述第一通话音频发送至所述第一客户端：所述互动场景服务器对所述第一通话音频进行编码处理，并将编码后的所述第一通话音频发送至所述第一客户端，以使所述第一客户端对编码后的所述第一通话音频进行解码。

与发送互动场景音频及互动场景视频同理，互动场景服务器可对第一通话音频进行编码处理，并将编码后的第一通话音频发送至第一客户端，以使第一客户端对其进行解码。值得说明的是，针对不同的视频或音频，互动场景服务器都是单独进行编码，且单独发送，如单独对互动场景音频进行编码并发送，单独对第一通话音频进行编码并发送。通过上述的编解码方式降低了传输第一通话音频的带宽要求，使得第一通话音频能够更快速地到达第一客户端。

在一些实施例中，还可以通过这样的方式实现上述的所述互动场景服务器将所述第一通话音频发送至所述第一客户端：对语音引擎进行复制，并将复制的所述语音引擎发送至所述第一客户端，所述语音引擎用于对所述语音服务器加密的所述第一通话音频进行解密；将加密的所述第一通话音频发送至所述第一客户端。

语音服务器通常会设置加密机制，即在发送音频时对音频进行加密，与之对应的，在互动场景服务器内，通常会设置语音引擎，通过语音引擎对加密的音频进行解密。在本发明实施例中，互动场景服务器可对内部的语音引擎进行复制(克隆)，具体配置与该语音引擎的参数及密钥均相同的另一个语音引擎，并将复制的另一个语音引擎发送至第一客户端。通过上述方式，实现了第一客户端的语音引擎的自动配置，并且，互动场景服务器在获取到加密的第一通话音频时，不执行解码等相关操作，而是只进行中转，将其发送至第一客户端，由第一客户端对其处理得到第一通话音频，从而减少了对第一通话音频的编解码次数，减少了第一通话音频在传输过程中的损耗。

在一些实施例中，在任意步骤之间，所述多媒体处理方法还包括：所述互动场景服务器将所述第一客户端的地址信息发送至所述语音服务器，将所述语音服务器的地址信息发送至所述第一客户端，以使所述第一客户端与所述语音服务器基于各自接收的地址信息，建立所述第一客户端与所述服务器之间的通信连接，所述通信连接用于传输所述第一通话音频。

本发明实施例可对转发第一通话音频的机制进行优化。具体地，互动场景服务器将第一客户端的地址信息发送至语音服务器，将语音服务器的地址信息发送至第一客户端，第一客户端与语音服务器基于各自接收的地址信息，建立第一客户端与服务器之间的通信连接，其中，建立通信连接的请求可由第一客户端发起，也可由语音服务器发起，另外，建立的通信连接可为TCP连接或UDP连接等，本发明实施例对此不做限定。在第一客户端与语音服务器已建立通信连接的基础上，若语音服务器获取到目标为第一客户端的第一通话音频，则语音服务器通过通信连接，将第一通话音频直接发送至第一客户端，而不经过互动场景服务器的转发。通过上述方式，进一步降低了传输第一通话音频的网络延迟。

在步骤310中，所述第一客户端将所述互动场景音频和所述第一通话音频进行混合后输出声音，并基于所述互动场景视频同步输出画面。

由于第一客户端获取到的是单独的互动场景音频及单独的第一通话音频，故第一客户端在输出声音时，可根据用户操作单独调整互动场景音频的音量或第一通话音频的音量，提升用户体验。

在一些实施例中，在任意步骤之间，所述多媒体处理方法还包括：所述互动场景服务器获取所述第一客户端的客户端参数；当所述客户端参数满足设定的参数条件时，将所述互动场景音频和所述第一通话音频进行混合，得到混合音频；将所述混合音频及所述互动场景视频发送至所述第一客户端，以使所述第一客户端输出所述混合音频，并基于所述互动场景视频同步输出画面。

在实际应用场景中存在一些特殊情况，如第一客户端的性能较低，无法快速对第一通话音频及互动场景音频进行混合，或用户想要调整为在互动场景服务器内进行音频混合。针对上述情况，在本发明实施例中，互动场景服务器获取第一客户端的客户端参数，并根据客户端参数调整音频混合机制。具体地，客户端参数可为用户输入的人工调整参数，或为第一客户端的性能参数。当客户端参数满足设定的参数条件，如人工调整参数低于设定的人工调整阈值，或性能参数低于设定的性能阈值时，互动场景服务器将互动场景音频和第一通话音频进行混合，得到混合音频，并将混合音频及互动场景视频发送至第一客户端，以使第一客户端输出混合音频，同时基于互动场景视频同步输出画面。通过上述方式实现了两种音频混合机制的调整，提升了对实际应用场景的适用性。

通过发明实施例对于图3的上述示例性实施可知，本发明实施例通过互动场景服务器转发第一通话音频，使混合第一通话音频和互动场景音频的操作在第一客户端内完成，减少了第一通话音频在传输过程中的损耗，提升了客户端最终输出声音的音质，并且通过同步输出音画，提升了客户端的多媒体展示效果。

下面，将说明本发明实施例在实际的应用场景中的示例性应用。

参见图4，图4是本发明实施例提供的云游戏场景的一个可选的架构示意图，图4将云游戏场景作为互动场景，示出了终端设备以及与终端设备存在网络连接的云端游戏平台，其中，终端设备如个人计算机(Personal Computer，PC)、电视及手机等，云端游戏平台即为上文的互动场景服务器。在图4中，终端设备具备输入控制指令、网络传输及解码视频三种基础功能即可，无需巨大的计算能力来渲染画面，也无需将游戏文件下载到本地，而云端游戏平台负责所有高计算量的游戏的核心功能运行，其中，控制指令即上文的操作事件。具体地，终端设备将用户的控制指令输入至云端游戏平台，云端游戏平台理解控制指令，并按照游戏逻辑确定对应的至少两帧画面，渲染至少两帧画面，对渲染的画面进行视频流捕捉得到视频，再对视频进行编码，将编码后的视频发送至终端设备，终端设备对视频进行解码后，即可显示视频，例如在屏幕中显示视频，其中，游戏逻辑即为上文的互动场景逻辑。

参见图5A，图5A是本发明实施例提供的云游戏场景的下行架构的比对示意图，下行是指服务器将音频发送至客户端的过程，在应用相关技术提供的方案的优化前架构中，语音服务器将玩家A通话音频进行编码，并将编码后的玩家A通话音频发送至云游戏玩家B服务器，云游戏玩家B服务器即为上文的互动场景服务器。云游戏玩家B服务器解码得到玩家A通话音频，并将玩家A通话音频与游戏音频进行混合，得到混合音频，其中，游戏音频即为上文的用于响应操作事件的互动场景音频，具体可为用于响应操作事件的游戏音效。云游戏玩家B服务器将编码后的混合音频发送至云游戏玩家B客户端，云游戏玩家B客户端解码得到混合音频，并输出混合音频。在相关技术提供的方案中，由于音频经过了两次编解码，损耗过多，导致云游戏玩家B客户端得到的混合音频的音质差，展示效果差。

在应用本发明实施例的多媒体处理方法的优化后架构中，语音服务器存在两种发送方式，第一种是不对玩家A通话音频进行编码，而是直接将其发送至云游戏玩家B服务器；第二种是语音服务器与云游戏玩家B客户端建立通信连接，如此，语音服务器对玩家A通话音频进行编码后，并不经过云游戏玩家B服务器，而是将编码后的玩家A通话音频直接发送至云游戏玩家B客户端。对于第一种方式，云游戏玩家B服务器在获取到玩家A通话音频后，对其进行编码，并将编码后的玩家A通话音频发送至云游戏玩家B客户端。另外，对于游戏音频，云游戏玩家B服务器进行单独编码，并将其发送至云游戏玩家B客户端。云游戏玩家B客户端将解码后的玩家A通话音频及游戏音频进行混合，并输出声音。由于音频仅经过了一次编解码，有效地减少了损耗，提升了输出声音的音质，并且能够单独调整玩家A通话音频的音量或游戏音频的音量。

参见图5B，图5B是本发明实施例提供的云游戏场景的上行架构的比对示意图，上行是指客户端将音频发送至服务器的过程，以玩家A为云游戏玩家为例，在应用相关技术提供的方案的优化前架构中，云游戏玩家A客户端将通话音频发送至云游戏玩家A服务器，云游戏玩家A服务器根据内部的语音引擎解析通话音频，并将通话音频发送至语音服务器，语音服务器再对通话音频进行中转，其中，云游戏玩家A服务器同样为上文的互动场景服务器。由于通话音频在云游戏玩家A服务器进行了解析及转发，需要耗费一定时长，导致发送通话音频的网络延迟较高。

在应用本发明实施例的多媒体处理方法的优化后架构中，云游戏玩家A客户端与语音服务器建立了通信连接，如此，云游戏玩家A客户端将通话音频直接发送至语音服务器，降低了发送通话音频的网络延迟。

参见图6A，图6A是本发明实施例提供的云游戏客户端的上行模块示意图，在图6A中，示出了通话音频输入模块、通话音频上传通信模块以及上行配置模块，其中，通话音频输入模块用于将采集的玩家通话音频从模拟信号转化为数字信号，便于传输；通话音频上传通信模块用于与服务器通信，并向服务器上传通话音频，通信对象可为云游戏服务器(互动场景服务器)，也可为语音服务器；上行配置模块用于配置通话音频上传通信模块的接收方，即服务器的地址信息。

参见图6B，图6B是本发明实施例提供的云游戏客户端的下行模块示意图，云游戏客户端的下行是指云游戏客户端从服务器获取音频的过程，在图6B中，示出了通话音频下行通信模块、下行配置模块、客户端语音引擎、游戏音频通信模块以及音频输出模块，其中，通话音频下行通信模块用于与服务器通信，从服务器获取通话音频，通信对象可为云游戏服务器，也可为语音服务器；下行配置模块用于配置通话音频下行通信模块的发送方，即服务器的地址信息；客户端语音引擎用于解析通话音频及游戏音频，并对通话音频及游戏音频进行混合，上述的解析包括解码；游戏音频通信模块用于从云游戏服务器获取游戏音频；音频输出模块用于播放音频。值得说明的是，本文中的语音即为通话音频。

参见图6C，图6C是本发明实施例提供的云游戏服务器的模块示意图，在图6B中，示出了玩家操作事件通信模块、游戏音频引擎、游戏音频通信模块、语音引擎以及语音通信配置模块，其中，玩家操作事件通信模块用于获取玩家的操作事件；游戏音频引擎用于根据玩家的操作事件，得到对应的游戏音频，并进行编码处理；游戏音频通信模块用于将编码完成的游戏音频，发送给云游戏客户端；云游戏服务器中的语音引擎与图6B中的客户端语音引擎不同，具体用于判断通话音频对应的客户端为本地客户端还是云游戏客户端，从而根据判断结果优化通信链路；语音通信配置模块用于向云游戏客户端及语音服务器同步与通话音频相关的通信配置。值得说明的是，语音引擎可通过判断通话音频对应的客户端是否具有设定信息，来确定客户端的种类，例如，当通话音频对应的客户端的设备标识为设定标识时，将该客户端确定为云游戏客户端。此外，由于云游戏客户端具有模拟输入及模拟输出的特性，故语音引擎还可通过确定客户端的输入输出是否为模拟，来判断客户端是否为云游戏客户端，例如，客户端的输入是实体鼠标及键盘，输出是实体的显示器，那么输入输出就不是模拟的，将该客户端确定为本地客户端。当根据语音引擎确定客户端为云游戏客户端时，云游戏服务器根据语音通信配置模块优化通信链路，具体内容在后文进行阐述。

参见图7A，图7A是本发明实施例提供的通话音频的接收方的配置示意图，为了便于理解，以编号形式进行说明。

在①中，云游戏服务器在获取到通话音频后，根据内部的语音引擎，确定作为通话音频的目标的客户端。

在②中，当确定通话音频的目标为本地客户端时，云游戏服务器通过语音通信配置模块，将该本地客户端的地址信息发送至语音服务器，从而将语音服务器的通信接收方配置为该本地客户端；当确定通话音频的目标为云游戏客户端时，云游戏服务器通过语音通信配置模块，将该云游戏客户端的地址信息发送至语音服务器，从而将语音服务器的通信接收方配置为该云游戏客户端，并继续执行后续步骤。

在③中，云游戏服务器通过语音通信配置模块，将语音服务器的地址信息发送至云游戏客户端的下行配置模块，从而将云游戏客户端的通信发送方配置为语音服务器。值得说明的是，在通话音频的目标为云游戏客户端时，上述的②和③并不存在顺序的先后关系。

在④中，云游戏客户端通过内部的下行配置模块，与语音服务器建立通信连接，建立的通信连接可为TCP连接或UDP连接等，通信连接的建立请求可由云游戏客户端发起，也可由语音服务器发起。如此，语音服务器可通过通信连接，将通话音频直接发送至云游戏客户端，而不经过云游戏服务器的中转，从而减少通话音频在传输过程中的损耗，提升音质。

参见图7B，图7B是本发明实施例提供的通话音频的发送方的配置示意图，为了便于理解，以编号形式进行说明。

在①中，云游戏服务器在获取到通话音频后，根据内部的语音引擎，确定作为通话音频的来源的客户端。

在②中，当确定通话音频的来源为本地客户端时，云游戏服务器通过语音通信配置模块，将该本地客户端的地址信息发送至语音服务器，从而将语音服务器的通信发送方配置为该本地客户端；当确定通话音频的来源为云游戏客户端时，云游戏服务器通过语音通信配置模块，将该云游戏客户端的地址信息发送至语音服务器，从而将语音服务器的通信发送方配置为该云游戏客户端，并继续执行后续步骤。

在③中，云游戏服务器通过语音通信配置模块，将语音服务器的地址信息发送至云游戏客户端的上行配置模块，从而将云游戏客户端的通信接收方配置为语音服务器。值得说明的是，在通话音频的来源为云游戏客户端时，上述的②和③并不存在顺序的先后关系。

在④中，云游戏客户端通过内部的上行配置模块，与语音服务器建立通信连接，建立的通信连接可为TCP连接或UDP连接等，通信连接的建立请求可由云游戏客户端发起，也可由语音服务器发起。如此，云游戏客户端可通过通信连接，直接将通话音频发送至语音服务器，而不经过云游戏服务器的中转，从而降低发送通话音频的网络延迟。

参见图8A，图8A是本发明实施例提供的云游戏客户端的下行通信示意图，在图8A中，云游戏客户端的下行配置模块配置了云游戏客户端与语音服务器之间的通信连接，在第一步，云游戏客户端通过通话音频下行通信模块，从语音服务器获取通话音频，并将通话音频输入至客户端语音引擎；云游戏客户端通过游戏音频通信模块，从云游戏服务器获取游戏音频，并将游戏音频输入至客户端语音引擎。在第二步，云游戏客户端通过客户端语音引擎，将通话音频与游戏音频进行混合，将混合后的音频输入至音频输出模块。在第三步，通过音频输出模块输出混合后的音频。通过上述方式，在云游戏客户端内进行通话音频与游戏音频的混合，减少了音频的损耗，提升了客户端输出声音的音质。

参见图8B，图8B是本发明实施例提供的云游戏客户端的上行通信示意图，在图8B中，云游戏客户端通过通话音频输入模块得到通话音频，并通过通话音频上传通信模块，将通话音频发送至语音服务器，从而减少发送通话音频的网络延迟。

下面继续说明本发明实施例提供的互动场景中的多媒体处理装置255实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250中的互动场景中的多媒体处理装置255中的软件模块可以包括：操作获取模块2551，用于获取第一客户端在互动场景中实施的操作事件；第一发送模块2552，用于获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景视频，并将所述互动场景音频及所述互动场景视频发送至所述第一客户端；第一语音获取模块2553，用于通过语音服务器获取参与所述互动场景的第二客户端采集的第一通话音频，所述第一通话音频的目标为所述第一客户端；第二发送模块2554，用于将所述第一通话音频发送至所述第一客户端，以使所述第一客户端将所述互动场景音频和所述第一通话音频进行混合后输出声音，并基于所述互动场景视频同步输出画面。

在一些实施例中，互动场景中的多媒体处理装置255还包括：第一连接模块，用于将所述第一客户端的地址信息发送至所述语音服务器，将所述语音服务器的地址信息发送至所述第一客户端，以使所述第一客户端与所述语音服务器基于各自接收的地址信息，建立所述第一客户端与所述服务器之间的通信连接，所述通信连接用于传输所述第一通话音频。

在一些实施例中，互动场景中的多媒体处理装置255还包括：第二语音获取模块，用于获取参与所述互动场景的所述第一客户端采集的第二通话音频，所述第二通话音频的目标为所述第二客户端；语音转发模块，用于将所述第二通话音频发送至所述语音服务器，以使所述语音服务器将所述第二通话音频发送至所述第二客户端。

在一些实施例中，互动场景中的多媒体处理装置255还包括：第二连接模块，用于将所述第一客户端的地址信息发送至所述语音服务器，将所述语音服务器的地址信息发送至所述第一客户端，以使所述第一客户端与所述语音服务器基于各自接收的地址信息，建立所述第一客户端与所述服务器之间的通信连接，所述通信连接用于传输所述第二通话音频。

在一些实施例中，第二发送模块2554还用于：对语音引擎进行复制，并将复制的所述语音引擎发送至所述第一客户端，所述语音引擎用于对所述语音服务器加密的所述第一通话音频进行解密；将加密的所述第一通话音频发送至所述第一客户端。

在一些实施例中，第一发送模块2552还用于：对所述互动场景音频进行编码处理，并将编码后的所述互动场景音频发送至所述第一客户端，以使所述第一客户端对编码后的所述互动场景音频进行解码；对所述互动场景视频进行编码处理，并将编码后的所述互动场景视频发送至所述第一客户端，以使所述第一客户端对编码后的所述互动场景视频进行解码；

第二发送模块2554还用于：对所述第一通话音频进行编码处理，并将编码后的所述第一通话音频发送至所述第一客户端，以使所述第一客户端对编码后的所述第一通话音频进行解码。

在一些实施例中，第一发送模块2552还用于：根据设定的互动场景逻辑，获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景画面；渲染所述互动场景画面，并对渲染的至少两帧所述互动场景画面进行视频流捕捉，得到互动场景视频。

在一些实施例中，互动场景中的多媒体处理装置255还包括：参数获取模块，用于获取所述第一客户端的客户端参数；混合模块，用于当所述客户端参数满足设定的参数条件时，将所述互动场景音频和所述第一通话音频进行混合，得到混合音频；第三发送模块，用于将所述混合音频及所述互动场景视频发送至所述第一客户端，以使所述第一客户端输出所述混合音频，并基于所述互动场景视频同步输出画面。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图3示出的互动场景中的多媒体处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例减少了音频中转的复杂度，从而减少了音频传输的网络延迟，使得音频能够更快速地到达客户端，实现快速响应，同时，减少了音频在传输过程中的损耗，提升了客户端最终输出声音的音质，另外，通过传输互动场景视频，实现了音画同步输出，提升了多媒体展示效果，提升了用户体验。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种互动场景中的多媒体处理方法，其特征在于，包括：

获取第一客户端在互动场景中实施的操作事件；

将所述第一通话音频发送至所述第一客户端，以使

2.根据权利要求1所述的多媒体处理方法，其特征在于，还包括：

将所述第一客户端的地址信息发送至所述语音服务器，将所述语音服务器的地址信息发送至所述第一客户端，以使

所述第一客户端与所述语音服务器基于各自接收的地址信息，建立所述第一客户端与所述服务器之间的通信连接，所述通信连接用于传输所述第一通话音频。

3.根据权利要求1所述的多媒体处理方法，其特征在于，还包括：

获取参与所述互动场景的所述第一客户端采集的第二通话音频，所述第二通话音频的目标为所述第二客户端；

将所述第二通话音频发送至所述语音服务器，以使所述语音服务器将所述第二通话音频发送至所述第二客户端。

4.根据权利要求3所述的多媒体处理方法，其特征在于，还包括：

所述第一客户端与所述语音服务器基于各自接收的地址信息，建立所述第一客户端与所述服务器之间的通信连接，所述通信连接用于传输所述第二通话音频。

5.根据权利要求1所述的多媒体处理方法，其特征在于，所述将所述第一通话音频发送至所述第一客户端，包括：

对语音引擎进行复制，并将复制的所述语音引擎发送至所述第一客户端，所述语音引擎用于对所述语音服务器加密的所述第一通话音频进行解密；

将加密的所述第一通话音频发送至所述第一客户端。

6.根据权利要求1所述的多媒体处理方法，其特征在于，

所述将所述互动场景音频及所述互动场景视频发送至所述第一客户端，包括：

对所述互动场景音频进行编码处理，并将编码后的所述互动场景音频发送至所述第一客户端，以使所述第一客户端对编码后的所述互动场景音频进行解码；

对所述互动场景视频进行编码处理，并将编码后的所述互动场景视频发送至所述第一客户端，以使所述第一客户端对编码后的所述互动场景视频进行解码；

所述将所述第一通话音频发送至所述第一客户端，包括：

对所述第一通话音频进行编码处理，并将编码后的所述第一通话音频发送至所述第一客户端，以使所述第一客户端对编码后的所述第一通话音频进行解码。

7.根据权利要求1所述的多媒体处理方法，其特征在于，所述获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景视频，包括：

根据设定的互动场景逻辑，获取所述互动场景中用于响应所述操作事件的互动场景音频和互动场景画面；

渲染所述互动场景画面，并对渲染的至少两帧所述互动场景画面进行视频流捕捉，得到互动场景视频。

8.根据权利要求1至7任一项所述的多媒体处理方法，其特征在于，还包括：

获取所述第一客户端的客户端参数；

当所述客户端参数满足设定的参数条件时，将所述互动场景音频和所述第一通话音频进行混合，得到混合音频；

将所述混合音频及所述互动场景视频发送至所述第一客户端，以使

所述第一客户端输出所述混合音频，并基于所述互动场景视频同步输出画面。

9.一种互动场景中的多媒体处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任一项所述的多媒体处理方法。