CN118042176A

CN118042176A - 一种音视频的云渲染方法及装置

Info

Publication number: CN118042176A
Application number: CN202410165219.0A
Authority: CN
Inventors: 廖炜; 王志鹏
Original assignee: Beijing Wuyi Vision Digital Twin Technology Co ltd
Current assignee: Beijing Wuyi Vision Digital Twin Technology Co ltd
Priority date: 2023-12-27
Filing date: 2024-02-05
Publication date: 2024-05-14

Abstract

本公开涉及一种音视频的云渲染方法及装置。该方法包括：获取音视频设备的原始音视频数据；将原始音视频数据与主场景融合，得到融合后的音视频数据；将融合后的音视频数据发送至播放设备。本公开的方案通过对原始音视频数据与主场景融合，降低云渲染难度，实现音视频特效的动态扩展，从而解决了现有技术中音视频的云渲染服务开发难度大，不具备动态扩展视频和音频特效能力的问题。通过在云端进行音视频数据的处理、融合、编码，并最终将处理好的数据传输至客户端。使得复杂的渲染工作由服务器承担，而客户端只需负责播放，从而降低了对客户端硬件的要求，并提供更高质量的音视频内容。

Description

一种音视频的云渲染方法及装置

本申请要求于2023年12月27日提交中国国知局，申请号为2023118214856，发明名称为“一种音视频的云渲染方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及云渲染技术领域，尤其涉及一种音视频的云渲染方法及装置。

背景技术

现有技术对音视频的云渲染处理通常是将3D图形渲染任务交给云端服务器完成，并通过云端服务器实现音视频编码后，利用流媒体传输协议，将渲染后的音视频数据传输给客户端，从而实现对远程渲染场景的实时操作。并且当前云渲染只能对场景渲染、画面编码和音视频传输等简单服务，基本通过读取本地多媒体文件的方式获取并融合进主场景中，该实现方式极大地提高了云渲染服务的开发难度，不具备动态扩展视频和音频特效，已经无法满足客户对数字孪生在各行业应用的需求。

因此，如何找到一种提高扩展音视频特效能力，降低云渲染难度的音视频的云渲染的方法，成为本领域技术人员亟待解决的技术问题。

发明内容

本公开实施例的目的是提供一种音视频的云渲染方法及装置，以解决现有技术中音视频的云渲染服务开发难度大，不具备动态扩展视频和音频特效能力的问题。

第一方面，本公开实施例提供了一种音视频的云渲染方法，该方法用于云渲染服务器，包括：获取音视频设备的原始音视频数据；将原始音视频数据与主场景融合，得到融合后的音视频数据；将融合后的音视频数据发送至播放设备。

可选的，获取音视频设备的原始音视频数据，包括：基于流媒体协议，从音视频设备中拉取原始音视频数据；或，接收流媒体转发服务器转发的原始音视频数据。

可选的，获取音视频设备的原始音视频数据，包括：使用基于流媒体技术的远程实时通信软件，接收音视频设备使用远程实时通信软件向云渲染服务器推流的原始音视频数据。

可选的，原始音视频数据包括原始视频流和原始音频流；主场景包括主场景音频和主场景画面；将原始音视频数据与主场景融合，包括：将原始视频流与主场景画面结合，并且将原始视频流中的元素叠加到主场景中；将原始音频流与主场景音频混音。

可选的，将原始音视频数据与主场景融合，得到融合后的音视频数据，包括：基于机器学习模型，将原始音视频数据与主场景进行融合，得到融合后的音视频数据。

可选的，将原始音视频数据与主场景融合，得到融合后的音视频数据之前，还包括：从云渲染服务器调用所述主场景画面；或，基于计算机图形技术，根据实时数据实时生成主场景画面；或，将用户上传的视频或图像作为主场景画面；或，通过与第三方服务集成，生成主场景画面。

可选的，将融合后的音视频数据发送至播放设备，包括：对融合后的音视频数据进行编码；使用实时流媒体传输协议将编码后的音视频数据传输至播放设备。

第二方面，本公开实施例提供了一种音视频的云渲染装置，该装置包括：获取模块，用于获取音视频设备的原始音视频数据；融合模块，用于将原始音视频数据与主场景融合，得到融合后的音视频数据；发送模块，用于将融合后的音视频数据发送至播放设备。

可选的，获取模块用于获取音视频设备的原始音视频数据，具体为：获取模块用于：基于流媒体协议，从音视频设备中拉取原始音视频数据；或，接收流媒体转发服务器转发的原始音视频数据。

可选的，获取模块用于获取音视频设备的原始音视频数据，具体为：获取模块用于：使用基于流媒体技术的远程实时通信软件，接收音视频设备使用远程实时通信软件向云渲染服务器推流的原始音视频数据。

可选的，原始音视频数据包括原始视频流和原始音频流；主场景包括主场景音频和主场景画面；融合模块用于将原始音视频数据与主场景融合，具体为：融合模块用于：将原始视频流与主场景画面结合，并且将原始视频流中的元素叠加到主场景中；将原始音频流与主场景音频混音。

可选的，融合模块用于将原始音视频数据与主场景融合，得到融合后的音视频数据，具体为：融合模块用于：基于机器学习模型，将原始音视频数据与主场景进行融合，得到融合后的音视频数据。

可选的，融合模块还用于：从云渲染服务器调用所述主场景画面；或，基于计算机图形技术，根据实时数据实时生成主场景画面；或，将用户上传的视频或图像作为主场景画面；或，通过与第三方服务集成，生成主场景画面。

可选的，发送模块用于将融合后的音视频数据发送至播放设备，具体为：发送模块用于：对融合后的音视频数据进行编码；使用实时流媒体传输协议将编码后的音视频数据传输至播放设备。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器；存储器用于存储计算机程序；处理器用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现上述第一方面的方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被执行时，实现上述第一方面的方法。

本公开的上述方案至少包括以下有益效果：

本公开的方案中，云渲染服务器可以获取音视频设备的原始音视频数据；将原始音视频数据与主场景融合，得到融合后的音视频数据；将融合后的音视频数据发送至播放设备。可见，本公开的方案通过对原始音视频数据与主场景融合，降低了云渲染难度，实现了音视频特效的动态扩展，从而解决了现有技术中音视频的云渲染服务开发难度大，不具备动态扩展视频和音频特效能力的问题。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种音视频的云渲染方法的流程示意图；

图2是本公开实施例提供的一种音视频的云渲染装置的结构示意图；

图3是本公开实施例提供的一种电子设备的结构框图；

图4是本公开实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开的说明书中所描述的数字三维场景是指一种高度逼真的地形环境，用于各类仿真、可视化和游戏开发等应用。数字三维场景融合了图形渲染技术，以达到预期的视觉效果和交互性，其具有以下核心特征：

真实地形模拟：数字三维场景包含了从真实世界数据(如卫星图像和地形测量数据)生成的地形。地形特征包括山脉、谷地、平原和河流，以呈现自然地形的真实感。

动态环境元素：数字三维场景中的环境元素如天气、光照和季节变化都是动态的。例如，模拟日夜更替、云层流动、雨水侵蚀以及季节性植被变化，这些元素都能实时响应用户的交互。

高级图形效果：运用了图形技术，如光线追踪、基于物理的渲染(PBR，Physically-Based-Rendering)、高动态范围成像(HDR，High Dynamic Range Imaging)和阴影映射技术，提供视觉细节和深度。

交互性和可探索性：用户可以自由地在数字三维场景中移动，探索不同的地形和环境。支持各种交互方式，包括步行、驾车或飞行模式。

生态系统模拟：数字三维场景中包含了动植物生态系统的模拟，动物的行为和植被的生长都是基于真实世界的模型和数据。

可定制性：数字三维场景提供可定制性，允许用户根据特定需求调整地形、植被、环境条件等，适用于定制化的仿真需求。

应用领域：

-教育和训练：可用于地理、环境科学和军事训练的教育目的。

-游戏开发：为游戏开发者提供丰富、逼真的环境，增强游戏的沉浸感。

-城市规划和景观设计：帮助设计师和规划师可视化新的建筑项目或景观改造。

-影视制作：为影视制作提供高质量的背景场景。

在数字三维场景中会涉及音视频的渲染，现有技术中，可以通过云渲染的方式，对数字三维场景中的音视频进行渲染。其中，对音视频的云渲染处理通常是将3D图形渲染任务交给云端服务器完成，并通过云端服务器实现音视频编码后，利用流媒体传输协议，将渲染后的音视频数据传输给客户端，从而实现对远程渲染场景的实时操作。并且当前云渲染只能对场景渲染、画面编码和音视频传输等简单服务，基本通过读取本地多媒体文件的方式获取并融合进主场景中，该实现方式极大地提高了云渲染服务的开发难度，不具备动态扩展视频和音频特效，已经无法满足客户对数字孪生在各行业应用的需求。

为了提高扩展音视频特效的能力，并且降低云渲染难度，本公开提供了一种音视频的云渲染方法及装置。

本公开的说明书中所描述的视频和音频特效主要指的是通过软件增加的视觉和听觉效果，用以增强视频和音频内容的表现力和吸引力。具体内容包括：

视觉增强：如颜色校正、亮度调整、对比度增强等，可以使画面更加生动。

动态效果：例如过渡动画、缩放、旋转等动态变化。

特殊效果：如虚拟背景、绿幕技术、特殊滤镜等，这些效果可以创造出不同的视觉环境和风格。

图文叠加：在视频中加入文字说明、标签或者图标等。

声音调整：如音量调整、声道平衡、音调调整等。

音效增加：添加背景音乐、声音效果(如回声、混响)等，以增强听觉体验。

噪音抑制：减少背景噪声，提高语音清晰度。

音频编辑：剪辑、合并、分割音频文件，以创造出所需的音频效果。

应用场景包括：虚拟现实直播、云游戏、在线教育、远程会议等。

下面结合附图，通过具体的实施例及其应用场景对本公开实施例提供的音视频的云渲染方法及装置进行详细地说明。

参见图1，图1是本公开实施例提供的一种音视频的云渲染方法的流程示意图。该方法可以应用于终端设备、服务器或其它具有数据处理、图像处理和音频处理功能的设备等，例如云渲染服务器，本公开对此不进行限制。下面以云渲染服务器为例，对本公开的实施例进行说明。如图1所示，该方法可以包括以下步骤：

步骤101，获取音视频设备的原始音视频数据。

其中，上述音视频设备可以是远程或本地的通过网络与云渲染服务器(或称为云端服务器)连接的摄像头和麦克风等设备。获取音视频设备的原始音视频数据的方式可以是云端服务器利用流媒体协议拉取摄像头和麦克风等设备的视频和音频数据并进行解码。

具体的，对于支持流媒体协议的摄像头和麦克风等设备，云渲染服务器可以直接通过这些设备支持的流媒体协议来拉取音视频实时流，或者这些音视频设备可以将音视频实时流通过流媒体转发服务器转发至云渲染服务器。也就是说，对于支持流媒体协议的音视频设备，云渲染服务器可以基于流媒体协议，从音视频设备拉取音视频设备的原始音视频数据。或者，音视频设备还可以基于流媒体协议，将音视频设备的原始音视频数据发送给流媒体转发服务器，然后流媒体转发服务器将音视频设备的原始音视频数据转发给云渲染服务器，即，云渲染服务器可以接收流媒体转发服务器转发的音视频设备向其发送的原始音视频数据。之后，在云渲染服务器，这些音视频流会被解码和后处理。

对于不支持流媒体协议的摄像头和麦克风等设备，可以是使用一套基于流媒体技术的远程实时通信软件对这些音视频设备进行音视频采集和编码，并向服务器端推流。云渲染服务器则利用这套软件开发套件来拉取这些音视频实时流，再进行解码和后处理。也就是说，对于不支持流媒体协议的音视频设备，音视频设备可以使用基于流媒体技术的远程实时通信软件，将音视频设备的原始音视频数据推流给云渲染服务器。相应地，云渲染服务器可以使用该远程实时通信软件接收音视频设备向其推流的原始音视频数据。

其中，后处理可以是在云渲染服务器对解码出的原始音视频流进行场景融合(音视频流融合)、编码、推流。从而确保音视频数据与主场景的无缝融合，提供更加逼真和沉浸的观看体验。

步骤102，将原始音视频数据与主场景融合，得到融合后的音视频数据。

其中，原始音视频数据与主场景融合的融合方式可以是：通过云渲染服务器对原始音视频数据和主场景的音视频数据进行场景融合(例如图像叠加、颜色和光照调整、动态场景适应等)、音频混合、编码和传输等。

可选地，原始音视频数据可以包括原始视频流。基于此，将原始音视频数据与主场景的音视频数据进行场景融合，可以按照下述方式实现：对原始视频流进行解码；将解码出的原始视频流与主场景画面结合，生成新的视频画面；将解码出的原始视频流中的对象、人物或其他元素叠加到主场景中。也就是说，在将原始音视频数据与主场景融合时，可以将原始音视频数据包括的原始视频流与主场景画面结合，并且将原始视频流中的元素叠加到主场景中。

可选地，将解码出的原始视频流与主场景画面结合的结合方式可以包括图像叠加、颜色校正、画面调整等。确保原始视频流中的元素与主场景在颜色和光照方面匹配，以提供自然的视觉效果。如果主场景是动态的或实时渲染的，原始视频流中的元素可能需要实时调整以适应场景变化。

可选地，原始音视频数据还可以包括原始音频流。对于原始音频流，与主场景融合的融合过程可能包括与主场景音频的混音，以创造一个新的音频轨道。也就是说，在将原始音视频数据与主场景融合时，还可以将原始音视频数据包括的原始音频流与主场景音频进行混音。混音方式可以是音量平衡、声音混合、添加音效、声音效果的调整和音频元素的结合等。具体可以包括以下步骤：确保原始音频流和主场景音频的音量水平相匹配，以避免任何突兀的音量变化。如果主场景音频包含特定的环境声音或音效，将原始音频流中的声音适当融合进入，以创造一个连贯的听觉体验。调整原始音频流中的特定频率，以改善声音质量或适应主场景的声学特性。确保原始音频流与原始视频流以及主场景的动态元素在时间上保持同步。这些混音策略可能是根据预设的参数、用户的选择或者根据音视频内容的自动分析来决定的。例如，如果主场景是一个嘈杂的城市街道，那么混音时可能会增加环境噪音；如果主场景是一个宁静的森林场景，则可能更强调自然声音。基于云渲染服务器进行融合，保障了算法效率和计算能力，减轻了客户端的负担。

步骤103，将融合后的音视频数据发送至播放设备。

可选地，在将融合后的音视频数据发送至播放设备之前，可以先对融合后的视频和音频数据(即融合后的音视频数据)进行编码，准备通过网络传输至播放设备，例如客户端。进一步地，可以使用实时流媒体传输协议将编码处理后的音视频数据传输至客户端。

本公开的实施例，通过获取音视频设备的原始音视频数据；将原始音视频数据与主场景融合，得到融合后的音视频数据；将融合后的音视频数据发送至播放设备。本公开的方案通过对原始音视频数据与主场景融合，降低云渲染难度，实现音视频特效的动态扩展，从而解决了现有技术中音视频的云渲染服务开发难度大，不具备动态扩展视频和音频特效能力的问题。通过在云端进行音视频数据的处理、融合、编码，并最终将处理好的数据传输至客户端。使得复杂的渲染工作由服务器承担，而客户端只需负责播放，从而降低了对客户端硬件的要求，并提供更高质量的音视频内容。

可选的，上述步骤102中将原始音视频数据与主场景融合中，主场景可以包括主场景音频和主场景画面。主场景音频可以是云渲染服务中用于与原始视频流融合的基础背景音乐。主场景画面可以是云渲染服务中用于与原始视频流融合的基础视觉环境或背景。例如主场景画面可以是一个预设或实时生成的视觉环境，该视觉环境可能是一个静态的背景、也可以是一个动态的场景，或者是通过计算机图形技术实时渲染的3D环境。主场景画面为用户提供了观看或互动的视觉上下文。

可选地，可以通过以下任意一种方式获取主场景画面：

可选地，主场景画面可以事先设计并存储在服务器上，则可以通过直接调用的方式，获取主场景画面。

可选地，还可以使用计算机图形技术根据实时数据或用户互动实时生成主场景画面。

可选地，还可以是用户上传自己的视频或图像作为主场景画面。

可选地，还可以与第三方服务集成，比如虚拟现实内容、游戏引擎等，生成主场景画面。

可选的，上述步骤102中将原始音视频数据与主场景融合，其中的融合过程可以是通过机器学习模型来实现。也就是说，还可以基于机器学习模型，将原始音视频数据与主场景进行融合，得到融合后的音视频数据。

可选地，通过机器学习模型实现融合的方式可以包括：使用深度学习驱动动态音视频融合，将实现音视频流与虚拟场景的高度逼真和动态融合作为该模型的训练目标。进一步地，首先使用卷积神经网络等深度神经网络对原始音视频数据与主场景的视频图像和音频进行特征提取。例如提取视频数据中的颜色、纹理、物体边缘等数据，音频数据中的节奏、音高、音色等数据。再基于机器学习技术理解主场景的内容和环境特征。

例如使用场景感知算法分析主场景的光照、空间布局、场景动态等环境特征。进而使用高效的渲染引擎实现实时视频场景合成。可选地，视频场景合成可以是根据主场景特征调整视频流的光照匹配、色彩调和等视觉属性。根据场景音效和环境声学特性调整混响、空间音效模拟调整音频流进行融合预处理。再采用实时渲染技术动态合成视频流与主场景，并同步处理音视频，进行动态融合。通过深度学习驱动的特征提取和场景解析，提高融合的逼真度和动态响应。同时，实时渲染和音视频同步处理技术，可以达到适应复杂的应用场景的技术效果。

可选的，本公开的音视频的云渲染方法还包括：云端存储设备接收音视频文件并保存，在收到点播指令的情况下，将保存的音视频文件传输至播放设备。

具体的，用户可以将音视频文件上传至云端存储设备进行保存，并利用点播功能从流媒体点播服务器拉取指定多媒体文件的音视频实时流。之后，在云渲染服务器进行音视频的解码和后处理。

上述云端存储设备可以是内部流媒体点播服务器。普通服务器相比，内部流媒体点播服务器特别设计用于处理流媒体内容，如视频和音频文件的存储、管理和传输。这些内部流媒体点播服务器通常优化了对大型媒体文件的处理能力、流媒体数据的快速检索和传输效率，以及对多用户请求的同时处理能力。还可以对视频和音频数据的特殊编码和解码支持，以及高效的网络传输协议，以确保高质量的音视频播放体验。

上述内部流媒体点播服务器与上述云渲染服务器互相独立并建立通信关系，实际应用中，用户通过点播服务器请求和拉取音视频数据；然后，这些音视频数据被传输到云渲染服务端进行后处理。在这个过程中，点播服务器主要负责音视频内容的存储和传输，而云渲染服务端则负责音视频内容的进一步处理和优化。

可以理解的是，上述实施例仅为示例，实际实施时可以对上述实施例进行变形，本领域技术人员可以理解，上述实施例不用付出创造性劳动的变形方法均落入本公开的保护范围，实施例中不再赘述。

上述所有可选技术方案，可以相互借鉴或结合，形成本公开的可选实施例，在此不再一一赘述。

基于同一发明构思，本公开实施例还提供了一种音视频的云渲染装置，由于音视频的云渲染装置所解决问题的原理与前述音视频的云渲染方法相似，因此音视频的云渲染装置的实施可以参见前述音视频的云渲染方法的实施，重复之处不再赘述。

图2是本公开实施例提供的一种音视频的云渲染装置200的结构示意图，如图2所示，该装置200包括：

获取模块201，用于获取音视频设备的原始音视频数据。

融合模块202，用于将上述原始音视频数据与主场景融合，得到融合后的音视频数据。

发送模块203，用于将上述融合后的音视频数据发送至播放设备。

可选的，获取模块201用于获取音视频设备的原始音视频数据，具体为：获取模块201用于：基于流媒体协议，从音视频设备中拉取原始音视频数据；或，接收流媒体转发服务器转发的原始音视频数据。

可选的，获取模块201用于获取音视频设备的原始音视频数据，具体为：获取模块201用于：使用基于流媒体技术的远程实时通信软件，接收音视频设备使用远程实时通信软件向云渲染服务器推流的原始音视频数据。

可选的，原始音视频数据包括原始视频流和原始音频流；主场景包括主场景音频和主场景画面；融合模块202用于将原始音视频数据与主场景融合，具体为：融合模块202用于：将原始视频流与主场景画面结合，并且将原始视频流中的元素叠加到主场景中；将原始音频流与主场景音频混音。

可选的，融合模块202用于将原始音视频数据与主场景融合，得到融合后的音视频数据，具体为：融合模块202用于：基于机器学习模型，将原始音视频数据与主场景进行融合，得到融合后的音视频数据。

可选的，融合模块202还用于：从云渲染服务器调用所述主场景画面；或，基于计算机图形技术，根据实时数据实时生成主场景画面；或，将用户上传的视频或图像作为主场景画面；或，通过与第三方服务集成，生成主场景画面。

可选的，发送模块203用于将融合后的音视频数据发送至播放设备，具体为：发送模块203用于：对融合后的音视频数据进行编码；使用实时流媒体传输协议将编码后的音视频数据传输至播放设备。

需要说明的是：上述实施例提供的一种音视频的云渲染装置仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音视频的云渲染处理装置与音视频的云渲染处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本公开实施例中的一种音视频的云渲染装置可以是虚拟装置，也可以是服务器或者终端中的部件、集成电路或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本公开实施例不作具体限定。

本公开实施例中的一种音视频的云渲染装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本公开实施例不作具体限定。

本公开实施例提供的一种音视频的云渲染装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

本公开实施例还提供一种电子设备，参见图3，图3为本公开实施例提供的一种电子设备的结构框图。如图3所示，该电子设备300可以包括处理器301，存储器302，存储在存储器302上并可在处理器301上运行的程序或指令，该程序或指令被处理器301执行时实现上述音视频的云渲染方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。需要说明的是，本公开实施例中的电子设备包括移动电子设备和非移动电子设备。

图4为实现本公开实施例的一种电子设备的硬件结构示意图。

该电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、以及处理器410等部件。

本领域技术人员可以理解，电子设备400还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

应理解的是，本公开实施例中，输入单元404可以包括图形处理器(GraphicsProcessing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器409可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，在该计算机程序被处理器执行时实现上述音视频的云渲染方法实施例的各个过程，且能达到相同的技术效果，为避免重复，此处不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等。

本公开实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述音视频的云渲染方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本公开实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本公开是参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。本公开并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本公开的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围，其均应涵盖在本公开的权利要求和说明书的范围当中。

Claims

1.一种音视频的云渲染方法，其特征在于，所述方法用于云渲染服务器，所述方法包括：

获取音视频设备的原始音视频数据；

将所述原始音视频数据与主场景融合，得到融合后的音视频数据；

将所述融合后的音视频数据发送至播放设备。

2.根据权利要求1所述的音视频的云渲染方法，其特征在于，获取音视频设备的原始音视频数据，包括：

基于流媒体协议，从所述音视频设备中拉取所述原始音视频数据；

或，接收流媒体转发服务器转发的所述原始音视频数据。

3.根据权利要求1所述的音视频的云渲染方法，其特征在于，获取音视频设备的原始音视频数据，包括：

使用基于流媒体技术的远程实时通信软件，接收所述音视频设备使用所述远程实时通信软件向所述云渲染服务器推流的所述原始音视频数据。

4.根据权利要求1至3任一项所述的音视频的云渲染方法，其特征在于，所述原始音视频数据包括原始视频流和原始音频流；所述主场景包括主场景音频和主场景画面；

将所述原始音视频数据与主场景融合，包括：

将所述原始视频流与所述主场景画面结合，并且将所述原始视频流中的元素叠加到主场景中；

将所述原始音频流与所述主场景音频混音。

5.根据权利要求1至3任一项所述的音视频的云渲染方法，其特征在于，将所述原始音视频数据与主场景融合，得到融合后的音视频数据，包括：

基于机器学习模型，将所述原始音视频数据与所述主场景进行融合，得到融合后的音视频数据。

6.根据权利要求4所述的音视频的云渲染方法，其特征在于，将所述原始音视频数据与主场景融合，得到融合后的音视频数据之前，还包括：

从所述云渲染服务器调用所述主场景画面；

或，基于计算机图形技术，根据实时数据实时生成所述主场景画面；

或，将用户上传的视频或图像作为所述主场景画面；

或，通过与第三方服务集成，生成所述主场景画面。

7.根据权利要求1至3任一项所述的音视频的云渲染方法，其特征在于，将所述融合后的音视频数据发送至播放设备，包括：

对所述融合后的音视频数据进行编码；

使用实时流媒体传输协议将编码后的音视频数据传输至所述播放设备。

8.一种音视频的云渲染装置，其特征在于，所述装置包括：

获取模块，用于获取音视频设备的原始音视频数据；

融合模块，用于将所述原始音视频数据与主场景融合，得到融合后的音视频数据；

发送模块，用于将所述融合后的音视频数据发送至播放设备。

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被执行时，实现上述权利要求1至7中任意一项所述的方法。