CN115437598A

CN115437598A - 虚拟乐器的互动处理方法、装置及电子设备

Info

Publication number: CN115437598A
Application number: CN202110618725.7A
Authority: CN
Inventors: 王伟航
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-12-06
Also published as: WO2022252966A1; US20230090995A1

Abstract

本申请提供了一种虚拟乐器的互动处理方法、装置、电子设备及计算机可读存储介质；方法包括：播放实时拍摄的或预先录制的视频；在所述视频中显示至少一个虚拟乐器，其中，每个所述虚拟乐器与从所述视频中识别出的乐器图形素材的形状相似；根据每个所述乐器图形素材在所述视频中的相对运动情况，输出每个所述乐器图形素材对应的虚拟乐器的演奏音频。通过本申请，能够基于视频中与虚拟乐器类似的素材实现自动演奏音频的互动，增强视频表现力，丰富人机交互形式。

Description

虚拟乐器的互动处理方法、装置及电子设备

技术领域

本申请涉及互联网技术，尤其涉及一种虚拟乐器的互动处理方法、装置、电子设备及计算机可读存储介质。

背景技术

视频是重要的信息载体，尤其在互联网时代，基于视频的互动是重要的社交形式。为了适应彰显个性的社交需求，相关技术提供了各种方案来增强视频内容的表现力。

以分享视频为例，在分享之前，用户可以通过客户端提供的视频编辑功能对视频进行编辑，例如，人工在视频中添加音频以丰富视频的内容表现形式，但是，一方面，这种方式效率比较低，另一方案，受制于用户本身的视频编辑水平，以及可合成的音频的可选范围有限，从而导致编辑形成的视频的表现力也不理想。

发明内容

本申请实施例提供一种虚拟乐器的互动处理方法、装置、电子设备及计算机可读存储介质，能够基于视频中与虚拟乐器类似的素材实现自动演奏音频的互动，增强视频表现力，丰富人机交互形式。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种虚拟乐器的互动处理方法，包括：

播放实时拍摄的或预先录制的视频；

在所述视频中显示至少一个虚拟乐器，其中，每个所述虚拟乐器与从所述视频中识别出的乐器图形素材的形状相似；

根据每个所述乐器图形素材在所述视频中的相对运动情况，输出每个所述乐器图形素材对应的虚拟乐器的演奏音频。

本申请实施例提供一种虚拟乐器的互动处理装置，包括：

播放模块，用于播放实时拍摄的或预先录制的视频；

显示模块，用于在所述视频中显示至少一个虚拟乐器，其中，每个所述虚拟乐器与从所述视频中识别出的乐器图形素材的形状相似；

输出模块，用于根据每个所述乐器图形素材在所述视频中的相对运动情况，输出每个所述乐器图形素材对应的虚拟乐器的演奏音频。

在上述方案中，所述显示模块，还用于：针对所述视频中每个图像帧，执行以下处理：在所述图像帧中至少一个乐器图形素材的位置，叠加显示与所述至少一个乐器图形素材的形状相似的虚拟乐器，且所述乐器图形素材的轮廓与所述虚拟乐器的轮廓对齐。

在上述方案中，所述显示模块，还用于：当所述虚拟乐器包括多个部件、且所述视频中包括与所述多个部件一一对应的多个乐器图形素材时，针对每个所述虚拟乐器执行以下处理：在所述图像帧中叠加显示所述虚拟乐器的多个部件；其中，每个所述部件的轮廓与对应的乐器图形素材的轮廓重合。

在上述方案中，所述显示模块，还用于：针对所述视频中每个图像帧，执行以下处理：当所述图像帧包括至少一个乐器图形素材时，在所述图像帧之外的区域中显示与所述至少一个乐器图形素材的形状相似的虚拟乐器，并显示所述虚拟乐器与所述乐器图形素材的关联标识，其中，所述关联标识的包括以下至少之一：连线、文字提示。

在上述方案中，所述显示模块，还用于：当所述虚拟乐器包括多个部件、且所述视频中包括与所述多个部件一一对应的多个乐器图形素材时，针对每个所述虚拟乐器执行以下处理：在所述图像帧之外的区域中显示所述虚拟乐器的多个部件；其中，每个所述部件与所述图像帧中的乐器图形素材的形状相似，且所述多个部件之间的位置关系与对应的乐器图形素材在所述图像帧中的位置关系一致。

在上述方案中，所述显示模块，还用于：当所述视频中存在与多个候选虚拟乐器一一对应的多个乐器图形素材时，显示所述多个候选虚拟乐器的图像以及介绍信息；响应于针对所述多个候选虚拟乐器的选择操作，将被选择的至少一个候选虚拟乐器确定为将要用于在所述视频中显示的虚拟乐器。

在上述方案中，所述显示模块，还用于：当所述视频中存在至少一个乐器图形素材，且每个所述乐器图形素材与多个候选虚拟乐器对应时，在所述视频中显示至少一个虚拟乐器之前，所述方法还包括：针对每个所述乐器图形素材执行以下处理：显示与所述乐器图形素材对应的多个候选虚拟乐器的图像以及介绍信息；响应于针对所述多个候选虚拟乐器的选择操作，将被选择的至少一个候选虚拟乐器确定为将要用于在所述视频中显示的虚拟乐器。

在上述方案中，所述显示模块，还用于：在所述视频中显示至少一个虚拟乐器之前，当从所述视频中未识别出与所述虚拟乐器对应的乐器图形素材时，显示多个候选虚拟乐器；响应于针对所述多个候选虚拟乐器的选择操作，将被选择的候选虚拟乐器确定为将要在所述视频中显示的虚拟乐器。

在上述方案中，所述输出模块，还用于：针对每个所述虚拟乐器执行以下处理：当所述虚拟乐器包括一个部件时，根据所述虚拟乐器像相对于演奏者的相对运动轨迹对应的实时音调、实时音量和实时音速，同步输出所述虚拟乐器的演奏音频；当所述虚拟乐器包括多个部件时，根据相对运动过程中所述多个部件的实时相对运动轨迹对应的实时音调、实时音量和实时音速，同步输出所述虚拟乐器的演奏音频。

在上述方案中，所述虚拟乐器包括第一部件以及第二部件，所述输出模块，还用于：当所述多个部件的实时相对运动轨迹表征所述第一部件与所述第二部件在垂直于屏幕方向上的实时距离时，确定与所述实时距离成负相关关系的仿真压力，并确定与所述仿真压力成正相关关系的实时音量；当所述多个部件的实时相对运动轨迹表征所述第一部件和所述第二部件的实时接触点位置时，根据所述实时接触点位置，确定实时音调；其中，所述实时音调与所述实时接触点位置之间符合设定的配置关系；当所述多个部件的实时相对运动轨迹表征所述第一部件和所述第二部件的实时相对运动速度时，确定与所述实时相对运动速度成正相关关系的实时音速；输出与所述实时音量、所述实时音调以及所述实时音速对应的演奏音频。

在上述方案中，所述输出模块，还用于：确定与所述实时距离成负相关关系的仿真压力，并确定与所述仿真压力成正相关关系的实时音量之前，获取所述第一部件通过第一摄像头在屏幕上的实时第一成像位置、以及所述第一部件通过所述第二摄像头在所述屏幕上的实时第二成像位置；其中，所述第一摄像头与所述第二摄像头是对应与所述屏幕的具有相同焦距的摄像头；根据所述实时第一成像位置以及所述实时第二成像位置，确定实时双目测距差值；确定与所述实时双目测距差值负相关，且与所述焦距以及双摄距离正相关的实时距离；其中，所述双摄距离为所述第一摄像头与所述第二摄像头之间距离。

在上述方案中，所述输出模块，还用于：根据相对运动过程中所述多个部件的实时相对运动轨迹，同步输出所述虚拟乐器的演奏音频之前，显示所述虚拟乐器的初始音量的标识以及初始音调的标识；显示演奏提示信息，其中，所述演奏提示信息用于提示将所述乐器图形素材作为所述虚拟乐器的部件进行演奏。

在上述方案中，所述输出模块，还用于：显示所述虚拟乐器的初始音量的标识以及初始音调的标识之后，获取所述第一部件以及所述第二部件的初始位置；确定所述初始位置对应的初始距离与所述初始音量之间的倍数关系；将所述倍数关系应用至以下关系中至少之一：仿真压力与实时距离之间的负相关关系，实时音量与所述仿真压力之间的正相关关系。

在上述方案中，所述装置还包括：发布模块，用于：当所述视频播放结束时，响应于针对所述视频的发布操作，显示对应所述视频的待合成音频；其中，所述待合成音频包括所述演奏音频以及曲库中所述演奏音频相似的曲目音频；响应于音频选择操作，将被选中的所述演奏音频或所述曲目音频与所述视频进行合成，得到经过合成的视频。

在上述方案中，当输出所述演奏音频时，所述输出模块，还用于：当满足停止输出音频条件时，停止输出所述音频；其中，所述停止输出音频条件包括以下至少之一：接收到针对所述演奏音频的中止操作；所述视频当前显示的图像帧中包括所述虚拟乐器的多个部件，且所述多个部件对应的乐器图形素材之间的距离超过距离阈值。

在上述方案中，当播放实时拍摄的或预先录制的视频时，所述输出模块，还用于：针对所述视频的每个图像帧，执行以下处理：对所述图像帧进行背景画面识别处理，得到所述图像帧的背景风格；输出与所述背景风格关联的背景音频。

在上述方案中，所述输出模块，还用于：确定每个所述虚拟乐器的音量权重；其中，所述音量权重用于表征每个所述虚拟乐器的演奏音频的音量折算系数；获取每个所述乐器图形素材对应的虚拟乐器的演奏音频；根据每个所述虚拟乐器的音量权重，对每个所述乐器图形素材对应的虚拟乐器的演奏音频进行融合处理，输出经过融合处理的演奏音频。

在上述方案中，所述输出模块，还用于：获取每个所述虚拟乐器对应的乐器图形素材在所述视频中的位置；获取每个所述虚拟乐器与所述视频的画面中心的相对距离；确定每个所述虚拟乐器的与对应的相对距离成负相关关系的音量权重。

在上述方案中，所述输出模块，还用于：显示候选的音乐风格；响应于针对所述候选的音乐风格的选择操作，显示选择的音乐风格；确定在所述音乐风格下每个所述虚拟乐器对应的音量权重。

在上述方案中，所述输出模块，还用于：在输出每个所述乐器图形素材对应的虚拟乐器的演奏音频之前，根据所述虚拟乐器的数目以及所述虚拟乐器的种类，显示与所述数目以及所述种类对应的乐谱；其中，所述乐谱用于提示所述多个乐器图形素材的指导运动轨迹；响应于针对所述乐谱的选择操作，显示每个所述乐器图形素材的指导运动轨迹。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的方法。

本申请实施例具有以下有益效果：

对从视频中识别乐器图形素材赋予演奏音频的功能，且演奏音频是根据乐器图形素材在视频中的相对运动转化输出的，与人工在视频中添加音频相比，既增强了视频内容的表现力，提高了处理效率，而且，所输出的演奏音频与视频的内容能够自然地融合，与在视频中生硬地植入图形元素相比，视频的观看体验更好。

附图说明

图1A-1B是相关技术中音频输出产品的界面示意图；

图2是本申请实施例提供的虚拟乐器的互动处理系统的结构示意图；

图3是本申请实施例提供的电子设备的结构示意图；

图4A-4C是本申请实施例提供的虚拟乐器的互动处理方法的流程示意图；

图5A-5I是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图；

图6是本申请实施例提供的实时音调的计算示意图；

图7是本申请实施例提供的实时音量的计算示意图；

图8是本申请实施例提供的仿真压力的计算示意图；

图9是本申请实施例提供的虚拟乐器的互动处理方法的逻辑示意图；

图10是本申请实施例提供的实时距离的计算示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)信息流：信息流是给用户持续提供内容的数据形式，实际上是由多个内容提供源组成的资源聚合器。

2)双目测距：双目测距是一种通过两个摄像头测算拍摄对象与摄像头的距离的计算方式。

3)惯性传感器：惯性传感器主要是检测和测量加速度、倾斜、冲击、振动、旋转和多自由度运动，惯性传感器是解决导航、方向和运动载体控制的重要部件。

4)运弓接触点：运弓接触点是琴弓与琴弦的接触点，不同位置的接触点决定不同的音调。

5)运弓压力：运弓压力是琴弓作用在琴弦上的压力，压力越大音量的响度越大。

6)运弓速度：运弓速度是琴弓在琴弦上横向拉动的速度，速度越快音速越快。

相关技术中存在两种方式进行隔空演奏，可以使用特定的客户端进行后期编辑合成，还可以通过穿戴式设备进行手势按压演奏。参见图1A，图1A是相关技术中音频输出产品的界面示意图，特定客户端可以是视频后期编辑软件的客户端，响应于用户在客户端的人机交互界面301A点击开始制作控件302A的操作，触发剪辑功能并跳转至视频选择页面303A，视频选择页面303A显示拍摄完成的视频，响应于针对视频304A的选择操作，显示背景音频选择页面305A，响应于用户根据视频的画面选择节奏最吻合的背景音频的操作，选择背景音频并跳转至编辑页面306A，在编辑页面306A完成根据视频和背景音频的节奏进行卡点编辑的处理，响应于针对导出控件307A的触发操作，合成并导出背景音频与视频的节奏一致的新视频，并跳转至分享页面308A。参见图1B，图1B是相关技术中音频输出产品的界面示意图，通过穿戴式设备进行手势按压演奏，可穿戴手环301B是用于输入检测的手势以进行识别的硬件手环，手环两侧内嵌惯性传感器，通过惯性传感器识别用户手指轻扣动作，可以分析人体骨骼系统的独特振动，用户在桌面弹奏时可以在人机交互界面302B中显示用户在键盘上弹奏的画面，从而实现用户与虚拟对象之间的交互。

相关技术中存在以下缺点：第一、图1A示出的方案不能实时进行隔空演奏，不能根据用户当前的按压行为进行弹奏反馈，只是进行后期编辑合成，并且后期需要人工编辑，成本较高。第二、图1B示出的方案不能便捷即时地进行隔空演奏，该技术需以穿戴式设备作为实现的前提，在无该穿戴式设备的情况下无法进行隔空演奏，从而实现成本高，该技术需以穿戴式设备为基础前提，用户获得该设备需支付额外的成本。

本申请实施例提供一种虚拟乐器的互动处理方法、装置、电子设备和计算机可读存储介质，能够输出与视频具有强关联关系的音频，从而丰富音频生成方式以提升用户体验，下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端。下面，将结合图2说明电子设备实施为终端时的示例性应用。

参见图2，图2是本申请实施例提供的虚拟乐器的互动处理系统的结构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，在实时拍摄场景中，响应于终端400接收到视频拍摄操作，实时拍摄视频并同时播放实时拍摄的视频，通过终端400或者服务器200对视频中每个图像帧进行图像识别，当识别出与虚拟乐器形状相似的乐器图形素材时，在终端所播放的视频中显示虚拟乐器，在视频播放过程中，乐器图形素材呈现有相对运动轨迹，通过终端400或者服务器200计算与相对运动轨迹对应的音频，并通过终端400输出音频。

在一些实施例中，在历史视频的场景中，响应于终端400接收到针对预先录制的视频的编辑操作，播放预先录制的视频，通过终端400或者服务器200对视频中每个图像帧进行图像识别，当识别出与虚拟乐器形状相似的乐器图形素材时，在终端所播放的视频中显示虚拟乐器，在视频播放过程中，视频中的乐器图形素材呈现有相对运动轨迹，通过终端400或者服务器200计算与相对运动轨迹对应的音频，并通过终端400输出音频。

在一些实施例中，上述图像识别的处理过程以及音频计算的处理过程需要消耗一定的计算资源，因此可以通过终端400本地处理或者将待处理的数据发送至服务器200，由服务器200进行相应处理，并将处理结果回传至终端400。

在一些实施例中，终端400可以通过运行计算机程序来实现本申请实施例提供的融合多场景的人机交互的方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是上述的客户端，客户端可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，例如视频分享APP；客户端也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务器服务需要大量的计算、存储资源。

作为示例，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、以及智能手表等，但并不局限于此。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图3，图3是本申请实施例提供的电子设备的结构示意图，图3所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的虚拟乐器的互动处理装置可以采用软件方式实现，图3示出了存储在存储器450中的虚拟乐器的互动处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：播放模块4551、显示模块4552、输出模块4553以及发布模块4554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

下面，以由图3中的终端400执行本申请实施例提供的虚拟乐器的互动处理方法为例说明。参见图4A，图4A是本申请实施例提供的虚拟乐器的互动处理方法的流程示意图，将结合图4A示出的步骤进行说明。

参见图4A，图4A是本申请实施例提供的虚拟乐器的互动处理方法的流程示意图，将结合图4A示出的步骤101-103进行说明。步骤101-103中的步骤应用于电子设备中。

在步骤101中，播放实时拍摄的或预先录制的视频。

作为示例，视频可以是实时拍摄得到的视频或者是预先录制的历史视频，针对实时拍摄的视频，在视频拍摄的同时也在进行视频播放。

在步骤102中，在视频中显示至少一个虚拟乐器。

作为示例，每个虚拟乐器与从视频中识别出的至少一个乐器图形素材的形状相似，虚拟乐器的数目为一个或者多个，对应识别出的乐器图形素材的数目也可以为一个或者多个。

在一些实施例中，视频中可以显示多个虚拟乐器，当视频中存在与多个候选虚拟乐器一一对应的多个乐器图形素材时，步骤102中在视频中显示至少一个虚拟乐器之前，显示多个候选虚拟乐器的图像以及介绍信息；响应于针对多个候选虚拟乐器的选择操作，将被选择的至少一个候选虚拟乐器确定为将要用于在视频中显示的虚拟乐器。

作为示例，参见图5A，图5A是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，人机交互界面501A中显示有一只猫，猫两侧的胡须是乐器图形素材，猫左侧的胡须被识别为候选虚拟乐器尤克里里502A，猫右侧的胡须503A被识别为候选虚拟乐器小提琴504A，其中，猫左侧的胡须505A与候选虚拟乐器尤克里里502A的形状相似，猫右侧的胡须与候选虚拟乐器小提琴504A的形状相似，人机交互界面501A显示有候选虚拟乐器小提琴504A的图像以及介绍信息，还显示有候选虚拟乐器尤克里里502A的图像以及介绍信息，响应于用户或者测试软件的指向候选虚拟乐器小提琴504A的选择操作，将候选虚拟乐器小提琴504A作为步骤102中显示的虚拟乐器。除了图5A中所示的场景之外，还可以是显示多个候选虚拟乐器后，响应于指向多个候选虚拟乐器的选择操作，可以将所指向的多个候选虚拟乐器作为步骤102中显示的虚拟乐器。图5A中所显示出的对应每个乐器图形素材的候选虚拟乐器可以是对应每个乐器图形素材识别相似度最大的候选虚拟乐器。

在一些实施例中，当视频中存在至少一个乐器图形素材，且每个乐器图形素材与多个候选虚拟乐器对应时，在视频中显示至少一个虚拟乐器之前，针对每个乐器图形素材执行以下处理：显示与乐器图形素材对应的多个候选虚拟乐器的图像以及介绍信息；响应于针对多个候选虚拟乐器的选择操作，将被选择的至少一个候选虚拟乐器确定为将要用于在视频中显示的虚拟乐器。

作为示例，参见图5D，图5D是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，人机交互界面501D中显示有一只猫，猫两侧的胡须是乐器图形素材，猫右侧的胡须503D被识别为候选虚拟乐器小提琴504D和候选虚拟乐器尤克里里502D，其中，猫右侧的胡须与候选虚拟乐器小提琴504D和候选虚拟乐器尤克里里502D的形状相似，人机交互界面501D显示有候选虚拟乐器小提琴504D的图像以及介绍信息，还显示有候选虚拟乐器尤克里里502D的图像以及介绍信息，响应于用户或者测试软件的指向候选虚拟乐器小提琴504D的选择操作，将候选虚拟乐器小提琴504D作为步骤102中显示的虚拟乐器。除了图5D中所示的场景之外，还可以是显示多个候选虚拟乐器后，响应于指向多个候选虚拟乐器的选择操作，可以将所指向的多个候选虚拟乐器作为步骤102中显示的虚拟乐器。图5D中所显示出的对应乐器图形素材的多个候选虚拟乐器可以是识别相似度排序靠前的多个候选虚拟乐器。

承接上述示例，参见图5B，图5B是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，当所选择的候选虚拟乐器为尤克里里以及小提琴这两样时(即步骤102中所显示的是多个虚拟乐器)，人机交互界面501B中显示有一只猫，猫两侧的胡须是乐器图形素材，猫左侧的胡须对应的虚拟乐器是尤克里里502B，猫右侧的胡须503B对应的虚拟乐器是小提琴504B，其中，猫左侧的胡须与尤克里里502B的形状相似，猫右侧的胡须与小提琴504B的形状相似。除了承接上述示例，还可以默认将所有识别得到的候选虚拟乐器作为步骤102中的虚拟乐器进行显示。

承接上述示例，参见图5C，图5C是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，当所选择的候选虚拟乐器仅为小提琴时(即步骤102中所显示的是一个虚拟乐器)，人机交互界面501C中显示有一只猫，猫两侧的胡须是乐器图形素材，仅显示猫右侧的胡须503C对应的虚拟乐器小提琴504C，其中，猫右侧的胡须与小提琴504C的形状相似。

在一些实施例中，步骤102中在视频中显示至少一个虚拟乐器之前，当从视频中未识别出与虚拟乐器对应的乐器图形素材时，显示多个候选虚拟乐器；响应于针对多个候选虚拟乐器的选择操作，将被选择的候选虚拟乐器确定为将要在视频中显示的虚拟乐器。

在步骤103中，根据每个乐器图形素材在视频中的相对运动情况，输出每个乐器图形素材对应的虚拟乐器的演奏音频。

作为示例，乐器图形素材在视频中的相对运动可以为乐器图形素材相对于演奏者或者另一个乐器图形素材的相对运动，例如，小提琴演奏输出的演奏音频，其中，小提琴的琴弦和琴弓为虚拟乐器的部件，分别对应不同的乐器图形素材，根据琴弦和琴弓之间的相对运动输出演奏音频，例如，吹笛子输出的演奏音频，其中，笛子是虚拟乐器，手指是演奏者，笛子对应乐器图形素材，根据笛子与手指之间的相对运动输出演奏音频，乐器图形素材在视频中的相对运动可以为乐器图形素材相对于背景的相对运动，例如，钢琴演奏输出的演奏音频，其中，钢琴的琴键为虚拟乐器的部件，分别对应不同的乐器图形素材，例如，琴键本身上下浮动以输出对应的演奏音频，琴键本身上下浮动是相对于背景的相对运动。

作为示例，当对应虚拟乐器的乐器图形素材的数目为1个时，演奏音频是独奏得到的演奏音频，例如，钢琴演奏输出的演奏音频，当对应虚拟乐器的乐器图形素材的数目为多个，且多个乐器图形素材分别与某个虚拟乐器的多个部件一一对应时，例如，小提琴演奏输出的演奏音频，其中，小提琴的琴弦和琴弓为虚拟乐器的部件，当对应虚拟乐器的乐器图形素材的数目为多个，且多个乐器图形素材对应于多个虚拟乐器时，则演奏视频是多个虚拟乐器演奏的演奏音频，例如交响乐形式的演奏视频。

在一些实施例中，步骤102中在视频中显示至少一个虚拟乐器，可以通过以下技术方案实现：针对视频中每个图像帧，执行以下处理：在图像帧中至少一个乐器图形素材的位置，叠加显示与至少一个乐器图形素材的形状相似的虚拟乐器，且乐器图形素材的轮廓与虚拟乐器的轮廓对齐。

作为示例，参见图5C，在人机交互界面501C中显示有一只猫，猫两侧的胡须是乐器图形素材，仅显示猫右侧的胡须503C对应的虚拟乐器小提琴504C，其中，猫右侧的胡须与小提琴504C的形状相似，如图5C所示，在人机交互界面501C中叠加显示与胡须503C的形状相似的小提琴504C，小提琴504C的轮廓与胡须503C的轮廓对齐。

在一些实施例中，当虚拟乐器包括多个部件、且视频中包括与多个部件一一对应的多个乐器图形素材时，上述在图像帧中至少一个乐器图形素材的位置，叠加显示与至少一个乐器图形素材的形状相似的虚拟乐器，可以通过以下技术方案实现：针对每个虚拟乐器执行以下处理：在图像帧中叠加显示虚拟乐器的多个部件；其中，每个部件的轮廓与对应的乐器图形素材的轮廓重合。

作为示例，参见图5E，图5E是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，图5C中的小提琴504C是作为虚拟乐器本身进行说明的，在图5E中，琴弦502E是虚拟乐器的一个部件，如图5E所示，在人机交互界面501E显示小提琴的琴弦502E和小提琴的琴弓503E，如图5E所示，在人机交互界面501E中叠加显示与胡须的形状相似的小提琴的琴弦502E，小提琴的琴弦502E的轮廓与胡须的轮廓对齐，在人机交互界面501E中叠加显示与牙签的形状相似的小提琴的琴弓503E，小提琴的琴弓503E的轮廓与牙签的轮廓对齐。

作为示例，虚拟乐器的类型包括吹奏乐器、拉弦乐器、弹拨乐器以及打击乐器，下面分别以上述类型为例说明乐器图形素材与虚拟乐器的对应情况，针对拉弦乐器而言，拉弦乐器包括音箱部件和弓体部件；针对打击乐器而言，打击乐器包括打击部件和被打击部件，例如，鼓膜是被打击部件，鼓槌是打击部件；针对弹拨乐器而言，弹拨乐器包括弹拨部件和被弹拨部件，例如，古筝的弦是被弹拨部件，拨片是弹拨部件。

在一些实施例中，步骤102中在视频中显示至少一个虚拟乐器，可以通过以下技术方案实现：针对视频中每个图像帧，执行以下处理：当图像帧包括至少一个乐器图形素材时，在图像帧之外的区域中显示与至少一个乐器图形素材的形状相似的虚拟乐器，并显示虚拟乐器与乐器图形素材的关联标识，其中，关联标识的包括以下至少之一：连线、文字提示。

作为示例，参见图5F，图5F是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，在人机交互界面501F中显示有一只猫，猫两侧的胡须是乐器图形素材，仅显示猫右侧的胡须503F对应的虚拟乐器小提琴504F，其中，猫右侧的胡须与小提琴504F的形状相似，如图5F所示，在图像帧之外的区域中显示与胡须503F的形状相似的小提琴504F，并显示小提琴504F与胡须503F的关联标识，图5F中的关联标识为胡须503F与小提琴504F的连线。

在一些实施例中，当虚拟乐器包括多个部件、且视频中包括与多个部件一一对应的多个乐器图形素材时，上述在图像帧之外的区域中显示与至少一个乐器图形素材的形状相似的虚拟乐器，可以通过以下技术方案实现：针对每个虚拟乐器执行以下处理：在图像帧之外的区域中显示虚拟乐器的多个部件；其中，每个部件与图像帧中的乐器图形素材的形状相似，且多个部件之间的位置关系与对应的乐器图形素材在图像帧中的位置关系一致，形状相似包括尺寸一致的情形或者尺寸不一致的情形。

作为示例，参见图5G，图5G是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，在人机交互界面501G显示胡须505G和牙签504G，如图5G所示，在图像帧之外的区域中显示与胡须505G的形状相似的小提琴的琴弦502G，小提琴的琴弦502G的轮廓与胡须505G的的轮廓对齐，在图像帧之外的区域中显示与牙签504G的形状相似的小提琴的琴弓503G，小提琴的琴弓503G的轮廓与牙签504G的轮廓对齐，胡须505G和牙签504G的相对位置关系发生变化时，琴弦502G与琴弓503G的相对位置关系也同步发生变化。

在一些实施例中，参见图4B，图4B是本申请实施例提供的虚拟乐器的互动处理方法的流程示意图，步骤103中根据每个乐器图形素材在视频中的相对运动情况，输出每个乐器图形素材对应的虚拟乐器的演奏音频，可以通过针对每个虚拟乐器执行步骤1031-步骤1032实现。

在步骤1031中，当虚拟乐器包括一个部件时，根据虚拟乐器像相对于演奏者的相对运动轨迹对应的实时音调、实时音量和实时音速，同步输出虚拟乐器的演奏音频。

在一些实施例中，当虚拟乐器包括一个部件时，虚拟乐器可以为笛子，以虚拟乐器是笛子进行说明，虚拟乐器相对于演奏者的相对运动轨迹可以为笛子相对于手指的运动轨迹，将演奏者的手指作为静止对象，则虚拟乐器是运动对象，相对运动轨迹是以演奏者的手指作为静止对象时得到的，虚拟乐器处于不同位置对应有不同的音调，虚拟乐器与手指之间的距离对应有不同的音量，虚拟乐器相对于手指的相对运动速度对应有不同的音速。

在步骤1032中，当虚拟乐器包括多个部件时，根据相对运动过程中多个部件的实时相对运动轨迹对应的实时音调、实时音量和实时音速，同步输出虚拟乐器的演奏音频。

在一些实施例中，虚拟乐器包括第一部件以及第二部件，步骤1032中根据相对运动过程中多个部件的实时相对运动轨迹，同步输出虚拟乐器的演奏音频，可以通过以下技术方案实现：当多个部件的实时相对运动轨迹表征第一部件与第二部件在垂直于屏幕方向上的实时距离时，确定与实时距离成负相关关系的仿真压力，并确定与仿真压力成正相关关系的实时音量；当多个部件的实时相对运动轨迹表征第一部件和第二部件的实时接触点位置时，根据实时接触点位置，确定实时音调；其中，实时音调与实时接触点位置之间符合设定的配置关系；当多个部件的实时相对运动轨迹表征第一部件和第二部件的实时相对运动速度时，确定与实时相对运动速度成正相关关系的实时音速；输出与实时音量、实时音调以及实时音速对应的演奏音频。

作为示例，下面以第一部件为琴弓，第二部件为琴弦进行说明，根据琴弦与琴弓的距离模拟琴弓作用在琴弦上的仿真压力，再将仿真压力映射为实时音量，根据琴弦与琴弓的实时接触点位置(运弓接触点)决定实时音调，琴弓相对于琴弦的运动速度(运弓速度)决定弹奏乐器的实时音速，基于实时音速、实时音量与实时音调输出音频，从而无需以穿戴式设备为前提实现实时隔空按压弹奏，即时性的与物体进行隔空按压弹奏。

作为示例，参见图6，图6是本申请实施例提供的实时音调的计算示意图，存在对应四根弦的一把位、二把位、三把位、四把位和五把位，四根弦对应不同的音调，弦上不同位置也对应不同的音调，从而可以基于琴弓与琴弦的实时接触点位置确定出对应的实时音调，琴弓与琴弦的实时接触点位置通过以下方式确定，将琴弓投射到屏幕上得到琴弓投影，将琴弦也投射到屏幕上得到琴弦投影，琴弓投影与琴弦投影之间存在四个交叉点，并且获取琴弓与四根琴弦的实际距离，将距离最近的琴弦对应的琴弦投影与琴弓投影的交叉点在琴弦投影的位置确定为实时接触点位置，或者，将四根琴弦构成一个平面，将琴弓投射到平面上得到琴弓投影，并且获取琴弓与四根琴弦的实际距离，琴弓投影与四根琴弦之间存在四个交叉点，将距离最近的琴弦与琴弓投影的交叉点在琴弦的位置确定为实时接触点位置。

在一些实施例中，确定与实时距离成负相关关系的仿真压力，并确定与仿真压力成正相关关系的实时音量之前，获取第一部件通过第一摄像头在屏幕上的实时第一成像位置、以及第一部件通过第二摄像头在屏幕上的实时第二成像位置；其中，第一摄像头与第二摄像头是对应与屏幕的具有相同焦距的摄像头；根据实时第一成像位置以及实时第二成像位置，确定实时双目测距差值；确定与实时双目测距差值负相关，且与焦距以及双摄距离正相关的实时距离；其中，双摄距离为第一摄像头与第二摄像头之间距离。

作为示例，实时距离是琴弓与琴弦层之间的垂直距离，琴弦层与摄像头处于相同光学测距层，两者之间的垂直距离为零，第一部件与摄像头处于不同光学测距层，第一部件可以为琴弓，从而通过双目测距的方式确定摄像头到琴弓之间的距离，参见图10，图10是本申请实施例提供的实时距离的计算示意图，利用相似三角形可得公式(1)：

其中，第一摄像头(摄像头A)距离琴弓(物体S)的距离为实时距离d，f为屏幕到第一摄像头的距离，即相距或焦距，y为在屏幕成像后图像帧的长度，Y为相似三角形的对边长度。

再基于第二摄像头(摄像头B)的成像原理，可得公式(2)和公式(3)：

Y＝b+Z2+Z1 (2)；

其中，b为第一摄像头和第二摄像头之间的距离，f为屏幕到第一摄像头的距离(也为屏幕到第二摄像头的距离)，Y为相似三角形的对边长度，Z2和Z1为对边长度上分段长度，第一摄像头距离琴弓的距离为实时距离d，y为在屏幕成像后照片的长度，y1(实时第一成像位置)和y2(实时第二成像位置)为物体在屏幕成像到屏幕边缘的距离。

将公式(2)代入公式(1)，替换掉Y可得公式(4)：

其中，b为第一摄像头和第二摄像头之间的距离，f为屏幕到第一摄像头的距离(也为屏幕到第二摄像头的距离)，Y为相似三角形的对边长度，Z2和Z1为对边长度上分段长度，第一摄像头距离物体S的距离为d，y为在屏幕成像后照片的长度。

最后对公式(4)进行变换得到公式(5)：

其中，第一摄像头距离琴弓的距离为实时距离d，y1(实时第一成像位置)和y2(实时第二成像位置)为琴弓在屏幕成像到屏幕边缘的距离，f为屏幕到第一摄像头的距离(也为屏幕到第二摄像头的距离)。

在一些实施例中，根据相对运动过程中多个部件的实时相对运动轨迹，同步输出虚拟乐器的演奏音频之前，显示虚拟乐器的初始音量的标识以及初始音调的标识；显示演奏提示信息，其中，演奏提示信息用于提示将乐器图形素材作为虚拟乐器的部件进行演奏。

作为示例，参见图5H，图5H是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，在进行演奏之前会显示出虚拟乐器的初始位置，在图5H中，初始位置表征的含义是小提琴的琴弓(牙签)与琴弦(胡须)之间的相对位置，图5H中初始音量的标识为G5，初始音调的标识为5，演奏提示信息是“拉动手中的琴弓进行小提琴演奏”，演奏提示信息还可以具有更丰富的含义，例如演奏提示信息用于提示用户可以将乐器图形素材牙签作为小提琴的琴弓，并提示用户可以将乐器图形素材胡须作为小提琴的琴弦。

在一些实施例中，显示虚拟乐器的初始音量的标识以及初始音调的标识之后，获取第一部件以及第二部件的初始位置；确定初始位置对应的初始距离与初始音量之间的倍数关系；将倍数关系应用至以下关系中至少之一：仿真压力与实时距离之间的负相关关系，实时音量与仿真压力之间的正相关关系。

作为示例，参见图7，图7是本申请实施例提供的实时音量的计算示意图，实时距离即为图7中琴弓与琴弦之间的垂直距离，将初始音量默认为音量5，初始音量对应有初始垂直距离，最近实时距离对应为最大音量10，最远垂直距离对应为最低音量0，其中，实时音量与实时距离成负相关关系，其中，仿真压力与实时距离成负相关关系，实时音量与仿真压力成正相关关系，需要首先确定出初始垂直距离与初始音量之间的映射关系的倍数系数，若初始距离为10米，初始音量为5，则在后续演奏过程中将实时距离映射为实时音量时，实时距离为5，实时音量为10，若初始距离为100米，初始音量为5，则在后续演奏过程中将实时距离映射为实时音量时，实时距离为50，实时音量为10，因此上述倍数系数可以分配到这两个关系中，或者仅分配至其中任意一个关系中。

在一些实施例中，当播放实时拍摄的或预先录制的视频时，针对视频的每个图像帧，执行以下处理：对图像帧进行背景画面识别处理，得到图像帧的背景风格；输出与背景风格关联的背景音频。

作为示例，对图像帧进行背景画面识别处理后，可以得到图像帧的背景风格，例如，背景风格为灰暗或者背景风格为明亮，输出与背景风格关联的背景音频，从而使得背景音频与视频的背景风格相关，从而输出的背景音频与视频内容具有较强关联度，有效提高音频生成质量。

在一些实施例中，当视频播放结束时，响应于针对视频的发布操作，显示对应视频的待合成音频；其中，待合成音频包括演奏音频以及曲库中演奏音频相似的曲目音频；响应于音频选择操作，将被选中的演奏音频或曲目音频与视频进行合成，得到经过合成的视频。

作为示例，当视频播放结束时，可以提供视频发布功能，发布视频时可以将演奏音频与视频合成发布，或者将曲库中与演奏音频相似的曲目音频与视频合成发布，视频播放结束时，响应于针对视频的发布操作，显示对应视频的待合成音频，待合成音频可以以列表形式进行显示，待合成音频包括演奏音频以及曲库中演奏音频相似的曲目音频，例如，演奏音频是《致爱丽丝》，则曲目音频是曲库中的《致爱丽丝》，响应于音频选择操作，将被选中的演奏音频或曲目音频与视频进行合成，得到经过合成的视频，并发布经过合成的视频，待合成音频还可以是演奏音频与曲目音频的合成音频，若是在演奏过程中存在背景音频，则背景音频也可以根据需求与上述待合成音频进行合成，得到合成音频，将合成音频作为待合成音频与视频进行合成。

在一些实施例中，当输出演奏音频时，当满足停止输出音频条件时，停止输出音频；其中，停止输出音频条件包括以下至少之一：接收到针对演奏音频的中止操作；视频当前显示的图像帧中包括虚拟乐器的多个部件，且多个部件对应的乐器图形素材之间的距离超过距离阈值。

作为示例，针对演奏音频的中止操作可以为停止拍摄操作，或者是针对停止控件的触发操作，视频当前显示的图像帧中包括虚拟乐器的多个部件，例如，包括小提琴的琴弓与琴弦，琴弓对应的乐器图形素材与琴弦对应的乐器图形素材之间的距离超过距离阈值，表征琴弓与琴弦不再具有关联性，从而不会产生相互作用输出音频。

在一些实施例中，参见图4C，图4C是本申请实施例提供的虚拟乐器的互动处理方法的流程示意图，当虚拟乐器的数目为多个时，步骤103中根据每个乐器图形素材在视频中的相对运动情况，输出每个乐器图形素材对应的虚拟乐器的演奏音频，可以通过步骤1033-步骤1035实现。

在步骤1033中，确定每个虚拟乐器的音量权重。

作为示例，音量权重用于表征每个虚拟乐器的演奏音频的音量折算系数。

在一些实施例中，步骤1033中确定每个虚拟乐器的音量权重，可以通过以下技术方案实现：获取每个虚拟乐器对应的乐器图形素材在视频中的位置；获取每个虚拟乐器与视频的画面中心的相对距离；确定每个虚拟乐器的与对应的相对距离成负相关关系的音量权重。

作为示例，以交响乐场景为例，视频中存在多个乐器图形素材可以被识别为多个虚拟乐器，例如，视频中显示的乐器图形素材包括对应小提琴、大提琴、钢琴、竖琴的乐器图形素材，其中，小提琴最靠近视频的画面中心，相对距离最近，竖琴最远离视频的画面中心，相对距离最长，在对不同虚拟乐器的演奏音频进行合成时需要考虑到不同虚拟乐器的重要程度不同，虚拟乐器的重要程度与相对于画面中心的相对距离成负相关关系，因此每个虚拟乐器的音量权重与对应的相对距离成负相关关系。

在一些实施例中，当虚拟乐器的数目为多个时，步骤1033中确定每个虚拟乐器的音量权重，可以通过以下技术方案实现：显示候选的音乐风格；响应于针对候选的音乐风格的选择操作，显示选择的音乐风格；确定在音乐风格下每个虚拟乐器对应的音量权重。

作为示例，继续以交响乐场景为例，视频中存在多个乐器图形素材可以被识别为多个虚拟乐器，例如，视频中显示的乐器图形素材包括对应小提琴、大提琴、钢琴、竖琴的乐器图形素材，以音乐风格为欢快音乐风格为例进行说明，由于用户或者软件所选择的音乐风格是欢快音乐风格，由于预先配置了在欢快音乐风格下每个虚拟乐器对应的音量权重的配置文件，从而通过读取配置文件，直接确定欢快音乐风格每个虚拟乐器对应的音量权重，使得可以输出欢快音乐风格的演奏音频。

在步骤1034中，获取每个乐器图形素材对应的虚拟乐器的演奏音频。

在一些实施例中，步骤1034中获取每个乐器图形素材对应的虚拟乐器的演奏音频之前或者步骤103中输出每个乐器图形素材对应的虚拟乐器的演奏音频之前，根据虚拟乐器的数目以及虚拟乐器的种类，显示与数目以及种类对应的乐谱；其中，乐谱用于提示多个乐器图形素材的指导运动轨迹；响应于针对乐谱的选择操作，显示每个乐器图形素材的指导运动轨迹。

作为示例，继续以交响乐场景为例，视频中存在多个乐器图形素材可以被识别为多个虚拟乐器，例如，视频中显示的乐器图形素材包括对应小提琴、大提琴、钢琴、竖琴的乐器图形素材，获取虚拟乐器的种类，例如，小提琴、大提琴、钢琴、竖琴，同时获取小提琴、大提琴、钢琴、竖琴各自的数目，不同虚拟乐器组合搭配适合不同的演奏乐谱，例如，《献给爱丽丝》适合钢琴配合大提琴的演奏，《勃拉姆斯协奏曲》适合小提琴配竖琴的演奏，显示与数目以及种类对应的乐谱后，响应于用户或者软件指向乐谱《勃拉姆斯协奏曲》的选择操作，显示对应乐谱《勃拉姆斯协奏曲》的指导运动轨迹。

在步骤1035中，根据每个虚拟乐器的音量权重，对每个乐器图形素材对应的虚拟乐器的演奏音频进行融合处理，输出经过融合处理的演奏音频。

作为示例，根据每个虚拟乐器对应的乐器图形素材的相对运动，可以获取每个虚拟乐器的具有特定音调、音量以及音速的演奏音频，由于每个虚拟乐器的音量权重不同，因此在虚拟乐器原有的音量的基础上通过音量权重所表征的音量折算系数对演奏音频的音量进行折算，例如，小提琴的音量权重为0.1，钢琴的音量权重为0.9，则将小提琴的实时音量乘以0.1进行输出，并将钢琴的实时音量乘以0.9进行输出，不同虚拟乐器按照经过折算的音量输出对应的演奏音频即为输出经过融合处理的演奏音频。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在一些实施例中，在实时拍摄场景中，响应于终端接收到视频拍摄操作，实时拍摄视频并同时播放实时拍摄的视频，通过终端或者服务器对视频中每个图像帧进行图像识别，当识别出与小提琴的琴弓(虚拟乐器的部件)和琴弦(虚拟乐器的部件)形状相似的猫胡须(乐器图形素材)以及牙签(乐器图形素材)时，在终端所播放的视频中显示小提琴的琴弓和琴弦，在视频播放过程中，小提琴的琴弓和琴弦对应的乐器图形素材呈现有相对运动轨迹，通过终端或者服务器计算与相对运动轨迹对应的音频，并通过终端输出音频，播放的视频还可以是预先录制的视频。

在一些实施例中，通过电子设备的摄像头对视频的内容进行识别，将识别到的内容与预设虚拟乐器进行匹配，将用户手持的棒状道具或者手指识别为小提琴的琴弓，通过摄像头的双目测距来确定琴弓与识别的琴弦之间的仿真压力，通过棒状道具的相对运动轨迹确定琴弓与琴弦产生的音频的音调和音速，与客观对象进行即时性的隔空弹奏，从而基于演奏音频生产趣味内容。

在一些实施例中，通过摄像头测距获得作为被受力物体的琴弓的压感，实现隔空按压演奏，首先利用双目测距原理，测算出摄像头所识别的琴弦与琴弓的距离，根据识别到的初始距离以及给定的初始音量，确定距离与音量之间的映射关系在不同场景下的倍数系数，后续的模拟弹奏中，根据琴弦与琴弓的距离模拟琴弓作用在琴弦上的压力，再将压力映射为音量，根据琴弦与琴弓的运弓接触点决定弹奏乐器的音调，通过摄像头捕捉琴弓的运弓速度，运弓速度决定弹奏乐器的音速，基于音速、音量与音调输出音频，从而无需以穿戴式设备为前提实现实时隔空按压弹奏，即时性的与物体进行隔空按压弹奏。

在一些实施例中，参见图5I，图5I是本申请实施例提供的虚拟乐器的互动处理方法的产品界面示意图，响应于初始化客户端的操作，进入客户端的拍摄页面501I，响应于针对摄像头502I的触发操作，开始拍摄并显示所拍摄的内容，显示所拍摄的内容时使用摄像头进行画面捕捉和提取，根据乐器图形素材(猫的胡须)503I匹配对应的虚拟乐器(后台服务器持续识别直到识别出虚拟乐器为止)，一弦是独弦琴、二弦是二胡琴、三弦是三弦琴、四弦是尤克里里、五弦是班卓琴，当识别到虚拟乐器的部件是小提琴的琴弦504I时，在客户端的拍摄页面上显示出小提琴的琴弦504I，视频中用户手持条状道具505I或者手指，根据识别到的小提琴的琴弦，将识别到的条状道具牙签505I作为小提琴的琴弓506I，或者同时将猫的胡须与条状道具牙签识别为琴弦与琴弓，至此完成了虚拟乐器(可以包括多个部件)的识别与显示过程，虚拟乐器可以是独立的乐器或者是包括多个部件的乐器，可以在视频中显示虚拟乐器或者在视频外的区域显示虚拟乐器，初始音量是默认音量的，例如音量5，通过初始音量与初始距离之间的关系反推出不同场景下对应不同比例尺的倍数系数，倍数系数是音量与距离之间映射关系所包含的倍数系数，琴弓和琴弦的运弓接触点决定音调，屏幕将显示小提琴的初始音量和初始音调，例如，初始音调是G5，初始音量是5，并在屏幕中显示演奏提示信息“拉动手中的琴弓进行小提琴演奏”，后续在人机交互界面508I中显示演奏过程，演奏过程中根据琴弦与琴弓的实时距离模拟琴弓作用在琴弦上的运弓压力，距离越大音量越低，根据琴弓在琴弦上运弓接触点的位置实时决定音调，根据琴弓作用在琴弦上的运功速度决定奏乐的音速，运弓速度越快音速越快，最后根据用户弹奏的音乐作品，提取其中的音调、音量、音速这些特征，与曲库进行匹配，可选择使用模糊匹配得到的曲库音频(即与用户当前弹奏作品最为接近的音乐作品)与视频进行合成，并通过发布页面507I发布，或可使用演奏得到的演奏音频与视频合成进行发布，或可将模糊匹配得到的曲库音频、演奏音频以及视频进行合成并发布。

在一些实施例中，在演奏过程中，根据视频的背景颜色匹配合适的背景音频，背景音频是独立于演奏音频的，后续进行合成时可以仅将演奏音频与视频进行合成，或者将背景音频、演奏音频以及视频进行合成。

在一些实施例中，若识别出多个候选虚拟乐器，响应针对多个候选虚拟乐器的选择操作，确定将要显示的虚拟乐器，若未识别出虚拟乐器时，响应针对候选虚拟乐器的选择操作，显示所选择的虚拟乐器以参加弹奏。

在一些实施例中，参见图9，图9是本申请实施例提供的虚拟乐器的互动处理方法的逻辑示意图，执行主体包括用户可操作的终端和后台服务器，首先利用手机摄像头捕捉主体并提取画面特征，将画面特征传输至后台服务器，后台服务器将画面特征与预设的预期乐器特征进行匹配，输出匹配结果(琴弦与琴弓)，从而终端确定并显示画面中适用于弹奏的虚拟乐器的部件(琴弦)，确定并显示画面中适用于弹奏的虚拟乐器的部件(琴弓)，通过双目测距技术确定琴弓与琴弦的初始距离，将初始距离传输至后台服务器，后台服务器生成初始音量并根据初始音量以及初始距离确定场景比例尺的倍数系数，后续演奏过程中利用双目测距技术确定实时距离，从而确定运弓压力以得到实时音量，同时根据琴弦与琴弓的运弓接触点确定实时音调，通过摄像头捕捉琴弓的运弓速度，运弓速度决定弹奏乐器的实时音速，将实时音调、实时音量以及实时音速传输至后台服务器，后台服务器基于实时音速、实时音量与实时音调输出实时音频(演奏音频)，并提取实时音频的特征以将实时音频与曲库进行匹配，可选择使用模糊匹配得到的曲库音频与视频进行合成，或可使用实时音频与视频合成进行发布。

在一些实施例中，给定初始音量，利用双目测距确定乐器与琴弓的初始距离，结合初始音量以及初始距离反推场景比例尺的倍数系数，先通过双目测距的方式确定摄像头到琴弓(例如，图10中的物体S)之间的距离，参见图10，图10是本申请实施例提供的实时距离的计算示意图，利用相似三角形可得公式(6)：

其中，摄像头A距离物体S的距离为d，f为屏幕到摄像头A的距离，即相距或焦距，y为在屏幕成像后照片的长度，Y为相似三角形的对边长度。

再基于摄像头B的成像原理，可得公式(7)和公式(8)：

Y＝b+Z2+Z1 (7)；

其中，b为摄像头A和摄像头B之间的距离，f为屏幕到摄像头A的距离(也为屏幕到摄像头B的距离)，Y为相似三角形的对边长度，Z2和Z1为对边长度上分段长度，摄像头A距离物体S的距离为d，y为在屏幕成像后照片的长度，y1和y2为物体在屏幕成像到屏幕边缘的距离。

将公式(6)代入公式(5)，替换掉Y可得公式(9)：

其中，b为摄像头A和摄像头B之间的距离，f为屏幕到摄像头A的距离(也为屏幕到摄像头B的距离)，Y为相似三角形的对边长度，Z2和Z1为对边长度上分段长度，摄像头A距离物体S的距离为d，y为在屏幕成像后照片的长度。

最后对公式(9)进行变换得到公式(10)：

其中，摄像头A距离物体S的距离为d，y1和y2为物体在屏幕成像到屏幕边缘的距离，f为屏幕到摄像头A的距离(也为屏幕到摄像头B的距离)。

在一些实施例中，参见图8，图8是本申请实施例提供的仿真压力的计算示意图，界面层级包括3层，分别是识别出来的琴弦层、用户手持条状物体的琴弓层以及辅助信息层，关键是通过摄像头双目测距确定琴弓到琴弦的垂直距离(即图10中实时距离d的值)，确定出初始距离与初始音量之间的映射关系之后，后续互动中可通过调整琴弓与琴弦的距离调整音量大小，距离越远音量越低，距离越近音量越大，将琴弓与琴弦在屏幕上的交汇点作为运弓接触点，运弓接触点的不同位置决定不同的音调，后续演奏过程中，利用双目测距技术确定距离，进而确定运弓压力，从而确定对应的实时音量，将琴弦与琴弓的运弓接触点映射为实时音调，由于已经确定出初始音量与初始距离之间的场景比例尺的倍数系数，因此在用户后续的互动过程中，通过调整琴弓与琴弦的距离来调整音量的响度，距离越远音量越低，距离越近音量越大，将琴弓与琴弦在屏幕上的交汇点作为运弓接触点，不同位置的运弓接触点决定不同的音调。

通过本申请实施例提供的虚拟乐器的互动处理方法，通过实时物理距离换算模拟实时隔空压感，因此无需以穿戴式设备为前提实现了视频画面中客观物体的趣味认知与互动，从而在成本低受限小的前提下产生更多有趣内容。

下面继续说明本申请实施例提供的虚拟乐器的互动处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器450的虚拟乐器的互动处理装置455中的软件模块可以包括：播放模块4551，用于播放实时拍摄的或预先录制的视频；

显示模块4552，用于在视频中显示至少一个虚拟乐器，其中，每个虚拟乐器与从视频中识别出的乐器图形素材的形状相似；

输出模块4553，用于根据每个乐器图形素材在视频中的相对运动情况，输出每个乐器图形素材对应的虚拟乐器的演奏音频。

在一些实施例中，显示模块4552，还用于：针对视频中每个图像帧，执行以下处理：在图像帧中至少一个乐器图形素材的位置，叠加显示与至少一个乐器图形素材的形状相似的虚拟乐器，且乐器图形素材的轮廓与虚拟乐器的轮廓对齐。

在一些实施例中，显示模块4552，还用于：当虚拟乐器包括多个部件、且视频中包括与多个部件一一对应的多个乐器图形素材时，针对每个虚拟乐器执行以下处理：在图像帧中叠加显示虚拟乐器的多个部件；其中，每个部件的轮廓与对应的乐器图形素材的轮廓重合。

在一些实施例中，显示模块4552，还用于：针对视频中每个图像帧，执行以下处理：当图像帧包括至少一个乐器图形素材时，在图像帧之外的区域中显示与至少一个乐器图形素材的形状相似的虚拟乐器，并显示虚拟乐器与乐器图形素材的关联标识，其中，关联标识的包括以下至少之一：连线、文字提示。

在一些实施例中，显示模块4552，还用于：当虚拟乐器包括多个部件、且视频中包括与多个部件一一对应的多个乐器图形素材时，针对每个虚拟乐器执行以下处理：在图像帧之外的区域中显示虚拟乐器的多个部件；其中，每个部件与图像帧中的乐器图形素材的形状相似，且多个部件之间的位置关系与对应的乐器图形素材在图像帧中的位置关系一致。

在一些实施例中，显示模块4552，还用于：当视频中存在与多个候选虚拟乐器一一对应的多个乐器图形素材时，显示多个候选虚拟乐器的图像以及介绍信息；响应于针对多个候选虚拟乐器的选择操作，将被选择的至少一个候选虚拟乐器确定为将要用于在视频中显示的虚拟乐器。

在一些实施例中，显示模块4552，还用于：当所述视频中存在至少一个乐器图形素材，且每个所述乐器图形素材与多个候选虚拟乐器对应时，在所述视频中显示至少一个虚拟乐器之前，所述方法还包括：针对每个所述乐器图形素材执行以下处理：显示与所述乐器图形素材对应的多个候选虚拟乐器的图像以及介绍信息；响应于针对所述多个候选虚拟乐器的选择操作，将被选择的至少一个候选虚拟乐器确定为将要用于在所述视频中显示的虚拟乐器。

在一些实施例中，显示模块4552，还用于：在视频中显示至少一个虚拟乐器之前，当从视频中未识别出与虚拟乐器对应的乐器图形素材时，显示多个候选虚拟乐器；响应于针对多个候选虚拟乐器的选择操作，将被选择的候选虚拟乐器确定为将要在视频中显示的虚拟乐器。

在一些实施例中，输出模块4553，还用于：针对每个虚拟乐器执行以下处理：当虚拟乐器包括一个部件时，根据虚拟乐器像相对于演奏者的相对运动轨迹对应的实时音调、实时音量和实时音速，同步输出虚拟乐器的演奏音频；当虚拟乐器包括多个部件时，根据相对运动过程中多个部件的实时相对运动轨迹对应的实时音调、实时音量和实时音速，同步输出虚拟乐器的演奏音频。

在一些实施例中，虚拟乐器包括第一部件以及第二部件，输出模块4553，还用于：当多个部件的实时相对运动轨迹表征第一部件与第二部件在垂直于屏幕方向上的实时距离时，确定与实时距离成负相关关系的仿真压力，并确定与仿真压力成正相关关系的实时音量；当多个部件的实时相对运动轨迹表征第一部件和第二部件的实时接触点位置时，根据实时接触点位置，确定实时音调；其中，实时音调与实时接触点位置之间符合设定的配置关系；当多个部件的实时相对运动轨迹表征第一部件和第二部件的实时相对运动速度时，确定与实时相对运动速度成正相关关系的实时音速；输出与实时音量、实时音调以及实时音速对应的演奏音频。

在一些实施例中，输出模块4553，还用于：确定与实时距离成负相关关系的仿真压力，并确定与仿真压力成正相关关系的实时音量之前，获取第一部件通过第一摄像头在屏幕上的实时第一成像位置、以及第一部件通过第二摄像头在屏幕上的实时第二成像位置；其中，第一摄像头与第二摄像头是对应与屏幕的具有相同焦距的摄像头；根据实时第一成像位置以及实时第二成像位置，确定实时双目测距差值；确定与实时双目测距差值负相关，且与焦距以及双摄距离正相关的实时距离；其中，双摄距离为第一摄像头与第二摄像头之间距离。

在一些实施例中，输出模块4553，还用于：根据相对运动过程中多个部件的实时相对运动轨迹，同步输出虚拟乐器的演奏音频之前，显示虚拟乐器的初始音量的标识以及初始音调的标识；显示演奏提示信息，其中，演奏提示信息用于提示将乐器图形素材作为虚拟乐器的部件进行演奏。

在一些实施例中，输出模块4553，还用于：显示虚拟乐器的初始音量的标识以及初始音调的标识之后，获取第一部件以及第二部件的初始位置；确定初始位置对应的初始距离与初始音量之间的倍数关系；将倍数关系应用至以下关系中至少之一：仿真压力与实时距离之间的负相关关系，实时音量与仿真压力之间的正相关关系。

在一些实施例中，装置还包括：发布模块4554，用于：当视频播放结束时，响应于针对视频的发布操作，显示对应视频的待合成音频；其中，待合成音频包括演奏音频以及曲库中演奏音频相似的曲目音频；响应于音频选择操作，将被选中的演奏音频或曲目音频与视频进行合成，得到经过合成的视频。

在一些实施例中，当输出演奏音频时，输出模块4553，还用于：当满足停止输出音频条件时，停止输出音频；其中，停止输出音频条件包括以下至少之一：接收到针对演奏音频的中止操作；视频当前显示的图像帧中包括虚拟乐器的多个部件，且多个部件对应的乐器图形素材之间的距离超过距离阈值。

在一些实施例中，当播放实时拍摄的或预先录制的视频时，输出模块4553，还用于：针对视频的每个图像帧，执行以下处理：对图像帧进行背景画面识别处理，得到图像帧的背景风格；输出与背景风格关联的背景音频。

在一些实施例中，输出模块4553，还用于：确定每个虚拟乐器的音量权重；其中，音量权重用于表征每个虚拟乐器的演奏音频的音量折算系数；获取每个乐器图形素材对应的虚拟乐器的演奏音频；根据每个虚拟乐器的音量权重，对每个乐器图形素材对应的虚拟乐器的演奏音频进行融合处理，输出经过融合处理的演奏音频。

在一些实施例中，输出模块4553，还用于：获取每个虚拟乐器对应的乐器图形素材在视频中的位置；获取每个虚拟乐器与视频的画面中心的相对距离；确定每个虚拟乐器的与对应的相对距离成负相关关系的音量权重。

在一些实施例中，输出模块4553，还用于：显示候选的音乐风格；响应于针对候选的音乐风格的选择操作，显示选择的音乐风格；确定在音乐风格下每个虚拟乐器对应的音量权重。

在一些实施例中，输出模块4553，还用于：在输出每个所述乐器图形素材对应的虚拟乐器的演奏音频之前，根据虚拟乐器的数目以及虚拟乐器的种类，显示与数目以及种类对应的乐谱；其中，乐谱用于提示多个乐器图形素材的指导运动轨迹；响应于针对乐谱的选择操作，显示每个乐器图形素材的指导运动轨迹。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的虚拟乐器的互动处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将被处理器执行本申请实施例提供的虚拟乐器的互动处理方法，例如，如图4A-4C示出的虚拟乐器的互动处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例从视频中识别出可以作为虚拟乐器的素材，可以为视频中的乐器图形素材赋予更多的功能，将乐器图形素材的视频中的相对运动转化为虚拟乐器的演奏音频进行输出，使得所输出的演奏音频与视频的内容具有强关联度，从而既丰富了音频生成方式也增强了音频与视频的关联度，并且由于虚拟乐器是基于乐器图形素材识别得到的，从而在相同程度的拍摄资源下可显示更加丰富的画面内容。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种虚拟乐器的互动处理方法，其特征在于，包括：

播放实时拍摄的或预先录制的视频；

2.根据权利要求1所述的方法，其特征在于，所述在所述视频中显示至少一个虚拟乐器，包括：

针对所述视频中每个图像帧，执行以下处理：

在所述图像帧中至少一个乐器图形素材的位置，叠加显示与所述至少一个乐器图形素材的形状相似的虚拟乐器，且所述乐器图形素材的轮廓与所述虚拟乐器的轮廓对齐。

3.根据权利要求1所述的方法，其特征在于，所述在所述视频中显示至少一个虚拟乐器，包括：

针对所述视频中每个图像帧，执行以下处理：

当所述图像帧包括至少一个乐器图形素材时，在所述图像帧之外的区域中显示与所述至少一个乐器图形素材的形状相似的虚拟乐器，并显示所述虚拟乐器与所述乐器图形素材的关联标识，其中，所述关联标识包括以下至少之一：连线、文字提示。

4.根据权利要求1所述的方法，其特征在于，当所述视频中存在与多个候选虚拟乐器一一对应的多个乐器图形素材时，在所述视频中显示至少一个虚拟乐器之前，所述方法还包括：

显示所述多个候选虚拟乐器的图像以及介绍信息；

响应于针对所述多个候选虚拟乐器的选择操作，将被选择的至少一个候选虚拟乐器确定为将要用于在所述视频中显示的虚拟乐器。

5.根据权利要求1所述的方法，其特征在于，当所述视频中存在至少一个乐器图形素材，且每个所述乐器图形素材与多个候选虚拟乐器对应时，在所述视频中显示至少一个虚拟乐器之前，所述方法还包括：

针对每个所述乐器图形素材执行以下处理：

显示与所述乐器图形素材对应的多个候选虚拟乐器的图像以及介绍信息；

6.根据权利要求1所述的方法，其特征在于，在所述视频中显示至少一个虚拟乐器之前，所述方法还包括：

当从所述视频中未识别出与所述虚拟乐器对应的乐器图形素材时，显示多个候选虚拟乐器；

响应于针对所述多个候选虚拟乐器的选择操作，将被选择的候选虚拟乐器确定为将要在所述视频中显示的虚拟乐器。

7.根据权利要求1所述的方法，其特征在于，所述根据每个所述乐器图形素材在所述视频中的相对运动情况，输出每个所述乐器图形素材对应的虚拟乐器的演奏音频，包括：

针对每个所述虚拟乐器执行以下处理：

当所述虚拟乐器包括一个部件时，根据所述虚拟乐器像相对于演奏者的相对运动轨迹对应的实时音调、实时音量和实时音速，同步输出所述虚拟乐器的演奏音频；

当所述虚拟乐器包括多个部件时，根据相对运动过程中所述多个部件的实时相对运动轨迹对应的实时音调、实时音量和实时音速，同步输出所述虚拟乐器的演奏音频。

8.根据权利要求7所述的方法，其特征在于，所述虚拟乐器包括第一部件以及第二部件，所述根据相对运动过程中所述多个部件的实时相对运动轨迹，同步输出所述虚拟乐器的演奏音频，包括：

当所述多个部件的实时相对运动轨迹表征所述第一部件与所述第二部件在垂直于屏幕方向上的实时距离时，确定与所述实时距离成负相关关系的仿真压力，并确定与所述仿真压力成正相关关系的实时音量；

当所述多个部件的实时相对运动轨迹表征所述第一部件和所述第二部件的实时接触点位置时，根据所述实时接触点位置，确定实时音调；

其中，所述实时音调与所述实时接触点位置之间符合设定的配置关系；

当所述多个部件的实时相对运动轨迹表征所述第一部件和所述第二部件的实时相对运动速度时，确定与所述实时相对运动速度成正相关关系的实时音速；

输出与所述实时音量、所述实时音调以及所述实时音速对应的演奏音频。

9.根据权利要求8所述的方法，其特征在于，所述确定与所述实时距离成负相关关系的仿真压力，并确定与所述仿真压力成正相关关系的实时音量之前，所述方法还包括：

获取所述第一部件通过第一摄像头在屏幕上的实时第一成像位置、以及所述第一部件通过第二摄像头在所述屏幕上的实时第二成像位置；

其中，所述第一摄像头与所述第二摄像头是对应与所述屏幕的具有相同焦距的摄像头；

根据所述实时第一成像位置以及所述实时第二成像位置，确定实时双目测距差值；

确定与所述实时双目测距差值负相关，且与所述焦距以及双摄距离正相关的实时距离；

其中，所述双摄距离为所述第一摄像头与所述第二摄像头之间距离。

10.根据权利要求7所述的方法，其特征在于，根据相对运动过程中所述多个部件的实时相对运动轨迹，同步输出所述虚拟乐器的演奏音频之前，所述方法还包括：

显示所述虚拟乐器的初始音量的标识以及初始音调的标识；

显示演奏提示信息，其中，所述演奏提示信息用于提示将所述乐器图形素材作为所述虚拟乐器的部件进行演奏。

11.根据权利要求10所述的方法，其特征在于，显示所述虚拟乐器的初始音量的标识以及初始音调的标识之后，所述方法还包括：

获取所述第一部件以及所述第二部件的初始位置；

确定所述初始位置对应的初始距离与所述初始音量之间的倍数关系；

将所述倍数关系应用至以下关系中至少之一：仿真压力与实时距离之间的负相关关系，实时音量与所述仿真压力之间的正相关关系。

12.根据权利要求1所述的方法，其特征在于，当所述视频播放结束时，所述方法还包括：

响应于针对所述视频的发布操作，显示对应所述视频的待合成音频；

其中，所述待合成音频包括所述演奏音频以及曲库中与所述演奏音频相似的曲目音频；

响应于音频选择操作，将被选中的所述演奏音频或所述曲目音频与所述视频进行合成，得到经过合成的视频。

13.根据权利要求1所述的方法，其特征在于，当输出所述演奏音频时，所述方法还包括：

当满足停止输出音频条件时，停止输出所述音频；

其中，所述停止输出音频条件包括以下至少之一：

接收到针对所述演奏音频的中止操作；

所述视频当前显示的图像帧中包括所述虚拟乐器的多个部件，且所述多个部件对应的乐器图形素材之间的距离超过距离阈值。

14.根据权利要求1所述的方法，其特征在于，当播放实时拍摄的或预先录制的视频时，所述方法还包括：

针对所述视频的每个图像帧，执行以下处理：

对所述图像帧进行背景画面识别处理，得到所述图像帧的背景风格；

输出与所述背景风格关联的背景音频。

15.根据权利要求1所述的方法，其特征在于，

当所述虚拟乐器的数目为多个时，所述根据每个所述乐器图形素材在所述视频中的相对运动情况，输出每个所述乐器图形素材对应的虚拟乐器的演奏音频，包括：

确定每个所述虚拟乐器的音量权重；

其中，所述音量权重用于表征每个所述虚拟乐器的演奏音频的音量折算系数；

获取每个所述乐器图形素材对应的虚拟乐器的演奏音频；

根据每个所述虚拟乐器的音量权重，对每个所述乐器图形素材对应的虚拟乐器的演奏音频进行融合处理，输出经过融合处理的演奏音频。

16.根据权利要求15所述的方法，其特征在于，所述确定每个所述虚拟乐器的音量权重，包括：

获取每个所述虚拟乐器对应的乐器图形素材在所述视频中的位置；

获取每个所述虚拟乐器与所述视频的画面中心的相对距离；

确定每个所述虚拟乐器的与对应的相对距离成负相关关系的音量权重。

17.根据权利要求1所述的方法，其特征在于，在输出每个所述乐器图形素材对应的虚拟乐器的演奏音频之前，所述方法还包括：

根据所述虚拟乐器的数目以及所述虚拟乐器的种类，显示与所述数目以及所述种类对应的乐谱；

其中，所述乐谱用于提示所述多个乐器图形素材的指导运动轨迹；

响应于针对所述乐谱的选择操作，显示每个所述乐器图形素材的指导运动轨迹。

18.一种虚拟乐器的互动处理装置，其特征在于，包括：

播放模块，用于播放实时拍摄的或预先录制的视频；

19.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至17任一项所述的虚拟乐器的互动处理方法。

20.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至17任一项所述的虚拟乐器的互动处理方法。