CN106648083A

CN106648083A - 增强演奏场景合成控制方法及装置

Info

Publication number: CN106648083A
Application number: CN201611128425.6A
Authority: CN
Inventors: 宁华龙
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2017-05-10
Anticipated expiration: 2036-12-09
Also published as: CN106648083B

Abstract

本发明提供了一种增强演奏场景合成控制方法及装置。方法包括，首先添加预定的虚拟乐器的对应图像到从摄像单元获取且将被推送到直播间的音视频流中；从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势，伴随该用户手势在该音视频流的图像流中改变所述演奏控制部位的控制状态，且调用与该虚拟乐器相对应的音频配置信息，生成插入到该音视频流中的与该演奏控制部位的控制状态相适应的音频流；将包含有所述图像流和所述音频流的合成音视频流推送到所述的直播间。本发明结合虚拟乐器生成技术和手势分析技术，实现了在网络直播间中进行虚拟乐器演奏直播。

Description

增强演奏场景合成控制方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种增强演奏场景合成控制方法及装置。

背景技术

增强现实(Augmented Reality，简称AR)技术，是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术，这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。AR技术不仅展现了真实世界的信息，而且能将虚拟的信息同时显示出来，两种信息相互补充、叠加。在视觉化的增强现实中，用户利用头盔显示器，把真实世界与电脑图形多重合成在一起，便可以看到真实的世界围绕着它。该技术包含了虚拟现实(VR)技术、多媒体、三维建模、实时视频显示及控制、多传感器融合、实时跟踪及注册、场景融合等新技术。随着电子产品运算能力的提升，增强现实的用途越来越广。

在音乐演奏的应用中，增强现实技术就能够得到充分的应用。随着VR(虚拟现实)技术的发展，特定乐器3D模型场景的生成已经成为现实，将其与增强现实技术中其他技术内容相结合完全可以实现对虚拟乐器的模拟和交互，这能够为广大音乐演奏者大大扩展乐器选择范围，例如申请公布号为CN103456286的发明专利申请就形成了虚拟鼓并进行演奏，申请公布号为CN105786162的发明专利申请甚至提供了虚拟演奏指挥方法。然而，增强现实技术提供的虚拟演奏中乐器由VR技术提供，声音则由相关数据库提供并伴随虚拟乐器的演奏而产生，只能实现演奏者与虚拟乐器的交互，可见的演奏场景仍然是虚拟的，而且仅演奏者自己可见，而在网络直播场景中需要除演奏者之外的观众都能够看到真实或者是接近真实的乐器、演奏者影像以及演奏过程，在近年来蓬勃发展的网络直播领域未见使用虚拟乐器进行网络直播的技术，也即增强现实技术在乐器演奏上的应用仍然在网络直播中无法实现。

发明内容

基于此，为了实现增强现实技术在乐器演奏网络直播中的应用，提供一种增强演奏场景合成控制方法及装置。

一种增强演奏场景合成控制方法，包括下列步骤：

添加预定的虚拟乐器的对应图像到从摄像单元获取且将被推送到直播间的音视频流中；

从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势，伴随该用户手势在该音视频流的图像流中改变所述演奏控制部位的控制状态，且调用与该虚拟乐器相对应的音频配置信息，生成插入到该音视频流中的与该演奏控制部位的控制状态相适应的音频流；

将包含有所述图像流和所述音频流的合成音视频流推送到所述的直播间。

在其中一个实施例中，所述伴随该用户手势在该音视频流的图像流中改变所述演奏控制部位的控制状态的步骤具体包括：

检测到所述用户手势的帧信息满足据以判定所述演奏控制部位的控制变化的参考信息，以预定时间间隔连续记录所述用户手势的帧信息并得到累积帧数；

当所述累积帧数达到预定帧数，确定所述用户手势对应的所述演奏控制部位的控制变化；

响应于所述控制变化，改变所述演奏控制部位的控制状态。

在其中一个实施例中，添加预定的虚拟乐器的对应图像到从摄像单元获取且将被推送到直播间的音视频流中的步骤包括：

确定被用户选择的预定的虚拟乐器的乐器类型，获取与所述乐器类型相对应的配置文件；

调取所述配置文件中所指定的虚拟乐器的对应图像；

通过特定图像合成算法将所述对应图像合并到所述直播间的音视频流中。

在其中一个实施例中，所述直播间的音视频流中包括演奏者三维图像和预设直播间场景图像，所述演奏者三维图像获取自计算机形成的三维模型，该三维模型包括由实景影像经计算机计算形成的使用者三维虚拟形象，或

由计算机三维动画形成的动画形象。

在其中一个实施例中，将包含有所述图像流和所述音频流的合成音视频流推送到所述的直播间的步骤还包括，将所述合成音视频流通过预定压缩编码算法进行压缩编码，再推送到所述直播间。

在其中一个实施例中，从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势的步骤具体为：

获取所述图像流中的演奏者三维图像，分割出其中人手部分的三维图像数据信息；

利用预定算法检测出所述人手部分的三维图像数据信息中的手指信息数据，并形成手指运动轨迹的信息数据；

将所述手指运动轨迹的信息数据与所述演奏控制部位的信息数据进行数学合并，据以实现识别出作用于该虚拟乐器的演奏控制部位的用户手势。

在其中一个实施例中，所述将包含有所述图像流和所述音频流的合成音视频流推送到所述的直播间的步骤之前还包括，将所述合成音视频流中的视频流投射到支持虚拟现实技术的视频显示单元，据以对所述合成音视频流中的视频流进行三维视角显示，同时将合成音视频流中的音频流推送到音频播放单元以进行音频播放。

本发明提供的增强演奏场景合成控制方法为增强现实技术在乐器演奏网络直播应用提供了一条可行的途径，该方法和装置可将演奏者演奏虚拟乐器的过程以及演奏产生的声音真实展现给网络直播间的观众。

本发明同时提供了一种增强演奏场景合成控制装置，包括：

图像合并模块，用于添加预定的虚拟乐器的对应图像到从摄像单元获取且将被推送到直播间的音视频流中；

音视频融合模块，用于从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势，伴随该用户手势在该音视频流的图像流中改变所述演奏控制部位的控制状态，且调用与该虚拟乐器相对应的音频配置信息，生成插入到该音视频流中的与该演奏控制部位的控制状态相适应的音频流；

输出模块，用于将包含有所述图像流和所述音频流的合成音视频流推送到所述的直播间。

在其中一个实施例中，所述音视频融合模块包括：

检测单元，用于检测到所述用户手势的帧信息满足据以判定所述演奏控制部位的控制变化的参考信息，以预定时间间隔连续记录所述用户手势的帧信息并得到累积帧数；

识别单元，用于当所述累积帧数达到预定帧数，确定所述用户手势对应的所述演奏控制部位的控制变化；

执行单元，用于响应于所述控制变化，改变所述演奏控制部位的控制状态。

在其中一个实施例中，所述增强演奏场景合成控制装置还包括：

预览单元，用于将所述合成音视频流中的视频流投射到支持虚拟现实技术的视频显示单元，据以对所述合成音视频流中的视频流进行三维视角显示，同时将合成音视频流中的音频流推送到音频播放单元以进行音频播放。

与现有技术相比，本发明具有如下优点：

通过将构建得到的虚拟乐器图像结合到反映现实场景的网络直播间音视频流中而形成增强演奏场景，再经对用户手势的辨识和分析，使增强演奏场景中的虚拟乐器控制状态伴随用户手势而变化，再随着虚拟乐器控制状态的变化而调配与之相对应的声音，实现演奏图像与声音的良好同步，使得演奏者只要施展演奏动作即可达到演奏乐曲的目的，由此取得通过增强演奏场景进行虚拟乐器演奏并进行网络直播的效果。又由于增强演奏场景合成控制方法中的演奏者图像、虚拟乐器和直播间场景均为预先设定，演奏者可任意挑选需要展示的形象、需要使用的乐器以及演奏背景，使虚拟乐器演奏直播突破了演奏者形象、演奏场地和演奏乐器的限制，节省了乐器演奏直播成本，并极大丰富了网络直播的内容。

附图说明

图1为本发明一实施例的增强演奏场景合成控制方法的流程图；

图2为本发明一实施例的增强演奏场景合成控制方法中步骤S100的具体流程图；

图3为本发明一实施例的增强演奏场景合成控制方法中步骤S200的具体流程图；

图4为本发明另一实施例的增强演奏场景合成控制方法中步骤S200的具体流程图；

图5为本发明一实施例的增强演奏场景合成控制装置结构示意图；

图6为本发明一实施例的增强演奏场景合成控制装置中音视频融合模块的结构示意图；

图7为本发明另一实施例的增强演奏场景合成控制装置中音视频融合模块的结构示意图；

图8为本发明一实施例的增强演奏场景合成控制装置中输出模块的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

增强现实技术是一种将真实世界信息和虚拟世界信息“无缝”集成的技术，包含了多媒体、三维建模、实时视频显示及控制、多传感器融合、实时跟踪及注册、场景融合、虚拟现实(VR)等新技术，是把原本在现实世界的一定时间空间范围内很难体验到的实体信息(视觉、听觉、触觉甚至味觉等)，通过计算机技术、传感器技术、摄像技术等，对某种或某几种情景进行模拟仿真后再叠加，将虚拟的信息应用到真实世界，使真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在，再通过特定的仪器被人类感官所感知，从而达到超越现实的感官体验。

虚拟现实(VR)也是多种技术的综合，包括实时三维计算机图形技术，广角(宽视野)立体显示技术，对观察者头、眼和手的跟踪技术，以及触觉/力觉反馈、立体声、网络传输、语音输入输出技术等。

本发明一实施例提供了一种增强演奏场景合成控制方法，如图1所示，该增强演奏场景合成控制方法包括下列步骤：

步骤S100：添加预定的虚拟乐器的对应图像到从摄像单元获取且将被推送到直播间的音视频流中。

在进行乐器演奏直播过程中，需要有演奏者、乐器、演奏场地场景以及录音摄像设备等，而现有的网络直播中只需要有摄像头、话筒以及接入互联网的电脑即可实现，如果进行乐器演奏网路直播，则需要将二者所需要的设备人员结合起来。引入虚拟乐器，可以将现实的乐器省去，改由现有的VR构建技术生成，这将突破乐器种类的限制，在一个特定场所，不论大小的场所，都可以进行各种乐器的演奏直播。虚拟乐器由支持VR技术的设备生成，现有的VR设备有很多，而本发明中只需要使用VR技术生成具有特定乐器的3D模型场景以及产生特定乐器的声音，基本需求能够十分方便地得到实现。虚拟乐器经支持虚拟现实技术的环境模拟模块在预定物体上形成，同时交互模块在预定物体上注入交互界面，比如如果需要钢琴，则在一张普通桌面上投射交互界面，如果是笛子，则可在一根类似笛子的长棒上注入交互界面，交互界面可选择可见方式(即使用者之外的第三人可以看见)，也可选择不可见方式，但是不可见方式的交互界面能够在特定显示仪器中显示(比如VR头盔)，在交互界面上由匹配虚拟现实技术的传感器采集肢体运动的信息，更为详细具体的虚拟乐器生成方式可由相关技术领域的技术人员构建。通过VR技术生成预定的虚拟乐器之后，将虚拟乐器对应的图像添加到直播间的音视频流中。

直播间本身存在各种音视频流，这些音视频流包括直播间所处的场景图像以及演奏者的三维图像，该音视频流可以通过计算机进行图像和/或声音的编辑。其中演奏者三维图像获取自计算机形成的三维模型，该三维模型既包括经计算机计算形成的使用者三维虚拟形象，又可以选用计算机三维动画形成的动画形象。对于使用者三维虚拟形象的得来包括两个步骤，首先由实景摄像机对演奏者进行全方位影像采集，例如站姿六视图、坐姿六视图、演奏姿势六视图以及各角度动态影像等等，视图影像的数据越多，记录角度越精细，能够生成的使用者三维虚拟形象越接近真人形象，在演奏时更是需要实时采集演奏者的实景影像，实景影像采集自设定数量的摄像机，摄像机设置在预定位置，例如在演奏者的头顶、背后、面前以及左右侧都分别设置若干台摄像机，摄像机可采用3D摄像机；再由计算机通过3D影像合成技术处理获取到的实景影像数据形成为演奏者的三维虚拟形象，该三维虚拟形象通过现有三维视频图像软件可以很方便地实现，本领域技术人员通过相关软件即可完成。当然也可以选择计算机三维动画作为演奏者三维图像，直接使用计算机即可实现这一技术特征，然而此时却使得演奏网路直播并不完全接近于真实，但可以大幅度降低直播成本，因此也能够有很广泛的应用。无论演奏者三维图像以三维虚拟形象的形式还是以三维动画的形式出现，其表现的动作直接与真实存在的人(即演奏者)的动作保持同步。

优选的，如图2所示，添加预定的虚拟乐器的对应图像到从摄像单元获取且将被推送到直播间的音视频流中的步骤包括：

步骤S110：确定被用户选择的预定的虚拟乐器的乐器类型，获取与所述乐器类型相对应的配置文件。首先用户在可供选择的虚拟乐器库中选定其中一个，系统确认被选择的乐器种类，并获取到与所选择的乐器类型相对应的配置文件，该配置文件包括一系列描述信息，这些描述信息指定到与虚拟乐器对应的三维图像，例如在钢琴、吉他、小提琴、笛子或二胡等等乐器库中，用户选择其中的钢琴，则在系统中会加载到与钢琴相关的配置文件，该配置文件指定到与钢琴相对应的三维图像。

步骤S120：调取所述配置文件中所指定的虚拟乐器的对应图像。

根据配置文件中的描述，将用户选择到的虚拟乐器所对应的图像从系统数据库中调取出来，例如调出虚拟钢琴的三维图像。

步骤S130：通过特定图像合成算法将所述对应图像合并到所述直播间的音视频流中。

调取到虚拟乐器的对应三维图像，通过系统后台运行的某些图像处理软件，通过特定的图像合成算法将其与直播间既有的音视频流合并，实现在直播间的音视频流中加载呈现出虚拟乐器的图像，具体操作方法相关领域技术人员能够知晓。

步骤S200：从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势，伴随该用户手势在该音视频流的图像流中改变演奏控制部位的控制状态，且调用与该虚拟乐器相对应的音频配置信息，生成插入到该音视频流中的与该演奏控制部位的控制状态相适应的音频流。

在直播间中出现与演奏者对应的演奏者三维图像以及演奏者持握的虚拟乐器三维图像之后，演奏过程进入待演奏状态，此时需要将现实中的演奏者演奏动作被系统捕捉并感知到，即系统从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势，在演奏者三维图像中用户手势最为关键，尤其是进入虚拟乐器演奏控制部位的用户手势，虚拟乐器演奏控制部位例如钢琴的键盘、小提琴或二胡等弦乐器的琴弓、笛子等管乐器的孔位，而用户手势即是手部手指的动作，利用指尖跟踪识别算法可以实现实际演奏者与虚拟乐器的交互。指尖跟踪识别算法有多种，例如Camshift(ContinuouslyAdaptive Mean-SHIFT)算法或者特征空间匹配法等都能够实现对手指动作的检测和跟踪。伴随用户手势在该音视频流的图像流中改变演奏控制部位的控制状态，即通过指尖跟踪识别算法实现实际演奏者演奏动作与演奏者三维图像在虚拟乐器上的相关之后，伴随演奏者的每一个动作，演奏者三维图像也相应在虚拟乐器上形成演奏动作，而演奏动作本质上是演奏控制部位的控制状态的变化，比如某一个琴键被按下或者笛子的某一个发音孔被放开等。而一旦演奏控制部位的控制状态有变化，则相应调取与该虚拟乐器相对应的音频配置信息，生成插入到该音视频流中的与该演奏控制部位的控制状态相适应的音频流，这些音频配置信息包括虚拟乐器的声音音色、音调和音高等，以钢琴为例，音频配置信息中包括钢琴发出声音的音色，也包括钢琴每个琴键对应的音调和音高等描述声音的元素，该音频配置信息可以由独立的声音配置文件描述和指定，也可以在与虚拟乐器相对应的配置文件中被描述和指定，并且与某一虚拟乐器对应的三维图像相匹配，每一帧三维图像都对应着一定时长的乐器声音，最后使得连贯的图像与连贯的声音相匹配，形成带有乐曲的演奏画面。

优选的，如图3所示，从音视频流中的图像流中识别出作用于虚拟乐器的演奏控制部位的用户手势的步骤具体为：

步骤S210：获取图像流中的演奏者三维图像，分割出其中人手部分的三维图像数据信息。例如利用微软的Kinect设备获取演奏者三维图像的深度信息，利用SVM方法同肤色识别相结合分割出人手部分。

步骤S220：利用预定算法检测出所述人手部分的三维图像数据信息中的手指信息数据，并形成手指运动轨迹的信息数据。分割出人手部分之后，再利用SVM方法或者其他指尖跟踪识别算法实现对手指的检测和跟踪，形成人手手指运动的轨迹信息数据。

步骤S230：将手指运动轨迹的信息数据与所述演奏控制部位的信息数据进行数学合并，据以实现识别出作用于该虚拟乐器的演奏控制部位的用户手势。根据步骤S220形成人手手指运动的轨迹信息数据之后，通过相关数学处理，例如将手指指尖三维运动的轨迹坐标同虚拟乐器三维模型数据相结合或相对比等处理，实现对演奏动作的识别。

优选的，如图4所示，伴随用户手势在音视频流的图像流中改变演奏控制部位的控制状态的步骤具体包括：

步骤S210’：检测到用户手势的帧信息满足据以判定演奏控制部位的控制变化的参考信息，以预定时间间隔连续记录用户手势的帧信息并得到累积帧数。

在计算机中，人们看到的任何视频都是由一系列的图片按照一定速率连贯放映形成的，描述这一系列图片中的一副所用的单位为帧，一帧就是一副静止的画面，连续的帧就形成动画。系统对具有用户手势的图像流进行分析，检测到某一用户手势对应的帧信息(即图像流中的某一副或若干幅图像)满足判定演奏控制部位的控制变化的参考信息，这样的参考信息可能是图像中用户手势离某一演奏控制部位的距离，也可能是图像中某一用户手势在某一演奏控制部位的位置。当系统检测到第一幅这样的帧信息，系统将判断演奏者可能进行乐器上某一个音的演奏，从而开始按照预定的时间间隔连续记录用户手势的帧信息得到一定的累积帧数，此项技术内容是为了记录用户手势的变化趋势，防止系统在演奏者只是将要碰触到乐器时就发出演奏声音。

步骤S220’：当所述累积帧数达到预定帧数，确定所述用户手势对应的所述演奏控制部位的控制变化。一旦满足控制变化的参考信息的帧数的累积数量得到预定数量，则系统确定用户手势对应的演奏动作，确定要进行演奏控制部位的控制变化。此项步骤是对用户手势的变化趋势进行分析之后，得到一个准确的变化结果，使乐器演奏更加精准。

步骤S230’：响应于控制变化，改变演奏控制部位的控制状态。确定用户手势对应的演奏控制部位的控制变化之后，改变演奏控制部位的控制状态，比如琴键被按下，或者琴弦的位置转移，于此同时，发出相应控制状态对应的乐器声音。在技术原理层面上看，由于视频是由一定数量的帧以一定速率播放形成的，只有通过分析若干帧的画面确实代表演奏者在敲击某一个音键时，该音键的声音才被调配发生出来，所以实际上是演奏者的实际演奏与直播间中的声音发出之间有一些时间延迟，即二者并不是完全同步，但是计算机处理速度很快，这样的时间延迟十分短暂，可以达到观众不可察觉的程度。

经过步骤S200，系统将来源于VR设备的虚拟乐器三维图像与直播间中的音视频流合并，通过实景影像摄录设备(例如双目摄像机)或者指尖识别跟踪设备(例如微软的Kinect设备，3D体感摄影机的一种)，摄取演奏者的用户三维图像特别是用户手势，将其与虚拟乐器三维图像联动，并伴随该联动发出被选中的虚拟乐器的声音，最后得到虚拟乐器的对应图像的图像流和直播间音频流的合成音视频流。

步骤S300：将包含有所述图像流和所述音频流的合成音视频流推送到所述的直播间。

在合成音视频流生成之后，可以将其再推送到直播间当中，通过相关设备对外播出，直播间中的观众能够看到演奏者演奏乐器的场景，听到演奏出来的声音。优选的，在推送到直播间之前，先将该合成音视频流进行三维视角显示，通过三维显示设备预览演奏过程，同时在音频播放单元中播放合成音视频流中的音频流，一方面为演奏者自身提供一个演奏过程的三维视角，让其完全沉浸在接近真实的演奏场景之中，实现增强现实方式的演奏，另一方面也为视频质量提供一个检查的途径，从而保证演奏网络直播的高质量进行。

优选的，在向直播间推送合成音视频流的过程中，将合成音视频流通过预定压缩编码算法进行压缩编码，再推送到直播间当中，例如通过H264编码将合成音视频流进行压缩编码，再上传到服务器，服务器再分发到各个观众用户客户端解码，观众观看虚拟乐器的直播表演。当然，现有三维显示技术尚未普及，所以可以将三维格式的合成音视频流转变为二维格式，再向直播间推送播出。

适应前述的方法，基于计算机模块化思维，本发明的另一实施例提供一种增强演奏场景合成控制装置，如图5所示，包括：

图像合并模块10，用于添加预定的虚拟乐器的对应图像到从摄像单元获取且将被推送到直播间的音视频流中。通过VR技术生成预定的虚拟乐器之后，图像合并模块10将虚拟乐器对应的图像添加到直播间的音视频流中。直播间本身已经存在各种音视频流，这些音视频流包括直播间所处的场景图像以及演奏者的三维图像，该音视频流可以通过计算机进行图像和/或声音的编辑，比如根据用户的喜好选择不同的直播间渲染颜色、风格以及大小等，调整演奏者三维图像类型以及外观等。

音视频融合模块20，用于从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势，伴随该用户手势在该音视频流的图像流中改变所述演奏控制部位的控制状态，且调用与该虚拟乐器相对应的音频配置信息，生成插入到该音视频流中的与该演奏控制部位的控制状态相适应的音频流。

音视频融合模块20解决的是将演奏者、虚拟乐器以及二者所处的场景与声音匹配起来，达到伴随着视频流中演奏状态的变化准确播放与演奏状态变化相适应的声音的目的。在直播间中出现与演奏者对应的演奏者三维图像以及演奏者持握的虚拟乐器三维图像之后，演奏进入待演奏状态，此时需要将现实中的演奏者演奏动作被系统捕捉并感知到，即系统从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势，在演奏者三维图像中用户手势最为关键，尤其是进入虚拟乐器演奏控制部位的用户手势，而用户手势即是手部手指的动作，利用指尖跟踪识别算法可以实现实际演奏者与虚拟乐器的交互。伴随用户手势在该音视频流的图像流中改变演奏控制部位的控制状态，即通过指尖跟踪识别算法实现实际演奏者演奏动作与演奏者三维图像在虚拟乐器上的相关之后，伴随演奏者的每一个动作，演奏者三维图像也相应在虚拟乐器上形成演奏动作，而演奏动作本质上是演奏控制部位的控制状态的变化，一旦演奏控制部位的控制状态有变化，则系统中的音视频融合模块20相应调取与该虚拟乐器相对应的音频配置信息，生成插入到该音视频流中的与该演奏控制部位的控制状态相适应的音频流，这些音频配置信息包括虚拟乐器的声音音色、音调和音高等，以钢琴为例，音频配置信息中包括钢琴发出声音的音色，也包括钢琴每个琴键对应的音调和音高等描述声音的元素，该音频配置信息可以由独立的声音配置文件描述和指定，也可以在与虚拟乐器相对应的配置文件中被描述和指定，并且与某一虚拟乐器对应的三维图像相匹配，每一帧三维图像都对应着一定时长的乐器声音，最后使得连贯的图像与连贯的声音相匹配，形成带有乐曲的演奏画面。

优选的，如图6所示，音视频融合模块20包括：

解析单元21：用于获取图像流中的演奏者三维图像，分割出其中人手部分的三维图像数据信息。例如利用微软的Kinect设备获取演奏者三维图像的深度信息，利用SVM方法同肤色识别相结合分割出人手部分。

运算单元22：用于利用预定算法检测出所述人手部分的三维图像数据信息中的手指信息数据，并形成手指运动轨迹的信息数据。

辨识单元23：用于将手指运动轨迹的信息数据与所述演奏控制部位的信息数据进行数学合并，据以实现识别出作用于该虚拟乐器的演奏控制部位的用户手势。

作为另一个优选的方案，如图7所示，音视频融合模块20包括：

检测单元21’：检测到用户手势的帧信息满足据以判定演奏控制部位的控制变化的参考信息，以预定时间间隔连续记录用户手势的帧信息并得到累积帧数。

识别单元22’：用于当所述累积帧数达到预定帧数，确定所述用户手势对应的所述演奏控制部位的控制变化。一旦满足控制变化的参考信息的帧数的累积数量得到预定数量，则系统确定用户手势对应的演奏动作，确定要进行演奏控制部位的控制变化。此项步骤是对用户手势的变化趋势进行分析之后，得到一个准确的变化结果，使乐器演奏更加精准。

执行单元23’：用于响应于控制变化，改变演奏控制部位的控制状态。确定用户手势对应的演奏控制部位的控制变化之后，改变演奏控制部位的控制状态，比如琴键被按下，或者琴弦的位置转移，于此同时，发出相应控制状态对应的乐器声音。

输出模块30，用于将包含有所述图像流和所述音频流的最终音视频流推送到所述的直播间。

音视频融合模块20生成合成音视频流之后，输出模块30可以将其再推送到直播间中，通过相关设备对外播出，使直播间中的观众能够看到演奏者演奏乐器的场景，听到演奏出来的声音。

优选的，如图8所示，增强演奏场景合成控制装置中的输出模块30还包括：

预览单元31：用于将所述合成音视频流中的视频流投射到支持虚拟现实技术的视频显示单元，据以对所述合成音视频流中的视频流进行三维视角显示，同时将合成音视频流中的音频流推送到音频播放单元以进行音频播放。在推送到直播间之前，先将该合成音视频流进行三维视角显示，通过三维显示设备预览演奏过程，同时在音频播放单元中播放合成音视频流中的音频流，一方面为演奏者自身提供一个演奏过程的三维视角，让其完全沉浸在接近真实的演奏场景之中，实现增强现实方式的演奏，另一方面也为视频质量提供一个检查的途径，从而保证演奏网络直播的高质量进行。

为便于本领域技术人员更容易理解本发明的实现方式，以下示例叙述实际场景中如何通过增强演奏场景合成控制方法实现虚拟乐器演奏的网络直播的：

在配置有增强演奏场景合成控制装置的场地内，演奏者打开直播间界面，选择虚拟乐器演奏直播，进入虚拟乐器演奏直播界面之后，首先选择界面上提供的虚拟乐器中的一个，比如钢琴，再选择直播间界面，例如在音乐教室当中，还可以选择在直播间视频中的演奏者三维图像，比如选择计算机形成的演奏者的三维模型(需要预先通过计算机以相关三维模拟技术生成)。系统开始生成钢琴，演奏者眼前戴有VR设备，能够通过该设备看到面前的钢琴，而除演奏者之外的其他人能通过直播间的视频界面看到演奏者坐在钢琴前面，或者通过预览设备观察到演奏者坐在钢琴前面，而在现实世界当中，演奏者只是坐在一张空无一物的桌子面前，头戴VR设备。或者由支持增强现实技术的设备在演奏者面前的桌子上投放出一台钢琴的三维立体影像，演奏者可以直接看到钢琴，在现场的其他人也能看到这台钢琴，而钢琴的键盘在桌面上(以免在没有桌子或者其他支撑物的情况下，演奏者双手悬空会演奏比较吃力)。演奏者开始敲击钢琴琴键(实际场景中为桌面)，如在正常钢琴上演奏，场地内的摄影捕捉设备，如3D体感摄影机，可选用微软公司的Kinect，捕捉到演奏者的动作，特别是手指的运动轨迹，伴随该演奏者手指的运动，直播间的视频中显示演奏者在相应演奏钢琴，演奏者每敲击一个琴键，增强演奏场景合成控制装置中的音响设备相应发出敲击这个琴键产生的声音，敲击时间长，声音相应持续时间长，敲击时间短，则相应持续时间短促，重击和轻敲均发出不同音量的声音，整体的效果是在直播间视频中可以观察到演奏者在演奏钢琴，发出演奏产生的音乐，而其他登录该网络直播间的观众在其电脑中的视频播放界面上就看到演奏者在钢琴上演奏某一乐曲，如同现场直播。如果播放设备具备播放三维视频的能力，直播间视频的观众将看到三维立体的乐器演奏场景，听到乐器演奏出来的音乐，如果播放设备暂不具备播放三维视频的能力，观众将看到目前普遍具有的二维演奏画面，同样听到演奏者用所选乐器演奏出的声音。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种增强演奏场景合成控制方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的增强演奏场景合成控制方法，其特征在于，所述伴随该用户手势在该音视频流的图像流中改变所述演奏控制部位的控制状态的步骤具体包括：

响应于所述控制变化，改变所述演奏控制部位的控制状态。

3.根据权利要求1所述的增强演奏场景合成控制方法，其特征在于，添加预定的虚拟乐器的对应图像到从摄像单元获取且将被推送到直播间的音视频流中的步骤包括：

调取所述配置文件中所指定的虚拟乐器的对应图像；

4.根据权利要求1所述的增强演奏场景合成控制方法，其特征在于，所述直播间的音视频流中包括演奏者三维图像和预设直播间场景图像，所述演奏者三维图像获取自计算机形成的三维模型，该三维模型包括由实景影像经计算机计算形成的使用者三维虚拟形象，或

由计算机三维动画形成的动画形象。

5.根据权利要求1所述的增强演奏场景合成控制方法，其特征在于，将包含有所述图像流和所述音频流的合成音视频流推送到所述的直播间的步骤还包括，将所述合成音视频流通过预定压缩编码算法进行压缩编码，再推送到所述直播间。

6.根据权利要求1所述的增强演奏场景合成控制方法，其特征在于，从该音视频流中的图像流中识别出作用于该虚拟乐器的演奏控制部位的用户手势的步骤具体为：

7.根据权利要求1所述的增强演奏场景合成控制方法，其特征在于，所述将包含有所述图像流和所述音频流的合成音视频流推送到所述的直播间的步骤之前还包括，将所述合成音视频流中的视频流投射到支持虚拟现实技术的视频显示单元，据以对所述合成音视频流中的视频流进行三维视角显示，同时将合成音视频流中的音频流推送到音频播放单元以进行音频播放。

8.一种增强演奏场景合成控制装置，其特征在于，包括：

输出模块，用于将包含有所述图像流和所述音频流的最终音视频流推送到所述的直播间。

9.根据权利要求8所述的增强演奏场景合成控制装置，其特征在于，所述音视频融合模块包括：

检测单元，用于检测到所述用户手势的帧信息满足据以判定所述演奏控制部位的控制变化的预设帧信息，以预定时间间隔连续记录所述用户手势的帧信息并得到累积帧数；

10.根据权利要求8所述的增强演奏场景合成控制装置，其特征在于，所述输出模块还包括：