CN112752149A

CN112752149A - 直播方法、装置、终端及存储介质

Info

Publication number: CN112752149A
Application number: CN202011592216.3A
Authority: CN
Inventors: 付敏
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-05-04
Anticipated expiration: 2040-12-29
Also published as: CN112752149B

Abstract

本申请实施例提供一种直播方法、装置、终端及存储介质。该方法包括：获取第一图像流数据；在识别出第一图像流数据中人物的身体姿态为预设身体姿态时，基于预设身体姿态确定虚拟乐器；基于第一图像流数据中人物的手势变动信息，确定虚拟乐器对应的第二图像流数据，第二图像流数据包括虚拟乐器中控制部位的控制状态变化情况；将第二图像流数据发送至推流服务器。本申请实施例提供的技术方案，通过主播用户的手势变动信息虚拟乐器中控制部位的控制状态变化来模拟演奏乐器场景，使得直播乐器弹奏的过程无需受到乐器器材、场地因素等限制，更加简单易行。

Description

直播方法、装置、终端及存储介质

技术领域

本申请实施例涉及互联网技术领域，特别涉及一种直播方法、装置、终端及存储介质。

背景技术

目前，互联网服务厂商通过直播类应用程序面向用户提供直播服务。

相关技术中，主播用户通过表演才艺、打游戏等方式来吸引观众用户观看自己的直播。上述表演才艺包括弹奏乐器。

相关技术中，主播在直播自身弹奏乐器的过程中，会受到乐器器材、场地限制等因素的制约，直播弹奏乐器的难度较大。

发明内容

本申请实施例提供一种直播方法、装置、终端及存储介质，降低直播弹奏乐器的难度。所述技术方案如下：

一方面，本申请实施例提供一种直播方法，所述方法包括：

获取第一图像流数据；

在识别出所述第一图像流数据中人物的身体姿态为预设身体姿态时，基于所述预设身体姿态确定虚拟乐器；

基于所述第一图像流数据中所述人物的手势变动信息，确定所述虚拟乐器对应的第二图像流数据，所述第二图像流数据包括所述虚拟乐器中控制部位的控制状态变化情况；

将所述第二图像流数据发送至推流服务器。

另一方面，本申请实施例提供一种直播方法，所述方法包括：

显示直播画面；

在识别出所述直播画面中人物的身体姿态为预设身体姿态时，基于所述预设身体姿态在所述直播画面中显示虚拟乐器；

基于所述直播画面中所述人物的手势变动信息，控制所述虚拟乐器中控制部位的控制状态变化，并播放音频流。

又一方面，本申请实施例提供一种直播装置，所述装置包括：

数据获取模块，用于获取第一图像流数据；

第一确定模块，用于在识别出所述第一图像流数据中人物的身体姿态为预设身体姿态时，基于所述预设身体姿态确定虚拟乐器；

第二确定模块，用于基于所述第一图像流数据中所述人物的手势变动信息，确定所述虚拟乐器对应的第二图像流数据，所述第二图像流数据包括所述虚拟乐器中控制部位的控制状态变化情况；

直播推流模块，用于将所述第二图像流数据发送至推流服务器。

画面显示模块，用于显示直播画面；

乐器显示模块，用于在识别出所述直播画面中人物的身体姿态为预设身体姿态时，基于所述预设身体姿态在所述直播画面中显示虚拟乐器；

虚拟乐器控制模块，用于基于所述直播画面中所述人物的手势变动信息，控制所述虚拟乐器中控制部位的控制状态变化；

播放模块，用于播放音频流。

又一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如一方面所述的直播方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如一方面所述的直播方法。

又一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述直播方法。

本申请实施例提供的技术方案可以带来的有益效果至少包括：

通过在识别出主播用户的手部姿态处于弹奏虚拟乐器的准备状态时，通过主播用户的手势变动信息来控制虚拟乐器中控制部位(控制乐器发声的部位，比如钢琴琴键)的控制状态变化，以模拟弹奏乐器场景，此外，上述控制部位第二控制状态变化形成第二图像流数据，第二图像流数据由推流服务器转发至观众终端，供观众用户观看，通过主播用户的手势变动信息虚拟乐器中控制部位的控制状态变化来模拟演奏乐器场景，使得直播乐器弹奏的过程无需受到乐器器材、场地因素等限制，更加简单易行。

附图说明

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的直播方法的流程图；

图3是本申请另一个实施例提供的直播方法的流程图；

图4是本申请一个实施例提供的弹奏虚拟乐器的界面示意图；

图5是本申请一个实施例提供的显示弹奏得分的界面示意图；

图6是本申请一个实施例提供的直播装置的框图；

图7是本申请另一个实施例提供的直播装置的框图；

图8是本申请一个实施例提供的终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请一个实施例提供的实施环境的示意图。该实施环境包括：主播终端11、推流服务器12。

主播终端11安装有直播类应用程序，主播用户可以通过该直播类应用程序发起直播、发起直播对战、观看直播等等。主播终端11可以是智能手机、平板电脑、个人计算机(Personal Computer，PC)等等。

在本申请实施例中，主播终端11支持主播用户在直播过程中弹奏虚拟乐器，虚拟乐器包括且不限于虚拟钢琴、虚拟吉他、虚拟小提琴、虚拟大提琴、虚拟竖笛等等。弹奏过程中，主播终端11采集主播用户的图像流数据，以及获取上述虚拟乐器的图像流数据，将二者合成，得到直播流数据。需要说明的是，虚拟乐器的图像流数据基于主播用户的图像流数据确定。

推流服务器12用于接收主播终端11发送的直播流数据，并将直播流数据推送至其他终端(例如观众终端)。可选地，推流服务器12是上述直播类应用程序对应的后台服务器。推流服务器12可以是一台服务器，也可以是多台服务器组成的服务器集群，还可以是一个云计算服务中心。

可选地，该实施环境还包括至少一个观众终端13，观众终端13也安装有直播类应用程序，观众用户可以通过该直播类应用程序观看直播等等。观众终端13可以是智能手机、平板电脑、个人计算机等等。

主播终端11与服务器12之间通过无线网络或有线网络建立通信连接。观众终端13与服务器12之间通过无线网络或有线网络建立通信连接。

上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是其它任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本申请实施例提供一种直播方法，通过在识别出主播用户的手部姿态处于弹奏虚拟乐器的准备状态时，通过主播用户的手势变动信息来控制虚拟乐器中控制部位(控制乐器发声的部位，比如钢琴琴键)的控制状态变化，以模拟弹奏乐器场景，此外，上述控制部位第二控制状态变化形成第二图像流数据，第二图像流数据由推流服务器转发至观众终端，供观众用户观看，通过主播用户的手势变动信息虚拟乐器中控制部位的控制状态变化来模拟演奏乐器场景，使得直播乐器弹奏的过程无需受到乐器器材、场地因素等限制，更加简单易行。

图2是本申请一个实施例提供的直播方法的流程图。该方法应用于图1所示的主播终端。该方法包括：

步骤201，获取第一图像流数据。

第一图像流数据是主播终端通过摄像组件采集得到的。该摄像组件独立于主播终端之外，且与主播终端建立有连接；或者，该摄像组件是设置在主播终端上的。第一图像流数据包括正在直播的主播用户的图像数据。需要说明的是，步骤201为持续过程。

步骤202，在识别出第一图像流数据中人物的身体姿态为预设身体姿态时，基于预设身体姿态确定虚拟乐器。

主播终端对第一图像流数据进行识别，来确定第一图像流数据中人物的身体姿态，进而确定是否要开始虚拟乐器演奏流程，以及弹奏何种虚拟乐器。在一种可能的实现方式中，上述人物的身体姿态包括手势。在另一种可能的实现方式中，上述人物的身体姿态包括手势以及身体姿势。

虚拟乐器的数量可以是一个，也可以是多个。可选地，在识别出所述第一图像流数据中存在多个人物时，基于人物数量来显示虚拟乐器，以支持多人演奏场景。当虚拟乐器为多个时，虚拟乐器的类型可以相同，也可以不相同。可选地，在识别出所述第一图像流数据中存在多个人物时，基于人物的不同身体姿态来确定不同的虚拟乐器，以支持乐队演奏场景。具体地，终端先在第一图像视频流中识别出多个人物，对画面中的人物进行第一标记，确定人物数量，然后将该多个人物的身体姿态和手势姿态进行识别，然后显示相应的多个虚拟乐器，并对各个乐器进行第二标记，第二标记与第一标记一一对应，这样可以支持多个主播分别调整自己的虚拟乐器的位置和大小。可选地，主播终端在第一对应关系中查找预设手势对应的虚拟乐器，预设手势包括不同手势与不同虚拟乐器之间的对应关系。上述第一对应关系由开发人员预先设定。表-1示例性示出了第一对应关系。

手部姿态	虚拟乐器
		手掌向下摊开	钢琴
大拇指、食指、小拇指竖起	吉他
		食指竖起	笛子

表-1

可选地，主播终端在第二对应关系中查找与预设手势、预设身体姿态均对应的虚拟乐器，第二对应关系包括不同手势、不同身体姿势与不同虚拟乐器之间的对应关系。示例性地，将手部放置在嘴边的姿势对应的虚拟乐器为长笛、箫等；坐下双手平放的姿势可以对应钢琴或者古筝。

可选地，主播终端在识别出第一图像流数据中人物的身体姿态为预设身体姿态的持续时长达到预设时长时，确定预设手部姿态对应的虚拟乐器。预设时长根据实际需求设定，示例性地，预设时长为2秒。通过上述方式，减小主播用户在无意识情况下也能做出上述预设手部姿态，且不想弹奏虚拟乐器的识别概率，减少误判断。

可选地，主播终端在采集的音频流数据中识别出指定关键字时，开启对第一图像流数据的识别流程。上述指定关键字由技术人员设定，其可以是虚拟乐器的名称，也可以是演奏、弹奏等等。通过上述方式，避免主播终端始终处于识别流程，节省主播终端功耗。

在其他可能的实现方式中，主播终端在直播画面中显示虚拟乐器选项，在接收到对应于目标虚拟乐器的选择信号后，将目标虚拟乐器确定为待弹奏的虚拟乐器。

可选地，主播终端确定虚拟乐器之后，还确定虚拟乐器的显示位置和尺寸。虚拟乐器的显示位置基于用于弹奏虚拟乐器的人体部位确定。需要说明的是，人物的手势或者身体姿态不同时，虚拟乐器的显示位置也不同，例如对于吉他而言既可以坐着弹奏也可以站着弹奏，两种弹奏姿势显示的乐器位置也是不一样的。虚拟乐器的尺寸基于人物的大小比例确定。

可选地，虚拟乐器的显示位置是可以调整的。可选地，其根据主播终端接收到的第一触发信号进行调整。可选地，虚拟乐器的大小也是可以调整的。可选地，其根据主播终端接收到的第二触发信号进行调整。

步骤203，基于第一图像流数据中人物的手势变动信息，确定虚拟乐器对应的第二图像流数据。

第一图像流数据中所述人物的手势变动信息由主播终端采集得到，或者，由主播终端基于当前帧之前的手势变动信息预测得到。

第二图像流数据包括虚拟乐器中控制部位的控制状态变化情况。虚拟乐器的控制部位，根据实际生活中控制乐器发声的部位来确定。例如，控制钢琴发声的部位是琴键，则虚拟钢琴的控制部位是虚拟琴键。再例如，控制吉他发声的部位是吉他弦，则虚拟吉他的控制部分是虚拟吉他弦。

在本申请实施例中，主播用户控制自身手势变动，主播终端采集该过程作为第一图像流数据，在手势变动过程中，虚拟乐器中的控制部位的控制状态发声变化，例如，主播用户的一根手指下压，则虚拟钢琴中的虚拟琴键由原始状态切换至按压状态，通过上述方式来模拟乐器演奏场景，使得直播弹奏乐器的过程不会受到工具、场地的限制，提升直播多样性。

可选地，步骤203包括如下子步骤：

步骤203a，采集第一图像流数据中人物在第i个帧段的手势变动信息，i为正整数。

第i个帧段是指当前帧之前的帧集合，本申请实施例对第i个帧段所包括的帧数量不作限定。

步骤203b，基于第一图像流数据中人物在第i个帧段的手势变动信息，预测第一图像流数据中人物在第i+1个帧段内的手势变动信息。

第i+1个帧段是指当前帧之后的帧集合，本申请实施例对第i+1个帧段所包括的帧数量不作限定。第i个帧段所包括的帧数量与第i+个帧段所包括的帧数量可以相同，也可以不相同。

可选地，主播终端通过手势预测模型来对第一图像流数据中人物在第i个帧段的手势变动信息进行处理，以预测第一图像流数据中人物在第i+1个帧段内的手势变动信息。其中，手势预测模型是指通过样本手势对机器学习网络进行训练得到的。

步骤203c，基于第一图像流数据中人物在第i+1个帧段内的手势变动信息，和虚拟乐器对应的音频流数据，确定虚拟乐器对应的第二图像流数据。

步骤204，将第二图像流数据发送至推流服务器。

主播终端将第二图像流数据发送至推流服务器，推流服务器将上述第二图像流数据推送至直播间内的各个观众终端，使得观众用户能观看到主播用户弹奏虚拟乐器。

在一种可能的实现方式中，主播终端将第一图像流数据、第二图像流数据以及音频流数据也发送至推流服务器，推流服务器将上述数据合成，得到直播流数据，然后将直播流数据推送至其他观众终端。在另一种可能的实现方式中，主播终端将第一图像流数据、第二图像流数据以及音频流数据合成，得到直播流数据，然后将直播流数据发送至推流服务器，由推流服务器转发至其他观众终端。

综上所述，本申请实施例提供的技术方案，通过在识别出主播用户的手部姿态处于弹奏虚拟乐器的准备状态时，通过主播用户的手势变动信息来控制虚拟乐器中控制部位的控制状态变化，以模拟弹奏乐器场景，此外，上述控制部位第二控制状态变化形成第二图像流数据，第二图像流数据由推流服务器转发至观众终端，供观众用户观看，通过主播用户的手势变动信息虚拟乐器中控制部位的控制状态变化来模拟演奏乐器场景，使得直播乐器弹奏的过程无需受到乐器器材、场地因素等限制，更加简单易行。

在基于图2所示实施例提供的可选实施例中，该直播方法还包括如下步骤：

步骤205，获取虚拟乐器对应的音频流数据。

虚拟乐器对应的音频流数据，是指期望通过虚拟乐器演奏的曲目的音频流数据。在一种可能的实现方式中，主播终端保存有虚拟乐器与音频流数据之间的对应关系，通过上述对应关系来获取虚拟乐器对应的音频流数据。在另一种可能的实现方式中，主播终端显示曲目列表，在接收到对应于曲目列表中的目标曲目的选择信号后，将该目标曲目的音频流数据确定为虚拟乐器对应的音频流数据。

步骤206，获取音频流数据对应的手势集合。

音频流数据对应的手势集合是指弹奏该音频流数据对应的曲目所需的手势的集合，其由相关技术人员预先配置。在该手势集合中，各个手势按照其对应的节奏在该曲目中所处的位置依次排序。

步骤207，将第一图像流数据中人物的手势变动信息，与音视频数据对应的手势集合进行比对，得到演奏得分。

可选地，主播终端通过手部姿态模型实时对第一图像流数据中人物的手势变动信息进行处理，得到第一手部关键点位置以及第一动态方向，通过曲谱模型来确定实时音频对应的第二手部关键点位置以及第二动态方向，之后将第一手部关键点位置和第二手部关键点位置进行匹配，将第一动态方向与第二动态方向进行匹配，若上述两个匹配结果均在误差范围内，则说明手部关键点位置及动态方向均匹配，此时对用户计分，否则不计分。之后，将第一图像流数据中每个手势的得分进行累计，得到演奏得分。

需要说明的是，上述手部姿态模型是通过样本手部姿态对机器学习网络训练得到的。上述曲谱模型是通过样本曲谱对机器学习网络进行训练得到的。

在其他可能的实现方式中，主播用户直播交响乐曲的指挥过程，主播终端通过手部姿态模型对采集到的图像流数据进行处理，得到第三手部关键点位置以及第三动态方向，通过曲谱模型对所指挥的乐曲的曲谱进行分析，得到第四手部关键点位置以及第四动态方向，之后将第三手部关键点位置和第四手部关键点位置进行匹配，将第三动态方向与第四态方向进行匹配，若上述两个匹配结果均在误差范围内，则说明手部关键点位置及动态方向均匹配，此时对用户计分，否则不计分。之后，将采集到的图像流数据中每个手势的得分进行累计，得到演奏得分。可选地，主播终端还将音频流对应的手势集合的图像流数据发送至推流服务器，推流服务器将上述音频流对应的手势集合的图像流数据转发至其他观众终端，使得其他观众终端能在直播中观看到通过虚拟乐器弹奏某一曲目的标准手势。

在其他可能的实现方式中，确定演奏得分的流程还可以包括如下步骤：获取虚拟乐器对应的第一音频；基于虚拟乐器中控制部位的控制状态变化情况获取第二音频；将第一音频与第二音频进行比对，得到演奏得分。第一音频也即是虚拟乐器对应的正常音频。第二音频也即是弹奏虚拟乐器的弹奏音频。主播终端将第一音频中的各个音符于第二音频中的各个音符逐一比对，若二者相同，则认为演奏正确，并对其进行计数，最终基于演奏正确的音符数量与总音符数量的比值确定演奏得分。

综上所述，本申请实施例提供的技术方案，还通过对主播用户弹奏虚拟乐器的过程进行打分，提升趣味性。

图3示出了本申请一个实施例提供的直播方法的流程图。该方法应用于图1中的主播终端。该方法包括：

步骤301，显示直播画面。

步骤302，在识别出直播画面中人物的身体姿态为预设身体姿态时，基于预设身体姿态在直播画面中显示虚拟乐器。

可选地，主播终端确定用于弹奏虚拟乐器的人体部位，并根据预设身体姿态确定虚拟乐器的尺寸，之后按照虚拟乐器的尺寸在直播画面中人体部位对应的位置处显示虚拟乐器。可选地，主播终端基于人物的大小比例确定虚拟乐器的尺寸。需要说明的是，人物的手势或者身体姿态不同时，虚拟乐器的显示位置也不同，例如对于吉他而言既可以坐着弹奏也可以站着弹奏，两种弹奏姿势显示的乐器位置也是不一样的。

在一个示例中，虚拟乐器为虚拟钢琴时，用于弹奏虚拟乐器的人体部位为手部，则主播终端在直播画面中手部所处的位置处显示虚拟乐器。在另一个示例中，虚拟乐器为笛子时，用于弹奏虚拟乐器的人体部位为嘴部，则主播终端在直播画面中嘴部所处的位置处显示虚拟乐器。

可选地，基于预设身体姿态在直播画面中显示虚拟乐器具体实现为：在直播画面上层显示第一图层。第一图层包括虚拟乐器，第一图层中除虚拟乐器之外的其他位置的透明度符合预设条件。上述预设条件可以是透明度为百分百。通过设置单独的图层来显示虚拟乐器，使得画面合成更加容易，也方便对虚拟乐器进行调整。

可选地，该直播方法还包括：根据虚拟乐器的类型，确定用于弹奏虚拟乐器的人体部位与虚拟乐器的显示关系；按照显示关系显示第二图层。

用于弹奏虚拟乐器的人体部位与虚拟乐器的显示关系可以是人体部位在上层显示，虚拟乐器在下层显示，或者，虚拟乐器在上层显示，人体部位在下层显示，其根据虚拟乐器的类型实际确定。第二图层包括用于弹奏虚拟乐器的人体部位。通过设置单独的图层来显示用于弹奏虚拟乐器的人体部位，使得弹奏效果更为逼真。

示例性地，弹奏吉他时，手和一部分胳膊应该在最顶层，乐器位于手和身体中间，身体在最底层，根据吉他的乐器类型确定出显示在最顶层的手和胳膊，识别该手和胳膊部位，将该手和胳膊分离出来，并设置成一个新的第二图层，并将虚拟乐器图层置于该第二图层之下

可选地，基于预设身体姿态在直播画面中显示虚拟乐器之后，该直播方法还包括：接收对虚拟乐器的第一触发信号；根据第一触发信号调整虚拟乐器的尺寸。第一触发信号可以是单击信号、双击信号、长按信号、滑动信号、拖动信号中的任意一种。主播终端支持主播用户调整虚拟乐器的尺寸，使得虚拟乐器与直播画面更为匹配。

可选地，基于预设身体姿态在直播画面中显示虚拟乐器之后，该直播方法还包括：接收对虚拟乐器的第二触发信号；根据第二触发信号调整虚拟乐器的显示位置。第二触发信号可以是单击信号、双击信号、长按信号、滑动信号、拖动信号中的任意一种。在本申请实施例中，仅以第二触发信号为拖动信号为例进行讲解。主播终端支持主播用户调整虚拟乐器的显示位置，使得虚拟乐器与直播画面更为匹配。

可选地，基于预设身体姿态在直播画面中显示虚拟乐器之后，该直播方法还包括：接收对虚拟乐器的第三触发信号；根据第三触发信号复制虚拟乐器。第三触发信号可以是单击信号、双击信号、长按信号、滑动信号、拖动信号中的任意一种。可选地，第一触发信号，第二触发信号和第三触发信号互不相同。步骤303，基于直播画面中人物的手势变动信息，控制虚拟乐器中控制部位的控制状态变化，并播放音频流。

主播终端所显示的直播画面中，虚拟乐器中控制部位的控制状态随着主播用户的手势变动实时变化，并伴随有播放音频流，以模拟弹奏乐器场景。

在一种可能的实现方式中，主播终端保存有虚拟乐器与音频流之间的对应关系，通过上述对应关系来获取虚拟乐器对应的音频流。在另一种可能的实现方式中，主播终端显示曲目列表，在接收到对应于曲目列表中的目标曲目的选择信号后，将该目标曲目的音频流确定为虚拟乐器对应的音频流。在又一种控能的实现方式中，基于虚拟乐器中控制部位的控制状态变化来获取音频流。

可选地，该直播方法还包括如下步骤：基于音频流的播放进度，在直播画面中显示音频流对应的手势集合中的手势。主播终端按照音频流的播放顺序，以动画形式依次在直播画面中显示音频流对应的手势集合中的手势，以指引主播用户准确弹奏虚拟乐器。

可选地，该直播方法还包括如下步骤：在直播画面中显示演奏得分。在一种可能的实现方式中，演奏得分基于第一图像流数据中人物的手势变动信息，与音视频数据对应的手势集合比对得到。在另一种可能的实现方式中，演奏得分基于虚拟乐器对应的第一音频与第二音频比对得到，第二音频基于虚拟乐器中控制部位的控制状态变化情况获取。主播终端在演奏虚拟乐器结束时，基于第一图像流数据中人物的手势变动信息，与音视频数据对应的手势集合对虚拟乐器弹奏过程，或者，基于演奏音频与正常音频进行打分，提高趣味性。

参考图5，其示出了本申请一个实施例提供的显示弹奏得分的界面示意图，在图5中，主播用户弹奏虚拟钢琴结束后，终端显示弹奏得分为99分。

以下为本申请装置实施例，对于装置实施例中未详细阐述的部分，可以参考上述方法实施例中公开的技术细节。

请参考图6，其示出了本申请一个示例性实施例提供的直播装置的框图。该直播装置可以通过软件、硬件或者两者的组合实现成为终端的全部或一部分。该直播装置包括：

数据获取模块601，用于获取第一图像流数据。

第一确定模块602，用于在识别出所述第一图像流数据中人物的身体姿态为预设身体姿态时，基于所述预设身体姿态确定虚拟乐器。

第二确定模块603，用于基于所述第一图像流数据中所述人物的手势变动信息，确定所述虚拟乐器对应的第二图像流数据，所述第二图像流数据包括所述虚拟乐器中控制部位的控制状态变化情况。

直播推流模块604，用于将所述第二图像流数据发送至推流服务器。

在基于图6所示实施例提供的可选实施例中，所述预设身体姿态包括预设手势，所述第一确定模块602，用于在第一对应关系中查找所述预设手势对应的虚拟乐器，所述第一对应关系包括不同手势与不同虚拟乐器之间的对应关系。

在基于图6所示实施例提供的可选实施例中，所述预设身体姿态包括预设手势和预设身体姿势，所述第一确定模块602，用于在第二对应关系中查找与所述预设手势、所述预设身体姿态均对应的虚拟乐器，所述第二对应关系包括不同手势、不同身体姿势与不同虚拟乐器之间的对应关系。

在基于图6所示实施例提供的可选实施例中，所述第二确定模块603，用于：

采集所述第一图像流数据中所述人物在第i个帧段的手势变动信息，所述i为正整数；

基于所述第一图像流数据中所述人物在第i个帧段的手势变动信息，预测所述第一图像流数据中所述人物在第i+1个帧段内的手势变动信息；

基于所述第一图像流数据中所述人物在第i+1个帧段内的手势变动信息，和所述虚拟乐器对应的音频流数据，确定所述虚拟乐器对应的第二图像流数据。

在基于图6所示实施例提供的可选实施例中，所述装置还包括：第一打分模块(图6未示出)。

第一打分模块，用于：

获取所述虚拟乐器对应的音频流数据；

获取所述音频流数据对应的手势集合；

将所述第一图像流数据中所述人物的手势变动信息，与所述音视频数据对应的手势集合进行比对，得到演奏得分。

在基于图6所示实施例提供的可选实施例中，所述装置还包括：第二打分模块(图6未示出)。

第二打分模块，用于：

获取所述虚拟乐器对应的第一音频；

基于所述虚拟乐器中控制部位的控制状态变化情况获取第二音频；

将所述第一音频与所述第二音频进行比对，得到演奏得分。

可选地，所述直播推流模块604，还用于：将所述音频流数据对应的手势集合的图像流数据发送至所述推流服务器。

请参考图7，其示出了本申请一个示例性实施例提供的直播装置的框图。该直播装置可以通过软件、硬件或者两者的组合实现成为终端的全部或一部分。该直播装置包括：

画面显示模块701，用于显示直播画面。

乐器显示模块702，用于在识别出所述直播画面中人物的身体姿态为预设身体姿态时，基于所述预设身体姿态在所述直播画面中显示虚拟乐器。

虚拟乐器控制模块703，用于基于所述直播画面中所述人物的手势变动信息，控制所述虚拟乐器中控制部位的控制状态变化。

播放模块704，用于播放音频流。

在基于图7所示实施例提供的可选实施例中，所述乐器显示模块702，用于：

确定用于弹奏所述虚拟乐器的人体部位；

根据所述预设身体姿态确定所述虚拟乐器的尺寸；

按照所述虚拟乐器的尺寸，在所述直播画面中所述人体部位对应的位置处显示所述虚拟乐器。

可选地，所述乐器显示模块702，用于：

在所述直播画面上层显示第一图层，所述第一图层包括所述虚拟乐器，所述第一图层中除所述虚拟乐器之外的其他位置的透明度符合预设条件。

可选地，所述乐器显示模块702，用于：

根据所述虚拟乐器的类型，确定所述用于弹奏所述虚拟乐器的人体部位与所述虚拟乐器的显示关系；

按照所述显示关系显示第二图层，所述第二图层包括所述用于弹奏所述虚拟乐器的人体部位。

在基于图7所示实施例提供的可选实施例中，所述装置还包括：第一调整模块(图7未示出)。

第一调整模块，用于：

接收对所述虚拟乐器的第一触发信号；

根据所述第一触发信号调整所述虚拟乐器的尺寸。

在基于图7所示实施例提供的可选实施例中，所述装置还包括：第二调整模块(图7未示出)。

第二调整模块，用于：

接收对所述虚拟乐器的第二触发信号；

根据所述第二触发信号调整所述虚拟乐器的显示位置。

在基于图7所示实施例提供的可选实施例中，所述装置还包括：复制模块(图7未示出)。

复制模块，用于：

接收对所述虚拟乐器的第三触发信号；

根据所述第三触发信号复制所述虚拟乐器。

在基于图7所示实施例提供的可选实施例中，所述装置还包括：手势显示模块(图7未示出)。

所述手势显示模块，用于：基于所述音频流的播放进度，在所述直播画面中显示所述音频流对应的手势集合中的手势。

在基于图7所示实施例提供的可选实施例中，所述装置还包括：分数显示模块(图7未示出)。

所述分数显示模块，用于：在所述直播画面中显示演奏得分，所述演奏得分基于所述第一图像流数据中所述人物的手势变动信息，与所述音视频数据对应的手势集合比对得到；或者，所述演奏得分基于所述虚拟乐器对应的第一音频与第二音频比对得到，所述第二音频基于所述虚拟乐器中控制部位的控制状态变化情况获取。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的终端800的结构框图。该终端800可以是：智能手机、平板电脑、MP3播放器、MP4播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储计算机程序，该计算机程序用于被处理器801所执行以实现本申请中方法实施例提供的直播方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由终端的处理器加载并执行以实现上述方法实施例中的直播方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面或者一方面的各种可选实现方式中提供的直播方法。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种直播方法，其特征在于，所述方法包括：

获取第一图像流数据；

将所述第二图像流数据发送至推流服务器。

2.根据权利要求1所述的方法，其特征在于，所述预设身体姿态包括预设手势，所述基于所述预设身体姿态确定虚拟乐器，包括：

在第一对应关系中查找所述预设手势对应的虚拟乐器，所述第一对应关系包括不同手势与不同虚拟乐器之间的对应关系。

3.根据权利要求2所述的方法，其特征在于，所述预设身体姿态包括预设手势和预设身体姿势，所述基于所述预设身体姿态确定虚拟乐器，包括：

在第二对应关系中查找与所述预设手势、所述预设身体姿态均对应的虚拟乐器，所述第二对应关系包括不同手势、不同身体姿势与不同虚拟乐器之间的对应关系。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像流数据中所述人物的手势变动信息，确定所述虚拟乐器对应的第二图像流数据，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

获取所述虚拟乐器对应的音频流数据；

获取所述音频流数据对应的手势集合；

6.根据权利要求5所述的方法，其特征在于，所述获取所述音频流数据对应的手势集合之后，还包括：

将所述音频流数据对应的手势集合的图像流数据发送至所述推流服务器。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

获取所述虚拟乐器对应的第一音频；

将所述第一音频与所述第二音频进行比对，得到演奏得分。

8.一种直播方法，其特征在于，所述方法包括：

显示直播画面；

9.根据权利要求8所述的方法，其特征在于，所述在所述直播画面中显示所述预设手部姿态对应的虚拟乐器，包括：

确定用于弹奏所述虚拟乐器的人体部位；

根据所述预设身体姿态确定所述虚拟乐器的尺寸；

10.根据权利要求9所述的方法，其特征在于，所述在所述直播画面中所述人体部位对应的位置处显示所述虚拟乐器，包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.根据权利要求8至11任一项所述的方法，其特征在于，所述基于所述预设身体姿态在所述直播画面中显示虚拟乐器之后，还包括：

接收对所述虚拟乐器的第一触发信号；

根据所述第一触发信号调整所述虚拟乐器的尺寸。

13.根据权利要求8至11任一项所述的方法，其特征在于，所述基于所述预设身体姿态在所述直播画面中显示虚拟乐器之后，还包括：

接收对所述虚拟乐器的第二触发信号；

根据所述第二触发信号调整所述虚拟乐器的显示位置。

14.根据权利要求8至11任一项所述的方法，其特征在于，所述基于所述预设身体姿态在所述直播画面中显示虚拟乐器之后，还包括：

接收对所述虚拟乐器的第三触发信号；

根据所述第三触发信号复制所述虚拟乐器。

15.根据权利要求8至11任一项所述的方法，其特征在于，所述方法还包括：

基于所述音频流的播放进度，在所述直播画面中显示所述音频流对应的手势集合中的手势。

16.根据权利要求8至11任一项所述的方法，其特征在于，所述基于所述直播画面中所述人物的手势变动信息，控制所述虚拟乐器中控制部位的控制状态变化，并播放所述音频流之后，还包括：

在所述直播画面中显示演奏得分，所述演奏得分基于所述第一图像流数据中所述人物的手势变动信息，与所述音视频数据对应的手势集合比对得到；或者，所述演奏得分基于所述虚拟乐器对应的第一音频与第二音频比对得到，所述第二音频基于所述虚拟乐器中控制部位的控制状态变化情况获取。

17.一种直播装置，其特征在于，所述装置包括：

数据获取模块，用于获取第一图像流数据；

18.一种直播装置，其特征在于，所述装置包括：

画面显示模块，用于显示直播画面；

播放模块，用于播放音频流。

19.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行如权利要求1至7任一项所述的直播方法，或者，如权利要求8-16任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至7任一项所述的直播方法，或者，如权利要求8-16任一项所述的方法。