CN114727120B

CN114727120B - 直播音频流的获取方法、装置、电子设备及存储介质

Info

Publication number: CN114727120B
Application number: CN202110004206.1A
Authority: CN
Inventors: 张明远
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2023-06-09
Anticipated expiration: 2041-01-04
Also published as: CN114727120A

Abstract

本申请实施例提供了一种直播音频流的获取方法、装置、电子设备及存储介质，涉及互联网应用技术领域。该方法包括：获取图像采集组件实时采集的图像流数据；对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角；当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据。本申请实施例能够在用户面对音频采集组件，想要与另一方沟通时，自动将用户的语音信息传输至另一方，提高了用户的体验。

Description

直播音频流的获取方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网应用技术领域，具体而言，本申请涉及一种直播音频流的获取方法、装置、电子设备及存储介质。

背景技术

随着移动互联网的不断发展，视频直播类的应用也越来越广泛。

在目前视频直播或视频通话过程中，也存在关闭或打开麦克风的情况，一个终端用户通过手动设置静音与否来传递或屏蔽自己的声音。同时也可以调用语音识别技术，实现实时的语音对话转文字，从而提高交互体验。但是目前的操作需要人为手动进行设置，当用户需要反复开关设置时，操作较为繁琐。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的直播音频流的获取方法、装置、电子设备及存储介质。

第一方面，提供了一种直播音频流的获取方法，该方法包括：

获取图像采集组件实时采集的图像流数据；

对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角；

当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据。

在一个可能的实现方式中，获取音频采集组件实时采集的音频流数据，之后还包括：

对音频流数据进行语音识别，获取语音识别文本。

在一个可能的实现方式中，确定目标用户的人脸姿态角，之后还包括：

当确定目标用户的人脸姿态角不符合预设条件时，关闭音频采集组件实时采集音频流数据。

当确定目标用户的人脸姿态角不符合预设条件，且确定目标用户处于说话状态时，则控制开启音频采集组件；

根据目标用户的人脸姿态角，获取并调整音频采集组件实时采集的音频流数据的音量。

在一个可能的实现方式中，当目标用户的人脸姿态角符合预设条件时，包括：

若目标用户的人脸姿态角小于预先确定的人脸姿态角阈值，则确定目标用户的人脸姿态角符合预设条件。

在一个可能的实现方式中，控制开启音频采集组件，之前还包括：

确定目标用户的肩部围绕预设坐标轴的偏转角，作为肩部偏转角，预设坐标轴的方向为人的头部顶端指向脖子的方向；

控制开启音频采集组件，包括：

当目标用户的人脸姿态角符合预设条件，且肩部偏转角小于预设的肩部偏转角阈值时，则控制开启音频采集组件。

在一个可能的实现方式中，确定目标用户的人脸姿态角，之前还包括：

对目标用户进行体态识别，确定用户的体态信息，体态信息用于表征用户为坐姿或者站姿；

根据用户的体态信息确定对应的人脸姿态角阈值和肩部偏转角阈值：

若用户的姿态信息为坐姿，则对应的人脸姿态角阈值为第一人脸姿态角阈值，对应的肩部偏转角阈值为第一肩部偏转角阈值；

若用户的姿态信息为站姿，则对应的人脸姿态角阈值为第二人脸姿态角阈值，对应的肩部偏转角阈值为第二肩部偏转角阈值；

其中，第一人脸姿态角阈值大于第二人脸姿态角阈值，第一肩部偏转角阈值小于第二肩部偏转角阈值。

在一个可能的实现方式中，关闭音频采集组件实时采集音频流数据，之后还包括：

生成音频采集组件关闭的提醒信息。

在一个可能的实现方式中，对图像流数据的当前帧进行人脸识别，包括：

通过人脸识别引擎识别出当前帧中出现的至少一名用户的人脸特征；

当至少一名用户的人脸特征中存在与直播间预设的主播的人脸特征匹配的人脸特征息时，则将匹配的人脸特征对应的人脸作为目标用户的人脸。

通过人脸识别引擎识别出当前帧中出现的至少一名用户的人脸，并确定人脸在当前帧中的位置；

若人脸连续在预设数目的帧图像中都位于帧图像的中间位置，则确定人脸对应的用户为目标用户。

第二方面，提供了一种直播音频流的获取装置，包括：

图像流数据获取模块，用于获取图像采集组件实时采集的图像流数据；

姿态角获取模块，用于对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角；

音频流数据获取模块，用于当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据。

在一个可能的实现方式中，直播音频流的获取装置，还包括：

语音识别模块，用于对音频流数据进行语音识别，获取语音识别文本。

在一个可能的实现方式中，直播音频流的获取装置还包括：

音频停止采集模块，用于在确定目标用户的人脸姿态角之后，当确定目标用户的人脸姿态角不符合预设条件时，关闭音频采集组件实时采集音频流数据。

在一个可能的实现方式中，直播音频流的获取装置还包括：

音频流采集模块，用于确定目标用户的人脸姿态角之后，当确定目标用户的人脸姿态角不符合预设条件，且确定目标用户处于说话状态时，则控制开启音频采集组件；

音量调整模块，用于根据目标用户的人脸姿态角，获取并调整音频采集组件实时采集的音频流数据的音量。

在一个可能的实现方式中，音频流数据获取模块包括用于确定目标用户的人脸姿态角符合预设条件的条件判断子模块，条件判断子模块具体用于若目标用户的人脸姿态角小于预先确定的人脸姿态角阈值，则确定目标用户的人脸姿态角符合预设条件。

在一个可能的实现方式中，音频流数据获取模块还包括：

肩部偏向角获取子模块，用于在控制开启音频采集组件之前，确定目标用户的肩部围绕预设坐标轴的偏转角，作为肩部偏转角，预设坐标轴的方向为人的头部顶端指向脖子的方向；

音频流数据获取模块还包括：用于控制开启音频采集组件的组件启动模块，

其中，组件启动模块具体用于：当目标用户的人脸姿态角符合预设条件，且肩部偏转角小于预设的肩部偏转角阈值时，则控制开启音频采集组件。

在一个可能的实现方式中，直播音频流的获取装置还包括：

体态识别模块，用于在确定目标用户的人脸姿态角之前，对目标用户进行体态识别，确定用户的体态信息，体态信息用于表征用户为坐姿或者站姿；

阈值确定模块，用于根据用户的体态信息确定对应的人脸姿态角阈值和肩部偏转角阈值：

在一个可能的实现方式中，直播音频流的获取装置还包括：

提醒模块，用于在关闭音频采集组件实时采集音频流数据之后，生成音频采集组件关闭的提醒信息。

在一个可能的实现方式中，姿态角获取模块包括用于对图像流数据的当前帧进行人脸识别的第一人脸识别子模块，第二人脸识别子模块包括：

特征获取单元，用于通过人脸识别引擎识别出当前帧中出现的至少一名用户的人脸特征；

特征匹配单元，用于当至少一名用户的人脸特征中存在与直播间预设的主播的人脸特征匹配的人脸特征息时，则将匹配的人脸特征对应的人脸作为目标用户的人脸。

在一个可能的实现方式中，姿态角获取模块包括用于对图像流数据的当前帧进行人脸识别的第二人脸识别子模块，第二人脸识别子模块包括：

位置确定单元，用于通过人脸识别引擎识别出当前帧中出现的至少一名用户的人脸，并确定人脸在当前帧中的位置；

位置统计单元，用于若人脸连续在预设数目的帧图像中都位于帧图像的中间位置，则确定人脸对应的用户为目标用户。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

第五方面，本发明实施例提供一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现如第一方面所提供的方法的步骤。

本发明实施例提供的直播音频流的获取方法、装置、电子设备及存储介质，通过获取图像采集组件实时采集的图像流数据，对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角，当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据，不需要用户手动确定打开或者关闭麦克风，实现在用户面对音频采集组件，想要与另一方沟通时，自动将用户的语音信息传输至另一方，提高了用户的体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示例性示出的本申请实施例的一种直播系统的结构示意图；

图2示例性示出了本申请实施例的直播音频流的获取方法的流程示意图；

图3示例性示出了手机的前置摄像头采集到主播面部朝向不同角度的图像帧的示意图；

图4示例性地示出了执行本申请实施例的直播应用程序的界面示意图；

图5示例性地示出了本申请实施例的直播视频流的获取方法在视频聊天场景下的流程示意图；

图6示例性地示出了本申请另一个实施例的直播视频流的获取方法的流程示意图；

图7示例性地示出了本申请再一个实施例的直播音频流的获取方法的流程示意图

图8为本申请实施例提供的一种直播视频流的获取装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)字幕

字幕是指以文字形式显示在网络视频、电视、电影、舞台作品中的对话或者旁白等非影像内容，也泛指影视作品后期加工的文字。

2)弹幕

指的是在网络上观看视频时弹出的评论性字幕。

3)直播

直播是一种通过流媒体技术，将图像、声音、文字等丰富的元素经互联网向用户展示生动、直观的真实画面的一整套技术，其涉及编码工具、流媒体数据、服务器、网络以及播放器等一系列服务模块。

4)视频聊天

视频聊天区别于传统的语音聊天，是一种用户在与至少一名用户在聊天过程中，实时看到至少一名其他用户的动态的聊天方式，视频聊天接收的信息更确切、丰富、密集，会更具有真实感。多运用于需要更加真实的还原线下场景的情况，比如在线教育的“线上互动课堂”、“视频会议”、“远程医疗”、“视频直播”等场景。

5)直播带货

直播带货，是指通过一些互联网平台，使用直播技术进行商品线上展示、咨询答疑、导购销售的新型服务方式，具体形式可由店铺自己开设直播间，或由职业主播集合进行推介。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1示例性示出的本申请实施例的一种直播系统的结构示意图。该系统包括：第一用户终端120、服务器140以及若干个交流对象终端160。

第一用户终端120可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、膝上型便携计算机和台式计算机等等。

第一用户终端120对应有图像采集组件和音频采集组件。其中，该图像采集组件和音频采集组件可以是第一用户终端120的一部分，比如，该图像采集组件和音频采集组件可以是第一用户终端120内置的摄像头和内置的麦克风；或者，该图像采集组件和音频采集组件也可以作为第一用户终端120的外设设备与该用户终端120相连接，比如，该图像采集组件和音频采集组件可以分别是连接该第一用户终端120的摄像机和话筒；或者，该图像采集组件和音频采集组件也可以部分内置于第一用户终端120，部分作为第一用户终端120的外设设备，比如，该图像采集组件可以是第一用户终端120内置的摄像头，该音频采集组件可以是连接该第一用户终端120的耳机中的麦克风。本申请实施例对于图像采集组件和音频采集组件的实现形式不做限定。

交流对象终端160可以是具有视频播放功能的终端设备，比如，用户终端可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、膝上型便携计算机和台式计算机等等。

第一用户终端120和交流对象终端160分别与服务器140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

在本申请实施例中，第一用户终端120可以将在本地录制的直播视频流上传至服务器140，并由服务器140对直播视频流进行相关处理后推送给交流对象终端160。

服务器140是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。

其中，上述第一用户终端120中可以安装有直播应用程序(Application，APP)客户端或者聊天应用程序，服务器140可以是上述直播应用程序或者聊天应用程序对应的直播服务器。

以直播为例，在直播时，第一用户终端运行直播应用程序的客户端，用户(也可以称为主播)在直播应用程序界面中触发启动直播功能后，直播应用程序的客户端调用第一用户终端中的图像采集组件和音频采集组件来录制直播视频流，并将录制的直播视频流上传至直播服务器，直播服务器接收该直播视频流，并为该直播视频流建立直播频道，交流对象终端160对应的用户(也可以成为观众)可以通过交流对象终端160中安装的直播应用程序客户端或者浏览器客户端访问直播服务器，并在访问页面中选择该直播频道后，直播服务器将该直播视频流推送给用户终端，由交流对象终端160在直播应用程序界面或者浏览器界面中播放该直播视频流。

可选的，该系统还可以包括管理设备(图1未示出)，该管理设备与服务器140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。

在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

在现有的视频直播或视频聊天场景下，存在如下场景：一个主播和他的几百个观众在进行视频聊天，主播可以将自己的视频和语音实时传送给他直播中的观众，但是他有时候会离开或者他转身和自己旁边的人交流，不希望屏幕对面的观众听到，此时他需要手动关闭麦克风(设置静音)，但是当上面的情况频繁发生时，反复打开、关闭麦克风变得很繁琐。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2示例性示出了本申请实施例的直播音频流的获取方法的流程示意图，如图2所示，该方法包括：

S101、获取图像采集组件实时采集的图像流数据；

其中，图像流数据可以是包含各个图像帧的流式数据。显然，图像流数据是不含有语音信息的数据，如果将图像流数据发送给交流对象(定义发送图像流数据的终端对应第一用户)，则交流对象只能看到画面，而听不到画面中场景的声音。

S102、对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角；

本申请实施例在获取图像流数据后，需要对图像流数据的每一帧中的用户进行图像识别，识别内容包括用户的人脸姿态角，能够判断用户是否直视图像采集组件，用户的人脸姿态角可以以用户眼睛注视的方向与图像采集组件的光轴之间的夹角进行定义。

当本申请实施例应用于常见的主播对观众进行单向直播互动的场景时，即观众只能观看到主播的画面，而无法看到观众自己或者其他观众的画面的场景，目标用户即为主播，直播视频流的接收方、也是交流对象，为观众。

当本申请实施例应用于多人视频会议，或者主播和观众双向进行直播互动的场景时，也即在主播可以看到至少一个观众的画面，同时观众也可以看到主播和至少一个观众的画面的场景，目标用户既可以为主播，也可以为与主播进行视频互动的观众。

另外，当前帧是实时采集的图像流数据中当前时刻的图像帧，当前帧中出现的用户可以为当前帧中出现的任一用户，也可以为当前帧中出现的指定用户。

在某些直播场景下，主播身边可能聚集一个或多个工作人员，那么图像采集组件在采集图像流数据时，可能会同时采集到包括主播在内的多名人物，因此还需要从多名人物中确定属于主播的用户，也即目标用户。

再者，本申请实施例中每采集到图像流数据中的一帧图像，就可以识别这一帧图像中出现的人物，以便后续可以确定该人物是否为目标用户。

具体地，步骤S102的操作可以包括：

S1021、通过人脸识别引擎识别出当前帧中出现的至少一名用户的人脸特征；

S1022、当至少一名用户的人脸特征中存在与直播间预设的主播的人脸特征匹配的人脸特征息时，则将匹配的人脸特征对应的人脸作为目标用户的人脸。

需要说明的是，人脸识别是一种生物识别技术，人脸识别基于人的脸部特征信息进行身份识别，人脸识别可以包括人脸检测、人脸图像预处理、人脸特征提取、人脸匹配与识别等过程。

另外，对视频帧进行人脸识别的操作与相关技术中对某一图像进行人脸识别的操作类似，本申请实施例对此不进行详细阐述。

例如，可以对当前帧进行人脸检测，以在当前帧中标定出人脸的位置和大小；根据人脸检测结果，对当前帧中的人脸区域进行光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波以及锐化等预处理；提取当前帧中的人脸区域的人脸特征；将提取到的人脸特征与已存储的参考人脸特征(可以理解的是，该参考人脸特征为预先确定的主播的人脸特征)进行匹配，如果提取到的人脸特征与参考人脸特征匹配成功，则将这个提取到的人脸特征对应的人物确定为当前帧中出现的目标用户。

除此以外，对图像流数据的当前帧进行人脸识别，还可以包括：

本申请实施例考虑到在直播场景下，一般坐在中间位置，正对摄像头的用户为主播，因此通过连续考察多帧帧图像中坐在中间位置的用户，即可确定出目标用户，本申请实施例特别适用于具有多名用户出现在直播间时的场景，通过对帧图像中出现的用户进行人脸识别，确定属于主播的目标用户，并进一步采集主播的声音，使得观众可以更专注地收听主播的直播声效。

步骤S102的操作还可以包括：通过图像识别技术(例如可以是通过用户坐姿、站姿、人脸、唇形识别)确定用户相对于图像采集组件的角度，当根据角度确定用户直视图像采集组件时，再通过图像识别技术确定用户的唇形和VAD(Voice Activity Detection，语音活动检测)算法检测判断用户是否在说话。

VAD能够从音频片段中分离有效的语音信号和无用的语音信号或者噪声信号，从而使后续的处理更加有效率，本申请实施例所采用的VAD算法可以包括LTSD(Long-TermSpectralDivergence，长时频谱差异)算法等，本申请实施例对此不作限定。

S103、当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据。

当目标用户的人脸姿态角符合预设条件时认为用户正在与至少一个交流对象交流对象进行交流，进而需要控制开启音频采集组件采集包含用户的语音信息的音频流数据，保证了用户的声音能够及时传递给至少一个交流对象交流对象，保证有效的交流。

本申请实施例的直播音频流的获取方法，通过获取图像采集组件实时采集的图像流数据，对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角，当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据，不需要用户手动确定打开或者关闭麦克风，实现在用户面对音频采集组件，想要与另一方沟通时，自动将用户的语音信息传输至另一方，提高了用户的体验。

在上述各实施例的基础上，作为一种可选实施例，确定目标用户的人脸姿态角，之后还包括：

在本申请实施例中，只有当用户的人脸姿态角符合预设条件，也即在正视图像采集组件说话时，才认为用户正在与交流对象进行交流，进而有必要开启音频采集组件采集音频流数据。如果目标用户的人脸姿态角不符合预设调节，则关闭音频采集组件实时采集音频流数据。那么发送到交流对象的只有图像流数据，声音不会传给交流对象，从而避免了语音信息的误传递。

请参见图3，为手机的前置摄像头采集到主播面部朝向不同角度的图像帧的示意图，具体的，图像帧I为当主播面部直视摄像头时(用户的人脸姿态角大致为0度)，摄像头采集到的图像帧，在这种情况下，由于主播直视摄像头，且通过唇形判断出主播正在说话，则开启麦克风采集主播的声音，主播的声音将同步发送至观众。图像帧II为当主播侧脸面对摄像头时(用户的人脸姿态角大致为90度)，摄像头采集到的图像帧，在这种情况下，由于主播并没有直视摄像头，因此关闭音频采集组件，即使主播正在说话，由于音频采集组件是关闭状态，因此观众也只能看到主播的画面，而无法听到主播的声音。

请参阅图4，其示例性地示出了执行本申请实施例的直播应用程序的界面示意图，具体地，

在A界面中，直播应用程序提供了“打开智能面对面”功能的按钮，若用户点击该按钮，表示激活了本申请实施例的直播视频流的获取方法的功能，之后开启图像采集组件前置摄像头，前置摄像头采集到用户的面部图像，并显示在直播应用程序的显示界面中；B界面上展示了用户正直视前置摄像头时，前置摄像头采集到的用户面部图像，通过确定图像流数据的当前帧中的用户正直视图像采集组件且正在说话，则开启音频采集组件麦克风，由麦克风实时采集包含目标用户的语音信息的音频流数据，并且通过在B界面中展示麦克风开启的喇叭标志提醒目标用户，此时目标用户发出的声音都将采集并发送至聊天的另一方。

C界面上展示了目标用户侧脸面对前置摄像头时，前置摄像头采集到的用户面部图像，此时目标用户正转身忙碌其他事情，直播应用程序通过确定图像流数据中的目标用户不再直视摄像头，而是以侧脸对向摄像头，确定目标用户正忙于其他事项，并没有专注于另一方聊天，关闭麦克风采集用户的语音信息，并且通过在C界面中提示对付忙碌中，展示麦克风关闭的喇叭标志提醒用户，此时目标用户发出的声音不会被采集。

下面分别结合两个应用场景对本申请实施例的直播视频流的获取方法进行说明。

场景一：一对一视频聊天场景

两个用户，记为用户一和用户二，通过各自的终端设备(手机)打开聊天应用程序，例如QQ、微信等，进行视频通话。在默认情况下，麦克风处于开启状态，当用户一在应用程序上选择打开智能聊天(也即上文的智能面对面)功能，应用程序将摄像头采集的图像流数据发送至执行本申请实施例的服务器进行图像识别，若根据用户相对于图像采集组件的角度以及用户的唇形符合预设条件，则保持麦克风的开启状态，若根据用户相对于图像采集组件的角度以及用户的唇形不符合预设条件，则关闭麦克风，用户二之后只能看到用户一所持终端采集的画面，但无法提到用户一的声音，当用户一重新直视摄像头后，服务器通过确定根据用户相对于图像采集组件的角度以及用户的唇形符合预设条件，则终端重新开启麦克风采集用户一的语音信息，并将音频流数据与图像流数据根据采集时间进行合并，获得直播视频流发送至用户二，使得用户二可以重新听到用户一的声音。整个过程用户只需要开启智能聊天功能，既可在后续语音通话过程中不再需要频繁开关麦克风，大大便利了视频通话的体验，保证了用户的隐私安全。

场景二：一对多直播场景

在此场景下，多名观众收看主播的直播内容，默认主播的麦克风处于开启状态，这样观众既可以看到主播的直播画面，也可以听到主播的讲解，当主播开启智能聊天功能后，直播终端实时采集图像流数据发送至执行本申请实施例的服务器，服务器通过根据用户相对于图像采集组件的角度以及用户的唇形符合预设条件，向直播终端发送保持开启麦克风的指令，麦克风将采集的音频流数据发送至服务器，由服务器将音频流数据与图像流数据根据采集时间进行合并，获得直播视频流，并发给多名观众。若服务器根据用户相对于图像采集组件的角度以及用户的唇形不符合预设条件，比如确定当前帧中没有主播，或者主播因为转身、扭头等影响直视摄像头，则向主播的终端发送关闭麦克风的指令，服务器将图像流数据作为直播视频流发送至观众，观众只能收看到主播的画面，而不能听到主播的声音。

观众在与主播进行沟通时，存在两种方式，一种主播从众多观众中选择若干名观众，作为连麦观众，允许连麦观众连麦直播，在进行连麦直播时，主播设备以及所有观众的直播窗口中除了能够显示主播的直播画面，还能跟显示连麦观众的直播画面，各个连麦观众的直播画面将分别以小窗口的形式进行展示。另一种是观众将想说的话以弹幕或者留言的形式发送到主播的直播间。

对于第一种方式，连麦观众在开启连麦直播后，麦克风默认开启，这样主播和其他观众既可以看到的直播画面，也可以听到主播的讲解，当主播开启智能聊天功能后，连麦观众的终端实时采集图像流数据发送至执行本申请实施例的服务器，服务器根据用户相对于图像采集组件的角度以及用户的唇形符合预设条件，向连麦观众的终端发送保持开启麦克风的指令，麦克风将采集的音频流数据发送至服务器，由服务器将音频流数据与图像流数据根据采集时间进行合并，获得直播视频流，并发给主播和所有观众。当服务器根据用户相对于图像采集组件的角度以及用户的唇形符合预设条件，则向连麦观众的终端发送关闭麦克风的指令，服务器将连麦观众的图像流数据作为直播视频流发送至主播以及所有观众，主播以及所有观众只能收看到连麦观众的画面，而不能听到连麦观众的声音。

对于第二种方式，观众开启智能聊天功能，服务器获取观众终端的摄像头实时采集的图像流数据，若根据用户相对于图像采集组件的角度以及用户的唇形符合预设条件，则开启麦克风实时采集包含观众的语音信息的音频流数据，对音频流数据中的语音信息进行语音识别，获得语音识别文本，将语音识别文本作为弹幕发送至主播的直播间，若根据用户相对于图像采集组件的角度以及用户的唇形符合预设条件，会关闭麦克风，以停止接收观众的语音信息。若确定图像流数据的当前帧中的观众没有说话，也会关闭麦克风，以避免麦克风采集到观众所处环境的环境音。

在上述各实施例的基础上上，作为一种可选实施例，步骤S103之后还包括：

S104、从图像流数据的当前帧开始，将音频流数据与图像流数据根据采集时间进行合并，获得并发数直播视频流。

为了保证音频和图像的同步，本申请实施例将同一采集时间的音频流数据和图像流数据进行合并，获得直播视频流。对于直播视频流的每一帧数据，例如，若图像流数据的采集时间为20点01分01秒，则将其与采集时间同为20点01分01秒的直播音频流进行合并，获得20点01分01秒的直播视频流。

请参阅图5，其示例性地示出了本申请实施例的直播视频流的获取方法在视频聊天场景下的流程示意图，如图5所示，包括：

S201、进入聊天界面；

S202、判断是否开启智能聊天功能，若开启智能聊天功能，则执行步骤S203，否则执行步骤S207；

S203、判断用户的人脸姿态角预设条件，若是，则指向步骤S204，若否，则指向步骤S206；

S204、开启音频采集组件，对音频流数据中的语音信息进行语音识别，获得语音识别文本；

S205、将音频流数据与图像流数据根据采集时间进行合并，获得直播视频流，将直播视频流以及语音识别文本发送至交流对象，返回步骤S203，对图像流数据的下一帧进行判断，直至聊天结束；

S206、关闭音频采集组件，将图像流数据作为直播视频流发送至交流对象，返回步骤S203，对图像流数据的下一帧进行判断，直至聊天结束；

S207、根据默认设置采集用户的直播视频流发送至交流对象，直至聊天结束，默认设置即在聊天过程中持续采集用户的图像视频流数据和音频流数据，并合并为直播视频流。

在很多直播场景中，例如购物直播、游戏直播等等，主播的讲解往往比展示商品的视频、游戏画面、游戏背景音更能够吸引观众，并且受欢迎的主播往往正是凭借其“巧舌如簧”来吸引人气。

目前很多直播平台对于主播往往只有直播时间的要求，比如一个月直播200小时之类的要求，这就导致部分主播会出现只开启摄像头直播，而人做其他的事(例如睡觉)，显然主播在直播时长时间不说话既会影响观众观看的热情，影响直播间的气氛，同时也会影响直播平台的口碑。

在上述各实施例的基础上，作为一种可选实施例，关闭音频采集组件实时采集音频流数据，之后还包括：

统计音频采集组件关闭的时长，当时长达到预设时长时，确定待赠送的虚拟礼物对应的特效信息；

在直播间内显示待赠送的虚拟礼物对应的特效信息。

具体地，本申请实施例对于预设时长的具体范围不作限定。例如可以是1分钟、2分钟、5分钟等等。

本申请实施例对于虚拟礼物的形式不作具体的限定，例如可以是电子红包、虚拟鹅蛋、虚拟汽车、虚拟糖果等。当虚拟礼物为电子红包时，还可以预先设置电子红包的总金额和领取数量。

在本申请实施例中，当检测到主播预设时长没有说话，也即音频采集组件关闭时，会自动触发主播向直播间的观众赠送礼物，从而让直播间的观众能够将注意力转移到领取礼物以及观看礼物的特效上，营造直播间热闹的气氛，提高观众的参与热情、观看热情。并且需要注意的是，由于礼物是由主播赠送给观众的，也就意味着礼物需要由主播出资购买，这就意味着如果主播在较长时间内没有说话，就需要用自己的资金来提高直播间的热度，督促主播减少偷懒。

下面结合一个具体的应用场景对本申请实施例的直播音频流的获取方法进行描述：

通过本申请上述实施例对采集的主播的图像流数据进行处理，若确定直播的人脸姿态角不符合预设条件时，关闭音频采集组件实时采集音频流数据；

统计音频采集组件关闭的时长，当时长达到预设时长1分钟时，从主播的预设账号中划取20元资金，生成电子红包，并设置电子红包的总金额为20元，可领取的次数100次，每次领取的金额为固定值：2毛钱。

在直播间内显示电子红包对应的特效信息，该特效信息可以包括醒目的红包图标，该图标可以是动态图标，也可以是静态图标，同时还可以包括引导用户点击的提示信息。

当观众观看到电子红包后，通过点击电子红包，生成抢红包请求，抢红包请求用于获得电子红包中的金额；

查询在接收到抢红包请求的时刻，电子红包中的剩余金额，当剩余金额不为0时，从剩余金额中确定发送给用户的金额。由于本申请实施例采用的是固定金额的红包，因此向用户返回的金额为2毛钱。可以理解的是，当采用随机金额发放电子红包时，可以通过预设的随机算法算出具体的发放金额，本申请实施例不作具体的限定。

在直播场景中，观众和主播沟通时，常用的方式是通过打字将弹幕或留言条发给主播，但由于打字的效率较低，目前已支持通过语音识别的方式，将语音转换为文字发送弹幕。具体的，观众可以打开麦克风，设置录入语音通过语音转文字功能，将文字发给主播，但是当观众转身和旁边人说话时，或远离终端时，观众需要关闭麦克风，以不进行语音识别。在这种情况多发的情况下，也会出现频繁手动切换的问题。除了上述直播场景，在进行多人会议，特别是需要进行同声传译的会议场景中，也同样存在上述问题。

为了克服上述问题，本申请实施例开启音频采集组件实时采集包含第一用户的语音信息的音频流数据，之后还包括：

对音频流数据进行语音识别，获取语音识别文本。

在本申请实施例中，语音识别是指将音频流数据中的语音识别为对应语言类型的文本。其中，语音识别文本可以根据应用场景的不同，存在与音频流中语音的语种不同的情况。例如，在普通的娱乐直播场景下，语音识别文本可以与音频流中的语音的语种相同，而在国际学术会议的直播场景下，语音识别文本可以与音频流中的语音的语种不同。

本申请实施例在将语音识别文本发送至至少一个交流对象时，既可以将语音文本以弹幕或留言条的方式发送，也可以将音频流数据、图像流数据以及语音识别文本根据采集时间进行合并，获得直播视频流。

语音识别文本的采集时间可以为语音识别文本对应的音频流数据的采集时间，本申请实施例通过将音频流数据、图像流数据以及语音识别文本进行合并，使得交流对象能够接收到带有文字的直播视频流，保证交流对象能够准确却实时地获知目标用户传达的信息，更适用于同声传译场景。

在上述各实施例的基础上，确定目标用户的人脸姿态角，之后还包括：

请参阅图6，其示例性地示出了本申请另一个实施例的直播视频流的获取方法的流程示意图，如图6所示，包括：

S301、获取图像采集组件实时采集的图像流数据。

步骤S301与上述步骤S101相同或近似，在此不再赘述。

S302、对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角；

步骤S302与上述步骤S102相同或近似，在此不再赘述。

S303、当目标用户的人脸姿态角不符合预设条件，且确定用户正在说话，开启音频采集组件实时采集包含用户的语音信息的音频流数据。

在本实施例中，区别于上述的一些实施例中在用户未直视图像采集组件时即停止采集用户的语音信息的方式，本申请实施例在确定用户未直视图像采集组件后，会进一步判断用户是否说话，若说话，则仍然开启音频采集组件采集音频流数据。

需要强调的是，在直播带货场景下，负责推销的导购通常会根据直播间的热度或者预设的安排，调整商品的价格，以促使观众购买商品。在调整商品价格前，导购通常会与其他工作人员进行商量，确定出更加优惠的价格，在此期间，导购并不会正视摄像头，通过将本申请实施例应用于直播带货场景下，那么导购与其他工作任意进行商量的信息也会可以被传递给观众，从而让观众对促销的过程更加了解和信服，从而激发观众对商品的购买热情。

S304、根据用户的人脸姿态角调整音频流数据的音量，获得音量调整后的音频流数据。

具体的，可以将音量调整后的音频流数据的音量与用户相对于图像采集组件的角度设置为负相关关系，也即用户相对于图像采集组件的角度越大，则音量调整后的音频流数据的音量越小。

还可以根据用户相对于图像采集组件的角度设置多个区间，并针对每个区间设置对应的音频流数据的音量。本申请实施例对于区间的个数不作具体的限定。

S305、将音频流数据与音量调整后的音频流数据根据采集时间进行合并，获得并发送直播视频流。

步骤S305与上述步骤S104相同或近似，在此不再赘述。

下面结合一个具体应用场景对上述实施例进行说明：

主播通过手机向观众直播带货，手机的摄像头实时采集图像流数据发送至服务器；

当服务器确定图像流数据的当前帧中的主播直视摄像头却正在说话，则保持手机中麦克风的开启，以使得麦克风实时采集包括主播的语音信息的音频流数据，并从当前帧开始，将音频流数据与图像流数据根据采集时间进行合并，获得直播视频流发送至观众，这样观众可以观看到主播对商品的展示，同时收听到主播对商品的介绍；

服务器通过实时上传的图像帧确定主播相对于图像采集组件的角度，并根据角度调整音频流数据的音量大小。

在上述各实施例的基础上，作为一种可选实施例，当目标用户的人脸姿态角符合预设条件时，包括：

应当理解的是，对用户的面部或者上半身图像执行计算操作得到用户的人脸姿态角的方式多种多样，可以结合具体的摄像头型号、以及负责计算的信息处理装置来进行合理的选择，此处并不做具体限定。

可选的，可以通过机器学习的方式，预先训练识别人脸姿态角的识别模型，从而利用识别模型识别出用户的转动角度。

具体可通过如下方式训练得到识别模型：首先，收集一定数量的样本面部图像，获取每个样本面部图像的深度信息，并确定每个样本面部图像的人脸姿态角检测结果，人脸姿态角检测结果用于表征样本面部图像中的被检测对象的人脸姿态角，随即，基于样本面部图像的深度信息，以及样本面部图像的人脸姿态角对初始模型进行训练，其中，以样本面部图像的深度信息作为训练样本，以样本面部图像的人脸姿态角作为样本标签，从而得到识别模型。其中，初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合。

应当理解的是，除了上述以面部图像训练初始模型的方式，还可以以上半身图像训练初始模型，本申请实施例对此不作具体的限定。

通过将确定的目标用户的人脸姿态角与预先确定的人脸姿态角阈值进行比较，若目标用户的人脸姿态角小于人脸姿态角阈值，则可判定用户直视图像采集组件，那么可以继续执行步骤S302，若目标用户的人脸姿态角大于人脸姿态角阈值，则可确定用户并没有直视图像采集组件，可执行关闭音频采集组件。

为了更准确地判断用户是否直视图像采集组件，本申请实施例将用户相对于图像采集组件的角度进一步细分为人脸姿态角以及用户的肩部围绕预设坐标轴的偏转角(即肩部偏转角)，进而预先确定的人体转动角度阈值包括人脸姿态角阈值以及肩部偏转角阈值，通过两次转动角度的判断，确定用户是否直视图像采集组件。

控制开启音频采集组件，包括：

当目标用户的人脸姿态角符合预设条件，且肩部偏转角小于预设的肩部偏转角阈值时，则控制开启音频采集组件

也就是说，在确定用户直视图像采集组件时，必须满足用户的头部和肩部的转动角度均小于相应的阈值。但是需要注意的是，在确定用户未直视图像采集组件时，则不一定需要既判断人脸姿态角，又判断肩部偏转角，具体的，分为以下两种情况：

情况一：确定用户的人脸姿态角，若用户的人脸姿态角大于人脸姿态角阈值，则无需再确定用户的肩部偏转角，可直接确定用户未直视图像采集组件。

情况二：确定用户的人脸姿态角，若用户的人脸姿态角小于人脸姿态角阈值，则进一步确定用户的肩部偏转角，若用户的肩部偏转角大于肩部偏转角阈值，则确定用户未直视图像采集组件。

在上述各实施例的基础上，作为一种可选实施例，确定目标用户的人脸姿态角，之前还包括：

其中，第一人脸姿态角阈值大于第二人脸姿态角阈值，第一肩部偏转角阈值小于第二肩部偏转角阈值

本申请实施例通过实验发现，人在不同姿态下与旁人沟通时转动的角度是存在差异的，例如，人在坐着是与旁人沟通时，相比站立时与人沟通，头部的转动角度要更大，而肩部的转动角度更小。因此，本申请针对坐姿设置的第一人脸姿态角阈值，要大于针对站姿设置的第二人脸姿态角阈值，同时针对站姿设置的第一肩部偏转角阈值，要大于针对站姿设置的肩部偏转角阈值。

请参阅图7，其示例性地示出了本申请再一个实施例的直播音频流的获取方法的流程示意图，如图所示，包括：

S501、终端向云端服务器发出开启智能聊天的功能，并将图像采集组件实时采集的图像流数据发送至云端服务器；

S502、对当前帧中的用户进行体型姿态识别，确定用户的姿态信息，姿态信息用于表征用户为坐姿或者站姿；

S503、根据用户的姿态信息确定对应的人体转动角度阈值，人体转动阈值包括人脸姿态角阈值和肩部偏转角阈值；

S504、确定用户的人脸姿态角和肩部偏转角，结合人脸姿态角阈值和肩部偏转角阈值判断用户是否正视屏幕；

S505、若确定用户正视屏幕，对用户进行唇形识别和VAD声音分析，判断用户是否说话；

S506、根据用户是否说话的判断结果，打开或关闭音频采集组件麦克风，以及打开或关闭语音识别功能，直至智能聊天结束。

本申请实施例提供了一种直播音频流的获取装置，如图8所示，该装置可以包括：图像流数据获取模块101、姿态角获取模块102和音频流数据获取模块103，具体地：

图像流数据获取模块101，用于获取图像采集组件实时采集的图像流数据；

姿态角获取模块102，用于对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角；

音频流数据获取模块103，用于当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据。

本发明实施例提供的直播音频流的获取装置，具体执行上述方法实施例流程，具体请详见上述直播音频流的获取方法实施例的内容，在此不再赘述。本发明实施例提供的直播音频流的获取装置，通过获取图像采集组件实时采集的图像流数据，对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角，当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据，不需要用户手动确定打开或者关闭麦克风，实现在用户面对音频采集组件，想要与另一方沟通时，自动将用户的语音信息传输至另一方，提高了用户的体验。

在一个可能的实现方式中，直播音频流的获取装置还包括：

在一个可能的实现方式中，音频流数据获取模块还包括：

在一个可能的实现方式中，直播音频流的获取装置还包括：

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：通过获取图像采集组件实时采集的图像流数据，对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角，当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据，不需要用户手动确定打开或者关闭麦克风，实现在用户面对音频采集组件，想要与另一方沟通时，自动将用户的语音信息传输至另一方，提高了用户的体验。

在一个可选实施例中提供了一种电子设备，如图9所示，图9所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，通过获取图像采集组件实时采集的图像流数据，对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角，当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据，不需要用户手动确定打开或者关闭麦克风，实现在用户面对音频采集组件，想要与另一方沟通时，自动将用户的语音信息传输至另一方，提高了用户的体验。

本申请实施例提供了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如前述方法实施例所示的内容。与现有技术相比，通过获取图像采集组件实时采集的图像流数据，对图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定目标用户的人脸姿态角，当目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取音频采集组件实时采集的音频流数据，不需要用户手动确定打开或者关闭麦克风，实现在用户面对音频采集组件，想要与另一方沟通时，自动将用户的语音信息传输至另一方，提高了用户的体验。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种直播音频流的获取方法，其特征在于，包括：

获取图像采集组件实时采集的图像流数据和音频采集组件实时采集的音频流数据；

对所述图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定所述目标用户的人脸姿态角；所述目标用户的人脸是根据至少一个人脸在连续预设数目的帧图像中的位置确定的；

当确定目标用户的人脸姿态角不符合预设条件时，关闭所述音频采集组件实时采集音频流数据，统计音频采集组件关闭的时长，当时长达到预设时长时，确定待赠送的虚拟礼物对应的特效信息；在直播间内显示待赠送的虚拟礼物对应的特效信息；

当所述目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取所述音频采集组件实时采集的音频流数据，将音频流数据与图像流数据根据采集时间进行合并，获得直播视频流，将直播视频流发送至观看者。

2.根据权利要求1所述的直播音频流的获取方法，其特征在于，获取所述音频采集组件实时采集的音频流数据，之后还包括：

对音频流数据进行语音识别，获取语音识别文本。

3.根据权利要求1所述的直播音频流的获取方法，其特征在于，所述确定目标用户的人脸姿态角，之后还包括：

当确定目标用户的人脸姿态角不符合预设条件，且确定所述目标用户处于说话状态时，则控制开启音频采集组件；

根据所述目标用户的人脸姿态角，获取并调整所述音频采集组件实时采集的音频流数据的音量。

4.根据权利要求1所述的直播音频流的获取方法，其特征在于，所述当所述目标用户的人脸姿态角符合预设条件时，包括：

若所述目标用户的人脸姿态角小于预先确定的人脸姿态角阈值，则确定所述目标用户的人脸姿态角符合预设条件。

5.根据权利要求4所述的直播音频流的获取方法，其特征在于，所述控制开启音频采集组件，之前还包括：

确定所述目标用户的肩部围绕预设坐标轴的偏转角，作为肩部偏转角，所述预设坐标轴的方向为人的头部顶端指向脖子的方向；

所述控制开启音频采集组件，包括：

当所述目标用户的人脸姿态角符合预设条件，且所述肩部偏转角小于预设的肩部偏转角阈值时，则控制开启音频采集组件。

6.根据权利要求5所述的直播音频流的获取方法，其特征在于，所述确定所述目标用户的人脸姿态角，之前还包括：

对所述目标用户进行体态识别，确定所述用户的体态信息，所述体态信息用于表征所述用户为坐姿或者站姿；

根据所述用户的体态信息确定对应的人脸姿态角阈值和肩部偏转角阈值：

若所述用户的姿态信息为坐姿，则对应的人脸姿态角阈值为第一人脸姿态角阈值，对应的肩部偏转角阈值为第一肩部偏转角阈值；

若所述用户的姿态信息为站姿，则对应的人脸姿态角阈值为第二人脸姿态角阈值，对应的肩部偏转角阈值为第二肩部偏转角阈值；

其中，所述第一人脸姿态角阈值大于第二人脸姿态角阈值，第一肩部偏转角阈值小于所述第二肩部偏转角阈值。

7.根据权利要求3所述的直播音频流的获取方法，其特征在于，所述关闭所述音频采集组件实时采集音频流数据，之后还包括：

生成音频采集组件关闭的提醒信息。

8.根据权利要求1所述的直播音频流的获取方法，其特征在于，所述对所述图像流数据的当前帧进行人脸识别，包括：

通过人脸识别引擎识别出所述当前帧中出现的至少一名用户的人脸特征；

当所述至少一名用户的人脸特征中存在与直播间预设的主播的人脸特征匹配的人脸特征息时，则将匹配的人脸特征对应的人脸作为目标用户的人脸。

9.根据权利要求1所述的直播音频流的获取方法，其特征在于，所述对所述图像流数据的当前帧进行人脸识别，包括：

通过人脸识别引擎识别出所述当前帧中出现的至少一名用户的人脸，并确定所述人脸在当前帧中的位置；

若所述人脸连续在预设数目的帧图像中都位于帧图像的中间位置，则确定所述人脸对应的用户为目标用户。

10.一种直播音频流的获取装置，其特征在于，包括：

图像流数据获取模块，用于获取图像采集组件实时采集的图像流数据和音频采集组件实时采集的音频流数据；

姿态角获取模块，用于对所述图像流数据的当前帧进行人脸识别，当识别到目标用户的人脸时，确定所述目标用户的人脸姿态角；所述目标用户的人脸是根据至少一个人脸在连续预设数目的帧图像中的位置确定的；

图像流数据获取模块，用于关闭所述音频采集组件实时采集音频流数据，统计音频采集组件关闭的时长，当时长达到预设时长时，确定待赠送的虚拟礼物对应的特效信息；在直播间内显示待赠送的虚拟礼物对应的特效信息；

音频流数据获取模块，用于当所述目标用户的人脸姿态角符合预设条件时，控制开启音频采集组件，获取所述音频采集组件实时采集的音频流数据，将音频流数据与图像流数据根据采集时间进行合并，获得直播视频流，将直播视频流发送至观看者。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述直播音频流的获取方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至9中任意一项所述直播音频流的获取方法的步骤。