CN113259762B

CN113259762B - 音频处理方法及装置、电子设备和计算机可读存储介质

Info

Publication number: CN113259762B
Application number: CN202110372513.5A
Authority: CN
Inventors: 苏庆辉
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-10-04
Anticipated expiration: 2041-04-07
Also published as: CN113259762A

Abstract

本申请公开了一种音频处理方法及装置、电子设备和计算机可读存储介质，其中，音频处理方法包括：响应于通过第一应用软件获取到音频采集的第一指令，基于第一指令启用第一应用软件调用麦克风采集第一音频数据；以及获取到通过系统采集的第二应用软件的第二音频数据；将第一音频数据和第二音频数据按时间戳对齐进行合成，以获得第三音频数据；藉由第一应用软件将第三音频数据对应第二应用软件的画面进行直播。上述方案，能够优化音频获取以提高观众观看直播时收听到的音频的稳定性。

Description

音频处理方法及装置、电子设备和计算机可读存储介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种音频处理方法及装置、电子设备和计算机可读存储介质。

背景技术

随着移动终端的普及，基于移动终端进行互动的交流平台迅速发展，以网络直播为例，主播在移动终端操作任一应用软件并藉由直播软件即可将操作画面直播给观众观看。

现有技术中，在进行录屏直播过程中受制于系统的采集方式，会出现采集不到麦克风声音以致观众听不到主播的声音，或者采集到的麦克风声音很小以致观众听到的应用软件的声音很大而主播的声音很小。有鉴于此，如何优化音频获取以提高观众观看直播时收听到的音频的稳定性成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种音频处理方法及装置、电子设备和计算机可读存储介质，能够优化音频获取以提高观众观看直播时收听到的音频的稳定性。

为解决上述技术问题，本申请第一方面提供一种音频处理方法，所述音频处理方法包括：响应于通过第一应用软件获取到音频采集的第一指令，基于所述第一指令启用所述第一应用软件调用麦克风采集第一音频数据；以及获取到通过系统采集的第二应用软件的第二音频数据；将所述第一音频数据和所述第二音频数据按时间戳对齐进行合成，以获得第三音频数据；藉由所述第一应用软件将所述第三音频数据对应所述第二应用软件的画面进行直播。

为解决上述技术问题，本申请第二方面提供一种音频处理装置，所述音频处理装置包括：获取模块，用于响应通过第一应用软件获取到音频采集的第一指令，基于所述第一指令启用所述第一应用软件调用麦克风采集第一音频数据；提取模块，用于获取通过系统采集的第二应用软件的第二音频数据；合成模块，用于将所述第一音频数据和所述第二音频数据按时间戳对齐进行合成，以获得第三音频数据；转发模块，用于藉由所述第一应用软件将所述第三音频数据对应所述第二应用软件的画面进行直播。

为解决上述技术问题，本申请第三方面提供一种电子设备，包括相互耦接的存储器和处理器，其中，所述存储器存储有程序指令，所述处理器用于执行所述存储器中存储的程序指令，以实现上述第一方面的音频处理方法。

为解决上述技术问题，本申请第四方面提供一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现上述第一方面的音频处理方法。

本申请的有益效果是：本申请通过第一应用软件直接调用麦克风采集的第一音频数据，将第一音频数据和系统采集的第二应用软件的第二音频数据按时间戳对齐合成，以获得第三音频数据，藉由第一应用软件将第三音频数据对应第二应用软件的画面进行直播。其中，麦克风采集的第一音频数据由第一应用软件直接获取，提高了麦克风采集的第一音频数据的稳定性，并与第二应用软件的第二音频数据进行合成，以使第三音频数据中麦克风对应的音频更加稳定，进而观众在观看直播时收听到的主播的声音也更加稳定且清晰。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请音频处理方法一实施例的流程示意图；

图2是本申请音频处理方法另一实施例的流程示意图；

图3是本申请音频处理装置一实施例的框架示意图；

图4是本申请音频处理装置另一实施例的框架示意图；

图5是本申请电子设备一实施例的框架示意图；

图6是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请音频处理方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S101：响应于通过第一应用软件获取到音频采集的第一指令，基于第一指令启用第一应用软件调用麦克风采集第一音频数据，以及获取到通过系统采集的第二应用软件的第二音频数据。

具体地，当主播需要利用第一应用软件将第二应用软件的画面配合音频进行直播时，将第一应用软件打开后与第二应用软件建立连接，在第一应用软件中开启音频采集功能以生成音频采集的第一指令，获取到第一指令后，根据第一指令启用第一应用软件调用麦克风进行音频采集的权限，以获得麦克风采集的第一音频数据，以使第一应用软件端直接获取到第一音频数据。

进一步地，将第一应用软件切换至系统后台保活，第二应用软件切换至系统的前台，通过系统进行录屏以获得第二应用软件的画面和第二应用软件的第二音频数据，其中，当第一应用软件在系统后台保活且第二应用软件在系统前台时，第一应用软件实时获取麦克风采集的第一音频数据，系统实时采集第二应用软件的第二音频数据。

在一应用方式中，在第一应用软件中设置音频采集选项，以使第一应用软件与麦克风建立连接关系，进而第一应用软件能够直接采集到通过麦克风输入的音频。当主播在第一应用软件中启用音频采集选项以生成音频采集的第一指令，将第一指令下发至麦克风控制单元，以使麦克风采集主播通过麦克风输入的第一音频数据，将第一应用软件切换至系统的后台并保活，将第二应用软件切换至系统的前台，第一应用软件可调用麦克风采集的第一音频数据和系统采集的第二应用软件的第二音频数据。

步骤S102：将第一音频数据和第二音频数据按时间戳对齐进行合成，以获得第三音频数据。

具体地，获取到第一音频数据和第二音频数据的时间戳，将第一音频数据和第二音频数据按时间戳对齐，以使第一音频数据和第二音频数据在时序上对应，从而获得第三音频数据。

在一应用方式中，麦克风在采集第一音频数据时为第一音频数据添加对应的时间戳，以标记麦克风采集到第一音频数据的时间，系统在采集第二应用软件的第二音频数据时为第二音频数据添加对应的时间戳，以标记系统采集到第二音频数据的时间，以第二音频数据的时间戳作为参考时间戳，将第一音频数据的时间戳以第二音频数据的时间戳作为参照进行合成，以使第一音频数据能够与第二音频数据匹配上。

在一应用场景中，第一应用软件为直播软件第二应用软件为游戏软件，主播利用直播软件对游戏软件的画面进行直播，第一音频数据为主播的声音第二音频数据为游戏软件中的背景音，麦克风采集到主播通过麦克风输入的第一音频数据，第一音频数据对应有时间戳，系统采集到游戏软件对应的第二音频数据，第二音频数据对应有时间戳。其中，游戏软件的录屏是实时进行的，因此以游戏软件中第二音频数据的时间戳作为参考，将主播通过麦克风输入的第一音频数据与第二音频数据的时间戳对齐，以使主播的声音与游戏画面的背景音匹配，提高观众在收看直播时声音的匹配度。

步骤S103：藉由第一应用软件将第三音频数据对应第二应用软件的画面进行直播。

具体地，将第二应用软件的画面与第三音频数据按时间戳进行匹配，进而利用第一应用软件将第二应用软件的画面和第三音频数据进行直播，以使观众在观看直播时，第二应用软件的画面与第三音频数据匹配。其中，第三音频数据中，第一音频数据通过麦克风直接采集，进而避免了通过系统采集第一音频数据时在采集和转发过程中音频的丢失和失真，以使第三音频数据直播后麦克风对应的音频的稳定性大大提高。

在一应用场景中，主播利用直播软件对游戏软件进行直播时，按照游戏画面的时间戳与第三音频数据的时间戳对齐合成，以使游戏画面与第三音频数据匹配，其中，第三音频数据中包括主播通过麦克风输入的第一音频数据和游戏软件的背景音对应的第二音频数据，主播输入的第一音频数据由麦克风采集后被第一应用软件直接调用，因此麦克风所采集到的主播的声音更加清晰和稳定，以使第三音频数据直播给观众时，观众能够稳定地收听到主播的声音，降低因为主播的声音丢失或者音量很小导致观众的观看体验不佳的概率。

上述方案，通过第一应用软件直接调用麦克风采集的第一音频数据，将第一音频数据和系统采集的第二应用软件的第二音频数据按时间戳对齐合成，以获得第三音频数据，藉由第一应用软件将第三音频数据对应第二应用软件的画面进行直播。其中，麦克风采集的第一音频数据由第一应用软件直接获取，提高了麦克风采集的第一音频数据的稳定性，并与第二应用软件的第二音频数据进行合成，以使第三音频数据中麦克风对应的音频更加稳定，进而观众在观看直播时收听到的主播的声音也更加稳定且清晰。

请参阅图2，图2是本申请音频处理方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S201：响应于通过第一应用软件获取到音频采集的第一指令，基于第一指令启用第一应用软件调用麦克风采集第一音频数据。

具体地，在第一应用软件中开启麦克风音频采集以生成第一指令，麦克风响应第一指令对输入的音频进行采集以获得第一音频数据，第一音频数据传输至第一应用软件端。

进一步地，基于第一指令启用第一应用软件调用麦克风采集第一音频数据的步骤之前或之后，还包括：获取到对麦克风音量进行调整的第二指令，基于第二指令对麦克风所采集的第一音频数据的音频大小进行调整。

具体地，预先在第一应用软件中设定音量调节入口，以使主播在使用第一应用软件时能够在第一应用软件中对麦克风采集声音时的音量进行调节，当主播接收到观众的反馈时，根据观众的弹幕消息或者私信消息中关于音量的建议，在第一应用软件中对麦克风采集第一音频数据时的音量进行调整，以使观众向主播反馈主播个人的声音过大或过小后，主播能够在第一应用软件中的音量调节入口对音量实时地进行主动调节，以生成第二指令，将第二指令传送至麦克风控制单元，以使麦克风接收到第二指令后调整麦克风采集第一音频数据时的音量，进而主播在进行直播时能够对自己通过麦克风输入的第一音频数据进行主动调整，提高麦克风采集第一音频数据的灵活性。

步骤S202：获取到通过系统采集的第四音频数据。其中，第四音频数据包括系统利用预设框架所采集的第二应用软件对应的音频和麦克风对应的音频。

具体地，当第二应用软件在系统的前台时，系统通过预设框架对第二应用软件进行录屏从而采集第二应用软件对应的音频和麦克风对应的音频，以获得第四音频数据。

在一应用场景中，当系统为IOS系统时，IOS系统藉由replaykit录屏框架以采集第二应用软件在屏幕上的画面数据，同时采集麦克风对应的音频以及通过系统播放器播放的音频，当第二应用软件在系统前台时，第二应用软件的音频在播放器播放进而被replaykit录屏框架所采集。

步骤S203：提取第四音频数据中第二应用软件对应的音频，以获得第二应用软件的第二音频数据。

具体地，将第四音频数据中第二应用软件对应的音频提取出来，以获得第二应用软件的第二音频数据，当第二应用软件为游戏软件时，则第二音频数据为游戏背景音，当第二应用软件为音乐软件时，则第二音频数据为音乐伴奏，提取第二应用软件对应的第二音频数据可提高第二应用软件对应的音频的纯净度，消除其他音频对第二音频数据的影响，提高观众在观看直播时的用户体验。

在一应用方式中，将第四音频数据中麦克风对应的音频丢弃，以获得第二应用软件的第二音频数据，利用预设方式将第二音频数据发送至第一应用软件端。

具体地，当系统通过预设框架获取到第四音频数据时，由于麦克风对应的音频与通过系统播放器播放的音频的采集方式存在区别，将第四音频数据中麦克风对应的音频查找出来并丢弃即可更便捷高效地获取到第二应用软件的第二音频数据。

进一步地，在获取到第二应用软件的第二音频数据后，利用进程间通信方式将第二音频数据发送至第一应用软件端，以使第一应用软件获取到第二应用软件的第二音频数据，提高第一应用软件端获取到第二音频数据的效率，并将音频合成的工作在第一应用软件端完成。

步骤S204：将第二音频数据与听筒和扬声器建立连接关系，以使第一应用软件处于系统的后台保活且第二应用软件处于系统的前台时，第二音频数据通过听筒和/或扬声器播放。

具体地，当获取到第二应用软件的第二音频数据后，将第二音频数据的音频播放路由至听筒和扬声器，以使第二音频数据与听筒和扬声器建立连接关系，进而当第一应用软件处于系统的后台保活且第二应用软件处于系统的前台时，主播可以通过扬声器来听到第二应用软件的第二音频数据，以便于主播对正在系统前台的第二应用软件对应的音频进行收听，同时增加了主播对于播放第二应用软件对应的音频时的选择项，避免了主播在进行直播时收听第二应用软件对应的音频音量过小的问题。

进一步地，将第二音频数据与听筒和扬声器建立连接关系的步骤之后，还包括：响应于系统后台除第一应用软件保活外还包括至少一个第三应用软件保活，将第三应用软件的第五音频数据与第二应用软件的第二音频数据通过听筒和/或扬声器进行混音播放。

具体地，当系统后台除第一应用软件还包括其他第三应用软件保活时，且第三应用软件的第五音频数据需要向外播放，则将第五音频数据与第二音频数据在系统层进行混音处理，以使听筒和/或扬声器对混音处理后的音频进行混音播放。

可以理解的是，当系统后台包括多个第三应用软件时，将多个第三应用软件分别对应的第五音频数据与第二音频数据在系统层进行混音处理，以使听筒和/或扬声器对混音处理后的音频进行混音播放。

在一应用场景中，主播利用直播软件对游戏软件的画面进行直播时，系统后台还包括音乐软件和视频软件，其中，音乐软件在系统后台保活并且音乐软件对应的第五音频数据持续播放，将在系统前台的游戏软件对应的第二音频数据和第五音频数据在系统层进行混音处理，以使主播在进行游戏直播时能够从听筒或者扬声器听到音乐软件和游戏软件的声音，满足主播在进行直播时对多个应用软件的使用需求，提高主播使用多个应用软件的灵活度。

步骤S205：将第一音频数据和第二音频数据按时间戳对齐进行合成，以获得第三音频数据。

具体地，在第一应用软件端将第一音频数据和第二音频数据按时间戳对齐进行合成，以使第一音频数据和第二音频数据在时序上对应，进而获得第三音频数据。

在一应用方式中，在第一应用软件端按照录屏时的一个画面组(Group OfPicture，GOP)时间作为一个时隙，将第一音频数据和第二音频数据按照时间戳散列到各时隙内，将第一音频数据和第二音频数据按照时隙进行切片，分成多个音频数据段，将同一时隙内的第一音频数据的音频数据段和第二音频数据的音频数据段按照时间戳对齐进行合成以获得第三音频数据，并与第二应用软件的画面相对应，以使各音频数据段与画面充分对齐，按照时隙的时序，时序在前的时隙先合成并先直播出去，既降低了系统对于音频和视频进行合成的处理压力，又保障了直播的流畅性。

步骤S206：藉由第一应用软件将第三音频数据对应第二应用软件的画面进行直播。

具体地，将合成好的第三音频数据与第二应用软件的画面通过第一应用软件进行直播，以使观众能够收看和收听到主播的直播内容。其中，第三音频数据中的第一音频数据由第一应用软件端调用麦克风采集并接收，进而与第二应用软件的第二音频数据合成后进行直播，降低了采集不到麦克风声音以致观众听不到主播的声音，或者采集到的麦克风声音很小以致观众听到的第二音频数据的声音很大而主播的声音很小的概率，提高了观众观看直播时的体验。

本实施例中，通过第一应用软件端直接调用麦克风采集到第一音频数据，并从系统采集的第四音频数据中提取到第二应用软件的第二音频数据进行切片合成，以获得第三音频数据，将第三音频数据与第二应用软件的画面对应进而直播给观众观看，提高观众观看直播时收听到的音频的稳定性，并将第二音频数据与扬声器和听筒建立连接关系以使主播在进行直播时也能清晰地听到第二应用软件的声音。

请参阅图3，图3是本申请音频处理装置一实施例的框架示意图。音频处理装置30包括：获取模块300、提取模块302、合成模块304和转发模块306。其中，获取模块300用于响应通过第一应用软件获取到音频采集的第一指令，基于第一指令启用第一应用软件调用麦克风采集第一音频数据；提取模块302用于获取通过系统采集的第二应用软件的第二音频数据；合成模块304用于将第一音频数据和第二音频数据按时间戳对齐进行合成，以获得第三音频数据；转发模块306用于藉由第一应用软件将第三音频数据对应第二应用软件的画面进行直播。

上述方案，通过获取模块300藉由第一应用软件直接调用麦克风采集的第一音频数据，合成模块304将第一音频数据和系统采集的第二应用软件的第二音频数据按时间戳对齐合成，以获得第三音频数据，转发模块306藉由第一应用软件将第三音频数据对应第二应用软件的画面进行直播。其中，麦克风采集的第一音频数据由第一应用软件直接获取，提高了麦克风采集的第一音频数据的稳定性，并与第二应用软件的第二音频数据进行合成，以使第三音频数据中麦克风对应的音频更加稳定，进而观众在观看直播时收听到的主播的声音也更加稳定且清晰。

在一些实施例中，提取模块302还可以用于：获取到通过系统采集的第四音频数据；其中，第四音频数据包括系统利用预设框架所采集的第二应用软件对应的音频和麦克风对应的音频；提取第四音频数据中第二应用软件对应的音频，以获得第二应用软件的第二音频数据。

在一些实施例中，提取模块302还可以用于：将第四音频数据中麦克风对应的音频丢弃，以获得第二应用软件的第二音频数据；利用预设方式将第二音频数据发送至第一应用软件端。

在一些实施例中，提取模块302还可以用于：利用进程间通信方式将第二音频数据发送至第一应用软件端。合成模块304还可以用于：在第一应用软件端将第一音频数据和第二音频数据按时间戳对齐进行合成，以使第一音频数据和第二音频数据在时序上对应，进而获得第三音频数据。

在一些实施例中，获取模块300还可以用于：获取到对麦克风音量进行调整的第二指令，基于第二指令对麦克风所采集的第一音频数据的音频大小进行调整。

请参阅图4，图4是本申请音频处理装置另一实施例的框架示意图。音频处理装置40除获取模块300、提取模块302、合成模块304、转发模块306，还包括：连接模块308和叠加模块310。其中，连接模块308用于将第二音频数据与听筒和扬声器建立连接关系，以使第一应用软件处于系统的后台保活且第二应用软件处于系统的前台时，第二音频数据通过听筒和/或扬声器播放。叠加模块310用于响应于系统后台除第一应用软件保活外还包括至少一个第三应用软件保活，将第三应用软件的第五音频数据与第二应用软件的第二音频数据通过听筒和/或扬声器进行混音播放。

上述方案，通过连接模块308使第二音频数据与扬声器建立连接，通过叠加模块310将第二音频数据与第三应用软件的第五音频数据进行混音播放，主播可以通过扬声器收听第二应用软件的第二音频数据和第三应用软件的第五音频数据，以便于主播收听正在系统前台的第二应用软件对应的音频，同时收听第三应用软件对应的音频，满足主播在进行直播时对多个应用软件的声音的接收需求。

请参阅图5，图5是本申请电子设备一实施例的框架示意图。电子设备50包括相互耦接的存储器501和处理器502，存储器501存储有程序指令，处理器502用于执行存储器501中存储的程序指令，以实现上述任一音频处理方法实施例的步骤。

具体而言，处理器502用于控制其自身以及存储器501以实现上述任一音频处理方法实施例的步骤。处理器502还可以称为CPU(Central Processing Unit，中央处理单元)。处理器502可能是一种集成电路芯片，具有信号的处理能力。处理器502还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器502可以由集成电路芯片共同实现。

上述方案，处理器502通过获取麦克风的第一音频数据与第二应用软件的第二音频数据合成为第三音频数据进行直播，能够优化音频获取以提高观众观看直播时收听到的音频的稳定性。

请参阅图6，图6是本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令600，程序指令600用于实现上述任一音频处理方法实施例的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种音频处理方法，其特征在于，包括：

响应于通过第一应用软件获取到音频采集的第一指令，基于所述第一指令启用所述第一应用软件调用麦克风进行音频采集的权限，以获得麦克风采集的第一音频数据；以及

获取到通过系统采集的第二应用软件的第二音频数据；

将所述第一音频数据和所述第二音频数据按时间戳对齐进行合成，以获得第三音频数据；

藉由所述第一应用软件将所述第三音频数据对应所述第二应用软件的画面进行直播；

其中，所述将所述第一音频数据和所述第二音频数据按时间戳对齐进行合成，以获得第三音频数据的步骤，包括：

在所述第一应用软件端按照一个画面组时间作为一个时隙，将所述第一音频数据和所述第二音频数据按照时间戳散列到各时隙内，将所述第一音频数据和所述第二音频数据按照所述时隙进行切片，分成多个音频数据段，将同一所述时隙内的所述第一音频数据的音频数据段和所述第二音频数据的音频数据段按照时间戳对齐进行合成，以获得所述第三音频数据。

2.根据权利要求1所述的音频处理方法，其特征在于，所述获取到通过系统采集的第二应用软件的第二音频数据的步骤，包括：

获取到通过所述系统采集的第四音频数据；其中，所述第四音频数据包括所述系统利用预设框架所采集的所述第二应用软件对应的音频和所述麦克风对应的音频；

提取所述第四音频数据中所述第二应用软件对应的音频，以获得所述第二应用软件的所述第二音频数据。

3.根据权利要求2所述的音频处理方法，其特征在于，所述提取所述第四音频数据中所述第二应用软件对应的音频，以获得所述第二应用软件的所述第二音频数据的步骤，包括：

将所述第四音频数据中所述麦克风对应的音频丢弃，以获得所述第二应用软件的所述第二音频数据；

利用预设方式将所述第二音频数据发送至所述第一应用软件端。

4.根据权利要求3所述的音频处理方法，其特征在于，所述利用预设方式将所述第二音频数据发送至所述第一应用软件端的步骤，包括：

利用进程间通信方式将所述第二音频数据发送至所述第一应用软件端。

5.根据权利要求1所述的音频处理方法，其特征在于，所述获取到通过系统采集的第二应用软件的第二音频数据的步骤之后，还包括：

将所述第二音频数据与听筒和扬声器建立连接关系，以使所述第一应用软件处于所述系统的后台保活且所述第二应用软件处于所述系统的前台时，所述第二音频数据通过所述听筒和/或所述扬声器播放。

6.根据权利要求5所述的音频处理方法，其特征在于，所述将所述第二音频数据与听筒和扬声器建立连接关系的步骤之后，还包括：

响应于所述系统后台除所述第一应用软件保活外还包括至少一个第三应用软件保活，将所述第三应用软件的第五音频数据与所述第二应用软件的第二音频数据通过所述听筒和/或所述扬声器进行混音播放。

7.根据权利要求1所述的音频处理方法，其特征在于，所述基于所述第一指令启用所述第一应用软件调用麦克风进行音频采集的权限，以获得麦克风采集的第一音频数据的步骤之前或之后，还包括：

获取到对所述麦克风音量进行调整的第二指令，基于所述第二指令对所述麦克风所采集的所述第一音频数据的音量大小进行调整。

8.一种音频处理装置，其特征在于，包括：

获取模块，用于响应通过第一应用软件获取到音频采集的第一指令，基于所述第一指令启用所述第一应用软件调用麦克风进行音频采集的权限，以获得麦克风采集的第一音频数据；

提取模块，用于获取通过系统采集的第二应用软件的第二音频数据；

合成模块，用于将所述第一音频数据和所述第二音频数据按时间戳对齐进行合成，以获得第三音频数据；

转发模块，用于藉由所述第一应用软件将所述第三音频数据对应所述第二应用软件的画面进行直播；

其中，所述将所述第一音频数据和所述第二音频数据按时间戳对齐进行合成，以获得第三音频数据，包括：

9.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，其中，所述存储器存储有程序数据，所述处理器调用所述程序数据以执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有程序数据，其特征在于，所述程序数据被处理器执行时实现如权利要求1-7中任一项所述的方法。