CN113053399A

CN113053399A - 一种多路音频混音方法及装置

Info

Publication number: CN113053399A
Application number: CN201911363456.3A
Authority: CN
Inventors: 李雄峰
Original assignee: Zhejiang Dasou Vehicle Software Technology Co Ltd
Current assignee: Zhejiang Dasou Vehicle Software Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-06-29
Anticipated expiration: 2039-12-26
Also published as: CN113053399B

Abstract

本申请提供一种多路音频混音方法和装置，所述方法包括：接收由多个音频源发送的原始音频数据；根据各个原始音频数据的短时能量值的高低，顺次选取排列在先的预设数量的原始音频数据；对选取的原始音频数据进行混音处理，以将混音后的音频数据传输至音频接收方。通过本申请的技术方案，能够优化混音后的声音不清晰、啸叫声音明显等问题，提高了混音后的音频音质。

Description

一种多路音频混音方法及装置

技术领域

本申请涉及网络技术领域，具体涉及一种多路音频混音方法及装置。

背景技术

随着现代技术的快速发展，音频交互存在越来越广泛的应用场景，诸如电话会议场景、多人参与交互的直播场景以及游戏过程中的多人实时语音聊天场景等，因而在群体社交的需求愈来愈强烈的现代社会中，基于音频交互的群体社交过程中混音后的音频体验极为重要。

相关技术中对各路音频数据全部进行混音的混音方式不仅造成音质差、噪声明显，而且极易产生啸叫，尤其在多人进行音频交互的场景中混音效果的缺点更为明显。

发明内容

有鉴于此，本申请提供一种多路音频混音方法及装置，以解决相关技术中存在的技术问题。

为实现上述目的，本申请提供技术方案如下：

根据本申请的第一方面，提出了一种多路音频混音方法，包括：

接收由多个音频源发送的原始音频数据；

根据各个原始音频数据的短时能量值的高低，顺次选取排列在先的预设数量的原始音频数据，其中，所述短时能量值由原始音频数据在预设时长内的各帧音频数据的短时能量而得到；

对选取的原始音频数据进行混音处理，以将混音后的音频数据传输至音频接收方。

可选的，所述对选取的原始音频数据进行混音处理，包括：

对所述排列在先的预设数量的原始音频数据赋予权重值，其中，所赋予的权重值与所述原始音频数据的短时能量值呈正相关；

计算所述预设数量的原始音频数据对应的加权和。

可选的，所述对选取的原始音频数据进行混音处理，以将混音后的音频数据传输至音频接收方，包括：

确定所述排列在先的预设数量的原始音频数据对应的特定音频源；

在所述音频接收方属于所述特定音频源的情况下，确定所述特定音频源中除所述音频接收方之外的其他音频源的原始音频数据的加权和；

将所述其他音频源的原始音频数据的加权和发送至所述音频接收方。

可选的，所述对选取的原始音频数据进行混音，以将混音后的音频数据传输至音频接收方，包括：

在所述音频接收方属于所述特定音频源的情况下，将所述预设数量的原始音频数据对应的加权和与所述音频接收方的原始音频数据的加权值的差值发送至所述音频接收方。

在所述音频接收方不属于所述特定音频源的情况下，将所述预设数量的原始音频数据对应的加权和发送至所述音频接收方。

根据本申请的第二方面，提出了一种多路音频混音装置，包括：

接收单元，接收由多个音频源发送的原始音频数据；

选取单元，根据各个原始音频数据的短时能量值的高低，顺次选取排列在先的预设数量的原始音频数据，其中，所述短时能量值是根据原始音频数据在预设时长内的各帧音频数据的短时能量而确定的；

处理单元，对选取的原始音频数据进行混音处理，以将混音后的音频数据传输至音频接收方。

可选的，所述处理单元具体用于：

计算所述预设数量的原始音频数据对应的加权和。

可选的，所述处理单元具体用于：

根据本申请的第三方面，一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为可执行指令以实现如第一方面所述的方法。

根据本申请的第四方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述第一方面所述方法的步骤。

由以上技术方案可见，对于接收到的由多个音频源发送的原始音频数据，选取按照短时能量值的高低排序后的排列在先的预设数量的原始音频数据，进而对所选取的原始音频数据进行混音处理，避免因对全部的音频源发送的原始音频数据进行混音处理而导致的混音后的音频音质差、声音不清晰、啸叫声明显等问题，优化混音后的音频音质且提高了混音效率。

附图说明

图1是根据本申请一示例性实施例提供的一种多路音频混音的应用场景图；

图2是根据本申请一示例性实施例提供的一种多路音频混音的流程图；

图3是根据本申请一示例性实施例提供的另一种多路音频混音方法的流程图；

图4是根据本申请一示例性实施例中的一种电子设备的示意结构图；

图5是根据本申请一示例性实施例中的一种多路音频混音装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据本申请一示例性实施例提供的一种多路音频混音的应用场景图，如图1所示，多路音频混音的应用场景中可以包括多个音频源，诸如音频源M(0)、M(1)、……、M(n)，混音处理模块可以接收到各个音频源发送的音频信号，在处理器完成混音处理后，可以向各个音频源返回与各个音频源对应的混音处理后的音频数据，通过本申请中的混音处理方法能够使各个音频源接收到混音效果优化后的音频数据，克服了基于相关技术而得到的音频数据存在的音频音质差、声音不清晰、啸叫声明显等缺点。

为对本申请的技术方案进行说明，下面通过具体实施例对本申请的技术方案进行详细阐述：

图2是根据本申请一示例性实施例提供的一种多路音频混音的流程图，如图2所示，该方法可以包括以下步骤：

步骤201，接收由多个音频源发送的原始音频数据。

步骤202，根据各个原始音频数据的短时能量值的高低，顺次选取排列在先的预设数量的原始音频数据，其中，所述短时能量值由原始音频数据在预设时长内的各帧音频数据的短时能量而得到。

步骤203，对选取的原始音频数据进行混音处理，以将混音后的音频数据传输至音频接收方。

在一实施例中，可以对排列在先的预设数量的原始音频数据赋予权重值，具体的，可以赋予与原始音频数据的短时能量值呈正相关的权重值，从而基于所赋予的权重值和原始音频数据确定预设数量的原始音频数据对应的加权和，基于所赋予的权重使得凸显了短时能量值较高的原始音频数据而减弱了短时能量值较低的原始音频数据，使得混音处理的音频数据中短时能量值较高的原始音频数据更为清晰，从而通过提高短时能量值中能量较高的原始音频数据的占比，确保了能量值更高的原始音频数据的相对清晰度。

在另一实施例中，可以确定排列在先的预设数量的原始音频数据对应的特定音频源，进而在音频接收方属于特定音频源的情况下，确定特定音频源中除音频接收方之外的其他音频源的原始音频数据的加权和，进而将包含其他音频源的原始音频数据的加权和的音频数据作为用于发送至音频接收方的混音处理后的音频数据。在本实施例中，对于属于特定音频源的音频接收方，所发送的音频数据中去除了该音频接收方对应的音频数据，使得音频接收方收到的音频数据中不包含自身的音频数据，从而加强了其他特定音频源的音频数据，减少了音频接收方接收其他特定音频源的音频数据时的干扰。

进一步的，确定特定音频源中除音频接收方之外的其他音频源的原始音频数据的加权和的过程具体可以为确定预设数量的原始音频数据对应的加权和与音频接收方的原始音频数据的加权值的差值，进而将所得到的差值确定为除音频接收方之外的其他音频源的原始音频数据的加权和。

在又一实施例中，可以确定排列在先的预设数量的原始音频数据对应的特定音频源，进而在音频接收方不属于特定音频源的情况下，将预设数量的原始音频数据对应的加权和发送至音频接收方。在本实施例中，在音频接收方不属于特定音频源的情况下，可以直接将包含特定音频源对应的加权和的音频数据发送至音频接收方，使得音频接收方接收到的音频数据中排除了其他非特定音频源的音频数据的干扰，提高了包含重要信息的音频数据的清晰程度。

由上述实施例可知，对于接收到的由多个音频源发送的原始音频数据，选取按照短时能量值的高低排序后的排列在先的预设数量的原始音频数据，进而对所选取的原始音频数据进行混音处理，避免因对全部的音频源发送的原始音频数据进行混音处理而导致的混音后的音频音质差、声音不清晰、啸叫声明显等问题，优化混音后的音频音质且提高了混音效率。

图3是根据本申请一示例性实施例提供的另一种多路音频混音方法的流程图，如图3所示，该方法可以包括以下步骤：

步骤301，接收来自多路音频源的音频信号。

步骤302，确定各路音频信号对应的原始音频数据的短时能量值。

通过多路音频源获取到的音频信号可以为由多个音频采集器采集到的音频信号，相应的，各路音频信号可以由各路的音频采集器并行处理，进而确定各个音频信号对应的原始音频数据。

进一步的，各路音频采集器可以对接收到的音频信号进行解码处理，以确定音频信号对应的可进行混音处理的原始音频数据。在确定各路音频信号对应的原始音频数据的短时能量值之前，可以对接收到来自音频源的音频信号进行预处理，诸如降噪处理、增益调整等处理过程。

音频信号是一个非稳态的、时变的信号，但音频信号也并非是突变的，而是在短时间内能够保持特性的稳定性(或称为短时平稳性)，因而可通过短时能量作为一种可对音频信号进行衡量的特征信息，反映了具有时变特性的语音信号的短时相关性，即可以通过短时能量值量化地表示语音数据的能量情况。

在实际应用过程中，可以通过窗函数对原始音频数据进行分帧处理，诸如原始音频数据对应的时域信号数据为x(n)，则通过窗函数ω(n)进行分帧处理后可得到第i帧原始语音数据信号为y_i(n)，且第i帧原始语音数据信号满足y_i(n)＝ω(n)*x((i-1)*inc+n)，其中，n＝1、2、......、L；i＝1、2、......、fn，L为总帧长，fn为分帧处理后的得到的总帧数。基于得到的第i帧原始语音数据信号y_i(n)可以确定第i帧原始语音数据信号y_i(n)的短时能量值E(i)，即

进一步的，可以根据指定的长度对原始音频数据进行分帧处理，指定的长度诸如可以为指定的时间段或者预先指定的采样数，通过分帧处理可以将原始音频数据结构化为数据结构形式，本申请对具体的分帧处理方式不做限制；进一步的，各个原始音频数据对应的短时能量值可以为通过预设时长内的各帧原始音频数据的短时能量而确定的，诸如预设时长内原始音频数据对应的短时能量值的总值、平均值或者原始音频数据对应的短时能量值中的最大值，本申请对原始音频数据对应的短时能量值的确定方式不做限制。

步骤303，按照各个原始音频数据的短时能量值的高低进行排序，顺次将排序在先的预设数量的短时能量值的音频源确定为特定音频源。

根据各个原始音频数据的短时能量值的相对大小关系，按照短时能量值由高到底对原始音频数据进行排序，诸如音频源M(0)、M(1)、......、M(n)所对应的原始音频数据分别为Z(0)、Z(1)、......、Z(n)，原始音频数据Z(0)、Z(1)、......、Z(n)分别对应的短时能量值为E(0)、E(1)、......、E(n)，假如能量值由高到低的顺序为E(0)、E(1)、......、E(n)，则相应的，按照短时能量值由高到低的顺序对原始音频数据进行排序，得到排序的原始音频数据为Z(0)、Z(1)、......、Z(n)，且排序后的原始音频数据对应的音频源为M(0)、M(1)、……、M(n)。

进一步的，若对排序在先的预设数量设置为2，则顺次所选取的短时能量值排序在先的2个音频源为M(0)、M(1)，相应的，音频源M(0)、M(1)为音频源M(0)、M(1)、......、M(n)中的特定音频源，而音频源M(2)、......、M(n)为音频源M(0)、M(1)、......、M(n)中除特定音频源之外的其他音频源。

若对排序在先的预设数量设置为m，则顺次所选取的短时能量值排序在先的m个音频源为M(0)、M(1)、...、M(m)，其中，m为小于n的正整数，相应的，音频源M(0)、M1(1)、...、M(m)为音频源M(0)、M(1)、......、M(n)中的特定音频源，而音频源M(m+1)、......、M(n)为音频源M(0)、M(1)、......、M(n)中除特定音频源之外的其他音频源。

步骤304，对特定音频源的原始音频数据赋予与短时能量值呈正相关的权重值。

在一实施例中，可以对特定音频源的原始音频数据赋予与短时能量值呈正相关的权重值，其中，所赋予的与短时能量值呈正相关的权重值表现为：在特定音频源A的原始音频数据a对应的短时能量值E(a)大于特定音频源B的原始音频数据b对应的短时能量值E(b)的情况下，赋予原始音频数据a的权重值ω_a大于赋予原始音频数据b的权重值ω_b；而若特定音频源A的原始音频数据a对应的短时能量值E(a)小于特定音频源B的原始音频数据b对应的短时能量值E(b)，则赋予原始音频数据a的权重值ω_a小于赋予原始音频数据b的权重值ω_b。在实际应用过程中，权重值的数值可以根据实际情况进行确认，本申请不对权重值的具体数值进行限制。

步骤305，判断音频接收方是否属于特定音频源，若是，则进入步骤306，否则，进入步骤307。

对接收到的多路音频源的音频信号进行混音处理后，将混音后的音频返回至各路音频源，以实现实时的音频交互，因而，音频接收方为提供音频信号的音频源中的之一。在对所提供的音频信号的音频源根据该音频源对应的原始音频数据数据是否为排列在先的预设数量的原始音频数据的基准进行划分后，则在对于音频源中的之一为音频接收方的情况下，音频接收方可能为特定音频源或者音频源中除特定音频源之外的其他音频源。

步骤306，确定特定音频源中除音频接收方之外的其他音频源的原始音频数据对应的加权和。

在音频接收方属于预先确定出的特定音频源的情况下，向音频接收方返回除音频接收方之外的其他音频源的原始音频数据对应的加权和，对于除音频接收方之外的其他音频源的原始音频数据对应的加权和确定方式可以有多种，下述通过两种示例性方式展现如何确定除音频接收方之外的其他音频源的原始音频数据对应的加权和：

在一实施例中，可以确定全部特定音频源所对应的原始音频数据的加权和与作为音频接收方的特定音频源的原始音频数据的加权值，进而将全部特定音频源对应的原始音频数据的加权和与作为音频接收方的特定音频源的原始音频数据的加权值的差值确定为用于发送至作为音频接收方的特定音频源的混音处理后的音频数据。

诸如在按照短时能量值顺序排序后而得到的原始音频数据分别为Z(0)、Z(1)、......、Z(n)的音频源M(0)、M(1)、......、M(n)的应用场景中，若预设数量为m，则所确定的特定音频源对应的原始音频数据为Z(0)、Z(1)、......、Z(m)，且基于为各个特定音频源所赋予的权重值ω₀、ω₁、......、ω_m，则可以确定全部特定音频源所对应的原始音频数据的加权和为

作为音频接收方的特定音频源M(0)的原始音频数据的加权值为Z[0]*ω₀，则发送至作为音频接收方的特定音频源M(0)的混音处理后的音频数据为Z-Z[0]*ω₀，即

类似的，在音频源M(1)作为音频接收方的特定音频源的情况下，音频源M(1)接收到的混音处理后的音频数据为Z-Z[1]*ω₁，即

在另一实施例中，可以优先确定全部特定音频源中除作为音频接收方的特定音频源之外的其他特定音频源，进而仅对除作为音频接收方的特定音频源之外的其他特定音频源做加权和，从而将所得到的加权和确定为用于发送至音频接收方的混合处理后的音频数据。

仍然以在按照短时能量值顺序排序后而得到的原始音频数据分别为Z(0)、Z(1)、......、Z(n)的音频源M(0)、M(1)、......、M(n)的应用场景为例，若预设数量为m且作为音频接收方的特定音频源为M(0)，则所确定的特定音频源对应的原始音频数据为Z(0)、Z(1)、......、Z(m)，且基于为各个特定音频源所赋予的权重值ω₀、ω₁、......、ω_m，则可以确定全部特定音频源中除作为音频接收方的特定音频源M(0)之外的其他特定音频源对应的原始音频数据对应的加权和为

并将所确定的加权和Z′作为发送至作为音频接收方的特定音频源M(0)的经过混音处理的原始音频数据；再例如，若预设数量为3且作为音频接收方的特定音频源为M(2)，则所确定的特定音频源中除作为音频接收方的特定音频源之外的其他特定音频源对应的原始音频数据为Z(0)、Z(1)，相应的，基于所赋予的权重值ω₀、ω₁，则可直接确定出全部特定音频源中除作为音频接收方的特定音频源M(2)之外的其他特定音频源对应的原始音频数据加权和为Z″＝Z(0)*ω₀+Z(1)*ω₁，进而将所确定的加权和Z″作为发送至作为音频接收方的特定音频源M(2)的经过混音处理的原始音频数据。

步骤307，确定特定音频源对应的原始音频数据对应的加权和。

在音频接收方不属于预先确定出的特定音频源的情况下，向音频接收方返回预先所确定出的特定音频源的原始音频数据对应的加权和，以使得对于不属于预先所确定出的特定音频源的任一音频接收方而言，本申请中直接将预先确定出的特定音频源对应的原始音频数据对应的加权和作为混音处理后的音频数据进行发送，使得音频接收方能够接收到具有较高短时能量值的原始音频数据的混音结果，而不会被具有较低的短时能量值的原始音频数据的干扰，提高了对隐含有效数据信息更多的音频数据的传输占比。

通过一示例性实施例对得到预先所确定出的特定音频源的原始音频数据对应的加权和进行举例，诸如在按照短时能量值顺序排序后而得到的原始音频数据分别为Z(0)、Z(1)、......、Z(n)的音频源M(0)、M(1)、......、M(n)的应用场景中，若预设数量为m，则所确定的特定音频源对应的原始音频数据为Z(0)、Z(1)、......、Z(m)，且基于为各个特定音频源所赋予的权重值ω₀、ω₁、......、ω_m，则可以得到预先所确定出的特定音频源的原始音频数据对应的加权和为

步骤308，根据得到的加权和确定发送至音频接收方的混音后的音频数据。

在一实施例中，在将所确定的混音后的音频数据发送至音频接收方之前，可以对混音后的音频数据进行降噪处理，具体的，可以对音频数据中的音频信号与噪声信息做一个区分，从而给混音后的音频数据中的音频信号一个较高的权重，而给音频数据中的噪声信息一个低的权重，从而达到进一步抑制音频数据中的噪音干扰的技术效果，提高接收方接收到的音频数据的清晰度。

通过上述实施例，对于由多路音频源发送的音频信号，本申请将按照各个原始音频数据的短时能量值的高低排序后的排序在先的预设数量的短时能量值的音频源确定为特定音频源，并为特定音频源的短时能量值赋予正相关的权重值，以凸显短时能量值较高的音频信息，而弱化短时能量值较低的音频信息，减弱甚至避免包含少量信息的较低短时能量值对应的原始音频数据对混音处理后的音频信息的干扰，提高了包含大量信息的较高短时能量值对应的原始音频数据的占比，从而优化了混音后的声音不清晰的问题；此外，本实施例中避免了因对全部的音频源发送的原始音频数据进行混音处理而导致的混音后的音频音质差、啸叫声音明显等问题，优化混音后的音频音质且提高了混音效率。

图4是根据本申请一示例性实施例中的一种电子设备的示意结构图。请参考图4，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成多路音频混音装置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图5，图5是根据本申请一示例性实施例中的一种多路音频混音装置的框图，在软件实施方式中，该地址追踪装置可以包括：

接收单元501，接收由多个音频源发送的原始音频数据；

选取单元502，根据各个原始音频数据的短时能量值的高低，顺次选取排列在先的预设数量的原始音频数据，其中，所述短时能量值由原始音频数据在预设时长内的各帧音频数据的短时能量而得到；

处理单元503，对选取的原始音频数据进行混音处理，以将混音后的音频数据传输至音频接收方。

可选的，所述处理单元503具体用于：

计算所述预设数量的原始音频数据对应的加权和。

可选的，所述处理单元503具体用于：

所述装置与上述方法相对应，更多相同的细节不再一一赘述。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种多路音频混音方法，其特征在于，所述方法包括：

接收由多个音频源发送的原始音频数据；

2.根据权利要求1所述方法，其特征在于，所述对选取的原始音频数据进行混音处理，包括：

计算所述预设数量的原始音频数据对应的加权和。

3.根据权利要求1所述方法，其特征在于，所述对选取的原始音频数据进行混音处理，以将混音后的音频数据传输至音频接收方，包括：

4.根据权利要求1所述方法，其特征在于，所述对选取的原始音频数据进行混音，以将混音后的音频数据传输至音频接收方，包括：

5.根据权利要求1所述方法，其特征在于，所述对选取的原始音频数据进行混音，以将混音后的音频数据传输至音频接收方，包括：

6.一种多路音频混音装置，其特征在于，所述装置包括：

接收单元，接收由多个音频源发送的原始音频数据；

选取单元，根据各个原始音频数据的短时能量值的高低，顺次选取排列在先的预设数量的原始音频数据，其中，所述短时能量值由原始音频数据在预设时长内的各帧音频数据的短时能量而得到；

7.根据权利要求6所述装置，其特征在于，所述处理单元具体用于：

计算所述预设数量的原始音频数据对应的加权和。

8.根据权利要求6所述装置，其特征在于，所述处理单元具体用于：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为可执行指令以实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。