CN107910012A

CN107910012A - 音频数据处理方法、装置及系统

Info

Publication number: CN107910012A
Application number: CN201711119455.5A
Authority: CN
Inventors: 刘翔
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-04-13
Anticipated expiration: 2037-11-14
Also published as: CN107910012B

Abstract

本发明实施例提供了一种音频数据处理方法、装置及系统，所述音频数据处理方法包括：采集多个用户的音频数据；根据所述多个用户的音频数据生成混音矩阵；采用预设加权系数对从所述混音矩阵中提取的任意两个用户的音频数据进行混音处理，得到混音数据；根据当前得到的混音数据获取动态加权系数；采用所述动态加权系数对从所述混音矩阵中提取的剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理；重复执行动态加权参数获取及混音处理的步骤，直至对所述混音矩阵中的所有用户的音频数据都做了混音处理。本发明实施例能够防止混音之后数据溢出，且能够改善混音效果。

Description

音频数据处理方法、装置及系统

技术领域

本发明实施例涉及音频处理领域，具体涉及一种音频数据处理方法、装置及系统。

背景技术

在多用户同时唱歌(K歌)或其他需要多路音频数据同时播放的场合，往往需要对多路音频数据进行混音处理。目前常用的混音处理方法，例如：直接将多路音频数据叠加，这种方法容易造成数据溢出，产生噪音；另一种方法：对多路音频数据求均值，这种方法能够避免溢出，但会造成声音不协调，没有高低音，音效不佳。即目前的混音方法，都存在一定程度的缺陷，因此，有必要提出一种新的音频数据处理方法。

发明内容

有鉴于此，本发明实施例提供了一种音频数据处理方法、装置及系统，能够防止混音之后数据溢出，且能够改善混音效果。

发明实施例提供的音频数据处理方法，包括：

1)采集多个用户的音频数据；

2)根据所述多个用户的音频数据生成混音矩阵；

3)从所述混音矩阵中提取任意两个用户的音频数据，采用预设加权系数对所述任意两个用户的音频数据进行混音处理，得到混音数据；

3)根据当前得到的混音数据获取动态加权系数；

4)从所述混音矩阵中提取剩余任意一个用户的音频数据，采用所述动态加权系数对所述剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理；

重复执行步骤4)和步骤5)，直至对所述混音矩阵中的所有用户的音频数据都做了混音处理。

本发明实施例提供的音频数据处理装置，包括：

采集单元，用于采集多个用户的音频数据；

生成单元，用于根据所述多个用户的音频数据生成混音矩阵；

混音处理单元，用于从所述混音矩阵中提取任意两个用户的音频数据，采用预设加权系数对所述任意两个用户的音频数据进行混音处理，得到混音数据；

获取单元，用于根据当前得到的混音数据获取动态加权系数；

所述混音处理单元还用于，从所述混音矩阵中提取剩余任意一个用户的音频数据，采用所述动态加权系数对所述剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理；

所述获取单元还用于，重复执行动态加权系数获取的步骤；所述混音处理单元还用于，重复执行混音处理的步骤，直至对所述混音矩阵中的所有用户的音频数据都做了混音处理。

本发明实施例还提供了一种音频数据处理系统，所述音频数据处理系统中包括上述音频数据处理装置。

本发明实施例中，先将采集的多个用户的音频数据生成混音矩阵，以方便进行混音处理，在混音的过程中，会采用不同的加权系数，即先采用预设加权系数对混音矩阵中的任意两个用户的音频数据进行混音处理，得到混音数据，后续每次根据当前得到的混音数据获取动态加权系数，每次利用不同的动态加权系数对混音矩阵中剩余的任意一个用户的音频数据和当前得到的混音数据进行混音处理，直至对混音矩阵中的所有用户的音频数据都做了混音处理，在混音的过程中，通过不断更新动态加权系数来防止数据溢出，改善混音效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例所提供的音频数据处理方法的一个场景示意图。

图2是本发明实施例所提供的音频数据处理方法的一个流程示意图。

图3是是本发明实施例所提供的音频数据处理方法的另一流程示意图。

图4是本发明实施例所提供的音频数据处理装置的一个结构示意图。

图5是本发明实施例所提供的音频数据处理装置的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

由于现有的音频数据处理方法，在实现混音处理时，都存在一定程度的缺陷，因而，本发明实施例提供了一种音频数据处理方法、装置及系统，能够防止混音之后数据溢出，且能够保证混音音效。本发明实施例提供的音频数据处理方法，可实现在音频数据处理装置中，该音频数据处理装置具体可以集成在智能设备或其他具有音视频数据处理功能的设备中，智能设备包括但不限于智能电视，智能音箱等设备。

以音频数据处理装置集成在智能设备中为例，参见图1，智能设备可以与多个终端进行交互，终端例如：智能手机、平板电脑等，以通过多个终端采集多个用户的音频数据，音频数据例如：K歌数据；根据所述多个用户的音频数据生成混音矩阵；从所述混音矩阵中提取任意两个用户的音频数据，采用预设加权系数对所述任意两个用户的音频数据进行混音处理，例如：叠加、防溢出处理，得到混音数据；根据当前得到的混音数据获取动态加权系数；从所述混音矩阵中提取剩余任意一个用户的音频数据，采用所述动态加权系数对所述剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理；重复执行动态加权系数获取及混音处理的步骤，直至对所述混音矩阵中的所有用户的音频数据都做了混音处理。

本发明实施例的方法，由于先将采集的多个用户的音频数据生成混音矩阵，可以方便后续进行混音处理，在混音的过程中，会采用不同的加权系数，即先采用预设加权系数对混音矩阵中的任意两个用户的音频数据进行混音处理，得到混音数据，后续每次根据当前得到的混音数据获取动态加权系数，每次利用不同的动态加权系数对混音矩阵中剩余的任意一个用户的音频数据和当前得到的混音数据进行混音处理，直至对混音矩阵中的所有用户的音频数据都做了混音处理，在混音的过程中，通过不断更新动态加权系数来防止数据溢出，改善混音效果。

以下将分别进行详细说明，以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。

实施例一

本实施例将从音频数据处理装置的角度进行描述，该音频数据处理装置具体可以集成在智能设备中，比如智能电视、智能音箱等设备中。

一种音频数据处理方法，包括：1)采集多个用户的音频数据；2)根据所述多个用户的音频数据生成混音矩阵；3)从所述混音矩阵中提取任意两个用户的音频数据，采用预设加权系数对所述任意两个用户的音频数据进行混音处理，得到混音数据；4)根据当前得到的混音数据获取动态加权系数；5)从所述混音矩阵中提取剩余任意一个用户的音频数据，采用所述动态加权系数对所述剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理；重复执行步骤4)和步骤5)，直至对所述混音矩阵中的所有用户的音频数据都做了混音处理。

如图2所示，该音频数据处理方法的具体流程可以如下：

步骤201、采集多个用户的音频数据。

具体实现中，可以在多个用户需要同时进行K歌时，例如：多个用户同时演唱某首歌曲时，采集多个用户的音频数据。

具体地，智能设备可以通过与其具有通信连接的多个终端采集多个用户的音频数据，终端例如：智能手机、平板电脑等。通过多个终端采集多个用户的音频数据的过程具体可如下：

当终端的用户需要进行K歌时，终端可以向智能设备发送音频数据传输请求，智能设备接收到每个终端发送的音频数据传输请求之后，为每个终端反馈可用的用户数据报协议(User Datagram Protocol，UDP)端口号，智能设备利用反馈的UDP端口号与对应终端建立UDP连接，然后通过建立的UDP连接从对应终端接收对应用户的音频数据，各个终端可以利用自身的声音采集设备采集各自用户的音频数据。

智能设备接收到的各个终端发送的各个用户的音频数据，可以是未经压缩的数据，这样智能设备端就避免了解压缩的操作，以此保证较高的声音还原度，且提高了数据处理效率。

上述过程中，终端侧发送音频数据传输请求使用的协议体可如表1所示，智能设备侧反馈可用UDP端口号使用的协议可如表2所示：

参数名	类型	是否必须	描述
				命令提示符(cmd)	整数(Int)	是	请求UDP的cmd

表1

参数名	类型	描述
			命令提示符(cmd)	字符串(String)	请求UDP的cmd
码字(code)	整数(Int)	返回码，0表示正确返回
			UDP号	整数(Int)	智能设备分配的UDP端口号
缓冲区大小(buffer size)	整数(Int)	缓冲区大小
			信息(message)	字符串(String)	附带信息

表2

以上描述的是智能设备通过与多个终端之间建立UDP连接获取多个用户的音频数据的方法，通过UDP连接获取多个用户的音频数据，可以减少传输延迟，保证音频数据传输的实时性；实际中，智能设备还可以通过与多个终端之间建立其他形式的连接以获取多个用户的音频数据，例如智能设备可以与多个终端之间建立传输控制协议(TransmissionControl Protocol，TCP)连接，获取多个用户的音频数据，此处不做具体限定。

另外，智能设备还可以利用自身的多个声音采集设备采集多个用户的音频数据，该声音采集设备例如：话筒、麦克风等。通过外接的多个终端采集多个用户的音频数据的方法，可以解决智能设备自身配套设施(例如话筒数)不足的问题。

所采集的多个用户的音频数据的采样深度可能并不相同，为便于处理，在进行混音处理之前，可以对各个用户的音频数据的采样深度进行统一。例如，将采样深度统一为各个音频数据的采样深度中的最大值，或者将采样深度统一为各个音频数据的采样深度中的最小值，或者统一为某个预设值，此处不做具体限定。

另外，在采集多个用户的音频数据之后，还可以对每个用户的音频数据进行丢包检测，并根据检测结果恢复对应用户丢失的音频数据，以保证每个用户的音频数据的完整性。

由于每个音频数据包的包头添加有递增的编号，针对任意一个用户的音频数据进行丢包检测及恢复的过程可如下：解析该用户的每个音频数据包的包头，以获取每个音频数据包的编号，检测前后接收到的两个音频数据包的编号差值是否大于1，若大于1，则说明两个音频数据包之间存在丢包情况，差值的具体值为丢包的数量；若发生丢包，则获取该用户的编号最近的两个音频数据包做平均插值处理，求出来的均值插值序列即作为丢包的恢复处理。

进一步地，为便于处理，还可以对每个用户的音频数据进行归一化处理，将有量纲的数据，经过变换，化为无量纲的数据。

步骤202、根据所述多个用户的音频数据生成混音矩阵。

具体地，可以将每个用户的音频数据作为所述混音矩阵的一行，将每个用户的音频数据中的每个字节的数据作为每行中的一个元素，生成所述混音矩阵。

例如，用户数量的n，每个用户的音频数据包的长度为m，n、m均为正整数，则可以生成m*n的混音矩阵，生成的混音矩阵H可以表示为：其中，a_mn表示第n个用户的音频数据中的第m个字节的数据。

从上面的描述可以看出，混音矩阵可以根据用户的数量及音频数据包的长度动态生成，因此，本实施例的音频处理方法对用户的数量没有限定，在K歌场景中，可以满足多人同时K歌；且K歌的过程中，如果有新用户加入，则将新加入的用户的音频数据加入混音矩阵，即可进行混音处理。

步骤203、从所述混音矩阵中提取任意两个用户的音频数据，采用预设加权系数对所述任意两个用户的音频数据进行混音处理，得到混音数据。

具体实现中，可以先将所述任意两个用户的音频数据叠加，并采用所述预设加权系数对叠加之后的音频数据做衰减处理。即可以基于第一预设公式对所述任意两个用户的音频数据以及所述预设加权系数进行处理，所述第一预设公式为：

Y＝A₁+A₂-F₀*(A₁*A₂)/(2^x-1-1)，其中，Y表示当前得到的混音数据，A₁、A₂表示任意两个用户的音频数据，在上述混音矩阵H中，可以是A₁＝a₁₁,a₂₁…a_m1，A₂＝a₁₂,a₂₂…a_m2，F₀表示预设加权系数，x表示音频数据的采样深度，例如，采样深度为16bit，则x的值就为16。

在对任意两个用户A₁、A₂的音频数据进行混音处理时，为了防止混音之后数据溢出，同时保证混音音效，需要取一个合理的衰减数值。本实施例中，取(A₁*A₂)/(2^x-1-1)作为衰减数值，该衰减数值和A₁、A₂成正比，但又小于A₁、A₂中的任意一个，可以保证衰减的合理性。

步骤204、根据当前得到的混音数据获取动态加权系数。

具体实现中，可以采用第二预设公式对当前得到的混音数据进行处理，得到动态加权系数，所述第二预设公式为：

F₁＝Y/(2^x-1-1)，其中，F₁表示动态加权系数。

具体实现中，预设加权系数F₀的值可以取1，这样可以在初始时，最大程度地防止溢出，此后，由于动态加权系数会随着每次的混音处理更新，动态加权系数会越来越小，最终趋于平稳。

步骤205、从所述混音矩阵中提取剩余任意一个用户的音频数据，采用所述动态加权系数对所述剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理。

以用户的数量为n，生成的混音矩阵为步骤202中生成的混音矩阵H为例，整个混音过程中，所涉及的加权系数、混音数据等可如表3所示：

表3

步骤206、判断是否对所述混音矩阵中的所有用户的音频数据都做了混音处理，若是，则执行步骤206，结束混音处理，否则，返回步骤204继续处理。

表3所示的例子中，即得到混音数据Y_n-1时，即可以结束混音处理过程。

在对所述混音矩阵中的所有用户的音频数据都做了混音处理之后，还可以将最终得到的混音数据输出至扬声器进行播放，在K歌场景，即实现了多人同时K歌。

从上面的描述可以看出，在K歌的过程中，如果有新的用户加入，则将新的用户的音频数据加入混音矩阵，并根据新的动态加权系数对新的用户的音频数据进行混音处理，所以新加入用户的音频数据并不会影响混音效果。

本实施例中，可以先将采集的多个用户的音频数据生成混音矩阵，以方便进行混音处理，在混音的过程中，会采用不同的加权系数，即先采用预设加权系数对混音矩阵中的任意两个用户的音频数据进行混音处理，得到混音数据，后续每次根据当前得到的混音数据获取动态加权系数，每次利用不同的动态加权系数对混音矩阵中剩余的任意一个用户的音频数据和当前得到的混音数据进行混音处理，直至对混音矩阵中的所有用户的音频数据都做了混音处理，在混音的过程中，通过不断更新动态加权系数来防止数据溢出，改善混音效果。

实施例二

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，以三个用户同时K歌，且该音频数据处理装置集成在智能设备中为例进行说明。

如图3所示，本实施例的音频数据处理方法，具体流程可以如下：

步骤301、利用可用的UDP端口与三个终端建立UDP连接。

当第一、第二、第三用户想要同时K歌时，三个用户可以分别利用自身的终端向智能设备发起音频数据传输请求，智能设备接收到三个终端发送的音频数据传输请求之后，可以为每个终端反馈可用的UDP端口号，智能设备利用为每个终端反馈的可用的UDP端口与每个终端建立UDP连接。

步骤302、通过所述UDP连接从所述三个终端接收三个用户的音频数据。

该音频数据为各个终端的用户的K歌数据。

步骤303、对每个用户的音频数据进行丢包检测，并根据检测结果恢复对应用户丢失的音频数据。

步骤304、对每个用户的音频数据进行归一化处理。

即将每个用户的有量纲的数据，经过变换，化为无量纲的数据。

步骤305、根据所述三个用户的音频数据生成混音矩阵。

即可以将每个用户的音频数据作为所述混音矩阵的一行，将每个用户的音频数据中的每个字节的数据作为每行中的一个元素，生成所述混音矩阵。

每个用户的音频数据包的长度如果为m，所生成的混音矩阵H例如：其中，{a₁₁,a₂₁…a_m1}表示第一用户的音频数据，{a₁₂,a₂₂…a_m2}表示第二用户的音频数据，{a₁₃,a₂₃…a_m3}表示第三用户的音频数据。

步骤306、从所述混音矩阵中提取第一、第二用户的音频数据，采用预设加权系数对第一、第二用户的音频数据进行混音处理，得到混音数据。

比如，第一用户的音频数据{a₁₁,a₂₁…a_m1}用A₁表示、第二用户的音频数据{a₁₂,a₂₂…a_m2}用A₂表示，则可以采用公式Y＝A₁+A₂-F₀*(A₁*A₂)/(2^x-1-1)对第一、第二用户的音频数据进行混音处理，混音处理之后得到的混音数据为Y。

步骤307、根据当前得到的混音数据获取动态加权系数。

比如，可以采用公式F₁＝Y/(2^x-1-1)获取动态加权系数，F₁表示动态加权系数。

步骤308、从所述混音矩阵中提取第三用户的音频数据，采用所述动态加权系数对第三用户的音频数据和当前得到的混音数据进行混音处理。

比如，第三用户的音频数据{a₁₃,a₂₃…a_m3}用A₃表示，则可以采用公式Y₁＝A₃+Y₁-F₁*(A₃*Y)/(2^x-1-1)进行混音处理，Y₁表示最终得到的混音数据。

步骤309、将最终得到的混音数据输出至扬声器进行播放。

至此，即实现了三个用户同时K歌。

本实施例中，可以先将采集的多个用户的音频数据生成混音矩阵，以方便进行混音处理，在混音的过程中，会采用不同的加权系数，即先采用预设加权系数对混音矩阵中的任意两个用户的音频数据进行混音处理，得到混音数据，后续每次根据当前得到的混音数据获取动态加权系数，每次利用不同的动态加权系数对混音矩阵中剩余的任意一个用户的音频数据和当前得到的混音数据进行混音处理，直至对混音矩阵中的所有用户的音频数据都做了混音处理，在混音的过程中，通过不断更新动态加权系数来防止数据溢出，保证混音音效。

实施例三

为了更好地实施以上方法，本发明还提供了一种音频数据处理装置，在一个具体的实施例中，音频数据处理装置可以集成在智能设备中，智能设备可以是智能电视、智能音箱等设备，如图4所示，本实施例的装置包括：采集单元401、生成单元402、混音处理单元403及获取单元404，如下：

(1)采集单元401；

采集单元401，用于采集多个用户的音频数据。

具体实现中，采集单元401可以在多个用户需要同时进行K歌时，例如多个用户同时演唱某首歌曲时，采集多个用户的音频数据。

具体地，采集单元401可以通过与智能设备具有通信连接的多个终端采集多个用户的音频数据，终端例如智能手机、平板电脑等，采集单元401可以包括连接建立单元和接收单元，具体采集过程可如下：

当终端的用户需要进行K歌时，终端可以向智能设备发送音频数据传输请求，连接建立单元接收到每个终端发送的音频数据传输请求之后，为每个终端反馈可用的用户数据报协议(User Datagram Protocol，UDP)端口号，利用反馈的UDP端口号与对应终端建立UDP连接，然后接收单元通过建立的UDP连接从对应终端接收对应用户的音频数据，各个终端可以利用自身的声音采集设备采集各自用户的音频数据。

接收单元接收到的各个终端发送的各个用户的音频数据，可以是未经压缩的数据，这样智能设备端就避免了解压缩的操作，以此保证较高的声音还原度，且提高了数据处理效率。

以上描述的是采集单元401通过与多个终端之间建立UDP连接获取多个用户的音频数据的方法，通过UDP连接获取多个用户的音频数据，可以减少传输延迟，保证音频数据传输的实时性；实际中，采集单元401还可以通过与多个终端之间建立其他形式的连接以获取多个用户的音频数据，例如采集单元可以与多个终端之间建立传输控制协议(Transmission Control Protocol，TCP)连接，获取多个用户的音频数据，此处不做具体限定。

另外，采集单元401还可以利用智能设备自身的多个声音采集设备采集多个用户的音频数据，该声音采集设备例如话筒、麦克风。通过外接的多个终端采集多个用户的音频数据的方法，可以解决智能设备自身配套设施(例如话筒数)不足的问题。

采集单元401所采集的多个用户的音频数据的采样深度可能并不相同，为便于处理，在进行混音处理之前，采集单元401还可以对各个用户的音频数据的采样深度进行统一。例如，将采样深度统一为各个音频数据的采样深度值中的最大值，或者将采样深度统一为各个音频数据的采样深度值中的最小值，或者统一为某个预设值，此处不做具体限定。

另外，本实施例的装置还可以包括丢包恢复单元，丢包恢复单元用于在采集单元401采集多个用户的音频数据之后，对每个用户的音频数据进行丢包检测，并根据检测结果恢复对应用户丢失的音频数据，以保证每个用户的音频数据的完整性。

由于每个音频数据包的包头添加有递增的编号，丢包恢复单元针对任意一个用户的音频数据进行丢包检测及恢复的过程可如下：解析该用户的每个音频数据包的包头，以获取每个音频数据包的编号，检测前后接收到的两个音频数据包的编号差值是否大于1，若大于1，则说明两个音频数据包之间存在丢包情况，差值的具体值为丢包的数量；若发生丢包，则获取该用户的编号最近的两个音频数据包做平均插值处理，求出来的均值插值序列即作为丢包的恢复处理。

进一步地，本实施例的装置还可以包括归一化单元，归一化单元用于对每个用户的音频数据进行归一化处理，将有量纲的数据，经过变换，化为无量纲的数据。

(2)生成单元402；

生成单元402，用于根据所述多个用户的音频数据生成混音矩阵。

具体地，生成单元402可以将每个用户的音频数据作为所述混音矩阵的一行，将每个用户的音频数据中的每个字节的数据作为每行中的一个元素，生成所述混音矩阵。

例如，用户数量的n，每个用户的音频数据包的长度为m，n、m均为正整数，则生成单元402可以生成m*n的混音矩阵，生成的混音矩阵H可以表示为：其中，a_mn表示第n个用户的音频数据中的第m个字节的数据。

(3)混音处理单元403；

混音处理单元403，用于从所述混音矩阵中提取任意两个用户的音频数据，采用预设加权系数对所述任意两个用户的音频数据进行混音处理，得到混音数据。

具体实现中，混音处理单元403可以将所述任意两个用户的音频数据叠加，并采用所述预设加权系数对叠加之后的音频数据做衰减处理。即混音处理单元403可以基于第一预设公式对所述任意两个用户的音频数据以及所述预设加权系数进行处理，所述第一预设公式为：

(4)获取单元404；

获取单元404，用于根据当前的混音数据获取动态加权系数。

具体实现中，获取单元404可以采用第二预设公式对当前的混音数据进行处理，得到动态加权系数，所述第二预设公式为：

F₁＝Y/(2^x-1-1)，其中，F₁表示动态加权系数。

所述混音处理单元403还用于，从所述混音矩阵中提取剩余任意一个用户的音频数据，采用所述动态加权系数对所述剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理；

所述获取单元404还用于，重复执行动态加权系数获取的步骤，每次根据当前得到的混音数据获取新的动态加权系数；所述混音处理单元403还用于，重复执行混音处理的步骤，每次采用新的动态加权系数进行混音处理，直至对所述混音矩阵中的所有用户的音频数据都做了混音处理。

本实施例的装置还可以包括播放单元，播放单元用于在混音处理单元403对所述混音矩阵中的所有用户的音频数据都做了混音处理之后，将最终得到的混音数据输出至扬声器进行播放，在K歌场景，即实现了多人同时K歌。

从上面的描述可以看出，在K歌的过程中，如果有新的用户加入，生成单元402会将新用户的音频数据加入混音矩阵，混音处理单元403会根据新的动态加权系数对新的用户的音频数据进行混音处理，所以新加入用户的音频数据并不会影响混音效果。

本实施例中，生成单元402可以先将采集单元401采集的多个用户的音频数据生成混音矩阵，以方便进行混音处理，在混音的过程中，混音处理单元403会采用不同的加权系数，即先采用预设加权系数对混音矩阵中的任意两个用户的音频数据进行混音处理，得到混音数据，后续获取单元404每次根据当前得到的混音数据获取动态加权系数，混音处理单元403每次利用不同的动态加权系数对混音矩阵中剩余的任意一个用户的音频数据和当前得到的混音数据进行混音处理，直至对混音矩阵中的所有用户的音频数据都做了混音处理，在混音的过程中，通过不断更新动态加权系数来防止数据溢出，改善混音效果。

实施例四

相应的，本发明实施例还提供一种音频数据处理系统，包括本发明实施例提供的任一种音频数据处理装置，具体可参见实施例三，例如，可以如下：

该音频数据处理装置，用于采集多个用户的音频数据；根据所述多个用户的音频数据生成混音矩阵；从所述混音矩阵中提取任意两个用户的音频数据，采用预设加权系数对所述任意两个用户的音频数据进行混音处理，得到混音数据；根据当前得到的混音数据获取动态加权系数；从所述混音矩阵中提取剩余任意一个用户的音频数据，采用所述动态加权系数对所述剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理；重复执行动态加权系数获取及混音处理的步骤，直至对所述混音矩阵中的所有用户的音频数据都做了混音处理。

此外，该音频数据处理系统还可以包括其他的设备，比如多个终端，如下：

该多个终端，用于利用可用的用户数据包协议UDP端口与该音频数据处理装置建立UDP连接；通过所述UDP连接将多个用户的音频数据发送给该音频数据处理装置。

以上各个设备的具体实施可参见前面的实施例，在此不再赘述。

由于该音频数据处理系统可以包括本发明实施例提供的任一种音频数据处理装置，因此，可以实现本发明实施例所提供的任一种音频数据处理装置所能实现的有益效果。

实施例五

本发明实施例还提供一种音频数据处理装置，如图5所示，其示出了本发明实施例所涉及的装置的结构示意图，具体来讲：

该装置可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、射频(Radio Frequency，RF)电路503、电源505、输入单元505、以及显示单元506等部件。本领域技术人员可以理解，图5中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该装置的控制中心，利用各种接口和线路连接整个装置的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行装置的各种功能和处理数据，从而对装置进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据装置的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

RF电路503可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器501处理；另外，将涉及上行的数据发送给基站。通常，RF电路503包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路503还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

装置还包括给各个部件供电的电源504(比如电池)，优选的，电源504可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源504还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该装置还可包括输入单元505，该输入单元505可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元505可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器501，并能接收处理器501发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元505还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该装置还可包括显示单元506，该显示单元506可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元506可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器501以确定触摸事件的类型，随后处理器501根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，装置还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，装置中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

1)采集多个用户的音频数据；

2)根据所述多个用户的音频数据生成混音矩阵；

4)根据当前得到的混音数据获取动态加权系数；

5)从所述混音矩阵中提取剩余任意一个用户的音频数据，采用所述动态加权系数对所述剩余任意一个用户的音频数据和当前得到的混音数据进行混音处理；

一实施例中，在根据所述多个用户的音频数据生成混音矩阵时，处理器501具体用于执行以下步骤：

将每个用户的音频数据作为所述混音矩阵的一行，将每个用户的音频数据中的每个字节的数据作为每行中的一个元素，生成所述混音矩阵。

一实施例中，在采用预设加权系数对所述任意两个用户的音频数据进行混音处理时，处理器501具体用于执行以下步骤：

将所述任意两个用户的音频数据叠加，并采用所述预设加权系数对叠加之后的音频数据做衰减处理。

一实施例中，在将所述任意两个用户的音频数据叠加，并采用所述预设加权系数对叠加之后的音频数据做衰减处理时，处理器501具体用于执行以下步骤：

基于第一预设公式对所述任意两个用户的音频数据以及所述预设加权系数进行处理，所述第一预设公式为：

Y＝A₁+A₂-F₀*(A₁*A₂)/(2^x-1-1)，其中，Y表示当前得到的混音数据，A₁、A₂表示任意两个用户的音频数据，F₀表示预设加权系数，x表示音频数据的采样深度。

一实施例中，在根据当前得到的混音数据获取动态加权系数时，处理器501具体用于执行以下步骤：

采用第二预设公式对当前得到的混音数据进行处理，得到动态加权系数，所述第二预设公式为：

F₁＝Y/(2^x-1-1)，其中，F₁表示动态加权系数。

一实施例中，在采集多个用户的音频数据时，处理器501具体用于执行以下步骤：

利用可用的用户数据包协议UDP端口与多个终端建立UDP连接；

通过所述UDP连接从所述多个终端接收多个用户的音频数据。

一实施例中，在采集多个用户的音频数据之后，处理器501还用于执行以下步骤：

对每个用户的音频数据进行丢包检测，并根据检测结果恢复对应用户丢失的音频数据。

对每个用户的音频数据进行归一化处理。

一实施例中，在对所述混音矩阵中的所有用户的音频数据都做了混音处理之后，处理器501还用于执行以下步骤：

将最终得到的混音数据输出至扬声器进行播放。

由上可知，本实施例的装置，可以先将采集的多个用户的音频数据生成混音矩阵，以方便进行混音处理，在混音的过程中，会采用不同的加权系数，即先采用预设加权系数对混音矩阵中的任意两个用户的音频数据进行混音处理，得到混音数据，后续每次根据当前得到的混音数据获取动态加权系数，每次利用不同的动态加权系数对混音矩阵中剩余的任意一个用户的音频数据和当前得到的混音数据进行混音处理，直至对混音矩阵中的所有用户的音频数据都做了混音处理，在混音的过程中，通过不断更新动态加权系数来防止数据溢出，改善混音效果。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，装置，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

1)采集多个用户的音频数据；

2)根据所述多个用户的音频数据生成混音矩阵；

4)根据当前得到的混音数据获取动态加权系数；

2.根据权利要求1所述的音频数据处理方法，其特征在于，步骤2)根据所述多个用户的音频数据生成混音矩阵，包括：

3.根据权利要求1所述的音频数据处理方法，其特征在于，步骤3)采用预设加权系数对所述任意两个用户的音频数据进行混音处理，包括：

4.根据权利要求3所述的音频数据处理方法，其特征在于，将所述任意两个用户的音频数据叠加，并采用所述预设加权系数对叠加之后的音频数据做衰减处理，包括：

5.根据权利要求4所述的音频数据处理方法，其特征在于，步骤4)根据当前得到的混音数据获取动态加权系数，包括：

F₁＝Y/(2^x-1-1)，其中，F₁表示动态加权系数。

6.根据权要求1至5任意一项所述的音频数据处理方法，其特征在于，步骤1)采集多个用户的音频数据，包括：

利用可用的用户数据包协议UDP端口与多个终端建立UDP连接；

通过所述UDP连接从所述多个终端接收多个用户的音频数据。

7.根据权利要求1至5任意一项所述的音频数据处理方法，其特征在于，在步骤1)采集多个用户的音频数据之后，还包括：

8.根据权利要求1至5任意一项所述的音频数据处理方法，其特征在于，在步骤1)采集多个用户的音频数据之后，还包括：

对每个用户的音频数据进行归一化处理。

9.根据权利要求1至5任意一项所述的音频数据处理方法，其特征在于，在对所述混音矩阵中的所有用户的音频数据都做了混音处理之后，还包括：

将最终得到的混音数据输出至扬声器进行播放。

10.一种音频数据处理装置，其特征在于，包括：

采集单元，用于采集多个用户的音频数据；

11.根据权利要求10所述的音频数据处理装置，其特征在于，所述生成单元具体用于：

12.根据权利要求10所述的音频数据处理装置，其特征在于，所述混音处理单元采用预设加权系数对所述任意两个用户的音频数据进行混音处理，包括：

所述混音处理单元将所述任意两个用户的音频数据叠加，并采用所述预设加权系数对叠加之后的音频数据做衰减处理。

13.根据权利要求12所述的音频数据处理装置，其特征在于，所述混音处理单元将所述任意两个用户的音频数据叠加，并采用所述预设加权系数对叠加之后的音频数据做衰减处理，包括：

所述混音处理单元基于第一预设公式对所述任意两个用户的音频数据以及所述预设加权系数进行处理，所述第一预设公式为：

14.根据权利要求13所述的音频数据处理装置，其特征在于，所述获取单元具体用于：

F₁＝Y/(2^x-1-1)，其中，F₁表示动态加权系数。

15.根据权要求10至14任意一项所述的音频数据处理装置，其特征在于，所述采集单元包括：

连接建立单元，用于利用可用的用户数据包协议UDP端口与多个终端建立UDP连接；

接收单元，用于通过所述UDP连接从所述多个终端接收多个用户的音频数据。

16.根据权利要求10至14任意一项所述的音频数据处理装置，其特征在于，所述装置还包括：

丢包恢复单元，用于对每个用户的音频数据进行丢包检测，并根据检测结果恢复对应用户丢失的音频数据。

17.根据权利要求10至14任意一项所述的音频数据处理装置，其特征在于，所述装置还包括：

归一化单元，用于对每个用户的音频数据进行归一化处理。

18.根据权利要求10至14任意一项所述的音频数据处理装置，其特征在于，所述装置还包括：

播放单元，用于将最终得到的混音数据输出至扬声器进行播放。

19.一种音频数据处理系统，其特征在于，包括根据权利要求10至18任意一项所述的音频数据处理装置。

20.根据权利要求19所述的系统，其特征在于，所述系统还包括多个终端，所述多个终端用于为所述音频数据处理装置提供多个用户的音频数据。