CN105611222B

CN105611222B - 音频数据处理方法、装置、被控设备和系统

Info

Publication number: CN105611222B
Application number: CN201510997391.3A
Authority: CN
Inventors: 林朝旸
Original assignee: Beijing Viazijing Technology Co Ltd
Current assignee: Beijing Viazijing Technology Co Ltd
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2019-03-15
Anticipated expiration: 2035-12-25
Also published as: CN105611222A

Abstract

本发明提出了一种音频数据处理方法、装置、被控设备和系统，其中，该音频数据处理方法用于被控设备，被控设备连接至主控设备，被控设备通过IEEE1588精确时间协议和主控设备保持时间同步，主控设备的主媒体时钟信号和主控设备的IEEE1588参考时钟信号采用同一频率源，该音频数据处理方法包括：将第一媒体音频数字信号转换成与主媒体时钟信号同步的第一网络音频数字信号，其中，第一媒体音频数字信号为与被控设备的媒体时钟信号同步的音频数字信号；将第一网络音频数字信号发送至主控设备。本发明的技术方案应用于视频会议系统时，可以降低对视频会议主机的处理能力的要求，从而可以级联更多的麦克风，进而提高了音频数据处理系统的扩展性。

Description

音频数据处理方法、装置、被控设备和系统

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种音频数据处理方法、一种音频数据处理装置、一种被控设备和一种音频数据处理系统。

背景技术

目前，常见的音频通信系统有VoIP(Voice Over Internet Protocol，互联网协议)电话以及视频会议中的音频子系统。如图1所示，视频会议系统包括：视频会议主机、多个显示器、多个摄像头、扬声器、PC(Personal Computer，个人电脑)和麦克风，其中，视频会议主机通过线缆或者无线信号连接至IP网络；多个显示器用于显示本地现场视频、远程现场视频、本地或者远程计算机画面；多个摄像头用于采集本地现场视频画面；PC用于发送本地的计算机画面；视频会议主机具有音频输出接口，该音频输出接口可以是模拟接口，连接到有源的扬声器，该音频输出接口还可以是数字接口，如内嵌到HDMI(High DefinitionMultimedia Interface，高清多媒体接口)输出端中，从而可以由具有扬声器的显示器进行声音播放；麦克风接入音频输入接口，用于获取本地现场的声音。麦克风可以通过模拟信号传输线或者数字信号传输线连接至视频会议主机。在实际运用中，麦克风不仅会拾取本地发言者发出的声音，也会拾取扬声器播放的远端发言者的声音，后者如果不滤除，远端的发言者就会听到自己刚刚说的话，也就是听到回声。图2是对麦克风拾取的混有扬声器播放的远端发言者声音的信号进行回声消除处理，具体地，自适应滤波器在双话检测器的控制下工作，并根据加法器输出的音频信号的状态来动态调整滤波器系数。后处理模块是对加法器输出的消除回声后的音频信号进行残余回音抑制、音频降噪、自动增益调整等运算。

在低端的视频会议系统中，麦克风的传输一般采用单端模拟信号进行传输，在中高端的视频会议系统中，麦克风的模拟接口一般采用支持幻象供电的模拟信号平衡传输，并可能同时支持多个麦克风的输入。采用模拟传输方式对音频信号进行传输时，音频信号的噪声会随传输距离的增加而增加。为避免传输时引入的噪声影响麦克风的信噪比，可以先对麦克风信号进行数字化，通过数字传输的方式对麦克风的音频信号进行传输。另外，为了保证回声消除处理的正确性，从麦克风传输过来的音频数字信号需要和主机内部的音频数字信号在采样上同步。在相关技术中，一般通过硬件的方式来确保麦克风传输的数字的音频信号的媒体采样时钟和主控设备播放的音频信号的主媒体时钟在频率上相同以及相位差恒定。但是，相关技术中的方案限制了处理音频信号时的灵活性，而且在处理音频数据时对视频会议主机的处理能力要求比较高，这样也在一定程度上限制了与视频会议主机相连的麦克风的数量。

因此，如何采用一种简单硬件电路实现音频信号高保真同步传输，降低对视频会议主机的处理能力的要求，以级联更多的麦克风，进而提高音频数据处理系统的扩展性成为亟待解决的问题。

发明内容

本发明正是基于上述问题，提出了一种新的技术方案，不仅避免了音频信号在传输过程中引入噪音，还可以降低对视频会议主机的处理能力的要求，从而可以级联更多的麦克风，进而提高了音频数据处理系统的扩展性。

有鉴于此，本发明的第一方面提出了一种音频数据处理方法，用于被控设备，所述被控设备连接至主控设备，所述被控设备通过IEEE1588精确时间协议和所述主控设备保持时间同步，所述主控设备的主媒体时钟信号和所述主控设备的IEEE1588参考时钟信号采用同一频率源，所述音频数据处理方法包括：将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号，其中，所述第一媒体音频数字信号为与所述被控设备的媒体时钟信号同步的音频数字信号；将所述第一网络音频数字信号发送至所述主控设备。

在该技术方案中，通过将与被控设备(如麦克风)的媒体时钟信号同步的第一媒体音频数字信号转换成与主控设备(如视频会议主机)的主媒体时钟信号同步的第一网络音频数字信号，避免了使用专用硬件方式来同步地数字化和采集主控设备和被控设备的音频信号，从而提高了系统的适应性。其中，同步指的是音频信号统计意义上是同频的、并且相位差控制在一定的范围内。在此方案中，第一媒体音频数字信号可以是单通道的也可以是多通道的，且第一媒体音频数字信号可以是被控设备(如麦克风)采集的原始未处理过的音频数字信号，也可以是采集后的音频数字信号经过处理过的音频信号(如回声消除或降噪处理等，但未经过采样率转换)。被控设备然后将与主控设备的主媒体时钟信号同步的第一网络音频数字信号发送至主控设备，以供主控设备对第一网络音频数字信号进行进一步处理，例如，对多个被控设备传输的第一网络音频数字信号进行智能混音处理。和麦克风模拟传输相比，由于信号模数转换是在被控设备上完成的，可以大大降低麦克风的电路噪声，而数字化传输则避免了传输干扰，保证了音频信号传输到主控设备时仍具有极高的保真度。

在上述技术方案中，优选地，所述将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号的步骤，具体包括：通过对所述第一媒体音频数字信号进行软件重采样，并实时调整所述第一媒体音频数字信号的第一重采样步长，以得到与所述主媒体时钟信号同步的所述第一网络音频数字信号；以及通过以下公式计算所述第一重采样步长：

R_factor1＝1+F_adj，

其中，R_factor1表示所述第一重采样步长，F_adj是根据所述IEEE1588精确时间协议获得的所述被控设备的媒体时钟信号频率和所述主控设备的主媒体时钟信号频率的偏差值。

在该技术方案中，根据被控设备的媒体时钟频率相对主控设备的主媒体时钟频率的偏差值F_adjF，实时调整重采样的第一重采样步长，以此步长对第一媒体音频数字信号进行软件重采样以得到与主控设备的主媒体时钟信号同步的第一网络音频数字信号，从而确保了音频数字信号的保真度。其中，重采样可以采用多抽头的多相位FIR(Finite ImpulseResponse，有限长单位冲激响应)滤波器，加大相位数和抽头数可以得到极小失真度的重采样音频数字信号。

具体地，通过IEEE1588精确时间协议，可以计算出被控设备的IEEE1588参考时钟信号的频率F_slave和主控设备的IEEE1588参考时钟信号的频率F_master的偏差值F_adj，通过以下公式计算该偏差值F_adj：

在上述任一技术方案中，优选地，所述将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号的步骤之前，包括：接收来自所述主控设备的与所述主媒体时钟信号同步的第二网络音频数字信号，并将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号；根据所述第二媒体音频数字信号对采集的音频数字信号进行回声消除处理，将经过回声消除处理后的音频数字信号作为所述第一媒体音频数字信号，其中，所述采集的音频数字信号与所述被控设备的媒体时钟信号同步。

在该技术方案中，将来自主控设备的与主媒体时钟信号同步的第二网络音频数字信号转换成与被控设备的媒体时钟信号同步的第二媒体音频数字信号，避免了第二媒体音频数字信号相对本地采集的音频信号发生相位漂移，从而使得第二媒体音频数字信号可以和被控设备本地采集的音频信号一起做处理，比如回声消除处理。由于回声消除或其他音频处理过程可以迁移到被控设备上进行，自然降低了对主控设备计算能力的要求，特别是当被控设备增加时，对主控设备的计算能力要求基本不变，因为需要大量运算的处理过程可以转移到相应的被控设备上进行，从而使整个系统可以具有很好的扩展性。

在上述任一技术方案中，优选地，所述将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号的步骤之后，包括：根据所述被控设备的媒体时钟信号将所述第二媒体音频数字信号转换成对应的模拟信号，并通过所述被控设备的播放装置对所述第二媒体音频数字信号对应的模拟信号进行播放。

在该技术方案中，以被控设备的媒体时钟信号为节拍将第二媒体音频数字信号转换成对应的模拟信号，而第二媒体音频数字信号和被控设备的媒体时钟信号是同步的，这样音频播放时不会出现缓冲区上溢或下溢现象，从而保证播放的音频是高保真的。通过这种方式，可以将原先需要在主控设备上播放的音频转移到被控设备上进行，从而使整个系统部署具有很好的灵活性。

在上述任一技术方案中，优选地，所述将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号的步骤，具体包括：对所述第二网络音频数字信号进行软件重采样，并实时调整所述第二网络音频数字信号的第二重采样步长，以得到与所述被控设备的媒体时钟信号同步的所述第二媒体音频数字信号；以及通过以下公式计算所述第二重采样步长：

其中，R_factor2表示所述第二重采样步长，F_adj是根据所述IEEE1588精确时间协议获得的所述被控设备的媒体时钟信号频率和所述主控设备的主媒体时钟信号频率的偏差值。

在该技术方案中，根据被控设备的媒体时钟频率相对主控设备的主媒体时钟频率的偏差值F_adjF，实时调整重采样的第二重采样步长，以此步长对第二网络音频数字信号进行软件重采样以得到第二媒体音频数字信号，保证了第二媒体音频数字信号和被控设备的媒体时钟信号同步，从而在被控设备上处理和播放时可以保证无相位漂移，保证了音频信号的高保真度。其中，软件重采样可以采用多抽头多相位的FIR滤波器，以获得低失真度的重采样音频数字信号。

本发明的第二方面提出了一种音频数据处理装置，用于被控设备，所述被控设备连接至主控设备，所述被控设备通过IEEE1588精确时间协议和所述主控设备保持时间同步，所述主控设备的主媒体时钟信号和所述主控设备的IEEE1588参考时钟信号采用同一频率源，所述音频数据处理装置包括：第一处理单元，用于将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号，其中，所述第一媒体音频数字信号为与所述被控设备的媒体时钟信号同步的音频数字信号；发送单元，用于将所述第一处理单元处理得到的所述第一网络音频数字信号发送至所述主控设备。

在该技术方案中，通过将与被控设备(如麦克风)的媒体时钟信号同步的第一媒体音频数字信号转换成与主控设备(如视频会议主机)的主媒体时钟信号同步的第一网络音频数字信号，避免了使用专用硬件方式来同步地数字化和采集主控设备和被控设备的音频信号，从而提高了系统的适应性。其中，同步指的是音频信号统计意义上是同频的、并且相位差控制在一定的范围内。在此方案中，第一媒体音频数字信号可以是单通道的也可以是多通道的，且第一媒体音频数字信号可以是被控设备(如麦克风)采集的原始未处理过的音频数字信号，也可以是采集后的音频数字信号经过处理过的音频信号(如回声消除或降噪处理等，但未经过采样率转换)。被控设备然后将与主控设备的主媒体时钟信号同步的第一网络音频数字信号发送至主控设备，以供主控设备对第一网络音频数字信号进行进一步处理，例如，对多个被控设备传输的第一网络音频数字信号进行智能混音处理。和麦克风模拟传输相比，由于信号数模转换是在被控设备上完成的，可以大大降低麦克风的电路噪声，而数字化传输则避免了传输干扰，保证了音频信号传输到主控设备时仍具有极高的保真度。

在上述技术方案中，优选地，所述第一处理单元包括：第一重采样单元，用于通过对所述第一媒体音频数字信号进行软件重采样，并实时调整所述第一媒体音频数字信号的第一重采样步长，以得到与所述主媒体时钟信号同步的所述第一网络音频数字信号；以及第一计算单元，用于通过以下公式计算所述第一重采样步长：

R_factor1＝1+F_adj，

在上述任一技术方案中，优选地，还包括：第二处理单元，用于接收来自所述主控设备的与所述主媒体时钟信号同步的第二网络音频数字信号，并将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号；音频加工单元，用于根据所述第二处理单元处理得到的所述第二媒体音频数字信号，对采集的与所述被控设备的媒体时钟信号同步的音频数字信号进行回声消除处理，将经过回声消除处理后的音频数字信号作为所述第一媒体音频数字信号。

在上述任一技术方案中，优选地，还包括：播放单元，用于根据所述被控设备的媒体时钟信号将所述第二媒体音频数字信号转换成对应的模拟信号，并通过所述被控设备的播放装置对所述第二媒体音频数字信号对应的模拟信号进行播放。

在该技术方案中，以被控设备的媒体时钟信号为节拍将第二媒体音频数字信号转换成对应的模拟信息，而第二媒体音频数字信号和被控设备的媒体时钟信号是同步的，这样音频播放时不会出现缓冲区上溢或下溢现象，从而保证播放的音频是高保真的。通过这种方式，可以将原先需要在主控设备上播放的音频转移到被控设备上进行，从而使整个系统部署具有很好的灵活性。

在上述任一技术方案中，优选地，所述第二处理单元包括：第二重采样单元，用于对所述第二网络音频数字信号进行软件重采样，并实时调整所述第二网络音频数字信号的第二重采样步长，以得到与所述被控设备的媒体时钟信号同步的所述第二媒体音频数字信号；以及第二计算单元，用于通过以下公式计算所述第二重采样步长：

本发明的第三方面提出了一种被控设备，包括：如上述技术方案中任一项所述的音频数据处理装置；至少一个以太网接口，连接至所述音频数据处理装置，所述至少一个以太网接口支持IEEE1588精确时间协议。

在该技术方案中，由于被控设备包括如上述技术方案中任一项所述的音频数据处理装置，因此，该被控设备具有和上述技术方案中任一项所述的音频数据处理装置相同的技术效果，在此不再赘述。被控设备设置至少具有一个以太网接口，至少一个以太网接口支持IEEE1588精确时间协议，具体地，至少一个以太网接口的MAC(Media Access Control，媒体访问控制)层芯片或PHY(Physical Layer，物理层)层芯片支持IEEE1588精确时间协议。被控设备优选采用PoE(Power Over Ethernet，以太网供电)供电方式，可以简化被控设备的线缆连接，从而降低被控设备部署的难度。另外，以太网接口还可以用于被控设备级联下级的被控设备，通过级联方式可以进一步简化被控设备的线缆连接，从而进一步降低多个被控设备部署的难度。

本发明的第四方面提出了一种音频数据处理系统，包括：主控设备；以及至少一个如上述技术方案中所述的被控设备，连接至所述主控设备。

在该技术方案中，由于音频数据处理系统包括上述技术方案中的主控设备，因此，该音频数据处理系统具有和上述技术方案中所述的被控设备相同的技术效果，在此不再赘述。另外，若被控设备的数量为多个时，优选地，被控设备之间采用菊链式连接方式，可以有效地简化电缆连接，方便部署。另外，该音频数据处理系统基于以太网和IP(InternetProtocol，网络互连协议)，只需以太网接口支持IEEE1588精确时间协议，无需特殊专用硬件，从而使得该音频数据处理系统容易和第三方系统对接，甚至可以直接应用于其他厂商的视频会议系统中。

通过本发明的技术方案，不仅避免了音频信号在传输过程中引入噪音，还可以降低对视频会议主机的处理能力的要求，从而可以级联更多的麦克风，进而提高了音频数据处理系统的扩展性。

附图说明

图1示出了相关技术中的音频数据处理系统的示意图；

图2示出了相关技术中的进行回声消除处理的示意图；

图3示出了根据本发明的一个实施例的音频数据处理方法的流程示意图；

图4示出了根据本发明的一个实施例的音频数据处理装置的结构示意图；

图5示出了根据本发明的一个实施例的被控设备的结构示意图；

图6示出了根据本发明的一个实施例的音频数据处理系统的结构示意图；

图7示出了根据本发明的一个实施例的音频数据处理系统的示意图；

图8示出了根据本发明的另一个实施例的音频数据处理系统的示意图；

图9示出了根据本发明的一个实施例的被控设备与主控设备的连接示意图；

图10示出了根据本发明的一个实施例的被控设备的框图；

图11示出了根据本发明的另一个实施例的被控设备的框图；

图12示出了根据本发明的又一个实施例的被控设备的框图。

具体实施方式

为了可以更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图3示出了根据本发明的一个实施例的音频数据处理方法的流程示意图。

如图3所示，根据本发明的一个实施例的音频数据处理方法，用于被控设备，所述被控设备连接至主控设备，所述被控设备通过IEEE1588精确时间协议和所述主控设备保持时间同步，所述主控设备的主媒体时钟信号和所述主控设备的IEEE1588参考时钟信号采用同一频率源，所述音频数据处理方法包括：

步骤302，将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号，其中，所述第一媒体音频数字信号为与所述被控设备的媒体时钟信号同步的音频数字信号；

步骤304，将所述第一网络音频数字信号发送至所述主控设备。

在上述技术方案中，优选地，步骤302具体包括：通过对所述第一媒体音频数字信号进行软件重采样，并实时调整所述第一媒体音频数字信号的第一重采样步长，以得到与所述主媒体时钟信号同步的所述第一网络音频数字信号；以及通过以下公式计算所述第一重采样步长：

R_factor1＝1+F_adj，

在该技术方案中，根据被控设备的媒体时钟频率相对主控设备的主媒体时钟频率的偏差值F_adj，实时调整重采样的第一重采样步长，以此步长对第一媒体音频数字信号进行软件重采样以得到与主控设备的主媒体时钟信号同步的第一网络音频数字信号，从而确保了音频数字信号的保真度。其中，重采样可以采用多抽头的多相位FIR(Finite ImpulseResponse，有限长单位冲激响应)滤波器，加大相位数和抽头数可以得到极小失真度的重采样音频数字信号。

在上述任一技术方案中，优选地，步骤302之前，包括：接收来自所述主控设备的与所述主媒体时钟信号同步的第二网络音频数字信号，并将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号；根据所述第二媒体音频数字信号对采集的音频数字信号进行回声消除处理，将经过回声消除处理后的音频数字信号作为所述第一媒体音频数字信号，其中，所述采集的音频数字信号与所述被控设备的媒体时钟信号同步。

在该技术方案中，将来自主控设备的与主媒体时钟信号同步的第二网络音频数字信号转换成与被控设备的媒体时钟信号同步的第二媒体音频数字信号，避免了第二媒体音频数字信号相对本地采集的音频信号发生相位漂移，从而使得第二媒体音频数字信号可以和被控设备本地采集的音频信号一起做处理，比如回声消除处理。由于回声消除或音频处理过程可以迁移到被控设备上进行，自然降低了对主控设备计算能力的要求，特别是当被控设备增加时，对主控设备的计算能力要求基本不变，因为需要大量运算的处理过程可以转移到相应的被控设备上进行，从而使整个系统可以具有很好的扩展性。

在上述任一技术方案中，优选地，步骤304之后，包括：根据所述被控设备的媒体时钟信号将所述第二媒体音频数字信号转换成对应的模拟信号，并通过所述被控设备的播放装置对所述第二媒体音频数字信号对应的模拟信号进行播放。

在该技术方案中，根据被控设备的媒体时钟频率相对主控设备的主媒体时钟频率的偏差值F_adj，实时调整重采样的第二重采样步长，以此步长对第二网络音频数字信号进行软件重采样以得到第二媒体音频数字信号，保证了第二媒体音频数字信号和被控设备的媒体时钟信号同步，从而在被控设备上处理和播放时可以保证无相位漂移，保证了音频信号的高保真度。其中，软件重采样可以采用多抽头多相位的FIR滤波器，以获得低失真度的重采样音频数字信号。

图4示出了根据本发明的一个实施例的音频数据处理装置的结构示意图。

如图4所示，根据本发明的一个实施例的音频数据处理装置400，用于被控设备，所述被控设备连接至主控设备，所述被控设备通过IEEE1588精确时间协议和所述主控设备保持时间同步，所述主控设备的主媒体时钟信号和所述主控设备的IEEE1588参考时钟信号采用同一频率源，所述音频数据处理装置包括：第一处理单元402，用于将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号，其中，所述第一媒体音频数字信号为与所述被控设备的媒体时钟信号同步的音频数字信号；发送单元404，用于将所述第一处理单元402处理得到的所述第一网络音频数字信号发送至所述主控设备。

在上述技术方案中，优选地，所述第一处理单元402包括：第一重采样单元4022，用于通过对所述第一媒体音频数字信号进行软件重采样，并实时调整所述第一媒体音频数字信号的第一重采样步长，以得到与所述主媒体时钟信号同步的所述第一网络音频数字信号；以及第一计算单元4024，用于通过以下公式计算所述第一重采样步长：

R_factor1＝1+F_adj，

在上述任一技术方案中，优选地，还包括：第二处理单元406，用于接收来自所述主控设备的与所述主媒体时钟信号同步的第二网络音频数字信号，并将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号；音频加工单元408，用于根据所述第二处理单元406处理得到的所述第二媒体音频数字信号，对采集的与所述被控设备的媒体时钟信号同步的音频数字信号进行回声消除处理，将经过回声消除处理后的音频数字信号作为所述第一媒体音频数字信号。

在上述任一技术方案中，优选地，还包括：播放单元410，用于根据所述被控设备的媒体时钟信号将所述第二媒体音频数字信号转换成对应的模拟信号，并通过所述被控设备的播放装置对所述第二媒体音频数字信号对应的模拟信号进行播放。

在上述任一技术方案中，优选地，所述第二处理单元406包括：第二重采样单元4062，用于对所述第二网络音频数字信号进行软件重采样，并实时调整所述第二网络音频数字信号的第二重采样步长，以得到与所述被控设备的媒体时钟信号同步的所述第二媒体音频数字信号；以及第二计算单元4064，用于通过以下公式计算所述第二重采样步长：

图5示出了根据本发明的一个实施例的被控设备的结构示意图。

如图5所示，根据本发明的一个实施例的被控设备500，包括：如上述技术方案中任一项所述的音频数据处理装置400；至少一个以太网接口502，连接至所述音频数据处理装置，所述至少一个以太网接口502支持IEEE1588精确时间协议。

在该技术方案中，由于被控设备500包括如上述技术方案中任一项所述的音频数据处理装置400，因此，该被控设备500具有和上述技术方案中任一项所述的音频数据处理装置400相同的技术效果，在此不再赘述。被控设备500至少由于一个以太网接口，至少一个以太网接口支持IEEE1588精确时间协议，具体地，至少一个以太网接口的MAC(MediaAccess Control，媒体访问控制)地址或PHY(Physical Layer，物理层)支持IEEE1588精确时间协议，而且优选地采用PoE(Power Over Ethernet，以太网供电)。这种结构不仅可以简化被控设备的线缆连接，从而降低被控设备部署的难度，而且以太网数字传输的方式避免了连线的线路噪声，提高了音频数据的保真度。内置的音频处理装置保证了数字音频在主控设备端或被控设备端都不出现相位漂移，从而确保了音频信号的高保真度。

图6示出了根据本发明的一个实施例的音频数据处理系统的结构示意图。

如图6所示，根据本发明的一个实施例的音频数据处理系统600，包括：主控设备602；以及至少一个如上述技术方案中所述的被控设备500，连接至所述主控设备602。

在该技术方案中，由于音频数据处理系统600包括上述技术方案中的被控设备500，因此，该音频数据处理系统600具有和上述技术方案中所述的被控设备500相同的技术效果，在此不再赘述。另外，若被控设备500的数量为多个时，优选地，被控设备500之间采用菊链式连接方式，可以有效地简化了电缆连接，简化部署。多个被控设备作为麦克风部署时，可以有多个来自不同位置的第一网络音频数字信号到达主控设备，主控设备对多个第一网络音频数字信号简单处理后(如智能混音)，即可以达到扩大拾音范围的目的，而且，回声消除可以在多个被控设备上同时进行，而无需在主控设备上集中处理，可以降低对主控设备计算能力的要求，使得整个系统具有高度可扩展性。另外，该音频数据处理系统600基于以太网和IP(Internet Protocol，网络之间互连的协议)，只需主控设备和被控设备的以太网口支持IEEE1588精确时间协议，无需特殊专用硬件，从而使得该音频数据处理系统600容易和第三方系统对接。

图7示出了根据本发明的一个实施例的音频数据处理系统的示意图。

如图7所示，根据本发明的一个实施例的音频数据处理系统，该音频数据处理系统包括：视频会议主机(主控设备)、显示器、摄像头和麦克风(被控设备)，视频会议主机内部采用了1个支持IEEE1588精确时间协议的PHY芯片，例如，PHY芯片的型号为TIDP83630，视频会议主机的IEEE1588参考时钟连接到此芯片上，并且IEEE1588参考时钟和视频会议主机的主媒体时钟同步；麦克风端，即被控设备端，采用TIAM3352做为运算芯片，此芯片集成了2个MAC层支持IEEE1588的以太网口，并且麦克风的内部有4个ADC(Analog to DigitalConverter，模拟数字转换器)外接了4个对称摆放的声电转换器，以及1个DAC(Digital toAnalog Converter，数字模拟转换器)连接音频放大器，该DAC用于驱动喇叭。在该实施例中，无需其他额外的喇叭来播放远程传输过来的音频(即所述第二网络音频数字信号)。其中，视频会议主机的内部也可以省略掉需要高运算量的回声消除器，视频会议主机只需为音频处理保留小的运算能力做一些低运算量的前后处理，如混音等。

从视频会议主机发到麦克风的第二网络音频数字信号，经软件重采样后转化成第二媒体音频数字信号并通过扬声器播放，同时重采样后的第二媒体音频数字信号送到回声消除器作为参考音频，以消除ADC的音频信号中的串入喇叭播放的声音，即回声。经回声消除处理后的4路ADC音频信号，最后只产生最佳的1路音频信号通过重采样器发送到视频会议主机，视频会议主机将此音频信号编码后传送到网络另一端的视频会议主机。

图8示出了根据本发明的另一个实施例的音频数据处理系统的示意图。

如图8所示，根据本发明的另一个实施例的音频数据处理系统，包括：视频会议主机(主控设备)、多个麦克风(多个被控设备)、显示器、摄像头和扬声器，其中，视频会议主机的以太网接口使用了一个支持IEEE1588精确时间协议的PHY芯片TI DP83630，视频会议主机内置音频DAC，DAC的媒体信号时钟和DP83630IEEE1588参考时钟同步，DAC的输出驱动一个有源的扬声器。在多个麦克风中采用TI AM3352芯片，二者上下行网口都支持IEEE1588精确时间协议，都具有4通道ADC，并且连接4个声电转换器。传统集中式的处理方式是多个声电转换器信号数字化后，一并交给视频会议主机做回声消除处理，并选择声音最佳的一个声电转换器音频信号送到音频编码器。

在该技术方案中，采用分布式处理方式对音频信号进行处理，具体地，视频会议主机播放音频信号A，并向各麦克风发送A，A即所述第二网络音频数字信号。麦克风接收到来自视频会议主机的第二网络音频数字信号A之后，每个麦克风各自对A进行软件重采样形成各自的第二媒体音频数字信号A’。A’和每个麦克风自己的媒体时钟信号同步，每个麦克风采用各自独立的媒体时钟来采集本地4路音频麦克风信号，并以A’为回声参考信号对4路采集的音频信号做回声消除，并产生1个无回声的音频信号作为第一媒体音频数字信号。处理后的音频信号(第一媒体音频信号)仍然是和每个麦克风各自的媒体时钟信号同步的，经过重采样器采样后转换成成第一网络音频数字信号，然后发送到视频会议主机。视频会议主机收到的各个麦克风传输的第一网络音频数字信号，该第一网络音频数字信号和主机的主媒体时钟同步。视频会议主机对来自多个麦克风的多路第一网络音频数字信号做智能混音，再将混音后的音频信号送到音频编码器进行编码。由此可见该技术方案将原来需要消耗视频会议主机大量运算量的回声消除工作转移到各个麦克风上进行，从而使得音频数据处理系统具有很好的扩展性，也就说在音频数据处理系统中可以级联更多的麦克风。

图9示出了根据本发明的一个实施例的被控设备与主控设备的连接示意图。

如图9所示，被控设备与主控设备通过以太网线连接，被控设备之间通过菊链式连接方式进行连接，主控设备通过网线为被控设备供电，其中，主控设备可以是视频会议主机，也可以是带主控功能的纯音频设备，被控设备可以是麦克风，也可以是其他类型的音频输入输出设备。

主控设备和被控设备之间通过IEEE1588PTP(Precision Time Protocol，精确时间协议)实现精确定时，各被控设备通过IEEE1588PTP获得自己的媒体时钟和主控设备主媒体时钟频率差异。主控设备和被控设备之间通过IP协议传送控制命令和状态报告。主控设备通过IP单播或多播将音频参考信号(即第二网络音频数字信号)发送到各被控设备，音频参考信号可以是多通道的。被控设备也向主控设备传送采集并经过软件重采样的音频信号(第一网络音频数字信号)，其中，来自每个被控设备的音频信号可以是多通道的，也可以是单通道的，可以是原始未处理的音频信号，也可以是处理过的音频信号。

其中，在网络上传送的音频信号都是和主控设备的主媒体时钟同步的。其中，第一网络音频数字信号的同步是被控设备通过计算自己的媒体时钟和主控设备主媒体时钟频率差异、根据频率差异调整重采样步长以及软件重采样而实现的。

图10示出了根据本发明的一个实施例的被控设备的框图。这是一个典型被控设备的内部结构。

如图10所示，根据本发明的一个实施例的被控设备，包括：本地时钟、两个以太网接口、音频ADC和DAC、CPU(Central Processing Unit，中央处理器)/DSP(Digital SignalProcessing，数字信号处理器)、RAM(Random Access Memory，随机存取存储器)/ROM(ReadOnly Memory，只读内存)、上级级联以太网线和下级级联以太网线，其中，本地时钟在IEEE1588精确时间协议作用下，不断计算更新被控设备媒体时钟和主控设备媒体时钟的频率差，两个以太网接口都支持PHY层或MAC层的IEEE1588精确时间协议，音频ADC和DAC为多通道的转换器，CPU/DSP具有较强的运算能力，例如可以进行回声消除处理，RAM/ROM用于存储算法代码和数据，其中数据包括音频信号数据，上行的以太网接口通过上级级联以太网线将被控设备与上级的设备相连，以及下行的以太网接口通过下级级联以太网线将被控设备与下级的被控设备相连。

图11示出了根据本发明的另一个实施例的被控设备的框图。这是一个带回声消除功能的数字麦克风的典型内部结构。

如图11所示，根据本发明的另一个实施例的被控设备，包括：本地时钟、以太网接口、音频ADC和DAC、声电转换器、CPU/DSP、RAM/ROM、上级级联以太网线，其中，本地时钟在IEEE1588精确时间协议作用下，不断计算更新被控设备媒体时钟和主控设备媒体时钟的频率差，以太网接口支持PHY层或MAC层的IEEE1588精确时间协议，音频ADC和DAC为多通道的转换器，声电转换器的数量可以为1个或多个，例如，声电转换器为驻极体麦克风，CPU/DSP具有较强的运算能力，例如可以进行回声消除处理，RAM/ROM用于存储算法代码和数据，其中数据包括音频信号数据，上行的以太网接口通过上级级联以太网线将被控设备与上级的设备相连。

图12示出了根据本发明的又一个实施例的被控设备的框图。这是一个带喇叭播放功能和回声消除功能的数字麦克风的典型内部结构。

如图12所示，根据本发明的又一个实施例的被控设备，包括：本地时钟、以太网接口、音频ADC和DAC、声电转换器、CPU/DSP、RAM/ROM、上级级联以太网线、音频放大器和扬声器，其中，本地时钟在IEEE1588精确时间协议作用下，不断计算更新被控设备媒体时钟和主控设备媒体时钟的频率差，以太网接口支持PHY层或MAC层的IEEE1588精确时间协议，音频ADC和DAC为多通道的转换器，声电转换器的数量可以为1个或多个，例如，声电转换器为驻极体麦克风，CPU/DSP具有较强的运算能力，例如可以进行回声消除处理，RAM/ROM用于存储算法代码和数据，其中数据包括音频信号数据，上级级联以太网线用于将被控设备与上级的设备相连，音频放大器用于将音频DAC输出的音频信号进行放大，并通过扬声器进行播放。

以上结合附图详细说明了本发明的技术方案，避免了音频信号的模拟传输，从而避免了模拟噪音，其软件重采样工作方式，避免了数字传输中的相位漂移，从而保证了传输的音频信号的高保真度。在一些应用场景下，可以将一些音频运算转移到被控设备上进行，从而降低了对主控设备的处理能力的要求，因此主控设备可以连接更多的被控设备，进而提升了音频数据处理系统的扩展性。

在本发明中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性；术语“多个”表示两个或两个以上；术语“相连”、“连接”等均应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据处理方法，用于被控设备，所述被控设备连接至主控设备，其特征在于，所述被控设备通过IEEE1588精确时间协议和所述主控设备保持时间同步，所述主控设备的主媒体时钟信号和所述主控设备的IEEE1588参考时钟信号采用同一频率源，所述音频数据处理方法包括：

将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号，其中，所述第一媒体音频数字信号为与所述被控设备的媒体时钟信号同步的音频数字信号；

将所述第一网络音频数字信号发送至所述主控设备；

所述将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号的步骤，具体包括：

通过对所述第一媒体音频数字信号进行软件重采样，并实时调整所述第一媒体音频数字信号的第一重采样步长，以得到与所述主媒体时钟信号同步的所述第一网络音频数字信号；以及

通过以下公式计算所述第一重采样步长：

R_factor1＝1+F_adj，

其中，R_factor1表示所述第一重采样步长，F_adj是根据所述IEEE1588精确时间协议获得的所述被控设备的媒体时钟信号频率和所述主控设备的主媒体时钟信号频率的偏差值；

所述软件重采样用来计算被控设备的参考时钟信号的频率F_slave和主控设备的参考时钟信号的频率F_master的偏差值F_adj，通过以下公式计算该偏差值F_adj：

2.根据权利要求1所述的音频数据处理方法，其特征在于，所述将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号的步骤之前，包括：

接收来自所述主控设备的与所述主媒体时钟信号同步的第二网络音频数字信号，并将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号；

根据所述第二媒体音频数字信号对采集的音频数字信号进行回声消除处理，将经过回声消除处理后的音频数字信号作为所述第一媒体音频数字信号，其中，所述采集的音频数字信号与所述被控设备的媒体时钟信号同步；

所述将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号的步骤，具体包括：

对所述第二网络音频数字信号进行软件重采样，并实时调整所述第二网络音频数字信号的第二重采样步长，以得到与所述被控设备的媒体时钟信号同步的所述第二媒体音频数字信号；以及

通过以下公式计算所述第二重采样步长：

其中，R_factor2表示所述第二重采样步长，F_adj是根据所述IEEE1588精确时间协议获得的所述被控设备的媒体时钟信号频率和所述主控设备的主媒体时钟信号频率的偏差值；

3.根据权利要求2所述的音频数据处理方法，其特征在于，所述将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号的步骤之后，包括：

根据所述被控设备的媒体时钟信号将所述第二媒体音频数字信号转换成对应的模拟信号，并通过所述被控设备的播放装置对所述第二媒体音频数字信号对应的模拟信号进行播放。

4.一种音频数据处理装置，用于被控设备，所述被控设备连接至主控设备，其特征在于，所述被控设备通过IEEE1588精确时间协议和所述主控设备保持时间同步，所述主控设备的主媒体时钟信号和所述主控设备的IEEE1588参考时钟信号采用同一频率源，所述音频数据处理装置包括：

第一处理单元，用于将第一媒体音频数字信号转换成与所述主媒体时钟信号同步的第一网络音频数字信号，其中，所述第一媒体音频数字信号为与所述被控设备的媒体时钟信号同步的音频数字信号；

通过以下公式计算所述第一重采样步长：

R_factor1＝1+F_adj，

发送单元，用于将所述第一处理单元处理得到的所述第一网络音频数字信号发送至所述主控设备。

5.根据权利要求4所述的音频数据处理装置，其特征在于，所述第一处理单元包括：

第一重采样单元，用于通过对所述第一媒体音频数字信号进行软件重采样，并实时调整所述第一媒体音频数字信号的第一重采样步长，以得到与所述主媒体时钟信号同步的所述第一网络音频数字信号；以及

第一计算单元，用于通过以下公式计算所述第一重采样步长：

R_factor1＝1+F_adj，

6.根据权利要求4所述的音频数据处理装置，其特征在于，还包括：

第二处理单元，用于接收来自所述主控设备的与所述主媒体时钟信号同步的第二网络音频数字信号，并将所述第二网络音频数字信号转换成与所述被控设备的媒体时钟信号同步的第二媒体音频数字信号；

通过以下公式计算所述第二重采样步长：

音频加工单元，用于根据所述第二处理单元处理得到的所述第二媒体音频数字信号，对采集的与所述被控设备的媒体时钟信号同步的音频数字信号进行回声消除处理，将经过回声消除处理后的音频数字信号作为所述第一媒体音频数字信号。

7.根据权利要求6所述的音频数据处理装置，其特征在于，还包括：

播放单元，用于根据所述被控设备的媒体时钟信号将所述第二媒体音频数字信号转换成对应的模拟信号，并通过所述被控设备的播放装置对所述第二媒体音频数字信号对应的模拟信号进行播放。

8.根据权利要求6所述的音频数据处理装置，其特征在于，所述第二处理单元包括：

第二重采样单元，用于对所述第二网络音频数字信号进行软件重采样，并实时调整所述第二网络音频数字信号的第二重采样步长，以得到与所述被控设备的媒体时钟信号同步的所述第二媒体音频数字信号；以及

第二计算单元，用于通过以下公式计算所述第二重采样步长：

9.一种被控设备，其特征在于，包括：

如权利要求4至8中任一项所述的音频数据处理装置；

至少一个以太网接口，连接至所述音频数据处理装置，所述至少一个以太网接口支持所述IEEE1588精确时间协议。

10.一种音频数据处理系统，其特征在于，包括：

主控设备；以及

至少一个如权利要求9所述的被控设备，连接至所述主控设备。