CN117221793A

CN117221793A - 音频信息处理方法、装置、介质及设备

Info

Publication number: CN117221793A
Application number: CN202311325966.8A
Authority: CN
Inventors: 李浩然
Original assignee: Guangzhou Tencent Technology Co Ltd
Current assignee: Guangzhou Tencent Technology Co Ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2023-12-12

Abstract

本申请公开了音频信息处理方法、装置、介质及设备，涉及音视频技术领域，方法包括：获取当前时间周期内的音频采集信息，包括多个声道中每个声道的音频信号数据；对每个声道的音频信号数据进行能量检测得到每个声道对应的目标能量数据；目标能量数据为音频能量数据或目标能量数据为音频能量数据和回声能量数据；根据每个声道对应的目标能量数据确定当前时间周期内的目标音频信号数据；对目标音频信号数据进行回声消除处理得到当前时间周期内的目标音频传输数据。本申请提供的技术方案可以实时输出每个时间周期内音频能量数据或信噪比最佳的目标音频信号数据，有效提升了音频音质，同时仅需对一路目标音频信号数据进行回声消除，减少了性能开销。

Description

音频信息处理方法、装置、介质及设备

技术领域

本申请涉及音视频技术领域，具体涉及音频信息处理方法、装置、介质及设备。

背景技术

在音频采集的场景中，不同麦克风的采集效果会受到用户操作设备的方式、设备自身硬件条件、周围环境条件等的影响。比如当用户朝着设备顶部录制，那么顶部的麦克风采集到的音频数据能量就会明显大于底部麦克风采集到的音频数据能量，当用户无意中挡住某个麦克风的时候音频数据能量之间的差异更加明显。当用户调节扬声器音量的时候，离扬声器近的麦克风会比离扬声器远的麦克风录制更多的回声。

相关技术中使用多声道采集技术，将采集到的多声道的音频数据同时进行回声消除处理后按需重采样成一路音频信号以传输，所传输的音频信号的音质容易受极端的音频数据的影响而降低。

发明内容

为了提升音频的音质，本申请提供了音频信息处理方法、装置、介质及设备。所述技术方案如下：

第一方面，本申请提供了一种音频信息处理方法，所述方法包括：

获取当前时间周期内的音频采集信息，所述音频采集信息包括多个声道中每个声道的音频信号数据；

对所述每个声道的音频信号数据进行能量检测，得到所述每个声道对应的目标能量数据；所述目标能量数据为音频能量数据，或所述目标能量数据为所述音频能量数据和回声能量数据；

根据所述每个声道对应的目标能量数据，确定所述当前时间周期内的目标音频信号数据；

对所述目标音频信号数据进行回声消除处理，得到所述当前时间周期内的目标音频传输数据，以将所述目标音频传输数据进行上行传输。

可选的，所述根据所述每个声道对应的目标能量数据，确定所述当前时间周期内的目标音频信号数据，包括：

获取预设能量阈值；所述预设能量阈值为音频能量阈值，或所述预设能量阈值为音频能量阈值与回声能量阈值；

将所述每个声道对应的目标能量数据与所述预设能量阈值进行比较，得到比较结果；

基于所述比较结果，对所述每个声道的音频信号数据进行筛选或混合，得到所述当前时间周期内的所述目标音频信号数据。

可选的，所述基于所述比较结果，对所述每个声道的音频信号数据进行筛选或混合，得到所述当前时间周期内的所述目标音频信号数据，包括：

在所述比较结果指示所述每个声道对应的音频能量数据均低于所述音频能量阈值的情况下，对所述每个声道的音频信号数据进行混合，得到所述当前时间周期内的所述目标音频信号数据。

在所述比较结果指示所述每个声道对应的音频能量数据均不低于所述音频能量阈值，且所述每个声道对应的回声能量数据之间的离散度不低于所述回声能量阈值的情况下，对所述每个声道的音频信号数据进行筛选，确定所述当前时间周期内的所述目标音频信号数据，所述目标音频信号数据为最低回声能量数据对应的音频信号数据。

在所述比较结果指示所述每个声道对应的音频能量数据均不低于所述音频能量阈值，且所述每个声道对应的回声能量数据之间的离散度低于所述回声能量阈值的情况下，对所述每个声道的音频信号数据进行混合，得到所述当前时间周期内的所述目标音频信号数据。

在所述比较结果指示存在所述多个声道中部分声道对应的音频能量数据高于所述音频能量阈值的情况下，对所述部分声道中每个声道的音频信号数据进行筛选或混合，确定所述当前时间周期内的所述目标音频信号数据，所述目标音频信号数据为最高音频能量数据对应的声道的音频信号数据或为所述部分声道中每个声道的音频信号数据的混合结果。

可选的，所述对所述目标音频信号数据进行回声消除处理，得到所述当前时间周期内的目标音频传输数据，包括：

获取所述当前时间周期内的音频播放数据；

基于回声传播路径模型和所述音频播放数据，确定模拟回声信号数据；

对所述模拟回声信号数据和所述目标音频信号数据进行模式匹配，确定所述目标音频信号数据中的真实回声信号数据；

对所述目标音频信号数据中的所述真实回声信号数据进行消除，得到所述目标音频传输数据。

可选的，所述对所述每个声道的音频信号数据进行音频能量检测，得到所述每个声道对应的音频能量数据，包括：

确定所述每个声道的音频信号数据中的振幅最大值；

根据所述每个声道对应的振幅最大值，确定所述每个声道对应的音频能量数据。

第二方面，本申请提供了一种音频信息处理装置，所述装置包括：

音频采集模块，用于获取当前时间周期内的音频采集信息，所述音频采集信息包括多个声道中每个声道的音频信号数据；

能量检测模块，用于对所述每个声道的音频信号数据进行能量检测，得到所述每个声道对应的目标能量数据；所述目标能量数据为音频能量数据，或所述目标能量数据为所述音频能量数据和回声能量数据；

信号确定模块，用于根据所述每个声道对应的目标能量数据，确定所述当前时间周期内的目标音频信号数据；

回声消除模块，用于对所述目标音频信号数据进行回声消除处理，得到所述当前时间周期内的目标音频传输数据，以将所述目标音频传输数据进行上行传输。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的一种音频信息处理方法。

第四方面，本申请提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如第一方面所述的一种音频信息处理方法。

第五方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现如第一方面所述的一种音频信息处理方法。

本申请提供的音频信息处理方法、装置、介质及设备，具有如下技术效果：

本申请提供的方案可以在每个时间周期内实时输出音质最佳的目标音频传输数据，从而整体提升所输出的音频的音质。在本申请的方案中，通过对当前时间周期内所采集的多个声道中每个声道的音频信号数据进行能量检测，确定每个声道对应的目标能量数据，目标能量数据可以指示对应声道的音频信号数据的音质表现，进而基于目标能量数据确定出当前时间周期内音质表现最佳的一路目标音频信号数据。对目标音频信号数据进行回声消除处理，可以进一步提升输出音频的音质效果。此外，在本申请的方案中，当前时间周期内仅需对一路目标音频信号数据进行回声消除处理，而不需要对每个声道的音频信号数据进行回声消除处理，降低了音频信息处理的性能开销，提升了音频信息处理的效率。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种音频信息处理方法的实施环境示意图；

图2是本申请实施例提供的一种音频信息处理方法的流程示意图；

图3是本申请实施例提供的一种回声能量检测的流程示意图；

图4是本申请实施例提供的一种确定目标音频信号数据的流程示意图；

图5是本申请实施例提供的一种回声消除处理的流程示意图；

图6是本申请实施例提供的一种音频采集播放的流程示意图；

图7是本申请实施例提供的一种确定目标音频信号数据的流程示意图；

图8是本申请实施例提供的一种基于音频能量数据确定目标音频信号数据的流程示意图；

图9是本申请实施例提供的一种基于回声能量数据确定目标音频信号数据的流程示意图；

图10是本申请实施例提供的一种音频信息处理装置的示意图；

图11是本申请实施例提供的用于实现一种音频信息处理方法的设备的硬件结构示意图。

具体实施方式

为了提升音频音质，本申请实施例提供了音频信息处理方法、装置、介质及设备。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解本申请实施例所述的技术方案及其产生的技术效果，本申请实施例对于涉及到的相关专业名词进行解释：

声道：Sound Channel，是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

信噪比：Signal to Interference plus Noise Ratio，信号与干扰加噪声比，是指接收到的有用信号的强度与接收到的干扰信号(噪声和干扰)的强度的比值；可以简单地将信噪比理解为有效信号和噪声信号的比值，信噪比越高，说明信号音质越好。

回声消除：从回音产生的原因看，回声可以分为声学回音(Acoustic Echo)和线路回音(Line Echo)，相应的回声消除技术可以分为声学回声消除(Acoustic EchoCancellation，简称为AEC)和线路回声消除(Line Echo Cancellation，简称为LEC)，声学回音是由于扬声器的声音或者墙面反射的声音等反馈到麦克风引起的；线路回音是由于物理电子线路的二四线匹配耦合引起的。在本申请实施例中所涉及的回声消除以消除声学回声为主。

自动增益控制：AutomaticGainControl，可简称为AGC，自动增益控制算法能够统一音频的音量大小，极大地缓解了由设备采集差异、说话人音量大小、距离远近等因素导致的音量的差异。

可以理解的是，在本申请的具体实施方式中，涉及到用户的音频信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参阅图1，其为本申请实施例提供的一种音频信息处理方法的实施环境示意图，如图1所示，该实施环境可以至少包括客户端01和服务器02。

具体的，所述客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、车载终端、数字助理、智能可穿戴设备及语音交互设备等类型的设备，也可以包括运行于设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，所述客户端01配置有至少一个麦克风和扬声器，所述至少一个麦克风用于采集多个声道中每个声道的音频信号数据。所述客户端01通过对当前时间周期内所采集的多个声道中每个声道的音频信号数据进行能量检测，确定每个声道对应的目标能量数据，目标能量数据可以指示对应声道的音频信号数据的音质表现，进而基于目标能量数据确定出当前时间周期内音质表现最佳的一路目标音频信号数据，并对目标音频信号数据进行回声消除处理，得到目标音频传输数据。所述客户端01将目标音频传输数据上行传输至所述服务器02，以使所述服务器02将目标音频传输数据下行传输至关联的客户端，也可以再传输至所述客户端01，并通过所述扬声器进行播放。

具体的，所述服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。所述服务器02可以包括有网络通信单元、处理器和存储器等等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。具体的，所述服务器02可以用于接收所述客户端01上行传输的目标音频传输数据，并将目标音频传输数据下行传输至关联的客户端，也可以再传输至所述客户端01，并通过所述客户端01的扬声器进行播放。

本申请实施例还可以结合云技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。云技术需要以云计算作为支撑。云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。具体地，所述服务器02和数据库位于云端，所述服务器02可以是实体机器，也可以是虚拟化机器。

以下介绍本申请提供的一种音频信息处理方法。图2是本申请实施例提供的一种音频信息处理方法的流程图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参照图2，本申请实施例提供的一种音频信息处理方法可以包括如下步骤：

S210：获取当前时间周期内的音频采集信息，音频采集信息包括多个声道中每个声道的音频信号数据。

本申请实施例所提供的技术方案可以应用于语音通话业务、直播业务等涉及音频采集、传输的场景。在本申请实施例中，采用多声道的音频采集技术，得到的音频采集信息包括多个声道中每个声道对应的音频信号数据，每个声道对应的音频信号数据之间是相互独立的。

在本申请实施例中，单位时间周期内的音频采集信息对应音频帧，音频帧实际上就是把一段时间的音频采集信息打包起来，如每20毫秒的音频采集信息合并成一帧。

S220：对每个声道的音频信号数据进行能量检测，得到每个声道对应的目标能量数据；目标能量数据为音频能量数据，或目标能量数据为音频能量数据和回声能量数据。

在本申请实施例中，每个声道的音频信号数据包括有效信号的信号数据之外，还可能包含回声信号的信号数据、噪声信号的信号数据等，回声信号和噪声信号可以统称为干扰信号。通过对音频信号数据进行能量检测，可以检测每个声道对应的信号强度。其中音频能量数据可以表征对应声道的有效信号的信号强度，回声能量数据表征对应声道的回声信号的信号强度。音频能量数据、回声能量数据可以指示音频信号数据的音质表现。

在本申请的一个实施例中，可以采用如下方式对音频信号数据进行能量检测，得到音频能量数据：

S221：确定每个声道的音频信号数据中的振幅最大值。

S223：根据每个声道对应的振幅最大值，确定每个声道对应的音频能量数据。

振幅为信号数据的峰值，信号的能量与振幅成正比，振幅越大，信号的能量越强。在音频信号数据包含多种信号的情况下，振幅最大值对应的信号一般为所要采集的有效信号，如人声信号、乐器信号等，故基于振幅最大值所确定的音频能量数据可以指示有效信号的强度大小，进而可以指示所采集音频信号的音质优劣，有效信号的强度越大，音质越好。

在本申请的一个实施例中，可以直接将振幅最大值或振幅最大值的平方作为对应的音频能量数据，也可以根据WebRTC(WebReal-TimeCommunications，网页实时通信)技术中音频能量计算的方法确定每个声道对应的音频能量数据，具体地，将振幅最大值(范围是0-32767)除以1000，得到0-32之间的数值，从预设数组中获取相应索引得到所对应的能量等级，将该能量等级作为对应声道的音频能量数据。

上述实施例中，基于每个声道的音频信号数据中的振幅最大值，确定每个声道对应的音频能量数据，音频能量数据能够有效指示所采集的音频信号数据中有效信号的强度大小，进而指示所采集的音频信号的音质优劣。在根据音频能量数据确定目标音频信号数据时，可以剔除极端情况下采集的音频信号数据，例如某个声道对应的麦克风被遮挡或设备异常时所采集的音频信号数据。

在本申请的一个实施例中，可以采用如下方式对音频信号数据进行能量检测，得到回声能量数据：

S222：获取当前时间周期内的音频播放数据。

S224基于回声传播路径模型和音频播放数据，确定模拟回声信号数据。

S226：对模拟回声信号数据和每个声道对应的音频信号数据进行模式匹配，确定每个声道的真实回声信号数据。

S228：根据每个声道的真实回声信号数据的振幅最大值，确定每个声道对应的回声能量数据。

可以理解的是，如图3所示，采集设备的麦克风在采集近端信号数据N的时候会把扬声器播放的声音，也即音频播放数据X，直接或间接地收录进来，这部分声音就变成了真实回声信号数据E，则麦克风所采集的音频信号数据Y包括近端信号数据N和真实回声信号数据E，E对应的回声能量数据占比越高，则说明所采集的音频信号数据Y的信噪比越低，音质效果也越差。

可行地，基于回声传播路径模型和音频播放数据，确定模拟回声信号数据X^～。其中，回声传播路径模型可以为采用实时更新的滤波器系数模拟真实场景并构建的回声路径模型，然后结合音频播放数据X，也即是远端信号数据，从而估计出模拟回声信号数据X^～。

可行地，对模拟回声信号数据和每个声道对应的音频信号数据进行模式匹配，确定每个声道的真实回声信号数据。其中，模式匹配是将模拟回声信号数据X^～与各声道的音频信号数据中各信号的信号数据进行对比，找出最相似的匹配组合，从而确定各声道的真实回声信号数据。

在一种可行的实施方式中，可以根据各声道的真实回声信号数据的振幅最大值，确定各声道对应的回声能量数据。回声能量数据可以指示真实回声信号的强度大小，进而可以指示所采集音频信号的音质优劣，真实回声信号的强度越大，音质越差。

在另一种可行的实施方式中，还可以根据各声道对应的音频能量数据和各声道对应的回声能量数据计算得到各声道对应的信噪比，信噪比越高，音质效果越好。

上述实施例中，基于回声信号数据的估计和信号的模式匹配，确定出所采集的音频信号数据中的真实回声信号数据，从而可以准确检测、计算出回声能量数据，回声能量数据能够有效指示所采集的音频信号数据中回声信号的强度大小，进而指示所采集的音频信号的音质优劣。在根据回声能量数据确定目标音频信号数据时，可以剔除受回声信号影响较大的音频信号数据。此外，回声能量检测过程中所确定的真实回声信号数据也可以用于后续的回声消除处理过程。

S230：根据每个声道对应的目标能量数据，确定当前时间周期内的目标音频信号数据。

在本申请实施例中，目标能量数据可以为音频能量数据，或目标能量数据可以为音频能量数据和回声能量数据。其中音频能量数据可以表征对应声道的有效信号的信号强度，回声能量数据表征对应声道的回声信号的信号强度。音频能量数据、回声能量数据可以指示音频信号数据的音质表现。

在本申请实施例中，所确定的目标音频信号数据可以是其中一个声道的音频信号数据，也可以是部分或全部声道的音频信号数据的混合结果。

在本申请的一个实施例中，如图4所示，目标音频信号数据的确定可以被实施为：

S310：获取预设能量阈值；预设能量阈值为音频能量阈值，或预设能量阈值为音频能量阈值与回声能量阈值。

预设能量阈值的确定可以基于历史采集经验总结得到。

S320：将每个声道对应的目标能量数据与预设能量阈值进行比较，得到比较结果。

也即，比较结果可以为音频能量数据与音频能量阈值之间的数值比较结果；比较结果也可以为音频能量数据与音频能量阈值之间的数值比较结果以及回声能量数据与回声能量阈值之间的数值比较结果。

S330：基于比较结果，对每个声道的音频信号数据进行筛选或混合，得到当前时间周期内的目标音频信号数据。

可行地，可以基于比较结果，从多个声道的音频信号数据中确定某个声道的音频信号数据为当前时间周期内的目标音频信号数据，此时目标音频信号数据的音质效果优于其他声道的音频信号数据；或者可以基于比较结果，确定部分或全部声道的音频信号数据的混合结果为当前时间周期内的目标音频信号数据，此时目标音频信号数据的音质效果优于各声道的音频信号数据。

上述实施例中，基于能量检测所得到的目标能量数据衡量各声道的音频信号数据的音质效果，从而确定音质效果最佳的目标音频信号数据以用于输出，有效提升了音频输出的音质效果。

在本申请的一个实施例中，在比较结果指示每个声道对应的音频能量数据均低于音频能量阈值的情况下，对每个声道的音频信号数据进行混合，得到当前时间周期内的目标音频信号数据。

可以理解的是，当每个声道对应的音频能量数据均低于音频能量阈值时，极有可能是当前时间周期内没有明显的有效信号，因此可以将每个声道的音频信号数据进行混合以体现当前的真实采集状态。

具体地，混合方式可以按照时间纬度对每个声道的音频信号数据求平均值，得到目标音频信号数据；混合方式也可以是将每个声道的的音频信号数据进行叠加然后重采样，生成目标音频信号数据。

在本申请的一个实施例中，在比较结果指示存在多个声道中部分声道对应的音频能量数据高于音频能量阈值的情况下，对部分声道中每个声道的音频信号数据进行筛选或混合，确定当前时间周期内的目标音频信号数据，目标音频信号数据为最高音频能量数据对应的声道的音频信号数据或为部分声道中每个声道的音频信号数据的混合结果。

可以理解的是，当存在多个声道中部分声道对应的音频能量数据高于音频能量阈值时，极有可能除该部分声道之外的剩余部分声道对应的麦克风被遮挡或者出现性能异常，导致无法正常采集到音频信号数据。如果直接将全部声道的音频信号数据进行混合，混合结果的音质效果会被该剩余部分声道的音频信号数据拉低，故可以从该部分声道(对应的音频能量数据高于音频能量阈值的声道)的音频信号数据中确定目标音频信号数据，以避免在麦克风被遮挡等异常场景所采集的音频信号数据的影响，从而提升所输出的音频的音质。

具体地，可以时将最高音频能量数据对应的声道的音频信号数据作为目标音频信号数据，或者将该部分声道中每个声道的音频信号数据的混合结果作为目标音频信号数据，混合方式可以参考前述实施例，此处不作赘述。

以双声道为例，在左声道对应的音频能量数据不高于音频能量阈值而右声道对应的音频能量数据高于音频能量阈值的情况下，将右声道的音频信号数据作为当前时间周期内的目标音频信号数据；在右声道对应的音频能量数据不高于音频能量阈值而左声道对应的音频能量数据高于音频能量阈值的情况下，将左声道的音频信号数据作为当前时间周期内的目标音频信号数据。

以三声道为例，在其中一个声道对应的音频能量数据不高于音频能量阈值而其他两个声道对应的音频能量数据高于音频能量阈值的情况下，从其他两个声道的音频信号数据中确定当前时间周期内的目标音频信号数据；在其中两个声道对应的音频能量数据不高于音频能量阈值而剩余的一个声道对应的音频能量数据高于音频能量阈值的情况下，将剩余的一个声道其的音频信号数据作为当前时间周期内的目标音频信号数据。

在每个声道对应的音频能量数据均不低于音频能量阈值的情况下，也即各声道都采集到有效信号的信号数据，此时可以进一步地将回声能量数据与回声能量阈值进行比较，从而确定目标音频信号数据。

在本申请的一个实施例中，在比较结果指示每个声道对应的音频能量数据均不低于音频能量阈值，且每个声道对应的回声能量数据之间的离散度不低于回声能量阈值的情况下，对每个声道的音频信号数据进行筛选，确定当前时间周期内的目标音频信号数据，目标音频信号数据为最低回声能量数据对应的音频信号数据。

可以理解的是，每个声道对应的回声能量数据之间的离散度指示每个声道对应的回声能量数据之间的差异程度。以双声道为例，左右声道对应的回声能量数据之间的离散度可以为左右声道对应的回声能量数据的差值；以三声道为例，三声道对应的回声能量数据之间的离散度可以为三声道对应的回声能量数据的方差或标准差。每个声道对应的回声能量数据之间的离散度不低于回声能量阈值，也即不同声道对应的回声能量数据差异明显，不同声道的音频信号数据的音质在回声消除处理后所受到的影响程度也明显不同。

上述实施例中，在比较结果指示每个声道对应的音频能量数据均不低于音频能量阈值，且每个声道对应的回声能量数据之间的离散度不低于回声能量阈值的情况下，将最低回声能量数据对应的音频信号数据作为目标音频信号数据，目标音频信号数据的回声能量数据小，则信噪比高，在回声消除处理时将回声信号消除后对音质的影响最小，从而可以实现所输出的音频音质最佳的效果。

在本申请的一个实施例中，在比较结果指示每个声道对应的音频能量数据均不低于音频能量阈值，且每个声道对应的回声能量数据之间的离散度低于回声能量阈值的情况下，对每个声道的音频信号数据进行混合，得到当前时间周期内的目标音频信号数据。

上述实施例中，在比较结果指示每个声道对应的音频能量数据均不低于音频能量阈值，且每个声道对应的回声能量数据之间的离散度低于回声能量阈值的情况下，也即不同声道对应的回声能量数据差异不明显，不同声道的音频信号数据的音质在回声消除处理后所受到的影响程度也相近。故可以对每个声道的音频信号数据进行混合，得到当前时间周期内的目标音频信号数据，以体现当前真实的采集状态，同时保证所输出的音频音质良好。混合方式可以参考前述实施例，此处不作赘述。

S240：对目标音频信号数据进行回声消除处理，得到当前时间周期内的目标音频传输数据，以将目标音频传输数据进行上行传输。

在本申请实施例中，仅需要对一路目标音频信号数据进行回声消除处理，而不需对每个声道的音频信号数据进行回声消除处理，降低了音频信息处理的性能开销，提升了音频信息的处理效率。

在本申请的一个实施例中，如图5所示，回声消除处理可以具体包括：

S410：获取当前时间周期内的音频播放数据。

S420：基于回声传播路径模型和音频播放数据，确定模拟回声信号数据。

S430：对模拟回声信号数据和目标音频信号数据进行模式匹配，确定目标音频信号数据中的真实回声信号数据。

步骤S410、步骤S420和步骤S430可以参考前述实施例中的步骤S222、步骤S224和步骤S226，此处不作赘述。

S440：对目标音频信号数据中的真实回声信号数据进行消除，得到目标音频传输数据。

上述实施例中，利用近端的音频播放数据估计出的模拟回声信号数据以及信号的模式匹配确，确定出所采集的音频信号数据中的真实回声信号数据，从而可以更加准确地从目标音频信号数据中消除真实回声信号数据，保留有效信号的信号数据，提升目标音频传输数据的音质和有效性。

在一种可行的实施方式中，若目标音频信息数据是在比较结果为每个声道对应的音频能量数据与音频能量阈值的数值比较结果的情况下确定的，也即不涉及回声能量数据与回声能量阈值的比较，则执行步骤S410至步骤S440进行回声消除处理。

在一种可行的实施方式中，若目标音频信息数据是在比较结果指示每个声道对应的音频能量数据均不低于音频能量阈值，且每个声道对应的回声能量数据之间的离散度低于回声能量阈值的情况下确定的，可以直接利用回声能量检测环节所确定的模拟回声信号数据与目标音频信号数据进行模式匹配，进而进行回声消除处理。

在一种可行的实施方式中，若目标音频信息数据是在比较结果指示每个声道对应的音频能量数据均不低于音频能量阈值，且每个声道对应的回声能量数据之间的离散度不低于回声能量阈值的情况下确定的，可以直接对回声能量检测环节所确定的该声道对应的真实回声信号数据进行回声消除处理。

在本申请实施例中，如图6所示，除了利用近端播放信号，也即扬声器所播放的声音，进行回声消除处理，还可以对目标音频信号数据(也即图6中的能量、信噪比最佳的一路信号)进行噪声消除处理、自动增益控制处理等，得到目标音频传输数据，进一步提升最终要上行传输的目标音频传输数据的音质。如图6所示，音频信息的完整处理过程除了采集、目标音频信号数据的确定、回声消除、噪声消除、自动增益控制，还包括编码、上行传输至服务器，服务器将编码后的目标音频传输数据下行传输至业务关联的远端的客户端，在业务关联的远端的客户端解码得到目标音频传输数据，并通过业务关联的客户端的扬声器播放。

在本申请实施例中，目标音频信号数据是按照一定的时间周期确定的，可以保证音质实时最佳。以双声道为例，启动多声道采集，所采集的原始数据格式如下表所示：

L

R

L

R

L

R

L

R

其中，L表示左声道的音频信号数据，可以是顶部麦克风的采集数据；R表示右声道的音频信号数据，可以是底部麦克风的采集数据。经过数据分离后就可以得到独立的左右声道数据，如图7所示，在n+1个时间周期内，所采集的左声道的音频信号数据为L1、L2......Ln+1，所采集的右声道的音频信号数据为R1、R2......Rn+1，音频播放数据为S1、S2......Sn+1，经过目标音频信号数据的确定环节，n+1个时间周期内的目标音频信号数据分别为M1、M2......Mn+1，其中Mi为Li，或者为Ri，或者为Li与Ri的混合结果，i＝1,2......n+1。

具体的，在目标音频信号数据的确定环节，如图8所示，首先对第i个时间周期内左右声道的音频信号数据Li、Ri进行音频能量检测，得到左右声道对应的音频能量数据。在左声道对应的音频能量数据低于预设的音频能量阈值且右声道对应的音频能量数据不低于预设的音频能量阈值的情况下，Mi为Ri；在左声道对应的音频能量数据不低于预设的音频能量阈值且右声道对应的音频能量数据低于预设的音频能量阈值的情况下，Mi为Li；在左右声道对应的音频能量数据均低于预设的音频能量阈值的情况下，Mi为为Li与Ri的混合结果；在左右声道对应的音频能量数据均不低于预设的音频能量阈值的情况下，对右声道的音频信号数据Li、Ri进行回声能量检测，得到左右声道各自对应的回声能量数据。如图9所示，计算左右声道各自对应的回声能量数据的差值，可以取正值。在回声能量数据的差值大于预设的回声能量阈值的情况下，Mi为Li、Ri中回声能量数据相对小的音频信号数据；在回声能量数据的差值不大于预设的回声能量阈值的情况下，Mi为Li与Ri的混合结果。

需要说明的是，上述所涉及的“高于”、“低于”、“不低于”等判断条件，是本申请实施例所提供的其中一种示例，还可以根据实际业务需求和处理经验设计其他判断条件，本申请实施例对此不作限制。

由上述实施例可知，本申请提供的一种音频信息处理方法可以在每个时间周期内实时输出音质最佳的目标音频传输数据，从而整体提升所输出的音频的音质。在本申请的方案中，通过对当前时间周期内所采集的多个声道中每个声道的音频信号数据进行能量检测，确定每个声道对应的目标能量数据，目标能量数据可以指示对应声道的音频信号数据的音质表现，进而基于目标能量数据确定出当前时间周期内音质表现最佳的一路目标音频信号数据。对目标音频信号数据进行回声消除处理，可以进一步提升输出音频的音质效果。此外，在本申请的方案中，当前时间周期内仅需对一路目标音频信号数据进行回声消除处理，而不需要对每个声道的音频信号数据进行回声消除处理，降低了音频信息处理的性能开销，提升了音频信息处理的效率。

本申请实施例还提供了一种音频信息处理装置1000，如图10所示，所述装置可以包括：

音频采集模块1010，用于获取当前时间周期内的音频采集信息，所述音频采集信息包括多个声道中每个声道的音频信号数据；

能量检测模块1020，用于对所述每个声道的音频信号数据进行能量检测，得到所述每个声道对应的目标能量数据；所述目标能量数据为音频能量数据，或所述目标能量数据为所述音频能量数据和回声能量数据；

信号确定模块1030，用于根据所述每个声道对应的目标能量数据，确定所述当前时间周期内的目标音频信号数据；

回声消除模块1040，用于对所述目标音频信号数据进行回声消除处理，得到所述当前时间周期内的目标音频传输数据，以将所述目标音频传输数据进行上行传输。

在本申请的一个实施例中，所述信号确定模块1030可以包括：

第一获取单元，用于获取预设能量阈值；所述预设能量阈值为音频能量阈值，或所述预设能量阈值为音频能量阈值与回声能量阈值；

比较单元，用于将所述每个声道对应的目标能量数据与所述预设能量阈值进行比较，得到比较结果；

信号确定单元，用于基于所述比较结果，对所述每个声道的音频信号数据进行筛选或混合，得到所述当前时间周期内的所述目标音频信号数据。

在本申请的一个实施例中，所述信号确定单元可以包括：

第一信号确定子单元，用于在所述比较结果指示所述每个声道对应的音频能量数据均低于所述音频能量阈值的情况下，对所述每个声道的音频信号数据进行混合，得到所述当前时间周期内的所述目标音频信号数据。

在本申请的一个实施例中，所述信号确定单元可以包括：

第二信号确定子单元，用于在所述比较结果指示所述每个声道对应的音频能量数据均不低于所述音频能量阈值，且所述每个声道对应的回声能量数据之间的离散度不低于所述回声能量阈值的情况下，对所述每个声道的音频信号数据进行筛选，确定所述当前时间周期内的所述目标音频信号数据，所述目标音频信号数据为最低回声能量数据对应的音频信号数据。

在本申请的一个实施例中，所述信号确定单元可以包括：

第三信号确定子单元，用于在所述比较结果指示所述每个声道对应的音频能量数据均不低于所述音频能量阈值，且所述每个声道对应的回声能量数据之间的离散度低于所述回声能量阈值的情况下，对所述每个声道的音频信号数据进行混合，得到所述当前时间周期内的所述目标音频信号数据。

在本申请的一个实施例中，所述信号确定单元可以包括：

第四信号确定子单元，用于在所述比较结果指示存在所述多个声道中部分声道对应的音频能量数据高于所述音频能量阈值的情况下，对所述部分声道中每个声道的音频信号数据进行筛选或混合，确定所述当前时间周期内的所述目标音频信号数据，所述目标音频信号数据为最高音频能量数据对应的声道的音频信号数据或为所述部分声道中每个声道的音频信号数据的混合结果。

在本申请的一个实施例中，所述回声消除模块1040可以包括：

第二获取单元，用于获取所述当前时间周期内的音频播放数据；

回声模拟单元，用于基于回声传播路径模型和所述音频播放数据，确定模拟回声信号数据；

模式匹配单元，用于对所述模拟回声信号数据和所述目标音频信号数据进行模式匹配，确定所述目标音频信号数据中的真实回声信号数据；

回声消除单元，用于对所述目标音频信号数据中的所述真实回声信号数据进行消除，得到所述目标音频传输数据。

在本申请的一个实施例中，所述能量检测模块1020可以包括：

振幅确定单元，用于确定所述每个声道的音频信号数据中的振幅最大值；

音频能量数据确定单元，用于根据所述每个声道对应的振幅最大值，确定所述每个声道对应的音频能量数据。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的一种音频信息处理方法。

图11示出了一种用于实现本申请实施例所提供的一种音频信息处理方法的设备的硬件结构示意图，所述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图11所示，设备10可以包括一个或多个(图中采用1002a、1002b，……，1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的方法对应的程序指令/数据存储装置，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种音频信息处理方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1006可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于服务器之中以保存用于实现方法实施例中一种音频信息处理方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的一种音频信息处理方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施方式中提供的一种音频信息处理方法。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频信息处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个声道对应的目标能量数据，确定所述当前时间周期内的目标音频信号数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述比较结果，对所述每个声道的音频信号数据进行筛选或混合，得到所述当前时间周期内的所述目标音频信号数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述比较结果，对所述每个声道的音频信号数据进行筛选或混合，得到所述当前时间周期内的所述目标音频信号数据，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于所述比较结果，对所述每个声道的音频信号数据进行筛选或混合，得到所述当前时间周期内的所述目标音频信号数据，包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述比较结果，对所述每个声道的音频信号数据进行筛选或混合，得到所述当前时间周期内的所述目标音频信号数据，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述对所述目标音频信号数据进行回声消除处理，得到所述当前时间周期内的目标音频传输数据，包括：

获取所述当前时间周期内的音频播放数据；

8.根据权利要求1所述的方法，其特征在于，所述目标能量数据为音频能量数据时，所述对所述每个声道的音频信号数据进行能量检测，得到所述每个声道对应的目标能量数据，包括：

确定所述每个声道的音频信号数据中的振幅最大值；

9.一种音频信息处理装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至8中任一项所述的一种音频信息处理方法。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如权利要求1至8中任一项所述的一种音频信息处理方法。