CN112309414A

CN112309414A - 基于音频编解码的主动降噪方法、耳机及电子设备

Info

Publication number: CN112309414A
Application number: CN202010705213.XA
Authority: CN
Inventors: 王雨雷
Original assignee: Dongguan Aska Electronics Co ltd
Current assignee: Dongguan Aska Electronics Co ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2021-02-02
Anticipated expiration: 2040-07-21
Also published as: CN112309414B

Abstract

本申请的实施例提供了一种基于音频编解码的主动降噪方法、耳机及电子设备。该基于音频编解码的主动降噪方法包括：对当前环境中的音频信息进行解码得到音频信息对应的时域波形；基于时域波形检测音频信息中是否包含语音部分；若音频信息中不包含语音部分则基于音频信息生成噪声模型；在检测到音频信息中包含语音时基于噪声模型对包含语音部分和噪声的混合音频进行降噪编码处理，得到降噪音频。本申请实施例通过实时识别并接收环境中的噪声信息，并基于接收到的噪声信息建立与当前环境对应的噪声模型，以在播放音频时，基于该噪声模型对音频进行降噪处理，提高了耳机的降噪效果和用户的听觉体验。

Description

基于音频编解码的主动降噪方法、耳机及电子设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种基于音频编解码的主动降噪方法、耳机及电子设备。

背景技术

随着电子技术的快速发展，耳机特别是真无线立体声耳机以其携带方便、信号稳定及佩戴舒适等优势，获得用户的普遍认可。其可以通过蓝牙与手机、电脑等智能终端进行连接实现数据传输、耳机通话等功能。目前，在采用耳机进行通话的过程中，接收到的噪音较大，而干扰用户的听觉，因此导致用户通话体验较差。

发明内容

本申请的实施例提供了一种基于音频编解码的主动降噪方法、耳机及电子设备，进而至少在一定程度上可以针对当前环境中的噪声降低对用户的听觉干扰，提升用户的听觉体验。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种基于音频编解码的主动降噪方法，包括：采集当前环境中的音频信息；对所述音频信息进行解码，得到所述音频信息对应的时域波形；基于所述时域波形，检测所述音频信息中是否包含语音部分；若所述音频信息中不包含语音部分，则基于所述音频信息生成噪声模型；在检测到所述音频信息中包含语音时，基于噪声模型对包含语音和噪声的混合音频进行降噪和编码处理，得到降噪之后的音频。

根据本申请实施例的一个方面，提供了一种基于音频编解码的主动降噪装置，包括：采集单元，用于采集当前环境中的音频信息；解码单元，用于对所述音频信息进行解码，得到所述音频信息对应的时域波形；检测单元，用于基于所述时域波形，检测所述音频信息中是否包含语音部分；建模单元，用于若所述音频信息中不包含语音部分，则基于所述音频信息生成噪声模型；降噪单元，用于在检测到所述音频信息中包含语音时，基于噪声模型对包含语音和噪声的混合音频进行降噪和编码处理，得到降噪之后的音频。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的基于音频编解码的主动降噪方法。

在本申请的一些实施例所提供的技术方案中，通过实时识别并接收环境中的噪声信息，以基于接收到的噪声信息建立与当前环境对应的噪声模型，以在播放音频时，基于该噪声模型对音频进行实时降噪处理。本实施例通过基于实时的噪声模型对混合音频进行降噪，避免了不同环境下的噪声不同而导致不同的降噪效果，进而提高了耳机的降噪效果和用户的听觉体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本申请的一个实施例的基于音频编解码的主动降噪方法的流程图；

图2示意性示出了根据本申请的一个实施例的实施例的基于音频编解码的主动降噪装置的示意图；

图3示意性示出了根据本申请的一个实施例的基于音频编解码的主动降噪装置的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、耳机、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图1示出了根据本申请的一个实施例的基于音频编解码的主动降噪方法的流程图，该基于音频编解码的主动降噪方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图1所示，该基于音频编解码的主动降噪方法至少包括步骤S110至步骤S150，详细介绍如下：

在步骤S110中，采集当前环境中的音频信息。

在本申请的一个实施例中，在耳机开启过程中，可以自动采集当前环境中的声音，作为音频信息。

在本申请的一个实施例中，采集音频信息的时间可以包括耳机播放音频的时候，也可以是耳机未播放音频时，还可以是耳机连接蓝牙的时候等等。

在本申请的一个实施例中，音频信息可以为噪声、语音或者歌曲等信息，此处不做限制。

在本申请的一个实施例中，耳机可以为有线耳机，也可以为无线耳机，此处不做限制。并且，本实施例中的基于音频编解码的主动降噪方法也可以应用于除耳机之外的设备中，例如音响等。

在步骤S120中，对音频信息进行解码，得到音频信息对应的时域波形。

在本申请的一个实施例中，在获取到音频信息之后，对音频信息进行解码，得到其中的频域和时域信息，其中可以包括频率、幅度、相位等信息，以构成时域波形。

在步骤S130中，基于时域波形，检测音频信息中是否包含语音部分。

在本申请的一个实施例中，步骤S130中基于时域波形，检测音频信息中是否包含语音部分的过程，包括如下步骤：

截取时域波形在预设时段内的目标波段；

基于预设的声音阈值基线，统计目标波段中的波形穿过声音阈值基线的次数；

若波形穿过声音阈值基线的次数大于或等于预设次数，则判定音频信息中包含语音部分。

在本申请的一个实施例中，截取时域波形在预设时段内的目标波段可以包括一段周期中的波形，也可以是预设时间内的波形等等。

在本申请的一个实施例中，本实施例中的声音阈值基线用于表示噪声和音频之间的分割线，例如两者时间的频率或者幅度分割线。通过统计目标波段中的波形穿过声音阈值基线的次数，以基于波形穿过声音阈值基线的次数来判断当前是否包含语音部分。

具体的，若波形穿过声音阈值基线的次数大于或等于预设次数，则判定音频信息中包含语音部分。若波形穿过声音阈值基线的次数小于预设次数，则判定音频信息中不包含语音部分。

截取时域波形在预设时段内的目标波段；基于预设的声音阈值基线，统计目标波段中相邻采样点的幅度值之间符号不同的次数；根据相邻采样点的幅度值之间符号不同的次数，通过如下公式确定目标波段的音色转换参数：

其中，|x(k)-x(k-1)|≥T，T表示设定差值参数，以保证两个相邻采样点时间存在数值差，使得两个采样点具有一定的大小差异；k表示采样时刻或者采样次数等采样标识信息，x(k)表示幅度值或者频率值等，sum表示总采样次数。

在本申请的一个实施例中，通过sgn()对某一数值的正负进行统计，若x(k)≥0则sgn[x(k)]＝1；若x(k)＜0则sgn[x(k)]＝-1。

在本申请的一个实施例中，通过上述公式的判定，可以降低波形在声音阈值基线之上时对噪声的判断结果权重，以提升音色转换过程中对噪声判断的精确度和严格程度，进而提升噪声模型构建的精确度。

在步骤S140中，若音频信息中不包含语音部分，则基于音频信息生成噪声模型。

在本申请的一个实施例中，若音频信息中不包含语音部分，则判定当前的声音为全部的噪声，并基于音频信息，生成音频信息对应的频谱，以基于频谱信息对应的频谱，生成噪声模型。

在本申请的一个实施例中，在生成噪声模型时，可以通过对频谱进行适当的放大、缩小等处理得到。

本实施例通过提取纯净噪声信号，为后端通过滤波器进一步降噪提供有利条件，从而在降噪的同时实现语音通信的目的。

在步骤S150中，在检测到音频信息中包含语音时，基于噪声模型对包含语音和噪声的混合音频进行降噪和编码处理，得到降噪之后的音频。

在本申请的一个实施例中，步骤S150中基于噪声模型对包含语音和噪声的混合音频进行降噪和编码处理，得到降噪之后的音频的过程，包括如下步骤：

对混合音频x(k)＝s(k)+n(k)进行傅里叶变换，得到混合频谱：X(e^jω)＝S(e^jω)+N(e^jω)。具体的：

其中，s(k)表示语音，S(e^jω)表示语音频谱；n(k)表示噪声，N(e^jω)表示混合音频中的噪声的频谱，ω表示频谱的实数参数，L表示混合音频的长度。

对噪声模型进行傅里叶变换，得到噪声模型对应的噪声频谱N(e^jω)，其中，噪声频谱N(e^jω)幅度的平均值为μ(e^jω)。

根据混合频谱和噪声频谱之间的差，估计得到降噪音频对应的频谱；在本申请的一个实施例中，根据混合频谱和噪声频谱之间的差，估计得到降噪音频对应的频谱，包括：

根据噪声频谱，确定噪声频谱的平均值为μ(e^jω)。基于噪声频谱的平均值和混合频谱对应的相位，确定噪声频谱估值。

具体的，由于在混合音频中，语音的相位与噪声的相位具有一致性，因此本实施例用混合音频的频谱X(e^jω)中的相位θ_x(e^jω)代替噪声频谱N(e^jω)的相位θ_n(e^jω)，得到噪声频谱的参数估值为μ(e^jω)e^jθx(ejω)，以提高语音数据计算的效率。

根据混合频谱和噪声频谱估值之间的差，估计得到降噪音频对应的频谱为：

进一步的，考虑到[|X(e^jω)|-μ(e^jω)]的值可能为负值，若在为负值的情况下直接将输出归零，则将降低降噪效果。因此，本实施例中当[|X(e^jω)|-μ(e^jω)]为负值时，估计得到降噪音频对应的频谱为：

通过上述方式，保留降噪之后的音频数据，保证语音数据的完整性和真实性，进而提高耳机的音频输出效果和降噪效果。

在本申请的一个实施例中，在得到降噪音频对应的频谱之后，对降噪音频对应的频谱进行傅里叶反变换，得到混合音频对应的降噪之后的音频为：

本实施例中通过实时识别并接收环境中的噪声信息，以基于接收到的噪声信息建立与当前环境对应的噪声模型，以在播放音频时，基于该噪声模型对音频进行实时降噪处理。本实施例通过基于实时的噪声模型对混合音频进行降噪，避免了不同环境下的噪声不同而导致不同的降噪效果，降低了环境对降噪过程的影响，进而提高了耳机的降噪效果和用户的听觉体验。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的基于音频编解码的主动降噪方法。可以理解的是，装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。对于本申请装置实施例中未披露的细节，请参照本申请上述的基于音频编解码的主动降噪方法的实施例。

参照图2所示，根据本申请的一个实施例的基于音频编解码的主动降噪装置200，包括：

采集单元210，用于采集当前环境中的音频信息；解码单元220，用于对音频信息进行解码，得到音频信息对应的时域波形；检测单元230，用于基于时域波形，检测音频信息中是否包含语音部分；建模单元240，用于若音频信息中不包含语音部分，则基于音频信息生成噪声模型；降噪单元250，用于在检测到音频信息中包含语音时，基于噪声模型对包含语音和噪声的混合音频进行降噪和编码处理，得到降噪之后的音频。

图3示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图3示出的电子设备的计算机系统300仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图3所示，计算机系统300包括中央处理单元(Central Processing Unit，CPU)301，其可以根据存储在只读存储器(Read-Only Memory，ROM)302中的程序或者从存储部分308加载到随机访问存储器(Random Access Memory，RAM)303中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 303中，还存储有系统操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(Input/Output，I/O)接口305也连接至总线304。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于音频编解码的主动降噪方法，其特征在于，包括：

采集当前环境中的音频信息；

对所述音频信息进行解码，得到所述音频信息对应的时域波形；

基于所述时域波形，检测所述音频信息中是否包含语音部分；

若所述音频信息中不包含语音部分，则基于所述音频信息生成噪声模型；

在检测到所述音频信息中包含语音时，基于噪声模型对包含语音和噪声的混合音频进行降噪和编码处理，得到降噪之后的音频。

2.根据权利要求1所述的方法，其特征在于，基于所述时域波形，检测所述音频信息中是否包含语音部分，包括：

截取所述时域波形在预设时段内的目标波段；

基于预设的声音阈值基线，统计所述目标波段中的波形穿过所述声音阈值基线的次数；

若所述波形穿过所述声音阈值基线的次数大于或等于预设次数，则判定所述音频信息中包含语音部分。

3.根据权利要求1所述的方法，其特征在于，基于所述时域波形，检测所述音频信息中是否包含语音部分，包括：

截取所述时域波形在预设时段内的目标波段；

基于预设的声音阈值基线，统计所述目标波段中相邻采样点的幅度值之间符号不同的次数；

根据所述相邻采样点的幅度值之间符号不同的次数，通过如下公式确定所述目标波段的音色转换参数：

其中，|x(k)-x(k-1)|≥T，T表示设定差值参数；k表示采样时刻，x(k)表示幅度值，sum表示总采样次数；

若所述音色转换参数大于等于预设阈值，则判定所述音频信息包含所述语音部分。

4.根据权利要求1所述的方法，其特征在于，基于所述音频信息生成噪声模型，包括：

基于所述音频信息，生成所述音频信息对应的频谱；

基于所述频谱信息对应的频谱，生成所述噪声模型。

5.根据权利要求1所述的方法，其特征在于，基于噪声模型对包含语音和噪声的混合音频进行降噪和编码处理，得到降噪之后的音频，包括：

对所述混合音频进行傅里叶变换，得到混合频谱；

对所述噪声模型进行傅里叶变换，得到噪声频谱；

根据所述混合频谱和所述噪声频谱之间的差，估计得到降噪音频对应的频谱；

对所述降噪音频对应的频谱进行傅里叶反变换，得到所述混合音频对应的降噪之后的音频。

6.根据权利要求5所述的方法，其特征在于，根据所述混合频谱和所述噪声频谱之间的差，估计得到降噪音频对应的频谱，包括：

根据所述噪声频谱，确定所述噪声频谱的平均值；

基于所述噪声频谱的平均值和所述混合频谱对应的相位，确定噪声频谱估值；

根据所述混合频谱和所述噪声频谱估值之间的差，估计得到降噪音频对应的频谱。

7.根据权利要求6所述的方法，其特征在于，根据所述混合频谱和所述噪声频谱估值之间的差，估计得到降噪音频对应的频谱，包括：

其中，X(e^jω)表示所述混合频谱；μ(e^jω)表示所述噪声频谱的平均值；ω表示频谱的实数参数。

8.一种基于音频编解码的主动降噪耳机，其特征在于，包括：

采集单元，用于采集当前环境中的音频信息；

解码单元，用于对所述音频信息进行解码，得到所述音频信息对应的时域波形；

检测单元，用于基于所述时域波形，检测所述音频信息中是否包含语音部分；

建模单元，用于若所述音频信息中不包含语音部分，则基于所述音频信息生成噪声模型；

降噪单元，用于在检测到所述音频信息中包含语音时，基于噪声模型对包含语音和噪声的混合音频进行降噪和编码处理，得到降噪之后的音频。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的基于音频编解码的主动降噪方法。