CN115188390A - 一种音频降噪方法和相关装置 - Google Patents

一种音频降噪方法和相关装置 Download PDF

Info

Publication number
CN115188390A
CN115188390A CN202210795134.1A CN202210795134A CN115188390A CN 115188390 A CN115188390 A CN 115188390A CN 202210795134 A CN202210795134 A CN 202210795134A CN 115188390 A CN115188390 A CN 115188390A
Authority
CN
China
Prior art keywords
noise
target
noise reduction
audio signal
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210795134.1A
Other languages
English (en)
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210795134.1A priority Critical patent/CN115188390A/zh
Publication of CN115188390A publication Critical patent/CN115188390A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本申请公开了一种音频降噪方法和相关装置,可应用于人工智能、机器学习等各种场景。通过获取待处理的目标音频信号,确定目标音频信号中目标声音类型和目标噪声类型,从N个降噪模型中确定与该目标噪声类型对应的目标降噪模型,N个降噪模型分别用于对N个噪声类型进行针对性降噪,根据目标声音类型指示的降噪要求,通过目标降噪模型对目标音频信号中的噪声进行降噪处理,获得目标音频信号对应的降噪结果。根据目标声音类型确定降噪要求,然后根据该要求通过目标降噪模型对于目标音频信号中的噪声进行降噪,避免对于有效声音对应的目标声音类型造成影响,从而实现对于不同目标声音类型与不同目标噪声类型的音频信号的针对性降噪。

Description

一种音频降噪方法和相关装置
技术领域
本申请涉及音频处理领域,特别是涉及一种音频降噪方法和相关装置。
背景技术
噪声对语音通话、人机语音交互、音乐歌唱录制等应用来说属于干扰信号,会直接对音频中有效声音(例如语音、音乐等)的音质产生干扰,这些干扰会影响语音通话和语音识别的效果。
为此有必要对采集的音频进行降噪处理,从而降低音频中的噪声影响,提升语音信噪比,增强声音清晰度和可懂度。相关技术中多采用统一的降噪方式进行音频降噪。
然而,针对不同的音频应用场景,对降噪的要求和方式是不尽相同的,一种降噪方式难以在不同音频应用场景下均能达到降噪要求。
发明内容
为了解决上述技术问题,本申请提供了如下技术方案:
一方面,本申请实施例提供了一种音频降噪方法,所述方法包括:
获取待处理的目标音频信号;
确定所述目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型;
从N个降噪模型中确定与所述目标噪声类型对应的目标降噪模型,在所述N个降噪模型中,N个降噪模型与N个噪声类型一一对应,N>1;
根据所述目标声音类型指示的降噪要求,通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到所述目标音频信号对应的降噪结果。
另一方面,本申请实施例提供了一种音频降噪装置,所述装置包括:
获取模块,用于获取待处理的目标音频信号;
类型确定模块,用于确定所述目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型;
模型确定模块,用于从N个降噪模型中确定与所述目标噪声类型对应的目标降噪模型,在所述N个降噪模型中,N个降噪模型与N个噪声类型一一对应,N>1;
处理模块,用于根据所述目标声音类型指示的降噪要求,通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到所述目标音频信号对应的降噪结果。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行以上方面所述的音频降噪方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上方面所述的音频降噪方法。
又一方面,本申请实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行以上方面所述的音频降噪方法。
由上述技术方案可以看出,本申请提供了一种音频降噪方法,获取待处理的目标音频信号,然后确定目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型。由于在不同应用场景下,不同待处理的目标音频信号中有效声音对应的目标声音类型可能不同,并且目标音频信号中的目标噪声类型也可能不同,因此通过目标声音类型和目标噪声类型可以确定目标音频信号的应用场景,从而实现针对性降噪。从N个降噪模型中确定与该目标噪声类型对应的目标降噪模型,其中N大于1,N个降噪模型与N个噪声一一对应,N个降噪模型分别用于对N个噪声类型进行针对性降噪。根据目标声音类型指示的降噪要求,通过目标降噪模型对目标音频信号中的噪声进行降噪处理,获得目标音频信号对应的降噪结果。由于目标音频信号中有效声音对应的目标声音类型不同,因此可能对应不同的降噪要求,可以根据有效声音对应的目标声音类型确定降噪要求,然后根据该要求通过目标降噪模型对于目标音频信号中的噪声进行降噪,避免对于有效声音对应的目标声音类型造成影响,从而实现对于不同目标声音类型与不同目标噪声类型的音频信号的针对性降噪。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供一种音频降噪方法的场景示意图;
图2为本申请实施例提供一种音频降噪方法的流程示意图;
图3为本申请实施例提供一种音频降噪方法的应用场景示意图;
图4为本申请实施例提供一种确定目标噪声类型的概率参数与目标声音类型概率参数的深度神经网络模型的结构示意图;
图5为本申请实施例提供一种综合降噪神经网络的结构示意图;
图6为本申请实施例提供一种音频降噪装置的结构示意图;
图7为本申请实施例提供的一种终端设备的结构图;
图8为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
噪声,也称噪音,是指对于获取所要听的声音产生干扰的声音,即不需要的声音。例如,在语音通话时的喇叭声、汽车发动机声、空调声以及电流噪等都属于噪声。又例如,在听音乐时的说话声、开门声以及空调声都属于噪声。
对于语音通话、人机语音交互、音乐歌唱录制等应用来说,噪声属于干扰信号,会直接对音频中有效声音(例如语音、音乐等)的音质产生干扰,影响语音通话的质量和语音识别的效果。
因此,需要对于音频进行降噪处理,以提升语音的信噪比,增强声音的清晰度和可懂度。相关技术中多采用统一的降噪方式进行音频降噪,然而,针对不同的音频应用场景,对降噪的要求和方式是不尽相同的,并且,对于不同的噪声,其降噪手段也不相同。
例如在语音通话的场景中,由于语音在时域和频域上都是稀疏的,因此语音通话的场景中,对于语音的降噪要求是尽可能多的抑制噪声,避免噪声干扰通话。而在收听音乐的场景中,音乐在时域和频域上都是非稀疏的,信号的频谱覆盖较广,与噪声重叠概率较高,因此在收听音乐的场景下降噪的要求则是尽可能不损伤音乐的音质,进行适当降噪。又例如,对于已知的噪声,可以确定该噪声幅值,通过叠加反向幅值信号的方式进行降噪。而统一的降噪方式只有在场景相匹配的情况下才能获得较好的效果。
有鉴于此,本申请提供了一种音频降噪方法,可以在多种音频应用场景下实现降噪,实现对于不同目标声音类型与不同目标噪声类型的音频信号的针对性降噪。
本申请实施例所提供的音频降噪方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
可以理解的是,在本申请的具体实施方式中,涉及到所使用的音频信号中有可能会涉及到用户信息等相关的数据例如用户说出的语音、唱出的音乐等,当本申请以上实施例运用到具体产品或技术中时,任意一项均需要单独获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例涉及人工智能(Artificial Intelligence,AI),AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本申请实施例提供的方案涉及人工智能的机器学习技术,例如通过机器学习实现确定目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型等,其中:
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图1示出了本申请实施例提供的一种音频降噪方法的场景示意图,其中,通过服务器100作为前述计算机设备为例进行说明。
具体地,服务器可以从终端获取待处理的目标音频信号,例如可以为语音通话场景中采集获得的目标音频信号A,其中包括用户语音通话中的语音以及噪音。
服务器确定目标音频信号中的目标声音类型和目标噪声类型。其中,目标声音类型是指目标音频信号中有效声音对应的声音类型,目标噪声类型是指目标音频信号中噪声对应的声音类型。由于在不同应用场景下,不同待处理的目标音频信号中有效声音对应的目标声音类型可能不同,并且目标音频信号中的目标噪声类型也可能不同,因此通过目标声音类型和目标噪声类型可以确定目标音频信号的应用场景,确定降噪要求,从而实现对目标噪声类型的针对性降噪。
例如,目标音频信号A中有效声音对应的目标声音类型为语音,噪声对应的目标噪声类型为喇叭声、汽车发动机声、空调声以及电流声。
根据所确定的目标噪声类型,服务器从N=10个降噪模型中确定出与目标噪声类型对应的目标降噪模型。在本实施例中,10个降噪模型分别为喇叭声降噪模型、汽车发动机声降噪模型、空调声降噪模型、开门声降噪模型、键盘声降噪模型、打印机声降噪模型、敲击声降噪模型、汽车刹车声降噪模型、鼠标声降噪模型以及电流声降噪模型。10个降噪模型对应的噪声类型分别为喇叭声、汽车发动机声、空调声、开门声、键盘声、打印机声、敲击声、汽车刹车声、鼠标声以及电流声,由于目标噪声类型为喇叭声、汽车发动机声、空调声以及电流声,因此从10个降噪模型中确定出与目标降噪类型对应的喇叭声降噪模型、汽车发动机声降噪模型、空调声降噪模型以及电流声降噪模型。
根据目标声音类型指示的降噪要求,服务器通过对应的目标降噪模型对目标音频信号中的噪声进行降噪处理,得到目标音频信号对应的降噪结果。其中,不同目标声音类型对应不同的降噪要求,例如当目标声音类型为语音时,其降噪要求可以为降噪后的信噪比有较高提升,从而提高语音的可懂度和清晰度。当目标声音类型为音乐时,则要求在对噪声进行抑制的同时,不能有损音乐信号。因此,对于目标音频信号A,则可以根据目标声音类型为语音,确定降噪要求为提升信噪比,通过喇叭声降噪模型对目标音频信号A中的喇叭声,通过汽车发动机声降噪模型对目标音频信号A中的汽车发动机声,通过空调声降噪模型对目标音频信号A中的空调声以及通过电流声降噪模型对目标音频信号A中的电流声分别进行针对性降噪处理,最终获得对其中的每个类型的噪声进行降噪后的具有高信噪比的降噪结果。服务器将具有高信噪比的降噪结果返回至终端,实现对于目标音频信号的降噪处理。
如此,对于任何应用场景下的目标音频信号,服务器均可以通过确定目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型,确定目标噪声类型对应的目标降噪模型,根据目标声音类型指示的降噪要求,通过目标降噪模型对目标音频信号中的噪声进行降噪处理,获得对应的降噪结果。一方面,通过目标噪声类型对应的目标噪声模型对噪声进行降噪处理,可以实现对于噪声的针对性降噪。另一方面,根据目标声音类型指示的降噪要求进行降噪处理,可以充分考虑不同目标声音类型的特点,得到符合目标声音类型降噪要求的降噪结果。
图2为本申请实施例提供的一种音频降噪方法的流程图,在本实施例中,以服务器100作为前述计算机设备进行说明。该方法包括以下步骤:
S202:服务器获取待处理的目标音频信号。
目标音频信号是指包括有效声音与噪声的音频信号。其中,目标音频信号可以为任何场景下采集的目标音频信号,例如可以为通话场景中采集的目标音频信号,也可以为音乐场景中采集的目标音频信号。
服务器可以从多种途径获取待处理的目标音频信号,例如服务器可以获取终端设备所发送的待处理的目标音频信号,也可以从其他服务器获取目标音频信号。
考虑到降噪效率的要求,针对一次降噪的音频信号可以设置有长度限制,当待降噪音频的音频时长较长时,服务器可以分段的从待降噪音频中采集目标音频信号。其中,待处理的目标音频信号的长度可以为固定的,也可以为非固定的。例如服务器可以根据固定的采样音频帧间隔,从待降噪音频中周期性采集目标音频信号。考虑到声音的连续性,服务器也可以根据音频帧的停顿,以停顿为单位获取待处理的目标音频信号,依次确定每一段目标音频信号分布对应的目标声音类型和目标噪声类型。
通过周期性的从待降噪音频中采集目标音频信号并进行降噪处理,可以提高对待降噪音频的降噪效率和响应速度,待降噪音频中被降噪的部分可以提供播放、使用,未降噪的部分在播放、使用的期间同时进行降噪。S204:服务器确定目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型。
目标声音类型是指在目标音频信号中有效声音对应的声音类型,即目标音频信号中需要保留的声音类型。目标噪声类型是指在目标音频信号中噪声对应的声音类型,即目标音频信号中需要去除的声音类型。
不同目标声音类型对应不同的特性。例如,目标声音类型可以包括语音类型和音乐类型。语音类型的信号具有时域和频域上分布稀疏的特性,而音乐类型的信号具有信号频谱覆盖较广,在时域和频域上分布非稀疏的特性,由于语音类型和音乐类型的不同特点,语音类型和音乐类型可以分别对应不同的降噪要求。故通过在多种声音类型中识别出目标音频信号的目标声音类型,可以准确确定为目标音频信号进行降噪的降噪要求,从而提升降噪精度。
噪声类型是指对于干扰声音进行的分类。不同类型的噪声具有不同的特性。其中,噪声的分类可以基于噪声声音的状态进行划分,例如可以分为稳态噪声和非稳态噪声,其中,稳态噪声是指噪声强度波动范围在5dB以内的连续性噪声,或重复频率大于10Hz的脉冲噪声。稳态噪声具有一直存在且响度、频率分布等特性不随时间变化或者变化缓慢的特点。非稳态噪声是指特性随着时间变化的噪声。进一步地,非稳态噪声又分为连续非稳态噪声和瞬态噪声。由于不同噪声声音状态的不同特性,因此可以采用与噪声声音状态相对应的降噪方式。例如,可以基于稳态噪声重复性的特点,采样任意一小段噪声获得频谱能量,然后在全部噪声中减去频谱能量实现降噪。又例如,可以基于频谱差异度判断非稳态噪声出现的位置,从而进行处理。
进一步地,有些噪声的频率位于中低频段,有些噪声的频率位于低频段,有些噪声的频率位于高频段,相同频率的噪声也具有相同的特性,也可以采用相同的降噪方式。因此,也可以基于噪声的频率对噪声进行分类。类似地,还可以根据噪声的响度、幅值以及声源等对噪声进行多种类型的分类。例如,可以根据声源将噪声细分为电流声、风扇声、空调声以及汽车发动机声等噪声类型。
由于相同的噪声声音状态的噪声就有相同的噪声特点,故可以通过相同的降噪方式进行针对性降噪,且能起到类似的降噪效果。
在不同的区域中,相同的声音场景下的噪声也具有类似的特性,例如不同区域的机场中所产生噪音的特点是比较类似的,也就是说,虽然在一个声音场景下的噪声声音状态可有多样性,但是总体特点类似,故对在不同区域的相同声音场景例如机场中采集的音频信号,可以通过相同的降噪方式进行降噪,且能起到类似的降噪效果。因此可以基于声音场景划分噪声类型,如图3所示,针对马路街道(A部分)、机场(B部分)、办公室(C部分)以及地铁站(D部分)这4种声音场景,可以将噪声类型分为马路街道噪声、机场噪声、办公室噪声以及地铁站噪声,并训练分别对应这些声音场景的降噪模型以用于后续的针对性降噪。
对于待处理的目标音频信号,服务器可以确定噪声对应的基于噪声声音状态划分的噪声类型,还可以确定噪声对应的基于声音场景划分的噪声类型。例如,对于待处理的目标音频信号,服务器可以确定噪声为稳态噪声以及机场噪声,然后可以分别对该目标音频信号进行稳态噪声对应的降噪以及机场噪声对应的降噪,以获得更好的降噪效果。
当噪声类型为基于噪声声音状态划分的噪声类型时,可以根据噪声类型确定噪声出现的位置,以便在具体的位置对于噪声进行降噪。当噪声类型为基于声音场景划分的噪声类型时,通常情况下仅需要调用该场景对应的一个降噪模型,以对该场景下的声音进行降噪,从而提高降噪效率。因此,基于噪声的不同特性对于噪声进行分类,可以对于具有某一特性的噪声进行针对性降噪,以获得较好的降噪效果。
针对一些降噪要求更为精细化的应用场景,对于该应用场景下的目标音频信号,还可以既通过噪声声音状态进行噪声类型维度的降噪,也通过声音场景进行噪声类型维度的降噪,从多个维度实现更为全面的降噪,提高降噪效果。
在判断目标音频中的噪声类型时,可以采用概率参数量化目标音频中的噪声类型与多种噪声类型的相似度。概率参数可以表示目标音频中的噪声为该种噪声的概率。
故在一种可能的实现方式中,目标噪声类型可以通过如下方式确定:
S11:服务器可以确定目标音频信号中噪声与N个噪声类型分别对应的概率参数。
S12:根据概率参数从N个噪声类型中确定目标噪声类型。
服务器可以分别获取多种噪声类型分别对应的频谱特性,然后将目标音频信号中的噪声对应的频谱特性分别与多种噪声类型对应的频谱特性进行比较,获得目标音频信号中的噪声与多种噪声类型的相似度,根据与多种噪声类型的相似度确定目标音频信号中的噪声为每种噪声类型的概率参数,然后根据概率参数确定对应的目标噪声类型。
例如,N个噪声类型分别为稳态噪声、连续非稳态噪声和瞬态噪声3种噪声类型,然后对比确定目标音频信号中噪声的频谱特性与这3种噪声类型的相似度分别为0.7、0.2和0.6,然后确定目标音频信号中噪声与这3个噪声类型分别对应的概率参数分别为0.7、0.2和0.6,然后根据概率参数确定目标噪声类型为稳态噪声和瞬态噪声。
当N个噪声类型分别为马路街道噪声、机场噪声、办公室噪声以及地铁站噪声这4种场景噪声类型时,服务器可以通过对比目标音频信号中噪声的频谱特征数据与马路街道噪声、机场噪声、办公室噪声以及地铁站噪声这4种场景下的噪声的频谱特征数据的相似度,确定对应的概率参数,例如为马路街道噪声的概率参数为0.6、机场噪声的概率参数为0.5、办公室噪声的概率参数为0.2以及地铁站噪声的概率参数为0.8,从而确定对应的目标噪声类型为地铁站噪声。
服务器也可以通过深度神经网络模型确定目标音频类型中噪声与N个噪声类型分别对应的概率参数,根据概率参数从N个噪声类型中确定目标噪声类型。具体地,可以将目标音频信号的频谱特征数据输入至信号分类的深度神经网络中,该深度神经网络模型的输出可以为该目标音频信号为不同噪声类型的概率参数。
通常情况下,采集获得的目标音频信号的表现形式为时域信号,因此需要通过傅里叶变换将时域信号转换为频域信号。具体地,对于表现形式为时域信号的目标音频信号需要首先进行傅里叶变换,例如可以采用离散余弦变换(discrete cosine transform,DCT)或者快速傅里叶变换(fast Fourier transform,FFT),获得目标音频信号的频谱特征数据,作为深度神经网络模型的输入。
该深度神经网络模型可以包括卷积(convolutional,conv)层、门控循环单元(gated recurrent unit,GRU)层、长短时记忆(Long-Short Term Memory,LSTM)层、全连接(Full Connected,FC)层以及相关变形层。例如,如图4所示,在该深度神经网络中,目标音频信号的频域特征数据可以依次经过三层一维卷积(conv1d)层、两层门控循环单元层、全连接层以及归一化指数函数(softmax),获得目标音频信号中噪声在各个噪声类型下的概率参数。
当目标音频信号对应的某个类型噪声的概率参数较大时,表示该目标音频信号中有较大概率包括该种类型噪声。通常情况下,当目标音频信号中的某一类型的噪声越明显时,其对应的该类型的概率参数较大。由此,通过概率参数可以确定目标音频信号中可能包括的目标噪声类型,从而通过对应的目标噪声模型进行针对性降噪。并且,N个噪声类型对应的概率参数可以对于目标音频信号中的各种类型噪声的明显程度进行量化,还能够清楚体现出多个目标噪声类型在目标音频信号中对有效声音的影响差异,以便后续根据该概率参数进行对应的降噪。
进一步地,该深度神经网络还可以用于对有效声音对应的目标声音类型进行分类,获得目标音频信号的目标声音类型,例如为语音类型或者音乐类型。示例性地,该深度神经网络可以分别输出目标音频信号中的有效声音对应的目标声音类型为语音类型的概率以及音乐类型的概率,然后将其中概率较大的作为有效声音对应的目标声音类型。
在一种可能的实现方式中,前述S12:服务器根据概率参数,从N个噪声类型中确定目标噪声类型,可以包括:从N个噪声类型中,将概率参数大于概率门限值的噪声类型确定为目标噪声类型。
该概率门限值可以基于当前的降噪精度、需求确定,通过概率门限值可以从目标音频信号中确定出存在可能性较高的噪声类型,或者对有效声音影响较大的噪声类型。
当通过深度神经网络获得目标音频信号中的噪声与N个噪声类型分别对应的概率参数后,可以通过设置概率门限值,根据概率参数从N个噪声类型中确定M个目标噪声类型。例如,概率门限值可以为0.5,概率参数大于0.5表示有一半以上的可能该音频信号中包括该种噪声类型,因此可以将概率参数大于概率门限值(0.5)的噪声类型确定为目标噪声类型。如此,服务器可以在多种噪声类型的情况下将概率参数大于门限值的噪声类型确定为目标噪声类型,从而实现在存在可能性或影响程度的维度上准确确定噪声类型的效果。
或者,服务器也可以通过设置M的数量,根据概率参数从N个噪声类型中确定概率参数最高的M个目标噪声类型。例如,M可以为3,N为10,服务器可以分别获取该目标音频信号分别为10个噪声类型的概率参数,然后选取其中概率参数最大的3个噪声类型作为目标噪声类型。又例如,M可以为1,N为4,4种噪声类型分别为马路街道噪声、机场噪声、办公室噪声以及地铁站噪声这4种场景噪声类型,马路街道噪声的概率参数为0.6、机场噪声的概率参数为0.5、办公室噪声的概率参数为0.2以及地铁站噪声的概率参数为0.8,从而确定对应的目标噪声类型为地铁站噪声。
S206:服务器从N个降噪模型中确定与噪声类型对应的目标降噪模型。
本方案中包括N个降噪模型中,N>1。其中,N个降噪模型与N个噪声类型一一对应。示例性地,当噪声类型包括稳态噪声、连续非稳态噪声以及瞬态噪声这3种时,本方案中包括3种降噪模型,分别为稳态噪声降噪模型、连续非稳态噪声降噪模型以及瞬态噪声降噪模型。当噪声类型包括电流声、风扇声、空调声、汽车发动机声、背景人声、关门声、键盘声以及咳嗽声等8种类型时,本方案中包括8种降噪模型,分别为电流声降噪模型、风扇声降噪模型、空调声降噪模型、汽车发动机噪声降噪模型、背景人声降噪模型、关门声降噪模型、键盘声降噪模型以及咳嗽声降噪模型。当噪声类型包括马路街道噪声、机场噪声、办公室噪声以及地铁站噪声时,本方案中包括4种降噪模型,分别为马路街道噪声降噪模型、机场噪声降噪模型、办公室噪声降噪模型以及地铁站噪声降噪模型。
S208:服务器根据目标声音类型指示的降噪要求,通过目标降噪模型对目标音频信号中的噪声进行降噪处理,得到目标音频信号对应的降噪结果。
降噪要求用于指示对于降噪结果的预期。由于目标声音类型的不同,对应的信号特征不同,因此降噪要求也不同。例如,针对语音类型的有效声音来说,由于其在时频域上都是稀疏的,对应的降噪要求需要尽可能多的抑制噪声,针对音乐类型的有效声音来说,由于其在时频域上都是非稀疏的,可能与噪声具有较大的重叠性,故对应的降噪要求是尽可能不损伤有效声音,做适当降噪。
从而在针对识别出的目标噪声类型对目标音频信号进行针对性降噪的过程中,还会考虑到通过降噪要求对目标音频信号中的有效声音进行保护,避免或降低降噪处理对有效声音造成实质性影响,稳定了降噪结果中有效声音的音质。
由此可见,根据目标声音类型指示的降噪要求,通过目标降噪模型对目标音频信号中的噪声进行降噪处理,获得目标音频信号对应的降噪结果。由于目标音频信号中有效声音对应的目标声音类型不同,因此可能对应不同的降噪要求,可以根据有效声音对应的目标声音类型确定降噪要求,然后根据该要求通过目标降噪模型对于目标音频信号中的噪声进行降噪,避免对于有效声音对应的目标声音类型造成影响,从而实现对于不同目标声音类型与不同目标噪声类型的音频信号的针对性降噪。
在一些可能的实现方式中,前述S208包括:根据所述目标声音类型确定对应的降噪力度作为所述降噪要求;通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到频谱增益数据;根据所述降噪力度和所述频谱增益数据,确定所述目标音频信号对应的降噪结果。
降噪要求可以通过降噪力度进行表示。降噪力度是指对目标音频信号中噪声降低的处理力度,降噪力度越大,对于噪声所在频谱的数据损失就越大。例如当需要较大的降噪力度时,可以对频谱增益数据进行平方处理,当需要较小的降噪力度时,可以对频谱增益数据进行开方处理。
由于语音类型和降噪类型的不同特性,语音类型对应的降噪力度大于音乐类型的降噪力度。当目标声音类型为语音类型时,对应的降噪要求为尽可能多的抑制噪声,避免噪声对语音的干扰,避免噪声影响语音识别的准确度。当目标声音类型为音乐类型时,对应的降噪要求为不损伤音乐信号的同时,做适当的降噪。因此,基于目标声音类型的不同,可以确定不同的降噪要求,从而满足不同环境下的降噪要求。
具体地,服务器可以根据目标声音类型确定对应的降噪力度作为降噪要求,通过噪声类型对应的目标降噪模型对目标音频信号中的噪声进行降噪处理,得到频谱增益数据,然后根据降噪力度和频谱增益数据,确定目标音频信号对应的降噪结果。当目标噪声类型为语音时,对应的降噪力度较大,因此可以对频谱增益数据进行平方,然后确定目标音频信号对应的降噪结果。当目标噪声类型为音乐时,对应的降噪力度较小,因此可以对频谱增益数据进行开方,确定目标音频信号对应的降噪结果。
如此,服务器可以根据有效声音对应的目标声音类型确定降噪要求,然后通过将降噪力度作为降噪要求对于目标降噪模型降噪处理获得的频谱增益数据进行调整,从而获得满足不同类型目标声音的降噪要求。
当目标噪声类型的数量M≥2,即确定出目标音频信号中具有多个噪声类型时,S208可以包括:
S2081:通过M个目标噪声类型分别对应的M个目标降噪模型,对目标音频信号中的噪声进行降噪处理,获得与M个目标降噪模型分别对应的M个频谱增益数据。
其中,频谱增益数据表示目标音频信号被去除所对应目标噪声类型的噪声后的中间降噪结果。
具体地,M个频谱增益数据为M个降噪模型分别对对应的噪声进行降噪处理后的M个频谱增益数据。例如,目标音频信号包括有效声音、喇叭声、汽车发动机声、空调声以及电流声,经过喇叭声对应的喇叭声降噪模型后,对应的频谱增益数据中包括有效声音、汽车发动机声、空调声以及电流声,经过汽车发动机声对应的汽车发动机声降噪模型后,对应的频谱增益数据中包括有效声音、喇叭声、空调声以及电流声,经过空调声对应的空调声降噪模型后,对应的频谱增益数据中包括有效声音、喇叭声、汽车发动机声以及电流声,经过电流声对应的电流声降噪模型后,对应的频谱增益数据中包括有效声音、喇叭声、汽车发动机声以及空调声。
服务器根据M个频谱增益数据、M个目标噪声类型对应的概率参数以及目标声音类型指示的降噪要求确定目标音频信号对应的降噪结果。其中,M个频谱增益数据表示目标音频信号去除该种类型对应的噪声后的降噪结果。
S2082:服务器可以根据M个目标噪声类型分别对应的概率参数以及目标声音类型指示的降噪要求对M个频谱增益数据进行处理,获得对应的降噪结果。
由于M个目标噪声类型分别对应的概率参数可能不同,因此针对M个频谱增益数据,例如,对于概率参数较大的目标噪声类型对应的频谱增益数据可以进行放大,对于概率参数较小的目标噪声类型对应的频谱增益数据可以进行缩小,从而根据目标音频信号中不同噪声类型的明显程度进行对应的降噪。
例如,当N=3时,3个目标噪声类型分别为喇叭声、空调声和电流声,在目标音频信号中喇叭声的概率参数为0.9、空调声的概率参数为0.6以及电流声的概率参数为0.4,且门限值为0.5,由此确定出M=2个目标噪声类型,分别为喇叭声和空调声。
如前所述,概率参数能够体现出所对应噪声类型在目标音频信号中的存在可能性,或者对有效声音的影响程度,而且,在有多个目标噪声类型,还可以体现出在目标音频信号中对有效声音的影响差异。
则基于当前确定的上述两个目标噪声类型,在确定对应的降噪结果时,可以提升喇叭声所对应频谱增益数据对确定降噪结果的影响,降低空调声所对应频谱增益数据对确定降噪结果的影响。由此能够提升高概率参数的频谱增益数据在降噪结果中的占比,增加降噪结果的降噪精度,降低明显噪声对有效声音的影响。
如图5所示为一种综合降噪神经网络的结构示意图,目标音频信号经过快速傅里叶变换之后获得对应的频域数据,然后对频域数据进行处理获得目标音频信号对应的功率谱。根据目标音频信号中噪声与N个噪声类型分别对应的概率参数,进行概率判断,确定概率参数大于概率门限值的M个目标噪声类型对应的M个目标降噪模型。
在图5中,概率判断的结果可以用于指示N个降噪模型的开关的闭合和关断,当确定该降噪模型对应的噪声类型为目标噪声类型,即属于目标降噪模型时,该目标降噪模型的开关会被闭合,目标音频信号的功率谱会输入至对应的目标降噪模型中,否则,降噪模型的开关会处于关断状态,目标音频信号的功率谱不会输入到该降噪模型中。目标音频信号的功率谱分别经过M个目标降噪模型进行降噪处理后,获得与M个目标降噪模型分别对应的M个频谱增益数据。
为了提高通过M个频谱增益数据确定降噪结果的精度,在一种可能的实现方式中,S2082可以包括:
根据所述M个频谱增益数据、所述M个目标噪声类型分别对应的概率参数和所述降噪要求,通过全连接网络确定最终频谱增益数据,所述概率参数用于标识所对应频谱增益数据在所述最终频谱增益数据中的影响程度;
根据所述最终频谱增益数据,确定所述目标音频信号对应的降噪结果。
在全连接网络中,概率参数用于标识该种类型的噪声对应的频谱增益数据的影响程度,降噪要求用于标识目标音频信号中的目标声音类型。全连接网络用于将M个频谱增益数据、M个目标噪声类型分别对应的概率参数和降噪要求进行融合,获得最终频谱增益数据。
通过全连接网络(例如前述图5示出)可以增强M个频谱增益数据的融合程度,通过数据融合,每一个频谱增益数据可以学习到其他目标噪声类型对应的信息,而且M个目标噪声类型分别对应的概率参数能够在融合时指导频谱增益数据占最终频谱增益数据的比重,使得各个频谱增益数据在最终频谱增益数据中的占比更为合理,更符合噪声对应有效声音或者说目标以音频信号的实际影响。再加上降噪要求所体现出目标音频信号中有效声音的特点,使得用于确定降噪结果的最终频谱增益数据中,相对于M各频谱增益数据来说具有更为丰富的信息,能够有效提升所确定降噪结果的精度。
服务器可以将最终频谱增益数据乘以目标音频信号的功率谱,并经过反傅里叶变换(Inverse Fourier transform,IFT)综合目标音频信号的相位获得对应的时域信号,即为最终的降噪结果。
在前述S202的一种可能的实现方式中,提及了针对待降噪音频的周期性采样方式。在此基础上,本申请还可以根据待降噪音频的每个目标音频信号对应的降噪结果,实现对待降噪音频的降噪处理。
故在一种可能的实现方式中,所述方法还包括:服务器根据待降噪音频在各个周期所采集的目标音频信号对应的降噪结果,完成对待降噪音频的降噪处理。
针对从待降噪音频中周期性采集目标音频信号,示例性地,服务器可以根据采样音频帧间隔,从待降噪音频中周期性采集目标音频信号,然后以采样音频帧间隔为单位对目标音频信号采用本方案的音频降噪方法。
如此,当目标音频信号中的有效声音和噪声发生变化时,则可以快速识别,从而更换对应的降噪模型以及降噪要求,对变化后的目标音频信号进行对应降噪。
其中,采样音频帧间隔可以按照识别敏锐度进行设置,当需要的敏锐度较高时,则可以设置较小的采样音频帧间隔,提高该方法的敏锐性。在分别获取到每一个周期的目标音频信号对应的降噪结果后,服务器根据待降噪音频在各个周期所采集的目标音频信号对应的降噪结果,完成对待降噪音频的降噪处理。
在一种可能的实现方式中,对于一段待降噪音频,服务器可以根据采用音频帧间隔周期性采集获得一周期内的目标音频信号,然后确定每一周期内的目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型,从N个降噪模型中确定与目标噪声类型对应的目标降噪模型,根据目标声音类型指示的降噪要求,通过目标降噪模型对目标音频信号中的噪声进行降噪处理,获得每一周期的目标音频信号对应的降噪结果,然后综合每一周期内的降噪结果,完成对待降噪音频的降噪处理。如此,对于每一周期的目标音频信号均进行目标声音类型与目标噪声类型的识别,当目标音频信号中的有效声音和噪声发生变化时,可以快速识别变换,更换对应的降噪模型以及降噪要求,从而提高识别的敏锐度。
在另一种可能的实现方式中,对于一段待降噪音频,服务器可以对于第一个周期的目标音频信号进行识别,获得有效声音对应的目标声音类型和噪声对应的目标噪声类型,然后从N个降噪模型中确定与目标噪声类型对应的目标降噪模型,根据第一个周期的目标声音类型指示的降噪要求,通过第一周期对应的目标降噪模型对分别对整段待降噪音频的每一周期的目标音频信号中的噪声进行降噪处理,得到每一周期的目标音频信号对应的降噪结果,然后综合每一周期内的降噪结果,完成对待降噪音频的降噪处理。如此,考虑到用户所处环境的稳定性,无需对于每一周期均进行判断,从而提高降噪效率。
为了使得本申请技术方案更加清楚易于理解,本申请实施例还针对图3中的具体场景对音频降噪方法进行示例说明。
如图3(A)所示,场景为马路街道。服务器获取麦克风所采集的音频为待处理的目标音频信号,确定有效声音对应的目标声音类型为语音,噪声对应的目标噪声类型为轮胎摩擦声、汽车喇叭声、汽车刹车声以及汽车马达声等。服务器从N个降噪模型中确定轮胎摩擦声降噪模型、汽车喇叭声降噪模型、汽车刹车声降噪模型以及汽车马达声降噪模型为目标降噪模型,然后根据语音指示的降噪要求,通过轮胎摩擦声降噪模型、汽车喇叭声降噪模型、汽车刹车声降噪模型以及汽车马达声降噪模型对目标音频信号中的上述噪声进行降噪处理,获得对应的降噪结果。
如图3(B)所示,场景为机场。服务器获取对方服务器所发送的音频为待处理的目标音频信号,确定有效声音对应的目标声音类型为语音,噪声对应的目标噪声类型为机场噪声。服务器从N个降噪模型中确定机场噪声降噪模型为目标降噪模型,然后根据语音指示的降噪要求,通过机场噪声降噪模型对目标音频信号中的机场噪声进行降噪处理,获得对应的降噪结果。
如图3(C)所示,场景为办公室。服务器获取音响所播放的音乐以及办公室中的办公室噪声为目标音频信号,确定有效声音对应的目标声音类型为音乐,噪声对应的目标噪声类型为键盘声、鼠标声、交谈声以及桌椅摩擦声。服务器从N个降噪模型中确定上述噪声对应的降噪模型为键盘声降噪模型、鼠标声降噪模型、交谈声降噪模型以及桌椅摩擦声降噪模型,然后根据音乐指示的降噪要求,通过上述降噪模型对目标音频信号中的键盘声、鼠标声、交谈声以及桌椅摩擦声进行降噪处理,获得对应的降噪结果。
如图3(D)所示,场景为地铁站。服务器获取音响所播放的音乐以及地铁站的地铁站噪声为目标音频信号,确定有效声音对应的目标声音类型为音乐,噪声对应的目标噪声类型为地铁站噪声。服务器从N个降噪模型中确定地铁站噪声对应的降噪模型为地铁站噪声降噪模型,然后根据音乐指示的降噪要求,通过地铁站噪声降噪模型对目标音频信号中的地铁站噪声进行降噪处理,获得对应的降噪结果。
在前述图1-图5所对应实施例的基础上,图6为一种音频降噪装置的结构示意图,所述音频降噪装置600包括:获取模块602、类型确定模块604、模型确定模块606和处理模块608。
获取模块602,用于获取待处理的目标音频信号;
类型确定模块604,用于确定所述目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型;
模型确定模块606,用于从N个降噪模型中确定与所述目标噪声类型对应的目标降噪模型,在所述N个降噪模型中,N个降噪模型与N个噪声类型一一对应,N>1;
处理模块608,用于根据所述目标声音类型指示的降噪要求,通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到所述目标音频信号对应的降噪结果。
在一种可能的实现方式中,所述处理模块608具体用于:
根据所述目标声音类型确定对应的降噪力度作为所述降噪要求;
通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到频谱增益数据;
根据所述降噪力度和所述频谱增益数据,确定所述目标音频信号对应的降噪结果。
在一种可能的实现方式中,所述目标声音类型包括语音类型或音乐类型,所述语音类型对应的降噪力度大于所述音乐类型对应的降噪力度。
在一种可能的实现方式中,所述类型确定模块604具体用于:
确定所述目标音频信号中所述噪声与所述N个噪声类型分别对应的概率参数;
根据所述概率参数,从所述N个噪声类型中确定所述目标噪声类型,所述目标噪声类型的数量为M个,M≤N。
在一种可能的实现方式中,所述类型确定模块604具体用于:
从所述N个噪声类型中,将所述概率参数大于概率门限值的噪声类型确定为所述目标噪声类型。
在一种可能的实现方式中,若M≥2,所述处理模块608具体用于:
通过所述目标噪声类型分别对应的M个目标降噪模型,对所述目标音频信号中的所述噪声进行降噪处理,得到M个频谱增益数据,所述M个频谱增益数据与所述M个目标降噪模型一一对应;
根据所述目标声音类型指示的降噪要求,通过所述M个频谱增益数据和所述M个目标噪声类型分别对应的概率参数,确定所述目标音频信号对应的降噪结果。
在一种可能的实现方式中,所述处理模块608具体用于:
根据所述M个频谱增益数据、所述M个目标噪声类型分别对应的概率参数和所述降噪要求,通过全连接网络确定最终频谱增益数据,所述概率参数用于标识所对应频谱增益数据在所述最终频谱增益数据中的影响程度;
根据所述最终频谱增益数据,确定所述目标音频信号对应的降噪结果。
在一种可能的实现方式中,所述噪声类型包括基于噪声声音状态划分的噪声类型,和/或,包括基于声音场景划分的噪声类型。
在一种可能的实现方式中,所述获取模块602具体用于:
根据采样音频帧间隔,从待降噪音频中周期性采集所述目标音频信号;
所述装置还包括综合模块,用于:
根据所述待降噪音频在各个周期所采集目标音频信号对应的降噪结果,完成对所述待降噪音频的降噪处理。
由此可见,通过获取待处理的目标音频信号,可以确定目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型。由于在不同应用场景下,不同待处理的目标音频信号中有效声音对应的目标声音类型可能不同,并且目标音频信号中的目标噪声类型也可能不同,因此通过目标声音类型和目标噪声类型可以确定目标音频信号的应用场景,从而实现针对性降噪。从N个降噪模型中确定与该目标噪声类型对应的目标降噪模型,其中N大于1,N个降噪模型与N个噪声一一对应,N个降噪模型分别用于对N个噪声类型进行针对性降噪。根据目标声音类型指示的降噪要求,通过目标降噪模型对目标音频信号中的噪声进行降噪处理,获得目标音频信号对应的降噪结果。由于目标音频信号中有效声音对应的目标声音类型不同,因此可能对应不同的降噪要求,可以根据有效声音对应的目标声音类型确定降噪要求,然后根据该要求通过目标降噪模型对于目标音频信号中的噪声进行降噪,避免对于有效声音对应的目标声音类型造成影响,从而实现对于不同目标声音类型与不同目标噪声类型的音频信号的针对性降噪。
本申请实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,可以包括终端设备或服务器。下面结合附图对该计算机设备进行介绍。
若该计算机设备为终端设备,请参见图7所示,本申请实施例提供了一种终端设备,以终端设备为手机为例:
图7示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图7,手机包括:射频(Radio Frequency,简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解,图7中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图7对手机的各个构成部件进行具体的介绍:
RF电路710可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器780处理;另外,将设计上行的数据发送给基站。
存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元730可包括触控面板731以及其他输入设备732。
显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741。
手机还可包括至少一种传感器750,比如光传感器、运动传感器以及其他传感器。
音频电路760、扬声器761,传声器762可提供用户与手机之间的音频接口。
WiFi属于短距离无线传输技术,手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。
处理器780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行手机的各种功能和处理数据。
手机还包括给各个部件供电的电源790(比如电池)。
在本实施例中,该终端设备所包括的处理器780还具有以下功能:
获取待处理的目标音频信号;
确定所述目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型;
从N个降噪模型中确定与所述目标噪声类型对应的目标降噪模型,在所述N个降噪模型中,N个降噪模型与N个噪声类型一一对应,N>1;
根据所述目标声音类型指示的降噪要求,通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到所述目标音频信号对应的降噪结果。
若计算机设备为服务器,本申请实施例还提供一种服务器,请参见图8所示,图8为本申请实施例提供的服务器800的结构图,服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图8所示的服务器结构。
另外,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的方法。
本申请实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (13)

1.一种音频降噪方法,其特征在于,所述方法包括:
获取待处理的目标音频信号;
确定所述目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型;
从N个降噪模型中确定与所述目标噪声类型对应的目标降噪模型,在所述N个降噪模型中,N个降噪模型与N个噪声类型一一对应,N>1;
根据所述目标声音类型指示的降噪要求,通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到所述目标音频信号对应的降噪结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标声音类型指示的降噪要求,通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到所述目标音频信号对应的降噪结果,包括:
根据所述目标声音类型确定对应的降噪力度作为所述降噪要求;
通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到频谱增益数据;
根据所述降噪力度和所述频谱增益数据,确定所述目标音频信号对应的降噪结果。
3.根据权利要求2所述的方法,其特征在于,所述目标声音类型包括语音类型或音乐类型,所述语音类型对应的降噪力度大于所述音乐类型对应的降噪力度。
4.根据权利要求1所述的方法,其特征在于,所述目标噪声类型通过如下方式确定:
确定所述目标音频信号中所述噪声与所述N个噪声类型分别对应的概率参数;
根据所述概率参数,从所述N个噪声类型中确定所述目标噪声类型,所述目标噪声类型的数量为M个,M≤N。
5.根据权利要求4所述的方法,其特征在于,所述根据所述概率参数,从所述N个噪声类型中确定所述目标噪声类型,包括:
从所述N个噪声类型中,将所述概率参数大于概率门限值的噪声类型确定为所述目标噪声类型。
6.根据权利要求4所述的方法,其特征在于,若M≥2,所述根据所述目标声音类型指示的降噪要求,通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到所述目标音频信号对应的降噪结果,包括:
通过所述目标噪声类型分别对应的M个目标降噪模型,对所述目标音频信号中的所述噪声进行降噪处理,得到M个频谱增益数据,所述M个频谱增益数据与所述M个目标降噪模型一一对应;
根据所述目标声音类型指示的降噪要求,通过所述M个频谱增益数据和所述M个目标噪声类型分别对应的概率参数,确定所述目标音频信号对应的降噪结果。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标声音类型指示的降噪要求,通过所述M个频谱增益数据和所述M个目标噪声类型分别对应的概率参数,确定所述目标音频信号对应的降噪结果,包括:
根据所述M个频谱增益数据、所述M个目标噪声类型分别对应的概率参数和所述降噪要求,通过全连接网络确定最终频谱增益数据,所述概率参数用于标识所对应频谱增益数据在所述最终频谱增益数据中的影响程度;
根据所述最终频谱增益数据,确定所述目标音频信号对应的降噪结果。
8.根据权利要求1-7任意一项所述的方法,其特征在于,所述噪声类型包括基于噪声声音状态划分的噪声类型,和/或,包括基于声音场景划分的噪声类型。
9.根据权利要求1-7任意一项所述的方法,其特征在于,所述获取待处理的目标音频信号,包括:
根据采样音频帧间隔,从待降噪音频中周期性采集所述目标音频信号;
所述方法还包括:
根据所述待降噪音频在各个周期所采集目标音频信号对应的降噪结果,完成对所述待降噪音频的降噪处理。
10.一种音频降噪装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的目标音频信号;
类型确定模块,用于确定所述目标音频信号中有效声音对应的目标声音类型和噪声对应的目标噪声类型;
模型确定模块,用于从N个降噪模型中确定与所述目标噪声类型对应的目标降噪模型,在所述N个降噪模型中,N个降噪模型与N个噪声类型一一对应,N>1;
处理模块,用于根据所述目标声音类型指示的降噪要求,通过所述目标降噪模型对所述目标音频信号中的所述噪声进行降噪处理,得到所述目标音频信号对应的降噪结果。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-9中任意一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-9中任意一项所述的方法。
13.一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权利要求1-9任意一项所述的方法。
CN202210795134.1A 2022-07-07 2022-07-07 一种音频降噪方法和相关装置 Pending CN115188390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210795134.1A CN115188390A (zh) 2022-07-07 2022-07-07 一种音频降噪方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210795134.1A CN115188390A (zh) 2022-07-07 2022-07-07 一种音频降噪方法和相关装置

Publications (1)

Publication Number Publication Date
CN115188390A true CN115188390A (zh) 2022-10-14

Family

ID=83516883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210795134.1A Pending CN115188390A (zh) 2022-07-07 2022-07-07 一种音频降噪方法和相关装置

Country Status (1)

Country Link
CN (1) CN115188390A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117590916A (zh) * 2024-01-17 2024-02-23 苏州元脑智能科技有限公司 一种服务器降噪方法、系统、装置、设备及计算机介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117590916A (zh) * 2024-01-17 2024-02-23 苏州元脑智能科技有限公司 一种服务器降噪方法、系统、装置、设备及计算机介质
CN117590916B (zh) * 2024-01-17 2024-04-16 苏州元脑智能科技有限公司 一种服务器降噪方法、系统、装置、设备及计算机介质

Similar Documents

Publication Publication Date Title
US11749262B2 (en) Keyword detection method and related apparatus
CN110428808B (zh) 一种语音识别方法及装置
CN111489760B (zh) 语音信号去混响处理方法、装置、计算机设备和存储介质
US20190355354A1 (en) Method, apparatus and system for speech interaction
CN108922553B (zh) 用于音箱设备的波达方向估计方法及系统
CN111508519B (zh) 一种音频信号人声增强的方法及装置
US11488617B2 (en) Method and apparatus for sound processing
CN104954555A (zh) 一种音量调节方法及系统
CN113571078B (zh) 噪声抑制方法、装置、介质以及电子设备
CN113241085A (zh) 回声消除方法、装置、设备及可读存储介质
CN114338623A (zh) 音频的处理方法、装置、设备、介质及计算机程序产品
CN115188390A (zh) 一种音频降噪方法和相关装置
Paikrao et al. Consumer Personalized Gesture Recognition in UAV Based Industry 5.0 Applications
CN113593612B (zh) 语音信号处理方法、设备、介质及计算机程序产品
CN116612778B (zh) 回声及噪声抑制方法、相关装置和介质
CN117896666A (zh) 用于回放音频数据的方法、电子设备和存储介质
CN114333874B (zh) 处理音频信号的方法
CN114501281B (zh) 声音调整方法、装置、电子设备和计算机可读介质
CN116978359A (zh) 音素识别方法、装置、电子设备及存储介质
CN111341347B (zh) 一种噪声检测方法及相关设备
CN113889084A (zh) 音频识别方法、装置、电子设备及存储介质
CN113516992A (zh) 一种音频处理方法、装置、智能设备及存储介质
CN111179966A (zh) 一种语音分析的方法、装置、电子设备和存储介质
CN117153178B (zh) 音频信号处理方法、装置、电子设备和存储介质
US10964335B2 (en) Multiple microphone speech generative networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40077122

Country of ref document: HK