CN110970046A - 一种音频数据处理的方法及装置、电子设备、存储介质 - Google Patents
一种音频数据处理的方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN110970046A CN110970046A CN201911207689.4A CN201911207689A CN110970046A CN 110970046 A CN110970046 A CN 110970046A CN 201911207689 A CN201911207689 A CN 201911207689A CN 110970046 A CN110970046 A CN 110970046A
- Authority
- CN
- China
- Prior art keywords
- audio data
- channel audio
- time
- channel
- frequency mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims abstract description 154
- 230000005236 sound signal Effects 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000003491 array Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 46
- 238000012546 transfer Methods 0.000 claims description 37
- 230000009467 reduction Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例提供了一种音频数据处理的方法及装置、电子设备、存储介质,所述方法包括:获取第一多通道音频数据;其中,第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;对第一多通道音频数据进行解混响处理,得到第二多通道音频数据;生成针对第二多通道音频数据的时频掩码;根据时频掩码,对第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;采用第一单通道音频数据,进行音频信号输出。通过本申请实施例,实现了对非同步采集的多个麦克风阵列的音频处理,避免了仅能采用同步采集的统一阵列进行音频处理导致的高成本,扩大了拾音范围,提升了鲁棒性。
Description
技术领域
本申请涉及音频数据处理领域,特别是涉及一种音频数据处理的方法及装置、电子设备、存储介质。
背景技术
目前,麦克风阵列技术通常集中于同步采集的统一阵列系统,而同步采集的统一阵列系统对硬件设计、制造及部署均有较高的要求。
而且,由于只能单点部署,若要覆盖更大的范围,则需要部署大孔径且数量较多的麦克风,而随着阵列系统中麦克风数量的增强,成本会快速上升,空间部署难度也会增加,且鲁棒性会显著下降。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种音频数据处理的方法及装置、电子设备、存储介质,包括:
一种音频数据处理的方法,所述方法包括:
获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
生成针对所述第二多通道音频数据的时频掩码;
根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
采用所述第一单通道音频数据,进行音频信号输出。
可选地,所述根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据的步骤包括:
根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵;
采用所述信道传递函数和所述干扰噪声协方差矩阵,确定波束权值;
采用所述波束权值,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据。
可选地,所述时频掩码包括目标语音掩码和干扰噪声掩码,所述根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵的步骤包括:
采用所述目标语音掩码,生成目标语音协方差矩阵;
采用所述目标语音协方差矩阵,计算得到信道传递函数;
采用所述干扰噪声掩码,计算得到干扰噪声协方差矩阵。
可选地,所述生成针对所述第二多通道音频数据的时频掩码的步骤包括:
生成针对所述第二多通道音频数据中类目标语音数据的第一时频掩码;
根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码。
可选地,所述根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码的步骤包括:
获取所述第一时频掩码对应的类目标语音数据;
结合所述类目标语音数据,生成针对所述第二多通道音频数据中目标语音数据的第二时频掩码;其中,所述类目标语音数据包含所述目标语音数据;
结合所述第一视频掩码、所述第二视频掩码,生成针对所述第二多通道音频数据的时频掩码。
可选地,所述采用所述第一单通道音频数据,进行音频信号输出的步骤包括:
对所述第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据;
采用所述第二单通道音频数据,进行音频信号输出。
可选地,所述采用所述第二单通道音频数据,进行音频信号输出的步骤包括:
确定当前应用类型;
采用所述当前应用类型对应的单通道降噪策略,对所述第二单通道音频数据进行降噪处理,得到第三单通道音频数据;
采用所述第三单通道音频数据,进行音频信号输出。
可选地,所述对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据的步骤包括:
获取解混响参数;
采用所述解混响参数,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
所述方法还包括:
采用所述第一单通道音频数据和/或,所述第二单通道音频数据和/或,所述第三单通道音频数据,迭代更新所述解混响参数。
可选地,在所述对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据的步骤之前,所述方法还包括:
确定所述第一多通道音频数据中音频数据的相关程度;
按照所述相关程度,对所述第一多通道音频数据中音频数据进行对齐处理。
一种音频数据处理的装置,所述装置包括:
第一多通道音频数据获取模块,用于获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
解混响处理模块,用于对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
时频掩码生成模块,用于生成针对所述第二多通道音频数据的时频掩码;
波束形成处理模块,用于根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
音频信号输出模块,用于采用所述第一单通道音频数据,进行音频信号输出。
可选地,所述波束形成处理模块包括:
函数和矩阵确定子模块,用于根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵;
波束权值确定子模块,用于采用所述信道传递函数和所述干扰噪声协方差矩阵,确定波束权值;
第一单通道音频数据得到子模块,用于采用所述波束权值,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据。
可选地,所述时频掩码包括目标语音掩码和干扰噪声掩码,所述函数和矩阵确定子模块包括:
目标语音协方差矩阵生成单元,用于采用所述目标语音掩码,生成目标语音协方差矩阵;
信道传递函数得到单元,用于采用所述目标语音协方差矩阵,计算得到信道传递函数;
干扰噪声协方差矩阵得到单元,用于采用所述干扰噪声掩码,计算得到干扰噪声协方差矩阵。
可选地,所述时频掩码生成模块包括:
第一时频掩码生成子模块,用于生成针对所述第二多通道音频数据中类目标语音数据的第一时频掩码;
根据确定时频掩码子模块,用于根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码。
可选地,所述根据确定时频掩码子模块包括:
类目标语音数据获取单元,用于获取所述第一时频掩码对应的类目标语音数据;
第二时频掩码生成单元,用于结合所述类目标语音数据,生成针对所述第二多通道音频数据中目标语音数据的第二时频掩码;其中,所述类目标语音数据包含所述目标语音数据;
结合确定时频掩码单元,用于结合所述第一视频掩码、所述第二视频掩码,生成针对所述第二多通道音频数据的时频掩码。
可选地,所述第一音频信号输出模块包括:
自适应滤波处理子模块,用于对所述第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据;
第二音频信号输出子模块,用于采用所述第二单通道音频数据,进行音频信号输出。
可选地,所述第二音频信号输出子模块包括:
当前应用类型确定单元,用于确定当前应用类型;
第三单通道音频数据得到单元,用于采用所述当前应用类型对应的单通道降噪策略,对所述第二单通道音频数据进行降噪处理,得到第三单通道音频数据;
第三音频信号输出单元,用于采用所述第三单通道音频数据,进行音频信号输出。
可选地,所述解混响处理模块包括:
解混响参数获取子模块,用于获取解混响参数;
第二多通道音频数据得到子模块,用于采用所述解混响参数,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
所述装置还包括:
迭代更新模块,用于采用所述第一单通道音频数据和/或,所述第二单通道音频数据和/或,所述第三单通道音频数据,迭代更新所述解混响参数。
可选地,所述装置还包括:
相关程度确定模块,用于确定所述第一多通道音频数据中音频数据的相关程度;
对齐处理模块,用于按照所述相关程度,对所述第一多通道音频数据中音频数据进行对齐处理。
一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
生成针对所述第二多通道音频数据的时频掩码;
根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
采用所述第一单通道音频数据,进行音频信号输出。
可选地,所述根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据的步骤包括:
根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵;
采用所述信道传递函数和所述干扰噪声协方差矩阵,确定波束权值;
采用所述波束权值,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据。
可选地,所述时频掩码包括目标语音掩码和干扰噪声掩码,所述根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵的步骤包括:
采用所述目标语音掩码,生成目标语音协方差矩阵;
采用所述目标语音协方差矩阵,计算得到信道传递函数;
采用所述干扰噪声掩码,计算得到干扰噪声协方差矩阵。
可选地,所述生成针对所述第二多通道音频数据的时频掩码的步骤包括:
生成针对所述第二多通道音频数据中类目标语音数据的第一时频掩码;
根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码。
可选地,所述根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码的步骤包括:
获取所述第一时频掩码对应的类目标语音数据;
结合所述类目标语音数据,生成针对所述第二多通道音频数据中目标语音数据的第二时频掩码;其中,所述类目标语音数据包含所述目标语音数据;
结合所述第一视频掩码、所述第二视频掩码,生成针对所述第二多通道音频数据的时频掩码。
可选地,所述采用所述第一单通道音频数据,进行音频信号输出的步骤包括:
对所述第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据;
采用所述第二单通道音频数据,进行音频信号输出。
可选地,所述采用所述第二单通道音频数据,进行音频信号输出的步骤包括:
确定当前应用类型;
采用所述当前应用类型对应的单通道降噪策略,对所述第二单通道音频数据进行降噪处理,得到第三单通道音频数据;
采用所述第三单通道音频数据,进行音频信号输出。
可选地,所述对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据的步骤包括:
获取解混响参数;
采用所述解混响参数,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
所述电子设备还包含用于进行以下操作的指令:
采用所述第一单通道音频数据和/或,所述第二单通道音频数据和/或,所述第三单通道音频数据,迭代更新所述解混响参数。
可选地,所述电子设备还包含用于进行以下操作的指令:
确定所述第一多通道音频数据中音频数据的相关程度;
按照所述相关程度,对所述第一多通道音频数据中音频数据进行对齐处理。
一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的音频数据处理方法。
本申请实施例具有以下优点:
在本申请实施例中,通过获取第一多通道音频数据,第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成,然后对第一多通道音频数据进行解混响处理,得到第二多通道音频数据,生成针对第二多通道音频数据的时频掩码,采用时频掩码,对第二多通道音频数据进行波束形成处理,得到第一单通道音频数据,采用第一单通道音频数据,进行音频信号输出,实现了对非同步采集的多个麦克风阵列的音频处理,避免了仅能采用同步采集的统一阵列进行音频处理导致的高成本,扩大了拾音范围,提升了鲁棒性,且通过采用时频掩码,在进行音频处理时无需依赖于麦克风阵列的位置信息,提升了降噪和抗干扰能力。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种音频数据处理的方法的步骤流程图;
图2是本申请一实施例提供的另一种音频数据处理的方法的步骤流程图;
图3是本申请一实施例提供的另一种音频数据处理的方法的步骤流程图;
图4是本申请一实施例提供的另一种音频数据处理的方法的步骤流程图;
图5是本申请一实施例提供的一种音频数据处理的装置的结构示意图;
图6是本申请一实施例提供的的一种用于音频数据处理的电子设备的结构框图;
图7是本申请一实施例提供的另一种用于音频数据处理的电子设备的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,示出了本申请一实施例提供的一种音频数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
其中,一个或多个麦克风阵列可以构成一非同步采集的阵列系统,其具体可以为由于存在不一致的同步时钟或传输延迟等,造成得到的多通道信号在时间上不完全同步,而单个麦克风阵列内部可以进行同步采集,若单个麦克风阵列中存在不同步采集的麦克风,则也可以将其单独作为一麦克风阵列,且各个麦克风阵列采集音频数据的采样率相同。
在实际应用中,可以设置控制模块、传输模块及处理模块,通过控制模块可以对一个或多个麦克风阵列的工作状态进行控制,进而可以控制一个或多个麦克风阵列进行同步的启动和数据传输。
当进行信号采集时,控制模块可以控制一个或多个麦克风阵列启动并开始录音,一个或多个麦克风阵列将采集的数据发送至传输模块,传输模块可以采用预设的分包策略,将各个麦克风阵列采集的数据同步传输至处理模块,其可以采用有线或无线的方式进行数据传输,处理模块进而可以获得由一个或多个麦克风阵列采集的音频数据组成的第一多通道音频数据。
在一示例中,当部分数据包传输不及时,则可以等待预设时长,若超时未收到数据包,则可以将缺失的数据进行补零标记后传输至处理模块。
步骤102,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
由于声音在传播过程中的反射和折射产生多径传播,导致麦克风接收的音频信号中,除了直达信号还有多径信号,这些紧随直达波的多径信号称为混响,常常会对语音唤醒和识别等人机交互功能产生不利影响。
在获得第一多通道音频数据后,处理模块采用线性预测或者卡尔曼滤波等滤波等方式,对第一多通道音频数据进行解混响处理,进而对原始信号中的混响进行抑制,得到第二多通道音频数据,且该解混响处理可以保证数据的相位关系不改变,不影响后续处理。
在本申请一实施例中,在步骤102之前,该方法还可以包括如下步骤:
确定所述第一多通道音频数据中音频数据的相关程度;按照所述相关程度,对所述第一多通道音频数据中音频数据进行对齐处理。
由于各个麦克风阵列采集的音频数据可能存在偏移,如存在20毫秒的时钟偏移,可以确定第一多通道音频数据中音频数据的相关程度,然后按照相关程度进行对齐处理,以保证其数据偏移在1帧以内,不影响后续处理。
具体的,可以选取参考频带和一个参考通道,然后在预设的最大偏移范围内计算第一多通道音频数据在参考频带中的互相关系数(即相关程度),且其搜索精度小于后续处理帧长,确定通道间互相关系数最大值对应的偏移,然后以参考通道为准进行对齐。
步骤103,生成针对所述第二多通道音频数据的时频掩码;
其中,时频掩码可以为根据每个时频点中不同成分的大小关系,生成对应的掩蔽系数,可以用于语音和噪声的分离等任务。
在获得第二多通道音频数据后,可以采用分类器,在时频域分离第二多通道音频数据中目标语音信号和其他干扰及噪声信号,如分离人声和环境噪声,进而可以得到针对第二多通道音频数据的时频掩码。
在本申请一实施例中,步骤103可以包括如下子步骤:
子步骤11,生成针对所述第二多通道音频数据中类目标语音数据的第一时频掩码;
在具体实现中,可以将第二多通道音频数据输入第一预置模型,第一预置模型可以输出针对第二多通道音频数据中类目标语音数据的第一时频掩码,如第二多通道音频数据可以包括与人声对应的音频数据和与环境噪声对应的音频数据,类目标音频数据为与人声对应的音频数据,则可以得到针对与人声的音频数据的第一时频掩码。
在一示例中,第一预置模块可以采用生成式模型,如复数混合高斯模型,或者可以采用判别式模型,如DNN(Deep NeuralNetworks,深度神经网络)、TDNN(时间延迟神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)、CNN(Convolutional NeuralNetworks,卷积神经网络)、TCNN等神经网络结构组成的判别模型。
子步骤12,根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码。
在获得第一时频掩码后,可以直接将该第一时频掩码作为针对第二多通道音频数据的时频掩码,也可以根据该第一时频掩码进行进一步的优化,实现对类目标音频数据中指定目标音频数据的掩蔽效果。
在本申请一实施例中,子步骤12可以包括如下子步骤:
子步骤121,获取所述第一时频掩码对应的类目标语音数据;
在具体实现中,可以采用第一视频掩码对第二多通道音频数据进行处理,则可以从第二多通道音频数据中,得到第一时频掩码对应的类目标语音数据。
子步骤122,结合所述类目标语音数据,生成针对所述第二多通道音频数据中目标语音数据的第二时频掩码;其中,所述类目标语音数据包含所述目标语音数据;
在获得类目标语音数据后,可以将该类目标语音数据输入第二预置模型,第二预置模型可以生成针对第二多通道音频数据中目标语音数据的第二时频掩码,如第二多通道音频数据可以包括与人声对应的音频数据和与环境噪声对应的音频数据,与人声对应的音频数据可以包括与用户A对应的音频数据和与用户B对应的音频数据,目标音频数据为与用户A对应的音频数据,则可以得到针对用户A对应的音频数据的第二时频掩码,进而可以实现指定人的掩蔽效果,能够适用于家用人机交互等场景。
在一示例中,第二预置模型可以为SpeakerBeam或iVector+DeepCluster等模型。
子步骤123,结合所述第一视频掩码、所述第二视频掩码,生成针对所述第二多通道音频数据的时频掩码。
在获得第一视频掩码、第二视频掩码后,可以对第一视频掩码、第二视频掩码进行点乘,进而可以得到针对第二多通道音频数据的时频掩码。
步骤104,根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
其中,波束形成是通过阵列接收信号的空间谱特性,对信号进行空域滤波,从而实现指向性接收的技术。
在获得视频掩码后,可以采用时频掩码,对第二多通道音频数据进行波束形成处理,得到第一单通道音频数据。
步骤105,采用所述第一单通道音频数据,进行音频信号输出。
在获得第一单通道音频数据后,可以采用第一单通道音频数据,进行音频信号输出,进而可以实现了对语音信号的增强,降低干扰噪声的影响。
在本申请实施例中,通过获取第一多通道音频数据,第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成,然后对第一多通道音频数据进行解混响处理,得到第二多通道音频数据,生成针对第二多通道音频数据的时频掩码,采用时频掩码,对第二多通道音频数据进行波束形成处理,得到第一单通道音频数据,采用第一单通道音频数据,进行音频信号输出,实现了对非同步采集的多个麦克风阵列的音频处理,避免了仅能采用同步采集的统一阵列进行音频处理导致的高成本,扩大了拾音范围,提升了鲁棒性,且通过采用时频掩码,在进行音频处理时无需依赖于麦克风阵列的位置信息,提升了降噪和抗干扰能力。
参照图2,示出了本申请一实施例提供的另一种音频数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤201,获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
步骤202,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
步骤203,生成针对所述第二多通道音频数据的时频掩码;
步骤204,根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵;
在获得时频掩码后,对于每个频点,可以根据时频掩码,确定信道传递函数和干扰噪声协方差矩阵。
在本申请一实施例中,时频掩码可以包括目标语音掩码和干扰噪声掩码,目标语音掩码和干扰噪声掩码之和可以为一固定值,如目标语音掩码和干扰噪声掩码之和可以为1,则步骤204可以包括如下子步骤:
子步骤21,采用所述目标语音掩码,生成目标语音协方差矩阵,并采用所述目标语音协方差矩阵,计算得到信道传递函数;
在具体实现中,可以采用目标语音掩码,生成目标语音协方差矩阵,然后可以采用目标语音协方差矩阵,计算得到信道传递函数,具体如下:
对于麦克风阵列的信号模型可以表示为:
其中,xi(t)为第i个麦克风接收信号,s(t)为目标语音信号,fi(t)为第i个麦克风接收信号的信道传递函数,ni(t)为第i个麦克风接收的噪声和干扰信号。
对上式进行时频变换,其每个频点都可以表示为:
xf,t=dfsf,t+nf,t
其中,xf,t和nf,t分别为t时刻该频点接收的多通道数据向量(即第二多通道音频数据)和噪声干扰信号,sf,t则为该时刻的目标语音信号,df为对应的信道传递函数向量。
由于混响已基本被抑制,假设噪声干扰与目标语音信号不相关,可进一步推导为:
利用得到的时频掩码:
其中,为当前频率的目标语音协方差矩阵估计,为t时刻该频点对应的目标语音掩码,和分别为信道传递函数向量和目标方差的估计,即通过对进行特征分解,取主特征值和特征向量即可得到信道传递函数向量。对于在线估计方法,多帧累积可以改为带衰落系数的累积方式,方便实时处理。
子步骤22,采用所述干扰噪声掩码,计算得到干扰噪声协方差矩阵。
基于上述说明,也可以采用干扰噪声掩码,计算得到干扰噪声协方差矩阵,具体如下:
步骤205,采用所述信道传递函数和所述干扰噪声协方差矩阵,确定波束权值;
在获得信道传递函数和干扰噪声协方差矩阵后,可以来计算波束权值wf,可以采用最小方差无畸变(MVDR)波束形成方法,具体如下:
步骤206,采用所述波束权值,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
在获得波束权值,可以采用波束权值,对第二多通道音频数据进行波束形成处理,得到第一单通道音频数据。
步骤207,采用所述第一单通道音频数据,进行音频信号输出。
在本申请实施例中,通过根据时频掩码,确定信道传递函数和干扰噪声协方差矩阵,然后采用信道传递函数和干扰噪声协方差矩阵,确定波束权值,进而采用波束权值,对第二多通道音频数据进行波束形成处理,得到第一单通道音频数据,实现了采用时频掩码估计得到信道传递函数和干扰噪声协方差矩阵,进而进行波束形成,减小波束形成产生的语音畸变,且无需依赖于麦克风阵列的位置信息,能够获得与同步阵列类似的处理性能,提升了降噪和抗干扰能力。
参照图3,示出了本申请一实施例提供的另一种音频数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤301,获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
步骤302,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
步骤303,生成针对所述第二多通道音频数据的时频掩码;
步骤304,根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
步骤305,对所述第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据;
由于经过波束形成处理后的单通道音频数据可能仍可能存在部分噪声和干扰,则在获得第一单通道音频数据后,可以对第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据,其具体可以采用广义旁瓣相消(GSC,Generalized SidelobeCanceller),通过将干扰噪声时频掩码作为阻塞分支输出,判断是否为目标语音段调节自适应滤波器系数更新,在非语音段更新滤波器,在语音段固定滤波器系数。
步骤306,采用所述第二单通道音频数据,进行音频信号输出。
在获得第二单通道音频数据,可以采用第二单通道音频数据,进行音频信号输出,进而可以实现了对语音信号的增强,降低干扰噪声的影响。
在本申请实施例中,通过对第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据,然后采用第二单通道音频数据,进行音频信号输出,实现了对音频数据的自适应滤波处理,提升了输出语音的纯净性。
参照图4,示出了本申请一实施例提供的另一种音频数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤401,获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
步骤402,获取解混响参数;
在具体实现中,可以获取解混响参数,该解混响参数可以与目标语音数据的语音方差相关,其可以作为用于解混响处理的滤波器的滤波器系数。
步骤403,采用所述解混响参数,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
在获得解混响参数后,可以采用该解混响参数,对第一多通道音频数据进行解混响处理,得到第二多通道音频数据。
步骤404,生成针对所述第二多通道音频数据的时频掩码;
步骤405,根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
步骤406,采对所述第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据;
步骤407,确定当前应用类型;
在具体实现中,为了满足不同的应用需求,如音频通信、语音唤醒和语音识别等应用,可以确定当前应用类型。
步骤408,采用所述当前应用类型对应的单通道降噪策略,对所述第二单通道音频数据进行降噪处理,得到第三单通道音频数据;
在确定当前应用类型后,可以采用当前应用类型对应的单通道降噪策略,对第二单通道音频数据进行降噪处理,得到第三单通道音频数据,如采用log-MMSE(Minimum MeanSquare Error)、IMCRA(Improved Minima Controlled RecursiveAveraging)和OMLSA(Optimally Modified Log-Spectral Amplitude Estimator)等基于信号统计的降噪方案,或者使用DNN、LSTM、TDNN、CNN和TCNN等结构组成的降噪网络。
步骤409,采用所述第三单通道音频数据,进行音频信号输出。
在获得第三单通道音频数据,可以采用第三单通道音频数据,进行音频信号输出,进而可以实现了对语音信号的增强,降低干扰噪声的影响。
在本申请一实施例中,该方法还可以包括如下步骤:
采用所述第一单通道音频数据和/或,所述第二单通道音频数据和/或,所述第三单通道音频数据,迭代更新所述解混响参数。
在具体实现中,由于获得的第一单通道音频数据、第二单通道音频数据、第三单通道音频数据为较为纯净的目标语音,则可以采用第一单通道音频数据或第二单通道音频数据或第三单通道音频数据,迭代更新解混响参数,进而可以得到更加准确的解混响参数,提升解混响效果。
在本申请实施例中,通过确定当前应用类型,采用当前应用类型对应的单通道降噪策略,对第二单通道音频数据进行降噪处理,得到第三单通道音频数据,然后采用第三单通道音频数据,进行音频信号输出,实现了针对不同的应用需求采用不同的降噪策略,使得输出语音能够更加适配应用需求。
而且,通过采用所第一单通道音频数据或第二单通道音频数据或第三单通道音频数据,迭代更新解混响参数,实现了整个系统内部性能上的正反馈,迭代提升系统性能,有效提升解混响效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图5,示出了本申请一实施例提供的一种音频数据处理的装置的结构示意图,具体可以包括如下模块:
第一多通道音频数据获取模块501,用于获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
解混响处理模块502,用于对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
时频掩码生成模块503,用于生成针对所述第二多通道音频数据的时频掩码;
波束形成处理模块504,用于根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
第一音频信号输出模块505,用于采用所述第一单通道音频数据,进行音频信号输出。
在本申请一实施例中,所述波束形成处理模块504包括:
函数和矩阵确定子模块,用于根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵;
波束权值确定子模块,用于采用所述信道传递函数和所述干扰噪声协方差矩阵,确定波束权值;
第一单通道音频数据得到子模块,用于采用所述波束权值,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据。
在本申请一实施例中,所述时频掩码包括目标语音掩码和干扰噪声掩码,所述函数和矩阵确定子模块包括:
目标语音协方差矩阵生成单元,用于采用所述目标语音掩码,生成目标语音协方差矩阵;
信道传递函数得到单元,用于采用所述目标语音协方差矩阵,计算得到信道传递函数;
干扰噪声协方差矩阵得到单元,用于采用所述干扰噪声掩码,计算得到干扰噪声协方差矩阵。
在本申请一实施例中,所述时频掩码生成模块503包括:
第一时频掩码生成子模块,用于生成针对所述第二多通道音频数据中类目标语音数据的第一时频掩码;
根据确定时频掩码子模块,用于根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码。
在本申请一实施例中,所述根据确定时频掩码子模块包括:
类目标语音数据获取单元,用于获取所述第一时频掩码对应的类目标语音数据;
第二时频掩码生成单元,用于结合所述类目标语音数据,生成针对所述第二多通道音频数据中目标语音数据的第二时频掩码;其中,所述类目标语音数据包含所述目标语音数据;
结合确定时频掩码单元,用于结合所述第一视频掩码、所述第二视频掩码,生成针对所述第二多通道音频数据的时频掩码。
在本申请一实施例中,所述第一音频信号输出模块505包括:
自适应滤波处理子模块,用于对所述第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据;
第二音频信号输出子模块,用于采用所述第二单通道音频数据,进行音频信号输出。
在本申请一实施例中,所述第二音频信号输出子模块包括:
当前应用类型确定单元,用于确定当前应用类型;
第三单通道音频数据得到单元,用于采用所述当前应用类型对应的单通道降噪策略,对所述第二单通道音频数据进行降噪处理,得到第三单通道音频数据;
第三音频信号输出单元,用于采用所述第三单通道音频数据,进行音频信号输出。
在本申请一实施例中,所述解混响处理模块502包括:
解混响参数获取子模块,用于获取解混响参数;
第二多通道音频数据得到子模块,用于采用所述解混响参数,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
所述装置还包括:
迭代更新模块,用于采用所述第一单通道音频数据和/或,所述第二单通道音频数据和/或,所述第三单通道音频数据,迭代更新所述解混响参数。
在本申请一实施例中,所述装置还包括:
相关程度确定模块,用于确定所述第一多通道音频数据中音频数据的相关程度;
对齐处理模块,用于按照所述相关程度,对所述第一多通道音频数据中音频数据进行对齐处理。
在本申请实施例中,通过获取第一多通道音频数据,第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成,然后对第一多通道音频数据进行解混响处理,得到第二多通道音频数据,生成针对第二多通道音频数据的时频掩码,采用时频掩码,对第二多通道音频数据进行波束形成处理,得到第一单通道音频数据,采用第一单通道音频数据,进行音频信号输出,实现了对非同步采集的多个麦克风阵列的音频处理,避免了仅能采用同步采集的统一阵列进行音频处理导致的高成本,扩大了拾音范围,提升了鲁棒性,且通过采用时频掩码,在进行音频处理时无需依赖于麦克风阵列的位置信息,提升了降噪和抗干扰能力。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图6是根据一示例性实施例示出的一种用于音频数据处理的电子设备600的框图。例如,电子设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,电子设备600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当电子设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为电子设备600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种音频数据处理的的方法,所述方法包括:
获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
生成针对所述第二多通道音频数据的时频掩码;
根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
采用所述第一单通道音频数据,进行音频信号输出。
可选地,所述根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据的步骤包括:
根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵;
采用所述信道传递函数和所述干扰噪声协方差矩阵,确定波束权值;
采用所述波束权值,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据。
可选地,所述时频掩码包括目标语音掩码和干扰噪声掩码,所述根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵的步骤包括:
采用所述目标语音掩码,生成目标语音协方差矩阵;
采用所述目标语音协方差矩阵,计算得到信道传递函数;
采用所述干扰噪声掩码,计算得到干扰噪声协方差矩阵。
可选地,所述生成针对所述第二多通道音频数据的时频掩码的步骤包括:
生成针对所述第二多通道音频数据中类目标语音数据的第一时频掩码;
根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码。
可选地,所述根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码的步骤包括:
获取所述第一时频掩码对应的类目标语音数据;
结合所述类目标语音数据,生成针对所述第二多通道音频数据中目标语音数据的第二时频掩码;其中,所述类目标语音数据包含所述目标语音数据;
结合所述第一视频掩码、所述第二视频掩码,生成针对所述第二多通道音频数据的时频掩码。
可选地,所述采用所述第一单通道音频数据,进行音频信号输出的步骤包括:
对所述第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据;
采用所述第二单通道音频数据,进行音频信号输出。
可选地,所述采用所述第二单通道音频数据,进行音频信号输出的步骤包括:
确定当前应用类型;
采用所述当前应用类型对应的单通道降噪策略,对所述第二单通道音频数据进行降噪处理,得到第三单通道音频数据;
采用所述第三单通道音频数据,进行音频信号输出。
可选地,所述对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据的步骤包括:
获取解混响参数;
采用所述解混响参数,对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
所述方法还包括:
采用所述第一单通道音频数据和/或,所述第二单通道音频数据和/或,所述第三单通道音频数据,迭代更新所述解混响参数。
可选地,在所述对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据的步骤之前,所述方法还包括:
确定所述第一多通道音频数据中音频数据的相关程度;
按照所述相关程度,对所述第一多通道音频数据中音频数据进行对齐处理。
图7是本申请一实施例示出的一种用于音频数据处理的电子设备700的结构示意图。该电子设备700可以是服务器,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种音频数据处理的方法及装置、电子设备、存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种音频数据处理的方法,其特征在于,所述方法包括:
获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
生成针对所述第二多通道音频数据的时频掩码;
根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
采用所述第一单通道音频数据,进行音频信号输出。
2.根据权利要求1所述的方法,其特征在于,所述根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据的步骤包括:
根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵;
采用所述信道传递函数和所述干扰噪声协方差矩阵,确定波束权值;
采用所述波束权值,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据。
3.根据权利要求2所述的方法,其特征在于,所述时频掩码包括目标语音掩码和干扰噪声掩码,所述根据所述时频掩码,确定信道传递函数和干扰噪声协方差矩阵的步骤包括:
采用所述目标语音掩码,生成目标语音协方差矩阵;
采用所述目标语音协方差矩阵,计算得到信道传递函数;
采用所述干扰噪声掩码,计算得到干扰噪声协方差矩阵。
4.根据权利要求1或2或3所述的方法,其特征在于,所述生成针对所述第二多通道音频数据的时频掩码的步骤包括:
生成针对所述第二多通道音频数据中类目标语音数据的第一时频掩码;
根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一时频掩码,确定针对所述第二多通道音频数据的时频掩码的步骤包括:
获取所述第一时频掩码对应的类目标语音数据;
结合所述类目标语音数据,生成针对所述第二多通道音频数据中目标语音数据的第二时频掩码;其中,所述类目标语音数据包含所述目标语音数据;
结合所述第一视频掩码、所述第二视频掩码,生成针对所述第二多通道音频数据的时频掩码。
6.根据权利要求1所述的方法,其特征在于,所述采用所述第一单通道音频数据,进行音频信号输出的步骤包括:
对所述第一单通道音频数据进行自适应滤波处理,得到第二单通道音频数据;
采用所述第二单通道音频数据,进行音频信号输出。
7.根据权利要求6所述的方法,其特征在于,所述采用所述第二单通道音频数据,进行音频信号输出的步骤包括:
确定当前应用类型;
采用所述当前应用类型对应的单通道降噪策略,对所述第二单通道音频数据进行降噪处理,得到第三单通道音频数据;
采用所述第三单通道音频数据,进行音频信号输出。
8.一种音频数据处理的装置,其特征在于,所述装置包括:
第一多通道音频数据获取模块,用于获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
解混响处理模块,用于对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
时频掩码生成模块,用于生成针对所述第二多通道音频数据的时频掩码;
波束形成处理模块,用于根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
音频信号输出模块,用于采用所述第一单通道音频数据,进行音频信号输出。
9.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一多通道音频数据;其中,所述第一多通道音频数据由一个或多个麦克风阵列采集的音频数据组成;
对所述第一多通道音频数据进行解混响处理,得到第二多通道音频数据;
生成针对所述第二多通道音频数据的时频掩码;
根据所述时频掩码,对所述第二多通道音频数据进行波束形成处理,得到第一单通道音频数据;
采用所述第一单通道音频数据,进行音频信号输出。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-7任一所述的音频数据处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911207689.4A CN110970046B (zh) | 2019-11-29 | 2019-11-29 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
PCT/CN2020/110038 WO2021103672A1 (zh) | 2019-11-29 | 2020-08-19 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911207689.4A CN110970046B (zh) | 2019-11-29 | 2019-11-29 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110970046A true CN110970046A (zh) | 2020-04-07 |
CN110970046B CN110970046B (zh) | 2022-03-11 |
Family
ID=70032376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911207689.4A Active CN110970046B (zh) | 2019-11-29 | 2019-11-29 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110970046B (zh) |
WO (1) | WO2021103672A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420073A (zh) * | 2020-10-12 | 2021-02-26 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
WO2021103672A1 (zh) * | 2019-11-29 | 2021-06-03 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN113270097A (zh) * | 2021-05-18 | 2021-08-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113643714A (zh) * | 2021-10-14 | 2021-11-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频处理方法、装置、存储介质及计算机程序 |
CN113644947A (zh) * | 2021-10-14 | 2021-11-12 | 西南交通大学 | 一种自适应波束形成方法、装置、设备及可读存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689870A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
CN114898767B (zh) * | 2022-04-15 | 2023-08-15 | 中国电子科技集团公司第十研究所 | 基于U-Net的机载语音噪音分离方法、设备及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN204117590U (zh) * | 2014-09-24 | 2015-01-21 | 广东外语外贸大学 | 语音采集降噪装置以及语音质量评价系统 |
CN105244036A (zh) * | 2014-06-27 | 2016-01-13 | 中兴通讯股份有限公司 | 一种麦克风语音增强方法及装置 |
US20160019904A1 (en) * | 2014-07-17 | 2016-01-21 | Ford Global Technologies, Llc | Adaptive Vehicle State-Based Hands-Free Phone Noise Reduction With Learning Capability |
CN105788607A (zh) * | 2016-05-20 | 2016-07-20 | 中国科学技术大学 | 应用于双麦克风阵列的语音增强方法 |
CN106448722A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 录音方法、装置和系统 |
CN107316649A (zh) * | 2017-05-15 | 2017-11-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
CN108806707A (zh) * | 2018-06-11 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
US10192566B1 (en) * | 2018-01-17 | 2019-01-29 | Sorenson Ip Holdings, Llc | Noise reduction in an audio system |
WO2019049276A1 (ja) * | 2017-09-07 | 2019-03-14 | 三菱電機株式会社 | 雑音除去装置および雑音除去方法 |
CN109817236A (zh) * | 2019-02-01 | 2019-05-28 | 安克创新科技股份有限公司 | 基于场景的音频降噪方法、装置、电子设备和存储介质 |
CN110503971A (zh) * | 2018-05-18 | 2019-11-26 | 英特尔公司 | 用于语音处理的基于神经网络的时频掩模估计和波束形成 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9640179B1 (en) * | 2013-06-27 | 2017-05-02 | Amazon Technologies, Inc. | Tailoring beamforming techniques to environments |
CN108335701B (zh) * | 2018-01-24 | 2021-04-13 | 青岛海信移动通信技术股份有限公司 | 一种进行声音降噪的方法及设备 |
CN109166590B (zh) * | 2018-08-21 | 2020-06-30 | 江西理工大学 | 一种基于空域相关性的二维时频掩模估计建模方法 |
CN110970046B (zh) * | 2019-11-29 | 2022-03-11 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
-
2019
- 2019-11-29 CN CN201911207689.4A patent/CN110970046B/zh active Active
-
2020
- 2020-08-19 WO PCT/CN2020/110038 patent/WO2021103672A1/zh active Application Filing
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105244036A (zh) * | 2014-06-27 | 2016-01-13 | 中兴通讯股份有限公司 | 一种麦克风语音增强方法及装置 |
US20160019904A1 (en) * | 2014-07-17 | 2016-01-21 | Ford Global Technologies, Llc | Adaptive Vehicle State-Based Hands-Free Phone Noise Reduction With Learning Capability |
CN204117590U (zh) * | 2014-09-24 | 2015-01-21 | 广东外语外贸大学 | 语音采集降噪装置以及语音质量评价系统 |
CN105788607A (zh) * | 2016-05-20 | 2016-07-20 | 中国科学技术大学 | 应用于双麦克风阵列的语音增强方法 |
CN106448722A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 录音方法、装置和系统 |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
CN107316649A (zh) * | 2017-05-15 | 2017-11-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
WO2019049276A1 (ja) * | 2017-09-07 | 2019-03-14 | 三菱電機株式会社 | 雑音除去装置および雑音除去方法 |
US10192566B1 (en) * | 2018-01-17 | 2019-01-29 | Sorenson Ip Holdings, Llc | Noise reduction in an audio system |
CN110503971A (zh) * | 2018-05-18 | 2019-11-26 | 英特尔公司 | 用于语音处理的基于神经网络的时频掩模估计和波束形成 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN108806707A (zh) * | 2018-06-11 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
CN109817236A (zh) * | 2019-02-01 | 2019-05-28 | 安克创新科技股份有限公司 | 基于场景的音频降噪方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
DIANNA YEE: "A speech enhancement system using binaural hearing aids and an external microphone", 《2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
胡勇: "麦克风阵列语音增强算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021103672A1 (zh) * | 2019-11-29 | 2021-06-03 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN112420073A (zh) * | 2020-10-12 | 2021-02-26 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN112420073B (zh) * | 2020-10-12 | 2024-04-16 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN113270097A (zh) * | 2021-05-18 | 2021-08-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113270097B (zh) * | 2021-05-18 | 2022-05-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113643714A (zh) * | 2021-10-14 | 2021-11-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频处理方法、装置、存储介质及计算机程序 |
CN113644947A (zh) * | 2021-10-14 | 2021-11-12 | 西南交通大学 | 一种自适应波束形成方法、装置、设备及可读存储介质 |
CN113643714B (zh) * | 2021-10-14 | 2022-02-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频处理方法、装置、存储介质及计算机程序 |
Also Published As
Publication number | Publication date |
---|---|
CN110970046B (zh) | 2022-03-11 |
WO2021103672A1 (zh) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110970046B (zh) | 一种音频数据处理的方法及装置、电子设备、存储介质 | |
CN108510987B (zh) | 语音处理方法及装置 | |
US11284190B2 (en) | Method and device for processing audio signal with frequency-domain estimation, and non-transitory computer-readable storage medium | |
KR102497549B1 (ko) | 오디오 신호 처리 방법 및 장치, 저장 매체 | |
EP3657497B1 (en) | Method and device for selecting target beam data from a plurality of beams | |
US11206483B2 (en) | Audio signal processing method and device, terminal and storage medium | |
CN111128221A (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN111179960B (zh) | 音频信号处理方法及装置、存储介质 | |
CN111429933B (zh) | 音频信号的处理方法及装置、存储介质 | |
CN110634488B (zh) | 信息处理方法、装置和系统以及存储介质 | |
CN114363770A (zh) | 通透模式下的滤波方法、装置、耳机以及可读存储介质 | |
CN113506582A (zh) | 声音信号识别方法、装置及系统 | |
CN112447184A (zh) | 语音信号处理方法及装置、电子设备、存储介质 | |
US20230206937A1 (en) | Speech processing method and apparatus and apparatus for speech processing | |
US11682412B2 (en) | Information processing method, electronic equipment, and storage medium | |
CN113489854B (zh) | 声音处理方法、装置、电子设备和存储介质 | |
CN113223553B (zh) | 分离语音信号的方法、装置及介质 | |
CN110580910A (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
CN113488066A (zh) | 音频信号处理方法、音频信号处理装置及存储介质 | |
CN112863537A (zh) | 一种音频信号处理方法、装置及存储介质 | |
EP4113515A1 (en) | Sound processing method, electronic device and storage medium | |
CN113362848B (zh) | 音频信号处理方法、装置及存储介质 | |
CN112785997B (zh) | 一种噪声估计方法、装置、电子设备和可读存储介质 | |
CN113223543B (zh) | 语音增强方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |