CN111009259A - 一种音频处理方法和装置 - Google Patents

一种音频处理方法和装置 Download PDF

Info

Publication number
CN111009259A
CN111009259A CN201811167458.0A CN201811167458A CN111009259A CN 111009259 A CN111009259 A CN 111009259A CN 201811167458 A CN201811167458 A CN 201811167458A CN 111009259 A CN111009259 A CN 111009259A
Authority
CN
China
Prior art keywords
audio
acquisition equipment
omnidirectional
average value
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811167458.0A
Other languages
English (en)
Other versions
CN111009259B (zh
Inventor
李冬
龙德平
柯常志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Haikang Huiying Technology Co ltd
Original Assignee
Hangzhou Haikang Huiying Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Haikang Huiying Technology Co ltd filed Critical Hangzhou Haikang Huiying Technology Co ltd
Priority to CN201811167458.0A priority Critical patent/CN111009259B/zh
Publication of CN111009259A publication Critical patent/CN111009259A/zh
Application granted granted Critical
Publication of CN111009259B publication Critical patent/CN111009259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种音频处理方法和装置,其中方法包括:利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。采用本发明,可以提高语音互动场景下的声音采集质量。

Description

一种音频处理方法和装置
技术领域
本发明涉及声音采集技术,特别是涉及一种音频处理方法和装置。
背景技术
现有的声音采集方案中,在多媒体教室教学场景下,通过多麦克风阵列完成授课时环境音的获取,通过无线定向麦克风完成授课时老师的声音获取,之后经过降噪和多路音频均衡模块以及混音模块,把老师的声音与环境音合成一路并输出。
上述现有的声音采集方案中,通过音频均衡之后进行混音,可以一定程度上保证老师的声音清晰。但是,实际教学场景中,会存在老师和学生之间的语音互动,此时,不仅定向采集的老师声音属于重要声音,全向采集的环境音中的学生声音也很重要,需要具有一定的清晰度。
本发明人通过研究分析发现:对于环境中存在的重要人声并伴随单调噪声的场景,上述方案由于仅是在混音前做了简单地音频均衡,对环境音中的重要人声并不进行有针对性的处理,因此,无法确保环境中重要人声的清晰度。
由此可见,采用现有的声音采集方案,无法确保语音互动场景下重要声音的清晰度,进而无法满足语音互动场景下的声音采集质量。
发明内容
有鉴于此,本发明的主要目的在于提供一种音频处理方法和装置,可以提高语音互动场景下的声音采集质量。
为了达到上述目的,本发明实施例提出的技术方案为:
一种音频处理方法,包括:
利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;
对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
较佳地,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
较佳地,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;
在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;
根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;
利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;
在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,所述根据所述能量平均值,对所述有效音频进行增益自适应处理包括:
当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;
当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
较佳地,所述分离出有效音频包括:
对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;
从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;
采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;
基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;
利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
较佳地,所述神经网络模型为卷积神经网络模型。
一种音频处理装置,包括:
自适应调节模块,用于利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;
混音模块,用于对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
较佳地,所述自适应调节模块,用于利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
较佳地,所述自适应调节模块,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,所述自适应调节模块,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,其特征在于,所述自适应调节模块,用于当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
较佳地,所述自适应调节模块,用于对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
较佳地,所述神经网络模型为卷积神经网络模型。
一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上述音频处理方法的步骤。
一种电子设备,包括如上述非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
综上所述,本发明实施例提出的音频处理方案,在进行混音处理前,通过利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节,既可以对环境音中的噪音进行过滤,又可以对环境音中的有效音频进行自适应调节,从而可以增强语音互动环境中重要声音的清晰度,因此可以提高语音互动场景下的声音采集质量,使得混音之后的音频清晰有效,也使得互动环境真实有效。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的一种应用场景示意图;
图3为图1中步骤101的一种实现方式的流程示意图;
图4为图1中步骤101的另一种实现方式的流程示意图;
图5为本发明实施例的装置结构示意图。
具体实施方式
为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,在各图中相同的标号表示相同的部分。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。
为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。
在本文中,“第一”、“第二”等仅用于彼此的区分,而非表示重要程度及顺序、以及互为存在的前提等。
图1为本发明实施例的音频处理方法流程示意图,如图1所示,在一个实施例中,音频处理方法的过程主要包括:
步骤101、利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节。
在实际应用,定向音频采集设备具体可以为定向麦克风,全向音频采集设备具体可以为全向拾音器,但不限于此。
本步骤中与现有技术不同之处在于,需要利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节,这样,既可以过滤掉环境音中的噪音,又可以对环境音中的有效音频进行自适应调节,从而可以增强语音互动环境中有效音频的清晰度。
较佳地,可以利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
在实际应用中,并限于基于音频的能量平均值进行所述自适应增益调节,本领域技术人员还可以考虑基于其他的音频参数指标进行所述自适应增益调节,例如,音频的幅度平均值,在此不再赘述。
在实际场景中可能会同时存在功放和拾音器,这样,功放播出的声音会被拾音器采集,使得整个音频回路中出现回声。此场景下需要先对这种回声进行去除,即消除回声。如图2所示的语音交互场景,两台主机分别位于示教室1与示教室2,并通过以太网实现两端的语音传输,实现互动。在示教室1中,定向麦克风主要采集主讲老师的音频信息,全向拾音器主要采集示教室1内的环境音频。在示教室2中,定向麦克风主要采集某位学生的相关音频信息,全向拾音器主要采集示教室2内的环境音频。该场景下,示教室2中采集的音频会在示教室1的功放中播放,这样,在示教室1中会产生回声需要进行消除。
基于此,接下来将分别针对需要进行回声消除场景和不需要进行回声消除场景,对步骤101的具体实现进行说明:
在不需要进行回声消除场景下,较佳地,如图3所示,步骤101可以采用下述方法实现:
步骤101a1、将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频。
本步骤中,考虑到相对于双声道音频,基于单声道音频的处理更为简单些,因此,这里需要先分别将每个音频采集设备输出的音频转换为单声道音频。具体地双声道音频转换为单声道音频的方法为本领域技术人员所掌握,在此不再赘述。
步骤101a2、在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频。
本步骤中将从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频,以便在后续步骤中进一步基于分离出的有效音频进行相应的增益自适处理。
需要说明的是,语音分离技术主要分为基于多通道的语音分离和基于单通道的语音分离。多通道的语音分离,主要通过多麦克阵列来获取音源的相互关系,并以此来估计目标的空域信息,常用的方法有波束形成法以及独立成分分析法。单通道的语音分离,主要通过目标语音以及干扰信号的声学和统计特性,从混合的音源中提取出目标语音。相对多通道的方法,单通道的语音分离由于缺少空域信息,导致处理过程相对复杂,难度也较大。但是,人脑可以很轻松地在单通道的录音中区分出噪声与有效音源,这说明空域信息并非语音分离的必要条件,利用时域与频域两方面的信息,就可以较好的完成语音分离。基于这个背景,本发明实施例中将基于神经网络模型进行有效音频的分离。较佳地,步骤101a2中可以采用下述方法,基于神经网络模型进行上述有效音频的分离:
步骤x1、对于当前滑动窗口对应的全向音频采集设备的单声道音频,进行耳蜗滤波处理。
步骤x2、从经过所述耳蜗滤波处理后的音频中,提取出时域特征。
所述时域特征包括梅尔倒谱系数(MFCC)、感知线性预测系数(PLP)以及幅度调制谱。
上述特征的提取可采用下述方法实现:
首先,对输入的音频信号进行时域信号到频域的变换(例如,采用FFT快速傅里叶变换),得到相关的频谱图。
对于MFCC的获取,首先通过对获取的频谱图进行梅尔滤波生成梅尔频谱,之后,对梅尔频谱进行倒谱分析(取对数并进行DCT变换),从而将输入音频分解为噪音分量与声道信息分量,最终通过分析声道信息分量来获得MFCC。
对于PLP的提取,首先通过对获取的频谱图进行临界带分析,其中临界带分析主要进行频域信号到Bark域的转换,之后通过人耳模型进行能量的调整,最后,结合全极点模型,输出PLP特征参数。
步骤x3、采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数。
本步骤的具体实现为本领域技术人员所掌握,在此不再赘述。
步骤x4、基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM。
步骤x5、利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
本步骤中,波形重构的具体方法为本领域技术人员所掌握,在此不再赘述。
在上述方法中,通过利用神经网络模型进行有效音频的分离,既可以对环境音中的噪音进行有效过滤,又可以增强环境音中的有效音频的清晰度。
较佳地,所述神经网络模型可以为卷积神经网络模型。
步骤101a3、根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,本步骤中可以采用下述方法对所述有效音频进行增益自适应处理:
当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理。
当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
这里,当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,说明定向音频采集设备中采集到了有效的目标音频,此时,应以定向音频采集设备输出的声音为主,因此,如果此时全向音频采集设备采集的音频能量较大时,即定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值较小时,需要对全向音频采集设备中的有效音频进行抑制处理,以突出定向音频采集设备输出的音频,增强了定向采集的音频在之后混音后的清晰度。
而当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,说明定向音频采集设备中没有有效的目标音频输出,此时,需要对全向音频采集设备中的有效音频进行抑制或增强处理,以使得混音后,环境音中的有效音频得到突出,且强度在人耳可接受范围内,即不能过大也不能太小。
上述能量阈值、比例阈值、最大能量阈值以及最大能量阈值,具体可由本领域技术人员根据实际需要预先设置合适取值。
在需要进行回声消除场景下,较佳地,如图4所示步骤101可以采用下述方法实现:
步骤101b1、将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频。
步骤101b2、利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除。
步骤101b3、在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频。
较佳地,步骤101b3中可以采用下述方法进行有效音频的分离:
步骤y1、对于当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理。
步骤y2、从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱。
本步骤的具体实现同步骤x2,在此不再赘述。
步骤y3、采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数。
较佳地,所述神经网络模型可以为卷积神经网络模型。
步骤y4、基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM。
步骤y5、利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
本步骤的具体实现同步骤x5,在此不再赘述。
步骤101b4、根据所述能量平均值,对所述有效音频进行增益自适应处理。
本步骤的具体实现同步骤101a3,即较佳地可以采用下述方法对所述有效音频进行增益自适应处理:
当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;
当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
步骤102、对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
通过上述方法实施例可以看出,经过上述方法处理之后的输出音频,既可以凸显出定向音频采集设备的主音声音,又去除了全向音频采集设备中的环境噪声,使得混音之后的音频,清晰有效,也使得互动环境,真实有效。
图5为与上述方法实施例相对应的一种音频处理装置实施例的结构示意图,如图5所示,该装置包括:
自适应调节模块501,用于利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节。
混音模块502,用于对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
较佳地,所述自适应调节模块501,用于利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
在实际应用中,并限于基于音频的能量平均值进行所述自适应增益调节,本领域技术人员还可以考虑基于其他的音频参数指标进行所述自适应增益调节,例如,音频的幅度平均值,在此不再赘述。
较佳地,自适应调节模块501,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,自适应调节模块501,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,自适应调节模块501,用于当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
较佳地,自适应调节模块501,用于对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上述音频处理方法实施例的步骤。
一种电子设备,包括如上述非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种音频处理方法,其特征在于,包括:
利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;
对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
2.根据权利要求1所述的方法,其特征在于,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
3.根据权利要求2所述的方法,其特征在于,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;
在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;
根据所述能量平均值,对所述有效音频进行增益自适应处理。
4.根据权利要求2所述的方法,其特征在于,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;
利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;
在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述能量平均值,对所述有效音频进行增益自适应处理包括:
当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;
当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
6.根据权利要求3或4所述的方法,其特征在于,所述分离出有效音频包括:
对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;
从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;
采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;
基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;
利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
7.根据权利要求3或4所述的方法,其特征在于,所述神经网络模型为卷积神经网络模型。
8.一种音频处理装置,其特征在于,包括:
自适应调节模块,用于利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;
混音模块,用于对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
9.根据权利要求8所述的装置,其特征在于,所述自适应调节模块,用于利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
10.根据权利要求9所述的装置,其特征在于,所述自适应调节模块,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
11.根据权利要求9所述的装置,其特征在于,所述自适应调节模块,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
12.根据权利要求10或11所述的装置,其特征在于,所述自适应调节模块,用于当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
13.根据权利要求10或11所述的装置,所述自适应调节模块,用于对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
14.根据权利要求10或11所述的装置,其特征在于,所述神经网络模型为卷积神经网络模型。
CN201811167458.0A 2018-10-08 2018-10-08 一种音频处理方法和装置 Active CN111009259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811167458.0A CN111009259B (zh) 2018-10-08 2018-10-08 一种音频处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811167458.0A CN111009259B (zh) 2018-10-08 2018-10-08 一种音频处理方法和装置

Publications (2)

Publication Number Publication Date
CN111009259A true CN111009259A (zh) 2020-04-14
CN111009259B CN111009259B (zh) 2022-09-16

Family

ID=70111118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811167458.0A Active CN111009259B (zh) 2018-10-08 2018-10-08 一种音频处理方法和装置

Country Status (1)

Country Link
CN (1) CN111009259B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420151A (zh) * 2022-01-21 2022-04-29 陕西师范大学 基于并联张量分解卷积神经网络的语音情感识别方法
CN114553845A (zh) * 2020-11-26 2022-05-27 上海博泰悦臻网络技术服务有限公司 社交互动的定向交流方法、介质、服务端及交流系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060135085A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone with uni-directional and omni-directional microphones
US20070165879A1 (en) * 2006-01-13 2007-07-19 Vimicro Corporation Dual Microphone System and Method for Enhancing Voice Quality
EP1830348A1 (en) * 2006-03-01 2007-09-05 Harman/Becker Automotive Systems GmbH Hands-free system for speech signal acquisition
WO2010009414A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Systems, methods, apparatus and computer program products for enhanced intelligibility
CN102543097A (zh) * 2012-01-16 2012-07-04 华为终端有限公司 降噪方法及设备
US20130136266A1 (en) * 2011-11-30 2013-05-30 David McClain System for Dynamic Spectral Correction of Audio Signals to Compensate for Ambient Noise
CN103797816A (zh) * 2011-07-14 2014-05-14 峰力公司 语音增强系统和方法
US20180062597A1 (en) * 2016-08-24 2018-03-01 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
CN108028050A (zh) * 2015-09-18 2018-05-11 高通股份有限公司 协同音频处理
CN108140398A (zh) * 2015-10-06 2018-06-08 微软技术许可有限责任公司 基于多个音频馈源来标识来自兴趣源的声音

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060135085A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone with uni-directional and omni-directional microphones
US20070165879A1 (en) * 2006-01-13 2007-07-19 Vimicro Corporation Dual Microphone System and Method for Enhancing Voice Quality
EP1830348A1 (en) * 2006-03-01 2007-09-05 Harman/Becker Automotive Systems GmbH Hands-free system for speech signal acquisition
WO2010009414A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Systems, methods, apparatus and computer program products for enhanced intelligibility
CN103797816A (zh) * 2011-07-14 2014-05-14 峰力公司 语音增强系统和方法
US20130136266A1 (en) * 2011-11-30 2013-05-30 David McClain System for Dynamic Spectral Correction of Audio Signals to Compensate for Ambient Noise
CN102543097A (zh) * 2012-01-16 2012-07-04 华为终端有限公司 降噪方法及设备
CN108028050A (zh) * 2015-09-18 2018-05-11 高通股份有限公司 协同音频处理
CN108140398A (zh) * 2015-10-06 2018-06-08 微软技术许可有限责任公司 基于多个音频馈源来标识来自兴趣源的声音
US20180062597A1 (en) * 2016-08-24 2018-03-01 Fujitsu Limited Gain adjustment apparatus and gain adjustment method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHARON GANNOT 等: "A Consolidated Perspective on Multimicrophone Speech Enhancement and Source Separation", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
曹亮等: "基于听觉掩蔽效应的多频带谱减语音增强方法", 《计算机工程与设计》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553845A (zh) * 2020-11-26 2022-05-27 上海博泰悦臻网络技术服务有限公司 社交互动的定向交流方法、介质、服务端及交流系统
CN114420151A (zh) * 2022-01-21 2022-04-29 陕西师范大学 基于并联张量分解卷积神经网络的语音情感识别方法
CN114420151B (zh) * 2022-01-21 2024-05-31 陕西师范大学 基于并联张量分解卷积神经网络的语音情感识别方法

Also Published As

Publication number Publication date
CN111009259B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
US11043210B2 (en) Sound processing apparatus utilizing an electroencephalography (EEG) signal
US10455325B2 (en) Direction of arrival estimation for multiple audio content streams
US20190206417A1 (en) Content-based audio stream separation
CN112820315B (zh) 音频信号处理方法、装置、计算机设备及存储介质
CN111128214A (zh) 音频降噪方法、装置、电子设备及介质
CN110858476B (zh) 一种基于麦克风阵列的声音采集方法及装置
US20220059114A1 (en) Method and apparatus for determining a deep filter
Jangjit et al. A new wavelet denoising method for noise threshold
CN113012710A (zh) 一种音频降噪方法及存储介质
CN111009259B (zh) 一种音频处理方法和装置
Lim et al. Harmonic and percussive source separation using a convolutional auto encoder
Hosseini et al. Speaker-independent brain enhanced speech denoising
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
Waghmare et al. Development of isolated marathi words emotional speech database
Li et al. Speech enhancement algorithm based on sound source localization and scene matching for binaural digital hearing aids
CN116959468A (zh) 一种基于dcctn网络模型的语音增强方法、系统及设备
Manamperi et al. Drone audition: Audio signal enhancement from drone embedded microphones using multichannel Wiener filtering and Gaussian-mixture based post-filtering
Chen et al. CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application
CN114333874B (zh) 处理音频信号的方法
Zhang et al. A speech separation algorithm based on the comb-filter effect
Bavkar et al. PCA based single channel speech enhancement method for highly noisy environment
Hussain et al. A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies
Chun et al. Comparison of cnn-based speech dereverberation using neural vocoder
CN108257607B (zh) 一种多通道语音信号处理方法
Zhang et al. A Beam-TFDPRNN Based Speech Separation Method in Reverberant Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant