CN112951263B - 语音增强方法、装置、设备和存储介质 - Google Patents

语音增强方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112951263B
CN112951263B CN202110287956.4A CN202110287956A CN112951263B CN 112951263 B CN112951263 B CN 112951263B CN 202110287956 A CN202110287956 A CN 202110287956A CN 112951263 B CN112951263 B CN 112951263B
Authority
CN
China
Prior art keywords
channel
signal
frequency
voice data
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110287956.4A
Other languages
English (en)
Other versions
CN112951263A (zh
Inventor
关海欣
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Shenzhen Yunzhisheng Information Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Shenzhen Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Shenzhen Yunzhisheng Information Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202110287956.4A priority Critical patent/CN112951263B/zh
Publication of CN112951263A publication Critical patent/CN112951263A/zh
Application granted granted Critical
Publication of CN112951263B publication Critical patent/CN112951263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种语音增强方法、装置、设备和存储介质,方法包括对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号,根据每个通道的频域信号的相位进行信号规整,得到每个通道的仅与麦克风阵列拓扑结构相关联的规整信号后,利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练CGMM进行训练,得到目标CGMM,并使用目标CGMM,确定语音数据的时频掩膜信息,实现了所有通道的频域信号的统一建模,降低了计算量、内存占用量较小,进而降低了资源消耗,避免了因此存在多个CGMM时造成的排序问题,从而提高了得到的掩膜信息准确度,提高语音增强的结果的可靠性。

Description

语音增强方法、装置、设备和存储介质
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音增强方法、装置、设备和存储介质。
背景技术
目前,语音增强技术是语音信号处理必不可少的部分,能够提高音频信号的信噪比,使得语音增强时更少的被噪声影响。波束形成方法是语音增强技术中,多通道信号增强领域最具效果的方法。
通常情况下,大多通过复高斯混合模型(Complex Gaussian Mixture Model,CGMM)得到时频点的掩膜信息,计算语音协方差矩阵和噪声协方差矩阵后,再利用最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)进行语音增强。
但通过CGMM得到时频点的掩膜信息面临两个问题:
第一、各个频带独立建模,则存在排序问题,即在每个频带使用CGMM方法聚类得到多个类别的掩膜信息时,各掩膜信息所对应的类别是不确定的。例如,第3个频带聚类了两类A3、B3,第5个频带也聚了两类A5、B5,那么最理想情况是A3与A5是一类,但由于每个频带完全独立建模,没有顺序,所以结果往往不一定,可能A3与B5是一类,导致得到的掩膜信息不准确,语音增强的结果的可靠性较差。
其二,每个频带独立建模,则需要建立/存储数百个模型,计算量大、内存占用大,即资源消耗大。
因此,如何降低建模时的资源消耗,提高语音增强的结果的可靠性是本领域技术人员亟待解决的技术问题。
发明内容
本发明提供一种语音增强方法、装置、设备和存储介质,以解决现有技术中语音增强的结果可靠性较差,资源消耗大的技术问题。
本发明解决上述技术问题的技术方案如下:
一种语音增强方法,包括:
对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号;
根据每个通道的频域信号的相位进行信号规整,得到每个通道的规整信号;其中,所述规整信号为仅与麦克风阵列拓扑结构相关联的信号;
利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练复高斯混合模型进行训练,得到训练后的目标复高斯混合模型;
利用所述目标复高斯混合模型,确定所述语音数据的时频掩膜信息;
利用所述语音数据的时频掩膜信息,对所述语音数据进行波束增强,得到增强语音数据。
进一步地,上述所述的语音增强方法中,根据每个通道的频域信号的相位进行信号规整,得到每个通道的规整信号,包括:
根据选取的参考通道的音频信号的相位,对每个通道的音频信号进行频率移除,得到每个通道的频率移除信号;
对每个通道的频率移除信号进行幅值移除,得到每个通道的幅值移除信号作为所述每个通道的规整信号。
进一步地,上述所述的语音增强方法中,根据选取的参考通道的音频信号的相位,对每个通道的音频信号进行频率移除,得到每个通道的频率移除信号,包括:
计算每个通道的音频信号与参考通道音频信号的相位差;
对计算的每个相位差进行规制,得到每个规制相位差;
将每个规制相位差与对应音频信号的模相乘,得到每个通道的频率移除信号。
进一步地,上述所述的语音增强方法中,利用所述语音数据的时频掩膜信息,对所述语音数据进行波束增强,得到增强语音数据,包括:
根据语音数据的时频掩膜信息,计算语音协方差矩阵和噪声协方差矩阵;
根据语音协方差矩阵和噪声协方差矩阵,确定波束形成器的最优权值;
通过波束形成器实现MVDR最小方差无失真响应波束形成算法,对所述语音数据进行波束增强,得到所述增强语音数据。
本发明还提供一种语音增强装置,包括:
转换模块,用于对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号;
规整模块,用于根据每个通道的频域信号的相位进行信号规整,得到每个通道的规整信号;其中,所述规整信号为仅与麦克风阵列拓扑结构相关联的信号;
训练模块,用于利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练复高斯混合CGMM模型进行训练,得到训练后的目标CGMM模型;
确定模块,用于利用所述目标CGMM模型,确定所述语音数据的时频掩膜信息;
增强模块,用于利用所述语音数据的时频掩膜信息,对所述语音数据进行波束增强,得到增强语音数据。
进一步地,上述所述的语音增强装置中,所述规整模块,具体用于:
根据选取的参考通道的音频信号的相位,对每个通道的音频信号进行频率移除,得到每个通道的频率移除信号;
对每个通道的频率移除信号进行幅值移除,得到每个通道的幅值移除信号作为所述每个通道的规整信号。
进一步地,上述所述的语音增强装置中,所述规整模块还用于:
计算每个通道的音频信号与参考通道音频信号的相位的相位差;
对计算的每个相位差进行规制,得到每个规制相位差;
将每个规制相位差与对应音频信号的模相乘,得到每个通道的频率移除信号。
进一步地,上述所述的语音增强装置中,所述增强模块,具体用于:
根据语音数据的时频掩膜信息,计算语音协方差矩阵和噪声协方差矩阵;
根据语音协方差矩阵和噪声协方差矩阵,确定波束形成器的最优权值;
通过波束形成器实现MVDR最小方差无失真响应波束形成算法,对所述语音数据进行波束增强,得到所述增强语音数据。
本发明还提供一种语音增强设备,包括:处理器和存储器;
所述处理器用于执行所述存储器中存储的应用程序,以实现上述任一项所述的语音增强方法。
本发明还提供一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被执行时实现上述任一项所述的语音增强方法。
本发明的有益效果是:
通过对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号,并根据每个通道的频域信号的相位进行信号规整,得到每个通道的仅与麦克风阵列拓扑结构相关联的规整信号后,利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练CGMM进行训练,得到训练后的目标CGMM,实现了所有通道的频域信号的统一建模,降低了计算量、内存占用量较小,进而降低了资源消耗。并利用所有通道的频域信号的统一建模得到的目标CGMM,确定语音数据的时频掩膜信息,避免了因此存在多个CGMM时造成的排序问题,从而提高了得到的掩膜信息准确度,提高语音增强的结果的可靠性。
附图说明
图1为本发明的语音增强方法实施例的流程图;
图2为本发明的语音增强装置实施例的结构示意图;
图3为本发明的语音增强设备的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明的语音增强方法实施例的流程图,如图1所示,本实施例的语音增强方法具体可以包括如下步骤:
100、对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号;
在一个具体实现过程中,可以对获取的语音数据中每个通道的音频信号进行分帧、加窗处理,并进一步经短时傅里叶变换(Short-Time Fourier Transform,STFT)转换,得到每个通道的频域信号。
101、根据每个通道的频域信号的相位进行信号规整,得到每个通道的规整信号;
在实际应用中,由于每个通道的频率不同,观测的各个通道的方向矢量虽然方向一致,但各个通道的音频信号并不具有一致性,所以每个通道的频域信号无法放在一起建模,因此,为了解决上述技术问题,本实施例中,可以根据每个通道的频域信号的相位进行信号规整,以使得到的每个通道的规整信号仅与麦克风阵列拓扑结构相关联,即每个通道的规整信号仅与麦克风阵列传输路径有关,使得每个通道的频域信号能够放在一起进行建模。
具体地,该步骤可以按照如下方式实现:
(1)根据选取的参考通道的音频信号的相位,对每个通道的音频信号进行频率移除,得到每个通道的频率移除信号;
在一个具体实现过程中,可以计算每个通道的音频信号与参考通道音频信号的相位差;对计算的每个相位差进行规制,得到每个规制相位差;将每个规制相位差与对应音频信号的模相乘,得到每个通道的频率移除信号。
具体地,可以按照计算式(1)对每个通道的音频信号进行频率移除。
Figure BDA0002981269680000061
其中,J表示参考通道;j表示第j通道,j=(1、2....j);
Figure BDA0002981269680000062
表示频率移除信号;f表示频率;τ表示时间;|xj(f,τ)|表示音频信号的模,arg表示取相位角运算,arg[xj(f,τ)/xJ(f,τ)]表示每个通道的音频信号与参考通道音频信号的相位差;dmax阵元最大间距;c表示声音在空气中传播速度;w表示角速度。
有上述计算式(1)可知,本实施例中经过计算后,f被消除,使得每个通道的音频信号不再与频率相关。
(2)对每个通道的频率移除信号进行幅值移除,得到每个通道的幅值移除信号作为所述每个通道的规整信号。
在一个具体实现过程中,在得到每个通道的频率移除信号后,可以进一步对每个通道的频率移除信号进行幅值移除,以便消除能量干扰,从而得到每个通道的幅值移除信号作为每个通道的规整信号。
经上述处理后,即可使得到的每个通道的规整信号仅与麦克风阵列拓扑结构相关联,即每个通道的规整信号仅与麦克风阵列传输路径有关,使得每个通道的频域信号能够放在一起进行建模。
102、利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练CGMM进行训练,得到训练后的目标CGMM;
在一个具体实现过程中,可以根据预设长度从语音数据中选取对应的样本数据,并利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练CGMM进行训练,得到训练后的目标CGMM。
具体地,初始化步骤:可以从预设长度的样本数据中抽取第一块数据T1和第二块数据T2,两块数据的长度分别小于预设长度,数据帧数不低于通道数目的5倍,比如4mic,通常我们使用20帧以上数据用于初始化。利用两块数据对待训练CGMM进行初始化。其中,对于离线处理任务,抽取数据快可以在整段数据随机抽取,对于在线处理任务,通常选取前面数据快初始化。
迭代训练步骤:经过对待训练CGMM进行初始化后,即可基于设定迭代算法及设定迭代次数,利用选取的样本数据迭代CGMM模型的参数,最终得到训练后的目标CGMM。
103、利用目标CGMM,确定语音数据的时频掩膜信息;
在得到目标CGMM后,可以将每个可用的语音数据中每个通道的规整信号输入目标CGMM,以确定语音数据的时频掩膜信息。
104、利用语音数据的时频掩膜信息,对语音数据进行波束增强,得到增强语音数据。
在一个具体实现过程中,可以根据语音数据的时频掩膜信息,计算语音协方差矩阵和噪声协方差矩阵;根据语音协方差矩阵和噪声协方差矩阵,确定波束形成器的最优权值;通过波束形成器实现MVDR最小方差无失真响应波束形成算法,对语音数据进行波束增强,得到增强语音数据。
本实施例的语音增强方法,通过对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号,并根据每个通道的频域信号的相位进行信号规整,得到每个通道的仅与麦克风阵列拓扑结构相关联的规整信号后,利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练CGMM进行训练,得到训练后的目标CGMM,实现了所有通道的频域信号的统一建模,降低了计算量、内存占用量较小,进而降低了资源消耗。并利用所有通道的频域信号的统一建模得到的目标CGMM,确定语音数据的时频掩膜信息,避免了因此存在多个CGMM时造成的排序问题,从而提高了得到的掩膜信息准确度,提高语音增强的结果的可靠性。
需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成的方法。
图2为本发明的语音增强装置实施例的结构示意图,如图2所示,本实施例的语音增强装置可以包括转换模块20、规整模块21、训练模块22、确定模块23和增强模块24。
转换模块20,用于对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号;
规整模块21,用于根据每个通道的频域信号的相位进行信号规整,得到每个通道的规整信号;其中,规整信号为仅与麦克风阵列拓扑结构相关联的信号;
在一个具体实现过程中,规整模块21,具体用于:
根据选取的参考通道的音频信号的相位,对每个通道的音频信号进行频率移除,得到每个通道的频率移除信号;对每个通道的频率移除信号进行幅值移除,得到每个通道的幅值移除信号作为所述每个通道的规整信号。
在一个具体实现过程中,规整模块21,还用于:
计算每个通道的音频信号与参考通道音频信号的相位的相位差;对计算的每个相位差进行规制,得到每个规制相位差;将每个规制相位差与对应音频信号的模相乘,得到每个通道的频率移除信号。
训练模块22,用于利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练复高斯混合CGMM模型进行训练,得到训练后的目标CGMM模型;
确定模块23,用于利用目标CGMM模型,确定语音数据的时频掩膜信息;
增强模块24,用于利用语音数据的时频掩膜信息,对语音数据进行波束增强,得到增强语音数据。
在一个具体实现过程中,增强模块24,具体用于:
根据语音数据的时频掩膜信息,计算语音协方差矩阵和噪声协方差矩阵;
根据语音协方差矩阵和噪声协方差矩阵,确定波束形成器的最优权值;
通过波束形成器实现MVDR最小方差无失真响应波束形成算法,对所述语音数据进行波束增强,得到所述增强语音数据。
本实施例的语音增强装置通过对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号,并根据每个通道的频域信号的相位进行信号规整,得到每个通道的仅与麦克风阵列拓扑结构相关联的规整信号后,利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练CGMM进行训练,得到训练后的目标CGMM,实现了所有通道的频域信号的统一建模,降低了计算量、内存占用量较小,进而降低了资源消耗。并利用所有通道的频域信号的统一建模得到的目标CGMM,确定语音数据的时频掩膜信息,避免了因此存在多个CGMM时造成的排序问题,从而提高了得到的掩膜信息准确度,提高语音增强的结果的可靠性。
上述实施例的装置用于实现前述实施例中相应的方法,其具体实现方案可以参见前述实施例记载的方法及方法实施例中的相关说明,并且具有相应的方法实施例的有益效果,在此不再赘述。
图3为本发明的语音增强设备的结构示意图,如图3所示,本实施例的通行设备可以包括:处理器1010和存储器1020。本领域技术人员可知的,该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本发明还提供一种存储介质,其存储有一个或者多个程序,所述一个或者多个程序可被执行时实现上述实施例的音增强方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种语音增强方法,其特征在于,包括:
对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号;
根据选取的参考通道的音频信号的相位,对每个通道的音频信号进行频率移除,得到每个通道的频率移除信号;
对每个通道的频率移除信号进行幅值移除,得到每个通道的幅值移除信号作为所述每个通道的规整信号;其中,所述规整信号为仅与麦克风阵列拓扑结构相关联的信号;
利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练复高斯混合模型进行训练,得到训练后的目标复高斯混合模型;
利用所述目标复高斯混合模型,确定所述语音数据的时频掩膜信息;
利用所述语音数据的时频掩膜信息,对所述语音数据进行波束增强,得到增强语音数据。
2.根据权利要求1所述的语音增强方法,其特征在于,根据选取的参考通道的音频信号的相位,对每个通道的音频信号进行频率移除,得到每个通道的频率移除信号,包括:
计算每个通道的音频信号与参考通道音频信号的相位差;
对计算的每个相位差进行规制,得到每个规制相位差;
将每个规制相位差与对应音频信号的模相乘,得到每个通道的频率移除信号。
3.根据权利要求1所述的语音增强方法,其特征在于,利用所述语音数据的时频掩膜信息,对所述语音数据进行波束增强,得到增强语音数据,包括:
根据语音数据的时频掩膜信息,计算语音协方差矩阵和噪声协方差矩阵;
根据语音协方差矩阵和噪声协方差矩阵,确定波束形成器的最优权值;
通过波束形成器实现MVDR最小方差无失真响应波束形成算法,对所述语音数据进行波束增强,得到所述增强语音数据。
4.一种语音增强装置,其特征在于,包括:
转换模块,用于对获取的语音数据中每个通道的音频信号进行转换得到每个通道的频域信号;
规整模块,用于根据选取的参考通道的音频信号的相位,对每个通道的音频信号进行频率移除,得到每个通道的频率移除信号;对每个通道的频率移除信号进行幅值移除,得到每个通道的幅值移除信号作为所述每个通道的规整信号;其中,所述规整信号为仅与麦克风阵列拓扑结构相关联的信号;
训练模块,用于利用预设长度的样本数据对应的每个通道的样本规整信号,对待训练复高斯混合CGMM模型进行训练,得到训练后的目标CGMM模型;
确定模块,用于利用所述目标CGMM模型,确定所述语音数据的时频掩膜信息;
增强模块,用于利用所述语音数据的时频掩膜信息,对所述语音数据进行波束增强,得到增强语音数据。
5.根据权利要求4所述的语音增强装置,其特征在于,所述规整模块还用于:
计算每个通道的音频信号与参考通道音频信号的相位的相位差;
对计算的每个相位差进行规制,得到每个规制相位差;
将每个规制相位差与对应音频信号的模相乘,得到每个通道的频率移除信号。
6.根据权利要求4所述的语音增强装置,其特征在于,所述增强模块,具体用于:
根据语音数据的时频掩膜信息,计算语音协方差矩阵和噪声协方差矩阵;
根据语音协方差矩阵和噪声协方差矩阵,确定波束形成器的最优权值;
通过波束形成器实现MVDR最小方差无失真响应波束形成算法,对所述语音数据进行波束增强,得到所述增强语音数据。
7.一种语音增强设备,其特征在于,包括:处理器和存储器;
所述处理器用于执行所述存储器中存储的应用程序,以实现权利要求1-3任一项所述的语音增强方法。
8.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被执行时实现权利要求1-3 任一项所述的语音增强方法。
CN202110287956.4A 2021-03-17 2021-03-17 语音增强方法、装置、设备和存储介质 Active CN112951263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110287956.4A CN112951263B (zh) 2021-03-17 2021-03-17 语音增强方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110287956.4A CN112951263B (zh) 2021-03-17 2021-03-17 语音增强方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112951263A CN112951263A (zh) 2021-06-11
CN112951263B true CN112951263B (zh) 2022-08-02

Family

ID=76228689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110287956.4A Active CN112951263B (zh) 2021-03-17 2021-03-17 语音增强方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112951263B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113336036B (zh) * 2021-06-22 2022-09-23 云知声智能科技股份有限公司 电梯异常监控方法、装置、设备、电梯和存储介质
CN113707136B (zh) * 2021-10-28 2021-12-31 南京南大电子智慧型服务机器人研究院有限公司 服务型机器人语音交互的音视频混合语音前端处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109256153A (zh) * 2018-08-29 2019-01-22 北京云知声信息技术有限公司 一种声源定位方法及系统
CN110047478A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110400572A (zh) * 2019-08-12 2019-11-01 苏州思必驰信息科技有限公司 音频增强方法及系统
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN112151059A (zh) * 2020-09-25 2020-12-29 南京工程学院 面向麦克风阵列的通道注意力加权的语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047478A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN109256153A (zh) * 2018-08-29 2019-01-22 北京云知声信息技术有限公司 一种声源定位方法及系统
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN110400572A (zh) * 2019-08-12 2019-11-01 苏州思必驰信息科技有限公司 音频增强方法及系统
CN112151059A (zh) * 2020-09-25 2020-12-29 南京工程学院 面向麦克风阵列的通道注意力加权的语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
低信噪比环境下的麦克风阵列语音识别算法研究;王群等;《科学技术与工程》;20171108(第31期);全文 *
结合波束形成和GAN网络的多通道语音增强研究;余亮等;《噪声与振动控制》;20180420;全文 *

Also Published As

Publication number Publication date
CN112951263A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
US11282505B2 (en) Acoustic signal processing with neural network using amplitude, phase, and frequency
US9355649B2 (en) Sound alignment using timing information
CN103426435B (zh) 具有移动约束的通过独立分量分析的源分离
CN110634499A (zh) 用深特征损失训练的用于语音去噪的神经网络
CN112951263B (zh) 语音增强方法、装置、设备和存储介质
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
US10984814B2 (en) Denoising a signal
US9076446B2 (en) Method and apparatus for robust speaker and speech recognition
CN112712816B (zh) 语音处理模型的训练方法和装置以及语音处理方法和装置
US20150006168A1 (en) Variable Sound Decomposition Masks
CN111031463A (zh) 麦克风阵列性能评测方法、装置、设备和介质
CN112309426A (zh) 语音处理模型训练方法及装置和语音处理方法及装置
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
CN110890098B (zh) 盲信号分离方法、装置和电子设备
CN112055284A (zh) 回声消除方法及神经网络的训练方法、装置、介质、设备
CN110415722B (zh) 语音信号处理方法、存储介质、计算机程序和电子设备
CN113053365A (zh) 语音分离方法、装置、设备和存储介质
US9398387B2 (en) Sound processing device, sound processing method, and program
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
CN113555031B (zh) 语音增强模型的训练方法及装置、语音增强方法及装置
WO2023000444A1 (zh) 扬声器的杂音检测方法、装置、电子设备和存储介质
CN114067784A (zh) 基频提取模型的训练方法及装置、基频提取方法及装置
US20220130406A1 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
JP6891144B2 (ja) 生成装置、生成方法及び生成プログラム
CN113782047B (zh) 语音分离方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant