CN113689870A - 一种多通道语音增强方法及其装置、终端、可读存储介质 - Google Patents
一种多通道语音增强方法及其装置、终端、可读存储介质 Download PDFInfo
- Publication number
- CN113689870A CN113689870A CN202110846660.1A CN202110846660A CN113689870A CN 113689870 A CN113689870 A CN 113689870A CN 202110846660 A CN202110846660 A CN 202110846660A CN 113689870 A CN113689870 A CN 113689870A
- Authority
- CN
- China
- Prior art keywords
- voice
- channel
- covariance matrix
- speech
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 185
- 238000009826 distribution Methods 0.000 claims abstract description 98
- 238000012546 transfer Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims description 49
- 230000014509 gene expression Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000000126 substance Substances 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种多通道语音增强方法及其装置、终端、可读存储介质,多通道语音增强方法包括:获取到待增强的多通道语音;利用概率分布模型获取多通道语音存在目标语音的概率;基于概率得到多通道语音的噪声协方差矩阵和目标语音协方差矩阵;利用噪声协方差矩阵和目标语音协方差矩阵得到多通道语音的相对传递函数;利用相对传递函数对多通道语音中的目标语音进行语音增强。通过上述方法对多通道语音中的目标语音进行增强。
Description
技术领域
本发明涉及语音信号处理技术领域,特别是涉及一种多通道语音增强方法及其装置、终端、可读存储介质。
背景技术
随着科技的发展,语音增强在车载系统、电话视频会议、助听器、智能家电及人工智能等领域中具有重要的应用前景。在现实生活中,由于噪声的存在,语音信号会被不同的噪声干扰和污染,使得语音质量较差。所以,需要可以对含噪语音信号进行相应降噪处理。
麦克风阵列是由一组麦克风按照一定的空间分布规则布置而形成的阵列。将麦克风阵列用于语音增强时,常常需要将这多个麦克风的信号合成为一个信号,以此来增强目标信号,这时就需要利用目标所在方位或麦克风之间的相对传递函数(Relative TransferFunction,RTF)来将多个麦克风信号合成为一个。
现有技术中,通常先将针对音频信号进行目标音频检测,然后判断是否更新噪声矩阵或目标音频矩阵,再进行RTF估计,并将RTF用于后续的波束形成,最后输出语音信号。现有技术存在以下缺点:1)未充分使用麦克风阵列多个通道的优势进行语音存在检测;2)在语音存在时停止了噪声矩阵更新,导致噪声估计不准确;3)未充分将语音检测和RTF估计相结合。
发明内容
本申请主要解决的技术问题是提供一种多通道语音增强方法及其装置、终端、可读存储介质,以对多通道的目标语音进行增强。
为解决上述问题,本申请提供了一种多通道语音增强方法,包括:获取到待增强的多通道语音;利用概率分布模型获取多通道语音存在目标语音的概率;基于概率分布模型概率得到概率分布模型多通道语音的噪声协方差矩阵和目标语音协方差矩阵;利用概率分布模型噪声协方差矩阵和目标语音协方差矩阵得到概率分布模型多通道语音的相对传递函数;利用概率分布模型相对传递函数对概率分布模型多通道语音中的目标语音进行语音增强。
其中,概率分布模型基于概率分布模型概率得到概率分布模型多通道语音的噪声协方差矩阵和目标语音协方差矩阵的步骤,包括:获取到概率分布模型多通道语音的初始帧的噪声协方差矩阵以及语音协方差矩阵;利用概率分布模型初始帧的噪声协方差矩阵、当前帧的概率分布模型多通道语音存在目标语音的概率以及前一帧的概率分布模型多通道语音存在目标语音的概率得到概率分布模型当前帧的噪声协方差矩阵;以及利用概率分布模型初始帧的语音协方差矩阵得到概率分布模型当前帧的语音协方差矩阵;将概率分布模型当前帧的概率分布模型语音协方差矩阵与概率分布模型噪声自方差矩阵的差值确定为概率分布模型当前帧的目标语音协方差矩阵。
其中,概率分布模型利用概率分布模型初始帧的噪声协方差矩阵、当前帧的概率分布模型多通道语音存在目标语音的概率以及前一帧的概率分布模型多通道语音存在目标语音的概率得到概率分布模型当前帧的噪声协方差矩阵;以及利用概率分布模型初始帧的语音协方差矩阵得到概率分布模型当前帧的语音协方差矩阵的步骤,包括:对概率分布模型多通道语音进行变换,得到概率分布模型多通道语音的当前帧对应的矩阵以及共轭转置矩阵;利用概率分布模型当前帧的概率分布模型矩阵以及概率分布模型矩阵的共轭转置矩阵、概率分布模型初始帧的噪声协方差矩阵、当前帧的多通道语音存在目标语音的概率以及前一帧的多通道语音存在目标语音的概率基于第一递推关系式得到概率分布模型当前帧的噪声协方差矩阵;利用概率分布模型初始帧的语音协方差矩阵、概率分布模型当前帧的概率分布模型矩阵以及概率分布模型矩阵的共轭转置矩阵基于第二递推关系式得到概率分布模型当前帧的语音协方差矩阵;其中,概率分布模型第一递推关系式表征概率分布模型当前帧的噪声协方差矩阵与概率分布模型前一帧的噪声协方差矩阵的对应关系;概率分布模型第二递推关系式表征概率分布模型当前帧的语音协方差矩阵与概率分布模型前一帧的语音协方差矩阵的对应关系。
其中,概率分布模型利用概率分布模型获取概率分布模型多通道语音存在目标语音的概率的步骤,包括:利用贝叶斯公式获取到当前帧的概率分布模型多通道语音存在目标语音的概率以及前一帧的概率分布模型多通道语音存在目标语音的概率。
其中,概率分布模型利用概率分布模型噪声协方差矩阵和目标语音协方差矩阵得到概率分布模型多通道语音的相对传递函数的步骤,包括:利用概率分布模型相对传递函数表示当前通道与基准通道的频域关系;利用最小二乘法对概率分布模型频域关系进行求解,得到概率分布模型相对传递函数;其中,概率分布模型相对传递函数为概率分布模型当前通道与概率分布模型基准通道的对应关系。
其中,概率分布模型利用概率分布模型相对传递函数对概率分布模型多通道语音中的目标语音进行语音增强的步骤,包括:利用概率分布模型相对传递函数将概率分布模型多通道语音中的概率分布模型目标语音进行合并,得到单通道的概率分布模型目标语音。
其中,概率分布模型获取到待增强的多通道语音的步骤,包括:对概率分布模型多通道语音进行分帧处理,得到多通道的时域信号;利用快速傅里叶变换将概率分布模型时域信号转换成频域信号;概率分布模型利用概率分布模型获取概率分布模型多通道语音存在目标语音的概率的步骤,包括:利用概率分布模型获取概率分布模型频域信号存在概率分布模型目标语音的概率。
为了解决上述问题,本申请还提供一种多通道语音增强装置,包括:获取模块,用于获取待增强的多通道语音;概率获取模块,用于利用概率分布模型获取多通道语音存在目标语音的概率;矩阵获取模块,用于基于概率分布模型概率得到概率分布模型多通道语音的噪声协方差矩阵和目标语音协方差矩阵;函数获取模块,用于利用概率分布模型噪声协方差矩阵和目标语音协方差矩阵得到概率分布模型多通道语音的相对传递函数;增强模块,用于利用概率分布模型相对传递函数对概率分布模型多通道语音中的目标语音进行语音增强。
为了解决上述问题,本申请还提供一种终端,终端包括相互耦接的处理器和存储器,存储器用于存储程序指令,处理器用于执行存储器存储的程序指令以实现上述任一实施例的多通道语音增强方法。
为了解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质包括处理器和存储器,存储器存储有计算机程序指令,处理器用于执行程序指令以上述任一实施例的多通道语音增强方法。
本申请的有益效果是:基于获取到的多通道语音存在目标语音的概率对多通道语音的噪声协方差矩阵和目标语音协方差矩阵进行更新,得较准确的噪声协方差矩阵和目标语音协方差矩阵,从而提升利用噪声协方差矩阵和目标协方差矩阵得到多通道语音的相对传递函数的准确性,以使利用相对传递函数将多通道的目标语音合并成单通道的目标语音进行输出,达到对目标语音进行增强的效果。
附图说明
图1为本申请多通道语音增强方法一实施方式的流程示意图;
图2为图1步骤S11一具体实施方式的流程示意图;
图3为图1中步骤S13一实施方式的流程示意图;
图4为图1步骤S14一实施方式的流程示意图;
图5为本申请多通道语音增强装置一实施方式的结构示意图;
图6为本申请终端一实施方式的结构示意图;
图7为本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供一种多通道语音增强方法,请参阅图1,图1为本申请多通道语音增强方法一实施方式的流程示意图,如图1所示,该方法包括以下步骤:
步骤S11:获取到待增强的多通道语音。
其中,多通道语音包括多个通道的目标语音和噪声,本实施例是对多通道语音中的目标语音进行增强,而噪声需要被削弱。
在本实施例中,获取到的多通道语音是多通道语音的时域信号。因此,需要将获取到的语音的时域信号转换成频域信号,以方便后续进行频域分析。
在本步骤还包括对多通道语音的时域信号进行分帧处理得到每一帧的时域信号;并将该时域信号转换成频域信号。其中,时域信号是描述数学函数或物理信号对时间的关系,具体指语音信号随着时间变化的波形;频域信号是描述信号在频率方面特性时用到的一种坐标系,具体指语音信号随着频率变化的波形。
具体请参阅图2,图2为图1步骤S11一具体实施方式的流程示意图。如图2所示,包括:
步骤S21:对多通道语音进行分帧处理,得到多通道的时域信号。
其中,时域信号是多通道语音随时间变化的信号波形。
具体地,第l帧的时域信号的表达式为yi(n,l),其中,其中i表示第i通道,n表示该帧第n个采样点,l表示第l帧。
步骤S22:利用快速傅里叶变换将时域信号转换成频域信号。
根据公式对时域信号进行信号加窗,做FFT(快速傅立叶变换)处理,将多通道语音的时域信号转换成频率信号。其中,h(n)表示窗函数,在一实施方式中可以选择汉宁窗等窗函数;k表示频域第k个频点,i表示第i通道。利用公式将所有通道的时域信号转换成频域信号。
在本步骤中还包括:将所有通道的频域信号根据当前帧组成当前帧的语音信号向量,再将当前帧的语音信号向量按照对应帧的顺序组成语音信号矩阵。
具体地,将所有通道的频域信号根据帧组成列向量,得到多通道语音信号向量y(k,l)=[Y1(k,l)…YM(k,l)]T。
其中,多通道语音信号还包括目标语音信号和噪声信号。其中,多通道语音信号等于噪声信号和目标语音信号之和,多通道语音信号表达式为:y(k,l)=s(k,l)+v(k,l)。根据目标语音信号和噪声信号的频域信号表达式,得到多通道目标语音信号向量v(k,l)=[V1(k,l)…VM(k,l)]T和噪声信号向量为s(k,l)=[S1(k,l)…SM(k,l)]T。
根据多通道语音信号向量、目标语音信号向量和噪声信号向量定义多通道的语音协方差矩阵、目标语音协方差矩阵和噪声协方差矩阵的表达式如下:
语音协方差矩阵为Φyy(k,l)=E{y(k,l)yH(k,l)};
噪声协方差矩阵为Φvv(k,l)=E{v(k,l)vH(k,l)};
目标语音协方差矩阵的表达式为Φss(k,l)=Φyy(k,l)-Φvv(k,l)。
步骤S12:利用概率分布模型获取多通道语音存在目标语音的概率。
其中,多通道语音包括目标语音和噪声,目标语音是指待增强的语音信号,噪声是待去除的语音信号。
在该步骤之前还提出假设检验理论,假设多通道语音中存在目标语音为H1(k,l),不存在目标语音为H0(k,l)。根据假设检验理论得到第l帧的多通道语音信号的表达式为:H1(k,l):y(k,l)=s(k,l)+v(k,l),H0(k,l):y(k,l)=v(k,l)。
利用概率分布模型求解Λ(k,l),得到Λ(k,l)之后即可得到第l帧的多通道语音存在目标语音的概率p(k,l)。
其中,概率分布模型包括拉普拉斯分布和高斯分布等概率分布。在本实施例中,利用多元高斯分布概率模型获取多通道语音存在目标语音的概率。
具体求解过程如下:假设目标语音信号和噪声信号都服从多元高斯概率分布、信号的实部和虚部互、目标语音信号和噪声信号相互独立;基于多元高斯概率分布,得到:
基于p[y(k,l)H1(k,l)]、p[y(k,l)H0(k,l)]得到:
其中,det[Φ]表示对矩阵Φ取行列式,tr[Φ]表示对矩阵取迹。
步骤S13:基于概率得到多通道语音的噪声协方差矩阵和目标语音协方差矩阵。
其中,利用验证目标语音存在的概率的方式来计算噪声协方差矩阵和目标语音协方差矩阵。
具体请进一步参阅图3,图3为图1步骤S13一具体实施方式的流程示意图。如图3所示,包括:
步骤S31:获取到多通道语音的初始帧的噪声协方差矩阵以及语音协方差矩阵。
需要说明的是,语音协方差矩阵、噪声协方差矩阵以及目标语音协方差矩阵均与前一帧的多通道语音信号相关,因此,需要对语音协方差矩阵、噪声协方差矩阵以及目标语音协方差矩阵进行初始化处理。在本实施例中,假设多通道语音信号的开头数十帧都是噪声信号,没有目标语音信号存在,利用开头数十帧的多通道语音信号计算得到初始的语音协方差矩阵、噪声协方差矩阵以及目标语音协方差矩阵。
具体地,利用初始帧的噪声协方差矩阵得到当前帧的前一帧的噪声协方差矩阵;然后利用前一帧的噪声协方差矩阵得到当前帧的噪声协方差矩阵。同样,利用初始帧的语音协方差矩阵得到当前帧的前一帧的语音协方差矩阵;然后利用前一帧的语音协方差矩阵得到当前帧的语音协方差矩阵。
步骤S32:利用初始帧的噪声协方差矩阵、当前帧的多通道语音存在目标语音的概率以及前一帧的多通道语音存在目标语音的概率得到当前帧的噪声协方差矩阵;以及利用初始帧的语音协方差矩阵得到当前帧的语音协方差矩阵。
其中,对多通道语音存在目标语音的概率进行平滑处理,得到平滑的概率的步骤包括:利用当前帧的前一帧的平滑概率和当前帧的概率得到当前帧的平滑概率。具体利用计算得到当前帧的平滑概率其中,αp可根据实际情况进行设置,在本实施例中,αp设置为0.8。
利用平滑版本的概率计算噪声协方差矩阵估计值的步骤包括:利用当前帧的平滑概率得到当前帧的噪声协方差矩阵系数其中,为当前帧的噪声协方差矩阵与前一帧的噪声协方差矩阵的系数;利用前一帧的噪声协方差矩阵系数前一帧噪声协方差矩阵以及当前帧的多通道语音信号向量y(k,l)与当前帧的多通道语音信号的共轭向量yH(k,l)计算当前帧的噪声协方差矩阵估计值其中,噪声协方差矩阵Φvv(k,l)等于噪声协方差矩阵估计值
在本实施例中,利用当前帧的前一帧目标语音的概率、前一帧的噪声协方差矩阵以及当前帧的多通道语音向量与多通道语音向量的共轭向量,得到的当前帧的噪声协方差矩阵能根据多通道语音向量进行更新,并根据目标语音的存在概率的大小调整更新的快慢,让噪声协方差矩阵达到自适应更新。
本步骤还包括利用当前帧的前一帧语音协方差矩阵、当前帧的多通道语音向量以及多通道语音向量的共轭向量,得到当前帧的语音协方差矩阵。具体地,利用公式Φyy(k,l)=[1-αy]Φyy(k,l-1)+αyy(k,l)yH(k,l)得到当前帧的语音协方差矩阵,其中,αy可设为0.85。其中,利用当前帧的前一帧语音协方差矩阵、当前帧的多通道语音向量以及多通道语音向量的共轭向量,得到当前帧的语音协方差矩阵的步骤包括:对语音协方差矩阵进行平滑处理,利用平滑的语音协方差矩阵代替语音协方差矩阵。
步骤S33:将当前帧的语音协方差矩阵与噪声自方差矩阵的差值确定为当前帧的目标语音协方差矩阵。
根据公式Φss(k,l)=Φyy(k,l)-Φvv(k,l)计算得到目标语音协方差矩阵Φss(k,l)。
步骤S14:利用噪声协方差矩阵和目标语音协方差矩阵得到多通道语音的相对传递函数。
具体地,相对传递函数为基准通道分别与除基准通道外的其它通道的语音的函数关系表达式。
在一实施例中,基准通道为第一通道,其它通道为第二通道至第n通道。
具体地包括:
步骤S41:利用相对传递函数表示当前通道与基准通道的频域关系。
具体地,根据相对传递函数的定义,得到当前通道与基准通道的频域关系表达式;
在本实施例中,以第一通道和第二通道为例。基准通道为第一通道,当前通道为第二通道。
具体包括:获取第一通道和第二通道的语音信号的时域表达式;根据相对传递函数的定义,得到第二通道与第一通道的关系表达式;再将时域转换成频域表达式,得到第二通道和第一通道的频域关系表达式。
具体地,用公式表达如下:获取到第一通道的语音信号的时域表达式为y1(t)=s1(t)+v1(t),第二通道的语音信号的时域表达式y2(t)=s2(t)+v2(t)。
根据RTF(相对传递函数)的定义,可以得到第一通道和第二通道的时域关系表达式:y2(t)=a(t)*y1(t)+z(t);其中,z(t)=v2(t)-a(t)*v1(t),a(t)表示第一通道和第二通道之间的相对传递函数,*表示卷积。
将时域转换成频域表达式,得到第二通道和第一通道的频域关系表达式为:Y2(k,l)=A(k)Y1(k,l)+Z(k,l)。其中,A(k)是第一通道和第二通道之间的相对传递函数频域形式。对公式Y2(k,l)=A(k)Y1(k,l)+Z(k,l)进行求解即可得到RTF函数A(k)。
步骤S42:利用最小二乘法对频域关系进行求解,得到相对传递函数。
在本步骤之前还包括:将公式Y2(k,l)=A(k)Y1(k,l)+Z(k,l)转换成矩阵表达式,然后利用最小二乘法对矩阵表达式进行求解,得到相对传递函数。
具体地求解过程如下:在公式Y2(k,l)=A(k)Y1(k,l)+Z(k,l)左右两边同时乘以Y1(k,l)得到矩阵公式其中,是Φyy(k,l)的第一行第二列的元素,是Φyy(k,l)的第一行第一列的元素。
由于目标语音和噪声不相关,可以进一步将上述矩阵公式转换成:其中,是Φyy(k,l)的第一行第二列的元素,是Φss(k,l)的第一行第一列的元素,是Φvv(k,l)的第一行第二列的元素,ε(k,l)表示误差。
其中,1≤L≤10,是Φss(k,l)的第一行第一列的元素,是Φyy(k,l)的第一行第二列的元素,是Φvv(k,l)的第一行第二列的元素。对应的就是Φyy(k,l)的第一行第m列的元素,是Φvv(k,l)的第一行第m列的元素,L是总帧数。
同理,利用上述方式可以计算出第一通道和其它通道的相对传递函数。
步骤S15:利用相对传递函数对多通道语音中的目标语音进行语音增强。
具体地,利用相对传递函数将多通道语音中的目标语音进行合并,得到单通道的目标语音。
在本实施例中,基于获取到的多通道语音存在目标语音的概率对多通道语音的噪声协方差矩阵和目标语音协方差矩阵进行更新,得较准确的噪声协方差矩阵和目标语音协方差矩阵,从而提升利用噪声协方差矩阵和目标协方差矩阵得到多通道语音的相对传递函数的准确性,以使利用相对传递函数将多通道的目标语音合并成单通道的目标语音进行输出,达到对目标语音进行增强的效果。相较于传统地利用相对传递函数对目标语音进行增强的方法,本申请利用多通道信号的概率模型估计语音存在概率,相比单通道语音存在概率估计有更好的准确性,且基于多通道的方式能够更加精确的估计每个通道的噪声,从而更加精确的获取噪声的估计,结合语音存在概率,自适应更新噪声协方差矩阵,提升后续相对传递函数估计的准确性。
本申请还提供一种多通道语音增强装置,请参阅图5,图5为本申请多通道语音增强装置一实施方式的结构示意图。如图5所示,多通道语音增强装置50包括:获取模块51,用于获取待增强的多通道语音。概率获取模块52,与获取模块51连接,用于利用概率分布模型获取多通道语音存在目标语音的概率。矩阵获取模块53,与概率获取模块52连接,用于基于语音概率得到语音多通道语音的噪声协方差矩阵和目标语音协方差矩阵;函数获取模块54,与矩阵获取模块53连接,用于利用语音噪声协方差矩阵和目标语音协方差矩阵得到语音多通道语音的相对传递函数;增强模块55,与函数获取模块54连接,用于利用语音相对传递函数对语音多通道语音中的目标语音进行语音增强。
本申请还提供一种终端,请参阅图6,图6为本申请终端一实施方式的结构示意图,如图6所示,终端60包括相互耦接的处理器601和存储器602,处理器601用于执行存储器602存储的程序指令以实现上述任一方法实施例中的步骤或者上述任一方法实施例中客户端对应执行的步骤。该终端60除包括上述处理器601和存储器602之外,还可根据需求包括触摸屏、打印组件、通信电路等,在此不做限定。
具体而言,处理器601用于控制其自身以及存储器602以实现上述任一方法实施例中的步骤。处理器601还可以称为CPU(Central Processing Unit,中央处理单元)。处理器601可能是一种集成电路芯片,具有信号的处理能力。处理器601还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器601可以由多个集成电路芯片共同实现。
本申请还提供一种计算机可读存储介质,如图7所示,图7为本申请计算机可读存储介质一实施方式的结构示意图。
计算机可读存储介质70包括计算机可读存储介质70上存储的计算机程序701,计算机程序701被上述处理器执行时实现上述任一方法实施例中的步骤或者上述方法实施例中多通道语音增强方法对应执行的步骤。
具体地,集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质70中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质70中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质70包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种多通道语音增强方法,其特征在于,所述多通道语音增强方法包括:
获取到待增强的多通道语音;
利用概率分布模型获取多通道语音存在目标语音的概率;
基于所述概率得到所述多通道语音的噪声协方差矩阵和目标语音协方差矩阵;
利用所述噪声协方差矩阵和目标语音协方差矩阵得到所述多通道语音的相对传递函数;
利用所述相对传递函数对所述多通道语音中的目标语音进行语音增强。
2.根据权利要求1所述的多通道语音增强方法,其特征在于,所述基于所述概率得到所述多通道语音的噪声协方差矩阵和目标语音协方差矩阵的步骤,包括:
获取到所述多通道语音的初始帧的噪声协方差矩阵以及语音协方差矩阵;
利用所述初始帧的噪声协方差矩阵、当前帧的所述多通道语音存在目标语音的概率以及前一帧的所述多通道语音存在目标语音的概率得到所述当前帧的噪声协方差矩阵;以及利用所述初始帧的语音协方差矩阵得到所述当前帧的语音协方差矩阵;
将所述当前帧的所述语音协方差矩阵与所述噪声自方差矩阵的差值确定为所述当前帧的目标语音协方差矩阵。
3.根据权利要求2所述的多通道语音增强方法,其特征在于,所述利用所述初始帧的噪声协方差矩阵、当前帧的所述多通道语音存在目标语音的概率以及前一帧的所述多通道语音存在目标语音的概率得到所述当前帧的噪声协方差矩阵;以及利用所述初始帧的语音协方差矩阵得到所述当前帧的语音协方差矩阵的步骤,包括:
对所述多通道语音进行变换,得到所述多通道语音的当前帧对应的矩阵以及共轭转置矩阵;
利用所述当前帧的所述矩阵以及所述矩阵的共轭转置矩阵、所述初始帧的噪声协方差矩阵、当前帧的多通道语音存在目标语音的概率以及前一帧的多通道语音存在目标语音的概率基于第一递推关系式得到所述当前帧的噪声协方差矩阵;
利用所述初始帧的语音协方差矩阵、所述当前帧的所述矩阵以及所述矩阵的共轭转置矩阵基于第二递推关系式得到所述当前帧的语音协方差矩阵;
其中,所述第一递推关系式表征所述当前帧的噪声协方差矩阵与所述前一帧的噪声协方差矩阵的对应关系;
所述第二递推关系式表征所述当前帧的语音协方差矩阵与所述前一帧的语音协方差矩阵的对应关系。
4.根据权利要求2所述的多通道语音增强方法,其特征在于,所述利用概率分布模型获取所述多通道语音存在目标语音的概率的步骤,包括:
利用贝叶斯公式获取到当前帧的所述多通道语音存在目标语音的概率以及前一帧的所述多通道语音存在目标语音的概率。
5.根据权利要求1所述的多通道语音增强方法,其特征在于,所述利用所述噪声协方差矩阵和目标语音协方差矩阵得到所述多通道语音的相对传递函数的步骤,包括:
利用所述相对传递函数表示当前通道与基准通道的频域关系;
利用最小二乘法对所述频域关系进行求解,得到所述相对传递函数;其中,所述相对传递函数为所述当前通道与所述基准通道的对应关系。
6.根据权利要求1所述的多通道语音增强方法,其特征在于,所述利用所述相对传递函数对所述多通道语音中的目标语音进行语音增强的步骤,包括:
利用所述相对传递函数将所述多通道语音中的所述目标语音进行合并,得到单通道的所述目标语音。
7.根据权利要求1所述的多通道语音增强方法,其特征在于,所述获取到待增强的多通道语音的步骤,包括:
对所述多通道语音进行分帧处理,得到多通道的时域信号;
利用快速傅里叶变换将所述时域信号转换成频域信号;
所述利用概率分布模型获取所述多通道语音存在目标语音的概率的步骤,包括:
利用概率分布模型获取所述频域信号存在所述目标语音的概率。
8.一种多通道语音增强装置,其特征在于,包括:
获取模块,用于获取待增强的多通道语音;
概率获取模块,用于利用概率分布模型获取多通道语音存在目标语音的概率;
矩阵获取模块,用于基于所述概率得到所述多通道语音的噪声协方差矩阵和目标语音协方差矩阵;
函数获取模块,用于利用所述噪声协方差矩阵和目标语音协方差矩阵得到所述多通道语音的相对传递函数;
增强模块,用于利用所述相对传递函数对所述多通道语音中的目标语音进行语音增强。
9.一种终端,其特征在于,所述终端包括相互耦接的处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行所述存储器存储的程序指令以实现权利要求1~7任一项所述的多通道语音增强方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括处理器和存储器,所述存储器存储有计算机程序指令,所述处理器用于执行所述程序指令以实现权利要求1~7任一项所述的多通道语音增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846660.1A CN113689870A (zh) | 2021-07-26 | 2021-07-26 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846660.1A CN113689870A (zh) | 2021-07-26 | 2021-07-26 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113689870A true CN113689870A (zh) | 2021-11-23 |
Family
ID=78577919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110846660.1A Pending CN113689870A (zh) | 2021-07-26 | 2021-07-26 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113689870A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275528A (zh) * | 2023-11-17 | 2023-12-22 | 浙江华创视讯科技有限公司 | 语音存在概率的估计方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013037177A (ja) * | 2011-08-08 | 2013-02-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声強調装置とその方法とプログラム |
CN112735460A (zh) * | 2020-12-24 | 2021-04-30 | 中国人民解放军战略支援部队信息工程大学 | 基于时频掩蔽值估计的波束成形方法及系统 |
CN112802490A (zh) * | 2021-03-11 | 2021-05-14 | 北京声加科技有限公司 | 一种基于传声器阵列的波束形成方法和装置 |
WO2021103672A1 (zh) * | 2019-11-29 | 2021-06-03 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN113030862A (zh) * | 2021-03-12 | 2021-06-25 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
-
2021
- 2021-07-26 CN CN202110846660.1A patent/CN113689870A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013037177A (ja) * | 2011-08-08 | 2013-02-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声強調装置とその方法とプログラム |
WO2021103672A1 (zh) * | 2019-11-29 | 2021-06-03 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN112735460A (zh) * | 2020-12-24 | 2021-04-30 | 中国人民解放军战略支援部队信息工程大学 | 基于时频掩蔽值估计的波束成形方法及系统 |
CN112802490A (zh) * | 2021-03-11 | 2021-05-14 | 北京声加科技有限公司 | 一种基于传声器阵列的波束形成方法和装置 |
CN113030862A (zh) * | 2021-03-12 | 2021-06-25 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
Non-Patent Citations (2)
Title |
---|
JORN ANEMÜLLER ET AL.: "Multi-channel signal enhancement with speech and noise covariance estimates computed by a probabilistic localization model", 《ICASSP》, 31 December 2017 (2017-12-31), pages 156 - 160 * |
邓贺元 等: "一种联合频谱和空间特征的深度学习多通道语音增强算法", 《电子测量技术》, vol. 42, no. 18, 30 September 2019 (2019-09-30), pages 90 - 94 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275528A (zh) * | 2023-11-17 | 2023-12-22 | 浙江华创视讯科技有限公司 | 语音存在概率的估计方法及装置 |
CN117275528B (zh) * | 2023-11-17 | 2024-03-01 | 浙江华创视讯科技有限公司 | 语音存在概率的估计方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107393550B (zh) | 语音处理方法及装置 | |
KR100304666B1 (ko) | 음성 향상 방법 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
Martin | Bias compensation methods for minimum statistics noise power spectral density estimation | |
Yen et al. | Cold diffusion for speech enhancement | |
Li et al. | Embedding and beamforming: All-neural causal beamformer for multichannel speech enhancement | |
Tsao et al. | Generalized maximum a posteriori spectral amplitude estimation for speech enhancement | |
CN111081267B (zh) | 一种多通道远场语音增强方法 | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
CN108538306B (zh) | 提高语音设备doa估计的方法及装置 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Cord-Landwehr et al. | Monaural source separation: From anechoic to reverberant environments | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
WO2016119388A1 (zh) | 一种基于语音信号构造聚焦协方差矩阵的方法及装置 | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
CN113689870A (zh) | 一种多通道语音增强方法及其装置、终端、可读存储介质 | |
CN112802490B (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
Astudillo et al. | Integration of beamforming and uncertainty-of-observation techniques for robust ASR in multi-source environments | |
Ullah et al. | Single channel speech dereverberation and separation using RPCA and SNMF | |
BR112014009647B1 (pt) | Aparelho de atenuação do ruído e método de atenuação do ruído | |
Sheeja et al. | Speech dereverberation and source separation using DNN-WPE and LWPR-PCA | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
Di Persia et al. | Using multiple frequency bins for stabilization of FD-ICA algorithms | |
WO2017128910A1 (zh) | 一种语音出现概率的确定方法、装置及电子设备 | |
CN107346658B (zh) | 混响抑制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |