CN111312276B - 一种音频信号处理的方法、装置、设备和介质 - Google Patents
一种音频信号处理的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111312276B CN111312276B CN202010093002.5A CN202010093002A CN111312276B CN 111312276 B CN111312276 B CN 111312276B CN 202010093002 A CN202010093002 A CN 202010093002A CN 111312276 B CN111312276 B CN 111312276B
- Authority
- CN
- China
- Prior art keywords
- signal
- probability distribution
- matrix
- audio
- audio signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 181
- 238000003672 processing method Methods 0.000 title description 4
- 238000000926 separation method Methods 0.000 claims abstract description 112
- 239000011159 matrix material Substances 0.000 claims abstract description 105
- 238000009826 distribution Methods 0.000 claims abstract description 79
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000009466 transformation Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 14
- 239000000203 mixture Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 16
- 239000004816 latex Substances 0.000 description 16
- 230000017105 transposition Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 239000000654 additive Substances 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种音频信号处理的方法、装置、设备和介质,属于信号处理技术领域,该方法包括,对获取的音频信号进行信号源数量分析,获得概率分布向量,概率分布向量表示音频信号中包含的信号源的数量的概率分布;根据音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的;根据概率分布向量以及信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵;根据估计信号矩阵,获得目标音频信号。这样,可以抑制音频信号中的噪声,增强音频信号中的目标信号,还可以降低计算量以及系统资源消耗。
Description
技术领域
本申请涉及信号处理技术领域,尤其涉及一种音频信号处理的方法、装置、设备和介质。
背景技术
随着互联网以及智能终端技术的发展,人们可以通过语音与终端设备交互。如,车载终端设备可以对接收的用户语音进行语音分析,并根据分析结果执行相应的操作。
但是,终端设备接收的音频信号通常包含大量的噪声,如,车辆行驶中的风噪、胎噪、开关窗噪声以及引擎声等。这些噪声会对音频信号中目标语音的分析造成干扰,降低了语音分析的准确度。
由此,在处理音频信号时,如何抑制音频信号中的噪声以及增强目标信号,是一个亟待解决的问题。
发明内容
本申请实施例提供一种音频信号处理的方法、装置、设备和介质,用以在处理音频信号时,抑制音频信号中的噪声,以及增强音频信号中的目标信号。
一方面,提供一种音频信号处理的方法,包括:
获取音频信号,音频信号为多个声音采集设备采集的多个信号源的信号;
对音频信号进行信号源数量分析,获得概率分布向量,概率分布向量表示音频信号中包含的信号源的数量的概率分布;
根据音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的;
根据概率分布向量以及信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵;
根据估计信号矩阵,获得目标音频信号。
较佳的,对音频信号进行信号源数量分析,获得概率分布向量,包括:
当设定的信号源个数不高于获取的声音采集设备的设备数量时,将音频信号作为训练好的数量估计模型的输入数据,获得概率分布向量;
当设定的信号源个数高于获取的声音采集设备的设备数量时,采用预设的高斯混合模型,对音频信号进行聚类,获得包含设备数量的信号源的音频信号,并根据聚类后的音频信号,获得概率分布向量;
其中,数量估计模型是基于深度神经网络对样本音频信号和相应的信号源的样本数量训练获得的,高斯混合模型为基于高斯概率密度函数获得的模型。
较佳的,根据音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,包括:
将音频信号进行频域变换,获得频域变换信号;
将频域变换信号作为信号分离模型的输入数据,获得信号分离矩阵。
较佳的,根据概率分布向量以及信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵,包括:
将概率分布向量与信号分离矩阵点乘,获得估计信号矩阵。
较佳的,根据估计信号矩阵,获得目标音频信号,包括:
将估计信号矩阵进行平滑处理;
将平滑处理后的估计信号矩阵进行反短时傅里叶变换,获得目标音频信号。
一方面,提供一种音频信号处理的装置,包括:
获取单元,用于获取音频信号,音频信号为多个声音采集设备采集的多个信号源的信号;
分析单元,用于对音频信号进行信号源数量分析,获得概率分布向量,概率分布向量表示音频信号中包含的信号源的数量的概率分布;
分离单元,用于根据音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的;
估计单元,用于根据概率分布向量以及信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵;
获得单元,用于根据估计信号矩阵,获得目标音频信号。
较佳的,分析单元用于:
当设定的信号源个数不高于获取的声音采集设备的设备数量时,将音频信号作为训练好的数量估计模型的输入数据,获得概率分布向量;
当设定的信号源个数高于获取的声音采集设备的设备数量时,采用预设的高斯混合模型,对音频信号进行聚类,获得包含设备数量的信号源的音频信号,并根据聚类后的音频信号,获得概率分布向量;
其中,数量估计模型是基于深度神经网络对样本音频信号和相应的信号源的样本数量训练获得的,高斯混合模型为基于高斯概率密度函数获得的模型。
较佳的,分离单元用于:
将音频信号进行频域变换,获得频域变换信号;
将频域变换信号作为信号分离模型的输入数据,获得信号分离矩阵。
较佳的,估计单元用于:
将概率分布向量与信号分离矩阵点乘,获得估计信号矩阵。
较佳的,获得单元用于:
将估计信号矩阵进行平滑处理;
将平滑处理后的估计信号矩阵进行反短时傅里叶变换,获得目标音频信号。
一方面,提供一种控制设备,包括:
至少一个存储器,用于存储程序指令;
至少一个处理器,用于调用存储器中存储的程序指令,按照获得的程序指令执行上述任一种音频信号处理的方法的步骤。
一方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一种音频信号处理的方法的步骤。
本申请实施例提供的一种音频信号处理的方法、装置、设备和介质中,对获取的音频信号进行信号源数量分析,获得概率分布向量,概率分布向量表示音频信号中包含的信号源的数量的概率分布;根据音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的;根据概率分布向量以及信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵;根据估计信号矩阵,获得目标音频信号。这样,根据音频信号中包含的各信号源的数量的概率分布,以及从音频信号中分离出的各信号源的分离信号,获得估计的各分离信号,并根据估计的各分离信号获得目标音频信号,可以抑制音频信号中的噪声,增强音频信号中的目标信号,还可以降低计算量以及系统资源消耗。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例方式中一种音频信号处理的方法的实施流程图;
图2为本申请实施例方式中一种数量估计模型的结构示意图;
图3为本申请实施例方式中一种信号分离模型的结构示意图;
图4为本申请实施例方式中一种音频信号处理的装置的结构示意图;
图5为本申请实施例方式中一种控制设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
为了在处理音频信号时,抑制音频信号中的噪声,并提取音频信号中的有效信号,本申请实施例提供了一种音频信号处理的方法、装置、设备和介质。
参阅图1所示,为本申请提供的一种音频信号处理的方法的实施流程图。
该方法的具体实施流程如下:
步骤100:控制设备获取音频信号。
具体的,控制设备获得通过多个声音采集设备采集的多个信号源的信号叠加后的音频信号。
其中,控制设备可以为服务器或终端设备等,也可以为其它设备,在此不作限制。
例如,控制设备可以为车载终端设备。声音采集设备可以为麦克风等设备。
音频信号为多个声音采集设备采集的多个信号源的信号。声音采集设备可以为控制设备的一部分,也可以为独立的设备。也就是说,控制设备可以通过自身的多个声音采集设备采集音频信号,也可以接收其它设备发送的音频信号。
本申请实施例中,对音频信号的处理过程中,分别采用LaTeX语言以及数学公式两种方式对音频信号的处理过程进行详细说明。其中,LaTeX是一种排版系统,通过LaTeX语言可以生成相应的数学公式。LaTeX语言与数学公式之间可以相互转换。
本申请实施例中,控制设备针对音频信号建立了相应的音频信号模型。音频信号模型可以采用以下LaTeX语言表示:
y_t=\sum_{m=1}^{M}\sum_{n=1}^{N}h_{n,m}(t)\ast s_n(t)+z(t);
其中,y_t为音频信号,t为时间,\sum表示求,m为声音采集设备序号,M为声音采集设备的个数,n为信号源序号,N为信号源个数,h_{n,m}(t)为第n个信号源的信号到第m个声音采集设备的信道冲击响应,\ast表示卷积,s_n(t)为第n个信号源的信号,z(t)表示加性噪声。
上述LaTeX语言表示的音频信号模型对应的数学公式为:
其中,yt为音频信号,t为时间,m为声音采集设备序号,M为声音采集设备的个数,n为信号源序号,N为信号源个数,h(n,m)(t)为第n个信号源的信号到第m个声音采集设备的信道冲击响应,sn(t)为第n个信号源的信号,z(t)表示加性噪声。
需要说明的是,声音采集设备的个数M是控制设备获取的。信号源个数N是预先设定的。信号源个数N可以通过实际应用场景估计的信号源个数进行设定,在此不作限制。
这样,就可以通过上述音频信号模型表示接收的音频信号。
步骤101:控制设备对音频信号进行信号源数量分析,获得概率分布向量。
具体的,执行步骤101时,控制设备可以采用以下两种方式;
第一种方式为:当设定的信号源个数不高于获取的声音采集设备的设备数量时,将音频信号作为训练好的数量估计模型的输入数据,获得概率分布向量。
第一种方式适用于信号源数量较少的场景,即较为清净的环境。
第二种方式为:当设定的信号源个数高于获取的声音采集设备的设备数量时,采用预设的高斯混合模型,对音频信号进行聚类,获得包含设备数量的信号源的音频信号,并根据聚类后的音频信号,获得概率分布向量。
也就是说,先对音频信号中的信号源进行类型压缩即聚类,将音频信号中的信号源聚类到特定数量,即设备数量。
第二种方式适用于信号源数量较多的场景,即较为嘈杂的环境。
其中,数量估计模型是基于深度神经网络(Deep Neural Networks,DNN)对样本音频信号和信号源的样本数量训练获得的。高斯混合模型(Gaussian Mixture Model,GMM)为基于高斯概率密度函数获得的模型。高斯混合模型可以通过高斯概率密度函数精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数形成的模型。实际应用中,也可以采用高斯混合模型之外的其它方式对音频信号进行聚类,在此不作限制。
在执行步骤101之前,服务器预先基于DNN对各样本音频信号和相应的信号源的样本数量进行训练,获得数量估计模型。参阅图2所示,为一种数量估计模型的结构示意图。数量估计模型的结构包括:2层全连接层、1层长短期记忆(Long Short Term Memory,LSTM)隐层以及1层激活函数(softmax)隐层。
实际应用中,数量估计模型的结构可以根据实际应用场景进行更改和替换,例如,数量估计模型中每一层的特征输入维数、节点数目、隐层类型以及激活函数类型均可以更改,还可以将数量估计模型的计算数据类型量化为16比特(bit)或8bit。
其中,概率分布向量可以采用以下LaTeX语言表示:
P(t)=[P_1,P_2,…,P_N]^T;
其中,P(t)为N维的概率分布向量,P_n为音频信号中包含n个信号源的概率。n为信号源序号,N为信号源个数,n∈[1,…,N],T为转置,t为时间。
上述LaTeX语言表示的概率分布向量对应的数学公式为:
P(t)=[P1,P2,…,PN]T;
其中,P(t)为N维的概率分布向量,Pn为音频信号中包含n个信号源的概率。n为信号源序号,N为信号源个数,n∈[1,…,N],T为转置,t为时间。
这样,就可以确定音频信号中包含信号源的数量的概率分布。
步骤102:控制设备根据音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵。
具体的,执行步骤102时,控制设备可以采用以下步骤:
S1021:将音频信号进行频域变换,获得频域变换信号。
其中,频域变换信号可以采用LaTeX语言表示:
Y(t,f)=\sum_{m=1}^{M}\sum_{n=1}^{N}H_{n,m}(t,f)S_n(t,f)+Z(t,f);
其中,Y(t,f)为频域变换信号,t为时间,f为频率,m为声音采集设备序号,M为声音采集设备的个数,n为信号源序号,N为信号源个数,\sum表示求和,H_{n,m}为第n个信号源的信号到第m个声音采集设备的信道冲击响应的频域变换,S_n(t,f)为第n个信号源的信号的频域变换,Z(t,f)为加性噪声的频域变换。
上述LaTeX语言表示频域变换信号对应的数学公式为:
其中,y(t,f)为频域变换信号,t为时间,f为频率,m为声音采集设备序号,M为声音采集设备的个数,n为信号源序号,N为信号源个数,H(n,m)为第n个信号源的信号到第m个声音采集设备的信道冲击响应的频域变换,Sn(t,f)为第n个信号源的信号的频域变换,Z(t,f)为加性噪声的频域变换。
这样,就可以将音频信号进行频域变换,获得频域变换后的频域变换信号。
S1022:将频域变换信号作为信号分离模型的输入数据,获得信号分离矩阵。
具体的,信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的,用于从频域变换信号中分离出各信号源的分离信号,获得信号分离矩阵。其中,样本信号为频域变换信号的样本。
一种实施方式中,参阅图3所示,为一种信号分离模型的结构示意图。信号分离模型的结构包括:4层卷积神经网络(Convolutional Neural Network,CNN)隐层以及一个LSTM集合。LSTM集合的输出状态信息为NxM矩阵W(t)。实际应用中,信号分离模型的结构可以根据实际应用场景进行更改,在此不作限制。
其中,信号分离矩阵可以采用以下LaTeX语言表示:
X(t,f)=[X_1(t,f),X_2(t,f),…,X_N(t,f)]^T=W(t)[Y_1(t,f),Y_2(t,f),…,Y_M(t,f)]^H;
其中,X(t,f)为信号分离矩阵,t为时间,f为频率,X_n(t,f)表示第n个信号源的分离信号,n为信号源序号,n∈[1,…,N],N为信号源个数,T表示转置,W(t)为输出状态信息,Y_m(t,f)为第m个声音采集设备对应的频域变换信号,m为声音采集设备序号,m∈[1,…,M],M为获取的声音采集设备的个数。H表示共轭转置。
上述LaTeX语言表示的信号分离矩阵对应的数学公式为:
X(t,f)=[X1(t,f),X2(t,f),…XN(t,f)]T=W(t)[Y1(t,f),Y2(t,f),……,YM(t,f)]H;
其中,X(t,f)为信号分离矩阵,t为时间,f为频率,Xn(t,f)表示分离出的第n个信号源的分离信号,n为信号源序号,n∈[1,…,N],N为信号源个数,T表示转置,W(t)为输出状态信息,Ym(t,f)为第m个声音采集设备对应的频域变换信号,m为声音采集设备序号,m∈[1,…,M],M为获取的声音采集设备的个数。H表示共轭转置。
由于频域变换信号为多个声音采集设备对应的时频信号的线性混叠,因此,本申请实施例中,通过信号分离模型解除频域变换信号的线性混叠,获得各信号源的分离信号。
步骤103:控制设备根据概率分布向量以及信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵。
具体的,控制设备将概率分布向量与信号分离矩阵点乘,获得估计信号矩阵。
其中,将概率分布向量与信号分离矩阵点乘,获得估计信号矩阵时,可以采用以下LaTeX语言表示:
S^{\hat}(t,f)=[S^{\hat}_1(t,f),S^{\hat}_2(t,f),…,S^{\hat}_N(t,f)]^T=P(t)\hadamard\{W(t)[Y_1(t,f),Y_2(t,f),…,Y_M(t,f)]^H\};
其中,S^{\hat}(t,f)为估计信号矩阵,\hat表示估计,t为时间,f为频率,S^{\hat}_n(t,f)表示估计的第n个信号源的分离信号,n为信号源序号,n∈[1,…,N],N为信号源个数,T为转置,P(t)为概率分布向量,\hadamard表示向量点乘,W(t)为输出状态信息。Y_m(t,f)为第m个声音采集设备对应的频域变换信号,m为声音采集设备序号,m∈[1,…,M],M为声音采集设备的个数,H为共轭转置。
其中,将概率分布向量与信号分离矩阵点乘,获得估计信号矩阵时,上述LaTeX语言对应的数学公式为:
S^(t,f)=[S1^(t,f),S2^(t,f),…,SN^(t,f)]T=P(t)·W(t)[Y1(t,f),Y2(t,f),…,YM(t,f)]H;
其中,S^(t,f)为估计信号矩阵,t为时间,f为频率,Sn^(t,f)表示估计的第n个信号源的分离信号,n为信号源序号,n∈[1,…,N],N为信号源个数,T表示转置,P(t)为概率分布向量,W(t)为输出状态信息,Ym(t,f)为第m个声音采集设备对应的频域变换信号,m为声音采集设备序号,m∈[1,…,M],M为声音采集设备的个数,H表示共轭转置。
这样,就可以通过音频信号的信号源的数量的概率分布向量以及表示各信号源的分离信号的信号分离矩阵,获得表示估计分离信号的估计信号矩阵。
步骤104:控制设备根据估计信号矩阵,获得目标音频信号。
具体的,控制设备将估计信号矩阵进行平滑处理,并将平滑处理后的估计信号矩阵进行反短时傅里叶变换,获得目标音频信号。
其中,将估计信号矩阵进行平滑处理,并将平滑处理后的估计信号矩阵进行反短时傅里叶变换,获得目标音频信号时,可以采用以下LaTeX语言表示:
S^{\hat}_t=iSFFT(\sum_{\tao}\{\frac{E\{S^{\hat}(t-\tao,f)S^{\hat}(t+\tao,f)\}}{E\{S^{\hat}(t,f)^2\}}\[(1-\alpha_t)S^{\hat}(t-\tao,f)+\alpha S^{\hat}(t+\tao,f)\]\});
其中,S^{\hat}_t为目标音频信号,iSFFT表示反短时傅里叶变换,\sum表示求和,\tao表示时间延迟,\frac表示分数,E{}表示求期望值,\alpha表示α。
其中,将估计信号矩阵进行平滑处理,并将平滑处理后的估计信号矩阵进行反短时傅里叶变换,获得目标音频信号时,上述LaTeX语言对应的数学公式为:
这样,就可以对估计信号矩阵进行平滑处理以及反短时傅里叶变换,获得目标音频信号。
进一步地,在获得目标音频信号之后,控制设备还可以对获得的目标音频信号进行进一步应用,如,对目标音频信号进行语音识别,获得语音指令,并根据语音指令执行相应的操作。语音指令可以为离线唤醒以及短命令词识别等。
下面采用一个具体的应用场景对上述实施例的应用进行说明。控制设备为车载终端设备。车载终端设备采用本申请实施例去除音频信号中包含的车载噪声,获得驾驶员的目标语音,并对目标语音进行识别,获得离线唤醒指令,并执行离线唤醒指令。实际应用中,车载终端设备可以在避免伤害目标语音的条件下,对车载噪声进行有效抑制和消除,获得目标语音,进而通过语音识别获得去除干扰后的主驾驶语音指令,有效提高了语音识别的准确度。进一步地,计算量以及能量消耗较小,可以适用于多种车型。
由于接收的音频信号为多个声音采集设备在时域上接收的多个信号源的混叠信号,因此,本申请实施例中,针对音频信号建立相应的音频信号模型,并根据音频信号模型,对音频信号进行频域变换,获得频域变换信号。鉴于频域变换信号为多个信号源对应的视频信号的线性混叠,通过预先训练好的信号分离模型解除频域变换信号的线性混叠,分离出各信号源的分离信号,获得信号分离矩阵并获得音频信号中包含的信号源的数量的概率分布向量,进一步地,通过获得的概率分布向量以及信号分离矩阵,对各分离信号进行估计,获得估计信号矩阵,以及对估计信号矩阵进行平滑处理以及反短时傅里叶变换,获得目标音频信号。
本申请实施例可以抑制音频信号中的噪声,对有效的目标信号进行增强,获得目标音频信号,从而可以减少噪音对目标音频信号分析时的干扰,提高了目标音频信号分析的准确度。再者,采用的数量估计模型以及信号分离模型极大地减少了计算量,降低了系统的能量消耗,可以适用于多种复杂声音干扰场景和设备,适用范围广。
基于同一发明构思,本申请实施例中还提供了一种音频信号处理的装置,由于上述装置及设备解决问题的原理与一种音频信号处理的方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,其为本申请实施例提供的一种音频信号处理的装置的结构示意图,包括:
获取单元401,用于获取音频信号,音频信号为多个声音采集设备采集的多个信号源的信号;
分析单元402,用于对音频信号进行信号源数量分析,获得概率分布向量,概率分布向量表示音频信号中包含的信号源的数量的概率分布;
分离单元403,用于根据音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的;
估计单元404,用于根据概率分布向量以及信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵;
获得单元405,用于根据估计信号矩阵,获得目标音频信号。
较佳的,分析单元402用于:
当设定的信号源个数不高于获取的声音采集设备的设备数量时,将音频信号作为训练好的数量估计模型的输入数据,获得概率分布向量;
当设定的信号源个数高于获取的声音采集设备的设备数量时,采用预设的高斯混合模型,对音频信号进行聚类,获得包含设备数量的信号源的音频信号,并根据聚类后的音频信号,获得概率分布向量;
其中,数量估计模型是基于深度神经网络对样本音频信号和相应的信号源的样本数量训练获得的,高斯混合模型为基于高斯概率密度函数获得的模型。
较佳的,分离单元403用于:
将音频信号进行频域变换,获得频域变换信号;
将频域变换信号作为信号分离模型的输入数据,获得信号分离矩阵。
较佳的,估计单元404用于:
将概率分布向量与信号分离矩阵点乘,获得估计信号矩阵。
较佳的,获得单元405用于:
将估计信号矩阵进行平滑处理;
将平滑处理后的估计信号矩阵进行反短时傅里叶变换,获得目标音频信号。
本申请实施例提供的一种音频信号处理的方法、装置、设备和介质中,对获取的音频信号进行信号源数量分析,获得概率分布向量,概率分布向量表示音频信号中包含的信号源的数量的概率分布;根据音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的;根据概率分布向量以及信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵;根据估计信号矩阵,获得目标音频信号。这样,根据音频信号中包含的各信号源的数量的概率分布,以及从音频信号中分离出的各信号源的分离信号,获得估计的各分离信号,并根据估计的各分离信号获得目标音频信号,可以抑制音频信号中的噪声,增强音频信号中的目标信号,还可以降低计算量以及系统资源消耗。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于上述实施例,参阅图5所示,本申请实施例中,一种控制设备的结构示意图。
本申请实施例提供了一种控制设备,该控制设备可以包括处理器510(CenterProcessing Unit,CPU)、存储器520,还可以包括输入设备530和输出设备540等,输入设备530可以包括键盘、鼠标、触摸屏等,输出设备540可以包括显示设备,如液晶显示器(LiquidCrystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器520可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器510提供存储器520中存储的程序指令和数据。在本申请实施例中,存储器520可以用于存储本申请实施例中音频信号处理的程序。
处理器510通过调用存储器520存储的程序指令,处理器510用于执行图1所示的实施例提供的一种音频信号处理的方法。
本申请实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意方法实施例中的音频信号处理的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种音频信号处理的方法,其特征在于,包括:
获取音频信号,所述音频信号为多个声音采集设备采集的多个信号源的信号;
对所述音频信号进行信号源数量分析,获得概率分布向量,所述概率分布向量表示音频信号中包含的信号源的数量的概率分布;其中,对所述音频信号进行信号源数量分析,获得概率分布向量,包括:当设定的信号源个数不高于获取的声音采集设备的设备数量时,将所述音频信号作为训练好的数量估计模型的输入数据,获得概率分布向量;当设定的信号源个数高于获取的声音采集设备的设备数量时,采用预设的高斯混合模型,对所述音频信号进行聚类,获得包含所述设备数量的信号源的音频信号,并根据聚类后的音频信号,获得概率分布向量;其中,所述数量估计模型是基于深度神经网络对样本音频信号和相应的信号源的样本数量训练获得的,所述高斯混合模型为基于高斯概率密度函数获得的模型;
根据所述音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,所述信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的;
根据所述概率分布向量以及所述信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵;
根据所述估计信号矩阵,获得目标音频信号。
2.如权利要求1所述的方法,其特征在于,根据所述音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,包括:
将所述音频信号进行频域变换,获得频域变换信号;
将所述频域变换信号作为所述信号分离模型的输入数据,获得信号分离矩阵。
3.如权利要求1-2任一项所述的方法,其特征在于,根据所述概率分布向量以及所述信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵,包括:
将所述概率分布向量与所述信号分离矩阵点乘,获得估计信号矩阵。
4.如权利要求1-2任一项所述的方法,其特征在于,根据所述估计信号矩阵,获得目标音频信号,包括:
将所述估计信号矩阵进行平滑处理;
将平滑处理后的估计信号矩阵进行反短时傅里叶变换,获得目标音频信号。
5.一种音频信号处理的装置,其特征在于,包括:
获取单元,用于获取音频信号,所述音频信号为多个声音采集设备采集的多个信号源的信号;
分析单元,用于对所述音频信号进行信号源数量分析,获得概率分布向量,所述概率分布向量表示音频信号中包含的信号源的数量的概率分布;其中,所述分析单元用于:当设定的信号源个数不高于获取的声音采集设备的设备数量时,将所述音频信号作为训练好的数量估计模型的输入数据,获得概率分布向量;当设定的信号源个数高于获取的声音采集设备的设备数量时,采用预设的高斯混合模型,对所述音频信号进行聚类,获得包含所述设备数量的信号源的音频信号,并根据聚类后的音频信号,获得概率分布向量;其中,所述数量估计模型是基于深度神经网络对样本音频信号和相应的信号源的样本数量训练获得的,所述高斯混合模型为基于高斯概率密度函数获得的模型;
分离单元,用于根据所述音频信号以及训练好的信号分离模型,获得表示分离出的各信号源的分离信号的信号分离矩阵,所述信号分离模型是基于深度神经网络对样本信号、样本概率分布向量以及样本信号分离矩阵训练获得的;
估计单元,用于根据所述概率分布向量以及所述信号分离矩阵,获得表示估计的各分离信号的估计信号矩阵;
获得单元,用于根据所述估计信号矩阵,获得目标音频信号。
6.如权利要求5所述的装置,其特征在于,所述分离单元用于:
将所述音频信号进行频域变换,获得频域变换信号;
将所述频域变换信号作为所述信号分离模型的输入数据,获得信号分离矩阵。
7.如权利要求5-6任一项所述的装置,其特征在于,所述估计单元用于:
将所述概率分布向量与所述信号分离矩阵点乘,获得估计信号矩阵。
8.如权利要求5-6任一项所述的装置,其特征在于,所述获得单元用于:
将所述估计信号矩阵进行平滑处理;
将平滑处理后的估计信号矩阵进行反短时傅里叶变换,获得目标音频信号。
9.一种控制设备,其特征在于,包括:
至少一个存储器,用于存储程序指令;
至少一个处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述权利要求1-4任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1~4任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010093002.5A CN111312276B (zh) | 2020-02-14 | 2020-02-14 | 一种音频信号处理的方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010093002.5A CN111312276B (zh) | 2020-02-14 | 2020-02-14 | 一种音频信号处理的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111312276A CN111312276A (zh) | 2020-06-19 |
CN111312276B true CN111312276B (zh) | 2023-01-17 |
Family
ID=71161781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010093002.5A Active CN111312276B (zh) | 2020-02-14 | 2020-02-14 | 一种音频信号处理的方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111312276B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6290803B2 (ja) * | 2015-02-24 | 2018-03-07 | 日本電信電話株式会社 | モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム |
CN106356075B (zh) * | 2016-09-29 | 2019-09-17 | 合肥美的智能科技有限公司 | 盲音分离方法、结构及语音控制系统和电器总成 |
CN106887238B (zh) * | 2017-03-01 | 2020-05-15 | 中国科学院上海微系统与信息技术研究所 | 一种基于改进独立向量分析算法的声信号盲分离方法 |
-
2020
- 2020-02-14 CN CN202010093002.5A patent/CN111312276B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111312276A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US10373609B2 (en) | Voice recognition method and apparatus | |
CN107564513B (zh) | 语音识别方法及装置 | |
CN111261183B (zh) | 一种语音去噪的方法及装置 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
US11830521B2 (en) | Voice activity detection method and system based on joint deep neural network | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
EP3664084A1 (en) | Electronic device and control method therefor | |
CN111429932A (zh) | 语音降噪方法、装置、设备及介质 | |
EP4425482A2 (en) | Model training and tone conversion method and apparatus, device, and medium | |
CN112289334B (zh) | 一种混响消除方法及装置 | |
Liu et al. | Deep CASA for talker-independent monaural speech separation | |
Li et al. | A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN | |
CN113241092A (zh) | 基于双注意力机制和多阶段混合卷积网络声源分离方法 | |
CN118155654B (zh) | 模型训练方法、音频成分缺失识别方法、装置及电子设备 | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
CN115881156A (zh) | 基于多尺度的多模态时域语音分离方法 | |
WO2023102930A1 (zh) | 语音增强方法、电子设备、程序产品及存储介质 | |
Hao et al. | Optimizing the perceptual quality of time-domain speech enhancement with reinforcement learning | |
CN112735466B (zh) | 一种音频检测方法及装置 | |
CN116959422B (zh) | 多对多的实时语音变音方法、设备及存储介质 | |
Zhang et al. | Complex image generation swintransformer network for audio denoising | |
CN111312276B (zh) | 一种音频信号处理的方法、装置、设备和介质 | |
Luo et al. | Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networks for Audio-Visual Speech Separation in Multi-Talker Environments. | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |