CN1815550A

CN1815550A - 可识别环境中的语音与非语音的方法及系统

Info

Publication number: CN1815550A
Application number: CN200510006463.XA
Authority: CN
Inventors: 严嘉鑫; 吴建明; 林哲民
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-02-01
Filing date: 2005-02-01
Publication date: 2006-08-09
Also published as: US7809560B2; US20090070108A1; WO2006082868A2; WO2006082868A3

Abstract

一种可识别环境中的语音与非语音的方法及系统，用于将具有多个频道的混合声音源识别成语音信号及其它非语音信号，该方法包含下列步骤：(a)利用盲信号源分离单元将混合声音源分离成多个声音信号；(b)存储每一个声音信号的频谱；(c)根据所存储的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息，计算出每一个声音信号的频谱波动；及(d)将具有最大频谱波动的其中一个声音信号识别成该语音信号。

Description

可识别环境中的语音与非语音的方法及系统

技术领域

本发明涉及一种可以识别出环境中的语音与非语音的方法及系统，特别是指一种通过计算声音信号的频谱波动而识别出环境中的语音与非语音的方法及系统。

背景技术

盲信号源分离是一种在经由多个信号输入装置(例如，麦克风)所搜集的多个信号源为未知的情况下，由输出的混合信号分离出该原始信号源的技术。然而，该现有的盲信号源分离技术中无法进一步识别该多个分离出的信号源。例如，如果其中一个信号源为语音，而另一个信号源为噪声，则该盲信号源分离技术仅能从输出的混合信号中分离出两种信号，但却无法进一步分辨出何者为语音以及何者为噪声。

因此，便有了用于进一步识别出何者为语音以及何者为噪声的已知技术。例如，日本专利公开号JP2002-023776中所述，该专利公开是利用信号的″峭度(Kurtosis)″来识别信号是语音还是噪声。其重点在于，噪声是呈常态分布(Normal Distribution)，而语音则是呈次高斯分布(Sub-GaussianDistribution)。信号的分布愈趋向常态分布，代表其峭度愈小。因此，就数学上而言，使用峭度来分辨信号是可行的。

然而，真实世界中的声音不仅混合了语音及随机噪声，海包括了其它如音乐之类的非语音，而这种如音乐之类的非语音并非呈正常化分布，因此无法使用信号的峭度特征来区分语音与如音乐之类的非语音。

发明内容

因此，本发明的一个目的是提供一种可识别出环境中的语音与非语音的方法，可用于将具有多个频道的混合声音源识别成一个语音信号及其它非语音信号，而仅需进行一次用于将信号自频域转换至时域的计算。

根据本发明的一个方面，提供一种可识别出环境中的语音与非语音的方法，包括下列步骤：(a)利用盲信号源分离(Blind Source Separation，BSS)单元将混合声音源分离成多个声音信号；(b)存储每一个声音信号的频谱；(c)根据所存储的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息，计算出每一个声音信号的频谱波动；及(d)将具有最大频谱波动的其中一个声音信号识别成语音信号。

本发明的另一个目的是提供一种可识别出环境中的语音与非语音的系统，可用于将具有多个频道的混合声音源识别成一个语音信号及其它非语音信号，而仅需进行一次用于将信号自频域转换至时域的计算。

因此，根据本发明的另一个方面，提供一种可识别出环境中的语音与非语音的系统，包括：盲信号源分离单元、过去频谱存储单元、频谱波动特征取样单元，及信号切换单元。该盲信号源分离单元用于将混合声音源分离成多个声音信号。过去频谱存储单元用于存储每一个声音信号的频谱。该频谱波动特征取样单元用于根据该过去频谱存储单元所送来的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息，计算出每一个声音信号的频谱波动。该信号切换单元用以接收该频谱波动特征取样单元所送来的频谱波动，并将具有最大频谱波动的其中一个声音信号识别成该语音信号。

附图说明

图1是一个系统方框图，说明本发明可识别出环境中的语音与非语音的系统之一的优选实施例；

图2是一个流程图，说明本发明可识别出环境中的语音与非语音的方法之一的优选实施例；及

图3是一个系统方框图，说明图1所示的本发明的可识别出环境中的语音与非语音系统之一的应用。

具体实施方式

有关本发明是前述及其它技术内容、特点与功效，在以下配合参考附图的一个优选实施例的详细说明中，将可清楚的呈现。

根据本发明的可识别出环境中的语音与非语音的方法及系统可用于将具有多个频道的混合声音源识别成一个语音信号以及其它非语音信号。此混合声音源的该多个频道例如可分别由多个话筒(麦克风)所搜集而得，也可以是存储在音频光盘(Audio Compact Disc，Audio CD)中的多个声道(例如，左、右二声道)。

参阅图1，在本发明的方法及系统1的一个优选实施例中，上述混合声音源是指根据两个麦克风8及9所搜集到的声音信号。这两个麦克风8及9从环境中所搜集到的原始声音信号包括该代表人类说话声音的语音5及代表除该语音5外且例如为音乐的非语音6。无论是语音5或非语音6，皆同时被该两个麦克风8及9所搜集，因此需借助本发明的系统1方能分离语音5与非语音6并进一步识别出何者为语音5，以供后续应用。

该系统1包含两个开窗器181、182、两个能量测量器191、192、一个盲信号源分离单元11、过去频谱存储单元12、频谱波动特征取样单元13、信号切换单元14、频率-时间转换器15及能量平滑单元16。而该盲信号源分离单元11包括两个时间-频率转换器114、115、收敛器ΔW116，及两个加法器117、118。当该两个时间-频率转换器114、115是基于快速傅立叶转换(Fast Fourier Transformation，FFT)时，该频率-时间转换器15相对地是基于反快速傅立叶转换(Inverse Fast Fourier Transformation，IFFT)。或是，当该两个时间-频率转换器114、115是基于离散余弦变换(Discrete Cosine Transformation，DCT)时，该频率-时间转换器15相对地是基于反离散余弦变换。

参阅图2，描述本发明的方法的优选实施例，首先，如步骤71所示，利用该盲信号源分离单元11将该两个麦克风8、9所搜集到的混合声音源分离成两个声音信号，但此时并无法判别这两个声音信号中何者为语音5以及何者为非语音6。

步骤71的详细说明如下。首先，麦克风8、9所搜集到的混合声音源的两个频道分别输入至该两个开窗器181、182中。接着，通过在该两个开窗器181、182内所进行的开窗(Windowing)过程，分别将该两个频道声音的每一帧(Frame)乘以一个窗口(Window)，如汉明窗口(HammingWindow)，之后再分别传送至两个能量测量器191、192。接下列，利用两个能量测量器191、192测量每一帧的能量并将其存储至缓存器(图中未示出)中。能量测量器191、192可提供给输出信号一个参考振幅，以调整输出能量，使得输出信号会更平滑。然后，帧的信号被传送至时间-频率转换器114、115。时间-频率转换器114、115是用以将每一帧从时域(TimeDomain)转换至频域(Frequency Domain)。接着，收敛器ΔW116利用频域信息而使每一权值W₁₁、W₁₂、W₂₁、W₂₂收敛。接着，通过与权值W₁₁、W₁₂、W₂₁、W₂₂相乘，可调整每一个信号，然后再利用加法器117、118予以相加。

本发明的特征在于，利用过去频谱存储单元12、频谱波动特征取样单元13及信号切换单元14来计算出每一个声音信号的频谱波动，并将具有最大频谱波动的其中一个声音信号识别成该语音5。

接着，如步骤72所示，利用过去频谱存储单元12来存储每一个信号的频谱。

然后，如步骤73所示，利用频谱波动特征取样单元13，根据过去频谱存储单元12中所存储的过去频谱信息、盲信号源分离单元11所送来的目前频谱信息以及由能量测量器191、192送来的过去能量信息，并根据以下方程式(1)，可计算出每一个声音信号频谱波动。

通过探究语音与如音乐之类的非语音的特性，可以发现可识别出何种声音信号最有可能是语音的有用特征，亦即，频谱波动。频谱波动的定义如以下方程式(1)所示：

其中频率而x[n]为原始信号，且τ为帧的起始点(Begin Of Frame)。方程式(1)中的其它参数则定义为：k是持续时间，取样率/2为声音频率的可识别范围，f(τ，n-1)×f(τ，n)为相邻频带间的关系，则是用以归一化(Normalization)频率能量。

通过上述方程式(1)分别计算语音5与诸如音乐之类的非语音6的频谱波动后，可发现语音5的频谱波动大于音乐的频谱波动。语音5中的元音会导致频谱上产生明显峰值，且语音5的摩擦音(Fricative Sound)会导致连续说话声的频谱图形的剧烈变化。在频率4kHz以上(摩擦音)而周期30ms的期间内，语音5的频谱波动会大于其它非语音6的频谱波动，因为在语音5中元音会与摩擦音相互交错。

在频谱波动特征取样单元13分别计算语音5与非语音6的频谱波动之后，如步骤74所示，本发明便可利用信号切换单元14选择并输出两个声音信号中具有较大频谱波动者，其即为语音5，但仍属于频域。

接着，如步骤75所示，利用该频率-时间转换器15将频域的语音5再转换回时域。所以，相比于已知的盲信号源分离技术需进行两次以上的用于将信号自频域转换至时域的计算，本发明中由于仅需输出已识别出的语音5，因此仅需进行一次用于将信号自频域转换至时域的计算，而语音5以外的其它非语音6由于不需要被输出，也就不需进行频率-时间转换计算。

然后，如步骤76所示，根据由能量测量器191、192送来的过去能量信息，可利用能量平滑单元16平滑该时域的语音信号。

参阅图3，如上所述，利用本发明的方法及系统1可选择并输出两个声音信号中具有较大频谱波动的语音5。然后，此语音5可依序传送至一个语音命令识别单元2及控制单元3，于是可藉此语音操控一个受控装置4。

综上所述，本发明的可识别出环境中的语音与非语音的方法及系统1利用过去频谱存储单元12、频谱波动特征取样单元13及信号切换单元14来计算出每一个声音信号的频谱波动，并将具有最大频谱波动的其中一个声音信号识别成该语音5，且仅需利用一次频率-时间转换将该语音5由频域反转换回时域。

以上所说明的仅是本发明的优选实施例，而不能以此限定本发明实施的范围，本领域技术人员在不脱离所附权利要求所限定的精神和范围的情况下对本发明内容所作的简单的等效变化与修饰，皆属于本发明涵盖的范围。

Claims

1.一种可识别出环境中的语音与非语音的方法，用以将具有多个频道的混合声音源识别成语音信号及其它非语音信号，该方法包括步骤：

(a)利用盲信号源分离单元将混合声音源分离成多个声音信号；

(b)存储每一个声音信号的频谱；

(c)根据所存储的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息，计算出每一个声音信号的频谱波动；及

(d)将具有最大频谱波动的其中一个声音信号识别成该语音信号。

2.根据权利要求1所述的可识别出环境中的语音与非语音的方法，其中该盲信号源分离单元包括多个时间—频率转换器，用以分别将该混合声音源的该多个频道自时域转换至频域，且该方法还包括利用频率—时间转换器将该语音信号从频域转换至时域。

3.根据权利要求2所述的可识别出环境中的语音与非语音方法，其中该多个时间—频率转换器为快速傅立叶转换器，且该多个频率—时间转换器为反快速傅立叶转换器。

4.根据权利要求2所述的可识别出环境中的语音与非语音的方法，还包括利用多个能量测量器分别测量并存储该混合声音源的该多个频道的能量，以及根据该多个能量测量器中所存储的过去能量信息而平滑该时域的语音信号。

5.一种可识别出环境中的语音与非语音的系统，用以将具有多个频道的混合声音源识别成语音信号及其它非语音信号，该系统包含：

盲信号源分离单元，用于将混合声音源分离成多个声音信号；

过去频谱存储单元，用于存储每一个声音信号的频谱；

频谱波动特征取样单元，用于根据该过去频谱存储单元所送来的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息，计算出每一个声音信号的频谱波动；及

信号切换单元，用于接收该频谱波动特征取样单元所送来的频谱波动，并将具有最大频谱波动的其中一个声音信号识别成该语音信号。

6.根据权利要求5所述的可识别出环境中的语音与非语音的系统，其中该盲信号源分离单元包括多个时间—频率转换器，用于分别将该混合声音源的该多个频道从时域转换至频域，且该系统还包括频率—时间转换器，用于将该语音信号从频域转换至时域。

7.根据权利要求6所述的可识别出环境中的语音与非语音的系统，其中该多个时间—频率转换器为快速傅立叶转换器，且该多个频率—时间转换器为反快速傅立叶转换器。

8.根据权利要求6所述的可识别出环境中的语音与非语音的系统，还包括多个能量测量器以及一个能量平滑单元，其中该多个能量测量器用于分别测量并存储该混合声音源的该多个频道的能量，且该能量平滑单元用于根据该多个能量测量器中所存储的过去能量信息而平滑该时域的语音信号。