CN101981612B

CN101981612B - 声音分析装置以及声音分析方法

Info

Publication number: CN101981612B
Application number: CN2009801114346A
Authority: CN
Inventors: 广濑良文; 釜井孝浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2008-09-26
Filing date: 2009-09-17
Publication date: 2012-06-27
Anticipated expiration: 2029-09-17
Also published as: JPWO2010035438A1; CN101981612A; WO2010035438A1; JP4490507B2; US20100204990A1; US8370153B2

Abstract

本发明为一种声音分析装置，并且，包括：声道声源分离部(101)，根据声音生成模型，从输入声音中分离出声道特征和声源特征；基本频率稳定度计算部(103)，根据分离出的声源特征，计算出声源特征中的输入声音的基本频率在时间上的稳定度；稳定分析区间提取部(104)，根据稳定度，提取稳定区间的时间信息；以及声道特征插值处理部(105)，利用包含在提取的稳定区间内的声道特征，来对不包含在稳定区间内的声道特征进行插值。

Description

声音分析装置以及声音分析方法

技术领域

本发明涉及通过分析输入声音，从而提取声道特征和声源特征的声音分析装置以及声音分析方法。

背景技术

近几年，随着声音合成技术的发展，已经能够创作出音质非常高的合成音。

然而，以往的合成音是以播音员的语调宣读新闻的语句等单一的用途为主。

另一方面，在移动电话的服务等方面所提供的服务中逐渐普及的是某种特殊的声音(具有个人再现性的高合成音或，具有高中女学生的语气或关西方言等特殊韵律或声质的合成音)，融汇了一个内容之中，例如，以有名人物的声音消息来代替电铃声等。如上所述，为了增加个人间的交流中的乐趣，对于创作特殊的声音给对方听这样的需求也会增加。

然而，作为合成声音的方法，大致有以下两种方法。第一个方法为波形连接型声音合成方法，该波形连接型声音合成方法为从预先准备的声音单元DB(数据库)中选择适合的声音单元，并且，将选择的声音单元进行连接，从而合成声音的方法。第二个方法为分析合成型声音合成方法，该分析合成型声音合成方法为对声音进行参数分析，并且，根据分析后的声音参数，合成声音的方法。

若考虑对合成音的声质进行各种变化，则所述的波形连接型声音合成方法中，需要将声音单元DB仅准备必要的声质的种类，且需要在切换声音单元DB的同时连接声音单元。因此，为了创作各种声质的合成音，需要庞大的成本。

另一方面，在分析合成型声音合成方法中，使分析后的声音参数发生变形，从而能够对合成音的声质进行转换。通常，在参数分析中使用被称作声源声道模型的模型。

但是，在实际环境下，输入声音时可能掺进各种噪声。因此，需要对掺进的噪声采取对策。例如作为噪音抑制方法，存在专利文献1中所记载的技术。

图11是专利文献1中记载的噪音抑制方法的构成图。

专利文献1中记载的噪音抑制方法中，对于被推定为帧内的不包含声音成分(或者声音成分少)的频带设定比各个噪声帧的频带的增益值小的增益值，所述帧为被判断为声音帧的帧，并且，通过突出声音帧内的包含声音成分的频带，从而得到良好的听感效果。

也就是说，在对输入信号进行噪音的抑制处理的噪音抑制方法中，包括：声音帧判断步骤，判断帧为噪声帧还是声音帧；不同频带的增益决定步骤，根据所述声音帧判断步骤的结果，设定各个帧的不同频带的增益值；以及信号生成步骤，利用在不同频带的增益决定步骤中决定的不同频带的增益值对每个频带进行噪音抑制后对帧进行重组，从而生成被抑制了噪音的输出信号，所述噪音的抑制处理是将输入信号划分为预先规定的时间单位的帧，将该划分的帧划分为规定的频率频带，并且，按照每个该划分后的频带进行的处理。在所述不同频带的增益决定步骤中设定不同频带的增益值，以使在判断决定对象的帧为声音帧的情况下的不同频带的增益值能够小于在判断决定对象的帧为噪声帧的情况下的不同频带的增益值。

[专利文献1]日本国特开2002-169599号公报(第3-4页、图2)

专利文献1中记载的噪音抑制方法通过调节每个频带的增益，从而能够在视听感上抑制噪声的影响。但是，由于调节每个频带的增益，会导致发生声音的频谱结构的变形，因此，出现声音的个人特征发生变形的课题。

此外，也会出现在掺进噪声的突发的情况下，专利文献1中记载的方法不能完全抑制噪声的影响的课题。

发明内容

为了解决上述课题，本发明的目的在于提供一种声音分析装置，即使在如像实际环境那样存在背景噪声的情况下，也能够高精确度地分析声音。

在对声道以及声源进行模型化而得到的声道声源模型中，以往是假定为稳定的声源模型。因此，结果是以声道特征的细微变动作为正确的分析结果而被处理。发明人认为声道为稳定这样的假设比声源为稳定这样的假设更具有妥当性，并且，声源比声道变动得更快。基于这种思考，以往的声道声源模型提取根据声音所持有的波动或分析窗的位置而引起的时间变化，以作为声道特征。这样出现的问题是，声道本不具有的快速变化被作为了声道特征，而声源本身具有的快速变化却被从声源特征中除去。

发明人在专利文献的专利第4294724号公报上公开了解除由此细微变动而产生的影响的方法。也就是说，利用声道稳定这一特征，即使在输入声音内掺进噪声的情况下，也能够消除噪声的影响。

为了实现上述目的，本发明涉及的声音分析装置为通过分析输入声音，从而提取声道特征和声源特征的声音分析装置，其中包括：声道声源分离部，根据对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征；基本频率稳定度计算部，根据由所述声道声源分离部分离出的声源特征，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度；稳定分析区间提取部，根据由所述基本频率稳定度计算部计算出的所述声源特征中的所述输入声音的基本频率在时间上的稳定度，提取所述声源特征的稳定区间的时间信息；以及声道特征插值处理部，利用由所述声道声源分离部分离出的声道特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值。

根据此构成，基于声源特征的稳定区间，对声道特征进行插值。如上所述，由于声源比声道进行快速的变动，从而声源特征比声道特征更容易受到噪声的影响。因此，利用声源特征，从而能够高精确度地分离噪声区间和非噪声区间。因此，基于声源特征的稳定区间，对声道特征进行插值，从而能够高精确度地提取声道特征。

并且，优选的是，所述声音分析装置还包括基音标记赋予部，该基音标记赋予部从由所述声道声源分离部分离出的声源特征中，提取以所述输入声音的基本周期间隔而反复出现的特征点，并且，对提取的特征点赋予基音标记，所述基本频率稳定度计算部，利用由所述基音标记赋予部赋予的基音标记，计算出所述声源特征中的所述输入声音的基本频率，并且，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度。

并且，优选的是，所述基音标记赋予部，从由所述声道声源分离部分离出的声源特征中提取声门闭塞点，并且，对提取的声门闭塞点赋予所述基音标记。

在声门闭塞点中，声源特征的波形具有表示尖锐的波峰的特征。另一方面，噪声区间中的声源特征的波形，在多个位置中能够看到尖锐的峰值。因此，作为特征点利用声门闭塞点，从而在非噪声区间中以规定的周期赋予基音标记，与此相对应，在噪声区间中以无规则的间隔赋予基音标记。利用这样的性质，从而能够高精确度的分离声源特征的稳定区间和非稳定区间。

进一步，优选的是，所述声音分析装置还包括声源特征复原部，该声源特征复原部利用由所述声道声源分离部分离出的声源特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声源特征，来对该声源特征的稳定区间以外的区间的声源特征进行复原。

根据此构成，基于声源特征的稳定区间，对声源特征进行复原。如上所述，由于声源比声道进行快速的变动，因此，声源特征比声道特征更容易受到噪声的影响。因此，利用声源特征，从而能够高精确度的分离噪声区间和非噪声区间。因此，基于声源特征的稳定区间，对声源特征进行复原，从而能够高精确度的提取声源特征。

进一步，优选的是，所述声音分析装置还包括：再现度计算部，计算出由所述声道特征插值处理部进行插值的声道特征的再现度；以及再输入指示部，在由所述再现度计算部计算出的再现度小于规定的阈值的情况下，指示用户再次输入声音。

在噪声的影响大，且不能高精确度的分析声道特征的情况下，使用户再次输入声音，从而能够提取不受噪声的影响的声道特征以及声源特征。

另外，本发明不仅能够作为具有这种特征的处理部的声音分析装置来实现，还能够作为将包含在声音分析装置的特征性的处理部作为步骤的声音分析方法来实现，也能够作为使计算机执行包含在声音分析方法的特征性步骤的程序来实现。并且，这样的程序也能够经由CD-ROM(CompactDisc-Read Only Memory)等记录介质或互联网等通信网络进行流通是不言而喻的。

根据本发明的声音分析装置，即使在输入声音之中掺进噪声的情况下，基于声源特征的稳定区间，也能够对包含在噪声区间的声道特征以及声源特征进行插值。

因此，利用包含在部分被正确分析了的区间的声道特征以及声源特征，能够对包含在其他区间的声道特征以及声源特征进行复原。因此，即使在突发性的噪声被掺进到输入声音中的情况下，也能够不受噪声的影响而高精确度的分析作为输入声音的个人特征的声道特征以及声源特征。

附图说明

图1是示出本发明的实施例涉及的声音分析装置的功能性结构的框图。

图2是示出声源波形的一个例子的图。

图3是用于说明由稳定分析区间提取部对稳定区间进行提取处理的图。

图4是用于说明由声道特征插值处理部对声道特征进行插值处理的图。

图5是示出本发明的实施例涉及的声音分析装置的操作的流程图。

图6是示出输入声音波形的一个例子的图。

图7是示出根据偏自相关系数(PARCOR系数：partial autocorrelation系数)的声道特征的一个例子的图。

图8A是示出没有噪声的区间的声源波形的一个例子的图。

图8B是示出噪声区间的声源波形的一个例子的图。

图9是用于说明由声源特征均衡化处理部对非周期成分边界频率进行均衡化处理的图。

图10是示出本发明的实施例的变形例涉及的声音分析装置的功能性结构的框图。

图11是示出以往的噪音抑制装置的结构的框图。

具体实施方式

(实施例1)

以下，参照附图对本发明的实施例进行说明。

图1是示出本发明的实施例所涉及的声音分析装置的功能性结构的框图。

声音分析装置是将输入的声音分离为声道特征和声源特征的装置，该声音分析装置包括：声道声源分离部101、基音标记赋予部102、基本频率稳定度计算部103、稳定分析区间提取部104、声道特征插值处理部105、以及声源特征均衡化处理部106。

另外，本实施例涉及的声音分析装置能够被包含CPU和存储器的通常的计算机执行。也就是说，能够在CPU上执行用于实现上述的各个处理部的程序，并将该程序以及处理中的中间数据存储在存储器。

声道声源分离部101为基于对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征的处理部。

基音标记赋予部102为从由声道声源分离部101分离出的声源特征中，提取以输入声音的基本周期间隔而反复出现的特征点，并对提取的特征点赋予基音标记的处理部。

基本频率稳定度计算部103为利用由基音标记赋予部102赋予的基音标记，计算出声源特征中的输入声音的基本频率，并计算出声源特征中的输入声音的基本频率在时间上的稳定度的处理部。

稳定分析区间提取部104为基于由基本频率稳定度计算部103计算出的声源特征中的输入声音的基本频率在时间性上的稳定度，提取声源特征的稳定区域的处理部。

声道特征插值处理部105为利用由声道声源分离部101分离出的声道特征中的包含在由稳定分析区间提取部104提取的声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值的处理部。

声源特征均衡化处理部106为求出由声道声源分离部101分离出的声源特征中的包含在由稳定分析区间提取部104提取的声源特征的稳定区间内的声源特征的平均值，并将求出的所述声源特征的平均值作为所述声源特征的稳定区间以外的区间的声源特征的处理部。

以下，对各个构成要素进行详细的说明。

<声道声源分离部101>

声道声源分离部101利用对声道以及声源进行模型化而得到的声道声源模型(对声音的发声机构进行模型化而得到的声音生成模型)，将输入声音分离为声道特征和声源特征。对用于分离的声道声源模型并没有限制，可以为任意的模型。

在例如利用线性预测模型(LPC模型：linear predictive coefficient模型)以作为声道声源模型的情况下，能够预测具有声音波形的抽样值s(n)，该抽样值s(n)是从在其之前的p个抽样值中预测出的。抽样值s(n)能够用公式1表示。

(算式1)

s (n) &cong; α_{1} s (n - 1) + α_{2} s (n - 2) + α_{3} s (n - 3) + . . . + α_{p} s (n - p)

(公式1)

利用相关法或协方差法等方法能够计算出p个抽样值的系数αi。若利用计算出的系数αi，则能够根据公式2生成被输入的声音信号。

(算式2)

S (z) = \frac{1}{A (z)} U (z)

(公式2)

在此，S(z)为声音信号s(n)进行z变换后的值。U(z)为有声声源信号u(n)进行z变换后的值，并表示以声道特征1/A(z)将输入声音S(z)进行逆滤波处理的信号。

进行声音分析时，通常将分析窗内的声音假设为稳定。也就是说，在分析窗内声道特征被假设为稳定。因此，噪声被重叠在输入的声音中的情况下，稳定的噪声会对声道特征产生影响。

另一方面，声源特征是通过滤波器对声音进行滤波而取得的，在此所述滤波器具有被分析的声道特征的逆特性。因此，噪声被重叠在输入声音中的情况下，不稳定的噪声成分包含在声源特征内。

因此，在由于不稳定的噪声而导致分析失败的情况下，根据声道特征难以检测分析区间中的噪声区间，从而需要根据声源特征来判断噪声区间。

利用通过LPC分析而分析的线性预测系数ai，声道声源分离部101也能够计算出PARCOR系数(偏自相关系数)ki。与线性预测系数进行比较，能够得知PARCOR系数具有良好的插值特性。PARCOR系数也能够利用Levinson-Durbin-Itakura算法计算出。另外，PARCOR系数具有以下两个特征。

(特征1)越是低位的系数对因其变动而引起的光谱的影响就越大，相反随着系数成为高位，变动的影响也会变小。

(特征2)高位的系数的变动的影响平稳地波及整个范围。

以下利用PARCOR系数对声道特征进行说明。另外，声道特征不仅限于利用PARCOR系数，也可以利用线性预测系数。还可以利用线谱对(LSP：line spectral pair)。

此外，在作为声道声源模型利用ARX(Autoregressive with exogenousinput：外因输入自动回归)模型的情况下，声道声源分离部101利用ARX分析，能够分离出声道和声源。ARX分析在作为声源使用公式声源模型之处与LPC分析有很大的不同。此外，与LPC分析不同，在ARX分析中，即使在分析区间内包含多个基本周期的情况下，也能够很正确地分离声道和声源的信息(非专利文献1：大冢、糟谷、“音源パルス列を考虑した顽健なARX音声分析法(考虑了声源脉冲列的强健的ARX声音分析方法)”、日本音响学会杂志58卷7号、2002年、p.386-397)。

在ARX分析中、声音是通过公式3所示的生成过程而被生成。在公式3中，S(z)表示声音信号s(n)进行z变换后的值。U(z)是有声声源信号u(n)进行z变换后的值。E(z)是无声噪声声源e(n)进行z变换后的值。也就是说，在ARX分析中，有声声音是通过公式3的第1项被生成，而无声声音是通过公式3的第2项被生成。

(算式3)

S (z) = \frac{1}{A (z)} U (z) + \frac{1}{A (z)} E (z)

(公式3)

此时，利用公式4所示的声音模型以作为有声声源信号u(t)＝u(nTs)的模型。在此，Ts表示采样周期。

(算式4)

u (t) = \{\begin{matrix} 2 a (t - OQ \times T 0) - 3 b {(t - OQ \times T 0)}^{2}, & - OQ \times T 0 < t \leq 0 \\ 0, & elsewhere \end{matrix}

(公式4)

a = \frac{27 AV}{4 O Q^{2} T 0},

b = \frac{27 AV}{4 O Q^{3} {T 0}^{2}}

不过，AV表示有声声源振幅，T0表示基本周期，OQ表示声门释放率。在有声声音的情况下使用公式4的第1项，而在无声声音的情况下使用公式4的第2项。声门释放率OQ表示一个周期内的声门被释放的比率。

声门释放率OQ的值越大，声音就会有变得柔和的倾向。

与LPC分析相比较，ARX分析有以下优点。

(优点1)由于通过分配声源脉冲列而进行分析，因此，在女性或儿童等高音调声音中也能够稳定地提取声道信息，所述声源脉冲列与分析窗内的多个基本周期相对应。

(优点2)尤其，与基本频率F0和第一共振峰频率(F1)相接近的/i/、/u/等窄母音的声道声源分离功能高。

在有声声音区间中，与LPC分析的情况同样，U(z)能够以声道特征1/A(z)对输入声音S(z)进行逆滤波而取得。

与LPC分析的情况相同，在ARX分析中，声道特征1/A(z)的形式与LPC分析中的系统函数的形式相同。由此，声道声源分离部101也能够通过与LPC分析同样的方法，将声道特征变换为PARCOR系数。

<基音标记赋予部102>

基音标记赋予部102对由声道声源分离部101分离出的声源特征在其有声声音区间赋予基音标记。

基音标记是指对以输入声音的基本周期间隔而反复出现的特征点赋予的标记。作为赋予基音标记的特征点的位置，例如为声音波形的功率的峰值位置或声门闭塞点的位置等。

例如，在根据所述的ARX模型分离声道特征和声源特征的情况下，能够得到如图2所示的声源波形以作为声源特征。在图2中横轴表示时间，且纵轴表示振幅。在此波形中，声门闭塞点相当于时刻201以及时刻202中的声源波形的峰值点。基音标记赋予部102对这些点赋予基音标记。声源波形是由声带闭合的动作而产生，而声门闭塞点是指关闭声带的瞬间，并且，具有峰值变得尖锐的特征。

此外，也有在基本波的峰值位置上赋予基音标记的方法。作为用于求出基本波的峰值位置的具体例，在专利文献的专利第3576800号公报上公开了其方法，即由自适应低通过滤器从声音波形中提取基本波，并检测出其峰值位置的方法。

在本发明中，对于将这些作为开始的基音标记赋予的方法，不需要特别的限定。

<基本频率稳定度计算部103>

如上所述，噪声被附加在输入声音中的情况下，关于噪声中的不稳定的噪声会对声源信息产生影响。因此，为了检测出由不稳定的噪声给声源特征带来的影响，基本频率稳定度计算部103计算基本频率的稳定度。

利用由基音标记赋予部102赋予的基音标记，基本频率稳定度计算部103计算出由声道声源分离部101分离出的声源特征中的输入声音的基本频率的稳定度(以下称为“F0稳定度”)。计算F0稳定度的方法不需要特别的限定，但是，例如能够通过以下所示的方法计算出。

首先，利用基音标记，基本频率稳定度计算部103计算出输入声音的基本频率(F0)。在图2中所示的声源波形的例子中，从时刻202到时刻201的时间(即相邻的基音标记之间的时间区间)相当于输入声音的基本周期，其倒数相当于输入声音的基本频率。例如，图3(a)是表示各个基音标记中的基本频率F0的值的图，并且，横轴表示时间，纵轴表示基本频率F0的值。如该图所示，在噪声区间中基本频率F0的值是不均衡的。

接着，按照预先被规定的时间单位的每个分析帧i，基本频率稳定度计算部103计算出F0稳定度STi。由公式5所示，F0稳定度STi能够以从音素区间内的平均的偏差来表示。另外，F0稳定度STi表示，值越小基本频率F0的值越稳定，相反，值越大基本频率F0的值越不均衡。

(算式5)

{ST}_{i} = {({F 0}_{i} - \overset{&OverBar;}{F 0})}^{2}

(公式5)

但是，

(算式6)

\overset{&OverBar;}{F 0}

表示包含分析帧i的音素内的F0的平均。

另外，F0稳定度计算方法并不限于此方法，例如也能够通过计算出自相关函数而判断周期性的强度。例如，对于分析帧内的声源波形s(n)计算出公式6所示的自相关函数φ(n)的值。使用计算出的φ(n)之后，计算出偏离基本周期T0的位置中的相关值φ(T0)。由于计算出的相关值φ(T0)的大小表示周期性的强度，因此，也能够将此相关值作为F0稳定度而计算出。

(算式7)

φ (n) = Σ_{k = 0}^{N} s (k - n) * s (k)

(公式6)

例如图3(b)表示各个基音标记中的F0稳定度，并且，横轴表示时间，纵轴表示F0稳定度的值。如该图所示，可知在噪声区间中F0稳定度变大了。

<稳定分析区间提取部104>

根据由基本频率稳定度计算部103计算出的声源特征中的F0稳定度，稳定分析区间提取部104提取针对声源特征进行了稳定的分析的区间。提取的方法不需要特别的限定，但是，例如能够通过如下所述提取。

例如，稳定分析区间提取部104将通过公式5计算出的F0稳定度小于规定的阈值(Thresh)的分析帧所属的区间判断为声源特征稳定的区间。也就是说，稳定分析区间提取部104提取满足公式7的区间以作为稳定区间。例如图3(c)的以黑色矩形所表示的区间为稳定区间。

(算式8) ST_i＜Tresh

(公式7)

进而，稳定分析区间提取部104还可以提取稳定区间，以使稳定区间连续的时间在规定的时间长度(例如100msec)以上。通过这样的处理，能够除去微小区间的稳定区间(连续时间短的稳定区间)。如图3(d)所示，例如除去在图3(c)中间断性地出现的短的稳定区间，从而能够提取连续且长的区间。

在根据从平均值的偏差计算出F0稳定度的情况下，由于没有考虑偏差的时间变动，因此计算出的是偶然在平均值附近的值，在这样的情况下，基本频率F0不能长时间地稳定在平均值。因此，应该将这样的区间从稳定区间中除去。这样将微小区间除去，从而在之后的处理中能够利用更加稳定且分析好声源特征的区间。

此外，稳定分析区间提取部104还取得与提取的稳定区间相对应的时间区间(以下称为“稳定区间的时间信息”)。

另外，在通过ARX分析分离声道特征和声源特征的情况下，利用Rosenberg-Klatt模型，以作为声带声源波形的模型。由此，最理想的状态为此模型的声源波形与逆滤波的声源波形能够保持一致。因此，在与假设的模型的声源波形相同的基本周期和以逆滤波的声源波形的声门闭塞点为基准的基本周期相背离的情况下，分析已经失败的可能性会高。因此，在这样的情况下，能够判断为不稳定且没有分析好。

<声道特征插值处理部105>

利用对应于由声道声源分离部101分离出的声道特征中的由稳定分析区间提取部104提取的稳定区间的时间信息的声道信息，声道特征插值处理部105对声道特征进行插值。

伴有声带振动的声源信息能够以接近于声音的基本频率(几十Hz到几百Hz)的时间间隔进行变动，但是，作为从声带到嘴唇为止的声道的形状的声道信息是以接近于声音的话速(会话语调的情况下，例如6拍节/秒)的时间间隔进行变化的。因此，根据声道信息在时间性上缓慢变动的特征，从而能够进行插值。

利用从声源特征中提取的稳定区间的时间信息，对声道特征进行插值是本发明的一个特征。仅根据声道特征，来取得此声道特征的稳定的时间信息是比较困难的，并且，不知道哪一个区间为经过了高精度分析的区间。因为，在声道声源模型的情况下，伴有噪声的模型不一致的影响会大量地被附加在声源信息上的可能性高。由于声道信息在分析窗内被进行均衡化，从而单纯地仅根据声道信息的连续性不能进行判断，即使声道信息为一定程度的连续，也未必一定是稳定的分析。另一方面，与声道信息进行比较，作为利用了声道信息的逆滤波波形的声源信息具有短时间单位的信息。由此，易于检测出由噪声而引起的影响。

因此，利用根据声源特征提取的稳定区间，从而能够根据声源特征取得部分被正确分析了的区间。因此，利用取得的稳定区间的时间信息，针对声道特征，能够以稳定区间以外的声道特征对其他的区间进行复原。因此，即使在突发性的噪声被掺进到输入声音中的情况下，也能够高精度地分析作为输入声音的个人特征的声道特征和声源特征，而不受噪声的影响。

接着，以下以具体例表示声道特征的插值方法。

利用由稳定分析区间提取部104提取的稳定区间的PARCOR系数，声道特征插值处理部105对由声道声源分离部101计算出的PARCOR系数的各个维数进行时间方向的插值处理。

插值处理的方法不需要特别的限定，但是，例如按照每个维数通过进行根据如公式8所示的多项式的近似，从而能够进行平滑化。

(算式9)

{\hat{y}}_{a} = Σ_{i = 0}^{p} a_{i} x^{i}

(公式8)

在此，

(算式10)

{\hat{y}}_{a}

表示根据多项式被进行近似的PARCOR系数，αi表示多项式的系数，以及x表示时刻。

在此时，通过仅利用由稳定分析区间提取部104提取的包含在稳定区间内的时间的声道信息作为x，就能够消除噪声的影响。

此外，作为适用近似的时间幅度，若利用每个母音的声道特征作为个人特征，则例如能够将一个音素区间作为近似的单位。所述时间幅度不需要限定在音素区间，也可以将从音素中心到次音素中心为止的区间作为所述时间幅度。另外，在以下的说明中，将音素区间作为近似处理的单位来进行说明。

图4表示在利用5次的多项式近似并以音素单位按照时间方向对PARCOR系数进行插值处理时的1次的PARCOR系数的图。图形的横轴表示时刻，纵轴表示PARCOR系数。虚线表示由声道声源分离部101分离的声道信息(PARCOR系数)，而实线表示通过以音素单位进行多项式近似，从而对稳定区间以外的声道信息进行插值的声道信息(PARCOR系数)。

在本实施例中，多项式的次数是以5次为例进行的说明，但是，多项式的次数不是5次也可以。另外，根据多项式的近似以外，也可以根据移动平均进行插值处理。还可以根据直线进行插值，根据样条曲线进行插值。

在该图中，可知非稳定区间的PARCOR系数被进行了插值。此外，可知由于PARCOR系数的整体被进行平滑化，因此变得光滑了。

另外，在音素边界中设置了适当的过度区间，并且，利用过度区间前后的PARCOR系数，对PARCOR系数进行线性插值，从而能够防止PARCOR系数的间断。

在标签信息被赋予在输入声音中的情况下，最理想的是“音素“为插值的单位。作为其他的单位，也可以使用“拍节”或者“音节”。或者，在母音连续的情况下，也可以将连续的两个母音作为插值的单位。

另一方面，在标签信息没有被赋予的情况下，以规定长度(以使时间幅度大致成为一个音素程度的长度，例如几十msec到几百msec)的时间幅度，对声道特征进行插值即可。

<声源特征均衡化处理部106>

声源特征均衡化处理部106对包含在由声道声源分离部101分离出的声源特征中的由稳定分析区间提取部104提取的稳定区间内的声源特征进行均衡化。

以下，以具体例表示均衡化处理的方法。

例如，基本频率、声门释放度或非周期成分等声源特征与声道特征进行比较，则声源特征不容易受到音韵的影响。在此，通过对由稳定分析区间提取部104提取的稳定区间的各种声源特征进行均衡处理，从而能够使由平均值代表个人的声源特征。

例如有关基本频率，能够利用由稳定分析区间提取部104提取的稳定区间的平均基本频率，以作为此说话者的平均基本频率。

同样，有关声门释放度以及非周期成分，也可以分别利用由稳定分析区间提取部104提取的稳定区间的平均声门释放度以及平均非周期成分，以作为此说话者的平均声门释放度以及平均非周期成分。

这样能够排除由环境噪声而引起的分析精确度劣化的区间，还能够通过进行均衡化，从而稳定地提取说话者的声源特征。

另外，不仅能够利用各个声源特征的平均值，还可以利用方差值，以作为个人特征。通过利用方差值，从而能够控制时间性的变动的大小。因此，具有提高个人特征的再现度的效果。

此外，代替均衡化处理，也可以和声道特征插值处理部105同样，利用各个声源特征(基本频率、声门释放度、非周期成分等)的稳定区间的值，通过插值计算出不稳定区间的值。

<流程图>

以下，根据图5所示的流程图，对工作的详细过程进行说明。

声道声源分离部101从输入声音中分离出声道特征和声源特征(步骤S101)。以图6所示的声音被输入的情况为例进行说明。如图6所示，假设在母音/o/的发音中有突发噪声被掺进。

声道声源分离的方法不需要特别的限定，但是，例如能够通过使用上述的线性预测模型或ARX模型的声音分析方法进行分离。在以下的说明中，假设使用ARX模型进行分离处理。图7是通过使用ARX模型的分离处理，将从图6所示的声音中分离出的声道特征以PARCOR系数表示的图。在此，表示10次的PARCOR系数的每一个PARCOR系数。在图7中，与噪声区间以外的区间相比较，可知噪声区间的PARCOR系数是歪曲的。歪曲的程度依赖于背景噪声的功率。

根据由声道声源分离部101分离的声源特征，基音标记赋予部102提取特征点，并对提取的特征点赋予基音标记(步骤S102)具体地从如图8A以及图8B所示的声源波形中，检测出声门闭塞点，并对声门闭塞点赋予基音标记。图8A表示没有噪声的区间的声源波形，且图8B表示噪声区间的声源波形。这样就会出现噪声给声道声源分离后的声源波形带来的影响。也就是说，由于噪声的影响，本应在声门闭塞点产生的尖锐的峰值不出现，或在声门闭塞点以外的点出现尖锐的峰值。因此，基音标记的位置会受到影响。

声门闭塞点的计算方法不需要特别的限定。例如对如图8A或图8B所示的声源波形进行低通滤波处理，并除去细小的振动成分之后，计算出向下突出的峰值位置即可。(参照例如专利文献：专利第3576800号公报)

即使在利用专利文献的专利第3576800号公报所公开的方法赋予基音标记的情况下，也会受到噪声的影响。也就是说，基音标记被赋予在自适应低通滤波器的输出波形的峰值上。在自适应低通滤波器内设定截止频率，以便仅使声音的基本波通过，但是，此频带当然也存在噪声。由于此噪声的影响，输出波形不是正弦波。因此，峰值位置不是等间距，且F0稳定度会降低。

基本频率稳定度计算部103计算出F0稳定度(步骤S103)。作为计算的方法，使用由基音标记部102赋予的基音标记。相邻的基音标记的间隔与基本周期相对应。因此，基本频率稳定度计算部103通过取其倒数，从而取得基本频率(F0)。图3(a)表示各个基音标记中的基本频率。在该图中，可知在噪声区间中基本周期在细微地变动。作为计算取得的基本频率在时间上的F0稳定度的方法，例如通过取从规定区间的平均值的偏差，从而能够计算出F0稳定度。通过此处理能够取得如图3(b)所示的F0稳定度。

稳定分析区间提取部104提取基本频率F0稳定的区间(步骤S104)。具体地在通过步骤S103取得的各个基音标记时刻的F0稳定度(公式5)小于规定的阈值的情况下，将此时刻的分析结果视为稳定，并且，提取稳定且分析了声源特征的区间。图3(c)表示通过阈值处理提取稳定区间的例子。

稳定分析区间提取部104还可以仅提取在提取的稳定区间中的比规定的时间长度长的区间，以作为稳定区间。因此有如下的优点，即能够防止提取微小的稳定区间，并且，能够提取更稳定且分析好声源特征的区间。图3(d)表示除去微小的稳定区间的例子。

利用通过稳定分析区间提取部104稳定地且分析好的区间的声道特征，声道特征插值处理部105对由于噪声的影响没有稳定地且分析好的区间的声道特征进行插值(步骤S105)。具体地在规定的声音区间(例如音素区间)中，声道特征插值处理部105对作为声道特征的PARCOR系数的各个维数的系数，进行根据多项式函数的近似处理。此时，通过仅利用由稳定分析区间提取部104判断为稳定的区间的PARCOR系数，从而能够对判断为不稳定的区间的PARCOR系数进行插值。

图4表示由声道特征插值处理部105对作为声道特征的PARCOR系数进行插值的例子。在该图中，虚线表示被分析了的1次的PARCOR系数。实线表示利用在步骤104中提取的稳定区间，实施了插值处理的PARCOR系数。

声源特征均衡化处理部106进行声源特征的均衡化处理(步骤106)。具体地对于规定的声音区间(例如有声声音区间或音素区间等)，通过对声源特征参数进行均衡化处理，从而能够提取稳定的声源特征。

图9是表示作为声源特征的一种的非周期成分边界频率的分析结果的图。非周期成分边界频率是来自音韵的影响少的声源特征。因此，能够使利用包含在同一音素区间内的稳定区间的非周期成分边界频率的平均值，来代表不稳定区间的非周期成分边界频率。另外，在进行均衡化处理时，也可以对从非稳定区间中的非周期成分边界频率的平均值的偏差和稳定区间的非周期成分边界频率的平均值进行加法运算。或者，也可以与声道特征同样地，利用稳定区间的非周期成分边界频率，来对不稳定区间的非周期成分边界频率进行插值处理。其他的声门释放率或声源光谱倾斜等声源特征，同样地使利用稳定区间中的值的平均值来代表即可。

(效果)

通过如上所述的构成，根据声源特征被稳定分析了的区间，能够基于包含在该区间内的声道特征以及声源特征，分别对不包含在该区间内的声道特征以及声源特征进行复原。因此，具有以下效果，即使在突发性噪声被掺进输入声音中的情况下，也能够对作为输入声音的个人特征的声道特征和声源特征进行高精确度地分析，而不受噪声的影响。

通过利用这样被提取的输入声音的声道特征以及声源特征，从而例如即使在进行声质转换等时，也能够利用不受噪声影响的目标说话者的声质特征。因此，具有能够获取高音质且被实施个人特性强的声质转换的声音的效果。具体的声质转换的方法不需要特别的限定，但是，例如能够利用专利第4294724号公报所公开的方法进行声质转换。

此外，能够利用如图2所示的1维的声源波形，以作为声源特征。因此，能够通过简单的处理求出声源特征中的输入声音的基本频率的稳定度。

另外，声道特征插值处理(图5中的步骤S 105)和声源特征均衡化处理(图5中的步骤S106)的顺序不需要限定，也可以在执行声源特征均衡化处理(图5中的步骤S106)之后执行声道特征插值处理(图5中的步骤S105)。(变形例)

另外，如图10所示，声音分析装置还可以设置再现度计算部107和再输入指示部108。

在此情况下，再限度计算部107计算出来自声道特征插值处理部105的声道特征的复原的程度，并且，判断复原的程度是否充分。在再现度计算部107判断复原的程度为不充分的情况下，再输入指示部108对用户输出提示指示，以使再次输入声音。

具体地再现度计算部107计算出再现度，该再现度被定义为如下。再现度是指在声道特征插值处理部105中，在利用函数(例如多项式)进行近似，从而对声道特征进行插值时的进行稳定区间中的函数近似时的误差的倒数。在由再现度计算部107计算出的再现度变为小于规定的阈值的情况下，再输入指示部108对用户进行声音的再输入的提示指示(例如消息的显示)。

通过如上所述地构成声音分析装置，在噪声的影响大且不能高精确度地分析个人特征的情况下，使用户再输入声音，从而能够提取不受来自噪声的影响的个人特征(声道特征以及声源特征)。

另外，再现度计算部107也可以将再现度定义为由声道特征插值处理部105对声道特征进行插值的区间(例如几十msec等的区间)的长度与由稳定分析区间提取部104提取的稳定区间的长度的比率，并且，在再现度不足于规定的阈值的情况下，可以使再输入指示部108向用户提示再输入。

通过如上所述，在经过长时间受到噪声的影响的情况下，通过使用户进行声音的再发生，从而能够避免不能恢复的噪声的影响。

以上，针对本发明的实施例涉及的声音分析装置进行了说明，但是本发明并不限定于此实施例。

例如所述的各个装置也可以作为计算机系统来构成，具体地以微处理器、ROM、RAM、硬盘驱动器、显示器装置、键盘、鼠标等组成。RAM或硬盘驱动器内存储计算机程序。由于微处理器是按照计算机程序工作，从而各个装置能够实现其功能。在此，为了实现规定的功能，计算机程序是组合多个表示对计算机的指令的指令码而构成的。

构成所述的各个装置的构成要素的一部分或全部还可以以1个系统LSI(Large Scale Integration：大规模集成电路)构成。系统LSI为将多个构成部集成在一个芯片上而制造的超级多功能LSI，具体地为以包含微处理器、ROM、RAM等而构成的计算机系统。RAM内存储计算机程序。由于微处理器是按照计算机程序工作，从而系统LSI能够实现其功能。

此外，构成所述的各个装置的构成要素的一部分或全部还可以以能够在各个装置上装卸的IC卡或单体的模块构成。IC卡或模块是以微处理器、ROM、RAM等构成的计算机系统。IC卡或模块也可以包含所述的超级多功能LSI。由于微处理器是按照计算机程序工作，从而IC卡或模块能够实现其功能。此IC卡或模块也可以具有抗篡改性。

此外，本发明也可以作为以上所述的方法来实现。此外，这些方法可以作为由计算机执行的计算机程序来实现，也可以作为以所述的计算机程序构成的数字信号来实现。

本发明还可以通过将所述计算机程序或所述数字信号记录在可读取计算机的记录介质来实现，该记录介质例如为软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc：蓝光盘)、半导体存储器等。此外，本发明也可以作为记录在这些记录介质的所述的数字信号来实现。

此外，本发明也可以通过将所述的计算机程序或所述的数字信号经由电气通信线路，无线或有线通信线路、以互联网为代表的网络、数据传播等进行传输来实现。

此外，本发明为具备微处理器和存储器的计算机系统，所述存储器对所述计算机程序进行存储，并且，所述微处理器可以按照所述计算机程序进行工作。

此外，通过将所述程序或所述数据信号记录在所述记录介质并进行传送，或者，通过将所述程序或所述数字信号经由所述网络进行传送，从而可以由独立的其他的计算机系统来执行。

还可以将所述实施例以及所述变形例分别进行组合。

此次公开的实施例在各个方面均为举例说明，本实施例不受这些例子所限。本发明的范围是以权利要求的范围来表示而不是以上述的说明来表示，并且，可以包含和权利要求的范围均等的意思以及范围内的所有的变更。

本发明具有即使在如背景噪声存在的实际环境中，也能够高精确度地分析包含在输入声音中的作为个人特征的声道特征和声源特征的功能，并且，能够适用在实际环境中能够提取声音特征的声音分析装置等。此外，通过将提取的个人特征使用在声质转换中，从而能够适用在用于娱乐等的声质转换装置。此外，也能够将在实际环境中提取的个人特征适用在说话者识别装置等。

符号说明

101 声道声源分离部

102 基音标记赋予部

103 基本频率稳定度计算部

104 稳定分析区间提取部

105 声道特征插值处理部

106 声源特征均衡化处理部

107 再现度计算部

108 再输入指示部

Claims

1.一种声音分析装置，通过分析输入声音，从而提取声道特征和声源特征，所述声音分析装置的特征在于，包括：

声道声源分离部，根据对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征；

基本频率稳定度计算部，根据由所述声道声源分离部分离出的声源特征，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度；

稳定分析区间提取部，根据由所述基本频率稳定度计算部计算出的所述声源特征中的所述输入声音的基本频率在时间上的稳定度，提取所述声源特征的稳定区间的时间信息；以及

声道特征插值处理部，利用由所述声道声源分离部分离出的声道特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值。

2.如权利要求1所述的声音分析装置，其特征在于，

所述声音分析装置还包括基音标记赋予部，该基音标记赋予部从由所述声道声源分离部分离出的声源特征中，提取以所述输入声音的基本周期间隔而反复出现的特征点，并且，对提取的特征点赋予基音标记，

所述基本频率稳定度计算部，利用由所述基音标记赋予部赋予的基音标记，计算出所述声源特征中的所述输入声音的基本频率，并且，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度。

3.如权利要求2所述的声音分析装置，其特征在于，

所述基音标记赋予部，从由所述声道声源分离部分离出的声源特征中提取声门闭塞点，并且，对提取的声门闭塞点赋予所述基音标记。

4.如权利要求1-3中的任一项所述的声音分析装置，其特征在于，

所述声道特征插值处理部，通过以规定的函数对由所述声道声源分离部分离出的声道特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声道特征进行近似，从而对不包含在该声源特征的稳定区间内的声道特征进行插值。

5.如权利要求1所述的声音分析装置，其特征在于，

所述声道特征插值处理部，按照每个规定的时间单位，对由所述声道声源分离部分离出的声道特征进行所述声道特征的插值处理。

6.如权利要求5所述的声音分析装置，其特征在于，

所述规定的时间单位为音素。

7.如权利要求1所述的声音分析装置，其特征在于，

所述声音分析装置还包括声源特征复原部，该声源特征复原部利用由所述声道声源分离部分离出的声源特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声源特征，来对该声源特征的稳定区间以外的区间的声源特征进行复原。

8.如权利要求7所述的声音分析装置，其特征在于，

所述声源特征复原部包括声源特征均衡化处理部，该声源特征均衡化处理部求出由所述声道声源分离部分离出的声源特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声源特征的平均值，并将求出的所述声源特征的平均值作为所述声源特征的稳定区间以外的区间的声源特征。

9.如权利要求8所述的声音分析装置，其特征在于，

所述声源特征均衡化处理部还对包含在所述声源特征的稳定区间内的声源特征的平均值和从所述声源特征的稳定区间以外的区间中的声源特征的平均值的偏差进行加法运算，将加法运算的结果作为所述声源特征的稳定区间以外的区间的声源特征。

10.如权利要求1所述的声音分析装置，共特征在于，

所述声音分析装置还包括：

再现度计算部，计算出由所述声道特征插值处理部进行插值的声道特征的再现度；以及

再输入指示部，在由所述再现度计算部计算出的再现度小于规定的阈值的情况下，指示用户再次输入声音。

11.如权利要求10所述的声音分析装置，其特征在于，

所述再现度计算部，根据在所述声道特征插值处理部对所述声道特征进行插值时的插值前后的所述声道特征的误差，计算出所述声道特征的再现度。

12.如权利要求1所述的声音分析装置，其特征在于，

所述声道声源分离部，利用线性预测模型，从输入声音中分离出声道特征和声源特征。

13.如权利要求1所述的声音分析装置，其特征在于，

所述声道声源分离部，利用外因输入自动回归模型，从输入声音中分离出声道特征和声源特征。

14.如权利要求1所述的声音分析装置，其特征在于，

所述基本频率稳定度计算部，计算出由所述声道声源分离部分离出的声源特征的自相关值，以作为所述声源特征中的所述输入声音的基本频率在时间上的稳定度。

15.一种声音分析方法，通过分析输入声音，从而提取声道特征和声源特征，所述声音分析方法的特征在于，包括以下步骤：

声道声源分离步骤，根据对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征；

基本频率稳定度计算步骤，根据在所述声道声源分离步骤中分离出的声源特征，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度；

稳定分析区间提取步骤，根据在所述基本频率稳定度计算步骤中计算出的所述声源特征中的所述输入声音的基本频率在时间上的稳定度，提取所述声源特征的稳定区间的时间信息；以及

声道特征插值处理步骤，利用在所述声道声源分离步骤中分离出的声道特征中的包含在所述稳定分析区间提取步骤中提取的所述声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值。