CN101589430A

CN101589430A - 声音分离装置、声音合成装置及音质变换装置

Info

Publication number: CN101589430A
Application number: CNA2008800016125A
Authority: CN
Inventors: 广濑良文; 釜井孝浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2007-08-10
Filing date: 2008-08-06
Publication date: 2009-11-25
Anticipated expiration: 2028-08-06
Also published as: US8255222B2; CN101589430B; WO2009022454A1; JP4294724B2; JPWO2009022454A1; US20100004934A1

Abstract

一种声音分离装置，具备：PARCOR计算部(102)，从输入声音信号中提取声道信息；滤波平滑部(103)，在第一时间宽度内，对PARCOR计算部(102)所提取的声道信息进行平滑；逆滤波器部(104)，计算具有由滤波平滑部(103)进行了平滑的声道信息的逆的频率振幅响应特性的滤波器的滤波系数，并利用具有计算的滤波系数的滤波器，对输入声音信号进行滤波；以及声源建模部(105)，从由逆滤波器部(104)进行了滤波的输入声音信息中，切割出比第一时间宽度短的第二时间宽度中所包括的波形，对于被切割出的每个波形，根据该波形计算声源信息。

Description

声音分离装置、声音合成装置及音质变换装置

技术领域

本发明涉及将输入的声音信号分离为声源信息及声道信息的声音分离装置、声音合成装置及音质变换装置。

背景技术

近年来，随着声音合成技术的发展，制作音质非常高的合成音成为可能。

但是，以往的合成音的用途以用播音员声调朗读新闻文章等统一的用途为中心。

另一方面，在便携式电话的服务等中，提供了用名人的声音消息代替来电声音的服务等，具有特征的声音(个人再现性高的合成音、具有女高中生风格或关西方言风格等的特征性韵律、音质的合成音)作为1个内容开始流通。可以想到像这样为了增加个人间的交流中的乐趣，对于制作特征性声音而让对方来听的要求提高。

另外，作为合成声音的方法，大致存在以下2种方法。第一种方法是根据预先准备的声音片断DB(数据库)选择适当的声音片断并连接的波形连接型声音合成方法。第二种方法是分析声音、并根据分析出的参数来合成声音的分析合成型声音合成方法。

如果考虑使上述合成音的音质发生各种变化，则在波形连接型声音合成方法中，需要以需要的音质的种类准备声音片断DB，并切换声音片断DB来实现。因此，为了制作各种音质的合成音，需要巨大的成本。

另一方面，分析合成型声音合成方法使分析出的声音参数变形。由此，可以变换合成音的音质。一般而言，在分析中，使用被称为声源声道模型的模型。但是，将声音信息完全分离为声源信息和声道信息是困难的。因此，存在由于使不完全分离的声源信息(包括声道信息的声源信息)或声道信息(包括声源信息的声道信息)变形，而音质劣化的问题。

以往的分析合成型声音合成方法主要用于声音的压缩编码。在这样的应用中，上述分离不佳不是很大的问题。即，如果在不对参数加以变形的条件下重新合成声音，则能得到与原来的声音接近的声音。在典型的线性预测编码(LPC：Linear Prediction Coding)中，对于声源，假设都是波谱相同的白色噪声或脉冲列。另外，对于声道，假定分子仅为常数项的全极型的传递函数。实际上声源的波谱不是相同的。另外，声道的传递函数由于声道的复杂的凹凸形状及向鼻腔的分支的影响，不成为全极型。因此，在LPC分析合成系统中，存在由模型的不匹配而引起的一定的音质劣化。典型的，已知成为鼻塞或蜂鸣音那样的合成声音的情况。

为了减轻这样的模型的不匹配，对于声源和声道分别采取了以下的对策。

即，关于声源，对于分析对象的声音波形，进行预加强处理。典型的声带声源的波谱具有-12dB/oct.的斜度，声音从嘴唇放射到空间中时附加+6dB/oct.的斜度。因此，一般通过合成预加强处理后的声音波形，来以-6dB/oct.捕捉声带声源的波谱斜度。因此，如果通过对声音波形进行微分来对声带声源的波谱施加+6dB/oct.的斜度，则能够补偿声源波谱斜度。

另外，关于声道，使用以下方法：将如上所述与全极模型不符合的成分提取为预测残差、并将提取出的预测残差叠加入声源信息的方法，即将残差波形用于合成用驱动声源的方法。由此，合成音的波形与原音完全一致。对其残差波形进行矢量量化并以编码号码传输的方式为CELP(码激励线性预测：Code Excited Linear Prediction)。

如果这样，例如在线性预测模型的匹配性低而造成分析精度不佳、无法分离声源信息和声道信息的情况下，重新合成的声音的音质也满足要求。

但是，在使参数变化来变换音质的应用中，尽可能正确地分离声源信息和声道信息是重要的。即，虽然希望改变属于声道的参数(例如共振峰中心频率)，却也同时改变了声源的特性。因此，为了能够独立地控制声道和声源，需要事先正确地分离两者的信息。

在分析合成型的声音合成方法中，作为更正确地进行声源信息和声道信息的分离的方法的技术，例如存在以下技术：对于1次LPC分析中未能完全获取的声道信息，通过进行多次LPC分析来获取，并使声源的波谱信息平滑(例如，参照专利文献1)。

图1是表示专利文献1记载的现有的声音分析装置的结构的框图。

以下，说明图1所示的现有的声音分析装置的动作。输入声音信号1a被输入至第一波谱分析构件2a和逆滤波器构件4a。第一波谱分析构件2a分析输入声音信号1a并提取第一波谱包络参数，将其输出至第一量化构件3a。第一量化构件3a通过将上述第一波谱包络参数量化来求出第一量化波谱包络参数，并将其输出至逆滤波器构件4a和外部。逆滤波器构件4a利用第一量化波谱包络参数，对输入声音信号1a进行逆滤波，从而求出预测残差信号，并将其输出至第二波谱分析构件5a和声源编码构件7a。第二波谱分析构件5a通过分析上述预测残差信号，从而提取第二波谱包络参数，并将其输出至第二量化构件6a。第二量化构件6a通过将上述第二波谱包络参数量化，从而求出第二量化波谱包络参数，并将其输出至声源编码构件7a和外部。声源编码构件7a利用上述预测残差信号和第二量化波谱包络参数，提取声源信号，并将其编码，输出编码的声源信号即编码声源。该编码声源、上述第一量化波谱包络参数及第二量化波谱包络参数成为编码结果。

通过如上地构成声音分析装置，将以往仅通过第一波谱分析构件2a所无法除去的波谱包络特征，通过第二波谱分析构件5a进行提取。由此，可以使由声源编码构件7a输出的声源信息的频率特性平滑。

另外，作为其他相关技术，存在以下声音强调装置：将输入声音分离为声源信息和声道信息，分别强调所分离的声源信息和声道信息，并利用强调的声源信息和声道信息来合成声音(例如，参照专利文献2)。

声音强调装置在输入声音的分离时，计算当前帧的输入声音的自相关函数的值。另外，声音强调装置通过当前帧的输入声音的自相关函数的值与过去的帧的输入声音的自相关函数的值之间的加权平均，计算平均自相关函数的值。由此，能够消除帧间的急剧的声道形状的变化。因此，能够防止强调时的急剧的增益的变化。由此，难以发生异常音。

专利文献1：日本特开平5-257498号公报(第3-4页，图1)

专利文献2：国际公开第2004/040555号小册子

但是，在以往的LPC分析中观察到以下现象：受声音的间距周期影响，作为分析结果的LPC系数(线性预测系数)时间性改变。此现象在下述图5A至图5D所示的与LPC系数在数学上等价的PARCOR系数中也可以观察到。作为产生这样的细微变化的原因，存在以下重要原因。即，通常的分析区间长度设定为包括2个左右的间距周期。另外，在分析时，利用称为汉宁(Hanning)窗或汉明(Hamming)窗的窗函数进行区间切割时，一般除去由区间切割造成的区间的两端的影响。但是，由于这些窗函数与声音波形的位置关系，在分析区间中包括的波形的能量与间距周期联动而改变。

以往的LPC分析中，将由于声音所具有的摆动或分析窗的位置所造成的时间变化提取为声道信息。其结果，存在以下问题：将原本声道所不具有的快速的运动作为声道信息，而将原本声源中存在的快速运动从声源信息中去除。其结果，通过对声道参数施加变形从而进行音质变换时，在保持着细微变化的状态下对声道参数施加变形。因此，存在变得无法得到平滑的声音的问题。这种情况换而言之，是无法正确地进行声源与声道的分离的问题。

因此，在将声道信息或声源信息变形的情况下，包括了各自的原本的信息以外的信息。因此，不免对于受到其影响而失真的声道信息或声源信息进行变形。结果，存在对音质进行了变形的合成音的音质劣化的问题。

例如，在改变了间距的情况下，在声道信息中包括的原来的间距引起的改变成分也残留下来。因此，音质劣化。

进而，在专利文献2记载的声音强调装置中，得到的声源信息是波形信息。为了进行向任意的音质的变换，需要能够一边保持变换源声音的声道及声源的信息一边变形的参数表现，但在专利文献2那样的波形信息中，存在无法进行这样高自由度的变换的问题。

另外，在专利文献1中，通过对声源的频率特性进行平滑，从而使声源接近于LPC的假设的脉冲声源。但是，实际的声源信息与脉冲不一致。因此，在不将声道信息及声源信息变形、而仅仅分析并合成的情况下，即使通过现有技术也可以得到高音质的合成音。但是，存在以下问题：无法像仅对声道信息、或仅对声源信息这样，分别独立地控制声道信息及声源信息来变换音质。

进而，在专利文献2记载的声音强调装置中，得到的声源信息是波形信息。因此，存在该状态下无法任意地变换音质的问题。

发明内容

本发明为了解决上述问题，其目的在于：通过以更加适于音质变换的形式来分离声源信息和声道信息，从而提供一种能够防止使各自的信息变形时的音质劣化的声音分离装置、声音合成装置及音质变换装置。

另外，目的还在于：提供一种能够有效地变换声源信息的声音分离装置、声音合成装置及音质变换装置。

为了达到上述目的，本发明所涉及的声音分离装置分析输入声音信号，提取声道信息和声源信息，其特征在于，具备：声道信息提取部，从输入声音信号中提取声道信息；滤波平滑部，在第一时间宽度内，对上述声道信息提取部所提取的上述声道信息进行平滑；逆滤波器部，计算具有由上述滤波平滑部进行了平滑的上述声道信息的频率响应的逆特性的滤波器的滤波系数，并利用具有计算的上述滤波系数的滤波器，对上述输入声音信号进行滤波；以及声源建模部，从由上述逆滤波器部进行了滤波的上述输入声音信息中，将比上述第一时间宽度短的第二时间宽度中包括的波形切割出来，对于切割出的每个上述波形，根据该波形计算声源信息。

根据该结构，在时间轴方向对包括声源信息在内的声道信息进行平滑。由此，能够提取不包括由声源的间隔周期引起的改变的声道信息。

另外，计算滤波器的滤波系数，并通过该滤波器对输入声音信号滤波，该滤波器具有被平滑的声道信息的逆的频率振幅响应特性。进而，根据被滤波的输入声音，求出声源信息。由此，能够获得包括混杂在声道信息中的信息在内的声源信息。

进而，在声源建模部中，以比滤波平滑部在平滑中使用的时间常数更短的时间常数，对输入声音信号进行参数化。由此，能够包括滤波平滑部所进行的平滑处理中丢失的摆动信息在内，对声源信息进行建模。

因此，能够对于比以往更稳定的声道信息、和包括以往所去除的时间变动在内的声源信息进行建模。

另外，声源信息被参数化。因此，能够有效地变换声源信息。

优选的是，上述声音分离装置的特征在于，还具备：合成部，利用由上述声源建模部输出的声源信息的参数来生成声源波形，并对于生成的上述声源波形，利用由上述滤波平滑部进行了平滑的上述声道信息进行滤波，从而合成声音。

能够利用上述声源信息和声道信息来合成声音。因此，能够合成具有摆动的声音。由此，能够进行自然度高的声音的合成。

进而优选的是，上述声音分离装置的特征在于，还具备：目标声音信息保持部，保持作为目标的音质的声道信息及参数化的声源信息；变换比率输入部，根据上述输入声音信号，输入向作为目标的音质的变换比率；滤波变形部，将由上述滤波平滑部进行了平滑的上述声道信息，以由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声道信息；以及声源变形部，将由上述声源建模部进行了参数化的上述声源信息，以由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声源信息；上述合成部利用由上述声源变形部进行了变形的上述声源信息来生成声源波形，并对于生成的上述声源波形，利用由上述滤波变形部进行了变形的上述声道信息进行滤波，从而合成声音。

能够在保持摆动信息的状态下，对声道信息进行变性。由此，能够防止音质劣化。

对于声源信息和声道信息的各个独立地进行音质变换处理时，也能够变换原本应该变换的信息量。因此，能够防止由音质变换引起的音质劣化。

另外，本发明不仅能够作为具有这样的特征构件的声音分离装置来实现，而且也能够作为将声音分离装置中包括的特征构件划分步骤的声音分离方法来实现，或作为使计算机执行声音分离方法中包括的特征步骤的程序来实现。另外，显然也能够经由CD-ROM(只读光盘：Compact Disc-ReadOnly Memory)等记录介质或互联网等通信网络，使这样的程序流通。

在时间轴方向对包括声源信息在内的声道信息进行平滑。由此，能够提取不包括由声源的间隔周期引起的改变的声道信息。

另外，计算滤波器的滤波系数，该滤波器具有被平滑的声道信息的逆的频率振幅响应特性，并通过该滤波器对输入声音信号滤波。进而，根据被滤波的输入声音，求出被参数化的声源信息。由此，能够获得包括原本混杂在声道信息中的信息在内的声源信息。

进而，以比在平滑中使用的时间常数更短的时间常数，对输入声音信号进行参数化。由此，能够包括平滑处理中丢失的摆动信息在内，对声源信息进行建模。

另外，能够合成具有摆动的声音。由此，能够进行自然度高的声音的合成。

将声道信息变形时，也能够在保持摆动信息的状态下进行变形。由此，能够防止音质劣化。

附图说明

图1是表示以往的声音分析装置的结构的框图。

图2是本发明实施方式1中的音质变换装置的外观图。

图3是表示本发明实施方式1中的音质变换装置的结构的框图。

图4是表示以往的音质变换中波谱包络的对应的图。

图5A是表示基于LPC分析的1次PARCOR系数的例子的图。

图5B是表示基于LPC分析的2次PARCOR系数的例子的图。

图5C是表示基于LPC分析的3次PARCOR系数的例子的图。

图5D是表示基于LPC分析的4次PARCOR系数的例子的图。

图6A是表示通过多项式函数的近似对基于LPC分析的1次PARCOR系数进行平滑的结果的图。

图6B是表示通过多项式函数的近似对基于LPC分析的2次PARCOR系数进行平滑的结果的图。

图6C是表示通过多项式函数的近似对基于LPC分析的3次PARCOR系数进行平滑的结果的图。

图6D是表示通过多项式函数的近似对基于LPC分析的4次PARCOR系数进行平滑的结果的图。

图7是表示音素边界的过渡区间中的PARCOR系数的插补的方法的图。

图8A是表示没有由滤波平滑部进行平滑时的合成音的波谱的图。

图8B是表示由滤波平滑部进行了平滑时的合成音的波谱的图。

图9A是表示输入至逆滤波器部的声音的波形的一个例子的图。

图9B是表示从逆滤波器部输出的波形的一个例子的图。

图9C是表示声音波谱的一个例子的图。

图9D是表示声源波谱的一个例子的图。

图10是表示连续声源波形的波谱与孤立声源波形的波谱之间的比较的图。

图11是声源波谱的高频域的近似方法的概念图。

图12是表示边界频率与DMOS值的关系的图。

图13是声源波谱的低频域的近似方法的概念图。

图14是声源波谱的低频域的近似方法的概念图。

图15A是表示波峰为1个低频域(800Hz以下)的声源波谱的图。

图15B是表示将图15A所示的声源波谱分割为2个的左侧的波谱与基于其二次函数的近似曲线的图。

图15C是表示将图15A所示的声源波谱分割为2个的右侧的波谱与基于其二次函数的近似曲线的图。

图16A是表示波峰为2个低频域(800Hz以下)的声源波谱的图。

图16B是表示将图16A所示的声源波谱分割为2个的左侧的波谱与基于其二次函数的近似曲线的图。

图16C是表示将图16A所示的声源波谱分割为2个的右侧的波谱与基于其二次函数的近似曲线的图。

图17是表示边界频率的分布的图。

图18是表示对通过多项式函数近似的PARCOR系数进行了插补的结果的图。

图19A是表示作为变换源的男性说话人的声音/a/的中心时刻上的声道截面积的一个例子的图。

图19B是表示以变换比率0.5对变换源的PARCOR系数进行了变换后的PARCOR系数所对应的、声音的中心时刻上的声道截面积的一个例子的图。

图19C是表示作为目标的女性说话人的声音/a/的中心时刻上的声道截面积的一个例子的图。

图20是说明声源波形生成的概况的图。

图21是表示声源波谱上附加的相位特性的例子的图。

图22是表示本发明实施方式1的音质变换装置的动作的流程的流程图。

图23是表示本发明实施方式1所涉及的声音合成装置的结构的框图。

图24是表示本发明实施方式2中的音质变换装置的结构的框图。

图25A是表示基于ARX分析的1次PARCOR系数的例子的图。

图25B是表示基于ARX分析的2次PARCOR系数的例子的图。

图25C是表示基于ARX分析的3次PARCOR系数的例子的图。

图25D是表示基于ARX分析的4次PARCOR系数的例子的图。

图26A是表示通过多项式函数的近似对基于ARX分析的1次PARCOR系数进行平滑的结果的图。

图26B是表示通过多项式函数的近似对基于ARX分析的2次PARCOR系数进行平滑的结果的图。

图26C是表示通过多项式函数的近似对基于ARX分析的3次PARCOR系数进行平滑的结果的图。

图26D是表示通过多项式函数的近似对基于ARX分析的4次PARCOR系数进行平滑的结果的图。

图27是表示本发明实施方式2所涉及的声音合成装置的结构的框图。

符号说明

101 LPC分析部

102 PARCOR计算部

103 滤波平滑部

104 逆滤波器部

105 声源建模部

106 滤波变形部

107 目标声音信息保持部

108 声源变形部

109 合成部

110 变换比率输入部

201 ARX分析部

具体实施方式

以下参照附图说明本发明的实施方式。

(实施方式1)

图2是本发明实施方式1中的音质变换装置的外观图。声音分离装置由计算机构成。

音质变换装置是生成将输入的声音的音质变换为作为目标的音质的合成音、并输出合成音的装置，包括声音分离装置111、滤波变形部106、目标声音信息保持部107、声源变形部108、合成部109和变换比率输入部110。

声音分离装置111是根据输入声音来分离声源信息和声道信息的装置，包括LPC(线性预测编码：Linear Prediction Coding)分析部101、PARCOR(偏自相关函数：Partial Auto Correlation)计算部102、滤波平滑部103、逆滤波器部104和声源建模部105。

LPC分析部101是通过对输入的声音进行线性预测分析(LinearPrediction Coding analysis)从而提取声道信息的处理部。

PARCOR计算部102是根据由LPC分析部分析的线性预测系数来计算PARCOR系数的处理部。LPC系数与PARCOR系数在数学上是等价的，PARCOR系数也表示声道信息。

滤波平滑部103是按照每次项在时间方向上对于由PARCOR计算部102计算的PARCOR系数进行平滑的处理部。

逆滤波器部104是以下处理部，即：根据由滤波平滑部103进行了平滑的PARCOR系数，计算具有逆频率振幅响应特性的滤波器的系数，并利用计算出的逆滤波器对声音进行滤波，从而计算声源信息。

声源建模部105是对于由逆滤波器部104计算出的声源信息进行建模的处理部。

滤波变形部106是以下处理部，即：根据下述目标声音信息保持部107所保持的目标的滤波信息、以及由变换比率输入部110输入的变换比率，将由滤波平滑部103进行了平滑的PARCOR系数变形，从而进行声道信息的变换。

目标声音信息保持部107是保持作为目标的音质的滤波信息的存储装置，例如由硬盘等构成。

声源变形部108是以下处理部，即：根据目标声音信息保持部107所保持的声源信息、以及由变换比率输入部110输入的变换比率，将由声源建模部105进行了模型参数化的声源信息变形，从而进行声源信息的变换。

合成部109是利用由滤波变形部106变换的声道信息、以及由声源变换部108变换的声源信息来合成声音的处理部。

变换比率输入部110是以下处理部，即：输入使输入声音如何接近于目标声音信息保持部107所保持的目标声音信息的比率。

通过以上结构要素来构成音质变换装置。音质变换装置的各处理部通过在图2所示的计算机的处理器上执行用于实现该处理部的程序来实现。另外，各种数据存储在计算机的存储器中，用于由计算机执行的处理。

接着，说明各结构要素的详细动作。

<LPC分析部101>

LPC分析部101对于输入的声音进行线性预测分析。线性预测分析对于存在声音波形的标本值y_n，从时间上比其靠前的p个标本值(y_n-1，y_n-2，y_n-3，……，y_n-p)开始预测，如式1所示。

y_{n} &cong; α_{1} y_{n - 1} + α_{2} y_{n - 2} + α_{3} y_{n - 3} + . . . + α_{p} y_{n - p}

(式1)

对于p个标本值的系数α_i(i＝1～p)，能够利用相关法或协方差法等计算。若利用计算出的系数α_i，则能够通过式2表示输入的声音信号S(z)。

S (z) = \frac{1}{A (z)} U (z)

(式2)

A(z)＝1+α₁z^-1+α₂z^-2+…+α_nz^-n

在此，U(z)表示以1/A(z)对输入声音S(z)进行了逆滤波的信号。

<PARCOR计算部102>

一般为了将根据LPC分析等计算出的声道信息变形，进行以下处理，即：提取波谱包络的特征点(例如共振峰)的对应，对进行了对应的特征点间的声道信息进行插补，从而进行声道信息的变形。

图4是表示2个声音的特征点的对应的例子的图。在该图中，作为声音X的波谱特征点，提取x1、x2、x3这3个点，作为声音Y的波谱特征点，提取y1、y2、y3、y4这4个点。

但是，在通过LPC分析等获得波谱包络的情况下，存在以下情况，即：波谱的特征点不一定与共振峰对应，而比较弱的峰值也被用作特征点(y2)。以下，将这样的特征点称为伪共振峰。

在进行对应时，存在将共振峰和伪共振峰错误对应的情况。在该图的例子中，将本来应该存在的x1-y1、x2-y3、x3-y4(图中以实线表示)的对应，变成了x1-y1、x2-y2、x3-y3(图中以虚线表示)的错误的对应。

结果，在进行错误对应的特征点间的声道信息的插补时，由于将本来不对应的x3-y3进行了对应，作为声道信息计算出了不适当的值。

PARCOR计算部102利用由LPC分析部101分析的线性预测系数α_i，计算PARCOR系数(偏自相关系数)k_i。计算方法可以通过莱文森-德宾-板仓(Levinson-Durbin-Itakura)算法来计算。另外，PARCOR系数保持有以下特征。

(1)系数越低次，其变动对波谱的影响越大，随着变为高次，变动的影响减小。

(2)高次的系数的变动的影响在整个域上平坦。

由于PARCOR系数存在这样的特征，所以表现为伪共振峰(波谱包络的弱峰值)的信息，在PARCOR系数上表现为高次的参数。因此，在PARCOR系数上的同次项的插补，能够进行与波谱上的特征点非常接近的对应。该情况在滤波平滑部103的说明中示出实例。

<滤波平滑部103>

图5A-图5D分别表示以上述PARCOR系数(反射系数)表现男性说话人所连续发出的/aeiou/的声音时的1次至4次的PARCOR系数。在各曲线图中，横轴表示分析帧号码，纵轴表示PARCOR系数。其中分析周期为5msec。

图5A-图5D所示的PARCOR系数本来是与表现声道的形状的声道截面积函数等价的参数。因此，应该是与声道的运动的动作相同程度的速度的变动。即，与声带的振动相伴的声源信息能够以接近于声音的基本频率(数十Hz至数百Hz)的时间间隔变动。另一方面，表示从声带到嘴唇的声道的形状的声道信息可以想到以比声带的振动更慢的时间间隔变化。例如，以接近于声音的语速(在对话声调的情况下，以音拍/秒来表示的语速)的时间间隔变化。但是，在图5A-图5D中，可知各次项的参数的时间变动成为比本来的声道的运动的动作更快。即，通过LPC分析所分析的声道信息表现出具有比本来的声道的动作更快的动作信息。该信息可以解释为声源信息的时间性摆动。像这样，声道信息与声源信息的分离不充分的情况下，进行音质变换时，存在无法独立地对各自进行变形的间题。即，即使想要将声道信息变形，也包括声源信息在内进行变换，造成丧失声韵性等不佳影响。

滤波平滑部103对于由PARCOR计算部102计算出的PARCOR系数的各次项，进行时间方向上的平滑。

平滑的方法不特别限定。例如，按照每次项进行基于式3所示的多项式的PARCOR系数的近似，从而能够进行PARCOR系数的平滑。

{\hat{y}}_{a} = Σ_{i = 0}^{p} a_{i} x^{i}

(式3)

在此，

{\hat{y}}_{a}

表示通过多项式近似的PARCOR系数，a_i表示多项式的系数，x表示时刻。

这时作为使用了基于多项式的近似的时间宽度(对应于第一时间宽度)，例如，可以将一个音素区间作为近似的单位。另外，也可以不是音素区间，而将从音素中心到下一音素中心为止来作为时间宽度。其中，以下将音素区间作为平滑的单位进行说明。

图6A-图6D分别表示利用5次多项式近似，以音素为单位在时间方向上对PARCOR系数进行平滑时的1次至4次的PARCOR系数。曲线图的纵轴和横轴与图5A-图5D相同。

在本实施方式中，作为多项式的次数举例说明了5次，但多项式的次数也可以不是5次。另外，除了基于多项式的近似，也可以通过每个音素单位时间的回归直线来近似PARCOR系数。

在该图中，可知按照每个音素，PARCOR系数被进行了平滑，而变得平滑。

另外，平滑的方法不限于此，也可以进行基于移动平均的平滑等。

在音素边界上，PARCOR系数中可以观察到不连续，但可以通过设置适当的过渡区间来插补PARCOR系数，从而防止不连续。插补的方法并不特别限定，例如可以线性插补。

图7是表示设置过渡区间来插补PARCOR系数的值的例子的图。在该图中，表示元音/a/与元音/e/的连接边界的反射系数。在该图中，在边界时刻(t)，反射系数不连续。因此从边界时间设置适当的经过时间(Δt)线性插补t-Δt与t+Δt之间的反射系数，求出插补后的反射系数51。通过这些处理，防止音素边界上的反射系数的不连续。作为经过时间，例如可以为20msec左右。或者，也可以根据前后的元音持续时间长度来改变经过时间。例如，元音区间短时，也缩短经过时间。反之，如果元音区间长，则延长经过时间即可。

图8A和图8B表示对发出了/a/的声音进行分析，并将声源作为脉冲声源合成声音时的合成音的波谱图(横轴为时间，纵轴为频率)。图8A表示不进行声道信息的平滑，而利用脉冲声源合成声音时的合成音的波谱的情况，图8B表示按照上述平滑进行声道信息的平滑，并利用脉冲声源合成声音时的合成音的波谱的情况。

在图8A中，在符号a6所示的部分出现纵纹。这是由PARCOR系数的快速变动而产生的。另一方面，在进行了平滑时的相同位置b6，可知纵纹几乎消失。可知，像这样通过平滑滤波器参数，能够除去声道原本不具有的信息。

<逆滤波器部104>

逆滤波器部104利用由滤波平滑部103进行了平滑的PARCOR系数，形成具有其频率响应的逆特性的滤波器。逆滤波器部104使用被形成的滤波器，对输入声音进行滤波，从而输出输入声音的声源波形。

<声源建模部105>

图9A是表示输入至逆滤波器部104的声音的波形的一个例子的图。图9B是表示从逆滤波器部104输出的波形的一个例子的图。所谓逆滤波器，就是通过从声音中除去声道(vocal tract)的传递特性(transfercharacteristics)，从而推测声带声源的信息。在此，可以得到与通过罗森伯格-克拉特(Rosenberg-Klatt)模型等假设的微分声门体积流波形(differentiated glottal volume velocity waveform)类似的时间波形。图9B所示的波形具有比罗森伯格-克拉特模型的波形更细微的结构。这是因为：罗森伯格-克拉特模型是使用简单函数的模型，无法表现各个声带波形所具有的时间性变动、或此外的复杂的振动。

本发明将这样推测的声带声源波形(以下称为“声源波形”)按照以下这样的方法进行建模。

(1)按每1个间距周期推测声源波形的声门封闭时刻。在该推测方法中，存在日本专利第3576800号公报所公开的方法等。

(2)以声门封闭时刻为中心，按声源波形的每个间距周期进行切割。在切割中，使用间距周期的2倍左右的长度的汉宁窗函数。

(3)将切割出的波形变换为频域(Frequency Domain)的表现。变换的方法不特别限定。例如，使用离散傅立叶变换(Discrete FourierTransform：以下称为DFT)或离散余弦变换(Discrete Cosine Transform)来变换为频域的表现。

(4)通过从DFT的各频率成分中除去相位成分，制作振幅波谱信息。为了除去相位成分，通过下面的式(4)将由复数表示的频率成分置换为绝对值。

z = \sqrt{x^{2} + y^{2}}

(式4)

在此，z表示绝对值，x表示频率成分的实数部分，y表示频率成分的虚数部分。

(5)以一个或多个函数近似振幅波谱信息。提取上述近似函数的参数(系数)作为声源信息。

在这样的方法中，以1间距周期量的时间宽度(对应于第二时间宽度)提取声源信息，进行建模。在声源波形中，在时间方向上，多个间距周期连续存在。因此，对于该全部的间距周期，进行这样的建模。由于以间距周期为单位进行建模，所以声源信息以比声道信息大大缩短的时间常数被进行分析。

接着说明以函数近似声源的振幅波谱信息的方法的详情。

<以函数近似声源的振幅波谱信息的方法>

说明将逆滤波器部104的输出波形(图9B)按照每个间距周期进行建模的方法的详情。该输出波形是从声音中除去声道的传递特性从而推测的微分声门体积流波形。因此，具有除去了共振峰的比较简单的振幅波谱包络(amlitude spectral envelope)。因此，发明者们考虑通过以低次的函数近似振幅波谱包络从而高效地表现声源的信息。

在以下的说明中，将逆滤波器部104的输出波形称为声源(voicingsource)，将振幅波谱(amplitude spectra)简单地称为波谱(spectra)。

图9C和图9D分别是表示声音与声源的波谱的一个例子的图。在图9C所示的声音的波谱中，由于共振峰而存在多个波峰。但是，在图9D所示的声源的波谱中，这样的波峰被除去，从低频域(low frequency area)到高频域(high frequency area)，形成大小逐渐减小的形状。因此，可以想到通过右面向下的直线能够比较好地近似声源的波谱。其中，低频域存在从直线偏离的趋势，在该例子中，在170Hz附近存在波峰。这是声源本身具有的波峰，在声源本身的共振峰的意义上，有时称为声门共振峰(glottalformant)。

图9B所示的输出波形是包括多个间距周期的连续波形(ContinuousWaveform)。因此，图9D所示的声源波谱形成示出高频波的锯齿的形状。与此相对，使用汉宁窗函数(Hanning Window Function)等以间距周期的2倍左右的长度切割波形的情况下，高频波的影响消失。因此，声源波谱成为平滑的形状。图10是表示连续声源波形的波谱与利用汉宁窗函数切割了声源波形的孤立波形(Isolated Waveform)的波谱的图。在该图中，如虚线所示，由汉宁窗函数切割出的声源波形的波谱成为极为简单的形状。

在本实施方式中，对于以间距周期的2倍的长度的汉宁窗函数切割出的声源波形(以下称为“声源间距波形”)的每一个，进行声源波形的建模。

发明者们考虑到听觉的特性，着眼于频率越高则频率解析度越低、较大误差也变得不对听取(察觉：perception)造成影响的倾向，考虑了如图11所示以直线近似规定的边界频率(boundary frequency)以上的区域的波谱。这样，通过逐渐降低该边界频率，以主观评价来测定音质劣化的程度。作为主观评价实验，将对于标本频率11.025kHz的女性的1番话语的声音进行了分析并合成的声音，按照边界频率不同，准备了5种。在此基础上，对于19名被实验者，进行基于5种声音与原声音的比较的DMOS(劣化平均观点评分：Degradation Mean Opinion Score)实验(非专利文献：《主观决定传输品质的方法(Method for subjective determination oftransmission quality)》，ITU-I，Recommendation，P.800，1996)。

表1示出DMOS实验中的5个等级的评分和评价。

[表1]

表1评分与评价

评分	评价
评分	评价	5	完全辨认不出劣化(不可察觉)
4	可以辨认出劣化但不妨碍(可察觉但不妨碍)	5	完全辨认不出劣化(不可察觉)
4	可以辨认出劣化但不妨碍(可察觉但不妨碍)	3	稍稍在意劣化(稍稍妨碍)
2	在意劣化(妨碍)	3	稍稍在意劣化(稍稍妨碍)
2	在意劣化(妨碍)	1	非常在意劣化(非常妨碍)

图12表示实验结果。显而易见，对于该实验中使用的声音，直到800Hz附近，即使降低边界频率，也几乎观察不到音质的劣化(稍稍在意劣化的等级)，从500Hz附近音质急剧劣化(在意劣化的等级)。发明者们考虑该劣化是由于上述声门共振峰所引起的波峰对直线近似造成影响而发生的。将此时的边界频率称为下限边界频率(lower limit of boundary frequency)。

进而，发明者们尝试如图13所示，对上述边界频率(800Hz)以上的区域的波谱进行直线近似，对边界频率(800Hz)以下的区域的波谱利用其他函数近似。在该区域中存在由声门共振峰所引起的波峰。因此，以直线的近似是不可能的，需要利用2次以上的函数。在准备实验中，辨认出基于2次函数的近似中低频域的能量下降的现象。这可以想到是因为没有全部再现基本频率成分(fundamental frequency component)的大小，而发生了衰减。因此，进行增加近似函数的次数的实验，可知通过使用大概4次函数来解除低频域的能量的下降。

但是，增加次数意味着对系数的量化的敏感度提高，对硬件的安装上的困难增加。因此，作为替代的方法，如图14所示，将该频带进而分割为2个，进行实验以低次函数对各自进行近似。尝试了以下方法，即：对于包括声门共振峰的波峰在内的频带分配3次函数，而对于其他频带分配2次函数。另外，还尝试了以下方法，即：为了进一步减少信息，对双方的频带保持分配2次函数。

根据该实验可知，通过对双方的频带分配2次函数，能够得到充分的音质。以2个2次函数近似低频域的情况如图15A-图15C所示。图15A是表示低频域(800Hz以下)的声源波谱，图15B表示将该低频域分割为2个的左侧的波谱与基于2次函数的近似曲线。图15C同样表示右侧的波谱与近似曲线。根据这些图，能够良好地近似由声门共振峰引起的波峰。不但如此，可知像鼻音(nasal sound)那样声道不符合全极型模型(all-polemodel)的情况下，也能够精度非常好地进行近似。图16A-图16C那样出现2个声源波谱的波峰的情况下，也能够通过2个2次函数高精度地近似声源波谱。图16A表示低频域(800Hz以下)的声源波谱，图16B表示将该低频域分割为2个的左侧的波谱与基于2次函数的近似曲线。图16C同样表示右侧的波谱与近似曲线。

像这样，以直线近似比边界频率高的频率的区域，以2次函数近似将比边界频率低的频率的区域分割为2个的各自的区域，可知这在近似声源波谱上是有效的。

另一方面，可知对于不同的说话人，上述下限边界频率不同。此前表示了利用女性说话人的声音的例子，但对于男性说话人的声音，如果利用相同的边界频率，则可以观察到低频域的能量降低的现象。可以想到这是因为：男性的基本频率较低，所以声门共振峰的位置(glottal formantfrequency)也较低。可知，实际上将边界频率进一步下降时存在最佳点。

基于这样的结果，并且考虑在连续声音中，即使是同一说话人，声门共振峰的位置也变动，发明人们考虑了与声源波谱相对应地动态设定边界频率的方法。该方法预先将多个频率(276Hz、551Hz、827Hz、1103Hz、1378Hz、1654Hz)作为边界频率的候选存储在表中。依次选择这些边界频率的候选并且按照上述方法对波谱进行近似，选择平方误差(square-error)为最小的边界频率。

按照这样的方法设定的最佳边界频率的相对度数分布如图17所示。图17表示对于各1名男女发出相同说话内容的声音进行分析，并按照上述方法动态设定边界频率时的分布。男性说话人在比女性说话人更低的频率上存在分布的波峰。即可以认为，对于分析对象声音，动态的边界频率设定适宜地发挥作用，有提高声源波谱的近似精度的效果。

像这样，声源建模部105以间距周期为单位，分析逆滤波波形，存储高频域的1次函数的系数(a1，b1)、低频域的频带A的2次函数的系数(a2，b2，c2)、低频域的频带B的2次函数的系数(a3，b3，c3)、边界频率Fc的信息，还有该间距周期的时间位置信息。

另外，在此使用了DFT的频率成分的大小作为声源波谱，但通常在进行振幅波谱显示时，进行将DFT的各个频率成分的大小置换为对数的处理。因此，当然也可以在进行了这样的处理之后再进行通过函数的近似。

<变换比率输入部110>

变换比率输入部110将把输入的声音向由目标声音信息保持部107保持的目标声音信息变换的程度，作为变换比率进行输入。

<滤波变形部106>

滤波变形部106对于由滤波平滑部103进行了平滑的PARCOR系数进行变形。

变换的单位不特别限定，例如说明将音素作为单位进行变换的情况。首先，滤波变形部106从目标声音信息保持部107获取与作为变换的对象的音素对应的目标的PARCOR系数。例如，按照音素种类，准备作为目标的PARCOR系数。

滤波变形部106根据目标的PARCOR系数的信息和由变换比率输入部110输入的变换比率，将输入的PARCOR系数变形。所谓输PARCOR系数，具体而言，指的是由滤波平滑部103进行平滑时所用的多项式。

首先，变换源参数(输入的PARCOR系数)由式5表示，所以滤波变形部106求出该多项式的系数a_i。若通过该系数a_i生成PARCOR系数，则能够生成平滑的PARCOR系数。

{\hat{y}}_{a} = Σ_{i = 0}^{p} a_{i} x^{i}

(式5)

接着，滤波变形部106从目标声音信息保持部107获取作为目标的PARCOR系数。滤波变形部106用式6所示的多项式对所获取的PARCOR系数进行近似，从而求出多项式的系数b_i。其中，基于多项式的近似之后的系数b_i也可以预先存储在目标声音信息保持部107中。

{\hat{y}}_{b} = Σ_{i = 0}^{p} b_{i} x^{i}

(式6)

接着，滤波变形部106利用被变换参数a_i、目标参数b_i和变换比率r，通过式(7)求出变换后的PARCOR系数的多项式的系数c_i。

c_i＝a_i+(b_i-a_i)×r (式7)

通常，变换比率r被指定为0≤r≤1的范围。但是，即使在变换比率超过该范围的情况下，也能够通过式7变换参数。在变换比率超过1的情况下，成为更加强调被变换参数(a_i)与目标元音声道参数(b_i)之间的差分的变换。另一方面，在变换比率r为负值的情况下，成为在逆向更加强调被变换参数(a_i)与目标元音声道参数(b_i)之间的差分的变换。

利用计算出的变换后的多项式的系数c_i，滤波变形部106根据式8求出变换后的滤波系数。

{\hat{y}}_{c} = Σ_{i = 0}^{p} c_{i} x^{i}

(式8)

通过在PARCOR系数的各次项上进行以上的变换处理，能够进行以指定的变换比率向目标的PARCOR系数的变换。

实际上，对于元音/a/，进行上述变换的例子如图18所示。在该图中，横轴表示归一化的时间，纵轴表示第一次项的PARCOR系数。图中的曲线a示出表示被变换声音的男性说话人的/a/的发音的系数的推移。所谓归一化的时间，指的是以元音区间的持续时间长度将时间归一化、从而取从0到1的值的时刻。这是用于在被变换声音的元音持续时间与目标元音信息的持续时间不同的情况下对齐时间轴的处理。同样的，曲线b示出表示目标元音的女性说话人的/a/的发音的系数的推移。曲线c表示利用上述变换方法，以变换比率0.5将男性说话人的系数变形为女性说话人的系数时的系数的推移。根据该图可知，曲线c位于曲线a与曲线b的大概中间。因此可知，通过上述变形方法，能够对说话人间的PARCOR系数进行插补。

在音素边界上，为了防止PARCOR系数的值变得不连续，与滤波平滑部103同样设置适当的过渡区间来进行插补处理。

为了确认PARCOR系数中插补的妥当性，利用式9将PARCOR系数变换为声道截面积函数，并将插补声道截面积的情况由图19A-图19C示出。

\frac{A_{n}}{A_{n + 1}} = \frac{1 - k_{n}}{1 + k_{n}}

(式9)

在此，左边表示区间n与区间n+1的声道的截面积比。k_n表示第n个与第n+1个声道的边界的PARCOR系数。

图19A表示作为变换源的男性说话人的声音/a/的中心时刻上的声道截面积。图19C表示作为目标的女性说话人的声音/a/的中心时刻上的声道截面积。图19B表示以变换比率0.5对变换源的PARCOR系数进行了变换后的PARCOR系数所对应的、声音的中心时刻上的声道截面积。在图19A-图19C中，横轴表示声道的位置，左端表示嘴唇，右端表示正门。纵轴相当于声道截面的半径。

根据图19A-图19C明确可知，以变换比率0.5插补的声音的声道截面积表现出男性说话人与女性说话人的中间的声道的形状。因此可知，能够在声道的物理性特征空间中对男性说话人与女性说话人的中间的PARCOR系数进行插补。

另外，通过多项式近似在时间方向上平滑声道信息，从而能够以极为简单的处理进行声道信息的变换。

<目标声音信息保持部107>

目标声音信息保持部107保持着作为目标的音质的声道信息。作为声道信息，至少按照声韵种类，包括作为1个对象的PARCOR系数的时间序列。按照各种类保持1个PARCOR系数的时间序列的情况下，滤波变形部106获取与该种类对应的PARCOR系数的时间序列。由此，滤波变形部106能够获取对作为目标的PARCOR系数进行了近似的函数。

另外，目标声音信息保持部107在对于各种类保持多个PARCOR系数时间序列的情况下，滤波变形部106选择最适合变换源的PARCOR参数的PACOR系数的时间序列即可。选择方法不特别限定，例如利用专利文献日本特许第4025355号公报所记载的函数选择方法进行选择即可。

另外，目标声音信息保持部107进而保持声源信息作为目标声音信息。声源信息例如包括目标声音的平均基本频率、平均非频率成分边界频率、平均有声源振幅等。

<声源变形部108>

声源变形部108利用由目标声音信息保持部107保持的目标声音信息之中与声源信息相关的信息，对于由声源建模部105进行了建模的声源参数进行变形。

变形的方法不特别限定。例如，对于建模的声源参数的基本频率、非频率成分边界频率、有声源振幅等的平均值，按照由变换比率输入部110输入的变换比率，变换为由目标声音信息保持部107保持的信息，通过以上处理实现即可。

<合成部109>

合成部109通过基于由声源变形部108进行了变形的声源参数的声源，驱动基于由滤波变形部106进行了变形的PARCOR系数的滤波器，生成合成音。不限定具体的生成方法。下面利用图20说明声源波形的生成方法的一个例子。

图20(a)表示以上述方法进行了建模的声源参数近似了振幅波谱的情况。即，将边界频率以下的频域2等分，以2次函数对各自的领域的声源波谱进行近似，并以一次函数对边界频率以上的频域的声源波谱进行近似。合成部109根据该信息(各自的函数的系数)恢复振幅波谱。结果，得到如图20(b)那样的简单化的振幅波谱。合成部109像图20(c)那样以奈奎斯特频率(采样频率的二分之一)为边界将其翻转，制作对称的振幅波谱。

合成部109将这样恢复的频域中的振幅波谱通过IDFT(逆离散傅立叶变换：Inverse Discrete Fourier Transform)变换为时间波形。这样恢复的波形是如图20(d)那样左右对称的1个间距周期量的波形。因此，合成部109通过像图20(e)那样将其重合配置以成为希望的间距周期，从而生成一系列的声源波形。

图20(c)的对称的振幅波谱不具有相位信息。与此相对，像图20(e)那样，通过重合配置被恢复的波形，能够附加相位信息。因此，如图21所示，通过在非周期成分边界频率以上的频带上附加随机的相位，能够在有声源上附加气息性(breathiness)和柔性(softness)。应该附加的相位信息如果以奈奎斯特频率为边界而点对称，那么IDFT的结果为不具有虚数部的时间波形。

接着，利用图22所示的流程图说明音质变换装置的动作。

LPC分析部101对于输入的声音进行LPC分析，计算线性预测系数α_i(步骤S001)。

PARCOR计算部102根据在步骤S001中计算的线性预测系数α_i，计算PARCOR系数k_i(步骤S002)。

滤波平滑部103在时间方向上对于在步骤S002中计算出的PARCOR系数k_i的各次项的参数值进行平滑(步骤S003)。通过该平滑，能够除去在声道信息中残留的声源信息的时间性变动成分。此时，作为通过基于多项式的近似而进行了平滑的情况，继续以下的说明。

逆滤波器部104利用在步骤S003中在时间方向进行了平滑并除去了声源信息的时间性变动的声道信息，生成表现出该声道信息的逆特性的逆滤波器。逆滤波器部104利用所生成的逆滤波器，对输入的声音进行逆滤波(步骤S004)。由此，能够获取包括以往包括在声道信息中的声源信息的时间性变动在内的声源信息。

声源建模部105对于在步骤S004中获取的声源信息进行建模(步骤S005)。

滤波变形部106对于在步骤S003中计算出的以多项式函数近似的声道信息，根据另外由外部输入的变换比率，进行变形以接近于目标的声道信息(步骤S006)。

声源变形部108将步骤S005中进行了模型参数化的声源模型参数变形(步骤S007)。

合成部109根据步骤S006中计算出的声道信息和步骤S007中计算出的声源信息，生成合成音(步骤S008)。其中，步骤S006的处理也可以在步骤S003的处理执行之后紧接着执行。

通过以上处理，对于输入的声音，能够高精度地分离声源信息和声道信息。另外，通过使高精度分离的声道信息及声源信息变形来变换音质的情况下，也能够进行音质的劣化较少的音质变换。

(效果)

以往，在通过LPC分析或PARCOR分析等的声道信息提取方法提取的声道信息中，如图5A-图5D所示，包括时间常数比原本的声道信息的时间变化短的变动。但是，根据本结构，滤波平滑部103通过如图6A-图6D所示，在时间方向对声道信息进行平滑，从而能够除去不是原本的声道信息的时间变化的成分。

进而，利用由滤波平滑部103计算出的滤波系数，对输入的声音进行逆滤波，从而能够获取包括以往被除去的信息在内的声源信息。

因此，能够提取比以往更稳定的声道信息，并进行建模。与此相伴，能够提取包括以往被除去的时间变动在内的更加正确的声源信息，并进行建模。

像这样计算出的声道信息和声源信息，对于各自来说，多余的成分比以往少。因此，即使分别独立地将声道信息及声源信息变形，也具有音质的劣化非常小的效果。因此，能够将音质变换时的自由度设计得较高，能够变换为各种音质。

例如，在由以往的声音分离装置分离的声道信息中，附加了原本由声源引起的成分，所以在进行说话人变换(从说话人A向说话人B的音质变换)等时，即使想要将说话人A的声道信息变形，也包括说话人A的声源成分在内地实施变形。像这样，对于说话人A的声源成分也实施了与说话人A的声道信息的变形相同的变形，所以例如存在丧失声韵性等问题。

另一方面，通过本发明计算出的声道信息和声源信息，对于各自来说，多余的成分比以往少。因此，即使分别独立地将声道信息及声源信息变形，也具有音质的劣化非常小的效果。因此，能够将音质变换时的自由度设计得较高，能够变换为各种音质。

另外，滤波平滑部103对每个音素利用多项式平滑PARCOR系数。由此，具有以下效果，即：对于以往必须按照分析周期保持的声道参数，只要按照音素来保持即可。

另外，在本实施方式的说明中，说明了全部组合了声音的分析、合成及音质变换的方案，但也可以构成为分别独立地执行功能。例如，如图23所示，也可以构成声音合成装置。声音合成装置也可以包括声音分离部和声音合成部，构成为使各自的处理部不同的装置。例如，也可以将服务器和经由网络与该服务器连接的便携式终端装置的某一个作为声音分离部，将另一个作为声音合成部来构成声音合成装置。另外，也可以将经由网络相互连接的2台便携式终端装置的某一个作为声音分离部，将另一个作为声音合成部来构成声音合成装置。另外，声音合成装置也可以包括进行音质变换的处理部来作为其他装置。

另外，声源信息的建模按照每个间距周期进行，但不一定需要以这样短的时间常数来进行建模。对于每数个间距周期，选择出1个间距周期进行建模，由于比声道的时间常数短，所以也保持了以下效果，即：在某种程度上保持了自然度。声道信息跨1个音素的长度以多项式进行近似。因此，例如假设日语对话时的发音速度为6音拍/秒左右，则1音拍为0.17秒左右，其大部分为元音。因此，声道的建模的时间常数为0.17秒左右。另一方面，对于声源信息，如果设间距比较低的男性的间距频率为80Hz，则1个间距周期为1/80秒＝0.013秒。因此，按照每个间距周期进行声源信息的建模时的时间常数为0.013秒，每2个间距周期的建模的情况的时间常数为0.026秒。像这样，即使是每数间距周期的建模，声源信息建模的时间常数也比声道信息建模的时间常数充分短。

(实施方式2)

本发明的实施方式2所涉及的音质变换装置的外观图与图2所示的相同。

图24是表示本发明实施方式2的音质变换装置的结构的框图。在图24中，对于与图3相同的结构要素使用相同符号，并省略说明。

本发明的实施方式2在声音分离装置111变更为声音分离装置211这点上与实施方式1不同。声音分离装置211在提取声道信息的LPC分析部101变更为ARX分析部201这点上与实施方式1不同。

在本说明中，说明ARX分析部201与LPC分析部101的不同，并且以ARX分析部201带来的效果为中心进行说明，对于与实施方式1相同的部分省略说明。音质变换装置的各处理部通过在图2所示的计算机的处理器上执行用于实现该处理器的程序来实现。另外，各种数据存储在计算机的存储器中，用于由处理器执行的处理。

<ARX分析部201>

ARX分析部201利用ARX(外因输入自动回归：Autoregressive withexogenous input)分析，分离声道信息和声源信息。ARX分析在使用数式声源模型作为声源模型这点上与LPC分析大为不同。另外，在ARX分析中，与LPC分析不同，在分析区间内包括多个基本周期的情况下，也能够更加正确地分离声道信息和声源信息(非专利文献：大琢他，《考虑了声源脉冲列的健壮ARX声音分析法》，日本声学会志58卷7号(2002年)，pp.386-397)。

如果设声音信号为S(z)，声道信息为A(z)，声源信息为U(z)，无声的噪声声源为E(z)，那么声音信号S(z)能够由式(10)表示。在此，作为ARX分析中的声源信息U(z)，特征在于利用由式11所示的罗森伯格-克拉特(RK)模型所生成的声源信息。

S (z) = \frac{1}{A (z)} U (z) + \frac{1}{A (z)} E (z)

(式10)

u (n) = \{\begin{matrix} 2 AV (n T_{s} - OQ \times T 0) - 3 b {(n T_{s} - OQ \times T 0)}^{2}, & - OQ \times T 0 < n T_{s} \leq 0 \\ 0, & elsewhere \end{matrix}

(式11)

其中，S(z)、U(z)、E(z)表示s(n)、u(n)、e(n)的z变换。另外，AV表示有声源振幅、Ts表示采样周期、T0表示间距周期、OQ表示声门开放率，有声音的情况下，使用第一项，无声音的情况下使用第二项。

在此，A(z)与LPC分析中的系统函数是相同的形式，所以PARCOR计算部102通过与进行LPC分析时相同的方法，能够计算PARCOR系数。

ARX分析与LPC分析相比存在以下的优点。

(1)在分析窗内，配置与多个间距周期对应的声源脉冲列进行分析。因此，即使是女性或儿童等高间距声音，也能够稳定地提取声道信息。

(2)特别是，F0(基本频率)与F1(第一共振峰频率)接近的/i//u/等窄元音的声道声源分离性能高。

但是，ARX分析与LPC分析相比，也存在需要的处理量大的缺点。

图25A-图25D分别表示通过ARX分析部201分析与图5A-图5D相同的声音，根据作为分析的结果的声道信息，通过PARCOR计算部102计算出的从1次到4次的PARCOR系数。

通过分别比较图25A-图25D和图5A-图5D，可知与使用通过LPC分析部101分析出的声道信息时相比，PARCOR系数的时间性变动较少。据此可知，与使用LPC分析的情况相比，能够改善声道信息的提取精度。

图26A-图26D表示通过滤波平滑部103对于1次到4次的PARCOR系数分别进行了平滑的结果。与图25A-图25D相比，可知声道信息的时间性变化更加平滑。

与使用LPC分析的情况相比，可知难以受到时间上较短的变动的影响，而且能够在保持作为ARX分析的特征的声道声源分离性能的状态下进行平滑。

其他处理与实施方式1相同。

(效果)

以往，在作为基于ARX分析的PARCOR系数被提取出的声道信息中，如图25A-图25D所示，包括时间常数比原本的声道信息的时间变化短的变动。但是，根据本结构，滤波平滑部103通过如图26A-图26D所示，在时间方向对声道信息进行平滑，从而能够除去不是原本的声道信息的时间变化的成分。

在ARX分析中，与LPC分析相比，时间常数短的变动较少，能够获取更正确的声道信息。因此，能够在保持大致的动作的状态下，进一步去除时间常数短的变动，改善了声道信息的精度。

另外，在本实施方式的说明中，说明了全部组合了声音的分析、合成及音质变换的方案，但也可以构成为分别独立地执行功能。例如，如图27所示，也可以构成声音合成装置。声音合成装置也可以包括声音分离部和声音合成部，构成为使各自的处理部不同的装置。另外，声音合成装置也可以包括进行音质变换的处理部来作为其他装置。

另外，本说明书中的说明为了方便而假设为日语，将元音设为/a/、/i/、/u/、/e/、/o/这5种，但元音与辅音的区间是不依赖于语言的概念。因此，本发明的适用范围并不限定于日语，本发明能够适用于所有语言。

另外，在上述实施方式中，包括具有以下结构的发明。

本发明的某一方面所涉及的声音分离装置，将输入声音信号分离为声道信息和声源信息，其特征在于，具备：声道信息提取部，从输入声音信号中提取声道信息；滤波平滑部，在第一时间宽度内，对上述声道信息提取部所提取的上述声道信息进行平滑；逆滤波器部，计算具有由上述滤波平滑部进行了平滑的上述声道信息的频率响应的逆特性的滤波器的滤波系数，并利用具有计算的上述滤波系数的滤波器，对上述输入声音信号进行滤波；以及声源建模部，从由上述逆滤波器部进行了滤波的上述输入声音信息中，切割出比上述第一时间宽度更短的第二时间宽度中所包括的波形，对于被切割出的每个上述波形，根据该波形计算声源信息。

在此，也可以上述声源建模部对于被切割出的每个上述波形，将该波形变换为频域的表现，以第一函数近似比规定的边界频率高的频域中包括的振幅波谱，并以比上述第一函数次数高的第二函数近似上述规定的边界频率以下的频域中包括的上述振幅波谱，将上述第一及第二函数的系数输出为参数化的声源信息。

另外，上述第一函数也可以是1次函数。

另外，也可以上述声源建模部进而分别以2次以上的函数近似将上述规定的边界频率以下的频域分割为2个的2个频域中包括的上述振幅波谱，并将该2次以上的函数的系数输出为参数化的声源信息。

另外，也可以上述声源建模部一边对于由上述逆滤波器部进行了滤波的上述输入声音信号的间距周期的大致2倍的长度的窗函数，在时间轴方向上以上述间距周期进行移动，一边从上述输入声音信号中切割出波形，对于切割出的每个波形，将该波形变换为频域的表现。

在此，切割波形时的相邻的窗函数的间隔也可以与上述间隔周期同步。

本发明的其他方面所涉及的音质变换装置，变换输入声音的音质，其特征在于，具备：声道信息提取部，从输入声音信号中提取声道信息；滤波平滑部，在第一时间宽度内，对上述声道信息提取部所提取的上述声道信息进行平滑；逆滤波器部，计算具有由上述滤波平滑部进行了平滑的上述声道信息的频率响应的逆特性的滤波器的滤波系数，并利用计算的上述滤波系数，对上述输入声音信号进行滤波；声源建模部，从由上述逆滤波器部进行了滤波的上述输入声音信息中，切割出比上述第一时间宽度更短的第二时间宽度中所包括的波形，对于被切割出的每个上述波形，根据该波形计算参数化的声源信息；目标声音信息保持部，保持作为目标的音质的声道信息及参数化的声源信息；变换比率输入部，根据上述输入声音信号，输入向作为目标的音质的变换比率；滤波变形部，将由上述滤波平滑部进行了平滑的上述声道信息，以由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声道信息；声源变形部，将由上述声源建模部进行了参数化的上述声源信息，以由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声源信息；以及合成部，利用由上述声源变形部进行了变形的上述声源信息来生成声源波形，并对于生成的上述声源波形，利用由上述滤波变形部进行了变形的上述声道信息进行滤波，从而合成声音。

也可以上述滤波平滑部在时间轴方向以规定的单位，通过多项式或回归直线，对于由上述声道信息提取部所提取的上述声道信息进行近似，从而进行平滑；上述滤波变形部，对于由上述滤波平滑部通过上述多项式或上述回归直线对上述声道信息进行近似时的上述多项式或上述回归直线的系数，以由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声道信息。

也可以上述滤波平滑部还在音素边界的前后设置规定的时间宽度的过渡区间，利用上述过渡区间的开始点与结束点的声道信息，对该过渡区间内的声道信息进行插补。

本发明的另外的其他方面所涉及的音质变换系统，变换输入声音的音质，其特征在于，具备：声道信息提取部，从输入声音信号中提取声道信息；滤波平滑部，一边在时间轴方向移动第一时间宽度，一边在第一时间宽度内对上述声道信息提取部所提取的上述声道信息进行平滑；逆滤波器部，计算具有由上述滤波平滑部进行了平滑的上述声道信息的频率响应的逆特性的滤波器的滤波系数，并利用具有计算的上述滤波系数的滤波器，对上述输入声音信号进行滤波；声源建模部，一边在时间轴方向移动比上述第一时间宽度短的第二时间宽度，一边从由上述逆滤波器部进行了滤波的上述输入声音信息中，切割出上述第二时间宽度中所包括的波形，对于被切割出的每个上述波形，根据该波形计算参数化的声源信息；目标声音信息保持部，保持作为目标的音质的声道信息及参数化的声源信息；变换比率输入部，根据上述输入声音信号，输入向作为目标的音质的变换比率；滤波变形部，将由上述滤波平滑部进行了平滑的上述声道信息，以由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声道信息；声源变形部，将由上述声源建模部进行了参数化的上述声源信息，以由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声源信息；以及合成部，利用由上述声源变形部进行了变形的上述声源信息来生成声源波形，并对于生成的上述声源波形，利用由上述滤波变形部进行了变形的上述声道信息进行滤波，从而合成声音；上述滤波平滑部在时间轴方向以规定的单位，通过多项式或回归直线，对于由上述声道信息提取部所提取的上述声道信息进行近似，从而进行平滑；上述滤波变形部，对于由上述滤波平滑部通过上述多项式或上述回归直线对上述声道信息进行近似时的上述多项式或上述回归直线的系数，以由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声道信息，而且，在音素边界的前后设置规定的时间宽度的过渡区间，利用上述过渡区间的开始点与结束点的声道信息，对该过渡区间内的声道信息进行插补。

本发明另外的其他方面所涉及的声音分离方法，将输入声音信号分离为声道信息和声源信息，其特征在于，具备：声道信息提取步骤，从输入声音信号中提取声道信息；滤波平滑步骤，在第一时间宽度内，对上述声道信息提取步骤中提取的上述声道信息进行平滑；逆滤波步骤，计算具有在上述滤波平滑步骤中进行了平滑的上述声道信息的频率响应的逆特性的滤波器的滤波系数，并利用具有计算的上述滤波系数的滤波器，对上述输入声音信号进行滤波；以及声源建模步骤，从在上述逆滤波步骤中进行了滤波的上述输入声音信息中，切割出比上述第一时间宽度短的第二时间宽度中所包括的波形，对于被切割出的每个上述波形，根据该波形计算参数化的声源信息。

另外，也可以上述声音分离方法还包括：合成步骤，利用在上述声源建模步骤中输出的声源信息的参数来生成声源波形，并对于生成的上述声源波形，利用在上述滤波平滑步骤中进行了平滑的上述声道信息进行滤波，从而合成声音。

另外，也可以上述声音分离方法还包括：变换比率输入步骤，根据上述输入声音信号，输入向作为目标的音质的变换比率；滤波变形步骤，将在上述滤波平滑步骤进行了平滑的上述声道信息，以在上述变换比率输入步骤中输入的上述变换比率，变换为作为目标的音质的声道信息；以及声源变形步骤，将在上述声源建模步骤中进行了参数化的上述声源信息，以在上述变换比率输入步骤中输入的上述变换比率，变换为作为目标的音质的声源信息；上述合成步骤中，利用在上述声源变形步骤中进行了变形的上述声源信息来生成声源波形，并对于生成的上述声源波形，利用在上述滤波变形步骤中进行了变形的上述声道信息进行滤波，从而合成声音。

应该认为这里公开的实施方式在全部要点上是例示而不用来进行限制。本发明的范围不是以上所说明的，而是通过权利要求的范围表示，意味着包括与权利要求的范围相等的含义及范围内的全部的变更。

工业可利用性

本发明涉及的声音分离装置，通过将声道信息和声源信息变形，从而具有高品质地变换音质的功能，作为需要各种音质的用户接口或娱乐等是有用的。另外，也可以适用于便携式电话等进行的声音通信中的声音改变等用途。

Claims

1、一种声音分离装置，将输入声音信号分离为声道信息和声源信息，其特征在于，具备：

声道信息提取部，从输入声音信号中提取声道信息；

滤波平滑部，在第一时间宽度内，对上述声道信息提取部所提取的上述声道信息进行平滑；

逆滤波器部，计算具有由上述滤波平滑部进行了平滑的上述声道信息的频率响应的逆特性的滤波器的滤波系数，并利用具有计算的上述滤波系数的滤波器，对上述输入声音信号进行滤波；以及

声源建模部，从由上述逆滤波器部进行了滤波的上述输入声音信息中，切割出比上述第一时间宽度短的第二时间宽度中所包括的波形，对于被切割出的每个上述波形，根据该波形计算声源信息。

2、如权利要求1记载的声音分离装置，其特征在于，

上述声源建模部对于被切割出的每个上述波形，将该波形变换为频域的表现形式，以函数对该频域中的振幅波谱进行近似，并将近似的函数的系数输出为参数化的声源信息。

3、如权利要求2记载的声音分离装置，其特征在于，

上述声源建模部对于被切割出的每个上述波形，将该波形变换为频域的表现形式，在每个频域上以不同的函数对上述振幅波谱进行近似，并将近似的函数的系数输出为参数化的声源信息。

4、如权利要求2记载的声音分离装置，其特征在于，

上述声源建模部对于预先准备的多个边界频率的候选的各个，以函数对上述振幅波谱进行近似，将该振幅波谱与该函数的误差最小时的上述边界频率的候选，与该函数的系数一起输出。

5、如权利要求1记载的声音分离装置，其特征在于，

上述声道信息提取部具备：

全极模型分析部，根据全极模型分析上述输入声音信号，并求出作为将声道分割为多个段的声管模型的参数的全极型声道模型参数；以及

反射系数参数计算部，将上述全极型声道模型参数变换为作为上述声管模型的参数的反射系数参数、或能够变换为该反射系数参数的参数。

6、如权利要求5记载的声音分离装置，其特征在于，

上述全极模型分析部通过对上述输入声音信号进行线性预测分析，从而求出上述全极型声道模型参数。

7、如权利要求5记载的声音分离装置，其特征在于，

上述全极模型分析部通过对上述输入声音信号进行自回归外源分析，从而求出上述全极型声道模型参数。

8、如权利要求1记载的声音分离装置，其特征在于，

上述滤波平滑部在时间轴方向以规定的单位，通过多项式或回归直线，对于由上述声道信息提取部所提取的上述声道信息进行近似，从而进行平滑。

9、如权利要求8记载的声音分离装置，其特征在于，

上述规定的单位是音素、音节或音拍。

10、如权利要求1记载的声音分离装置，其特征在于，

上述声源建模部一边对于由上述逆滤波器部进行了滤波的上述输入声音信号的间距周期的大致2倍的长度的窗函数，在时间轴方向上以上述间距周期进行移动，一边从上述输入声音信号中切割出波形，对于切割出的每个波形，将该波形变换为频域的表现形式，求出将全部频率成分所具有的相位信息去除了的振幅波谱，并以函数对该振幅波谱进行近似，并将近似中使用的函数的系数输出为参数化的声源信息。

11、一种声音合成装置，利用输入声音信号中包括的声道信息和声源信息，合成声音，其特征在于，具备：

声道信息提取部，从输入声音信号中提取声道信息；

逆滤波器部，计算具有由上述滤波平滑部进行了平滑的上述声道信息的频率响应的逆特性的滤波器的滤波系数，并利用具有计算的上述滤波系数的滤波器，对上述输入声音信号进行滤波；

声源建模部，从由上述逆滤波器部进行了滤波的上述输入声音信息中，切割出比上述第一时间宽度短的第二时间宽度中所包括的波形，对于被切割出的每个上述波形，根据该波形计算参数化的声源信息；以及

合成部，利用由上述声源建模部输出的声源信息的参数来生成声源波形，并对于生成的上述声源波形，利用由上述滤波平滑部进行了平滑的上述声道信息进行滤波，从而合成声音。

12、如权利要求11记载的声音合成装置，其特征在于，

上述声源建模部一边对于由上述逆滤波器部进行了滤波的上述输入声音信号的间距周期的大致2倍的长度的窗函数，在时间轴方向上以上述间距周期进行移动，一边从上述输入声音信号中切割出波形，对于切割出的每个波形，将该波形参数化；

上述合成部利用由上述声源建模部输出的参数来生成声源波形，通过在时间方向重叠配置被生成的声源波形，从而生成在时间上连续的声源波形，并对于生成的上述声源波形，利用由上述滤波平滑部进行了平滑的上述声道信息进行滤波，从而合成声音。

13、如权利要求12记载的声音合成装置，其特征在于，

上述声源建模部对于切割出的每个波形，将该波形变换为频域的表现形式，求出将全部频率成分所具有的相位信息去除了的振幅波谱；

上述合成部将上述振幅波谱变换为时域的声源波形，通过在时间方向重叠配置该声源波形，从而生成在时间上连续的声源波形，并对于生成的上述声源波形，利用由上述滤波平滑部进行了平滑的上述声道信息进行滤波，从而合成声音。

14、如权利要求13记载的声音合成装置，其特征在于，

上述声源建模部进而以函数对上述振幅波谱进行近似，并将近似中使用的函数的系数输出为参数化的声源信息；

上述合成部通过由上述声源建模部输出的系数表示的函数，恢复振幅波谱，将该振幅波谱变换为时域的声源波形，通过在时间方向重叠配置该声源波形，从而生成在时间上连续的声源波形，并对于生成的上述声源波形，利用由上述滤波平滑部进行了平滑的上述声道信息进行滤波，从而合成声音。

15、一种音质变换装置，变换输入声音的音质，其特征在于，具备：

声道信息提取部，从输入声音信号中提取声道信息；

声源建模部，从由上述逆滤波器部进行了滤波的上述输入声音信息中，切割出比上述第一时间宽度短的第二时间宽度中所包括的波形，对于被切割出的每个上述波形，根据该波形计算参数化的声源信息；

目标声音信息保持部，保持作为目标的音质的声道信息及参数化的声源信息；

变换比率输入部，输入从上述输入声音信号向作为目标的音质变换的比率；

滤波变形部，将由上述滤波平滑部进行了平滑的上述声道信息，按照由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声道信息；

声源变形部，将由上述声源建模部进行了参数化的上述声源信息，按照由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声源信息；以及

合成部，利用由上述声源变形部进行了变形的上述声源信息来生成声源波形，并对于生成的上述声源波形，利用由上述滤波变形部进行了变形的上述声道信息进行滤波，从而合成声音。

16、如权利要求15记载的音质变换装置，其特征在于，

上述滤波平滑部在时间轴方向以规定的单位，通过多项式或回归直线，对于由上述声道信息提取部所提取的上述声道信息进行近似；

上述滤波变形部，对于由上述滤波平滑部通过上述多项式或上述回归直线对上述声道信息进行近似时的上述多项式或上述回归直线的系数，按照由上述变换比率输入部输入的上述变换比率，变换为上述目标声音信息保持部所保持的作为目标的音质的上述声道信息。

17、一种声音分离方法，将输入声音信号分离为声道信息和声源信息，其特征在于，具备：

声道信息提取步骤，从输入声音信号中提取声道信息；

滤波平滑步骤，在第一时间宽度内，对上述声道信息提取步骤中提取的上述声道信息进行平滑；

逆滤波步骤，计算具有在上述滤波平滑步骤中进行了平滑的上述声道信息的频率响应的逆特性的滤波器的滤波系数，并利用具有计算的上述滤波系数的滤波器，对上述输入声音信号进行滤波；以及

声源建模步骤，从在上述逆滤波步骤中进行了滤波的上述输入声音信息中，切割出比上述第一时间宽度短的第二时间宽度中所包括的波形，对于被切割出的每个上述波形，根据该波形计算声源信息。

18、一种程序，将输入声音信号分离为声道信息和声源信息，用于使计算机执行以下步骤：

声道信息提取步骤，从输入声音信号中提取声道信息；