CN104424952A

CN104424952A - 语音处理设备、语音处理方法以及程序

Info

Publication number: CN104424952A
Application number: CN201410398908.2A
Authority: CN
Inventors: 光藤佑基; 知念彻
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-08-20
Filing date: 2014-08-14
Publication date: 2015-03-18
Anticipated expiration: 2034-08-14
Also published as: JP2015040903A; CN104424952B; US20150058015A1; US9711161B2

Abstract

语音处理设备包括语音质量确定单元，其构成为根据确定方法控制值确定用于语音质量转换的目标说话者确定方法并根据该目标说话者确定方法确定目标说话者，其中该确定方法控制值用于指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法。

Description

语音处理设备、语音处理方法以及程序

相关申请的交叉参考

本申请要求于2013年8月20日提交的日本优先权专利申请JP2013-170504的权益，其整个内容通过参考合并在此。

技术领域

本技术涉及语音处理设备、语音处理方法以及程序，特别涉及例如能够容易地进行用户期望的语音质量转换的语音处理设备、语音处理方法和程序。

背景技术

近年来，已经开展了使用可佩戴相机和话筒长时间连续记录个人的生活的生活日志(lifelog)的研究。

除了佩戴设备的用户的语音之外，其他人的语音有时也混入话筒。在此情况下，除了用户的语音之外，其他人的语音也被记录在生活日志中。

假设用户在生活日志的实际使用中公开地打开生活日志，则从隐私保护的观点来看，生活日志中记录的其他人的语音未经处理就被原样地公开打开是不合适的。

作为保护其他人的隐私的方法，存在从生活日志中消除其他人的语音的方法。

然而，例如，当用户和其他人之间的会话已经记录在生活日志时，仅消除其他人的语音使得会话不自然(或不建立会话)，这种不自然有时使生活日志的意义无效。

因此，作为隐私保护的方法，有不断增加的、对于仅消除其他人的个性的个性消除方法同时处理语音并保留会话的上下文信息的需求。语音的个性消除方法的示例包括用于转换语音的语音质量的语音质量转换。

例如，日本专利公开No.2008-058696描述了以下技术：在不用具有对应于在语音质量的转换中其语音质量要被转换的参考说话者和其语音质量被定为语音质量转换目标的目标说话者对的数量的、用于语音质量转换的转换系数的情况下，一个或多个参考说话者和目标说话者中的至少一个的语音用于进行生成语音质量转换模型的学习，并且预定适应方法用于使语音质量转换模型适应于任意参考说话者和任意目标说话者中的至少一个的语音，而且任意或指定参考说话者的语音被转换成指定或任意目标说话者的语音质量的语音。

发明内容

与此同时，例如，有在诸如上述会话之类的语音的语音质量转换中，用户期望进行语音质量转换以便仍然保留会话场所的环境，或不期望保留会话场所的环境的情况，以及甚至在语音质量转换以便仍然保留会话场所的环境时，用户期望进行语音质量转换以便仍然保留个性到某种程度或尽可能消除个性的情况。

然而，难以构成能够指示目标说话者(的语音质量)以便进行如上所述的用户期望的语音质量转换的用户接口I/F。此外，如果简单地指示目标说话者(的语音质量)，则并不总是能够进行用户期望的语音质量转换。

本技术已经鉴于上述情况而完成，因此能够简化用户期望的语音质量转换。

根据本技术的实施方式，提供包括语音质量确定单元的语音处理设备，语音质量确定单元构成为根据确定方法控制值确定用于语音质量转换的目标说话者确定方法并根据目标说话者确定方法确定目标说话者，所述确定方法控制值指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法，或提供使计算机作用为语音处理设备的程序。

根据本技术的实施方式的语音处理方法包括：根据确定方法控制值确定用于语音质量转换的目标说话者确定方法，所述确定方法控制值指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法；并且根据目标说话者确定方法确定目标说话者。

根据本技术的实施方式，根据确定方法控制值确定用于语音质量转换的目标说话者确定方法，所述确定方法控制值指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法，并且根据目标说话者确定方法确定目标说话者。

应当注意，语音处理设备可以是独立设备，或构成一个设备的内部模块。

此外，程序可以通过传输介质的传输或在记录介质上的记录来提供。

根据本技术的实施方式，可简化用户期望的语音质量转换。

应当注意，本技术不限定于这里描述的效果，可以实现本公开中记载的任意一个效果。

根据如附图所示那样最佳优选实施例的以下详细说明，本公开的这些和其他目的、特点及优点会变得更明显。

附图说明

图1是示出根据应用本技术的语音个性消除设备的实施方式的配置示例的框图；

图2是示出学习单元的配置示例的框图；

图3是描述由学习单元执行的语音质量模型学习的处理的流程图；

图4是示出语音质量转换单元的配置示例的框图；

图5是描述在目标说话者确定方法之中的第一确定方法的概要的图；

图6是描述在目标说话者确定方法之中的第二确定方法的概要的图；

图7是描述可以由第一确定方法执行的语音质量转换的概要的图；

图8是描述在目标说话者确定方法之中的第三确定方法的概要的图；

图9是描述由语音质量转换单元执行的语音质量转换的处理的流程图；

图10A、10B和10C每一个是描述应用到服务器客户端系统的语音个性消除设备的图；以及

图11是示出根据应用本技术的计算机的实施方式的配置示例的框图。

具体实施方式

以下，参照附图说明本技术的实施方式。

<应用本技术的语音个性消除设备的实施方式>

图1是示出应用本技术的语音个性消除设备的配置示例的框图。

在图1中，语音个性消除设备包括学习单元11和语音质量转换单元12，通过进行语音质量转换消除语音个性。

学习单元11接收用于学习用于语音质量转换的语音质量模型(以下也称为语音质量模型学习)等的多个(Z个)说话者#1，#2，……，#Z的相同说话语音。

学习单元11使用这里提供的Z个说话者#1至#Z的语音进行语音质量模型学习，从而生成语音质量模型和其他语音质量转换所需要的信息并提供给语音质量转换单元12。

语音质量转换单元12从学习单元11接收语音质量模型等、其语音质量要被转换的参考说话者的语音、以及确定方法控制值w，该确定方法控制值w用于指示目标说话者确定方法，该目标说话者确定方法确定其语音质量被定为语音质量转换目标的目标说话者。

这里，例如，确定方法控制值w可通过用户操作控制单元(未示出)来输入，并且可以从高层应用提供(未示出)。

语音质量转换单元12根据确定方法控制值w确定用于语音质量转换的目标说话者确定方法，并且根据目标说话者确定方法确定目标说话者。

此外，语音质量转换单元12使用来自学习单元11的语音质量模型等，以从参考说话者的语音生成根据目标说话者确定方法确定的目标说话者的语音质量的语音，从而将参考说话者的语音转换成目标说话者的语音并输出它。

应当注意，向学习单元11提供语音的Z个说话者#1至#Z可以包括或不包括参考说话者。

这里，消除语音个性的方法的示例包括升高参考说话者的语音的基频的方法，并且语音个性可以通过将语音的基频升高到一定频率而消除。

然而，在升高语音的基频的方法中，作为语音声调决定因素的语音的频率包络的形状随基频升高而改变。用于确定声调的频率包络的形状与基频的升高不成比例，以便通过升高语音的基频的方法获得的语音的自然性丢失，并且语音远远不同于在真实世界中存在的语音。

此外，语音个性的消除能够不通过语音的基频而通过用于转换音色(tone)的语音质量转换来进行。例如，在用于转换音色的语音质量转换中，通过使用在预先记录的语音中参考说话者的语音和目标说话者的语音对，来学习用于转换语音的频率包络的转换系数。然后，将通过学习得到的转换系数用于将参考说话者的语音转换成目标说话者的语音。

在语音质量转换中，通过使用用户期望的目标说话者的语音进行学习，以便能够进行向用户期望的目标说话者的语音的语音质量转换。

然而，在此情况下，需要以某种方式指示用户期望的目标说话者(说出该语音质量的语音的人)。

此外，尽管当指示用户期望的目标说话者时目标说话者被唯一地标识，但在语音个性的消除中用户期望的目标说话者有时并不具体存在。在此情况下，需要适当地确定适合语音质量转换的目标说话者。

即，例如，当对用户A和其他人B及C之间的会话进行其他人B及C的语音的语音质量转换以便保护其他人B及C的隐私时，用户A期望的目标说话者并不具体存在。

然而，在此情况下，麻烦的是，用户A需要指示其他人B及C的目标说话者(用于进行其他人B及C的语音的语音质量转换的目标说话者)。

此外，当进行其他人B及C的语音的语音质量转换时，例如，不适合同一说话者D被指示为其他人B和C的目标说话者。这是因为，从用户A和其他人C之间的会话中，难以区分用户A和其他人B之间的会话，并且可能不能建立其他人B及C之间的会话。

当对用户A和其他人B及C之间的会话进行其他人B及C的语音的语音质量转换时，需要使其他人B的目标说话者和其他人C的目标说话者为不同的说话者，以便在用户A和其他人B及C之间建立会话。即，需要指示说话者D作为其他人B的目标说话者，并指示不同于说话者D的说话者E作为其他人C的目标说话者。

此外，从其他人B及C的隐私保护的观点出发，可期望具有与其他人B不同的语音的说话者被指示为说话者D并且具有与其他人C不同的语音的说话者被指示为说话者E。

同时，在某些情况下，用户A不期望具有与其他人B明显不同的语音质量的说话者被指示为其他人B的目标说话者。这也应用于其他人C。

此外，用户A可期望其他人B及C的语音的语音质量分别被转换成不同于其他人B及C的语音，而不会损害用户A和其他人B及C之间的会话场合的环境(同时尽可能多地保留它)。

如上所述，有各种语音质量转换作为用户期望的语音质量转换。然而，麻烦的是，用户需要指示特定的说话者进行用户期望的语音质量转换。

此外，在实际地进行语音质量转换前都不可能知道是否由用户指示的目标说话者进行用户期望的语音质量转换。

即，例如，当用户A可期望其他人B及C的语音的语音质量分别被转换成不同于其他人B及C的语音而不会损害用户A和其他人B及C之间的会话场合的环境时，存在即使在用户A指示说话者D和E作为其他人B及C的目标说话者时也进行向不同于用户预期的语音质量的语音质量的语音质量转换的情况，并且例如，在语音质量转换后的会话的环境完全不同于原始会话场合的环境。

因此，在图1中的语音个性消除设备中，语音质量转换单元12根据确定方法控制值w确定用于语音质量转换的目标说话者确定方法，并根据目标说话者确定方法确定目标说话者，以便可以仅通过提供确定方法控制值w，容易地进行用户期望的语音质量转换。

<学习单元11的配置示例>

图2是示出图1中学习单元11的配置示例的框图。

在图2中，学习单元11包括：Z个时间频率转换单元21₁、21₂、……、21_z；Z个包络计算单元22₁、22₂、……、22_z；Z个包络特征量数据库23₁、23₂、……、23_z；(一个)包络空间生成单元24；Z个说话者自适应单元25₁、25₂、……、25_z；(一个)语音质量空间生成单元26；以及(一个)语音质量模型数据库27。

<时间频率转换单元21_z>

时间频率转换单元21_z接收用于语音质量模型学习的说话者#z的语音。

时间频率转换单元21_z使用在这里提供的说话者#z的语音(信号)作为输入信号x(t)，以分析输入信号x(t)的时间频率信息。

即，例如，时间频率转换单元21_z将输入信号x(t)除以固定大小的(时间)帧，从而获得输入帧信号x^～(n，l)。

此外，例如，时间频率转换单元21_z将输入帧信号x^～(n，l)乘以式(1)中的窗口函数w_ana(n)，从而获得式(2)中的窗口函数适应信号x_w(n，l)。

w_{ana} (n) = {(0.5 - 0.5 \cos (2 π \frac{n}{N}))}^{0.5} . . . . . . (1)

其中，n是输入帧信号x^～(n，l)的时间索引，并且表示从作为输入帧信号x^～(n，l)的样本值属于的帧l的开头起的样本数的样本值。此外，n取n＝0，1，……，N-1的值，而N表示帧的帧大小，即，一个帧的输入帧信号x^～(n，l)的样本数量。

l是(时间)帧的索引，表示从输入帧信号x^～(n，l)属于的输入信号x(t)的开头起的帧数的信号。此外，l取l＝0，1，……，L-1的值，而L表示从输入信号x(t)获得的输入帧信号x^～(n，l)的数量，即，帧的总数(总帧数)。

此外，π表示圆周率。

应当注意，式(1)的窗口函数w_ana(n)是汉宁窗的平方根，而作为窗口函数w_ana(n)，除了汉宁窗之外，例如，可以采用海明窗、布莱克曼-哈里斯窗以及其他窗。

此外，帧大小N是对应于在以输入信号x(t)的采样频率fs采样时的一个帧的时间fsec的样本数，在R(x)设定作为预定取整函数时通过算式N＝R(fs×fsec)表示。

作为一个帧的时间fsec，例如，可以采用fsec＝0.02[秒]。此外，作为取整函数R(x)，例如，可以采用对自变数x四舍五入的函数。然而，一个帧的时间fsec和取整函数R(x)不限于此。

此外，时间频率转换单元21_z将输入信号x(t)划分为帧大小N的帧的输入帧信号x^～(n，l)，同时在输入信号x(t)上移位帧，而作为那时的帧移位量，例如，可以采用帧大小N的50％。

在此情况下，帧l的输入帧信号x^～(n，l)的前半部分对应于紧接先前帧l-1的后半部分。

应当注意，帧移位量不限定于帧大小N的50％。

在算出式(2)中的窗口函数适应信号x_w(n，l)后，时间频率转换单元21_z进行窗口函数适应信号x_w(n，l)的时间频率转换并计算输入复频谱X(k，l)。

即，例如，时间频率转换单元21_z根据式(3)和(4)将时域的窗口函数适应信号x_w(n，l)转换成频域的输入复频谱X(k，l)。

{x^{~}}_{w} (m, l) = \{\begin{matrix} x_{w} (m, l) & m = 0, . . ., N - 1 \\ 0 & m = N, . . ., M - 1 \end{matrix} . . . . . . (3)

其中，x^～ _w(m，l)表示通过对窗口函数适应信号x^～ _w(n，l)进行零填充获得的零填充信号。

m是用于时间频率转换的零填充信号x^～ _w(m，l)的时间索引，表示从作为零填充信号x^～ _w(m，l)的样本值属于的帧l的开头起的样本数的样本值。此外，m取M＝0，1，……，N-1，N，……，M-1的值，M表示用于时间频率转换的样本值的样本的数量，即，用于频率转换对象的样本数。

K是输入复频谱X(k，l)的频率索引，表示从作为输入复频谱X(k，l)的样本值属于的帧l的开头起的样本数的样本值。此外，k取k＝0，1，……，K-1的值，K通过算式K＝M/2+1来表示。

此外，i表示虚数单位

应当注意，在式(4)中，采用离散傅立叶变换(DFT)作为时间频率转换。作为替换，作为时间频率转换，例如，可以采用离散余弦变换(DCT)、改进离散余弦变换(MDCT)以及从时域到频域的其他变换。

此外，在式(3)中，通过对窗口函数适应信号x^～ _w(n，l)进行零填充获得的信号被采用作为零填充信号x^～ _w(m，l)。然而，在帧大小N等于以DFT为目标的样本数M时，窗口函数适应信号x^～ _w(n，l)实际上被用作零填充信号x^～ _w(m，l)并以式(4)的DFT为目标。

此外，作为以DFT为目标的样本数M，例如，可以采用在对应于等于或大于自由大小N的2的幂的值之中最接近帧大小N的值。然而，以DFT为目标的样本数M不限定于在对应于等于或大于自由大小N的2的幂的值之中最接近帧大小N的值。

因此，时间频率转换单元21_z将对说话者#z算出的输入复频谱X(k，l)提供给包络计算单元22_Z。

<包络计算单元22_Z>

包络计算单元22_Z从时间频率转换单元21_z提供的说话者#z的输入复频谱(以下简称为频谱)X(k，l)中去除精细结构，并且计算有关频谱X(k，l)的包络的包络信息。

即，例如，包络计算单元22_Z根据式(5)和(6)计算线性频率倒谱系数(LFCC)，并且提取LFCC的低阶项(系数)作为来自时间频率转换单元21_z的频谱X(k，l)的包络信息。

V(j,l)＝|X(k,l)|……(5)

其中，C(j，l)表示作为有关频谱X(k，l)的包络信息的LFCC，以下简称为倒谱。

j是倒谱C(j，l)的时间索引，并且表示从作为倒谱C(j，l)的样本值属于的帧l的开头起的样本数的样本值。此外，j取j＝0，1，……，J的值，J表示作为有关频谱X(k，l)的包络信息的倒谱C(j，l)的最大序数。

应当注意，例如，作为有关频谱X(k，l)的包络信息，可以采用12作为倒谱C(j，l)的最大序数J。然而，作为有关频谱X(k，l)的包络信息，倒谱C(j，l)的最大序数J不限于12。

此外，例如，作为有关频谱X(k，l)的包络信息，除了线性预测倒谱系数(LFCC)之外不仅可采用表示LPCC的频谱X(k，l)、梅尔广义倒谱和其他倒谱的包络的信息，还可采用表示除倒谱外的频谱X(k，l)的包络的信息。

因此，包络计算单元22_Z将对说话者#z计算的倒谱C(j，l)作为有关频谱X(k，l)的包络信息提供给包络特征量数据库23_Z。

包络特征量数据库23_Z存储从包络计算单元22_Z提供的倒谱C(j，l)作为有关说话者#z的包络信息。

以下，作为有关说话者#z的包络信息的倒谱C(j，l)也被称为C_z(j，l)。

此外，用L_z表示说话者#z的倒谱C_z(j，l)的帧数。

<包络空间生成单元24>

包络空间生成单元24使用倒谱C1(j，l)到C_z(j，l)作为在包络特征量数据库23₁到23_z中存储的包络信息，以学习(生成)作为通过例如模型化包络信息获得的包络信息模型的通用背景模型-高斯混合模型(UBM-GMM)。

即，关于包络特征量数据库23₁至23_z，包络空间生成单元24从在包络特征量数据库23_z中存储的L_z帧(数)的倒谱C_z(j，l)中随机地采样L^～/Z(<L_z)帧的倒谱C_z(j，l)。

关于Z包络特征量数据库23₁至23_z，随机地采样L～/Z帧的倒谱C_z(j，l)，从而合计获得L～帧的倒谱C_z(j，l)。

这里，从在包络特征量数据库23_z中存储的L_z帧的倒谱C_z(j，l)中采样的说话者#z的L^～/Z帧的倒谱C_z(j，l)，也称为说话者倒谱C^～ _z(j，l)。

此外，以下，作为说话者#1到#Z的L^～/Z帧的倒谱C_z(j，l)的集合的L^～帧的倒谱C_z(j，l)也称为总说话者倒谱C^～(j，l)。

每个说话者#Z的说话者倒谱C^～ _z(j，l)存在与L^～/Z帧的数一样多，因此说话者倒谱C^～ _z(j，l)的索引l取l＝0，1，……，L^～/Z-1的值。

总说话者倒谱C^～(j，l)存在与L^～帧的数一样多，因此总说话者倒谱C^～(j，l)的索引l取l＝0，1，……，L^～-1的值。

在包络空间生成单元24中，例如，总说话者倒谱C^～(j，l)用于根据期望最大(EM)算法来学习UBM-GMM。因此，根据式(7)、(8)、(9)、(10)和(11)计算UBM-GMM的模型参数θ'_p＝{μ'_p，Σ'_p，π'_p}。

L_{p} = Σ_{l = 0}^{L^{~} - 1} γ_{p} (l) . . . . . . (8)

{μ^{,}}_{p} = \frac{1}{L_{p}} Σ_{l = 0}^{L^{~} - 1} γ_{p} (l) C^{~} (j, l) . . . . . . (9)

{Σ^{,}}_{p} = \frac{1}{L_{p}} Σ_{l = 0}^{L^{~} - 1} γ_{p} (l) (C^{~} (j, l) - {μ^{,}}_{p}) {(C^{~} (j, l) - {μ^{,}}_{p})}^{T} . . . . . . (10)

{π^{,}}_{p} = \frac{L_{p}}{L^{~}} . . . . . . (11)

其中，p是构成GMM(UBM-GMM)的高斯分布的索引，并且取p＝0，1，2，……，P-1的值。P表示构成GMM的高斯分布(GMM的混合数)的总数。

θ'_p＝{μ'_p，Σ'_p，π'_p}表示GMM的第p(第一个为零)高斯分布的参数。μ'_p和Σ'_p表示GMM的第p高斯分布的均值向量和协方差矩阵。π'_p表示GMM的第p高斯分布的权重(这里，在观察到总说话者倒谱C^～(j，l)时，为第p高斯分布的贡献率)。

N(C^～(j，l)|μ'_p，Σ'_p)表示在第p高斯分布N(μ'_p，Σ'_p)(具有μ'_p的均值向量和Σ'_p的协方差矩阵的高斯分布)中观察到总说话者倒谱C^～(j，l)的概率。

上标“T”表示转置。

例如，包络空间生成单元24设置随机值作为模型参数θ'_p＝{μ'_p，Σ'_p，π'_p}的初始值，使用总说话者倒谱C^～(j，l)作为UBM-GMM的学习数据，并且将式(7)到(11)中的计算例如仅重复学习的预定次数U，从而进行生成作为通过将倒谱C1(j，l)至C_z(j，l)模型化为包络信息而获得的包络信息模型的UBM-GMM的学习。

因此，获得的UBM-GMM表示在作为包络信息的倒谱C_z(j，l)的包络空间中有关每个说话者的包络信息的分布。

包络空间生成单元24将由此生成的UBM-GMM作为包络信息模型(即UBM-GMM的模型参数θ'_p＝{μ'_p，Σ'_p，π'_p})提供给说话者自适应单元25₁至25_Z和语音质量转换单元12。

此外，包络空间生成单元24将说话者#z的L^～/Z帧的说话者倒谱C^～ _z(j，l)提供给说话者自适应单元25_Z。

应当注意，作为学习的次数U，可以采用足够模型参数θ'_p＝{μ'_p，Σ'_p，π'_p}的收敛的次数，例如200次和其他次。

此外，可以进行GMM的学习(即式(7)到(11)中的计算)，直到模型参数θ'_p＝{μ'_p，Σ'_p，π'_p}收敛。

此外，可以设置随机值作为模型参数θ'_p＝{μ'_p，Σ'_p，π'_p}的初始值。作为替换，可以使用诸如k平均数方法之类的硬聚类技术设定初始值。

<说话者自适应单元25_Z>

说话者自适应单元25_Z例如通过MAP自适应使用来自包络空间生成单元24的说话者#z的L^～/Z帧的说话者倒谱，进行作为来自包络空间生成单元24的包络信息模型的UBM-GMM的说话者自适应，从而生成作为自适应说话者#z的GMM的MAP-GMM。

即，说话者自适应单元25_Z计算式(12)、(13)、(14)、(15)、(16)、(17)和(18)，并且进行UBM-GMM的说话者自适应，从而生成自适应于每一个说话者#z的MAP-GMM。

{γ^{\cdot}}_{p} (l) = \frac{{π^{,}}_{p} N ({C^{~}}_{z} (j, l) | {μ^{,}}_{p}, {Σ^{,}}_{p})}{Σ_{q = 0}^{P - 1} {π^{,}}_{q} N ({C^{~}}_{z} (j, l) | {μ^{,}}_{q}, {Σ^{,}}_{q})} . . . . . . (12)

{L^{\cdot}}_{p} = Σ_{l = 0}^{L^{~} / Z - 1} {γ^{\cdot}}_{p} (l) . . . . . . (13)

ρ_{p} = \frac{1}{{L^{\cdot}}_{p}} Σ_{l = 0}^{L^{~} / Z - 1} {γ^{\cdot}}_{p} (l) {C^{~}}_{z} (j, l) . . . . . . (14)

σ_{p} = \frac{1}{{L^{\cdot}}_{p}} Σ_{l = 0}^{L^{~} / Z - 1} {γ^{\cdot}}_{p} (l) ({C^{~}}_{z} (j, l) - ρ_{p}) {({C^{~}}_{z} (j, l) - ρ_{p})}^{T} . . . . . . (15)

α_p＝L'_p/(L'_p+ε)(ε:自适应系数) ……(16)

μ_{z, p} = α_{p} ρ_{p} + (1 + α_{p}) {μ^{,}}_{p} . . . . . . (17)

∑_z，p＝α_pσ_p+(1-α_p)(μ'_pμ'_p ^T+σ_p)-μ_z，pμ_z，p ^T ......(¹⁸)

这里，预先将适当值设定到自适应系数ε。

μ_z，p和Σ_z，p表示自适应于说话者#z的MAP-GMM的第p高斯分布的均值向量和协方差矩阵。

因此，在说话者自适应单元25_Z生成自适应于说话者#z的MAP-GMM时，说话者自适应单元25_Z根据式(19)，使用作为MAP-GMM的模型参数的均值向量μ_z，p来生成用于设定将构成MAP-GMM的P高斯分布的均值向量μ_z， ₀、μ_z，1、……、μ_z，p-1作为分量的说话者超向量S_z，作为用于表示说话者#z的语音质量的语音质量参数，并将其提供给语音质量空间生成单元26。

S_z＝[μ_z，0 ^丁,μ_z，1 ^丁，···，μ_z，P-1 ^T]^T ......(19)

<语音质量空间生成单元26>

语音质量空间生成单元26生成作为在作为语音质量参数的空间的语音质量空间中从说话者自适应单元25_Z提供的语音质量参数的说话者超向量S_z的分布，作为用于语音转换的语音质量模型。

即，语音质量空间生成单元26根据用于分类的预定标准，将作为从说话者自适应单元25₁至25_Z提供的语音质量参数的说话者超向量S₁至S_z分类，并且生成每一种类中的说话者超向量S_z的分布，作为语音质量模型。

具体地，例如，语音质量空间生成单元26根据式(20)和(21)计算表示每个种类#r中的说话者超向量S_z的分布的高斯分布的均值(均值向量)ψ_r和协方差(协方差矩阵)作为语音质量模型。

ψ_{r} = \frac{1}{Z_{r}} \underset{Z &Element; A_{r}}{Σ} S_{z} . . . . . . (20)

φ_{r} = \frac{1}{Z_{r}} \underset{Z &Element; A_{r}}{Σ} (S_{z} - ψ_{r}) {(S_{z} - ψ_{r})}^{T} . . . . . . (21)

其中，种类#r取r＝0，1，……，R-1的值，R表示种类(class)的总数。

A_r表示属于种类#r的说话者超向量S_z的集合。

Z_r表示属于种类#r的说话者超向量S_z的数量，Z_r的总和(Z₀+Z₁+……+Z_R-1)等于说话者#1至#Z的总数Z。

语音质量空间生成单元26将这样计算出的说话者超向量S_z的高斯分布(语音质量参数分布)的均值ψ_r和协方差作为每个种类中的语音质量模型，提供给语音质量模型数据库27。

语音质量模型数据库27存储来自语音质量空间生成单元26的作为每个种类中的语音质量模型的说话者超向量S_z的高斯分布的均值ψ_r和协方差

应当注意，作为用于将说话者超向量S_z分类的种类，例如，可以采用R＝4(＝2×2)个种类作为用于分类标准，以在说话者#z为男性或女性和说话者#z是东方人或是西方人的情况下设置组合。

应当注意，用于分类说话者超向量S_z的分类标准和种类的总和R不限于此。

<学习单元11的处理>

图3是描述图2中由学习单元11进行的语音质量模型学习的处理的流程图。

在步骤S11中，时间频率转换单元21_z获得用于语音质量模型学习的说话者#z的语音，并且通过设定说话者#z的语音(信号)作为输入信号x(t)，根据式(1)到(4)频率转换(frequency-convert)输入信号x(t)，从而计算频谱X(k，l)。

然后，时间频率转换单元21_z向包络计算单元22_Z提供频谱X(k，l)，随后处理从步骤S11进至步骤S12。

在步骤S12中，包络计算单元22_Z根据式(5)和(6)计算作为来自时间频率转换单元21_z的频谱X(k，l)的包络信息的倒谱C(j，l)，并将其提供给包络特征量数据库23_z用于存储，而且处理进至步骤S13。

在步骤S13，对于包络特征量数据库23₁至23_z，包络空间生成单元24从包络特征量数据库23_z中存储的倒谱C_z(j，l)中，作为说话者倒谱C^～ _z(j，l)，随机地采样L^～/Z帧(样本)的倒谱C_z(j，l)，从而计算L^～帧的说话者倒谱C^～ _z(j，l)的合计，作为用于UBM-GMM学习的学习数据的总说话者倒谱C^～(j，l)。

接着，处理从步骤S13进至步骤S14。包络空间生成单元24根据式(7)至(11)，使用总说话者倒谱C^～(j，l)进行UBM-GMM学习，从而生成作为包络信息模型的UBM-GMM。

然后，包络空间生成单元24将作为包络信息模型的UBM-GMM提供给说话者自适应单元25₁至25_Z和语音质量转换单元12，并将说话者#z的L^～/Z帧的说话者倒谱C^～ _z(j，l)提供给说话者自适应单元25_Z，处理从步骤S14进至步骤S15。

在步骤S15中，说话者自适应单元25_Z使用来自包络空间生成单元24的说话者#z的L^～/Z帧的说话者倒谱C^～ _z(j，l)，以根据式(12)至(18)进行作为来自包络空间生成单元24的包络信息模型的UBM-GMM的说话者自适应，从而生成自适应于说话者#z的MAP-GMM。然后，处理进至步骤S16。

在步骤S16中，说话者自适应单元25_Z使用作为自适应于说话者#z的MAP-GMM的模型参数的均值向量μ_z，p以根据式(19)生成作为说话者#z的语音质量参数的说话者超向量S_z，并将其提供给语音质量空间生成单元26，随后处理进至步骤S17。

在步骤S17中，语音质量空间生成单元26将作为从说话者自适应单元25₁至25_Z提供的语音质量参数的说话者超向量S₁至S_z分类，并且使用每个种类中的说话者超向量S_z以根据式(20)和(21)计算每个种类#r中的说话者超向量S_z的均值ψ_r和协方差作为语音质量模型。

然后，语音质量空间生成单元26将每个种类#r中的说话者超向量S_z的高斯分布的均值ψ_r和协方差作为语音质量模型提供给语音质量模型数据库27，随后处理从步骤S17进至步骤S18。

在步骤S18中，语音质量模型数据库27存储来自语音质量空间生成单元26的、作为语音质量模型的每个种类#r的说话者超向量S_z的高斯分布的均值ψ_r和协方差并且结束用于语音质量模型学习的处理。

应当注意，在学习单元11中，例如，在语音质量转换单元12中进行语音质量转换时，可以实时进行语音质量模型学习。

此外，在学习单元11中，例如，可以事先进行语音质量模型学习。

在学习单元11中事先进行语音质量模型学习时，事先向语音质量转换单元12提供通过语音质量模型学习获得的语音质量模型和作为包络信息模型的UBM-GMM，以便可以不提供学习单元11而仅由语音质量转换单元12构成图1中的语音个性消除设备。

<语音质量转换单元12的配置示例>

图4是示出图1中的语音质量转换单元12的配置示例的框图。

在图4中，语音质量转换单元12包括时间频率转换单元31、包络计算单元32、说话者自适应单元33、语音质量确定单元34、以及语音生成单元35，并且使用来自学习单元11的语音质量模型等转换参考说话者的语音的频率包络，从而转换参考说话者的语音的语音质量。

<时间频率转换单元31>

时间频率转换单元31接收参考说话者的语音。

如同图2中的时间频率转换单元21_z，时间频率转换单元31转换参考说话者的语音的频率，从而计算频谱X(k，l)并且将其提供给包络计算单元32和语音生成单元35。

<包络计算单元32>

如同图2中的包络计算单元22_Z，包络计算单元32从来自时间频率转换单元31的频谱X(k，l)，计算作为参考说话者的包络信息的倒谱C(j，l)，并且将其提供给说话者自适应单元33。

以下，作为参考说话者的包络信息的倒谱C(j，l)也称为参考说话者倒谱C_org(j，l)。

此外，由L_org表示参考说话者倒谱C_org(j，l)的帧数量。参考说话者倒谱C_org(j，l)的帧的索引l取l＝0，1，……，L_org-1的值。

<说话者自适应单元33>

说话者自适应单元33从包络计算单元32接收参考说话者倒谱C_org(j，l)作为参考说话者的包络信息，并且还从学习单元11的包络空间生成单元24(图2)接收UBM-GMM(的模型参数θ'_p＝{μ'_p，Σ'_p，π'_p})作为包络信息模型。

如同图2中的说话者自适应单元25_Z，说话者自适应单元33使用来自包络计算单元32的参考说话者倒谱C_org(j，l)，进行来自学习单元11的UBM-GMM的说话者自适应，从而生成自适应于参考说话者的MAP-GMM。

此外，如同图2中的说话者自适应单元25_Z，说话者自适应单元33使用作为自适应于参考说话者的MAP-GMM的模型参数的均值向量μ_org，p，作为表示参考说话者的语音质量的语音质量参数生成说话者超向量S_org＝[μ_org，0 ^T，μ_org，1 ^T，……，μ_org，P-1 ^T]^T，用于作为分量设定构成MAP-GMM的P高斯分布的均值向量μ_org，0、μ_org，1、……、μ_org，P-1，并将其与来自包络计算单元32的参考说话者倒谱C_org(j，l)一起提供给语音质量确定单元34。

<语音质量确定单元34>

语音质量确定单元34从说话者自适应单元33接收作为参考说话者的语音质量参数的说话者超向量S_org＝[μ_org，0 ^T，μ_org，1 ^T，……，μ_org，P-1 ^T]^T和参考说话者倒谱C_org(j，l)，并且还接收确定方法控制值w。

此外，语音质量确定单元34接收每个种类#r中的说话者超向量S_z的均值ψ_r和协方差(均值ψ_r和协方差用于规定说话者超向量S_z的分布(语音质量参数分布))，作为学习单元11(图2)的语音质量模型数据库27中存储的语音质量模型。

语音质量确定单元34根据确定方法控制值w，确定用于语音质量转换的目标说话者确定方法，作为用于关注(attention)的关注确定方法。

然后，语音质量确定单元34根据关注确定方法确定目标说话者。

即，语音质量确定单元34使用每个种类#r中的作为语音质量模型的说话者超向量S_z的均值ψ_r和协方差以及作为参考说话者的语音质量参数的说话者超向量S_org，根据关注确定方法确定(计算)作为目标说话者的语音质量参数的说话者超向量S_tar。

这里，在本实施方式中，例如，包括第一确定方法、第二确定方法和第三确定方法的三种确定方法被准备为目标说话者确定方法。

然后，例如，确定方法控制值w取w＝0，1，2的值。在语音质量确定单元34中，关注确定方法根据确定方法控制值w被确定为第一确定方法至第三确定方法中的一个确定方法。

例如，在确定方法控制值w为0时，第一确定方法被确定为关注确定方法。此外，例如，在确定方法控制值w为1时，第二确定方法被确定为关注确定方法，而在确定方法控制值w为2时，第三确定方法被确定为关注确定方法。

第一确定方法是随机采样作为参考说话者的语音质量参数属于的说话者超向量S_org的每个种类#r中的说话者超向量S_z的分布(语音质量参数分布)的方法，并且对应于作为采样的结果获得的采样点的说话者超向量S被确定(通过所说的语音质量)为作为目标说话者的语音质量参数的说话者超向量S_tar。

在第一确定方法中，根据式(22)和(23)，在作为参考说话者的语音质量参数的说话者超向量S_org属于的每个种类#r中，说话者超向量S_z的分布用于确定作为目标说话者的语音质量参数的说话者超向量S_tar。

S_tar～N(ψ_r，φ_r) ......(22)

S_tar＝[μ_tar，0 ^T，μ_tar，1 ^T，···，μ_tar，P-1 ^T]^T ......(23)

这里，式(22)表示说话者超向量S_tar为均值ψ_r，而协方差由高斯分布N生成。

此外，作为说话者超向量S_tar的分量的μ_tar，p表示具有P高斯分布的GMM的第p高斯分布的均值。

第二确定方法是随机采样作为参考说话者的语音质量参数的不同于说话者超向量S_org属于的每个种类#r的每个种类#r'中的说话者超向量Sz的分布(语音质量参数分布)的方法，并且对应于作为采样的结果获得的采样点的说话者超向量S被确定(通过所说的语音质量)为作为目标说话者的语音质量参数的说话者超向量S_tar。

在第二确定方法中，例如，根据式(24)和(25)，在不同于作为参考说话者的语音质量参数的说话者超向量S_org属于的每个种类#r的每个种类#r'中，说话者超向量S_z的分布用于确定作为目标说话者的语音质量参数的说话者超向量S_tar。

S_tar～N(ψ_r，，φ_r，) ......(24)

S_tar＝[μ_tar，0 ^T，μ_tar，1 ^T，···，μ_tar，P-1 ^T]^T ......(25)

第三确定方法是这样一种方法：在作为参考说话者的语音质量参数的说话者超向量S_org属于的每个种类#r中的说话者超向量S_z的分布(语音质量参数分布)中，将对应于这样的点的说话者超向量S(所说的语音质量)确定为作为目标说话者的语音质量参数的说话者超向量S_tar，其中在所述点，对应于参考说话者的语音质量参数的说话者超向量S_org的点，关于预定点在点对称方向上移位。

在第三确定方法中，例如，根据式(26)、(27)和(28)，对应于这样的点的说话者超向量S被确定为作为目标说话者的语音质量参数的说话者超向量S_tar，其中该点从参考说话者的说话者超向量S_org观察，在参考说话者的说话者超向量S_org属于的每个种类#r中，位于关于说话者超向量S_z的均值ψ_r在点对称方向上，并且在参考说话者的说话者超向量S_org属于的每个种类#r中，位于通过说话者超向量S_z的分布的协方差从参考说话者的说话者超向量S_org确定的距离Dr处。

D_{r} = \sqrt{Σ_{r = 0}^{R - 1} e_{r}} . . . . . . (26)

S_{tar} = ψ_{r} + (ψ_{r} - S_{org}) \frac{D_{r}}{{| | ψ_{r} - S_{org} | |}_{F}} . . . . . . (27)

S_tar＝[μ_tar，0 ^T，μ_tar，1 ^T，···，μ_tar，P-1 ^T]^T ......(28)

这里，根据式(26)，通过向维度方向(dimensional direction)添加协方差的特征值e_r获得的加法值的平方根被用作距离Dr。

此外，||x||_F表示x的弗罗贝尼乌斯(Frobenius)范数。

在第一确定方法和第三确定方法中，在作为参考说话者的语音质量参数的说话者超向量S_org属于的每个种类#r中，在说话者超向量S_z的分布(语音质量参数分布)中分布的说话者超向量S被确定为作为目标说话者的语音质量参数的说话者超向量S_tar，以便可以进行用于消除参考说话者的语音个性的语音质量转换，同时将参考说话者的语音的说话场合的环境储存(保留)至某种程度。

此外，在第一确定方法中，随机采样在作为参考说话者的语音质量参数的说话者超向量S_org属于的每个种类#r中的对应于说话者超向量S_z的分布(语音质量参数分布)的采样点的说话者超向量S，被确定作为目标说话者的语音质量参数的说话者超向量S_tar，以便作为在参考说话者的语音的说话场合存在的每个说话者的语音质量参数的说话者超向量S的分布不大可能明显改变。

在第二确定方法中，在不同于作为参考说话者的语音质量参数的说话者超向量S_org属于的每个种类#r的每个种类#r'中，说话者超向量S_z的分布(语音质量参数分布)中分布的说话者超向量S被确定作为目标说话者的语音质量参数的说话者超向量S_tar，以便可进行用于强有力地消除参考说话者的语音个性的语音质量转换而不储存参考说话者的语音的说话场合的环境。

在第三确定方法中，在作为参考说话者的语音质量参数的说话者超向量S_org属于的每个种类#r中说话者超向量S_z的分布内，对应于在关于预定点的点对称方向上移位了对应于作为参考说话者的语音质量参数的说话者超向量S_org的点的说话者超向量S，被确定为作为目标说话者的语音质量参数的说话者超向量S_tar，以便可进行用于强有力地消除参考说话者的语音个性的语音质量转换，同时储存参考说话者的语音的说话场合的环境。

此外，在第三确定方法中，目标说话者的说话者超向量S_tar被确定为对应于这样的点的说话者超向量S，其中在该点，关于预定点在点对称方向上移位对应于作为参考说话者的说话者超向量S_org的点，以便在说话者超向量S_org不同时，目标说话者的说话者超向量S_tar也不同。因此，关于不同参考说话者，不同说话者被确定为目标说话者。结果，关于不同参考说话者，可防止同一说话者被确定为目标说话者。

应当注意，参考说话者的说话者超向量S_org属于的种类#r可以由用户(诸如参考说话者)输入。

此外，关于参考说话者的说话者超向量S_org属于的种类#r，语音质量确定单元34基于参考说话者的语音基音频率辨别参考说话者是男人还是女人，在语音质量转换单元12中建立全球定位系统(GPS)等，并且辨别通过向函数f(g)提供从GPS获得的语音质量转换单元12存在的地区的信息g而获得的语音质量转换单元12存在的地区，是东方人生活的地区还是西方人生活的地区。然后，基于辨别结果，语音质量确定单元34可以确定参考说话者超向量S_org属于的种类#r。

作为替换，例如，在语音质量确定单元34中，作为具有最接近参考说话者的说话者超向量S_org的均值ψ_r的语音质量模型的说话者超向量S_z的分布的种类#r可以被确定为参考说话者的说话者超向量S_org属于的种类。

在语音质量确定单元34确定说话者超向量S_tar作为目标说话者的语音质量参数时，例如，语音质量确定单元34根据式(29)、(30)、(31)、(32)、(33)、(34)和(35)，计算作为来自说话者超向量S_tar的目标说话者的包络信息的倒谱(以下也称为目标说话者倒谱)C_tar(j，l)，并将其与来自说话者自适应单元33的参考说话者倒谱C_org(j，l)一起提供给语音生成单元35。

{μ^{,}}_{org} = \frac{1}{P} Σ_{p = 0}^{P - 1} μ_{org, p} . . . . . . (29)

{μ^{,}}_{tar} = \frac{1}{P} Σ_{p = 0}^{P - 1} μ_{tar, p} . . . . . . (30)

μ^_org，p＝μ_org，p-μ_org ......(31)

μ^_tar，p＝μ_tar，p-μ_tar ......(32)

μ^_org＝[μ^_org，0，μ^_org，1，···，μ^_org，P-1] ......(33)

μ^_tar＝[μ^_tar，0，μ^_tar，1，···，μ^_tar，P-1] ......(34)

\begin{matrix} C_{tar} (j, l) = {μ^{^}}_{tar} {μ^{^}}_{org}^{T} {({μ^{^}}_{tar} {μ^{^}}_{org}^{T})}^{- 1} C_{org} (j, l) \\ + ({μ^{,}}_{tar} - {μ^{^}}_{tar} {μ^{^}}_{org}^{T} {({μ^{^}}_{tar} {μ^{^}}_{org}^{T})}^{- 1} {μ^{,}}_{org}) \end{matrix} . . . . . . (35)

<语音生成单元35>

语音生成单元35包括包络转换单元41和频率时间转换单元42，生成并输出来自参考说话者的语音(的频谱)的目标说话者的语音质量的语音。

<包络转换单元41>

包络转换单元41从语音质量确定单元34接收目标说话者倒谱C_tar(j，l)和参考说话者倒谱C_org(j，l)。此外，包络转换单元41从时间频率转换单元31接收参考说话者(的语音)的频谱X(k，l)。

包络转换单元41使用目标说话者倒谱C_tar(j，l)和参考说话者倒谱C_org(j，l)转换参考说话者的频谱X(k，l)的包络。

为了接收用于转换参考说话者的频谱X(k，l)的频率包络，包络转换单元41对参考说话者倒谱C_org(j，l)和目标说话者倒谱C_tar(j，l)的高频区进行零填充，并根据式(36)和(37)，将零填充后的参考说话者倒谱C_org(j，l)和目标说话者倒谱C_tar(j，l)从倒谱域(时域)的信号重新转换为频域的信号。

V_{org} (k, l) = \exp (Σ_{j = 0}^{M - 1} C_{org} (j, l) \exp (i 2 π \frac{jk}{M})) . . . . . . (36)

V_{tar} (k, l) = \exp (Σ_{j = 0}^{M - 1} C_{tar} (j, l) \exp (i 2 π \frac{jk}{M})) . . . . . . (37)

其中，V_org(k，l)表示有关参考说话者的频域的包络信息，V_tar(k，l)表示有关目标说话者的频域的包络信息。

包络转换单元41使用包络信息V_org(k，l)和V_tar(k，l)，以根据式(38)将参考说话者的频谱X(k，l)转换为目标说话者(的语音)的频谱Y(k，l)。

Y (k, l) = \frac{V_{tar} (k, l)}{V_{org} (k, l)} X (k, l) . . . . . . (38)

因此，在包络转换单元41计算目标说话者的频谱Y(k，l)时，包络转换单元41将目标说话者的频谱Y(k，l)提供给频率时间转换单元42。

<频率时间转换单元42>

频率时间转换单元42根据式(39)和(40)，进行来自包络转换单元41的目标说话者的频谱Y(k，l)的频率时间转换，并获得输出帧信号y^～(n，l)。

Y^{~} (k, l) = \{\begin{matrix} Y (k, l) & k = 0, . . ., \frac{M}{2} \\ conj (Y (M - k, l)) & k = \frac{M}{2} + 1, . . ., M - 1 \end{matrix} . . . . . . (39)

y^{~} (n, l) = \frac{1}{M} Σ_{k = 0}^{M - 1} Y^{~} (k, l) \exp (i 2 π \frac{nk}{M}) . . . . . . (40)

其中，conj(x)表示反转x的虚数分量的符号。

此外，作为频率时间转换单元42的频率时间转换，可以采用时间频率转换单元31的时间频率转换的逆转换。在本实施方式中，由于可以采用将如同图2中时间频率转换单元21_z的DFT(式(4))作为时间频率转换单元31的时间频率转换，所以可以采用DFT(式(40))的逆转换的离散傅立叶逆变换(IDFT)作为频率时间转换单元42的频率时间转换。

在获得输出帧信号y^～(n，l)后，频率时间转换单元42乘以根据式(41)的窗口函数w_syn(n)，然后根据式(42)进行重叠相加(overlap addition)，从而进行帧合成。然后，频率时间转换单元42输出作为帧合成的结果获得的目标说话者的语音(信号)y^curr(n+lN)，作为语音质量转换的结果(参考说话者的语音的语音质量转换的结果)。

w_{syn} (n) = \{\begin{matrix} {(0.5 - 0.5 \cos (2 π \frac{n}{N}))}^{0.5} & n = 0, . . ., N - 1 \\ 0 & n = N, . . ., M - 1 \end{matrix} - - - (41)

y^curr(n+IN)＝y^～(n,I)W_svn(n)+y^prev(n+IN) ......(42)

这里，尽管y^curr(n+lN)和y^prev(n+lN)两者都表示作为语音质量的转换结果的语音，但y^prev(n+lN)表示作为直至紧接在作为帧l的语音的输出帧信号y^～(n，l)之前的语音质量转换的结果的语音，y^curr(n+lN)表示作为直至作为帧l的语音的输出帧信号y^～(n，l)的语音质量转换的结果的语音。

此外，式(41)中的窗口函数w_syn(n)是与式(1)中作为用于时间频率转换单元31(以及时间频率转换单元21_z)的窗口函数w_ana(n)相同的窗口函数。作为替代，作为窗口函数w_syn(n)，也可以采用其他窗口函数，诸如汉明窗和矩形窗。

<第一确定方法至第三确定方法>

图5是描述在目标说话者确定方法之中的第一确定方法的概要的图。

在第一确定方法中，随机采样参考说话者的说话者超向量S_org属于的每个种类#r(图5中用虚线表示)中的说话者超向量S_z的分布，对应于作为采样的结果获得的采样点的说话者超向量S_z被确定为目标说话者的说话者超向量S_tar。

因此，根据第一确定方法，在参考说话者的语音的说话场合中存在的每个说话者的说话者超向量的分布，不大可能通过语音质量转换而明显改变。

即，目标说话者的说话者超向量S_tar从参考说话者的说话者超向量S_org属于的每个种类#r中的说话者超向量S_z的分布内采样，以便在通过使用目标说话者的说话者超向量S_tar进行的语音质量转换的情况下保存参考说话者的语音的说话场合的环境。

因此，根据第一确定方法，可以进行消除语音个性的语音质量转换而不损害参考说话者的语音的说话场合的环境。

图6是描述在目标说话者确定方法之中的第二确定方法的概要的图。

在第二确定方法中，随机采样不同于参考说话者的说话者超向量S_org属于的每个种类#r(图6中用虚线表示)中的说话者超向量S_z的分布的、每个种类#r'中的说话者超向量S_z的分布，并且将对应于作为采样的结果获得的采样点的说话者超向量S确定为目标说话者的说话者超向量S_tar。

因此，在第二确定方法中，从参考说话者的说话者超向量S_org属于的每个种类#r中的说话者超向量S_z的分布的外侧，采样目标说话者的说话者超向量S_tar，因此损害参考说话者的语音的说话场合的环境，然后在利用目标说话者的说话者超向量S_tar进行的语音质量转换情况下，语音质量转换后的语音明显地不同于参考说话者的语音质量。

因此，根据第二确定方法，可进行用于强有力地消除参考说话者的语音个性的语音质量转换而不用保存参考说话者的语音的说话场合的环境。

图7是描述可以按第一确定方法执行语音质量转换的概要的图。

在第一确定方法中，随机采样在参考说话者的说话者超向量S_org属于的每个种类#r(图7中用虚线表示)中的说话者超向量S_z的分布，并且将对应于作为采样的结果获得的采样点的说话者超向量S确定为目标说话者的说话者超向量S_tar，以便可以将具有相同语音质量(或类似语音质量)的说话者确定为关于多个说话者的目标说话者。

在该情况下，可能难以在语音质量转换后区分多个说话者的语音。

因此，根据第三确定方法，可防止具有相同语音质量的说话者被确定为关于多个说话者的目标说话者。

图8是描述在目标说话者确定方法中的第三确定方法的概要的图。

在第三确定方法中，在参考说话者的说话者超向量S_org属于的每个种类#r(图8中用虚线表示)中的说话者超向量S_z的分布中，对应于这样的点的说话者超向量S被确定为目标说话者的说话者超向量S_tar，其中该点从参考说话者的说话者超向量S_org观察，关于每个种类#r中的说话者超向量S_z的分布的均值ψ_r位于点对称方向上，并且位于通过每个种类#r中的说话者超向量S_z的分布的协方差由参考说话者的说话者超向量S_org确定的距离Dr处。

因此，在第三确定方法中，在参考说话者的说话者超向量S_org属于的每个种类#r中的说话者超向量S_z的分布中，对应于这样的点的说话者超向量S被确定为目标说话者的说话者超向量S_tar，其中在该点，参考说话者的说话者超向量S_org朝向均值ψ_r移位距离Dr，以便可以进行强有力地消除语音个性的语音质量转换而不会损害参考说话者的语音的说话场合的环境。

此外，在第三确定方法中，关于多个参考说话者，只要参考说话者的语音质量不同，具有不同语音质量的说话者就被确定作为目标说话者。因此，可防止具有相同语音质量的说话者被确定为关于多个说话者的目标说话者。

因此，由于语音质量转换单元12根据确定方法控制值w确定用于语音质量转换的目标说话者确定方法，并根据目标说话者确定方法确定目标说话者，所以用户可仅通过指示确定方法控制值w而不指示目标说话者来容易地进行用户期望的语音质量转换。

<语音质量转换单元12的处理>

图9是描述图4中由语音质量转换单元12执行的语音质量转换的流程图处理。

在语音质量转换单元12接收参考说话者的语音和确定方法控制值w时，语音质量转换单元12将参考说话者的语音提供给时间频率转换单元31，并且将确定方法控制值w提供给语音质量确定单元34。

然后，在步骤S21中，如同图2中时间频率转换单元21_z，时间频率转换单元31转换参考说话者的语音的频率，并且将得到的频谱X(k，l)提供给包络计算单元32和语音生成单元35，然后处理进至步骤S22。

在步骤S22中，如同图2中包络计算单元22_Z，包络计算单元32从来自于时间频率转换单元31的频谱X(k，l)，计算作为参考说话者的包络信息的倒谱C(j，l)，并且将其提供给说话者自适应单元33，然后处理进至步骤S23。

在步骤S23中，说话者自适应单元33从学习单元11(图2)的包络空间生成单元24接收作为包络信息模型的UBM-GMM(的模型参数θ'_p＝{μ'_p，Σ'_p，π'_p})，并且处理进至步骤S24。

在步骤S24，如同图2中说话者自适应单元25_Z，说话者自适应单元33使用来自包络计算单元32的参考说话者倒谱C_org(j，l)，进行来自学习单元11的UBM-GMM的说话者自适应，从而生成自适应于参考说话者的MAP-GMM。然后，处理进至步骤S25。

在步骤S25中，如同图2中说话者自适应单元25_Z，说话者自适应单元33使用作为自适应于参考说话者的MAP-GMM的模型参数的均值向量μ_org，p，生成作为表示参考说话者的语音质量的语音质量参数的说话者超向量S_org＝[μ_org，0 ^T，μ_org，1 ^T，……，μ_org，P-1 ^T]^T，用于设定构成MAP-GMM的P个高斯分布的均值向量μ_org，0、μ_org，1、……、μ_org，P-1作为分量，并将其与来自包络计算单元32的参考说话者倒谱C_org(j，l)一起提供给语音质量确定单元34。然后，处理进至步骤S26。

在步骤S26中，语音质量确定单元34接收从外部提供的确定方法控制值w，并根据确定方法控制值w，例如在上述第一确定方法到第三确定方法之中确定用于语音质量转换的目标说话者确定方法，作为关注确定方法。然后，处理进至步骤S27。

应当注意，在不从外部供给确定方法控制值w时，例如，语音质量确定单元34可以使用预定的默认值作为确定方法控制值w。

在步骤S27中，语音质量确定单元34使用每个种类#r中的说话者超向量S_z的均值ψ_r和协方差作为在学习单元11(图2)的语音质量模型数据库27中存储的语音质量模型，以及使用说话者超向量S_org作为从说话者自适应单元33提供的参考说话者的语音质量参数，以根据关注确定方法确定(计算)说话者超向量S_tar作为目标说话者的语音质量参数。然后，处理进至步骤S28。

在步骤S28中，语音质量确定单元34根据式(29)至(35)从作为目标说话者的语音质量参数的说话者超向量S_tar，计算作为目标说话者的包络信息的倒谱的目标说话者倒谱C_tar(j，l)，并将其与来自说话者自适应单元33的参考说话者倒谱C_org(j，l)一起提供给语音生成单元35的包络转换单元41。然后，处理进至步骤S29。

在步骤S29中，包络转换单元41根据式(36)和(37)，将来自语音质量确定单元34的目标说话者倒谱C_tar(j，l)和参考说话者倒谱C_org(j，l)转换为频域上的包络信息V_tar(k，l)和V_org(k，l)，然后处理进至步骤S30。

在步骤S30中，包络转换单元41使用包络信息V_tar(k，l)和V_org(k，l)，根据式(38)，将来自语音质量确定单元34的参考说话者的频谱X(k，l)转换为目标说话者(的语音)的频谱Y(k，l)，并将其提供给频率时间转换单元42，然后处理进至步骤S31。

在步骤S31中，频率时间转换单元42根据式(39)到(42)，进行来自包络转换单元41的目标说话者的频谱Y(k，l)的频率时间转换，并输出作为结果获得的目标说话者的语音(信号)y^curr(n+lN)，即，参考说话者的语音的语音质量转换的结果。

<应用于服务器客户端系统>

图10是描述对服务器客户端系统应用语音个性消除设备的图。

图1中的语音个性消除设备不仅可配置为所谓的单机设备，也可配置为服务器客户端系统(server client system)。

图10A是示出应用了语音个性消除设备的服务器客户端系统的第一配置示例的框图。

在图10A中，服务器包括学习单元11，而客户端包括语音质量转换单元12。

作为客户端的语音质量转换单元12通过从作为服务器的学习单元11获得语音质量模型等的必要信息来进行语音转换。

图10B是示出应用语音个性消除设备的服务器客户端系统的第二配置示例的框图。

在图10B中，服务器包括学习单元11和语音质量转换单元12，而客户端包括用户接口(I/F)(未示出)。

在客户端，用户从用户I/F输入参考说话者的语音和确定方法控制值w，并将其发送到服务器。

在服务器侧，参考说话者的语音和来自客户端的确定方法控制值w、以及从学习单元11获得的语音质量模型的必要信息等用于进行语音质量转换，并且将作为语音质量转换的结果的语音发送到客户端。

在客户端，接收来自服务器的、作为语音质量转换的结果的语音并从用户I/F输出。

图10C是示出应用语音个性消除设备的服务器客户端系统的第三配置示例的框图。

在图10C中，服务器包括学习单元11和作为语音质量转换单元12的一部分的语音质量确定单元34，而客户端包括语音质量转换单元12的剩余部分(图4中时间频率转换单元31、包络计算单元32、说话者自适应单元33、以及语音生成单元35)。

在客户端，确定方法控制值w被发送到服务器。在服务器侧，语音质量确定单元34使用来自客户端的确定方法控制值w和从学习单元11获得的语音质量模型等的必要信息，进行以上描述的相同处理。结果信息被发送到客户端。

在客户端，语音质量转换单元12使用参考说话者的语音和从服务器发送的由语音质量确定单元34获得的信息，进行包括在图9中描述的语音质量转换单元12的处理之中由语音质量确定单元34进行的处理的处理。

应当注意，在应用语音个性消除设备到客户服务器系统时，在构成语音质量转换单元12的块之中除了语音质量确定单元34之外的块都可以应用于服务器。

<应用本技术的计算机的描述>

接下来，上述一系列处理可由硬件或软件进行。在由软件进行一系列处理时，构成的软件的程序被安装在通用计算机等中。

因此，图11表示在其中安装了用于执行上述一系列处理的程序的计算机的配置示例。

程序可预先记录在硬盘105中或记录在嵌入在计算机中的记录介质的只读存储器(ROM)103中。

作为替代，程序可存储(记录)在可移动记录介质111上。可移动记录介质111可提供为所谓的封装软件。这里，可移动记录介质111包括例如软盘、光盘只读存储器(CD-ROM)、磁光(MO)盘、数字通用盘(DVD)、磁盘、半导体存储器等。

应当注意，程序可从上述的可移动记录介质111安装到计算机中，此外可通过通信网或广播网下载到计算机中并安装在内置硬盘105中。即，例如，程序可以以无线方式从下载网站通过用于数字卫星广播的人造卫星发送到计算机，或可以以有线方式通过诸如局域网(LAN)或因特网的网络发送到计算机。

计算机有嵌入其内的中央处理单元(CPU)102，并且CPU102通过总线101连接到输入输出接口。

在通过输入单元107等的操作，由用户通过输入输出接口110输入指令时，CPU102响应该指令而执行在只读存储器(ROM)103中存储的程序。作为替代，CPU102将硬盘105中存储的程序加载到随机存储器(RAM)104中以便执行。

因此，CPU102进行根据上述流程图的处理或由框图的上述结构进行的处理。然后，CPU102例如通过输入输出接口110从输出单元106或通信单元108输出或发送处理的结果，或在必要时将结果记录在硬盘105上。

此外，输入单元107包括键盘、鼠标、话筒等。此外，输出单元106包括液晶显示器(LCD)、扬声器等。

这里，在本说明书中，根据程序由计算机进行的处理不一定根据流程图描述的顺序以时间序列进行。换句话说，由计算机根据程序进行的处理也包括并行或分别进行的处理(例如，并行处理或使用对象的处理)。

此外，程序可以由单个计算机(处理器)处理，或可以被处理成由多个计算机分配。此外，程序可以被发送给远程计算机并由其执行。

此外，在本说明书中，系统表示多个构成元素(设备、模块(组件)等)的组合，全部构成元素是否在相同机壳中并不重要。因此，容纳在分开的机壳中并通过网络彼此连接的多个设备和在单个机壳中容纳多个模块的单个设备两者都是系统。

应当注意，本技术的实施方式不限定于以上描述的实施方式，而是在不脱离本技术的范围的情况下可以有各种改进。

例如，本技术可利用通过网络对多个设备分配单个功能并协同处理的云计算。

此外，上述流程图中描述的各步骤不仅可由单个设备执行，而且也可以分配给多个设备来执行。

此外，在包括多个处理的单个步骤的情况下，步骤中包括的多个处理不仅可由单个设备执行，而且也可以分配给多个设备来执行。

此外，本说明书中描述的效果仅是示范性的而不是限定性的，而且还有其他效果。

这里，尽管在本技术的实施方式中描述了对用于消除语音个性的语音质量转换应用本技术的情况，但本技术可以采用为用于除了消除语音个性之外目的的语音质量转换。

此外，在本技术的实施方式中，确定方法控制值w取0、1和2三个值中的一个，并且用于语音质量转换的目标说话者确定方法根据确定方法控制值w在第一确定方法和第二确定方法之中确定。然而，确定方法控制值w不限定于三个值，并且目标说话者确定方法不限定于第一确定方法和第二确定方法。即，能够采用两个值或四个值或更多值作为确定方法控制值w，能够准备两个方法或四个方法或更多的方法作为目标说话者确定方法。

此外，语音质量转换方法不限定于上述方法。

应当注意，本技术可以有下列结构。

<1>一种语音处理设备，包括语音质量确定单元，构成为根据确定方法控制值确定用于语音质量转换的目标说话者确定方法并根据目标说话者确定方法确定目标说话者，所述确定方法控制值指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法。

<2>根据项目<1>的所述语音处理设备，还包括语音生成单元，构成为从其语音质量要被转换的参考说话者的语音，生成所述目标说话者的所述语音质量的语音。

<3>根据项目<2>的所述语音处理设备，其中所述语音质量确定单元构成为通过使用语音质量参数分布确定所述目标说话者，所述语音质量参数分布是表示所述语音质量的所述语音质量参数的语音质量空间中通过使用多个说话者的语音计算出的语音质量参数的分布。

<4>根据项目<3>的所述语音处理设备，所述语音质量确定单元构成为根据确定方法控制值确定以下方法作为用于语音质量转换的目标说话者确定方法：将由所述参考说话者的语音质量参数属于的所述语音质量参数分布中分布的语音质量参数表示的所述语音质量确定为目标说话者的语音质量。

<5>根据项目<4>的所述语音处理设备，其中所述语音质量确定单元构成为根据确定方法控制值确定以下方法作为用于语音质量转换的目标说话者确定方法：随机采样所述参考说话者的语音质量参数属于的所述语音质量参数分布并将由对应于作为采样的结果获得的采样点的所述语音质量参数表示的语音质量确定为目标说话者的语音质量。

<6>根据项目<4>或<5>所述语音处理设备，其中所述语音质量确定单元构成为根据确定方法控制值确定以下方法作为用于语音质量转换的目标说话者确定方法：将由对应于这样的点的语音质量参数表示的语音质量确定为目标说话者的语音质量，其中在所述点，对应于参考说话者的语音质量参数属于的语音质量参数分布中的参考说话者的语音质量参数的点，关于预定点在点对称方向上移位。

<7>根据项目<3>的所述语音处理设备，其中所述语音质量确定单元构成为根据确定方法控制值确定以下方法作为用于语音质量转换的目标说话者确定方法：将由不同于参考说话者的语音质量参数属于的语音质量参数分布的语音质量参数分布中分布的语音质量参数表示的语音质量确定为目标说话者的语音质量。

<8>根据项目<3>的所述语音处理设备，其中所述语音质量确定单元构成为根据确定方法控制值确定下列方法中的一个方法作为用于语音质量转换的目标说话者确定方法：使用在用于表示所述语音质量的所述语音质量参数的所述语音质量空间中作为通过使用多个说话者的语音计算出的语音质量参数的分布的语音质量参数分布；以及使用不同于参考说话者的语音质量参数属于的语音质量参数分布的语音质量参数分布。

<9>根据项目<3>的所述语音处理设备，其中所述语音质量确定单元构成为根据确定方法控制值确定下列方法中的一个方法作为用于语音质量转换的目标说话者确定方法：随机采样参考说话者的语音质量参数属于的语音质量参数分布并确定由对应于作为采样的结果获得的采样点的语音质量参数表示的语音质量作为所述目标说话者的语音质量；将由对应于这样的点的语音质量参数表示的语音质量确定为目标说话者的语音质量，其中在所述点，对应于参考说话者的语音质量参数属于的语音质量参数分布中的参考说话者的语音质量参数的点，关于预定点在点对称方向上移位；以及将由不同于参考说话者的语音质量参数属于的语音质量参数分布的语音质量参数分布中分布的语音质量参数表示的语音质量确定为目标说话者的语音质量。

<10>一种语音处理方法，包括：根据确定方法控制值确定用于语音质量转换的目标说话者确定方法，所述确定方法控制值指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法；并且根据目标说话者确定方法确定目标说话者。

<11>一种程序，其使计算机作用为：语音质量确定单元，构成为根据确定方法控制值确定用于语音质量转换的目标说话者确定方法并根据目标说话者确定方法确定目标说话者，所述确定方法控制值指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法。

本领域技术人员应该明白，只要它们在所附权利要求或其等价物的范围内，就可能依赖于设计需要和其他因素想到各种改进、组合、部分组合和变更。

Claims

1.语音处理设备，包括：

语音质量确定单元，构成为根据确定方法控制值确定用于语音质量转换的目标说话者确定方法并根据目标说话者确定方法确定目标说话者，所述确定方法控制值指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法。

2.根据权利要求1所述的语音处理设备，还包括：

语音生成单元，构成为从其语音质量要被转换的参考说话者的语音，生成所述目标说话者的所述语音质量的语音。

3.根据权利要求2所述的语音处理设备，其中

所述语音质量确定单元构成为通过使用语音质量参数分布确定所述目标说话者，所述语音质量参数分布是表示所述语音质量的所述语音质量参数的语音质量空间中通过使用多个说话者的语音计算出的语音质量参数的分布。

4.根据权利要求3所述的语音处理设备，其中

所述语音质量确定单元构成为根据确定方法控制值确定以下方法作为用于语音质量转换的目标说话者确定方法：将由所述参考说话者的语音质量参数属于的所述语音质量参数分布中分布的语音质量参数表示的所述语音质量确定为目标说话者的语音质量。

5.根据权利要求4所述的语音处理设备，其中

所述语音质量确定单元构成为根据确定方法控制值确定以下方法作为用于语音质量转换的目标说话者确定方法：随机采样所述参考说话者的语音质量参数属于的所述语音质量参数分布并将由对应于作为采样的结果获得的采样点的所述语音质量参数表示的语音质量确定为目标说话者的语音质量。

6.根据权利要求4所述的语音处理设备，其中

所述语音质量确定单元构成为根据确定方法控制值确定以下方法作为用于语音质量转换的目标说话者确定方法：将由对应于这样的点的语音质量参数表示的语音质量确定为目标说话者的语音质量，其中在所述点，对应于参考说话者的语音质量参数属于的语音质量参数分布中的参考说话者的语音质量参数的点，关于预定点在点对称方向上移位。

7.根据权利要求3所述的语音处理设备，其中

所述语音质量确定单元构成为根据确定方法控制值确定以下方法作为用于语音质量转换的目标说话者确定方法：将由不同于参考说话者的语音质量参数属于的语音质量参数分布的语音质量参数分布中分布的语音质量参数表示的语音质量确定为目标说话者的语音质量。

8.根据权利要求3所述的语音处理设备，其中

所述语音质量确定单元构成为根据确定方法控制值确定下列方法中的一个方法作为用于语音质量转换的目标说话者确定方法：

使用在用于表示所述语音质量的所述语音质量参数的所述语音质量空间中作为通过使用多个说话者的语音计算出的语音质量参数的分布的语音质量参数分布，以及

使用不同于参考说话者的语音质量参数属于的语音质量参数分布的语音质量参数分布。

9.根据权利要求3所述的语音处理设备，其中

随机采样参考说话者的语音质量参数属于的语音质量参数分布并确定由对应于作为采样的结果获得的采样点的语音质量参数表示的语音质量作为所述目标说话者的语音质量，

将由对应于这样的点的语音质量参数表示的语音质量确定为目标说话者的语音质量，其中在所述点，对应于参考说话者的语音质量参数属于的语音质量参数分布中的参考说话者的语音质量参数的点，关于预定点在点对称方向上移位，以及

将由不同于参考说话者的语音质量参数属于的语音质量参数分布的语音质量参数分布中分布的语音质量参数表示的语音质量确定为目标说话者的语音质量。

10.一种语音处理方法，包括：

根据确定方法控制值确定用于语音质量转换的目标说话者确定方法，所述确定方法控制值指示确定其语音质量被定为语音质量转换的目标的目标说话者的目标说话者确定方法；并且

根据目标说话者确定方法确定目标说话者。

11.一种程序，其使计算机作用为：