CN101583859A

CN101583859A - 高质量的基于码本的声音转换的存储器高效系统和方法

Info

Publication number: CN101583859A
Application number: CNA2007800499075A
Authority: CN
Inventors: J·努尔米宁; J·田; V·波帕
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2006-12-15
Filing date: 2007-12-13
Publication date: 2009-11-18
Also published as: US20080147385A1; WO2008072205A1; EP2089686A1

Abstract

一种实现和执行基于码本的声音转换的改进系统方法，其显著地降低了存储器占用量并改善了输出的连续性。在各实施例中，成对的源目标码本被实现为多级向量量化器。在转换期间，树搜索中的N个最佳候选被视为从量化器的输出。在寻找平滑而精确的输出序列的动态基于编程的方法中使用对于待转换的每个向量的N个候选。

Description

高质量的基于码本的声音转换的存储器高效系统和方法

技术领域

本发明一般涉及语音处理。更具体地，本发明涉及在语音处理中声音转换的实现。

背景技术

该部分旨在提供在权利要求中限定的本发明的背景或环境。此处的描述可包括能够遵循的概念，但未必是先前已经设想出或已遵循的那些概念。因此，除非这里指出，否则该部分中所描述的不是对于本申请中的说明书和权利要求书的现有技术，并且不会通过包含在该部分而承认是现有技术。

声音转换是用于有效保护说话者身份的技术，即，改变源说话者的语音，从而听起来好像语音由不同的“目标”说话者发出。

目前，正在开发各种不同的声音转换系统，并且这些系统可用于各种应用中。例如，声音转换可用于扩展高端文语转换(TTS，text-to-speech)的语言组合，其还被称为以成本有效方式用于标记的声音的高质量或HQTTS系统。在这个环境下，声音转换可用于以原始个人不能够说出的语言作出被标记的合成声音讲话。此外，可使用声音转换创建新TTS声音，并且相同的技术可被使用在多种类型的娱乐应用和游戏中。还存在可使用声音转换技术实现的多个新特征，例如通过发送者的声音阅读文本消息。

一种可在声音转换中使用的技术涉及利用基于码本(codebook)的方法。码本是个人发出的说话声的集合声音单位。码本被构建以便提供在源码本中的单位条目与目标码本中的单位条目之间的一对一映射。有时通过将所有的可用训练数据合并到码本中来实现码本，有时生成更小的码本。在M.Abe，S.Nakamura，K.Shikano，H.Kuwabara的1988年4月的ICASSP公报“Voice Conversion through Vector Quantization”中讨论了基于码本的声音转换，其全部内容通过引用合并于此。

尽管基于码本的技术很有前途，但是该技术传统地具有多个缺点。例如，在使用码本时，输出常常包含多个中断。此外，如果目标是实现精确转换结果，则使用基于码本的方案可使得存储器需求和计算复杂度变大。在L.M Arslan，David Talkin的1997年9月的Eurospeech公报“VoiceConversion by Codebook Mapping of Line Spectral Frequencies andExcitation Spectrum”中讨论了改进基于码本的声音转换中的连续性问题的一个尝试，其全部内容通过引用合并于此。然而，仍旧期望进一步缓解以上讨论的问题，同时还改进在使用基本码本的方法时的转换精确性。

发明内容

本发明的各实施例提供了一种用于基于码本的声音转换的改进系统和方法，其显著地降低了存储器占用量并改善了输出的连续性。各实施例还用于降低计算复杂度和提高转换精确性。通过将成对的源目标码本实现为多级向量量化器(MSVQ，multi-stage vector quantizer)来实现占用量降低。在转换期间，树搜索中的N个最佳候选被视为从量化器的输出。在寻找平滑而精确的输出序列的基于动态编程的方法中使用关于待转换的每个向量的N个候选。该方法是灵活的，并且可用于不同的声音转换系统中。除此之外，各实施例可用于避免过拟合的训练数据；可针对不同使用情况对他们进行调整；并且针对不同存储器占用量和复杂水平他们是可扩展的。此外，所述系统和方法包括全数据驱动技术；不需要聚集任何特定语言的知识。

可结合2005年4月15日递交的美国专利申请No.11/107,334中描述的声音转换架构使用本发明的各实施例，其全部内容通过引用合并于此。

由结合附图的以下具体描述，本发明的这些以及其他优点和特征及其组织和运行方式将变得明显，其中在以下描述的几幅附图中相同的元件具有相同的标号。

附图说明

图1是本发明各实施例使用的M-L树搜索过程的示图；

图2是可在本发明的实现中使用的移动电话的透视图；以及

图3是图2的移动电话的电话电路的示意性表示。

具体实施方式

本发明的各实施例提供了一种用于基于码本的声音转换的改进系统和方法，其显著地降低了存储器占用量并改善了输出的连续性。各实施例还用于降低计算复杂度和提高转换精确性。该方法是灵活的，并且可用于不同的声音转换系统中。除此之外，各实施例可用于避免过拟合的训练数据；可针对不同使用情况对他们进行调整；并且针对不同存储器占用量和复杂水平他们是可扩展的。此外，所述系统和方法包括全数据驱动技术；不需要聚集任何特定语言的知识。

通过将成对的源目标码本实现为MSVQ来实现本发明个实施例中占用量的降低。在转换期间，树搜索中的N个最佳候选被视为从量化器的输出。在寻找平滑而精确的输出序列的基于动态编程的方法中使用关于待转换的每个向量的N个候选。

通过使用运行在源目标空间中的失真测量，在联合源目标空间中执行成对的源目标量化器的训练。可使用多级向量量化器的同时联合设计算法同时训练所有的个别级。在LeBlanc，W.P.，Bhattacharya，B.，Mahmoud，S.A.&Cuperman，V.的关于语音和音频处理的IEEE事务1，4(1993)第373-385页的“Efficient Search and Design Procedures for RobustMulti-Stage VQ of LPC Parameters for 4kb/s Speech Coding”中描述了一种这样的算法，其全部内容通过引用合并于此。一旦完成训练，仅使用空间的源侧来执行搜索，同时仅使用联合向量的目标部分生成输出。

对于MSVQ，可根据设计目标(包括与目标精确度、存储器消耗、计算复杂度等相关的目标)调整级的数量和级的大小。例如，可使用M-L树搜索过程来实现搜索过程。图1中示出该过程。图1中所示的搜索过程包括4个级，分别指示为C⁽¹⁾、C⁽²⁾、C⁽³⁾和C⁽⁴⁾。对于每个级，图1中的搜索过程限定了16个不同的向量用于选择。对于每个级，选择预定数目的最佳候选路径用于进一步处理。由于该执行选择，搜索可输出N个最佳候选作为副产品。应注意，搜索过程需要在中间处理期间记得最佳路径。可根据设计需求和/或偏好来设置N的值。

在N个最佳候选可用于待转换的给定数目的向量之后，使用动态编程获得优化的输出序列。对于每个候选，在搜索过程期间存储相应的源-空间距离。此外，在每个相邻候选对之间计算转换距离。这些距离一起被用在基于动态编程的方法中，用以寻找“最佳输出序列”，即得到最小总距离的路径。可使用用户限定的或预定的权重因子设置在精确性和平滑性之间的相对重要性。

在图1所示的图示中，在初始点100开始考虑多个潜在多级向量。基于路径的总平滑性和精确性选择所选路径110。在该图示中，所选路径基于选择级1中的向量5，级2中的向量14，级3中的向量9，以及级4中的向量7。

以下将本发明的一个实施例的使用与一对传统转换系统相比较。在线谱频率(LSF，line spectral frequencies)的转换中，在实际声音转换环境中测试这些方法。以10毫秒间隔从90个句子评估10维LSF参数。选择14,942个向量用于训练，并且使用不同集合的另外14,942个向量用于测试。如上所述，该测试包括3个模型。第一模型遵循本发明的实施例，使用3个级，在每个级中具有16个向量。第二模型包括含有所有训练向量的全码本。第三模型包含小型码本，其具有与第一模型(具有真实源目标向量)中描述的本发明实施例相同的占用量。省略动态编程处理，以获得可比较的结果。

从以下3个不同观点评估所述3个模型：性能/精确性、存储器需求、和计算负载。使用平均的均方误差来测量精确性，而存储器需求被计算为必须被存储在存储器中的向量元素的数量。计算负载被评估为在搜索过程期间所需向量比较的数量。在以下表1中总结了使用测试数据计算的评估结果。

表1

标准	模型1	模型2	模型3
标准	模型1	模型2	模型3	精确性(MSE，^＊10⁴)	3.62	4.12	4.79
存储器(向量元素的数量)	960	298,840	960	精确性(MSE，^＊10⁴)	3.62	4.12	4.79
存储器(向量元素的数量)	960	298,840	960	复杂度(向量比较的数量)	144	14,942	48

图1中略述的结果示出所选的本发明实施例从所有方面都表现强大：其明显提供了最佳精确性和最低存储器使用。尽管第三模型提供了类似的存储器和复杂度水平，但是转换精确性明显低于所选的本发明实施例。

图2和3示出其中可实现本发明的一个代表性电子设备12。然而，应理解，本发明不限于一种特定类型的电子设备12。图2和3的电子设备12包括：壳体30、液晶显示器形式的显示器32、键区(keypad)34、麦克风36、耳机38、电池40、红外端口42、天线44、根据本发明的一个实施例的UICC形式的智能卡、读卡器48、无线接口电路52、编解码器电路54、控制器56、存储器58。各电路和元件都是本领域，例如移动电话的Nokia领域，熟知的类型。

在方法步骤或过程的一般环境中描述了各实施例，在一个实施例中其可通过包括由网络环境中的计算机执行的计算机可执行指令(例如程序代码)的在计算机可读介质上实现的计算机程序产品来实现。计算机可读介质可包括可移动和不可移动存储设备，包括但不限于，只读存储器(ROM)、随机存取存储器(RAM)、压缩盘(CD)、数字通用光盘(DVD)等。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、关联的数据结构、和程序模块代表用于执行这里所公开的方法步骤的程序代码的实例。这种可执行指令或关联的数据结构的特定序列代表用于实现在这种步骤中描述的功能的相应动作的实例。

可通过具有基于规则的逻辑和其他逻辑的标准编程技术来实现各实施例的软件和web方案，以实现各数据库搜索步骤或过程、关联步骤或过程、比较步骤或过程以及判决步骤或过程。还应注意，这里和下面的权利要求中使用的词语“组件”和“模块”旨在包含使用一行或多行软件代码的方案、和/或硬件方案、和/或接收手动输入的设备。

为了示例和说明目的，呈现了本发明的实施例的以上描述。以上描述不是旨在穷尽或将本发明的实施例限制于所公开的精确形式，根据以上教导可进行修改和改变，或者可根据本发明的实践获得修改和改变。选择和描述此处讨论的实施例，以便解释各实施例的原理和本质及其实际应用，以使得本领域普通技术人员能够利用各实施例中的本发明以及适于特定使用预期的各种修改。可以将这里所描述的实施例的特性组合到方法、装置、模块、系统、计算机程序产品的所有可能的组合中。

Claims

1.一种实现基于码本的声音转换的方法，包括：

使用成对的源目标多级向量量化器创建成对的源目标码本，对于多个训练音频条目中的每个，所述码本通过以下被训练：

在所述多级向量量化器的多个级中的每个级，选择预定数目的最佳候选路径，用于进一步处理；

基于每个级的所选候选路径识别多个候选向量序列；以及

从所述多个候选向量序列选择最佳候选向量序列。

2.如权利要求1所述的方法，其中对于所述多级向量量化器的每个级，训练基本同时进行。

3.如权利要求2所述的方法，其中通过使用多级向量量化器同时联合设计算法进行同时训练。

4.如权利要求1所述的方法，其中基于从包括目标精确性、存储器消耗以及计算复杂度的组选择的至少一个因素，选择在所述多级向量量化器中的级的数目。

5.如权利要求1所述的方法，其中基于候选向量序列的相对平滑性以及候选向量序列的精确性的组合选择最佳候选向量序列。

6.如权利要求1所述的方法，其中所述多个级包括搜索级和目标级，并且还包括：

基于接收用于转换的输入音频条目，在所述搜索级将所述输入音频条目与合适的向量匹配；以及

基于在训练期间为所述输入音频条目选择的最佳候选向量序列，输出被转换的音频条目。

7.一种在计算机可读介质中实现的计算机程序产品，用于实现基于码本的声音转换，包括：

用于使用成对的源目标多级向量量化器创建成对的源目标码本的计算机代码，对于多个训练音频条目中的每个，所述码本通过以下被训练：

基于每个级的所选候选路径识别多个候选向量序列；以及

从所述多个候选向量序列选择最佳候选向量序列。

8.如权利要求7所述的计算机程序产品，其中对于所述多级向量量化器的每个级，训练基本同时进行。

9.如权利要求8所述的计算机程序产品，其中通过使用多级向量量化器同时联合设计算法进行同时训练。

10.如权利要求7所述的计算机程序产品，其中基于从包括目标精确性、存储器消耗以及计算复杂度的组选择的至少一个因素，选择在所述多级向量量化器中的级的数目。

11.如权利要求7所述的计算机程序产品，其中基于候选向量序列的相对平滑性以及候选向量序列的精确性的组合选择最佳候选向量序列。

12.如权利要求7所述的计算机程序产品，其中所述多个级包括搜索级和目标级，并且还包括：

用于基于接收用于转换的输入音频条目，在所述搜索级将所述输入音频条目与合适的向量匹配的计算机代码；以及

用于基于在训练期间为所述输入音频条目选择的最佳候选向量序列，输出被转换的音频条目的计算机代码。

13.一种装置，包括：

处理器；以及

通信地连接至所述处理器的存储器单元，并包括用于使用成对的源目标多级向量量化器创建成对的源目标码本的计算机代码，对于多个训练音频条目中的每个，所述码本通过以下被训练：

基于每个级的所选候选路径识别多个候选向量序列；以及

从所述多个候选向量序列选择最佳候选向量序列。

14.如权利要求13所述的装置，其中对于所述多级向量量化器的每个级，训练基本同时进行。

15.如权利要求14所述的装置，其中通过使用多级向量量化器同时联合设计算法进行同时训练。

16.如权利要求13所述的装置，其中基于从包括目标精确性、存储器消耗以及计算复杂度的组选择的至少一个因素，选择在所述多级向量量化器中的级的数目。

17.如权利要求13所述的装置，其中基于候选向量序列的相对平滑性以及候选向量序列的精确性的组合选择最佳候选向量序列。

18.如权利要求13所述的装置，其中所述多个级包括搜索级和目标级，其中所述存储器单元还包括：