CN101583859A - 高质量的基于码本的声音转换的存储器高效系统和方法 - Google Patents

高质量的基于码本的声音转换的存储器高效系统和方法 Download PDF

Info

Publication number
CN101583859A
CN101583859A CNA2007800499075A CN200780049907A CN101583859A CN 101583859 A CN101583859 A CN 101583859A CN A2007800499075 A CNA2007800499075 A CN A2007800499075A CN 200780049907 A CN200780049907 A CN 200780049907A CN 101583859 A CN101583859 A CN 101583859A
Authority
CN
China
Prior art keywords
candidate
level
vector
sequence
audio entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800499075A
Other languages
English (en)
Inventor
J·努尔米宁
J·田
V·波帕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN101583859A publication Critical patent/CN101583859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种实现和执行基于码本的声音转换的改进系统方法,其显著地降低了存储器占用量并改善了输出的连续性。在各实施例中,成对的源目标码本被实现为多级向量量化器。在转换期间,树搜索中的N个最佳候选被视为从量化器的输出。在寻找平滑而精确的输出序列的动态基于编程的方法中使用对于待转换的每个向量的N个候选。

Description

高质量的基于码本的声音转换的存储器高效系统和方法
技术领域
本发明一般涉及语音处理。更具体地,本发明涉及在语音处理中声音转换的实现。
背景技术
该部分旨在提供在权利要求中限定的本发明的背景或环境。此处的描述可包括能够遵循的概念,但未必是先前已经设想出或已遵循的那些概念。因此,除非这里指出,否则该部分中所描述的不是对于本申请中的说明书和权利要求书的现有技术,并且不会通过包含在该部分而承认是现有技术。
声音转换是用于有效保护说话者身份的技术,即,改变源说话者的语音,从而听起来好像语音由不同的“目标”说话者发出。
目前,正在开发各种不同的声音转换系统,并且这些系统可用于各种应用中。例如,声音转换可用于扩展高端文语转换(TTS,text-to-speech)的语言组合,其还被称为以成本有效方式用于标记的声音的高质量或HQTTS系统。在这个环境下,声音转换可用于以原始个人不能够说出的语言作出被标记的合成声音讲话。此外,可使用声音转换创建新TTS声音,并且相同的技术可被使用在多种类型的娱乐应用和游戏中。还存在可使用声音转换技术实现的多个新特征,例如通过发送者的声音阅读文本消息。
一种可在声音转换中使用的技术涉及利用基于码本(codebook)的方法。码本是个人发出的说话声的集合声音单位。码本被构建以便提供在源码本中的单位条目与目标码本中的单位条目之间的一对一映射。有时通过将所有的可用训练数据合并到码本中来实现码本,有时生成更小的码本。在M.Abe,S.Nakamura,K.Shikano,H.Kuwabara的1988年4月的ICASSP公报“Voice Conversion through Vector Quantization”中讨论了基于码本的声音转换,其全部内容通过引用合并于此。
尽管基于码本的技术很有前途,但是该技术传统地具有多个缺点。例如,在使用码本时,输出常常包含多个中断。此外,如果目标是实现精确转换结果,则使用基于码本的方案可使得存储器需求和计算复杂度变大。在L.M Arslan,David Talkin的1997年9月的Eurospeech公报“VoiceConversion by Codebook Mapping of Line Spectral Frequencies andExcitation Spectrum”中讨论了改进基于码本的声音转换中的连续性问题的一个尝试,其全部内容通过引用合并于此。然而,仍旧期望进一步缓解以上讨论的问题,同时还改进在使用基本码本的方法时的转换精确性。
发明内容
本发明的各实施例提供了一种用于基于码本的声音转换的改进系统和方法,其显著地降低了存储器占用量并改善了输出的连续性。各实施例还用于降低计算复杂度和提高转换精确性。通过将成对的源目标码本实现为多级向量量化器(MSVQ,multi-stage vector quantizer)来实现占用量降低。在转换期间,树搜索中的N个最佳候选被视为从量化器的输出。在寻找平滑而精确的输出序列的基于动态编程的方法中使用关于待转换的每个向量的N个候选。该方法是灵活的,并且可用于不同的声音转换系统中。除此之外,各实施例可用于避免过拟合的训练数据;可针对不同使用情况对他们进行调整;并且针对不同存储器占用量和复杂水平他们是可扩展的。此外,所述系统和方法包括全数据驱动技术;不需要聚集任何特定语言的知识。
可结合2005年4月15日递交的美国专利申请No.11/107,334中描述的声音转换架构使用本发明的各实施例,其全部内容通过引用合并于此。
由结合附图的以下具体描述,本发明的这些以及其他优点和特征及其组织和运行方式将变得明显,其中在以下描述的几幅附图中相同的元件具有相同的标号。
附图说明
图1是本发明各实施例使用的M-L树搜索过程的示图;
图2是可在本发明的实现中使用的移动电话的透视图;以及
图3是图2的移动电话的电话电路的示意性表示。
具体实施方式
本发明的各实施例提供了一种用于基于码本的声音转换的改进系统和方法,其显著地降低了存储器占用量并改善了输出的连续性。各实施例还用于降低计算复杂度和提高转换精确性。该方法是灵活的,并且可用于不同的声音转换系统中。除此之外,各实施例可用于避免过拟合的训练数据;可针对不同使用情况对他们进行调整;并且针对不同存储器占用量和复杂水平他们是可扩展的。此外,所述系统和方法包括全数据驱动技术;不需要聚集任何特定语言的知识。
通过将成对的源目标码本实现为MSVQ来实现本发明个实施例中占用量的降低。在转换期间,树搜索中的N个最佳候选被视为从量化器的输出。在寻找平滑而精确的输出序列的基于动态编程的方法中使用关于待转换的每个向量的N个候选。
通过使用运行在源目标空间中的失真测量,在联合源目标空间中执行成对的源目标量化器的训练。可使用多级向量量化器的同时联合设计算法同时训练所有的个别级。在LeBlanc,W.P.,Bhattacharya,B.,Mahmoud,S.A.&Cuperman,V.的关于语音和音频处理的IEEE事务1,4(1993)第373-385页的“Efficient Search and Design Procedures for RobustMulti-Stage VQ of LPC Parameters for 4kb/s Speech Coding”中描述了一种这样的算法,其全部内容通过引用合并于此。一旦完成训练,仅使用空间的源侧来执行搜索,同时仅使用联合向量的目标部分生成输出。
对于MSVQ,可根据设计目标(包括与目标精确度、存储器消耗、计算复杂度等相关的目标)调整级的数量和级的大小。例如,可使用M-L树搜索过程来实现搜索过程。图1中示出该过程。图1中所示的搜索过程包括4个级,分别指示为C(1)、C(2)、C(3)和C(4)。对于每个级,图1中的搜索过程限定了16个不同的向量用于选择。对于每个级,选择预定数目的最佳候选路径用于进一步处理。由于该执行选择,搜索可输出N个最佳候选作为副产品。应注意,搜索过程需要在中间处理期间记得最佳路径。可根据设计需求和/或偏好来设置N的值。
在N个最佳候选可用于待转换的给定数目的向量之后,使用动态编程获得优化的输出序列。对于每个候选,在搜索过程期间存储相应的源-空间距离。此外,在每个相邻候选对之间计算转换距离。这些距离一起被用在基于动态编程的方法中,用以寻找“最佳输出序列”,即得到最小总距离的路径。可使用用户限定的或预定的权重因子设置在精确性和平滑性之间的相对重要性。
在图1所示的图示中,在初始点100开始考虑多个潜在多级向量。基于路径的总平滑性和精确性选择所选路径110。在该图示中,所选路径基于选择级1中的向量5,级2中的向量14,级3中的向量9,以及级4中的向量7。
以下将本发明的一个实施例的使用与一对传统转换系统相比较。在线谱频率(LSF,line spectral frequencies)的转换中,在实际声音转换环境中测试这些方法。以10毫秒间隔从90个句子评估10维LSF参数。选择14,942个向量用于训练,并且使用不同集合的另外14,942个向量用于测试。如上所述,该测试包括3个模型。第一模型遵循本发明的实施例,使用3个级,在每个级中具有16个向量。第二模型包括含有所有训练向量的全码本。第三模型包含小型码本,其具有与第一模型(具有真实源目标向量)中描述的本发明实施例相同的占用量。省略动态编程处理,以获得可比较的结果。
从以下3个不同观点评估所述3个模型:性能/精确性、存储器需求、和计算负载。使用平均的均方误差来测量精确性,而存储器需求被计算为必须被存储在存储器中的向量元素的数量。计算负载被评估为在搜索过程期间所需向量比较的数量。在以下表1中总结了使用测试数据计算的评估结果。
表1
 标准  模型1   模型2   模型3
 精确性(MSE,104)   3.62   4.12   4.79
 存储器(向量元素的数量)   960   298,840   960
 复杂度(向量比较的数量)   144   14,942   48
图1中略述的结果示出所选的本发明实施例从所有方面都表现强大:其明显提供了最佳精确性和最低存储器使用。尽管第三模型提供了类似的存储器和复杂度水平,但是转换精确性明显低于所选的本发明实施例。
图2和3示出其中可实现本发明的一个代表性电子设备12。然而,应理解,本发明不限于一种特定类型的电子设备12。图2和3的电子设备12包括:壳体30、液晶显示器形式的显示器32、键区(keypad)34、麦克风36、耳机38、电池40、红外端口42、天线44、根据本发明的一个实施例的UICC形式的智能卡、读卡器48、无线接口电路52、编解码器电路54、控制器56、存储器58。各电路和元件都是本领域,例如移动电话的Nokia领域,熟知的类型。
在方法步骤或过程的一般环境中描述了各实施例,在一个实施例中其可通过包括由网络环境中的计算机执行的计算机可执行指令(例如程序代码)的在计算机可读介质上实现的计算机程序产品来实现。计算机可读介质可包括可移动和不可移动存储设备,包括但不限于,只读存储器(ROM)、随机存取存储器(RAM)、压缩盘(CD)、数字通用光盘(DVD)等。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、关联的数据结构、和程序模块代表用于执行这里所公开的方法步骤的程序代码的实例。这种可执行指令或关联的数据结构的特定序列代表用于实现在这种步骤中描述的功能的相应动作的实例。
可通过具有基于规则的逻辑和其他逻辑的标准编程技术来实现各实施例的软件和web方案,以实现各数据库搜索步骤或过程、关联步骤或过程、比较步骤或过程以及判决步骤或过程。还应注意,这里和下面的权利要求中使用的词语“组件”和“模块”旨在包含使用一行或多行软件代码的方案、和/或硬件方案、和/或接收手动输入的设备。
为了示例和说明目的,呈现了本发明的实施例的以上描述。以上描述不是旨在穷尽或将本发明的实施例限制于所公开的精确形式,根据以上教导可进行修改和改变,或者可根据本发明的实践获得修改和改变。选择和描述此处讨论的实施例,以便解释各实施例的原理和本质及其实际应用,以使得本领域普通技术人员能够利用各实施例中的本发明以及适于特定使用预期的各种修改。可以将这里所描述的实施例的特性组合到方法、装置、模块、系统、计算机程序产品的所有可能的组合中。

Claims (18)

1.一种实现基于码本的声音转换的方法,包括:
使用成对的源目标多级向量量化器创建成对的源目标码本,对于多个训练音频条目中的每个,所述码本通过以下被训练:
在所述多级向量量化器的多个级中的每个级,选择预定数目的最佳候选路径,用于进一步处理;
基于每个级的所选候选路径识别多个候选向量序列;以及
从所述多个候选向量序列选择最佳候选向量序列。
2.如权利要求1所述的方法,其中对于所述多级向量量化器的每个级,训练基本同时进行。
3.如权利要求2所述的方法,其中通过使用多级向量量化器同时联合设计算法进行同时训练。
4.如权利要求1所述的方法,其中基于从包括目标精确性、存储器消耗以及计算复杂度的组选择的至少一个因素,选择在所述多级向量量化器中的级的数目。
5.如权利要求1所述的方法,其中基于候选向量序列的相对平滑性以及候选向量序列的精确性的组合选择最佳候选向量序列。
6.如权利要求1所述的方法,其中所述多个级包括搜索级和目标级,并且还包括:
基于接收用于转换的输入音频条目,在所述搜索级将所述输入音频条目与合适的向量匹配;以及
基于在训练期间为所述输入音频条目选择的最佳候选向量序列,输出被转换的音频条目。
7.一种在计算机可读介质中实现的计算机程序产品,用于实现基于码本的声音转换,包括:
用于使用成对的源目标多级向量量化器创建成对的源目标码本的计算机代码,对于多个训练音频条目中的每个,所述码本通过以下被训练:
在所述多级向量量化器的多个级中的每个级,选择预定数目的最佳候选路径,用于进一步处理;
基于每个级的所选候选路径识别多个候选向量序列;以及
从所述多个候选向量序列选择最佳候选向量序列。
8.如权利要求7所述的计算机程序产品,其中对于所述多级向量量化器的每个级,训练基本同时进行。
9.如权利要求8所述的计算机程序产品,其中通过使用多级向量量化器同时联合设计算法进行同时训练。
10.如权利要求7所述的计算机程序产品,其中基于从包括目标精确性、存储器消耗以及计算复杂度的组选择的至少一个因素,选择在所述多级向量量化器中的级的数目。
11.如权利要求7所述的计算机程序产品,其中基于候选向量序列的相对平滑性以及候选向量序列的精确性的组合选择最佳候选向量序列。
12.如权利要求7所述的计算机程序产品,其中所述多个级包括搜索级和目标级,并且还包括:
用于基于接收用于转换的输入音频条目,在所述搜索级将所述输入音频条目与合适的向量匹配的计算机代码;以及
用于基于在训练期间为所述输入音频条目选择的最佳候选向量序列,输出被转换的音频条目的计算机代码。
13.一种装置,包括:
处理器;以及
通信地连接至所述处理器的存储器单元,并包括用于使用成对的源目标多级向量量化器创建成对的源目标码本的计算机代码,对于多个训练音频条目中的每个,所述码本通过以下被训练:
在所述多级向量量化器的多个级中的每个级,选择预定数目的最佳候选路径,用于进一步处理;
基于每个级的所选候选路径识别多个候选向量序列;以及
从所述多个候选向量序列选择最佳候选向量序列。
14.如权利要求13所述的装置,其中对于所述多级向量量化器的每个级,训练基本同时进行。
15.如权利要求14所述的装置,其中通过使用多级向量量化器同时联合设计算法进行同时训练。
16.如权利要求13所述的装置,其中基于从包括目标精确性、存储器消耗以及计算复杂度的组选择的至少一个因素,选择在所述多级向量量化器中的级的数目。
17.如权利要求13所述的装置,其中基于候选向量序列的相对平滑性以及候选向量序列的精确性的组合选择最佳候选向量序列。
18.如权利要求13所述的装置,其中所述多个级包括搜索级和目标级,其中所述存储器单元还包括:
用于基于接收用于转换的输入音频条目,在所述搜索级将所述输入音频条目与合适的向量匹配的计算机代码;以及
用于基于在训练期间为所述输入音频条目选择的最佳候选向量序列,输出被转换的音频条目的计算机代码。
CNA2007800499075A 2006-12-15 2007-12-13 高质量的基于码本的声音转换的存储器高效系统和方法 Pending CN101583859A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/611,798 2006-12-15
US11/611,798 US20080147385A1 (en) 2006-12-15 2006-12-15 Memory-efficient method for high-quality codebook based voice conversion

Publications (1)

Publication Number Publication Date
CN101583859A true CN101583859A (zh) 2009-11-18

Family

ID=39511309

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800499075A Pending CN101583859A (zh) 2006-12-15 2007-12-13 高质量的基于码本的声音转换的存储器高效系统和方法

Country Status (4)

Country Link
US (1) US20080147385A1 (zh)
EP (1) EP2089686A1 (zh)
CN (1) CN101583859A (zh)
WO (1) WO2008072205A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309419A (zh) * 2020-10-30 2021-02-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164463B (zh) * 2019-05-23 2021-09-10 北京达佳互联信息技术有限公司 一种语音转换方法、装置、电子设备及存储介质
KR102430020B1 (ko) * 2019-08-09 2022-08-08 주식회사 하이퍼커넥트 단말기 및 그것의 동작 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
US5701392A (en) * 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
US6081781A (en) * 1996-09-11 2000-06-27 Nippon Telegragh And Telephone Corporation Method and apparatus for speech synthesis and program recorded medium
ATE277405T1 (de) * 1997-01-27 2004-10-15 Microsoft Corp Stimmumwandlung
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6272633B1 (en) * 1999-04-14 2001-08-07 General Dynamics Government Systems Corporation Methods and apparatus for transmitting, receiving, and processing secure voice over internet protocol
US20060129399A1 (en) * 2004-11-10 2006-06-15 Voxonic, Inc. Speech conversion system and method
US20070027687A1 (en) * 2005-03-14 2007-02-01 Voxonic, Inc. Automatic donor ranking and selection system and method for voice conversion
US8510105B2 (en) * 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309419A (zh) * 2020-10-30 2021-02-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其系统
CN112309419B (zh) * 2020-10-30 2023-05-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其系统

Also Published As

Publication number Publication date
US20080147385A1 (en) 2008-06-19
WO2008072205A1 (en) 2008-06-19
EP2089686A1 (en) 2009-08-19

Similar Documents

Publication Publication Date Title
US10726833B2 (en) System and method for rapid customization of speech recognition models
US11587569B2 (en) Generating and using text-to-speech data for speech recognition models
CN109816111B (zh) 阅读理解模型训练方法以及装置
US10803381B2 (en) Fixed point integer implementations for neural networks
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
US10984785B2 (en) Voice conversation method and system with enhanced word features
US20090094027A1 (en) Method, Apparatus and Computer Program Product for Providing Improved Voice Conversion
CN106560891A (zh) 使用声学建模的语音识别设备和方法
US20090094031A1 (en) Method, Apparatus and Computer Program Product for Providing Text Independent Voice Conversion
Henter et al. Robust TTS duration modelling using DNNs
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
US10636412B2 (en) System and method for unit selection text-to-speech using a modified Viterbi approach
CN114627863A (zh) 一种基于人工智能的语音识别方法和装置
EP3839800A1 (en) Recommending multimedia based on user utterances
CN101583859A (zh) 高质量的基于码本的声音转换的存储器高效系统和方法
CN113963715A (zh) 语音信号的分离方法、装置、电子设备及存储介质
Qi et al. LE-SSL-MOS: Self-Supervised Learning MOS Prediction with Listener Enhancement
CN117493830A (zh) 训练数据质量的评估、评估模型的生成方法、装置及设备
CN117407516A (zh) 信息提取方法、装置、电子设备及存储介质
Karabetsos et al. Embedded unit selection text-to-speech synthesis for mobile devices
CN110634486A (zh) 一种语音处理方法及设备
Hu et al. Initial investigation of speech synthesis based on complex-valued neural networks
Luong et al. Latent linguistic embedding for cross-lingual text-to-speech and voice conversion
Choi et al. Joint streaming model for backchannel prediction and automatic speech recognition
CN115331673B (zh) 一种复杂声音场景下的声纹识别家电控制方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20091118