CN109952609B - 声音合成方法 - Google Patents

声音合成方法 Download PDF

Info

Publication number
CN109952609B
CN109952609B CN201780068063.2A CN201780068063A CN109952609B CN 109952609 B CN109952609 B CN 109952609B CN 201780068063 A CN201780068063 A CN 201780068063A CN 109952609 B CN109952609 B CN 109952609B
Authority
CN
China
Prior art keywords
sound
time
synthesized
time series
singing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780068063.2A
Other languages
English (en)
Other versions
CN109952609A (zh
Inventor
若尔迪·博纳达
梅利因·布洛乌
才野庆二郎
大道龙之介
迈克尔·威尔逊
久凑裕司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of CN109952609A publication Critical patent/CN109952609A/zh
Application granted granted Critical
Publication of CN109952609B publication Critical patent/CN109952609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/195Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response, playback speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/116Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Abstract

一个实施方式涉及的声音合成方法具有下述步骤:变更步骤,通过将合成声音的一部分期间中的合成频谱的时间序列基于声音表现的振幅频谱包络概略形状的时间序列进行变更,由此得到被赋予所述声音表现的变更频谱的时间序列;以及合成步骤,基于所述变更频谱的时间序列,对被赋予所述声音表现的声音样本的时间序列进行合成。

Description

声音合成方法
技术领域
本发明涉及声音合成。
背景技术
已知对歌唱等的声音进行合成的技术。为了生成表现力更丰富的歌唱声音,不仅仅单纯地按照被赋予的音阶而输出被赋予的歌词的声音,还尝试了对该声音赋予音乐性的歌唱表现。专利文献1公开了如下技术,即,通过将表示目标发音特质的声音的声音信号的谐波成分调整为位于与表示合成的声音(下面称为“合成声音”)的声音信号的谐波成分相近的频带,由此将合成声音的发音特质变换为目标发音特质。
专利文献1:日本特开2014-2338号公报
发明内容
在专利文献1记载的技术中,有时未对合成声音充分地赋予用户期望的歌唱表现。与此相对,本发明提供一种赋予更多彩的声音表现的技术。
本发明的优选的方式涉及的声音合成方法包含下述步骤:变更步骤,通过将合成声音的一部分期间中的合成频谱的时间序列基于声音表现的振幅频谱包络概略形状的时间序列进行变更,由此得到被赋予所述声音表现的变更频谱的时间序列;以及合成步骤,基于所述变更频谱的时间序列,对被赋予所述声音表现的声音样本的时间序列进行合成。
发明的效果
根据本发明,能够赋予更丰富的声音表现。
附图说明
图1是例示关联技术涉及的GUI的图。
图2是表示一个实施方式涉及的歌唱表现赋予的概念的图。
图3是例示一个实施方式涉及的声音合成装置1的功能结构的图。
图4是例示声音合成装置1的硬件结构的图。
图5是表示数据库10的构造的示意图。
图6是针对各表现片段进行存储的基准时刻的说明图。
图7是例示起音基准的歌唱表现中的基准时刻的图。
图8是例示释音基准的歌唱表现中的基准时刻的图。
图9是例示合成器的功能结构的图。
图10是表示元音开始时刻、元音结束时刻以及发音结束时刻的图。
图11是例示表现赋予部20B的功能结构的图。
图12A是例示表现片段的时间长度短的例子中的映射函数的图。
图12B是例示表现片段的时间长度短的例子中的映射函数的图。
图12C是例示表现片段的时间长度短的例子中的映射函数的图。
图12D是例示表现片段的时间长度短的例子中的映射函数的图。
图13A是例示表现片段的时间长度长的例子中的映射函数的图。
图13B是例示表现片段的时间长度长的例子中的映射函数的图。
图13C是例示表现片段的时间长度长的例子中的映射函数的图。
图13D是例示表现片段的时间长度长的例子中的映射函数的图。
图14是例示振幅频谱包络及振幅频谱包络概略形状的关系的图。
图15是例示将表现片段的基本频率进行位移的处理的图。
图16是例示短时频谱操作部23的结构的框图。
图17是例示用于按照频率域进行合成的合成部24的功能结构的图。
图18是例示合成器20的动作的定序图。
图19是例示用于按照时间域进行合成的合成部24的功能结构的图。
图20是例示UI部30的功能结构的图。
图21是例示在UI部30中使用的GUI的图。
图22是例示对歌唱表现进行选择的UI的图。
图23是表示对歌唱表现进行选择的UI的另一个例子的图。
图24是使刻度盘的旋转角度与变形量相对应的对应表的例子。
图25是用于对歌唱表现涉及的参数进行编辑的UI的另一个例子。
具体实施方式
1.声音合成技术
已知用于声音合成的各种技术。声音之中伴有音阶的变化以及节奏的被称为歌唱声音(歌声)。作为歌唱合成,已知片段连接型歌唱合成以及统计式歌唱合成。在片段连接型歌唱合成中,使用收录有很多歌唱片段的数据库。歌唱片段(声音片段的一个例子)主要根据音位(单音素或音素链)进行划分。在歌唱合成时,这些歌唱片段在基本频率、定时以及持续长度与乐谱信息对应地进行调整后被连接。乐谱信息针对构成乐曲的一系列音符(note)的各个,分别指定开始时刻、持续长度(或结束时刻)以及音位。
在片段连接型歌唱合成中使用的歌唱片段要求在数据库中登录的全部音位的范围内音质尽可能地恒定。因为如果音质不恒定,则在合成歌唱声音时声音会不自然地变动。另外,在这些片段中包含的动态的音响变化中的与歌唱表现(声音表现的一个例子)对应的部分需要进行处理而使得在合成时不表现出来。因为歌唱表现应该依赖于音乐性的上下文逻辑而赋予于歌唱,不应该与音位的类别直接相关联。如果针对特定的音位始终表现出相同的歌唱表现,则得到的合成声音会不自然。因此,在片段连接型歌唱合成中,例如基本频率及音量的变化不直接使用歌唱片段中所包含的内容,而是使用基于乐谱信息及预先决定的规则而生成的基本频率及音量的变化。假设,如果将与音位和歌唱表现的全部组合对应的歌唱片段收录于数据库,则能够选择对应于与乐谱信息一致的音位及相对于音乐性的上下文逻辑而自然的歌唱表现这两者的歌唱片段。但是,针对所有的音位而收录与所有的歌唱表现对应的歌唱片段需要花费大量的工作量,数据库的容量也会变得庞大。另外,由于片段彼此的组合的数量相对于片段的数量爆炸式地增加,因此难以针对片段彼此的所有连接而保证不成为不自然的合成声音。
另一方面,在统计式歌唱合成中,利用很多训练数据,将乐谱信息与歌唱声音的频谱涉及的特征量(下面称为“频谱特征量”)之间的关系作为统计模型而预先进行学习。在合成时,根据输入的乐谱信息对最合理的频谱特征量进行推定,使用其合成歌唱。在统计式歌唱合成中,通过分别针对多种歌唱风格而构建训练数据,能够对包含各种歌唱表现的统计模型进行学习。但是,统计式歌唱合成主要存在2个问题。第1个问题是过度平滑化。由于根据很多训练数据对统计模型进行学习的过程在本质上伴有数据的平均化和维度削减,因此合成输出的频谱特征量与通常的单一歌唱相比其特征量的分散会变小。其结果,损害合成音的表现力、逼真性。第2个问题是能够作为统计模型而学习的频谱特征量的种类有限这一点。特别是相位信息具有循环的值域,因此统计式建模困难,难以对例如谐波成分彼此之间的或者特定的谐波成分与在其周边存在的成分之间的相位关系、它们的时间性变动进行适当的建模。但是,实际上为了对包含沙哑声、嘶哑声等的表现力丰富的歌唱进行合成,需要适当地利用相位信息。
作为在歌唱合成中能够合成多种发音特质的技术,已知在专利文献1中记载的VQM(Voice Quality Modification)。在VQM中,使用与某种歌唱表现相当的发音特质的第1声音信号、以及通过歌唱合成得到的第2声音信号。第2声音信号可以通过片段连接型歌唱合成得到,也可以通过统计式歌唱合成得到。使用这2个声音信号,合成相位信息适当的歌唱。其结果,合成与通常的歌唱合成相比逼真的且表现力丰富的歌唱。但是,在该技术中,第1声音信号的频谱特征量的时间变化未充分地反映于歌唱合成。此外,关于在这里所关注的时间变化,不仅仅是如在稳定地发出沙哑声、嘶哑声时观测到的频谱特征量的高速的变化,还包含例如在刚开始发声之后上述高速的变动的程度很大,其后随着时间的经过而逐渐地衰减,如果再经过一段时间则在一定程度上变得稳定这样的在相对长时间范围的(即,宏观的)发音特质的推移。这种发音特质的变化根据歌唱表现的类别而出现很大的差异。
图1是例示本发明的一个方式涉及的GUI的图。该GUI也能够在关联技术(例如VQM)涉及的歌唱合成程序中使用。该GUI包含乐谱显示区域911、窗口912、以及窗口913。乐谱显示区域911是声音合成涉及的乐谱信息进行显示的区域,在本例中,以与所谓的钢琴卷轴相当的形式,表示由乐谱信息指定的各音符。在乐谱显示区域911内,横轴表示时间,纵轴表示音阶。窗口912是与用户的操作对应地显示的弹出窗口,包含能够对合成声音赋予的歌唱表现的一览。用户从该一览之中选择对希望的音符赋予的希望的歌唱表现。在窗口913中,显示出表示所选择的歌唱表现的应用程度的曲线图。在窗口913内,横轴表示时间,纵轴表示歌唱表现的应用的深度(在前面所述的VQM中为混合率)。用户在窗口913中对曲线图进行编辑,输入VQM的应用的深度的时间变化。但是,在VQM中,根据用户输入的该应用的深度的时间变化,不能充分地再现宏观的发音特质的推移(频谱的时间变化),难以合成自然且表现力丰富的歌唱。
2.结构
图2是表示一个实施方式涉及的歌唱表现的赋予的概念的图。此外,在下面,“合成声音”是指合成后的声音,特别指被赋予了音阶和歌词的声音。只要未特别地说明,在单纯地称作“合成声音”时,是指未被赋予本实施方式涉及的歌唱表现的合成声音。“歌唱表现”是指对合成声音赋予的音乐性的表现,例如,包含如气泡音(Vocal fry)、咆哮声(growl)以及嘶哑声(rough)等表现。在本实施方式中,将预先收录的局部的歌唱表现的片段(下面称为“表现片段”)中的希望的1个表现片段在时间轴上配置于通常的(未被赋予歌唱表现的)合成声音,将对该合成声音进行变形(morphing)称为“对合成声音赋予歌唱表现”。在这里,表现片段(声音样本的时间序列)对于合成声音整体或1个音符而言在时间上是局部的。在时间上是局部的,是指歌唱表现所占的时间相对于合成声音整体或1个音符而言是部分性的。表现片段是对由歌唱者进行的歌唱表现进行预先录制所得到的,是歌唱中的在局部的时间进行的歌唱表现(音乐性的表现)的片段。片段是将歌唱者发出的声音波形的一部分进行数据化所得到的。另外,变形(morphing)是指,对在某个范围内配置的表现片段及该范围的合成声音中的至少一者乘以伴随时间的经过而增加或减少的系数后将两者相加的处理(插补处理)。表现片段在针对通常的合成声音配合定时进行配置的基础上进行变形。通过变形,对合成声音赋予歌唱表现中的频谱特征量的时间变化。表现片段的变形是针对通常的合成声音中的局部的时间内的区间而进行的。
在本例中,合成声音和表现片段的相加的基准时刻为音符(即,note)的起始时刻及音符的末尾时刻。下面,将音符的起始时刻设为基准时刻的情况称为“起音基准”,将末尾时刻设为基准时刻的情况称为“释音基准”。
图3是例示一个实施方式涉及的声音合成装置1的功能结构的图。声音合成装置1具有数据库10、合成器20、以及UI(User Interface)部30。在本例中使用片段连接型歌唱合成。数据库10是收录有歌唱片段及表现片段的数据库。合成器20基于对乐曲的一系列音符进行指定的乐谱信息以及对歌唱表现进行指示的表现信息而从数据库10读取歌唱片段及表现片段,利用它们对附带歌唱表现的合成声音进行合成。UI部30是用于进行乐谱信息及歌唱表现的输入或编辑、合成声音的输出、以及输入或编辑的结果的显示(即,针对用户的输出)的界面。
图4是例示声音合成装置1的硬件结构的图。声音合成装置1是具有CPU(CentralProcessing Unit)101、存储器102、储存器103、输入输出IF 104、显示器105、输入装置106以及输出装置107的计算机装置,具体地说是例如平板终端。CPU 101是执行程序而对声音合成装置1的其他要素进行控制的控制装置。存储器102为主存储装置,例如包含ROM(ReadOnly Memory)以及RAM(Random Access Memory)。ROM存储用于对声音合成装置1进行启动的程序等。RAM作为CPU 101执行程序时的工作区域而发挥功能。储存器103为辅助存储装置,对各种数据及程序进行存储。储存器103例如包含HDD(Hard Disk Drive)及SSD(SolidState Drive)中的至少一者。输入输出IF 104是用于与其他装置之间进行信息的输入输出的接口,例如,包含无线通信接口或NIC(Network Interface Controller)。显示器105是显示信息的装置,例如包含LCD(Liquid Crystal Display)。输入装置106是用于对声音合成装置1输入信息的装置,例如,包含触摸屏、小键盘、按钮、麦克风以及照相机中的至少1者。输出装置107为例如扬声器,将赋予了歌唱表现的合成声音作为声波进行播放。
在本例中,储存器103存储使计算机装置作为声音合成装置1而发挥功能的程序(下面称为“歌唱合成程序”)。通过由CPU 101执行歌唱合成程序,由此在计算机装置安装图3的功能。储存器103是对数据库10进行存储的存储部的一个例子。CPU 101为合成器20的一个例子。CPU 101、显示器105以及输入装置106为UI部30的一个例子。下面,分别对图3的功能要素的详情进行说明。
2-1.数据库10
数据库10包含收录有歌唱片段的数据库(片段数据库)以及收录有表现片段的数据库(歌唱表现数据库),关于片段数据库,因为与当前已知的片段连接型歌唱合成中所使用的相同,因此省略详细的说明。下面,只要未特别地说明,将歌唱表现数据库简称为数据库10。在数据库10中,为了兼顾在歌唱合成时的计算负载的降低和频谱特征量的推定错误的防止,优选事先对表现片段的频谱特征量进行推定,将推定出的频谱特征量收录于数据库。在数据库10中收录的频谱特征量也可以是由人手工进行过修正的频谱特征量。
图5是例示数据库10的构造的示意图。为了使得用户或程序能够容易地找到目标的歌唱表现,在数据库10中表现片段被组织化进行收录。图5示出树构造的例子。树构造中的末端的叶子分别相当于一个歌唱表现。例如,“Attack-Fry-Power-High”代表在以气泡音发音为主的起音基准的歌唱表现之中的强力的发音特质、且适合高音域的歌唱表现。不仅在树构造的末端的叶子,在枝节处也可以配置歌唱表现。例如,在上述的例子的基础上,也可以收录与“Attack-Fry-Power”相当的歌唱表现。
在数据库10中,每1个歌唱表现收录至少1个片段。也可以与音位对应地收录大于或等于2个的片段。表现片段无需针对全部的音位均收录独自的内容。原因在于,由于表现片段与合成声音进行变形,因此作为歌唱的基本的品质已经通过合成声音得到确保。例如,为了在片段连接型歌唱合成中得到高品质的歌唱,需要针对每个2音素链的音位(例如,/a-i/或者/a-o/这样的组合)而收录片段。但是,表现片段也可以针对每个单音素(例如,/a/或者/o/)而收录独自的内容,或者也可以进一步地减少数量,每1个歌唱表现仅收录1个表现片段(例如仅/a/)。每个歌唱表现收录几个片段是由数据库制作者考虑歌唱表现数据库创建的工作量和合成声音的品质之间的平衡性而决定的。为了得到更高品质的(逼真的)合成声音,针对每个音位均收录独自的表现片段。为了削减歌唱表现数据库创建的工作量,减少每1个歌唱表现对应的片段的数量。
在每1个歌唱表现收录大于或等于2个片段的情况下,需要片段和音位之间的映射(对应关系)的定义。作为一个例子,关于某个歌唱表现,片段文件“S0000”被映射到音位/a/及/i/,片段文件“S0001”被映射到音位/u/、/e/、以及/o/。这样的映射是针对每个歌唱表现而定义的。在数据库10中收录的片段的数量也可以根据每个歌唱表现而不同。例如,也可以针对某个歌唱表现收录2个片段,在别的歌唱表现收录5个片段。
在数据库10中,记录针对每个表现片段表示表现基准时刻的信息。该表现基准时刻是表现片段的波形中的时间轴上的特征点。表现基准时刻包含歌唱表现开始时刻、歌唱表现结束时刻、音符开设定开始时刻、音符关设定开始时刻、音符开设定结束时刻、以及音符关设定结束时刻中的至少1者。例如,如图6所示,针对起音基准的各表现片段(图6中的标号a1、a2以及a3),存储着音符开设定开始时刻。针对释音基准的各表现片段(图6中的标号r1、r2以及r2),存储着音符关设定结束时刻和/或歌唱表现结束时刻。此外,从图6可以理解到,表现片段的时间长度根据每个表现片段而不同。
图7及图8是例示各表现基准时刻的图。在本例中,表示片段的声音波形在时间轴上被划分为前区间T1、开设定区间T2、持续区间T3、关设定区间T4以及后区间T5。这些区间由例如数据库10的创建者进行划分。图7示出起音基准的歌唱表现,图8示出释音基准的歌唱表现。
如图7所示,起音基准的歌唱表现被划分为前区间T1、开设定区间T2以及持续区间T3。持续区间T3是特定种类的频谱特征量(例如基本频率)在规定的范围内稳定的区间。持续区间T3中的基本频率相当于该歌唱表现的音高。开设定区间T2是持续区间T3的前段的区间,是频谱特征量伴随时间进行变化的区间。前区间T1是开设定区间T2的前段的区间。在起音基准的歌唱表现中,前区间T1的起点是歌唱表现开始时刻。开设定区间T2的起点是音符开设定开始时刻。开设定区间T2的终点是音符开设定结束时刻。持续区间T3的终点是歌唱表现结束时刻。
如图8所示,释音基准的歌唱表现被划分为持续区间T3、关设定区间T4以及后区间T5。关设定区间T4是持续区间T3的后段的区间,是规定种类的频谱特征量伴随时间进行变化的区间。后区间T5是关设定区间T4的后段的区间。持续区间T3的起点是歌唱表现开始时刻。持续区间T3的终点是音符关设定开始时刻。关设定区间T4的终点是音符关设定结束时刻。后区间T5的终点是歌唱表现结束时刻。
在数据库10中,记录着在歌唱合成中应用的参数的模板。这里所谓的参数例如包含变形量(系数)的时间推移、变形的时间长度(下面称为“表现赋予长度”)、以及歌唱表现的速度。在图2中图示出变形量的时间推移和表现赋予长度。例如,也可以由数据库创建者创建多个模板,数据库创建者预先决定出每个歌唱表现应用哪个模板。即,也可以预先决定出对哪个歌唱表现应用哪个模板。或者,模板其自身包含在数据库10中,也可以在赋予表现时由用户选择使用哪个模板。
2-2.合成器20
图9是例示合成器20的功能结构的图。如图9所示,合成器20具有歌唱合成部20A和表现赋予部20B。歌唱合成部20A通过利用歌唱片段进行的片段连接型歌唱合成,生成表示由乐谱信息指定出的合成声音的声音信号。此外,歌唱合成部20A也可以通过利用统计模型进行的前述的统计式歌唱合成或者其他公知的任意合成方式,生成表示由乐谱信息指定出的合成声音的声音信号。
如图10所例示的那样,歌唱合成部20A在歌唱合成时,基于乐谱信息而决定在合成声音中元音的发音开始的时刻(下面称为“元音开始时刻”)、元音的发音结束的时刻(下面称为“元音结束时刻”)以及发音结束的时刻(下面称为“发音结束时刻”)。合成声音的元音开始时刻、元音结束时刻以及发音结束时刻均为基于乐谱信息而合成的合成声音的特征点的时刻。在没有乐谱信息的情况下,也可以通过分析合成声音而求出上述各时刻。
图9的表现赋予部20B对由歌唱合成部20A生成的合成声音赋予歌唱表现。图11是例示表现赋予部20B的功能结构的图。如图11所示,表现赋予部20B具有定时计算部21、时间伸缩映射部22、短时频谱操作部23、合成部24、确定部25、以及取得部26。
定时计算部21利用针对表现片段而记录的表现基准时刻,对为使表现片段与合成声音的规定的定时一致的定时调整量(相当于对合成声音配置表现片段的时间轴上的位置)进行计算。
参照图2及图10,对定时计算部21的动作进行说明。如图10所示,定时计算部21对起音基准的表现片段调整其定时调整量,配置为使得其音符开设定开始时刻(表现基准时刻的一个例子)与合成声音的元音开始时刻(或者音符开始时刻)一致。定时计算部21对释音基准的表现片段调整其定时调整量,配置为使其音符关设定结束时刻(表现基准时刻的另一个例子)与合成声音的元音结束时刻一致,或者,使其歌唱表现结束时刻与合成声音的发音结束时刻一致。
时间伸缩映射部22对在时间轴上配置于合成声音上的表现片段的时间伸缩映射进行计算(进行时间轴上的拉长处理)。在这里,时间伸缩映射部22对表示合成声音和表现片段之间的时刻的对应性的映射函数进行计算。在这里使用的映射函数是使每个基于表现片段的表现基准时刻划分出的部分的伸缩方式均不同的非线形函数。通过使用这样的函数,能够尽量不损害在片段中包含的歌唱表现的性质而与合成声音进行相加。时间伸缩映射部22针对表现片段中的特征部分,按照与特征部分以外的部分不同的算法(即,使用不同的映射函数)进行时间拉长。特征部分是指,例如如后面所述,在起音基准的歌唱表现中是前区间T1及开设定区间T2。
图12A至图12D是例示在与时间轴上的合成声音的表现赋予长度相比所配置的表现片段的时间长度短的例子中的映射函数的图。关于该映射函数,例如在针对特定的音符将起音基准的歌唱表现的表现片段利用于变形的情况下,在与表现赋予长度相比表现片段的时间长度短时进行使用。首先,对映射函数的基本思路进行说明。在表现片段中,在前区间T1及开设定区间T2中包含很多作为歌唱表现的频谱特征量的动态变动。因此,如果对该区间进行时间拉长,则歌唱表现的性质会发生变化。因此时间伸缩映射部22在前区间T1及开设定区间T2尽可能地不进行时间伸缩,通过拉伸持续区间T3而得到希望的时间伸缩映射。
如图12A所示,时间伸缩映射部22针对持续区间T3将映射函数的斜率变缓。例如,时间伸缩映射部22通过减慢表现片段的数据读取速度而将片段整体的时间进行拉伸。图12B示出在持续区间T3中读取速度也固定的状况下通过多次将数据读取位置返回至近前而将片段整体的时间进行拉伸的例子。图12B的例子利用了在持续区间T3中频谱大致维持稳定这一特性。此时,使数据读取位置返回的时刻和所返回的时刻优选与在频谱中出现的时间周期性的开始位置和结束位置相对应。通过采用这样的数据读取位置,能够得到赋予了自然的歌唱表现的合成声音。例如,能够针对表现片段的频谱特征量的时间序列而求出自相关函数,作为开始位置及结束位置而求出该自相关函数的峰值。图12C示出在持续区间T3中应用所谓的随机镜像循环(Random-Mirror-Loop)而将片段整体的时间拉伸的例子。随机镜像循环是通过在读取的中途使数据读取速度的符号多次反转而将片段整体的时间拉伸的方法。为了不产生在表现片段中原本不包含的人工周期性,对符号进行反转的时刻是基于伪随机数而决定的。
图12A至图12C示出不改变在前区间T1及开设定区间T2中的数据读取速度的例子,但有时用户想对歌唱表现的速度进行调整。作为一个例子,在“颤动”的歌唱表现中,有时想比作为片段而收录的歌唱表现更快速。在这样的情况下,只要改变在前区间T1及开设定区间T2中的数据读取速度即可。具体地说,想比片段更快速的情况下对数据读取速度进行加速。图12D示出对前区间T1及开设定区间T2中的数据读取速度进行加速的例子。在持续区间T3中,减慢数据读取速度,将片段整体的时间进行拉伸。
图13A至图13D是例示在与时间轴上的合成声音的表现赋予长度相比所配置的表现片段的时间长度长的情况下使用的映射函数的图。关于该映射函数,例如在针对特定的音符将起音基准的歌唱表现的表现片段利用于变形的情况下,在与表现赋予长度相比表现片段的时间长度长时进行使用。在图13A至图13D的例子中,时间伸缩映射部22通过缩短持续区间T3而得到希望的时间伸缩映射,前区间T1及开设定区间T2也尽可能地不进行时间伸缩。
在图13A中,时间伸缩映射部22针对持续区间T3将映射函数的斜率设为与前区间T1及开设定区间T2相比更陡。例如,时间伸缩映射部22通过对表现片段的数据读取速度进行加速而缩短片段整体的时间。图13B示出在持续区间T3中读取速度也固定的状况下通过在持续区间T3的中途停止数据读取而缩短片段整体的时间的例子。由于持续时段T3的声学特征是稳定的,因此与改变数据读取速度相比,在数据读取速度固定的状态下,只是不使用片段的末尾可以得到自然的合成声音。图13C示出在合成声音的时间与表现片段的前区间T1及开设定区间T2的时间长度之和相比短的情况下使用的映射函数。在本例中,时间伸缩映射部22对开设定区间T2中的数据读取速度进行加速,以使得开设定区间T2的终点与合成声音的终点一致。图13D示出在合成声音的时间与表现片段的前区间T1及开设定区间T2的时间长度之和相比短的情况下使用的映射函数的另一个例子。在本例中,时间伸缩映射部22在开设定区间T2中数据读取速度也固定的状态下,通过在开设定区间T2的中途将数据读取停止而缩短片段整体的时间。此外,在图13D的例子中,需要注意基本频率的决定。由于开设定区间T2的音高大多与音符的音高不同,因此有时如果不使用开设定区间T2的末尾则合成声音的基本频率无法达到音符的音高,听起来像声音走调(跑调)。为了避免这种情况,时间伸缩映射部22在开设定区间T2内决定与音符的音高相当的基本频率的代表值,将表现片段整体的基本频率进行位移,以使得该基本频率与音符的音高一致。作为基本频率的代表值,例如,使用开设定区间T2的末尾的基本频率。
图12A至图12D以及图13A至图13D例示出针对起音基准的歌唱表现的时间伸缩映射,针对释音基准的歌唱表现的时间伸缩映射也是相同思路。即,在释音基准的歌唱表现中,关设定区间T4和后区间T5为特征部分,按照与其他部分不同的算法进行时间拉长映射。
图11的短时频谱操作部23通过频率分析,从表现片段的短时频谱提取出几个成分(频谱特征量)。短时频谱操作部23将提取出的成分的一部分针对合成声音的相同成分进行变形,由此得到被赋予歌唱表现的合成声音的短时频谱的系列。短时频谱操作部23对表现片段的短时频谱提取例如以下中的大于或等于1个成分。
(a)振幅频谱包络
(b)振幅频谱包络概略形状
(c)相位频谱包络
(d)振幅频谱包络(或者谐波振幅)的时间性细微变动
(e)相位频谱包络(或者谐波相位)的时间性细微变动
(f)基本频率
此外,为了在表现片段和合成声音之间对这些成分独立地进行变形,对合成声音也需要进行上述的提取,但有时在歌唱合成部20A中在合成的中途会生成这些信息,因此利用它们即可。下面对各成分进行说明。
振幅频谱包络是振幅频谱的概略形状,主要涉及音位和个体性的感知。提出了很多求出振幅频谱包络的方法,例如,根据振幅频谱对倒谱系数进行推定,将该推定出的系数中的低阶的系数(小于或等于规定阶数a的阶数的系数组)作为振幅频谱包络进行使用。本实施方式的重点在于将振幅频谱包络独立于其他成分进行处理。即,假设,在使用音位或个体性与合成声音不同的表现片段时,如果将振幅频谱包络涉及的变形量设为零,则在被赋予歌唱表现的合成声音中,原合成声音的音位及个体性100%显现。因此,能够转用音位或个体性不同的表现片段(例如,本人的其他音位或完全不同的其他人的片段)。此外,在用户有意地想要变化合成声音的音位、个体性的情况下,也可以对振幅频谱包络适当地设定非零的变形量,独立于歌唱表现的其他成分的变形而进行变形。
振幅频谱包络概略形状是将振幅频谱包络进一步粗略地进行表达的概略形状,主要涉及声音的洪亮度。振幅频谱包络概略形状通过各种方法求出。例如,在推定出的倒谱系数之中,将与振幅频谱包络相比更低阶的系数(比阶数a更低的阶数b以下的阶数的系数组)作为振幅频谱包络概略形状进行使用。与振幅频谱包络不同,振幅频谱包络概略形状几乎不包含音位、个体性的信息。因此,无论是否进行振幅频谱包络的变形,通过进行振幅频谱包络概略形状成分的变形,能够将歌唱表现中包含的声音的洪亮度和其时间上的动作赋予至合成声音。
相位频谱包络是相位频谱的概略形状。相位频谱包络通过各种方法求出。例如,短时频谱操作部23首先对与信号的周期同步的可变长度、可变位移量的帧中的短时频谱进行分析。例如,使用基本周期T(=1/F0)的n倍的窗宽、m倍(m<n)的位移量的帧(m及n例如为自然数)。通过使用与周期同步后的帧,能够以高的时间分辨率提取出细微变动。然后,短时频谱操作部23仅提取出各谐波成分中的相位的值,在该阶段丢弃其他的值,进而,针对谐波成分以外的频率(谐波和谐波之间)插补相位,由此得到相位频谱包络而不是相位频谱。关于插补,优选最邻近插补或者线形或高阶的曲线插补。
图14是例示振幅频谱包络及振幅频谱包络概略形状的关系的图。振幅频谱包络的时间性变动及相位频谱包络的时间性变动相当于在极短时间内的声音频谱中高速地变动的成分,相当于沙哑声、嘶哑声等特有的质感(粗糙感)。振幅频谱包络的时间性细微变动能够通过对它们的推定值求出在时间轴上的差分、或者求出在一定时间区间内平滑化的这些值与关注的帧中的值之间的差分而得到。相位频谱包络的时间性细微变动能够通过对相位频谱包络求出在时间轴上的差分、或者求出在一定时间区间内平滑化的这些值与关注的帧中的值之间的差分而得到。这些处理均相当于某种高通滤波器。在作为频谱特征量而使用任意频谱包络的时间性细微变动的情况下,需要从与该细微变动对应的频谱包络及包络概略形状中,去除该时间性细微变动。在这里,使用不包含时间性细微变动的频谱包络或频谱包络概略形状。
在作为频谱特征量而使用振幅频谱包络及振幅频谱包络概略形状这两者的情况下,在该变形处理中,(a)不进行振幅频谱包络(例如图14)的变形,而优选进行:
(a')振幅频谱包络概略形状和振幅频谱包络之间的差分的变形,
(b)振幅频谱包络概略形状的变形。
例如,如图14所示,如果将振幅频谱包络和振幅频谱包络概略形状进行分离,则由于在该振幅频谱包络包含振幅频谱包络概略形状的信息,无法独立地进行控制,因此将两者分离为(a')和(b)进行处理。如果这样进行分离,则与绝对音量相关的信息包含于振幅频谱包络概略形状。在使人类发出的声音的强度进行变化时,能够在一定程度上保持个体性、音位性,另一方面,由于音量和频谱的整体性倾斜大多同时进行变化,因此在振幅频谱包络概略形状中包含音量的信息是合理的。
此外,也可以使用谐波振幅及谐波相位,以代替振幅频谱包络及相位频谱包络。谐波振幅是构成声音的谐波构造的各谐波成分的振幅的系列,谐波相位是构成声音的谐波构造的各谐波成分的相位的系列。是使用振幅频谱包络及相位频谱包络、还是使用谐波振幅及谐波相位的选择依赖于利用合成部24进行的合成方式的选择。在进行脉冲列的合成或者利用时变滤波器的合成的情况下使用振幅频谱包络及相位频谱包络,在如SMS、SPP、或者WBHSM等以正弦波模型为基础的合成方式中使用谐波振幅及谐波相位。
基本频率主要与音高的感知相关。与频谱的其他特征量不同,无法通过在2个频率之间的单纯的插补而求出基本频率。原因在于,表现片段中的音符的音高和合成声音的音符的音高通常是不同的,即使利用对表现片段的基本频率和合成声音的基本频率单纯地插补得到的基本频率进行合成,也会成为与应该合成的音高完全不同的音高。因此,在本实施方式中,短时频谱操作部23首先将表现片段整体的基本频率进行一定量位移,以使得表现片段的音高与合成声音的音符的音高一致。该处理并不是使表现片段的各时刻的基本频率与合成音一致,而是在表现片段中包含的基本频率的动态变动得到保持。
图15是例示将表现片段的基本频率进行位移的处理的图。在图15中,虚线表示位移前的(即,在数据库10中收录的)表现片段的特性,实线表示位移后的特性。在该处理中,未进行向时间轴方向的位移,片段的特性曲线整体按原状沿音高轴向进行位移,以使得在维持前区间T1及开设定区间T2中的基本频率的变动的状态下,持续区间T3的基本频率成为希望的频率。在对歌唱表现的基本频率进行变形的情况下,短时频谱操作部23在各时刻与变形量对应地对通过该位移处理位移后的基本频率F0p和通常的歌唱合成中的基本频率F0v进行插补,将合成的基本频率F0vp进行输出。
图16是表示短时频谱操作部23的具体的结构的框图。如图16所例示的那样,短时频谱操作部23具有频率解析部231、第1提取部232以及第2提取部233。频率解析部231针对各帧,依次根据时间域的表现片段而计算频率域的频谱(振幅频谱及相位频谱),进而对该频谱的倒谱系数进行推定。在由频率解析部231进行的频谱的计算中,运用利用规定的窗函数进行的短时傅里叶变换。
第1提取部232针对各帧,从由频率解析部231计算出的各频谱中提取振幅频谱包络H(f)、振幅频谱包络概略形状G(f)以及相位频谱包络P(f)。第2提取部233针对各帧,将在时间上前后相继的帧的振幅频谱包络H(f)之间的差分作为振幅频谱包络H(f)的时间性细微变动I(f)而进行计算。同样,第2提取部233将在时间上前后相继的相位频谱包络P(f)之间的差分作为相位频谱包络P(f)的时间性细微变动Q(f)而进行计算。此外,第2提取部233也可以将任意一个振幅频谱包络H(f)和多个振幅频谱包络H(f)的平滑化值(例如平均值)之间的差分作为时间性细微变动I(f)而进行计算。同样,第2提取部233也可以将任意一个相位频谱包络P(f)和多个相位频谱包络P(f)的平滑化值之间的差分作为时间性细微变动Q(f)而进行计算。第1提取部232提取出的H(f)、G(f)是去除细微变动I(f)后的振幅频谱包络及包络概略形状,另外,其提取出的P(f)是去除细微变动Q(f)后的相位频谱包络。
此外,在上面的说明中,方便起见,例示出从表现片段提取频谱特征量的情况,但短时频谱操作部23也可以按照同样的方法从由歌唱合成部20A生成的合成声音中提取频谱特征量。根据歌唱合成部20A的合成方式,短时频谱、频谱特征量的一部分甚至全部均有可能包含于歌唱合成用参数,在该情况下,短时频谱操作部23也可以从歌唱合成部20A接收这些数据,省略运算。或者,短时频谱操作部23也可以在合成声音的输入之前,预先提取出表现片段的频谱特征量而存储至存储器,在输入合成声音时,从该存储器读取表现片段的频谱特征量而进行输出。能够降低合成声音输入时的单位时间的处理量。
合成部24对合成声音和表现片段进行合成,取得被赋予歌唱表现的合成声音。对合成声音和表现片段进行合成而最终作为时间域的波形而取得的方法有多种,但这些方法根据作为输入的频谱的表达方法能够大致分为2种。一种是基于谐波成分的方法,另一种是基于振幅频谱包络的方法。
作为基于谐波成分的合成方法,已知例如SMS(Serra,Xavier,and JuliusSmith."Spectral modeling synthesis:A sound analysis/synthesis system based ona deterministic plus stochastic decomposition."Computer Music Journa l14.4(1990):12-24.)。浊音的频谱利用基本频率和其大致整数倍的频率中的正弦波成分的频率、振幅以及相位进行表达。如果通过SMS生成频谱,进行逆傅里叶变换,则得到乘以窗函数的几个周期的量的波形。在除以窗函数的基础上,仅对合成结果的中心附近利用其它窗函数进行截取,叠加于输出结果缓冲器。通过在各帧间隔重复进行该处理,由此取得长时间的连续的波形。
作为基于振幅频谱包络的合成方法,已知例如NBVPM(Bonada,Jordi."Highquality voice transformations based on modeling radiated voice pulses infrequency domain."Proc.Digital Audio Effects(DAFx).2004.)。在本例中,频谱利用振幅频谱包络和相位频谱包络进行表达,不包含基本频率、谐波成分的频率信息。如果对该频谱进行逆傅里叶变换,则得到与1个周期的声带振动和与相对于该声带振动的声道响应相当的脉冲波形。将其叠加于输出缓冲器。此时,如果相邻的脉冲彼此的频谱中的相位频谱包络为大致相同的值,则在输出缓冲器中进行叠加的时间间隔的倒数成为最终的合成音的基本频率。
关于合成声音和表现片段的合成,存在按照频率域进行的方法和按照时间域进行的方法。无论使用哪种方法,合成声音和表现片段的合成基本上按照下面的工序进行。首先,针对振幅及相位的除了时间性细微变动成分以外的成分,对合成声音和表现片段进行变形。接着,通过将各谐波成分(或其周边频带)的振幅及相位的时间性细微变动成分进行相加,由此生成赋予了歌唱表现的合成声音。
此外,也可以在合成声音和表现片段的合成时,仅对时间性细微变动成分,使用与其以外的成分不同的时间伸缩映射。这在例如下面的2种情况下是有效的。
第1是,用户有意使歌唱表现的速度变化的情况。关于时间性细微变动成分,其变动的速度、周期性与声音的质感(例如“沙沙”、“咯吱咯吱”、或者“呲呲”等质感)有很深的关联,如果使该变动速度进行变化,则声音的质感会发生改变。例如,在如图8所示的末尾处音高下降的歌唱表现中,用户输入对该速度进行加速的指示时,具体地说,可以推测出虽然用户具有一边下调音高一边对与其相伴的音色、质感的变化的速度进行加速的意图,但不打算使歌唱表现的质感本身发生变化。因此,为了得到符合用户意图的歌唱表现,针对基本频率及振幅频谱包络等的成分,通过线性时间伸缩对后区间T5的数据读取速度进行加速即可,但针对时间性细微变动成分,使其按照适当的周期进行循环(与图12B的持续区间T3相同)、或者进行随机镜像循环(与图12C的持续区间T3相同)。
第2是,对时间性细微变动成分的变动周期应该依赖于基本频率的歌唱表现进行合成的情况。在谐波成分的振幅及相位具有周期性调制的歌唱表现中,关于振幅及相位的变动周期,根据经验可知,有时维持与基本频率之间的时间性对应,则听起来更自然。将具有这种质感的歌唱表现称为例如“嘶哑”或“咆哮”。作为使振幅及相位的变动周期维持与基本频率之间的时间性对应的方法,能够使用下述方法,即,将与在合成表现片段的波形时应用的基本频率的变换比相同的比率,应用于时间性细微变动成分的数据读取速度。
图11的合成部24针对配置有表现片段的区间,将合成声音和表现片段进行合成。即,合成部24对合成声音赋予歌唱表现。合成声音和表现片段的变形是针对上述的频谱特征量(a)~(f)中的至少1者进行的。至于对频谱特征量(a)~(f)中的哪个特征进行变形,是针对每个歌唱表现而预先设定的。例如,在音乐用语中所谓的渐强(crescendo)或渐弱(decresendo)等歌唱表现主要与发声强度的时间性变化相关。因此,应该设为变形对象的主要的频谱特征量为振幅频谱包络概略形状。音位及个体性不看做是构成渐强或渐弱的主要的频谱特征量。因此,如果用户将振幅频谱包络的变形量(系数)设为零,则能够将根据某1位歌唱者的1个音位的歌唱而制作出的渐强的表现片段应用于所有歌唱者的所有音位。在另一个例子中,在如颤音等歌唱表现中,基本频率周期性地进行变动,另外,与其同步地音量也变动。因此,应该设定大变形量的频谱特征量为基本频率及振幅频谱包络概略形状。
另外,振幅频谱包络是与音位相关联的频谱特征量,因此通过将振幅频谱包络的变形量设为零而从变形的对象中除去,由此能够不对音位造成影响地赋予歌唱表现。例如,即使是仅针对某个特定音位(例如/a/)而收录有片段的歌唱表现,如果将振幅频谱包络的变形量设为零,则也能够针对特定音位以外的音位的合成声音而将该表现片段顺利地变形。
如上所述,能够针对歌唱表现的各个种类而限定应该设为变形对象的频谱特征量。用户可以以上述方式限定设为变形对象的频谱特征量,也可以将全部的频谱特征量设为变形对象,而与歌唱表现的种类无关。如果将很多频谱特征量设为变形对象,则由于可得到与原表现片段相近的合成声音,因此该部分的自然性提高。但是,与未赋予歌唱表现的部分之间的音质的差别会变大,因此在贯穿歌唱整体聆听时,有可能出现违和感。因此,在将进行变形的频谱特征量进行模板化时,考虑自然性与违和感的平衡而决定成为变形对象的频谱特征量。
图17是例示用于按照频率域对合成声音和表现片段进行合成的合成部24的功能结构的图。在本例中,合成部24具有频谱生成部2401、逆傅里叶变换部2402、合成窗应用部2403以及叠加部2404。
图18是例示合成器20(CPU 101)的动作的定序图。确定部25从数据库10所包含的歌唱表现数据库中,确定用于歌唱表现的赋予的片段。例如,使用用户所选择的歌唱表现的片段。
在步骤S1401中,取得部26取得由歌唱合成部20A生成的合成声音的频谱特征量的时间变化。在这里取得的频谱特征量包含振幅频谱包络H(f)、振幅频谱包络概略形状G(f)、相位频谱包络P(f)、振幅频谱包络的时间性细微变动I(f)、相位频谱包络的时间性细微变动Q(f)、以及基本频率F0中的至少1者。此外,取得部26也可以取得由短时频谱操作部23从在合成声音的生成中利用的歌唱片段提取出的频谱特征量。
在步骤S1402中,取得部26取得在歌唱表现的赋予中使用的频谱特征量的时间变化。在这里取得的频谱特征量与在合成声音的生成中所使用的基本上是相同种类。为了对合成声音的频谱特征量和表现片段的频谱特征量进行区别,对合成声音的频谱特征量赋予下标v,对表现片段的频谱特征量赋予下标p,对被赋予歌唱表现的合成声音赋予下标vp。取得部26取得例如由短时频谱操作部23从表现片段提取出的频谱特征量。
在步骤S1403中,取得部26取得对所赋予的表现片段设定的表现基准时刻。在这里取得的表现基准时刻如已经说明的那样,包含歌唱表现开始时刻、歌唱表现结束时刻、音符开设定开始时刻、音符关设定开始时刻、音符开设定结束时刻以及音符关设定结束时刻中的至少1者。
在步骤S1404中,定时计算部21利用与来自歌唱合成部20A的合成声音的特征点相关的数据和针对表现片段而记录的表现基准时刻,对使表现片段和音符(合成声音)一致的定时进行计算。如根据上面的说明所理解的那样,步骤S1404是在时间轴上针对合成声音配置表现片段(例如振幅频谱包络概略形状的时间序列),以使得时间轴上的合成声音的特征点(例如元音开始时刻、元音结束时刻以及发音结束时刻)和表现片段的表现基准时刻一致的处理。
在步骤S1405中,时间伸缩映射部22与成为对象的音符的时间长度和表现片段的时间长度之间的关系对应地,对表现片段实施时间伸缩映射。如根据上面的说明所理解的那样,步骤S1405是将表现片段(例如振幅频谱包络概略形状的时间序列)在时间轴上进行伸长或收缩,以使得与合成声音中的一部分期间(例如音符)的时间长度一致的处理。
在步骤S1406中,时间伸缩映射部22将表现片段的音高进行位移,以使得合成声音的基本频率F0v和表现片段的基本频率F0p一致(即,使得两者的音高一致)。如根据上面的说明所理解的那样,步骤S1406是基于合成声音的基本频率F0v(例如由音符指定的音高)与表现片段的基本频率F0p的代表值之间的音高差而将表现片段的音高的时间序列进行位移的处理。
如图17所例示的那样,本实施方式的频谱生成部2401具有特征量合成部2401A和生成处理部2401B。在步骤S1407中,频谱生成部2401的特征量合成部2401A针对各频谱特征量,将合成声音及表现片段分别乘以变形量之后进行相加。作为一个例子,针对振幅频谱包络概略形状G(f)、振幅频谱包络H(f)以及振幅频谱包络的时间性细微变动I(f),通过如下算式对合成声音及表现片段进行变形。
Gvp(f)=(1-aG)Gv(f)+aG·Gp(f)…(1)
Hvp(f)=(1-aH)Hv(f)+aH·Hp(f)…(2)
Ivp(f)=(1-aI)Iv(f)+aI·Ip(f)…(3)
此外,aG、aH以及aI分别为针对振幅频谱包络概略形状G(f)、振幅频谱包络H(f)以及振幅频谱包络的时间性细微变动I(f)的变形量。如上所述,(2)的变形作为实际的处理,并非为(a)振幅频谱包络H(f)的变形,而是优选作为(a')振幅频谱包络概略形状G(f)与振幅频谱包络H(f)的差分而进行。并且,关于时间性细微变动I(f)的合成,可以如(3)所示地按照频率域进行(图17),也可以如图19所示,按照时间域进行。如根据上面的说明所理解的那样,步骤S1407是通过利用表现片段进行的变形而对合成声音的频谱(合成频谱的例示)的形状进行变更的处理。具体地说,基于表现片段的振幅频谱包络概略形状Gp(f)的时间序列和振幅频谱包络Hp(f)的时间序列,合成声音的频谱的时间序列发生变更。另外,基于表现片段中的振幅频谱包络的时间性细微变动Ip(f)和相位频谱包络的时间性细微变动Qp(f)中的至少一者的时间序列,合成声音的频谱的时间序列发生变更。
在步骤S1408中,频谱生成部2401的生成处理部2401B生成由特征量合成部2401A合成后的频谱特征量所规定的频谱并输出。如根据上面的说明所理解的那样,本实施方式的步骤S1404至步骤S1408相当于如下变更步骤,即:通过基于歌唱表现的表现片段的频谱特征量的时间序列而对合成声音的频谱(合成频谱的一个例子)的时间序列进行变更,由此得到被赋予该歌唱表现的频谱(变更频谱的例示)的时间序列。
如果输入由频谱生成部2401生成的频谱,则逆傅里叶变换部2402对所输入的频谱实施逆傅里叶变换(步骤S1409),输出时间域的波形。如果输入时间域的波形,则合成窗应用部2403对该输入的波形应用规定的窗函数(步骤S1410),输出该结果。叠加部2404将应用了窗函数的波形进行叠加(步骤S1411)。通过在针对每个帧间隔重复该处理而得到长时间的连续的波形。所得到的歌唱的波形通过扬声器等输出装置107进行播放。如根据上面的说明所理解的那样,本实施方式的步骤S1409至步骤S1411相当于如下合成步骤,即:基于被赋予歌唱表现的频谱(变更频谱)的时间序列,对被赋予歌唱表现的声音样本的时间序列进行合成。
在按照频率域进行全部的合成的图17的方法中,由于不必执行多个合成处理,因此具有能够抑制计算量的优点。但是,为了对振幅及相位的细微变动成分进行变形,需要以与基本周期T同步的帧进行该变形,歌唱合成部(图17的2401B至2404)被限定为适合于与其对应的构成。在通常的声音合成部中,合成处理用的帧是固定的,另外,即使帧是可变的,也存在按照某种规则被控制的类型,在该情况下,如果不改造声音合成部以使得使用同步的帧,就无法以与基本周期T同步的帧对声音波形进行合成。另一方面,如果以上述方式对声音合成部进行改造,则存在合成的声音的特性发生变化的问题。
图19是例示在合成声音和表现片段的合成处理之中的按照时间域进行时间性细微变动的合成的情况下的合成部24的功能结构的图。在本例中,合成部24具有频谱生成部2411、逆傅里叶变换部2412、合成窗应用部2413、叠加部2414、歌唱合成部2415、乘法部2416、乘法部2417以及加法部2418。为了保持细微变动的品质,2411至2414分别以与波形的基本周期T同步的帧为单位进行处理。
频谱生成部2411生成被赋予歌唱表现的合成声音的频谱。本实施方式的频谱生成部2411具有特征量合成部2411A和生成处理部2411B。在特征量合成部2411A中,以帧为单位,关于合成声音及表现片段,分别输入振幅频谱包络H(f)、振幅频谱包络概略形状G(f)、相位频谱包络P(f)以及基本频率F0。特征量合成部2411A以帧为单位,将所输入的频谱特征量(H(f)、G(f)、P(f)、F0)在合成声音和表现片段之间进行合成(变形),输出合成的特征量。此外,输入合成声音和表现片段而进行合成的只有合成声音的全区间中的配置有表现片段的区间,在其余的区间,特征量合成部2411A只是接收合成声音的频谱特征量而原样输出。
在生成处理部2411B中,以帧为单位,短时频谱操作部23输入从表现片段提取出的振幅频谱包络的时间性细微变动Ip(f)和相位频谱包络的时间性细微变动Qp(f)。生成处理部2411B以帧为单位,按照与由特征量合成部2401A合成后的频谱特征量对应的形状,生成及输出具有与时间性细微变动Ip(f)及时间性细微变动Qp(f)对应的细微变动的频谱。
逆傅里叶变换部2412以帧为单位,对由生成处理部2411B生成的频谱实施逆傅里叶变换,得到时间域的波形(即,声音样本的时间序列)。合成窗应用部2413对通过逆傅里叶变换得到的各帧的波形应用规定的窗函数。叠加部2414关于一系列帧而将应用了窗函数的波形叠加。通过以每帧间隔重复这些处理而得到长时间的连续的波形A(声音信号)。该波形A表示基本频率被位移、且被赋予包含细微变动的歌唱表现后的合成声音的时间域的波形。
对歌唱合成部2415输入合成声音的振幅频谱包络Hvp(f)、振幅频谱包络概略形状Gvp(f)、相位频谱包络Pvp(f)、以及基本频率F0vp。歌唱合成部2415使用例如公知的歌唱合成方法,基于这些频谱特征量,生成基本频率被位移、且被赋予未包含细微变动的歌唱表现后的合成声音的时间域的波形B(声音信号)。
乘法部2416对来自叠加部2414的波形A乘以细微变动成分的应用系数a。乘法部2417对来自歌唱合成部2415的波形B乘以系数(1-a)。加法部2418将来自乘法部2416的波形A及来自乘法部2417的波形B进行相加,输出混合波形C。
此外,在将细微变动按照时间域进行合成的方法(图19)中,无需使由歌唱合成部2415对合成声音进行合成的帧与用于由短时频谱操作部23对包含细微变动的表现片段的频谱特征量进行提取的帧一致。对于不能使用同步的帧的类型的歌唱合成部2415,无需进行改造,能够直接使用而合成细微变动。进一步地说,如果是该方法,则也能够将细微变动赋予至按照固定帧对歌唱声音进行频率分析得到的频谱,而不限于合成声音的频谱。如上所述,短时频谱操作部23应用于表现片段的窗函数的窗宽及时间差(即,前后的窗函数之间的位移量)设定为与表现片段的基本周期(基本频率的倒数)对应的可变长度。例如,如果将窗函数的窗宽及时间差分别设为基本周期的整数倍,则能够提取出高品质的特征量并对其进行加工。
在按照时间域进行合成的方法中,针对细微变动成分,仅处理在其短的帧中对波形A进行合成的部分。根据该方法,歌唱合成部2415并不需要是适合于与基本周期T同步的帧的方式的构成。在该情况下,在歌唱合成部2415中,例如能够使用SPP(Spectral PeakProcessing)(Bonada,Jordi,Alex Loscos,and H.Kenmochi."Sample-based singingvoice synthesizer by spectral concatenation."Proceedings of Stockholm MusicAcoustics Conference.2003.)的方法。在SPP中,不包含时间性细微变动,根据谐波峰值周边的频谱形状而合成对与声音的质感相当的成分进行再现的波形。在对采用这种方法的已有的歌唱合成部附加歌唱表现的情况下,采用按照时间域对细微变动进行合成的方法在能够直接使用已知的歌唱合成部这一点上是简便的。此外,在按照时间域进行合成的情况下,如果合成声音与表现片段之间相位不同,则波形会相互抵消或产生咆哮。为了避免该问题,在波形A的合成部和波形B的合成部使用相同的基本频率和相同的相位频谱包络,并且,使各周期的声音脉冲的基准位置(所谓的音高标记)在两者间一致。
此外,由于通过短时傅里叶变换等对声音分析得到的相位频谱的值通常对于θ+n2π即整数n具有不确定性,因此相位频谱包络的变形有时伴随着困难。由于相位频谱包络对声音的感知造成的影响比其他频谱特征量小,因此相位频谱包络可以不是必须合成的,也可以赋予任意值。最简便且自然性高的相位频谱包络的决定方法是使用根据振幅频谱包络计算出的最小相位的方法。在该情况下,根据图17或图19的H(f)及G(f),首先求出除去细微变动成分的振幅频谱包络H(f)+G(f),求出与其对应的最小相位而作为相位频谱包络P(f)供给至各合成部。作为对与任意振幅频谱包络对应的最小相位进行计算的方法,例如能够使用通过倒谱的方法(Oppenheim,Alan V.,and Ronald W.Schafer.Discrete-timesignal processing.Pearson Higher Education,2010.)。
2-3.UI部30
2-3-1.功能结构
图20是例示UI部30的功能结构的图。UI部30具有显示部31、接受部32以及声音输出部33。显示部31显示UI的画面。接受部32经由UI接受操作。声音输出部33由前面所述的输出装置107构成,与经由UI接受的操作对应地输出合成声音。由显示部31显示的UI如后面所述,例如,包含用于同时对在赋予给合成声音的表现片段的合成中使用的多个参数的值进行变更的图像对象。接受部接受对该图像对象的操作。
2-3-2.UI例(概要)
图21是例示在UI部30中使用的GUI的图。该GUI在一个实施方式涉及的歌唱合成程序中进行使用。该GUI包含乐谱显示区域511、窗口512、以及窗口513。乐谱显示区域511是歌唱合成涉及的乐谱进行显示的区域,在本例中,以与所谓的钢琴卷轴相当的形式表示乐谱。在乐谱显示区域511内,横轴表示时间,纵轴表示音阶。在本例中,显示出与音符5111~5115这5个音符相当的图像对象。对各音符分配有歌词。在本例中,对音符5111~5115分配了“I”、“love”、“you”、“so”以及“much”的歌词。用户通过在钢琴卷轴上进行点击,由此在乐谱上的任意位置追加新的音符。针对在乐谱上设定的音符,通过所谓的拖拽&下拉等的操作,对音符的时间轴上的位置、音阶、或者长度等属性进行编辑。关于歌词,既可以预先输入一首歌的歌词,其按照规定的算法自动分配给各音符,也可以由用户手动将歌词分配给各音符。
窗口512及窗口513分别为显示下述图像对象的区域,即,该图像对象表示用于对在乐谱显示区域511中选择的大于或等于1个音符赋予起音基准的歌唱表现及释音基准的歌唱表现的操作单元。乐谱显示区域511中的音符的选择通过规定的操作(例如,鼠标的左键点击)而进行。
2-3-3.UI例(歌唱表现的选择)
图22是例示对歌唱表现进行选择的UI的图。该UI使用弹出窗口。如果用户在时间轴上对想要赋予歌唱表现的音符进行规定的操作(例如,鼠标的右键点击),则显示弹出窗口514。弹出窗口514是用于对组织化为树构造的歌唱表现中的第1阶层进行选择的窗口,包含多个选择项的显示。如果用户对在弹出窗口514中包含的多个选择项中的任一选择项进行规定的操作(例如,鼠标的左键点击),则显示弹出窗口515。弹出窗口515是用于对组织化的歌唱表现的第2阶层进行选择的窗口。如果用户对弹出窗口515进行选择一个选择项的操作,则显示弹出窗口516。弹出窗口516是用于对组织化的歌唱表现的第3阶层进行选择的窗口。UI部30将对经由图22的UI所选择的歌唱表现进行确定的信息输出至合成器20。这样,用户从组织化的构造之中选择希望的歌唱表现而赋予至该音符。
由此,在乐谱显示区域511中,在音符5111的周边显示图标5116、图标5117。图标5116是在赋予起音基准的歌唱表现时的用于对该歌唱表现的编辑进行指示的图标(图像对象的一个例子),图标5117是在赋予释音基准的歌唱表现时的用于对该歌唱表现的编辑进行指示的图标。例如,如果用户在将鼠标指针对准图标5116的状态下点击鼠标的右键,则显示用于对起音基准的歌唱表现进行选择的弹出窗口514,用户能够对赋予的歌唱表现进行变更。
图23是表示对歌唱表现进行选择的UI的另一个例子的图。在本例中,在窗口512中,显示用于对起音基准的歌唱表现进行选择的图像对象。详细地说,在窗口512中显示多个图标5121。各图标代表各个歌唱表现。在本例中,在数据库10中收录有10种歌唱表现,在窗口512中显示出10种图标5121。用户在从乐谱显示区域511中选择了成为对象的大于或等于1个音符的状态下,从窗口512的图标5121之中,选择与准备赋予的歌唱表现对应的图标。对于释音基准的歌唱表现也是同样地,用户在窗口513中对图标进行选择。UI部30将对经由图23的UI所选择的歌唱表现进行确定的信息输出至合成器20。合成器20基于该信息而生成被赋予歌唱表现的合成声音。UI部30的声音输出部33将生成的合成声音进行输出。
2-3-4.UI例(歌唱表现的参数输入)
在图23的例子中,在窗口512中显示用于使起音基准的歌唱表现的程度进行变化的刻度盘5122的图像对象。刻度盘5122是用于同时对向合成声音赋予的歌唱表现的赋予中使用的多个参数的值进行变更的单一操作单元的一个例子。并且,刻度盘5122是与用户的操作对应地进行移位的操作单元的一个例子。在本例中,通过单一刻度盘5122的操作,同时对歌唱表现涉及的多个参数进行调整。释音基准的歌唱表现的程度也同样经由在窗口513显示的刻度盘5132而进行调整。歌唱表现涉及的多个参数为例如各频谱特征量的变形量的最大值。变形量的最大值是指,在各音符中伴随时间经过而变形量进行变化时的最大值。在图2的例子中,起音基准的歌唱表现在音符的起点处变形量取最大值,释音基准的歌唱表现在音符的终点处变形量取最大值。UI部30具有用于与刻度盘5122的从基准位置起的旋转角度对应地使变形量的最大值进行变化的信息(例如对应表)。
图24是例示出使刻度盘5122的旋转角度与变形量的最大值相对应的对应表的图。该对应表针对各歌唱表现进行定义。针对多个频谱特征量(例如,振幅频谱包络H(f)、振幅频谱包络概略形状G(f)、相位频谱包络P(f)、振幅频谱包络的时间性细微变动I(f)、相位频谱包络的时间性细微变动Q(f)、以及基本频率F0这6者)中的各项,变形量的最大值与刻度盘5122的旋转角度相关联地进行定义。例如,在旋转角度为30°时,振幅频谱包络H(f)的变形量的最大值为零,振幅频谱包络概略形状G(f)的变形量的最大值为0.3。在本例中,仅针对旋转角度的离散的值而定义各参数的值,对于在对应表中未定义的旋转角度,通过插补而确定各参数的值。
UI部30与用户的操作对应地对刻度盘5122的旋转角度进行检测。UI部30参照图24的对应表对与检测到的旋转角度对应的6个变形量的最大值进行确定。UI部30将确定出的6个变形量的最大值输出至合成器20。此外,歌唱表现涉及的参数不限定于变形量的最大值。也可以调整变形量的增加率或减少率等其他参数。此外,用户在乐谱显示区域511上选择将哪个音符的哪个歌唱表现部分设为编辑对象。此时,UI部30将与所选择的歌唱表现对应的对应表设定为与刻度盘5122的操作对应地进行参照的对应表。
图25是表示用于对歌唱表现涉及的参数进行编辑的UI的另一个例子的图。在本例中,表示针对在乐谱显示区域511中选择的音符的歌唱表现的频谱特征量中所应用的变形量的时间变化的图形的形状被进行编辑。成为编辑对象的歌唱表现通过图标616进行指定。图标611是用于对在起音基准的歌唱表现中变形量取最大值的期间的起点进行指定的图像对象。图标612是用于对在起音基准的歌唱表现中变形量取最大值的期间的终点进行指定的图像对象。图标613是用于对在起音基准的歌唱表现中的变形量的最大值进行指定的图像对象。如果用户通过拖拽&下拉等操作而移动图标611~613,则变形量取最大值的期间和变形量的最大值发生变化。刻度盘614是用于对从歌唱表现的应用开始至变形量达到最大为止的曲线的形状(变形量的增加率的轮廓)进行调整的图像对象。如果对刻度盘614进行操作,则从歌唱表现的应用开始至变形量达到最大为止的曲线例如从向下凸出的轮廓经过线形的轮廓而变化为向上凸出的轮廓。刻度盘615是用于对从变形量的最大期间的终点至歌唱表现的应用结束为止的曲线的形状(变形量的减少率的轮廓)进行调整的图像对象。如果用户对刻度盘614及615进行操作,则音符内的伴随时间经过的变形量的变化曲线的形状发生变化。UI部30将利用图25的图形确定的参数在该歌唱表现的定时输出至合成器20。合成器20生成添加了使用这些参数进行控制的表现片段后的合成声音。“添加了使用参数进行控制的表现片段后的合成声音”是指,例如加入了通过图18的处理所处理过的片段后的合成声音。如已经说明的那样,该加法可以按照时间域进行,也可以按照频率域进行。UI部30的声音输出部33将生成的合成声音进行输出。
3.变形例
本发明不限定于上述的实施方式,能够进行各种变形实施。下面,对几个变形例进行说明。也可以将下面的变形例中的大于或等于2者组合进行使用。
(1)被赋予表现的对象不限定于歌唱声音,也可以是不哼唱的声音。即,歌唱表现也可以为声音表现。另外,成为被赋予声音表现的对象的声音不限定于由计算机装置合成的合成音,也可以是实际人类的合成声音。并且,被赋予歌唱表现的对象也可以为不是基于人类声音的声音。
(2)声音合成装置1的功能结构不限定于实施方式中的例示。实施方式中例示的功能的一部分也可以省略。例如,声音合成装置1也可以省略定时计算部21、时间伸缩映射部22、短时频谱操作部23中的至少一部分功能。
(3)声音合成装置1的硬件结构不限定于实施方式中的例示。只要能够实现所要求的功能,声音合成装置1具有什么样的硬件结构都可以。例如,声音合成装置1也可以是与网络上的服务器装置协同动作的客户端装置。即,作为声音合成装置1的功能也可以分散于网络上的服务器装置及本地的客户端装置。
(4)由CPU 101等执行的程序可以通过光盘、磁盘、半导体存储器等存储介质进行提供,也可以经由互联网等通信线路进行下载。
(5)下面例示出根据上面例示的具体的方式所掌握的本发明的优选的方式。
本发明的优选的方式(第1方式)涉及的声音合成方法包含下述步骤:变更步骤,通过将合成声音的一部分期间中的合成频谱的时间序列基于声音表现的振幅频谱包络概略形状的时间序列进行变更,由此得到被赋予所述声音表现的变更频谱的时间序列;以及合成步骤,基于所述变更频谱的时间序列,对被赋予所述声音表现的声音样本的时间序列进行合成。
在第1方式的优选例(第2方式)中,在所述变更步骤中,通过基于所述声音表现的振幅频谱包络概略形状进行的变形,对所述合成频谱的振幅频谱包络概略形状进行变更。
在第1方式或第2方式的优选例(第3方式)中,在所述变更步骤中,基于所述声音表现的振幅频谱包络概略形状的时间序列和所述振幅频谱包络的时间序列,对所述合成频谱的时间序列进行变更。
在第1方式至第3方式中的任意优选例(第4方式)中,在所述变更步骤中,以使时间轴上的所述合成声音的特征点与针对所述声音表现设定的表现基准时刻一致的方式配置所述声音表现的振幅频谱包络概略形状的时间序列,基于所述配置的振幅频谱包络概略形状的时间序列,对所述合成频谱的时间序列进行变更。
在第4方式的优选例(第5方式)中,所述合成声音的特征点为该合成声音的元音开始时刻。在第4方式的另一个优选例(第6方式)中,所述合成声音的特征点为该合成声音的元音结束时刻或者该合成声音的发音结束时刻。
在第1方式的优选例(第7方式)中,在所述变更步骤中,将所述声音表现的振幅频谱包络概略形状的时间序列在时间轴上进行伸长或收缩,以使得与所述合成声音中的所述一部分期间的时间长度一致,基于所述伸长或收缩的振幅频谱包络概略形状的时间序列,对所述合成频谱的时间序列进行变更。
在第1方式的优选例(第8方式)中,在所述变更步骤中,基于所述合成声音的所述一部分期间中的音高与所述声音表现的音高的代表值之间的音高差而将所述声音表现的音高的时间序列进行位移,基于所述位移的音高的时间序列和所述声音表现的振幅频谱包络概略形状的时间序列,对所述合成频谱的时间序列进行变更。
在第1方式的优选例(第9方式)中,在所述变更步骤中,基于所述声音表现中的振幅频谱包络及相位频谱包络中的至少一者的时间序列,对所述合成频谱的时间序列进行变更。
(6)本发明的第1观点涉及的声音合成方法由下面的工序构成。
工序1:接收声音的第1频谱包络的时间序列和第1基本频率的时间序列。
工序2:接收被赋予声音表现的声音的第2频谱包络的时间序列和第2基本频率的时间序列。
工序3:在基本频率稳定在规定的范围内的持续区间中将第2基本频率的时间序列沿频率方向进行位移,以使得第2基本频率与第1基本频率一致。
工序4:将第1频谱包络的时间序列和第2频谱包络的时间序列进行合成而得到第3频谱包络的时间序列。
工序5:将第1基本频率的时间序列和位移后的第2基本频率的时间序列进行合成而得到第3基本频率的时间序列。
工序6:基于第3频谱包络和第3基本频率对声音信号进行合成。
此外,工序1可以在工序2之前或工序3之后,也可以在工序2和工序3之间。另外,“第1频谱包络”的具体例为振幅频谱包络Hv(f)、振幅频谱包络概略形状Gv(f)、或者相位频谱包络Pv(f),“第1基本频率”的具体例为基本频率F0v。“第2频谱包络”的具体例为振幅频谱包络Hp(f)或振幅频谱包络概略形状Gp(f),“第2基本频率”的具体例为基本频率F0p。“第3频谱包络”的具体例为振幅频谱包络Hvp(f)或振幅频谱包络概略形状Gvp(f),“第3基本频率”的具体例为基本频率F0vp。
(7)如前面所述,振幅频谱包络有助于音位或发声者的感知,与此相对,振幅频谱包络概略形状具有不依赖于音位及发声者的倾向。如果将上面的倾向设为前提,则也可以适当地切换将表现片段的振幅频谱包络Hp(f)和振幅频谱包络概略形状Gp(f)中的哪一个使用于合成声音的振幅频谱包络Hv(f)的变形。具体地说,优选如下结构,即:在合成声音和表现片段之间音位或发音者实质上相同的情况下,将振幅频谱包络Hp(f)利用于振幅频谱包络Hv(f)的变形,在合成声音和表现片段之间音位或发音者不同的情况下,将振幅频谱包络概略形状Gp(f)利用于振幅频谱包络Hv(f)的变形。
上面说明的观点(下面称为“第2观点”)涉及的声音合成方法由下面的工序构成。
工序1:接收第1声音的第1频谱包络的时间序列。
工序2:接收被赋予声音表现的第2声音的第2频谱包络的时间序列。
工序3:判定第1声音和第2声音是否满足规定的条件。
工序4:在满足规定的条件的情况下,通过基于第2频谱包络的时间序列对第1频谱包络的时间序列进行变形而得到第3频谱包络的时间序列,另一方面,在未满足规定的条件的情况下,通过基于第2频谱包络的概略形状的时间序列对第1频谱包络的时间序列进行变形而得到第3频谱包络的时间序列。
工序5:基于得到的第3频谱包络的时间序列对声音进行合成。
此外,在第2观点中,“第1频谱包络”的具体例为振幅频谱包络Hv(f)。“第2频谱包络”的具体例为振幅频谱包络Hp(f),“第2频谱包络的概略形状”的具体例为振幅频谱包络概略形状Gp(f)。另外,“第3频谱包络”的具体例为振幅频谱包络Hvp(f)。
在第2观点的优选例中,关于是否满足规定的条件的判定,在第1声音的发声者和第2声音的发声者实质上相同的情况下,判定为满足规定的条件。在第2观点的另一个优选例中,关于是否满足规定的条件的判定,在第1声音的音位和第2声音的音位实质上相同的情况下,判定为满足规定的条件。
(8)本发明的第3观点涉及的声音合成方法由下面的工序构成。
工序1:取得第1频谱包络和第1基本频率。
工序2:基于第1频谱包络和第1基本频率对时间域的第1声音信号进行合成。
工序3:针对与声音同步的每个帧,接收被赋予声音表现的声音的频谱包络的细微变动。
工序4:针对所述每个帧,基于第1频谱包络、第1基本频率以及所述细微变动而对时间域的第2声音信号进行合成。
工序5:与第1变更量对应地将第1声音信号和第2声音信号进行混合而输出混合声音信号。
“第1频谱包络”为例如图19的特征量合成部2411A生成的振幅频谱包络Hvp(f)或振幅频谱包络概略形状Gvp(f),“第1基本频率”为例如图19的特征量合成部2411A生成的基本频率F0vp。“时间域的第1声音信号”为例如来自图19的歌唱合成部2415的输出信号(具体地说是表示合成声音的时间域的声音信号)。“细微变动”为例如图19中的振幅频谱包络的时间性细微变动Ip(f)和/或相位频谱包络的时间性细微变动Qp(f)。“时间域的第2声音信号”为例如来自图19的叠加部2414的输出信号(被赋予细微变动的时间域的声音信号)。“第1变更量”为例如图19中的系数a或系数(1-a),“混合声音信号”为例如来自图19中的加法部2418的输出信号。
在第3观点的优选例中,细微变动是通过使用与声音同步的帧进行的频率分析而从被赋予所述声音表现的声音中提取的。
在第3观点的优选例中,在工序1中,通过与第2变更量对应地将声音的第2频谱包络和被赋予声音表现的声音的第3频谱包络进行合成(变形),由此取得第1频谱包络。此外,“第2频谱包络”为例如振幅频谱包络Hv(f)或振幅频谱包络概略形状Gv(f),“第3频谱包络”为例如振幅频谱包络Hp(f)或振幅频谱包络概略形状Gp(f)。第2变更量为例如前面所述的算式(1)中的系数aH或系数aG。
在第3观点的优选例中,在工序1中,通过与第3变更量对应地将声音的第2基本频率和被赋予声音表现的声音的第3基本频率进行合成,由此取得第1基本频率。此外,“第2基本频率”为例如基本频率F0v,“第3基本频率”为例如基本频率F0p。
在第3观点的优选例中,在工序5中,第1声音信号和第2声音信号在各自的音高标记在时间轴上大致一致的状态下进行混合。“音高标记”是指时间域的声音信号的波形中的形状的时间轴上的特征点。例如,波形的山部和/或谷部为“音高标记”的具体例。
标号的说明
1…声音合成装置,10…数据库,20…合成器,21…定时计算部,22…时间伸缩映射部,23…短时频谱操作部,24…合成部,25…确定部,26…取得部,30…UI部,31…显示部,32…接受部,33…声音输出部,101…CPU,102…存储器,103…储存器,104…输入输出IF,105…显示器,106…输入装置,911…乐谱显示区域,912…窗口,913…窗口,2401…频谱生成部,2402…逆傅里叶变换部,2403…合成窗应用部,2404…叠加部,2411…频谱生成部,2412…逆傅里叶变换部,2413…合成窗应用部,2414…叠加部,2415…歌唱合成部,2416…乘法部,2417…乘法部,2418…加法部。

Claims (10)

1.一种声音合成方法,其包含下述步骤:
选择步骤,从多个声音表现中选择要赋予给合成声音的局部时间区间的声音表现;
提取步骤,从所选择的所述声音表现的表现片段的短时频谱的时间序列,针对每帧分别提取所述声音表现的振幅频谱包络概略形状的时间序列,所述振幅频谱包络概略形状是将所述声音表现的振幅频谱包络粗略地进行表达的概略形状,使得所述振幅频谱包络概略形状的不包含音位或歌手的个体性的信息,而所述振幅频谱包络与音位和歌手的个体性的感知相关;
变更步骤,通过将合成声音的一部分区间的短时合成频谱的时间序列基于所提取的所述振幅频谱包络概略形状的时间序列进行变更,由此得到被赋予所述声音表现的变更短时频谱的时间序列;以及
合成步骤,基于所述变更短时频谱的时间序列,对被赋予所述声音表现的声音样本的时间序列进行合成。
2.根据权利要求1所述的声音合成方法,其中,
在所述变更步骤中,通过基于所提取的所述振幅频谱包络概略形状进行的变形,对所述短时合成频谱的振幅频谱包络概略形状进行变更。
3.根据权利要求1或2所述的声音合成方法,其中,
进一步,在所述提取步骤中,从所选择的所述声音表现的所述表现片段的所述短时频谱的时间序列提取所述振幅频谱包络的时间序列和所述声音表现的相位频谱包络的时间序列中的至少一者,
在所述变更步骤中,基于所提取的所述声音表现的所述振幅频谱包络概略形状的时间序列与所提取的所述振幅频谱包络的时间序列和所述相位频谱包络的时间序列的至少一者,对所述短时合成频谱的时间序列进行变更。
4.根据权利要求1或2所述的声音合成方法,其中,
在所述变更步骤中,以使时间轴上的所述合成声音的特征点与针对所述声音表现设定的表现基准时刻一致的方式配置所提取的所述振幅频谱包络概略形状的时间序列,基于配置的所述振幅频谱包络概略形状的时间序列,对所述短时合成频谱的时间序列进行变更。
5.根据权利要求3所述的声音合成方法,其中,
在所述变更步骤中,以使时间轴上的所述合成声音的特征点与针对所述声音表现设定的表现基准时刻一致的方式配置所提取的所述振幅频谱包络概略形状的时间序列,基于配置的所述振幅频谱包络概略形状的时间序列,对所述短时合成频谱的时间序列进行变更。
6.根据权利要求4所述的声音合成方法,其中,
所述合成声音的特征点为该合成声音的元音开始时刻。
7.根据权利要求4所述的声音合成方法,其中,
所述合成声音的特征点为该合成声音的元音结束时刻或者该合成声音的发音结束时刻。
8.根据权利要求1所述的声音合成方法,其中,
在所述变更步骤中,将所述声音表现的振幅频谱包络概略形状的时间序列在时间轴上进行伸长或收缩,以使得与所述合成声音中的所述区间的时间长度一致,基于所述伸长或收缩的振幅频谱包络概略形状的时间序列,对所述短时合成频谱的时间序列进行变更。
9.根据权利要求1所述的声音合成方法,其中,
在所述变更步骤中,基于所述合成声音的所述局部时间区间中的音高与所述声音表现的音高的代表值之间的音高差而将所述声音表现的音高的时间序列进行位移,基于所述位移后的音高的时间序列和所述声音表现的振幅频谱包络概略形状的时间序列,对所述短时合成频谱的时间序列进行变更。
10.根据权利要求1所述的声音合成方法,其中,
所述振幅频谱包络概略形状的时间序列与声音的洪亮度有关。
CN201780068063.2A 2016-11-07 2017-11-07 声音合成方法 Active CN109952609B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016-217378 2016-11-07
JP2016217378 2016-11-07
PCT/JP2017/040047 WO2018084305A1 (ja) 2016-11-07 2017-11-07 音声合成方法

Publications (2)

Publication Number Publication Date
CN109952609A CN109952609A (zh) 2019-06-28
CN109952609B true CN109952609B (zh) 2023-08-15

Family

ID=62076880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780068063.2A Active CN109952609B (zh) 2016-11-07 2017-11-07 声音合成方法

Country Status (5)

Country Link
US (1) US11410637B2 (zh)
EP (1) EP3537432A4 (zh)
JP (1) JP6791258B2 (zh)
CN (1) CN109952609B (zh)
WO (1) WO2018084305A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6620462B2 (ja) * 2015-08-21 2019-12-18 ヤマハ株式会社 合成音声編集装置、合成音声編集方法およびプログラム
JP7139628B2 (ja) * 2018-03-09 2022-09-21 ヤマハ株式会社 音処理方法および音処理装置
US10565973B2 (en) * 2018-06-06 2020-02-18 Home Box Office, Inc. Audio waveform display using mapping function
CN110288077B (zh) * 2018-11-14 2022-12-16 腾讯科技(深圳)有限公司 一种基于人工智能的合成说话表情的方法和相关装置
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
US11289067B2 (en) * 2019-06-25 2022-03-29 International Business Machines Corporation Voice generation based on characteristics of an avatar
CN112037757B (zh) * 2020-09-04 2024-03-15 腾讯音乐娱乐科技(深圳)有限公司 一种歌声合成方法、设备及计算机可读存储介质
CN112466313B (zh) * 2020-11-27 2022-03-15 四川长虹电器股份有限公司 一种多歌者歌声合成方法及装置
CN113763924B (zh) * 2021-11-08 2022-02-15 北京优幕科技有限责任公司 声学深度学习模型训练方法、语音生成方法及设备
KR102526338B1 (ko) * 2022-01-20 2023-04-26 경기대학교 산학협력단 음성의 진폭스케일링을 이용하는 감정변환을 위한 음성 주파수 합성 장치 및 방법
CN114783406B (zh) * 2022-06-16 2022-10-21 深圳比特微电子科技有限公司 语音合成方法、装置和计算机可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0247700A (ja) * 1988-08-10 1990-02-16 Nippon Hoso Kyokai <Nhk> 音声合成方法および装置
JPH07129194A (ja) * 1993-10-29 1995-05-19 Toshiba Corp 音声合成方法及び音声合成装置
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
CN1737903A (zh) * 1997-12-24 2006-02-22 三菱电机株式会社 声音译码方法以及声音译码装置
JP2011095397A (ja) * 2009-10-28 2011-05-12 Yamaha Corp 音声合成装置
JP2013195982A (ja) * 2012-03-23 2013-09-30 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
JP2014002338A (ja) * 2012-06-21 2014-01-09 Yamaha Corp 音声処理装置
JP2015161774A (ja) * 2014-02-27 2015-09-07 学校法人 名城大学 音合成方法及び音合成装置
US9159329B1 (en) * 2012-12-05 2015-10-13 Google Inc. Statistical post-filtering for hidden Markov modeling (HMM)-based speech synthesis
CN105051811A (zh) * 2013-03-15 2015-11-11 雅马哈株式会社 声音处理装置
CN105719640A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音合成装置及声音合成方法
JP6004358B1 (ja) * 2015-11-25 2016-10-05 株式会社テクノスピーチ 音声合成装置および音声合成方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
JP3535292B2 (ja) * 1995-12-27 2004-06-07 Kddi株式会社 音声認識システム
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
EP1098297A1 (en) * 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
GB0013241D0 (en) * 2000-05-30 2000-07-19 20 20 Speech Limited Voice synthesis
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US7248934B1 (en) * 2000-10-31 2007-07-24 Creative Technology Ltd Method of transmitting a one-dimensional signal using a two-dimensional analog medium
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
EP1557827B8 (en) * 2002-10-31 2015-01-07 Fujitsu Limited Voice intensifier
JP4076887B2 (ja) * 2003-03-24 2008-04-16 ローランド株式会社 ボコーダ装置
US8412526B2 (en) * 2003-04-01 2013-04-02 Nuance Communications, Inc. Restoration of high-order Mel frequency cepstral coefficients
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
CN101606190B (zh) * 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法
EP2209117A1 (en) * 2009-01-14 2010-07-21 Siemens Medical Instruments Pte. Ltd. Method for determining unbiased signal amplitude estimates after cepstral variance modification
JP5384952B2 (ja) * 2009-01-15 2014-01-08 Kddi株式会社 特徴量抽出装置、特徴量抽出方法、およびプログラム
WO2012011475A1 (ja) * 2010-07-20 2012-01-26 独立行政法人産業技術総合研究所 声色変化反映歌声合成システム及び声色変化反映歌声合成方法
US8942975B2 (en) * 2010-11-10 2015-01-27 Broadcom Corporation Noise suppression in a Mel-filtered spectral domain
US10026407B1 (en) * 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
JP2012163919A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
GB201109731D0 (en) * 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
US9947341B1 (en) * 2016-01-19 2018-04-17 Interviewing.io, Inc. Real-time voice masking in a computer network

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0247700A (ja) * 1988-08-10 1990-02-16 Nippon Hoso Kyokai <Nhk> 音声合成方法および装置
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JPH07129194A (ja) * 1993-10-29 1995-05-19 Toshiba Corp 音声合成方法及び音声合成装置
CN1737903A (zh) * 1997-12-24 2006-02-22 三菱电机株式会社 声音译码方法以及声音译码装置
JP2011095397A (ja) * 2009-10-28 2011-05-12 Yamaha Corp 音声合成装置
JP2013195982A (ja) * 2012-03-23 2013-09-30 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
JP2014002338A (ja) * 2012-06-21 2014-01-09 Yamaha Corp 音声処理装置
US9159329B1 (en) * 2012-12-05 2015-10-13 Google Inc. Statistical post-filtering for hidden Markov modeling (HMM)-based speech synthesis
CN105051811A (zh) * 2013-03-15 2015-11-11 雅马哈株式会社 声音处理装置
JP2015161774A (ja) * 2014-02-27 2015-09-07 学校法人 名城大学 音合成方法及び音合成装置
CN105719640A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音合成装置及声音合成方法
JP6004358B1 (ja) * 2015-11-25 2016-10-05 株式会社テクノスピーチ 音声合成装置および音声合成方法

Also Published As

Publication number Publication date
CN109952609A (zh) 2019-06-28
US11410637B2 (en) 2022-08-09
JP6791258B2 (ja) 2020-11-25
EP3537432A4 (en) 2020-06-03
EP3537432A1 (en) 2019-09-11
JPWO2018084305A1 (ja) 2019-09-26
US20190251950A1 (en) 2019-08-15
WO2018084305A1 (ja) 2018-05-11

Similar Documents

Publication Publication Date Title
CN109952609B (zh) 声音合成方法
CN104347080B (zh) 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质
US10008193B1 (en) Method and system for speech-to-singing voice conversion
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
US7613612B2 (en) Voice synthesizer of multi sounds
JP4839891B2 (ja) 歌唱合成装置および歌唱合成プログラム
JP2005018097A (ja) 歌唱合成装置
KR20150016225A (ko) 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
US7750229B2 (en) Sound synthesis by combining a slowly varying underlying spectrum, pitch and loudness with quicker varying spectral, pitch and loudness fluctuations
CN109416911B (zh) 声音合成装置及声音合成方法
JP2006030575A (ja) 音声合成装置およびプログラム
JP2016509384A (ja) コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク
Umbert et al. Generating singing voice expression contours based on unit selection
Schnell et al. Synthesizing a choir in real-time using Pitch Synchronous Overlap Add (PSOLA).
JP2018077283A (ja) 音声合成方法
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
Delalez et al. Vokinesis: syllabic control points for performative singing synthesis.
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP6683103B2 (ja) 音声合成方法
JP6834370B2 (ja) 音声合成方法
TW201027514A (en) Singing synthesis systems and related synthesis methods
EP2634769B1 (en) Sound synthesizing apparatus and sound synthesizing method
JP6822075B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant