CN111542875B - 声音合成方法、声音合成装置及存储介质 - Google Patents
声音合成方法、声音合成装置及存储介质 Download PDFInfo
- Publication number
- CN111542875B CN111542875B CN201880085358.5A CN201880085358A CN111542875B CN 111542875 B CN111542875 B CN 111542875B CN 201880085358 A CN201880085358 A CN 201880085358A CN 111542875 B CN111542875 B CN 111542875B
- Authority
- CN
- China
- Prior art keywords
- harmonic
- amplitude
- distribution
- frequency
- control data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title description 28
- 238000003786 synthesis reaction Methods 0.000 title description 28
- 238000001308 synthesis method Methods 0.000 title description 5
- 238000009826 distribution Methods 0.000 claims abstract description 323
- 238000001228 spectrum Methods 0.000 claims abstract description 237
- 238000000034 method Methods 0.000 claims description 48
- 230000002194 synthesizing effect Effects 0.000 claims description 31
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 description 37
- 230000005236 sound signal Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 206010013952 Dysphonia Diseases 0.000 description 3
- 208000010473 Hoarseness Diseases 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/04—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
- G10H1/053—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
- G10H1/057—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits
- G10H1/0575—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits using a data store from which the envelope is synthesized
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/471—General musical sound synthesis principles, i.e. sound category-independent synthesis methods
- G10H2250/481—Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
声音合成装置关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,根据振幅谱包络和关于多个谐波成分分别确定出的多个谐波振幅分布,生成目标音质的声音的频谱。
Description
技术领域
本发明涉及对声音进行合成的技术。
背景技术
以往提出了将任意的音位的声音进行合成的各种声音合成技术。例如在专利文献1中公开了下述技术,即,通过例如片段连接型的声音合成而生成表示将期望的音位以标准的音质(初始音质)发音出的声音的声音信号,将由该声音信号表示的声音例如变换为声音混浊或者声音嘶哑等目标音质。
专利文献1:日本特开2014-2338号公报
发明内容
但是,在专利文献1的技术中,在初始音质的声音合成后将该声音变换为目标音质,因此存在处理繁琐这样的问题。考虑到以上的情况,本发明的优选的方式的目的在于,将用于合成目标音质的声音的处理进行简化。
为了解决以上的课题,本发明的优选的方式所涉及的声音合成方法,其关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱。
本发明的优选的方式所涉及的声音合成装置是具有处理器的声音合成装置,所述处理器关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱。
本发明的其他方式所涉及的记录介质,其记录有程序,该程序使计算机执行下述处理:关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定;以及根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱。
附图说明
图1是表示本发明的第1实施方式所涉及的声音合成装置的结构的框图。
图2是表示声音合成装置的功能性的结构的框图。
图3是振幅谱及相位谱的说明图。
图4是声音合成处理的流程图。
图5是表示第2实施方式所涉及的声音合成装置的功能性的结构的框图。
图6是表示第3实施方式所涉及的声音合成装置的功能性的结构的框图。
图7是表示第4实施方式所涉及的声音合成装置的功能性的结构的框图。
图8是表示第5实施方式所涉及的声音合成装置的功能性的结构的框图。
图9是表示第7实施方式所涉及的声音合成装置的功能性的结构的框图。
图10是第7实施方式中的声音合成处理的流程图。
图11是第9实施方式中的振幅确定部的说明图。
具体实施方式
<第1实施方式>
图1是例示本发明的第1实施方式所涉及的声音合成装置100的结构的框图。第1实施方式的声音合成装置100是将由歌唱者虚拟地歌唱乐曲所发出的声音(以下称为“合成声音”)进行合成的歌唱合成装置,如图1例示那样,第1实施方式的声音合成装置100通过具有控制装置11、存储装置12和放音装置13的计算机系统实现。例如移动电话机或者智能手机等移动式的信息终端、或者个人计算机等移动式或者固定式的信息终端可优选用作声音合成装置100。
控制装置11例如具有CPU(CentralProcessingUnit)等单个或者多个处理器,集中地对构成声音合成装置100的各要素进行控制。第1实施方式的控制装置11生成表示合成声音的波形的时间区域的声音信号V。放音装置13(例如扬声器或者耳机)对由控制装置11生成的声音信号V所表示的声音进行播放。此外,关于将由控制装置11生成的声音信号V从数字变换为模拟的D/A变换器和对声音信号V进行放大的放大器,为了方便起见而省略了图示。另外,在图1中例示出将放音装置13搭载于声音合成装置100的结构,但也可以将与声音合成装置100分体的放音装置13通过有线或者无线与声音合成装置100连接。
存储装置12由例如磁记录介质或者半导体记录介质等公知的记录介质、或者多种记录介质的组合构成,对由控制装置11执行的程序(具体地说,用于使控制装置11执行声音合成方法的指示)和由控制装置11使用的各种数据进行存储。此外,也可以准备与声音合成装置100分体的存储装置12(例如云储存器),经由移动体通信网或者互联网等通信网而由控制装置11执行相对于存储装置12的写入及读出。即,也可以从声音合成装置100省略存储装置12。
存储装置12对表示乐曲的内容的乐曲数据M进行存储。第1实施方式的乐曲数据M关于构成乐曲的多个音符分别对音高、音位和发音期间进行指定。音高例如是MIDI(Musical Instrument Digital Interface)的音符编号。音位是通过合成声音进行发音的文字(即乐曲的歌词)。发音期间是乐曲的各音符进行发音的期间,例如通过音符的起点和终点或者持续长度进行指定。另外,第1实施方式的乐曲数据M对合成声音的音质(以下称为“目标音质”)进行指定。例如声音嘶哑或者声音混浊等各种音质作为目标音质而由乐曲数据M进行指定。此外,在目标音质中除了声音嘶哑或者声音混浊等的特征性的音质以外,还包含标准的音质。
图2是例示控制装置11的功能性的结构的框图。如图2例示那样,控制装置11通过执行在存储装置12中存储的程序,从而实现用于生成与乐曲数据M相对应的声音信号V的多个功能(谐波处理部21及波形合成部22)。此外,也可以通过多个装置的集合(即系统)而实现控制装置11的功能,也可以将控制装置11的功能的一部分或者全部通过专用的电子电路(例如信号处理电路)实现。
谐波处理部21针对时间轴上的每个单位期间(时间帧)而依次地生成与乐曲数据M相对应的合成声音的频谱Q。频谱Q是由振幅谱Qa和相位谱Qp构成的复谱。波形合成部22根据由谐波处理部21依次地生成的多个频谱Q的时间序列而生成时间区域的声音信号V。在生成声音信号V时优选利用离散傅立叶逆变换。由波形合成部22生成的声音信号V供给至放音装置13而作为声波进行播放。
图3是构成由谐波处理部21生成的频谱Q的振幅谱Qa及相位谱Qp的示意图。如图3例示那样,在合成声音(特别是有声音浊音)的振幅谱Qa中观测到谐波构造。谐波构造是多个(N个)谐波成分相互地隔开间隔而在频率轴上排列的构造。第n个(n=1~N)谐波成分的峰值位于基本频率F0的大致n倍的频率。第1个谐波成分是在基本频率F0具有振幅的峰值的基音成分,第2个及其以后的各谐波成分是在基本频率F0的n倍的泛音频率nF0具有振幅的峰值的第n次的泛音成分。在下面的说明中,将基本频率F0的n倍的频率(基本频率F0及各泛音频率nF0)标记为谐波频率H_n。谐波频率H_1相当于基本频率F0。
在图3图示出表示振幅谱Qa的概略形状的振幅谱包络Ea。各谐波成分的峰值的顶点位于振幅谱包络Ea的线上。即,振幅谱包络Ea中的各谐波成分的谐波频率H_n下的振幅相当于该谐波成分的峰值的振幅。
如图3例示那样,振幅谱Qa在频率轴上划分为与不同的谐波成分相对应的N个单位频带B_1~B_N。在任意的1个单位频带B_n具有与第n个谐波成分相对应的振幅的峰值。例如,将在频率轴上相互地相邻的谐波频率H_n的中点作为边界而对各单位频带B_n进行划定。下面,将振幅谱Qa中的单位频带B_n内的振幅的分布标记为“谐波振幅分布Da_n”。如根据图3所理解那样,通过将N个谐波振幅分布Da_1~Da_N沿振幅谱包络Ea在频率轴上排列而构成振幅谱Qa。
如图3例示那样,相位谱Qp在频率轴上划分为与振幅谱Qa相同的N个单位频带B_1~B_N。下面,将相位谱Qp中的单位频带B_n内的相位的分布标记为“谐波相位分布Dp_n”。如根据图3所理解那样,通过将N个谐波相位分布Dp_1~Dp_N在频率轴上排列而构成相位谱Qp。此外,单位频带B_n的频带宽度例如是与基本频率F0相对应的可变长度。
如图2例示那样,谐波处理部21具有控制数据生成部31、第1训练好的模型32、第2训练好的模型33和频谱生成部34。控制数据生成部31针对时间轴上的每个单位期间(时间帧)而依次地生成振幅谱包络Ea、相位谱包络Ep和N个控制数据C_1~C_N。第1训练好的模型32是对与控制数据C_n相对应的谐波振幅分布Da_n进行确定的统计预测模型。即,第1训练好的模型32将与由控制数据生成部31生成的N个控制数据C_1~C_N分别对应的N个谐波振幅分布Da_1~Da_N针对每个单位期间进行输出。另一方面,第2训练好的模型33是对与控制数据C_n相对应的谐波相位分布Dp_n进行确定的统计预测模型。即,第2训练好的模型33将与由控制数据生成部31生成的N个控制数据C_1~C_N分别对应的N个谐波相位分布Dp_1~Dp_N针对每个单位期间进行输出。如根据以上的说明所理解那样,控制数据C_n是对谐波振幅分布Da_n及谐波相位分布Dp_n的条件进行规定的数据。
如图2例示那样,与第n个谐波成分相对应的控制数据C_n对谐波频率H_n、振幅谱包络Ea和表示期望的音质的目标音质X进行指定。振幅谱包络Ea及目标音质X关于N个谐波成分是共通的。
谐波频率H_n如前述那样,是第n个谐波成分的振幅成为峰值的频率(nF0)。可以将谐波频率H_n通过针对每个谐波成分的单独的数值进行指定,也可以通过基本频率F0和谐波次数n的组合对谐波频率H_n进行指定。控制数据生成部31例如对与由乐曲数据M指定的各音符的音高相应地变化的谐波频率H_n进行设定。例如,与由乐曲数据M指定的音高相对应的基本频率F0的n倍的数值作为谐波频率H_n进行计算。此外,控制数据生成部31对谐波频率H_n进行设定的方法是任意的。例如,可以利用通过机器学习对乐曲数据M和谐波频率H_n(或者基本频率F0)之间的关系进行学习得到的统计预测模型而进行谐波频率H_n的设定。作为统计预测模型例如优选神经网络(以下称为“NN”)。
振幅谱包络Ea如前述那样,是合成声音的振幅谱Qa的概略形状。在振幅谱包络Ea中不包含谐波振幅分布Da_n中的谐波成分附近的微细的构造。例如,振幅谱包络Ea例如通过低阶侧的规定个的梅尔倒谱系数表现。控制数据生成部31与由乐曲数据M指定的音位的信息相应地对振幅谱包络Ea进行确定。例如,事先准备的振幅谱包络Ea针对每个音位而存储于存储装置12,控制数据生成部31对在存储装置12中存储的多个振幅谱包络Ea中的、与由乐曲数据M指定的音位相对应的振幅谱包络Ea进行选择而包含于控制数据C_n。此外,在确定振幅谱包络Ea时利用公知的任意方法。例如可以利用通过机器学习对乐曲数据M和振幅谱包络Ea之间的关系进行学习得到的统计预测模型(例如NN)而确定振幅谱包络Ea。
相位谱包络Ep是合成声音的相位谱Qp的概略形状。在相位谱包络Ep中不包含谐波相位分布Dp_n中的谐波成分附近的微细的构造。控制数据生成部31与由乐曲数据M指定的音位等的信息相应地对相位谱包络Ep进行确定。例如,事先准备的相位谱包络Ep针对每个音位而存储于存储装置12,控制数据生成部31对在存储装置12中存储的多个相位谱包络Ep中的、与由乐曲数据M指定的音位相对应的相位谱包络Ep进行选择。此外,表现相位谱包络Ep的数据形式是任意的。另外,在确定相位谱包络Ep时利用公知的任意方法。例如,可以利用通过机器学习对乐曲数据M和相位谱包络Ep之间的关系进行学习得到的统计预测模型(例如NN)而确定相位谱包络Ep。
第1训练好的模型32是关于确定的歌唱者(以下称为“目标歌唱者”)的歌唱声音,对控制数据C_n和谐波振幅分布Da_n之间的关系进行学习得到的统计预测模型。例如,针对控制数据C_n的输入而推定及输出谐波振幅分布Da_n的NN优选被利用为第1训练好的模型32。具体地说,单纯的前馈型NN、利用长期短期存储(LSTM:Long Short Term Memory)的递归型NN(RNN:Recurrent Neural Network)及它们的发展型的NN适用为第1训练好的模型32。也可以将多种NN的组合利用为第1训练好的模型32。
第1训练好的模型32是通过利用了使控制数据C_n和谐波振幅分布Da_n对应的多个教师数据的机器学习(特别是深层学习),对控制数据C_n和谐波振幅分布Da_n之间的关系进行学习(训练)得到的训练好的模型。对第1训练好的模型32进行规定的多个系数K1通过利用了与各目标音质X相对应的多个教师数据的机器学习进行设定而存储于存储装置12。因此,基于从多个教师数据提取的倾向(控制数据C_n和谐波振幅分布Da_n之间的关系)而针对未知的控制数据C_n从第1训练好的模型32输出在统计上妥当的谐波振幅分布Da_n。即,谐波振幅分布Da_n相当于由目标歌唱者通过目标音质X发音出由乐曲数据M指定的音高及音位得到的声音的振幅谱Qa中的第n个谐波成分的振幅分布。此外,在通过第1训练好的模型32推定谐波振幅分布Da_n时,也可以仅利用控制数据C_n所包含的振幅谱包络Ea的全部系数中的例如低次数侧的一部分系数。
第2训练好的模型33是关于目标歌唱者的歌唱声音,对控制数据C_n和谐波相位分布Dp_n之间的关系进行学习得到的统计预测模型。例如,针对控制数据C_n的输入而推定及输出谐波相位分布Dp_n的NN优选利用为第2训练好的模型33。与第1训练好的模型32同样地,公知的各种形式的NN利用为第2训练好的模型33。
图2的第2训练好的模型33是通过利用了使控制数据C_n和谐波相位分布Dp_n对应的多个教师数据的机器学习(特别是深层学习),对控制数据C_n和谐波相位分布Dp_n之间的关系进行学习(训练)得到的训练好的模型。对第2训练好的模型33进行规定的多个系数K2通过利用了与各目标音质X相对应的多个教师数据的机器学习进行设定而存储于存储装置12。因此,基于从多个教师数据提取的倾向(控制数据C_n和谐波相位分布Dp_n之间的关系)而从第2训练好的模型33输出针对未知的控制数据C_n在统计上妥当的谐波相位分布Dp_n。即,谐波相位分布Dp_n相当于由目标歌唱者通过目标音质X发音出由乐曲数据M指定的音高及音位得到的声音的相位谱Qp中的第n个谐波成分的振幅分布。此外,在通过第2训练好的模型33推定谐波相位分布Dp_n时,也可以仅利用控制数据C_n所包含的振幅谱包络Ea的全部系数中的例如低次数侧的一部分系数。
如根据图3所理解那样,第1训练好的模型32关于各谐波成分而输出的谐波振幅分布Da_n是相对于谐波频率H_n下的振幅(以下称为“代表振幅”)Ra_n的相对性的振幅的分布。即,构成谐波振幅分布Da_n的各振幅是将代表振幅Ra_n设为规定的基准值Ra0(例如Ra0=0)的相对值。相对值可以是线性振幅的差分及对数振幅的差分(即线性振幅的比)的任意者。代表振幅Ra_n是谐波振幅分布Da_n中的与谐波成分相对应的振幅的峰值的顶点处的振幅。同样地,第2训练好的模型33关于各谐波成分而输出的谐波相位分布Dp_n是相对于谐波频率H_n下的相位(以下称为“代表相位”)Rp_n的相对性的相位的分布。即,构成谐波相位分布Dp_n的各相位是将代表相位Rp_n设为规定的基准值Rp0(例如Rp0=0)的相对值。此外,基准值Ra0及基准值Rp0并不限定于0。
如以上说明所述,N个谐波振幅分布Da_1~Da_N的系列针对每个单位期间而从第1训练好的模型32输出,N个谐波相位分布Dp_1~Dp_N的系列针对每个单位期间而从第2训练好的模型33输出。图2的频谱生成部34根据振幅谱包络Ea及相位谱包络Ep、由第1训练好的模型32输出的N个谐波振幅分布Da_1~Da_N、以及由第2训练好的模型33输出的N个谐波相位分布Dp_1~Dp_N,生成合成声音的频谱Q。频谱Q的生成是针对每个单位期间(即在N个谐波振幅分布Da_1~Da_N和N个谐波相位分布Dp_1~Dp_N的每次生成时)而执行的。频谱Q如图3例示出的那样,是由振幅谱Qa和相位谱Qp构成的复谱。
具体地说,第一,频谱生成部34将N个谐波振幅分布Da_1~Da_N各自和N个谐波相位分布Dp_1~Dp_N各自配置于频率轴上的各谐波频率H_n。第二,频谱生成部34对各谐波振幅分布Da_n进行调整,以使得谐波振幅分布Da_n的代表振幅Ra_n位于振幅谱包络Ea的线上。就谐波振幅分布Da_n的调整而言,例如在谐波振幅分布Da_n为对数振幅的情况下通过常数的相加而实现的,在谐波振幅分布Da_n为线性振幅的情况下通过常数的相乘而实现的。第三,频谱生成部34对各谐波相位分布Dp_n进行调整,以使得谐波相位分布Dp_n的代表相位Rp_n位于相位谱包络Ep的线上。就谐波相位分布Dp_n的调整而言,通过对该谐波相位分布Dp_n加上常数而实现的。频谱生成部34通过将以上说明的调整后的N个谐波振幅分布Da_1~Da_N和N个谐波相位分布Dp_1~Dp_N进行合成,从而生成频谱Q。此外,在频率轴上相邻的2个谐波成分之间谐波振幅分布Da_n及谐波振幅分布Da_n+1相互地重复的情况下,其重复的部分在复平面上相加。另一方面,在频率轴上相邻的2个谐波成分之间谐波振幅分布Da_n及谐波振幅分布Da_n+1相互地分离的情况下,两者间的间隔维持不变。通过以上的处理而生成的频谱Q相当于由目标歌唱者通过目标音质X发音出由乐曲数据M指定的音高及音位而得到的声音的频率特性。此外,在以上的说明中,将谐波振幅分布Da_n的调整(调整量a)和谐波相位分布Dp_n的调整(调整量p)单独地执行,但如果将谐波振幅分布Da_n和谐波相位分布Dp_n合成而以复数表现,针对该复数表现而乘以复数{a×exp(jp)},则能够将谐波振幅分布Da_n的调整和谐波相位分布Dp_n的调整同时地实现(j为虚数单位)。
由频谱生成部34生成的频谱Q针对每个单位期间从谐波处理部21输出至波形合成部22。如前所述,波形合成部22根据由谐波处理部21针对每个单位期间而生成的多个频谱Q的时间序列而生成时间区域的声音信号V。
图4是控制装置11对表示由目标歌唱者通过目标音质X发声出的合成声音的声音信号V进行合成的处理(以下称为“声音合成处理”)的流程图。声音合成处理例如以来自声音合成装置100的利用者的指示为契机而开始,针对每个单位期间而反复进行。
如果关于任意的1个单位期间而开始声音合成处理,则控制数据生成部31生成N个控制数据C_1~C_N(Sa1、Sa2)。具体地说,控制数据生成部31与乐曲数据M相应地对N个谐波频率H_1~H_N进行设定(Sa1)。例如,控制数据生成部31可以将N个谐波频率H_1~H_N各自单独地设定,也可以将1个基本频率F0的n倍的频率作为N个谐波频率H_1~H_N进行设定。控制数据生成部31与乐曲数据M相应地对振幅谱包络Ea及相位谱包络Ep进行确定(Sa2)。此外,谐波频率H_n、振幅谱包络Ea及相位谱包络Ep可以是与目标歌唱者相对应的特征量,也可以是除了目标歌唱者以外的歌唱者的特征量。另外,谐波频率H_n、振幅谱包络Ea及相位谱包络Ep可以是与目标音质X相对应的特征量,也可以是不与目标音质X相对应的特征量。可以将谐波频率H_n的设定(Sa1)和振幅谱包络Ea及相位谱包络Ep的确定(Sa2)之间的顺序逆转。通过以上的处理,生成包含谐波频率H_n、振幅谱包络Ea和目标音质X在内的控制数据C_n。
控制装置11通过第1训练好的模型32而生成与N个控制数据C_1~C_N分别对应的N个谐波振幅分布Da_1~Da_N(Sa3)。另外,控制装置11通过第2训练好的模型33而生成与N个控制数据C_1~C_N分别对应的N个谐波相位分布Dp_1~Dp_N(Sa4)。此外,也可以将N个谐波振幅分布Da_1~Da_N的生成(Sa3)和N个谐波相位分布Dp_1~Dp_N的生成(Sa4)之间的顺序逆转。
频谱生成部34根据振幅谱包络Ea、相位谱包络Ep、N个谐波振幅分布Da_1~Da_N和N个谐波相位分布Dp_1~Dp_N而生成目标音质X的频谱Q(Sa5)。具体地说,如前述那样,频谱生成部34通过将沿着振幅谱包络Ea的N个谐波振幅分布Da_1~Da_N和沿着相位谱包络Ep的N个谐波相位分布Dp_1~Dp_N进行合成,从而生成频谱Q。波形合成部22根据频谱Q而生成时间区域的声音信号V(Sa6)。使按照以上的顺序针对每个单位期间生成的声音信号V在时间轴上相互地重复而相加,由此生成表示通过目标音质X发音出由乐曲数据M指定的音高及音位而得到的声音的声音信号V。
如以上说明所述,在第1实施方式中,与目标音质X、谐波频率H_n和振幅谱包络Ea相应地确定针对每个谐波成分的谐波振幅分布Da_n,根据振幅谱包络Ea和N个谐波振幅分布Da_1~Da_N而生成目标音质X的声音的频谱Q(振幅谱)。因此,与在合成标准的音质的声音后对该音质的声音进行变换的专利文献1的技术相比较,具有目标音质X的声音的合成处理得到简化这一优点。
在第1实施方式中,通过对控制数据C_n和谐波振幅分布Da_n之间的关系进行学习(训练)得到的第1训练好的模型32而确定各谐波成分的谐波振幅分布Da_n。因此,具有能够适当地确定与未知的控制数据C_n相对应的谐波振幅分布Da_n这一优点。此外,各谐波振幅分布Da_n的形状相互近似,因此还具有能够将小规模的统计预测模型(例如NN)利用为第1训练好的模型32这一优点。另外,各谐波振幅分布Da_n的形状相互近似,因此还具有下述优点,即,即使在谐波振幅分布Da_n的推定中发生了错误的情况下,也不会如声音信号V的波形的破绽那样直接导致音质上的重大的问题。
与目标音质X、谐波频率H_n和振幅谱包络Ea相应地确定针对每个谐波成分的谐波相位分布Dp_n,根据相位谱包络Ep和N个谐波相位分布Dp_1~Dp_N而生成目标音质X的声音的频谱Q(相位谱)。因此,具有能够对相位谱适当的目标音质X的声音进行合成这一优点。在第1实施方式中,特别是通过对控制数据C_n和谐波相位分布Dp_n之间的关系进行学习(训练)得到的第2训练好的模型33对各谐波成分的谐波相位分布Dp_n进行确定。因此,具有能够适当地确定与未知的控制数据C_n相对应的谐波相位分布Dp_n这一优点。
在第1实施方式中,振幅相对于代表振幅Ra_n的相对值分布被利用为谐波振幅分布Da_n,因此具有下述优点,即,与代表振幅Ra_n的高低无关地能够生成适当的频谱Q。同样地,相位相对于代表相位Rp_n的相对值分布被利用为谐波相位分布Dp_n,因此具有下述优点,即,与代表相位Rp_n的高低无关地能够生成适当的频谱Q。
<第2实施方式>
对本发明的第2实施方式进行说明。在以下例示的各方式中关于作用或者功能与第1实施方式相同的要素,沿用在第1实施方式的说明中使用的标号而适当地省略各自的详细说明。
图5是局部地例示第2实施方式中的控制装置11的功能性的结构的框图。如图5例示那样,第2实施方式中的控制数据生成部31包含相位计算部311。相位计算部311将根据振幅谱包络Ea进行计算的频率轴上的数值系列作为相位谱包络Ep而代替地生成。
第2实施方式的相位计算部311将与振幅谱包络Ea相对应的最小相位作为相位谱包络Ep0进行计算。具体地说,相位计算部311将通过对振幅谱包络Ea的对数值进行希尔伯特变换而计算的最小相位利用为相位谱包络Ep0。例如,第一,相位计算部311通过针对振幅谱包络Ea的对数值而执行离散傅立叶逆变换而计算时间区域的采样系列。第二,相位计算部311将在时间区域的采样系列中的时间轴上相当于负数的时刻的部分设定为0,将相当于除了时间轴上的原点(时刻0)和时刻F/2(F为离散傅立叶变换的个数)以外的各时刻的部分设为2倍,在此基础上执行离散傅立叶变换。第三,相位计算部311将离散傅立叶变换的结果中的虚数部分(最小相位)提取为相位谱包络Ep0。
另外,相位计算部311对与基本频率F0的时间序列相对应的各单位期间内的相位基准位置(音调标记)进行设定。具体地说,相位计算部311通过对与基本频率F0相对应的相位的变化量进行积分而计算瞬时相位的时间序列,将在各单位期间的中央附近瞬时相位成为(θ+2mπ)的时间轴上的位置选择为相位基准位置。此外,记号θ是任意的实数,记号m是任意的整数。而且,相位计算部311通过以各单位期间的中央的时刻和相位基准位置之间的时间差使相位谱包络Ep0进行线性相位位移(即在时间轴上移动),从而生成相位谱包络Ep。根据按照以上的顺序计算出的相位谱包络Ep而由频谱生成部34生成频谱Q的方法与第1实施方式相同。
在第2实施方式中也实现与第1实施方式相同的效果。另外,在第2实施方式中,根据振幅谱包络Ea对相位谱包络Ep进行计算,因此具有对相位谱包络Ep进行设定的处理得到简化这一优点。
<第3实施方式>
图6是局部地例示第3实施方式中的控制装置11的功能性的结构的框图。如图6例示那样,向第3实施方式的第1训练好的模型32供给控制数据Ca_n。第t个单位期间(第1单位期间的例示)中的各谐波成分的控制数据Ca_n在与第1实施方式的控制数据C_n相同的要素(谐波频率H_n、振幅谱包络Ea及目标音质X)的基础上,还包含关于位于紧跟其前的第(t-1)个单位期间(第2单位期间的例示)而由第1训练好的模型32确定出的谐波振幅分布Da_n。即,关于各单位期间而确定出的谐波振幅分布Da_n作为用于对紧跟其后的单位期间的谐波振幅分布Da_n进行计算的输入而进行反馈。第3实施方式的第1训练好的模型32是对包含谐波频率H_n、振幅谱包络Ea、目标音质X和紧跟其前的谐波振幅分布Da_n在内的控制数据Ca_n与谐波振幅分布Da_n之间的关系进行学习得到的统计预测模型。
如图6例示那样,向第3实施方式的第2训练好的模型33供给控制数据Cp_n。第t个单位期间中的各谐波成分的控制数据Cp_n在与第1实施方式的控制数据C_n相同的要素(谐波频率H_n、振幅谱包络Ea及目标音质X)的基础上,还包含关于位于紧跟其前的第(t-1)个单位期间而由第2训练好的模型33确定出的谐波相位分布Dp_n。即,第3实施方式的第2训练好的模型33是对包含谐波频率H_n、振幅谱包络Ea、目标音质X和紧跟其前的谐波相位分布Dp_n在内的控制数据Cp_n与谐波相位分布Dp_n之间的关系进行学习得到的统计预测模型。
在第3实施方式中也实现与第1实施方式相同的效果。另外,在第3实施方式中,各单位期间中的控制数据Ca_n包含有在紧跟其前的单位期间确定出的谐波振幅分布Da_n。因此,具有下述优点,即,能够确定多个教师数据中的反映了谐波振幅分布Da_n的时间性的变化的倾向的适当的谐波振幅分布Da_n的时间序列。同样地,各单位期间中的控制数据Cp_n包含有在紧跟其前的单位期间确定出的谐波相位分布Dp_n。因此,能够确定多个教师数据中的反映了谐波相位分布Dp_n的时间性的变化的倾向的适当的谐波相位分布Dp_n的时间序列。此外,也可以在第3实施方式中采用根据振幅谱包络Ea对相位谱包络Ep进行计算的第2实施方式的结构。
<第4实施方式>
图7是局部地例示第4实施方式中的控制装置11的功能性的结构的框图。如图7例示那样,向第4实施方式的第1训练好的模型32供给控制数据Ca_n。第n个谐波成分(第1谐波成分的例示)的控制数据Ca_n在与第1实施方式的控制数据C_n相同的要素(谐波频率H_n、振幅谱包络Ea及目标音质X)的基础上,还包含关于在频率轴上与该谐波成分相邻的第(n-1)个谐波成分(第2谐波成分的例示)而由第1训练好的模型32确定出的谐波振幅分布Da_n-1。即,第4实施方式的第1训练好的模型32是对包含谐波频率H_n、振幅谱包络Ea、目标音质X和其他谐波成分的谐波振幅分布Da_n-1在内的控制数据Ca_n与谐波振幅分布Da_n之间的关系进行学习得到的统计预测模型。
如图7例示那样,向第4实施方式的第2训练好的模型33供给控制数据Cp_n。第n个谐波成分的控制数据Cp_n在与第1实施方式的控制数据C_n相同的要素(谐波频率H_n、振幅谱包络Ea及目标音质X)的基础上,还包含关于在频率轴上与该谐波成分相邻的第(n-1)个谐波成分而由第1训练好的模型32确定出的谐波相位分布Dp_n-1。即,第4实施方式的第2训练好的模型33是对包含谐波频率H_n、振幅谱包络Ea、目标音质X和其他谐波成分的谐波相位分布Dp_n-1在内的控制数据Cp_n与谐波相位分布Dp_n之间的关系进行学习得到的统计预测模型。
在第4实施方式中也实现与第1实施方式相同的效果。另外,在第4实施方式中,用于对各谐波成分的谐波振幅分布Da_n进行确定的控制数据Ca_n包含关于在频率轴上与该谐波成分相邻的其他谐波成分而确定出的谐波振幅分布Da_n-1。因此,具有下述优点,即,能够确定多个教师数据中的反映了各谐波振幅分布Da_n的相关性的倾向的适当的谐波振幅分布Da_n。同样地,用于对各谐波成分的谐波相位分布Dp_n进行确定的控制数据Cp_n包含关于在频率轴上与该谐波成分相邻的其他谐波成分而确定出的谐波相位分布Dp_n-1。因此,具有下述优点,即,能够确定多个教师数据中的反映了各谐波相位分布Dp_n的相关性的倾向的适当的谐波相位分布Dp_n。此外,也可以在第4实施方式中采用根据振幅谱包络Ea对相位谱包络Ep进行计算的第2实施方式的结构。
<第5实施方式>
图8是局部地例示第5实施方式中的控制装置11的功能性的结构的框图。针对第1训练好的模型32的输入及输出与第1实施方式相同。即,第1训练好的模型32输出与包含谐波频率H_n、振幅谱包络Ea和目标音质X在内的控制数据C_n相对应的谐波振幅分布Da_n。
另一方面,向第5实施方式的第2训练好的模型33供给控制数据Cp_n。控制数据Cp_n在与第1实施方式的控制数据C_n相同的要素(谐波频率H_n、振幅谱包络Ea及目标音质X)的基础上,还包含由第1训练好的模型32生成的谐波振幅分布Da_n。具体地说,与任意的1个单位期间中的第n个谐波成分相对应的控制数据Cp_n,包含关于该单位期间和该谐波成分的组合而由第1训练好的模型32生成的谐波振幅分布Da_n。即,第5实施方式的第2训练好的模型33是对包含谐波频率H_n、振幅谱包络Ea、目标音质X和谐波振幅分布Da_n在内的控制数据Cp_n与谐波相位分布Dp_n之间的关系进行学习得到的统计预测模型。
在第5实施方式中也实现与第1实施方式相同的效果。另外,在第5实施方式中,用于对各谐波成分的谐波相位分布Dp_n进行确定的控制数据Cp_n包含由第1训练好的模型32生成的谐波振幅分布Da_n。因此,具有下述优点,即,能够确定多个教师数据中的反映了谐波振幅分布Da_n和谐波相位分布Dp_n的相关性的适当的谐波相位分布Dp_n。此外,也可以在第5实施方式中采用根据振幅谱包络Ea对相位谱包络Ep进行计算的第2实施方式的结构。
<第6实施方式>
在第1实施方式至第5实施方式中,将1个单位期间中的谐波频率H_n赋予给第1训练好的模型32及第2训练好的模型33。如果例如考虑到在1个音符的发音期间内谐波频率H_n会历时变化这一倾向,则优选构成为在任意的1个单位期间中的控制数据C_n中在该单位期间中的谐波频率H_n的基础上,还包含该单位期间的前后的单位期间中的谐波频率H_n。即,第6实施方式的控制数据C_n表示谐波频率H_n的时间性的变化。
具体地说,第6实施方式的控制数据生成部31在第t个单位期间中的控制数据C_n中包含该单位期间的谐波频率H_n、位于紧跟其前的第(t-1)个单位期间的谐波频率H_n和位于紧跟其后的第(t+1)个单位期间的谐波频率H_n。如根据以上的说明所理解那样,在由第6实施方式的第1训练好的模型32进行学习的控制数据C_n和谐波振幅分布Da_n之间的关系中反映有谐波频率H_n的时间性的变化的倾向。因此,具有下述优点,即,能够确定反映了谐波频率H_n的时间性的变化的倾向的适当的谐波振幅分布Da_n。同样地,在由第6实施方式的第2训练好的模型33进行学习的控制数据C_n和谐波相位分布Dp_n之间的关系中反映有谐波频率H_n的时间性的变化的倾向。因此,具有下述优点,即,能够确定反映了谐波频率H_n的时间性的变化的倾向的适当的谐波相位分布Dp_n。
此外,在以上的说明中,将紧跟其前及紧跟其后的单位期间中的谐波频率H_n包含于控制数据C_n,但控制数据C_n所包含的谐波频率H_n的个数能够适当地变更。例如,可以将紧跟其前(第(t-1)个)的单位期间的谐波频率H_n和紧跟其后(第(t+1)个)的单位期间的谐波频率H_n的一者与第t个单位期间的谐波频率H_n一起包含于控制数据C_n。还设想到下述结构,即,将位于第t个单位期间的前方的多个单位期间中的谐波频率H_n包含于第t个单位期间的控制数据C_n的结构、以及将位于第t个单位期间的后方的多个单位期间中的谐波频率H_n包含于第t个单位期间的控制数据C_n的结构。
另外,在前述的例示中,例示出在第t个单位期间的控制数据C_n中包含其他单位期间的谐波频率H_n的结构,但也可以将谐波频率H_n的变化量(例如频率的时间微分值)包含于控制数据C_n。例如,在第t个单位期间的控制数据C_n中包含第(t-1)个单位期间和第t个单位期间之间的谐波频率H_n的变化量、或者第t个单位期间和第(t+1)个单位期间之间的谐波频率H_n的变化量。
如根据以上的说明所理解那样,第t个单位期间中的第n个谐波成分的控制数据C_n包含:
(1)第t个单位期间中的该谐波成分的谐波频率H_n;以及
(2)除了第t个以外的单位期间(典型的是紧跟其前或者紧跟其后的单位期间)中的该谐波成分的谐波频率H_n、或者第t个单位期间的前后的该谐波频率H_n的变化量。此外,也可以将第2实施方式至第5实施方式的结构应用于第6实施方式。
<第7实施方式>
图9是例示第7实施方式中的控制装置11的功能性的结构的框图。如图9例示那样,第7实施方式的谐波处理部21构成为将第1实施方式中的第1训练好的模型32及第2训练好的模型33置换为振幅确定部41及相位确定部42。控制数据生成部31生成振幅谱包络Ea、相位谱包络Ep和N个控制数据C_1~C_N的动作与第1实施方式相同。
振幅确定部41对与由控制数据生成部31生成的控制数据C_n相对应的谐波振幅分布Da_n进行确定。分别与N个控制数据C_1~C_N对应的N个谐波振幅分布Da_1~Da_N针对每个单位期间从振幅确定部41输出。另一方面,相位确定部42对与由控制数据生成部31生成的控制数据C_n相对应的谐波相位分布Dp_n进行确定。分别与N个控制数据C_1~C_N对应的N个谐波相位分布Dp_1~Dp_N针对每个单位期间从相位确定部42输出。
第7实施方式的存储装置12对为了进行谐波振幅分布Da_n的确定而由振幅确定部41使用的参照表Ta和为了进行谐波相位分布Dp_n的确定而由相位确定部42使用的参照表Tp进行存储。此外,也可以将参照表Ta和参照表Tp存储于独立的记录介质。
如图9例示那样,参照表Ta是关于由控制数据生成部31能够生成的多个控制数据C中的各个控制数据,对表示单位频带B内的谐波振幅分布Da的形状数据Wa进行了登记的数据表。在参照表Ta中登记的各谐波振幅分布Da的形状针对每个控制数据C而存在差异。如根据以上的说明所理解那样,在第7实施方式的存储装置12中,针对每个控制数据C(即,针对每个谐波频率H_n、振幅谱包络Ea和目标音质X的组合)对谐波振幅分布Da_n进行存储。
如图9例示那样,参照表Tp是关于由控制数据生成部31能够生成的多个控制数据C中的各个控制数据,对表示单位频带B内的谐波相位分布Dp的形状数据Wp进行了登记的数据表。在参照表Tp中登记的各谐波相位分布Dp的形状针对每个控制数据C而存在差异。如根据以上的说明所理解那样,在第7实施方式的存储装置12中,针对每个控制数据C(即,针对每个谐波频率H_n、振幅谱包络Ea和目标音质X的组合)对谐波相位分布Dp_n进行存储。此外,在图9中划分为参照表Ta和参照表Tp,但振幅确定部41及相位确定部42也可以利用使控制数据C、形状数据Wa和形状数据Wp对应起来的单体的参照表。
图9的振幅确定部41对在参照表Ta中登记的多个形状数据Wa中的与由控制数据生成部31生成的控制数据C_n相对应的形状数据Wa进行检索,将该形状数据Wa所表示的谐波振幅分布Da_n进行输出。即,振幅确定部41从存储装置12取得与N个谐波成分各自的控制数据C_n相对应的形状数据Wa,由此对该谐波成分的谐波振幅分布Da_n进行确定。
相位确定部42对在参照表Tp中登记的多个形状数据Wp中的与由控制数据生成部31生成的控制数据C_n相对应的形状数据Wp进行检索,将该形状数据Wp所表示的谐波相位分布Dp_n进行输出。即,相位确定部42从存储装置12取得与N个谐波成分各自的控制数据C_n相对应的形状数据Wp,由此对该谐波成分的谐波相位分布Dp_n进行确定。
频谱生成部34根据振幅谱包络Ea及相位谱包络Ep、由振幅确定部41确定出的N个谐波振幅分布Da_1~Da_N、以及由相位确定部42确定出的N个谐波相位分布Dp_1~Dp_N,生成合成声音的频谱Q。频谱Q的生成是通过与第1实施方式相同的结构及方法而针对每个单位期间执行的。波形合成部22与第1实施方式同样地,根据由谐波处理部21针对每个单位期间所生成的多个频谱Q的时间序列而生成时间区域的声音信号V。
图10是第7实施方式的控制装置11执行的声音合成处理的流程图。声音合成处理例如以来自声音合成装置100的利用者的指示为契机而开始,针对每个单位期间而反复进行。
如果开始声音合成处理,则与第1实施方式同样地,控制数据生成部31生成N个控制数据C_1~C_N(Sa1、Sa2)。振幅确定部41关于N个谐波成分,分别取得与控制数据C_n相对应的形状数据Wa(谐波振幅分布Da_n)(Sb3)。相位确定部42关于N个谐波成分,分别取得与控制数据C_n相对应的形状数据Wp(谐波相位分布Dp_n)(Sb4)。此外,也可以将N个谐波振幅分布Da_1~Da_N的取得(Sb3)和N个谐波相位分布Dp_1~Dp_N的取得(Sb4)的顺序逆转。频谱生成部34生成频谱Q的处理(Sa5)及波形合成部22根据多个频谱Q的时间序列而生成声音信号V的处理(Sa6)与第1实施方式相同。
如以上说明所述,在第7实施方式中,与目标音质X、谐波频率H_n和振幅谱包络Ea相应地确定针对每个谐波成分的谐波振幅分布Da_n。因此,与第1实施方式同样地,与合成标准的音质的声音后对该音质的声音进行变换的专利文献1的技术相比较,具有目标音质X的声音的合成处理得到简化这一优点。同样地,与目标音质X、谐波频率H_n和振幅谱包络Ea相应地确定针对每个谐波成分的谐波相位分布Dp_n,因此与第1实施方式同样地,具有能够合成相位谱Qp适当的目标音质X的声音这一优点。
另外,在第7实施方式中,从与控制数据C对应地存储形状数据Wa的存储装置12取得与各谐波成分的控制数据C_n相对应的形状数据Wa,由此对谐波振幅分布Da_n进行确定。因此,具有下述优点,即,不需要在第1实施方式中例示出的用于生成第1训练好的模型32的机器学习和通过第1训练好的模型32对谐波振幅分布Da_n进行确定的运算。同样地,从与控制数据C对应地存储形状数据Wp的存储装置12取得与各谐波成分的控制数据C_n相对应的形状数据Wp,由此对谐波相位分布Dp_n进行确定。因此,具有下述优点,即,不需要在第1实施方式中例示出的用于生成第2训练好的模型33的机器学习和通过第2训练好的模型33对谐波相位分布Dp_n进行确定的运算。
<第8实施方式>
第8实施方式的声音合成装置100的结构与第7实施方式相同。即,第8实施方式的谐波处理部21与图9的例示同样地,具有控制数据生成部31、振幅确定部41、相位确定部42和频谱生成部34。
在第7实施方式中,例示出存储装置12针对每个控制数据C而存储有形状数据Wa的结构,但还设想到关于由控制数据生成部31生成的控制数据C_n而在存储装置12中没有存储形状数据Wa的可能性。考虑到以上的情况,在第8实施方式中,在关于控制数据C_n而形状数据Wa没有存储于存储装置12的情况下,通过在存储装置12中存储的多个形状数据Wa的插补对谐波振幅分布Da_n进行确定。具体地说,第8实施方式的振幅确定部41按照与由控制数据生成部31生成的控制数据C_n的距离从近到远的顺序从参照表Ta选择多个控制数据C,通过对分别与该多个控制数据C对应的多个形状数据Wa进行插补而确定谐波振幅分布Da_n。例如,通过多个形状数据Wa的加权和而对谐波振幅分布Da_n进行确定。
此外,在由控制数据生成部31生成的控制数据C_n和与该控制数据C_n最近的控制数据C的距离低于规定的阈值的情况下,振幅确定部41可以对与该控制数据C相对应的1个形状数据Wa所表示的谐波振幅分布Da_n进行确定。即,在与控制数据C_n充分近的控制数据C存在于参照表Ta的情况下,省略形状数据Wa的插补。
在以上的说明中着眼于振幅,但关于相位也是同样的。即,在关于控制数据C_n而形状数据Wp没有存储于存储装置12的情况下,通过在存储装置12中存储的多个形状数据Wp的插补对谐波相位分布Dp_n进行确定。具体地说,第8实施方式的相位确定部42按照与由控制数据生成部31生成的控制数据C_n的距离从近到远的顺序从参照表Tp选择多个控制数据C,通过对分别与该多个控制数据C对应的多个形状数据Wp进行插补而确定谐波相位分布Dp_n。
此外,在由控制数据生成部31生成的控制数据C_n和与该控制数据C_n最近的控制数据C的距离低于规定的阈值的情况下,相位确定部42可以对与该控制数据C相对应的形状数据Wp所表示的谐波相位分布Dp_n进行确定。即,在与控制数据C_n充分近的控制数据C存在于参照表Tp的情况下,省略形状数据Wp的插补。另外,在利用将控制数据C、形状数据Wa和形状数据Wp对应起来的参照表的结构中,与控制数据C_n接近的控制数据C的检索无需在振幅确定部41和相位确定部42中分别独立地执行,而是在振幅确定部41和相位确定部42之间共通地执行。
在第8实施方式中也实现与第7实施方式相同的效果。另外,在第8实施方式中,通过在存储装置12中存储的多个形状数据Wa的插补对各谐波成分的谐波振幅分布Da_n进行确定,因此具有能够削减在存储装置12中存储的形状数据Wa的个数这一优点。同样地,通过多个形状数据Wp的插补对各谐波成分的谐波相位分布Dp_n进行确定,因此还具有能够削减在存储装置12中存储的形状数据Wp的个数这一优点。
<第9实施方式>
第9实施方式的声音合成装置100的结构与第7实施方式相同。即,第9实施方式的谐波处理部21与图9的例示同样地,具有控制数据生成部31、振幅确定部41、相位确定部42和频谱生成部34。在第9实施方式中,振幅确定部41对各谐波成分的谐波振幅分布Da_n进行确定的动作与第7实施方式存在差异。
图11是第9实施方式中的振幅确定部41的动作的说明图。如图11例示那样,第9实施方式的存储装置12进行存储的形状数据Wa表示单位频带B内的非谐波成分的振幅的分布。即,形状数据Wa所表示的振幅的分布不包含与谐波成分相对应的振幅的峰值。振幅确定部41与第7实施方式同样地,从存储装置12取得与由控制数据生成部31生成的控制数据C_n相对应的形状数据Wa。
如图11例示那样,振幅确定部41对关于第n个谐波成分所取得的形状数据Wa附加振幅峰值成分σ_n,由此生成该谐波成分的谐波振幅分布Da_n。振幅峰值成分σ_n例如是与谐波频率H_n的周期函数(例如正弦波)相对应的振幅的分布。相对于形状数据Wa所表示的非谐波成分的振幅的分布对振幅峰值成分σ_n进行合成,由此对谐波振幅分布Da_n进行确定。如根据以上的说明所理解那样,形状数据Wa所表示的振幅的分布是从谐波振幅分布Da去除振幅峰值成分σ_n后的形状。
与N个谐波成分分别对应的N个谐波振幅分布Da_1~Da_N针对每个单位期间进行确定。根据由振幅确定部41确定出的N个谐波振幅分布Da_1~Da_N和由相位确定部42确定出的N个谐波相位分布Dp_1~Dp_N而由频谱生成部34生成频谱Q的处理与第1实施方式相同。
在第9实施方式中也实现与第7实施方式相同的效果。另外,在第9实施方式中,对形状数据Wa附加振幅峰值成分σ_n而确定谐波振幅分布Da_n,因此关于谐波成分(振幅峰值成分σ_n)及非谐波成分这两者将振幅的分布与形状数据Wa所表示的结构相比较,具有形状数据Wa的数据量削减这一优点。
<变形例>
以下例示出对以上例示出的各方式附加的具体的变形方式。可以将从下面的例示中任意地选择出的大于或等于2个方式在不相互矛盾的范围适当地合并。
(1)可以将从第1实施方式以及第9实施方式选择出的大于或等于2个方式合并。例如,根据振幅谱包络Ea对相位谱包络Ep进行计算的第2实施方式的结构还应用于第7实施方式至第9实施方式。另外,也可以将第t个单位期间中的控制数据Ca_n包含第(t-1)个单位期间(第2单位期间的例示)的谐波振幅分布Da_n的第3实施方式的结构应用于第7实施方式至第9实施方式。将控制数据Ca_n包含其他谐波成分的谐波振幅分布Da_n-1的第4实施方式的结构应用于第7实施方式至第9实施方式。也可以将控制数据Cp_n包含谐波振幅分布Da_n的第5实施方式的结构应用于第7实施方式至第9实施方式。
可以将第1实施方式和第7实施方式合并。例如,还设想到下述结构,即,通过第1实施方式的第1训练好的模型32对谐波振幅分布Da_n进行确定,并且通过第7实施方式的相位确定部42对谐波相位分布Dp_n进行确定的结构,或者通过第7实施方式的振幅确定部41对谐波振幅分布Da_n进行确定,并且通过第1实施方式的第2训练好的模型33对谐波相位分布Dp_n进行确定的结构。
(2)在第2实施方式中,将根据振幅谱包络Ea进行计算的最小相位利用为相位谱包络Ep,但相位谱包络Ep并不限定于最小相位。例如,也可以将振幅谱包络Ea的频率微分利用为相位谱包络Ep。另外,也可以将不依赖于振幅谱包络Ea的数值系列(例如在全频率范围的规定值的系列)利用为相位谱包络Ep。此外,如果利用WaveNet等声码器,则根据由振幅谱包络Ea和N个谐波振幅分布Da_1~Da_N进行规定的振幅谱Qa而生成声音信号V。因此,相位谱Qp及相位谱包络Ep在声音信号V的生成时是不需要的。
(3)在第4实施方式中,例示出下述结构,即,与第n个谐波成分相对应的控制数据Ca_n包含位于该谐波成分的低频侧的谐波成分的谐波振幅分布Da_n-1的结构,但也可以将关于位于该谐波成分的高频侧的谐波成分而确定出的谐波振幅分布Da_n+1包含于控制数据Ca_n。
(4)例如可以通过经由移动体通信网或者互联网等通信网与终端装置(例如移动电话机或者智能手机)进行通信的服务器装置而实现声音合成装置100。具体地说,声音合成装置100通过针对从终端装置接收到的乐曲数据M的声音合成处理(图4或者图10)而生成声音信号V,将该声音信号V发送至终端装置。终端装置的放音装置对从声音合成装置100接收到的声音信号V所表示的声音进行播放。此外,也可以将由声音合成装置100的频谱生成部34生成的频谱Q发送至终端装置,在终端装置设置的波形合成部22根据频谱Q而生成声音信号V。即,从声音合成装置100省略波形合成部22。另外,也可以将由在终端装置设置的控制数据生成部31生成的控制数据C_n及控制数据Cp_n发送至声音合成装置100,将从终端装置接收到的控制数据C_n及根据控制数据Cp_n生成的声音信号V(或者频谱Q)从声音合成装置100发送至终端装置。即,从声音合成装置100省略控制数据生成部31。
(5)本发明的优选的方式利用于将任意种类的音进行合成。例如利用本发明的优选的方式,将自然乐器音、电子乐器音、电乐器音、由生物发出的音(例如动物或者虫的鸣叫声)或者效果音等各种音进行合成。
(6)前述的各方式所涉及的声音合成装置100如各方式中的例示那样,是通过计算机(具体地说是控制装置11)和程序的协同动作而实现的。前述的各方式所涉及的程序以储存于计算机可读取的记录介质中的方式提供而安装于计算机。记录介质例如是非易失性(non-transitory)的记录介质,优选例为CD-ROM等光学式记录介质(光盘),但包含半导体记录介质或者磁记录介质等公知的任意形式的记录介质。此外,非易失性的记录介质包含除了暂时性的传输信号(transitory、propagating signal)以外的任意的记录介质,并不是将易失性的记录介质排除在外。另外,也能够通过经由通信网的传送方式将程序提供给计算机。
(7)训练好的模型(第1训练好的模型32及第2训练好的模型33)是通过使控制装置11执行根据输入A而确定输出B的运算的程序(例如构成人工智能软件的程序模块)和应用于该运算的多个系数的组合而实现的。训练好的模型的多个系数通过利用了将输入A和输出B对应起来的多个教师数据的事先的机器学习(特别是深层学习)而进行优化。即,训练好的模型是对输入A和输出B之间的关系进行学习得到的统计模型。控制装置11通过将应用了训练好的多个系数和规定的响应函数的运算针对未知的输入A而执行,从而基于从多个教师数据提取的倾向(输入A和输出B之间的关系)而生成针对输入A在统计上妥当的输出B。此外,执行人工智能软件的主体并不限定于CPU。例如,也可以由Tensor Processing Unit及Neural Engine等NN用的处理电路或者人工智能专用的DSP(DigitalSignalProcessor)执行人工智能软件。另外,也可以是从以上的例示选择出的多种处理电路协同动作而执行人工智能软件。
(8)根据以上例示出的方式,例如掌握下面的结构。
本发明的优选的方式(第1方式)所涉及的声音合成方法,其关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱。在以上的方式中,与目标音质、振幅谱包络和谐波成分的谐波频率相应地对针对每个谐波成分的谐波振幅分布进行确定,根据多个谐波振幅分布而生成目标音质的声音的频谱。因此,与合成标准的音质的声音合成后对该声音的音质进行变换的专利文献1的技术相比较具有合成处理得到简化这一优点。
在第1方式的优选例(第2方式)中,在所述谐波振幅分布的确定中,通过对包含目标音质、谐波频率和振幅谱包络在内的第1控制数据与谐波振幅分布之间的关系进行学习得到的第1训练好的模型,对所述谐波振幅分布进行确定。在以上的方式中,通过对包含目标音质、谐波频率和振幅谱包络在内的第1控制数据与谐波振幅分布之间的关系进行学习得到的第1训练好的模型,对各谐波成分的谐波振幅分布进行确定。因此,与利用将第1控制数据和谐波振幅分布对应起来的参照表而确定谐波振幅分布的结构相比较,具有能够适当地确定与未知的第1控制数据相对应的谐波振幅分布这一优点。
在第2方式的优选例(第3方式)中,针对每个单位期间对所述多个谐波振幅分布进行确定,所述第1控制数据是用于对第1单位期间中的各谐波成分的谐波振幅分布进行确定的数据,包含有在所述第1单位期间的紧跟其前的第2单位期间中关于该谐波成分而确定出的谐波振幅分布。在以上的方式中,第1单位期间中的第1控制数据包含有在紧跟其前的第2单位期间中确定出的谐波振幅分布,因此具有下述优点,即,能够确定反映出与各谐波成分相对应的谐波振幅分布的时间性的变化的倾向的适当的谐波振幅分布的时间序列。
在第2方式或者第3方式的优选例(第4方式)中,所述第1控制数据是用于对所述多个谐波成分中的第1谐波成分的谐波振幅分布进行确定的数据,包含关于在频率轴上与所述第1谐波成分相邻的第2谐波成分而确定出的谐波振幅分布。在以上的方式中,用于对第1谐波成分的谐波振幅分布进行确定的第1控制数据包含关于在频率轴上与第1谐波成分相邻的第2谐波成分而确定出的谐波振幅分布,因此具有下述优点,即,能够确定反映出在频率轴上相邻的谐波振幅分布的相关性的倾向的适当的谐波振幅分布。
在第2方式的优选例(第5方式)中,针对每个单位期间对所述多个谐波振幅分布进行确定,所述第1控制数据是用于对一个单位期间中的各谐波成分的谐波振幅分布进行确定的数据,包含:所述一个单位期间中的该谐波成分的谐波频率;以及除了所述一个单位期间以外的单位期间中的该谐波成分的谐波频率、或者所述一个单位期间前后的该谐波频率的变化量。根据以上的方式,具有能够确定反映出谐波频率的时间性的变化的倾向的适当的谐波振幅分布这一优点。
在第2方式至第5方式的任意者的优选例(第6方式)中,关于所述多个谐波成分中的各个谐波成分,与所述目标音质、所述振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对所述单位频带内的相位的分布即谐波相位分布进行确定,根据所述振幅谱包络及相位谱包络、和关于所述多个谐波成分分别确定出的多个谐波振幅分布及多个谐波相位分布,生成所述目标音质的声音的频谱。在以上的方式中,与目标音质和谐波成分的谐波频率及振幅谱包络相应地确定针对每个谐波成分的谐波相位分布,根据多个谐波振幅分布和多个谐波相位分布而生成目标音质的声音的频谱。因此,具有能够将相位谱适当的目标音质的声音进行合成这一优点。
在第6方式的优选例(第7方式)中,在所述谐波相位分布的确定中,通过对包含目标音质、谐波频率和振幅谱包络在内的第2控制数据与谐波相位分布之间的关系进行学习得到的第2训练好的模型,对所述谐波相位分布进行确定。在以上的方式中,通过对包含目标音质、谐波频率和振幅谱包络在内的第2控制数据与谐波相位分布之间的关系进行学习得到的第2训练好的模型对各谐波成分的谐波相位分布进行确定。因此,与利用将第2控制数据和谐波相位分布对应起来的参照表而对谐波相位分布进行确定的结构相比较,具有能够适当地确定与未知的第2控制数据相对应的谐波相位分布这一优点。
在第7方式的优选例(第8方式)中,根据目标音质、谐波频率、振幅谱包络和通过所述第1训练好的模型确定出的谐波振幅分布,通过所述第2训练好的模型对所述谐波相位分布进行确定。根据以上的方式,具有能够确定反映出谐波振幅分布和谐波相位分布的相关性的倾向的适当的谐波相位分布这一优点。
在第6方式至第8方式的任意者的优选例(第9方式)中,所述相位谱包络是根据所述振幅谱包络进行计算的。在以上的方式中,根据振幅谱包络对相位谱包络进行计算,因此具有生成相位谱包络的处理得到简化这一优点。
在第1方式的优选例(第10方式)中,在所述谐波振幅分布的确定中,从将表示所述单位频带内的振幅的分布的形状数据与包含目标音质、谐波频率和振幅谱包络在内的控制数据对应地存储的存储装置,取得与所述多个谐波成分各自的控制数据相对应的形状数据,根据该形状数据对所述谐波成分的谐波振幅分布进行确定。在以上的方式中,从与控制数据对应地存储形状数据的存储装置取得与各谐波成分的控制数据相对应的形状数据而对谐波振幅分布进行确定。因此,具有能够简便地对与控制数据相对应的谐波振幅分布进行确定这一优点。
在第10方式的优选例(第11方式)中,在所述谐波振幅分布的确定中,通过在所述存储装置中存储的多个形状数据的插补,关于所述多个谐波成分中的各个谐波成分对谐波振幅分布进行确定。在以上的方式中,通过在存储装置中存储的多个形状数据的插补对各谐波成分的谐波振幅分布进行确定,因此具有能够削减在存储装置中存储的形状数据的个数这一优点。
在第10方式的优选例(第12方式)中,所述形状数据表示所述单位频带中的非谐波成分的振幅的分布,在所述谐波振幅分布的确定中,关于所述多个谐波成分中的各个谐波成分,对从所述存储装置取得的形状数据附加与该谐波成分的谐波频率相对应的振幅峰值成分,由此生成该谐波成分的谐波振幅分布。在以上的方式中,通过对形状数据附加振幅峰值成分而确定谐波振幅分布,因此具有能够削减形状数据的数据量这一优点。
在第1方式至第12方式的任意者的优选例(第13方式)中,所述谐波振幅分布是振幅相对于与各谐波成分相对应的代表振幅的相对值分布。在以上的方式中,谐波振幅分布是振幅相对于代表振幅的相对值的分布,因此具有与代表振幅的高低无关地能够生成适当的频谱这一优点。
本发明的优选的方式(第14方式)所涉及的声音合成装置具有大于或等于1个处理器,所述大于或等于1个处理器通过执行在存储器中存储的指示,从而关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱。在以上的方式中,与目标音质、振幅谱包络和谐波成分的谐波频率相应地对针对每个谐波成分的谐波振幅分布进行确定,根据多个谐波振幅分布而生成目标音质的声音的频谱。因此,与合成标准的音质的声音后对该声音的音质进行变换的专利文献1的技术相比较,具有合成处理得到简化这一优点。
本发明的优选的方式(第15方式)所涉及的记录介质记录有程序,该程序使计算机执行下述处理:关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定(例如图4的步骤Sa3或者图10的步骤Sb3);以及根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱(例如图4或者图10的步骤Sa6)。在以上的方式中,与目标音质、振幅谱包络和谐波成分的谐波频率相应地确定针对每个谐波成分的谐波振幅分布,根据多个谐波振幅分布而生成目标音质的声音的频谱。因此,与在将标准的音质的声音进行合成后对该声音的音质进行变换的专利文献1的技术相比较而具有合成处理得到简化这一优点。
标号的说明
100…声音合成装置,11…控制装置,12…存储装置,13…放音装置,21…谐波处理部,22…波形合成部,31…控制数据生成部,311…相位计算部,32…第1训练好的模型,33…第2训练好的模型,34…频谱生成部,41…振幅确定部,42…相位确定部。
Claims (16)
1.一种声音合成方法,其是由计算机实现的,
关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,
根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱。
2.根据权利要求1所述的声音合成方法,其中,
在所述谐波振幅分布的确定中,通过对包含目标音质、谐波频率和振幅谱包络在内的第1控制数据与谐波振幅分布之间的关系进行学习得到的第1训练好的模型,对所述谐波振幅分布进行确定。
3.根据权利要求2所述的声音合成方法,其中,
针对每个单位期间对所述多个谐波振幅分布进行确定,
所述第1控制数据是用于对第1单位期间中的各谐波成分的谐波振幅分布进行确定的数据,包含有在所述第1单位期间的紧跟其前的第2单位期间中关于该谐波成分而确定出的谐波振幅分布。
4.根据权利要求2所述的声音合成方法,其中,
所述第1控制数据是用于对所述多个谐波成分中的第1谐波成分的谐波振幅分布进行确定的数据,包含关于在频率轴上与所述第1谐波成分相邻的第2谐波成分而确定出的谐波振幅分布。
5.根据权利要求3所述的声音合成方法,其中,
所述第1控制数据是用于对所述多个谐波成分中的第1谐波成分的谐波振幅分布进行确定的数据,包含关于在频率轴上与所述第1谐波成分相邻的第2谐波成分而确定出的谐波振幅分布。
6.根据权利要求2所述的声音合成方法,其中,
针对每个单位期间对所述多个谐波振幅分布进行确定,
所述第1控制数据是用于对一个单位期间中的各谐波成分的谐波振幅分布进行确定的数据,
所述第1控制数据包含:
所述一个单位期间中的该谐波成分的谐波频率;以及
除了所述一个单位期间以外的单位期间中的该谐波成分的谐波频率、或者所述一个单位期间前后的该谐波频率的变化量。
7.根据权利要求2至6中任一项所述的声音合成方法,其中,
关于所述多个谐波成分中的各个谐波成分,与所述目标音质、所述振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对所述单位频带内的相位的分布即谐波相位分布进行确定,
根据所述振幅谱包络及相位谱包络、和关于所述多个谐波成分分别确定出的多个谐波振幅分布及多个谐波相位分布,生成所述目标音质的声音的频谱。
8.根据权利要求7所述的声音合成方法,其中,
在所述谐波相位分布的确定中,通过对包含目标音质、谐波频率和振幅谱包络在内的第2控制数据与谐波相位分布之间的关系进行学习得到的第2训练好的模型,对所述谐波相位分布进行确定。
9.根据权利要求8所述的声音合成方法,其中,
在所述谐波相位分布的确定中,根据目标音质、谐波频率、振幅谱包络和通过所述第1训练好的模型确定出的谐波振幅分布,通过所述第2训练好的模型对所述谐波相位分布进行确定。
10.根据权利要求7所述的声音合成方法,其中,
所述相位谱包络是根据所述振幅谱包络进行计算的。
11.根据权利要求1所述的声音合成方法,其中,
在所述谐波振幅分布的确定中,从将表示所述单位频带内的振幅的分布的形状数据与包含目标音质、谐波频率和振幅谱包络在内的控制数据对应地存储的存储装置,取得与所述多个谐波成分各自的控制数据相对应的形状数据,根据该形状数据对所述谐波成分的谐波振幅分布进行确定。
12.根据权利要求11所述的声音合成方法,其中,
在所述谐波振幅分布的确定中,通过在所述存储装置中存储的多个形状数据的插补,关于所述多个谐波成分中的各个谐波成分对谐波振幅分布进行确定。
13.根据权利要求11所述的声音合成方法,其中,
所述形状数据表示所述单位频带中的非谐波成分的振幅的分布,
在所述谐波振幅分布的确定中,关于所述多个谐波成分中的各个谐波成分,对从所述存储装置取得的形状数据附加与该谐波成分的谐波频率相对应的振幅峰值成分,由此生成该谐波成分的谐波振幅分布。
14.根据权利要求1至6中任一项所述的声音合成方法,其中,
所述谐波振幅分布是振幅相对于与各谐波成分相对应的代表振幅的相对值分布。
15.一种声音合成装置,其具有大于或等于1个处理器,
在所述声音合成装置中,
所述大于或等于1个处理器通过执行在存储器中存储的指示,从而关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定,
根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱。
16.一种计算机可读取的记录介质,其记录有程序,该程序使计算机执行下述处理:
关于多个谐波成分中的各个谐波成分,与目标音质、振幅谱包络和关于该谐波成分指示出的谐波频率相应地,对包含与该谐波成分相对应的峰值在内的单位频带内的振幅的分布即谐波振幅分布进行确定;以及
根据所述振幅谱包络和关于所述多个谐波成分分别确定出的多个谐波振幅分布,生成所述目标音质的声音的频谱。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018002451A JP6724932B2 (ja) | 2018-01-11 | 2018-01-11 | 音声合成方法、音声合成システムおよびプログラム |
JP2018-002451 | 2018-01-11 | ||
PCT/JP2018/047757 WO2019138871A1 (ja) | 2018-01-11 | 2018-12-26 | 音声合成方法、音声合成装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111542875A CN111542875A (zh) | 2020-08-14 |
CN111542875B true CN111542875B (zh) | 2023-08-11 |
Family
ID=67219548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880085358.5A Active CN111542875B (zh) | 2018-01-11 | 2018-12-26 | 声音合成方法、声音合成装置及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11094312B2 (zh) |
EP (1) | EP3739571A4 (zh) |
JP (1) | JP6724932B2 (zh) |
CN (1) | CN111542875B (zh) |
WO (1) | WO2019138871A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020194098A (ja) * | 2019-05-29 | 2020-12-03 | ヤマハ株式会社 | 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 |
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
CN111429881B (zh) * | 2020-03-19 | 2023-08-18 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN112634914B (zh) * | 2020-12-15 | 2024-03-29 | 中国科学技术大学 | 基于短时谱一致性的神经网络声码器训练方法 |
CN112820267B (zh) * | 2021-01-15 | 2022-10-04 | 科大讯飞股份有限公司 | 波形生成方法以及相关模型的训练方法和相关设备、装置 |
CN113423005B (zh) * | 2021-05-18 | 2022-05-03 | 电子科技大学 | 一种基于改进神经网络的智能音乐生成方法及系统 |
CN113889073B (zh) * | 2021-09-27 | 2022-10-18 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
WO2023068228A1 (ja) * | 2021-10-18 | 2023-04-27 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5987413A (en) * | 1996-06-10 | 1999-11-16 | Dutoit; Thierry | Envelope-invariant analytical speech resynthesis using periodic signals derived from reharmonized frame spectrum |
CN1591575A (zh) * | 1995-10-26 | 2005-03-09 | 索尼公司 | 合成语音的方法和装置 |
CN1658281A (zh) * | 2004-02-20 | 2005-08-24 | 雅马哈株式会社 | 语音合成装置、方法和记录语音合成程序的记录介质 |
CN102227770A (zh) * | 2009-07-06 | 2011-10-26 | 松下电器产业株式会社 | 音质变换装置、音高变换装置及音质变换方法 |
EP2881947A1 (en) * | 2012-08-01 | 2015-06-10 | National Institute Of Advanced Industrial Science | Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
JP3815347B2 (ja) * | 2002-02-27 | 2006-08-30 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
KR100446242B1 (ko) * | 2002-04-30 | 2004-08-30 | 엘지전자 주식회사 | 음성 부호화기에서 하모닉 추정 방법 및 장치 |
JP4456537B2 (ja) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | 情報伝達装置 |
KR100827153B1 (ko) * | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
JP4209461B1 (ja) * | 2008-07-11 | 2009-01-14 | 株式会社オトデザイナーズ | 合成音声作成方法および装置 |
JP5772739B2 (ja) * | 2012-06-21 | 2015-09-02 | ヤマハ株式会社 | 音声処理装置 |
-
2018
- 2018-01-11 JP JP2018002451A patent/JP6724932B2/ja active Active
- 2018-12-26 WO PCT/JP2018/047757 patent/WO2019138871A1/ja unknown
- 2018-12-26 EP EP18899045.1A patent/EP3739571A4/en not_active Withdrawn
- 2018-12-26 CN CN201880085358.5A patent/CN111542875B/zh active Active
-
2020
- 2020-07-09 US US16/924,463 patent/US11094312B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1591575A (zh) * | 1995-10-26 | 2005-03-09 | 索尼公司 | 合成语音的方法和装置 |
US5987413A (en) * | 1996-06-10 | 1999-11-16 | Dutoit; Thierry | Envelope-invariant analytical speech resynthesis using periodic signals derived from reharmonized frame spectrum |
CN1658281A (zh) * | 2004-02-20 | 2005-08-24 | 雅马哈株式会社 | 语音合成装置、方法和记录语音合成程序的记录介质 |
CN102227770A (zh) * | 2009-07-06 | 2011-10-26 | 松下电器产业株式会社 | 音质变换装置、音高变换装置及音质变换方法 |
EP2881947A1 (en) * | 2012-08-01 | 2015-06-10 | National Institute Of Advanced Industrial Science | Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis |
Non-Patent Citations (1)
Title |
---|
慈艳柯.FM声音合成芯片的优化设计与实现.《宁波工程学院学报 》.中国知网,2010,第22卷(第3期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
US20200342848A1 (en) | 2020-10-29 |
WO2019138871A1 (ja) | 2019-07-18 |
CN111542875A (zh) | 2020-08-14 |
JP6724932B2 (ja) | 2020-07-15 |
EP3739571A1 (en) | 2020-11-18 |
JP2019120892A (ja) | 2019-07-22 |
US11094312B2 (en) | 2021-08-17 |
EP3739571A4 (en) | 2021-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111542875B (zh) | 声音合成方法、声音合成装置及存储介质 | |
CN111418005B (zh) | 声音合成方法、声音合成装置及存储介质 | |
JP5961950B2 (ja) | 音声処理装置 | |
CN109559718B (zh) | 电子乐器、电子乐器的乐音产生方法以及存储介质 | |
US20210375248A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
JP6737320B2 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
US20210366454A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
JP2013242410A (ja) | 音声処理装置 | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
CN111837183A (zh) | 声音处理方法、声音处理装置及记录介质 | |
WO2021060493A1 (ja) | 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置 | |
JP6977818B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
WO2020241641A1 (ja) | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
JP2009237590A (ja) | 音声効果付与装置 | |
RU2591640C1 (ru) | Способ модификации голоса и устройство для его осуществления (варианты) | |
CN118103905A (zh) | 音响处理方法、音响处理系统及程序 | |
JPWO2020171036A1 (ja) | 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム | |
JP2004287350A (ja) | 音声変換装置、音声効果付与装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |