CN112970058A - 信息处理方法及信息处理系统 - Google Patents
信息处理方法及信息处理系统 Download PDFInfo
- Publication number
- CN112970058A CN112970058A CN201980072848.6A CN201980072848A CN112970058A CN 112970058 A CN112970058 A CN 112970058A CN 201980072848 A CN201980072848 A CN 201980072848A CN 112970058 A CN112970058 A CN 112970058A
- Authority
- CN
- China
- Prior art keywords
- data
- sound
- style
- model
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 42
- 238000003672 processing method Methods 0.000 title claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 111
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 111
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000010801 machine learning Methods 0.000 claims abstract description 23
- 230000003595 spectral effect Effects 0.000 claims description 25
- 239000000203 mixture Substances 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 22
- 238000011156 evaluation Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 7
- 239000011295 pitch Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
- G10H1/14—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour during execution
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/002—Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/086—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/011—Files or data streams containing coded musical information, e.g. for transmission
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/081—Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/541—Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
- G10H2250/621—Waveform interpolation
- G10H2250/625—Interwave interpolation, i.e. interpolating between two different waveforms, e.g. timbre or pitch or giving one waveform the shape of another while preserving its frequency or vice versa
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Machine Translation (AREA)
Abstract
信息处理系统具有合成处理部,该合成处理部将表示歌唱者的歌唱者数据、表示歌唱风格的风格数据和表示歌唱条件的合成数据输入至通过机器学习而生成的合成模型,由此基于该发音风格及发音条件而生成表示应该由歌唱者发音的目标音的音响特征的特征数据。
Description
技术领域
本发明涉及对语音等音响进行合成的技术。
背景技术
以往提出了对任意音位的语音进行合成的语音合成技术。例如在专利文献1中公开了片段连接型的语音合成技术,其通过将多个语音片段之中的与目标的音位相应地选择出的语音片段相互地连接,从而生成音(以下称为“目标音”)。
专利文献1:日本特开2007-240564号公报
发明内容
近年的语音合成技术中,要求对由多样的发声者通过多样的发音风格发音的目标音进行合成。但是,为了通过片段连接型的语音合成技术应对以上的要求,需要针对发声者和发音风格的每个组合而单独地准备多个语音片段的集合。因此,存在为了准备语音片段而需要过大的工作量这样的问题。考虑以上的情况,本发明的一个方式的目的在于,不需要语音片段,生成使发音源(例如发声者)和发音风格的组合存在差异的多样的目标音。
为了解决以上的课题,本发明的一个方式所涉及的信息处理方法将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。
本发明的一个方式所涉及的信息处理系统具有合成处理部,该合成处理部将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。
本发明的一个方式所涉及的信息处理系统具有大于或等于1个处理器和大于或等于1个存储器,通过执行在所述大于或等于1个存储器中存储的程序,所述大于或等于1个处理器将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的音响的音响特征的特征数据。
附图说明
图1是例示实施方式所涉及的信息处理系统的结构的框图。
图2是例示信息处理系统的功能结构的框图。
图3是例示合成处理的具体顺序的流程图。
图4是学习处理的说明图。
图5的例示学习处理的具体顺序的流程图。
图6是补充处理的说明图。
图7是例示补充处理的具体顺序的流程图。
图8是例示第2实施方式中的合成模型的结构的框图。
图9是例示第3实施方式中的合成模型的结构的框图。
图10是变形例中的合成处理的说明图。
具体实施方式
<第1实施方式>
图1是例示第1实施方式所涉及的信息处理系统100的结构的框图。信息处理系统100是对由特定的歌唱者通过特定的歌唱风格虚拟地歌唱乐曲而发出的语音(以下称为“目标音”)进行生成的语音合成装置。歌唱风格(发音风格的例示)是指与例如歌唱方式相关的特征。例如与说唱(rap)、R&B(rhythm and blues)或者朋克(punk)等各种音乐类型的乐曲相适合的歌唱方式是歌唱风格的具体例。
第1实施方式的信息处理系统100是通过具有控制装置11、存储装置12、输入装置13和放音装置14的计算机系统实现的。例如移动电话、智能手机或者个人计算机等信息终端被利用为信息处理系统100。此外,信息处理系统100除了作为单体装置而实现以外,还可以通过相互地分体构成的多个装置的集合而实现。
控制装置11由对信息处理系统100的各要素进行控制的单个或者多个处理器构成。例如,控制装置11由CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)或者ASIC(Application Specific Integrated Circuit)等大于或等于1种的处理器构成。
输入装置13接收由利用者进行的操作。例如由利用者进行操作的操作件、或者对利用者的接触进行检测的触摸面板被利用为输入装置13。另外,也可以将能够语音输入的拾音装置利用为输入装置13。放音装置14对与来自控制装置11的指示相对应的音响进行播放。例如扬声器或者耳机是放音装置14的典型例。
存储装置12例如是由磁记录介质或者半导体记录介质等公知的记录介质构成的单个或者多个存储器,对由控制装置11执行的程序和由控制装置11使用的各种数据进行存储。此外,也可以通过多种记录介质的组合而构成存储装置12。另外,也可以将能够相对于信息处理系统100装卸的移动式记录介质、或者能够经由通信网与信息处理系统100通信的外部记录介质(例如在线储存器)利用为存储装置12。第1实施方式的存储装置12对多个(Na个)歌唱者数据Xa、多个(Nb个)风格数据Xb和合成数据Xc进行存储(Na及Nb各自为大于或等于2的自然数)。此外,歌唱者数据Xa的个数Na和风格数据Xb的个数Nb可以相同也可以不同。
第1实施方式的存储装置12对与不同的歌唱者相对应的Na个歌唱者数据Xa(发音源数据的例示)进行存储。各歌唱者的歌唱者数据Xa是表示由该歌唱者发音的歌唱音的音响特征(例如音质)的数据。第1实施方式的歌唱者数据Xa是多维的第1空间中的嵌入向量(embedding vector)。第1空间是与歌唱音的音响特征相应地决定空间内的各歌唱者的位置的连续空间。在歌唱者之间歌唱音的音响特征越类似,则第1空间内的该歌唱者之间的向量的距离成为越小的数值。如根据以上的说明所理解那样,第1空间表现为对与歌唱音的特征相关的歌唱者之间的关系进行表示的空间。利用者通过适当地操作输入装置13,从而对在存储装置12中存储的Na个歌唱者数据Xa的任意者的数据(即,期望的歌唱者的数据)进行选择。此外,关于歌唱者数据Xa的生成在后面记述。
第1实施方式的存储装置12对与不同的歌唱风格相对应的Nb个风格数据Xb进行存储。各歌唱风格的风格数据Xb是表示通过该歌唱风格进行发音的歌唱音的音响特征的数据。第1实施方式的风格数据Xb是多维的第2空间中的嵌入向量。第2空间是与歌唱音的音响特征相应地决定空间内的各歌唱风格的位置的连续空间。在歌唱风格之间歌唱音的音响特征越类似,则第2空间内的该歌唱风格之间的向量的距离成为越小的数值。即,如根据以上的说明所理解那样,第2空间表现为对与歌唱音的特征相关的歌唱风格之间的关系进行表示的空间。利用者通过适当地操作输入装置13,从而对在存储装置12中存储的Nb个风格数据Xb的任意者的数据(即期望的歌唱风格的数据)进行选择。关于风格数据Xb的生成在后面记述。
合成数据Xc对目标音的歌唱条件进行指定。第1实施方式的合成数据Xc是对于构成乐曲的多个音符分别指定音高、音位(发音文字)和发音期间的时间序列数据。合成数据Xc可以指定每个音符的音量等控制参数的数值。例如依照MIDI(Musical InstrumentDigital Interface)标准的格式的文件(SMF:Standard MIDI File)被利用为合成数据Xc。
图2是例示通过由控制装置11执行在存储装置12中存储的程序而实现的功能的框图。第1实施方式的控制装置11实现合成处理部21、信号生成部22和学习处理部23。此外,也可以通过相互地分体构成的多个装置而实现控制装置11的功能。可以将控制装置11的功能的一部分或者全部由专用的电子电路实现。
<合成处理部21及信号生成部22>
合成处理部21生成表示目标音的音响特征的特征数据Q的时间序列。第1实施方式的特征数据Q例如包含目标音的基本频率(音调)Qa和频谱包络Qb。频谱包络Qb是目标音的频谱的概略形状。特征数据Q是以每个规定长度(例如5毫秒)的单位期间而依次生成的。即,第1实施方式的合成处理部21生成基本频率Qa的时间序列和频谱包络Qb的时间序列。
信号生成部22根据特征数据Q的时间序列而生成音响信号V。在利用特征数据Q的时间序列而生成音响信号V时,例如利用公知的声码器技术。具体地说,信号生成部22相应于频谱包络Qb,调整与基本频率Qa对应的频谱中的每个频率的强度,将调整后的频谱变换为时间区域,由此生成音响信号V。由信号生成部22生成的音响信号V供给至放音装置14,由此目标音作为声波而从放音装置14进行辐射。此外,将音响信号V从信号变换为模拟信号的D/A变换器的图示为了方便起见而进行了省略。
在第1实施方式中,在通过合成处理部21进行的特征数据Q的生成时利用合成模型M。合成处理部21将输入数据Z输入至合成模型M。输入数据Z包含:Na个歌唱者数据Xa之中的由利用者选择出的歌唱者数据Xa、Nb个风格数据Xb之中的由利用者选择出的风格数据Xb和在存储装置12中存储的合成数据Xc。
合成模型M是对输入数据Z和特征数据Q的关系进行了学习的统计性预测模型。第1实施方式的合成模型M由深层神经网络(DNN:Deep Neural Network)构成。具体地说,合成模型M是通过使控制装置11执行根据输入数据Z而生成特征数据Q这一运算的程序(例如构成人工智能软件的程序模块)和应用于该运算的多个系数的组合而实现的。对合成模型M进行规定的多个系数由利用了多个学习数据的机器学习(特别是深层学习)进行设定而保存于存储装置12。关于合成模型M的机器学习在后面记述。
图3是例示由第1实施方式的控制装置11生成音响信号V的处理(以下称为“合成处理”)的具体顺序的流程图。例如以来自利用者的针对输入装置13的指示为契机而开始合成处理。
如果开始合成处理,则合成处理部21从利用者接收歌唱者数据Xa及风格数据Xb的选择(Sa1)。在与不同的乐曲相对应的多个合成数据Xc存储于存储装置12的情况下,合成处理部21可以从利用者接收对合成数据Xc的选择。合成处理部21通过将包含由利用者选择出的歌唱者数据Xa及风格数据Xb和在存储装置12中存储的合成数据Xc在内的输入数据Z输入至合成模型M,从而生成特征数据Q的时间序列(Sa2)。信号生成部22根据由合成处理部21生成的特征数据Q的时间序列而生成音响信号V(Sa3)。
如以上说明所述,在第1实施方式中,通过将歌唱者数据Xa、风格数据Xb和合成数据Xc输入至合成模型M,从而生成特征数据Q。因此,不需要语音片段就能够生成目标音。另外,在歌唱者数据Xa和合成数据Xc的基础上将风格数据Xb输入至合成模型M。因此,与生成与歌唱者数据Xa和合成数据Xc相对应的特征数据Q的结构相比较,存在下述优点,即,不必针对每个歌唱风格而准备歌唱者数据Xa,就能够生成与歌唱者和歌唱风格的组合相对应的多样的语音的特征数据Q。例如,通过对与歌唱者数据Xa一同选择的风格数据Xb进行变更,从而能够生成由特定的歌唱者通过不同的多种歌唱风格而发音出的目标音的特征数据Q。另外,通过对与风格数据Xb一同选择的歌唱者数据Xa进行变更,从而能够生成由多个歌唱者各自通过共通的歌唱风格而发音出的目标音的特征数据Q。
<学习处理部23>
图2的学习处理部23通过机器学习而生成合成模型M。通过学习处理部23进行机器学习后的合成模型M被利用于图3中的特征数据Q的生成(以下称为“推定处理”)Sa2。图4是用于说明通过学习处理部23进行的机器学习的框图。在合成模型M的机器学习时利用多个学习数据L。多个学习数据L存储于存储装置12。另外,在机器学习的结束判定中利用的评价用的学习数据(以下称为“评价用数据”)L也存储于存储装置12。
多个学习数据L各自包含识别信息Fa、识别信息Fb、合成数据Xc和音响信号V。识别信息Fa是用于对特定的歌唱者进行识别的数值列。例如,将与不同的歌唱者相对应的多个要素之中的与特定的歌唱者相对应的要素设定为数值1、将剩余的要素设定为数值0的one-hot表现的数值列,被利用为该特定的歌唱者的识别信息Fa。另外,识别信息Fb是用于对特定的歌唱风格进行识别的数值列。例如,将与不同的歌唱风格相对应的多个要素之中的与特定的歌唱风格相对应的要素设定为数值1、将剩余的要素设定为数值0的one-hot表现的数值列,被利用为该特定的歌唱风格的识别信息Fb。此外,关于识别信息Fa或者识别信息Fb,也可以采用对one-hot表现中的数值1和数值0进行了置换的one-cold表现。识别信息Fa、识别信息Fb和合成数据Xc的组合针对每个学习数据L而存在差异。但是,对于大于或等于2个学习数据L,识别信息Fa、识别信息Fb和合成数据Xc的一部分也可以是共通的。
任意的1个学习数据L所包含的音响信号V,是表示由识别信息Fa所表示的歌唱者通过识别信息fb所表示的歌唱风格对合成数据Xc所表示的乐曲进行歌唱的情况下的歌唱音的波形的信号。例如通过对由歌唱者实际发音出的歌唱音进行收录而事先准备音响信号V。
第1实施方式的学习处理部23将编码模型Ea及编码模型Eb与作为机器学习的原本目的的合成模型M一并进行训练。编码模型Ea是将歌唱者的识别信息Fa变换为该歌唱者的歌唱者数据Xa的编码器。编码模型Eb是将歌唱风格的识别信息Fb变换为该歌唱风格的风格数据Xb的编码器。编码模型Ea及编码模型Eb由例如深层神经网络构成。由编码模型Ea生成的歌唱者数据Xa、由编码模型Eb生成的风格数据Xb和学习数据L的合成数据Xc供给至合成模型M。如前所述,合成模型M输出与歌唱者数据Xa、风格数据Xb和合成数据Xc相对应的特征数据Q的时间序列。
特征解析部24根据各学习数据L的音响信号V而生成特征数据Q。特征数据Q包含例如基本频率Qa和频谱包络Qb。特征数据Q的生成是以每个规定长度(例如5毫秒)的单位期间反复进行的。即,特征解析部24根据音响信号V而生成基本频率Qa的时间序列和频谱包络Qb的时间序列。特征数据Q相当于与合成模型M的输出相关的已知的正确值。
学习处理部23针对合成模型M、编码模型Ea和编码模型Eb,分别反复地对多个系数进行更新。图5是例示由学习处理部23执行的处理(以下称为“学习处理”)的具体顺序的流程图。例如以来自利用者的针对输入装置13的指示为契机而开始学习处理。
如果开始学习处理,则学习处理部23对在存储装置12中存储的多个学习数据L的任意者进行选择(Sb1)。学习处理部23将从存储装置12选择出的学习数据L的识别信息Fa输入至暂定的编码模型Ea,并且将该学习数据L的识别信息Fb输入至暂定的编码模型Eb(Sb2)。编码模型Ea生成与识别信息Fa相对应的歌唱者数据Xa。编码模型Eb生成与识别信息Fb相对应的风格数据Xb。
学习处理部23将包含由编码模型Ea生成的歌唱者数据Xa及由编码模型Eb生成的风格数据Xb和学习数据L的合成数据Xc在内的输入数据Z输入至暂定的合成模型M(Sb3)。合成模型M生成与输入数据Z相对应的特征数据Q。
学习处理部23对评价函数进行计算,该评价函数表示由合成模型M生成的特征数据Q和根据学习数据L的音响信号V而由特征解析部24生成的特征数据Q(即,正确值)的误差(Sb4)。例如向量间距离或者交叉熵等指标被利用为评价函数。学习处理部23对合成模型M、编码模型Ea和编码模型Eb各自的多个系数进行更新,以使得评价函数接近规定值(典型情况为零)(Sb5)。在与评价函数相对应的多个系数的更新时利用例如误差反向传播法。
学习处理部23对是否以规定次数反复进行了以上说明的更新处理(Sb2~Sb5)进行判定(Sb61)。在更新处理的反复次数低于规定值的情况下(Sb61:NO),学习处理部23在从存储装置12选择接下来的学习数据L(Sb1)后,针对该学习数据L执行更新处理(Sb2~Sb5)。即,针对多个学习数据L分别反复进行更新处理。
在更新处理(Sb2~Sb5)的次数达到规定值的情况下(Sb61:YES),学习处理部23对由更新处理后的合成模型M生成的特征数据Q是否达到规定品质进行判定(Sb62)。在评价特征数据Q的品质时利用在存储装置12中存储的前述的评价用数据L。具体地说,学习处理部23对由合成模型M根据评价用数据L生成的特征数据Q和根据评价用数据L的音响信号V由特征解析部24生成的特征数据Q(正确值)的误差进行计算。学习处理部23与特征数据Q间的误差是否低于规定的阈值相应地,对特征数据Q是否达到规定品质进行判定。
在特征数据Q没有达到规定品质的情况下(Sb62:NO),学习处理部23开始反复进行规定次数的更新处理(Sb2~Sb5)。如根据以上的说明所理解那样,在每次反复进行规定次数的更新处理时对特征数据Q的品质进行评价。在特征数据Q达到规定品质的情况下(Sb62:YES),学习处理部23将该时刻的合成模型M确定为最终的合成模型M(Sb7)。即,最新的更新后的多个系数存储于存储装置12。通过以上的顺序确定出的训练好的合成模型M被利用于前述的推定处理Sa2。
如根据以上的说明所理解那样,训练好的合成模型M基于在与各学习数据L相对应的输入数据Z和与该学习数据L的音响信号V相对应的特征数据Q之间潜在的倾向,能够针对未知的输入数据Z而生成在统计上妥当的特征数据Q。即,合成模型M对输入数据Z和特征数据Q之间的关系进行学习。
另外,编码模型Ea对识别信息Fa和歌唱者数据Xa之间的关系进行学习,以使得合成模型M能够根据输入数据Z而生成在统计上妥当的特征数据Q。学习处理部23通过将Na个识别信息Fa各自依次输入至训练好的编码模型Ea,从而生成Na个歌唱者数据Xa(Sb8)。按照以上的顺序由编码模型Ea生成的Na个歌唱者数据Xa用于推定处理Sa2而存储于存储装置12。在存储有Na个歌唱者数据Xa的阶段,不需要训练好的编码模型Ea。
同样地,编码模型Eb对识别信息Fb和风格数据Xb之间的关系进行学习,以使得合成模型M能够根据输入数据Z而生成在统计上妥当的特征数据Q。学习处理部23通过将Nb个识别信息Fb各自依次输入至训练好的编码模型Eb,从而生成Nb个风格数据Xb(Sb9)。按照以上的顺序由编码模型Eb生成的Nb个风格数据Xb用于推定处理Sa2而存储于存储装置12。在存储有Nb个风格数据Xb的阶段,不需要训练好的编码模型Eb。
<新的歌唱者的歌唱者数据Xa的生成>
如果利用训练好的编码模型Ea而生成了Na个歌唱者数据Xa,则不需要该编码模型Ea。因此,编码模型Ea在Na个歌唱者数据Xa生成后被废弃。但是,关于没有生成歌唱者数据Xa的新的歌唱者(以下称为“新歌唱者”),有可能事后需要生成歌唱者数据Xa。第1实施方式的学习处理部23利用与新歌唱者相对应的多个学习数据Lnew和训练好的合成模型M,生成新歌唱者的歌唱者数据Xa。
图6是由学习处理部23生成新歌唱者的歌唱者数据Xa的处理(以下称为“补充处理”)的说明图。多个学习数据Lnew各自包含对由新歌唱者通过特定的歌唱风格歌唱乐曲时的歌唱音进行表示的音响信号V和该乐曲的合成数据Xc(新合成数据的一个例子)。学习数据Lnew的音响信号V是通过对由新歌唱者实际发音出的歌唱音进行收录而事先准备的。特征解析部24根据各学习数据Lnew的音响信号V而生成特征数据Q的时间序列。另外,歌唱者数据Xa作为学习对象的变量而供给至合成模型M。
图7是例示补充处理的具体顺序的流程图。如果开始补充处理,则学习处理部23对在存储装置12中存储的多个学习数据Lnew的任意者进行选择(Sc1)。学习处理部23将设定为初始值的歌唱者数据Xa(新发音源数据的一个例子)、与新歌唱者的歌唱风格相对应的已有的风格数据Xb和从存储装置12选择出的学习数据Lnew的合成数据Xc输入至训练好的合成模型M(Sc2)。歌唱者数据Xa的初始值例如设定为随机数。合成模型M生成与风格数据Xb和合成数据Xc相对应的特征数据Q(新特征数据的一个例子)。
学习处理部23对评价函数进行计算,该评价函数表示由合成模型M生成的特征数据Q和根据学习数据Lnew的音响信号V而由特征解析部24生成的特征数据Q(即,正确值)的误差(Sc3)。由特征解析部24生成的特征数据Q是“已知特征数据”的一个例子。学习处理部23对歌唱者数据Xa和合成模型M的多个系数进行更新,以使得评价函数接近规定值(典型情况为零)(Sc4)。此外,也可以在将合成模型M的多个系数固定不变的情况下,对歌唱者数据Xa进行更新以使得评价函数接近规定值。
学习处理部23对是否反复进行了规定次数以上说明的追加更新(Sc2~Sc4)进行判定(Sc51)。在追加更新的次数低于规定值的情况下(Sc51:NO),学习处理部23在从存储装置12选择接下来的学习数据Lnew后(Sc1),针对该学习数据Lnew而执行追加更新(Sc2~Sc4)。即,针对多个学习数据Lnew分别反复进行追加更新。
在追加更新(Sc2~Sc4)的次数达到规定值的情况下(Sc51:YES),学习处理部23对通过追加更新后的合成模型M生成的特征数据Q是否达到规定品质进行判定(Sc52)。在特征数据Q的品质的评价时与前述的例示同样地利用评价用数据L。在特征数据Q没有达到规定品质的情况下(Sc52:NO),学习处理部23开始遍及规定次数的追加更新(Sc2~Sc4)的反复进行。如根据以上的说明所理解那样,在遍及规定次数的追加更新的每次反复进行时对特征数据Q的品质进行评价。在特征数据Q达到规定品质的情况下(Sc52:YES),学习处理部23,学习处理部23将最新的更新后的多个系数和歌唱者数据Xa作为确定值而储存于存储装置12(Sc6)。新歌唱者的歌唱者数据Xa在用于对由新歌唱者发出的歌唱音进行合成的合成处理中被应用。
此外,补充处理前的合成模型M是利用多样的歌唱者的学习数据L而训练好的,因此即使在对于新歌唱者无法准备充分个数的学习数据Lnew的情况下,也能够生成新歌唱者的多样的目标音。例如,对于新歌唱者的不存在学习数据Lnew的音位或者音高,通过利用训练好的合成模型M,从而也能够健全地生成高品质的目标音。即,具有不需要新歌唱者的充分的学习数据Lnew(例如包含全部种类的音素的发音在内的学习数据),就能够生成该新歌唱者的目标音这一优点。
另外,关于利用仅1名歌唱者的学习数据L而训练好的合成模型M,如果利用其他新歌唱者的学习数据Lnew而执行再学习,则有时合成模型M的多个系数大幅地变化。第1实施方式的合成模型M是利用许多歌唱者的学习数据L而训练好的。因此,即使执行利用了新歌唱者的学习数据Lnew的再学习,合成模型M的多个系数也不会大幅地变化。
<第2实施方式>
对第2实施方式进行说明。此外,关于在以下的各例示中功能与第1实施方式相同的要素,沿用在第1实施方式的说明中使用的标号而适当地省略各自的详细说明。
图8是例示第2实施方式中的合成模型M的结构的框图。第2实施方式的合成模型M包含第1训练好的模型M1和第2训练好的模型M2。第1训练好的模型M1由例如长短期存储(LSTM:Long Short Term Memory)等递归型神经网络(RNN:Recurrent Neural Network)构成。第2训练好的模型M2由例如卷积神经网络(CNN:Convolutional Neural Network)构成。第1训练好的模型M1及第2训练好的模型M2是通过利用了多个学习数据L的机器学习对多个系数进行更新后的训练好的模型。
第1训练好的模型M1与包含歌唱者数据Xa、风格数据Xb和合成数据Xc在内的输入数据Z相应地生成中间数据Y。中间数据Y是表示与乐曲歌唱相关的多个要素各自的时间序列的数据。具体地说,中间数据Y表示音高(例如音名)的时间序列、歌唱中的音量的时间序列和音素的时间序列。即,在由歌唱者数据Xa所表示的歌唱者通过风格数据Xb所表示的歌唱风格而歌唱出合成数据Xc的乐曲时的音高、音量和音素的时间性变化通过中间数据Y表现。
第2实施方式的第1训练好的模型M1具有第1生成模型G1和第2生成模型G2。第1生成模型G1根据歌唱者数据Xa和风格数据Xb而生成表情数据D1。表情数据D1是表示歌唱音的音乐性表情的特征的数据。如根据以上的说明所理解那样,表情数据D1是与歌唱者数据Xa和风格数据Xb的组合相应地生成的。第2生成模型G2与在存储装置12中存储的合成数据Xc和由第1生成模型G1生成的表情数据D1相应地生成中间数据Y。
第2训练好的模型M2与在存储装置12中存储的歌唱者数据Xa和由第1训练好的模型M1生成的中间数据Y相应地生成特征数据Q(基本频率Qa及频谱包络Qb)。如图8例示那样,第2训练好的模型M2具有第3生成模型G3、第4生成模型G4和第5生成模型G5。
第3生成模型G3生成与歌唱者数据Xa相对应的发音数据D2。发音数据D2是表示歌唱者的发音机构(例如声带)及调音机构(例如声道)的特征的数据。例如,由歌唱者的发音机构及调音机构对歌唱音赋予的频率特性通过发音数据D2表现。
第4生成模型G4(第1生成模型的例示)与由第1训练好的模型M1生成的中间数据Y和由第3生成模型G3生成的发音数据D2相应地生成特征数据Q的基本频率Qa的时间序列。
第5生成模型G5(第2生成模型的例示)与由第1训练好的模型M1生成的中间数据Y、由第3生成模型G3生成的发音数据D2和由第4生成模型G4生成的基本频率Qa的时间序列相应地生成特征数据Q的频谱包络Qb的时间序列。即,第5生成模型G5与由第4生成模型G4生成的基本频率Qa的时间序列相应地生成目标音的频谱包络Qb的时间序列。包含由第4生成模型G4生成的基本频率Qa和由第5生成模型G5生成的频谱包络Qb在内的特征数据Q的时间序列供给至信号生成部22。
在第2实施方式中也实现与第1实施方式相同的效果。另外,在第2实施方式中,合成模型M包含生成基本频率Qa的时间序列的第4生成模型G4和生成频谱包络Qb的时间序列的第5生成模型G5。因此,具有下述优点,即,能够明示地学习输入数据Z和基本频率Qa的时间序列之间的关系。
<第3实施方式>
图9是例示第3实施方式中的合成模型M的结构的框图。第3实施方式中的合成模型M的结构与第2实施方式相同。即,第3实施方式的合成模型M包含生成基本频率Qa的时间序列的第4生成模型G4和生成频谱包络Qb的时间序列的第5生成模型G5。
第3实施方式的控制装置11在与第1实施方式相同的要素(合成处理部21、信号生成部22及学习处理部23)的基础上,还作为图9的编辑处理部26起作用。编辑处理部26与来自利用者的针对输入装置13的指示相应地,对由第4生成模型G4生成的基本频率Qa的时间序列进行编辑。
第5生成模型G5与由第1训练好的模型M1生成的中间数据Y、由第3生成模型G3生成的发音数据D2和通过编辑处理部26进行编辑后的基本频率Qa的时间序列相应地生成特征数据Q的频谱包络Qb的时间序列。包含通过编辑处理部26进行编辑后的基本频率Qa和由第5生成模型G5生成的频谱包络Qb在内的特征数据Q的时间序列供给至信号生成部22。
在第3实施方式中也实现与第1实施方式相同的效果。另外,在第3实施方式中,与根据来自利用者的指示进行编辑后的基本频率Qa的时间序列相应地生成频谱包络Qb的时间序列,因此能够生成在基本频率Qa的时间性变化中反映了利用者的意图的目标音。
<变形例>
下面,例示对以上例示出的各方式附加的具体的变形方式。可以将从下面的例示中任意地选择出的大于或等于2个方式在不相互矛盾的范围适当地合并。
(1)在前述的各方式中,在合成模型M的训练后将编码模型Ea及编码模型Eb废弃,但也可以如图10例示那样,将编码模型Ea及编码模型Eb与合成模型M一起利用于合成处理。在图10的结构中,输入数据Z包含歌唱者的识别信息Fa、歌唱风格的识别信息Fb和合成数据Xc。由编码模型Ea根据识别信息Fa生成的歌唱者数据Xa、由编码模型Eb根据识别信息Fb生成的风格数据Xb和输入数据Z的合成数据Xc输入至合成模型M。
(2)在前述的各方式中,例示出特征数据Q包含基本频率Qa和频谱包络Qb的结构,但特征数据Q的内容并不限定于以上的例示。例如,表示频谱的特征(以下称为“谱特征”)的各种数据也可以用作特征数据Q。作为能够用作特征数据Q的频谱特征,除了前述的频谱包络Qb以外,例如还例示出梅尔谱(Mel spectrum)、梅尔倒谱(Mel cepstrum)、梅尔频谱图(Mel spectrogram)或者频谱图(spectrogram)。此外,在将能够确定基本频率Qa的谱特征用作特征数据Q的结构中,也可以从特征数据Q将基本频率Qa省略。
(3)在前述的各方式中,关于新歌唱者通过补充处理生成了歌唱者数据Xa,但生成歌唱者数据Xa的方法并不限定于以上的例示。例如,通过对多个歌唱者数据Xa进行插补或者外推,从而也可以生成新的歌唱者数据Xa。通过对歌唱者A的歌唱者数据Xa和歌唱者B的歌唱者数据Xa进行插补,从而生成以歌唱者A和歌唱者B的中间的音质进行发声的虚拟性的歌唱者的歌唱者数据Xa。
(4)在前述的各方式中,例示出具有合成处理部21(及信号生成部22)和学习处理部23这两者的信息处理系统100,但也可以将合成处理部21和学习处理部23搭载于分体的信息处理系统。具有合成处理部21及信号生成部22的信息处理系统作为根据输入数据Z生成音响信号V的语音合成装置而被实现。在语音合成装置中可以有也可以没有学习处理部23。另外,具有学习处理部23的信息处理系统,作为通过利用了多个学习数据L的机器学习而生成合成模型M的机器学习装置而被实现。在机器学习装置中可以有也可以没有合成处理部21。可以通过能够与终端装置进行通信的服务器装置而实现机器学习装置,将由机器学习装置生成的合成模型M传送至终端装置。终端装置具有合成处理部21,该合成处理部21利用从机器学习装置传送出的合成模型M而执行合成处理。
(5)在前述的各方式中,对由歌唱者发音出的歌唱音进行了合成,但在除了歌唱音以外的音响的合成中也可以应用本发明。例如在不以音乐为必要条件的会话音等一般性的说话声的合成、或者乐器的演奏音的合成中也可以应用本发明。歌唱者数据Xa相当于除了歌唱者以外还表示包含说话者或者乐器等在内的发音源的发音源数据的一个例子。另外,风格数据Xb作为除了歌唱风格以外还表示包含说话风格或者乐器演奏的风格等在内的发音风格(performance style)的数据而统括地表现。合成数据Xc作为除了歌唱条件以外还表示包含说话条件(例如音位)或者演奏条件(例如音高及音量)在内的发音条件的数据而统括地表现。在与乐器的演奏相关的合成数据Xc中省略音位的指定。
此外,风格数据Xb所表示的发音风格(发音条件)包含发音环境及收录环境。发音环境例如是指无响室、回响室或者屋外等环境,收录环境例如是指利用了数字器材的收录或者利用了模拟磁带介质的收录等的环境。利用包含发音环境或者收录环境不同的音响信号V的学习数据L,对编码模型或者合成模型M进行训练。
此外,存在与时代时代的音乐类型相对应的演奏场所、录音器材。鉴于该点,风格数据Xb所示的发音风格可以是表示发音环境、收录环境的风格。更具体地说,发音环境例如是“在无响室内演奏出的音”、“在回响室内演奏出的音”、“在屋外演奏出的音”等,收录环境例如是“记录于数字器材的音”、“记录于模拟磁带介质的音”的类别等。
(6)前述的各方式所涉及的信息处理系统100的功能是通过计算机(例如控制装置11)和程序的协同动作实现的。本发明的一个方式所涉及的程序以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非易失性(non-transitory)的记录介质,CD-ROM等光学式记录介质(光盘)是优选例,但也可包含半导体记录介质或者磁记录介质等公知的任意形式的记录介质。此外,非易失性的记录介质包含除了瞬时传输信号(transitory,propagating signal)以外的任意的记录介质,并不是将易失性的记录介质排除在外。另外,也能够以经由通信网的传送方式将程序提供给计算机。
(7)用于实现合成模型M的人工智能软件的执行主体并不限定于CPU。例如,TensorProcessing Unit或者Neural Engine等神经网络专用的处理电路、或者人工智能专用的DSP(Digital Signal Processor)可以执行人工智能软件。另外,可以是从以上的例示选择出的多种处理电路协同动作而执行人工智能软件。
<附记>
根据以上例示出的方式,例如掌握下面的结构。
本发明的一个方式(第1方式)所涉及的信息处理方法将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。在以上的方式中,通过将发音源数据、合成数据和风格数据输入至机器学习好的合成模型,从而生成表示目标音的音响特征的特征数据。因此,不需要语音片段就能够生成目标音。另外,在发音源数据和合成数据的基础上将风格数据输入至合成模型。因此,与通过将发音源数据和合成数据输入至训练好的模型而生成特征数据的结构相比较,具有下述优点,即,不针对每个发音风格准备发音源数据,就能够生成与发音源和发音风格的组合相对应的多样的语音的特征数据。
在第1方式的具体例(第2方式)中,所述发音条件包含针对每个音符的音高。另外,在第1方式或第2方式的具体例(第3方式)中,所述发音条件包含针对每个音符的音位。第3方式中的发音源为歌唱者。
在第1方式至第3方式的任意方式的具体例(第4方式)中,向所述合成模型输入的发音源数据是与不同的发音源相对应的多个发音源数据之中的由利用者选择出的发音源数据。根据以上的方式,例如能够对于与利用者的意图或者爱好相吻合的发音源而生成目标音的特征数据。
在第1方式至第4方式的任意方式的具体例(第5方式)中,向所述合成模型输入的风格数据是与不同的发音风格相对应的多个风格数据之中的由利用者选择出的风格数据。根据以上的方式,例如能够对于与利用者的意图或者爱好相吻合的发音风格而生成目标音的特征数据。
第1方式至第5方式的任意方式的具体例(第6方式)所涉及的信息处理方法还通过将表示新发音源的新发音源数据、表示与所述新发音源相对应的发音风格的风格数据和表示由所述新发音源进行的发音的发音条件的新合成数据输入至所述合成模型,由此基于所述新发音源的发音风格及由所述新发音源进行的发音的发音条件而生成表示由所述新发音源进行发音的音响的音响特征的新特征数据,对所述新发音源数据及所述合成模型进行更新,以使得与基于所述新合成数据所表示的发音条件而由所述新发音源发音出的音响相关的已知特征数据和所述新特征数据的差异减少。根据以上的方式,即使在对于新发音源无法充分地准备新合成数据和音响信号的情况下,也能够生成合成模型,该合成模型能够健全地生成与新发音源相关的高品质的目标音。
在第1方式至第6方式的任意方式的具体例(第7方式)中,所述发音源数据表示第1空间中的向量,所述第1空间表示与由不同的多个发音源进行发音的音响的特征相关的所述多个发音源之间的关系,所述风格数据表示第2空间中的向量,所述第2空间表示与通过不同的多个发音风格进行发音的音响的特征相关的所述多个发音风格之间的关系。根据以上的方式,能够利用发音源数据和风格数据而生成与发音源和发音风格的组合相对应的适当的合成音的特征数据,其中,发音源数据是根据与音响的特征相关的发音源之间的关系这一观点表现的,风格数据是根据与音响的特征相关的发音风格之间的关系这一观点表现的。
在第1方式至第7方式的任意方式的具体例(第8方式)中,所述合成模型包含第1生成模型和第2生成模型,该第1生成模型生成所述目标音的基本频率的时间序列,该第2生成模型与由所述第1生成模型生成的基本频率的时间序列相应地生成所述目标音的频谱包络的时间序列。根据以上的方式,合成模型包含生成目标音的基本频率的时间序列的第1生成模型和生成目标音的频谱包络的时间序列的第2生成模型,因此能够明示地学习包含发音源数据、风格数据和合成数据在内的输入和基本频率的时间序列之间的关系。
在第8方式的具体例(第9方式)中,与来自利用者的指示相应地对由所述第1生成模型生成的基本频率的时间序列进行编辑,所述第2生成模型与所述编辑后的基本频率的时间序列相应地生成所述目标音的频谱包络的时间序列。根据以上的方式,与根据来自利用者的指示进行编辑后的基本频率的时间序列相应地生成频谱包络的时间序列,因此能够生成在基本频率的时间性变化中反映了利用者的意图的目标音。
作为执行以上例示出的各方式的信息处理方法的信息处理系统、或者使计算机执行以上例示出的各方式的信息处理方法的程序,也会实现本发明的各方式。
标号的说明
100…信息处理系统,11…控制装置,12…存储装置,13…输入装置,14…放音装置,21…合成处理部,22…信号生成部,23…学习处理部,24…特征解析部,26…编辑处理部,M…合成模型,Xa…歌唱者数据,Xb…风格数据,Xc…合成数据,Z…输入数据,Q…特征数据,V…音响信号,Fa、Fb…识别信息,Ea、Eb…编码模型,L、Lnew…学习数据。
Claims (11)
1.一种信息处理方法,其是通过计算机实现的信息处理方法,
将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。
2.根据权利要求1所述的信息处理方法,其中,
所述发音条件包含针对每个音符的音高。
3.根据权利要求1或2所述的信息处理方法,其中,
所述发音条件包含所述目标音的音位。
4.根据权利要求1至3中任一项所述的信息处理方法,其中,
向所述合成模型输入的所述发音源数据是与不同的发音源相对应的多个发音源数据之中的由利用者选择出的发音源数据。
5.根据权利要求1至4中任一项所述的信息处理方法,其中,
向所述合成模型输入的风格数据是与不同的发音风格相对应的多个风格数据之中的由利用者选择出的风格数据。
6.根据权利要求1至5中任一项所述的信息处理方法,其中,
所述信息处理方法还通过将表示新发音源的新发音源数据、表示与所述新发音源相对应的发音风格的风格数据和表示由所述新发音源进行的发音的发音条件的新合成数据输入至所述合成模型,由此基于所述新发音源的发音风格及由所述新发音源进行的发音的发音条件而生成表示由所述新发音源进行发音的音响的音响特征的新特征数据,
对所述新发音源数据及所述合成模型进行更新,以使得与基于所述新合成数据所表示的发音条件而由所述新发音源发音出的音响相关的已知特征数据和所述新特征数据的差异减少。
7.根据权利要求1至6中任一项所述的信息处理方法,其中,
所述发音源数据表示第1空间中的向量,所述第1空间表示与由不同的多个发音源进行发音的音响的特征相关的所述多个发音源之间的关系,
所述风格数据表示第2空间中的向量,所述第2空间表示与通过不同的多个发音风格进行发音的音响的特征相关的所述多个发音风格之间的关系。
8.根据权利要求1至7中任一项所述的信息处理方法,其中,
所述合成模型包含:
第1生成模型,其生成所述目标音的基本频率的时间序列;以及
第2生成模型,其与由所述第1生成模型生成的基本频率的时间序列相应地生成所述目标音的频谱包络的时间序列。
9.根据权利要求8所述的信息处理方法,其中,
所述信息处理方法还与来自利用者的指示相应地对由所述第1生成模型生成的基本频率的时间序列进行编辑,所述第2生成模型与所述编辑后的基本频率的时间序列相应地生成所述目标音的频谱包络的时间序列。
10.一种信息处理系统,其具有合成处理部,
该合成处理部将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。
11.一种信息处理系统,其具有大于或等于1个处理器和大于或等于1个存储器,
通过执行在所述大于或等于1个存储器中存储的程序,所述大于或等于1个处理器将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的音响的音响特征的特征数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018209288A JP6747489B2 (ja) | 2018-11-06 | 2018-11-06 | 情報処理方法、情報処理システムおよびプログラム |
JP2018-209288 | 2018-11-06 | ||
PCT/JP2019/043510 WO2020095950A1 (ja) | 2018-11-06 | 2019-11-06 | 情報処理方法および情報処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112970058A true CN112970058A (zh) | 2021-06-15 |
Family
ID=70611512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980072848.6A Pending CN112970058A (zh) | 2018-11-06 | 2019-11-06 | 信息处理方法及信息处理系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11942071B2 (zh) |
EP (1) | EP3879524A4 (zh) |
JP (1) | JP6747489B2 (zh) |
CN (1) | CN112970058A (zh) |
WO (1) | WO2020095950A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6737320B2 (ja) | 2018-11-06 | 2020-08-05 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
US11430431B2 (en) * | 2020-02-06 | 2022-08-30 | Tencent America LLC | Learning singing from speech |
JP7276292B2 (ja) * | 2020-09-11 | 2023-05-18 | カシオ計算機株式会社 | 電子楽器、電子楽器の制御方法、及びプログラム |
CN112365874B (zh) * | 2020-11-17 | 2021-10-26 | 北京百度网讯科技有限公司 | 语音合成模型的属性注册、装置、电子设备与介质 |
JPWO2022145145A1 (zh) * | 2020-12-28 | 2022-07-07 | ||
CN113781993B (zh) * | 2021-01-20 | 2024-09-24 | 北京沃东天骏信息技术有限公司 | 定制音色歌声的合成方法、装置、电子设备和存储介质 |
JP7468495B2 (ja) * | 2021-03-18 | 2024-04-16 | カシオ計算機株式会社 | 情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラム |
WO2022244818A1 (ja) * | 2021-05-18 | 2022-11-24 | ヤマハ株式会社 | 機械学習モデルを用いた音生成方法および音生成装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110000360A1 (en) * | 2009-07-02 | 2011-01-06 | Yamaha Corporation | Apparatus and Method for Creating Singing Synthesizing Database, and Pitch Curve Generation Apparatus and Method |
US8751236B1 (en) * | 2013-10-23 | 2014-06-10 | Google Inc. | Devices and methods for speech unit reduction in text-to-speech synthesis systems |
CN104050961A (zh) * | 2013-03-15 | 2014-09-17 | 雅马哈株式会社 | 语音合成装置和方法以及存储有语音合成程序的记录介质 |
CN104272382A (zh) * | 2012-03-06 | 2015-01-07 | 新加坡科技研究局 | 基于模板的个性化歌唱合成的方法和系统 |
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
US20160140951A1 (en) * | 2014-11-13 | 2016-05-19 | Google Inc. | Method and System for Building Text-to-Speech Voice from Diverse Recordings |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304846B1 (en) * | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
JP4025355B2 (ja) * | 2004-10-13 | 2007-12-19 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
JP4839891B2 (ja) | 2006-03-04 | 2011-12-21 | ヤマハ株式会社 | 歌唱合成装置および歌唱合成プログラム |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
GB2500471B (en) * | 2010-07-20 | 2018-06-13 | Aist | System and method for singing synthesis capable of reflecting voice timbre changes |
GB2501067B (en) | 2012-03-30 | 2014-12-03 | Toshiba Kk | A text to speech system |
JP6261924B2 (ja) | 2013-09-17 | 2018-01-17 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
JP6392012B2 (ja) | 2014-07-14 | 2018-09-19 | 株式会社東芝 | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム |
JP6000326B2 (ja) | 2014-12-15 | 2016-09-28 | 日本電信電話株式会社 | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム |
JP6622505B2 (ja) | 2015-08-04 | 2019-12-18 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
JP6390690B2 (ja) * | 2016-12-05 | 2018-09-19 | ヤマハ株式会社 | 音声合成方法および音声合成装置 |
JP2017107228A (ja) * | 2017-02-20 | 2017-06-15 | 株式会社テクノスピーチ | 歌声合成装置および歌声合成方法 |
JP6846237B2 (ja) | 2017-03-06 | 2021-03-24 | 日本放送協会 | 音声合成装置及びプログラム |
JP7142333B2 (ja) | 2018-01-11 | 2022-09-27 | ネオサピエンス株式会社 | 多言語テキスト音声合成方法 |
WO2019139431A1 (ko) | 2018-01-11 | 2019-07-18 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 |
JP6737320B2 (ja) | 2018-11-06 | 2020-08-05 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
US11302329B1 (en) | 2020-06-29 | 2022-04-12 | Amazon Technologies, Inc. | Acoustic event detection |
US11551663B1 (en) | 2020-12-10 | 2023-01-10 | Amazon Technologies, Inc. | Dynamic system response configuration |
-
2018
- 2018-11-06 JP JP2018209288A patent/JP6747489B2/ja active Active
-
2019
- 2019-11-06 WO PCT/JP2019/043510 patent/WO2020095950A1/ja unknown
- 2019-11-06 EP EP19882179.5A patent/EP3879524A4/en not_active Withdrawn
- 2019-11-06 CN CN201980072848.6A patent/CN112970058A/zh active Pending
-
2021
- 2021-05-04 US US17/307,322 patent/US11942071B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110000360A1 (en) * | 2009-07-02 | 2011-01-06 | Yamaha Corporation | Apparatus and Method for Creating Singing Synthesizing Database, and Pitch Curve Generation Apparatus and Method |
CN104272382A (zh) * | 2012-03-06 | 2015-01-07 | 新加坡科技研究局 | 基于模板的个性化歌唱合成的方法和系统 |
CN104050961A (zh) * | 2013-03-15 | 2014-09-17 | 雅马哈株式会社 | 语音合成装置和方法以及存储有语音合成程序的记录介质 |
US8751236B1 (en) * | 2013-10-23 | 2014-06-10 | Google Inc. | Devices and methods for speech unit reduction in text-to-speech synthesis systems |
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
US20160140951A1 (en) * | 2014-11-13 | 2016-05-19 | Google Inc. | Method and System for Building Text-to-Speech Voice from Diverse Recordings |
Non-Patent Citations (1)
Title |
---|
TAKASHI NOSE等: "HMM-based expressive singing voice synthesis with singing style control and robust pitch modeling", COMPUTER SPEECH&LANGUAGE, vol. 34, no. 1, pages 308 - 322, XP029225211, DOI: 10.1016/j.csl.2015.04.001 * |
Also Published As
Publication number | Publication date |
---|---|
US11942071B2 (en) | 2024-03-26 |
JP6747489B2 (ja) | 2020-08-26 |
EP3879524A1 (en) | 2021-09-15 |
EP3879524A4 (en) | 2022-09-28 |
JP2020076843A (ja) | 2020-05-21 |
WO2020095950A1 (ja) | 2020-05-14 |
US20210256960A1 (en) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6547878B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
CN112970058A (zh) | 信息处理方法及信息处理系统 | |
CN110634464B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
CN110634461B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
US5890115A (en) | Speech synthesizer utilizing wavetable synthesis | |
CN111418006B (zh) | 声音合成方法、声音合成装置及记录介质 | |
CN111418005B (zh) | 声音合成方法、声音合成装置及存储介质 | |
CN113016028B (zh) | 音响处理方法及音响处理系统 | |
CN113160779A (zh) | 电子乐器、方法及存储介质 | |
Lindemann | Music synthesis with reconstructive phrase modeling | |
CN112331222A (zh) | 一种转换歌曲音色的方法、系统、设备及存储介质 | |
CN111696498A (zh) | 键盘乐器以及键盘乐器的计算机执行的方法 | |
CN113160780A (zh) | 电子乐器、方法及存储介质 | |
JP6835182B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP7147211B2 (ja) | 情報処理方法および情報処理装置 | |
WO2020158891A1 (ja) | 音信号合成方法およびニューラルネットワークの訓練方法 | |
WO2014142200A1 (ja) | 音声処理装置 | |
JP6819732B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6801766B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP7192834B2 (ja) | 情報処理方法、情報処理システムおよびプログラム | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
JP2023013684A (ja) | 歌唱声質変換プログラム及び歌唱声質変換装置 | |
WO2022080395A1 (ja) | 音声合成方法およびプログラム | |
WO2023171522A1 (ja) | 音響生成方法、音響生成システムおよびプログラム | |
WO2023171497A1 (ja) | 音響生成方法、音響生成システムおよびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210615 |