CN116057624A - 电子乐器、电子乐器控制方法和程序 - Google Patents
电子乐器、电子乐器控制方法和程序 Download PDFInfo
- Publication number
- CN116057624A CN116057624A CN202180062213.5A CN202180062213A CN116057624A CN 116057624 A CN116057624 A CN 116057624A CN 202180062213 A CN202180062213 A CN 202180062213A CN 116057624 A CN116057624 A CN 116057624A
- Authority
- CN
- China
- Prior art keywords
- performance
- time
- data
- style
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000008859 change Effects 0.000 claims abstract description 30
- 238000004519 manufacturing process Methods 0.000 claims abstract description 11
- 230000033764 rhythmic process Effects 0.000 claims description 5
- 238000009795 derivation Methods 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 92
- 230000015572 biosynthetic process Effects 0.000 description 65
- 238000003786 synthesis reaction Methods 0.000 description 65
- 230000008569 process Effects 0.000 description 64
- 238000004458 analytical method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 238000001308 synthesis method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/04—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
- G10H1/053—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
- G10H1/0041—Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
- G10H1/0058—Transmission between separate instruments or between individual components of a musical system
- G10H1/0066—Transmission between separate instruments or between individual components of a musical system using a MIDI interface
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/375—Tempo or beat alterations; Music timing control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明涉及:一种根据诸如键盘等操作设备的操作而再现歌唱声音的电子乐器;一种电子乐器控制方法;以及程序。本发明使得能够推导与实时改变的音符之间的时间改变相匹配的适当声音波形。一种电子乐器(100)包括:音高指定单元(602),其输出在演奏时指定的演奏时音高数据(610);演奏风格输出单元(603),其输出指示演奏时的演奏风格的演奏时演奏风格数据(611);以及发声模型单元(308),其基于通过将演奏时音高数据(610)和演奏时演奏风格数据(611)输入到经训练的声学模型而推导的声学模型参数,来合成并输出与演奏时音高数据(610)和演奏时演奏风格数据(611)相对应的音乐声音数据。
Description
技术领域
本发明涉及电子乐器、电子乐器控制方法和程序,其用于响应于诸如键盘的操作元件上的操作通过驱动经训练的声学模型来输出语音声音。
背景技术
在电子乐器中,为了补充演唱语音声音和现场乐器的表现力,这些是相关技术的脉冲编码调制(PCM)方法的表现力的弱点,设计了基于实际演奏操作来训练声学模型的技术并投入实践使用,在该模型中通过以下方式对人的发声机制和乐器的声音生成机制进行建模:通过基于歌唱操作和演奏操作的机器学习而进行数字信号处理,并且通过驱动经训练的声学模型来推断并输出歌唱声或音乐声的声音波形数据(例如,专利文献1)。
引文列表
专利文献
专利文献1:日本专利号6610714
发明内容
技术问题
例如,当通过机器学习生成歌唱声波形或音乐声波形时,生成的波形通常会根据演奏节奏、乐句演唱方式和演奏风格的改变而改变。例如,人声中的辅音部分的发声时间长度、管乐器中的吹奏声的发声时间长度以及开始演奏弓弦乐器的弦时的噪声成分的时间长度在音符很少的慢速演奏情况下较长的,导致极富表现力和活泼的声音,而在音符多且节奏快的演奏的情况下则是短促的,因此导致清晰(articulated)的声音。
然而,当用户在键盘等上进行实时演奏时,无法传达响应于每个音符的乐谱划分改变或声源设备中演奏乐句的差异而改变的音符之间的演奏速度,使得声学模型无法推断出与音符之间的演奏速度改变相对应的适当声音波形。结果,例如,对于慢速演奏,表现力不足,或者相反,对于快节奏演奏产生的声音波形的上升缓慢,使得难以进行演奏。
因此,本发明的目的在于,使得能够推断与实时改变的音符之间的演奏速度的改变相匹配的适当的声音波形。
问题的解决方案
作为一方面的示例的电子乐器包括:音高指定单元,其被配置为输出在演奏时指定的演奏时音高数据;演奏风格输出单元,其被配置为输出指示演奏时的演奏风格的演奏时演奏风格数据;以及声音生成模型单元,其被配置为基于通过将所述演奏时音高数据和所述演奏时演奏风格数据输入经训练的声学模型推断出的声学模型参数,来在演奏时合成并输出与所述演奏时音高数据和所述演奏时演奏风格数据相对应的音乐声音数据。
作为该方面的另一示例的电子乐器包括:歌词输出单元,其被配置为输出指示在演奏时的歌词的演奏时歌词数据;音高指定单元,其被配置为输出与在演奏时的歌词的输出相调谐地指定的演奏时音高数据;演奏风格输出单元,其被配置为输出指示演奏时的演奏风格的演奏时演奏风格数据;以及发声模型单元,其被配置为基于通过将演奏时歌词数据、演奏时音高数据和所述演奏时演奏风格数据输入经训练的声学模型推断出的声学模型参数,来合成并输出与所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据相对应的演奏时的歌唱声音数据。
本发明的有益效果
根据本发明,能够推断出与实时改变的音符之间的演奏速度的改变相匹配的适当的语音波形。
附图说明
图1示出了电子键盘乐器的实施例的外观示例。
图2是示出电子键盘乐器的控制系统的实施例的硬件配置示例的框图。
图3是示出语音训练部和语音合成部的配置示例的框图。
图4A是示出作为歌唱方式基础的乐谱划分的示例的说明图。
图4B是示出作为歌唱方式基础的乐谱划分的示例的说明图。
图5A示出了因演奏节奏的差异而引起的歌唱声音波形的改变。
图5B示出了因演奏节奏的差异而引起的歌唱声音波形的改变。
图6是示出歌词输出单元、音高指定单元以及演奏风格输出单元的配置示例的框图。
图7示出了本实施例的数据配置示例。
图8是示出本实施例的电子乐器的控制处理的示例的主流程图。
图9A是示出初始化处理的详细示例的流程图。
图9B是示出节奏改变处理的详细示例的流程图。
图9C是示出歌曲开始处理的详细示例的流程图。
图10是示出开关处理的详细示例的流程图。
图11是示出键盘处理的详细示例的流程图。
图12是示出自动演奏中断处理的详细示例的流程图。
图13是示出歌曲播放处理的详细示例的流程图。
具体实施例
在下文中,将参考附图详细描述本发明的实施例。
图1示出了电子键盘乐器100的实施例的外观示例。电子键盘乐器100包括由作为操作元件的多个键组成的键盘101、被配置为指示诸如音量指定、歌曲播放节奏设置(稍后描述)、演奏节奏模式设置(稍后描述)、演奏节奏调整设置(稍后描述)、歌曲播放开始(稍后描述)和伴奏播放开始(稍后描述)之类的各种设置的第一开关面板102、被配置为选择歌曲或伴奏和音色的第二开关面板103、被配置为在歌曲播放期间显示乐谱和歌词(稍后描述)的液晶显示器(LCD)104,以及与各种设置有关的信息。此外,虽然未特别示出,但是电子键盘乐器100包括被配置为发出由演奏生成的音乐声音并且在背面部分、侧面部分、后表面部分等上提供的扬声器。
图2示出了图1所示的电子键盘乐器100的控制系统200的实施例的硬件配置示例。在图2中,在控制系统200中,CPU(中央处理单元)201、ROM(只读存储器)202、RAM(随机存取存储器)203、声源LSI(大规模集成)204、语音合成器LSI 205、与图1所示的键盘101、第一开关面板102和第二开关面板103连接的键扫描器206、与图1所示的LCD 104连接的LCD控制器208、被配置为向外部网络发送MIDI数据以及从外部网络接收MIDI数据的网络接口219分别连接到系统总线209。此外,用于控制自动演奏序列的定时器210与CPU 201连接。另外,分别从声源LSI 204和语音合成LSI 205输出的音乐声音数据218和歌唱声音数据217分别通过D/A转换器211和212转换成模拟音乐声音输出信号和模拟歌唱声音输出信号。模拟音乐声音输出信号和模拟歌唱声音输出信号在混频器213中混合,其混合信号在放大器214中放大,然后从扬声器或输出终端(未具体示出)输出。
CPU 201被配置为通过在将RAM 203用作工作存储器的同时执行从ROM 202加载到RAM203的控制程序来执行图1所示的电子键盘乐器100的控制操作。此外,ROM 202(非暂时记录介质)被配置为存储除了控制程序和各种类型的固定数据之外,还存储包括歌词数据和伴奏数据的音乐片段数据。
在本实施例中使用的定时器210在CPU 201上实现,并且例如被配置为对电子键盘乐器100中的自动演奏的进行来计数。
声源LSI 204被配置为从例如波形ROM(未具体示出)读出音乐声音波形数据,并且响应于来自CPU 201的声音生成控制数据216将其作为音乐声音数据218输出到D/A转换器211。声源LSI204能够产生256复音(256-voice polyphony)。
当给定语音合成LSI 205时,作为来自CPU 201的演奏时歌唱声音数据215、歌词的文本数据(演奏时歌词数据)、指定对应于每个歌词的每个音高的数据(演奏时音高数据)以及关于如何唱歌的数据(演奏时演奏风格数据),声音合成LSI合成对应于该数据的歌唱声音数据217,并且将歌唱声音数据输出到D/A转换器212。
键扫描器206被配置为定期地扫描图1所示的键盘101上的键的按下/松开状态,以及第一开关面板102和第二开关面板103的开关操作状态,并向CPU 201发送中断以传输状态改变。
LCD控制器208是被配置为控制LCD 104的显示状态的IC(集成电路)。
图3是示出本实施例中的语音合成部和语音训练部的配置示例的框图。这里,语音合成部302内置于电子键盘乐器100中,作为由图2中的语音合成LSI 205执行的一个功能。
语音合成部302通过基于通过对歌词的自动播放(以下称为“歌曲播放”)处理的图1中的键盘101上的键按压、经由图2中的键扫描器206,来输入从CPU 201指示的包括歌词、音高和关于如何唱歌的信息的演奏时歌唱声音数据215,从而合成并输出歌唱声音数据217,这将在后面描述。此时,语音合成部302的处理器执行发声处理,将包括由CPU 201响应于对键盘101上的多个键(操作元件)中的任何一个的操作而生成的歌词信息、与任何一个键相关联的音高信息、以及与如何唱歌有关的信息的演奏时歌唱声音数据215输入到演奏时歌唱声音分析单元307,将从演奏时歌唱声音分析单元输出的演奏时语言特征序列316输入到存储在声学模型单元306中的经训练的声学模型,以及输出歌唱声音数据217,该歌唱声音数据217基于由声学模型单元306作为结果输出的频谱信息318和声源信息319来推断演唱者的歌唱声音。
例如,如图3所示,语音训练部301可以实现为由与图1中的电子键盘乐器100分开的存在于外部的服务器计算机300执行的一个功能。或者,虽然未在图3中显示,如果图2中的语音合成LSI 205具有空闲的处理能力,则语音训练部301也可以作为由语音合成LSI205执行的一个功能内置到电子键盘乐器100中。
图2中所示的语音训练部301和语音合成部302例如基于下面引用的非专利文献1中描述的“基于深度学习的统计参数语音合成(statistical parametric speechsynthesis based on deep learning)”技术来实现。
(非专利文献1)
Kei Hashimoto和Shinji Takaki,“基于深度学习的统计参数语音合成(Statistical parametric speech synthesis based on deep learning)”,Journal ofthe Acoustical Society of Japan,第73卷,第1期(2017年),第55-62页。
图2中的语音训练部301是由图3中所示的外部服务器计算机300执行的功能,包括训练歌唱声音分析单元303、训练声学特征提取单元304和模型训练单元305。
语音训练部301使用例如当某个歌手以适当的流派演唱多首歌曲时记录的语音声音作为训练歌唱声音数据312。此外,准备了每首歌曲的歌词的文本数据(训练歌词数据)、指定对应于每首歌词的每个音高的数据(训练音高数据)、以及指示训练歌唱声音数据312的演唱方式的数据(训练演奏风格数据)作为训练歌唱声音数据311。作为训练演奏风格数据,顺序地测量训练音高数据被顺序地指定的时间间隔,并且指定指示顺序地测量的时间间隔的每个数据。
包括训练歌词数据、训练音高数据和训练演奏风格数据的训练歌唱声音数据311被输入到训练歌唱声音分析单元303。训练歌唱声音分析单元303分析输入数据。因此,训练歌唱声音分析单元303估计并输出训练语言特征序列313,其是表示与训练歌唱声音数据311相对应的音素(phoneme)、音高和歌唱方式的离散数字序列。
响应于训练歌唱声音数据311的输入,训练声学特征提取单元304接收并分析在特定歌手演唱对应于训练歌唱声音数据311的歌词时经由麦克风等记录的训练歌唱声音数据312。因此,训练声学特征提取单元304提取表示与训练歌唱声音数据312相对应的语音声音的特征的训练声学特征序列314,并将其作为教师数据(teacher data)输出。
训练语言特征序列313由以下符号表示。
[表达式1]
l
声学模型由以下符号表示。
[表达式2]
λ
训练声学特征序列314由以下符号表示。
[表达式3]
O
将生成训练声学特征序列314的概率由以下符号表示。
[表达式4]
P(o|l,λ)
使将生成训练声学特征序列314的概率最大化的声学模型由以下符号表示。
[表达式5]
模型训练单元305根据以下等式(1)通过从训练语言特征序列314和声学模型进行机器学习来估计声学模型,该声学模型使将生成训练声学特征序列314的概率最大化。即,作为文本的语言特征序列与作为语音声音的声学特征序列之间的关系由称为声学模型的统计模型表示。
[表达式6]
这里,以下符号指示计算符号下方的自变量的值的计算,其给出符号右侧的函数的最大值。
[表达式7]
arg max
模型训练单元305输出训练结果数据315,该训练结果数据315表示通过等式(1)中所示的计算作为机器学习的结果计算出的声学模型。计算出的声学模型由以下符号表示。
[表达式8]
如图3所示,例如,在图1中的电子键盘乐器100出厂时,训练结果数据315可以存储在电子键盘乐器100的图2所示的控制系统的ROM 202中,并且在电子键盘乐器100开机时,可以从图2中的ROM 202加载到语音合成LSI 205中的将在稍后描述的声学模型单元306中。可替代地,例如,如图3所示,训练结果数据315也可以通过用户在电子键盘乐器100的第二开关面板103上的操作经由网络接口219从诸如因特网的网络和USB(通用串行总线)线缆(未具体示出)的网络下载到语音合成LSI 205中的声学模型单元306(稍后描述)。可替代地,除了语音合成LSI 205之外,经训练的声学模型还可以通过FPGA(Field-ProgrammableGate Array,现场可编程门阵列)等以硬件形式实现,然后可以将其用作声学模型单元。
作为要由语音合成LSI 205执行的功能的语音合成部302包括演奏时歌唱声音分析单元307、声学模型单元306和发声模型单元308。语音合成部302执行统计语音合成处理,通过使用在声学模型单元306中设置的被称为声学模型的统计模型进行预测,顺序地合成并输出与在演奏时顺序地输入的演奏时歌唱声音数据215相对应的歌唱声音数据217。
作为用户的演奏与自动演奏相调谐的结果,演奏时歌唱声音数据215被输入到演奏时歌唱声音分析单元307,该演奏时歌唱声音数据215包括从图2中的CPU 201指定的关于演奏时歌词数据(对应于歌词文本的歌词的音素)、演奏时音高数据和演奏时演奏风格数据(关于如何唱歌的数据)的信息,并且演奏时歌唱声音分析单元307分析输入数据。因此,演奏时歌唱声音分析单元307分析并输出表示与演奏时歌唱声音数据215相对应的音素、词性、词、音高和演唱方式的演奏时语言特征序列316。
响应于演奏时语言特征序列316的输入,声学模型单元306估计并输出演奏时声学特征序列317,该演奏时声学特征序列317是与输入的演奏时语言特征序列相对应的声学模型参数。从演奏时歌唱声音分析单元307输入的演奏时语言特征序列316由以下符号表示。
[表达式9]
l
在模型训练单元305中通过机器学习设置为训练结果数据315的声学模型由以下符号表示。
[表达式10]
演奏时声学特征序列317由以下符号表示。
[表达式11]
o
将生成演奏时声学特征序列317的概率由以下符号表示。
[表达式12]
演奏时声学特征序列317的估计值是使生成演奏时音响特征序列317的概率最大化的声学模型参数,用以下符号表示。
[表达式13]
声学模型单元306根据以下等式(2)基于从演奏时歌唱声音分析单元307输入的演奏时语言特征序列316和通过机器学习在模型训练单元305中被设置为训练结果数据315的声学模型来估计演奏时声学特征序列317的估计值,其是使演奏时声学特征序列317将被生成的概率最大化的声学模型参数。
[表达式14]
响应于声学特征序列317的输入,发声模型单元308合成并输出与从CPU 201指定的演奏时歌唱声音数据215相对应的歌唱声音数据217。该歌唱声音数据217经由混合器213和放大器214从图2中的D/A转换器212输出,从未特别示出的扬声器发出。
由训练声学特征序列314或演奏时声学特征序列317表示的声学特征包括对人类声道进行建模的频谱信息和对人类声带进行建模的声源信息。作为光谱信息(参数),例如,可以采用梅尔倒谱、线谱对(LSP)等。作为声源信息,可以采用功率值和指示人语音的音高频率的基频(F0)。发声模型单元308包括声源生成单元309和合成滤波器单元310。声源生成单元309是对人类声带进行建模的单元,并且响应于从声学模型单元306顺序输入的声源信息319的序列来生成由以基频(F0)和包含在声源信息319中的功率值周期性重复的脉冲序列数据(在浊音音素的情况下)组成的声源信号数据,例如具有包含在声源信息319中的功率值的白噪声数据(在清音音素的情况下)或其混合数据。合成滤波器单元310是对人类声道进行建模的单元,并且基于从声学模型单元306顺序输入的频谱信息318的序列,形成对声道进行建模的数字滤波器,并且通过使用从声源生成单元309输入的声源数据作为激励源信号数据生成并输出歌唱声音数据321,其是数字信号数据。
训练歌唱声音数据312和歌唱声音数据217的采样频率例如是16KHz(千赫兹)。例如,当针对训练声学特征序列314和演奏时声学特征序列317中包括的频谱参数而采用通过梅尔倒谱分析处理获得的梅尔倒谱参数时,其帧更新周期例如是6msec(毫秒)。另外,在进行梅尔倒谱分析处理时,分析窗长为25msec,窗函数为布莱克曼窗函数,分析阶数为24阶。
作为由图3中的语音训练部301和语音合成部302执行的对统计语音合成处理的具体处理,针对声学模型单元306中设置的训练结果数据315表示的声学模型可以采用使用隐马尔可夫模型(HMM)的方法或使用深度神经网络(DNN)的方法。由于其具体实施例由于在上述专利文献1中公开,因此在本申请中省略其详细说明。
通过由图3所示的语音训练部301和语音合成部302执行的统计语音合成处理,实现了电子键盘乐器100,其通过允许演奏时歌唱声音数据215被顺序地输入到声学模型单元306来输出特定演奏者唱得很好的歌唱声音数据217,该演奏时歌唱声音数据215包括由用户的键按下指定的歌曲播放的歌词和音高,该声学模型单元306配备有已经学习了特定歌手的歌唱声音的经训练的声学模型。
此处,在歌唱声音中,快速段落的旋律与慢速段落的旋律之间在演唱方式上存在差异是正常的。图4A和图4B是示出作为歌唱方式基础的乐谱划分示例的说明图。图4A示出了快速段落的歌词旋律的乐谱的示例,而图4B示出了慢速段落的歌词旋律的乐谱的示例。在这些示例中,音高改变模式是相似的。然而,图4A示出了十六分音符(音符的长度是四分音符的1/4)序列的乐谱划分,而图4B示出了四分音符序列的乐谱划分。因此,关于改变音高的速度,图4A中的乐谱划分的速度是图4B中的乐谱划分的速度的四倍。在快速段落的乐曲中,除非缩短,否则歌唱声音的辅音部分不能很好地演唱(演奏)。相反,在快速段落的乐曲中,当歌唱声音的辅音部分被拉长时,可以表现出出具有高表现力的歌唱(演奏)。如上所述,即使当音高改变模式相同时,歌唱旋律的每个音符(四分音符、八分音符、十六分音符等)的长度差异也会导致歌唱(演奏)速度的差异。然而,不用说,即使在演唱(演奏)完全相同的乐谱时,当演奏时的节奏发生改变时,演奏速度也会产生差异。在下面的描述中,将由上述两个因素产生的音符之间的时间间隔(声音生成速度)描述为“演奏节奏”,以区别于普通歌曲的节奏。
图5A和图5B是示出如图4A和图4B所示的演奏节奏的差异引起的歌唱声音波形改变的图。示例如图5A和图5B所示,示出了当/ga/的语音声音被发声时歌唱声音的波形示例。/ga/的语音声音是辅音/g/和元音/a/的组合。在许多情况下,辅音部分的声音长度(时间长度)通常为几十毫秒到大约200毫秒。在这里,图5A示出了用快速段落演唱时的歌唱声音波形的示例,图5B示出了当用慢速段落演唱时的歌唱声音波形的示例。图5A和图5B中波形之间的差异在于辅音部分/g/的长度不同。可以看出,当用快速段落演唱时,如图5A所示,辅音部分的发声时间长度较短,反之,当用慢速段落演唱时,如图5B所示,辅音部分的发声时间长度较长。在以快速段落演唱时,优先级被给予发声起始速度而不需要清晰地唱出辅音。然而,在以慢速段落演唱时,辅音往往发声长而清晰,这增加了词的清晰度。
为了将如上所述的演奏节奏的差异反映到歌唱声音数据的改变中,在由图3所示的语音训练部301和语音合成部302执行的统计声音合成处理中,输入到语音训练部301的训练歌唱声音数据311被添加有指示歌词的训练歌词数据、指示音高的训练音高数据和指示歌唱方式的训练演奏风格数据,并且关于演奏节奏的信息被包含在训练演奏风格数据中。语音训练部301中的训练歌唱声音分析单元303分析训练歌唱声音数据311,从而生成训练语言特征序列313。语音训练部301中的模型训练单元305通过使用训练语言特征序列313来进行机器学习。结果,模型训练单元305可以输出包括关于演奏节奏的信息的经训练的声学模型作为训练结果数据315,并将其存储在语音合成LSI205的语音合成部302中的声学模型单元306中。作为训练演奏风格数据,按顺序测量训练音高数据被按顺序指定的时间间隔,并且指定指示按顺序测量的时间间隔的每个演奏节奏数据。以此方式,本实施例的模型训练单元305可以执行能够导出经训练的声学模型的训练,其中添加了由于演唱方式导致的演奏节奏的差异。
另一方面,在包括如上所述设置经训练的声学模型的声学模型单元306的语音合成部302中,将指示演唱方式的演奏时演奏风格数据添加到指示歌词的演奏时歌词数据,并且将指示音高的演奏时音高数据添加到演奏时歌唱声音数据215,并且关于演奏节奏的信息可以包括在演奏时演奏风格数据中。语音合成部302中的演奏时歌唱声音分析单元307分析演奏时歌唱声音数据215以生成演奏时语言特征序列316。然后,语音合成部302中的声学模型单元306通过将演奏时语言特征序列316输入到经训练的声学模型来输出相对应的频谱信息318和声源信息319,并且将频谱信息和声源信息分别提供给发声模型单元308中的合成滤波器单元310和声源生成单元309。结果,发声模型单元308可以输出歌唱声音数据217,其中因演唱方式产生的演奏节奏的差异所导致的如图5A和图5B所示的辅音的长度等的改变已有所体现。也就是说,可以推断出与实时改变的音符之间的演奏速度改变相匹配的适当的歌唱声音数据217。
图6是示出歌词输出单元、音高指定单元以及演奏风格输出单元的配置示例的框图,其实现为图8至图11的流程图所示的由图2中所示的CPU 201进行的控制处理以生成上述演奏时歌唱声音数据215的功能(稍后描述)的处理。
歌词输出单元601输出指示演奏时的歌词的每个演奏时歌词数据609,将其包含在输出到图2中的语音合成LSI 205的每个演奏时歌唱声音数据215中。具体地,歌词输出单元601顺序地读出由CPU 201预先从ROM 202加载到RAM 203的用于歌曲播放的音乐片段数据604中的每个定时数据605,根据每个定时数据605所指示的定时顺序地读出与每个定时数据605成对存储为音乐片段数据604的每个事件数据606中的每个歌词数据(歌词文本)608,并且分别设置为演奏时歌词数据609。
音高指定单元602输出指示与在演奏时的每个歌词的输出相调谐定的每个音高的每个演奏时音高数据610,并将其包括在输出到图2中的语音合成LSI 205的每个演奏时歌唱声音数据215中。具体地,音高指定单元602顺序地读出加载到RAM 203中的用于歌曲播放的音乐片段数据604中的每个定时数据605,并且当与由于用户按下图1中的键盘101上的任何一个键而按下的键相关的音高信息在每个定时数据605所指示的定时处经由键扫描器206输入时,将音高信息设置为演奏时音高数据610。另外,在用户在每个定时数据605所指示的定时处未按下图1中的键盘101上的任何键时,音高指定单元602将与定时数据605成对存储为音乐片段数据604的事件数据606的音高数据607设置作为演奏时音高数据610。
演奏风格输出单元603输出指示作为演奏时的演奏风格的歌唱方式的演奏时演奏风格数据611,将其包括在输出到图2中的语音合成LSI 205的每个演奏时歌唱声音数据215中。
具体地,当用户在图1中的第一开关面板102上将演奏节奏模式设置为自由模式时,如下文将会描述的,演奏风格输出单元603按顺序测量通过演奏时用户的键按下而指定的音高的时间间隔,将指示按顺序测量的时间间隔的每个演奏节奏数据设置为每个演奏演奏时演奏风格数据611。
另一方面,当用户未在图1的第一开关面板102上将演奏节奏模式设置为自由模式时,如下文将会描述的,演奏风格输出单元603将每个演奏节奏数据设置为各演奏时演奏风格数据611,每个演奏节奏数据与从加载到RAM 203中的用于歌曲播放的音乐片段数据604中按顺序读出的每个定时数据605所指示的每个时间间隔相对应。
另外,当用户在图1的第一开关面板102上将演奏节奏模式设置为演奏节奏调整模式以用于有意改变演奏节奏模式时,如下文将会描述的,演奏风格输出单元603基于演奏节奏调整设置的值,有意地改变如所述的那样按顺序获得的每个演奏节奏数据的值,并且将改变后的每个演奏节奏数据设置为演奏时演奏风格数据611。
以这种方式,由图1中的CPU 201执行的歌词输出单元601、音高指定单元602和演奏风格输出单元603的每个功能可以通过用户的键按或通过歌曲播放而已经发生键按下事件的定时处,生成演奏时歌唱声音数据215,其包括演奏时歌词数据609、演奏时音高数据610和演奏时演奏风格数据611,并且可以将其发送到具有图2或图3中的配置的语音合成LSI 205中的语音合成部302。
下面将详细描述使用图3至图6中描述的统计语音合成处理的图1和图2中的电子键盘乐器100的实施例的操作。图7是示出在本实施例中从图2中的ROM 202加载到RAM 203中的音乐片段数据的详细数据配置示例的图。该数据配置示例符合标准MIDI文件格式,它是MIDI(乐器数字接口)的文件格式之一。该音乐片段数据由称为组块(chunk)的数据块配置。具体地,音乐片段数据由以下配置:文件开头的头部组块(head chunk)、头部组块之后的并且存储歌词部分的歌词数据的第一轨道组块(track chunk)和存储伴奏部分的演奏数据的第二轨道组块。
头部组块由四个值组成:ChunkID、ChunkSize、Format Type、NumberOfTrack和TimeDivision。ChunkID是一个对应四个半角字符“MThd”的4字节的ASCII码“4D 54 68 64”(数字为十六进制),表示该组块为头部组块。ChunkSize为4字节数据,只是头部组块的FormatType、NumberOfTrack和TimeDivision部分的数据长度,不包括ChunkID和ChunkSize。数据长度固定为六个字节“00 00 00 06”(数字为十六进制)。在本实施例的情况下,FormatType是2字节数据“00 01”(数字是十六进制)意味着格式类型是格式1,其中使用多个轨道。在本实施例的情况下,NumberOfTrack是2字节数据“00 02”(数字是十六进制),指示使用对应于歌词部分和伴奏部分的两个轨道。TimeDivision是指示时基值的数据,其指示每个四分音符的分辨率,在本实施例的情况下,是指示十进制的480的2字节数据“01E0”(数字是十六进制)。
第一轨道组块指示歌词部分,其对应于图6中的音乐片段数据604,由以下各项配置:ChunkID、ChunkSize、以及由对应于图6中的定时数据605的DeltaTime_1[i]和对应于图6中的事件数据606的Event_1[i]组成的演奏数据对(0≤i≤L-1)。另外,第二轨道组块对应于伴奏部分,其由以下各项配置:ChunkID、ChunkSize、以及由作为伴奏部分的定时数据的DeltaTime_2[i]和作为伴奏部分的事件数据的Event_2[j]组成的演奏数据对(0≤j≤M-1)。
第一和第二轨道组块中的每个ChunkID都是对应于4个半角字符“MTrk”的4字节ASCII码“4D 54 72 6B”(数字为16进制),其指示该组块是轨道组块。第一和第二轨道组块中的每个ChunkSize是4字节的数据,指示每个轨道组块的数据长度,不包括ChunkID和ChunkSize。
DeltaTime_1[i],即图6中的定时数据605,是指示从Event_1[i-1]的执行时刻起的等待时间(相对时间)的1~4字节的可变长度数据,Event_1[i-1]是紧接在其之前的图6的事件数据605。类似地,作为伴奏部分的定时数据的DeltaTime_2[i]是指示从Event_2[i-1]的执行时间开始的等待时间(相对时间)的1~4字节的可变长度数据,Event_2[i-1]是紧接在其之前的伴奏部分的事件数据。
Event_1[i],即图6中的事件数据606,是在本实施例的第一轨道组块/歌词部分中具有两条信息即歌词的发声文本和音高的元事件。作为伴奏部分的事件数据的Event_2[i]是在第二轨道组块/伴奏部分中指定伴奏声音的音符开启(note-on)或音符关闭(note-off)的MIDI事件,或指定伴奏声音的节奏的元事件。
在第一轨道组块/歌词部分的每个演奏数据对DeltaTime_1[i]和Event_1[i]中,作为事件数据606的Event_1[i]在从Event_1[i-1]的执行时间开始等待DeltaTime_1[i]之后被执行,DeltaTime_1[i]是定时数据605,Event_1[i-1]是紧接在其之前的事件数据606。从而,实现歌曲播放的进行。另一方面,在第二轨道组块/伴奏部分的每个演奏数据对DeltaTime_2[i]和Event_2[i]中,作为事件数据的Event_2[i]在从Event_2[i-1]的执行时间开始等待DeltaTime_2[i]之后被执行,DeltaTime_2[i]是定时数据,Event_2[i-1]是紧接在其之前的事件数据。从而,实现自动伴奏的前进。
图8是示出本实施例的电子乐器的控制处理的示例的主流程图。对于该控制处理,例如,图2中的CPU 201执行从ROM 202加载到RAM 203中的控制处理程序。
在首先执行初始化处理(步骤S801)之后,CPU 201重复执行从步骤S802到步骤S808的一系列处理。
在该重复处理中,CPU 201首先执行开关处理(步骤S802)。这里,CPU 201基于来自图2中的键扫描器206的中断来执行与图1中的第一开关面板102或第二开关面板103上的开关操作相对应的处理。稍后将参考图10中的流程图详细描述开关处理。
接下来,CPU 201基于来自图2中的键扫描器206的中断来执行确定是否已操作图1中的键盘101的任何一个键的键盘处理并且相应地2继续进行(步骤S803)。在键盘处理中,响应于按下或释放任何键的用户操作,CPU 201输出指示图2中的声源LSI 204开始生成声音或停止生成声音的音乐声音控制数据216。另外,在键盘处理中,CPU 201执行计算从紧接的前一次键按下到当前键按下的时间间隔作为演奏节奏数据的处理。稍后将参照图11中的流程图详细描述键盘处理。
接下来,CPU 201处理要在图1中的LCD 104上显示的数据,并且经由图2的LCD控制器208来执行在LCD 104上显示数据的显示处理(步骤S804)。要在LCD 104上显示的数据的示例包括对应于正在演奏的歌唱声音数据217的歌词、对应于歌词的旋律和伴奏的乐谱、以及与各种设置有关的信息。
接下来,CPU 201执行歌曲播放处理(步骤S805)。在歌曲播放处理中,CPU 201生成并向语音合成LSI 205发出该演奏时歌唱声音数据215,该演奏时歌唱声音数据215包括用于基于歌曲播放来操作语音合成LSI 205的歌词、发声音高和演奏节奏。稍后将参考图13中的流程图详细描述歌曲播放处理。
随后,CPU 201执行声源处理(步骤S806)。在声源处理中,CPU 201执行控制处理,例如用于控制在声源LSI 204中生成的音乐声音的包络的处理。
随后,CPU 201执行语音合成处理(步骤S807)。在语音合成处理中,CPU 201控制由语音合成LSI 205对语音合成的执行。
最后,CPU 201确定用户是否已经按下了电源关闭开关(未具体示出)以关闭电源(步骤S808)。当步骤S808中的确定为“否”时,CPU 201返回到步骤S802的处理。当步骤S808中的确定为“是”时,CPU 201结束图8的流程图所示的控制处理,并关闭电子键盘乐器100的电源。
图9A、图9B和图9C是各自示出在图8的步骤S802的开关处理期间图8中的步骤S801的初始化处理、图10的步骤S1002的节奏改变处理以及类似地图10中的步骤S1006的歌曲开始处理的详细示例的流程图,后面将对这些进行描述。
首先,在图9A中示出了图8的步骤S801的初始化处理的详细例,CPU 201执行TickTime初始化处理。在本实施例中,歌词和自动伴奏的进行以称为TickTime的时间单位进行。在图7中指定为音乐片段数据的头部组块中的TimeDivision值的时基值指示每四分音符的分辨率。例如,如果此值为480,则每个四分音符的长度为480TickTime的时间。DeltaTime_1[i]值和DeltaTime_2[i]值指示图7中音乐片段数据的轨道组块中的等待时间,也是以TickTime为单位计算的。这里,对应于1个TickTime的实际秒数根据针对音乐片段数据指定的节奏而不同。将节奏值作为Tempo(每分钟节拍数),并且将时基值作为TimeDivision,使用以下等式(3)计算每单位TickTime的秒数。
[表达式15]
TickTime[sec]=60/Tempo/TimeDivision (3)
因此,在图9A的流程图所示的初始化处理中,CPU 201首先通过对应于等式(10)的算术处理来计算TickTime(sec)(步骤S901)。注意,假定节奏值Tempo的规定值,例如60(每秒节拍),被以初始状态存储在图2中的ROM 202中。或者,可以将先前处理结束时的节奏值存储在非易失性存储器中。
接下来,CPU 201通过使用在步骤S901计算的TickTime(sec)来为图2中的定时器210设置定时器中断(步骤S902)。结果,每当已经经过TickTime(sec)时,由定时器210向CPU201示出用于歌曲播放和自动伴奏的中断(以下称为“自动演奏中断”)。因此,在CPU 201基于自动演奏中断而执行的自动演奏中断处理(图12,稍后将描述)中,每1个TickTime执行用于进行歌曲播放和自动伴奏的控制处理。
随后,CPU 201执行额外的初始化处理,例如用于初始化图2中的RAM 203的处理(步骤S903)。此后,CPU 201结束图8中的步骤S801的初始化处理,如图9A所示的流程图。
稍后将描述图9B和图9C中的流程图。图10是示出图8的步骤S802的开关处理的详细示例的流程图。
CPU 201首先确定是否通过第一开关面板102上的节奏改变开关而已经改变了歌词进行和自动演奏的节奏(步骤S1001)。当确定为“是”时,CPU 201执行节奏改变处理(步骤S1002)。稍后将参照图9B详细描述该处理。当步骤S1001中的确定为“否”时,CPU 201跳过步骤S1002的处理。
接下来,CPU 201确定是否已经用图1中的第二开关面板103选择了任何一首歌曲(步骤S1003)。当确定为“是”时,CPU 201执行歌曲加载处理(步骤S1004)。该处理是将具有图7中描述的数据结构的音乐片段数据从ROM 202加载到图2中的RAM 203中的处理。需要注意的是,歌曲加载处理可以不在演奏过程中执行,而是可以在演奏开始前执行。对图7所示数据结构中的第一或第二轨道组块的后续数据访问是针对加载到RAM 203中的音乐片段数据执行的。当步骤S1003中的确定为“否”时,CPU 201跳过步骤S1004的处理。
随后,CPU 201确定是否在图1中的第一开关面板102上已经操作了歌曲开始开关(步骤S1005)。当确定为“是”时,CPU 201执行歌曲开始处理(步骤S1006)。稍后将参照图9C详细描述该处理。当步骤S1005中的确定为“否”时,CPU 201跳过步骤S1006的处理。
随后,CPU 201确定是否在图1中的第一开关面板102上已经操作了自由模式开关(步骤S1007)。当确定为“是”时,CPU 201执行改变RAM 203上的变量FreeMode的值的自由模式设置处理(步骤S1008)。自由模式开关例如可以以拨动方式操作,并且例如在图9A中的步骤S903中将变量FreeMode的初始值设置为值1。当在此状态下按下自由模式开关时,变量FreeMode的值变为0,并且当再次按下自由模式开关时,变量FreeMode的值变为1。即,每当按下自由模式开关时,变量FreeMode的值在0和1之间交替切换。当变量FreeMode的值为1时,设置自由模式,当值为0时,取消自由模式设置。当步骤S1007中的确定为“否”时,CPU201跳过步骤S1008的处理。
随后,CPU 201确定是否在图1中的第一开关面板102上已经操作了演奏节奏调节开关(步骤S1009)。当确定为“是”时,CPU 201执行将RAM 203上的变量ShiinAdjust的值改变为由第一开关面板102上的数字键指定的值的演奏节奏调整设置处理,随后是对演奏节奏调整开关的操作(步骤S1010)。例如,在图9A的步骤S903中变量ShiinAdjust的初始值被设置为值0。当步骤S1009中的确定为“否”时,CPU 201跳过步骤S1010的处理。
最后,CPU 201确定图1中的第一开关面板102或第二开关面板103上是否已经有其他开关被操作,并执行与各开关操作对应的处理(步骤S1011)。此后,CPU 201结束图8的步骤S802的开关处理,如图10的流程图所示。
图9B是示出图10的步骤S1002的节奏改变处理的详细示例的流程图。如上所述,节奏值的改变也会导致TickTime(sec)的改变。在图9B所示的流程图中,CPU 201执行与改变TickTime(sec)有关的控制处理。
首先,类似于在图8的步骤S801的初始化处理中执行的图9A中的步骤S901,CPU201通过对应于等式(3)的算术处理来计算TickTime(sec)(步骤S911)。注意,假定已经使用图1中的第一开关面板102上的节奏改变开关改变的节奏值Tempo存储在RAM 203等中。
接下来,类似于在图8的步骤S801的初始化处理中执行的图9A中的步骤S902,CPU201使用在步骤S911计算的TickTime(sec)来为图2中的定时器210设置定时器中断(步骤S912)。随后,CPU 201结束图10中的步骤S1002的节奏改变处理,流程图如图9B所示。
图9C是示出图10的步骤S1006的歌曲开始处理的详细示例的流程图。
首先,对于自动演奏的进行,CPU 201初始化RAM 203上的定时数据变量DeltaT_1(第一轨道组块)和定时数据变量DeltaT_2(第二轨道组块)两者的值以对自上次事件到0的相对时间进行计数,单位为TickTime。接下来,CPU 201将RAM 203上的变量AutoIndex_1和RAM 203上的变量AutoIndex_2的相应值初始化为0,变量AutoIndex_1用于为图7中所示的音乐片段数据的第一轨道组块中的演奏数据对DeltaTime_1[i]和Event_1[i]指定i值(1≤i≤L-1),并且变量AutoIndex_2用于为在图7中所示的音乐片段数据的第二轨道组块中的演奏数据对DeltaTime_2[j]和Event_2[j]指定j值(1≤j≤M-1)(以上为步骤S921)。因此,在图7的示例中,第一轨道组块开头的演奏数据对DeltaTime_1[0]和Event_1[0]以及第二轨道组块开头的演奏数据对DeltaTime_2[0]和Event_2[0]分别被称为初始状态。
接下来,CPU 201将指定当前歌曲位置的RAM 203上的变量SongIndex的值初始化为空值(步骤S922)。在许多情况下,空值通常定义为0。然而,由于存在索引编号为0的情况,因此在本实施例中将空值定义为-1。
CPU 201还将RAM 203上的变量SongStart的值初始化为1(提前)(步骤S923),该值指示是提前(=1)还是不提前(=0)歌词和伴奏。
然后,CPU 201确定用户是否已通过使用图1中的第一开关面板102进行设置以与歌词的播放相调谐地再现伴奏(步骤S924)。
当步骤S924中的确定为“是”时,CPU 201将RAM 203上的变量Bansou的值设置为1(有伴奏)(步骤S925)。另一方面,当步骤S924中的确定为“否”时,CPU 201将变量Bansou的值设置为0(没有伴奏)(步骤S926)。在步骤S925或S926的处理之后,CPU 201结束图10中的步骤S1006的歌曲开始处理,流程图如图9C所示。
图11是示出图8的步骤S803的键盘处理的详细示例的流程图。首先,CPU 201确定是否已经经由图2中的键扫描器206操作了图1中键盘101上的任何一个键(步骤S1101)。
当步骤S1101中的确定为“否”时,CPU 201结束图8中的步骤S803的键盘处理,如图11中的流程图所示。
当步骤S1101中的确定为“是”时,CPU 201确定是否已经执行了键按下操作或键释放操作(步骤S1102)。
当在步骤S1102的确定中确定已经执行键释放操作时,CPU 201指示语音合成LSI205取消与键释放音高(或键号)相对应的歌唱声音数据217的发声(步骤S1113)。响应于该指示,语音合成LSI 205中的图3中的语音合成部302停止相对应的歌唱声音数据217的发声。此后,CPU 201结束图8中的步骤S803的键盘处理,如图11中的流程图所示。
当在步骤S1102的确定中确定已经执行了键按下操作时,CPU 201确定RAM 203上的变量FreeMode的值(步骤S1103)。变量FreeMode的值在如上所述图10的步骤S1008中设置。当变量FreeMode的值为1时,设置自由模式,当值为0时,取消自由模式设置。
当在步骤1103中确定变量FreeMode的值为0并且自由模式设置已经被取消时,如上面关于图6中的演奏风格输出单元603所描述的,CPU 201将使用稍后描述的DeltaTime_1[AutoIndex_1]通过以下等式(4)所示的算术处理计算的值设置给RAM 203上的变量PlayTempo,指示对应于图6A中的演奏时演奏风格数据611的演奏节奏,该DeltaTime_1[AutoIndex_1]是从加载到RAM 203中的用于歌曲播放的音乐片段数据604顺序读出的每个定时数据605(步骤S1109)。
[表达式16]
PlayTempo=(1/DeltaTime_1[AutoIndex_1])×预定系数 (4)
在等式(4)中,预定系数在本实施例中为音乐片段数据的TimeDivision值×60。即,如果TimeDivision值为480,则当DeltaTime_1[AutoIndex_1]为480时,PlayTempo变为60(对应于正常节奏60)。当DeltaTime_1[AutoIndex_1]为240时,PlayTempo变为120(相当于正常节奏120)。
当自由模式设置被取消时,演奏节奏被设置为与关于歌曲播放相关的定时信息同步。
当在步骤1103中确定变量FreeMode的值为1时,CPU 201进一步确定RAM 203上的变量NoteOnTime的值是否为空值(步骤S1104)。在歌曲播放开始时,例如,在图9A中的步骤S903中,变量NoteOnTime的值已经被初始设置为空值,并且在歌曲播放开始之后,在稍后将描述的步骤S1110中按顺序设置图2中的定时器210的当前时间。
在歌曲播放开始时并且当步骤S1104中的确定为“是”时,不能根据用户的键按下操作来确定演奏节奏。因此,CPU 201将使用作为RAM 203上的定时数据605的DeltaTime_1[AutoIndex_1]通过等式(4)所示的算术处理计算出的值设置给RAM 203上的变量PlayTempo(步骤S1109)。以这种方式,在歌曲播放开始时,演奏节奏暂时以与关于歌曲播放的定时信息同步的方式设置。
在歌曲播放开始之后并且当步骤S1104中的确定为“否”时,CPU 201首先将差异时间设置给RAM 203上的变量DeltaTime,该差异时间是通过从图2中的定时器210指示的当前时间减去RAM 203上指示上一次键按下时间的变量NoteOnTime的值而获得的(步骤S1105)。
接下来,CPU 201确定指示从上一次键按下时间到当前键按下时间的差异时间的变量DeltaTime的值是否小于用于视为通过和弦演奏(和弦)的同时键按下的预定最大时间(步骤S1106)。
当步骤S1106中的确定为“是”并且确定当前键按下是通过和弦演奏(和弦)的同时键按下时,CPU 201不执行用于确定演奏节奏的处理,并且进行到步骤S1110,其将稍后描述。
当步骤S1106中的确定为“否”并且确定当前键按下不是通过和弦演奏(和弦)的同时键按下时,CPU 201进一步确定指示从上一次键按下到当前键按下的差异时间的变量DeltaTime的值是否大于用于视为演奏被中途中断的最小时间(步骤S1107)。
当步骤S1107的确定为“是”并且确定该键按下是演奏已经中断一段时间后的键按下(演奏乐句的开始),则无法确定演奏乐句的演奏节奏。因此,CPU 201将使用作为RAM 203上的定时数据的DeltaTime_1[AutoIndex_1]通过等式(4)所示的算术处理计算的值设置给RAM 203上的变量PlayTempo(步骤S1109)。以这种方式,在演奏已经中断一段时间后的键按下(演奏乐句的开头)的情况下,演奏节奏被暂时以与歌曲播放相关的定时信息同步的方式设置。
当步骤S1107中的确定为“否”并且确定当前键按下既不是提供和弦演奏(和弦)的同时键按下也不是在演奏乐句开头的键按下时,CPU 201将通过预定系数乘以指示从上一次键按下到当前键按下的差异时间的变量DeltaTime的倒数(如以下等式(5)所示)获得的值设置给RAM 203上的指示对应于图6中的演奏时演奏风格数据611的演奏节奏的变量PlayTempo(步骤S1108)。
[表达式17]
PlayTempo=(1/DeltaTime)×预定系数 (5)
作为步骤S1108中的处理的结果,当指示上一次键按下与当前键按下之间的差异时间的变量DeltaTime的值较小时,作为演奏节奏的PlayTempo的值增加(演奏节奏变快),演奏乐句被视为快速段落,并且在语音合成LSI 205的语音合成部302中,推断歌唱声音数据217的声音波形,其中辅音部分的时间长度较短,如图5A所示。另一方面,当指示差异时间的变量DeltaTime的值较大时,演奏节奏的值变小(演奏节奏变慢),演奏乐句被视为慢速段落,在语音合成中在部分302中,推断歌唱声音数据217的声音波形,其中如图5B所示,辅音部分的时间长度较长。
在上述步骤S1108的处理之后,在上述步骤S1109的处理之后,或者在上述步骤S1106中的确定变为“是”之后,CPU 201将由图2中的定时器210指示的当前时间设置给RAM203上的指示上一次键按下时间的变量NoteOnTime(步骤S1110)。
最后,CPU 201将通过添加RAM 203上的变量ShiinAdjust的值(参见图10中的步骤S1010)获得的值设置为变量PlayTempo的新值(步骤S1111),其中用户有意设置的演奏节奏调整值被设置给RAM 203上的指示在步骤S1108或S1109中确定的演奏节奏的变量PlayTempo的值。此后,CPU 201结束图8中的步骤S803的键盘处理,如图11的流程图中所示。
通过步骤S1111的处理,用户可以有意地调整在语音合成部302中合成的歌唱声音数据217中的辅音部分的时间长度。在某些情况下,用户可能想要调整歌唱方式,这取决于歌名或品味。例如,对于某些歌曲,当用户希望通过缩短整体声音来提供具有良好发声效果的表演时,用户可能希望通过缩短辅音来生成这样的语音声音:就好像是用快速说话的方式演唱歌曲一样。反之,对于一些歌曲,当用户想要整体舒畅地进行表演时,用户可能希望生成这样的语音声音:能够清晰地传递出辅音的气息,就像在慢慢地唱出歌唱声音一样。因此,在本实施例中,用户可以通过例如操作图1中的第一开关面板102上的演奏节奏调节开关来改变变量ShiinAdjust的值,并基于此,通过调整变量PlayTempo的值来合成反映用户意图的歌唱声音数据217。除了开关操作之外,通过用脚操作连接到电子键盘乐器100的使用可变电阻器的踏板,可以在一段音乐的任意时间精细地控制ShiinAdjust的值。
通过上述键盘处理设置给变量PlayTempo的演奏节奏值作为稍后描述的歌曲播放处理中的演奏时歌唱声音数据215的一部分而被设置(参考稍后描述的图13中的步骤S1305)并且被发布到语音合成LSI 205。
在上述键盘处理中,特别是,步骤S1103至S1109和步骤S1111的处理对应于图6中的演奏风格输出单元603的功能。
图12是示出基于每TickTime(sec)由图2的定时器210产生的中断而执行的自动演奏中断处理的详细示例的流程图(参照图9A的步骤S902或图9B的步骤S912)。对图7所示的音乐片段数据中的第一和第二轨道组块的演奏数据对执行以下处理。
首先,CPU 201执行对应于第一轨道组块的一系列处理(步骤S1201至S1206)。首先,CPU 201确定SongStart的值是否为1(参见图10中的步骤S1006和图9C中的步骤S923),即,是否已经指示了歌词和伴奏的进行(步骤S1201)。
当确定没有指示歌词和伴奏的进行时(步骤S1201中的确定为“否”),CPU 201结束图12的流程图所示的自动演奏中断处理,而没有进行歌词和伴奏的进行。
当确定已指示歌词和伴奏的进行时(步骤S1201中的确定为“是”),CPU 201确定RAM 203上的变量DeltaT_1的值是否与RAM 203上的DeltaTime_1[AutoIndex_1]相匹配(步骤S1202),其中变量DeltaT_1指示自上次事件以来相对于第一轨道组块的相对时间,DeltaTime_1[AutoIndex_1]是定时数据605(图6),其指示由RAM 203上的变量AutoIndex_1的值表示的将要执行的演奏数据对的等待时间。
当步骤S1202中的确定为“否”时,CPU 201将变量DeltaT_1的值递增1,该变量DeltaT_1指示自上次事件以来相对于第一轨道组块的相对时间,并且允许时间提前对应于当前中断的1个TickTime单位(步骤S1203)。此后,CPU 201进行到步骤S1207,这将在稍后描述。
当步骤S1202中的确定为“是”时,CPU 201将变量AutoIndex_1的值存储在RAM 203上的变量SongIndex中(步骤S1204),变量AutoIndex_1指示接下来在第一轨道组块中应执行的歌曲事件的位置。
此外,CPU 201将用于引用第一轨道组块中的演奏数据对的变量AutoIndex_1的值递增1(步骤S1205)。
此外,CPU 201将变量DeltaT_1的值重置为0(步骤S1206),该变量DeltaT_1指示自最近在第一轨道组块中引用的歌曲事件以来的相对时间。此后,CPU 201进行到步骤S1207的处理。
接下来,CPU 201执行与第二轨道组块相对应的一系列处理(步骤S1207至S1213)。首先,CPU 201确定RAM 203上的变量DeltaT_2的值是否与RAM 203上的DeltaTime_2[AutoIndex_2]相匹配,该变量DeltaT_2指示自上次事件以来相对于第二轨道组块的相对时间,DeltaTime_2[AutoIndex_2]是由RAM 203上的变量AutoIndex_2的值指示的将要执行的演奏数据对的定时数据(步骤S1207)。
当在步骤S1207中的确定为“否”时,CPU 201将变量DeltaT_2的值递增1,该变量DeltaT_2指示自上次事件以来相对于第二轨道组块的相对时间,并允许时间提前对应于当前中断的1个TickTime单位(步骤S1208)。此后,CPU 201结束图12的流程图中所示的自动演奏中断处理。
当步骤S1207中的确定为“是”时,CPU 201确定指示伴奏播放的RAM 203上的变量Bansou的值是否是1(有伴奏)还是不是1(没有伴奏)(步骤S1209)(参见图9C中的步骤S924至S926)。
当步骤S1209中的确定为“是”时,CPU 201执行由RAM 203上的与由变量AutoIndex_2的值指示的第二轨道组块的伴奏相关的事件数据Event_2[AutoIndex_2]所指示的处理(步骤S1210)。当此处执行的事件数据Event_2[AutoIndex_2]所指示的处理例如是音符开启事件时,音符开启事件指定的键编号和速度用于向图2中的声源LSI 204发出指令以生成用于伴奏的音乐声音。另一方面,当事件数据Event_2[AutoIndex_2]所指示的处理例如是音符关闭事件时,音符关闭事件所指定的键编号用于向图2中的声源LSI 204发出指令以取消正在生成的伴奏的音乐声音。
另一方面,当步骤S1209中的确定为“否”时,CPU 201跳过步骤S1210并进行到下一步骤S1211的处理以便与歌词同步地进行而不执行与当前伴奏有关的事件数据Event_2[AutoIndex_2]所指示的处理,并且只执行推进事件的控制处理。
在步骤S1210之后,或者当步骤S1209中的确定为“否”时,CPU 201将用于引用第二轨道组块上的伴奏数据的演奏数据对的变量AutoIndex_2的值递增1(步骤S1211)。
接下来,CPU 201将指示自最近针对第二轨道组块执行的事件以来的相对时间的变量DeltaT_2的值重置为0(步骤S1212)。
然后,CPU 201确定由变量AutoIndex_2的值指示的下一个要执行的第二轨道组块上的演奏数据对的RAM 203上的定时数据DeltaTime_2[AutoIndex_2]的值是否为0,即,该事件是否将在与当前事件相同的时间执行(步骤S1213)。
当步骤S1213中的确定为“否”时,CPU 201结束图12中的流程图所示的当前自动演奏中断处理。
当步骤S1213中的确定为“是”时,CPU 201返回到步骤S1209的处理,并且重复与RAM 203上的接下来要对由变量AutoIndex_2的值所指示的第二轨道组块执行的演奏数据对中的事件数据Event_2[AutoIndex_2]相关的控制处理。CPU 201重复执行步骤S1209至S1213的处理达这次要同时执行的次数。当多个音符开启事件将要在同时的定时产生声音时,例如和弦,执行上述处理序列。
图13是示出图8中的步骤S805的歌曲播放处理的详细示例的流程图。
首先,在图12的自动演奏中断处理中的步骤S1204中,CPU 201确定是否已经为RAM203上的变量SongIndex设置了除空值以外的新值以进入歌曲播放状态(步骤S1301)。对于变量SongIndex,最初在歌曲开始时在图9C的步骤S922中设置空值,在步骤S1204中设置指示接下来要执行的歌曲事件在第一轨道组块中的位置的变量AutoIndex_1的有效值,每当歌唱声音播放定时到达时当在图12中的自动演奏中断处理中步骤S1202中的确定为“是”时继续,每当再一次执行图13中的流程图所示的歌曲播放处理时,都在稍后描述的步骤S1307中再次设置空值。即,对于变量SongIndex的值是否设置为非空值的有效值指示当前定时是否为歌曲播放定时。
当步骤S1301中的确定为“是”时,即,在当前时间是歌曲播放定时时,CPU 201确定图8中的步骤S803的键盘处理已经检测到图1中的键盘101上的新用户键按下(步骤S1302)。
当步骤S1302中的确定为“是”时,CPU 201将通过用户键按下指定的音高设置给未具体示出的寄存器或RAM 203上的变量,作为发声音高(步骤S1303)。
另一方面,当通过步骤S1301中的确定而确定当前时间是歌曲播放定时并且步骤S1302中的确定为“否”时,即确定在当前时间还没有检测到新的键按下,CPU 201从由RAM203的变量SongIndex指示的RAM 203上的音乐片段数据的第一轨道组块上的歌曲事件数据Event_1[SongIndex]读出音高数据(对应于图6中的事件数据606中的音高数据607),并且将该音高数据设置给未具体示出的寄存器或RAM 203上的变量(步骤S1304)。
随后,CPU 201从RAM 203上的变量SongIndex指示的RAM 203上的音乐片段数据的第一轨道组块上的歌曲事件Event_1[SongIndex]读出歌词串(对应于图6中的事件数据606中的歌词数据608)。然后,CPU 201设置演奏时歌唱声音数据215,其中读取的歌词串(对应于图6中的演奏时歌词数据609)、在步骤S1303或S1304中获取的发声音高(对应于图6中的演奏时音高数据610)、以及在对应于图8中的步骤S803的图10的步骤S1111的步骤S1111中获得的针对RAM 203上的变量PlayTempo的演奏节奏(对应于图6中的演奏时演奏风格数据611)被设置给未具体示出的寄存器或RAM 203上的变量(步骤S1305)。
随后,CPU 201将在步骤S1305中生成的演奏时歌唱声音数据215发布到图2中的语音合成LSI 205的图3中的语音合成部302(步骤S1306)。如参考图3至图6所描述的,语音合成LSI 205根据由演奏时歌唱声音数据215指定的歌词,推断、合成并输出歌唱声音数据217,歌唱声音数据217实时地与以下相对应:通过由演奏时歌唱声音数据215指定的键盘101上的用户键按下或歌曲播放而自动指定为音高数据607(参考图6)的音高,并且歌唱声音数据217以由演奏时歌唱声音数据215指定的演奏节奏(演唱方式)适当地演唱歌曲。
最后,CPU 201清除变量SongIndex的值以变为空值并且使随后的定时成为非歌曲播放定时(步骤S1307)。此后,CPU 201结束图8中的步骤S805的歌曲播放处理,如图13的流程图所示。
在上述歌曲播放处理中,特别地,步骤S1302至S1304的处理对应于图6中的音高指定单元602的功能。特别地,步骤S1305的处理对应于图6中的歌词输出单元601的功能。
根据上述实施例,根据要演奏的音乐片段的类型和演奏乐句,例如,人声中的辅音部分的发声时间长度在慢速段落的具有较少音符的演奏中较长,并且可以产生高度表现力和活泼的声音,并且在具有快速节奏或许多音符的演奏中较短,并且可以产生清晰的声音。即,可以获得与演奏乐句相匹配的音色改变。
上述实施例是被配置为生成歌唱声音数据的电子乐器的实施例,但是作为另一实施例,还可以实现被配置为生成管乐器或弦乐器的声音的电子乐器的实施例。在这种情况下,对应于图3中的声学模型单元306的声学模型单元存储经训练的声学模型,该经训练的声学模型通过指定音高的训练音高数据、与指示对应于音高的管乐器或弦乐器的特定声源的声学的训练声学数据相对应的教师数据以及表示训练声学数据的演奏风格(例如演奏节奏)的训练演奏风格数据来进行机器学习,并输出与输入的音高数据和演奏风格数据相对应的声学模型参数。此外,音高指定单元(对应于图6中的音高指定单元602)输出指示在演奏时由用户的演奏操作指定的音高的演奏时音高数据。进一步地,演奏风格输出单元(对应于图6中的演奏风格输出单元603)输出指示上述演奏时演奏风格的演奏时演奏风格数据,例如演奏节奏。声音生成模型单元(对应于图3中的发声模型单元308)合成并输出音乐声音数据,音乐声音数据基于通过上述演奏时音高数据和演奏时演奏风格数据输入到声学模型单元中存储的经训练的声学模型而输出的声学模型参数,在演奏时推断某个声源的语音声音。在这种电子乐器的实施例中,例如,在具有快速段落的歌曲中,推断和合成诸如管乐器的吹奏声或者好像以弓减速弹奏弦乐器的琴弦时弓击弦的速度的音高数据,因此具有清晰声音的演奏成为可能。相反,在一首低段落的歌曲中,推断和合成诸如管乐器的吹奏声或好像在用弓击弦乐器的弦时弓击弦的时间被拉长的音高数据,从而使具有高表现力的演奏成为可能。
在上述实施例中,在无法估计演奏乐句的速度的情况下,例如第一次键按下或演奏乐句的第一次键按下,当演唱或敲击声较强时,辅音或声音的上升部分变短,演唱或敲击声较弱时,辅音或声音的上升部分变长。利用这样的趋势,可以将弹奏键盘的力度(按下键时的速度值)用作为计算演奏节奏值的依据。
可以采用作为图3的发声模型单元308的语音合成方法不限于倒谱语音合成方法,可以采用包括LSP语音合成方法在内的多种语音合成方法。
另外,作为语音合成方法,除了基于使用HMM声学模型的统计语音合成处理和使用DNN声学模型的统计语音合成处理的语音合成方法之外,可以采用任何语音合成方法,只要它是一种使用基于机器学习的统计语音合成处理的技术,例如结合了HMM和DNN的声学模型。
在上述实施例中,演奏时歌词数据609作为预先存储的音乐片段数据604给出。然而,通过对用户实时演唱的内容执行语音识别而获得的文本数据可以作为实时歌词信息给出。
针对上述实施例,还公开了以下附录。
(附录1)
一种电子乐器,包括:
音高指定单元,其被配置为输出在演奏时指定的演奏时音高数据;
演奏风格输出单元,其被配置为输出指示演奏时的演奏风格的演奏时演奏风格数据;以及
声音生成模型单元,其被配置为基于通过将所述演奏时音高数据和所述演奏时演奏风格数据输入经训练的声学模型推断出的声学模型参数,来在演奏时合成并输出与所述演奏时音高数据和所述演奏时演奏风格数据相对应的音乐声音数据。
(附录二)
一种电子乐器,包括:
歌词输出单元,其被配置为输出指示在演奏时的歌词的演奏时歌词数据;
音高指定单元,其被配置为输出与在演奏时的歌词的输出相调谐地指定的演奏时音高数据;
演奏风格输出单元,其被配置为输出指示演奏时的演奏风格的演奏时演奏风格数据;以及
发声模型单元,其被配置为基于通过将所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据输入经训练的声学模型推断出的声学模型参数,来在演奏时合成并输出与所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据相对应的歌唱声音数据。
(附录3)
根据附录1或2所述的电子乐器,其中,所述演奏风格输出单元被配置为按顺序测量演奏时指定音高的时间间隔,并按顺序输出指示按顺序测量的时间间隔的演奏节奏数据,作为演奏时演奏风格数据。
(附录4)
根据附录3所述的电子乐器,其中,所述演奏风格输出单元包括改变装置,用于允许用户有意地改变按顺序获得的演奏节奏数据。
(附录5)
一种电子乐器控制方法,包括使电子乐器的处理器执行以下处理:
输出演奏时指定的演奏时音高数据;
输出指示演奏时的演奏风格的演奏时演奏风格数据;以及
基于通过将所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型中推断出的声学模型参数,来在演奏时合成并输出与所述演奏时音高数据和所述演奏时演奏风格数据对应的音乐声音数据。
(附录6)
一种电子乐器控制方法,包括使电子乐器的处理器执行以下处理:
输出指示演奏时的歌词的演奏时歌词数据;
输出与在演奏时的歌词的输出相调谐地指定的演奏时音高数据;
输出指示演奏时的演奏风格的演奏时演奏风格数据;以及
基于通过将所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型中推断出的声学模型参数,来在演奏时合成并输出与演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据相对应的歌唱声音数据。
(附录7)
一种使电子乐器的处理器执行以下处理的程序:
输出演奏时指定的演奏时音高数据;
输出指示演奏时的演奏风格的演奏时演奏风格数据;以及
基于通过将所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型中推断出的声学模型参数,来在演奏时合成并输出与所述演奏时音高数据和所述演奏时演奏风格数据相对应的音乐声音数据。
(附录8)
一种使电子乐器的处理器执行以下处理的程序:
输出指示演奏时的歌词的演奏时歌词数据;
输出与在演奏时的歌词的输出相调谐地指定的演奏时音高数据;
输出指示演奏时的演奏风格的演奏时演奏风格数据;以及
基于通过将所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型中推断出的声学模型参数,来在演奏时合成并输出与所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据相对应的歌唱声音数据。
本申请基于2020年9月11日提交的日本专利申请第2020-152926号,其内容通过引用并入本文。
参考符号列表
100:电子键盘乐器
101:键盘
102:第一开关面板
103:第二开关面板
104:LCD
200:控制系统
201:CPU
202:ROM
203:RAM
204:声源LSI
205:声音合成LSI
206:键扫描器
208:LCD控制器
209:系统总线
210:定时器
211、211:D/A转换器
213:混合器
214:放大器
215:歌唱声音数据
216:声音生成控制数据
217:歌唱声音数据
218:音乐声音数据
219:网络接口
300:服务器计算机
301:语音训练部
302:声音合成部
303训练歌唱声音分析单元
304:训练声学特征提取单元
305:模型训练单元
306:声学模型单元
307:演奏时歌唱声音分析单元
308:发声模型单元
309:声源生成单元
310:合成滤波器单元
311:训练歌唱声音数据
312:训练歌唱声音数据
313:训练语言特征序列
314:训练声学特征序列
315:训练结果数据
316:演奏时语言特征序列
317:演奏时声学特征序列
318:频谱信息
319:声源信息
601:歌词输出单元
602:音高指定单位
603:演奏风格输出单元
604:音乐片段数据
605:定时数据
606:事件数据
607:音高数据
608:歌词数据
609:演奏时歌词数据
610:演奏时音高数据
611:演奏时演奏风格数据
Claims (8)
1.一种电子乐器,包括:
音高指定单元,其被配置为输出在演奏时指定的演奏时音高数据;
演奏风格输出单元,其被配置为输出指示在所述演奏时的演奏风格的演奏时演奏风格数据;以及
声音生成模型单元,其被配置为基于通过将所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型而推断出的声学模型参数,在所述演奏时合成并输出与所述演奏时音高数据和所述演奏时演奏风格数据相对应的音乐声音数据。
2.一种电子乐器,包括:
歌词输出单元,其被配置为输出指示在演奏时的歌词的演奏时歌词数据;
音高指定单元,其被配置为输出与在所述演奏时的歌词的输出相调谐地指定的演奏时音高数据;
演奏风格输出单元,其被配置为输出指示在所述演奏时的演奏风格的演奏时演奏风格数据;以及
发声模型单元,其被配置为基于通过将所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型而推断出的声学模型参数,在所述演奏时合成并输出与所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据相对应的歌唱声音数据。
3.根据权利要求1或2所述的电子乐器,其中,所述演奏风格输出单元被配置为按顺序测量在所述演奏时指定音高的时间间隔,并按顺序输出指示按顺序测量的时间间隔的演奏节奏数据,作为所述演奏时演奏风格数据。
4.根据权利要求3所述的电子乐器,其中,所述演奏风格输出单元包括改变装置,其用于允许用户有意地改变按顺序获得的所述演奏节奏数据。
5.一种电子乐器控制方法,包括使电子乐器的处理器执行以下处理:
输出在演奏时指定的演奏时音高数据;
输出指示在所述演奏时的演奏风格的演奏时演奏风格数据;以及
基于通过将所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型而推断出的声学模型参数,在所述演奏时合成并输出与所述演奏时音高数据和所述演奏时演奏风格数据相对应的音乐声音数据。
6.一种电子乐器控制方法,包括使电子乐器的处理器执行以下处理:
输出指示在演奏时的歌词的演奏时歌词数据;
输出与所述在演奏时的歌词的输出相调谐地指定的演奏时音高数据;
输出指示在所述演奏时的演奏风格的演奏时演奏风格数据;以及
基于通过将所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型而推断出的声学模型参数,在所述演奏时合成并输出与所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据相对应的歌唱声音数据。
7.一种使电子乐器的处理器执行以下处理的程序:
输出在演奏时指定的演奏时音高数据;
输出指示在所述演奏时的演奏风格的演奏时演奏风格数据;以及
基于通过将所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型而推断出的声学模型参数,在所述演奏时合成并输出与所述演奏时音高数据和所述演奏时演奏风格数据相对应的音乐声音数据。
8.一种使电子乐器的处理器执行以下处理的程序:
输出指示在所述演奏时的歌词的演奏时歌词数据;
输出与在所述演奏时的歌词的输出相调谐地指定的演奏时音高数据;
输出指示在所述演奏时的演奏风格的演奏时演奏风格数据;以及
基于通过将所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据输入到经训练的声学模型而推断出的声学模型参数,在所述演奏时合成并输出与所述演奏时歌词数据、所述演奏时音高数据和所述演奏时演奏风格数据相对应的歌唱声音数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-152926 | 2020-09-11 | ||
JP2020152926A JP7276292B2 (ja) | 2020-09-11 | 2020-09-11 | 電子楽器、電子楽器の制御方法、及びプログラム |
PCT/JP2021/029833 WO2022054496A1 (ja) | 2020-09-11 | 2021-08-13 | 電子楽器、電子楽器の制御方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116057624A true CN116057624A (zh) | 2023-05-02 |
Family
ID=80632199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180062213.5A Pending CN116057624A (zh) | 2020-09-11 | 2021-08-13 | 电子乐器、电子乐器控制方法和程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240021180A1 (zh) |
EP (1) | EP4213143A1 (zh) |
JP (2) | JP7276292B2 (zh) |
CN (1) | CN116057624A (zh) |
WO (1) | WO2022054496A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7271329B2 (en) | 2004-05-28 | 2007-09-18 | Electronic Learning Products, Inc. | Computer-aided learning system employing a pitch tracking line |
JP2015075574A (ja) * | 2013-10-08 | 2015-04-20 | ヤマハ株式会社 | 演奏データ生成装置および演奏データ生成方法を実現するためのプログラム |
WO2018016581A1 (ja) | 2016-07-22 | 2018-01-25 | ヤマハ株式会社 | 楽曲データ処理方法およびプログラム |
JP2017107228A (ja) | 2017-02-20 | 2017-06-15 | 株式会社テクノスピーチ | 歌声合成装置および歌声合成方法 |
JP6587007B1 (ja) | 2018-04-16 | 2019-10-09 | カシオ計算機株式会社 | 電子楽器、電子楽器の制御方法、及びプログラム |
JP6610714B1 (ja) | 2018-06-21 | 2019-11-27 | カシオ計算機株式会社 | 電子楽器、電子楽器の制御方法、及びプログラム |
JP2020152926A (ja) | 2020-06-29 | 2020-09-24 | 王子ホールディングス株式会社 | 繊維状セルロース及び繊維状セルロースの製造方法 |
-
2020
- 2020-09-11 JP JP2020152926A patent/JP7276292B2/ja active Active
-
2021
- 2021-08-13 WO PCT/JP2021/029833 patent/WO2022054496A1/ja active Application Filing
- 2021-08-13 CN CN202180062213.5A patent/CN116057624A/zh active Pending
- 2021-08-13 EP EP21866456.3A patent/EP4213143A1/en active Pending
- 2021-08-13 US US18/044,922 patent/US20240021180A1/en active Pending
-
2023
- 2023-04-28 JP JP2023073896A patent/JP2023100776A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023100776A (ja) | 2023-07-19 |
WO2022054496A1 (ja) | 2022-03-17 |
JP7276292B2 (ja) | 2023-05-18 |
JP2022047167A (ja) | 2022-03-24 |
EP4213143A1 (en) | 2023-07-19 |
US20240021180A1 (en) | 2024-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390923B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
JP6547878B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6610714B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6610715B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
CN110390922B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
JP7484952B2 (ja) | 電子機器、電子楽器、方法及びプログラム | |
US20220076651A1 (en) | Electronic musical instrument, method, and storage medium | |
US20220076658A1 (en) | Electronic musical instrument, method, and storage medium | |
US11417312B2 (en) | Keyboard instrument and method performed by computer of keyboard instrument | |
CN113160779A (zh) | 电子乐器、方法及存储介质 | |
CN113160780A (zh) | 电子乐器、方法及存储介质 | |
JP6766935B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP2020024456A (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
EP4213143A1 (en) | Electronic musical instrument, electronic musical instrument control method, and program | |
JP2019219661A (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP2020013170A (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
WO2022190502A1 (ja) | 音生成装置およびその制御方法、プログラム、電子楽器 | |
JP2021149043A (ja) | 電子楽器、方法及びプログラム | |
JP2022038903A (ja) | 電子楽器、電子楽器の制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |