CN110390922B

CN110390922B - 电子乐器、电子乐器的控制方法以及存储介质

Info

Publication number: CN110390922B
Application number: CN201910302640.0A
Authority: CN
Inventors: 中村厚士; 濑户口克; 段城真; 太田文章
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-04-16
Filing date: 2019-04-16
Publication date: 2023-01-10
Anticipated expiration: 2039-04-16
Also published as: JP6587007B1; US20190318712A1; JP2019184935A; US10825434B2; CN110390922A

Abstract

一种无论用户如何指定演奏操作件，歌词都将很好进行。电子乐器，包括：具有多个操作件的演奏输入单元，所述操作件由用户演奏以指定不同音高的音符；存储包括声乐部分的数据的音乐作品数据的存储器，所述声乐部分至少包括要被连续再现的第一音符和第二音符以及分别与其相关联的第一歌词部分和第二歌词部分，其中，所述第一音符具有要由所述用户在第一定时指定的第一音高，并且所述第二音符具有要由所述用户在第二定时指定的第二音高；以及至少一个处理器执行：当所述用户经由所述演奏输入单元在所述第一定时指定所述第一音高时，数字合成与所述第一音符相对应的第一歌声，并且使所述数字合成的第一歌声在所述第一定时可听地输出。

Description

电子乐器、电子乐器的控制方法以及存储介质

技术领域

本发明涉及一种根据键盘等的操作件的操作来再现歌声的电子乐器、电子乐器的控制方法以及存储介质。

背景技术

以往，公知有根据键盘等的操作件的操作来再现歌声(声乐)的电子乐器的技术(例如专利文献1)。该现有技术包括：键盘操作件，用于指示音程；存储机构，存储有歌词数据；指示机构，用于指示从该存储机构中应读出歌词数据；读出机构，用于在该指示机构指示时从所述存储机构依次读出歌词数据；以及声源，用于以与该读出机构读出的歌词数据相对应的音色产生由键盘操作件指示的音程的歌声。

专利文献1：日本发明专利公开公报特开平6-332449号

发明内容

但是，在上述现有技术中，在例如与由电子乐器输出的伴奏数据的进行相一致地输出与歌词相应的歌声的情况下，无论用户指定哪个键，每当指定键时都依次输出与歌词相应的歌声，这样的话，根据用户指定键的方法不同，输出的歌声和伴奏数据的进行不吻合。例如，在1小节中包含发声定时分别不同的4分音符的情况下，在用户在1小节的区间中指定了4个以上音高的情况下，歌词比伴奏数据的进行先进行，在用户在1小节的区间中指定的音高为3个以下的情况下，歌词比伴奏数据的进行延迟。

这样，如果每当用户通过键盘等指定音高时歌词就依次前进，则例如歌词相对伴奏会过度前进，或者相反会过度滞后。

即使在不输出伴奏数据的情况下，即，即使在只输出歌声的情况下，在歌词的进行方面也存在同样的问题。因此，本发明旨在提供一种方案，该方案基本上消除了由于现有技术的限制和缺点而导致的一个或多个问题。

本发明的附加或单独的特征和优点将在下面的描述中阐述，并且部分地将从描述中显而易见，或者可以通过本发明的实践来学习。本发明的目的和其他优点将通过说明书及其所要求保护的技术方案以及附图中特别指出的结构来实现和获得。

为了实现这些和其他优点并且根据本发明的目的，本发明提供：

一种电子乐器，包括：

具有多个操作件的演奏输入单元，所述操作件由用户演奏以指定不同音高的音符；

存储包括声乐部分的数据的音乐作品数据的存储器，所述声乐部分至少包括要被连续再现的第一音符和第二音符以及分别与其相关联的第一歌词部分和第二歌词部分，其中，所述第一音符具有要由所述用户在第一定时指定的第一音高，并且所述第二音符具有要由所述用户在第二定时指定的第二音高；以及

至少一个处理器，

其中，所述至少一个处理器执行以下操作：

当所述用户经由所述演奏输入单元在所述第一定时指定所述第一音高时，

数字合成与所述第一音符相对应的第一歌声，并且

使所述数字合成的第一歌声在所述第一定时可听地输出；以及

如果在所述数字合成的第一歌声正被输出时，所述用户经由所述演奏输入单元在所述第一定时之后且所述第二定时之前的第三定时指定与所述第一音高和所述第二音高不同的第三音高，

则根据所述第一歌词部分的数据来合成具有所述第三音高的修改的第一歌声，并且

使数字合成的所述修改的第一歌声在第三定时可听地输出，而不使所述第二音符的歌声在所述第三定时可听地输出所述声乐部分至少包括如果在所述数字合成的第一歌声正被输出时。

另一方面，提供一种由所述电子乐器中的至少一个处理器执行的方法，所述方法包括由所述至少一个处理器执行的所述特征。

另一方面，提供一种非暂时性计算机可读存储介质，其上存储有可由所述电子乐器中的至少一个处理器执行的程序，所述程序使所述至少一个处理器执行所述特征。

根据本发明，可以提供一种电子乐器，其能够很好地控制歌词的进行。

应当理解，前面的一般性描述和下面的详细描述都是示例性和说明性的，并且旨在提供对要求保护的本发明的进一步说明。

附图说明

图1是表示本发明的电子键盘乐器的一实施方式的外观例的图。

图2是表示电子键盘乐器的控制系统的本实施方式的硬件结构例的框图。

图3是表示语音合成LSI的结构例的框图。

图4是语音合成LSI的动作说明图。

图5A、5B、5C是歌词控制技术的说明图。

图6是表示本实施方式的数据结构例的图。

图7是表示本实施方式中的电子乐器的控制处理例的主流程图。

图8A、8B、8C分别是表示初始化处理、节拍改变处理以及歌曲开始处理的详细例的流程图。

图9是表示开关处理的详细例的流程图。

图10是表示自动演奏中断处理的详细例的流程图。

图11是表示歌曲再现处理的第一实施方式的详细例的流程图。

图12是表示歌曲再现处理的第二实施方式的详细例的流程图。

图13是表示下一歌曲事件检索处理的详细例的流程图。

图14是表示MusicXML形式的歌词控制数据的结构例的图。

图15是表示MusicXML形式的歌词控制数据的乐谱显例的图。

具体实施方式

以下，参照附图对用于实施本发明的方式进行详细说明。

图1是示出本实施方式的电子键盘乐器100的外观例的图。电子键盘乐器100包括：键盘101，其由包括作为演奏操作件的第一操作件和第二操作件的多个键构成，用作具有要由用户操作的多个操作元件的输入单元；第一开关面板102，其用于指定音量、歌曲再现的节拍设定、歌曲再现开始、伴奏再现等的各种设定；第二开关面板103，其用于选择歌曲、伴奏的选曲、音色等；以及LCD(液晶显示器)104，其用于显示歌曲再现时的歌词、乐谱、各种设置信息等。另外，电子键盘乐器100在背面部、侧面部或背面部等具备扬声器，该扬声器再现通过演奏而生成的乐音，但没有特别图示。

图2是表示图1的电子键盘乐器100的控制系统200的一个实施方式的硬件结构例的图。在图2中，控制系统200的CPU(中央运算处理装置)201、ROM(只读存储器)202、RAM(随机存取存储器)203、声源LSI(大规模集成电路)204、语音合成LSI205、连接图1的键盘101、第一开关面板102和第二开关面板103的键扫描器206、以及连接图1的LCD104的LCD控制器208分别与系统总线209连接。此外，CPU201连接到用于控制自动演奏序列的计时器210。进而，从声源LSI204输出的乐音输出数据218由D/A变换器211变换为模拟乐音输出信号，从语音合成LSI205输出的某歌手的歌声推论数据217由D/A变换器212变换为模拟歌声语音输出信号。模拟乐音输出信号和模拟歌声语音输出信号在混合器213中被混合，该混合信号在放大器214中被放大后，从未特别图示的扬声器或输出端子输出。

CPU201通过将RAM203作为工作存储器使用并执行存储在ROM202中的控制程序，来执行图1的电子键盘乐器100的控制动作。另外，ROM202除了存储上述控制程序和各种固定数据以外，还存储包括歌词数据和伴奏数据的乐曲数据。

CPU201包括在本实施例中使用的计时器210，并且例如对电子键盘乐器100中的自动演奏的进行予以计数。

声源LSI204根据来自CPU201的发声控制指示，例如从未特别图示的波形ROM读出乐音波形数据，并输出到D/A转换器211。声源LSI204具有同时产生最大256声音数的能力。

当从CPU201作为乐曲数据215提供歌词的文本数据、音高、音长和与开始帧有关的信息时，语音合成LSI205合成与其对应的歌声的声音数据，输出给D/A变换器212。

键扫描器206定常地扫描图1的键盘101的按键/离键状态、第一开关面板102以及第二开关面板103的开关操作状态，对CPU201施加中断来传递状态变化。

LCD控制器208是控制LCD104的显示状态的IC(集成电路)。

图3是表示图2的语音合成LSI205的结构例的框图。通过后述的歌曲再现处理输入由图2的CPU201指示的乐曲数据215，该语音合成LSI205根据例如下述文献中记载的"基于深层学习的统计的语音合成"的技术，合成并输出某歌手的歌声推论数据217。

(文献)

桥本佳，高木信二“基于深层学习的统计语音合成”日本声学学会志73卷1号(2017)，第五5-62页

语音合成LSI205包括语音学习部301和语音合成部302。语音学习单元301包括学习用(训练)文本分析部303、学习用声学特征量提取部304和模型学习部305。

学习用文本分析部303输入包含歌词文本、音高和音长的乐谱数据311，并分析其乐谱数据311。即，乐谱数据311包括学习用歌词数据和学习用音高数据。结果，学习用文本分析部303估计并输出学习用语言特征量序列313，其是表示与乐谱数据311相对应的音素、词类、单词、音高等的离散数值序列。

学习用声学特征量提取部304接收并分析通过由某歌手演唱上述歌词文本而经由麦克风等记录的歌声数据312。其结果，学习用声学特征量提取部304提取并输出表示与某歌手的歌声数据312对应的声音的特征的学习用声学特征量序列314。

模型学习部305基于下面的表达式(1)，通过机器学习来估计根据学习用语言特征量序列313(将其设为l)和声学模型(将其设为λ)生成学习用声学特征量序列314(将其设为o)的概率(将其设为P(o|l，λ))为最大时的声学模型(将其设为

)。即，作为文本的语言特征量序列和作为语音的声学特征量序列之间的关系由所谓声学模型的统计模型来表现。

【数学式1】

模型学习部305将用于表现通过表达式(1)进行机械学习的结果计算出的声学模型

的模型参数作为学习结果315输出，对语音合成部302内的声学模型部306设定。

语音合成部302包括文本分析部307、声学模型部306和发声模型部308。语音合成部302执行统计式语音合成处理，该统计式语音合成处理是通过使用在声学模型部306中设定的声学模型这样的统计模型，预测与包含歌词文本的乐曲数据215对应的某歌手的歌声推论数据217，从而进行合成的处理。

文本分析部307输入包含由图2的CPU201指定的歌词的文本数据、音高、音长和与开始帧有关的信息的乐曲数据215，作为与自动演奏相配合的用户的演奏结果，并分析该数据。结果，文本分析部307分析并输出用于表现与乐曲数据215对应的音素、词类、单词等的语言特征量序列316。

通过输入语言特征量序列316，声学模型部306估计并输出与其对应的声学特征量序列317。即，声学模型部分306基于下面的表达式(2)，来估计根据从文本分析部307输入的语言特征量序列316(再次将其设为l)和通过模型学习部305中的机器学习被设定为学习结果315的声学模型

生成声学特征量序列317(再次将其设为o)的概率(将其设为

)为最大时的声学特征量序列317的估计值(将其设为

)。

【数学式2】

发声模型部308通过输入声学特征量序列317，生成与包含由CPU201指定的歌词文本的乐曲数据215对应的某歌手的歌声推论数据217。某歌手的歌声推论数据217从图2的D/A变换器212经由混频器213和放大器214输出，特别是从未图示的扬声器放音。

由学习用声学特征量序列314、声学特征量序列317表示的声学特征量包括将人的声道建模后的频谱信息、和将人的声带建模后的声源信息。作为频谱参数，可以采用Mel倒谱(Mel-cepstrum)、线频谱对(Line Spectral Pairs：LSP)等。作为声源信息，可以采用表示人的声音的音调(pitch)频率的基本频率(F0)。发声模型部308包括声源生成部309和合成滤波部310。声源生成部309通过依次输入从声学模型部306输入的声源信息319的序列，生成声源信号，该声源信号是例如以声源信息319中包含的基本频率(F0)周期性地反复、由声源信息319中包含的具有功率值的脉冲串(有声音音素的情况)、或声源信息319中包含的具有功率值的白噪声(无声音音素的情况)构成的声源信号。合成滤波单元310基于从声学模型部306顺序输入的频谱信息318的序列，形成用于对声道进行建模的数字滤波器，将从声源生成单元309输入的声源信号作为激励源信号，生成并输出数字信号的某歌手的歌声推论数据217。

在本实施方式中，为了根据语言特征量序列316来预测声学特征量序列317，通过深度神经网络(Deep Neural Network：DNN)来实现声学模型部306。与此对应，语音学习部301内的模型学习部305，学习表示从语言特征量到声学特征量的DNN内的各神经元的非线性变换函数的模型参数，把该模型参数作为学习结果315，输出给语音合成部302内的声学模型部306的DNN。

通常，以例如5.1毫秒(msec)宽的帧为单位来计算声学特征量，以音素为单位来计算语言特征量。因此，声学特征量和语言特征量在时间单位上不同。作为DNN的声学模型部306是表示作为输入的语言特征量序列316和作为输出的声学特征量序列317之间的一一对应关系的模型，因此，不能使用时间单位不同的输入/输出数据对来训练DNN。因此，在本实施方式中，预先设定帧单位的声学特征量序列和音素单位的语言特征量序列的对应关系，生成帧单位的声学特征量和语言特征量的对。

图4是表示上述对应关系的语音合成LSI205的动作说明图。例如，在得到了作为与起唱的歌词字符串“Ki”“Ra”“Ki”(图4的(a))对应的语言特征量序列的歌声音素串“/k/”“/i/”“/r/”“/a/”“/k/”“/i/”(图4的(b))时，这些语言特征量序列以1对多的关系(图4的(b)和(c)的关系)与以帧为单位的声学特征量序列(图4的(c))建立对应。另外，语言特征量作为向声学模型部306中的DNN的输入而使用，所以需要作为数值数据来表现。因此，作为语言特征量序列，准备有针对“前一个音素是“/a/”么？”、“当前单词所包含的音素的数量是？”等的与上下文有关的问题的二值数据(0或1)、或者连接以连续值的回答而得到的数值数据。

图3的语音学习部301内的模型学习部305，如图4的虚线箭头组401所示，以帧为单位，将与图4的(b)对应的学习用语言特征量序列313的音素串和与图4的(c)对应的学习用声学特征量序列314的对，依次赋予声学模型部306的DNN，进行学习。此外，如图4的灰色的圆圈组所示，声学模型部306内的DNN包括由输入层、一个以上的中间层以及输出层构成的神经元组。

另一方面，在语音合成时，以上述帧为单位，将与图4的(b)对应的语言特征量序列316的音素串输入到声学模型部306的DNN。结果，如图4中的粗实线箭头组402所示，声学模型部306的DNN以上述帧为单位输出声学特征量序列317。因此，在发声模型部308中，也以上述的帧为单位，将声学特征量序列317中包含的声源信息319以及频谱信息318分别提供给声源生成部309以及合成滤波部310，执行语音合成。

结果，如图4中的粗实线箭头组403所示，发声模型部308针对每一帧各输出例如225个样本的某歌手的歌声推论数据217。由于帧具有5.1msec的时间宽度，因此1个样本是“5.1msec÷225≈0.0227msec”，因此，某歌手的歌声推论数据217的取样频率是1/0.0227≈44kHz(千赫兹)。

DNN的学习使用帧单位的声学特征量和语言特征量的对，通过由下述的表达式(3)运算的平方误差最小化基准来进行。

【数学式3】

在此，o_t和l_t分别是第t帧t中的声学特征量和语言特征量，

是声学模型部306的DNN的模型参数，gλ(·)是由DNN表示的非线性变换函数。DNN的模型参数可以通过误差反向传播法高效率地估计。考虑到与由上述表达式(1)表示的统计式语音合成中的模型学习部305的处理之间的对应关系，DNN的学习可以由下面的表达式(4)表示。

【数学式4】

这里，下述表达式(5)成立。

【数学式5】

如上述表达式(4)和表达式(5)那样，声学特征量与语言特征量的关系可以通过以DNN的输出为平均向量的正态分布

表示。在使用了DNN的统计式语音合成处理中，通常，对语言特征量l_t使用非依赖性协方差矩阵，即，在所有帧中使用相同协方差矩阵

并且，当设协方差矩阵

为单位矩阵时，则表达式(4)表示等同于表达式(3)的学习处理。

如图4所说明的那样，声学模型部306的DNN针对每个帧独立地估计声学特征量序列317。因此，所获得的声学特征量序列317包括降低合成语音质量的不连续部分。因此，在本实施例中，例如，通过使用利用动态特征量的参数生成算法，可以提高合成语音的质量。

以下，对具有图1、图2及图3的构成例的本实施方式的动作进行详细说明。图5A～图5C是歌词控制技术的说明图。图5A是示出根据自动演奏而进行的歌词文本和旋律之间的关系的图。例如，在上述歌起的情况下，乐曲数据中包含：“Ki/Twin(第一字符或第一歌词部分)”“Ra/kle(第二字符或第二歌词部分)”“Ki/twin(第三字符/歌词部分)”“Ra/kle(第四字符/歌词部分)”的歌词的各字符(歌词数据)、输出歌词的各字符的t1、t2、t3、t4的各定时信息、歌词的各字符的旋律音高“E4(第一音高)”“E4(第二音高)”“B4(第三音高)”“B4(第四音高)”等的各音高数据。在t4之后的t5、t6、t7的各定时，对应有“Hi/lit(第五字符)”“Ka/tle(第六字符)”“Ru/star(第七字符)”的歌词的各字符。

例如，图5B中的t1、t2、t3、t4的时刻对应于图5A的用户应该指定的相应语音(通过操作键盘)的发声定时t1、t2、t3、t4。这里，假设用户在与原本(例如，正确的)发声定时相对应的定时t1和t2处，在图1的键盘101上两次正确地按压了具有与歌曲数据中包含的第一音高E4相同的音高E4的键。在此情况下，图2的CPU201将下述乐曲数据215输出给图2的语音合成LSI205，该乐曲数据215包括在定时t1的歌词“Ki/Twin(第一字符)”和定时t2的“Ra/kle(第二字符)”、表示在各个定时t1、t2均由用户指定的音高E4的信息、以及例如分别表示四分音符长的时间长度的信息。其结果，语音合成LSI205分别在定时t1及t2，以第一音高(＝被指定的音高)E4和第二音高(＝被指定的音高)E4，分别输出与歌词“Ki/Twin(第一字符)”及“Ra/kle(第二字符)”对应的各自四分音符长的某歌手的歌声推论数据217。与定时t1、t2对应的判定“○”标记表示根据乐曲数据中包含的音高数据以及歌词数据而正确地进行发声(例如，机器模拟电子发声)。

接下来，如果在原本发声定时中的任意定时用户通过在该任意定时按下图1所示的键盘101来指定音高，并且如果所指定的音高与原本应指定的音高不一致，则执行以下控制。图2的CPU201与该任意定时相配合，控制歌词的进行和自动伴奏的进行，以使与对应于应指定的音高的字符的下一个字符相对应的歌声不被输出。然后，CPU201在通过用户按键而指定的音高与原本应指定的音高一致时，重新开始歌词的进行以及自动伴奏的进行。

例如，在图5B中，假设用户在与原本的发声定时相对应的定时t3按下图1所示的键盘101上的键而指定的音高G4与在定时t3原本应该发出的第三音高B4不一致。在此情况下，图2的CPU201可以与定时t3配合地输出“Ki/twin(第三字符)”，但控制歌词的进行和自动伴奏的进行，以使得不输出与第三音高B4之后应该指定的第四音高(根据定时t4应该指定的第四音高)对应的“Ra/kle(第四字符)”以后的字符所对应的歌声。另外，CPU201可以进行控制，以使得在图5B的定时t3不发出“Ki/twin(第三字符)”。在这种情况下，尽管根据应该指定的定时而指定了键，但由于没有指定应该指定的键(错误地按下了键)，所以不输出歌声。

在如上所述那样控制歌词的进行和自动伴奏的进行以不输出歌声的状态下，如果用户按下键而指定的音高与原本应该指定的音高一致，则CPU201重新开始歌词的进行和自动伴奏的进行。例如在图5B的定时t3停止歌词的进行以及自动伴奏的进行之后，当用户在定时t3'指定与原本应该指定的第三音高B4一致的音高B4时，CPU201输出与应该在定时t3发声的第三音高B4对应的歌词数据“Ki/twin(第三字符)”中包含的歌声“i/in(第三字符)”，再次开始歌词的进行以及自动伴奏的进行。

如上所述，当再次开始歌词的进展和自动伴奏的进展时，例如，在图5B的定时t3'再次开始的歌词数据“Ki/twin(第三字符)”中包含的歌声“i/in(第三字符')”的发声之后应该发出的歌词数据“Ra/kle(第四字符)”的发声定时t4，是从原来(正确)的发声定时t4滑动与再次开始的发声定时从t3偏移到t3'的量相当的量，偏移到t4'。

在此，可以说在上述的指定的音高与原本应指定的音高不一致的情况中，也包括没有与应该指定的定时对应的按键的情况。即，尽管在图5中未示出，但是即使在原本的发声定时的任何定时在图1的键盘101上的键未被按下而未指定音高的情况下，也控制歌词的进行和自动伴奏的进行，以使得不输出与对应于应该发声的音高的字符(第一字符)的下一个字符(第二字符)相对应的歌声。

图5C中的定时t3示出了在假设没有执行根据本实施方式的上述控制动作的情况下，当用户在对应于原本的发声定时的定时t3处通过按键而指定的音高G4与在定时t3处的原本应该指定的第三音高B4不一致时的控制动作。在不进行本实施方式的上述控制动作时，在图5C的定时t3中，发出了原本应该发出的“Ki/twin(第三字符)”的下一个“Ra/le(第四字符)”，与本实施方式不同，歌词的进行变得不适当。即，在定时t4应该发声的“Ra/kle(第四字符)”在比定时t4早的定时t3发声了。

如上所述，如果用户没有在原本的发声定时指定与原本应该指定的音高相一致的正确音高，则本实施方式的控制动作不能被执行，该情况下，歌词的进行和自动伴奏的进行不匹配，并且用户必须每次校正歌词的进行。另一方面，在本实施方式中，停止歌词的进行和自动伴奏的进行，直到用户指定与用户原本应该指定的音高一致的正确的音高为止，从而可以进行与用户的演奏相匹配的自然的歌词进行。

接着，在原本的发声定时的任何一个定时都没有到来的定时，用户按下图1的键盘101的任意键(操作件)，在由此指定的音高与下一个应该指定的音高不一致的情况下，图2的CPU201指示将在语音合成LSI205中输出的某歌手的歌声推论数据217的歌声的音高变更为由演奏操作指定的音高。其结果，图2或图3的语音合成LSI205在上述原本的发声定时的任何一个定时都没有到来的定时，将正在发声的某歌手的歌声推论数据217的音高变更为由CPU201指定的音高。

即，在以第一音高输出与包含在乐曲数据中的歌词数据所表示的第一字符对应的歌声的方式，对第一操作件进行了第一用户操作时，CPU201受理表示基于上述第一用户操作的音符开启的第一操作信息，基于上述第一操作信息以上述第一音高输出与上述第一字符对应的歌声。

在正在输出与上述第一字符及上述第一音高相应的上述歌声且上述第二定时到来之前，对多个操作件中的与上述第一音高及上述第二音高不同的音高的操作件进行了第二用户操作的情况下，CPU201受理表示基于上述第二用户操作的音符开启的第二操作信息，基于上述第二操作信息不输出与上述第二字符相对应的歌声，而以与上述第一音高及上述第二音高不同的上述音高输出与正在输出的上述第一字符相对应的歌声。

例如，在图5B中，假设用户在定时t1'按下图1的键盘101上的音高G4的键，在该定时t1'，原本的发声定时t1、t2、t3和t4中的任何一个定时都没有到达。在这种情况下，CPU201判定为所指定的音高G4与对应于之后(定时t2)应该指定的歌词数据“Ra/kle(第二字符)”的第二音高E4不一致，其结果，将表示如下音高数据的乐曲数据215输出到图2的语音合成LSI205，该音高数据指示将在语音合成LSI205中输出的歌词数据“Ki/Twin(第一字符)”的某歌手的歌声推论数据217的音高，从到目前为止的第一音高E4变更为由演奏操作指定的音高G4而继续发声。其结果，图2或图3的语音合成LSI205在定时t1'，将发声中的歌词数据“Ki/Twin(第一字符)”中包含的“i/in(第一字符)”的某歌手的歌声推论数据217的音高从到目前为止的第一音高E4变更为由CPU201指定的音高G4而继续发声。

图5C中的定时t1'用于描述在假定没有执行根据本实施方式的上述控制动作的情况下，当用户在除了原本的发声定时之外的定时t1'按压了图1所示的键盘101上的键时的控制动作。如果不执行根据本实施方式的上述控制动作，则在图5C的定时t1'，发出将在下一个发声定时t2应该发出的歌词数据“Ra/kle(第二字符)”的声音。

如上所述，如果没有执行根据本实施方式的控制动作，则即使用户在除了原本的发声定时之外的定时指定的音高与应该指定的音高不一致，歌词也会不断地向前进行，使用户感到不自然。与此相对，在本实施方式中，可以将根据从该定时的前一个的原本的定时发出的某歌手的歌声推论数据217发出的音高变更为由用户指定的音高而使其继续。在这种情况下，例如，与在图5B的原本的歌曲再现定时t1发出的歌词数据“Ki/Twin(第一字符)”对应的某歌手的歌声推论数据217不会中断，听到其音高在按键定时t1'连续地变化为新的按键的音高。因此，在本实施方式中，可以执行自然的歌词进行。

虽然在图5中未图示，但在原本的发声定时的任何一个定时都没有到来的定时，假设用户指定了与对应于其后应该发声的歌词数据的音高相同的音高。在这种情况下，CPU201也可以控制歌词的进行及自动伴奏的进行一口气地进行(跳跃)到下一个应该发声的歌声的时刻。

即，声源LSI204根据CPU201的指示输出存储在存储器中的伴奏数据，并且语音合成LSI205根据CPU201的指示输出与第一字符对应的歌声数据时，在CPU201根据对应于用户操作而受理的第二操作信息判定为与对应于第二定时的第二音高一致的情况下，通过不等到上述第二定时到来就从语音合成LSI205输出与第二字符对应的歌声数据，歌声数据的进行被加快，声源LSI204输出的上述伴奏数据的进行也与上述歌声数据的被加快的进行相配合地加快。

另外，当用户在原本的发声定时以外的定时进行演奏操作，此时指定的音高与在下一个定时应该指定的音高不一致时，也可以(根据改变了的音高)反复进行与已经输出的某歌手的歌声推论数据217对应的发声(变更音高)并输出。在这种情况下，例如，接续在与在图5B的原本的歌曲再现定时t1进行了发声的歌词数据“Ki/Twin(第一字符)”对应的某歌手的歌声推论数据217之后，通过在按键定时t1'中的新的按键，听到与“Ki/Twin(第一字符)”对应的某歌手的歌声推论数据217另外进行发声。或者，也可以控制为在发声定时以外的定时不进行某歌手的歌声推论数据217的发声。

图6是表示在本实施方式中从图2的ROM202读入RAM203的乐曲数据的数据构成例的图。该数据结构例依据MIDI(Musical Instrument Digital Interface，MIDI)用文件格式之一的标准MIDI文件的格式。该乐曲数据由被称为块(chunk)的数据块构成。具体地说，乐曲数据由位于文件开头的首部块(header chunk)、接在其后的存储歌词部分用的歌词数据的音轨块(track chunk)1、存储伴奏部分用的演奏数据的音轨块2构成。

首部块由ChunkID、ChunkSize、FormatType、NumberOfTrack及TimeDivision这五个值构成。ChunkID是与表示是首部块的“MThd”这样的半角4字符对应的4字节的ASCII码“4D 54 68 64”(数字是16进制数)。ChunkSize是在首部块中表示除了ChunkID和ChunkSize以外的FormatType、NumberOfTrack及TimeDivision的部分的数据长的4字节数据，数据长固定是6字节：“00 00 00 06”(数字是16进制数)。在本实施方式中，FormatType是2字节数据“00 01”(数字是十六进制数)，其意味着使用多个音轨的格式1。在本实施方式中，NumberOfTrack是2字节数据“00 02”(数字是十六进制)，其表示使用对应于歌词部分和伴奏部分的两音轨。TimeDivision是表示时间基值的数据，该时间基值表示每四分音符的分辨率，在本实施方式的情况下，是用十进制表示480的2字节的数据“01E0”(数字是十六进制数)。

音轨块1、2分别包括ChunkID、ChunkSize和演奏数据组(0≤i≤L：音轨块1/歌词部分，0≤i≤M：音轨块2/伴奏部分)，演奏数据组包括DeltaTime_1[i]和Event_1[i](在音轨块1/歌词部分的情况下)或DeltaTime_2[i]和Event_2[i](在音轨块2/伴奏部分的情况下)。ChunkID是对应于“MTrk”这样的半角4字符的4字节ASCII码“4D 54 72 6B”(数字是十六进制)，“MTrk”表示是音轨块。ChunkSize是表示各音轨块中除了ChunkID和ChunkSize以外的部分的数据长的4字节数据。

DeltaTime_1[i]是表示从紧挨其前面的Event_1[i-1]的执行时刻起的等待时间(相对时间)的1～4字节的可变长数据。同样地，DeltaTime_2[i]是表示从紧挨其前面的Event_2[i-1]的执行时刻起的等待时间(相对时间)的1～4字节的可变长数据。Event_1[i]是在音轨块1/歌词部分中指示歌词的发声定时和音高的元事件。Event_2[i]是在音轨块2/伴奏部分中指示音符开或音符关的MIDI事件，或者是指示节拍的元事件。针对音轨块1/歌词部分，在各演奏数据组DeltaTime_1[i]和Event_1[i]中，通过在从紧挨其前面的Event_1[i-1]的执行时刻起等待DeltaTime_1[i]之后，执行Event_1[i]，从而实现歌词的发声进行。另一方面，针对音轨块2/伴奏部分，在各演奏数据组DeltaTime_2[i]和Event_2[i]中，通过在从紧挨其前面的Event_2[i-1]的执行时刻起等待DeltaTime_2[i]之后，执行Event_2[i]，从而实现自动伴奏的进行。

图7是表示本实施方式中的电子乐器的控制处理例的主流程图。该控制处理例如是图2中的CPU201执行从ROM202加载到RAM203的控制处理程序的动作。

首先，CPU201执行初始化处理(步骤S701)，然后反复执行步骤S702至S708的一序列处理。

在该反复处理中，CPU201首先执行开关处理(步骤S702)。这里，CPU201基于来自图2的键扫描器206的中断，执行与图1的第一开关面板102或者第二开关面板103的开关操作对应的处理。

接着，CPU201执行键盘处理，即，根据来自图2的键扫描器206的中断，判定是否操作了图1的键盘101的某个键，并进行处理(步骤S703)。在这里，CPU201对应于用户的某个键的按压或释放的操作，对图2的声源LSI204，输出指示发声开始或发声停止的发声控制数据216。

接着，CPU201处理应该在图1的LCD104上显示的数据，并且执行经由图2的LCD控制器208在LCD104上显示该数据的显示处理(步骤S704)。作为在LCD104上显示的数据，例如有与演奏的某歌手的歌声推论数据217对应的歌词和与该歌词对应的旋律的乐谱、以及各种设定信息(参照后述的图13和图14)。

接着，CPU201执行歌曲再现处理(步骤S705)。在该处理中，CPU201根据用户的演奏执行图5中说明的控制处理，生成乐曲数据215，输出到语音合成LSI205中。

接着，CPU201执行声源处理(步骤S706)。在声源处理中，CPU201执行声源LSI204中的发声中的乐音的包络控制等控制处理。

接着，CPU201执行语音合成处理(步骤S707)。在语音合成处理中，CPU201控制语音合成LSI205的语音合成的执行。

最后，CPU201判定用户是否通过按压电源关闭开关(未示出)而关闭电源(步骤S708)。如果步骤S708的判定为NO，则CPU201返回到步骤S702的处理。如果步骤S708的判定为YES，则CPU201结束图7的流程图所示的控制处理，切断电子键盘乐器100的电源。

图8A～图8C分别是示出图7的步骤S701中的初始化处理、图7的步骤S702中的开关处理中的稍后描述的图9的步骤S902中的节拍改变处理以及图9的步骤S906中的歌曲开始处理的详细例的流程图。

首先，在表示图7的步骤S701的初始化处理的详细例的图8A中，CPU201执行TickTime的初始化处理。在本实施例中，歌词的进行和自动伴奏以时间TickTime为单位进行。图6的乐曲数据的首部块内的指定为TimeDivision值的时间基值表示4分音符的分辨率，如果该值例如是480，则4分音符具有480TickTime的时间长度。图6的歌曲数据的音轨块中的等待时间DeltaTime_1[i]值和DeltaTime_2[i]值也以时间TickTime为单位计数。这里，1TickTime实际上为多少秒，根据对乐曲数据指定的节拍而不同。当前，如果节拍值为Tempo[拍子/分]，上述时间基值为TimeDivision，则TickTime的秒数由下式算出。

TickTime[秒]＝60/Tempo/TimeDivision(6)

因此，在图8A的流程图所例示的初始化处理中，CPU201首先通过与上述式(6)对应的运算处理，计算出TickTime[秒](步骤S801)。在初始状态下，将预定值(例如60[拍子/秒])存储在图2的ROM202中作为节拍值Tempo。或者，上次结束时的节拍值可被存储在非易失性存储器中。

接着，CPU201对图2的计时器210设定在步骤S801中计算出的TickTime[秒]的计时器中断(步骤S802)。结果，每当在计时器210中经过上述TickTime[秒]时，对CPU201产生用于歌词进行和自动伴奏的中断(以下，记为“自动演奏中断”)。因此，在CPU201根据该自动演奏中断而执行的自动演奏中断处理(后述的图10)中，执行使歌词进行和自动伴奏按照每1TickTime进行的控制处理。

随后，CPU201执行其它初始化处理，例如图2中的RAM203的初始化等(步骤S803)。然后，CPU201结束图8A的流程图所例示的图7的步骤S701的初始化处理。

关于图8B和图8C的流程图，将在后面叙述。图9是表示图7的步骤S702的开关处理的详细例的流程图。

CPU201首先判定歌词进行和自动伴奏的节拍是否已通过图1的第一开关板102内的节拍变更开关而变更(步骤S901)。如果该判定为YES，则CPU201执行节拍变更处理(步骤S902)。该处理的详细情况使用图8B在后面叙述。如果步骤S901中的判定为NO，则CPU201跳过步骤S902中的处理。

接着，CPU201判定在图1的第二开关面板103上是否选择了某个歌曲(步骤S903)。如果该判定为YES，则CPU201执行歌曲读入处理(步骤S904)。该处理是将具有图6中说明的数据结构的乐曲数据从图2的ROM202读入到RAM203的处理。此后，对读入RAM203的乐曲数据执行对图6所示的数据结构内的音轨块1或2的数据存取。如果步骤S903中的判定为NO，则CPU201跳过步骤S904中的处理。

然后，CPU201判定是否操作了图1所示的第一开关面板102上的歌曲开始开关(步骤S905)。如果该判定为YES，则CPU201执行歌曲开始处理(步骤S906)。该处理的详细情况使用图8C在后面叙述。如果步骤S905中的判定为NO，则CPU201跳过步骤S906中的处理。

最后，CPU201判定在图1的第一开关面板102或者第二开关面板103中其他开关是否被操作，执行与各开关操作对应的处理(步骤S907)。然后，CPU201结束图9的流程图所例示的图7的步骤S702的开关处理。

图8B是示出图9的步骤S902中的节拍改变处理的详细例的流程图。如上所述，当节拍值改变时，TickTime[秒]也改变。在图8B的流程图中，CPU201执行与该TickTime[秒]的改变有关的控制处理。

首先，CPU201以与在图7的步骤S701的初始化处理中执行的图8A的步骤S801的情况相同的方式，通过与上述表达式(6)相对应的计算处理来计算TickTime[秒](步骤S811)。此外，已改变的节拍值Tempo是通过图1的第一开关面板102内的节拍变更开关变更后的值，被存储在RAM203等中。

接着，CPU201以与在图7的步骤S701的初始化处理中执行的图8A的步骤S802的情况相同的方式，针对图2的计时器210设置在步骤S811中计算出的TickTime[秒]的计时器中断(步骤S812)。然后，CPU201结束图8B的流程图所例示的图9的步骤S902中的节拍改变处理。

图8C是示出图9的步骤S906中的歌曲开始处理的详细例的流程图。

首先，CPU201将RAM203中的变量DeltaT_1(音轨块1)和DeltaT_2(音轨块2)的值都初始化为0，变量DeltaT_1(音轨块1)和DeltaT_2(音轨块2)是在自动演奏的进行中，以TickTime为单位对从紧邻的前一个事件的发生时间起的相对时间进行计数。接着，CPU201将用于指定图6所示的乐曲数据的音轨块1内的演奏数据组DeltaTime_1[i]和Event_1[i][1≤i≤L-1]的各个i的RAM203上的变量AutoIndex_1、和用于指定同一音轨块2内的演奏数据组DeltaTime_2[i]和Event_2[i](1≤i≤M-1)的各个i的RAM203上的变量AutoIndex_2的各值都初始设定为0(以上，步骤S821)。因此，在图6的例子中，作为初始状态，首先分别参照音轨块1内的开头的演奏数据组DeltaTime_1[0]和Event_1[0]以及音轨块2内的开头的演奏数据组DeltaTime_2[0]和Event_2[0]。

接着，CPU201将指示当前歌曲位置的RAM203上的变量SongIndex的值初始设定为0(步骤S822)。

进而，CPU201将表示是否进行歌词以及伴奏的进行(＝1)或不进行(＝0)的RAM203上的变量SongStart的值初始设定为1(进行)(步骤S823)。

然后，CPU201判定用户是否通过图1的第一开关面板102进行了与歌词的再现配合地进行伴奏的再现的设定(步骤S824)。

如果步骤S824的判定是YES，则CPU201将RAM203上的变量Bansou的值设定为1(有伴奏)(步骤S825)。相反，如果步骤S824的判定为NO，则CPU201将变量Bansou的值设定为0(无伴奏)(步骤S826)。在步骤S825或S826的处理之后，CPU201结束图8C的流程图所示的图9的步骤S906的歌曲开始处理。

图10是示出基于在图2的定时器210中每TickTime[秒]发生的中断(参见图8A的步骤S802或图8B的步骤S812)而执行的自动演奏中断处理的详细例的流程图。对图6所示的乐曲数据的音轨块1和2的演奏数据组执行以下处理。

首先，CPU201执行与音轨块1相对应的一序列处理(步骤S1001至S1006)。首先，CPU201判定SongStart的值是否为1，即，是否指示了歌词和伴奏的进行(步骤S1001)。

如果CPU201判定为还没有指示歌词和伴奏的进行(在步骤S1001中的判定为NO)，则CPU201不进行歌词和伴奏的进行，并且直接结束图10的流程图中所示的自动演奏中断处理。

如果CPU201判定为指示了歌词和伴奏的进行(步骤S1001中的判定结果为YES)，则CPU201判定表示相对于有关音轨块1的前一次事件的发生时刻的相对时刻的DeltaT_1值是否与AutoIndex_1值所表示的自此将要执行的演奏数据组的等待时间DeltaTime_1[AutoIndex_1]相一致(步骤S1002)。

如果步骤S1002的判定为NO，则CPU201关于音轨块1将表示相对于前一次事件的发生时刻的相对时刻的DeltaT_1值加1递增，并且将时刻行进对应于本次中断的1TickTime单位(步骤S1003)。之后，CPU201进入后述的步骤S1007。

当步骤S1002中的判定为YES时，CPU201关于音轨块1执行由AutoIndex_1值表示的演奏数据组的事件Event_1[AutoIndex_1](步骤S1004)。该事件是包括歌词数据的歌曲事件。

接着，CPU201将表示音轨块1中下一个应该执行的歌曲事件的位置的AutoIndex_1值保存在RAM203中的变量SongIndex中(步骤S1004)。

此外，CPU201将用于参考音轨块1中的演奏数据组的AutoIndex_1值加1递增(步骤S1005)。

CPU201将关于音轨块1表示相对于当前参照的歌曲事件的发生时刻的相对时刻的DeltaT_1值复位为0(步骤S1006)。然后，CPU201使处理进入步骤S1007。

CPU201执行与音轨块2对应的一序列处理(步骤S1007至S1013)。首先，CPU201判定表示从关于音轨块2的前一次事件的发生时刻起的相对时刻的DeltaT_2值是否与AutoIndex_2值表示的自此将要执行的演奏数据组的等待时间DeltaTime_2[AutoIndex_2]一致(步骤S1007)。

如果步骤S1007的判定为NO，则CPU201关于音轨块2将DeltaT_2值加1递增，该值TickTime_2表示相对于上一次事件的发生时刻的相对时刻，并且将时刻行进对应于当前中断的1TickTime单位(步骤S1008)。然后，CPU201结束图10的流程图所示的自动演奏中断处理。

如果步骤S1007的判定是YES，则CPU201判定指示伴奏再现的RAM203上的变量Bansou的值是否是1(有伴奏)(步骤S1009)(参照图8C的步骤S824至S826)。

如果在步骤S1009中判定为YES，则CPU201执行与由AutoIndex_2值指示的有关音轨块2的伴奏相关的事件Event_2[AutoIndex_2](步骤S1010)。如果在这里执行的事件Event_2[AutoIndex_2]例如是音符开启事件，则根据由该音符开启事件指定的键号和速度(velocity)，对图2的声源LSI204发行伴奏用的乐音的发声命令。另一方面，如果事件Event_2[AutoIndex_2]是例如音符关闭事件，则根据由音符关闭事件指定的键号和速度，向图2中的声源LSI204发出用于在发声过程中伴奏的乐音的静音命令。

另一方面，如果步骤S1009的判定是NO，则CPU201跳过步骤S1010，由此不执行与本次的伴奏有关的事件Event_2[AutoIndex_2]，而是为了与歌词同步地进行，进入下一步骤S1011的处理，仅执行使事件进行的控制处理。

在步骤S1010之后或步骤S1009的判定为NO的情况下，CPU201将用于参照音轨块2上的伴奏数据用的演奏数据组的AutoIndex_2值加1递增(步骤S1011)。

CPU201将关于音轨块2表示相对于本次执行的事件的发生时刻的相对时刻的DeltaT_2值复位为0(步骤S1012)。

CPU201确定在AutoIndex_2值所表示的下一个执行的音轨块2上的演奏数据组的等待时间DeltaTime_2[AutoIndex_2]是否为0，即，判定是否是与本次事件同时执行的事件[步骤S1013]。

如果步骤S1013的判定为NO，则CPU201结束图10的流程图所示的本次的自动演奏中断处理。

如果在步骤S1013中的判定是YES，则CPU201返回到步骤S1009，并反复进行关于事件Event_2[AutoIndex_2]的控制处理，事件Event_2[AutoIndex_2]是在由AutoIndex_2值表示的音轨块2上接下来执行的演奏数据组的事件。CPU201反复执行步骤S1009至S1013的处理，反复次数等于本次同时执行的次数。以上的处理顺序在例如和音等那样多个音符开启事件在同时定时发声那样的情况下执行。

图11是示出图7的步骤S705中的歌曲再现处理的第一实施方式的详细例的流程图。该处理执行图5A～图5C所示的根据本实施方式的控制处理。

首先，CPU201在图10的自动演奏中断处理的步骤S1004中，判定是否对RAM203上的变量SongIndex设置值而不是Null值(步骤S1101)。该SongIndex值表示当前的定时是否为歌声的再现定时。

如果步骤S1101的判定为YES，即当前时刻为歌曲再现的定时(图5的例子的t1、t2、t3、t4、t5、t6、t7等)，则CPU201判定是否通过图7的步骤S703的键盘处理检测到用户在图1的键盘101上的新按键了(步骤S1102)。

如果步骤S1102的判定为YES，则CPU201从RAM203上的变量SongIndex所表示的RAM203上的乐曲数据的音轨块1上的歌曲事件Event_1[SongIndex]中读出音高，判定用户通过按键指定的指定音高是否与读出的音高一致(步骤S1103)。

如果步骤S1103中的判定是YES，则CPU201将用户通过按键指定的指定音高作为发声音高设置为寄存器(未特别示出)或RAM203中的变量(步骤S1104)。

然后，CPU201从RAM203中的变量SongIndex所表示的RAM203上的歌曲数据的音轨块1上的歌曲事件Event_1[SongIndex]中读取歌词字符串。CPU201生成用于以设置了基于在步骤S1104中设定的按键的指定音高的发声音高，对与所读出的歌词字符串对应的某歌手的歌声推论数据217进行发声的乐曲数据215，并对语音合成LSI205指示发声处理(步骤S1105)。

上述步骤S1104和S1105的处理对应于上述关于图5B所示的歌曲再现定时t1、t2、t3'和t4的控制处理。

在步骤S1105的处理之后，CPU201将进行了RAM203上的变量SongIndex所表示的再现的歌曲位置存储到RAM203上的变量SongIndex_pre中(步骤S1106)。

接着，CPU201将变量SongIndex的值清除为Null值，将此后的定时设为不是歌曲再现的定时的状态(步骤S1107)。

CPU201在控制歌词和自动伴奏的进行的RAM203上的变量SongStart中设定指示进行的值1(步骤S1108)。然后，CPU201结束图11的流程图所示的图7的步骤S705的歌曲再现处理。

如针对图5B的定时t3而说明的那样，在歌词和自动伴奏的进行停止的状态下，在定时t3'，如果基于演奏(按键)的指定音高与从乐曲数据读出的音高一致，则进行为步骤S1101的判定为YES→步骤S1102的判定为YES，并在进行了步骤S1105中Event_1(SongIndex)所示的歌声的发声后，如上所述，在步骤S1108中，变量SongStart的值被设定为1。结果，在图10的自动演奏中断处理中，步骤S1001的判定为YES，歌声和自动伴奏的进行重新开始。

如果上述步骤S1103的判定为NO，即如果通过用户的按键指定的指定音高与从乐曲数据读出的音高不一致，则CPU201在控制歌词和自动伴奏的进行的RAM203上的变量SongStart中，设定指示进行的停止的值0(步骤S1109)。然后，CPU201结束图11的流程图所示的图7的步骤S705的歌曲再现处理。

如关于图5B的定时t3所说明的那样，在歌声的发声定时t3，当通过演奏(按键)指定的音高与从乐曲数据读出的音高不一致时，进行为步骤S1101的判定为YES→步骤S1102的判定为YES→步骤S1103的判定为NO，如上所述，在步骤S1109中将变量SongStart的值设置为0。其结果是，在图10的自动演奏中断处理中，步骤S1001的判定为NO，歌声和自动伴奏的进行停止。

如果在步骤S1101中判定为NO，也就是说，如果当前时刻不是歌曲再现的定时，则CPU201判定是否通过图7的步骤S703中的键盘处理检测到用户在图1的键盘101上的新按键了(步骤S1101)。

如果步骤S1110的判定为NO，则CPU201直接结束图11的流程图所示的图7的步骤S705的歌曲再现处理。

如果步骤S1110的判定为YES，则CPU201生成指示将当前语音合成LSI205发声处理中的、与RAM203上的变量SongIndex_pre表示的RAM203上的乐曲数据的音轨块1上的歌曲事件Event_1[SongIndex_pre]的歌词字符串对应的某歌手的歌声推论数据217的音高变更为基于在步骤S1110中检测到的用户的按键的指定音高的乐曲数据215，并输出到语音合成LSI205(步骤S1111)。此时，在乐曲数据215中，将已经发声处理中的歌词的音素中的后半部分的音素，例如如果是歌词字符串"Ki"，则将构成其的音素串“/k/”“/i/”中的后半部分的“/i/”开始的帧(参照图4(b)及(c))设置在向指定音高的变更的开始位置上。

通过以上的步骤S1111的处理，在紧挨着当前的按键定时之前的原本的定时，例如从图5B的t1开始发出的某歌手的歌声推论数据217的发声被变更为其音高由用户指定的指定音高，例如在图5B的当前的按键定时t1'能够继续该发声。

在步骤S1111的处理之后，CPU201结束图11的流程图所示的图7的步骤S705的歌曲再现处理。

图12是示出图7的步骤S705中的歌曲再现处理的第二实施方式的详细例的流程图。该处理执行图5所示的根据本实施方式的另一控制处理。

首先，CPU201判定是否通过图7的步骤S703的键盘处理在图1的键盘101上检测到用户的新的按键(步骤S1201)。

如果步骤S1201的判定为YES，则CPU201在图10的自动演奏中断处理的步骤S1004中，判定是否在表示当前的定时是否成为歌声的再现定时的RAM203上的变量SongIndex中设置了值而不是Null值(步骤S1202)。

当步骤S1202的判定变为YES后，即，在当前时间点变为歌曲再现的定时(图5的例子中的t1、t2、t3、t4等)后，CPU201将由用户通过按键指定的指定音高作为发声音高设置为未特别图示的寄存器或RAM203上的变量(步骤S1203)。

然后，CPU201从RAM203上的变量SongIndex所示的RAM203上的歌曲数据的音轨块1上的歌曲事件Event_1[SongIndex]中读取歌词字符串。CPU201生成用于以设置了基于在步骤S1104中设定的按键的指定音高的发声高，对与所读出的歌词字符串对应的某歌手的歌声推论数据217进行发声的乐曲数据215，并对语音合成LSI205指示发声处理(步骤S1204)。

然后，CPU201从RAM203上的变量SongIndex表示的RAM203上的音乐数据的音轨块1上的歌曲事件Event_1[SongIndex]中读取音高，并判定用户通过按键指定的指定音高是否与从音乐数据读取的音高一致(步骤S1205)。

如果步骤S1205的判定为YES，则CPU201进入步骤S1206。该处理对应于上述关于图5B中的歌曲再现定时t1、t2、t3'和t4的控制处理。

在步骤S1206中，CPU201将RAM203上的变量SongIndex所表示的进行了再现的歌曲位置存储为RAM203上的变量SongIndex_pre。

接着，CPU201将变量SongIndex的值清除为Null值，将此后的定时设为不是歌曲再现的定时的状态(步骤S1207)。

而且，CPU201在控制歌词和自动伴奏的进行的RAM203上的变量SongStart中设定指示进行的值1(步骤S1208)。然后，CPU201结束图12的流程图所示的图7的步骤S705的歌曲再现处理。

如果上述步骤S1205的判定为NO，即如果通过用户的按键指定的指定音高与从乐曲数据读出的音高不一致，则CPU201在控制歌词和自动伴奏的进行的RAM203上的变量SongStart中，设定指示进行的停止的值0(步骤S1210)。然后，CPU201结束图12的流程图所示的图7的步骤S705的歌曲再现处理。由此，在图10的自动演奏中断处理中，步骤S1001的判定为NO，歌声和自动伴奏的进行停止，这与图11的步骤S1109的情况相同。

该处理对应于关于图5B所示的歌曲再现定时t3的上述控制处理。

在上述步骤S1201的判定为YES后，在步骤S1202的判定为NO的情况下，即在应该发出歌声的定时以外用户发出演奏(按键)的声音的情况下，执行以下的控制处理。

首先，CPU201将RAM203上的变量SongStart设置为值0，使歌声及自动伴奏的进行暂时停止(步骤S1211)(参照图10的步骤S1001)。

接着，CPU201将与当前的歌声以及自动伴奏的进行位置相关的RAM203上的各变量DeltaT_1、DeltaT_2、AutoIndex_1以及AutoIndex_2的值分别保存到各变量DeltaT_1_now、DeltaT_2_now、AutoIndex_1_now以及AutoIndex_2_now中(步骤S1212)。

然后，CPU201执行下一歌曲事件检索处理(步骤S1213)。这里，检索用于指示与下一个到来的歌声相关的事件信息的SongIndex值。该处理的细节将在后面描述。

在步骤S1213的搜索处理之后，CPU201从由搜索到的SongIndex值表示的、RAM203上的歌曲数据的音轨块1上的歌曲事件Event_1[SongIndex]中读取音高，并且确定由用户的按键指定的指定音高是否与读取的音高一致(步骤S1214)。

如果步骤S1214中的判定为YES，则CPU201使控制处理进行为步骤S1203→S1204→S1205中的判定为YES→S1206→S1207→S1208。

通过上述一序列的控制处理，在原本的发声定时没有到来的定时，在用户按下了与接下来应该发声的歌声的音高相同音高的键的情况下，CPU201可以控制为使歌词的进行以及自动伴奏的进行一口气地前进(跳转)到接下来应该发声的歌声的定时。

如果前述的步骤S1214的判定为NO，则CPU201将在步骤S1212中保存的RAM203上的各变量DeltaT_1_now、DeltaT_2_now、AutoIndex_1_now、以及AutoIndex_2_now的值分别返回为各变量DeltaT_1、DeltaT_2、AutoIndex_1、以及AutoIndex_2，将通过步骤S1213的检索处理而前进的部分返回到检索前的原来的前进位置(步骤S1215)。

然后，CPU201生成指示将当前语音合成LSI205发声处理中的、与RAM203上的变量SongIndex_pre所表示的RAM203上的乐曲数据的音轨块1上的歌曲事件Event_1[SongIndex_pre]的歌词字符串对应的某歌手的歌声推论数据217的音高变更为基于在步骤S1201中检测出的用户的按键的指定音高的乐曲数据215，并输出到语音合成LSI205(步骤S1216)。

该步骤S1216的处理与图11的步骤S1111的处理相同，在紧挨在当前的按键定时之前的原本的定时，例如从图5B的t1发出的某歌手的歌声推论数据217的发声的音高被变更为由用户演奏的指定音高，例如在图5B的当前的按键定时t1'可以继续该发声。

在步骤S1216的处理之后，CPU201将RAM203中的变量SongStart设置为值1，从而重新开始在步骤S1211中暂时停止的歌词和自动伴奏的进行(步骤S1208)。然后，CPU201结束图12的流程图所示的图7的步骤S705的歌曲再现处理。

在上述步骤S1201的判定为NO，即没有进行用户的演奏(按键)时，CPU201在图10的自动演奏中断处理的步骤S1004中，判定是否对表示当前的定时是否成为歌声的再现定时的RAM203上的变量SongIndex设置值而不是Null值(步骤S1209)。

如果步骤S1209的判定为NO，则CPU201直接结束图12的流程图所示的图7的步骤S705的歌曲再现处理。

如果步骤S1209的判定为YES，则CPU201对控制歌词以及自动伴奏的进行的RAM203上的变量SongStart设置用于指示进行的停止的值0(步骤S1210)。然后，CPU201结束图12的流程图所示的图7的步骤S705的歌曲再现处理。由此，在图10的自动演奏中断处理中，步骤S1001的判定为NO，歌声和自动伴奏的进行停止，这与图11的步骤S1109的情况相同。

图13是表示图12的步骤S1213的下一歌曲事件检索处理的详细例的流程图。在图13的流程图中，标注与图10的自动演奏中断处理的情况相同的步骤序号的部分表示与图10的情况相同的处理。在图13的处理中，执行基本上与图10的自动演奏中断处理中的从步骤S1002到S1013的一序列的控制流程相同的控制流程，即，仅除去了进行事件的执行的处理的控制处理组。

即，在图13中，CPU201在步骤S1003使DeltaT_1值递增，使歌声的进行前进，直到在步骤S1002判定为表示从与音轨块1相关的上一次事件的发生时刻起的相对时刻的DeltaTime_1值，与AutoIndex_1值所示的自此将要执行的歌声相关的演奏数据组的等待时间DeltaTime_1[AutoIndex_1]一致。

另外，每当表示从与音轨块2相关的前一次事件的发生时刻起的相对时刻的DeltaT_2值与AutoIndex_2值所示的自此将要执行的自动伴奏相关的演奏数据组的等待时间DeltaTime_2[AutoIndex_2]一致而步骤S1007的判定成为YES时，CPU201使AutoIndex_2值前进，并且，如果步骤S1007的判定成为NO的话，使DeltaT_2值递增，使自动伴奏的进行前进，然后，返回步骤S1002的控制处理。

在反复以上一序列的控制处理中，当步骤S1002的判定为YES时，CPU201将AutoIndex_1值存储到RAM203上的变量SongIndex中，结束图13的流程图所示的图12的步骤S1213的下一歌曲事件检索处理。

图14是表示以MusicXML形式实施作为图6的数据结构而例示的乐曲数据时的乐曲数据的结构例的图。通过这种数据结构，可以提供歌词字符串和旋律的乐谱数据。CPU201通过例如图7的步骤S704的显示处理来解析这样的乐曲数据，由此，例如在图1的键盘101上，能够具有使与对应于当前歌曲再现中的歌词字符串的旋律对应的键发光，引导用户对与歌词字符串对应的键的按键的功能。同时，例如，在图1所示的LCD104上可以显示图15所示的显示例中当前歌曲再现过程中的歌词字符串和与其对应的乐谱。即，为了使用户在与乐曲数据所包含的第一定时对应的定时对多个操作件中的与第一音高建立对应的第一操作件进行操作，从第一定时之前的定时起使上述第一操作件所包含的光源发光，上述第一操作件以外的各操作件所分别包含的各光源不发光。

在本说明书中使用的“根据第一定时的定时”是受理对第一操作件的用户操作的定时，且意味着第一定时前的具有一定时间长度的期间。

另外，在本说明书中使用的包含“第一字符”、“第二字符”的各字符表示与1音符建立了对应的字符，可以是1个字符及多个字符中的任一个。

另外，如果基于针对音乐数据所示的与第一时刻匹配的第一用户操作，在电子乐器输出与第一字符和第一音高匹配的歌声的期间且在到达所述音乐数据所示的第二时刻之前，通过第二用户操作再次操作(同一操作部件的连续演奏)与第二定时对应的第二音高不同且处于输出中的具有所述第一音高的操作件，则不输出与第二定时对应的第二字符的歌声，而继续输出所述第一字符的歌声。此时，也可以对输出中的所述第1字符的歌声赋予颤音等演奏效果。另外，如果由所述第二用户操作的操作件是具有所述第二音高的操作件，则在所述第二定时以后应该输出的所述第二字符的歌声在所述第二定时到来之前被输出，从而使歌词进行，并且伴奏随着歌词的进行而进行。

在以上说明的实施方式中，为了根据语言特征量序列316预测声学特征量序列317，而通过DNN(深度神经网络)实现声学模型部306。此外，声学模型部306可以由HMM(隐马尔可夫模型(Hidden Markov Model)来实现以用于预测。在这种情况下，为了精确地对语音的声学特征进行建模，语音学习部301中的模型学习部305学习考虑了上下文的模型。为了详细地对声学特征量进行建模，不仅考虑紧挨着的前一个、紧挨着的后一个的音素，还考虑重音、词类、句子长度等因素。然而，由于上下文组合的数量很大，因此很难准备能够精确地学习所有上下文组合的上下文依赖模型的语音数据。为了解决该问题，模型学习部305可以使用基于决策树的上下文聚类技术。在基于决策树的上下文聚类中，使用“紧挨着的前一个音素是/a/？”等与上下文有关的问题对依赖于上下文的模型进行分类，将类似的上下文的模型参数作为学习结果315设定在声学模型部306中。由于根据决策树的结构而考虑的上下文改变，因此通过选择适当的决策树结构，可以估计出依赖于上下文的模型，该模型具有高精度和高通用性能。图3的语音合成部302中的声学模型部306根据由文本分析部307从音乐数据215提取的语言特征量序列316，连接依赖于上下文的HMM，并且预测输出概率最大的声学特征量序列317。

以上说明的实施方式是针对电子键盘乐器实施本发明的，但本发明也能够应用于电子弦乐器等其他电子乐器。

此外，本发明不限于上述实施方式，在实施阶段，在不脱离其主旨的范围内能够进行各种变形。另外，上述实施方式中执行的功能也可以尽可能地适当组合来实施。上述实施方式中包含各种阶段，通过公开的多个构成要件的适当组合，能够提取各种发明。例如，即使从实施方式所示的全部构成要件中删除几个构成要件，只要能够得到效果，就能够将删除了该构成要件的结构作为发明提取出来。

附图标记的说明

100 电子键盘乐器

101 键盘

102 第一开关面板

103 第二开关面板

104 LCD

200 控制系统

201 CPU

202 ROM

203 RAM

204 声源LSI

205 语音合成LSI

206 键扫描器

208 LCD控制器

209 系统总线

210 计时器

211、212 D/A转换器

213 混频器

214 放大器

301 语音学习部

302 语音合成部

303 学习用文本分析部

304 学习用声学特征量提取

305 模型学习部

306 声学模型部

307 文本分析部

308 发声模型部

309 声源生成部

310 合成滤波部

311 乐谱数据(包括学习用歌词数据和学习用音高数据)

312 某歌手的歌声数据

313 学习用词语特征量序列

314 学习用声学特征量序列

315 学习结果

316 语言特征量序列

317 声学特征量序列

318 频谱信息

319 声源信息

Claims

1.一种电子乐器，包括：

至少一个处理器，

其中，所述至少一个处理器执行以下操作：

数字合成与所述第一音符相对应的第一歌声，并且

使数字合成的所述修改的第一歌声在第三定时可听地输出，而不使所述第二音符的歌声在所述第三定时可听地输出。

2.根据权利要求1所述的电子乐器，其中，所述第一歌词部分和所述第二歌词部分分别具有一个以上的字符。

3.根据权利要求1或2所述的电子乐器，其中，所述至少一个处理器合成所述修改的第一歌声，以使得所述数字合成的第一歌声的音高在所述第三定时从所述第一音高改变为所述第三音高。

4.根据权利要求1～3中任一项所述的电子乐器，其中，所述至少一个处理器执行以下操作：

如果在所述数字合成的第一歌声正被输出时，所述用户经由所述演奏输入单元在所述第一定时之后且所述第二定时之前的第三定时指定所述第二音高，

则数字合成与所述第二音符相对应的第二歌声，

使所述数字合成的第二歌声在所述第二定时之前的所述第三定时可听地输出。

5.根据权利要求1～4中任一项所述的电子乐器，

其中，所述存储器存储使用机器学习处理获得的经训练的声学模型，所述机器学习处理采用包括训练歌词数据和训练音高数据的乐谱数据、以及与所述乐谱数据相对应的歌手的歌声数据，所述经训练的声学模型被输入规定的歌词数据和规定的音高数据，并且输出指示所述歌手的歌声的声学特征的数据，以及

其中，在歌声合成中，所述至少一个处理器基于由所述经训练的声学模型输出的如下数据来数字合成所述歌手的歌声，该数据是所述经训练的声学模型根据输入到该经训练的声学模型的任意歌词数据和任意音高数据而输出的指示所述歌手的所述歌声的声学特征的数据。

6.根据权利要求4或5所述的电子乐器，

其中，所述存储器中的所述音乐作品数据还包括伴奏部分的数据，并且

其中，所述至少一个处理器使所述伴奏部分在接受所述用户对所述演奏输入单元的操作的同时可听地输出，并且当作为在所述第三定时指定了所述第二音高的结果而在所述第二定时之前的所述第三定时输出所述数字合成的第二歌声时，所述至少一个处理器使所述伴奏部分的所述输出提前，以便与在所述第三定时输出的所述第二歌声同步。

7.根据权利要求5所述的电子乐器，其中，所述经训练的声学模型包括进行使用深度神经网络或隐马尔可夫模型中的至少一项的机器学习处理的模型。

8.一种由电子乐器中的至少一个处理器执行的方法，除了所述至少一个处理器之外，所述电子乐器还包括：具有多个操作件的演奏输入单元，所述操作件由用户演奏以指定不同音高的音符；以及存储包括声乐部分的数据的音乐作品数据的存储器，所述声乐部分至少包括要被连续再现的第一音符和第二音符以及分别与其相关联的第一歌词部分和第二歌词部分，其中，所述第一音符具有要由所述用户在第一定时指定的第一音高，并且所述第二音符具有要由所述用户在第二定时指定的第二音高，所述方法包括经由所述至少一个处理器执行以下操作：

当所述用户通过所述演奏输入单元在所述第一定时指定所述第一音高时，

数字合成与所述第一音符相对应的第一歌声，并且

使数字合成的第一歌声在所述第一定时可听地输出；以及

使数字合成的所述修改的第一歌声在所述第三定时可听地输出。

9.一种非暂时性计算机可读存储介质，其上存储有可由电子乐器中的至少一个处理器执行的程序，除了所述至少一个处理器之外所述电子乐器还包括：具有多个操作件的演奏输入单元，所述操作件要由用户演奏以指定不同音高的音符；以及存储包括声乐部分的数据的音乐作品数据的存储器，所述声乐部分至少包括要被连续再现的第一音符和第二音符以及分别与其相关联的第一歌词部分和第二歌词部分，其中，所述第一音符具有要由所述用户在第一定时指定的第一音高，并且所述第二音符具有要由所述用户在第二定时指定的第二音高，所述程序使所述至少一个处理器执行以下操作：

数字合成与所述第一音符相对应的第一歌声，并且

使数字合成的第一歌声在所述第一定时可听地输出；以及