CN110634464B

CN110634464B - 电子乐器、电子乐器的控制方法以及存储介质

Info

Publication number: CN110634464B
Application number: CN201910543268.2A
Authority: CN
Inventors: 段城真; 太田文章; 濑户口克; 中村厚士
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-06-21
Filing date: 2019-06-21
Publication date: 2023-07-07
Anticipated expiration: 2039-06-21
Also published as: US11854518B2; EP3588486B1; US20230102310A1; US20210027753A1; JP2019219569A; CN116704981A; US11545121B2; CN110634464A; US10810981B2; EP3588486A1; US20190392799A1; JP6610715B1

Abstract

本发明提供一种电子乐器、电子乐器的控制方法以及存储介质。电子乐器包含：多个操作元件，其对应于不同的音高数据；存储器，其存储有通过对包含学习用歌词数据以及学习用音高数据的学习用乐谱数据、与学习用乐谱数据对应的某歌手的学习用歌声数据进行机器学习而得到的已学习声学模型，该已学习声学模型通过输入歌词数据和音高数据来输出声学特征量数据；至少一个处理器，至少一个处理器根据针对某个操作元件的用户操作，将歌词数据以及与某个操作元件对应的音高数据输入给已学习声学模型，并根据已学习声学模型基于输入而输出的声学特征量数据以及所述音高数据所对应的乐器音波形数据，输出推论了某歌手的歌声的推论歌声数据。

Description

电子乐器、电子乐器的控制方法以及存储介质

技术领域

本发明涉及一种根据键盘等的操作元件的操作对歌声进行再生的电子乐器、电子乐器的控制方法以及存储介质。

背景技术

以往，已知一种电子乐器，其通过将已录音的语音片段进行连接并加工的片段拼接型的合成方式来输出语音合成后的歌声(例如专利文献1)。

然而，也可以被称为PCM(Pulse Code Modulation：脉冲编码调制)方式的延长的该方式在开发时需要长时间的录音作业，此外，需要进行将已录音的语音片段之间平滑地连接的复杂的计算处理、使其成为自然的歌声的调整。

专利文献1：日本特开平9-050287

发明内容

因此，本发明的目的在于提供一种电子乐器，其通过搭载了对某歌手的歌声进行了学习的已学习模型，所述某歌手按照用户通过操作各操作元件而指定的音高良好地进行唱歌。

在一方式的电子乐器中，该电子乐器包含：多个操作元件，其分别对应于相互不同的音高数据；存储器，其存储有通过对包含学习用歌词数据以及学习用音高数据的学习用乐谱数据、与所述学习用乐谱数据对应的某歌手的学习用歌声数据进行机器学习而得到的已学习声学模型，该已学习声学模型通过输入任意的歌词数据和任意的音高数据来输出所述某歌手的歌声的声学特征量数据；以及至少一个处理器，所述至少一个处理器根据针对所述多个操作元件中的某个操作元件的用户操作，将任意的歌词数据以及与所述某个操作元件对应的音高数据输入给所述已学习声学模型，并且根据所述已学习声学模型基于输入而输出的所述某歌手的歌声的声学特征量数据以及与所述某个操作元件对应的音高数据所对应的乐器音波形数据，输出推论了所述某歌手的歌声的推论歌声数据。

根据本发明，能够提供一种电子乐器，其通过搭载了对某歌手的歌声进行了学习的已学习模型，所述某歌手按照用户通过操作各操作元件而指定的音高良好地进行唱歌

附图说明

图1是表示电子键盘乐器的一实施方式的外观例的图。

图2是表示电子键盘乐器的控制系统的一实施方式的硬件结构例的框图。

图3是表示语音学习部以及语音合成部的结构例的框图。

图4是统计性语音合成处理的第一实施方式的说明图。

图5是统计性语音合成处理的第二实施方式的说明图。

图6是表示本实施方式的数据结构例的图。

图7是表示本实施方式的电子乐器的控制处理例子的主流程图。

图8是表示初始化处理、乐曲速度变更处理以及歌曲开始处理的详细例子的流程图。

图9是表示开关处理的详细例子的流程图。

图10是表示自动演奏中断处理的详细例子的流程图。

图11是表示歌曲再生处理的详细例子的流程图。

具体实施方式

以下，参照附图对用于实施本发明的方式进行详细说明。

图1是表示电子键盘乐器的一实施方式100的外观例的图。电子键盘乐器100具备：键盘101，其由作为演奏操作元件的多个键组成；第一开关面板102，其用于指示音量的指定、歌曲再生的乐曲速度(tempo)设定、歌曲再生开始、伴奏再生等各种设定；第二开关面板103，其用于进行歌曲或伴奏的选曲、音色的选择等；以及用于显示歌曲再生时的歌词、乐谱、各种设定信息的LCD(Liquid Crystal Display：液晶显示器)104等。此外，虽然未特别进行图示，但电子键盘乐器100在底面、侧面或者背面等具备发出通过演奏而产生的乐音的扬声器。

图2是表示图1的电子键盘乐器100的控制系统200的一实施方式的硬件结构例的图。在图2中，控制系统200的CPU(中央运算处理装置)201、ROM(只读存储器)202、RAM(随机存取存储器)203、音源LSI(大规模集成电路)204、语音合成LSI205、连接图1的键盘101、第一开关面板102以及第二开关面板103的键扫描器206、以及连接图1的LCD104的LCD控制器208分别与系统总线209连接。此外，用于控制自动演奏的顺序的计时器210与CPU201连接。并且，从音源LSI204以及语音合成LSI205分别输出的乐音输出数据218(乐器音波形数据)以及推论歌声数据217通过D/A转换器211、212分别被转换为模拟乐音输出信号以及模拟歌声语音输出信号。模拟乐音输出信号以及模拟歌声语音输出信号在混合器213被混合，在通过放大器214对该混合信号进行放大后，从未特别图示的扬声器或输出端子输出。当然，也可以将音源LSI204和语音合成LSI205整合为一个LSI。此外，也可以将作为数字信号的乐音输出数据218以及推论歌声数据217通过混合器进行混合后，通过D/A转换器转换为模拟信号。

CPU201一边将RAM203作为工作存储器使用一边执行在ROM202中存储的控制程序，由此执行图1的电子键盘乐器100的控制动作。此外，在ROM202中除了上述控制程序以及各种固定数据外，还存储包含歌词数据以及伴奏数据的音乐数据。

此外，在作为存储器的ROM202中预先存储了各旋律音高数据215d，其用于表示使用户操作的各操作元件；各歌声输出定时数据215c，其用于表示分别输出所述各旋律音高数据215d所示的音高的歌声的输出定时；各歌词数据215a，其分别与所述各旋律音高数据215d对应。

在CPU201安装有在本实施方式中使用的计时器210，例如对电子键盘乐器100的自动演奏的行进进行计数。

音源LSI204按照来自CPU201的发音控制指示，例如从未特别图示的波形ROM读出乐音波形数据，并输出到D/A转换器211。音源LSI204具有同时振动发出最多256个音(256-voice polyphony)的能力。

当作为歌声数据215从CPU201赋予了歌词数据215a、音高数据215b或旋律音高数据215d时，语音合成LSI205将与之对应的歌声的语音数据进行合成，并输出到D/A转换器212。

歌词数据215a和旋律音高数据215d预先存储在ROM202中。作为音高数据，向语音合成LSI205输入预先存储在ROM202中的所述旋律音高数据215d或通过用户操作按键而实时得到的音符编号的音高数据215b。

即，当在预定的定时存在用户的按键操作时，以进行了按键操作的键101所对应的音高来发出所推论的歌声，当在预定的定时没有用户的按键操作时，以ROM202中存储的存储器音高数据215d所示的音高发出所推论的歌声。

另外，把从音源LSI204输出的预定的发音通道(可以是多个通道)的乐音输出数据作为乐器音波形数据220输入给语音合成LSI205。

根据本发明的实施例，电子键盘乐器100不使用声学模型部306输出的音源信息319，取而代之使用音源LSI204输出的发声音源用乐音输出数据220。该发声音源用乐音输出数据220是分别与用户从键盘101指定的各音高对应的乐器音的波形数据。使用的乐器音例如是铜管音、弦乐音、风琴音、动物的叫声这样的乐器音。同时使用的乐器音可以是通过操作选择元件201从这些乐器音中选择出的某一个。发明人通过实验已经确认了使用在此例示的乐器音的波形数据与使用没有在此例示的其他乐器音的波形数据相比是不同的，作为发出的歌声而良好。根据本发明的实施例，在用户同时按压多个键从而例如指定了和音的情况下，通过构成和音的各个音高复音输出接近某个歌手的歌声的歌声。即，根据本发明的实施例，通过根据声学模型部306输出的频谱信息318(共振信息)变更与构成和音的各音高对应的乐器音的波形数据，从而对输出的歌声语音输出数据217赋予某个歌手的特征。根据本发明，具有以下的优点：在用户同时按下了多个键时，通过与指定的各个键的音高对应的复音的歌声进行发音。

但是，在现有的声码器中，需要用户一边按键一边唱歌。在现有的声码器中，为了取得用户的歌声的特征，需要麦克风。但在本发明中，用户不需要唱歌，此外也不需要麦克风。在本发明中，不使用已学习声学模型306输出的表示某歌手的歌声的特征的特征量数据317中包含的音源信息319和频谱信息318中的音源信息319，而仅使用频谱信息318。

键扫描器206始终扫描图1的键盘101的按键/离键状态、第一开关面板102以及第二开关面板103的开关操作状态，对CPU201施加中断来传递状态变化。

LCD控制器208是控制LCD505的显示状态的IC(集成电路)。

图3是表示本实施方式的语音合成部、声学效果附加部以及语音学习部的结构例的框图。在此，语音合成部302以及声学效果附加部320作为图2的语音合成LSI205执行的一个功能而内置在电子键盘乐器100中。

将CPU201根据经由图2的键扫描器206而检测到的图1的键盘101的按键操作而指示的音高数据215b与歌词数据215a一起输入给语音合成部302，由此语音合成部302合成并输出输出数据321。在没有键盘101的按键操作从而CPU201未指示音高数据215b的情况下，向语音合成部302输入存储在存储器中的旋律音高数据215d来代替音高数据215b。由此，已学习声学模型306输出频谱数据318和音源数据319。语音合成部302根据从已学习声学模型306输出的频谱数据318以及从音源L204输出的乐器音波形数据220，而不基于音源数据319输出推论了某个歌手的歌声的推论歌声数据217。由此，即使在预定的定时用户没有按键，也会与存储器202中存储的歌声输出定时数据215c所示的输出定时相匹配地发出对应的歌声。

重点在于，输出的推论歌声数据217不是基于已学习模型输出的音源数据319，而是基于音源LSI204输出的乐器音波形数据220。

声学效果附加部320通过输入效果附加指示数据215e，对语音合成部302输出的输出数据321附加颤音(vibrato)效果、震音(tremolo)效果、或哇音(wah)效果等声学效果。

根据相对于用户按压的第一键位于预定范围(例如，1个八度以内)内的第二键(例如，黑键)的按压，向声学效果附加部320输入效果附加指示数据215e。声学效果附加部320随着第一键与第二键的高音差变大，附加更大的声学效果。

例如，如图3所示，可以作为与图1的电子键盘乐器100不同的存在于外部的服务器计算机300所执行的一个功能来安装语音学习部301。或者，虽然在图3中未进行图示，但只要图2的语音合成LSI205的处理能力具有余裕，语音学习部301也可以作为语音合成LSI205所执行的一个功能而内置在电子键盘乐器100内。

例如，根据下述的非专利文献1中记载的“基于深度学习的统计性语音合成”的技术来安装图2的语音学习部301以及语音合成部302。

(非专利文献1)

桥本佳，高木信二“深層学習に基づく統計的音声合成(基于深度学习的统计性语音合成)”日本音响学会杂志73卷1号(2017)，pp.55-62

如图3所示，例如作为外部的服务器计算机300执行的功能的图2的语音学习部301包含学习用文本解析部303、学习用声学特征量提取部304以及模型学习部305。

在语音学习部301中，作为某歌手的学习用歌声数据312，例如使用对某个歌手演唱适当类型的多个歌曲发出的语音进行录音而得到的歌声数据。此外，作为学习用乐谱数据311，准备各歌曲的歌词文本(＝学习用歌词数据311a)。

学习用文本解析部303输入包含歌词文本(＝学习用歌词数据311a)、音符数据(＝学习用音高数据311b)的学习用乐谱数据311，并对该数据进行解析。作为结果，学习用文本解析部303推定并输出作为离散数值序列的学习用语言特征量序列313，该学习用语言特征量序列313用于表现与学习用乐谱数据311对应的音素、音高等。

与上述学习用乐谱数据311的输入相匹配地，学习用声学特征量提取部304输入某歌手(例如，2～3小时左右)演唱与该学习用乐谱数据311对应的歌词文本，由此经由麦克风等而记录的某歌手的学习用歌声数据312，并进行分析。作为结果，学习用声学特征量提取部304提取并输出学习用声学特征量序列314，该学习用声学特征量序列314用于表示与某歌手的学习用歌声数据312对应的语音特征。

模型学习部305按照下述式(1)，通过机器学习来推定使根据学习用语言特征量序列313(设为l)和声学模型(设为λ)生成学习用声学特征量序列314(设为o)的概率(设为P(o|l,λ))为最大的声学模型

即，通过称为声学模型的统计模型来表现作为文本的语言特征量序列与作为语音的声学特征量序列之间的关系。

【式1】

其中，arg max表示用于计算对其右侧记载的函数赋予最大值的其下侧记载的参数的运算。

模型学习部305输出作为根据式(1)进行机器学习的结果而计算出的表现声学模型的模型参数，来作为学习结果315。

例如，如图3所示，可以在图1的电子键盘乐器100出厂时，将该学习结果315(模型参数)存储在图2的电子键盘乐器100的控制系统的ROM202中，在电子键盘乐器100开机时，从图2的ROM202加载到语音合成LSI205内的后述的已学习声学模型306。或者，例如，如图3所示，可以通过用户对电子键盘乐器100的第二开关面板103进行操作，从而将学习结果315从未特别图示的因特网、USB(Universal Serial Bus，通用串行总线)电缆等网络经由网络接口219下载到语音合成LSI205内的后述的已学习声学模型306。

语音合成LSI205执行的功能即语音合成部302包含文本解析部307、已学习声学模型306以及发声模型部308。语音合成部302执行统计性语音合成处理，即通过被称为已学习声学模型306的统计模型来预测与包含歌词文本的歌声数据215对应的输出数据321并进行合成。

作为与自动演奏相匹配的用户的演奏结果，文本解析部307输入歌声数据215，该歌声数据215包含与图2的CPU201指定的歌词的音素、音高等相关的信息，文本解析部307对该数据进行解析。作为结果，文本解析部307解析并输出用于表现与歌声数据215对应的音素、词性、单词等的语言特征量序列316。

已学习声学模型306通过输入语言特征量序列316，来推定并输出与之对应的声学特征量序列317(＝声学特征量数据317)。即，已学习声学模型306按照下述式(2)来推定使根据从文本解析部307输入的语言特征量序列316(再次设为l)以及通过模型学习部305中的机器学习作为学习结果315而设定的声学模型

生成声学特征量序列317(再次设为O)的概率(设为/>

为最大的声学特征量序列317的推定值/>

【式2】

发声模型部308通过输入声学特征量序列317，生成包含由CPU201指定的歌词文本的歌声数据215所对应的输出数据321。输出数据321由后述的声学效果附加部320附加声学效果而变换为最终的推论歌声数据217，从图2的D/A转换器212经由混合器213以及放大器214输出，从未特别图示的扬声器发出声音。

通过学习用声学特征量序列314、声学特征量序列317表现的声学特征量包含将人的声道模型化的频谱数据以及将人的声带模型化的音源数据。作为频谱数据，例如能够采用梅尔倒频谱(Mel cepstrum)、线谱对(Line spectral pairs：LSP)等。作为音源数据，能够采用表示人的语音的音调频率(pitch frequency)的基本频率(F0)以及功率值。发声模型部308包含合成滤波部310。将图2的音源LSI204的预定的发音通道(可以是多个通道)的乐器音波形数据220的输出输入到合成滤波部310。合成滤波部310是将人的声道模型化的部分，根据从已学习声学模型306依次输入的频谱数据318的序列形成将声道模型化的数字滤波器，以从音源LSI204输入的预定的发音通道(可以是多个通道)的乐器音波形数据220为激励源信号，生成并输出数字信号的输出数据321。从音源LSI204输入的乐器音波形数据220是预定的发音通道数的复音。

如上所述，根据用户在键盘101(图1)上进行的演奏由音源LSI204生成并输出的乐器音波形数据220被输入到根据从已学习声学模型306输入的频谱数据318进行动作的合成滤波部310，从合成滤波部310进行输出数据321的输出。如此生成并输出的输出数据321以在音源LSI204生成的乐器音为音源信号。因此，与歌手的歌声相比，失去了一些忠实性，但是成为在音源LSI204中设定的乐器音的氛围保持良好，且歌手的歌声的声质也保持良好的歌声，能够输出有效果的输出数据321。并且，在声码器模式下，能够进行复音动作，因此能够实现多个歌声和声的效果。

另外，音源LSI204例如可以通过如下方式进行动作：将多个预定的发音通道的输出作为乐器音波形数据220提供给语音合成LSI205，同时将其他通道的输出作为通常的乐音输出数据218进行输出。由此，还能够进行通过通常的乐器音发出伴奏音，或者在发出旋律线的乐器音的同时从语音合成LSI205发出该旋律的歌声的动作。

另外，在声码器模式下向合成滤波部310输入的乐器音波形数据220可以是任何信号，但是作为音源信号优选在性质方面包含多个和声成分且长时间持续的、例如铜管音(brass sounds)、弦乐音(string sounds)、风琴音(organ sounds)这样的乐器音。当然，以大的效果为目的，即使使用完全没有遵循这样的基准的乐器音、例如动物的鸣叫声这样的乐器音，也能够得到非常有趣的效果。作为具体的实施例，例如将对爱犬的叫声进行采样而得到的数据作为乐器音而输入到合成滤波部310。然后，根据从合成滤波部310以及声学效果附加部320输出的推论歌声数据217从扬声器发出声音。如此，能够得到好像听到爱犬在唱歌这样的非常有趣的效果。

与某歌手的学习用歌声数据312相对的采样频率例如为16KHz(千赫)。此外，作为学习用声学特征量序列314以及声学特征量序列317中包含的频谱参数，例如在采用通过梅尔倒频谱分析处理获得的梅尔倒频谱参数的情况下，其更新帧周期例如为5msec(毫秒)。并且，在进行梅尔倒频谱分析处理的情况下，分析窗口长度为25msec，窗口函数为布莱克曼窗(Blackman window)，分析次数为24次。

从语音合成部302输出的输出数据321还通过语音合成LSI205内的声学效果附加部320附加颤音效果、震音效果或哇音效果等声学效果。

颤音效果是指在歌唱中拉长声音时，使音高的高度以预定的振幅(深度)周期性振动的效果。

震音效果是指将同一个或多个音反复演奏的效果。

哇音效果是指通过移动带通滤波器的增益成为峰值的频率，获得像是发出“wah-wah”声音的效果。

用户在通过用于指示歌声语音的键盘101(图1)上的第一键(第一操作元件)，持续输出输出数据321的状态(按压第一键的状态)下，当进行反复连击键盘101上的第二键(第二操作元件)的操作时，在声学效果附加部320中能够附加颤音效果、震音效果、或哇音效果中的通过第一开关面板102(图1)预先选择的声学效果。

在该情况下，用户通过针对进行歌声指定的第一键的音高指定进行连击的第二键使得第二键与第一键的音高差成为所希望的音高差，由此能够改变声学效果附加部320中的音高效果的程度。例如，如果第二键与第一键间的音高差为一个八度，则设定声学效果的深度(deeps)的最大值，并且能够以随着音高差变小声学效果的程度变弱的方式进行变化。

另外，连击的键盘101上的第二键也可以为白键，但是，例如在为黑键的情况下，难以妨碍用于指定歌声语音的音高的第一键的演奏操作。

如此，在本实施方式中，能够针对从语音合成部302输出的输出数据321，通过声学效果附加部320还附加多彩的声学效果来生成最终的推论歌声数据217。

另外，当在设定的时间(例如，数百毫秒)内未检测到针对第二键的押键操作的情况下，结束声学效果的附加。

作为另一个实施例，仅通过在按压了第一键的状态下按压了一次第二键，即为即使未像上述那样连击第二键，也可以附加这样的声学效果。在该情况下，可以根据第一键与第二键之间的音高差，来改变这样的声学效果的深度。此外，也可以在按压了第二键的期间附加声学效果，根据检测出离开了第二键而结束声学效果的附加。

此外，作为另一个实施例，在按压了第一键的状态下按压了第二键后，即使离开第一键，仍可以附加这样的声学效果。此外，也可以通过检测连击第一键和第二键的“颤声(trill)”，来附加这样的音高效果。

另外，在本说明书中，为了方便，有时将附加这些声学效果的演奏方法称为“所谓的连奏法(legato playing style)”。

接着，对图3的语音学习部301以及语音合成部302构成的统计性语音合成处理的第一实施方式进行说明。在统计性语音合成处理的第一实施方式中，作为通过在已学习声学模型306中设定的学习结果315(模型参数)表现的声学模型，使用上述的非专利文献1以及下述的非专利文献2所记载的HMM(Hidden Markov Model：隐马尔可夫模型)。

(非专利文献2)

酒向慎司、才野庆二郎、南角吉彦、德田惠一、北村正“声質と歌唱スタイルを自動学習可能な歌声合成システム”信息处理学会研究报告音乐信息科学(MUS)2008(12(2008-MUS-074))，pp.39-44，2008-02-08

在统计性语音合成处理的第一实施方式中，在用户发出遵照某个旋律的歌词时，通过HMM声学模型来学习声带的振动、声道特性的歌声的特征参数进行怎样的时间变化来进行发声。更具体地说，HMM声学模型是以音素为单位将根据学习用歌声数据求出的频谱、基本频率以及它们的时间构造模型化的模型。

首先，对采用HMM声学模型的图3的语音学习部301的处理进行说明。语音学习部301内的模型学习部305输入学习用文本解析部303输出的学习用语言特征量序列313、学习用声学特征量提取部304输出的上述学习用声学特征量序列314，由此根据上述式(1)，进行似然成为最大的HMM声学模型的学习。使用下述的式(3)来表示HMM声学模型的似然函数。

【式3】

其中，o_t表示帧t中的声学特征量，T表示帧数，q＝(q₁，...，q_T)表示HMM声学模型的状态序列，q_t表示帧t中的HMM声学模型的状态编号。此外，

表示从状态q_t-1向状态q_t的状态迁移概率，/>

是平均向量/>

协方差矩阵/>

的正态分布，表示状态q_t的输出概率分布。通过利用期待值最大化(Expectation Maximization：EM)算法，从而基于似然最大化基准高效地进行HMM声学模型的学习。

能够通过连续HMM将歌声语音的频谱参数模型化。另一方面，对数基本频率(F0)是在有声区间取得连续值，在无声区间不具有值的可变维度的时间序列信号，因此无法通过通常的连续HMM、离散HMM直接模型化。因此，使用基于与可变维度对应的多空间上的概率分布的HMM即MSD-HMM(Multi-Space probability Distribution HMM：多空间概率分布HMM)，作为频谱参数以梅尔倒频谱为多维高斯分布，以对数基本频率(F0)的有声为1维空间的高斯分布，以无声为0维空间的高斯分布，同时进行模型化。

此外，已知即使声学的特征为同一音素，构成歌声的音素的特征也受各种因素的影响而变动。例如，作为基本的音韵单位的音素的频谱、对数基本频率(F0)根据歌唱方式、乐曲速度或前后的歌词、音高等而不同。将这样的对声学特征量产生影响的因素称为内容(context)。在第一实施方式的统计性语音合成处理中，为了高精度地对语音的声学特征进行模型化，能够采用考虑了内容的HMM声学模型(内容依存模型)。具体地说，学习用文本解析部303可以输出不仅考虑每一帧的音素、音高，还考虑紧前和紧后的音素、当前位置、紧前和紧后的颤音、重音等的学习用语言特征量序列313。并且，为了使内容的组合高效化，也可以使用基于决策树的内容聚类。这是使用二叉树将HMM声学模型的集合分割为树结构，由此按照相类似的内容的每个组合将HMM声学模型进行聚类的方法。树的各节点具有“紧前的音素是否为/a/？”等将内容进行两分的问题，在各叶节点具有相当于特定的HMM声学模型的学习结果315(模型参数)。任意的内容的组合能够沿着位于节点的问题沿着树而到达某个叶节点，能够选择与该叶节点对应的学习结果315(模型参数)。通过选择适当的决策树构造，能够推定出高精度且通用性能高的HMM声学模型(内容依存模型)。

图4是针对统计性语音合成处理的第一实施方式中的HMM决策树的说明图。对于取决于内容的各个音素，将该音素的各状态例如与图4的(a)所示的#1、#2、#3这三个状态401构成的HMM对应起来。针对各状态输入输出的箭头表示状态迁移。例如，状态401(#1)是将该音素的开始附近模型化的状态。此外，状态401(#2)例如是将该音素的中心附近模型化的状态。并且，状态401(#3)例如是将该音素的结束附近模型化的状态。

此外，取决于音素长度，图4的(a)的HMM所示的#1至#3的各状态401持续的长度由图4的(b)的状态持续长度模型来决定。图3的模型学习部305根据图3的学习用文本解析部303从图3的学习用乐谱数据311中提取出的与状态持续长度有关的多个音素的内容所对应的学习用语言特征量序列313，通过学习来生成用于决定状态持续长度的状态持续长度决策树402，并且作为学习结果315设定在语音合成部302内的已学习声学模型306。

此外，图3的模型学习部305例如根据图3的学习用声学特征量提取部304从图3的某歌手的学习用歌声数据312中提取出的与梅尔倒频谱参数有关的多个音素所对应的学习用声学特征量序列314，通过学习来生成用于决定梅尔倒频谱参数的梅尔倒频谱参数决策树403，并作为学习结果315设定在语音合成部302内的已学习声学模型306。

并且，图3的模型学习部305例如根据图3的学习用声学特征量提取部304从图3的某歌手的学习用歌声数据312中提取出的与对数基本频率(F0)有关的多个音素所对应的学习用声学特征量序列314，通过学习来生成用于决定对数基本频率(F0)的对数基本频率决策树404，并作为学习结果315设定在语音合成部302内的已学习声学模型306。另外，如上所述，通过与可变维度对应的MSD-HMM，将对数基本频率(F0)的有声区间和无声区间分别模型化为1维的高斯分布以及0维的高斯分布，生成对数基本频率决策树404。

另外，图3的模型学习部305根据图3的学习用文本解析部303从图3的学习用乐谱数据311中提取出的与状态持续长度有关的多个音素的内容所对应的学习用语言特征量序列313，通过学习来生成用于决定音高的颤音、重音等内容的决策树，并且作为学习结果315设定在语音合成部302内的已学习声学模型306。

接着，对采用HMM声学模型的图3的语音合成部302的处理进行说明。已学习声学模型306通过输入文本解析部307输出的与歌词的音素、音高以及其他内容有关的语言特征量序列316，针对每个内容参照图4例示的各决策树402、403、404等将HMM进行连结，根据连结后的各HMM来预测输出概率为最大的声学特征量序列317(频谱数据318和音源数据319)。

此时，已学习声学模型306按照上述的式(2)，推定使根据从文本解析部307输入的语言特征量序列316(＝l)以及通过模型学习部305的机器学习作为学习结果315而设定的声学模型

生成声学特征量序列317(＝O)的概率/>

成为最大的声学特征量序列317的推定值/>

在此，使用通过图4的(b)的状态持续长度模型推定的状态序列/>

通过以下的式(4)来近似上述式(2)。

【式4】

其中

和/>

是各状态/>

下的平均向量和协方差矩阵。使用语言特征量序列l，沿着在已学习声学模型306中设定的各决策树来计算平均向量和协方差矩阵。通过式(4)，根据平均向量/>

得到声学特征量序列317的推定值/>

但是/>

成为在状态迁移的部分阶梯状变化的不连续的序列。在合成滤波部310根据这样的不连续的声学特征量序列317合成了输出数据321时，从自然性的观点而言成为低品质的合成语音。因此，在统计性语音合成处理的第一实施方式中，在模型学习部305中可以采用考虑了动态特征量的学习结果315(模型参数)的生成算法。在由静态特征量c_t和动态特征量Δc_t构成帧t中的声学特征量序列/>

时，各时刻的声学特征量序列/>

由下式(5)表示。

【式5】

o＝W_c (5)

其中，W是根据静态特征量序列

求出包含动态特征量的声学特征量序列o的矩阵。模型学习部305以上述的式(5)为制约，按下述式(6)所示那样对上述的式(4)进行求解。

【式6】

其中，

是以动态特征量为制约且输出概率成为最大的静态特征量序列。通过考虑动态特征量来解决状态边界的不连续，能够得到平滑变化的声学特征量序列317，在合成滤波部310中能够生成高品质的歌声语音输出数据321。

在此，歌声数据的音素边界与乐谱所决定的音符的边界不一致的情况较多。从音乐表现的观点而言，这样的时间上的摇摆是问题的本质。因此，在采用了上述的HMM声学模型的统计性语音合成处理的第一实施方式中可以采用以下的技术：假定在歌声的发声中存在受到发声时的音韵的不同、音高、节奏等各种影响而导致的时间偏差，将学习数据中的发声定时与乐谱之间的偏差模型化。具体地说，作为音符单位的偏差模型，可以通过1维高斯分布来表示以音符为单位观察到的歌声与乐谱之间的偏差，与其他的频谱参数、对数基本频率(F0)等同样地作为依存于内容的HMM声学模型来进行处理。在使用这样的包含“偏差”的内容的HMM声学模型的歌声合成中，首先决定乐谱表示的时间边界，然后使音符单位的偏差模型与音素状态持续长度模型这两者的联合概率最大化，由此能够决定考虑了学习数据中的音符摇摆的时间构造。

接着，对图3的语音学习部301以及语音合成部302构成的统计性语音合成处理的第二实施方式进行说明。在统计性语音合成处理的第二实施方式中，为了根据语言特征量序列316预测声学特征量序列317，通过深度神经网络(Deep Neural Network：DNN)安装已学习声学模型306。与此对应地，语音学习部301内的模型学习部305学习模型参数，该模型参数用于表示从语言特征量向声学特征量的DNN内的各神经元的非线性变换函数，将该模型参数作为学习结果315输出给语音合成部302内的已学习声学模型306的DNN。

通常，例如以5.1msec(毫秒)宽度的帧为单位计算声学特征量，以音素为单位计算语言特征量。因此，声学特征量与语言特征量的时间单位不同。在采用了HMM声学模型的统计性语音合成处理的第一实施方式中，通过HMM的状态序列来表现声学特征量与语言特征量的对应，模型学习部305根据图3的学习用乐谱数据311以及某歌手的学习用歌声数据312来自动学习声学特征量与语言特征量的对应关系。与此相对，在采用了DNN的统计性语音合成处理的第二实施方式中，在已学习声学模型306中设定的DNN是表示作为输入的语言特征量序列316与作为输出的声学特征量序列317之间的一对一对应关系的模型，因此无法使用时间单位不同的输入输出数据对来学习DNN。因此，在统计性语音合成处理的第二实施方式中，预先设定帧单位的声学特征量序列与音素单位的语言特征量序列的对应关系，生成帧单位的声学特征量与语言特征量的对。

图5是表示上述的对应关系的语音合成LSI205的动作说明图。例如，在得到了与唱出的歌词字符串“き”“ら”“き”(图5的(a))对应的语言特征量序列即歌声音素串“/k/”“/i/”“/r/”“/a/”“/k/”“/i/”(图5的(b))时，这些语言特征量序列以一对多的关系(图5的(b)与(c)的关系)与帧单位的声学特征量序列(图5的(c))对应起来。另外，语言特征量被用作向已学习声学模型306中的DNN的输入，因此需要表现为数值数据。因此，作为语言特征量序列，准备针对以下提问的二值数据(0或1)或者将连续值的回答进行连结而得到的数值数据，提问是指“紧前的音素为“/a/”？”、“当前的单词中包含的音素的数量是多少？”等与内容相关的提问。

如图5的虚线箭头组501所示，统计性语音合成处理的第二实施方式中的图3的语音学习部301内的模型学习部305以帧为单位向已学习声学模型306的DNN依次提供图5的(b)所对应的学习用语言特征量序列313的音素串与图5的(c)所对应的学习用声学特征量序列314的对来进行学习。另外，如图5的灰色的圆圈组所示，已学习声学模型306内的DNN包含由输入层、一个以上的中间层以及输出层构成的神经元组。

另一方面，在语音合成时，以帧为单位将与图5的(b)对应的语言特征量序列316的音素串输入给已学习声学模型306的DNN。结果，如图5的粗实线箭头组502所示，已学习声学模型306的DNN以帧为单位输出声学特征量序列317。因此，在发声模型部308中，也以帧为单位将声学特征量序列317中包含的音源数据319以及频谱数据318分别提供给音源生成部309以及合成滤波部310来执行语音合成。

结果，如图5的粗实线箭头组503所示，发声模型部308针对每个帧例如输出225采样(samples)的输出数据321。帧具有5.1msec的时间宽度，因此1个采样为“5.1msec÷225≈0.0227msec”，因此输出数据321的采样频率为1/0.0227≈44kHz(千赫)。

基于使用帧单位的声学特征量和语言特征量的对，按照下述式(7)来进行运算的平方误差最小化基准来进行DNN学习。

【式7】

/>

其中，o_t和l_t分别为第t个帧t中的声学特征量和语言特征量，

是已学习声学模型306的DNN的模型参数，g_λ(·)是通过DNN表现的非线性变换函数。能够通过误差反向传播方法高效地推定DNN的模型参数。当考虑了与上述式(1)表示的统计性语音合成中的模型学习部305的处理之间的对应关系时，能够如下述的式(8)那样表示DNN学习。

【式8】

在此，下述式(9)成立。

【式9】

如上述式(8)以及式(9)那样，可以通过将DNN的输出作为平均向量的正态分布

来表示声学特征量与语言特征量的关系。在使用DNN的统计性语音合成处理的第二实施方式中，通常对于语言特征量序列l_t使用独立的协方差矩阵，即为使用在全部的帧中相同的协方差矩阵/>

此外，当把协方差矩阵/>

设为单位矩阵时，式(8)表示与式(7)等价的学习处理。

如在图5中说明的那样，已学习声学模型306的DNN针对每个帧独立地推定声学特征量序列317。因此，在得到的声学特征量序列317中包含使合成语音的品质下降的不连续。因此，在本实施方式中，例如能够与统计性语音合成处理的第一实施方式同样地通过采用使用了动态特征量的参数生成算法，来改善合成语音的品质。

以下，详细说明采用了在图3至图5中说明的统计性语音合成处理的图1以及图2的电子键盘乐器100的实施方式的动作。在本实施方式中，图6表示从图2的ROM202向RAM203读入的音乐数据的数据结构例。该数据结构例以MIDI(Musical Instrument DigitalInterface：乐器数字化接口)用文件格式之一的标准MIDI文件格式为基准。该音乐数据由称为块(chunk)的数据块构成。具体地说，音乐数据由位于文件开头的标题块(headerchunk)、标题块后续的存储歌词部分用歌词数据的音轨块(track chunk)1、存储伴奏部分用伴奏数据的音轨块2构成。

标题块由ChunkID(块ID)、ChunkSize(块大小)、FormatType(格式类型)、NumberOfTrack(音轨编号)以及TimeDvision(时间分割)这四个值构成。ChunkID是表示为标题块的“MThd”这样的半角4个字符所对应的4字节的ASCII码“4D 54 68 64”(数字为16进制)。ChunkSize是在标题块中，表示除了ChunkID和ChunkSize以外的FormatType、NumberOfTrack以及TimeDvision部分的数据长度的4字节数据，数据长度被固定为6字节“00 00 0006”(数字为16进制)。在本实施方式的情况下，FormatType是表示使用多个音轨的格式1的2字节的数据“00 01”(数字为16进制)。在本实施方式的情况下，NumberOfTrack是表示使用与歌词部分和伴奏部分对应的2个音轨的2字节的数据“00 02”(数字为16进制)。TimeDvision是表示时间基准值的数据，该时间基准值表示每4分音符的分辨率，在本实施方式的情况下，是以10进制表示480的2字节的数据“01E0”(数字为16进制)。

音轨块1、2分别由以下构成：ChunkID、ChunkSize、DeltaTime_1[i]以及Event_1[i](音轨块1/歌词部分的情况下)或DeltaTime_2[i]以及Event_2[i](音轨块2/伴奏部分的情况下)构成的演奏数据组(0≤i≤L：音轨块1/歌词部分的情况下，0≤i≤M：音轨块2/伴奏部分的情况下)。ChunkID是表示为音轨块的"MTrk"这样的半角4个字符所对应的4字节的ASCII码“4D 5472 6B”(数字为16进制)。ChunkSize是在各音轨块中，表示除了ChunkID和ChunkSize以外的部分的数据长度的4字节数据。

DeltaTime_1[i]是表示从其紧前的Event_1[i－1]的执行时刻开始的等待时间(相对时间)的1～4字节的可变长度数据。同样地，DeltaTime_2[i]是表示从其紧前的Event_2[i－1]的执行时刻开始的等待时间(相对时间)的1～4字节的可变长度数据。Event_1[i]是在音轨块1/歌词部分中，指示歌词的发声定时和音高的元事件(meta event)(定时信息)。Event_2[i]是在音轨块2/伴奏部分中，指示音符开(note on)或音符关(noteoff)的MIDI事件，或者指示拍子的元事件(定时信息)。对于音轨块1/歌词部分，在各演奏数据组DeltaTime_1[i]以及Event_1[i]中，从其紧前的Event_1[i－1]的执行时刻开始等待了DeltaTime_1[i]后，执行Event_1[i]，由此实现歌词的发声行进。另一方面，对于音轨块2/伴奏部分，在各演奏数据组DeltaTime_2[i]以及Event_2[i]中，从其紧前的Event_2[i－1]的执行时刻开始等待了DeltaTime_2[i]后，执行Event_2[i]，由此实现自动伴奏的行进。

图7是表示本实施方式中的电子乐器的控制处理例的主流程图。该控制处理例如是图2的CPU201执行从ROM202加载到RAM203的控制处理程序的动作。

CPU201首先执行初始化处理(步骤S701)，然后反复执行步骤S702至S708的一连串的处理。

在该反复处理中，CPU201首先执行开关处理(步骤S702)。在此，CPU201根据来自图2的键扫描器206的中断，执行与图1的第一开关面板102或第二开关面板103的开关操作对应的处理。

接着，CPU201根据来自图2的键扫描器206的中断来执行键盘处理，即为判定图1的键盘101的哪个键被操作并进行处理(步骤S703)。在此，CPU201根据用户进行的某个键的按键或离键的操作，对图2的音源LSI204输出用于指示发音开始或发音停止的乐音控制数据216。

接着，CPU201执行显示处理，即为处理应该在图1的LCD104中显示的数据，并将该数据经由图2的LCD控制器208显示在LCD104(步骤S704)。作为在LCD104显示的数据，例如具有与要演奏的推论歌声数据217对应的歌词以及与该歌词对应的旋律的乐谱、各种设定信息。

接着，CPU201执行歌曲再生处理(步骤S705)。在该处理中，CPU201根据用户的演奏执行在图5中说明的控制处理，生成歌声数据215并输出到语音合成LSI205。

接着，CPU201执行音源处理(步骤S706)。在音源处理中，CPU201执行音源LSI204中正在发出的乐音的包络控制(envelope control)等控制处理。

接着，CPU201执行语音合成处理(步骤S707)。在语音合成处理中，CPU201控制语音合成LSI205使其执行语音合成。

最后，CPU201判定用户是否按压了未特别图示的关机开关而进行了关机(步骤S708)。若步骤S708的判定为“否”，CPU201返回到步骤S702的处理。若步骤S708的判定为“是”，CPU201结束图7的流程图所示的控制处理，切断电子键盘乐器100的电源。

图8的(a)、(b)以及(c)分别是表示图7的步骤S701的初始化处理、图7的步骤S702的开关处理中的后述图9的步骤S902的乐曲速度变更处理、以及该图9的步骤S906的歌曲开始处理的详细例子的流程图。

首先，在表示图7的步骤S701的初始化处理的详细例子的图8的(a)中，CPU201执行TickTime的初始化处理。在本实施方式中，歌词的行进以及自动伴奏以TickTime这样的时间为单位而行进。被指定为图6的音乐数据的标题块内的TimeDvision值的时间基准值表示4分音符的分辨率，若该值例如为480，则4分音符具有480TickTime的时间长度。此外，关于图6的音乐数据的音轨块内的等待时间DeltaTime_1[i]值以及DeltaTime_2[i]值也通过TickTime的时间单位进行计数。在此，关于1TickTime实际为几秒，根据对音乐数据指定的乐曲速度而不同。当前，若将乐曲速度值设为Tempo[敲击/分]，将上述时间基准值设为TimeDvision，则通过下式计算TickTime的秒数。

TickTime[秒]＝60/Tempo/TimeDvision (10)

因此，在图8的(a)的流程图中例示的初始化处理中，CPU201首先通过与上述式(10)对应的运算处理，计算TickTime[秒](步骤S801)。另外，关于乐曲速度值Tempo，在初始状态下在图2的ROM20中存储预定值，例如60[敲击/秒]。或者，也可以在非易失性存储器中存储上次结束时的乐曲速度值。

接着，CPU201对图2的计时器210设定基于在步骤S801中计算出的TickTime[秒]的计时器中断(步骤S802)。结果，在计时器210中每经过上述TickTime[秒]时，针对CPU201产生用于歌词行进以及自动伴奏的中断(以下，记载为“自动演奏中断”)。因此，在CPU201根据该自动演奏中断而执行的自动演奏中断处理(后述的图10)中，执行控制处理使得按照每个TickTime进行歌词行进以及自动伴奏的行进。

接着，CPU201执行图2的RAM203的初始化等其他初始化处理(步骤S803)。之后，CPU201结束在图8的(a)的流程图中例示的图7的步骤S701的初始化处理。

对图8的(b)以及(c)的流程图予以后述。图9是表示图7的步骤S702的开关处理的详细例子的流程图。

CPU201首先判定是否通过图1的第一开关面板102内的乐曲速度变更开关变更了歌词行进以及自动伴奏的乐曲速度(步骤S901)。若该判定为“是”，CPU201执行乐曲速度变更处理(步骤S902)。使用图8的(b)对该处理的细节予以后述。若步骤S901的判定为“否”，CPU201跳过步骤S902的处理。

接着，CPU201判定在图1的第二开关面板103中是否选择了某个歌曲(步骤S903)。若该判定为“是”，CPU201执行歌曲读入处理(步骤S904)。该处理是从图2的ROM202向RAM203读入具有在图6中说明的数据构造的音乐数据的处理。另外，歌曲读入处理可以是演奏中，也可以是演奏开始前。之后，对读入到RAM203的音乐数据执行针对图6所例示的数据构造内的音轨块1或2的数据访问。若步骤S903的判定为“否”，CPU201跳过步骤S904的处理。

接着，CPU201判定在图1的第一开关面板102中是否操作了歌曲开始开关(步骤S905)。若该判定为“是”，CPU201执行歌曲开始处理(步骤S906)。使用图8的(c)，对该处理的细节予以后述。若步骤S905的判定为“否”，CPU201跳过步骤S906的处理。

接着，CPU201判定在图1的第一开关面板102中是否操作了效果选择开关(步骤S907)。若该判定为“是”，CPU201执行效果选择处理(步骤S908)。在此，如上所述，当图3的声学效果附加部320对输出数据321的发声语音附加声学效果时，使用户通过第一开关面板102选择附加颤音效果、震音效果或哇音效果中的哪个声学效果。作为该选择的结果，CPU201对语音合成LSI205内的声学效果附加部320设定上述声学效果中的用户选择的某个声学效果。若步骤S907的判定为“否”，CPU201跳过步骤S908的处理。

可以通过设定同时附加多个效果。

最后，CPU201判定在图1的第一开关面板102或第二开关面板103中是否操作了其他开关，并执行与各开关操作对应的处理(步骤S909)。该处理包括针对第二开关面板103上的音色选择开关(选择操作元件)的处理，即为用户从至少包含铜管音、弦乐音、风琴音以及动物的叫声中的某一个的多个乐器音中选择铜管音、弦乐音、风琴音以及动物的叫声中的某个乐器音来作为从图2或图3的音源LSI204向语音合成LSI205内的发声模型部308供给的乐器音波形数据220的乐器音。

之后，CPU201结束在图9的流程图中例示的图7的步骤S702的开关处理。该处理例如包含乐器音波形数据220的音色选择、乐器音波形数据220的预定的发音通道的选择的开关动作。

图8的(b)是表示图9的步骤S902的乐曲速度变更处理的详细例子的流程图。如上所述，当变更了乐曲速度值时，TickTime[秒]也变更。在图8的(b)的流程图中，CPU201执行与该TickTime[秒]的变更有关的控制处理。

首先，与在图7的步骤S701的初始化处理中执行的图8的(a)的步骤S801的情况同样地，CPU201通过与上述的式(10)对应的运算处理，计算TickTime[秒](步骤S811)。另外，关于乐曲速度值Tempo，将通过图1的第一开关面板102内的乐曲速度变更开关进行变更后的值存储在RAM203等中。

接着，与在图7的步骤S701的初始化处理中执行的图8的(a)的步骤S802的情况同样地，CPU201对图2的计时器210设定基于在步骤S811中计算出的TickTime[秒]的计时器中断(步骤S812)。之后，CPU201结束在图8的(b)的流程图中例示的图9的步骤S902的乐曲速度变更处理。

图8的(c)是表示图9的步骤S906的歌曲开始处理的详细例子的流程图。

首先，CPU201在自动演奏的行进中，以TickTime为单位，将用于对从紧前的事件的发生时刻开始的相对时间进行计数的RAM203上的变量DeltaT_1(音轨块1)以及DeltaT_2(音轨块2)的值均初始设定为0。接着，CPU201将用于指定图6例示的音乐数据的音轨块1内的演奏数据组DeltaTime_1[i]以及Event_1[i](1≤i≤L－1)的各个i值的RAM203上的变量AutoIndex_1以及同样地用于指定音轨块2内的演奏数据组DeltaTime_2[i]以及Event_2[i](1≤i≤M－1)的各个i的RAM203上的变量AutoIndex_2的各值均初始设定为0(以上，步骤S821)。由此，在图6的例子中，作为初始状态，首先分别参照音轨块1内的开头的演奏数据组DeltaTime_1[0]和Event_1[0]以及音轨块2内的开头的演奏数据组DeltaTime_2[0]和Event_2[0]。

接着，CPU201将用于指示当前的歌曲位置的RAM203上的变量SongIndex的值初始设为0(步骤S822)。

并且，CPU201将用于表示进行(＝1)或不进行(＝0)歌词以及伴奏的行进的RAM203上的变量SongStart的值初始设定为1(行进)(步骤S823)。

之后，CPU201判定用户是否通过图1的第一开关面板102进行了与歌词再生相匹配地进行伴奏再生的设定(步骤S824)。

若步骤S824的判定为“是”，CPU201将RAM203上的变量Bansou的值设定为1(有伴奏)(步骤S825)。相反，若步骤S824的判定为“否”，CPU201将变量Bansou的值设定为0(无伴奏)(步骤S826)。在步骤S825或S826的处理之后，CPU201结束在图8的(c)的流程图中例示的图9的步骤S906的歌曲开始处理。

图10是表示根据在图2的计时器210中按照每个TickTime[秒]而产生的中断(参照图8(a)的步骤S802或图8(b)的步骤S812)执行的自动演奏中断处理的详细例子的流程图。对图6所例示的音乐数据的音轨块1以及音轨块2的演奏数据组执行以下的处理。

首先，CPU201执行与音轨块1对应的一连串的处理(步骤S1001至S1006)。首先，CPU201判定SongStart值是否为1，即判定是否指示了歌词以及伴奏的行进(步骤S1001)。

CPU201在判定为未指示歌词以及伴奏的行进(步骤S1001的判定为“否”)的情况下，CPU201不进行歌词以及伴奏的行进而直接结束图10的流程图所例示的自动演奏中断处理。

CPU201在判定为指示了歌词以及伴奏的行进(步骤S1001的判定为“是”)的情况下，判定与音轨块1相关的表示从前次事件的发生时刻开始的相对时刻的DeltaT_1值是否与AutoIndex_1值所表示的从此开始想要执行的演奏数据组的等待时间DeltaTime_1[AutoIndex_1]一致(步骤S1002)。

若步骤S1002的判定为“否”，CPU201对于音轨块1，使表示从前次事件的发生时刻开始的相对时刻的DeltaT_1值增加+1，使时刻行进与本次的中断对应的1TickTime单位的量(步骤S1003)。之后，CPU201转移至后述的S1007。

若步骤S1002的判定为“是”，CPU201对音轨块1执行AutoIndex_1值所表示的演奏数据组的事件Event[AutoIndex_1](步骤S1004)。该事件是包含歌词数据的歌曲事件。

接着，CPU201将用于表示音轨块1内的下一个应执行的歌曲事件的位置的AutoIndex_1值存储在RAM203上的变量SongIndex中(步骤S1004)。

并且，CPU201使用于参照音轨块1内的演奏数据组的AutoIndex_1值增加+1(步骤S1005)。

此外，CPU201将关于音轨块1本次参照的用于表示从歌曲事件的发生时刻开始的相对时刻的DeltaT_1值重置为0(步骤S1006)。之后，CPU201转移到步骤S1007的处理。

接着，CPU201执行与音轨块2对应的一连串的处理(步骤S1007至S1013)。首先，CPU201判定与音轨块2相关的表示从前次事件的发生时刻开始的相对时刻的DeltaT_2值是否与AutoIndex_2值所表示的从此开始想要执行的演奏数据组的等待时间DeltaTime_2[AutoIndex_2]一致(步骤S1007)。

若步骤S1007的判定为“否”，CPU201针对音轨块2使表示从上次的事件发生时刻开始的相对时刻的DeltaT_2值增加+1，使时刻行进与本次的中断对应的1TickTime单位的量(步骤S1008)。之后，CPU201结束图10的流程图中所示的自动演奏中断处理。

若步骤S1007的判定为“是”，CPU201判定指示伴奏再生的RAM203上的变量Bansou的值是否为1(有伴奏)(步骤S1009)(参照图8的(c)的步骤S824至S826)。

若步骤S1009的判定为“是”，CPU201执行AutoIndex_2值所表示的与音轨块2的伴奏相关的事件EVENT_2[AutoIndex_2](步骤S1010)。如果在此执行的事件EVENT_2[AutoIndex_2]例如为音符开事件，则通过由该音符开事件指定的键编号(Key number)以及速度，针对图2的音源LSI204发出伴奏用乐音的发音命令。另一方面，若事件EVENT_2[AutoIndex_2]例如为音符关事件，则通过由该音符关事件指定的键编号以及速度，针对图2的音源LSI204发出发音中的伴奏用乐音的消音命令。

另一方面，若步骤S1009的判定为“否”，CPU201跳过步骤S1010，不执行与本次的伴奏相关的事件EVENT_2[AutoIndex_2]，而为了与歌词同步地行进，进入到下一步骤S1011的处理，仅执行用于使事件行进的控制处理。

在步骤S1010之后或S1009的判定为“否”的情况下，CPU201使用于参照音轨块2上的用于伴奏数据的演奏数据组的AutoIndex_2值增加+1(步骤S1011)。

此外，CPU201对于音轨块2将表示从本次执行的事件的发生时刻开始的相对时刻的DeltaT_2值重置为0(步骤S1012)。

然后，CPU201判定AutoIndex_2值所表示的下一个执行的音轨块2上的演奏数据组的等待时间DeltaTime_2[AutoIndex_2]是否为0，即判定是否为与本次的事件同时执行的事件(步骤S1013)。

若步骤S1013的判定为“否”，CPU201结束图10的流程图中示出的本次的自动演奏中断处理。

若步骤S1013的判定为“是”，则CPU201返回到步骤S1009，重复进行与AutoIndex_2值所表示的在音轨块2上下一个执行的演奏数据组的事件EVENT_2[AutoIndex_2]相关的控制处理。CPU201按照本次同时执行的次数来重复执行步骤S1009至S1013的处理。例如像和音等那样在多个音符开事件在同步的定时发音的情况下，执行以上的处理顺序。

图11是表示图7的步骤S705的歌曲再生处理的详细例子的流程图。

首先，CPU201判定在图10的自动演奏中断处理中的步骤S1004中是否对RAM203上的变量SongIndex设置了值而不是Null值(步骤S1101)。该SongIndex值表示当前的定时是否成为歌声的再生定时。

若步骤S1101的判定为“是”，即如果当前时间点成为歌曲再生的定时，则CPU201判定是否通过图7的步骤S703的键盘处理检测出用户在图1的键盘101上进行了新的按键操作(步骤S1102)。

若步骤S1102的判定为“是”，CPU201将用户通过按键操作指定的音高作为发声音高设置为未特别图示的音区(register)或RAM203上的变量(步骤S1103)。

接着，CPU201生成音符开数据，对音源LSI204指示乐音的发音处理(步骤S1105)，上述音符开数据用于通过在步骤S1103中设定的设置了基于按键操作的音高的发声音高，并且通过在图9的步骤S909中预先设定的乐音的音色和预定的发音通道来发出乐音。音源LSI204生成从CPU201指定的预定音色的预定发音通道数的乐音信号，将其作为乐器音波形数据220经由语音合成LSI205内的声码器模式开关320输入到合成滤波部310。

接着，CPU201从RAM203上的变量SongIndex所示的RAM203上的音乐数据的音轨块1上的歌曲事件EVENT_1[SongIndex]读出歌词字符串。CPU201生成歌声数据215，对语音合成LSI205指示发声处理(步骤S1105)，上述歌声数据215用于通过在步骤S1103中设定的设置了基于按键操作的音高的发声音高发出与所读出的歌词字符串对应的输出数据321。语音合成LSI205通过执行使用图3至图5说明的统计性语音合成处理的第一实施方式或第二实施方式，合成并输出输出数据321，该输出数据321用于与用户在键盘101上按压操作的键的音高实时对应地歌唱从RAM203作为音乐数据而指定的歌词。

作为结果，将音源LSI204根据用户在键盘101(图1)上的演奏而生成并输出的乐器音波形数据220输入到根据从已学习声学模型306输入的频谱数据318进行动作的合成滤波部310，通过复音动作从合成滤波部310将输出数据321输出。

另一方面，当通过步骤S1101的判定判定为当前时间点为歌曲再生的定时，并且步骤S1102的判定为“否”，即判定为在当前时间点未检测出新的按键操作时，CPU201从RAM203上的变量SongIndex所表示的RAM203上的音乐数据的音轨块1上的歌曲事件EVENT_1[SongIndex]读出音高的数据，将该音高作为发声音高设置为未特别图示的音区或RAM203上的变量(步骤S1104)。

之后，CPU201通过执行上述的步骤S1105及其以后的处理，对语音合成LSI205指示输出数据321的发声处理(步骤S1105、S1106)。语音合成LSI205通过执行使用图3至图5说明的统计性语音合成处理的第一实施方式或第二实施方式，即使用户在键盘101上未按压操作任何键，也会合成并输出输出数据321，该输出数据321用于与同样作为音乐数据而默认指定的音高对应地唱出从RAM203作为音乐数据而指定的歌词。

在步骤S1105的处理之后，CPU201将RAM203上的变量SongIndex所示的进行了再生的歌曲位置存储在RAM203上的变量SongIndex_pre(步骤S1107)。

并且，CPU201将变量SongIndex的值清除为Null值，将这之后的定时设为不是歌曲再生定时的状态(步骤S1109)。之后，CPU201结束图11的流程图所示的图7的步骤S705的歌曲再生处理。

在上述的步骤S1101的判定为“否”时，即当前时间点不是歌曲再生的定时时，CPU201判定通过图7的步骤S703的键盘处理是否检测出用户在图1的键盘101上用于附加效果的“所谓的连奏法”(步骤S1109)。如上所述，该连奏法例如是在步骤S1102中按压了用于歌曲再生的第一键的状态下，反复连击其他的第二键的演奏法。在该情况下，在步骤S1109中，CPU201当检测出第二键的按压操作时，在该按键操作的重复速度为预定速度以上时判定为正在执行连奏法。

当步骤S1109的判定为“否”时，CPU201直接结束图11的流程图所示的图7的步骤S705的歌曲再生处理。

当步骤S1109的判定为“是”时，CPU201计算在步骤S1103中设定的发声音高与通过“所谓的连奏法”在图1的键盘101上反复连击的键的音高之间的音高差(步骤S1110)。

接着，CPU201针对图2的语音合成LSI205内的声学效果附加部320(图3)设定在步骤S1110中计算出的音高差所对应的效果量(步骤S1111)。结果，声学效果附加部320对于从语音合成部302内的合成滤波部310输出的输出数据321以上述效果量执行在图9的步骤S908中选择出的声学效果的附加处理，输出最终的推论歌声数据217(图2、图3)。

通过以上的步骤S1110和步骤S1111的处理，对从语音合成部302输出的输出数据321附加颤音效果、震音效果或哇音效果等声学效果，实现多彩的歌声表现。

在步骤S1111的处理后，CPU201结束图11的流程图所示的图7的步骤S705的歌曲再生处理。

在使用图3和图4说明的采用了HMM声学模型的统计性语音合成处理的第一实施方式中，能够再现特定歌手、歌唱风格等微妙的音乐表现，能够实现没有连接失真的流畅的歌声音质。并且，通过学习结果315(模型参数)的变换，能够适应于其他歌手，表现多样的声质和感情。并且，能够根据学习用乐谱数据311以及某歌手的学习用歌声数据312来机器学习HMM声学模型中的全部模型参数，由此作为HMM声学模型获得特定歌手的特征，在合成时能够自动构筑表现这些特征的歌声合成系统。歌声的基本频率、长度基于乐谱的旋律、乐曲速度，能够根据乐谱唯一地确定音调的时间变化、节奏的时间构造，但是由这些合成的歌声单调且是机械性的，欠缺作为歌声的魅力。在实际的歌声中，并非按乐谱那样整齐划一，而且根据声质和声音的高低、它们的时间上的构造变化，存在各个歌手独特的风格。在采用HMM声学模型的统计性语音合成处理的第一实施方式中，能够根据内容将歌声中的频谱数据和音调信息的时序变化模型化，并且通过考虑乐谱信息，能够再生更接近实际歌声的歌声。并且，在统计性语音合成处理的第一实施方式中采用的HMM声学模型相当于在对按照某个旋律的歌词进行发声时，歌手的声带振动、声道特性中的歌声的声学特征量序列一边进行怎样的时间变化一边进行发声这样的生成模型。并且，在统计性语音合成处理的第一实施方式中，通过使用包含了音符与歌声的“偏差”的内容的HMM声学模型，实现一种歌声语音的合成，其能够准确地再现取决于歌手的发声特性而具有复杂地变化的倾向的歌唱法。采用这样的HMM声学模型的统计性语音合成处理的第一实施方式的技术例如通过与基于电子键盘乐器100的实时演奏的技术融合，能够准确地反映在以往的片段合成方式等的电子乐器中无法实现的成为模型的歌手的歌唱法以及声质，能够与电子键盘乐器100的键盘演奏等相匹配地实现如同某歌手实际演唱那样的歌声演奏。

在使用图3以及图5说明的采用了DNN声学模型的统计性语音合成处理的第二实施方式中，作为语言特征量序列与声学特征量序列的关系的表现，将统计性语音合成处理的第一实施方式中的取决于基于决策树的内容的HMM声学模型置换为DNN。由此，能够通过用决策树难以表现的复杂的非线性变换函数，来表现语言特征量序列与声学特征量序列的关系。此外，在取决于基于决策树的内容的HMM声学模型中，还根据决策树将对应的学习数据进行分类，因此取决于各内容的HMM声学模型被分配的学习数据减少。与此相对，在DNN声学模型中，根据全部学习数据学习单一的DNN，因此能够高效地利用学习数据。因此，DNN声学模型能够比HMM声学模型高精度地预测声学特征量，能够大幅度地改善合成语音的自然性。并且，在DNN声学模型中，能够利用与帧相关的语言特征量序列。即，在DNN声学模型中，预先决定声学特征量序列与语言特征量序列的时间上的对应关系，因此能够利用在HMM声学模型中难以考虑的“当前的音素的继续帧数”、“当前的帧的音素内位置”等与帧有关的语言特征量。由此，通过使用与帧有关的语言特征量，能够将更详细的特征模型化，能够改善合成语音的自然性。这样的采用DNN声学模型的统计性语音合成处理的第二实施方式的技术例如通过与电子键盘乐器100的实时演奏的技术融合，能够使基于键盘演奏等的歌声演奏更自然地接近成为模型的歌手的歌唱法以及声质。

在以上说明的实施方式中，作为语音合成方式采用统计性语音合成处理的技术，由此与以往的片段合成方式相比能够实现极少的存储器容量。例如，在片段合成方式的电子乐器中，为了存储语音片段数据需要具有高达数百兆字节的存储容量的存储器，但是在本实施方式中，为了存储图3的学习结果315的模型参数，只具有几兆字节存储容量的存储器即可。因此，能够实现更低价的电子乐器，能够使高音质的歌声演奏系统用于更广泛的用户层。

并且，在以往的片段数据方式中，需要人为地调整片段数据，因此制作用于歌声演奏的数据需要大量的时间(以年为单位)和劳力，但是在本实施方式中生成用于HMM声学模型或DNN声学模型的学习结果315的模型参数时，几乎不需要调整数据，因此只需要几分之一的生成时间和劳力。根据这些，能够实现更低价的电子乐器。此外，一般用户还能够使用作为云服务可使用的服务器计算机300和/或语音合成LSI205中内置的学习功能来学习自己的声音、家族的声音、或者有名人士的声音等，并将这些作为模型语音通过电子乐器进行歌声演奏。在该情况下，作为更低价的电子乐器能够实现比以往更自然且高音质的歌声演奏。

特别是在本实施方式中，将音源LSI204生成的乐器音的乐器音波形数据220作为音源信号，因此成为在音源LSI204设定的乐器音的氛围保持良好，且歌手的歌声的声质也保持良好的歌声，能够输出有效果的推论歌声数据217。并且，能够进行复音动作，因此还能够起到多个歌声和声的效果。由此，能够提供一种通过基于用户指定的各音高而学习的与某歌手的歌声对应的歌声良好地进行歌唱的电子乐器。

在以上说明的实施方式中，对电子键盘乐器实施了本发明，但本发明也可以应用于电子弦乐器等其他电子乐器。

此外，作为图3的发声模型部308能够采用的语音合成方式并不限于倒频谱语音合成方式，能够采用以LSP语音合成方式为首的各种各样的语音合成方式。

并且，在以上说明的实施方式中，说明了使用HMM声学模型的统计性语音合成处理的第一实施方式和使用DNN声学模型的第二实施方式的语音合成方式，但是本发明并不限于此，只要是使用了统计性语音合成处理的技术，例如将HMM与DNN进行组合的声学模型等可以采用任何语音合成方式。

在以上说明的实施方式中，作为音乐数据来提供歌词信息，但是作为歌词信息也可以实时地赋予对用户实时歌唱的内容进行语音识别而得到的文本数据。此外，本发明不限于上述实施方式，在实施阶段只要在不脱离其宗旨的范围内可进行各种变形。此外，也可以尽可能地进行适当组合来实施在上述实施方式中执行的功能。上述实施方式包含各种阶段，通过将公开的多个构成要件进行适当组合可提取各种发明。例如，即使从实施方式所示的全部构成要件中删除几个构成要件，只要能够获得效果，则能够作为发明来提取删除了该构成要件后的结构。对于本领域的技术人员而言显而易见的是，在不脱离本发明的宗旨或范围的情况下，可以在本发明中进行各种修改和变化。因此，本发明旨在覆盖落入所附权利要求及其等同物的范围内的修改和变化。特别明确地表明上述任何两个或更多个实施例及其修改的任何部分或全部可以组合并视为在本发明的范围内。

符号说明

100 电子键盘乐器

101 键盘

102 第一开关面板

103 第二开关面板

104 LCD

200 控制系统

201 CPU

202 ROM

203 RAM

204 音源LSI

205 语音合成LSI

206 键扫描器

208 LCD控制器

209 系统总线

210 计时器

211、212 D/A转换器

213 混合器

214 放大器

215 歌声数据

216 发音控制数据

217、321 歌声语音输出数据

218 乐音输出数据

219 网络接口

220 发声音源用乐音输出数据

300 服务器计算机

301 语音学习部

302 语音合成部

303 学习用文本解析部

304 学习用声学特征量提取

305 模型学习部

306 声学模型部

307 文本解析部

308 发声模型部

309 音源生成部

310 合成滤波部

311 学习用歌声数据

312 学习用歌声语音数据

313 学习用语言特征量序列

314 学习用声学特征量序列

315 学习效果

316 语言信息量系列

317 声学特征量序列

318 频谱数据

319 音源数据

320 声学效果附加部。

Claims

1.一种电子乐器，其特征在于，包含：

多个操作元件(101)，其分别对应于相互不同的音高数据；

存储器(202)，其存储有通过对包含学习用歌词数据(311a)以及学习用音高数据(311b)的学习用乐谱数据(311)、与所述学习用乐谱数据(311)对应的某歌手的学习用歌声数据(312)进行机器学习(305)而得到的已学习声学模型(306)，该已学习声学模型(306)通过输入任意的歌词数据(215a)和任意的音高数据(215b)来输出所述某歌手的歌声的声学特征量数据(317)；以及

至少一个处理器(205)，

所述至少一个处理器(205)根据针对所述多个操作元件(101)中的某个操作元件的用户操作，将任意的歌词数据(215a)以及与所述某个操作元件对应的音高数据(215b)输入给所述已学习声学模型(306)，并且根据所述已学习声学模型(306)基于输入而输出的所述某歌手的歌声的声学特征量数据(317)以及与所述某个操作元件对应的音高数据(215b)所对应的乐器音波形数据(220)，输出推论了所述某歌手的歌声的推论歌声数据(217)，

所述某歌手的歌声的声学特征量数据(317)包含将所述某歌手的声道模型化的频谱数据(318)以及将所述某歌手的声带模型化的音源数据(319)，

所述至少一个处理器(205)不基于所述音源数据(319)，通过对所述乐器音波形数据(220)附加所述频谱数据(318)所表示的声学特征量来输出推论了所述某歌手的歌声的所述推论歌声数据(217)。

2.根据权利要求1所述的电子乐器，其特征在于，

所述电子乐器具有选择操作元件(102)，该选择操作元件(102)用于从至少包含铜管音、弦乐音、风琴音以及动物的叫声中的某一个的多个乐器音中选择所述铜管音、所述弦乐音、所述风琴音以及所述动物的叫声中的某个乐器音，

所述至少一个处理器(205)根据通过所述选择操作元件选择出的选择乐器音所对应的乐器音波形数据(220)，输出所述推论歌声数据(217)。

3.根据权利要求1或2所述的电子乐器，其特征在于，

所述存储器包含表示用户操作的各操作元件的各旋律音高数据(215d)、表示分别输出所述各旋律音高数据(215d)所示的音高的歌声的输出定时的各歌声输出定时数据(215c)、以及分别与所述各旋律音高数据(215d)对应的各歌词数据(215a)，

在与所述歌声输出定时数据(215c)所示的所述输出定时相符地进行了用于发出歌声的用户操作的情况下，所述至少一个处理器(205)对所述已学习声学模型(306)输入与所述用户操作的操作元件对应的音高数据(215b)以及与所述输出定时对应的歌词数据(215a)，并且根据所述已学习声学模型(306)基于输入而输出的声学特征量数据(317)，与所述输出定时相符地输出推论了所述某歌手的歌声的推论歌声数据(217)，

在没有与所述歌声输出定时数据(215c)所示的输出定时相符地进行用于发出歌声的用户操作的情况下，所述至少一个处理器(205)对所述已学习声学模型(306)输入与所述输出定时对应的旋律音高数据(215d)以及与所述输出定时对应的歌词数据(215a)，并且根据所述已学习声学模型(306)基于输入而输出的声学特征量数据(317)，与所述输出定时相符地输出推论了所述某歌手的歌声的推论歌声数据(217)。

4.根据权利要求1或2所述的电子乐器，其特征在于，

至少通过深度神经网络以及隐马尔可夫模型中的任意一个对所述已学习声学模型(306)进行了机器学习(305)。

5.根据权利要求1或2所述的电子乐器，其特征在于，

所述多个操作元件(101)包含作为所述某个操作元件的第1操作元件以及从所述第1操作元件来看用于满足所设定的条件的第2操作元件，

当在操作所述第1操作元件的过程中操作了所述第2操作元件的情况下，所述至少一个处理器(205)针对所述推论歌声数据(217)附加(320)声学效果。

6.根据权利要求5所述的电子乐器，其特征在于，

所述至少一个处理器(205)根据所述第1操作元件所对应的音高与所述第2操作元件所对应的音高之间的音高差(S1110)，变更赋予所述声学效果的深度。

7.根据权利要求5所述的电子乐器，其特征在于，

所述第2操作元件为黑键。

8.根据权利要求5所述的电子乐器，其特征在于，

所述声学效果至少包含颤音、震音以及哇音中的某个效果。

9.一种电子乐器的控制方法，其特征在于，

所述电子乐器包含：

多个操作元件(101)，其分别对应于相互不同的音高数据；

至少一个处理器(205)，

所述控制方法包括：

10.一种记录了控制电子乐器的程序的存储介质，其特征在于，

所述电子乐器包含：

多个操作元件(101)，其分别对应于相互不同的音高数据；

至少一个处理器(205)，

所述至少一个处理器(205)通过执行上述程序而进行以下处理：