CN113160780A

CN113160780A - 电子乐器、方法及存储介质

Info

Publication number: CN113160780A
Application number: CN202011514753.6A
Authority: CN
Inventors: 段城真; 太田文章; 中村厚士
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2019-12-23
Filing date: 2020-12-21
Publication date: 2021-07-23
Also published as: US20210193098A1; JP2023015302A; JP2023181433A; JP2021099462A; US11854521B2; JP7380809B2; JP7180587B2

Abstract

本发明提供电子乐器、方法及存储介质。电子乐器具备：多个第1演奏操作件，分别与相互不同的音高数据建立了对应；第2演奏操作件；及处理器；处理器控制为，在没有检测到对第2演奏操作件的操作的状态下检测到对第1演奏操作件的第1用户操作，并检测到第1用户操作后的对第1演奏操作件的第2用户操作的情况下，对应于第1用户操作指示与第1歌词对应的歌声的发音，且对应于第2用户操作指示与第1歌词后的第2歌词对应的歌声的发音；在检测到对第2演奏操作件的操作的状态下检测到第1用户操作及第2用户操作的情况下，对应于第1用户操作指示与第1歌词对应的歌声的发音，并且对应于第2用户操作不指示与第2歌词对应的歌声的发音。

Description

电子乐器、方法及存储介质

技术领域

本发明涉及电子乐器、方法及存储介质。

背景技术

近年来，合成声音的利用场景在扩大。在这样的过程中，优选有不仅能够自动演奏、还能够根据用户(演奏者)的按键使歌词前进、并输出与歌词对应的合成声音的电子乐器，以能够更灵活地表现合成声音。

例如，在专利文献1中，公开了与基于使用键盘等的用户操作的演奏同步地使歌词前进的技术。

专利文献1：日本特许第4735544号

发明内容

但是，在通过键盘等而能够进行多个音的同时发音的情况下，例如如果单纯地每当键被按下就使歌词前进，则在多个键被同时按下的情况下，歌词前进过多。

所以，本发明的目的是提供一种能够适当地控制与演奏有关的歌词前进的电子乐器、方法及存储介质。

有关本发明的一技术方案的电子乐器，具备：多个第1演奏操作件，分别与相互不同的音高数据建立了对应；第2演奏操作件；以及至少一个处理器；上述至少一个处理器进行控制，以使得：在没有检测到对上述第2演奏操作件的操作的状态下检测到对上述第1演奏操作件的第1用户操作，并检测到上述第1用户操作后的对上述第1演奏操作件的第2用户操作的情况下，根据上述第1用户操作指示与第1歌词对应的歌声的发音，并且根据上述第2用户操作指示与上述第1歌词后的第2歌词对应的歌声的发音；在检测到对上述第2演奏操作件的操作的状态下检测到对上述第1演奏操作件的第1用户操作，并检测到上述第1用户操作后的对上述第1演奏操作件的第2用户操作的情况下，根据上述第1用户操作指示与第1歌词对应的歌声的发音，并且不根据上述第2用户操作指示与上述第2歌词对应的歌声的发音。

根据本发明的一技术方案，能够适当地控制与演奏有关的歌词前进。

附图说明

图1是表示有关一实施方式的电子乐器10的外观的一例的图。

图2是表示有关一实施方式的电子乐器10的控制系统200的硬件结构的一例的图。

图3是表示有关一实施方式的声音学习部301的结构例的图。

图4是表示有关一实施方式的波形数据输出部302的一例的图。

图5是表示有关一实施方式的波形数据输出部302的另一例的图。

图6是表示有关一实施方式的歌词前进控制方法的流程图的一例的图。

图7是表示第n个歌声数据的发音处理的流程图的一例的图。

图8是表示利用歌词前进判定处理进行了控制的歌词前进的一例的图。

图9是表示同步处理的流程图的一例的图。

具体实施方式

对于原本以1音节对1音符作曲的部分(音节形式)使用两个以上的音符歌唱，也被称作花唱唱法(melisma：花唱)。花唱唱法也可以称为假声(日文：フェイク，fake)、花腔(こぶし)等。

本发明者们着眼于当在搭载歌声合成音源的电子乐器中通过演奏来实现花唱唱法时，维持着紧前的母音而使音高自由地变化是花唱的特征，想到了本发明的歌词前进控制方法。

根据本发明的一技术方案，能够进行控制以使得在花唱中不使歌词前进。此外，即使在同时按下多个键的情况下，也能够适当地控制有无歌词的前进。

以下，参照附图对本发明的实施方式详细地进行说明。在以下的说明中，对相同的部赋予相同的标号。相同的部由于名称、功能等相同，所以不重复详细的说明。

另外，在本发明中，“歌词的前进”、“歌词的位置的前进”“歌唱位置的前进”等也可以相互替换。此外，在本发明中，“不使歌词前进”、“不进行歌词的前进控制”、“将歌词保持”“将歌词暂停”等也可以相互替换。

(电子乐器)

图1是表示有关一实施方式的电子乐器10的外观的一例的图。电子乐器10也可以搭载开关(按钮)面板140b、键盘140k、踏板140p、显示器150d、扬声器150s等。

电子乐器10是经由键盘、开关等操作件受理来自用户的输入、用来控制演奏、歌词前进等的装置。电子乐器10也可以是具有产生与MIDI(Musical Instrument DigitalInterface：乐器数字接口)数据等演奏信息对应的音的功能的装置。该装置也可以是电子乐器(电子钢琴、合成器等)，也可以是搭载传感器等而构成为具有上述操作件的功能的模拟乐器。

开关面板140b也可以包括用来对音量的指定、音源、音色等的设定、歌曲(伴奏)的选曲(伴奏)、歌曲再现开始/停止、歌曲再现的设定(拍子等)等进行操作的开关。

键盘140k具有作为演奏操作件的多个键。踏板140p既可以是具有在踩踏该踏板的期间将被按下的键盘的音延长的功能的延音踏板(sustain pedal)，也可以是用来操作对音色、音量等进行加工的效果器的踏板。

另外，在本发明中，延音踏板、踏板、脚开关、控制器(操作件)、开关、按钮、触摸面板等也可以相互替换。本发明中的踏板的踩踏也可以用控制器的操作替换。

键也可以被称作演奏操作件、音高操作件、音色操作件、直接操作件、第1操作件等。踏板也可以被称作非演奏操作件、非音高操作件、非音色操作件、间接操作件、第2操作件等。

此外，用户操作有表现为第1用户操作、第2用户操作等的情况。

显示器150d也可以显示歌词、乐谱、各种设定信息等。扬声器150s也可以用于放出通过演奏生成的音。

另外，电子乐器10能够生成或变换MIDI消息(事件)及Open Sound Control(OSC，打开声音控制)消息的至少一方。

电子乐器10也可以被称作控制装置10、歌词前进控制装置10等。

电子乐器10也可以经由有线及无线(例如，Long Term Evolution(LTE)、5thgeneration mobile communication system New Radio(5G NR)、Wi－Fi(注册商标)等)的至少一方与网络(因特网等)通信。

电子乐器10既可以预先保持与作为前进的控制对象的歌词有关的歌声数据(也可以称作歌词文本数据、歌词信息等)，也可以经由网络发送及/或接收。歌声数据既可以是用乐谱记述语言(例如MusicXML)记载的文本，也可以用MIDI数据的保存形式(例如，StandardMIDI File(SMF)格式)表述，也可以是用通常的文本文件给出的文本。

另外，电子乐器10也可以经由该电子乐器10所具备的麦克风等取得用户实时歌唱的内容，取得对其应用声音识别处理而得到的文本数据作为歌声数据。

中央处理装置(Central Processing Unit：CPU)201、ROM(只读存储器)202、RAM(随机访问存储器)203、波形数据输出部211、连接有图1的开关(按钮)面板140b、键盘140k、踏板140p的键扫描器206、以及连接有作为图1的显示器150d的一例的LCD(Liquid CrystalDisplay：液晶显示器)的LCD控制器208分别连接于系统总线209。

CPU201上也可以连接用来控制自动演奏的序列(sequence)的定时器210。CPU201也可以被称作处理器，也可以包括与周边电路的接口、控制电路、运算电路、寄存器等。

各装置的功能也可以通过在处理器1001、存储器1002等硬件上读入规定的软件(程序)，由处理器1001进行运算，并控制基于通信装置1004的通信、存储器1002及储存设备1003中的数据的读出及/或写入等来实现。

CPU201通过一边使用RAM203作为工作存储器一边执行存储在ROM202中的控制程序，执行图1的电子乐器10的控制动作。此外，ROM202除了上述控制程序及各种固定数据以外，也可以还存储歌声数据、伴奏数据、包括它们的曲子(歌曲)数据等。

在CPU201中，安装有在本实施方式中使用的定时器210，例如对电子乐器10的自动演奏的前进进行计数。

波形数据输出部211也可以包括音源LSI(大规模集成电路)204、声音合成LSI205等。音源LSI204和声音合成LSI205也可以被合并为1个LSI。

从波形数据输出部211输出的歌声波形数据217及歌曲波形数据218分别被D/A变换器212及213变换为模拟歌声声音输出信号及模拟乐音输出信号。模拟乐音输出信号及模拟歌声声音输出信号也可以被混合器214混合，在其混合信号被放大器215放大后从扬声器150s或输出端子输出。

键扫描器(扫描器)206稳定地扫描图1的键盘140k的按键(note on)/放键(noteoff)状态、开关面板140b的开关操作状态、踏板140p的踏板操作状态等，对CPU201施加中断而传递状态变化。

LCD控制器208是控制作为显示器150d的一例的LCD的显示状态的IC(集成电路)。

另外，该系统结构是一例，并不限于此。例如，包含各电路的数量并不限于此。电子乐器10也可以具有不包含一部分电路(机构)的结构，也可以具有1个电路的功能由多个电路实现的结构。也可以具有多个电路的功能由1个电路实现的结构。

此外，电子乐器10也可以包括微处理器、数字信号处理器(DSP：Digital SignalProcessor)、ASIC(Application Specific Integrated Circuit)、PLD(ProgrammableLogic Device)、FPGA(Field Programmable Gate Array)等硬件而构成，也可以由该硬件实现各功能块的一部分或全部。例如，CPU201也可以由这些硬件的至少1个来安装。

<音响模型的生成>

图3是表示有关一实施方式的声音学习部301的结构的一例的图。声音学习部301也可以作为由与图1的电子乐器10分开而存在于外部的服务器计算机300执行的一功能而被安装。另外，声音学习部301也可以作为由CPU201、声音合成LSI205等执行的一功能而被内置在电子乐器10中。

本发明的实现声音合成的声音学习部301及后述的波形数据输出部302例如也可以根据基于深度学习的统计性声音合成技术来安装。

声音学习部301也可以包括训练用文本解析部303、训练用音响特征量提取部304和模型学习部305。

在声音学习部301中，作为训练用歌声声音数据312，例如使用将某歌手歌唱了适当类型(genre)的多个歌唱曲的声音进行录音而得到的数据。此外，作为训练用歌声数据311，准备各歌唱曲的歌词文本。

训练用文本解析部303以包括歌词文本的训练用歌声数据311为输入，将该数据解析。结果，训练用文本解析部303估计并输出训练用语言特征量序列313，该训练用语言特征量序列313是表现与训练用歌声数据311对应的音素、音高等的离散数值序列。

训练用音响特征量提取部304以训练用歌声声音数据312为输入进行分析，该训练用歌声声音数据312是通过由某歌手匹配于上述训练用歌声数据311的输入而歌唱与该训练用歌声数据311对应的歌词文本，经由麦克风等收录的数据。结果，训练用音响特征量提取部304提取表示与训练用歌声声音数据312对应的声音的特征的训练用音响特征量序列314并输出。

在本发明中，训练用音响特征量序列314及与后述的音响特征量序列317对应的音响特征量序列，包括将人的声道模型化的音响特征量数据(也可以被称作共振峰(formant)信息、波谱信息等)、以及将人的声带模型化的声带音源数据(也可以称作音源信息)。作为波谱信息，例如可以采用梅尔倒谱(Mel frequency cepstrum)、线谱对(Line SpectralPairs：LSP)等。作为音源信息，可以采用表示人的声音的音调(pitch)频率的基频(F0)及功率值。

模型学习部305根据训练用语言特征量序列313，通过机器学习来估计使生成训练用音响特征量序列314的概率为最大的音响模型。即，作为文本的语言特征量序列与作为声音的音响特征量序列的关系由音响模型这样的统计模型表现。模型学习部305将表现进行机器学习的结果计算出的音响模型的模型参数作为学习结果315输出。因而，该音响模型相当于已训练模型。

作为由学习结果315(模型参数)表现的音响模型，也可以使用HMM(Hidden MarkovModel：隐马尔可夫模型)。

也可以当某歌唱者发出遵循某旋律的歌词时，通过HMM音响模型来学习声带的振动及声道特性的歌声的特征参数怎样随时间变化而发声。更具体地讲，HMM音响模型也可以是将根据训练用的歌声数据求出的波谱、基频及它们的时间构造以音素单位模型化而得到的模型。

首先，对采用HMM音响模型的图3的声音学习部301的处理进行说明。声音学习部301内的模型学习部305也可以通过输入由训练用文本解析部303输出的训练用语言特征量序列313和由训练用音响特征量提取部304输出的上述训练用音响特征量序列314，进行似然度为最大的HMM音响模型的学习。

歌声声音的波谱参数可以通过连续HMM来模型化。另一方面，对数基频(F0)由于是在有声区间中取连续值、在无声区间中不具有值的可变维度的时间序列信号，所以不能通过通常的连续HMM或离散HMM直接模型化。所以，使用基于与可变维度对应的多空间上的概率分布的HMM即MSD－HMM(Multi－Space probability Distribution HMM：多空间概率分布隐马尔科夫模型)，作为波谱参数而将梅尔倒谱作为多维高斯分布，将对数基频(F0)的有声音作为1维空间、将无声音作为0维空间的高斯分布而同时模型化。

此外，已知即使是音响特征相同的音素，构成歌声的音素的特征也受到各种各样的因素的影响而变动。例如，作为基本的音韵单位的音素的波谱及对数基频(F0)根据歌唱风格或拍子、或者前后的歌词或音高等而不同。将这样的对音响特征量带来影响的因素称作上下文。

在一实施方式的统计性声音合成处理中，为了将声音的音响特征高精度地模型化，也可以采用考虑上下文的HMM音响模型(上下文依赖模型)。具体而言，训练用文本解析部303也可以输出不仅考虑各帧的音素、音高，还考虑了之前、之后的音素、当前位置、之前、之后的颤音、语调等的训练用语言特征量序列313。进而，为了上下文的组合的有效化，也可以使用基于决策树的上下文聚类。

例如，模型学习部305也可以根据与训练用文本解析部303从训练用歌声数据311中提取的状态持续长度有关的许多音素的上下文所对应的训练用语言特征量序列313，生成用来决定状态持续长度的状态持续长度决策树，作为学习结果315。

此外，模型学习部305例如也可以根据训练用音响特征量提取部304从训练用歌声声音数据312提取的与关于梅尔倒谱参数的多个音素对应的训练用音响特征量序列314，生成用来决定梅尔倒谱参数的梅尔倒谱参数决策树，作为学习结果315。

此外，模型学习部305例如也可以根据训练用音响特征量提取部304从训练用歌声声音数据312提取的与关于对数基频(F0)的多个音素对应的训练用音响特征量序列314，生成用来决定对数基频(F0)的对数基频决策树，作为学习结果315。另外，对数基频(F0)的有声区间和无声区间也可以分别通过与可变维度对应的MSD－HMM，被模型化为1维及0维的高斯分布，生成对数基频决策树。

另外，也可以代替基于HMM的音响模型或与其一起采用基于深度神经网络(DeepNeural Network：DNN)的音响模型。在此情况下，模型学习部305也可以生成表示从语言特征量向音响特征量的DNN内的各神经元的非线性变换函数的模型参数，作为学习结果315。根据DNN，能够使用通过决策树难以表现的复杂的非线性变换函数，来表现语言特征量序列与音响特征量序列的关系。

此外，本发明的音响模型并不限于这些，例如也可以采用将HMM与DNN组合的音响模型等，只要是利用统计性声音合成处理的技术，采用怎样的声音合成方式都可以。

学习结果315(模型参数)例如如图3所示，在图1的电子乐器10的工厂出厂时，存储到图2的电子乐器10的控制系统的ROM202中，在电子乐器10的电源接通时，从图2的ROM202装载到波形数据输出部211内的后述的歌声控制部306中。

学习结果315例如如图3所示，也可以通过由演奏者操作电子乐器10的开关面板140b，经由网络接口219从因特网等的外部下载到波形数据输出部211内的歌声控制部306中。

<基于音响模型的声音合成>

图4是表示有关一实施方式的波形数据输出部302的一例的图。

波形数据输出部302包括处理部(也可以称作文本处理部、前处理部等)306、歌声控制部(也可以称作音响模型部)307、音源308、歌声合成部(也可以称作发声模型部)309等。

波形数据输出部302通过被输入基于图1的键盘140k的按键经由图2的键扫描器206从CPU201指示的包含歌词及音高的信息的歌声数据215，合成并输出与该歌词及音高对应的歌声波形数据217。换言之，波形数据输出部302执行将与包含歌词文本的歌声数据215对应的歌声波形数据217使用被设定在歌声控制部306中的音响模型这样的统计模型进行预测而合成的统计性声音合成处理。

此外，波形数据输出部302在歌曲数据的再现时，输出与对应的歌曲再现位置相应的歌曲波形数据218。

处理部307例如作为与自动演奏匹配的演奏者的演奏的结果而被输入包含与从图2的CPU201指定的歌词的音素、音高等有关的信息的歌声数据215，将该数据解析。歌声数据215例如也可以包含第n个音符(也可以被称作第n音符)的数据(例如音高及音符长度数据)、第n音符的歌声数据等。

此外，音高有表现为第1音高、第2音高等的情况。

例如，处理部307也可以基于根据键盘140k、踏板140p的操作取得的按键(noteon)/放键(note off)数据、踏板踩下(ON)/释放(OFF)数据等，基于后述的歌词前进控制方法判定歌词前进的有无，取得与应输出的歌词对应的歌声数据215。并且，处理部307也可以将表现与通过按键指定的音高数据和所取得的歌声数据215对应的音素、词类、单词等的语言特征量序列316解析，向歌声控制部306输出。

歌声数据也可以是包含歌词(的字符)、音节的类型(开始音节、中间音节、结束音节等)、歌词索引、对应的声高(正确的声高)、和对应的发音期间(例如，发音开始定时、发音结束定时、发音的长度(duration))(正确的发音期间)中的至少1个的信息。

例如，在图4的例子中，歌声数据215也可以包含与第n(n＝1，2，3，4，…)音符对应的第n歌词的歌声数据和第n音符应被再现的规定的定时(第n歌声再现位置)的信息。

此外，第n歌词包括第1歌词和第1歌词后的第2歌词。

歌声数据215也可以包含用来演奏与该歌词对应的伴奏(歌曲数据)的信息(特定的声音文件格式的数据、MIDI数据等)。在用SMF格式表示歌声数据的情况下，歌声数据215也可以包含保存关于歌声的数据的音轨块和保存关于伴奏的数据的音轨块。歌声数据215也可以从ROM202被读入到RAM203中。歌声数据215也可以在演奏前就被存储在存储器(例如，ROM202、RAM203)中。

另外，电子乐器10也可以基于由歌声数据215表示的事件(例如，指示歌词的发声定时和音高的元事件(定时信息)、指示按键或放键的MIDI事件或指示拍子的元事件等)来控制自动伴奏的前进等。

歌声控制部306基于从处理部307输入的语言特征量序列316和被设定为学习结果315的音响模型，估计与其对应的音响特征量序列317，将与估计出的音响特征量序列317对应的共振峰信息318输出给歌声合成部309。

例如，在采用HMM音响模型的情况下，歌声控制部306按由语言特征量序列316得到的每个上下文，参照决策树，将HMM连结，根据连结的各HMM，预测输出概率最大的音响特征量序列317(共振峰信息318和声带音源数据319)。

在采用DNN音响模型的情况下，歌声控制部306也可以对以帧单位输入的语言特征量序列316的音素序列以上述帧单位输出音响特征量序列317。

在图4中，处理部307从存储器(既可以是ROM202，也可以是RAM203)，取得与被按键的音的音高对应的乐器音数据(音调信息)，向音源308输出。

音源308基于从处理部307输入的按键/放键数据，生成与应发音的(按键的)音对应的乐器音数据(音调信息)的音源信号(也可以称作乐器音波形数据)，向歌声合成部309输出。音源308也可以执行发出的音的包络线控制等控制处理。

歌声合成部309形成基于从歌声控制部306依次输入的共振峰信息318的序列将声道模型化的数字滤波器。此外，歌声合成部309将从音源309输入的音源信号作为励振源信号而应用该数字滤波器，生成数字信号的歌声波形数据217并输出。在此情况下，歌声合成部309也可以被称作合成滤波器部。

另外，在歌声合成部309中，也可以能够采用以倒谱声音合成方式、LSP声音合成方式为代表的各种各样的声音合成方式。

在图4的例子中，由于被输出的歌声波形数据217以乐器音为音源信号，所以与歌手的歌声相比逼真性略有损失，但其是该乐器音的气氛和歌手的歌声的音质双方都良好地保留的歌声，能够输出有效的歌声波形数据217。

另外，音源309也可以与乐器音波形数据的处理一起动作，以将其他通道的输出作为歌曲波形数据218输出。由此，还能够进行使伴奏音以通常的乐器音发音、或发出旋律线的乐器音的同时发出该旋律的歌声这样的动作。

图5是表示有关一实施方式的波形数据输出部302的另一例的图。关于与图4重复的内容不重复说明。

图5的歌声控制部306如上述那样，基于音响模型来估计音响特征量序列317。并且，歌声控制部306将与估计出的音响特征量序列317对应的共振峰信息318和与估计出的音响特征量序列317对应的声带音源数据(音调信息)319输出给歌声合成部309。歌声控制部306也可以估计如使生成音响特征量序列317的概率最大的音响特征量序列317的估计值。

歌声合成部309例如也可以生成以下数据(例如，也可以称作与第n音符对应的第n歌词的歌声波形数据)，向音源308输出，该数据用来生成对以从歌声控制部306输入的声带音源数据319中包含的基频(F0)及功率值周期性地反复的脉冲序列(有声音音素的情况下)、或具有声带音源数据319中包含的功率值的白噪声(无声音音素的情况下)、或将它们混合后的信号，应用了基于共振峰信息318的序列将声道模型化的数字滤波器的信号。

音源308基于从处理部307输入的按键/放键数据，根据与应发音的(按键的)音对应的上述第n歌词的歌声波形数据，生成数字信号的歌声波形数据217并输出。

在图5的例子中，由于被输出的歌声波形数据217以音源308基于声带音源数据319生成的音为音源信号，所以是由歌声控制部306完全模型化的信号，能够输出与歌手的歌声非常逼真且自然的歌声的歌声波形数据217。

这样，本发明的声音合成与既有的声码器(vocoder)(将人说的话用麦克风输入、替换为乐器音并合成的方法)不同，即使用户(演奏者)不歌唱(换言之，即使不向电子乐器10输入用户实时发音的声音信号)，也能够通过键盘的操作来输出合成声音。

如以上说明那样，通过作为声音合成方式而采用统计性声音合成处理的技术，能够实现与以往的片段合成方式相比格外少的存储器容量。例如，在片段合成方式的电子乐器中，为了声音片段数据而需要具有达到几百MB的存储容量的存储器，但在本实施方式中，为了存储学习结果315的模型参数，仅用具有仅几MB的存储容量的存储器就足够。因此，能够实现更低价格的电子乐器，能够使更广泛的用户层利用到高音质的歌声演奏系统。

进而，在以往的片段数据方式中，需要人工调整片段数据，所以在用于歌声演奏的数据的制作中需要庞大的时间(年单位)和劳动，但在本实施方式的用于HMM音响模型或DNN音响模型的学习结果315的模型参数的制作中，几乎不需要数据的调整，所以用几分之一的制作时间和劳力就足够。由此，也能够实现更低价格的电子乐器。

此外，普通用户也可以使用内置在能够作为云服务来利用的服务器计算机300、声音合成LSI205等中的学习功能，使其学习自己的声音、家人的声音或名人的声音等，将其作为模型声音而用电子乐器进行歌声演奏。在此情况下，也能够作为更低价格的电子乐器而实现比以往更加自然而高音质的歌声演奏。

(歌词前进控制方法)

以下对有关本发明的一实施方式的歌词前进控制方法进行说明。各歌词前进控制方法也可以由上述的电子乐器10的处理部307等利用。

以下的各流程图的动作主体(电子乐器10)也可以用CPU201、波形数据输出部211(或其内部的音源LSI204、声音合成LSI205)中的任一个或它们的组合替换。例如，也可以由CPU201执行从ROM202装载到RAM203中的控制处理程序，来实施各动作。

另外，在以下所示的流程的开始时，也可以进行初始化处理。该初始化处理也可以包括中断处理、作为歌词的前进、自动伴奏等的基准时间的TickTime的导出、拍子设定、歌曲的选曲、歌曲的读入、乐器音的选择、与其他按钮等关联的处理等。

CPU201能够以适当的定时，基于来自键扫描器206的中断，检测开关面板140b、键盘140k及踏板140p等的操作，实施对应的处理。

另外，以下表示控制歌词的前进的例子，但前进控制的对象并不限于此。基于本发明，例如也可以代替歌词而控制任意的字符串、文章(例如，新闻的台本)等的前进。即，本发明的歌词也可以与字符、字符串等相互替换。

图6是表示有关一实施方式的歌词前进控制方法的流程图的一例的图。另外，本例的合成声音的生成表示基于图5的例子，但也可以基于图4。

首先，电子乐器10向表示歌词的当前位置的歌词索引(也表示为“n”)代入0(步骤S101)。另外，在将歌词从途中开始(例如，从前次的存储位置开始)的情况下，也可以向n代入0以外的值。

歌词索引也可以是表示当将歌词整体看作字符串时的、对应于从开头起第几个音节(或第几个字符)的音节(或字符)的变量。例如，歌词索引n也可以表示在图4、图5等中表示的歌声数据215的第n再现位置的歌声数据。另外，在本发明中，与1个歌词的位置(歌词索引)对应的歌词也可以相当于构成1个音节的1个或多个字符。歌声数据中包含的音节也可以包括仅母音、仅子音、子音+母音等各种音节。

步骤S101也可以以演奏开始(例如，歌曲数据的再现开始)、歌声数据的读入等为契机而实施。

电子乐器10例如也可以根据用户的操作来再现与歌词对应的歌曲数据(伴奏)(步骤S102)。用户能够匹配于该伴奏而进行按键操作，推进歌词前进并进行演奏。

电子乐器10判断在步骤S102中开始再现的歌曲数据的再现是否已结束(步骤S103)。在结束了的情况下(步骤S103－是)，电子乐器10也可以将该流程图的处理结束，回到待机状态。

另外，也可以没有伴奏。在此情况下，电子乐器10也可以在步骤S102中将基于用户的操作而指定的歌声数据作为前进控制对象读入，在步骤S103中判断该歌声数据是否全部前进完。

在歌曲数据的再现没有结束的情况下(步骤S103－否)，电子乐器10判断踏板是否踩下(踏板是否被踩踏)(步骤S111)。在踏板踩下的情况下(步骤S111－是)，电子乐器10判断是否有新的按键(发生了按键事件)(步骤S112)。在有新的按键的情况下(步骤S112－是)，电子乐器10将歌词索引n递增(步骤S113)。该递增基本上递增1(向n代入n+1)，但也可以加上比1大的值。

在将歌词索引递增后，电子乐器10实施第n个歌声数据的发音处理(步骤S114)。关于该处理的例子在后面叙述。并且，电子乐器10以与在步骤S113中递增的值相同的值，将n递减(在图6中，向n代入n－1)(步骤S115)。即，在踏板踩下的情况下，由于在按键的前后n被维持，所以歌词不被前进。

接着，电子乐器10判定是否有新的放键(发生了放键事件)(步骤S116)。在有新的放键的情况下(步骤S116－是)，电子乐器10进行对应的歌声数据的消音处理(步骤S117)。

接着，电子乐器10判断是否踏板释放且全部的键被释放(步骤S118)。在踏板释放且全部的键被释放的情况下(步骤S118－是)，电子乐器10进行歌词与歌曲(伴奏)的同步处理(步骤S119)。关于同步处理在后面叙述。

另一方面，在踏板释放的情况下(步骤S111－否)，电子乐器10判断是否有新的按键(发生了按键事件)(步骤S122)。在有新的按键的情况下(步骤S122－是)，电子乐器10将歌词索引n递增(步骤S123)。该递增基本上是递增1(向n代入n+1)，但也可以加上比1大的值。

在将歌词索引递增后，电子乐器10实施第n个歌声数据的发音处理(步骤S124)。该处理也可以与步骤S114的处理相同。

即，在踏板释放的情况下，由于在按键的前后n增加了，所以歌词前进。

接着，电子乐器10判定是否有新的放键(发生了放键事件)(步骤S126)。在有新的放键的情况下(步骤S126－是)，电子乐器10进行对应的歌声数据的消音处理(步骤S127)。

在步骤S119、S126－否及S127之后，再回到步骤S103。

另外，S113及S115也可以被省略。由此，也可以不进行歌词前进而进行发音处理。在有S113及S115的情况下，通过S114发音的歌声数据成为第n+1个数据，但在没有S113及S115的情况下，通过S114发音的歌声数据成为第n个数据。

另外，S111的判定也可以是相反，即也可以用踏板是否释放(如果踏板释放则为“是”)来替换。

电子乐器10针对已经在发音中的音，既可以不使歌词前进，而持续输出相同的音(或相同音的母音)，也可以输出基于前进后的歌词的音。此外，电子乐器10在发出与已经在发音中的音相同的歌词索引的值对应的音的情况下，也可以发出该歌词的母音而输出。例如，在已经在将“Sle”这样的歌词发音中、且新发出了相同的歌词的情况下，电子乐器10也可以新发出“e”的音。

另外，本发明的电子乐器10也可以在同时发出多个音时，能够使用不同音色的合成声音来发出各音。电子乐器10例如在用户按下了4个音时，也可以以从最高的音起依次对应于女高音、女低音、男高音、男低音的音色的声音对应的方式，进行声音合成及输出。

<第n个歌声数据的发音处理>

以下对步骤S114的第n个歌声数据的发音处理详细地进行说明。

图7是表示第n个歌声数据的发音处理的流程图的一例的图。

电子乐器10的处理部307将通过按键而指定的音高数据及第n个歌声数据输入到歌声控制部306(步骤S114－1)。

并且，电子乐器10的歌声控制部306基于输入来估计声响特征量序列317，将对应的共振峰信息318和声带音源数据(基音信息)319输出给歌声合成部309。此外，歌声合成部309基于被输入的共振峰信息318和声带音源数据(基音信息)319，生成第n个歌声波形数据(也可以被称作与第n音符对应的第n歌词的歌声波形数据)，向音源308输出。这样，音源308从歌声合成部309取得第n个歌声波形数据(步骤S114－2)。

电子乐器10对所取得的第n个歌声波形数据进行基于音源308的发音处理(步骤S114－3)。

图8是表示使用歌词前进判定处理进行了控制的歌词前进的一例的图。在本例中，说明如图示的乐谱那样用户进行了按键的情况。例如，也可以是，高音谱号的谱面由用户的右手进行按键，低音谱号的谱面由用户的左手进行按键。此外，“Sle”“e”“ping”“heav”“en”及“ly”分别对应于歌词索引1－6。

此外，设想用户与t1同时踩下踏板，在t2释放踏板。同样，设想用户与t3同时踩下踏板，在t5之前释放踏板。同样，设想用户与t5同时踩下踏板，在下个小节预计开始的定时之前释放了踏板。

首先，在定时t1，4个键被按下。电子乐器10实施图6的判定处理，通过步骤S111及S112为“是”，在步骤S113中将歌词索引递增1，将歌词“Sle”使用4声的合成音分别生成并输出。此外，在步骤S115中将歌词索引复原。

接着，在定时t2，用户在将右手的键持续按下的状态下，将左手移动到“Re(D)”键。电子乐器10实施图6的判定处理，通过步骤S111为“否”，在步骤S123中将歌词索引递增1，使用歌词“Sle”生成该Re的音并输出。电子乐器10持续进行其他3声的发音。

以下同样，电子乐器10在t3以与4键对应的音输出歌词“e”，在t4以歌词“e”仅更新被新按下键的音。此外，电子乐器10在t5以与4键对应的音输出歌词“ping”，在t6以歌词“ping”仅更新被新按下键的音。

在图8的例子的t1－t6的区间中，高位三和弦的歌词在1个音符被分配1个分节，歌词按每个按键而前进。另一方面，低音谱号的声部在2个音符被分配1个分节(花唱)，由于踏板操作，有歌词不按每次按键前进的地方。

<同步处理>

同步处理也可以是使歌词的位置与当前的歌曲数据(伴奏)的再现位置匹配的处理。根据该处理，在因按键过度而歌词的位置超过、或按键不足而歌词的位置没有按预期前进等的情况下，能够适当地使歌词的位置移动。

图9是表示同步处理的流程图的一例的图。

电子乐器10取得歌曲数据的再现位置(步骤S119－1)。并且，电子乐器10判断该再现位置与第n+1歌声再现位置是否一致(步骤S119－2)。

第n+1歌声再现位置也可以表示考虑第n为止的歌声数据的总计的音符长度等而导出的、希望第n+1音符被再现的定时。

在歌曲数据的再现位置与第n+1歌声再现位置一致的情况下(步骤S119－2－是)，也可以结束同步处理。在不是这样的情况下(步骤S119－2－否)，电子乐器10也可以取得与歌曲数据的再现位置最近的第X歌声再现位置(步骤S119－3)，在n中代入X－1(步骤S119－4)，结束同步处理。

另外，在伴奏没有被再现的情况下，也可以省略同步处理。此外，也可以是，在基于歌声数据导出适当的歌词的发音定时的情况下，即使伴奏没有被再现，电子乐器10也进行根据从演奏开始到当前的经过时间、按键的次数等使歌词的位置与适当对位到被发音的情况下的位置的处理。

根据以上说明的一实施方式，在同时按下了多个键的情况下，也能够良好地使歌词前进。

(变形例)

在图4、图5等中表示的声音合成处理的ON/OFF也可以基于用户对开关面板140b的操作来切换。在OFF的情况下，波形数据输出部211也可以进行控制，以生成与按键对应的音高的乐器音数据的音源信号并输出。

在图6等的流程图中，也可以将一部分步骤省略。在判定处理被省略的情况下，关于该判定，在流程图中可以解释为向总为“是”或总为“否”的路线前进。

电子乐器10只要至少能够控制歌词的位置就可以，也可以并不一定生成或输出与歌词对应的音。例如也可以是，电子乐器10将基于按键生成的音波形数据对外部装置(服务器计算机300等)发送，该外部装置基于该音波形数据进行合成声音的生成/输出等。

电子乐器10也可以进行使显示器150d显示歌词的控制。例如，也可以显示当前的歌词的位置(歌词索引)附近的歌词，也可以将与发音中的音对应的歌词、与已发音的音对应的歌词等进行着色等而显示，以便能够识别当前的歌词的位置。

电子乐器10也可以对外部装置发送歌声数据、关于当前的歌词的位置的信息等中的至少1个。外部装置也可以基于接收到的歌声数据、关于当前的歌词的位置的信息等进行使自身具有的显示器显示歌词的控制。

在上述的例子中，表示了电子乐器10是键盘那样的键盘乐器的例子，但并不限于此。电子乐器10只要是具有能够通过用户的操作来指定发音的定时的结构的设备，也可以是电小提琴、电吉他、鼓、小号等。

因此，本发明的“键”，也可以用弦、阀键(valve)、其他的音高指定用的演奏操作件、任意的演奏操作件等替换。本发明的“按键”，也可以用打键、拨弦(picking)、演奏、操作件的操作等替换。本发明的“放键”，也可以用弦的停止、演奏停止、操作件的停止(非操作)等替换。

另外，在上述实施方式的说明中使用的框图表示了功能单位的块。这些功能块(构成部)通过硬件及/或软件的任意的组合来实现。此外，各功能块的实现手段并没有被特别限定。即，各功能块既可以由在物理上结合的1个装置实现，也可以将在物理上分离的两个以上的装置用有线或无线连接，由这些多个装置实现。

另外，关于在本发明中说明的用语及/或本发明的理解所需要的用语，也可以与具有相同或类似的意思的用语替换。

在本发明中说明的信息、参数等既可以使用绝对值表示，也可以使用相对于规定的值的相对值表示，也可以使用对应的其他信息表示。此外，在本发明中在参数等中使用的名称在任何方面都不是限定性的。

在本发明中说明的信息、信号等也可以使用各种各样不同的技术的某个来表示。例如，遍及上述的说明整体言及到的数据、命令、指令、信息、信号、比特、符号、芯片等、也可以通过电压、电流、电磁波、磁场或磁性粒子、光场或光子、或者它们的任意的组合来表示。

信息、信号等也可以经由多个网络节点而输入输出。被输入输出的信息、信号等既可以被保存到特定的场所(例如存储器)，也可以使用表来管理。被输入输出的信息、信号等可以被覆盖、更新或追加。被输出的信息、信号等也可以被删除。被输入的信息、信号等也可以被发送至其他装置。

软件不论是被称作软体、固件、中间件、微代码、硬件记述语言，或者用其他名称称呼，都应该被广义地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行文件、执行线程、次序、功能等。

此外，软件、命令、信息等也可以经由传输介质被收发。例如，在将软件使用有线技术(同轴线缆、光缆、双绞线、数字用户线路(DSL：Digital Subscriber Line)等)及无线技术(红外线、微波等)的至少一方从网站、服务器或其他远程来源发送的情况下，这些有线技术及无线技术的至少一方包含在传输介质的定义内。

在本发明中说明的各技术方案/实施方式既可以单独使用，也可以组合使用，也可以随着执行而切换使用。此外，在本发明中说明的各技术方案/实施方式的处理顺序、次序、流程图等只要没有矛盾，也可以将顺序替换。例如，关于在本发明中说明的方法，使用例示性的顺序示出了各种各样的步骤性的要素，并不限定于所示出的特定的顺序。

在本发明中使用的“基于”的记载，只要没有特别明述，就不是指“仅基于”。换言之，“基于”的记载意味着“仅基于”和“至少基于”两者。

对使用了在本发明中使用的“第1”、“第2”等叫法的要素的任何的参照，整体上都不限定这些要素的量或顺序。这些叫法可以作为区分两个以上的要素间的方便的方法而在本发明中使用。因而，第1及第2要素的参照，并不意味着仅能够采用两个要素、或以某种形式第1要素先于第2要素。

在本发明中，“包括(include)”“包含(including)”及使用它们的变形的情况下，这些用语与用语“具备(comprising)”同样是指包含性的。进而，在本发明中使用的用语“或(or)”意味着不是排他性逻辑和。

在本发明中，例如在通过翻译而追加了冠词的情况下，本发明也可以包括在这些冠词后接续的名词为复数形的情况。

以上，对有关本发明的发明详细地进行了说明，但对于本领域技术人员而言，有关本发明的发明显然并不限定于在本发明中说明的实施方式。有关本发明的发明只要不脱离基于权利要求书决定的发明的主旨及范围，能够作为修正及变更形态来实施。因而，本发明的记载以例示说明为目的，对于有关本发明的发明不带来任何限制意义。

Claims

1.一种电子乐器，其特征在于，具备：

多个第1演奏操作件，分别与相互不同的音高数据建立了对应；

第2演奏操作件；以及

至少一个处理器；

上述至少一个处理器控制为，

在没有检测到对上述第2演奏操作件的操作的状态下检测到对上述第1演奏操作件的第1用户操作，并检测到上述第1用户操作后的对上述第1演奏操作件的第2用户操作的情况下，对应于上述第1用户操作，指示与第1歌词对应的歌声的发音，并且对应于上述第2用户操作，指示与上述第1歌词后的第2歌词对应的歌声的发音；

在检测到对上述第2演奏操作件的操作的状态下检测到对上述第1演奏操作件的第1用户操作，并检测到上述第1用户操作后的对上述第1演奏操作件的第2用户操作的情况下，对应于上述第1用户操作，指示与上述第1歌词对应的歌声的发音，并且对应于上述第2用户操作，不指示与上述第2歌词对应的歌声的发音。

2.如权利要求1所述的电子乐器，其特征在于，

上述至少一个处理器在检测到对上述第2演奏操作件的操作的状态下检测到上述第1用户操作及上述第2用户操作的情况下，对应于上述第2用户操作，指示与上述第1歌词对应的歌声的发音。

3.如权利要求1或2所述的电子乐器，其特征在于，

上述至少一个处理器进行以下处理：

在没有检测到对上述第2演奏操作件的操作的状态下检测到上述第1用户操作及上述第2用户操作的情况下，对应于上述第1用户操作，指示将与上述第1歌词对应的歌声以由上述第1用户操作指定的第1音高进行发音，并且对应于上述第2用户操作，指示将与上述第2歌词对应的歌声以由上述第2用户操作指定的第2音高进行发音；

在检测到对上述第2演奏操作件的操作的状态下检测到上述第1用户操作及上述第2用户操作的情况下，对应于上述第1用户操作，指示将与上述第1歌词对应的歌声以由上述第1用户操作指定的第1音高进行发音，并且对应于上述第2用户操作，指示将与上述第1歌词对应的歌声以由上述第2用户操作指定的第2音高进行发音。

4.如权利要求1～3中任一项所述的电子乐器，其特征在于，

上述至少一个处理器进行以下处理：

指示伴奏数据的再现；

对应于检测到从检测到对上述第1演奏操作件的用户操作的状态变化为检测不到的状态，判断是否检测到对上述第2演奏操作件的操作、以及是否检测到对任一个上述第1演奏操作件的用户操作；

在没有检测到对上述第2演奏操作件的操作、并且也没有检测到对任一个上述第1演奏操作件的用户操作的情况下，将包含上述第1歌词的数据及上述第2歌词的数据的歌声文本数据中的、根据下一个用户操作而歌唱的歌词的第1再现位置，变更为与上述伴奏数据中的再现位置对应的第2再现位置。

5.如权利要求1～4中任一项所述的电子乐器，其特征在于，

上述至少一个处理器进行以下处理：

在没有检测到对上述第2演奏操作件的操作的状态下检测到上述第1用户操作及上述第2用户操作的情况下，对应于上述第1用户操作，指示与通过向已训练模型输入上述第1歌词的数据而由上述已训练模型输出的歌声数据对应的发音，并且对应于上述第2用户操作，指示与通过向上述已训练模型输入上述第2歌词的数据而由上述已训练模型输出的歌声数据对应的发音；

在检测到对上述第2演奏操作件的操作的状态下检测到上述第1用户操作及上述第2用户操作的情况下，对应于上述第1用户操作，指示与通过向已训练模型输入上述第1歌词的数据而由上述已训练模型输出的歌声数据对应的发音，并且对应于上述第2用户操作，指示与通过向上述已训练模型输入上述第1歌词的数据而由上述已训练模型输出的歌声数据对应的发音。

6.如权利要求5所述的电子乐器，其特征在于，

上述已训练模型通过以某歌手的歌声数据为训练数据进行机器学习而生成，并对应于歌词的数据输入，输出估计上述某歌手的歌声的歌声数据。

7.一种电子乐器中的方法，其特征在于，

上述电子乐器的计算机控制为，

在没有检测到对第2演奏操作件的操作的状态下检测到对第1演奏操作件的第1用户操作，并检测到上述第1用户操作后的对上述第1演奏操作件的第2用户操作的情况下，对应于上述第1用户操作，指示与第1歌词对应的歌声的发音，并且对应于上述第2用户操作，指示与上述第1歌词后的第2歌词对应的歌声的发音；

8.如权利要求7所述的方法，其特征在于，

上述电子乐器的计算机在检测到对上述第2演奏操作件的操作的状态下检测到上述第1用户操作及上述第2用户操作的情况下，对应于上述第2用户操作，指示与上述第1歌词对应的歌声的发音。

9.如权利要求7或8所述的方法，其特征在于，

上述电子乐器的计算机进行以下处理：

10.如权利要求7～9中任一项所述的方法，其特征在于，

上述电子乐器的计算机进行以下处理：

指示伴奏数据的再现；

11.如权利要求7～10中任一项所述的方法，其特征在于，

上述电子乐器的计算机进行以下处理：

12.如权利要求11所述的方法，其特征在于，

13.一种存储介质，其特征在于，

存储有用于使电子乐器执行如以下这样进行控制的处理的程序：