CN117043853A

CN117043853A - 音生成装置及其控制方法、程序、电子乐器

Info

Publication number: CN117043853A
Application number: CN202180095312.3A
Authority: CN
Inventors: 入山达也
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-03-09
Filing date: 2021-12-16
Publication date: 2023-11-10
Also published as: JPWO2022190502A1; US20230419946A1; WO2022190502A1

Abstract

提供一种音生成装置。取得应当发声的多个字符按时间序列排列、并至少包含第1字符及该第1字符之后的第2字符在内的第1歌词数据，取得发声的开始指示。控制部(301)在取得了发声的开始指示的情况下，在发声的开始指示满足第1条件的情况下，输出生成基于与第1歌词数据的第1字符对应的第1发声的音频信号的指示，在发声的开始指示不满足所述第1条件的情况下，输出生成基于与第1歌词数据的第2字符对应的第2发声的音频信号的指示。

Description

音生成装置及其控制方法、程序、电子乐器

技术领域

本发明涉及一种音生成装置及其控制方法、程序、电子乐器。

背景技术

在电子键盘装置等电子乐器中进行如下动作，即，除了生成设想了乐器音等的电子音以外，还合成地生成歌唱音。这样的歌唱音(与实际的歌唱区分开而以下称为合成歌唱音)例如是对与歌词等的字符相对应的语音片段进行组合并且以成为所指定的音高的方式对波形进行合成，由此生成发音出该字符的合成音。以往，使用了将预先准备的乐谱(定序数据等)和字符组合而生成合成歌唱音的技术，但如专利文献1、2那样，还开发了与向电子键盘装置的演奏操作相对应地实时生成合成歌唱音的技术。

专利文献1：日本特开2016－206496号公报

专利文献2：日本特开2014－98801号公报

发明内容

在以往的歌唱音合成装置中，在与电子键盘装置的按键相对应地自动地1个1个字符或1个1个音节推进的情况下，如果存在无碰触、装饰音等，则有时歌词的位置与演奏相比会超前。在歌词的位置与演奏相比超前的情况下，存在歌词的位置和演奏不相匹配，成为不自然的合成歌唱音的问题。

因此，本发明的目的之一在于，在通过实时演奏使歌唱音发声时，生成自然的合成歌唱音。

为了实现上述目的，根据本发明，提供一种音生成装置，其具有：第1取得部，其取得应当发声的多个字符按时间序列排列、并至少包含第1字符及该第1字符之后的第2字符在内的第1歌词数据；第2取得部，其取得发声的开始指示；以及控制部，其在由所述第2取得部取得了所述发声的开始指示的情况下，在所述发声的开始指示满足第1条件的情况下，输出生成基于与所述第1歌词数据的所述第1字符对应的第1发声的音频信号的指示，在所述发声的开始指示不满足所述第1条件的情况下，输出生成基于与所述第1歌词数据的所述第2字符对应的第2发声的音频信号的指示。

发明的效果

根据本发明，能够在通过实时演奏使歌唱音发声时，生成自然的合成歌唱音。

附图说明

图1是表示本发明的一个实施方式的卡拉OK系统的结构的框图。

图2是表示本发明的一个实施方式的电子乐器的结构的框图。

图3是对本发明的一个实施方式的第1歌词数据进行说明的图。

图4是对本发明的一个实施方式的音生成处理进行说明的流程图。

图5是对指示处理进行说明的流程图。

图6是表示音生成处理的时刻和音高之间的关系的图。

图7是表示音生成处理的时刻和音高之间的关系的图。

图8是表示音生成处理的时刻和音高之间的关系的图。

图9是表示本发明的一个实施方式的音生成功能的功能块图。

图10是对指示处理进行说明的流程图。

图11是表示音生成处理的时刻和音高之间的关系的图。

图12是对本发明的一个实施方式的第1歌词数据进行说明的图。

图13是表示音生成处理的时刻和音高之间的关系的图。

图14是对本发明的一个实施方式的第2歌词数据进行说明的图。

图15是表示音生成处理的时刻和音高之间的关系的图。

图16是表示本发明的一个实施方式的电子管乐器的结构的框图。

具体实施方式

以下，参照附图对本发明的一个实施方式的卡拉OK系统详细地进行说明。以下示出的实施方式是本发明的实施方式的一个例子，本发明不限定于上述实施方式。

＜实施方式＞

[整体结构]

本发明的一个实施方式的卡拉OK系统具有下述功能，即，在使用能够生成合成歌唱音的电子乐器进行卡拉OK的情况下，对成为对象的乐曲进行指定，由此在通过实时演奏使歌唱音发声时，生成自然的合成歌唱音。

图1是表示本发明的一个实施方式的卡拉OK系统的结构的框图。卡拉OK系统100具有卡拉OK装置1、控制终端2、电子乐器3(音生成装置)、卡拉OK用服务器1000及歌唱音合成用服务器2000。在本例子中，卡拉OK装置1、卡拉OK用服务器1000及歌唱音合成用服务器2000经由互联网等网络NW进行连接。在本例子中，卡拉OK装置1通过短距离无线通信而与控制终端2及电子乐器3各自连接，但也可以通过经由网络NW的通信而连接。短距离无线通信例如是使用Bluetooth(注册商标)、红外线通信、LAN(LocalArea Network)等的通信。

卡拉OK用服务器1000具有存储装置，该存储装置将在卡拉OK装置1中为了提供卡拉OK所需的乐曲数据与曲ID相关联地存储。乐曲数据包含与卡拉OK的歌唱曲关联的数据、例如主唱数据、合唱数据、伴奏数据及卡拉OK用字幕数据等。主唱数据是表示歌唱曲的主旋律的声部的数据。合唱数据是表示针对主旋律的和声等副旋律的声部的数据。伴奏数据是表示歌唱曲的伴奏音的数据。主唱数据、合唱数据及伴奏数据可以是由MIDI形式表现的数据。卡拉OK用字幕数据是用于将歌词显示于卡拉OK装置1的显示器的数据。

歌唱音合成用服务器2000具有将设定数据与曲ID相关联地存储的存储装置，该设定数据是用于对电子乐器3进行与歌唱曲相匹配的设定的数据。设定数据包含与对应于曲ID的歌唱曲的各声部对应的歌词数据。将与主唱声部对应的歌词数据称为第1歌词数据。存储于歌唱音合成用服务器2000的第1歌词数据与存储于卡拉OK用服务器1000的卡拉OK用字幕数据可以相同，也可以不同。即，存储于歌唱音合成用服务器2000的第1歌词数据在是对应当发声的歌词(字符)进行规定的数据这一点上相同，但被调整为在电子乐器3中容易利用的形式。例如，作为存储于卡拉OK用服务器1000的卡拉OK用字幕数据，是“こ(ko)”“ん(n)”“に(ni)”“ち(chi)”“は(ha)”之类的字符串。与此相对，存储于歌唱音合成用服务器2000的第1歌词数据可以是“こ(ko)”“ん(n)”“に(ni)”“ち(chi)”“わ(wa)”之类的与实际的发音相匹配的字符串，以使得在电子乐器3中容易利用。另外，作为该形式，例如有时包含对以1个音进行2个字符对应量的歌唱的情况进行识别的信息、对乐句的分割进行识别的信息等。

卡拉OK装置1包含被供给音频信号的输入端子、及将音频信号作为声音而输出的扬声器。对输入端子输入的音频信号可以从电子乐器3供给，也可以从传声器供给。

卡拉OK装置1根据从卡拉OK用服务器1000接收到的乐曲数据之中的伴奏数据而播放音频信号，并作为歌唱曲的伴奏音从扬声器输出。与被供给至输入端子的音频信号相对应的声音可以与伴奏音合成而输出。

控制终端2是发送针对卡拉OK装置1的用户的指示(例如，歌唱曲的指定、音量、移调等)的遥控器。控制终端2可以经由卡拉OK装置1而发送针对电子乐器3的用户的指示(例如，歌词的设定、音色等的设定等)。

在卡拉OK系统中，控制终端2将对由用户设定的乐曲进行设定的指示发送至卡拉OK装置1。卡拉OK装置1基于该指示，从卡拉OK用服务器1000取得该乐曲的乐曲数据、以及从歌唱音合成用服务器2000取得第1歌词数据。卡拉OK装置1对电子乐器3发送第1歌词数据。在电子乐器3储存第1歌词数据。通过开始进行乐曲演奏的用户的指示，卡拉OK装置1读出乐曲数据而输出伴奏音等，电子乐器3读出第1歌词数据而输出与用户的演奏操作相对应的合成歌唱音。

[电子乐器的硬件结构]

电子乐器3是与演奏操作部321(图2)的操作相对应地，按照指示内容而生成表示合成歌唱音的音频信号的装置。在本实施方式中，电子乐器3是电子键盘装置。演奏操作部321包含键盘以及传感器，该键盘包含多个键，该传感器对针对各键的操作(以下，有时称为演奏操作)进行检测。在本实施方式中，合成歌唱音可以通过从电子乐器3将音频信号供给至卡拉OK装置1的输入端子而从卡拉OK装置1的扬声器输出，也可以从与电子乐器3连接的扬声器输出。

图2是表示本发明的一个实施方式的电子乐器3的结构的框图。电子乐器3包含控制部301、存储部303、操作部305、显示部307、通信部309、接口317及演奏操作部321。上述各结构经由总线进行连接。

控制部301包含CPU等运算处理电路。控制部301通过CPU来执行在存储部303存储的程序而在电子乐器3中实现各种功能。在电子乐器3中实现的功能例如包含用于执行音生成处理的音生成功能。控制部301包含用于通过音生成功能生成音频信号的DSP(DigitalSignal Processor)。存储部303是非易失性存储器等存储装置。存储部303对用于实现上述音生成功能的程序进行存储。关于音生成功能，将后述。另外，存储部303对在生成表示合成歌唱音的音频信号时使用的设定信息、用于生成合成歌唱音的语音片段等进行存储。设定信息例如是音色及从歌唱音合成用服务器2000接收到的第1歌词数据等。

操作部305是开关、音量旋钮等装置，将与输入的操作相对应的信号输出至控制部301。显示部307是液晶显示器、有机EL显示器等显示装置，显示基于由控制部301进行的控制的画面。此外，操作部305和显示部307也可以作为一体而构成触摸面板。通信部309基于控制部301的控制，通过短距离无线通信而与控制终端2连接。

演奏操作部321将与演奏操作相对应的演奏信号输出至控制部301。演奏信号包含表示被操作的键的位置的信息(音符编码)、表示已按键的信息(音符开)、表示已放键的信息(音符关)、及按键速度(力度)等。具体而言，如果按键，则关联有力度及音符编码(也称为音高指示)的音符开作为表示发声的开始指示的演奏信号被输出，如果放键，则与音符编码相关联地音符关作为表示发声的停止指示的演奏信号被输出。控制部301使用该演奏信号而生成音频信号。接口317包含输出所生成的音频信号的端子。

在这里，关于存储于存储部303的第1歌词数据的一个例子，参照图3进行说明。图3是在本发明的一个实施方式中使用的第1歌词数据。第1歌词数据是对应当发声的歌词(字符)进行规定的数据。第1歌词数据具有应当发声的多个字符按时间序列排列的文本数据。第1歌词数据包含通过规定的时间轴针对每个字符而规定发声的开始时刻及停止时刻的定时数据。开始时刻及停止时刻例如定义为将乐曲的最开头作为基准的时刻。该定时数据将歌唱曲的行进位置和在该行进位置处应当发声的歌词相关联。

此后，有时还将应当发声的歌词(字符)各自、即语音上的一个单位(一个完整的音的分割)表现为“音节”。在本实施方式中，歌词数据(包含后述的第2歌词数据)的“字符”与“音节”同义地使用。

如图3所示，第1歌词数据包含表示“こ(ko)”“ん(n)”“に(ni)”“ち(chi)”“わ(wa)”“さ(sa)”“よ(yo)”“お(o)”“な(na)”“ら(ra)”的文本数据。在“こ”“ん”“に”“ち”“わ”“さ”“よ”“お”“な”“ら”表示的字符关联有M(i)，通过“i”(i＝1～n)而设定了歌词的字符的顺序。例如，M(5)与歌词之中第5个字符对应。第1歌词数据包含对各字符M(i)设定有发声的开始时刻ts(i)及停止时刻te(i)的定时数据。例如，在M(1)“こ”的情况下，发声的开始时刻为时刻ts(1)，停止时刻为时刻te(1)。同样地，在M(n)“る”的情况下，发声的开始时刻为时刻ts(n)，停止时刻为时刻te(n)。将与各字符M(i)对应的时刻ts(i)～时刻te(i)的期间称为字符M(i)的发声的设定期间。该发声的设定期间例如表示理想地歌唱的情况的期间。如以下所说明的那样，合成歌唱音所包含的各字符的发声期间是基于由演奏信号进行的发声的开始指示及发声的停止指示进行控制的，与在定时数据规定的发声的设定期间不关联。

[音生成处理]

接着，关于本发明的一个实施方式涉及的音生成处理，参照图4～图8进行说明。音生成处理基于向演奏操作部321的演奏操作，输出生成与各字符的发声对应的音频信号的指示或停止的指示。

图4是对本发明的一个实施方式的音生成处理进行说明的流程图。该处理通过由控制部301的CPU将存储于存储部303的程序在存储部303的RAM等展开并执行而实现。例如，如果由用户指示乐曲的播放则开始该处理。

如果通过由用户发出的乐曲的播放指示而开始处理，则控制部301从存储部303取得第1歌词数据(步骤S401)。接着，控制部301执行初始化处理(步骤S402)。在本实施方式中，初始化是由控制部301设定计数值tc＝0。接着，控制部301设定为计数值tc＝tc+1，使计数值tc递增(步骤S403)。接着，读出伴奏数据之中与计数值tc对应的部分的数据(步骤S404)。

控制部301直至检测出伴奏数据的读出的结束、由用户进行的乐曲演奏的停止指示的输入、或演奏信号的接收为止的期间(步骤S405；No，步骤S406；No，步骤S407；No)，一边反复进行步骤S403及步骤S404的处理一边待机至进行上述检测为止。将该状态称为待机状态。如上述那样，计数值tc的初始值为0，与乐曲的播放开始定时对应。控制部301通过使计数值tc递增而对将乐曲的播放开始定时作为基准的时刻进行测量。

当通过在待机状态下直至最后为止读出了伴奏数据而结束了伴奏数据的读出的情况下(步骤S405；Yes)，控制部301将音生成处理结束。当在待机状态下由用户输入了乐曲演奏的停止指示的情况下(步骤S406；Yes)，控制部301将音生成处理结束。

当在待机状态下从演奏操作部321接收到演奏信号的情况下(步骤S407；Yes)，控制部301执行用于通过DSP生成音频信号的指示处理(步骤S500)。关于用于生成音频信号的指示处理的详细说明，将后述。如果用于生成音频信号的指示处理结束，则再次进入步骤S403，控制部301处于反复进行步骤S403及步骤S404的处理的待机状态。

图5是表示在图4的步骤S500执行的指示处理的流程图。

如果从演奏操作部321接收到演奏信号，则开始用于生成音频信号的指示处理。首先，控制部301基于从演奏操作部321取得的演奏信号而设定音高(步骤S501)。控制部301对从演奏操作部321取得的演奏信号是否是发声的开始指示进行判定(步骤S502)。

控制部301在判定为演奏信号是发声的开始指示的情况下(步骤S502；Yes)，参照第1歌词数据而对取得该发声的开始指示时的计数值tc是否处于与任意的字符对应的发声的设定期间内进行判定。

控制部301在判定为取得发声的开始指示的时刻处于与任意的字符M(i)对应的发声的设定期间内的情况下(步骤S503；Yes)，将属于该发声的设定期间的字符M(p)设定为应当发声的字符(步骤S504)。接着，控制部301将生成基于设定的音高及字符M(p)的发声的音频信号的指示输出至DSP(步骤S509)，将指示处理结束而进入图4所示的步骤S403。

控制部301在判定为取得发声的开始指示的时刻针对任意的字符都不处于发声的设定期间内的情况下(步骤S503；No)，控制部301对与相对于发声的开始指示的时刻处于前一个的字符M(q)对应的发声的停止时刻te(q)和与下一个的字符M(q+1)对应的发声的开始时刻ts(q+1)之间的中心时刻tm(q)进行计算(步骤S505)。在将停止时刻te(q)设为“第1时刻”、将开始时刻ts(q+1)设为“第2时刻”时，将停止时刻te(q)和开始时刻ts(q+1)之间的中心时刻称为“第3时刻”。在计数值tc包含于例如“こ”(字符M(1))的发声的停止时刻te(1)和“ん”(字符M(2))的发声的开始时刻ts(2)之间的期间的情况下，控制部301对中心时刻tm(1)＝(te(1)+ts(2))/2进行计算。此外，在预先计算出前一个发声的停止时刻te(q)和下一个发声的开始时刻ts(q+1)之间的中心时刻tm(q)的情况下，可以省略步骤S505。接着，控制部301对计数值tc与中心时刻tm(q)相比是否超前进行判定(步骤S506)。在这里，对计数值tc与中心时刻tm(q)相比是否超前进行判定是对“第1条件”是否成立进行判定的一个例子。

在计数值tc与中心时刻tm(q)相比超前的情况下(步骤S506；Yes)，控制部301对与比中心时刻tm(q)超前的设定期间对应的字符M(q)进行设定(步骤S507)。接着，控制部301将生成基于所设定的音高及字符M(q)的发声的音频信号的指示输出至DSP(步骤S509)，将指示处理结束而进入图4所示的步骤S403。

在取得的开始指示未处于中心时刻tm(q)之前的情况下(步骤S506；No)，控制部301读出与中心时刻tm(q)之后的设定期间对应的字符M(q+1)(步骤S508)。接着，控制部301输出使所取得的音高及字符的发声开始的信号(步骤S509)，将指示处理结束而进入图4所示的步骤S403。

在判定为从演奏操作部321取得的演奏信号不是发声的开始指示、即是发声的停止指示的情况下(步骤S502；No)，控制部301将使基于所设定的音高及字符M(q)发声而生成的音频信号的生成停止的指示输出至DSP(步骤S510)，将指示处理结束而进入图4所示的步骤S403。

如果对以上的指示处理进行总结，还可以如下所述。在用于生成音频信号的指示处理中，控制部301对发声的开始指示是否满足第1条件进行判定。在满足第1条件的情况下，控制部301生成基于与第1字符对应的第1发声的音频信号，在不满足第1条件的情况下，生成基于与第1字符的下一个的第2字符对应的第2发声的音频信号。在本实施方式中，第1条件是取得发声的开始指示的时刻与第1字符的停止时刻和第2字符的开始时刻之间的中心时刻相比超前的条件。如果进一步对上述指示处理进行叙述，则控制部301对发声的开始指示的取得时刻所属的设定期间或最接近取得时刻的设定期间进行确定，生成基于与对应于确定出的设定期间的字符对应的发声的音频信号。

如上所述，通过依次进行处理，生成乐曲的歌词之中的与通过伴奏音数据的播放引起的伴奏音的行进相伴地确定的字符以与演奏操作相对应的音高及定时依次发声的合成歌唱音。然后，将表示合成歌唱音的音频信号对卡拉OK装置1输出。

接着，关于图4及图5所示的音生成处理的具体例，参照图6～图8进行说明。图6～图8是表示音生成处理的时刻和音高之间的关系的图。

首先，关于取得了发声的开始指示的计数值tc(取得时刻)处于发声的设定期间ts(1)～te(1)内的情况，参照图6进行说明。设想在音生成处理的待机状态下，控制部301从演奏操作部321接收到包含与音高“G4”相关联的发声的开始指示在内的演奏信号。在该情况下，控制部301执行指示处理(步骤S500)，基于演奏信号而设定音高“G4”(步骤S501)。控制部301判定为演奏信号是发声的开始指示(步骤S502；No)，参照图3所示的第1歌词数据对取得了开始指示的计数值tc是否包含于发声的设定期间(属于)进行判定(步骤S503)。由于取得了发声的开始指示的时刻处于设定期间ts(1)～te(1)内，因此控制部301判定为取得了开始指示的时刻包含于与字符M(1)对应的发声的设定期间内(步骤S503；Yes)，将属于字符M(1)的字符“こ”设定为发声的字符(步骤S504)。接着，控制部301将生成基于所设定的音高“G4”及字符“こ”的发声的音频信号的指示输出至DSP(步骤S509)。在图6中，把将基于所设定的音高“G4”及字符“こ”的发声而生成了音频信号的指示输出至DSP的时刻记作时刻ton(1)。控制部301的DSP基于该指示而开始音频信号的生成。

接着，在音生成处理的待机状态下，设想从演奏操作部321接收到包含与音高“G4”相关联的发声的停止指示在内的演奏信号。在该情况下，控制部301执行指示处理(步骤S500)，基于演奏信号而设定音高“G4”(步骤S501)。控制部301判定为演奏信号是发声的停止指示(步骤S502；No)，控制部301的DSP输出使基于由所设定的音高“G4”实现的发声(字符“こ”)的音频信号的生成停止的指示(步骤S510)。在图6中，将输出了使基于所设定的音高“G4”及字符“こ”的发声的音频信号的生成停止的指示的时刻记作时刻toff(1)。控制部301的DSP基于该指示使音频信号的生成停止。在图6中，发声期间ton(1)～toff(1)是生成了基于音高“G4”及字符“こ”的发声的音频信号的期间。

接着，关于取得了发声的开始指示的计数值tc处于发声的设定期间ts(1)～te(1)和设定期间ts(2)～te(2)之间的期间且接近设定期间ts(1)～te(1)的情况，参照图7进行说明。在音生成处理的待机状态下，设想控制部301从演奏操作部321接收到包含与音高“G4”相关联的发声的开始指示在内的演奏信号。在该情况下，控制部301执行指示处理(步骤S500)，基于演奏信号而设定音高“G4”(步骤S501)。控制部301判定为演奏信号是发声的开始指示(步骤S502；No)，参照图3所示的第1歌词数据对取得了开始指示时的计数值tc是否包含于发声的设定期间进行判定(步骤S503)。由于取得了开始指示的时刻不包含于与各字符M(i)对应的发声的设定期间的任意者，因此控制部301判定为开始指示不包含于发声的设定期间内(步骤S503；No)。接着，控制部301根据在紧邻计数值tc之前及之后设定的设定期间而对中心时刻tm(i)进行计算。在取得了开始指示时的计数值tc处于设定期间ts(1)～te(1)和设定期间ts(2)～te(2)之间的情况下，控制部301对停止时刻te(1)和开始时刻ts(2)之间的中心时刻tm(1)进行计算(步骤S505)。在这里，得到tm(1)＝(te(1)+ts(2))/2。接着，控制部301判定为取得了开始指示时的计数值tc与中心时刻tm(1)相比超前(步骤S506；Yes)，将与中心时刻tm(1)相比超前的设定期间的字符“こ”(字符M(1))设定为发声的字符(步骤S507)。使基于音高“G4”及字符“こ”的发声的音频信号的生成开始的指示及停止的指示与图6中说明的方法相同。在图7中，发声期间ton(1)～toff(1)是生成基于音高“G4”及字符“こ”的发声的音频信号的期间。

接着，图8所示的取得了发声的开始指示的计数值tc处于发声的设定期间ts(1)～te(1)和设定期间ts(2)～te(2)之间的期间且接近设定期间ts(2)～te(2)的情况，参照图8进行说明。从开始音生成处理至步骤S505为止的处理与在图7中说明过的处理相同，因此省略说明。控制部301判定为取得了开始指示的时刻与中心时刻tm(1)相比不超前(步骤S506；No)，将比中心时刻tm(1)靠后的设定期间的字符“ん”(字符M(2))设定为发声的字符(步骤S508)。使基于音高“G4”及字符“ん”的发声的音频信号的生成开始的指示及使其停止的指示与在图6中说明过的方法相同。在图8中，期间ton(1)～toff(1)是生成了基于音高“G4”及字符“ん”的音频信号的期间。

[音生成功能]

图9是表示本发明的一个实施方式的音生成功能的功能块图。此外，实现以下说明的各功能的结构的一部分或全部可以通过硬件而实现。

电子乐器3作为实现生成合成歌唱音的音生成功能等的功能块，包含歌词数据取得部31(第1取得部)、发声控制部32(控制部)、信号生成部33及发声开始指示取得部34(第2取得部)。上述的各功能部的功能通过控制部301、存储部303、未图示的计时器等的协同动作而实现。此外，在本发明中功能块包含信号生成部33并不是必须的。

歌词数据取得部31从歌唱音合成用服务器2000经由卡拉OK装置1而取得与曲ID对应的第1歌词数据。发声控制部32主要执行图5所示的指示处理，将使基于发声的音频信号的生成开始的指示或停止的指示输出至信号生成部33。发声开始指示取得部34取得发声的开始指示。发声的开始指示例如作为由用户经由演奏操作部321所输入的演奏信号而取得。

信号生成部33对应于上述的DSP，基于从发声控制部32接收到的指示，使音频信号的生成开始，或者使音频信号的生成停止。由信号生成部33生成的音频信号经由接口317而输出至外部。

(第2实施方式)

在本实施方式中，关于与在第1实施方式中说明过的音生成处理一部分不同的音生成处理，参照图4、图10及图11进行说明。在本实施方式中，用于生成音频信号的指示处理与第1实施方式不同。因此，详细地说明与第1实施方式不同的部分，其以外的部分引用第1实施方式的说明。另外，在本实施方式中，将力度作为音量信息进行处理。

在本实施方式中，设为在图3所示的第1歌词数据中将字符M(i)＝M(1)～M(10)按顺序进行发声。即，在第1歌词数据中决定多个字符的发声顺序。因此，在图3所示的第1歌词数据中可以省略规定了发声的设定期间的定时数据。

在图4所示的流程图中，如果通过用户发出的乐曲的播放指示而开始处理，则控制部301从存储部303取得第1歌词数据(步骤S401)。接着，控制部301执行初始化处理(步骤S402)。在本实施方式中，初始化处理是控制部301与第1实施方式相同地设定计数值tc＝0。在第2实施方式中，进一步地，作为初始化处理，控制部301设定M(i)的字符计数值i＝1(字符M(i)＝M(1))，设定ts＝0。“i”如上述那样表示歌词的字符的顺序。在本实施方式中，ts是指取得了前一个的发声的开始指示的时刻。因此，控制部301使“i”递增，由此使构成歌词的字符之中的由M(i)表示的字符1个1个地推进。步骤S403～S407的待机状态的处理与第1实施方式相同。当在待机状态下接收到来自演奏操作部321的演奏信号的情况下(步骤S407；Yes)，执行用于生成音频信号的指示处理(步骤S500)。

图10是对用于生成音频信号的指示处理进行说明的流程图。该处理通过图4的步骤S500而执行。

如果从演奏操作部321接收到演奏信号，则开始用于生成音频信号的指示处理。首先，控制部301基于从演奏操作部321取得的演奏信号而设定音高(步骤S521)。控制部301对从演奏操作部321取得的演奏信号是否是发声的开始指示进行判定(步骤S522)。

控制部301在判定为演奏信号是发声的开始指示的情况下(步骤S522；Yes)，对取得了该发声的开始指示的时刻ts满足tc－ts≤t_th或M(i)＝M(1)的哪一个进行判定(步骤S523)。在这里，tc－ts是从最后取得了发声的开始指示的时刻至当前为止的经过时间。t_th是规定的期间。控制部301在时刻ts满足tc－ts≤t_th或M(i)＝M(1)的任一者的情况下(步骤S523；Yes)，将生成字符M(i)的音频信号的指示输出至DSP(步骤S526)。控制部301在满足M(i)＝M(1)的情况、即是最开头的发声的情况下，将字符“こ”设定为应当发声的字符，在满足tc－ts≤t_th的情况下，将与在前一个发声中设定的字符相同的字符设定为应当发声的字符。接着，控制部301将计数值tc设定为时刻ts(步骤S527)，将指示处理结束而进入图4所示的步骤S403。

控制部301在时刻ts对于tc－ts≤t_th或M(i)＝M(1)的任一者都不满足的情况下(步骤S523；No)，对通过发声的开始指示而取得的音量是否小于规定的音量进行判定(步骤S524)。控制部301在通过发声的开始指示而取得的音量小于规定的音量的情况下(步骤S524；Yes)，执行步骤S526、S527，然后将指示处理结束而进入图4所示的步骤S403。另一方面，控制部301在通过发声的开始指示而取得的音量为规定的音量以上的情况下(步骤S524；No)，设定字符计数值i＝i+1(步骤S525)。然后，控制部301将生成基于以字符计数值i＝i+1设定出的字符的发声的音频信号的指示输出至DSP(步骤S526)。接着，控制部301将计数值tc设定为时刻ts(步骤S527)，将指示处理结束而进入图4所示的步骤S403。

在本实施方式中，第1条件为是否满足tc－ts≤t_th或M(i)＝M(1)的任一者这样的条件。另外，第1条件为在不满足tc－ts≤t_th或M(i)＝M(1)这两者的情况下是否满足音量小于规定的音量的条件这样的条件。

如上所述，通过依次处理图4及图10所示的处理，生成乐曲的歌词之中的与通过伴奏音数据的播放引起的伴奏音的行进相伴地确定出的字符以与演奏操作相对应的音高及定时依次进行发声的合成歌唱音。然后，将表示合成歌唱音的音频信号对卡拉OK装置1输出。

接着，关于图4及图10所示的音生成处理的具体例，参照图11进行说明。图11是表示音生成处理的时刻和音高之间的关系的图。在图11中，音高“G4”及字符“こ”、音高“A5”及字符“ん”、音高“B5”及字符“ん”的发声作为具有音高信息的音节音符进行例示。

控制部301如果开始音生成处理，则取得第1歌词数据(步骤S401)，执行初始化处理(步骤S402)。控制部301在初始化处理中，设定字符M(i)＝M(1)、tc＝0和ts＝0。设想在语音处理的待机状态下控制部301从演奏操作部321接收到与音高“G4”相关联的演奏信号(步骤S407；Yes)。在该情况下，控制部301执行指示处理(步骤S500)，基于演奏信号而设定音高“G4”(步骤S521)。控制部301判定为演奏信号是发声的开始指示(步骤S522；Yes)，对满足tc－ts≤t_th或M(i)＝M(1)的哪一个进行判定(步骤S523)。控制部301判定为满足M(i)＝1(步骤S523；Yes)。字符M(1)为“こ”，因此，控制部301将生成基于音高“G4”及字符“こ”的发声的音频信号的指示输出至DSP(步骤S526)。控制部301将计数值tc设定为时刻ts(步骤S527)，将指示处理结束而进入图4所示的步骤S403。在图11中，把将基于所设定的音高“G4”及字符“こ”的发声而生成音频信号的指示输出至DSP的时刻ts记作时刻ton(1)。控制部301的DSP基于该指示而开始音频信号的生成。

接着，设想在语音处理的待机处理中控制部301从演奏操作部321接收到与音高“G4”相关联的演奏信号。在该情况下，控制部301执行指示处理(步骤S500)，基于演奏信号而设定音高“G4”(步骤S521)。控制部301如果判定为演奏信号是发声的停止指示(步骤S522；No)，则输出使基于所设定的音高“G4”及字符“こ”的发声的音频信号的生成停止的指示(步骤S510)，将指示处理结束而进入图4所示的步骤S403。在图11中，把将使基于所设定的音高“G4”及字符“こ”的发声的音频信号的生成停止的指示输出至DSP的时刻记作时刻toff(1)。控制部301的DSP基于该指示而使音频信号的生成停止。在图11中，期间ton(1)～toff(1)是生成了基于音高“G4”及字符“こ”的发声的音频信号的期间。

接着，设想在语音处理的待机处理中控制部301从演奏操作部321接收到包含与音高“A5”相关联的发声的开始指示在内的演奏信号。在该情况下，控制部301执行指示处理(步骤S500)，基于演奏信号而设定音高“A5”(步骤S521)。接着，控制部301判定为演奏信号是发声的开始指示(步骤S522；Yes)，对满足tc－ts≤t_th或M(i)＝M(1)的哪一个进行判定(步骤S523)。规定的期间t_th例如是10ms～100ms的范围，在本实施方式中设为是100ms。如果tc－ts超过100ms，则判定为不满足tc－ts≤t_th。在这里，tc－ts长于规定的期间t_th，因此控制部301判定为不满足tc－ts≤t_th及M(i)＝M(1)这两者(步骤S523；No)，对音量是否小于规定的音量进行判定(步骤S524)。控制部301如果判定为音量为规定的音量以上(步骤S524；No)，则设定字符计数值i＝i+1(步骤S525)。在这里，设定字符M(1)的下一个的字符M(2)。字符M(2)为“ん”，因此，控制部301将生成基于音高“A5”及字符“ん”的发声的音频信号的指示输出至DSP(步骤S526)。控制部301将计数值tc设定为时刻ts(步骤S527)，将指示处理结束而进入图4所示的步骤S403。在图11中，期间ton(2)～toff(2)是生成了基于音高“A5”及字符“ん”的发声的音频信号的期间。

接着，设想在音生成处理的待机状态下从演奏操作部321接收到包含与音高“B5”相关联的发声的开始指示在内的演奏信号。在该情况下，控制部301执行指示处理(步骤S500)，基于演奏信号而设定音高“B5”(步骤S521)。控制部301判定为演奏信号是发声的开始指示(步骤S522；Yes)，对满足tc－ts≤t_th或M(i)＝M(1)的哪一个进行判定(步骤S523)。在这里，tc－ts短于规定的期间t_th，因此判定为满足tc－ts≤t_th(步骤S523；Yes)，输出生成基于音高“A5”及字符“ん”的发声的音频信号的指示(步骤526)。在这里，实际上，控制部301输出以使得前一个的字符“ん”的发声持续的方式生成音频信号的指示。因此，为了使得字符“ん”持续发声，生成以音高“B5”基于长音即“－”的发声的音频信号。控制部301将计数值tc设定为时刻ts(步骤S527)，将指示处理结束而进入图4所示的步骤S403。在图11中，期间ton(3)～toff(3)是生成了基于音高“A5”及字符“ん”的发声的音频信号的期间。

如上所示，在本实施方式涉及的音生成处理中，在从前一个的发声的开始指示至下一个的发声的开始指示为止的期间短于规定的期间的情况下，能够使得第1歌词数据的字符不推进。

换言之，在从前一个的发声的开始指示至下一个的发声的开始指示为止的期间短于规定的期间的情况下，第2发声的开始指示满足第1条件。在该情况下，控制部301输出以使得与第1发声的开始指示对应的第1发声持续的方式生成音频信号的指示。例如，对期间ton(3)～toff(3)的音节音符，以音高“B5”分配长音即“－”。

(变形例)

以上，对本发明的一个实施方式进行了说明，但本发明的一个实施方式还可以如以下那样变形为各种方式。另外，上述的实施方式及以下说明的变形例还可以分别相互组合而应用。

(1)在前面的实施方式中，说明了针对1个字符生成基于1个发声的音频信号的情况，本发明的一个实施方式不限定于此。参照图12～图14说明针对1个乐句生成基于1个发声的音频信号的情况。

在这里，参照图12对存储于存储部303的第1歌词数据进行说明。图12是在本发明的一个实施方式中使用的第1歌词数据。图12所示的第1歌词数据包含“こ”“ん”“に”“ち”“わ”这一第1乐句、及“さ”“よ”“お”“な”“ら”这一第2乐句。在将“こ”“ん”“に”“ち”“わ”这一第1乐句设为1个发声的情况下，第1发声的开始时刻与tfs(1)对应，停止时刻与tfe(1)对应。另外，在将“さ”“よ”“お”“な”“ら”这一第2乐句设为1个发声的情况下，第2发声的开始时刻与tfs(2)对应，停止时刻与tfe(2)对应。

图13及图14是表示音生成处理的时刻和音高之间的关系的图。图13及图14示出按乐句规定出的发声期间。在图13及图14中，与乐句内的字符对应的发声可以针对每个按键或按照第2实施方式所示的指示处理而推进。第1乐句和第2乐句之间可以预先设定有第1乐句的停止时刻tfe(1)和第2乐句的开始时刻tfs(2)之间的中心时刻tfm(1)。中心时刻tfm(1)通过对中心时刻tfm(1)＝(te

(1)+ts(2))/2进行计算而求出。控制部301与第1实施方式相同地对发声的开始指示的取得时刻与中心时刻tfm(1)相比是否超前进行判定。

控制部301在判定为发声的开始指示与中心时刻tfm(1)相比超前的情况下，将基于与第1乐句即最开头的字符对应的发声而生成音频信号的指示输出至DSP。然后，控制部301在判定为发声的开始指示与中心时刻tfm(1)相比超前的情况下，可以接着将根据第2乐句即最开头的字符，基于与该字符对应的发声而生成音频信号的指示输出至DSP。

控制部301在判定为发声的开始指示与中心时刻tfm(1)相比靠后的情况下，进一步对发声的开始指示与第2乐句的开始时刻tfs

(2)相比是否靠后进行判定。控制部301如果判定为发声的开始指示与第2乐句的开始时刻tfs(2)相比靠后，则将根据与第2乐句的发声对应的字符之中的未发声的字符，基于与该字符对应的发声而生成音频信号的指示输出至DSP。具体而言，如图13所示，设想在第1乐句的开始时刻tfs(1)至停止时刻tfe(1)期间，基于与“こ”“ん”“に”“ち”“わ”“さ”的字符对应的发声而生成音频信号的情况。如果在与第2乐句的开始时刻tfe(2)相比靠后(时刻tfon)取得发声的开始指示，则基于与第2乐句的字符“よ”对应的发声而生成音频信号。如果在时刻tfoff取得与字符“ら”对应的发声的停止指示，则控制部301将使音频信号的生成停止的指示输出至DPS。

另一方面，控制部301如果判定为发声的开始指示与第2乐句的开始时刻tfs(2)相比超前，则基于与对应于发声的字符的最开头的字符对应的发声而生成音频信号。具体而言，如图14所示，设想在第1乐句的开始时刻tfs(1)至停止时刻tfe(1)的期间，基于与“こ”“ん”“に”“ち”“わ”“さ”的字符对应的发声而生成音频信号的情况。如果在与第2乐句的开始时刻tfe(2)相比靠前(时刻tfon)取得发声的开始指示，则基于与第2乐句的字符“さ”对应的发声而生成音频信号。如果在时刻tfoff取得与字符“ら”对应的发声的停止指示，则控制部301将使音频信号的生成停止的指示输出至DSP。

在变形例(1)中，第1条件是取得了发声的开始指示的时刻与第1乐句的停止时刻和第2乐句的开始时刻之间的中心时刻相比超前这一条件。另外，第2条件是取得了发声的开始指示的时刻与第2发声的开始时刻tfs(2)相比靠后这一条件。换言之，在发声的开始指示的取得时刻与在第1歌词数据中规定的第2发声的开始时刻相比靠后的情况下，满足上述第2条件。

(2)在前面的实施方式中，说明了生成主唱声部和第1歌词数据相对应的合成歌唱音的方法，但本发明不限定于此。参照图15对生成合唱声部和第2歌词数据相对应的合成歌唱音的情况进行说明。

图15是与合唱声部对应的第2歌词数据。关于第2歌词数据，也具有应当发声的多个字符按时间序列排列的文本数据。第2歌词数据包含通过规定的时间轴而针对多个字符规定出发声的开始时刻及停止时刻的定时数据。

如图15所示，第2歌词数据包含表示“あ(a)”“あ(a)”“あ(a)”“あ(a)”“あ(a)”“お(o)”“お(o)”“お(o)”“お(o)”“お(o)”的文本数据。另外，第2歌词数据包含针对每个字符而规定出发声的开始时刻ts及停止时刻te的定时数据。针对每个字符而关联有N(i)，通过“i”(i＝1～n)而设定了歌词的字符的顺序。例如，N(3)与歌词之中的第3个字符对应。例如，在N(3)“あ”的情况下，发声的开始时刻为时刻tcs(3)，停止时刻为时刻tce(3)。

如图3所示在第1歌词数据规定的发声期间和如图15所示在第2歌词数据规定的发声期间相重叠。即，图15所示的N(1)～N(n)的开始时刻及结束时刻与图3所示的M(1)～M(n)的开始时刻及结束时刻彼此在时间上一致。在该情况下，控制部301可以取代主唱声部，而将生成基于与合唱声部的字符对应的发声的音频信号的指示输出至DSP。另外，控制部301在对第1歌词数据规定的发声期间和对第2歌词数据规定的发声期间相重叠的情况下，可以将第1实施方式的第1条件变更为其他条件。作为其他条件，可以使与前一个的字符M(q)对应的发声的停止时刻te(q)和与下一个的字符M(q+1)对应的发声的开始时刻ts(q+1)之间的中心时刻tm(q)不是中心而前后偏移。例如，可以设为tm(q)＝(te(q)+ts(q+1))×(1/3)，也可以设为tm(q)＝(te(q)+ts(q+1))×(2/3)。

此外，可以如下述地进行控制。控制部301在第1歌词数据中，对发声的开始指示的取得时刻所属的设定期间或最接近取得时刻的设定期间进行确定。而且，控制部301在与上述确定出的设定期间在时间上一致的设定期间存在于第2歌词数据的情况下，取代基于第1歌词数据的第1发声或第2发声的音频信号，生成基于与第2歌词数据的对应于上述时间上一致的设定期间的字符对应的发声的音频信号。即，在与发声的开始指示的取得时刻对应的设定期间存在于第1歌词数据和第2歌词数据这两者的情况下，使第2歌词数据的发声优先。这样的处理还可以应用于相对于第1歌词数据仅在一部分的时间区域第2歌词数据相对应的情况。此外，在并用合唱声部的情况下。可以使上述第3时刻相对于停止时刻te(q)和开始时刻ts(q+1)之间的中心时刻向前或向后偏移。

(3)在本实施方式中，说明了电子乐器3为电子键盘装置的情况，但不限定于此。电子乐器3可以为电子管乐器。以下，参照图16对作为电子乐器3而应用电子管乐器的情况进行说明。

图16是电子乐器3A为电子管乐器的情况下的硬件结构。在电子管乐器的情况下，演奏操作部321包含操作键311及换气传感器312。

电子乐器3A设置有在乐器主体设置的多个音孔、使音孔的开闭状态变化的多个操作键311、和换气传感器312。演奏者对多个操作键311进行演奏，由此音孔的开闭状态发生变化而输出规定的音阶的音。在乐器主体安装有吹口，在乐器主体的内部且吹口的附近设置有换气传感器312。换气传感器312是对经由吹口由用户(演奏者)吹入的气息的吹气压力进行检测的吹气压力传感器。换气传感器312对有无气息的吹入进行检测，并且至少在电子乐器3A的演奏时对吹气压力的强度、速度(气势)进行检测。与由换气传感器312检测到的压力的大小相对应地，决定发声的音量。在本变形例中，设为将由换气传感器312检测到的压力的大小作为音量信息进行处理。在换气传感器312中检测出规定的压力的大小的情况下，检测为发声的开始指示。在小于规定的压力的情况下，不会检测为发声的开始指示。

在电子管乐器中，如图10及图11中说明的那样，有时检测出从第1发声的开始指示至第2发声的开始指示为止的第1期间小于规定的期间的、管乐器特有的经过音。在本发明的一个实施方式涉及的音生成处理中，即使在演奏的中途生成了这样的经过音，也能够抑制歌词的位置与演奏相比超前，因此能够生成自然的合成歌唱音。

(4)在第1实施方式中，说明了设为中心时刻tm(q)＝(te(q)+ts(q+1))/2的情况，但不限定于此。可以不是中心而前后偏移。例如，可以设为tm(q)＝(te(q)+ts(q+1))×(1/3)，也可以设为tm(q)＝(te(q)+ts(q+1))×(2/3)。

(5)在第2实施方式中，说明了第1条件包含是否满足音量小于规定的音量的条件这样的条件的情况，但本发明的一个实施方式不限定于此。第1条件可以仅是在图10中省略步骤S524而是否满足步骤S523的tc－ts≤t_th或M(i)＝M(1)的任一者这样的条件。

以上，针对本发明基于其优选的实施方式进行了详述，但本发明不限定于上述特定的实施方式，不脱离本发明的主旨的范围的各种方式也包含于本发明。可以将上述的实施方式的一部分适当组合。

此外，演奏信号可以从外部经由通信而取得。因此，设置演奏操作部321不是必须的，音生成装置具有作为乐器的功能及方式也不是必须的。

此外，也可以通过将存储有由用于实现本发明的软件表示的控制程序的记录介质读出至本装置，从而实现与本发明相同的效果，在该情况下，从记录介质读出的程序代码本身实现本发明的新功能，存储有该程序代码的非暂时性的计算机可读取的记录介质构成本发明。另外，也可以经由传输介质等提供程序代码，在该情况下，程序代码本身构成本发明。此外，作为上述情况的存储媒体，除了ROM以外，还可以使用软磁盘、硬盘、光盘、光磁盘、CD-ROM、CD-R、磁带、非易失性的存储卡等。作为非暂时性的计算机可读取的记录介质，还包含如成为经由互联网等网络、电话线路等通信线路而发送了程序的情况下的服务器、客户端的计算机系统内部的易失性存储器(例如DRAM(Dynamic Random Access Memory))那样将程序保存一定时间的介质。

本申请要求基于2021年3月9日申请的日本申请第2021－037651号的优先权，在本申请引用该日本申请所记载的全部内容。

标号的说明

3 电子乐器

31 歌词数据取得部

32 发声控制部

34 发声开始指示取得部

301 控制部

321 演奏操作部

Claims

1.一种音生成装置，其具有：

第1取得部，其取得应当发声的多个字符按时间序列排列、并至少包含第1字符及该第1字符之后的第2字符在内的第1歌词数据；

第2取得部，其取得发声的开始指示；以及

控制部，其在由所述第2取得部取得了所述发声的开始指示的情况下，在所述发声的开始指示满足第1条件的情况下，输出生成基于与所述第1歌词数据的所述第1字符对应的第1发声的音频信号的指示，在所述发声的开始指示不满足所述第1条件的情况下，输出生成基于与所述第1歌词数据的所述第2字符对应的第2发声的音频信号的指示。

2.根据权利要求1所述的音生成装置，其中，

在所述第1歌词数据中，通过规定的时间轴而规定各字符的发声的开始时刻及停止时刻，

在所述发声的开始指示的取得时刻与第3时刻相比靠前的情况下，所述发声的开始指示满足所述第1条件，该第3时刻位于所述规定的时间轴的使所述第1发声停止的第1时刻和使所述第2发声开始的第2时刻之间。

3.根据权利要求2所述的音生成装置，其中，

所述第3时刻是所述第1时刻和所述第2时刻之间的中心时刻。

4.根据权利要求2或3所述的音生成装置，其中，

所述第1发声及所述第2发声是与一个字符对应的发声。

5.根据权利要求2或3所述的音生成装置，其中，

所述第1发声包含与包含所述第1字符在内的多个字符对应的发声，

所述第2发声包含与包含所述第2字符在内的多个字符对应的发声，

所述第1时刻对应于使与所述第1发声对应的所述多个字符之中最后的字符的发声停止的时刻，

所述第2时刻对应于使与所述第2发声对应的所述多个字符之中最开头的字符的发声开始的时刻。

6.根据权利要求5所述的音生成装置，其中，

所述控制部在与所述第1发声对应的所述最后的字符的发声之后，输出根据所述第2发声的最开头的字符，基于与该字符对应的发声而生成音频信号的指示，

所述控制部在输出生成基于所述第2发声的音频信号的指示时，在所述发声的开始指示还不满足第2条件的情况下，输出根据与所述第2发声对应的字符之中的未发声的字符，基于与该字符对应的发声而生成音频信号的指示。

7.根据权利要求6所述的音生成装置，其中，

在所述发声的开始指示的取得时刻与在所述第1歌词数据中规定的所述第2发声的开始时刻相比靠后的情况下，满足所述第2条件。

8.根据权利要求1所述的音生成装置，其中，

针对所述第1歌词数据的所述字符各自，通过规定的时间轴而关联有由发音的开始时刻及停止时刻构成的设定期间，

所述控制部对所述规定的时间轴的、所述发声的开始指示的取得时刻所属的设定期间或最接近所述取得时刻的设定期间进行确定，输出将基于与对应于确定出的设定期间的字符对应的发声的音频信号作为基于所述第1发声的音频信号或基于所述第2发声的音频信号而生成的指示。

9.根据权利要求8所述的音生成装置，其中，

所述第1取得部取得应当发声的多个字符按时间序列排列并通过所述规定的时间轴而规定出所述各字符的开始时刻及停止时刻的第2歌词数据，

针对所述第2歌词数据的所述字符各自，通过所述规定的时间轴而关联有由发音的开始时刻及停止时刻构成的设定期间，

所述控制部在与所述确定出的设定期间在时间上一致的设定期间存在于所述第2歌词数据的情况下，取代基于所述第1发声或所述第2发声的音频信号，输出生成基于与所述第2歌词数据的对应于所述时间上一致的设定期间的字符对应的发声的音频信号的指示。

10.根据权利要求1所述的音生成装置，其中，

在所述第1歌词数据中，决定所述多个字符的发声顺序，

在由所述第2取得部取得了所述第1发声的开始指示之后的所述第2发声的开始指示的情况下，在从所述第1发声的开始指示至所述第2发声的开始指示为止的第1期间小于规定的期间时，所述控制部判定为所述第2发声的开始指示满足所述第1条件，并且输出以使得与所述第1发声的开始指示对应的所述第1发声持续的方式生成音频信号的指示。

11.根据权利要求10所述的音生成装置，其中，

所述控制部在与所述第2发声的开始指示的取得时刻对应地从演奏操作部取得的音量信息小于规定值的情况下，即使所述第1期间为所述规定的期间以上，也输出以使得所述第1发声持续而不是所述第2发声的方式生成音频信号的指示。

12.根据权利要求11所述的音生成装置，其中，

所述演奏操作部包含对压力变化进行检测的换气传感器，

基于输入至所述换气传感器的压力变化，取得所述第1发声的开始指示及所述第2发声的开始指示。

13.根据权利要求1至10中任一项所述的音生成装置，其中，

所述控制部在生成所述音频信号时，将所述音频信号所包含的发声控制为与来自演奏操作部的音高指示相对应的音高。

14.一种电子乐器，其具有：

权利要求1至13中任一项所述的音生成装置；以及

演奏操作部，其用于由用户输入所述发声的开始指示。

15.一种音生成装置的控制方法，其是通过计算机实现的，

在该音生成装置的控制方法中，

取得应当发声的多个字符按时间序列排列、并至少包含第1字符及该第1字符之后的第2字符在内的第1歌词数据，

取得发声的开始指示，

在取得了所述发声的开始指示的情况下，在所述发声的开始指示满足第1条件的情况下，输出生成基于与所述第1歌词数据的所述第1字符对应的第1发声的音频信号的指示，在所述发声的开始指示不满足所述第1条件的情况下，输出生成基于与所述第1歌词数据的所述第2字符对应的第2发声的音频信号的指示。

16.一种程序，其使计算机执行音生成装置的控制方法，

在该程序中，

所述音生成装置的控制方法为，

取得发声的开始指示，