JP7036141B2

JP7036141B2 - 電子楽器、方法及びプログラム

Info

Publication number: JP7036141B2
Application number: JP2020051215A
Authority: JP
Inventors: 真段城; 文章太田; 厚士中村
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2022-03-15
Anticipated expiration: 2040-03-23
Also published as: JP7484952B2; JP2022071098A; CN113506554A; JP2021149042A; US20210295819A1

Description

本開示は、電子楽器、方法及びプログラムに関する。

近年、合成音声の利用シーンが拡大している。そうした中、自動演奏だけではなく、ユーザ（演奏者）の押鍵に応じて歌詞を進行させ、歌詞に対応した合成音声を出力できる電子楽器があれば、より柔軟な合成音声の表現が可能となり好ましい。

例えば、特許文献１においては、鍵盤などを用いたユーザ操作に基づく演奏に同期させて歌詞を進行させる技術が開示されている。

特許第４７３５５４４号

しかしながら、単純に鍵が押されるたびに歌詞を進行させると、押鍵し過ぎにより歌詞の位置が想定より超過したり、押鍵が不足して歌詞の位置が想定より進まなかったりするため、手軽に合成音声を用いた歌詞の発音を楽しむことが難しいという課題がある。

そこで本開示は、演奏にかかる歌詞進行を適切に制御できる電子楽器、方法及びプログラムを提供することを目的の１つとする。

本開示の一態様に係る電子楽器は、演奏操作子と、少なくとも１つのプロセッサと、を備え、前記少なくとも１つのプロセッサは、前記演奏操作子へのユーザ操作を検出すべきタイミングの前記ユーザ操作の検出の有無に関わらず、前記タイミングに応じた歌詞データに従って歌声合成データを生成し、前記タイミングに前記ユーザ操作を検出した場合に、生成された前記歌声合成データに従う歌声の発音を許可し、前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音を許可しないように制御する、処理を実行する。

本開示の一態様によれば、演奏にかかる歌詞進行を適切に制御できる。

図１は、一実施形態にかかる電子楽器１０の外観の一例を示す図である。図２は、一実施形態にかかる電子楽器１０の制御システム２００のハードウェア構成の一例を示す図である。図３は、一実施形態にかかる音声学習部３０１の構成例を示す図である。図４は、一実施形態にかかる波形データ出力部２１１の一例を示す図である。図５は、一実施形態にかかる波形データ出力部２１１の別の一例を示す図である。図６は、一実施形態に係る歌詞進行制御方法のフローチャートの一例を示す図である。図７は、一実施形態に係る歌詞進行制御方法を用いて制御された歌詞進行の一例を示す図である。

本発明者らは、ユーザの演奏操作に関わらず歌声波形データを生成しつつ、当該歌声波形データに応じた音の発音の許可及び不許可を制御することを着想し、本開示の電子楽器を想到した。

本開示の一態様によれば、ユーザの操作に基づいて、発音される歌詞の進行を容易に制御できる。

以下、本開示の実施形態について添付図面を参照して詳細に説明する。以下の説明では、同一の部には同一の符号が付される。同一の部は名称、機能などが同じであるため、詳細な説明は繰り返さない。

（電子楽器）
図１は、一実施形態にかかる電子楽器１０の外観の一例を示す図である。電子楽器１０は、スイッチ（ボタン）パネル１４０ｂ、鍵盤１４０ｋ、ペダル１４０ｐ、ディスプレイ１５０ｄ、スピーカー１５０ｓなどを搭載してもよい。

電子楽器１０は、鍵盤、スイッチなどの操作子を介してユーザからの入力を受け付け、演奏、歌詞進行などを制御するための装置である。電子楽器１０は、ＭＩＤＩ（Musical Instrument Digital Interface）データなどの演奏情報に応じた音を発生する機能を有する装置であってもよい。当該装置は、電子楽器（電子ピアノ、シンセサイザーなど）であってもよいし、センサなどを搭載して上述の操作子の機能を有するように構成されたアナログの楽器であってもよい。

スイッチパネル１４０ｂは、音量の指定、音源、音色などの設定、ソング（伴奏）の選曲（伴奏）、ソング再生開始／停止、ソング再生の設定（テンポなど）などを操作するためのスイッチを含んでもよい。

鍵盤１４０ｋは、演奏操作子としての複数の鍵を有してもよい。ペダル１４０ｐは、当該ペダルを踏んでいる間、押さえた鍵盤の音を伸ばす機能を有するサステインペダルであってもよいし、音色、音量などを加工するエフェクターを操作するためのペダルであってもよい。

なお、本開示において、サステインペダル、ペダル、フットスイッチ、コントローラ（操作子）、スイッチ、ボタン、タッチパネルなどは、互いに読み替えられてもよい。本開示におけるペダルの踏み込みは、コントローラの操作で読み替えられてもよい。

鍵は、演奏操作子、音高操作子、音色操作子、直接操作子、第１の操作子などと呼ばれてもよい。ペダルは、非演奏操作子、非音高操作子、非音色操作子、間接操作子、第２の操作子などと呼ばれてもよい。

ディスプレイ１５０ｄは、歌詞、楽譜、各種設定情報などを表示してもよい。スピーカー１５０ｓは、演奏により生成された音を放音するために用いられてもよい。

なお、電子楽器１０は、ＭＩＤＩメッセージ（イベント）及びOpen Sound Control（ＯＳＣ）メッセージの少なくとも一方を生成したり、変換したりすることができてもよい。

電子楽器１０は、制御装置１０、歌詞進行制御装置１０などと呼ばれてもよい。

電子楽器１０は、有線及び無線（例えば、Long Term Evolution（ＬＴＥ）、5th generation mobile communication system New Radio（５ＧＮＲ）、Ｗｉ－Ｆｉ（登録商標）など）の少なくとも一方を介して、ネットワーク（インターネットなど）と通信してもよい。

電子楽器１０は、進行の制御対象となる歌詞に関する歌声データ（歌詞テキストデータ、歌詞情報などと呼ばれてもよい）を、予め保持してもよいし、ネットワークを介して送信及び／又は受信してもよい。歌声データは、楽譜記述言語（例えば、ＭｕｓｉｃＸＭＬ）によって記載されたテキストであってもよいし、ＭＩＤＩデータの保存形式（例えば、Standard MIDI File（ＳＭＦ）フォーマット）で表記されてもよいし、通常のテキストファイルで与えられるテキストであってもよい。歌声データは、後述する歌声データ２１５であってもよい。本開示において、歌声、音声、音などは、互いに読み替えられてもよい。

なお、電子楽器１０は、当該電子楽器１０に具備されるマイクなどを介してユーザがリアルタイムに歌う内容を取得し、これに音声認識処理を適用して得られるテキストデータを歌声データとして取得してもよい。

図２は、一実施形態にかかる電子楽器１０の制御システム２００のハードウェア構成の一例を示す図である。

中央処理装置（Central Processing Unit：ＣＰＵ）２０１、ＲＯＭ（リードオンリーメモリ）２０２、ＲＡＭ（ランダムアクセスメモリ）２０３、波形データ出力部２１１、図１のスイッチ（ボタン）パネル１４０ｂ、鍵盤１４０ｋ、ペダル１４０ｐが接続されるキースキャナ２０６、及び図１のディスプレイ１５０ｄの一例としてのＬＣＤ（Liquid Crystal Display）が接続されるＬＣＤコントローラ２０８が、それぞれシステムバス２０９に接続されている。

ＣＰＵ２０１には、演奏を制御するためのタイマ２１０（カウンタと呼ばれてもよい）が接続されてもよい。タイマ２１０は、例えば、電子楽器１０における自動演奏の進行をカウントするために用いられてもよい。ＣＰＵ２０１は、プロセッサと呼ばれてもよく、周辺回路とのインターフェース、制御回路、演算回路、レジスタなどを含んでもよい。

各装置における機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みなどを制御することによって実現されてもよい。

ＣＰＵ２０１は、ＲＡＭ２０３をワークメモリとして使用しながらＲＯＭ２０２に記憶された制御プログラムを実行することにより、図１の電子楽器１０の制御動作を実行する。また、ＲＯＭ２０２は、上記制御プログラム及び各種固定データのほか、歌声データ、伴奏データ、これらを含む曲（ソング）データなどを記憶してもよい。

波形データ出力部２１１は、音源ＬＳＩ（大規模集積回路）２０４、音声合成ＬＳＩ２０５などを含んでもよい。音源ＬＳＩ２０４と音声合成ＬＳＩ２０５は、１つのＬＳＩに統合されてもよい。波形データ出力部２１１の具体的なブロック図については、図３で後述する。なお、波形データ出力部２１１の処理の一部は、ＣＰＵ２０１によって行われてもよいし、波形データ出力部２１１に含まれるＣＰＵによって行われてもよい。

波形データ出力部２１１から出力される歌声波形データ２１７及びソング波形データ２１８は、それぞれＤ／Ａコンバータ２１２及び２１３によってアナログ歌声音声出力信号及びアナログ楽音出力信号に変換される。アナログ楽音出力信号及びアナログ歌声音声出力信号は、ミキサ２１４で混合され、その混合信号がアンプ２１５で増幅された後に、スピーカー１５０ｓ又は出力端子から出力されてもよい。なお、歌声波形データは歌声合成データと呼ばれてもよい。図示しないが、歌声波形データ２１７及びソング波形データ２１８をデジタルで合成した後に、Ｄ／Ａコンバータでアナログに変換して混合信号が得られてもよい。

キースキャナ（スキャナ）２０６は、図１の鍵盤１４０ｋの押鍵／離鍵状態、スイッチパネル１４０ｂのスイッチ操作状態、ペダル１４０ｐのペダル操作状態などを定常的に走査し、ＣＰＵ２０１に割り込みを掛けて状態変化を伝える。

ＬＣＤコントローラ２０８は、ディスプレイ１５０ｄの一例であるＬＣＤの表示状態を制御するＩＣ（集積回路）である。

なお、当該システム構成は一例であり、これに限られない。例えば、各回路が含まれる数は、これに限られない。電子楽器１０は、一部の回路（機構）を含まない構成を有してもよいし、１つの回路の機能が複数の回路により実現される構成を有してもよい。複数の回路の機能が１つの回路により実現される構成を有してもよい。

また、電子楽器１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、ＣＰＵ２０１は、これらのハードウェアの少なくとも１つで実装されてもよい。

＜音響モデルの生成＞
図３は、一実施形態にかかる音声学習部３０１の構成の一例を示す図である。音声学習部３０１は、図１の電子楽器１０とは別に外部に存在するサーバコンピュータ３００が実行する一機能として実装されてもよい。なお、音声学習部３０１は、ＣＰＵ２０１、音声合成ＬＳＩ２０５などが実行する一機能として電子楽器１０に内蔵されてもよい。

本開示における音声合成を実現する音声学習部３０１及び波形データ出力部２１１は、それぞれ、例えば、深層学習に基づく統計的音声合成技術に基づいて実装されてもよい。

音声学習部３０１は、学習用テキスト解析部３０３と学習用音響特徴量抽出部３０４とモデル学習部３０５とを含んでもよい。

音声学習部３０１において、学習用歌声音声データ３１２としては、例えば適当なジャンルの複数の歌唱曲を、ある歌手が歌った音声を録音したものが使用される。また、学習用歌声データ３１１としては、各歌唱曲の歌詞テキストが用意される。

学習用テキスト解析部３０３は、歌詞テキストを含む学習用歌声データ３１１を入力してそのデータを解析する。この結果、学習用テキスト解析部３０３は、学習用歌声データ３１１に対応する音素、音高等を表現する離散数値系列である学習用言語特徴量系列３１３を推定して出力する。

学習用音響特徴量抽出部３０４は、上記学習用歌声データ３１１の入力に合わせてその学習用歌声データ３１１に対応する歌詞テキストを或る歌手が歌うことによりマイク等を介して集録された学習用歌声音声データ３１２を入力して分析する。この結果、学習用音響特徴量抽出部３０４は、学習用歌声音声データ３１２に対応する音声の特徴を表す学習用音響特徴量系列３１４を抽出して出力する。

本開示において、学習用音響特徴量系列３１４や、後述する音響特徴量系列３１７に対応する音響特徴量系列は、人間の声道をモデル化した音響特徴量データ（フォルマント情報、スペクトル情報などと呼ばれてもよい）と、人間の声帯をモデル化した声帯音源データ（音源情報と呼ばれてもよい）とを含む。スペクトル情報としては、例えば、メルケプストラム、線スペクトル対（Line Spectral Pairs：ＬＳＰ）等を採用できる。音源情報としては、人間の音声のピッチ周波数を示す基本周波数（Ｆ０）及びパワー値を採用できる。

モデル学習部３０５は、学習用言語特徴量系列３１３から、学習用音響特徴量系列３１４が生成される確率を最大にするような音響モデルを、機械学習により推定する。即ち、テキストである言語特徴量系列と音声である音響特徴量系列との関係が、音響モデルという統計モデルによって表現される。モデル学習部３０５は、機械学習を行った結果算出される音響モデルを表現するモデルパラメータを、学習結果３１５として出力する。したがって、当該音響モデルは、学習済みモデルに該当する。

学習結果３１５（モデルパラメータ）によって表現される音響モデルとして、ＨＭＭ（Hidden Markov Model：隠れマルコフモデル）を用いてもよい。

ある歌唱者があるメロディーにそった歌詞を発声する際、声帯の振動や声道特性の歌声の特徴パラメータがどのような時間変化をしながら発声されるか、ということが、ＨＭＭ音響モデルによって学習されてもよい。より具体的には、ＨＭＭ音響モデルは、学習用の歌声データから求めたスペクトル、基本周波数、およびそれらの時間構造を音素単位でモデル化したものであってもよい。

まず、ＨＭＭ音響モデルが採用される図３の音声学習部３０１の処理について説明する。音声学習部３０１内のモデル学習部３０５は、学習用テキスト解析部３０３が出力する学習用言語特徴量系列３１３と、学習用音響特徴量抽出部３０４が出力する上記学習用音響特徴量系列３１４とを入力することにより、尤度が最大となるＨＭＭ音響モデルの学習を行ってもよい。

歌声音声のスペクトルパラメータは、連続ＨＭＭによってモデル化することができる。一方、対数基本周波数（Ｆ０）は有声区間では連続値をとり、無声区間では値を持たない可変次元の時間系列信号であるため、通常の連続ＨＭＭや離散ＨＭＭで直接モデル化することはできない。そこで、可変次元に対応した多空間上の確率分布に基づくＨＭＭであるＭＳＤ－ＨＭＭ（Multi-Space probability Distribution HMM）を用い、スペクトルパラメータとしてメルケプストラムを多次元ガウス分布、対数基本周波数（Ｆ０）の有声音を１次元空間、無声音を０次元空間のガウス分布として同時にモデル化する。

また、歌声を構成する音素の特徴は、音響的な特徴は同一の音素であっても、様々な要因の影響を受けて変動することが知られている。例えば、基本的な音韻単位である音素のスペクトルや対数基本周波数（Ｆ０）は、歌唱スタイルやテンポ、或いは、前後の歌詞や音高等によって異なる。このような音響特徴量に影響を与える要因のことをコンテキストと呼ぶ。

一実施形態の統計的音声合成処理では、音声の音響的な特徴を精度良くモデル化するために、コンテキストを考慮したＨＭＭ音響モデル（コンテキスト依存モデル）を採用してもよい。具体的には、学習用テキスト解析部３０３は、フレーム毎の音素、音高だけでなく、直前、直後の音素、現在位置、直前、直後のビブラート、アクセントなども考慮した学習用言語特徴量系列３１３を出力してもよい。更に、コンテキストの組合せの効率化のために、決定木に基づくコンテキストクラスタリングが用いられてよい。

例えば、モデル学習部３０５は、学習用テキスト解析部３０３が学習用歌声データ３１１から抽出した状態継続長に関する多数の音素のコンテキストに対応する学習用言語特徴量系列３１３から、状態継続長を決定するための状態継続長決定木を、学習結果３１５として生成してもよい。

また、モデル学習部３０５は、例えば、学習用音響特徴量抽出部３０４が学習用歌声音声データ３１２から抽出したメルケプストラムパラメータに関する多数の音素に対応する学習用音響特徴量系列３１４から、メルケプストラムパラメータを決定するためのメルケプストラムパラメータ決定木を、学習結果３１５として生成してもよい。

また、モデル学習部３０５は例えば、学習用音響特徴量抽出部３０４が学習用歌声音声データ３１２から抽出した対数基本周波数（Ｆ０）に関する多数の音素に対応する学習用音響特徴量系列３１４から、対数基本周波数（Ｆ０）を決定するための対数基本周波数決定木を、学習結果３１５として生成してもよい。なお、対数基本周波数（Ｆ０）の有声区間と無声区間はそれぞれ、可変次元に対応したＭＳＤ－ＨＭＭにより、１次元及び０次元のガウス分布としてモデル化され、対数基本周波数決定木が生成されてもよい。

なお、ＨＭＭに基づく音響モデルの代わりに又はこれとともに、ディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）に基づく音響モデルが採用されてもよい。この場合、モデル学習部３０５は、言語特徴量から音響特徴量へのＤＮＮ内の各ニューロンの非線形変換関数を表すモデルパラメータを、学習結果３１５として生成してもよい。ＤＮＮによれば、決定木では表現することが困難な複雑な非線形変換関数を用いて、言語特徴量系列と音響特徴量系列の関係を表現することが可能である。

また、本開示の音響モデルはこれらに限られるものではなく、例えばＨＭＭとＤＮＮを組み合わせた音響モデル等、統計的音声合成処理を用いた技術であればどのような音声合成方式が採用されてもよい。

学習結果３１５（モデルパラメータ）は、例えば、図３に示されるように、図１の電子楽器１０の工場出荷時に、図２の電子楽器１０の制御システムのＲＯＭ２０２に記憶され、電子楽器１０のパワーオン時に、図２のＲＯＭ２０２から波形データ出力部２１１内の後述する歌声制御部３０７などに、ロードされてもよい。

学習結果３１５は、例えば、図３に示されるように、演奏者が電子楽器１０のスイッチパネル１４０ｂを操作することにより、ネットワークインタフェース２１９を介して、インターネットなどの外部から波形データ出力部２１１内の歌声制御部３０７にダウンロードされてもよい。

＜音響モデルに基づく音声合成＞
図４は、一実施形態にかかる波形データ出力部２１１の一例を示す図である。

波形データ出力部２１１は、処理部（テキスト処理部、前処理部などと呼ばれてもよい）３０６、歌声制御部（音響モデル部と呼ばれてもよい）３０７、音源３０８、歌声合成部（発声モデル部と呼ばれてもよい）３０９、ミュート部３１０などを含む。

波形データ出力部２１１は、図１の鍵盤１４０ｋの押鍵に基づいて図２のキースキャナ２０６を介してＣＰＵ２０１から指示される、歌詞及び音高の情報を含む歌声データ２１５を入力することにより、当該歌詞及び音高に対応する歌声波形データ２１７を合成し出力する。言い換えると、波形データ出力部２１１は、歌詞テキストを含む歌声データ２１５に対応する歌声波形データ２１７を、歌声制御部３０７に設定された音響モデルという統計モデルを用いて予測することにより合成する、統計的音声合成処理を実行する。

また、波形データ出力部２１１は、ソングデータの再生時には、対応するソング再生位置に該当するソング波形データ２１８を出力する。ここで、ソングデータは、伴奏のデータ（例えば、１つ以上の音についての、音高、音色、発音タイミングなどのデータ）、伴奏及びメロディーのデータに該当してもよく、バックトラックデータなどと呼ばれてもよい。

処理部３０６は、例えば自動演奏に合わせた演奏者の演奏の結果として、図２のＣＰＵ２０１より指定される歌詞の音素、音高等に関する情報を含む歌声データ２１５を入力し、そのデータを解析する。歌声データ２１５は、例えば、第ｎ番目の音符（第ｎ音符、第ｎタイミングなどと呼ばれてもよい）のデータ（例えば、音高データ、音符長データ）、第ｎ音符に対応する第ｎ歌詞のデータなどを含んでもよい。

例えば、処理部３０６は、鍵盤１４０ｋ、ペダル１４０ｐの操作から取得されるノートオン／オフデータ、ペダルオン／オフデータなどに基づいて、後述する歌詞進行制御方法に基づいて歌詞進行の有無を判定し、出力すべき歌詞に対応する歌声データ２１５を取得してもよい。そして、処理部３０６は、押鍵によって指定された音高データ又は取得した歌声データ２１５の音高データと、取得した歌声データ２１５の文字データと、に対応する音素、品詞、単語等を表現する言語特徴量系列３１６を解析し、歌声制御部３０７に出力してもよい。

歌声データは、歌詞（の文字）と、音節のタイプ（開始音節、中間音節、終了音節など）と、歌詞インデックスと、対応する声高（正解の声高）と、対応する発音期間（例えば、発音開始タイミング、発音終了タイミング、発音の長さ（duration））と、の少なくとも１つを含む情報であってもよい。

例えば、図４の例では、歌声データ２１５は、第ｎ（ｎ＝１、２、３、４、…）音符に対応する第ｎ歌詞の歌声データと、第ｎ音符が再生されるべき規定のタイミング（第ｎ歌声再生位置）と、の情報を含んでもよい。第ｎ歌詞の歌声データは、第ｎ歌詞データと呼ばれてもよい。第ｎ歌詞データは、第ｎ歌詞に含まれる文字のデータ（第ｎ歌詞データの文字データ）、第ｎ歌詞に対応する音高データ（第ｎ歌詞データの音高データ）、第ｎ歌詞に対応する音の長さなどの情報を含んでもよい。

歌声データ２１５は、当該歌詞に対応する伴奏（ソングデータ）を演奏するための情報（特定の音声ファイルフォーマットのデータ、ＭＩＤＩデータなど）を含んでもよい。歌声データがＳＭＦフォーマットで示される場合、歌声データ２１５は、歌声に関するデータが格納されるトラックチャンクと、伴奏に関するデータが格納されるトラックチャンクと、を含んでもよい。歌声データ２１５は、ＲＯＭ２０２からＲＡＭ２０３に読み込まれてもよい。歌声データ２１５は、メモリ（例えば、ＲＯＭ２０２、ＲＡＭ２０３）に演奏前から記憶されている。

なお、電子楽器１０は、歌声データ２１５によって示されるイベント（例えば、歌詞の発声タイミングと音高を指示するメタイベント（タイミング情報）、ノートオン又はノートオフを指示するＭＩＤＩイベント、又は拍子を指示するメタイベントなど）に基づいて、自動伴奏の進行などを制御してもよい。

歌声制御部３０７は、処理部３０６から入力される言語特徴量系列３１６と、学習結果３１５として設定された音響モデルと、に基づいて、それに対応する音響特徴量系列３１７を推定し、推定された音響特徴量系列３１７に対応するフォルマント情報３１８を、歌声合成部３０９に対して出力する。

例えば、ＨＭＭ音響モデルが採用される場合、歌声制御部３０７は、言語特徴量系列３１６によって得られるコンテキスト毎に決定木を参照してＨＭＭを連結し、連結した各ＨＭＭから出力確率が最大となる音響特徴量系列３１７（フォルマント情報３１８と声帯音源データ３１９）を予測する。

ＤＮＮ音響モデルが採用される場合、歌声制御部３０７は、フレーム単位で入力される、言語特徴量系列３１６の音素列に対して、上記フレーム単位で音響特徴量系列３１７を出力してもよい。

図４では、処理部３０６は、メモリ（ＲＯＭ２０２でもよいし、ＲＡＭ２０３でもよい）から、押鍵された音の音高に対応する楽器音データ（ピッチ情報）を取得し、音源３０８に出力する。

音源３０８は、処理部３０６から入力されるノートオン／オフデータに基づいて、発音すべき（ノートオンの）音に対応する楽器音データ（ピッチ情報）の音源信号（楽器音波形データと呼ばれてもよい）を生成し、歌声合成部３０９に出力する。音源３０８は、発音する音のエンベロープ制御等の制御処理を実行してもよい。

歌声合成部３０９は、歌声制御部３０７から順次入力されるフォルマント情報３１８の系列に基づいて声道をモデル化するデジタルフィルタを形成する。また、歌声合成部３０９は、音源３０８から入力される音源信号を励振源信号として、当該デジタルフィルタを適用して、デジタル信号の歌声波形データ２１７を生成し出力する。この場合、歌声合成部３０９は、合成フィルタ部と呼ばれてもよい。

なお、歌声合成部３０９には、ケプストラム音声合成方式、ＬＳＰ音声合成方式をはじめとした様々な音声合成方式が採用可能であってもよい。

ミュート部３１０は、歌声合成部３０９から出力された歌声波形データ２１７に対してミュート処理を適用してもよい。例えば、ミュート部３１０は、ノートオン信号が入力される（つまり押鍵がある）場合には当該ミュート処理を適用せず、ノートオン信号が入力されない（つまり全鍵が離鍵されている）場合には当該ミュート処理を適用してもよい。当該ミュート処理は、波形の音量を０又は弱音化（非常に小さく）する処理であってもよい。

図４の例では、出力される歌声波形データ２１７は、楽器音を音源信号としているため、歌手の歌声に比べて忠実性は若干失われるが、当該楽器音の雰囲気と歌手の歌声の声質との両方が良く残った歌声となり、効果的な歌声波形データ２１７を出力させることができる。

なお、音源３０８は、楽器音波形データの処理とともに、他のチャネルの出力をソング波形データ２１８として出力するように動作してもよい。これにより、伴奏音は通常の楽器音で発音させたり、メロディーラインの楽器音を発音させると同時にそのメロディーの歌声を発声させたりするというような動作も可能である。

図５は、一実施形態にかかる波形データ出力部２１１の別の一例を示す図である。図４と重複する内容については、繰り返し説明しない。

図５の歌声制御部３０７は、上述したように、音響モデルに基づいて、音響特徴量系列３１７を推定する。そして、歌声制御部３０７は、推定された音響特徴量系列３１７に対応するフォルマント情報３１８と、推定された音響特徴量系列３１７に対応する声帯音源データ（ピッチ情報）３１９と、を、歌声合成部３０９に対して出力する。歌声制御部３０７は、音響特徴量系列３１７が生成される確率を最大にするような音響特徴量系列３１７の推定値を推定してもよい。

歌声合成部３０９は、例えば、歌声制御部３０７から入力される声帯音源データ３１９に含まれる基本周波数（Ｆ０）及びパワー値で周期的に繰り返されるパルス列（有声音音素の場合）又は声帯音源データ３１９に含まれるパワー値を有するホワイトノイズ（無声音音素の場合）又はそれらが混合された信号に、フォルマント情報３１８の系列に基づいて声道をモデル化するデジタルフィルタを適用した信号を生成させるためのデータ（例えば、第ｎ音符に対応する第ｎ歌詞の歌声波形データと呼ばれてもよい）を生成し、音源３０８に出力してもよい。

ミュート部３１０は、図４でも示したように、歌声合成部３０９から出力された歌声波形データ２１７に対してミュート処理を適用してもよい。

音源３０８は、処理部３０６から入力されるノートオン／オフデータに基づいて、発音すべき（ノートオンの）音に対応する上記第ｎ歌詞の歌声波形データからデジタル信号の歌声波形データ２１７を生成し、出力する。

図５の例では、出力される歌声波形データ２１７は、声帯音源データ３１９に基づいて音源３０８が生成した音を音源信号としているため、歌声制御部３０７によって完全にモデル化された信号であり、歌手の歌声に非常に忠実で自然な歌声の歌声波形データ２１７を出力させることができる。

なお、図４及び図５のミュート部３１０は、歌声合成部３０９からの出力を入力される箇所に位置したが、ミュート部３１０の箇所はこれに限られない。例えば、ミュート部３１０は、音源３０８の出力に（又は音源３０８に含まれて）配置され、音源３０８から出力される楽器音波形データ又は歌声波形データをミュートしてもよい。

このように、本開示の音声合成は、既存のボコーダー（人間が喋った言葉をマイクによって入力し、楽器音に置き換えて合成する手法）とは異なり、ユーザ（演奏者）が現実に歌わなくても（言い換えると、電子楽器１０にユーザがリアルタイムに発音する音声信号を入力しなくても）、鍵盤の操作によって合成音声を出力することができる。

以上説明したように、音声合成方式として統計的音声合成処理の技術を採用することにより、従来の素片合成方式に比較して格段に少ないメモリ容量を実現することが可能となる。例えば、素片合成方式の電子楽器では、音声素片データのために数百メガバイトに及ぶ記憶容量を有するメモリが必要であったが、本実施形態では、学習結果３１５のモデルパラメータを記憶させるために、わずか数メガバイトの記憶容量を有するメモリのみで済む。このため、より低価格の電子楽器を実現することが可能となり、高音質の歌声演奏システムをより広いユーザ層に利用してもらうことが可能となる。

さらに、従来の素片データ方式では、素片データの人手による調整が必要なため、歌声演奏のためのデータの作成に膨大な時間（年単位）と労力を必要としていたが、本実施形態によるＨＭＭ音響モデル又はＤＮＮ音響モデルのための学習結果３１５のモデルパラメータの作成では、データの調整がほとんど必要ないため、数分の一の作成時間と労力で済む。これによっても、より低価格の電子楽器を実現することが可能となる。

また、一般ユーザが、クラウドサービスとして利用可能なサーバコンピュータ３００、音声合成ＬＳＩ２０５などに内蔵された学習機能を使って、自分の声、家族の声、或いは有名人の声等を学習させ、それをモデル音声として電子楽器で歌声演奏させることも可能となる。この場合にも、従来よりも格段に自然で高音質な歌声演奏を、より低価格の電子楽器として実現することが可能となる。

（歌詞進行制御方法）
本開示の一実施形態に係る歌詞進行制御方法について、以下で説明する。なお、本開示の歌詞進行制御は、演奏制御、演奏などと互いに読み替えられてもよい。

以下の各フローチャートの動作主体（電子楽器１０）は、ＣＰＵ２０１、波形データ出力部２１１（又はその内部の音源ＬＳＩ２０４、音声合成ＬＳＩ２０５（処理部３０６、歌声制御部３０７、音源３０８、歌声合成部３０９、ミュート部３１０など））のいずれか又はこれらの組み合わせで読み替えられてもよい。例えば、ＣＰＵ２０１が、ＲＯＭ２０２からＲＡＭ２０３にロードされた制御処理プログラムを実行して、各動作が実施されてもよい。

なお、以下に示すフローの開始にあたって、初期化処理が行われてもよい。当該初期化処理は、割り込み処理、歌詞の進行、自動伴奏などの基準時間となるＴｉｃｋＴｉｍｅの導出、テンポ設定、ソングの選曲、ソングの読み込み、楽器音の選択、その他ボタン等に関連する処理などを含んでもよい。

ＣＰＵ２０１は、適宜のタイミングで、キースキャナ２０６からの割込みに基づいて、スイッチパネル１４０ｂ、鍵盤１４０ｋ及びペダル１４０ｐなどの操作を検出し、対応する処理を実施できる。

なお、以下では歌詞の進行を制御する例を示すが進行制御の対象はこれに限られない。本開示に基づいて、例えば、歌詞の代わりに、任意の文字列、文章（例えば、ニュースの台本）などの進行が制御されてもよい。つまり、本開示の歌詞は、文字、文字列などと互いに読み替えられてもよい。

本開示では、電子楽器１０は、ユーザの演奏操作に関わらず歌声波形データ２１７（音声合成データ）を生成し、歌声波形データ２１７に応じた音の発音の許可／不許可を制御する。

例えば、電子楽器１０は、演奏開始の指示に応じて、ユーザによる押鍵を検出してもしなくても、歌声データ２１５（メモリに演奏開始前から記憶されていてもよいし、されていなくてもよい）に従って、歌声波形データ２１７（音声合成データ）をリアルタイムに生成する。

電子楽器１０は、リアルタイムに生成される歌声波形データ２１７（音声合成データ）に応じた音が、押鍵を検出していない間は発音されないように、ミュート処理を実行する（ユーザに歌声は聞こえない）。また、電子楽器１０は、押鍵を検出した場合に、ミュート処理を解除する（ユーザに歌声が聞こえる）。電子楽器１０は、ソング波形データ２１８に対してはミュート処理を実行しない（ユーザに歌声が聞こえない状態で伴奏が聞こえる）。

電子楽器１０は、ユーザ押鍵を検出すると、押鍵された鍵に対応する音高データで、歌声データ２１５（以下、単に歌声データと表記することもある）内の押鍵タイミングに対応する音高データを上書きする。これにより、上書きされた音高データに基づいて、歌声波形データ２１７（以下、単に歌声波形データと表記することもある）が生成されることになる。なお、電子楽器１０は、歌声再生処理をミュート処理の有無に関わらず行ってもよい。

以上、言い換えると、電子楽器１０のプロセッサは、演奏操作子（鍵）へのユーザ操作（押鍵）が検出される場合及び検出されない場合の両方において、歌声データ２１５に従って歌声合成データ２１７を生成してもよい。また、電子楽器１０のプロセッサは、前記演奏操作子へのユーザ操作が検出されている場合に、生成された前記歌声合成データに従う歌声の発音を許可し、前記演奏操作子へのユーザ操作が全く検出されない場合に、生成された前記歌声合成データに従う歌声の発音を許可しないように制御する。

このような構成によれば、ユーザの押鍵操作をトリガとして、バックグラウンドで自動再生される合成音声の発音の有無を制御できるため、ユーザが発音させたい歌詞の箇所を容易に指定できる。

また、電子楽器１０のプロセッサは、前記演奏操作子へのユーザ操作が検出される場合及び検出されない場合の両方において、時間経過に応じて前記歌声データを変更する。このような構成によれば、バックグラウンドで再生される歌詞を適切に遷移させることができる。

電子楽器１０のプロセッサは、前記ユーザ操作が検出されている場合に、前記ユーザ操作に応じて指定された音高で、生成された前記歌声合成データに従う歌声の発音を指示してもよい。このような構成によれば、発音する合成音声の音高を容易に変更できる。

電子楽器１０のプロセッサは、前記ユーザ操作が全く検出されない場合に、生成された前記歌声合成データに従う歌声の発音のミュートを指示してもよい。このような構成によれば、必要ないときに合成音声を聞こえないようにすることができるとともに、必要になった場合の発音の切り替えを高速に行うことができる。

図６は、一実施形態に係る歌詞進行制御方法のフローチャートの一例を示す図である。

まず、電子楽器１０は、ソングデータ及び歌声データを読み込む（ステップＳ１０１）。当該歌声データ（図４、図５の歌声データ２１５）は、ソングデータに対応した歌声データであってもよい。

電子楽器１０は、例えばユーザの操作に応じて歌詞に対応するソングデータの発音（言い換えると、伴奏の再生）を開始する（ステップＳ１０２）。ユーザは、当該伴奏に合わせて押鍵操作を行うことができる。

電子楽器１０は、歌詞発音タイミングｔのカウントアップを開始する（ステップＳ１０３）。電子楽器１０は、このｔを、例えば、拍、ティック、秒などの少なくとも１つの単位で扱ってもよい。歌詞発音タイミングｔは、タイマ２１０によってカウントされてもよい。

電子楽器１０は、次に発音する歌詞の位置を示す歌詞インデックス（「ｎ」とも表す）に１を代入する（ステップＳ１０４）。なお、歌詞を途中から始める（例えば、前回の記憶位置から始める）場合には、ｎには１以外の値が代入されてもよい。

歌詞インデックスは、歌詞全体を文字列とみなしたときの、先頭から何音節目（又は何文字目）の音節（又は文字）に対応するかを示す変数であってもよい。例えば、歌詞インデックスｎは、図４、図５などで示した第ｎ歌声再生位置の歌声データ（第ｎ歌詞データ）を示してもよい。

なお、本開示において、１つの歌詞の位置（歌詞インデックス）に対応する歌詞は、１音節を構成する１又は複数の文字に該当してもよい。歌声データに含まれる音節は、母音のみ、子音のみ、子音＋母音など、種々の音節を含んでもよい。

また、電子楽器１０は、ソングデータの発音開始（伴奏の最初）を基準とした、歌詞インデックスｎ（ｎ＝１、２、…、Ｎ）に対応する歌詞発音タイミングｔ_ｎを記憶している。ここで、Ｎは最後の歌詞に該当する。歌詞発音タイミングｔ_ｎは、第ｎ歌声再生位置の望ましいタイミングを示してもよい。

電子楽器１０は、歌詞発音タイミングｔが第ｎタイミングになったか（言い換えると、ｔ＝ｔ_ｎか）を判定する（ステップＳ１０５）。ｔ＝ｔ_ｎである場合（ステップＳ１０５－Ｙｅｓ）、電子楽器１０は、押鍵がある（ノートオンイベントが発生している）か否かを判断する（ステップＳ１０６）。

押鍵がある場合（ステップＳ１０６－Ｙｅｓ）、電子楽器１０は、押鍵された鍵に対応する音高データで、第ｎ歌詞データの音高データ（読み込んだ歌声データの音高データ）を上書きする（ステップＳ１０７）。

電子楽器１０は、ステップＳ１０７で上書きされた音高データと、第ｎ歌詞データ（のうち第ｎ歌詞の文字）と、に基づく歌声波形データを生成する（ステップＳ１０８）。電子楽器１０は、ステップＳ１０８によって生成された歌声波形データに基づく発音処理を行う（ステップＳ１０９）。この発音処理は、後述のステップＳ１１２などによってミュート処理が実施されない限り、第ｎ歌詞データの持続時間（duration）だけ発音する処理であってもよい。

ステップＳ１０９において、図４に基づいて合成音声が生成されてもよい。電子楽器１０は、例えば、歌声制御部３０７より、ｎ番目の歌声データの音響特徴量データ（フォルマント情報）を取得し、音源３０８に、押鍵に応じた音高の楽器音の発音（楽器音波形データの生成）を指示し、歌声合成部３０９に、音源３０８から出力される楽器音波形データに対し、ｎ番目の歌声データのフォルマント情報の付与を指示してもよい。

ステップＳ１０９において、電子楽器１０は、例えば、処理部３０６が、指定された音高データ（押鍵された鍵に対応する音高データ）及びｎ番目の歌声データ（第ｎ歌詞データ）を、歌声制御部３０７に入力し、歌声制御部３０７は、入力に基づいて音響特徴量系列３１７を推定し、対応するフォルマント情報３１８と声帯音源データ（ピッチ情報）３１９と、を、歌声合成部３０９に対して出力し、歌声合成部３０９は、入力されたフォルマント情報３１８と声帯音源データ（ピッチ情報）３１９とに基づいて、ｎ番目の歌声波形データ（第ｎ音符に対応する第ｎ歌詞の歌声波形データと呼ばれてもよい）を生成し、音源３０８に出力する。そうして、音源３０８は、ｎ番目の歌声波形データを、歌声合成部３０９から取得して当該データに対して発音処理を行う。

ステップＳ１０９において、図５に基づいて合成音声が生成されてもよい。電子楽器１０の処理部３０７は、指定された音高データ（押鍵された鍵に対応する音高データ）及びｎ番目の歌声データ（第ｎ歌詞データ）を、歌声制御部３０６に入力する。そして、電子楽器１０の歌声制御部３０６は、入力に基づいて音響特徴量系列３１７を推定し、対応するフォルマント情報３１８と声帯音源データ（ピッチ情報）３１９と、を、歌声合成部３０９に対して出力する。

また、歌声合成部３０９は、入力されたフォルマント情報３１８と声帯音源データ（ピッチ情報）３１９とに基づいて、ｎ番目の歌声波形データ（第ｎ音符に対応する第ｎ歌詞の歌声波形データと呼ばれてもよい）を生成し、音源３０８に出力する。そうして、音源３０８は、ｎ番目の歌声波形データを、歌声合成部３０９から取得する。電子楽器１０は、取得されたｎ番目の歌声波形データに対して、音源３０８による発音処理を行う。

なお、フローチャート内の他の発音処理も同様に行われてもよい。

ステップＳ１０９の後、電子楽器１０は、ｎを１インクリメントする（ｎにｎ＋１を代入する）（ステップＳ１１０）。

電子楽器１０は、全鍵が離鍵されているか否かを判断する（ステップＳ１１１）。全鍵が離鍵されている場合（ステップＳ１１１－Ｙｅｓ）、電子楽器１０は、歌声波形データに応じた発音のミュート処理を行う（ステップＳ１１２）。当該ミュート処理は、上述のミュート部３１０によって実施されてもよい。

ステップＳ１１２又はステップＳ１１１－Ｎｏの後、電子楽器１０は、ステップＳ１０２で再生開始されたソングデータの再生が終了したか否かを判断する（ステップＳ１１３）。終了した場合（ステップＳ１１３－Ｙｅｓ）、電子楽器１０は当該フローチャートの処理を終了し、待機状態に戻ってもよい。そうでない場合（ステップＳ１１３－Ｎｏ）、ステップＳ１０５に戻る。

なお、ステップＳ１０５－Ｙｅｓの後に押鍵がない場合（ステップＳ１０６－Ｎｏ）、電子楽器１０は、第ｎ歌詞データの音高データ（上書きされていない音高データ）と、第ｎ歌詞データの文字データと、に基づく歌声波形データを生成する（ステップＳ１１４）。電子楽器１０は、ステップＳ１１４によって生成された歌声波形データに基づく発音のミュート処理を行い（ステップＳ１１５）、ステップＳ１１０に進む。

なお、ｔ＜ｔ_ｎである場合（ステップＳ１０５－Ｎｏ）、電子楽器１０は、発音中の押鍵がある（例えば、ステップＳ１０９に基づいて発音されている音があって、かつ任意の鍵の押鍵がある）か否かを判断する（ステップＳ１１６）。発音中の押鍵がある場合（ステップＳ１１６－Ｙｅｓ）、電子楽器１０は、発音中の音のピッチ変更を行い（ステップＳ１１７）、ステップＳ１０５に戻る。

ピッチ変更は、例えば、ステップＳ１０７－Ｓ１０９で説明したのと同様に、当該押鍵された鍵に対応する音高データと、発音中の歌詞（第ｎ－１歌詞データの文字データ）と、に基づく歌声波形データを生成し、発音処理することによって行われてもよい。発音中の押鍵がない場合（ステップＳ１１６－Ｎｏ）、ステップＳ１０５に戻る。

なお、ステップＳ１１６は、発音中の押鍵であるか否かに関わらず、単に押鍵があるか否かの判断であってもよい。この場合、ステップＳ１１７は、ステップＳ１１２、Ｓ１１５などのミュート処理の解除（言い換えると、ミュートされた音について、押鍵された音での発音処理）であってもよい。

また、ステップＳ１０６、Ｓ１１６などの押鍵が、複数鍵の同時押鍵（和音の押鍵）であった場合、ステップＳ１０７－Ｓ１０９、Ｓ１１７などによって、それぞれの音高に応じたハーモニーの歌声（ポリフォニック）が発音されてもよい。

本フローチャートでは、ステップＳ１１２、Ｓ１１５などで消音処理ではなくミュート処理を適用したことによって、音は発音されない場合であってもバックグラウンドで再生されているため、発音させたい場合には迅速な発音が可能である。

図７は、一実施形態に係る歌詞進行制御方法を用いて制御された歌詞進行の一例を示す図である。本例では、図示する楽譜に対応する演奏の一例について説明する。歌詞インデックス１－６に、それぞれ「Ｓｌｅ」、「ｅｐ」、「ｉｎ」、「ｈｅａｖ」、「ｅｎ」及び「ｌｙ」が対応すると仮定する。

本例では、電子楽器１０は、歌詞インデックス１に対応するタイミングｔ１において、ユーザによる押鍵があると判断した（図７のステップＳ１０５－Ｙｅｓ及びステップＳ１０６－Ｙｅｓ）。この場合、電子楽器１０は、押鍵された鍵に対応する音高データで、歌詞インデックス１に対応する音高データを上書きし、歌詞「Ｓｌｅ」を発音する（ステップＳ１０７－Ｓ１０９）。この際電子楽器１０は、ミュート処理は適用しない。

電子楽器１０は、歌詞インデックス２、３に対応するタイミングｔ２、ｔ３においては、ユーザによる押鍵がないと判断した。この場合、電子楽器１０は、歌詞インデックス２、３に対応する歌詞「ｅｐ」、「ｉｎ」の歌声波形データを生成し、ミュート処理を行う（ステップＳ１１４－Ｓ１１５）。このため、歌詞「ｅｐ」、「ｉｎ」の歌声はユーザには聞こえないが、伴奏は聞こえる。

また、電子楽器１０は、歌詞インデックス４に対応するタイミングｔ４において、ユーザによる押鍵があると判断した。この場合、電子楽器１０は、押鍵された鍵に対応する音高データで、歌詞インデックス４に対応する音高データを上書きし、歌詞「ｈｅａｖ」を発音する。この際電子楽器１０は、ミュート処理は適用しない。

電子楽器１０は、歌詞インデックス５、６に対応するタイミングｔ５、ｔ６においては、ユーザによる押鍵がないと判断した。この場合、電子楽器１０は、歌詞インデックス５、６に対応する歌詞「ｅｎ」、「ｌｙ」の歌声波形データを生成し、ミュート処理を行う。このため、歌詞「ｅｎ」、「ｌｙ」の歌声はユーザには聞こえないが、伴奏は聞こえる。

つまり、本開示の一態様にかかる歌詞進行制御方法によれば、ユーザによる演奏の仕方によっては、歌詞の一部が発音されない場合がある（図７の例では、「Ｓｌｅ」と「ｈｅａｖ」の間の「ｅｐｉｎ」が発音されないことがある）。

通常の自動演奏がユーザの押鍵がなくても歌詞を自動演奏する（上記の図７の例では「Ｓｌｅｅｐｉｎｈｅａｖｅｎｌｙ」が全て発音され、また、音高は変更できない）のに対して、上記歌詞進行制御方法によれば、押鍵したときだけ歌詞を自動演奏することができる（また、音高も変更できる）。

また、既存の押鍵のたびに歌詞が進行する（図７の例に適用すると、押鍵のたびに歌詞インデックスがインクリメントされ発音される）技術では、押鍵し過ぎにより歌詞の位置が超過したり、押鍵が不足して歌詞の位置が想定より進まなかったりした場合に、歌詞の位置を適切に移動させるための同期処理（歌詞の位置を伴奏の再生位置と合わせる処理）が必要となる。一方で、上記歌詞進行制御方法によれば、このような同期処理は不要であり、電子楽器１０の処理負荷の増大が好適に抑制される。

（変形例）
図４、図５などで示した音声合成処理のオン／オフは、ユーザのスイッチパネル１４０ｂの操作に基づいて切り替えられてもよい。オフの場合、波形データ出力部２１１は、押鍵に対応する音高の楽器音データの音源信号を生成して、出力するように制御してもよい。

図６のフローチャートにおいて、一部のステップが省略されてもよい。判定処理が省略された場合、当該判定についてはフローチャートにおいて常にＹｅｓ又は常にＮｏのルートに進むと解釈されてもよい。

電子楽器１０は、ディスプレイ１５０ｄに歌詞を表示させる制御を行ってもよい。例えば、現在の歌詞の位置（歌詞インデックス）付近の歌詞が表示されてもよいし、発音中の音に対応する歌詞、発音した音に対応する歌詞などを、現在の歌詞の位置が識別できるように着色等して表示してもよい。

電子楽器１０は、外部装置に対して、歌声データ、現在の歌詞の位置に関する情報などの少なくとも１つを送信してもよい。外部装置は、受信した歌声データ、現在の歌詞の位置に関する情報などに基づいて、自身の有するディスプレイに歌詞を表示させる制御を行ってもよい。

上述の例では、電子楽器１０がキーボードのような鍵盤楽器である例を示したが、これに限られない。電子楽器１０は、ユーザの操作によって発音のタイミングを指定できる構成を有する機器であればよく、エレクトリックヴァイオリン、エレキギター、ドラム、ラッパなどであってもよい。

このため、本開示の「鍵」は、弦、バルブ、その他の音高指定用の演奏操作子、任意の演奏操作子などで読み替えられてもよい。本開示の「押鍵」は、打鍵、ピッキング、演奏、操作子の操作などで読み替えられてもよい。本開示の「離鍵」は、弦の停止、演奏停止、操作子の停止（非操作）などで読み替えられてもよい。

なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的に結合した１つの装置により実現されてもよいし、物理的に分離した２つ以上の装置を有線又は無線によって接続し、これら複数の装置により実現されてもよい。

なお、本開示において説明した用語及び／又は本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。また、本開示においてパラメータなどに使用する名称は、いかなる点においても限定的なものではない。

本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

情報、信号などは、複数のネットワークノードを介して入出力されてもよい。入出力された情報、信号などは、特定の場所（例えば、メモリ）に保存されてもよいし、テーブルを用いて管理してもよい。入出力される情報、信号などは、上書き、更新又は追記をされ得る。出力された情報、信号などは、削除されてもよい。入力された情報、信号などは、他の装置へ送信されてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素の参照は、２つの要素のみが採用され得ること又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

本開示において、「含む（include）」、「含んでいる（including）」及びこれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示において、例えば、英語でのa, an及びtheのように、翻訳によって冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

以上の実施形態に関して、以下の付記を開示する。
（付記１）
演奏操作子（例えば、鍵）と、
プロセッサ（例えば、ＣＰＵ２０１）と、を備え、前記プロセッサは、
前記演奏操作子へのユーザ操作を検出すべきタイミング（歌詞インデックスｎ（ｎ＝１、２、…、Ｎ）に対応する歌詞発音タイミングｔ_ｎ）に、前記ユーザ操作の検出の有無に関わらず（言い換えると、前記演奏操作子へのユーザ操作が検出される場合及び検出されない場合の両方において）、歌声データに従って歌声合成データを生成し、
前記タイミングに前記ユーザ操作（例えば、押鍵）を検出した場合に、生成された前記歌声合成データに従う歌声の発音を許可し、
前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音を許可しない（ミュートする）ように制御する、
電子楽器。

（付記２）
前記歌詞データは、前記ユーザ操作を検出すべきタイミングに対応する音高データを含み、
前記プロセッサは、
前記タイミングに前記ユーザ操作を検出した場合に、前記ユーザ操作に応じて指定された音高に従って前記歌声合成データを生成し、
前記タイミングに前記ユーザ操作を検出しない場合に、前記歌詞データに含まれる前記音高データが示す音高に従って前記歌声合成データを生成する、
付記１に記載の電子楽器。

（付記３）
前記歌詞データは、第１ユーザ操作を検出すべき第１タイミングに対応する第１文字データと、第２ユーザ操作を検出すべき前記第１タイミングの次の第２タイミングに対応する第２文字データと、第３ユーザ操作を検出すべき前記第２タイミングの次の第３タイミングに対応する第３文字データと、を含み、
前記プロセッサは、
前記第１タイミングに対応する前記第１ユーザ操作の検出に基づいて、前記第１文字データに応じた歌声の発音を指示し、
前記第１タイミングの経過後前記第３タイミングの到来前に前記第２ユーザ操作を検出せずに、前記第３タイミングに対応する前記第３ユーザ操作を検出した場合に、前記第２文字データに応じた歌声の発音を指示せずに、前記第３文字データに応じた歌声の発音を指示する、
付記１又は付記２に記載の電子楽器。

（付記４）
前記プロセッサは、
前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音のミュートを指示する、
付記１から付記３のいずれかに記載の電子楽器。

（付記５）
前記プロセッサは、
ソングデータに応じた伴奏の発音を指示し、
前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音を許可しない一方、前記伴奏の発音は継続させる、
付記１から付記４のいずれかに記載の電子楽器。

（付記６）
或る歌手の歌声の音響特徴量を学習した学習済みモデルを記憶しているメモリを備え、
前記プロセッサは、
前記ユーザ操作に応じた前記歌詞データの前記学習済みモデルへの入力に応じて、前記学習済みモデルが出力する音響特徴量データに従って、前記歌声合成データを生成する、
付記１から付記５のいずれかに記載の電子楽器。

（付記７）
演奏操作子と、
プロセッサと、を備え、前記プロセッサは、
前記演奏操作子への第１ユーザ操作を検出すべき第１タイミングに対応する第１文字データと、前記演奏操作子への第２ユーザ操作を検出すべき前記第１タイミングの次の第２タイミングに対応する第２文字データと、前記演奏操作子への第３ユーザ操作を検出すべき前記第２タイミングの次の第３タイミングに対応する第３文字データと、を含む歌詞データにおける前記第１タイミングに対応する前記第１ユーザ操作の検出に基づいて、前記第１文字データに応じた歌声の発音を指示し、
前記第１タイミングの経過後前記第３タイミングの到来前に前記第２ユーザ操作を検出せずに、前記第３タイミングに対応する前記第３ユーザ操作を検出した場合に、前記第２文字データに応じた歌声の発音を指示せずに、前記第３文字データに応じた歌声の発音を指示する、
電子楽器。

（付記８）
電子楽器のコンピュータに、
演奏操作子へのユーザ操作を検出すべきタイミングに、前記ユーザ操作の検出の有無に関わらず、前記タイミングに応じた歌詞データに従って歌声合成データを生成させ、
前記タイミングに前記ユーザ操作を検出した場合に、生成された前記歌声合成データに従う歌声の発音を許可させ、
前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音を許可しないように制御させる、
方法。

（付記９）
電子楽器のコンピュータに、
演奏操作子へのユーザ操作を検出すべきタイミングに、前記ユーザ操作の検出の有無に関わらず、前記タイミングに応じた歌詞データに従って歌声合成データを生成させ、
前記タイミングに前記ユーザ操作を検出した場合に、生成された前記歌声合成データに従う歌声の発音を許可させ、
前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音を許可しないように制御させる、
プログラム。

以上、本開示に係る発明について詳細に説明したが、当業者にとっては、本開示に係る発明が本開示中に説明した実施形態に限定されないということは明らかである。本開示に係る発明は、特許請求の範囲の記載に基づいて定まる発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とし、本開示に係る発明に対して何ら制限的な意味をもたらさない。

Claims

演奏操作子と、
少なくとも１つのプロセッサと、を備え、前記少なくとも１つのプロセッサは、
前記演奏操作子へのユーザ操作を検出すべきタイミングの前記ユーザ操作の検出の有無に関わらず、前記タイミングに応じた歌詞データに従って歌声合成データを生成し、
前記タイミングに前記ユーザ操作を検出した場合に、生成された前記歌声合成データに従う歌声の発音を許可し、
前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音を許可しないように制御する、
処理を実行する電子楽器。
前記少なくとも１つのプロセッサは、
前記タイミングに前記ユーザ操作を検出した場合に、前記ユーザ操作に応じて指定された音高に従って前記歌声合成データを生成する、
処理を実行する請求項１に記載の電子楽器。
前記少なくとも１つのプロセッサは、
前記タイミングに前記ユーザ操作を検出しない場合に、前記歌詞データに含まれる音高データが示す音高に従って前記歌声合成データを生成する、
処理を実行する請求項１又は２に記載の電子楽器。
前記少なくとも１つのプロセッサは、
前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音のミュートを指示する、
処理を実行する請求項１から請求項３のいずれかに記載の電子楽器。
前記少なくとも１つのプロセッサは、
ソングデータに応じた伴奏の発音を指示し、
前記タイミングに前記ユーザ操作を検出しない場合に、生成された前記歌声合成データに従う歌声の発音を許可しない一方、前記伴奏の発音は継続させる、
処理を実行する請求項１から請求項４のいずれかに記載の電子楽器。
或る歌手の歌声の音響特徴量を学習した学習済みモデルを記憶しているメモリを備え、
前記少なくとも１つのプロセッサは、
前記ユーザ操作に応じた前記歌詞データの前記学習済みモデルへの入力に応じて、前記学習済みモデルが出力する音響特徴量データに従って、前記歌声合成データを生成する、
処理を実行する請求項１から請求項５のいずれかに記載の電子楽器。
前記歌詞データは、第１タイミングに対応する第１文字データと、前記第１タイミング後の第２タイミングに対応する第２文字データと、前記第２タイミング後の第３タイミングに対応する第３文字データと、を含み、
前記少なくとも１つのプロセッサは、
前記第１タイミングに対応するユーザ操作の検出に基づいて、前記第１文字データに応じた歌声の発音を指示し、
前記第２タイミングに対応するユーザ操作を検出せずに、前記第３タイミングに対応するユーザ操作を検出した場合に、前記第２文字データに応じた歌声の発音を指示せずに、前記第３文字データに応じた歌声の発音を指示する、
処理を実行する請求項１乃至６のいずれかに記載の電子楽器。
演奏操作子と、
少なくとも１つのプロセッサと、を備え、前記少なくとも１つのプロセッサは、
第１タイミングに対応する第１文字データと、前記第１タイミング後の第２タイミングに対応する第２文字データと、前記第２タイミング後の第３タイミングに対応する第３文字データと、を含む歌詞データにおける前記第１タイミングに対応するユーザ操作の検出に基づいて、前記第１文字データに応じた歌声の発音を指示し、
前記第２タイミングに対応するユーザ操作を検出せずに、前記第３タイミングに対応するユーザ操作を検出した場合に、前記第２文字データに応じた歌声の発音を指示せずに、前記第３文字データに応じた歌声の発音を指示する、
処理を実行する電子楽器。
電子楽器の少なくとも１つのプロセッサが、請求項１乃至８のいずれか１項に記載の処理を実行する方法。
電子楽器の少なくとも１つのプロセッサが、請求項１乃至８のいずれか１項に記載の処理を実行するプログラム。