JP7537419B2

JP7537419B2 - 子音長変更装置、電子楽器、楽器システム、方法及びプログラム

Info

Publication number: JP7537419B2
Application number: JP2021207131A
Authority: JP
Inventors: 真段城; 文章太田; 厚士中村
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2024-08-21
Anticipated expiration: 2041-12-21
Also published as: WO2023120121A1; JP2023092120A

Description

本明細書の開示は、子音長変更装置、電子楽器、楽器システム、方法及びプログラムに関する。

ユーザ（演奏者）による押鍵操作に応じて歌詞を進行させ、歌詞に対応した合成音声を出力する電子楽器が知られている（例えば特許文献１参照）。

特開２０１６－１８４１５８号公報

この種の電子楽器で歌詞を進行させながら鍵盤演奏する場合、歌詞に含まれる音節の種類によって発音の立ち上がりが異なる。発音の立ち上がりが音節毎に異なる場合、例えば、ユーザにとって、一定のリズムを維持して歌詞を進行させながら鍵盤演奏することが難しい。

本発明は上記の事情に鑑みてなされたものであり、その目的とするところは、音節毎の発音の立ち上がりの差を小さく抑えることができる子音長変更装置、電子楽器、楽器システム、方法及びプログラムを提供することである。

本発明の一実施形態に係る子音長変更装置は、１つのユーザ操作に応じて指定された比率又は再生速度のパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、前記或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、少なくとも１つのプロセッサを備える。

本発明の一実施形態によれば、子音長変更装置、電子楽器、楽器システム、方法及びプログラムにおいて、音節毎の発音の立ち上がりの差を小さく抑えることができる。

本発明の一実施形態に係る楽器システムの構成を示すブロック図である。本発明の一実施形態に係る電子楽器の構成を示すブロック図である。本発明の一実施形態に係る情報処理装置の構成を示すブロック図である。本発明の一実施形態において音声合成処理を実行する機能ブロック群を示す図である。本発明の一実施形態において歌詞パラメータに含まれるフレームの情報を説明するための図である。本発明の一実施形態において奏される効果を説明するための図である。本発明の一実施形態において情報処理装置のプロセッサにより実行されるプログラムの処理を示すフローチャートである。図６のステップＳ１０２の歌声発音モード時の処理の詳細を示すサブルーチンである。図７のステップＳ２０２の押鍵処理の詳細を示すサブルーチンである。本発明の実施例１に係る子音オフセット処理であって、図８のステップＳ３１０及びＳ３１１の子音オフセット処理の詳細を示すサブルーチンである。本発明の実施例２に係る子音オフセット処理であって、図８のステップＳ３１０及びＳ３１１の子音オフセット処理の詳細を示すサブルーチンである。図７のステップＳ２０３の発音処理の詳細を示すサブルーチンである。本発明の変形例に係る、図７のステップＳ２０２の押鍵処理の詳細を示すサブルーチンである。図１２のステップＳ７０３及びＳ７０４の再生レート取得処理の詳細を示すサブルーチンである。

図面を参照して、本発明の一実施形態に係る楽器システムについて詳細に説明する。以下の説明では、楽器システムの一例として、電子楽器と情報処理装置とを備えるシステムを挙げる。

図１は、本発明の一実施形態に係る楽器システム１の構成を示すブロック図である。図１に示されるように、楽器システム１は、電子楽器１０と情報処理装置２０とを備える。電子楽器１０と情報処理装置２０は、無線又は有線により相互通信可能に接続される。

本実施形態において、電子楽器１０は、鍵盤１１０を備える電子キーボードである。電子楽器１０は、電子キーボード以外の電子鍵盤楽器であってもよく、また、電子打楽器、電子管楽器、電子弦楽器であってもよい。

情報処理装置２０は、タブレット端末である。情報処理装置２０は、例えば電子楽器１０の譜面台１５０に載置される。情報処理装置２０は、スマートフォン、ノートＰＣ（Personal Computer）、据え置き型のＰＣ、携帯ゲーム機等の他の形態の装置であってもよい。

図２は、本発明の一実施形態に係る電子楽器１０の構成を示すブロック図である。電子楽器１０は、ハードウェア構成として、プロセッサ１００、ＲＡＭ（Random Access Memory）１０２、フラッシュＲＯＭ（Read Only Memory）１０４、ＬＣＤ（Liquid Crystal Display）１０６、ＬＣＤコントローラ１０８、鍵盤１１０、スイッチパネル１１２、キースキャナ１１４、ネットワークインタフェース１１６、音源ＬＳＩ（Large Scale Integration）１１８、Ｄ／Ａコンバータ１２０、アンプ１２２及びスピーカ１２４を備える。電子楽器１０の各部は、バス１２６により接続される。

プロセッサ１００は、フラッシュＲＯＭ１０４に格納されたプログラム及びデータを読み出し、ＲＡＭ１０２をワークエリアとして用いることにより、電子楽器１０を統括的に制御する。

プロセッサ１００は、例えばシングルプロセッサ又はマルチプロセッサであり、少なくとも１つのプロセッサを含む。複数のプロセッサを含む構成とした場合、プロセッサ１００は、単一の装置としてパッケージ化されたものであってもよく、電子楽器１０内で物理的に分離した複数の装置で構成されてもよい。

ＲＡＭ１０２は、データやプログラムを一時的に保持する。ＲＡＭ１０２には、フラッシュＲＯＭ１０４から読み出されたプログラムやデータ、その他、通信に必要なデータが保持される。

フラッシュＲＯＭ１０４は、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）等の不揮発性の半導体メモリであり、二次記憶装置又は補助記憶装置としての役割を担う。

ＬＣＤ１０６は、ＬＣＤコントローラ１０８により駆動される。プロセッサ１００による制御信号に従ってＬＣＤコントローラ１０８がＬＣＤ１０６を駆動すると、ＬＣＤ１０６に、制御信号に応じた画面が表示される。ＬＣＤ１０６は、有機ＥＬ（Electro Luminescence）、ＬＥＤ（Light Emitting Diode）等の表示装置に置き換えてもよい。ＬＣＤ１０６は、タッチパネルであってもよい。この場合、タッチパネルはスイッチパネル１１２の一部でもある。

鍵盤１１０は、複数の演奏操作子として複数の白鍵及び黒鍵を有する鍵盤である。各鍵は、それぞれ異なる音高と対応付けられている。

スイッチパネル１１２は、メカニカル方式、静電容量無接点方式、メンブレン方式等のスイッチ、ボタン、ノブ、ロータリエンコーダ、ホイール、タッチパネル等の操作子を含む。

キースキャナ１１４は、鍵盤１１０に対する押鍵及び離鍵並びスイッチパネル１１２に対する操作を監視する。キースキャナ１１４は、例えばユーザによる押鍵操作を検出すると、押鍵イベントを生成してプロセッサ１００に出力する。押鍵イベントには、例えば押鍵操作に係る鍵の音高データが含まれる。キースキャナ１１４は、例えばユーザによる離鍵操作を検出すると、押鍵操作に応じた音の発音を終了させるための離鍵イベントを生成してプロセッサ１００に出力する。

プロセッサ１００は、フラッシュＲＯＭ１０４に記憶された複数の波形データのなかから、対応する波形データの読み出しを音源ＬＳＩ１１８に指示する。読み出し対象の波形データは、例えば、ユーザによるスイッチパネル１１２に対する操作によって選択された音色及び押鍵イベントに応じて決まる。

音源ＬＳＩ１１８は、プロセッサ１００の指示のもと、フラッシュＲＯＭ１０４から読み出した波形データに基づいて楽音を生成する。音源ＬＳＩ１１８は、例えば１２８のジェネレータセクションを備えており、最大で１２８の楽音を同時に発音することができる。

音源ＬＳＩ１１８により生成された楽音のデジタル音声信号は、Ｄ／Ａコンバータ１２０によりアナログ信号に変換された後、アンプ１２２により増幅されて、スピーカ１２４に出力される。これにより、押鍵された音高の楽音が再生される。

ネットワークインタフェース１１６は、情報処理装置２０をはじめとする種々の外部装置と通信するためのインタフェースである。プロセッサ１００は、例えば、ネットワークインタフェース１１６を介して接続された情報処理装置２０に対してイベントを送信し、また、情報処理装置２０から歌声音声出力データ５００（図４参照、詳しくは後述）を受信することができる。ネットワークインタフェース１１６を介して受信された歌声音声出力データ５００は、Ｄ／Ａコンバータ１２０によりアナログ信号に変換された後、アンプ１２２により増幅されて、スピーカ１２４に出力される。これにより、鍵盤操作に応じた歌声が再生される。

図３は、本発明の一実施形態に係る情報処理装置２０の構成を示すブロック図である。情報処理装置２０は、プロセッサ２００、ＲＡＭ２０２、フラッシュＲＯＭ２０４、ＬＣＤ２０６、ＬＣＤコントローラ２０８、操作部２１０、ネットワークインタフェース２１２、Ｄ／Ａコンバータ２１４、アンプ２１６及びスピーカ２１８を備える。情報処理装置２０の各部は、バス２２０により接続される。

プロセッサ２００は、フラッシュＲＯＭ２０４に格納されたプログラム及びデータを読み出し、ＲＡＭ２０２をワークエリアとして用いることにより、情報処理装置２０を統括的に制御する。

プロセッサ２００は、例えばシングルプロセッサ又はマルチプロセッサであり、少なくとも１つのプロセッサを含む。複数のプロセッサを含む構成とした場合、プロセッサ２００は、単一の装置としてパッケージ化されたものであってもよく、情報処理装置２０内で物理的に分離した複数の装置で構成されてもよい。

ＬＣＤ２０６は、ＬＣＤコントローラ２０８により駆動される。プロセッサ２００による制御信号に従ってＬＣＤコントローラ２０８がＬＣＤ２０６を駆動すると、ＬＣＤ２０６に、制御信号に応じた画面が表示される。ＬＣＤ２０６は、タッチパネルであってもよい。この場合、タッチパネルは操作部２１０の一部でもある。

操作部２１０は、メカニカル方式、静電容量無接点方式、メンブレン方式等のスイッチ、ボタン等の操作子を含む。ユーザは、操作部２１０を操作することにより、情報処理装置２０のモードを設定することができる。

設定可能なモードには、例えば、通常モードと歌声発音モードがある。通常モードは、ギターやピアノ等の楽器の音色で楽音を発音するモードである。歌声発音モードは、電子楽器１０にて行われた押鍵操作に応じて歌詞を進行させ、歌詞に対応した合成音声を出力するモードである。

歌声発音モードには、モノモードとポリモードの２つのモードがある。モノモードは、同時に一音しか発音できないモードである。ポリモードは、同時に２音以上を同時に発音できるモードである。本実施形態において、モノモードでは、例えば機械学習により学習結果として設定された音響モデルに基づき、人の声を模した歌声で歌詞が発音される。また、ポリモードでは、ギターやピアノ等の楽器の音色で歌詞が発音される。なお、モノモードにおいて、ギターやピアノ等の楽器の音色で歌詞が発音されるように、情報処理装置２０の設定を変更してもよく、また、ポリモードにおいて、人の声を模した歌声で歌詞が発音されるように、情報処理装置２０の設定を変更してもよい。

ネットワークインタフェース２１２は、電子楽器１０をはじめとする種々の外部装置と通信するためのインタフェースである。プロセッサ２００は、例えば、ネットワークインタフェース２１２を介して接続された電子楽器１０からイベントを受信し、また、電子楽器１０に対して歌声音声出力データ５００を送信することができる。

図４は、音声合成処理を実行する機能ブロック群３００を示す。機能ブロック群３００は、コンピュータの一例であるプロセッサ２００がプログラム（ソフトウェア）を実行することにより実現されてもよく、また、一部又は全部が情報処理装置２０に実装された専用の論理回路等のハードウェア（例えば音声合成処理用のＬＳＩ）により実現されてもよい。

図４に示されるように、情報処理装置２０は、音声合成処理を実行する機能ブロックとして、処理部３１０、音響モデル部３２０及び発声モデル部３３０を備える。

鍵盤１１０の何れかの鍵が操作されると、電子楽器１０は、押鍵操作又は離鍵操作に応じたイベント（押鍵イベント又は離鍵イベント）を生成して情報処理装置２０に送信する。情報処理装置２０は、電子楽器１０より受信したイベントに基づいて、機能ブロック群３００による音声合成処理を行って歌声音声出力データ５００を生成する。生成された歌声音声出力データ５００は、Ｄ／Ａコンバータ２１４によりアナログ信号に変換された後、アンプ２１６により増幅されて、スピーカ２１８に出力される。これにより、押鍵操作に応じた歌声が情報処理装置２０で再生される。

なお、上記の歌声は、電子楽器１０で再生されてもよい。この場合、機能ブロック群３００により生成された歌声音声出力データ５００は、電子楽器１０に送信される。電子楽器１０が情報処理装置２０より受信した歌声音声出力データ５００をスピーカ１２４から出力することにより、押鍵操作に応じた歌声が再生される。

本実施形態では、情報処理装置２０が単体で音声合成処理を実行するが、本発明の構成はこれに限らない。別の実施形態では、電子楽器１０が単体で音声合成処理を実行してもよい。この場合、電子楽器１０が機能ブロック群３００（より詳細には、各機能ブロックを実現するためのプログラムや専用のハードウッド構成等）の全てを備える。

更に別の実施形態では、電子楽器１０と情報処理装置２０とが音声合成処理を分担して実行してもよい。例えば、情報処理装置２０が処理部３１０による処理を実行し、電子楽器１０が音響モデル部３２０及び発声モデル部３３０による処理を実行する。情報処理装置２０が処理部３１０及び音響モデル部３２０による処理を実行し、電子楽器１０が発声モデル部３３０による処理を実行してもよい。電子楽器１０と情報処理装置２０とが、それぞれ何れの処理を分担して実行するかは、適宜設計することができる。このように、音声合成処理を実行するにあたり、電子楽器１０や情報処理装置２０の態様には自由度があり、各種の設計変更が可能である。

音声合成処理では、１つのユーザ操作に応じて指定されたパラメータに基づいて、歌詞の情報の一例である歌詞データ４２０内の音節に含まれる子音の長さを変更する（より詳細には、子音を含む各音節における母音の発音開始タイミングを早める）ことにより、歌詞に含まれる音節毎の発音の立ち上がりの差が小さく抑えられる。すなわち、情報処理装置２０（又は電子楽器１０若しくは楽器システム１）は、子音長変更装置の一例であり、１つのユーザ操作に応じて指定されたパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、処理を実行する、少なくとも１つのプロセッサを備える。

本実施形態において、シングルプロセッサ又はマルチプロセッサであるプロセッサ２００が、「少なくとも１つのプロセッサ」に該当する。電子楽器１０が単体で音声合成処理を実行する場合、シングルプロセッサ又はマルチプロセッサであるプロセッサ１００が、「少なくとも１つのプロセッサ」に該当する。楽器システム１が全体として音声合成処理を実行する場合（言い換えると、楽器システム１を子音長変更装置の一例とした場合）、プロセッサ１００とプロセッサ２００の一方又は両方が、「少なくとも１つのプロセッサ」に該当する。

図４に示されるように、機能ブロック群３００に対し、鍵盤１１０の何れかの鍵に対する操作に応じた音声データ４００が入力される。機能ブロック群３００は、音響モデル部３２０が出力する音響特徴量系列に基づいて、歌い手の歌声を推論した歌声音声出力データ５００を出力する。音響モデルは、テキストである言語特徴量系列と音声である音響特徴量系列との関係を表現する統計モデルである。すなわち、機能ブロック群３００は、音声データ４００に対応する歌声音声出力データ５００を、音響モデル部３２０に設定された音響モデルという統計モデルを用いて予測することにより合成する、統計的音声合成処理を実行する。

機能ブロック群３００は、例えば、伴奏（ソングデータ）の再生時に、対応するソング再生位置に該当するソング波形データを出力してもよい。ここで、ソングデータは、伴奏のデータ（例えば、１つ以上の音についての、音高、音色、発音タイミング等のデータ）、伴奏及びメロディのデータに該当してもよく、例えばバックトラックデータと呼称されてもよい。

音声データ４００は、例えば音高データ４１０と歌詞データ４２０を含む。音声データ４００は、当該歌詞に対応するソングデータを演奏するための情報（ＭＩＤＩ（Musical Instrument Digital Interface）データ等）を含んでもよい。

音高データ４１０は、鍵盤１１０の何れかの鍵に対する操作に応じて生成されたイベントに含まれる。すなわち、音高データ４１０は、操作された鍵に対応付けられた音高を示す。

歌詞データ４２０は、フレーズ単位の情報を含む。歌詞データ４２０は、歌詞情報４２２を含む。歌詞情報４２２は、例えば歌詞のテキストである。歌詞情報４２２は、例えば、フレーズ内の音節のタイプ（開始音節、中間音節、終了音節等）、音価、テンポ、拍子等の情報を含む。歌詞情報４２２に含まれるテキストは、例えば、プレーンテキストであってもよく、また、楽譜記述言語（例えばＭｕｓｉｃＸＭＬ）に準拠したフォーマットのテキストであってもよい。歌詞データ４２０は、音節単位の情報であってもよい。

歌詞データ４２０は、更に、歌詞パラメータ４２４を含む。歌詞パラメータ４２４は、例えばフレーズに含まれる音節毎の発音（歌声合成）に関するパラメータである。

歌詞パラメータ４２４は、音節毎の情報として、例えば、音節開始フレーム、母音開始フレーム、母音終了フレーム、音節終了フレームを含む。これらの情報は、音節に対応する音を発音する際の時間軸上のフレームの位置を示す情報である。フレームは、音素（音素列）の構成単位であってもよいし、その他の時間単位で読み替えられてもよい。歌詞パラメータ４２４は、各フレーム（音節開始フレーム、母音開始フレーム等）の基準となるタイミング（又はオフセット）を示す発音タイミングを含んでもよい。

図５Ａは、歌詞パラメータ４２４に含まれるフレームの情報を説明するための図である。図５Ａでは、「か」「し」「お」という３つの音節を含むフレーズを例に取る。なお、本実施形態では「かしお」というフレーズは姓（氏）を示すものであり、カシオ（登録商標）を示すものではない。図５Ａでは、各音節をなすフレームを一列に並ぶ複数の矩形で示す。これは、各音節が複数のフレームで構成されることを示す。なお、図５Ａはあくまで概略図であり、各音節の実際のフレーム数を示すものではない。また、詳しくは後述するが、図５Ａには、子音長調節ツマミ２１０Ａが値ゼロ（調整値：０％）に設定されていることを示す模式図も付す。子音長調節ツマミ２１０Ａは、例えば情報処理装置２０のタッチパネル画面に表示されるツマミの形態の操作子である。

なお、本実施形態では、発声モデル部３３０が、フレーム毎に、例えば２２５サンプル（ｓａｍｐｌｅｓ）ずつの歌声音声出力データ５００を出力する。各フレームは、５ｍｍｓｅｃの時間幅を有する。そのため、１サンプルは約０．０２６８ｍｍｓｅｃである。従って、歌声音声出力データ５００のサンプリング周波数は、１／０．０２６８ｍｍｓｅｃ≒４４．１ｋＨｚである。

図５Ａに示されるように、音節に対応する音（例えば「か」、「し」、「お」の何れか一つ）は、音節開始フレームＦ１から発音が開始され、音節終了フレームＦ４で発音が終了される。音節のうち母音に対応する音は、母音開始フレームＦ２から発音が開始され、母音終了フレームＦ３で発音が終了される。例えば、音節終了フレームＦ４と、次の音節の音節開始フレームＦ１の時間軸上の位置は、同じである。また、音節に対応する音が子音を含む場合、子音は、通常、音節開始フレームＦ１から発音が開始され、母音開始フレームＦ２の直前で発音が終了される。すなわち、母音開始フレームＦ２は、音節における母音の発音開始タイミングに相当する。

図５Ａでは、便宜上、「か」の音節に対応するフレームＦ１～Ｆ４に対し、下付きの「１」を付し、「し」の音節に対応するフレームＦ１～Ｆ４に対し、下付きの「２」を付し、「お」の音節に対応するフレームＦ１～Ｆ４に対し、下付きの「３」を付す。図５Ａに示されるように、音節開始フレームＦ１_１から母音開始フレームＦ２_１までの間、「か」の子音であるｋが発音され、母音開始フレームＦ２_１から母音終了フレームＦ３_１までの間、「か」の母音であるａが発音される。音節開始フレームＦ１_２から母音開始フレームＦ２_２までの間、「し」の子音であるｓｈが発音され、母音開始フレームＦ２_２から母音終了フレームＦ３_２までの間、「し」の母音であるｉが発音される。母音開始フレームＦ２_３から母音終了フレームＦ３_３までの間、「お」の母音であるｏが発音される。母音開始フレームＦ２_１は、子音が含まれる、或る音節における母音の第１発音開始タイミングに相当する。母音開始フレームＦ２_２は、上記或る音節とは異なる音節における母音の第２発音開始タイミングに相当する。

音節に含まれる子音の長さは、音響特徴量に影響を与える要因であるコンテキスト（例えばモデルとする歌い手の歌声の特徴や歌唱スタイル、前後の歌詞や音高等）に応じて異なる。また、子音の長さは、異なる音（例えば「か」と「し」）の間でも異なり、また、同じ音であっても（例えば同じ「か」であっても）コンテキストの影響で異なる。

本実施形態では、子音長変更装置として動作する情報処理装置２０が、子音を含む音節のフレームを制御することにより、歌詞に含まれる音節毎の発音の立ち上がりの差を小さく抑える。

機能ブロック群３００の概略動作について以下に説明する。

処理部３１０には、音声データ４００（すなわち音高データ４１０及び歌詞データ４２０）が入力される。処理部３１０は、例えばテキスト解析部と呼称されてもよい。

音高データ４１０は、鍵盤１１０の何れかの鍵に対する操作に応じて、電子楽器１０から処理部３１０に入力される。歌詞データ４２０は、例えば、ネットワーク上のサーバや電子楽器１０から取得されて、処理部３１０に入力される。歌詞データ４２０は、情報処理装置２０が予め保持したものであってもよい。

処理部３１０は、入力される音声データ４００を解析する。より詳細には、処理部３１０は、音高データ４１０及び歌詞データ４２０を含む音声データ４００に対応する音素、品詞、単語等を表現する言語特徴量系列４３０を解析して、音響モデル部３２０に出力する。

音響モデル部３２０には、言語特徴量系列４３０と学習結果４４０が入力されている。学習結果４４０は、例えばネットワーク上のサーバより取得される。

音響モデル部３２０は、入力された言語特徴量系列４３０及び学習結果４４０に対応する音響特徴量系列４５０を推定して出力する。この音響特徴量系列４５０は、推定情報である音源パラメータ４５２及びスペクトルパラメータ４５４を含む。すなわち、音響モデル部３２０は、処理部３１０より入力される言語特徴量系列４３０に基づいて、例えば機械学習により学習結果４４０として設定された音響モデルを用いて、生成確率を最大にするような音源パラメータ４５２及びスペクトルパラメータ４５４の推定値を出力する。音響モデルは、機械学習により学習された学習済みモデル（学習結果４４０）であり、機械学習を行った結果算出されたモデルパラメータにより表現される。

音源パラメータ４５２は、人間の声帯をモデル化した情報（パラメータ）である。音源パラメータ４５２として、例えば、人間の音声のピッチ周波数を示す基本周波数（Ｆ０）及びパワー値が採用される。

スペクトルパラメータ４５４は、人間の声道をモデル化した情報（パラメータ）である。スペクトルパラメータ４５４として、例えば、人間の声道特性である複数のフォルマント周波数を効率的にモデル化することができる線スペクトル対（Line Spectral Pairs：ＬＳＰ）又は線スペクトル周波数（Line Spectral Frequencies：ＬＳＦ）が採用される。

発声モデル部３３０は、音源生成部３３２及び合成フィルタ部３３４を備える。音響モデル部３２０より出力される音源パラメータ４５２、スペクトルパラメータ４５４は、それぞれ、音源生成部３３２、合成フィルタ部３３４に入力される。

音源生成部３３２は、人間の声帯をモデル化した機能ブロックである。音源生成部３３２は、音響モデル部３２０より順次入力される音源パラメータ４５２の系列に基づいて、例えば、音源パラメータ４５２に含まれる基本周波数（Ｆ０）及びパワー値で周期的に繰り返されるパルス列（有声音音素の場合）又は音源パラメータ４５２に含まれるパワー値を有するホワイトノイズ（無声音音素の場合）若しくはそれらが混合された信号からなる音源信号４６０を生成して、合成フィルタ部３３４に出力する。

合成フィルタ部３３４は、人間の声道をモデル化した機能ブロックである。合成フィルタ部３３４は、音響モデル部３２０より順次入力されるスペクトルパラメータ４５４の系列に基づいて、声道をモデル化するデジタルフィルタを形成する。このデジタルフィルタは、音源生成部３３２より入力される音源信号４６０を励振源信号として励振される。これにより、合成フィルタ部３３４から歌声音声出力データ５００が出力される。

音源パラメータ４５２及びスペクトルパラメータ４５４は、複数の子音の長さ（本実施形態では、フレーズに含まれる各音節に含まれる子音の長さ）をそれぞれ変更する処理（後述する押鍵処理であり、図８及び図１２参照）が施されたパラメータである。すなわち、発声モデル部３３０は、複数の子音の長さがそれぞれ変更されたパラメータに基づいて、歌声音声出力データ５００を出力する。

電子楽器１０が発声モデル部３３０を備える（より詳細な例示として、電子楽器１０が機能ブロック群３００の全てを備える）場合を考える。この場合、電子楽器１０は、「複数の子音の長さがそれぞれ変更されたパラメータに基づいて、歌声音声出力データ５００を出力する発声モデル部３３０を備える」構成といえる。

情報処理装置２０が処理部３１０及び音響モデル部３２０を備え、電子楽器１０が発声モデル部３３０を備える場合を考える。この場合、楽器システム１は、「複数の子音の長さがそれぞれ変更されたパラメータを出力する情報処理装置２０（子音長変更装置の一例）と、情報処理装置２０により出力された上記パラメータを取得する取得部と、取得されたパラメータに基づいて、歌声音声出力データ５００を出力する発声モデル部３３０と、を含む電子楽器１０と、を備える」構成といえる。プロセッサ１００は、例えばネットワークインタフェース１１６と協働することにより、上記取得部として動作する。

歌声音声出力データ５００は、Ｄ／Ａコンバータ１２０によりアナログ信号に変換された後、アンプ１２２により増幅されて、スピーカ１２４に出力される。これにより、鍵盤操作に応じた歌声が再生される。

図６は、プロセッサ２００が、機能ブロック群３００を含む情報処理装置２０の各部と協働して実行する処理のフローチャートである。例えば、情報処理装置２０のシステムが起動されると、図６に示される処理の実行が開始され、情報処理装置２０のシステムが終了されると、図６に示される処理の実行が終了される。

図６に示されるように、プロセッサ２００は、歌声発音モードに設定されているか否かを判定する（ステップＳ１０１）。歌声発音モードに設定されている場合（ステップＳ１０１：ＹＥＳ）、プロセッサ２００は、歌声発音モードを実行する（ステップＳ１０２）。歌声発音モードに設定されていない場合（ステップＳ１０１：ＮＯ）、プロセッサ１００は、通常モードを実行する（ステップＳ１０３）。電子楽器１０のシステムが終了されるまで（すなわちステップＳ１０４でＹＥＳ判定となるまで）、図６に示される処理の実行は継続する。

ステップＳ１０２において歌声発音モードを実行することにより、歌詞（ここではフレーズ）に含まれる各音節の発音の立ち上がりの差が小さく抑えられる。そのため、ユーザは、例えば、一定のリズムを維持して歌詞を進行させながら鍵盤演奏しやすくなる。

附言するに、歌声発音モードにおいて、ユーザによる操作子（例えば子音長調節ツマミ２１０Ａ）に対する回転操作で、フレーズ内の音節に含まれる複数の子音の長さを変更することにより、フレーズに含まれる各音節の発音の立ち上がりの差が小さく抑えられる。従って、情報処理装置２０のモードを歌声発音モードに設定する操作は、子音の長さを変更するためのユーザ操作の一例である。プロセッサ２００は、所定の制御信号（歌声発音モードへの設定操作に応じて生成された制御信号）に従い、歌声発音モードへ遷移しこれを実行することにより、子音の長さを変更する。

図７は、図６のステップＳ１０２の歌声発音モード時の処理の詳細を示すサブルーチンである。

プロセッサ２００は、鍵盤１１０の何れかの鍵に対する押鍵操作を検出する（ステップＳ２０１）。例えば、電子楽器１０から押鍵イベントを受信すると、プロセッサ２００は、押鍵イベントと同じ音高データを含む離鍵イベントを受信するまでの間、押鍵操作が行われていることを検出する。

押鍵操作が検出される場合（ステップＳ２０１：ＹＥＳ）、プロセッサ２００は、押鍵処理（ステップＳ２０２）、発音処理（ステップＳ２０３）を順に実行する。これにより、情報処理装置２０において、音節毎の発音の立ち上がりの差が小さく抑えられた歌声が発音される。

押鍵操作が検出されない場合（ステップＳ２０１：ＮＯ）、プロセッサ２００は、押鍵中の鍵に対する離鍵操作を検出する（ステップＳ２０４）。例えば、電子楽器１０から離鍵イベントを受信すると、プロセッサ２００は、離鍵操作を検出する。離鍵操作が検出された場合（ステップＳ２０４：ＹＥＳ）、プロセッサ２００は、離鍵された鍵に対応する歌声の発音を終了するための消音処理を実行する（ステップＳ２０５）。

なお、本実施形態に係る歌声発音モードでは、鍵盤１１０の何れかの鍵（第１鍵）に対する押鍵があると、押鍵された鍵に対応する音高でフレーズの再生が開始され、第１鍵が押鍵されている限り（言い換えると、第１鍵が離鍵されるまで）、フレーズ内の音節が順次再生される。附言するに、第１鍵が押鍵されている限り、フレーズが繰り返し再生される。図５Ａの例では、第１鍵が押鍵されている限り、「か」、「し」、「お」の３つの音節が順次かつ繰り返し再生される。

このように、本実施形態では、第１鍵が押鍵されている限り、フレーズが繰り返し再生されるが、本発明の構成はこれに限らない。例えば、第１鍵が押鍵されると、一回限り、フレーズ内の音節が順次再生されてもよい。この場合、例えば、第１鍵が押鍵されている限り、フレーズ内の最後の音節（より詳細には最後の音節の母音）が持続的に再生されてもよい。また、第１鍵に対する押鍵が継続している場合でも、例えば押鍵時のベロシティに応じた期間経過後にフレーズが消音されてもよい。

また、第１鍵が押鍵されると、フレーズ内の最初の音節が再生され、第１鍵に続く第２鍵が押鍵されると、フレーズ内の次の音節が再生されてもよい。図５Ａの例を用いて説明する。この場合、第１鍵が押鍵されると「か」が再生され、第２鍵が押鍵されると「し」が再生され、第２鍵に続く第３鍵が押鍵されると「お」が再生される。すなわち、１回の押鍵で、フレーズ単位でなく音節単位で再生されてもよい。なお、各音節は、押鍵されてから再生が開始され、離鍵されると再生が停止されてもよく（すなわち押鍵中は持続的に再生されてもよく）、また、押鍵時のベロシティに応じた期間経過後に消音されてもよい。歌声発音モードの実行により、音節毎の発音の立ち上がりの差が小さく抑えられるため、ユーザは、例えば、一定のリズムを維持してフレーズに含まれる音節を１つ１つ進行させながら鍵盤演奏しやすくなる。

図８は、図７のステップＳ２０２の押鍵処理の詳細を示すサブルーチンである。図８に示される押鍵処理は、例えば、プロセッサ２００の制御により実現される処理部３１０により実行される。

プロセッサ２００は、再生対象のフレーズを選択する（ステップＳ３０１）。再生対象のフレーズは、例えばユーザによる操作により予め指定される。

プロセッサ２００は、フレーズの再生を準備する（ステップＳ３０２）。例えば、プロセッサ２００は、ステップＳ３０１において選択されたフレーズに対応する歌詞データ４２０を含む音声データ４００を読み込む。

本実施形態では、各音節内で時間軸上に並ぶ各フレームに対して順に値が割り当てられている。例えば、音節内の最初のフレームに値１が割り当てられており、これに続く２番目のフレームに値２が割り当てられている。プロセッサ２００は、音節内における時間軸上の現在の発音位置を示す現在フレーム位置ＣＦＰを値１に設定する（ステップＳ３０３）。図５Ａを例に取ると、ここで設定される値１は、「か」の音節の最初のフレームを示す。

なお、再生対象のフレーズに対して図７のステップＳ２０２の押鍵処理を初めて実行する際、ステップＳ３０１～Ｓ３０３の処理が実行される。それ以外（例えばステップＳ２０２の押鍵処理の２回目以降の実行時）では、ステップＳ３０１～Ｓ３０３の処理はスキップされる。

プロセッサ２００は、発音対象の音節がフレーズ内の次の音節に進行するか否かを判定する（ステップＳ３０４）。プロセッサ２００は、例えば、現在フレーム位置ＣＦＰが母音終了フレームＦ３（言い換えると、母音終了フレームＦ３に割り当てられた値）に到達すると、次の音節に進行すると判定する。再生対象のフレーズに対してステップＳ３０４の処理を初めて実行する際（すなわち、第１鍵に対する押鍵後に初めてフレーズ内の最初の音節を再生する際）にも、次の音節に進行すると判定する。なお、発音対象の音節がフレーズ内の最後の音節である場合、フレーズ内の最初の音節がフレーズ内の次の音節に該当する。

次の音節に進行しない場合（ステップＳ３０４：ＮＯ）、プロセッサ２００は、現在フレーム位置ＣＦＰよりも時間軸上で後のフレーム位置となる次フレーム位置ＮＦＰを計算する（ステップＳ３０５）。次フレーム位置ＮＦＰは、例えば次式により計算される。

次フレーム位置ＮＦＰ＝現在フレーム位置ＣＦＰ＋再生レート／２２５

上記式の再生レートは、フレーズの再生速度を示す。ユーザは、例えば操作部２１０を操作することにより、再生レートを指定することができる。例えば、現在フレーム位置ＣＦＰが値１０であり、再生レートが値４５０で示される速度であれば、次フレーム位置ＮＦＰとして値１２が計算される。すなわち、現在フレーム位置ＣＦＰよりも２つ後のフレーム位置が次フレーム位置ＮＦＰとして計算される。再生レートは、再生速度と呼称されてもよい。

プロセッサ２００は、ステップＳ３０５において計算された次フレーム位置ＮＦＰが、現在の音節の母音終了フレームＦ３より後のフレーム位置であるか否かを判定する（ステップＳ３０６）。母音終了フレームＦ３より後のフレーム位置でない場合（ステップＳ３０６：ＮＯ）、プロセッサ２００は、次フレーム位置ＮＦＰを現在フレーム位置ＣＦＰとして設定する（ステップＳ３０７）。母音終了フレームＦ３より後のフレーム位置である場合（ステップＳ３０６：ＹＥＳ）、プロセッサ２００は、母音終了フレームＦ３を現在フレーム位置ＣＦＰとして設定する（ステップＳ３０８）。

プロセッサ２００は、ステップＳ３０７及びＳ３０８の実行後、図７のステップＳ２０３の発音処理を実行する。第１鍵が押鍵されている限り、図６のステップＳ１０１、Ｓ１０２及びＳ１０４の処理が繰り返し実行される。より詳細には、図８に示される押鍵処理では、次の音節に進行しない間、ステップＳ３０４～Ｓ３０７が繰り返し実行される。すなわち、現在の音節内のフレーム位置が進行する。現在の音節内のフレーム位置が進行した結果、ステップＳ３０８において母音終了フレームＦ３が現在フレーム位置ＣＦＰとして設定される。その後に実行されるステップＳ３０４において、プロセッサ２００は、音節が進行すると判定する。

次の音節に進行する場合（ステップＳ３０４：ＹＥＳ）、プロセッサ２００は、発音対象であった現在の音節がフレーズ内の最後の音節であったか否かを判定する（ステップＳ３０９）。フレーズ内の最後の音節であれば（ステップＳ３０９：ＹＥＳ）、プロセッサ２００は、フレーズ内の最初の音節に対して子音オフセット処理を実行する（ステップＳ３１０）。フレーズ内の最後の音節でなければ（ステップＳ３０９：ＮＯ）、プロセッサ２００は、フレーズ内の次の音節に対して子音オフセット処理を実行する（ステップＳ３１１）。なお、再生対象のフレーズに対してステップＳ３０９の処理を初めて実行する際（すなわち、第１鍵に対する押鍵後に初めてフレーズ内の最初の音節を再生する際）にも、ステップＳ３０９においてＹＥＳ判定となる。

図９及び図１０を用いてステップＳ３１０及びＳ３１１の子音オフセット処理を２例説明する。図９は、実施例１に係る子音オフセット処理の詳細を示すサブルーチンである。図１０は、実施例２に係る子音オフセット処理の詳細を示すサブルーチンである。以下においては、ステップＳ３１０の子音オフセット処理を説明する。この説明において「最初の音節」を「次の音節」に読み替えることにより、ステップＳ３１１の子音オフセット処理を説明することができる。重複説明を避けるため、ステップＳ３１１の子音オフセット処理の説明は省略する。

図９に示されるように、実施例１では、プロセッサ２００は、フレーズ内の最初の音節の音節開始フレームＦ１と母音開始フレームＦ２を取得する（ステップＳ４０１）。

プロセッサ２００は、ステップＳ４０１にて取得された音節開始フレームＦ１と母音開始フレームＦ２を用いて、最初の音節に含まれる子音の長さを変更するための値を取得する（ステップＳ４０２）。例示的には、プロセッサ２００は、次式を用いて子音の長さを変更するためのオフセット値ＯＦを計算する。

オフセット値ＯＦ＝（母音開始フレームＦ２－音節開始フレームＦ１）×調整値／１００％

上記式の調整値は、パラメータの一例（より詳細には、比率を含むパラメータの一例）であり、例えば０～１００（単位：％）の値（言い換えると比率）を取る。操作部２１０（例えば子音長調節ツマミ２１０Ａ）は、子音の長さを変更するための操作子の一例であり、ユーザ操作に応じて調整値（０％～１００％までの比率）を指定する。高い調整値に指定されるほどオフセット値ＯＦが大きくなる。言い換えると、値の大きい調整値に指定されるほど音節内の子音の長さが短くなる。

すなわち、プロセッサ２００は、１つのユーザ操作（例えば子音長調節ツマミ２１０Ａに対する一度のユーザ操作）に応じて指定されたパラメータ（上記の調整値）に基づいて、複数の子音の長さをそれぞれ変更する処理を実行する。附言するに、プロセッサ２００は、子音の長さを変更するための操作子（子音長調節ツマミ２１０Ａ）へのユーザ操作に応じて指定された比率（例えば０％～１００％までの比率）に基づいて、複数の子音の長さをそれぞれ元の長さよりも短い長さに変更する処理を実行する。フレーズ内の複数の子音の長さをユーザの好みに合わせて一度のユーザ操作で一律に変更することにより、ユーザにとってより好ましいフレーズの発音処理を実行することができる。

音節が子音を含まない場合（例えば「あ」行の音節の場合）、音節開始フレームＦ１と母音開始フレームＦ２とが同じであり、（母音開始フレームＦ２－音節開始フレームＦ１）の値がゼロになる。そのため、子音を含まない音節については、オフセット値ＯＦを適用しても、発音される音は何も変わらない。すなわち、プロセッサ２００は、１つのユーザ操作に応じて指定されたパラメータに拘わらず、子音が含まれない音節における母音の発音開始タイミングを変更しない。

図１０に示されるように、実施例２では、プロセッサ２００は、フレーズ内の最初の音節の音節開始フレームＦ１と母音開始フレームＦ２を取得する（ステップＳ５０１）。

プロセッサ２００は、再生レートが基準レート以上であるか否かを判定する（ステップＳ５０２）。

再生レートが基準レート以上の場合（ステップＳ５０２：ＹＥＳ）、プロセッサ２００は、ステップＳ５０１にて取得された音節開始フレームＦ１と母音開始フレームＦ２を用いて、最初の音節に含まれる子音の長さを変更するための値を取得する（ステップＳ５０３）。例示的には、プロセッサ２００は、次式を用いて子音の長さを変更するためのオフセット値ＯＦを計算する。

オフセット値ＯＦ＝（母音開始フレームＦ２－音節開始フレームＦ１）×１０×（再生レート－基準レート）／（２５５－基準レート）

上記式の基準レートは、歌声を標準速度（例えば１．０倍の速度）で再生するレートであり、既定の値を取る。基準レートに対して再生レートが速いほどオフセット値ＯＦが大きくなる。言い換えると、速い再生レートに指定されるほど音節内の子音の長さが短くなる。

再生レートが基準レート未満の場合（ステップＳ５０２：ＮＯ）、プロセッサ２００は、オフセット値ＯＦをゼロに設定する（ステップＳ５０４）。この場合、オフセット値ＯＦが適用される音節は、子音の長さが元の長さと変わらない。

図８の説明に戻る。プロセッサ２００は、最初の音節の音節開始フレームＦ１からステップＳ３１０にて計算されたオフセット値ＯＦに応じてオフセットしたフレーム位置を次フレーム位置ＮＦＰとして設定し（ステップＳ３１２）、この次フレーム位置ＮＦＰを現在フレーム位置ＣＦＰとして設定して（ステップＳ３０７）、図８の押鍵処理を終了する。

ステップＳ３１３においてもステップＳ３１２と同様に、プロセッサ２００は、次の音節の音節開始フレームＦ１からステップＳ３１１にて計算されたオフセット値ＯＦに応じてオフセットしたフレーム位置を次フレーム位置ＮＦＰとして設定し、ステップＳ３０７において、この次フレーム位置ＮＦＰを現在フレーム位置ＣＦＰとして設定して、図８の押鍵処理を終了する。

図５Ｂは、本発明の一実施形態において奏される効果を説明するための図である。図５Ｂでは、図８の押鍵処理を実行することにより奏される効果として、図５Ａの例と比べて、「か」と「し」のフレーズに含まれる音節の子音の長さの差が短くなっていることを示す。また、図５Ｂには、子音長調節ツマミ２１０Ａが値５０（調整値：５０％）に設定されていることを示す模式図も付す。なお、図５Ａ及び図５Ｂにおいては、上記効果を視覚的に示す都合上、「か」の音節開始フレームＦ１から母音開始フレームＦ２までのフレームにハッチングを付すとともに、「し」の音節開始フレームＦ１から母音開始フレームＦ２までのフレームにハッチングを付す。

図５Ａの例において、「か」の音節開始フレームＦ１が「か」の音節内の最初のフレームであり、「か」の母音開始フレームＦ２が「か」の音節内の１１番目のフレームであり、また、「し」の音節開始フレームＦ１が「し」の音節内の最初のフレームであり、「し」の母音開始フレームＦ２が「し」の音節内の２１番目のフレームである。そのため、「か」の音節の子音と「し」の音節の子音との長さの差は、１０フレーム分（例えば５０ｍｍｓｅｃ）ある。ここで、ユーザが子音長調節ツマミ２１０Ａを図５Ａに示される値ゼロ（調整値：０％）から図５Ｂに示される値５０（調整値：５０％）まで回転操作することにより、調整値を５０％に設定した場合を考える。

この場合、例えば、図９のステップＳ４０２において計算される音節「か」に対するオフセット値ＯＦは、（１１－１）×５０％／１００％、すなわち値５である。音節「し」に対するオフセット値ＯＦは、（２１－１）×５０％／１００％、すなわち値１０である。

そのため、ステップＳ３１２及びＳ３０７の実行により、「か」の音節については、母音開始フレームＦ２（１１番目のフレーム）から５フレーム前へオフセットした位置、すなわち、音節内の６番目のフレームが現在フレーム位置ＣＦＰとして設定される。これにより、「か」の音節に含まれる子音が再生される期間が、値１１から値１を減算した１０フレーム分の期間から、値１１から値６を減算した５フレーム分の期間に縮められる。また、ステップＳ３１３及びＳ３０７の実行により、「し」の音節については、母音開始フレームＦ２（２１番目のフレーム）から１０フレーム前へオフセットした位置、すなわち、音節内の１１番目のフレームが現在フレーム位置ＣＦＰとして設定される。これにより、「し」の音節に含まれる子音が再生される期間が、値２１から値１を減算した２０フレーム分の期間から、値２１から値１１を減算した１０フレーム分の期間に縮められる。

すなわち、図５Ｂに示されるように、「か」と「し」の音節に含まれる子音の長さの差が、１０フレーム分の長さ（例えば５０ｍｍｓｅｃ）から５フレーム分の長さ（例えば２５ｍｍｓｅｃ）に縮められる。すなわち、プロセッサ２００は、１つのユーザ操作（例えば子音長調節ツマミ２１０Ａを値ゼロから値５０まで回転させるユーザ操作）に応じて指定されたパラメータ（例えば調整値：５０％）に基づいて、複数の子音の長さの差が小さくなる処理を実行する。これにより、「か」と「し」の発音の立ち上がりの差が小さく抑えられることとなる。

図１１は、図７のステップＳ２０３の発音処理の詳細を示すサブルーチンである。図１１に示される発音処理は、例えば、プロセッサ２００の制御により実現される発声モデル部３３０により実行される。

モノモードに設定されている場合（ステップＳ６０１：ＹＥＳ）、プロセッサ２００は、図８のステップＳ３０７で設定された現在フレーム位置ＣＦＰに基づいて、基本周波数（Ｆ０）を含む音源パラメータ４５２及びスペクトルパラメータ４５４並びに歌詞パラメータ４２４を取得し、音源信号４６０の生成及び励振を行って、歌声音声出力データ５００を出力する（ステップＳ６０２）。ポリモードに設定されている場合（ステップＳ６０１：ＮＯ）、プロセッサ２００は、図８のステップＳ３０７で設定された現在フレーム位置ＣＦＰに基づいて、スペクトルパラメータ４５４及び歌詞パラメータ４２４並びに押鍵された鍵に対応付けられた音高データと音色とに応じた波形データを取得し、波形データを基にして音源信号を生成し励振して、歌声音声出力データ５００を出力する（ステップＳ６０３）。

このようにして出力される歌声音声出力データ５００に基づき歌声が再生される。オフセット値ＯＦに応じたオフセット処理を行うことにより、音節毎の子音の長さの差が縮められ、この結果、各音節の発音の立ち上がりの差が小さく抑えられる。そのため、ユーザは、例えば、一定のリズムを維持して歌詞を進行させながら鍵盤演奏しやすくなる。歌声発音モード時、ユーザは、例えば通常モードで鍵盤演奏を行う場合と同じ感覚で歌声の演奏を行うことができる。

その他、本発明は上述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、上述した実施形態で実行される機能は可能な限り適宜組み合わせて実施しても良い。上述した実施形態には種々の段階が含まれており、開示される複数の構成要件による適宜の組み合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、効果が得られるのであれば、この構成要件が削除された構成が発明として抽出され得る。

上記の実施形態において、歌詞の情報の一例である歌詞データ４２０は、第１の音節（例えば「か」の音節）と、第１の音節よりも時間軸上で後に発音される第２の音節（例えば「し」の音節）を含む。プロセッサ２００は、所定の制御信号に従い（歌声発音モードへの設定操作に応じて生成された制御信号に従い）、歌声発音モードを実行し、「か」の音節に含まれる第１の子音の長さと、「し」の音節に含まれる第２の子音の長さとの差が小さくなるように、第１の子音の長さと第２の子音の長さの両方を変更している。附言するに、上記の実施形態では、第１の子音の長さと第２の子音の長さの両方を、元の長さよりも短い長さに変更している。

これに対し、別の実施形態では、第１の子音の長さと第２の子音の長さとの差が小さくなるように、両者のうちの一方だけの長さを変更してもよい。例えば「し」の音節の子音が「か」の音節の子音よりも１０フレーム分（例えば５０ｍｍｓｅｃ）長い場合を考える。この場合、プロセッサ２００は、「し」の音節に対してだけ、オフセット値ＯＦに応じたオフセット処理を実行する。一例として、「し」の音節だけ１０フレーム分オフセットすることにより、「か」の音節と「し」の音節の子音の長さが同じになる。この場合、各音節の発音の立ち上がりの差がより一層小さく抑えられるとともに、「か」の音節については、子音の長さが変更されていない本来の状態で、子音を発音させることができる。

このように、第１の子音の長さと第２の子音の長さの少なくとも一方を、元の長さよりも短い長さに変更する構成も本発明の範疇である。

上記の実施形態では、第１の音節（例えば「か」の音節）に含まれる第１の子音の長さと、第２の音節（例えば「し」の音節）に含まれる第２の子音の長さの両方を、同じ比率（例示的には、５０％の調整値）で、元の長さよりも短い長さに変更しているが、本発明の構成はこれに限らない。

第１の子音の長さと第２の子音の長さの両方を、異なる比率で、元の長さよりも短い長さに変更してもよい。例えば、上記の実施形態において、「か」の音節に対する調整値を１０％とし、「し」の音節に対する調整値を５０％とする場合を考える。この場合、「か」の音節に含まれる子音が再生される期間は、１０フレーム分の期間から９フレーム分の期間に縮められる。「し」の音節に含まれる子音が再生される期間は、２０フレーム分の期間から１０フレーム分の期間に縮められる。

すなわち、「か」と「し」の音節に含まれる子音の長さの差が、１０フレーム分の長さ（例えば５０ｍｍｓｅｃ）から１フレーム分の長さ（例えば５ｍｍｓｅｃ）に縮められる。これにより、「か」と「し」の発音の立ち上がりの差がより一層小さく抑えられることとなる。

特定の音節（例えば、さ行、や行の音節）は、コンテキストの影響にもよるが、原則、他の音節と比べて子音が長い。そこで、プロセッサ２００は、歌詞データ４２０内の特定の音節に含まれる子音の長さを、元の長さよりも短い長さに変更してもよい。図５Ａの例において、プロセッサ２００は、「し」の音節に含まれる子音の長さだけ、元の長さよりも短い長さに変更してもよい。この場合も、「か」の音節と「し」の音節との子音の長さの差が短くなるため、各音節の発音の立ち上がりの差が小さく抑えられる。

例えば「か」の音節の子音が「し」の音節の子音よりも１０フレーム分（例えば５０ｍｍｓｅｃ）短い場合を考える。この場合、プロセッサ２００は、「か」の音節だけ、子音の長さを１０フレーム分長くする。これにより、「か」の音節と「し」の音節の子音の長さが同じになる。そのため、各音節の発音の立ち上がりの差が小さく抑えられる。「し」の音節については、子音の長さが変更されていない本来の状態で、子音を発音させることができる。

次に、図７のステップＳ２０２の押鍵処理の変形例について説明する。図１２は、本発明の変形例に係る押鍵処理の詳細を示すサブルーチンである。図１２に示される押鍵処理において、図８に示される押鍵処理と同じ処理については、同じ番号のステップとして記し、その説明を適宜省略する。

図１２に示されるように、プロセッサ２００は、ステップＳ３０１～Ｓ３０５の処理の実行後、ステップＳ３０５において計算された次フレーム位置ＮＦＰが、現在の音節の母音開始フレームＦ２以降のフレーム位置であるか否かを判定する（ステップＳ７０１）。母音開始フレームＦ２よりも前のフレーム位置である場合（ステップＳ７０１：ＮＯ）、プロセッサ２００は、次フレーム位置ＮＦＰを現在フレーム位置ＣＦＰとして設定する（ステップＳ３０７）。

ステップＳ３０５において計算された次フレーム位置ＮＦＰが、現在の音節の母音開始フレームＦ２以降のフレーム位置である場合（ステップＳ７０１：ＹＥＳ）、プロセッサ２００は、再生レートを基準レートに設定する（ステップＳ７０２）。次いで、プロセッサ２００は、次フレーム位置ＮＦＰが母音終了フレームＦ３より後のフレーム位置であるか否かを判定する（ステップＳ３０６）。プロセッサ２００は、母音終了フレームＦ３より後のフレーム位置でなければ（ステップＳ３０６：ＮＯ）、次フレーム位置ＮＦＰを現在フレーム位置ＣＦＰとして設定し（ステップＳ３０７）、母音終了フレームＦ３より後のフレーム位置であれば（ステップＳ３０６：ＹＥＳ）、母音終了フレームＦ３を現在フレーム位置ＣＦＰとして設定する（ステップＳ３０８）。

すなわち、変形例では、母音開始フレームＦ２から母音終了フレームＦ３までの間、音節（より詳細には、音節に含まれる母音）は、基準レートで再生される。なお、変形例において、基準レートは、基準の再生速度と呼称してもよい。

次の音節に進行する場合（ステップＳ３０４：ＹＥＳ）、プロセッサ２００は、発音対象であった現在の音節がフレーズ内の最後の音節であれば（ステップＳ３０９：ＹＥＳ）、フレーズ内の最初の音節に対して再生レート取得処理を実行し（ステップＳ７０３）。フレーズ内の最後の音節でなければ（ステップＳ３０９：ＮＯ）、フレーズ内の次の音節に対して再生レート取得処理を実行する（ステップＳ７０４）。

図１３は、図１２のステップＳ７０３及びＳ７０４の再生レート取得処理の詳細を示すサブルーチンである。以下においては、ステップＳ７０３の再生レート取得処理を説明する。この説明において「最初の音節」を「次の音節」に読み替えることにより、ステップＳ７０４の再生レート取得処理を説明することができる。重複説明を避けるため、ステップＳ７０４の再生レート取得処理の説明は省略する。

図１３に示されるように、プロセッサ２００は、フレーズ内の最初の音節の音節開始フレームＦ１と母音開始フレームＦ２を取得する（ステップＳ８０１）。

プロセッサ２００は、ステップＳ８０１にて取得された音節開始フレームＦ１と母音開始フレームＦ２を用いて、最初の音節に含まれる子音の長さを変更するための値を取得する（ステップＳ８０２）。例示的には、プロセッサ２００は、次式を用いて子音の長さを変更するための再生レートを計算する。

再生レート＝基準レート＋［（２２５－基準レート）×（母音開始フレームＦ２－音節開始フレームＦ１）／先頭子音長ＭＡＸ］

先頭子音長は、例えば、歌詞パラメータ４２４に含まれる情報であり、各音節の子音の長さを示す。上記式の先頭子音長ＭＡＸは、フレーズに含まれる全ての音節のなかで最も長い子音の長さを示す。図５Ａの例では、「し」の音節に含まれる子音の長さが先頭子音長ＭＡＸに該当する。

図１２の説明に戻る。プロセッサ２００は、フレーズ内の最初の音節に対する再生レート取得処理の実行後（ステップＳ７０３）、最初の音節の音節開始フレームＦ１を次フレーム位置ＮＦＰとして設定し（ステップＳ７０５）、この次フレーム位置ＮＦＰを現在フレーム位置ＣＦＰとして設定して（ステップＳ３０７）、図１２の押鍵処理を終了する。

また、プロセッサ２００は、フレーズ内の次の音節に対する再生レート取得処理の実行後（ステップＳ７０４）、次の音節の音節開始フレームＦ１を次フレーム位置ＮＦＰとして設定し（ステップＳ７０６）、この次フレーム位置ＮＦＰを現在フレーム位置ＣＦＰとして設定して（ステップＳ３０７）、図１２の押鍵処理を終了する。

押鍵中、図１２の押鍵処理が繰り返し実行されることにより、変形例では、音節開始フレームＦ１から母音開始フレームＦ２に達するまでの間、音節に含まれる子音が、ステップＳ７０３及びＳ７０４の再生レート取得処理で計算された、基準レートよりも速い再生レートで再生され、子音に続く母音が、再生レートより遅い基準レートで再生される。

例えば、変形例では、プロセッサ２００は、「か」と「し」の音節に含まれる子音の再生速度を標準速度（基準レート）よりも速くすることにより、「か」の音節に含まれる子音と「し」の音節に含まれる子音を、元の長さ（時間）よりも短い時間で再生する。変形例においても、各音節の子音の長さの差が短くなるため、各音節の発音の立ち上がりの差が小さく抑えられる。

変形例において、操作部２１０に対するユーザ操作（例えば子音長調節ツマミ２１０Ａに対する一度のユーザ操作）により指定される再生レートは、再生速度を指定するパラメータの一例である。すなわち、変形例において、プロセッサ２００は、再生速度を指定するパラメータに基づいて、第１の子音に対応するデータ（例えば「か」の音節に含まれる子音を示す音声データ）の再生速度と第２の子音に対応するデータ（例えば「し」の音節に含まれる子音を示す音声データ）の再生速度を、基準の再生速度（基準レート）よりも速くする処理を実行する。

このように、プロセッサ２００が、所定の制御信号に従い、第１の子音の再生速度と第２の子音の再生速度の少なくとも一方を基準の再生速度よりも速くすることにより、第１の子音の長さと第２の子音の長さの少なくとも一方を、元の長さよりも短い長さに変更する構成も、本発明の範疇である。

これまでの説明では、子音の長さを元の長さよりも短くすることにより、各音節の子音の長さの差を短くしているが、本発明の構成はこれに限らない。子音の長さを元の長さよりも長くすることにより、各音節の子音の長さの差を短くする構成も本発明の範疇である。

以下、本願の出願当初の特許請求の範囲に記載された発明を付記する。
［付記１］
１つのユーザ操作に応じて指定されたパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、前記或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、少なくとも１つのプロセッサを備える、
子音長変更装置。
［付記２］
前記パラメータは、比率を含み、
前記少なくとも１つのプロセッサは、
子音の長さを変更するための操作子への前記ユーザ操作に応じて指定された比率に基づいて、複数の子音の長さをそれぞれ元の長さよりも短い長さに変更する、
付記１に記載の子音長変更装置。
［付記３］
前記パラメータは、再生速度を指定するパラメータであり、
前記少なくとも１つのプロセッサは、前記再生速度を指定するパラメータに基づいて、第１の子音に対応するデータの再生速度と第２の子音に対応するデータの再生速度を、基準の再生速度よりも速くする、
付記１に記載の子音長変更装置。
［付記４］
前記少なくとも１つのプロセッサは、前記複数の子音の長さの差が小さくなる処理を実行する、
付記２又は付記３に記載の子音長変更装置。
［付記５］
複数の子音の長さがそれぞれ変更されたパラメータに基づいて、歌声音声出力データを出力する発声モデル部を備える、
電子楽器。
［付記６］
複数の子音の長さがそれぞれ変更されたパラメータを出力する子音長変更装置と、
前記子音長変更装置により出力された前記パラメータを取得する取得部と、取得された前記パラメータに基づいて、歌声音声出力データを出力する発声モデル部と、を含む電子楽器と、を備える、
楽器システム。
［付記７］
子音長変更装置の少なくとも１つのプロセッサが、
１つのユーザ操作に応じて指定されたパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、前記或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、
方法。
［付記８］
子音長変更装置の少なくとも１つのプロセッサが、
１つのユーザ操作に応じて指定されたパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、前記或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、
処理を実行する、
プログラム。

１：楽器システム
１０：電子楽器
２０：情報処理装置
１００：プロセッサ
１０２：ＲＡＭ
１０４：フラッシュＲＯＭ
１０６：ＬＣＤ
１０８：ＬＣＤコントローラ
１１０：鍵盤
１１２：スイッチパネル
１１４：キースキャナ
１１６：ネットワークインタフェース
１１８：音源ＬＳＩ
１２０：Ｄ／Ａコンバータ
１２２：アンプ
１２４：スピーカ
１２６：バス
１５０：譜面台
２００：プロセッサ
２０２：ＲＡＭ
２０４：フラッシュＲＯＭ
２０６：ＬＣＤ
２０８：ＬＣＤコントローラ
２１０：操作部
２１２：ネットワークインタフェース
２１４：Ｄ／Ａコンバータ
２１６：アンプ
２１８：スピーカ
３００：機能ブロック群
３１０：処理部
３２０：音響モデル部
３３０：発声モデル部
３３２：音源生成部
３３４：合成フィルタ部

Claims

１つのユーザ操作に応じて指定された比率又は再生速度のパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、前記或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、少なくとも１つのプロセッサを備える、
子音長変更装置。
前記パラメータは、比率を含み、
前記少なくとも１つのプロセッサは、
子音の長さを変更するための操作子への前記ユーザ操作に応じて指定された前記比率に基づいて、複数の子音の長さをそれぞれ元の長さよりも短い長さに変更する、
請求項１に記載の子音長変更装置。
前記パラメータは、前記再生速度を指定するパラメータであり、
前記少なくとも１つのプロセッサは、前記再生速度を指定するパラメータに基づいて、
第１の子音に対応するデータの再生速度と第２の子音に対応するデータの再生速度を、基準の再生速度よりも速くする、
請求項１に記載の子音長変更装置。
前記少なくとも１つのプロセッサは、前記複数の子音の長さの差が小さくなる処理を実行する、
請求項２又は請求項３に記載の子音長変更装置。
演奏操作子と、
１つのユーザ操作に応じて指定された比率又は再生速度のパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、前記或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、少なくとも１つのプロセッサを備える、
電子楽器。
複数の子音の長さがそれぞれ変更される比率又は再生速度のパラメータを出力する子音長変更装置と、
前記子音長変更装置により出力された前記パラメータを取得する取得部と、取得された前記パラメータに基づいて、歌声音声出力データを出力する制御部と、を含む電子楽器と、を備える、
楽器システム。
子音長変更装置の少なくとも１つのプロセッサが、
１つのユーザ操作に応じて指定された比率又は再生速度のパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、前記或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、
方法。
子音長変更装置の少なくとも１つのプロセッサが、
１つのユーザ操作に応じて指定された比率又は再生速度のパラメータに基づいて、子音が含まれる、或る音節における母音の第１発音開始タイミングと、前記或る音節とは異なる音節における母音の第２発音開始タイミングと、をそれぞれ早める処理を実行し、子音が含まれない音節における母音の発音開始タイミングは変更しない、
処理を実行する、
プログラム。