JP2014098801A

JP2014098801A - 音声合成装置

Info

Publication number: JP2014098801A
Application number: JP2012250438A
Authority: JP
Inventors: Hiroshi Kayama; 啓嘉山; Yoshiki Nishitani; 善樹西谷
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2014-05-29
Anticipated expiration: 2032-11-14
Also published as: CN103810992A; US20140136207A1; EP2733696A1; EP2733696B1; US10002604B2; JP5821824B2; CN103810992B

Abstract

【課題】もたつき感のない自然な音声をリアルタイム方式で合成することを可能にする。
【解決手段】歌唱音声の音高をユーザに指定させるための歌唱合成用キーボードに、音高を指定する押鍵操作の開始を契機として当該音高を示す第１の発音制御情報を出力させ、鍵の押し切りを契機として音の強さを示す第２の発音制御情報を出力させる。歌唱合成装置には、第１の発音制御情報の取得により、無音から当該歌唱音声の先頭の音韻への遷移部の音声を当該第１の発音制御情報の示す音高で合成させ、第２の発音制御情報の取得により、当該先頭の音韻から後続の音韻への遷移部以降の音声を当該第１の発音制御情報の示す音高および当該第２の発音制御情報の示す音の強さで合成させる。
【選択図】図２

Description

この発明は、音声合成技術に関し、特に、リアルタイム音声合成技術に関する。

音声ガイダンスにおける案内音声や文芸作品の朗読音声、或いは歌唱曲の歌唱音声などを表す音声信号を、複数種類の合成情報を用いて電気的な信号処理により合成する音声合成技術が普及している。例えば、歌唱音声の合成の場合は、歌唱音声の合成対象の歌唱曲のメロディを構成する各音符の音高や継続長を表す情報と各音符に合わせて発音する歌詞の音韻列を示す情報のような音楽表現情報が上記合成情報として用いられる。音声ガイダンスにおける案内音声や文芸作品の朗読音声の音声信号を合成する場合は、案内文や文芸作品の文章の音韻を表す情報と、イントネーションやアクセントなどの韻律変化を示す情報が上記合成情報として用いられる。従来、この種の音声合成は、合成対象の音声全体に亙る各種合成情報を予め音声合成装置に全て入力しておき、合成対象の音声全体の音波形を表す音声信号をそれら合成情報に基づいて一括して生成する所謂バッチ処理方式が一般的であった。しかし、近年ではリアルタイム方式の音声合成技術も提案されている（例えば、特許文献１参照）。

リアルタイム方式の音声合成の一例としては、楽曲全体の歌詞の音韻列を示す情報を歌唱合成装置に予め入力しておき、各歌詞を発音する際の音高等をピアノ鍵盤を模したキーボードの操作により逐次指定することで歌唱音声を合成する技術が挙げられる。また、近年では、歌詞の音韻列を構成する各音韻（子音や母音）を入力するための操作子を配列した音韻情報入力部と、ピアノ鍵盤を模した音符情報入力部とを左右に並べた歌唱合成用キーボードを用いて、音高を示す音符情報と当該音符に合わせて発音する歌詞の音韻列を示す音韻列情報とを音符毎にユーザに逐次入力させ、歌唱音声の合成を音符単位で行うことも提案されている。

特許３８７９４０２号

楽曲全体の歌詞の音韻列を示す情報を予め歌唱合成装置に記憶させてリアルタイム方式の歌唱合成を行う場合、楽譜に対して遅れて歌詞が発音されているかのような、もたつき感のある不自然な歌唱音声が合成されることがある。このようなもたつき感が生じる理由は以下の通りである。

図３（ａ）は、子音と母音からなる歌詞を音符に合わせて人が歌唱する場合の各音韻の発音タイミングの一例を示す図である。図３（ａ）では五線譜に記された矩形Ｎによって音符が表されており、当該矩形Ｎ内に当該音符に合わせて歌唱する歌詞が記されている。図３（ａ）に示すように、子音と母音からなる歌詞を音符に合わせて歌唱する場合、人は、楽譜上の発音タイミングに応じた時刻Ｔ１より手前の時刻Ｔ０から当該歌詞の発音を開始し（図３（ａ）および（ｂ）における記号＃は無音を表す。図２においても同様）、時刻Ｔ１においては子音と母音の境界部分を発音することが一般的である。

ピアノ鍵盤を模したキーボードを用いたリアルタイム方式の歌唱合成においても同様に、図３（ｂ）に示すように、ユーザは楽譜における音符の位置よりも手前の時刻Ｔ０から音高を指定するための鍵Ｋを指Ｆで押下し始め、時刻Ｔ１において鍵Ｋを押し切るように操作することが多い。しかし、この種のキーボードは、一般的に、鍵を押し切った時点で音高を示す情報を出力する（或いは音高を示す情報と押鍵速度に応じた音の強さを示す情報とを出力する）ように構成されているため、音高を示す情報が実際に出力されるのは鍵を押し切ったタイミング（時刻Ｔ１）においてである。一方、歌唱合成装置では音韻列情報と音高を示す情報とが揃わないと歌唱音声の合成が開始されない。合成処理に要する時間が十分に短く無視することができたとしても、歌唱音声の出力が開始されるのは時刻Ｔ１からであり、鍵Ｋを押し始めてから押し切るまでのタイムラグ（Ｔ１−Ｔ０）が上記もたつき感となって現れるのである。この点は、音符毎に歌詞と音高をユーザに逐次入力させて歌唱音声の合成を行う場合も同様であり、また、案内音声や朗読音声の音声合成においても同様である。

本発明は上記課題に鑑みて為されたものであり、もたつき感のない自然な音声をリアルタイム方式で合成することを可能にする技術を提供することを目的とする。

上記課題を解決するために本発明は、音声の発音開始をユーザに指示させるための操作子に対する操作の開始により第１の発音制御情報を取得する一方、当該操作子に対する操作の完了または他の操作子に対する操作により第２の発音制御情報を取得する取得手段と、合成対象の音声の音韻列を示す音韻列情報と音高を示す音高情報とを少なくとも含む複数種類の合成情報を用いて音声を合成する手段であって、前記取得手段が前記第１の発音制御情報を取得するのに応じて、無音または先行する音韻から前記音韻列情報の示す音韻列の先頭の音韻への遷移部に対応する音声を前記複数種類の合成情報を用いて合成して出力し、前記取得手段が前記第２の発音制御情報を取得するのに応じて、当該先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を前記複数種類の合成情報を用いて合成して出力する音声合成手段とを有することを特徴とする音声合成装置、を提供する。なお、第２の発音制御情報の取得を契機とする音声の出力態様としては、音韻列情報の示す音韻列における先頭の音韻から後続の音韻への遷移部以降の音声を合成して出力する態様や、当該遷移部を繰り返し発音する音声（或いは１または複数の無音を挟みつつ当該遷移部を繰り返し発音する音声）または当該遷移部を発音し続ける音声を合成して出力する態様が考えられる。

このような音声合成装置によれば、音声の発音開始をユーザに指示させるための操作子に対する操作開始を契機として無音からから先頭の音韻への遷移部（例えば、無音状態から「さいた」と歌い始める場合の無音から子音ｓへの遷移部分）の音声の出力が開始されるため、当該操作子に対する操作の開始から合成音声の発音開始までのタイムラグがほぼなくなり、もたつき感のない音声をリアルタイム方式で合成することが可能になる。同様に「さいた」という歌詞のうちの「た」の部分の音声の合成についても、音声の発音開始をユーザに指示させるための操作子に対する操作開始を契機として先行する音韻（この例では、母音ｉ）から当該歌詞の音韻列情報の示す先頭の音韻（この例では、子音ｔ）への遷移部の音声の出力が開始されるため、当該操作子に対する操作の開始から合成音声の発音開始までのタイムラグがほぼなくなり、もたつき感のない音声が合成される。そして、上記操作子に対する操作の完了（例えば、操作子の押し切り）または他の操作子の操作によって先頭の音韻から後続の音韻への遷移部（子音＋母音からなる歌詞であれば、子音から母音への遷移部）の出力タイミングを調整することができ、人の歌唱特性を的確に再現した自然な歌唱音声を合成することができる。なお、音韻列情報が１つの音韻（例えば、母音）を示すものである場合には、第１の発音制御情報の取得を契機として音声合成を行っても良く、第２の発音制御情報の取得を待って音声合成を行っても良い。

より好ましい態様においては、前記複数種類の合成情報を用いて合成される音声の発音開始を指示する操作子は当該音声の音高をユーザに指定させるための操作子を兼ねており、前記第１の発音制御情報には、前記複数種類の合成情報の一部を為す音高情報であって、当該操作子に対する操作により指定された音高を示す音高情報が含まれており、前記音声合成手段は、前記取得手段により取得された第１の発音制御情報に含まれる音高情報を前記複数種類の合成情報のうちの１つとして用いることを特徴とする。このような態様によれば、合成音声を発音する際の音高を適宜指定しながらもたつき感のない自然な音声をリアルタイム方式で合成することが可能になる。なお、互いに異なる音高を示す音高情報を含む複数の前記第１の発音制御情報が連続して前記取得手段により取得された場合には、前記音声合成手段は、それら複数の前記第１の発音制御情報のうちから選択した１つに含まれる音高情報を前記複数種類の合成情報のうちの１つとして用いるようにすれば良い。

また別の好ましい態様においては、前記第２の発音制御情報には、音の強さまたは音量を指定する情報が含まれており、前記音声合成手段は、当該音の強さまたは音量を指定する情報を前記複数種類の合成情報の一部として用いて、前記音韻情報の示す音韻列の先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を合成して出力することを特徴とする。このような態様によれば、音高の他に、合成音声を発音する際の音の強さまたは音量を適宜指定しながらもたつき感のない自然な音声をリアルタイム方式で合成することが可能になる。なお、互いに異なる音の強さまたは音量を示す情報を含む複数の前記第２の発音制御情報が連続して前記取得手段により取得された場合には、前記音声合成手段は、それら複数の前記第２の発音制御情報のうちから選択した１つに含まれる情報を前記複数種類の合成情報の一部として用いて、前記音韻情報の示す音韻列の先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を合成して出力するようにすれば良い。

さらに別の好ましい態様においては、同じ音高を示す音高情報を含む第１および第２の発音制御情報により形成される発音制御情報対が前記取得手段により複数取得された場合には、前記音声合成手段には、発音制御情報対毎に音声合成を行わせる（すなわち、音高の異なる複数種類の合成音声を合成する）態様も考えられる。このような態様によれば、音高の異なる合成音声を同時並列に合成することが可能になる。

この発明の一実施形態の歌唱合成装置１の構成例を示す図である。同歌唱合成装置１の動作を説明するための図である。従来のリアルタイム方式の歌唱合成技術の問題点を説明するための図である。

以下、図面を参照しつつ、本発明の実施形態について説明する。
（Ａ：実施形態）
図１は、本発明の音声合成装置の一実施形態の歌唱合成装置１の構成例を示すブロック図である。この歌唱合成装置１には、複数種類の合成情報（音符に合わせて発音する歌詞の音韻列を示す音韻列情報と当該音符の音高を示す情報など）を逐次ユーザに入力させ、それら合成情報を用いてリアルタイム方式の歌唱合成を行う装置である。図１に示すように、歌唱合成装置１は、制御部１１０、操作部１２０、表示部１３０、音声出力部１４０、外部機器インタフェース（以下、「Ｉ／Ｆ」と略記）部１５０、記憶部１６０、および、これら構成要素間のデータ授受を仲介するバス１７０を含んでいる。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）である。制御部１１０は、記憶部１６０に記憶されている歌唱合成プログラムにしたがって作動することにより、上記複数種類の合成情報に基づいて歌唱音声を合成する音声合成手段として機能する。この歌唱合成プログラムにしたがって制御部１１０が実行する処理の詳細については後に明らかにする。なお、本実施形態では制御部１１０としてＣＰＵを用いるがＤＳＰ（Digital Signal Processor）を用いても勿論良い。

操作部１２０は、前述した歌唱合成用キーボードであり、音韻情報入力部と音符情報入力部とを有している。歌唱合成装置１のユーザは、操作部１２０を操作することによって、歌唱音声の合成対象の歌唱曲のメロディを構成する音符と音符に合わせて発音する歌詞の音韻列を指定することができる。例えば、「さ」という歌詞を指定する場合には音韻情報入力部に設けられている複数の操作子のうちの子音「ｓ」に対応した操作子と母音「ａ」に対応した操作子を順次押下すれば良く、当該歌詞に対応する音符の音高として「Ｃ４」を指定する場合には音符情報入力部に設けられている複数の操作子（鍵）のうち当該音高に応じた鍵を押下してその発音開始を指示し、当該鍵から指を離すことで発音終了を指示すれば良い。つまり、鍵を押下している時間の長さが音符の継続長となる。また、ユーザは、音符に対応する鍵の押鍵速度によって当該音符に合わせて歌詞を発音する際の音の強さ（ベロシティ）を指定することができる。なお、押鍵速度によってベロシティを指定することを可能にする仕組みとしては、従来の電子鍵盤楽器におけるものを採用すれば良い。

操作部１２０の音韻情報入力部（図１では図示省略）は、音韻列を指定する操作が為された場合には当該音韻列を示す音韻列情報を制御部１１０に与える。一方、操作部１２０の音符情報入力部は、音高を指定する操作子（本実施形態では、ピアノ鍵盤の各鍵を模した操作子）毎に、操作子の押下開始を検出する第１のセンサと当該操作子が押し切られたことを検出する第２のセンサとを含んでいる（図１では、図示略）。ここで、第１および第２のセンサとしては、機械式センサ、感圧式センサ、或いは光学式センサなどの各種方式のセンサを用いることができる。要は、第１のセンサは、所定の閾値を超える深さまで鍵が押し込まれたことを検知するセンサであれば良く、第２のセンサは、鍵が完全に押し込まれたことを検知するセンサであれば良い。

操作部１２０の音符情報入力部は、上記第１のセンサによって鍵の押鍵操作の開始を検出すると、当該鍵に対応する音高を示す音高情報（例えば、ノート番号）を含んだノートオンイベント（ＭＩＤＩ（Musical Instrument Digital Interface）イベント）を発音開始を指示する第１の発音制御情報として制御部１１０に与える。音符情報入力部は上記第１のセンサにより押鍵開始を検知された操作子の押し切りを第２のセンサによって検知すると、当該鍵に対応した音高情報と第１のセンサによる押鍵開始の検出から第２のセンサによる押し切りの検出までに要した時間の長さに応じたベロシティの値とを含むノートオンイベントを第２の発音制御情報として制御部１１０に与える。そして、音符情報入力部は、押し切り位置からの復帰を第２のセンサによって検出すると、発音停止を指示する第３の発音制御情報（本実施形態では、ノートオフイベント）を制御部１１０に与える。なお、第２の発音制御情報に含ませる情報は発音の強さを指定する情報（ベロシティ）に限定されず、音量（ボリューム）を指定する情報であっても良く、また、ベロシティとボリュームの両者であっても良い。

表示部１３０は、例えば液晶ディスプレイとその駆動回路であり、制御部１１０による制御の下、歌唱合成装置１の使用を促すメニュー画像などの各種画像を表示する。音声出力部１４０は、図１に示すように、Ｄ／Ａ変換器１４２、増幅器１４４、およびスピーカ
１４６を含んでいる。Ｄ／Ａ変換器１４２は、制御部１１０から与えられるデジタル形式の音声データ（合成歌唱音声の音波形を表す音声データ）にＤ／Ａ変換を施し、変換結果のアナログ音声信号を増幅器１４４に与える。増幅器１４４は、Ｄ／Ａ変換器１４２から与えられる音声信号の信号レベル（すなわち、音量）をスピーカ駆動に適したレベルまで増幅してスピーカ１４６に与える。スピーカ１４６は、増幅器１４４から与えられる音声信号を音として出力する。

外部機器Ｉ／Ｆ部１５０は、例えばＵＳＢ（Universal Serial Buss）インタフェースやオーディオインタフェースなど、歌唱合成装置１に他の外部機器を接続するためのインタフェースの集合体である。本実施形態では、歌唱合成用キーボード（操作部１２０）や音声出力部１４０が歌唱合成装置１の構成要素である場合について説明するが、歌唱合成用キーボードや音声出力部１４０を外部機器Ｉ／Ｆ部１５０に接続される外部機器としても勿論良い。

記憶部１６０は、不揮発性記憶部１６２と揮発性記憶部１６４とを含んでいる。不揮発性記憶部１６２は、例えばＲＯＭ（Read Only Memory）やフラッシュメモリ或いはハードディスクなどの不揮発性メモリにより構成されており、揮発性記憶部１６４は例えばＲＡＭ（Random Access Memory）などの揮発性メモリにより構成されている。揮発性記憶部１６４は各種プログラムを実行する際のワークエリアとして制御部１１０によって利用される。一方、不揮発性記憶部１６２には、図１に示すように、歌唱合成用ライブラリ１６２ａと、歌唱合成プログラム１６２ｂとが予め格納されている。

歌唱合成用ライブラリ１６２ａとは、様々な音素やダイフォン（音素から異なる音素（無音を含む）への遷移）の音声波形を表す素片データを格納したデータベースである。なお、歌唱合成用ライブラリ１６２ａは、モノフォンやダイフォンの他にトライフォンの素片データを格納したデータベースであっても良く、また、音声波形の音素の定常部や他の音素への遷移部（過渡部）が格納されたデータベースであっても良い。歌唱合成プログラム１６２ｂは、歌唱合成用ライブラリ１６２ａを利用した歌唱合成を制御部１１０に実行させるためのプログラムである。歌唱合成プログラム１６２ｂにしたがって作動している制御部１１０は歌唱合成処理を実行する。

歌唱合成処理とは、複数種類の合成情報（音韻列情報、音高情報、音の強さや音量を示す情報など）に基づいて歌唱音声の音波形を表す音声データを合成して出力する処理である。本実施形態の歌唱合成処理は、音韻列情報と第１の発音制御情報が揃ったことを契機として開始される。この歌唱合成処理では、制御部１１０は、無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部に対応する素片データを歌唱合成用ライブラリ１６２ａから読み出し、第１の発音制御情報に含まれる音高情報の示す音高となるようにピッチ変換等の信号処理を施して当該遷移部分の音波形データを合成し、音声出力部１４０に与える。その後、制御部１１０は、第２の発音制御情報を受け取ったことを契機として、上記先頭の音韻から後続の音韻への遷移部以降の各音韻の素片データを歌唱合成用ライブラリ１６２ａから読み出し、第１の発音制御情報に含まれる音高情報の示す音高となるようにピッチ変換する処理、第２の発音制御情報に含まれるベロシティの値に応じてアタックの深さを調整するなどの信号処理を施して結合して当該遷移部以降の音波形データを合成して音声出力部１４０に与える。そして、制御部１１０は、第３の発音制御情報を受け取ったことを契機として歌唱合成処理を終了し、合成歌唱音の出力を停止させる。

例えば、無音状態から「さいた」と歌い始める歌唱音声を合成する場合、「さ」という歌詞の歌唱音声については、発音開始を指示する操作子の操作開始を契機として無音から先頭の音韻（子音ｓ）への遷移部の音声の出力が開始され、当該操作子の押し切りを契機として当該先頭の音韻から後続の音韻（母音ａ）への遷移部以降の音声の出力が開始される。このため、当該操作子に対する操作の開始から合成音声の発音開始までのタイムラグがほぼなくなり、もたつき感のない音声をリアルタイム方式で合成することが可能になる。同様に「さいた」という歌詞のうちの「た」という歌詞の歌唱音声についても、発音開始を指示する操作子の操作開始を契機として先行する音韻（この例では、母音ｉ）から当該歌詞の音韻列情報の示す先頭の音韻（この例では、子音ｔ）への遷移部の音声の出力が開始され、当該操作子の押し切りを契機として当該先頭の音韻から後続の音韻（母音ａ）への遷移部以降の音声の出力が開始される。なお、音韻列情報が１つの母音を示す場合には、当該音韻列情報と第１の発音制御情報とが揃ったことを契機として歌唱音声の合成を開始しても良く、また、第２の発音制御情報の取得を待って歌唱音声の合成を開始しても良い。後者の態様であれば、第２の発音制御情報に含まれているベロシティの示す音の強さで歌唱音声の合成を行えば良く、前者の態様であれば、予め定められたデフォルトの音の強さで歌唱音声の合成を開始し、第２の発音制御情報を取得を契機として当該第２の発音制御情報に含まれるベロシティに応じた値となるように音の強さを変化させるようにすれば良い。また、前者の態様と後者の態様をユーザの選択に応じて切り替えるようにしても良い。

なお、音韻列情報の示す音韻列の先頭の音素が継続不能な音韻（例えば破裂音）である場合には、第２の発音制御情報を取得するまで、当該音韻の出力を繰り返す処理を制御部１１０に実行させるようにしても良く、「当該音素＋無音」を繰り返す、「無音＋当該音素＋無音」を繰り返す、或いは「無音＋当該音素」を繰り返すといった具合に当該音素が連続しないように１または複数の無音を挟みつつ当該音素の出力を繰り返すようにしても良い。また、歌唱合成装置１として歌唱合成機能の他に楽器演奏機能を有するもの用いる態様では、音韻列情報を伴わずに第１および第２の発音制御情報が入力された場合に歌唱音声の合成出力に換え、上記楽器演奏機能により楽器演奏音を出力する処理を制御部１１０に実行させるようにすれば良い。また、無音状態から「さいた」と歌い始める歌唱音声を合成する場合において先頭の歌詞「さ」に後続する歌詞が入力されない場合のように後続する歌詞が入力されない場合には、発音開始を指示する操作子の押し切りを契機として当該歌詞を示す音韻列における先頭の音韻（子音ｓ）から後続の音韻（母音ａ）への遷移部を繰り返し発音する音声（或いは、１または複数の無音を挟みつつ当該遷移部を繰り返し発音する音声）や当該遷移部を発音し続ける音声を合成して出力する処理を制御部１１０に実行させても良い。要は、第２の発音制御情報の取得に応じて、音韻列情報の示す音韻列における先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を合成して出力する態様であれば良い。

本実施形態では、図２に示すように、音高を指定する操作子の操作開始時点（時刻Ｔ０）から合成歌唱音声の出力が開始され、もたつき感のない歌唱音声を合成することが可能になる。ここで、歌唱合成用ライブラリ１６２ａに格納されている素片データのうち、子音から母音への遷移部の音波形を示す素片データについては、子音部分が極力短くなるように構成されていることが好ましい。子音から母音への遷移部の素片データを子音部分が極力短くなるように構成しておけば、音高を指定する操作子を押し切ったタイミング（時刻Ｔ１）と母音の発音タイミングの時間差を極力短くすることができ、より人の歌唱に近い歌唱音声を合成することが可能になるからである。

また、音符情報入力部の操作子に対する操作の開始を検出する第１のセンサとして、ユーザの指が操作子に触れたことを検出するセンサ（例えば、静電容量センサ）を用いるようにすれば、音高を指定する操作子の操作が実際に開始されるのに先立って無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部の音声の合成を開始することができ、合成歌唱音声の出力が開始されるまでの遅延をさらに短くすることができる。なお、このような態様においては、ユーザの指が操作子に触れたことを検出するセンサの他に当該操作子の押下が開始されたことを検出するセンサを設け、前者のセンサの検出出力に応じて歌唱音声の合成を開始し、後者のセンサの検出出力に応じてその合成歌唱音声の出力を開始するようにしても良い。

また、本実施形態では、音符情報入力部の操作子の押し切りを契機として第２の発音制御情報を出力し、押し切り位置からの復帰を契機として発音停止を指示する第３の発音制御情報を出力した。しかし、押下開始前の位置への復帰を第１のセンサにより検出したことを契機として上記第３の発音制御情報を制御部１１０に与えるようにしても良い。このような態様によれば、押し切り位置から押下開始前の位置への復帰までに要する時間を計測し、発音中の歌唱音声の消音制御（リリース部分の発音制御）にその時間の長さを利用することが可能になり、ユーザは押し切った操作子からゆっくりと指を離すなどの操作を行うなどして歌唱音声の表現力を一層向上させることができる。また、押し切り位置からさらに押し込むように操作子に力が加えられたことを第２のセンサ（或いは当該力の大きさを検出する別個のセンサ）により検出し、その力の大きさに応じた発音制御情報を制御部１１０に与え、当該発音制御情報に応じた発音制御を行うようにしても良い。

なお、本実施形態のように発音制御情報を２回に分けて出力する動作モードと、従来の電子鍵盤楽器と同様に鍵の押し切りを契機として音高を示す情報と音の強さ（或いは音量）を示す情報とを含む発音制御情報を出力する動作モードとをユーザの指示に応じて切り替えるようにしても良い。また、第２の発音制御情報に含まれるベロシティを歌唱音声の合成には使用せず、子音から母音への遷移部の出力タイミングの特定のみに当該第２の発音制御情報を利用しても良い。この場合、第２の発音制御情報にベロシティを含めておく必要はなく、アタックの深さ等の調整を制御部１１０に実行させる必要もない。

また、音韻情報入力部に対して複数の操作子を所定の深さまで押下するなどの操作がなされ、互いに異なる音高を示す情報を含む複数の第１の発音制御情報を連続して取得した場合には、それら複数の第１の発音制御情報のうちの何れか１つ（例えば、最先のもの）を選択して無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部の音声の合成を制御部１１０に実行させ、当該選択した第１の発音制御情報に対応する第２の発音制御情報（選択した第１の発音制御情報に含まれるものと同じ音高を示す情報を含む第２の発音制御情報）を用いて（他の第２の発音制御情報は破棄して）、先頭の音韻から後続の音韻への遷移部を少なくとも含む音声の合成を制御部１１０に実行させても良い。

また、連続して取得した複数の第１の発音制御情報のうち第２の発音制御情報を受け取る直前に受け取ったもの（すなわち最後発の第１の発音制御情報）を選択して無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部の音声の合成を制御部１１０に実行させても良い。このような態様によれば、ミスタッチ等の押し間違いの修正により複数の第１の発音制御情報が連続して取得された場合であっても、修正後の音高で歌唱音声を合成することが可能になる。なお、１または複数の第１の発音制御情報を操作部１２０から受け取った後、最初に受け取った第２の発音制御情報を常に採用する態様であれば、第２の発音制御情報に音高を示す情報を含めておく必要はない。

また、同じ音高を示す情報を含んでいる第１および第２の発音制御情報からなる発音制御情報対であって発音制御情報対毎に異なる音高に対応する複数の発音制御情報対が操作部１２０から制御部１１０に与えられた場合には、発音制御情報対毎に歌唱音声の合成を行う（すなわち、音高の異なる複数種類の歌唱音声の合成を同時並列に行う）ようにしても良い。

（Ｂ：変形）
以上本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
（１）上記実施形態では、音高を指定する操作子が予め定められた深さまで押し込まれたこと（或いは当該操作子に対するユーザの指の接触の検出）を契機として第１の発音制御情報を操作部１２０に出力させた。しかし、第１のセンサとして、所定の閾値以下の距離までユーザの指が操作子に接近したことを検知するセンサを用い、所定の閾値以下の距離までユーザの指が操作子に接近したことを当該センサにより検知したのに応じて第１の発音制御情報を操作部１２０に出力させるようにしても良い。この場合、実際には操作子が操作されていないにも拘らず、無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部の音声が無制限に出力され続けることを回避するために、第１の発音制御情報の出力から所定時間が経過してもユーザの指の接触や操作子の押下（或いは押し切り）が検知されない場合には、上記遷移部の音声の出力停止を指示する第４の発音制御情報を操作部１２０に出力させるようにすれば良い。また、当該第４の発音制御情報の出力をユーザに指示させるための操作子を操作部１２０に設け、当該操作子に対する操作の検出を契機として操作部１２０に当該第４の発音制御情報を出力させるようにしても良い。

（２）上記実施形態では、歌唱音声の音高を指定する各操作子に発音開始をユーザに指示させる操作子の役割を兼ねさせ、さらに、当該操作子に対する操作の開始（ユーザの指の接触或いは所定の深さまでの押し込み）に応じて第１の発音制御情報を出力し、当該操作子に対する操作の完了（当該操作子の押し切り）に応じて第２の発音制御情報を出力する場合について説明した。しかし、上記操作子とは別個の操作子（例えば、歌唱音声の発音の強さ或いは音量を指定するためのダイヤルやペダルなど）に第２の発音制御情報を出力する役割を担わせても勿論良い。具体的には、歌唱音声の発音の強さ或いは音量を指定するための操作子として足踏み式のペダル状の操作子を操作部１２０に設け、ピアノ鍵盤を模した音符情報入力部における鍵の操作開始の検出を契機として第１の発音制御情報を操作部１２０に出力させる一方、当該ペダル状の操作子の踏む込みの検出を契機として第２の発音制御情報を操作部１２０に出力させるのである。このような態様においても、ピアノ鍵盤を模した音符情報入力部における鍵の操作開始の検出を契機として、無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移に対応する音声が出力され、もたつき感のない音声をリアルタイム方式で合成することが可能になる。また、ペダル状の操作子を踏み込むタイミングを調整することで、先頭の音韻から後続の音韻への遷移部（例えば、子音から母音への遷移部）の音声の出力タイミングを楽譜上の音符のタイミングに合わせ、人の歌唱特性を的確に再現することができる。

（３）上記実施形態では、第１および第２の発音制御情報を歌唱合成装置１に取得させるための取得手段（操作部１２０の音符情報入力部）として電子鍵盤楽器を模したものを用いたが、ＭＩＤＩ制御の電子楽器を模したものであれば、電子弦楽器や電子管楽器、電子打楽器などを模したものであっても良い。例えば、操作部１２０の音符情報入力部として電子ギターなどの電子弦楽器を模したものを用いる場合には、第１のセンサとしてユーザの指やピックが弦に触れたことを検出するセンサを設けるとともに第２のセンサとしてユーザが弦をはじき始めたことを検出するセンサを設け、第１のセンサによる検出出力に応じて第１の発音制御情報を出力させ、第２のセンサによる検出出力に応じて第２の発音制御情報を出力させるようにすれば良い。この場合、上記弦が発音開始をユーザに指示させるための操作子の役割と音高をユーザに指定させる操作子の役割を兼ね、さらに音の強さ等を指定するための操作子の役割も兼ねる。そして、このような態様においては、音の発音開始をユーザに指示させるための操作子（弦）に対する操作の開始（ユーザの指等が触れたこと）により第１の発音制御情報が取得され、当該操作子に対する操作の完了（ユーザの指等で弾かれたこと）により第２の発音制御情報が取得される。

操作部１２０の音符情報入力部として電子管楽器を模したものを用いる場合には、第１のセンサとしてピストンや木管楽器におけるキーを模した操作子にユーザの指が触れたこを検出するセンサを設けるとともに第２のセンサとしてユーザが息の吹き込みを始めたことを検出するセンサを設け、第１のセンサによる検出出力に応じて第１の発音制御情報を出力させ、第２のセンサによる検出出力に応じて第２の発音制御情報を出力させるようにすれば良い。この場合、上記ピストンや木管楽器におけるキーを模した操作子は、音の発音開始をユーザに指示させる役割と音高をユーザに指定させる役割を担い、マウスピースなどの息の吹き込み口は音の強さ等を指定するための操作子の役割を果たす。そして、このような態様においては、音の発音開始をユーザに指示させるための操作子（ピストンや木管楽器のキーを模した操作子）に対する操作の開始（ユーザの指が触れたこと）により第１の発音制御情報が取得され、当該操作子とは異なる他の操作子（マウスピースなどの息の吹き込み口）に対する操作（息の吹き込み開始）により第２の発音制御情報が取得される。なお、マウスピースなどの息の吹き込み口に対す息の吹き込み開始を検出して第２の発音制御情報を出力するのではなく、ピストンや木管楽器のキーを模した操作子の操作完了（押し切り）を検出して第２の発音制御情報を出力させても良い。

また、操作部１２０の音符情報入力部として電子打楽器を模したものを用いる場合には、第１のセンサとしてバチ（或いは、ユーザの手または指）が被打撃部に触れたことを検出するセンサを設けるとともに第２のセンサとして打撃の完了（例えば、打撃力が最大となったことや被打撃部における打撃面積が最大となったこと）を検出するセンサを設け、第１のセンサによる検出出力に応じて第１の発音制御情報を出力させ、第２のセンサによる検出出力に応じて第２の発音制御情報を出力させるようにすれば良い。この場合、上記被打撃部が発音開始をユーザに指示させるための操作子の役割を果たす。そして、このような態様においては、音の発音開始をユーザに指示させるための操作子（被打撃部）に対する操作の開始（ユーザの指等が触れたこと）により第１の発音制御情報が取得され、当該操作子に対する操作の完了（打撃力または打撃面積が最大になったこと）により第２の発音制御情報が取得される。なお、電子打楽器を模した音符情報入力部では、当該音符情報入力部に対する操作によって音高を指定することができない場合もある。このような場合には、歌唱音声の合成対象の歌唱曲のメロディを構成する各音符を示す音符情報（音高および継続時間を示す情報）を歌唱合成装置１に記憶させておき、第１の発音制御情報を受信する毎に順次音符情報を読み出して使用させるようにすれば良い。また、電子打楽器を模した音符情報入力部における被打撃部を複数の領域に区分けし、領域毎に異なる音高を対応付ておくことで音高を指定できるようにしても良い。

また、音符情報入力部はＭＩＤＩ制御のものに限定される訳ではなく、文字や記号或いは数字をユーザに入力させるための一般的なキーボードや一般的なタッチパネル、マウスなどのポインティングデバイスなどの一般的な入力デバイスであっても良い。これら一般的な入力デバイスを音符情報入力部として用いる場合には、歌唱音声の合成対象の歌唱曲のメロディを構成する各音符を示す音符情報（音高および継続時間を示す情報）を歌唱合成装置１に記憶させておけば良い。そして、文字や記号或いは数字に対応する操作子やタッチパネル、マウスボタンなどに対する操作の開始に応じて第１の発音制御情報を操作部１２０に出力させるとともに、当該操作子に対する操作の完了に応じて第２の発音制御情報を操作部１２０に出力させ、歌唱合成装置１には、第１の発音制御情報を受信する毎に順次音符情報を読み出して使用させるようにすれば良い。

要は、発音開始をユーザに指示させるための操作子に対する操作の開始により第１の発音制御情報を取得する一方、当該操作子に対する操作の完了（或いは他の操作子に対する操作）によって第２の発音制御情報を取得し、第１の発音制御情報を取得するのに応じて、無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部に対応する音声を複数種類の合成情報を用いて合成して出力し、第２の発音制御情報を取得するのに応じて、当該先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を複数種類の合成情報を用いて合成して出力する態様であれば良い。

（４）上記実施形態では、音符に合わせて発音する歌詞の音韻列を表す音韻列情報を操作部１２０の音韻情報入力部に対する操作によって音符毎に逐次入力する場合について説明した。しかし、歌唱音声の合成対象の歌唱曲全体の歌詞についての音韻列情報を歌唱合成装置１の不揮発性記憶部１６２に予め記憶させておき、各歌詞を発音する際の音高等を音符入力部に対する操作により音符毎に逐次指定させ、音高等の指定を契機として音符毎に当該音符に対応する音韻列情報を読み出して歌唱音声を合成させても良い。

また、各々異なる音高に対応する複数の発音制御情報対が操作部１２０から制御部１１０に与えられた場合に発音制御情報対毎に音声合成を行う態様においては、各々異なる歌詞を示す複数種類の音韻列情報を記憶させておき、発音制御情報対毎に音高および歌詞の異なる歌唱音声を制御部１１０に合成させるようにしても良い。例えば各々異なる歌詞を表すＮ（Ｎは２以上の自然数）種類の音韻列情報に順番を付けて不揮発性記憶部１６２に予め格納しておき、各々異なる音高情報を含むＮ個の発音制御情報対が操作部１２０から制御部１１０へ与えられた場合には、第ｎ（１≦ｎ≦Ｎ）番目の音韻列情報と第ｎ番目の発音制御情報対（なお、第１の発音制御情報の入力順を発音制御情報対の入力順とすれば良い）を構成する第１および第２の発音制御情報とを用いて、第ｎ番目の歌唱音声を合成する処理を制御部１１０に実行させる、といった具合である。また、Ｎ個の音韻列情報の各々に対して互いに重なり合わないように音高の範囲を予め定めておき、音韻列情報毎にその音韻列情報に対応する音高の範囲に属する音高に対応する発音制御情報対を用いて音声合成を行うようにしても良い。例えば、音高方向にいくつかのスプリットポイント設定し、それらスプリットポイントにより区画される音域の各々に対して１つずつ音韻列情報を対応付けておけば良い。

（５）上記実施形態では、第１および第２の発音制御情報と複数種類の合成情報とを歌唱合成装置１に取得させる取得手段の役割を果たす操作部１２０と、合成歌唱音声を出力するための音声出力部１４０が歌唱合成装置１に内蔵されていた。しかし、操作部１２０および音声出力部１４０の何れか一方或いは両方を歌唱合成装置１の外部機器Ｉ／Ｆ部１５０に接続する態様であっても良い。操作部１２０を外部機器Ｉ／Ｆ部１５０を介して歌唱合成装置１に接続する態様では、外部機器Ｉ／Ｆ部１５０が上記取得手段の役割を果たす。

操作部１２０および音声出力部１４０の両者を外部機器Ｉ／Ｆ部１５０に接続する態様の一例としては、外部機器Ｉ／Ｆ部１５０としてイーサネット（登録商標）インタフェースを用い、この外部機器Ｉ／Ｆ部１５０にＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を接続するとともに、この電気通信回線に操作部１２０および音声出力部１４０を接続する態様が挙げられる。このような態様によれば、所謂クラウドコンピューティング形式の歌唱合成サービスを提供することが可能になる。具体的には、操作部１２０に設けられた各種操作子の操作により入力された音韻列情報と第１および第２の発音制御情報を電気通信回線を介して歌唱合成装置に与え、歌唱合成装置には、電気通信回線を介して与えられた音韻列情報、第１および第２の発音制御情報に基づいて歌唱合成処理を実行させる。このようにして、歌唱合成装置により合成された合成歌唱音声の音声データは電気通信回線を介して音声出力部１４０に与えられ、当該音声データに応じた音が音声出力部１４０から出力される。

（６）上記実施形態では、本発明の特徴を顕著に示す歌唱合成処理を制御部１１０に実行させる歌唱合成プログラム１６２ｂが歌唱合成装置１の不揮発性記憶部１６２に予め格納されていた。しかし、この歌唱合成プログラム１６２ｂをＣＤ−ＲＯＭ（Compact Disk- Read Only Memory）などのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムをパーソナルコンピュータなどの一般的なコンピュータに実行させることによって、そのコンピュータを上記実施形態の歌唱合成装置１として機能させることが可能になるからである。また、リアルタイム方式の歌唱合成処理を一部に含むゲームのゲームプログラムに本発明を適用しても勿論良い。具体的には、当該ゲームプログラムに含まれている歌唱合成プログラムを歌唱合成プログラム１６２ｂに差し替えても良い。このような態様によれば、ゲームの進行にしたがって合成される歌唱音声の表現力を向上させることが可能になる。

（７）上記実施形態では、リアルタイム方式の歌唱合成装置への本発明の適用例を説明した。しかし、本発明の適用対象はリアルタイム方式の歌唱合成装置に限定されるものではない。例えば、音声ガイダンスにおける案内音声をリアルタイム方式で合成する音声合成装置、或いは小説や詩などの文芸作品の朗読音声をリアルタイム方式で合成する音声合成装置に本発明を適用しても良い。また、本発明の適用対象は歌唱合成機能や音声合成機能を有する玩具（歌唱合成装置や音声合成装置を内蔵した玩具）であっても良い。

１…歌唱合成装置、１１０…制御部、１２０…操作部、１３０…表示部、１４０…音声出力部、１４２…Ｄ／Ａ変換器、１４４…増幅器、１４６…スピーカ、１５０…外部機器Ｉ／Ｆ、１６０…記憶部、１６２…不揮発性記憶部、１６２ａ…歌唱合成ライブラリ、１６２ｂ…歌唱合成プログラム、１６４…揮発性記憶部、１７０…バス。

Claims

音声の発音開始をユーザに指示させるための操作子に対する操作の開始により第１の発音制御情報を取得する一方、当該操作子に対する操作の完了または他の操作子に対する操作により第２の発音制御情報を取得する取得手段と、
合成対象の音声の音韻列を示す音韻列情報と音高を示す音高情報とを少なくとも含む複数種類の合成情報を用いて音声を合成する手段であって、前記取得手段が前記第１の発音制御情報を取得するのに応じて、無音または先行する音韻から前記音韻列情報の示す音韻列の先頭の音韻への遷移部に対応する音声を前記複数種類の合成情報を用いて合成して出力し、前記取得手段が前記第２の発音制御情報を取得するのに応じて、当該先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を前記複数種類の合成情報を用いて合成して出力する音声合成手段と、
を有することを特徴とする音声合成装置。
前記複数種類の合成情報を用いて合成される音声の発音開始を指示する操作子は当該音声の音高をユーザに指定させるための操作子を兼ねており、
前記第１の発音制御情報には、前記複数種類の合成情報の一部を為す音高情報であって、当該操作子に対する操作により指定された音高を示す音高情報が含まれており、
前記音声合成手段は、前記取得手段により取得された第１の発音制御情報に含まれる音高情報を前記複数種類の合成情報のうちの１つとして用いることを特徴とする請求項１に記載の音声合成装置。
互いに異なる音高を示す音高情報を含む複数の前記第１の発音制御情報が連続して前記取得手段により取得された場合には、前記音声合成手段は、それら複数の前記第１の発音制御情報のうちから選択した１つに含まれる音高情報を前記複数種類の合成情報のうちの１つとして用いることを特徴とする請求項２に記載の音声合成装置。
互いに異なる音の強さまたは音量を示す情報を含む複数の前記第２の発音制御情報が連続して前記取得手段により取得された場合には、前記音声合成手段は、それら複数の前記第２の発音制御情報のうちから選択した１つに含まれる情報を前記複数種類の合成情報の一部として用いて、前記音韻列情報の示す音韻列の先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を合成して出力することを特徴とする請求項３に記載の音声合成装置。
同じ音高を示す音高情報を含む第１および第２の発音制御情報により形成される発音制御情報対であって各々異なる音高に対応する複数の発音制御情報対が前記取得手段により取得された場合には、前記音声合成手段は、発音制御情報対毎に音声合成を行うことを特徴とする請求項２に記載の音声合成装置。