JP2014098800A

JP2014098800A - 音声合成装置

Info

Publication number: JP2014098800A
Application number: JP2012250436A
Authority: JP
Inventors: Hiroshi Kayama; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2014-05-29
Anticipated expiration: 2032-11-14
Also published as: JP6044284B2

Abstract

【課題】リアルタイム音声合成において音声合成に用いる複数種類の合成情報の入力の自由度が低くなることを回避しつつ、各合成情報の入力タイミングに時間差があっても、最先の入力タイミングから遅滞なく音を出力することを可能にする。
【解決手段】音符の音高および持続時間を表す音符情報と音符に合わせて発音する歌詞の音韻を表す音韻情報とを受け取って歌唱音声をリアルタイム方式で合成する歌唱合成装置に、音符情報と音韻情報のうち先に入力された方の入力時点から、それら情報に基づいて合成した歌唱音声の出力を開始するまでの間、所定のダミー音を出力させる。
【選択図】図２

Description

この発明は、音声合成技術に関し、特に、リアルタイム音声合成技術に関する。

音声ガイダンスにおける案内音声や文芸作品の朗読音声、或いは歌唱曲の歌唱音声などを表す音声信号を、複数種類の合成情報を用いて電気的な信号処理により合成する音声合成技術が普及している。例えば、歌唱音声の合成の場合は、歌唱音声の合成対象の歌唱曲における韻律変化を示す韻律情報（例えば、当該歌唱曲のメロディを構成する各音符の音高や継続長を表す音符情報）と当該歌唱曲の歌詞の音韻列を表す情報などの音楽表現情報が上記合成情報として用いられる。音声ガイダンスにおける案内音声や文芸作品の朗読音声の音声信号を合成する場合は、案内文や文芸作品の文章の音韻列を表す情報が発話内容を表す合成情報として用いられ、イントネーションやアクセントなどの韻律変化を示す韻律情報が発話態様を示す合成情報として用いられる。これらに加えて、音の強さを指定する情報が合成情報として用いられる場合もある。従来、この種の音声合成は、合成対象の音声全体に亙る各種合成情報を予め音声合成装置に全て入力しておき、合成対象の音声全体の音波形を表す音声信号をそれら合成情報に基づいて一括して生成する所謂バッチ処理方式が一般的であった。しかし、近年ではリアルタイム方式の音声合成技術も提案されている（例えば、特許文献１参照）。

リアルタイム方式の音声合成の一例としては、楽曲全体の歌詞を表す情報を歌唱合成装置に予め入力しておき、ピアノ鍵盤を模したキーボードで各歌詞を発音する際の音高等を随時指定することで歌唱合成を進める技術が挙げられる。また、近年では、歌詞の音韻を表す子音および母音を入力するための操作子を配列した音韻情報入力部と、ピアノ鍵盤を模した音符情報入力部とを左右に並べた歌唱合成用キーボードを用いて、音韻情報と音符情報の両者をリアルタイムでユーザに逐次入力させて歌唱合成を行うことも提案されている。

特許３８７９４０２号

歌唱合成用キーボードを用いてリアルタイム方式の歌唱合成を行う場合、必須の合成情報（すなわち、音韻情報と韻律情報）のみを用いる場合であっても、ユーザは一方の手で音韻情報入力部を操作して音韻情報を入力するとともに他方の手で音符情報入力部を操作して韻律情報を入力しなければならず、両者の入力タイミングには若干のズレが生じる。一方、歌唱合成装置では、音韻情報と韻律情報の両者が揃わないと歌唱合成処理が開始されない。このため、音韻情報と韻律情報の両者の入力タイミングにズレがあると、先に入力された方の入力タイミング（すなわち、歌唱音声出力のための最初の意思表示のタイミング）から遅れて合成歌唱音声が出力されることになり、この遅延がユーザに違和感を抱かせることがある。この点は、案内音声や文芸作品の朗読音声をリアルタイム方式で合成する音声合成においても同様である。また、複数種類の合成情報の入力順が予め定められている場合には、各合成情報を予め定められた順に入力しなければならず、入力の自由度が低いといった問題もある。

本発明は上記課題に鑑みて為されたものであり、リアルタイム音声合成において音声合成に用いる複数種類の合成情報の入力の自由度が低くなることを回避しつつ、各合成情報の入力タイミングに時間差があっても、最先の入力タイミングから遅滞なく音を出力することを可能にする技術を提供することを目的とする。

上記課題を解決するために本発明は、音声信号の合成に用いる複数種類の合成情報であって、合成対象の音声の音韻を示す音韻情報と当該音声における韻律変化を示す韻律情報とを含む複数種類の合成情報を入力するための入力手段と、前記複数種類の合成情報のうちの最先のものが前記入力手段へ入力されてから少なくとも前記音韻情報と前記韻律情報が揃うまでの間に前記入力手段を介して入力された合成情報を用いて音声信号を合成して出力するとともに、当該最先の合成情報が入力されてから当該音声信号の出力が開始されるまでの間、ダミー音を表すダミー音信号を出力する音声合成手段とを有することを特徴とする音声合成装置、を提供する。なお、音声信号の合成に用いる複数種類の合成情報のうち、音韻情報および韻律情報以外の合成情報の一例としては、音の強さを示す情報やビブラートの付与を示す情報、合成音声の声質を指定する情報などが挙げられる。ただし、音韻情報および韻律情報以外の合成情報は、音声信号の合成において必ずしも必須ではない。

このような音声合成装置によれば、複数種類の合成情報のうち最先に前記入力手段へ入力されたものの入力時点から少なくとも必須の合成情報である音韻情報と韻律情報とが揃うまでの間に入力された合成情報に基づいて音声信号の合成が行われるとともに、最先の合成情報の入力から当該音声信号の出力が開始されるまでの間、ダミー音が出力される。このため、ユーザが音声合成のための意思を最初に表明した時点（すなわち、複数種類の合成情報のうち最先のものの入力時点）から音が出力され、ユーザに無用な違和感を抱かせないようにすることが可能になる。また、本発明の音声合成装置においては、複数種類の合成情報の入力順は問われないため、それら合成情報を入力する際の自由度が低くなることはない。

ダミー音としてどのようなものを用いるのかについては種々の態様が考えられる。例えば、第１の態様としては、最先の合成情報に応じた音をダミー音として用いる態様が考えられる。また、第２の態様としては、ノイズ音やブレス音、鼻音、予め定められた音素を予め定められた音高で出力した音、或いは所定の音高の周期音（音波形が正弦波により表される音）など、継続可能な音であって最先の合成情報とは無関係な音、をダミー音として用いる態様が考えられる。例えばリアルタイム方式の歌唱合成に本発明を適用し、さらに複数種類の合成情報として必須の合成情報のみを用いる場合の上記第１の態様の具体例としては、音韻情報が先に入力され、かつその音韻情報の示す音韻の先頭が継続可能な音素である場合には、当該先頭の音素を所定の音高で出力した音をダミー音として用いる一方、韻律情報の役割を果たす音符情報が先に入力された場合には継続可能な所定の音素を当該音符情報の示す音高で出力した音や当該音符情報の示す音高を有する周期音をダミー音として用いることが考えられる。ここで、継続可能な音素とは、母音または摩擦音や鼻音など継続可能な子音のことをいう。なお、音韻情報が先に入力され、かつその音韻情報の示す音韻の先頭が継続可能な音素ではない場合には、ノイズ音などの所定の継続可能な音をダミー音として用いるようにすれば良い。

より好ましい態様としては、入力手段に入力された合成情報を用いて合成された音声信号の表す音声とダミー音とが滑らかにつながるようにダミー音信号を調整して（または上記音声信号とダミー音信号の両者の信号レベルを調整しつつ）出力する処理を音声合成手段に実行させる態様が考えられる。このような態様によれば、ダミー音から合成音声へ滑らかに移り変わるため、音が不連続に切り替わることによる違和感をユーザに与えないようにすることが可能になる。また、ダミー音の音量が徐々に大きくなるように、信号レベルを予め定められた値まで徐々に上昇させつつダミー音信号を出力する処理を音声合成手段に実行させることで、無用な違和感をユーザに与えないようにする態様も考えられる。さらに別の態様としては、複数種類の合成情報のうち最先のものが入力されてから少なくとも必須の合成情報が揃うまでに入力された合成情報を用いて合成された音声の出力が開始されるまでの間、複数種のダミー音が順次出力されるようにダミー音信号を切り替える処理を音声合成手段に実行させる態様も考えられる。

また、別の好ましい態様としては、複数種類の合成情報のうちの最先のものが入力されてから所定の待ち時間が経過するまでに音韻情報と韻律情報が揃わなかった場合には、音声合成手段にダミー音信号の出力を停止させるようにしても良い。このような態様によれば、音韻情報は入力されたものの音符情報が入力されない（或いは、その逆）など必須の合成情報の一部が入力されず音声合成を行えない場合であっても、ダミー音が出力され続けるといった不具合が生じないようにすることができる。また、ダミー音信号の出力停止をユーザに指示させる停止指示手段（上記入力手段として歌唱合成用キーボードを用いる場合には、当該出力停止をユーザに指示させるための操作子）を設け、ダミー音信号の出力停止の指示を与えられたことを契機としてダミー音信号の出力を停止する処理を音声合成手段に実行させるようにしても良い。このような態様によれば、合成情報の誤入力を契機としてダミー音の出力が開始された場合であっても、上記所定時間に亙ってダミー音が出力され続けることを回避することが可能になる。

また、本発明の別の態様としては、音声信号の合成に用いる複数種類の合成情報であって、合成対象の音声の音韻を示す音韻情報と当該音声における韻律変化を示す韻律情報とを含む複数種類の合成情報のうちの最先のものが入力されてから少なくとも音韻情報と韻律情報が揃うまでの間に入力された合成情報を用いて音声信号を合成して出力する第１の処理と、当該最先の合成情報が入力されてから当該音声信号の出力が開始されるまでの間、ダミー音を表すダミー音信号を出力する第２の処理とをコンピュータに実行させるためのプログラムを提供する態様が考えられる。ここで、当該プログラムの具体的な提供態様としては、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）などのコンピュータ読み取り可能な記録媒体に書き込んで配布する態様やインターネットなどの電気通信回線経由のダウンロードにより配布する態様が考えられる。

この発明の第１実施形態の歌唱合成装置１の構成例を示す図である。同歌唱合成装置１の動作を説明するための図である。第２実施形態のダミー音出力処理を説明するための図である。第３実施形態のダミー音出力処理を説明するための図である。第４実施形態のダミー音出力処理を説明するための図である。

以下、図面を参照しつつ、本発明の実施形態について説明する。
（Ａ：第１実施形態）
図１は、本発明の音声合成装置の一実施形態の歌唱合成装置１の構成例を示すブロック図である。この歌唱合成装置１は、複数種類の合成情報（本実施形態では、歌唱合成を行う際の必須の合成情報である音韻情報と韻律情報の２種類）を音符毎に逐次ユーザに入力させ、リアルタイム方式の歌唱合成を行う装置である。図１に示すように、歌唱合成装置１は、制御部１１０、操作部１２０、表示部１３０、音声出力部１４０、外部機器インタフェース（以下、「Ｉ／Ｆ」と略記）部１５０、記憶部１６０、および、これら構成要素間のデータ授受を仲介するバス１７０を含んでいる。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）である。制御部１１０は、記憶部１６０に記憶されている歌唱合成プログラムにしたがって作動することにより、歌唱合成装置１の制御中枢として機能する。この歌唱合成プログラムにしたがって制御部１１０が実行する処理の詳細については後に明らかにする。本実施形態では制御部１１０としてＣＰＵを用いるがＤＳＰ（Digital Signal Processor）を用いても勿論良い。

操作部１２０は、前述した歌唱合成用キーボードである。歌唱合成装置１のユーザは、操作部１２０を操作することによって、歌唱音声の合成対象の曲のメロディを構成する音符と音符に合わせて歌唱する歌詞の音韻とを指定することができる。例えば、歌詞の音韻として「さ」を指定する場合には、子音「ｓ」に対応した操作子と母音「ａ」に対応した操作子を順次押下すれば良く、当該歌詞に対応する音符の音高として「Ｃ４」を指定する場合には当該音高に応じた鍵を押下してその発音開始を指示し、当該鍵から指を離すことで発音終了を指示すれば良い。つまり、当該鍵を押下している時間の長さが当該音符の持続時間となる。操作部１２０は、音韻を指定する操作が為された場合には当該音韻を示す音韻情報を制御部１１０に与える。また。操作部１２０は、発音開始を指示する押鍵操作が為された場合には、押下された鍵に応じたノートオンイベント（ＭＩＤＩ（Musical Instrument Digital Interface）イベント）を発音開始を指示する音符情報として制御部１１０に与え、押鍵が解除されたことを契機として当該鍵に応じたノートオフイベント（ＭＩＤＩイベント）を発音終了を指示する音符情報として制御部１１０に与える。このように音符情報入力部の操作子に対する操作により入力される音符情報は、歌唱音声における韻律変化を示す韻律情報の役割を果たす。つまり、操作部１２０は、歌唱音声の合成に用いる複数種類の合成情報を入力するための入力手段の役割を果たす。

表示部１３０は、例えば液晶ディスプレイとその駆動回路であり、制御部１１０による制御の下、歌唱合成装置１の使用を促すメニュー画像などの各種画像を表示する。音声出力部１４０は、図１に示すように、Ｄ／Ａ変換器１４２、増幅器１４４、およびスピーカ
１４６を含んでいる。Ｄ／Ａ変換器１４２は、制御部１１０から与えられるデジタル形式の音声データにＤ／Ａ変換を施し、変換結果のアナログ音声信号を増幅器１４４に与える。増幅器１４４は、Ｄ／Ａ変換器１４２から与えられる音声信号の信号レベル（すなわち、音量）をスピーカ駆動に適したレベルまで増幅してスピーカ１４６に与える。スピーカ１４６は、増幅器１４４から与えられる音声信号を音として出力する。

外部機器Ｉ／Ｆ部１５０は、例えばＵＳＢ（Universal Serial Buss）インタフェースやオーディオインタフェースなど、歌唱合成装置１に他の外部機器を接続するためのインタフェースの集合体である。本実施形態では、歌唱合成用キーボード（操作部１２０）や音声出力部１４０が歌唱合成装置１の構成要素である場合について説明するが、歌唱合成用キーボードや音声出力部１４０を、外部機器Ｉ／Ｆ部１５０に接続される外部機器としても勿論良い。

記憶部１６０は、不揮発性記憶部１６２と揮発性記憶部１６４とを含んでいる。揮発性記憶部１６４は例えばＲＡＭ（Random Access Memory）などの揮発性メモリにより構成されている。揮発性記憶部１６４は各種プログラムを実行する際のワークエリアとして制御部１１０によって利用される。一方、不揮発性記憶部１６２は、例えばＲＯＭ（Read Only Memory）やフラッシュメモリ或いはハードディスクなどの不揮発性メモリにより構成されている。不揮発性記憶部１６２には、図１に示すように、歌唱合成用ライブラリ１６２ａと、歌唱合成プログラム１６２ｂと、ダミー音ライブラリ１６２ｃとが予め格納されている。

歌唱合成用ライブラリ１６２ａとは、様々な音素（モノフォン）やダイフォン（音素から異なる音素（無音を含む）への遷移）などの音声波形を表す素片データを格納したデータベースである。なお、歌唱合成用ライブラリ１６２ａは、モノフォンやダイフォンの他にトライフォンの素片データを格納したデータベースであっても良く、また、音声波形の音素の定常部や他の音素への遷移部（過渡部）が格納されたデータベースであっても良い。歌唱合成プログラム１６２ｂは、歌唱合成用ライブラリ１６２ａを利用した歌唱合成を制御部１１０に実行させるためのプログラムである。歌唱合成プログラム１６２ｂにしたがって作動している制御部１１０は歌唱合成処理およびダミー音出力処理の２種類の処理を実行する。

歌唱合成処理とは、音韻情報と音符情報とに基づいて歌唱音声の音波形を表す音声データを合成して出力する処理である。この歌唱合成処理では、制御部１１０は音韻情報の表す音素またはダイフォンに対応する素片データを歌唱合成用ライブラリ１６２ａから読み出し、周波数領域のデータに変換した後に音符情報の示す音高となるようにピッチ変換を施しつつ結合し、その後、時間領域のデータに戻すことで歌唱音声の音波形を表す音声データを合成する。このように、歌唱合成処理の実行は、歌唱音声の歌詞を表す音韻情報と音高を表す音符情報とが揃っていることが前提となるため、これら情報が揃ったことを契機として実行される。より詳細に説明すると、本実施形態の歌唱合成処理は、音韻情報と音符情報のうち先に入力された方の入力時点から所定の待ち時間ＴＷが経過するまでに他方が入力された場合に後者の入力を契機として実行される。この待ち時間ＴＷの長さについては適宜実験を行って予め好適な長さに定めておいても良く、また、ユーザの好みに応じて設定させても良い。なお、本実施形態では、歌唱合成アルゴリズムとして、上記素片接続方式のアルゴリズムが採用されていたが、他のアルゴリズムを採用しても良く、他のアルゴリズムを採用した場合には当該アルゴリズムに合わせて歌唱合成用ライブラリ１６２ａを構成すれば良い。

ダミー音出力処理は、音韻情報と音符情報のうち先に入力された方の入力時点から、歌唱合成処理により合成された音声データの表す音声（すなわち、合成歌唱音声）の出力が開始されるまでの間、ダミー音を音声出力部１４０に出力させる処理である。本実施形態のダミー音出力処理は、音韻情報と音符情報のうち先に入力された方の入力を契機として実行が開始される。このダミー音出力処理では、音素と音高の両者を指定する必要のない所定の音（例えば、ブレス音やノイズ音或いは鼻音、所定の継続可能な音素を所定の音高で出力し続ける音、または所定の音高を有する周期的な音）がダミー音として出力される。前述したダミー音ライブラリ１６２ｃは、ブレス音やノイズ音或いは鼻音、所定の継続可能な音素を所定の音高で出力し続ける音、または所定の音高を有する周期的な音などの各種ダミー音の音波形を表す波形データを格納したデータベースである。ダミー音出力処理では、制御部１１０は、ダミー音として定められた音の波形データをダミー音ライブラリ１６２ｃから読み出し、当該波形データを音声出力部１４０に与えてダミー音を出力させる。ここで、ダミー音として何れの音を用いるかについては予め定めておいても良く、ユーザに選択させても良い。本実施形態ではダミー音としてブレス音（以下、ブレス音の音素記号としてｂｒを用いる）が用いられる。なお、本実施形態では、歌唱合成用ライブラリ１６２ａとダミー音ライブラリ１６２ｃを各々別個のデータベースとしたが、両者を一体化しても（例えば、ダミー音ライブラリ１６２ｃを歌唱合成用ライブラリ１６２ａに含ませるなど）良い。

ダミー音出力処理では、制御部１１０は、音韻情報と音符情報の両者（すなわち、歌唱合成に用いる合成情報の全て）が揃ったか否かを判定する処理を、両者が揃うかまたは上記待ち時間ＴＷが経過するまで継続して実行する。そして、制御部１１０は、上記待ち時間ＴＷが経過するまでに歌唱合成に用いる合成情報の全てが揃わなかった場合には、当該待ち時間ＴＷの経過の時点でダミー音出力処理を停止する。つまり、本実施形態では、音韻情報と音符情報のうちの何れか一方が入力され、その入力から所定の待ち時間ＴＷが経過するまでに他方が入力されない場合には、制御部１１０は当該待ち時間ＴＷの経過の時点でダミー音出力処理の実行を中止し、ダミー音の出力を停止する。これに対して、音韻情報と音符情報のうちの何れか一方の入力から上記待ち時間ＴＷが経過するまでに他方が入力されると当該他方の入力を契機として歌唱合成処理の実行が開始され、合成歌唱音声の出力が開始されるまでダミー音出力処理は継続して実行される。なお、音韻情報が子音と母音などの音素毎に入力される場合には、先頭の音素の音韻情報の入力タイミングを基準に上記判定を行うようにすれば良い。以下、「さ」という歌詞を音高「Ｃ４」で発音する歌唱音を歌唱合成装置１に合成させるために、音韻情報として子音「ｓ」および母音「ａ」の各々を示す情報が入力され、音符情報として音高「Ｃ４」の音の発音開始および停止を示す情報が入力された場合を例にとってダミー音出力処理の処理内容を説明する。

例えば、図２（ａ）では、時刻ＴＡ１において子音「ｓ」を示す音韻情報が入力された後、時刻ＴＡ２において母音「ａ」を示す音韻情報が入力され、さらに時刻ＴＡ３（ただし、ＴＡ３−ＴＡ１＞ＴＷ）において音高「Ｃ４」の音の発音開始を示す音符情報が入力された場合について例示されている。この場合、最先の合成情報（すなわち、先頭の音素についての音韻情報）の入力タイミングから待ち時間ＴＷが経過するまでに音符情報が入力されていないため、子音「ｓ」を示す音韻情報の入力タイミングから待ち時間ＴＷが経過した時点でダミー音の出力が停止され、歌唱合成処理も実行されない。これに対して、図２（ｂ）に示すように、時刻ＴＡ１において子音「ｓ」を示す音韻情報が入力された後、時刻ＴＡ２において母音「ａ」を示す音韻情報が入力され、さらに時刻ＴＡ３´（ただし、ＴＡ３´−ＴＡ１≦ＴＷ）において音高「Ｃ４」の音の発音開始を示す音符情報が入力された場合には、合成歌唱音声の出力が開始されるまでダミー音が出力され続ける。なお、図２（ｂ）に示す例では、ダミー音として、無音（図２（ｂ）では＃により表記）からブレス音に遷移し、再度、無音へと遷移するといった複数の音素片（図２（ｂ）に示す例では、[＃−ｂｒ],[ｂｒ]および[ｂｒ−＃]）により構成される音を用い、無音状態から合成歌唱音声の出力を開始する場合について例示されている。これは、ダミー音と合成歌唱音声とが滑らかにつながるようにするためである。しかし、ダミー音と合成歌唱音声のつなぎめの滑らかさが問題とならない場合には、ダミー音として１つの音素片（例えば、[＃−ｂｒ]）により構成される音を用いても良い。また、図２（ｂ）における[ｂｒ−＃]を省略するとともに、同図２（ｂ）における[＃−ｓ]に換えて[ｂｒ−ｓ]を用いる、或いは図２（ｂ）における[ｂｒ−＃]に換えて[ｂｒ−ｓ]を用い、[＃−ｓ]を省略するなどしてダミー音から合成歌唱音声へ直接遷移させ、両者がより滑らかにつながるようにしても良い。

図２（ｃ）および図２（ｄ）は、音符情報が先に入力された場合の動作を示す図である。この場合も、最先の合成情報（音高「Ｃ４」の発音開始を示す音符情報）の入力タイミングから待ち時間ＴＷが経過するまでに先頭の音素の音韻情報が入力されなかった場合には、音符情報の入力タイミングから待ち時間ＴＷが経過した時点でダミー音の出力が停止され、歌唱合成処理は実行されない（図２（ｃ）参照）。逆に、図２（ｄ）に示すように、音高「Ｃ４」の音の発音開始を示す音符情報の入力タイミングから待ち時間ＴＷが経過するまでに先頭の音素の音韻情報が入力された場合には、前述した図２（ｂ）の場合と同様に、合成歌唱音声の出力が開始されるまでダミー音の出力が継続される。なお、音符情報と音韻情報のうち音符情報が先に入力された場合には、その音符情報の示すベロシティの大きさに応じて、ダミー音における無音からブレス音への遷移部分（すなわち、[＃−ｂｒ]）の時間長を調整するようにしても良い。

以上説明したように本実施形態の歌唱合成装置１においては、歌唱音声のメロディを構成する音符を表す音符情報と当該音符に合わせて発音する歌詞の音韻を表す音韻情報の両者が揃ったことを契機として歌唱合成が開始されることは従来のリアルタイム方式の歌唱合成技術と変わりはないものの、音韻情報と音符情報のうち先に入力された方（すなわち、歌唱合成に用いる複数種類の合成情報のうち最先に入力されたもの）の入力時点から合成音声の出力が開始されるまでの間、ダミー音が出力される。このため、歌唱合成のための意思表示を行った時点から音が出力され、ユーザに無用な違和感を抱かせることはない。また、本実施形態によれば、音韻情報と音符情報の何れを先に入力しても良く、これら情報の入力順に制約はない。

なお、本実施形態では、最先の合成情報の入力タイミングから待ち時間ＴＷが経過するまでに全ての合成情報が揃わなかった場合には歌唱合成処理を実行しない場合について説明した。しかし、待ち時間ＴＷの経過の時点でダミー音の出力を停止させるものの、後続の合成情報の入力は待ち時間ＴＷの経過とは無関係に待ち受けを継続し、全ての合成情報が揃った時点で歌唱合成処理を実行するようにしても勿論良い。また、より自然な聴感を演出するために、ダミー音出力処理においては、音量が徐々に大きくなるように音量制御を行う処理（ダミー音信号の信号レベルを所定の値まで徐々に大きくする処理）を制御部１１０に実行させても良い。また、ダミー音の生成態様によってダミー音と合成歌唱音声のつなぎめを滑らかにするのではなく、ダミー音と歌唱合成音とがクロスフェードするようにダミー音信号と合成音声信号の信号レベルを調整する処理を制御部１１０に実行させても良い。具体的には、図２（ｂ）における音素片[ｂｒ−＃]の出力終了時刻が音素片[＃−ｓ]の出力開始時刻よりも後になるようにしつつ、前者の信号レベルを無音まで徐々に引き下げ、かつ後者の信号レベルを無音から徐々に引き上げるようにすれば良い。

また、ダミー音の出力停止をユーザに指示させるための操作子を操作部１２０に設け、当該操作子が操作されたことを契機として所定の制御信号を操作部１２０に出力させる一方、制御部１１０には、上記待ち時間ＴＷの間に当該制御信号を受け取った場合にはその時点でダミー音出力処理の実行を中止させても良い。このような態様によれば、操作部１２０に対するミスタッチなどにより音韻情報または音符情報が誤入力され、ダミー音の出力が開始された場合であっても、上記操作子の操作によってダミー音の出力を停止させることができ、誤入力の発生から待ち時間ＴＷが経過するまでダミー音が出力され続けることを回避することができる。

また、本実施形態では、音韻情報と音符情報の入力順を問わず、先に入力された方の入力を契機としてダミー音出力処理を制御部１１０に実行させ、他方の入力を契機として歌唱合成処理を制御部１１０に実行させた。しかし、歌唱合成装置の動作モードとして歌唱音声の合成を行う歌唱合成演奏モードと、歌唱合成を行わずに音符情報の示す音高の楽器音を出力する楽器音演奏モードの２種類を用意しておき、音韻情報と音符情報の何れが先に入力されたのかに応じて動作モードの切り替えを行うようにしても良い。例えば、歌唱合成演奏モードで動作している状態において音韻情報が先に入力された場合にはダミー音出力処理を制御部１１０に実行させ、音符情報が先に入力された場合には即座に（或いは待ち時間ＴＷが経過するまでに音韻情報が入力されなかった場合に）動作モードを楽器音演奏モードに切り替える処理を制御部１１０に実行させるのである。同様に、楽器音演奏モードにおいて音韻情報が先に入力された場合には即座に（或いは待ち時間ＴＷが経過するまでに音符情報が入力されなかった場合に）動作モードを歌唱合成演奏モードに切り替える処理を制御部１１０に実行させ、音符情報が先に入力された場合にはダミー音出力処理を制御部１１０に実行させるのである。このような態様によれば、歌唱合成演奏と楽器音演奏とを操作部１２０に対する操作によってシームレスに切り替えながらユーザに実施させることができる、といった効果が奏される。

（Ｂ：第２実施形態）
上記第１実施形態では、ノイズ音やブレス音、鼻音、または、継続可能な所定の音素を所定の音高で出力した音などユーザにより入力される音韻情報や音符情報とは無関係な音であって、継続可能な音をダミー音として用いる場合について説明した。これに対して、本実施形態では、最先の合成情報（すなわち、音韻情報と音符情報のうち先に入力された方）に応じたダミー音を出力する点が上記第１実施形態と異なる。本実施形態の歌唱合成装置のハードウェア構成は上記第１実施形態と同一であるため詳細な説明を省略し（第３および第４実施形態も同様）、以下では、音韻情報が先に入力された場合と音符情報が先に入力された場合に分けて本実施形態のダミー音出力処理を説明する。

（Ｂ−１：音韻情報を先に受け取った場合）
この場合、制御部１１０は、音韻情報の示す先頭の音素が継続可能な音素であるかを判定し、その判定結果が“Ｙｅｓ”である場合には、当該先頭の音素を予め定められた所定の音高で出力し続ける音をダミー音として出力する。逆に、上記判定結果が“Ｎｏ”である場合には、制御部１１０は、前述した第１実施形態と同様に、ノイズ音やブレス音、鼻音、所定の継続可能な音素を所定の音高で出力し続ける音或いは所定の音高を有する周期音をダミー音として出力する。

（Ｂ−２：音符情報を先に受け取った場合）
この場合、制御部１１０は、音符情報の示す音高を有する周期音（または所定の継続可能な音素を当該音高で出力し続ける音）をダミー音として出力する。

以上に説明したことをまとめると、最先の合成情報（音韻情報と音符情報のうち先に入力された方）に応じたダミー音を出力する場合におけるダミー音は、図３に示すようにカテゴリ分けすることができる。本実施形態によっても、歌唱合成に用いる複数種類の合成情報の各々の入力タイミングに時間差があっても、最先の合成情報の入力時点から遅滞なく音が出力され、ユーザに違和感を抱かせないようにすることができる。なお、待ち時間ＴＷの長さを図３に示すカテゴリ毎に異ならせても良く、待ち時間ＴＷの長さを音韻の種別毎にユーザが設定できるようにしても良い。また、本実施形態によれば、最先の合成情報に応じたダミー音が出力されるため、当該情報とは無関係な音をダミー音として用いる場合に比較してダミー音から合成歌唱音声への遷移が滑らかになり、より自然な聴感を演出できると期待される。

（Ｃ：第３実施形態）
上記第１および第２実施形態では、最先の合成情報の入力時点から合成歌唱音声の出力が開始されるまでの間、ダミー音を出力する場合について説明した。これに対して、本実施形態では、最先の合成情報の入力時点から合成歌唱音声の出力が開始されるまでの間に出力されるダミー音を順次切り替える点に特徴がある。具体的には、本実施形態の歌唱合成装置の制御部１１０は、図４（ａ）に示すように、音韻情報と音符情報のうち先に入力された方の入力時点からダミー音Ｄ１の出力を開始し、他方の入力を契機としてダミー音Ｄ１の出力を停止するとともにダミー音Ｄ１とは異なるダミー音Ｄ２の出力を開始し、合成歌唱音声の出力が開始されるまでダミー音Ｄ２の出力を継続するのである。

例えば、図４（ａ）では、音韻情報が先に入力された場合について例示されている。この場合、音韻情報に応じた音をダミー音Ｄ１として出力し、その後、音符情報が入力されたことを契機としてダミー音Ｄ１の出力を停止するとともに、当該音符情報に応じた音をダミー音Ｄ２として出力する態様が考えられる。また、ダミー音Ｄ２として、ダミー音Ｄ１の音高を音符情報の示す音高となるようにピッチ変換した音を用いるようにしても良い。このように、音韻情報と音符情報のうち後に入力される方の入力を契機としてダミー音を切り替える態様においては、ダミー音Ｄ１とダミー音Ｄ２とをクロスフェードさせても良く、さらに、ダミー音Ｄ２と合成音声とをクロスフェードさせても良い。

なお、音韻情報として「ｓａ」と入力すべきところ、「ｔ」が誤入力され、その後、「ｓａ」と入力された場合には、図４（ｂ）に示すように、「ｔ」の入力を契機としてダミー音Ｄ１０を出力し、「ｓ」の入力を契機としてダミー音Ｄ２０を出力し、音符情報の入力を契機としてダミー音Ｄ３０を出力する処理を制御部１１０に実行させるようにすれば良い。この場合、図３に示すカテゴリ分類にしたがって、「ｔ」は継続不能であるためダミー音Ｄ１０としてブレス音等を用い、「ｓ」は継続可能であるためダミー音Ｄ２０として当該音素（すなわち、「ｓ」）を所定の音高で出力した音を用い、ダミー音Ｄ３０として「ｓ」を音符情報の示す音高で出力した音を用いるようにすれば良い。

本実施形態によっても、歌唱合成に用いる複数種類の合成情報の各々の入力タイミングに時間差があっても、最先の合成情報の入力時点から遅滞なく音が出力され、ユーザに無用な違和感を抱かせることはない。また、ダミー音Ｄ１として音符情報と音韻情報のうち先に入力された方に応じた音を用い、ダミー音Ｄ２として音符情報と音韻情報の両者に応じた音を用いるようにすれば、上記第２実施形態における場合よりもさらに滑らかにダミー音と合成歌唱音声とがつながり、さらに自然な聴感を演出できると期待される。なお、本実施形態では、他の種類の合成情報の入力を契機としてダミー音を切り替える場合について説明したが、ダミー音Ｄ１の出力を開始してから所定時間が経過した時点でダミー音Ｄ２に切り替えるようにしても良い。また、最先の合成情報の入力時点から合成歌唱音声の出力が開始されるまでの間にダミー音の切り替えを複数回行っても勿論良い。要は、複数種類の合成情報のうち最先のものが入力されてから合成歌唱音声の出力が開始されるまでの間、複数種のダミー音が順次出力されるようにダミー音信号を切り替える態様であれば良い。

（Ｄ：第４実施形態）
上記第１〜第３実施形態では、最先の合成情報（音符情報と音韻情報のうちの先に入力された方）の入力を契機としてダミー音出力処理を開始した。これに対して、本実施形態では、図５に示すように、最先の合成情報の入力時点を起算点として所定時間ＴＭが経過した時点からダミー音の出力を開始する点が異なる。そして、本実施形態では、上記所定時間ＴＭが経過するまでに音符情報と音韻情報のうちの他方が入力され、音韻情報の示す先頭の音素が継続可能な音素である場合には、それら音符情報と音韻情報の両者に応じた音（例えば、当該音素を音符情報の示す音高で出力し続ける音）をダミー音として出力し、その他の場合は先に入力された方の情報に応じた音或いはブレス音等をダミー音として出力する。このような態様によっても、合成歌唱音声に先行してダミー音が出力されるため、ユーザの違和感を軽減することができる。なお、入力操作から実際に合成歌唱音声の出力が開始されるまでの遅延をどの程度許容できるかについては個人差があるので、上記時間ＴＭの長さについてはユーザの所望に応じて適宜調整できることが好ましい。

（Ｅ：変形）
以上本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
（１）上記各実施形態では、歌唱合成に用いる複数種類の合成情報の具体例として、音韻情報と音符情報（韻律情報）を説明したが、音韻情報および音符情報（韻律情報）に加えてベロシティや音符制御情報をダミー音信号の出力制御に利用しても勿論良い。ベロシティとは音の強さを示す情報であり、ＭＩＤＩにおいては、音高を示す音高情報とともに音符情報を形成する。このようなベロシティの利用方法としては、１つ前の音符についての音符情報に含まれていたベロシティに応じてダミー音の出始めの音量を制御する（ベロシティが大きいほど音量を大きくする）態様が考えられる。また、音符制御情報の一例としてはビブラートやコントロールデータとしてのアタックやリリースが挙げられる。ビブラートを示す音符制御情報が与えられた場合にはダミー音にビブラートを付与し、コントロールデータとしてのアタックの大きさに応じてダミー音の立ち上がりの音量を変化させるようにすれば良い。

ベロシティを合成情報として用いる場合、ベロシティは音高情報とともに音符情報を構成する。このため、韻律情報の役割を果たす音符情報の取得によりベロシティも取得される。しかし、ビブラートの付与を示す情報については、必須の合成情報の何れかと同時に取得されるとは限らない。その一方、必須の合成情報が揃っているにも関わらずダミー音が出力され続けることは好ましくない。そこで、音韻情報と韻律情報の他に、ビブラートの付与を示す情報など必ずしも必須ではない情報を合成情報として用いる場合には、複数種類の合成情報のうちの最先のものの入力から必須の合成情報が揃うまでの間に入力された合成情報を用いて歌唱音声の合成を行うようにすれば良い。例えば、最先の合成情報が音韻情報である場合には、音韻情報の次に音符情報が入力された場合にはその時点で歌唱音声の合成を開始する一方、音韻情報の次にビブラートの付与を示す情報が入力された場合にはさらに音符情報の入力を待ってビブラートを付与した歌唱音声を合成するのである。なお、音韻情報の入力を契機として当該音韻情報の示す先頭の音韻を所定の音高で出力するダミー音の出力を開始する場合には、ビブラートの付与を示す情報の入力を契機として当該ダミー音に当該音高を基準とするビブラートを付与しても良い。また、最先の合成情報が音韻情報ではなく、韻律情報でもない場合は、前述した第１実施形態と同様にノイズ音やブレス音等の所定の音をダミー音として出力するようにすれば良い。

（２）上記各実施形態では、歌唱合成に用いる複数種類の合成情報を入力するための操作部１２０と、合成歌唱音声を出力するための音声出力部１４０が歌唱合成装置１に内蔵されていた。しかし、操作部１２０および音声出力部１４０の何れか一方或いは両方を歌唱合成装置１の外部機器Ｉ／Ｆ部１５０に接続する態様であっても良い。操作部１２０および音声出力部１４０の両者を外部機器Ｉ／Ｆ部１５０に接続する態様の一例としては、外部機器Ｉ／Ｆ部１５０としてイーサネット（登録商標）インタフェースを用い、この外部機器Ｉ／Ｆ部１５０にＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を接続するとともに、この電気通信回線に操作部１２０および音声出力部１４０を接続する態様が挙げられる。このような態様によれば、所謂クラウドコンピューティング形式の歌唱合成サービスを提供することが可能になる。具体的には、操作部１２０の操作により入力された音韻情報および音符情報を電気通信回線を介して歌唱合成装置に与え、歌唱合成装置には、電気通信回線を介して与えられた音韻情報および音符情報に基づいて歌唱合成処理を実行させる。そして、歌唱合成装置により合成された合成歌唱音声の音声データは電気通信回線を介して音声出力部１４０に与えられ、音声出力部１４０は当該音声データに応じた音を出力する。

（３）上記各実施形態では、歌唱合成装置に複数種類の合成情報を入力するための入力手段（操作部１２０）として歌唱合成用キーボードを用いたが、テンキーやカーソルキー、アルファベットの各文字に対応したキーなどを配列した一般的なキーボードと、所謂ＭＩＤＩキーボードの組み合わせを上記入力手段としても良い。一般的なキーボードとＭＩＤＩキーボードの組み合わせを上記入力手段として用いる場合には、ＭＩＤＩキーボードに音符情報入力部の役割を担わせ、一般的なキーボードに音韻情報入力部の役割を担わせれば良い。また、ＧＵＩとマウスなどのポインティングデバイスとの組み合わせにより音符情報入力部或いは音韻情報入力部を実現しても良い。ＧＵＩとマウスなどのポインティングデバイスとの組み合わせにより音符情報入力部を実現する場合には、音韻情報入力部の役割を担う一般的なキーボードと当該音符情報入力部との組み合わせにより上記入力手段を実現することができる。また、ＧＵＩとマウスなどのポインティングデバイスとの組み合わせにより音韻情報入力部を実現する場合には、音符情報入力部の役割を担うＭＩＤＩキーボードと当該音韻情報入力部との組み合わせにより上記入力手段を実現することができる。

（４）上記各実施形態では、歌唱合成処理とダミー音出力処理とを制御部１１０に実行させる歌唱合成プログラム１６２ｂが歌唱合成装置１の不揮発性記憶部１６２に予め格納されていた。しかし、この歌唱合成プログラム１６２ｂをＣＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムをパーソナルコンピュータなどの一般的なコンピュータに実行させることによって、そのコンピュータを上記実施形態の歌唱合成装置１として機能させることが可能になるからである。また、リアルタイム方式の歌唱合成処理を一部に含むゲームのゲームプログラムに本発明を適用しても勿論良い。具体的には、当該ゲームプログラムに含まれている歌唱合成プログラムを歌唱合成プログラム１６２ｂに差し替えても良い。ゲームにおいても、最先の合成情報の入力タイミングと合成音声の出力タイミングの時間差を小さくすることが好ましいことには変わりはないからである。

（５）上記各実施形態では、リアルタイム方式の歌唱合成装置への本発明の適用例を説明した。しかし、本発明の適用対象はリアルタイム方式の歌唱合成装置に限定されるものではない。例えば、音声ガイダンスにおける案内音声をリアルタイム方式で合成する音声合成装置、或いは小説や詩などの文芸作品の朗読音声をリアルタイム方式で合成する音声合成装置に本発明を適用しても良い。これらの音声合成装置においても、発話内容を表す音韻情報と発話態様を示す韻律情報が揃ったことを契機として音声合成処理が実行されることは、上記各実施形態の歌唱合成装置と変わりはないからである。また、本発明の適用対象は歌唱合成機能や音声合成機能を有する玩具（歌唱合成装置や音声合成装置を内蔵した玩具）であっても良い。

１…歌唱合成装置、１１０…制御部、１２０…操作部、１３０…表示部、１４０…音声出力部、１４２…Ｄ／Ａ変換器、１４４…増幅器、１４６…スピーカ、１５０…外部機器Ｉ／Ｆ、１６０…記憶部、１６２…不揮発性記憶部、１６２ａ…歌唱合成ライブラリ、１６２ｂ…歌唱合成プログラム、１６２ｃ…ダミー音ライブラリ、１６４…揮発性記憶部、１７０…バス。

Claims

音声信号の合成に用いる複数種類の合成情報であって、合成対象の音声の音韻を示す音韻情報と当該音声における韻律変化を示す韻律情報とを含む複数種類の合成情報を入力するための入力手段と、
前記複数種類の合成情報のうちの最先のものが前記入力手段へ入力されてから少なくとも前記音韻情報と前記韻律情報が揃うまでの間に前記入力手段を介して入力された合成情報を用いて音声信号を合成して出力するとともに、当該最先の合成情報が入力されてから当該音声信号の出力が開始されるまでの間、ダミー音を表すダミー音信号を出力する音声合成手段と、
を有することを特徴とする音声合成装置。
前記音声合成手段は、前記入力手段へ入力された合成情報を用いて合成された音声信号の表す音声と前記ダミー音とが滑らかにつながるように、ダミー音信号を生成して、または当該音声信号とダミー音信号の両者の信号レベルを調整して、出力することを特徴とする請求項１に記載の音声合成装置。
前記音声合成手段は、ダミー音の音量が徐々に大きくなるように信号レベルを調整しつつダミー音信号を出力することを特徴とする請求項１または２に記載の音声合成装置。
前記音声合成手段は、前記複数種類の合成情報のうち最先のものが入力されてから、前記入力手段へ入力された合成情報を用いて合成された音声信号の出力が開始されるまでの間、複数種のダミー音が順次出力されるようにダミー音信号を切り替えることを特徴とする請求項１〜３の何れか１項に記載の音声合成装置。
前記音声合成手段は、前記複数種類の合成情報のうちの最先のものが入力されてから所定の待ち時間が経過するまでに少なくとも前記音韻情報と前記韻律情報が揃わなかった場合には、前記ダミー音信号の出力を停止することを特徴とする請求項１〜３の何れか１項に記載の音声合成装置。