JP2014186307A

JP2014186307A - 音声合成装置

Info

Publication number: JP2014186307A
Application number: JP2014006983A
Authority: JP
Inventors: Yuji Hisaminato; 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-02-22
Filing date: 2014-01-17
Publication date: 2014-10-02
Anticipated expiration: 2034-01-17
Also published as: CN104021783B; US9424831B2; CN104021783A; EP2770499A1; EP2770499B1; US20140244262A1; JP5817854B2

Abstract

【課題】合成音声の発音時点を利用者が実時間的に変更することを可能にする。
【解決手段】操作特定部２２は、利用者による操作に応じて移動する操作位置を特定する。操作予測部２６は、操作位置が基準位置に到達する指示時点を操作位置の移動速度に応じて予測する。音声合成部２８は、第１音素に第２音素が後続する音声が指示された場合に、操作位置が基準位置に到達する指示時点の到来前に第１音素が発音されるとともに指示時点の到来により第１音素から第２音素に遷移する音声の音声信号Ｚを生成する。
【選択図】図１

Description

本発明は、音声を合成する技術に関する。

所望の文字列を発音した音声を合成する音声合成技術が従来から提案されている。例えば特許文献１には、楽曲を構成する音符毎に発音時点と発音文字（歌詞）とを指定した楽曲情報を事前に用意し、各音符の発音文字に対応する音声素片を時間軸上の発音時点に配置して相互に連結することで楽曲の歌唱音を合成する素片接続型の音声合成技術が開示されている。

特開２００２−２０２７９０号公報

しかし、特許文献１の技術では、音符毎に事前に設定された発音時点および発音文字の歌唱音が生成され、音声合成の段階で各発音文字の発音時点を実時間的に変更することはできない。以上の事情を考慮して、本発明は、合成音声の発音時点を利用者が実時間的に変更できるようにすることを目的とする。

以上の課題を解決するために、本発明の音声合成装置は、利用者による操作に応じて移動する操作位置を特定する操作特定手段と、第１音素（例えば音素Ｑ1）に第２音素（例えば音素Ｑ2）が後続する音声が指示された場合に、操作位置が基準位置に到達する指示時点の到来前に第１音素が発音されるとともに指示時点の到来により第１音素から第２音素に遷移する音声の音声信号を生成する音声合成手段とを具備する。以上の構成によれば、第１音素から第２音素に遷移する時点を利用者による操作に応じて実時間的に制御することが可能である。

本発明の好適な態様に係る音声合成装置は、操作位置の移動速度に応じて指示時点を予測する動作予測手段を具備する。以上の態様では、実際に操作位置が基準位置に到達する以前に指示時点が予測されるから、利用者が意図した時点から実際に第２音素が開始されるまでの遅延を低減することが可能である。なお、第１音素および第２音素の各々は、典型的には１個の音素で構成されるが、複数の音素の系列（音素群）を第１音素または第２音素とすることも可能である。

本発明の好適な態様において、操作予測手段は、操作位置が予測開始位置から予測実行位置に移動する時間長に応じて指示時点を予測する。更に好適な態様において、操作予測手段は、第１音素の種類に応じて予測実行位置を可変に設定する。以上の構成では、操作経路のうち第１音素の種類に応じた適切な区間内の操作位置の移動を指示時点の予測に反映させることが可能である。なお、「音素の種類に応じて予測実行位置を可変に設定する」とは、第１音素が特定の音素Ａである場合と第１音素が音素Ａとは相違する音素Ｂである場合とで予測実行位置が相違することを意味し、全部の種類の音素について予測実行位置が相違することまでは必要ではない。

本発明の好適な態様において、音声合成手段は、基準位置に向けて移動する操作位置が発音開始位置を通過する時点にて第１音素を終点側に含む音声素片（例えば音声素片ＶA）を発音させる。更に好適な態様において、音声合成手段は、第１音素の種類に応じて発音開始位置を可変に設定する。以上の態様では、第１音素の種類に応じた適切な時点で第１音素の発音を開始させることが可能である。なお、「音素の種類に応じて発音開始位置を可変に設定する」とは、第１音素が特定の音素Ａである場合と第１音素が音素Ａとは相違する音素Ｂである場合とで発音開始位置が相違することを意味し、全部の種類の音素について発音開始位置が相違することまでは必要ではない。

本発明の好適な態様において、音声合成手段は、相異なる音高に対応する複数の操作経路のうち利用者が操作位置を移動させる対象操作経路に対応した音高の音声信号を生成する。以上の態様では、利用者が操作位置を移動させる対象操作経路に対応する音高の音声が生成されるから、音声の発音時点に加えて音声の音高も利用者が実時間的に制御できるという利点がある。なお、以上の態様の具体例は、例えば第２実施形態として後述される。

本発明の好適な態様において、音声合成手段は、相異なる発音符号に対応する複数の操作経路のうち利用者が操作位置を移動させる対象操作経路に対応した発音符号の音声信号を生成する。以上の態様では、利用者が操作位置を移動させる対象操作経路に対応する発音符号の音声信号が生成されるから、音声の発音時点に加えて音声の発音符号も利用者が実時間的に制御できるという利点がある。なお、以上の態様の具体例は、例えば第３実施形態として後述される。

本発明の好適な態様において、音声合成手段は、基準位置に向かう操作経路に交差する方向における操作位置に応じた音高の音声信号を生成する。以上の態様では、操作経路に交差する方向（例えばＹ軸の方向）における操作位置に応じた音高の音声が生成されるから、音声の発音時点に加えて音声の音高も利用者が実時間的に制御できるという利点がある。なお、以上の態様の具体例は、例えば第５実施形態として後述される。

本発明の好適な態様において、音声合成手段は、第１音素に第２音素が後続する音声と、第３音素に第４音素が後続する音声とが指示された場合に、操作位置が操作経路上を第１方向に移動して第１基準位置に到達する指示時点の到来前に第１音素が発音されるとともに当該指示時点の到来により第１音素から第２音素に遷移する音声の音声信号を生成し、第１方向とは反対の第２方向に操作位置が操作経路上を移動して第２基準位置に到達する指示時点の到来前に第３音素が発音されるとともに当該指示時点の到来により第３音素から第４音素に遷移する音声の音声信号を生成する。以上の態様では、操作位置を第１方向に移動させる操作で第１音素から第２音素に遷移する時点が制御され、操作位置を第２方向に移動させる操作で第３音素から第４音素に遷移する時点が制御される。したがって、利用者が各音声の発音時点を指示する操作の負担を軽減することが可能である。

以上の各態様に係る音響合成装置は、音声信号の生成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。具体的には、本発明のプログラムは、利用者による操作に応じて移動する操作位置を特定する操作特定処理と、第１音素に第２音素が後続する音声が指示された場合に、操作位置が基準位置に到達する指示時点の到来前に第１音素が発音されるとともに指示時点の到来により第１音素から第２音素に遷移する音声の音声信号を生成する音声合成処理とをコンピュータに実行させる。以上の態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

第１実施形態の音声合成装置のブロック図である。操作位置の説明図である。操作予測部の動作の説明図である。発音符号（音素）と音声素片との関係の説明図である。音声合成部の動作の説明図である。音声合成部の動作の説明図である。合成処理のフローチャートである。第２実施形態における操作画面の模式図である。第３実施形態における操作画面の模式図である。第４実施形態における音声合成部の動作の説明図である。第５実施形態における操作画面の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。図１に示すように、音声合成装置１００は、楽曲を歌唱した音声の波形を示す音声信号Ｚを生成する信号処理装置であり、演算処理装置１０と記憶装置１２と表示装置１４と操作装置１６と放音装置１８とを具備するコンピュータシステムで実現される。演算処理装置１０は、音声合成装置１００の各要素を統括的に制御する制御装置である。

表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。操作装置１６は、音声合成装置１００に対する利用者からの指示を受付ける入力機器であり、利用者による操作に応じた操作信号Ｍを生成する。第１実施形態では、表示装置１４と一体に構成されたタッチパネルを操作装置１６として例示する。すなわち、操作装置１６は、表示装置１４の表示面に対する利用者の手指の接触を検知するとともに接触の位置に応じた操作信号Ｍを出力する。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置１０が生成した音声信号Ｚに応じた音波を再生する。なお、演算処理装置１０が生成した音声信号Ｚをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

記憶装置１２は、演算処理装置１０が実行するプログラムＰGMや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、音声素片群Ｌと合成情報Ｓとを記憶する。音声素片群Ｌは、音声信号Ｚの合成用素材として利用される複数の音声素片Ｖの集合（音声合成ライブラリ）である。音声素片Ｖは、音韻論的な区別の最小単位である音素（例えば母音や子音）の単体や複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。

合成情報Ｓは、楽曲の内容（旋律や歌詞）を指定する時系列データであり、楽曲毎に事前に生成されて記憶装置１２に記憶される。図１に示すように、合成情報Ｓは、楽曲の歌唱パートの旋律を構成する複数の音符の各々について音高ＳAと発音符号ＳBとを指定する。音高ＳAは、音符の音高を意味する数値（例えばノートナンバ）である。発音符号ＳBは、音符の発音とともに発声すべき発音内容を指示する符号である。第１実施形態の発音符号ＳBは、楽曲の歌詞を構成する１個の音節（発音単位）に相当する。合成情報Ｓを利用した音声合成で楽曲の歌唱音の音声信号Ｚが生成される。第１実施形態では、操作装置１６に対する利用者からの指示に応じて楽曲の各音符の発音時点が制御される。したがって、楽曲を構成する複数の音符の順番は合成情報Ｓで指定されるが、各音符の発音時点や継続長は合成情報Ｓでは指定されない。

演算処理装置１０は、記憶装置１２に記憶されたプログラムＰGMを実行することで、音声信号Ｚを生成するための複数の機能（操作特定部２２，表示制御部２４，操作予測部２６，音声合成部２８）を実現する。なお、演算処理装置１０の各機能を複数の集積回路に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置１０の一部の機能を担当する構成も採用され得る。

表示制御部２４は、操作装置１６の操作時に利用者が視認する図２の操作画面５０Aを表示装置１４に表示させる。図２の操作画面５０Aは、端部（左端）ＥLと端部（右端）ＥRとの間でＸ方向に延在する直線（以下「操作経路」という）Ｇと、操作経路Ｇ上に配置された操作図像５２（ポインター）とを含むスライダ型の画像である。図１の操作特定部２２は、操作装置１６から供給される操作信号Ｍに応じて操作経路Ｇのうち利用者が指示した位置（以下「操作位置」という）Ｐを特定する。利用者は、表示装置１４の表示面のうち操作経路Ｇ上の任意の位置に手指を接触させることで当該位置を操作位置Ｐとして指示し、表示面に接触した状態を維持したまま手指を操作経路Ｇに沿って移動させる（ドラッグ操作）ことで操作位置Ｐを端部ＥLと端部ＥRとの間でＸ方向に移動させることが可能である。すなわち、操作特定部２２は、操作装置１６に対する利用者からの操作に応じてＸ方向に移動する操作位置Ｐを特定する。表示制御部２４は、操作経路Ｇのうち操作特定部２２が特定した操作位置Ｐに操作図像５２を配置する。すなわち、操作図像５２は、操作位置Ｐを表現する図形（図２の例示では円形）であり、操作装置１６に対する利用者からの指示に応じて端部ＥLと端部ＥRとの間でＸ方向に移動する。

利用者は、音声信号Ｚの再生に並行して操作装置１６を操作して操作位置Ｐを移動させることで、合成情報Ｓが指定する各音符の発音時点を任意に指示することが可能である。具体的には、楽曲内の１個の音符の発音が開始される時点として利用者が希望する任意の時点（以下「指示時点」という）ＴBにて操作位置Ｐが操作経路Ｇ上の特定の位置（以下「基準位置」という）ＰBに到達するように、利用者は、基準位置ＰB以外の位置から基準位置ＰBに向けて操作位置Ｐを移動させる。第１実施形態では、図２に示すように、操作経路Ｇの端部（右端）ＥRを基準位置ＰBとして例示する。すなわち、利用者は、楽曲内の１個の音符の所望の指示時点ＴBの到来前に、表示面の端部ＥLの位置に手指を接触させて操作位置Ｐを端部ＥLに設定し、操作位置Ｐが所望の指示時点ＴBにて基準位置ＰB（端部ＥR）に到達するように、表示面に接触した状態で手指をＸ方向に移動させる。以上のように操作位置Ｐを基準位置ＰBまで移動させる操作（以下「発音指示操作」という）を、音声信号Ｚの再生に並行して音符毎（歌詞の音節毎）に逐次的に反復することで、発音指示操作毎に設定される指示時点ＴBが楽曲内の各音符の発音時点として指示される。

図１の操作予測部２６は、基準位置ＰB（端部ＥR）に到達する以前の操作位置Ｐの移動速度νに応じて、操作位置Ｐが実際に基準位置ＰBに到達する以前に指示時点ＴBを予測（推定）する。具体的には、操作予測部２６は、操作経路Ｇ上に設定された予測開始位置ＣSから予測実行位置ＣEまでの距離δを操作位置Ｐが移動する時間長τに応じて指示時点ＴBを予測する。第１実施形態では、図２に示すように、操作経路Ｇの端部（左端）ＥLを予測開始位置ＣSとして想定する。他方、予測実行位置ＣEは、操作経路Ｇのうち予測開始位置ＣS（端部ＥL）から基準位置ＰB（端部ＥR）までの途中の時点である。

図３は、操作予測部２６の動作の説明図であり、操作位置Ｐ（横軸）の時間変化を意味する。図３に示すように、操作予測部２６は、発音指示操作により操作位置Ｐが時点ＴSにて予測開始位置ＣSを出発してから時点ＴEにて予測実行位置ＣEを通過するまでに経過した時間長τを計測し、予測開始位置ＣSと予測実行位置ＣEとの距離δを時間長τで除算することで操作位置Ｐの移動速度νを算定する。そして、操作予測部２６は、操作位置Ｐが予測開始位置ＣSから移動速度νの等速でＸ方向に移動したと仮定した場合に操作位置Ｐが基準位置ＰBに到達する時刻を指示時点ＴBとして算定する。なお、以上の例示では操作位置Ｐの移動速度νが一定であると仮定したが、移動速度νの経時的な増加や減少を加味して指示時点ＴBを予測することも可能である。

図１の音声合成部２８は、合成情報Ｓで指定された楽曲を歌唱した音声の音声信号Ｚを生成する。第１実施形態の音声合成部２８は、記憶装置１２に記憶された音声素片群Ｌの各音声素片Ｖを相互に接続する素片接続型の音声合成により音声信号Ｚを生成する。具体的には、音声合成部２８は、合成情報Ｓが音符毎に指定する発音符号ＳBに対応した音声素片Ｖを音声素片群Ｌから順次に選択し、各音符に指定された音高ＳAに各音声素片Ｖを調整して相互に連結することで音声信号Ｚを生成する。音声信号Ｚにおいて各音符が発音される時点（各音声素片Ｖが配置される時間軸上の位置）は、当該音符に対応する発音指示操作の実行時に操作予測部２６が予測した指示時点ＴBに応じて制御される。

図４に示すように、音素Ｑ1に音素Ｑ2が後続する発音符号ＳBが合成情報Ｓにて指定された音符に着目して操作予測部２６および音声合成部２８の動作を説明する。日本語の歌詞を想定すると、典型的には音素Ｑ1は子音であり音素Ｑ2は母音である。例えば、発音符号ＳBが音節「さ[s-a]」である場合、子音の音素/ｓ/（Ｑ1）に母音の音素/ａ/（Ｑ2）が後続する。図４に示すように、音声合成部２８は、発音符号ＳBに対応する音声素片ＶAおよび音声素片ＶBを音声素片群Ｌから選択する。音声素片ＶAおよび音声素片ＶBの各々は、図４に示すように、当該素片の始点側の音素（以下「前方音素」という）と終点側の音素（以下「後方音素」という）とを連結した音素連鎖（ダイフォン）である。

音声素片ＶAの後方音素は発音符号ＳBの音素Ｑ1に相当する。また、音声素片ＶBの前方音素は発音符号ＳBの音素Ｑ1に相当し、音声素片ＶBの後方音素は発音符号ＳBの音素Ｑ2に相当する。例えば、前掲の例示のように音素/ｓ/（Ｑ1）に音素/ａ/（Ｑ2）が後続する発音符号ＳB（音節「さ[s-a]」）に着目すると、後方音素が音素/ｓ/である音素連鎖/*-s/が音声素片ＶAとして選択され、前方音素が音素/ｓ/であり後方音素が音素/ａ/である音素連鎖/s-a/が音声素片ＶBとして選択される。なお、音声素片ＶAの前方音素に付与された記号「＊」は、直前の発音符号ＳBに対応する特定の音素Ｑ2または無音/＃/を意味する。

ところで、例えば母音が子音に後続する音節を歌唱する場合を想定すると、実際の楽曲の歌唱では、当該音節内の子音の発音が各音符の始点から開始されるのではなく、音節内の母音（すなわち音節内の後方の音素）の発音が各音符の始点にて開始されるという傾向がある。以上の傾向が再現されるように、第１実施形態の音声合成部２８は、発音符号ＳBの音素Ｑ1の発音が指示時点ＴBの到来前に開始されるとともに発音符号ＳBの音素Ｑ2の発音が指示時点ＴBで開始されるように音声信号Ｚを生成する。具体的には以下の通りである。

利用者は、操作装置１６を適宜に操作することで、操作経路Ｇの端部ＥL（予測開始位置ＣS）から基準位置ＰBに向けてＸ方向に操作位置Ｐを移動させる。図５から理解される通り、音声合成部２８は、操作経路Ｇ上に設定された特定の位置（以下「発音開始位置」という）ＰAを操作位置Ｐが通過する時点ＴAから音声素片ＶA（前方音素/*/）が開始するように音声信号Ｚを生成する。すなわち、音声素片ＶAの始点は、操作位置Ｐが発音開始位置ＰAを通過する時点ＴAに略一致する。

音声合成部２８は、操作経路Ｇ上の発音開始位置ＰAを音素Ｑ1の種類に応じて可変に設定する。例えば、発音開始位置ＰAを音素Ｑ1の種類毎に登録したテーブルが記憶装置１２に記憶され、合成情報Ｓで指定される発音符号ＳBの音素Ｑ1に対応する発音開始位置ＰAを、音声合成部２８が記憶装置１２のテーブルから特定する。音素Ｑ1の種類と発音開始位置ＰAとの関係は任意であるが、例えば、音響特性が短時間で非定常に変動して時間的な持続性が低い破裂音や破擦音等の音素の発音開始位置ＰAは、定常的に発音が継続され得る摩擦音や鼻音等の音素の発音開始位置ＰAと比較して時間的に後方に位置する。具体的には、破裂音の音素/ｔ/の発音開始位置ＰAは操作経路Ｇの端部ＥLから５０％の地点に設定され、摩擦音の音素/ｓ/の発音開始位置ＰAは操作経路Ｇの端部ＥLから２０％の地点に設定される。ただし、各音素の発音開始位置ＰAは以上の例示（５０％，２０％）に限定されない。

発音指示操作により操作位置ＰがＸ方向に移動して予測実行位置ＣEを通過すると、操作予測部２６は、操作位置Ｐが予測開始位置ＣSを通過（出発）した時点ＴSと予測実行位置ＣEを通過した時点ＴEとの間の時間長τに応じて、操作位置Ｐが基準位置ＰBに到達する指示時点ＴBを算定する。

操作予測部２６は、操作経路Ｇ上の予測実行位置ＣE（距離δ）を音素Ｑ1の種類に応じて可変に設定する。例えば、予測実行位置ＣEを音素Ｑ1の種類毎に登録したテーブルが記憶装置１２に記憶され、合成情報Ｓで指定される発音符号ＳBの音素Ｑ1に対応する予測実行位置ＣEを、操作予測部２６が記憶装置１２のテーブルから特定する。音素Ｑ1の種類と予測実行位置ＣEとの関係は任意であるが、例えば、音響特性が短時間で非定常に変動して時間的な持続性が低い破裂音や破擦音等の音素の予測実行位置ＣEは、定常的に発音が継続され得る摩擦音や鼻音等の音素の予測実行位置ＣEと比較して端部ＥL側に位置する。

音声合成部２８は、図５に示すように、操作予測部２６が特定した指示時点ＴBから音声素片ＶBの音素Ｑ2が開始するように音声信号Ｚを生成する。具体的には、発音開始位置ＰAにて開始した音声素片ＶAの音素Ｑ1に引続いて音声素片ＶBの音素（前方音素）Ｑ1の発音が指示時点ＴBの到来前に開始し、かつ、音声素片ＶBの音素Ｑ1が指示時点ＴBにて音素（後方音素）Ｑ2に遷移する。すなわち、音声素片ＶBの音素Ｑ2の始点（音素Ｑ1と音素Ｑ2との境界）は、操作予測部２６が特定した指示時点ＴBに略一致する。

音声合成部２８は、指示時点ＴBまで音素Ｑ1が継続するように音声素片ＶAの音素Ｑ1と音声素片ＶBの音素Ｑ1とを時間軸上で適宜に伸縮する。例えば、音声素片ＶAおよび音声素片ＶBの一方または双方の音素Ｑ1のうち音響特性が定常的に維持される区間（例えば音声素片ＶBの音素Ｑ1のうち始点側の区間）を時間軸上で反復させることで音素Ｑ1が伸長され、当該区間内の音声を適宜に間引くことで音素Ｑ2が短縮される。以上の説明から理解される通り、音声合成部２８は、操作位置Ｐが基準位置ＰBに到達すると予測される指示時点ＴBの到来前に音素Ｑ1の発音が開始されるとともに指示時点ＴBの到来により音素Ｑ1から音素Ｑ2に遷移する音声の音声信号Ｚを生成する。

合成情報Ｓが指定する音符毎に発音指示操作に応じた以上の処理が順次に反復される。図６は、「さかな[s-a][k-a][n-a]」という歌詞が合成情報Ｓで指定された場合の各音素（音声素片Ｖ）の発音の時点を例示する説明図である。具体的には、楽曲内の音符Ｎ1の発音符号ＳB1として音節「さ[s-a]」が指定され、音符Ｎ2の発音符号ＳB2として音節「か[k-a]」が指定され、音符Ｎ3の発音符号ＳB3として音節「な[n-a]」が指定される。

図６から理解される通り、音節「さ[s-a]」が指定された音符Ｎ1について利用者が発音指示操作ＯP1を実行すると、音素/ｓ/（Ｑ1）に対応する発音開始位置ＰA[s]を操作位置Ｐが通過する時点ＴA1において、無音/＃/と音素/ｓ/とが連続する音声素片/#-s/（音声素片ＶA）の発音が開始される。そして、音素/ｓ/と音素/ａ/（Ｑ2）とが連続する音声素片/s-a/（音声素片ＶB）の音素/ｓ/の発音が音声素片/#-s/の発音の直後に開始され、音素/ｓ/に対応する予測実行位置ＣE[s]を操作位置Ｐが通過する時点ＴEで操作予測部２６が特定した指示時点ＴB1において、音声素片/s-a/の音素/ａ/の発音が開始される。

同様に、音節「か[k-a]」が指定された音符Ｎ2の発音指示操作ＯP2では、音素/ｋ/（Ｑ1）に対応する発音開始位置ＰA[k]を操作位置Ｐが通過する時点ＴA2を契機として音声素片/a-k/（音声素片ＶA）および音声素片/k-a/（音声素片ＶB）の発音が順次に開始され、かつ、音素/ｋ/に対応する予測実行位置ＣE[k]を操作位置Ｐが通過する時点ＴEで特定された指示時点ＴB2において音声素片/k-a/の音素/ａ/（Ｑ2）が開始される。また、音節「な[n-a]」が指定された音符Ｎ3の発音指示操作ＯP3では、音素/ｎ/（Ｑ1）の発音開始位置ＰA[n]を操作位置Ｐが通過する時点ＴA3を契機として音声素片/a-n/（音声素片ＶA）および音声素片/n-a/（音声素片ＶB）の発音が順次に開始され、かつ、音素/ｎ/の予測実行位置ＣE[n]を操作位置Ｐが通過する時点ＴEで特定された指示時点ＴB3にて音声素片/n-a/の音素/ａ/（Ｑ2）が開始される。

図７は、操作予測部２６および音声合成部２８が実行する処理（以下「合成処理」という）のフローチャートである。合成情報Ｓが時系列に指定する音符毎に図７の合成処理が実行される。合成処理を開始すると、音声合成部２８は、処理対象の音符の発音符号ＳBに対応した音声素片Ｖ（ＶA，ＶB）を音声素片群Ｌから選択する（Ｓ1）。

音声合成部２８は、操作特定部２２により特定される操作位置Ｐが予測開始位置ＣSを出発するまで待機し（Ｓ2：NO）、操作位置Ｐが予測開始位置ＣSを出発した場合（Ｓ2：YES）には操作位置Ｐが発音開始位置ＰAに到達するまで待機する（Ｓ3：NO）。操作位置Ｐが発音開始位置ＰAに到達すると（Ｓ3：YES）、音声合成部２８は、音声素片ＶAが開始するように音声信号Ｚを生成する（Ｓ4）。

操作予測部２６は、発音開始位置ＰAを通過した操作位置Ｐが予測実行位置ＣEに到達するまで待機し（Ｓ5：NO）、操作位置Ｐが予測実行位置ＣEに到達した場合（Ｓ5：YES）に、操作位置Ｐが基準位置ＰBに到達する指示時点ＴBを予測する（Ｓ6）。音声合成部２８は、指示時点ＴBの到来前に音声素片ＶBの音素Ｑ1が開始するとともに指示時点ＴBから音声素片ＶBの音素Ｑ2が開始するように音声信号Ｚを生成する（Ｓ7）。

以上に説明した通り、第１実施形態では、発音符号ＳBの各音素の発音時点（時点ＴA，指示時点ＴB）が発音指示操作に応じて制御されるから、音声信号Ｚにおける各音符の発音時点を実時間的に変更できるという利点がある。また、第１実施形態では、音素Ｑ2が音素Ｑ1に後続する発音符号ＳBの音声の合成が指示された場合に、操作位置Ｐが基準位置ＰBに到達する指示時点ＴBの到来前に音素Ｑ1の発音が開始され、かつ、指示時点ＴBの到来により音素Ｑ1から音素Ｑ2に遷移するように音声信号Ｚが生成される。したがって、例えば母音が子音に後続する音節を歌唱する場合に音符の開始前に子音の発音が開始するとともに音符の始点にて母音の発音が開始する、という傾向を再現した聴感的に自然な音声信号Ｚを生成できるという利点がある。

ところで、第１実施形態では、音素Ｑ2の直前に音素Ｑ1が位置する音声素片ＶB（ダイフォン）が音声信号Ｚの生成に利用されるから、操作位置Ｐが実際に基準位置ＰBに到達した時点（以下「実指示時点」という）で音声素片ＶBの発音を開始させる構成では、音声素片ＶBの音素（前方音素）Ｑ1の時間分だけ実指示時点から経過した時点で音素（後方音素）Ｑ2の発音が開始される。すなわち、音素Ｑ2の発音の開始が実指示時点から遅延する。他方、第１実施形態では、操作位置Ｐが実際に基準位置ＰBに到来する以前に指示時点ＴBが予測されるから、指示時点ＴBの到来前から音声素片ＶBの音素Ｑ1の発音を開始するとともに音声素片ＶBの音素Ｑ2の発音を指示時点ＴBにて開始することが可能である。したがって、利用者が意図した時点（操作位置Ｐが基準位置ＰBに到達する時点）に対する音素Ｑ2の遅延を低減できるという利点がある。

また、第１実施形態では、音素Ｑ1の種類に応じて操作経路Ｇ上の発音開始位置ＰAが可変に制御される。したがって、音素Ｑ1の種類に応じた適切な時点で音素Ｑ1の発音を開始できるという利点がある。また、第１実施形態では、音素Ｑ1の種類に応じて操作経路Ｇ上の予測実行位置ＣEが可変に制御される。したがって、操作経路Ｇのうち音素Ｑ1の種類に応じた適切な区間を指示時点ＴBの予測に反映させることが可能である。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同等である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図８は、第２実施形態における操作画面５０Bの模式図である。図８に示すように、第２実施形態の操作画面５０Bには、相異なる音高ＳA（Ｃ,Ｄ,Ｅ,……）に対応する複数の操作経路Ｇが配置される。利用者は、操作画面５０B内の複数の操作経路Ｇのうち所望の音高ＳAに対応する１個の操作経路（以下「対象操作経路」という）Ｇを選択して第１実施形態と同様に発音指示操作を実行する。操作特定部２２は、操作画面５０B内の複数の操作経路Ｇのうち利用者が選択した対象操作経路Ｇ上の操作位置Ｐを特定し、表示制御部２４は、対象操作経路Ｇの操作位置Ｐに操作図像５２を配置する。すなわち、対象操作経路Ｇは、操作位置Ｐを移動させる発音指示操作の対象として利用者が選択した操作経路Ｇである。対象操作経路Ｇの選択（音高ＳAの選択）と対象操作経路Ｇに対する発音指示操作とが楽曲内の音符毎に順次に実行される。

第２実施形態の音声合成部２８は、複数の操作経路Ｇのうち利用者が選択した対象操作経路Ｇに対応する音高ＳAの音声信号Ｚを生成する。すなわち、音声信号Ｚが示す各音符の音高が、複数の操作経路Ｇのうち当該音符の発音指示操作の対象として利用者が選択した対象操作経路Ｇの音高ＳAに設定される。各音符の発音符号ＳBや発音時点に関連する処理は第１実施形態と同様である。以上の説明から理解される通り、第１実施形態では楽曲の各音符の音高ＳAが合成情報Ｓで事前に指定されるのに対し、第２実施形態では、利用者による対象操作経路Ｇの選択で楽曲の各音符の音高ＳAが実時間的に（すなわち、音声信号Ｚの生成に並行して音符毎に逐次的に）指定される。したがって、第２実施形態の合成情報Ｓでは音符毎の音高ＳAの指定が省略され得る。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、複数の操作経路Ｇのうち利用者が選択した対象操作経路Ｇに対応する音高ＳAの音声信号Ｚが生成される。したがって、楽曲の各音符の発音時点に加えて各音符の音高ＳAも利用者が実時間的に容易に指定できるという利点がある。

＜第３実施形態＞
図９は、第３実施形態における操作画面５０Cの模式図である。図９に示すように、第３実施形態の操作画面５０Cには、相異なる発音符号ＳB（音節）に対応する複数の操作経路Ｇが配置される。利用者は、操作画面５０C内の複数の操作経路Ｇのうち所望の発音符号ＳBに対応する１個の操作経路Ｇを対象操作経路Ｇとして選択して第１実施形態と同様に発音指示操作を実行する。操作特定部２２は、操作画面５０C内の複数の操作経路Ｇのうち利用者が選択した対象操作経路Ｇ上の操作位置Ｐを特定し、表示制御部２４は、対象操作経路Ｇの操作位置Ｐに操作図像５２を配置する。対象操作経路Ｇの選択（発音符号ＳBの選択）と対象操作経路Ｇに対する発音指示操作とが楽曲内の音符毎に順次に実行される。

第３実施形態の音声合成部２８は、複数の操作経路Ｇのうち利用者が選択した対象操作経路Ｇに対応する発音符号ＳBの音声信号Ｚを生成する。すなわち、音声信号Ｚが示す各音符の発音符号が、複数の操作経路Ｇのうち当該音符の発音指示操作の対象として利用者が選択した対象操作経路Ｇの発音符号ＳBに設定される。各音符の音高ＳAや発音時点に関連する処理は第１実施形態と同様である。以上の説明から理解される通り、第１実施形態では楽曲の各音符の発音符号ＳBが合成情報Ｓで事前に指定されるのに対し、第３実施形態では、利用者による対象操作経路Ｇの選択で楽曲の各音符の発音符号ＳBが実時間的に（すなわち、音声信号Ｚの生成に並行して音符毎に逐次的に）指定される。したがって、第３実施形態の合成情報Ｓでは音符毎の発音符号ＳBの指定が省略され得る。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、複数の操作経路Ｇのうち利用者が選択した対象操作経路Ｇに対応する発音符号ＳBの音声信号Ｚが生成される。したがって、楽曲の各音符の発音時点に加えて各音符の発音符号ＳBも利用者が実時間的に容易に指定できるという利点がある。

＜第４実施形態＞
第１実施形態では、操作経路Ｇの端部ＥLから端部ＥRに向かう方向（以下「ＸR方向」という）に操作位置Ｐを移動させる発音指示操作に応じて各音符の発音時点を制御したが、端部ＥRから端部ＥLに向かう方向（以下「ＸL方向」という）に操作位置Ｐを移動させる発音指示操作に応じて各音符の発音時点を制御することも可能である。第４実施形態では、ＸR方向の発音指示操作とＸL方向の発音指示操作との各々に応じて各音符の発音時点を制御する。具体的には、利用者は、発音指示操作で操作位置Ｐを移動させる方向を音符毎に反転させる。例えば楽曲内の奇数番目の各音符についてはＸR方向の発音指示操作が実行され、偶数番目の各音符についてはＸL方向の発音指示操作が実行される。すなわち、操作位置Ｐ（操作図像５２）は端部ＥLと端部ＥRとの間で往復する。

図１０に示すように、楽曲内で相前後する音符Ｎ1および音符Ｎ2に着目する。音符Ｎ2は音符Ｎ1の直後に位置する。音素Ｑ1に音素Ｑ2が後続する発音符号ＳB1が音符Ｎ1に指定され、音素Ｑ3に音素Ｑ4が後続する発音符号ＳB2が音符Ｎ2に指定された場合を想定する。例えば、「さか[s-a][k-a]」という歌詞を想定すると、発音符号ＳB1に相当する音節「さ[s-a]」は音素/ｓ/（Ｑ1）と音素/ａ/（Ｑ2）とで構成され、発音符号ＳB2に相当する音節「か[k-a]」は音素/ｋ/（Ｑ3）と音素/ａ/（Ｑ4）とで構成される。利用者は、音符Ｎ1について、端部ＥLから端部ＥRに向かうＸR方向に操作位置Ｐを移動させる発音指示操作（ＸR方向の発音指示操作）を実行し、直後の音符Ｎ2について、端部ＥRから端部ＥLに向かうＸL方向に操作位置Ｐを移動させる発音指示操作（ＸL方向の発音指示操作）を実行する。

利用者が音符Ｎ1についてＸR方向の発音指示操作を開始すると、操作予測部２６は、ＸR方向の下流側に位置する端部ＥRを基準位置ＰB1（第１基準位置）として、操作位置Ｐが基準位置ＰB1に到達する時点を指示時点ＴB1として特定する。音声合成部２８は、指示時点ＴB1の到来前に音符Ｎ1の発音符号ＳB1の音素Ｑ1が発音されるとともに指示時点ＴB1にて音素Ｑ1から音素Ｑ2に遷移する音声の音声信号Ｚを生成する。

他方、利用者が操作位置Ｐの移動方向を反転させて音符Ｎ2についてＸL方向の発音指示操作を開始すると、操作予測部２６は、ＸL方向の下流側に位置する端部ＥLを基準位置ＰB2（第２基準位置）として、操作位置Ｐが基準位置ＰB2に到達する時点を指示時点ＴB2として特定する。音声合成部２８は、指示時点ＴB2の到来前に音符Ｎ2の発音符号ＳB2の音素Ｑ3が発音されるとともに指示時点ＴB2にて音素Ｑ3から音素Ｑ4に遷移する音声の音声信号Ｚを生成する。

楽曲内で相前後する２個の音符（Ｎ1，Ｎ2）の対毎に以上の処理が実行されることで、楽曲内の各音符の発音時点がＸR方向およびＸL方向の一方の発音指示操作（操作位置Ｐの往復操作）に応じて制御される。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、操作位置Ｐの往復で楽曲内の各音符の発音時点が指示されるから、楽曲内の音符毎に操作位置Ｐを一方向に移動させる構成と比較して利用者による発音指示操作（手指を音符毎に移動させる動作）の負担が軽減されるという利点がある。

＜第５実施形態＞
前述の第２実施形態では、複数の操作経路Ｇのうち利用者が選択した対象操作経路Ｇに対応する音高ＳAの音声信号Ｚを生成した。第５実施形態では、１個の操作経路Ｇが表示装置１４に表示され、操作経路Ｇに交差する方向における操作位置Ｐに応じて音声信号Ｚの音高ＳAが制御される。

第５実施形態の表示制御部２４は、図１１の操作画面５０Dを表示装置１４に表示させる。操作画面５０Dは、相互に交差（典型的には直交）するＸ軸とＹ軸とが設定された操作領域５４に１個の操作経路Ｇを配置した画像である。操作経路ＧはＸ軸に平行に配置される。したがって、Ｙ軸の方向は、基準位置ＰBに向かう操作経路Ｇに交差する方向に相当する。利用者は、操作領域５４内の任意の位置を操作位置Ｐとして指示することが可能である。操作特定部２２は、操作位置Ｐに対応するＸ軸上の位置ＰXとＹ軸上の位置ＰYとを特定し、表示制御部２４は、操作領域５４内の操作位置Ｐ（ＰX，ＰY）に操作図像５２を配置する。

操作予測部２６は、操作位置Ｐに対応するＸ軸上の位置ＰXに応じて、第１実施形態と同様の方法で指示時点ＴBを特定する。また、第５実施形態の音声合成部２８は、操作位置Ｐに対応するＹ軸上の位置ＰYに応じた音高ＳAの音声信号Ｚを生成する。以上の説明から理解される通り、操作領域５４のＸ軸は時間軸に相当し、Ｙ軸は音高軸に相当する。

具体的には、図１１に例示される通り、操作領域５４は、相異なる音高に対応する複数の領域５６に区分される。各領域５６は、Ｙ軸の方向に並列されてＸ軸に沿う帯状の領域である。音声合成部２８は、操作領域５４の複数の領域５６のうち操作位置Ｐを包含する領域５６に対応した音高（すなわち位置ＰYに応じた音高）ＳAの音声信号Ｚを生成する。具体的には、例えば、操作経路Ｇ上の所定の地点（例えば基準位置ＰBや発音開始位置ＰA等）に位置ＰXが到達した時点で操作位置Ｐが包含される領域５６に対応した音高ＳAの音声信号Ｚが生成される。すなわち、操作位置Ｐ（位置ＰX）が所定の地点に到達した時点で音高ＳAが確定する。以上に例示される通り、第５実施形態では、操作位置Ｐに応じて音高ＳAが制御されるから、第２実施形態と同様に、合成情報Ｓにおける音符毎の音高ＳAの指定は省略され得る。

以上の説明から理解される通り、利用者は、操作装置１６に対する操作により操作位置Ｐを操作領域５４内の任意の地点に移動させることで、操作位置ＰのＸ軸上の位置ＰXに応じて第１実施形態と同様に各音符（音素）の発音時点を実時間的に指示できるほか、操作位置ＰのＹ軸上の位置ＰYに応じて楽曲の各音符の音高ＳAを実時間的に指示することが可能である。すなわち、第５実施形態においても第２実施形態と同様の効果が実現される。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態では、音素Ｑ1の種類毎に発音開始位置ＰAおよび予測実行位置ＣEを設定したが、発音符号ＳBを構成する音素Ｑ1と音素Ｑ2との組合せ毎に発音開始位置ＰAや予測実行位置ＣEを相違させることも可能である。

（２）操作画面５０（５０A，５０B，５０C，５０D）に対する操作に応じて音声信号Ｚの音響特性を制御することも可能である。例えば、発音指示操作の実行中または実行後に、Ｘ方向に交差するＹ方向（縦方向）に利用者が操作位置Ｐを往復させた場合に、音声合成部２８が音声信号Ｚにビブラートを付加する構成が採用される。具体的には、操作位置ＰのＹ方向の往復の振幅に応じた深度（音高の変動範囲）で操作位置Ｐの往復の周期に応じた速度（音高の変動周期）のビブラートが音声信号Ｚに付加される。また、例えば発音指示操作の実行中または実行後に利用者が操作位置ＰをＹ方向に移動させた場合に、Ｙ方向の移動量に応じた程度の音響効果（例えば残響効果）を音声合成部２８が音声信号Ｚに付加することも可能である。

（３）前述の各形態では、操作装置１６としてタッチパネルを想定し、表示装置１４が表示する操作画面５０に対して利用者が発音指示操作を実行する場合を例示したが、利用者が現実に操作する操作子を具備する操作装置１６を採用することも可能である。例えば、操作子（ツマミ）を直線的に移動させるスライダ型の操作装置１６を想定すると、操作子の位置が前述の各形態の操作位置Ｐに相当する。また、例えばマウス等のポインティングデバイスを操作装置１６として利用して利用者が操作位置Ｐを指示することも可能である。

（４）前述の各形態では、実際に操作位置Ｐが基準位置ＰBに到達する以前に指示時点ＴBを予測したが、実際に操作位置Ｐが基準位置ＰBに到達した時点（実指示時点）を指示時点ＴBとして音声信号Ｚを生成することも可能である。ただし、音素Ｑ1が音素Ｑ2に先行する音素連鎖（ダイフォン）の音声素片ＶBを利用する構成のもとで実際に操作位置Ｐが基準位置ＰBに到達した時点から音声素片ＶBの発音を開始した場合、前述の通り、利用者が意図した時点（実指示時点）から遅延した時点で音素Ｑ2の発音が開始される可能性がある。したがって、利用者が意図した時点で正確に各音符を発音させるという観点からは、前述の各形態の通り、操作位置Ｐが実際に基準位置ＰBに到達する以前に指示時点ＴBを予測する構成が好適である。

（５）前述の各形態では、音素Ｑ1の種類に応じて発音開始位置ＰAおよび予測実行位置ＣEを可変に制御したが、発音開始位置ＰAや予測実行位置ＣEを所定の位置に固定することも可能である。また、前述の各形態では、端部ＥLを予測開始位置ＣSとして端部ＥRを基準位置ＰBとした場合を例示したが、予測開始位置ＣSや基準位置ＰBを操作経路Ｇの端部（ＥL，ＥR）以外の地点とすることも可能である。例えば、端部ＥLから端部ＥR側に所定Ｉの距離だけ離間した位置を予測開始位置ＣSとした構成や、端部ＥRから端部ＥL側に所定の距離だけ離間した位置を基準位置ＰBとした構成も採用される。

（６）前述の各形態では、操作経路Ｇを直線としたが、操作経路Ｇを曲線とすることも可能である。例えば、操作経路Ｇを円形として円周上に各位置（ＰA，ＰB，ＣS，ＣE）を設定することも可能である。利用者は、所望の時点にて操作経路Ｇ上の基準位置ＰBに操作位置Ｇが到達するように、操作経路Ｇに沿って表示面上に円形を描く動作（発音指示操作）を音符毎に実行する。

（７）前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意であり、日本語には限定されない。例えば、英語，スペイン語，中国語，韓国語等の任意の言語の音声を生成する場合にも以上の各形態を同様に適用することが可能である。１個の発音符号ＳBが２個の子音の音素で構成され得る言語では、音素Ｑ1および音素Ｑ2の双方が子音の音素である可能性もある。また、言語体系によっては（例えば英語）、第１音素Ｑ1および第２音素Ｑ2の一方または双方が複数の音素（音素群）で構成される場合も想定される。例えば、単語“September”の最初の音節“sep”に着目すると、音素（音素群）“se”を第１音素Ｑ1、音素“p”を第２音素Ｑ2として両者間の遷移を制御する構成や、音素“s”を第１音素Ｑ1、音素（音素群）“ep”を第２音素Ｑ2として両者間の遷移を制御する構成が採用される。１個の音節内における第１音素Ｑ1と第２音素Ｑ2との境界（例えば前掲の音節“sep”を音素“se”と音素“p”とに区分するか音素“s”と音素“ep”とに区分するか）は、例えば事前に設定された規則や利用者からの指示に応じて決定される。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……操作装置、１８……放音装置、２２……操作特定部、２４……表示制御部、２６……操作予測部、２８……音声合成部、５０……操作画像。

Claims

利用者による操作に応じて移動する操作位置を特定する操作特定手段と、
第１音素に第２音素が後続する音声が指示された場合に、前記操作位置が基準位置に到達する指示時点の到来前に前記第１音素が発音されるとともに前記指示時点の到来により前記第１音素から前記第２音素に遷移する音声の音声信号を生成する音声合成手段と
を具備する音声合成装置。
前記操作位置の移動速度に応じて前記指示時点を予測する操作予測手段
を具備する請求項１の音声合成装置。
前記音声合成手段は、前記基準位置に向けて移動する前記操作位置が発音開始位置を通過する時点にて前記第１音素を終点側に含む音声素片を発音させ、
前記音声合成手段は、前記第１音素の種類に応じて前記発音開始位置を可変に設定する
請求項１または請求項２の音声合成装置。
前記音声合成手段は、相異なる音高に対応する複数の操作経路のうち利用者が前記操作位置を移動させる対象操作経路に対応した音高の前記音声信号を生成する
請求項１から請求項３の何れかの音声合成装置。
前記音声合成手段は、前記基準位置に向かう操作経路に交差する方向における前記操作位置に応じた音高の前記音声信号を生成する
請求項１から請求項３の何れかの音声合成装置。
前記音声合成手段は、前記第１音素に前記第２音素が後続する音声と、第３音素に第４音素が後続する音声とが指示された場合に、
前記操作位置が操作経路上を第１方向に移動して第１基準位置に到達する指示時点の到来前に前記第１音素が発音されるとともに当該指示時点の到来により前記第１音素から前記第２音素に遷移する音声の音声信号を生成し、
前記第１方向とは反対の第２方向に前記操作位置が前記操作経路上を移動して第２基準位置に到達する指示時点の到来前に前記第３音素が発音されるとともに当該指示時点の到来により前記第３音素から前記第４音素に遷移する音声の音声信号を生成する
請求項１から請求項５の何れかの音声合成装置。