JP6127371B2

JP6127371B2 - 音声合成装置および音声合成方法

Info

Publication number: JP6127371B2
Application number: JP2012074858A
Authority: JP
Inventors: 嘉山　啓; 啓嘉山; 基小笠原
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-03-28
Filing date: 2012-03-28
Publication date: 2017-05-17
Anticipated expiration: 2032-03-28
Also published as: EP2645363B1; JP2013205638A; CN103366730A; US9552806B2; EP2645363A1; US20130262121A1; CN103366730B

Description

本発明は、音声を合成する技術に関する。

音符等の合成単位（以下「単位音」という）毎に継続長と発音内容（例えば歌詞）とを指定し、各単位音の発音内容に対応する複数の音声素片を相互に接続することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。特許文献１には、各単位音の発音内容に応じた複数の音素のうち母音の音素に対応する音声素片を伸長することで、各単位音の発音内容を所望の継続長にわたり発音した合成音を生成することが可能である。

特許第４２６５５０１号公報

ところで、例えば複数の母音を連結した重母音（二重母音や三重母音）が１個の単位音の発音内容として指定される場合がある。以上のように重母音が指定された１個の単位音について充分な継続長を確保するための構成としては、例えば、重母音のうち先頭の１個の母音の音声素片を伸長する構成が想定される。しかし、伸長対象を単位音内の先頭の母音に固定した構成では、生成可能な合成音が制約されるという問題がある。例えば、母音の音素/ａ/と母音の音素/Ｉ/とが１音節内で連続する重母音を包含する「ファイト（fight）」という発音内容（１音節）が１個の単位音に指定された場合を想定すると、重母音の先頭の音素/ａ/を伸長した「ファーイト[fa:It]」という合成音は生成され得るが、後方の音素/Ｉ/を伸長した「ファイート[faI:t]」という合成音は生成できない（記号“：”は長音を意味する）。なお、以上の説明では重母音の場合を例示したが、複数の音素が１音節内で連続する場合には、母音/子音の区別に関わらず同様の問題が発生し得る。以上の事情を考慮して、本発明は、音声素片を伸長する場合の制約を緩和して多様な合成音を生成することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音声合成装置は、継続長と発音内容とを単位音毎に指定する合成情報を取得する情報取得手段（例えば情報取得部３４）と、各単位音の発音内容に対応する複数の音素の各々について伸長の許否を設定する伸長設定手段（例えば伸長設定部３６）と、各単位音の発音内容に対応する複数の音声素片を接続することで合成情報に応じた合成音を生成する手段であって、各単位音の発音内容に対応する複数の音素のうち伸長設定手段が伸長を許可した音素に対応する音声素片を当該単位音の継続長に応じて伸長する音声合成手段（例えば音声合成部３８）とを具備する。以上の構成では、各単位音の発音内容に対応する複数の音素の各々について伸長の許否が設定されるから、各単位音に対応する複数の音素（例えば重母音）のうち例えば先頭の音素を固定的に伸長する構成と比較して、合成音の生成時における音声素片の伸長の制約が緩和され、結果的に多様な合成音を生成できるという利点がある。

本発明の好適な態様において、伸長設定手段は、利用者からの指示に応じて各音素の伸長の許否を設定する。以上の態様では、各音素の伸長の許否が利用者からの指示に応じて設定されるから、利用者の意図に合致した多様な合成音を生成できるという利点がある。例えば、本発明の好適な態様に係る音声合成装置は、合成情報が指定する複数の単位音のうち利用者が選択した単位音の発音内容に対応する複数の音素を提示して各音素の伸長の許否の指示を利用者から受付ける設定画像（例えば設定画像６０または設定画像７０）を表示させる第１表示制御手段（例えば表示制御部３２）を具備する。以上の態様では、利用者が選択した単位音に対応する複数の音素が提示されて利用者からの指示を受付ける設定画像が表示装置に表示されるから、複数の単位音の各々について音素毎の伸長の許否を利用者が容易に指定できるという利点がある。

本発明の好適な態様に係る音声合成装置は、各単位音の発音内容に対応する複数の音素の各々の音素記号を、伸長設定手段が伸長を許可した音素と伸長設定手段が伸長を禁止した音素とで表示態様が相違するように表示装置に表示させる第２表示制御手段（例えば表示制御部３２）を具備する。以上の態様では、伸長の許否に応じて相異なる表示態様で各音素の音素記号が表示されるから、各音素の伸長の許否を利用者が容易に確認できるという利点がある。なお、表示態様とは、利用者が視覚的に弁別可能な画像の性状を意味し、例えば明度（階調）や彩度，色相，書式（文字種や文字サイズ，下線等の強調表示の有無）が表示態様の典型例である。また、音素記号自体の表示態様を相違させる構成のほか、音素記号の背景（地）の表示態様を音素の伸長の許否に応じて相違させる構成も包含され得る。例えば音素記号の背景の模様を相違させる構成や音素記号の背景を点滅させる構成が採用される。

本発明の好適な態様において、伸長設定手段は、各単位音の発音内容に対応する複数の音素のうち経時的に持続可能な持続音素について伸長の許否を設定する。以上の態様では、持続音素について伸長の許否が設定されるから、各音素について聴感的に自然な音色を維持したまま合成音を生成できるという利点がある。

以上の各態様に係る音声合成装置は、合成音の生成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、継続長と発音内容とを単位音毎に指定する合成情報を取得する情報取得処理と、各単位音の発音内容に対応する複数の音素の各々について伸長の許否を設定する伸長設定処理と、各単位音の発音内容に対応する複数の音声素片を接続することで合成情報に応じた合成音を生成する処理であって、各単位音の発音内容に対応する複数の音素のうち伸長設定処理で伸長を許可した音素に対応する音声素片を当該単位音の継続長に応じて伸長する音声合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音楽データ編集装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声合成装置のブロック図である。合成情報の模式図である。楽譜領域の模式図である。楽譜領域および設定画像の模式図である。音声合成部の動作（音声素片の伸長）の説明図である。音声合成部の動作（音声素片の伸長）の説明図である。第２実施形態における楽譜領域および設定画像の模式図である。変形例における楽譜領域の模式図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、素片接続型の音声合成で歌唱音の音声信号Ｓを生成する信号処理装置であり、図１に示すように、演算処理装置１２と記憶装置１４と表示装置２２と入力装置２４と放音装置２６とを具備するコンピュータシステムで実現される。例えば据置型の情報処理装置（パーソナルコンピュータ）や携帯型の情報処理装置（携帯電話機や携帯情報端末）で音声合成装置１００が実現される。

演算処理装置１２は、記憶装置１４に記憶されたプログラムＰGMを実行することで、音声信号Ｓを生成するための複数の機能（表示制御部３２，情報取得部３４，伸長設定部３６，音声合成部３８）を実現する。なお、演算処理装置１２の機能を複数の装置に分散した構成や、演算処理装置１２の機能の一部を専用の電子回路（ＤＳＰ）が実現する構成も採用され得る。

表示装置２２（例えば液晶表示パネル）は、演算処理装置１２から指示された画像を表示する。入力装置２４は、利用者からの指示を受付ける機器（例えばマウスやキーボード）である。なお、表示装置２２と一体に構成されたタッチパネルを入力装置２４として採用することも可能である。放音装置２６（例えばヘッドホンやスピーカ）は、演算処理装置１２が生成した音声信号Ｓに応じた音響を再生する。

記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータ（音声素片群ＤA，合成情報ＤB）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に採用される。

音声素片群ＤAは、音声合成の素材として使用される複数種の音声素片の各々の素片データＰで構成される音声合成ライブラリである。各素片データＰは、例えば時間領域での音声素片の波形のサンプル系列や周波数領域での音声素片のスペクトルを規定する。各音声素片は、言語的な観点から音声を区分した最小単位である音素（例えば母音や子音）の単体（モノフォン）、または、複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。音素単体の音声素片の素片データＰは、その音素を継続的に発音した音声のうち波形が安定した区間（音響特性が定常に維持される区間）を表現する。他方、音素連鎖の音声素片の素片データＰは、先行の音素から後続の音素に遷移する音声を表現する。

音素は、時間的に発音が持続され得る音素（以下「持続音素」という）と、発音が時間的に持続されない（または持続され難い）音素（以下「非持続音素」という）とに区別される。持続音素の典型例は母音であるが、例えば破擦音や摩擦音や流音（鼻音）等の子音（有声子音，無声子音）も持続音素に包含され得る。他方、非持続音素は、発音が瞬間的に実行される音素（例えば、閉鎖状態にある声道の一時的な変形で発音される音素）である。例えば破裂音が非持続音素の典型例である。持続音素は時間的に伸長可能であるのに対し、非持続音素は、聴感的に自然な音色を維持したまま時間的に伸長することが困難であるという相違がある。

記憶装置１４に記憶された合成情報ＤBは、音声合成の対象となる合成音を時系列に指定するデータ（スコアデータ）であり、図２に示すように、相異なる単位音（音符）に対応する複数の単位情報Ｕを含んで構成される。単位音は、例えば１個の音符に対応する合成単位である。各単位情報Ｕは、音高情報ＸAと時間情報ＸBと発音情報ＸCと伸長情報ＸDとを指定する。ただし、以上に例示した要素以外の情報（例えば音量やビブラート等の各単位音の音楽的な表情を制御するための変数）を単位情報Ｕに含ませることも可能である。図１の情報取得部３４は、利用者からの指示に応じて合成情報ＤBを生成および編集する。

図２の音高情報ＸAは、単位音の音高（各音高に対応するノートナンバ）を指定する。なお、単位音の音高に対応する周波数を音高情報ＸAで指定することも可能である。時間情報ＸBは、時間軸上での単位音の発音期間を指定する。第１実施形態の時間情報ＸBは、図２に示すように、単位音の発音が開始する時刻を意味する発音時点ＸB1と、単位音の発音が継続する時間長（音価）を意味する継続長ＸB2とを指定する。なお、各単位音の発音時点ＸB1と消音時点とで継続長ＸB2を指定することも可能である。

発音情報ＸCは、単位音の発音内容（音韻）を指定する情報であり、音韻情報ＸC1と音素情報ＸC2とを含んで構成される。音韻情報ＸC1は、各単位音の発音内容を表現する発音文字（書記素）を指定する。第１実施形態では、１個の単位音に対応する１音節分の発音文字（例えば歌詞の文字列）が音韻情報ＸC1で指定される。音素情報ＸC2は、音韻情報ＸC1が指定する発音文字に対応する複数の音素の音素記号を指定する。なお、音韻情報ＸC1は各単位音の合成に必須の要素ではなく省略することも可能である。

図２の伸長情報ＸDは、発音情報ＸCが指定する発音内容に対応した複数の音素（すなわち音素情報ＸC2が指定する音素記号の各音素）の各々について時間的な伸長の許否を指定する。例えば、各音素の伸長の許否を２値（伸長の許可を意味する数値“１”と伸長の禁止を意味する数値“０”）で表現するフラグの系列が伸長情報ＸDとして利用される。第１実施形態の伸長情報ＸDは、持続音素について伸長の許否を指定し、非持続音素については伸長の許否を指定しない。なお、非持続音素については固定的に伸長の禁止を指定することも可能である。図１の伸長設定部３６は、各単位音の複数の音素（持続音素）の各々について伸長の許否（伸長情報ＸD）を設定する。

図１の表示制御部３２は、合成情報ＤBの内容（複数の単位音の時系列）を表現する図３の編集画面を表示装置２２に表示させる。図３に示すように、表示装置２２に表示される編集画面は、楽譜領域５０を含んで構成される。楽譜領域５０は、相互に交差する時間軸（横軸）ＡTと音高軸（縦軸）ＡFとが設定されたピアノロール型の座標平面である。各単位音を表象する図形（以下「音指示子」という）５２が楽譜領域５０内に配置される。なお、編集画面の具体的な形式は任意である。例えば、合成情報ＤBの内容をリスト形式で表示する構成や五線譜形式で各単位音を表示する構成も採用され得る。

利用者は、楽譜領域５０に対する音指示子５２の配置（単位音の追加）を入力装置２４の操作で音声合成装置１００に指示することが可能である。表示制御部３２は、利用者から指示された音指示子５２を楽譜領域５０内に配置し、情報取得部３４は、楽譜領域５０に配置された音指示子５２に対応する単位情報Ｕを合成情報ＤBに追加する。利用者が配置した音指示子５２に対応する単位情報Ｕの音高情報ＸAは、音高軸ＡFの方向におけるその音指示子５２の位置に応じて選定される。また、音指示子５２に対応する単位情報Ｕの時間情報ＸBの発音時点ＸB1は、時間軸ＡTの方向におけるその音指示子５２の位置に応じて選定され、時間情報ＸBの継続長ＸB2は、時間軸ＡTの方向におけるその音指示子５２の表示長に応じて選定される。楽譜領域５０内の既定の音指示子５２に対する利用者からの指示に応じて、表示制御部３２は、その音指示子５２の位置や時間軸ＡT上の表示長を変更し、情報取得部３４は、その音指示子５２に対応する単位情報Ｕの音高情報ＸAおよび時間情報ＸBを変更する。

また、利用者は、入力装置２４を適宜に操作することで、楽譜領域５０内の任意の単位音の音指示子５２を選択して所望の発音内容（発音文字）を指定することが可能である。情報取得部３４は、利用者が指示した発音文字を指定する音韻情報ＸC1と、その発音文字に対応する音素記号を指定する音素情報ＸC2とを、利用者が選択した単位音の単位情報Ｕに設定する。また、伸長設定部３６は、利用者が選択した単位音の伸長情報ＸDを初期値（例えば各音素の伸長を禁止する数値）に設定する。

表示制御部３２は、図３に示すように、各単位音の音韻情報ＸC1が指定する発音文字５４と音素情報ＸC2が指定する音素記号５６とを、その単位音の音指示子５２に対応する位置（例えば図３の例示のように音指示子５２に重なる位置）に配置する。また、各単位音の発音内容の変更が利用者から指示されると、情報取得部３４は、その単位音の音韻情報ＸC1と音素情報ＸC2とを利用者からの指示に応じて変更し、表示制御部３２は、表示装置２２に表示された発音文字５４と音素記号５６と利用者からの指示に応じて変更する。なお、以下の説明では、ＳＡＭＰＡ（Speech Assessment Methods Phonetic Alphabet）に準拠した記号で各音素を表記する。なお、Ｘ-ＳＡＭＰＡ（eXtended - SAMPA）でも同様の表記である。

所望の単位音（以下「選択単位音」という）の音指示子５２を利用者が選択して入力装置２４に所定の操作を付与すると、表示制御部３２は、図４に示すように、選択単位音（図４では発音文字“fight”に対応する単位音）の音指示子５２に対応する位置（例えば音指示子５２の近傍）に設定画像６０を表示させる。設定画像６０は、選択単位音の発音内容に対応する複数の音素（選択単位音の音素情報ＸC2で指定される複数の音素）を利用者に提示して各音素の伸長の許否の指示を利用者から受付けるための画像である。

図４に示すように、設定画像６０は、選択単位音の発音内容に対応する複数の音素（第１実施形態では持続音素）の各々について操作画像６２を含んで構成される。利用者は、設定画像６０内の所望の音素の操作画像６２を操作することでその音素の伸長の許否（許可／禁止）を任意に指定することが可能である。伸長設定部３６は、選択単位音の伸長情報ＸDが音素毎に指定する伸長の許否を設定画像６０に対する利用者からの指示に応じて更新する。具体的には、伸長設定部３６は、伸長の許可が指示された音素の伸長情報ＸDを数値“１“に設定し、伸長の禁止が指示された音素の伸長情報ＸDを数値“０”に設定する。

表示制御部３２は、伸長情報ＸDが伸長の許可を示す音素の音素記号５６と、伸長情報ＸDが伸長の禁止を示す音素の音素記号５６とを相異なる態様（利用者が視覚的に区別できる態様）で表示装置２２に表示させる。図３および図４では、伸長の許可が指示された音素/ａ/の音素記号５６に下線を付加し、伸長が禁止された音素の音素記号５６には下線を付加しない場合が例示されている。ただし、音素記号５６の明度（階調）や彩度，色相，サイズ，文字種等の表示態様を伸長の許否に応じて相違させる構成や、音素記号５６の背景の表示態様を音素の伸長の許否に応じて相違させる構成（例えば背景の模様を相違させた構成や点滅の有無を相違させた構成）も採用され得る。

図１の音声合成部３８は、情報取得部３４が生成した合成情報ＤBが時系列に指定する各単位音の発音情報ＸCに対応する複数の音声素片（素片データＰ）を時間軸上で相互に接続することで合成音の音声信号Ｓを生成する。具体的には、音声合成部３８は、第１に、各単位音の発音情報ＸC（音素情報ＸC2が示す音素記号）に対応した音声素片の素片データＰを記憶装置１４の音声素片群ＤAから順次に選択し、第２に、各素片データＰを、単位情報Ｕの音高情報ＸAが指定する音高と時間情報ＸBの継続長ＸB2が指定する時間長とに調整する。第３に、音声合成部３８は、音高および時間長の調整後の各素片データＰを、時間情報ＸBの発音時点ＸB1が指定する時刻に配置して相互に連結することで音声信号Ｓを生成する。音声合成部３８が生成した音声信号Ｓが放音装置２６に供給されて音波として再生される。

図５および図６は、音声合成部３８が各素片データＰを伸長する処理の説明図である。なお、以下の説明では、各音声素片を便宜的に括弧［］で表現して音素の表記と区別する。例えば、音素/ａ/および音素/Ｉ/の音素連鎖（二重母音）の音声素片は記号［ａ-Ｉ］で表現される。また、無音を１個の音素として便宜的に記号“＃”で表記する。

図５の部分(A)には、音素/ｆ/（無声唇歯摩擦音）と音素/ａ/（非円唇前舌広母音）と音素/Ｉ/（準狭準前舌非円唇母音）と音素/ｔ/（無声歯茎破裂音）とが連続する１音節分の発音文字“fight”が例示されている。音素/ａ/と音素/Ｉ/とは重母音（二重母音）を構成する。発音文字“fight”のうち持続音素に該当する音素（/ｆ/，/ａ/，/Ｉ/）毎に、設定画像６０に対する利用者からの指示に応じて伸長の許否が個別に指定される。他方、非持続音素に該当する破裂音の音素/ｔ/は伸長の対象から除外される。

音素/ａ/の伸長情報ＸDが伸長の許可を指定するとともに音素/ｆ/および音素/Ｉ/の伸長情報ＸDが伸長の禁止を指定する場合、音声合成部３８は、図５の部分(B)に示すように、［＃-ｆ］，［ｆ-ａ］，［ａ］，［ａ-Ｉ］，［Ｉ-ｔ］，［ｔ-＃］の各音声素片の素片データＰを音声素片群ＤAから選択し、伸長が許可された音素/ａ/に対応する音声素片［ａ］の素片データＰを継続長ＸB2に応じた時間長（単位音の全体が継続長ＸB2となる時間長）に伸長する。音声素片［ａ］の素片データＰは、音素/ａ/を発音した音声のうち波形が定常に維持される区間を表現する。音声素片（素片データＰ）の伸長には公知の技術が任意に採用される。例えば、音声素片の特定の区間（例えば１周期に相当する区間）を時間軸上で反復することで音声素片が伸長される。他方、伸長が禁止された音素（/ｆ/，/Ｉ/，/ｔ/）を含む音声素片（［＃-ｆ］，［ｆ-ａ］，［ａ-Ｉ］，［Ｉ-ｔ］，［ｔ-＃］）の素片データＰは伸長されない。

音素/Ｉ/の伸長情報ＸDが伸長の許可を指定するとともに音素/ｆ/および音素/ａ/の伸長情報ＸDが伸長の禁止を指定する場合、音声合成部３８は、図５の部分(C)に示すように、［＃-ｆ］，［ｆ-ａ］，［ａ-Ｉ］，［Ｉ］，［Ｉ-ｔ］，［ｔ-＃］の各音声素片を選択し、伸長が許可された音素/Ｉ/に対応する音声素片［Ｉ］を継続長ＸB2に応じた時間長に伸長する。他方、伸長が禁止された音素（/ｆ/，/ａ/，/ｔ/）を含む音声素片（［＃-ｆ］，［ｆ-ａ］，［ａ-Ｉ］，［Ｉ-ｔ］，［ｔ-＃］）の素片データＰは伸長されない。

音素/ａ/および音素/Ｉ/の双方の伸長情報ＸDが伸長の許可を指定するとともに音素/ｆ/の伸長情報ＸDが伸長の禁止を指定する場合、音声合成部３８は、図５の部分(D)に示すように、［＃-ｆ］，［ｆ-ａ］，［ａ］，［ａ-Ｉ］，［Ｉ］，［Ｉ-ｔ］，［ｔ-＃］の各音声素片を選択し、音素/ａ/の音声素片［ａ］と音素/Ｉ/の音声素片［Ｉ］とを継続長ＸB2に応じた時間長に伸長する。

図６の部分(A)には、音素/ｆ/（無声唇歯摩擦音）と音素/Ｖ/（非円唇後舌半広母音）と音素/ｎ/（歯茎鼻音）とが連続する１音節分の発音文字“fun”が例示されている。発音文字を構成する各音素（持続音素）/ｆ/，/Ｖ/および/ｎ/について伸長の許否が利用者からの指示に応じて個別に指定される。

音素/Ｖ/の伸長情報ＸDが伸長の許可を指定するとともに音素/ｆ/および音素/ｎ/の伸長情報ＸDが伸長の禁止を指定する場合、音声合成部３８は、図６の部分(B)に示すように、［＃-ｆ］，［ｆ-Ｖ］，［Ｖ］，［Ｖ-ｎ］，［ｎ-＃］の各音声素片を選択し、伸長が許可された音素/Ｖ/に対応する音声素片［Ｖ］を継続長ＸB2に応じた時間長に伸長する。伸長が禁止された音素（/ｆ/，/ｎ/）を含む音声素片（［＃-ｆ］，［ｆ-Ｖ］，［Ｖ-ｎ］，［ｎ-＃］）は伸長されない。

他方、音素/ｎ/の伸長情報ＸDが伸長の許可を指定するとともに音素/ｆ/および音素/Ｖ/の伸長情報ＸDが伸長の禁止を指定する場合、音声合成部３８は、図６の部分(C)に示すように、［＃-ｆ］，［ｆ-Ｖ］，［Ｖ-ｎ］，［ｎ］，［ｎ-＃］の各音声素片を選択し、伸長が許可された音素/ｎ/に対応する音声素片［ｎ］を継続長ＸB2に応じた時間長に伸長する。伸長が禁止された音素（/ｆ/，/Ｖ/）を含む音声素片（［＃-ｆ］，［ｆ-Ｖ］，［Ｖ-ｎ］，［ｎ-＃］）は伸長されない。

音素/Ｖ/および音素/ｎ/の双方の伸長情報ＸDが伸長の許可を指定するとともに音素/ｆ/の伸長情報ＸDが伸長の禁止を指定する場合、音声合成部３８は、図６の部分(D)に示すように、［＃-ｆ］，［ｆ-Ｖ］，［Ｖ］，［Ｖ-ｎ］，［ｎ］，［ｎ-＃］の各音声素片を選択し、音素/Ｖ/の音声素片［Ｖ］と音素/ｎ/の音声素片［ｎ］とを継続長ＸB2に応じた時間長に伸長する。

以上の例示から理解されるように、音声合成部３８は、１個の単位音の発音内容に対応する複数の音素のうち伸長設定部３６が伸長を許可した音素に対応する音声素片をその単位音の継続長ＸB2に応じて伸長する。具体的には、伸長設定部３６が伸長を許可した音素単体に対応する音声素片（図５の例示における音声素片［ａ］および［Ｉ］や図６の例示における音声素片［Ｖ］および［ｎ］）を音声素片群ＤAから選択して継続長ＸB2に応じて伸長する。

以上に説明したように、第１実施形態では、１個の単位音の発音内容に対応する複数の音素の各々について個別に伸長の許否が設定されるから、例えば重母音のうち先頭の１個の母音の音声素片を伸長する構成と比較して音声素片の伸長に関する制約が緩和される。したがって、多様な合成音を生成できるという利点がある。例えば前掲の図５に例示された発音文字“fight”については、音素/ａ/を伸長した「ファーイト[fa:It]」という合成音（図５の部分(B)）と、音素/Ｉ/を伸長した「ファイート[faI:t]」という合成音（図５の部分(C)）と、音素/ａ/および音素/Ｉ/の双方を伸長した「ファーイート[fa:I:t]」という合成音（図５の部分(D)）とを生成することが可能である。第１実施形態では特に、各音素の伸長の許否が利用者からの指示に応じて設定されるから、利用者の意図に合致した多様な合成音を生成できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図７は、第２実施形態の表示制御部３２が表示装置２２に表示させる設定画像７０の模式図である。第２実施形態の設定画像７０は、第１実施形態の設定画像６０と同様に、楽譜領域５０から利用者が選択した選択単位音の発音内容に対応する複数の音素を利用者に提示して各音素の伸長の許否の指示を利用者から受付ける画像である。具体的には、設定画像７０は、図７に示すように、選択単位音に対応する音指示子７２と、選択単位音の複数の音素のうち相前後する各音素の境界を指示する操作画像７４（７４A，７４B）とを含んで構成される。音指示子７２は、時間軸ＡTの方向（横方向）に延在して選択単位音の発音区間を表象する帯状（または直線状）の図形である。利用者は、入力装置２４を適宜に操作することで各操作画像７４を時間軸ＡTの方向に任意に移動させることが可能である。音指示子７２を各操作画像７４の時点で区分した各区間の表示長が選択単位音の各音素の継続長に相当する。具体的には、発音文字“fun”に対応する３個の音素（/ｆ/，/Ｖ/，/ｎ/）のうち最初の音素/ｆ/の継続長は、音指示子７２の左端と操作画像７４Aとの間隔で規定され、音素/Ｖ/の継続長は操作画像７４Aと操作画像７４Bとの間隔で規定され、最後の音素/ｎ/の継続長は操作画像７４Bと音指示子７２の右端との間隔で規定される。

第２実施形態の伸長設定部３６は、設定画像７０内の各操作画像７４の位置に応じて音素毎の伸長の許否を設定する。音声合成部３８は、１個の単位音に対応する各音素の継続長が、設定画像７０で指定された各音素の継続長の比率に合致するように、各音声素片を伸長する。すなわち、第２実施形態においても第１実施形態と同様に、各単位音の複数の音素の各々について伸長の許否が個別に設定される。したがって、第２実施形態においても第１実施形態と同様の効果が実現される。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態では、英語（発音文字“fight”や“fun”）を発声した合成音を生成する場合を例示したが、合成音の言語は任意である。なお、言語によっては、第１子音-母音-第２子音（Ｃ-Ｖ-Ｃ）という１音節分の音素連鎖が１個の単位音の発音文字として指定され得る場合がある。例えば韓国語では、「パッチム」と呼ばれる第２子音（音節の最後に位置する子音）を含む第１子音-母音-第２子音の音素連鎖が存在する。第１子音や第２子音が持続音素である場合、前述の第１実施形態や第２実施形態と同様に、第１子音と母音と第２子音との各々の伸長の可否を個別に設定する構成が好適である。例えば、第１子音の音素/ｈ/と母音の音素/ａ/と第２子音の音素/ｎ/とで構成される１音節分の発音文字“han”が１個の単位音に指定された場合、音素/ａ/を伸長した「ハーン［ha:n］」という合成音と、音素/ｎ/を伸長した「ハンー［han:］」という合成音とを選択的に生成することが可能である。

また、第１実施形態で参照した図５では、音素/ａ/と音素/Ｉ/とが１音節内で連続する二重母音を含む発音文字“fight“を例示したが、中国語では、３個の母音が１音節内で連続する重母音（三重母音）が１個の単位音の発音文字として指定され得る。したがって、三重母音の３個の母音の音素の各々について伸長の可否を個別に設定する構成が好適である。

（２）前述の各形態では情報取得部３４が利用者からの指示に応じて合成情報ＤBを生成したが、情報取得部３４が例えば通信網を介して外部装置から合成情報ＤBを取得する構成や、情報取得部３４が可搬型の記録媒体から合成情報ＤBを取得する構成も採用され得る。すなわち、利用者からの指示に応じて合成情報ＤBを生成ないし編集する構成は省略され得る。以上の説明から理解されるように、情報取得部３４は、合成情報ＤBを取得する要素（外部装置から合成情報ＤBを取得する要素または合成情報ＤBを自身が生成する要素）として包括される。

（３）前述の各形態では、１音節の発音文字を１個の単位音に指定する場合を例示したが、１音節分の発音文字を複数の単位音に付与することも可能である。例えば、図８に示すように、１音節分の発音文字“fun”の全体と最後の音素/ｎ/とを相異なる単位音に付与することが可能である。以上の構成によれば、合成音の１音節内で音高を変化させることが可能である。

（４）前述の各形態では、非持続音素について伸長の許否を指定しない構成を例示したが、非持続音素について伸長の許否を指定可能な構成も採用され得る。非持続音素の音声素片はその非持続音素の発音前の無音区間を含む。そこで、非持続音素について伸長が許可された場合、音声合成部３８は、例えば、非持続音素の音声素片のうちの無音区間を伸長する。

１００……音声合成装置、１２……演算処理装置、１４……記憶装置、２２……表示装置、２４……入力装置、２６……放音装置、３２……表示制御部、３４……情報取得部、３６……伸長設定部、３８……音声合成部。

Claims

継続長と発音内容とを音符毎に指定する合成情報を取得する情報取得手段と、
前記各音符の発音内容に対応する複数の音素の各々の伸長の許否を利用者からの指示に応じて音素毎に個別に設定する伸長設定手段と、
前記各音符の発音内容に対応する複数の音声素片を接続することで前記合成情報に応じた合成音を生成する手段であって、前記各音符の発音内容に対応する複数の音素のうち前記伸長設定手段が伸長を許可した音素に対応する音声素片を当該音符の継続長に応じて伸長する音声合成手段と
を具備する音声合成装置。
前記合成情報が指定する複数の音符のうち利用者が選択した音符の発音内容に対応する複数の音素を提示して各音素の伸長の許否の指示を利用者から受付ける設定画像を表示させる第１表示制御手段
を具備する請求項１の音声合成装置。
前記各音符の発音内容に対応する複数の音素の各々の音素記号を、前記伸長設定手段が伸長を許可した音素と前記伸長設定手段が伸長を禁止した音素とで表示態様が相違するように表示装置に表示させる第２表示制御手段
を具備する請求項１または請求項２の音声合成装置。
前記伸長設定手段は、前記各音符の発音内容に対応する複数の音素のうち経時的に持続可能な持続音素について伸長の許否を設定する
請求項１から請求項３の何れかの音声合成装置。
コンピュータシステムが、
継続長と発音内容とを音符毎に指定する合成情報を取得し、
前記各音符の発音内容に対応する複数の音素の各々の伸長の許否を利用者からの指示に応じて音素毎に個別に設定し、
前記各音符の発音内容に対応する複数の音声素片を接続することで前記合成情報に応じた合成音を生成する一方、
前記合成音の生成においては、前記各音符の発音内容に対応する複数の音素のうち前記伸長が許可された音素に対応する音声素片を、当該音符の継続長に応じて伸長する
音声合成方法。