JP4265501B2

JP4265501B2 - 音声合成装置およびプログラム

Info

Publication number: JP4265501B2
Application number: JP2004209033A
Authority: JP
Inventors: 秀紀劔持
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-07-15
Filing date: 2004-07-15
Publication date: 2009-05-20
Anticipated expiration: 2024-07-15
Also published as: US20060015344A1; EP1617408A3; US7552052B2; JP2006030575A; EP1617408A2

Description

本発明は、音声を合成する技術に関する。

人間の肉声を模した音声を合成するための種々の技術が従来から提案されている。例えば特許文献１には、人間の肉声（以下「入力音声」という）を音素ごとに切り出して音声素片を採取しておき、これらの音声素片を相互に連結することによって任意の音声を合成する技術が開示されている。各音声素片（特に母音などの有声音を含む音声素片）は、入力音声のうち波形の振幅が略一定となる時点を境界として切り出される。例えば、図８は、子音の音素［ｓ］と母音の音素［ａ］とを組み合わせた音声素片［ｓ_ａ］が入力音声から切り出される様子を示している。同図に示されるように、時点ｔ1から時点ｔ2までの区間Ｔsが音素［ｓ］として選定されるとともに、これに続く時点ｔ2から時点ｔ3までの区間Ｔaが音素［ａ］として選定されることによって音声素片［ｓ_ａ］が入力音声から切り出される。このとき、音素［ａ］の終点である時点ｔ3は、入力音声の振幅が略一定となる時点（以下「定常点」という）ｔ0よりも後の時点に指定される。そして、例えば人間が「さ」と発声したときの音声は、音声素片［ｓ_ａ］の終点ｔ3に音声素片［ａ］の始点を連結することによって合成される。
特開２００３−２５５９７４号公報（段落００２８および図８）

しかしながら、音声素片［ｓ_ａ］は定常点ｔ0よりも後の時点が終点ｔ3として選定されるため、必ずしも自然な音声を合成することができないという問題がある。ここで、定常点ｔ0は、人間が発声のために口を徐々に開いていって完全に開き切った時点に相当するため、この定常点ｔ0を含んだ全区間にわたる音声素片を利用して合成された音声は、必然的に、人間が口を完全に開いて発声したときの音声を模したものとなる。しかしながら、実際に人間が発声する場合には、必ずしも口を完全に開き切って発声するわけではない。例えば、テンポが速い楽曲を歌唱するときには、ひとつの歌詞の発声に際して口を完全に開き切る前に次の歌詞を発声しなければならない場合がある。あるいは、歌唱上の表現のために、楽曲の演奏が開始された直後の段階では口を充分に開かずに歌唱するとともに曲調が盛り上がるにつれて口の開き具合を増加させていく場合もある。このような事情にも拘わらず、従来の技術のもとでは、人間が口を開き切った段階の音声素片が固定的に利用されて音声が合成されるため、口が充分に開かれていないときの音声のような微妙な音声を合成することができないのである。

なお、口の開き具合が相違する各音声から複数の音声素片を採取しておき、このうちの何れかを選択的に利用することによって音声を合成すれば口の開き具合に応じた音声を合成することも一応は可能である。しかしながら、この場合には極めて多数の音声素片を用意しなければならないから、音声素片の作成に多大な労力が必要となり、さらには音声素片を保持するために多大な記憶容量の記憶装置が必要となるという問題が生じ得る。本発明は、このような事情に鑑みてなされたものであり、その目的は、音声素片を増加させることなく多様な音声を合成することにある。

この課題を解決するために、本発明に係る音声合成装置は、母音の音素を含む音声素片を取得する素片取得手段と、素片取得手段が取得した音声素片に含まれる母音の音素のうち始点から終点までの途中の時点に境界（後述する各実施形態における「音素セグメンテーション境界Ｂseg」に対応する）を指定する境界指定手段と、素片取得手段が取得した音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも前の区間、または当該母音の音素のうち境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する音声合成手段と具備する。この構成においては、音声素片に含まれる母音の音素の途中の時点に境界が指定され、この境界よりも前の区間または後の区間に基づいて音声が合成されるから、音声素片の全区間のみに基づいて音声が合成される従来の技術と比較して多様で自然な音声を合成することができる。例えば、音声素片に含まれる母音の音素のうち波形が定常的な状態となる前の区間に基づいて音声を合成すれば、人間が口を充分に開かずに発声したときの音声を模した音声が合成される。また、ひとつの音声素片について音声の合成に利用される区間が可変的に選定されるから、互いに区間が相違する多数の音声素片を用意する必要はない。なお、多数の音声素片を用意する必要がないとは言っても、例えば共通の音素について相互にピッチやダイナミクスが相違する複数の音声素片を用意する構成（例えば特開２００２−２０２７９０号公報に開示された構成）を本発明の範囲から排除する趣旨ではない。

本発明における音声素片とは、音声（典型的には人間の肉声）を聴覚上において区別し得る最小の単位に区分してなる音素（音韻：phoneme）と、複数の音素を連結した音素連鎖の双方を包含する概念である。音素は子音（例えば［ｓ］）と母音（例えば［ａ］）とに区別される。一方、音素連鎖は、子音とこれに続く母音との組合せ（例えば［ｓ_ａ］）、母音とこれに続く子音との組合せ（例えば［ｉ_ｔ］）、母音とこれに続く母音との組合せ（例えば［ａ_ｉ］）といった具合に、母音または子音に相当する複数の音素を時間軸上において相互に連結したものである。この音声素片の形態は任意である。例えば、音声素片は、時間領域（時間軸）における波形としての形態にて利用されてもよいし、周波数領域（周波数軸）におけるスペクトルとしての形態にて利用されてもよい。

なお、本発明において素片取得手段が音声素片を取得する方法やその取得先は任意である。より具体的には、記憶手段に記憶された音声素片を読み出す手段が素片取得手段として採用される。例えば、楽曲の歌唱音声の合成のために本発明を適用した場合には、複数の音声素片を記憶する記憶手段と、楽曲の歌詞を指定する歌詞データを取得する歌詞データ取得手段（後述する各実施形態の「データ取得手段１０」に対応する）とを具備する構成において、素片取得手段は、記憶手段に記憶された複数の音声素片のうち歌詞データ取得手段が取得した歌詞データに対応した音声素片を取得する。また、本発明の素片取得手段としては、他の通信端末によって保持された音声素片を通信により取得する手段や、利用者によって入力された音声を区分することによって音声素片を取得する手段も採用され得る。一方、境界指定手段は、母音の音素の始点から終点までの途中の時点に境界を指定する手段であるが、さらにはこの境界によって区分される範囲（例えば母音の音素のうち始点あるいは終点と境界とに挟まれた区間）を特定する手段としても把握される。

終点を含む区間が母音の音素である音声素片（例えば、［ａ］など母音の音素のみからなる音声素片や、［ｓ_ａ］、［ａ_ｉ］など最後の音素が母音である音素連鎖）は、その母音の音声波形が定常的な状態となった時点が終点となるように音声素片の範囲が画定される。このような音声素片を素片取得手段が取得した場合、音声合成手段は、この音声素片のうち境界指定手段が指定した境界よりも前の区間に基づいて音声を合成する。この態様によれば、人間が母音を発生するために口を徐々に開いていって完全に開き切る前の音声を合成することができる。一方、始点を含む区間が母音の音素である音声素片（例えば、［ａ］など母音の音素のみからなる音声素片や、［ａ_ｓ］、［ｉ_ａ］など最初の音素が母音である音素連鎖）は、その母音の音声波形が定常的な状態となった時点が始点となるように音声素片の範囲が画定される。このような音声素片を素片取得手段が取得した場合、音声合成手段は、この音声素片のうち境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する。この態様によれば、人間が口を途中まで開いた状態から徐々に閉じていくときの音声を合成することができる。

これらの態様を組み合わせてもよい。すなわち、本発明の別の態様において、素片取得手段は、終点を含む区間が母音の音素である第１の音声素片（例えば図２に示される音声素片［ｓ_ａ］）と、始点を含む区間が母音の音素である第２の音声素片（例えば図２に示される音声素片［ａ_＃］）とを取得し、境界指定手段は、第１および第２の音声素片の各々について母音の音素に境界を指定し、音声合成手段は、第１の音声素片のうち境界指定手段が指定した境界よりも前の区間と、第２の音声素片のうち境界指定手段が指定した境界よりも後の区間とに基づいて音声を合成する。この態様によれば、第１の音声素片のうち境界よりも前の区間と、第２の音声素片のうち境界よりも後の区間とに基づいて音声が合成されるから、第１の音声素片と第２の音声素片とを滑らかに連結して自然な音声を得ることができる。なお、第１の音声素片と第２の音声素片とを連結しただけでは充分な時間長をもった音声を合成できない場合がある。このような場合には、第１の音声素片と第２の音声素片との間隙の音声を適宜に補間する構成が採用される。例えば、素片取得手段が、複数のフレームに区分された音声素片を取得し、音声合成手段が、第１の音声素片のうち境界指定手段が指定した境界の直前のフレームと第２の音声素片のうち境界指定手段が指定した境界の直後のフレームとを補間することによって両フレームの間隙の音声を生成する。この構成によれば、第１の音声素片と第２の音声素片との間隙が滑らかに補間された自然な音声を所望の時間長にわたって合成することができる。さらに詳述すると、素片取得手段は、音声素片を区分した複数のフレームの各々について周波数スペクトルを取得し、音声合成手段は、第１の音声素片のうち境界指定手段が指定した境界の直前のフレームの周波数スペクトルと第２の音声素片のうち境界指定手段が指定した境界の直後のフレームの周波数スペクトルとを補間することによって両フレームの間隙の音声の周波数スペクトルを生成する。この態様によれば、周波数領域における簡易な処理によって音声を合成することができるという利点がある。なお、ここでは周波数スペクトルを補間する構成を例示したが、これに代えて、周波数スペクトルやスペクトル包絡の特徴的な形状（例えば周波数スペクトルのピークの周波数やゲイン、またはゲインやスペクトル包絡の全体の傾きなど）をパラメータによって表現しておき、各フレームのパラメータに基づいて両フレームの間隙の音声を補間する構成としてもよい。

音声素片のうち音声合成手段による合成に使用される区間の時間長は、ここで合成される音声が継続する時間長に応じて選定されることが望ましい。そこで、本発明の別の態様においては、音声を継続する時間長を指定する時間データを取得する時間データ取得手段（後述する各実施形態における「データ取得手段１０」に対応する）がさらに設けられ、境界指定手段は、音声素片に含まれる母音の音素のうち時間データによって指定される時間長に応じた時点に境界を指定する。楽曲の歌唱音声を合成するために本発明を適用した場合、時間データ取得手段は、楽曲を構成する音符が継続される時間長（音符長）を示すデータを時間データ（後述する実施形態における音符データに対応する）として取得する。この態様によれば、音声が継続する時間長に応じた自然な音声を合成することができる。より具体的な態様において、終点を含む区間が母音の音素である音声素片を素片取得手段が取得した場合に、境界指定手段は、時間データによって指定される時間長が長いほど、当該音声素片に含まれる母音の音素のうち終点に近い時点を境界に指定し、音声合成手段は、この音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも前の区間に基づいて音声を合成する。また、始点を含む区間が母音の音素である音声素片を素片取得手段が取得した場合に、境界指定手段は、時間データによって指定される時間長が長いほど、当該音声素片に含まれる母音の音素のうち始点に近い時点を境界に指定し、音声合成手段は、この音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する。

ただし、本発明において母音の音素に境界を指定する方法は任意である。例えば、他の態様においては、パラメータの入力を受け付ける入力手段が設けられ、境界指定手段は、素片取得手段が取得した音声素片に含まれる母音の音素のうち入力手段に入力されたパラメータに応じた時点を境界に指定する。この態様によれば、例えば利用者によって入力手段に入力されたパラメータに応じて、音声素片のうち音声合成に使用される区間が選定されるから、利用者の意図を精緻に反映させた多様な音声を合成することができる。また、楽曲の歌唱音声を合成するために本発明を適用した場合には、楽曲のテンポに応じた時点を境界に指定することが望ましい。例えば、終点を含む区間が母音の音素である音声素片を素片取得手段が取得した場合、境界指定手段は、楽曲のテンポが遅いほど、当該音声素片に含まれる母音の音素のうち終点に近い時点を境界に指定し、音声合成手段は、この音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも前の区間に基づいて音声を合成する。あるいは、始点を含む区間が母音の音素である音声素片を素片取得手段が取得した場合に、境界指定手段は、楽曲のテンポが遅いほど、当該音声素片に含まれる母音の音素のうち始点に近い時点を境界に指定し、音声合成手段は、この音声素片に含まれる母音の音素のうち境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する。

本発明に係る音声合成装置は、音声の合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェアによって実現されるほか、パーソナルコンピュータなどのコンピュータとプログラムとの協働によっても実現される。このプログラムは、コンピュータに、母音の音素を含む音声素片を取得する素片取得処理と、素片取得処理によって取得した音声素片に含まれる母音の音素のうち始点から終点までの途中の時点に境界を指定する境界指定処理と、素片取得処理によって取得した音声素片に含まれる母音の音素のうち境界指定処理にて指定した境界よりも前の区間、または当該母音の音素のうち境界指定処理にて指定した境界よりも後の区間に基づいて音声を合成する音声合成処理とを実行させる。このプログラムによっても、本発明の音声合成装置について上述したのと同様の作用および効果が得られる。なお、本発明に係るプログラムは、ＣＤ−ＲＯＭなど可搬型の記録媒体に格納された形態にて利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態にてサーバ装置から提供されてコンピュータにインストールされる。

また、本発明は、音声を合成する方法としても特定される。すなわち、この方法（音声合成方法）は、母音の音素を含む音声素片を取得する素片取得段階と、素片取得段階にて取得した音声素片に含まれる母音の音素のうち始点から終点までの途中の時点に境界を指定する境界指定段階と、素片取得段階にて取得した音声素片に含まれる母音の音素のうち境界指定段階にて指定した境界よりも前の区間、または当該母音の音素のうち境界指定段階にて指定した境界よりも後の区間に基づいて音声を合成する音声合成段階とを有する。この方法によっても、本発明の音声合成装置について上述したのと同様の作用および効果が得られる。

図面を参照しながら本発明の実施の形態を説明する。以下に示す各実施形態は、楽曲の歌唱音声を合成するために本発明を適用した態様である。

＜Ａ−１：第１実施形態の構成＞
まず、図１を参照して、本発明の第１実施形態に係る音声合成装置の構成を説明する。同図に示されるように、音声合成装置Ｄは、データ取得手段１０と、記憶手段２０と、音声処理手段３０と、出力処理手段４１と、出力手段４３とを具備する。このうちデータ取得手段１０、音声処理手段３０および出力処理手段４１は、例えばＣＰＵ（Central Processing Unit）などの演算処理装置がプログラムを実行することによって実現されてもよいし、ＤＳＰなど音声処理に専用されるハードウェアによって実現されてもよい（後述する第２実施形態についても同様）。

図１に示されるデータ取得手段１０は、楽曲の演奏に関するデータを取得する手段である。具体的には、データ取得手段１０は、歌詞データと音符データとを取得する。歌詞データは、楽曲の歌詞の文字列を指定するデータである。一方、音符データは、楽曲のうちメインメロディ（例えばボーカルパート）を構成する各楽音のピッチ（音高）と、その楽音が継続されるべき時間長（以下「音符長」という）とを指定するデータである。歌詞データおよび音符データは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠したデータである。したがって、歌詞データや音符データを図示しない記憶装置から読み出す手段のほか、外部に設置されたＭＩＤＩ機器から歌詞データや音符データを受信するＭＩＤＩインタフェースがデータ取得手段１０として採用される。

記憶手段２０は、音声素片を示すデータ（以下「音声素片データ」という）を記憶する手段である。磁気ディスクを内蔵したハードディスク装置や、ＣＤ−ＲＯＭに代表される可搬型の記録媒体を駆動する装置など各種の記憶装置が記憶手段２０として採用される。本実施形態における音声素片データは、音声素片の周波数スペクトルを示すデータである。このような音声素片データを作成する手順について図２を参照しながら説明する。

図２の部分（ａ１）には、終点を含む区間が母音の音素とされた音声素片（すなわち最後の音素が母音の音素である音声素片）の時間軸上における波形が図示されている。ここでは特に、子音の音素［ｓ］とこれに続く母音の音素［ａ］とを組み合わせた音素連鎖を例示する。同図に示されるように、音声素片データの作成に際しては、まず、特定の発声者によって発声された入力音声のうち所望の音声素片に相当する区間が切り出される。この区間の端部（境界）は、例えば、音声素片データの作成者が入力音声の波形を表示装置にて視認しながら操作子を適宜に操作して当該区間の端部を指定することによって選定される。図２の部分（ａ１）においては、時点Ｔa1が音素［ｓ］の始点として指定されるとともに時点Ｔa3が音素［ａ］の終点として指定され、さらに時点Ｔa2が音素［ｓ］と音素［ａ］との境界として指定された場合が想定されている。図２の部分（ａ１）に示されるように、音素［ａ］の波形は、その発声のために口を開いていく発声者の動作に対応するように時点Ｔa2から徐々に振幅が増大していき、発声者が口を開き切った時点Ｔa0を越えると振幅が略一定に維持される形状となる。音素［ａ］の終点Ｔa3としては、音素［ａ］の波形が定常的な状態に遷移した後の時点（すなわち図２の部分（ａ１）に示される時点Ｔa0以降の時点）が選定される。なお、以下では、音素の波形が定常的な状態となる領域（振幅が略一定に維持される領域）と非定常的な状態となる領域（振幅が経時的に変化する領域）との境界を「定常点」と表記する。図２の部分（ａ１）においては時点Ｔa0が定常点である。

一方、図２の部分（ｂ１）には、始点を含む区間が母音の音素とされた音声素片（すなわち最初の音素が母音の音素である音声素片）の波形が図示されている。ここでは特に、母音の音素［ａ］を含む音声素片［ａ_＃］を例示する。「＃」は無音を表わす記号である。この音素素片［ａ_＃］に含まれる音素［ａ］の波形は、発声者が口を開き切った状態にて発声してから徐々に口を閉じていって最後には完全に口が閉じられるという発声の動作に対応した形状となる。すなわち、音素［ａ］の波形は、初めに振幅が略一定に維持され、発声者が口を閉じる動作を開始する時点（定常点）Ｔb0から振幅が徐々に減少していく。このような音声素片の始点Ｔb1は、音素［ａ］の波形が定常的な状態に維持されている期間内の時点（すなわち定常点Ｔb0よりも前の時点）として選定される。

以上の手順を経て時間軸上における範囲が画定された音声素片は所定の時間長（例えば５ｍｓないし１０ｍｓ）のフレームＦに区分される。図２の部分（ａ１）に示されるように、各フレームＦは時間軸上において相互に重なり合うように選定される。これらのフレームＦは簡易的には同一の時間長の区間とされるが、例えば音声素片のピッチに応じて各フレームＦの時間長を変化させてもよい。こうして区分された各フレームＦの波形にＦＦＴ（Fast Fourier Transform）処理を含む周波数分析が実施されることによって周波数スペクトルが特定され、これらの周波数スペクトルを示すデータが音声素片データとして記憶手段２０に記憶される。したがって、図２の部分（ａ２）および部分（ｂ２）に示されるように、各音声素片の音声素片データは、各々が別個のフレームＦの周波数スペクトルを示す複数の単位データＤ（Ｄ1、Ｄ2、……）を含む。以上が音声素片データを作成するための手順である。なお、以下では、複数の音素からなる音素連鎖のうち最初の音素を「前音素」と表記し、最後の音素を「後音素」と表記する。例えば、音声素片［ｓ_ａ］については音素［ｓ］が前音素であり、音素［ａ］が後音素である。

図１に示されるように、音声処理手段３０は、素片取得手段３１と境界指定手段３３と音声合成手段３５とを有する。データ取得手段１０によって取得された歌詞データは素片取得手段３１に供給され、同じくデータ取得手段１０によって取得された音符データは境界指定手段３３および音声合成手段３５に供給される。素片取得手段３１は、記憶手段２０に記憶された音声素片データを取得するための手段である。本実施形態における素片取得手段３１は、記憶手段２０に記憶された複数の音声素片データの何れかを歌詞データに基づいて順次に選択し、この選択した音声素片データを読み出して境界指定手段３３に出力する。より具体的には、素片取得手段３１は、歌詞データによって指定される文字に対応した音声素片データを記憶手段２０から読み出す。例えば、歌詞データによって「さいた（ｓａｉｔａ）」という文字列が指定された場合には、音声素片［＃ｓ］、［ｓ_ａ］、［ａ_ｉ］、［ｉ_ｔ］、［ｔ_ａ］および［ａ＃］の各々に対応する音声素片データが記憶手段２０から読み出される。

一方、境界指定手段３３は、素片取得手段３１が取得した音声素片に境界（以下「音素セグメンテーション境界」という）Ｂsegを指定する手段である。本実施形態における境界指定手段３３は、図２の部分（ａ１）および部分（ａ２）や同図の部分（ｂ１）および部分（ｂ２）に示されるように、音声素片データが示す音声素片における母音の音素の始点（Ｔa2、Ｔb1）から終点（Ｔa3、Ｔb2）までの区間のうち音符データによって指定される音符長に応じた時点をそれぞれ音素セグメンテーション境界Ｂseg（Ｂseg1、Ｂseg2）として指定する。すなわち、音素セグメンテーション境界Ｂsegの位置は音符長に応じて変化する。また、複数の母音が組み合わされた音声素片（例えば［ａ_ｉ］）については、図３に示されるように、母音の音素の各々について音素セグメンテーション境界Ｂseg（Ｂseg1、Ｂseg2）が指定される。こうして音素セグメンテーション境界Ｂsegを特定すると、境界指定手段３３は、素片取得手段３１から供給された音声素片データに対して音素セグメンテーション境界Ｂsegの位置を示すデータ（以下「マーカ」という）を付加したうえで音声合成手段３５に出力する。なお、この境界指定手段３３の具体的な動作については後述する。

図１に示される音声合成手段３５は、複数の音声素片を相互に連結する手段である。本実施形態においては、境界指定手段３３によって順次に供給される各音声素片データから単位データＤが部分的に抽出され（以下ではひとつの音声素片データから抽出された単位データＤの集合を「対象データ群」という）、相前後する各音声素片データの対象データ群が相互に連結されることによって音声が合成される。音声素片データのうち対象データ群とそれ以外の単位データＤとを区分する境界となるのが音素セグメンテーション境界Ｂsegである。すなわち、図２の部分（ａ２）および部分（ｂ２）に示されるように、音声合成手段３５は、音声素片データを構成する複数の単位データＤのうち音素セグメンテーション境界Ｂsegによって区分された区間に属する各単位データＤを対象データ群として抽出する。

ところで、単に複数の音声素片を連結しただけでは所期の音符長が得られない場合がある。また、互いに音色が相違する音声素片を連結した場合にはその連結部分において耳障りなノイズが発生する可能性がある。これらの問題を解消するために、本実施形態の音声合成手段３５は補間手段３５１を有する。この補間手段３５１は、各音声素片の間隙Ｃfを補間するための手段である。例えば、補間手段３５１は、図２の部分（ｃ）に示されるように、音声素片［ｓ_ａ］の音声素片データに含まれる単位データＤiと音声素片［ａ_＃］の音声素片データに含まれる単位データＤj+1とに基づいて補間単位データＤf（Ｄf1、Ｄf2、……Ｄfl）を生成する。補間単位データＤfの総数は音符データが示す音符長Ｌに応じて選定される。すなわち、音符長が長ければ多数の補間単位データＤfが生成され、音符長が短ければ相対的に少数の補間単位データＤfが生成されることになる。こうして生成された補間単位データＤfが各音声素片の対象データ群の間隙Ｃfに補充されることによって合成音声の音符長が所期の時間長Ｌに調整され、さらには各音声素片の間隙Ｃfが滑らかに連結されることによって連結部分のノイズが低減される。さらに、音声合成手段３５は、補間単位データＤfを挟んで連結された各対象データ群が示す音声のピッチを、音符データによって指定されるピッチに調整する。以下では、音声合成手段３５による各処理（連結・補間→ピッチ変換）を経て生成されたデータを「合成音声データ」という。この合成音声データは、図２の部分（ｃ）に示されるように、各音声素片から抽出された対象データ群とその間隙に補充された補間単位データＤfとからなるデータ列である。

次に、図１に示される出力処理手段４１は、音声合成手段３５から出力された合成音声データを構成するフレームＦごとの単位データＤ（補間単位データＤfを含む）に逆ＦＦＴ処理を施して時間領域の信号を生成する。さらに、出力処理手段４１は、こうして生成されたフレームＦごとの信号に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように接続して出力音声信号を生成する。一方、出力手段４３は、出力音声信号に応じた合成音声を出力する手段である。より具体的には、出力手段４３は、出力処理手段４１から供給される出力音声信号をアナログの電気信号に変換するＤ／Ａ変換器と、このＤ／Ａ変換器からの出力信号に基づいて放音する機器（例えばスピーカやヘッドフォン）とを具備する。

＜Ａ−２：第１実施形態の動作＞
次に、本実施形態に係る音声合成装置Ｄの動作を説明する。

まず、音声処理手段３０の素片取得手段３１は、データ取得手段１０から供給される歌詞データに対応した音声素片データを記憶手段２０から順次に読み出して境界指定手段３３に出力する。ここでは、歌詞データによって文字「さ（ｓａ）」が指定された場合を想定する。この場合、素片取得手段３１は、音声素片［＃_ｓ］、［ｓ_ａ］および［ａ_＃］の各々に対応する音声素片データを記憶手段２０から読み出してこの順番にて境界指定手段３３に出力する。

次いで、境界指定手段３３は、素片取得手段３１から順次に供給される音声素片データについて音素セグメンテーション境界Ｂsegを指定する。図４は、このときの境界指定手段３３の動作を示すフローチャートである。同図に示される処理は素片取得手段３１から音声素片データが供給されるたびに実行される。図４に示されるように、音声処理手段３０はまず、素片取得手段３１から供給された音声素片データが示す音声素片に母音の音素が含まれるか否かを判定する（ステップＳ１）。母音の音素の有無を判定するための方法は任意であるが、例えば、記憶手段２０に記憶された音声素片データに母音の音素の有無を示すフラグを予め付加しておき、境界指定手段３３がこのフラグに基づいて母音の有無を判定する構成が採用される。このステップＳ１において音声素片に母音の音素が含まれていないと判定した場合、音声処理手段３０は、その音声素片の終点を音素セグメンテーション境界Ｂsegに指定する（ステップＳ２）。例えば、音声素片［＃_ｓ］の音声素片データが素片取得手段３１から供給されると、境界指定手段３３はその音声素片の終点を音素セグメンテーション境界Ｂsegに指定する。したがって、音声素片［＃_ｓ］については、音声素片データを構成する総ての単位データＤが音声合成手段３５によって対象データ群として選定されることになる。

これに対し、ステップＳ１において音声素片に母音の音素が含まれていると判定した場合、境界指定手段３３は、音声素片データにより示される音声素片の前音素が母音であるか否かを判定する（ステップＳ３）。ここで前音素が母音であると判定した場合、境界指定手段３３は、この音声素片のうち前音素たる母音の音素の終点から音素セグメンテーション境界Ｂsegまでの時間長が音符データによって示される音符長に応じた時間長となるように音素セグメンテーション境界Ｂsegを指定する（ステップＳ４）。例えば、「さ」の音声を合成するための音声素片［ａ_＃］は前音素が母音であるから、この音声素片を示す音声素片データが素片取得手段３１から供給されると、境界指定手段３３はステップＳ４の処理によって音素セグメンテーション境界Ｂsegを指定する。具体的には、図２の部分（ｂ１）および部分（ｂ２）に示されるように、音符長が長いほど時間軸上における前（すなわち前音素［ａ］の終点Ｔb2から離れる方向）の時点が音素セグメンテーション境界Ｂsegとして指定される。ステップＳ３において前音素が母音でないと判定した場合、境界指定手段３３は、ステップＳ４を経ることなくステップＳ５に処理を移行させる。

ここで、図５は、音符データが示す音符長ｔと音素セグメンテーション境界Ｂsegの位置との関係を示す表である。同図に示されるように、音符データによって示される音符長ｔが５０ｍｓを下回る場合には、母音である前音素の終点（図２の部分（ｂ１）に示される時点Ｔb2）から５ｍｓだけ遡った時点が音素セグメンテーション境界Ｂsegとして指定される。このように前音素の終点から音素セグメンテーション境界Ｂsegまでの時間長に下限を設けているのは、母音の音素の時間長が余りに短い（例えば５ｍｓ未満）と当該音素が合成音声にほとんど反映されなくなってしまうからである。一方、図５に示されるように、音符データによって示される音符長ｔが５０ｍｓを越える場合には、音声素片のうち前音素である母音の音素の終点から｛（ｔ−４０）／２｝ｍｓだけ遡った時点が音素セグメンテーション境界Ｂsegとして指定される。したがって、音符長ｔが５０ｍｓを越える場合には、この音符長ｔが長いほど音素セグメンテーション境界Ｂsegが時間軸上における前の時点となる（換言すると、音符長ｔが短いほど音素セグメンテーション境界Ｂsegが時間軸上における後の時点となる）。図２の部分（ｂ１）および部分（ｂ２）には、音声素片［ａ_＃］の前音素［ａ］のうち定常点Ｔb0よりも時間軸上において後の時点が音素セグメンテーション境界Ｂsegとして指定された場合が例示されている。なお、図５の内容に基づいて特定される音素セグメンテーション境界Ｂsegが前音素の始点Ｔb1よりも前の時点となる場合には、その始点Ｔb1が音素セグメンテーション境界Ｂsegとされる。

次に、境界指定手段３３は、音声素片データによって示される音声素片の後音素が母音であるか否かを判定する（ステップＳ５）。ここで後音素が母音でないと判定した場合、境界指定手段３３は、ステップＳ６を経ることなくステップＳ７に処理を移行させる。これに対し、後音素が母音であると判定した場合、境界指定手段３３は、この音声素片のうち後音素たる母音の始点から音素セグメンテーション境界Ｂsegまでの時間長が音符データによって示される音符長に応じた時間長となるように音素セグメンテーション境界Ｂsegを指定する（ステップＳ６）。例えば、「さ」の音声を合成するための音声素片［ｓ_ａ］は後音素が母音であるから、この音声素片を示す音声素片データが素片取得手段３１から供給されると、境界指定手段３３はステップＳ６の処理によって音素セグメンテーション境界Ｂsegを指定する。より具体的には、図２の部分（ａ１）および部分（ａ２）に示されるように、音符長が長いほど時間軸上における後（すなわち後音素［ａ］の始点Ｔa2から離れる方向）の時点が音素セグメンテーション境界Ｂsegとして指定される。この場合の音素セグメンテーション境界Ｂsegの位置も図５の表に基づいて選定される。すなわち、同図に示されるように、音符データによって示される時間長ｔが５０ｍｓを下回る場合には、母音たる後音素の始点（図２の部分（ａ１）における時点Ｔa2）から５ｍｓだけ経過した時点が音素セグメンテーション境界Ｂsegとして指定される。一方、図５に示されるように、音符データによって示される音符長ｔが５０ｍｓを越える場合には、母音たる後音素の始点から｛（ｔ−４０）／２｝ｍｓだけ経過した時点が音素セグメンテーション境界Ｂsegとして指定される。したがって、音符長ｔが５０ｍｓを越える場合には、この音符長ｔが長いほど音素セグメンテーション境界Ｂsegが時間軸上における後の時点となる（すなわち音符長ｔが短いほど音素セグメンテーション境界Ｂsegが時間軸上における前の時点となる）。図２の部分（ａ１）および部分（ａ２）には、音声素片［ｓ_ａ］の後音素［ａ］のうち定常点Ｔa0よりも時間軸上において前の時点が音素セグメンテーション境界Ｂsegとして指定された場合が例示されている。なお、図５の表に基づいて特定される音素セグメンテーション境界Ｂsegが後音素の終点Ｔa3よりも後の時点となる場合には、その終点Ｔa3が音素セグメンテーション境界Ｂsegとされる。

以上の手順により音素セグメンテーション境界Ｂsegを指定すると、境界指定手段３３は、この音素セグメンテーション境界Ｂsegを示すマーカを音声素片データに付加したうえで音声合成手段３５に出力する（ステップＳ７）。なお、前音素および後音素の双方が母音である音声素片（例えば［ａ_ｉ］）については、ステップＳ４およびステップＳ６の双方の処理が実行される。したがって、この種の音声素片については、図３に示されるように前音素および後音素の各々について音素セグメンテーション境界Ｂseg（Ｂseg1、Ｂseg2）が指定される。以上が境界指定手段３３による処理の内容である。

次に、音声合成手段３５は、以下の手順によって複数の音声素片を相互に連結して合成音声データを生成する。すなわち、音声合成手段３５は、まず、境界指定手段３３から供給された音声素片データから対象データ群を選定する。この対象データ群の選定の方法について、母音を含まない音声素片の音声素片データが供給された場合と、前音素が母音である音声素片の音声素片データが供給された場合と、後音素が母音である音声素片の音声素片データが供給された場合とに分けて説明する。

母音を含まない音声素片については図４のステップＳ２にて当該音声素片の終点が音素セグメンテーション境界Ｂsegとして選定されている。この種の音声素片の音声素片データが供給された場合、音声合成手段３５は、これに含まれる総ての単位データＤを対象データ群として選定する。母音を含む音声素片であっても、音素セグメンテーション境界Ｂsegとして各音素の端部（始点または終点）が指定されている場合には、これと同様に総ての単位データＤが対象データ群として選定される。これに対し、母音を含む音声素片について当該母音の音素の途中の時点が音素セグメンテーション境界Ｂsegとして選定されている場合には、音声素片データに含まれる単位データＤが部分的に対象データ群として選定される。

すなわち、後音素が母音である音声素片の音声素片データがマーカとともに供給されると、音声合成手段３５は、このマーカが示す音素セグメンテーション境界Ｂsegよりも前の区間に属する単位データＤを対象データ群として抽出する。例えばいま、図２の部分（ａ２）に示されるように、前音素［ｓ］に対応する単位データＤ1ないしＤlと後音素［ａ］（母音の音素）に対応する単位データＤ1ないしＤmとを含む音声素片データが供給された場合を想定する。この場合、音声合成手段３５は、後音素［ａ］の単位データＤ1ないしＤmのうち音素セグメンテーション境界Ｂseg1の直前のフレームＦに対応した単位データＤiを特定したうえで、図２の部分（ａ２）に示されるように、この音声素片［ｓ_ａ］の最初の単位データＤ1（すなわち音素［ｓ］の最初のフレームＦに対応する単位データ）から単位データＤiまでを対象データ群として抽出する。一方、音素セグメンテーション境界Ｂseg1から音声素片の終点までの区間に属する単位データＤi+1ないしＤmは破棄される。このような動作の結果、図２の部分（ａ１）に示される音声素片［ｓ_ａ］の全区間にわたる波形のうち音素セグメンテーション境界Ｂseg1よりも前の区間の波形を表わす各単位データが対象データ群として抽出されることになる。図２の部分（ａ１）のように、音素［ａ］のうち定常点Ｔa0よりも前の時点に音素セグメンテーション境界Ｂseg1が指定されているとすれば、音声合成手段３５によって音声の合成に供される波形は、後音素［ａ］の波形が定常的な状態に到達する前の波形となる。換言すると、後音素［ａ］のうち定常的な状態に遷移した区間の波形は音声の合成に供されない。

一方、前音素が母音である音声素片の音声素片データがマーカとともに供給されると、音声合成手段３５は、このマーカが示す音素セグメンテーション境界Ｂsegよりも後の区間に属する単位データＤを対象データ群として抽出する。例えばいま、図２の部分（ｂ２）に示されるように、音声素片［ａ_＃］の前音素［ａ］に対応する単位データＤ1ないしＤnを含む音声素片データが供給された場合を想定する。この場合、音声合成手段３５は、前音素［ａ］の単位データＤ1ないしＤnのうち音素セグメンテーション境界Ｂseg2の直後のフレームＦに対応した単位データＤj+1を特定したうえで、図２の部分（ｂ２）に示されるように、この単位データＤj+1から前音素［ａ］の最後の単位データＤnまでを対象データ群として抽出する。これに対し、音声素片の始点（すなわち第１素片［ａ］の始点）から音素セグメンテーション境界Ｂseg2までの区間に属する単位データＤ1ないしＤjは破棄される。このような動作の結果、図２の部分（ｂ１）に示される音声素片［ａ_＃］の全区間にわたる波形のうち音素セグメンテーション境界Ｂseg2よりも後の区間の波形を表わす対象データ群が抽出されることになる。この場合、音声合成手段３５によって音声の合成に供される波形は、音素［ａ］が定常的な状態から非定常的な状態に遷移した後の波形となる。すなわち、前音素［ａ］のうち定常的な状態が維持される区間の波形は音声の合成に供されない。

なお、前音素および後音素の双方が母音である音声素片については、前音素について指定された音素セグメンテーション境界Ｂsegからその前音素の終点までの区間と、後音素の始点からその音素について指定された音素セグメンテーション境界Ｂsegまでの区間とに属する単位データＤが対象データ群として抽出される。例えば、図３に例示されるように、ともに母音である前音素［ａ］と後音素［ｉ］とが組み合わされた音声素片［ａ_ｉ］については、前音素［ａ］について指定された音素セグメンテーション境界Ｂseg1から後音素［ｉ］について指定された音素セグメンテーション境界Ｂseg2までの区間に属する単位データＤ（Ｄi+1ないしＤmおよびＤ1ないしＤj）が対象データ群として抽出され、それ以外の単位データＤは破棄される。

さて、以上の手順にて各音声素片の対象データ群が選定されると、音声合成手段３５の補間手段３５１は、各音声素片の間隙Ｃfを補間するための補間単位データＤfを生成する。さらに詳述すると、補間手段３５１は、先行する音声素片の対象データ群のうち最後の単位データＤと、これに後続する音声素片の対象データ群のうち最初の単位データＤとを利用した直線補間によって補間単位データＤfを生成する。図２に示されるように音声素片［ｓ_ａ］と音声素片［ａ_＃］とが連結される場合を想定すると、音声素片［ｓ_ａ］について抽出された対象データ群の最後の単位データＤiと音声素片［ａ_＃］について抽出された対象データ群の最初の単位データＤj+1とに基づいて補間単位データＤf1ないしＤflが生成される。図６は、音声素片［ｓ_ａ］の対象データ群のうち最後の単位データＤiによって示される周波数スペクトルＳＰ1と、音声素片［ａ_＃］の対象データ群のうち最初の単位データＤj+1によって示される周波数スペクトルＳＰ2とを時間軸上に配列した図である。同図に示されるように、補間単位データＤfが示す周波数スペクトルＳＰfは、周波数軸（ｆ軸）上に予め定められた複数の周波数の各々における周波数スペクトルＳＰ1上の各点Ｐ1と、これらの周波数における周波数スペクトルＳＰ2上の各点Ｐ2とを結ぶ直線上の各点Ｐfを相互に連結した形状となる。また、ここではひとつの補間単位データＤfのみを例示したが、音符データが示す音符長に応じた個数の補間単位データＤf（Ｄf1、Ｄf2、……、Ｄfl）が同様の手順にて順次に作成される。以上の補間処理により、図２の部分（ｃ）に示されるように、音声素片［ｓ_ａ］の対象データ群と音声素片［ａ_＃］の対象データ群とが各補間単位データＤfを挟んで連結され、音声素片［ｓ_ａ］の最初の単位データＤ1から音声素片［ａ_＃］の最後の単位データＤnまでの時間長Ｌが音符長に応じた長さに調整される。

次いで、音声合成手段３５は、この補間処理によって生成された各単位データＤ（補間単位データＤfを含む）に所定の処理を施すことによって合成音声データを生成する。ここで実行される処理は、各単位データＤが示す音声のピッチを、音符データによって指定されるピッチに調整するための処理を含む。このようにピッチを調整するための方法としては公知である各種の方法が採用される。例えば、各単位データＤが示す周波数スペクトルを、音符データが示すピッチに応じた分だけ周波数軸上において移動させることによってピッチを調整することができる。また、音声合成手段３５が、合成音声データによって示される音声に対して各種の効果を付与するための処理を実行する構成としてもよい。例えば、音符長が長い場合には、音声合成データが示す音声に対して微小な揺らぎやビブラートを付加してもよい。以上の手順によって生成された合成音声データは出力処理手段４１に出力される。出力処理手段４１は、この合成音声データを時間領域の信号である出力音声信号に変換したうえで出力する。そして、この出力音声信号に応じた合成音声が出力手段４３から出力される。

以上に説明したように、本実施形態においては、音声素片のうち音声の合成に供される区間を画定する音素セグメンテーション境界Ｂsegの位置を変化させることができるから、音声素片の全区間のみに基づいて音声が合成される従来の構成と比較して多様で自然な音声を合成することができる。例えば、音声素片に含まれる母音の音素のうち波形が定常的な状態となる前の時点が音素セグメンテーション境界Ｂsegとして指定された場合には、人間が口を充分に開かずに発生したときの音声を合成することができる。しかも、ひとつの音声素片について音素セグメンテーション境界Ｂsegが可変的に選定されるから、互いに区間が相違する多数の音声素片データ（例えば発声者の口の開き具合が異なる多数の音声素片データ）を用意する必要はない。

ところで、各楽音の音符長が短い楽曲については歌詞が速いペースで変化する場合が多い。このような楽曲の歌唱者は、ある歌詞を発声するために充分に口を開く前に次の歌詞を発声するといった具合に早口で歌唱する必要がある。このような傾向に基づいて、本実施形態においては、楽曲を構成する各楽音の音符長に応じて音素セグメンテーション境界Ｂsegが選定されるようになっている。この構成によれば、各楽音の音符長が短い場合には、各音声素片のうち波形が定常的な状態となる前までの区間を利用して合成音声が生成されるから、歌唱者が口を充分に開かずに早口で歌唱したときの音声を合成することができる。一方、各楽音の音符長が長い場合には、各音声素片のうち波形が定常的な状態となる区間まで利用して合成音声が生成されるから、歌唱者が充分に口を開いて歌唱したときの音声を合成することができる。このように本実施形態によれば、楽曲に応じた自然な歌唱音声を合成することができる。

さらに、本実施形態においては、後音素が母音である音声素片のうち当該母音の途中までの区間と、前音素が母音である音声素片のうち当該母音の途中からの区間とに基づいて音声が合成される。この構成によれば、何れか一方の音声素片についてのみ音素セグメンテーションＢsegが指定される構成と比較して、先行する音声素片の終点近傍の特性と後続する音声素片の始点近傍の特性との相違が低減されるから、各音声素片を滑らかに連結して自然な音声を合成することができる。

＜Ｂ：第２実施形態＞
次に、図７を参照して、本発明の第２実施形態に係る音声合成装置Ｄについて説明する。上記第１実施形態においては、楽曲を構成する各楽音の音符長に応じて音素セグメンテーション境界Ｂsegの位置が制御される構成を例示した。これに対し、本実施形態に係る音声合成装置Ｄにおいては、利用者が入力したパラメータに応じて音素セグメンテーション境界Ｂsegの位置が選定されるようになっている。なお、本実施形態に係る音声合成装置Ｄのうち上記第１実施形態と同様の要素については共通の符号を付してその説明を適宜に省略する。

図７に示されるように、本実施形態に係る音声合成装置Ｄは、上記第１実施形態の各要素に加えて入力手段３８を備えている。この入力手段３８は、利用者によるパラメータの入力を受け付ける手段である。この入力手段３８に入力されたパラメータは境界指定手段３３に供給される。利用者によって操作される複数の操作子を備えた各種の入力機器が入力手段３８として採用される。一方、データ取得手段１０から出力された音符データは音声合成手段３５のみに供給され、境界指定手段３３には供給されない。

以上の構成のもと、素片取得手段３１から音声素片データが供給されると、境界指定手段３３は、これが示す音声素片の母音の音素のうち入力手段３８から入力されたパラメータに応じた時点を音素セグメンテーション境界Ｂsegとして指定する。さらに詳述すると、境界指定手段３３は、図４のステップＳ４において、前音素の終点（Ｔb2）からパラメータに応じた時間長だけ遡った時点を音素セグメンテーション境界Ｂsegとして指定する。例えば、利用者によって入力されたパラメータが大きいほど時間軸上における前（前音素の終点（Ｔb2）から離れる方向）の時点が音素セグメンテーション境界Ｂsegとされる。一方、境界指定手段３３は、図４のステップＳ６において、後音素の始点（Ｔa2）からパラメータに応じた時間長だけ経過した時点を音素セグメンテーション境界Ｂsegとして指定する。例えば、利用者によって入力されたパラメータが大きいほど時間軸上における後（後音素の始点Ｔa2から離れる方向）の時点が音素セグメンテーション境界Ｂsegとされる。これ以外の動作は上記第１実施形態と同様である。

このように、本実施形態においても音素セグメンテーション境界Ｂsegの位置が可変であるから、音声素片の増加を要することなく多様な音声を合成することができるという上記第１実施形態と同様の効果が得られる。さらに、利用者によって入力されたパラメータに応じて音素セグメンテーション境界Ｂsegの位置が制御されるから、利用者の意図を精緻に反映させた多様な音声を合成することができる。例えば、楽曲の演奏が開始された直後の段階では口を充分に開かずに歌唱し、曲調が盛り上がるにつれて口の開き具合を増加させていくといった歌唱上の表現がある。本実施形態によれば、楽曲の演奏が進行するにつれてパラメータを変化させていくことにより、このような歌唱の方法を再現することができる。

＜Ｃ：変形例＞
上記各実施形態には種々の変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。以下に示す各態様を適宜に組み合わせてもよい。

（１）上記第１実施形態と第２実施形態とを組み合わせた構成も採用される。すなわち、音符データによって指定される音符長と入力手段３８から入力されるパラメータとの双方に応じて音素セグメンテーション境界Ｂsegの位置を制御する構成としてもよい。もっとも、音素セグメンテーション境界Ｂsegの位置を制御するための方法は任意である。例えば、楽曲のテンポに応じて音素セグメンテーション境界Ｂsegの位置を制御してもよい。すなわち、前音素が母音である音声素片については、楽曲のテンポが速いほど時間軸上における後の時点が音素セグメンテーション境界Ｂsegとして指定され、後音素が母音である音声素片については、楽曲のテンポが速いほど時間軸上における前の時点が音素セグメンテーション境界Ｂsegとして指定されるといった具合である。また、音素セグメンテーション境界Ｂsegの位置を示すデータを楽曲の各楽音ごとに予め用意しておき、境界指定手段３３がこのデータに基づいて音素セグメンテーション境界Ｂsegを指定する構成としてもよい。このように、本発明においては、母音の音素に指定される境界（音素セグメンテーション境界Ｂseg）の位置が可変であれば足り、その位置を指定するための方法の如何は不問である。

（２）上記各実施形態においては境界指定手段３３が音声素片データにマーカを付加したうえで音声合成手段３５に出力するとともに音声合成手段３５が対象データ群以外の単位データＤを破棄する構成を例示したが、境界指定手段３３が対象データ群以外の単位データＤを破棄する構成としてもよい。すなわち、境界指定手段３３は、音素セグメンテーション境界Ｂsegに基づいて音声素片データから対象データ群を抽出し、この対象データ群を音声合成手段３５に供給するとともに対象データ群以外の単位データＤを破棄する。この構成によれば、音声素片データに対するマーカの付加を不要とすることができる。

（３）音声素片データの態様は上記各実施形態に示したものに限られない。例えば、各音声素片のフレームＦごとのスペクトル包絡（スペクトルエンベロープ）を示すデータを音声素片データとしてもよいし、各音声素片の時間軸上における波形を示すデータを音声素片データとしてもよい。また、音声素片の波形をＳＭＳ（Spectral Modeling Synthesis）技術によって調和成分（Deterministic Component）と非調和成分（Stochastic Component）とに区分し、この各成分を示すデータを音声素片データとしてもよい。この場合には、調和成分と非調和成分の双方について境界指定手段３３および音声合成手段３５による処理が実行されるとともに、この処理後の調和成分と非調和成分とが音声合成手段３５の後段の加算手段によって加算されることになる。また、各音声素片をフレームＦに区分したうえで各フレームＦのスペクトル包絡に関する複数の特徴量（例えばスペクトル包絡のピークの周波数やゲイン、またはスペクトル包絡の全体の傾きなど）を抽出しておき、これらの特徴量を表わす複数のパラメータのセットを音声素片データとしてもよい。このように、本発明において音声素片を保持する形態の如何は不問である。

（４）上記各実施形態においては、各音声素片の間隙Ｃfを補間する補間手段３５１が設けられた構成を例示したが、この補間は必ずしも必要ではない。例えば、音声素片［ｓ_ａ］と音声素片［ａ_＃］との間に介挿される音声素片［ａ］を用意しておき、この音声素片［ａ］の時間長を音符長に応じて調整することによって合成音声を調整する構成も採用される。さらに、上記各実施形態においては各音声素片の間隙Ｃfが直線補間される構成を例示したが、補間の方法がこれに限られないことはもちろんである。例えば、補間手段がスプライン補間などの曲線補間を実行する構成も採用され得る。また、各音声素片のスペクトル包絡の形状を示すパラメータ（例えばスペクトル包絡や傾きを示すパラメータ）を抽出しておき、このパラメータを補間する構成としてもよい。

（５）上記第１実施形態においては、図５に示したように、前音素が母音である音声素片と後音素が母音である音声素片とについて共通の算定式（｛（ｔ−４０）／２｝）に基づいて音素セグメンテーション境界Ｂsegを指定する構成を例示したが、音素セグメンテーション境界Ｂsegを指定する方法が双方の音声素片について相違していてもよい。

（６）上記各実施形態においては、歌唱音声を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明を適用できることはもちろんである。例えば、各種の文書を示す文書データ（例えばテキストファイル）に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。すなわち、テキストファイルに含まれる文字コードに基づいて素片取得手段３１が音声素片データを記憶手段２０から読み出し、この音声素片データに基づいて音声が合成される構成としてもよい。この種の装置においては、楽曲の歌唱音声を合成する場合とは異なり、音素セグメンテーション境界Ｂsegを指定するために音符長という要素を利用することができないが、各文字の発声を継続する時間長を指定するデータを文書データに対応付けて予め用意しておけば、上記第１実施形態と同様に、このデータが示す時間長に応じて音素セグメンテーション境界Ｂsegを制御することができる。本発明における「時間データ」とは、楽曲を構成する各楽音の音符長を指定するデータ（上記第１実施形態における音符データ）だけでなく、本変形例に示した各文字の発声時間を指定するデータなど、音声を継続する時間長を指定するための総てのデータを含む概念である。なお、本変形例に示したように文書を読み上げる装置においても、上記第２実施形態と同様に、利用者が入力したパラメータに基づいて音素セグメンテーション境界Ｂsegの位置を制御する構成が採用される。

本発明の第１実施形態に係る音声合成装置の構成を示すブロック図である。同音声合成装置の動作を説明するための図である。同音声合成装置の動作を説明するための図である。同音声合成装置のうち境界指定手段の動作を示すフローチャートである。音符長と音素セグメンテーション境界との関係を示す表である。補間手段による補間処理を説明するための図である。本発明の第２実施形態に係る音声合成装置の構成を示すブロック図である。従来の音声合成装置の動作を説明するためのタイミングチャートである。

符号の説明

Ｄ……音声合成装置、１０……データ取得手段、２０……記憶手段、３０……音声処理手段、３１……素片取得手段、３３……境界指定手段、３５……音声合成手段、３５１……補間手段、３８……入力手段、４１……出力処理手段、４３……出力手段。

Claims

母音の音素を含む音声素片を取得する素片取得手段と、
音声を継続する時間長を指定する時間データを取得する時間データ取得手段と、
前記素片取得手段が取得した音声素片の後音素が母音である場合に、当該母音の音素のうち始点から終点までの途中の時点であって当該音素の始点から前記時間データに応じた時間長経過した時点に境界を指定し、前記素片取得手段が取得した音声素片の前音素が母音である場合に、当該母音の音素のうち始点から終点までの途中の時点であって当該音素の終点から前記時間データに応じた時間長遡った時点に境界を指定する境界指定手段と、
前記素片取得手段が取得した音声素片の後音素が母音である場合に、当該音声素片に含まれる母音の音素のうち前記境界指定手段が指定した境界よりも前の区間であって当該音声素片の始点を含む区間に基づいて音声を合成し、または、前記素片取得手段が取得した音声素片の前音素が母音である場合に、当該母音の音素のうち前記境界指定手段が指定した境界よりも後の区間であって当該音声素片の終点を含む区間に基づいて音声を合成する音声合成手段と
を具備する音声合成装置。
前記境界指定手段は、終点を含む区間が母音の音素である音声素片を前記素片取得手段が取得した場合に、前記時間データによって指定される時間長が長いほど、当該音声素片に含まれる母音の音素のうち前記終点に近い時点を境界に指定し、
前記音声合成手段は、この音声素片に含まれる母音の音素のうち前記境界指定手段が指定した境界よりも前の区間に基づいて音声を合成する
請求項１に記載の音声合成装置。
前記境界指定手段は、始点を含む区間が母音の音素である音声素片を前記素片取得手段が取得した場合に、前記時間データによって指定される時間長が長いほど、当該音声素片に含まれる母音の音素のうち前記始点に近い時点を境界に指定し、
前記音声合成手段は、この音声素片に含まれる母音の音素のうち前記境界指定手段が指定した境界よりも後の区間に基づいて音声を合成する
請求項１または２に記載の音声合成装置。
コンピュータに、
母音の音素を含む音声素片を取得する素片取得処理と、
音声を継続する時間長を指定する時間データを取得する時間データ取得処理と、
前記素片取得処理によって取得した音声素片の後音素が母音である場合に、当該母音の音素のうち始点から終点までの途中の時点であって当該音素の始点から前記時間データに応じた時間長経過した時点に境界を指定し、前記素片取得処理によって取得した音声素片の前音素が母音である場合に、当該母音の音素のうち始点から終点までの途中の時点であって当該音素の終点から前記時間データに応じた時間長遡った時点に境界を指定する境界指定処理と、
前記素片取得処理によって取得した音声素片の後音素が母音である場合に、当該音声素片に含まれる母音の音素のうち前記境界指定処理にて指定した境界よりも前の区間であって当該音声素片の始点を含む区間に基づいて音声を合成し、または、前記素片取得処理によって取得した音声素片の前音素が母音である場合に、当該音声素片に含まれる母音の音素のうち前記境界指定処理にて指定した境界よりも後の区間であって当該音声素片の終点を含む区間に基づいて音声を合成する音声合成処理と
を実行させるためのプログラム。