JP2006215204A

JP2006215204A - 音声合成装置およびプログラム

Info

Publication number: JP2006215204A
Application number: JP2005026855A
Authority: JP
Inventors: Hidenori Kenmochi; 秀紀劔持; Bonada Jordi; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-02-02
Filing date: 2005-02-02
Publication date: 2006-08-17
Anticipated expiration: 2025-02-02
Also published as: US7613612B2; EP1688912A3; EP1688912B1; EP1688912A2; DE602006016879D1; US20060173676A1; JP4207902B2

Abstract

【課題】複数の音声からなる出力音声を簡易な構成によって合成する。
【解決手段】データ取得手段５は、音韻を指定する音韻データを順次に取得する。エンベロープ取得手段１０は、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープＥＶ0を取得する。スペクトル取得手段３０は、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルＳＰtを取得する。エンベロープ調整部２２は、スペクトル取得手段３０が取得した変換用スペクトルＳＰtのスペクトルエンベロープを、エンベロープ取得手段１０が取得したスペクトルエンベロープＥＶ0と略一致するように調整する。音声生成手段４０は、エンベロープ調整部２２による調整後の変換用スペクトルＳＰnewから出力音声信号Ｖnewを生成する。
【選択図】図１

Description

本発明は、様々な特性の音声を合成する技術に関する。

音声に様々な効果を付与するための技術が従来から提案されている。例えば特許文献１には、素材となる音声（以下「原音声」という）のピッチを変換することによって生成された協和音（原音声と和音を構成する音声）を原音声と加算して出力する技術が開示されている。この構成によれば、原音声がひとりの発声者によって発声された音声であっても、恰も複数人にて別個の旋律を合唱しているかのような音声を出力することができる。また、例えば原音声を楽器の演奏音とすれば、複数の楽器によって合奏しているかのような音声が生成される。
特開平１０−７８７７６号公報（段落００１３および図１参照）。

ところで、合唱や合奏の形態としては、各歌唱者や演奏者が別個の旋律を歌唱または演奏する形態（いわゆるコーラス）のほか、複数の歌唱者や演奏者が同一の旋律を歌唱または演奏するユニゾンと呼ばれる形態がある。特許文献１に記載された構成においては、原音声のピッチを変換することによって協和音が生成されるため、複数人が別個の旋律を歌唱ないし演奏したときの音声を生成することはできるものの、複数人が共通の旋律を歌唱または演奏するユニゾンの効果を原音声に付与することはできない。なお、特許文献１に記載された構成においても、例えば原音声のピッチを変更せずに音響的な特性（声質）のみを変換した音声を原音声とともに出力すれば、複数人が共通の旋律を歌唱または演奏しているかのような効果を付与することも一応は可能である。しかしながら、この場合には、ユニゾンを構成する音声ごとに原音声の特性を変換するための仕組みを用意することが不可欠となる。したがって、多人数によるユニゾンを実現しようとすれば、ＤＳＰ（Digital Signal Processor）などのハードウェアによって原音声の特性が変換される構成においてはその回路規模が肥大化し、この変換がソフトウェアによって実現される構成においては演算装置の処理負荷が過大になるといった問題がある。本発明は、このような事情に鑑みてなされたものであり、複数の音声からなる出力音声を簡易な構成によって合成することを目的としている。

この課題を解決するために、本発明に係る音声合成装置は、音韻を指定する音韻データ（例えば実施形態における歌詞データ）を順次に取得するデータ取得手段と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得手段と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得手段と、スペクトル取得手段が取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得手段が取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整手段と、エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段とを具備する。なお、本発明にいう「音声」には、人間が発声した音声や楽器の演奏音といった種々の音響が含まれる。
この構成によれば、並列に発声した複数の音声を含む変換用音声のスペクトルエンベロープが、音声素片として採取された原音声のスペクトルエンベロープと略一致するように調整されるから、その音声素片の音韻をもった複数の音声（すなわち合唱音や合奏音）の出力音声信号を生成することができる。しかも、この出力音声信号が示す出力音声に含まれる複数の音声の各々について音声素片の特性を変換するための要素を設けることは原理的に不要であるから、音声合成装置の構成は特許文献１の構成と比較して大幅に簡素化される。換言すると、音声合成装置の構成を複雑化することなく、極めて多数の音声からなる出力音声を合成することができる。

本発明における音声素片とは、音声（典型的には人間の肉声）を聴覚上において区別し得る最小の単位に区分してなる音素（phoneme）と、複数の音素を連結した音素連鎖の双方を包含する概念である。音素は子音（例えば［ｓ］）と母音（例えば［ａ］）とに区別される。一方、音素連鎖は、子音とこれに続く母音との組合せ（例えば［ｓ_ａ］）、母音とこれに続く子音との組合せ（例えば［ｉ_ｔ］）、母音とこれに続く母音との組合せ（例えば［ａ_ｉ］）といった具合に、母音または子音に相当する複数の音素を時間軸上において相互に連結したものである。この音声素片の形態は任意である。例えば、音声素片は、時間領域（時間軸）における波形としての形態にて利用されてもよいし、周波数領域（周波数軸）におけるスペクトルとしての形態にて利用されてもよい。
また、音声素片のスペクトルエンベロープと変換用スペクトルのスペクトルエンベロープとが「略一致する」とは、エンベロープ調整手段による調整後の周波数スペクトルから生成された出力音声信号に基づいて実際に音声が放音されたときに、その音声の音韻が聴感上において音声素片の音韻と同一であると知覚される程度に近似（理想的には一致）していることを意味する。したがって、音声素片のスペクトルエンベロープとエンベロープ調整手段による調整後のスペクトルエンベロープとは厳密な意味で完全に一致している必要は必ずしもない。
本発明に係る音声合成装置において、音声生成手段が生成した出力音声信号は、例えばスピーカやイヤホンなどの放音機器に供給されて出力音声として出力される。ただし、この出力音声信号が利用される態様は任意である。例えば、出力音声信号が記録媒体に記憶されたうえで、当該記憶手段を再生する他の装置にて出力音声が出力される態様としてもよいし、出力音声信号が通信回線を介して他の装置に送信されて当該装置にて音声として再生される態様としてもよい。

本発明に係る音声合成装置において、エンベロープ取得手段が音声素片のスペクトルエンベロープを取得するための方法は任意である。例えば、複数の音声素片の各々についてスペクトルエンベロープを記憶する記憶手段が設けられた構成において、エンベロープ取得手段は、音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを記憶手段から読み出す（第１実施形態）。この構成によれば、音声素片のスペクトルエンベロープを取得する処理が簡素化されるという利点がある。また、複数の音声素片の各々について周波数スペクトルを記憶する記憶手段が設けられた構成において、エンベロープ取得手段は、音韻データによって指定される音韻に対応した音声素片の周波数スペクトルを記憶手段から読み出し、この周波数スペクトルからスペクトルエンベロープを抽出する（図１０参照）。この構成によれば、記憶手段に記憶された周波数スペクトルを、単一の音声からなる出力音声を生成するためにも流用することができるという利点がある。また、時間軸上における音声素片の波形を示す信号（原音声信号）が記憶手段に記憶された構成において、エンベロープ取得手段は、この原音声信号から音声素片のスペクトルエンベロープを取得する。

本発明の望ましい態様において、スペクトル取得手段は、各々が異なる音韻にて発声された複数の変換用音声のうち音韻データによって指定される音韻に対応した変換用音声の変換用スペクトルを取得する。この態様によれば、出力音声信号の生成の基礎となる変換用音声が複数の音韻の変換用音声のなかから音韻データに応じて選択されるから、ひとつの音韻の変換用音声から出力音声信号が生成される構成と比較して自然な出力音声を生成することができる。

本発明の他の態様においては、ピッチを指定するピッチデータ（例えば実施形態における音符データ）を取得するデータ取得手段と、スペクトル取得手段が取得した変換用スペクトルに含まれる各ピークの周波数をピッチデータによって指定されるピッチに応じて変化させるピッチ変換手段とが更に設けられ、エンベロープ調整手段は、ピッチ変換手段による処理後の変換用スペクトルのスペクトルエンベロープを調整する。この態様によれば、出力音声信号のピッチをピッチデータに応じて適宜に設定することができる。変換用スペクトルに含まれる各ピークの周波数を変化させる方法（つまり変換用音声のピッチを変化させる方法）は任意である。例えば、ピッチ変換手段は、ピッチデータによって指定されるピッチに応じて変換用スペクトルを周波数軸の方向に伸長または縮小する。この態様によれば、変換用スペクトルの各周波数に対して所望のピッチに応じた数値を乗算するという簡易な処理によって変換用スペクトルのピッチを調整することができる。また、他の態様において、ピッチ変換手段は、変換用スペクトルにおける各ピークの周波数を含むスペクトル分布領域の各々をピッチデータによって指定されるピッチに応じて周波数軸の方向に移動させる（図１２参照）。この態様によれば、変換用スペクトルの各ピークの周波数を所期の周波数に精度よく合致させることができるから、変換用スペクトルのピッチを精緻に調整することができる。

もっとも、出力音声のピッチを変化させるための構成は任意である。例えば、ピッチを指定するピッチデータを取得するデータ取得手段が設けられた構成においては、スペクトル取得手段が、各々のピッチが相違する複数の変換用音声のうちピッチデータによって指定されるピッチに近似（理想的には一致）するピッチの変換用音声の変換用スペクトルを取得する構成としてもよい（図８参照）。この態様によれば、変換用スペクトルのピッチを変換するための構成を不要とすることができる。ただし、変換用スペクトルのピッチを変換する構成と、各々のピッチが異なる複数の変換用音声の何れかを選択する構成とを組み合わせてもよい。例えば、各々が異なるピッチに対応する複数の変換用スペクトルのうち入力音声のピッチに近似するピッチに対応した変換用スペクトルをスペクトル取得手段が取得し、この選択した変換用スペクトルのピッチをピッチ変換手段がピッチデータに応じて変換する構成も採用される。

本発明の望ましい態様において、エンベロープ取得手段は、音声素片を時間軸上にて区分したフレームごとにスペクトルエンベロープを取得し、ひとつの音声素片の最後のフレームにおけるスペクトルエンベロープと当該音声素片に続く他の音声素片の最初のフレームにおけるスペクトルエンベロープとを補間することによって両フレームの間隙の音声のスペクトルエンベロープを生成する。この態様によれば、任意の時間長の出力音声を生成することができる。

ところで、複数の歌唱者や演奏者から略同一のピッチにて同時に（並列に）発せられた音声の周波数スペクトルは、その各ピークの帯域幅（例えば図４に示される帯域幅Ｗ2）が、単一の歌唱者や演奏者から発せられた音声の周波数スペクトルにおける各ピークの帯域幅（例えば図３に示される帯域幅Ｗ1）よりも広い場合が多い。いわゆるユニゾンにおいては、各歌唱者や各演奏者の音声のピッチが厳密には一致していないからである。このような観点から、本発明に係る音声合成装置は、音韻を指定する音韻データを順次に取得するデータ取得手段と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得手段と、変換用音声の周波数スペクトルである第１変換用スペクトル、および、第１変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり第１変換用スペクトルよりも各ピークの帯域幅が広い第２変換用スペクトルの何れかを取得するスペクトル取得手段と、スペクトル取得手段が取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得手段が取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整手段と、エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段とを具備する構成としても特定される。なお、この構成の具体例は第２実施形態（図７）として後述される。
この構成によれば、出力音声信号を生成するための周波数スペクトルとして第１変換用スペクトルおよび第２変換用スペクトルの何れかが選択されるから、第１変換用スペクトルに応じた特性の出力音声信号と第２変換用スペクトルに応じた特性の出力音声信号とを選択的に生成することができる。例えば、第１変換用スペクトルが選択された場合には単一の歌唱者または演奏者から発せられた出力音声を生成することができ、第２変換用スペクトルが選択された場合には複数の歌唱者や演奏者から発せられた出力音声を生成することができる。なお、ここでは第１変換用スペクトルと第２変換用スペクトルとが特定されているが、更に他の変換用スペクトルが選択手段による選択の対象とされる構成としてもよい。例えば、ピークの帯域幅が相違する３種類以上の変換用スペクトルを記憶手段に記憶させておき、このうちの何れかをスペクトル取得手段が選択して出力音声信号の生成に利用するといった構成も採用される。

本発明に係る音声合成装置は、音声の合成に専用されるＤＳＰなどのハードウェアによって実現されるほか、パーソナルコンピュータなどのコンピュータとプログラムとの協働によっても実現される。このプログラムは、音韻を指定する音韻データを順次に取得するデータ取得処理と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得処理と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得処理と、スペクトル取得処理にて取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得処理にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整処理と、エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理とをコンピュータに実行させる内容となる。
また、他の態様に係るプログラムは、音韻を指定する音韻データを順次に取得するデータ取得処理と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得処理と、変換用音声の周波数スペクトルである第１変換用スペクトル、および、第１変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり第１変換用スペクトルよりも各ピークの帯域幅が広い第２変換用スペクトルの何れかを取得するスペクトル取得処理と、スペクトル取得処理にて取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得処理にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整処理と、エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理とをコンピュータに実行させる内容となる。これらのプログラムは、コンピュータが読み取り可能な記録媒体（例えばＣＤ−ＲＯＭ）に格納された態様にて利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態にてサーバ装置から提供されてコンピュータにインストールされる。

また、本発明は、音声を合成するための方法としても特定される。この方法は、音韻を指定する音韻データを順次に取得するデータ取得過程と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得過程と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得過程と、スペクトル取得過程にて取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得過程にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整過程と、エンベロープ調整過程における調整後の変換用スペクトルから出力音声信号を生成する音声生成過程とを有する。
他の観点に基づく音声合成方法は、音韻を指定する音韻データを順次に取得するデータ取得過程と、各々の音韻が異なる複数の音声素片のうち音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得過程と、変換用音声の周波数スペクトルである第１変換用スペクトル、および、第１変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり第１変換用スペクトルよりも各ピークの帯域幅が広い第２変換用スペクトルの何れかを取得するスペクトル取得過程と、スペクトル取得過程にて取得した変換用スペクトルのスペクトルエンベロープをエンベロープ取得過程にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整過程と、エンベロープ調整過程における調整後の変換用スペクトルから出力音声信号を生成する音声生成過程とを有する。

以上のように、本発明によれば、複数の音声からなる出力音声を簡易な構成によって合成することができる。

＜Ａ：第１実施形態＞
まず、楽曲の歌唱音を合成するための装置に本発明を適用した形態について説明する。図１は、本実施形態に係る音声合成装置の構成を示すブロック図である。同図に示されるように、音声合成装置Ｄ1は、データ取得手段５と、エンベロープ取得手段１０と、スペクトル変換手段２０と、スペクトル取得手段３０と、音声生成手段４０と、記憶手段５０および５５と、音声出力部６０とを有する。このうちデータ取得手段５、エンベロープ取得手段１０、スペクトル変換手段２０、スペクトル取得手段３０および音声生成手段４０は、例えばＣＰＵ（Central Processing Unit）などの演算処理装置がプログラムを実行することによって実現されてもよいし、音声の処理に専用されるＤＳＰなどのハードウェアによって実現されてもよい。記憶手段５０および５５は各種のデータを記憶する手段である。例えば、磁気ディスクを内蔵したハードディスク装置や可搬型の記録媒体を駆動する装置など各種の記憶装置が記憶手段５０または５５として採用される。なお、記憶手段５０および５５は、ひとつの記憶装置に確保された別個の記憶領域であってもよいし、各々が別個の記憶装置であってもよい。

図１に示されるデータ取得手段５は、楽曲の演奏に関するデータを取得する手段である。具体的には、データ取得手段５は、歌詞データと音符データとを取得する。歌詞データは、楽曲の歌詞の音韻（文字列）を指定するデータである。一方、音符データは、楽曲のうちメインメロディ（例えばボーカルパート）を構成する各楽音のピッチ（音高）Ｐ0と、その楽音が継続されるべき時間長（音符長）Ｔ0とを指定するデータである。歌詞データおよび音符データは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠したデータ構造を有する。したがって、歌詞データおよび音符データを図示しない記憶装置から読み出す手段や、外部に設置されたＭＩＤＩ機器から歌詞データおよび音符データを受信するＭＩＤＩインタフェースがデータ取得手段５として採用される。

記憶手段５５は、音声素片ごとにエンベロープデータＤevを記憶する。エンベロープデータＤevは、予め原音声から採取された音声素片のスペクトルエンベロープ（スペクトル包絡）を示すデータである。このようなエンベロープデータＤevは、例えば図２に示されるデータ作成装置Ｄ2によって作成される。なお、データ作成装置Ｄ2は、音声合成装置Ｄ1とは別個の装置であってもよいし音声合成装置Ｄ1に内蔵された装置であってもよい。

図２に示されるように、データ作成装置Ｄ2は、音素区分部９１とＦＦＴ部９２と特徴抽出部９３とを有する。このうち音素区分部９１には原音声信号Ｖ0が入力される。この原音声信号Ｖ0は、特定の発声者が所望の音韻を略一定のピッチにて発声したときの音声（以下「原音声」という）の時間軸上における波形を表わす信号であり、例えばマイクロホンなどの収音機器から供給される。音素区分部９１は、原音声信号Ｖ0のうち所望の音声素片に相当する区間を切り出す手段である。この区間の始点および終点は、例えば、エンベロープデータＤevの作成者が原音声信号Ｖ0の波形を表示装置にて視認しながら操作子を適宜に操作して当該区間の端部を指定することによって決定される。

ＦＦＴ部９２は、原音声信号Ｖ0を区分した音声素片を所定の時間長（例えば５ｍｓないし１０ｍｓ）のフレームに切り出し、各フレームの原音声信号Ｖ0に対してＦＦＴ処理を含む周波数分析を実行して周波数スペクトルＳＰ0を検出する。原音声信号Ｖ0の各フレームは時間軸上において相互に重なり合うように選定される。本実施形態においては、ひとりの発声者から発せられた音声が原音声とされた場合を想定する。図３に示されるように、このような原音声の周波数スペクトルＳＰ0は、基音および倍音に相当する各周波数においてスペクトル強度Ｍの局所的なピークが極めて狭い帯域幅Ｗ1に現れる。

図２に示される特徴抽出部９３は、原音声信号Ｖ0の特徴量を抽出するための手段である。本実施形態における特徴抽出部９３は原音声のスペクトルエンベロープＥＶ0を抽出する。このスペクトルエンベロープＥＶ0は、図３に示されるように、周波数スペクトルＳＰ0のピークｐを連結した包絡線である。このスペクトルエンベロープＥＶ0を検出する方法としては、例えば、周波数スペクトルＳＰ0のうち周波数軸上において相互に隣接するピークｐの間隙を直線的に補間することによってスペクトルエンベロープＥＶ0を折線として近似する方法や、各ピークｐを通過する曲線を３次のスプライン補間など各種の補間処理によりスペクトルエンベロープＥＶ0として抽出する方法などが採用される。特徴抽出部９３は、こうして抽出したスペクトルエンベロープＥＶ0を示すエンベロープデータＤevを生成する。図３に示されるように、エンベロープデータＤevは複数の単位データＵevを含む。各単位データＵevは、周波数軸上に所定の間隔ごとに選定された複数の周波数Ｆ0（Ｆ01，Ｆ02，……）の各々と当該周波数Ｆ0におけるスペクトルエンベロープＥＶ0のスペクトル強度Ｍev（Ｍev1，Ｍev2，……）とが組み合わされたデータ構造となっている。以上の構成および手順にて作成されたエンベロープデータＤevが音韻ごと（音声素片ごと）に記憶手段５５に記憶される。したがって、複数のフレームの各々に対応するエンベロープデータＤevが音韻ごとに記憶手段５５に格納されることになる。

次に、図１に示されるエンベロープ取得手段１０は、原音声のスペクトルエンベロープＥＶ0を取得する手段であり、素片選択部１１と補間部１２とを有する。データ取得手段５によって取得された歌詞データは素片選択部１１に供給される。この素片選択部１１は、記憶手段５５に音韻ごとに記憶された複数のエンベロープデータＤevのうち歌詞データが示す音韻に対応するエンベロープデータＤevを選択する手段である。例えば、歌詞データによって「さいた（ｓａｉｔａ）」という文字列が指定される場合には、音声素片［＃＿ｓ］、［ｓ＿ａ］、［ａ＿ｉ］、［ｉ＿ｔ］、［ｔ＿ａ］および［ａ＿＃］に対応するエンベロープデータＤevが記憶手段５５から順次に読み出される。一方、補間部１２は、ひとつの音声素片の最後のフレームのスペクトルエンベロープＥＶ0とこれに続く音声素片の最初のフレームのスペクトルエンベロープＥＶ0とを補間することによって両フレームの間隙の音声のスペクトルエンベロープＥＶ0を生成する手段である（詳細については後述する）。

図１に示されるスペクトル変換手段２０は、出力音声の周波数スペクトル（以下「出力スペクトル」という）ＳＰnewを示すデータ（以下「新規スペクトルデータ」という）Ｄnewを生成する手段である。本実施形態におけるスペクトル変換手段２０は、予め用意された特定の音声（以下「変換用音声」という）の周波数スペクトル（以下「変換用スペクトル」という）ＳＰtと原音声のスペクトルエンベロープＥＶ0とに基づいて出力音声の周波数スペクトルＳＰnewを特定する。なお、周波数スペクトルＳＰnewを生成する手順については後述する。

一方、スペクトル取得手段３０は、変換用スペクトルＳＰtを取得するための手段であり、ＦＦＴ部３１とピーク検出部３２とデータ生成部３３とを有する。このうちＦＦＴ部３１には、記憶手段５０から読み出された変換用音声信号Ｖtが供給される。この変換用音声信号Ｖtは、変換用音声の波形を特定の区間にわたって表わす時間領域の信号であり、予め記憶手段５０に格納されている。ＦＦＴ部３１は、図２に示したＦＦＴ部９２と同様に、記憶手段５０から読み出される変換用音声信号Ｖtを所定の時間長のフレームに切り出し、各フレームの変換用音声信号Ｖtに対してＦＦＴ処理を含む周波数分析を実行することによって変換用スペクトルＳＰtを検出する。一方、ピーク検出部３２は、ＦＦＴ部３１によって特定された変換用スペクトルＳＰtのピークｐtを検出してその周波数を特定する。ピークｐtを検出する方法としては、例えば、周波数軸上において近接する所定数のピークのうちスペクトル強度が最大となるものをピークｐtとして検出する方法が採用される。

本実施形態においては、多数の発声者が略同一のピッチＰtにて発声した音声（すなわち合唱や合奏といったユニゾンの音声）をマイクロホンなどの収音機器によって収音した信号が変換用音声信号Ｖtとして記憶手段５０に記憶されている場合を想定する。このような変換用音声信号ＶtにＦＦＴ処理を施して得られる変換用スペクトルＳＰtは、図４に示されるように、変換用音声のピッチＰtに応じた基音および倍音に相当する各周波数においてスペクトル強度Ｍの局所的なピークｐtが現れる点で図３の周波数スペクトルＳＰ0と共通するが、各ピークｐtの帯域幅Ｗ2が周波数スペクトルＳＰ0の各ピークｐの帯域幅Ｗ1よりも広いという特性を有する。このようにピークｐtの帯域幅Ｗ2が広いのは、多数の発声者によって発声された各音声のピッチが完全には一致しないからである。

図１に示されるデータ生成部３３は、変換用スペクトルＳＰtを示すデータ（以下「変換用スペクトルデータ」という）Ｄtを生成するための手段である。変換用スペクトルデータＤtは、図４に示されるように、複数の単位データＵtと指示子Ａとを含む。各単位データＵtは、エンベロープデータＤevと同様に、周波数軸上に所定の間隔ごとに選定された複数の周波数Ｆt（Ｆt1，Ｆt2，……）の各々と当該周波数Ｆtにおける変換用スペクトルＳＰtのスペクトル強度Ｍt（Ｍt1，Ｍt2，……）とが組み合わされたデータ構造となっている。一方、指示子Ａは、変換用スペクトルＳＰtのピークｐtを指示するためのデータ（例えばフラグ）であり、変換用スペクトルデータＤtに含まれる総ての単位データＵtのうちピーク検出部３２によって検出されたピークｐtに対応する単位データＵtに対して選択的に付加される。例えば、ピーク検出部３２が周波数Ｆt3にピークｐtを検出した場合、図４に示されるように、周波数Ｆt3を含む単位データＵtに指示子Ａが付加され、これ以外の単位データＵt（つまりピークｐt以外の周波数に対応する単位データＵt）に指示子Ａは付加されない。

次に、スペクトル変換手段２０の構成および動作について説明する。図１に示されるように、スペクトル変換手段２０は、ピッチ変換部２１とエンベロープ調整部２２とを有する。ピッチ変換部２１には、スペクトル取得手段３０から出力された変換用スペクトルデータＤtとデータ取得手段５が取得した音符データとが入力される。このピッチ変換部２１は、変換用スペクトルデータＤtによって示される変換用音声のピッチＰtを音符データが示すピッチＰ0に応じて変化させる手段である。本実施形態におけるピッチ変換部２１は、変換用スペクトルデータＤtのピッチＰtが音符データによって指定されるピッチＰ0と略一致するように変換用スペクトルＳＰtを変形する。この変形の具体的な手順について図５を参照して説明する。

図５の部分（ａ）には、図４に示した変換用スペクトルＳＰtが図示されている。ピッチ変換部２１は、この変換用スペクトルＳＰtを周波数軸の方向に伸長または縮小することによって、当該変換用スペクトルＳＰtの各ピークｐtの周波数をピッチＰ0に応じた周波数に変更する。更に詳述すると、ピッチ変換部２１は、音符データが示すピッチＰ0と変換用音声のピッチＰtとの比「Ｐ0／Ｐt」を算定し、変換用スペクトルデータＤtを構成する各単位データＵtの周波数Ｆt（Ｆt1，Ｆt2，……）に対して当該比を乗算する。なお、変換用音声のピッチＰtは、例えば、変換用スペクトルＳＰtの多数のピークｐtのうち基音に相当するピークｐt（すなわち周波数が最小であるピークｐt）の周波数として特定される。この処理により、図５の部分（ｂ）に示されるように、変換用スペクトルＳＰtの各ピークｐtはピッチＰ0に対応する周波数まで移動し、この結果として変換用音声のピッチＰtはピッチＰ0に略一致することになる。ピッチ変換部２１は、こうしてピッチを変換した変換用スペクトルＳＰtを示す変換用スペクトルデータＤtをエンベロープ調整部２２に出力する。

図１に示されるエンベロープ調整部２２は、この変換用スペクトルデータＤtが示す変換用スペクトルＳＰtのスペクトル強度Ｍ（換言すればスペクトルエンベロープＥＶt）を調整することによって新規スペクトルＳＰnewを生成する手段である。更に詳述すると、エンベロープ調整部２２は、図５の部分（ｃ）に示されるように、新規スペクトルＳＰnewのスペクトルエンベロープが、エンベロープ取得手段１０によって取得されたスペクトルエンベロープＥＶ0と略一致するように、変換用スペクトルＳＰtのスペクトル強度Ｍを調整する。スペクトル強度Ｍを調整する方法の具体例は以下の通りである。

エンベロープ調整部２２は、まず、変換用スペクトルデータＤtのうち指示子Ａが付加されたひとつの単位データＵtを選定する。この単位データＵtは、変換用スペクトルＳＰtの何れかのピークｐt（以下では特に「注目ピークｐt」という）の周波数Ｆtおよびスペクトル強度Ｍtを含む（図４参照）。次いで、エンベロープ調整部２２は、エンベロープ取得手段１０から供給されるエンベロープデータＤevのうち注目ピークｐtの周波数Ｆtに近似または一致する周波数Ｆ0を含む単位データＵevを選定する。そして、エンベロープ調整部２２は、この選定した単位データＵevに含まれるスペクトル強度Ｍevと注目ピークｐtのスペクトル強度Ｍtとの比「Ｍev／Ｍt」を算定し、注目ピークｐtを中心とした所定の帯域に属する変換用スペクトルＳＰtの各単位データＵtのスペクトル強度Ｍtに対して当該比を乗算する。この一連の処理を変換用スペクトルＳＰtの総てのピークｐtについて繰り返すことにより、新規スペクトルＳＰnewは、図５の部分（ｃ）に示されるように、各ピークの頂点がスペクトルエンベロープＥＶ0上に位置する形状となる。エンベロープ調整部２２は、この新規スペクトルＳＰnewを示す新規スペクトルデータＤnewを出力する。

ピッチ変換部２１やエンベロープ調整部２２による処理は原音声信号Ｖ0および変換用音声信号Ｖtを区分したフレームごとに実施される。ここで、変換用音声の総フレーム数は記憶手段５０に記憶された変換用音声信号Ｖtの時間長に応じて制約されるのに対し、音符データが示す時間長Ｔ0は楽曲の内容に応じて変化するため、変換用音声の総フレーム数と音符データが示す時間長Ｔ0とは一致しない場合が多い。そこで、変換用音声の総フレーム数が時間長Ｔ0よりも短い場合、スペクトル取得手段３０は、総てのフレームに対応する変換用スペクトルデータＤtをスペクトル変換手段２０に出力し終えると、今度は変換用音声信号Ｖtの最初のフレームに対応した変換用スペクトルデータＤtをスペクトル変換手段２０に出力するといった具合に変換用音声信号Ｖtの各フレームをループさせながら使用する。なお、変換用音声信号Ｖtの総フレーム数が時間長Ｔ0よりも長い場合には、余ったフレームに対応する変換用スペクトルデータＤtを破棄すれば足りる。

このようなフレーム数の不一致は原音声についても生じ得る。すなわち、原音声の総フレーム数（すなわちひとつの音韻に対応するエンベロープデータＤevの総数）はスペクトルエンベロープＥＶ0を作成したときに選定した固定値となるのに対し、音符データが示す時間長Ｔ0は楽曲の内容に応じて変化するため、ひとつの音韻に対応する原音声の総フレーム数だけでは音符データが示す時間長Ｔ0に足りない場合が生じ得る。そこで、本実施形態においては、ひとつの音声素片の総フレーム数とこれに続く音声素片の総フレーム数とに対応する時間長が音符データによって示される時間長Ｔ0よりも短い場合に双方の音声素片の間隙の音声が補間によって生成されるようになっている。この補間を実行するのが図１の補間部１２である。

いま、図６に示されるように、例えば音声素片［ａ_ｉ］と音声素片［ｉ_ｔ］とが連結される場合を想定する、音声素片［ａ_ｉ］の総フレーム数「ｎ」と音声素片［ｉ_ｔ］の総フレーム数「ｍ」との合計値に相当する時間長が音符データによって示される時間長Ｔ0よりも短い場合、補間部１２は、図６に示されるように、音声素片［ａ_ｉ］の最後のフレームのエンベロープデータＤev_nと音声素片［ｉ_ｔ］の最初のフレームのエンベロープデータＤev_1とに基づいて補間処理を実行することにより、これらのフレームの間隙に挿入される音声のスペクトルエンベロープを示すエンベロープデータＤev’を生成する。このエンベロープデータＤev’の総数は、音声素片［ａ_ｉ］の始点から音声素片［ｉ_ｔ］の終点までの長さが時間長Ｔ0と略等しくなるように選定される。この補間処理によって生成されるエンベロープデータＤev’が示すスペクトルエンベロープは、音声素片［ａ_ｉ］の最後のエンベロープデータＤev_nが示すスペクトルエンベロープＥＶ0と音声素片［ｉ_ｔ］の最初のエンベロープデータＤev_1が示すスペクトルエンベロープＥＶ0とが滑らかに連結するように各々の形状が決定される。こうして補間部１２による補間処理を経たエンベロープデータＤev（補間によるエンベロープデータＤev’を含む）がスペクトル変換手段２０のエンベロープ調整部２２に出力されるのである。

次に、図１に示される音声生成手段４０は、新規スペクトルＳＰnewに基づいて時間領域の出力音声信号Ｖnewを生成する手段であり、逆ＦＦＴ部４１と出力処理部４２とを有する。このうち逆ＦＦＴ部４１は、エンベロープ調整部２２からフレームごとに出力される新規スペクトルデータＤnewに対して逆ＦＦＴ処理を施して時間領域の出力音声信号Ｖnew0を生成する。出力処理部４２は、こうして生成されたフレームごとの出力音声信号Ｖnew0に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように連結して出力音声信号Ｖnewを生成する。この出力音声信号Ｖnewは音声出力部６０に供給される。音声出力部６０は、出力音声信号Ｖnewをアナログの電気信号に変換するＤ／Ａ変換器と、このＤ／Ａ変換器からの出力信号に基づいて放音する放音機器（例えばスピーカやヘッドフォン）とを有する。

以上に説明したように、本実施形態においては、多数の発声者によって並列に発せられた複数の音声を含む変換用音声のスペクトルエンベロープＥＶtが原音声のスペクトルエンベロープＥＶ0と略一致するように調整されるから、原音声と同様の音韻をもった複数の音声（すなわち合唱音や合奏音）を示す出力音声信号Ｖnewを生成することができる。したがって、ひとりの発声者や演奏者による音声が原音声とされた場合であっても、恰も多数の発声者や演奏者によって合唱や合奏が行なわれているかのような出力音声を音声出力部６０から出力することができる。しかも、出力音声に含まれる複数の音声の各々を生成するための独立した要素は原理的に不要であるから、音声合成装置Ｄ1の構成は特許文献１の構成と比較して大幅に簡素化される。さらに、本実施形態においては、音符データに応じて変換用スペクトルＳＰtのピッチＰtが変換されるから、任意のピッチの合唱音や合奏音を生成することができる。また、このピッチの変換が、変換用スペクトルＳＰtを周波数軸の方向に伸長するという簡素な処理（乗算処理）によって実現されるという利点もある。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態に係る音声合成装置について説明する。なお、本実施形態のうち第１実施形態と同様の要素については共通の符号を付してその説明を適宜に省略する。

図７は、本実施形態に係る音声合成装置Ｄ1の構成を示すブロック図である。同図に示されるように、この音声合成装置Ｄ1は、記憶手段５０の記憶内容およびスペクトル取得手段３０の構成が第１実施形態の音声合成装置Ｄ1とは相違するが、他の要素は同様の構成である。本実施形態においては、第１変換用音声信号Ｖt1と第２変換用音声信号Ｖt2とが記憶手段５０に記憶される。第１変換用音声信号Ｖt1と第２変換用音声信号Ｖt2とは、互いに略同一のピッチＰtにて発せられた変換用音声を収音した信号である。ただし、第１変換用音声信号Ｖt1は、図２に示した原音声信号Ｖ0と同様に、単一の音声（ひとりの発声者からの音声やひとつの楽器からの演奏音）の波形を示す信号であるのに対し、第２変換用音声信号Ｖt2は、第１実施形態の変換用音声信号Ｖtと同様に、各々が並列に発せられた複数の音声（多数の発声者からの音声や多数の楽器からの演奏音）からなる変換用音声を収音した信号である。したがって、第２変換用音声信号Ｖt 2から特定される変換用スペクトルＳＰtの各ピークの帯域幅（図４に示す帯域幅Ｗ2）は、第１変換用音声信号Ｖt1から特定される変換用スペクトルＳＰtの各ピークの帯域幅（図３に示す帯域幅Ｗ1）よりも広い。

また、本実施形態におけるスペクトル取得手段３０はＦＦＴ部３１の前段に選択部３４を有する。この選択部３４は、外部から供給される選択信号に基づいて、第１変換用音声信号Ｖt1および第２変換用音声信号Ｖt2の何れかを選択して記憶手段５０から読み出す手段である。選択信号は、例えば、入力機器６７に対する操作に応じて供給される。この選択部３４によって読み出された変換用音声信号ＶtがＦＦＴ部３１に供給される。これ以後の構成および動作は第１実施形態と同様である。

このように、本実施形態においては、第１変換用音声信号Ｖt1および第２変換用音声信号Ｖt2の何れかが選択的に新規スペクトルＳＰnewの生成に利用される。そして、第１変換用音声信号Ｖt1が選択された場合には、原音声の音韻と変換用音声の周波数特性とを兼ね備えた単一の出力音声が出力される一方、第２変換用音声信号Ｖt2が選択された場合には、第１実施形態と同様に、原音声の音韻を維持した多数の音声からなる出力音声が出力される。すなわち、本実施形態においては、出力音声を単一の音声とするか複数の音声とするかを利用者が任意に選択することができる。

なお、本実施形態においては入力機器６７への操作に応じて変換用音声信号Ｖtが選択される構成を例示したが、この選択の基準となる要素は任意に変更される。例えば、所定の時間間隔にて発生するタイマ割込を契機として第１変換用音声信号Ｖt1および第２変換用音声信号Ｖt2の一方から他方に切り替える構成としてもよい。さらに、本実施形態に係る音声合成装置Ｄ1を歌唱合成装置に適用した場合には、演奏される楽曲の進行に同期して第１変換用音声信号Ｖt1および第２変換用音声信号Ｖt2の一方から他方に切り替える構成も採用される。また、本実施形態においては、単一の音声を示す第１変換用音声信号Ｖt1と複数の音声を示す第２変換用音声信号Ｖt2とが記憶手段５０に記憶された構成を例示したが、各変換用音声信号Ｖtが示す音声数はこれに限られない。例えば、各々が並列に発せられた所定数の音声からなる変換用音声を示す第１変換用音声信号Ｖt 1と、これよりも多数の音声からなる変換用音声を示す第２変換用音声信号Ｖt2とを利用してもよい。

＜Ｃ：変形例＞
各実施形態に対しては種々の変形が加えられる。具体的な変形の態様は以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）各実施形態においてはひとつのピッチＰtの変換用音声信号Ｖt（またはＶt1やＶt2）が記憶手段５０に記憶された構成を例示したが、図８に示されるように、各々のピッチＰt（Ｐt1，Ｐt2，……）が相違する複数の変換用音声信号Ｖtを記憶手段５０に記憶させた構成も採用される。各変換用音声信号Ｖtは、並列に発生した多数の音声を含む変換用音声を収音したものである。図８の構成においては、データ取得手段５によって取得された音符データがスペクトル取得手段３０の選択部３４にも供給されるようになっている。この選択部３４は、音符データによって指定されるピッチＰ0に近似または一致するピッチＰtの変換用音声信号Ｖtを選択して記憶手段５０から読み出す。この構成によれば、新規スペクトルＳＰnewの生成に利用される変換用音声信号ＶtのピッチＰtを音符データが示すピッチＰ0に近づけることができるから、ピッチ変換部２１による処理にて変換用スペクトルＳＰtの各ピークｐtの周波数を変化させる量が低減される。したがって、自然な形状の新規スペクトルＳＰnewを生成することができるという利点がある。なお、ここでは変換用音声信号Ｖtの選択に加えてピッチ変換部２１による処理も実行する構成としたが、多数のピッチＰtの変換用音声信号Ｖtが記憶手段５０に記憶されていれば変換用音声信号Ｖtの選択のみによって所望のピッチの出力音声を生成することができるから、ピッチ変換部２１は必ずしも必要ではない。

（２）各実施形態においてはひとつの音韻にて発声された変換用音声を示す変換用音声信号Ｖtが記憶手段５０に記憶された構成を例示したが、図９に示されるように、各々が別個の音韻にて発声された複数の変換用音声の各々について変換用音声信号Ｖtを記憶手段５０に記憶させた構成も採用される。同図においては、音声素片［＃_ｓ］の音韻にて発声された変換用音声の変換用音声信号Ｖtと音声素片［ｓ_ａ］の音韻にて発声された変換用音声の変換用音声信号Ｖtとが図示されている。図９の構成においては、データ取得手段５によって取得された歌詞データがスペクトル取得手段３０の選択部３４にも供給されるようになっている。この選択部３４は、複数の変換用音声信号Ｖtのうち歌詞データによって指定される音韻の変換用音声信号Ｖtを選択して記憶手段５０から読み出す。この構成によれば、変換用スペクトルＳＰtのスペクトルエンベロープＥＶtをエンベロープ取得手段１０が取得したスペクトルエンベロープＥＶ0に近づけることができるから、エンベロープ調整部２２において変換用スペクトルＳＰtのスペクトル強度Ｍを変化させる量が低減される。したがって、スペクトル形状の歪みが少ない自然な形状の新規スペクトルＳＰnewを生成することができるという利点がある。

（３）各実施形態においては、原音声のスペクトルエンベロープＥＶ0を示すエンベロープデータＤevが記憶手段５５に記憶される構成を例示したが、これ以外のデータが記憶手段５５に記憶された構成も採用される。例えば、図１０に示されるように、原音声の周波数スペクトルＳＰ0（図３参照）を示すデータＤspが音韻ごとに記憶手段５５に記憶された構成も採用される。このデータＤspは、各実施形態におけるエンベロープデータＤevや変換用スペクトルデータＤtと同様に複数の単位データを含む。各単位データは、周波数軸上に所定の間隔ごとに選定された複数の周波数Ｆと当該周波数Ｆにおける周波数スペクトルＳＰ0のスペクトル強度Ｍとが組み合わされたデータである。これらのデータＤspのうち歌詞データが示す音韻に対応するデータＤspが素片選択部１１によって読み出される。一方、本変形例におけるエンベロープ取得手段１０は、素片選択部１１と補間部１２との間に特徴抽出部１３が介挿される。この特徴抽出部１３は、図２に示した特徴抽出部９３と同様の機能を有する。すなわち、特徴抽出部１３は、素片選択部１１が読み出したデータＤspから周波数スペクトルＳＰ0のスペクトルエンベロープＥＶ0を特定し、これを表わすエンベロープデータＤevを補間部１２に出力する。この構成によっても、各実施形態と同様の作用および効果が奏される。

また、原音声信号Ｖ0そのものが音韻ごとに記憶手段５５に記憶された構成としてもよい。この構成においては、図１０に示した特徴抽出部１３は、第１に、素片選択部１１によって選択された原音声信号Ｖ0にＦＦＴ処理を含む周波数分析を実施して周波数スペクトルＳＰ0を算定し、第２に、この周波数スペクトルＳＰ0からスペクトルエンベロープＥＶ0を特定してエンベロープデータＤevを出力する。この処理は出力音声の生成に先立って実行されてもよいし、出力音声の生成に並行して実行されてもよい。以上のように、エンベロープ取得手段１０が原音声のスペクトルエンベロープＥＶ0を取得するための方法は任意である。

（４）各実施形態においては、変換用スペクトルデータＤtの各単位データＵtに含まれる周波数Ｆtに特定の数値（Ｐ0／Ｐt）を乗算することによって変換用スペクトルＳＰtを周波数軸の方向に伸長または縮小する構成を例示したが、変換用スペクトルＳＰtのピッチＰtを変換する方法は任意に変更される。例えば、各実施形態に示した方法においては、変換用スペクトルＳＰtが全帯域にわたって同率に伸長または縮小されるため、各ピークｐtの帯域幅が元のピークｐtの帯域幅よりも著しく広がってしまう場合が生じ得る。例えば、図１１の部分（ａ）に示される変換用スペクトルＳＰtのピッチＰtを第１実施形態の方法によって２倍のピッチに変換した場合、図１１の部分（ｂ）に示されるように各ピークｐtの帯域幅は略２倍となる。このように各ピークｐtのスペクトル形状が大幅に変化すると変換用音声の特性とは著しく相違する出力音声が生成されることになる。このような問題を解消するために、ピッチ変換部２１が、特定の数値（Ｐ0／Ｐt）を乗算して得られた変換用スペクトルＳＰt（図１１の部分（ｂ）に示される周波数スペクトル）の各ピークｐtについて、図１１の部分（ｃ）に矢印Ｂにて示されるように、当該ピークｐtの帯域幅をピッチ変換前のピークｐtの帯域幅まで狭めるための演算処理を各単位データＵtの周波数Ｆtに施してもよい。この構成によれば、変換用音声の特性を忠実に再現した出力音声を生成することができる。

また、ここでは各単位データＵtの周波数Ｆtに対する乗算処理によってピッチＰtを変換する場合を例示したが、図１２の部分（ａ）に示されるように、変換用スペクトルＳＰtを周波数軸上にて複数の帯域（以下「スペクトル分布領域」という）Ｒに区分し、各スペクトル分布領域Ｒを周波数軸の方向に移動させることによってピッチＰtを変化させてもよい。各スペクトル分布領域Ｒは、ひとつのピークｐtとその前後の帯域とを含むように選定される。ピッチ変換部２１は、図１２の部分（ｂ）に示されるように、各スペクトル分布領域Ｒに属するピークｐtの周波数が、音符データによって示されるピッチＰ0に対応する周波数と一致するように、各スペクトル分布領域Ｒを周波数軸の方向に移動させる。なお、図１２の部分（ｂ）に示されるように、相互に隣接するスペクトル分布領域Ｒの間隙には周波数スペクトルが存在しない帯域が生じ得るが、この帯域についてはスペクトル強度Ｍを所定値（例えばゼロ）に選定すればよい。この処理によれば、変換用スペクトルＳＰtの各ピークｐtの周波数を確実に原音声のピークｐtの周波数に一致させることができるから、所望のピッチの出力音声を精度よく生成することができるという利点がある。

（５）各実施形態においては、記憶手段５０に記憶された変換用音声信号Ｖtから変換用スペクトルＳＰtが特定される構成を例示したが、変換用スペクトルＳＰtを示す変換用スペクトルデータＤtが予めフレームごとに記憶手段５０に記憶された構成も採用される。この構成におけるスペクトル取得手段３０は、記憶手段５０から変換用スペクトルデータＤtを読み出してスペクトル変換手段２０に出力する構成であれば足り、ＦＦＴ部３１やピーク検出部３２やデータ生成部３３を備えている必要はない。また、ここでは記憶手段５０に変換用スペクトルデータＤtが記憶された構成を例示したが、スペクトル取得手段３０は、例えば通信回線を介して接続された通信装置から変換用スペクトルデータＤtを取得する手段であってもよい。このように、本発明におけるスペクトル取得手段３０は、変換用スペクトルＳＰtを取得する手段であれば足り、その取得の方法や取得先の如何は不問である。

（６）各実施形態においては変換用音声のピッチＰtを音符データが示すピッチＰ0に一致させる構成を例示したが、変換用音声のピッチＰtをこれ以外のピッチに変換してもよい。例えば、ピッチ変換部２１が、ピッチＰ0と協和音を構成するピッチとなるように変換用音声のピッチＰtを変換する構成も採用される。この構成によれば、メインメロディと協和音を構成するコーラス音を出力音声として生成することができる。このように、ピッチ変換部２１を備えた態様においては、このピッチ変換部２１が変換用音声のピッチＰtを音符データに応じて（すなわちピッチＰ0の変化に伴なって変換用音声のピッチＰtが変化するように）変化させる構成であれば足りる。

（７）各実施形態においては、楽曲の歌唱音や演奏音を合成するための装置に本発明を適用した場合を例示したが、これ以外の装置にも本発明は適用される。例えば、各種の文書を示す文書データ（例えばテキストファイル）に基づいて当該文書の文字列を読み上げる装置にも本発明は適用される。即ち、テキストファイルを構成する文字コードが示す文字に対応した音韻のエンベロープデータＤevを素片選択部１１が選択して記憶手段５０から読み出し、このエンベロープデータＤevを新規スペクトルＳＰnewの生成に利用する構成としてもよい。本発明における「音韻データ」とは、各実施形態における歌詞データや本変形例における文字コードなど出力音声の音韻を指定する総てのデータを含む概念である。なお、本変形例の構成においても、ピッチＰ0を指定するピッチデータをデータ取得手段５が取得する構成とすれば、所望のピッチの出力音声を生成することができる。このピッチデータは、例えば利用者から指示されたピッチＰ0を示すデータであってもよいし、予め文書データに対応付けられたデータであってもよい。本発明における「ピッチデータ」とは、各実施形態における音符データや本変形例におけるピッチデータなど出力音声のピッチを指定する総てのデータを含む概念である。

第１実施形態に係る音声合成装置の構成を示すブロック図である。エンベロープデータを生成するための構成および手順を示すブロック図である。原音声信号に関する処理を説明するための図である。変換用音声信号に関する処理を説明するための図である。スペクトル変換手段による処理の内容を説明するための図である。エンベロープデータの補間処理を説明するための図である。第２実施形態に係る音声合成装置の構成を示すブロック図である。変形例に係る音声合成装置の構成を示すブロック図である。変形例に係る音声合成装置の構成を示すブロック図である。変形例に係る音声合成装置の構成を示すブロック図である。変形例に係るピッチ変換について説明するための図である。変形例に係るピッチ変換について説明するための図である。

符号の説明

Ｄ1……音声合成装置、５……データ取得手段、１０……エンベロープ取得手段、１１……素片選択部、１２……補間部、１３……特徴抽出部、２０……スペクトル変換手段、２１……ピッチ変換部、２２……エンベロープ調整部、３０……スペクトル取得手段、３１……ＦＦＴ部、３２……ピーク検出部、３３……データ生成部、３４……選択部、４０……音声生成手段、４１……逆ＦＦＴ部、４２……出力処理部、５０，５５……記憶手段、６０……音声出力部、６７……入力機器、Ｄ2……データ作成装置、９１……音素区分部、９２……ＦＦＴ部、９３……特徴抽出部、Ｖ0……原音声信号、Ｖt，Ｖt1，Ｖt2……変換用音声信号、Ｖnew……出力音声信号、ＳＰ0……原音声の周波数スペクトル、ＳＰt……変換用スペクトル、ＳＰnew……新規スペクトル、ＥＶ0……スペクトルエンベロープ、Ｄ0……原音声スペクトルデータ、Ｄt……変換用スペクトルデータ、Ｄnew……新規スペクトルデータ、Ｄev……エンベロープデータ、Ｒ……スペクトル分布領域。

Claims

音韻を指定する音韻データを順次に取得するデータ取得手段と、
各々の音韻が異なる複数の音声素片のうち前記音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得手段と、
並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得手段と、
前記スペクトル取得手段が取得した変換用スペクトルのスペクトルエンベロープを前記エンベロープ取得手段が取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整手段と、
前記エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段と
を具備する音声合成装置。
ピッチを指定するピッチデータを取得するデータ取得手段と、
前記スペクトル取得手段が取得した変換用スペクトルに含まれる各ピークの周波数を前記ピッチデータによって指定されるピッチに応じて変化させるピッチ変換手段と
を具備し、
前記エンベロープ調整手段は、前記ピッチ変換手段による処理後の変換用スペクトルのスペクトルエンベロープを調整する
請求項１に記載の音声合成装置。
音韻を指定する音韻データを順次に取得するデータ取得手段と、
各々の音韻が異なる複数の音声素片のうち前記音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得手段と、
変換用音声の周波数スペクトルである第１変換用スペクトル、および、前記第１変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第１変換用スペクトルよりも各ピークの帯域幅が広い第２変換用スペクトルの何れかを取得するスペクトル取得手段と、
前記スペクトル取得手段が取得した変換用スペクトルのスペクトルエンベロープを前記エンベロープ取得手段が取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整手段と、
前記エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段と
を具備する音声合成装置。
コンピュータに、
音韻を指定する音韻データを順次に取得するデータ取得処理と、
各々の音韻が異なる複数の音声素片のうち前記音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得処理と、
並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得処理と、
前記スペクトル取得処理にて取得した変換用スペクトルのスペクトルエンベロープを前記エンベロープ取得処理にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整処理と、
前記エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理と
を実行させるためのプログラム。
コンピュータに、
音韻を指定する音韻データを順次に取得するデータ取得処理と、
各々の音韻が異なる複数の音声素片のうち前記音韻データによって指定される音韻に対応した音声素片のスペクトルエンベロープを取得するエンベロープ取得処理と、
変換用音声の周波数スペクトルである第１変換用スペクトル、および、前記第１変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第１変換用スペクトルよりも各ピークの帯域幅が広い第２変換用スペクトルの何れかを取得するスペクトル取得処理と、
前記スペクトル取得処理にて取得した変換用スペクトルのスペクトルエンベロープを前記エンベロープ取得処理にて取得したスペクトルエンベロープと略一致するように調整するエンベロープ調整処理と、
前記エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理と
を実行させるためのプログラム。