JP2010160406A

JP2010160406A - 音声合成装置、およびプログラム

Info

Publication number: JP2010160406A
Application number: JP2009003576A
Authority: JP
Inventors: Hiroshi Kayama; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2009-01-09
Filing date: 2009-01-09
Publication date: 2010-07-22
Anticipated expiration: 2029-01-09
Also published as: JP5157922B2

Abstract

【課題】素片接続方式の音声合成において、データベース化する素片の数が従来よりも少なくしても自然な音声を合成できるようにする。
【解決手段】曲を構成する音符とその歌詞を示す歌詞データとを示す曲データに基づき、その曲の歌唱音声を合成するのに用いる複数の音声素片、それらの発生時刻、その歌唱音声のピッチを指定する歌唱合成スコア（音声合成指示）を生成する。そして、データベース化された音声素片のうちから歌唱合成スコアにより指定されるものを選択する際に、無声摩擦音から無音への遷移部分を示す音声素片については、無音から当該無声摩擦音への遷移部分の音声素片を選択し、その音声素片の波形に時間反転を施して歌唱音声の合成に使用する。
【選択図】図４

Description

本発明は、音声を合成する技術に関し、特に、複数の音声素片を接続して音声を合成する素片接続方式の音声合成技術に関する。

この種の音声合成技術の一例としては、素片接続方式の歌唱合成が挙げられる。素片接続方式の歌唱合成では、単一の音素や音素から音素への遷移部分など歌唱音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化しておくことが一般的である。そして、ある歌詞をあるメロディに合わせて歌唱する歌唱音声を合成する際には、歌詞を構成する音声素片の音声素片データをデータベースから読み出し、各々のピッチをメロディに合わせるためのピッチ変換を施した後に連結して、歌唱音声の波形を示すデータを合成する（特許文献１〜３参照）。

特開２００７−２４０５６４号公報特開２００６−１７９４６号公報特開２０００−３２００号公報

素片接続方式の音声合成で自然な音声を合成するためには、できるだけ多くの音声素片をデータベースに格納しておく必要があり、音韻の種類（有声、無声、母音の脱落など）、前後の音韻の組み合わせや、声質、情感などを考慮すると、データベース化しておくべき音声素片の数は膨大なものになる。このため、携帯型ゲーム機やＰＤＡ（Personal Digital Assistants）、携帯電話などの携帯端末に音声合成を実行させようとすると、データベース化しておく音声素片の数が大きな問題となる。これら携帯端末は大容量の記憶装置を有しておらず、格納可能なデータサイズに制限があるからである。
本発明は上記課題に鑑みて為されたものであり、素片接続方式の音声合成において、データベース化する音声素片を従来よりも少なくしても自然な音声を合成できるようにする技術を提供することを目的とする。

上記課題を解決するため、本発明は、各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースと、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを前記音声素片データベースから選択し出力する手段であって、無音から無声摩擦音への第１の遷移部分と前記無声摩擦音から無音への第２の遷移部分とが連続して前記音声合成指示により指定されている場合には、前記第１および第２の遷移部分のうちの何れか一方については前記音声素片データベースから該当する音声素片データを選択して出力し、他方については当該音声素片データに含まれる波形データに時間反転を施したものを出力する素片選択手段と、前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段とを有することを特徴とする音声合成装置、を提供する。

このような音声合成装置によれば、第１および第２の遷移部分のうちの何れか一方に該当する音声素片データが音声素片データベースに格納されていれば、第１および第２の遷移部分の連結で表される音声を合成することができる。無声摩擦音については、破裂音とは異なり上記のような波形の時間反転により波形データを生成しても特段の影響は生じない。つまり、この音声合成装置によれば、上記第１および第２の遷移部分のうちの何れか一方をデータベース化の対象から除外しても、従来技術と同様に自然な音声の合成を行うことができる。なお、本発明の別の態様においては、コンピュータ装置を上記各手段（すなわち、素片選択手段、および素片連結手段）として機能させるプログラムを提供する態様であっても良い。

ここで、第１の遷移部分（すなわち、無音から無声摩擦音への遷移部分）と第２の遷移部分（同無声摩擦音から無音への遷移部分）の何れをデータベースの格納対象とし、或いはデータベース化の対象から除外するのかについては、音声合成の対象言語との関係で定めれば良い。例えば、対象言語が英語である場合には、第２の遷移部分に比較して第１の遷移部分の出現頻度が高いため、第１の遷移部分をデータベースの格納対象とする（第２の遷移部分を格納対象から除外する）ことが好ましい。逆に、第２の遷移部分の出現頻度が高い言語が対象言語である場合には、第２の遷移部分を格納対象とする（第１の遷移部分を格納対象から除外する）ことが好ましいことは言うまでもない。

また、上記課題を解決するため、本発明は、各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースと、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを前記音声素片データベースから選択し出力する手段であって、無声摩擦音から他の子音への遷移部分の音声素片が前記音声合成指示により指定されている場合には、前記無声摩擦音から無音への第１の遷移部分と無音から前記他の子音への第２の遷移部分の連結で当該音声素片を置き換え、前記第１の遷移部分については、無音から前記無声摩擦音への遷移部分に対応する音声素片データを前記音声素片データベースから選択し当該音声素片データに含まれる波形データに時間反転を施したものを出力する一方、前記第２の遷移部分については該当する音声素片データを前記素片データベースから選択して出力する素片選択手段と、前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段とを有することを特徴とする音声合成装置、を提供する。

このような音声合成装置によれば、無声摩擦音から他の子音への遷移部分の音声素片は、上記無声摩擦音から無音への第１の遷移部分と、無音から上記他の子音への第２の遷移部分の連結に置き換えられるため、この音声素片に対応する音声素片データが音声素片データベースに格納されていなくても、上記音声素片を含む音声を合成することが可能になる。さらに、上記第１の遷移部分の音声素片データは、無音から上記無声摩擦音への遷移部分の音声素片データに時間反転を施して生成されるため、この第１の遷移部分の音声素片データについても音声素片データベースに格納しておく必要はない。つまり、上記音声合成装置によれば、従来の素片接続方式の音声合成に比較して、無声摩擦音から他の子音への遷移部分と上記第１の遷移部分の分だけ、データベース化を要する音声素片を削減することが可能になる。なお、本発明の別の態様においては、コンピュータ装置を上記各手段として機能させるプログラムを提供する態様であっても良い。

以下、図面を参照しつつ本発明の一実施形態について説明する。
図１は、本発明に係る音声合成装置の一実施形態である歌唱合成装置の構成を示すブロック図である。この歌唱合成装置は、例えば携帯電話機や携帯型ゲーム機など音声を出力する機能を備えた携帯端末に音声合成プログラムをインストールしたものであり、前述した素片接続方式で歌唱音声の合成を行う。図１において、ＣＰＵ（Central Processing Unit）１は、この歌唱合成装置の各部を制御する制御中枢である。ＲＯＭ（Read Only Memory）２は、ローダなど、この歌唱合成装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。表示部３は、例えば液晶ディスプレイとその駆動回路であり、装置の動作状態や入力データ、利用者に対するメッセージなどを表示する。操作部４は、利用者に各種情報を入力させるための手段であり、複数の操作子（例えば、携帯型ゲーム機であればスタートボタンやカーソルキー、携帯電話であればテンキーなど）やタッチパネルなどで構成されている。インタフェース群５は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、ＵＭＤ（Universal Media Disc）やＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）などの外部記録媒体との間でデータの授受を行うためのドライバなどである。フラッシュメモリ６は、データの書き込みおよび読み出しが可能な不揮発性メモリであり、各種のプログラムやデータベースなどの情報を記憶するためのものである。ＲＡＭ（Random Access Memory）７は、ＣＰＵ１によってワークエリアとして利用される揮発性メモリである。ＣＰＵ１は、操作部４を介して与えられる指令にしたがいフラッシュメモリ６内のプログラムをＲＡＭ７に読み出し実行する。サウンドシステム８は、この歌唱合成装置において合成される音声を出力する手段である。このサウンドシステム８は、合成音声の波形を示すデジタル音声信号（例えば、合成音声の波形を示すサンプリングデータ）をアナログ音声信号に変換するＤ／Ａ変換器と、このアナログ音声信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカ等を含んでいる。

フラッシュメモリ６に記憶されている情報としては、曲編集プログラム６１、曲データ６２、音声素片データベース６３、および音声合成プログラム６４が挙げられる。曲データ６２は、曲を構成する一連の音符を表す音符データと、音符に合わせて発音する歌詞を表す歌詞データと、曲に音楽的表情を与えるためのダイナミックス情報等のその他の情報とを含んでいる。この曲データ６２は、曲毎に作成されフラッシュメモリ６に格納される。

曲編集プログラム６１は、曲データ６２を編集するためにＣＰＵ１によって実行されるプログラムである。好ましい態様において、この曲編集プログラム６１は、ピアノの鍵盤の画像からなるＧＵＩ（Graphical User Interface）を表示部３に表示させる。ユーザは、表示部３に表示される鍵盤における所望の鍵の画像に対する操作部４の操作により音符を指定し、その音符に合わせて発音する歌詞を操作部４の操作により入力することができる。ここで、歌詞の入力は、図２（Ａ）に示すように、仮名入力で行っても良く、また、図２（Ｂ）に示すように音声記号入力で行っても良い。曲編集プログラム６１は、このようにして、音符とその音符に合わせて発音される歌詞に関する情報を操作部４を介して受け取り、音符毎に音符データと歌詞データとを曲データ６２としてフラッシュメモリ６内に格納する。さらに、ユーザは操作部４の操作によりダイナミック情報等を曲データ６２に追加することができる。なお、このように曲データ６２の全てを操作部４の操作により入力させるのではなく、歌唱合成装置に鍵盤を接続し、ユーザによる鍵盤の操作を検知することにより音符データを生成し、この音符データに対応させる歌詞を操作部４の操作により入力させるようにしても良い。また、他の装置で作成した曲データ６２をインタフェース群５を介してこの歌唱合成装置へ入力し、フラッシュメモリ６に格納させる態様でも良く、この態様においては曲編集プログラム６１をフラッシュメモリ６に格納しておく必要はない。

１個の音符に対応した音符データは、音符の発生時刻、音高、音符の長さを示す各情報を含んでいる。歌詞データは、音符に合わせて発音するべき歌詞を音符毎に定義したデータである。曲データ６２は、曲の開始からの発生順序に合わせて、個々の音符に対応した音符データと歌詞データとを時系列的に並べたものであり、曲データ６２内においては音符データと歌詞データとは音符単位で対応付けられている。

音声合成プログラム６４は、曲データ６２にしたがって音声（本実施形態では、歌唱音声）を合成する処理を、ＣＰＵ１に実行させるプログラムである。好ましい態様において、音声合成プログラム６４と曲編集プログラム６１は、例えばインターネット内のサイトからインタフェース群５の中の適当なものを介してダウンロードされ、フラッシュメモリ６にインストールされる。また、他の態様において、音声合成プログラム６４等は、ＣＤ−ＲＯＭやＵＭＤ等のコンピュータ装置読取可能な記録媒体に記録された状態で取引される。この態様では、インタフェース群５の中の適当なものを介して記録媒体から音声合成プログラム６４等が読み出され、フラッシュメモリ６にインストールされる。

音声素片データベース６３は、子音から母音への遷移部分、母音から他の母音への遷移部分など音素から音素への遷移部分や、母音の伸ばし音など、歌声の素材となる各種の音声素片を示す音声素片データの集合体である。これらの音声素片データは、実際に人間が発した音声波形から抽出された音声素片に基づいて作成されたデータである。音声素片データベース６３では、男性歌手、女性歌手、澄んだ声の歌手、ハスキーな声の歌手など、声質の異なった歌手毎に、各歌手の歌唱音声波形から得られる音声素片データのグループが用意されている。音声合成プログラム６４による歌唱合成の際、ユーザは、操作部４の操作により、以上のような各種の音声素片データのグループの中から歌唱合成に使用する音声素片データのグループを選択することができる。

前述したように、音声素片データベース６３には、できるだけ多くの音声素片データが格納されていることが好ましい。しかし、本実施形態では、音声素片データベース６３は、フラッシュメモリ６に格納されるので、音声素片データベース６３に格納する音声素片データの数を最小限に絞り込む必要がある。何故ならば、フラッシュメモリの記憶容量はハードディス等に比較して小さいことが一般的だからである。そこで、本実施形態では、無声摩擦音から他の子音への遷移部分の音声素片データと、無声摩擦音から無音への遷移部分の音声素片データとを音声素片データベースの格納対象から除外する（なお、無音から無声摩擦音への遷移部分は格納対象）ことで上記絞込みを実現している。これらを格納対象から除外した理由は以下の通りである。

特許文献１等に開示された従来の素片接続方式の歌唱合成技術では、無声摩擦音から他の子音への遷移部分、無声摩擦音から無音への遷移部分を示すものも音声素片データベースに格納されている。何故ならば、これらの遷移部分の音声素片は、母音の脱落した音声の合成の際に使用されるからである。図３（Ａ）は、母音の脱落が発生していない「す」の発音の素片構成を示す図であり、図３（Ｂ）および図３（Ｃ）は、各々母音（ｕ）の脱落した「す」の発音の素片構成を示す図である。図３（Ｂ）および図３（Ｃ）に示すように、このような母音の脱落は、無音から無声摩擦音（図３（Ｂ）では、無音から子音ｓ）への遷移部分と同無声摩擦音から無音への遷移部分の連続で表現されるものと、無声摩擦音から他の子音（図３（Ｃ）では、子音ｓから子音ｔ）への遷移部分で表現されるものとがある。このような母音の脱落は主に英語等で良く見られる現象である。図３（Ｂ）および図３（Ｃ）を参照すれば明らかように、無声摩擦音から他の子音への遷移部分や、無声摩擦音から無音への遷移部分の音声素片データが音声素片データベース６３に格納されていないと、母音の脱落した音声を合成することはできない。なお、無声摩擦音から他の子音への遷移部分については、図３（Ｃ）に示すように、無声摩擦音から無音への遷移部分と無音から上記他の子音への遷移部分とに置き換えて表現することも可能である。しかし、無声摩擦音から無音への遷移部分がデータベース化の対象とされていない状況下では、このような方法によっても図３（Ｃ）に示すような母音の脱落を表現することはできない。本実施形態では、無音から無声摩擦音への遷移部分の音声素片データを利用することで上記のような不具合の発生を回避しているのである。この点については後に詳細に説明する。

音声素片データベース６３に格納されている各音声素片データは、音声素片の波形を示す波形データを含んでいる。本実施形態では、この波形データは、音声素片の波形を所定のサンプリングレートでサンプリングしたサンプル列であり、各音声素片データは、音声素片を構成する音素の種類と各音素の開始時刻を示すセグメンテーションデータを含む。なお、本実施形態では、上記波形データとしてサンプリングデータ列を用いるが、音声素片の波形のサンプル列を一定時間長のフレームに分割し、ＦＦＴ（高速フーリエ変換）を行うことにより得られたフレーム毎のスペクトル（振幅スペクトルおよび位相スペクトル）を表すデータを上記波形データとして用いても勿論良い。

本実施形態では、音声素片データに含まれる波形データにピッチ変換を施して利用することにより、任意のメロディに対応した歌唱音声を合成する。このピッチ変換については、例えば特許文献１に開示されている手法を採用すれば良い。ピッチ変換を行うためには、その対象である波形データのピッチに関する情報が必要である。そこで、ある好ましい態様では、歌唱合成の際のピッチ変換の便宜のため、音声素片のピッチがフレーム毎に算出され、各フレームにおけるピッチを示す素片ピッチデータが音声素片データの一部として音声素片データベース６３に格納される。また、他の好ましい態様では、歌唱合成の際の演算処理の便宜のため、上記素片ピッチデータに加えて、音声素片の振幅スペクトルの包絡線がフレーム毎に求められ、各フレームにおけるスペクトル包絡を示すスペクトル包絡データの一部として音声素片データベース６３に格納される。

次いで、音声合成プログラム６４の構成について説明する。
図４は、音声合成プログラム６４の構成を説明するための図である。この音声合成プログラム６４は、所謂素片接続方式の音声合成（本実施形態では、歌唱合成）処理をＣＰＵ１に実行させるプログラムであり、図４に示すように、音声合成指示生成手段６４１、素片選択手段６４２、ピッチ変換手段６４３、および素片連結手段６４４を含んでいる。なお、本実施形態では、ＣＰＵ１が音声合成指示生成手段６４１等に相等するプログラムを実行することにより歌唱音声の合成を行うが、これらの各プログラムを複数のプロセッサが分担して並列実行するように構成しても良い。また、音声合成指示生成手段６４１等の各プログラムの一部を電子回路により構成しても良い。

音声合成指示生成手段６４１は、操作部４の操作により指定された曲データ６２から音声合成指示６５０を生成するプログラムである。本実施形態における音声合成指示６５０は、所謂歌唱合成スコアであり、音韻データトラック６５１と、ピッチデータトラック６５２と、その他のデータトラック６５３と、を含んでいる。これら各データトラックは時間軸を共通にするものである。音韻データトラック６５１は、１曲分の歌唱音声を合成するのに使用する複数の音声素片と、それらの各音声素片の時間軸上における位置（具体的には、音声素片の開始タイミングおよび継続時間）を示すデータトラックである。ピッチデータトラック６５２は、合成するべき歌唱音声のピッチを示すデータトラックである。

音声合成指示生成手段６４１は、基本的には音符データに従い、また、ビブラートやポルタメント、レガートの指示がある場合にはそれに従い、ピッチデータトラック６５２を生成する。ただし、ピッチデータトラックを音符データ通りのものにすると、ピッチの変化が階段状になり、不自然な歌唱音になるので、本実施形態では、ピッチの切り換り区間においてピッチが自然な動きとなるように、ピッチデータトラック６５２が示すピッチに変化を与える。その他のデータトラック６５３は、曲データ６２に含まれるダイナミックス情報等に基づいて作成される。

素片選択手段６４２、ピッチ変換手段６４３および素片連結手段６４４は、音声合成指示６５０に従って歌唱音声の波形を示す波形データである歌唱音声データを生成する役割を担っている。ここで、音声合成指示６５０から歌唱音声データを生成する処理は、１曲分の音声合成指示６５０の生成が完了した後に開始するようにしても良く、音声合成指示６５０の生成開始から少し遅れて開始するようにしても良い。

素片選択手段６４２は、音声合成指示６５０の音韻データトラック６５１において指定されている音声素片に該当する音声素片データを音声素片データベース６３から選択し、その音声素片データをピッチ変換手段６４３に出力するプログラムである。本実施形態における素片選択手段６４２は、音声素片データをピッチ変換手段６４３に引渡す際に、その音声素片データに含まれる波形データの継続時間長を音声合成指示６５０において指定された音声素片の継続時間長に合わせる機能を備えている。

ピッチ変換手段６４３は、ピッチデータトラック６５２において指定されたピッチに対応した波形データとなるように、素片選択手段６４２から出力される音声素片データに含まれる波形データにピッチ変換を施すプログラムである。さらに詳述すると、本実施形態では、音声素片データに含まれる波形データはサンプル列であるため、ピッチ変換手段６４３は、まず、所定サンプル数からなるフレーム単位でサンプル列のＦＦＴ（高速フーリエ変換）を行い、音声素片の振幅スペクトルおよび位相スペクトルをフレーム毎に求める。そして、ピッチ変換手段６４３は、ピッチデータトラック６５２において指定されたピッチに対応するように、各フレームにおける振幅スペクトルを周波数軸方向に伸張または圧縮する。その際、基音および倍音に相等する周波数の近傍は、元のスペクトルの概形が保たれるように、非線形な伸張または圧縮を行い、ピッチ変換後の振幅スペクトルとする。また、ピッチ変換後においても、ピッチ変換前のスペクトル包絡が維持されるように、非線形な圧縮または伸張を経た振幅スペクトルのレベル調整を行う。位相スペクトルに関しては、元の位相スペクトルをそのままピッチ変換後の位相スペクトルとしても良いが、振幅スペクトルの周波数軸方向の圧縮または伸張に合わせて補正を行ったものをピッチ変換後の位相スペクトルとする方が好ましい。なお、上記波形データとして、音声素片の振幅スペクトルおよび位相スペクトルを表すデータを用いる場合には、上記ＦＦＴを行うことなく、周波数軸方向の伸張または圧縮を施すようにすれば良い。

素片連結手段６４４は、最終的に得られる歌唱音声が一連の音声素片が滑らかに繋がったものとなるように、ピッチ変換手段６４３の処理を経た波形データの調整を行い、この調整後の波形データをＩＦＦＴ（逆高速フーリエ変換）により時間領域のデジタル音声信号に変換してサウンドシステム８に出力するプログラムである。

以上に説明した音声合成プログラム６４の構成要素のうち、音声合成指示生成手段６４１（本実施形態では、歌唱合成スコア生成手段）、ピッチ変換手段６４３、および素片連結手段６４４については特許文献１に開示されたものと何ら変るところはない。これに対して、本実施形態の素片選択手段６４２は、無音から無声摩擦音への第１の遷移部分と前記無声摩擦音から無音への第２の遷移部分とが連続して音声合成指示６５０にて指定されている場合、または、無声摩擦音から他の子音への遷移部分の音声素片が音声合成指示６５０にて指定されている場合に、本実施形態の特徴を顕著に示す処理を実行する。

より詳細に説明すると、無音から無声摩擦音への第１の遷移部分と同無声摩擦音から無音への第２の遷移部分とが連続して音声合成指示６５０にて指定されている場合、素片選択手段６４２は、当該第２の遷移部分については、当該第２の遷移部分に先行する第１の遷移部分（すなわち、無音から無声摩擦音への遷移部分）に対応する音声素片データを音声素片データベース６３から選択し、当該音声素片データに含まれる波形データに時間反転を施したものを出力する処理（以下、無音接続合成処理）を実行する。

前述したように、無音から無声摩擦音への第１の遷移部分と同無声摩擦音から無音への第２の遷移部分とが連続して音声合成指示６５０にて指定されている場合とは、図３（Ｂ）に示すような態様で母音が脱落した音声の合成を指示されている、ということである。この場合、素片選択手段６４２は、まず、無音から無声摩擦音への遷移部分（上記第１の遷移部分）の音声素片データを音声素片データベース６３から読み出して出力する。次いで、素片選択手段６４２は、上記音声素片データに時間反転を施して得られるものを、上記無声摩擦音から無音への遷移部分（すなわち、上記第２の遷移部分）の音声素片データとして出力する（図３（Ｄ）参照）。この時間反転の具体的な実施態様としては種々のものが考えられる。例えば、音声素片データに含まれる波形データがサンプル列である場合には、それらサンプル列を逆順に配列し直すことで実現される。また、上記波形データとしてフレーム毎のスペクトル（振幅スペクトルおよび位相スペクトル）を表すデータを用いる場合には、それらデータをフレーム単位の逆順にＩＦＦＴすることで時間反転が実現される。このように本実施形態によれば、無声摩擦音から無音への遷移部分の音声素片データが音声素片データベース６３に格納されていなくても、図３（Ｂ）に示すタイプの母音の脱落した音声を合成することができる。

これに対して、無声摩擦音から他の子音への遷移部分の音声素片が音声合成指示６５０にて指定されている場合は、素片選択手段６４２は、無声摩擦音から無音への第１の遷移部分と無音から他の子音への第２の遷移部分の連結で当該音声素片を置き換え、第１の遷移部分については、無音から同無声摩擦音への遷移部分に対応する音声素片データを音声素片データベース６３から選択し当該音声素片データに含まれる波形データに時間反転を施したものを出力する一方、第２の遷移部分については該当する音声素片データを素片データベース６３から選択して出力する処理（以下、子音接続合成処理）を実行する。

無声摩擦音から他の子音への遷移部分の音声素片が音声合成指示６５０にて指定されている場合とは、図３（Ｃ）に示すような態様で母音が脱落した音声の合成を指示されている、ということである。この場合、素片選択手段６４２は、まず、無音から無声摩擦音への遷移部分の音声素片データを音声素片データベース６３から読み出し、これに時間反転を施したものを上記第１の遷移部分の音声素片データとして出力する。次いで、素片選択手段６４２は、上記第２の遷移部分の音声素片データを素片選択データベース６３から読み出し、そのまま出力する（図３（Ｅ）参照）。このように本実施形態によれば、無声摩擦音から他の子音への遷移部分の音声素片データや無声摩擦音から無音への遷移部分の音声素片データが音声素片データベース６３に格納されていなくても、図３（Ｃ）に示すタイプの母音の脱落した音声を合成することができる。

以上説明したように本実施形態に係る歌唱合成装置によれば、従来技術に比較して、無声摩擦音から他の子音への遷移部分や無声摩擦音から無音への遷移部分の分だけデータベース化する音声素片の数を削減しつつ、自然な歌唱音声の合成を行うことが可能になる。

以上、本発明の一実施形態について説明したが、この実施形態を以下のように変形しても勿論良い。
（１）上述した実施形態では、無音接続合成処理、および子音接続合成処理を素片選択手段６４２に実行させるようにすることで、無声摩擦音から無音への遷移部分、および無声摩擦音から他の子音への遷移部分を示す音声素片のデータベース化を不要にし、音声素片データベース６３に格納する音声素片の数を削減した。しかし、本実施形態の特徴を顕著に示す上記２つの処理のうち、何れか一方のみを素片選択手段６４２に実行させるようにしても良い。例えば、無音接続合成処理のみを実行させる態様においては、無声摩擦音から無音への遷移部分をデータベース化しておく必要はないものの、無声摩擦音から他の子音への遷移部分については従来と同様にデータベース化しておく必要がある。ただし、このような態様においても、無声摩擦音から無音への遷移部分をデータベース化しない分だけ、従来の素片接続方式の音声合成技術に比較して音声素片データベースに格納しておくべき音声素片の数を削減することができる。同様に、素片選択手段６４２に子音接続合成処理のみを実行させ、無声摩擦音から無音への遷移部分については予めデータベース化しておく態様であっても勿論良い。

（２）上述した実施形態では、無音から無声摩擦音への遷移部分の音声素片データを音声素片データベース６３の格納対象とし、無声摩擦音から無音への遷移部分の音声素片データを格納対象から除外したが、無声摩擦音から無音への遷移部分の音声素片データを音声素片データベース６３の格納対象とし、無音から無声摩擦音への遷移部分の音声素片データを格納対象から除外しても良い。ただし、この態様においては、無音から無声摩擦音への第１の遷移部分と同無声摩擦音から無音への第２の遷移部分とが連続して音声合成指示６５０にて指定されている場合に、以下の態様の無音接続合成処理を素片選択手段６４２に実行させる必要がある。すなわち、第１の遷移部分については、無声摩擦音から無音への遷移部分（すなわち、上記第２の遷移部分）に対応する音声素片データを音声素片データベース６３から選択し、当該音声素片データに含まれる波形データに時間反転を施したものを出力する処理を素片選択手段６４２に実行させるのである。

ここで、第１の遷移部分（すなわち、無音から無声摩擦音への遷移部分）と第２の遷移部分（無声摩擦音から無音への遷移部分）の何れを音声素片データベース６３の格納対象とし、或いはデータベース化の対象から除外するのかについては、音声合成の対象言語との関係で定めれば良い。例えば、対象言語が英語である場合には、第２の遷移部分に比較して第１の遷移部分の出現頻度が高いため、第１の遷移部分をデータベースの格納対象とする（第２の遷移部分を格納対象から除外する）ことが好ましい。逆に、第２の遷移部分の出現頻度が高い言語が対象言語である場合には、第２の遷移部分を格納対象とする（第１の遷移部分を格納対象から除外する）ことが好ましいことは言うまでもない。

（３）ピッチデータトラック６５２については、上記実施形態に挙げたもの以外の方法により音符の切り換り部分のピッチに動きを与えても良い。例えばユーザが操作部４の操作によりピッチに動きを与える構成でも良い。

（４）上述した実施形態では、仮名入力と音声記号入力の何れによっても歌詞の入力ができるようにしたが、例えば、仮名入力で歌詞が入力された場合には、常に母音の脱落がない態様で歌唱合成を行い、音声記号入力で歌詞が入力された場合には、その入力内容に応じて母音の脱落の発生の有無を制御するようにしても良い。また、仮名入力の場合には、母音の脱落を指示する制御文字をその脱落箇所に付与してその旨を指示するようにしても良い。例えば、母音の脱落を指示する制御文字として“％”を用い、図３（Ｂ）に示す態様の母音の脱落を指示する場合には、“す％”と入力し、図３（Ｃ）に示す態様の母音の脱落を指示する場合には、“す％た”と入力するようにすれば良い。

（５）素片連結手段６４４は、周波数領域の情報である波形データ（振幅スペクトル、位相スペクトル）を時間領域の情報であるデジタル音声信号に変換した後、このデジタル音声信号を対象としてスムージング処理を行うようにしても良い。例えば、先行音声素片の最後のｎ個の波形データと後続音声素片の最初のｎ個の波形データからＩＦＦＴにより得られた時間領域のデジタル音声信号を対象としてクロスフェードを行い、最終的なデジタル音声信号としても良い。

（６）音声合成指示は、音声合成パラメータの時系列情報であれば良く、１曲分に限らず、曲の１部分についての時系列情報でも良い。

（７）上述した実施形態では、音声合成の素材となる各音声素片の音声素片データの集合からなる音声素片データベース６３が歌唱合成装置（音声合成装置）のフラッシュメモリ６に格納されていた。しかし、上記音声素片データベース６３をＳＤメモリやＵＭＤなどのコンピュータ装置記録媒体に書き込んで流通させ、これら記録媒体に格納されている音声素片データベース６３へのインタフェース群５経由でのアクセスにより、音声合成指示６５０にて指定された音声素片に対応する音声素片データを読み出す処理をＣＰＵ１に実行させても良い。このような態様においては、歌唱合成装置（音声合成装置）が備える記憶装置の記憶容量の大小が問題となることはない。しかし、一般にＵＭＤやＳＤメモリの記憶容量はハードディスク等に比較して小さいため、上記実施形態にて説明した手法により、データベース化する音声素片の数を削減することには十分な意義がある。

（８）上述した実施形態では、歌唱音声（すなわち、曲に合わせて歌唱する音声）の合成に本発明を適用したが、発話音声など歌唱音声以外の音声の合成に本発明を適用しても勿論良い。発話音声の合成の場合においても、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示を生成する処理を音声合成指示生成手段６４１に実行させ、素片選択手段６４２から出力される各音声素片データに対してピッチ変換手段６４３によるピッチ変換を施し、ピッチ変換後の波形データを調整しつつ連結して出力する処理を素片連結手段６４４に実行させるようにすれば良い。

（９）上述した実施形態では、音声合成プログラム６４にしたがってＣＰＵ１を作動させることにより、そのＣＰＵ１を、音声合成指示生成手段６４１、素片選択手段６４２、ピッチ変換手段６４３および素片連結手段６４４として機能させた。しかしながら、インタフェース群５のうちの適当なものを介して他の装置から音声合成指示６５０が与えられる態様においては、ＣＰＵ１を音声合成指示生成手段６４１として機能させる必要はない。また、合成音声を構成する音声素片毎にピッチの指定を行わない態様においては、ＣＰＵ１をピッチ変換手段６４３として機能させる必要はない。つまり、本発明に特徴的な音声合成を実現するには、音声合成指示生成手段６４１およびピッチ変換手段６４３は必ずしも必須ではなく、素片選択手段６４２および素片連結手段６４４としてＣＰＵ１を機能させることができれば良い。

この発明の一実施形態である歌唱合成装置の構成例を示す図である。発音内容（歌詞）の入力態様の一例を示す図である。母音の脱落した音声素片の一例、および本実施形態の原理を説明するための図である。同歌唱合成装置のフラッシュメモリ６に格納されている音声合成プログラム６４の構成を説明するための図である。

１…ＣＰＵ、２…ＲＯＭ、３…表示部、４…操作部、５…インタフェース群、６…フラッシュメモリ、６１…曲編集プログラム、６２…曲データ、６３…音声素片データベース、６４…音声合成プログラム、６４１…音声合成指示生成手段、６４２…素片選択手段、６４３…ピッチ変換手段、６４４…素片連結手段、７…ＲＡＭ。

Claims

各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースと、
音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを前記音声素片データベースから選択し出力する手段であって、無音から無声摩擦音への第１の遷移部分と前記無声摩擦音から無音への第２の遷移部分とが連続して前記音声合成指示により指定されている場合には、前記第１および第２の遷移部分のうちの何れか一方については前記音声素片データベースから該当する音声素片データを選択して出力し、他方については当該音声素片データに含まれる波形データに時間反転を施したものを出力する素片選択手段と、
前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段と
を有することを特徴とする音声合成装置。
各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースと、
音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを前記音声素片データベースから選択し出力する手段であって、無声摩擦音から他の子音への遷移部分の音声素片が前記音声合成指示により指定されている場合には、前記無声摩擦音から無音への第１の遷移部分と無音から前記他の子音への第２の遷移部分の連結で当該音声素片を置き換え、前記第１の遷移部分については、無音から前記無声摩擦音への遷移部分に対応する音声素片データを前記音声素片データベースから選択し当該音声素片データに含まれる波形データに時間反転を施したものを出力する一方、前記第２の遷移部分については該当する音声素片データを前記素片データベースから選択して出力する素片選択手段と、
前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段と
を有することを特徴とする音声合成装置。
コンピュータ装置を、
各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースから、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを選択し出力する手段であって、無音から無声摩擦音への第１の遷移部分と前記無声摩擦音から無音への第２の遷移部分とが連続して前記音声合成指示により指定されている場合には、前記第１および第２の遷移部分のうちの何れか一方については前記音声素片データベースから該当する音声素片データを選択して出力し、他方については当該音声素片データに含まれる波形データに時間反転を施したものを出力する素片選択手段と、
前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段
として機能させることを特徴とするプログラム。
コンピュータ装置を、
各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースから、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを選択し出力する手段であって、無声摩擦音から他の子音への遷移部分の音声素片が前記音声合成指示により指定されている場合には、前記無声摩擦音から無音への第１の遷移部分と無音から前記他の子音への第２の遷移部分の連結で当該音声素片を置き換え、前記第１の遷移部分については、無音から前記無声摩擦音への遷移部分に対応する音声素片データを前記音声素片データベースから選択し当該音声素片データに含まれる波形データに時間反転を施したものを出力する一方、前記第２の遷移部分については該当する音声素片データを前記素片データベースから選択して出力する素片選択手段と、
前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段
として機能させることを特徴とするプログラム。