JP3883318B2

JP3883318B2 - 音声素片作成方法及び装置

Info

Publication number: JP3883318B2
Application number: JP01722199A
Authority: JP
Inventors: 健岩木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1999-01-26
Filing date: 1999-01-26
Publication date: 2007-02-21
Anticipated expiration: 2019-01-26
Also published as: JP2000214877A

Description

【０００１】
【発明の属する技術分野】
本発明は、所定の規則に基づいて任意の音声を合成する音声合成装置に関し、特に、音声波形を接続することにより合成音声を得る装置に関するものである。また、当該装置で使用する音声波形の切り出しに適用する音声素片作成方法及び装置に関する。
【０００２】
【従来の技術】
従来のテキスト音声変換装置、すなわちテキスト文章を音声に変換して出力するテキスト音声変換装置は、一般に、テキスト解析部と、パラメータ生成部と、音声合成部から構成されている。
【０００３】
このうち、テキスト解析部は、入力された漢字かな混じり文を、単語辞書を参照して形態素解析することにより、読み、アクセント、イントネーションの決定を行い、解析結果を韻律記号付き発音記号（中間言語）として出力する手段として機能する。また、パラメータ生成部は、ピッチ周波数パターンや音韻継続時間等の設定を行う手段として機能する。また、音声合成部は、音声の合成処理を行うための手段として機能する。
【０００４】
ところで、音声合成部における音声合成処理には、以前から線形予測法などが用いられている。線形予測法は、音声波形を、音源インパルスによって励起された声道調音等価フィルタの出力であると考え、この等価フィルタの特性を受動的かつ線形と仮定すれば、線形微分方程式の解として音声波形の予測が可能であり、音声スペクトル特性は線形予測係数として抽出可能であるとする予測方法である。
【０００５】
なお、線形予測分析については、例えば、下記に挙げる文献等、古くから研究がなされており、多くの文献が存在するため、ここでの詳述は避ける。
（１）古井貞著，“ディジタル音声処理" pp.60-89, 東海大学出版
（２）新見康永著，“音声認識" pp.53-56, 共立出版
因みに、人間の聴覚は、一般にスペクトルの山（フォルトマント）に非常に敏感で、逆にスペクトルの谷（アンチフォルマント）には敏感ではないといわれている。前述の線形予測分析は、全極型スペクトルをもつという特徴から、音声生成モデルのパラメトリックな分析法として非常に有効であり、フォルマント周波数およびそのバンド幅を求めることができる。
【０００６】
しかし、線形予測分析等のこれら方法では、本来相互関係がある声道情報と音源情報を分離して取り扱っていたため、また、音声生成過程のモデル化による制約のため、音質の劣化が避けられないという問題があった。
【０００７】
そこで、近年、声道情報と音源情報とを明確には分離せず、さらに原音声波形をそのまま利用して、音声波形に含まれる細かい微妙な変動を人工的なモデル化なしで活用し、品質劣化の少ない高品質の合成音を得る手法が用いられるようになってきた。
【０００８】
音声波形をそのまま利用する方法としては、例えば、下記の文献「F.J.Charpentier,M.G.Stella,"Diphone synthesis using an overlap-add technique for speech waveforms concatanation",Proc.Int.Conf.ASSP,2015-2018,Tokyo,1986」に示されるものが知られている。この方法は、予め音声波形にピッチマーク（重畳基準点）をつけておき、その位置を中心に切り出して、合成時には合成ピッチ周期にあわせて、ピッチマーク位置を合成ピッチ周期ずらしながら重ね合わせる合成方法で、ＰＳＯＬＡ（Pitch-Syncronous OverLap Add method）（ピッチ同期波形重畳法）として知られている。
【０００９】
図２に、上記文献から引用した、ピッチを変更しながら音声波形を重畳するＰＳＯＬＡ法の模式図を示す。これは、分析時（素片作成時）に比べて合成時にピッチ周期を大きくした（音程を低くした）場合の例について表したものである。このように、ＰＳＯＬＡ法では、ピッチ周期の変更が可能なため、テキスト音声変換における音声合成部として広く用いられている。なお、ピッチマークは１ピッチごとに付けておく必要がある。このため、ピッチマーク位置の設定方法として、下記に示すような各種手法が提案されている。
（１）音声波形のピークをピッチマークの設定位置とする方法
この方法についての文献としては、例えば、特開平４−３７２９９９号公報に記載の「音声ピッチ変換方法」がある。この方法は、音声波形のローカルピーク位置にはエネルギーが集中するため、切り出し波形のスペクトルを保存するのに適していると考えられる。
【００１０】
しかし、音声波形のピークでは、無声子音の前後の有声音や、破裂音または破擦音を含む有声音において、高周波（ホワイトノイズ）成分が大きくなり、合成時の単位（１フレーム）ごとにピッチマークのゆらぎが生じる。図３に、この様子を示す。１ピッチ波形の最初の山に２つのピークが存在している様な場合、図のように音韻中の途中のフレームから、ピッチマークとするピークが移動する場合が生じ、結果として接続の悪いゴロゴロした音になる。
（２）音声波形のローパスフィルタリング後の波形に現れる複数の極大値のうち励振後の最初の極大値をピッチマークの設定位置とする方法
この方法によれば、前述した（１）の方法の問題点を解決でき、安定なピッチマークの抽出が可能である。
【００１１】
【発明が解決しようとする課題】
しかし、より高音質の音声合成を実現するには、ピッチマークの設定に際し、各発声者および各発声音韻ごとにその波形の特徴が異なることをも考慮する必要が望ましい。
【００１２】
すなわち、前述の（２）の方法においても、個々の波形の形状に応じて、各発声者あるいは各音韻ごとに、そのピッチマーク抽出のパラメータ、探索範囲等の調整を波形レベルで行うことが、より音質の高い音声合成を実現する上で望まれる。
【００１３】
このことを、図４を用いて説明する。図４の場合、強度閾値ｂが小さすぎるため、ピッチマークとして極大点ａを誤抽出している。この例で示されるように極大点がそれぞれ十分に大きな波形の場合、ピッチマーク探索の基準となる探索始点（ｍａｘ）が、１ピッチ波形中のどの極大点に当たるのか不明であり、探索範囲を小さく絞り込むことができず、結果として目視によりパラメータをフレームごとに与えなければならなかった。
【００１４】
本発明は、以上の問題点を考慮してなされたもので、比較的簡単な処理でありながら、発声者および発声音韻に依存せずにピッチマークの正確な抽出が可能な音声素片作成方法及び装置の提供を目的とする。また、これらを適用することにより、高品質の音声合成装置を提供することを目的とする。
【００１５】
【課題を解決するための手段】
かかる課題を解決するため、本発明においては、(1) 各フレームごとに音声信号のフォルマント周波数を抽出するフォルマント周波数抽出工程（手段）と、(2) 該フレームの中央近傍に現れる音声信号波形の最大点を検出する最大点検出工程（手段）と、(3) 最大点を探索始点に定め、該探索始点に対し時間軸上手前に現れる音声信号波形の極大点を検出する極大点検出工程（手段）と、(4) 探索始点に対応する時刻と各極大点に対応する時刻との時間差を求める極大点間時間差検出工程（手段）と、(5) フォルマント周期の定数倍に前記時間差が一致する、時間軸上最も手前の極大点をピッチマークに設定するピッチマーク設定工程（手段）と、(6) 設定された前記ピッチマークを中心として、音声波形を切出す音声波形切出工程（手段）とを備えるようにする。
【００１６】
かかる構成とすることにより、ピッチマークの探索の基準となる探索始点が１ピット波形中のどの位置の極大点であったとしても、本発明の場合には、フォルマント周期の定数倍に前記時間差が一致する、時間軸上最も手前の極大点を確実に見つけ出してピッチマークに設定することができる。
【００１７】
この結果、発声者や発生音韻に応じて異なる音声波形の特質に依存しない音声素片の作成が可能となる。
【００１８】
【発明の実施の形態】
以下、本発明に係る音声素片作成装置（方法）並びに当該装置を適用して構成される音声合成装置（方法）の実施形態例を説明する。
（Ａ）第１の実施形態
図１に、音声合成装置（方法）の実施形態例を示す。なお、図１は、説明上、音声合成装置（方法）の構成要素を機能的に表したものであって、物理的な構成までも拘束するものでない。また、当該構成は、ハードウェア的に実現可能なだけでなく、ソフトウェア的にも実現可能である。
【００１９】
音声合成装置は、合成音生成処理部１０と素片作成処理部２０からなる。このうち、合成音生成処理部１０は、テキスト解析部１１と、単語辞書１２と、パラメータ生成部１３と、窓掛け部１４と、合成音声部１５からなる。一方、素片作成処理部２０は、音声信号入力部２１と、素片作成部２２と、素片辞書２３からなる。
【００２０】
ここで、テキスト解析部１１は、漢字かな混じり文が入力されると、単語辞書１２を参照して形態素解析を行い、漢字かな混じり文の読み、アクセント、イントネーションを決定し、韻律記号付き発音記号（中間言語）を出力するための手段である。パラメータ生成部１３は、ピッチ周波数パターンや音韻継続時間等の設定を行うための手段である。音声合成部１５は、素片辞書２３にて選択され、窓掛け部１４でピッチマークが中心となるように後述する時間窓長Ｔ_p1の時間窓が掛けられた素片を、ＰＳＯＬＡ法にて音声合成するための手段である。
【００２１】
なお、時間窓長Ｔ_p1は、分析時のピッチ周期をＴ_pa、合成時のピッチ周期をＴ_psとする場合、次式
Ｔ_p1＝Ｃ_o×_min（Ｔ_pa，Ｔ_ps） …（１）
で与えるものとする。また、係数Ｃ_o には、2.0 程度の値を用いるものとする。
【００２２】
素片辞書２３は、素片作成部２２で作成された素片を書き込むための手段である。素片作成部２２は、本発明の主要部であり、音声合成に必要な音声素片を作成するのに用いられる。なお、当該素片作成部２２の処理動作を、図５にフローチャートとして示す。
【００２３】
素片作成部２２は、データディスクなど備えた音声信号入力部２１から音声信号が入力されると、まず、ステップＳ１にて、音声信号データを分析フレームと称する区間に分割する。
【００２４】
ここで、分析フレームは、一定長さの区間に区切られた音声信号データとして与えられる。本実施形態の場合、１フレーム長を３２ｍ秒とし、各フレームは、８ｍ秒づつずれるように区切られているものとする。また、総フレーム数をＮとし、波形データをＸ_ｉ（ｌ）、ｉ＝１，…，Ｎ（フレーム）、ｌ＝１，…，Ｗ（ポイント）とする。なお、Ｗは、フレーム長とサンプリング周波数Ｆs で決まる１フレーム内の標本数であり、本実施形態の場合、Ｗ＝３２×Ｆs ／１０００である。
【００２５】
素片作成部２２は、ステップＳ１での分割処理が終了すると、ステップＳ２に移り、フレーム番号ｉの初期化を実行する。すなわち、フレーム番号ｉを０に設定する。なお、当該初期設定後のフレームＸ₀（ｌ）を始め、第ｉフレームＸｉ（ｌ）は、線形予測分析処理（ステップＳ３）及び低域ろ波処理（ステップＳ７）のそれぞれに与えられる。
【００２６】
素片作成部２２は、ステップＳ３に進むと、第ｉフレームＸｉ（ｌ）のデータを線形予測分析し、線形予測係数を求める。なお、当該処理で使用する線形予測分析法としては、従来より種々の方法が提案されているが、本実施形態においては、線形予測フィルタの安定性が満たされる偏自己相関（ＰＡＲＣＯＲ）法を適用する。素片作成部２２は、当該処理により、線形予測係数Ａｉと、その線形予測フィルタと入力信号との差である残差波形とを得る。
【００２７】
この後、素片作成部２２は、ステップＳ４及びＳ６の処理に移る。先に、ステップＳ６に移行した場合の処理を説明する。素片作成部２２は、ステップＳ６に移行すると、ステップＳ３で得られた線形予測係数をもとにフォルマント周波数の抽出を行う。ここで、線形予測係数をＡ＝｛ａ_m ｝で表すとすると、素片作成部２２は、フォルマント周波数を、次式
Σａ_m ／ｚ^m ＝０ …（２）
を満たす解（根）のうち、音源による極を取り除いたものをとして求める。また、素片作成部２２は、このフォルマント周波数と同定した解（根）をｚ_m ＝γ_m ／ｅ^j ^λ ^mで与えるとき、フォルマント周波数ｆm 及びその帯域幅ｂm をそれぞれ、次式
ｆm ＝λm ／２πＴ …（３）
ｂm ＝−ｌｏｇγm ／πＴ …（４）
として求める。なお、素片作成部２２は、このようにして求めたフォルマント周波数ｆm をピッチマーク抽出処理（ステップＳ１０）に与える。
【００２８】
かかる処理に並行して、素片作成部２２は、ステップＳ４−Ｓ５−Ｓ８−Ｓ９において、次の処理を実行する。
【００２９】
まず、素片作成部２２は、ステップＳ４に移行すると、ステップＳ３で得られた線形予測係数をもとに残差信号の抽出（計算）を行う。当該残差信号が得られると、素片作成部２２は、ステップＳ５に進み、得られた残差信号の自己相関ピークを検出することにより、第ｉフレームに係る音声信号のピッチ周波数ｔp を求める。求められたピッチ周波数ｔp は、ステップＳ８の処理で用いられる。
【００３０】
なお、本実施形態においては、線形予測残差波形の自己相関ピークを用いてピッチ周波数ｔp を検出することにしたが、簡易手法として、波形ピークの間隔や、ケプストラム法によるケフレンシー領域でのピッチ周期の抽出などにより、ピッチ周波数ｔp を検出することも考えられる。
【００３１】
さて、ピッチ周波数ｔp が求められると、ステップＳ８に進み、フレーム中央近傍での最大点抽出処理に移行するが、この処理に先立って、ステップＳ７において以下の処理が行われる。すなわち、素片作成部２２は、ステップＳ７において、第ｉフレームのデータＸ_ｉ（ｌ）に対し、フレームごとのピッチマークの細かい変動を除去するため、波形データに対してローパスフィルタを掛ける処理が行われる。
【００３２】
なお、この出力に、ローパスフィルタでの遅延補正を施したデータを、以下、Ｙ_ｉ（ｌ）とする。また、ここで用いるローパスフィルタには、後で波形に基づく処理を行うため、直線位相を保つ非巡回型（ＦＩＲ）のディジタルフィルタが望ましい。因みに、ＦＩＲディジタルフィルタは公知であるため、その記述は省略する。また、ローパスフィルタ処理は、本実施形態では予め一括して行うように説明したが、フレーム毎に行うようにしても何ら差し支えなく、その効果も同一である。
【００３３】
ステップＳ８の説明に戻る。素片作成部２２は、ステップＳ８に進むと、各フレームの中央近傍について、信号波形の最大値（ｍａｘ）と、その時間座標ｔm とを求める。なお、当該最大値は、フレーム中央付近の最大値であって、必ずしも、全フレーム中の最大値とは限らない。通常、該最大値は、フレーム中央付近の極大値と一致する。
【００３４】
素片作成部２２は、最大値の探索範囲を与えるフレーム中央に対する近傍範囲は、ステップＳ５で求めたピッチ周期ｔp を用い、次のように定める。すなわち、本実施形態の場合、素片作成部２２は、フレーム中央の前後０．６ｔp の範囲を探索範囲に採用する。すなわち、最大値（ｍａｘ）は、次式
ｍａｘ＝ｍａｘｉｍｕｍ｛ｙ_n(ｌ)｜ｌ＝W/2−0.6ｔp，…，W/2＋0.6ｔp｝
＝ｙ_n（ｔ_m） …（５）
を満たす。
【００３５】
かくして、最大値（ｍａｘ）とその時間座標ｔm とが求まると、素片作成部２２は、ステップＳ９に進み、定数ａ（ただし、ａは０＜ａ＜１の定数）で定まる区間［ｔm −ｔp ×ａ，ｔm ］内に現れる全ての極大値を検出し、その総数をＭとする。なお、極大値をＰ_k とし、その時間座標をｔ_pk（ｋ＝１，２，…，Ｍ）とする。すなわち、Ｐ_k ＝ｙ_n(ｔ_pk)である。
【００３６】
以上の並列処理により、極大値Ｐ_k 、その時間座標ｔ_pk、フォルマント周波数ｆm のそれぞれが求められたことになる。さて、これら各値が求められると、素片作成部２２は、ステップＳ１０に進み、ピッチマーク抽出処理を行う。このステップＳ１０における処理は、本発明の核心部である。当該ステップＳ１０の処理の詳細を、図６を用いて説明する。
【００３７】
まず、素片作成部２２は、ステップＳ１０１において、パラメータｊを初期設定（ｊ＝１）する。また、素片作成部２２は、ステップＳ１０５において、前述のステップＳ６で求めたフォルマント周波数ｆm を時間値（周期）に換算する。本実施形態では、第１フォルマント周期数（Ｆ１）のみを用いることにし、その逆数ｇを保持する。以上で初期設定が完了する。
【００３８】
次に、素片作成部２２は、ステップＳ１０２に進み、ピッチマーク候補Ｐ_j 、及びその時間座標ｔ_pjを定義する。ここでＰ_j 及びｔ_pjは、最大値ｍａｘのピークから時間軸上でｊ個手前にある極大値のピーク値及びその時間座標である。
【００３９】
この後、素片作成部２２は、ステップＳ１０３において、ｔ_pjとその後続の最大点ｔ_pmとの時間差ｓ_j を求める。なお、当該時間差ｓ_j は、絶対値として求める。
【００４０】
次に、素片作成部２２は、ステップＳ１０４に進み、極大点間の時間差ｓ_j と、第１フォルマント周波数の時間換算値ｇのｊ倍（ｇ×ｊ）との差ε_j を計算する。
【００４１】
ここで、１ピッチ波形の最初の極大点（望ましいピッチマーク）からこの１ピッチ波形内の第ｊ番目極大点までの時間間隔は、図７に示すように、第１フォルマント周波数の逆数（すなわち、第１フォルマント周期）ｇのｊ倍の関係にある。
【００４２】
従って、極大点Ｐ_j に対して求まった誤差が、ある閾値よりも小さい場合は、この極大点が望ましいピッチマーク点か、又はピッチマーク点よりも後続の極大点であることになる（図７のＳ1 〜Ｓ3 ）。
【００４３】
これに対し、極大点Ｐ_j に対して求まった誤差がある閾値よりも大きい場合は、この極大点が望ましいピッチマーク点を通り越して１つ前の１ピッチ波形の最後の極大点まで遡っていることが分かる（図７のＳ4 ）。
【００４４】
そこで、素片作成部２２は、ステップＳ１０６の判定の結果、誤差が閾値よりも小さかった場合（否定結果）には、もう１つ前の極大点をピッチマーク候補としてステップＳ１０２へ戻り、誤差が閾値よりも大きかった場合（肯定結果）には、望ましい極大点を通り越したとみなし、ステップＳ１０７に進み、１つ手前の極大点をピッチマークとする。
【００４５】
なお、素片作成部２２は、ステップＳ１０２〜ステップＳ１０９の計算中に、極大点が探索範囲外に出たときには（ステップＳ１０８で肯定結果）、ステップＳ１１０に移り、探索始点をピッチマークとする。因みに、ステップＳ１０８が成立するのは、例えば有声子音や母音（イ）などのように、第１フォルマント周波数がピッチ周期に近い場合であり、各極大点間隔がピッチ周期となっていることが考えられる。
【００４６】
以上の処理が、前述のステップＳ１０で実行され、ピッチマークＫが求められる。図５の説明に戻る。
【００４７】
素片作成部２２は、このようにしてピッチマークＫが求められると、ステップＳ１１に進み、ピッチマーク前後の音声データを切り出し、ピッチマークがその中央に位置するようにセンタリングする。なお、予備実験の結果、本実施形態では、ここでの切出し長を、男性の最長ピッチ周期に余裕を持たせた１２ｍ秒とする。
【００４８】
素片作成部２２は、当該音声データを切り出すと、これを第ｉフレームについての素片として、ディスク状記憶媒体やメモリカード等の記憶媒体からなる素片辞書２３に順次書き込む（ステップＳ１２）。
【００４９】
この後、素片作成部２２は、ステップＳ１３に進み、全フレームについての処理が終了したかを判定し、終了していなければ、ステップＳ１４においてフレーム番号を更新し、ステップＳ３以降の処理を継続する。一方、素片作成部２２は、ステップＳ１３における判定において、全フレームの処理が終了していることが確かめられた場合、ディスクのクローズ処理等（図示せず）を行って素片作成処理部２０の動作を終了する。
【００５０】
以上の処理動作により、本実施形態に係る音声素片作成装置（方法）又は当該装置（方法）を採用する音声合成装置（方法）では、従来技術に比して、以下の効果が認められる。
【００５１】
まず、従来技術では、ピッチマーク候補となる時間軸座標点の中から望ましいピッチマークを選出するのに、波形まで立ち返ってパラメータ又は探索範囲を設定する必要があった。言いかえれば、各発生音又は各発声音韻、さらには各フレームごとに、その波形に依存したパラメータを行う必要があり、効率的でなかった。
【００５２】
これに対し、本実施形態に係る装置（方法）の場合には、音声波形のフォルマント周波数と波形ピークとの関係を考慮した上で、パラメータの設定処理を、従来のようにヒューリスティックな方法で与えず、その波形のもつ物理的な特徴に基づいて与えるようにしたことにより、発生者及び発生音韻に依存しない安定したピッチマークの特定を実現できる。
【００５３】
以下、かかる効果を図８〜図１０を用いて説明する。ここで、図８は、音声信号の例として、男声音声［ｅ（エ）］のＬＰＣスペクトル包絡図である。図９は、統計的なフォルマント周波数の平均値及び標準偏差を表した図である。なお、図１０（Ａ）は、本実施形態に基づくピッチマーク位置の特定例であり、図１０（Ｂ）は、従来例によるピッチマーク位置の特定例である。
【００５４】
図１０（Ｂ）に示すように、従来方法では、ピッチマーク探索範囲が狭いため（ピーク点の直前に現れる極大点をピッチマーク位置とするため）、望ましいピッチマークまで時間軸にそって遡ることができず、結果として１ピッチ波形中央部の極大点をピッチマークと誤抽出している。このような誤抽出を訂正するためには素片作成後に目視による確認とパラメータの修正が必要となる。
【００５５】
一方、本実施形態のピッチマーク抽出方法では、従来のように、個々の波形に合うように時間軸上のパラメータを目視で合わせるのではなく、音声信号の第１フォルマント周期を用いてピッチマークの抽出を行うので、１ピッチ波形の中央部又は１つ前の１ピッチ波形の極大点を抽出するなどといったピッチマークの誤抽出がなくなる。また、各発声者及び各フレームによるパラメータの変更が必要でなくなり、素片作成作業は格段に効率化できる。
【００５６】
なお、以上の効果は、ピッチマーク点の抽出を、音声信号の有声部分に対してのみ行うものとした場合の効果である。因みに、無声部分については、音声データをそのまま使用する。
（Ｂ）他の実施形態
（１）上述の実施形態においては、簡単のため、ピッチマークの探索基準として、第１フォルマント周波数のみ（より正確には、その逆数で与えられる第１フォルマント周期ｇのみ。以下、同様。）を用いているが、これと同様に高次のフォルマント周波数までも用いてピッチマークの探索を行うことも可能である。
（２）上述の実施形態においては、音声合成処理の直前に窓掛け処理（窓掛け部１４の処理）を実行する場合について述べたが、図１１に示すように、素片作成部２２において窓掛け処理を実行する（すなわち、素片辞書２３に書き込む素片に窓掛けする）ようにしても良い。このようにすれば、音声合成処理時に必要であった１ピッチ毎の窓掛け処理（乗算）が不要となり、単に音声素片を重ね合わせるだけの処理で済むため、音声合成処理時における処理量を大幅に減少させることができる。
【００５７】
さらに、この場合、ＤＳＰなどの高度な演算プロセッサを使用することなく、汎用のＣＰＵを用いて同機能を実現することが可能となる。また、同一の処理能力を有する演算プロセッサを用いる場合には、音声合成処理の大幅な高速化を実現できる。
（３）また、上述の実施形態では、音声合成装置（方法）に本発明に係る素片作成部２２を適用する場合について述べたが、原音声のピッチを変化させて声の高さを変更する、いわゆる、音声ピッチ変換装置のピッチマーク設定処理やその他の音声出力装置における処理に適応しても良い。
【００５８】
【発明の効果】
上述のように、本発明によれば、探索始点に対応する時刻と各極大点に対応する時刻との時間差がフォルマント周期の定数倍に一致する、時間軸上最も手前の極大点をピッチマークに設定するようにしたことより、ピッチマークの探索基準となる探索始点が１ピット波形中のどの位置の極大点であったとしても、時間軸上最も手前の極大点を確実に見つけ出してピッチマークとすることができる。
【００５９】
この結果、発声者や発生音韻に応じて異なる音声波形の特質に依存しない音声素片の作成を実現できる。
【図面の簡単な説明】
【図１】音声素片作成装置（方法）を機能の一部に有する音声合成装置の構成例を示す機能ブロック図である。
【図２】従来の音声合成法の説明に係る図である。
【図３】従来手法に基づくピークマーク抽出結果を示す図である。
【図４】従来例でピッチマークの抽出誤りが生じる場合の例を示す図である。
【図５】素片作成部における処理内容を示す図である。
【図６】ピッチマーク抽出処理内容を示す図である。
【図７】極大点と第１フォルマント周期との関係を示す図である。
【図８】線形予測法により求めたスペクトル包絡線例を示す図である。
【図９】統計的なフォルマント周波数の平均値及び標準偏差の例を示す図である。
【図１０】実施形態例と従来例との違いの説明に係る図である。
【図１１】他の実施形態例を示す図である。
【符号の説明】
１０…合成音生成処理部、１１…テキスト解析部、１２…単語辞書、１３…パラメータ生成部、１４…窓掛け部、１５…合成音声部、２０…素片作成処理部、２１…音声信号入力部、２２…素片作成部、２３…素片辞書。

Claims

各フレームごとに音声信号のフォルマント周波数を抽出するフォルマント周波数抽出工程と、
該フレームの中央近傍に現れる音声信号波形の最大点を検出する最大点検出工程と、
前記最大点を探索始点に定め、該探索始点に対し時間軸上手前に現れる音声信号波形の極大点を検出する極大点検出工程と、
前記探索始点に対応する時刻と各極大点に対応する時刻との時間差を求める極大点間時間差検出工程と、
前記フォルマント周期の定数倍に前記時間差が一致する、時間軸上最も手前の極大点をピッチマークに設定するピッチマーク設定工程と、
設定された前記ピッチマークを中心として、音声波形を切出す音声波形切出工程と
を備えることを特徴とする音声素片作成方法。
各フレームごとに音声信号のフォルマント周波数を抽出するフォルマント周波数抽出手段と、
該フレームの中央近傍に現れる音声信号波形の最大点を検出する最大点検出手段と、
前記最大点を探索始点に定め、該探索始点に対し時間軸上手前に現れる音声信号波形の極大点を検出する極大点検出手段と、
前記探索始点に対応する時刻と各極大点に対応する時刻との時間差を求める極大点間時間差検出手段と、
前記フォルマント周期の定数倍に前記時間差が一致する、時間軸上最も手前の極大点をピッチマークに設定するピッチマーク設定手段と、
設定された前記ピッチマークを中心として、音声波形を切出す音声波形切出手段と
を備えることを特徴とする音声素片作成装置。