JP4759827B2

JP4759827B2 - 音声セグメンテーション装置及びその方法並びにその制御プログラム

Info

Publication number: JP4759827B2
Application number: JP2001091561A
Authority: JP
Inventors: 卓也滝澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-03-28
Filing date: 2001-03-28
Publication date: 2011-08-31
Anticipated expiration: 2021-03-28
Also published as: US20020143538A1; US7010481B2; JP2002287785A

Description

【０００１】
【発明の属する技術分野】
本発明は音声セグメンテーション装置及びその方法並びにその制御プログラムに関し、特に既知の発声内容の音声信号のセグメンテーションをなす音声セグメンテーション方式に関するものである。
【０００２】
【従来の技術】
従来の音声セグメンテーション技術では、音声セグメント境界に特有の特徴パラメータを個々に抽出し、それらの総合判断によってセグメンテーションを行っている。１つのセグメンテーションは１種類の音韻に対応するので、セグメント内では特徴パラメータの変化は少ない。一方、セグメント分割点では、音韻の種類が変化するので、特徴パラメータの変化は大きい。このような事実に基づき、特徴の変化量を基にセグメント分割点を求めることが可能である（以下、従来技術１と呼ぶ）。
【０００３】
また、音声データベース構築のための音声データ収集等の目的においては、入力音声の音素系列が既知であることが多い。このような場合には、セグメンテーションに際して、その音素系列に基づいた情報を利用することができる。この一例として、音素系列が既知である入力音声に対し、特徴パラメータを用いて視察によりラベリングを行ったものを参照音声として、それと同じ音素系列の新規入力音声に対して前記参照音声とのＤＰマッチングによってラベリングを行う方法がある（以下、従来技術２と呼ぶ）。
【０００４】
更に、ＨＭＭ（隠れマルコフモデル）を用いて自動セグメンテーションを行う方法も知られている（以下、従来技術３と呼ぶ）。
【０００５】
【発明が解決しようとする課題】
第１の問題点は、従来技術１においては、特徴パラメータの変化によりセグメント分割点を決定するために、特徴パラメータの変化量が少ない音韻境界においてセグメント分割点を決定するのが困難であるということである。
【０００６】
第２の問題点は、従来技術２においては、予め新規の入力音声と同じ音素系列の音声に視察によるラベリングを行わなければならないために、人手によるコストが高くなるということである。
【０００７】
第３の問題点は、従来技術２において、視察によるラベリングを行った音声と同じ個所にポーズを付加した発声を行う必要があるために、新規音声収録の際に、ポーズ個所を意識して発声しなければならないということである。
【０００８】
第４の問題点は、従来技術２において、視察によるラベリングを行った音声と同じ個所の母音を無声化させて発声を行う必要があるために、新規音声収録の際に、母音の無声化を意識して発声しなければならないということである。
【０００９】
第５の問題点は、従来技術３において、ＨＭＭによる自動セグメンテーションでは、時間的な制約がゆるいために、音韻境界付近での精度が低いということである。特定話者のデータで学習を行うことにより音韻境界付近での精度を向上させることは可能であるが、学習のために特定話者の高精度のセグメント情報が必要となる。
【００１０】
本発明の目的は、既知の入力音声に対してセグメンテーションを行う際に、音声合成により正確なセグメント分割点の保証される音声波形を作成し、ＤＰマッチングを行うことにより、人手によるコスト削減と、特徴パラメータの変化量が少ない音韻境界においてのセグメント分割点の選択をより正確に行うことが可能な音声セグメンテーション装置及びその方法並びにその制御プログラムを提供することである。
【００１１】
また、本発明の他の目的は、時間的な制約が明確な音声合成による波形とのＤＰマッチングを行うことにより、ＨＭＭが不得意とする音韻境界付近の精度を向上させることが可能な音声セグメンテーション装置及びその方法並びにその制御プログラムを提供することである。
【００１２】
【課題を解決するための手段】
本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション装置であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成手段と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション手段とを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーション手段は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する手段と、このポーズ区間と判定された個所において、前記ＤＰマッチングにおける検索パス幅及び検索パス重みを制御する手段と、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する手段と、前記ポーズ境界により区切られた区間のＤＰマッチングをなすＤＰマッチング手段とを有し、
前記ＤＰマッチング手段は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定する手段を有することを特徴とする音声セグメンテーション装置が得られる。
【００１３】
また、本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション装置であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成手段と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション手段と、
別話者音声合成用素片を用いて音声合成に必要な素片のセグメーテーションを、前記音声合成手段及び前記セグメンテーション手段を用いて行わせる手段と、
このセグメンテーション手段により得られた素片を同話者音声合成用素片として格納する手段と、
この格納された同話者音声合成用素片を用いて前記音声合成に必要な素片のセグメーテーションを、前記音声合成手段及び前記セグメンテーション手段を用いて、セグメンテーション境界が収束するまで繰り返し行わせる手段と、
を含むことを特徴とする音声セグメンテーション装置が得られる。
【００１７】
本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成ステップと、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーションステップとを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーションステップは、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定するステップと、このポーズ区間と判定された個所において、前記ＤＰマッチングにおける検索パス幅及び検索パス重みを制御するステップと、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定するステップと、前記ポーズ境界により区切られた区間のＤＰマッチングをなすＤＰマッチングステップを有し、
前記ＤＰマッチングステップは、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定するようにしたことを特徴とする音声セグメンテーション方法が得られる。
【００１８】
また、本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成ステップと、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーションステップとを含み、
別話者音声合成用素片を用いて音声合成に必要な素片のセグメーテーションを、前記音声合成ステップ及び前記セグメンテーションステップを用いて行い、
このセグメンテーションステップにより得られた素片を同話者音声合成用素片として格納し、
この格納された同話者音声合成用素片を用いて前記音声合成に必要な素片のセグメーテーションを、前記音声合成ステップ及び前記セグメンテーションステップを用いて、セグメンテーション境界が収束するまで繰り返し行わせるようにしたことを特徴とする音声セグメンテーション方法が得られる。
【００２３】
本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法をコンピュータに実行させるための制御プログラムであって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成処理と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション処理とを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーション処理は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する処理と、このポーズ区間と判定された個所において、前記ＤＰマッチングにおける検索パス幅及び検索パス重みを制御する処理と、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する処理と、前記ポーズ境界により区切られた区間のＤＰマッチングをなすＤＰマッチング処理とを有し、
前記ＤＰマッチング処理は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定するようにしたことを特徴とする制御プログラムが得られる。
【００２４】
【発明の実施の形態】
以下に、図面を参照しつつ本発明の実施の形態につき説明する。図１は本発明の一実施例の概略ブロック図である。音声合成部３１はセグメンテーション対象となる音声０２と同じ音素系列の発声内容のテキスト０１を入力とし、音声合成を行って合成音声１０４と音韻毎の継続時間長情報１０３とを出力する。
【００２５】
セグメンテーション部３２は合成音声１０４と合成音声の音韻継続時間長情報１０３とを用いて、セグメンテーション対象音声０２のセグメンテーションをなすものである。このセグメンテーション部３２は、特徴パラメータ抽出部１１と、マッチング部１２と、マッチング結果修正部１３と、セグメンテーション結果出力部１４とを有している。
【００２６】
特徴パラメータ抽出部１１は合成音声１０４とセグメンテーション対象音声０２とを入力とし、それぞれの特徴パラメータ１０１及び１０２を一定時間毎に抽出しつつ出力する。マッチング部１２は合成音声１０４の音韻毎の継続時間長情報１０３及び合成音声１０４の特徴パラメータ１０１、更にはセグメンテーション対象音声０２の特徴パラメータ１０２を入力とし、両特徴パラメータ１０１及び１０２を用いてＤＰマッチング処理を行う。このとき、合成音声の音韻毎の継続時間長情報１０３との対応付けをも行って、マッチング結果修正部１３を介して、セグメンテーション結果出力部からラベル情報０３として出力する。
【００２７】
図１に示したマッチング部１２の具体例を図２のブロック図に示している。図２を参照すると、マッチング部１２はＤＰマッチング（前処理）部２１と、ポーズ境界確定部２２と、ＤＰマッチング部２３と、マッチング部処理終了判定部２４とからなっている。ＤＰマッチング（前処理）部２１は、合成音声の特徴パラメータ１０１とセグメンテーション対象音声の特徴パラメータ１０２の全体に対してＤＰマッチングを行う。
【００２８】
具体例には、図３のフローチャートに示す如く、セグメンテーション対象音声のパワー情報を用いて、そのパワーがある閾値よりも小さい連続した区間があれば（ステップＳ１，Ｓ２）、その区間をポーズ区間とし（ステップＳ３）、ポーズ区間内では、ＤＰマッチングの検索パス幅を無制限とする（ステップＳ４）。また、ポーズ区間内では、検索パス毎の重みを一定とする（ステップＳ５）。そして、ＤＰマッチングを行うことになる（ステップＳ６）。しかる後に、音韻継続時間長情報１０３との対応付けを行うことになる（ステップＳ７）。最終的に、マッチング結果が出力される（ステップＳ８）。
【００２９】
ポーズ確定部２２においては、図４のフローチャートに示す如く、ＤＰマッチング（前処理）部２１により出力されたマッチング結果を入力とし（ステップＳ１１）当該マッチング結果のポーズ区間情報とポーズ区間近辺のセグメント分割点情報とを基に、ポーズ境界が決定され（ステップＳ１２）、ポーズ境界情報が出力されることになる（ステップＳ１３）。
【００３０】
ＤＰマッチング部２３はポーズ境界確定部２２にて決定されたポーズ境界により区切られた区間毎のＤＰマッチングをなすものであり、マッチング部処理終了判定部２４により、全ての区間のＤＰマッチング処理が終了したと判定されるまで、区間毎のＤＰマッチングがなされる。図５はこれらＤＰマッチング部２３とマッチング部処理終了判定部２４との動作を示すフローチャートである。
【００３１】
図５を参照すると、ｉをポーズ境界の数（変数）とすると、ｉ＝１とおいて（ステップＳ２１）、先ず第１番目のポーズ境界までのＤＰマッチングがなされる（ステップＳ２２）。このとき、音韻継続時間長情報１０３との対応付けもなされる（ステップＳ２３）。次の（第２番目の）ポーズ境界までのＤＰマッチング及び時間長情報との対応付けがなされる（ステップＳ２５）。最後のポーズ境界までの処理がなされると（ステップＳ２４）、セグメンテーション結果が出力されることになる（ステップＳ２６）。
【００３２】
図６はマッチング部１２におけるマッチング結果を、実際の波形とラベル情報とに対応付けて示したものである。図６（ａ）はＤＰマッチング（前処理）部２１及びポーズ境界確定部２２での処理により得られた結果を、実際の波形とラベル情報とに対応付けたものであり、ラベル情報とは、図６（ａ）の縦線及びその縦線の範囲がどの音素であるかを示す音素記号からなるものである。図６（ａ）の波形中のラベル情報１０２のうち、ポーズ区間のみが必要な情報であって、他のラベル情報は不要なものであって、ここでは廃棄されることになる。
【００３３】
図６（ｂ）はＤＰマッチング部２３でのマッチング結果を示したものであり、図６（ａ）に示したポーズ区間（ＤＰマッチング（前処理）部２１及びポーズ境界確定部２２で確定されたもの）で区切られた区間毎にＤＰマッチングを行った結果のラベル情報である。図中の”１”や”２”の数字は、図５のフローチャートにおける”ｉ”の値に相当しており、第ｉ回目のＤＰマッチングの結果であることを示している。
【００３４】
図７はＤＰマッチング（前処理）部２１におけるマッチング結果を示しており、セグメンテーション対象音声で、ポーズ区間と判定された範囲では、検索パス幅の制限をなくし、重みを一定に制御するので（図３のフローのステップＳ４，Ｓ５参照）、合成音声にポーズが付加されていなければ、セグメンテーション対象音声ポーズ区間に、２つ以上のセグメント分割点が割当てられることはないのである。
【００３５】
ＤＰマッチング部２３におけるＤＰマッチングの際の無声化自動判定方法の動作例について、図８及び図９を用いて説明する。図８においては”ｉ”が無声化し得る母音であるとし、また合成音声の特徴パラメータの無声化し得る母音の先頭時刻ｔ１及び終了時刻ｔ２とを、予め記憶しておき、セグメンテーション対象音声とのDPマッチングを、図９のフローチャートに従って行う。
【００３６】
図９において、合成音声の特徴パラメータのある時刻をｔ、セグメンテーション対象音声の特徴パラメータのある時刻をｔ’とすると、マッチングを終えたあとのある時刻（ｔ，ｔ’）において、合成音声の特徴パラメータの一つ前の時刻（ｔ−１）で、一番それまでの距離が小さかった対象音声の特徴パラメータの時刻（ｔ２’）と、ある時刻（ｔ，ｔ’）までの距離が、メモリ等に格納されている。
【００３７】
最適パス（一番重みが小さくなるパス：図８）の検索は、特徴パラメータのそれぞれの最終時刻（図８の右上）から検索されるが、その際のフローが図９に示すものである。図９において、Ｌ[ ｔ][ｔ’] を、特徴パラメータの一つ前の位置（ｔ−１）で一番それまでの距離が小さかった対象音声の特徴パラメータ位置とし、Ｇ[ ｔ][ｔ’] を、ある時刻（ｔ，ｔ’）における距離とする。ｔ１，ｔ２は前述した如く、無声化し得る母音の先頭及び末尾時刻である。
【００３８】
先ず、ｔとして合成音声の特徴パラメータの最終時刻に設定し、またｔ’として対象音声の特徴パラメータの最終時刻に設定する（ステップＳ３１）。ｔ＝ｔ２かどうかを判定し（ステップＳ３２）、そうであれば、Ｇ[ ｔ２][ｔ’] ＞Ｇ[ ｔ１][ｔ’] を判定する（ステップＳ３３）。そうであれば、ｔ２からｔ１までの時刻をＴとし、Ｌ[ Ｔ][ ｔ’] ＝ｔ’とする（ステップＳ３４）。しかる後に、ｔ’＝Ｌ[ ｔ][ ｔ’] として（ステップＳ３５）、ｔを一つ前の時刻（ｔ−１）とする（ステップＳ３６）。このとき、ｔ＝０であれば（ステップＳ３７）処理終了となり、そうでなければ、再びステップＳ３２に戻って上述の処理を繰り返すことになる。
【００３９】
上述の処理により得られたｔ，ｔ’をプロットしたものが図８の実線で示す最適パスとなり、ステップＳ３３において、”ＮＯ”の判定の場合には、図８の点線で示す方のパスとなり、この場合は無声化しないことを意味する。
【００４０】
以上の処理を要約すると、時刻ｔ１とｔ２における全てのパスの距離を記憶しておき、最適パスを検索するに当り、ｔ２における距離と、対応するｔ１における距離とを比較し、ｔ１における距離値の方が小さい場合には、無声化していると判定し、図８の如く、セグメンテーション対象音声の特徴パラメータのｔ２における最適パスの時刻と同時刻の個所まで、最適パスを繋げる。ｔ２における距離値の方が小さい場合には、通常どおり最適パス検索を行うことになる。
【００４１】
また、上述したマッチングを行う際、”ｉ”が無声化していた場合、合成音声の”ｉ”直前の無声子音”ｓｈ”と、セグメンテーション対象音声の”ｉ”が無声化している”ｓｈ＋無声化したｉ”がマッチングしたことになるが、「無声子音＋無声化母音」と無声子音のみでは、「無声子音＋無声化母音」の方が長いことが多い。そこで、ＤＰマッチングを行う際に、合成音声の無声化し得る母音直前の無声子音区間において、ＤＰマッチングの検索パス幅を広げておく。
【００４２】
再び、図１を参照すると、マッチング結果修正部１３は、マッチング部１２における処理終了後、音韻の種類を参照してセグメント分割点における特徴パラメータの変化量が大きいと判定された境界において、特定の範囲で特徴パラメータの変化量が最大となる時刻にセグメント境界を移動するものである。
【００４３】
図１０は本発明の他の実施例のブロック図であり、図１と同等部分は同一符号にて示している。本例では、音声合成素片用データベース０４と、音声合成用素片作成部３３と、同話者音声合成用素片０５と、別話者音声合成用素片０６とを、図１の構成に追加して設けている。
【００４４】
本実施例では、まず、セグメンテーション対象音声とは別話者のもので作成された音声合成用素片０６を用い、音声合成素片を作成するのに必要なだけの音声波形のセグメンテーションを行う。音声合成素片を作成するのに必要なセグメンテーション結果と音声波形を音声合成素片用データベース０４とする。音声合成用素片作成部３３は、音声合成素片用データベース０４を分析し音声合成用素片を作成する。ここで作成された素片は、セグメンテーション対象音声と同話者の音声合成用素片０５となる。同話者音声合成用素片０５が作成された後は、別話者音声合成用素片０６の代わりに同話者音声合成用素片０５を用いて音声合成を行い、セグメンテーション対象音声に対して際してセグメンテーションを行う。この一巡の処理をセグメンテーション結果がある程度収束するまで繰り返し行う。
【００４５】
図１１は図１０のブロックの動作の詳細を示すフローチャートである。”ｉ”をセグメンテーション対象の音声の数とすると、先ずｉ＝０として（ステップＳ４１）、セグメンテーション対象音声の合成用素片が、同話者音声合成用素片０５にあるかどうかを調べ（ステップＳ４２）、なければ、別話者音声合成用素片０６を用い、またあれば、同話者音声合成用素片０５を用い、音声合成部３１で合成音声１０４と継続時間情報１０３とを作成する（ステップＳ４３，Ｓ４４）。
【００４６】
そして、セグメンテーション部３２において、自動セグメンテーションを行う（ステップＳ４５）。このセグメンテーションの結果を音声合成素片用データベース０４へ格納すると共に、合成素片を作成できるだけの音声とラベルが得られたかどうか、また”ｉ”が素片作成に必要な数になったかどうかを判定し（ステップＳ４６）、そうでなければ、ｉ＝ｉ＋１としてステップＳ４２へ戻り上記処理を繰返す（ステップＳ４７）。ステップＳ４６で”ＹＥＳ”であれば、音声合成用素片作成部３３において、音声合成素片用データベース０４を用いて合成素片を作成する（ステップＳ４８）。
【００４７】
一つ前のセグメンテーション結果との差が所定閾値以内であるかどうかを判定し（ステップＳ４９）、そうでなければ、所定閾値以内に収束するまで上記処理を繰返す（ステップＳ５０）。
【００４８】
上述の各実施例における動作フローの処理は、特に図示しないが、プログラムとして記録媒体に格納しておき、これをコンピュータにより読み取って実行することで、実現できることは明らかである。
【図面の簡単な説明】
【図１】本発明の一実施例のブロック図である。
【図２】図１のマッチング部１２の具体例を示す図である。
【図３】ＤＰマッチング（前処理）部２１の動作フローである。
【図４】ポーズ確定部２２の動作フローである。
【図５】ＤＰマッチング部２３とマッチング部処理終了判定部２４の動作フローである。
【図６】マッチング部１２におけるマッチング結果を、実際の波形とラベル情報とに対応付けて示した図である。
【図７】ＤＰマッチング（前処理）部２１におけるマッチング結果を示す図である。
【図８】ＤＰマッチングの際の無声化自動判定方法の動作例を説明するための図である。
【図９】ＤＰマッチングの際の無声化自動判定方法の動作を示すフローチャートである。
【図１０】本発明の他の実施例のブロック図である。
【図１１】図１０の実施例の動作を示すフロー図である。
【符号の説明】
０１発声内容（テキスト）
０２音声波形（セグメンテーション対象）
０３セグメンテーション結果
０４音声合成素片用データベース
０５同話者音声合成用素片
０６別話者音声合成用素片
１１特徴パラメータ抽出部
１２マッチング部
１３マッチング結果修正部
１４セグメンテーション結果出力部
２１ＤＰマッチング（前処理）部
２２ポーズ境界確定部
２３ＤＰマッチング部
２４マッチング部処理終了判定部
３１音声合成部
３２セグメンテーション部

Claims

音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション装置であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成手段と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション手段とを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーション手段は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する手段と、このポーズ区間と判定された個所において、前記ＤＰマッチングにおける検索パス幅及び検索パス重みを制御する手段と、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する手段と、前記ポーズ境界により区切られた区間のＤＰマッチングをなすＤＰマッチング手段とを有し、
前記ＤＰマッチング手段は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定する手段を有することを特徴とする音声セグメンテーション装置。
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション装置であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成手段と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション手段と、
別話者音声合成用素片を用いて音声合成に必要な素片のセグメーテーションを、前記音声合成手段及び前記セグメンテーション手段を用いて行わせる手段と、
このセグメンテーション手段により得られた素片を同話者音声合成用素片として格納する手段と、
この格納された同話者音声合成用素片を用いて前記音声合成に必要な素片のセグメーテーションを、前記音声合成手段及び前記セグメンテーション手段を用いて、セグメンテーション境界が収束するまで繰り返し行わせる手段と、
を含むことを特徴とする音声セグメンテーション装置。
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーション手段は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する手段と、このポーズ区間と判定された個所において、前記ＤＰマッチングにおける検索パス幅及び検索パス重みを制御する手段とを有することを特徴とする請求項２記載の音声セグメンテーション装置。
前記セグメンテーション手段は、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する手段を、更に有することを特徴とする請求項３記載の音声セグメンテーション装置。
前記セグメンテーション手段は、前記ポーズ境界により区切られた区間のＤＰマッチングをなすＤＰマッチング手段を、更に有することを特徴とする請求項４記載の音声セグメンテーション装置。
前記ＤＰマッチング手段は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定する手段を有することを特徴とする請求項５記載の音声セグメンテーション装置。
前記ＤＰマッチング手段は、前記合成音声の無声化し得る母音直前の無声子音区間において、前記ＤＰマッチングの検索幅を広げるようにしたことを特徴とする請求項１または２記載の音声セグメンテーション装置。
前記セグメンテーション手段は、セグメンテーションを行った波形の特定音韻境界において、特徴パラメータの変化量を参照して前記音韻境界の修正をなす手段を、更に有することを特徴とする請求項１〜７いずれか記載の音声セグメンテーション装置。
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成ステップと、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーションステップとを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーションステップは、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定するステップと、このポーズ区間と判定された個所において、前記ＤＰマッチングにおける検索パス幅及び検索パス重みを制御するステップと、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定するステップと、前記ポーズ境界により区切られた区間のＤＰマッチングをなすＤＰマッチングステップを有し、
前記ＤＰマッチングステップは、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定するようにしたことを特徴とする音声セグメンテーション方法。
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成ステップと、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーションステップとを含み、
別話者音声合成用素片を用いて音声合成に必要な素片のセグメーテーションを、前記音声合成ステップ及び前記セグメンテーションステップを用いて行い、
このセグメンテーションステップにより得られた素片を同話者音声合成用素片として格納し、
この格納された同話者音声合成用素片を用いて前記音声合成に必要な素片のセグメーテーションを、前記音声合成ステップ及び前記セグメンテーションステップを用いて、セグメンテーション境界が収束するまで繰り返し行わせるようにしたことを特徴とする音声セグメンテーション方法。
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーションステップは、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定するステップと、このポーズ区間と判定された個所において、前記ＤＰマッチングにおける検索パス幅及び検索パス重みを制御するステップとを、更に有することを特徴とする請求項１０記載の音声セグメンテーション方法。
前記セグメンテーションステップは、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定するステップを、更に有することを特徴とする請求項１１記載の音声セグメンテーション方法。
前記セグメンテーションステップは、前記ポーズ境界により区切られた区間のＤＰマッチングをなすＤＰマッチングステップを、更に有することを特徴とする請求項１２記載の音声セグメンテーション方法。
前記ＤＰマッチングステップは、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定する手段を有することを特徴とする請求項１３記載の音声セグメンテーション方法。
前記ＤＰマッチングステップは、前記合成音声の無声化し得る母音直前の無声子音区間において、前記ＤＰマッチングの検索幅を広げるようにしたことを特徴とする請求項９または１０記載の音声セグメンテーション方法。
前記セグメンテーションステップは、セグメンテーションを行った波形の特定音韻境界において、特徴パラメータの変化量を参照して前記音韻境界の修正をなすステップを、更に有することを特徴とする請求項９〜１５いずれか記載の音声セグメンテーション方法。
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法をコンピュータに実行させるための制御プログラムであって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成処理と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してＤＰマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション処理とを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーション処理は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する処理と、このポーズ区間と判定された個所において、前記ＤＰマッチングにおける検索パス幅及び検索パス重みを制御する処理と、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する処理と、前記ポーズ境界により区切られた区間のＤＰマッチングをなすＤＰマッチング処理とを有し、
前記ＤＰマッチング処理は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定するようにしたことを特徴とする制御プログラム。