JPH0193795A

JPH0193795A - 音声の発声速度変換方法

Info

Publication number: JPH0193795A
Application number: JP62250707A
Authority: JP
Inventors: Toru Tsugi; 徹都木; Hisao Kuwabara; 尚夫桑原
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1987-10-06
Filing date: 1987-10-06
Publication date: 1989-04-12
Anticipated expiration: 2012-05-21
Also published as: JP2612868B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分！ｌ！？］本発明は、放送、映画、音楽等において、人間の音声を
処理する場合の発声速度を制御する音声の発声速度変換
方法に関する。

゛　［発明の概要］本発明は人の音声を一時髭録し、その発生速度を変化さ
せて、再び音声として出力する技術に関するもので、入力音声をへ／Ｄ変換した後、有声音区間についてその
ピッチ周波数を抽出して各ピッチ間隔で分割し、その内
おもに定常母音区間についてピッチ単位で間引きまたは
繰り返しを行うと共相、無音区間、無声子音区間につい
ても間引きまたは繰返しを行って接続し、これをＤ／Ａ
変換することにより、原音声の音韻性や自然性を良好に保ったまま、発声速度
を自由に変換できるようにする方法である。

［従来の技術］この種の技術としては、古典的な例として音声をアナロ
グテープレコーダに録音し、再生スピードを変化させる
方法がある。この場合、発声速度のみならず、ピッチ周
波数やホルマント周波数も一様に変化する。すなわち、
再生スピードを録音時のＲ倍にすると、発声速度がＲ倍
になると共に、ピッチおよびホルマント周波数も全てＲ
倍となる。ここで、ピッチ周波数はその全体的な変化に
よって音声の高低を決定し、局所的な変化によって、ア
クセント等、音声の抑揚を決定するものである。また、
ホルマント周波数は音声の個人性や音韻性を定めるもの
である。

これに対し、Ｒ倍になったピッチおよびホルマント周波
数を元に戻すには、ＢＢＤなどを用いてクロック周波数
Ｆで取込んだ音声波形を、Ｆ／Ｒなるクロック周波数で
読出せばピッチおよびホルマント周波数が１７Ｒ倍とな
りもとに戻る。ただし、ＢＢＤに取込む前に、適当な時
間窓と周期を用いて波形を間引いたり、繰り返したりし
て、過不足のないようにする。

また、デジタル信号処理である、分析・合成法を用いる
方式も提案されている。分析によって得られた調音パラ
メータと残差波形を、時間的に適当な単位で間引いたり
、繰返しながら合成すれば、ピッチおよびホルマント周
波数には変化を与えずに発声速度を制御することができ
る。

［発明が解決しようとする問題点］しかしながら、テープレコーダの再生スピードを変化さ
せるだけの方法は簡単ではあるが、ピッチやホルマント
周波数も変化してしまう。ピッチやホルマント周波数が
変化すると、個人性に影響があり、更に変化量が多い場
合には音韻性が劣化し、非人間的な声となる。

またピッチやホルマント周波数を元に戻す方式において
も、その処理単位が、ブロック単位であるため、波形の
連続性を完全に保つことが難しく、音質劣化が著しい。

さらに、分析・合成方法においても、出力音声がパラメ
ータ制御による合成音であるためある程度の音質劣化は
避けられない。

また、従来の方式では、処理が全ての区間で一様である
が、実際の音声では子音の種類によってはその持続時間
が発声速度に殆ど依存せず、この部分を母音区間と同じ
比率で時間伸縮したのでは、会話音声としての自然性が
劣化する。

ざらにｔやｋのような破裂性の子音は持続時間が短いの
で、ブロック単位で間引いた場合に消失する場合がある
。

そこで、本発明の目的は上述した従来の問題点を解消し
、間引きや繰り返しの単位をピッチ単位とすることで波
形の連続性を保ち、かつ原音声の波形をそのまま用いる
ことで音質の劣化を防ぐことを可能とする音声の発声速
度変換方法を提供することにある。

本発明の他の目的は母音区間、有声子音区間、無声子音
区間、無音区間を別々の比率で時間伸縮し、音声として
の自然性を維持することが可能な音声の発声速度変換方
法を提供することにある。

［問題点を解決するための手段］そのために本発明では入力音声波形から、母音区間、有
声子音区間、無声子音区間、無音区間を抽出し、有声子
音区間と母音区間とで構成される有声音区間からピッチ
周期を抽出することによって有声音区間をピッチの間隔
で分割し、母音区間および無音区間における発声時間長
の伸縮比率を大とし、かつ有声子音区間および無声子音
区間の伸縮比率を小とする各々の区間の伸縮比率を定め
、母音区間および有声子音区間では定められた伸縮比率
に基づきピッチ間隔で波形の間引または繰り返しをする
ことによって発声時間長を伸縮し、無声子音区間および
無音区間では定められた伸縮比率に基づき区間毎に発声
時間長の伸縮を行なった後各々の区間を接続して新たな
音声波形とすることを特徴とする。

［作　用］以上の構成によれば、入力音声を母音区間、有声子音区
間、無声子音区間、無音区間に分離し、それぞれの区間
毎に人間の発声特徴に応じた変換方法を用いて発声速度
を変換する。

すなわち、有声音区間では音声の間引きや繰り返しの単
位をピッチ単位とし、かつ原音声の波形をそのまま用い
る。

また、子音区間においても、それぞれの子音の性質によ
り伸縮の方式を切替える。

［実施例］以下、図面に示す実施例に基づき本発明の詳細な説明す
る。

第１図は、本発明の一実施例に係る発声速度変換システ
ムのブロック図を示す。図において、２は分析部、４は
制御部、６は波形接続部をそれぞれ示し、各部は電子計
算機内に構成され、ＲＯＭ　。

ＲＡＭあるいはメモリディスク等のメモリを併用しなが
ら発声速度変換の処理が実行される。

Ａ／Ｄ変換されて標本化された音声波形は分析部２へ入
力し、有音と無音および有声音と無声音の判別、さらに
は有声音については線形予測分析がなされ、ピッチ周期
、予測係数、共振周波数、共振の帯域幅が求められる。

次に、制御部４においては、発声速度を変更し、波形接
続部６では発声時間長を伸縮して波形の接続を行なう。

上述した一連の発声速度変換の処理を終了すると、合成
された音声波形をＤ／Ａ変換して出力音声とする。

上記各部における処理の詳細を第２図に示すフローチャ
ートを参照しながら説明する。

変換ビット数１２ｂｉｔ、標本化周波数１５ｋＨｚでＡ
／Ｄ変換された音声は、まず、分析部２において、ステ
ップＳ１で音声パワーの有無に基づいて有音区間と無音
区間の判別が行われる。次にステップＳ２では有音区間
の標本値に対してＰＡＲＣＯＲ分析と７交さ分析とを行
い、無声子音区間と有声音区間との判別を行う、これは
、１次のＰＡＲＣＯＲ係数を参照して入力周波数の高域
成分の割合を調べたり、平文さ数を調べることによって
行なう。すなわち、無声子音のエネルギーは高周波領域
にまで分布しているので、高域成分の割合および高周波
になると多くなる；交さ数を調べることによって無声子
音と有声音とを判別する。なお、ＰＡＲＣＯＲ分析と平
文さ分析の両方を用いて判別を行なうのは、判別を確実
なものとするためである。

上記ステップＳ１およびＳ２で判別された無音区間の時
間および無声子音区間の波形は、それぞれステップＳ１
５およびＳ１６においてそのままＲＡＭあるいはメモリ
ディスク等に記憶される。

次に、ステップＳ３では有声音区間における音声波形の
標本値を音声の生成モデルに基づくいわゆる声道逆フィ
ルタに通すことによって線形予測分析を行なう。この線
形予測分析によって線形予測係数と残差波形を得る。得
られた残差波形はステップ５１７においてＲＡＭあるい
はメモリディスク等に記憶される。

ステップＳ４ではステップＳ３で得られた残差波形の相
間における周期と原音声波形のピークの間隔とから仮の
ピッチ周期を求める。

次に、ステップＳ５においては、第３図に示すように波
形のレベルが急に大きくなる点の直前をピッチの開始点
とし、上記で求めたピッチ周期に基づき次のピッチの開
始点の１標本手前を終了点として１つのピッチ区間を定
める。

ステップＳ６では上記で求めた１ピッチ区間の中間点を
分析窓の中心として、２０ｍ５ｅｃ程度の窓掛けを行な
う。この窓掛けにより有限個の標本値による短時間スペ
クトル分析が可能となり、この窓掛はデータを基に再び
線形予測分析を行なう。すなわち、標本値の窓掛けを行
なったデータを基に相関関数を求めることによって、線
形予測係数α１〜α、を算出する。ここで、ｐは線形予
測分析の次数であり、一般に男性の声に対してはｐ＝−
１４、女性の声に対してはｐ＝１０程度を用いる。

さらに、ステップ３１８で、以下に示す（１）式を満足
するＺの根ｚ、〜ｚｐを求め、各々の根２１に対応して
（２）　、　（３）式により共振周波数Ｆ、とその帯域
幅Ｂｌを求める。

１　＋　ａ　、ｚ−’十ａ　２ｚ−２＋−＋　ａ　、ｚ
す＝０　　　　（１）Ｆ１＝Ｆｓ／（２π）・ａｒｇ（
ｚｔ）　　　　　　［Ｈｚｌ　　（２）Ｂ＋　＝Ｆｓ／
π・ｆｌｏｇ（ｌｚ＋ｌ　）　ｌ　　　　　　　［Ｈｚ
ｌ　　（３）なおＦｓは音声の標本化周波数である。

また、ステップＳ７はこの１ピッチ区間内のサンプル値
の自乗和をピッチ区間長で割った値を正規化パワーと定
義し、ピッチ区間の長さと共にＲＡＭあるいはメモリデ
ィスク等に記録する。

処理区間を１ピッチ分だけ後へずらし、上述した一連の
処理を行い、これらの操作を有声区間が終るまで繰返す
。

（２）式で求めた共振周波数の時間軌跡は、定常母音部
では連続的でかつ緩やかに変化するが、有声子音部では
不安定に変化しかつ帯域幅は母音部よりも広い。また正
規化パワーの時間軌跡においては有声子音部で一時的か
つ急激な減少が起こることが多い。そこで、ステップＳ
８では、これらの特徴を用いて、母音部と有声子音部を
分離し、各ピッチ毎にその情報をＲＡＭあるいはメモリ
ディスク等に記録する。

制御部４では、分析部２において得られた、無音区間長
や一連のピッチ周期を基に、適当な配分により無音区間
長を伸縮したり、有声区間の各々のピッチを繰返すかま
たは間引くことにより、発話の時間長即ち発声速度が変
更された新しいピッチ周期列を作る。

ここで分析部２において次のような結果が得られたとす
る。

全発声時間長　　　　　　　　　　Ｔ　ａ、１母音部分
の時間長の総和　　　　　ＴＶ有声子音部分の時間長の
総和　　　Ｔ　ｅｖ無声子音部分の時間長の総和　　　
Ｔｅｒｌ無音部分の時間長の総和　　　　　ＴまただしＴａ＋＋−Ｔｖ　＋Ｔｃｖ＋　Ｔｅｎ　＋　Ｔｔ　　　
　　　（４）ここで発声速度をＲ倍にしたければ、Ｔ、
、、を１／Ｒ倍にすれ゛ばよい。

ところが、実際の音声家は、発声速度が変化してもＴｃ
ｎやＴｃｖはあまり変化せず、主にＴ、やＴｖが変化す
る。そこで、Ｔ１とＴＶについては１の重みで、Ｔｃｎ
とＴｃｖについてはＷ（ただしＷく１）の重みでその長
さを変更し、その和’ｒ’、、。

がＴａ１ｌの１７Ｒ倍になるようにする。すなわちステ
ップＳ９において、変更後の各部の時間長を次のように
する。

Ｔ　’、、、−γ。・Ｔ−＋＋　　　　　　　　　　　
　（５）ｒ　’ｖ　　＝　ｙ　ｒ”Ｔ　ｖ　　　　　　
　　　　　　　（８）Ｔ′ｅｖ＝γ２・Ｔｃｖ（７）Ｔ′ｃｎ＝γ２・Ｔ　ａｎ　　　　　　　　　　　　　
（ａ）Ｔｏ、　＝γ１・Ｔ　＊　　　　　　　　　　　
　　（９）ただし　　γ。−１／　Ｒ（１０）波形接続部６では制御部４で決定された比率により各部
分の発声時間長を伸縮して接続する。

母音区間、有声子音区間においてそれぞれの発声時間長
を７１倍、１２倍にするには、以下のように適当な割合
でピッチ単位の波形を適宜間引くかまたは繰り返して接
続する。

すなわち、ステップ５１０およびＳｌｌで、ある母音区
間または有声子音区間の発声時間長を１倍するとして、
γ〉１ならば、１／（γ−１）ピッチにつき１ピツチの
割合で同じピッチ波形を繰返し、γく１ならば、１／（
１−γ）ピッチにつき１ピツチの割合で間引く。第４図
にγ＝１．５、およびγ＝　０．６６７の場合の例を示
す。同図から明らかなように、γ＝１．５の場合は２ピ
ツチに１回ピッチ区間２および４を繰り返えす。また、
γ；０．８６７の場合、３ピツチに１回ピッチ区間３お
よび６を間引く。

なお、有声子音区間のうち原音声の区間長が２５ｍ５ｅ
ｃ以下のものについては消音／γ／の可能性が高く、こ
の区間の長さは発声速度には殆ど依存しないので伸縮は
行わない。

このようにすれば、概ね原音声の１倍の発声時間長とす
ることができ、かつ聴感的にも違和感がない。

なお、−殻内にピッチ区間を間引くかまたは繰返した波
形においては、あるピッチ区間の終了点と次のピッチ区
間の開始点の間は不連続であるので、接続点の前後数サ
ンプルのデータを用いて最小自乗法により３次曲線を用
いた近似を行い、連続的に接続する。

無声子音区間においてはステップＳ１２で原音声の区間
長しが６０ｍ５ｅｃより短いものについては破裂性また
は破擦性の子音の可能性が高いので、それ自身の伸縮は
行わない。

Ｌが８θミリ秒より大きいものについてはγ２〈１なら
ば区間の開始点および終了点から中間点に向かって、そ
れぞれＬ・（１−γ２）／２に相当する長さを省く。２
≧γ２〉１ならば中間点の前後し・（γ２−１）に相当
する長さの波形を切り出し原波形の中間点の間に挿入す
る。この様子を第５図に示す。γ２〉２の場合は、全区
間を繰返す操作を適宜加える。

無音区間においては、ステップＳ１３で、基本的には無
条件にその区間長を１１倍して新たな区間長とするが、
無声子音の直後の３０ミリ秒以下の無音部は、無声破裂
子音の気音部の可能性が高いので例外としてその長さを
不変とすると共に、無声子音の直前の無音部を短くする
場合には３０ミリ秒以下にならないように制限する。

なお、以上の処理で各部分に生じた伸縮時間長の誤差は
、それぞれの区間の近傍の無音区間または母音区間の長
さを伸縮して修正する。

ひとつの区間の処理が終了したならば、ステップＳ１４
において、その開始部および終了部に１ミリ秒程度の立
上がりおよび立下がりの窓をかけ、前の区間と接続し、
次の区間の処理に穆る。

なお、長時間にわたる連続音声の全発声時間長を基に処
理を行うのは困難であるので、１００〜２００ミリ秒前
後の比較的長い無音区間を検出したならば、その中間点
までをひとつのブロックと考え、まずこの１ブロツクの
中で上記の一連の時間伸縮処理を行った後、つぎのブロ
ックの処理に移る。ただし、原音声が比較的早口の場合
には、ブロック分割を判断するための無音区間長を５０
ミリ秒程度に狭めた方がよい。

最終的に合成された音声をＤ／＾変換して、出力音声と
する。

なお、分析部２における、ピッチ周波数抽出法や、有声
／無声判別法、有声子音抽出法などは、ここで述べたも
のに限らず、それらが精度良く抽出できる方法なら何で
も良い。

［発明の効果］以上説明したように、本発明によれば予め入力音声を母
音区間、有声子音区間、無声子音区間、無音区間に分離
し、それぞれの区間毎に人間の発声の特徴に応じた変換
方法を用いて発声速度を換えるので、音声としての自然
性が高い。

また、有声音区間では音声の間引きや繰返しの単位をピ
ッチ単位とすることで波形の連続性を保ち、かつ原音声
の波形をそのまま用いることで音質の劣化が殆どない。

さらに子音区間においても、それぞれの子音の性質によ
り伸縮の方式を切替えることができるので、持続時間の
短いものが脱落することなどもなく、明瞭度の低下を最
小限に抑えることができる。

【図面の簡単な説明】

第１図は本発明の一実施例に係るシステムのブロック図
、第２図は本発明の一実施例を示すフローチャート、第３図は実施例におけるピッチ区間の定め方を説明する
ための波形図、第４図は実施例における波形の繰り返しおよび間引きを
説明するための波形図、第５図は実施例における無声子音部の波形の伸縮を説明
するための波形図である。２・・・分析部、４・・・制御部、６・・・波形制御部。

Claims

【特許請求の範囲】入力音声波形から、母音区間、有声子音区間、無声子音
区間、無音区間を抽出し、前記有声子音区間と前記母音区間とで構成される有声音
区間からピッチ周期を抽出することによって該有声音区
間を当該ピッチの間隔で分割し、前記母音区間および前記無音区間における発話時間長の
伸縮比率を大とし、かつ前記有声子音区間および前記無
声子音区間の前記伸縮比率を小とする前記各々の区間の
前記伸縮比率を定め、前記母音区間および前記有声子音
区間では前記定められた伸縮比率に基づき前記ピッチ間
隔で波形の間引または繰り返しをすることによって発声
時間長を伸縮し、前記無声子音区間および前記無音区間では前記定められ
た伸縮比率に基づき当該区間毎に発声時間長の伸縮を行
なった後前記各々の区間を接続して新たな音声波形とす
ることを特徴とする音声の発声速度変換方法。