JPH0193799A

JPH0193799A - 音声ピッチ変換方法

Info

Publication number: JPH0193799A
Application number: JP62250706A
Authority: JP
Inventors: Toru Tsugi; 徹都木; Hisao Kuwabara; 尚夫桑原
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1987-10-06
Filing date: 1987-10-06
Publication date: 1989-04-12
Anticipated expiration: 2012-05-21
Also published as: JP2612867B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、放送、映画、音楽等における音声処理におい
て、音声の高低やアクセント、イントネーション等を変
化させたり、ビブラートを付加したりするなど、音声の
ピッチ周波数を制御する音声ピッチ変換方法に関する。

［発明の概要］本発明は人の音声を一時記録し、そのピッチの周期を変
化させて、再び音声として出力する技術に関するもので
、入力音声をＡ／Ｄ変換した後、有声音部分についてその
ピッチ周波数を抽出し、波形を各ピッチ間隔で分割し、
各ピッチの周期を伸縮し、これらを発話時間長に変化が
ないように接続し、さらにその波形をフーリエ変換し、
周波数領域においてピッチの変更によって生じた歪成分
を軽減せしめ、逆フーリエ変換によって時間領域に戻し
た後、これをＤ／＾変換することにより、原音声の音韻
性や自然性を良好に保ったまま、声の高さやイントネー
ションを自由に変換できるようにする方法である。

［従来の技術］この種の技術としては、古典的な例として音声をアナロ
グテープレコーダに録音し、再生スピードを変化させる
方法がある。この方法の場合、ピッチ周波数のみならず
、ホルマントの周波数も含めた全周波数帯域が一様に変
化すると共に、発話時間長も同時に変化する。

すなわち、再生スピードを録音時のＲ倍にすると、ピッ
チおよびホルマントの周波数は全てＲ倍となり、発話時
間長は１／Ｒ倍となる。

ここで、ピッチは音声の高低を与えたり、その時間的変
化によってアクセントやイントネーションを特徴づける
ものであり、また、ホルマントは音声の音韻性を特徴づ
けるものであり、大幅な個人差を有する。

上記従来例に対して、デジタル技術を用い、発話時間長
を変化させない方法も開発されている。

すなわち、サンプリング周波数Ｆで書込んだ音声波形を
、ＦＸＲなるサンプリング周波数で読出せば、ピッチお
よびホルマント周波数はＲ倍となる。この際、適当な時
間窓と周期を用いて波形を間引いたり、繰り返したりす
れば、発話時間長を原音声と同じに保つことができる。

このような装置は「ハーモナイザー」などと呼ばれ、音
響効果装置として一般に使用されている。

［発明が解決しようとする問題点］しかしながら、上述したいずれの従来例においても、ピ
ッチ周波数を変化させた場合、同時にホルマント周波数
も変化してしまうことが避けられない。

ホルマント周波数が変化すると、音声における個人差が
不明瞭となり、さらに変化量が多い場合には音韻性が劣
化し、非人間的な声となる。従って、上述したような効
果を積極的に利用するのでない限り、ピッチ周波数の変
化に伴うホルマント周波数の変化が有害であるという問
題点があった。

また、従来の音声処理装置では、音声の高低を制御する
ことが主であるから、ピッチ周波数の長時間にわたる平
均の変化を制御することは容易であるが、イントネーシ
ョンのような短時間内のピッチ周波数の変化を制御でき
ないという問題点があった。

そこで本発明の目的は上述した従来の問題点を解消し、
原音声のピッチ周波数を大きく変化させてもホルマント
周波数を不変とすることおよび変化に伴う周波数歪を軽
減することによって、個人性や音韻性を保ち、人間の音
声としての自然性を損なわずに音声の高低やアクセント
等を制御することが可能な音声ピッチ変換方法を提供す
ることにある。

本発明の他の目的は、短時間内においてもピッチ周波数
の制御を可能とすることによってイントネーションやビ
ブラート等の強調、付替が自由に行なうことのできる音
声ピッチ変換方法を提供することにある。

［問題点を解決するための手段］そのために本発明では入力音声から有声音区間を抽出し
、有声音区間からピッチ周期を抽出し、抽出したピッチ
周期に対応した各々のピッチ区間において線形予測係数
を求め、線形予測係数を用いてスペクトル包絡を算出し
、各々のピッチ区間の波形を線形予測係数を援用するこ
とによって伸縮し、伸縮された波形を入力音声の発声時
間長と等しくなるよう各々のピッチ区間の波形を間引く
かまたは繰り返すことによって接続し、接続された波形
において線形予測係数を求め、線形予測係数を用いてス
ペクトル包絡を算出し、波形の伸縮前に算出したスペク
トル包絡と伸縮後に算出したスペクトル包絡との差を歪
成分とし、接続波形をフーリエ変換によって周波数領域
に変換し、周波数領域の各々の周波数成分から歪成分を
修正した後、逆フーリエ変換によって波形を時間領域に
戻し、戻された波形の平均ピッチ周期に対応した櫛形ろ
波を波形に施した後、前後の無声音区間または無音区間
と接続し、新たな音声波形とすることを特徴とする。

［作　用１以上の構成によれば、周波数スペクトル包絡を原音声の
ものに保ったまま、換言すれば、原音声のホルマント周
波数を変化させずにピッチ周波数を変更することができ
る。

また、各ピッチ区間毎にピッチ周期を変えることができ
る。

［実施例］以下、図面に示す実施例に基づき本発明の詳細な説明す
る。

第１図は、本発明の一実施例に係るピッチ周波数変換シ
ステムのブロック図を示す。図において、２は分析部、
４はピッチ周波数制御部、６は波形接続部、８は歪修正
部をそれぞれ示し、各部は電子計算機内に構成され、Ｒ
ＯＭ　、　ＲＡＭあるいはディスクメモリ等のメモリを
併用しながらピッチ周波数変換の処理が実行される。　
Ａ／Ｄ変換されて標本化された音声波形は分析部２へ入
力し、有音と無音および有声音と無声音の判別、さらに
有声音についてはピッチ区間が定められる。

次にピッチ周波数制御部４においては、分析部２で得ら
れた各ピッチ区間について所望の変更を加え、新たなピ
ッチ周期列を計算し、各ピッチ毎に新たなピッチ周期に
応じて波形を伸縮する。これにより、音声の高低、イン
トネーション等が制御される。

波形接続部６ではピッチ周波数制御部４で変更された各
ピッチの波形を発話時間長に変化が無いように適宜間引
くかまたは繰り返すことによって接続する。

歪修正部８では波形接続部６で得られた有声音区間での
合成波形に対して、その短時間スペクトル包絡を順次求
め、これを原音声のスペクトル包絡と同じになるよう修
正する。

上述した一連の有声音に対するピッチ周波数変換の処理
を終了すると、無声音区間および無音区間を接続し、次
の有声音区間の処理に移る。最終的に合成された音声波
形をＤ／Ａ変換して出力音声とする。

上記各部における処理の詳細を第２図に示すフローチャ
ートを参照しながら説明する。

誉換ビット数１２ｂｉｔ、標本化周波数１５ｋＨｚでＡ
／Ｄ変換された音声は、まず、分析部２におけるステッ
プＳ１で音声パワーの有無に基づいて有音区間と無音区
間の判別が行われる。次にステップＳ２では有音区間の
標本値に対してＰＡＲＣＯＲ分析と７交さ分析とを行い
、無声子音区間と有声音区間との判別を行う、これは、
１次のＰＡＲＣＯＲ係数を参照して入力周波数の高域成
分の割合を調べたり、平文さ数を調べることによって行
なう。すなわち、無、声子音のエネルギーは高周波領域
まで分布しており、高域成分の割合および高周波になる
と多くなる平文さ数を調べることによって無声子音と有
声音とを判別する。なお、ＰＡＲＣＯＲ分析と平文さ分
析の両方を用いて判別を行なうのは、判別を確実なもの
とするためである。

上記ステップＳ１およびＳ２で判別された無音区間の時
間および無声子音区間の波形は、それぞれステップＳ２
１およびＳ２２においてそのままＲＡＭあるいはメモリ
ディスク等に記憶される。

次に、ステップＳ３では有声音区間における音声波形の
標本値を音声の生成モデルに基づくいわゆる声道逆フィ
ルタに通すことによって線形予測分析を行なう。この線
形予測分析によって線形予測係数と残差波形を得る。得
られた残差波形はステップＳ２３においてＲＡＭあるい
はディスクメモリ等に記憶される。

ステップＳ４ではステップＳ３で得られた残差波形の相
間における周期と原音声波形のピークの間隔とから仮の
ピッチ周期を求める。

次に、ステップＳ５においては、第３図に示すように波
形のレベルが急に大きくなる点の直前をピッチの開始点
とし、上記で求めたピッチ周期に基づき次のピッチの開
始点の１標本手前を終了点として１つのピッチ区間を定
める。

ステップＳ６では上記で求めた１ピッチ区間の中間点を
分析窓の中心として、２０ｍ５ｅｃ程度の窓掛けを行な
う。この窓掛けにより有限個の標本値による短時間スペ
クトル分析が可能となり、この窓掛はデータを基に再び
線形予測分析を行なう。すなわち、標本値の窓掛けを行
なったデータを基に相関関数を求めることによって、線
形予測係数α、〜α２を算出する。ここで、ｐは線形予
測分析の次数であり、一般に男性の声に対してはｐ＝１
４、女性の声に対してはｐ＝１０程度を用いる。

ステップＳ７．Ｓ８では上記１ピッチ区間の標本値の自
乗和をピッチ区間長で割った値を正規化パワーと定義し
、ピッチ区間の長さ、線形予測係数と共にＲＡＭあるい
はメモリディスク等に記憶する。

上記ステップ５６〜Ｓ８の１ピッチ区間についての処理
を終了すると、処理区間を１ピッチ分だけ後へずらし、
次のピッチ区間の処理を行ない、これらの操作を有声区
間が終るまで繰返す。

ピッチ周波数制御部４では、まずステップＳ９において
、分析部２で得られた一連のピッチ周期の各々に所望の
変更を加え、新たにピッチ周期列を算出する。すなわち
、ある有声音区間内において、初めのピッチからｎ番目
のピッチの周期ｐｎ、ピッチ周波数をＦｒ１−１／Ｐｒ
１とし、また全ピッチ数をＬとする。さらに、平均ピッ
チ周波数Ｆ　ＡＶＥを、人間の音声における高低の知覚
機構を考慮して全ピッチ周波数の相乗平均で定義する。

すなわち、Ｆ　ＡＶＥ　−ＣＦ　Ｉ　Ｘ　Ｆ　２　Ｘ　””　Ｆ　
Ｌ）”’＝（Ｐｔ　ＸＰ２　ｘ・・・・・’ＰＬ）−’
八　　　（１）このとき、例えば、音声の高低を制御す
るために平均のピッチ周波数をＲ倍にしたければ、（１
）式より全てのピッチ周期を１／Ｒ倍にすればよい。

また、アクセントのように抑揚を変化させる場合には、
各ピッチ周期毎に異なる比率で周期を伸縮しなければな
らない。そのために、第４図に示すように、各ピッチ周
期毎にｎ番目のピッチ周波数ＦｌｌをＲｎ倍する。

また、第５図に示すように原音声の平均ピッチ周波数を
中心として抑揚を強調あるいは抑圧する場合は、Ｒｎと
して（２）式に示すものを用いればよい。すなわち、Ｒｎ＝　（Ｆｎ／ＦＡＶＥ　）　ｃ−電このときＣ＞１
ならば抑揚の強調、０≦ｃ＜１ならば抑揚の抑圧となる
。

次に、ステップＳＩＯにおいて、各ピッチ毎の波形をス
テップＳ９で得た新しいピッチ周期に対応させて伸縮す
る。すなわち、原音声におけるある１ピッチ区間の標本
数をｋとし、変更されたピッチ区間長に相当する標本数
をに′とすると、ピッチ周期を縮めた場合には波形をピ
ッチ区間の開始点からに′番目の標本値までで打ち切り
、ピッチ周期を伸ばした場合には分析部２で得られた線
形予測係数α、〜α、を用いて、（３）式に示す如くｍ
＝に＋　１番目からｍ＝に’番目までの標本値を求め後
続の波形を得る。

ｘ　（ｍ）＝ａ　、　　ｘ　（ｍ−１）＋ａ＊　　ｘ　
（ｍ−２）÷・・・・・・＋αｐ　ｘ　（ｍ−ｐ）　　
　　　　　　　　　　（３）ただし、人間の音声の特徴
を考慮して後続部は指数的に減衰する窓係数を掛ける。

ステップ３１１では、ステップＳ７で得た正規化パワー
の調整を行なう。すなわち、ピッチ周期を変更すると、
一般に前述した正規化パワーも変化するのでステップＳ
７で得た値と同じになるよう各標本値を定数倍する。

波形接続部６では、まずステップＳ１２で発話時間長の
比較を行なう。すなわち、原音声の発話時間長をＴ、ｎ
番目のピッチ区間のピッチ周期をＰｎとし、ピッチ周波
数変更後のそれらをそれぞれＴ’　、　Ｐｒ１°とする
と、Ｔ−Ｐ、＋Ｐ２＋・・・・・・＋ｐｔ、　　　　　　　
（４）Ｔ’　　−Ｐ、ｌ＋Ｐ２°＋・・・・・・＋ｐＬ
ｌ　　　　　　（５）と現わされる。一般にピッチ周波
数変更によって発話時間長は変化するから”ｒ＆Ｔ’　
となる。

そこで、γ＝Ｔ’　／Ｔとおき、γの値に応じて、ステ
ップＳ１３：Ｑピッチ区間の間引きあるいは繰り返しを
行なう。すなわち、γ〉１ならば、γ／（γ−１）ピッ
チにつき１ピツチの割合で間引き、γく１ならば、γ／
（１−γ）ピッチにつき１ピツチの割合で同じ波形を繰
り返す。

γ＝１．５およびγ＝　０．６６７の場合の処理の様子
をそれぞれ第６図（Ａ）および（Ｂ）に示す。同図に示
すように、γ＝１．５の場合は３ピツチに１回ピッチ変
更後の音声のピッチ区間３および６を間引き、γ＝　０
．６６７の場合、２ピツチに１回ピッチ変更後の音声の
ピッチ区間２．４および６の波形を繰り返す。

これにより、概ね原音声の発話時間長を保つことができ
、聴感的にも違和感がない。

なお、一般的にピッチ周期を変更した波形においては、
その波形のピッチ区間の最終標本点と次のピッチ区間の
開始標本点との間には標本値の大きな不連続があるので
、ステップ５１４において、接続点、すなわち最終標本
点と開始標本点の前後数標本のデータを用いて最小自乗
法により３次曲線を用いた近似を行ない連続的に接続す
る。

歪修正部８では、まず、ステップＳ１５において、第７
図に示すようにピッチ周期の変更を行った波形の９点か
らｑ＋Ｍ−１までのＭ個の標本のデータに対してその自
乗和Ｐｓを求めると共に、このＭ個の標本値について線
形予測分析を行ない、線形予測係数α、°〜α、°を得
る。

ステップＳ２４およびＳ２５では、この線形予測係数α
１°〜α、°および前述したところの分析部２において
原音声の時刻的に同じ区間に相当する部分から得られた
線形予測係数α１〜α、を用いて、それぞれ以下に示す
（６）式および（７）式によってスペクトル包絡Ｈ（Ｋ
）およびＨ（に）を求める。

Ｈ（ｋ）＝１１＋　Σ　α１°・ｅｘｐ（−ｊ２ｙｃ　
ｉ　（ｋ−１）／Ｎ）　ｌ−’ｌｌ１ｋ−１〜Ｎ（６）Ｈ（ｋ）＝１１＋　Σ　ａ　１−ｅｘｐ（−ｊ２　π１
（ｋ−１）／Ｎ）　ｌ−’ム１１Ｉｋ−１〜Ｎ（７）ここで、Ｍは２０〜３０ｍ５ｅｃの時間長での標本数で
あり、標本化周波数は１５ｋＨｘであるから、その値は
３００〜４５０程度となり、ＮはＭより大きい２のべき
乗で５１２とする。

スペクトル包絡Ｈ（に）は、原音声の音韻性や個人性を
多く含む、すなわちホルマント周波数を特徴づける物理
量であるが、Ｈ（に）はピッチ周期の変更に起因する歪
により、必ずしもＨ（Ｋ）と一致しない。この歪を修正
するために以下の処理を行なう。

まず、ステップ５１６において、第７図に示すｑ−（Ｎ
−Ｍ）　／２点からｑ＋　（Ｎ４Ｍ）　／２−１までの
Ｎ個の標本を新たにｘ（１）〜ｘ　（Ｎ）　とおき、（
８）式に示すように、時間窓係数ｗ　（ｍ）と掛けて、
ｙ（１）〜ｙ　（Ｎ）とする。すなわち、ｙ　（ｍ）　＝　ｗ　（ｍ）　　−ｘ　（ｍ）　　　　
ｌ１１−１〜Ｎ　（８）ただし、Ｌ−（Ｎ−Ｍ）／２４
１．　Ｌ’−（Ｎ４Ｍ）／２として、ｗ　（ｍ）−０，
５−（１−ｃｏｓ（ｙｒｍ／Ｌ））　　　　１≦ｍ≦Ｌ
ｗ（ｍ）＝Ｉ　　　　　　　　　　　　　Ｌ≦ｍ≦Ｌ。

ｗ　（ｍ）＝０．５・［１＋ｃｏｓ（ｒｔ　（ｍ−Ｌ’
）／Ｌ）］Ｌ°≦ｍ≦Ｎ得られたｙ　（Ｉ＋＋）に対して、Ｎ点の高速フーリエ
変換を行ない、周波数領域に変換してＹ　（Ｋ）とする
。次にステップ５１７で、以下の（９）式で示すように
、Ｙ　（Ｋ）の絶対値をスペクトル包絡Ｈ（Ｋ）および
π（Ｋ）の比を用いて変更する。すなわち、Ｖ（ｘ）−
ｏ（に）／「（Ｋ）・Ｙ（に）Ｋ−１〜Ｎ（９）ステッ
プ５１８では得られたＹ（に）を逆高速フーリエ変換に
より時間領域の波形ｙ（１）〜”；ｔ　（Ｎ）とし、さ
らにステップ５１９において、以下（ｌＯ）式で示すよ
うに櫛型ろ波を行ないｘ（１）〜Ｘ　（Ｎ）　とする。

これにより、ピッチ周波数の非整数倍の周波数に生じた
歪成分を減衰させる。

７（ｍ）・０．２５　（（１−ａ）？（ｍ−Ｋｐ）＋２
　（１＋ａ）７（ｍ）＋　（１−ａ）７（ｍ＋にｐ））ただし、’ｉ（ｍ）　−７（１）　　ｍ≦Ｏ，ｙ（ｍ）
・７（Ｎ）　　ｍ＞Ｎここで、Ｋｐはピッチ周波数変更
後の処理区間における平均ピッチ周期に相当するピッチ
区間の標本数であり、また、ａはＯから１の間の定数で
、０．０１程度を用いる。

（１０）式より得られたＮ点のデータのうち中心のＭ個
の標本のデータに対し、その自乗和Ｐｓ’が先にステッ
プＳ１５で求めたＰｓと等しくなるよう各標本値を定数
倍してゲインの調整をする。これによって音声の大きさ
が等しく保たれる。さらに、波形接続の際、端の効果を
軽減するため、両端で０、中心で１となるようなハニン
グ窓または三角窓を掛け、この波形をＲＡＭあるいはメ
モリディスク等に記憶する。

次に第７図に示すｇ点をＭ／２点だけ後ヘシフトして処
理区間を穆し、ステップＳ１６以降の一連の処理を行っ
た後、第８図に示すようにＭ個の標本値の前半のＭ／２
点と、直前の処理フレームの後半のＭ／２点とを瓜ね合
わせて順次加える。

以下有声音区間が終るまで同じ操作を繰り返せば原音声
と同様なスペクトル包絡を有する音声波形が得られる。

これにより、ホルマント周波数は不変となり原音声の音
韻性や個人性を保存することが可能となる。

なお、Ｋｐがある程度以上大きい場合には、Ｍを４５０
〜６００とし、同時にＮも１０２４に拡大した方が良い
音質が得られる。

ひとつの有声音区間の処理が終了したならば、ステップ
Ｓ２０で前後の無声音区間または、無音区間と接続し、
ステップＳ２以降で次の有音声区間の処理に穆る。最終
的に合成された音声ををＤ／Ａ変換して、出力音声とす
る。

［発明の効果コ以上説明したように、本発明によれば音声の周波数スペ
クトル包絡を原音声のものに保ったまま、言い換えれば
原音声のホルマント周波数を変化させずにピッチ周波数
を変更することができる。従ってホルマントの構造に依
存する音韻性や個人性に影舌を与えず、従来の技術より
自然性の高い状態でピッチ周波数を変化させることが可
能である。

また、従来の装置ではピッチ周波数の変化量が長時間に
わたり一定でありたが、本発明においては、各ピッチ毎
にその変化量を変えることで抑揚を変化させ、会話のイ
ントネーションや歌声のビブラートの制御などが可能で
ある。

【図面の簡単な説明】

第１図は本発明の一実施例に係るシステムのブロック図
、第２図は本発明の一実施例を示すフローチャート、第３図は実施例におけるピッチ区間の定め方を説明する
ための波形図、図、第６図は実施例におけるピッチ区間の間引きあるいは繰
り返しを説明するための波形図、第７図は実施例の歪修
正を説明するための波形図、第８図は実施例Ｃおける波形の重ね合せを説明するため
の波形図である。２・・・分析部、４・・・ピッチ周波数制御部、６・・・波形接続部、８・・・歪修正部。

Claims

【特許請求の範囲】入力音声から有声音区間を抽出し、該有声音区間からピッチ周期を抽出し、当該抽出したピッチ周期に対応した各々のピッチ区間に
おいて線形予測係数を求め、該線形予測係数を用いてス
ペクトル包絡を算出し、前記各々のピッチ区間の波形を前記線形予測係数を援用
することによって伸縮し、当該伸縮された波形を前記入力音声の発声時間長と等し
くなるよう前記各々のピッチ区間の波形を間引くかまた
は繰り返すことによって接続し、当該接続された波形に
おいて線形予測係数を求め、該線形予測係数を用いてス
ペクトル包絡を算出し、前記波形の伸縮前に算出した前記スペクトル包絡と前記
伸縮後に算出した前記スペクトル包絡との差を歪成分と
し、前記接続波形をフーリエ変換によって周波数領域に変換
し、該周波数領域の各々の周波数成分から前記歪成分を修正
した後、逆フーリエ変換によって当該波形を時間領域に
戻し、当該戻された波形の平均ピッチ周期に対応した櫛形ろ波
を当該波形に施した後、前後の無声音区間または無音区
間と接続し、新たな音声波形とすることを特徴とする音声ピッチ変換方法。