JP6371530B2

JP6371530B2 - 音声信号処理装置及び音声ピッチ変換プログラム

Info

Publication number: JP6371530B2
Application number: JP2014010507A
Authority: JP
Inventors: 信正清山; 今井　篤; 篤今井; 都木　徹; 徹都木
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2014-01-23
Filing date: 2014-01-23
Publication date: 2018-08-08
Anticipated expiration: 2034-01-23
Also published as: JP2015138187A

Description

本発明は、音声を一時的に記憶し、その音声のピッチ周期を変化させて、再び音声として出力する音声信号処理装置及び音声ピッチ変換プログラムに関する。

従来、音声の有声音部分について、そのピッチ周波数を抽出し、音声波形を各ピッチ間隔で分割し、各ピッチの周期を伸縮する音声ピッチ変換手法には様々なものが提案されている。

例えば、比較的高品質にピッチを変換する手法として、特許文献１に記載のものがある。特許文献１の音声信号処理装置は、入力音声から有声音区間を抽出し、有声音区間からピッチ周期を抽出し、抽出したピッチ周期に対応したそれぞれのピッチ区間において線形予測係数を求め、線形予測係数を用いてスペクトル包絡を算出する。

そして、音声信号処理装置は、それぞれのピッチ区間の波形を、線形予測係数を援用することによって伸縮し、入力音声の発話時間長に変化がないように、それぞれのピッチ区間の波形を間引くかまたは繰り返すことによって、伸縮した音声波形を接続し、接続した波形に対して線形予測係数を求め、線形予測係数を用いてスペクトル包絡を算出する。

そして、音声信号処理装置は、波形の伸縮前に算出したスペクトル包絡と伸縮後に算出したスペクトル包絡との差を歪み成分として求め、接続波形をフーリエ変換によって周波数領域に変換し、周波数領域のそれぞれの周波数成分から歪み成分を修正した後、逆フーリエ変換によって接続波形を時間領域に戻し、接続波形の平均ピッチ周期に対応した櫛形ろ波を接続波形に施した後、前後の無声音区間または無音区間と接続する。これにより、入力音声が新たなピッチ周期の音声に変換される。

特許第２６１２８６７号公報

前述の特許文献１に記載された音声信号処理装置では、入力音声のピッチを変換（声の高さを変更）する際に、ピッチ区間の波形に対し、その波形に対応する線形予測係数によるフィルター処理を施して予測波形を求め、それぞれのピッチ区間の波形から予測波形を減算することによって残差波形を求め、その残差波形を伸縮する。

元の声の高さよりも高い声に変更する場合、すなわち、元のピッチ周期よりも短いピッチ周期で波形を合成する場合には、残差波形を途中で打ち切ったものを音源とする。また、元の声の高さよりも低い声に変更する場合、すなわち、元のピッチ周期よりも長いピッチ周期で波形を合成する場合には、残差波形の後ろにゼロ信号を付加したものを音源とする。そして、音源とした波形が、線形予測係数によるフィルターに入力される。

このように、従来の音声信号処理装置では、残差波形の打ち切りまたは残差波形へのゼロ信号の付加によってピッチ区間の波形が伸縮されるから、ピッチ区間の波形の伸縮に伴って、音声情報が欠落してしまう。このため、音声情報の欠落に起因して、音質が劣化してしまう。

図１２は、特許文献１に記載された従来の音声信号処理装置によりピッチ変換が行われる音声波形の例を示す図である。図１２において、横軸は時間（サンプル）を示し、縦軸は音声波形の振幅を示す。（１）は、入力音声である原音声の音声波形を示し、（２）は、（１）の音声波形から線形予測分析により分離された音源（残差波形）を示す。（３）は、ピッチ区間毎に（２）の残差波形の後ろにゼロ信号を付加してピッチ周期を伸長した音声波形（ゼロ信号を付加した残差波形）を示し、（４）は、（３）の音声波形が線形予測係数によるフィルターに入力され、フィルター処理が施された伸長後の音声波形を示す。

図１３は、特許文献１に記載された従来の音声信号処理装置によりピッチ変換が行われる原音声及び伸長後の音声のパワースペクトルの例を示す図である。図１３において、横軸は音声波形の周波数（Ｈｚ）を示し、縦軸は音声波形の振幅（ｄＢ）を示す。細線は、図１２（１）における原音声のパワースペクトルであり、太線は、図１２（４）における伸長後の音声のパワースペクトルである。

図１２（４）から、伸長後の音声波形は、図１２（３）のゼロ信号を付加した残差波形と同様に、滑らかな波形となっていることがわかる。しかし、図１３を参照して、図１２（１）に示す原音声の音声波形におけるパワースペクトル（細線）と、図１２（４）に示す伸長後の音声波形におけるパワースペクトル（太線）とを比較すると、その違いは明確であり、伸長後の音声は、原音声に対して音質が劣化していることがわかる。

伸長後の音声の音質劣化は、残差波形の後ろにゼロ信号を付加することによる情報欠落に起因するものである。また、短縮後の音声も同様に、残差波形を途中で打ち切ることによる情報欠落に起因して、その音質は劣化する。

このように、従来の音声信号処理装置では、放送に耐え得る高品質な音声を得ることができないという問題があった。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、ピッチ区間の音声波形を伸縮する際に、情報欠落のない高品質な音声を得ることが可能な音声信号処理装置及び音声ピッチ変換プログラムを提供することにある。

前記目的を達成するために、本発明による音声信号処理装置は、入力音声の有音区間及び無音区間を判別する有音／無音判別部と、前記有音区間における音声波形の有声音区間及び無声音区間を判別する有声／無声判別部と、前記有声音区間における音声波形のピッチ区間を抽出するピッチ区間抽出部と、前記ピッチ区間の音声波形におけるピッチ周期列に対し所望の変更を加えてピッチ周波数を制御し、新たなピッチ周期列を生成するピッチ周波数制御部と、前記抽出されたピッチ区間のピッチ区間波形を伸縮するピッチ区間波形伸縮部と、前記伸縮後のピッチ区間毎の音声波形を、前記入力音声の発話時間長に変化がないように間引くまたは繰り返すことによって接続するピッチ区間波形接続部と、前記接続後の音声波形に対してスペクトル包絡を求め、これを前記入力音声のスペクトル包絡と同じになるように修正するスペクトル包絡修正部と、前記スペクトル包絡が修正された有声音区間の音声波形、前記無音区間の音声波形及び前記無声音区間の音声波形を接続し、新たな音声波形を出力する区間接続部と、を備えた音声信号処理装置において、前記ピッチ区間波形伸縮部が、第１のピッチ区間波形を伸長する際に、前記第１のピッチ区間波形を繰り返すことで、前記新たなピッチ周期列に応じた伸長後のピッチ周期に所定の接続区間を加えた時間長の波形を生成して保持し、前記保持した波形のうち、繰り返された前記第１のピッチ区間波形における冒頭の所定区間の波形に、前記第１のピッチ区間波形に続く第２のピッチ区間波形における冒頭の前記所定区間の波形を重ね合わせることにより、前記第１のピッチ区間波形の接続を行い、所定の関数を用いて前記接続した波形を減衰させ、伸長後の第１のピッチ区間波形を生成する、ことを特徴とする。

また、本発明による音声信号処理装置は、前記接続した波形を減衰させる所定の関数を、指数関数とする、ことを特徴とする。

また、本発明による音声信号処理装置は、前記ピッチ区間波形接続部が、前記伸長後の第１のピッチ区間波形に第２のピッチ区間波形を接続する際に、前記伸長後の第１のピッチ区間波形における末尾の所定の接続区間の波形と、前記第２のピッチ区間波形における冒頭の前記所定の接続区間の波形とを重ね合わせる、ことを特徴とする。

また、本発明による音声信号処理装置は、前記ピッチ区間波形伸縮部が、第１のピッチ区間波形を短縮する際に、前記第１のピッチ区間波形のうち、前記新たなピッチ周期列に応じた短縮後のピッチ周期における波形を保持し、前記第１のピッチ区間波形のうち前記保持した波形に後続する所定の接続区間の波形に、前記ピッチ区間波形接続部により前記短縮後の第１のピッチ区間波形に接続される第３のピッチ区間波形における冒頭の前記所定の接続区間の波形を重ね合わせ、前記保持した波形及び前記重ね合わせた波形を合成波形としてそのオフセットを算出し、前記合成波形から前記オフセットを減算し、短縮後の第１のピッチ区間波形を生成する、ことを特徴とする。

また、本発明による音声信号処理装置は、前記ピッチ区間波形接続部が、前記短縮後の第１のピッチ区間波形に前記第３のピッチ区間波形を接続する際に、前記短縮後の第１のピッチ区間波形における末尾の所定の接続区間の波形と、前記第３のピッチ区間波形における冒頭の前記所定の接続区間の波形とを重ね合わせる、ことを特徴とする。

さらに、本発明による音声ピッチ変換プログラムは、コンピュータを、前記音声信号処理装置として機能させることを特徴とする。

以上のように、本発明によれば、ピッチ区間の音声波形を伸縮する際に、情報欠落のない高品質な音声を得ることが可能となる。

本発明の実施形態による音声信号処理装置の構成を示すブロック図である。ピッチ区間波形伸縮部による実施例１の伸縮処理を示すフローチャートである。ピッチ区間波形伸縮部における実施例１のピッチ区間波形ｘ₁の伸長処理を説明する模式図である。ピッチ区間波形接続部による実施例１の接続処理を示すフローチャートである。ピッチ区間波形接続部における実施例１の接続処理を説明する模式図である。実施例１における原音声の音声波形及び伸長後の音声波形の例を示す図である。実施例１における原音声及び伸長後の音声のパワースペクトルの例を示す図である。従来技術及び実施例１におけるピッチ変換倍率変化時の客観評価値を示す図である。ピッチ区間波形伸縮部による実施例２の短縮処理を示すフローチャートである。ピッチ区間波形伸縮部における実施例２のピッチ区間波形ｘ₁の短縮処理を説明する模式図である。ピッチ区間波形接続部における実施例２の接続処理を説明する模式図である。従来の音声信号処理装置によりピッチ変換が行われる音声波形の例を示す図である。従来の音声信号処理装置によりピッチ変換が行われる原音声及び伸長後の音声のパワースペクトルの例を示す図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔音声信号処理装置〕
まず、本発明の実施形態による音声信号処理装置について説明する。図１は、その音声信号処理装置の構成を示すブロック図である。この音声信号処理装置１は、有音／無音判別部１０、有声／無声判別部１１、ピッチ区間抽出部１２、ピッチ周波数制御部１３、ピッチ区間波形伸縮部１４、ピッチ区間波形接続部１５、スペクトル包絡修正部１６及び区間接続部１７を備えている。

有音／無音判別部１０は、図示しないＡ／Ｄ変換部によりＡ／Ｄ変換されて標本化された音声波形を入力し、入力した音声波形について、音声パワーの有無に基づいて、有音区間と無音区間とに判別する。有音／無音判別部１０により判別された有音区間の音声波形は、有声／無声判別部１１に出力され、無音区間の音声波形は、区間接続部１７に出力される。

有声／無声判別部１１は、有音／無音判別部１０から有音区間の音声波形を入力し、入力した有音区間の音声波形について、ＰＡＲＣＯＲ分析及び零交さ分析を行い、有声音区間と無声音区間とに判別する。有声／無声判別部１１により判別された有声音区間の音声波形は、ピッチ区間抽出部１２に出力され、無声音区間の音声波形は、区間接続部１７に出力される。

ピッチ区間抽出部１２は、有声／無声判別部１１から有声音区間の音声波形を入力し、入力した有声音区間の音声波形の相関、ピークの間隔及びレベルに基づいて、ピッチ区間を抽出する。ピッチ区間抽出部１２により抽出された有声音区間におけるピッチ区間の音声波形（ピッチ区間波形）は、ピッチ周波数制御部１３に出力される。尚、有音／無音判別部１０及び有声／無声判別部１１における判別手法、並びにピッチ区間抽出部１２における抽出手法は例示であり、他の手法を用いることができる。

ピッチ周波数制御部１３は、ピッチ区間抽出部１２により抽出されたピッチ区間波形ののピッチ周期列に対し、所望の変更を加えてピッチ周波数を制御し、例えば抑揚を強調または抑圧した新たなピッチ周期列を求める。ピッチ周波数制御部１３にて求めた新たなピッチ周期列は、ピッチ区間波形伸縮部１４に出力される。

ピッチ区間波形伸縮部１４は、ピッチ周波数制御部１３から新たなピッチ周期列を入力し、入力した新たなピッチ周期列に応じて、ピッチ区間抽出部１２により抽出されたピッチ区間波形を伸縮する。ピッチ区間波形伸縮部１４によりピッチ区間毎に伸縮された音声波形は、ピッチ区間波形接続部１５に出力される。

ピッチ区間波形接続部１５は、ピッチ区間波形伸縮部１４からピッチ区間毎に伸縮された音声波形を入力し、入力した伸縮後の音声波形を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返すことで、音声波形を接続する。ピッチ区間波形接続部１５により接続された音声波形は、スペクトル包絡修正部１６に出力される。

スペクトル包絡修正部１６は、ピッチ区間波形接続部１５から音声波形を入力し、入力した音声波形（有声音区間の音声波形）に対して短時間スペクトル包絡を求め、これを入力音声のスペクトル包絡と同じになるように修正する。スペクトル包絡修正部１６によりスペクトル包絡が修正された有声音区間の音声波形は、区間接続部１７に出力される。

区間接続部１７は、スペクトル包絡修正部１６からスペクトル包絡が修正された有声音区間の音声波形を入力すると共に、有音／無音判別部１０から無音区間の音声波形を、有声／無声判別部１１から無声音区間の音声波形を入力する。そして、区間接続部１７は、入力した各区間の音声波形を接続して合成し、合成後の音声波形を出力する。区間接続部１７により出力された音声波形は、図示しないＤ／Ａ変換部によりＤ／Ａ変換され、出力音声として出力される。

〔実施例１：伸長処理〕
まず、ピッチ区間波形を伸縮する処理のうち、実施例１の伸長処理について説明する。実施例１において、ピッチ区間波形伸縮部１４は、第１のピッチ区間波形（ピッチ周波数制御部１３から入力するピッチ周期列の音声波形のうち伸長対象のピッチ区間波形）を伸長する場合、第１のピッチ区間波形を繰り返すことで、伸長後のピッチ周期に所定区間を加えた時間長の繰り返し音声波形を保持し、繰り返し音声波形のうち第１のピッチ区間波形における冒頭の波形に、後続の第２のピッチ区間波形における冒頭の波形を重ね合わせることにより、第１のピッチ区間波形の接続を行い、繰り返し接続後の音声波形を生成し、指数関数を用いて、繰り返し接続後の音声波形を減衰させ、伸長後の第１のピッチ区間波形を生成する。

また、実施例１において、ピッチ区間波形接続部１５は、伸長後の第１のピッチ区間波形における末尾の波形と、次に接続する伸長後のピッチ区間波形における冒頭の波形とを重ね合わせることにより、伸長後の第１のピッチ区間波形と次に接続する伸長後のピッチ区間波形とを接続する。

（ピッチ区間波形伸縮部１４の処理／実施例１）
ピッチ区間波形伸縮部１４の処理について説明する。図２は、図１に示したピッチ区間波形伸縮部１４による実施例１の伸長処理を示すフローチャートであり、図３は、図２の伸長処理を説明する模式図であり、これらはピッチ区間波形ｘ₁の伸長処理を示している。

原音声におけるある１ピッチ区間の音声波形を波形１（ｘ₁（ｉ））、そのピッチ区間のサンプル数（ピッチ周期）をｋ、伸長後の音声波形のピッチ周期をｋ’とし、波形１に続く波形として波形２（ｘ₂（ｉ））があるものとする。また、波形１（ｘ₁（ｉ））を繰り返して接続した音声波形をｙ₁（ｉ）とし、波形１（ｘ₁（ｉ））を伸長した後の音声波形をｚ₁（ｉ）とし、ｉを標本サンプル番号とする。図３において、ｋは元のピッチ周期を示し、ｋ’（＞ｋ）は伸長後のピッチ周期を示す。

ピッチ区間の伸長は、波形１（ｘ₁（ｉ））を繰り返して接続し、指数関数を用いて減衰させることによって実現する。波形の接続は、固定長ｐの窓関数を用いて重ね合わせることによって実現する。ここで、固定長ｐは、基本的に２ｍｓとし、音声波形のピッチ周期ｋが２ｍｓを下回る場合（ｋ＜２ｍｓの場合）、ｐ＝ｋとする。

図２を参照して、ピッチ区間波形伸縮部１４は、伸長前のピッチ区間波形ｘ₁（ｉ），ｘ₂（ｉ）を入力し（ステップＳ２０１）、ピッチ区間波形ｘ₁（ｉ）を繰り返す処理により、ピッチ区間１：ｋ’＋ｐの繰り返し音声波形を保持する（ステップＳ２０２）。

伸長後のピッチ周期ｋ’、次のピッチ区間の波形２（ｘ₂（ｉ））及び窓関数を用いて接続する区間の時間長ｐ、伸長前のピッチ周期ｋ、ピッチ周期ｋで除算した商ｑ、及びその余りｒは、以下の式で表される。

具体的には、ピッチ区間波形伸縮部１４は、ピッチ区間１：ｋについて、波形１すなわち波形ｘ₁（１：ｋ）をそのまま利用する。

そして、ピッチ区間波形伸縮部１４は、ピッチ区間ｋ＋１：ｋ’＋ｐについて、波形１（ｘ₁（ｉ））を（ｑ−１）回繰り返した後、波形１（ｘ₁（ｉ））のうちピッチ区間１：ｒの波形ｘ₁（１：ｒ）を接続する。これにより、波形１（ｘ₁（ｉ））を繰り返した音声波形（ピッチ区間１：ｋ’＋ｐの繰り返し音声波形）が保持される。

ピッチ区間波形伸縮部１４は、ステップＳ２０２にて保持した繰り返し音声波形に対し、ピッチ区間波形ｘ₂（ｉ）及び窓関数を用いて、当該音声波形におけるピッチ区間波形ｘ₁（ｉ）の接続を行い、繰り返し接続後の音声波形ｙ₁を生成する（ステップＳ２０３）。

具体的には、ピッチ区間波形伸縮部１４は、ピッチ区間ｋ＋１：ｋ’＋ｐにおけるそれぞれの波形１（ｘ₁（ｉ））のピッチ区間１：ｐ、すなわち、繰り返しの音声波形におけるピッチ区間ｋ＋１：ｋ＋ｐ，２ｋ＋１：２ｋ＋ｐ，・・・，（ｑ−１）ｋ＋１：（ｑ−１）ｋ＋ｐについて、図３（１）（２）に示すように、波形２（ｘ₂（ｉ））における冒頭の固定窓長ｐ分の波形ｘ₂（１：ｐ）に１から０へ減衰する窓関数を乗じた乗算結果と、波形１（ｘ₁（ｉ））における冒頭の固定窓長ｐ分の波形ｘ₁（１：ｐ）に０から１へ増大する窓関数を乗じた乗算結果とを加算する重ね合わせにより、ピッチ区間波形ｘ₁（ｉ）の接続を行う。この場合、窓関数の時間長は固定長（例えば２ｍｓ）とする。

つまり、ピッチ区間波形伸縮部１４は、ステップＳ２０２及びステップＳ２０３において、以下の式に示す処理を行い、繰り返し接続後の音声波形ｙ₁（１：ｋ’＋ｐ）を生成する。

ピッチ区間波形伸縮部１４は、ステップＳ２０３にて生成した繰り返し接続後の音声波形ｙ₁に対し、指数関数を用いて、当該音声波形ｙ₁を減衰させ、伸長後の音声波形ｚ₁を生成する（ステップＳ２０４）。

具体的には、ピッチ区間波形伸縮部１４は、ピッチ区間ｋ＋１：ｋ’＋ｐについて、図３（３）に示すように、繰り返し接続後の音声波形ｙ₁に対し、以下の式に示す減衰定数ｇ（例えば−１．０）の指数関数を乗算することで、当該音声波形ｙ₁を減衰させ、ピッチ区間波形ｘ₁（ｉ）を伸長した音声波形ｚ₁（１：ｋ’＋ｐ）を生成する。

ピッチ区間波形伸縮部１４は、ステップＳ２０４にて生成した伸長後の音声波形ｚ₁を出力する（ステップＳ２０５）。これにより、ピッチ区間波形伸縮部１４において、ピッチ周期ｋのピッチ区間波形ｘ₁から、伸長後のピッチ周期ｋ’に対して後段のピッチ区間波形接続部１５における接続処理用の時間長ｐを加えた時間長ｋ’＋ｐの音声波形ｚ₁が生成される。

（ピッチ区間波形接続部１５の処理／実施例１）
次に、ピッチ区間波形接続部１５の処理について説明する。図４は、図１に示したピッチ区間波形接続部１５による実施例１の接続処理を示すフローチャートであり、図５は、図４の接続処理を説明する模式図である。

ピッチ区間波形接続部１５は、ピッチ区間波形伸縮部１４からピッチ区間毎の伸長後の音声波形を入力し（ステップＳ４０１）、入力したピッチ区間毎の音声波形を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返す（ステップＳ４０２）。そして、ピッチ区間波形接続部１５は、ステップＳ４０２にて間引くまたは繰り返した後の音声波形を、窓関数を用いて接続し、接続後の音声波形ｚを生成する（ステップＳ４０３）。

具体的には、例えば伸長後の音声波形ｚ₁に対して接続される音声波形をｚ₂とした場合、ピッチ区間波形接続部１５は、図５（１）に示すように、伸長後の音声波形ｚ₁（１：ｋ’＋ｐ）における末尾の固定窓長ｐ分の波形ｚ₁（ｋ’＋１：ｋ’＋ｐ）に１から０へ減衰する窓関数を乗じた乗算結果と、伸長後の音声波形ｚ₂における冒頭の固定窓長ｐ分の波形ｚ₂（１：ｐ）に０から１へ増大する窓関数を乗じた乗算結果とを加算して重ね合わせる。

このような接続処理を行うことにより、図５（２）に示す伸長後の音声波形ｚが生成される。尚、伸長後の音声波形ｚ₂における冒頭の固定窓長ｐ分の波形ｚ₂（１：ｐ）は、ピッチ区間波形ｘ₂（ｉ）における波形ｘ₂（１：ｐ）と同じである。また、伸長後の音声波形ｚ₁に対して接続される音声波形は、必ずしもｚ₂であるとは限らない。

ピッチ区間波形接続部１５は、ステップＳ４０３にて生成した接続後の音声波形ｚを、伸長後の音声波形ｚとして出力する（ステップＳ４０４）。これにより、ピッチ区間波形接続部１５において、ピッチ区間波形伸縮部１４により伸長された伸長後の音声波形ｚ₁，ｚ₂等が、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返された後に接続される。

（実施例１の効果）
図６は、実施例１における原音声の音声波形及び伸長後の音声波形ｚ₁の例を示す図である。図６において、横軸は時間（サンプル）を示し、縦軸は音声波形の振幅を示す。（１）は、入力音声である原音声の音声波形を示し、（２）は、ピッチ区間波形伸縮部１４により伸長された伸長後の音声波形ｚ₁を示す。

図７は、実施例１における原音声及び伸長後の音声のパワースペクトルの例を示す図である。図７において、横軸は音声波形の周波数（Ｈｚ）を示し、縦軸は音声波形の振幅（ｄＢ）を示す。細線は、図６（１）における原音声のパワースペクトルであり、太線は、図６（２）における伸長後の音声のパワースペクトルである。

図６（２）から、伸長後の音声波形ｚ₁は、滑らかな波形となっていることがわかる。また、図７から、図６（１）に示す原音声の音声波形におけるパワースペクトル（細線）と、図６（２）に示す伸長後の音声波形ｚ₁におけるパワースペクトル（太線）とを比較すると、図１３に示した従来技術と異なり両者は類似しており、音質が改善されていることがわかる。つまり、実施例１では、従来技術よりも高品質な音声を得ることができる。

図８は、従来技術及び実施例１におけるピッチ変換倍率（伸縮倍率）変化時の客観評価値を示す図である。図８において、横軸はピッチ変換倍率を示し、縦軸は客観評価値（ｆｗＳＮＲｓｅｇ）を示す。（１）は女性話者が発声した場合、（２）は男性話者が発声した場合をそれぞれ示し、菱形印の折れ線は、従来技術の客観評価値を示し、四角印の折れ線は、実施例１及び後述する実施例２の客観評価値を示す。原音としては短母音（‘ａ’，‘ｅ’，‘ｉ’，‘ｏ’，‘ｕ’の５つ）が用いられている。

ピッチ変換倍率変化時の客観評価値を得る客観評価法には、さまざまな方法があるが、主観的な評価結果との乖離が少ないものを用いることが望ましい。そこで、図８では、以下の式に示す客観評価値ｆｗＳＮＲｓｅｇを用いた。

ここで、Ｂ_jはｊ番目の周波数帯域に対する重み、Ｋ（＝２５）は周波数帯域の数、Ｍは音声信号の全フレーム数、｜Ｘ（ｍ,ｊ）｜は原音のｍ番目のフレーム及びｊ番目の周波数帯域のフィルターバンクの振幅を示す。また、

は、ピッチ変換された音声波形におけるｍ番目のフレーム及びｊ番目の周波数帯域のフィルターバンクの振幅である。

前記式の客観評価値（ｆｗＳＮＲｓｅｇ）は、以下の文献に基づくものである。
Tribolet,J., Noll,P., McDermott,B., and Crochiere,R.E. (1978)、“A study of complexity and quality of speech waveform coders.” Proc.IEEE Int.Conf.Acoust., Speech, Signal Processing, 586-590.

この客観評価値（ｆｗＳＮＲｓｅｇ）は、通常、広く用いられるｓｅｇｍｅｎｔａｌＳＮＲに対して聴覚的な重み付けがされているため、主観的な聴感試験の結果と相関が高い。つまり、客観評価値（ｆｗＳＮＲｓｅｇ）が大きいほど評価が高いことになる。

図８に示すピッチ区間を伸長した変換倍率の部分（ピッチ変換倍率０．５から０．９の部分）の客観評価値（ｆｗＳＮＲｓｅｇ）から、（１）の女性話者及び（２）の男性話者の双方において、概ね全てのピッチ変換倍率につき実施例１の品質が従来技術よりも高いことがわかる。

以上のように、実施例１の伸長処理を行う音声信号処理装置１によれば、ピッチ区間波形伸縮部１４は、ピッチ区間毎に音声波形を伸長する際に、波形１であるピッチ区間波形ｘ₁（ｉ）を繰り返した繰り返し音声波形に対し、後続の波形２であるピッチ区間波形ｘ₂（ｉ）及び窓関数を用いてピッチ区間波形ｘ₁（ｉ）の接続を行うことで（繰り返し音声波形のうちピッチ区間波形ｘ₁（ｉ）の冒頭の波形に、ピッチ区間波形ｘ₂（ｉ）の冒頭の波形を重ね合わせることで）、繰り返し接続後の音声波形ｙ₁を生成し、指数関数を用いて、繰り返し接続後の音声波形ｙ₁を減衰させて伸長後の音声波形ｚ₁を生成するようにした。そして、ピッチ区間波形接続部１５は、伸長後の音声波形ｚ₁等を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返し、伸長後の音声波形ｚ₁の次に接続する音声波形をｚ₂（伸長後の音声波形ｚ₂）とした場合、窓関数を用いて（音声波形ｚ₁の末尾の波形と次に接続する音声波形ｚ₂の冒頭の波形とを重ね合わせることで）これらを接続し、接続後の音声波形ｚを生成するようにした。

これにより、伸長後の音声は、残差波形の後ろにゼロ信号を付加する従来技術に比べ、情報の欠落がないから、音質が劣化することがない。したがって、放送に耐え得る高品質な音声を得ることができる。

〔実施例２：短縮処理〕
次に、ピッチ区間波形を伸縮する処理のうち、実施例２の短縮処理について説明する。実施例２において、ピッチ区間波形伸縮部１４は、第１のピッチ区間波形（ピッチ周波数制御部１３から入力するピッチ周期列の音声波形のうち短縮対象のピッチ区間波形）を短縮する場合、第１のピッチ区間波形のうち短縮後のピッチ周期における波形ａを保持し、第１のピッチ区間波形のうち波形ａに後続する所定区間の波形に、第２のピッチ区間波形における冒頭の波形を重ね合わせて波形ｂを生成し、波形ａ，ｂに対してオフセット処理を施し、短縮後の第１のピッチ区間波形を生成する。

また、実施例２において、ピッチ区間波形接続部１５は、短縮後の第１のピッチ区間波形における末尾の所定期間の波形と、次に接続する短縮後の第２のピッチ区間波形における冒頭の波形とを重ね合わせることにより、短縮後の第１のピッチ区間波形と次に接続する短縮後の第２のピッチ区間波形とを接続する。

（ピッチ区間波形伸縮部１４の処理／実施例２）
ピッチ区間波形伸縮部１４の処理について説明する。図９は、図１に示したピッチ区間波形伸縮部１４による実施例２の短縮処理を示すフローチャートであり、図１０は、図９の短縮処理を説明する模式図であり、これらはピッチ区間波形ｘ₁の短縮処理を示している。

原音声におけるある１ピッチ区間の音声波形を波形１（ｘ₁（ｉ））、そのピッチ区間のサンプル数（ピッチ周期）をｋ、短縮後の音声波形のピッチ周期をｋ’とする。また、ピッチ区間波形接続部１５において波形１に波形２（ｘ₂（ｉ））が接続されるものとする。また、波形１（ｘ₁（ｉ））を短縮し、波形１（ｘ₁（ｉ））と波形２（ｘ₂（ｉ））の冒頭とを重ね合わせた音声波形をｙ₁（ｉ）とし、音声波形ｙ₁（ｉ）にオフセット処理を施した短縮後の音声波形をｚ₁（ｉ）とし、ｉを標本サンプル番号とする。図１０において、ｋは元のピッチ周期を示し、ｋ’（＜ｋ）は短縮後のピッチ周期を示す。

ピッチ区間の短縮は、波形１（ｘ₁（ｉ））のピッチ区間を短縮し、これに波形２（ｘ₂（ｉ））の冒頭を、固定長ｐの窓関数を用いて重ね合わせることで音声波形ｙ₁（ｉ）を生成し、音声波形ｙ₁（ｉ）から音声波形ｙ₁（ｉ）のオフセットを減算することによって実現する。ここで、固定長ｐは、基本的に２ｍｓとし、短縮後の音声波形のピッチ周期ｋ’が２ｍｓを下回る場合（ｋ’＜２ｍｓの場合）、ｐ＝ｋ’とする。

図９を参照して、ピッチ区間波形伸縮部１４は、短縮前のピッチ区間波形ｘ₁（ｉ），ｘ₂（ｉ）を入力する（ステップＳ９０１）。そして、ピッチ区間波形伸縮部１４は、ピッチ区間波形ｘ₁（ｉ）のうちピッチ区間１：ｋ’の波形ａを保持し（ステップＳ９０２）、ピッチ区間波形ｘ₁（ｉ），ｘ₂（ｉ）及び窓関数を用いて、ピッチ区間ｋ’＋１：ｋ’＋ｐの波形ｂを生成する（ステップＳ９０３）。この場合、窓関数の時間長は固定長（例えば２ｍｓ）とする。

具体的には、ピッチ区間波形伸縮部１４は、ピッチ区間１：ｋ’について、波形１すなわち波形ｘ₁（１：ｋ’）である波形ａをそのまま利用するために、波形ａを保持する。

そして、ピッチ区間波形伸縮部１４は、図１０（１）に示すように、ピッチ区間ｋ’＋１：ｋ’＋ｐについて、波形１（ｘ₁（ｉ））における固定窓長ｐ分の波形ｘ₁（ｋ’＋１：ｋ’＋ｐ）に１から０へ減衰する窓関数を乗じた乗算結果と、波形２（ｘ₂（ｉ））における冒頭の固定窓長ｐ分の波形ｘ₂（１：ｐ）に０から１へ増大する窓関数を乗じた乗算結果とを加算する重ね合わせにより、波形ｂを生成する。

尚、ピッチ区間波形接続部１５において波形１（ｘ₁（ｉ））に波形２（ｘ₂（ｉ））が接続されることから、ステップＳ９０３では、波形１（ｘ₁（ｉ））と波形２（ｘ₂（ｉ））とを重ね合わせるようにした。これに対し、例えば、ピッチ区間波形接続部１５において波形１（ｘ₁（ｉ））に波形３（ｘ₃（ｉ））が接続される場合には、ステップＳ９０３では、波形１（ｘ₁（ｉ））と波形３（ｘ₃（ｉ））とを重ね合わせる。

この場合、ピッチ区間波形伸縮部１４は、波形１（ｘ₁（ｉ））との重ね合わせを行う波形の情報（ピッチ区間波形接続部１５において波形１（ｘ₁（ｉ））に接続される波形の情報）を、ピッチ周波数制御部１３から入力する。ピッチ周波数制御部１３は、入力音声の発話時間長、短縮前のピッチ周波数（ピッチ区間抽出部１２により抽出されたピッチ区間の音声波形におけるピッチ周波数）、及び短縮後のピッチ周波数（所望の変更を加えて求めた新たなピッチ周波数）に基づいて、入力音声の発話時間長に変化がないようにピッチ区間波形接続部１５において波形１（ｘ₁（ｉ））に接続される波形の情報を得ることができる。

ピッチ区間波形伸縮部１４は、図１０（２）に示すように、ステップＳ９０２にて保持したピッチ区間１：ｋ’の波形ａ及びステップＳ９０３にて生成したピッチ区間ｋ’＋１：ｋ’＋ｐの波形ｂを、合成後の音声波形ｙ₁に設定する（ステップＳ９０４）。

つまり、ピッチ区間波形伸縮部１４は、ステップＳ９０２〜ステップＳ９０４において、以下の式に示す処理を行い、合成後の音声波形ｙ₁を生成する。

ピッチ区間波形伸縮部１４は、ステップＳ９０４にて生成した合成後の音声波形ｙ₁に対してオフセット処理を施し、短縮後の音声波形ｚ₁を生成する（ステップＳ９０５）。

具体的には、ピッチ区間波形伸縮部１４は、合成後の音声波形ｙ₁のオフセットｏｆｆｓｅｔを以下の式により算出する。

このオフセットｏｆｆｓｅｔは、音声波形ｙ₁の振幅の平均に相当する。

そして、ピッチ区間波形伸縮部１４は、以下の式により、合成後の音声波形ｙ₁からオフセットｏｆｆｓｅｔを減算し、短縮後の音声波形ｚ₁（１：ｋ’＋ｐ）を生成する。

これにより、音声波形ｚ₁（１：ｋ’＋ｐ）は、プラス成分及びマイナス成分が比較的均等になるから、歪みの少ない安定した音声を得ることができる。

ピッチ区間波形伸縮部１４は、ステップＳ９０５にて生成した短縮後の音声波形ｚ₁を出力する（ステップＳ９０６）。これにより、ピッチ区間波形伸縮部１４において、ピッチ周期ｋのピッチ区間波形ｘ₁から、短縮後のピッチ周期ｋ’に対して後段のピッチ区間波形接続部１５における接続処理用の時間長ｐを加えた時間長ｋ’＋ｐの音声波形ｚ₁が生成される。

（ピッチ区間波形接続部１５の処理／実施例２）
次に、ピッチ区間波形接続部１５の処理について説明する。図１１は、図１に示したピッチ区間波形接続部１５による実施例２の接続処理を説明する模式図である。

ピッチ区間波形接続部１５の処理は、図４に示した処理と同様に、ピッチ区間波形伸縮部１４からピッチ区間毎の短縮後の音声波形を入力し、入力したピッチ区間毎の音声波形を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返す。そして、ピッチ区間波形接続部１５は、間引くまたは繰り返した後の音声波形を、窓関数を用いて接続し、接続後の音声波形ｚを生成し、短縮後の音声波形ｚとして出力する。

具体的には、例えば短縮後の音声波形ｚ₁に対し、次に接続する音声波形をｚ₂とした場合、ピッチ区間波形接続部１５は、図１１（１）に示すように、短縮後の音声波形ｚ₁（１：ｋ’＋ｐ）における末尾の固定窓長ｐ分の波形ｚ₁（ｋ’＋１：ｋ’＋ｐ）に１から０へ減衰する窓関数を乗じた乗算結果と、短縮後の音声波形ｚ₂における冒頭の固定窓長ｐ分の波形ｚ₂（１：ｐ）に０から１へ増大する窓関数を乗じた乗算結果とを加算して重ね合わせる。

このような接続処理を行うことにより、図１１（２）に示す短縮後の音声波形ｚが生成される。尚、短縮後の音声波形ｚ₂における冒頭の固定窓長ｐ分の波形ｚ₂（１：ｐ）は、ピッチ区間波形ｘ₂（ｉ）における波形ｘ₂（１：ｐ）と同じである。

これにより、ピッチ区間波形接続部１５において、ピッチ区間波形伸縮部１４により短縮された短縮後の音声波形ｚ₁，ｚ₂等が、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返された後に接続される。

（実施例２の効果）
図８を参照して、ピッチ区間を短縮した変換倍率の部分（ピッチ変換倍率１．２から２．０の部分）の客観評価値から、（１）の女性話者及び（２）の男性話者の双方において、全てのピッチ変換倍率につき実施例２の品質が従来技術よりも高いことがわかる。

以上のように、実施例２の短縮処理を行う音声信号処理装置１によれば、ピッチ区間波形伸縮部１４は、ピッチ区間毎に音声波形を短縮する際に、波形１であるピッチ区間波形ｘ₁（ｉ）のうちの短縮後のピッチ周期における波形ａを保持し、ピッチ区間波形ｘ₁（ｉ）、後段のピッチ区間波形接続部１５により短縮後の音声波形ｚ₁に接続される波形２のピッチ区間波形ｘ₂（ｉ）、及び窓関数を用いて（ピッチ区間波形ｘ₁（ｉ）のうち波形ａに後続する波形とピッチ区間波形ｘ₂（ｉ）の冒頭の波形とを重ね合わせることで）波形ｂを生成し、波形ａ，ｂである音声波形ｙ₁にオフセット処理を施して短縮後の音声波形ｚ₁を生成するようにした。そして、ピッチ区間波形接続部１５は、短縮後の音声波形ｚ₁等を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返し、短縮後の音声波形ｚ₁の次に接続する音声波形をｚ₂（短縮後の音声波形ｚ₂）とした場合、窓関数を用いて（音声波形ｚ₁の末尾の波形と次に接続する音声波形ｚ₂の冒頭の波形とを重ね合わせることで）これらを接続し、接続後の音声波形ｚを生成するようにした。

これにより、短縮後の音声は、残差波形を途中で打ち切ることで音声波形を短縮する従来技術に比べ、情報の欠落がないから、音質が劣化することがない。したがって、放送に耐え得る高品質な音声を得ることができる。

尚、本発明の実施形態による音声信号処理装置１のハードウェア構成としては、通常のコンピュータを使用することができる。音声信号処理装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声信号処理装置１に備えた有音／無音判別部１０、有声／無声判別部１１、ピッチ区間抽出部１２、ピッチ周波数制御部１３、ピッチ区間波形伸縮部１４、ピッチ区間波形接続部１５、スペクトル包絡修正部１６及び区間接続部１７の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１音声信号処理装置
１０有音／無音判別部
１１有声／無声判別部
１２ピッチ区間抽出部
１３ピッチ周波数制御部
１４ピッチ区間波形伸縮部
１５ピッチ区間波形接続部
１６スペクトル包絡修正部
１７区間接続部

Claims

入力音声の有音区間及び無音区間を判別する有音／無音判別部と、前記有音区間における音声波形の有声音区間及び無声音区間を判別する有声／無声判別部と、前記有声音区間における音声波形のピッチ区間を抽出するピッチ区間抽出部と、前記ピッチ区間の音声波形におけるピッチ周期列に対し所望の変更を加えてピッチ周波数を制御し、新たなピッチ周期列を生成するピッチ周波数制御部と、前記抽出されたピッチ区間のピッチ区間波形を伸縮するピッチ区間波形伸縮部と、前記伸縮後のピッチ区間毎の音声波形を、前記入力音声の発話時間長に変化がないように間引くまたは繰り返すことによって接続するピッチ区間波形接続部と、前記接続後の音声波形に対してスペクトル包絡を求め、これを前記入力音声のスペクトル包絡と同じになるように修正するスペクトル包絡修正部と、前記スペクトル包絡が修正された有声音区間の音声波形、前記無音区間の音声波形及び前記無声音区間の音声波形を接続し、新たな音声波形を出力する区間接続部と、を備えた音声信号処理装置において、
前記ピッチ区間波形伸縮部は、
第１のピッチ区間波形を伸長する際に、前記第１のピッチ区間波形を繰り返すことで、前記新たなピッチ周期列に応じた伸長後のピッチ周期に所定の接続区間を加えた時間長の波形を生成して保持し、
前記保持した波形のうち、繰り返された前記第１のピッチ区間波形における冒頭の所定区間の波形に、前記第１のピッチ区間波形に続く第２のピッチ区間波形における冒頭の前記所定区間の波形を重ね合わせることにより、前記第１のピッチ区間波形の接続を行い、
所定の関数を用いて前記接続した波形を減衰させ、伸長後の第１のピッチ区間波形を生成する、ことを特徴とする音声信号処理装置。
請求項１に記載の音声信号処理装置において、
前記接続した波形を減衰させる所定の関数を、指数関数とする、ことを特徴とする音声信号処理装置。
請求項１または２に記載の音声信号処理装置において、
前記ピッチ区間波形接続部は、
前記伸長後の第１のピッチ区間波形に第２のピッチ区間波形を接続する際に、
前記伸長後の第１のピッチ区間波形における末尾の所定の接続区間の波形と、前記第２のピッチ区間波形における冒頭の前記所定の接続区間の波形とを重ね合わせる、ことを特徴とする音声信号処理装置。
請求項１に記載の音声信号処理装置において、
前記ピッチ区間波形伸縮部は、
第１のピッチ区間波形を短縮する際に、前記第１のピッチ区間波形のうち、前記新たなピッチ周期列に応じた短縮後のピッチ周期における波形を保持し、
前記第１のピッチ区間波形のうち前記保持した波形に後続する所定の接続区間の波形に、前記ピッチ区間波形接続部により前記短縮後の第１のピッチ区間波形に接続される第３のピッチ区間波形における冒頭の前記所定の接続区間の波形を重ね合わせ、
前記保持した波形及び前記重ね合わせた波形を合成波形としてそのオフセットを算出し、前記合成波形から前記オフセットを減算し、短縮後の第１のピッチ区間波形を生成する、ことを特徴とする音声信号処理装置。
請求項４に記載の音声信号処理装置において、
前記ピッチ区間波形接続部は、
前記短縮後の第１のピッチ区間波形に前記第３のピッチ区間波形を接続する際に、
前記短縮後の第１のピッチ区間波形における末尾の所定の接続区間の波形と、前記第３のピッチ区間波形における冒頭の前記所定の接続区間の波形とを重ね合わせる、ことを特徴とする音声信号処理装置。
コンピュータを、請求項１から５までのいずれか一項に記載の音声信号処理装置として機能させるための音声ピッチ変換プログラム。