JP6371530B2 - 音声信号処理装置及び音声ピッチ変換プログラム - Google Patents

音声信号処理装置及び音声ピッチ変換プログラム Download PDF

Info

Publication number
JP6371530B2
JP6371530B2 JP2014010507A JP2014010507A JP6371530B2 JP 6371530 B2 JP6371530 B2 JP 6371530B2 JP 2014010507 A JP2014010507 A JP 2014010507A JP 2014010507 A JP2014010507 A JP 2014010507A JP 6371530 B2 JP6371530 B2 JP 6371530B2
Authority
JP
Japan
Prior art keywords
waveform
pitch
section
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014010507A
Other languages
English (en)
Other versions
JP2015138187A (ja
Inventor
信正 清山
信正 清山
今井 篤
篤 今井
都木 徹
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2014010507A priority Critical patent/JP6371530B2/ja
Publication of JP2015138187A publication Critical patent/JP2015138187A/ja
Application granted granted Critical
Publication of JP6371530B2 publication Critical patent/JP6371530B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声を一時的に記憶し、その音声のピッチ周期を変化させて、再び音声として出力する音声信号処理装置及び音声ピッチ変換プログラムに関する。
従来、音声の有声音部分について、そのピッチ周波数を抽出し、音声波形を各ピッチ間隔で分割し、各ピッチの周期を伸縮する音声ピッチ変換手法には様々なものが提案されている。
例えば、比較的高品質にピッチを変換する手法として、特許文献1に記載のものがある。特許文献1の音声信号処理装置は、入力音声から有声音区間を抽出し、有声音区間からピッチ周期を抽出し、抽出したピッチ周期に対応したそれぞれのピッチ区間において線形予測係数を求め、線形予測係数を用いてスペクトル包絡を算出する。
そして、音声信号処理装置は、それぞれのピッチ区間の波形を、線形予測係数を援用することによって伸縮し、入力音声の発話時間長に変化がないように、それぞれのピッチ区間の波形を間引くかまたは繰り返すことによって、伸縮した音声波形を接続し、接続した波形に対して線形予測係数を求め、線形予測係数を用いてスペクトル包絡を算出する。
そして、音声信号処理装置は、波形の伸縮前に算出したスペクトル包絡と伸縮後に算出したスペクトル包絡との差を歪み成分として求め、接続波形をフーリエ変換によって周波数領域に変換し、周波数領域のそれぞれの周波数成分から歪み成分を修正した後、逆フーリエ変換によって接続波形を時間領域に戻し、接続波形の平均ピッチ周期に対応した櫛形ろ波を接続波形に施した後、前後の無声音区間または無音区間と接続する。これにより、入力音声が新たなピッチ周期の音声に変換される。
特許第2612867号公報
前述の特許文献1に記載された音声信号処理装置では、入力音声のピッチを変換(声の高さを変更)する際に、ピッチ区間の波形に対し、その波形に対応する線形予測係数によるフィルター処理を施して予測波形を求め、それぞれのピッチ区間の波形から予測波形を減算することによって残差波形を求め、その残差波形を伸縮する。
元の声の高さよりも高い声に変更する場合、すなわち、元のピッチ周期よりも短いピッチ周期で波形を合成する場合には、残差波形を途中で打ち切ったものを音源とする。また、元の声の高さよりも低い声に変更する場合、すなわち、元のピッチ周期よりも長いピッチ周期で波形を合成する場合には、残差波形の後ろにゼロ信号を付加したものを音源とする。そして、音源とした波形が、線形予測係数によるフィルターに入力される。
このように、従来の音声信号処理装置では、残差波形の打ち切りまたは残差波形へのゼロ信号の付加によってピッチ区間の波形が伸縮されるから、ピッチ区間の波形の伸縮に伴って、音声情報が欠落してしまう。このため、音声情報の欠落に起因して、音質が劣化してしまう。
図12は、特許文献1に記載された従来の音声信号処理装置によりピッチ変換が行われる音声波形の例を示す図である。図12において、横軸は時間(サンプル)を示し、縦軸は音声波形の振幅を示す。(1)は、入力音声である原音声の音声波形を示し、(2)は、(1)の音声波形から線形予測分析により分離された音源(残差波形)を示す。(3)は、ピッチ区間毎に(2)の残差波形の後ろにゼロ信号を付加してピッチ周期を伸長した音声波形(ゼロ信号を付加した残差波形)を示し、(4)は、(3)の音声波形が線形予測係数によるフィルターに入力され、フィルター処理が施された伸長後の音声波形を示す。
図13は、特許文献1に記載された従来の音声信号処理装置によりピッチ変換が行われる原音声及び伸長後の音声のパワースペクトルの例を示す図である。図13において、横軸は音声波形の周波数(Hz)を示し、縦軸は音声波形の振幅(dB)を示す。細線は、図12(1)における原音声のパワースペクトルであり、太線は、図12(4)における伸長後の音声のパワースペクトルである。
図12(4)から、伸長後の音声波形は、図12(3)のゼロ信号を付加した残差波形と同様に、滑らかな波形となっていることがわかる。しかし、図13を参照して、図12(1)に示す原音声の音声波形におけるパワースペクトル(細線)と、図12(4)に示す伸長後の音声波形におけるパワースペクトル(太線)とを比較すると、その違いは明確であり、伸長後の音声は、原音声に対して音質が劣化していることがわかる。
伸長後の音声の音質劣化は、残差波形の後ろにゼロ信号を付加することによる情報欠落に起因するものである。また、短縮後の音声も同様に、残差波形を途中で打ち切ることによる情報欠落に起因して、その音質は劣化する。
このように、従来の音声信号処理装置では、放送に耐え得る高品質な音声を得ることができないという問題があった。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、ピッチ区間の音声波形を伸縮する際に、情報欠落のない高品質な音声を得ることが可能な音声信号処理装置及び音声ピッチ変換プログラムを提供することにある。
前記目的を達成するために、本発明による音声信号処理装置は、入力音声の有音区間及び無音区間を判別する有音/無音判別部と、前記有音区間における音声波形の有声音区間及び無声音区間を判別する有声/無声判別部と、前記有声音区間における音声波形のピッチ区間を抽出するピッチ区間抽出部と、前記ピッチ区間の音声波形におけるピッチ周期列に対し所望の変更を加えてピッチ周波数を制御し、新たなピッチ周期列を生成するピッチ周波数制御部と、前記抽出されたピッチ区間のピッチ区間波形を伸縮するピッチ区間波形伸縮部と、前記伸縮後のピッチ区間毎の音声波形を、前記入力音声の発話時間長に変化がないように間引くまたは繰り返すことによって接続するピッチ区間波形接続部と、前記接続後の音声波形に対してスペクトル包絡を求め、これを前記入力音声のスペクトル包絡と同じになるように修正するスペクトル包絡修正部と、前記スペクトル包絡が修正された有声音区間の音声波形、前記無音区間の音声波形及び前記無声音区間の音声波形を接続し、新たな音声波形を出力する区間接続部と、を備えた音声信号処理装置において、前記ピッチ区間波形伸縮部が、第1のピッチ区間波形を伸長する際に、前記第1のピッチ区間波形を繰り返すことで前記新たなピッチ周期列に応じた伸長後のピッチ周期に所定の接続区間を加えた時間長の波形を生成して保持し、前記保持した波形のうち、繰り返された前記第1のピッチ区間波形における冒頭の所定区間の波形に、前記第1のピッチ区間波形に続く第2のピッチ区間波形における冒頭の前記所定区間の波形を重ね合わせることにより、前記第1のピッチ区間波形の接続を行い、所定の関数を用いて前記接続した波形を減衰させ、伸長後の第1のピッチ区間波形を生成する、ことを特徴とする。
また、本発明による音声信号処理装置は、前記接続した波形を減衰させる所定の関数を、指数関数とする、ことを特徴とする。
また、本発明による音声信号処理装置は、前記ピッチ区間波形接続部が、前記伸長後の第1のピッチ区間波形に第2のピッチ区間波形を接続する際に、前記伸長後の第1のピッチ区間波形における末尾の所定の接続区間の波形と、前記第2のピッチ区間波形における冒頭の前記所定の接続区間の波形とを重ね合わせる、ことを特徴とする。
また、本発明による音声信号処理装置は、前記ピッチ区間波形伸縮部が、第1のピッチ区間波形を短縮する際に、前記第1のピッチ区間波形のうち前記新たなピッチ周期列に応じた短縮後のピッチ周期における波形を保持し、前記第1のピッチ区間波形のうち前記保持した波形に後続する所定の接続区間の波形に、前記ピッチ区間波形接続部により前記短縮後の第1のピッチ区間波形に接続される第3のピッチ区間波形における冒頭の前記所定の接続区間の波形を重ね合わせ、前記保持した波形及び前記重ね合わせた波形を合成波形としてそのオフセットを算出し、前記合成波形から前記オフセットを減算し、短縮後の第1のピッチ区間波形を生成する、ことを特徴とする。
また、本発明による音声信号処理装置は、前記ピッチ区間波形接続部が、前記短縮後の第1のピッチ区間波形に前記第3のピッチ区間波形を接続する際に、前記短縮後の第1のピッチ区間波形における末尾の所定の接続区間の波形と、前記第3のピッチ区間波形における冒頭の前記所定の接続区間の波形とを重ね合わせる、ことを特徴とする。
さらに、本発明による音声ピッチ変換プログラムは、コンピュータを、前記音声信号処理装置として機能させることを特徴とする。
以上のように、本発明によれば、ピッチ区間の音声波形を伸縮する際に、情報欠落のない高品質な音声を得ることが可能となる。
本発明の実施形態による音声信号処理装置の構成を示すブロック図である。 ピッチ区間波形伸縮部による実施例1の伸縮処理を示すフローチャートである。 ピッチ区間波形伸縮部における実施例1のピッチ区間波形x1の伸長処理を説明する模式図である。 ピッチ区間波形接続部による実施例1の接続処理を示すフローチャートである。 ピッチ区間波形接続部における実施例1の接続処理を説明する模式図である。 実施例1における原音声の音声波形及び伸長後の音声波形の例を示す図である。 実施例1における原音声及び伸長後の音声のパワースペクトルの例を示す図である。 従来技術及び実施例1におけるピッチ変換倍率変化時の客観評価値を示す図である。 ピッチ区間波形伸縮部による実施例2の短縮処理を示すフローチャートである。 ピッチ区間波形伸縮部における実施例2のピッチ区間波形x1の短縮処理を説明する模式図である。 ピッチ区間波形接続部における実施例2の接続処理を説明する模式図である。 従来の音声信号処理装置によりピッチ変換が行われる音声波形の例を示す図である。 従来の音声信号処理装置によりピッチ変換が行われる原音声及び伸長後の音声のパワースペクトルの例を示す図である。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔音声信号処理装置〕
まず、本発明の実施形態による音声信号処理装置について説明する。図1は、その音声信号処理装置の構成を示すブロック図である。この音声信号処理装置1は、有音/無音判別部10、有声/無声判別部11、ピッチ区間抽出部12、ピッチ周波数制御部13、ピッチ区間波形伸縮部14、ピッチ区間波形接続部15、スペクトル包絡修正部16及び区間接続部17を備えている。
有音/無音判別部10は、図示しないA/D変換部によりA/D変換されて標本化された音声波形を入力し、入力した音声波形について、音声パワーの有無に基づいて、有音区間と無音区間とに判別する。有音/無音判別部10により判別された有音区間の音声波形は、有声/無声判別部11に出力され、無音区間の音声波形は、区間接続部17に出力される。
有声/無声判別部11は、有音/無音判別部10から有音区間の音声波形を入力し、入力した有音区間の音声波形について、PARCOR分析及び零交さ分析を行い、有声音区間と無声音区間とに判別する。有声/無声判別部11により判別された有声音区間の音声波形は、ピッチ区間抽出部12に出力され、無声音区間の音声波形は、区間接続部17に出力される。
ピッチ区間抽出部12は、有声/無声判別部11から有声音区間の音声波形を入力し、入力した有声音区間の音声波形の相関、ピークの間隔及びレベルに基づいて、ピッチ区間を抽出する。ピッチ区間抽出部12により抽出された有声音区間におけるピッチ区間の音声波形(ピッチ区間波形)は、ピッチ周波数制御部13に出力される。尚、有音/無音判別部10及び有声/無声判別部11における判別手法、並びにピッチ区間抽出部12における抽出手法は例示であり、他の手法を用いることができる。
ピッチ周波数制御部13は、ピッチ区間抽出部12により抽出されたピッチ区間波形ののピッチ周期列に対し、所望の変更を加えてピッチ周波数を制御し、例えば抑揚を強調または抑圧した新たなピッチ周期列を求める。ピッチ周波数制御部13にて求めた新たなピッチ周期列は、ピッチ区間波形伸縮部14に出力される。
ピッチ区間波形伸縮部14は、ピッチ周波数制御部13から新たなピッチ周期列を入力し、入力した新たなピッチ周期列に応じて、ピッチ区間抽出部12により抽出されたピッチ区間波形を伸縮する。ピッチ区間波形伸縮部14によりピッチ区間毎に伸縮された音声波形は、ピッチ区間波形接続部15に出力される。
ピッチ区間波形接続部15は、ピッチ区間波形伸縮部14からピッチ区間毎に伸縮された音声波形を入力し、入力した伸縮後の音声波形を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返すことで、音声波形を接続する。ピッチ区間波形接続部15により接続された音声波形は、スペクトル包絡修正部16に出力される。
スペクトル包絡修正部16は、ピッチ区間波形接続部15から音声波形を入力し、入力した音声波形(有声音区間の音声波形)に対して短時間スペクトル包絡を求め、これを入力音声のスペクトル包絡と同じになるように修正する。スペクトル包絡修正部16によりスペクトル包絡が修正された有声音区間の音声波形は、区間接続部17に出力される。
区間接続部17は、スペクトル包絡修正部16からスペクトル包絡が修正された有声音区間の音声波形を入力すると共に、有音/無音判別部10から無音区間の音声波形を、有声/無声判別部11から無声音区間の音声波形を入力する。そして、区間接続部17は、入力した各区間の音声波形を接続して合成し、合成後の音声波形を出力する。区間接続部17により出力された音声波形は、図示しないD/A変換部によりD/A変換され、出力音声として出力される。
〔実施例1:伸長処理〕
まず、ピッチ区間波形を伸縮する処理のうち、実施例1の伸長処理について説明する。実施例1において、ピッチ区間波形伸縮部14は、第1のピッチ区間波形(ピッチ周波数制御部13から入力するピッチ周期列の音声波形のうち伸長対象のピッチ区間波形)を伸長する場合、第1のピッチ区間波形を繰り返すことで、伸長後のピッチ周期に所定区間を加えた時間長の繰り返し音声波形を保持し、繰り返し音声波形のうち第1のピッチ区間波形における冒頭の波形に、後続の第2のピッチ区間波形における冒頭の波形を重ね合わせることにより、第1のピッチ区間波形の接続を行い、繰り返し接続後の音声波形を生成し、指数関数を用いて、繰り返し接続後の音声波形を減衰させ、伸長後の第1のピッチ区間波形を生成する。
また、実施例1において、ピッチ区間波形接続部15は、伸長後の第1のピッチ区間波形における末尾の波形と、次に接続する伸長後のピッチ区間波形における冒頭の波形とを重ね合わせることにより、伸長後の第1のピッチ区間波形と次に接続する伸長後のピッチ区間波形とを接続する。
(ピッチ区間波形伸縮部14の処理/実施例1)
ピッチ区間波形伸縮部14の処理について説明する。図2は、図1に示したピッチ区間波形伸縮部14による実施例1の伸長処理を示すフローチャートであり、図3は、図2の伸長処理を説明する模式図であり、これらはピッチ区間波形x1の伸長処理を示している。
原音声におけるある1ピッチ区間の音声波形を波形1(x1(i))、そのピッチ区間のサンプル数(ピッチ周期)をk、伸長後の音声波形のピッチ周期をk’とし、波形1に続く波形として波形2(x2(i))があるものとする。また、波形1(x1(i))を繰り返して接続した音声波形をy1(i)とし、波形1(x1(i))を伸長した後の音声波形をz1(i)とし、iを標本サンプル番号とする。図3において、kは元のピッチ周期を示し、k’(>k)は伸長後のピッチ周期を示す。
ピッチ区間の伸長は、波形1(x1(i))を繰り返して接続し、指数関数を用いて減衰させることによって実現する。波形の接続は、固定長pの窓関数を用いて重ね合わせることによって実現する。ここで、固定長pは、基本的に2msとし、音声波形のピッチ周期kが2msを下回る場合(k<2msの場合)、p=kとする。
図2を参照して、ピッチ区間波形伸縮部14は、伸長前のピッチ区間波形x1(i),x2(i)を入力し(ステップS201)、ピッチ区間波形x1(i)を繰り返す処理により、ピッチ区間1:k’+pの繰り返し音声波形を保持する(ステップS202)。
伸長後のピッチ周期k’、次のピッチ区間の波形2(x2(i))及び窓関数を用いて接続する区間の時間長p、伸長前のピッチ周期k、ピッチ周期kで除算した商q、及びその余りrは、以下の式で表される。
Figure 0006371530
具体的には、ピッチ区間波形伸縮部14は、ピッチ区間1:kについて、波形1すなわち波形x1(1:k)をそのまま利用する。
そして、ピッチ区間波形伸縮部14は、ピッチ区間k+1:k’+pについて、波形1(x1(i))を(q−1)回繰り返した後、波形1(x1(i))のうちピッチ区間1:rの波形x1(1:r)を接続する。これにより、波形1(x1(i))を繰り返した音声波形(ピッチ区間1:k’+pの繰り返し音声波形)が保持される。
ピッチ区間波形伸縮部14は、ステップS202にて保持した繰り返し音声波形に対し、ピッチ区間波形x2(i)及び窓関数を用いて、当該音声波形におけるピッチ区間波形x1(i)の接続を行い、繰り返し接続後の音声波形y1を生成する(ステップS203)。
具体的には、ピッチ区間波形伸縮部14は、ピッチ区間k+1:k’+pにおけるそれぞれの波形1(x1(i))のピッチ区間1:p、すなわち、繰り返しの音声波形におけるピッチ区間k+1:k+p,2k+1:2k+p,・・・,(q−1)k+1:(q−1)k+pについて、図3(1)(2)に示すように、波形2(x2(i))における冒頭の固定窓長p分の波形x2(1:p)に1から0へ減衰する窓関数を乗じた乗算結果と、波形1(x1(i))における冒頭の固定窓長p分の波形x1(1:p)に0から1へ増大する窓関数を乗じた乗算結果とを加算する重ね合わせにより、ピッチ区間波形x1(i)の接続を行う。この場合、窓関数の時間長は固定長(例えば2ms)とする。
つまり、ピッチ区間波形伸縮部14は、ステップS202及びステップS203において、以下の式に示す処理を行い、繰り返し接続後の音声波形y1(1:k’+p)を生成する。
Figure 0006371530
ピッチ区間波形伸縮部14は、ステップS203にて生成した繰り返し接続後の音声波形y1に対し、指数関数を用いて、当該音声波形y1を減衰させ、伸長後の音声波形z1を生成する(ステップS204)。
具体的には、ピッチ区間波形伸縮部14は、ピッチ区間k+1:k’+pについて、図3(3)に示すように、繰り返し接続後の音声波形y1に対し、以下の式に示す減衰定数g(例えば−1.0)の指数関数を乗算することで、当該音声波形y1を減衰させ、ピッチ区間波形x1(i)を伸長した音声波形z1(1:k’+p)を生成する。
Figure 0006371530
ピッチ区間波形伸縮部14は、ステップS204にて生成した伸長後の音声波形z1を出力する(ステップS205)。これにより、ピッチ区間波形伸縮部14において、ピッチ周期kのピッチ区間波形x1から、伸長後のピッチ周期k’に対して後段のピッチ区間波形接続部15における接続処理用の時間長pを加えた時間長k’+pの音声波形z1が生成される。
(ピッチ区間波形接続部15の処理/実施例1)
次に、ピッチ区間波形接続部15の処理について説明する。図4は、図1に示したピッチ区間波形接続部15による実施例1の接続処理を示すフローチャートであり、図5は、図4の接続処理を説明する模式図である。
ピッチ区間波形接続部15は、ピッチ区間波形伸縮部14からピッチ区間毎の伸長後の音声波形を入力し(ステップS401)、入力したピッチ区間毎の音声波形を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返す(ステップS402)。そして、ピッチ区間波形接続部15は、ステップS402にて間引くまたは繰り返した後の音声波形を、窓関数を用いて接続し、接続後の音声波形zを生成する(ステップS403)。
具体的には、例えば伸長後の音声波形z1に対して接続される音声波形をz2とした場合、ピッチ区間波形接続部15は、図5(1)に示すように、伸長後の音声波形z1(1:k’+p)における末尾の固定窓長p分の波形z1(k’+1:k’+p)に1から0へ減衰する窓関数を乗じた乗算結果と、伸長後の音声波形z2における冒頭の固定窓長p分の波形z2(1:p)に0から1へ増大する窓関数を乗じた乗算結果とを加算して重ね合わせる。
このような接続処理を行うことにより、図5(2)に示す伸長後の音声波形zが生成される。尚、伸長後の音声波形z2における冒頭の固定窓長p分の波形z2(1:p)は、ピッチ区間波形x2(i)における波形x2(1:p)と同じである。また、伸長後の音声波形z1に対して接続される音声波形は、必ずしもz2であるとは限らない。
ピッチ区間波形接続部15は、ステップS403にて生成した接続後の音声波形zを、伸長後の音声波形zとして出力する(ステップS404)。これにより、ピッチ区間波形接続部15において、ピッチ区間波形伸縮部14により伸長された伸長後の音声波形z1,z2等が、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返された後に接続される。
(実施例1の効果)
図6は、実施例1における原音声の音声波形及び伸長後の音声波形z1の例を示す図である。図6において、横軸は時間(サンプル)を示し、縦軸は音声波形の振幅を示す。(1)は、入力音声である原音声の音声波形を示し、(2)は、ピッチ区間波形伸縮部14により伸長された伸長後の音声波形z1を示す。
図7は、実施例1における原音声及び伸長後の音声のパワースペクトルの例を示す図である。図7において、横軸は音声波形の周波数(Hz)を示し、縦軸は音声波形の振幅(dB)を示す。細線は、図6(1)における原音声のパワースペクトルであり、太線は、図6(2)における伸長後の音声のパワースペクトルである。
図6(2)から、伸長後の音声波形z1は、滑らかな波形となっていることがわかる。また、図7から、図6(1)に示す原音声の音声波形におけるパワースペクトル(細線)と、図6(2)に示す伸長後の音声波形z1におけるパワースペクトル(太線)とを比較すると、図13に示した従来技術と異なり両者は類似しており、音質が改善されていることがわかる。つまり、実施例1では、従来技術よりも高品質な音声を得ることができる。
図8は、従来技術及び実施例1におけるピッチ変換倍率(伸縮倍率)変化時の客観評価値を示す図である。図8において、横軸はピッチ変換倍率を示し、縦軸は客観評価値(fwSNRseg)を示す。(1)は女性話者が発声した場合、(2)は男性話者が発声した場合をそれぞれ示し、菱形印の折れ線は、従来技術の客観評価値を示し、四角印の折れ線は、実施例1及び後述する実施例2の客観評価値を示す。原音としては短母音(‘a’,‘e’,‘i’,‘o’,‘u’の5つ)が用いられている。
ピッチ変換倍率変化時の客観評価値を得る客観評価法には、さまざまな方法があるが、主観的な評価結果との乖離が少ないものを用いることが望ましい。そこで、図8では、以下の式に示す客観評価値fwSNRsegを用いた。
Figure 0006371530
ここで、Bjはj番目の周波数帯域に対する重み、K(=25)は周波数帯域の数、Mは音声信号の全フレーム数、|X(m,j)|は原音のm番目のフレーム及びj番目の周波数帯域のフィルターバンクの振幅を示す。また、
Figure 0006371530
は、ピッチ変換された音声波形におけるm番目のフレーム及びj番目の周波数帯域のフィルターバンクの振幅である。
前記式の客観評価値(fwSNRseg)は、以下の文献に基づくものである。
Tribolet,J., Noll,P., McDermott,B., and Crochiere,R.E. (1978)、“A study of complexity and quality of speech waveform coders.” Proc.IEEE Int.Conf.Acoust., Speech, Signal Processing, 586-590.
この客観評価値(fwSNRseg)は、通常、広く用いられるsegmental SNRに対して聴覚的な重み付けがされているため、主観的な聴感試験の結果と相関が高い。つまり、客観評価値(fwSNRseg)が大きいほど評価が高いことになる。
図8に示すピッチ区間を伸長した変換倍率の部分(ピッチ変換倍率0.5から0.9の部分)の客観評価値(fwSNRseg)から、(1)の女性話者及び(2)の男性話者の双方において、概ね全てのピッチ変換倍率につき実施例1の品質が従来技術よりも高いことがわかる。
以上のように、実施例1の伸長処理を行う音声信号処理装置1によれば、ピッチ区間波形伸縮部14は、ピッチ区間毎に音声波形を伸長する際に、波形1であるピッチ区間波形x1(i)を繰り返した繰り返し音声波形に対し、後続の波形2であるピッチ区間波形x2(i)及び窓関数を用いてピッチ区間波形x1(i)の接続を行うことで(繰り返し音声波形のうちピッチ区間波形x1(i)の冒頭の波形に、ピッチ区間波形x2(i)の冒頭の波形を重ね合わせることで)、繰り返し接続後の音声波形y1を生成し、指数関数を用いて、繰り返し接続後の音声波形y1を減衰させて伸長後の音声波形z1を生成するようにした。そして、ピッチ区間波形接続部15は、伸長後の音声波形z1等を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返し、伸長後の音声波形z1の次に接続する音声波形をz2(伸長後の音声波形z2)とした場合、窓関数を用いて(音声波形z1の末尾の波形と次に接続する音声波形z2の冒頭の波形とを重ね合わせることで)これらを接続し、接続後の音声波形zを生成するようにした。
これにより、伸長後の音声は、残差波形の後ろにゼロ信号を付加する従来技術に比べ、情報の欠落がないから、音質が劣化することがない。したがって、放送に耐え得る高品質な音声を得ることができる。
〔実施例2:短縮処理〕
次に、ピッチ区間波形を伸縮する処理のうち、実施例2の短縮処理について説明する。実施例2において、ピッチ区間波形伸縮部14は、第1のピッチ区間波形(ピッチ周波数制御部13から入力するピッチ周期列の音声波形のうち短縮対象のピッチ区間波形)を短縮する場合、第1のピッチ区間波形のうち短縮後のピッチ周期における波形aを保持し、第1のピッチ区間波形のうち波形aに後続する所定区間の波形に、第2のピッチ区間波形における冒頭の波形を重ね合わせて波形bを生成し、波形a,bに対してオフセット処理を施し、短縮後の第1のピッチ区間波形を生成する。
また、実施例2において、ピッチ区間波形接続部15は、短縮後の第1のピッチ区間波形における末尾の所定期間の波形と、次に接続する短縮後の第2のピッチ区間波形における冒頭の波形とを重ね合わせることにより、短縮後の第1のピッチ区間波形と次に接続する短縮後の第2のピッチ区間波形とを接続する。
(ピッチ区間波形伸縮部14の処理/実施例2)
ピッチ区間波形伸縮部14の処理について説明する。図9は、図1に示したピッチ区間波形伸縮部14による実施例2の短縮処理を示すフローチャートであり、図10は、図9の短縮処理を説明する模式図であり、これらはピッチ区間波形x1の短縮処理を示している。
原音声におけるある1ピッチ区間の音声波形を波形1(x1(i))、そのピッチ区間のサンプル数(ピッチ周期)をk、短縮後の音声波形のピッチ周期をk’とする。また、ピッチ区間波形接続部15において波形1に波形2(x2(i))が接続されるものとする。また、波形1(x1(i))を短縮し、波形1(x1(i))と波形2(x2(i))の冒頭とを重ね合わせた音声波形をy1(i)とし、音声波形y1(i)にオフセット処理を施した短縮後の音声波形をz1(i)とし、iを標本サンプル番号とする。図10において、kは元のピッチ周期を示し、k’(<k)は短縮後のピッチ周期を示す。
ピッチ区間の短縮は、波形1(x1(i))のピッチ区間を短縮し、これに波形2(x2(i))の冒頭を、固定長pの窓関数を用いて重ね合わせることで音声波形y1(i)を生成し、音声波形y1(i)から音声波形y1(i)のオフセットを減算することによって実現する。ここで、固定長pは、基本的に2msとし、短縮後の音声波形のピッチ周期k’が2msを下回る場合(k’<2msの場合)、p=k’とする。
図9を参照して、ピッチ区間波形伸縮部14は、短縮前のピッチ区間波形x1(i),x2(i)を入力する(ステップS901)。そして、ピッチ区間波形伸縮部14は、ピッチ区間波形x1(i)のうちピッチ区間1:k’の波形aを保持し(ステップS902)、ピッチ区間波形x1(i),x2(i)及び窓関数を用いて、ピッチ区間k’+1:k’+pの波形bを生成する(ステップS903)。この場合、窓関数の時間長は固定長(例えば2ms)とする。
具体的には、ピッチ区間波形伸縮部14は、ピッチ区間1:k’について、波形1すなわち波形x1(1:k’)である波形aをそのまま利用するために、波形aを保持する。
そして、ピッチ区間波形伸縮部14は、図10(1)に示すように、ピッチ区間k’+1:k’+pについて、波形1(x1(i))における固定窓長p分の波形x1(k’+1:k’+p)に1から0へ減衰する窓関数を乗じた乗算結果と、波形2(x2(i))における冒頭の固定窓長p分の波形x2(1:p)に0から1へ増大する窓関数を乗じた乗算結果とを加算する重ね合わせにより、波形bを生成する。
尚、ピッチ区間波形接続部15において波形1(x1(i))に波形2(x2(i))が接続されることから、ステップS903では、波形1(x1(i))と波形2(x2(i))とを重ね合わせるようにした。これに対し、例えば、ピッチ区間波形接続部15において波形1(x1(i))に波形3(x3(i))が接続される場合には、ステップS903では、波形1(x1(i))と波形3(x3(i))とを重ね合わせる。
この場合、ピッチ区間波形伸縮部14は、波形1(x1(i))との重ね合わせを行う波形の情報(ピッチ区間波形接続部15において波形1(x1(i))に接続される波形の情報)を、ピッチ周波数制御部13から入力する。ピッチ周波数制御部13は、入力音声の発話時間長、短縮前のピッチ周波数(ピッチ区間抽出部12により抽出されたピッチ区間の音声波形におけるピッチ周波数)、及び短縮後のピッチ周波数(所望の変更を加えて求めた新たなピッチ周波数)に基づいて、入力音声の発話時間長に変化がないようにピッチ区間波形接続部15において波形1(x1(i))に接続される波形の情報を得ることができる。
ピッチ区間波形伸縮部14は、図10(2)に示すように、ステップS902にて保持したピッチ区間1:k’の波形a及びステップS903にて生成したピッチ区間k’+1:k’+pの波形bを、合成後の音声波形y1に設定する(ステップS904)。
つまり、ピッチ区間波形伸縮部14は、ステップS902〜ステップS904において、以下の式に示す処理を行い、合成後の音声波形y1を生成する。
Figure 0006371530
ピッチ区間波形伸縮部14は、ステップS904にて生成した合成後の音声波形y1に対してオフセット処理を施し、短縮後の音声波形z1を生成する(ステップS905)。
具体的には、ピッチ区間波形伸縮部14は、合成後の音声波形y1のオフセットoffsetを以下の式により算出する。
Figure 0006371530
このオフセットoffsetは、音声波形y1の振幅の平均に相当する。
そして、ピッチ区間波形伸縮部14は、以下の式により、合成後の音声波形y1からオフセットoffsetを減算し、短縮後の音声波形z1(1:k’+p)を生成する。
Figure 0006371530
これにより、音声波形z1(1:k’+p)は、プラス成分及びマイナス成分が比較的均等になるから、歪みの少ない安定した音声を得ることができる。
ピッチ区間波形伸縮部14は、ステップS905にて生成した短縮後の音声波形z1を出力する(ステップS906)。これにより、ピッチ区間波形伸縮部14において、ピッチ周期kのピッチ区間波形x1から、短縮後のピッチ周期k’に対して後段のピッチ区間波形接続部15における接続処理用の時間長pを加えた時間長k’+pの音声波形z1が生成される。
(ピッチ区間波形接続部15の処理/実施例2)
次に、ピッチ区間波形接続部15の処理について説明する。図11は、図1に示したピッチ区間波形接続部15による実施例2の接続処理を説明する模式図である。
ピッチ区間波形接続部15の処理は、図4に示した処理と同様に、ピッチ区間波形伸縮部14からピッチ区間毎の短縮後の音声波形を入力し、入力したピッチ区間毎の音声波形を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返す。そして、ピッチ区間波形接続部15は、間引くまたは繰り返した後の音声波形を、窓関数を用いて接続し、接続後の音声波形zを生成し、短縮後の音声波形zとして出力する。
具体的には、例えば短縮後の音声波形z1に対し、次に接続する音声波形をz2とした場合、ピッチ区間波形接続部15は、図11(1)に示すように、短縮後の音声波形z1(1:k’+p)における末尾の固定窓長p分の波形z1(k’+1:k’+p)に1から0へ減衰する窓関数を乗じた乗算結果と、短縮後の音声波形z2における冒頭の固定窓長p分の波形z2(1:p)に0から1へ増大する窓関数を乗じた乗算結果とを加算して重ね合わせる。
このような接続処理を行うことにより、図11(2)に示す短縮後の音声波形zが生成される。尚、短縮後の音声波形z2における冒頭の固定窓長p分の波形z2(1:p)は、ピッチ区間波形x2(i)における波形x2(1:p)と同じである。
これにより、ピッチ区間波形接続部15において、ピッチ区間波形伸縮部14により短縮された短縮後の音声波形z1,z2等が、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返された後に接続される。
(実施例2の効果)
図8を参照して、ピッチ区間を短縮した変換倍率の部分(ピッチ変換倍率1.2から2.0の部分)の客観評価値から、(1)の女性話者及び(2)の男性話者の双方において、全てのピッチ変換倍率につき実施例2の品質が従来技術よりも高いことがわかる。
以上のように、実施例2の短縮処理を行う音声信号処理装置1によれば、ピッチ区間波形伸縮部14は、ピッチ区間毎に音声波形を短縮する際に、波形1であるピッチ区間波形x1(i)のうちの短縮後のピッチ周期における波形aを保持し、ピッチ区間波形x1(i)、後段のピッチ区間波形接続部15により短縮後の音声波形z1に接続される波形2のピッチ区間波形x2(i)、及び窓関数を用いて(ピッチ区間波形x1(i)のうち波形aに後続する波形とピッチ区間波形x2(i)の冒頭の波形とを重ね合わせることで)波形bを生成し、波形a,bである音声波形y1にオフセット処理を施して短縮後の音声波形z1を生成するようにした。そして、ピッチ区間波形接続部15は、短縮後の音声波形z1等を、入力音声の発話時間長に変化がないように適宜間引くまたは繰り返し、短縮後の音声波形z1の次に接続する音声波形をz2(短縮後の音声波形z2)とした場合、窓関数を用いて(音声波形z1の末尾の波形と次に接続する音声波形z2の冒頭の波形とを重ね合わせることで)これらを接続し、接続後の音声波形zを生成するようにした。
これにより、短縮後の音声は、残差波形を途中で打ち切ることで音声波形を短縮する従来技術に比べ、情報の欠落がないから、音質が劣化することがない。したがって、放送に耐え得る高品質な音声を得ることができる。
尚、本発明の実施形態による音声信号処理装置1のハードウェア構成としては、通常のコンピュータを使用することができる。音声信号処理装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声信号処理装置1に備えた有音/無音判別部10、有声/無声判別部11、ピッチ区間抽出部12、ピッチ周波数制御部13、ピッチ区間波形伸縮部14、ピッチ区間波形接続部15、スペクトル包絡修正部16及び区間接続部17の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1 音声信号処理装置
10 有音/無音判別部
11 有声/無声判別部
12 ピッチ区間抽出部
13 ピッチ周波数制御部
14 ピッチ区間波形伸縮部
15 ピッチ区間波形接続部
16 スペクトル包絡修正部
17 区間接続部

Claims (6)

  1. 入力音声の有音区間及び無音区間を判別する有音/無音判別部と、前記有音区間における音声波形の有声音区間及び無声音区間を判別する有声/無声判別部と、前記有声音区間における音声波形のピッチ区間を抽出するピッチ区間抽出部と、前記ピッチ区間の音声波形におけるピッチ周期列に対し所望の変更を加えてピッチ周波数を制御し、新たなピッチ周期列を生成するピッチ周波数制御部と、前記抽出されたピッチ区間のピッチ区間波形を伸縮するピッチ区間波形伸縮部と、前記伸縮後のピッチ区間毎の音声波形を、前記入力音声の発話時間長に変化がないように間引くまたは繰り返すことによって接続するピッチ区間波形接続部と、前記接続後の音声波形に対してスペクトル包絡を求め、これを前記入力音声のスペクトル包絡と同じになるように修正するスペクトル包絡修正部と、前記スペクトル包絡が修正された有声音区間の音声波形、前記無音区間の音声波形及び前記無声音区間の音声波形を接続し、新たな音声波形を出力する区間接続部と、を備えた音声信号処理装置において、
    前記ピッチ区間波形伸縮部は、
    第1のピッチ区間波形を伸長する際に、前記第1のピッチ区間波形を繰り返すことで前記新たなピッチ周期列に応じた伸長後のピッチ周期に所定の接続区間を加えた時間長の波形を生成して保持し、
    前記保持した波形のうち、繰り返された前記第1のピッチ区間波形における冒頭の所定区間の波形に、前記第1のピッチ区間波形に続く第2のピッチ区間波形における冒頭の前記所定区間の波形を重ね合わせることにより、前記第1のピッチ区間波形の接続を行い、
    所定の関数を用いて前記接続した波形を減衰させ、伸長後の第1のピッチ区間波形を生成する、ことを特徴とする音声信号処理装置。
  2. 請求項1に記載の音声信号処理装置において、
    前記接続した波形を減衰させる所定の関数を、指数関数とする、ことを特徴とする音声信号処理装置。
  3. 請求項1または2に記載の音声信号処理装置において、
    前記ピッチ区間波形接続部は、
    前記伸長後の第1のピッチ区間波形に第2のピッチ区間波形を接続する際に、
    前記伸長後の第1のピッチ区間波形における末尾の所定の接続区間の波形と、前記第2のピッチ区間波形における冒頭の前記所定の接続区間の波形とを重ね合わせる、ことを特徴とする音声信号処理装置。
  4. 請求項1に記載の音声信号処理装置において、
    前記ピッチ区間波形伸縮部は、
    第1のピッチ区間波形を短縮する際に、前記第1のピッチ区間波形のうち前記新たなピッチ周期列に応じた短縮後のピッチ周期における波形を保持し、
    前記第1のピッチ区間波形のうち前記保持した波形に後続する所定の接続区間の波形に、前記ピッチ区間波形接続部により前記短縮後の第1のピッチ区間波形に接続される第3のピッチ区間波形における冒頭の前記所定の接続区間の波形を重ね合わせ、
    前記保持した波形及び前記重ね合わせた波形を合成波形としてそのオフセットを算出し、前記合成波形から前記オフセットを減算し、短縮後の第1のピッチ区間波形を生成する、ことを特徴とする音声信号処理装置。
  5. 請求項4に記載の音声信号処理装置において、
    前記ピッチ区間波形接続部は、
    前記短縮後の第1のピッチ区間波形に前記第3のピッチ区間波形を接続する際に、
    前記短縮後の第1のピッチ区間波形における末尾の所定の接続区間の波形と、前記第3のピッチ区間波形における冒頭の前記所定の接続区間の波形とを重ね合わせる、ことを特徴とする音声信号処理装置。
  6. コンピュータを、請求項1から5までのいずれか一項に記載の音声信号処理装置として機能させるための音声ピッチ変換プログラム。
JP2014010507A 2014-01-23 2014-01-23 音声信号処理装置及び音声ピッチ変換プログラム Active JP6371530B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014010507A JP6371530B2 (ja) 2014-01-23 2014-01-23 音声信号処理装置及び音声ピッチ変換プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014010507A JP6371530B2 (ja) 2014-01-23 2014-01-23 音声信号処理装置及び音声ピッチ変換プログラム

Publications (2)

Publication Number Publication Date
JP2015138187A JP2015138187A (ja) 2015-07-30
JP6371530B2 true JP6371530B2 (ja) 2018-08-08

Family

ID=53769206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014010507A Active JP6371530B2 (ja) 2014-01-23 2014-01-23 音声信号処理装置及び音声ピッチ変換プログラム

Country Status (1)

Country Link
JP (1) JP6371530B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2612867B2 (ja) * 1987-10-06 1997-05-21 日本放送協会 音声ピッチ変換方法
JPH05108092A (ja) * 1991-10-15 1993-04-30 N T T Data Tsushin Kk 音声ピツチ変換装置
JP2002244693A (ja) * 2001-02-16 2002-08-30 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
JP4957496B2 (ja) * 2007-10-04 2012-06-20 ヤマハ株式会社 ピッチ変換装置およびプログラム

Also Published As

Publication number Publication date
JP2015138187A (ja) 2015-07-30

Similar Documents

Publication Publication Date Title
JP4818335B2 (ja) 信号帯域拡張装置
JP5127754B2 (ja) 信号処理装置
JP6423420B2 (ja) 帯域幅拡張方法および装置
US8370153B2 (en) Speech analyzer and speech analysis method
JP6347536B2 (ja) 音合成方法及び音合成装置
JP5443547B2 (ja) 信号処理装置
JP4445460B2 (ja) 音声処理装置及び音声処理方法
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
JP2006126859A5 (ja)
EP3113180B1 (en) Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal
JP6371530B2 (ja) 音声信号処理装置及び音声ピッチ変換プログラム
JP6321334B2 (ja) 信号処理装置及びプログラム
KR20170080387A (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
JP5830364B2 (ja) 韻律変換装置およびそのプログラム
JP2020190606A (ja) 音声雑音除去装置及びプログラム
VH et al. A study on speech recognition technology
JP4603727B2 (ja) 音響信号分析方法及び装置
JP6140685B2 (ja) 帯域パワー算出装置及び帯域パワー算出方法
JP6371531B2 (ja) 音声信号処理装置及びプログラム
WO2016203753A1 (ja) 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
JP6159570B2 (ja) 音声強調装置、及びプログラム
JP5679451B2 (ja) 音声処理装置およびそのプログラム
van Schijndel et al. Towards a better balance in sinusoidal plus stochastic representation
JP3748081B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180713

R150 Certificate of patent or registration of utility model

Ref document number: 6371530

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250