JP6616962B2 - 信号処理装置及びプログラム - Google Patents

信号処理装置及びプログラム Download PDF

Info

Publication number
JP6616962B2
JP6616962B2 JP2015098608A JP2015098608A JP6616962B2 JP 6616962 B2 JP6616962 B2 JP 6616962B2 JP 2015098608 A JP2015098608 A JP 2015098608A JP 2015098608 A JP2015098608 A JP 2015098608A JP 6616962 B2 JP6616962 B2 JP 6616962B2
Authority
JP
Japan
Prior art keywords
frequency
unit
spectrum envelope
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015098608A
Other languages
English (en)
Other versions
JP2016212356A (ja
Inventor
信正 清山
篤 今井
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2015098608A priority Critical patent/JP6616962B2/ja
Publication of JP2016212356A publication Critical patent/JP2016212356A/ja
Application granted granted Critical
Publication of JP6616962B2 publication Critical patent/JP6616962B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力された音声信号に対して声質変換処理を施す信号処理装置及びプログラムに関する。
従来、音声信号に対して所定処理を施すことによって声質を変換する方法として、様々な方法が提案されている。例えば、音声信号からスペクトル包絡を抽出して声質を変換する方法として、以下に示す特許文献1に記載されている方法が知られている。
かかる特許文献1に記載されている方法は、以下の手順によって行われる。第1に、入力された音声信号から有声音区間を抽出する。第2に、抽出された有声音区間において、線形予測係数を求めることによって、ホルマント周波数(共振周波数)及び帯域幅を算出すると共に、線形予測係数に基づいてスペクトル包絡(変更前スペクトル包絡)を算出する。第3に、有声音区間における音声信号に対してフーリエ変換を施して周波数領域の成分(周波数成分)に変換する。第4に、ホルマント周波数の各時間軌跡におけるホルマント周波数又は帯域幅に変更を加える。第5に、変更が加えられたホルマント周波数又は帯域幅に基づいてスペクトル包絡(変更後スペクトル包絡)を算出する。第6に、変更後スペクトル包絡を変更前スペクトル包絡で除した商(変更成分)を算出する。第7に、上述の周波数成分に対して、かかる変更成分を乗ずることにより、上述のホルマント周波数に対する変更を含むスペクトル変更を行った後、かかる周波数成分に対して逆フーリエ変換を施して時間領域の成分の音声信号を取得する。第8に、かかる音声信号を、無声音区間、無音区間又は前後の有声音区間に接続して、声質変更が施された音声信号を取得する。
特許第2612869号
ここで、上述の特許文献1に記載されている方法では、変換ビット数が12ビットで標本化周波数が15kHでA/D変換された音声信号を対象とした実施例が挙げられており、かかる実施例では、男性の音声信号(男声)に対しては線形予測分析次数pを14次程度とし、女性の音声信号(女性)に対しては線形予測分析次数pを10次程度としている。
図11に、特許文献1に記載されている方法で用いられているパラメータとほぼ同じパラメータとして標本化周波数を16kHzとし線形予測分析次数を16次とした場合のスペクトル包絡を示す。ここで、図11では、横軸が周波数(Hz)を示し、縦軸が振幅(dB)を示し、実線がパワースペクトルを示し、点線がスペクトル包絡を示す。
ここで、線形予測分析によるスペクトル包絡が、パワースペクトルのピーク部分を捉えており、声質を変換する際に、個人性に寄与する主に4kHzまでの低い周波数から3個程度のピークを変化させることができる。
図12に、標本化周波数を48kHzとして線形予測分析次数を16次とした場合のスペクトル包絡を示す。
かかる場合には、すなわち、線形予測分析次数として16次を用いて標本化周波数48kHzという広い帯域の音声信号に対して線形予測分析を行った場合には、細かい共振のピークを求めることができないため、標本化周波数が15kHzとされているケースで想定しているような音声帯域のピーク部分を捉えることができない。
一方で、図13に、標本化周波数を48kHzとして線形予測分析次数を48次とした場合のスペクトル包絡を示す。
かかる場合には、すなわち、線形予測分析次数を増やして適切な次数で標本化周波数が48kHzといった広い帯域の音声信号に対して線形予測分析を行った場合には、標本化周波数が15kHzとされているケースで想定しているようなホルマント周波数に相当する音声帯域も含めて、細かい共振のピークを求めることができる。
以上のように、上述の特許文献1に記載されている方法では、帯域幅が15kHz以上の広い帯域の音声信号(例えば、標本化周波数が48kHzの音声信号)を対象として、標本化周波数が15kHzとされているケースで想定しているようなホルマント周波数に相当する音声帯域のスペクトル包絡を変更した音声を得ることができないという問題点があった。
そこで、本発明は、上述した課題を解決するためになされたものであり、入力された音声信号に対して高品質な声質変換を行うことができる信号処理装置及びプログラムを提供することを目的とする。
本発明の第1の特徴は、入力された音声信号に対して所定処理を施すように構成されている信号処理装置であって、前記音声信号から周波数特性を算出するように構成されている周波数特性算出部と、前記音声信号から算出された線形予測係数に基づいて、前記音声信号のスペクトル包絡を算出するように構成されているスペクトル包絡算出部と、入力された周波数を一意に変換する周波数変換関数を用いて、前記スペクトル包絡を構成する周波数成分を変更するように構成されている変更部と、前記周波数成分が変更された前記スペクトル包絡に基づいて、前記周波数特性を補正するように構成されている補正部と、補正された前記周波数特性に基づいて、前記所定処理が施された音声信号を取得するように構成されている処理部とを具備することを要旨とする。
本発明の第2の特徴は、入力された音声信号に対して所定処理を施すように構成されている信号処理装置であって、前記音声信号から周波数特性を算出するように構成されている周波数特性算出部と、前記音声信号から算出された線形予測係数に基づいて、前記音声信号のスペクトル包絡を算出するように構成されているスペクトル包絡算出部と、ホルマントに所望の変更を加えることによって、前記スペクトル包絡に対して所望の変更を加えるように構成されている変更部と、前記所望の変更が加えられた前記スペクトル包絡に基づいて、前記周波数特性を補正するように構成されている補正部と、補正された前記周波数特性に基づいて、前記所定処理が施された音声信号を取得するように構成されている処理部とを具備し、前記スペクトル包絡算出部は、前記線形予測係数として、前記入力された音声信号をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数を用いるように構成されていることを要旨とする。
本発明の第3の特徴は、コンピュータを、上述の信号処理装置として機能させるためのプログラムであることを要旨とする。
本発明によれば、入力された音声信号に対して高品質な声質変換を行うことができる信号処理装置及びプログラムを提供することができる。
図1は、第1の実施形態に係る信号処理装置1の機能ブロック図である。 図2は、第1の実施形態に係る信号処理装置1で用いられる周波数変換関数の一例を示す図である。 図3(a)は、第1の実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、図3(b)は、第1の実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す(周波数変換倍率β=0.5)。 図4(a)は、第1の実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、図4(b)は、第1の実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す(周波数変換倍率β=2.0)。 図5は、第2の実施形態に係る信号処理装置1の機能ブロック図である。 図6(a)は、第2の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図6(b)は、第2の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す(周波数変換倍率β=0.5)。 図7(a)は、第2の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図7(b)は、第2の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す(周波数変換倍率β=2.0)。 図8は、第3の実施形態に係る信号処理装置1の機能ブロック図である。 図9(a)は、第3の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図9(b)は、第3の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す(共振周波数に対するホルマント制御倍率γ=0.5)。 図10(a)は、第3の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図10(b)は、第3の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す(共振周波数に対するホルマント制御倍率γ=2.0)。 図11は、従来技術について説明するための図である。 図12は、従来技術について説明するための図である。 図13は、従来技術について説明するための図である。
(第1の実施形態)
以下、図1〜図4を参照して、本発明の第1の実施形態に係る信号処理装置1について説明する。
図1に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、線形予測分析部13と、スペクトル包絡算出部14と、スペクトル包絡変更部15と、周波数変換関数作成部16と、スペクトル包絡減算部17と、スペクトル包絡補正部18と、スペクトル包絡減算傾き算出部19と、スペクトル包絡傾き補正部20と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
フレーム切出部11は、入力された音声信号から、適切な長さのフレーム単位でデータを切り出すように構成されている。
例えば、フレーム切出部11は、標本化周波数fsが48kHzで且つ量子化ビット数が16ビットでA/D変換されて標本化された音声信号(音声波形)を取得すると、適切な長さのフレーム単位でデータを切り出すように構成されている。
なお、第1の実施形態の例では、入力された音声信号をx(n)で表し、フレーム長Nを1024サンプル(約20ms)とし、フレームシフト幅をフレーム長Nの半分の512サンプル(約10ms)とし、m番目のフレームでn番目のサンプルのデータをx(m,n)で表す。
また、フレーム切出部11は、音声信号における声道特性特有の高域の減衰を補正するため、切り出したフレーム内のデータに、「P(z)=1−αz−1(α=0.97)」で表されるフィルタで、プリエンファシスを施すように構成されていてもよい。
また、フレーム切出部11は、プリエンファシスを施したデータに対して、適切な窓関数(例えば、ハミング窓whamm(n)=0.54−0.46cos(2πn/N))を乗じるように構成されていてもよい。
フーリエ変換部12は、フレーム切出部11から、入力された音声信号から切り出されてプリエンファシスを施されて窓関数を乗じられたデータを取得すると、離散フーリエ変換(FFT)によって、周波数特性X(z)を算出するように構成されている。なお、本実施形態の例では、FFTポイント数を2048ポイントとする。
また、線形予測分析部13は、フレーム切出部11から、入力された音声信号から切り出されたデータを取得すると、かかるデータに基づく線形予測分析により、全ての帯域を対象とした線形予測係数a(i=1,…,p)を算出するように構成されている。本実施形態の例では、線形予測係数の次数(線形予測分析次数)pを48次とする。
スペクトル包絡算出部14は、線形予測分析部13から線形予測係数を取得すると、スペクトル包絡
Figure 0006616962
を算出するように構成されている。本実施形態の例では、スペクトル包絡のデータ長は、周波数特性のFFTサンプル数と同じ2048ポイントである。
周波数変換関数作成部16は、入力された周波数変換パラメータに基づいて、周波数変換関数を作成するように構成されている。
ここで、図2に、参考文献1(「The HTK Book(for HTK Version 3.4) Cambridge University Engineering Department」)に示されている周波数変換関数の図に、説明を加えた例を示す。図2では、横軸がオリジナルの入力周波数finを示し、縦軸が周波数変換された出力周波数foutを示す。なお、参考文献1では、周波数変換関数は、音声認識における声道の長さの影響を正規化するために利用されている。
本実施形態では、周波数変換関数作成部16は、例えば、図2に示す周波数変換関数を用いるように構成されていてもよい。かかる周波数変換関数は、入力された周波数finを一意に変換するための関数、すなわち、入力周波数finを入力周波数finに対応する出力周波数foutに変換する関数である。
また、かかる場合、周波数変換関数作成部16に入力される周波数変換パラメータは、境界最低周波数f、境界最高周波数f、変換範囲指定最低周波数fmin、変換範囲指定最高周波数fmax及び周波数変換倍率β=1/α(αは声道長補正倍率、αmin≦α≦αmax)が含まれる。
ここで、例えば、周波数変換関数作成部16に対して入力される周波数変換パラメータとして、f=100、f=5000、fmin=0、fmax=24000と設定し、0.5≦β≦2.0の範囲でβを設定する。なお、周波数制御倍率βについては、図2に示すように、βが1より小さい程(αが1より大きい程)入力周波数に対して出力周波数は小さくなり、βが1より大きい程(αが1より小さい程)入力周波数に対して出力周波数は大きくなる。
なお、周波数変換関数作成部16に対して入力される周波数変換パラメータとして、f=100、f=5000、fmin=0、fmax=6000と設定することにより、6000Hz以下の音声帯域部分のみを周波数変換し、6000Hz以上の帯域部分については、原音の周波数特性を保つこともできる。
スペクトル包絡変更部15は、スペクトル包絡算出部から取得したスペクトル包絡H(z)及び周波数変換関数作成部16から取得した周波数変換関数に基づいて、スペクトル包絡H(z)を変更することによってスペクトル包絡H'(z)を算出するように構成されている。
例えば、スペクトル包絡変更部15は、図2に示す周波数関数を用いて、スペクトル包絡H'(z)を算出するように構成されていてもよい。かかる場合、スペクトル包絡変更部15は、スペクトル包絡H(z)を構成する各周波数成分を入力周波数finとして図2に示す周波数関数に入力し、図2に示す周波数関数によって得られた複数の出力周波数foutを周波数成分とするスペクトル包絡H'(z)を算出するように構成されている。
ここで、スペクトル包絡変更部15は、サンプル値の補完によって、スペクトル包絡H(z)を変更するように構成されていてもよい。例えば、スペクトル包絡変更部15は、スペクトル包絡H(z)を構成する周波数成分を入力周波数finとして、かかる入力周波数finに対応する出力周波数fout、及び、その前後の周波数に対応する3点のスペクトル包絡の値を用いて、2次の多項式で最小二乗近似することにより、スペクトル包絡H'(z)を算出するように構成されていてもよい。
スペクトル包絡減算部17は、スペクトル包絡算出部14から取得したスペクトル包絡H(z)及びスペクトル包絡変更部15から取得した変更後のスペクトル包絡H'(z)に基づいて、変更後のスペクトル包絡H'(z)からスペクトル包絡H(z)を減算した補正値G(z)=H'(z)−H(z)を算出するように構成されている。ここで、スペクトル包絡については対数が取られているので、上述の減算によって補正値G(z)が求められる。
スペクトル包絡補正部18は、フーリエ変換部12から取得した周波数特性X(z)及びスペクトル包絡減算部17から取得した補正値G(z)に基づいて、周波数特性X(z)に対して補正値G(z)の複素指数を取ったものを乗算することにより、補正された周波数特性X'(z)=X(z)・exp(G(z))を算出するように構成されている。
スペクトル包絡減算傾き算出部19は、スペクトル包絡減算部17から取得した補正値G(z)に基づいて、補正値G(z)の傾きG'(z)を算出するように構成されている。
例えば、スペクトル包絡減算傾き算出部19は、補正値G(z)を5次の曲線で最小二乗近似することにより、上述の傾きG'(z)を算出するように構成されていてもよい。
スペクトル包絡減算傾き補正部20は、スペクトル包絡補正部18から取得した補正後の周波数特性X'(z)及びスペクトル包絡減算傾き算出部19から取得した傾きG'(z)に基づいて、補正後の周波数特性X'(z)に対して傾きG'(z)の複素指数を取ったものを乗算することにより、補正後の周波数特性の傾きX''(z)=X'(z)・exp(G'(z))を算出するように構成されている。
逆フーリエ変換部21は、スペクトル包絡減算傾き補正部20から取得された補正後の周波数特性の傾きX''(z)に対して逆フーリエ変換(IFFT)を施すことによって、フレームごとに声質変換された音声信号の時間波形x'(m,n)を算出するように構成されている。
フレーム合成部22は、逆フーリエ変換部21から取得した音声信号の時間波形x'(m,n)をハミング窓whamm(n)で除して、プリエンファシスの逆フィルタでディエンファシスを施すように構成されている。
ここで、フレーム合成部22は、ディエンファシスを施したデータに対して、適切な窓関数(例えば、ハニング窓whann(n)=0.5−0.5cos(2πn/N))を乗じるように構成されている。
その後、フレーム合成部22は、かかる窓関数を乗じたデータをフレームごとにシフト幅分ずらして重ね合わせることにより、声質変換がなされた音声信号x(n)を算出するように構成されている。
ここで、図3(a)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、図3(b)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す。
一方、図4(a)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、図4(b)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す。
本実施形態の特徴は、入力された音声信号x(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x(n)から算出された線形予測係数aに基づいて、音声信号x(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、入力された周波数finを一意に変換する周波数変換関数を用いて、スペクトル包絡H(z)を構成する周波数成分を変更するように構成されているスペクトル包絡変更部(変更部)15と、周波数成分が変更されたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているスペクトル包絡補正部18及びスペクトル包絡傾き補正部20(補正部)と、補正された周波数特性X'(z)に基づいて、声質変換処理が施された音声信号x(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数aとして、入力された音声信号x(n)の全ての帯域を対象とした線形予測係数aを用いるように構成されている。
本実施形態に係る信号処理装置1によれば、周波数変換関数を利用することにより、どのような波形の音声信号が入力された場合であっても、高品質に声質変換を行うことができる。
(第2の実施形態)
以下、図5〜図8を参照して、本発明の第2の実施形態に係る信号処理装置1について、上述の第1の実施形態に係る信号処理装置1との相違点に着目して説明する。
本実施形態に係る信号処理装置1は、入力された音声信号x(n)に対する声質変換処理を行うに際して、上述の第1の実施形態に係る信号処理装置1とは異なり、入力された音声信号x(n)をダウンサンプリングした後、ダウンサンプリングされた帯域部分(音声帯域部分)のみを対象とした線形予測係数aを用いるように構成されている。
図5に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、ダウンサンプリング部31と、線形予測分析部13と、スペクトル包絡算出部14と、スペクトル包絡変更部15と、周波数変換関数作成部16と、スペクトル包絡減算部17と、ダウンサンプリング帯域スペクトル包絡補正部32と、スペクトル包絡減算傾き算出部19と、ダウンサンプリング帯域スペクトル包絡傾き補正部33と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
ダウンサンプリング部31は、フレーム切出部11から、入力された音声信号x(n)から切り出されたデータを取得すると、標本化周波数fsds=fs/4(=12kHz)にダウンサンプリングされたデータ(すなわち、データ長は256サンプル)を算出するように構成されている。
線形予測分析部13は、ダウンサンプリング部31から取得したダウンサンプリングされたデータに基づく線形予測分析により、ダウンサンプリングされた帯域部分(音声帯域部分)のみを対象とした線形予測係数a(i=1,…,p)を算出するように構成されている。本実施形態の例では、線形予測係数の次数(線形予測分析次数)pを12次とする。
例えば、ダウンサンプリング部31を通さず、直接、フレーム切出部11から線形予測分析部13にて線形予測係数を得る方法として、線形予測分析部13は、参考文献2(コロナ社、「音声の線形予測」、J.D.マーケル、A.H.グレイJr.著、鈴木久喜訳)に記載されている「Selective Linear Prediction(選択線形予測)」方法を用いて、上述の線形予測係数を得るように構成されていてもよい。
スペクトル包絡算出部14は、線形予測分析部13から線形予測係数を取得すると、スペクトル包絡
Figure 0006616962
を算出するように構成されている。本実施形態の例では、スペクトル包絡のデータ長は、周波数特性のFFTサンプル数の1/4である512ポイントである。
ダウンサンプリング帯域スペクトル包絡補正部32は、フーリエ変換部21から周波数特性X(z)を取得すると共に、スペクトル包絡減算部17からダウンサンプリングされた帯域部分のスペクトル包絡同士を減算することによって得られた補正値G(z)を取得すると、周波数特性X(z)のダウンサンプリングされた帯域部分に対して補正値G(z)の複素指数を取ったものを乗算することにより、補正後の周波数特性
Figure 0006616962
を取得するように構成されている。
ダウンリングサンプリング帯域スペクトル包絡傾き補正部33は、ダウンサンプリング帯域スペクトル包絡補正部32から取得した補正後の周波数特性X'(z)に対して、スペクトル包絡減算傾き算出部19から取得した傾きG'(z)の複素指数をとったものを乗算することにより、補正後の周波数特性の傾き
Figure 0006616962
を算出するように構成されている。
逆フーリエ変換部21は、ダウンサンプリング帯域スペクトル包絡減算傾き補正部33から取得された補正後の周波数特性の傾きX''(z)に対して逆フーリエ変換(IFFT)を施すことによって、フレームごとに声質変換された音声信号の時間波形x'(m,n)を算出するように構成されている。
ここで、図6(a)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図6(b)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
一方、図7(a)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図7(b)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
本実施形態の特徴は、入力された音声信号x(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x(n)から算出された線形予測係数aに基づいて、音声信号x(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、入力された周波数finを一意に変換する周波数変換関数を用いて、スペクトル包絡H(z)を構成する周波数成分を変更するように構成されているスペクトル包絡変更部(変更部)15と、周波数成分が変更されたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているダウンサンプリング帯域スペクトル包絡補正部32及びダウンサンプリング帯域スペクトル包絡傾き補正部33(補正部)と、補正された周波数特性X''(z)に基づいて、声質変換処理が施された音声信号x(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数aとして、入力された音声信号x(n)をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数aを用いるように構成されている。
本実施形態に係る信号処理装置1によれば、ダウンサンプリングされた帯域部分において周波数変換関数を利用して声質変換を行うように構成されているため、どのような波形の音声信号が入力された場合であっても、少ない処理量で適切な声質変換を行うことができる。
(第3の実施形態)
以下、図8〜図10を参照して、本発明の第3の実施形態に係る信号処理装置1について、上述の第2の実施形態に係る信号処理装置1との相違点に着目して説明する。
本実施形態に係る信号処理装置1は、入力された音声信号x(n)に対する声質変換処理を行うに際して、上述の第2の実施形態に係る信号処理装置1とは異なり、周波数変換関数の代わりに、ホルマント変更を利用するように構成されている。
図8に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、ダウンサンプリング部31と、線形予測分析部13と、求根部41と、ホルマント算出部42と、ホルマント変更部43と、多項式再構成部44と、スペクトル包絡算出部14と、スペクトル包絡算出部45と、スペクトル包絡減算部17と、ダウンサンプリング帯域スペクトル包絡補正部32と、スペクトル包絡減算傾き算出部19と、ダウンサンプリング帯域スペクトル包絡傾き補正部33と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
求根部41は、線形予測分析部13から取得した線形予測係数に基づいて、多項式
Figure 0006616962
の求根により、複素根としてスペクトル包絡の極z(i=1,…,p)を求めるように構成されている。
ホルマント算出部42は、求根部41から取得したスペクトル包絡の極zに基づいて、共振周波数(位相)F(=argz・fs/2π)及び帯域幅(振幅)B(=log|z|・fs/π)を算出するように構成されている。
ここで、本実施形態では、共振周波数Fがホルマント周波数の存在範囲(おおよそピッチ周波数以上の200〜5000Hz)内にある共振周波数F及び帯域幅Bの組み合わせのうち、帯域幅Bと共振周波数Fとの比B/Fが小さいものを「ホルマントF, B」とみなす。
ホルマント変更部43は、ホルマント算出部42から取得したホルマントF, Bのうち、共振周波数Fの低いものから3つまでに対して、ホルマント制御倍率を乗ずることによって、ホルマントF, Bを変更するように構成されている。
ここで、共振周波数に対するホルマント制御倍率γ及び帯域幅に対するホルマント制御倍率δは、それぞれ独立のものとする。
多項式再構成部44は、ホルマント変更部43から取得した変更前のホルマントF, B及び変更後のホルマントF', B'に基づいて、複素根z'(i=1,…,P)を算出し、
Figure 0006616962
の関係から、変更後の線形予測係数a'(i=1,…,P)を算出するように構成されている。
スペクトル包絡算出部45は、多項式再構成部44から取得した変更後の線形予測係数a'に基づいて、変更後のスペクトル包絡
Figure 0006616962
を算出するように構成されている。
スペクトル包絡減算部17は、スペクトル包絡算出部14から取得したスペクトル包絡H(z)及びスペクトル包絡変更部45から取得した変更後のスペクトル包絡H'(z)に基づいて、補正値G(z)=H'(z)−H(z)を算出するように構成されている。
ここで、図9(a)に、共振周波数に対するホルマント制御倍率γを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図9(b)に、共振周波数に対するホルマント制御倍率γを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
一方、図10(a)に、共振周波数に対するホルマント制御倍率γを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図10(b)に、共振周波数に対するホルマント制御倍率γを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
本実施形態の特徴は、入力された音声信号x(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x(n)から算出された線形予測係数aに基づいて、音声信号x(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、ホルマントF, Bに所望の変更を加えることによって(ホルマント制御倍率を乗ずることによって)、スペクトル包絡H(z)に対して所望の変更を加えるように構成されているホルマント変更部43及びスペクトル包絡変更部45(変更部)と、所望の変更が加えられたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているダウンサンプリング帯域スペクトル包絡補正部32及びダウンサンプリング帯域スペクトル包絡傾き補正部33(補正部)と、補正された周波数特性X''(z)に基づいて、声質変換処理が施された音声信号x(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数aとして、音声帯域部分(ダウンサンプリングされた帯域部分)のみを対象とした線形予測係数aを用いるように構成されている。
本実施形態に係る信号処理装置1によれば、ダウンサンプリングされた帯域部分においてホルマント変更を利用して声質変換を行うように構成されているため、ホルマント周波数に対応した細かい制御による高品質な声質変換を行うことができる。
(その他の実施形態)
上述のように、本発明について、上述した第1〜第3の実施形態によって説明したが、かかる実施形態における開示の一部をなす論述及び図面は、本発明を限定するものであると理解すべきではない。かかる開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
また、上述の実施形態では特に触れていないが、上述の信号処理装置1によって行われる各処理をコンピュータに実行させるプログラムが提供されてもよい。また、かかるプログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、かかるプログラムをコンピュータにインストールすることが可能である。ここで、かかるプログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。
或いは、上述の信号処理装置1によって行われる各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。
1…信号処理装置
11…フレーム切出部
12…フーリエ変換部
13…線形予測分析部
14、45…スペクトル包絡算出部
15…スペクトル包絡変更部
16…周波数変換関数作成部
17…スペクトル包絡減算部
18…スペクトル包絡補正部
19…スペクトル包絡減算傾き算出部
20…スペクトル包絡傾き補正部
21…逆フーリエ変換部
22…フレーム合成部
31…ダウンサンプリング部
32…ダウンサンプリング帯域スペクトル包絡補正部
33…ダウンサンプリング帯域スペクトル包絡傾き補正部
41…求根部
42…ホルマント算出部
43…ホルマント変更部
44…多項式再構成部

Claims (2)

  1. 入力された音声信号に対して声質変換処理を施すように構成されている信号処理装置であって、
    前記音声信号から周波数特性を算出する周波数特性算出部と、
    前記音声信号から算出された線形予測係数に基づいて、前記音声信号のスペクトル包絡を算出するスペクトル包絡算出部と、
    周波数変換を行う周波数範囲を指定する周波数変換パラメータに基づいて、前記周波数範囲内の入力周波数を周波数変換するための周波数変換関数を作成する周波数変換関数作成部と、
    前記周波数変換関数を用いて、前記スペクトル包絡を構成する周波数成分を前記入力周波数として前記周波数変換をすることにより前記スペクトル包絡を変更する変更部と、
    前記周波数成分が変更された前記スペクトル包絡に基づいて、前記周波数特性を補正する補正部と、
    補正された前記周波数特性に基づいて、前記声質変換処理が施された音声信号を取得する処理部と
    を具備することを特徴とする信号処理装置。
  2. 前記スペクトル包絡算出部は、前記線形予測係数として、前記入力された音声信号をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数を用いることを特徴とする請求項1に記載の信号処理装置。
JP2015098608A 2015-05-13 2015-05-13 信号処理装置及びプログラム Active JP6616962B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015098608A JP6616962B2 (ja) 2015-05-13 2015-05-13 信号処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015098608A JP6616962B2 (ja) 2015-05-13 2015-05-13 信号処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016212356A JP2016212356A (ja) 2016-12-15
JP6616962B2 true JP6616962B2 (ja) 2019-12-04

Family

ID=57551013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015098608A Active JP6616962B2 (ja) 2015-05-13 2015-05-13 信号処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6616962B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3125951B2 (ja) * 1992-09-30 2001-01-22 日本電信電話株式会社 フォルマント制御方法
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation

Also Published As

Publication number Publication date
JP2016212356A (ja) 2016-12-15

Similar Documents

Publication Publication Date Title
US6708145B1 (en) Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
US6741960B2 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
EP3564955B1 (en) Improved subband block based harmonic transposition
WO2010024371A1 (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
JP2010224321A (ja) 信号処理装置
JP2010055000A (ja) 信号帯域拡張装置
JP2018106076A (ja) オーディオ符号化装置およびオーディオ符号化方法
JP5148414B2 (ja) 信号帯域拡張装置
Peer et al. Phase-aware deep speech enhancement: It's all about the frame length
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
JP6347536B2 (ja) 音合成方法及び音合成装置
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
EP3113180B1 (en) Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal
JP6616962B2 (ja) 信号処理装置及びプログラム
JP2004294969A (ja) 音声信号圧縮装置、音声信号圧縮方法及びプログラム
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP6159570B2 (ja) 音声強調装置、及びプログラム
JP6371531B2 (ja) 音声信号処理装置及びプログラム
JP5191459B2 (ja) 声道断面積関数の抽出装置及びその抽出方法
JP5679451B2 (ja) 音声処理装置およびそのプログラム
KR101626280B1 (ko) 합성음의 고조파 성분 제거 방법 및 장치
JP6371530B2 (ja) 音声信号処理装置及び音声ピッチ変換プログラム
JP5677137B2 (ja) 韻律変換装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191111

R150 Certificate of patent or registration of utility model

Ref document number: 6616962

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250