JP3929365B2 - 音声信号処理方法、装置及び音声信号処理プログラム - Google Patents
音声信号処理方法、装置及び音声信号処理プログラム Download PDFInfo
- Publication number
- JP3929365B2 JP3929365B2 JP2002188909A JP2002188909A JP3929365B2 JP 3929365 B2 JP3929365 B2 JP 3929365B2 JP 2002188909 A JP2002188909 A JP 2002188909A JP 2002188909 A JP2002188909 A JP 2002188909A JP 3929365 B2 JP3929365 B2 JP 3929365B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- signal processing
- frequency
- fundamental frequency
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本発明は、入力音声信号の基本周波数を所望する基本周波数に変更する音声信号処理方法、装置及び音声信号処理プログラムに関するものである。
【0002】
【従来の技術】
音声合成や音声変換の分野においては、音声の韻律における主要な要素である基本周波数を変換する技術として、所望する(目標とする)基本周波数の周期に対応してピッチ波形を重畳する処理により波形を操作し基本周波数を変換する手法が主流を占めている。
このような手法において重要なのは、加算重畳する1ピッチの波形を取得する方法である。
従来の手法としては、(1)基本周波数に対応した窓長の窓掛けによりピッチ波形を切り出し、基本周波数の周期間隔でピッチ波形を重畳加算する方法、(2)またはボコーダ(音声分析合成系)としてスペクトル包絡と音源を分離した上で基本周波数を操作するボコーダ型の方法(特開平10-97287号公報,特開2000-330582)等が提案されている。
【0003】
【発明が解決しようとする課題】
しかし、上記の方法にはそれぞれ欠点が存在している。
(1)においては、例えば、単に窓掛けによる切り出し方式は、切り出す位置や音声のピッチ波形形状及び基本周波数の変更量に対してセンシティブな方法であり、ピッチ波形を切り出す位置によって大きく品質が左右されまた基本周波数の変更量が20%以上になると著しく品質が劣化する。
(2)ボコーダ型では音声品質を維持したままスペクトルを操作することが困難であり特開平10-97287号公報のように様々な処理を加えることで音質劣化を避ける試みが成されており、適正な処理を行うことができれば高品質な基本周波数変更が実現可能である。しかし実用上は音声信号をスペクトル包絡と音源に分離する処理の計算量が多く、処理時間が掛かってしまうという問題のほか、様々な処理におけるパラメータの値が入力音声信号の特性に依存しながらもその値を適切に設定する方法は定式化されておらず、そのため適正なパラメータ設定が困難であり、事実上、高品質な基本周波数変更が実現できるかどうかは入力音声に依存するという状況であった。
【0004】
本発明の第1の目的は、音声信号の音声品質を劣化させることなく基本周波数の変更を可能とすることである。また第2の目的は少ない計算量で基本周波数の変更を可能とすることである。
【0005】
【課題を解決するための手段】
上記課題を解決するために、本発明は、入力音声信号に対して、時間位置をシフトさせた時間窓を乗じ、周波数領域に変換し、周波数領域での簡便な処理であるゼロ位相化により波形形状による品質劣化なしに所望する基本周波数に対応するピッチ位置で波形重畳することにより基本周波数の変更を可能とするものである。また、ゼロ位相化による品質劣化を避けるため、帯域を分割し高域スペクトル成分に対しては位相処理を行わず、フィルタ処理により聴覚上での品質劣化を避けるものである。
【0006】
【発明の実施の形態】
以下この発明の一実施形態を述べる。
図1を参照して音声信号処理装置の構成、基本的なフローを説明する。
入力音声信号x(n)はスペクトル分析部11で短時間スペクトル分析をして短時間スペクトルX(ω)を得て、それをもとに帯域分割ゼロ位相化部12で、音声信号の位相変更処理を行い、変更された変換音声信号x'(n)を生成し、変換音声信号x'(n)と入力された所望する(目標とする)基本周波数f0に基づいて重畳加算合成部13で基本周波数が変更された部分的な合成音声信号が生成される。ここで再度スペクトル分析部11に戻り全入力音声信号の処理が終了するまで、スペクトル分析部11、帯域分割ゼロ位相化部12、重畳加算合成部13において繰り返し処理を行い、入力された基本周波数f0に基づいた連続した合成音声信号x"(n)を生成する。また、フィルタ処理部14で音声信号をフィルタ処理することで聴感的な補正を行い、最終的な合成音声信号x"'(n)を生成する。
【0007】
図2にスペクトル分析部11の構成を示す。
入力音声信号x(n)は、波形切り出し部11-1で対象となるフレームの音声信号を切り出し、窓掛け部11-2で短時間スペクトル分析として適当な窓関数(例えば、Hamming窓、Hanning窓、Gauss窓、相補的Gauss窓等)を掛け、フーリエ変換部11-3でフーリエ変換を行い、短時間スペクトルX(ω)を得る。
【0008】
図3に図2のスペクトル分析部11の処理内容を模擬的な図で示す。
x(n)(nはサンプル)は入力音声信号を示す。まず、対象となるフレーム(例えば、5〜20ms)の波形(点線で囲まれた部分)を切り出す(S11-1)。次に窓関数W(n)を切り出した音声信号に乗じる(S11-2)。次に窓掛けされた信号に対し離散フーリエ変換(一般的には高速フーリエ変換(FFT)が用いられる)により短時間スペクトルX(ω)(ωは周波数)を得る(S11-3)。
次のフレームを分析する際には、フレームシフト幅Fs(例えば、2.5〜5ms)だけ時間軸上をずらして対象となるフレーム(細線で囲まれた領域)に対して、上記と同様な処理を行う。このフレームシフト幅は切り出し波形の位相と切り出し窓長によっては音質劣化を招く可能性があるため、入力音声信号の基本的な周期波形である1ピッチ波形の間隔(ピッチ周期)で窓を設定する、すなわち、入力音声信号の基本周波数の逆数(ピッチ周期)間隔とすることで上記問題を解決する。
【0009】
次に、図4に帯域分割ゼロ位相化部12の構成を示す。
短時間スペクトルX(ω)は、帯域分割部12-1により高域スペクトルXh(ω)(ω≧ωth)、低域スペクトルXl(ω)(ω<ωth)に分割する。
ここで、帯域分割の閾値ωthとして例えば、それ以下の低域に音声の主要な特徴がほぼ含まれる3〜4kHzの値、または、重要な特徴である第1、第2フォルマントが含まれる1kHz前後の値にすることが考えられる。
次に、低域スペクトル成分Xl(ω)についてゼロ位相化部12-2でゼロ位相化を行いゼロ位相化低域スペクトル成分X'l(ω)を生成する。ゼロ位相化により低域スペクトル成分Xl(ω)の各周波数の位相をゼロ(一致させる)とする。(すなわち、実数成分のみとする。)
次に加算部12-3で高域スペクトル成分Xh(ω)とゼロ位相化低域スペクトル成分X'l(ω)を加算し、低域ゼロ位相化スペクトルX'(ω)を得る。最後に、逆フーリエ変換部12-4でX'l(ω)を逆フーリエ変換し、変換音声信号x'(n)を生成する。ここで逆フーリエ変換として一般的な逆高速フーリエ変換(IFFT)が用いられる。
【0010】
図5に重畳加算合成部13の処理内容を模擬的な図で示す。
変換音声信号x'(n)に対し、音声信号の中央を中心として、波形重畳に利用するものとして適当な窓関数(例えば、Hanning窓、Cosine窓、台形窓等)Wp(n)を乗じ1ピッチ波形P(n)を得る。次にP(n)を時間軸上の対応するピッチ位置(所望する基本周波数の周期)を中心として重畳加算する。このとき、窓関数の窓長は、所望する基本周波数f0に反比例するように窓長に決定し、一般的に窓長として所望する(目標とする)基本周波数の周期の2倍程度の値が用いられる。
入力音声信号を時間軸上でフレームをシフトさせて切り出し、1フレームの変換音声信号に対して1フレームピッチ波形P(1)、2フレームの変換音声信号に対してピッチ波形P(2)、・・・、nフレームの変換音声信号に対してピッチ波形P(n)を得て、時間軸上で対応するピッチ位置において重畳加算することにより合成音声信号x"(n)を生成する。
ここで、ピッチ位置は所望する基本周波数f0の周期から計算することが可能であり、例えば基本周波数f0が一定の値であればその逆数である周期1/f0を基本として、時間0からその周期間隔でピッチ位置が配置される。また基本周波数がある特定のパターン、つまり時間に関する関数F(t)として与えられた場合でも、同様に時間0を始点として、一番目のピッチ位置t1=1/F(0)、2番目のピッチ位置t2=1/F(t1)、t3=1/F(t2)のように計算できる。
【0011】
図6を参照して入力音声信号の基本周波数と所望する基本周波数との関係について説明する。
所望する(目標とする)基本周波数が入力音声信号の基本周波数より高い場合にはフレームピッチ波形は(a)に示すようになり問題は発生しない。これに対して所望する基本周波数が入力音声信号の基本周波数(1/T0)より低い場合は、ピッチ波形切り出しの窓長を、単純に所望する基本周波数の逆数(ピッチ周期)Tt’の2倍、2T t ’とすると、フレームピッチ波形は、(b)の点線で囲んだ円で示すような隣接する周期分を含む波形になり、重畳加算した場合には隣接するピッチ波形に対するノイズ成分として作用し、所望とする基本周波数に変更された音声の品質を劣化させる。そのため、ピッチ波形切り出し窓長を、入力音声信号の基本周波数の逆数(ピッチ周期)T 0 の2倍、2T0以下に抑えることで、上記の現象をなくし品質劣化を防ぐことができる。
【0012】
重畳加算合成部13から出力された変換音声信号x'(n)が重畳加算された合成音声信号x"(n)は、フィルタ処理部14においてフィルタ処理され、最終的な合成音声信号x"'(n)が生成される。
フィルタ処理において、位相特性を有するフィルタを用いることで低域におけるゼロ位相化による一般的にバジー感といわれる聴感上の問題を除去することが必要である。ここで用いるフィルタは周波数に対するゲイン特性を大きく変更するものでないことが望ましく、フィルタとして例えば下式に示すような伝達関数を有するN次の全域通過フィルタを利用することで入力音声信号のゲイン特性の一定倍率の変更と位相特性の変更が可能となる。
【数1】
(d>0、b* iはbiの複素共役を示す。)
ここで、d=1ならばフィルタのゲイン特性は1となり入力音声信号に対するゲイン特性は不変となる。
【0013】
本発明の音声信号処理装置は、CPUやメモリ等を有するコンピュータと、アクセスを行うためのユーザ端末と、記録媒体とから構成される。
記録媒体はCD−ROM、磁気ディスク、半導体メモリ等の機械読み取り可能な記録媒体であり、ここに記録された音声信号処理プログラム、あるいは通信回線を介して伝送された音声信号処理プログラムはコンピュータに読み取られ、コンピュータの動作を制御し、コンピュータ上に前述の構成要素を実現する。
【0014】
【発明の効果】
以上述べたようにこの発明によれば、計算量の少ない周波数領域(低域)でのゼロ位相化により波形形状による品質劣化なしに波形重畳処理により基本周波数の変更を可能とするものである。
また、ゼロ位相化において、帯域を分割し実際の音声において複雑な位相成分に対しては位相処理を行わず低域に対してのみゼロ位相化処理を行い、またフィルタ処理により低域でのゼロ位相特性を補償し聴感上での品質劣化を避け高品質な合成音声を生成するものである。
【図面の簡単な説明】
【図1】本発明の一実施例を示す音声信号処理装置の構成図。
【図2】スペクトル分析部の構成図。
【図3】スペクトル分析部の処理を説明する図。
【図4】帯域分割ゼロ位相化部の構成図。
【図5】重畳加算合成部の処理を説明する図。
【図6】入力音声信号の基本周波数と所望する基本周波数との関係を説明する図。
【符号の説明】
11・・・スペクトル分析部、11-1・・・波形切り出し部、11-2・・・窓掛け部、11-3・・・フーリエ変換部
12・・・帯域分割ゼロ位相化部、12-1・・・帯域分割部、12-2・・・ゼロ位相化部、12-3・・・加算部、12-4・・・逆フーリエ変換部
13・・・重畳加算合成部、14・・・フィルタ処理部
Claims (13)
- 入力音声信号の基本周波数を所望する基本周波数に変更する音声処理方法において、
スペクトル分析部が、予め設定したフレームシフト幅だけ順次シフトした時間位置にある、予め設定した時間長のフレーム毎の入力音声信号に時間窓を乗じ、前記フレーム毎の時間窓を乗じた入力音声信号を周波数領域に変換して、順次スペクトルを得る過程と、
帯域分割ゼロ位相化部が、順次得られたスペクトルをフレーム毎に、予め設定された周波数で低域スペクトル成分と高域スペクトル成分に分割し、前記低域スペクトル成分について振幅を保持し位相を零位相に変更してゼロ位相化低域スペクトル成分を生成し、前記ゼロ位相化低域スペクトル成分と高域スペクトル成分とを加算してスペクトルを変更し、変更したスペクトルを順次時間領域に変換して変換音声信号を得る過程と、
重畳加算合成部が、順次得られた変換音声信号に所望する基本周波数のピッチ周期の2倍の長さの時間窓をフレーム毎に乗じピッチ波形を生成し、生成したピッチ波形を前記所望する基本周波数のピッチ位置の時間軸上で重畳し、前記所望する基本周波数に変更した合成音声信号を生成する過程と、を有することを特徴とする音声信号処理方法。 - 請求項1記載の音声信号処理方法において、
前記予め設定された周波数は、3kHz以上4kHz以下、または、1kHzであることを特徴とする音声信号処理方法。 - 請求項1又は2に記載の音声信号処理方法において、
前記所望する基本周波数が前記入力音声信号の基本周波数より低い場合は、前記順次得られた変換音声信号に乗じる時間窓の長さを、前記入力音声信号の基本周波数のピッチ周期の2倍の長さ以下とすることを特徴とする音声信号処理方法。 - 請求項1乃至3の何れか1項に記載の音声信号処理方法において、
入力音声信号に乗じる時間窓の時間位置のシフトは、入力音声信号の基本周波数の逆数(ピッチ周期)間隔とすることを特徴とする音声信号処理方法。 - 請求項1乃至4の何れか1項に記載の音声信号処理方法において、
前記決定した入力音声信号に乗じる時間窓は、相補的ガウス窓関数であることを特徴とする音声信号処理方法。 - 請求項1乃至5の何れか1項に記載の音声信号処理方法において、
生成した合成音声信号に対して、入力信号のゲイン特性は不変であり位相特性のみ変更する全域通過フィルタ処理を行う過程を有することを特徴とする音声信号処理方法。 - 入力音声信号の基本周波数を所望する基本周波数に変更する音声処理装置において、
予め設定したフレームシフト幅だけ順次シフトした時間位置にある、予め設定した時間長のフレーム毎の入力音声信号に時間窓を乗じ、前記フレーム毎の時間窓を乗じた入力音声信号を周波数領域に変換して、順次スペクトルを得るスペクトル分析部と、
順次得られたスペクトルをフレーム毎に、予め設定された周波数で低域スペクトル成分と高域スペクトル成分に分割し、前記低域スペクトル成分について振幅を保持し位相を零位相に変更してゼロ位相化低域スペクトル成分を生成し、前記ゼロ位相化低域スペクトル成分と高域スペクトル成分とを加算してスペクトルを変更し、変更したスペクトルを順次時間領域に変換して変換音声信号を得る帯域分割ゼロ位相化部と、
順次得られた変換音声信号に所望する基本周波数のピッチ周期の2倍の長さの時間窓をフレーム毎に乗じピッチ波形を生成し、前記所望する基本周波数のピッチ位置の時間軸上で重畳し、前記所望する基本周波数に変更した合成音声信号を生成する重畳加算合成部と、を有することを特徴とする音声信号処理装置。 - 請求項7記載の音声信号処理装置において、
前記予め設定された周波数は、3kHz以上4kHz以下、または、1kHzであることを特徴とする音声信号処理装置。 - 請求項7又は8に記載の音声信号処理装置において、
前記所望する基本周波数が前記入力音声信号の基本周波数より低い場合は、前記順次得られた変換音声信号に乗じる時間窓の長さを、前記入力音声信号の基本周波数のピッチ周期の2倍の長さ以下とすることを特徴とする音声信号処理装置。 - 請求項7乃至9の何れか1項に記載の音声信号処理装置において、
前記スペクトル分析部の入力音声信号に乗じる時間窓の時間位置のシフトは、入力音声信号の基本周波数の逆数(ピッチ周期)間隔とすることを特徴とする音声信号処理装置。 - 請求項7乃至10の何れか1項に記載の音声信号処理装置において、
前記決定した入力音声信号に乗じる時間窓は、相補的ガウス窓関数であることを特徴とする音声信号処理装置。 - 請求項7乃至11の何れか1項に記載の音声信号処理装置において、
生成された合成音声信号を入力し、ゼロ位相特性を補正した合成音声信号を出力する、入力信号のゲイン特性は不変であり位相特性のみ変更する全域通過フィルタを有することを特徴とする音声信号処理装置。 - 請求項1乃至6の何れか1項に記載の音声信号処理方法の各過程をコンピュータに実行させるための音声信号処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002188909A JP3929365B2 (ja) | 2002-06-28 | 2002-06-28 | 音声信号処理方法、装置及び音声信号処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002188909A JP3929365B2 (ja) | 2002-06-28 | 2002-06-28 | 音声信号処理方法、装置及び音声信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004029587A JP2004029587A (ja) | 2004-01-29 |
JP3929365B2 true JP3929365B2 (ja) | 2007-06-13 |
Family
ID=31183466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002188909A Expired - Lifetime JP3929365B2 (ja) | 2002-06-28 | 2002-06-28 | 音声信号処理方法、装置及び音声信号処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3929365B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5821584B2 (ja) * | 2011-12-02 | 2015-11-24 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
US20230086642A1 (en) * | 2020-02-13 | 2023-03-23 | The University Of Tokyo | Voice conversion device, voice conversion method, and voice conversion program |
-
2002
- 2002-06-28 JP JP2002188909A patent/JP3929365B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2004029587A (ja) | 2004-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9407993B2 (en) | Latency reduction in transposer-based virtual bass systems | |
JP5409377B2 (ja) | 高域補間装置および高域補間方法 | |
JP2005509928A (ja) | オーディオ信号帯域幅拡張 | |
JP2007011341A (ja) | 高調波信号の周波数拡張 | |
CA2784564A1 (en) | Improved subband block based harmonic transposition | |
JP2006079085A (ja) | 音声品質向上方法及び装置 | |
JP6677662B2 (ja) | 音響処理装置、音響処理方法およびプログラム | |
JPWO2003019530A1 (ja) | ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム | |
WO2003003345A1 (fr) | Dispositif et procede d'interpolation des composantes de frequence d'un signal | |
EP2907324B1 (en) | System and method for reducing latency in transposer-based virtual bass systems | |
JP3430985B2 (ja) | 合成音生成装置 | |
JP2005010621A (ja) | 音声帯域拡張装置及び帯域拡張方法 | |
JP5104553B2 (ja) | インパルス応答加工装置、残響付与装置およびプログラム | |
JP3929365B2 (ja) | 音声信号処理方法、装置及び音声信号処理プログラム | |
EP2023344A1 (en) | Out-of-band signal generator and frequency band expander | |
US8675881B2 (en) | Estimation of synthetic audio prototypes | |
TWI421858B (zh) | 用於處理音頻訊號的系統及方法 | |
JP2002175099A (ja) | 雑音抑制方法および雑音抑制装置 | |
JP2841797B2 (ja) | 音声分析・合成装置 | |
WO2020179472A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JPH1138997A (ja) | 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体 | |
Marin-Hurtado et al. | FFT-based block processing in speech enhancement: potential artifacts and solutions | |
JP3270869B2 (ja) | 音程変換装置 | |
JP2015019184A (ja) | ノイズ抑圧装置、ノイズ抑圧方法、及びそのプログラム | |
JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040716 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061102 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061102 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3929365 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120316 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130316 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |