JP4733727B2 - 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 - Google Patents

音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 Download PDF

Info

Publication number
JP4733727B2
JP4733727B2 JP2008230455A JP2008230455A JP4733727B2 JP 4733727 B2 JP4733727 B2 JP 4733727B2 JP 2008230455 A JP2008230455 A JP 2008230455A JP 2008230455 A JP2008230455 A JP 2008230455A JP 4733727 B2 JP4733727 B2 JP 4733727B2
Authority
JP
Japan
Prior art keywords
frequency
signal
low
band
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008230455A
Other languages
English (en)
Other versions
JP2009134260A (ja
Inventor
岳至 森
茂明 佐々木
公孝 堤
祐介 日和▲崎▼
仲 大室
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008230455A priority Critical patent/JP4733727B2/ja
Publication of JP2009134260A publication Critical patent/JP2009134260A/ja
Application granted granted Critical
Publication of JP4733727B2 publication Critical patent/JP4733727B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

この発明は、狭帯域音声楽音信号を広帯域音声信号に広帯域化する音声楽音擬似広帯域化方法と、その装置と、そのプログラムと記録媒体に関する。
従来からの電話システムで伝送できる音声信号の周波数帯域は、約300Hzから3.4kHzである。従来の電話システムの音声符号化技術の目的は、伝送パラメータ量を最小化することにあり、符号化した音声信号の周波数帯域を超える音声を得ることは不可能である。ところで、最近の音響技術の発展及びディジタル信号処理技術の開発により、日常生活で使われる機器の音声の品質が向上して来ている。このような状況において、例えば電話の音質にも高音質を求める声がある。かかる要求に応える目的で音声擬似広帯域化装置や、その方法が用いられる。
従来の音声擬似広帯域化方法の手順を、図13に示してその方法を簡単に説明する。従来の音声擬似広帯域化方法は、アップサンプリング処理101、全波整流処理102、STFT分析(短時間フーリエ)処理103,105、バンドパスフィルタリング処理104、低域の周波数帯域の周波数スペクトルを高域に複写するコピー処理106、乗算処理107,108、STFT合成処理109、加算処理110、から成る。アップサンプリング処理101は、例えば8kHzでサンプリングされた狭帯域音声信号を、16kHzサンプリングの音声信号にアップサンプリングする。STFT分析処理105は、一定時間(フレーム)毎にアップサンプリングされた音声信号を周波数分析し、周波数スペクトルを生成する。コピー処理106は、低域の周波数スペクトルを高域の周波数帯域の周波数スペクトルとしてコピーする。乗算処理108は、高域の周波数スペクトルに一定の倍率を乗じてゲイン調整を行う。全波整流処理102から乗算処理107の過程は、狭帯域音声信号に含まれない低域の周波数スペクトルを生成するものである。全波整流処理102で生成された低域の周波数スペクトルは、高域の周波数スペクトルと同じように乗算部107において、一定倍率が乗算されてゲイン調整される。ゲイン調整された高域の周波数スペクトルと低域の周波数スペクトルは、STFT合成処理109で合成される。加算処理110は、狭帯域音声信号を周波数分析した周波数スペクトルに、ゲイン調整された低域と高域の周波数スペクトルを加算して擬似広帯域音声信号を生成する。
特開平9−90992号公報、図1
従来の音声擬似広帯域化方法は、狭帯域音声信号の周波数スペクトルに広帯域化した周波数範囲のスペクトルを加える際に、加算する周波数スペクトルに一定の倍率を乗じてゲインを調整する方法である。この方法では、雑音を発生させ、または音声を不明瞭にしてしまう課題があった。図14と図15に音声信号の周波数スペクトルの例を示す。横軸は周波数、縦軸は振幅である。図14(a)に、周波数の増加に伴って信号の振幅が減衰する例えば音声の有声部のような場合の周波数スペクトルを示す。コピー処理106が、この図14(a)の信号に一定倍率を乗じて高域の周波数スペクトルを生成すると、図14(b)に示すように4kHz付近で非常に小さくなる振幅が、4kHz以上で再び急激に立ち上がるスペクトル構造になる。このように低域信号と高域信号の境界で信号が極端に不連続になると雑音の原因になる。また、図15(a)に示す低域から高域に向かって振幅が増加する例えば音声の無声部のような周波数スペクトルの場合は、ある一定倍率を乗じて高域の信号を生成すると、図15(b)に示すように高域の振幅が小さくなることがある。この場合は、擬似広帯域音声の無声部が不明瞭となり音声が聞き取り難くなる。
この発明は、このような点に鑑みてなされたものであり、雑音の原因を発生させず、また音声を不明瞭にしない音声楽音擬似広帯域化装置と、その方法と、プログラムと記録媒体を提供することを目的とする。
この発明による音声楽音擬似広帯域化装置は、周波数変換部と、高域信号生成部と、ゲイン決定部と、ゲイン乗算部と、結合部と、周波数逆変換部とを具備する。周波数変換部は、離散値化された狭帯域音声楽音信号を周波数領域の信号に変換して低域領域の信号を生成する。高域信号生成部は、低域領域の信号の一部または全部を複写して高域領域の信号を生成する。ゲイン決定部は、低域領域の周波数帯域を4等分した帯域のうち、低域側から2番目の帯域の信号の累積パワーと低域側から3番目の帯域の信号の累積パワーとの比、または低域領域の周波数帯域を4等分した帯域のうち、低域側から2番目の帯域の振幅の絶対値和と低域側から3番目の帯域の信号の振幅の絶対値和との比と、予め定めた閾値との大小関係に基づいて、予め定めた複数のゲイン係数の中から1つの異ゲイン係数を決定する。ゲイン乗算部は、高域領域の信号にゲイン係数を乗じて強調高域信号を生成する。結合部は、低域領域の信号と強調高域信号を合わせて擬似広帯域周波数信号を生成する。周波数逆変換部は、擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換して出力する。
この発明の音声楽音擬似広帯域化装置は、ゲイン決定部が低域領域内の異なる範囲の信号のパワー比または振幅の絶対値和の比に基づいてゲイン係数を決定する。図14(a)に示したような低域から高域に向かって信号の振幅が減衰する特性を示す音声信号の場合は、ゲイン係数を小さくする。このようにすると、擬似広帯域周波数信号のスペクトル構造を、高域になるほど振幅が低下する構造にすることができ、不連続点が強調され難くなる。この結果、雑音の発生を抑えることができる。また、図15(a)に示したような低域から高域に向かって振幅が増加する特性を示す音声信号の場合は、ゲイン係数を大きくする。すると、擬似広帯域周波数信号のスペクトル構造全体として、高域になるほど振幅が増加する連続性のある構造とすることができ、例えば無声音の明瞭度を向上させることができる。つまり、低域領域内の信号の特徴に応じてゲイン係数を可変することで、雑音の発生を防止すると共に無声部を聞き取り易くできるので、擬似広帯域音声の明瞭度を向上させることができる。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の音声楽音擬似広帯域化装置の実施例1の機能構成例を、図2に動作フローを示す。音声楽音擬似広帯域化装置は、周波数変換部11と、周波数拡張部12と、高域信号生成部13と、ゲイン決定部14と、ゲイン乗算部15と、結合部16と、周波数逆変換部17とで構成される。周波数変換部11に入力される狭帯域音声楽音信号In(t)は、時間領域の信号であり、所定のサンプリング周波数で離散値化されサンプル数(D個)毎に入力端子10に入力される。ここでサンプル数Dは、予め決まっている値でも良いし、フレーム毎に可変な値でも良い。入力の狭帯域音声楽音信号を、In(t)(t=0,1,…,D−1)と表わす。例えば、フレーム長は20ms、サンプリング周波数は8kHzといった値である。
周波数変換部11は、時間領域の狭帯域音声楽音信号In(t)を周波数領域の信号である低域領域の信号に変換する(ステップS11)。周波数変換部11は、MDCTの場合、バッファ等に蓄積された直前のフレームのIn(t−d)と、入力In(t)(t=0,1,…,D−1)とを用いて、周波数領域の信号InFreq(k)(k=0,1,…,D−1)を生成する。この例では、周波数変換方法としてMDCT(Modified Discrete Cosine Transform:修正離散コサイン変換)を用いる例を示すが、DCTやFFTなど他の周波数変換方法を用いても良い。以下の説明では、周波数領域の信号を周波数インデックスkを用いて表記する。kの値が小さいほど低い周波数の信号を表わしている。
周波数拡張部12は、低域領域の信号を2以上の整数であるNの倍数に拡張した拡張信号InFreqExp(k)を生成する。低域領域の信号InFreq(k)(k=0,1,…,D−1)に対して、例えばD個の信号を追加し、InFreqExp(k)(k=0,1,…,2D−1)のN=2倍の周波数インデックスの範囲に周波数範囲を拡張する(ステップS12)。上記したフレーム長=20msで、サンプリング周波数が8kHzの場合、D=160である。拡張信号InFreqExp(k)(k=0,1,…,2D−1)は、例えば式(1)に示すような信号である。
InFreqExp(k)=InFreq(k) (0≦k≦D−1) (1)
InFreqExp(k)=MIN (D≦k≦2D−1)
ここでMINの値は0でも良いし、非常に小さな値でも良い。つまり拡張信号は、低域領域の信号はそのままで、周波数インデックスの範囲が例えば2倍に拡張された信号である。
高域信号生成部13は高域領域の信号を、拡張した高域領域の周波数範囲に低域領域の信号を複写して生成する(ステップS13)。ステップS13の高域信号生成処理の具体的な動作フローを図3に示してその動作を説明する。図3は複写するコピー元の低域領域の周波数範囲が固定の場合である。低域領域のコピーを開始する先頭の周波数インデックスをD、コピーする範囲をD、コピー先の高域領域の信号の先頭の周波数インデックスをDとして説明する。まず始めにD、D、Dの値を設定する(ステップS131)。周波数インデックスkを、高域領域の信号の最下限であるk=0に設定する(ステップS132)。周波数インデックスk=Dからk=D−1までの高域信号FreqHigh(k)には、MINが書き込まれる(ステップS133〜S135)。周波数インデックスkが、k=Dになると高域信号FreqHigh(k)には、低域領域のコピー元の先頭の周波数インデックスk=Dの信号の振幅がコピーされる(ステップS136)。つまり、(k−D−D=D−D+D=D)である。したがって、コピー元のk=D〜(D+D)の範囲の信号の振幅が、高域領域のk=D〜(D+D)の範囲にコピーされる(ステップS138のNoのループ)。周波数インデックスk=(D+D)〜(2D−1)までの範囲の高域信号FreqHigh(k)には、MINが書き込まれる(ステップS139〜S141)。この結果、高域信号FreqHigh(k)は、式(2)に示すようになる。
FreqHigh(k)=MIN (0≦k≦D−1)
FreqHigh(k)=InFreqExp(k−D+D) (D≦k≦D+D−1) (2)
FreqHigh(k)=MIN (D+D≦k≦2D−1)
この低域領域の信号を、拡張した周波数範囲に複写して高域領域の信号を生成する様子を模式的に図4に示す。横軸は周波数インデックス、縦軸は振幅である。周波数インデックスが0〜D−1の範囲の低域領域のD〜(D+D−1)の範囲の振幅が、高域領域のD〜(D+D−1)の範囲にコピーされている様子が分かる。
なお、この例では、連続する低域領域の拡張信号の一部を高域信号にコピーする場合について説明したが、拡張信号の全部を高域信号にコピーしても良いし、複数部分を分割してコピーしても良い。
また、上記した例では、周波数拡張部12で周波数インデックスの範囲を例えば2倍に拡張した後に、高域信号生成部13が低域領域の信号の一部または全部を拡張した高域領域にコピーしたが、この発明はこの例に限定されない。高域信号生成部13は、低域周波数領域信号InFreq(k)の一部または全部の信号を高域領域の信号としてコピーするだけとしても良い。つまり、式(3)に示すように、単純に低域周波数領域信号InFreq(k)の一部または全部の信号を切り出すだけの処理を行う。
FreqHigh(k)=MIN (0≦k≦D−1)
FreqHigh(k)=InFreqExp(k−D+D) (D≦k≦D+D−1) (3)
FreqHigh(k)=MIN (D+D≦k≦D−1)
そして、結合部16は、高域領域の信号が後述するゲイン乗算部15でゲイン調整された強調高域信号を高域側に配置し、低域周波数領域信号InFreq(k)を低域側に配置することにより合成する。このように、結合部16において、周波数範囲を拡張するようにしても良い。
以上の動作を模式的に図5に示す。横軸は周波数インデックス、縦軸は振幅である。図5(a)は低域周波数領域信号InFreq(k)である。図5(b)が高域信号生成部13でコピーした高域領域の信号である。図5(b)の周波数インデックスの上限がD−1である点に注意、単純に図5(a)の一部を切り出した信号である。図5(c)が結合部16で合成された擬似広帯域周波数信号である。以上のように動作する場合は、周波数拡張部12が無くて良い。
ゲイン決定部14は、低域領域内の異なる範囲の信号のパワー比に基づいて高域領域の信号に乗ずるゲイン係数を決定する(ステップS14)。ステップS14のゲイン決定処理の具体的な動作フローを図6に示してその動作を説明する。図6はパワー比を求める周波数範囲が固定の場合である。低域領域の異なる範囲の、一方のパワーの計算を開始する先頭の周波数インデックスをk、その範囲をd、その異なる範囲の他方のパワーを計算する先頭の周波数インデックスと範囲をk,dとして説明する。まず始めにk、d、k、dの値を設定する(ステップS142)。上記したD=160の場合、例えばk=40、d=40、k=80、d=40といった値に設定される。そして各変数を初期化する(ステップS143)。一方の範囲である周波数インデックスがk〜(k+d−1)の範囲の累積パワーpを計算する(ステップS144〜S146)。次に、他方の範囲であるk〜(k+d−1)の範囲の累積パワーpを計算する(ステップS147〜S150)。pとpが求まった後に、ステップS151でパワー比r=p/pを計算する。つまり信号パワー比rは、式(4)で表わせる。
Figure 0004733727
ゲイン決定部14は、信号パワー比rの値を例えば複数の閾値で評価して、ゲイン係数kHGを決定する。例えば閾値を表1のように設定し、r以上となる閾値の数によって表2に示す様にゲイン係数kHGを決定する(ステップS152)。
Figure 0004733727
例えばパワー比r=1.0の場合は、ゲイン係数kHG=0.6となる。
また、ゲイン決定部14は、低域領域内の異なる範囲の信号の信号振幅の絶対値和の比に基づいて高域領域の信号に乗ずるゲイン係数を決定しても良い(図7、ステップS142′)。この場合のゲイン決定処理の動作フローを図7に示す。図7は、図6のステップS142がステップS142′に、ステップS144がステップS144′に、ステップS148がステップS148′に変わる点のみが異なる。ステップS144′は、一方の範囲である周波数インデックスがk〜(k+d−1)の範囲の信号振幅の絶対値の和をpとして計算する。ステップS148′は、他方の範囲であるk〜(k+d−1)の範囲の信号振幅の絶対値の和をpとして計算する。
ゲイン決定部14は、それぞれの範囲の信号振幅の絶対値和pとpが求まった後に、ステップS151において式(5)に示す信号振幅の絶対値和の比r′を計算する。
Figure 0004733727
ゲイン決定部14が、信号振幅の絶対値和の比r′を複数の閾値で評価してゲイン係数を決定するのは、上記した信号パワー比rを評価する方法と同じである。
ゲイン乗算部15は、入力された高域信号FreqHigh(k)(k=0,1,…,2D−1)とゲイン係数kHGから、式(6)の強調高域信号FreqHighGain(k)を計算して出力する(図2、ステップS15)。
FreqHighGain(k)=FreqHigh(k)・kHG (6)
結合部16は、周波数拡張部12が出力する拡張信号と、ゲイン乗算部15が出力する強調高域信号とを加算し、式(7)に示す擬似広帯域周波数信号PsFreq(k)を生成する(ステップS16)。
PsFreq(k)=InFreqExp(k)+FreqHighGain(k) (7)
周波数逆変換部17は、擬似広帯域周波数信号PsFreq(k)を時間領域の擬似広帯域音声信号out(k)(k=0,1,…,2D−1)に変換して出力する(ステップS17)。
以上説明した音声楽音擬似広帯域化装置によれば、低域領域内の異なる範囲の信号のパワー比rまたは振幅の絶対値和の比r′が、1以下になる図8(a)に示すような音声信号の場合は、ゲイン係数kHG が1以下になり高域領域にコピーされる強調高域信号の振幅が減衰する。この結果、擬似広帯域周波数信号のスペクトル構造全体として、高域になるほど振幅が低下する構造にすることができ、不連続点が強調され難くなる。また、パワー比rまたは振幅の絶対値和の比r′が1以上になる図9(a)に示す音声信号の場合は、ゲイン係数kHGの値が1以上になるので強調高域信号の振幅が増加する。したがって、擬似広帯域周波数信号のスペクトル構造を、高域になるほど振幅が増加する連続性のある構造とすることができる。この結果、擬似広帯域音声の無声部が聞き取り易くなり、音声の明瞭度を向上させることができる。
なお、実施例1では、低域領域の信号をN倍に拡張した拡張信号を生成する周波数拡張部のNが2の場合で説明を行ったが、N=3でもN=4でも構わない。また、低域領域内の異なる範囲の信号のパワー比を求める周波数インデックスの範囲を固定にした例で説明を行ったが、その範囲を可変にしても良い。次にパワー比を求める周波数インデックスの範囲を可変にした実施例2を説明する。以降ではパワー比を求める例のみを示して実施例を説明する。しかし、以下の実施例は、上記したように信号振幅の絶対値和の比を求める場合にも適用が可能である。
実施例2の音声楽音擬似広帯域化装置は、ゲイン決定部14内に累積パワー移動計算部14aも備えた点が、実施例1と異なる。図1にその構成を破線で示す。他の構成は実施例1と同じである。累積パワー移動計算部14aの一部の動作フローを図10に示して動作を説明する。
累積パワー移動計算部14aは、低域領域の低周波数側であるk=0〜(D/2−d−1)の範囲と、高周波数側のk=D/2〜(D−d−1)の範囲内のそれぞれの最大累積パワーが得られる周波数インデックスの範囲を動的に求めるものである。まず始めに累積パワーpを初期化すると共に、累積パワーを求める途中のある範囲dの累積パワーを格納する変数ptempを初期化する(ステップS80)。範囲d毎に求める累積パワーpを初期化する(ステップS81)。そして最初にk=0からk=(d−1)の範囲の累積パワーpを計算する(ステップS82〜S84)。次に変数ptempと今回求めた累積パワーpを比較する(ステップS85)。最初は変数ptempが0のために、必ずptemp<pとなるので、途中の最大パワーとして求めたpを変数ptempに代入するptemp=p(ステップS86)。そして低域領域の異なる範囲の一方のパワーの計算を開始する先頭の周波数インデックスkを、k=iとする。したがって、最初はk=0である。この動作をステップS89でiを1ずつ加算しながらi=(D/2−d−1)になるまで、繰り返す(ステップS88)。つまり、累積パワーpを求める累積範囲dの先頭の周波数インデックスkを求める。例えば2回目の累積パワーpが1回目の変数ptempより大きければ、ステップS87でk=1となる。このように、最大の累積パワーpになる先頭の周波数インデックスkを求めることができる。
同様に高周波数側のk=D/2〜(D−d−1)の範囲内のパワーを計算する先頭の周波数インデックスkも求めることができる(ステップS91〜)。動作フローは、上記した動作と同じなので省略する。このようにしてkとkを求めた後は、図6で説明済みのステップS143以降の処理を行なって、累積パワーpとpとを求める。このようにすれば、低域領域の低周波数側と高周波数側のそれぞれの範囲の最大パワー同士から求めたパワー比rを得ることができる。この方法は比較的に演算量を必要とする。より少ない演算量でパワー比を求める周波数インデックスの範囲を可変にした実施例3を次に説明する。
実施例3の音声楽音擬似広帯域化装置は、実施例2の累積パワー移動計算部14aに代えてピーク検出部14bを備える。図1にそのピーク検出部14bを破線で示す。他の構成は実施例1又は2と同じである。ピーク検出部14bの動作フローを図11に示して動作を説明する。
ピーク検出部14bは、低域領域の低周波数側であるk=0〜(D/2−d−1)の範囲と、高周波数側のk=D/2〜(D−d−1)の範囲内のそれぞれの最大パワーを示す周波数インデックスk0Pとk1Pを動的に求めるものである。まず始めにステップS93で変数を初期化する。ppeakは、範囲d内の最大パワーの値を格納する変数である。周波数インデックスkを増やしながらパワーを計算(ステップS94)して、変数ppeakと比較する(ステップS95)。計算したpの方が変数ppeakよりも大きい場合、ステップS96で変数ppeakにpを代入してパワーの大きい方の周波数インデックスkをk0Pとして記録する(ステップS97)。この処理をkを1ずつ加算(ステップS98)しながらk=(D/2−d−1)になるまで繰り返す(ステップS99)。そのように動作すると、k0Pにはk=0〜(D/2−d−1)の範囲で最大パワーを示す周波数インデックスが記録される。
同様に高周波数側のk=D/2〜(D−d−1)の範囲内の最大パワーを示す周波数インデックスk1Pも求めることができる。動作フローは、上記した動作と同じなので省略する。このようにk0Pとk1Pを求めた後は、k0Pとk1Pをそれぞれ中心として例えばdの範囲の累積パワーpとpを計算してパワー比rを求める。または、k0P, k1Pを先頭の周波数インデックスk,kとして実施例2と同じように累積パワーを求めても良い。実施例3は、実施例2に対して演算量を1/dに削減することができる。
また、最大パワーの代わりに信号振幅の最大値から周波数インデックスk0Pとk1Pを動的に求め、それぞれを中心とした信号振幅の絶対値和の比r′を計算するようにしても良い。
実施例1ではゲイン係数kHGを、複数の閾値とパワー比rとを比較して表2に示したテーブルを用いて決定する例を示した。他の方法として、式(8)に示すように累積パワー比rに正の実数αを乗じた値を、ゲイン係数kHGとするようにしても良い。正の実数αを図1のゲイン決定部14内に破線で示す。
HG=α・r (8)
例えば、α=0.5のように1以下の値にすれば、ゲイン係数kHGを細かく設定することができる。また、正の実数αをパラメータとすることで、ゲイン係数kHGを容易に変更することが可能になるのでゲイン係数kHGの設定と調整を容易にする効果を奏する。なお、正の実数αを乗じた値をゲイン係数とするのは、信号振幅の絶対値和の比r′の場合にも適用が可能である。
〔シミュレーション結果〕
この発明で提案した音声楽音擬似広帯域化装置で擬似広帯域化処理を施した場合と、その処理を行なわない場合の音声の音質を、5段階MOS主観評価で評価した結果を図12に示す。横軸は処理の有無を示し、縦軸はMOS主観評価値である。数値が大きいほど良い評価結果を示す。
シミュレーション条件:男性音源4名分、女性音源4名分について、この発明の擬似広帯域化処理を行なった場合と行わない場合とについて、一般人24名に評価してもらった。擬似広帯域化処理を行なわない場合のMOS値=3.19に対して、この発明の擬似広帯域化処理を行なった場合、0.36ポイント向上したMOS値=3.55の結果を得ることができた。このようにこの発明による音声楽音擬似広帯域化装置及び方法によれば、擬似広帯域音声の音声品質を向上させることができる。
なお、上記した実施例の説明では、例えばサンプリング周波数8kHz、フレーム時間長を20msといった電話システムを前提にしたような例を示したが、この発明はこの例に限定されるものではない。この発明は、音声楽音信号を広帯域化する技術として広く利用することが可能である。
また、この発明である装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の音声楽音擬似広帯域化装置の実施例1乃至4の機能構成例を示す図。 実施例1の動作フローを示す図。 高域信号生成処理(ステップS13)の具体的な動作フローを示す図。 高域信号生成処理の処理結果を模式的に示す図。 高域信号生成処理の他の処理方法を模式的に示す図であり、(a)は低域周波数領域信号InFreq(k)を示す図、(b)は高域信号生成部13でコピーした高域領域の信号を示す図、(c)は結合部16で合成された擬似広帯域周波数信号を示す図である。 ゲイン決定処理(ステップS14)の具体的な動作フローを示す図。 ゲイン決定処理の具体的な他の動作フローを示す図。 音声信号のスペクトル構造の例を示す図であり、(a)は、高域になるほど振幅が低下する構造を示す図、(b)は(a)を擬似広帯域処理したスペクトルを示す図である。 音声信号のスペクトル構造の例を示す図であり、(a)は、高域になるほど振幅が増加する構造を示す図、(b)は(a)を擬似広帯域処理したスペクトルを示す図である。 累積パワー移動計算部14aの一部の動作フローを示す図。 ピーク検出部14bの動作フローを示す図。 5段階MOS主観評価の評価結果を示す図。 従来の音声擬似広帯域化方法の手順を示す図。 音声信号の周波数スペクトルの例を示す図であり、(a)は低域から高域に向かって信号の振幅が減衰する有声部の周波数スペクトルを示す図、(b)は(a)の信号を従来の音声楽音擬似広帯域化方法で擬似広帯域処理した周波数スペクトルを示す図である。 音声信号の周波数スペクトルの例を示す図であり、(a)は低域から高域に向かって信号の振幅が増加する無声部の周波数スペクトルを示す図、(b)は(a)の信号を従来の音声楽音擬似広帯域化方法で擬似広帯域処理した周波数スペクトルを示す図である。

Claims (8)

  1. 離散値化された狭帯域音声楽音信号を周波数領域の信号に変換し、低域領域の信号を生成する周波数変換部と、
    上記低域領域の信号の一部または全部を複写して高域領域の信号を生成する高域信号生成部と、
    上記低域領域の周波数帯域を4等分した帯域のうち、低域側から2番目の帯域の信号の累積パワーと低域側から3番目の帯域の信号の累積パワーとの比、または上記低域領域の周波数帯域を4等分した帯域のうち、低域側から2番目の帯域の振幅の絶対値和と低域側から3番目の帯域の信号の振幅の絶対値和との比と、予め定めた閾値との大小関係に基づいて、予め定めた複数のゲイン係数の中から1つのゲイン係数を決定するゲイン決定部と、
    上記高域領域の信号に上記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算部と、
    上記低域領域の信号と上記強調高域信号を合わせて擬似広帯域周波数信号を生成する結合部と、
    上記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換して出力する周波数逆変換部と、を具備する音声楽音擬似広帯域化装置。
  2. 離散値化された狭帯域音声楽音信号を周波数領域の信号に変換し、低域領域の信号を生成する周波数変換部と、
    上記低域領域の信号の一部または全部を複写して高域領域の信号を生成する高域信号生成部と、
    上記低域領域内の周波数帯域を2等分した低域側で、最も低い周波数から、最も高い周波数の値よりも予め定めた値だけ小さな周波数までの各周波数毎に、該周波数から上記予め定めた値の範囲内の信号の累積信号パワーを求め、上記各周波数毎の累積信号パワーのうち最大となる累積信号パワーを得た第1の周波数を求め、上記低域領域内の周波数帯域を2等分した高域側で、最も低い周波数から、最も高い周波数の値よりも予め定めた値だけ小さな周波数までの各周波数毎に、該周波数から上記予め定めた値の範囲内の信号の累積信号パワーを求め、上記各周波数毎の累積信号パワーのうち最大となる累積信号パワーを得た第2の周波数を求める累積パワー移動計算部と、
    上記第1の周波数で得られた累積信号パワーと上記第2の周波数で得られた累積信号パワーとの比と、予め定めた閾値との大小関係に基づいて、予め定めた複数のゲイン係数の中から1つのゲイン係数を決定するゲイン決定部と、
    上記高域領域の信号に上記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算部と、
    上記低域領域の信号と上記強調高域信号を合わせて擬似広帯域周波数信号を生成する結合部と、
    上記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換して出力する周波数逆変換部と、を具備する音声楽音擬似広帯域化装置。
  3. 離散値化された狭帯域音声楽音信号を周波数領域の信号に変換し、低域領域の信号を生成する周波数変換部と、
    上記低域領域の信号の一部または全部を複写して高域領域の信号を生成する高域信号生成部と、
    上記低域領域内の周波数帯域を2等分した低域側で、最も低い周波数から、最も高い周波数の値よりも予め定めた値だけ小さな周波数までの各周波数毎に、該周波数から上記予め定めた値の範囲内の信号の振幅の絶対値和を求め、上記各周波数毎の振幅の絶対値和のうち最大となる振幅の絶対値和を得た第1の周波数を求め、上記低域領域内の周波数帯域を2等分した高域側で、最も低い周波数から、最も高い周波数の値よりも予め定めた値だけ小さな周波数までの各周波数毎に、該周波数から上記予め定めた値の範囲内の信号の振幅の絶対値和を求め、上記各周波数毎の振幅の絶対値和のうち最大となる振幅の絶対値和を得た第2の周波数を求める累積パワー移動計算部と、
    上記第1の周波数で得られた振幅の絶対値和と上記第2の周波数で得られた振幅の絶対値和との比と、予め定めた閾値との大小関係に基づいて、予め定めた複数のゲイン係数の中から1つのゲイン係数を決定するゲイン決定部と、
    上記高域領域の信号に上記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算部と、
    上記低域領域の信号と上記強調高域信号を合わせて擬似広帯域周波数信号を生成する結合部と、
    上記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換して出力する周波数逆変換部と、を具備する音声楽音擬似広帯域化装置。
  4. 周波数変換部が、離散値化された狭帯域音声楽音信号を周波数領域の信号に変換し、低域領域の信号を生成する周波数変換過程と、
    高域信号生成部が、上記低域領域の信号の一部または全部を複写して高域領域の信号を生成する高域信号生成過程と、
    ゲイン乗算部が、上記低域領域の周波数帯域を4等分した帯域のうち、低域側から2番目の帯域の信号の累積パワーと低域側から3番目の帯域の信号の累積パワーとの比、または上記低域領域の周波数帯域を4等分した帯域のうち、低域側から2番目の帯域の振幅の絶対値和と低域側から3番目の帯域の信号の振幅の絶対値和との比と、予め定めた閾値との大小関係に基づいて、予め定めた複数のゲイン係数の中から1つのゲイン係数を決定するゲイン決定過程と、
    ゲイン乗算部が、上記高域領域の信号に上記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算過程と、
    結合部が、上記低域領域の信号と上記強調高域信号を合わせて擬似広帯域周波数信号を生成する結合過程と、
    周波数逆変換部が、上記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換して出力する周波数逆変換過程と、
    を含む音声楽音擬似広帯域化方法。
  5. 周波数変換部が、離散値化された狭帯域音声楽音信号を周波数領域の信号に変換し、低域領域の信号を生成する周波数変換過程と、
    高域信号生成部が、上記低域領域の信号の一部または全部を複写して高域領域の信号を生成する高域信号生成過程と、
    累積パワー移動計算部が、上記低域領域内の周波数帯域を2等分した低域側で、最も低い周波数から、最も高い周波数の値よりも予め定めた値だけ小さな周波数までの各周波数毎に、該周波数から上記予め定めた値の範囲内の信号の累積信号パワーを求め、上記各周波数毎の累積信号パワーのうち最大となる累積信号パワーを得た第1の周波数を求め、上記低域領域内の周波数帯域を2等分した高域側で、最も低い周波数から、最も高い周波数の値よりも予め定めた値だけ小さな周波数までの各周波数毎に、該周波数から上記予め定めた値の範囲内の信号の累積信号パワーを求め、上記各周波数毎の累積信号パワーのうち最大となる累積信号パワーを得た第2の周波数を求める累積パワー移動計算過程と、
    ゲイン決定部が、上記第1の周波数で得られた累積信号パワーと上記第2の周波数で得られた累積信号パワーとの比と、予め定めた閾値との大小関係に基づいて、予め定めた複数のゲイン係数の中から1つのゲイン係数を決定するゲイン決定過程と、
    ゲイン乗算部が、上記高域領域の信号に上記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算過程と、
    結合部が、上記低域領域の信号と上記強調高域信号を合わせて擬似広帯域周波数信号を生成する結合過程と、
    周波数逆変換部が、上記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換して出力する周波数逆変換過程と、
    を含む音声楽音擬似広帯域化方法。
  6. 周波数変換部が、離散値化された狭帯域音声楽音信号を周波数領域の信号に変換し、低域領域の信号を生成する周波数変換過程と、
    高域信号生成部が、上記低域領域の信号の一部または全部を複写して高域領域の信号を生成する高域信号生成過程と、
    累積パワー移動計算部が、上記低域領域内の周波数帯域を2等分した低域側で、最も低い周波数から、最も高い周波数の値よりも予め定めた値だけ小さな周波数までの各周波数毎に、該周波数から上記予め定めた値の範囲内の信号の振幅の絶対値和を求め、上記各周波数毎の振幅の絶対値和のうち最大となる振幅の絶対値和を得た第1の周波数を求め、上記低域領域内の周波数帯域を2等分した高域側で、最も低い周波数から、最も高い周波数の値よりも予め定めた値だけ小さな周波数までの各周波数毎に、該周波数から上記予め定めた値の範囲内の信号の振幅の絶対値和を求め、上記各周波数毎の振幅の絶対値和のうち最大となる振幅の絶対値和を得た第2の周波数を求める累積パワー移動計算過程と、
    ゲイン決定部が、上記第1の周波数で得られた振幅の絶対値和と上記第2の周波数で得られた振幅の絶対値和との比と、予め定めた閾値との大小関係に基づいて、予め定めた複数のゲイン係数の中から1つのゲイン係数を決定するゲイン決定過程と、
    ゲイン乗算部が、上記高域領域の信号に上記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算過程と、
    結合部が、上記低域領域の信号と上記強調高域信号を合わせて擬似広帯域周波数信号を生成する結合過程と、
    周波数逆変換部が、上記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換して出力する周波数逆変換過程と、
    を含む音声楽音擬似広帯域化方法。
  7. 請求項1乃至の何れかに記載された音声楽音擬似広帯域化装置としてコンピュータを機能させるためのプログラム。
  8. 請求項に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008230455A 2007-10-30 2008-09-09 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 Active JP4733727B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008230455A JP4733727B2 (ja) 2007-10-30 2008-09-09 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007281450 2007-10-30
JP2007281450 2007-10-30
JP2008230455A JP4733727B2 (ja) 2007-10-30 2008-09-09 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体

Publications (2)

Publication Number Publication Date
JP2009134260A JP2009134260A (ja) 2009-06-18
JP4733727B2 true JP4733727B2 (ja) 2011-07-27

Family

ID=40866137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008230455A Active JP4733727B2 (ja) 2007-10-30 2008-09-09 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体

Country Status (1)

Country Link
JP (1) JP4733727B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11763828B2 (en) 2019-01-31 2023-09-19 Mitsubishi Electric Corporation Frequency band expansion device, frequency band expansion method, and storage medium storing frequency band expansion program

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116245A (ja) * 2007-11-09 2009-05-28 Yamaha Corp 音声強調装置
JP5928539B2 (ja) * 2009-10-07 2016-06-01 ソニー株式会社 符号化装置および方法、並びにプログラム
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5652658B2 (ja) 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5589631B2 (ja) 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5596618B2 (ja) * 2011-05-17 2014-09-24 日本電信電話株式会社 擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム
CN105469805B (zh) 2012-03-01 2018-01-12 华为技术有限公司 一种语音频信号处理方法和装置
JP5949379B2 (ja) * 2012-09-21 2016-07-06 沖電気工業株式会社 帯域拡張装置及び方法
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
JP6282925B2 (ja) * 2014-05-13 2018-02-21 日本電信電話株式会社 音声強調装置、音声強調方法及びプログラム
WO2017037830A1 (ja) * 2015-08-31 2017-03-09 三菱電機株式会社 音声認識装置および音声認識処理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002015522A (ja) * 2000-06-30 2002-01-18 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び音声帯域拡張方法
JP2002175092A (ja) * 2000-12-07 2002-06-21 Kenwood Corp 信号補間装置、信号補間方法及び記録媒体
JP2006293400A (ja) * 2001-11-14 2006-10-26 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置
JP2007171339A (ja) * 2005-12-20 2007-07-05 Kenwood Corp オーディオ信号処理装置
JP2007310296A (ja) * 2006-05-22 2007-11-29 Oki Electric Ind Co Ltd 帯域拡張装置及び方法
JP2008058470A (ja) * 2006-08-30 2008-03-13 Hitachi Maxell Ltd 音声信号処理装置、音声信号再生システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002015522A (ja) * 2000-06-30 2002-01-18 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び音声帯域拡張方法
JP2002175092A (ja) * 2000-12-07 2002-06-21 Kenwood Corp 信号補間装置、信号補間方法及び記録媒体
JP2006293400A (ja) * 2001-11-14 2006-10-26 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置
JP2007171339A (ja) * 2005-12-20 2007-07-05 Kenwood Corp オーディオ信号処理装置
JP2007310296A (ja) * 2006-05-22 2007-11-29 Oki Electric Ind Co Ltd 帯域拡張装置及び方法
JP2008058470A (ja) * 2006-08-30 2008-03-13 Hitachi Maxell Ltd 音声信号処理装置、音声信号再生システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11763828B2 (en) 2019-01-31 2023-09-19 Mitsubishi Electric Corporation Frequency band expansion device, frequency band expansion method, and storage medium storing frequency band expansion program

Also Published As

Publication number Publication date
JP2009134260A (ja) 2009-06-18

Similar Documents

Publication Publication Date Title
JP4733727B2 (ja) 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体
RU2487426C2 (ru) Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
RU2591733C2 (ru) Устройство и способ изменения звукового сигнала посредством формирования огибающей
KR101747918B1 (ko) 고주파수 신호 복호화 방법 및 장치
JP4818335B2 (ja) 信号帯域拡張装置
JP3646939B1 (ja) オーディオ復号装置およびオーディオ復号方法
JP4945586B2 (ja) 信号帯域拡張装置
JP6262668B2 (ja) 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
US10430154B2 (en) Tonal/transient structural separation for audio effects
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
JP6896881B2 (ja) 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法
US9514767B2 (en) Device, method and computer program for freely selectable frequency shifts in the subband domain
RU2625945C2 (ru) Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
JP4783412B2 (ja) 信号広帯域化装置、信号広帯域化方法、そのプログラム、その記録媒体
Huber Objective assessment of audio quality using an auditory processing model
JP6065488B2 (ja) 帯域拡張装置及び方法
JP5163606B2 (ja) 音声分析合成装置、及びプログラム
Dziubinski et al. Octave error immune and instantaneous pitch detection algorithm
JP4513556B2 (ja) 音声分析合成装置、及びプログラム
Anikin Package ‘soundgen’
JP2004151423A (ja) 帯域拡張装置及び方法
Santos et al. Towards blind reverberation time estimation for non-speech signals
Lee STFT-based envelope tracking harmonic generator design with application to enhancing band limited audio signals
Balaji et al. A Novel DWT Based Speech Enhancement System through Advanced Filtering Approach with Improved Pitch Synchronous Analysis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110412

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110422

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4733727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350