JP2004070240A - オーディオ信号の時間軸圧伸装置、方法及びプログラム - Google Patents
オーディオ信号の時間軸圧伸装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2004070240A JP2004070240A JP2002233085A JP2002233085A JP2004070240A JP 2004070240 A JP2004070240 A JP 2004070240A JP 2002233085 A JP2002233085 A JP 2002233085A JP 2002233085 A JP2002233085 A JP 2002233085A JP 2004070240 A JP2004070240 A JP 2004070240A
- Authority
- JP
- Japan
- Prior art keywords
- peak
- audio signal
- data
- frame
- characteristic curve
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力オーディオ信号は、窓関数乗算部11においてフレーム単位で切り出され、FFT部12にて振幅データと位相データとを含んだ周波数スペクトルデータとして出力される。スペクトルピーク検出部13は、周波数スペクトルの振幅のエンベロープのローカルピークを検出する。聴覚心理特性評価部20は、最小可聴限特性曲線等の聴覚心理特性曲線に基づいてローカルピークデータを削減する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、原オーディオ信号のピッチ及び音質を変えずに原オーディオ信号を所望の圧伸率で時間軸圧伸するオーディオ信号の時間軸圧伸装置及び方法に関する。
【0002】
【従来の技術】
時間軸圧伸の方法は、時間領域で処理を行うものと、周波数領域で処理を行うものとの2つに大別される。一般に、時間領域の処理は処理負荷が低く、リアルタイムでの処理が容易であるが、良い音質を得ることは難しい。一方、周波数領域の処理は良い音質を得やすいが、FFTなどにより時間領域表現を周波数領域表現に変換する場合でも、フェイズボコーダなどにより正弦波の組に分解する場合でも処理負荷が高くリアルタイムでの処理が難しい。
【0003】
【発明が解決しようとする課題】
本発明は、この点に鑑みてなされたものであり、周波数領域でデータ処理を行う場合にデータ処理量を削減し、リアルタイムでの処理をも可能としたオーディオ信号の時間軸圧伸装置、方法及びプログラムを提供することを目的とする。
【0004】
【課題を解決するための手段】
上記目的達成のため、本出願の第1の発明に係るオーディオ信号の時間軸圧伸装置は、フレームに区切られたオーディオ信号からその周波数スペクトルのピークを前記フレーム毎に検出する検出部と、人間の聴覚心理特性曲線と前記ピークとを比較して前記ピークを削減したフレームデータを生成するデータ削減部と、前記フレームデータの単位時間当たりのフレーム数を所定の時間軸圧伸率に基づいて調整し、調整されたフレームデータに基づいてオーディオ信号を合成する合成部とを備えたことを特徴とする。
【0005】
この第1の発明に係る音声合成装置によれば、分析部で分析された各フレームのピークのデータが、データ削減部において、聴覚心理特性曲線と比較される。そして、この比較の結果に基づいてピークのデータが削減される。このため、その後のピーク連携部、位相生成部、合成部における負荷が大きく軽減され、オーディオ信号のリアルタイム処理が可能になる。
【0006】
上記目的達成のため、本出願の第2の発明に係るオーディオ信号の時間軸圧伸方法は、フレームに区切られたオーディオ信号からその周波数スペクトルのピークを前記フレーム毎に検出する検出ステップと、人間の聴覚心理特性曲線と前記ピークとを比較して前記ピークを削減したフレームデータを生成するデータ削減ステップと、前記フレームデータの単位時間当たりのフレーム数を所定の時間軸圧伸率に基づいて調整し、調整されたフレームデータに基づいてオーディオ信号を合成する合成ステップとを備えたことを特徴とする。
【0007】
上記目的達成のため、本出願の第3の発明に係るオーディオ信号の時間軸圧伸用プログラムは、フレームに区切られたオーディオ信号からその周波数スペクトルのピークを前記フレーム毎に検出する検出ステップと、人間の聴覚心理特性曲線と前記ピークとを比較して前記ピークを削減したフレームデータを生成するデータ削減ステップと、前記フレームデータの単位時間当たりのフレーム数を所定の時間軸圧伸率に基づいて調整し、調整されたフレームデータに基づいてオーディオ信号を合成する合成ステップとをコンピュータに実行させるように構成されたことを特徴とする。
【0008】
【発明の実施の形態】
次に、本発明の実施の形態を図面に沿って詳細に説明する。
図1は、本発明の実施の形態に係るオーディオ信号の時間軸圧伸装置の全体構成を示している。図1に示すように、本発明の実施の形態に係るオーディオ信号の時間軸圧伸装置は、分析部10、聴覚心理特性評価部20、フレーム調整部25、タイムスケーリング部30、合成部40とから大略構成されている。
【0009】
分析部10は、窓関数乗算部11と、FFT部12と、スペクトルピーク検出部13とを含んでいる。窓関数乗算部11は、ハミング関数などの窓関数を生成すると共にこの窓関数を入力オーディオ信号に乗算して、これにより入力オーディオ信号をフレーム単位で切り出すためのものである。FFT部12は、窓関数乗算部11からの入力に対し高速フーリエ変換(FFT)を施して、振幅データと位相データとを含んだフレーム単位の周波数スペクトルデータを出力するものである。スペクトルピーク検出部13は、設定した帯域での振幅データの最大値を求めることなどによるピーク検出アルゴリズムを使用して、FFT部12から出力された周波数スペクトルの振幅のエンベロープのローカルピークを検出し、検出したローカルピークの振幅データと位相データを分析フレームAFnとして出力する。このとき、FFTの結果のサンプル点だけによってピークを検出するのではなく、周波数が近接する数個のサンプル点を使って、スプライン補間や2次補間を用いてサンプル点間のピークとなるはずの周波数もピークとして検出する。
【0010】
聴覚心理特性評価部20は、聴覚心理特性曲線を記憶したテーブルを備えている。この聴覚心理特性曲線とは、人間の耳の聴神経で検知され得る音の特性を示したものであり、例えば、後述する最小可聴限特性曲線や、周波数マスキング特性曲線、ラウドネス特性曲線などがこれに該当する。聴覚心理特性評価部20は、聴覚心理特性曲線に基づいて、前記スペクトルピーク検出部13で検出されたローカルピークデータを削減する。
【0011】
聴覚心理特性評価部20のテーブルに最小可聴限特性曲線が記憶される場合について説明する。最小可聴限特性曲線とは、図2に点線ASで示すグラフのように、人間の耳が音を聴く際に、聴こえる音の中で最も小さなレベルと周波数との関係を示すデータである。
聴覚心理特性評価部20は、この最小可聴限特性曲線と、スペクトルピーク検出部13で検出されたローカルピークとを比較して、分析フレームAFnから最小可聴限特性曲線ASよりも小さい値のローカルピークのデータ(図2の黒丸印のデータ)を削除して、次段のフレーム数調整部25に出力する。これにより、後段のタイムスケーリング部30での処理するデータ量が減少するため、時間軸圧伸の処理量を削減することができる。
【0012】
次に、聴覚心理特性評価部20のテーブルに周波数マスキング特性曲線を記憶させる場合について説明する。
周波数マスキングとは、ある周波数の音声が感受される場合、その音声より振幅が小さく周波数が隣接する音声が聞こえにくくなる現象のことをいう。人間の耳は多数の聴神経を有しており、音の周波数により刺激を受ける聴神経が異なっており、また、ある周波数に対応する聴神経が刺激を受けた場合、それに隣接する周波数に対応する聴神経は逆に抑圧される。この抑圧の度合いを示したものが、周波数マスキング特性曲線である。
【0013】
図3はこの周波数マスキング特性曲線の一例である。
スペクトルピーク検出部13で検出されたローカルピークのうち、振幅の大きいものを複数個選択し、この選択されたローカルピークPmiを頂点として右下方向、左下方向に伸びる直線Li、Li´を描く。そして、この複数のLi、Li´を接続した周波数マスキング曲線MLを形成し、このマスキング曲線MLよりも下にあるローカルピークのデータを分析フレームAFnから削除してデータ量を削減し、次段のフレーム数調整部25に出力する。
【0014】
この最小可聴限特性曲線、周波数マスキング特性曲線の両方に基づいてもローカルピークのデータを削減するようにすることもできる。これにより、データの削減量を更に大きくすることが出来る。
【0015】
フレーム数調整部25は、聴覚心理特性評価部20から出力されたデータに対し、このデータが所望の圧伸率となるよう、分析フレームAFnを単位として間引き、繰り返しを行ってフレーム数の調整を行う。
タイムスケーリング部30は、ピーク連携部31と、位相生成部32とを含んでいる。聴覚心理特性評価部20から出力されたデータに対し、分析フレームを単位とした間引き、繰り返しにより所望の圧伸率になるような時間軸上のフレーム数の調整が行われた後、ピーク連携部31は、図4に示すように、隣接する分析フレームAFn−1、AFnにおいてそれぞれ検出されたローカルピークデータのうち、連続していると考えられるピークを選択して互いに連携させる処理を行う。すなわち、過去の分析フレームAFn−1のローカルピークf1、f2、f3・・・に対応するローカルピークが、現在の分析フレームAFn(f1´、f2´、f3´・・・)にも存在するか否かをチェックし、存在する場合には、その対応するローカルピーク同士を連携させる。対応関係の判断は、両ローカルピークの周波数の差が所定値以内であるか否かにより判断し、所定値Δfmax以上の差があるローカルピーク同士は連携の対象から除外する。この際、周波数の差が最も小さなローカルピークを連携させることで、過去の分析フレームAFn−1の複数のローカルピークと現在の分析フレームAFnの1つのローカルピークとが連携することを防止することができる。
【0016】
この連携処理がなされた場合、この連携された2つのローカルピークの周波数の差を求め、これを分析フレームAFn−1、AFnの間の時間で微分することにより、フレーム間の任意の位置での瞬時周波数frを求めることができるようになる。簡略的に、2つのローカルピークの平均周波数を瞬時周波数frとしてもよい。
【0017】
位相生成部32は、過去の分析フレームAFn−1の連携されたローカルピーク(周波数f)での位相を初期位相ΦAFn−1、fと考え、この初期位相ΦAFn−1、fに瞬時周波数frとフレーム間の時間Δtから求めた位相変化(2πfr×Δt)を加算することにより、対応する現在のフレームAFnの対応するローカルピーク(周波数f´)での正弦波成分の位相を求めることができる。更に過去の合成フレームSFn−1の連携されたローカルピークの位相に同じ位相変化を加算することで、合成フレームSFnの対応するローカルピークの位相を求める。連携するローカルピークが見つからないローカルピークの位相については、分析フレームの対応するローカルピークの位相がそのまま合成フレームの位相とされる。
なお、合成フレームSFnの振幅については、対応する分析フレームAFnの振幅がそのまま使われる。
【0018】
合成部40は、逆FFT部41と、窓関数重ね合わせ部42とを含んでいる。逆FFT部41は、タイムスケーリング部30で合成された合成フレームSFnに逆高速フーリエ変換(逆FFT)を施して時間領域表現に変換する機能を有する。窓関数重ね合せ部42は、得られた時間領域の出力オーディオ信号に窓関数を乗算すると共に、時間的に一部重複するように重ね合わせて外部に時間軸圧伸されたオーディオ信号として出力する部分である。
【0019】
次に、この時間軸圧伸装置の作用を、図5に示すフローチャートに基づいて説明する。この時間軸圧伸装置に入力されるオーディオ信号は、まず窓関数乗算部11に入力されて、窓関数と乗算される。これにより、入力オーディオ信号がフレーム単位で切り出される(S1)。このフレーム単位のオーディオ信号は、FFT部12において高速フーリエ変換(FFT)されて、振幅データと位相データとを含むフレーム単位の周波数スペクトルデータが出力される(S2)。スペクトルピーク検出部13は、ピーク検出アルゴリズムを使用して、FFT部12から出力された周波数スペクトルの振幅のエンベロープのローカルピークを検出し分析フレームAFnとして出力する(S3)。聴覚心理特性評価部20は、この検出されたローカルピークと、図示しないテーブルに記憶された聴覚心理特性曲線とを比較してローカルピークのデータを削減する(S4)。
【0020】
続いて、フレーム調整部25において、所望の圧伸率に応じたフレーム数となるように、分析フレームAFnを単位として間引き、繰り返しが行われる(S5)。
次に、ピーク連携部31において、隣接するフレームAFn−1、AFnにおいて検出されたローカルピークデータのうち、対応関係にあるピークを選択して互いに連携させる。すなわち、過去のフレームAFn−1のローカルピークf1、f2、f3・・・に対応するローカルピークが、現在のフレームAFnにも存在するか否かをチェックし、存在する場合には、その対応するローカルピークf1´、f2´、f3´等をローカルピークf1、f2、f3等と連携させる(S6)。
【0021】
次に、位相生成部32において、過去の分析フレームAFn−1の連携されたローカルピーク(周波数f)での位相位相ΦAFn−1、fと、連携された前後のローカルピークの周波数f、f´とに基づき、対応する合成フレームSFnのローカルピークでの位相を求める(S7)。
【0022】
こうして、合成フレームSFnの振幅、位相データが求められると、これらのデータが逆FFT部41において逆高速フーリエ変換を施され、時間領域の信号に変換される。この時間領域に変換された各フレーム毎の信号が、窓関数乗算及重ね合せ部42において重ね合わされ、時間軸圧伸されたオーディオ信号として出力される。
【0023】
以上、実施の形態について説明したが、本発明はこれに限定されるものではなく、本発明の趣旨を逸脱しない範囲で様々な改変や追加が可能である。
例えば、分析部10におけるピーク検出の手法はFFTに限らず、その他の離散コサイン変換(DCT)などの直交変換でもよく、切り出した各フレームのローカルピークが検出される手法であればよい。
また、上記実施の形態では、タイムスケーリング部30での時間軸圧伸の処理で、振幅データは分析フレームAFnのデータをそのまま合成フレームAFnに用いることとしていたが、位相と同様に前後のフレームのデータの補間により求めるようにしてもよい。
【0024】
【発明の効果】
以上説明したように、本発明に係るオーディオ信号の時間軸圧伸装置、方法及びプログラムによれば、周波数領域でデータ処理を行う場合にデータ処理量を削減し、オーディオ信号のリアルタイム処理が可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係るオーディオ信号の時間軸圧伸装置の全体構成を示すブロック図である。
【図2】聴覚心理特性評価部20において、最小可聴限特性曲線を利用してデータ量の削減を行う手法を説明する概念図である。
【図3】聴覚心理特性評価部20において、周波数マスキング特性曲線を利用してデータ量の削減を行う手法を説明する概念図である。
【図4】図1に示すピーク連携部31の機能を説明するための概念図である。
【図5】図1に示す時間軸圧伸装置の作用を示すフローチャートである。
【符号の説明】
10・・・分析部、 11・・・窓関数乗算部、 12・・・FFT部、 13・・・スペクトルピーク検出部、 20・・・聴覚心理特性評価部、 25・・・フレーム数調整部、 30・・・タイムスケーリング部、 31・・・ピーク連携部、 32・・・位相生成部、 40・・・合成部、 41・・・逆FFT部、 42・・・窓関数重ね合せ部
Claims (5)
- フレームに区切られたオーディオ信号からその周波数スペクトルのピークを前記フレーム毎に検出する検出部と、
人間の聴覚心理特性曲線と前記ピークとを比較して前記ピークを削減したフレームデータを生成するデータ削減部と、
前記フレームデータの単位時間当たりのフレーム数を所定の時間軸圧伸率に基づいて調整し、調整されたフレームデータに基づいてオーディオ信号を合成する合成部とを備えたことを特徴とするオーディオ信号の時間軸圧伸装置。 - 前記聴覚心理特性曲線は、人間の耳が聞き取ることのできる最小の音圧と周波数との関係を示す最小可聴限特性曲線である請求項1に記載のオーディオ信号の時間軸圧伸装置。
- 前記聴覚心理特性曲線は、ある周波数の音声が人間の耳に感受された場合においてその周波数近傍の周波数が聞こえにくくなる度合いを示す周波数マスキング特性曲線である請求項1に記載のオーディオ信号の時間軸圧伸装置。
- フレームに区切られたオーディオ信号からその周波数スペクトルのピークを前記フレーム毎に検出する検出ステップと、
人間の聴覚心理特性曲線と前記ピークとを比較して前記ピークを削減したフレームデータを生成するデータ削減ステップと、
前記フレームデータの単位時間当たりのフレーム数を所定の時間軸圧伸率に基づいて調整し、調整されたフレームデータに基づいてオーディオ信号を合成する合成ステップとを備えたことを特徴とするオーディオ信号の時間軸圧伸方法。 - フレームに区切られたオーディオ信号からその周波数スペクトルのピークを前記フレーム毎に検出する検出ステップと、
人間の聴覚心理特性曲線と前記ピークとを比較して前記ピークを削減したフレームデータを生成するデータ削減ステップと、
前記フレームデータの単位時間当たりのフレーム数を所定の時間軸圧伸率に基づいて調整し、調整されたフレームデータに基づいてオーディオ信号を合成する合成ステップとをコンピュータに実行させるように構成されたことを特徴とするオーディオ信号の時間軸圧伸用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002233085A JP3858784B2 (ja) | 2002-08-09 | 2002-08-09 | オーディオ信号の時間軸圧伸装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002233085A JP3858784B2 (ja) | 2002-08-09 | 2002-08-09 | オーディオ信号の時間軸圧伸装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004070240A true JP2004070240A (ja) | 2004-03-04 |
JP3858784B2 JP3858784B2 (ja) | 2006-12-20 |
Family
ID=32018309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002233085A Expired - Fee Related JP3858784B2 (ja) | 2002-08-09 | 2002-08-09 | オーディオ信号の時間軸圧伸装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3858784B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007088853A1 (ja) * | 2006-01-31 | 2007-08-09 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
JP2008145374A (ja) * | 2006-12-13 | 2008-06-26 | Fuji Electric Fa Components & Systems Co Ltd | 機械系の振動特性検出装置 |
JP2012047707A (ja) * | 2010-08-30 | 2012-03-08 | Okuma Corp | 振動検出装置、振動抑制装置、および、振動情報表示装置 |
-
2002
- 2002-08-09 JP JP2002233085A patent/JP3858784B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007088853A1 (ja) * | 2006-01-31 | 2007-08-09 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
JPWO2007088853A1 (ja) * | 2006-01-31 | 2009-06-25 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
JP2008145374A (ja) * | 2006-12-13 | 2008-06-26 | Fuji Electric Fa Components & Systems Co Ltd | 機械系の振動特性検出装置 |
JP2012047707A (ja) * | 2010-08-30 | 2012-03-08 | Okuma Corp | 振動検出装置、振動抑制装置、および、振動情報表示装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3858784B2 (ja) | 2006-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8638962B2 (en) | Method to reduce feedback in hearing aids | |
EP2375785B1 (en) | Stability improvements in hearing aids | |
EP0815706B1 (en) | Signal quality determining device and method | |
US5479560A (en) | Formant detecting device and speech processing apparatus | |
EP2579252B1 (en) | Stability and speech audibility improvements in hearing devices | |
JP2007171954A (ja) | 狭帯域音声の帯域幅拡張 | |
EP2019391A2 (en) | Audio decoding apparatus and decoding method and program | |
JP4738213B2 (ja) | 利得調整方法及び利得調整装置 | |
EP1472786A2 (en) | A method for decreasing the dynamic range of a signal and electronic circuit | |
WO2020127939A1 (en) | Methods, devices and system for a compensated hearing test | |
JP5589631B2 (ja) | 音声処理装置、音声処理方法および電話装置 | |
CN105324815B (zh) | 信号处理装置和信号处理方法 | |
US6594307B1 (en) | Device and method for signal quality determination | |
JP5340121B2 (ja) | オーディオ信号再生装置 | |
JP3858784B2 (ja) | オーディオ信号の時間軸圧伸装置、方法及びプログラム | |
JP4922427B2 (ja) | 信号補正装置 | |
JP4455701B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
EP3566229B1 (en) | An apparatus and method for enhancing a wanted component in a signal | |
Sottek et al. | Perception of roughness of time-variant sounds | |
JP2002366178A (ja) | オーディオ信号の帯域拡張方法及び帯域拡張装置 | |
EP0901677B1 (en) | Device for determining the quality of an output signal to be generated by a signal processing circuit, and also method | |
WO2019009204A1 (ja) | 信号処理装置、制御方法、プログラム及び記憶媒体 | |
JP2011035573A (ja) | 音信号処理装置および音信号処理方法 | |
CN106533379A (zh) | 用于处理音频信号的方法和装置 | |
JP6073160B2 (ja) | 波形変換装置および波形変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040722 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060911 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100929 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100929 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110929 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120929 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130929 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |