JP2000181473A - オーディオ信号処理方法および装置 - Google Patents
オーディオ信号処理方法および装置Info
- Publication number
- JP2000181473A JP2000181473A JP10351950A JP35195098A JP2000181473A JP 2000181473 A JP2000181473 A JP 2000181473A JP 10351950 A JP10351950 A JP 10351950A JP 35195098 A JP35195098 A JP 35195098A JP 2000181473 A JP2000181473 A JP 2000181473A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- audio signal
- feature point
- power
- power spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
検出することができるオーディオ信号処理方法を提供す
ること。 【解決手段】 フレーム分割部1により、標本化された
入カオーディオ信号から一定時間ごとに過去の一定数の
標本列を取得する。パワースペクトル計算部2により、
前記標本列に対するパワースペクトルを計算する。特徴
点抽出部3により、前記パワースペクトルのうち重要性
の高い要素を特徴点として抽出する。スペクトル変化度
計算部4により、今回抽出された特徴点と前回抽出され
た特徴点とを比較して聴覚上の変化を模擬する特徴量を
計算する。不連続性判断部5により、特徴量に基づきパ
ワースペクトルの不連続性の判断を行い、オーディオ信
号上での音の区切りを検出する。
Description
に対する処理に関するものであり、聴感的な不連続点を
検出する手段を提供する。
に、PCM方式で記録されているオーディオ信号を、あ
る一定の時間ごとに区切り、各区間の信号サンプルを変
換して得られた周波数領域での信号を手がかりに符号化
する変換符号化法がある。変換符号化法は定常的な音に
対しては能率良く信号圧縮できるが、過渡状態、特に立
ち上がりを含む音に対しては圧縮の能率が低下するた
め、信号を復元した際の音質が低下してしまう。このよ
うな問題を避けるために、変換符号化では、立ち上がり
を含む音に対しては、圧縮の能率を向上させる処理が特
別に用意されているのが一般的である。
信号の立ち上がりを検出する従来の手法としては、短区
間のパワーを計算して、その変化を検知するものや、信
号のスペクトルを分析し、形状が平坦であるものは立ち
上がりとみなすなどの手法がある。しかし、前者では、
例えば持続音のパワーが一定のまま高さが変わった場合
などには検出できず、後者では、持続ノイズのようなも
ともと平坦な形状をしている信号を誤認識してしまうこ
とがある。これらの誤認識は、人間の聴覚系の処理を信
号処理方式がうまく近似していないために起こる。
ので、オーディオ信号の聴感的な区切りを能率良く検出
することができ、また、変換符号化において立ち上がり
音の能率を向上させる処理を呼び出す手がかりとして利
用することができ、さらに、オーディオ信号を編集加工
する過程において、聴感的に区切りのある点でオーディ
オ信号を切り出す作業を支援することができるオーディ
オ信号処理方法を提供することを目的とする。
め、この発明は以下の構成を有する。すなわち、この発
明にかかるオーディオ信号処理方法は、標本化された入
力オーディオ信号上での音の区切りを検出するためのオ
ーディオ信号処理方法であって、(a)標本化された入
カオーディオ信号から一定時間ごとに過去の一定数の標
本列を取り出す第1の段階(例えばフレーム分割部1で
の処理に相当)と、(b)前記標本列に対するパワース
ペクトルを計算する第2の段階(例えばパワースペクト
ル計算部2での処理に相当)と、(c)前記パワースペ
クトルのうち重要性の高い要素を特徴点として抽出する
第3の段階(例えば特徴点抽出部3での処理に相当)
と、(d)前記第3の段階で今回抽出された特徴点と前
回抽出された特徴点とを比較して聴覚上の変化を模擬す
る特徴量を計算する第4の段階(スペクトル変化度計算
部4での処理に相当)と、(e)前記特徴量に基づいて
不連続性の有無を判断する第5の段階(例えばスペクト
ル変化度計算部4が備える不連続性判断部5での処理に
相当)と、を含むことを特徴とする。
パワースペクトルを一定時間ごとに分析し、その連続性
を評価することで区切りを検出する。すなわち、一定時
間ごとに入力オーディオ信号の標本列を取り出し、この
標本列に対するパワースペクトルの特徴点を抽出する。
そして、今回取り出された標本列から得られた特徴点と
前回取り出された標本列から得られた特徴点とを比較し
て、この特徴点の変化からパワースペクトルの変化を把
握し、その連続性を評価する。このパワースペクトルの
連続性の評価は、前回得られたパワースペクトルと今回
得られたパワースペクトルの変化を計算し、変化が大き
いときに不連続だと判断することによって行う。
ルの変化が把握され、このパワースペクトルの変化から
音の変化が把握される。例えば音の立ち上がりでは特徴
点が大きく変化し、パワースペクトルが不連続となる。
したがって、パワースペクトルの連続性から音の区切り
が把握される。ここで、特徴点の変化から、聴覚上の変
化を模擬する特徴量を求め、この特徴量からパワースペ
クトルの不連続性が判断される。これにより、人間の聴
覚に即して音の区切りを判断することが可能となる。
方法は、前記特徴点を記憶する第6の段階(例えば特徴
点記憶部4Aでの処理に相当)をさらに含み、前記第4
の段階が、前記第3の段階で抽出された特徴点と前記第
6の段階で記憶された特徴点から聴覚上の変化を計算す
ることを特徴とする。
ーディオ信号の標本列を取り出し、この標本列に対する
パワースペクトルの特徴点を抽出して記憶する。そし
て、今回取り出された標本列から得られた特徴点と前回
取り出されて記憶された標本列から得られた特徴点とを
比較して、この特徴点の変化からパワースペクトルの変
化を把握し、その連続性を評価する。
方法は、前記第3の段階が、前記パワースペクトルに基
づき各周波数帯域ごとにパワーを算出する段階と、前記
パワースペクトルの極大点を少なくとも1点以上求める
段階と、前記各極大点が属する前記周波数帯域に対する
パワーに基づいて閾値を設定し、前記各極大点が前記各
閾値を上回る場合に該極大値を特徴点として抽出する段
階と、を含むことを特徴とする。
信号のスペクトルの際だって大きい部分がより注意され
ることに着目し、スペクトルの際だって大きい部分(信
号成分)についてのみパワースペクトルの変化を計算す
る。すなわち、スペクトルの際だって大きい部分である
パワースペクトルの極大点を少なくとも1点以上求め、
閾値を上回る極大点を特徴点として抽出してパワースペ
クトルの変化が計算される。これにより、人間の聴覚に
即してパワースペクトルの連続性を判断することが可能
となる。
方法は、前記第4の段階が、前記第3の段階で抽出され
た特徴点と前記第6の段階で記憶された特徴点のうち周
波数の一致する組み合わせからパワースペクトルの差を
計算し、前記パワースペクトルの差の総和をもって前記
特徴量を定める、ことを特徴とする。
た特徴点と前回得られた特徴点のうち周波数の一致する
組み合わせ同士のパワースペクトルの差の総和として求
められる。ここで、聴覚系ではオーディオ信号の立ち上
がりは不連続点として認識しやすいが、立ち下がりは認
識しにくい傾向にあることに着目し、特徴量を計算する
際、立ち下がりの変化と立ち下がりの変化は区別して計
算する。例えば、パワースペクトルの差の総和から求め
られる特徴量は、立ち上がりの変化については正の値、
立ち下がりの変化については負の値になるようにする。
方法は、前記第5の段階が、前記特徴量が所定の閾値を
超えた場合に不連続性を判断することを特徴とする。こ
れにより、所定の閾値に応じて特徴量の連続性を判断す
ることが可能となり、この所定の閾値を適切に選べば、
人間の聴覚に即してパワースペクトルの連続性を判断す
ることが可能となる。
理方法は、前記第5の段階が、前記特徴量が所定の定数
と前記標本列によるパワーとの積を超えた場合に不連続
性を判断することを特徴とする。これにより、入力オー
ディオ信号の標本列のパワーを反映させてパワースペク
トルの連続性を判断することが可能となり、より聴覚に
即した判断が可能となる。
装置は、標本化された入力オーディオ信号上での音の区
切りを検出するためのオーディオ信号処理装置であっ
て、標本化された入カオーディオ信号から一定時間ごと
に過去の一定数の標本列を取り出す標本列取得手段(例
えばフレーム分割部1に相当)と、前記標本列に対する
パワースペクトルを計算するパワースペクトル計算手段
(例えばパワースペクトル計算部2に相当)と、前記パ
ワースペクトルのうち重要性の高い要素を特徴点として
抽出する特徴点抽出手段(スペクトル変化度計算部4に
相当)と、前記第3の段階で今回抽出された特徴点と前
回抽出された特徴点とを比較して聴覚上の変化を模擬す
る特徴量を計算する特徴量抽出手段と、前記特徴量に基
づいて不連続性の有無を判断する不連続性判断手段(例
えば不連続性判断部5に相当)と、を備えたことを特徴
とする。
装置は、前記特徴点を記憶する特徴点記憶手段(例えば
特徴点記憶部4Aに相当)をさらに備え、前記特徴量抽
出手段が、前記特徴点抽出手段により抽出された特徴点
と前記特徴点記憶手段に記憶された特徴点から聴覚上の
変化を計算することを特徴とする。
装置は、前記特徴点抽出手段が、前記パワースペクトル
に基づき各周波数帯域ごとにパワーを算出する手段と、
前記パワースペクトルの極大点を少なくとも1点以上求
める手段と、前記各極大点が属する前記周波数帯域に対
するパワーに基づいて閾値を設定し、前記各極大点が前
記各閾値を上回る場合に該極大値を特徴点として抽出す
る手段と、を備えたことを特徴とする。
装置は、前記特徴量抽出手段が、前記第3の段階で抽出
された特徴点と前記特徴点記憶手段に記憶された特徴点
のうち周波数の一致する組み合わせからパワースペクト
ルの差を計算し、前記パワースペクトルの差の総和をも
って前記特徴量を定めることを特徴とする。
装置は、前記不連続性判断手段が、前記特徴量が所定の
閾値を超えた場合に不連続性を判断することを特徴とす
る。また、この発明にかかるオーディオ信号処理装置
は、前記不連続性判断手段が、前記特徴量が所定の定数
と前記標本列によるパワーとの積を超えた場合に不連続
性を判断することを特徴とする。
トルが際立って大きい部分のみ処理することにより、入
カオーディオ信号が特徴的な時間構造を持つ信号と、特
徴的な時間構造をもたない背景雑音との和であった場合
でも誤動作なく不連続点を検出できる。また、スペクト
ルの変化を計算をする際、立ち上がりと立ち下がりを区
別することにより、不連続点の検出を正確に行うために
感度を高くしてもオーディオ信号の立ち下がりで誤って
不連続性を判断してしまうことがなくなる。
にかかる形態の形態を説明する。図1に、本発明の実施
の形態にかかるオーディオ信号処理装置の構成を示す。
同図に示すように、このオーディオ信号処理装置は、標
本化手段としてのフレーム分割部1と、パワースペクト
ル計算手段としてのパワースペクトル計算部2と、特徴
点抽出手段としての特徴点抽出部3と、特徴量抽出手段
としてのスペクトル変化度計算部4と、連続性判断手段
としての不連続性判断部5とを備えて構成される。この
実施の形態では、一定の時間間隔でサンプリングされた
離散オーディオ信号を入力オーディオ信号とする。
(離散オーディオ信号)の標本をフレーム長Nの個数か
らなる標本列に分割して切り出すものであり、この入力
オーディオ信号の標本をフレーム長Nだけの個数(例え
ば1024個)を記憶するバッファ用のメモリ(図示な
し)を持つ。
構成を示す。同図に示すように、パワースペクトル計算
部2は、入力オーディオ信号の標本列に対して窓掛け処
理を行う窓掛け部2Aと、離散フーリエ変換処理を行う
離散フーリエ変換部2Bと、二乗振幅処理を行う二乗振
幅計算部2Cとからなる。
す。この特徴点抽出部3は、パワースペクトルのうち音
の区切りを判断する上で重要性の高い要素を抽出するも
のであり、パワースペクトルを帯域分割するための帯域
分割部3Aと、各帯域毎にパワーの平均値を計算するた
めのパワー平均値計算部3Bと、後述するスペクトルの
極大点が特徴点か否かを判断する上で用いられる閾値を
設定するための閾値設定部3Cと、スペクトルの極大点
を検出するための極大点検出部3Dと、スペクトルの極
大点が特徴点か否かを判断するための特徴点判断部3E
と、入力オーディオ信号の標本のうち特徴点と判断され
た標本を出力するための特徴点出力部3Fとからなる。
な構成を示す。このスペクトル変化度計算部4は、抽出
された特徴点を記憶するための特徴点記憶部4Aと、今
回抽出された特徴点と前回抽出されて記憶された特徴点
とを比較してフレーム間で周波数が一致する特徴点を検
出するための一致特徴点検索部4Bと、周波数が一致す
る特徴点からフレーム間での特徴点の変化を計算するた
めの変化度計算部4Bとからなる。
信号処理装置の動作について、図6に示すフローチャー
トに沿って説明する。 ステップS1:フレーム分割部1により、入力オーディ
オ信号から標本列を取り出す。すなわち、フレーム分割
部1は、過去に入力された離散オーディオ信号(入力オ
ーディオ信号)の標本をバッファ用のメモリに順次入力
し、フレーム長Nだけの個数を保持する。そして、ある
更新周期M、例えば128個の標本が入力されるたび
に、フレーム長N分の記憶されている標本列を出力す
る。
とができる。ただし、式(1)において、xは標本の
値、iはフレーム中の標本のインデックス番号、Nはフ
レーム長である。 x[i], for i=0 to N-1 ・・・(1)
算部2により、フレーム分割部1から受け取った1フレ
ーム分の標本列のパワースペクトルを計算する。すなわ
ち、標本列x[i]のパワースペクトルは、窓掛け部2A
により入力オーディオ信号の標本列x[i]に窓掛け処理
を行った後、離散フーリエ変換部2Bにより離散フーリ
エ変換し、二乗振幅計算部2Cにより各周波数成分の二
乗振幅を計算して得られる。
パワースペクトルX[k]は、次式(2)のように表すこ
とができる。 X[k], for k=0 to N/2-1 ・・・(2) ただし、kはパワースペクトルの各周波数要素を表す番
号である。
り、以下のように、パワースベクトルX[k]の中からピ
ーク成分を抽出する。すなわち、特徴点抽出部3に入力
されたパワースペクトルX[k]は、帯域分割部3Aによ
り複数の標本ごとにまとめられて帯域分割される。
(3)のように表される。ただし、式(3)において、
xbは帯域分割されたパワースベクトル、bは帯域の番
号をあらわすインデックス、iは各帯域の中での周波数
標本番号、ibは、各帯域の最低周波数をあらわすイン
デックス、bmaxは帯域数、bwidは各帯域のバン
ド幅である。 Xb[b][i]=X[ibbase[b]+i], for b=0 to bmax‐1,i=0 to bwid(b)-1 ・・・(3)
数は一定数でも良いし、各帯域が含む周波数幅がバーク
尺度上で等幅になるように非均一な標本数にしても良
い。パーク尺度分割する場合には、上式(3)におい
て、帯域数bmaxを64程度に設定すると良好な結果
が得られる。
帯域分割されたパワースペクトルについて、帯域ごとに
パワーの平均値が計算される。このパワーの平均値の計
算処理は次式(4)のように表される。 P[b]={ΣXb[b][i]}/bwid[b] ・・・(4) ただし、Pは各帯域ごとのパワーの平均値であり、演算
子Σはi(i:0〜bwid[b]-1)をパラメータとする。
ペクトルのパワーの平均値を用いて、後述する別の処理
系統で検出された標本の極大点が特徴点かどうか判断す
るための閾値を設定する。この閾値は次式(5)のよう
に設定される。ただし、式(5)において、Thrは閾
値、Rは定数である。定数Rの値を0.15程度に設定
すると良好な結果が得られる。 Thr[b]=P[b]×R ・・・(5)
理で、各スペクトルについて極大点か否かを判断し、パ
ワースペクトルの極大点が検出される。極大点か否かの
判断においては、判断対象の標本のパワースペクトル
が、両隣に隣接する標本のパワースペクトルよりある一
定の割合だけ大きい場合に極大点と判断される。一定の
割合として、例えば4割(両隣に隣接する標本のパワー
スペクトルの1.4倍)程度に設定すると良好な結果が
得られる。
検出部3Dで極大点として検出されたスペクトルが特徴
点か否かが判断される。即ち、特徴点判断部3Eは、極
大点と判断されたスペクトルと、その標本が属する帯域
の閾値Thr[b]とを比較し、極大点と判断されたスペ
クトルが閾値Thr[b]よりも大きな場合に特徴点と判
断する。
スペクトル計算部2から入力するスペクトルのうち、特
徴点判断部3Eにより特徴点と判断されたスペクトルの
周波数位置の標本を抽出し、この標本とその標本番号と
を組にして、これを特徴点の情報として出力する。
表される。ただし、式(6)において、Ctは一つの特
徴点を表し、iは特徴点と判断された周波数標本番号
(周波数インデックス)を表す。 Ct=(X[i],i) ・・・(6)
り、特徴点抽出部3で得られた特徴点からスペクトルの
変化が分析される。スペクトル変化度計算部4Cは、ま
ず、特徴点抽出部3から入力された今回のフレームの特
徴点Ctcと特徴点記憶部4Aから得られる前回のフレ
ームの特徴点Ctpとを比較し、周波数標本番号(周波
数インデックス)が一致している特徴点(以下、「一致
特徴点」と記す)を検索する。
致特徴点検索部4Bは、図5に示すように、現在の(今
回の)フレームの特徴点を格納しておくバッファ410
Bと、その中に格納されている特徴点のうちの一つを指
し示すポインタ411Bと、前回のフレームの特徴点を
格納しておくパッファ420Bと、その中に格納されて
いる特徴点のうちの一つを指し示すポインタ421B
と、―致特徴点を指し示すポインタ411Bおよびポイ
ンタ421Bの値を格納しておく出カバッファ430B
を備える。
波数標本番号が昇順に並ぶように現在フレームの特徴点
と前フレームの特徴点を格納しておき、ポインタ411
Bとポインタ421Bは、各々の最初の特徴点を指し示
しておく。一致特徴点の検索は次の2つの手順に従っ
て、ポインタが指し示すべき特徴点がなくなるまで行わ
れる。
点の周波数標本番号と、ポインタ421Bが指し示す特
徴点の周波数標本番号が等しい場合、一致特徴点とし
て、出力バッファ430Bにポインタ411Bとポイン
タ421Bの値を付け加え、ポインタ421Bおよびポ
インタ421Bを共に一つ進める。
点の周波数標本番号よりも、ポインタ421Bが指し示
す特徴点の周波数標本番号の方が大きい場合、ポインタ
411Bを一つ進め、逆に、ポインタ421Bが指し示
す特徴点の周波数標本番号よりも、ポインタ411Bが
指し示す特徴点の周波数標本番号の方が大きい場合、ポ
インタ421Bを一つ進める。これらの手順を実行する
ことにより、出力バッファ430Bには、各一致特徴点
でのポインタ411Bおよびポインタ421Bの値(周
波数標本番号)の組が蓄積される。
4Bの出力バッファ430Bに格納されているポインタ
411B1とポインタ421Bの値の組を取り出し、ポ
インタ411Bが指し示す現在(今回)のフレームの特
徴点の値とポインタ421Bが指し示す前回のフレーム
の特徴点の値の差を足しあわせ、これを聴覚上の変化を
模擬する「特徴量」としてスペクトル変化dを得る。
ただし、式(7)において、dはスペクトル変化、pnt
1,pnt2はそれぞれポインタ411B、ポインタ421
Bの値、Nは一致特徴点検索部4Bの出カバッファ43
0Bに格納されているポインタの値の組数である。ま
た、演算子Σはn(n:0〜N−1)をパラメータとす
る。 d={ΣCtc(pnt1(n)).X[i]−Ctp(pnt2(n)).X[i]}/N ・・・(7)
判断部5により、上述のスペクトル変化度計算部4で求
めたスペクトル変化d(特徴量)をもとに、入カオーデ
ィオ信号のパワースペクトルの不連続性を判断し、不連
続性が検出された場合、不連続性フラグFを出力し、こ
れを本実施形態の装置の出力とする。
変化度計算部4から受け取ったスペクトル変化dを所定
の閾値(後述の閾値Thr1,Thr2)と比較して、
パワースペクトルの不連続性を判断する。具体的には、
不連続性判断部5は、内部状態を格納するメモリ(図示
せず)を持ち、このメモリの初期状態ではオフにセット
されている。
ている場合、スペクトル変化度計算部4から受け取った
スペクトル変化dが立ち上がり閾値Thr1よりも大き
ければ、不連続性フラグFを出力し、その後さらに内部
状態をオンにセットする。また、メモリの内部状態がオ
ンにセットされている場合、スペクトル変化度計算部4
から受け取ったスペクトル変化dが立ち下がり閾値Th
r2よりも小さければ、内部状態をオフにセットする。
所定の閾値Thr1およびThr2はそれぞれ10お
よび5程度に設定すると良好な結果が得られる。
とせずに、入力信号の平均パワーに所定の定数をかけて
設定しても良い。入力信号の平均パワーは、入力信号を
使って次式(8)のように求められる。 Ipow={Σ(x[i])2}/N ・・・(8) ただし、Ipowは入力信号の平均パワーを表し、演算子
Σはi(i:0〜N−1)をパラメータiとする。
1とThr2を設定する例を次式(9a)および(9
b)に示す。 Thr1=0.5×Ipow ・・・(9a) Thr2=0.2×Ipow ・・・(9b) 以上により、パワースペクトルの不連続性を分析するこ
とにより、入力オーディオ信号の標本から音の立ち上が
りや立ち下がりの区切りが検出される。
が、この発明は、この実施の形態に限られるものではな
く、発明の要旨を逸脱しない範囲の設計変更等があって
も本発明に含まれる。例えば、上述の各実施の形態で
は、特徴点記憶部4Aに格納された特徴点から前回の特
徴点を取得し、特徴点抽出部3から現在の特徴点を取得
して比較するものとしたが、全ての特徴点を特徴点記憶
部4Aに格納し、この特徴点記憶部4Aから現在の特徴
点と前回の特徴点を取り出すものとしてもよい。
い要素を特徴点として抽出するものとしたが、人間の聴
覚に即した音の区切りを表現するように特徴量を定める
ことができればよく、この限度において特徴点をどのよ
うに定義してもよい。
オ信号処理方法は、主なスペクトル成分の変化を不連続
性の判断に対する手がかりとしている。また、立ち上が
りと立ち下がりとを区別して前記変化を計算している。
したがって、本発明を利用すると、打楽器やピアノ音と
いった、立ち上がりの明確な波形に伴う聴感的不連続性
を的確に検出するだけでなく、バイオリンや管楽器など
の従来立ち上がりの検出が難しかったような音源につい
ても聴感的不連続性を検出できる。
号から一定時間ごとに過去の一定数の標本列を取り出
し、前記標本列に対するパワースペクトルを計算し、前
記パワースペクトルのうち重要性の高い要素を特徴点と
して抽出し、今回抽出された特徴点と前回抽出された特
徴点とを比較して聴覚上の変化を模擬する特徴量を計算
し、前記特徴量に基づいて不連続性の有無を判断するよ
うにしたので、オーディオ信号の聴感的な区切りを能率
良く検出することができ、また、変換符号化において立
ち上がり音の能率を向上させる処理を呼び出す手がかり
として利用することができ、さらに、オーディオ信号を
編集加工する過程において、聴感的に区切りのある点で
オーディオ信号を切り出す作業を支援することが可能と
なる。
数帯域ごとにパワーを算出し、前記パワースペクトルの
極大点を少なくとも1点以上求め、前記各極大点が属す
る前記周波数帯域に対するパワーに基づいて閾値を設定
し、前記各極大点が前記各閾値を上回る場合に該極大値
を特徴点として抽出するようにしたので、人間の聴覚に
即してパワースペクトルの連続性を判断することが可能
となる。
前回の特徴点のうち周波数の一致する組み合わせ同士で
パワースペクトルの差を計算し、前記パワースペクトル
の差の総和をもって前記特徴量を定めるようにしたの
で、音の立ち上がりの変化と立ち下がりの変化を区別し
て人間の聴覚に即して特徴量を設定し、パワースペクト
ルの連続性を判断することが可能となる。
不連続性を判断するようにしたので、所定の閾値に応じ
て特徴量の連続性を判断することが可能となり、この所
定の閾値を適切に選ぶことにより、人間の聴覚に即して
パワースペクトルの連続性を判断することが可能とな
る。
によるパワーとの積を超えた場合に不連続性を判断する
ようにしたので、入力オーディオ信号の標本列のパワー
を反映させてパワースペクトルの連続性を判断すること
が可能となり、一層聴覚に即した判断が可能となる。
号処理装置の構成を示すブロック図である。
トル計算部の構成を示すブロック図である。
の構成を示すブロック図である。
化計算部の構成を示すブロック図である。
化計算部が備える一致特徴点検索部での処理を説明する
ための図である。
号処理装置の動作の流れを示すフローチャートである。
A…窓掛け部、2B…離散フーリエ変換部、2C…二乗
振幅計算部、3…特徴点抽出部、3A…帯域分割部、3
B…パワー平均値計算部、3C…閾値設定部、3D…極
大点検出部、3E…特徴点判断部、3F…特徴点出力
部、4…スペクトル変化度計算部、4A…特徴点記憶
部、4B…一致特徴点検索部、4C…変化度計算部、5
…不連続性判断部、410B,420B…バッファ、4
11B,421B…ポインタ、430B…出力バッフ
ァ。
Claims (12)
- 【請求項1】 標本化された入力オーディオ信号上での
音の区切りを検出するためのオーディオ信号処理方法で
あって、 (a)標本化された入カオーディオ信号から一定時間ご
とに過去の一定数の標本列を取り出す第1の段階と、 (b)前記標本列に対するパワースペクトルを計算する
第2の段階と、 (c)前記パワースペクトルのうち重要性の高い要素を
特徴点として抽出する第3の段階と、 (d)前記第3の段階で今回抽出された特徴点と前回抽
出された特徴点とを比較して聴覚上の変化を模擬する特
徴量を計算する第4の段階と、 (e)前記特徴量に基づいて不連続性の有無を判断する
第5の段階と、 を含むことを特徴とするオーディオ信号処理方法。 - 【請求項2】 前記特徴点を記憶する第6の段階をさら
に含み、 前記第4の段階が、前記第3の段階で抽出された特徴点
と前記第6の段階で記憶された特徴点から聴覚上の変化
を計算することを特徴とする請求項1に記載されたオー
ディオ信号処理方法。 - 【請求項3】 前記第3の段階が、 前記パワースペクトルに基づき各周波数帯域ごとにパワ
ーを算出する段階と、 前記パワースペクトルの極大点を少なくとも1点以上求
める段階と、 前記各極大点が属する前記周波数帯域に対するパワーに
基づいて閾値を設定し、前記各極大点が前記各閾値を上
回る場合に該極大値を特徴点として抽出する段階と、 を含むことを特徴とする請求項1記載のオーディオ信号
処理方法。 - 【請求項4】 前記第4の段階が、前記第3の段階で抽
出された特徴点と前記第6の段階で記憶された特徴点の
うち周波数の一致する組み合わせからパワースペクトル
の差を計算し、 前記パワースペクトルの差の総和をもって前記特徴量を
定める、 ことを特徴とする請求項1乃至3の何れかに記載のオー
ディオ信号処理方法。 - 【請求項5】 前記第5の段階が、 前記特徴量が所定の閾値を超えた場合に不連続性を判断
することを特徴とする請求項1乃至4の何れかに記載の
オーディオ信号処理方法。 - 【請求項6】 前記第5の段階が、 前記特徴量が所定の定数と前記標本列によるパワーとの
積を超えた場合に不連続性を判断することを特徴とする
請求項1乃至4の何れかに記載のオーディオ信号処理方
法。 - 【請求項7】 標本化された入力オーディオ信号上での
音の区切りを検出するためのオーディオ信号処理装置で
あって、 (a)標本化された入カオーディオ信号から一定時間ご
とに過去の一定数の標本列を取り出す標本列取得手段
と、 (b)前記標本列に対するパワースペクトルを計算する
パワースペクトル計算手段と、 (c)前記パワースペクトルのうち重要性の高い要素を
特徴点として抽出する特徴点抽出手段と、 (d)前記第3の段階で今回抽出された特徴点と前回抽
出された特徴点とを比較して聴覚上の変化を模擬する特
徴量を計算する特徴量抽出手段と、 (e)前記特徴量に基づいて不連続性の有無を判断する
不連続性判断手段と、を備えたことを特徴とするオーデ
ィオ信号処理装置。 - 【請求項8】 前記特徴点を記憶する特徴点記憶手段を
さらに備え、 前記特徴量抽出手段が、前記特徴点抽出手段により抽出
された特徴点と前記特徴点記憶手段に記憶された特徴点
から聴覚上の変化を計算することを特徴とする請求項7
に記載されたオーディオ信号処理方法。 - 【請求項9】 前記特徴点抽出手段が、 前記パワースペクトルに基づき各周波数帯域ごとにパワ
ーを算出する手段と、 前記パワースペクトルの極大点を少なくとも1点以上求
める手段と、 前記各極大点が属する前記周波数帯域に対するパワーに
基づいて閾値を設定し、前記各極大点が前記各閾値を上
回る場合に該極大値を特徴点として抽出する手段と、 を備えたことを特徴とする請求項7記載のオーディオ信
号処理装置。 - 【請求項10】 前記特徴量抽出手段が、 前記第3の段階で抽出された特徴点と前記特徴点記憶手
段に記憶された特徴点のうち周波数の一致する組み合わ
せからパワースペクトルの差を計算し、前記パワースペ
クトルの差の総和をもって前記特徴量を定めることを特
徴とする請求項7乃至9の何れかに記載のオーディオ信
号処理装置。 - 【請求項11】 前記不連続性判断手段が、 前記特徴量が所定の閾値を超えた場合に不連続性を判断
することを特徴とする請求項7乃至10の何れかに記載
のオーディオ信号処理装置。 - 【請求項12】 前記不連続性判断手段が、 前記特徴量が所定の定数と前記標本列によるパワーとの
積を超えた場合に不連続性を判断することを特徴とする
請求項7乃至10の何れかに記載のオーディオ信号処理
装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35195098A JP3423233B2 (ja) | 1998-12-10 | 1998-12-10 | オーディオ信号処理方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35195098A JP3423233B2 (ja) | 1998-12-10 | 1998-12-10 | オーディオ信号処理方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000181473A true JP2000181473A (ja) | 2000-06-30 |
JP3423233B2 JP3423233B2 (ja) | 2003-07-07 |
Family
ID=18420742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35195098A Expired - Lifetime JP3423233B2 (ja) | 1998-12-10 | 1998-12-10 | オーディオ信号処理方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3423233B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204533A (ja) * | 2009-03-05 | 2010-09-16 | Fujitsu Ltd | オーディオ復号装置及びオーディオ復号方法 |
-
1998
- 1998-12-10 JP JP35195098A patent/JP3423233B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204533A (ja) * | 2009-03-05 | 2010-09-16 | Fujitsu Ltd | オーディオ復号装置及びオーディオ復号方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3423233B2 (ja) | 2003-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7035742B2 (en) | Apparatus and method for characterizing an information signal | |
Dubnov | Generalization of spectral flatness measure for non-gaussian linear processes | |
NL192701C (nl) | Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal. | |
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
US20170004838A1 (en) | Processing Audio Signals with Adaptive Time or Frequency Resolution | |
KR100911679B1 (ko) | 오디오 신호를 오디토리 이벤트로 세그먼트하는 방법 | |
JP5295433B2 (ja) | 複雑さがスケーラブルな知覚的テンポ推定 | |
US7910819B2 (en) | Selection of tonal components in an audio spectrum for harmonic and key analysis | |
EP4390923A1 (en) | A method and system for triggering events | |
US6519567B1 (en) | Time-scale modification method and apparatus for digital audio signals | |
CN107210029B (zh) | 用于处理一连串信号以进行复调音符辨识的方法和装置 | |
JPH10307580A (ja) | 音楽検索方法および装置 | |
KR100393899B1 (ko) | 2-단계 피치 판단 방법 및 장치 | |
JP2000181473A (ja) | オーディオ信号処理方法および装置 | |
US20060150805A1 (en) | Method of automatically detecting vibrato in music | |
US6907367B2 (en) | Time-series segmentation | |
JP2001222289A (ja) | 音響信号分析方法及び装置並びに音声信号処理方法及び装置 | |
JP2871120B2 (ja) | 自動採譜装置 | |
KR20050003814A (ko) | 음정 인식 장치 | |
US20040158437A1 (en) | Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal | |
Ong et al. | Music loop extraction from digital audio signals | |
JP2806048B2 (ja) | 自動採譜装置 | |
JP2001083978A (ja) | 音声認識装置 | |
JP4360527B2 (ja) | ピッチ検出方法 | |
Apolinário et al. | Fan-chirp transform with a timbre-independent salience applied to polyphonic music analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090425 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090425 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100425 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100425 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110425 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120425 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130425 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140425 Year of fee payment: 11 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |