JP2004528601A

JP2004528601A - オーディオ信号の聴覚的イベントへの分割

Info

Publication number: JP2004528601A
Application number: JP2003500893A
Authority: JP
Inventors: クロケット、ブレット・ジー
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-05-25
Filing date: 2002-02-26
Publication date: 2004-09-16
Anticipated expiration: 2022-02-26
Also published as: MXPA03010751A; HK1066902A1; KR20040004647A; CN1272765C; EP2549475A1; DE60236648D1; EP1390942A1; ES2400700T3; KR100871607B1; JP4763965B2; JP2004528600A; KR100873396B1; WO2002097791A1; JP4906230B2; EP1390942B1; HK1066087A1; CN1620684A; CN1511311A; MXPA03010750A; ATE470927T1

Abstract

１つの局面によれば、本発明はオーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割し、これはオーディオ信号の連続的時間ブロックのスペクトルコンテンツを計算し（５−１）、オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツの差異を計算し（５−２）、連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるときに、その連続的時間ブロックの間の境界として聴覚的イベント境界を認識する（５−３）ことによる。他の局面によれば、本発明はオーディオ信号の低減された情報表示を与え、これはオーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割し、聴覚的イベントに関連する情報をフォーマットして記憶する（５−４）ことによる。選択的に、本発明は少なくとも１つの聴覚的イベント（５−５）へ特性を割り当ててもよい。
【選択図】図５

Description

【０００１】
関連出願の参照
この出願は、米国仮特許出願第６０／２５８，２０５号（２０００年１２月２６日出願）から米国特許法第１１９条（ｅ）に基づく優先権を主張している。
【０００２】
発明の技術分野
本発明は、オーディオ信号のサイコアコースティック処理の分野に関する。特に本発明はオーディオ信号を各々が分離して個別に認識される「聴覚的イベント」への分割又は区画化の局面に関し、聴覚的イベントに基づいて、また選択的に、このような聴覚的イベント内のオーディオ信号の特性又は特徴に基づいて、オーディオ信号の低減された情報呈示を生成する局面に関する。聴覚的イベントはＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１により提案されたＭＰＥＧ−７"Audio Segments"に規定されるように有益であろう。
【０００３】
背景技術
音を各々別々に識別されるユニット又はセグメントへ分割することは、しばしば「聴覚的イベント解析」又は「聴覚的シーン解析(auditory scene analysis:ASA)」と称される。聴覚的シーン解析の詳細な説明は、Albert S. Bregman によりその著書Auditory Scene Analysis-The Perceptual Organization of Sound, マサチューセッツ工科大学1991, 第４版，Ｓｅｃｏｎｄ MIT Press paperback edition)に記載されている。更に米国特許第６，００２，７７６号（Bhadkamkar，ｅｔ al, 1999年１２月１４日）は、聴覚的シーン解析による音分離に関する従来技術として、１９７６年まで遡る文献を引用している。しかしながら、この米国特許は聴覚的シーン解析の実践的使用を認めないものであり、「聴覚的シーン解析に関する技術は、人間聴覚処理のモデルとしての科学的観点からは興味深いが、基本的進展がなされるまでは、音分離のために考慮されるべき実践的技術が現時点ではその計算的要求には程遠く、且つ特殊である」と結論している。
【０００４】
聴覚から特性又は特徴を抽出する幾多の方法が存在する。適切に定義された特徴又は特性が与えられると、その抽出は自動化処理を用いて実行できる。例えば現在は「ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）は、ＭＰＥＧ−７規格の一部として様々な聴覚デスクリプタを標準化する。このような方法の共通の欠点は聴覚的シーン解析を無視していることである。このような方法は周期的に特定の「古典的」信号処理パラメータ（例えばピッチ、振幅、パワー、ハーモニック構造、スペクトル平坦性）を計測しようと努める。
【０００５】
このようなパラメータは有益な情報を与えるが、聴覚信号を人間の知覚に従って分離されて個別に認識される成分へ解析又は特徴付けることはない。しかしながら、ＭＰＥＧ−７デスクリプタは本発明の局面に従う聴覚的イベント認識を特徴付けるには有益であろう。
【０００６】
本発明の開示
本発明の局面によれば、分離されて個別に認識される傾向にある一時的セグメント又は「聴覚的イベント」へオーディオを分割する計算効率化処理が与えられる。これら聴覚的イベント（これらは時間に関して開始及び終了する）の境界の位置は、オーディオ信号の記述に使用することができる重要な情報を与える。聴覚的イベント境界の位置は低減された情報表示、即ちオーディオ信号の「サイン」又は「指紋」を生成するように組みたてることができ、これは例えば他の同様に生成されたサイン（例えば公知の作業のデータベース）との比較解析を用いて記憶することができる。
【０００７】
Bregmanは「我々は音がその音色、ピッチ、音量又は（僅かな広がり）に対する空間的位置で急速に変化するときに個々の成分を聞く」（前掲Auditory Scene Analysis-The Perceptual Organization ofSound,第４６９頁）と記している。Bregmanはまた多重同時音ストリームについて、それが例えば周波数的に分離したときの認識について説明している。
【０００８】
音色、ピッチ、振幅における特定の変化を検出する目的で、本発明の局面によるオーディオイベント検出処理は、時間に関するスペクトル成分における変化を検出する。チャンネルが空間における方向を表す多重チャンネル音配置が適用された場合には、本発明の局面による処理は、時間に関する空間的位置の変化からもたらされる聴覚的イベントも検出する。選択的に、本発明の更なる局面に従えば、時間に関する振幅の変化を検出し得るが、これは時間に関するスペクトル成分における変化を検出することでは検出されない。
【０００９】
その最小計算要求実施においては、全周波数帯（全帯域幅オーディオ）又は実質的に全周波数帯（実践的な実施においては、スペクトルの端部における帯域制限フィルタがしばしば採用される）を解析し、且つ音量が最大のオーディオ信号成分に最大の重み付けを与えることにより、処理はオーディオを時間区画へ分割する。この試みはサイコアコースティック現象の利点を採り、その現象では小さな時間尺度（２０ミリセコンド（ｍｓ）以下）において、耳は単独の聴覚的イベントを所定の時間へ集束させる傾向にある。これは、多重イベントが同一時間に生じ得るが、１つの成分が知覚的に最も顕著になる傾向にあり、生じたイベントのみを通じて個々に処理し得る。この工科の利点は、聴覚的イベント検出を、処理されたオーディオの複雑さの尺度に比例させることである。例えば処理される入力オーディオ信号が単独の楽器であるならば、聴覚的イベントは演奏される個々のノートと同様に認識される。入力汚染信号と同様に、スピーチの個々の成分（例えば母音及び子音）は個々のオーディオ成分と同様に識別される。オーディオの複雑さが増大する（例えばドラムビート又は多数の楽器及び音声を伴う音楽）につれて、聴覚的イベント検出は任意の瞬間において「最も顕著」（即ち最も高音量な）オーディオ成分を識別する。これに代えて、最も顕著なオーディオ成分は、ヒアリング・閾値及び周波数応答性を考慮に入れることにより決定してもよい。
【００１０】
全帯域オーディオから計算された聴覚的イベント境界の位置がオーディオ信号のコンテンツに関する有益な情報を与えるが、オーディオ信号解析における使用のために聴覚的イベントのコンテンツを更に記述する付加的な情報を与えることが望ましい。例えば、オーディオ信号は２つ以上の周波数サブバンドに亘って解析でき、周波数サブバンド聴覚的イベントの位置が決定されて、聴覚的イベントのコンテンツの特質に関するより詳細な情報を搬送するのに用いられる。このような詳細な情報は、広帯域解析からは得られない付加的な情報を与える。
【００１１】
従って本発明の更なる局面によれば、選択的に、大きな計算の複雑さの費用において、この処理は、全帯域幅ではなく個々の周波数サブバンド（静的又は動的に決定されるか、或いは静的及び動的の双方で決定されたサブバンド）における時間についてのスペクトル成分の変化を考慮し得る。この代替的な試みは、特定の時間に１つの信号ストリームのみが識別されるとみなすのではなく、異なる周波数サブバンドにおける１つ以上のオーディオストリームを考慮に入れる。
【００１２】
本発明の局面による単純且つ計算効率化処理は聴覚的イベントを識別するにも有益であることが見出されている。
【００１３】
本発明による聴覚的イベント検出処理は、時間域オーディオ波形を時間間隔又はブロックへ分割し、フィルタバンク又は時間周波数変換、例えばＦＦＴを用いて各ブロックにおけるデータを周波数域へ変換することにより実施される。各ブロックのスペクトルコンテンツの振幅は振幅変化の効果を排除又は低減するために規格化し得る。各合成周波数域表示は、特定のブロックにおけるオーディオのスペクトルコンテンツの指標（周波数の関数としての振幅）を与える。連続的ブロックのスペクトルコンテンツが比較されて、聴覚的イベントの一時的開始又は一時的終了を示すであろう閾値よりも大きく変えられる。図１は聴覚的イベントを描くオーケストラ音楽の単独のチャンネルの理想的な波形を示す。新たなノートの演奏として生じるスペクトル変化は、それぞれサンプル２０４８及び２５６０における新たな聴覚的イベント２及び３を引き起こす。
【００１４】
上述したように、計算の複雑さを最小化する目的で、時間域オーディオ波形の周波数の単独バンドのみを処理してもよく、好ましくはスペクトルの全周波数バンド（平均的品位の音楽システムの場合においては約５０Ｈｚ乃至１５ｋＨｚであろう）又は実質的に全周波数バンド（例えば、バンド規定フィルタは高低周波数極値を排除し得る）の何れかである。
【００１５】
好ましくは、周波数域データは以下に説明するように規格化されている。周波数域データの規格化が要求される度合いは振幅の指標を与える。即ちこの度合いにおける変化が予め定められた閾値を越えるならば、これはイベント境界を示すには大きすぎる。スペクトル変化及び振幅変化からもたらされるイベント開始及び終了点は、ＯＲ条件結合であり、何れかの形式の変化からもたらされるイベント境界が識別される。
【００１６】
各々が空間における方向を示す多重オーディオチャンネルの場合においては、各チャンネルを独立に処理してもよく、全てのチャンネルについての合成イベント境界はＯＲ条件結合になり得る。従って、例えば、方向を突然に切りかえる聴覚的イベントは、１つのチャンネルにおける「イベントの端部」境界及び他のチャンネルにおける「イベントの開始」境界をもたらす傾向にある。ＯＲ条件結合の場合には、２つのイベントが認識される。従って、本発明の聴覚的イベント検出処理は、スペクトル（音色及びピッチ）、振幅及び方向変化に基づいて聴覚的イベント検出の能力がある。
【００１７】
上述したように、更なる選択として、しかしながら大きな計算の複雑さを要するものとして、周波数の単独帯域における時間域波形のスペクトルコンテンツの処理に代えて、周波数域変換は、２つ以上の周波数帯域へ分割してもよい。周波数帯域の各々は周波数域へ変換されて、上述した方式で独立チャンネルにある間に処理される。結果的なイベント境界はＯＲ条件結合となり、そのチャンネルについてのイベント境界を規定する。多重周波数バンドは固定的、適合的、又は固定及び適合の組み合わせとしてもよい。オーディオ雑音低減及び他の技術で採用されているトラッキングフィルタ技術は、例えば適合周波数バンドを規定するように採用できる（例えば８００Ｈｚ及び２ｋＨｚにおける主同時サイン波は２つの周波数上の中心に位置する２つの適合的に定められた帯域をもたらす。周波数域への変換の前にデータをフィルタリングすることが可能であるが、より最適な全帯域オーディオを周波数域へ変換して、対象の周波数サブバンド成分のみが処理される。ＦＦＴを用いて全帯域幅を変換する場合において、対象の周波数サブバンドに対応するサブ２(sub-bins)のみが共に処理される。
【００１８】
代替的に、多重サブバンド又は多重チャンネルの場合、情報の若干の損失をもたらすＯＲ条件結合聴覚的イベント境界に代えて、イベント境界情報を記憶してもよい。
【００１９】
図２に示すように、ディジタル・オーディオ信号の周波数域振幅はＦｓ／２の周波数（ここでＦｓはディジタル・オーディオ信号のサンプリング周波数）越える有益な周波数情報を包含する。オーディオ信号の周波数スペクトルを２つ以上のサブバンド（同一の帯域幅である必要はなく、周波数Ｆｓ／２Ｈｚに達する必要もない）へ分割することにより、周波数サブバンドを全帯域聴覚的イベント検出方法と同様な方式で全時間に亘って解析してもよい。
【００２０】
サブバンド聴覚的イベント情報は、信号をより正確に記述し、且つこの信号を他のオーディオ信号から区別するオーディオ信号についての付加的な情報を与える。この向上された区別性能力は、オーディオ・サイン情報が多数のオーディオ・サインから整合するオーディオ信号を識別するの使用するのであれば、有益であろう。例えば、図２に示すように、周波数サブバンド聴覚的イベント解析（５１２サンプルの聴覚的イベント境界解像度を有する）は、サンプル１０２４及び１５３６において様々に多重サブバンド聴覚的イベント開始を、サンプル２５６０，３０７２及び３５８４において様々に終了を見出している。この信号のレベルの詳細は、信号広帯域聴覚シーン解析から得られるものとは異なっている。
【００２１】
このサブバンド聴覚的イベント情報は各サブバンドについての聴覚的イベントサインを導くのに用いてもよい。これはオーディオ信号のサインのサイズを増大し、おそらく多重サインとの比較に必要な計算時間を増大しつつ、２つのサインを同じものとして誤分類する可能性を多いに低減する。サインの大きさ、計算の複雑性と信号の正確さとの間の妥協はアプリケーションに依存してなすことができる。代替的に、各サブバンドについてサインを与えるのではなく、聴覚的イベントをＯＲ条件として（サンプル１０２４，１５３６，２５６０，３０７２及び３５８４における）「組み合わされた」聴覚的イベント境界の信号セットを与えるようにする。これは情報の若干の損失をもたらすが、単独のサブバンド又は広帯域解析の情報よりも更なる情報を与える合成聴覚的イベントを表すイベント境界の単独セットを与える。
【００２２】
周波数サブバンド聴覚的イベント情報それ自身が有益な信号情報を与えながら、サブバンド聴覚的イベントの位置の間の関係を解析して、オーディオ信号の特質に更なる洞察を与えるのに使用し得る。例えば、サブバンド聴覚的イベントの場所と強度は、オーディオ信号の音量（周波数コンテンツ）の表示として使用し得る。互いに関して調和するサブバンドに現れる聴覚的イベントは、オーディオの調和性に関する有益な洞察を与える。単独サブバンドにおける聴覚的イベントの存在はオーディオ信号の特性に類似するトーンのような情報も与える。多重チャンネルに亘る周波数サブバンド聴覚的イベントの関係の解析は、空間コンテンツ情報をも与えることができる。
【００２３】
多重オーディオチャンネルを解析する場合において、各チャンネルは独立に解析され、各々の聴覚的イベント境界情報が分離されて保持されるか、或いは組み合わされて合成聴覚的イベント情報を与える。これは或る程度は多重サブバンドの場合に類似している。合成聴覚的イベントは、２つのチャンネルオーディオ信号についての聴覚シーン解析結果を示す図３を参照することにより更によく理解される。図３は２つのチャンネルにおけるオーディオ・データの時間を伴うセグメントを示す。第１のチャンネルにおけるオーディオのＡＳＡ処理、図３の頂部波形は、５１２サンプルスペクトルプロファイルブロックサイズの倍数であり、この例においては１０２４及び１５３６サンプルにおいて聴覚的イベント境界を識別する。図３の低部波形は第２チャンネルであり、これもまたサンプルスペクトルプロファイルブロックサイズの倍数であり、この例においては１０２４，２０４８及び３０７２サンプルにおいて聴覚的イベント境界を識別する。１０２４，１５３６，２０４８及び３０７２サンプル（チャンネルの聴覚的イベント境界は「ＯＲ条件」結合における境界を有する合成聴覚的イベントセグメントからもたらされる両チャンネルについての組み合わされた聴覚組み合わせ聴覚的イベント解析からもたらされる両チャンネルについての合成聴覚的イベント解析からもたらされる。実際には、聴覚的イベント境界の正確さはスペクトルプロフィルブロックサイズ（この例においてはＮは５１２サンプル）のサイズに依存することが望ましく、これはイベント境界がブロック境界においてのみ生じるためである。それにもかかわらず、５１２サンプルのブロックサイズがサイズの満足のいく結果を与えるような充分な正確さを有する聴覚的イベント境界を決定することが見出されている。
【００２４】
図３Ａは３つの聴覚的イベントを示す。これらのイベントは、（１）トランジェント前のオーディオの静穏部分、（２）トランジェントイベント、及び（３）オーディオトランジェントのエコー／継続部分を含む。図３Ｂに示される音声信号は、支配的高周波数歯擦イベント、母音への歯擦展開又は「モーフ(morphs)」、母音の第１半分、及び母音の第２半分としてのイベントを有する。
【００２５】
図３は、聴覚的イベントデータが２つのチャンネルの時間同時データブロックに跨って占めるときの組み合わせイベント境界をも示す。このようなイベントセグメントは５つの組み合わせ聴覚的イベント領域を与える（イベント境界が「ＯＲ条件」結合である）。
【００２６】
図４は４つのチャンネル入力信号の例を示す。チャンネル１及び４は各々が３つの聴覚的イベントを包含し、チャンネル２及び３は各々が２つの聴覚的イベントを包含する。全４つのチャンネルに亘る同時データブロックについての組み合わせ聴覚的イベント境界は、図４の下部に示されるようにサンプル番号５１２，１０２４，１５３６，２５６０及び３０７２に位置する。
【００２７】
原理的には、処理されたオーディオはディジタル又はアナログでよく、ブロックへ分割する必要はない。しかしながら、実際的なアプリケーションにおいては、入力信号は、各チャンネルが例えば４０９６サンプルのブロックへ分割される連続サンプルにおけるサンプルで示されるディジタル・オーディオの少なくとも１つのチャンネルになる傾向にある（上述の図１、３及び４の例の如し）。本明細書に記載された実施例においても、聴覚的イベントは、好ましくは、人間の耳により認識できる最短の聴覚的イベントと信じられるオーディオの約２０ｍｓ又は未満を表すオーディオ・サンプル・データのブロックを検査することにより決定される。従って、実際において、聴覚的イベントは、オーディオ・サンプル・データの大きなブロック内で４４．１ＫＨｚのサンプリング率において入力オーディオの約１１．６ｍｓに対応する例えば５１２サンプルのブロックを検査することにより決定される傾向にある。しかしながら、この書面を通じて、聴覚的イベント境界検出の目的でオーディオ・データのセグメントの検査を参照するときには、参照は「サブブロック」ではなく、「ブロック」に対してなされるものとする。オーディオ・サンプル・データがブロック内で検査されるので、実際には、聴覚的イベント一時的開始及び停止点境界の必要性は、各々がブロック境界に一致することである。ここには実時間処理要求（大きなブロックが少ない処理経費を必要とする）とイベント位置の解像度（小さなブロックが聴覚的イベントの位置上により詳細な情報を与える）との間のトレードオフがある。
【００２８】
本発明の他の局面は本発明の詳細な説明を読んで理解することにより評価されて理解される。
【００２９】
好適実施形態の説明
本発明の１つの局面の形態において、聴覚シーン解析は、図５の一部分に示すように３つの概念的処理ステップからなる。第１ステップ５−１（「スペクトル解析実行」）では時間域オーディオ信号をとり、ブロックへ分割して、そのブロックの各々についてスペクトル・プロファイル又はスペクトルコンテンツを計算する。スペクトル解析はオーディオ信号を短期間周波数域へ変換する。これは、任意のフィルタ・バンク、バンドパスフィルタの変換又はバンクの何れかに基づくもの、線形又はワープ周波数空間（例えば、人間の耳の特性によく適するバーク（Bark）スケールまたは臨界バンド）の何れかに基づくものである。任意のフィルタ・バンクによれば、時間と周波数との間のトレードオフが存在する。大きな時間解像度、従って短時間間隔は、低周波数解像度をもたらす。大きな周波数解像度、従って狭いサブバンドは長時間間隔をもたらす。
【００３０】
図６に概念的に示す第１ステップはオーディオ信号の連続的時間のスペクトルコンテンツを計算する。実際的な実施形態においては、ＡＳＡブロックサイズは入力オーディオ信号の５１２サンプルである。第２ステップ５−２において、ブロックからブロックへのスペクトルコンテンツにおける差異が決定される（「スペクトル・プロファイル差測定」）。従って、第２ステップは、オーディオ信号のスペクトルはオーディオ信号の連続時間セグメントの間のスペクトルコンテンツにおける差を計算する。上述したように、認識された聴覚的イベントの開始又は終了の強力な指標はスペクトルコンテンツにおける変化になると信じられる。第３ステップ５−３（「聴覚的イベント境界の位置識別」）において、１つのスペクトルプロファイルブロック及びその次との間のスペクトル差が閾値よりも大きいときは、ブロック境界は聴覚的イベント境界にとる。連続的な境界の間のオーディオセグメントは聴覚的イベントを構成する。従って、第３ステップは、連続的時間セグメントの間のスペクトルプロファイルコンテンツにおける差が閾値を越えるときに、連続的時間セグメントの間の聴覚的イベント境界を設定し、ひいては聴覚的イベントを規定する。この実施形態においては、聴覚的イベント境界は、１つのスペクトルプロファイルブロック（この例における５１２サンプル）の最小長さを有するスペクトルプロファイルブロックの整数倍の長さを有する聴覚的イベントを規定する。原理的には、イベント境界はそれほど限定的である必要はない。本明細書に説明した実際的実施形態に代わるものとして、入力ブロックサイズを変動させて、例えば基本的に聴覚的イベントのサイズになるようにしてもよい。
【００３１】
イベント境界の位置は、ステップ５−４に示すように、減少された情報特性又は「サイン」として記憶して、且つ所望によりフォーマットしてもよい。選択的処理ステップ５−５（「主サブバンド認識」）はステップ５−１のスペクトル解析を用いて、主周波数サブバンドを識別し、これもまたサインの一部として記憶し得る。主サブバンド情報は、各聴覚的イベントの特徴を規定する目的で、聴覚的イベント境界と組み合わせてもよい。
【００３２】
オーディオの重畳又は非重畳の何れかを窓化して、入力オーディオのスペクトル・プロファイルの計算に用いてもよい。重畳は聴覚的イベントの位置について微細な解像度をもたらし、トランジェントのようなイベントを誤るおそれを低減させる。しかしながら、重畳は計算の複雑さをも増大させる。従って、重畳は省略してもよい。図６は、離散的フーリエ変換（ＤＦＴ）により窓化されて周波数域へ変換される非重畳５１２サンプルブロックの概念的表示を示す。各ブロックは、例えばＤＦＴ（好ましくは速度について高速フーリエ変換（ＦＦＴ）として実行される）を用いて、窓化されて周波数域へ変換される。
【００３３】
以下の変数は入力ブロックのスペクトル・プロファイルを計算するのに用いてもよい。
Ｎ＝入力信号におけるサンプルの数
Ｍ＝スペクトル・プロファイルの計算に用いられる窓枠内のサンプルの数
Ｐ＝スペクトル計算重畳のサンプルの数
Ｑ＝計算されたスペクトル窓／領域の数
【００３４】
原則として、どんな整数を上述の変数に用いてもよい。しかしながら、標準ＦＦＴをスペクトル・プロファイル解析のために用いることができるように、Ｍを２の累乗に等しく設定されているならば、計算はより効率的である。更に、Ｎ、Ｍ及びＰをＱが整数になるように選定すれば、これはＮ個のサンプルの終端におけるアンダーランニング又はオーバーランニングオーディオを回避できるだろう。聴覚シーン解析処理の実際の実施形態においては、列記されたパラメータは以下のように設定し得る。
Ｍ＝５１２サンプル（４４．１ｋＨｚ又は１１．６ｍｓ）
Ｐ＝０サンプル（重畳なし）
【００３５】
上述の列記された値は実験的に求められたものであり、充分な精度で聴覚的イベントの位置及び持続時間を識別することが解った。しかしながら、値Ｐを、零サンプル（重畳なし）ではなく、２５６サンプル（５０％重畳）に設定することが、見つけにくいイベントを識別するのに有用であることが解っている。窓関数に起因するスペクトルアーティファクトを最小限にするように多くの異なる形式の窓関数が用いられるが、スペクトル・プロファイルの計算に用いられる窓関数は、Ｍ−ポイント・ハニング、カイザー・ベッセルその他の適当なもので、非矩形の窓関数が望ましい。広範囲のオーディオ素材に亘って優れた効果を与えたことから、上述した値とハニング窓を選択した。非矩形の窓は低周波数コンテンツが支配的なオーディオ信号の処理に望ましい。矩形窓はイベントの不適切な検出の原因になるスペクトルアーティファクトを作る。
【００３６】
ステップ５−１（図５）において、各Ｍ個のサンプルブロックのスペクトルは、Ｍ−ポイント・ハニング、カイザー・ベッセルその他の適当な窓関数にてデータを窓化して計算でき、Ｍ−ポイント高速フーリエ変換を用いて周波数領域に変換し、複合ＦＦＴ計数の振幅が計算される。結果としてのデータは最大振幅を単位と定めるように正規化され、この正規化されたＭ個の数値は対数領域へ変換される。これらの数値群は対数領域へ変換する必要はないが、この変換はステップ５−２における差異の大きさの計算を簡単にする。更に、対数領域は人間の聴覚系の特性に親密な整合性がある。対数領域における値はマイナス無限大からゼロまでの範囲である。実際の実施形態では、最小リミット値がこの値のレンジに重ね合わせられる。即ち、リミット値を例えば−６０ｄＢに固定、或いは、非常に高い周波数では、小さい静かな音の可聴制性が低いことを反映して、周波数に依存した値にすることができる（正の周波数と同様に負も示すＦＦＴにおいて、数値群をＭ／２個のサイズに減らすことも可能なことに注意すべきである。）。
【００３７】
ステップ５−２は、隣り合うサブブロックのスペクトルの間の差異の大きさを計算する。各ブロックについて、ステップ５−１からのＭ（対数）個のスペクトル係数の各々を先行するブロックについての対応する係数から減算し、その差異の大きさを計算する（符合は無視する）。これらのＭ個の差異を加算して１つの数にする。従って、Ｑ個のブロックを包含するオーディオの隣接する時間セグメントに対して、結果はＱ個の正数群となる（各ブロックについて１つ）。数値が大きいほど、ブロックのスペクトルが先行するブロックとはより異なっている。この差異の大きさは、この差異の計算値を、和の計算で用いたスペクトル係数の数で除することにより、スペクトル係数ごとに平均差異を示すようにすることも可能である（この場合はＭ個の係数）。
【００３８】
ステップ５−３では、ステップ５−２で計算した差異の数値群に閾値を適用することにより、聴覚的イベントの境界値の位置を定義する。差異が閾値を上回るならば、スペクトルの変化は新たなイベントの信号を送るのに充分であると判断されて、その変化の数がイベントの境界として記録される。上記に与えられたＭ，Ｎ，Ｐ及びＱと（ステップ５−１における）ｄＢ単位で示した対数領域での値に対して、閾値は、ＦＦＴ強度全体と比較する場合（鏡像部分も含む）は２５００に設定され、ＦＦＴ強度の半分と比較する場合（上述したように、ＦＦＴは正の周波数と同様に負も示すので、ＦＦＴの強度については、一方は他方の鏡像となる）は１２５０に設定される。この値は試験的に選ばれたものであり、良好な聴覚的イベント境界を与える。このパラメータ値は、イベントの検出を減らす（閾値を増大する）か、増やす（閾値を減少する）ことが可能である。
【００３９】
（サイズＭ個のサンプル）のＱ個のブロックからなるオーディオ信号について、図５のステップ５−３の出力は、ステップ５−４において、聴覚的イベント境界の位置を示す情報のＢ（ｑ）群（ここでｑ＝０，１，・・Ｑ−１）として記憶してフォーマットされる。Ｍ＝５１２サンプルのブロックサイズ、Ｐ＝０サンプルの重畳及び４４．１ｋＨｚの信号サンプリング率について、聴覚シーン解析関数２は、１秒に約８６の値を出力する。Ｂ（ｑ）群はサインとして記憶してもよく、その基本的形態として、ステップ５−５の選択的ドメインを伴わずに、オーディオ信号のサインが聴覚的イベント境界のストリングを表すＢ（ｑ）群である。
【００４０】
主サブバンド認識（選択）
各ブロックについて、図５の処理における選択的付加的ステップは、ブロックの主周波数「サブバンド」を表すオーディオ信号から情報を減算する（各ブロックにおけるデータの周波数サブバンドへ分割された情報を与える周波数域への変換）。このブロックに基づく情報は聴覚的イベントに基づく情報に変換して、主周波数サブバンドが各聴覚的イベントについて識別される。各聴覚的イベントについてのこのような情報は、聴覚的イベントそれ自身に関する情報を与え、オーディオ信号のより詳細で独特な低減された情報を与えるのに有益であろう。主サブバンド情報の採用は、オーディオがサブバンドへ断続されて聴覚的イベントが各サブバンドについて決定される場合ではなく、全バンド幅の聴覚的イベントを決定する場合により好適である。
【００４１】
主（最大振幅）サブバンドは、人間の耳が最も感受的である周波数の範囲又は帯域内の複数のサブバンド（例えば３つか４つ）から選択できるであろう。これに代えて、他の基準をサブバンドの選択に用いてもよい。スペクトルは例えば３つのサブバンドへ分割できる。サブバンドについての有益な周波数範囲は以下のとおりである（これらの特定の周波数は特に重要ではない）。
【００４２】
サブバンド１３００Ｈｚ乃至５５０Ｈｚ
サブバンド２５５０Ｈｚ乃至２０００Ｈｚ
サブバンド３２０００Ｈｚ乃至１０，０００Ｈｚ
主サブバンドを決定するように、振幅スペクトル（又はパワー振幅スペクトル）の矩形は各サブバンドについて加算される。この各サブバンドについての合成和が計算されて、その最大のものが選択される。サブバンドは最大値を選択するに先立って重み付けしてもよい。重み付けは、サブバンドにおけるスペクトル値の数により各サブバンドについての和を除する形式をとるか、或いは、他方に亘るバンドの重要性を強調するように加算又は乗法の形式をとってもよい。これは、幾つかのサブバンドが他のサブバンドよりも平均上で多くのエネルギを持つので有益であるが、認識の重要性が損なわれる。
【００４３】
Ｑ個のブロックからなるオーディオ信号を考慮すると、主サブバンド処理の出力は、各ブロック（ここでｑ＝０，１，・・Ｑ−１）における主サブバンドを表す情報のＤＳ（ｑ）群である。好ましくは、ＤＳ（ｑ）群は、Ｂ（ｑ）群に沿ったサインにフォーマットされて保存される。従って、選択的主サブバンド情報によれば、オーディオ信号のサインは２つのＢ（ｑ）群及びＤＳ（ｑ）群は、それぞれ各ブロック内の聴覚的イベント境界のストリングと主周波数サブバンドを表し、所望とあれば、これから各聴覚的イベントについての主周波数サブバンドが決定される。従って、理想化された例においては、２つの群が以下の値（３つの可能な主サブバンドがある場合）を持つ。
１０１０００１００１０００００１０
（イベント境界）
１１２２２２１１１３３３３３３１１
（主サブバンド）
【００４４】
殆どの場合においては、この例に示すように、主サブバンドは各聴覚的イベント内で同じであるか、或いは各イベント内の全てのブロックについて均一でないならば平均値を有する。従って、主サブバンドは各聴覚的イベントについて決定してもよく、ＤＳ（ｑ）群は、同じ主サブバンドがイベント内の各ブロックへ割り当てられるように変更してもよい。
【００４５】
図５の処理は、図７，８及び９の構成に等しくさせることにより、より一般的に表わされる。図７において、オーディオ信号は「聴覚的イベント認識」機能又はオーディオ信号を聴覚的イベントへ分割するステップ７−１に平行に適用され、この各々は分離されて個別に知覚される傾向にあり、選択的な「聴覚的イベントの特性認識」機能又はステップ７−２になる。図５の処理はオーディオ信号は聴覚的イベントへ分割するように採用され、他の幾つかの適切な処理を採用してもよい。機能又はステップ７−１により決定されて、聴覚的イベント境界の認識となる聴覚的イベント情報は、所望とあれば、「保存及びフォーマット」機能又はステップ７−３により保存してフォーマットされる。選択的「特性認識」機能又はステップ７−３も聴覚的イベント情報を受ける。「特性認識」機能又はステップ７−３は、少なくとも１つの特性により一部又は全ての聴覚的イベントトを特徴付けるだろう。このような特性は、図５の処理に関連して説明したように、聴覚的イベントの主サブバンドの認識を含み得る。この特性はＭＰＥＧ−７オーディオデスクリプタを含んでもよく、例えば聴覚的イベントのパワー測定、聴覚的イベントの振幅の測定、聴覚的イベントのスペクトル平坦性の測定、及び聴覚的イベントが実質的に静穏か否かを含む。この特性は、聴覚的イベントがトランジェントであるか否かのような他の特性を含んでもよい。少なくとも１つの聴覚的イベントの特徴は、「保存及びフォーマット」機能又はステップ７−３により受け取られて、聴覚的イベント情報に沿って記憶されてフォーマットされる。
【００４６】
図７の構成の代替例が図８及び９に示されている。図８において、オーディオ入力信号が「特性認識」機能又はステップ８−３へ直接に適用されないが、「聴覚的イベント認識」機能又はステップ８−１からは情報を受け取らない。図５の構成がこの構成の特定の例である。図９において、機能又はステップ９−１、９−２及び９−３が連続的に配置されている。
【００４７】
この実際の実施形態の詳細は重要ではない。オーディオ信号の連続的時間セグメントのスペクトルコンテンツを計算する他の手法は、
連続的時間セグメントの間の差を計算し、このような連続的時間セグメントの間のスペクトルプロファイルコンテンツにおける差異が閾値を上回るときの連続的時間セグメントの間の各境界における聴覚的イベント境界を設定することが採用できよう。
【００４８】
本発明の他の変形例及び変更例による実施並びにその様々な局面が当業者には明らかであり、本発明はこれらの説明された特定の実施形態により限定されるものではないことが理解されるべきである。従って、あらゆる変更例、変形例、或いはここに開示されて請求された原則的な基本原理の要旨と目的の範囲内にある均等物は本発明に包含される。
【００４９】
本発明とその様々な局面は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び／又は専用ディジタルコンピュータにおいてソフトウェア機能として実行できる。アナログとディジタルとの信号ストリームの間のインターフェースは、適当なハードウェアにより、及び／又はソフトウェア及び／又はファームウェアにおける機能として実行されるであろう。
【図面の簡単な説明】
【００５０】
【図１】図１は聴覚を示すオーケストラ音楽の単独のチャンネルの理想化波形である。
【図２】図２はサブバンド聴覚的イベントを識別する目的で全帯域幅オーディオを周波数サブバンドへ分割する概念を示す理想化された概念的模式図である。水平目盛はサンプルであり、垂直目盛は周波数である。
【図３】図３は２つのオーディオチャンネルにおける一連の理想化された波形であり、各チャンネルにおけるオーディオ・イベント及び２つのチャンネルに亘る合成オーディオ・イベントを示す。
【図４】図４は４つのオーディオチャンネルにおける一連の理想化された波形であり、各チャンネルにおけるオーディオ・イベント及び４つのチャンネルに亘る合成オーディオ・イベントを示す。
【図５】図５は本発明によるオーディオ・イベント位置の抽出及びオーディオ信号から主・サブバンドの選択的抽出を示すフローチャートである。
【図６】図６は本発明に係る描写スペクトル解析を示す概念的模式図である。

Claims

オーディオ信号の低減された情報表示を生成する方法であって、
オーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割する段階と、
前記聴覚的イベントに関する情報をフォーマットして記憶する段階とを含む方法。
請求項１記載の方法において、前記フォーマットして記憶する段階が、聴覚的イベント境界をフォーマットして記憶する方法。
請求項２記載の方法において、前記方法が、少なくとも１つの前記聴覚的イベントに特性を割り当てると共に、前記フォーマットして記憶する段階が、このような聴覚的イベント特性をフォーマットして記憶する方法。
請求項３記載の方法において、少なくとも１つの前記聴覚的イベントに割り当てられる特性が、聴覚的イベントの周波数スペクトルの主サブバンドと、聴覚的イベントのパワーの測定値と、聴覚的イベントの振幅の測定値と、聴覚的イベントのスペクトル平坦性の測定値と、聴覚的イベントが実質的に静穏か否か、聴覚的イベントがトランジェントを含むか否かのうちの少なくとも１つを含む方法。
請求項１乃至４の何れか一項に記載の方法において、聴覚信号を聴覚的イベントへ分割する段階が、
前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを計算する段階と、
前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツにおける差異を計算する段階と、
連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるときに、聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
オーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割する方法であって、
前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを計算する段階と、
前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツにおける差異を計算する段階と、
連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるときに、聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
請求項６記載の方法において、前記オーディオ信号がサンプルにより代表されたディジタルオーディオ信号であると共に、前記オーディオ信号のスペクトルコンテンツを計算する段階が、
オーディオ信号を表すデータを窓化する段階と、
前記データを周波数域へ変換する段階と、
周波数域データへ正規化する段階とを含む方法。
請求項７記載の方法において、前記計算が、正規化された周波数域データを対数領域へ変換する段階を含む方法。
請求項７又は８記載の方法において、前記スペクトルコンテンツの差異を計算する段階が、
現在のブロックの各スペクトル係数を先行するブロックの対応する係数から減算し、各差異の大きさを計算し、各ブロックについて１つの数に差異を加算する段階を含む方法。
請求項９記載の方法において、前記聴覚的イベントの設定が、現在のブロックについての数が先行するブロックについての数と閾値を上回る値で異なるときに、前記ブロックをイベント境界として記録する段階を含む方法。
請求項５記載の方法において、前記信号の聴覚的イベントへの分割に基づいて前記オーディオ信号の低減された情報表示を生成する方法が、前記聴覚的イベント境界をフォーマットして記憶する段階を更に含む方法。
請求項５記載の方法において、前記聴覚的イベントの各々の主サブバンドを識別する段階を更に含む方法。
請求項１２記載の方法において、前記信号の聴覚的イベントへの分割に基づいて前記オーディオ信号の低減された情報表示を生成する方法が、前記聴覚的イベント境界をフォーマットして記憶し、前記聴覚的イベントの各々の主サブバンドを識別する段階を更に含む方法。
請求項５記載の方法において、前記オーディオ信号を少なくとも２つの周波数サブバンドへ分割し、前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを複数のサブバンドの各々について計算し、前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツの差異を複数のサブバンドの各々について計算し、連続的時間ブロックの間のスペクトルコンテンツにおける差異が任意のサブバンドにおける閾値を越えるときに、サブバンドについての聴覚的イベント境界を前記連続的時間ブロックの間の境界に設定する段階を含む方法。
請求項５記載の方法において、前記オーディオ信号を少なくとも２つの周波数サブバンドへ分割し、前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを複数のサブバンドの各々について計算し、前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツの差異を複数のサブバンドの各々について計算し、連続的時間ブロックの間のスペクトルコンテンツにおける差異が任意のサブバンドにおける閾値を越えるときに、オーディオ信号について合成聴覚的イベント境界を前記連続的時間ブロックの間の境界に設定する段階を含む方法。
オーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割する方法であって、
前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツ及び振幅コンテンツを計算する段階と、
前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツ及び振幅コンテンツにおける差異を計算する段階と、
連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるか、或いは連続的時間ブロックの間の振幅コンテンツにおける差異が閾値を越えるときに、聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
多重チャンネルのオーディオ信号を各々が分離して個別に認識される聴覚的イベント、又は聴覚的イベントの一部へ分割する方法であって、
各チャンネルにおける前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを計算する段階と、
各チャンネルにおける前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツにおける差異を計算する段階と、
連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるときに、合成聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
多重チャンネルのオーディオ信号を各々が分離して個別に認識される聴覚的イベント、又は聴覚的イベントの一部へ分割する方法であって、
各チャンネルにおける前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツ及び振幅コンテンツを計算する段階と、
各チャンネルにおける前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツ及び振幅コンテンツにおける差異を計算する段階と、
連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるか、或いは連続的時間ブロックの間の振幅コンテンツにおける差異が閾値を越えるときに、又は合成聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
請求項１７又は１８記載の方法において、各チャンネルにおけるオーディオが、空間における各方向を表す方法。