JP2004528601A - オーディオ信号の聴覚的イベントへの分割 - Google Patents

オーディオ信号の聴覚的イベントへの分割 Download PDF

Info

Publication number
JP2004528601A
JP2004528601A JP2003500893A JP2003500893A JP2004528601A JP 2004528601 A JP2004528601 A JP 2004528601A JP 2003500893 A JP2003500893 A JP 2003500893A JP 2003500893 A JP2003500893 A JP 2003500893A JP 2004528601 A JP2004528601 A JP 2004528601A
Authority
JP
Japan
Prior art keywords
audio signal
auditory
time blocks
boundary
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003500893A
Other languages
English (en)
Other versions
JP4763965B2 (ja
Inventor
クロケット、ブレット・ジー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2002/004317 external-priority patent/WO2002084645A2/en
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority claimed from PCT/US2002/005999 external-priority patent/WO2002097792A1/en
Publication of JP2004528601A publication Critical patent/JP2004528601A/ja
Application granted granted Critical
Publication of JP4763965B2 publication Critical patent/JP4763965B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Abstract

1つの局面によれば、本発明はオーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割し、これはオーディオ信号の連続的時間ブロックのスペクトルコンテンツを計算し(5−1)、オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツの差異を計算し(5−2)、連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるときに、その連続的時間ブロックの間の境界として聴覚的イベント境界を認識する(5−3)ことによる。他の局面によれば、本発明はオーディオ信号の低減された情報表示を与え、これはオーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割し、聴覚的イベントに関連する情報をフォーマットして記憶する(5−4)ことによる。選択的に、本発明は少なくとも1つの聴覚的イベント(5−5)へ特性を割り当ててもよい。
【選択図】図5

Description

【0001】
関連出願の参照
この出願は、米国仮特許出願第60/258,205号(2000年12月26日出願)から米国特許法第119条(e)に基づく優先権を主張している。
【0002】
発明の技術分野
本発明は、オーディオ信号のサイコアコースティック処理の分野に関する。特に本発明はオーディオ信号を各々が分離して個別に認識される「聴覚的イベント」への分割又は区画化の局面に関し、聴覚的イベントに基づいて、また選択的に、このような聴覚的イベント内のオーディオ信号の特性又は特徴に基づいて、オーディオ信号の低減された情報呈示を生成する局面に関する。聴覚的イベントはISO/IECJTC1/SC29/WG11により提案されたMPEG−7"Audio Segments"に規定されるように有益であろう。
【0003】
背景技術
音を各々別々に識別されるユニット又はセグメントへ分割することは、しばしば「聴覚的イベント解析」又は「聴覚的シーン解析(auditory scene analysis:ASA)」と称される。聴覚的シーン解析の詳細な説明は、Albert S. Bregman によりその著書Auditory Scene Analysis-The Perceptual Organization of Sound, マサチューセッツ工科大学1991, 第4版,Second MIT Press paperback edition)に記載されている。更に米国特許第6,002,776号(Bhadkamkar,et al, 1999年12月14日)は、聴覚的シーン解析による音分離に関する従来技術として、1976年まで遡る文献を引用している。しかしながら、この米国特許は聴覚的シーン解析の実践的使用を認めないものであり、「聴覚的シーン解析に関する技術は、人間聴覚処理のモデルとしての科学的観点からは興味深いが、基本的進展がなされるまでは、音分離のために考慮されるべき実践的技術が現時点ではその計算的要求には程遠く、且つ特殊である」と結論している。
【0004】
聴覚から特性又は特徴を抽出する幾多の方法が存在する。適切に定義された特徴又は特性が与えられると、その抽出は自動化処理を用いて実行できる。例えば現在は「ISO/IECJTC1/SC29/WG11(MPEG)は、MPEG−7規格の一部として様々な聴覚デスクリプタを標準化する。このような方法の共通の欠点は聴覚的シーン解析を無視していることである。このような方法は周期的に特定の「古典的」信号処理パラメータ(例えばピッチ、振幅、パワー、ハーモニック構造、スペクトル平坦性)を計測しようと努める。
【0005】
このようなパラメータは有益な情報を与えるが、聴覚信号を人間の知覚に従って分離されて個別に認識される成分へ解析又は特徴付けることはない。しかしながら、MPEG−7デスクリプタは本発明の局面に従う聴覚的イベント認識を特徴付けるには有益であろう。
【0006】
本発明の開示
本発明の局面によれば、分離されて個別に認識される傾向にある一時的セグメント又は「聴覚的イベント」へオーディオを分割する計算効率化処理が与えられる。これら聴覚的イベント(これらは時間に関して開始及び終了する)の境界の位置は、オーディオ信号の記述に使用することができる重要な情報を与える。聴覚的イベント境界の位置は低減された情報表示、即ちオーディオ信号の「サイン」又は「指紋」を生成するように組みたてることができ、これは例えば他の同様に生成されたサイン(例えば公知の作業のデータベース)との比較解析を用いて記憶することができる。
【0007】
Bregmanは「我々は音がその音色、ピッチ、音量又は(僅かな広がり)に対する空間的位置で急速に変化するときに個々の成分を聞く」(前掲Auditory Scene Analysis-The Perceptual Organization ofSound,第469頁)と記している。Bregmanはまた多重同時音ストリームについて、それが例えば周波数的に分離したときの認識について説明している。
【0008】
音色、ピッチ、振幅における特定の変化を検出する目的で、本発明の局面によるオーディオイベント検出処理は、時間に関するスペクトル成分における変化を検出する。チャンネルが空間における方向を表す多重チャンネル音配置が適用された場合には、本発明の局面による処理は、時間に関する空間的位置の変化からもたらされる聴覚的イベントも検出する。選択的に、本発明の更なる局面に従えば、時間に関する振幅の変化を検出し得るが、これは時間に関するスペクトル成分における変化を検出することでは検出されない。
【0009】
その最小計算要求実施においては、全周波数帯(全帯域幅オーディオ)又は実質的に全周波数帯(実践的な実施においては、スペクトルの端部における帯域制限フィルタがしばしば採用される)を解析し、且つ音量が最大のオーディオ信号成分に最大の重み付けを与えることにより、処理はオーディオを時間区画へ分割する。この試みはサイコアコースティック現象の利点を採り、その現象では小さな時間尺度(20ミリセコンド(ms)以下)において、耳は単独の聴覚的イベントを所定の時間へ集束させる傾向にある。これは、多重イベントが同一時間に生じ得るが、1つの成分が知覚的に最も顕著になる傾向にあり、生じたイベントのみを通じて個々に処理し得る。この工科の利点は、聴覚的イベント検出を、処理されたオーディオの複雑さの尺度に比例させることである。例えば処理される入力オーディオ信号が単独の楽器であるならば、聴覚的イベントは演奏される個々のノートと同様に認識される。入力汚染信号と同様に、スピーチの個々の成分(例えば母音及び子音)は個々のオーディオ成分と同様に識別される。オーディオの複雑さが増大する(例えばドラムビート又は多数の楽器及び音声を伴う音楽)につれて、聴覚的イベント検出は任意の瞬間において「最も顕著」(即ち最も高音量な)オーディオ成分を識別する。これに代えて、最も顕著なオーディオ成分は、ヒアリング・閾値及び周波数応答性を考慮に入れることにより決定してもよい。
【0010】
全帯域オーディオから計算された聴覚的イベント境界の位置がオーディオ信号のコンテンツに関する有益な情報を与えるが、オーディオ信号解析における使用のために聴覚的イベントのコンテンツを更に記述する付加的な情報を与えることが望ましい。例えば、オーディオ信号は2つ以上の周波数サブバンドに亘って解析でき、周波数サブバンド聴覚的イベントの位置が決定されて、聴覚的イベントのコンテンツの特質に関するより詳細な情報を搬送するのに用いられる。このような詳細な情報は、広帯域解析からは得られない付加的な情報を与える。
【0011】
従って本発明の更なる局面によれば、選択的に、大きな計算の複雑さの費用において、この処理は、全帯域幅ではなく個々の周波数サブバンド(静的又は動的に決定されるか、或いは静的及び動的の双方で決定されたサブバンド)における時間についてのスペクトル成分の変化を考慮し得る。この代替的な試みは、特定の時間に1つの信号ストリームのみが識別されるとみなすのではなく、異なる周波数サブバンドにおける1つ以上のオーディオストリームを考慮に入れる。
【0012】
本発明の局面による単純且つ計算効率化処理は聴覚的イベントを識別するにも有益であることが見出されている。
【0013】
本発明による聴覚的イベント検出処理は、時間域オーディオ波形を時間間隔又はブロックへ分割し、フィルタバンク又は時間周波数変換、例えばFFTを用いて各ブロックにおけるデータを周波数域へ変換することにより実施される。各ブロックのスペクトルコンテンツの振幅は振幅変化の効果を排除又は低減するために規格化し得る。各合成周波数域表示は、特定のブロックにおけるオーディオのスペクトルコンテンツの指標(周波数の関数としての振幅)を与える。連続的ブロックのスペクトルコンテンツが比較されて、聴覚的イベントの一時的開始又は一時的終了を示すであろう閾値よりも大きく変えられる。図1は聴覚的イベントを描くオーケストラ音楽の単独のチャンネルの理想的な波形を示す。新たなノートの演奏として生じるスペクトル変化は、それぞれサンプル2048及び2560における新たな聴覚的イベント2及び3を引き起こす。
【0014】
上述したように、計算の複雑さを最小化する目的で、時間域オーディオ波形の周波数の単独バンドのみを処理してもよく、好ましくはスペクトルの全周波数バンド(平均的品位の音楽システムの場合においては約50Hz乃至15kHzであろう)又は実質的に全周波数バンド(例えば、バンド規定フィルタは高低周波数極値を排除し得る)の何れかである。
【0015】
好ましくは、周波数域データは以下に説明するように規格化されている。周波数域データの規格化が要求される度合いは振幅の指標を与える。即ちこの度合いにおける変化が予め定められた閾値を越えるならば、これはイベント境界を示すには大きすぎる。スペクトル変化及び振幅変化からもたらされるイベント開始及び終了点は、OR条件結合であり、何れかの形式の変化からもたらされるイベント境界が識別される。
【0016】
各々が空間における方向を示す多重オーディオチャンネルの場合においては、各チャンネルを独立に処理してもよく、全てのチャンネルについての合成イベント境界はOR条件結合になり得る。従って、例えば、方向を突然に切りかえる聴覚的イベントは、1つのチャンネルにおける「イベントの端部」境界及び他のチャンネルにおける「イベントの開始」境界をもたらす傾向にある。OR条件結合の場合には、2つのイベントが認識される。従って、本発明の聴覚的イベント検出処理は、スペクトル(音色及びピッチ)、振幅及び方向変化に基づいて聴覚的イベント検出の能力がある。
【0017】
上述したように、更なる選択として、しかしながら大きな計算の複雑さを要するものとして、周波数の単独帯域における時間域波形のスペクトルコンテンツの処理に代えて、周波数域変換は、2つ以上の周波数帯域へ分割してもよい。周波数帯域の各々は周波数域へ変換されて、上述した方式で独立チャンネルにある間に処理される。結果的なイベント境界はOR条件結合となり、そのチャンネルについてのイベント境界を規定する。多重周波数バンドは固定的、適合的、又は固定及び適合の組み合わせとしてもよい。オーディオ雑音低減及び他の技術で採用されているトラッキングフィルタ技術は、例えば適合周波数バンドを規定するように採用できる(例えば800Hz及び2kHzにおける主同時サイン波は2つの周波数上の中心に位置する2つの適合的に定められた帯域をもたらす。周波数域への変換の前にデータをフィルタリングすることが可能であるが、より最適な全帯域オーディオを周波数域へ変換して、対象の周波数サブバンド成分のみが処理される。FFTを用いて全帯域幅を変換する場合において、対象の周波数サブバンドに対応するサブ2(sub-bins)のみが共に処理される。
【0018】
代替的に、多重サブバンド又は多重チャンネルの場合、情報の若干の損失をもたらすOR条件結合聴覚的イベント境界に代えて、イベント境界情報を記憶してもよい。
【0019】
図2に示すように、ディジタル・オーディオ信号の周波数域振幅はFs/2の周波数(ここでFsはディジタル・オーディオ信号のサンプリング周波数)越える有益な周波数情報を包含する。オーディオ信号の周波数スペクトルを2つ以上のサブバンド(同一の帯域幅である必要はなく、周波数Fs/2Hzに達する必要もない)へ分割することにより、周波数サブバンドを全帯域聴覚的イベント検出方法と同様な方式で全時間に亘って解析してもよい。
【0020】
サブバンド聴覚的イベント情報は、信号をより正確に記述し、且つこの信号を他のオーディオ信号から区別するオーディオ信号についての付加的な情報を与える。この向上された区別性能力は、オーディオ・サイン情報が多数のオーディオ・サインから整合するオーディオ信号を識別するの使用するのであれば、有益であろう。例えば、図2に示すように、周波数サブバンド聴覚的イベント解析(512サンプルの聴覚的イベント境界解像度を有する)は、サンプル1024及び1536において様々に多重サブバンド聴覚的イベント開始を、サンプル2560,3072及び3584において様々に終了を見出している。この信号のレベルの詳細は、信号広帯域聴覚シーン解析から得られるものとは異なっている。
【0021】
このサブバンド聴覚的イベント情報は各サブバンドについての聴覚的イベントサインを導くのに用いてもよい。これはオーディオ信号のサインのサイズを増大し、おそらく多重サインとの比較に必要な計算時間を増大しつつ、2つのサインを同じものとして誤分類する可能性を多いに低減する。サインの大きさ、計算の複雑性と信号の正確さとの間の妥協はアプリケーションに依存してなすことができる。代替的に、各サブバンドについてサインを与えるのではなく、聴覚的イベントをOR条件として(サンプル1024,1536,2560,3072及び3584における)「組み合わされた」聴覚的イベント境界の信号セットを与えるようにする。これは情報の若干の損失をもたらすが、単独のサブバンド又は広帯域解析の情報よりも更なる情報を与える合成聴覚的イベントを表すイベント境界の単独セットを与える。
【0022】
周波数サブバンド聴覚的イベント情報それ自身が有益な信号情報を与えながら、サブバンド聴覚的イベントの位置の間の関係を解析して、オーディオ信号の特質に更なる洞察を与えるのに使用し得る。例えば、サブバンド聴覚的イベントの場所と強度は、オーディオ信号の音量(周波数コンテンツ)の表示として使用し得る。互いに関して調和するサブバンドに現れる聴覚的イベントは、オーディオの調和性に関する有益な洞察を与える。単独サブバンドにおける聴覚的イベントの存在はオーディオ信号の特性に類似するトーンのような情報も与える。多重チャンネルに亘る周波数サブバンド聴覚的イベントの関係の解析は、空間コンテンツ情報をも与えることができる。
【0023】
多重オーディオチャンネルを解析する場合において、各チャンネルは独立に解析され、各々の聴覚的イベント境界情報が分離されて保持されるか、或いは組み合わされて合成聴覚的イベント情報を与える。これは或る程度は多重サブバンドの場合に類似している。合成聴覚的イベントは、2つのチャンネルオーディオ信号についての聴覚シーン解析結果を示す図3を参照することにより更によく理解される。図3は2つのチャンネルにおけるオーディオ・データの時間を伴うセグメントを示す。第1のチャンネルにおけるオーディオのASA処理、図3の頂部波形は、512サンプルスペクトルプロファイルブロックサイズの倍数であり、この例においては1024及び1536サンプルにおいて聴覚的イベント境界を識別する。図3の低部波形は第2チャンネルであり、これもまたサンプルスペクトルプロファイルブロックサイズの倍数であり、この例においては1024,2048及び3072サンプルにおいて聴覚的イベント境界を識別する。1024,1536,2048及び3072サンプル(チャンネルの聴覚的イベント境界は「OR条件」結合における境界を有する合成聴覚的イベントセグメントからもたらされる両チャンネルについての組み合わされた聴覚組み合わせ聴覚的イベント解析からもたらされる両チャンネルについての合成聴覚的イベント解析からもたらされる。実際には、聴覚的イベント境界の正確さはスペクトルプロフィルブロックサイズ(この例においてはNは512サンプル)のサイズに依存することが望ましく、これはイベント境界がブロック境界においてのみ生じるためである。それにもかかわらず、512サンプルのブロックサイズがサイズの満足のいく結果を与えるような充分な正確さを有する聴覚的イベント境界を決定することが見出されている。
【0024】
図3Aは3つの聴覚的イベントを示す。これらのイベントは、(1)トランジェント前のオーディオの静穏部分、(2)トランジェントイベント、及び(3)オーディオトランジェントのエコー/継続部分を含む。図3Bに示される音声信号は、支配的高周波数歯擦イベント、母音への歯擦展開又は「モーフ(morphs)」、母音の第1半分、及び母音の第2半分としてのイベントを有する。
【0025】
図3は、聴覚的イベントデータが2つのチャンネルの時間同時データブロックに跨って占めるときの組み合わせイベント境界をも示す。このようなイベントセグメントは5つの組み合わせ聴覚的イベント領域を与える(イベント境界が「OR条件」結合である)。
【0026】
図4は4つのチャンネル入力信号の例を示す。チャンネル1及び4は各々が3つの聴覚的イベントを包含し、チャンネル2及び3は各々が2つの聴覚的イベントを包含する。全4つのチャンネルに亘る同時データブロックについての組み合わせ聴覚的イベント境界は、図4の下部に示されるようにサンプル番号512,1024,1536,2560及び3072に位置する。
【0027】
原理的には、処理されたオーディオはディジタル又はアナログでよく、ブロックへ分割する必要はない。しかしながら、実際的なアプリケーションにおいては、入力信号は、各チャンネルが例えば4096サンプルのブロックへ分割される連続サンプルにおけるサンプルで示されるディジタル・オーディオの少なくとも1つのチャンネルになる傾向にある(上述の図1、3及び4の例の如し)。本明細書に記載された実施例においても、聴覚的イベントは、好ましくは、人間の耳により認識できる最短の聴覚的イベントと信じられるオーディオの約20ms又は未満を表すオーディオ・サンプル・データのブロックを検査することにより決定される。従って、実際において、聴覚的イベントは、オーディオ・サンプル・データの大きなブロック内で44.1KHzのサンプリング率において入力オーディオの約11.6msに対応する例えば512サンプルのブロックを検査することにより決定される傾向にある。しかしながら、この書面を通じて、聴覚的イベント境界検出の目的でオーディオ・データのセグメントの検査を参照するときには、参照は「サブブロック」ではなく、「ブロック」に対してなされるものとする。オーディオ・サンプル・データがブロック内で検査されるので、実際には、聴覚的イベント一時的開始及び停止点境界の必要性は、各々がブロック境界に一致することである。ここには実時間処理要求(大きなブロックが少ない処理経費を必要とする)とイベント位置の解像度(小さなブロックが聴覚的イベントの位置上により詳細な情報を与える)との間のトレードオフがある。
【0028】
本発明の他の局面は本発明の詳細な説明を読んで理解することにより評価されて理解される。
【0029】
好適実施形態の説明
本発明の1つの局面の形態において、聴覚シーン解析は、図5の一部分に示すように3つの概念的処理ステップからなる。第1ステップ5−1(「スペクトル解析実行」)では時間域オーディオ信号をとり、ブロックへ分割して、そのブロックの各々についてスペクトル・プロファイル又はスペクトルコンテンツを計算する。スペクトル解析はオーディオ信号を短期間周波数域へ変換する。これは、任意のフィルタ・バンク、バンドパスフィルタの変換又はバンクの何れかに基づくもの、線形又はワープ周波数空間(例えば、人間の耳の特性によく適するバーク(Bark)スケールまたは臨界バンド)の何れかに基づくものである。任意のフィルタ・バンクによれば、時間と周波数との間のトレードオフが存在する。大きな時間解像度、従って短時間間隔は、低周波数解像度をもたらす。大きな周波数解像度、従って狭いサブバンドは長時間間隔をもたらす。
【0030】
図6に概念的に示す第1ステップはオーディオ信号の連続的時間のスペクトルコンテンツを計算する。実際的な実施形態においては、ASAブロックサイズは入力オーディオ信号の512サンプルである。第2ステップ5−2において、ブロックからブロックへのスペクトルコンテンツにおける差異が決定される(「スペクトル・プロファイル差測定」)。従って、第2ステップは、オーディオ信号のスペクトルはオーディオ信号の連続時間セグメントの間のスペクトルコンテンツにおける差を計算する。上述したように、認識された聴覚的イベントの開始又は終了の強力な指標はスペクトルコンテンツにおける変化になると信じられる。第3ステップ5−3(「聴覚的イベント境界の位置識別」)において、1つのスペクトルプロファイルブロック及びその次との間のスペクトル差が閾値よりも大きいときは、ブロック境界は聴覚的イベント境界にとる。連続的な境界の間のオーディオセグメントは聴覚的イベントを構成する。従って、第3ステップは、連続的時間セグメントの間のスペクトルプロファイルコンテンツにおける差が閾値を越えるときに、連続的時間セグメントの間の聴覚的イベント境界を設定し、ひいては聴覚的イベントを規定する。この実施形態においては、聴覚的イベント境界は、1つのスペクトルプロファイルブロック(この例における512サンプル)の最小長さを有するスペクトルプロファイルブロックの整数倍の長さを有する聴覚的イベントを規定する。原理的には、イベント境界はそれほど限定的である必要はない。本明細書に説明した実際的実施形態に代わるものとして、入力ブロックサイズを変動させて、例えば基本的に聴覚的イベントのサイズになるようにしてもよい。
【0031】
イベント境界の位置は、ステップ5−4に示すように、減少された情報特性又は「サイン」として記憶して、且つ所望によりフォーマットしてもよい。選択的処理ステップ5−5(「主サブバンド認識」)はステップ5−1のスペクトル解析を用いて、主周波数サブバンドを識別し、これもまたサインの一部として記憶し得る。主サブバンド情報は、各聴覚的イベントの特徴を規定する目的で、聴覚的イベント境界と組み合わせてもよい。
【0032】
オーディオの重畳又は非重畳の何れかを窓化して、入力オーディオのスペクトル・プロファイルの計算に用いてもよい。重畳は聴覚的イベントの位置について微細な解像度をもたらし、トランジェントのようなイベントを誤るおそれを低減させる。しかしながら、重畳は計算の複雑さをも増大させる。従って、重畳は省略してもよい。図6は、離散的フーリエ変換(DFT)により窓化されて周波数域へ変換される非重畳512サンプルブロックの概念的表示を示す。各ブロックは、例えばDFT(好ましくは速度について高速フーリエ変換(FFT)として実行される)を用いて、窓化されて周波数域へ変換される。
【0033】
以下の変数は入力ブロックのスペクトル・プロファイルを計算するのに用いてもよい。
N=入力信号におけるサンプルの数
M=スペクトル・プロファイルの計算に用いられる窓枠内のサンプルの数
P=スペクトル計算重畳のサンプルの数
Q=計算されたスペクトル窓/領域の数
【0034】
原則として、どんな整数を上述の変数に用いてもよい。しかしながら、標準FFTをスペクトル・プロファイル解析のために用いることができるように、Mを2の累乗に等しく設定されているならば、計算はより効率的である。更に、N、M及びPをQが整数になるように選定すれば、これはN個のサンプルの終端におけるアンダーランニング又はオーバーランニングオーディオを回避できるだろう。聴覚シーン解析処理の実際の実施形態においては、列記されたパラメータは以下のように設定し得る。
M=512サンプル(44.1kHz又は11.6ms)
P=0サンプル(重畳なし)
【0035】
上述の列記された値は実験的に求められたものであり、充分な精度で聴覚的イベントの位置及び持続時間を識別することが解った。しかしながら、値Pを、零サンプル(重畳なし)ではなく、256サンプル(50%重畳)に設定することが、見つけにくいイベントを識別するのに有用であることが解っている。窓関数に起因するスペクトルアーティファクトを最小限にするように多くの異なる形式の窓関数が用いられるが、スペクトル・プロファイルの計算に用いられる窓関数は、M−ポイント・ハニング、カイザー・ベッセルその他の適当なもので、非矩形の窓関数が望ましい。広範囲のオーディオ素材に亘って優れた効果を与えたことから、上述した値とハニング窓を選択した。非矩形の窓は低周波数コンテンツが支配的なオーディオ信号の処理に望ましい。矩形窓はイベントの不適切な検出の原因になるスペクトルアーティファクトを作る。
【0036】
ステップ5−1(図5)において、各M個のサンプルブロックのスペクトルは、M−ポイント・ハニング、カイザー・ベッセルその他の適当な窓関数にてデータを窓化して計算でき、M−ポイント高速フーリエ変換を用いて周波数領域に変換し、複合FFT計数の振幅が計算される。結果としてのデータは最大振幅を単位と定めるように正規化され、この正規化されたM個の数値は対数領域へ変換される。これらの数値群は対数領域へ変換する必要はないが、この変換はステップ5−2における差異の大きさの計算を簡単にする。更に、対数領域は人間の聴覚系の特性に親密な整合性がある。対数領域における値はマイナス無限大からゼロまでの範囲である。実際の実施形態では、最小リミット値がこの値のレンジに重ね合わせられる。即ち、リミット値を例えば−60dBに固定、或いは、非常に高い周波数では、小さい静かな音の可聴制性が低いことを反映して、周波数に依存した値にすることができる(正の周波数と同様に負も示すFFTにおいて、数値群をM/2個のサイズに減らすことも可能なことに注意すべきである。)。
【0037】
ステップ5−2は、隣り合うサブブロックのスペクトルの間の差異の大きさを計算する。各ブロックについて、ステップ5−1からのM(対数)個のスペクトル係数の各々を先行するブロックについての対応する係数から減算し、その差異の大きさを計算する(符合は無視する)。これらのM個の差異を加算して1つの数にする。従って、Q個のブロックを包含するオーディオの隣接する時間セグメントに対して、結果はQ個の正数群となる(各ブロックについて1つ)。数値が大きいほど、ブロックのスペクトルが先行するブロックとはより異なっている。この差異の大きさは、この差異の計算値を、和の計算で用いたスペクトル係数の数で除することにより、スペクトル係数ごとに平均差異を示すようにすることも可能である(この場合はM個の係数)。
【0038】
ステップ5−3では、ステップ5−2で計算した差異の数値群に閾値を適用することにより、聴覚的イベントの境界値の位置を定義する。差異が閾値を上回るならば、スペクトルの変化は新たなイベントの信号を送るのに充分であると判断されて、その変化の数がイベントの境界として記録される。上記に与えられたM,N,P及びQと(ステップ5−1における)dB単位で示した対数領域での値に対して、閾値は、FFT強度全体と比較する場合(鏡像部分も含む)は2500に設定され、FFT強度の半分と比較する場合(上述したように、FFTは正の周波数と同様に負も示すので、FFTの強度については、一方は他方の鏡像となる)は1250に設定される。この値は試験的に選ばれたものであり、良好な聴覚的イベント境界を与える。このパラメータ値は、イベントの検出を減らす(閾値を増大する)か、増やす(閾値を減少する)ことが可能である。
【0039】
(サイズM個のサンプル)のQ個のブロックからなるオーディオ信号について、図5のステップ5−3の出力は、ステップ5−4において、聴覚的イベント境界の位置を示す情報のB(q)群(ここでq=0,1,・・Q−1)として記憶してフォーマットされる。M=512サンプルのブロックサイズ、P=0サンプルの重畳及び44.1kHzの信号サンプリング率について、聴覚シーン解析関数2は、1秒に約86の値を出力する。B(q)群はサインとして記憶してもよく、その基本的形態として、ステップ5−5の選択的ドメインを伴わずに、オーディオ信号のサインが聴覚的イベント境界のストリングを表すB(q)群である。
【0040】
主サブバンド認識(選択)
各ブロックについて、図5の処理における選択的付加的ステップは、ブロックの主周波数「サブバンド」を表すオーディオ信号から情報を減算する(各ブロックにおけるデータの周波数サブバンドへ分割された情報を与える周波数域への変換)。このブロックに基づく情報は聴覚的イベントに基づく情報に変換して、主周波数サブバンドが各聴覚的イベントについて識別される。各聴覚的イベントについてのこのような情報は、聴覚的イベントそれ自身に関する情報を与え、オーディオ信号のより詳細で独特な低減された情報を与えるのに有益であろう。主サブバンド情報の採用は、オーディオがサブバンドへ断続されて聴覚的イベントが各サブバンドについて決定される場合ではなく、全バンド幅の聴覚的イベントを決定する場合により好適である。
【0041】
主(最大振幅)サブバンドは、人間の耳が最も感受的である周波数の範囲又は帯域内の複数のサブバンド(例えば3つか4つ)から選択できるであろう。これに代えて、他の基準をサブバンドの選択に用いてもよい。スペクトルは例えば3つのサブバンドへ分割できる。サブバンドについての有益な周波数範囲は以下のとおりである(これらの特定の周波数は特に重要ではない)。
【0042】
サブバンド1 300Hz乃至550Hz
サブバンド2 550Hz乃至2000Hz
サブバンド3 2000Hz乃至10,000Hz
主サブバンドを決定するように、振幅スペクトル(又はパワー振幅スペクトル)の矩形は各サブバンドについて加算される。この各サブバンドについての合成和が計算されて、その最大のものが選択される。サブバンドは最大値を選択するに先立って重み付けしてもよい。重み付けは、サブバンドにおけるスペクトル値の数により各サブバンドについての和を除する形式をとるか、或いは、他方に亘るバンドの重要性を強調するように加算又は乗法の形式をとってもよい。これは、幾つかのサブバンドが他のサブバンドよりも平均上で多くのエネルギを持つので有益であるが、認識の重要性が損なわれる。
【0043】
Q個のブロックからなるオーディオ信号を考慮すると、主サブバンド処理の出力は、各ブロック(ここでq=0,1,・・Q−1)における主サブバンドを表す情報のDS(q)群である。好ましくは、DS(q)群は、B(q)群に沿ったサインにフォーマットされて保存される。従って、選択的主サブバンド情報によれば、オーディオ信号のサインは2つのB(q)群及びDS(q)群は、それぞれ各ブロック内の聴覚的イベント境界のストリングと主周波数サブバンドを表し、所望とあれば、これから各聴覚的イベントについての主周波数サブバンドが決定される。従って、理想化された例においては、2つの群が以下の値(3つの可能な主サブバンドがある場合)を持つ。
1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0
(イベント境界)
1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1
(主サブバンド)
【0044】
殆どの場合においては、この例に示すように、主サブバンドは各聴覚的イベント内で同じであるか、或いは各イベント内の全てのブロックについて均一でないならば平均値を有する。従って、主サブバンドは各聴覚的イベントについて決定してもよく、DS(q)群は、同じ主サブバンドがイベント内の各ブロックへ割り当てられるように変更してもよい。
【0045】
図5の処理は、図7,8及び9の構成に等しくさせることにより、より一般的に表わされる。図7において、オーディオ信号は「聴覚的イベント認識」機能又はオーディオ信号を聴覚的イベントへ分割するステップ7−1に平行に適用され、この各々は分離されて個別に知覚される傾向にあり、選択的な「聴覚的イベントの特性認識」機能又はステップ7−2になる。図5の処理はオーディオ信号は聴覚的イベントへ分割するように採用され、他の幾つかの適切な処理を採用してもよい。機能又はステップ7−1により決定されて、聴覚的イベント境界の認識となる聴覚的イベント情報は、所望とあれば、「保存及びフォーマット」機能又はステップ7−3により保存してフォーマットされる。選択的「特性認識」機能又はステップ7−3も聴覚的イベント情報を受ける。「特性認識」機能又はステップ7−3は、少なくとも1つの特性により一部又は全ての聴覚的イベントトを特徴付けるだろう。このような特性は、図5の処理に関連して説明したように、聴覚的イベントの主サブバンドの認識を含み得る。この特性はMPEG−7オーディオデスクリプタを含んでもよく、例えば聴覚的イベントのパワー測定、聴覚的イベントの振幅の測定、聴覚的イベントのスペクトル平坦性の測定、及び聴覚的イベントが実質的に静穏か否かを含む。この特性は、聴覚的イベントがトランジェントであるか否かのような他の特性を含んでもよい。少なくとも1つの聴覚的イベントの特徴は、「保存及びフォーマット」機能又はステップ7−3により受け取られて、聴覚的イベント情報に沿って記憶されてフォーマットされる。
【0046】
図7の構成の代替例が図8及び9に示されている。図8において、オーディオ入力信号が「特性認識」機能又はステップ8−3へ直接に適用されないが、「聴覚的イベント認識」機能又はステップ8−1からは情報を受け取らない。図5の構成がこの構成の特定の例である。図9において、機能又はステップ9−1、9−2及び9−3が連続的に配置されている。
【0047】
この実際の実施形態の詳細は重要ではない。オーディオ信号の連続的時間セグメントのスペクトルコンテンツを計算する他の手法は、
連続的時間セグメントの間の差を計算し、このような連続的時間セグメントの間のスペクトルプロファイルコンテンツにおける差異が閾値を上回るときの連続的時間セグメントの間の各境界における聴覚的イベント境界を設定することが採用できよう。
【0048】
本発明の他の変形例及び変更例による実施並びにその様々な局面が当業者には明らかであり、本発明はこれらの説明された特定の実施形態により限定されるものではないことが理解されるべきである。従って、あらゆる変更例、変形例、或いはここに開示されて請求された原則的な基本原理の要旨と目的の範囲内にある均等物は本発明に包含される。
【0049】
本発明とその様々な局面は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び/又は専用ディジタルコンピュータにおいてソフトウェア機能として実行できる。アナログとディジタルとの信号ストリームの間のインターフェースは、適当なハードウェアにより、及び/又はソフトウェア及び/又はファームウェアにおける機能として実行されるであろう。
【図面の簡単な説明】
【0050】
【図1】図1は聴覚を示すオーケストラ音楽の単独のチャンネルの理想化波形である。
【図2】図2はサブバンド聴覚的イベントを識別する目的で全帯域幅オーディオを周波数サブバンドへ分割する概念を示す理想化された概念的模式図である。水平目盛はサンプルであり、垂直目盛は周波数である。
【図3】図3は2つのオーディオチャンネルにおける一連の理想化された波形であり、各チャンネルにおけるオーディオ・イベント及び2つのチャンネルに亘る合成オーディオ・イベントを示す。
【図4】図4は4つのオーディオチャンネルにおける一連の理想化された波形であり、各チャンネルにおけるオーディオ・イベント及び4つのチャンネルに亘る合成オーディオ・イベントを示す。
【図5】図5は本発明によるオーディオ・イベント位置の抽出及びオーディオ信号から主・サブバンドの選択的抽出を示すフローチャートである。
【図6】図6は本発明に係る描写スペクトル解析を示す概念的模式図である。

Claims (19)

  1. オーディオ信号の低減された情報表示を生成する方法であって、
    オーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割する段階と、
    前記聴覚的イベントに関する情報をフォーマットして記憶する段階とを含む方法。
  2. 請求項1記載の方法において、前記フォーマットして記憶する段階が、聴覚的イベント境界をフォーマットして記憶する方法。
  3. 請求項2記載の方法において、前記方法が、少なくとも1つの前記聴覚的イベントに特性を割り当てると共に、前記フォーマットして記憶する段階が、このような聴覚的イベント特性をフォーマットして記憶する方法。
  4. 請求項3記載の方法において、少なくとも1つの前記聴覚的イベントに割り当てられる特性が、聴覚的イベントの周波数スペクトルの主サブバンドと、聴覚的イベントのパワーの測定値と、聴覚的イベントの振幅の測定値と、聴覚的イベントのスペクトル平坦性の測定値と、聴覚的イベントが実質的に静穏か否か、聴覚的イベントがトランジェントを含むか否かのうちの少なくとも1つを含む方法。
  5. 請求項1乃至4の何れか一項に記載の方法において、聴覚信号を聴覚的イベントへ分割する段階が、
    前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを計算する段階と、
    前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツにおける差異を計算する段階と、
    連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるときに、聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
  6. オーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割する方法であって、
    前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを計算する段階と、
    前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツにおける差異を計算する段階と、
    連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるときに、聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
  7. 請求項6記載の方法において、前記オーディオ信号がサンプルにより代表されたディジタルオーディオ信号であると共に、前記オーディオ信号のスペクトルコンテンツを計算する段階が、
    オーディオ信号を表すデータを窓化する段階と、
    前記データを周波数域へ変換する段階と、
    周波数域データへ正規化する段階とを含む方法。
  8. 請求項7記載の方法において、前記計算が、正規化された周波数域データを対数領域へ変換する段階を含む方法。
  9. 請求項7又は8記載の方法において、前記スペクトルコンテンツの差異を計算する段階が、
    現在のブロックの各スペクトル係数を先行するブロックの対応する係数から減算し、各差異の大きさを計算し、各ブロックについて1つの数に差異を加算する段階を含む方法。
  10. 請求項9記載の方法において、前記聴覚的イベントの設定が、現在のブロックについての数が先行するブロックについての数と閾値を上回る値で異なるときに、前記ブロックをイベント境界として記録する段階を含む方法。
  11. 請求項5記載の方法において、前記信号の聴覚的イベントへの分割に基づいて前記オーディオ信号の低減された情報表示を生成する方法が、前記聴覚的イベント境界をフォーマットして記憶する段階を更に含む方法。
  12. 請求項5記載の方法において、前記聴覚的イベントの各々の主サブバンドを識別する段階を更に含む方法。
  13. 請求項12記載の方法において、前記信号の聴覚的イベントへの分割に基づいて前記オーディオ信号の低減された情報表示を生成する方法が、前記聴覚的イベント境界をフォーマットして記憶し、前記聴覚的イベントの各々の主サブバンドを識別する段階を更に含む方法。
  14. 請求項5記載の方法において、前記オーディオ信号を少なくとも2つの周波数サブバンドへ分割し、前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを複数のサブバンドの各々について計算し、前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツの差異を複数のサブバンドの各々について計算し、連続的時間ブロックの間のスペクトルコンテンツにおける差異が任意のサブバンドにおける閾値を越えるときに、サブバンドについての聴覚的イベント境界を前記連続的時間ブロックの間の境界に設定する段階を含む方法。
  15. 請求項5記載の方法において、前記オーディオ信号を少なくとも2つの周波数サブバンドへ分割し、前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを複数のサブバンドの各々について計算し、前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツの差異を複数のサブバンドの各々について計算し、連続的時間ブロックの間のスペクトルコンテンツにおける差異が任意のサブバンドにおける閾値を越えるときに、オーディオ信号について合成聴覚的イベント境界を前記連続的時間ブロックの間の境界に設定する段階を含む方法。
  16. オーディオ信号を各々が分離して個別に認識される聴覚的イベントへ分割する方法であって、
    前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツ及び振幅コンテンツを計算する段階と、
    前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツ及び振幅コンテンツにおける差異を計算する段階と、
    連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるか、或いは連続的時間ブロックの間の振幅コンテンツにおける差異が閾値を越えるときに、聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
  17. 多重チャンネルのオーディオ信号を各々が分離して個別に認識される聴覚的イベント、又は聴覚的イベントの一部へ分割する方法であって、
    各チャンネルにおける前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツを計算する段階と、
    各チャンネルにおける前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツにおける差異を計算する段階と、
    連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるときに、合成聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
  18. 多重チャンネルのオーディオ信号を各々が分離して個別に認識される聴覚的イベント、又は聴覚的イベントの一部へ分割する方法であって、
    各チャンネルにおける前記オーディオ信号の連続的時間ブロックのスペクトルコンテンツ及び振幅コンテンツを計算する段階と、
    各チャンネルにおける前記オーディオ信号の連続的時間ブロックの間のスペクトルコンテンツ及び振幅コンテンツにおける差異を計算する段階と、
    連続的時間ブロックの間のスペクトルコンテンツにおける差異が閾値を越えるか、或いは連続的時間ブロックの間の振幅コンテンツにおける差異が閾値を越えるときに、又は合成聴覚的イベント境界を前記連続的時間ブロックの間の境界として認識する段階とを含む方法。
  19. 請求項17又は18記載の方法において、各チャンネルにおけるオーディオが、空間における各方向を表す方法。
JP2003500893A 2001-05-25 2002-02-26 オーディオ信号の聴覚的イベントへの分割 Expired - Lifetime JP4763965B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US29382501P 2001-05-25 2001-05-25
US60/293,825 2001-05-25
US4564402A 2002-01-11 2002-01-11
US10/045,644 2002-01-11
US35149802P 2002-01-23 2002-01-23
US60/351,498 2002-01-23
PCT/US2002/004317 WO2002084645A2 (en) 2001-04-13 2002-02-12 High quality time-scaling and pitch-scaling of audio signals
USPCT/US02/04317 2002-02-12
PCT/US2002/005999 WO2002097792A1 (en) 2001-05-25 2002-02-26 Segmenting audio signals into auditory events

Publications (2)

Publication Number Publication Date
JP2004528601A true JP2004528601A (ja) 2004-09-16
JP4763965B2 JP4763965B2 (ja) 2011-08-31

Family

ID=39362827

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003500892A Expired - Fee Related JP4906230B2 (ja) 2001-05-25 2002-02-25 オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法
JP2003500893A Expired - Lifetime JP4763965B2 (ja) 2001-05-25 2002-02-26 オーディオ信号の聴覚的イベントへの分割

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2003500892A Expired - Fee Related JP4906230B2 (ja) 2001-05-25 2002-02-25 オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法

Country Status (11)

Country Link
EP (2) EP1390942B1 (ja)
JP (2) JP4906230B2 (ja)
KR (3) KR100873396B1 (ja)
CN (2) CN1272765C (ja)
AT (1) ATE470927T1 (ja)
DE (1) DE60236648D1 (ja)
DK (1) DK1393300T3 (ja)
ES (1) ES2400700T3 (ja)
HK (2) HK1066087A1 (ja)
MX (2) MXPA03010750A (ja)
WO (1) WO2002097791A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007033851A (ja) * 2005-07-27 2007-02-08 Sony Corp ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP2009503615A (ja) * 2005-08-02 2009-01-29 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
JP2010217900A (ja) * 2002-09-04 2010-09-30 Microsoft Corp マルチチャネルオーディオのエンコーディングおよびデコーディング
JP2011151811A (ja) * 2006-04-27 2011-08-04 Dolby Lab Licensing Corp 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
JP2012525605A (ja) * 2009-04-30 2012-10-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 低複雑度の聴覚イベント境界検出

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
AU2002307533B2 (en) 2001-05-10 2008-01-31 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
ATE390683T1 (de) 2004-03-01 2008-04-15 Dolby Lab Licensing Corp Mehrkanalige audiocodierung
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
WO2006037014A2 (en) 2004-09-27 2006-04-06 Nielsen Media Research, Inc. Methods and apparatus for using location information to manage spillover in an audience monitoring system
WO2006132857A2 (en) 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
US7948557B2 (en) * 2005-06-22 2011-05-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a control signal for a film event system
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
RU2009100847A (ru) * 2006-06-13 2010-07-20 Конинклейке Филипс Электроникс Н.В. (Nl) Идентификационная метка, устройство, способ для идентификации и синхронизации видеоданных
JP5040425B2 (ja) * 2007-05-10 2012-10-03 カシオ計算機株式会社 コンテンツ再生方法、再生装置、及びプログラム
GB2457694B (en) 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
US8855101B2 (en) 2010-03-09 2014-10-07 The Nielsen Company (Us), Llc Methods, systems, and apparatus to synchronize actions of audio source monitors
CN102142257B (zh) * 2010-12-28 2013-07-03 北大方正集团有限公司 一种音频信号处理方法及装置
CN103548079B (zh) * 2011-08-03 2015-09-30 Nds有限公司 音频水印
WO2012163013A1 (zh) * 2011-10-19 2012-12-06 华为技术有限公司 音乐查询方法和装置
CA2855845A1 (en) 2011-11-18 2013-05-23 Sirius Xm Radio Inc. Systems and methods for implementing cross-fading, interstitials and other effects downstream
WO2013134567A1 (en) 2012-03-06 2013-09-12 Sirius Xm Radio Inc. Systems and methods for audio attribute mapping
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
MX353259B (es) 2012-04-17 2018-01-08 Sirius Xm Radio Inc Transicion gradual del lado del servidor para la descarga progresiva de medios.
US9596386B2 (en) 2012-07-24 2017-03-14 Oladas, Inc. Media synchronization
US20140114456A1 (en) * 2012-10-22 2014-04-24 Arbitron Inc. Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems
US9021516B2 (en) 2013-03-01 2015-04-28 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by measuring a crest factor
US9118960B2 (en) 2013-03-08 2015-08-25 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by detecting signal distortion
US9191704B2 (en) 2013-03-14 2015-11-17 The Nielsen Company (Us), Llc Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures
EP2974253B1 (en) 2013-03-15 2019-05-08 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
CN105940679B (zh) 2014-01-31 2019-08-06 交互数字Ce专利控股公司 用于同步两个电子设备处的回放的方法和装置
CN104036794A (zh) * 2014-06-27 2014-09-10 广东远峰汽车电子有限公司 可识别车载多媒体设备工作频道的加装设备、车载多媒体设备工作频道识别方法及装置
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
US10394518B2 (en) * 2016-03-10 2019-08-27 Mediatek Inc. Audio synchronization method and associated electronic device
US10390137B2 (en) 2016-11-04 2019-08-20 Hewlett-Packard Dvelopment Company, L.P. Dominant frequency processing of audio signals
GB2556058A (en) * 2016-11-16 2018-05-23 Nokia Technologies Oy Distributed audio capture and mixing controlling
WO2019088853A1 (en) * 2017-11-03 2019-05-09 Klaps Limited Live audio replacement in a digital stream
CN110476960B (zh) * 2019-09-19 2021-06-15 河北省农林科学院植物保护研究所 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用
CN111489759A (zh) * 2020-03-23 2020-08-04 天津大学 基于光纤语音时域信号波形对齐的噪声评估方法
CN112651429B (zh) * 2020-12-09 2022-07-12 歌尔股份有限公司 一种音频信号时序对齐方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US5055939A (en) 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
JPH05509409A (ja) * 1990-06-21 1993-12-22 レイノルズ ソフトウエア,インコーポレイティド 波動分析・事象認識方法およびその装置
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
JPH05181464A (ja) * 1991-12-27 1993-07-23 Sony Corp 楽音認識装置
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
JP3379624B2 (ja) * 1997-02-17 2003-02-24 日本電信電話株式会社 波形同期方法
US6211919B1 (en) * 1997-03-28 2001-04-03 Tektronix, Inc. Transparent embedment of data in a video signal
JP3511360B2 (ja) * 1998-03-09 2004-03-29 日本電信電話株式会社 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
JP2000181449A (ja) * 1998-12-15 2000-06-30 Sony Corp 情報処理装置および方法、並びに提供媒体
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
JP4458581B2 (ja) * 1999-08-17 2010-04-28 大日本印刷株式会社 信号監視用音楽演奏装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010217900A (ja) * 2002-09-04 2010-09-30 Microsoft Corp マルチチャネルオーディオのエンコーディングおよびデコーディング
JP2007033851A (ja) * 2005-07-27 2007-02-08 Sony Corp ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP2009503615A (ja) * 2005-08-02 2009-01-29 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
JP2011151811A (ja) * 2006-04-27 2011-08-04 Dolby Lab Licensing Corp 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
US11711060B2 (en) 2006-04-27 2023-07-25 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
US11962279B2 (en) 2006-04-27 2024-04-16 Dolby Laboratories Licensing Corporation Audio control using auditory event detection
JP2012525605A (ja) * 2009-04-30 2012-10-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 低複雑度の聴覚イベント境界検出

Also Published As

Publication number Publication date
MXPA03010751A (es) 2005-03-07
HK1066902A1 (en) 2005-04-01
KR20040004647A (ko) 2004-01-13
CN1272765C (zh) 2006-08-30
EP2549475A1 (en) 2013-01-23
DE60236648D1 (de) 2010-07-22
EP1390942A1 (en) 2004-02-25
ES2400700T3 (es) 2013-04-11
KR100871607B1 (ko) 2008-12-02
JP4763965B2 (ja) 2011-08-31
JP2004528600A (ja) 2004-09-16
KR100873396B1 (ko) 2008-12-11
WO2002097791A1 (en) 2002-12-05
JP4906230B2 (ja) 2012-03-28
EP1390942B1 (en) 2012-08-01
HK1066087A1 (en) 2005-03-11
CN1620684A (zh) 2005-05-25
CN1511311A (zh) 2004-07-07
MXPA03010750A (es) 2004-07-01
ATE470927T1 (de) 2010-06-15
KR100911679B1 (ko) 2009-08-10
EP2549475B1 (en) 2019-07-31
CN1264137C (zh) 2006-07-12
KR20040004646A (ko) 2004-01-13
KR20040004648A (ko) 2004-01-13
DK1393300T3 (da) 2013-03-18

Similar Documents

Publication Publication Date Title
JP4763965B2 (ja) オーディオ信号の聴覚的イベントへの分割
US9165562B1 (en) Processing audio signals with adaptive time or frequency resolution
CA2448182C (en) Segmenting audio signals into auditory events
US7283954B2 (en) Comparing audio using characterizations based on auditory events
AU2002252143A1 (en) Segmenting audio signals into auditory events
US20070083365A1 (en) Neural network classifier for separating audio sources from a monophonic audio signal
KR100539176B1 (ko) 음악적 특징 추출 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080324

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080625

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090730

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101110

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110610

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4763965

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term