JP5592959B2 - 倍音ロッキングを使用してオーディオ信号を変更する装置及び方法 - Google Patents

倍音ロッキングを使用してオーディオ信号を変更する装置及び方法 Download PDF

Info

Publication number
JP5592959B2
JP5592959B2 JP2012554354A JP2012554354A JP5592959B2 JP 5592959 B2 JP5592959 B2 JP 5592959B2 JP 2012554354 A JP2012554354 A JP 2012554354A JP 2012554354 A JP2012554354 A JP 2012554354A JP 5592959 B2 JP5592959 B2 JP 5592959B2
Authority
JP
Japan
Prior art keywords
signal
bandpass
signals
fundamental
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012554354A
Other languages
English (en)
Other versions
JP2013520697A (ja
Inventor
ディッシュ、サシャ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2013520697A publication Critical patent/JP2013520697A/ja
Application granted granted Critical
Publication of JP5592959B2 publication Critical patent/JP5592959B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/20Selecting circuits for transposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Amplitude Modulation (AREA)
  • Toys (AREA)
  • Amplifiers (AREA)
  • Networks Using Active Elements (AREA)

Description

本発明に係る実施形態はオーディオ処理に関し、特にオーディオ信号を変更する装置及び方法に関する。
以前に記録されたオーディオ信号、例えばデータベースから取り出したオーディオ信号を新たな音楽コンテキストに適合させるための膨大な信号処理の必要性に対応できるデジタル信号処理技術に対する要求が高まっている。そうするためには、ピッチ、音楽キー、スケールモードのような高レベルの意味的信号特性を適合させる必要がある。これらの操作の全てに共通していることは、主観的な音質をできる限り良い状態に保ちながら、元のオーディオ資料の音楽的特性を実質的に変更することを目標としていることである。換言すれば、これらの編集はオーディオ資料の音楽的内容を大きく変えるものであるが、それにもかかわらず、処理されたオーディオサンプルの本質を保持し、従って信憑性を保持することが求められる。これにより、理想的には、多声混合音楽内容を含む異なる種類の信号に対して幅広く応用できる信号処理方法が求められる。
今日、オーディオ信号を変更するための多くの考えが知られている。これらの考えのうちのいくつかは、ボコーダーに基づくものである。
例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号処理のための振幅・周波数変調ボコーダー」(デジタルオーディオ効果(DAFx)国際学会2008の会報)、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報)、S.ディッシュ(Disch)とB.エドラー(Edler)による「推定局所的重心に応じた、オーディオ信号スペクトルのための相互作用セグメンテーションアルゴリズム」(デジタルオーディオ効果(DAFx)第12回国際学会2009の会報)の中で、変調ボコーダー(MOVOC)の概念が紹介され、多声音楽内容に関して意味のある選択的な転置を行うというこの変調ボコーダーの一般的な機能が論じられている。これは、以前に記録されたPCM音楽サンプルのキーモードを変換するという目的への応用を可能にするものである(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報参照)。また、このような多声音楽の操作課題に対処できる最初の市販のソフトウェア(セレモニー(Celemony)によるメロダイン(Melodyne)エディター)が入手可能である。このソフトウェアは、ディレクト・ノート・アクセス(DNA)というブランド名が付けられ販売されてきた技術を実施するものである。最近、特許出願(EP2099024、P.ニューベッカー(Neubacker)、「多声音楽録音の音響のオブジェクト指向解析及び音符のオブジェクト指向処理方法」2009年9月)が公開され、おそらく、これがDNAの基本的な機能をカバーし、開示していると思われる。オーディオ信号の変更に使用される方法とは別に、感覚的に高い質のオーディオ信号を得ることが求められている。
本発明の目的は、オーディオ信号を変更するための改良された考えを提供することであり、これによれば、変更後のオーディオ信号の知覚的質を高めることができる。
この目的は、請求項1に係る装置、請求項12に係る方法または請求項13に係るコンピュータプログラムで達成できる。
本発明の一実施形態は、フィルターバンク処理部、基音決定部、倍音決定部、信号処理部及び結合部を含むオーディオ信号変更装置を提供する。フィルターバンク処理部は、オーディオ信号に基づき複数のバンドパス信号を生成するように構成されている。さらに、基音決定部は、基音バンドパス信号を得るために、複数のバンドパス信号から一つのバンドパス信号を選択するように構成されている。倍音決定部は、選択された基音バンドパス信号に関連する倍音バンドパス信号を得るために、複数のバンドパス信号のうち、選択された基音バンドパス信号に関する倍音基準を満たす一つのバンドパス信号を識別するように構成されている。さらに、信号処理部は、選択された基音バンドパス信号を所定の変更目標に基づき変更するように構成されている。また、信号処理部は、選択された基音バンドパス信号に関連づけて識別された倍音バンドパス信号を、選択された基音バンドパス信号への変更に応じて変更するように構成されている。さらに、結合部は、変更後のオーディオ信号を得るために、複数のバンドパス信号を結合するように構成されている。
基本周波数の倍音を識別し、これらの倍音を基音に対するのと同じように変更することにより、基音とそれらの倍音との間での異なる変更を避けることができ、その結果、変更後のオーディオ信号の音色が元のオーディオ信号に対してより正確に保持され得る。このようにして、変更後のオーディオ信号の感覚的な質を大きく向上することができる。例えば、選択的ピッチ転置をしようとする際(例えば、与えられた音楽信号のキーモードをCメジャーからCマイナーに変更する場合)、識別された倍音バンドパス信号に対する変更は、基音バンドパス信号に対する変更に関連して行われる。これとは対照的に、周知の方法では、倍音を示すバンドパス信号の周波数領域を、基音バンドパス信号とは違う方法で変更する。換言すれば、識別された倍音バンドパス信号は、上記方法により、基音バンドパス信号にロック(固定)される。
本発明のいくつかの実施形態によれば、基音バンドパス信号の周波数を複数のバンドパス信号のうちの一つのバンドパス信号と比較することにより、基音バンドパス信号のエネルギー量を複数のバンドパス信号のうちの一つのバンドパス信号と比較することにより、及び/または基音バンドパス信号の時間的エンベロープと複数のバンドパス信号のうちの一つのバンドパス信号のエンベロープとの関連性を判断することによって、倍音バンドパス信号を識別してもよい。この方法において、倍音識別の間違いを最小限に抑えるために、一つまたはそれ以上の倍音基準を設定してもよい。
本発明に係るいくつかの実施形態は、複数のバンドパス信号からの基音バンドパス信号の決定と倍音バンドパス信号の識別とを反復的に行うことに関する。既に選択された基音バンドパス信号と既に識別された倍音バンドパス信号をサーチ範囲から排除してもよく、換言すれば、これらを、更なる基音バンドパス信号の決定または更なる倍音バンドパス信号の決定の際の考慮には入れなくてもよい。このようにして、複数のバンドパス信号のうちの各バンドパス信号は、基音バンドパス信号として(従って他の基音バンドパス信号とは独立して変更されてもよく)または倍音バンドパス信号として(従ってそれに関連する基音バンドパス信号に応じて変更されてもよい)。
本発明の別の実施形態は、エンベロープ形状決定部、フィルターバンク処理部、信号処理部、結合部、及びエンベロープ成形部を含むオーディオ信号変更装置を提供する。エンベロープ形状決定部は、時間領域入力オーディオ信号を示す周波数領域オーディオ信号に基づき、エンベロープ形状係数を決定するように構成されている。さらに、フィルターバンク処理部は、周波数領域オーディオ信号に基づき、サブバンド領域で複数のバンドパス信号を生成するように構成されている。信号処理部は、複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号を、所定の変更目標に基づき変更するように構成されている。さらに、結合器は、時間領域オーディオ信号を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部を合成するように構成されている。また、エンベロープ成形部は、成形されたオーディオ信号を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形するように、または、変形後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形するように、または、サブバンド領域バンドパス信号が信号処理部によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形するように構成されている。
周波数領域オーディオ信号が複数のサブバンド領域バンドパス信号に分けられる前に周波数領域オーディオ信号のエンベロープ形状係数を決定することにより、オーディオ信号のスペクトルコヒーレンスに関する情報が保持され、一つまたはそれ以上のサブバンド領域バンドパス信号が変更された後も、時間領域オーディオ信号のエンベロープ成形に使用され得る。このようにして、いくつかの(または一つの)サブバンド領域バンドパス信号のみが変更されるか、またはサブバンド領域バンドパス信号が互いに異なる方法で変更され、オーディオ信号のスペクトルコヒーレンスを損なう可能性があるにも関わらず、変更後のオーディオ信号のスペクトルコヒーレンスはより正確に保持できる。これにより、変更後のオーディオ信号の感覚的な質を大きく向上させることができる。
本発明に係るいくつかの実施形態は、複数のサブバンド領域バンドパス信号のうちの第2のサブバンド領域バンドパス信号を、第2の所定の変更目標に基づき変更するように構成された信号処理部に関する。前記所定の変更目標とこの第2の所定の変更目標とは異なるものである。バンドパス信号が別々に変更されるにも関わらず、バンドパス信号のそれぞれの変更後にエンベロープ成形を行うことにより、変更後のオーディオ信号のスペクトルコヒーレンスはより正確に保持できる。
オーディオ信号変更装置のブロック図である。 オーディオ信号変更装置のブロック図である。 オーディオ信号変更方法のフローチャートである。 倍音ロッキングを用いた変調ボコーダーの一部を示すブロック図である。 オーディオ信号変更方法のフローチャートである。 オーディオ信号変更装置のブロック図である。 オーディオ信号変更装置のブロック図である。 オーディオ信号変更装置のブロック図である。 オーディオ信号変更装置のブロック図である。 フィルターバンク処理部のブロック図である。 エンベロープ成形部のブロック図である。 エンベロープ成形を用いた変調解析の略図である。 エンベロープ成形を用いた変調解析の略図である。 オーディオ信号変更方法のフローチャートである。 オーディオ信号変更方法のフローチャートである。 変調解析の略図である。 変調解析の実施例の略図である。 変調合成の略図である。 変調ボコーダー成分の選択的な転置の略図である。 選択的ピッチ転置のための変調ボコーダー処理の主観的な品質評価のためのテストセットを生成する過程を示す略図である。 選択的ピッチ転置を処理するリスニングテストの絶対MUSHIRAスコアと95%の信頼区間を示す図である。 変調ボコーダーの条件によりMUSHIRAスコアが異なることと、選択的ピッチ転置を処理するリスニングテストの95%の信頼区間を示す図である。 DNA条件によりMUSHIRAスコアが異なることと、選択的ピッチ転置を処理するリスニングテストの95%の信頼区間を示す図である。
添付図面を参照しながら、本発明に係る実施形態を以下に説明する。
以下、同じまたは類似の機能特性を有する部品や機能ユニットには同じ参照符号が部分的に使用され、実施形態の説明での繰り返しを低減するために、一つの図面に関して行われるこれらの部品やユニットの説明が他の図面にも適用される。
選択的ピッチ転置とも呼ばれる選択的な周波数帯域変更は、例えばボコーダーまたは変調ボコーダーによって実現され得る。
マルチバンド変調分解(例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報)を参照)は、オーディオ信号を、(解析的)バンドパス信号の信号適応セットに分解し、バンドパス信号のそれぞれはさらに、正弦波搬送波と、その振幅変調(AM)と周波数変調(FM)とに分けられる。このバンドパスフィルターセットは、一方では全領域が切れ目なくカバーされ、他方ではフィルターが例えば総重心(COG)に合わせて並べられるように算出される。また、例えばERB基準(例えば、B.C.J.ムーア(Moore)とB.R.グラスバーグ(Glasberg)による「ツイッカーのラウドネスモデルの逆転」(Acta Acustica,第82巻、335〜345ページ、1996年)参照)のような感覚的基準に合うように、フィルターの帯域幅を選択することで人間の聴覚を考慮してもよい。
例えば、局所的COGは、その周波数域におけるスペクトルの寄与により、リスナーによって感知される中間周波数に相当する。さらに、中心が局所的COG位置にある帯域は、典型的な位相ボコーダーの影響に基づく位相ロッキング範囲に相当し得る(例えば、L.ラローシュ(Laroche)とM.ドルソン(Dolson)による「改良された位相ボコーダーによるオーディオのタイムスケール変更」(スピーチ及びオーディオ処理に関するIEEE議事録、第7巻、第3番、323〜332ページ、1999年)、またはC.デュクスバリー(Duxbury)、M.デビーズ(Davies)及びM.サンドラー(Sandler)による「過渡信号での位相ロッキングを用いた音楽的オーディオの改良タイムスケーリング」(第112回AES学会、2002年)参照)。バンドパス信号のエンベロープと影響位相ロッキングの従来の領域は、どちらもバンドパス信号の時間的エンベロープを保持する。これは本質的なものであるか、あるいは後者の場合、合成の間に局所的スペクトルの位相コヒーレンスを確実なものにすることによって達成される。推定局所的COGに相当する周波数の正弦波搬送波に関して、AMとFMのどちらもが、それぞれ解析バンドパス信号の振幅エンベロープとヘテロダイン位相に捉えられる。専用の合成方法により、搬送波周波数AM,FMから出力信号が提供される。
信号の搬送波信号への分解とそれに関連する変調部品の実施例1300のブロック図を図13に示す。図13において、マルチバンド成分(バンドパス信号)から一つの成分を抽出するためのシグナルフローが概略的に示されている。他の全ての成分も同様に得られる。まず、ブロードバンド入力信号xが、信号に適応して出力信号を生成するよう設計されたバンドパスフィルターに送られる。次に、式(1)に基づくヒルベルト変換により、解析信号が生成される。
Figure 0005592959
AM(振幅変調信号)はの振幅エンベロープによって与えられる。
Figure 0005592959
FM(周波数変調信号)は、各周波数ωcを有する固定の正弦波搬送波によって周波数変換処理された解析信号の位相導関数によって得られる。搬送波周波数は局所的COGの見積もりとして決定される。従って、FMは搬送波周波数fcにおけるIF(瞬間周波数)の変動として理解できる。
Figure 0005592959
局所的COGの見積もりとフロントエンドフィルターバンクの信号適応設計については、専門の出版物(例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「推定局所的重心に応じた、オーディオ信号スペクトルのための相互作用セグメンテーションアルゴリズム」(デジタルオーディオ効果(DAFx)第12回国際学会2009の会報)で説明されている。
実用的には、離散時間システムにおいて、図14に示すように、全ての成分に関して成分抽出が一緒に行われてもよい。この処理により、リアルタイムの計算が可能となる。ある時間ブロックの処理は、前のブロックのパラメータに依存しているだけである。従って、全体的な処理の遅延をできる限り抑えるために先読みが必要となるわけではない。この処理は、例えば75%の解析ブロック重複とそれぞれのウィンドウ処理後の信号ブロックに対する離散フーリエ変換の応用とにより、ブロックごとに計算が行われる。ウィンドウは、式(4)に基づく上部が平らなウィンドウである。これにより、次の50%重複を用いた変調合成に受け渡される中央のN/2個のサンプルは解析ウィンドウの裾野によって影響を受けないで済む。計算はより複雑化するが、正確性向上のために高次の重複を使用してもよい。
Figure 0005592959
スペクトル表示が与えられ、次に局所的COG位置に合わせた一組の信号適応スペクトルバンドパス重み付け関数が算出される。スペクトルに対するバンドパス重み付け処理を行った後、信号は時間領域に変換され、ヒルベルト変換により解析信号が導き出される。これら二つの処理ステップは、各バンドパス信号に関する片面IDFTの計算により効率的に組み合わせることができる。離散時間バンドパス信号が与えられ、式(3)によるIFの見積もりが、式(5)(*は複素共役を示す)で定義されるような位相差分により実施される。この式は位相の曖昧さと位相接続法の必要性を避けるので、便宜的に使用される。
Figure 0005592959
信号は、全ての成分の付加に基づき合成される。連続するブロックは、合成メカニズムによって制御される重複追加(OLA)により混ぜ合わされる。この成分結合によれば、成分が変調領域処理により実質的に変更されても、隣接するブロックの境界間の円滑な移行が確実になる。この合成は、前のブロックを考慮に入れるだけなので、リアルタイム処理が実現できる。合成は基本的に、現在のブロックの成分と前のブロックのそれぞれに相当する先行するものとの間のペアごとの組み合わせを行う。また、合成は、現在のブロックの絶対的成分位相を前のブロックのものに揃える。異なる時間ブロックを超えて適合するものがない成分に関しては、それぞれ、フェードインまたはフェードアウトが行われる。
一つの成分に関する処理過程を図15に示す。まず、FM信号が固定搬送波周波数に付加され、その結果生じた信号はOLA段階に送られ、続いて、そこからの出力が時間的に積分される。その結果生じた位相信号は正弦波振動子に送られる。AM信号は第2OLA段階で処理される。次に、その成分が出力信号に対してさらに別の寄与をもたらすように、振動子の出力はAM信号によって振幅変調される。最後のステップでは、出力信号yを得るために、全成分からの寄与が合計される。
図13,14は変調アナライザ1300を示している。変調アナライザ1300は、好ましくは、バンドパス信号を出力するバンドパスフィルター1320aを含む。ブロック1320bの出力はAM情報とFM情報を算出するために使用される。AM情報を算出するために、解析信号の振幅がブロック1320cによって算出される。解析信号ブロック1320bの出力は乗算器1320dに入力される。乗算器1320dは、他方の入力として、振動子1320eからの振動信号を受信し、振動子1320eはバンドパス1320aの実際の搬送波周波数fc1310によって制御される。そして、乗算器の出力の位相はブロック1320fで決定される。最終的にFM情報を得るために、ブロック1320gで瞬間位相が微分される。さらに、図14は、オーディオ信号のDFTスペクトルを生成するプリプロセッサ1410を示している。
マルチバンド変調分解は、オーディオ信号を適応可能な一組の(解析)バンドパス信号に分解し、それぞれのバンドパス信号は、さらに正弦波搬送波と、その振幅変調(AM)と周波数変調(FM)に分けられる。バンドパスフィルターセットは、一方では全帯域スペクトルが切れ目なくカバーされるように、また他方ではフィルターがそれぞれ局所的COGに沿って並べられるように算出される。また、例えばERB基準のような感覚的基準に合うようにフィルターの帯域を選択することによって、人間の聴覚が考慮に入れられる(B.C.J.ムーア(Moore)とB.R.グラスバーグ(Glasberg)による「ツイッカーのラウドネスモデルの逆転」(Acta Acustica,第82巻、335〜345ページ、1996年)参照)。
局所的COGは、その周波数領域へのスペクトルの寄与により、リスナーによって知覚される中心周波数に一致する。さらに、中心が局所的COGにある帯域は、典型的な位相ボコーダーの影響に基づく位相ロッキング範囲に相当し得る(例えば、L.ラローシュ(Laroche)とM.ドルソン(Dolson)による「改良された位相ボコーダーによるオーディオのタイムスケール変更」(スピーチ及びオーディオ処理に関するIEEE議事録、第7巻、第3番、323〜332ページ、1999年)、またはC.デュクスバリー(Duxbury)、M.デビーズ(Davies)及びM.サンドラー(Sandler)による「過渡信号での位相ロッキングを用いた音楽的オーディオの改良タイムスケーリング」(第112回AES学会、2002年)、A.リューベル(Robel)による「位相ボコーダーにおける過渡処理への新規なアプローチ」(デジタルオーディオ効果(DAFx)に関する国際学会の会報、344〜349ページ、2003年)、A.リューベル(Robel)による「位相ボコーダーにおける過渡の検知と保持」(国際コンピュータ音楽学会(ICMC’03)、247〜250ページ、2003年)参照)。バンドパス信号のエンベロープと影響位相ロッキングの従来の領域は、どちらもバンドパス信号の時間的エンベロープを保持する。これは本質的なものであるか、あるいは後者の場合、合成の間に局所的スペクトルの位相コヒーレンスを確実なものにすることによって達成される。推定局所的COGに相当する周波数の正弦波搬送波に関して、AMとFMのどちらもが、それぞれ解析バンドパス信号の振幅エンベロープとヘテロダイン位相に捉えられる。専用の合成方法により、搬送波周波数AM,FMから出力信号が提供される。
信号から搬送波信号への分解とこれに関する変調部品のブロック図を図12に示す。この図は、一つの成分の抽出のためのシグナルフローの略図である。他の全ての成分も同様に得られる。実際、抽出は全ての成分に関してブロックごとに一緒に行われ、例えば48kHzのサンプリング周波数と75%の解析重複でN=214のブロックサイズで(つまり、大体340msの時間間隔と85msの幅で)、ウィンドウ処理後のそれぞれのブロックに対する離散フーリエ変換(DFT)の応用により行われる。ウィンドウは式(a)に基づく「上部が平らな」ウィンドウであってもよい。これにより、次の変調合成に受け渡される中央のN/2個のサンプルは解析ウィンドウの傾きによって影響を受けないで済む。計算はより複雑化するが、正確性向上のために高次の重複を使用してもよい。
Figure 0005592959
スペクトル表示が与えられ、次に局所的COG位置に合わせた一組の信号適応スペクトルバンドパス重み付け関数が(搬送波周波数の概算または多重搬送波COG周波数の概算に関して、搬送波周波数決定部1330によって)算出される。スペクトルに対するバンドパス重み付け処理を行った後、信号は時間領域に変換され、ヒルベルト変換により解析信号が導き出される。これら二つの処理ステップは、各バンドパス信号に関する片面IDFTの計算により効率的に組み合わせることができる。最後に、信号はさらに振幅エンベロープと瞬間周波数(IF)トラックに分解され、それらは位相導関数を算出することによって得られ、望ましいAM及びFM信号を出力する(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号処理のための振幅・周波数変調ボコーダー」(デジタルオーディオ効果(DAFx)国際学会2008の会報参照)。
図15は変更合成部1500を示し、オーディオ信号パラメータ化表示である。例えば、有利な実施は、変調領域、つまり時間領域バンドパス信号を生成する前の領域での重複計算(OLA)に基づくものである。入力信号はビットストリームであってもよく、またアナライザや変更子に直接接続されていてもよいものであるが、この入力信号はAM成分1502とFM成分1504と搬送波周波数成分1506とに分けられる。AM合成部は好ましくは重複加算器1510とさらに成分合成制御部1520とを含む。この成分合成制御部1520は、ブロック1510だけでなく、FM合成部内の重複加算器であるブロック1530をも含むことが好ましい。FM合成部はさらに、周波数重複加算器1530と瞬間周波数積分器1532と位相合成部1534とを含み、この位相合成部1534もまた、前のブロックからの一つの信号の位相が現在のブロックの位相に接続するように、ブロックからブロックへの定位相を再生するために成分合成制御部1520によって制御され得る一般的な加算器と移相器1536として実施されてもよい。従って、これらの部品1534,1536における位相加算は、アナライザ側の図13におけるブロック1520gでの微分の間に失われてしまった定数の再生に相当すると言える。感覚領域における情報損失の観点からは、これ、つまり、図13における微分部1320gによる定数部分の損失が唯一の情報損失である。この損失は、成分合成部1520によって決定される定位相を加算することによって補うことができる。
重複加算(OLA)は、隣接する時間ブロック間のうなり作用を避けるために、容易に合成された信号よりもむしろパラメータ領域に適用される。OLAはスペクトルの周辺(ERBスケールで測定した)によって導かれ、現在のブロックの成分と前のブロックのこれら成分に相当するものとのペアごとの組み合わせを行う成分合成メカニズムによって制御される。また、この合成は現在のブロックの絶対成分移相を前のブロックのものに合わせる。
詳しくは、まずFM信号が搬送波周波数に付加され、その結果はOLA段階に送られ、その後OLA段階の出力が積分される。その結果生じた位相信号は正弦波振動子1540に送られる。AM信号は第2OLA段階で処理される。最後に、その成分が出力信号1560へ付加的に寄与するように、振動子の出力が結果として生じたAM信号によって振幅変調される(1550)。
変調解析における信号の適切なスペクトル区分は、その後の変調パラメータ処理において説得力のある結果を得るために最も重要なことである。従って、ここで、適切な区分アルゴリズムを説明する。
図16は、多声キーモード変更のための適用例1600を示す。図16は変調ボコーダー素子の選択的な転置を示す。搬送波周波数は、適当なMIDI楽譜上にマッピングされるMIDI音符に量子化される。これらのマッピングされた成分をオリジナルと変更後の搬送波周波数との比で掛けることによって、相対的なFM変調が保たれる。
元の再生スピードを保ちながらオーディオ信号の転置を行うことは、困難な課題である。ここで提案するシステムを使用すれば、全ての搬送波成分に一定の係数を掛けることで、この課題を簡単に達成できる。入力信号の時間的構造は完全にAM信号によって捕えられているので、搬送波のスペクトル間隔の引き伸ばしに影響を受けることはない。
選択的な処理によって、もっと望ましい効果が得られる。一曲の音楽のキーモードを、例えばマイナーからメジャーにまたはその逆に変更可能である。従って、ある既定の周波数間隔に相当する搬送波の一部のみが適当な新しい値にマッピングされる。これを達成するために、搬送波周波数はMIDIピッチに量子化され(1670)、その後、(処理されるべき音楽のモードとキーの先験的な知識を使用して)適当な新しいMIDIピッチ上にマッピングされる(1672)。
そして、マッピングされたMIDI音符は、合成に使用される変調搬送波周波数を得るために、元に戻すように変換される(1574)。時間的特徴は主に変更されていないAMによって表され保持されているので、一つのMIDI音符の発現と消失だけを検知するための専用素子は必要ではない。任意のマッピング表が規定され、これにより他のマイナーの趣(例えばハーモニックマイナー)からのまたはそれへの変換が可能となる。
オーディオ効果の分野への応用は、オーディオ信号の全体的な転置である。このオーディオ効果に必要な処理は、搬送波を一定の転置係数で掛けることだけである。さらにFM信号をも同じ係数で掛けることにより、各成分において、相対的なFM変調度が確実に保持される。入力信号の時間的構造は完全にAM信号によって捕えられているので、この処理によって影響を受けることはない。全体的な転置は、元のテンポを保ちながら、音楽信号の元のキーを目標とするキーに(例えばCメジャーからGメジャーへ)変更する。
しかし、ここで提案する変調解析は信号適応性を有するので、変調ボコーダーはこの課題以上のことを行う可能性がある。今や、倍音音楽の選択された成分の転置でさえ実現可能となり、例えば与えられた音楽信号のキーモードを変更する(例えばCメジャーからCマイナーへ)ための応用が可能となる(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報参照)。これは、各成分搬送波がそのスペクトル領域での知覚されるピッチに密接に対応しているという事実により、可能である。あるオリジナルのピッチに関連する搬送波だけを新しく目標とする値に置き換えることで、キーモードによって決定される全体的な音楽的特徴を操作できる。
前述したように、MODVOC成分に関する必要な処理が図16に示されている。MODVOC解析領域内において、搬送波周波数はMIDI音符に量子化され、それらはその後相当するMIDI楽譜上にマッピングされる。ミディのピッチと音符名の意味のある配置転換のためには、オリジナルの音楽のモードとキーの先験的知識が必要となる場合がある。いかなるAMもピッチ情報をまったく含まないので、いかなる成分のAMも全く影響を及ぼさない。
特に、成分の搬送波周波数fはその成分のピッチを表しているが、式(6)に基づき、MIDIピッチ値mに変換される。式(6)において、fstdはMIDIピッチ69、音符A0に相当する標準ピッチを示す。
Figure 0005592959
続いて、MIDIピッチはMIDI音符n(f)に量子化され、さらに、各音符のピッチの補正値o(f)が決定される。キーとオリジナルのモードと目標とするモードに応じたMIDI音符マッピング表を使用することで、これらのMIDI音符は適切な目標とする値n’に変換される。下記表に、Cのキーをメジャーからナチュラルマイナーに変換するためのマッピングの典型例を示す。この表は、CメジャーからCナチュラルマイナーへのスケールモード変換のためのMIDI音符マッピング表である。このマッピングは全オクターブの音符に適用される。
Figure 0005592959
最後に、合成(式7)に使用される変更後の搬送波周波数を得るために、ピッチ補正値を含むマッピングされたMIDI音符は周波数f’に戻るように変換される。また、相対的なFM変調度を保つために、マッピングされた成分のFMに、オリジナルと変更後の搬送波周波数の比として得られる個々のピッチ転置係数を掛ける。時間的特徴は主に変更されていないAMによって表され保持されているので、一つのMIDI音符の発現と消失だけを検知するための専用素子は必要ではない。
上述した変調ボコーダーは、オーディオ信号の異なる周波数領域(バンドパス信号)を別々に変更するための一つの可能性であり、選択的なピッチ転置として説明した。本発明の概念により、このような変更後のオーディオ信号の感覚的質を高めることが可能になる。本発明のいくつかの実施形態はボコーダーまたは変調ボコーダーに関して説明しているが、本発明は、ボコーダーの使用とは関係なく、変更後のオーディオ信号の感覚的質を向上させるために広く使用されてもよい。
図1は、本発明の一実施形態に係る、オーディオ信号102を変更するための装置100のブロック図である。装置100は、フィルターバンク処理部110、基音決定部120、倍音決定部130、信号処理部140、及び合成部150を含む。フィルターバンク処理部110は基音決定部120と倍音決定部130と信号処理部140とに接続され、基音決定部120は基音決定部120と倍音決定部130とに接続されている。さらに、倍音決定部130は信号処理部140に接続され、信号処理部140は合成部150に接続されている。フィルターバンク処理部110は、オーディオ信号102に基づき複数のバンドパス信号112を生成する。さらに、基音決定部120は、基音バンドパス信号122を得るために、複数のバンドパス信号から一つのバンドパス信号112を選択する。倍音決定部130は、選択された基音バンドパス信号122に関連する倍音バンドパス信号132を得るために、複数のバンドパス信号112のうちから、選択された基音バンドパス信号122に関する倍音基準を満たす一つのバンドパス信号を識別する。さらに、信号処理部140は、既定の変更目標に基づき、選択された基音バンドパス信号122を変更する。また、信号処理部140は、選択された基音バンドパス信号122の変更に応じて、選択された基音バンドパス信号122に関連して識別された倍音バンドパス信号132を変更する。合成部150は、変更後のオーディオ信号152を得るために、選択・変更された基音バンドパス信号と識別・変更された倍音バンドパス信号を含む複数のバンドパス信号を合成する。
基音バンドパス信号122と基音バンドパス信号122に関連して識別された倍音バンドパス信号132を同じように変更することにより(複数のバンドパス信号のうちの他のものは異なる方法で変更してもよいが)、これらの倍音の一般的なふるまいが保持され得る。これにより、オリジナルのオーディオ信号102の音色がより正確に保持され、変更後のオーディオ信号の感覚的質が大きく向上される。例えば、ほとんどの楽器は、一つの基本周波数とその倍音から成る調和した音を発生させる。基本周波数部分が変更される場合、上述した概念に基づく倍音同士の相関性のある変更が、変更後のオーディオ信号の感覚的質を非常に向上させる結果となり得る。さらに、全てのオーディオ信号に関する先験的情報(例えば全ての多声音楽のタイトル)を必ずしも必要とはしないので、オーディオ信号はリアルタイムで変更できる。
オーディオ信号102は、例えば時間領域入力オーディオ信号、または時間領域入力オーディオ信号を表す周波数領域入力オーディオ信号であってもよい。
基音決定部120は、選択された基音バンドパス信号122を変更のために信号処理部140に送ってもよいし、あるいは、信号処理部140に複数のバンドパス信号から選択されたバンドパス信号の既定の変更目標に応じた変更を開始させるように、トリガー信号122(例えば選択された基音バンドパス信号の指標i∈[0…I−1](Iは複数のバンドパス信号の個数))を送ってもよい。倍音決定部130もまた、識別された倍音バンドパス信号132を変更のために信号処理部140に送ってもよいし、あるいは、信号処理部140に複数のバンドパス信号から識別されたバンドパス信号の変更を開始させるように、トリガー信号132(例えば複数のバンドパス信号から倍音バンドパス信号として識別されたバンドパス信号の指標)を送ってもよい。
倍音基準は、基音の倍音を識別するための一つまたはそれ以上の規定を含んでいてもよい。複数のバンドパス信号から選択された基音バンドパス信号122の倍音として識別するのに満たされるべき倍音基準は一つまたはそれ以上存在し得る。
既定の変更目標は、異なる周波数域を含むバンドパス信号ごとに異なっていてもよいし、また、要求されているオーディオ信号102の変更に応じたものであってもよい。例えば、オーディオ信号の元のキーが目標のキーに変更される場合を考える。Cのキーをメジャーからナチュラルマイナーへ変更するために、上記表によるマッピングの典型例が挙げられた。例えば、複数のバンドパス信号のうちの一つのバンドパス信号の周波数域がオリジナルの音符Cに相当する場合、目標音符もまたCであり、このバンドパス信号は変更されない(変更された基音バンドパス信号に関連する倍音バンドパス信号であると認識される場合は除いて)。この場合、変更目標は、このバンドパス信号を変更しないままで保つことである。他方、複数のバンドパス信号のうち、オリジナルの音符Aと相関関係のある周波数域を含む一つのバンドパス信号は変更され、変更後のバンドパス信号は目標音符A♭と相関関係のある周波数域を含み得る(この場合を除いて、バンドパス信号は、別の変更目標に応じて変更されるべき基音バンドパス信号の倍音バンドパス信号として認識される)。さらに、識別された倍音バンドパス信号(オリジナルの音符Aの倍音と相関関係のある周波数域を含むバンドパス信号)は、変更後の倍音バンドパス信号が目標音符A♭の倍音と相関関係のある周波数域を含むように変更され得る。
複数のバンドパス信号112の全てが搬送波周波数を含んでいてもよい。搬送波周波数は、例えばバンドパス信号の周波数域の中心周波数、周波数域の上部カットオフ周波数、周波数域の下部カットオフ周波数または周波数域の重心として一つのバンドパス信号によって表されるかまたはバンドパス信号に含まれる周波数域の特性周波数であってもよい。バンドパス信号の搬送波周波数は、バンドパス信号ごとに互いに異なっていてもよい。これらの搬送波周波数は、倍音バンドパス信号を識別するために倍音決定部130によって使用されてもよい。例えば、倍音決定部130は、複数のバンドパス信号のうちの一つのバンドパス信号112の搬送波周波数を、選択された基音バンドパス信号122の搬送波周波数と比較してもよい。倍音は基音の周波数の大体倍数であるので、あるバンドパス信号112の搬送波周波数が選択された基音バンドパス信号122の倍数であるならば(例えば100Hz、50Hz、20Hzまたはそれ以下の既定の搬送波周波数の許容範囲で)、倍音基準が満たされていることになる。換言すれば、倍音基準は、例えば、バンドパス信号112の搬送波周波数が既定の搬送波周波数の許容範囲内で選択された基音バンドパス信号122の倍数であることであってもよい。
倍音決定部130は付加的にまたは選択的に、複数のうちの一つのバンドパス信号112のエネルギー量を、選択された基音バンドパス信号122のエネルギー量と比較してもよい。この例では、バンドパス信号112のエネルギー量の選択された基音バンドパス信号122のエネルギー量に対する比が規定のエネルギー許容範囲内であるならば、倍音基準が満たされたことになる。この倍音基準は、倍音は通常基音よりも低いエネルギーを示すことを考慮に入れている。既定のエネルギー許容範囲は、例えば0.3〜0.9、0.5〜0.8、0.6〜0.7または他の範囲であってもよい。このエネルギー量に基づく倍音基準と、上述の搬送波周波数に基づく倍音基準とを組み合わせてもよい。
倍音決定部130は付加的にまたは選択的に、複数のうちの一つのバンドパス信号112の時間的エンベロープと、選択された基音バンドパス信号122の時間的エンベロープとの相関関係を示す相関値を算出してもよい。この場合、この相関値が既定の相関閾値よりも高ければ、倍音基準を満たしていることになる。この倍音基準は、基音とその倍音は類似の時間的エンベロープを共有しているという事実を考慮するものである。既定の相関閾値は、例えば0.2、0.3、0.4またはそれ以上であってもよい。このような相関関係による倍音基準は、前述の搬送周波数による倍音基準及び/またはエネルギー量による倍音基準と組み合わせてもよい。
基音決定部120は、既に選択された基音バンドパス信号122と既に識別された倍音バンドパス信号132を全く考慮することなく、複数のバンドパス信号からさらに別のバンドパス信号112を選択してもよい。つまり、基音決定部120は、まだ基音バンドパス信号として選択されてもいないし倍音バンドパス信号132として識別されてもいないバンドパス信号を含む一組のバンドパス信号から、基音バンドパス信号を繰り返し洗濯してもよい。複数のバンドパス信号のうちの全てのバンドパス信号が、基音バンドパス信号として選択されるか、またはある基音バンドパス信号の倍音として識別されるまで、これが行われてもよい。それ故に、倍音決定部130は、既に識別された倍音バンドパス信号132と既に選択された基音バンドパス信号122を全く考慮することなく、前記さらに選択された基音バンドパス信号に関する倍音基準を満たすバンドパス信号112を複数のバンドパス信号から識別してもよい。
さらに、信号処理部140は、前記さらに別の基音バンドパス信号122を、別の所定の変更目標に基づき、また他の全ての選択された基音バンドパス信号からは独立して変更してもよい。つまり、各基音バンドパス信号またはいくつかの選択された基音バンドパス信号に関して、別々の変更目標が設定されていてもよい。例えば、変更目標は、前述のような一つのキー音符から別のものへの変換を示す表によって規定されていてもよい。基音バンドパス信号は互いに独立して変更できるので、例えば、ある楽器の基音と倍音のみが選択的に、この楽器のキーモードまたは音量を変えるように変更されてもよい。
基音決定部120は、バンドパス信号112をエネルギー基準に基づき選択してもよい。例えば、最大エネルギー量またはいくつかの最大エネルギー量のうちの一つを有する(例えば、他のバンドパス信号と比べて70%以上高い)バンドパス信号が選択されてもよい。この例では、選択されるべき基音バンドパス信号のエネルギー量を示すエネルギー量パラメータを0に設定することで、既に選択した基音バンドパス信号をその後の選択から排除することができる。バンドパス信号の選択に関して、感覚的に重要なバンドパス信号の選択を強調するために、各バンドパス信号のエネルギー量(例えば基音決定部によって決定されたエネルギー量パラメータによって示される)が重み付け(例えばA重み付け)されてもよい。
信号処理部140は、選択された基音バンドパス信号132とそれに関連する倍音バンドパス信号132を、多様な方法で変更できる。例えば、信号処理部140は、選択された基音バンドパス信号122の搬送波周波数を転置係数(例えばキーモード変換に応じたもの)で掛けることで、あるいは選択された基音バンドパス信号122の搬送波周波数に転置周波数を加算することで、選択された基音バンドパス信号122を変更してもよい。さらに、信号処理部140は、識別された倍音バンドパス信号132の搬送波周波数を転置係数(例えば20%、10%、5%、1%またはそれ以下の許容範囲を有するもの)で掛けることで、あるいは識別された倍音バンドパス信号132の搬送波周波数に転置周波数の倍数(例えば20%、10%、5%、1%またはそれ以下の許容範囲を有するもの)を加算することで、識別された倍音バンドパス信号132を変更してもよい。換言すれば、例えば、基音とそれに関連する倍音を同じ転置係数で掛けることで、あるいは基音に転置周波数を加算し、その倍音にその転置周波数の倍数を加算することで、キーモード変換が達成され得る。このようにして、識別された倍音バンドパス信号132は、選択された基音バンドパス信号122に応じて(基音バンドパス信号122と同じ方法で)変更される。
図2は、本発明の一実施形態に係る、オーディオ信号102を変更するための装置200のブロック図である。この装置200は図1に示した装置と同様のものであるが、搬送波周波数決定部260をさらに含むものである。また、フィルターバンク処理部110は、フィルターバンク212と信号変換器214とを含んでいる。フィルターバンク212は信号変換器214に接続され、信号変換器214は信号処理部140に接続されている。この任意の搬送周波数決定部260は、フィルターバンク処理部110のフィルターバンク212と信号処理部140とに接続されている。
フィルターバンク212はオーディオ信号102に基づきバンドパス信号を生成してもよく、信号変換器214は、基音決定部120、倍音決定部130及び信号処理部140に送るべき複数のバンドパス信号を得るために、この生成されたバンドパス信号をサブバンド領域に変換してもよい。信号変換器214は、例えば片側逆転離散フーリエ変換ユニットとして実施してもよく、これにより複数のバンドパス信号122のうちのそれぞれが解析信号を示すことになる。このサブバンド領域において、基音決定部120は、基音バンドパス信号122を得るために、複数のバンドパス信号からこれらのサブバンド領域バンドパス信号のうちの一つを選択してもよい。さらに、倍音決定部130は、複数のバンドパス信号からこれらのサブバンド領域バンドパス信号のうちの一つを識別してもよい。
さらに、搬送波周波数決定部260はオーディオ信号102に基づき複数の搬送波周波数を決定してもよく、フィルターバンク処理部110のフィルターバンク212はバンドパス信号を生成してもよい。そして、複数の搬送波周波数のそれぞれ262に関連するバンドパス信号を得るために、各バンドパス信号は複数の搬送波周波数のうちの別の搬送波周波数262を含む周波数域を含む。つまり、フィルターバンク212によって生成されたバンドパス信号の帯域幅と中心周波数は搬送波周波数決定部260によって制御されてもよい。これは多様な方法で行うことができ、例えば、前述のように、オーディオ信号102の重心(COG)を算出することにより行ってもよい。
既に述べたように、バンドパス信号112は様々な方法で変更可能である。例えば、信号処理部140は、複数のバンドパス信号の各バンドパス信号112に関して振幅変調信号(AM)と周波数変調信号(FM)を生成してもよい。各バンドパス信号はサブバンド領域の解析信号であるので、信号処理部140は、例えば変調ボコーダーに関連して、前述のような振幅変調信号と周波数変調信号を生成してもよい。さらに、信号処理部140は、選択された基音バンドパス信号122の振幅変調信号または周波数変調信号を既定の変更目標に基づき変更してもよく、また識別された倍音バンドパス信号132の振幅変調信号または周波数変調信号を基音バンドパス信号122の変更に応じて変更してもよい。
フィルターバンク処理部110、基音決定部120、倍音決定部130、信号処理部140、結合部150及び/または周波数決定部260は、例えば、それぞれ個別のハードウェアユニットあるいはデジタル信号処理装置、コンピュータまたはマイクロコントローラの一部であってもよく、またデジタル信号処理装置、コンピュータまたはマイクロコントローラ上で動作するよう構成されたコンピュータプログラムまたはソフトウェア製品の一部であってもよい。
本発明に係るいくつかの実施形態は、本発明に係るオーディオ信号変更方法300に関するものである。この方法300は、基音バンドパス信号を得るために、オーディオ信号に基づき複数のバンドパス信号を生成すること310と、複数のバンドパス信号から一つのバンドパス信号を選択すること320とを含んでいてもよい。さらに、方法300は、選択された基音バンドパス信号122に関連する倍音バンドパス信号を得るために、複数のバンドパス信号から、選択された基音バンドパス信号に関する倍音基準を満たす一つのバンドパス信号を識別すること330を含んでいてもよい。さらに、選択された基音バンドパス信号は既定の変更目標に基づき変更され(340)、識別された倍音バンドパス信号は、前記選択された基音バンドパス信号の変更に応じて変更される(350)。さらに、方法300は、変更後のオーディオ信号を得るために、選択及び変更された基音バンドパス信号と識別及び変更された倍音バンドパス信号とを含む複数のバンドパス信号を結合すること360を含んでいてもよい。
方法300は、上述のまたは以下に説明する本発明の概念の任意の特徴を表す付加的なステップをさらに含んでいてもよい。
以下に、変調ボコーダーを使用した実施例を挙げて上述の概念を詳細に説明するが、ここで提案する概念はもっと一般的に他の実施形態にも使用できる。
ほとんどの楽器は、基音周波数部分と、その基音周波数の約整数倍である倍音とから成る調和音を発生させる。音程は対数尺度に従うので、それぞれの倍音は異なる音程と基音(及びそのオクターブ)に関して共通点がある。下記の表は、最初の7つの倍音に関して倍音番号と音程の対応を示している。
下記の表に、基音とそのオクターブに関する倍音番号と音程を示す。
Figure 0005592959
課題が多声音楽の選択的な転置である場合、MODVOC成分の音楽的機能に関して特有の曖昧さが存在する。その成分が基音に由来する場合、望ましいスケールマッピングに応じて転置されなければならず、それが基音に起因する倍音によって特徴付けられている場合、その音の音色を最良に保持するためにはこの基音と共に転置されなければならない。このことから、最適な転置係数を選択するために、それぞれのMODVOC成分(バンドパス信号)を割り当てる必要性が出てくる。
これを達成するために、上述した簡単な処理方法が倍音ロッキング機能によって拡大された。倍音ロッキングは、全ての成分に関して、転置の前に、各成分(バンドパス信号)が基音に起因するものであるかまたは独立した構成要素と見なすべきものであるかについて調べる。これは反復的なアルゴリズムによって行われる。このアルゴリズムのフローチャートを図5に示す。このアルゴリズムは、510において、一つのテスト成分t(基音バンドパス信号)のiE[0…I−1]/t(Iは成分の総数(複数のバンドパス信号の数)を示す)で示される他の全ての成分(バンドパス信号)に対する周波数比、エネルギー比及びエンベロープの相互相関を評価する。反復の間の520において、一連のテスト成分(基音バンドパス信号)は、評価順序がエネルギーが小さくなっていく順番になるように、A重み付けされたエネルギーによって決定される。A重み付け(米国規格協会「アンシ規格 sl.4−1983」1983年)、(米国規格協会「アンシ規格 sl.42−2001」2001年)は、音量に関して各成分の感覚的な隆起を具現化するために応用される(例えば、H.フレッチャー(Fletcher)とW.A.マンソン(Munson)による「音量、その定義、測定及び算出」米国音響教会、第5巻、82~108ページ、1933年参照)。
倍音搬送波周波数の一致、倍音搬送波周波数の不一致、成分のエネルギー及び/またはゼロ遅延での正規化振幅エンベロープ相関関係が閾値化によって調べられてもよい。
周波数の一致及び不一致は以下の式(8)に基づき規定されてもよい。式(8)において、ftはテスト成分の搬送波周波数(選択された基音バンドパス信号の搬送波周波数)、fiは指標iの成分(複数のバンドパス信号のうちの一つ)である。周波数の一致に関して、1よりも大きいすべての倍数が潜在的な倍音である。潜在的な倍音として許容される周波数の不一致のための適切な閾値(搬送波周波数閾値)は例えば22Hzである。
Figure 0005592959
A重み付けされた成分の倍音の基音に対するエネルギー比(式(9))は、ほとんどの楽器に関して、倍音は基音よりも低いエネルギーを有するという事実を反映して、所定の閾値よりも小さいことを必要条件としてもよい。適切な閾値(エネルギー許容範囲)は、例えば比で0.6である。
Figure 0005592959
テスト成分のエンベロープenvtと指標iの成分のエンベロープenviとの正規化ゼロ遅延振幅エンベロープ相関関係は式(10)によって定義される。この方策は、一つの基音とその倍音は、M以内のブロック長でかなり類似の時間的エンベロープを共有しているという事実を利用するものである。適切な閾値(相関閾値)は、非公式の実験によって0.4と決定された。
Figure 0005592959
調査の結果、570で全ての閾値条件を満たした全ての成分iは、580で、そのテスト成分に関して倍音として分類され、その後調査から除外される。次に、そのテスト成分も、542でそのエネルギーを0に設定することにより、その後の反復処理から除外される。このアルゴリズムは、全ての成分が割り当てられるまで、つまり、最大の成分エネルギーがゼロで示されるようになるまで繰り返される。
図4は、倍音ロッキングを含むMODVOCによる選択的転置の改良処理スキームを示す。図16とは対照的に、ロックされた成分が第2段階でそれらが帰属する基音に用いられたのと同じ転置係数で変更されている間に、ロックされていない成分だけが転置段階に入ってくる。
つまり、図5は上述の倍音ロッキング(オーディオ信号変更方法500)のフローチャートを示している。テスト基音(選択された基音バンドパス信号)の倍音の条件に一致する成分が繰り返し分類され、サーチ範囲から除かれる。このために、複数のバンドパス信号のそれぞれは搬送波周波数とエネルギー量と時間的エンベロープを持っているか、あるいは510で、複数のバンドパス信号のそれぞれに関して、搬送波周波数、エネルギー量及び/または時間的エンベロープ(時間的エンベロープパラメータ)が決定される。さらに、各バンドパス信号のエネルギー量(エネルギー量パラメータ)は520でA重み付けされる。そして530で、最大エネルギー(最大エネルギー量パラメータ)を有する基音バンドパス信号(テスト基音ft)が選択される。既に選択された基音バンドパス信号は全て0にセットされ、既に識別された倍音バンドパス信号は全てサーチ範囲から除外されているので、選択された基音バンドパス信号は0に等しいエネルギー量パラメータを有している可能性があり、この時点でこの反復的なアルゴリズムは終了する(540)。そうでなければ、560で、選択された基音バンドパス信号と複数のバンドパス信号のうちの残りのものとの周波数の一致(または不一致)、エネルギー量及び/または時間的エンベロープの相関関係を比較する。570で一つまたはいくつかあるいは全ての条件(倍音基準)が満たされた場合、580で、それら各々のバンドパス信号は倍音バンドパス信号として識別され、この識別された倍音バンドパス信号をサーチ範囲から除外すると共に、倍音ロッキングデータを生成してもよい(例えば、倍音リストに識別されたバンドパス信号の指標を記録する)。この倍音ロッキングデータは、590で、選択された基音バンドパス信号と関連して保存されてもよい。選択された基音バンドパス信号の全ての倍音バンドパス信号を識別した後、592で、選択された基音バンドパス信号のエネルギー(エネルギー量パラメータ)を0にセットし、530で、次の基音バンドパス信号として最大エネルギーを有するものを選択する。
信号処理部は、バンドパス信号の変更のために倍音ロッキングデータを使用してもよい。可能な実施例を図4に示す。この例では、例えば、信号処理部はMIDIマッパー1600と倍音変更器400を含む。MIDIマッパー1600は、それぞれの選択された基音バンドパス信号の搬送波周波数を、個々の変更目標に応じて変更する(基音が変更されない場合も含み得る)。MIDIマッパー1600は、例えば図16に示すように実施されてもよい。倍音変更器400は倍音変更コントローラ410、倍音乗算器420及び倍音変更供給器430を含んでいてもよい。倍音変更コントローラ410は倍音乗算器420と倍音変更供給器430とに接続されていてもよく、倍音乗算器420は倍音変更供給器430に接続されていてもよい。倍音乗算器420は、識別された倍音バンドパス信号の搬送波周波数fに、関連する基音バンドパス信号に掛けられたものと同じ転置係数(前述の許容範囲を有する)を掛けてもよく、倍音変更供給器430に変更後の搬送波周波数f’を送る。倍音変更器400が識別された倍音バンドパス信号の搬送波周波数を認識した場合(例えば倍音ロッキングデータに基づき)、倍音変更コントローラ410は倍音変更供給器430に対して、識別された倍音バンドパス信号の変更後の搬送波周波数を供給するよう始動させてもよい。そうでなければ、倍音変更供給器430はMIDIマッパー1600の出力を供給してもよい。さらに、図4はここで提案する概念のボコーダーでの実施を示し、バンドパス信号の搬送波周波数に加えて、それに対応する周波数変調(FM)信号も、変更前の搬送波周波数と変更後の搬送波周波数との比で掛けられることで変更される。周波数変調の代わりにまたは周波数変調に加えて、オーディオ信号の音量がバンドパス信号選択的に変更されてもよい。このために、バンドパス信号の振幅変調(AM)信号が変更されてもよい。
つまり、図4は、倍音ロッキングを使用した(識別された倍音バンドパス信号をそれに関連する基音バンドパス信号の変更に応じて変更する)変調ボコーダー成分(バンドパス信号)の改良された選択的転置を示すものである。ロックされていない搬送波周波数(基音バンドパス信号であり得る)のみがMIDI音符に量子化され、適切な対応するMIDI楽譜上にマッピングされる(それぞれの変更目標に応じて)。ロックされた成分(識別された倍音バンドパス信号)は、帰属の基音(関連する基音バンドパス信号)の元の搬送波周波数と変更後の搬送波周波数との比で掛けることによって転置されてもよい。
図6Aは、本発明の一実施形態に係るオーディオ信号変更装置600のブロック図である。この装置600は、エンベロープ形状決定部610、フィルターバンク処理部620、信号処理部630、結合部640及びエンベロープ成形部650を含む。エンベロープ形状決定部610はエンベロープ成形部650に接続され、フィルターバンク処理部620は信号処理部630に接続され、信号処理部630は結合部640に接続され、結合部640はエンベロープ成形部650に接続されている。エンベロープ形状決定部610は、時間領域入力オーディオ信号を表す周波数領域オーディオ信号602に基づき、エンベロープ形状係数612を決定する。さらに、フィルターバンク処理部620は、周波数領域オーディオ信号602に基づき、サブバンド領域の複数のバンドパス信号622を生成する。信号処理部630は、所定の変更目標に基づき、複数のサブバンド領域バンドパス信号のうちの一つ622を変更する。さらに、結合部640は、時間領域オーディオ信号642を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部(例えば変更後のサブバンド領域バンドパス信号を含む)を結合する。エンベロープ成形部650は、成形されたオーディオ信号652を得るために、時間領域オーディオ信号642のエンベロープをエンベロープ形状係数612に基づき成形する。
あるいは、エンベロープ成形部650は、信号処理部630と結合部640の間に配置されていてもよく(信号処理部630はエンベロープ成形部650に接続され、エンベロープ成形部650は結合部640に接続される)、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープを、エンベロープ形状係数612に基づき成形してもよい。
オーディオ信号を処理する前にエンベロープ形状係数612を抽出し、一つまたはそれ以上のバンドパス信号を変更した後にそのエンベロープ形状係数612を使用してオーディオ信号のエンベロープを成形することにより、違う方法で変更されたバンドパス信号のスペクトルのコヒーレンスがより正確に保たれ得る。さらに、過渡信号に関して、時間とともに広がる量子化ノイズもエンベロープ成形部650によって成形し得る。このようにして、変更後のオーディオ信号の感覚的質をかなり向上することができる。さらに、オーディオ信号全体に関する先験的な情報(例えば多声音楽の全体のタイトル)は必要ではないので、オーディオ信号のリアルタイムの変更が可能である。
また別の方法として、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620の間に配置されてもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
オーディオ信号を処理する前にエンベロープ形状係数612を抽出し、フィルターバンク処理部620によって複数のバンドパス信号622がサブバンド領域で生成された後にそのエンベロープ形状係数612を使用してその複数のバンドパス信号622のエンベロープを成形することにより、適応フィルターバンクが実現でき、特に過渡信号に関して局所的なコヒーレンスを向上させることができる(例えば、J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「感覚的高品質オーディオコーディングのための断続的信号適応フィルターバンク」(信号処理のオーディオ及び音響への応用に関するIEEEのASSPワークショップ、モーホンク、1997年)を参照)。この場合、変更後の信号(変更後のバンドパス信号)が成形されるのではなく、変更の前に、生成されたバンドパス信号の質が過渡信号の再生という点で向上され得る。
周波数領域オーディオ信号602は、例えば、時間領域入力信号に基づき(例えば離散フーリエ変換によって)周波数領域オーディオ信号602を生成する前処理部から与えられてもよいし、記憶ユニットから与えられてもよい。エンベロープ形状決定部10によって決定されるエンベロープ形状係数612は、例えば、線形予測係数であるかまたは周波数領域オーディオ信号602のスペクトルをパラメータ化する他の係数であってもよい。
信号処理部630は、複数のサブバンド領域バンドパス信号のうちの一つ、一部または全部の信号622を変更可能である。所定の変更目標は、例えば全部のサブバンド領域バンドパス信号に対する場合と一部のサブバンド領域バンドパス信号に対する場合とで異なる。例えば、オーディオ信号のキーモードを変換するためのサブバンド領域バンドパス信号の所定の変更目標は、上記の表を参照して前述したようなものであってもよい。
周波数領域オーディオ信号602は、例えばフーリエ変換で得られるスペクトル線を含んでいてもよい。周波数領域オーディオ信号のスペクトル線(バンドパス信号とみなすこともできる)とフィルターバンク処理部620によって生成されるバンドパス信号との違いは、周波数領域オーディオ信号のスペクトル線は、フィルターバンク処理部620によって生成されるサブバンド領域バンドパス信号によって表される帯域幅よりも狭い帯域幅を表すということである。例えば、周波数領域オーディオ信号602は離散フーリエ変換によって得られる周波数スペクトルを示しているが、それはフィルターバンク処理部620によって複数のバンドパス信号に分解される。そして、この複数のバンドパス信号の信号数(例えば10、16、20またはそれ以上)は、周波数スペクトルのスペクトル値の個数またはスペクトル線の個数(例えば512個またはそれ以上の個数のスペクトル値)よりも非常に少ない。
エンベロープ形状決定部610は周波数領域オーディオ信号602の周波数に関する予測に基づきエンベロープ形状係数を決定するが、これは例えば前述したような線形予測係数の決定により実行されてもよい。
フィルターバンク処理部620は複数のバンドパス信号を出力するが、これらの各バンドパス信号622は周波数領域オーディオ信号602の特定の周波数領域を表すものであってもよい。あるいは、図7に示すように、フィルターバンク処理部620は、予測フィルター710と信号減算器720とフィルターバンク730とを含み、残余オーディオ信号722に基づき複数のバンドパス信号622を得るためのものであってもよい。このために、予測フィルター710は周波数領域オーディオ信号602とエンベロープ形状係数612に基づき予測オーディオ信号712を生成してもよい。さらに、信号減算器720は周波数領域オーディオ信号602から予測オーディオ信号712を差し引いて残余オーディオ信号722を得てもよい。複数のバンドパス信号を得るために、この残余オーディオ信号722は、フィルターバンク730がバンドパス信号を生成するのに使用されてもよい。
さらに、フィルターバンク処理部620は任意の信号変換器を含んでいてもよい。この信号変換器(例えば片側逆転離散フーリエ変換器)は、複数のバンドパス信号622を得るために、フィルターバンク730によって生成されたバンドパス信号をサブバンド領域に変換してもよい。あるいは、この信号変換器は信号処理部630の一部であってもよい。
本発明に係るいくつかの実施形態において、変更後のオーディオ信号の低周波部分でのアーチファクト生成を避けるために、入力オーディオ信号の低周波部分を変更から除外してもよい。このために、オーディオ信号変更装置680は、例えば図6Bに示すように、高域/低域フィルターを含んでいてもよい。高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域フィルタリングし、そして、エンベロープ形状決定部610は高域周波数領域オーディオ信号602に基づきエンベロープ形状係数612を決定し、フィルターバンク処理部620は高域周波数領域オーディオ信号602に基づきサブバンド領域の複数のバンドパス信号を生成する。さらに、高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を低域フィルタリングし、低域オーディオ信号662を得る。さらに、装置680は、フルバンドオーディオ信号を得るために、成形されたオーディオ信号652と低域オーディオ信号662を結合するように構成されたフルバンド信号供給器670を備えている。つまり、高域/低域フィルター660は、時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域オーディオ信号と低域オーディオ信号とに分けるものであってもよい。高域オーディオ信号あるいは高域オーディオ信号の周波数領域表示が、エンベロープ形状決定部610及びフィルターバンク処理部620に与えられてもよい。これは、高域/低域フィルタリングが時間領域で実施され、続いて信号処理部が高域オーディオ信号に基づき周波数領域オーディオ信号を生成するのか、あるいは高域/低域フィルターが時間領域入力信号を表す周波数領域オーディオ信号を既に受信して、高域/低域フィルタリングを周波数領域で実施するのかによって、決定される。
高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号をフィルタリングし、その結果、低域オーディオ信号は所定の閾値周波数(例えば100Hzまたはそれ以上)までの周波数を含むことになる。従って、高域オーディオ信号は閾値周波数以上の周波数を含む。つまり、低域オーディオ信号662を供給するためには、所定の閾値周波数よりも高い周波数が高域/低域フィルター660によって減衰され、高域オーディオ信号を供給するためには、所定の閾値周波数よりも低い周波数が高域/低域フィルター660によって減衰され得る。
別の例においては、図6Cに示すように、エンベロープ成形部650が信号処理部630と結合部640の間に配置されている。この場合、高域/低域フィルター660は低域オーディオ信号を結合部640に送る。結合部640は、時間領域入力信号642を得るために、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号を結合する。この場合、エンベロープ成形部650は、(例えば各サブバンド領域バンドパス信号の一部である周波数域に相当する)各サブバンド領域バンドパス信号に関して、エンベロープ形状係数612に基づき(例えば係数変換器810によって)一組のバンドパスエンベロープ形状係数を決定してもよい。そして、例えば、サブバンド領域バンドパス信号の各時間サンプルに、対応する一組のエンベロープ形状係数のうちの一つのバンドパスエンベロープ形状係数を掛けることができる。例えば図15に示すボコーダーの例において、エンベロープ成形部650は乗算器1550と結合部1560との間に配置してもよい。
さらに別の例において、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620との間に配置してもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
本発明に係るいくつかの実施形態において、変更後のオーディオ信号の低周波部分でのアーチファクト生成を避けるために、入力オーディオ信号の低周波部分をエンビロープ成形から除外してもよい。このために、オーディオ信号変更装置680は、例えば図6Dに示すように、高域/低域フィルターを含んでいてもよい。高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域フィルタリングする。さらに、高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を低域フィルタリングし、低域オーディオ信号662を得る。エンベロープ形状決定部610は、高域周波数領域オーディオ信号602に基づき、低域オーディオ信号622を考慮することなく、エンベロープ形状係数612を決定する。フィルターバンク処理部620は、高域周波数領域オーディオ信号602と低周波域オーディオ信号622に基づき、サブバンド領域の複数のバンドパス信号622を生成する。例えば図7に示すように、予測フィルターが使用されている場合には、高域残余オーディオ信号を得るために、高域周波数領域オーディオ信号602のみが予測フィルターと信号減算器に与えられる。低域オーディオ信号622は、サブバンド領域バンドパス信号を生成するフィルターバンクに直接与えられてもよい。信号処理部630は、高域周波数領域オーディオ信号602または低域オーディオ信号622に相当するサブバンド領域バンドパス信号を変更してもよい。あるいは、信号処理部630は、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号と低域オーディオ信号622に相当するサブバンド領域バンドパス信号を変更してもよい。結合部640は高周波域オーディオ信号602に相当するサブバンド領域バンドパス信号のみを結合してもよく、その結果、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号のみがエンベロープ成形部650によって成形されてもよい(低域オーディオ信号622に相当するサブバンド領域バンドパス信号は成形されない)。
さらに、装置680は、フルバンドオーディオ信号を得るために、成形されたオーディオ信号652と低域オーディオ信号662に相当するサブバンド領域バンドパス信号を結合するよう構成されたフルバンド信号供給器670を含む。このために、信号処理部630はフルバンド信号供給器670に、低域オーディオ信号662に相当するサブバンド領域バンドパス信号を与えてもよい。
別の例では、エンベロープ成形部650は信号処理部630と結合部640の間に配置されている。この場合、信号処理部630は結合部640に、低域オーディオ信号662に相当するサブバンド領域バンドパス信号を与えてもよい。結合部640は、時間領域オーディオ信号を得るために、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号(低域オーディオ信号662に相当するサブバンド領域バンドパス信号及び高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号)を結合する。この場合、エンベロープ成形部650は、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号の(例えば各サブバンド領域バンドパス信号の一部である周波数域に相当する)各サブバンド領域バンドパス信号に関して、エンベロープ形状係数612に基づき(例えば係数変換器810によって)一組のバンドパスエンベロープ形状係数を決定してもよい。そして、例えば、サブバンド領域バンドパス信号の各時間サンプルに、対応する一組のエンベロープ形状係数のうちの一つのバンドパスエンベロープ形状係数を掛けることができる。例えば図15に示すボコーダーの例において、エンベロープ成形部650は乗算器1550と結合部1560との間に配置してもよい。
さらに別の例では、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620の間に配置されていてもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
このようにして入力オーディオ信号の低周波部はエンベロープ成形から除外されてもよい。しかし、この低周波部は他の処理には(例えばサブバンド領域バンドパス信号の変更)送られる。さらに、予測フィルター(例えば図7に示すようなもの)は所定の閾値周波数よりも高いものだけに適用されてもよい。あるいは、高域/低域分離が既に解析側で行われている場合、高域信号のエンベロープはエンベロープ形状係数の逆数により時間領域で変更してもよい。例えば選択的転置のための適用において、AMは変更されなくてもよいので、上記の配置は処理後の配置と同じ結果をもたらす。
本発明の一側面によると、エンベロープ成形部650は周波数領域オーディオ信号602のエネルギー量EFDASと残余オーディオ信号722のエネルギー量ERASとのエネルギー比を決定してもよい。このエネルギー比に基づき、このエネルギー比が所定のエネルギー閾値PET(0.1、0.2、0.5、0.8、1.2またはそれ以上あるいはそれ以下)よりも小さい場合には、エンベロープ成形部650は時間領域オーディオ信号642のエンベロープ成形を中断してもよい。
Figure 0005592959
つまり、エンベロープ成形の動作は予測の良好性に応じてオン/オフされてもよい。予測の良好性は信号(周波数領域オーディオ信号)と予測エラー(残余オーディオ信号)とのエネルギー比として定義されてもよい予測ゲインによって測定できる。時間領域オーディオ信号642のエンベロープ成形が中断された場合、成形されたオーディオ信号652は、結合部640によって出力される時間領域オーディオ信号642と等しくなる。
エンベロープ成形部650は様々な方法で実施され得る。その一つの例を図8に示す。エンベロープ成形部650は係数変換器810と乗算器820を含んでいてもよい。係数変換器810はエンベロープ形状係数612を時間領域に変換され、そして変換後のエンベロープ形状係数812は、時間領域オーディオ信号の時間的エンベロープを成形し、成形されたオーディオ信号652を得るために、時間領域オーディオ信号642に掛けられる。これは乗算器820によって行われてもよい。例えば、時間領域オーディオ信号642の時間ブロックは512個(またはそれ以上の個数)時間サンプルを含んでいてもよく、係数変換器810は、各時間サンプルに変換後のエンベロープ形状係数812を掛けるために、512個(またはそれ以上の個数)の変換後のエンベロープ形状係数812を出力してもよい。
既に述べたように、装置600は異なるサブバンド領域バンドパス信号を異なる方法で変更してもよい。より一般的には、信号処理部630は、複数のサブバンド領域バンドパス信号の二番目またはそれ以降の信号622を二番目またはそれ以降の所定の変更目標に基づき変更してもよいということである。前述のような最初の所定の変更目標と、二番目またはそれ以降の所定の変更目標とは異なっていてもよい。
いくつかの実施形態において、上述の概念はボコーダーあるいは変調ボコーダーに関して利用可能である。この場合、信号処理部630は、複数のサブバンド領域バンドパス信号の各信号622に関する振幅変調信号(AM)と周波数変調信号(FM)を生成してもよい。さらに、信号処理部630はサブバンド領域バンドパス信号の振幅変調信号と周波数変調信号を所定の変更目標に基づき変更してもよい。
さらに装置600は、図2に示した装置200に関して既に説明したように、任意に搬送波周波数決定部を含んでいてもよい。搬送波周波数決定部は、周波数領域オーディオ信号602に基づき複数の搬送波周波数を決定してもよい。これらの決定された搬送波周波数は、サブバンド領域バンドパス信号を生成するために、フィルターバンク処理部620によって、または図7に示すような実施例の場合にはフィルターバンク処理部620のフィルターバンク730によって使用されてもよく、これにより、各サブバンド領域バンドパス信号は複数の搬送波周波数のうちの異なる搬送波周波数を有する周波数域を含み、複数の搬送波周波数のうちのそれぞれに関連したサブバンド領域バンドパス信号を得ることになる。これは、例えば、上述したように周波数領域オーディオ信号の重心を決定することによって行われてもよい。
エンベロープ形状決定部610、フィルターバンク処理部620、信号処理部630、結合部640及び/またはエンベロープ成形部650は、例えば、それぞれ個別のハードウェアユニットあるいはデジタル信号処理装置、コンピュータまたはマイクロコントローラの一部であってもよく、また、デジタル信号処理装置、コンピュータまたはマイクロコントローラ上で動作するよう構成されたコンピュータプログラムまたはソフトウェア製品の一部であってもよい。
本発明のいくつかの実施形態は上述の概念の変調ボコーダー適用に関する。これに関して、以下でより詳細に説明する。上述の特徴は他の実施例や応用にも使用できる。
MODVOC処理は搬送波位置周辺のバンドパス範囲におけるスペクトルコヒーレンスを保持するということを前に述べた。しかし、広帯域の全体的なスペクトルコヒーレンスは保持されない。準定常信号に関しては、このことは合成信号の感覚的質に対してわずかな影響を与えるにすぎない。もし信号がドラムビートやカスタネットなどの際立った過渡信号を含むものである場合、全体的なコヒーレンスの保持はこれらの信号の再生品質を大きく向上させることができる。
全体的なコヒーレンスの保持は、スペクトル領域における線形予測によって向上させることができる。いくつかの方法が、例えばMPEG2/4改良オーディオ符号化(AAC)の時間的ノイズ成形(TNS)装置(例えば、J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「時間的ノイズ成形(TNS)の使用による感覚的オーディオコーダーの性能向上」(第101回AES学会、ロサンゼルス、原稿番号4384、1996年参照))により、オーディオコーデックに活用される。J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「感覚的高品質オーディオコーディングのための断続的信号適応フィルターバンク」(信号処理のオーディオ及び音響への応用に関するIEEEのASSPワークショップ、モーホンク、1997年)において、高解像時間−周波数変換とスペクトル予測の組み合わせが、本質的に信号適応変換に相当すると示されている。
図9は、上述の概念のMODVOC処理スキームへの統合を示している。解析段階において、入力信号xの最初のDFTに引き続き、インパルス応答h(w)を有する周波数に平行してその先の予測部の線形予測係数(LPC)が、例えば最小二乗の点で予測エラーを最小化する自動相関法によって導き出される。次に、このフィルターはスペクトル値に適用され、残余信号はMODVOCアルゴリズムによってさらに処理される。フィルター係数は全体的なエンベロープを表すものであるが、これらの係数は合成段階に送られる。合成段階において、単位円上の予測フィルターの見積もり|H(ejt)|によって導き出された全体的なエンベロープは、それを合計信号に乗法適用することで元の状態に戻され、図10に示すように出力信号yが生成される。
つまり、図9,10は上述の概念の変調ボコーダーにおける実施を示している。図9は前処理部910を含む変調解析部を示す。前処理部910は、例えば、時間領域オーディオ信号の離散フーリエ変換を行って周波数領域オーディオ信号602を得て、その周波数領域オーディオ信号602をエンベロープ形状決定部610、予測フィルター710(例えばLPCフィルターh(ω))、信号減算器720及び搬送波周波数決定部920に送る。信号減算器720は残余オーディオ信号722をフィルターバンク730に与えてもよい。搬送波周波数決定部920は、多重搬送波重心周波数を見積もり、これらの搬送波周波数を、バンドパススペクトルの重みを制御するためのフィルターバンク730に送ってもよい。フィルターバンク730はバンドパス信号を信号変換器930に与えてもよく、この信号変換器930は、各バンドパス信号に関して片側逆離散フーリエ変換を行い、複数のサブバンド領域バンドパス信号を信号処理部に送る。変調ボコーダーのこれらの部品に関しては既に詳細に説明した。図10は変調ボコーダーの合成部を示す。合成部は結合部640、及び係数変換器810と乗算器829とを含むエンベロープ成形部を含む。変調ボコーダーのこれらの備品とエンベロープ成形部に関しては既に詳細に説明した。
図11は、本発明の一実施形態に係るオーディオ信号変更方法1100のフローチャートを示している。この方法1100は、時間領域入力オーディオ信号を表す周波数領域オーディオ信号に基づき、エンベロープ形状係数を決定すること(1110)と、周波数領域オーディオ信号に基づきサブバンド領域で複数のバンドパス信号を生成すること(1120)を含む。さらに、方法1100は、複数のサブバンド領域バンドパス信号のうちの一つの信号を所定の変更目標に基づき変更すること(1130)を含む。また、複数のサブバンド領域バンドパス信号の少なくとも一部は、時間領域オーディオ信号を得るために結合される(1140)。さらに、方法1100は、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)、変更後のサブバンド領域バンドパス信号を含むサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)、または、サブバンド領域バンドパス信号が信号処理部によって成形されたオーディオ信号を得るために変更される前に、サブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)を含む。
この方法1100は、さらに任意に、上述の概念の特徴を表すステップを含んでいてもよい。
本発明に係るいくつかの実施形態はオーディオ信号変更装置であり、図1または図2に示した装置の特徴と図6に示した装置の特徴を組み合わせたものに関する。図12は、本発明の一実施形態に係る装置1200のブロック図である。
図1に示した装置を基に、装置1200はさらにエンベロープ形状決定部610及びエンベロープ成形部650を含む。これに関して、オーディオ信号は時間領域入力オーディオ信号を表す周波数領域オーディオ信号であってもよく、エンベロープ形状決定部はこの周波数領域オーディオ信号に基づきエンベロープ形状係数を決定する。さらに、フィルターバンクによって生成される複数のバンドパス信号は、周波数領域オーディオ信号に基づきサブバンド領域で生成されてもよい。選択及び変更後の基音バンドパス信号と識別及び変更後の倍音バンドパス信号を含むサブバンド領域バンドパス信号を結合した後、得られた時間領域オーディオ信号152,642はエンベロープ成形部650に送られてもよい。エンベロープ成形部650は、成形されたオーディオ信号652を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
あるいは、図6に示した装置を基に、装置1200はさらに、図1に示した装置に関して説明したような基音決定部120と倍音決定部130を含む。基音決定部120は、基音バンドパス信号122を得るために、複数のサブバンド領域バンドパス信号のうちから一つの信号を選択してもよい。さらに、倍音決定部130は、選択された基音バンドパス信号122に関連する倍音バンドパス信号を得るために、複数のサブバンド領域バンドパス信号のうちから、選択された基音バンドパス信号122に関する倍音標準を満たす一つの信号112を識別してもよい。信号処理部140,630は、選択された基音バンドパス信号122を所定の変更目標に基づき変更し、選択されたその基音バンドパス信号122に関連して識別された倍音バンドパス信号132を、上述したように、選択されたその基音バンドパス信号122の変更に応じて変更してもよい。
このように、オーディオ信号の変更中、基音とその倍音は同じように取り扱われ、複数のバンドパス信号のスペクトルコヒーレンスは、変更後の時間領域オーディオ信号を変更前のバンドパス信号から導き出されたエンベロープ形状係数に基づき成形することにより、非常に正確に保持することができる。このようにして、変更後のオーディオ信号の感覚的質をかなり向上させることができる。
装置1200は上述の様々な実施例の更なる特徴を実現するものであってもよい。
以下のように、変更後のオーディオ信号の感覚的質に関する向上はリスニングテストの結果によって示される。このリスニングテストのために、変調ボコーダー(MODVOC)を基にした実施例が使用されたが、その結果はここで提案している概念全般に当てはまる。
選択的ピッチ変換という応用のための変調ボコーダー(MODVOC)の主観的なオーディオ品質と、さらに基本的なMODVOCの原理に対してここで提案する改良の利点を見積もるために、一例として、一組のオーディオファイルが作成され、処理された。また、MODVOC技術は、市場で入手可能な多声オーディオ操作のためのオーディオソフトウェア、2009年終わり頃から市場で入手可能なセレモニー(Celemony)によるメロダイン(Melodyne)エディターと比較される。
テストにおける処理は信号のオーディオ内容を大きく変えるものであるので、オリジナルと処理後の信号の直接的な比較(標準的なリスニングテストにおいては、通常、固有の部分であるが)は、この場合には目的にかなったものではないように思われる。それでもなお、対象となるオーディオ品質を意義深い方法で測定するために、特別なリスニングテスト方法が適用されてきた。このリスニングテスト装置は、高品質MIDIエクスパンダーを使用して波形にされる記号MIDIデータに由来する。この方法により、テストにおいて同様に変更されたオーディオファイル同士の直接的な比較が可能となり、単独での選択的ピッチ処理の効果に関する調査が可能となる。このテスト装置を作成する方法を図17に示す。オリジナルのテスト信号は記号MIDIデータ表記で作成される(左上部)。これらの信号の第2バージョンは、波形にされたオリジナルオーディオに関するテストにおける目標処理に似た記号MIDI処理によって生成される(右上部)。次に、これらの信号対は高品質MIDIエクスパンダーによって波形(WAV)ファイルに変換される(左右下部)。このリスニングテストにおいて、処理後のMIDIファイルから変換された波形と、オリジナルのMIDIファイルから波形変換されたものを変調ボコーダー(MODVOC)で処理したいくつかのバージョンとを比較する(右下部)。さらに、MODVOCの出力をメロダインエディターの出力と比較する。
MODVOCで処理された状態のものとは別に、このテストには、この種のオーディオ操作を行うためのものであり、現在では唯一市場に出ているアプリケーションであるメロダインエディターによって得られた状態のものが含まれている。メロダインエディターは最初にオーディオファイル全体の解析を自動的に行う。この初期段階の後、メロダインはオーディオファイルの分解を提案する。ユーザーとの意思疎通により、この分解をさらに精密化することも可能である。MODVOC処理の結果との正当な比較のために、評価はこの自動初期解析の結果に基づき行われる。キーや標準ピッチという先験的知識は別として、MODVOCの分解もまた全て自動で行われるからである。
このリスニングテスト装置は、ITU(国際電気通信連合)推薦のBS.1534(ITU−R(国際電気通信連合無線通信部門)、「中音質の主観的評価方法(mushra)」2001年)に準じた標準的なMUSHRAテストに基づくものである。MUSHRAは目隠しをした状態で行うリスニングテストである。テストの被験者は一度に一人だけである。各音楽に関して、テストでは、隠れ基準とローパスフィルターを通した隠れアンカーと共に、全ての条件によるテスト音がリスナーに順番に与えられる。隠れ基準と劣化アンカーは、リスナーの信頼性をチェックするために入れられている。リスニングの間にこれらのテスト音を切り替えることが認められており、BS.1116−1で提案され(ITU−R(国際電気通信連合無線通信部門)、「多重チャンネルサウンドシステムを含むオーディオシステムにおけるわずかな障害に対する主観的評価方法」1994〜1997年)、MUSHRAテストにも適用できるような、その音楽の任意に選択できる区分に対してループが設けられている。一つの楽曲の評価をして次の楽曲に進む前に、被験者は無制限に何度も繰り返して聞くことができるので、様々な条件によるテスト音の間の非常に緻密な比較とそれらの徹底的な調査が可能となる。これらのテスト音の感覚的質は、「優良」(100ポイント)から、「良」、「普通」を介して「劣悪」(0ポイント)までの基準で評価される。楽曲の順番はランダムであり、さらに、各楽曲のテスト音の順番もランダムである。
8つのテスト楽曲が、シートミュージックを無料で一般に提供するMUTOPIAプロジェクトから入手した。単楽器(例えばG,E)とフルオーケストラ(例えばF)を含むクラシック音楽の様々な曲から、最長約20秒の適切な部分が抜粋された。また、他の楽器の伴奏が付いた主要楽器のソロによるメロディー(例えばC)がテストの組に含まれている。いくつかの楽曲には、短時間準定常調性部分だけでなく打楽器部分も含まれており(Cではギターの出だしとGではピアノの出だし)、これはこのシステムの過渡応答に関する特別なチャレンジを提示するものである。以下の表にこれら全ての楽曲を示す。
Figure 0005592959
オリジナルの転置信号を得るためのMIDI処理は、ケイクウォーク(Cakewalk)製造のSonar8で行われ、高品質波形レンダリングは、サウンドライブラリーバージョン1.0.1R3でネイティブ・インスツルメンツ(Native Instruments)からのバンドスタンド(Bandstand)を使用して行われた。MODVOC処理は、倍音ロッキングとエンベロープ成形という二つの改良された処理ステップとの三つの異なる組み合わせで評価された。メロダインエディターとの比較のために、バージョン1.0.11が使用された。これら全てのテスト音の条件を以下の表に示す。
Figure 0005592959
主観リスニングテストは、「理想的な」リビングルームに類似した環境で高質なリスニングテストが行えるように設計された防音リスニングラボで行われた。リスナー達は、アップル(Apple)のMACミニに接続されたエディロール(EDIROL)のUSBサウンドインターフェースから引き出されたSTAX静電ヘッドフォンを装着した。リスニングテストのソフトウェアはフラウンホファーのIISによってWAV変換され、MUSHRAモードで作動され、テストを行う際にリスナーをサポートするための簡単なGUIを提供するものであった。リスナー達は、プレイアウトの間、基準音(1)と別の様々なテスト音(2〜7)の間で切り換えることができる。各リスナーは、各楽曲及び各テスト音をどれくらいの時間聞くのかは、個別に決定することができる。実際の切り換えの際には、音は弱まる。GUIにおいて、仮想バーが各テスト音の評価を視覚化する。一方ではプレエコーやポストエコーまたは過渡信号の分散のような典型的な信号処理のアーチファクトに関して、また他方ではスペクトルピッチやメロディーや音色のような音楽的パラメータに関して知識に基づいた判断が得られるように、オーディオコーディングに精通し、音楽に関する経歴のある経験豊富なリスナー達が選ばれた。リスナー達は、さらに、彼らの見解や印象を非公式に述べるように依頼された。
合計15人の被験者がこのテスト結果に貢献した。一人のリスナーは、隠れオリジナルを識別するのに失敗したことが明らかであった(オリジナルに対して64ポイントの評価をした)ため、後で除外された。
図18はこのリスニングテストの結果をまとめたものである。選択的ピッチ転置によって処理された楽曲の感覚的質は、「普通」から「良」の範囲にある。劣化アンカーは「不良」と「劣悪」の間に評価づけられ、前記処理された楽曲とアンカーとの間の隔たりは約40MUSHRAポイントにもなる。
絶対的なスコアは、各楽曲の(各テスト音での)感覚的質を定量化する情報を提供し、従ってそのテストセット中の楽曲間の質の違いを暗に評価するものであるが、そのリスニングテスト内の様々なテスト音を比較するのには適切ではない。これらのテスト音の評価は独立したものではないからである。異なる選択的転置処理方法により得られたテスト音を直接的に比較するために、スコアの違いは以下のように考慮される。
図19は、改良MODVOCの様々な結果(条件4,5によるテスト音)のスコアを単純なMODVOCの結果(条件3によるテスト音)のスコアに基づき算出された結果を示す。ここでは、改良MODVOCの結果の全てのスコアが単純なMODVOCの結果のスコアよりもかなり良い(改良MODVOCの結果の全てのスコアは0よりも上に位置している)。楽曲A,Cに対して倍音ロッキングを適用した場合を除く全ての楽曲とテスト音に関して、95%の信頼性で有意性がある。
図20は、条件6(メロダインエディター)によるテスト音に対するスコアの違いを表示したものである。楽曲Cに関して、条件5でのMODVOC結果のスコアはメロダインエディターによる結果よりもかなり良いのに対し、条件4での結果はわずかに良いが、条件3は95%の信頼区間で(信頼区間の重複が全くない状態で)不確定である。楽曲Bのテスト音2、F,Gのテスト音5に関しても、全く何の優位性のある結果も得られなかった。しかし、楽曲Cのテスト音4と楽曲Fのテスト音4,5に関しても、MODVOCの良好な性能が見られる。他の全ての場合においては、MODVOCのスコアはメロダインエディターよりもかなり悪い。
このスコアは、プレエコーまたはポストエコーによる過渡信号の品質低下のような不自然な音のアーチファクト、ピッチの精密さ、メロディーの正確さ及び音色の保持というような面を含む全体的な質に関する判断を反映している。この結果をより詳細に解釈するために、リスナー達は実際のスコアを記載する際に、彼らの非公式な見解も記載するよう依頼された。これらの見解から、音色の保持と不自然な音のアーチファクトの無さは、例えばメロディーの良好な保持よりも、延滞的なスコアによりよくあらわされていることがわかった。さらに、リスナーがあるメロディーを知らなかった場合、そのリスナー(被験者)はテストの間にすぐさま基準メロディーを覚えることができず、正しいメロディーを確信することができなかったようである。これが、音色、特に一つの楽器による音の保持に関する高い忠実性を有するメロダインエディターで処理された楽曲に対する評価の方が高かった説明であり得る。しかし、たぶん分類の間違いにより起こり得る大きなメロディーの間違いを偶然に引き起こす代償を支払うことになる。MODVOCは分類技術に基づく特性に主に頼っているわけではないので、この点においてより堅固である。
本発明に係るいくつかの実施形態はピッチの選択的転置のための改良変調ボコーダーに関する。変調ボコーダー(MODVOC)の概念はもう既に紹介されており、多声音楽に関する選択的転置を行うことができるその一般的な機能が取り上げられてきた。これは、前もって録音されたPCM音楽サンプルのキーモードを変換することを目的とする応用を可能にする。MODVOCによる選択的ピッチ転置のために、ここで、二つの改良技術を提案する。選択的転置の性能とこれらの技術の長所は、オリジナルのオーディオ刺激に関して、ピッチの点で非常に大きな変化をもたらすことができる特別に指定されたリスニングテスト手順から得られた結果によって評価される。この主観的な感覚的質の評価結果は、MODVOCとさらにまたこの課題を達成可能な最初に市販されたソフトウェアによって、マイナーキーとメジャーキーとの間でモード変換された楽曲に関して提示される。
ここで言及すべきことは、メロダインエディターはいかなる操作をも可能にする前に最初にオーディオファイル全体の自動解析を行うのに対し、MODVOCはブロックごとに処理を行うのでリアルタイム処理が可能であるということである。
ピッチの選択的転置のための変調ボコーダー(MODVOC)の改良技術を提案してきた。MIDIからもたらされたテスト信号に対するリスニングテストの結果から、単純なMODVOCの感覚的質は、倍音ロッキングとエンベロープ成形により確かに改善されることが結論付けられる。全ての楽曲に関して、10MUSHURAポイントもの増加が見込まれる。この向上は主に倍音ロッキングに起因するものである。
また、MODVOCと市販されているソフトウェア(メロダインエディター)の比較から、現時点において選択的ピッチ転置で達成可能な一般的な質のレベルは「まあまあ」と「良い」の間に位置するであろう。MODVOCは本質的に分類の決定に主に頼るものではないので、メロディーの誤った解釈に関してはより確実なものである。
操作の前にオーディオファイル全体に対してメロダインエディターが行うマルチパス解析とは対照的に、MODVOCはもっぱらシングルパスのブロックごとの処理に基づくものであり、潜在的にストリーミングつまりリアルタイム処理が可能である。
上述の概念のいくつかの側面を一つの装置に関して説明してきたが、これらの側面は、これに対応する方法(ブロックや装置は方法ステップや方法ステップの特徴に対応する)の説明でもあることは明らかである。同様に、方法ステップに関して説明した側面は、これに対応する装置の相応のブロック、部品または特徴の説明でもある。
本発明により符号化されたオーディオ信号は、デジタル記憶媒体に記憶可能であり、またインターネットのような無線通信媒体や有線通信媒体のような通信媒体上で通信可能である。
実施条件に応じて、本発明の実施形態はハードウェアでまたはソフトウェアで実施できる。このような実施は、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリーなどのコンピュータ上で読み取り可能な制御信号を記憶しているデジタル記憶媒体を使用して行うことができ、これは、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(協働可能な)ものである。従って、このデジタル記憶媒体はコンピュータ上で読み取り可能なものであってもよい。
本発明に係るいくつかの実施形態は、コンピュータ上で読み取り可能な制御信号を有するデータキャリアを含み、このデータキャリアはプログラム可能なコンピュータシステムと協働可能であり、ここで説明してきた方法のうちの一つが実行される。
概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施でき、このコンピュータプログラム製品がコンピュータ上で起動されると、このプログラムコードは上述の方法の一つを実行するように働く。このプログラムコードは、例えば、機械で読み取り可能なキャリアに記憶されていてもよい。
他の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムであり、機械で読み取り可能なキャリアに記憶されているものを含む。
つまり、本発明の方法の一つの実施形態は、コンピュータ上で起動された際に、ここで説明してきた方法のうちの一つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の方法の別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムを記憶したデータキャリア(デジタル記憶媒体またはコンピュータで読み取り可能な媒体)である。
本発明の方法のさらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。このデータストリームまたは一連の信号は、例えばインターネットのようなデータ通信接続を介して送受信されるように構成されていてもよい。
さらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するよう構成された例えばコンピュータやプログラム制御可能な論理素子のような処理手段を含む。
さらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
いくつかの実施形態において、プログラム制御可能な論理素子(例えばフィールド・プログラマブル・ゲート・アレイ)は、ここで説明してきた方法の機能のうちのいくつかを実行するためにあるいは全部を実行するために使用できる。いくつかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、ここで説明してきた方法のうちの一つを実行するために、マイクロプロセッサと協働してもよい。概して、これらの方法は何らかのハードウェア装置によって実行されることが好ましい。
上述の実施形態は、単に本発明の原理を説明するためのものである。当業者にとっては、ここで説明してきた配置や詳細に対する様々な変更が容易であろうと思われる。従って、本発明は特許請求項の範囲によってのみ制限され、ここでの説明により提示された具体的詳細によっては制限されない。

Claims (13)

  1. オーディオ信号(102)を変更するための装置(100,200)であり、
    オーディオ信号(102)に基づき、複数のバンドパス信号(112)を生成するよう構成されたフィルターバンク処理部(110)と、
    基音バンドパス信号(122)を得るために、複数のバンドパス信号のうちから一つのバンドパス信号(112)を選択するよう構成された基音決定部(120)と、
    選択された基音バンドパス信号(122)に関連する倍音バンドパス信号(132)を得るために、複数のバンドパス信号のうちから、選択された基音バンドパス信号(122)に関する倍音基準を満たす一つのバンドパス信号(112)を識別するよう構成された倍音決定部(130)と、
    選択された基音バンドパス信号(112)を所定の変更目標に基づき変更するよう構成され、選択された基音バンドパス信号(122)に関連して識別された倍音バンドパス信号(132)を、選択された基音バンドパス信号(122)に対する変更に応じて変更するよう構成された信号処理部(140)であり、複数のバンドパス信号の各バンドパス信号(112)に関して振幅変調信号(AM)と周波数変調信号(FM)を生成するよう構成され、選択された基音バンドパス信号(122)の周波数変調信号(FM)を所定の変更目標に基づき変更するよう構成され、選択された基音バンドパス信号(122)に関連して識別された倍音バンドパス信号(132)の周波数変調信号(FM)を、選択された基音バンドパス信号(122)に対する変更に応じて変更するよう構成された信号処理部(140)と
    変更後のオーディオ信号(152)を得るために、変更後の基音バンドパス信号(122)と変更後の倍音バンドパス信号(132)と複数のバンドパス信号のうちの選択されなかったバンドパス信号とを結合するよう構成された結合部(150)を含む、
    オーディオ信号変更装置(100,200)。
  2. 請求項1に記載の装置であり、
    複数のバンドパス信号のうちの各バンドパス信号(112)は搬送周波数を有し、
    倍音決定部(130)は、複数のバンドパス信号のうちの一つのバンドパス信号(112)の搬送波周波数を選択された基音バンドパス信号(122)の搬送波周波数と比較するよう構成され、
    前記バンドパス信号(112)の搬送波周波数が、選択された基音バンドパス信号(122)の周波数の所定の搬送波周波数許容誤差での倍数である場合、倍音基準が満たされる。
  3. 請求項1または2に記載の装置であり、
    倍音決定部(130)は、複数のバンドパス信号のうちの一つのバンドパス信号(112)のエネルギー量を選択された基音バンドパス信号(122)のエネルギー量と比較するよう構成され、
    前記バンドパス信号(112)のエネルギー量と選択された基音バンドパス信号(122)のエネルギー量との比が所定の許容誤差範囲内である場合、倍音基準が満たされる。
  4. 請求項1、2または3に記載の装置であり、
    倍音決定部(130)は、複数のバンドパス信号のうちの一つのバンドパス信号(112)の時間的エンベロープと選択された基音バンドパス信号(122)の時間的エンベロープとの相関関係を示す相関値を算出するよう構成され、
    前記相関値が所定の相関閾値よりも高い場合、倍音基準が満たされる。
  5. 請求項1、2、3または4に記載の装置であり、
    基音決定部(120)は、さらに別の基音バンドパス信号(122)を得るために、既に選択された基音バンドパス信号(122)と既に識別された倍音バンドパス信号(132)を全く考慮せず、複数のバンドパス信号のうちからもう一つ別のバンドパス信号(112)を選択するよう構成されている。
  6. 請求項5に記載の装置であり、
    倍音決定部(130)は、前記さらに別に選択された基音バンドパス信号(122)に関連する倍音バンドパス信号(132)を得るために、既に識別された倍音バンドパス信号(132)を全く考慮せず、複数のバンドパス信号のうちから、前記さらに別に選択された基音バンドパス信号(122)に関する倍音基準を満たす一つのバンドパス信号(112)を識別するよう構成されている。
  7. 請求項5または6に記載の装置であり、
    信号処理部(140)は、前記さらに別に選択された基音バンドパス信号(122)をさらに別の変更目標に基づき変更するよう構成されている。
  8. 請求項1、2、3、4、5、6または7に記載の装置であり、
    基音決定部(120)はエネルギー基準に基づきバンドパス信号(112)を選択するよう構成されている。
  9. 請求項1、2、3、4、5、6、7または8に記載の装置であり、
    基音決定部(120)は、複数のバンドパス信号のうちの各バンドパス信号(112)のA重み付け処理されたエネルギー量を決定し、基音バンドパス信号(122)を得るために、A重み付け処理されたエネルギー量が最大であるバンドパス信号(112)を選択するよう構成されている。
  10. 請求項1、2、3、4、5、6、7、8または9に記載の装置であり、
    該装置はさらに搬送周波数決定部(260)を含み、
    フィルターバンク処理部(110)はフィルターバンク(212)と信号変換器(214)とを含み、
    フィルターバンク(212)はオーディオ信号(102)に基づきバンドパス信号を生成するよう構成され、
    信号変換器(214)は、複数のバンドパス信号を得るために、前記生成されたバンドパス信号をサブバンド領域に変換するよう構成され、
    搬送波周波数決定部(260)はオーディオ信号(102)に基づき複数の搬送波周波数を決定するよう構成され、
    フィルターバンク処理部(110)のフィルターバンク(212)は、複数の搬送波周波数のうちの各搬送波周波数に関連するバンドパス信号を得るために、各バンドパス信号が複数の搬送波周波数のうちの異なる搬送波周波数を含む周波数域を有するように、バンドパス信号を生成するよう構成されている。
  11. 請求項1、2、3、4、5、6、7、8、9または10に記載の装置であり、
    該装置はさらにエンベロープ形状決定部とエンベロープ成形部を含み、
    エンベロープ形状決定部はオーディオ信号(102)に基づきエンベロープ形状係数を決定するよう構成され、
    前記オーディオ信号(102)は時間領域入力信号を表す周波数領域オーディオ信号であり、
    フィルターバンク処理部(110)は、前記周波数領域オーディオ信号に基づき複数のパンドパス信号をサブバンド領域で生成するよう構成され、
    結合器は、時間領域オーディオ信号を表す変更後のオーディオ信号を得るために、複数のバンドパス信号のうちの少なくとも一部を結合するよう構成され、
    エンベロープ成形器は、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形するよう、または変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき変更するよう、またはサブバンド領域バンドパス信号が信号処理部によって成形されたオーディオ信号を得るために変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形するよう構成されている。
  12. オーディオ信号を変更する方法(300)であり、
    オーディオ信号に基づき、複数のバンドパス信号(112)を生成すること(310)と、
    基音バンドパス信号を得るために、複数のバンドパス信号のうちから一つのバンドパス信号を選択すること(320)と、
    選択された基音バンドパス信号に関連する倍音バンドパス信号を得るために、複数のバンドパス信号のうちから、選択された基音バンドパス信号に関する倍音基準を満たす一つのバンドパス信号を識別すること(330)と、
    複数のバンドパス信号の各バンドパス信号(112)に関して振幅変調信号(AM)と周波数変調信号(FM)を生成し、選択された基音バンドパス信号(122)の周波数変調信号(FM)を所定の変更目標に基づき変更することにより、選択された基音バンドパス信号を所定の変更目標に基づき変更すること(340)と、
    選択された基音バンドパス信号(122)に関連して識別された倍音バンドパス信号(132)の周波数変調信号(FM)を、選択された基音バンドパス信号(122)に対する変更に応じて変更することにより、選択された基音バンドパス信号に関連して識別された倍音バンドパス信号を、選択された基音バンドパス信号に対する変更に応じて変更すること(350)と、
    変更後のオーディオ信号を得るために、変更後の基音バンドパス信号(122)と変更後の倍音バンドパス信号(132)と複数のバンドパス信号のうちの選択されなかったバンドパス信号とを結合すること(360)を含む、
    オーディオ信号変更方法(300)。
  13. 請求項12に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムであり、デジタル信号処理装置、コンピュータまたはマイクロコントローラ上での動作に伴い、請求項12に記載の方法を実行する。
JP2012554354A 2010-02-26 2011-02-25 倍音ロッキングを使用してオーディオ信号を変更する装置及び方法 Active JP5592959B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US30851310P 2010-02-26 2010-02-26
US61/308,513 2010-02-26
EP10175282.2 2010-09-03
EP10175282A EP2362375A1 (en) 2010-02-26 2010-09-03 Apparatus and method for modifying an audio signal using harmonic locking
PCT/EP2011/052834 WO2011104354A1 (en) 2010-02-26 2011-02-25 Apparatus and method for modifying an audio signal using harmonic locking

Publications (2)

Publication Number Publication Date
JP2013520697A JP2013520697A (ja) 2013-06-06
JP5592959B2 true JP5592959B2 (ja) 2014-09-17

Family

ID=44041608

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012554355A Active JP5655098B2 (ja) 2010-02-26 2011-02-25 エンベロープ形状を使用してオーディオ信号を変更する装置及び方法
JP2012554354A Active JP5592959B2 (ja) 2010-02-26 2011-02-25 倍音ロッキングを使用してオーディオ信号を変更する装置及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2012554355A Active JP5655098B2 (ja) 2010-02-26 2011-02-25 エンベロープ形状を使用してオーディオ信号を変更する装置及び方法

Country Status (19)

Country Link
US (2) US9203367B2 (ja)
EP (4) EP2362375A1 (ja)
JP (2) JP5655098B2 (ja)
KR (2) KR101492702B1 (ja)
CN (2) CN102870153B (ja)
AR (2) AR080319A1 (ja)
AU (2) AU2011219778B2 (ja)
BR (1) BR112012021540B1 (ja)
CA (2) CA2790651C (ja)
ES (2) ES2484718T3 (ja)
HK (2) HK1180444A1 (ja)
MX (2) MX2012009787A (ja)
MY (2) MY154205A (ja)
PL (2) PL2539885T3 (ja)
RU (2) RU2591733C2 (ja)
SG (2) SG183461A1 (ja)
TW (2) TWI470618B (ja)
WO (2) WO2011104354A1 (ja)
ZA (2) ZA201207111B (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
US8099476B2 (en) 2008-12-31 2012-01-17 Apple Inc. Updatable real-time or near real-time streaming
GB201105502D0 (en) 2010-04-01 2011-05-18 Apple Inc Real time or near real time streaming
US8805963B2 (en) 2010-04-01 2014-08-12 Apple Inc. Real-time or near real-time streaming
TWI451279B (zh) 2010-04-07 2014-09-01 Apple Inc 即時或接近即時串流傳輸之內容存取控制
US8856283B2 (en) 2011-06-03 2014-10-07 Apple Inc. Playlists for real-time or near real-time streaming
US8843586B2 (en) 2011-06-03 2014-09-23 Apple Inc. Playlists for real-time or near real-time streaming
CN102543091B (zh) * 2011-12-29 2014-12-24 深圳万兴信息科技股份有限公司 一种模拟音效的生成系统及方法
US9712127B2 (en) 2012-01-11 2017-07-18 Richard Aylward Intelligent method and apparatus for spectral expansion of an input signal
EP4372602A3 (en) 2013-01-08 2024-07-10 Dolby International AB Model based prediction in a critically sampled filterbank
CA2961336C (en) * 2013-01-29 2021-09-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
BR112015018040B1 (pt) 2013-01-29 2022-01-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Ênfase de baixa frequência para codificação com base em lpc em domínio de frequência
US20150003633A1 (en) * 2013-03-21 2015-01-01 Max Sound Corporation Max sound audio program
WO2014168777A1 (en) * 2013-04-10 2014-10-16 Dolby Laboratories Licensing Corporation Speech dereverberation methods, devices and systems
CN104282312B (zh) 2013-07-01 2018-02-23 华为技术有限公司 信号编码和解码方法以及设备
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems
US9391649B2 (en) * 2014-11-17 2016-07-12 Microsoft Technology Licensing, Llc Envelope shaping in envelope tracking power amplification
GB2581032B (en) * 2015-06-22 2020-11-04 Time Machine Capital Ltd System and method for onset detection in a digital signal
BE1023229B1 (nl) * 2015-06-30 2017-01-05 Van Den Broeck Bram Stemmen van een trommel
CN105118523A (zh) * 2015-07-13 2015-12-02 努比亚技术有限公司 音频处理方法和装置
US10262677B2 (en) * 2015-09-02 2019-04-16 The University Of Rochester Systems and methods for removing reverberation from audio signals
JP6705142B2 (ja) * 2015-09-17 2020-06-03 ヤマハ株式会社 音質判定装置及びプログラム
US9654181B1 (en) * 2015-12-14 2017-05-16 Nxp B.V. Dynamic transmitter signal envelope shaping control for NFC or RFID devices
CN105750145B (zh) * 2016-03-26 2018-06-01 上海大学 能综合展现音乐频域时域特性的音乐喷泉的实现方法
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
JP6754243B2 (ja) * 2016-08-05 2020-09-09 株式会社コルグ 楽音評価装置
WO2019068915A1 (en) * 2017-10-06 2019-04-11 Sony Europe Limited AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
US11017787B2 (en) * 2018-02-09 2021-05-25 Board Of Regents, The University Of Texas System Self-adjusting fundamental frequency accentuation subsystem for natural ear device
US10950253B2 (en) 2018-02-09 2021-03-16 Board Of Regents, The University Of Texas System Vocal feedback device and method of use
US10186247B1 (en) * 2018-03-13 2019-01-22 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
JP2019164107A (ja) * 2018-03-20 2019-09-26 本田技研工業株式会社 異音判定装置および判定方法
US11122354B2 (en) * 2018-05-22 2021-09-14 Staton Techiya, Llc Hearing sensitivity acquisition methods and devices
EP3576088A1 (en) * 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
CN109683142B (zh) * 2018-12-04 2020-06-09 郑州轻工业大学 基于差分包络检波的三角线性调频连续信号参数估计方法
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
GB2596169B (en) * 2020-02-11 2022-04-27 Tymphany Acoustic Tech Ltd A method and an audio processing unit for detecting a tone
JP7475988B2 (ja) 2020-06-26 2024-04-30 ローランド株式会社 効果装置および効果処理プログラム
JP6862021B1 (ja) * 2020-08-07 2021-04-21 next Sound株式会社 立体音響を生成する方法
CN112908347A (zh) * 2021-02-25 2021-06-04 益阳市信维声学科技有限公司 一种杂音检测方法及终端
CN113362837B (zh) * 2021-07-28 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法、设备及存储介质

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251151A (en) * 1988-05-27 1993-10-05 Research Foundation Of State Univ. Of N.Y. Method and apparatus for diagnosing the state of a machine
JP2990777B2 (ja) * 1990-09-28 1999-12-13 ヤマハ株式会社 電子楽器の効果装置
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
JP2713102B2 (ja) * 1993-05-28 1998-02-16 カシオ計算機株式会社 音信号ピッチ抽出装置
JPH07219597A (ja) * 1994-01-31 1995-08-18 Matsushita Electric Ind Co Ltd ピッチ変換装置
KR19980013991A (ko) * 1996-08-06 1998-05-15 김광호 음성 줌신호 강조회로
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
ID29029A (id) 1998-10-29 2001-07-26 Smith Paul Reed Guitars Ltd Metode untuk menemukan fundamental dengan cepat
RU2155387C1 (ru) * 1998-12-10 2000-08-27 Общество с ограниченной ответственностью "Институт ноосферного естествознания" Музыкальный синтезатор (варианты)
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP4245114B2 (ja) * 2000-12-22 2009-03-25 ローランド株式会社 音色制御装置
JP3862061B2 (ja) 2001-05-25 2006-12-27 ヤマハ株式会社 楽音再生装置および楽音再生方法ならびに携帯端末装置
US6825775B2 (en) * 2001-08-01 2004-11-30 Radiodetection Limited Method and system for reducing interference
US20050190199A1 (en) * 2001-12-21 2005-09-01 Hartwell Brown Apparatus and method for identifying and simultaneously displaying images of musical notes in music and producing the music
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3797283B2 (ja) * 2002-06-18 2006-07-12 ヤマハ株式会社 演奏音制御方法及び装置
JP3938015B2 (ja) * 2002-11-19 2007-06-27 ヤマハ株式会社 音声再生装置
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
US7062414B2 (en) * 2003-07-18 2006-06-13 Metrotech Corporation Method and apparatus for digital detection of electromagnetic signal strength and signal direction in metallic pipes and cables
US8023673B2 (en) * 2004-09-28 2011-09-20 Hearworks Pty. Limited Pitch perception in an auditory prosthesis
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
CN101138274B (zh) * 2005-04-15 2011-07-06 杜比国际公司 用于处理去相干信号或组合信号的设备和方法
US7872962B1 (en) * 2005-10-18 2011-01-18 Marvell International Ltd. System and method for producing weighted signals in a diversity communication system
AU2005337961B2 (en) * 2005-11-04 2011-04-21 Nokia Technologies Oy Audio compression
JP2007193156A (ja) * 2006-01-20 2007-08-02 Yamaha Corp 調律装置付電子楽器
WO2007107670A2 (fr) 2006-03-20 2007-09-27 France Telecom Procede de post-traitement d'un signal dans un decodeur audio
JP4757130B2 (ja) * 2006-07-20 2011-08-24 富士通株式会社 ピッチ変換方法及び装置
JP4630980B2 (ja) * 2006-09-04 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
JP5228432B2 (ja) * 2007-10-10 2013-07-03 ヤマハ株式会社 素片検索装置およびプログラム
US8498667B2 (en) 2007-11-21 2013-07-30 Qualcomm Incorporated System and method for mixing audio with ringtone data
DE102008013172B4 (de) 2008-03-07 2010-07-08 Neubäcker, Peter Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
KR101230479B1 (ko) * 2008-03-10 2013-02-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법
EP3296992B1 (en) * 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
JP4983694B2 (ja) * 2008-03-31 2012-07-25 株式会社Jvcケンウッド 音声再生装置
EP2109328B1 (en) * 2008-04-09 2014-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for processing an audio signal
CN102077276B (zh) * 2008-06-26 2014-04-09 法国电信公司 多声道音频信号的空间合成
ES2796552T3 (es) * 2008-07-11 2020-11-27 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio
JP5010743B2 (ja) * 2008-07-11 2012-08-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法
WO2010085477A1 (en) * 2009-01-20 2010-07-29 Med-El Elektromedizinische Geraete Gmbh High accuracy tonotopic and periodic coding with enhanced harmonic resolution
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8321215B2 (en) * 2009-11-23 2012-11-27 Cambridge Silicon Radio Limited Method and apparatus for improving intelligibility of audible speech represented by a speech signal
ES2522171T3 (es) * 2010-03-09 2014-11-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio usando alineación de borde de patching
US9998081B2 (en) * 2010-05-12 2018-06-12 Nokia Technologies Oy Method and apparatus for processing an audio signal based on an estimated loudness
JP5917518B2 (ja) * 2010-09-10 2016-05-18 ディーティーエス・インコーポレイテッドDTS,Inc. 知覚スペクトルアンバランス改善のための音声信号動的補正
JP5747562B2 (ja) * 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
JP5758774B2 (ja) * 2011-10-28 2015-08-05 ローランド株式会社 効果装置

Also Published As

Publication number Publication date
CN102859579A (zh) 2013-01-02
US20130182862A1 (en) 2013-07-18
CA2790651C (en) 2015-11-24
ES2484718T3 (es) 2014-08-12
EP2539886B1 (en) 2014-08-13
TW201142815A (en) 2011-12-01
MX2012009787A (es) 2012-09-12
HK1180443A1 (en) 2013-10-18
RU2591732C2 (ru) 2016-07-20
TWI470618B (zh) 2015-01-21
KR101492702B1 (ko) 2015-02-11
WO2011104354A1 (en) 2011-09-01
BR112012021540A8 (pt) 2018-07-03
PL2539885T3 (pl) 2014-12-31
TWI456566B (zh) 2014-10-11
EP2362376A3 (en) 2011-11-02
MY154205A (en) 2015-05-15
AU2011219780B2 (en) 2013-12-05
HK1180444A1 (en) 2013-10-18
WO2011104356A2 (en) 2011-09-01
AR080319A1 (es) 2012-03-28
CN102870153A (zh) 2013-01-09
EP2362375A1 (en) 2011-08-31
ZA201207112B (en) 2013-05-29
AU2011219778B2 (en) 2013-12-05
EP2539885A1 (en) 2013-01-02
JP2013520698A (ja) 2013-06-06
BR112012021370A2 (pt) 2023-04-11
PL2539886T3 (pl) 2015-01-30
SG183461A1 (en) 2012-09-27
CA2790651A1 (en) 2011-09-01
JP2013520697A (ja) 2013-06-06
BR112012021540B1 (pt) 2021-07-27
AU2011219780A1 (en) 2012-10-18
RU2012140707A (ru) 2014-05-27
AU2011219778A1 (en) 2012-10-18
MY161212A (en) 2017-04-14
US9264003B2 (en) 2016-02-16
WO2011104356A3 (en) 2012-06-07
EP2539886A2 (en) 2013-01-02
KR20120128140A (ko) 2012-11-26
KR20130010118A (ko) 2013-01-25
CN102870153B (zh) 2014-11-05
AR080320A1 (es) 2012-03-28
RU2591733C2 (ru) 2016-07-20
ES2523800T3 (es) 2014-12-01
MX2012009776A (es) 2012-09-07
SG183464A1 (en) 2012-09-27
TW201205555A (en) 2012-02-01
KR101494062B1 (ko) 2015-03-03
US20130216053A1 (en) 2013-08-22
CN102859579B (zh) 2014-10-01
RU2012140725A (ru) 2014-04-10
US9203367B2 (en) 2015-12-01
ZA201207111B (en) 2013-05-29
JP5655098B2 (ja) 2015-01-14
CA2790650C (en) 2015-11-24
EP2539885B1 (en) 2014-07-02
BR112012021540A2 (pt) 2017-07-04
CA2790650A1 (en) 2011-09-01
EP2362376A2 (en) 2011-08-31

Similar Documents

Publication Publication Date Title
JP5592959B2 (ja) 倍音ロッキングを使用してオーディオ信号を変更する装置及び方法
JP5467098B2 (ja) オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法
JP2018510374A (ja) 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
JP4645241B2 (ja) 音声処理装置およびプログラム
Disch et al. An enhanced modulation vocoder for selective transposition of pitch
Bartkowiak et al. Mitigation of long gaps in music using hybrid sinusoidal+ noise model with context adaptation
Disch et al. Frequency selective pitch transposition of audio signals
Bartkowiak et al. Hybrid sinusoidal modeling of music with near transparent audio quality
BR112012021370B1 (pt) Aparelho e método para modificar um sinal de aúdio usando envelope de moldagem

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140801

R150 Certificate of patent or registration of utility model

Ref document number: 5592959

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250