JP5455657B2 - 音声の再現を高めるための方法および装置 - Google Patents

音声の再現を高めるための方法および装置 Download PDF

Info

Publication number
JP5455657B2
JP5455657B2 JP2009553930A JP2009553930A JP5455657B2 JP 5455657 B2 JP5455657 B2 JP 5455657B2 JP 2009553930 A JP2009553930 A JP 2009553930A JP 2009553930 A JP2009553930 A JP 2009553930A JP 5455657 B2 JP5455657 B2 JP 5455657B2
Authority
JP
Japan
Prior art keywords
origin
channel
audio
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009553930A
Other languages
English (en)
Other versions
JP2010521909A (ja
Inventor
プルッキィー,ビル
Original Assignee
フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2010521909A publication Critical patent/JP2010521909A/ja
Application granted granted Critical
Publication of JP5455657B2 publication Critical patent/JP5455657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Description

発明の分野
この発明は、再現された音声信号の起源の方向の認知をどのように向上させるかについての技術に関する。特に、この発明は、音声源の選択可能な方向が他の方向から来る音声信号に対して強調されるか重み付けされるように、記録された音声信号を再生するための装置および方法を提示する。
発明の背景および先行技術
一般に、多チャンネル再生および聴取では、聴取者は多数のラウドスピーカによって包囲される。特定の設定用に音声信号を取り込むために、さまざまな方法が存在する。再生における1つの一般的な目標は、もともと記録された信号の空間的配置、すなわちオーケストラの中でのトランペットの位置といった個々の音声源の起源を再現することである。いくつかのラウドスピーカ設定はかなり一般的であり、異なる空間的印象を作り出すことができる。特殊な生成後技術(post-production techniques)を用いなければ、一般に知られた2チャンネルステレオ設定は、2つのラウドスピーカ間の配線上に聴覚事象を再度作り出すことしかできない。これは主として、1つの音声源に関連した信号の振幅が2つのラウドスピーカ間で、ラウドスピーカに対する音声源の位置に依存して分配される、いわゆる「振幅パンニング」によって達成される。これは通常、録音中またはその後のミキシング中に行なわれる。つまり、聴取位置に対して左端から到来する音声源は主として左のラウドスピーカによって再生され、一方、聴取位置の前にある音声源は両方のラウドスピーカによって同じ振幅(レベル)で再生されることになる。しかしながら、他の方向から生じる音は再生できない。
したがって、聴取者の周りに配置されたより多くのラウドスピーカを用いることによって、より多くの方向が網羅可能であり、より自然な空間的印象を作り出すことができる。おそらく最も良く知られた多チャンネルラウドスピーカ配置は5.1規格(ITU−R775−1)で、それは5つのラウドスピーカからなり、聴取位置に対するそれらの方位角は0°、±30°、および±110°となるよう予め定められている。要するに、録音中またはミキシング中、信号はその特定のラウドスピーカ構成に適合され、規格からの再生設定のずれは再生品質の低下をもたらす、ということになる。
さまざまな数のラウドスピーカが異なる方向に位置している多数の他のシステムも、これまで提案されてきた。特に劇場および音響施設におけるプロ用システムおよび特殊システムも、異なる高さにあるラウドスピーカを含んでいる。
異なる再生設定に従い、聴取状況における空間的印象を記録環境において知覚されるように記録し再生するために、前述したラウドスピーカシステムに対して、いくつかの異なる記録方法が考案され提案されている。選ばれた多チャンネルラウドスピーカシステムに対して空間的な音声を記録する理論的に理想の方法は、存在するラウドスピーカと同じ数のマイクを用いることである。そのような場合、あらゆる単一方向からの音声が少数のマイク(1、2またはそれ以上)でのみ記録されるように、マイクの指向性パターンもラウドスピーカーの配置に対応していなければならない。各マイクは、特定のラウドスピーカに関連している。再生により多くのラウドスピーカが用いられるほど、マイクの指向性パターンは狭まるべきものである。しかしながら、狭い指向性のマイクは、むしろ高価であり、典型的には平らでない周波数応答を有し、記録された音声の質を所望でない方法で低下させる。さらに、多チャンネル再生に対する入力のように広すぎる指向性パターンでの
いくつかのマイクの使用は、異なるラウドスピーカに関連するマイクで記録されることから、単一方向から発せられる音声が常に必要以上のラウドスピーカで再生されるという事実により、色のついた(colored)不明瞭な音声知覚となる。一般的に、現在利用可能なマイクは、2チャンネルの記録および再生に対して最も適する。すなわち、これらは、囲まれた空間的な印象の再生という目標なしに設計される。
マイク設計の観点からは、マイクの指向性パターンを空間音声再生の要求に適合させるために、いくつかの提案が議論されている。一般に、すべてのマイクは、マイクに対する音声の到達方向に応じて異なる音声を捕捉している。つまり、マイクは、記録音声の到達方向に応じて異なる感度を有している。いくつかのマイクは方向に対してほぼ独立に音声を捕捉するため、マイクによってはこの効果は小さい。このようなマイクは、一般に全指向性マイクと呼ばれる。典型的なマイク設計では、円形の振動板が小さな気密囲いに付随している。もし、振動板が囲いに付随しておらず音声が各側面に等しく到達する場合、その指向性パターンは2つのローブを有す。つまり、そのようなマイクは、振動板の両前後から等しい感度で音声を捕捉するものの、反対の極性を有する。そのようなマイクは、振動板の平面に合致する方向、すなわち最大感度の方向に垂直な方向から来る音声を捕捉しない。そのような指向性パターンは、双極子(dipole)または8の字と呼ばれる。
全指向性マイクは、マイクに対する気密でない囲いを用いることで、指向性マイクにも変形し得る。当該囲いは、音声波が囲いを通って伝搬し振動板に到達できるように特に構築される。ここで、そのようなマイクの指向性パターンが全指向性と双極子との間のパターンとなるように、いくつかの伝搬方向が選ばれる。それらのパターンは、たとえば2つのローブを有する。しかしながら、それらのローブは、異なる強度を有し得る。いくつかの一般に知られたマイクは、単一のローブのみのパターンを有する。最も重要な例は、カージオイド(cardioid)パターンであり、ここでは方向関数DがD=1+cos(θ)で表わされ、θは音声の到達方向である。こうして方向関数は、入来する音声振幅のどの部分が方向に応じて捕捉されるかが数量化される。
前に議論した全指向性パターンは0次パターンとも呼ばれ、前に言及した他のパターン(双極子およびカージオイド)は第1次パターンと呼ばれる。前に議論したすべてのマイク設計は、それらの指向性パターンがそれらの機械的構造によってすべて決定されることから、任意の指向性パターンの形のとることはできない。
この問題を部分的に解決するために、いくつかの特定された音響構造が設計されており、その構造は第1次マイクの指向性パターンよりも狭い指向性パターンを生成するのに用いることができる。たとえば、中に穴があるチューブが全指向性マイクに付随しているとき、狭い指向性パターンを有するマイクを生成することができる。これらのマイクは、ショットガンマイクまたはライフルマイクと呼ばれる。しかしながら、それらは典型的には平らな周波数応答を有さない。すなわち、指向性パターンは、記録された音声の質を犠牲にして狭くなっている。さらに、指向性パターンは、幾何学的な構造によって予め定められるため、そのようなマイクで行なわれる記録の指向性パターンは、記録後に制御することができない。
それゆえ、実際の記録後に指向性パターンを部分的に変更することのできる他の方法が提案されている。一般に、これは、全指向性マイクまたは指向性マイクの列で音声を記録し、その後に信号処理を適用するという基本的考えに基づく。そのような種々の技術が最近提案されている。非常に単純な例は、互いに近接して置かれた2つの全指向性マイクで音声を録音し、両信号を互いから減算することである。これは、双極子と等価な指向性パターンを有する仮想のマイク信号を生成する。
他のより洗練された方式では、マイク信号が総和される前にマイク信号を遅延またはフィルタリングすることもできる。無線LANからも知られる技術であるビーム整形を用いることで、狭いビームに対応する信号は、各マイク信号を特別に設計されたフィルタでフィルタリングし当該フィルタリング後に信号を総和する(フィルタ総和ビーム整形)ことによって形成される。しかしながら、これらの技術は、信号自体には目が向けられていない、すなわち、それらの技術は音声の到達方向には無関心である。このように、予め定められた指向性パターンが定義される必要があり、それは所定の方向における音声源の実際の存在とは無関係である。一般に、音声の「到達方向」の評価は、その評価自身によって行なうこととなる。
一般に、数多くの異なる空間的な指向特性は、上記の技術によって形成することができる。しかしながら、任意の空間選択的な感度パターンを形成すること(つまり狭い指向性パターンを形成すること)は、多くの数のマイクを必要とする。
多チャンネル記録を生成する代替的な方法は、記録される各音声源(たとえば機器)に近接してマイクを配置し、最終ミキシングにおいて近いマイク信号のレベルを制御することによって、空間的印象を再生成することである。しかしながら、そのようなシステムは、最終的なダウンミックスを生成する際に、多くの数のマイクおよび多くのユーザ交流が必要とされる。
上記の問題を解決する方法が最近提案され、方向性音声符号化(DirAC)と呼ばれている。DirACは、異なるマイクシステムで使用され得、任意のラウドスピーカ設定で再生するために音を録音することができる。DirACの目的は、任意の幾何学的設定を有する多チャンネルラウドスピーカシステムを用いて、既存の音響環境の空間的印象をできるだけ正確に再生することである。録音環境内では、(連続的な録音された音響またはインパルス応答であり得る)環境の応答が、1つの全指向性マイク(W)を用いて、および音の到来方向と音の拡散性とを測定可能な1組のマイクを用いて測定される。以下の段落および本願においては、「拡散性」という用語は、音の非指向性の尺度として理解されるべきである。つまり、あらゆる方向から等しい強度で聴取位置または録音位置に到来する音は、最大限に拡散している。拡散を定量化する一般的な方法は、間隔[0,…,1]からの拡散値を用いることであり、ここで1という値は、最大限に拡散している音を表わし、0という値は、完全に指向性の音、すなわち1つの明らかに識別可能な方向のみから生じる音を表わす。音の到来方向を測定する一般に知られた一方法は、デカルト座標軸と整列された3つの8の字マイク(XYZ)を適用することである。特殊なマイク、いわゆる「音場マイク」がこれまで設計されており、それはあらゆる所望の応答を直接生み出す。しかしながら、上述のように、W、X、YおよびZ信号はまた、1組の別々の全指向性マイクから計算されてもよい。
DirAC解析では、録音された音声信号は、人間の聴覚知覚の周波数選択に対応する周波数チャネルに分割される。つまり、当該信号は、人間聴覚の周波数選択に適応した帯域幅を有する数多くの周波数チャネルに当該信号を分割するために、たとえばフィルタバンクまたはフーリエ変換によって処理される。その後、当該周波数帯域の信号は、音声の起源の方向および予め定められた時間分解能での各周波数チャネルに対する拡散値を決定するために分析される。この時間分解能は、固定されている必要がなく、もちろん記録環境に適用させ得る。DirACでは、1またはそれ以上の音声チャネルが、解析された方向および拡散データとともに記録または伝送される。
合成または復号化において、最終的にラウドスピーカに適用された音声チャネルは、(使用されたマイクの全指向性の指向パターンにより高品質で録音された)全指向性チャネルWに基づくことができ、または、各ラウドスピーカに対する音声は、W、X、YおよびZの重み付けされた総和として計算され得、これにより、各ラウドスピーカに対してある指向特性を有する信号を形成する。符号化に対応して、各音声チャネルは周波数チャネルに分割され、それは分析された拡散性に応じて、拡散および非拡散のストリームに選択的にさらに分割される。もし拡散性が高く計測されれば、拡散ストリームは、両耳用キュー符号化(Binaural Cue Coding)にも用いられる非相関技術のように、音声の拡散知覚を生成する技術を用いて再生され得る。非拡散の音声は、解析すなわちDirAC信号の生成において見出された指向性データによって示される方向に位置する点状の仮想音声源の生成を目指す技術を用いて再生される。つまり、空間的再生は、従来技術(たとえば5.1)のように1つの特別で「理想的な」ラウドスピーカ設定に調整されるのではない。これは、記録において用いられるマイクの指向性パターンについての知識を用いた指向性パラメータ(つまりベクトルによって記載される)として音声の起源が決定されるような場合に特にそうなる。既に議論したように、3次元空間における音声の起源は、周波数選択の方法においてパラメータ化される。そのように、指向性の印象は、ラウドスピーカ設定の幾何学的構成が既知である限り、任意のラウドスピーカ設定に対して高い品質で再生され得る。それゆえ、DirACは、特殊なラウドスピーカの幾何学的構成に限定されず、一般に音声のより柔軟な空間的再生が可能である。
米国特許出願第5,812,674号明細書は、仮想の音声源によって生成される音響品質の模擬実験のため、および1以上の聴取者に対するこの源の局所化のための方法に関する。所望の自然な再生を達成するために、空間、所望の音響品質および仮想の音声源の局所化を定義する知覚パラメータが用いられる。これらの値は、そのエネルギー分布によって時間および周波数の関数として記載されるパルス応答を計算するのに用いられる。室内効果を考慮するために背景補償が行なわれ、室内の記載に基づいて基本信号の人工的な音響が計算される。前に記載した方法で室内音響が一度決定されれば、記録された音声サンプルは、それらが人工的に創造された室内で記録されたかのように聞こえるようにするために後処理され得る。
多チャンネルの音声記録を再生し、後の多チャンネル再生に適切な信号を記録するために、数多くの技術が開発されているが、いずれの従来技術によっても、たとえば1つの明確な所望の方向からの信号の明瞭性が高められるように、再生の間に音声信号の起源の方向が強調できるように、既に記録された信号に影響を与えることはできない。
発明の概要
この発明の一実施例によれば、少なくとも1つの音声チャネルを有する音声信号と、記録位置に関して音声チャネルの部分の起源の方向を示す関連した方向パラメータとは、1つの明確な方向または多くの明確な方向から来る信号の知覚性を高められるように再構築することができる。
つまり、再生において、記録位置に関する起源の所望の方向は選択され得る。再構築された音声信号の再現された部分を導き出す間、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度が、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して増大するように、音声チャネルの部分が調整される。1つの音声チャネル信号または多チャネルの信号の部分の起源の方向は、記録の間に選択された方向に位置する音声対象のよりよい知覚が可能となるように強調することができる。
この発明のさらに別の実施例によれば、ユーザは再現の間、当該選択された方向に関連する音声チャネルの部分または多数の音声チャネルの部分が強調されるように、つまり、それらの強度または振幅が残りの部分に関して増加するように、どの方向またはどの複数の方向が強調されるかを選択し得る。実施例によれば、特定の方向からの音声の強調または減衰は、方向パラメータを実施していないシステムよりも一層鋭い空間分解能でなされる。この発明のさらに他の実施例によれば、通常のマイクでは達成し得ない任意の空間重み付け関数を特定することができる。さらに、当該重み付け関数は、この発明のさらに他の実施例が高い柔軟度で使用され得るように、時間および周波数で変化し得る。さらに、当該重み付け関数は、ハードウェア(たとえばマイク)を交換する代わりにこれらをシステムにロードすればよいだけなので、実施および更新が非常に容易である。
この発明のさらに別の実施例によれば、高い拡散性を有する音声チャネルの部分の強度が、関連するより低い拡散性を有する音声チャネルの他の部分に対して減少するように、音声チャネルの部分の拡散性を示す拡散パラメータである関連した拡散パラメータを有する音声信号が再構築される。
このように、音声信号の再構築において、再現された信号の方向性知覚をさらに高めるために、音声信号の個々の部分の拡散性が考慮される。これはさらに、音声源のよりよい再配置のために、拡散情報を利用するよりもむしろ信号の全体の拡散性を増大させるために拡散音声の部分のみを使用する技術に対する音声源の再配置を増加させ得る。この発明はまた、周囲の信号のように、拡散起源からの記録された音声の部分を逆に強調することも可能とする。
この発明のさらに別の実施例によれば、少なくとも1つの音声チャネルが多数の音声信号に混合される。多数の音声チャネルは、再生に利用可能なラウドスピーカの数に対応し得る。任意のラウドスピーカ設定が音声源の再配置を高めるのに用いられてもよい一方、音声源の方向は常に、利用可能なラウドスピーカの数に関係なく、現存する機器で可能な限り再生されることが保証され得る。
この発明のさらに別の実施例によれば、再生はモノラルのラウドスピーカを介してでも行なわれ得る。もちろん、その場合、信号の起源の方向は、ラウドスピーカの物理的な位置となる。しかしながら、記録位置に対する信号起源の所望の方向を選択することにより、選択された方向から生じる信号の可聴性は、単純なダウンミックスの再生の場合と比べて、顕著に増大し得る。
この発明のさらに別の実施例によれば、1以上の音声チャネルがラウドスピーカに対応するチャネルの数に混合されるとき、信号の起源の方向は正確に再生され得る。起源の方向は、たとえば振幅パンニング技術を用いることにより、可能な限り再構築することができる。知覚品質をさらに高めるために、選択された方向にも依存する付加的な位相シフトが導入されてもよい。
この発明のある実施例によれば、方向/拡散の評価を決定するのに用いられるマイクが少なくとも平らな周波数応答を有する必要が必ずしもないため、音声品質に深刻な影響を与えることなしに、音声信号を記録するためのマイクロホンカプセル部の費用をさらに低減させることができる。
この発明のいくつかの実施例を、図面を参照して以下に説明する。
音声信号を再構築するための方法の実施例を示す図である。 音声信号を再構築するための装置のブロックダイヤグラムを示す図である。 さらなる実施例のブロックダイヤグラムを示す図である。 テレビ会議の状況における独創的な方法または独創的な装置の応用の例を示した図である。 音声信号の方向性知覚を高めるための方法の実施例を示す図である。 音声信号を再構築するための復号器の実施例を示す図である。 音声信号の方向性知覚を高めるためのシステムの実施例を示す図である。
好ましい実施例の詳細な説明
図1は、少なくとも1つの音声チャネルを有する音声信号と、記録位置に関して音声チャネルの部分の起源の方向を示す関連した方向パラメータとを再構築するための方法の実施例を示す。選択ステップ10において、記録位置に対する起源の所望の方向は、再構築された音声信号の再構築部分のために選択され、当該再構築された部分は、音声チャネルの部分と対応している。つまり、処理される信号部分に対して、信号部分が再構築後にそこから明確に聴取可能な起源の所望の方向が選択される。当該選択は、以下に詳述するように、ユーザ入力によって直接されるか自動的にされ得る。
部分とは、時間部分、周波数部分、または音声チャネルのある周波数間隔の時間部分となり得る。調整ステップ12では、再構築された音声信号の再構築された部分を導き出すために音声チャネルの部分が調整され、当該調整は、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることを含む。つまり、そのような音声チャネルの部分は、たとえば音声チャネルの部分にスケーリング因子を乗算することで行なわれ得るそれらの強度またはレベルを増大させることによって強調される。実施例によれば、選択された(所望の)方向に近接した方向から生じる部分は、再構築におけるこれらの信号の部分を強調し、聴取者が関心を持つこれら音声記録された対象物の可聴性を向上させるために、大きなスケールの因子で乗算される。一般に、この応用の文脈において、信号の強度またはチャネルを増大させることは、信号をより可聴化するあらゆる方策として理解される。これはたとえば、信号の振幅または信号によって運ばれるエネルギーを増大させているか、または1以上のスケール因子で信号を乗算させ得る。あるいは、当該効果が得られるように、競合する信号の音の大きさが低減され得る。
所望の方向の選択は、聴取場所でのユーザによってユーザインターフェイスを介して直接行なわれ得る。しかしながら、代替的な実施例によれば、ほぼ同じ起源を有する周波数部分が強調される一方で音声チャネルの残りの部分が抑制されるように、当該選択はたとえば、指向性パラメータの解析によって自動的に実行され得る。このように、視聴側で付加的なユーザ入力を要求することなく、主たる音声源に信号が自動的に焦点合わせされることが可能である。
さらに他の実施例によれば、起源の方向が設定されているため、選択ステップが省略される。つまり、設定方向に近い起源の方向を示す方向パラメータを有する音声チャネルの部分の強度が増大する。設定方向はたとえばハードウェアであり得る、すなわち、方向は予め定められ得る。たとえばテレビ会議の状況において中心の話者のみに関心があれば、予め定められた設定方向を用いてこれを行なうことができる。代替的な実施例からは、設定方向として用いられる多くの代替的な方向も記憶し得るメモリからの設定方向を読み取ることができる。代替的な実施例の一つは、たとえば独創的な装置に向けられたときに読み取ることができる。
代替的な実施例によれば、所望の方向の選択は、再生のための所望の方向を示す音声信号により付加的なパラメータが伝送されるように、符号器側つまり信号の記録においても行なわれ得る。このように、再現された信号の空間的知覚は、再生のために用いられる特殊なラウドスピーカ設定の知識なしに、符号器において既に選択され得る。
音声信号を再構築するための方法は、再構築された音声信号を再生する目的の特定のラウドスピーカの設定とは独立しているため、当該方法は、ステレオまたは多チャンネルのラウドスピーカ構成のみならずモノラルのラウドスピーカ構成にも適用され得る。つまり、さらなる実施例によれば、再生された環境の空間的な印象は、信号の認知性を高めるために後処理される。
モノラル再生のために使用されたとき、当該効果は、任意の方向パターンを形成することのできる新たな型のマイクで信号を記録するものとして解釈され得る。しかしながら、この効果は、記録設定を何も変化させることなく、受信端すなわち信号再生の間に十分達成することができる。
図2は、音声信号の再構築のための装置(復号器)の実施例すなわち音声信号を再構築するための復号器20の実施例を示す。復号器20は、方向選択器22および音声部分調整器24を含む。図2の実施例によれば、いくつかのマイクによって記録された多チャンネル音声入力26は、音声チャネルの部分の起源の方向、すなわち解析された信号部分の起源の方向を示す方向パラメータを導く方向解析器28によって解析される。この発明の一実施例によれば、そこからエネルギーの多くがマイクに向かう方向が選ばれる。記録位置は、それぞれの特定の信号部分に対して決定される。これは、たとえば前述したDirACマイク技術を用いても行なうことができる。もちろん、記録された音声情報に基づく他の指向性解析方法は、この解析を実施するのに用いられてもよい。その結果、方向解析器28は、音声信号の部分の起源の方向または多チャンネル信号26の部分の起源の方向を示す方向パラメータ30を導出する。さらに、方向解析器28は、それぞれの信号部分に対する(たとえば、各周波数間隔に対するまたは信号の各時間フレームに対する)拡散パラメータ32を導き出すように動作し得る。
方向パラメータ30、および選択的に拡散パラメータ32は、再構築された音声信号の再現された部分に対する記録位置に関する起源の所望の方向を選択するように行なわれる方向選択器22に伝送される。所望の方向に対する情報は、音声部分調整器24に伝送される。音声部分調整器24は、方向パラメータが導出される部分を有する少なくとも1つの音声チャネル34を受ける。音声部分調整器によって調整される少なくとも1つのチャネルは、たとえば、従来の多チャンネルのダウンミックスアルゴリズムによって生成される多チャンネル信号26のダウンミックスとなり得る。1つの非常に単純な事例は、多チャンネル音声入力26の信号の直接的な総和であろう。しかしながら、独創的な実施例が入力チャネルの数によって制限されないため、代替的な実施例において、すべての音声入力チャネル26は、音声復号器20によって同時に処理され得る。
音声部分調整器24は、再構築された音声信号の再構築された部分を導き出すために音声部分を調整し、当該調整は、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対し、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることを含む。図2の例では、調整される音声チャネルの部分にスケーリング因子36(q)を乗算することによって調整が行なわれる。つまり、もし音声チャネルの部分が、選択された所望の方向に近接した方向から生じているように解析された場合、大きなスケーリング因子36は音声部分によって乗算される。このように、その出力38では、音声部分調整器は、その入力で与えられた音声チャネルの部分に対応する再構築された音声信号の再構築された部分を出力する。音声部分調整器24の出力38での破線によってさらに示されるように、これはモノラル出力の信号に対して行なわれるのみならず、出力チャネルの数が固定されず予め定められてもいない多チャンネルの出力信号に対しても行なわれる。
言い換えると、音声復号器20の実施例は、たとえばDirACで用いられるような指向性解析からその入力を取る。マイク列からの音声信号26は、人間聴覚システムの周波数分解能に従って周波数帯域に分割され得る。音声の方向および選択的には音声の拡散性は、各周波数チャネルにおいて時間に応じて解析される。これらの特性は、たとえば、方位角(azi)および仰角(ele)の方向として、および0と1との間で変化する拡散指数ψ(Psi)としてさらに説明される。
ここで、意図されたまたは選択された指向特性は、方向角度(aziおよび/またはele)および選択的には拡散指数ψ(Psi)に応じたそれらへの重み付け動作を用いて、捕捉された信号に付与される。明らかに、この重み付けは、異なる周波数帯域に対して異なって特定され得、一般に、時間とともに変化する。
図3は、DirAC合成に基づくこの発明のさらに他の実施例を示す。その意味で、図3の実施例は、解析された方向に応じて音声のレベルを制御することができ、DirAC再生の向上させるものとして解釈され得る。これは、1または多数の方向から来る音声を強調すること、あるいは1または多数の方向からの音声を抑制することを可能とする。多チャンネル再生において適用されるとき、再生された音声画像の後処理が実現される。1つのチャネルが出力として用いられさえすれば、信号の記録の間の任意の指向性パターンでの指向性マイクの使用と等価な効果となる。図3に示される実施例では、1つの伝送された音声チャネルの導出とともに指向性パラメータの導出が示されている。たとえば音場(sound field)マイクによって記録されるように、BフォーマットのマイクチャネルW、X、YおよびZに基づいて解析が行なわれる。
処理は、フレームに従って行なわれる。それゆえ、連続的な音声信号は、フレーム境界での不連続性を避けるために窓関数によってスケーリングされたフレームに分割される。窓信号のフレームは、マイク信号をN周波数帯域に分割するフーリエ変換ブロック40でのフーリエ変換に従う。簡単のため、1つの任意の周波数帯域の処理が次の段落で説明され、残りの周波数帯域も同等に処理される。フーリエ変換ブロック40は、解析された窓フレーム内にBフォーマットのマイクチャネルW、X、YおよびZの各々で表わされる周波数成分の強さを記載する係数を導き出す。これらの周波数パラメータ42は、音声チャネルおよび関連する方向パラメータを導出するための音声符号器44に入力される。図3に示される実施例では、伝送された音声チャネルは、すべての方向からの信号の情報を有する全指向性チャネル46となるように選択される。全指向性のための係数42およびBフォーマットのマイクチャネルの指向性部分に基づいて、指向性および拡散性の解析は、指向性解析ブロック48によって行なわれる。
音声チャネル46の解析された部分に対する音声の起源の方向は、全指向性チャネル46とともに音声信号を再構築するための音声復号器50に伝送される。拡散パラメータ52が存在するとき、信号経路は非拡散経路54aと拡散経路54bとに分岐される。拡散性Ψが高いときにエネルギーまたは振幅の大部分が非拡散経路に残るように、非拡散経路54aは拡散パラメータに従ってスケーリングされる。逆に、拡散性が高いとき、エネルギーの大部分は拡散経路54bに移行される。拡散経路54bでは、非相関器56aまたは56bを用いて、信号が非相関化または拡散される。周波数チャネルごとに異なり得る白色雑音信号で畳み込み積分するような従来から知られた技術を用いて、非相関化を行なうことができる。拡散パラメータΨによって示されるように、信号経路での信号は既にスケーリングされているため、非相関化がエネルギー保存である限り、出力での非拡散信号経路54aおよび拡散信号経路54bの信号を単に付加することによって、最終的な出力を再現することができる。拡散信号経路54bは、適切なスケーリング規則を用いて、ラウドスピーカの数に応じてスケーリングされ得る。たとえば、Nがラウドスピーカの数のとき、拡散経路における信号は1/√Nによってスケーリングされ得る。
再構築が多チャンネル設定に対して行なわれるとき、拡散信号経路54bとともに直接信号経路54aは、(分岐位置58aおよび58bにおける)個々のラウドスピーカ信号に対応する多くの副経路に分岐される。この目的のために、分岐位置58aおよび58bでの分岐は、多数のラウドスピーカを有するラウドスピーカシステムを介して、少なくとも1つの音声チャネルを再生のための多数のチャネルと混合(up-mixing)することと等
価であると解釈され得る。それゆえ、多数のチャネルの各々は、音声チャネル46のチャネル部分を有する。個々の音声部分の起源の方向は、再生のために用いられるラウドスピーカに対応するチャネル部分の強度または振幅を付加的に増加または減少させる方向変更(redirect)ブロック60によって再構築される。この目的のために、方向変更ブロック60は、再生に用いられるラウドスピーカ設定についての知識を一般に必要とする。実際の再分配(方向変更)および関連する重み付け因子の導出は、たとえばベクトルに基づく振幅パンニングのような技術を用いて行なうことができる。幾何学的に異なるラウドスピーカ設定を再分配ブロック60に供給することにより、再生ラウドスピーカの任意の構成は、再生品質の損失なく、独創的な構想を実現するのに用いることが出来る。処理の後、個々のラウドスピーカによって再生され得る時間領域信号を導出するための逆フーリエ変換ブロック62によって、多数の逆フーリエ変換が周波数領域信号に対して行なわれる。再生の前に、ラウドスピーカによって再生されつつある連続的な時間領域信号を導出するための個々の音声フレームを連結させるための総和部64によって、重ね合わせ(overlap)および加算の技術が行なわれなければならない。
図3に示される発明の実施例によれば、Dir−ACの信号処理は、実際に処理された音声チャネルの部分を調整するために音声部分調整器66が導入されるという点において修正され、それにより、所望の方向に近接した起源の方向を示す指向性パラメータを有する音声チャネルの部分の強度を増大させることが可能となる。これは、直接の信号経路に付加的な重み付け因子を適用することによって達成される。つまり、もし処理された周波数部分が所望の方向から生じる場合、当該信号は付加的な利得をその特定の信号部分に適用することによって強調される。利得の適用は、当該効果がすべてのチャネル部分に等しく寄与するように、分岐点58aの前に行なわれ得る
付加的な重み付け因子の適用は、代替的な実施例においても、再分配ブロック60内で行なわれ、その場合、再分配ブロック60は、付加的な重み付け因子によって増加または減少される再分配の利得因子を適用する。
多チャンネル信号の再構築において指向性の向上を用いるとき、図3に示されるように、たとえばDirAC表現の型において再生を行なうことができる。再生される音声チャネルは、指向性解析のために用いられる周波数帯域と等しい周波数帯域に分割される。その後、これらの周波数帯域は、ストリームすなわち拡散および非拡散のストリームに分割される。拡散ストリームは、たとえば、30ms幅の雑音バーストによる畳み込みの後に音声を各ラウドスピーカに適用することによって再生される。雑音バーストは、各ラウドスピーカに対して異なっている。非拡散ストリームは、当然ながら時間に依存する指向性解析から実現される方向に適用される。多チャンネルのラウドスピーカシステムにおいて指向性知覚を実現するには、単純な2重(pair-wise)または3重(triplet-wise)の振幅パンニングが使用され得る。さらに、各周波数チャネルは、解析された方向に応じて、利得因子またはスケーリング因子によって乗算される。一般論として、再生のための所望の指向性パターンを定義する関数が特定され得る。これはたとえば、強調される単一方向のみとなり得る。しかしながら、任意の指向性パターンは、図3の実施例で容易に実行することが可能である。
次の提示では、この発明のさらなる実施例が一連の処理ステップとして説明される。当該リストは、音声がBフォーマットのマイクで記録され、それから、DirAC型の表現または音声チャネルの部分の起源の方向を示す指向性パラメータを供給する表現を用いた多チャンネルまたはモノラルのラウドスピーカ設定での聴取のために当該音声が処理されるという前提に基づく。当該処理は、次のようになる。
1.マイク信号を周波数帯域に分割し、方向および選択的には周波数に応じて各帯域での拡散性を解析する。例として、方向は方位角および仰角(azi、ele)によって
パラメータ化され得る。
2.所望の指向性パターンを記述する関数Fを特定する。当該関数は、任意の形を有し得る。それは、典型的には方向に依存する。もし拡散情報が利用可能なら、それはさらに拡散性にも依存する。当該関数は、異なる周波数に対しては違っていることができ、時間に応じても変化し得る。各周波数帯域において、音声信号の次の重み付け(スケーリング)に用いられる各時間例に対する関数Fから指向性因子qを導き出す。
3.出力信号を形成するための各時間部分および周波数部分に対応する指向性因子のq値を音声サンプル値に乗算する。これは時間領域および/または周波数領域の表現においてなされ得る。さらに、この処理はたとえば、所望の出力チャネルのどのような数に対するDirAC表現の部分としても実施され得る。
前述したように、多チャンネルまたはモノラルのラウドスピーカシステムを用いて結果を聴取することができる。
図4は、テレビ会議の状況内で参加者の知覚可能性を大きく増大させるために創作的な方法および装置がどのように利用され得るのかに関する説明図を示す。記録側100において、記録位置104に対して明確な方角を有する4人の話者102a−102dが描かれている。つまり、話者102cから生じる音声信号は、記録位置104に対して固定された起源の方向を有する。記録位置104において録音された音声信号が、話者102cからの寄与、およびたとえば話者102aおよび102bの議論から生じるいくらかの「背景」雑音を有すると仮定したとき、記録されて聴取場所110に伝送された広帯域信号は両方の信号成分を含む。
例として、6つのラウドスピーカ112a−112fを有する聴取設定が、聴取位置114に位置する聴取者を取り囲んで描かれている。それゆえ、原理的には、聴取者114の周りのほとんど任意の位置から発せられる音声は、図4に描かれた設定によって再生することができる。従来の多チャンネルシステムは、記録の間に記録位置104で経験される空間的知覚を再構築するために、これら6つのスピーカ112a〜112fをできるだけ近接して用いて音声を再生する。それゆえ、従来技術を用いて音声が再生されたとき、話者102cの寄与もまた、議論している話者102aおよび102bの「背景」として明確に聴取可能であり、話者102cの信号の明瞭性を減少させる。
この発明の実施例によれば、方向選択器は、ラウドスピーカ112a−112fによって再生される再構築された音声信号の再構築バージョンのために用いられる記録位置に対する起源の所望の方向を選択するのに用いることができる。それゆえ、聴取者114は、話者102cの位置に対応する所望の方向116を選択することができる。このように、音声部分調整器は、選択された方向116に近接する方向から生じる音声チャネルの部分の強度が強調されるように、再構築された音声信号の再構築された部分を導出する音声チャネルの部分を調整することができる。聴取者は、受信端において、起源のどの方向が再生されるのかを決定し得る。この選択がなされ、話者102cの方向から生じるこれら信号部分のみが強調されることで、議論している話者102aおよび102bは気にならなくなる。選択された方向からの信号を強調するのとは異なり、波形120aおよび120bによって象徴的に示されるように、方向は振幅パンニングによって再生され得る。話者102cがラウドスピーカ112cよりラウドスピーカ112dに近く位置するにつれ、振幅パンニングはラウドスピーカ112cおよび112dを介して強調された信号の再生につながる一方、残りのラウドスピーカはほぼ静かとなる(最終的には拡散信号部分を再生する)。話者102cがラウドスピーカ112dに近接して位置しているため、振幅パンニングは、ラウドスピーカ112cに対してラウドスピーカ112dのレベルを増大さ
せることになる。
図5は、音声信号の指向性知覚を高めるための方法の実施例のブロックダイヤグラムを示す。第1の解析ステップ150では、少なくとも1つの音声チャネルと、記録位置に関して音声チャネルの部分の起源の方向を示す関連する方向パラメータとが導出される。
選択ステップ152では、記録位置に対する起源の所望の方向は、再構築された音声信号の再構築された部分すなわち音声チャネルの部分に対応する再構築された部分に対して選択される。
調整ステップ154では、音声チャネルの部分は、再構築された音声信号の再構築された部分を導出するように調整され、当該調整は、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることを含む。
図6は、少なくとも1つの音声チャネル160を有する音声信号と、記録位置に関して音声チャネルの部分の起源の方向を示す関連する方向パラメータ162とを再構築するための音声復号器の実施例を示す。
音声復号器158は、再構築された音声信号のうち音声チャネルの部分に対応する再構築された部分に対する記録位置に関して起源の所望の方向を選択するための方向選択器164を含む。復号器158は、再構築された音声信号の再構築された部分を導出するための音声チャネルの部分を調整するための音声部分調整器166をさらに含み、当該調整は、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることを含む。
図6に示されるように、復号器が多チャンネルの再生設定で使用されるとき、単一の再構築された部分168が導出されるか、多数の再構築された部分170が同時に導出され得る。音声信号180の指向性知覚を高めるためのシステムの実施例は、図7に示されるように、図6の復号器158に基づく。それゆえ、以下では、付加的に導入された素子のみが記載される。音声信号180の指向性知覚を高めるためのシステムは、多数のマイクによって記録されるモノラル信号または多チャンネル信号であり得る音声信号182を入力として受ける。音声符号器184は、少なくとも1つの音声チャネル160を有する音声信号と、記録位置に関する音声チャネルの部分の起源の方向を示す関連する方向パラメータ162とを導出する。少なくとも1つの音声チャネルおよび関連する方向パラメータは、知覚的に高められた出力信号170を導出するために、図6の音声復号器に対して既に記載されているようにさらに処理される。
この発明は主として多チャンネル音声再生の分野において記載されているものの、応用の異なる分野もこの独創的な方法および装置から利益を受けることができる。例として、この独創的な構想は、テレビ会議の状況において特定の個人の話に(上昇させるか減衰させるかによって)焦点を当てるのに用いられ得る。反響を取り除いたり高めたりするとともに、周囲の成分を除去する(または増幅する)のにも用いることができる。さらに、可能な応用の状況として、周囲の雑音信号の雑音打消しも含む。さらに、聴取を助ける信号の指向性を高めることも、可能な使用となり得る。
独創的な方法の或る実施要件に応じて、ハードウェアまたはソフトウェアにおいて独創
的な方法を実施することができる。当該実施は、デジタル記憶媒体、特に、独創的な方法が行なわれるように、プログラム可能なコンピュータシステムと共同してそこに記憶される電子的に読み取り可能な制御信号を有するディスク、DVDまたはCD等を用いて行なうことができる。それゆえ、この発明は一般に、コンピュータプログラム製品がコンピュータ上で動作するとき、機械読取可能なキャリアに記憶され、独創的な方法を行なうのに作動的なプログラムコードによるコンピュータプログラム製品である。それゆえに、言い換えると、独創的な方法は、コンピュータプログラムがコンピュータ上で動作するとき、少なくとも1つの独創的な方法を行なうためのプログラムコードを有するコンピュータプログラムである。
上述のことがその特定の実施例を参照して特に示され記載される一方、形式および詳細における種々の他の変化は、その精神および範囲から離れることなく為され得ることが当業者によって理解されるだろう。異なる実施例に適用させるに際し、ここに開示され、続く請求項によって理解されるより広い概念から離れることなく、種々の変化がなされることが理解されるべきである。

Claims (17)

  1. 少なくとも1つの音声チャネルと記録位置に関して前記音声チャネルの部分の起源の方向を示す関連した方向パラメータとを有する音声信号を再構築するための方法であって、前記音声チャネルの前記部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、前記方法は、
    記録位置に関して起源の特定の方向を選択するステップと、
    再構築された音声信号の再構築された部分を得るために前記音声チャネルの前記部分を調整するステップとを備え、前記音声信号の再構築された部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、当該調整は、前記起源の特定の方向からさらに離れた起源の方向を示す方向パラメータを有する前記音声チャネルの他の部分に対して、前記起源の特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させるステップを含み,前記音声チャネルの当該部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分である、方法。
  2. 前記起源の特定の方向を選択するステップは、メモリ装置から前記特定の方向を読み取ることを含む、請求項1に記載の方法。
  3. 前記調整するステップは、前記音声チャネルの部分の周波数領域の表現を調整することを含む、請求項1に記載の方法。
  4. 前記調整するステップは、前記音声チャネルの部分の時間領域の表現を調整することを含む、請求項1に記載の方法。
  5. 前記調整するステップは、前記音声チャネルの各部分に対するスケーリング因子を得るステップを含み、該スケーリング因子を得るステップにおいて、第1のスケーリング因子により乗算されるとともに前記記録位置に対して前記起源の第1の方向を示す関連の方向パラメータを有する音声チャネルの第1の部分が第1の強度を有し、第2のスケーリング因子により乗算されるとともに前記記録位置について前記起源の第2の方向を示す音声チャネルの第2の部分が第2の強度を有するように前記第1および第2のスケーリング因子が算出され、前記記録位置についての前記起源の第1の方向は前記記録位置についての前記起源の第2の方向よりも前記特定の方向により近く、かつ前記第1の強度は前記第2の強度よりも大きい、請求項1に記載の方法。
  6. 前記少なくとも1つの音声チャネルの周波数表現を導出するステップをさらに含む、請求項1に記載の方法。
  7. 前記導出するステップは、前記少なくとも1つの音声チャネルの第1および第2の有限幅の周波数間隔の表現を導き出すことを含み、前記第1の周波数間隔の有限幅は、前記第2の周波数間隔の有限幅と異なる、請求項6に記載の方法。
  8. 前記起源の特定の方向選択するステップは、前記特定の方向を示す入力パラメータをユーザ入力として受けることを含む、請求項1に記載の方法。
  9. 前記起源の特定の方向選択するステップは、前記音声信号に関連する前記特定の方向を示す方向パラメータを受けることを含む、請求項1に記載の方法。
  10. 前記起源の特定の方向選択するステップは、前記少なくとも1つの音声チャネルの有限幅の周波数間隔の起源の方向を決定することを含む、請求項1に記載の方法。
  11. 前記音声チャネルに関連した前記音声チャネルの部分の拡散性を示す拡散パラメータを受けることをさらに含み、
    前記音声チャネルの部分を調整するステップは、より低い拡散性を示す拡散パラメータを有する音声チャネルの他の部分に対してより高い拡散性を示す拡散パラメータを有する音声チャネルの部分の強度を減少させることを含む、請求項1に記載の方法。
  12. 多数のラウドスピーカを有するラウドスピーカシステムを介した再生のために、前記少なくとも1つの音声チャネルを多数のチャネルに混合するステップをさらに含み、前記多数のチャネルの各々は、前記少なくとも1つの音声チャネルの部分に対応するチャネル部分を有する、請求項1に記載の方法。
  13. 音声信号の指向性知覚を高めるための方法であって、
    少なくとも1つの音声チャネルと、記録位置に関して前記音声チャネルの部分の起源の方向を示す関連する方向パラメータとを導出するステップを備え、前記音声チャネルの部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、
    前記記録位置に関して起源の特定の方向を選択するステップと、
    高められた音声信号の部分を導き出すように前記音声チャネルの部分を調整するステップとを含み、当該調整するステップは、起源の前記特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの第1の部分の強度を、前記起源の特定の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの第2の部分に対して、より増大させるステップを含む、方法。
  14. 少なくとも1つの音声チャネルと記録位置に関して前記音声チャネルの部分の起源の方向を示す関連した方向パラメータとを有する音声信号を再構築するための音声復号器であって、前記音声チャネルの部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、
    前記記録位置に関して起源の特定の方向を選択するようにされた方向選択器と、
    再構築された音声信号の再構築された部分を得るために前記音声チャネルの部分を調整するための音声部分調整器とを備え、前記音声チャネルの再構築された部分は、時間部分、周波数部分または前記再構築された音声信号の周波数間隔の時間部分であり、
    当該調整は、起源の特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの第1の部分の強度を、前記起源の特定の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの第2の部分に対して、より増大させることを含む、音声復号器。
  15. 音声信号の指向性知覚を高めるための音声符号器であって、
    少なくとも1つの音声チャネルと、記録位置に関して前記音声チャネルの部分の起源の方向を示す関連した方向パラメータとを導出するための信号生成器を備え、前記音声チャネルの部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、
    前記記録位置に関して起源の特定の方向を選択するようにされた方向選択器と、
    高められた音声信号の部分を得るために前記音声チャネルの部分を調整するための信号調整器とを備え、前記音声チャネルの当該部分は、時間部分、周波数部分、または前記音声チャネルの周波数間隔の時間部分であり、当該調整は、起源の特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を、前記起源の特定の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの第2の部分に対して、より増大させることを含む、音声符号器。
  16. 再構築された音声信号を高めるためのシステムであって、
    少なくとも1つの音声チャネルと、記録位置に関して音声チャネルの部分の起源の方向を示す関連した方向パラメータとを有する音声信号を導出するための音声符号器を備え、前記音声チャネルの部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、
    前記記録位置に関して起源の設定方向を選択するようにされた方向選択器と、
    再構築された音声信号の再構築された部分を得るために前記音声チャネルの部分を調整するための音声部分調整器を有する音声復号器とを備え、前記音声信号の再構築された部分は、時間部分、周波数部分、または前記音声信号の周波数間隔の時間部分であり、当該調整は、起源の特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの第1の部分の強度を、前記起源の特定の設定方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して、より増大させることを含む、システム。
  17. コンピュータ上で動作するとき請求項1または13の方法を実行するためのコンピュータプログラムを格納するコンピュータ読み取り可能媒体。
JP2009553930A 2007-03-21 2008-02-01 音声の再現を高めるための方法および装置 Active JP5455657B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US89618407P 2007-03-21 2007-03-21
US60/896,184 2007-03-21
US11/742,488 2007-04-30
US11/742,488 US20080232601A1 (en) 2007-03-21 2007-04-30 Method and apparatus for enhancement of audio reconstruction
PCT/EP2008/000829 WO2008113427A1 (en) 2007-03-21 2008-02-01 Method and apparatus for enhancement of audio reconstruction

Publications (2)

Publication Number Publication Date
JP2010521909A JP2010521909A (ja) 2010-06-24
JP5455657B2 true JP5455657B2 (ja) 2014-03-26

Family

ID=39322757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009553930A Active JP5455657B2 (ja) 2007-03-21 2008-02-01 音声の再現を高めるための方法および装置

Country Status (12)

Country Link
US (1) US20080232601A1 (ja)
EP (1) EP2130403B1 (ja)
JP (1) JP5455657B2 (ja)
KR (1) KR101096072B1 (ja)
CN (1) CN101658052B (ja)
AT (1) ATE476835T1 (ja)
BR (1) BRPI0808225B1 (ja)
DE (1) DE602008002066D1 (ja)
HK (1) HK1138977A1 (ja)
RU (1) RU2416172C1 (ja)
TW (1) TWI456569B (ja)
WO (1) WO2008113427A1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
PL2154677T3 (pl) * 2008-08-13 2013-12-31 Fraunhofer Ges Forschung Urządzenie do wyznaczania konwertowanego przestrzennego sygnału audio
EP2446642B1 (en) * 2009-06-23 2017-04-12 Nokia Technologies Oy Method and apparatus for processing audio signals
WO2011101708A1 (en) * 2010-02-17 2011-08-25 Nokia Corporation Processing of multi-device audio capture
EP2553947B1 (en) 2010-03-26 2014-05-07 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
EP2375410B1 (en) * 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
CN101867853B (zh) * 2010-06-08 2014-11-05 中兴通讯股份有限公司 基于传声器阵列的语音信号处理方法及装置
WO2012004057A1 (en) * 2010-07-06 2012-01-12 Bang & Olufsen A/S A method and an apparatus for a user to select one of a multiple of audio tracks
ES2922639T3 (es) * 2010-08-27 2022-09-19 Sennheiser Electronic Gmbh & Co Kg Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
US9055371B2 (en) * 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
BR112014017457A8 (pt) * 2012-01-19 2017-07-04 Koninklijke Philips Nv aparelho de transmissão de áudio espacial; aparelho de codificação de áudio espacial; método de geração de sinais de saída de áudio espacial; e método de codificação de áudio espacial
EP2832115B1 (en) 2012-03-30 2017-07-05 Barco N.V. Apparatus and method for creating proximity sound effects in audio systems
EP2645749B1 (en) * 2012-03-30 2020-02-19 Samsung Electronics Co., Ltd. Audio apparatus and method of converting audio signal thereof
WO2013150341A1 (en) 2012-04-05 2013-10-10 Nokia Corporation Flexible spatial audio capture apparatus
US9161149B2 (en) 2012-05-24 2015-10-13 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
WO2013186593A1 (en) * 2012-06-14 2013-12-19 Nokia Corporation Audio capture apparatus
US9268522B2 (en) 2012-06-27 2016-02-23 Volkswagen Ag Devices and methods for conveying audio information in vehicles
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
BR122021021506B1 (pt) 2012-09-12 2023-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
US9729993B2 (en) 2012-10-01 2017-08-08 Nokia Technologies Oy Apparatus and method for reproducing recorded audio with correct spatial directionality
US9396732B2 (en) * 2012-10-18 2016-07-19 Google Inc. Hierarchical deccorelation of multichannel audio
EP2733965A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
CN103124386A (zh) * 2012-12-26 2013-05-29 山东共达电声股份有限公司 一种远讲用降噪、消回波、锐指向传声器
US9357306B2 (en) 2013-03-12 2016-05-31 Nokia Technologies Oy Multichannel audio calibration method and apparatus
CN105210389B (zh) * 2013-03-19 2017-07-25 皇家飞利浦有限公司 用于确定麦克风的位置的方法和装置
WO2014162171A1 (en) 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
EP4300488A3 (en) 2013-04-05 2024-02-28 Dolby International AB Stereo audio encoder and decoder
EP2991383B1 (en) * 2013-04-26 2021-01-27 Sony Corporation Audio processing device and audio processing system
WO2014184618A1 (en) 2013-05-17 2014-11-20 Nokia Corporation Spatial object oriented audio apparatus
TWI634798B (zh) * 2013-05-31 2018-09-01 新力股份有限公司 Audio signal output device and method, encoding device and method, decoding device and method, and program
CN104575515A (zh) * 2013-10-23 2015-04-29 中兴通讯股份有限公司 一种提高语音质量的方法及装置
RU2558642C2 (ru) * 2013-12-18 2015-08-10 Владимир Георгиевич Потёмкин Способ формирования сигнала для управления электроакустическим излучателем
EP2942981A1 (en) * 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions
US9959876B2 (en) * 2014-05-16 2018-05-01 Qualcomm Incorporated Closed loop quantization of higher order ambisonic coefficients
KR102454747B1 (ko) * 2014-06-27 2022-10-17 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 장치
CN105992120B (zh) * 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
WO2016168408A1 (en) 2015-04-17 2016-10-20 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
EP3378241B1 (en) * 2015-11-20 2020-05-13 Dolby International AB Improved rendering of immersive audio content
US20170264942A1 (en) * 2016-03-11 2017-09-14 Mediatek Inc. Method and Apparatus for Aligning Multiple Audio and Video Tracks for 360-Degree Reconstruction
JP6634976B2 (ja) * 2016-06-30 2020-01-22 株式会社リコー 情報処理装置、及びプログラム
WO2018064296A1 (en) 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US10257633B1 (en) 2017-09-15 2019-04-09 Htc Corporation Sound-reproducing method and sound-reproducing apparatus
CN109683846B (zh) * 2017-10-18 2022-04-19 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储媒体
CN109688497B (zh) * 2017-10-18 2021-10-01 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储介质
WO2019097017A1 (en) 2017-11-17 2019-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
GB2572419A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2573537A (en) * 2018-05-09 2019-11-13 Nokia Technologies Oy An apparatus, method and computer program for audio signal processing
US11432069B2 (en) 2019-10-10 2022-08-30 Boomcloud 360, Inc. Spectrally orthogonal audio component processing
WO2022020365A1 (en) * 2020-07-20 2022-01-27 Orbital Audio Laboratories, Inc. Multi-stage processing of audio signals to facilitate rendering of 3d audio via a plurality of playback devices

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208860A (en) * 1988-09-02 1993-05-04 Qsound Ltd. Sound imaging method and apparatus
SG49883A1 (en) * 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
JPH07222299A (ja) * 1994-01-31 1995-08-18 Matsushita Electric Ind Co Ltd 音像移動処理編集装置
US5850453A (en) * 1995-07-28 1998-12-15 Srs Labs, Inc. Acoustic correction apparatus
FR2738099B1 (fr) * 1995-08-25 1997-10-24 France Telecom Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe
US5870484A (en) * 1995-09-05 1999-02-09 Greenberger; Hal Loudspeaker array with signal dependent radiation pattern
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3594281B2 (ja) * 1997-04-30 2004-11-24 株式会社河合楽器製作所 ステレオ拡大装置及び音場拡大装置
EP0990370B1 (en) * 1997-06-17 2008-03-05 BRITISH TELECOMMUNICATIONS public limited company Reproduction of spatialised audio
FI116990B (fi) * 1997-10-20 2006-04-28 Nokia Oyj Menetelmä ja järjestelmä akustisen virtuaaliympäristön käsittelemiseksi
DE60010457T2 (de) * 2000-09-02 2006-03-02 Nokia Corp. Vorrichtung und Verfahren zur Verarbeitung eines Signales emittiert von einer Zielsignalquelle in einer geräuschvollen Umgebung
KR100922910B1 (ko) * 2001-03-27 2009-10-22 캠브리지 메카트로닉스 리미티드 사운드 필드를 생성하는 방법 및 장치
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP3810004B2 (ja) * 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
WO2006003813A1 (ja) * 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. オーディオ符号化及び復号化装置
US7720232B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Speakerphone
US8873768B2 (en) * 2004-12-23 2014-10-28 Motorola Mobility Llc Method and apparatus for audio signal enhancement
JP4804014B2 (ja) * 2005-02-23 2011-10-26 沖電気工業株式会社 音声会議装置
WO2006137400A1 (ja) * 2005-06-21 2006-12-28 Japan Science And Technology Agency ミキシング装置及び方法並びにプログラム

Also Published As

Publication number Publication date
TWI456569B (zh) 2014-10-11
CN101658052B (zh) 2013-01-30
TW200841326A (en) 2008-10-16
WO2008113427A1 (en) 2008-09-25
CN101658052A (zh) 2010-02-24
DE602008002066D1 (de) 2010-09-16
EP2130403A1 (en) 2009-12-09
ATE476835T1 (de) 2010-08-15
BRPI0808225B1 (pt) 2019-12-24
RU2416172C1 (ru) 2011-04-10
KR20090121348A (ko) 2009-11-25
BRPI0808225A2 (pt) 2014-07-08
JP2010521909A (ja) 2010-06-24
KR101096072B1 (ko) 2011-12-20
EP2130403B1 (en) 2010-08-04
HK1138977A1 (en) 2010-09-03
US20080232601A1 (en) 2008-09-25

Similar Documents

Publication Publication Date Title
JP5455657B2 (ja) 音声の再現を高めるための方法および装置
US9015051B2 (en) Reconstruction of audio channels with direction parameters indicating direction of origin
US7489788B2 (en) Recording a three dimensional auditory scene and reproducing it for the individual listener
Spors et al. Spatial sound with loudspeakers and its perception: A review of the current state
KR101547035B1 (ko) 다중 마이크에 의한 3차원 사운드 포착 및 재생
Kyriakakis et al. Surrounded by sound
Pulkki et al. First‐Order Directional Audio Coding (DirAC)
Alexandridis et al. Capturing and reproducing spatial audio based on a circular microphone array
Laitinen et al. Binaural reproduction for directional audio coding
KR20150021052A (ko) 3 차원 사운드 압축 및 호출 동안의 오버-디-에어 송신
CN109155895B (zh) 有源监听耳机及用于正则化其反演的方法
CA2744429C (en) Converter and method for converting an audio signal
CN113170271A (zh) 用于处理立体声信号的方法和装置
Ahrens Auralization of omnidirectional room impulse responses based on the spatial decomposition method and synthetic spatial data
Pulkki et al. Directional audio coding-perception-based reproduction of spatial sound
Pfanzagl-Cardone The Art and Science of Surround-and Stereo-Recording
Pulkki et al. Spatial effects
Laitinen Binaural reproduction for directional audio coding
Lokki Recording and reproducing concert hall acoustics for subjective evaluation
Pulkki et al. Spatial impulse response rendering: A tool for reproducing room acoustics for multi-channel listening
AU2002325063B2 (en) Recording a three dimensional auditory scene and reproducing it for the individual listener
Pfanzagl-Cardone Introductory Critical Analysis and Case Studies
Alexandridis et al. Research Article Capturing and Reproducing Spatial Audio Based on a Circular Microphone Array
Kan et al. Psychoacoustic evaluation of different methods for creating individualized, headphone-presented virtual auditory space from B-format room impulse responses
Pulkki et al. Perception-based Reproduction of Spatial Sound with Directional Audio Coding

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120312

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120313

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120319

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130417

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140107

R150 Certificate of patent or registration of utility model

Ref document number: 5455657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250