JP5702599B2

JP5702599B2 - 音声データを処理するデバイス及び方法

Info

Publication number: JP5702599B2
Application number: JP2010508954A
Authority: JP
Inventors: アキエスハルマ; デパルステフェンエルジェイディーイーファン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2007-05-22
Filing date: 2008-05-21
Publication date: 2015-04-15
Anticipated expiration: 2028-05-21
Also published as: WO2008142651A1; CN101681663A; EP2153441A1; CN101681663B; KR101512992B1; JP2010528335A; US20100215195A1; KR20100017860A

Description

本発明は、音声データを処理するデバイスに関する。

更に本発明は、音声データを処理する方法に関する。

更に本発明は、プログラム要素に関する。

更に本発明は、コンピュータ可読媒体に関する。

音声再生デバイスは、ますます重要になっている。特に、数多くのユーザが、ヘッドホンベースの音声プレーヤ及びラウドスピーカベースの音声サラウンドシステムを購入している。

異なる音声アイテムが次々に音声プレーヤで再生されるとき、２つの連続するトラック間で明らかな継ぎ目なく移行が行われることが望ましい。これは、「ミキシング」と表されることができる。「クロスフェード」では、１のトラックから別のトラックへの移行フェーズの間トラックをクロスフェードさせることができる。自動化システムにおいて、トラック間の継ぎ目のない移行を提供するために、終了するトラックの増幅は通常、開始トラックの増幅が増加されるのと同じ率で低下されることになる。

連続した曲の間の滑らかな移行を得るためのミキシング及びクロスフェードを含む曲の自動再生を可能にする方法が知られている。斯かる技術は、オートＤＪと表されることができる。再生リストが提供されると、移行の間、音声品質の主観的な認識が適切であるよう、再生リストに含まれる全ての曲を規定通りに(per definition)再生することはできない。

従来のオートＤＪシステムは、テンポ及びハーモニをクラッシュさせる(clashing)ことを可能にしてクロスフェードを盲目的に行うことを可能にする。これは、知覚的に不快な（「下手なＤＪ」の）経験を与える場合がある。ノーマルユーザにより規定される再生リストの場合、ずれのある(unmatched)移行が発生することが、プロのＤＪにより作られる再生リストの場合よりずっと多い。

別の従来のシステムは、ハーモニのミキシングが発生しないよう、短時間のブレークが２つの再生アイテムの間に残されるというルールに基づかれ、テンポの連続性が分断される。即ち、無音状態が生じる。この手法は、再生リストにおける２つのアイテムが時間的に分離されることを効率的に作りだし、休止が十分に長い場合、リズム又はハーモニの不連続性を経験させることがない。任意のオートＤＪの効果には、明らかに、斯かる概念が存在しない。

ユーザが音声再生リスト、レコード又は他の音楽コレクションを聞くとき普通行うことは、例えば、プレーヤ上の「next」又は「previous」ボタンをそれぞれ押すことにより、１つのアイテムから別のアイテムへと前方又は後方にジャンプすることである。これは、音声アイテムの開始から終了までの間のどこででも行われることができる。これが音声プレーヤにおいて実現される態様は、現在のアイテムが無音にされ、新たなトラックが再生を開始するというものである。

ある音声トラックから別の音声トラックへ移行させるときのより洗練された方法は、２つのトラックをミックスするオートＤＪシステムである。これは、あるトラックから別のトラックへの移行が、あるアイテムの終わりを別のアイテムの始まりに一体化するのにダンスミュージックのＤＪが行うのと同様の手法で実現されるものである。２つの信号は、同期化されることができ、これらの信号は、１つアイテムから別のアイテムへと滑らかに移行したという印象を与えるため、徐々にクロスフェードされる。

米国特許出願公開第２００５／００４７６１４Ａ１号は、例えばサラウンド環境といったマルチチャネル音声環境において、曲から曲への移行を強化するシステム及び方法を開示する。この方法では、移行の間、各プログラムの様々なチャネルのボリュームを独立に操作することにより、曲が終わりかけている印象を作り出すため終了を開始しているプログラムに、移行の錯覚が与えられ、一方、この曲が始まろうとしている印象を作り出すため開始し始めているプログラムに、移行が与えられる。

しかしながら、移行が安易な態様で擬態されるので、米国特許出願公開第２００５／００４７６１４Ａ１号による２つの音声部分間の移行は、人間のリスナーにとってはまだ人工的に聞こえる場合がある。

本発明の目的は、音声アイテムの始め又は終了での適切な音声経験を可能にする音声システムを提供することである。

上記目的を実現するため、独立請求項に記載の音声データを処理するデバイス、音声データを処理する方法、プログラム要素及びコンピュータ可読媒体が提供される。有利な実施形態は、従属項において規定される。

本発明の例示的な実施形態によれば、音声データを処理するデバイスが提供される。このデバイスは、移行部分の時間関連音声特性が修正される態様で（特に、現実的な態様で移行の時間的遅延効果をシミュレーションすることが可能である）、上記音声データの第１の音声アイテムの移行部分を選択的に操作する（特に、再サンプリングする）よう適合される操作ユニット（特に再サンプリングユニット）を有する。

本発明の別の例示的な実施形態によれば、音声データを処理する方法が提供される。この方法は、上記音声データの第１の音声アイテムの移行部分を、上記移行部分の時間関連音声特性が修正される態様で選択的に操作するステップを有する。

本発明の更に別の例示的な実施形態によれば、プログラム要素（例えばソースコード又は実行コードにおけるソフトウェアルーチン）が提供される。これは、プロセッサにより実行されるとき、上述した特徴を持つデータ処理方法を制御又は実行するよう構成される。

本発明の更に別の例示的な実施形態によれば、プロセッサにより実行されるとき、上述した特徴を持つデータ処理方法を制御又は実行するよう構成されるコンピュータープログラムが格納されるコンピュータ可読媒体（例えばＣＤ、ＤＶＤ、ＵＳＢスティック、フロッピー（登録商標）ディスク又はハードディスク）が提供される。

本発明の実施形態に基づき実行されることができる音声テンポ操作及び／又は周波数変性目的でのデータ処理は、コンピュータープログラムにより、即ちソフトウェアにより、又は１つ若しくは複数の特別な電子機器最適化回路を使用することにより、即ちハードウェアにより、又はハイブリッド形式で、即ちソフトウェア要素及びハードウェア要素を用いて実現されることができる。

本願の文脈において、「操作する」という用語は、音声データストリーム又は音声データ部分の特定の部分の時間的又は周波数関連特性を選択的に修正するため、この部分を再計算することを特に表すことができる。時間的又は周波数関連特性とは、即ち、音声に関する経験に関して影響を与える、音再生のテンポ及びピッチに関するパラメタである。従って、特にドップラー効果を得るため、例えばテンポ及び／又はピッチといった特性が、斯かる操作により修正されることができる。従って、操作又は再サンプリングは、本来記録されたファイルにおける特性とは異なる特性を持つ音ファイルにおいてサンプルを再計算することにより実行されることができる。これは、音声部分の間の移行の知覚を改善する態様で、サンプルを除去すること、利用可能な周波数範囲を修正すること、一時停止を導入すること、トーンの再生時間増加又は減少させること等を含むことができる。特に、終了及び開始トラックの知覚的な減結合を可能にするピッチ移行効果が、後続の音声部分の間のテンポ及びハーモニクラッシュを回避することができるからである。

音声アイテムの「移行部分」という用語は、特に音声アイテムの開始部分及び／又は終了部分を表すことができる。これらの部分で、音声アイテムと別の（先行する又は後続の）音声アイテムとの間、又は音声アイテムと無音の時間間隔との間の移行が発生する。

「時間関連音声特性」という用語は、特に時間特性及び対応する音声パラメタが特定の態様で調整されることができることを表すことができる。特定の態様とは、例えば音声部分をフェードイン又はフェードアウトする印象を強調する態様である。これは、周波数変動を含むことができる。周波数変動は、いわゆる音響ドップラー効果として知られ、音声アイテムのフェードイン又はフェードアウトを示す直観的な手段である。

本発明の例示的な実施形態によれば、音声アイテムと以前の又は後続の音声情報との間の移行の人間の耳に対する知覚を改善するよう、音声部分の移行部分が選択的に処理される。フェードイン及び／又はフェードアウトの間、時間関連音声再生特性を変化させることにより、接近している又は離脱している音源の印象が生成されることができる。これは、それぞれ、新たな曲の開始又は現在再生される曲の終了と心理学的に相関されることができる。

こうして、例示的な実施形態によれば、オートＤＪ操作に関する動的なミキシングが可能にされることができる。オートＤＪシステムにおいて、迷惑な不連続性が起こらないよう、曲移行が実行されることができる。これは一般に、クロスフェードする２つの連続的な曲により行われることができる。滑らかな移行を得るための要件は、曲のテンポ及びリズムがミキシング領域において揃えられること、及び曲がミキシング領域において整合する倍音特性を持つことである。これは従来は、別の曲の後に再生されることができる曲に関する制約を置く。例示的な実施形態によれば、テンポ、リズム及びハーモニを揃える必要性は、移行の間、各曲に対してサンプリング周波数における異なるグライディング変化を適用することにより克服されることができる。グライディングサンプリング周波数は、テンポ、リズム及び倍音クラッシュが問題とならないようミックスされる２つの曲の自然な減結合を作成することができる。こうして、本発明の実施形態は、すべての再生リスト（又は曲のペア）がオートＤＪ方法を用いてクロスフェードさせられることができるわけではないという制限を克服することができる。本発明の実施形態は、一時停止による時間的分離以外の方法で、再生リストの２つのアイテムを知覚的に分離させる他の可能な方法が存在するという認識に基づかれる。このために、１つ又は２つの音声信号のスペクトルの動的なシステマティックな操作を使用することが可能である。特に、曲のミキシング領域において、一方の曲がグライドダウンされる周波数及びテンポを持ち、他方の曲がグライドアップされる周波数及びテンポを持つよう曲の操作／再サンプリングが実行される方法を実行することが可能である。こうして、強制的移行及びオートＤＪ用途における音声アイテムの時間的操作が使用されることができ、周波数グライド効果をもたらす十分に強いドップラーシフト効果が導入されることができるという考慮に基づかれることができる。こうして、オートＤＪ用途に対する動的なミキシングが可能にされることができる。曲がテンポ、リズム、倍音成分等において同じである必要がないよう、オートＤＪシステムにおいてミックスされる２つの曲の自然な減結合が可能にされることができる。これは、終了しつつある曲のテンポ及び／又は周波数が元の周波数からより低い周波数へグライドダウンし、開始しつつある曲のテンポ及び／又は周波数は異なる周波数輪郭で元の周波数の方へグライドダウンするよう、移行期間において２つの曲を操作することにより作成されることができる。これは、空間移行効果の副産物として実現されることもできる。２つの曲の仮想源の運動錯覚が作成されることができ、ドップラー効果が生成されることができる。源の運動錯覚を作成する方法に基づき、これは、しばしばドップラー効果も生成することができる。即ち、ドップラー効果は運動効果の結果である。

次に、音声データを処理するデバイスの追加の例示的な実施形態が説明されることになる。しかしながら、これらの実施形態は、音声データを処理する方法、プログラム要素、及びコンピュータ可読媒体にも適用される。

第１の音声アイテムの移行部分は、第１の音声アイテムの終了部分とすることができる。言い換えると、漸進的な又は階段状の態様で時間特性を調整することにより、第１の音声アイテムの終了をスムーズにフェードアウトさせる操作が実行されることができる。

追加的に又は代替的に、第１の音声アイテムの移行部分は、第１の音声アイテムの開始部分とすることができる。言い換えると、漸進的な又は階段状の態様で時間特性を調整することにより、第１の音声アイテムの開始をスムーズにフェードインさせる操作が実行されることができる。こうして、音声アイテムの開始部分だけ、音声アイテムの終了部分だけ又は音声アイテムの開始部分及び終了部分の両方を操作することが可能である。音声アイテムの中間の部分が斯かる態様で操作されることも可能である。例えば、ユーザは、第１の曲の中央で再生を停止し、第２の曲の先頭から又は中央のどこかから第２の曲を再生開始することができる。言い換えると、音声アイテムの自然な開始又は自然な終了は、移行部分に一致して／含まれていても一致しなくて／含まれていなくてもよい。従って、本発明の例示的な実施形態による選択的な時間的操作は、曲の中央で実行されることもできる。

特に、操作ユニットは、第１の音声アイテムの操作終了部分のテンポ及び周波数からなるグループの少なくとも１つがグライドアウトされる態様で、第１の音声アイテムの終了部分を操作するよう適合されることができる。こうして、斯かる音声コンテンツを再生するとき音声知覚に影響を与える斯かる時間関連音声パラメタを考慮することにより、振幅だけでなく周波数における減少でもある、救急車が離れるときのサイレンから知られる音響ドップラー効果の印象を得ることが可能である（離れていく救急車のサイレン音の周波数は、接近してくる救急車のサイレン音の周波数より低いが、救急車が観測者に対する速度を加速又は減速しない限り、周波数における減少（グラインディング）は起きない点に留意されたい。）。特に、フェードアウトする音声アイテムの終了部分が操作されるとき、テンポ及び／又は周波数は減らされることができる。

本発明の実施形態は、連続的に再生される音声アイテムの間の滑らかな移行を提供することに焦点をあてるが、正確に１つの音声アイテムだけ、例えば終了部分においてソフトに無音化される音声アイテムだけを処理することが可能である。

しかしながら、操作ユニットは、移行部分の時間関連音声特性が修正される態様で、第２の音声アイテム（これは、第１の音声アイテムに後続することができる）の移行部分を操作するよう適合されることもできる。こうして、第１の音声アイテム及び第２の音声アイテムの間の移行は、両方の移行部分において時間関連音声特性を考慮することによりスムーズに実行されることができる。移行部分の間、第１の及び第２の音声アイテムは、同時に再生されることができるが、異なる音声パラメタを持つ。

特に、第２の音声アイテムの移行部分は、第２の音声アイテムの開始部分とすることができる。そして、操作ユニットは、第２の音声アイテムの操作開始部分のテンポ及び周波数からなるグループの少なくとも１つが、グライドイン／フェードインする態様で、第２の音声アイテムの開始部分を操作するよう適合されることができる。斯かるフェードイン効果に対して、第２の音声アイテムの移行部分が完了されるまで、テンポ及び周波数を（漸進的な又は階段状の態様で）増加させることが適切でありえる。

操作ユニットは、第１の音声アイテムの移行部分（開始部分又は終了部分）だけ、又はこの移行部分（開始部分及び終了部分）の複数を選択的に操作するよう適合されることができる。一方、第１の音声アイテムの残りの（中央）部分は、サンプリングされないまま、即ち変更が加えられないままとすることができる。従って、後続で再生される音声信号をスムーズにフェードインした後、移行レジームの完了後音声アーチファクトが発生しないよう、元のデータはリプレイされることができる。

操作ユニットは、第１の音声アイテムの移行部分及び第２の音声アイテムの移行部分を調整された態様で操作するよう適合されることができる。従って、（離れている音声源のドップラー効果をもたらす）フェードアウトされるアイテムのテンポ及び周波数の減少は、（接近している音声源のドップラー効果をもたらす）テンポ及び周波数が増加される後続の音声信号のフェードインと調和された態様で結合されることができる。これは、ミックスされる２つの曲がテンポ、リズム又は倍音クラッシュに関して互いに対応する必要がないよう、非常に異なる起源の音声コンテンツの間でさえ、音響的に適切な移行部分が存在することを可能にすることができる。

操作ユニットは、第１の音声アイテムを再生する音声源が移行部分の間移動している音声経験を生成する態様で、第１の音声アイテムを処理するよう適合される運動経験生成ユニットとして機能することもできる。しかしながら、動く音声源の斯かる印象が、音声アイテムのラウドネス（接近している対象物に対する増加するラウドネス及び離れている対象物に対する減少するラウドネス）の単純な変動に必ずしも限定されるというわけではない。しかし、斯かる運動知覚は、音声源の現実的な運動に関連付けられるチャネル時間遅延にわたる時間修正の作成を考慮することにより、更に改善されることができる。特に、音響ドップラー効果は、離れる又は接近する音源のラウドネスだけでなく、周波数、テンポ及び他の時間関連音声パラメタも修正する。斯かる時間関連特性を考慮することにより、再生された音声データの移行は、単純なラウドネス調整システムと比較して、明らかにより自然であると、又は動く音源の知覚に近いより正確なものであると知覚されるだろう。

斯かる運動経験生成ユニットは、第１の音声アイテムを再生する音声源が第１の音声アイテムの終了部分の間離れているという音声経験を生成するよう適合されることができる。こうして、離れている音源の音響ドップラー効果がシミュレーションされる態様で、対応する音声アイテム部分の操作が実行されることができる。

運動経験生成ユニットは、第２の音声アイテムを再生する音声源が、移行部分の間移動している、特に第２の音声データの開始部分の間接近しているという音声経験を生成する態様で、第２の音声アイテムを処理するよう更に適合されることができる。言い換えると、斯かる実施形態において、接近している音声源の音響ドップラー効果の印象が人間の耳により知覚されることができる態様で、第２の音声アイテムの開始部分の処理が実行されることができる。

心理的観点から言えば、フェードアウトが離れている音源と相関され、フェードインが接近している音源と相関されることは非常に直観的である。

運動経験生成ユニットは、第１の音声アイテムの終了部分及び第２の音声アイテムの開始部分の間の移行を、以下の測定シーケンスに基づき生成するよう適合されることができる。まず、第２の音声アイテムの移行部分の第１部分の再生がリモートの開始位置から生じるものとして知覚可能であるよう、第２の音声アイテムのこの移行部分が処理されることができる。言い換えると、第２の音声アイテムはスイッチを入れられ、遠く離れた位置にある音源から生じるものとして知覚されるだろう。これは、小さなボリューム及び対応する指向性特性によりシミュレーションされることができる。続いて、第１の音声アイテムの移行部分の第１部分の再生が中央位置からリモートの最終位置までシフトされる位置から生じるものとして知覚可能な態様で、第１の音声アイテムのこの移行部分が処理されることができる。言い換えると、第１の音声アイテムの中央部分の再生の間、第１の音声アイテムを放出している音源が中央位置に配置されるという印象を人間のリスナーが持つよう、この音声データは構成されることができる。第１の音声アイテムが続いてフェードアウトされることになることを示すため、この移行部分の第１部分における第１の音声アイテムを放出している音源を中央位置からリモートの最終位置まで仮想的に移動させることが可能である。この移動は、段階的に実行されることができる。同時に、第１の音声アイテムを放出している仮想音源のこの離脱とともに、第２の音声アイテムの移行部分の第２の部分の再生がリモートの開始位置から中央位置（第１の音声アイテムを放出している（仮想の）音源が、前もって配置される同じ位置、又は別の位置）まで（例えば段階的に）シフトされる位置から生じるものとして知覚可能であるよう、第２の音声アイテムのこの移行部分が処理されることができる。従って、第２の音声アイテムがフェードインされるので、人間のリスナーは、第２の音声アイテムを示す音波を放出している仮想音源が第２の音声アイテムのメイン部が再生されることになる位置に接近しているという印象を得るだろう。続いて、第１の音声アイテムの移行部分の第３の部分が無音化されるよう、第１の音声アイテムのこの移行部分が処理される。従って、第２の音声アイテムが最終的な又は中間の位置に（仮想的に）接近したあと、第１の音声アイテムのボリュームは（段階的に又は階段状の態様で）減らされることができる。その結果、フェードアウト手順が終わる。オプションで、第２の音声アイテムのメイン部分を放出している仮想音源は、その後再び移動されることができるか、又は中央位置に維持されることができる。

「中央位置」は、音声の「中央部分」の間、ヘッドホン信号が元の音声信号からどのように生成されるかを参照することができる。例えば、移行が行われていないとき、左信号は未処理のまま左の耳に行き、右信号は右の耳に行く。音声トラックの「中央部分」において、「中央位置（レンダリング／再生／）」と表されることができる処理モデルが使用されることができる。中央位置において、（ステレオ信号の）元の左右の音声チャネルを表す信号は通常、左右のヘッドホンに直接送られることができるか、又は、いくつかの処理が、移行の間、処理に関連付けられない信号に適用される。この種の追加的な処理は、スペクトル等化、空間拡幅、動的圧縮、元の音声データがステレオフォーマット以外のフォーマットを持つ場合の多重チャネルステレオ変換、又は、移行部分の間使用される移行方法とは独立に音声トラックの中央部分の間に適用される他のタイプの音声処理効果及び強化に関連付けられることができる。

このデバイスは、処理された音声データを再生するよう適合される音声再生ユニットを有することができる。斯かる（物理又は現実の）音声再生ユニットは、例えば、ヘッドホン、イヤホン又はラウドスピーカとすることができる。これは、再生のため処理された音声データと共に供給されることができる。（仮想の）音声再生ユニットが別の位置に配置されるという印象を再生された音声データを聞いているユーザが得るよう、音声データは処理されることができる。

第１の音声アイテムは、音楽アイテム（例えば、ＣＤのミュージッククリップ又は音楽トラック）、スピーチアイテム（例えば電話での会話部分）とすることができるか、又は映像／音声映像アイテム（例えば音楽映像、映画等）とすることができる。こうして、本発明の実施形態は、音声データが処理されなければならない全ての分野において、特に、２つの音声アイテムが滑らかな態様で互いに接続されるべきである分野で実現されることができる。

本発明の例示的な実施形態の例示的な応用分野は、オートＤＪシステム、再生リストにおける音声アイテムを検索するシステム、放送チャネルスイッチシステム、パブリックインターネットページスイッチシステム、電話チャネルスイッチシステム、音声アイテム再生開始システム及び音声アイテム再生停止システムである。再生リストにおける音声アイテムを検索するシステムは、特定の音声アイテムに関する再生リストを検索又はスキャンし、続いて斯かる音声アイテムを再生することを可能にすることができる。２つの後続の斯かる音声アイテムの間の移行部分において、本発明の実施形態が実現されることができる。更に、異なるテレビ又はラジオチャネル間の切り替えのとき、即ち放送チャネルスイッチシステムにおいて、以前のチャネルのフェードアウト及び後続のチャネルのフェードインが、本発明の例示的な実施形態に基づき実行されることができる。コンピュータを操作しているユーザが、異なるインターネットページ間を切り替え、これによりパブリックインターネットページスイッチシステムを使用するとき、同じことが言える。電話での会話の間、異なるチャネル又は通信パートナー間の切替えが実行されることができるとき、本発明の実施形態は、斯かる電話チャネルスイッチシステムとして実現されることができる。また、音声再生を単に開始又は停止させるため、即ちミュートと音の出る再生モードとの間で変化させるため、本発明の実施形態が実現されることができる。

本発明の実施形態は、２つの曲の間の空間分離の錯覚を作成する空間移行効果を使用するという追加的な可能性と結合されることができる。既存の源（第１の曲）が例えば左側に離れて移動し、新規な曲（第２の源）が右から中に音像を移動させるよう、「クロスフェードされる」２つの曲は、異なる運動軌跡を持つことができる。

２つのアイテムを分離させるのに上行及び下行倍音パターンを使用することは、実験心理学からも非常に支持されることができる。その場合、２つのトーンコンプレックス(tone complex)の困難な周波数変調軌跡が、２つのトーンコンプレックスが２つの異なる知覚的なストリームに分離することをもたらすことが観察される（A.S. Bregman (1990)、「Auditory Scheme Analysis: The Perceptual Organization of Sound」、Cambridge、MA: Bradford Books、MIT Press参照）。

時間関連音声パラメタの操作の効果は、曲がもはや互換性がないものと知覚されないよう、曲がミキシング領域において知覚的に切り離される点にある。従って、この方法を用いると、テンポ、リズム又はハーモニが調和することを確実にする特別なケアの必要性は低くなる。これは、任意の曲のペアをミックスすること、及び本発明の例示的な実施形態に基づきオートＤＪ方法により再生される必要のある任意の再生リストを可能にする。

本発明の例示的な実施形態は、例えばオートＤＪアプリケーションにおいて滑らかな移行を得るため、２つの連続的な曲の開始及び終了をミックスすることにより曲移行が作成される用途に適用されることができる。

本発明の別の例示的な実施形態によれば、移行効果及び標準のリスニングの間の空間移行が可能にされることができる。空間移行効果は、音声アイテムの間の強制的移行において使用されることができる。移行効果は、通常モデルベースのレンダリングシナリオにおける音声ストリームの動的な特殊化に基づかれる。標準のヘッドホンリスニングにおいてモデルベースの空間処理を実行することは望ましくない。従って、移行レンダリングに対する標準のリスニングに関して、及びその逆に関して移行が規定されることができる。

こうして、１つトラックから別のトラックへの移行は、音声信号の空間操作を用いて実行されることができる。目標は、１つのトラックが物理的に離れて、別のトラックが入るという知覚を与えることである。例えば、現在の音楽トラックが右側に遠くに離れていき、別のトラックが左側から入ってくるような態様である。これが音声再生リストの文脈において実行されると、再生リストに関する非常に強い空間印象を与える。空間座標における音声再生リストアイテムのこの種の表現は、音声技術における新規な用途を提供することができる。

ヘッドホンリスニングにおいて、左にあるもと及び右にあるものは明らかに規定される。明らかなソリューションは、例えば、段階的に減衰して右耳信号にだけ移動し、同時に左耳からは別のトラックの開始時のボリュームを増加させる態様で、平衡化されたステレオ画像を変化させる標準的な振幅パニングルールを使用することである。しかしながら、こうして得られる移行効果はあまり興味深くないし、トラック変化における非常に強い空間印象を与えるものでもない。問題は、ステレオ音声記録の２つのチャネルが、記録の生成に依存する非常に異なるタイプの聴覚合図を含むことができる点にある。

通常、ステレオ音声アイテムの２つのチャネルは相関される。しかしながら、例えば振幅パニング又はステレオ残響において作成される相関は、例えば音声源の距離、又は例えば個別の楽器の音の明白な到来角といった任意の識別可能な空間属性とは直接的な関係がない。従って、納得のいく空間音声トラック変化を作成することにおける課題は、音声トラックが第１の位置における空間位置を持たないので、この音声トラックを右の方のどこか遠くの位置に投げることが不適当である場合がある点にある。斯かる課題は、仮想ラウドスピーカリスナーシステムに基づくレンダリングシナリオを用いて克服されることができる。しかしながら、（ヘッドホン又はステレオ又はマルチチャネルラウドスピーカ再生における）標準のリスニングシナリオ及びトラック移行効果の間の移行を考慮することも可能である。

次に、音声アイテム間の空間移行に関連する実施形態が説明されるだろう。ヘッドホンリスニングにおいて１つの音声ストリームからの別の音声ストリームへ強制移行する際の直観的な空間音声効果を実現する方法が提供されることができる。提案される効果は、ユーザが、例えば再生リストを調べる又はラジオチャネルのリストをブラウズする際に「next」又は「previous」ボタンを押すとき、リスニング経験に対して新規な空間次元を提供する。この方法は、空間移行が直観的で明白に実行されることができる仮想ラウドスピーカ・リスナーモデルに対して、ステレオ信号をマッピングすることに基づかれる。

音声信号の空間操作を用いて１つのトラックから別のトラックへ移行する態様は、１つのトラックが物理的に離れて、別のトラックが入るという知覚を与えるために提供される。例えば、現在の音楽トラックが第１の方向に離れ、別のトラックが、第１の方向とは反対の第２の方向から中に入ってくるという態様で行われる。これが音声再生リストの文脈において実行されるとき、再生リストについての非常に強い空間印象を与える。例えば、ユーザは、第１の曲が右にあり、第２の曲が左側にあり、別の曲が、右の方のどこか遠くにあることを思い出すことができる。当然、音声マテリアルの２次元表現をユーザに与えるため、シナリオは、東西南北方向に直接拡張されることができる。従って、１次元、２次元又は３次元空間効果でさえ可能にされることができる。こうして、ラウドスピーカ及びリスナーの耳がうまく規定された幾何学的な位置を持つような、シミュレーションされたラウドスピーカリスナーシナリオに対して、ステレオ音声マテリアルの２つの音声チャネルを位置決めすることが可能である。一旦これが行われると、所望の空間効果を作成する任意の位置に仮想ラウドスピーカを移動させることが可能である。１つ音声アイテムから別のアイテムへ交換する際、第１の音声アイテムを再生している２つの仮想ラウドスピーカがユーザの耳から左の方に遠くへ移動され、別のアイテムを再生している別の一対のラウドスピーカは右から適切な又は最適な再生位置に運ばれるよう、シミュレーションが実行されることができる。こうして、異なる空間音声リスニングシナリオの幾何学的な特徴化を提供することが可能であり、仮想音響環境における音伝搬のシミュレーションが使用されることができる。

音声アイテムが終了し、別の音声アイテムが開始しなければならないとき、ある方向においてリスナーから離れて動く第１の音声アイテム及びリスナーの方へ動く第２の音声アイテムの聴覚画像が作成される。強制的移行及びヘッドホンリスニングの間、音声を移行させる方法が提供されることができる。この方法は、仮想ラウドスピーカをシミュレーションすることにより特定の位置で新規なアイテムを開始するステップと、ヘッドホンから仮想ラウドスピーカ構成へと現在のアイテムを移動させるステップと、現在のアイテムを目標位置に移動して、同時にこの新規なアイテムのラウドスピーカ位置を仮想ラウドスピーカ位置に移動させるステップと、ラウドスピーカ位置からヘッドホンリスニングへと新規なアイテムを移動させるステップと、現在のアイテムの音を消すステップとを有することができる。

更に、アイテムがリスナーの前を（仮想的に）通過するよう再生リストのアイテムをプレビューする間、又は一時的にアイテムの音を消す間に、この方法を使用することが可能である。

音声データを処理するデバイスは、音声サラウンドシステム、携帯電話、ヘッドセット、ラウドスピーカ、補聴器、テレビデバイス、ビデオレコーダ、モニタ、ゲームデバイス、ラップトップ、音声プレーヤ、ＤＶＤプレーヤ、ＣＤプレーヤ、ハードディスクベースの媒体プレーヤ、インターネットラジオデバイス、パブリックエンタテインメントデバイス、ＭＰ３プレーヤ、ハイファイシステム、乗り物のエンタテインメントデバイス、自動車エンタテインメントデバイス、医療通信システム、着衣デバイス、スピーチ通信デバイス、ホームシネマシステム、ホームシアターシステム、フラットテレビ、アンビエンス作成デバイス、サブウーファ及びミュージックホールシステムからなるグループの少なくとも１つとして実現されることができる。他の用途も同様に可能である。

しかしながら、本発明の実施形態によるシステムは、主に音又は音声データの品質を改善するものであるが、音声データ及び視覚データの組合せに関して本システムを適用することも可能である。例えば、本発明の実施形態は、（例えばミュージッククリップ又は映像シーケンスといった）異なる音声映像アイテム間の移行が起こる映像プレーヤ又はホームシネマシステムといった音声映像用途において実現されることができる。

本発明の例示的な実施形態による音声データ処理デバイスを示す図である。本発明の例示的な実施形態による移行モデルに基づく音レンダリングのパラメトリック操作により実行される移行モデルへ及び移行モデルからの移行を示す図である。本発明の例示的な実施形態による移行モデルに基づく音レンダリングのパラメトリック操作により実行される移行モデルへ及び移行モデルからの移行を示す図である。本発明の例示的な実施形態による移行モデルに基づく音レンダリングのパラメトリック操作により実行される移行モデルへ及び移行モデルからの移行を示す図である。本発明の例示的な実施形態による移行モデルに基づく音レンダリングのパラメトリック操作により実行される移行モデルへ及び移行モデルからの移行を示す図である。ラウドスピーカ・リスナーモデルの特殊な例として、一般的なヘッドホンリスニングの幾何学的な説明を示す図である。２チャネル・ラウドスピーカ・リスニング構成におけるリスナーのシミュレーションを示す図である。仮想マイクペアから離れて伝達される１つの音声トラックを表すラウドスピーカペアと、別のトラックを再生するラウドスピーカの新規なペアとが、リスニング位置へと移動されることを示す図である。本発明の例示的な実施形態によるステレオラウドスピーカリスニングにおけるトラック移行を示す図である。

本発明の上述の側面及び更なる側面が、以下後述する実施形態の例から明らかとなり、これらの実施形態の例を参照して説明される。

本発明が、以下実施形態の例を参照してより詳細に説明されることになるが、本発明はこれらの実施形態に限定されるものではない。

図面における説明は概略的なものである。異なる図面において、同様な又は同一の要素は、同じ参照符号を用いて提供される。

以下、図１を参照して、本発明の例示的な実施形態による音声データ１０１、１０２を処理するデバイス１００が説明されることになる。

図１に示されるデバイス１００は、例えばＣＤ、ハードディスク等の音声データ源１０７を有する。音声データ源１０７には、例えば第１の音声アイテム１０４、第２の音声アイテム１０５及び第３の音声アイテム１０６といった複数の音楽トラック（例えば３つの音楽部分）が格納される。

対応する制御信号を受信すると、音声データ１０１、１０２（例えば左右のラウドスピーカに対するデータ）が、音声データ源１０７から例えばマイクロプロセッサ又は中央処理ユニット（ＣＰＵ）といった制御ユニット１０３へと送信されることができる。

制御ユニット１０３は、ユーザインタフェースユニット１１４と双方向通信状態にあり、ユーザインタフェースユニット１１４と信号１１５を交換することができる。ユーザインタフェースユニット１１４は、例えばＬＣＤディスプレイ又はプラズマデバイスといったディスプレイ要素を有し、例えばボタン、キーパッド、ジョイスティック又は音声認識システムのマイクといった入力要素を有する。人間のユーザは、制御ユニット１０３の動作を制御することができ、従って、デバイス１００のユーザプリファレンスを調整することができる。例えば、人間のユーザは、再生リストのアイテムを切り替えることができる。更に、制御ユニット１０３は、対応する再生情報又は処理情報を出力することができる。

以下更に詳細に説明されることになる態様で音声データ１０１、１０２を処理した後、第１の処理音声データ１１２が、第１のラウドスピーカ１０８に再生のため適用され、これにより音波１１０が生成される。第２の処理音声データ１１３が得られ、音波１１１を生成可能な接続済みの第２のラウドスピーカ１０９により再生されることができる。

第１の音声アイテム１０４が再生され、続いて第２の音声アイテム１０５が再生されるというシナリオにおいて、先の第１の音声アイテム１０４と後続の第２の音声アイテム１０５との間に滑らかな又は継ぎ目のない移行部分を持つことが望ましい場合がある。この目的のため、制御ユニット１０３は、移行部分の時間関連音声特性が修正される態様で第１の音声アイテム１０４と第２の音声アイテム１０５との間の移行部分を操作する操作ユニットとして機能することができる。より詳細には、第１の音声アイテム１０４の終了部分及び第２の音声アイテム１０５の開始又は初めの部分が処理されることができる。従って、第１の音声アイテム１０４がグライドアウト又はフェードアウトし、第２の音声アイテム１０５がグライドイン又はフェードインするという音声知覚が得られることができる。この目的のため、第１及び第２の音声アイテム１０４、１０５の時間特性は、移行部分においてだけ調整されることができる。一方、第１及び第２の音声アイテム１０４、１０５の中央部分は、修正なしに再生されることができる。これは、グライドアウトする第１の音声アイテム１０４が音響ドップラー効果に基づき操作されることになるよう、音声データ１０１、１０２の周波数及びテンポ値を修正することを含むことができる。その結果、操作された第１の音声アイテム１０４に対して、人間のリスナーは、ボリューム及び周波数／テンポの両方が終了部分において減らされるものとして知覚する。

従って、第２の音声アイテム１０５の開始部分の音声効果に関して、増加されたラウドネス及び増加された周波数／テンポが知覚されるものとなるよう、第２の音声アイテム１０５の開始部分が音響ドップラー効果に基づき操作される。この手段を取ることにより、特性における非常に直観的なフェード現象が得られることができる。

第１の音声アイテム１０４の操作された終了部分及び第２の音声アイテム１０５の操作された開始部分は、同時に又は重複する態様で再生されることができる。

第１の音声アイテム１０４の終了部分及び第２の音声アイテム１０５の開始部分の時間特性の変動が、適切な音を実現するよう、調和又は調整される。

特に、制御ユニット１０３は、第１の音声アイテム１０４の終了部分に基づき音波を放出する仮想音声源が、第１の音声アイテム１０４の終了部分を再生する間に離れる知覚を生成することもできる。より詳細には、斯かる運動経験生成機能は、第２の音声アイテム１０５の開始部分を再生する仮想再生デバイスが、人間のリスナーに接近する音声知覚を生成することができる。

図１のシステムは、オートＤＪシステムとして使用されることができる。

本発明の実施形態は、任意の空間移行効果がラウドスピーカリスナーシステムのモデルに暗に又は明示的に基づかれるという洞察に基づかれる。このモデルは、音声作品の元の音声信号のディジタルフィルタリングにより実現される動的なレンダリング処理を制御するのに使用されることができる。標準のリスニングシナリオでは、音声信号は、再生システムのラウドスピーカを介して直接再生されることができる。例示的な実施形態によれば、ラウドスピーカシステムは、ステレオヘッドホンから例えば５．１サラウンドオーディオシステム又は波面合成システムといったマルチチャネルラウドスピーカシステムへと広がる任意の構成とすることができる。

例示的な実施形態によれば、一般的な手法は、標準のリスニングモードから空間的トラック移行効果において使用されるレンダリングモデルへの移行に関して及び標準のリスニングへと戻る逆移行に関して提供される。斯かる実施形態においては、標準のリスニングシナリオが通常、空間移行効果において使用されるレンダリングモデルの特例として識別されることができる。従って、移行モデルへ及び移行モデルからの移行は、移行モデルに基づく音レンダリングのパラメトリック操作により実行されることができる。これは、図２〜図５に示され、以下更に詳細に記載されることになる。

図２は、スキーム２００を示す。

スキーム２００は、標準のリスニング２０２における音声再現経路で再生される音声作品２０１を示す。音声再生システムは、参照符号２０３で表され、ヘッドホン、ステレオシステム又は５．１システムとして実現されることができる。

更に、仮想ラウドスピーカ・リスナーモデルが、参照符号２０４で示され、標準のリスニングを表すモデルの特例２０５、移行効果の音声再生経路２０６及び移行効果の他の音声再生経路２０７を含む。

図３は、スキーム３００を示す。スキーム３００において、第２の音声作品３０１が同様に示される。

図３から分かるように、移行の開始において、第１の音声作品２０１が、移行モデルの標準のリスニングを表すモデルの特例２０５を介して送られる。標準のリスニングを表すモデルの特例２０５から移行効果の音声再生経路２０６への移行が始まり、この移行は、仮想ラウドスピーカ・リスナーモデル２０４のパラメタのパラメトリック操作に基づかれる。第２の音声作品３０１の動的な移行レンダリングが、移行効果の他の音声再生経路２０７を通りこのフェーズにおいて始まることができる。

図４は、後の時間でのスキーム４００を示す。

連続的な移行において、第１の音声作品２０１及び第２の音声作品３０１は共に、所望の動的な空間移行効果を実現するため、仮想ラウドスピーカ・リスナーモデル２０４を用いてレンダリングされる。通常、第１の音声作品２０１がリスナーから離れるように見え、第２の音声作品３０１はリスナーに接近しているように見える態様で、第１の音声作品２０１が再生される。

後続のスキーム５００が図５に示される。

図５を参照すると、標準のリスニングシナリオを表す同等なモードで終わるという態様で、第２の音声作品３０１の動的なレンダリングが修正される。言い換えると、第２の音声作品３０１は、移行効果の音声再生経路２０７から標準のリスニングを表すモデルの特例２０５へとシフトされる。最終的に、仮想ラウドスピーカ・リスナーレンダリングシナリオの特別なモードからの再生が、第２の音声作品３０１に関して、図２の標準の音声再生シナリオに切替えられる。

本発明の例示的な実施形態によれば、キャプチャされた信号が、

により与えられるよう、仮想ラウドスピーカから再生される信号ｘ（ｎ）が、仮想マイクを用いてキャプチャされるモデルを使用することが可能である。ここで、アスタリスクは畳込みを表し、ｄは仮想ラウドスピーカとマイクとの間の距離をメートルで表し、Ｔ＝Ｆ／ｃである。この場合、Ｆはサンプリング周波数であり、ｃは音速である。実際、微小な時間インデックスｄＴに対応する信号値は、例えばラグランジュ補間回路フィルタといった非整数遅延フィルタを用いて実現されることができる。

図６は、ラウドスピーカ・リスナーモデルの特例として一般的なヘッドホンリスニングの幾何学的な説明に関するアレイ６１０を示す。

図６は、音声コンテンツを再生するヘッドホン６００を示す。更に、左仮想ラウドスピーカ６０１及び右仮想ラウドスピーカ６０２が示される。更に、左仮想マイク６０３及び右仮想マイク６０４が示される。無限距離が、参照符号６０５で表される。

前述の議論に基づき、幾何学的な音響的意味における信号の間の相関が、１つの音声チャネルから別のチャネルまでの音漏れとしてモデル化されないよう、ステレオチャネル間の相関又はクロストークが同時的であることが分かる。

本発明の実施形態における標準のリスニングモードは、ヘッドホンリスニングである。提示されたラウドスピーカ・リスナーモデルの特例として、アレイ６１０による斯かる一般的なヘッドホン音声リスニングシナリオの幾何学的な説明が、図６に示される。音は、原則として、互いに無限に遠く離れて配置される左右の仮想ラウドスピーカ６０１、６０２から再生される。音は、左右の仮想ラウドスピーカ６０１、６０２の近く置かれる左右の仮想マイク６０３、６０４によりキャプチャされる。その後キャプチャされた信号は、ヘッドホン６００を介してユーザに再生される。オリジナルの左右のチャネルからのステレオ録音の合成は、ヘッドホンリスニングにおいて元の信号を正確に生成する。この幾何学的な説明の無限距離は、２つの信号の間のクロストークの欠如をモデル化するための１つの実施形態であるにすぎない。同様な結果は、クロストークを減らす又はキャンセルする指向性特性をマイク（若しくはラウドスピーカ、又はその両方とも）に与えることにより得られることができる。

例示的な実施形態によれば、自由場における全方向仮想スピーカ及びマイクだけが考慮される。しかしながら、本発明の実施形態は、指向性及び音場シミュレーションの使用も含む。より現実的な指向性特性及び部屋モデルを音響モデルへと含ませるのに必要とされる手段が、当業者により知られる。実際、全方向トランスデューサを用いてさえ、源の間の距離が無限であることは必要でない又は可能でない。自由場条件における全方向源に対するデシベルでの音の減衰は、

により与えられる。

例えば、２０メートルの分離は既に、典型的なステレオ音声マテリアルにおける空間画像上で無視できる(negliable)効果を持つことができる２６ｄＢのクロストーク減衰を与える。斯かる表現は、元のステレオ再生に知覚的に似ており、直観的な特別なトラック移行方法を直ちに提供するものでもない。しかしながら、左右の仮想ラウドスピーカ６０１、６０２及び左右の仮想マイク６０３、６０４の位置を図７に示される別のセットアップ７００に移動させる別の変換を行うことが可能である。図７は、人間のリスナーの頭７０１を追加的に示す。

図７において、左右の仮想ラウドスピーカ６０１、６０２は、典型的なラウドスピーカリスニングにおける左右のラウドスピーカの位置に移動される。左右の仮想マイク６０３、６０４は、典型的なリスニング状況におけるリスナー耳の位置を表す位置に移動される。

従って、図７は、２つのチャネルラウドスピーカリスニングシステムにおけるリスナーの頭７０１のシミュレーションを示す。

左仮想ラウドスピーカ６０１と左仮想マイク６０３との間の距離は、図６のシナリオから図７のシナリオへの移行において一定に保たれる。従って、ステレオ音声再生の全体のラウドネスは、およそ同じに保たれる。しかしながら、特性は、現在の実施形態に関して絶対に必要なものではない。

図８は、再生される音声データの第１の音声アイテム１０４及び第２の音声アイテム１０５を含むスキーム８００を概略的に示す。

第１の音声アイテム１０４を表す左右の仮想ラウドスピーカ６０１、６０２のペアは、左右の仮想マイク６０３、６０４のペアから離れて移されることができ、第２の音声アイテム１０５に関連付けられるラウドスピーカ８０１、８０２の新規なペアが、リスニング位置に移動される。

典型的な応用例において、１つの音声アイテムＡから音声アイテムＢへのジャンプは、以下の手順を取ることができる。シーケンスは、ユーザがアイテムＡを聞いている状況から始まることができる。
１．アイテムＢのラウドスピーカセットを開始位置に置く。開始位置は、例えば、ユーザの耳から右に離れた位置とすることができる。
２．ヘッドホンリスニング（図６）からラウドスピーカリスニング（図７）へとアイテムＡを移動させ、仮想ラウドスピーカをリスニング位置に置く。
３．目標位置（例えばユーザの耳から左の方に離れたどこか）にアイテムＡを移動させ、同時に開始位置からリスニング位置までアイテムＢを移動させる。
４．ラウドスピーカシミュレーションからヘッドホンシミュレーション構成へとアイテムＢを表すラウドスピーカを移動させる。
５．アイテムＡを無音化する。
同様なアルゴリズムは、再生リストにおける音声アイテムの高速なスキャン又は検索において使用されることもできる。この場合、音声アイテムのシーケンスは、再生リストのコンテンツの概要（プレビュー）をユーザに与えるため、又は特定のアイテムを識別するのに役に立つよう、右から左へと（又はその逆に）流れる。この特定の用途において、アイテムがラウドスピーカ再生構成において再生されるよう、ヘッドホンリスニングシミュレーションを放出することが有益でありえる。この変形例は、リスナーを過ぎる音声アイテムの平滑なフローを提供する。この種のシナリオにおいて、再生リストは、ユーザが、左／右、前方／後方、上／下方向、又はそれらを組み合わせた方向において自由にナビゲートすることができる、２次元若しくは３次元マップとして表されることもできる。

同様な実施形態は、異なる音声ストリームの間の移行を含む他の可能な用途に直接適用されることもできる。例えば、ラジオ又はＴＶチャンネルを変える際、バックグラウンドで音声が流れるインターネットページをめくる際、パーソナルコンピュータ等において１つの音声アプリケーションから別のアプリケーションに変える際等に適用される。

同様なシナリオが、１つのアイテムだけを含む移行に関する新たなタイプの効果を作成するために使用されることもできる。例えば、空間移行効果は、音声アイテムの再生を開始及び停止するものとして使用されることができ、又は一時的に音声アイテムの音を消すのに使用されることができる。

更に、空間移行に対する同じメカニズムが、異なる話者間を切替える様々な種々の電話用途において使用されることもできる。

別の実施形態では、再生システムは、図９に示されるステレオラウドスピーカシステム９００とすることができる。

図９は、第２の音声アイテム１０５を再生する仮想ラウドスピーカ９０１、９０２と、第２の音声アイテム１０５を再生する仮想ラウドスピーカ９０３、９０４とを示す。更に、左右の追加的なラウドスピーカ９０５、９０６が示される。図９は、従って、ステレオラウドスピーカリスニングにおけるトラック移行を示す。仮想ラウドスピーカ９０１〜９０４は、そのようなものとして当業者に知られる３Ｄ音声レンダリング技術のいずれかを用いて、左右の追加的なラウドスピーカ９０５、９０６に与えられる音声信号を処理することにより作成される。

図９のシナリオにおいて、レンダリングされた仮想ラウドスピーカの位置及び指向性特性が現実のラウドスピーカと一致するという態様で、信号が左右の追加的なラウドスピーカ９０５、９０６を介して直接再生される標準の音声リスニングに対する移行が、仮想ラウドスピーカ９０１〜９０４を含む「円(bubble)」を移動させることにより得られる。

処理の観点からは、仮想ラウドスピーカリスナーシステムを介しての第２の音声アイテム１０５の再生から、ステレオセットアップの真の左右の追加的なラウドスピーカ９０５、９０６を介しての再生への移行に関して以下の説明を与えることが可能である。動的なレンダリングアルゴリズムは、以下の異なる式

により記載されることができる、入力信号の線形ディジタルフィルタリングに基づかれる。ここで、アスタリスクが畳み込みを表し、レンダリングフィルタはインパルス応答により表される。このレンダリングモデルの１つの特殊な場合は、ダイレクトな左対左（ｌｌ）フィルタ及び右対右（ｒｒ）フィルタが、単位ゲイン(unity gain)にまで減らされ、クロストーク項（左対右（ｌｒ）及び右対左（ｒｌ））が消える場合である。この特殊な場合は、ラウドスピーカを用いる標準のリスニングと同一である。従って、動的なレンダリングにおいて、元のレンダリングフィルタから特殊な場合を表す関数への係数の滑らかな展開を実現する動的な移行経路を用いることにより、移行が任意の空間レンダリングシナリオから実現されることができる。

「comprising」という単語は、他の要素又は特徴を除外するものではない点、及び「a」又は「an」は、複数性を排除するものではない点に留意されたい。また、異なる実施形態に関連して記載される要素は、組み合わされることができる。

また、請求項における参照符号は、請求項の範囲を制限するものとして解釈されるべきでない点にも留意されたい。

Claims

音声データを処理するデバイスであって、
前記音声データの第１の音声アイテムの移行部分を操作するよう適合される操作ユニットを有し、前記音声データの前記第１の音声アイテムの時間関連音声特性が、前記移行部分において選択的に修正される態様で操作され、
前記操作ユニットは、仮想ラウドスピーカ・リスナーモデルのパラメータの操作により、動的な空間移行効果を実現するように、前記第１の音声アイテムを再生するように構成された、デバイス。
前記第１の音声アイテムの前記移行部分が、前記第１の音声アイテムの終了部分である、請求項１に記載のデバイス。
前記操作ユニットが、前記第１の音声アイテムの前記終了部分のテンポ及び周波数からなるグループの少なくとも１つが減らされる態様で、前記第１の音声アイテムの前記終了部分を操作するよう適合される、請求項２に記載のデバイス。
前記操作ユニットが、前記音声データの第２の音声アイテムの時間関連音声特性が前記移行部分において選択的に修正される態様で、前記音声データの前記第２の音声アイテムの移行部分を操作するよう適合される、請求項１に記載のデバイス。
前記第２の音声アイテムの前記移行部分が、前記第２の音声アイテムの開始部分である、請求項４に記載のデバイス。
前記操作ユニットが、前記第２の音声アイテムの前記開始部分のテンポ及び周波数からなるグループの少なくとも１つが増加される態様で、前記第２の音声アイテムの前記開始部分を操作するよう適合される、請求項５に記載のデバイス。
前記操作ユニットが、前記第１の音声アイテムの前記移行部分を排他的に操作するよう適合され、前記第１の音声アイテムの残りの部分は、自由に操作できるままである、請求項１に記載のデバイス。
前記操作ユニットが、前記第１の音声アイテム及び後続の前記第２の音声アイテムを再生するために調整された態様で、前記第１の音声アイテムの移行部分及び前記第２の音声アイテムの移行部分を操作するよう適合される、請求項４に記載のデバイス。
前記操作ユニットが、前記第１の音声アイテムを再生する音声源が前記移行部分の間移動している音声経験を生成する態様で、前記第１の音声アイテムを処理するよう適合される、請求項１に記載のデバイス。
前記操作ユニットが、前記第１の音声アイテムを再生する音声源が前記第１の音声アイテムの終了部分の間離れる音声経験を生成するよう適合される、請求項９に記載のデバイス。
前記操作ユニットが、前記第２の音声アイテムを再生する音声源が前記移行部分の間移動している音声経験を生成する態様で、前記第２の音声アイテムを処理するよう適合される、請求項４又は９に記載のデバイス。
前記操作ユニットが、前記第２の音声アイテムを再生する音声源が前記第２の音声アイテムの開始部分の間接近する音声経験を生成するよう適合される、請求項１１に記載のデバイス。
前記操作ユニットが、前記第１の音声アイテムの終了部分と前記第２の音声アイテムの開始部分との間の移行を、
前記第２の音声アイテムの前記移行部分の再生がリモートの開始位置から生じるものとして知覚できるよう、前記第２の音声アイテムの前記移行部分を処理するステップと、
前記第１の音声アイテムの前記移行部分の再生が中央位置からリモートの最終位置へとシフトされる位置から生じるものとして知覚できるよう、前記第１の音声アイテムの前記移行部分を処理するステップと、
前記第１の音声アイテムの前記移行部分を処理するステップと同時に、前記第２の音声アイテムの前記移行部分の再生が前記リモートの開始位置から前記中央位置へとシフトされる位置から生じるものとして知覚できるよう、前記第２の音声アイテムの前記移行部分を処理するステップと、
続いて、前記第１の音声アイテムの前記移行部分が無音化されるよう、前記第１の音声アイテムの前記移行部分を処理するステップとを有するシーケンスに基づき生成するよう適合される、請求項１１に記載のデバイス。
前記操作ユニットが、前記音声データの前記時間関連音声特性が前記移行部分内で徐々に修正される態様で、前記移行部分を操作するよう適合される、請求項１に記載のデバイス。
前記操作ユニットが、前記音声データの前記時間関連音声特性が前記移行部分において音響ドップラー効果による音声経験を生成するよう修正される態様で、前記移行部分を操作するよう適合される、請求項１に記載のデバイス。
前記操作ユニットが、追加的に前記音声データのラウドネスが前記移行部分において選択的に修正される態様で、前記第１の音声アイテムの前記移行部分を操作するよう適合される、請求項１に記載のデバイス。
前記処理された音声データを再生するよう適合される音声再生ユニットを有し、特に、ヘッドホン、イヤホン及びラウドスピーカからなるグループのうちの１つを有する、請求項１に記載のデバイス。
前記第１の音声アイテムが、音楽アイテム、スピーチアイテム及び音声映像アイテムからなるグループの少なくとも１つを有する、請求項１に記載のデバイス。
オートＤＪシステム、再生リストにおける音声アイテムを検索するシステム、放送チャネルスイッチシステム、パブリックインターネットページスイッチシステム、電話チャネルスイッチシステム、音声アイテム再生開始システム及び音声アイテム再生停止システムからなるグループの少なくとも１つのために適合される、請求項１に記載のデバイス。
音声サラウンドシステム、携帯電話、ヘッドセット、ヘッドホン再生装置、ラウドスピーカ再生装置、補聴器、テレビデバイス、ビデオレコーダ、モニタ、ゲームデバイス、ラップトップ、音声プレーヤ、ＤＶＤプレーヤ、ＣＤプレーヤ、ハードディスクベースの媒体プレーヤ、ラジオデバイス、インターネットラジオデバイス、パブリックエンタテインメントデバイス、ＭＰ３プレーヤ、ハイファイシステム、乗り物のエンタテインメントデバイス、自動車エンタテインメントデバイス、医療通信システム、着衣デバイス、スピーチ通信デバイス、ホームシネマシステム、ホームシアターシステム、フラットテレビ装置、アンビエンス作成デバイス、サブウーファ及びミュージックホールシステムからなるグループの少なくとも１つとして実現される、請求項１に記載のデバイス。
音声データを処理する方法において、
前記音声データの第１の音声アイテムの移行部分を操作するステップを有し、前記音声データの前記第１の音声アイテムの時間関連音声特性が、前記移行部分において選択的に修正される態様で操作され、
前記操作するステップは、仮想ラウドスピーカ・リスナーモデルのパラメータの操作により、動的な空間移行効果を実現するように、前記第１の音声アイテムを再生する、方法。
音声データを処理するプログラムが格納されるコンピュータ可読媒体であって、前記プログラムが、プロセッサにより実行されるとき、請求項２１に記載の方法を実行又は制御するよう構成される、コンピュータ可読媒体。
音声データを処理するプログラムであって、プロセッサにより実行されるとき、請求項２１に記載の方法を実行又は制御するよう構成される、プログラム。