JP5702599B2 - 音声データを処理するデバイス及び方法 - Google Patents

音声データを処理するデバイス及び方法 Download PDF

Info

Publication number
JP5702599B2
JP5702599B2 JP2010508954A JP2010508954A JP5702599B2 JP 5702599 B2 JP5702599 B2 JP 5702599B2 JP 2010508954 A JP2010508954 A JP 2010508954A JP 2010508954 A JP2010508954 A JP 2010508954A JP 5702599 B2 JP5702599 B2 JP 5702599B2
Authority
JP
Japan
Prior art keywords
audio
item
sound
transition portion
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010508954A
Other languages
English (en)
Other versions
JP2010528335A (ja
Inventor
アキ エス ハルマ
アキ エス ハルマ
デ パル ステフェン エル ジェイ ディー イー ファン
デ パル ステフェン エル ジェイ ディー イー ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2010528335A publication Critical patent/JP2010528335A/ja
Application granted granted Critical
Publication of JP5702599B2 publication Critical patent/JP5702599B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/038Cross-faders therefor
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音声データを処理するデバイスに関する。
更に本発明は、音声データを処理する方法に関する。
更に本発明は、プログラム要素に関する。
更に本発明は、コンピュータ可読媒体に関する。
音声再生デバイスは、ますます重要になっている。特に、数多くのユーザが、ヘッドホンベースの音声プレーヤ及びラウドスピーカベースの音声サラウンドシステムを購入している。
異なる音声アイテムが次々に音声プレーヤで再生されるとき、2つの連続するトラック間で明らかな継ぎ目なく移行が行われることが望ましい。これは、「ミキシング」と表されることができる。「クロスフェード」では、1のトラックから別のトラックへの移行フェーズの間トラックをクロスフェードさせることができる。自動化システムにおいて、トラック間の継ぎ目のない移行を提供するために、終了するトラックの増幅は通常、開始トラックの増幅が増加されるのと同じ率で低下されることになる。
連続した曲の間の滑らかな移行を得るためのミキシング及びクロスフェードを含む曲の自動再生を可能にする方法が知られている。斯かる技術は、オートDJと表されることができる。再生リストが提供されると、移行の間、音声品質の主観的な認識が適切であるよう、再生リストに含まれる全ての曲を規定通りに(per definition)再生することはできない。
従来のオートDJシステムは、テンポ及びハーモニをクラッシュさせる(clashing)ことを可能にしてクロスフェードを盲目的に行うことを可能にする。これは、知覚的に不快な(「下手なDJ」の)経験を与える場合がある。ノーマルユーザにより規定される再生リストの場合、ずれのある(unmatched)移行が発生することが、プロのDJにより作られる再生リストの場合よりずっと多い。
別の従来のシステムは、ハーモニのミキシングが発生しないよう、短時間のブレークが2つの再生アイテムの間に残されるというルールに基づかれ、テンポの連続性が分断される。即ち、無音状態が生じる。この手法は、再生リストにおける2つのアイテムが時間的に分離されることを効率的に作りだし、休止が十分に長い場合、リズム又はハーモニの不連続性を経験させることがない。任意のオートDJの効果には、明らかに、斯かる概念が存在しない。
ユーザが音声再生リスト、レコード又は他の音楽コレクションを聞くとき普通行うことは、例えば、プレーヤ上の「next」又は「previous」ボタンをそれぞれ押すことにより、1つのアイテムから別のアイテムへと前方又は後方にジャンプすることである。これは、音声アイテムの開始から終了までの間のどこででも行われることができる。これが音声プレーヤにおいて実現される態様は、現在のアイテムが無音にされ、新たなトラックが再生を開始するというものである。
ある音声トラックから別の音声トラックへ移行させるときのより洗練された方法は、2つのトラックをミックスするオートDJシステムである。これは、あるトラックから別のトラックへの移行が、あるアイテムの終わりを別のアイテムの始まりに一体化するのにダンスミュージックのDJが行うのと同様の手法で実現されるものである。2つの信号は、同期化されることができ、これらの信号は、1つアイテムから別のアイテムへと滑らかに移行したという印象を与えるため、徐々にクロスフェードされる。
米国特許出願公開第2005/0047614A1号は、例えばサラウンド環境といったマルチチャネル音声環境において、曲から曲への移行を強化するシステム及び方法を開示する。この方法では、移行の間、各プログラムの様々なチャネルのボリュームを独立に操作することにより、曲が終わりかけている印象を作り出すため終了を開始しているプログラムに、移行の錯覚が与えられ、一方、この曲が始まろうとしている印象を作り出すため開始し始めているプログラムに、移行が与えられる。
しかしながら、移行が安易な態様で擬態されるので、米国特許出願公開第2005/0047614A1号による2つの音声部分間の移行は、人間のリスナーにとってはまだ人工的に聞こえる場合がある。
本発明の目的は、音声アイテムの始め又は終了での適切な音声経験を可能にする音声システムを提供することである。
上記目的を実現するため、独立請求項に記載の音声データを処理するデバイス、音声データを処理する方法、プログラム要素及びコンピュータ可読媒体が提供される。有利な実施形態は、従属項において規定される。
本発明の例示的な実施形態によれば、音声データを処理するデバイスが提供される。このデバイスは、移行部分の時間関連音声特性が修正される態様で(特に、現実的な態様で移行の時間的遅延効果をシミュレーションすることが可能である)、上記音声データの第1の音声アイテムの移行部分を選択的に操作する(特に、再サンプリングする)よう適合される操作ユニット(特に再サンプリングユニット)を有する。
本発明の別の例示的な実施形態によれば、音声データを処理する方法が提供される。この方法は、上記音声データの第1の音声アイテムの移行部分を、上記移行部分の時間関連音声特性が修正される態様で選択的に操作するステップを有する。
本発明の更に別の例示的な実施形態によれば、プログラム要素(例えばソースコード又は実行コードにおけるソフトウェアルーチン)が提供される。これは、プロセッサにより実行されるとき、上述した特徴を持つデータ処理方法を制御又は実行するよう構成される。
本発明の更に別の例示的な実施形態によれば、プロセッサにより実行されるとき、上述した特徴を持つデータ処理方法を制御又は実行するよう構成されるコンピュータープログラムが格納されるコンピュータ可読媒体(例えばCD、DVD、USBスティック、フロッピー(登録商標)ディスク又はハードディスク)が提供される。
本発明の実施形態に基づき実行されることができる音声テンポ操作及び/又は周波数変性目的でのデータ処理は、コンピュータープログラムにより、即ちソフトウェアにより、又は1つ若しくは複数の特別な電子機器最適化回路を使用することにより、即ちハードウェアにより、又はハイブリッド形式で、即ちソフトウェア要素及びハードウェア要素を用いて実現されることができる。
本願の文脈において、「操作する」という用語は、音声データストリーム又は音声データ部分の特定の部分の時間的又は周波数関連特性を選択的に修正するため、この部分を再計算することを特に表すことができる。時間的又は周波数関連特性とは、即ち、音声に関する経験に関して影響を与える、音再生のテンポ及びピッチに関するパラメタである。従って、特にドップラー効果を得るため、例えばテンポ及び/又はピッチといった特性が、斯かる操作により修正されることができる。従って、操作又は再サンプリングは、本来記録されたファイルにおける特性とは異なる特性を持つ音ファイルにおいてサンプルを再計算することにより実行されることができる。これは、音声部分の間の移行の知覚を改善する態様で、サンプルを除去すること、利用可能な周波数範囲を修正すること、一時停止を導入すること、トーンの再生時間増加又は減少させること等を含むことができる。特に、終了及び開始トラックの知覚的な減結合を可能にするピッチ移行効果が、後続の音声部分の間のテンポ及びハーモニクラッシュを回避することができるからである。
音声アイテムの「移行部分」という用語は、特に音声アイテムの開始部分及び/又は終了部分を表すことができる。これらの部分で、音声アイテムと別の(先行する又は後続の)音声アイテムとの間、又は音声アイテムと無音の時間間隔との間の移行が発生する。
「時間関連音声特性」という用語は、特に時間特性及び対応する音声パラメタが特定の態様で調整されることができることを表すことができる。特定の態様とは、例えば音声部分をフェードイン又はフェードアウトする印象を強調する態様である。これは、周波数変動を含むことができる。周波数変動は、いわゆる音響ドップラー効果として知られ、音声アイテムのフェードイン又はフェードアウトを示す直観的な手段である。
本発明の例示的な実施形態によれば、音声アイテムと以前の又は後続の音声情報との間の移行の人間の耳に対する知覚を改善するよう、音声部分の移行部分が選択的に処理される。フェードイン及び/又はフェードアウトの間、時間関連音声再生特性を変化させることにより、接近している又は離脱している音源の印象が生成されることができる。これは、それぞれ、新たな曲の開始又は現在再生される曲の終了と心理学的に相関されることができる。
こうして、例示的な実施形態によれば、オートDJ操作に関する動的なミキシングが可能にされることができる。オートDJシステムにおいて、迷惑な不連続性が起こらないよう、曲移行が実行されることができる。これは一般に、クロスフェードする2つの連続的な曲により行われることができる。滑らかな移行を得るための要件は、曲のテンポ及びリズムがミキシング領域において揃えられること、及び曲がミキシング領域において整合する倍音特性を持つことである。これは従来は、別の曲の後に再生されることができる曲に関する制約を置く。例示的な実施形態によれば、テンポ、リズム及びハーモニを揃える必要性は、移行の間、各曲に対してサンプリング周波数における異なるグライディング変化を適用することにより克服されることができる。グライディングサンプリング周波数は、テンポ、リズム及び倍音クラッシュが問題とならないようミックスされる2つの曲の自然な減結合を作成することができる。こうして、本発明の実施形態は、すべての再生リスト(又は曲のペア)がオートDJ方法を用いてクロスフェードさせられることができるわけではないという制限を克服することができる。本発明の実施形態は、一時停止による時間的分離以外の方法で、再生リストの2つのアイテムを知覚的に分離させる他の可能な方法が存在するという認識に基づかれる。このために、1つ又は2つの音声信号のスペクトルの動的なシステマティックな操作を使用することが可能である。特に、曲のミキシング領域において、一方の曲がグライドダウンされる周波数及びテンポを持ち、他方の曲がグライドアップされる周波数及びテンポを持つよう曲の操作/再サンプリングが実行される方法を実行することが可能である。こうして、強制的移行及びオートDJ用途における音声アイテムの時間的操作が使用されることができ、周波数グライド効果をもたらす十分に強いドップラーシフト効果が導入されることができるという考慮に基づかれることができる。こうして、オートDJ用途に対する動的なミキシングが可能にされることができる。曲がテンポ、リズム、倍音成分等において同じである必要がないよう、オートDJシステムにおいてミックスされる2つの曲の自然な減結合が可能にされることができる。これは、終了しつつある曲のテンポ及び/又は周波数が元の周波数からより低い周波数へグライドダウンし、開始しつつある曲のテンポ及び/又は周波数は異なる周波数輪郭で元の周波数の方へグライドダウンするよう、移行期間において2つの曲を操作することにより作成されることができる。これは、空間移行効果の副産物として実現されることもできる。2つの曲の仮想源の運動錯覚が作成されることができ、ドップラー効果が生成されることができる。源の運動錯覚を作成する方法に基づき、これは、しばしばドップラー効果も生成することができる。即ち、ドップラー効果は運動効果の結果である。
次に、音声データを処理するデバイスの追加の例示的な実施形態が説明されることになる。しかしながら、これらの実施形態は、音声データを処理する方法、プログラム要素、及びコンピュータ可読媒体にも適用される。
第1の音声アイテムの移行部分は、第1の音声アイテムの終了部分とすることができる。言い換えると、漸進的な又は階段状の態様で時間特性を調整することにより、第1の音声アイテムの終了をスムーズにフェードアウトさせる操作が実行されることができる。
追加的に又は代替的に、第1の音声アイテムの移行部分は、第1の音声アイテムの開始部分とすることができる。言い換えると、漸進的な又は階段状の態様で時間特性を調整することにより、第1の音声アイテムの開始をスムーズにフェードインさせる操作が実行されることができる。こうして、音声アイテムの開始部分だけ、音声アイテムの終了部分だけ又は音声アイテムの開始部分及び終了部分の両方を操作することが可能である。音声アイテムの中間の部分が斯かる態様で操作されることも可能である。例えば、ユーザは、第1の曲の中央で再生を停止し、第2の曲の先頭から又は中央のどこかから第2の曲を再生開始することができる。言い換えると、音声アイテムの自然な開始又は自然な終了は、移行部分に一致して/含まれていても一致しなくて/含まれていなくてもよい。従って、本発明の例示的な実施形態による選択的な時間的操作は、曲の中央で実行されることもできる。
特に、操作ユニットは、第1の音声アイテムの操作終了部分のテンポ及び周波数からなるグループの少なくとも1つがグライドアウトされる態様で、第1の音声アイテムの終了部分を操作するよう適合されることができる。こうして、斯かる音声コンテンツを再生するとき音声知覚に影響を与える斯かる時間関連音声パラメタを考慮することにより、振幅だけでなく周波数における減少でもある、救急車が離れるときのサイレンから知られる音響ドップラー効果の印象を得ることが可能である(離れていく救急車のサイレン音の周波数は、接近してくる救急車のサイレン音の周波数より低いが、救急車が観測者に対する速度を加速又は減速しない限り、周波数における減少(グラインディング)は起きない点に留意されたい。)。特に、フェードアウトする音声アイテムの終了部分が操作されるとき、テンポ及び/又は周波数は減らされることができる。
本発明の実施形態は、連続的に再生される音声アイテムの間の滑らかな移行を提供することに焦点をあてるが、正確に1つの音声アイテムだけ、例えば終了部分においてソフトに無音化される音声アイテムだけを処理することが可能である。
しかしながら、操作ユニットは、移行部分の時間関連音声特性が修正される態様で、第2の音声アイテム(これは、第1の音声アイテムに後続することができる)の移行部分を操作するよう適合されることもできる。こうして、第1の音声アイテム及び第2の音声アイテムの間の移行は、両方の移行部分において時間関連音声特性を考慮することによりスムーズに実行されることができる。移行部分の間、第1の及び第2の音声アイテムは、同時に再生されることができるが、異なる音声パラメタを持つ。
特に、第2の音声アイテムの移行部分は、第2の音声アイテムの開始部分とすることができる。そして、操作ユニットは、第2の音声アイテムの操作開始部分のテンポ及び周波数からなるグループの少なくとも1つが、グライドイン/フェードインする態様で、第2の音声アイテムの開始部分を操作するよう適合されることができる。斯かるフェードイン効果に対して、第2の音声アイテムの移行部分が完了されるまで、テンポ及び周波数を(漸進的な又は階段状の態様で)増加させることが適切でありえる。
操作ユニットは、第1の音声アイテムの移行部分(開始部分又は終了部分)だけ、又はこの移行部分(開始部分及び終了部分)の複数を選択的に操作するよう適合されることができる。一方、第1の音声アイテムの残りの(中央)部分は、サンプリングされないまま、即ち変更が加えられないままとすることができる。従って、後続で再生される音声信号をスムーズにフェードインした後、移行レジームの完了後音声アーチファクトが発生しないよう、元のデータはリプレイされることができる。
操作ユニットは、第1の音声アイテムの移行部分及び第2の音声アイテムの移行部分を調整された態様で操作するよう適合されることができる。従って、(離れている音声源のドップラー効果をもたらす)フェードアウトされるアイテムのテンポ及び周波数の減少は、(接近している音声源のドップラー効果をもたらす)テンポ及び周波数が増加される後続の音声信号のフェードインと調和された態様で結合されることができる。これは、ミックスされる2つの曲がテンポ、リズム又は倍音クラッシュに関して互いに対応する必要がないよう、非常に異なる起源の音声コンテンツの間でさえ、音響的に適切な移行部分が存在することを可能にすることができる。
操作ユニットは、第1の音声アイテムを再生する音声源が移行部分の間移動している音声経験を生成する態様で、第1の音声アイテムを処理するよう適合される運動経験生成ユニットとして機能することもできる。しかしながら、動く音声源の斯かる印象が、音声アイテムのラウドネス(接近している対象物に対する増加するラウドネス及び離れている対象物に対する減少するラウドネス)の単純な変動に必ずしも限定されるというわけではない。しかし、斯かる運動知覚は、音声源の現実的な運動に関連付けられるチャネル時間遅延にわたる時間修正の作成を考慮することにより、更に改善されることができる。特に、音響ドップラー効果は、離れる又は接近する音源のラウドネスだけでなく、周波数、テンポ及び他の時間関連音声パラメタも修正する。斯かる時間関連特性を考慮することにより、再生された音声データの移行は、単純なラウドネス調整システムと比較して、明らかにより自然であると、又は動く音源の知覚に近いより正確なものであると知覚されるだろう。
斯かる運動経験生成ユニットは、第1の音声アイテムを再生する音声源が第1の音声アイテムの終了部分の間離れているという音声経験を生成するよう適合されることができる。こうして、離れている音源の音響ドップラー効果がシミュレーションされる態様で、対応する音声アイテム部分の操作が実行されることができる。
運動経験生成ユニットは、第2の音声アイテムを再生する音声源が、移行部分の間移動している、特に第2の音声データの開始部分の間接近しているという音声経験を生成する態様で、第2の音声アイテムを処理するよう更に適合されることができる。言い換えると、斯かる実施形態において、接近している音声源の音響ドップラー効果の印象が人間の耳により知覚されることができる態様で、第2の音声アイテムの開始部分の処理が実行されることができる。
心理的観点から言えば、フェードアウトが離れている音源と相関され、フェードインが接近している音源と相関されることは非常に直観的である。
運動経験生成ユニットは、第1の音声アイテムの終了部分及び第2の音声アイテムの開始部分の間の移行を、以下の測定シーケンスに基づき生成するよう適合されることができる。まず、第2の音声アイテムの移行部分の第1部分の再生がリモートの開始位置から生じるものとして知覚可能であるよう、第2の音声アイテムのこの移行部分が処理されることができる。言い換えると、第2の音声アイテムはスイッチを入れられ、遠く離れた位置にある音源から生じるものとして知覚されるだろう。これは、小さなボリューム及び対応する指向性特性によりシミュレーションされることができる。続いて、第1の音声アイテムの移行部分の第1部分の再生が中央位置からリモートの最終位置までシフトされる位置から生じるものとして知覚可能な態様で、第1の音声アイテムのこの移行部分が処理されることができる。言い換えると、第1の音声アイテムの中央部分の再生の間、第1の音声アイテムを放出している音源が中央位置に配置されるという印象を人間のリスナーが持つよう、この音声データは構成されることができる。第1の音声アイテムが続いてフェードアウトされることになることを示すため、この移行部分の第1部分における第1の音声アイテムを放出している音源を中央位置からリモートの最終位置まで仮想的に移動させることが可能である。この移動は、段階的に実行されることができる。同時に、第1の音声アイテムを放出している仮想音源のこの離脱とともに、第2の音声アイテムの移行部分の第2の部分の再生がリモートの開始位置から中央位置(第1の音声アイテムを放出している(仮想の)音源が、前もって配置される同じ位置、又は別の位置)まで(例えば段階的に)シフトされる位置から生じるものとして知覚可能であるよう、第2の音声アイテムのこの移行部分が処理されることができる。従って、第2の音声アイテムがフェードインされるので、人間のリスナーは、第2の音声アイテムを示す音波を放出している仮想音源が第2の音声アイテムのメイン部が再生されることになる位置に接近しているという印象を得るだろう。続いて、第1の音声アイテムの移行部分の第3の部分が無音化されるよう、第1の音声アイテムのこの移行部分が処理される。従って、第2の音声アイテムが最終的な又は中間の位置に(仮想的に)接近したあと、第1の音声アイテムのボリュームは(段階的に又は階段状の態様で)減らされることができる。その結果、フェードアウト手順が終わる。オプションで、第2の音声アイテムのメイン部分を放出している仮想音源は、その後再び移動されることができるか、又は中央位置に維持されることができる。
「中央位置」は、音声の「中央部分」の間、ヘッドホン信号が元の音声信号からどのように生成されるかを参照することができる。例えば、移行が行われていないとき、左信号は未処理のまま左の耳に行き、右信号は右の耳に行く。音声トラックの「中央部分」において、「中央位置(レンダリング/再生/)」と表されることができる処理モデルが使用されることができる。中央位置において、(ステレオ信号の)元の左右の音声チャネルを表す信号は通常、左右のヘッドホンに直接送られることができるか、又は、いくつかの処理が、移行の間、処理に関連付けられない信号に適用される。この種の追加的な処理は、スペクトル等化、空間拡幅、動的圧縮、元の音声データがステレオフォーマット以外のフォーマットを持つ場合の多重チャネルステレオ変換、又は、移行部分の間使用される移行方法とは独立に音声トラックの中央部分の間に適用される他のタイプの音声処理効果及び強化に関連付けられることができる。
このデバイスは、処理された音声データを再生するよう適合される音声再生ユニットを有することができる。斯かる(物理又は現実の)音声再生ユニットは、例えば、ヘッドホン、イヤホン又はラウドスピーカとすることができる。これは、再生のため処理された音声データと共に供給されることができる。(仮想の)音声再生ユニットが別の位置に配置されるという印象を再生された音声データを聞いているユーザが得るよう、音声データは処理されることができる。
第1の音声アイテムは、音楽アイテム(例えば、CDのミュージッククリップ又は音楽トラック)、スピーチアイテム(例えば電話での会話部分)とすることができるか、又は映像/音声映像アイテム(例えば音楽映像、映画等)とすることができる。こうして、本発明の実施形態は、音声データが処理されなければならない全ての分野において、特に、2つの音声アイテムが滑らかな態様で互いに接続されるべきである分野で実現されることができる。
本発明の例示的な実施形態の例示的な応用分野は、オートDJシステム、再生リストにおける音声アイテムを検索するシステム、放送チャネルスイッチシステム、パブリックインターネットページスイッチシステム、電話チャネルスイッチシステム、音声アイテム再生開始システム及び音声アイテム再生停止システムである。再生リストにおける音声アイテムを検索するシステムは、特定の音声アイテムに関する再生リストを検索又はスキャンし、続いて斯かる音声アイテムを再生することを可能にすることができる。2つの後続の斯かる音声アイテムの間の移行部分において、本発明の実施形態が実現されることができる。更に、異なるテレビ又はラジオチャネル間の切り替えのとき、即ち放送チャネルスイッチシステムにおいて、以前のチャネルのフェードアウト及び後続のチャネルのフェードインが、本発明の例示的な実施形態に基づき実行されることができる。コンピュータを操作しているユーザが、異なるインターネットページ間を切り替え、これによりパブリックインターネットページスイッチシステムを使用するとき、同じことが言える。電話での会話の間、異なるチャネル又は通信パートナー間の切替えが実行されることができるとき、本発明の実施形態は、斯かる電話チャネルスイッチシステムとして実現されることができる。また、音声再生を単に開始又は停止させるため、即ちミュートと音の出る再生モードとの間で変化させるため、本発明の実施形態が実現されることができる。
本発明の実施形態は、2つの曲の間の空間分離の錯覚を作成する空間移行効果を使用するという追加的な可能性と結合されることができる。既存の源(第1の曲)が例えば左側に離れて移動し、新規な曲(第2の源)が右から中に音像を移動させるよう、「クロスフェードされる」2つの曲は、異なる運動軌跡を持つことができる。
2つのアイテムを分離させるのに上行及び下行倍音パターンを使用することは、実験心理学からも非常に支持されることができる。その場合、2つのトーンコンプレックス(tone complex)の困難な周波数変調軌跡が、2つのトーンコンプレックスが2つの異なる知覚的なストリームに分離することをもたらすことが観察される(A.S. Bregman (1990)、「Auditory Scheme Analysis: The Perceptual Organization of Sound」、Cambridge、MA: Bradford Books、MIT Press参照)。
時間関連音声パラメタの操作の効果は、曲がもはや互換性がないものと知覚されないよう、曲がミキシング領域において知覚的に切り離される点にある。従って、この方法を用いると、テンポ、リズム又はハーモニが調和することを確実にする特別なケアの必要性は低くなる。これは、任意の曲のペアをミックスすること、及び本発明の例示的な実施形態に基づきオートDJ方法により再生される必要のある任意の再生リストを可能にする。
本発明の例示的な実施形態は、例えばオートDJアプリケーションにおいて滑らかな移行を得るため、2つの連続的な曲の開始及び終了をミックスすることにより曲移行が作成される用途に適用されることができる。
本発明の別の例示的な実施形態によれば、移行効果及び標準のリスニングの間の空間移行が可能にされることができる。空間移行効果は、音声アイテムの間の強制的移行において使用されることができる。移行効果は、通常モデルベースのレンダリングシナリオにおける音声ストリームの動的な特殊化に基づかれる。標準のヘッドホンリスニングにおいてモデルベースの空間処理を実行することは望ましくない。従って、移行レンダリングに対する標準のリスニングに関して、及びその逆に関して移行が規定されることができる。
こうして、1つトラックから別のトラックへの移行は、音声信号の空間操作を用いて実行されることができる。目標は、1つのトラックが物理的に離れて、別のトラックが入るという知覚を与えることである。例えば、現在の音楽トラックが右側に遠くに離れていき、別のトラックが左側から入ってくるような態様である。これが音声再生リストの文脈において実行されると、再生リストに関する非常に強い空間印象を与える。空間座標における音声再生リストアイテムのこの種の表現は、音声技術における新規な用途を提供することができる。
ヘッドホンリスニングにおいて、左にあるもと及び右にあるものは明らかに規定される。明らかなソリューションは、例えば、段階的に減衰して右耳信号にだけ移動し、同時に左耳からは別のトラックの開始時のボリュームを増加させる態様で、平衡化されたステレオ画像を変化させる標準的な振幅パニングルールを使用することである。しかしながら、こうして得られる移行効果はあまり興味深くないし、トラック変化における非常に強い空間印象を与えるものでもない。問題は、ステレオ音声記録の2つのチャネルが、記録の生成に依存する非常に異なるタイプの聴覚合図を含むことができる点にある。
通常、ステレオ音声アイテムの2つのチャネルは相関される。しかしながら、例えば振幅パニング又はステレオ残響において作成される相関は、例えば音声源の距離、又は例えば個別の楽器の音の明白な到来角といった任意の識別可能な空間属性とは直接的な関係がない。従って、納得のいく空間音声トラック変化を作成することにおける課題は、音声トラックが第1の位置における空間位置を持たないので、この音声トラックを右の方のどこか遠くの位置に投げることが不適当である場合がある点にある。斯かる課題は、仮想ラウドスピーカリスナーシステムに基づくレンダリングシナリオを用いて克服されることができる。しかしながら、(ヘッドホン又はステレオ又はマルチチャネルラウドスピーカ再生における)標準のリスニングシナリオ及びトラック移行効果の間の移行を考慮することも可能である。
次に、音声アイテム間の空間移行に関連する実施形態が説明されるだろう。ヘッドホンリスニングにおいて1つの音声ストリームからの別の音声ストリームへ強制移行する際の直観的な空間音声効果を実現する方法が提供されることができる。提案される効果は、ユーザが、例えば再生リストを調べる又はラジオチャネルのリストをブラウズする際に「next」又は「previous」ボタンを押すとき、リスニング経験に対して新規な空間次元を提供する。この方法は、空間移行が直観的で明白に実行されることができる仮想ラウドスピーカ・リスナーモデルに対して、ステレオ信号をマッピングすることに基づかれる。
音声信号の空間操作を用いて1つのトラックから別のトラックへ移行する態様は、1つのトラックが物理的に離れて、別のトラックが入るという知覚を与えるために提供される。例えば、現在の音楽トラックが第1の方向に離れ、別のトラックが、第1の方向とは反対の第2の方向から中に入ってくるという態様で行われる。これが音声再生リストの文脈において実行されるとき、再生リストについての非常に強い空間印象を与える。例えば、ユーザは、第1の曲が右にあり、第2の曲が左側にあり、別の曲が、右の方のどこか遠くにあることを思い出すことができる。当然、音声マテリアルの2次元表現をユーザに与えるため、シナリオは、東西南北方向に直接拡張されることができる。従って、1次元、2次元又は3次元空間効果でさえ可能にされることができる。こうして、ラウドスピーカ及びリスナーの耳がうまく規定された幾何学的な位置を持つような、シミュレーションされたラウドスピーカリスナーシナリオに対して、ステレオ音声マテリアルの2つの音声チャネルを位置決めすることが可能である。一旦これが行われると、所望の空間効果を作成する任意の位置に仮想ラウドスピーカを移動させることが可能である。1つ音声アイテムから別のアイテムへ交換する際、第1の音声アイテムを再生している2つの仮想ラウドスピーカがユーザの耳から左の方に遠くへ移動され、別のアイテムを再生している別の一対のラウドスピーカは右から適切な又は最適な再生位置に運ばれるよう、シミュレーションが実行されることができる。こうして、異なる空間音声リスニングシナリオの幾何学的な特徴化を提供することが可能であり、仮想音響環境における音伝搬のシミュレーションが使用されることができる。
音声アイテムが終了し、別の音声アイテムが開始しなければならないとき、ある方向においてリスナーから離れて動く第1の音声アイテム及びリスナーの方へ動く第2の音声アイテムの聴覚画像が作成される。強制的移行及びヘッドホンリスニングの間、音声を移行させる方法が提供されることができる。この方法は、仮想ラウドスピーカをシミュレーションすることにより特定の位置で新規なアイテムを開始するステップと、ヘッドホンから仮想ラウドスピーカ構成へと現在のアイテムを移動させるステップと、現在のアイテムを目標位置に移動して、同時にこの新規なアイテムのラウドスピーカ位置を仮想ラウドスピーカ位置に移動させるステップと、ラウドスピーカ位置からヘッドホンリスニングへと新規なアイテムを移動させるステップと、現在のアイテムの音を消すステップとを有することができる。
更に、アイテムがリスナーの前を(仮想的に)通過するよう再生リストのアイテムをプレビューする間、又は一時的にアイテムの音を消す間に、この方法を使用することが可能である。
音声データを処理するデバイスは、音声サラウンドシステム、携帯電話、ヘッドセット、ラウドスピーカ、補聴器、テレビデバイス、ビデオレコーダ、モニタ、ゲームデバイス、ラップトップ、音声プレーヤ、DVDプレーヤ、CDプレーヤ、ハードディスクベースの媒体プレーヤ、インターネットラジオデバイス、パブリックエンタテインメントデバイス、MP3プレーヤ、ハイファイシステム、乗り物のエンタテインメントデバイス、自動車エンタテインメントデバイス、医療通信システム、着衣デバイス、スピーチ通信デバイス、ホームシネマシステム、ホームシアターシステム、フラットテレビ、アンビエンス作成デバイス、サブウーファ及びミュージックホールシステムからなるグループの少なくとも1つとして実現されることができる。他の用途も同様に可能である。
しかしながら、本発明の実施形態によるシステムは、主に音又は音声データの品質を改善するものであるが、音声データ及び視覚データの組合せに関して本システムを適用することも可能である。例えば、本発明の実施形態は、(例えばミュージッククリップ又は映像シーケンスといった)異なる音声映像アイテム間の移行が起こる映像プレーヤ又はホームシネマシステムといった音声映像用途において実現されることができる。
本発明の例示的な実施形態による音声データ処理デバイスを示す図である。 本発明の例示的な実施形態による移行モデルに基づく音レンダリングのパラメトリック操作により実行される移行モデルへ及び移行モデルからの移行を示す図である。 本発明の例示的な実施形態による移行モデルに基づく音レンダリングのパラメトリック操作により実行される移行モデルへ及び移行モデルからの移行を示す図である。 本発明の例示的な実施形態による移行モデルに基づく音レンダリングのパラメトリック操作により実行される移行モデルへ及び移行モデルからの移行を示す図である。 本発明の例示的な実施形態による移行モデルに基づく音レンダリングのパラメトリック操作により実行される移行モデルへ及び移行モデルからの移行を示す図である。 ラウドスピーカ・リスナーモデルの特殊な例として、一般的なヘッドホンリスニングの幾何学的な説明を示す図である。 2チャネル・ラウドスピーカ・リスニング構成におけるリスナーのシミュレーションを示す図である。 仮想マイクペアから離れて伝達される1つの音声トラックを表すラウドスピーカペアと、別のトラックを再生するラウドスピーカの新規なペアとが、リスニング位置へと移動されることを示す図である。 本発明の例示的な実施形態によるステレオラウドスピーカリスニングにおけるトラック移行を示す図である。
本発明の上述の側面及び更なる側面が、以下後述する実施形態の例から明らかとなり、これらの実施形態の例を参照して説明される。
本発明が、以下実施形態の例を参照してより詳細に説明されることになるが、本発明はこれらの実施形態に限定されるものではない。
図面における説明は概略的なものである。異なる図面において、同様な又は同一の要素は、同じ参照符号を用いて提供される。
以下、図1を参照して、本発明の例示的な実施形態による音声データ101、102を処理するデバイス100が説明されることになる。
図1に示されるデバイス100は、例えばCD、ハードディスク等の音声データ源107を有する。音声データ源107には、例えば第1の音声アイテム104、第2の音声アイテム105及び第3の音声アイテム106といった複数の音楽トラック(例えば3つの音楽部分)が格納される。
対応する制御信号を受信すると、音声データ101、102(例えば左右のラウドスピーカに対するデータ)が、音声データ源107から例えばマイクロプロセッサ又は中央処理ユニット(CPU)といった制御ユニット103へと送信されることができる。
制御ユニット103は、ユーザインタフェースユニット114と双方向通信状態にあり、ユーザインタフェースユニット114と信号115を交換することができる。ユーザインタフェースユニット114は、例えばLCDディスプレイ又はプラズマデバイスといったディスプレイ要素を有し、例えばボタン、キーパッド、ジョイスティック又は音声認識システムのマイクといった入力要素を有する。人間のユーザは、制御ユニット103の動作を制御することができ、従って、デバイス100のユーザプリファレンスを調整することができる。例えば、人間のユーザは、再生リストのアイテムを切り替えることができる。更に、制御ユニット103は、対応する再生情報又は処理情報を出力することができる。
以下更に詳細に説明されることになる態様で音声データ101、102を処理した後、第1の処理音声データ112が、第1のラウドスピーカ108に再生のため適用され、これにより音波110が生成される。第2の処理音声データ113が得られ、音波111を生成可能な接続済みの第2のラウドスピーカ109により再生されることができる。
第1の音声アイテム104が再生され、続いて第2の音声アイテム105が再生されるというシナリオにおいて、先の第1の音声アイテム104と後続の第2の音声アイテム105との間に滑らかな又は継ぎ目のない移行部分を持つことが望ましい場合がある。この目的のため、制御ユニット103は、移行部分の時間関連音声特性が修正される態様で第1の音声アイテム104と第2の音声アイテム105との間の移行部分を操作する操作ユニットとして機能することができる。より詳細には、第1の音声アイテム104の終了部分及び第2の音声アイテム105の開始又は初めの部分が処理されることができる。従って、第1の音声アイテム104がグライドアウト又はフェードアウトし、第2の音声アイテム105がグライドイン又はフェードインするという音声知覚が得られることができる。この目的のため、第1及び第2の音声アイテム104、105の時間特性は、移行部分においてだけ調整されることができる。一方、第1及び第2の音声アイテム104、105の中央部分は、修正なしに再生されることができる。これは、グライドアウトする第1の音声アイテム104が音響ドップラー効果に基づき操作されることになるよう、音声データ101、102の周波数及びテンポ値を修正することを含むことができる。その結果、操作された第1の音声アイテム104に対して、人間のリスナーは、ボリューム及び周波数/テンポの両方が終了部分において減らされるものとして知覚する。
従って、第2の音声アイテム105の開始部分の音声効果に関して、増加されたラウドネス及び増加された周波数/テンポが知覚されるものとなるよう、第2の音声アイテム105の開始部分が音響ドップラー効果に基づき操作される。この手段を取ることにより、特性における非常に直観的なフェード現象が得られることができる。
第1の音声アイテム104の操作された終了部分及び第2の音声アイテム105の操作された開始部分は、同時に又は重複する態様で再生されることができる。
第1の音声アイテム104の終了部分及び第2の音声アイテム105の開始部分の時間特性の変動が、適切な音を実現するよう、調和又は調整される。
特に、制御ユニット103は、第1の音声アイテム104の終了部分に基づき音波を放出する仮想音声源が、第1の音声アイテム104の終了部分を再生する間に離れる知覚を生成することもできる。より詳細には、斯かる運動経験生成機能は、第2の音声アイテム105の開始部分を再生する仮想再生デバイスが、人間のリスナーに接近する音声知覚を生成することができる。
図1のシステムは、オートDJシステムとして使用されることができる。
本発明の実施形態は、任意の空間移行効果がラウドスピーカリスナーシステムのモデルに暗に又は明示的に基づかれるという洞察に基づかれる。このモデルは、音声作品の元の音声信号のディジタルフィルタリングにより実現される動的なレンダリング処理を制御するのに使用されることができる。標準のリスニングシナリオでは、音声信号は、再生システムのラウドスピーカを介して直接再生されることができる。例示的な実施形態によれば、ラウドスピーカシステムは、ステレオヘッドホンから例えば5.1サラウンドオーディオシステム又は波面合成システムといったマルチチャネルラウドスピーカシステムへと広がる任意の構成とすることができる。
例示的な実施形態によれば、一般的な手法は、標準のリスニングモードから空間的トラック移行効果において使用されるレンダリングモデルへの移行に関して及び標準のリスニングへと戻る逆移行に関して提供される。斯かる実施形態においては、標準のリスニングシナリオが通常、空間移行効果において使用されるレンダリングモデルの特例として識別されることができる。従って、移行モデルへ及び移行モデルからの移行は、移行モデルに基づく音レンダリングのパラメトリック操作により実行されることができる。これは、図2〜図5に示され、以下更に詳細に記載されることになる。
図2は、スキーム200を示す。
スキーム200は、標準のリスニング202における音声再現経路で再生される音声作品201を示す。音声再生システムは、参照符号203で表され、ヘッドホン、ステレオシステム又は5.1システムとして実現されることができる。
更に、仮想ラウドスピーカ・リスナーモデルが、参照符号204で示され、標準のリスニングを表すモデルの特例205、移行効果の音声再生経路206及び移行効果の他の音声再生経路207を含む。
図3は、スキーム300を示す。スキーム300において、第2の音声作品301が同様に示される。
図3から分かるように、移行の開始において、第1の音声作品201が、移行モデルの標準のリスニングを表すモデルの特例205を介して送られる。標準のリスニングを表すモデルの特例205から移行効果の音声再生経路206への移行が始まり、この移行は、仮想ラウドスピーカ・リスナーモデル204のパラメタのパラメトリック操作に基づかれる。第2の音声作品301の動的な移行レンダリングが、移行効果の他の音声再生経路207を通りこのフェーズにおいて始まることができる。
図4は、後の時間でのスキーム400を示す。
連続的な移行において、第1の音声作品201及び第2の音声作品301は共に、所望の動的な空間移行効果を実現するため、仮想ラウドスピーカ・リスナーモデル204を用いてレンダリングされる。通常、第1の音声作品201がリスナーから離れるように見え、第2の音声作品301はリスナーに接近しているように見える態様で、第1の音声作品201が再生される。
後続のスキーム500が図5に示される。
図5を参照すると、標準のリスニングシナリオを表す同等なモードで終わるという態様で、第2の音声作品301の動的なレンダリングが修正される。言い換えると、第2の音声作品301は、移行効果の音声再生経路207から標準のリスニングを表すモデルの特例205へとシフトされる。最終的に、仮想ラウドスピーカ・リスナーレンダリングシナリオの特別なモードからの再生が、第2の音声作品301に関して、図2の標準の音声再生シナリオに切替えられる。
本発明の例示的な実施形態によれば、キャプチャされた信号が、
Figure 0005702599
により与えられるよう、仮想ラウドスピーカから再生される信号x(n)が、仮想マイクを用いてキャプチャされるモデルを使用することが可能である。ここで、アスタリスクは畳込みを表し、dは仮想ラウドスピーカとマイクとの間の距離をメートルで表し、T=F/cである。この場合、Fはサンプリング周波数であり、cは音速である。実際、微小な時間インデックスdTに対応する信号値は、例えばラグランジュ補間回路フィルタといった非整数遅延フィルタを用いて実現されることができる。
図6は、ラウドスピーカ・リスナーモデルの特例として一般的なヘッドホンリスニングの幾何学的な説明に関するアレイ610を示す。
図6は、音声コンテンツを再生するヘッドホン600を示す。更に、左仮想ラウドスピーカ601及び右仮想ラウドスピーカ602が示される。更に、左仮想マイク603及び右仮想マイク604が示される。無限距離が、参照符号605で表される。
前述の議論に基づき、幾何学的な音響的意味における信号の間の相関が、1つの音声チャネルから別のチャネルまでの音漏れとしてモデル化されないよう、ステレオチャネル間の相関又はクロストークが同時的であることが分かる。
本発明の実施形態における標準のリスニングモードは、ヘッドホンリスニングである。提示されたラウドスピーカ・リスナーモデルの特例として、アレイ610による斯かる一般的なヘッドホン音声リスニングシナリオの幾何学的な説明が、図6に示される。音は、原則として、互いに無限に遠く離れて配置される左右の仮想ラウドスピーカ601、602から再生される。音は、左右の仮想ラウドスピーカ601、602の近く置かれる左右の仮想マイク603、604によりキャプチャされる。その後キャプチャされた信号は、ヘッドホン600を介してユーザに再生される。オリジナルの左右のチャネルからのステレオ録音の合成は、ヘッドホンリスニングにおいて元の信号を正確に生成する。この幾何学的な説明の無限距離は、2つの信号の間のクロストークの欠如をモデル化するための1つの実施形態であるにすぎない。同様な結果は、クロストークを減らす又はキャンセルする指向性特性をマイク(若しくはラウドスピーカ、又はその両方とも)に与えることにより得られることができる。
例示的な実施形態によれば、自由場における全方向仮想スピーカ及びマイクだけが考慮される。しかしながら、本発明の実施形態は、指向性及び音場シミュレーションの使用も含む。より現実的な指向性特性及び部屋モデルを音響モデルへと含ませるのに必要とされる手段が、当業者により知られる。実際、全方向トランスデューサを用いてさえ、源の間の距離が無限であることは必要でない又は可能でない。自由場条件における全方向源に対するデシベルでの音の減衰は、
Figure 0005702599
により与えられる。
例えば、20メートルの分離は既に、典型的なステレオ音声マテリアルにおける空間画像上で無視できる(negliable)効果を持つことができる26dBのクロストーク減衰を与える。斯かる表現は、元のステレオ再生に知覚的に似ており、直観的な特別なトラック移行方法を直ちに提供するものでもない。しかしながら、左右の仮想ラウドスピーカ601、602及び左右の仮想マイク603、604の位置を図7に示される別のセットアップ700に移動させる別の変換を行うことが可能である。図7は、人間のリスナーの頭701を追加的に示す。
図7において、左右の仮想ラウドスピーカ601、602は、典型的なラウドスピーカリスニングにおける左右のラウドスピーカの位置に移動される。左右の仮想マイク603、604は、典型的なリスニング状況におけるリスナー耳の位置を表す位置に移動される。
従って、図7は、2つのチャネルラウドスピーカリスニングシステムにおけるリスナーの頭701のシミュレーションを示す。
左仮想ラウドスピーカ601と左仮想マイク603との間の距離は、図6のシナリオから図7のシナリオへの移行において一定に保たれる。従って、ステレオ音声再生の全体のラウドネスは、およそ同じに保たれる。しかしながら、特性は、現在の実施形態に関して絶対に必要なものではない。
図8は、再生される音声データの第1の音声アイテム104及び第2の音声アイテム105を含むスキーム800を概略的に示す。
第1の音声アイテム104を表す左右の仮想ラウドスピーカ601、602のペアは、左右の仮想マイク603、604のペアから離れて移されることができ、第2の音声アイテム105に関連付けられるラウドスピーカ801、802の新規なペアが、リスニング位置に移動される。
典型的な応用例において、1つの音声アイテムAから音声アイテムBへのジャンプは、以下の手順を取ることができる。シーケンスは、ユーザがアイテムAを聞いている状況から始まることができる。
1.アイテムBのラウドスピーカセットを開始位置に置く。開始位置は、例えば、ユーザの耳から右に離れた位置とすることができる。
2.ヘッドホンリスニング(図6)からラウドスピーカリスニング(図7)へとアイテムAを移動させ、仮想ラウドスピーカをリスニング位置に置く。
3.目標位置(例えばユーザの耳から左の方に離れたどこか)にアイテムAを移動させ、同時に開始位置からリスニング位置までアイテムBを移動させる。
4.ラウドスピーカシミュレーションからヘッドホンシミュレーション構成へとアイテムBを表すラウドスピーカを移動させる。
5.アイテムAを無音化する。
同様なアルゴリズムは、再生リストにおける音声アイテムの高速なスキャン又は検索において使用されることもできる。この場合、音声アイテムのシーケンスは、再生リストのコンテンツの概要(プレビュー)をユーザに与えるため、又は特定のアイテムを識別するのに役に立つよう、右から左へと(又はその逆に)流れる。この特定の用途において、アイテムがラウドスピーカ再生構成において再生されるよう、ヘッドホンリスニングシミュレーションを放出することが有益でありえる。この変形例は、リスナーを過ぎる音声アイテムの平滑なフローを提供する。この種のシナリオにおいて、再生リストは、ユーザが、左/右、前方/後方、上/下方向、又はそれらを組み合わせた方向において自由にナビゲートすることができる、2次元若しくは3次元マップとして表されることもできる。
同様な実施形態は、異なる音声ストリームの間の移行を含む他の可能な用途に直接適用されることもできる。例えば、ラジオ又はTVチャンネルを変える際、バックグラウンドで音声が流れるインターネットページをめくる際、パーソナルコンピュータ等において1つの音声アプリケーションから別のアプリケーションに変える際等に適用される。
同様なシナリオが、1つのアイテムだけを含む移行に関する新たなタイプの効果を作成するために使用されることもできる。例えば、空間移行効果は、音声アイテムの再生を開始及び停止するものとして使用されることができ、又は一時的に音声アイテムの音を消すのに使用されることができる。
更に、空間移行に対する同じメカニズムが、異なる話者間を切替える様々な種々の電話用途において使用されることもできる。
別の実施形態では、再生システムは、図9に示されるステレオラウドスピーカシステム900とすることができる。
図9は、第2の音声アイテム105を再生する仮想ラウドスピーカ901、902と、第2の音声アイテム105を再生する仮想ラウドスピーカ903、904とを示す。更に、左右の追加的なラウドスピーカ905、906が示される。図9は、従って、ステレオラウドスピーカリスニングにおけるトラック移行を示す。仮想ラウドスピーカ901〜904は、そのようなものとして当業者に知られる3D音声レンダリング技術のいずれかを用いて、左右の追加的なラウドスピーカ905、906に与えられる音声信号を処理することにより作成される。
図9のシナリオにおいて、レンダリングされた仮想ラウドスピーカの位置及び指向性特性が現実のラウドスピーカと一致するという態様で、信号が左右の追加的なラウドスピーカ905、906を介して直接再生される標準の音声リスニングに対する移行が、仮想ラウドスピーカ901〜904を含む「円(bubble)」を移動させることにより得られる。
処理の観点からは、仮想ラウドスピーカリスナーシステムを介しての第2の音声アイテム105の再生から、ステレオセットアップの真の左右の追加的なラウドスピーカ905、906を介しての再生への移行に関して以下の説明を与えることが可能である。動的なレンダリングアルゴリズムは、以下の異なる式
Figure 0005702599
により記載されることができる、入力信号の線形ディジタルフィルタリングに基づかれる。ここで、アスタリスクが畳み込みを表し、レンダリングフィルタはインパルス応答により表される。このレンダリングモデルの1つの特殊な場合は、ダイレクトな左対左(ll)フィルタ及び右対右(rr)フィルタが、単位ゲイン(unity gain)にまで減らされ、クロストーク項(左対右(lr)及び右対左(rl))が消える場合である。この特殊な場合は、ラウドスピーカを用いる標準のリスニングと同一である。従って、動的なレンダリングにおいて、元のレンダリングフィルタから特殊な場合を表す関数への係数の滑らかな展開を実現する動的な移行経路を用いることにより、移行が任意の空間レンダリングシナリオから実現されることができる。
「comprising」という単語は、他の要素又は特徴を除外するものではない点、及び「a」又は「an」は、複数性を排除するものではない点に留意されたい。また、異なる実施形態に関連して記載される要素は、組み合わされることができる。
また、請求項における参照符号は、請求項の範囲を制限するものとして解釈されるべきでない点にも留意されたい。

Claims (23)

  1. 音声データを処理するデバイスであって、
    前記音声データの第1の音声アイテムの移行部分を操作するよう適合される操作ユニットを有し、前記音声データの前記第1の音声アイテムの時間関連音声特性が、前記移行部分において選択的に修正される態様で操作され
    前記操作ユニットは、仮想ラウドスピーカ・リスナーモデルのパラメータの操作により、動的な空間移行効果を実現するように、前記第1の音声アイテムを再生するように構成された、デバイス。
  2. 前記第1の音声アイテムの前記移行部分が、前記第1の音声アイテムの終了部分である、請求項1に記載のデバイス。
  3. 前記操作ユニットが、前記第1の音声アイテムの前記終了部分のテンポ及び周波数からなるグループの少なくとも1つが減らされる態様で、前記第1の音声アイテムの前記終了部分を操作するよう適合される、請求項2に記載のデバイス。
  4. 前記操作ユニットが、前記音声データの第2の音声アイテムの時間関連音声特性が前記移行部分において選択的に修正される態様で、前記音声データの前記第2の音声アイテムの移行部分を操作するよう適合される、請求項1に記載のデバイス。
  5. 前記第2の音声アイテムの前記移行部分が、前記第2の音声アイテムの開始部分である、請求項4に記載のデバイス。
  6. 前記操作ユニットが、前記第2の音声アイテムの前記開始部分のテンポ及び周波数からなるグループの少なくとも1つが増加される態様で、前記第2の音声アイテムの前記開始部分を操作するよう適合される、請求項5に記載のデバイス。
  7. 前記操作ユニットが、前記第1の音声アイテムの前記移行部分を排他的に操作するよう適合され、前記第1の音声アイテムの残りの部分は、自由に操作できるままである、請求項1に記載のデバイス。
  8. 前記操作ユニットが、前記第1の音声アイテム及び後続の前記第2の音声アイテムを再生するために調整された態様で、前記第1の音声アイテムの移行部分及び前記第2の音声アイテムの移行部分を操作するよう適合される、請求項4に記載のデバイス。
  9. 前記操作ユニットが、前記第1の音声アイテムを再生する音声源が前記移行部分の間移動している音声経験を生成する態様で、前記第1の音声アイテムを処理するよう適合される、請求項1に記載のデバイス。
  10. 前記操作ユニットが、前記第1の音声アイテムを再生する音声源が前記第1の音声アイテムの終了部分の間離れる音声経験を生成するよう適合される、請求項9に記載のデバイス。
  11. 前記操作ユニットが、前記第2の音声アイテムを再生する音声源が前記移行部分の間移動している音声経験を生成する態様で、前記第2の音声アイテムを処理するよう適合される、請求項4又は9に記載のデバイス。
  12. 前記操作ユニットが、前記第2の音声アイテムを再生する音声源が前記第2の音声アイテムの開始部分の間接近する音声経験を生成するよう適合される、請求項11に記載のデバイス。
  13. 前記操作ユニットが、前記第1の音声アイテムの終了部分と前記第2の音声アイテムの開始部分との間の移行を、
    前記第2の音声アイテムの前記移行部分の再生がリモートの開始位置から生じるものとして知覚できるよう、前記第2の音声アイテムの前記移行部分を処理するステップと、
    前記第1の音声アイテムの前記移行部分の再生が中央位置からリモートの最終位置へとシフトされる位置から生じるものとして知覚できるよう、前記第1の音声アイテムの前記移行部分を処理するステップと、
    前記第1の音声アイテムの前記移行部分を処理するステップと同時に、前記第2の音声アイテムの前記移行部分の再生が前記リモートの開始位置から前記中央位置へとシフトされる位置から生じるものとして知覚できるよう、前記第2の音声アイテムの前記移行部分を処理するステップと、
    続いて、前記第1の音声アイテムの前記移行部分が無音化されるよう、前記第1の音声アイテムの前記移行部分を処理するステップとを有するシーケンスに基づき生成するよう適合される、請求項11に記載のデバイス。
  14. 前記操作ユニットが、前記音声データの前記時間関連音声特性が前記移行部分内で徐々に修正される態様で、前記移行部分を操作するよう適合される、請求項1に記載のデバイス。
  15. 前記操作ユニットが、前記音声データの前記時間関連音声特性が前記移行部分において音響ドップラー効果による音声経験を生成するよう修正される態様で、前記移行部分を操作するよう適合される、請求項1に記載のデバイス。
  16. 前記操作ユニットが、追加的に前記音声データのラウドネスが前記移行部分において選択的に修正される態様で、前記第1の音声アイテムの前記移行部分を操作するよう適合される、請求項1に記載のデバイス。
  17. 前記処理された音声データを再生するよう適合される音声再生ユニットを有し、特に、ヘッドホン、イヤホン及びラウドスピーカからなるグループのうちの1つを有する、請求項1に記載のデバイス。
  18. 前記第1の音声アイテムが、音楽アイテム、スピーチアイテム及び音声映像アイテムからなるグループの少なくとも1つを有する、請求項1に記載のデバイス。
  19. オートDJシステム、再生リストにおける音声アイテムを検索するシステム、放送チャネルスイッチシステム、パブリックインターネットページスイッチシステム、電話チャネルスイッチシステム、音声アイテム再生開始システム及び音声アイテム再生停止システムからなるグループの少なくとも1つのために適合される、請求項1に記載のデバイス。
  20. 音声サラウンドシステム、携帯電話、ヘッドセット、ヘッドホン再生装置、ラウドスピーカ再生装置、補聴器、テレビデバイス、ビデオレコーダ、モニタ、ゲームデバイス、ラップトップ、音声プレーヤ、DVDプレーヤ、CDプレーヤ、ハードディスクベースの媒体プレーヤ、ラジオデバイス、インターネットラジオデバイス、パブリックエンタテインメントデバイス、MP3プレーヤ、ハイファイシステム、乗り物のエンタテインメントデバイス、自動車エンタテインメントデバイス、医療通信システム、着衣デバイス、スピーチ通信デバイス、ホームシネマシステム、ホームシアターシステム、フラットテレビ装置、アンビエンス作成デバイス、サブウーファ及びミュージックホールシステムからなるグループの少なくとも1つとして実現される、請求項1に記載のデバイス。
  21. 音声データを処理する方法において、
    前記音声データの第1の音声アイテムの移行部分を操作するステップを有し、前記音声データの前記第1の音声アイテムの時間関連音声特性が、前記移行部分において選択的に修正される態様で操作され
    前記操作するステップは、仮想ラウドスピーカ・リスナーモデルのパラメータの操作により、動的な空間移行効果を実現するように、前記第1の音声アイテムを再生する、方法。
  22. 音声データを処理するプログラムが格納されるコンピュータ可読媒体であって、前記プログラムが、プロセッサにより実行されるとき、請求項21に記載の方法を実行又は制御するよう構成される、コンピュータ可読媒体。
  23. 音声データを処理するプログラムであって、プロセッサにより実行されるとき、請求項21に記載の方法を実行又は制御するよう構成される、プログラム。
JP2010508954A 2007-05-22 2008-05-21 音声データを処理するデバイス及び方法 Expired - Fee Related JP5702599B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP07108601 2007-05-22
EP07108601.1 2007-05-22
PCT/IB2008/051998 WO2008142651A1 (en) 2007-05-22 2008-05-21 A device for and a method of processing audio data

Publications (2)

Publication Number Publication Date
JP2010528335A JP2010528335A (ja) 2010-08-19
JP5702599B2 true JP5702599B2 (ja) 2015-04-15

Family

ID=39680996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010508954A Expired - Fee Related JP5702599B2 (ja) 2007-05-22 2008-05-21 音声データを処理するデバイス及び方法

Country Status (6)

Country Link
US (1) US20100215195A1 (ja)
EP (1) EP2153441A1 (ja)
JP (1) JP5702599B2 (ja)
KR (1) KR101512992B1 (ja)
CN (1) CN101681663B (ja)
WO (1) WO2008142651A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
TWM333022U (en) * 2007-05-08 2008-05-21 Hsin-Yuan Kuo Surrounding-audio earphone
US8384916B2 (en) 2008-07-24 2013-02-26 Massachusetts Institute Of Technology Dynamic three-dimensional imaging of ear canals
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
CN102714778A (zh) 2010-01-15 2012-10-03 邦及奥卢夫森公司 用于显示和关闭声音场景的隔音帘的方法和系统
JPWO2012002467A1 (ja) * 2010-06-29 2013-08-29 茂良 北澤 音楽情報処理装置、方法、プログラム、人工内耳用音楽情報処理システム、人工内耳用音楽情報製造方法及び媒体
US8963722B2 (en) * 2010-10-14 2015-02-24 Sony Corporation Apparatus and method for playing and/or generating audio content for an audience
EP2659483B1 (en) * 2010-12-30 2015-11-25 Dolby International AB Song transition effects for browsing
WO2012176084A1 (en) 2011-06-24 2012-12-27 Koninklijke Philips Electronics N.V. Audio signal processor for processing encoded multi - channel audio signals and method therefor
US20130290818A1 (en) * 2012-04-27 2013-10-31 Nokia Corporation Method and apparatus for switching between presentations of two media items
US20130308800A1 (en) * 2012-05-18 2013-11-21 Todd Bacon 3-D Audio Data Manipulation System and Method
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
CN104035826A (zh) * 2013-03-07 2014-09-10 安凯(广州)微电子技术有限公司 一种消除软件噪声方法及装置
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015006112A1 (en) 2013-07-08 2015-01-15 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106688253A (zh) * 2014-09-12 2017-05-17 杜比实验室特许公司 在包括环绕扬声器和/或高度扬声器的再现环境中呈现音频对象
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US20160378747A1 (en) * 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10531182B2 (en) 2015-12-28 2020-01-07 Zound Industries International Ab Multi-function control of one or several multimedia playback devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
EP3280159B1 (en) * 2016-08-03 2019-06-26 Oticon A/s Binaural hearing aid device
CN108076415B (zh) * 2016-11-16 2020-06-30 南京大学 一种多普勒音效的实时实现方法
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
CN109714697A (zh) * 2018-08-06 2019-05-03 上海头趣科技有限公司 三维声场多普勒音效的仿真方法及仿真系统
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5337363A (en) * 1992-11-02 1994-08-09 The 3Do Company Method for generating three dimensional sound
US5521981A (en) * 1994-01-06 1996-05-28 Gehring; Louis S. Sound positioner
JPH07230283A (ja) * 1994-02-18 1995-08-29 Roland Corp 音像定位装置
JP3464290B2 (ja) * 1994-10-13 2003-11-05 ローランド株式会社 自動演奏装置
JP3472643B2 (ja) * 1995-04-14 2003-12-02 ローランド株式会社 補間装置
US6011851A (en) * 1997-06-23 2000-01-04 Cisco Technology, Inc. Spatial audio processing method and apparatus for context switching between telephony applications
EP1162621A1 (en) * 2000-05-11 2001-12-12 Hewlett-Packard Company, A Delaware Corporation Automatic compilation of songs
GB2378626B (en) * 2001-04-28 2003-11-19 Hewlett Packard Co Automated compilation of music
JP4646099B2 (ja) * 2001-09-28 2011-03-09 パイオニア株式会社 オーディオ情報再生装置及びオーディオ情報再生システム
US7424117B2 (en) * 2003-08-25 2008-09-09 Magix Ag System and method for generating sound transitions in a surround environment
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
JP3799360B2 (ja) * 2004-04-19 2006-07-19 株式会社ソニー・コンピュータエンタテインメント 楽音再生装置、楽音再生方法、楽音再生プログラム及び記録媒体
JP4232685B2 (ja) * 2004-05-07 2009-03-04 ヤマハ株式会社 ミキサ装置の制御方法、ミキサ装置およびプログラム
US20050259532A1 (en) * 2004-05-13 2005-11-24 Numark Industries, Llc. All-in-one disc jockey media player with fixed storage drive and mixer
JP4397330B2 (ja) * 2005-01-24 2010-01-13 ヤマハ株式会社 楽曲再生装置及び楽曲再生プログラム
WO2006104162A1 (ja) * 2005-03-28 2006-10-05 Pioneer Corporation 楽曲データ調整装置
KR20080074975A (ko) * 2005-12-09 2008-08-13 소니 가부시끼 가이샤 음악 편집 장치, 음악 편집 정보의 작성 방법, 및 음악편집 정보가 기록된 기록 매체
US8280539B2 (en) * 2007-04-06 2012-10-02 The Echo Nest Corporation Method and apparatus for automatically segueing between audio tracks

Also Published As

Publication number Publication date
WO2008142651A1 (en) 2008-11-27
CN101681663A (zh) 2010-03-24
EP2153441A1 (en) 2010-02-17
CN101681663B (zh) 2013-10-16
KR101512992B1 (ko) 2015-04-17
JP2010528335A (ja) 2010-08-19
US20100215195A1 (en) 2010-08-26
KR20100017860A (ko) 2010-02-16

Similar Documents

Publication Publication Date Title
JP5702599B2 (ja) 音声データを処理するデバイス及び方法
JP7389081B2 (ja) 三次元拡張オーディオを提供するシステム及び方法
JP5050721B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR100854122B1 (ko) 가상음상정위 처리장치, 가상음상정위 처리방법 및 기록매체
US8903525B2 (en) Sound processing device, sound data selecting method and sound data selecting program
JP2000081886A (ja) 音声/映像シミュレ―タ
CN108476367A (zh) 用于沉浸式音频回放的信号的合成
KR20110040190A (ko) 휴대용 단말기의 음악 재생 장치 및 방법
JP6868093B2 (ja) 音声信号処理装置及び音声信号処理システム
JP2022548400A (ja) ハイブリッド式近距離/遠距離場スピーカー仮想化
JP2956125B2 (ja) 音源情報制御装置
JP2006287878A (ja) 携帯電話端末
KR102058228B1 (ko) 입체 음향 컨텐츠 저작 방법 및 이를 위한 어플리케이션
CN105979468A (zh) 一种音频处理方法及装置
KR100566131B1 (ko) 음상 정위 기능을 가진 입체 음향을 생성하는 장치 및 방법
US20120078399A1 (en) Sound processing device, sound fast-forwarding reproduction method, and sound fast-forwarding reproduction program
JPH09163500A (ja) バイノーラル音声信号生成方法及びバイノーラル音声信号生成装置
WO2022124084A1 (ja) 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JPH11331982A (ja) 音響処理装置
KR100655543B1 (ko) 인공 잔향기를 갖는 이동 통신 단말기
Härmä et al. Spatial track transition effects for headphone listening
KR20080018409A (ko) 웹 기반의 2채널 출력을 위한 입체 음향 편집 시스템
JP2004215781A (ja) ゲーム機及びゲーム機用プログラム
Norlén The potential of 5.1 home surround system to create a wide listening area for music production

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121102

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131128

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141112

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150220

R150 Certificate of patent or registration of utility model

Ref document number: 5702599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees