JP6367258B2 - オーディオ処理装置 - Google Patents

オーディオ処理装置 Download PDF

Info

Publication number
JP6367258B2
JP6367258B2 JP2016084105A JP2016084105A JP6367258B2 JP 6367258 B2 JP6367258 B2 JP 6367258B2 JP 2016084105 A JP2016084105 A JP 2016084105A JP 2016084105 A JP2016084105 A JP 2016084105A JP 6367258 B2 JP6367258 B2 JP 6367258B2
Authority
JP
Japan
Prior art keywords
sound source
audio
audio signal
determining
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016084105A
Other languages
English (en)
Other versions
JP2016178652A (ja
JP2016178652A5 (ja
Inventor
ケマル ウグル
ケマル ウグル
ミッコ タンミ
ミッコ タンミ
Original Assignee
ノキア テクノロジーズ オーユー
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー, ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2016178652A publication Critical patent/JP2016178652A/ja
Publication of JP2016178652A5 publication Critical patent/JP2016178652A5/ja
Application granted granted Critical
Publication of JP6367258B2 publication Critical patent/JP6367258B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

分野
本願はオーディオ処理のための装置に関する。また本願は、それらに限られるわけではないが、オーディオ処理のためのポータブル装置または携帯装置に関する。
背景
電子機器で、音声の録音や、音声付き動画の録画を行うことは、現在では一般的である。プロ用のビデオ撮影装置や、一般消費者向けのビデオカメラやデジタルカメラ、携帯電話、さらにウェブカムのようなシンプルなデバイスまでの様々な装置によって、電子的に動画を撮影することができる。ビデオや、ビデオに関連付けれる音声を記録することは、多くの携帯機器にとって標準的な機能となり、そのような機器における記録品質も急速に向上してきている。携帯機器を使って個人的な経験を記録することは、携帯電話やその他のユーザ機器のような携帯機器にとってますます重要な使用法となっている。このような機能と、ソーシャルメディア等の、効率的なコンテンツ共有の新しい方法とを組み合わせることは、これらの発展の重要性と、電子機器業界にもたらされた新しい機会とに、その基礎がある。
従来の状況において、環境は、三つの空間次元の全てに拡散する複数の音源を有する音場からなっている。脳によりコントロールされる人間の聴覚システムは、この三次元の音場において、これらの音源の場所を特定し、音源を分離し、それを理解するという能力を進化させてきた。例えば脳は、音の波面(wavefront)が我々の両耳に届いたとき、音源からの音の波面に埋め込まれているキュー(cue)を解読することにより、音源の場所を特定しようと試みる。空間認知に関与する最も重要な二つのキューは、両耳間時間差(Interaural Time Differences; ITD)と、両耳間強度差(Interaural Level Differences (ILD)である。例えば、聴く者の前方左側に位置する音源が右耳に届く時間は、左耳に届く時間に比べて長い。この時間差をITDと呼ぶ。また、頭部により影になるため、右耳に届く波面は左耳に届く波面に比べて減衰しており、これがILDをもたらす。さらに、耳介の構造や肩部の反射による波面の変形も、3次元の音場中で音源の位置を特定することに重要な役割を果たす場合がある。従って、これらのキューは聴く者や個人、周波数、三次元音場における音源の位置、聴く者が置かれている環境(例えば無響室、ホールの観客席、居間等)に依存する。
音声−動画記録手段の実装方法はよく知られている。これらの記録・キャプチャは、しばしばノイズの多い環境で行われる。背景ノイズのため、記録される内容の細かい事項は把握することができなくなることがある。このような事態が生じると、それらの細かい事項が何かを把握するために、記録をやり直すように要求されることがある。これは、周辺のノイズがひどく邪魔して議論についていくことが難しいような状況で、会話を録音するような状況では、特に問題となる。周辺や環境のノイズが記録内容の細かい特徴を理解することを妨げないような場合でも、理解するために多くの注意を払わなければならないような状況は、煩わしく、いらいらさせられるものである。
本願のまとめ
本願の特徴は、柔軟なオーディオ処理を可能にするオーディオ処理能力を提供することである。
少なくとも一つのプロセッサと、一つ又は複数のプログラムのためのコンピュータ命令を格納する少なくとも一つのメモリとを備える装置が提供される。前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサを用いて、前記装置に:少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することと;前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することと;前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することと;前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することと;を遂行させるように構成される。
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することとは、前記装置に:前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけることと;前記位置情報から少なくとも一つの音源を決定することと;の少なくともいずれかを行わせてもよい。さらに、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記装置に、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定させてもよい。
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記装置にさらに:イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること;少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること;少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定すること;の少なくともいずれかを行わせてもよい。
前記装置はさらに:表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することと;前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定することと;を行うようにされてもよい。ここで、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記装置に、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定させてもよい。
表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することは、前記装置に更に:表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成することと;少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示することと;を行わせてもよい。また、少なくとも一つの視覚的要素のPOI位置を決定することは、前記装置に、少なくとも一つの選択入力に基づいて少なくとも一つのPOI位置を決定させてもよい。
前記表示イメージを生成することは、前記装置に:少なくとも一つのイメージフレームをキャプチャすることと;少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することと;少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合することと;を行わせてもよい。
少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することは、前記装置に:少なくとも一つの音源のPOI位置を示すオーバーレイを生成することと;少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイを生成することと;少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイを生成することと;少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイを生成することと;決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイを生成することと;決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイを生成することと;焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイを生成することと;装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイを生成することと;の少なくともいずれかを行わせてもよい。
前記装置は、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する少なくとも一つの制御入力を提供するようにされてもよい。例えば、決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することは、前記装置に、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生させる。
前記少なくとも一つの位置に関連する少なくとも一つの制御入力を提供することは、前記装置に:少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタ;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタ;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタ;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタ;の少なくともいずれかを提供させてもよい。
前記少なくとも一つのオーディオ信号は少なくとも2つのオーディオ信号を含み、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定することとは、前記装置に:前記少なくとも2つのオーディオ信号から、前記少なくとも一つの音源が位置に関する値を含むことを決定することと;前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源を決定することと;の少なくともいずれかを行わせてもよい。
前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することは、前記装置に:前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定することと;前記少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡することと;前記少なくとも一つの特徴の移動経路を決定することと;を行わせてもよい。
前記装置は、前記少なくとも一つのオーディオ信号を、少なくとも2つのマイク;装置のメモリ;少なくとも一つの他の装置;のいずれかから受け取るようにされてもよい。
前記装置はさらに:前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを受け取るようにされ、前記少なくとも一つのキャプチャされたイメージフレームは、少なくとも一つのカメラ;メモリ;少なくとも一つの他の装置;のいずれかから受け取られる。
本発明の第2の側面によれば、次のような装置が提供される。この装置は、少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定する手段と;前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段と;前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定する手段と;前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生する手段と;を備える。
少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定する前記手段は:前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つける手段;前記位置情報から少なくとも一つの音源を決定する手段;の少なくともいずれかを備えてもよく、さらに、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段は、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段を備えてもよい。
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段は、さらに:イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定する手段;少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定する手段;少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段;の少なくともいずれかを備えてもよい。
前記装置はさらに、表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供する手段;前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定する手段;を備えてもよい。
また、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段は、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段を備えてもよい。
表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供する前記手段は;表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成する手段;少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示する手段;を備えてもよい。また、少なくとも一つの視覚的要素のPOI位置を決定する手段は、少なくとも一つの選択入力に基づいて少なくとも一つのPOI位置を決定する手段を備えてもよい。
表示イメージを生成する前記手段は:少なくとも一つのイメージフレームをキャプチャする手段と;少なくとも一つのユーザインタフェース・オーバーレイ要素を生成する手段と;少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合する手段と;を備えてもよい。
少なくとも一つのユーザインタフェース・オーバーレイ要素を生成する前記手段は:少なくとも一つの音源のPOI位置を示すオーバーレイを生成する手段;少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイを生成する手段;少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイを生成する手段;少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイを生成する手段;決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイを生成する手段;決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイを生成する手段;焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイを生成する手段;装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイを生成する手段;の少なくともいずれかを備えてもよい。
前記装置は、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する少なくとも一つの制御入力を提供する手段を備えてもよい。また、決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生する手段は、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生する手段を備えてもよい。
前記少なくとも一つの位置に関連する少なくとも一つの制御入力を提供する手段は:少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅を提供する手段;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲を提供する手段;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタを提供する手段;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタを提供する手段;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタを提供する手段;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタを提供する手段;の少なくともいずれかを備えてもよい。
前記少なくとも一つのオーディオ信号は少なくとも2つのオーディオ信号を含み、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定する前記手段は:前記少なくとも2つのオーディオ信号から、前記少なくとも一つの音源が位置に関する値を含むことを決定する手段;前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源を決定する手段;の少なくともいずれかを備えてもよい。
前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定する手段は:前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定する手段と;前記少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡する手段と;前記少なくとも一つの特徴の移動経路を決定する手段と;を備えてもよい。
前記装置は、前記少なくとも一つのオーディオ信号を、少なくとも2つのマイク;装置のメモリ;少なくとも一つの他の装置;のいずれかから受け取る手段を備えてもよい。
前記装置はさらに、前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを受け取る手段をさらに備えてもよく、前記少なくとも一つのキャプチャされたイメージフレームは、少なくとも一つのカメラ;メモリ;少なくとも一つの他の装置;のいずれかから受け取られてもよい。
本発明の第3の側面によれば、次のような方法が提供される。この方法は、少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することと;前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することと;前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することと;前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することと;前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけることと;前記位置情報から少なくとも一つの音源を決定することと;を含む。さらに前記方法は、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することを含む。
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは:イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること;少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること;少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定すること;の少なくともいずれかを含んでもよい。
前記方法はさらに、表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することと;前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定することと;を含んでもよい。また、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することを含んでもよい。
表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することは:表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成することと;少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示することと;を含んでもよい。また、少なくとも一つの視覚的要素のPOI位置を決定することは、少なくとも一つの選択入力に基づいて少なくとも一つのPOI位置を決定することを含んでもよい。
表示イメージを生成することは:少なくとも一つのイメージフレームをキャプチャすることと;少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することと;少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合することと;を含んでもよい。
前記少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することは:少なくとも一つの音源のPOI位置を示すオーバーレイを生成すること;少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイを生成すること;少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイを生成すること;少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイを生成すること;決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイを生成すること;決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイを生成すること;焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイを生成すること;装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイを生成すること;の少なくともいずれかを含んでもよい。
前記方法は、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する少なくとも一つの制御入力を提供することを含んでもよい。また、決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することは、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生することを含んでもよい。
前記少なくとも一つの位置に関連する少なくとも一つの制御入力を提供することは:少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅を提供すること;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲を提供すること;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタを提供すること;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタを提供すること;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタを提供すること;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタを提供すること;の少なくともいずれかを含んでもよい。
前記少なくとも一つのオーディオ信号は少なくとも2つのオーディオ信号を含み、少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することとは:前記少なくとも2つのオーディオ信号から、前記少なくとも一つの音源が位置に関する値を含むことを決定すること;前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源を決定すること;の少なくともいずれかを含んでもよい。
前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することは:前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定することと;前記少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡することと;前記少なくとも一つの特徴の移動経路を決定することと;を含んでもよい。
前記方法は、前記少なくとも一つのオーディオ信号を、少なくとも2つのマイク;装置のメモリ;少なくとも一つの他の装置;のいずれかから受け取ることを含んでもよい。
前記方法は:前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを受信することを含んでもよい。
ここで前記少なくとも一つのキャプチャされたイメージフレームは、少なくとも一つのカメラ;メモリ;少なくとも一つの他の装置;のいずれかから受け取られてもよい。
本発明の第4の側面によれば、次のような装置が提供される。この装置は、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定するように構成される空間オーディオアナライザと;前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成される位置決定部と;前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定するように構成される移動経路決定部と;前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより前記少なくとも一つのオーディオ信号を再生するように構成される処理部と;を備える。
前記空間オーディオアナライザは:前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけるメタデータ決定部;前記位置情報から少なくとも一つの音源を決定する空間アナライザ;の少なくともいずれかを備えてもよい。
また、前記位置決定部は、前記音源位置情報に基づいて、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成されてもよい。
前記位置決定部は:イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定するように構成されるイメージ位置決定部;少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定するように構成されるオーディオ位置決定部;少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成されるユーザインタフェース入力部;の少なくともいずれかを備えてもよい。
前記装置はさらに、表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供するように構成されるビジュアルプロセッサと;前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定するように構成されるタッチコントローラと;を備えてもよい。
また、前記位置決定部は、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成されてもよい。
前記ビジュアルプロセッサは:表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成することと;少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示することと;を行うように構成されてもよい。
また、前記位置決定部は、前記少なくとも一つの選択入力に基づいて、前記少なくとも一つのPOI位置を決定するように構成されてもよい。
前記ビジュアルプロセッサは:少なくとも一つのキャプチャされたイメージフレームを受け取ることと;少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することと;少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのキャプチャされたイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合することと;を行うように構成されてもよい。
前記少なくとも一つのユーザインタフェース・オーバーレイ要素を生成するように構成された前記ビジュアルプロセッサは、少なくとも一つの音源のPOI位置を示すオーバーレイ;少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイ;少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイ;少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイ;決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイ;決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイ;焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイ;装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイ;の少なくともいずれかを生成するように構成されてもよい。
前記装置は、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する制御入力部を備えてもよい。また、前記プロセッサは、前記少なくとも一つの制御入力部に基づいて前記少なくとも一つのオーディオ信号を再生するように構成されてもよい。
前記制御入力部は:少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタ;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタ;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタ;少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタ;の少なくともいずれかを提供するように構成されてもよい。
前記少なくとも一つのオーディオ信号は少なくとも2つのオーディオ信号を含み、前記空間オーディオアナライザは:前記少なくとも2つのオーディオ信号から、位置に関する値を含む前記少なくとも一つの音源;前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源;の少なくともいずれかを決定するように構成されてもよい。
前記移動経路決定部は:前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定するように構成される特徴決定部と;前記少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡するように構成される特徴追跡部と;前記少なくとも一つの特徴の移動経路を決定するように構成される特徴移動経路決定部と;を備えてもよい。
前記装置は、前記少なくとも一つのオーディオ信号を、少なくとも2つのマイク;装置のメモリ;少なくとも一つの他の装置;のいずれかから受け取るように構成される入力部を備えてもよい。
前記装置はさらに、前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを受信するように構成されるイメージ入力部を備えてもよい。
ここで前記少なくとも一つのキャプチャされたイメージフレームは、少なくとも一つのカメラ;メモリ;少なくとも一つの他の装置;のいずれかから受け取られてもよい。
本発明の第5の側面によれば、次のような装置が提供される。この装置は、少なくとも一つの送受信機と;少なくとも一つの表示装置と;少なくとも一つのサウンド再生トランスデューサーと;少なくとも1つのプロセッサと;少なくとも一つのメモリと;少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定するように構成される空間オーディオアナライザと;前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成される位置決定部と;前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定するように構成される移動経路決定部と;前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより前記少なくとも一つのオーディオ信号を再生するように構成される処理部と;を備える。
媒体に格納されるコンピュータプログラムが、上述の方法を装置に遂行させてもよい。
電子機器が上述の装置を備えていてもよい。
チップセットが上述の装置を備えていてもよい。
本願の実施形態は、技術分野における現状の問題に対処することを目的とする。
本願の深い理解に資すべく、例として添付図面を参照されたい。
実施形態を実装するために適切な装置を図示したものである。 実施形態を実装するために適切な、オーディオ・ビデオ処理装置をさらに詳しく図示したものである。 ある実施形態に従う、図2に図示した装置の流れ図である。 例示的なオーディオ・ビデオキャプチャのシナリオを示したものである。 焦点を当てたオーディオ・ビデオソースを特定するためのユーザ入力が存在する、例示的なオーディオ・ビデオキャプチャのシナリオを示したものである。 例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられたオーディオ・ビデオソースが視覚的に示されている。 例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられたオーディオ・ビデオソースが視覚的に示されていると共に、当該オーディオ・ビデオソースが追跡されている。 例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられたオーディオ・ビデオソースが視覚的に示されている。また、例示的なオーディオ波形も示されており、キャプチャしたオーディオ信号のうち焦点が当てられたものと当てられていないものが示されている。 例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられたオーディオ・ビデオソースが視覚的に示されている。また、例示的なオーディオ波形も示されており、キャプチャしたオーディオ信号のうち焦点が当てられ追跡されているものと、焦点が当てられておらず追跡されていないものが示されている。 例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられているオーディオ・ビデオソースを視覚的に特定するためのビデオ処理が示されている。 例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられているオーディオ・ビデオソースがスクリーンをどこに離れているかを視覚的に特定するためのビデオ処理が示されている。 ある実施形態に従う装置の動作の概要の流れ図である。
本願の実施形態
以下、効率的なオーディオ処理を提供するために適切な装置及びメカニズムを詳細に説明する。
本明細書で説明するように、オーディオイベントは、複数のマイクをアレイで用いることにより(すなわち配列して用いることにより)、効率的にキャプチャすることが可能である。
複数のマイクは効率的にオーディオイベントをキャプチャするために使用されうる。しかし、その信号が収録された時に自らもそこにいたように聴く者に思わせうるように、キャプチャした信号を変換することは、しばしば困難である。特に、収録された又はキャプチャされたオーディオ信号においては、空間を表現する成分が失われる可能性がある。それは、リスナーが音源の方向を感知することができず、またはリスナーが、収録された又はキャプチャされたオーディオイベントと同じような形でリスナーの周囲の雰囲気を感知することができないからである。
様々な方向に存在する複数の音源を含む空間信号を表現するために、マルチチャネルのシステムを使用することができる。例えば、5.1チャネルでセットアップされたシステムがよく用いられている。このようなシステムは、複数のマイクを有するシステムにより収録された空間イベントを表現するために使用されうる。複数のマイクによるレコーディング又はキャプチャの結果を適切なマルチチャネルのオーディオ信号形式に変換するための効率的な手法については、これまでにも議論されてきている。
マルチチャネルシステムの他にも、ヘッドホンを使って再生を行う場合、バイノーラル・オーディオ信号形式によっても空間オーディオを表現することができる。複数のマイクにより収録されたオーディオ信号をバイノーラル信号に変換するための手法についても議論されてきている。
これまでのところ、これらの形式は互いに補完しあうものであると理解されている。というのも、バイノーラル信号は通常モバイルユーザにとって好適なものであり、マルチチャネルのシステムは、例えば家やオフィスなどで使用されうるものであるからである。
ある手法では、複数のマイクで収録されたオーディオ信号は、音源の方向の情報を含む、暫定的な空間オーディオ形式の信号に変換されることができる。複数のマイクで収録されたオーディオ信号から導き出された音源方向情報の生成は、状況次第で、空間オーディオ信号処理に用いられることができる。空間オーディオ信号処理は、例えばユーザが、空間フィールドにおける特定の部分(例えば興味をそそられるような音源)に集中したいと欲する場合に使用される。
例えばこれは、例えば次のように動作する、"インタラクティブなオーディオ操作"として実装されることができる。
1.音場を収録し、収録した信号から方向情報を解析する。
2.ビデオの収録中に、音声信号を増幅又は減衰させるべく方向情報を指示する。(例えばユーザが画面上でタップすることによって行われる。)
3.音源の方向及び指示された方向に基づき、空間及び方向情報を修正して新たなオーディオ信号を生成する。(例えば所望の方向からの音を増幅することによって行われる。)
さらに、実施形態によっては、"インタラクティブなオーディオ操作"は、オブジェクトの追跡に基づいた操作を提供しうる。例えば、オブジェクトが移動すると、処理動作もそのオブジェクトに追随する。本明細書で紹介される実施例で説明されるコンセプトは、サウンド・オブジェクトの方向を追跡し、この追跡情報を空間オーディオプロセッサに提供することである。従って例えば、処理対象オブジェクトの方向は、(マイクやカメラを有する)装置が移動したり、サウンド・オブジェクトが移動したりすることにより、時間と共に変化しうる。
ある実施形態において、ユーザは、特に関心を引く音源を選択してもよく、装置はその音源を追跡し、追跡した方向における音声収録動作に集中してもよい。
ある実施形態において、この追跡処理は、画像追跡(image tracking)又は視覚追跡(vision tracking)に基づいてもよい。従って例えば、デバイスのスクリーン上でタップすることにより、増幅すべき所望のサウンド・オブジェクトの方向を指示するとき、装置は、指示されたポイントの領域の周りに特徴ポイントを生成する。そして装置は、視覚ベースの追跡アルゴリズムを用いてこれらの特徴ポイントを追跡し、オーディオプロセッサに提供されるべき追跡方向情報を生成してもよい。
さらに、実施形態によっては、上記追跡処理は、オーディオ・フィンガープリント(audio fingerprint)の追跡に基づいてもよい。従って例えば、ユーザが所望のサウンド・オブジェクトの方向を指示するとき、装置はその方向からのオーディオ信号を分析し、オーディオ・フィンガープリントを生成する。そしてアルゴリズムは、後続の全てのオーディオフレームに対して、収録したオーディオ信号をオーディオ・フィンガープリントとのマッチングを行うことで分析し、オブジェクトの方向を推定する。このため、音源はビューファインダで見えていなくともよく、またカメラの撮影範囲にいなくてもよい。
本明細書で説明されるコンセプトはさらに、実施形態によっては、音が強められるオブジェクトを示すために、視覚的なキューを生成して装置のディスプレイ上に提供することを特徴とする。例えば、実施形態によっては、特定の方向に対応するピクセルの色が強められてもよい。
本明細書で説明される実施形態は、後で再生を行うためのレコーディング・アプリケーションに実装されるだけでなく、音源を動的に変更するリアルタイムアプリケーションや、以前に収録されたオーディオ・ビデオコンテンツに基づいて実装されてもよい。例えば、実施形態によっては、レコーディングされた物に関する適切な実施形態の概要は、次のように表される。
・ レコーディング中に、メインのオーディオトラックに加えて、音源の方向に関する情報を示すメタファイルが同時に生成される。オーディオトラックは(例えばステレオやマルチチャネルのオーディオ信号として、又はモノラルのオーディオ信号として)記録され収録される。
・ 再生中に、音源の方向が選択される。(例えば所望の音源を強調して示すユーザインタフェースによって行われる。)
・ 追跡メカニズムを用いて、またレコーディング中に得られたメタデータを用いて、計算された音源の方向が強められたオーディオ信号が生成される。
これに関して、まず図1を参照されたい。この図は例示的な装置又は電子機器10のブロック図である。例示的な装置又は電子機器10は、オーディオ信号をキャプチャ又はモニタするために使用されてもよい。オーディオ信号をキャプチャ又はモニタすることによって、音源の方向又は動きを決定したり、ユーザインタフェースで使用するために、音源の動きが既知の又は決定されたジェスチャに一致するかどうかを決定したりしてもよい。
装置10は、例えば移動端末や、無線通信システムにおけるユーザ機器であることができる。実施形態によっては、装置10は、MP3プレーヤーやメディアレコーダー、(MP4プレーヤーとしても知られる)メディアプレーヤー等のオーディオプレーヤーやオーディオレコーダーであってもよく、ユーザインタフェース入力を要する適当なポータブルデバイスであってもよい。
実施形態によっては、装置10は、パーソナルコンピュータシステムや、電子ドキュメントリーダー、タブレットコンピュータ、ラップトップコンピュータの一部であってもよい。
実施形態によっては、装置10は、オーディオ・サブシステムを備えていてもよい。実施形態によっては、オーディオ・サブシステムは、例えば、オーディオ信号をキャプチャするためのマイクやマイクアレイ11を備えていてもよい。実施形態によっては、マイク(又はマイクアレイの少なくとも一つ)はソリッドステートマイクであってもよい。つまり、アコースティック信号をキャプチャし、適切なデジタル形式音声信号として出力する能力を有するマイクであってもよい。別の実施形態において、マイク又はマイクアレイ11は、例えばコンデンサーマイクや、静電型マイク、エレクトレットコンデンサーマイク、ダイナミックマイク、リボンマイク、カーボンマイク、圧電マイク、微小電気機械システム(MEMS)マイクであってもよい。実施形態によっては、マイク又はマイクアレイ11は、生成したオーディオ信号を、A/Dコンバータ(ADC)14へと出力してもよい。
実施形態によっては、装置又はオーディオ・サブシステムはA/Dコンバータ14を備える。A/Dコンバータ14は、キャプチャされたアナログオーディオ信号をマイクから受け取り、適切なデジタル形式にして出力する。A/Dコンバータ14は、アナログ・デジタル変換処理を行う如何なる手段であってもよい。
実施形態によっては、装置10及びオーディオ・サブシステムは、プロセッサ21からのデジタルオーディオ信号を適切なアナログ形式に変換するD/Aコンバータ32を備えてもよい。D/Aコンバータ(DAC)又は信号処理手段32には、如何なるDAC技術を用いてもよい。
さらに実施形態によっては、オーディオ・サブシステムは、スピーカー33を備えてもよい。実施形態によっては、スピーカー33は、D/Aコンバータ32の出力を受け取り、アナログのオーディオ信号をユーザに提示することができる。実施形態によっては、スピーカー33はヘッドセット(例えばヘッドホンとコードレスマイクのセット)を表してもよい。
装置10は、オーディオキャプチャ要素及びオーディオ再生要素の両方を備えているものとして描かれているが、実施形態によっては、音声収録のためのマイクとA/Dコンバータしか備えていない装置のような、オーディオキャプチャ要素しか備えていない場合もある。
実施形態によっては、装置のオーディオ・ビデオサブシステムはカメラ51又はイメージキャプチャ手段を備える。カメラ51又はイメージキャプチャ手段はイメージデータをプロセッサ21に出力するように構成される。
実施形態によっては、このカメラは、ビデオストリームを供給すべく、時間と共に複数のイメージ又はフレームを供給するように構成されてもよい。実施形態によっては、装置のオーディオ・ビデオサブシステムは、表示装置52を備える。ディスプレイ又は表示装置は視覚的イメージ又はビデオフレームを、装置のユーザが見えるように出力するように構成される。実施形態によっては、このディスプレイは、装置に入力を供給するために適したタッチスクリーンディスプレイであることができる。このディスプレイは如何なるディスプレイ技術を用いたものであってもよい。例えば、LCDやLED、OLEDのセルからなるフラットパネルを用いて実装されてもよいし、プラズマディスプレイにより実装されてもよい。
装置10は、オーディオ/ビデオキャプチャ要素及びオーディオ/ビデオ再生要素の両方を備えているものとして描かれているが、実施形態によっては、オーディオ・サブシステムのオーディオキャプチャ要素及びオーディオ再生部しか備えていない場合もある。例えば実施形態によっては、収録用のマイクロフォンと、再生用のスピーカーしか備えていない場合もある。同様に、実施形態によっては、装置10は、ビデオサブシステムのうちビデオキャプチャ要素及びビデオ再生部のいずれかしか備えていない場合もある。例えば、ビデオキャプチャ用のカメラ51とビデオ再生用の表示装置52のいずれかしか備えていない場合がある。
実施形態によっては、装置10はプロセッサ21を備える。プロセッサ21はオーディオ・サブシステムに組み合わされており、また実施例によっては、特に、オーディオ信号を表すマイク11からのアナログ信号を受け取るA/Dコンバータ14と、処理済みのデジタルオーディオビデオ信号を生成するカメラ51と、信号を受け取るD/Aコンバータ12と、プロセッサ21からの処理済みデジタルビデオ信号を出力する表示装置52とにも組み合わされている。
プロセッサ21は、様々なプログラム命令を実行するように構成されることができる。実装されうるプログラム命令は、例えば、ソースの決定、音源の方向の推定、音源処理、ユーザインタフェース動作のためのものであることができる。
実施形態によっては、装置10はメモリ22を備える。実施形態によっては、プロセッサ21はメモリ22に組み合わされる。メモリ22は、適切な如何なる記憶手段であってもよい。実施形態によっては、メモリ22は、プログラム命令を格納するプログラム命令セクション23を有してもよい。プログラム命令セクション23はプロセッサ21により実装されうる。さらに、実施形態によっては、メモリ22は、データ記憶のためのデータ記憶セクション24を有してもよい。データ記憶セクション24は、例えば、アプリケーションに従ってキャプチャされたオーディオデータや、本明細書で説明される実施形態に関連して処理されたオーディオデータを記憶する。プログラム命令セクション23に格納されるプログラム命令と、データ記憶セクション24に格納されるデータとは、必要な時にはいつでも、メモリ−プロセッサ・カップリングを通じて読み出されることができる。
実施形態によっては、装置10はユーザインタフェース15を備える。実施形態によっては、ユーザインタフェース15はプロセッサ21に組み合わされる。実施形態によっては、プロセッサは、ユーザインタフェース15の動作を制御し、ユーザインタフェース15からの入力を受け取ることができる。実施形態によっては、ユーザインタフェース15は、ユーザが、例えばキーパッドを使って、デバイス又は装置10に命令を入力することを可能にすることができる。及び/又は、ユーザが、例えばディスプレイを通じて装置10から情報を受け取ることを可能にする。キーパッドやディスプレイはユーザインタフェース15の一部である。実施形態によっては、ユーザインタフェース15は、装置10への情報入力及び情報の表示の両方が可能なタッチスクリーンやタッチインタフェースを備えることができる。
実施形態によっては、装置10はさらに、送受信機13を備える。実施形態によっては、送受信機13はプロセッサに組み合わされ、例えば無線通信ネットワークを介して、他の装置又は電子機器と通信しうるように構成される。実施形態によっては、送受信機13、又は他の適当な送受信手段、送信手段、受信機手段、他の電子機器や装置と有線又は無線のカップリングを通じて通信し合うように構成される。
送受信機13は、さらに別のデバイスと、適切な既知の通信プロトコルによって通信することができてもよい。例えば実施形態によっては、送受信機13又は送受信手段は、UMTS(universal mobile telecommunications system)プロトコルや、例えばIEEE802.X等の無線ローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)のような短距離無線通信プロトコル、赤外線データ通信路(IrDA)のうち適切なものを使用することができてもよい。
実施形態によっては、送受信機13は、本明細書で説明される実施形態に従って処理するために、オーディオ信号を送信したり受信したりするように構成される。
実施形態によっては、装置10は、装置10の位置を推定するように構成される位置センサ16を備える。
実施形態によっては、位置センサ16は、GPS(Global Positioning System)やGLONASS、ガリレオレシーバのような衛星測位システムであってもよい。
実施形態によっては、位置センサ16は、セルラIDシステムやassisted-GPSシステムであってもよい。
実施形態によっては、装置10はさらに、方向又はを方位センサを備える。
実施形態によっては、方位/方向センサは電子コンパス、加速度計、ジャイロスコープであってもよい。実施形態によっては、位置推定を用いて装置の動きを決定することによる検出装置であってもよい。
装置10の構成は、様々に補完され変更されてもよい。
図2には、ある実施形態に従う、オーディオ処理装置が詳細に描かれている。また、この装置の動作を図3を用いて説明する。
ここで説明される装置は、少なくとも二つのマイクを含むマイクアレイと、それに関連して設けられるA/Dコンバータを備える。A/Dコンバータは、マイクアレイからの信号を、後の処理に適したデジタル形式の信号に変換する。マイクアレイは、例えば、装置の端部に配されてもよく、各個別マイクがそれぞれ互いに距離dをおいて配されてもよい。従って、オーディオ信号はマイクアレイによりキャプチャされたものと考えることができる。このオーディオ信号は、空間オーディオアナライザ101へと渡される。
例えば、例示的のマイクアレイは、第1のマイクと第2のマイクと第3のマイクを備えてもよい。この例において、これらのマイクはそれぞれ正三角形の頂点に配される。しかし、これらのマイクはその他の如何なる適切な形状又は配置に配されてもよい。この例において、各個別マイクは互いに距離dだけ離れており、アレイを構成する個別マイクのペアの各々は、アレイを構成する他のペアに対して120°ずれて配されていると考えることができる。各マイクが互いに離れていることから、音源131から受け取るオーディオ信号は、例えば、第1のマイク(例えばマイク2)に先に到着し、他のマイク(例えばマイク3)には後で到着する。この状況は、例えば、第1の時点で生じる時間領域のオーディオ信号f1(t)と、第2のマイクに関して(時間遅延値bだけ)遅れた時間において第3のマイクで受信された同じオーディオ信号f2(t) と、によって見ることができる。
以下の例では、1つのマイクペアに関するオーディオ信号の処理が説明される。しかし、マイクアレイ構成は、複数のペアによってその規模を拡大させることができることに留意されたい。各マイクペアは、音源をモニタするための線または平面を規定する。これらの線または平面は、一次元(例えば方位角又は仰角)、二次元(方位角及び仰角)、三次元(方位角,仰角,距離)に関して音源をモニタするために、互いにオフセットしている。
アコースティック信号のキャプチャ又はマイクによる音声信号の生成の動作が、図3のステップ201で示されている。
実施形態によっては、オーディオ信号のキャプチャは、画像又はビデオフレームのキャプチャと同時に又は並行して行われる。
例えば、実施形態によっては、装置は一つ又は複数のカメラ51を備える。カメラ51は、装置の周囲のイメージ又はビデオ形式の連続したイメージを生成又はキャプチャするように構成される。ある実施形態において、カメラ51は、これらのイメージを追跡部106に出力する。さらに、ある実施形態において、カメラ51は、視覚的イメージをビジュアルプロセッサ107へと渡す。
カメラによりイメージをキャプチャする動作が、図3のステップ202で示されている。
ある実施形態において、オーディオ信号及び/又はビデオイメージの生成は、オーディオ信号及び/又はビデオイメージを受信する動作や、これらをメモリから読み出す動作を指してもよい。つまり、実施形態によっては、オーディオ信号及び/又はビデオイメージの"生成"は、以前に収録した(空間情報付き)オーディオ信号及び/又はビデオイメージを読み出すことであることができる。実施形態によっては、それによってユーザは、その収録時の体験を改めて味わうことができる。また、実施形態によっては、オーディオ信号及び/又はビデオイメージの生成動作は、無線通信リンク又は有線の通信リンクを介してオーディオ/ビデオ信号を受信することを含んでもよい。これらの信号は、例えば、大量の収録コンテンツを格納しているオーディオ−ビジュアルサーバから受信してもよい。以下の例において、生成されたオーディオ信号は、音場の時間領域における表現である。このオーディオ信号は、オーディオ信号の空間表現を生成するべく、空間オーディオアナライザにより処理される。しかし、実施形態によっては、生成されたオーディオ信号が既にオーディオの空間表現であり、従って直接にオーディオプロセッサ103へと渡されてもよい。例えば、実施形態によっては、格納されたオーディオ信号を受信又は呼び出してもよいが、このオーディオ信号は、オーディオプロセッサ103により処理される空間領域表現の形式を有していてもよい。
実施形態によっては、装置は、空間オーディオアナライザ101を備える。空間オーディオアナライザ101は、マイクにより生成されたオーディオ信号や、通信リンク又はメモリを通じて受け取ったオーディオ信号に基づいて、音源の方向や位置の推定結果を得るための方向解析(directional analysis)を行うように構成される。実施形態によってはさらに、音源に関連するオーディオ信号や、周囲の音に関するオーディオ信号を生成するように構成される。空間オーディオアナライザ101は、決定した、方向性を有する音源情報と、周囲の音についてのパラメータを、プロセッサ103又は適切な空間をオーディオプロセッサへと出力するように構成されてもよい。実施形態によっては、空間オーディオアナライザ101の出力は、追跡部106へと出力されるように構成されてもよい。
音源の決定及び環境パラメータの決定処理が、図3のステップ203で示されている。この決定処理は、例えば、少なくとも一つのオーディオ信号から音源の空間的方向又は空間位置を推定することを含んでもよい。
実施形態によっては、空間オーディオアナライザは、少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけるように構成されるメタファイル検出部を備えてもよい。つまり、実施形態によっては、少なくとも一つのオーディオ信号が処理されるが、そのオーディオ信号にはメタファイル又はメタデータが関連付けられており、そのメタファイル又はメタデータは、そのオーディオ信号の音源の情報を含んでいる。
空間オーディオアナライザの例は本明細書でより詳細に説明される。なお、本明細書で説明されるものの他にも、到来する音の方向を推定するために適した如何なる方法が用いられてもよいことは注意されたい。例えば、本明細書では、周波数領域における方向解析が説明されているが、実施形態によっては時間領域で方向解析が行われてもよい。ここで説明される装置は、少なくとも二つのマイクを含むマイクアレイと、それに関連して設けられるA/Dコンバータを備えることができる。A/Dコンバータは、マイクアレイの少なくとも二つのマイクからの信号を、後の処理に適したデジタル形式の信号に変換する。マイクアレイの各マイクは、例えば、装置の端部に配されてもよく、各マイクがそれぞれ互いに距離dをおいて配されてもよい。従って、オーディオ信号はマイクアレイによりキャプチャされたものと考えることができる。このオーディオ信号は、空間オーディオアナライザへと渡される。
ある実施形態において、空間オーディオアナライザはフレーム作成部を備える。フレーム作成部は、マイクからオーディオ信号を受信し、デジタル形式の信号をフレーム(又はオーディオサンプルデータのグループ)に分割する。実施形態によっては、フレーム作成部はさらに、適切な窓関数を使ってデータにウィンドウをかけるように構成されてもよい。フレーム作成部は各マイク入力につきオーディオ信号データのフレームを生成するように構成されてもよい。各フレームの長さやフレーム同士の重なり合いの度合いは適切な様々な値になりうる。例えば、実s施形態によっては、各オーディオフレームは20ミリ秒の長さを有し、隣接するフレーム同士に10ミリ秒の重なり合いが設けられる。フレーム作成部はフレーム化したオーディオデータを時間周波数変換部(Time-to-Frequency Domain Transformer)に出力するように構成されてもよい。
実施形態によっては、空間オーディオアナライザは時間周波数変換部を備えるように構成される。時間周波数変換部は、フレーム化されたオーディオデータに対して、適切な時間周波数変換を行うように構成されてもよい。実施形態によっては、時間周波数変換部は、離散フーリエ変換器(Discrete Fourier Transformer;DTF)である。しかし、他の適切な変換手段であってもよく、例えば離散コサイン変換器(Discrete Cosine Transformer;DCT)や、修正離散コサイン変換器(Modified Discrete Cosine Transformer;MDCT)、直交ミラーフィルタ(quadrature mirror filter;QMF)であってもよい。
時間周波数変換部は、各マイク入力に対して周波数領域の信号を出力するように構成されてもよい。この出力は、サブ帯域フィルタへ出力されてもよい。ある実施形態において、空間オーディオアナライザはサブ帯域フィルタを備える。サブ帯域フィルタは、各マイクについて周波数領域信号を時間周波数変換部から受け取り、これらの信号をそれぞれいくつかのサブ帯域に分割するように構成されてもよい。以下の例において、サブ帯域フィルタはB個のサブ帯域信号を生成するように構成されることとする。各サブ帯域には値b ∈ [0, B-1]によってインデックスが付けられる。
サブ帯域分割には適切な如何なる手法を用いてもよい。例えば、実施形態によっては、サブ帯域フィルタは、音響心理学的なフィルタ・バンクを用いて動作するように構成されてもよい。サブ帯域フィルタは各値域のサブ帯域信号を方向分析部へ出力するように構成されてもよい。
ある実施形態において、空間オーディオアナライザは方向分析部を備える。ある実施形態において、方向分析部は、サブ帯域の各マイクについて、そのサブ帯域及び関連する周波数領域信号を選択するように構成されてもよい。方向分析部は、そのサブ帯域の信号に対して方向分析を行うように構成されてもよい。
ある実施形態において、方向分析部は、当該サブ帯域において、マイクペア間で、周波数領域信号の相互相関をとるように構成されてもよい。そして、そのサブ帯域の周波数領域信号の相互相関値を最大化する遅延値が求められる。ある実施形態において、この遅延値τが、そのサブ帯域におけるドミナントなオーディオ信号源の角度を推定するために(又は角度を表すために)使用されうる。この角度をαと定義してもよい。二つのマイクによるペアが第1の角度を与えることができるが、二つより多い数のマイクを使うことにより、方向推定の質を向上させることができる。好ましい実施形態においては、二つ又はそれ以上の角度のために、二つより多いマイクが用いられる。
特に、ある実施形態においては、この方向分析は、オーディオサブ帯域データを受信することと定義されてもよい。本明細書では、ある実施形態に従う方向分析部の動作を説明する。方向分析部は、次のようなサブ帯域データを受け取る。
ここでnは、b番目のサブ帯域の第1のインデックスである。ある実施形態においては、全てのサブ帯域について次のように方向分析が行われる。まず、二つのチャネルを用いて方向が推定される。(本例のマイク構成においては、チャネル2及び3すなわちマイク2および3が用いられる。)方向分析部は、サブ帯域bについて、二つのチャネルの相関を最大化する遅延値はτであることを見つける。
例えば
のDFT表現は、次の式を用いて、τに基づいてシフトされることができる。
ある実施形態において、最適な遅延値は次の式で求められる。
ここでReは実部を表し、*は複素共役を表す。また、
は、それぞれ(nb+1-nb)サンプルの長さのベクトルであるとみなされる。ある実施形態において、方向分析部は、遅延値の探索のために時間領域サンプル1個の分解能で、遅延値の探索を行うようにされてもよい。
ある実施形態において、遅延値情報を得た方向分析部はサム信号を生成する。サム信号は数学的に次のように定義されうる。
つまり方向分析部が生成するように構成されるサム信号において、イベントが最初に生じるチャネルのコンテンツは修正なしで加えられ、そのイベントが後で生じるチャネルのコンテンツは、最初のチャネルになるべく合致するようにシフトされる。
なお、遅延値又はシフト量τは、音源が、マイク3に比べてマイク2にどれだけ近いかを示すことに注意されたい。(τが正であることは、音源はマイク3よりマイク2に近いことを意味している。)方向分析部は、距離の実際の差を、次のように決定するように構成されてもよい。
ここでFsは信号のサンプリングレートであり、νは空気中の信号の速度である(水中において収録を行う場合には水中の速度である)。
到来する音の角度は、方向分析部によって次のように決定される。
ここでdは、ペアを組むマイク同士の距離を表し、rは音源と音源に最も近いマイクとの間の推定距離を表す。ある実施形態において、方向分析部は、rとして固定値をセットするように構成されうる。例えば、r=2メートルが、安定的な結果をもたらすことがわかっている。
なお、ここで説明された決定方法が、音の到来方向として、二つの異なる結果をもたらすことに注意されたい。これは、二つのマイクだけでは正確な到来方向を決定することができないからである。
ある実施形態において、方向分析部は、正負の符号のどちらが正しいかを定めるために、第三のチャネル又は第三のマイクからのオーディオ信号を使うように構成されてもよい。第三のチャネル又はマイク(マイク1)と、推定された二つの音源との距離は、次のように表される。
ここでhは正三角形の高さであり、すなわち:
である。
上の決定方法における距離は、(サンプル数で表した)遅延値:
に等しいと考えられる。
ある実施形態において、方向分析部は、これら二つの遅延値から、サム信号との相関がよい方を選択するように構成されてもよい。この相関は、例えば次のように表されることができる。
そしてある実施形態において、方向分析部は、サブ帯域bにおけるドミナントな音源の方向を、次のように決定することができる。
ある実施形態において、空間オーディオアナライザは、中央信号/サイド信号生成部を備える。方向分析に続いて、中央信号/サイド信号生成部は、各サブ帯域に対して、中央信号及びサイド信号を決定するように構成される。中央信号の主要成分は、方向分析により発見されたドミナントな音源によるものである。同様に、サイド信号は、オーディオ信号のその他の部分や環境音を含む。ある実施形態において、中央信号/サイド信号生成部は、あるサブ帯域についての中央信号M及びサイド信号Sを、次の式に従って決定してもよい。
なお、中央信号Mは以前に既に決定した信号と同じものであることに注意されたい。また、実施形態によっては、中央信号は、方向分析の一部から得られることができる。 中央信号及びサイド信号は、知覚的に安全な手法で構成されることができる。例えば、最初にイベントが発生したチャネルについての信号は、遅延の調整処理においてシフトされない。 実施形態によっては、中央信号及びサイド信号は、マイク同士が比較的近接している場合に適切な手法で決定されてもよい。 音源からの距離に対してマイク間の距離が著しい場合、中央信号/サイド信号生成部は、修正された中央信号及びサイド信号決定処理を行うように構成されてもよい。この場合、メインのチャネルとのマッチングが最良になるように、各チャネルが修正される。
ここで、全てのサブ帯域が処理されたどうかを判断してもよい。
全てのサブ帯域が処理された場合、終了処理が行われる。
サブ帯域の全てがまだ処理されていない場合、次のサブ帯域を選択する処理へと進む。
実施形態によっては、装置は、タッチ/ユーザインタフェース・コントローラ104を備える。タッチ/ユーザインタフェース104は、オーディオプロセッサが焦点を当てることのできる領域または部分または範囲を選択するための少なくとも一つのユーザ入力を受け取るように構成されることができる。ある実施形態において、選択された領域または部分または範囲は、音源が存在する領域または部分または範囲である。例えば、ある実施形態において、タッチ/ユーザインタフェース・コントローラ104は、方向又は位置を選択するか、それは例えば、方向に関する値をキーパッドから入力したり、ジョイスティックやポインタを使って方向を選択したりすることによって行われる。ある実施形態において、タッチ/ユーザインタフェース・コントローラ104は、カメラによりキャプチャされたイメージを表示するタッチスクリーンディスプレイ(例えば表示装置52)からユーザ入力を受け取るように構成される。ある実施形態において、タッチ/ユーザインタフェース・コントローラ104は、このディスプレイや、装置の既知の方位に基づいて、位置又は方向に関する値を生成するように構成される。ある実施形態において、タッチ/ユーザインタフェース・コントローラ104は、追跡部106に、位置又は方向(又はより一般的に、「選択」)に関する情報を出力するように構成されることができる。
以下の例において、この選択は、位置又は方向であるが、その他の適切な特徴を選択するようにしてもよい。以下の例は、タッチ・ユーザインタフェースコントローラからのユーザ入力であって、少なくとも一つのPOI(Point of Interest, 興味ポイント)位置を選択するためのユーザ入力が示されている。このPOI位置は少なくとも一つの音源に関連付けられている。選択は、少なくとも一つのユーザ入力の位置を決定することにより行われる。しかし、実施形態によっては、少なくとも一つの音源に関連付けられる少なくとも一つのPOI位置は、別の手段によって決定されうる。例えば、実施形態によっては、少なくとも一つの音源に関連する少なくとも一つのPOI位置の決定は、少なくとも一つのオーディオ信号に関連する少なくとも一つの位置を決定することにより、行われる。つまり、オーディオ信号の処理が、POI位置を示す情報を生成する。例えば、最も大きな音を出す音源、既定の周波数スペクトルに一致する音源等が、POI位置を示す情報となりうる。さらに、実施形態によっては、少なくとも一つの音源に関連する少なくとも一つのPOI位置の決定は、視覚的イメージ要素に関連する少なくとも一つの位置をイメージフレームから決定することにより、行われる。例えば、画像中から装置が追跡すべき形や色が検出されてもよい。例えば「顔」が検出されてもよい。
従って例えば、実施形態によっては、ディスプレイは、ビジュアルプロセッサにより生成されたイメージを表示してもよいが、この表示は、表示を行う範囲の中に、少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供してもよい。さらにビジュアルプロセッサは、少なくとも一つの視覚的要素に関連付けられる少なくとも一つのPOI位置を決定してもよい。ここで、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することになる。
実施形態によっては、装置は追跡部106を備える。実施形態によっては、追跡部106又は移動経路決定部又は移動経路決定手段は、タッチ/ユーザインタフェース・コントローラ104から位置又は選択(又は実施形態によっては少なくとも一つの音源に関連する少なくとも一つのPOI位置)を示す入力を、カメラ51から画像を含む入力を、空間オーディオアナライザ101からオーディオ信号データを含む入力を、それぞれ受け取るように構成されてもよい。ある実施形態において、追跡部106は、選択されたものを追跡するように構成されてもよい。ここで、当該追跡は、タッチ/ユーザインタフェース・コントローラからの入力を最初の選択入力として使用し、オーディオ及び/又はビデオ入力を、選択物を追跡するために使用して、行われてもよい。追跡される選択情報は、方向情報や位置、範囲であることができる。そのような選択情報は、空間オーディオプロセッサ103及び/又はビジュアルプロセッサ107に渡されることができる。
ユーザインタフェース入力の決定や選択された特徴の追跡の処理は、図3においてステップ205により示されている。
実施形態によっては、追跡部106は特徴選択部を備える。特徴選択部は、タッチ/ユーザインタフェース・コントローラからユーザインタフェース入力を受け取るように構成され、また、空間オーディオアナライザの出力及びカメラの出力の少なくともいずれかを受け取るように構成される。特徴選択部は、分析された空間オーディオ信号と、カメラのビデオ信号との少なくともいずれかを処理し、ユーザインタフェース入力により選択されたもの(例えば領域・位置・範囲)の中から適切な特徴セットを決定するように構成されることができる。例えば特徴選択部は、処理されるべき所望のサウンド・オブジェクトを示す情報をユーザインタフェースから受け取るように構成されることができる。このユーザインタフェース情報は、実施形態によっては、焦点をあてる方向を示す情報であって、装置の表示装置のスクリーン上のタップであることができる。
視覚情報に基づいて特徴を決定する実施形態において、特徴選択部は、ユーザが示した位置の周りの領域の視覚的記述情報を少なくとも一つ生成するように構成されてもよい。視覚的記述情報は、適切な如何なる視覚的特徴分析によって生成されてもよく、少なくとも一つの視覚的成分又はパラメータを含んでいてもよい。例えば、実施形態によっては、視覚的記述情報は、ユーザが示した位置の周りの領域の画素値(例えば輝度や彩度)を含んでもよい。実施形態によっては、視覚的記述情報は、スケール不変の特徴記述情報(scale invariant feature descriptor;SAFT)を含んでもよい。さらに、実施形態によっては、視覚的記述情報は、角部又は端部検出部により提供される角部又は端部情報や、色や形を記述する情報を含んでもよい。
オーディオ情報に基づいて特徴を定義する実施形態のあるものにおいて、特徴選択部は、空間オーディオアナライザ101から、空間的に分析されたオーディオ信号を受信すると共に、方向を示すユーザインタフェース入力を受信するように構成されることができ、また、空間的に分析されたオーディオ信号成分のいずれかと当該方向との一致を試みるように構成されることができる。つまり、装置を囲む音環境の三次元的な像が、主要な(複数の)音源の位置と共に提供され、ユーザは、いずれかの音源を追跡することができる。実施形態によっては、特徴分析部は、示された位置または方向における音源について、アコースティック・フィンガープリント(又はオーディオ記述情報)を生成するように構成されることができる。アコースティック・フィンガープリントは、音源に関する音の特徴又はパラメータの少なくとも一つを解析することにより生成されることができる。例えば、アコースティック・フィンガープリントは、選択されたもの又は選択範囲における音源のスペクトルの特徴を解析することにより生成されることができる。その他にも、様々な特徴又はパラメータ、または特徴及びパラメータの組み合わせも、選択されたもの又は選択範囲における音源のオーディオ・フィンガープリントを定義するために使用されることができる。
実施形態によっては、特徴選択部は、ユーザインタフェースによる位置又は選択を表す視覚的記述情報及び/又はオーディオ・フィンガープリントを、特徴追跡部に供給することができる。
実施形態によっては、追跡部106は特徴追跡部を備える。特徴追跡部は、特徴選択部から、選択された特徴を(視覚的記述情報及び/又はオーディオ・フィンガープリントの形で)受信し、後続のビデオフレーム又はオーディオフレームにおいて、その特徴の追跡を試みる。そして、その特徴の更新された位置(または方向や方位)を空間オーディオプロセッサ及び/又はビデオプロセッサに提供する。
さらに、実施形態によっては、追跡部はさらに、特徴追跡部の出力に基づいて、少なくとも一つの音源に関連する少なくとも一つのPOI位置の移動経路を決定するように構成される移動経路決定部を備える。
そして、画像に基づく追跡手法を採用する実施形態のあるものは、視覚的記述情報の元の位置に対する当該視覚的記述情報の位置を決定すべく、後続のフレームを分析する。それによって、選択されたもの(すなわち処理されるべき音源に関連する選択イメージ)が時間と共に動いたかどうかを決定する。例えば、実施形態によっては、特徴追跡部は、連続する画像フレームにわたる、選択された視覚的記述情報の動きを表すモーションベクトルを生成するように構成される。モーションベクトルは、選択されたものの動きの方向及び速度を表す。視覚的記述情報の追跡手法としては、実施形態によって、どのようなものが用いられてもよい。
ある実施形態において、特徴追跡部により行われる視覚ベースの追跡処理は、次のように行われてもよい。すなわち、例えばカメラが動いたり、追跡中のオブジェクトが動いたりといった理由で、視覚的記述情報がカメラの視野から外れてしまった場合、追跡処理は一時停止することとしてもよい。そして、視覚的記述情報を有する当該オブジェクトが再び視野に入ったときに、追跡処理を再開することとしてもよい。
ある実施形態において、選択されたもの(サウンド・オブジェクト)が見えない場合(例えば選択されたものが視野から外れてしまったり、選択されたものから離れるように装置が動いたりした場合)、特徴追跡部は、オーディオ処理を一時停止するための情報を出力したり、オブジェクトが見えないことを示すメッセージを表示したりするように構成されてもよい。
オーディオ・フィンガープリント(アコースティック・フィンガープリント)追跡を実装する実施形態における特徴追跡部は、フィンガープリントに最もよく適合する音源の位置を決定するために、後続のオーディオフレームの解析を行うように構成されてもよい。例えば、実施形態によっては、特徴追跡部は、はじめに選択された音源の近辺において、その音源と似たような特徴を有する他の音源を検出するように構成されてもよい。実施形態によっては、音の追跡のための特徴追跡部は、どこで音源からの音が中断したか(又はどこで音源が消失したか)を決定するように構成されてもよい。例えば、会話が中断したために、音源の連続性が途切れたところを決定するように構成されてもよい。
実施形態によっては、特徴追跡部は、アコースティック・フィンガープリントまたは視覚的記述情報を監視し続け、アコースティック・フィンガープリントまたは視覚的記述情報が変化するところを決定し、現在のアコースティック・フィンガープリントまたは視覚的記述情報を保持して特徴追跡部が特徴を見失わないようにするように構成されてもよい。例えば、選択されたもの(音源)が人間の声に関連付けられるとき、人が装置の方へ向いたり装置から背を向けたりすると、アコースティック・フィンガープリントが変化するだろう。または、視覚的記述情報も同様に変化するだろ。
実施形態によっては、音ベースの追跡と、視覚ベースの追跡の両方が組み合わされて、追跡の性能や信頼性を向上させようとしてもよい。
特徴追跡部の出力は、空間オーディオプロセッサ103及び/又はビジュアルプロセッサ107に提供されてもよい。
次の例では、追跡部又は移動経路決定部が、選択されたものの位置を表現する方位(θ)及び幅(w)と、選択されたものの幅(角度等の他の情報であってもよい)を出力するように構成される。これらの出力情報は、装置の基準方位を基準とする情報であってもよい。装置の基準方位は、カメラと同じ方向を向き、その中心線の方向であってもよい。なお、実施形態によっては、その他の適切な一つ又は複数の位置選択パラメータが空間オーディオプロセッサ10及び/又はビジュアルプロセッサ107に提供されてもよい。例えば、位置選択パラメータは方向及び幅を含んでもよく、その方向は、装置の方位とは独立であってもよい。
実施形態によっては、装置は、空間オーディオプロセッサ103を備える。実施形態によっては、オーディオプロセッサは、追跡部106から、選択情報又は特徴情報の入力を受けるように構成される。これら選択情報又は特徴情報は、少なくとも一つの音源に関連する少なくとも一つのPOI位置の移動経路の同定に基づくものである。
ここでは、ある実施形態に従う例示的なオーディオプロセッサ103が説明される。
実施形態によっては、オーディオプロセッサ103は、空間平滑化部及び空間平滑化フィルタ生成部を備える。空間平滑化部及び空間平滑化フィルタ生成部は、定義したセクタの端部で急激な利得の落ち込みを生じさせないように構成される。実施形態によっては、空間平滑化部は、位置選択パラメータを受け取るように構成される。この位置選択パラメータの例には、位置(焦点をあてる方向)や幅がある。また空間平滑化部は、定義したセクタの両端に、追加の平滑化ゾーンを設けるように構成される。例えば、実施形態によっては、定義したセクタの方位及び幅は、セクタの開始方位θlowと、終了方位θhighによって規定される。従って、これらの方位の差は幅wである。また、セクタ全体の方位は、上記二つの方位の平均と規定される。
実施形態によっては、平滑化ゾーンの幅wsは次のように規定される。

ws = 0.15(|θhigh - θlow|)

そして、焦点が当てられるセクタの下端と上端に対応する角度項は(θlow,θhigh)と規定される。また、平滑化ゾーンの下端θLSと上端θHSはそれぞれ次のように規定される。

LS = θlow - ws,θHS = θhigh + ws)

ある実施形態において、空間平滑化部は、セクタ及び平滑化ゾーンの情報を、空間平滑化フィルタ生成部に出力するように構成される。
実施形態によっては、オーディオプロセッサ103は、空間平滑化フィルタ生成部を備える。空間平滑化フィルタ生成部は、空間平滑化部の出力を受け取るように構成される。つまり、平滑化ゾーンの情報と音源の方向情報とを受信するように構成される。そして空間平滑化フィルタ生成部は、平滑化ゾーン内に空間ソース(spatial source)が存在するかどうかを示すブール変数(Boolean variable)を生成するように構成される。ある実施形態において、ブール変数z(b)は、帯域b(a(b))の推定方向が平滑化ゾーンの中にあるかどうかを示す。z(b)は次のように定義される。
空間平滑化フィルタ生成部は、ブール変数z(b)を、空間フォーカサー(focuser;焦点当て部)に出力することができる。
実施形態によっては、ビジュアルオーディオプロセッサ103は、空間フォーカサーを備える。空間フォーカサーは、中央信号(M)及びサイド信号(S)の形で音源の情報を受信するように構成されると共に、空間オーディオアナライザ101から音源の位置を表す情報(α)を受信するように構成される。さらに空間フォーカサーは、追跡部106から、焦点が当てられているセクタ(焦点セクタ)の情報(θ,w)のような選択パラメータを受信することができると共に、空間平滑化フィルタのブール値z(b)を、空間平滑化フィルタ生成器から受信することができる。そして空間フォーカサーは、音源に対して空間的に焦点を当てることを行うように構成される。
(ポジティブに)焦点を当てることの効果、または焦点を当てるという処理は、焦点セクタ内の音源の増幅を試み、また、そのセクタの外の音源を減衰させることである。さらに、実施形態によっては、空間フォーカサーは、ブール変数z(b)が真である場合、推定した音源位置と、焦点が当てられたセクタの端部との角度差を生成するように構成される。ある実施形態において、焦点が当てられたセクタの端部とa(b)との角度差Δminは、次のように計算される。
実施形態によっては、焦点セクタ又は平滑化ゾーンの中に推定された音源が位置している時はいつでも、対応するサブ帯域bが増幅され、焦点を当てたことの効果が生成される。対照的に、音源の位置が、空間の中でその他の場所に位置している場合は、サブ帯域bは減衰させられる。実施形態によっては、焦点当て処理は、中央信号(M)とサイド信号(S)とで別々に行われ、また、所望の出力モードに応じてそれぞれ異なるものであってもよい。
実施形態によっては、ネガティブな焦点当て又はフィルタ処理をセクタに適用することも可能である。そのような実施形態においては、例えば不要な音源をセクタから除くために、当該セクタ内の音源は減衰させられ、当該セクタの外にある音源が増幅される。ここで紹介した例では、ポジティブな焦点当て動作の効果が一般的に説明されたが、実施形態によっては、セクタ内の音源のための利得又は増幅の項を減衰のためのものに置き換え、セクタの外の音源のための減衰の項を、利得又は増幅の項に置き換えることにより、ネガティブな焦点当て動作の効果も同様に生成されうる。
実施形態によっては、空間フォーカサーは、焦点を当てているセクタ内の音源のための増幅項を生成するように構成されることができる。
実施形態によっては、空間フォーカサーは、音源を処理し、適切なバイノーラル出力を生成するように構成されることができる。例えば、実施形態によっては、サブ帯域bに対してバイノーラルモードで適切に増幅又は減衰を行うために、サブ帯域bの利得レベルが修正される。実施形態によっては、増幅のために次の増幅項が適用されることができる。
ここでamp(b)は、サブ帯域bに対応する増幅係数である。実施形態によっては、増幅係数はユーザが決めることができる。例えば本明細書で紹介されるユーザインタフェースの例では、スライダを用いて決めることができる。実施形態によっては、全てのサブ帯域b∈{1, B}についての増幅係数を同じとしてもよい。実施形態によっては、音場におけるズーム量に基づいて、サブ帯域毎に生成してもよい。ある実施形態において、amp(b)の値の適切な範囲は0.2から0.8の間である。
推定した方向α(b)が平滑化ゾーンの中に位置している時(z(b)=1である時)、増幅項G(b)は、次の式により修正される。
ここで、att(b)はサブ帯域bのための減衰係数である。実施形態によっては、減衰量を規定する減衰定数が定められてもよい。これは、ユーザインタフェースからの入力や、ズーム量に基づく計算に基づいて、定められてもよい。減衰係数att(b)の適切な値は0.1から1.0の範囲である。
これまでの説明で判る通り、平滑化ゾーンは、増幅項G(b)に対して、角度差Δminの関数として線形の減少を生じる。しかし、実施形態によっては、増幅項と減衰係数との間に適切な(線形又は非線形の)補間が施されてもよい。
実施形態によっては、空間フォーカサーは、焦点セクタの外で、且つ平滑化ゾーンの外に位置する音源a(b)に対して減衰処理を行うように構成されることができる。そのような実施形態では、サブ帯域の増幅項は次のように定義される。
さらに、実施形態によっては、受け取った中央信号に対して、頭部に関連する伝達関数係数を用いてフィルタが適用され、左側の中央信号ML(b)及び右側の中央信号MR(b)が作られる。
そして、実施形態によっては、空間フォーカサーは、左側及び右側の中央信号に増幅項を適用し、焦点が当てられた左側及び右側中央信号を作るように構成される。
実施形態によっては、空間フォーカサーは、音源を処理し、適切なマルチチャネル出力を生成するように構成されることができる。そのような実施形態では、空間フォーカサーは、マルチチャネルモードのチャネル位置を決定するように構成されることができる。以下の例では、5チャネルによるマルチチャネル構成が決定され、前方左側(FL)、前方右側(FR)、中央(C)、後方左側(RL)、後方右側(RR)のチャネルが定義される。これらはそれぞれ角度A=[30, -30, 0, 110, -110] 度に対応する。
そして、実施形態によっては、空間フォーカサーは、a(b)との角度差が最も小さなオーディオチャネルを決定するように構成されることができる。これは次のようにして行うことができる。
ここでA(j)はj番目のオーディオチャネルの角度を表し、Δ(j)はチャネルjの角度差を、c1は推定角度に最も近いチャネルのインデックスを表す。
多くの場合、得られる推定方向はいずれかのチャネルに直接に向いているわけではない。そのため、合成処理の間に、オーディオの分野でいうパニング(panning)を行うことを検討しなければならない。そこで、実施形態によっては、空間フォーカサー805は、a(b)の両側に二つのチャネルを決定するように構成されてもよい。実施形態によっては、この決定は、既知のチャネル配置に基づいて行われてもよい。
実施形態によっては、空間フォーカサーは、c1のいずれの側に角度a(b)が位置するかを決定してもよい。そして、角度差Δ(c1)の正負によって、上記の側を正の側と定義するか負の側と定義するかを決定してもよい。(すなわち、上述の差の決定からの絶対値を無視してもよい。)上記の側を正の側とする場合、c1から反時計回り方向に隣接するチャネルは、2番目に近いチャネルc2と考えられる。反対に、上記の側を負の側とする場合、c1から時計回り方向に隣接するチャネルを、2番目に近いチャネルc2と考える。そして空間フォーカサーは、a(b)と第2のチャネルc2との間の角度差Δ(c2)を決定してもよい。
実施形態によっては、空間フォーカサー805は、決定した二つの角度差の間の関係Rを、0からπ/2でスケーリングして次のように定めるように構成されることができる。
そして実施形態によっては、空間フォーカサーは、この関係を、チャネルの比例利得値を計算するときに適用するように構成されることができる。実施形態によっては、チャネル利得は次の関係に従うものと仮定される。
ここでG1及びG2は、それぞれチャネルc1及びc2の比例利得である。チャネルの中間点で、利得値はG1 = G2 = 1/√2に等しくなる。この仮定に基づけば、サブ帯域bのc1及びc2の利得値は次のように決定されうる。
実施形態によっては、5chモードにおいて、焦点セクタの角度θが−45°から45°のいずれかにある場合はいつでも、増幅利得は、二つの最近接チャネルの間で分配されるのではなく、三つのフロントスピーカチャネルの間で分配される。このような方式がとられるのは、フロントスピーカーの間の角度が小さいことが、2つのスピーカーの間でパニングを生じ、特定のフロント焦点方向において、アーチファクトや不自然なオーディオ出力を発生させる可能性があるからである。
なお閾値角度±45°は経験的に得られた値であり、いくつかの角度値と出力とを対比して得られた値である。しかし、他の閾値が用いられてもよい。
実施形態によっては、空間フォーカサー805は、次の表のようなジオメトリカルな分割ルールに基づいて、第2及び第3のチャネルを定義するように構成されてもよい。
これらの場合においては、最近接チャネルと第3のチャネルとの間の関係が決定される。中間点のチャネル利得はG1=G2=G3= 1/√3に更新され、対応する関係は次のように計算される。
従って、チャネル利得は次の関係に従うと仮定される。
すなわち、c1,c2,c3の比例利得値は次のように得られる。
実施形態によっては、空間フォーカサーは、焦点が当てられているチャネルの最終利得値を、比例利得を用いて決定するように構成されることができる。例えば、実施形態によっては、最終利得値は次のように表すことができる。
実施形態によっては、空間フォーカサーは、残り2つのチャネル(パニングにおいて2つのチャネルしか用いられない場合は残り3つ)の利得値を、減衰させるような値に決定するように構成されることができる。焦点当て効果を強調するためである。推定角度a(b)が平滑化ゾーンに属する場合、利得値は次のように更新される。
例示的なスケーリングロジックは、バイノーラルモードに関連して説明したものと同様であることがわかる。
実施形態によっては、空間フォーカサーは、焦点セクタ又は平滑化ゾーンにa(b)入っていない場合は常に、全てのチャネルに対して減衰を行うように構成されてもよい。ただし、焦点角度θに最も近いチャネルに対してだけは減衰を行わない。実施形態によっては、これは、利得値を次のように設定することにより実装することができる。
ここで、iはθに最も近いチャネルのインデックスを表す。このチャネルに対しては操作は行われない。すなわち
これは、焦点が当てられている方向から到来する非ドミナントな音源やオリジナルの背景ノイズが減衰させられることを防ぐためである。というのも、これらの音も、合成出力においては、焦点が当てられているものとして聞こえる必要があるからである。
実施形態によっては、空間フォーカサーは、計算した利得値
に基づいて、実際のチャネルのスケーリング係数
を決定するように構成されることができる。
増幅については次の通り:
減衰については次の通り:
ここで、
は、それぞれチャネルc1,c2,c3のスケーリング係数を表す。
さらに、実施形態によっては、空間フォーカサーは、次のように、中央信号M(b)を用いて方向及び焦点要素を決定するように構成されることができる。
なお、収録されたオーディオ信号が不明瞭であったり雑音が入っていたりするために、場合によっては、全てのサブ帯域について、信頼性のある方向推定ができない場合がある。例えば通常、有効な方向推定が可能となるサブ帯域の数は、各フレームについて18から22の間で変化する。そのような場合、ここで説明された、焦点当て処理は、有効な方向推定結果が得られたサブ帯域についてのみ行われることとしてもよい。これは、バイノーラルモードであってもマルチチャネルモードであっても同様である。誤っている方向において強調を行うことを防ぐためである。実施形態によっては、この制限を乗り越えるために、統計解析に基づいて全てのサブ帯域を修正することを可能にする、更なる利得制御処理が行われる。
実施形態によっては、空間フォーカサーは、サイド信号S(b)を処理するようにさらに構成される。サイド信号S(b)には方向の情報が含まれていないため、バイノーラルモードにおいては、オーディオフォーカサーはサイド信号の合成に対して何の作用も及ぼさない。
すなわちサイド信号は、修正されることなく中央信号に加えられる。
しかし、マルチチャネルモードにおける信号合成においては、焦点当て処理はサイド信号に対しても適用される。これは、全てのサブ帯域について、焦点角度θを得られた推定角度αと考えることによって行われる。このため、焦点が当てられる方向において、背景信号も増幅される。これは、全体的な焦点当て効果を強めるためである。しかし、合成された出力信号において自然さを保つためには、サイド信号要素の増幅は注意して行わなければならないことには留意されたい。例えば、サイド信号を増幅しすぎると、オーディオシーンの全体を特定の角度方向に引き寄せすぎることになり兼ねない。そのようなことは避けるべきである。
例えば、実施形態によっては、空間フォーカサー805は、マルチch合成のための比例利得値Gxが得られると、各チャネルのサイド信号のスケーリングファクタYxを次のように導出する。
ここで、
は、固定された、"バランスされていない"、各チャネルについてのガンマ値であり、ampsとattsは、それぞれサイド信号の増幅ファクタ及び減衰ファクタである。実施形態によっては、これらの値の好適な値は0.1から0.3の間で変化する。
実施形態によっては、空間フォーカサーの出力は、後処理利得制御部/時間平滑化部へと渡される。
実施形態によっては、オーディオプロセッサ103は、後処理利得制御部/時間平滑化部をさらに備える。
実施形態によっては、マルチチャネル合成及びバイノーラル合成のいずれにおいても、処理された中央信号に対して、焦点当て効果をさらに強めるために、更なる処理が行われる。
すなわち、実施形態によっては、一つの時間フレームにおいて焦点セクタ内に方向の推定が得られた場合はいつでも、全てのサブ帯域が、追加の利得係数によってさらに修正される。
さらに、実施形態によっては、後処理利得制御部/時間平滑化部は、連続するフレーム中で突然に利得が変化することがないように、時間的平滑化を行うように構成されることができる。
実施形態によっては、後処理利得制御部/時間平滑化部807は、追加の利得制御を行うべきか否かの決定に使用される、サブ帯域閾値を定めるように構成されることができる。実施形態によっては、このサブ帯域閾値は、実験によって、またサブ帯域の数によって、定められることができる。例えば、B=32の場合、追加で増幅及び減衰を行うための閾値は、増幅のための閾値thamp= 8,減衰のための閾値thatt= 4と、それぞれ定められることができる。これらの閾値は、単一のフレームにおける焦点が当てられたセクタ内で得られた推定方向の最小数および最大数であって、追加の利得制御処理をトリガする最小数および最大数に対応する。なお、例示的なサブ帯域の数(B=32)は、多くの可能性のうちの1つに過ぎず、適切な如何なる数のサブ帯域が存在する場合があり、それに応じて閾値も変わりうる。実施形態によっては、後処理利得制御部/時間平滑化部807は、焦点セクタ内で推定された方向の数Eを決定し、それを設定された閾値と比較するように構成されることができる。すなわち、実施形態によっては、後処理利得制御部/時間平滑化部807は、セクタ内の有効推定方向の数を評価することにより、現在の時間フレーム内の32個全てのサブ帯域につき、増幅又は減衰を行うように構成されることができる。(この32個全てのサブ帯域には、空間オーディオアナライザで得られた、信頼性のない又は不明な推定α(b)が含まれる。)
実施形態によっては、追加の増幅処理は、焦点セクタ内の音源帯域についてのみ行われる。または、信頼性のない又は不明な方向の場合は閾値が満たされたときのみ行われる。同様に、実施形態によっては、セクタ内における推定の帯域は、(設定された閾値に基づく)追加の減衰処理が行われない。(そのような帯域の数はせいぜい3つである。)
例えば、実施形態によっては、E ≧ thampである場合、バイノーラル合成モードにおいて、追加の増幅処理のために次の式が適用されてもよい。
また、E < thattである場合、追加の減衰処理のためには次の式が適用されてもよい。
ampadd及びattaddの項は、それぞれ追加の増幅及び減衰係数であり、元の係数amp及びattから導き出されたものである。実施形態によっては、追加の増幅及び減衰係数は、いずれも固定値であり、各サブ帯域について決まった値をとる(つまり、ズーム効果の強さによっては影響を受けない)。
マルチチャネル合成モードにおいては、チャネルスケーリング係数のために、次の式が適用されうる。
増幅:
減衰:
これらはまた、次のように適用される。
ここで、
は、それぞれチャネルc1,c2,c3のスケーリング係数を表す。
方向及び焦点要素は、中央信号M(b)を用いて次のように得ることができる。
それによって、実際のオーディオチャネル信号を得ることができる。
実施形態によっては、後処理利得制御部/時間平滑化部807は、さらに、フレーム状態の過去の経過に基づいて、オーディオ信号に時間的平滑化処理を行うように構成されることができる。
実施形態によっては、オーディオプロセッサ103はさらに、チャネルモード変換部を備える。実施形態によっては、チャネルモード変換部は、処理された中央信号及びサイド信号を受け取り、適切なチャネル出力を生成するように構成されることができる。
例えば、実施形態によっては、チャネルモード変換部は、マルチチャネル処理信号から、ヘッドホンで聴くために適したステレオ信号を生成するように構成される。
実施形態によっては、このモード変換部は、次の変換式を用いて、マルチチャネル合成出力から直接に変換処理を行うように構成される。
ここでX(z)は、チャネルXの時間領域信号に対応する。
実施形態によっては、上記モード変換部は、マルチチャネル合成信号において焦点が当てられた中央信号M(b)を使い、また、オリジナルの(焦点当て処理が行われていない)サイド信号を使うように構成される。そのような実施形態において、焦点当て効果が中央信号成分に結合されると、ステレオ変換処理は周波数領域において行われる。ステレオ変換処理は上述のように実行されうるが、この処理は、例えば次のような周波数領域の係数に対して実行される。
処理は、各サブ帯域bの各周波数ビンに対して個別に行われ、サイド信号S(b)は右チャネルに加えられ、左チャネルからは取り除かれる。
実施形態によっては、時間領域への変換は、逆フーリエ変換(IFT)を用いて行われることができる。そのような実施形態においては、最初の"直接"変換オプションに比べて、"平坦"で安定した背景ノイズが生成される。
実施形態によっては、上記モード変換部は、推定角度a(b)に対してパニングを行うように構成される。2つのチャネル(PR, PL)のパニング係数は次のように計算される。
ここで、a(b)の角度符号は変わる。帯域bの角度推定が不確実である場合、この係数にはデフォルト値PR = PL = 1/√2が用いられる。
実施形態によっては、ステレオ信号からモノラル出力が次のように形成される。
このモノラル信号は、焦点当てがなされたモノラル信号であると定義されることができる。この信号においてはリスナーに方向の情報が届けられることがないが、それでも、増幅された方向や減衰された方向、音源は、聞き取ることが可能である。
従って、実施形態によっては、オーディオプロセッサ103は、空間オーディオ出力105へと渡される、処理済みのオーディオ信号を生成することができる。
ユーザインタフェース入力又は追跡処理に少なくとも基づくオーディオ信号処理の動作は、図3のステップ207として示されている。
実施形態によっては、空間オーディオ出力部105は、処理されたオーディオ信号を、適切な再生装置やメモリ、その他適切な記憶要素に出力するように構成される。出力または再生される音は、実施形態によって、モノラルオーディオ信号、ステレオオーディオ信号、バイノーラル・オーディオ信号、マルチチャネルオーディオ信号、空間的または3次元オーディオ信号の少なくともいずれかであることができる。
なお、オーディオ信号(又はユーザ入力に基づくそのような音の操作の結果)は、適切な再生装置へ出力されることができるが、その場合、再生される信号は、モノラルやマルチチャネルのオーディオ再生をユーザに生成するために使用されうる。実施形態によっては、適切な再生装置が、オーディオコネクタを通じて装置に組み合わされてもよい。実施形態によっては、少なくとも一つの内部スピーカーが装置に設けられる。
さらに、処理されたオーディオ信号(サウンド操作)及び/又はユーザ入力に基づいて調整された設定は、例えば内部メモリやデータベース、クラウド等に保存されることができる。この場合、単独で保存されることもできるし、視覚データと共に保存されることもできる。
処理済みのオーディオ信号の出力を提供する動作は、図3のステップ209で示される。
実施形態によっては、装置は、ビジュアルプロセッサ107を備える。実施形態によっては、ビジュアルプロセッサ107は、カメラ51からのイメージデータを受信するように構成されることができる。また、追跡部106からのユーザインタフェース入力/選択追跡情報を受信するように構成されることができる。実施形態によっては、ビジュアルプロセッサ107は、ユーザインタフェースや追跡される選択物(音源)に基づいて、カメラ51による視覚的イメージの上に、ユーザインタフェースを重ねて生成するように構成されることができる。例えば、実施形態によっては、ビジュアルプロセッサ107は、追跡部106が選択物(音源)を追うに連れて、領域又は範囲をハイライトするように構成されることができる。ビジュアルプロセッサは、動きを強調するようなオーバーレイを生成するように構成されることができる。さらに、実施形態によっては、ビジュアルプロセッサ107は、選択物(音源)が視野から離れたときに(すなわちカメラの視野の外に出てしまった時に)、それを示すUI視覚情報を提供するように構成されることができる。それによって、実施形態によっては、ユーザは、その音源を追跡するために装置の方向を変えることができる。
実施形態によっては、ビジュアルプロセッサ又は適切な視覚情報処理手段は、イメージフレームからの少なくとも一つの視覚イメージ要素を含む表示イメージを、表示領域の中に生成するように構成されることができる。さらに、そのような実施形態において、表示装置は、少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイ上に表示イメージを表示するように構成されることができる。ここで、少なくとも一つの視覚要素のPOI位置を決定することは、少なくとも一つの選択入力に基づいて、当該少なくとも一つのPOI位置を決定することにより行われることができる。
ビジュアルプロセッサ107は、この視覚的ユーザインタフェース・オーバーレイを、カメラによるイメージデータと共に、表示装置52に出力することができる。
つまり、本明細書に開示される実施形態のあるものは、表示イメージを、少なくとも一つのイメージフレームを(適切な手段で)キャプチャすることと;少なくとも一つのユーザインタフェース・オーバーレイ要素を(適切な手段で)生成することと;少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを(適切な手段で)結合することと;によって生成する。
ここで、前記オーバーレイは、次のいずれかであることができる。
・ 少なくとも一つの音源のPOI位置を示すオーバーレイ;
・ 少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイ;
・ 少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイ;
・ 少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイ;
・ 決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイ;
・ 決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイ;
・ 焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイ;
・ 装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイ。
ユーザインタフェース入力又は追跡処理に基づいて、ビデオ/イメージデータを生成する動作は、図3のステップ208として示されている。
表示装置52は、ビジュアルプロセッサ107からデータを受信し、生成された又は処理されたイメージを表示するように構成されることができる。
生成された又は処理されたイメージを表示する動作は、図3のステップ210で示される。
図4には、ある実施形態に従って動作中の例示的な装置10が描かれている。図示される例において、装置10は表示装置52及びカメラ51を備える。カメラ51の視野は破線で示されている。これは、ビデオ/オーディオのキャプチャが行われるアプリケーション又はプログラムの初期設定に従う。カメラの視野には、第1の音源1001と、第2の音源位置003と、第3の音源1005が描かれている。これらの音源は、表示装置52上に、第1の音源ビジュアル表現1011、第2の音源ビジュアル表現1013、第3の音源ビジュアル表現1015によって、視覚的に示されている。
図5を参照すると、図4の例に対して、ユーザ1101が、第3の音源ビジュアル表現1015をタップすることによって、第3の音源1005が選択物であることを指示している。つまり、第3の音源1005が追跡され処理されるべきであることを示している。すなわち、装置のタッチ/ユーザインタフェース・コントローラ104は、選択物の場所又は位置を示す入力を表示装置52から受信するように構成されることができる。この入力は、追跡部106へと渡されることができる。実施形態によっては、装置の表示装置または他のユーザインタフェース入力部は、焦点がポジティブな焦点であるのか、すなわち他の音源に対して前記第3の音源を強調もしくは増幅するべきであるのか、又はネガティブな焦点であるのか、すなわち他の音源に対して前記第3の音源を弱めたり減衰させたりすべきであるのかを、決定するように構成されることができる。例えば表示装置は、増幅を示すアイコンや減衰を示すアイコンを表示することができる。または、焦点領域又は選択領域に適用する焦点減衰/増幅の度合いを指定するために使用することのできるスライダやダイヤルといったユーザインタフェースを備える表示を行うことができる。
図6を参照すると、前記第3の音源を、焦点を当てるべき音源であると選択した後の、前記装置が描かれている。実施形態によっては、図6の例において、追跡部又は特徴セレクタ106は、第3の音源1005に関連する適切な視覚的記述情報(及び/又はオーディオ・フィンガープリントやオーディオ記述情報)を生成しており、それらを提供している。それは、スクリーン上に表示されている、第3の音源ビジュアル表現1015を強調するためである。例えば、実施形態によっては、前記視覚的記述情報は、図6においてバツ印で示されている視覚的記述特徴1203の少なくとも一つとして、表示装置に表示される。実施形態によっては、第3の音源ビジュアル表現の強調は、それを囲むボックス1201によって行われることができる。
図7を参照すると、第3の音源1005が動いた後の、前記装置が描かれている。この例において、第3の音源1005は、第1の音源1001及び第2の音源1003に対して移動し、第1の音源1001の前を通過している。この様子は図7において、装置10の表示装置52上で、第3の音源ビジュアル表現1015が、第1の音源ビジュアル表現1011の前を横切って移動していることにより、示されている。しかし、視覚的記述特徴1203は、依然として、第3の音源ビジュアル表現1015を追跡していることに注意されたい。
図8を参照すると、選択されたもの(音源)を示す例示的な画像が表示されており、画像1403は、強調された選択ボックス1401で示される第1の音源(スピーカーは又は話者)を含んでいる。さらに図8は、ノーマルのステレオ収録オーディオ信号1411と、焦点当て処理が適用されたステレオ収録オーディオ信号1413との差を示している。装置は、話者に焦点を当てている。
図9を参照すると、話者が追跡される更なる例が示されている。画像1505は、はじめに選択されたもの(音源・話者)の位置1501が示されていると共に、それが移動したものの位置が、ボックス1503により強調されて示されている。この図はさらに、焦点当て処理がなされていないオーディオ信号1511と、はじめに選択された領域に基づく、固定された焦点当て処理がなされたオーディオ信号1513と、初めの選択領域1501から追跡された現在の選択領域1503への追跡結果に基づく、焦点当て処理がなされたオーディオ信号1515とが示されている。
図10を参照すると、ビジュアルプロセッサによるユーザインタフェース・オーバーレイであって、追跡を示すオーバーレイが表示されている。最初の画像1601は、図8の画像1403に基づくものであるが、この画像において、ビジュアルプロセッサは、焦点が当てられた領域が、その他の領域よりも明るくなるような、マスキング・オーバーレイを適用している。実施形態によっては、この処理は、焦点領域のピクセルを明るくすることと、焦点領域外のピクセルを暗くする処理を暗くすることとの、いずれかまたは両方を行うことにより行うことができる。このため、焦点領域1603ははっきりと見ることができ、焦点が当てられていない領域は暗く見える。さらに図10は、マスキングがどのように選択物を追跡するのかも示している。第2の画像1611は、図9の画像1505に基づくものであるが、これに対して、焦点が当てられていない領域に対して、同様に、暗くする処理が行われている。
なお、ビジュアルプロセッサ107は、選択された領域や範囲への焦点当てを示すために適切な如何なるオーバーレイ処理を行ってもよいことには注意されたい。そのようなものの中には、イメージを明るくすることや、イメージの色を変えること、イメージをシャープにしたりぼかしたりすることが含まれることができ、それらによって、イメージに焦点が当てられているのか、またはイメージが焦点領域の外にあるのかを示すことができる。
図11を参照すると、ビジアルプロセッサが、選択されたもの(音源)が、カメラの視野外にあることを示す、ユーザインタフェース・オーバーレイが示されている。このため、画像1701及び1711の両方において、音源(話者)がカメラの視野の外に移動してしまったことが描かれている。一番目の画像1701には、ユーザインタフェース・オーバーレイとして矢印1703が描かれており、カメラの視野外に移動した音源の方向を示している。2番目の画像1711においては、ビジュアルプロセッサ107が、選択されたものから遠くなる方向に徐々に暗くするというマスク処理を施している。つまり、視野外の選択物に向かって徐々に明るさを増すという処理を施している。従って、画像において、音源又は選択物が視野から外れた場所の端部が最も明るくなっている。
図12を参照すると、ある実施形態に従う装置の例示的な動作を示す例示的なフローチャートが描かれている。
実施形態によっては、ユーザは装置上でアプリケーション又は適切なプログラムを起動することができ、ビデオの収録が開始される。
この例においては、オーディオとビデオの両方がキャプチャされる。
オーディオ及びビデオの収録の開始又は初期化の動作が、図12のステップ1801で示されている。
ユーザが、焦点を当てるために適切なオブジェクトを選択することを望む時、実施形態によっては、ユーザは、そのためのアイコンをスクリーン上で押し、興味のあるオブジェクトをタッピングによって選択することにより、オブジェクト選択機能を起動することができる。
スクリーン上の専用アイコンを押し、興味のあるオブジェクトをタッピングによって選択することにより、オブジェクト選択機能を起動する動作は、図12のステップ1803で示されている。
実施形態によっては、ユーザはさらに、オブジェクトが増幅されるべきか又は減衰されるべきかを示すユーザ入力を、スクリーン上の対応するアイコンを押すことにより、提供することができる。
実施形態によっては、通常、ユーザは、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する適切な制御入力を提供し、オーディオプロセッサはそれを用いることができる。例えば、決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することは、装置に、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生させる。
この制御入力は、例えば次のいずれかであることができる。
・ 少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅;
・ 少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲;
・ 少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタ;
・ 少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタ;
・ 少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタ;
・ 少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタ。
スクリーン上で対応するアイコンを押すことにより、オブジェクトが増幅されるべきか減衰されるべきかを選択する動作は、図12のステップ1805に示されている。
なお実施形態によっては、オブジェクトの選択や、焦点オブジェクトの増幅・減衰の決定は、自動的に決定されてもよい。
実施形態によっては、装置のアプリケーションは、オブジェクトの視覚的記述情報及び/又は聴覚的記述情報を生成することができる。
視覚的記述情報及び/又は聴覚的記述情報を生成する動作は、図12のステップ1807に示されている。
実施形態によっては、装置のアプリケーションは、オブジェクトの視覚的及び/又は聴覚的記述情報に基づいて、選択されたオブジェクトの位置を追跡することができる。
選択されたオブジェクトの位置を追跡する動作は、図12のステップ1809に示されている。
実施形態によっては、すなわち場合によっては、追跡されるオブジェクトの位置はスクリーン上で視覚化される。例えば上述のように、ビジュアルプロセッサは、追跡されるオブジェクトの位置に基づいて、適切なマスキング又は強調効果を生成する。そのような効果は、カメラによる画像における当該オブジェクトの物理的なイメージと共に表示されることができる。
この処理は図12のステップ1811として示されている。
さらに、実施形態によっては、追跡されるオブジェクトの方向を強調するという、オーディオ処理又はオーディオ操作が適用される。
この処理は図12のステップ1813として示されている。
実施形態によっては、処理されたオーディオ信号は、ビデオの少なくとも一つのオーディオトラックとして、既定のフォーマットで格納される。
この処理は図12のステップ1815として示されている。
上述のアプリケーション又は処理は、記述情報の更新処理や、オブジェクトの追跡処理のために、繰り返されてもよい。
例えば、実施形態によっては、オブジェクトは、100ms毎に追跡されることができる。記述情報値の更新処理は、実施形態によっては、2−300ms毎に行われることができる。つまり、追跡処理の頻度よりも更新処理の頻度は少ない場合がある。実施形態によっては、追跡処理の頻度と更新処理の頻度とは等しくてもよい。実施形態によっては、記述情報値の更新処理は、追跡された記述情報値が、前回格納された記述情報値から大きく変わった場合に行われてもよい。
本明細書において登場した各要素は、実施形態によっては少なくともその一部が、少なくとも一つのメモリに格納され、少なくとも一つのプロセッサで実行される命令やルーチンとして実装されることができる。
「ユーザ機器」との語句は、如何なるタイプの無線ユーザ機器を表してもよく、例えば携帯電話やポータブルデータ処理装置、ポータブルWebブラウザであってもよい。
さらに、地上波公共移動通信ネットワーク.(PLMN)が、上述の装置を含んでもよい。
一般に、様々な実施形態が、ハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組み合わせで実装されてもよい。例えば、ある場合ではハードウェアで実装されてもよく、一方別の場合では、コントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよい。本発明の種々の形態はブロック図,フローチャート,または他の図的記述を使用して記述ないし図示される。これらのブロック,装置,システム,技術,またはここで記述される方法は、非限定的な例として、ハードウェア,ソフトウェア,ファームウェア,特定用途向け回路やロジック,汎用ハードウェア,コントローラや他のコンピュータデバイス,またはそれらの組み合わせで実装されてもよいと理解されるべきである。
そして本発明の実施形態は、移動デバイスのデータプロセッサによって実行可能なコンピュータソフトウェア,ハードウェア,またはソフトウェアとハードウェアの組合せによって実装されてもよい。またこの点に関して、添付する図面に示される論理フローの任意のブロックが、プログラムのステップや相互接続された論理回路・ブロック・機能,またはプログラムのステップ,論理回路・ブロック・機能の組合せを表現してもよいことに留意されたい。ソフトウェアは、メモリチップ等の物理メディアやプロセッサ内に実装されるメモリブロック,ハードディスクやフレキシブルディスク等の磁気メディア,DVDやそのデータ異形態であるCD等の光学式メディアに格納されてもよい。
メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよい。例えば、半導体ベースのメモリデバイス,磁気メモリデバイス・システム,光学式メモリデバイス・システム,固定式・移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。データプロセッサは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、一つ以上の汎用コンピュータ,特定用途向けコンピュータ,マイクロプロセッサ,デジタル信号プロセッサ(DSP),特定用途向け集積回路(ASIC),ゲートレベル回路,マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。
本発明の実施形態は、集積回路モジュールのような、様々な要素で実施されることもできる。集積回路の設計は多くは自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチング・形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューのSynopsys, Incや、カリフォルニア州サンノゼのCadence Designのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を配する。半導体回路の設計が完了すると、それは、OpusやGDSII等の標準的な電子フォーマットの形で半導体製造設備または、いわゆるfabに送られる。
前述の説明は、本発明の非限定的な実施例を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の修正および変更が可能であることは、本願に関連する技術分野の当業者には明らかであろう。
さらに、本発明が教示するこうした事項の全ておよび類似する変形は、添付の特許請求の範囲で定義されるように、その全てが本発明の範囲内にある。
好適な実施形態のいくつかを例として以下に示す。
[実施形態1]
少なくとも一つのプロセッサと、一つ又は複数のプログラムのためのコンピュータ命令を格納する少なくとも一つのメモリとを備える装置であって、前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサを用いて、前記装置に:
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することと;
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することと;
前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することと;
前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することと;
を行わせるように構成される、装置。
[実施形態2]
実施形態1に従う装置であって、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定することは、前記装置に少なくとも、
前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけることと;
前記位置情報から少なくとも一つの音源を決定することと;
の少なくともいずれかを行うようにさせ、
さらに、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記装置に、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するようにさせる、装置。
[実施形態3]
実施形態1又は2に従う装置であって、
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記装置に少なくとも:
イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること;
少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること;
少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定すること;
の少なくともいずれかをさせる、装置。
[実施形態4]
実施形態1から3のいずれかに従う装置であって、さらに、
表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することと;
前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定することと;
を行うようにされ、ここで、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記装置に、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することをさせる、装置。
[実施形態5]
実施形態4に従う装置であって、
表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することは、前記装置に更に、
表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成することと;
少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示することと;
を行うようにさせ、
ここで、少なくとも一つの視覚的要素のPOI位置を決定することは、前記装置に、少なくとも一つの選択入力に基づいて、前記少なくとも一つのPOI位置を決定するようにさせる、装置。
[実施形態6]
実施形態5に従う装置であって、
前記表示イメージを生成することは、前記装置に、
少なくとも一つのイメージフレームをキャプチャすることと;
少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することと;
少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合することと;
を行わせる、装置。
[実施形態7]
実施形態6に従う装置であって、
少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することは、前記装置に、
少なくとも一つの音源のPOI位置を示すオーバーレイを生成することと;
少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイを生成することと;
少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイを生成することと;
少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイことと;
決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイを生成することと;
決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイを生成することと;
焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイを生成することと;
装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイを生成することと;
の少なくともいずれかを行わせる、装置。
[実施形態8]
実施形態1から7のいずれかに従う装置であって、さらに、
少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する少なくとも一つの制御入力を提供するようにされ、
決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することは、前記装置に、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生させる、装置。
[実施形態9]
実施形態8に従う装置であって、
前記少なくとも一つの位置に関連する少なくとも一つの制御入力を提供することは、前記装置に、
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅;
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲;
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタ;
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタ;
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタ;
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタ;
の少なくともいずれかを提供させるようにする、装置。
[実施形態10]
実施形態1から9のいずれかに従う装置であって、さらに、
前記少なくとも一つのオーディオ信号は少なくとも2つのオーディオ信号を含み、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定することは、前記装置に少なくとも:
前記少なくとも2つのオーディオ信号から、前記少なくとも一つの音源が位置に関する値を含むことを決定することと;
前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源を決定することと;
の少なくともいずれかを行わせる、装置。
[実施形態11]
実施形態1から10のいずれかに従う装置であって、さらに、
前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することは、前記装置に:
前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定することと;
前記少なくとも一つの視覚的イメージ要素及び/又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡することと;
前記少なくとも一つの特徴の移動経路を決定することと;
を行わせる、装置。
[実施形態12]
実施形態1から12のいずれかに従う装置であって、前記少なくとも一つのオーディオ信号を、
少なくとも2つのマイク;
装置のメモリ;
少なくとも一つの他の装置;
のいずれかから受け取るように構成される、装置。
[実施形態13]
実施形態3に直接又は間接に従う装置であって、さらに、
前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを、少なくとも一つのカメラ,メモリ,少なくとも一つの他の装置の少なくともいずれかから受け取るように構成される、装置。
[実施形態14]
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定する手段と;
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段と;
前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定する手段と;
前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生する手段と;
を備える、装置。
[実施形態15]
実施形態14に従う装置であって、
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定する手段は:
前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つける手段と;
前記位置情報から少なくとも一つの音源を決定する手段と;
の少なくともいずれかを備え、
さらに、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段は、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段を備える、装置。
[実施形態16]
実施形態14又は15に従う装置であって、
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段は、さらに;
イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定する手段と;
少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定する手段と;
少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段と;
の少なくともいずれかを備える、装置。
[実施形態17]
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することと;
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することと;
前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することと;
前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することと;
を含む、方法。
[実施形態18]
実施形態17に従う方法であって、
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することは:
前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけることと;
前記位置情報から少なくとも一つの音源を決定することと;
の少なくともいずれかを含み、
さらに、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することを含む、方法。
[実施形態19]
実施形態17又は18に従う装置であって、
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、さらに;
イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること;
少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること;
少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定すること;
の少なくともいずれかを含む、装置。
[実施形態20]
少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定するように構成される空間オーディオアナライザと;
前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成される位置決定部と;
前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定するように構成される移動経路決定部と;
前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより前記少なくとも一つのオーディオ信号を再生するように構成される処理部と;
を備える装置。

Claims (16)

  1. 少なくとも一つのオーディオトラックのレコーディング中にメタデータファイルを生成することと;
    前記少なくとも一つのオーディオトラックを、前記メタデータファイルに関連付けて格納することと;
    を含み、
    前記メタデータファイルは、前記少なくとも一つのオーディオトラックに含まれる一つ又は複数のアコースティック音源のそれぞれについての方向情報を示し、
    前記一つ又は複数のアコースティック音源のうちの少なくとも一つはユーザ入力に基づいて選択され、前記メタデータファイルは、前記選択された前記少なくとも一つのアコースティック音源の方向に基づいて強調がなされたオーディオ信号を生成するために、少なくとも一つの追跡メカニズムによって処理されるように構成される、
    方法。
  2. 前記選択された前記少なくとも一つのアコースティック音源に焦点をあてることと;
    前記少なくとも一つの追跡メカニズムによって前記選択された前記少なくとも一つのアコースティック音源の追跡を行うことと;
    を含む、請求項1に記載の方法。
  3. 前記選択された前記少なくとも一つのアコースティック音源を、関連するユーザインタフェースで強調することを含む、請求項1に記載の方法。
  4. 追跡するイメージフレームから、視覚的イメージ要素に関連する少なくとも一つの位置を決定すること、ただし前記視覚的イメージ要素は、形状及び色の少なくともいずれかを含む、請求項1に記載の方法。
  5. 前記視覚的イメージ要素は顔である、請求項4に記載の方法。
  6. 前記少なくとも一つの追跡メカニズムは、コンピュータビジョンベースの追跡メカニズム及びオーディオ・フィンガープリントベースの追跡メカニズムの少なくともいずれかを含む、請求項1に記載の方法。
  7. 前記選択された前記少なくとも一つのアコースティック音源の前記方向に基づいて、前記選択された前記少なくとも一つのアコースティック音源のオーディオ信号を、増幅又は減衰する指示を受け取ることを含む、請求項1に記載の方法。
  8. 空間フォーカサーの焦点角度に関連する少なくとも一つのチャネルの利得値を決定することと;
    残りのチャネルの少なくとも一つに利得値1を適用することと;
    を含み、ここで利得値1は、ドミナントではない少なくとも一つの音源及び焦点角度から到来する背景ノイズを減衰させることを防ぐ、請求項1に記載の方法。
  9. 少なくとも一つのオーディオトラックの再生中にメタデータファイルにアクセスすること、ただし前記メタデータファイルは、前記少なくとも一つのオーディオトラックに含まれる一つ又は複数のアコースティック音源のそれぞれについての方向情報を示す、前記アクセスすることと;
    ユーザ入力に基づいて、前記一つ又は複数のアコースティック音源のうちの少なくとも一つの選択を受け取ることと;
    前記選択された前記少なくとも一つのアコースティック音源の方向に基づいて強調がなされたオーディオ信号を生成するために、少なくとも一つの追跡メカニズムによって、前記メタデータファイルを処理することと;
    を含む、方法。
  10. 前記選択された前記少なくとも一つのアコースティック音源は、関連するユーザインタフェースで強調されるように構成される、請求項9に記載の方法。
  11. イメージフレームから、視覚的イメージ要素に関連する少なくとも一つの位置を追跡すること、ただし前記視覚的イメージ要素は、形状及び色の少なくともいずれかを含む、請求項9に記載の方法。
  12. 前記選択された前記少なくとも一つのアコースティック音源の前記方向に基づいて、前記選択された前記少なくとも一つのアコースティック音源のオーディオ信号を、増幅又は減衰する指示を受け取ることを含む、請求項9に記載の方法。
  13. 処理手段と記憶手段とを有する装置であって、前記記憶手段はプログラム命令を格納し、前記プログラム命令は、前記処理手段で実行されると、請求項1から12のいずれかに記載の方法を前記装置に遂行させるように構成される、装置。
  14. 装置の処理手段で実行されると、請求項1から12のいずれかに記載の方法を前記装置に遂行させるように構成されるプログラム命令を有するコンピュータプログラム。
  15. 少なくとも一つのオーディオトラックのレコーディング中にメタデータファイルを生成する手段と;
    前記少なくとも一つのオーディオトラックを、前記メタデータファイルに関連付けて格納する手段と;
    を備え、
    前記メタデータファイルは、前記少なくとも一つのオーディオトラックに含まれる一つ又は複数のアコースティック音源のそれぞれについての方向情報を示し、
    前記一つ又は複数のアコースティック音源のうちの少なくとも一つはユーザ入力に基づいて選択され、前記メタデータファイルは、前記選択された前記少なくとも一つのアコースティック音源の方向に基づいて強調がなされたオーディオ信号を生成するために、少なくとも一つの追跡メカニズムによって処理されるように構成される、
    装置。
  16. 少なくとも一つのオーディオトラックの再生中にメタデータファイルにアクセスする手段、ただし前記メタデータファイルは、前記少なくとも一つのオーディオトラックに含まれる一つ又は複数のアコースティック音源のそれぞれについての方向情報を示す、前記アクセスする手段と;
    ユーザ入力に基づいて、前記一つ又は複数のアコースティック音源のうちの少なくとも一つの選択を受け取る手段と;
    前記選択された前記少なくとも一つのアコースティック音源の方向に基づいて強調がなされたオーディオ信号を生成するために、少なくとも一つの追跡メカニズムによって、前記メタデータファイルを処理する手段と;
    を備える、装置。
JP2016084105A 2013-07-09 2016-04-20 オーディオ処理装置 Active JP6367258B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1312326.0 2013-07-09
GB1312326.0A GB2516056B (en) 2013-07-09 2013-07-09 Audio processing apparatus

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014141411A Division JP6310793B2 (ja) 2013-07-09 2014-07-09 オーディオ処理装置

Publications (3)

Publication Number Publication Date
JP2016178652A JP2016178652A (ja) 2016-10-06
JP2016178652A5 JP2016178652A5 (ja) 2018-05-10
JP6367258B2 true JP6367258B2 (ja) 2018-08-01

Family

ID=49033573

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014141411A Active JP6310793B2 (ja) 2013-07-09 2014-07-09 オーディオ処理装置
JP2016084105A Active JP6367258B2 (ja) 2013-07-09 2016-04-20 オーディオ処理装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014141411A Active JP6310793B2 (ja) 2013-07-09 2014-07-09 オーディオ処理装置

Country Status (5)

Country Link
US (2) US10142759B2 (ja)
EP (1) EP2824663B1 (ja)
JP (2) JP6310793B2 (ja)
KR (1) KR101703388B1 (ja)
GB (1) GB2516056B (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9344826B2 (en) * 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
KR102288060B1 (ko) * 2014-08-06 2021-08-10 삼성전자 주식회사 피사체의 소리를 수신하는 방법 및 이를 구현하는 전자장치
KR102226817B1 (ko) * 2014-10-01 2021-03-11 삼성전자주식회사 콘텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
US9860635B2 (en) * 2014-12-15 2018-01-02 Panasonic Intellectual Property Management Co., Ltd. Microphone array, monitoring system, and sound pickup setting method
US9787846B2 (en) * 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
US9668055B2 (en) * 2015-03-04 2017-05-30 Sowhat Studio Di Michele Baggio Portable recorder
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
GB2540224A (en) 2015-07-08 2017-01-11 Nokia Technologies Oy Multi-apparatus distributed media capture for playback control
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
JP5979458B1 (ja) * 2015-11-06 2016-08-24 パナソニックIpマネジメント株式会社 無人飛行体検知システム及び無人飛行体検知方法
US11445305B2 (en) 2016-02-04 2022-09-13 Magic Leap, Inc. Technique for directing audio in augmented reality system
WO2017143067A1 (en) 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Sound capture for mobile devices
US11722821B2 (en) 2016-02-19 2023-08-08 Dolby Laboratories Licensing Corporation Sound capture for mobile devices
US10153002B2 (en) * 2016-04-15 2018-12-11 Intel Corporation Selection of an audio stream of a video for enhancement using images of the video
BR112018074203A2 (pt) * 2016-05-30 2019-05-14 Sony Corporation dispositivo e método de processamento audiovisual, e, programa
US10074012B2 (en) 2016-06-17 2018-09-11 Dolby Laboratories Licensing Corporation Sound and video object tracking
GB2551521A (en) * 2016-06-20 2017-12-27 Nokia Technologies Oy Distributed audio capture and mixing controlling
US9881647B2 (en) * 2016-06-28 2018-01-30 VideoStitch Inc. Method to align an immersive video and an immersive sound field
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10573291B2 (en) 2016-12-09 2020-02-25 The Research Foundation For The State University Of New York Acoustic metamaterial
IL311069A (en) 2017-02-28 2024-04-01 Magic Leap Inc Virtual and real object registration in a mixed reality device
CN106842752B (zh) * 2017-04-24 2019-06-07 京东方科技集团股份有限公司 显示面板、显示装置及其显示方法
GB2562518A (en) 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
US11303689B2 (en) 2017-06-06 2022-04-12 Nokia Technologies Oy Method and apparatus for updating streamed content
GB201710085D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB201710093D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10828009B2 (en) 2017-12-20 2020-11-10 International Business Machines Corporation Monitoring body sounds and detecting health conditions
EP3503102A1 (en) * 2017-12-22 2019-06-26 Nokia Technologies Oy An apparatus and associated methods for presentation of captured spatial audio content
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US10431238B1 (en) * 2018-08-17 2019-10-01 Apple Inc. Memory and computation efficient cross-correlation and delay estimation
CN110875053A (zh) 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语音处理的方法、装置、系统、设备和介质
KR20200107757A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
EP3742185B1 (en) * 2019-05-20 2023-08-09 Nokia Technologies Oy An apparatus and associated methods for capture of spatial audio
CN112423190A (zh) * 2019-08-20 2021-02-26 苹果公司 用于头戴式设备的基于音频的反馈
US11137973B2 (en) * 2019-09-04 2021-10-05 Bose Corporation Augmented audio development previewing tool
GB2587335A (en) * 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
WO2021060680A1 (en) 2019-09-24 2021-04-01 Samsung Electronics Co., Ltd. Methods and systems for recording mixed audio signal and reproducing directional audio
WO2022059858A1 (en) * 2020-09-16 2022-03-24 Samsung Electronics Co., Ltd. Method and system to generate 3d audio from audio-visual multimedia content
WO2022250660A1 (en) * 2021-05-25 2022-12-01 Google Llc Enhancing audio content of a captured scene
US11653166B2 (en) * 2021-05-27 2023-05-16 Qualcomm Incorporated Directional audio generation with multiple arrangements of sound sources
TW202314452A (zh) * 2021-08-13 2023-04-01 美商元平台技術有限公司 具有用於ar/vr應用的濾波器之單觸空間體驗
US11943601B2 (en) 2021-08-13 2024-03-26 Meta Platforms Technologies, Llc Audio beam steering, tracking and audio effects for AR/VR applications
GB202204269D0 (en) * 2022-03-25 2022-05-11 Nokia Technologies Oy An apparatus for mapping sound source direction
US11914146B2 (en) * 2022-05-27 2024-02-27 Sony Interactive Entertainment LLC Methods and systems for adding real-world sounds to virtual reality scenes

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2004147205A (ja) 2002-10-25 2004-05-20 Fuji Photo Film Co Ltd 画像音声記録装置
JP2004180197A (ja) * 2002-11-29 2004-06-24 Canon Inc 情報処理装置、情報処理方法および記録媒体
JP4269883B2 (ja) * 2003-10-20 2009-05-27 ソニー株式会社 マイクロホン装置、再生装置及び撮像装置
TWI230023B (en) 2003-11-20 2005-03-21 Acer Inc Sound-receiving method of microphone array associating positioning technology and system thereof
JP2005352330A (ja) * 2004-06-14 2005-12-22 Heartful Wing:Kk 音声分割記録装置
US7928311B2 (en) * 2004-12-01 2011-04-19 Creative Technology Ltd System and method for forming and rendering 3D MIDI messages
US7518631B2 (en) * 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
JP2007158396A (ja) * 2005-11-30 2007-06-21 Mitsubishi Electric Corp 映像・音声同期伝送装置
JP4686402B2 (ja) * 2006-04-27 2011-05-25 オリンパスイメージング株式会社 カメラ、再生装置、再生制御方法
JP2008131168A (ja) * 2006-11-17 2008-06-05 Casio Comput Co Ltd 音声データ編集装置、音声データ編集方法、音声データ編集プログラム
NO328582B1 (no) 2006-12-29 2010-03-22 Tandberg Telecom As Mikrofon for lydkildesporing
JP2008193196A (ja) * 2007-02-01 2008-08-21 Casio Comput Co Ltd 撮像装置および指定音声出力方法
US7792674B2 (en) * 2007-03-30 2010-09-07 Smith Micro Software, Inc. System and method for providing virtual spatial sound with an audio visual player
US8660841B2 (en) * 2007-04-06 2014-02-25 Technion Research & Development Foundation Limited Method and apparatus for the use of cross modal association to isolate individual media sources
US20080259731A1 (en) 2007-04-17 2008-10-23 Happonen Aki P Methods and apparatuses for user controlled beamforming
JP2008271157A (ja) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd 音声強調装置及び制御プログラム
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
JP4934580B2 (ja) 2007-12-17 2012-05-16 株式会社日立製作所 映像音声記録装置および映像音声再生装置
JP4968091B2 (ja) * 2008-01-30 2012-07-04 ソニー株式会社 電子機器、メッセージ応答方法及びプログラム
JP5240832B2 (ja) 2008-06-04 2013-07-17 Necカシオモバイルコミュニケーションズ株式会社 音入力装置、音入力方法およびプログラム
US9445193B2 (en) 2008-07-31 2016-09-13 Nokia Technologies Oy Electronic device directional audio capture
US20100123785A1 (en) * 2008-11-17 2010-05-20 Apple Inc. Graphic Control for Directional Audio Input
US8150063B2 (en) * 2008-11-25 2012-04-03 Apple Inc. Stabilizing directional audio input from a moving microphone array
JP2010187363A (ja) 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
US20100254543A1 (en) * 2009-02-03 2010-10-07 Squarehead Technology As Conference microphone system
JP5908199B2 (ja) 2009-05-21 2016-04-26 株式会社ザクティ 音響処理装置及び集音装置
CN102549655B (zh) 2009-08-14 2014-09-24 Dts有限责任公司 自适应成流音频对象的系统
JP2011061461A (ja) * 2009-09-09 2011-03-24 Sony Corp 撮像装置、指向性制御方法及びそのプログラム
US8144633B2 (en) 2009-09-22 2012-03-27 Avaya Inc. Method and system for controlling audio in a collaboration environment
EP2517486A1 (en) 2009-12-23 2012-10-31 Nokia Corp. An apparatus
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
JP5198530B2 (ja) * 2010-09-28 2013-05-15 株式会社東芝 音声付き動画像呈示装置、方法およびプログラム
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US8761412B2 (en) * 2010-12-16 2014-06-24 Sony Computer Entertainment Inc. Microphone array steering with image-based source location
JP5815956B2 (ja) 2011-02-10 2015-11-17 キヤノン株式会社 音声処理装置及びプログラム
US8475396B2 (en) * 2011-02-11 2013-07-02 AventuSoft, LLC Method and system of an acoustic scene analyzer for body sounds
JP2013106298A (ja) * 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
JP2013240000A (ja) 2012-05-17 2013-11-28 Kyocera Corp 電子機器、録音制御プログラムおよび録音制御方法
EP2680616A1 (en) * 2012-06-25 2014-01-01 LG Electronics Inc. Mobile terminal and audio zooming method thereof
JP6218090B2 (ja) * 2014-05-09 2017-10-25 パナソニックIpマネジメント株式会社 指向性制御方法
JP6438274B2 (ja) * 2014-10-29 2018-12-12 Kyb株式会社 ミキサ車

Also Published As

Publication number Publication date
JP6310793B2 (ja) 2018-04-11
KR20150006799A (ko) 2015-01-19
GB2516056A (en) 2015-01-14
KR101703388B1 (ko) 2017-02-06
EP2824663A3 (en) 2015-03-11
JP2016178652A (ja) 2016-10-06
EP2824663B1 (en) 2021-08-25
GB2516056B (en) 2021-06-30
US10142759B2 (en) 2018-11-27
EP2824663A2 (en) 2015-01-14
US20150016641A1 (en) 2015-01-15
US10080094B2 (en) 2018-09-18
GB201312326D0 (en) 2013-08-21
US20180084365A1 (en) 2018-03-22
JP2015019371A (ja) 2015-01-29

Similar Documents

Publication Publication Date Title
JP6367258B2 (ja) オーディオ処理装置
JP2015019371A5 (ja)
US10924850B2 (en) Apparatus and method for audio processing based on directional ranges
US10635383B2 (en) Visual audio processing apparatus
US10932075B2 (en) Spatial audio processing apparatus
CN109804559B (zh) 空间音频系统中的增益控制
US9445174B2 (en) Audio capture apparatus
US11223924B2 (en) Audio distance estimation for spatial audio processing
US11284211B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
US20180109874A1 (en) User Experience Oriented Audio Signal Processing
CN107017000B (zh) 用于编码和解码音频信号的装置、方法和计算机程序

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180704

R150 Certificate of patent or registration of utility model

Ref document number: 6367258

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250