JP6430017B2 - オブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体 - Google Patents

オブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体 Download PDF

Info

Publication number
JP6430017B2
JP6430017B2 JP2017533678A JP2017533678A JP6430017B2 JP 6430017 B2 JP6430017 B2 JP 6430017B2 JP 2017533678 A JP2017533678 A JP 2017533678A JP 2017533678 A JP2017533678 A JP 2017533678A JP 6430017 B2 JP6430017 B2 JP 6430017B2
Authority
JP
Japan
Prior art keywords
sound
position information
sound source
sampling
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017533678A
Other languages
English (en)
Other versions
JP2017531213A (ja
Inventor
ルンユー シー
ルンユー シー
チアフ イエン
チアフ イエン
フイ ドゥ
フイ ドゥ
Original Assignee
シャオミ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャオミ・インコーポレイテッド filed Critical シャオミ・インコーポレイテッド
Publication of JP2017531213A publication Critical patent/JP2017531213A/ja
Application granted granted Critical
Publication of JP6430017B2 publication Critical patent/JP6430017B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)

Description

本発明は、録音の技術分野に関し、特にオブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体に関する。
MPEG(Moving Picture Experts Group,動画専門家集団)の次世代オーディオコーデック規格であるMPEG−H3D Audioは、2015年2月から正式にISO/IEC 23008−3国際規格となり、この規格の枠組みにおいて新たなサウンドフォーマットであるオブジェクトオーディオ(Object Audio)を利用することで、音の方位を標すことができ、受聴者が用いたのがイヤホンであるか、それとも音響装置であるかにかかわらず、また、音響装置が幾つのスピーカーを有しているのかにもよらず、受聴者は特定方位から伝送されてくる音を聞くことができるようになる。
本発明は、従来技術に存在する問題点を解決するためのオブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体を提供する。
本発明の実施例に係る第1態様によれば、
オブジェクトオーディオ録音方法であって、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するステップと、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップと、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップと
を含む方法を提供する。
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップは、
各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップを含んでもよい。
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップは、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するステップと、
前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するステップと
を含んでもよい。
前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するステップは、
各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するステップと、
前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするステップと
を含んでもよい。
前記各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップと、
事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するステップと
を含んでもよい。
前記各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップは、
事前設定パラメータを含み、且つ各フレームのオーディオデータの時間長を含むヘッダファイル情報を生成して、所定のオーディオ処理装置に送信するステップと、
前記各フレームのオーディオデータの時間長に合致する各フレームのオブジェクトオーディオフォーマットのオーディオデータを生成して、各フレームのオブジェクトオーディオフォーマットのオーディオデータを前記所定のオーディオ処理装置に順に送信するステップと
を含んでもよく、
前記各フレームのオーディオデータの時間長に合致する各フレームのオブジェクトオーディオフォーマットのオーディオデータを生成するステップは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップと、
前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、各フレームのオブジェクトオーディオフォーマットのオーディオデータを取得するステップと
を含んでもよい。
前記各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するステップと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するステップと
を含んでもよい。
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応する位置情報をそれぞれサンプリングし、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することにより、組合せサンプリング位置情報を取得するステップと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング位置情報を順に配列することにより、前記オブジェクトオーディオ補助データを取得するステップと
を含んでもよい。
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするステップを含んでもよく、
ここで、
現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、
現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録する。
本発明の実施例に係る第2態様によれば、
オブジェクトオーディオ録音装置であって、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するための採集ユニットと、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するための処理ユニットと、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するための組合せユニットと
を含む装置を提供する。
前記処理ユニットは、
各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数と各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するための処理サブユニットを含んでもよい。
前記処理ユニットは、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するための識別サブユニットと、
前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するための抽出サブユニットと
を含んでもよい。
前記抽出サブユニットは、
各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するためのモデル構築モジュールと、
前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするための抽出モジュールと
を含んでもよい。
前記組合せユニットは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するための信号組合せサブユニットと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するための位置組合せサブユニットと、
事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するための第1継ぎ合せサブユニットと
を含んでもよい。
前記組合せユニットは、
事前設定パラメータを含み、且つ信号組合せサブユニット、位置組合せサブユニット及び継ぎ合せサブユニットが前記各フレームのオーディオデータの時間長に合致する各フレームのオブジェクトオーディオフォーマットのオーディオデータを生成できるように、各フレームのオーディオデータの時間長を含むヘッダファイル情報を生成して、所定のオーディオ処理装置に送信するためのヘッダファイル送信サブユニットと、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するための信号組合せサブユニットと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するための位置組合せサブユニットと、
前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、各フレームのオブジェクトオーディオフォーマットのオーディオデータを取得するための第2継ぎ合せサブユニットと、
各フレームのオブジェクトオーディオフォーマットのオーディオデータを前記所定のオーディオ処理装置に順に送信するためのオーディオデータ送信サブユニットと
を含んでもよい。
前記信号組合せサブユニットは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するための信号サンプリングモジュールと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するための信号配列モジュールと
を含んでもよい。
前記位置組合せサブユニットは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応する位置情報をそれぞれサンプリングし、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することにより、組合せサンプリング位置情報を取得するための第1位置記録モジュールと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング位置情報を順に配列することにより、前記オブジェクトオーディオ補助データを取得するための位置配列モジュールと
を含んでもよい。
前記位置組合せサブユニットは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするための位置サンプリングモジュールと、
現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録するための第2位置記録モジュールと
を含んでもよい。
本発明の実施例に係る第3態様によれば、
プロセッサと、
前記プロセッサにより実行可能なインストラクションを記憶するためのメモリと
を備え、
前記プロセッサは、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得し、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出し、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得する
ように構成される電子機器を提供する。
本発明の実施例に係る第4様態によれば、
プロセッサに実行されることにより、第1態様による前記方法を実現するプログラムを提供する。
本発明の実施例に係る第5態様によれば、
第4態様による前記プログラムが記録されている記録媒体を提供する。
本発明の実施例によれば、以下のような有益な効果が得られる。
上述の実施例によれば、本発明では、複数のマイクロフォンを設置して同時にサウンド採集を実行することにより、取得される混合音信号に各マイクロフォンにより採集されたサウンド信号が含まれるようにし、また、各マイクロフォンそれぞれの設置位置情報を結合させることで、音源ごとに、対応するオブジェクトサウンド信号を識別及び抽出することができる。それゆえ、各音源のサウンド信号を個別に採集する必要がないので、ハードウェア装置に対する依存性と要求が低下し、オブジェクトオーディオフォーマットのオーディオデータを直接取得することができる。
なお、上述の一般的な記載及び後述の詳細な記載は、単なる例示的な解釈であり、本発明に対する限定として見なしてはいけない。
以下の図面は、明細書に組み込まれて本願明細書の一部分となり、本願発明に係る実施例を示し、且つ明細書とともに、本発明の原理の説明に用いられる。
図1は、従来技術に係るオブジェクトオーディオを取得するための方法の模式図である。 図2は、従来技術に係るオブジェクトオーディオを取得するための他の方法の模式図である。 図3は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音方法のフローチャートである。 図4は、本発明の例示的な一実施例に係る他のオブジェクトオーディオ録音方法のフローチャートである。 図5は、本発明の例示的な一実施例に係る音源信号を採集するための方法の模式図である。 図6は、本発明の例示的な一実施例に係る他のオブジェクトオーディオ録音方法のフローチャートである。 図7は、本発明の例示的な一実施例に係るオブジェクトオーディオのフレーム構造の模式図である。 図8は、本発明の例示的な一実施例に係るオブジェクトオーディオの他のフレーム構造の模式図である。 図9は、本発明の例示的な一実施例に係るオブジェクトオーディオの他のフレーム構造の模式図である。 図10は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図11は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図12は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図13は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図14は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図15は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図16は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図17は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図18は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。 図19は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置の構成の模式図である。
以下、図面に示されている例示的な実施例を更に詳しく説明する。以下の図面に関する説明において、別途の説明がない限り、異なる図面中の同一の符号は、同一又は類似する要素を示すこととする。以下の例示的な実施例において説明する複数の実施形態は、本発明に係る全ての実施形態を代表するわけではない。逆に、それらは、添付された特許請求の範囲に記載の本発明の一部の態様に係る装置及び方法の例に過ぎない。
従来技術においては、オブジェクトオーディオ(Object Audio)を直接録音して取得することができない。理解の便宜上、以下、従来技術に係る典型的な処理方式について紹介する。
図1は、従来技術に係るオブジェクトオーディオを取得するための方法の模式図である。図1に示すように、当該処理プロセスにおいて、例えば、図1中の第1サウンドチャンネル(sound channel)オーディオ、第2サウンドチャンネルオーディオ、第3サウンドチャンネルオーディオなどのような複数のモノラルオーディオ(monaural audio)を予め用意しておく必要があり、それと同時に、例えば、第1サウンドチャンネルオーディオに対応する第1位置、第2サウンドチャンネルオーディオに対応する第2位置、第3サウンドチャンネルオーディオに対応する第3位置などのような、各モノラルオーディオに対応する位置情報を予め用意しておく必要もある。最後に、オブジェクトオーディオ生成デバイスにより、各チャンネルのオーディオをそれに対応する位置と組合せてオブジェクトオーディオを取得する。
しかしながら、図1に示す処理方式には、以下のような問題点がある。
1)予めオーディオデータと位置情報を用意する必要があるため、オブジェクトオーディオを直接録音して取得することができない。
2)それと同時に、各チャンネルのオーディオの位置は個別に用意されるため、通常各チャンネルのオーディオの真の位置を確実に反映することができない。
図2は、従来技術に係るオブジェクトオーディオを取得するための他の方法の模式図である。図2に示すように、例えば、第1音源が第1のMICに対応し、第2音源が第2のMICに対応し、第3音源が第3のMICに対応するなどのように、音源ごとに対応するMIC(マイクロフォン)を用意して、各MICが自身と対応する音源のみに対しサウンドを採集することにより、対応する第1オブジェクトサウンド信号、第2オブジェクトサウンド信号、第3オブジェクトサウンド信号などのそれぞれを取得する。それと同時に、各音源の位置情報を予め用意しておく必要がある。最後に、オブジェクトオーディオ生成デバイスにより、各音源に対応するオブジェクトサウンド信号を位置情報と組合せてオブジェクトオーディオを取得する。
しかしながら、図2に示す処理方式には、以下の問題点がある。
1)各音源ごとにMICを個別に用意する必要があるため、ハードウェアコストが過度に高くなってしまう。
2)MICの場合、音源に近付けて設置し且つ音源に追従して移動しなければならないため、実現が非常に困難であり、録音器材のコストが急増する。
3)複数のMICによりそれぞれ採集したオブジェクトサウンド信号同士を同期させる必要があるが、音源の数が多く、且つMICが音源に近付けて設置されてオブジェクトオーディオ生成デバイスから離れている場合、又は無線MICを利用する場合、実現が非常に困難である。
4)音源の位置情報の場合、別途個別に取得され、且つその後にオブジェクトオーディオに添付されるため、音源の数が多く、その移動が不規則であるなどの要素の影響で、最後に取得されたオブジェクトオーディオが真の音源位置を忠実に表すことが難しい。
そこで、本発明では、オブジェクトオーディオの録音を実現するための技術を提供することで、従来技術に存在する上述のような技術課題を解決する。
図3は、例示的な一実施例に係るオブジェクトオーディオ録音方法のフローチャートである。当該方法は、録音装置に用いられ、図3に示すように以下のステップを含んでもよい。
ステップ302において、複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得する。
ステップ304において、前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出する。
例示的な一実施例として、各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差などの特徴情報に基づき、混合音信号から直接音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出してもよい。
例示的な他の一実施例として、まずは、上述のような振幅差と位相差などの特徴情報により、混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、混合音信号から音源の数、各音源の位置情報を識別し、その後、上述のような振幅差と位相差などの特徴情報により、混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、混合音信号から各音源に対応するオブジェクトサウンド信号を抽出してもよい。
ステップ306において、各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得する。
本実施例において、オブジェクトオーディオ(Object Audio)とは、一般的に、オーディオオブジェクト(Audio Object)を表すための各種のサウンドフォーマットを言う。ここで、位置情報を有する点音源、または中心位置が大体判断できる面音源の場合、オーディオオブジェクト(Audio Object)とすることができる。
本実施例においては、オブジェクトオーディオは、音源の位置とオブジェクトサウンド信号との二つの部分を含み、そのうち、オブジェクトサウンド信号自身をモノラルオーディオ信号と見なすことができる。オブジェクトサウンド信号の形式は、PCM(Pulse−code modulation)、DSD(Direct Stream Digital)などの非圧縮フォーマットであってもよく、MP3(MPEG−1 or MPEG−2 Audio Layer III)、AAC(Advanced Audio Coding)、Dolby Digitalなどの圧縮フォーマットであってもよいが、本発明ではこれらのみに限定されない。
上述の実施例から分かるように、本発明では、複数のマイクロフォンを設置して同時にサウンド採集を実行することにより、取得される混合音信号に各マイクロフォンにより採集されたサウンド信号が含まれるようにし、また、各マイクロフォンそれぞれの設置位置情報を結合させることで、音源ごとに、対応するオブジェクトサウンド信号を識別及び抽出する。それゆえ、各音源のサウンド信号を個別に採集する必要がないので、ハードウェア装置に対する依存性と要求が低下し、オブジェクトオーディオフォーマットのオーディオデータを直接取得することができる。
図4は、本発明の例示的な一実施例に係る他のオブジェクトオーディオ録音方法のフローチャートである。当該方法は、図4に示すように以下のステップを含んでもよい。
ステップ402において、複数のMICにより同時にサウンド採集を実行して混合音信号を取得する。
本実施例において、マイクロフォンの数が2個である場合、同一平面内にある複数の音源に対してオブジェクトオーディオの録音動作を行うことができ、マイクロフォンの数が3個又は3個以上である場合、任意の三次元空間内にある複数の音源に対してオブジェクトオーディオの録音動作を行うことができる。但し、同様の音源設定である場合、マイクロフォンの数が多ければ多いほど、音源の数と位置情報を識別して、各音源のオブジェクトサウンド信号を抽出することに有利である。
ステップ404において、各MICの位置状況を取得する。
本実施例において、図5に示すように、各MICがオブジェクトオーディオの録音を実行する間に、位置状況をそのまま保持し、音源の位置情報が変化したとしても、MIC自身の位置状況を変える必要はない。それは、音源の位置変化が採集される混合音信号中に具現されるので、後続ステップにより識別することができるからである。また、MICと音源とは一対一に対応するわけではなく、音源の数の多少に関わらず、少なくとも二つのMICによりサウンド信号を採集することにより、対応する混合音信号を取得することができる。
従って、本実施例は、図1と図2に示す実施例と比較して、正確且つ確実に各音源の実際の位置を識別することができるだけでなく、数多いMICを必要せず、MICが音源に追従して同期して移動する必要もないため、ハードウェアコスト及びシステムの複雑さを低減し、オブジェクトオーディオの品質を向上することに有利である。
本実施例において、MICの位置状況にはMICの設置位置情報が含まれる。座標方式を採用して各MICの位置状況を記録してもよい。例えば、任意の位置(例えば、受聴者(Audience)の位置)を原点として空間座標系を構築してもよい。当該空間座標系は、直角座標系(O−xyz)、または球面座標系(O−θγr)であってもよく、これらの二つの座標系の間の変換関係は以下のとおりである。
Figure 0006430017
但し、x、y、zのそれぞれは、直角座標系におけるMIC又は音源(object)のx軸(前後方向)、y軸(左右方向)及びz軸(上下方向)上の位置座標を示す。θ、γ、rのそれぞれは、球面座標系におけるMIC又は音源の水平方向の角度(MIC又は音源と原点とを通る直線の水平面における投影とx軸とがなす角度)、垂直方向の角度(MIC又は音源と原点とを通る直線と水平面とがなす角度)、MIC又は音源の原点からの直線距離を示す。
当然のことながら、各MICの位置状況を個別に記録してもよく、又は、各MIC同士間の相対位置状況を記録することにより、各MICの個別の位置状況を推定してもよい。
ステップ406において、各MICの位置状況に基づいて、混合音信号から音源を識別し、音源の数及び各音源の位置情報を取得する。
例示的な一実施例として、各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、音源の数と各音源の位置情報を識別してもよい。当該実施例において、各音源の発したサウンド信号が各マイクロフォンに達する時間差をもって、該当する位相差を表すことができる。
実際には、従来技術における振幅差と位相差に基づく音源識別(音源が存在するか否かの判断)及び音源の数、位置情報の識別に関するすべての技術は、いずれも当該ステップ406の処理プロセスに適用される。例えば、MUSIC(MUltipleSIgnalClassfication、多重信号分類)法、ビームフォーミング(Beamforming)法、CSP(crosspower−spectrum phase、白色化相互相関)法などが挙げられ、枚挙に遑がない。
無論、従来技術には、振幅差と位相差に基づいて音源の数、位置情報を識別する他のアルゴリズムがさらにあるとともに、その他の原理に基づいて音源の数、位置情報を識別するアルゴリズムもあるが、これらのすべては本発明の実施例に適用され、本発明ではこれらに対し限定しない。
ステップ408において、各MICの位置状況、及び音源の数と各音源の位置情報に基づき、混合音信号から各音源に対応するオブジェクトサウンド信号を抽出する。
例示的な一実施例として、各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、各音源に対応するオブジェクトサウンド信号を抽出してもよい。例えば、従来技術に係るビームフォーミング(Beamforming)法、GHDSS(Geometric High−order Decorrelation−based Source Separation)法などにより実現しもよい。
例示的な他の一実施例として、各音源の発したサウンド信号の所定のディメンション(dimension)において形成される特徴量に基づき、対応する統計モデルを構築し、前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号としてもよい。但し、統計モデルは、例えば、スペクトル差異、音量差、位相差、基本周波数差異及び基本周波数エネルギー差異、共振ピーク値差異などのような、取得可能なディメンションに係るすべての特徴量を採用してもよい。当該実施例の原理は、統計モデルを用いて、あるサウンド信号がある特定の音場空間(即ち、推定された音源位置)に属するか否かを識別することである。例えば、GMM(Gaussian Mixture Model、ガウシアン混合モデル)などのアルゴリズムにより実現してもよい。
無論、従来技術には、振幅差と位相差、又は統計モデルに基づいて、オブジェクトサウンド信号を抽出する他のアルゴリズムがさらにあるとともに、その他の原理に基づいてオブジェクトサウンド信号を抽出するアルゴリズムもあるが、これらのすべては本発明の実施例に適用され、本発明ではこれらに対し限定しない。
また、図4では、ステップ406とステップ408を個別に説明しているが、実際に、一部の場合には、確かに、ステップ406とステップ408の処理プロセスを個別に実現する必要があるが、他の一部の場合には、例えば、上述のビームフォーミング法などの原理に基づいて、音源の数と位置情報の取得、及び各音源のオブジェクトサウンド信号の抽出を同時に実現することができるので、二つのステップに分けて処理を個別に行う必要はない。
ステップ410において、各音源のオブジェクトサウンド信号と位置情報とを組合せてオブジェクトオーディオを取得する。
以下、ステップ410の組合せ動作について、図6に参照して詳しく説明する。図6は、本発明の例示的な一実施例に係る他のオブジェクトオーディオ録音方法のフローチャートである。当該方法は、図6に示すように以下のステップを含んでもよい。
ステップ602において、音源の数、各音源の位置情報、及び各音源のオブジェクトサウンド信号を取得する。
ステップ604において、ユーザが選定した保存モードを確認し、ファイルの保存モードがFile Packing Modeであれば、ステップ606に進み、Low Delay Mode(低遅延モード)であれば、ステップ616に進む。
1.File Packing Mode ステップ606において、ヘッダファイルを生成する。
本実施例においては、当該ヘッダファイルには、当該オブジェクトオーディオを記述するための事前設定パラメータ、例えばID情報、バージョン番号などが含まれる。例示的な一実施例として、当該ヘッダファイルのフォーマット及び内容は表1に示すとおりである。
Figure 0006430017
ステップ608において、各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得する。
本実施例において、オブジェクトサウンド信号を組合せるプロセスは、
1)所定のサンプリング周期に基づき、サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより組合せサンプリング信号を取得するステップと、
2)サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するステップと
を含んでもよい。
例えば、図7に示すように、例示的な一実施例に係るオブジェクトオーディオデータ構造において、t0、t1などは所定のサンプリング周期に対応する各サンプリング時点である。サンプリング時点t0を例にする場合、A、B、C及びDの4つの音源が存在し、且つ各音源の配列順がA→B→C→Dの順になっているとすれば、当該順番にしたがって、4つの音源に対し順にサンプリングしてサンプリング信号A0、サンプリング信号B0、サンプリング信号C0、サンプリング信号D0を取得して、対応する組合せサンプリング信号0を生成する。同様に、各サンプリング時点において同様の方式によりサンプリングすることで、各サンプリング時点t0、t1などのそれぞれに対応する組合せサンプリング信号0、組合せサンプリング信号1などを取得することができる。最後に、各組合せサンプリング信号に対応するサンプリング順番にしたがって配列することで、マルチオブジェクトオーディオデータを取得することができる。
ステップ610において、各音源の配列順にしたがって各音源の位置に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得する。
例示的な一実施形態として、オブジェクトサウンド信号を組合せるプロセスは、
1)所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応する位置情報をそれぞれサンプリングし、取得された各サンプリング位置情報をそれに対応する音源情報、サンプリング時点情報に関連付けて記録することにより、組合せサンプリング位置情報を取得するステップと、
2)サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング位置情報を順に配列することにより、前記オブジェクトオーディオ補助データを取得するステップと
を含んでもよい。
本実施形態におけるオブジェクトオーディオ補助データを生成するプロセスは、上述のマルチオブジェクトオーディオデータを生成するプロセスと類似している。再び図7を例として、サンプリング時点t0において、A、B、C及びDの4つの音源が存在し、且つ各音源の配列順がA→B→C→Dの順になっているとすれば、当該順番にしたがって、4つの音源の位置情報に対し順にサンプリングして、サンプリング位置情報a0、サンプリング位置情報b0、サンプリング位置情報c0、サンプリング位置情報d0を取得して、対応する組合せサンプリング位置情報0を生成する。同様に、各サンプリング時点において同様の方式によりサンプリングすることで、各サンプリング時点t0、t1などのそれぞれに対応する組合せサンプリング位置情報0、組合せサンプリング位置情報1などを取得することができる。最後に、各組合せサンプリング位置情報に対応するサンプリング順番にしたがって配列することで、オブジェクトオーディオ補助データを取得することができる。
当該実施例において、すべての音源のすべてのサンプリング時点での位置情報が、オブジェクトオーディオ補助データに記録されている。しかしながら、音源が移動し続けるわけではないため、音源位置情報に対し差分記録を行うことにより、オブジェクトオーディオ補助データのデータ量を削減することができる。当該差分記録の方式については、以下の実施形態を用いて説明する。
例示的な他の一実施形態として、オブジェクトサウンド信号を組合せるプロセスは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするステップを含んでもよい。
但し、
現在のサンプリングポイント(sampling points)が最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、
現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違がある場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録する。
例えば、図8に示すように、A、B、C及びDの4つの音源が存在し、且つ各音源の配列順がA→B→C→Dの順になっているとすれば、サンプリング時点t0において、サンプリング時点t0が最初のサンプリング時点であるため、図7に示す実施形態にしたがって、4つの音源の位置情報を順にサンプリングしてサンプリング位置情報a0、サンプリング位置情報b0、サンプリング位置情報c0及びサンプリング位置情報d0から構成される組合せサンプリング位置情報0を取得する。
t0以外の他のサンプリング時点、例えばサンプリング時点t1においては、4つの音源の位置情報を順にサンプリングして対応するサンプリング位置情報a1、サンプリング位置情報b1、サンプリング位置情報c1及びサンプリング位置情報d1を取得することができるが、音源Aに対応するサンプリング位置情報a1が、直前のサンプリング位置情報a0と同様であれば、当該サンプリング位置情報a1に対して記録する必要はない。それ故に、サンプリング位置情報a1がサンプリング位置情報a0と同様であり、サンプリング位置情報d1がサンプリング位置情報d0と同様であるが、サンプリング位置情報b1がサンプリング位置情報b0と異なり、サンプリング位置情報c1がサンプリング位置情報c0と異なるとすれば、最終的に、サンプリング時点t1に対応する組合せサンプリング位置情報1には、サンプリング位置情報b1とサンプリング位置情報c1のみ含まれるようになる。
ステップ612において、ヘッダファイル、マルチオブジェクトオーディオデータ及びオブジェクトオーディオ補助データを順に継ぎ合せオブジェクトオーディオフォーマットのオーディオデータを取得する。
本実施例において、図7及び図8に示すように、オブジェクトオーディオフォーマットのオーディオデータは、順に継ぎ合せられているヘッダファイルと、マルチオブジェクトオーディオデータと、オブジェクトオーディオ補助データとを含む。当該オーディオデータを再生する際に、ヘッダファイルから、当該オーディオデータの記述子及びパラメータを読み取り、そして、マルチオブジェクトオーディオデータから、各サンプリング時点に対応する組合せサンプリング信号を順に抽出するとともに、オブジェクトオーディオ補助データから、各サンプリング時点に対応する組合せサンプリング位置情報を順に抽出することで、該当する再生動作を実現することができる。
ステップ614において、取得されたオブジェクトオーディオを保存する。
2.Low Delay Mode
ステップ616において、事前設定パラメータを含み、且つ各フレームのオーディオデータの時間長を含むヘッダファイル情報を生成して、所定のオーディオ処理装置に送信する。
本実施例において、当該ヘッダファイルは、当該オブジェクトオーディオを記述するための事前設定パラメータ、例えばID情報、バージョン番号などを含む。この点では、File Packing Modeと類似している。また、当該ヘッダファイルが各フレームのオーディオデータの時間長をさらに含むという点でFile Packing Modeと異なる。当該実施例では、各フレームのオーディオデータの時間長を予め定義及び記録することにより、オブジェクトオーディオを生成する過程において、当該各フレームのオーディオデータの時間長を単位として、オブジェクトオーディオ全体を幾つかの部分に分割し、分割されたオブジェクトオーディオの各部分をオーディオ処理装置に送信し、当該オーディオ処理装置によりリアルタイムに再生、又は記憶することにより、低遅延(Low Delay)、高いリアルタイム性の特性を発揮することができる。
例示的な一実施例として、当該ヘッダファイルのフォーマット及び内容は表2に示すとおりである。
Figure 0006430017
ステップ618において、パラメータiを用いて処理済みのフレームに対し計数を行う。当該パラメータiの初期値はi=0と設定する。当該ステップ618に進み、すべてのオーディオデータがすでに処理済みである場合、終了する。未処理のオーディオデータが存在する場合、パラメータiの値に1を加えてから、ステップ620に進む。
以下のステップ620乃至ステップ622において、パラメータiの値に対応するフレーム内のデータのみに対し処理を行う。ここで、その処理方式は、上述のステップ608乃至ステップ610と同様であるため、ここでその説明を省略する。
ステップ624において、ステップ620とステップ622のそれぞれにより取得された1フレーム内のマルチオブジェクトオーディオデータ及びオブジェクトオーディオ補助データを継ぎ合せ、1フレームのオブジェクトオーディオを取得する。そして、ステップ618に進み、次の1フレームに対する処理を行ってから、ステップ626に進み、オーディオ処理を行う。
ステップ626において、生成された1フレームのオブジェクトオーディオをそれぞれオーディオ処理装置に送信して、リアルタイムに再生、又は記憶する。
上述の実施例により取得されたオブジェクトオーディオの構造は、図9に示すように、ヘッダ部にあるヘッダファイル以外のその他の部分は、例えば第1フレームp0、第2フレームp1などのように若干のフレームに分割され、且つ各フレームは、対応して継ぎ合せられているマルチオブジェクトオーディオデータとオブジェクトオーディオ補助データとを含む。これに対応して、当該オーディオデータを再生する際に、オーディオ処理装置は、ヘッダファイルから、当該オーディオデータに対する記述子及びパラメータ(各フレームのオーディオデータの時間長を含む)を読み取り、そして、受信した各フレームのオブジェクトオーディオから、マルチオブジェクトオーディオデータとオブジェクトオーディオ補助データを順に抽出してから、マルチオブジェクトオーディオデータから、各サンプリング時点に対応する組合せサンプリング信号を順に抽出し、オブジェクトオーディオ補助データから、各サンプリング時点に対応する組合せサンプリング位置情報を順に抽出することにより、対応する再生動作を実現することができる。
本発明は、上述のオブジェクトオーディオ録音方法に係る実施例に対応して、オブジェクトオーディオ録音装置に係る実施例をさらに提供する。
図10は、例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。当該装置は、図10に示すように、採集ユニット1001、処理ユニット1002、及び組合せユニット1003を含む。
ここで、
採集ユニット1001は、複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するように構成され、
処理ユニット1002は、前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するように構成され、
組合せユニット1003は、各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するように構成される。
図11は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図10に示す実施例を基にして、処理ユニット1002が、図11に示すように処理サブユニット1002Aを含む。
ここで、処理サブユニット1002Aは、各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するように構成される。
図12は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図10に示す実施例を基にして、処理ユニット1002が、図12に示すように識別サブユニット1002Bと抽出サブユニット1002Cを含む。
ここで、
識別サブユニット1002Bは、前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するように構成され、
抽出サブユニット1002Cは、前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するように構成される。
ここで説明しておくべきことは、上述の図12に示す装置の実施例における識別サブユニット1002Bと抽出サブユニット1002Cの構成は、上述の図11に示す装置に係る実施例に含まれてもよく、本発明はこれに対し制限しない。
図13は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図12に示す実施例を基にして、抽出サブユニット1002Cが、図13に示すようにモデル構築モジュール1002C1と抽出モジュール1002C2を含む。
ここで、
モデル構築モジュール1002C1は、各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するように構成され、
抽出モジュール1002C2は、前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするように構成される。
図14は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図10に示す実施例を基にして、組合せユニット1003が、図14に示すように信号組合せサブユニット1003A、位置組合せサブユニット1003B及び第1継ぎ合せサブユニット1003Cを含む。
ここで、
信号組合せサブユニット1003Aは、各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するように構成され、
位置組合せサブユニット1003Bは、前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するように構成され、
第1継ぎ合せサブユニット1003Cは、事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するように構成される。
ここで説明しておくべきことは、上述の図14に示す装置の実施例における信号組合せサブユニット1003A、位置組合せサブユニット1003B及び第1継ぎ合せサブユニット1003Cの構成は、上述の図11乃至図13に示す装置に係る実施例に含まれてもよく、本発明ではこれらに対し制限しない。
図15は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図10に示す実施例を基にして、組合せユニット1003が、図15に示すようにヘッダファイル送信サブユニット1003D、信号組合せサブユニット1003A、位置組合せサブユニット1003B、第2継ぎ合せサブユニット1003E及びオーディオデータ送信サブユニット1003Fを含む。
ヘッダファイル送信サブユニット1003Dは、事前設定パラメータを含むヘッダファイル情報を生成して、所定のオーディオ処理装置に送信するように構成される。ここで、前記ヘッダファイル情報は各フレームのオーディオデータの時間長を含むことで、信号組合せサブユニット、位置組合せサブユニット及び継ぎ合せサブユニットが、前記各フレームのオーディオデータの時間長に合致する各フレームのオブジェクトオーディオフォーマットのオーディオデータを生成する。
信号組合せサブユニット1003Aは、各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するように構成される。
位置組合せサブユニット1003Bは、前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するように構成される。
第2継ぎ合せサブユニット1003Eは、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、各フレームのオブジェクトオーディオフォーマットのオーディオデータを取得するように構成される。
オーディオデータ送信サブユニット1003Fは、各フレームのオブジェクトオーディオフォーマットのオーディオデータを前記所定のオーディオ処理装置に順に送信するように構成される。
ここで説明しておくべきことは、上述の図15に示す装置の実施例におけるヘッダファイル送信サブユニット1003D、信号組合せサブユニット1003A、位置組合せサブユニット1003B、第2継ぎ合せサブユニット1003E及びオーディオデータ送信サブユニット1003Fの構成は、上述の図11乃至図13に示す装置に係る実施例に含まれてもよく、本発明ではこれらに対し制限しない。
図16は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図14又は図15に示す実施例を基にして、信号組合せサブユニット1003Aが、図16に示すように信号サンプリングモジュール1003A1と信号配列モジュール1003A2を含む。
ここで、
信号サンプリングモジュール1003A1は、所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するように構成され、
信号配列モジュール1003A2は、サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するように構成される。
図17は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図14又は図15に示す実施例を基にして、位置組合せサブユニット1003Bが、図17に示すように第1位置記録モジュール1003B1及び位置配列モジュール1003B2を含む。
ここで、
第1位置記録モジュール1003B1は、所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応する位置情報をそれぞれサンプリングし、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することにより、組合せサンプリング位置情報を取得するように構成され、
位置配列モジュール1003B2は、サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング位置情報を順に配列することにより、前記オブジェクトオーディオ補助データを取得するように構成される。
図18は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図14又は図15に示す実施例を基にして、位置組合せサブユニット1003Bが、図18に示すように位置サンプリングモジュール1003B3及び第2位置記録モジュール1003B4を含む。
ここで、
位置サンプリングモジュール1003B3は、所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするように構成され、
第2位置記録モジュール1003B4は、現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録するように構成される。
上述の実施例に係る装置において、各モジュールが動作する具体的な方式については、当該方法に係る実施例にて詳しく説明しているため、ここではその詳細な説明を省略する。
装置の実施例の場合、方法の実施例にほぼ対応しているため、その関連する部分については方法の実施例の該当する部分の説明を参照すればよい。以上に述べた装置の実施例は、ただ例示的なものに過ぎず、分離部として説明しているユニットは、物理的に分離可能または分離不可能なものであってもよい。ユニットとして示される部分は、物理的なユニットであってもよく、そうでなくてもよい。即ち、1つの場所に位置してもよく、複数のネットワークユニットに割り当てられてもよい。実際の要求に応じて、そのうちの一部又は全部のモジュールを選択して本発明の目的を実現してもよい。当業者であれば、創造的な労働を経なくても、これらを理解及び実施することができるだろう。
これに対し、本発明は、さらに、
オブジェクトオーディオ録音装置であって、
プロセッサと、
前記プロセッサにより実行可能なインストラクションを記憶するためのメモリと
を含み、
前記プロセッサは、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得し、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出し、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するように構成される装置を提供する。
これに対し、本発明は、さらに、
メモリと、
前記メモリに記憶される1つ又は1つ以上のプログラムと
を含み、
前記1つ又は1つ以上のプログラムは、
1つ又は1つ以上のプロセッサにより実行されるように構成され、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得し、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出し、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得する
動作を行うためのインストラクションを含む端末を提供する。
図19は、例示的な一実施例に係るオブジェクトオーディオ録音装置1900のブロック図である。例えば、装置1900は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機、ゲーム機、タブレットデバイス、医療機器、フィットネス装置、PDA(Personal Digital Assistant)等であってもよい。
図19に示すように、装置1900は、処理アセンブリ1902、メモリ1904、電源アセンブリ1906、マルチメディアアセンブリ1908、オーディオアセンブリ1910、入力/出力(I/O)インターフェース1912、センサアセンブリ1914及び通信アセンブリ1916からなる群から選ばれる少なくとも1つを備えてもよい。
処理アセンブリ1902は、一般的には、装置1900の全体の動作、例えば表示、電話呼び出し、データ通信、カメラ動作及び記録動作に関連する動作を制御する。処理アセンブリ1902は、上述の方法におけるステップの一部又は全部を実現できるように、インストラクションを実行する少なくとも1つのプロセッサ1920を備えてもよい。なお、処理アセンブリ1902は、他のアセンブリとのインタラクションの便宜上、少なくとも1つのモジュールを備えてもよい。例えば、処理アセンブリ1902は、マルチメディアアセンブリ1908とのインタラクションの便利を図るために、マルチメディアモジュールを備えてもよい。
メモリ1904は、装置1900における動作を支援するための、各種のデータを記憶するように構成される。これらのデータの一例として、装置1900において動作される何れのアプリケーション又は方法に関するインストラクション、連絡先データ、電話帳データ、メッセージ、画像、ビデオ等を含む。メモリ1904は、何れの種類の揮発性又は不揮発性のメモリ、例えばSRAM(Static Random Access Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、EPROM(Erasable Programmable Read Only Memory)、PROM(Programmable ROM)、ROM(Read Only Member)、磁気メモリ、フラッシュメモリ、磁気ディスク、又は光ディスク、又はこれらの組合せにより実現することができる。
電源アセンブリ1906は、装置1900の各種アセンブリに電力を供給するためのものであり、電源管理システム、1つ又は複数の電源、及び装置1900のために電力を生成、管理及び分配することに関連のある他のアセンブリを備えてもよい。
マルチメディアアセンブリ1908は、装置1900とユーザとの間に出力インターフェースを提供するためのスクリーンを備えてもよい。何れかの実施例において、スクリーンは、液晶ディスプレイ(LCD)やタッチパネル(TP)を備えてもよい。スクリーンは、タッチパネルを備える場合、ユーザからの入力信号を受信できるタッチスクリーンとして実現される。また、タッチパネルは、少なくとも1つのタッチセンサを備えることにより、タッチ、スライド、タッチパネル上でのジェスチャーを感知することができる。前記タッチセンサは、タッチやスライド動作の境界を感知できるだけではなく、タッチやスライド操作と関連する持続時間や圧力も感知できる。何れかの実施例において、マルチメディアアセンブリ1908は、フロントカメラ及び/又はバックカメラを備えてもよい。装置1900が、例えば撮影モードやビデオモードのような動作モードにある場合、フロントカメラ及び/又はバックカメラは外部からのマルチメディアデータを受信できる。フロントカメラ及びバックカメラのそれぞれは、固定の光学レンズ系であってもよいし、可変の焦点距離及び光学ズーム機能を有するものであってもよい。
オーディオアセンブリ1910は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオアセンブリ1910は、マイクロフォン(MIC)を1つ有してもよい。装置1900が、例えば呼び出しモード、記録モード又はサウンド認識モードのような動作モードにある場合、マイクロフォンは外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらに、メモリ1904に記憶されてもよく、通信アセンブリ1916を介して送信されてもよい。何れかの実施例において、オーディオアセンブリ1910は、オーディオ信号を出力するためのスピーカーをさらに備えてもよい。
I/Oインターフェース1912は、処理アセンブリ1902と周辺インターフェースモジュールとの間にインターフェースを提供するためのものである。前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、ロックボタンであってもよいが、それらに限られない。
センサアセンブリ1914は、装置1900のために各方面の状態評価を提供するための少なくとも1つのセンサを備えてもよい。例えば、センサアセンブリ1914は、装置1900のオン/オフ状態や、アセンブリの相対的な位置を検出することができる。例えば、前記アセンブリが装置1900のディスプレイ及びキーパッドである場合、センサアセンブリ1914は、装置1900又は装置1900の1つのアセンブリの位置の変化や、ユーザと装置1900との接触の有無や、装置1900の方位又は加速/減速や、装置1900の温度変化を検出することができる。センサアセンブリ1914は、何れの物理的接触もない状況にて付近の物体の有無を検出できるように構成される近接センサを含んでもよい。センサアセンブリ1914は、さらに、画像表示技術分野に用いられる光センサ、例えばCMOS又はCCD画像センサを含んでもよい。何れかの実施例において、当該センサアセンブリ1914は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを含んでもよい。
通信アセンブリ1916は、装置1900と他の装置との間の無線又は有線通信が便利になるように構成される。装置1900は、通信標準に基づく無線ネットワーク、例えばWiFi(登録商標)、2G又は3G、又はそれらの組合せにアクセスできる。1つの例示的な実施例において、通信アセンブリ1916は、ブロードキャストチャンネルを介して、外部のブロードキャスト管理システムからのブロードキャスト信号又はブロードキャストに関する情報を受信することができる。1つの例示的な実施例において、前記通信アセンブリ1916は、さらに、近距離通信を促進するために近距離無線通信(NFC)モジュールを含んでもよい。NFCモジュールは、例えば、無線周波数識別(RFID:Radio Frequency IDentification)技術、赤外線データ協会(IrDA:Infrared Data Association)技術、超広帯域無線(UWB:Ultra Wide Band)技術、ブルートゥース(BT:Bluetooth)(登録商標)技術及び他の技術により実現されてもよい。
例示的な実施例において、装置1900は、上述の方法を実行するために、1つ又は複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、数字信号処理デバイス(DSPD:Digital Signal Processing Device)、プログラム可能論理デバイス(PLD:Programmable Logic Device)、書替え可能ゲートアレイ(FPGA:Field−Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他の電子機器により実現されてもよい。
例示的な実施例において、さらに、装置1900のプロセッサ1920により実行されることで上述の方法を実現可能なインストラクションが記憶され、且つコンピュータに読み取り可能な不揮発性の記録媒体、例えばインストラクションが記憶されているメモリ1904を提供する。前記コンピュータに読み取り可能な不揮発性の記録媒体は、例えばROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク及び光データメモリ等であってもよい。
当業者であれば、本願明細書を参照し、本願明細書に開示された発明を実施することにより、本発明の他の実施形態を容易に取得することができる。本願は、本発明の一般的な原理を遵守し且つ本願明細書に開示されていない当該技術分野の公知知識又は通常の技術手段を含む本発明に対する任意の変形、用途又は適応的な変更を含むことを趣旨とする。明細書及び実施例は、単に例示的なものに過ぎず、本発明の本当の範囲及び趣旨は添付される特許請求の範囲により示される。
なお、本発明は、上述の説明及び図面により示された特定の構成に限定されず、その範囲を逸脱しない範囲で、様々な補正及び変更を実施してもよい。本発明の範囲は、添付される特許請求の範囲のみにより限定される。
本発明は、出願番号がCN201510490373.6であって、出願日が2015年08月11日である中国特許出願に基づき優先権を主張し、当該中国特許出願のすべての内容を本願に援用する。

Claims (13)

  1. オブジェクトオーディオ録音方法であって、
    複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するステップと、
    前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップと、
    各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップと
    を含み、サウンド採集動作を実行するプロセスにおいて、複数の前記マイクロフォンの相対的な位置状況をそのまま保持し、
    前記各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップは、
    各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップと、
    前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップと、
    事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するステップと
    を含み、
    前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップは、
    所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするステップを含み、
    現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、
    現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することを特徴とする方法。
  2. 前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップは、
    各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップ
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップは、
    前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するステップと、
    前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するステップと
    を含むことを特徴とする請求項1に記載の方法。
  4. 前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するステップは、
    各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するステップと、
    前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするステップと
    を含むことを特徴とする請求項3に記載の方法。
  5. 前記各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップは、
    所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するステップと、
    サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するステップと
    を含むことを特徴とする請求項1から請求項4のいずれかに記載の方法。
  6. オブジェクトオーディオ録音装置であって、
    複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するための採集ユニットと、
    前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するための処理ユニットと、
    各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するための組合せユニットと
    を含み、サウンド採集動作を実行するプロセスにおいて、複数の前記マイクロフォンの相対的な位置状況をそのまま保持し、
    前記組合せユニットは、
    各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するための信号組合せサブユニットと、
    前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するための位置組合せサブユニットと、
    事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するための第1継ぎ合せサブユニットと
    を含み、
    前記位置組合せサブユニットは、
    所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするための位置サンプリングモジュールと、
    現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録するための第2位置記録モジュールと
    を含むことを特徴とする装置。
  7. 前記処理ユニットは、
    各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数と各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するための処理サブユニット
    を含むことを特徴とする請求項に記載の装置。
  8. 前記処理ユニットは、
    前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するための識別サブユニットと、
    前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するための抽出サブユニットと
    を含むことを特徴とする請求項に記載の装置。
  9. 前記抽出サブユニットは、
    各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するためのモデル構築モジュールと、
    前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするための抽出モジュールと
    を含むことを特徴とする請求項に記載の装置。
  10. 前記信号組合せサブユニットは、
    所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するための信号サンプリングモジュールと、
    サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するための信号配列モジュールと
    を含むことを特徴とする請求項6から請求項9のいずれかに記載の装置。
  11. プロセッサと、
    前記プロセッサにより実行可能なインストラクションを記憶するためのメモリと
    を備え、
    前記プロセッサは、
    複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得し、
    前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出し、
    各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得する
    ように構成され、サウンド採集動作を実行するプロセスにおいて、複数の前記マイクロフォンの相対的な位置状況をそのまま保持し、
    前記各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得することは、
    各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得することと、
    前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得することと、
    事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得することと
    を含み、
    前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得することは、
    所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングすることを含み、
    現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、
    現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することを特徴とする電子機器。
  12. プロセッサに実行されることにより、請求項1から請求項のいずれか1項に記載の方法を実現することを特徴とするプログラム。
  13. 請求項12に記載のプログラムが記録された記録媒体。
JP2017533678A 2015-08-11 2015-12-25 オブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体 Active JP6430017B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510490373.6A CN105070304B (zh) 2015-08-11 2015-08-11 实现对象音频录音的方法及装置、电子设备
CN201510490373.6 2015-08-11
PCT/CN2015/098847 WO2017024721A1 (zh) 2015-08-11 2015-12-25 实现对象音频录音的方法及装置、电子设备

Publications (2)

Publication Number Publication Date
JP2017531213A JP2017531213A (ja) 2017-10-19
JP6430017B2 true JP6430017B2 (ja) 2018-11-28

Family

ID=54499657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017533678A Active JP6430017B2 (ja) 2015-08-11 2015-12-25 オブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体

Country Status (8)

Country Link
US (1) US9966084B2 (ja)
EP (1) EP3139640A3 (ja)
JP (1) JP6430017B2 (ja)
KR (1) KR101770295B1 (ja)
CN (1) CN105070304B (ja)
MX (1) MX364461B (ja)
RU (1) RU2630187C1 (ja)
WO (1) WO2017024721A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070304B (zh) 2015-08-11 2018-09-04 小米科技有限责任公司 实现对象音频录音的方法及装置、电子设备
CN107154266B (zh) * 2016-03-04 2021-04-30 中兴通讯股份有限公司 一种实现音频录制的方法及终端
CN106200945B (zh) * 2016-06-24 2021-10-19 广州大学 内容重放装置、具有该重放装置的处理系统及方法
CN106128472A (zh) * 2016-07-12 2016-11-16 乐视控股(北京)有限公司 演唱者声音的处理方法及装置
CN106356067A (zh) * 2016-08-25 2017-01-25 乐视控股(北京)有限公司 录音方法、装置及终端
CN106448687B (zh) * 2016-09-19 2019-10-18 中科超影(北京)传媒科技有限公司 音频制作及解码的方法和装置
CN107293305A (zh) * 2017-06-21 2017-10-24 惠州Tcl移动通信有限公司 一种基于盲源分离算法改善录音质量的方法及其装置
CN107863106B (zh) * 2017-12-12 2021-07-13 长沙联远电子科技有限公司 语音识别控制方法及装置
CN110875053A (zh) 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语音处理的方法、装置、系统、设备和介质
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
CN109979447A (zh) * 2019-01-25 2019-07-05 广州富港万嘉智能科技有限公司 一种基于位置的点餐控制方法、电子设备及存储介质
CN110459239A (zh) * 2019-03-19 2019-11-15 深圳壹秘科技有限公司 基于声音数据的角色分析方法、装置和计算机可读存储介质
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN113395623B (zh) * 2020-03-13 2022-10-04 华为技术有限公司 一种真无线耳机的录音方法及录音系统
CN111505583B (zh) * 2020-05-07 2022-07-01 北京百度网讯科技有限公司 声源定位方法、装置、设备和可读存储介质
JP2022017880A (ja) * 2020-07-14 2022-01-26 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
CN111899753A (zh) * 2020-07-20 2020-11-06 天域全感音科技有限公司 一种音频分离装置、计算机设备及方法
CN112530411B (zh) * 2020-12-15 2021-07-20 北京快鱼电子股份公司 一种实时分角色转录方法、设备和系统
CN112951199B (zh) * 2021-01-22 2024-02-06 杭州网易云音乐科技有限公司 音频数据生成方法及装置、数据集构建方法、介质、设备
CN113674751A (zh) * 2021-07-09 2021-11-19 北京字跳网络技术有限公司 音频处理方法、装置、电子设备和存储介质
CN114220454B (zh) * 2022-01-25 2022-12-09 北京荣耀终端有限公司 一种音频降噪方法、介质和电子设备
CN114615529A (zh) * 2022-02-25 2022-06-10 海信视像科技股份有限公司 显示设备、外接设备及音频播放方法
CN117355894A (zh) * 2022-05-05 2024-01-05 北京小米移动软件有限公司 对象音频数据的生成方法、装置、电子设备和存储介质
CN115811574B (zh) * 2023-02-03 2023-06-16 合肥炬芯智能科技有限公司 一种声音信号处理方法、装置、主设备和分体式会议系统

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4703505A (en) 1983-08-24 1987-10-27 Harris Corporation Speech data encoding scheme
JP3195920B2 (ja) * 1999-06-11 2001-08-06 科学技術振興事業団 音源同定・分離装置及びその方法
US8249426B2 (en) * 2004-12-13 2012-08-21 Muvee Technologies Pte Ltd Method of automatically editing media recordings
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
JP2007089058A (ja) * 2005-09-26 2007-04-05 Yamaha Corp マイクアレイ制御装置
US8364497B2 (en) * 2006-09-29 2013-01-29 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
BRPI0715312B1 (pt) * 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
JP5338038B2 (ja) * 2007-05-23 2013-11-13 ヤマハ株式会社 音場補正装置およびカラオケ装置
CA2716817C (en) * 2008-03-03 2014-04-22 Lg Electronics Inc. Method and apparatus for processing audio signal
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
EP2194527A3 (en) * 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
US8620008B2 (en) * 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101166612B1 (ko) 2009-08-19 2012-07-18 엘지전자 주식회사 단말기에서의 음원 처리 방법 및 이를 적용한 단말기
US9094645B2 (en) * 2009-07-17 2015-07-28 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
JP5635097B2 (ja) * 2009-08-14 2014-12-03 ディーティーエス・エルエルシーDts Llc オーディオオブジェクトを適応的にストリーミングするためのシステム
US10037357B1 (en) * 2010-08-17 2018-07-31 Google Llc Selecting between global and location-specific search results
CA3157717A1 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
WO2014012583A1 (en) * 2012-07-18 2014-01-23 Huawei Technologies Co., Ltd. Portable electronic device with directional microphones for stereo recording
CN104981866B (zh) * 2013-01-04 2018-09-28 华为技术有限公司 用于确定立体声信号的方法
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
CN104581512A (zh) * 2014-11-21 2015-04-29 广东欧珀移动通信有限公司 一种立体声录制方法及装置
CN105070304B (zh) * 2015-08-11 2018-09-04 小米科技有限责任公司 实现对象音频录音的方法及装置、电子设备

Also Published As

Publication number Publication date
US9966084B2 (en) 2018-05-08
MX364461B (es) 2019-04-26
KR101770295B1 (ko) 2017-09-05
EP3139640A2 (en) 2017-03-08
MX2016005224A (es) 2017-04-27
EP3139640A3 (en) 2017-04-05
RU2630187C1 (ru) 2017-09-05
US20170047076A1 (en) 2017-02-16
WO2017024721A1 (zh) 2017-02-16
CN105070304A (zh) 2015-11-18
CN105070304B (zh) 2018-09-04
JP2017531213A (ja) 2017-10-19
KR20170029402A (ko) 2017-03-15

Similar Documents

Publication Publication Date Title
JP6430017B2 (ja) オブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体
US9641585B2 (en) Automated video editing based on activity in video conference
CN107172497B (zh) 直播方法、装置及系统
KR102538775B1 (ko) 오디오 재생 방법 및 오디오 재생 장치, 전자 기기 및 저장 매체
CN105163241A (zh) 音频播放方法及装置、电子设备
WO2015191788A1 (en) Intelligent device connection for wireless media in an ad hoc acoustic network
US20160155455A1 (en) A shared audio scene apparatus
CN106790940B (zh) 录音方法、录音播放方法、装置及终端
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
CN113890932A (zh) 一种音频控制方法、系统及电子设备
US20130106997A1 (en) Apparatus and method for generating three-dimension data in portable terminal
WO2013024704A1 (ja) 画像処理装置および方法、並びにプログラム
US9756421B2 (en) Audio refocusing methods and electronic devices utilizing the same
CN104599691B (zh) 音频播放方法及装置
CN111787464B (zh) 一种信息处理方法、装置、电子设备和存储介质
JP6364130B2 (ja) レコーディング方法、装置、プログラム及び記録媒体
WO2016045446A1 (zh) 语音提醒信息的生成、语音提醒方法及装置
CN114594892A (zh) 远程交互方法、远程交互设备以及计算机存储介质
WO2023212879A1 (zh) 对象音频数据的生成方法、装置、电子设备和存储介质
CN109327662A (zh) 视频拼接方法及装置
CN109920437A (zh) 干扰去除的方法及装置
WO2022002218A1 (zh) 一种音频控制方法、系统及电子设备
CN113709652A (zh) 音频播放控制方法和电子设备
CN117636928A (zh) 一种拾音装置及相关音频增强方法
CN113473170A (zh) 直播音频处理方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171219

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180912

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181030

R150 Certificate of patent or registration of utility model

Ref document number: 6430017

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250