JP6430017B2

JP6430017B2 - オブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体

Info

Publication number: JP6430017B2
Application number: JP2017533678A
Authority: JP
Inventors: ルンユーシー; チアフイエン; フイドゥ
Original assignee: シャオミ・インコーポレイテッド
Priority date: 2015-08-11
Filing date: 2015-12-25
Publication date: 2018-11-28
Anticipated expiration: 2035-12-25
Also published as: US9966084B2; MX364461B; KR101770295B1; EP3139640A2; MX2016005224A; EP3139640A3; RU2630187C1; US20170047076A1; WO2017024721A1; CN105070304A; CN105070304B; JP2017531213A; KR20170029402A

Description

本発明は、録音の技術分野に関し、特にオブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体に関する。

ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ，動画専門家集団）の次世代オーディオコーデック規格であるＭＰＥＧ−Ｈ３ＤＡｕｄｉｏは、２０１５年２月から正式にＩＳＯ／ＩＥＣ２３００８−３国際規格となり、この規格の枠組みにおいて新たなサウンドフォーマットであるオブジェクトオーディオ（ＯｂｊｅｃｔＡｕｄｉｏ）を利用することで、音の方位を標すことができ、受聴者が用いたのがイヤホンであるか、それとも音響装置であるかにかかわらず、また、音響装置が幾つのスピーカーを有しているのかにもよらず、受聴者は特定方位から伝送されてくる音を聞くことができるようになる。

本発明は、従来技術に存在する問題点を解決するためのオブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体を提供する。

本発明の実施例に係る第１態様によれば、
オブジェクトオーディオ録音方法であって、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するステップと、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップと、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップと
を含む方法を提供する。

前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップは、
各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップを含んでもよい。

前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップは、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するステップと、
前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するステップと
を含んでもよい。

前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するステップは、
各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するステップと、
前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするステップと
を含んでもよい。

前記各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップと、
事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するステップと
を含んでもよい。

前記各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップは、
事前設定パラメータを含み、且つ各フレームのオーディオデータの時間長を含むヘッダファイル情報を生成して、所定のオーディオ処理装置に送信するステップと、
前記各フレームのオーディオデータの時間長に合致する各フレームのオブジェクトオーディオフォーマットのオーディオデータを生成して、各フレームのオブジェクトオーディオフォーマットのオーディオデータを前記所定のオーディオ処理装置に順に送信するステップと
を含んでもよく、
前記各フレームのオーディオデータの時間長に合致する各フレームのオブジェクトオーディオフォーマットのオーディオデータを生成するステップは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップと、
前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、各フレームのオブジェクトオーディオフォーマットのオーディオデータを取得するステップと
を含んでもよい。

前記各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するステップと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するステップと
を含んでもよい。

前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応する位置情報をそれぞれサンプリングし、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することにより、組合せサンプリング位置情報を取得するステップと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング位置情報を順に配列することにより、前記オブジェクトオーディオ補助データを取得するステップと
を含んでもよい。

前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするステップを含んでもよく、
ここで、
現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、
現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録する。

本発明の実施例に係る第２態様によれば、
オブジェクトオーディオ録音装置であって、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するための採集ユニットと、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するための処理ユニットと、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するための組合せユニットと
を含む装置を提供する。

前記処理ユニットは、
各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数と各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するための処理サブユニットを含んでもよい。

前記処理ユニットは、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するための識別サブユニットと、
前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するための抽出サブユニットと
を含んでもよい。

前記抽出サブユニットは、
各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するためのモデル構築モジュールと、
前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするための抽出モジュールと
を含んでもよい。

前記組合せユニットは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するための信号組合せサブユニットと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するための位置組合せサブユニットと、
事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するための第１継ぎ合せサブユニットと
を含んでもよい。

前記組合せユニットは、
事前設定パラメータを含み、且つ信号組合せサブユニット、位置組合せサブユニット及び継ぎ合せサブユニットが前記各フレームのオーディオデータの時間長に合致する各フレームのオブジェクトオーディオフォーマットのオーディオデータを生成できるように、各フレームのオーディオデータの時間長を含むヘッダファイル情報を生成して、所定のオーディオ処理装置に送信するためのヘッダファイル送信サブユニットと、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するための信号組合せサブユニットと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するための位置組合せサブユニットと、
前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、各フレームのオブジェクトオーディオフォーマットのオーディオデータを取得するための第２継ぎ合せサブユニットと、
各フレームのオブジェクトオーディオフォーマットのオーディオデータを前記所定のオーディオ処理装置に順に送信するためのオーディオデータ送信サブユニットと
を含んでもよい。

前記信号組合せサブユニットは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するための信号サンプリングモジュールと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するための信号配列モジュールと
を含んでもよい。

前記位置組合せサブユニットは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応する位置情報をそれぞれサンプリングし、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することにより、組合せサンプリング位置情報を取得するための第１位置記録モジュールと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング位置情報を順に配列することにより、前記オブジェクトオーディオ補助データを取得するための位置配列モジュールと
を含んでもよい。

前記位置組合せサブユニットは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするための位置サンプリングモジュールと、
現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録するための第２位置記録モジュールと
を含んでもよい。

本発明の実施例に係る第３態様によれば、
プロセッサと、
前記プロセッサにより実行可能なインストラクションを記憶するためのメモリと
を備え、
前記プロセッサは、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得し、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出し、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得する
ように構成される電子機器を提供する。
本発明の実施例に係る第４様態によれば、
プロセッサに実行されることにより、第１態様による前記方法を実現するプログラムを提供する。
本発明の実施例に係る第５態様によれば、
第４態様による前記プログラムが記録されている記録媒体を提供する。

本発明の実施例によれば、以下のような有益な効果が得られる。

上述の実施例によれば、本発明では、複数のマイクロフォンを設置して同時にサウンド採集を実行することにより、取得される混合音信号に各マイクロフォンにより採集されたサウンド信号が含まれるようにし、また、各マイクロフォンそれぞれの設置位置情報を結合させることで、音源ごとに、対応するオブジェクトサウンド信号を識別及び抽出することができる。それゆえ、各音源のサウンド信号を個別に採集する必要がないので、ハードウェア装置に対する依存性と要求が低下し、オブジェクトオーディオフォーマットのオーディオデータを直接取得することができる。

なお、上述の一般的な記載及び後述の詳細な記載は、単なる例示的な解釈であり、本発明に対する限定として見なしてはいけない。

以下の図面は、明細書に組み込まれて本願明細書の一部分となり、本願発明に係る実施例を示し、且つ明細書とともに、本発明の原理の説明に用いられる。
図１は、従来技術に係るオブジェクトオーディオを取得するための方法の模式図である。図２は、従来技術に係るオブジェクトオーディオを取得するための他の方法の模式図である。図３は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音方法のフローチャートである。図４は、本発明の例示的な一実施例に係る他のオブジェクトオーディオ録音方法のフローチャートである。図５は、本発明の例示的な一実施例に係る音源信号を採集するための方法の模式図である。図６は、本発明の例示的な一実施例に係る他のオブジェクトオーディオ録音方法のフローチャートである。図７は、本発明の例示的な一実施例に係るオブジェクトオーディオのフレーム構造の模式図である。図８は、本発明の例示的な一実施例に係るオブジェクトオーディオの他のフレーム構造の模式図である。図９は、本発明の例示的な一実施例に係るオブジェクトオーディオの他のフレーム構造の模式図である。図１０は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１１は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１２は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１３は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１４は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１５は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１６は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１７は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１８は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。図１９は、本発明の例示的な一実施例に係るオブジェクトオーディオ録音装置の構成の模式図である。

以下、図面に示されている例示的な実施例を更に詳しく説明する。以下の図面に関する説明において、別途の説明がない限り、異なる図面中の同一の符号は、同一又は類似する要素を示すこととする。以下の例示的な実施例において説明する複数の実施形態は、本発明に係る全ての実施形態を代表するわけではない。逆に、それらは、添付された特許請求の範囲に記載の本発明の一部の態様に係る装置及び方法の例に過ぎない。

従来技術においては、オブジェクトオーディオ（ＯｂｊｅｃｔＡｕｄｉｏ）を直接録音して取得することができない。理解の便宜上、以下、従来技術に係る典型的な処理方式について紹介する。

図１は、従来技術に係るオブジェクトオーディオを取得するための方法の模式図である。図１に示すように、当該処理プロセスにおいて、例えば、図１中の第１サウンドチャンネル（ｓｏｕｎｄｃｈａｎｎｅｌ）オーディオ、第２サウンドチャンネルオーディオ、第３サウンドチャンネルオーディオなどのような複数のモノラルオーディオ（ｍｏｎａｕｒａｌａｕｄｉｏ）を予め用意しておく必要があり、それと同時に、例えば、第１サウンドチャンネルオーディオに対応する第１位置、第２サウンドチャンネルオーディオに対応する第２位置、第３サウンドチャンネルオーディオに対応する第３位置などのような、各モノラルオーディオに対応する位置情報を予め用意しておく必要もある。最後に、オブジェクトオーディオ生成デバイスにより、各チャンネルのオーディオをそれに対応する位置と組合せてオブジェクトオーディオを取得する。

しかしながら、図１に示す処理方式には、以下のような問題点がある。
１）予めオーディオデータと位置情報を用意する必要があるため、オブジェクトオーディオを直接録音して取得することができない。
２）それと同時に、各チャンネルのオーディオの位置は個別に用意されるため、通常各チャンネルのオーディオの真の位置を確実に反映することができない。

図２は、従来技術に係るオブジェクトオーディオを取得するための他の方法の模式図である。図２に示すように、例えば、第１音源が第１のＭＩＣに対応し、第２音源が第２のＭＩＣに対応し、第３音源が第３のＭＩＣに対応するなどのように、音源ごとに対応するＭＩＣ（マイクロフォン）を用意して、各ＭＩＣが自身と対応する音源のみに対しサウンドを採集することにより、対応する第１オブジェクトサウンド信号、第２オブジェクトサウンド信号、第３オブジェクトサウンド信号などのそれぞれを取得する。それと同時に、各音源の位置情報を予め用意しておく必要がある。最後に、オブジェクトオーディオ生成デバイスにより、各音源に対応するオブジェクトサウンド信号を位置情報と組合せてオブジェクトオーディオを取得する。

しかしながら、図２に示す処理方式には、以下の問題点がある。
１）各音源ごとにＭＩＣを個別に用意する必要があるため、ハードウェアコストが過度に高くなってしまう。
２）ＭＩＣの場合、音源に近付けて設置し且つ音源に追従して移動しなければならないため、実現が非常に困難であり、録音器材のコストが急増する。
３）複数のＭＩＣによりそれぞれ採集したオブジェクトサウンド信号同士を同期させる必要があるが、音源の数が多く、且つＭＩＣが音源に近付けて設置されてオブジェクトオーディオ生成デバイスから離れている場合、又は無線ＭＩＣを利用する場合、実現が非常に困難である。
４）音源の位置情報の場合、別途個別に取得され、且つその後にオブジェクトオーディオに添付されるため、音源の数が多く、その移動が不規則であるなどの要素の影響で、最後に取得されたオブジェクトオーディオが真の音源位置を忠実に表すことが難しい。

そこで、本発明では、オブジェクトオーディオの録音を実現するための技術を提供することで、従来技術に存在する上述のような技術課題を解決する。

図３は、例示的な一実施例に係るオブジェクトオーディオ録音方法のフローチャートである。当該方法は、録音装置に用いられ、図３に示すように以下のステップを含んでもよい。

ステップ３０２において、複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得する。

ステップ３０４において、前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出する。

例示的な一実施例として、各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差などの特徴情報に基づき、混合音信号から直接音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出してもよい。

例示的な他の一実施例として、まずは、上述のような振幅差と位相差などの特徴情報により、混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、混合音信号から音源の数、各音源の位置情報を識別し、その後、上述のような振幅差と位相差などの特徴情報により、混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、混合音信号から各音源に対応するオブジェクトサウンド信号を抽出してもよい。

ステップ３０６において、各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得する。

本実施例において、オブジェクトオーディオ（ＯｂｊｅｃｔＡｕｄｉｏ）とは、一般的に、オーディオオブジェクト（ＡｕｄｉｏＯｂｊｅｃｔ）を表すための各種のサウンドフォーマットを言う。ここで、位置情報を有する点音源、または中心位置が大体判断できる面音源の場合、オーディオオブジェクト（ＡｕｄｉｏＯｂｊｅｃｔ）とすることができる。

本実施例においては、オブジェクトオーディオは、音源の位置とオブジェクトサウンド信号との二つの部分を含み、そのうち、オブジェクトサウンド信号自身をモノラルオーディオ信号と見なすことができる。オブジェクトサウンド信号の形式は、ＰＣＭ（Ｐｕｌｓｅ−ｃｏｄｅｍｏｄｕｌａｔｉｏｎ）、ＤＳＤ（ＤｉｒｅｃｔＳｔｒｅａｍＤｉｇｉｔａｌ）などの非圧縮フォーマットであってもよく、ＭＰ３（ＭＰＥＧ−１ｏｒＭＰＥＧ−２ＡｕｄｉｏＬａｙｅｒＩＩＩ）、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）、ＤｏｌｂｙＤｉｇｉｔａｌなどの圧縮フォーマットであってもよいが、本発明ではこれらのみに限定されない。

上述の実施例から分かるように、本発明では、複数のマイクロフォンを設置して同時にサウンド採集を実行することにより、取得される混合音信号に各マイクロフォンにより採集されたサウンド信号が含まれるようにし、また、各マイクロフォンそれぞれの設置位置情報を結合させることで、音源ごとに、対応するオブジェクトサウンド信号を識別及び抽出する。それゆえ、各音源のサウンド信号を個別に採集する必要がないので、ハードウェア装置に対する依存性と要求が低下し、オブジェクトオーディオフォーマットのオーディオデータを直接取得することができる。

図４は、本発明の例示的な一実施例に係る他のオブジェクトオーディオ録音方法のフローチャートである。当該方法は、図４に示すように以下のステップを含んでもよい。

ステップ４０２において、複数のＭＩＣにより同時にサウンド採集を実行して混合音信号を取得する。

本実施例において、マイクロフォンの数が２個である場合、同一平面内にある複数の音源に対してオブジェクトオーディオの録音動作を行うことができ、マイクロフォンの数が３個又は３個以上である場合、任意の三次元空間内にある複数の音源に対してオブジェクトオーディオの録音動作を行うことができる。但し、同様の音源設定である場合、マイクロフォンの数が多ければ多いほど、音源の数と位置情報を識別して、各音源のオブジェクトサウンド信号を抽出することに有利である。

ステップ４０４において、各ＭＩＣの位置状況を取得する。

本実施例において、図５に示すように、各ＭＩＣがオブジェクトオーディオの録音を実行する間に、位置状況をそのまま保持し、音源の位置情報が変化したとしても、ＭＩＣ自身の位置状況を変える必要はない。それは、音源の位置変化が採集される混合音信号中に具現されるので、後続ステップにより識別することができるからである。また、ＭＩＣと音源とは一対一に対応するわけではなく、音源の数の多少に関わらず、少なくとも二つのＭＩＣによりサウンド信号を採集することにより、対応する混合音信号を取得することができる。

従って、本実施例は、図１と図２に示す実施例と比較して、正確且つ確実に各音源の実際の位置を識別することができるだけでなく、数多いＭＩＣを必要せず、ＭＩＣが音源に追従して同期して移動する必要もないため、ハードウェアコスト及びシステムの複雑さを低減し、オブジェクトオーディオの品質を向上することに有利である。

本実施例において、ＭＩＣの位置状況にはＭＩＣの設置位置情報が含まれる。座標方式を採用して各ＭＩＣの位置状況を記録してもよい。例えば、任意の位置（例えば、受聴者（Ａｕｄｉｅｎｃｅ）の位置）を原点として空間座標系を構築してもよい。当該空間座標系は、直角座標系（Ｏ−ｘｙｚ）、または球面座標系（Ｏ−θγｒ）であってもよく、これらの二つの座標系の間の変換関係は以下のとおりである。

但し、ｘ、ｙ、ｚのそれぞれは、直角座標系におけるＭＩＣ又は音源（ｏｂｊｅｃｔ）のｘ軸（前後方向）、ｙ軸（左右方向）及びｚ軸（上下方向）上の位置座標を示す。θ、γ、ｒのそれぞれは、球面座標系におけるＭＩＣ又は音源の水平方向の角度（ＭＩＣ又は音源と原点とを通る直線の水平面における投影とｘ軸とがなす角度）、垂直方向の角度（ＭＩＣ又は音源と原点とを通る直線と水平面とがなす角度）、ＭＩＣ又は音源の原点からの直線距離を示す。

当然のことながら、各ＭＩＣの位置状況を個別に記録してもよく、又は、各ＭＩＣ同士間の相対位置状況を記録することにより、各ＭＩＣの個別の位置状況を推定してもよい。

ステップ４０６において、各ＭＩＣの位置状況に基づいて、混合音信号から音源を識別し、音源の数及び各音源の位置情報を取得する。

例示的な一実施例として、各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、音源の数と各音源の位置情報を識別してもよい。当該実施例において、各音源の発したサウンド信号が各マイクロフォンに達する時間差をもって、該当する位相差を表すことができる。

実際には、従来技術における振幅差と位相差に基づく音源識別（音源が存在するか否かの判断）及び音源の数、位置情報の識別に関するすべての技術は、いずれも当該ステップ４０６の処理プロセスに適用される。例えば、ＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｆｉｃａｔｉｏｎ、多重信号分類）法、ビームフォーミング（Ｂｅａｍｆｏｒｍｉｎｇ）法、ＣＳＰ（ｃｒｏｓｓｐｏｗｅｒ−ｓｐｅｃｔｒｕｍｐｈａｓｅ、白色化相互相関）法などが挙げられ、枚挙に遑がない。

無論、従来技術には、振幅差と位相差に基づいて音源の数、位置情報を識別する他のアルゴリズムがさらにあるとともに、その他の原理に基づいて音源の数、位置情報を識別するアルゴリズムもあるが、これらのすべては本発明の実施例に適用され、本発明ではこれらに対し限定しない。

ステップ４０８において、各ＭＩＣの位置状況、及び音源の数と各音源の位置情報に基づき、混合音信号から各音源に対応するオブジェクトサウンド信号を抽出する。

例示的な一実施例として、各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、各音源に対応するオブジェクトサウンド信号を抽出してもよい。例えば、従来技術に係るビームフォーミング（Ｂｅａｍｆｏｒｍｉｎｇ）法、ＧＨＤＳＳ（ＧｅｏｍｅｔｒｉｃＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法などにより実現しもよい。

例示的な他の一実施例として、各音源の発したサウンド信号の所定のディメンション（ｄｉｍｅｎｓｉｏｎ）において形成される特徴量に基づき、対応する統計モデルを構築し、前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号としてもよい。但し、統計モデルは、例えば、スペクトル差異、音量差、位相差、基本周波数差異及び基本周波数エネルギー差異、共振ピーク値差異などのような、取得可能なディメンションに係るすべての特徴量を採用してもよい。当該実施例の原理は、統計モデルを用いて、あるサウンド信号がある特定の音場空間（即ち、推定された音源位置）に属するか否かを識別することである。例えば、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、ガウシアン混合モデル）などのアルゴリズムにより実現してもよい。

無論、従来技術には、振幅差と位相差、又は統計モデルに基づいて、オブジェクトサウンド信号を抽出する他のアルゴリズムがさらにあるとともに、その他の原理に基づいてオブジェクトサウンド信号を抽出するアルゴリズムもあるが、これらのすべては本発明の実施例に適用され、本発明ではこれらに対し限定しない。

また、図４では、ステップ４０６とステップ４０８を個別に説明しているが、実際に、一部の場合には、確かに、ステップ４０６とステップ４０８の処理プロセスを個別に実現する必要があるが、他の一部の場合には、例えば、上述のビームフォーミング法などの原理に基づいて、音源の数と位置情報の取得、及び各音源のオブジェクトサウンド信号の抽出を同時に実現することができるので、二つのステップに分けて処理を個別に行う必要はない。

ステップ４１０において、各音源のオブジェクトサウンド信号と位置情報とを組合せてオブジェクトオーディオを取得する。

以下、ステップ４１０の組合せ動作について、図６に参照して詳しく説明する。図６は、本発明の例示的な一実施例に係る他のオブジェクトオーディオ録音方法のフローチャートである。当該方法は、図６に示すように以下のステップを含んでもよい。

ステップ６０２において、音源の数、各音源の位置情報、及び各音源のオブジェクトサウンド信号を取得する。

ステップ６０４において、ユーザが選定した保存モードを確認し、ファイルの保存モードがＦｉｌｅＰａｃｋｉｎｇＭｏｄｅであれば、ステップ６０６に進み、ＬｏｗＤｅｌａｙＭｏｄｅ（低遅延モード）であれば、ステップ６１６に進む。

１．ＦｉｌｅＰａｃｋｉｎｇＭｏｄｅステップ６０６において、ヘッダファイルを生成する。

本実施例においては、当該ヘッダファイルには、当該オブジェクトオーディオを記述するための事前設定パラメータ、例えばＩＤ情報、バージョン番号などが含まれる。例示的な一実施例として、当該ヘッダファイルのフォーマット及び内容は表１に示すとおりである。

ステップ６０８において、各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得する。

本実施例において、オブジェクトサウンド信号を組合せるプロセスは、
１）所定のサンプリング周期に基づき、サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより組合せサンプリング信号を取得するステップと、
２）サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するステップと
を含んでもよい。

例えば、図７に示すように、例示的な一実施例に係るオブジェクトオーディオデータ構造において、ｔ０、ｔ１などは所定のサンプリング周期に対応する各サンプリング時点である。サンプリング時点ｔ０を例にする場合、Ａ、Ｂ、Ｃ及びＤの４つの音源が存在し、且つ各音源の配列順がＡ→Ｂ→Ｃ→Ｄの順になっているとすれば、当該順番にしたがって、４つの音源に対し順にサンプリングしてサンプリング信号Ａ０、サンプリング信号Ｂ０、サンプリング信号Ｃ０、サンプリング信号Ｄ０を取得して、対応する組合せサンプリング信号０を生成する。同様に、各サンプリング時点において同様の方式によりサンプリングすることで、各サンプリング時点ｔ０、ｔ１などのそれぞれに対応する組合せサンプリング信号０、組合せサンプリング信号１などを取得することができる。最後に、各組合せサンプリング信号に対応するサンプリング順番にしたがって配列することで、マルチオブジェクトオーディオデータを取得することができる。

ステップ６１０において、各音源の配列順にしたがって各音源の位置に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得する。

例示的な一実施形態として、オブジェクトサウンド信号を組合せるプロセスは、
１）所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応する位置情報をそれぞれサンプリングし、取得された各サンプリング位置情報をそれに対応する音源情報、サンプリング時点情報に関連付けて記録することにより、組合せサンプリング位置情報を取得するステップと、
２）サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング位置情報を順に配列することにより、前記オブジェクトオーディオ補助データを取得するステップと
を含んでもよい。

本実施形態におけるオブジェクトオーディオ補助データを生成するプロセスは、上述のマルチオブジェクトオーディオデータを生成するプロセスと類似している。再び図７を例として、サンプリング時点ｔ０において、Ａ、Ｂ、Ｃ及びＤの４つの音源が存在し、且つ各音源の配列順がＡ→Ｂ→Ｃ→Ｄの順になっているとすれば、当該順番にしたがって、４つの音源の位置情報に対し順にサンプリングして、サンプリング位置情報ａ０、サンプリング位置情報ｂ０、サンプリング位置情報ｃ０、サンプリング位置情報ｄ０を取得して、対応する組合せサンプリング位置情報０を生成する。同様に、各サンプリング時点において同様の方式によりサンプリングすることで、各サンプリング時点ｔ０、ｔ１などのそれぞれに対応する組合せサンプリング位置情報０、組合せサンプリング位置情報１などを取得することができる。最後に、各組合せサンプリング位置情報に対応するサンプリング順番にしたがって配列することで、オブジェクトオーディオ補助データを取得することができる。

当該実施例において、すべての音源のすべてのサンプリング時点での位置情報が、オブジェクトオーディオ補助データに記録されている。しかしながら、音源が移動し続けるわけではないため、音源位置情報に対し差分記録を行うことにより、オブジェクトオーディオ補助データのデータ量を削減することができる。当該差分記録の方式については、以下の実施形態を用いて説明する。

例示的な他の一実施形態として、オブジェクトサウンド信号を組合せるプロセスは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするステップを含んでもよい。

但し、
現在のサンプリングポイント（ｓａｍｐｌｉｎｇｐｏｉｎｔｓ）が最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、
現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違がある場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録する。

例えば、図８に示すように、Ａ、Ｂ、Ｃ及びＤの４つの音源が存在し、且つ各音源の配列順がＡ→Ｂ→Ｃ→Ｄの順になっているとすれば、サンプリング時点ｔ０において、サンプリング時点ｔ０が最初のサンプリング時点であるため、図７に示す実施形態にしたがって、４つの音源の位置情報を順にサンプリングしてサンプリング位置情報ａ０、サンプリング位置情報ｂ０、サンプリング位置情報ｃ０及びサンプリング位置情報ｄ０から構成される組合せサンプリング位置情報０を取得する。

ｔ０以外の他のサンプリング時点、例えばサンプリング時点ｔ１においては、４つの音源の位置情報を順にサンプリングして対応するサンプリング位置情報ａ１、サンプリング位置情報ｂ１、サンプリング位置情報ｃ１及びサンプリング位置情報ｄ１を取得することができるが、音源Ａに対応するサンプリング位置情報ａ１が、直前のサンプリング位置情報ａ０と同様であれば、当該サンプリング位置情報ａ１に対して記録する必要はない。それ故に、サンプリング位置情報ａ１がサンプリング位置情報ａ０と同様であり、サンプリング位置情報ｄ１がサンプリング位置情報ｄ０と同様であるが、サンプリング位置情報ｂ１がサンプリング位置情報ｂ０と異なり、サンプリング位置情報ｃ１がサンプリング位置情報ｃ０と異なるとすれば、最終的に、サンプリング時点ｔ１に対応する組合せサンプリング位置情報１には、サンプリング位置情報ｂ１とサンプリング位置情報ｃ１のみ含まれるようになる。

ステップ６１２において、ヘッダファイル、マルチオブジェクトオーディオデータ及びオブジェクトオーディオ補助データを順に継ぎ合せオブジェクトオーディオフォーマットのオーディオデータを取得する。

本実施例において、図７及び図８に示すように、オブジェクトオーディオフォーマットのオーディオデータは、順に継ぎ合せられているヘッダファイルと、マルチオブジェクトオーディオデータと、オブジェクトオーディオ補助データとを含む。当該オーディオデータを再生する際に、ヘッダファイルから、当該オーディオデータの記述子及びパラメータを読み取り、そして、マルチオブジェクトオーディオデータから、各サンプリング時点に対応する組合せサンプリング信号を順に抽出するとともに、オブジェクトオーディオ補助データから、各サンプリング時点に対応する組合せサンプリング位置情報を順に抽出することで、該当する再生動作を実現することができる。

ステップ６１４において、取得されたオブジェクトオーディオを保存する。

２．ＬｏｗＤｅｌａｙＭｏｄｅ
ステップ６１６において、事前設定パラメータを含み、且つ各フレームのオーディオデータの時間長を含むヘッダファイル情報を生成して、所定のオーディオ処理装置に送信する。

本実施例において、当該ヘッダファイルは、当該オブジェクトオーディオを記述するための事前設定パラメータ、例えばＩＤ情報、バージョン番号などを含む。この点では、ＦｉｌｅＰａｃｋｉｎｇＭｏｄｅと類似している。また、当該ヘッダファイルが各フレームのオーディオデータの時間長をさらに含むという点でＦｉｌｅＰａｃｋｉｎｇＭｏｄｅと異なる。当該実施例では、各フレームのオーディオデータの時間長を予め定義及び記録することにより、オブジェクトオーディオを生成する過程において、当該各フレームのオーディオデータの時間長を単位として、オブジェクトオーディオ全体を幾つかの部分に分割し、分割されたオブジェクトオーディオの各部分をオーディオ処理装置に送信し、当該オーディオ処理装置によりリアルタイムに再生、又は記憶することにより、低遅延（ＬｏｗＤｅｌａｙ）、高いリアルタイム性の特性を発揮することができる。

例示的な一実施例として、当該ヘッダファイルのフォーマット及び内容は表２に示すとおりである。

ステップ６１８において、パラメータｉを用いて処理済みのフレームに対し計数を行う。当該パラメータｉの初期値はｉ＝０と設定する。当該ステップ６１８に進み、すべてのオーディオデータがすでに処理済みである場合、終了する。未処理のオーディオデータが存在する場合、パラメータｉの値に１を加えてから、ステップ６２０に進む。

以下のステップ６２０乃至ステップ６２２において、パラメータｉの値に対応するフレーム内のデータのみに対し処理を行う。ここで、その処理方式は、上述のステップ６０８乃至ステップ６１０と同様であるため、ここでその説明を省略する。

ステップ６２４において、ステップ６２０とステップ６２２のそれぞれにより取得された１フレーム内のマルチオブジェクトオーディオデータ及びオブジェクトオーディオ補助データを継ぎ合せ、１フレームのオブジェクトオーディオを取得する。そして、ステップ６１８に進み、次の１フレームに対する処理を行ってから、ステップ６２６に進み、オーディオ処理を行う。

ステップ６２６において、生成された１フレームのオブジェクトオーディオをそれぞれオーディオ処理装置に送信して、リアルタイムに再生、又は記憶する。

上述の実施例により取得されたオブジェクトオーディオの構造は、図９に示すように、ヘッダ部にあるヘッダファイル以外のその他の部分は、例えば第１フレームｐ０、第２フレームｐ１などのように若干のフレームに分割され、且つ各フレームは、対応して継ぎ合せられているマルチオブジェクトオーディオデータとオブジェクトオーディオ補助データとを含む。これに対応して、当該オーディオデータを再生する際に、オーディオ処理装置は、ヘッダファイルから、当該オーディオデータに対する記述子及びパラメータ（各フレームのオーディオデータの時間長を含む）を読み取り、そして、受信した各フレームのオブジェクトオーディオから、マルチオブジェクトオーディオデータとオブジェクトオーディオ補助データを順に抽出してから、マルチオブジェクトオーディオデータから、各サンプリング時点に対応する組合せサンプリング信号を順に抽出し、オブジェクトオーディオ補助データから、各サンプリング時点に対応する組合せサンプリング位置情報を順に抽出することにより、対応する再生動作を実現することができる。

本発明は、上述のオブジェクトオーディオ録音方法に係る実施例に対応して、オブジェクトオーディオ録音装置に係る実施例をさらに提供する。

図１０は、例示的な一実施例に係るオブジェクトオーディオ録音装置のブロック図である。当該装置は、図１０に示すように、採集ユニット１００１、処理ユニット１００２、及び組合せユニット１００３を含む。

ここで、
採集ユニット１００１は、複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するように構成され、
処理ユニット１００２は、前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するように構成され、
組合せユニット１００３は、各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するように構成される。

図１１は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図１０に示す実施例を基にして、処理ユニット１００２が、図１１に示すように処理サブユニット１００２Ａを含む。

ここで、処理サブユニット１００２Ａは、各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するように構成される。

図１２は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図１０に示す実施例を基にして、処理ユニット１００２が、図１２に示すように識別サブユニット１００２Ｂと抽出サブユニット１００２Ｃを含む。

ここで、
識別サブユニット１００２Ｂは、前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するように構成され、
抽出サブユニット１００２Ｃは、前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するように構成される。

ここで説明しておくべきことは、上述の図１２に示す装置の実施例における識別サブユニット１００２Ｂと抽出サブユニット１００２Ｃの構成は、上述の図１１に示す装置に係る実施例に含まれてもよく、本発明はこれに対し制限しない。

図１３は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図１２に示す実施例を基にして、抽出サブユニット１００２Ｃが、図１３に示すようにモデル構築モジュール１００２Ｃ１と抽出モジュール１００２Ｃ２を含む。

ここで、
モデル構築モジュール１００２Ｃ１は、各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するように構成され、
抽出モジュール１００２Ｃ２は、前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするように構成される。

図１４は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図１０に示す実施例を基にして、組合せユニット１００３が、図１４に示すように信号組合せサブユニット１００３Ａ、位置組合せサブユニット１００３Ｂ及び第１継ぎ合せサブユニット１００３Ｃを含む。

ここで、
信号組合せサブユニット１００３Ａは、各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するように構成され、
位置組合せサブユニット１００３Ｂは、前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するように構成され、
第１継ぎ合せサブユニット１００３Ｃは、事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するように構成される。

ここで説明しておくべきことは、上述の図１４に示す装置の実施例における信号組合せサブユニット１００３Ａ、位置組合せサブユニット１００３Ｂ及び第１継ぎ合せサブユニット１００３Ｃの構成は、上述の図１１乃至図１３に示す装置に係る実施例に含まれてもよく、本発明ではこれらに対し制限しない。

図１５は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図１０に示す実施例を基にして、組合せユニット１００３が、図１５に示すようにヘッダファイル送信サブユニット１００３Ｄ、信号組合せサブユニット１００３Ａ、位置組合せサブユニット１００３Ｂ、第２継ぎ合せサブユニット１００３Ｅ及びオーディオデータ送信サブユニット１００３Ｆを含む。

ヘッダファイル送信サブユニット１００３Ｄは、事前設定パラメータを含むヘッダファイル情報を生成して、所定のオーディオ処理装置に送信するように構成される。ここで、前記ヘッダファイル情報は各フレームのオーディオデータの時間長を含むことで、信号組合せサブユニット、位置組合せサブユニット及び継ぎ合せサブユニットが、前記各フレームのオーディオデータの時間長に合致する各フレームのオブジェクトオーディオフォーマットのオーディオデータを生成する。

信号組合せサブユニット１００３Ａは、各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するように構成される。

位置組合せサブユニット１００３Ｂは、前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するように構成される。

第２継ぎ合せサブユニット１００３Ｅは、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、各フレームのオブジェクトオーディオフォーマットのオーディオデータを取得するように構成される。

オーディオデータ送信サブユニット１００３Ｆは、各フレームのオブジェクトオーディオフォーマットのオーディオデータを前記所定のオーディオ処理装置に順に送信するように構成される。

ここで説明しておくべきことは、上述の図１５に示す装置の実施例におけるヘッダファイル送信サブユニット１００３Ｄ、信号組合せサブユニット１００３Ａ、位置組合せサブユニット１００３Ｂ、第２継ぎ合せサブユニット１００３Ｅ及びオーディオデータ送信サブユニット１００３Ｆの構成は、上述の図１１乃至図１３に示す装置に係る実施例に含まれてもよく、本発明ではこれらに対し制限しない。

図１６は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図１４又は図１５に示す実施例を基にして、信号組合せサブユニット１００３Ａが、図１６に示すように信号サンプリングモジュール１００３Ａ１と信号配列モジュール１００３Ａ２を含む。

ここで、
信号サンプリングモジュール１００３Ａ１は、所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するように構成され、
信号配列モジュール１００３Ａ２は、サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するように構成される。

図１７は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図１４又は図１５に示す実施例を基にして、位置組合せサブユニット１００３Ｂが、図１７に示すように第１位置記録モジュール１００３Ｂ１及び位置配列モジュール１００３Ｂ２を含む。

ここで、
第１位置記録モジュール１００３Ｂ１は、所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応する位置情報をそれぞれサンプリングし、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することにより、組合せサンプリング位置情報を取得するように構成され、
位置配列モジュール１００３Ｂ２は、サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング位置情報を順に配列することにより、前記オブジェクトオーディオ補助データを取得するように構成される。

図１８は、例示的な一実施例に係るもう一つのオブジェクトオーディオ録音装置のブロック図である。当該実施例では、上述の図１４又は図１５に示す実施例を基にして、位置組合せサブユニット１００３Ｂが、図１８に示すように位置サンプリングモジュール１００３Ｂ３及び第２位置記録モジュール１００３Ｂ４を含む。

ここで、
位置サンプリングモジュール１００３Ｂ３は、所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするように構成され、
第２位置記録モジュール１００３Ｂ４は、現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録するように構成される。

上述の実施例に係る装置において、各モジュールが動作する具体的な方式については、当該方法に係る実施例にて詳しく説明しているため、ここではその詳細な説明を省略する。

装置の実施例の場合、方法の実施例にほぼ対応しているため、その関連する部分については方法の実施例の該当する部分の説明を参照すればよい。以上に述べた装置の実施例は、ただ例示的なものに過ぎず、分離部として説明しているユニットは、物理的に分離可能または分離不可能なものであってもよい。ユニットとして示される部分は、物理的なユニットであってもよく、そうでなくてもよい。即ち、１つの場所に位置してもよく、複数のネットワークユニットに割り当てられてもよい。実際の要求に応じて、そのうちの一部又は全部のモジュールを選択して本発明の目的を実現してもよい。当業者であれば、創造的な労働を経なくても、これらを理解及び実施することができるだろう。

これに対し、本発明は、さらに、
オブジェクトオーディオ録音装置であって、
プロセッサと、
前記プロセッサにより実行可能なインストラクションを記憶するためのメモリと
を含み、
前記プロセッサは、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得し、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出し、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するように構成される装置を提供する。

これに対し、本発明は、さらに、
メモリと、
前記メモリに記憶される１つ又は１つ以上のプログラムと
を含み、
前記１つ又は１つ以上のプログラムは、
１つ又は１つ以上のプロセッサにより実行されるように構成され、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得し、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出し、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得する
動作を行うためのインストラクションを含む端末を提供する。

図１９は、例示的な一実施例に係るオブジェクトオーディオ録音装置１９００のブロック図である。例えば、装置１９００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機、ゲーム機、タブレットデバイス、医療機器、フィットネス装置、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）等であってもよい。

図１９に示すように、装置１９００は、処理アセンブリ１９０２、メモリ１９０４、電源アセンブリ１９０６、マルチメディアアセンブリ１９０８、オーディオアセンブリ１９１０、入力／出力（Ｉ／Ｏ）インターフェース１９１２、センサアセンブリ１９１４及び通信アセンブリ１９１６からなる群から選ばれる少なくとも１つを備えてもよい。

処理アセンブリ１９０２は、一般的には、装置１９００の全体の動作、例えば表示、電話呼び出し、データ通信、カメラ動作及び記録動作に関連する動作を制御する。処理アセンブリ１９０２は、上述の方法におけるステップの一部又は全部を実現できるように、インストラクションを実行する少なくとも１つのプロセッサ１９２０を備えてもよい。なお、処理アセンブリ１９０２は、他のアセンブリとのインタラクションの便宜上、少なくとも１つのモジュールを備えてもよい。例えば、処理アセンブリ１９０２は、マルチメディアアセンブリ１９０８とのインタラクションの便利を図るために、マルチメディアモジュールを備えてもよい。

メモリ１９０４は、装置１９００における動作を支援するための、各種のデータを記憶するように構成される。これらのデータの一例として、装置１９００において動作される何れのアプリケーション又は方法に関するインストラクション、連絡先データ、電話帳データ、メッセージ、画像、ビデオ等を含む。メモリ１９０４は、何れの種類の揮発性又は不揮発性のメモリ、例えばＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｂｅｒ）、磁気メモリ、フラッシュメモリ、磁気ディスク、又は光ディスク、又はこれらの組合せにより実現することができる。

電源アセンブリ１９０６は、装置１９００の各種アセンブリに電力を供給するためのものであり、電源管理システム、１つ又は複数の電源、及び装置１９００のために電力を生成、管理及び分配することに関連のある他のアセンブリを備えてもよい。

マルチメディアアセンブリ１９０８は、装置１９００とユーザとの間に出力インターフェースを提供するためのスクリーンを備えてもよい。何れかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）やタッチパネル（ＴＰ）を備えてもよい。スクリーンは、タッチパネルを備える場合、ユーザからの入力信号を受信できるタッチスクリーンとして実現される。また、タッチパネルは、少なくとも１つのタッチセンサを備えることにより、タッチ、スライド、タッチパネル上でのジェスチャーを感知することができる。前記タッチセンサは、タッチやスライド動作の境界を感知できるだけではなく、タッチやスライド操作と関連する持続時間や圧力も感知できる。何れかの実施例において、マルチメディアアセンブリ１９０８は、フロントカメラ及び／又はバックカメラを備えてもよい。装置１９００が、例えば撮影モードやビデオモードのような動作モードにある場合、フロントカメラ及び／又はバックカメラは外部からのマルチメディアデータを受信できる。フロントカメラ及びバックカメラのそれぞれは、固定の光学レンズ系であってもよいし、可変の焦点距離及び光学ズーム機能を有するものであってもよい。

オーディオアセンブリ１９１０は、オーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオアセンブリ１９１０は、マイクロフォン（ＭＩＣ）を１つ有してもよい。装置１９００が、例えば呼び出しモード、記録モード又はサウンド認識モードのような動作モードにある場合、マイクロフォンは外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらに、メモリ１９０４に記憶されてもよく、通信アセンブリ１９１６を介して送信されてもよい。何れかの実施例において、オーディオアセンブリ１９１０は、オーディオ信号を出力するためのスピーカーをさらに備えてもよい。

Ｉ／Ｏインターフェース１９１２は、処理アセンブリ１９０２と周辺インターフェースモジュールとの間にインターフェースを提供するためのものである。前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、ロックボタンであってもよいが、それらに限られない。

センサアセンブリ１９１４は、装置１９００のために各方面の状態評価を提供するための少なくとも１つのセンサを備えてもよい。例えば、センサアセンブリ１９１４は、装置１９００のオン／オフ状態や、アセンブリの相対的な位置を検出することができる。例えば、前記アセンブリが装置１９００のディスプレイ及びキーパッドである場合、センサアセンブリ１９１４は、装置１９００又は装置１９００の１つのアセンブリの位置の変化や、ユーザと装置１９００との接触の有無や、装置１９００の方位又は加速／減速や、装置１９００の温度変化を検出することができる。センサアセンブリ１９１４は、何れの物理的接触もない状況にて付近の物体の有無を検出できるように構成される近接センサを含んでもよい。センサアセンブリ１９１４は、さらに、画像表示技術分野に用いられる光センサ、例えばＣＭＯＳ又はＣＣＤ画像センサを含んでもよい。何れかの実施例において、当該センサアセンブリ１９１４は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを含んでもよい。

通信アセンブリ１９１６は、装置１９００と他の装置との間の無線又は有線通信が便利になるように構成される。装置１９００は、通信標準に基づく無線ネットワーク、例えばＷｉＦｉ（登録商標）、２Ｇ又は３Ｇ、又はそれらの組合せにアクセスできる。１つの例示的な実施例において、通信アセンブリ１９１６は、ブロードキャストチャンネルを介して、外部のブロードキャスト管理システムからのブロードキャスト信号又はブロードキャストに関する情報を受信することができる。１つの例示的な実施例において、前記通信アセンブリ１９１６は、さらに、近距離通信を促進するために近距離無線通信（ＮＦＣ）モジュールを含んでもよい。ＮＦＣモジュールは、例えば、無線周波数識別（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩＤｅｎｔｉｆｉｃａｔｉｏｎ）技術、赤外線データ協会（ＩｒＤＡ：ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）技術、超広帯域無線（ＵＷＢ：ＵｌｔｒａＷｉｄｅＢａｎｄ）技術、ブルートゥース（ＢＴ：Ｂｌｕｅｔｏｏｔｈ）（登録商標）技術及び他の技術により実現されてもよい。

例示的な実施例において、装置１９００は、上述の方法を実行するために、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、数字信号処理デバイス（ＤＳＰＤ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅ）、プログラム可能論理デバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、書替え可能ゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他の電子機器により実現されてもよい。

例示的な実施例において、さらに、装置１９００のプロセッサ１９２０により実行されることで上述の方法を実現可能なインストラクションが記憶され、且つコンピュータに読み取り可能な不揮発性の記録媒体、例えばインストラクションが記憶されているメモリ１９０４を提供する。前記コンピュータに読み取り可能な不揮発性の記録媒体は、例えばＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク及び光データメモリ等であってもよい。

当業者であれば、本願明細書を参照し、本願明細書に開示された発明を実施することにより、本発明の他の実施形態を容易に取得することができる。本願は、本発明の一般的な原理を遵守し且つ本願明細書に開示されていない当該技術分野の公知知識又は通常の技術手段を含む本発明に対する任意の変形、用途又は適応的な変更を含むことを趣旨とする。明細書及び実施例は、単に例示的なものに過ぎず、本発明の本当の範囲及び趣旨は添付される特許請求の範囲により示される。

なお、本発明は、上述の説明及び図面により示された特定の構成に限定されず、その範囲を逸脱しない範囲で、様々な補正及び変更を実施してもよい。本発明の範囲は、添付される特許請求の範囲のみにより限定される。

本発明は、出願番号がＣＮ２０１５１０４９０３７３．６であって、出願日が２０１５年０８月１１日である中国特許出願に基づき優先権を主張し、当該中国特許出願のすべての内容を本願に援用する。

Claims

オブジェクトオーディオ録音方法であって、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するステップと、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップと、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップと
を含み、サウンド採集動作を実行するプロセスにおいて、複数の前記マイクロフォンの相対的な位置状況をそのまま保持し、
前記各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するステップは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップと、
事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するステップと
を含み、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するステップは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするステップを含み、
現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、
現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することを特徴とする方法。
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップは、
各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップ
を含むことを特徴とする請求項１に記載の方法。
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するステップは、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するステップと、
前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するステップと
を含むことを特徴とする請求項１に記載の方法。
前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するステップは、
各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するステップと、
前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするステップと
を含むことを特徴とする請求項３に記載の方法。
前記各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するステップは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するステップと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するステップと
を含むことを特徴とする請求項１から請求項４のいずれかに記載の方法。
オブジェクトオーディオ録音装置であって、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得するための採集ユニットと、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するための処理ユニットと、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得するための組合せユニットと
を含み、サウンド採集動作を実行するプロセスにおいて、複数の前記マイクロフォンの相対的な位置状況をそのまま保持し、
前記組合せユニットは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得するための信号組合せサブユニットと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得するための位置組合せサブユニットと、
事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得するための第１継ぎ合せサブユニットと
を含み、
前記位置組合せサブユニットは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングするための位置サンプリングモジュールと、
現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録するための第２位置記録モジュールと
を含むことを特徴とする装置。
前記処理ユニットは、
各音源の発したサウンド信号が各マイクロフォンの間において形成する振幅差と位相差に基づき、前記混合音信号から音源の数と各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出するための処理サブユニット
を含むことを特徴とする請求項６に記載の装置。
前記処理ユニットは、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数及び各音源の位置情報を識別するための識別サブユニットと、
前記混合音信号、マイクロフォンそれぞれの設置位置情報、及び前記音源の数と前記音源の位置情報に基づき、前記混合音信号から各音源に対応するオブジェクトサウンド信号を抽出するための抽出サブユニットと
を含むことを特徴とする請求項６に記載の装置。
前記抽出サブユニットは、
各音源の発したサウンド信号が所定のディメンションにおいて形成する特徴量に基づき、対応する統計モデルを構築するためのモデル構築モジュールと、
前記統計モデルを用いて、前記混合音信号からいずれか一つの音源の位置情報に合致するサウンド信号を識別及び抽出して、前記いずれか一つの音源に対応するオブジェクトサウンド信号とするための抽出モジュールと
を含むことを特徴とする請求項８に記載の装置。
前記信号組合せサブユニットは、
所定のサンプリング周期に基づき、各サンプリング時点ごとに、各音源に対応するオブジェクトサウンド信号をそれぞれサンプリングし、前記配列順にしたがってすべてのサンプリング信号を配列することにより、組合せサンプリング信号を取得するための信号サンプリングモジュールと、
サンプリング順番にしたがって、各サンプリング時点それぞれにおいて取得された組合せサンプリング信号を順に配列することにより、前記マルチオブジェクトオーディオデータを取得するための信号配列モジュールと
を含むことを特徴とする請求項６から請求項９のいずれかに記載の装置。
プロセッサと、
前記プロセッサにより実行可能なインストラクションを記憶するためのメモリと
を備え、
前記プロセッサは、
複数のマイクロフォンにより同時にサウンド採集動作を実行して混合音信号を取得し、
前記混合音信号、及びマイクロフォンそれぞれの設置位置情報に基づき、前記混合音信号から音源の数、各音源の位置情報を識別して、各音源に対応するオブジェクトサウンド信号を抽出し、
各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得する
ように構成され、サウンド採集動作を実行するプロセスにおいて、複数の前記マイクロフォンの相対的な位置状況をそのまま保持し、
前記各音源の位置情報とオブジェクトサウンド信号とを組合せて、オブジェクトオーディオフォーマットのオーディオデータを取得することは、
各音源の配列順にしたがって、該当するオブジェクトサウンド信号に対し組合せを行ってマルチオブジェクトオーディオデータを取得することと、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得することと、
事前設定パラメータを含むヘッダファイル情報と、前記マルチオブジェクトオーディオデータと、前記オブジェクトオーディオ補助データとに対して順に継ぎ合せを行うことにより、前記オブジェクトオーディオフォーマットのオーディオデータを取得することと
を含み、
前記配列順にしたがって各音源の位置情報に対し組合せを行うことにより、オブジェクトオーディオ補助データを取得することは、
所定のサンプリング周期に基づき、各音源に対応する位置情報をそれぞれサンプリングすることを含み、
現在のサンプリングポイントが最初のサンプリング時点である場合、取得された各サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録し、
現在のサンプリングポイントが最初のサンプリング時点でない場合、取得された各音源のサンプリング位置情報をすでに記録された同一音源の直前のサンプリング位置情報と比較し、その比較の結果相違である場合、当該サンプリング位置情報をそれに対応する音源情報及びサンプリング時点情報に関連付けて記録することを特徴とする電子機器。
プロセッサに実行されることにより、請求項１から請求項５のいずれか１項に記載の方法を実現することを特徴とするプログラム。
請求項１２に記載のプログラムが記録された記録媒体。