JP2022083444A - ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法 - Google Patents

ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法 Download PDF

Info

Publication number
JP2022083444A
JP2022083444A JP2021190471A JP2021190471A JP2022083444A JP 2022083444 A JP2022083444 A JP 2022083444A JP 2021190471 A JP2021190471 A JP 2021190471A JP 2021190471 A JP2021190471 A JP 2021190471A JP 2022083444 A JP2022083444 A JP 2022083444A
Authority
JP
Japan
Prior art keywords
audio
metadata
computer system
audio file
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021190471A
Other languages
English (en)
Inventor
デファン キム
Dae Hwang Kim
ジョンシク キム
Jeong-Sik Kim
ドンファン キム
Donfan Kim
テギュ イ
Ted Lee
ジェギュ ノ
Jaegyu Noh
ジョンフン ソ
Jeonghun Seo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022083444A publication Critical patent/JP2022083444A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法を提供する。【解決手段】コンピュータシステムは、現場に位置する複数の客体それぞれに対して生成されるオーディオファイルと、客体に対してそれぞれ設定される現場の空間的特徴を含むメタデータとを検出し、利用者のためにオーディオファイルとメタデータとを送信する。利用者の電子装置は、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングすることにより、現場の臨場感を実現する【効果】利用者は、客体が配置される現場において、該当客体から発生するオーディオ信号を直に聞くような、ユーザカスタム型臨場感を感じることができるようになる。【選択図】図3

Description

多様な実施形態は、ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法に関する。
一般的に、コンテンツ提供サーバは、利用者のために完成形態のオーディオコンテンツを提供する。このとき、完成形態のオーディオコンテンツは、複数のオーディオ信号がミキシングされたものであって、例えば、ステレオ形態のオーディオコンテンツなどがある。これにより、利用者の電子装置は、完成形態のオーディオコンテンツを受信し、これを再生する。すなわち、利用者は、完成形態のオーディオコンテンツに基づいた、定められた構成の音響しか聞くことができない。
多様な実施形態は、オーディオと関連して臨場感を実現するための立体音響実現技術を提供する。
多様な実施形態は、ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法を提供する。
多様な実施形態に係るコンピュータシステムによる方法は、現場に位置する複数の客体それぞれに対して生成されるオーディオファイルと、前記客体に対してそれぞれ設定される前記現場の空間的特徴を含むメタデータを検出する段階、および利用者のために、前記オーディオファイルと前記メタデータを送信する段階を含んでよい。
多様な実施形態に係る非一時的なコンピュータ読み取り可能な記録媒体に記録されるコンピュータプログラムは、前記方法を前記コンピュータシステムに実行させるためのものであってよい。
多様な実施形態に係る非一時的なコンピュータ読み取り可能な記録媒体には、前記方法を前記コンピュータシステムに実行させるためのプログラムが記録されていてよい。
多様な実施形態に係るコンピュータシステムは、メモリ、通信モジュール、および前記メモリおよび通信モジュールとそれぞれ連結し、前記メモリに記録された少なくとも1つの命令を実行するように構成されたプロセッサを含み、前記プロセッサは、現場に位置する複数の客体それぞれに対して生成されるオーディオファイルと、前記客体に対してそれぞれ設定される前記現場の空間的特徴を含むメタデータを検出し、前記通信モジュールにより、利用者のために、前記オーディオファイルと前記メタデータを送信するように構成されてよい。
多様な実施形態によると、ユーザカスタム型臨場感を実現するための材料であるオーディオファイルとメタデータに対する送信方式を提案することができる。すなわち、イマーシブオーディオトラックを備える新たな送信フォーマットが提案され、コンピュータシステムは、イマーシブオーディオトラックにより、オーディオファイルとメタデータを利用者の電子装置に送信することができる。これにより、電子装置は、単に完成形態のオーディオコンテンツを再生するのではなく、ユーザカスタム型のオーディオコンテンツを再生することができる。すなわち、電子装置は、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングして立体音響を実現することができる。したがって、電子装置は、オーディオと関連してユーザカスタム型臨場感を実現することができ、これにより、利用者は、特定の現場において、特定の客体から発生するオーディオ信号を直に聞くような、ユーザカスタム型臨場感を感じることができるようになる。
多様な実施形態における、コンテンツ提供システムを示したブロック図である。 多様な実施形態における、コンテンツ提供システムの機能を説明するための例示図である。 多様な実施形態における、コンピュータシステムの送信フォーマットを説明するための例示図である。 多様な実施形態における、コンピュータシステムの送信フォーマットを説明するための例示図である。 図5aは、多様な実施形態における、コンピュータシステムの送信フォーマットを説明するための例示図である。 図5bは、多様な実施形態における、コンピュータシステムの送信フォーマットを説明するための例示図である。 多様な実施形態における、コンピュータシステムの内部構成を示したブロック図である。 多様な実施形態における、コンピュータシステムの動作の流れを示したフローチャートである。 図7のオーディオファイルとメタデータを送信する段階の詳細な流れを示したフローチャートである。 多様な実施形態における、電子装置の内部構成を示したブロック図である。 多様な実施形態における、電子装置の動作の流れを示したフローチャートである。
以下、本文書の多様な実施形態について、添付の図面を参照しながら説明する。
以下、客体(object)という用語は、オーディオ信号を発生させる機器または人物を示すものとする。例えば、客体は、楽器、楽器演奏者、ボーカリスト(vocalist)、対話者(talker)、伴奏や音響効果などを発生させるスピーカ、または背景音(ambience)を発生させる背景のうちの1つを含んでよい。また、オーディオファイル(audio file)という用語は、各客体から発生するオーディオ信号に対するオーディオデータを示すものとする。
以下、メタデータという用語は、少なくとも1つのオーディオファイルと関連するオーディオ場面の属性を説明するための情報を示すものとする。このとき、オーディオ場面は、少なくとも1つの客体で構成されてよく、メタデータは、客体に対する少なくとも1つの空間的特徴を含んでよい。例えば、メタデータは、少なくとも1つの客体の位置情報、少なくとも2つの客体の位置の組み合わせを示すグループ情報、または少なくとも1つの客体が配置される現場(venue)の環境情報のうちの少なくとも1つを含んでよい。また、現場は、例えば、スタジオ(studio)、コンサートホール(concert hall)、ストリート(street)、スタジアム(stadium)などを含んでよい。
図1は、多様な実施形態における、コンテンツ提供システム100を示したブロック図であり、図2は、多様な実施形態における、コンテンツ提供システム100の機能を説明するための例示図であり、図3、図4、および図5aと図5bは、多様な実施形態における、コンピュータシステム110の送信フォーマット300を説明するための例示図である。
図1を参照すると、多様な実施形態に係るコンテンツ提供システム100は、コンピュータシステム110と電子装置150を含んでよい。例えば、コンピュータシステム110は、少なくとも1つのサーバ(server)を含んでよい。例えば、電子装置150は、スマートフォン(smart phone)、携帯電話、ナビゲーション、PC、ノート型PC、デジタル放送用端末、PDA(personal digital assistants)、PMP(portable multimedia player)、タブレット、ゲームコンソール(game console)、ウェアラブルデバイス(wearable device)、IoT(internet of things)デバイス、家電機器、医療機器、またはロボット(robot)のうちの少なくとも1つを含んでよい。
コンピュータシステム110は、利用者のためにコンテンツを提供してよい。ここで、コンピュータシステム110は、ライブストリーミング(live streaming)サーバであってよい。このとき、コンテンツは、オーディオコンテンツ、ビデオコンテンツ、バーチャルリアリティ(virtual reality、VR)コンテンツ、拡張現実(augmented reality、AR)コンテンツ、エクステンデッド・リアリティ(extended reality、XR)コンテンツなどの多様な形態のコンテンツであってよい。また、コンテンツは、プレーン(plain)コンテンツまたはイマーシブ(immersive)コンテンツのうちの少なくとも1つを含んでよい。プレーンコンテンツが完成形態のコンテンツであることに対し、イマーシブコンテンツはユーザカスタムコンテンツであってよい。以下、オーディオコンテンツを例に挙げて説明する。
プレーンオーディオコンテンツは、複数の客体から発生するオーディオ信号がミキシングされてステレオ形態で実現されてよい。例えば、コンピュータシステム110は、図2に示すように、現場でオーディオ信号がミキシングされたオーディオ信号を取得し、これに基づいてプレーンオーディオコンテンツを生成してよい。この反面、イマーシブオーディオコンテンツは、現場で複数の客体から発生するオーディオ信号に対するオーディオファイルと、これに対するメタデータとで構成されてよい。このとき、イマーシブオーディオコンテンツ内において、オーディオファイルとこれに対するメタデータは個別に存在してよい。例えば、コンピュータシステム110は、図2に示すように、複数の客体に対するオーディオファイルをそれぞれ取得し、これに基づいてイマーシブオーディオコンテンツを生成してよい。
電子装置150は、コンピュータシステム110から提供されるコンテンツを再生してよい。このとき、コンテンツは、オーディオコンテンツ、ビデオコンテンツ、バーチャルリアリティ(VR)コンテンツ、拡張現実(AR)コンテンツ、エクステンデッド・リアリティ(XR)コンテンツなどの多様な形態のコンテンツであってよい。また、コンテンツは、プレーン(plain)コンテンツまたはイマーシブ(immersive)コンテンツのうちの少なくとも1つを含んでよい。
コンピュータシステム110からイマーシブオーディオコンテンツが受信されれば、電子装置150は、イマーシブオーディオコンテンツから、オーディオファイルとこれに対するメタデータをそれぞれ取得してよい。この後、電子装置150は、メタデータに基づいてオーディオファイルのうちの少なくとも1つをレンダリングしてよい。これにより、電子装置150は、イマーシブオーディオコンテンツに基づいて、オーディオと関連するユーザカスタム型臨場感を実現することができる。したがって、利用者は、少なくとも1つの客体が配置される現場において、該当の客体から発生するオーディオ信号を直に聞くような、臨場感を感じることができるようになる。
多様な実施形態によると、コンピュータシステム110は、予め定められた送信フォーマット300をサポートすることができる。送信フォーマット300は、マルチトラックであって、図3に示すように、ビデオコンテンツのためのビデオトラック310、プレーンオーディオコンテンツのためのプレーンオーディオトラック320、およびイマーシブオーディオコンテンツのためのイマーシブオーディオトラック330を含んでよい。このとき、プレーンオーディオトラック320は、2つのチャンネルからなり、イマーシブオーディオトラック330は、複数のオーディオチャンネルと1つのメタチャンネルからなってよい。すなわち、コンピュータシステム110は、イマーシブオーディオトラック330により、イマーシブオーディオコンテンツを受信したり送信したりしてよい。
コンピュータシステム110は、図4に示すように、第1通信プロトコルに基づいて、外部の電子機器(製作スタジオと指称されてもよい)からオーディオファイルとメタデータを受信してよい。例えば、第1通信プロトコルは、リアルタイムメッセージングプロトコル(real time messaging protocol、RTMP)であってよい。このとき、第1通信プロトコルは、非圧縮フォーマットである送信方式をサポートすることができる。すなわち、コンピュータシステム110は、非圧縮フォーマットである送信方式により、オーディオファイルとメタデータを受信してよい。ここで、メタデータは、オーディオファイルと同じ形式に変換され、オーディオファイルとともに送信されてよい。例えば、オーディオファイルとメタデータが埋め込まれた(embedding)コンテンツが送信され、コンピュータシステム110は、受信されるコンテンツに対するディエンベディングにより、オーディオファイルとメタデータを取得してよい。また、第1通信プロトコルは、圧縮フォーマットである送信方式をサポートすることができる。例えば、圧縮フォーマットは、AAC(advanced audio coding)規格を含んでよい。
受信されるイマーシブオーディオトラック330は、マルチチャンネルPCM(pulse code modulation)オーディオ信号で構成されてよい。マルチチャンネルPCMオーディオ信号は、複数のオーディオ信号をそれぞれ含む複数のオーディオチャンネルとメタデータを含む1つのメタデータチャンネルで構成されるが、場合によっては、マルチチャンネルの最後のチャンネルがメタチャンネルとして利用されてもよい。該当のメタチャンネルの複数のオーディオ信号は、チャンネル間で時間同期化されていてよい。これにより、各オーディオチャンネルとメタチャンネルとの時間同期化が保障されてよい。
受信されるイマーシブオーディオトラック330は、オーディオコーデックを利用してエンコードされて配信されるが、エンコードされたイマーシブオーディオコンテンツ内にはメタデータが挿入されてよい。したがって、メタチャンネルは、オーディオコーデックのフレームサイズの長さに合うように処理され、イマーシブオーディオトラック330内に挿入されてよい。受信されるイマーシブオーディオトラック330のメタチャンネルには、1つのフレームに対して複数のセットのメタデータを含んでいてよい。イマーシブオーディオトラック330をエンコードして配信するときは、この複数のセットのうちから1つを選択して挿入して配信してよい。
コンピュータシステム110は、図4に示すように、第2通信プロトコルに基づいて、電子装置150にオーディオファイルとメタデータを送信してよい。例えば、第2通信プロトコルは、HTTPライブストリーミング(HTTP live streaming、HLS)であってよい。このとき、第2通信プロトコルは、圧縮フォーマットである送信方式をサポートすることができる。例えば、圧縮フォーマットは、AAC(advanced audio coding)規格を含んでよい。このような場合、図5aに示すようなMPEGコンテナ(container)のAAC規格を活用して、オーディオファイルとメタデータが送信されてよい。ここで、AAC規格によると、図5bに示すように、DSE(data stream element)を含むマルチチャンネルが活用されてよい。具体的に説明すると、コンピュータシステム110は、メタデータをAAC規格内のDSEに注入し、AAC規格に基づいてオーディオファイルとメタデータをビットストリーム形式にエンコードしてよい。オーディオ信号をエンコードするにあたって損失圧縮コーデックを使用する場合にはメタデータまでも劣化する可能性があるが、これを防ぐために、該当のメタデータは、別途のエンコード過程を経ずに挿入されてよい。一例として、AACオーディオストリームを利用する場合、メタデータはDSEに挿入して送信されてよい。メタデータを挿入する過程において、メタデータの適合性が検査されてよい。一例として、各メタデータを挿入する過程においてメタデータ開始フラッグ(flag)とメタデータ終了フラッグを確認して、正しいメタデータであるかを検証して挿入してよい。このとき、フラッグ確認過程において各フラッグが確認されない場合、該当のフレームに前フレームのメタデータを挿入することによって安全性を保障し、配信プログラムの利用者には、該当のフレームに正しくないメタデータが挿入されて送信されたという通知を送信してよい。これにより、コンピュータシステム110は、エンコードされたオーディオファイルとメタデータを電子装置150に送信してよい。
電子機器は、複数の客体のオーディオファイルとメタデータを生成し、オーディオファイルとメタデータをコンピュータシステム110に提供してよい。例えば、電子機器は、スマートフォン、携帯電話、ナビゲーション、PC、ノート型PC、デジタル放送用端末、PDA、PMP、タブレット、ゲームコンソール、ウェアラブルデバイス、IoTデバイス、家電機器、医療機器、またはロボットのうちの少なくとも1つを含んでよい。一実施形態によると、電子機器は、コンピュータシステム110の外部に存在し、オーディオファイルとメタデータをコンピュータシステム110に送信してよい。このとき、電子機器は、第1通信プロトコルに基づいて、コンピュータシステム110にオーディオファイルとメタデータを送信してよい。例えば、第1通信プロトコルは、リアルタイムメッセージングプロトコル(RTMP)であってよい。他の実施形態によると、電子機器は、コンピュータシステム110内に統合されてよい。
このために、電子機器は、複数の客体のオーディオファイルと、これに対するメタデータを生成してよい。このために、電子機器は、ある現場に位置する客体それぞれから発生するオーディオ信号をそれぞれ取得してよい。このとき、電子機器は、各客体に直接的に付着されるか各客体に隣接して設置されるマイクロホン(microphone)により、各オーディオ信号を取得してよい。この後、電子機器は、オーディオ信号を利用して、オーディオファイルをそれぞれ生成してよい。さらに、電子機器は、オーディオファイルのメタデータを生成してよい。このために、電子機器は、客体に対して現場の空間的特徴をそれぞれ設定してよい。例えば、電子機器は、グラフィックインタフェース300、400を利用した創作者の入力に基づいて、客体の空間的特徴を設定してよい。ここで、電子機器は、各客体の直接的な位置や各客体のためのマイクロホンの位置を利用して、各客体の位置情報または少なくとも2つの客体の位置の組み合わせを示すグループ情報のうちの少なくとも1つを検出してよい。また、電子機器は、客体が配置された現場の環境情報を検出してよい。さらに、電子機器は、客体の空間的特徴に基づいて、メタデータを生成してよい。
図6は、多様な実施形態における、コンピュータシステム110の内部構成を示したブロック図である。一実施形態において、コンピュータシステム110は、電子装置150のためのライブストリーミングサーバであってよい。
図6を参照すると、多様な実施形態に係るコンピュータシステム110は、通信モジュール610、メモリ620、またはプロセッサ630のうちの少なくとも1つを含んでよい。一実施形態によると、コンピュータシステム110の構成要素のうちの少なくともいずれか1つが省略されてもよいし、少なくとも1つの他の構成要素が追加されてもよい。一実施形態によると、コンピュータシステム110の構成要素のうちの少なくともいずれか2つが、1つの統合された回路で実現されてもよい。
通信モジュール610は、コンピュータシステム110で外部装置との通信を実行してよい。通信モジュール610は、コンピュータシステム110と外部装置との間に通信チャンネルを樹立し、通信チャンネルを介して外部装置との通信を実行してよい。例えば、外部装置は、外部電子機器または電子装置150のうちの少なくとも1つを含んでよい。通信モジュール610は、有線通信モジュールまたは無線通信モジュールのうちの少なくとも1つを含んでよい。有線通信モジュールは、外部装置と有線で連結され、有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか1つを含んでよい。近距離通信モジュールは、外部装置と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース(登録商標)(Bluetooth)、Wi-Fi(登録商標)ダイレクト(Wi-Fi direct)、または赤外線通信(IrDA、infrared data association)のうちの少なくともいずれか1つを含んでよい。遠距離通信モジュールは、外部装置と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワークを介して外部装置と通信してよい。例えば、ネットワークは、セルラネットワーク、インターネット、またはLAN(local area network)やWAN(wide area network)のようなコンピュータネットワークのうちの少なくともいずれか1つを含んでよい。
通信モジュール610は、予め定められた送信フォーマット300をサポートすることができる。送信フォーマット300は、マルチトラックとして、図3に示すように、ビデオコンテンツのためのビデオトラック310、プレーンオーディオコンテンツのためのプレーンオーディオトラック320、およびイマーシブオーディオコンテンツのためのイマーシブオーディオトラック330を含んでよい。このとき、プレーンオーディオトラック320は、2つのチャンネルからなり、イマーシブオーディオトラック330は、複数のチャンネルからなってよい。ここで、チャンネルは、複数のオーディオチャンネルと1つのメタチャンネルからなってよい。
メモリ620は、コンピュータシステム110の少なくとも1つの構成要素が使用する多様なデータを記録してよい。例えば、メモリ620は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか1つを含んでよい。データは、少なくとも1つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ620に少なくとも1つの命令を含むソフトウェアとして記録されてよい。
プロセッサ630は、メモリ620のプログラムを実行し、コンピュータシステム110の少なくとも1つの構成要素を制御してよい。これにより、プロセッサ630は、データ処理または演算を実行してよい。このとき、プロセッサ630は、メモリ620に記録された命令を実行してよい。プロセッサ630は、利用者のためにコンテンツを提供してよい。このとき、プロセッサ630は、通信モジュール610により、利用者の電子装置150にコンテンツを送信してよい。コンテンツは、ビデオコンテンツ、プレーンオーディオコンテンツ、またはイマーシブオーディオコンテンツのうちの少なくとも1つを含んでよい。プロセッサ630は、図3に示すような送信フォーマット300に基づいて、コンテンツを送信してよい。一実施形態によると、プロセッサ630は、外部の電子機器(製作スタジオと指称されてもよい)からコンテンツを受信し、これを電子装置150に送信してよい。
プロセッサ630は、ある現場の複数の客体に対して生成されるオーディオファイルと、これに対するメタデータを検出してよい。このとき、メタデータは、客体に対してそれぞれ設定される現場の空間的特徴を含んでよい。一実施形態によると、プロセッサ630は、通信モジュール610により、イマーシブオーディオトラック330によって外部の電子機器からオーディオファイルとメタデータを受信することにより、これらを検出してよい。このとき、プロセッサ630は、第1通信プロトコルに基づいて、オーディオファイルとメタデータを受信してよい。例えば、第1通信プロトコルは、リアルタイムメッセージングプロトコル(RTMP)であってよい。
プロセッサ630は、利用者のためにオーディオファイルとメタデータを送信してよい。プロセッサ630は、通信モジュール610により、イマーシブオーディオトラック330によって電子装置150にオーディオファイルとメタデータを送信してよい。このとき、プロセッサ630は、第2通信プロトコルに基づいてオーディオファイルとメタデータを送信してよい。例えば、第2通信プロトコルは、HTTPライブストリーミング(HLS)であってよい。プロセッサ630は、エンコーダ635を含んでよい。エンコーダ635は、イマーシブオーディオトラック330に対して、オーディオファイルとメタデータをそれぞれエンコードしてよい。
図7は、多様な実施形態における、コンピュータシステム110の動作の流れを示したフローチャートである。
図7を参照すると、段階710で、コンピュータシステム110は、ある現場に位置する複数の客体のオーディオファイルと、これに対するメタデータを検出してよい。このとき、メタデータは、客体に対してそれぞれ設定される現場の空間的特徴を含んでよい。一実施形態によると、プロセッサ630は、通信モジュール610により、イマーシブオーディオトラック330によって外部の電子機器からオーディオファイルとメタデータを受信することにより、これらを検出してよい。このとき、プロセッサ630は、図4に示すように、第1通信プロトコルに基づいてオーディオファイルとメタデータを受信してよい。例えば、第1通信プロトコルは、リアルタイムメッセージングプロトコル(RTMP)であってよい。このとき、第1通信プロトコルは、非圧縮フォーマットである送信方式をサポートすることができる。すなわち、コンピュータシステム110は、非圧縮フォーマットである送信方式により、オーディオファイルとメタデータを受信してよい。ここで、メタデータは、オーディオファイルと同じ形式に変換され、オーディオファイルとともに送信されてよい。例えば、オーディオファイルとメタデータが埋め込まれた(embedding)エンコンテンツが送信され、コンピュータシステム110は、受信されるコンテンツに対してディエンベディングを行うことにより、オーディオファイルとメタデータを取得してよい。または、第1通信プロトコルは、圧縮フォーマットである送信方式をサポートすることができる。例えば、圧縮フォーマットは、AAC(advanced audio coding)規格を含んでよい。
次に、段階720で、コンピュータシステム110は、利用者のためにオーディオファイルとメタデータを送信してよい。プロセッサ630は、通信モジュール610により、イマーシブオーディオトラック330によって電子装置150にオーディオファイルとメタデータを送信してよい。このとき、プロセッサ630は、第2通信プロトコルに基づいて、オーディオファイルとメタデータを送信してよい。例えば、第2通信プロトコルは、HTTPライブストリーミング(HLS)であってよい。このとき、第2通信プロトコルは、圧縮フォーマットである送信方式をサポートすることができる。例えば、圧縮フォーマットは、AAC規格を含んでよい。このような場合、図5aに示すようなMPEGコンテナのAAC規格を活用することで、オーディオファイルとメタデータが送信されてよい。ここで、AAC規格によると、図5bに示すように、DSEを含むマルチチャンネルが活用されてよい。これについては、図8を参照しながらより詳細に説明する。
図8は、図7のオーディオファイルとメタデータを送信する段階(段階720)の詳細な流れを示したフローチャートである。
図8を参照すると、段階821で、コンピュータシステム110は、メタデータをMPEGコンテナのAAC規格に注入してよい。このとき、プロセッサ630は、メタデータをAAC規格内のDSEに注入してよい。この後、段階823で、コンピュータシステム110は、AAC規格に基づいてオーディオファイルとメタデータをエンコードしてよい。このとき、プロセッサ630は、オーディオファイルとメタデータをビットストリーム形式にエンコードしてよい。これにより、段階825で、コンピュータシステム110は、エンコードされたオーディオファイルとメタデータを電子装置150に送信してよい。このとき、プロセッサ630は、通信モジュール610により、エンコードされたオーディオファイルとメタデータを電子装置150に送信してよい。
図9は、多様な実施形態における、電子装置150の内部構成を示したブロック図である。
図9を参照すると、多様な実施形態に係る電子装置150は、連結端子910、通信モジュール920、入力モジュール930、表示モジュール940、オーディオモジュール950、メモリ960、またはプロセッサ970のうちの少なくとも1つを含んでよい。一実施形態によると、電子装置150の構成要素のうちの少なくともいずれか1つが省略されてもよいし、少なくとも1つの他の構成要素が追加されてもよい。一実施形態によると、電子装置150の構成要素のうちの少なくともいずれか2つが、1つの統合された回路で実現されてもよい。
連結端子910は、電子装置150で外部装置と物理的に連結されてよい。例えば、外部装置は、他の電子装置を含んでよい。このために、連結端子910は、少なくとも1つのコネクタを含んでよい。例えば、コネクタは、HDMIコネクタ、USBコネクタ、SDカードコネクタ、またはオーディオコネクタのうちの少なくともいずれか1つを含んでよい。
通信モジュール920は、電子装置150で外部装置との通信を実行してよい。通信モジュール920は、電子装置150と外部装置との間に通信チャンネルを樹立し、通信チャンネルを介して外部装置との通信を実行してよい。例えば、外部装置は、コンピュータシステム110を含んでよい。通信モジュール920は、有線通信モジュールまたは無線通信モジュールのうちの少なくとも1つを含んでよい。有線通信モジュールは、連結端子910を介して外部装置と有線で連結され、有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか1つを含んでよい。近距離通信モジュールは、外部装置と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース、Wi-Fiダイレクト、または赤外線通信のうちの少なくともいずれか1つを含んでよい。遠距離通信モジュールは、外部装置と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワークを介して外部装置と通信してよい。例えば、ネットワークは、セルラネットワーク、インターネット、またはLANやWANのようなコンピュータネットワークのうちの少なくともいずれか1つを含んでよい。
入力モジュール930は、電子装置150の少なくとも1つの構成要素が使用する信号を入力してよい。入力モジュール930は、利用者が電子装置150に信号を直接入力するように構成される入力装置、周辺環境を感知して信号を発生するように構成されるセンサ装置、または画像を撮影して画像データを生成するように構成されるカメラモジュールのうちの少なくともいずれか1つを含んでよい。例えば、入力装置は、マイクロホン(microphone)、マウス(mouse)、またはキーボード(keyboard)のうちの少なくともいずれか1つを含んでよい。一実施形態において、センサ装置は、ヘッドトラッキング(head tracking)センサ、ヘッドマウントディスプレイ(head-mounted display、HMD)コントローラ、タッチを感知するように設定されたタッチ回路(touch circuitry)、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか1つを含んでよい。
表示モジュール940は、情報を視覚的に表示してよい。例えば、表示モジュール1040は、ディスプレイ、ヘッドマウントディスプレイ(HMD)、ホログラム装置、またはプロジェクタのうちの少なくともいずれか1つを含んでよい。一例として、表示モジュール940は、入力モジュール930のタッチ回路またはセンサ回路のうちの少なくともいずれか1つと組み立てられてタッチスクリーンとして実現されてよい。
オーディオモジュール950は、情報を聴覚的に再生してよい。例えば、オーディオモジュール950は、スピーカ、レシーバ、イヤホン、またはヘッドホンのうちの少なくともいずれか1つを含んでよい。
メモリ960は、電子装置150の少なくとも1つの構成要素が使用する多様なデータを記録してよい。例えば、メモリ960は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか1つを含んでよい。データは、少なくとも1つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ960に少なくとも1つの命令を含むソフトウェアとして記録されてよく、例えば、オペレーティングシステム、ミドルウェア、またはアプリケーションのうちの少なくともいずれか1つを含んでよい。
プロセッサ970は、メモリ960のプログラムを実行し、電子装置150の少なくとも1つの構成要素を制御してよい。これにより、プロセッサ970は、データ処理または演算を実行してよい。このとき、プロセッサ970は、メモリ960に記録された命令を実行してよい。プロセッサ970は、コンピュータシステム110から提供されるコンテンツを再生してよい。プロセッサ970は、表示モジュール940により、ビデオコンテンツを再生してよく、オーディオモジュール950により、プレーンオーディオコンテンツまたはイマーシブオーディオコンテンツのうちの少なくとも1つを再生してよい。
プロセッサ970は、通信モジュール920により、コンピュータシステム110から、ある現場に位置する客体のオーディオファイルとメタデータを受信してよい。プロセッサ970は、デコーダ975を含んでよい。デコーダ975は、受信されるオーディオファイルとメタデータをデコードしてよい。このとき、デコーダ975は、イマーシブオーディオトラック330に対し、オーディオファイルとメタデータをデコードしてよい。この後、プロセッサ970は、メタデータに基づいて、オーディオファイルをレンダリングしてよい。これにより、プロセッサ970は、メタデータの客体の空間的特徴に基づいて、オーディオファイルをレンダリングしてよい。
図10は、多様な実施形態における、電子装置150の動作の流れを示したフローチャートである。
図10を参照すると、段階1010で、電子装置150は、オーディオファイルとメタデータを受信してよい。プロセッサ970は、通信モジュール920により、サーバ330から、ある現場に位置する客体に対するオーディオファイルとメタデータを受信してよい。このとき、プロセッサ970は、第2通信プロトコル、例えば、HTTPライブストリーミング(HLS)を利用して、オーディオファイルとメタデータを受信してよい。また、図に示してはいないが、プロセッサ970は、オーディオファイルとメタデータをデコードしてよい。このとき、プロセッサ970は、AAC規格に基づいて、オーディオファイルとメタデータをデコードしてよい。
次に、段階1020で、電子装置150は、メタデータに基づいて客体のうちの少なくとも1つを選択してよい。このとき、プロセッサ970は、ユーザインタフェース(user interface、UI)を利用した利用者の入力に基づいて、客体のうちの少なくとも1つを選択してよい。より具体的に説明すると、プロセッサ970は、利用者のためにユーザインタフェースを出力してよい。一例として、プロセッサ970は、通信モジュール920により、外部装置でユーザインタフェースを出力してよい。他の例として、プロセッサ970は、表示モジュール940により、ユーザインタフェースを出力してよい。この後、プロセッサ970は、ユーザインタフェースを利用した少なくとも1つの利用者の入力に基づいて、客体のうちの少なくとも1つを選択してよい。
次に、段階1020で、電子装置150は、メタデータに基づいてオーディオファイルをレンダリングしてよい。プロセッサ970は、メタデータの客体の空間的特徴に基づいてオーディオファイルをレンダリングしてよい。プロセッサ970は、メタデータの客体の空間的特徴に基づいて、オーディオファイルをレンダリングしてよい。プロセッサ970は、選択された客体の空間的特徴を客体のオーディオファイルに適用し、オーディオモジュール950によって最終的なオーディオ信号を再生してよい。これにより、電子装置150は、該当の現場に対するユーザカスタム型臨場感を実現することができる。
したがって、電子装置150の利用者は、客体が配置される現場内において、該当の客体から発生するオーディオ信号を直に聞くように、ユーザカスタム型臨場感を感じることができるようになる。
多様な実施形態によると、ユーザカスタム型臨場感を実現するための材料であるオーディオファイルとメタデータに対する送信方式が提案されてよい。すなわち、イマーシブオーディオトラック330を備えた新たな送信フォーマット300が提案され、コンピュータシステム110は、イマーシブオーディオトラック330により、オーディオファイルとメタデータを利用者の電子装置に送信してよい。これにより、利用者の電子装置150は、単に完成形態のオーディオコンテンツを再生するのではなく、ユーザカスタム型オーディオコンテンツを再生することができる。すなわち、電子装置は、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングして立体音響を実現することができる。したがって、電子装置150は、オーディオと関連してユーザカスタム型臨場感を実現し、これにより、電子装置150の利用者は、特定の現場において、特定の客体から発生するオーディオ信号を直に聞くように、ユーザカスタム型臨場感を感じることができるようになる。
多様な実施形態に係るコンピュータシステム110による方法は、現場に位置する複数の客体それぞれに対して生成されるオーディオファイルと、客体に対してそれぞれ設定される現場の空間的特徴を含むメタデータを検出する段階(段階710)、および利用者のためにオーディオファイルとメタデータを送信する段階(段階720)を含んでよい。
多様な実施形態によると、コンピュータシステム110は、ビデオコンテンツのためのビデオトラック310、複数のオーディオ信号によって完成されたオーディオコンテンツのためのプレーンオーディオトラック320、およびオーディオファイルとメタデータのためのイマーシブオーディオトラック330を含むフォーマット300をサポートすることができる。
多様な実施形態によると、メタデータは、客体それぞれの位置情報、客体のうちの少なくとも2つの位置の組み合わせを示すグループ情報、または現場の環境情報のうちの少なくとも1つを含んでよい。
多様な実施形態によると、客体それぞれは、楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景のうちの1つを含んでよい。
多様な実施形態によると、イマーシブオーディオトラック330は、オーディオファイルのための複数のオーディオチャンネル、およびメタデータのための1つのメタチャンネルを含んでよい。
多様な実施形態によると、イマーシブオーディオトラック330は、PCM(pulse code modulation)オーディオ信号で構成され、オーディオコーデックによってエンコードされてよい。
多様な実施形態によると、メタデータは、PCMオーディオ信号の1つのチャンネルを介して送信され、オーディオファイルに同期化(synchronization)されており、オーディオコーデックのフレームサイズに基づいて決定される送信周期によって送信されてよい。
多様な実施形態によると、1つのフレーム内に複数のセットが記入され、AAC規格を活用してエンコードされる場合、複数のセットのうちの少なくとも1つのセットがDSEに挿入され、メタデータの開始フラッグまたは終了フラッグが検証されなければ、前フレームのメタデータが挿入されてよい。
多様な実施形態によると、オーディオファイルとメタデータを検出する段階(段階710)は、フォーマットのイマーシブオーディオトラックにより、電子機器から、第1通信プロトコルに基づいてオーディオファイルとメタデータを受信してよい。
多様な実施形態によると、オーディオファイルとメタデータを送信する段階(段階720)は、フォーマットのイマーシブオーディオトラックにより、利用者の電子装置に、第2通信プロトコルに基づいてオーディオファイルとメタデータを送信してよい。
多様な実施形態によると、第1通信プロトコルは、非圧縮フォーマットまたは圧縮フォーマットである送信方式をサポートすることができる。
多様な実施形態によると、第2通信プロトコルは、圧縮フォーマットである送信方式をサポートすることができる。
多様な実施形態によると、電子装置150は、イマーシブオーディオトラック330により、オーディオファイルとメタデータを受信し、オーディオファイルとメタデータに対してデコーディングし、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングすることにより、現場の臨場感を実現することができる。
多様な実施形態に係るコンピュータシステム110は、メモリ620、通信モジュール610、およびメモリ620および通信モジュール610とそれぞれ連結し、メモリ620に記録された少なくとも1つの命令を実行するように構成されたプロセッサ630を含んでよい。
多様な実施形態によると、プロセッサ630は、現場に位置する複数の客体それぞれに対して生成されるオーディオファイルと、客体に対してそれぞれ設定される現場の空間的特徴を含むメタデータを検出し、通信モジュール610により、利用者のためにオーディオファイルとメタデータを送信するように構成されてよい。
多様な実施形態によると、通信モジュール610は、ビデオコンテンツのためのビデオトラック310、複数のオーディオ信号によって完成されたオーディオコンテンツのためのプレーンオーディオトラック320、およびオーディオファイルとメタデータのためのイマーシブオーディオトラック330を含むフォーマットをサポートするように構成されてよい。
多様な実施形態によると、メタデータは、客体それぞれの位置情報、客体のうちの少なくとも2つの位置の組み合わせを示すグループ情報、または現場の環境情報のうちの少なくとも1つを含んでよい。
多様な実施形態によると、客体は、楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景のうちの少なくとも1つを含んでよい。
多様な実施形態によると、イマーシブオーディオトラック330は、オーディオファイルのための複数のオーディオチャンネル、およびメタデータのための1つのメタチャンネルを含んでよい。
多様な実施形態によると、イマーシブオーディオトラック330は、PCMオーディオ信号で構成され、オーディオコーデックによってエンコードされてよい。
多様な実施形態によると、メタデータは、PCMオーディオ信号の1つのチャンネルを介して送信され、オーディオファイルに同期化されており、オーディオコーデックのフレームサイズに基づいて決定される送信周期によって送信されてよい。
多様な実施形態によると、1つのフレーム内に複数のセットで記入され、AAC規格を活用してエンコードされる場合、複数のセットのうちの少なくとも1つのセットがDSEに挿入され、メタデータの開始フラッグまたは終了フラッグが検証されなければ、前フレームのメタデータが挿入されてよい。
多様な実施形態によると、プロセッサ630は、通信モジュール610により、電子機器から、第1通信プロトコルに基づいて受信することによって、オーディオファイルとメタデータを検出し、通信モジュール610により、利用者の電子装置150に、第2通信プロトコルに基づいてオーディオファイルとメタデータを送信するように構成されてよい。
多様な実施形態によると、第1通信プロトコルは、非圧縮フォーマットまたは圧縮フォーマットである送信方式をサポートすることができる。
多様な実施形態によると、第2通信プロトコルは、圧縮フォーマットである送信方式をサポートすることができる。
多様な実施形態によると、電子装置150は、イマーシブオーディオトラック330により、オーディオファイルとメタデータを受信し、デコーダを利用してオーディオファイルとメタデータに対してデコーディングし、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングすることにより、現場の現場感を実現することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に実現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
本文書の多様な実施形態とこれに使用した用語は、本文書に記載された技術を特定の実施形態に対して限定しようとするものではなく、該当の実施例の多様な変更、均等物、および/または代替物を含むものと理解されなければならない。図面の説明に関し、類似の構成要素に対しては類似の参照符号を付与した。単数の表現は、文脈上で明らかに異なるように意味しない限り、複数の表現を含んでよい。本文書において、「AまたはB」、「Aおよび/またはBのうちの少なくとも1つ」、「A、B、またはC」、または「A、B、および/またはCのうちの少なくとも1つ」などの表現は、ともに羅列された項目のすべての可能な組み合わせを含んでよい。「第1」、「第2」、「1番目」、または「2番目」などの表現は、該当の構成要素を順序または重要度に関係なく修飾してよく、ある構成要素を他の構成要素と区分するために使用されるものに過ぎず、該当の構成要素を限定するものではない。ある(例:第1)構成要素が他の(例:第2)構成要素に「(機能的にまたは通信的に)連結されて」いるとか「接続されて」いると言及されるときには、前記ある構成要素が前記他の構成要素に直接的に連結されてもよいし、他の構成要素(例:第3構成要素)を経て連結されてもよい。
本文書で使用された用語「モジュール」は、ハードウェア、ソフトウェア、またはファームウェアで構成されたユニットを含み、例えば、ロジック、論理ブロック、部品、または回路などの用語と相互互換的に使用されてよい。モジュールは、一体で構成された部品、または1つまたはそれ以上の機能を実行する最小単位またはその一部となってよい。例えば、モジュールは、ASIC(application-specific integrated circuit)で構成されてよい。
多様な実施形態によると、上述した構成要素のそれぞれの構成要素(例:モジュールまたはプログラム)は、単数または複数の個体を含んでよい。多様な実施形態によると、上述した該当の構成要素のうちの1つ以上の構成要素または段階が省略されてもよいし、1つ以上の他の構成要素または段階が追加されてもよい。大体的にまたは追加的に、複数の構成要素(例:モジュールまたはプログラム)は、1つの構成要素として統合されてよい。この場合、統合された構成要素は、複数の構成要素それぞれの構成要素の1つ以上の機能を、統合前に複数の構成要素のうちの該当の構成要素によって実行されることと同一または類似に実行してよい。多様な実施形態によると、モジュール、プログラム、または他の構成要素によって実行される段階は、順次的に、並列的に、反復的に、または発見的に実行されてもよいし、段階のうちの1つ以上が他の順序で実行されたり、省略されたり、または1つ以上の他の段階が追加されたりしてもよい。
300:送信フォーマット
310:ビデオトラック
320:プレーンオーディオトラック
330:イマーシブオーディオトラック

Claims (22)

  1. コンピュータシステムによる方法であって、
    現場に位置する複数の客体それぞれに対して生成されるオーディオファイルと、前記客体に対してそれぞれ設定される前記現場の空間的特徴を含むメタデータを検出する段階、および、
    利用者のために前記オーディオファイルと前記メタデータを送信する段階、
    を含む、
    方法。
  2. 前記コンピュータシステムは、
    ビデオコンテンツのためのビデオトラック、複数のオーディオ信号によって完成されたオーディオコンテンツのためのプレーンオーディオトラック、および、前記オーディオファイルと前記メタデータのためのイマーシブオーディオトラック、を含むフォーマットをサポートする、
    請求項1に記載の方法。
  3. 前記メタデータは、
    前記客体それぞれの位置情報、
    前記客体のうちの少なくとも2つの位置の組み合わせを示すグループ情報、または、
    前記現場の環境情報、
    のうちの少なくとも1つを含む、
    請求項1に記載の方法。
  4. 前記客体それぞれは、
    楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景、
    のうちの1つを含む、
    請求項1に記載の方法。
  5. 前記イマーシブオーディオトラックは、
    前記オーディオファイルのための複数のオーディオチャンネル、および、前記メタデータのための1つのメタチャンネル、
    を含む、
    請求項2に記載の方法。
  6. 前記イマーシブオーディオトラックは、
    PCM(pulse code modulation)オーディオ信号で構成され、オーディオコーデックによってエンコードされ、
    前記メタデータは、
    前記PCMオーディオ信号の1つのチャンネルを介して送信され、前記オーディオファイルに同期化(synchronization)されており、前記オーディオコーデックのフレームサイズに基づいて決定される送信周期によって送信され、
    1つのフレーム内に複数のセットで記入され、
    AAC(advanced audio coding)規格を活用してエンコードされる場合、前記複数のセットのうちの少なくとも1つのセットがDSE(date stream element)に挿入され、
    前記メタデータの開始フラッグ(flag)または終了フラッグが検証されなければ、前フレームのメタデータが挿入される、
    請求項5に記載の方法。
  7. 前記オーディオファイルと前記メタデータを検出する段階は、
    前記フォーマットの前記イマーシブオーディオトラックにより、電子機器から、第1通信プロトコルに基づいて、前記オーディオファイルと前記メタデータとを受信し、
    前記オーディオファイルと前記メタデータを送信する段階は、
    前記フォーマットの前記イマーシブオーディオトラックにより、前記利用者の電子機器に、第2通信プロトコルに基づいて、前記オーディオファイルと前記メタデータとを送信する、
    請求項2に記載の方法。
  8. 前記第2通信プロトコルは、
    圧縮フォーマットの送信方式をサポートする、
    請求項7に記載の方法。
  9. 前記第1通信プロトコルは、
    非圧縮フォーマットまたは圧縮フォーマットの送信方式をサポートする、
    請求項7に記載の方法。
  10. 前記電子機器は、
    前記イマーシブオーディオトラックにより、前記オーディオファイルとメタデータを受信し、
    前記オーディオファイルとメタデータに対してデコードし、
    前記メタデータの前記空間的特徴に基づいて、前記オーディオファイルをレンダリングすることにより、前記現場の臨場感を実現する、
    請求項7に記載の方法。
  11. 請求項1~10のうちのいずれか一項に記載の方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
  12. 請求項1~10のうちのいずれか一項に記載の方法を前記コンピュータシステムに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
  13. コンピュータシステムであって、
    メモリ、
    通信モジュール、および、
    前記メモリおよび前記通信モジュールとそれぞれ連結し、前記メモリに記録された少なくとも1つの命令を実行するように構成されたプロセッサ、を含み、
    前記プロセッサは、
    現場に位置する複数の客体それぞれに対して生成されるオーディオファイルと、前記客体に対してそれぞれ設定される前記現場の空間的特徴とを含むメタデータを検出し、
    前記通信モジュールにより、利用者のために前記オーディオファイルと前記メタデータとを送信する、
    ように構成される、
    コンピュータシステム。
  14. 前記通信モジュールは、
    ビデオコンテンツのためのビデオトラック、複数のオーディオ信号によって完成されたオーディオコンテンツのためのプレーンオーディオトラック、および、前記オーディオファイルと前記メタデータのためのイマーシブオーディオトラック、を含むフォーマットをサポートする、
    ように構成される、
    請求項13に記載のコンピュータシステム。
  15. 前記メタデータは、
    前記客体それぞれの位置情報、
    前記客体のうちの少なくとも2つの位置の組み合わせを示すグループ情報、または、
    前記現場の環境情報、
    のうちの少なくとも1つを含む、
    請求項13に記載のコンピュータシステム。
  16. 前記客体は、
    楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景、
    のうちの1つを含む、
    請求項13に記載のコンピュータシステム。
  17. 前記イマーシブオーディオトラックは、
    前記オーディオファイルのための複数のオーディオチャンネル、および、前記メタデータのための1つのメタチャンネル、
    を含む、
    請求項14に記載のコンピュータシステム。
  18. 前記イマーシブオーディオトラックは、
    PCMオーディオ信号で構成され、オーディオコーデックによってエンコードされ、
    前記メタデータは、
    前記PCMオーディオ信号の1つのチャンネルを介して送信され、前記オーディオファイルに同期化されており、前記オーディオコーデックのフレームサイズに基づいて決定される送信周期によって送信され、
    1つのフレーム内に複数のセットで記入され、
    AAC規格を活用してエンコードされる場合、前記複数のセットのうちの少なくとも1つのセットがDSEに挿入され、
    前記メタデータの開始フラッグまたは終了フラッグが検証されなければ、前フレームのメタデータが挿入される、
    請求項17に記載のコンピュータシステム。
  19. 前記プロセッサは、
    前記通信モジュールにより、電子機器から、第1通信プロトコルに基づいて受信することにより、前記オーディオファイルと前記メタデータとを検出し、
    前記通信モジュールにより、前記利用者の電子機器に、第2通信プロトコルに基づいて前記オーディオファイルと前記メタデータとを送信する、
    ように構成される、
    請求項14に記載のコンピュータシステム。
  20. 前記第2通信プロトコルは、
    圧縮フォーマットである送信方式をサポートする、
    請求項19に記載のコンピュータシステム。
  21. 前記第1通信プロトコルは、
    非圧縮フォーマットまたは圧縮フォーマットである送信方式をサポートする、
    請求項19に記載のコンピュータシステム。
  22. 前記電子機器は、
    前記イマーシブオーディオトラックにより、前記オーディオファイルとメタデータを受信し、
    デコーダを利用して、前記オーディオファイルとメタデータとに対してデコードし、
    前記メタデータの前記空間的特徴に基づいて、前記オーディオファイルをレンダリングすることにより、前記現場の臨場感を実現する、
    請求項19に記載のコンピュータシステム。
JP2021190471A 2020-11-24 2021-11-24 ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法 Pending JP2022083444A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0158485 2020-11-24
KR20200158485 2020-11-24
KR1020210072523A KR102505249B1 (ko) 2020-11-24 2021-06-04 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
KR10-2021-0072523 2021-06-04

Publications (1)

Publication Number Publication Date
JP2022083444A true JP2022083444A (ja) 2022-06-03

Family

ID=81780019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021190471A Pending JP2022083444A (ja) 2020-11-24 2021-11-24 ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法

Country Status (3)

Country Link
US (1) US11942096B2 (ja)
JP (1) JP2022083444A (ja)
KR (3) KR102505249B1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022083443A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
JP2022083445A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
KR102505249B1 (ko) 2020-11-24 2023-03-03 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0415693A (ja) * 1990-05-09 1992-01-21 Sony Corp 音源情報制御装置
JP2005150993A (ja) * 2003-11-13 2005-06-09 Sony Corp オーディオデータ処理装置、およびオーディオデータ処理方法、並びにコンピュータ・プログラム
JP2014520491A (ja) * 2011-07-01 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 向上した3dオーディオ作成および表現のためのシステムおよびツール
JP2014522155A (ja) * 2011-07-01 2014-08-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオ信号生成、コーディング、及びレンダリングのためのシステムと方法
JP2014526168A (ja) * 2011-07-01 2014-10-02 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオシステムのための同期及びスイッチオーバ方法及びシステム
JP2015527609A (ja) * 2012-07-09 2015-09-17 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号の符号化及び復号
WO2015182492A1 (ja) * 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
WO2016171002A1 (ja) * 2015-04-24 2016-10-27 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2019069710A1 (ja) * 2017-10-05 2019-04-11 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP2019097162A (ja) * 2017-11-27 2019-06-20 ノキア テクノロジーズ オーユー レンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェース、および/またはレンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェースをレンダリングする方法
JP2019535216A (ja) * 2016-09-28 2019-12-05 ノキア テクノロジーズ オーユー 空間オーディオシステムにおける利得制御
JP2020519950A (ja) * 2017-05-09 2020-07-02 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル空間的オーディオ・フォーマット入力信号の処理

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102549655B (zh) * 2009-08-14 2014-09-24 Dts有限责任公司 自适应成流音频对象的系统
CN109102815B (zh) * 2013-01-21 2023-09-19 杜比实验室特许公司 编码装置和方法、转码方法和转码器、非暂态介质
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
KR102395351B1 (ko) * 2013-07-31 2022-05-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
GB2549532A (en) 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
IL311069A (en) * 2017-02-28 2024-04-01 Magic Leap Inc Virtual and real object registration in a mixed reality device
AR112451A1 (es) * 2017-07-14 2019-10-30 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción de campo de sonido multi-punto
GB2567172A (en) 2017-10-04 2019-04-10 Nokia Technologies Oy Grouping and transport of audio objects
US11699451B2 (en) * 2018-07-02 2023-07-11 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
US11622219B2 (en) 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
US11758345B2 (en) 2020-10-09 2023-09-12 Raj Alur Processing audio for live-sounding production
JP2022083445A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
KR102505249B1 (ko) 2020-11-24 2023-03-03 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
JP2022083443A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0415693A (ja) * 1990-05-09 1992-01-21 Sony Corp 音源情報制御装置
JP2005150993A (ja) * 2003-11-13 2005-06-09 Sony Corp オーディオデータ処理装置、およびオーディオデータ処理方法、並びにコンピュータ・プログラム
JP2014520491A (ja) * 2011-07-01 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 向上した3dオーディオ作成および表現のためのシステムおよびツール
JP2014522155A (ja) * 2011-07-01 2014-08-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオ信号生成、コーディング、及びレンダリングのためのシステムと方法
JP2014526168A (ja) * 2011-07-01 2014-10-02 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオシステムのための同期及びスイッチオーバ方法及びシステム
JP2015527609A (ja) * 2012-07-09 2015-09-17 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号の符号化及び復号
WO2015182492A1 (ja) * 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
WO2016171002A1 (ja) * 2015-04-24 2016-10-27 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2019535216A (ja) * 2016-09-28 2019-12-05 ノキア テクノロジーズ オーユー 空間オーディオシステムにおける利得制御
JP2020519950A (ja) * 2017-05-09 2020-07-02 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル空間的オーディオ・フォーマット入力信号の処理
WO2019069710A1 (ja) * 2017-10-05 2019-04-11 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP2019097162A (ja) * 2017-11-27 2019-06-20 ノキア テクノロジーズ オーユー レンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェース、および/またはレンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェースをレンダリングする方法

Also Published As

Publication number Publication date
US11942096B2 (en) 2024-03-26
KR20220071869A (ko) 2022-05-31
KR102500694B1 (ko) 2023-02-16
US20230132374A9 (en) 2023-04-27
KR102508815B1 (ko) 2023-03-14
US20220392457A1 (en) 2022-12-08
KR102505249B1 (ko) 2023-03-03
KR20220071868A (ko) 2022-05-31
KR20220071867A (ko) 2022-05-31

Similar Documents

Publication Publication Date Title
JP2022083444A (ja) ユーザカスタム型臨場感を実現するためのオーディオコンテンツを送信するコンピュータシステムおよびその方法
US10129682B2 (en) Method and apparatus to provide a virtualized audio file
US8223851B2 (en) Method and an apparatus for embedding data in a media stream
JP2022083445A (ja) ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
US20140133658A1 (en) Method and apparatus for providing 3d audio
CN110545887B (zh) 增强/虚拟现实空间音频/视频的流式传输
JP2022083443A (ja) オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
WO2018026963A1 (en) Head-trackable spatial audio for headphones and system and method for head-trackable spatial audio for headphones
JP2022511159A (ja) 異なるフォーマットで捕捉されたオーディオ信号を、エンコードおよびデコード動作を簡単にするために、より少数のフォーマットに変換すること
US10667074B2 (en) Game streaming with spatial audio
CN117041607A (zh) 用于音频渲染的方法和装置
KR20120139666A (ko) 복수의 내장형 오디오 제어기를 포함하는 휴대용 컴퓨터
CN114915874A (zh) 音频处理方法、装置、设备、介质及程序产品
CN114339297B (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
Suzuki et al. AnnoTone: Record-time audio watermarking for context-aware video editing
Goode Toward a telepresence of sound: Video conferencing in spatial audio
GB2575509A (en) Spatial audio capture, transmission and reproduction
Kares et al. Streaming immersive audio content
JP2023008889A (ja) ユーザカスタム型の臨場感を実現するためのオーディオコンテンツを処理するコンピュータシステムおよびその方法
Baume et al. Scaling New Heights in Broadcasting using Ambisonics
Diaz et al. Live panorama and 3D audio streaming to mobile VR
US20210314722A1 (en) Ultrasonic messaging in mixed reality
CN115364482A (zh) 游戏音效制作系统、方法、介质、终端设备及音频制作端
JP5358033B1 (ja) ラジオ番組配信システム、ラジオ番組連動処理方法及びラジオ番組連動処理プログラム
KR20100125118A (ko) 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230925

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240507

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240515