JP2023508130A - テレカンファレンスの方法 - Google Patents

テレカンファレンスの方法 Download PDF

Info

Publication number
JP2023508130A
JP2023508130A JP2022535698A JP2022535698A JP2023508130A JP 2023508130 A JP2023508130 A JP 2023508130A JP 2022535698 A JP2022535698 A JP 2022535698A JP 2022535698 A JP2022535698 A JP 2022535698A JP 2023508130 A JP2023508130 A JP 2023508130A
Authority
JP
Japan
Prior art keywords
audio
media
weight
media stream
overlay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022535698A
Other languages
English (en)
Inventor
アビシェーク,ロヒット
ソダガァ,イラジ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023508130A publication Critical patent/JP2023508130A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/50Telephonic communication in combination with video communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction

Abstract

本開示の態様は、テレカンファレンスの方法及び装置を提供する。いくつかの例で、テレカンファレンス装置はプロセッシング回路を含む。第1デバイスのプロセッシング回路は、第1オーディオを運ぶ第1メディアストリームと、第2オーディオを運ぶ第2メディアストリームとを受信する。プロセッシング回路は、第1オーディオを重み付けする第1オーディオ重みと、第2オーディオを重み付けする第2オーディオ重みとを受け取り、第1オーディオ重みに基づいた重み付き第1オーディオと、第2オーディオ重みに基づいた重み付き第2オーディオとを結合することによって、混合オーディオを生成する。

Description

[参照による援用]
本特許出願は、2020年10月6日付けで「NETWORK BASED MEDIA PROCESSING FOR AUDIO AND VIDEO MIXING FOR TELECONFERENCING AND TELEPRESENCE FOR REMOTE TERMINALS」との発明の名称で出願された米国特許仮出願第63/088300号と、2020年12月11日付けで「AUDIO MIXING METHODS FOR TELECONFERENCING AND TELEPRESENCE FOR REMOTE TERMINALS」との発明の名称で出願された米国特許仮出願第63/124261号とに対する優先権の利益を主張して、2021年5月21日付けで「METHOD AND APPARATUS FOR TELECONFERENCE」との発明の名称で出願された米国特許出願第17/327400号に対する優先権の利益を主張するものである。これら先願の全ての開示は、それらの全文を参照により本願に援用される。
[技術分野]
本開示は、テレカンファレンスに概して関係がある実施形態について記載する。
ここで与えられている背景の記載は、本開示の背景を一般的に提示することを目的とする。現在指名されている発明者の研究は、この背景の項目に記載されている範囲で、また、出願時に先行技術としてさもなければ適格ではない可能性のある記載の側面は、明示的にも暗黙的にも、本開示に対する先行技術として認められない。
テレカンファレンスシステムは、2箇所以上の離れた場所にいるユーザが、ビデオストリーム、オーディオストリーム、又はその両方といったメディアストリームを介して互いに相互作用的にやりとりすることを可能にする。いくつかのテレカンファレンスシステムはまた、ユーザが画像、テキスト、ビデオ、アプリケーション、などのようなデジタル文書を交換することも可能にする。
本開示の態様は、テレカンファレンスの方法及び装置を提供する。いくつかの例で、テレカンファレンス装置はプロセッシング回路を含む。第1デバイス(例えば、ネットワークベースのメディアプロセッシングのためのユーザデバイス又はサーバ)のプロセッシング回路は、第2デバイスから、第1オーディオを運ぶ第1メディアストリームと、第2オーディオを運ぶ第2メディアストリームとを受信する。プロセッシング回路は、第2デバイスから、第1オーディオを重み付けする第1オーディオ重みと、第2オーディオを重み付けする第2オーディオ重みとを受け取り、第1オーディオ重みに基づいた重み付き第1オーディオと、第2オーディオ重みに基づいた重み付き第2オーディオとを結合することによって、混合オーディオを生成する。
いくつかの例で、第1デバイスはユーザデバイスである。第1デバイスは、第1デバイスに関連したスピーカを通じて、混合オーディオを再生することができる。
例において、第1デバイスは、カスタマイズパラメータに基づき第1オーディオ重み及び第2オーディオ重みをカスタマイズするために第2デバイスへカスタマイズパラメータを送る。
いくつかの例で、第1オーディオ重み及び第2オーディオ重みは、第2デバイスによって、第1オーディオ及び第2オーディオの音の強さに基づき決定される。
いくつかの例で、第1オーディオ及び第2オーディオは、オーバーレイオーディオであり、プロセッシング回路は、第1オーディオ及び第2オーディオのオーバーレイ優先度に基づき第2デバイスによって決定される第1オーディオ重み及び第2オーディオ重みを受け取る。
いくつかの例で、第1オーディオ重み及び第2オーディオ重みは、アクティブスピーカの検出に基づき第2デバイスによって調整される。
いくつかの例で、第1メディアストリームは、没入型メディアコンテンツを含み、第2メディアストリームは、オーバーレイメディアコンテンツを含み、第1オーディオ重みは、第2オーディオ重みとは異なる。
いくつかの実施形態で、第1デバイスは、ネットワークベースのメディアプロセッシングデバイスである。プロセッシング回路は、混合オーディオを第3メディアストリームにエンコードし、第1デバイスのインターフェース回路を介して、第3メディアストリームをユーザデバイスへ送信する。いくつかの例で、プロセッシング回路は、インターフェース回路を介して、第3メディアストリームと、没入型メディアコンテンツを含む第4メディアストリームとを送信する。第3メディアストリームは、第4メディアストリームに対するオーバーレイである。
本開示のいくつかの態様に従って、第1デバイス(例えば、ネットワークベースのメディアプロセッシングのためのサーバ)のプロセッシング回路は、テレカンファレンスセッションの第1メディアコンテンツを運ぶ第1メディアストリームと、テレカンファレンスセッションの第2メディアコンテンツを運ぶ第2メディアストリームとを受信する。プロセッシング回路は、第1メディアコンテンツと第2メディアコンテンツとを混合する第3メディアコンテンツを生成し、伝送回路を介して、第3メディアコンテンツを運ぶ第3メディアストリームを第2デバイスへ送信する。
いくつかの実施形態で、第1デバイスのプロセッシング回路は、第1メディアコンテンツ内の第1オーディオを第2メディアコンテンツ内の第2オーディオと混合して、第1オーディオに割り当てられた第1オーディオ重みと、第2オーディオに割り当てられた第2オーディオ重みとに基づき、第3オーディオを生成する。いくつかの例で、第1オーディオ重み及び第2オーディオ重みは、第1メディアストリーム及び第2メディアストリームを送信するホストデバイスから受け取られる。いくつかの例では、第1デバイスが、第1オーディオ重み及び第2オーディオ重みを決定することができる。
いくつかの例で、第1メディアストリームは、没入型メディアストリームであり、第2メディアストリームは、オーバーレイメディアストリームであり、第1デバイスのプロセッシング回路は、値が異なる第1オーディオ重み及び第2オーディオ重みに基づき、第1オーディオを第2オーディオと混合する。
いくつかの例で、第1メディアストリーム及び第2メディアストリームは、オーバーレイメディアストリームであり、第1デバイスのプロセッシング回路は、等しい値の第1オーディオ重み及び第2オーディオ重みに基づき、第1オーディオを第2オーディオと混合する。
いくつかの例で、第1メディアストリーム及び第2メディアストリームは、オーバーレイメディアストリームであり、第1デバイスのプロセッシング回路は、第1メディアストリーム及び第2メディアストリームのオーバーレイ優先度に関連する第1オーディオ重み及び第2オーディオ重みに基づき、第1オーディオを第2オーディオと混合する。
本開示のいくつかの態様に従って、第1デバイス(例えば、没入型メディアコンテンツを生成するホストデバイス)は、第2デバイスへ、第1オーディオを運ぶ第1メディアストリームと、第2オーディオを運ぶ第2メディアストリームとを送信することができる。第1デバイスは、第1オーディオを重み付けする第1オーディオ重みと、第2オーディオを重み付けする第2オーディオ重みとを決定し、第2デバイスへ、第1オーディオと第2オーディオとを混合するために第1オーディオ重み及び第2オーディオ重みを送信することができる。
いくつかの例で、第1デバイスは、セッション記述プロトコルに基づきカスタマイズパラメータを受け取り、カスタマイズパラメータに基づき第1オーディオ重み及び第2オーディオ重みを決定する。
いくつかの例で、第1デバイスは、第1オーディオ及び第2オーディオの音の強さに基づき、第1オーディオ重み及び第2オーディオ重みを決定する。
いくつかの例で、第1オーディオ及び第2オーディオは、オーバーレイオーディオであり、第1デバイスは、第1オーディオ及び第2オーディオのオーバーレイ優先度に基づき、第1オーディオ重み及び第2オーディオ重みを決定する。
いくつかの例で、第1デバイスは、第1オーディオ及び第2オーディオの一方でのアクティブスピーカの検出に基づき、第1オーディオ重み及び第2オーディオ重みを決定する。
いくつかの例で、第1メディアストリームは、没入型メディアコンテンツを含み、第2メディアストリームは、オーバーレイメディアストリームである。第1デバイスは、第1オーディオ重み及び第2オーディオ重みに対して異なる値を決定する。
本開示の態様はまた、テレカンファレンス用のコンピュータによって実行される場合に、コンピュータにテレカンファレンス方法を実行させる命令を記憶している非一時的なコンピュータ可読媒体も提供する。
開示されている主題の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面から、より明らかになるだろう。
本開示のいくつかの例に従うテレカンファレンスシステムを示す。 本開示のいくつかの例に従う他のテレカンファレンスシステムを示す。 本開示のいくつかの例に従う他のテレカンファレンスシステムを示す。 本開示のいくつかの例に従うプロセスを説明するフローチャートを示す。 本開示のいくつかの例に従うプロセスを説明するフローチャートを示す。 本開示のいくつかの例に従うプロセスを説明するフローチャートを示す。 本開示に従うコンピュータシステムの概略図である。
本開示の態様は、テレカンファレンスのための、オーディオ混合、ビデオ混合、などのようなメディア混合の技術を提供する。いくつかの例で、テレカンファレンスはオーディオカンファレンスであることができ、テレカンファレンスの参加者は、オーディオストリームによりやりとりする。いくつかの例で、テレカンファレンスはビデオカンファレンスであり、テレカンファレンスの参加者は、ビデオ及び/又はオーディオを含むことができるメディアストリームによりやりとりすることができる。いくつかの例で、メディア混合は、サーバデバイスなどのような、ネットワークベースのメディアプロセッシング要素によって、実行される。いくつかの例で、メディア混合は、エンドユーザデバイス(ユーザデバイスとも呼ばれる)によって、実行される。
本開示のいくつかの態様に従って、メディア混合技術は、様々なテレカンファレンスシステムで実行可能である。図1から図3は、いくつかのテレカンファレンスシステムを示す。
図1は、本開示のいくつかの例に従うテレカンファレンスシステム(100)を示す。テレカンファレンスシステム(100)は、サブシステム(110)と、ユーザデバイス(120)及び(130)のような、複数のユーザデバイスとを含む。サブシステム(110)は、会議室Aなどの場所に設置される。一般に、サブシステム(110)は、ユーザデバイス(120)及び(130)よりも相対的に高いバンド幅を有するよう構成されており、また、テレカンファレンスセッション(テレカンファレンスコールとも呼ばれる)のホストサービスを提供することができる。サブシステム(110)は、会議室Aにいるユーザ又は参加者がテレカンファレンスセッションに参加することを可能にすることができ、また、ユーザデバイス(120)のユーザB及びユーザデバイス(130)のユーザCのような、幾人かの遠隔のユーザが、遠く離れた場所からテレカンファレンスセッションに参加することを可能にすることができる。いくつかの例で、サブシステム(110)並びにユーザデバイス(120)及び(130)は、テレカンファレンスセッションにおける端末と呼ばれる。
いくつかの実施形態で、サブシステム(110)は、会議室に適している様々なオーディオ、ビデオ、及び制御コンポーネントを含む。様々なオーディオ、ビデオ、及び制御コンポーネントは、デバイスに組み込み可能であり、あるいは、適切な通信技術により連結されている分散したコンポーネントであることができる。いくつかの例で、サブシステム(110)は、比較的に広い視野を有している魚眼カメラ、全方位カメラ、などのような広角カメラ(111)を含む。例えば、全方位カメラは、おおよそ全球をカバーする視野を有するよう構成され得、全方位カメラによって撮影されたビデオは、全方位ビデオ又は360度ビデオと呼ばれ得る。
更に、いくつかの例で、サブシステム(110)は、おおよそ如何なる方向からも音波を捕捉することができる全指向性(無指向性とも呼ばれる)マイクなどのマイク(112)を含む。サブシステム(110)は、会議室Aにいるユーザが、会議室A以外の場所にいるユーザのビデオ及びオーディオに対応するマルチメディアを再生することを可能にするよう、表示スクリーン(114)、スピーカデバイス、などを含むことができる。例において、スピーカデバイスは、マイク(112)と一体化可能であり、あるいは、別個のコンポーネント(図示せず)であることができる。
例において、サブシステム(110)はコントローラ(113)を含む。ラップトップコンピュータデバイスが図1ではコントローラ(113)と示されている一方で、デスクトップコンピュータ、タブレットコンピュータ、などのような他の適切なデバイスがコントローラ(113)として使用されてもよい。また、例において、コントローラ(113)は、サブシステム(110)の他のコンポーネントと一体化されてもよいことが留意される。
コントローラ(113)は、サブシステム(110)の様々な制御機能を実行するよう構成され得る。例えば、コントローラ(113)は、テレカンファレンスセッションを開始し、サブシステム(110)とユーザデバイス(120)及び(130)との値の通信を管理するために使用され得る。例において、コントローラ(113)は、ビデオ及び/又はオーディオを運ぶメディアストリームを生成するよう会議室Aで捕捉された(例えば、カメラ(111)及びマイク(112)によって捕捉された)ビデオ及び/又はオーディオをエンコードすることができ、また、メディアストリームをユーザデバイス(120)及び(130)へ伝送させることができる。
更に、いくつかの例で、コントローラ(113)は、テレカンファレンスシステム(100)のユーザデバイス(ユーザデバイス(120)及び(130))の夫々から、各々のユーザデバイスで捕捉されたオーディオ及び/又はビデオを運ぶメディアストリームを受信することができる。コントローラ(113)は、受信されたメディアストリームをテレカンファレンスシステムの他のユーザデバイスへアドレッシング及び送信することができる。例えば、コントローラ(113)は、ユーザデバイス(120)からメディアストリームを受信し、メディアストリームをユーザデバイス(130)へアドレッシング及び送信することができ、また、ユーザデバイス(130)から他のメディアストリームを受信し、他のメディアストリームをユーザデバイス(120)へアドレッシング及び送信することができる。
更に、いくつかの例で、コントローラ(113)は、オーディオ、ビデオ混合パラメータ、などのような適切なテレカンファレンスパラメータを決定し、テレカンファレンスパラメータをユーザデバイス(120)及び(130)へ送信することができる。
いくつかの例で、コントローラ(113)は、表示スクリーン(114)、ラップトップコンピュータデバイスのスクリーン、などのようなスクリーンでのユーザインターフェイスの表示に会議室Aでのユーザ入力を促進させることができる。
ユーザデバイス(120)及び(130)の夫々は、デスクトップコンピュータ、ラップトップコンピュータ。タブレットコンピュータ、ウェアラブルデバイス、ハンドヘルドデバイス、スマートフォン、モバイル型デバイス、埋め込み型デバイス、ゲーム機、ゲーミングデバイス、パーソナル・デジタル・アシスタント(PDA)、電気通信デバイス、グローバル・ポジショニング・システム(“GPS”)デバイス、仮想現実(“VR”)デバイス、拡張現実(AR)デバイス、インプラント型コンピュータデバイス、自動車コンピュータ、ネットワーク対応テレビ、インターネット・オブ・シングス(“IoT”)デバイス、ワークステーション、メディアプレイヤー、パーソナル・ビデオ・レコーダ(PVR)、セットトップボックス、カメラ、コンピュータデバイスに含まれる内蔵コンポーネント(例えば、周辺機器)、アプライアンス、又はあらゆる他の種類のコンピュータデバイスなどの如何なる適切なテレカンファレンス対応装置であることもできる。
図1の例では、ユーザデバイス(120)は、ユーザBなどのユーザがテレカンファレンスシステムに参加することを可能にするウェアラブルマルチメディアコンポーネントを含む。例えば、ユーザデバイス(120)は、ユーザBの頭に装着可能であるヘッド・マウンテッド・ディスプレイ(HMD)を含む。HMDは、ビデオを再生するようユーザBの片目又は両目の前に表示オプティックを含むことができる。他の例においては、ユーザデバイス(120)は、ユーザBによって装着可能であるヘッドセット(図示せず)を含む。ヘッドセットは、ユーザの声を捕捉するマイクを含み、かつ、オーディオサウンドを出力する1つ又は2つのイヤピースを含むことができる。ユーザデバイス(120)はまた、メディアストリームを送信及び/又は受信することができる適切な通信コンポーネント(図示せず)も含む。
図1の例では、ユーザデバイス(130)は、ユーザCなどのユーザがテレカンファレンスセッションに参加することを可能にするために通信コンポーネント、イメージングコンポーネント、オーディオコンポーネント、などを一緒に組み込むスマートフォンなどのようなモバイルデバイスであることができる。
図1の例では、サブシステム(110)、ユーザデバイス(120)及びユーザデバイス(130)は、ネットワーク(101)とインターフェース接続することができる適切な通信コンポーネント(図示せず)を含む。通信コンポーネントは、ネットワーク(101)などのようなネットワーク上で通信及び/又はデータを送信及び受信するよう1つ以上のネットワーク・インターフェース・コントローラ(NIC)又は他のタイプのトランシーバ回路を含むことがある。
ネットワーク(101)は、例えば、インターネットなどの公衆ネットワーク、公共機関及び/又は個人イントラネットなどのプライベートネットワーク、又はプライベートネットワークと公衆ネットワークとのある組み合わせを含んでもよい。ネットワーク(101)はまた、ローカル・エリア・ネットワーク(“LAN”)、ワイド・エリア・ネットワーク(“WAN”)、衛星ネットワーク、ケーブルネットワーク、Wi-Fiネットワーク、Wi-Maxネットワーク、モバイル通信ネットワーク(例えば、3G、4G、5Gなど)、又はそれらの任意の組み合わせを含むがこれらに限られないあらゆるタイプの有線及び/又は無線ネットワークも含んでもよい。ネットワーク(101)は、インターネットプロトコル(“IP”)、伝送制御プロトコル(“TCP”)、ユーザデータグラムプロトコル(“UDP”)、又は他のタイプのプロトコルなどのパケットベース及び/又はデータグラムベースのプロトコルを含む通信プロトコル利用してもよい。更に、ネットワーク(101)はまた、ネットワーク通信を促進し、かつ/あるいは、スイッチ、ルータ、ゲートウェイ、アクセスポイント、ファイヤウォール、基地局、中継局、バックボーンデバイス、などのような、ネットワークのためのハードウェア基礎を形成する多数のデバイスを含んでもよい。いくつかの例で、ネットワーク(101)は、ワイヤレス・アクセス・ポイント(“WAP”)などの、無線ネットワークへの接続を可能にするデバイスを更に含んでもよい。
図1の例では、サブシステム(110)は、ピア・ツー・ピア技術を使用してテレカンファレンスセッションをホストすることができる。例えば、ユーザデバイス(120)がテレカンファレンスセッションに参加した後、ユーザデバイス(120)は、パケットを(例えば、サブシステム(110)のIPアドレスを使用して)適切にアドレッシングし、パケットをサブシステム(110)へ送信することができ、また、サブシステム(110)は、パケットを(例えば、ユーザデバイス(120)のIPアドレスを使用して)適切にアドレッシングし、パケットをユーザデバイス(120)へ送信することができる。パケットは、メディアストリーム、確認応答、制御パラメータ、などのような様々な情報及びデータを運ぶことができる。
いくつかの例で、テレカンファレンスシステム(100)は、没入型テレカンファレンス(immersive teleconferencing)のテレカンファレンスセッションを提供することができる。例えば、テレカンファレンスセッション中、サブシステム(110)は、全方位カメラ及び/又は全指向性マイクを用いて全方位ビデオ/オーディオなどの没入型メディアを生成するよう構成される。例において、ユーザデバイス(120)のHMDは、ユーザBの頭の動きを検出し、頭の動きに基づきユーザBのビューポートの向きを決定することができる。ユーザデバイス(120)は、ユーザBのビューポートの向きをサブシステム(110)へ送信することができ、サブシステム(110)は、それから、ユーザBのビューポートの向きに基づき調整されるビデオストリーム(ユーザBのビューポートの向きに基づき調整されるビデオを運ぶメディアストリーム)、ユーザBのビューポートの向きに基づき調整されるオーディオストリーム(ユーザBのビューポートの向きに基づき調整されるオーディオを運ぶメディアストリーム)、などのようなビューポート依存ストリームを、ユーザデバイス(120)での再生のために、ユーザデバイス(120)へ送信することができる。
他の例においては、ユーザCは、ユーザデバイス(130)を使用して、ユーザCのビューポートの向きを(例えば、スマートフォンのタッチスクリーンを用いて)入力することができる。ユーザデバイス(130)は、ユーザCのビューポートの向きをサブシステム(110)へ送信することができ、サブシステム(110)は、それから、ユーザCのビューポートの向きに基づき調整されるビデオストリーム(ユーザCのビューポートの向きに基づき調整されるビデオを運ぶメディアストリーム)、ユーザCのビューポートの向きに基づき調整されるオーディオストリーム(ユーザCのビューポートの向きに基づき調整されるオーディオを運ぶメディアストリーム)、などのようなビューポート依存ストリームを、ユーザデバイス(130)での再生のために、ユーザデバイス(130)へ送信することができる。
テレカンファレンスセッション中、ユーザB及び/又はユーザCのビューポートの向きは変化する可能性があることが留意される。ビューポートの向きの変化は、サブシステム(110)へ通知され得、サブシステム(110)は、ユーザデバイス(120)及びユーザデバイス(130)へ夫々送信される各々のビューポート依存ストリームにおいてビューポートの向きを調整することができる。
説明を簡単にするために、没入型メディアは、全方位ビデオや、全方位オーディオなどの広角メディアに言及するために、かつ、広角メディアに基づき生成されるビューポート依存ストリームに言及するために、使用される。本開示では、360度ビデオや、360度オーディオなどのような360度メディアが、テレカンファレンスのための技術を説明するために使用されるが、テレカンファレンスの技術は、360度に満たない没入型メディアで使用可能であることが留意される。
図2は、本開示のいくつかの例に従う他のテレカンファレンスシステム(200)を示す。テレカンファレンスシステム(200)は、会議室Aから会議室Zに夫々設置されているサブシステム(210A)~(210Z)のような多数のサブシステムと、ユーザデバイス(220)及び(230)のような複数のユーザデバイスとを含む。サブシステム(210A)~(210Z)の1つは、テレカンファレンスセッションを開始し、他のサブシステム並びにユーザデバイス(220)及びユーザデバイス(230)のようなユーザデバイスがテレカンファレンスセッションに参加することを可能にすることができる。よって、会議室A~Zにいるユーザ、ユーザデバイス(220)のユーザB、及びユーザデバイス(230)のユーザCのようなユーザは、テレカンファレンスセッションに参加することができる。いくつかの例で、サブシステム(210A)~(210Z)並びにユーザデバイス(220)及び(230)は、テレカンファレンスセッションにおける端末と呼ばれる。
いくつかの実施形態で、サブシステム(210A)~(210Z)の夫々は、上記のサブシステム(110)と同じように動作する。更に、サブシステム(210A)~(210Z)の夫々は、サブシステム(110)で使用されているものと同じ又は同等である特定のコンポーネントを利用する。これらのコンポーネントの説明は、上述されており、明りょうさのためにここでは省略される。サブシステム(210A)~(210Z)は、互いに異なるように構成され得ることが留意される。
ユーザデバイス(220)及び(230)は、上記のユーザデバイス(120)及び(130)と同じように構成され、また、ネットワーク(201)は、ネットワーク(101)と同じように構成される。これらのコンポーネントの説明は、上述されており、明りょうさのためにここでは省略される。
いくつかの実施形態で、サブシステム(210A)~(210Z)の1つは、テレカンファレンスセッションを開始することができ、サブシステム(210A)~(210Z)の残り並びにユーザデバイス(220)及び(230)は、テレカンファレンスセッションに参加することができる。
本開示の態様に従って、没入型テレカンファレンスのテレカンファレンスセッション中、サブシステム(210A)~(210Z)の中の複数のサブシステムが各々の没入型メディアを生成することができ、また、ユーザデバイス(220)及び(230)は、サブシステム(210A)~(210Z)から、没入型メディアを供給する1つを選択することができる。一般に、サブシステム(210A)~(210Z)は、比較的に高いバンド幅を有するよう構成されており、没入型メディアを供給するホストとして夫々動作することができる。
例において、ユーザデバイス(220)がテレカンファレンスセッションに参加した後、ユーザデバイス(220)は、サブシステム(210A)~(210Z)のうちの1つ、例えば、サブシステム(210A)を、没入型メディアのホストとして選択することができる。ユーザデバイス(220)は、パケットをアドレッシングし、パケットをサブシステム(210A)へ送信することができ、また、サブシステム(210A)は、パケットをアドレッシングし、パケットをユーザデバイス(220)へ送信することができる。パケットは、メディアストリーム、制御パラメータ、などのような如何なる適切な情報/データも含むことができる。いくつかの例で、サブシステム(210A)は、調整されたメディア情報をユーザデバイス(220)へ送信することができる。ユーザデバイス(220)は、テレカンファレンスセッション中にサブシステム(210A)~(210Z)からの選択を変えることができることが留意される。
例において、ユーザデバイス(220)のHMDは、ユーザBの頭の動きを検出し、頭の動きに基づきユーザBのビューポートの向きを決定することができる。ユーザデバイス(220)は、ユーザBのビューポートの向きをサブシステム(210A)へ送信することができ、サブシステム(210A)は、それから、ユーザBのビューポートの向きに基づき調整されるビデオストリーム、ユーザBのビューポートの向きに基づき調整されるオーディオストリーム、などのようなビューポート依存ストリームを、ユーザデバイス(220)での再生のために、ユーザデバイス(220)へ送信することができる。
他の例においては、ユーザデバイス(230)がテレカンファレンスセッションに参加した後、ユーザデバイス(230)は、サブシステム(210A)~(210Z)のうちの1つ、例えば、サブシステム(210Z)を、没入型メディアのホストとして選択することができる。ユーザデバイス(230)は、パケットをアドレッシングし、パケットをサブシステム(210Z)へ送信することができ、また、サブシステム(210Z)は、パケットをアドレッシングし、パケットをユーザデバイス(230)へ送信することができる。パケットは、メディアストリーム、制御パラメータ、などのような如何なる適切な情報/データも含むことができる。いくつかの例で、サブシステム(210Z)は、調整されたメディア情報をユーザデバイス(230)へ送信することができる。ユーザデバイス(230)は、テレカンファレンスセッション中にサブシステム(210A)~(210Z)からの選択を変えることができることが留意される。
他の例においては、ユーザCは、ユーザデバイス(230)を使用して、ユーザCのビューポートの向きを(例えば、スマートフォンのタッチスクリーンを用いて)入力することができる。ユーザデバイス(230)は、ユーザCのビューポートの向きをサブシステム(210Z)へ送信することができ、サブシステム(210Z)は、それから、ユーザCのビューポートの向きに基づき調整されるビデオストリーム、ユーザCのビューポートの向きに基づき調整されるオーディオストリーム、などのようなビューポート依存ストリームを、ユーザデバイス(230)での再生のために、ユーザデバイス(230)へ送信することができる。
テレカンファレンスセッション中、ユーザ(例えば、ユーザB、ユーザC)のビューポートの向きは変化する可能性があることが留意される。例えば、ユーザBのビューポートの向きの変化は、ユーザBによって選択されたサブシステムへ通知され得、ユーザBによって選択されたサブシステムは、それに応じて、ユーザデバイス(220)へ送信されるビューポート依存ストリームにおいてビューポートの向きを調整することができる。
説明を簡単にするために、没入型メディアは、全方位ビデオや、全方位オーディオなどの広角メディアに言及するために、かつ、広角メディアに基づき生成されるビューポート依存ストリームに言及するために、使用される。本開示では、360度ビデオや、360度オーディオなどのような360度メディアが、テレカンファレンスのための技術を説明するために使用されるが、テレカンファレンスの技術は、360度に満たない没入型メディアで使用可能であることが留意される。
図3は、本開示のいくつかの例に従う他のテレカンファレンスシステム(300)を示す。テレカンファレンスシステム(300)は、ネットワークベースのメディアプロセッシングサーバ(340)と、会議室Aから会議室Bに夫々設置されているサブシステム(310A)~(310Z)のような多数のサブシステムと、ユーザデバイス(320)及び(330)のようなユーザデバイスとを含む。ネットワークベースのメディアプロセッシングサーバ(340)は、テレカンファレンスセッションをセットアップし、サブシステム(310A)~(310Z)並びにユーザデバイス(320)及び(330)のようなユーザデバイスがテレカンファレンスセッションに参加することを可能にすることができる。よって、会議室A~Zにいるユーザ、ユーザデバイス(320)のユーザB、及びユーザデバイス(330)のユーザCのようなユーザは、テレカンファレンスセッションに参加することができる。
いくつかの例で、サブシステム(310A)~(310Z)並びにユーザデバイス(320)及び(330)は、テレカンファレンスセッションにおける端末と呼ばれ、ネットワークベースのメディアプロセッシングサーバ(340)は、テレカンファレンスセッションにおける端末を橋渡しすることができる。いくつかの例で、ネットワークベースのメディアプロセッシングサーバ(340)は、メディアアウェアネットワーキング要素と呼ばれる。ネットワークベースのメディアプロセッシングサーバ(340)は、メディアリソース機能(MRF)を実行することができ、かつ、メディア制御ユニット(MCU)としてメディア制御機能を実行することができる。
いくつかの実施形態で、サブシステム(310A)~(310Z)の夫々は、上記のサブシステム(110)と同じように動作する。更に、サブシステム(310A)~(310Z)の夫々は、サブシステム(110)で使用されているものと同じ又は同等である特定のコンポーネントを利用する。これらのコンポーネントの説明は、上述されており、明りょうさのためにここでは省略される。サブシステム(310A)~(310Z)は、互いに異なるように構成され得ることが留意される。
ユーザデバイス(320)及び(330)は、上記のユーザデバイス(120)及び(130)と同じように構成され、また、ネットワーク(301)は、ネットワーク(101)と同じように構成される。これらのコンポーネントの説明は、上述されており、明りょうさのためにここでは省略される。
いくつかの例で、ネットワークベースのメディアプロセッシングサーバ(340)は、テレカンファレンスセッションを開始することができる。例えば、サブシステム(310A)~(310Z)並びにユーザデバイス(320)及び(330)のうちの1つは、テレカンファレンスセッションを開始するためにネットワークベースのメディアプロセッシングサーバ(340)にアクセスすることができる。サブシステム(310A)~(310Z)並びにユーザデバイス(320)及び(330)は、テレカンファレンスセッションに参加することができる。更に、ネットワークベースのメディアプロセッシングサーバ(340)は、テレカンファレンスセッションにおける端末を橋渡しするためのメディア関連機能を提供するよう構成される。例えば、サブシステム(310A)~(310Z)は夫々、ビデオ及びオーディオといった各々のメディア情報を運ぶパケットをアドレッシングし、パケットをネットワークベースのメディアプロセッシングサーバ(340)へ送信することができる。ネットワークベースのメディアプロセッシングサーバ(340)へ送られたメディア情報は、ビューポート依存であることが留意される。例えば、サブシステム(310A)~(310Z)は、360度全体ビデオのような各々のビデオをネットワークベースのメディアプロセッシングサーバ(340)へ送信することができる。更に、ネットワークベースのメディアプロセッシングサーバ(340)は、ユーザデバイス(320)及び(330)からビューポートの向きを受信し、メディア処理を実行してメディアを調整し、そして、調整されたメディア情報を各々のユーザデバイスへ送信することができる。
例において、ユーザデバイス(320)がテレカンファレンスセッションに参加した後、ユーザデバイス(320)は、パケットをアドレッシングし、パケットをネットワークベースのメディアプロセッシングサーバ(340)へ送信することができ、また、ネットワークベースのメディアプロセッシングサーバ(340)は、パケットをアドレッシングし、パケットをユーザデバイス(320)へ送信することができる。パケットは、メディアストリーム、制御パラメータ、などのような如何なる適切な情報/データも含むことができる。例において、ユーザBは、ユーザデバイス(320)を使用して、会議室内のサブシステムからのビデオを見るためにその会議室を選択することができる。例えば、ユーザBは、ユーザデバイス(320)を使用して、会議室Aに設置されているサブシステム(310A)からの捕捉されたビデオを見るために会議室Aを選択することができる。更に、ユーザデバイス(320)のHMDは、ユーザBの頭の動きを検出し、頭の動きに基づきユーザBのビューポートの向きを決定することができる。ユーザデバイス(320)は、会議室Aの選択及びユーザBのビューポートの向きをネットワークベースのメディアプロセッシングサーバ(340)へ送信することができ、ネットワークベースのメディアプロセッシングサーバ(340)は、サブシステム(310A)から送信されたメディアを処理し、ユーザBのビューポートの向きに基づき調整されるビデオストリーム、ユーザBのビューポートの向きに基づき調整されるオーディオストリーム、などのようなビューポート依存ストリームを、ユーザデバイス(320)での再生のために、ユーザデバイス(320)へ送信することができる。いくつかの例で、ユーザデバイス(320)が会議室Aを選択する場合に、ユーザデバイス(320)、サブシステム(310A)、及びネットワークベースのメディアプロセッシングサーバ(340)は、セッション記述プロトコル(SDP)に基づき互いに通信することができる。
他の例においては、ユーザデバイス(330)がテレカンファレンスセッションに参加した後、ユーザデバイス(330)は、パケットをアドレッシングし、パケットをネットワークベースのメディアプロセッシングサーバ(340)へ送信することができ、また、ネットワークベースのメディアプロセッシングサーバ(340)は、パケットをアドレッシングし、パケットをユーザデバイス(330)へ送信することができる。パケットは、メディアストリーム、制御パラメータ、などのような如何なる適切な情報/データも含むことができる。いくつかの例で、ネットワークベースのメディアプロセッシングサーバ(340)は、調整されたメディア情報をユーザデバイス(330)へ送信することができる。例えば、ユーザCは、ユーザデバイス(330)を使用して、会議室、例えば、会議室Zの選択と、ユーザCのビューポートの向きとを(例えば、スマートフォンのタッチスクリーンを用いて)入力することができる。ユーザデバイス(330)は、会議室Zの選択及びユーザCのビューポートの向きをネットワークベースのメディアプロセッシングサーバ(340)へ送信することができ、ネットワークベースのメディアプロセッシングサーバ(340)は、サブシステム(310Z)から送信されたメディアを処理し、ユーザCのビューポートの向きに基づき調整されるビデオストリーム、ユーザCのビューポートの向きに基づき調整されるオーディオストリーム、などのようなビューポート依存ストリームを、ユーザデバイス(330)での再生のために、ユーザデバイス(330)へ送信することができる。いくつかの例で、ユーザデバイス(330)が会議室Zを選択する場合に、ユーザデバイス(330)、サブシステム(310Z)、及びネットワークベースのメディアプロセッシングサーバ(340)は、セッション記述プロトコル(SDP)に基づき互いに通信することができる。
テレカンファレンスセッション中、ユーザ(例えば、ユーザB、ユーザC)のビューポートの向きは変化する可能性があることが留意される。例えば、ユーザBのビューポートの向きの変化は、ユーザBによってネットワークベースのメディアプロセッシングサーバ(340)へ通知され得、ネットワークベースのメディアプロセッシングサーバ(340)は、それに応じて、ユーザデバイス(320)へ送信されるビューポート依存ストリームにおいてビューポートの向きを調整することができる。
説明を簡単にするために、没入型メディアは、全方位ビデオや、全方位オーディオなどの広角メディアに言及するために、かつ、広角メディアに基づき生成されるビューポート依存ストリームに言及するために、使用される。本開示では、360度ビデオや、360度オーディオなどのような360度メディアが、テレカンファレンスのための技術を説明するために使用されるが、テレカンファレンスの技術は、360度に満たない没入型メディアで使用可能であることが留意される。
会議室の選択は、テレカンファレンスセッション中に変更される可能性があることが留意される。例において、ユーザデバイス(320)、ユーザデバイス(330)、などのようなユーザデバイスは、アクティブスピーカに基づき、1つの会議室から他の会議室への切り替えをトリガすることができる。例えば、アクティブスピーカが会議室Aにあることに応答して、ユーザデバイス(330)は、会議室の選択を会議室Aに切り替えると決定し、会議室Aの選択をネットワークベースのメディアプロセッシングサーバ(340)へ送信することができる。次いで、ネットワークベースのメディアプロセッシングサーバ(340)は、サブシステム(310A)から送られたメディアを処理し、ユーザCのビューポートの向きに基づき調整されるビデオストリーム、ユーザCのビューポートの向きに基づき調整されるオーディオストリーム、などのようなビューポート依存ストリームを、ユーザデバイス(330)での再生のために、ユーザデバイス(330)へ送信することができる。
いくつかの例で、ネットワークベースのメディアプロセッシングサーバ(340)は、如何なるアクティブなユーザも有していない如何なる会議室からもビデオストリームを受信することを一時停止することができる。例えば、ネットワークベースのメディアプロセッシングサーバ(340)は、会議室Zには如何なるアクティブなユーザもいないと決定し、それから、ネットワークベースのメディアプロセッシングサーバ(340)は、サブシステム(310Z)からのビデオストリームの受信を一時停止することができる。
いくつかの例で、ネットワークベースのメディアプロセッシングサーバ(340)は、分散したコンピューティングリソースを含むことができ、ネットワーク(301)を介して、サブシステム(310A)~(310Z)並びにユーザデバイス(320)及び(330)と通信することができる。いくつかの例で、ネットワークベースのメディアプロセッシングサーバ(340)は、1つ以上のテレカンファレンスセッションの局面を管理することを課されている独立したシステムであってもよい。
様々な例において、ネットワークベースのメディアプロセッシングサーバ(340)は、リソースを共有するよう、負荷を平衡化するよう、性能を向上させるよう、フェイルオーバー支援又は冗長性を提供するよう、あるいは、他の目的のために、クラスタ又は他のグループ化された構成で動作する1つ以上のコンピューティングデバイスを含んでもよい。例えば、ネットワークベースのメディアプロセッシングサーバ(340)は、従来のサーバタイプのデバイス、デスクトップコンピュータタイプのデバイス、及び/又はモバイルタイプのデバイスといった様々な種類のデバイスに属してもよい。よって、たとえ一種類のデバイス(サーバタイプのデバイス)として表されているとして、ネットワークベースのメディアプロセッシングサーバ(340)は、多種多様なデバイスタイプを含んでもよく、特定のタイプのデバイスに限定されない。ネットワークベースのメディアプロセッシングサーバ(340)は、サーバコンピュータ、デスクトップコンピュータ、ウェブサーバコンピュータ、パーソナルコンピュータ、モバイルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、又はあらゆる他の種類のコンピューティングデバイスを表してもよいが、これらに限られない。
本開示の態様に従って、ネットワークベースのメディアプロセッシングサーバ(340)は、ユーザデバイス(320)、ユーザデバイス(330)、などのような端末での処理負担を軽減するために、特定のメディア機能を実行することができる。例えば、ユーザデバイス(320)及び/又はユーザデバイス(330)は、メディアプロセッシング容量が限られていることがあり、あるいは、複数のビデオストリームをエンコード及びレンダリングすることが困難であり得るので、ネットワークベースのメディアプロセッシングサーバ(340)は、ユーザデバイス(320)及び(330)でのメディアプロセッシングをオフロードするよう、オーディオ及びビデオストリームをデコード/エンコードすることなどのメディアプロセッシングを実行することができる。いくつかの例で、ユーザデバイス(320)及び(330)はバッテリ駆動のデバイスであり、メディアプロセッシングがユーザデバイス(320)及び(330)ネットワークベースのメディアプロセッシングサーバ(340)へオフロードされた場合に、ユーザデバイス(320)および(330)のバッテリ寿命は延びる。
異なるリソースからのメディアストリームが処理及び混合され得る。いくつかの例で、例えば、ISO(International Organization for Standardization)23090-2では、オーバーレイが、第1メディアの上にレンダリングされる第2メディアとして定義され得る。本開示の態様に従って、没入型テレカンファレンスのテレカンファレンスセッションについては、追加のメディアコンテンツ(例えば、ビデオ及び/又はオーディオ)が没入型メディアコンテンツにオーバーレイされ得る。追加のメディア(又はメディアコンテンツ)は、没入型メディア(又は没入型メディアコンテンツ)へのオーバーレイメディア(又はオーバーレイメディアコンテンツ)と呼ばれ得る。例えば、オーバーレイコンテンツは、全方位ビデオ若しくは画像アイテムの上に又はビューポートの上にレンダリングされる1つのビジュアル/オーディオメディアであることができる。
図2を例として用いて、プレゼンテーションが会議室Aにいる参加者によって共有されている場合に、会議室Aでサブシステム(210A)によって表示されることに加えて、プレゼンテーションはまた、サブシステム(210Z)、ユーザデバイス(220)、ユーザデバイス(230)、などのような他の参加者パーティへストリーム(オーバーレイストリームとも呼ばれる)としてもブロードキャストされる。例えば、ユーザデバイス(220)は会議室Aを選択し、サブシステム(210A)は、サブシステム(210A)によって捕捉された360度ビデオのような没入型メディアの第1ストリームと、オーバーレイストリームとをユーザデバイス(220)へ送信することができる。ユーザデバイス(220)で、プレゼンテーションは、サブシステム(210A)によって捕捉された360度ビデオの上にオーバーレイされ得る。他の例においては、ユーザデバイス(230)は会議室Zを選択し、サブシステム(210Z)は、サブシステム(210Z)によって捕捉された360度ビデオのような没入型メディアを運ぶ第1ストリームと、オーバーレイストリームとをユーザデバイス(230)へ送信することができる。ユーザデバイス(230)で、プレゼンテーションは、サブシステム(210Z)によって捕捉された360度ビデオの上にオーバーレイされ得る。プレゼンテーションは、いくつかの例では、2Dビデオの上にオーバーレイされ得ることが留意される。
他のシナリオでは、ユーザCはリモートスピーカであることができ、ユーザCのスピーチに対応するオーディオを運ぶメディアストリーム(オーバーレイストリームと呼ばれる)は、ユーザデバイス(230)から、例えば、サブシステム(210Z)へ送信され、また、サブシステム(210A)などの他の参加者パーティへブロードキャストされ得る。例えば、ユーザデバイス(220)は会議室Aを選択し、サブシステム(210A)は、サブシステム(210A)によって捕捉された360度ビデオのような没入型メディアの第1ストリームと、オーバーレイストリームとをユーザデバイス(220)へ送信することができる。ユーザデバイス(220)で、ユーザCのスピーチに対応するオーディオは、サブシステム(210A)によって捕捉された360度ビデオとオーバーレイされ得る。ユーザCのスピーチに対応するオーディオを運ぶメディアストリームは、例においては、オーバーレイストリームと呼ばれてもよく、オーディオは、例においては、オーバーレイオーディオと呼ばれてもよい。
本開示のいくつかの態様は、オーディオ及びビデオ混合のための技術、より具体的には、没入型ストリーム及び1つ以上のオーバーレイストリームといった複数のメディアストリームのオーディオ及び/又はビデオを結合するための技術を提供する。本開示の態様に従って、オーディオ及び/ビデオ混合は、ネットワークベースのメディアプロセッシングサーバ(340)などのようなネットワークベースのメディアプロセッシング要素によって実行され得、また、ユーザデバイス(120)、ユーザデバイス(130)、ユーザデバイス(220)、ユーザデバイス(230)、ユーザデバイス(320)、ユーザデバイス(330)、などのようなエンドユーザデバイスによって実行され得る。
図1の例では、サブシステム(110)は、メディア(オーディオ及び/又はビデオ)を夫々運ぶ複数のメディアストリームを送信することができる送り手と呼ばれ、ユーザデバイス(120)及び(130)は、受け手と呼ばれる。図2の例では、サブシステム(210A)~(210Z)は、メディア(オーディオ及び/又はビデオ)を夫々運ぶ複数のメディアストリームを送信することができる送り手と呼ばれ、ユーザデバイス(220)及び(230)は、受け手と呼ばれる。図3の例では、ネットワークベースのメディアプロセッシングサーバ(340)は、メディア(オーディオ及び/又はビデオ)を夫々運ぶ複数のメディアストリームを送信することができる送り手と呼ばれ、ユーザデバイス(320)及び(330)は、受け手と呼ばれる。
本開示のいくつかの態様に従って、オーディオ重みのような混合レベルは、オーディオ混合のために没入型テレカンファレンスにおけるオーバーレイストリーム及び没入型ストリームに割り当てられ得る。更に、いくつかの実施形態で、オーディオ重みは、適切に調整可能であり、調整されたオーディオ重みは、オーディオ混合のために使用可能である。いくつかの例で、オーディオ混合は、オーディオダウンミックスとも呼ばれる。
没入型テレカンファレンスのようないくつかの例で、オーバーレイメディアが没入型メディアに重ね合わされる場合に、オーバーレイソース、オーバーレイレンダリングタイプ、オーバーレイレンダリング特性、ユーザインタラクション特性、などのようなオーバーレイ情報が供給される必要がある場合がある。いくつかの例で、オーバーレイソースは、オーバーレイとして使用される画像、オーディオ、又はビデオなどのメディアを指定し、オーバーレイレンダリングタイプは、オーバーレイがビューポート又は球に対して固定されるかどうかを記述し、オーバーレイレンダリング特性は、不透明度、透明度、などを含むことができる。
図2の例では、各々の全方位カメラを備えた複数の会議室が、テレカンファレンスセッションに参加することができる。ユーザ、例えば、ユーザBは、ユーザデバイス(220)を介して、没入型メディアのソース、例えば、各々の全方位カメラを備えた複数の会議室のうちの1つを選択することができる。没入型メディアにオーディオ又はビデオなどの追加のメディアを加えるために、追加のメディアは、その追加のメディアを運ぶオーバーレイストリームとして、没入型メディアとは別に、ユーザデバイス(220)へ送信され得る。没入型メディアは、没入型メディアを運ぶストリーム(没入型ストリームと呼ばれる)として送信され得る。ユーザデバイス(220)は、没入型ストリーム及びオーバーレイストリームを受信することができ、そして、追加のメディアを没入型メディアとオーバーレイすることができる。
本開示の態様に従って、ユーザデバイス(220)、ユーザデバイス(230)、などのようなユーザデバイスは、テレカンファレンスセッションにおける各々のオーディオを運ぶ複数のメディアストリームを受信することができる。ユーザデバイスは、メディアストリームをデコードしてオーディオを取り出し、メディアストリームからデコードされたオーディオを混合することができる。いくつかの例で、没入型テレカンファレンスのテレカンファレンス中に、選択された会議室のサブシステムは、複数のメディアストリームを送信することができ、また、複数のメディアストリームで運ばれるオーディオのための混合パラメータを供給することができる。例において、ユーザBは、ユーザデバイス(220)により、会議室Aを選択して、サブシステム(210A)によって捕捉された360度没入型ビデオを運ぶ没入型ストリームを受信することができる。サブシステム(210A)は、没入型ストリームを1つ以上のオーバーレイストリームとともにユーザデバイス(220)へ送信することができる。サブシステム(210A)は、例えば、セッション記述プロトコル(SDP)に基づき、没入型ストリーム及び1つ以上のオーバーレイストリームで運ばれるオーディオのための混合レベルを供給することができる。サブシステム(210A)はまた、テレカンファレンスセッション中にオーディオの混合レベルを更新し、更新された混合レベルをユーザデバイス(220)へSDPに基づき通知するための信号を送信してもよいことが留意される。
例において、オーディオの混合レベルは、オーディオ混合重みを用いて定義される。例えば、各々のオーディオを運ぶ没入型ストリーム及びオーバーレイストリームを送信するサブシステム(210A)は、各々のオーディオに対してオーディオ混合重みを決定することができる。例において、サブシステム(210A)は、音の強さに基づきデフォルトのオーディオ混合重みを決定する。音の強さは、単位面積に直交して単位面積ごとに音波によって運ばれる電力として定義され得る。例えば、サブシステム(210A)のコントローラは、各々のオーディオの音の強さを示す電気信号を受信し、電気信号に基づき、例えば、電気信号の信号レベル、電力レベル、などに基づき、デフォルトのオーディオ混合重みを決定することができる。
他の例においては、サブシステム(210A)は、オーバーレイ優先度に基づきオーディオ混合重みを決定する。例えば、サブシステム(210A)のコントローラは、没入型ストリーム及びオーバーレイストリームから、アクティブスピーカのオーディオを運ぶ特定のメディアストリームを検出することができる。サブシステム(210A)のコントローラは、より高いオーバーレイ優先度をその特定のメディアストリームに対して決定することができ、そして、その特定のメディアストリームによって運ばれるオーディオに対してより高い混合重みを決定することができる。
他の例においては、エンドユーザは、オーバーレイ優先度をカスタマイズすることができる。例えば、ユーザBは、ユーザデバイス(220)を使用して、SDPに基づきサブシステム(210A)へカスタマイズパラメータを送信することができる。カスタマイズパラメータは、例えば、ユーザBが焦点を合わせたいオーディオを運ぶ特定のメディアストリームを示すことができる。次いで、サブシステム(210A)は、より高いオーバーレイ優先度をその特定のメディアストリームに対して決定することができ、そして、その特定のメディアストリームによって運ばれるオーディオに対してより高い混合重みを決定することができる。
いくつかの実施形態で、オーバーレイ優先度が使用される場合に、送り手、例えば、サブシステム(210A)は、他の送り手、例えば、サブシステム(210Z)の全てのオーバーレイ、及びテレカンファレンスセッションにおけるそれらのオーバーレイの優先度について知らされてもよく、それに応じて重みを割り当てる。よって、ユーザデバイスが別のサブシステムに切り替える場合に、オーディオ混合重みは適切に決定され得る。
いくつかの実施形態で、オーディオ混合重みは、エンドユーザによってカスタマイズされてもよい。あるシナリオでは、エンドユーザは、メディアストリームによって運ばれる1つの特定のオーディオを聞きたいか又はそれに焦点を合わせたいことがある。他のシナリオでは、デフォルトのオーディオ混合重みによるダウンミックスされたオーディオの品質は、オーディオレベルの変動、オーディオ品質、又は信号対雑音比(SNR)チャネルの悪さなどの理由により許容不可能であり、その場合に、オーディオ混合重みはカスタマイズされ得る。例において、ユーザBは、特定のメディアストリームからのオーディオに焦点を合わせることを望んでおり、その場合に、ユーザBは、ユーザデバイス(220)を用いて、オーディオ混合重みを調整するためのカスタマイズパラメータを示してもよい。例えば、カスタマイズパラメータは、特定のメディアストリームのオーディオに対するオーディオ混合重みの増大を示す。ユーザデバイス(220)は、SDPに基づきテレカンファレンスセッション中にメディアストリームの送り手、例えば、サブシステム(210A)へカスタマイズパラメータを送信することができる。カスタマイズパラメータに基づき、サブシステム(210A)のコントローラは、特定のメディアストリームのオーディオのためのオーディオ混合重みを増大させるようオーディオ混合重みを調整することができ、そして、サブシステム(210A)は、調整されたオーディオ混合重みをユーザデバイス(220)へ送信することができる。よって、ユーザデバイス(220)は、調整されたオーディオ混合重みに基づきオーディオを混合することができる。
また、いくつかの例では、ユーザデバイス(120)、ユーザデバイス(130)、ユーザデバイス(220)、ユーザデバイス(230)、ユーザデバイス(320)、ユーザデバイス(330)、などのユーザデバイスは、受け取られたオーディオ混合重みを、ユーザの好みにより、異なる値で上書きすることができることも留意される。
図3の例では、各々の全方位カメラを備えた複数の会議室が、テレカンファレンスセッションに参加することができる。ユーザ、例えば、ユーザBは、ユーザデバイス(320)を介して、没入型メディアのソース、例えば、各々の全方位カメラを備えた複数の会議室のうちの1つを選択することができる。没入型メディアにオーディオ又はビデオなどの追加のメディアを加えるために、追加のメディアは、その追加のメディアを運ぶオーバーレイストリームとして、没入型メディアとは別に、ユーザデバイス(320)へ送信され得る。いくつかの実施形態で、ネットワークベースのメディアプロセッシングサーバ(340)は、テレカンファレンスにおける参加者パーティ(例えば、サブシステム(310A)~(310Z)、ユーザデバイス(320)及び(330))からメディアストリームを受信し、メディアストリームを処理し、適切な処理されたメディアストリームを参加者パーティへ送信する。例えば、ネットワークベースのメディアプロセッシングサーバ(340)は、サブシステム(310A)で捕捉された没入型メディアを運ぶ没入型ストリームと、オーバーレイメディアを運ぶオーバーレイストリームとをユーザデバイス(320)へ送信することができる。ユーザデバイス(320)は、没入型ストリーム及びオーバーレイストリームを受信することができ、そして、いくつかの実施形態では、オーバーレイメディアを没入型メディアと重ね合わせることができる。
本開示の態様に従って、ユーザデバイス(320)、ユーザデバイス(330)、などのようなユーザデバイスは、テレカンファレンスセッションにおける各々のオーディオを運ぶ複数のメディアストリームを受信することができる。ユーザデバイスは、メディアストリームをデコードしてオーディオを取り出し、メディアストリームからデコードされたオーディオを混合することができる。いくつかの例で、没入型テレカンファレンスのテレカンファレンス中に、ネットワークベースのメディアプロセッシングサーバ(340)は、複数のメディアストリームをエンドユーザデバイスへ送信することができる。例において、ユーザBは、ユーザデバイス(320)により、会議室Aを選択して、サブシステム(310A)によって捕捉された360度没入型ビデオを運ぶ没入型ストリームを受信することができる。本開示の態様に従って、ラウドネスなどのオーディオ混合パラメータが、没入型メディアの送り手によって定義されるか、又はエンドユーザによってカスタマイズされ得る。いくつかの例で、サブシステム(310A)は、例えば、セッション記述プロトコル(SDP)に基づいた信号を介して、1つ以上のオーバーレイストリームで運ばれるオーディオのための混合レベルを、ネットワークベースのメディアプロセッシングサーバ(340)へ供給することができる。サブシステム(310A)はまた、テレカンファレンスセッション中にオーディオの混合レベルを更新し、更新された混合レベルをネットワークベースのメディアプロセッシングサーバ(340)へSDPに基づき通知するための信号を送信してもよいことが留意される。
例において、オーディオの混合レベルは、オーディオ混合重みを用いて定義される。例において、サブシステム(310A)は、オーディオ混合重みを決定し、SDPに基づきネットワークベースのメディアプロセッシングサーバ(340)へ送信することができる。例において、サブシステム(310A)は、音の強さに基づきデフォルトのオーディオ混合重みを決定する。
他の例においては、サブシステム(310A)は、オーバーレイ優先度に基づきオーディオ混合重みを決定する。例えば、サブシステム(310A)は、アクティブスピーカのオーディオを運ぶ特定のメディアストリームを検出することができる。サブシステム(310A)は、より高いオーバーレイ優先度をその特定のメディアストリームに対して決定することができ、そして、その特定のメディアストリームによって運ばれるオーディオに対してより高い混合重みを決定することができる。
他の例においては、エンドユーザは、オーバーレイ優先度をカスタマイズすることができる。例えば、ユーザBは、ユーザデバイス(320)を使用して、SDPに基づきサブシステム(310A)へカスタマイズパラメータを送信することができる。カスタマイズパラメータは、例えば、ユーザBが焦点を合わせたいオーディオを運ぶ特定のメディアストリームを示すことができる。次いで、サブシステム(310A)は、より高いオーバーレイ優先度をその特定のメディアストリームに対して決定することができ、そして、その特定のメディアストリームによって運ばれるオーディオに対してより高い混合重みを決定することができる。
いくつかの実施形態で、オーバーレイ優先度が使用される場合に、送り手、例えば、サブシステム(310A)は、他の送り手、例えば、サブシステム(310Z)の全てのオーバーレイ、及びテレカンファレンスセッションにおけるそれらのオーバーレイの優先度について知らされてもよく、それに応じて重みを割り当てる。よって、ユーザデバイスが別のサブシステムに切り替える場合に、オーディオ混合重みは適切に決定され得る。
いくつかの実施形態で、オーディオ混合重みは、エンドユーザによってカスタマイズされてもよい。あるシナリオでは、エンドユーザは、メディアストリームによって運ばれる1つの特定のオーディオを聞きたいか又はそれに焦点を合わせたいことがある。他のシナリオでは、デフォルトのオーディオ混合重みによるダウンミックスされたオーディオの品質は、オーディオレベルの変動、オーディオ品質、又は信号対雑音比(SNR)チャネルの悪さなどの理由により許容不可能であり、その場合に、オーディオ混合重みはカスタマイズされ得る。例において、ユーザBは、特定のメディアストリームからのオーディオに焦点を合わせることを望んでおり、その場合に、ユーザBは、ユーザデバイス(320)を用いて、オーディオ混合重みを調整するためのカスタマイズパラメータを示してもよい。例えば、カスタマイズパラメータは、特定のメディアストリームのオーディオに対するオーディオ混合重みの増大を示す。ユーザデバイス(320)は、SDPに基づきテレカンファレンスセッション中にメディアストリームの送り手、例えば、サブシステム(310A)へカスタマイズパラメータを送信することができる。カスタマイズパラメータに基づき、サブシステム(310A)は、特定のメディアストリームのオーディオのためのオーディオ混合重みを増大させるようオーディオ混合重みを調整し、そして、調整されたオーディオ混合重みをネットワークベースのメディアプロセッシングサーバ(340)へ送信することができる。例において、ネットワークベースのメディアプロセッシングサーバ(340)は、調整されたオーディオ混合重みをユーザデバイス(320)へ送信することができる。よって、ユーザデバイス(320)は、調整されたオーディオ混合重みに基づきオーディオを混合することができる。他の例においては、ネットワークベースのメディアプロセッシングサーバ(340)は、調整されたオーディオ混合重みに従ってオーディオを混合することができる。
例において、没入型ストリーム及び1つ以上のオーバーレイストリームは、送り手、例えば、サブシステム(210A)~(210Z)のうちの1つや、サブシステム(31A)~(310Z)のうちの1つから供給され、また、Nは、オーバーレイの数を表し、正の整数である。更に、a0は、没入型ストリームで運ばれるオーディオを表し、a1~aNは、夫々、オーバーレイストリームで運ばれるオーディオを表し、r0~rNは、夫々、a0~aNのオーディオ混合重みを表す。いくつかの例で、デフォルトのオーディオ混合重みr0~rNの和は、1に等しい。混合されたオーディオ(オーディオ出力とも呼ばれる)は、式1に従って生成され得る:

オーディオ出力=r0×a0+r1×a1+・・・+rn×an 式1
いくつかの実施形態で、オーディオ混合は、例えば、式1に従って、オーディオ混合重みに基づき、ユーザデバイス(220)、ユーザデバイス(230)、ユーザデバイス(320)、ユーザデバイス(330)、などのようなエンドユーザデバイスによって実行され得る。エンドユーザデバイスは、受信されたメディアストリームをデコードして、オーディオを取り出し、そして、式1に従ってオーディオを混合して、再生のためのオーディオ出力を生成し得る。
いくつかの実施形態で、オーディオ混合又はオーディオ混合の部分は、MRF又はMCUによって、例えば、ネットワークベースのメディアプロセッシングサーバ(340)によって、実行され得る。図3を参照すると、いくつかの例で、ネットワークベースのメディアプロセッシングサーバ(340)は、オーディオを運ぶ様々なメディアストリームを受信する。更に、ネットワークベースのメディアプロセッシングサーバ(340)は、オーディオ混合重みに基づいたオーディオ混合のような、メディア混合を実行することができる。サブシステム(310A)及びユーザデバイス(330)を例として使用して(例えば、ユーザデバイス(330)は会議室Aを選択する)、ユーザデバイス(330)が低電力状態にあるか、又はメディア処理能力が限られている場合に、オーディオ混合又はオーディオ混合の部分は、ネットワークベースのメディアプロセッシングサーバ(340)へオフロードされ得る。例において、ネットワークベースのメディアプロセッシングサーバ(340)は、ユーザデバイス(330)へ送信するメディアストリームと、メディアストリーム内のオーディオを混合するためのオーディオ混合重みとを受信することができる。次いで、ネットワークベースのメディアプロセッシングサーバ(340)は、メディアストリームをデコードして、オーディオを取り出し、そして、式1に従ってオーディオを混合して、混合されたオーディオを生成する。ネットワークベースのメディアプロセッシングサーバ(340)は、メディアストリームのビデオ部分を混合されたビデオへと適切に混合することができることが留意される。ネットワークベースのメディアプロセッシングサーバ(340)は、他のストリーム(混合メディアストリームと呼ばれる)内の混合されたオーディオ及び/又は混合されたビデオをエンコードし、混合メディアストリームをユーザデバイス(330)へ送信することができる。ユーザデバイス(330)は、混合メディアストリームを受信し、混合メディアストリームをデコードして、混合されたオーディオ及び/又は混合されたビデオを取り出し、混合されたオーディオ/ビデオを再生することができる。
他の例においては、ネットワークベースのメディアプロセッシングサーバ(340)は、メディアコンテンツをユーザデバイス(330)へ供給するための没入型メディアストリーム及び複数のオーバーレイメディアストリームと、没入型メディアストリーム及び複数のオーバーレイメディアストリーム内のオーディオを混合するためのオーディオ混合重みとを受信する。複数のオーバーレイメディアストリームが送信される必要がある場合に、ネットワークベースのメディアプロセッシングサーバ(340)は、複数のオーバーレイメディアストリームをデコードしてオーディオを取り出し、そして、例えば、式2に従って、オーディオを混合して、混合オーバーレイオーディオを生成する:

混合オーバーレイオーディオ=r1×a1+・・・+rn×an 式2
ネットワークベースのメディアプロセッシングサーバ(340)は、オーバーレイメディアストリームのビデオ部分を混合オーバーレイビデオへと適切に混合することができることが留意される。ネットワークベースのメディアプロセッシングサーバ(340)は、他のストリーム(混合オーバーレイメディアストリームと呼ばれる)内の混合オーバーレイオーディオ及び/又は混合オーバーレイビデオをエンコードし、混合オーバーレイメディアストリームを没入型メディアストリームとともにユーザデバイス(330)へ送信することができる。ユーザデバイス(330)は、没入型メディアストリーム及び混合メディアストリームを受信し、没入型メディアストリーム及び混合メディアストリームをデコードして、没入型メディアのオーディオ(a0)、混合オーバーレイオーディオ及び/又は混合オーバーレイビデオを取り出すことができる。没入型メディアのオーディオ(a0)及び混合オーバーレイオーディオに基づき、ユーザデバイス(330)は、例えば、式3に従って、再生のために、混合されたオーディオ(オーディオ出力と呼ばれる)を生成することができる:

オーディオ出力=r0×a0+混合オーバーレイオーディオ 式3
例において、オーバーレイメディアストリーム又は没入型メディアストリームからの如何なるオーディオ(没入型メディアストリームからのオーディオは、いくつかの例では、バックグラウンドと呼ばれる)からもバックグラウンドノイズ又は外乱(disturbance)がない場合に、あるいは、全てのメディアストリームのオーディオ強度レベルがおおよそ同じであるか、又は分散が比較的小さい(例えば、予め定義された閾値よりも小さい)場合に、オーディオ混合は、オーバーレイメディアストリーム及び没入型メディアストリームのような全てのストリームから取り出されたオーディオを(例えば、夫々、1の等しい混合重みを用いて)足し合わせて集合オーディオを生成することによって、実行され得る。集合オーディオは、正規化されてもよい(例えば、オーディオの数で除される)。この例におけるオーディオ混合は、ユーザデバイス(120)、ユーザデバイス(130)、ユーザデバイス(220)、ユーザデバイス(230)、ユーザデバイス(320)、ユーザデバイス(330)などのエンドユーザデバイス、及びネットワークベースのメディアプロセッシングサーバ(340)によって実行され得る。
いくつかの実施形態で、オーディオ重みは、混合するオーディオの一部を選択するために使用され得る。例において、大量のオーディオが集められて、次いで正規化される場合に、1つのオーディオストリームを他と区別することは困難であり得る。オーディオ重みを用いて、選択された数のオーディオが集められて、次いで正規化され得る。例えば、オーディオの総数が10である場合に、5つの選択されたオーディオのためのオーディオ重みは0.2であることができ、5つの選択されないオーディオのためのオーディオ重みは0であることができる。オーディオの選択は、アルゴリズムによって定義された混合重みに基づいてもよく、あるいは、オーバーレイ優先度に基づいてもよい。
いくつかの実施形態で、ユーザデバイスは、各々のオーディオ混合重みを変更することによって、あるいは、オーディオを取り出してオーディオを混合するためにメディアストリームのサブセットを使用することによって、混合されるべきメディアストリームからのオーディオの選択を変更することを選択してもよい。
いくつかの実施形態で、メディアストリームでのオーディオの音の強さの変動が大きい場合に、オーバーレイオーディオ及び没入型オーディオのためのオーディオ混合重みは、同じレベルにセットされてもよい。
いくつかの実施形態で、ユーザデバイスは、リソース容量が限られているか、あるいは、異なる会議室からのオーディオを区別することが難しいので、ダウンミックスされるべきオーディオの数は限られていることがある。そのような制限が適用される場合に、サブシステム(210A)~(210Z)や、ネットワークベースのメディアプロセッシングサーバ(340)のような、送り手デバイスは、音の強さ又はオーバーレイ優先度に基づき、オーディオダウンミックスされるメディアストリームを選択してもよい。ユーザデバイスは、SDPに基づきテレカンファレンスセッション中に選択を変えるようカスタマイズパラメータを送信することができることが留意される。
いくつかのシナリオでは、テレカンファレンスセッション中、発言中/プレゼンテーション中の人物が焦点を合わせられている必要がある。よって、発言中の人物のオーディオを含むメディアストリームは、比較的大きいオーディオ混合重みを割り当てられ得、他のメディアストリームの他のオーディオのためのオーディオ混合重みは、下げられ得る。
いくつかのシナリオでは、遠隔のユーザがプレゼンテーションを行っており、没入型メディアストリームの没入型オーディオがバックグラウンドノイズを有している場合に、サブシステム(210A)~(210Z)や、ネットワークベースのメディアプロセッシングサーバ(340)のような、送り手は、没入型オーディオのオーディオ混合重みを、遠隔のユーザに関連したオーバーレイオーディオよりも小さくなるよう下げることができる。これは、テレカンファレンスセッション中にオーディオ重みを下げることによって、既にセッションに参加しているエンドユーザによってカスタマイズされ得るが、送り手から供給されたデフォルトのオーディオ混合重みを変えることは、カンファレンスに参加したばかりの新しい遠隔のユーザが、優れた音響品質でオーディオをダウンミックスするよう送り手からオーディオストリームのためのデフォルトのオーディオ混合重みを得ることを可能にすることができる。
実施形態において、オーディオ混合重みのようなオーディオ混合パラメータは、サブシステム(310A)~(310Z)などのような、送り手デバイスによって定義される。送り手デバイスは、オーディオストリームを同じラウドネスレベルにセットするようオーディオ混合重みを決定することができる。オーディオ混合パラメータ(オーディオ混合重み)は、SDPシグナリングを介して、送り手デバイスからネットワークベースのメディアプロセッシングサーバ(340)へ送信され得る。
他の実施形態においては、サブシステム(310A)~(310Z)などのような、送り手デバイスは、没入型メディアコンテンツのオーディオのためのオーディオ混合重みを、オーバーレイメディアストリームの他のオーバーレイオーディオのためのオーディオ混合重みよりも高くなるようセットすることができる。例において、オーバーレイオーディオは、同じオーディオ混合重みを有してもよい。オーディオ混合パラメータ(オーディオ混合重み)は、SDPシグナリングを介して、送り手デバイスからネットワークベースのメディアプロセッシングサーバ(340)へ送信され得る。
他の実施形態においては、サブシステム(310A)~(310Z)などのような、送り手デバイスは、没入型メディアコンテンツのオーディオのためのオーディオ混合重みを、オーバーレイメディアストリームのオーバーレイオーディオのためのオーディオ混合重みよりも高くなるようセットしてもよい。オーディオ混合パラメータ(オーディオ混合重み)は、SDPシグナリングを介して、送り手デバイスからネットワークベースのメディアプロセッシングサーバ(340)へ送信され得る。
いくつかの例で、例えば、エンドユーザデバイスが十分な処理容量を有してない可能性がある場合に、ネットワークベースのメディアプロセッシングサーバ(340)は、同じオーディオストリームを複数のエンドユーザデバイスを送信してもよい。
いくつかの例で、例えば、オーディオ混合パラメータがユーザによって定義されるか、又はユーザによってカスタマイズされる場合に、個々のオーディオストリームは、送り手デバイスによって、又はネットワークベースのメディアプロセッシングサーバ(340)によって、ユーザデバイスごとにエンコードされてもよい。例において、オーディオ混合パラメータは、ユーザの視野(FoV)に基づいてもよく、例えば、ユーザの視野(FoV)内にあるオーバーレイのためのオーディオストリームは、他のストリームと比較して、より大きいラウドネスで混合されてもよい。オーディオ混合パラメータ(オーディオ混合重み)は、送り手デバイス、ユーザデバイス、及びネットワークベースのメディアプロセッシングサーバ(340)によってSDPシグナリングを介してネゴシエーションされ得る。
実施形態において、例えば、エンドユーザが、インターネットプロトコルマルチメディアサブシステム(MTSI)のためのマルチメディアテレフォニーサービスをサポートするが、遠隔端末のためのMTSI没入型テレカンファレンス及びテレプレゼンス(ITT4RT)をサポートしない場合に、ネットワークベースのメディアプロセッシングサーバ(340)は、混合されたオーディオ及びビデオを生成するようオーディオ及びビデオの両方を混合し、混合されたオーディオ及びビデオを運ぶメディアストリームをエンドユーザデバイスへ供給し、それによって、MTSI端末のための下位互換性を提供し得る。
他の実施形態においては、例えば、エンドユーザデバイスの能力が限られている場合に、ネットワークベースのメディアプロセッシングサーバ(340)は、混合されたオーディオ及びビデオを生成するようオーディオ及びビデオの両方を混合し、混合されたオーディオ及びビデオを運ぶメディアストリームをエンドユーザデバイスへ供給してもよい。
他の実施形態においては、ネットワークベースのメディアプロセッシングサーバ(340)が、能力が限られており、いくつかのエンドユーザデバイスが、能力が限られたMITIデバイスである場合に、ネットワークベースのメディアプロセッシングサーバ(340)は、同じ送り手デバイスからのオーディオ及びビデオの両方を混合して、混合されたオーディオ及びビデオを生成し、混合されたオーディオ及びビデオを運ぶメディアストリームを、能力が限られたMSTIデバイスであるエンドユーザデバイスへ供給することができる。
他の実施形態においては、ネットワークベースのメディアプロセッシングサーバ(340)は、SDPシグナリングを用いて、オーディオ混合のための共通設定の組を、MSTIデバイスであるエンドユーザデバイスの全て又はサブセットとネゴシエーションすることができる。共通設定の組は、没入型メディア及び様々なオーバーレイメディアの単一ビデオ合成用である。その場合に、共通設定の組に基づき、ネットワークベースのメディアプロセッシングサーバ(340)は、オーディオ混合及び/又はビデオ混合を実行して、混合されたオーディオ及びビデオを生成し、そして、混合されたオーディオ及びビデオを運ぶメディアストリームを、MSTIデバイスであるエンドユーザデバイスの全て又はサブセットへ供給することができる。
図4は、本開示の実施形態に従うプロセス(400)を説明するフローチャートを示す。様々な実施形態において、プロセス(400)は、ユーザデバイス(120)、ユーザデバイス(130)、ユーザデバイス(220)、ユーザデバイス(230)、ユーザデバイス(320)、ユーザデバイス(330)、ネットワークベースのメディアプロセッシングサーバ(340)、などのプロセッシング回路のような、デバイス内のプロセッシング回路によって、実行され得る。いくつかの実施形態で、プロセス(400)はソフトウェア命令で実装されるので、プロセッシング回路がソフトウェア命令を実行する場合に、プロセッシング回路はプロセス(400)を実行する。プロセスは(S401)から始まり、(S410)へ進む。
(S410)で、第1オーディオを運ぶ第1メディアストリームと、第2オーディオを運ぶ第2メディアストリームとが、受信される。
(S420)で、第1オーディオを重み付けする第1オーディオ重みと、第2オーディオを重み付けする第2オーディオ重みとが、受信される。
(S430)で、第1オーディオ重みに基づいた重み付き第1オーディオと、第2オーディオ重みに基づいた重み付き第2オーディオとが、混合オーディオを生成するよう結合される。
いくつかの例で、デバイスはユーザデバイスであり、ユーザデバイスのプロセッシング回路は、例えば、没入型コンテンツのためのホストデバイス(例えば、サブシステム(110)、(210A)~(210Z)、(310A)~(310Z))によって決定される第1オーディオ重み及び第2オーディオ重みを受信し、ユーザデバイスは、ユーザデバイスに関連したスピーカを通じて、混合オーディオを再生することができる。例において、オーディオ重みをカスタマイズするために、ユーザデバイスは、ホストデバイスへカスタマイズパラメータを送信して、ホストデバイスがカスタマイズパラメータに基づき第1オーディオ重み及び第2オーディオ重みをカスタマイズするようにすることができる。
いくつかの例で、ホストデバイスは、第1オーディオ及び第2オーディオの音の強さに基づき、第1オーディオ重み及び第2オーディオ重みを決定することができる。
いくつかの例で、第1オーディオ及び第2オーディオはオーバーレイオーディオであり、ホストデバイスは、第1オーディオ及び第2オーディオのオーバーレイ優先度に基づき、第1オーディオ重み及び第2オーディオ重みを決定することができる。
いくつかの例で、ホストデバイスは、アクティブスピーカの検出に基づき、第1オーディオ重み及び第2オーディオ重みを決定することができる。
いくつかの例で、第1メディアストリームは没入型メディアコンテンツを含み、第2メディアストリームはオーバーレイメディアコンテンツに対応し、ホストデバイスは、第1オーディオ重みを、第2オーディオ重みとは異なるように決定することができる。
いくつかの実施形態で、プロセス(400)は、ユーザデバイスからオフロードされたメディアプロセッシングを実行するネットワークベースのメディアプロセッシングサーバによって実行される。ネットワークベースのメディアプロセッシングサーバは、混合オーディオを第3メディアストリームにエンコードし、第3メディアストリームをユーザデバイスへ送信することができる。いくつかの例で、プロセス(400)は、ユーザデバイスからオフロードされたオーバーレイメディアプロセッシングを実行するネットワークベースのメディアプロセッシングサーバによって実行される。ネットワークベースのメディアプロセッシングサーバは、第3メディアストリームと、没入型メディアコンテンツを含む第4メディアストリームとを送信することができる。第3メディアストリームは、没入型メディアコンテンツへのオーバーレイメディアコンテンツを含む。
プロセスは(S499)へ進んで終了する。
図5は、本開示の実施形態に従うプロセス(500)を説明するフローチャートを示す。様々な実施形態で、プロセス(500)は、ネットワークベースのメディアプロセッシングサーバ(340)などのような、ネットワークベースのメディアプロセッシングのためのデバイス内のプロセッシング回路によって実行され得る。いくつかの実施形態で、プロセス(500)はソフトウェア命令で実装されるので、プロセッシング回路がソフトウェア命令を実行する場合に、プロセッシング回路はプロセス(500)を実行する。プロセスは(S501)から開始し、(S510)へ進む。
(S510)で、第1メディアコンテンツを運ぶ第1メディアストリームと、第2メディアコンテンツを運ぶ第2メディアストリームとが、受信される。
(S520)で、第1メディアコンテンツと第2メディアコンテンツを混合する第3メディアコンテンツが生成される。
いくつかの例で、第1メディアコンテンツ内の第1オーディオは、第3オーディオを生成するよう第2メディアコンテンツ内の第2オーディオと混合される。第1オーディオは、第1オーディオに割り当てられている第1オーディオ重みに基づき重み付けされ、第2オーディオは、第2オーディオに割り当てられている第2オーディオ重みに基づき重み付けされる。例において、第1オーディオ重み及び第2オーディオ重みは、没入型メディアコンテンツを供給するホストデバイスによって決定され、ホストデバイスからネットワークベースのメディアプロセッシングサーバへ送信される。
例において、第1メディアストリームは没入型メディアストリームであり、第2メディアストリームはオーバーレイメディアストリームであり、その場合に、第1オーディオ重み及び第2オーディオ重みは、値が異なる。
例において、第1メディアストリーム及び第2メディアストリームはオーバーレイメディアストリームであり、第1オーディオ重み及び第2オーディオ重みは、等しい値である。
他の例においては、第1メディアストリーム及び第2メディアストリームはオーバーレイメディアストリームであり、第1オーディオ重み及び第2オーディオ重みは、第1メディアストリーム及び第2メディアストリームのオーバーレイ優先度に依存する。
(S530)で、第3メディアコンテンツを運ぶ第3メディアストリームが、ユーザデバイスへ送信される。
次いで、プロセスは(S599)へ進んで終了する。
図6は、本開示の実施形態に従うプロセス(600)を説明するフローチャートを示す。様々な実施形態で、プロセス(600)は、サブシステム(110)、(210A)~(210Z)、(310A)~(310Z)、などのプロセッシング回路のような、没入型メディアコンテンツのためのホストデバイス内のプロセッシング回路によって、実行され得る。いくつかの実施形態で、プロセス(600)はソフトウェア命令で実装されるので、プロセッシング回路がソフトウェア命令を実行する場合に、プロセッシング回路はプロセス(600)を実行する。プロセスは(S601)から開始し、(S610)へ進む。
(S610)で、第1オーディオを運ぶ第1メディアストリームと、第2オーディオを運ぶ第2メディアストリームとが、送信される。
(S620)で、第1オーディオを重み付けする第1オーディオ重みと、第2オーディオを重み付けする第2オーディオ重みとが、決定される。
いくつかの例で、ホストデバイスは、セッション記述プロトコルに基づきカスタマイズパラメータを受け取り、カスタマイズパラメータに基づき第1オーディオ重み及び第2オーディオ重みを決定する。
いくつかの例で、ホストデバイスは、第1オーディオ及び第2オーディオの音の強さに基づき、第1オーディオ重み及び第2オーディオ重みを決定する。
いくつかの例で、第1オーディオ及び第2オーディオはオーバーレイオーディオでわり、ホストデバイス、第1オーディオ及び第2オーディオのオーバーレイ優先度に基づき、第1オーディオ重み及び第2オーディオ重みを決定することができる。
いくつかの例で、ホストデバイスは、第1オーディオ及び第2オーディオの一方でのアクティブスピーカの検出に基づき、第1オーディオ重み及び第2オーディオ重みを決定する。
いくつかの例で、第1メディアストリームは没入型メディアコンテンツを含み、第2メディアストリームはオーバーレイメディアストリームを含み、ホストデバイスは、第1オーディオ重み及び第2オーディオ重みに対して異なる値を決定する。
(S630)で、第1オーディオ重み及び第2オーディオ重みは、第1オーディオを第2オーディオと混合するために送信される。
次いで、プロセスは(S699)へ進んで終了する。
上記の技術は、コンピュータ可読命令を使用して、1つ以上のコンピュータ可読媒体に物理的に記憶されているコンピュータソフトウェアとして、実装され得る。例えば、図7は、開示されている対象の特定の実施形態を実装するのに適したコンピュータシステム(700)を示す。
コンピュータソフトウェアは、1つ以上の中央演算処理装置(CPU)などによって、直接に又は解釈を通じて実行され得る命令、マイクロコード、などを含むコードを生成するよう、アセンブリ、コンパイル、リンキング、又は同様のメカニズムに従い得る如何なる適切なマシンコード又はコンピュータ言語を用いてもコード化され得る。
命令は、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーミングデバイス、インターネット・オブ・シングスデバイス、などを含む様々なコンピュータ及びそのコンポーネントで実行され得る。
コンピュータシステム(700)のための図7に示されているコンポーネントは、当然ながら例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用又は機能の範囲に関して如何なる限定も示唆するよう意図されない。また、コンポーネントの構成は、コンピュータシステム(700)の例示的な実施形態で表されているコンポーネントのうちのいずれか1つ又は組み合わせに関する如何なる依存性又は要件も有するものとしても解釈されない。
コンピュータシステム(700)は、特定のヒューマンインターフェース入力デバイスを含んでもよい。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(例えば、キーストローク、スワイプ、データグローブ動作)、音声入力(例えば、声、拍手)、視覚入力(例えば、ジェスチャ)、嗅覚入力(図示せず)を通じて、1人以上のユーザによる入力に応答し得る。ヒューマンインターフェースデバイスはまた、音声(例えば、発話、音楽、周囲音)、画像(例えば、スキャン画像、静止画カメラから取得された写真画像)、映像(例えば、2次元映像、立体視映像を含む3次元映像)などの、人間による意識的入力に必ずしも直接には関係がない特定のメディアを捕捉するためにも使用され得る。
ヒューマンインターフェース入力デバイスは、キーボード(701)、マウス(702)、トラックパッド(703)、タッチスクリーン(710)、データグロープ(図示せず)、ジョイスティック(705)、マイク(706)、スキャナ(707)、カメラ(708)(夫々表されているものの1つのみ)のうちの1つ以上を含んでもよい
コンピュータシステム(700)はまた、特定のヒューマンインターフェース出力デバイスも含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音響、光、及び匂い/味を通じて、1人以上のユーザの感覚を刺激するものであってよい。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(710)、データグロープ(図示せず)、又はジョイスティック(705)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る)、音声出力デバイス(例えば、スピーカ(709)、ヘッドホン(図示せず))、視覚出力デバイス(例えば、夫々タッチスクリーン入力能力を有しても有さなくてもよく、夫々触覚フィードバック能力を有しても有さなくてもよいCRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン(それらのうちの一部は、2次元視覚出力又は立体視出力などの手段を通じた3次元よりも大きい次元の出力を出力可能であってよい)、仮想現実メガネ(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず))、並びにプリンタ(図示せず)を含んでもよい。
コンピュータシステム(700)はまた、人がアクセス可能な記憶デバイス及び関連する媒体、例えば、CD/DVDとともにCD/DVD ROM/RW(720)を含む光学媒体若しくは同様の媒体(721)、サムドライブ(722)、リムーバブルハードディスク若しくはソリッドステートドライブ(723)、テープ及びフロッピー(登録商標)ディスク(図示せず)などのレガシー磁気媒体、セキュリティドングルなどの特殊化されたROM/ASIC/PLDベースのデバイス、なども含むことができる。
当業者はまた、目下開示されている対象とともに使用されている「コンピュータ可読媒体」との用語が伝送媒体、搬送波、又は他の一時的な信号を含まないことも理解すべきである。
コンピュータシステム(700)はまた、1つ以上の通信ネットワークへのインターフェース(754)も含むことができる。ネットワークは、例えば、無線、有線、光であることができる。ネットワークは更に、ローカル、ワイドエリア、メトロポリタン、車両及び産業、リアルタイム、遅延耐性、などであることができる。ネットワークの例は、SGSM、3G、4G、5G、LTEなどを含めるようEthernet(登録商標)、無線LAN、セルラーネットワークのようなローカル・エリア・ネットワーク、ケーブルTV、衛星TV、及び地上放送TVを含めるようTV有線又は無線広域デジタルネットワーク、CANBusを含めるよう車両及び産業ネットワーク、などを含む。特定のネットワークは、一般的に、特定の汎用データポート又はペリフェラルバス(例えば、コンピュータシステム(700)のUSBポート)に取り付けられている外部ネットワークインターフェースアダプタを必要とし、他は、一般的に、後述されるようなシステムバスへの取り付けによってコンピュータシステム(700)のコアに組み込まれる(例えば、PCコンピュータシステムへのEhternetインターフェース、又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。それらのネットワークのいずれかを用いて、コンピュータシステム(700)は他のエンティティと通信することができる。そのような通信は、例えば、ローカル又はワイドエリアデジタルネットワークを使用して他のコンピュータシステムに対して、一方向の受信専用(例えば、ブロードキャストTV)、一方向の送信専用(例えば、特定のCANbusデバイスへのCANbus)、又は双方向であることができる。特定のプロトコル及びプロトコルスタックが、上述されているそれらのネットワーク及びネットワークインターフェースの夫々で使用され得る。
上記のヒューマンインターフェースデバイス、人がアクセス可能な記憶デバイス、及びネットワークインターフェースは、コンピュータシステム(700)のコア(740)へ取り付けられ得る。
コア(740)は、1つ以上の中央演算処理装置(CPU)(741)、グラフィクス・プロセッシング・ユニット(GPU)(742)、フィールド・プログラマブル・ゲート・アレイ(FPGA)(743)の形を取る特殊化されたプログラム可能なプロセッシングユニット、特定のタスクのためのハードウェアアクセラレータ(744)、グラフィクスアダプタ(750)などを含むことができる。これらのデバイスは、リード・オンリー・メモリ(ROM)(745)、内蔵非ユーザアクセス可能ハードドライブ、SSD、などのような内蔵大容量記憶装置(747)とともに、システムバス(748)を通じて接続されてもよい。いくつかのコンピュータシステムで、システムバス(748)は、追加のCPU、GPU、などによる拡張を可能にするよう1つ以上の物理プラグの形でアクセス可能であることができる。周辺機器は、コアのシステムバス(748)へ直接に、あるいは、ペリフェラルバス(749)を通じて、取り付けられ得る。例において、スクリーン(710)はグラフィクスアダプタ(750)へ接続され得る。ペリフェラルバスのためのアーキテクチャは、PCT,USB、などを含む。
CPU(741)、GPU(742)、FPGA(743)、及びアクセラレータ(744)は、組み合わせて上記のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードはROM(745)又はRAM(746)に記憶され得る。過渡的データもRAM(746)に記憶され得る一方で、永続的なデータは、例えば、内蔵大容量記憶装置(747)に記憶され得る。メモリデバイスのいずれかへの高速な記憶及び読み出しは、1つ以上のCPU(741)、GPU(742)、大容量記憶装置(747)、ROM(745)、RAM(746)、などに密接に関連することができるキャッシュメモリの使用を通じて可能にされ得る。
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためにコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特に設計及び構成されたものであることができ、あるいは、それらは、コンピュータソフトウェア分野の当業者によく知られており利用可能である種類であることができる。
例として、限定としてではなく、図7に示されているアーキテクチャを有するコンピュータシステム(700)、具体的には、コア(740)は、プロセッサ(CPU、GPU、FPGA、アクセラレータ、などを含む)が1つ以上の有形なコンピュータ可読媒体で具現化されているソフトウェアを実行した結果として機能を提供することができる。そのようなコンピュータ可読媒体は、コア内蔵大容量記憶装置(747)又はROM(745)のような、非一時的な性質のコア(740)の特定の記憶装置とともに、上記のユーザによりアクセス可能な大容量記憶装置に関連した媒体であることができる。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア(740)によって実行され得る。コンピュータ可読媒体は、特定ニーズに応じて、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア(740)及び具体的にはその中のプロセッサ(CPU、GPU、FPGA、などを含む)に、RAM(746)に記憶されているデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することを含め、本明細書で記載されている特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。更には、あるいは、代案として、コンピュータシステムは、本明細書で記載されている特定プロセス又は特定のプロセスの特定の部分を実行するようソフトウェアの代わりに又はそれとともに動作することができる、回路(例えば、アクセラレータ(744))内でハードワイヤード接続された又は別なふうに具現化されたロジックの結果として、機能を提供することができる。ソフトウェアへの言及は、必要に応じて、ロジックを包含することができ、その逆もしかりである。コンピュータ可読媒体への言及は、必要に応じて、実行されるソフトウェアを記憶する回路(例えば、集積回路(IC))、実行されるロジックを具現化する回路、又はその両方を含むことができる。本開示は、ハードウェアとソフトウェアとの如何なる適切な組み合わせも含む。
本開示はいくつかの例示的な実施形態について記載してきたが、本開示の範囲内に入る代案、置換、及び様々な代替同等物がある。よって、当業者には当然ながら、本明細書で明示的に図示及び記載されていないとしても、本開示の原理を具現化し、よって、その精神及び範囲内にある多数のシステム及び方法に想到可能である。

Claims (20)

  1. テレカンファレンスの方法であって、
    第1デバイスのプロセッシング回路によって、第2デバイスから、第1オーディオを運ぶ第1メディアストリームと、第2オーディオを運ぶ第2メディアストリームとを受信するステップと、
    前記第2デバイスから、前記第1オーディオを重み付けする第1オーディオ重みと、前記第2オーディオを重み付けする第2オーディオ重みとを受信するステップと、
    前記第1デバイスの前記プロセッシング回路によって、前記第1オーディオ重みに基づいた重み付き第1オーディオと、前記第2オーディオ重みに基づいた重み付き第2オーディオとを結合することで、混合オーディオを生成するステップと
    を有する方法。
  2. 前記第1デバイスに関連したスピーカを通じて前記混合オーディオを再生するステップを更に有する、
    請求項1に記載の方法。
  3. カスタマイズパラメータに基づき前記第1オーディオ重み及び前記第2オーディオ重みをカスタマイズするために前記第2デバイスへ前記カスタマイズパラメータを送信するステップを更に有する、
    請求項1又は2に記載の方法。
  4. 前記第1オーディオ及び前記第2オーディオの音の強さに基づき前記第2デバイスによって決定される前記第1オーディオ重み及び前記第2オーディオ重みを受信するステップを更に有する、
    請求項1乃至3のうちいずれか一項に記載の方法。
  5. 前記第1オーディオ及び前記第2オーディオは、オーバーレイオーディオであり、当該方法は、
    前記第1オーディオ及び前記第2オーディオのオーバーレイ優先度に基づき前記第2デバイスによって決定される前記第1オーディオ重み及び前記第2オーディオ重みを受信するステップを更に有する、
    請求項1乃至3のうちいずれか一項に記載の方法。
  6. アクティブスピーカの検出に基づき前記第2デバイスによって調整される前記第1オーディオ重み及び前記第2オーディオ重みを受信するステップを更に有する、
    請求項1乃至3のうちいずれか一項に記載の方法。
  7. 前記第1メディアストリームは、没入型メディアコンテンツを含み、
    前記第2メディアストリームは、前記没入型メディアコンテンツに対するオーバーレイメディアコンテンツを含み、
    前記第1オーディオ重みは、前記第2オーディオ重みとは異なる、
    請求項1乃至3のうちいずれか一項に記載の方法。
  8. 前記プロセッシング回路によって前記混合オーディオを第3メディアストリームにエンコードするステップと、
    前記第1デバイスのインターフェース回路を介して、前記第3メディアストリームを第3デバイスへ送信するステップと
    を更に有する、請求項1乃至7のうちいずれか一項に記載の方法。
  9. 前記第1デバイスの前記インターフェース回路を介して、前記第3メディアストリームと、没入型メディアコンテンツを含む第4メディアストリームとを送信するステップを更に有し、
    前記第3メディアストリームは、前記第4メディアストリームに対するオーバーレイメディアストリームである、
    請求項8に記載の方法。
  10. テレカンファレンスの方法であって、
    第1デバイスのプロセッシング回路によって、テレカンファレンスセッションの第1メディアコンテンツを運ぶ第1メディアストリームと、前記テレカンファレンスセッションの第2メディアコンテンツを運ぶ第2メディアストリームとを受信するステップと、
    前記第1デバイスの前記プロセッシング回路によって、前記第1メディアコンテンツと前記第2メディアコンテンツとを混合する第3メディアコンテンツを生成するステップと、
    前記第1デバイスの伝送回路を介して、前記第3メディアコンテンツを運ぶ第3メディアストリームを第2デバイスへ送信するステップと
    を有する方法。
  11. 前記第1デバイスの前記プロセッシング回路によって、前記第1メディアコンテンツ内の第1オーディオを前記第2メディアコンテンツ内の第2オーディオと混合して、前記第1オーディオに割り当てられた第1オーディオ重みと、前記第2オーディオに割り当てられた第2オーディオ重みとに基づき、第3オーディオを生成するステップを更に有する、
    請求項10に記載の方法。
  12. 前記第1メディアストリームは、没入型メディアコンテンツを含み、前記第2メディアストリームは、前記没入型メディアコンテンツに対するオーバーレイメディアコンテンツを含み、当該方法は、
    前記第1デバイスの前記プロセッシング回路によって、値が異なる前記第1オーディオ重み及び前記第2オーディオ重みに基づき、前記第1オーディオを前記第2オーディオと混合するステップを更に有する、
    請求項11に記載の方法。
  13. 前記第1メディアストリーム及び前記第2メディアストリームは、オーバーレイメディアストリームであり、当該方法は、
    前記第1デバイスの前記プロセッシング回路によって、等しい値の前記第1オーディオ重み及び前記第2オーディオ重みに基づき、前記第1オーディオを前記第2オーディオと混合するステップを更に有する、
    請求項11に記載の方法。
  14. 前記第1メディアストリーム及び前記第2メディアストリームは、オーバーレイメディアストリームであり、当該方法は、
    前記第1デバイスの前記プロセッシング回路によって、前記第1メディアストリーム及び前記第2メディアストリームのオーバーレイ優先度に関連する前記第1オーディオ重み及び前記第2オーディオ重みに基づき、前記第1オーディオを前記第2オーディオと混合するステップを更に有する、
    請求項11に記載の方法。
  15. テレカンファレンスの方法であって、
    第1デバイスによって、第2デバイスへ、第1オーディオを運ぶ第1メディアストリームと、第2オーディオを運ぶ第2メディアストリームとを送信するステップと、
    前記第1デバイスによって、前記第1オーディオを重み付けする第1オーディオ重みと、前記第2オーディオを重み付けする第2オーディオ重みとを決定するステップと、
    前記第1デバイスによって、前記第2デバイスへ、前記第1オーディオと前記第2オーディオとを混合するために前記第1オーディオ重み及び前記第2オーディオ重みを送信するステップと
    を有する方法。
  16. セッション記述プロトコルに基づきカスタマイズパラメータを受け取るステップと、
    前記カスタマイズパラメータに基づき前記第1オーディオ重み及び前記第2オーディオ重みを決定するステップと
    を更に有する、請求項15に記載の方法。
  17. 前記第1オーディオ及び前記第2オーディオの音の強さに基づき前記第1オーディオ重み及び前記第2オーディオ重みを決定するステップを更に有する、
    請求項15又は16に記載の方法。
  18. 前記第1オーディオ及び前記第2オーディオは、オーバーレイオーディオであり、当該方法は、
    前記第1オーディオ及び前記第2オーディオのオーバーレイ優先度に基づき前記第1オーディオ重み及び前記第2オーディオ重みを決定するステップを更に有する、
    請求項15又は16に記載の方法。
  19. 前記第1オーディオ及び前記第2オーディオの一方でのアクティブスピーカの検出に基づき前記第1オーディオ重み及び前記第2オーディオ重みを決定するステップを更に有する、
    請求項15又は16に記載の方法。
  20. 前記第1メディアストリームは、没入型メディアコンテンツを含み、前記第2メディアストリームは、オーバーレイメディアコンテンツを含み、当該方法は、
    前記第1オーディオ重み及び前記第2オーディオ重みに対して異なる値を決定するステップを更に有する、
    請求項15又は16に記載の方法。
JP2022535698A 2020-10-06 2021-06-22 テレカンファレンスの方法 Pending JP2023508130A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202063088300P 2020-10-06 2020-10-06
US63/088,300 2020-10-06
US202063124261P 2020-12-11 2020-12-11
US63/124,261 2020-12-11
US17/327,400 US11662975B2 (en) 2020-10-06 2021-05-21 Method and apparatus for teleconference
US17/327,400 2021-05-21
PCT/US2021/038370 WO2022076046A1 (en) 2020-10-06 2021-06-22 Method and apparatus for teleconference

Publications (1)

Publication Number Publication Date
JP2023508130A true JP2023508130A (ja) 2023-03-01

Family

ID=80932275

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022535698A Pending JP2023508130A (ja) 2020-10-06 2021-06-22 テレカンファレンスの方法
JP2023509818A Pending JP2023538548A (ja) 2020-10-06 2021-09-24 オーディオミキシングのための方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023509818A Pending JP2023538548A (ja) 2020-10-06 2021-09-24 オーディオミキシングのための方法および装置

Country Status (6)

Country Link
US (4) US11662975B2 (ja)
EP (2) EP4042673A4 (ja)
JP (2) JP2023508130A (ja)
KR (2) KR102626555B1 (ja)
CN (2) CN114667727A (ja)
WO (2) WO2022076046A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022182019A (ja) * 2021-05-27 2022-12-08 シャープ株式会社 会議システム、会議方法、及び会議プログラム
US11979244B2 (en) * 2021-09-30 2024-05-07 Snap Inc. Configuring 360-degree video within a virtual conferencing system
CN114900503A (zh) * 2022-04-22 2022-08-12 北京字节跳动网络技术有限公司 一种混音方法、装置、处理服务器、媒体服务器及介质
CN116303135B (zh) * 2023-02-24 2024-03-22 格兰菲智能科技有限公司 任务数据的装载方法、装置和计算机设备

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947417B2 (en) 2001-06-29 2005-09-20 Ip Unity Method and system for providing media services
CN100574287C (zh) * 2002-07-04 2009-12-23 斯比德航海有限公司 管理分组交换电话会议
JP2004072354A (ja) 2002-08-06 2004-03-04 Yokogawa Electric Corp 音声会議システム
US7610011B2 (en) * 2004-09-19 2009-10-27 Adam Albrett Providing alternative programming on a radio in response to user input
ATE499677T1 (de) 2006-09-18 2011-03-15 Koninkl Philips Electronics Nv Kodierung und dekodierung von audio-objekten
US8243119B2 (en) 2007-09-30 2012-08-14 Optical Fusion Inc. Recording and videomail for video conferencing call systems
CN100550860C (zh) * 2007-11-27 2009-10-14 华为技术有限公司 媒体资源预留方法及业务包信息获取方法及装置
JP5219501B2 (ja) 2007-12-27 2013-06-26 三菱電機株式会社 画面生成装置および画面レイアウト共有システム
CN102016983B (zh) * 2008-03-04 2013-08-14 弗劳恩霍夫应用研究促进协会 用于对多个输入数据流进行混合的设备
WO2011020493A1 (en) * 2009-08-17 2011-02-24 Nokia Siemens Networks Oy Control of session parameter negotiation for communication connection
JP2013528832A (ja) * 2010-11-12 2013-07-11 ポリコム,インク. マルチポイント環境におけるスケーラブルオーディオ処理
GB201109417D0 (en) * 2011-06-06 2011-07-20 Trilogy Comm Ltd Communications device
US20180316948A1 (en) * 2012-04-24 2018-11-01 Skreens Entertainment Technologies, Inc. Video processing systems, methods and a user profile for describing the combination and display of heterogeneous sources
US9191516B2 (en) * 2013-02-20 2015-11-17 Qualcomm Incorporated Teleconferencing using steganographically-embedded audio data
US9337790B2 (en) 2013-11-25 2016-05-10 2236008 Ontario Inc. System and method for enhancing comprehensibility through spatialization
US9516268B2 (en) * 2014-03-28 2016-12-06 International Business Machines Corporation Maintaining audio video conference continuity
EP3127326B1 (en) * 2014-03-31 2021-11-03 Polycom, Inc. System and method for a hybrid topology media conferencing system
FR3034608A1 (fr) * 2015-03-31 2016-10-07 Orange Procede de priorisation de flux medias dans un reseau de communications
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
KR102101656B1 (ko) * 2015-11-09 2020-04-17 노키아 솔루션스 앤드 네트웍스 오와이 웹 실시간 통신 시나리오들에서 향상된 미디어 평면 최적화
EP3203701B1 (en) * 2016-02-04 2021-04-21 Unify Patente GmbH & Co. KG Method of controlling a real-time conference session, a computer program product causing a computer to execute the method, and a communication system for controlling the real-time conference session
US10587978B2 (en) * 2016-06-03 2020-03-10 Nureva, Inc. Method, apparatus and computer-readable media for virtual positioning of a remote participant in a sound space
EP3301896B1 (en) 2016-09-28 2019-07-24 British Telecommunications public limited company Streamed communication
US10992795B2 (en) * 2017-05-16 2021-04-27 Apple Inc. Methods and interfaces for home media control
US20190104326A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Content source description for immersive media data
US10674266B2 (en) * 2017-12-15 2020-06-02 Boomcloud 360, Inc. Subband spatial processing and crosstalk processing system for conferencing
US20190215729A1 (en) * 2018-03-15 2019-07-11 Intel Corporation Session description protocol mechanisms for signaling radio access network capabilities in multimedia telephony sessions
GB2574238A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
US10819953B1 (en) * 2018-10-26 2020-10-27 Facebook Technologies, Llc Systems and methods for processing mixed media streams
CN114258668A (zh) * 2019-06-25 2022-03-29 苹果公司 沉浸式远程会议和远程呈现

Also Published As

Publication number Publication date
WO2022076183A1 (en) 2022-04-14
US11847377B2 (en) 2023-12-19
US20220109758A1 (en) 2022-04-07
US20220107779A1 (en) 2022-04-07
KR102626555B1 (ko) 2024-01-18
CN116018782A (zh) 2023-04-25
US11914922B2 (en) 2024-02-27
US20230229384A1 (en) 2023-07-20
EP4042673A1 (en) 2022-08-17
EP4165830A4 (en) 2023-12-27
KR20230048107A (ko) 2023-04-10
WO2022076046A1 (en) 2022-04-14
EP4165830A1 (en) 2023-04-19
US11662975B2 (en) 2023-05-30
EP4042673A4 (en) 2022-12-14
KR20220080184A (ko) 2022-06-14
JP2023538548A (ja) 2023-09-08
CN114667727A (zh) 2022-06-24
US20240069855A1 (en) 2024-02-29

Similar Documents

Publication Publication Date Title
US11662975B2 (en) Method and apparatus for teleconference
US20220303503A1 (en) Parameters for overlay handling for immersive teleconferencing and telepresence for remote terminals
US11943073B2 (en) Multiple grouping for immersive teleconferencing and telepresence
US20220311814A1 (en) Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals
US20220308341A1 (en) Towards subsiding motion sickness for viewport sharing for teleconferencing and telepresence for remote terminals
JP7399549B2 (ja) リモート端末向けの遠隔会議およびテレプレゼンスにおいてオーディオミキシングゲインをシグナリングする手法
US11916982B2 (en) Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals using RTCP feedback
JP7419529B2 (ja) 遠隔端末のための没入型テレカンファレンス及びテレプレゼンスのインタラクティブオーバーレイ処理

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231024

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240423

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240502