JP2023529788A - オーディオシーンの関心空間を表現する方法および装置 - Google Patents

オーディオシーンの関心空間を表現する方法および装置 Download PDF

Info

Publication number
JP2023529788A
JP2023529788A JP2022566119A JP2022566119A JP2023529788A JP 2023529788 A JP2023529788 A JP 2023529788A JP 2022566119 A JP2022566119 A JP 2022566119A JP 2022566119 A JP2022566119 A JP 2022566119A JP 2023529788 A JP2023529788 A JP 2023529788A
Authority
JP
Japan
Prior art keywords
space
audio
items
audio scene
syntax element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022566119A
Other languages
English (en)
Other versions
JP7489488B2 (ja
Inventor
ティエン,ジュン
リウ,シャン
シュー,シャオジョン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023529788A publication Critical patent/JP2023529788A/ja
Application granted granted Critical
Publication of JP7489488B2 publication Critical patent/JP7489488B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • General Health & Medical Sciences (AREA)

Abstract

本開示の態様は、オーディオシーンの関心空間を表す方法、装置、および非一時的なコンピュータ読取可能記憶媒体を含む。1つの装置は、オーディオシーンについてのオーディオシーンデータを復号化する処理回路構成を含む。オーディオシーンデータは、(i)オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)複数のアイテムのサブセットのタイプを示す第1の構文要素とを含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。処理回路構成は、第1の構文要素において示される複数のアイテムのサブセットのタイプに基づいて、複数のアイテムのサブセットについてのオーディオコンテンツの部分を決定する。処理回路構成は、決定されたオーディオコンテンツの部分をレンダリングする。

Description

(関連出願の参照)
本願は、2021年5月5日に出願された米国仮出願第63/184,571号「REPRESENTING SPACE OF INTEREST OF AUDIO SCENE」に対する優先権の利益を主張する、2021年9月29日に出願された米国特許出願第17/489,212号「METHOD AND APPARATUS FOR REPRESENTING SPACE OF INTEREST OF AUDIO SCENE」に対する優先権の利益を主張する。この出願は、先の出願の開示は、その全体が参照により本明細書に援用される。
(技術分野)
本開示は、オーディオシーン表現に概ね関する実施形態を記載する。
本明細書で提供される背景記述は、本開示の文脈を一般的に提示するためのものである。その業績がこの背景セクションに記載されている範囲における、現在指名されている発明者の業績、並びに出願時に他の点では先行技術として適格でないことがある記述の側面は、本開示に対する先行技術として明示的にも暗示的にも認められない。
関心領域(ROI:region of interest)は、特定の目的のために識別されたデータセット内のサンプルの領域である。ROIの概念は、医療撮像、地理情報システム、コンピュータビジョン、光学文字認識等のような、多くの応用エリアで一般に使用されている。
ROIは、一次元オーディオ信号に対して使用されることができるが、オーディオシーンにおいて、そのような概念は、直接的に適用されないことがある。この開示では、オーディオシーン(audio scene)の関心空間(space of interest)を表現する方法が提供される。
本開示の態様は、オーディオシーンの関心空間を表す装置を提供する。1つの装置は、オーディオシーンについてのオーディオシーンデータを復号化する処理回路構成を含む。オーディオシーンデータは、(i)オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)複数のアイテムのサブセットのタイプを示す第1の構文要素とを含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。処理回路構成は、第1の構文要素において示される複数のアイテムのサブセットのタイプに基づいて複数のアイテムのサブセットについてのオーディオコンテンツの部分を決定する。処理回路構成は、オーディオコンテンツの決定される部分をレンダリングする。
1つの実施形態において、第1の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの1つであることを示す。
1つの実施形態において、オーディオシーンデータは、複数のアイテムのサブセットの数を示す第2の構文要素を含む。
1つの実施形態において、第2の構文要素は、複数のアイテムのサブセットの数が、1よりも大きいことを示し、オーディオシーンデータは、複数のアイテムのサブセットの各々についての識別インデックスを示す第3の構文要素を含む。
1つの実施形態において、第1の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプであることを示し、オーディオシーンデータは、視聴者空間のサブタイプが信号伝達されるかどうかを示す第4の構文要素を含む。
1つの実施形態において、第4の構文要素は、視聴者空間のサブタイプが信号伝達されることを示し、オーディオシーンデータは、視聴者空間のサブタイプを示す第5の構文要素を含む。
1つの実施形態において、第4の構文要素は、視聴者空間のサブタイプが信号伝達されないことを示し、視聴者空間のサブタイプは、ビデオシーンに基づいて決定される。
1つの実施形態において、視聴者空間のサブタイプは、オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの1つである。
本開示の態様は、オーディオシーンの関心空間を表す方法を提供する。1つの方法において、オーディオシーンについてのオーディオシーンデータが復号化される。オーディオシーンデータは、(i)オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)複数のアイテムのサブセットのタイプを示す第1の構文要素とを含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。オーディオコンテンツの部分が、第1の構文要素において示される複数のアイテムのサブセットのタイプに基づいて複数のアイテムのサブセットについて決定される。オーディオコンテンツの決定される部分は、レンダリングされる。
本開示の態様は、少なくとも1つのプロセッサによって実行されるときに、少なくとも1つのプロセッサに、オーディオシーンの関心空間を表現する方法のいずれか1つまたは組み合わせを実行させる命令を格納する、非一時的なコンピュータ読取可能媒体も提供する。
開示される主題のさらなる構成、性質、および様々な利点は、以下の詳細な記述および添付の図面からより明らかになるであろう。
本開示の一実施形態によるオーディオシーンの例示的なスイートスポットを示している。
本開示の一実施形態による限定的な高さの範囲を有する聴覚空間の一例を示している。
本開示の一実施形態によるボール形状を有する聴覚空間の一例を示している。
本開示の一実施形態による転動ボール形状を有する聴覚空間の一例を示している。
本開示の一実施形態による例示的なフローチャートを示している。
本開示の一実施形態によるコンピュータシステムの概略図である。
I.オーディオシーンの関心空間の表現
この開示に含まれる方法を別々にまたは組み合わせにおいて使用することができることに留意されたい。これらの方法を部分的に又は全体として使用することができる。
本開示の態様によれば、関心空間(space of interest)が、オーディオシーン(audio scene)において考慮されている空間の境界として定義されることができる。関心空間は、オーディオコーディング、オーディオ処理、オーディオレンダリング等において利用されることができる。
オーディオシーンは、1つ以上の支配的なサウンドソース(音源)によって特徴付けられる意味的に一貫性のあるサウンドセグメントである。オーディオシーンは、サウンドソースの集合としてモデル化されることができる。いくつかの実施形態において、オーディオシーンは、サウンドソースの集合のサブセットによって支配されることができる。
いくつかの実施形態において、関心空間は、視聴者が移動できる空間によって表現されることができる。例えば、空間全体は、視聴者が移動できる1つ以上の領域と、視聴者が移動できない他の領域とに分割されることができる。従って、関心空間は、視聴者が移動できる領域の集合によって表現されることができる。
一実施形態において、関心空間は、個人(例えば、視聴者)が、オーディオミキサによって生成されたオーディオミックスを、それが聴かれることが意図される方法で、完全に聴くことができる、オーディオシーンのスイートスポット(sweet spot(s))によって表現されることができる。
図1は、本開示の一実施形態によるオーディオシーンの例示的なスイートスポットを示している。図1において、オーディオシーンのスイートスポットは、1~7のラベルが付されたオーディオソースによってカバーされるエリアの交点である。よって、スイートスポットは、図1の椅子の周りに円によって示されている。国際的な推奨のような幾つかの場合において、スウィートスポットは、参照リスニングポイント(reference listening point)と呼ばれる。
いくつかの実施形態において、関心空間は、聴覚空間(auditory space)によって表現されることができる。
一実施形態において、関心空間は、限定的な高さ(elevation)の範囲を有する聴覚空間によって表現されることができる。例えば、関心空間は、2つの数字で表現されることができ、その場合、聴覚空間は、これらの2つの数字の間の高さ内にある。
図2は、0.0メートル~4.0メートルの間の高さを有する聴覚空間の一例を示している。
一実施形態において、関心空間は、長方形プリズムを有する聴覚空間によって表現されることができる。その表現は、長方形プリズムの2つの対角の頂点の座標であることができる。その表現は、長方形プリズムの1つの頂点の座標、および長方形プリズムの高さ、幅、および長さの値であることができる。幾つかの場合において、長方形プリズムは、常に垂直または水平であるとは限らないので、長方形プリズムの方向性情報を記述することができる。
一実施形態において、関心空間は、多面体形状を有する聴覚空間によって表現されることができる。その表現は、多面体形状の頂点の座標であることができる。その表現は、多面体形状の表面の集合であることができる。
一実施形態において、関心空間は、図3に示すように、視聴者の場所を中心としたボール形状を有する聴覚空間によって表現されることができる。その表現は、ボール形状の中心の座標、およびボール形状の半径の値であることができる。
一実施形態において、関心空間は、転動ボール(rolling ball)形状を有する聴覚空間によって表現されることができる。転動ボール形状の中心は、図4に示すように、視聴者の歩行経路に沿う。その表現は、歩行経路および転動ボール形状の半径を記述する関数であることができる。
一実施形態において、関心空間は、マルチチャネルオーディオからのオーディオチャネルの組み合わせによって表現されることができる。例えば、その表現は、7.1オーディオチャネルからの前面左チャネルおよび前面右チャネルのセットであることができる。
一実施形態において、関心空間は、オーディオオブジェクトの組み合わせによって表現されることができる。例えば、病院オーディオシーンは、ドア、テーブル、椅子、TV、ラジオ、医師、および患者のオーディオオブジェクトを含むことができる。この例における関心空間は、ドア、医師、および患者のセットによって表現されることができる。
開示の態様によれば、関心空間は、(視聴者空間と呼ぶ)視聴者が移動できる空間、オーディオチャネル、およびオーディオオブジェクトからの2つまたは3つのタイプのアイテムの集合によって表現されることができる。すなわち、オーディオシーンの関心空間は、視聴者空間、オーディオチャネル、および/またはオーディオオブジェクトの集合によって表現されることができる。
いくつかの実施形態では、space_of_interest_typeフラグのようなオーディオシーンデータ内の第1の構文要素が、関心空間が視聴者空間、オーディオチャネル構成、またはオーディオオブジェクト構成であるかどうかを示すために信号伝達される(signaled)ことができる。
いくつかの実施形態では、オーディオシーンのオーディオシーンデータ内の第2の構文要素が、多数の各タイプのアイテムを示すために信号伝達されることができる。例えば、第2の構文要素は、視聴者空間の数、オーディオチャネル構成、およびオーディオオブジェクト構成をそれぞれ示す、listener_space_count、audio_channel_config_channel、およびaudio_object_config_countの3つの値のいずれか1つであることができる。
一実施形態では、視聴者空間がオーディオシーンの関心空間に存在しないときに、listener_space_countの値を0として設定することができる。
一実施形態では、オーディオチャネル構成がオーディオシーンの関心空間内に存在しないときに、audio_channel_config_countの値を0として設定することができる。
一実施形態では、オーディオオブジェクト構成がオーディオシーンの関心空間内に存在しないときに、audio_object_config_countの値を0として設定することができる。
いくつかの実施形態では、第2の構文要素が、同じタイプのアイテムの総数が1よりも大きいことを示すときに、オーディオシーンのオーディオシーンデータ内の第3の構文要素が、同じタイプのアイテムの各々についての識別インデックス(identification index)を示すように信号伝達されることができる。
一実施形態では、listener_space_countが1よりも大きいときに、第3の構文要素は、listener_space_idであることができ、それは、各視聴者空間の識別インデックスを示すように信号伝達されることができる。
一実施形態では、listener_space_countが1に等しいときに、オーディオシーンの関心空間内に正確に1つの視聴者空間がある。
一実施形態では、audio_channel_config_countが1よりも大きいときに、第3の構文要素は、audio_channel_config_idであることができ、それは、各オーディオチャネル構成の識別インデックスを示すように信号伝達されることができる。
一実施形態では、audio_channel_config countが1に等しいときに、オーディオシーンの関心空間内に正確に1つのオーディオチャネル構成がある。
一実施形態では、audio_object_config_countが1より大きいときに、第3の構文要素は、audio_object_config_idであることができ、それは、各オーディオオブジェクト構成の識別インデックスを示すように信号伝達されることができる。
一実施形態では、audio_object_config_countが1に等しいときに、オーディオシーンの関心空間内に正確に1つのオーディオオブジェクト構成がある。
本開示の態様によれば、オーディオ信号およびビデオ信号を相関させることができる。従って、オーディオシーンの視聴者空間は、対応するビデオシーンに従って設定されることができる。
一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのROIと同一に設定されることができる。
一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのROIの一部であることができる。
一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのROIの外にあることができる。
一実施形態では、listener_space_flagのようなオーディオシーンのオーディオシーンデータ内の第4の構文要素が、オーディオシーンの視聴者空間とビデオシーンのような他のコンポーネントとの間の関係を示すように信号伝達されることができる。第4の構文要素listener_space_flagが真として設定されるならば、それは、視聴者空間がオーディオ視聴者空間であり、第5の構文要素listener_space_subtypeのような後続の構文要素において完全に表現されることができることを意味する。第4の構文要素listener_space_flagが偽として設定されているとき、それはオーディオシーンの視聴者空間が信号伝達なしで他の場所から推論されることができることを意味する。例えば、オーディオシーンの視聴者空間は、オーディオ-ビデオシーン内のビデオシーンのROIと同一であることができ、オーディオシーンの視聴者空間は、ビデオシーンのROIからコピーされることができる。
視聴者空間アイテムについて、第5の構文要素listener_space_subtypeは、アイテムが、スイートスポット、限定的な高さの範囲を有する聴覚空間、長方形プリズムを有する聴覚空間、多面体形状を有する聴覚空間、ボール形状を有する聴覚空間、転動ボール形状を有する聴覚空間、または同等物のうちの1つであることを示すように信号伝達されることができる。
表1は、オーディオシーンの関心空間を表現する例示的な構文テーブルを示している。表1において、構文要素space_of_interest_typeは、オーディオシーンのための関心領域内のアイテムのタイプを示している。アイテムのタイプは、視聴者空間、オーディオチャネル構成、またはオーディオオブジェクト構成のうちの1つであることができる。構文要素listener_space_count、audio_channel_config_count、audio_object_config_countは、それぞれ、視聴者空間の総数、オーディオチャネル構成の総数、オーディオオブジェクト構成の総数を示している。構文要素listener_space_id、audio_channel_config_id、audio_object_config_idは、それぞれ、視聴者空間の識別インデックス、オーディオチャネル構成の識別インデックス、オーディオオブジェクト構成の識別インデックスを示している。構文要素listener_space_flagは、視聴者空間を視聴者空間のサブタイプで表現することができるかどうかを示す。構文要素listener_space_subtypeは、視聴者空間のサブタイプを示す。視聴者空間のサブタイプは、スイートスポット、限定的な高さの範囲を有する聴覚空間、長方形プリズムを有する聴覚空間、多面体形状を有する聴覚空間、ボール形状を有する聴覚空間、転動ボール形状を有する聴覚空間、または同等物のうちの1つであることができる。
Figure 2023529788000002
オーディオエンコーダ、デコーダ、レンダラ、または他のプロセッサについて、対応するアイテムが所与のオーディオエンコーダ、デコーダ、レンダラ、または他のプロセッサのために有効にされているかどうかを示すために、固定長フラグspace_of_interest_selectionが、各視聴者空間、オーディオチャネル、およびオーディオオブジェクトのために信号伝達されることができる。例えば、フラグの「1」ビット値は、対応するアイテム(視聴者空間、オーディオチャネル、またはオーディオオブジェクト)が有効にされていることを示すことができ、フラグの「0」ビット値は、対応するアイテムが無効にされていることを示すことができる。
本実施形態において、オーディオチャネル構成は、いくつかのオーディオチャネルの集合であることができ、幾つかのオーディオチャネルの集合は、それらのチャネルの識別インデックスによってさらに示されることができる。代替的に、オーディオチャネル構成は、特定のオーディオチャネルであることができる。
本実施形態において、オーディオオブジェクト構成は、幾つかのオーディオオブジェクトの集合であることができ、幾つかのオーディオチャネルの集合は、それらのオブジェクトの識別インデックスによってさらに示されることができる。代替的に、オーディオオブジェクト構成は、特定のオーディオオブジェクトであることができる。
表2は、オーディオシーンの関心空間を表現する別の例示的な構文テーブルを示している。
Figure 2023529788000003
Figure 2023529788000004
II.フローチャート
図5は、本開示の一実施形態による例示的なプロセス(500)の概略するフローチャートを示している。様々な実施形態において、プロセス(500)は、図6に示すような処理回路構成のような、処理回路構成によって実行される。いくつかの実施形態において、プロセス(500)は、ソフトウェア命令で実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス(500)を実行する。
プロセス(500)は、一般に、ステップ(S510)で開始し、プロセス(500)は、オーディオシーンについてのオーディオシーンデータを復号化する。オーディオシーンデータは、(i)オーディオシーンを表現する複数のアイテムについてのオーディオコンテンツ、および(ii)複数のアイテムのサブセットのタイプを示す第1の構文要素を含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。次に、プロセス(500)は、ステップ(S520)に進む。
ステップ(S520)で、プロセス(500)は、第1の構文要素において示される複数のアイテムのサブセットのタイプに基づいて、複数のアイテムのサブセットのオーディオコンテンツの一部分を決定する。次に、プロセス(500)は、ステップ(S530)に進む。
ステップ(S530)で、プロセス(500)は、オーディオコンテンツの決定された部分をレンダリングする。次に、プロセス(500)は、終了する。
一実施形態において、第1の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの1つであることを示す。
一実施形態において、オーディオシーンデータは、複数のアイテムのサブセットの数を示す第2の構文要素を含む。
一実施形態において、第2の構文要素は、複数のアイテムのサブセットの数が1よりも多いことを示し、オーディオシーンデータは、複数のアイテムのサブセットの各々についての識別インデックスを示す第3の構文要素を含む。
一実施形態において、第1の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプであることを示し、オーディオシーンデータは、視聴者空間のサブタイプが信号伝達されるかどうかを示す第4の構文要素を含む。
一実施形態において、第4の構文要素は、視聴者空間のサブタイプが信号伝達されることを示し、オーディオシーンデータは、視聴者空間のサブタイプを示す第5の構文要素を含む。
一実施形態において、第4の構文要素は、視聴者空間のサブタイプが信号伝達されないことを示し、視聴者空間のサブタイプは、ビデオシーンに基づいて決定される。
一実施形態においては、視聴者空間のサブタイプは、オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの1つである。
III.コンピュータシステム
上述の技法は、コンピュータ読取可能命令を使用するコンピュータソフトウェアとして実装されることができ、1つ以上のコンピュータ読取可能媒体に物理的に格納されることができる。例えば、図6は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム(600)を示している。
コンピュータソフトウェアは、1つ以上のコンピュータ中央処理装置(CPU)、グラフィックス処理装置(GPU)等によって、直接的に或いは解釈、マイクロコード実行等を通じて実行されることができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または類似のメカニズムの対象となることがある任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされることができる。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス等を含む、様々なタイプのコンピュータまたはそれらのコンポーネント上で実行されることができる。
コンピュータシステム(600)のための図6に示されるコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能性に関する如何なる制限も示唆することを意図しない。コンポーネントの構成は、コンピュータシステム(600)の例示的な実施形態において図示されるコンポーネントの任意の1つまたは組み合わせに関する如何なる従属性または要件も有するものとして解釈されてならない。
コンピュータシステム(600)は、特定のヒューマンインターフェース入力デバイスを含んでよい。そのようなヒューマンインターフェース入力デバイスは、例えば、(キーストローク、スワイプ、データグローブの動きのような)触覚入力、(音声、拍手のような)オーディオ入力、(ジェスチャのような)視覚入力、嗅覚入力(図示せず)を通じて、1人以上の人間ユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、(発話、音楽、周囲サウンドのような)オーディオ、(スキャンされた画像、静止画像カメラから得られる写真画像のような)画像、(二次元ビデオ、立体視ビデオを含む三次元ビデオのような)ビデオのような、人間による意識的入力に必ずしも直接的に関係しない特定の媒体を取り込むために使用されることもできる。
入力ヒューマンインターフェースデバイスは、キーボード(601)、マウス(602)、トラックパッド(603)、タッチスクリーン(610)、データグローブ(図示せず)、ジョイスティック(605)、マイクロホン(606)、スキャナ(607)、およびカメラ(608)の1つ以上(各々の1つのみが描かれている)を含んでよい。
コンピュータシステム(600)は、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、サウンド、光、および嗅覚/味覚を通じて、1人以上の人間ユーザの感覚を刺激することがある。そのようなヒューマンインターフェース出力デバイスは、(例えば、タッチスクリーン(610)、データグローブ(図示せず)、ジョイスティック(605)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあることができる)触覚出力装置、(スピーカ(609)、ヘッドフォン(図示せず)のような)オーディオ出力デバイス、(各々がタッチスクリーン入力能力を持つか或いは持たない、各々が触覚フィードバック能力を持つか或いは持たない、それらの一部は、立体出力、仮想現実グラス(図示せず)、ホログラフィックディスプレイおよびスモークタンク(図示せず)、およびプリンタ(図示せず)のような手段を通じて、二次元視覚出力または三次元よりも多くの次元の出力を出力し得ることがある、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含む、スクリーン(610)のような)視覚出力デバイスを含むことがある。(スクリーン(610)のような)これらの視覚出力デバイスは、グラフィックスアダプタ(650)を通じてシステムバス(648)に接続されることができる。
コンピュータシステム(600)は、人間がアクセス可能な記憶デバイスや、CD/DVDまたは同等の媒体(621)を備えるCD/DVD ROM/RW(620)、サムドライブ(622)、取り外し可能なハードドライブまたはソリッドステートドライブ(623)、テープおよびフロッピーディスク(図示せず)のようなレガシー磁気媒体、セキュリティドングル(図示せず)のような特殊化されたROM/ASIC/PLDベースのデバイス、および同等物を含む、光媒体のような、それらの関連する媒体も含むことができる。
当業者は、現在開示されている主題に関連して使用されるような「コンピュータ読取可能媒体」という用語が、送信媒体、搬送波、または他の過渡信号を包含しないことも理解するはずである。
コンピュータシステム(600)は、1つ以上の通信ネットワーク(655)へのインターフェース(654)を含むこともできる。1つ以上の通信ネットワーク(655)は、例えば、無線、有線、光であることができる。1つ以上の通信ネットワーク(655)は、更に、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、遅延耐性等であることができる。1つ以上の通信ネットワークの例は、イーサネット、無線LANのようなローカルエリアネットワーク、GSM、3G、4G、5G、LTEおよび同等のものを含むセルラネットワーク、ケーブルTV、衛星TV、および地上放送TVを含むTV有線または無線ワイドエリアデジタルネットワーク、CANBusを含む車両および産業等を含む。特定のネットワークは、一般に、(例えば、コンピュータシステム(600)のUSBポートのような)特定の汎用データポートまたは周辺バス(649)に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、以下に記載するようなシステムバスへの取り付けによって、コンピュータシステム(600)のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(600)は、他のエンティティと通信することができる。そのような通信は、単指向性、受信のみ(例えば、放送テレビ)、単指向性送信のみ(例えば、特定のCANbusデバイスへのCANbus)、または、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの、双指向性であることができる。特定のプロトコルおよびプロトコルスタックは、上述のように、それらのネットワークおよびネットワークインターフェースの各々で使用されることができる。
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム(600)のコア(640)に取り付けられることができる。
コア(640)は、1つ以上の中央処理装置(CPU)(641)、グラフィックス処理装置(GPU)(642)、フィールドプログラマブルゲートエリア(FPGA)(643)の形態の特殊化されたプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ(644)等を含むことができる。これらのデバイスは、読出し専用メモリ(ROM)(645)、ランダムアクセスメモリ(646)、内部ユーザアクセス可能でないハードドライブのような内部大容量記憶装置、SSD、および同等物(647)と共に、システムバス(648)を通じて接続されてよい。幾つかのコンピュータシステムにおいて、システムバス(648)は、追加のCPU、GPU、および同等物による拡張を可能にするために、1つ以上の物理プラグの形態でアクセス可能であることができる。周辺デバイスは、コアのシステムバス(648)に直接的に取り付けられることができ、或いは周辺バス(649)を通じて取り付けられることができる。周辺バスのためのアーキテクチャは、PCI、USB、および同等物を含む。
CPU(641)、GPU(642)、FPGA(643)、およびアクセラレータ(644)は、組み合わせにおいて、上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードは、ROM(645)またはRAM(646)に格納されることができる。移行データも、RAM(646)に格納されることができるのに対し、永久データは、例えば、内部大容量記憶装置(647)に格納されることができる。1つ以上のCPU(641)、GPU(642)、大容量記憶装置(647)、ROM(645)、RAM(646)、および同等物と密接に関連付けられることができるキャッシュメモリの使用を通じて、メモリデバイスのいずれかへの高速格納および検索を可能にすることができる。
コンピュータ読取可能媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであることができ、或いは、それらは、コンピュータソフトウェア技術の当業者によく知られており且つ利用可能である種類のものであることができる。
一例として、限定によってではなく、アーキテクチャ(600)、具体的には、コア(640)を有する、コンピュータシステムは、1つ以上の有形のコンピュータ読取可能媒体において具現されるソフトウェアを実行する(CPU、GPU、FPGA、アクセラレータ、および同等物を含む)プロセッサの結果としての機能性を提供することができる。そのようなコンピュータ読取可能媒体は、上述のようなユーザアクセス可能な大容量記憶装置と関連付けられる媒体、並びにコア内部大容量記憶装置(647)またはROM(645)のような非一時的な性質を有するコア(640)の特定の記憶装置であってよい。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納されることができ、コア(640)によって実行されることができる。コンピュータ読取可能媒体は、特定のニーズに従って、1つ以上のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア(640)、特にコア内の(CPU、GPU、FPGA、および同等物を含む)プロセッサに、RAM(646)に格納されるデータ構造を定義ことと、ソフトウェアによって定義されるプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。追加的にまたは代替的に、コンピュータシステムは、回路内に配線された或いは他の方法で具現されたロジック(論理)の結果として機能性(例えば、アクセラレータ(644))を提供することができ、それは、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに或いはソフトウェアと共に作動することができる。ソフトウェアへの言及は、ロジックを含み、必要に応じて、その逆も同様である。コンピュータ読取可能媒体への言及は、実行のためのソフトウェアを格納する回路、実行のためのロジックを具現する(集積回路(IC)のような)回路、または適切な場合にはそれらの両方を含むことができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを含む。
この開示は幾つかの例示的な実施形態を記載したが、本開示の範囲内にある変更、置換、および様々な代替的な均等物がある。よって、当業者は、本明細書に明示的に示されていないか或いは記載されていないが、本開示の原理を具現し、よって、本開示の精神および範囲内にある、数多くのシステムおよび方法を考案することができることが理解されるであろう。

Claims (17)

  1. オーディオシーンの関心空間を表す方法であって、
    前記オーディオシーンについてのオーディオシーンデータを復号化することであって、前記オーディオシーンデータは、(i)前記オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)前記複数のアイテムのサブセットのタイプを示す第1の構文要素とを含み、前記複数のアイテムの前記サブセットは、前記オーディオシーンの前記関心空間を表す、復号化することと、
    前記第1の構文要素において示される前記複数のアイテムの前記サブセットの前記タイプに基づいて前記複数のアイテムの前記サブセットについての前記オーディオコンテンツの部分を決定することと、
    前記オーディオコンテンツの前記決定される部分をレンダリングすることと、を含む、
    方法。
  2. 前記第1の構文要素は、前記複数のアイテムの前記サブセットの前記タイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの1つであることを示す、請求項1に記載の方法。
  3. 前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの数を示す第2の構文要素を含む、請求項1に記載の方法。
  4. 前記第2の構文要素は、前記複数のアイテムの前記サブセットの前記数が、1よりも大きいことを示し、前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの各々についての識別インデックスを示す第3の構文要素を含む、請求項3に記載の方法。
  5. 前記第1の構文要素は、前記複数のアイテムの前記サブセットの前記タイプが、前記視聴者空間と関連付けられる前記タイプであることを示し、前記オーディオシーンデータは、前記視聴者空間のサブタイプが信号伝達されるかどうかを示す第4の構文要素を含む、請求項2に記載の方法。
  6. 前記第4の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されることを示し、前記オーディオシーンデータは、前記視聴者空間の前記サブタイプを示す第5の構文要素を含む、請求項5に記載の方法。
  7. 前記第4の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されないことを示し、前記視聴者空間の前記サブタイプは、ビデオシーンに基づいて決定される、請求項5に記載の方法。
  8. 前記視聴者空間の前記サブタイプは、前記オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの1つである、請求項5に記載の方法。
  9. オーディオシーンの関心空間を表す装置であって、
    当該装置は、処理回路構成を含み、該処理回路構成は、
    前記オーディオシーンについてのオーディオシーンデータを復号化するように構成され、前記オーディオシーンデータは、(i)前記オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)前記複数のアイテムのサブセットのタイプを示す第1の構文要素とを含み、前記複数のアイテムの前記サブセットは、前記オーディオシーンの前記関心空間を表し、
    前記第1の構文要素において示される前記複数のアイテムの前記サブセットの前記タイプに基づいて前記複数のアイテムの前記サブセットについての前記オーディオコンテンツの部分を決定するように構成され、
    前記オーディオコンテンツの前記決定される部分をレンダリングするように構成される、
    装置。
  10. 前記第1の構文要素は、前記複数のアイテムの前記サブセットの前記タイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの1つであることを示す、請求項9に記載の装置。
  11. 前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの数を示す第2の構文要素を含む、請求項9に記載の装置。
  12. 前記第2の構文要素は、前記複数のアイテムの前記サブセットの前記数が、1よりも大きいことを示し、前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの各々についての識別インデックスを示す第3の構文要素を含む、請求項11に記載の装置。
  13. 前記第1の構文要素は、前記複数のアイテムの前記サブセットの前記タイプが、前記視聴者空間と関連付けられる前記タイプであることを示し、前記オーディオシーンデータは、前記視聴者空間のサブタイプが信号伝達されるかどうかを示す第4の構文要素を含む、請求項10に記載の装置。
  14. 前記第4の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されることを示し、前記オーディオシーンデータは、前記視聴者空間の前記サブタイプを示す第5の構文要素を含む、請求項13に記載の装置。
  15. 前記第4の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されないことを示し、前記視聴者空間の前記サブタイプは、ビデオシーンに基づいて決定される、請求項13に記載の装置。
  16. 前記視聴者空間の前記サブタイプは、前記オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの1つである、請求項13に記載の装置。
  17. 命令を含むコンピュータプログラムであって、前記命令は、少なくとも1つのプロセッサによって実行されるときに、請求項1~8のうちのいずれか1項に記載の方法を実行する、コンピュータプログラム。
JP2022566119A 2021-05-05 2021-09-30 オーディオシーンの関心空間を表現する方法および装置 Active JP7489488B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163184571P 2021-05-05 2021-05-05
US63/184,571 2021-05-05
US17/489,212 US11622221B2 (en) 2021-05-05 2021-09-29 Method and apparatus for representing space of interest of audio scene
US17/489,212 2021-09-29
PCT/US2021/053000 WO2022235289A1 (en) 2021-05-05 2021-09-30 Method and apparatus for representing space of interest of audio scene

Publications (2)

Publication Number Publication Date
JP2023529788A true JP2023529788A (ja) 2023-07-12
JP7489488B2 JP7489488B2 (ja) 2024-05-23

Family

ID=83900776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022566119A Active JP7489488B2 (ja) 2021-05-05 2021-09-30 オーディオシーンの関心空間を表現する方法および装置

Country Status (6)

Country Link
US (1) US11622221B2 (ja)
EP (1) EP4122225A4 (ja)
JP (1) JP7489488B2 (ja)
KR (1) KR20230003091A (ja)
CN (1) CN115589787A (ja)
WO (1) WO2022235289A1 (ja)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US8271107B2 (en) 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
GB2474508B (en) 2009-10-16 2015-12-09 Norwell Sa Audience measurement system
WO2013192111A1 (en) 2012-06-19 2013-12-27 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
WO2014160717A1 (en) 2013-03-28 2014-10-02 Dolby Laboratories Licensing Corporation Using single bitstream to produce tailored audio device mixes
EP3127109B1 (en) 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
US10693936B2 (en) 2015-08-25 2020-06-23 Qualcomm Incorporated Transporting coded audio data
EP3301951A1 (en) * 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
GB2567172A (en) * 2017-10-04 2019-04-10 Nokia Technologies Oy Grouping and transport of audio objects
GB2578715A (en) * 2018-07-20 2020-05-27 Nokia Technologies Oy Controlling audio focus for spatial audio processing
EP3712788A1 (en) 2019-03-19 2020-09-23 Koninklijke Philips N.V. Audio apparatus and method therefor
EP3809709A1 (en) 2019-10-14 2021-04-21 Koninklijke Philips N.V. Apparatus and method for audio encoding

Also Published As

Publication number Publication date
US11622221B2 (en) 2023-04-04
WO2022235289A1 (en) 2022-11-10
US20220360929A1 (en) 2022-11-10
KR20230003091A (ko) 2023-01-05
EP4122225A4 (en) 2023-10-11
JP7489488B2 (ja) 2024-05-23
CN115589787A (zh) 2023-01-10
EP4122225A1 (en) 2023-01-25

Similar Documents

Publication Publication Date Title
US11937070B2 (en) Layered description of space of interest
JP7489488B2 (ja) オーディオシーンの関心空間を表現する方法および装置
JP2023527650A (ja) オーディオシーンの関心スペースのための方法および装置
US11595730B2 (en) Signaling loudness adjustment for an audio scene
US20220270626A1 (en) Method and apparatus in audio processing
US11877033B2 (en) Qualification test in subject scoring
US11956409B2 (en) Immersive media interoperability
US20220391167A1 (en) Adaptive audio delivery and rendering
US20230057207A1 (en) Immersive media compatibility

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240513

R150 Certificate of patent or registration of utility model

Ref document number: 7489488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150