JP2024518846A - 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ - Google Patents

3次元オーディオ信号符号化方法および装置、ならびにエンコーダ Download PDF

Info

Publication number
JP2024518846A
JP2024518846A JP2023571697A JP2023571697A JP2024518846A JP 2024518846 A JP2024518846 A JP 2024518846A JP 2023571697 A JP2023571697 A JP 2023571697A JP 2023571697 A JP2023571697 A JP 2023571697A JP 2024518846 A JP2024518846 A JP 2024518846A
Authority
JP
Japan
Prior art keywords
virtual
current frame
virtual speakers
speakers
virtual speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023571697A
Other languages
English (en)
Inventor
原 高
▲帥▼ ▲劉▼
▲賓▼ 王
▲ゼ▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2024518846A publication Critical patent/JP2024518846A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

3次元オーディオ信号符号化方法および装置、ならびにエンコーダ(113)が提供され、マルチメディア分野に関する。本方法は、エンコーダ(113)が、3次元オーディオ信号の現在フレームに対する第1の数量の現在フレーム初期票値を取得すること(S610)を含む。次いで、エンコーダ(113)は、第1の数量の現在フレーム初期票値および第6の数量の前フレーム最終票値に基づいて、第7の数量の仮想スピーカのものであり、現在フレームに対応する第7の数量の現在フレーム最終票値を取得する(S620)。さらに、エンコーダ(113)は、第7の数量の現在フレーム最終票値に基づいて、第7の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択する(S630)。エンコーダ(113)は、第2の数量の現在フレーム代表仮想スピーカに基づいて現在フレームを符号化して、ビットストリームを取得する(S640)。このようにして、フレーム間の信号方向連続性が強化され、再構築された3次元オーディオ信号の空間画像の安定性が改善され、再構築された3次元オーディオ信号の音質が確保される。

Description

本出願は、参照によりその全体が本出願に組み入れられる、2021年5月17日付で中国国家知識産権局に出願された、「3次元オーディオ信号符号化方法および装置、ならびにエンコーダ」という名称の中国特許出願第202110536634.9号の優先権を主張する。
本出願は、マルチメディア分野に関し、特に、3次元オーディオ信号符号化方法および装置、ならびにエンコーダに関する。
高性能コンピュータおよび信号処理技術の急速な発展に伴い、聴取者は音声およびオーディオ体験に対するますます高い要求を提起している。没入型オーディオは、音声およびオーディオ体験に対する人々の要求を満たすことができる。例えば、3次元オーディオ技術は、無線通信(例えば、4G/5G)音声、仮想現実/拡張現実、およびメディアオーディオで広く使用されている。3次元オーディオ技術は、現実世界の音および3次元音場情報を取得、処理、伝送、レンダリング、および再生して、空間、包み込み、および没入感の強い感覚を伴う音を提供するためのオーディオ技術である。これは、聴取者に並外れた「没入型」聴覚体験を提供する。
一般に、取得デバイス(例えば、マイクロフォン)は、3次元音場情報を記録するために大量のデータを取得し、3次元オーディオ信号を再生デバイス(例えば、スピーカまたはヘッドセット)に伝送し、その結果、再生デバイスは3次元オーディオを再生する。3次元音場情報のデータ量は大きいため、データを記憶するために大量の記憶空間が必要とされ、3次元オーディオ信号を伝送するために高い帯域幅が必要とされる。前述の問題を解決するために、3次元オーディオ信号は圧縮されてもよく、圧縮データが記憶または伝送されてもよい。現在、エンコーダは、候補仮想スピーカのセットの仮想スピーカを最初にトラバースし、選択された仮想スピーカを使用して3次元オーディオ信号を圧縮する。しかしながら、連続するフレームに対する仮想スピーカの選択結果が大きく異なる場合、再構築された3次元オーディオ信号の空間画像が不安定になり、再構築された3次元オーディオ信号の音質が低下する。
本出願は、フレーム間の方向連続性を高め、再構築された3次元オーディオ信号の空間画像の安定性を改善し、再構築された3次元オーディオ信号の音質を確保するために、3次元オーディオ信号符号化方法および装置、ならびにエンコーダを提供する。
第1の態様によれば、本出願は、3次元オーディオ信号符号化方法を提供する。本方法は、エンコーダによって実行されてもよく、具体的には、以下のステップ、すなわち、3次元オーディオ信号の現在フレームの第1の数量の現在フレーム初期票値を取得した後、エンコーダが、第1の数量の現在フレーム初期票値および第6の数量の仮想スピーカのものであり、3次元オーディオ信号の前フレームに対応する第6の数量の前フレーム最終票値に基づいて、第7の数量の仮想スピーカのものであり、現在フレームに対応する第7の数量の現在フレーム最終票値を取得するステップを含む。仮想スピーカは、現在フレーム初期票値に1対1に対応する。第1の数量の仮想スピーカは、第1の仮想スピーカを含む。第1の仮想スピーカの現在フレーム初期票値は、現在フレームが符号化されるときに第1の仮想スピーカを使用する優先順位を示す。第7の数量の仮想スピーカは第1の数量の仮想スピーカを含み、第7の数量の仮想スピーカは第6の数量の仮想スピーカを含む。さらに、エンコーダは、第7の数量の現在フレーム最終票値に基づいて第7の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択し、第2の数量は第7の数量より少なく、現在フレーム代表仮想スピーカの第2の数量が第7の数量の仮想スピーカのうちのいくつかの仮想スピーカであることを示し、現在フレーム代表仮想スピーカの第2の数量に基づいて現在フレームを符号化して、ビットストリームを取得する。
仮想スピーカサーチ手順では、実際の音源の位置は必ずしも仮想スピーカの位置と重複しないため、仮想スピーカは必ずしも1対1で実際の音源に対応するとは限らない。加えて、実際の複雑なシナリオでは、限られた数量の仮想スピーカのセットが音場のすべての音源を表すとは限らない場合がある。この場合、フレーム間で発見された仮想スピーカは頻繁に変化してもよい。その変化は、聴取者の聴覚体験に影響する。その結果、復号および再構築によって取得される3次元オーディオ信号には、明らかな不連続性およびノイズ現象が現れる。本出願のこの実施形態による仮想スピーカ選択方法では、前フレーム代表仮想スピーカが保持される。具体的には、同じシリアル番号を伴う仮想スピーカの場合、現在フレーム初期票値は、前フレーム最終票値に基づいて調整され、その結果、エンコーダは、前フレーム代表仮想スピーカを選択する傾向がある。このようにして、フレーム間の仮想スピーカの頻繁な変化が低減され、フレーム間の信号方向連続性が強化され、再構築された3次元オーディオ信号の空間画像が改善され、再構築された3次元オーディオ信号の音質が確保される。
例えば、第6の数量の仮想スピーカが第1の仮想スピーカを含む場合、第1の数量の現在フレーム初期票値、および第6の数量の仮想スピーカのものであり、3次元オーディオ信号の前フレームに対応する第6の数量の前フレーム票値に基づいて、第7の数量の仮想スピーカのものであり、現在フレームに対応する第7の数量の現在フレーム最終票値を取得するステップは、第1の仮想スピーカの前フレーム最終票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新して第1の仮想スピーカの現在フレーム最終票値を取得する、ステップを含む。
可能な実装形態では、第1の数量の仮想スピーカが第2の仮想スピーカを含み、第6の数量の仮想スピーカが第2の仮想スピーカを含まない場合、第2の仮想スピーカの現在フレーム最終票値は、第2の仮想スピーカの現在フレーム初期票値に等しい。あるいは、第6の数量の仮想スピーカが第3の仮想スピーカを含み、第1の数量の仮想スピーカが第3の仮想スピーカを含まない場合、第3の仮想スピーカの現在フレーム最終票値は、第3の仮想スピーカの前フレーム最終票値に等しい。
他の可能な実装形態では、第1の仮想スピーカの前フレーム最終票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新するステップは、エンコーダが、第1の調整パラメータに基づいて第1の仮想スピーカの前フレーム最終票値を調整して、第1の仮想スピーカの調整された前フレーム票値を取得すること、および第1の仮想スピーカの調整された前フレーム票値に基づいて、第1の仮想スピーカの現在フレーム初期票値を更新することを含む。
第1の調整パラメータは、前フレームにおける方向音源の数、現在フレームを符号化するための符号化ビットレート、およびフレームタイプのうちの少なくとも1つに基づいて決定される。このようにして、エンコーダは、第1の調整パラメータに基づいて第1の仮想スピーカの前フレーム最終票値を調整し、その結果、エンコーダは前フレーム代表仮想スピーカを選択する傾向がある。このようにして、フレーム間の方向連続性が強化され、再構築された3次元オーディオ信号の空間画像が改善され、再構築された3次元オーディオ信号の音質が確保される。
他の可能な実装形態では、第1の仮想スピーカの調整された前フレーム票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新するステップは、エンコーダが、第2の調整パラメータに基づいて第1の仮想スピーカの現在フレーム初期票値を調整して、第1の仮想スピーカの調整された現在フレーム票値を取得すること、および第1の仮想スピーカの調整された前フレーム票値に基づいて、第1の仮想スピーカの調整された現在フレーム票値を更新することを含む。
第2の調整パラメータは、第1の仮想スピーカの調整された前フレーム票値および第1の仮想スピーカの現在フレーム初期票値に基づいて決定される。このようにして、エンコーダは、第2の調整パラメータに基づいて第1の仮想スピーカの現在フレーム初期票値を調整し、現在フレーム初期票値の頻繁な変化が低減され、その結果、エンコーダは、前フレーム代表仮想スピーカを選択する傾向がある。このようにして、フレーム間の方向連続性が強化され、再構築された3次元オーディオ信号の空間画像が改善され、再構築された3次元オーディオ信号の音質が確保される。
第2の数量は、エンコーダによって選択された現在フレーム代表仮想スピーカの数量を示す。第2の数量が大きいほど、現在フレーム代表仮想スピーカの数量が多く、3次元オーディオ信号の音場情報が多いことを示す。第2の数量が少ないほど、現在フレーム代表仮想スピーカの数量が少なく、3次元オーディオ信号の音場情報が少ないことを示す。したがって、エンコーダによって選択された現在フレーム代表仮想スピーカの数量は、第2の数を設定することによって制御されてもよい。例えば、第2の数量は事前設定されてもよい。他の例では、第2の数量は、現在フレームに基づいて決定されてもよい。例えば、第2の数量の値は、1、2、4、または8であってもよい。
他の可能な実装形態では、第1の数量の仮想スピーカのものであり、3次元オーディオ信号の現在フレームに対応する第1の数量の現在フレーム初期票値を取得するステップは、エンコーダが、現在フレームの第3の数量の代表係数、候補仮想スピーカのセット、および票ラウンドの数に基づいて、第1の数量の仮想スピーカおよび第1の数量の現在フレーム初期票値を決定することを含む。候補仮想スピーカのセットは、第5の数量の仮想スピーカを含む。第5の数量の仮想スピーカは、第1の数量の仮想スピーカを含む。第1の数量は第5の数量以下である。投票ラウンド数は1以上の整数であり、投票ラウンド数は第5の数量以下である。
現在、仮想スピーカサーチ手順では、エンコーダは、符号化対象の3次元オーディオ信号と仮想スピーカとの間の相関に関する計算結果を、仮想スピーカ選択のためのインジケータとして使用する。加えて、エンコーダが係数ごとに1つの仮想スピーカを伝送する場合、効率的なデータ圧縮の目的が達成されることができず、エンコーダに重い計算負荷を引き起こす。本出願のこの実施形態による仮想スピーカ選択方法では、エンコーダは、現在フレームのすべての係数を少数量の代表係数で置き換えて、候補仮想スピーカのセットの各仮想スピーカに投票し、票値に基づいて現在フレーム代表仮想スピーカを選択する。さらに、エンコーダは、現在フレーム代表仮想スピーカを使用して、符号化対象の3次元オーディオ信号に対して圧縮符号化を行う。これにより、3次元オーディオ信号に対して圧縮符号化するための圧縮率を効果的に改善し、エンコーダによって仮想スピーカを探す計算の複雑さを低減する。このようにして、3次元オーディオ信号に対して圧縮符号化する計算の複雑さが低減され、エンコーダの計算負荷が低減される。
他の可能な実装形態では、現在フレームの第3の数量の代表係数、候補仮想スピーカのセット、および票ラウンドの数に基づいて、第1の数量の仮想スピーカおよび第1の数量の現在フレーム初期票値を決定するステップの前に、本方法は、エンコーダが、現在フレームの第4の数量の係数および第4の数量の係数の周波数領域特徴値を取得すること、ならびに第4の数量の係数の周波数領域特徴値に基づいて第4の数量の係数から第3の数量の代表係数を選択することをさらに含む。第3の数量は第4の数量よりも小さく、第3の数量の代表係数は第4の数量の係数のいくつかの係数であることを示す。
3次元オーディオ信号の現在フレームは高次アンビソニックス(higher order ambisonics、HOA)信号であり、係数の周波数領域特徴値はHOA信号の係数に基づいて決定される。
このようにして、エンコーダが現在フレームのすべての係数からいくつかの係数を代表係数として選択し、現在フレームのすべての係数を少数量の代表係数で置き換えて候補仮想スピーカのセットから代表仮想スピーカを選択するため、エンコーダによって仮想スピーカを探す計算の複雑さが効果的に低減される。このようにして、3次元オーディオ信号に対して圧縮符号化する計算の複雑さが低減され、エンコーダの計算負荷が低減される。
加えて、エンコーダが、第2の数量の現在フレーム代表仮想スピーカに基づいて現在フレームを符号化してビットストリームを取得することは、エンコーダが、第2の数量の現在フレーム代表仮想スピーカおよび現在フレームに基づいて仮想スピーカ信号を生成すること、ならびに仮想スピーカ信号を符号化してビットストリームを取得することを含む。
他の可能な実装形態では、本方法は、エンコーダが、現在フレームと前フレーム代表仮想スピーカのセットの間の第1の相関を取得すること、ならびに第1の相関が再使用条件を満たさない場合、3次元オーディオ信号の現在フレームの第4の数量の係数および第4の数量の係数の周波数領域特徴値を取得することをさらに含む。前フレーム代表仮想スピーカのセットは、第6の数量の仮想スピーカを含む。第6の数量の仮想スピーカに含まれる仮想スピーカは、3次元オーディオ信号の前フレームが符号化されるときに使用される前フレーム代表仮想スピーカである。第1の相関は、現在フレームが符号化されるときに前フレーム代表仮想スピーカのセットが再利用されるかどうかを決定するために使用される。
このようにして、エンコーダは、最初に、前フレーム代表仮想スピーカのセットが再利用されて現在フレームを符号化できるかどうかを決定してもよい。エンコーダが現在フレームを符号化するために前フレーム代表仮想スピーカのセットを再使用する場合、エンコーダは仮想スピーカサーチ手順を行わない。これは、エンコーダによって仮想スピーカを探す計算の複雑さを効果的に低減する。このようにして、3次元オーディオ信号に対して圧縮符号化する計算の複雑さが低減され、エンコーダの計算負荷が低減される。加えて、フレーム間の仮想スピーカの頻繁な変化も低減されてもよく、フレーム間の信号方向連続性が強化され、再構築された3次元オーディオ信号の空間画像が改善され、再構築された3次元オーディオ信号の音質が確保される。エンコーダが現在フレームを符号化するために前フレーム代表仮想スピーカのセットを再利用することができない場合には、エンコーダは、代表係数を選択し、現在フレームの代表係数を使用することによって候補仮想スピーカのセットの各仮想スピーカに投票し、票値に基づいて現在フレーム代表仮想スピーカを選択して、3次元オーディオ信号に対して圧縮符号化を行う計算の複雑さを低減し、エンコーダの計算負荷を低減する目的を達成する。
任意選択的に、本方法は、エンコーダが、3次元オーディオ信号の現在フレームをさらに取得し、3次元オーディオ信号の現在フレームに対して圧縮符号化を行ってビットストリームを取得し、ビットストリームをデコーダ側に伝送してもよいことをさらに含む。
第2の態様によれば、本出願は、3次元オーディオ信号符号化装置を提供する。本装置は、第1の態様、または第1の態様の可能な設計のいずれか1つによる3次元オーディオ信号符号化方法を行うように構成されたモジュールを含む。例えば、3次元オーディオ信号符号化装置は、仮想スピーカ選択モジュールおよび符号化モジュールを含む。仮想スピーカ選択モジュールは、第1の数量の仮想スピーカのものであり、3次元オーディオ信号の現在フレームに対応する第1の数量の現在フレーム初期票値を取得するように構成される。仮想スピーカは、現在フレーム初期票値に1対1に対応する。第1の数量の仮想スピーカは、第1の仮想スピーカを含む。第1の仮想スピーカの現在フレーム初期票値は、現在フレームが符号化されるときに第1の仮想スピーカを使用する優先順位を示す。仮想スピーカ選択モジュールは、第1の数量の現在フレーム初期票値および第6の数量の仮想スピーカのものであり、3次元オーディオ信号の前フレームに対応する第6の数量の前フレーム最終票値に基づいて、第7の数量の仮想スピーカのものであり、現在フレームに対応する第7の数量の現在フレーム最終票値を取得するようにさらに構成される。第7の数量の仮想スピーカは第1の数量の仮想スピーカを含み、第7の数量の仮想スピーカは第6の数量の仮想スピーカを含む。仮想スピーカ選択モジュールは、第7の数量の現在フレーム最終票値に基づいて、第7の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択するようにさらに構成される。第2の数量は第7の数量よりも少ない。符号化モジュールは、第2の数量の現在フレーム代表仮想スピーカに基づいて現在フレームを符号化してビットストリームを取得するように構成される。これらのモジュールは、第1の態様の方法例における対応する機能を行いうる。詳細については、方法例における詳細な説明を参照されたい。本明細書では詳細は再度説明されない。
第3の態様によれば、本出願はエンコーダを提供する。エンコーダは、少なくとも1つのプロセッサおよびメモリを含む。メモリは、コンピュータ命令のグループを記憶するように構成される。プロセッサがコンピュータ命令のグループを実行すると、第1の態様または第1の態様の可能な実装形態のいずれか1つによる3次元オーディオ信号符号化方法の動作ステップが実行される。
第4の態様によれば、本出願はシステムを提供する。本システムは、第3の態様によるエンコーダとデコーダとを含む。エンコーダは、第1の態様または第1の態様の可能な実装形態のいずれか1つによる3次元オーディオ信号符号化方法の動作ステップを行うように構成される。デコーダは、エンコーダによって生成されたビットストリームを復号するように構成される。
第5の態様によれば、本出願は、コンピュータソフトウェア命令を含むコンピュータ可読記憶媒体を提供する。コンピュータソフトウェア命令がエンコーダ上で実行されると、エンコーダは、第1の態様または第1の態様の可能な実装形態のいずれか1つによる方法の動作ステップを行うことが可能にされる。
第6の態様によると、本出願はコンピュータプログラム製品を提供する。コンピュータプログラム製品がエンコーダ上で実行されると、エンコーダは、第1の態様または第1の態様の可能な実装形態のいずれか1つによる方法の動作ステップを行うことが可能にされる。
本出願では、前述の態様による実装形態に基づいて、実装形態は、より多くの実装形態を提供するためにさらに組み合わされうる。
本出願の一実施形態によるオーディオ符号化/復号システムの構造の概略図である。 本出願の一実施形態によるオーディオ符号化/復号システムのシナリオの概略図である。 本出願の一実施形態によるエンコーダの構造の概略図である。 本出願の一実施形態による3次元オーディオ信号符号化/復号方法の概略フローチャートである。 本出願の一実施形態による仮想スピーカ選択方法の概略フローチャートである。 本出願の一実施形態による3次元オーディオ信号符号化方法の概略フローチャートである。 本出願の一実施形態による他の仮想スピーカ選択方法の概略フローチャートである。 本出願の一実施形態による票値を調整するための方法の概略フローチャートである。 本出願の一実施形態による他の仮想スピーカ選択方法の概略フローチャートである。 本出願による符号化装置の構造の概略図である。 本出願によるエンコーダの構造の概略図である。
以下の実施形態の明確かつ簡潔な説明のために、関連技術が最初に簡潔に説明される。
音(sound)は、物体の振動を通して生成される連続波である。音波を生成する振動オブジェクトを音源と呼ぶ。音波が媒体(空気、固体または液体など)を通って伝搬するとき、人間または動物の聴覚器官は音を知覚することができる。
音波の特性は、ピッチ、強度、音色を含む。ピッチは、音の低さまたは高さを示す。強度は、音の音量を示す。強度は、ラウドネスまたは音量とも呼ばれる。強度は、デシベル(decibel、dB)の単位で測定される。音色は音質とも呼ばれる。
音波の周波数は、ピッチの高さまたは低さを決定する。高い周波数は、高いピッチを示す。周波数は、物体が振動する1秒当たりの回数である。周波数は、ヘルツ(hertz、Hz)の単位で測定される。人間の耳は、20 Hz~20000 Hzの音を聞くことができる。
音波の振幅は、強度の強さまたは弱さを決定する。大きな振幅は強い強度を示す。音源に近い距離は強い強度を示す。
音波の波形が音色を決定する。音波の波形は、方形波、鋸波、正弦波、脈波を含む。
音波の特性に基づいて、規則的な振動を通して生成される音と、不規則な振動を通して生成される音とに分類されることができる。不規則な振動を通して生成される音とは、音源が不規則に振動するときに生成される音である。不規則な振動を通して生成される音は、例えば、人々の仕事、勉強、および休息を妨げるノイズである。規則的な振動を通して生成される音とは、音源が規則的に振動するときに生成される音である。規則的な振動を通して生成される音は、音声および音楽を含む。音が電気的に表現されるとき、規則的な振動を通して生成される音は、時間および周波数領域で連続的に変化するアナログ信号である。アナログ信号は、オーディオ信号とも呼ばれてもよい。オーディオ信号は、音声、音楽、およびサウンド効果を搬送する情報キャリアである。
人の聴覚は、空間における音源の位置分布を識別する能力を有するため、空間において音を聞くとき、聴取者は、音のピッチ、強度、音色以外の音の方向を知覚することができる。
聴覚システム体験に対する注目および品質要求の高まりに伴い、音の奥行き感、没入感、および空間感を高めるために、3次元オーディオ技術が登場している。このようにして、聴取者は、前後左右の音源によって生成される音を知覚するだけでなく、これらの音源によって生成される空間音場(「音場」(sound field))に囲まれているようにも感じる。聴取者は、音が周囲に広がっていることを知覚する。これは、聴取者にとって、映画またはコンサートホールのシナリオを模倣した「没入型」サウンド効果を作り出す。
3次元オーディオ技術では、人間の耳の外側の空間はシステムであり、鼓膜で受信される信号は、音源によって発せられた音が耳の外側のシステムによってフィルタリングされた後に出力される3次元オーディオ信号であると想定される。例えば、耳の外側のシステムはシステムインパルス応答h(n)と定義されてもよく、任意の音源はx(n)と定義されてもよく、鼓膜で受信された信号はx(n)とh(n)の畳み込み結果である。本出願の実施形態による3次元オーディオ信号は、高次アンビソニックス(higher order ambisonics、HOA)信号である。3次元オーディオは、3次元サウンド効果、空間オーディオ、3次元音場再構築、仮想3Dオーディオ、バイノーラルオーディオなどと呼ばれることもある。
音波は理想媒体中を伝搬されることが知られている。波数はk=w/cであり、角周波数はw=2πfである。fは音波周波数で、cは音速である。音圧pは、式(1)を満たし、ここで、▽2はラプラス演算子である。
2p+k2p=0 式(1)
耳の外側の空間システムは球体であると想定される。聴取者は球の中心にあり、球の外側からの音が球面に投影される。球面の外側の音はフィルタリングで除かれる。音源は球面上に分散されており、球面上の音源によって生成された音場は、元の音源によって生成された音場に適合するために使用されると想定される。すなわち、3次元オーディオ技術は、音場フィッティング法である。具体的には、式(1)の方程式は球面座標系において解かれる。受動球面領域では、式(1)の方程式は、以下の式(2)のように解かれる。
rは球の半径を表し、θは水平角を表し、φはピッチ角を表し、kは波数を表し、sは理想平面波の振幅を表し、mは3次元オーディオ信号の次数のシーケンス番号(またはHOA信号の次数のシーケンス番号と呼ばれる)を表す。
は球ベッセル関数を表し、球ベッセル関数はラジアル基底関数とも呼ばれる。第1のjは虚数単位を表し、
は角度とともに変化しない。
はθおよびφ方向の球面調和関数を表し、
は音源方向の球面調和関数を表す。3次元オーディオ信号係数は、式(3)を満たす。
式(3)は式(2)に代入され、式(2)は式(4)に変形されてもよい。
は、N次の3次元オーディオ信号の係数を表し、音場を近似的に記述するために使用される。音場は、媒体に音波が存在する領域である。Nは、1以上の整数である。例えば、Nの値は2から6の範囲の整数である。本出願の実施形態における3次元オーディオ信号の係数は、HOA係数または周囲ステレオ(ambisonic)音響係数であってもよい。
3次元オーディオ信号は、音場の音源の空間位置情報を搬送する情報キャリアであり、空間における聴取者の音場を記述する。式(4)は、球面調和関数により音場が球面上に拡大されてもよいこと、すなわち、音場が複数の平面波の重ね合わせに分解されてもよいことを示している。したがって、3次元オーディオ信号によって記述される音場は、複数の平面波の重ね合わせによって表現されてもよく、音場は、3次元オーディオ信号係数に基づいて再構築される。
5.1チャネルのオーディオ信号または7.1チャネルのオーディオ信号と比較して、N次HOA信号は(N+1)2チャネルを有する。このようにして、HOA信号は、音場の空間情報を記述するためのより多くのデータを含む。取り込みデバイス(例えば、マイクロフォン)が3次元オーディオ信号を再生デバイス(例えば、スピーカ)に伝送すると、大きな帯域幅が消費される。現在、エンコーダは、ビットストリームを取得するために、空間的に圧縮されたサラウンドオーディオ符号化(spatial squeezed surround audio coding、S3AC)または方向オーディオ符号化(directional audio coding、DirAC)を使用することによって3次元オーディオ信号に対して圧縮符号化を行い、ビットストリームを再生デバイスに伝送してもよい。再生デバイスは、ビットストリームを復号し、3次元オーディオ信号を再構築し、再構築した3次元オーディオ信号を再生する。このようにして、3次元オーディオ信号を再生デバイスに伝送するためのデータ量および帯域幅占有が低減される。しかしながら、エンコーダによって3次元オーディオ信号に対して圧縮符号化を行う計算の複雑さは高く、エンコーダによって過剰な計算リソースが占有される。したがって、エンコーダによって3次元オーディオ信号に対して圧縮符号化を行う計算の複雑さをどのように低減するかが解決すべき喫緊の問題である。
本出願の実施形態は、オーディオ符号化/復号技術を提供し、特に、3次元オーディオ信号のための3次元オーディオ符号化/復号技術を提供する。具体的には、従来のオーディオ符号化/復号システムを改善するために、より少ないオーディオチャネルを使用して3次元オーディオ信号を表すための符号化/復号技術が提供される。オーディオコーディング(通常、コーディングと呼ばれる)は、オーディオ符号化およびオーディオ復号を含む。オーディオ符号化は、ソース側で行われ、通常、元のオーディオを処理(例えば、圧縮)して、元のオーディオを表現するために必要なデータ量を低減することを含む。このようにして、オーディオはより効率的に記憶および/または伝送される。オーディオ復号は宛先側で行われ、通常、元のオーディオを再構築するために、エンコーダに対して逆の処理を行うことを含む。符号化および復号は、まとめて符号化/復号とも呼ばれる。以下では、添付の図面を参照して本出願の実施形態の実装形態について詳細に説明する。
図1は、本出願の一実施形態によるオーディオ符号化/復号システムの構造の概略図である。オーディオ符号化/復号システム100は、ソースデバイス110および宛先デバイス120を含む。ソースデバイス110は、3次元オーディオ信号に対して圧縮符号化を行ってビットストリームを取得し、ビットストリームを宛先デバイス120に伝送するように構成される。宛先デバイス120は、ビットストリームを復号し、3次元オーディオ信号を再構築し、再構築した3次元オーディオ信号を再生する。
具体的には、ソースデバイス110は、オーディオ取得デバイス111、プリプロセッサ112、エンコーダ113、および通信インターフェース114を含む。
オーディオ取得デバイス111は、元のオーディオを取得するように構成される。オーディオ取得デバイス111は、現実世界から音を取得するように構成された任意のタイプのオーディオ取り込みデバイス、および/または任意のタイプのオーディオ生成デバイスであってもよい。オーディオ取得デバイス111は、例えば、コンピュータオーディオを生成するように構成されたコンピュータオーディオプロセッサである。オーディオ取得デバイス111は、あるいはオーディオを記憶する任意のタイプのメモリまたはストレージであってもよい。オーディオは、現実世界からの音、仮想シーン(VRまたはaugmented reality(AR)など)からの音、および/またはそれらの任意の組み合わせを含む。
プリプロセッサ112は、オーディオ取得デバイス111によって取得された元のオーディオを受信し、元のオーディオを前処理して3次元オーディオ信号を取得するように構成される。例えば、プリプロセッサ112により行われる前処理は、オーディオチャネル変換、オーディオフォーマット変換、ノイズリダクションなどを含む。
エンコーダ113は、プリプロセッサ112によって生成された3次元オーディオ信号を受信し、3次元オーディオ信号に対して圧縮符号化を行ってビットストリームを取得するように構成される。例えば、エンコーダ113は、空間エンコーダ1131およびコアエンコーダ1132を含んでもよい。空間エンコーダ1131は、3次元オーディオ信号に基づいて候補仮想スピーカのセットから仮想スピーカを選択し(または探し)、3次元オーディオ信号および仮想スピーカに基づいて仮想スピーカ信号を生成するように構成される。仮想スピーカ信号は、再生信号と呼ばれることもある。コアエンコーダ1132は、仮想スピーカ信号を符号化してビットストリームを取得するように構成される。
通信インターフェース114は、エンコーダ113によって生成されたビットストリームを受信し、宛先デバイス120がビットストリームに基づいて3次元オーディオ信号を再構築するように、通信チャネル130を通して宛先デバイス120にビットストリームを送信する。
宛先デバイス120は、プレーヤ121、ポストプロセッサ122、デコーダ123、および通信インターフェース124を含む。
通信インターフェース124は、通信インターフェース114によって送信されたビットストリームを受信し、デコーダ123がビットストリームに基づいて3次元オーディオ信号を再構築するように、ビットストリームをデコーダ123に伝送するように構成される。
通信インターフェース114および通信インターフェース124は、ソースデバイス110と宛先デバイス120の間の直接通信リンク、例えば、直接有線もしくは無線接続を通して、または任意のタイプのネットワーク、例えば、有線ネットワーク、無線ネットワーク、もしくはそれらの任意の組み合わせ、任意のタイプのプライベートネットワークおよびパブリックネットワーク、もしくはそれらの任意の組み合わせを通して、元のオーディオに関連したデータを送信または受信するように構成されうる。
通信インターフェース114および通信インターフェース124の両方は、ソースデバイス110から宛先デバイス120を指す図1の通信チャネル130の矢印によって示されるような単方向通信インターフェース、または双方向通信インターフェースとして構成されてもよく、例えば、メッセージを送受信し、接続を確立して、通信リンクおよび/またはデータ伝送に関連した任意の他の情報、例えば、符号化を通して取得されたビデオストリームの伝送を確認し交換するように構成されてもよい。
デコーダ123は、ビットストリームを復号し、3次元オーディオ信号を再構築するように構成される。例えば、デコーダ123は、コアデコーダ1231および空間デコーダ1232を含む。コアデコーダ1231は、ビットストリームを復号して仮想スピーカ信号を取得するように構成される。空間デコーダ1232は、候補仮想スピーカのセットおよび仮想スピーカ信号に基づいて3次元オーディオ信号を再構築して、再構築された3次元オーディオ信号を取得するように構成される。
ポストプロセッサ122は、デコーダ123によって生成された再構築された3次元オーディオ信号を受信し、再構築された3次元オーディオ信号に対して後処理を行うように構成される。例えば、ポストプロセッサ122によって行われる後処理は、オーディオレンダリング、音量正規化、ユーザインタラクション、オーディオフォーマット変換、ノイズリダクションなどを含む。
プレーヤ121は、再構築された3次元オーディオ信号に基づいて再構築された音を再生するように構成される。
オーディオ取得デバイス111およびエンコーダ113は、1つの物理デバイス上に統合されてもよく、または異なる物理デバイス上に配置されてもよいことに留意されたい。このことは限定されない。例えば、図1に示されるソースデバイス110は、オーディオ取得デバイス111およびエンコーダ113を含み、オーディオ取得デバイス111およびエンコーダ113が1つの物理デバイスに統合されていることを示している。この場合、ソースデバイス110は、取り込みデバイスとも呼ばれることがある。ソースデバイス110は、例えば、無線アクセスネットワークのメディアゲートウェイ、コアネットワークのメディアゲートウェイ、トランスコーディングデバイス、メディアリソースサーバ、ARデバイス、VRデバイス、マイクロフォン、または他のオーディオ取り込みデバイスである。ソースデバイス110がオーディオ取得デバイス111を含まない場合、これは、オーディオ取得デバイス111およびエンコーダ113が2つの異なる物理デバイスであることを示す。ソースデバイス110は、他のデバイス(例えば、音声取り込みデバイスまたは音声記憶デバイス)から元のオーディオを取得してもよい。
加えて、プレーヤ121とデコーダ123は、1つの物理デバイスに統合されていてもよいし、異なる物理デバイスに配置されていてもよい。このことは限定されない。例えば、図1に示される宛先デバイス120は、プレーヤ121およびデコーダ123を含み、プレーヤ121およびデコーダ123が1つの物理デバイス上に統合されていることを示す。この場合、宛先デバイス120は、再生デバイスとも呼ばれることがあり、宛先デバイス120は、再構築されたオーディオを復号および再生する機能を有する。宛先デバイス120は、例えば、スピーカ、ヘッドセット、または他のオーディオ再生デバイスである。宛先デバイス120がプレーヤ121を含まない場合、これは、プレーヤ121およびデコーダ123が2つの異なる物理デバイスであることを示す。ビットストリームを復号して3次元オーディオ信号を再構築した後、宛先デバイス120は、再構築された3次元オーディオ信号を他の再生デバイス(例えば、スピーカまたはヘッドセット)に伝送する。他の再生デバイスは、再構築された3次元オーディオ信号を再生する。
加えて、図1は、ソースデバイス110および宛先デバイス120が、1つの物理デバイスに統合されうるか、または異なる物理デバイスに配置されうることを示す。このことは限定されない。
例えば、図2の(a)に示されるように、ソースデバイス110が収録スタジオのマイクロフォンであり、宛先デバイス120がスピーカであってもよい。ソースデバイス110は、様々な楽器の元のオーディオを取得し、符号化/復号デバイスに伝送してもよい。符号化/復号デバイスは、元のオーディオを符号化/復号して、再構築された3次元オーディオ信号を取得する。宛先デバイス120は、再構築された3次元オーディオ信号を再生する。他の例では、ソースデバイス110は端末デバイスのマイクロフォンであってもよく、宛先デバイス120はヘッドセットであってもよい。ソースデバイス110は、外部音または端末デバイスで合成された音声を取得してもよい。
他の例では、図2の(b)に示されるように、ソースデバイス110および宛先デバイス120は、仮想現実(virtual reality、VR)デバイス、拡張現実(Augmented Reality、AR)デバイス、複合現実(Mixed Reality、MR)デバイス、または拡張現実(Extended Reality、XR)デバイス上で統合される。この場合、VR/AR/MR/XRデバイスは、元のオーディオを取り込み、オーディオを再生し、符号化/復号する機能を有する。ソースデバイス110は、ユーザによって生成された音、およびユーザが位置される仮想環境の仮想オブジェクトによって生成された音を取得してもよい。
このような実施形態では、ソースデバイス110またはそれに対応する機能と宛先デバイス120またはそれに対応する機能は、同じハードウェアおよび/もしくはソフトウェア、または別々のハードウェアおよび/もしくはソフトウェア、またはそれらの任意の組み合わせを使用して実装されてもよい。説明に基づいて当業者には明らかなように、図1に示されるソースデバイス110および/または宛先デバイス120における異なるユニットまたは機能の存在および分割は、実際のデバイスおよび用途に応じて異なりうる。
オーディオ符号化/復号システムの構造は、説明のための単なる例である。いくつかの可能な実装形態では、オーディオ符号化/復号システムは、他のデバイスをさらに含んでもよい。例えば、オーディオ符号化/復号システムは、端末側デバイスまたはクラウド側デバイスをさらに含んでもよい。元のオーディオを取り込んだ後、ソースデバイス110は、元のオーディオに対して前処理を行って3次元オーディオ信号を取得して、3次元オーディオを端末側デバイスまたはクラウド側デバイスに伝送し、その結果、端末側デバイスまたはクラウド側デバイスは3次元オーディオ信号を符号化/復号する。
本出願のこの実施形態によるオーディオ信号符号化/復号方法は、主にエンコーダ側に適用される。図3を参照して、エンコーダの構造が詳細に説明される。図3に示されるように、エンコーダ300は、仮想スピーカ構成ユニット310、仮想スピーカセット生成ユニット320、符号化解析ユニット330、仮想スピーカ選択ユニット340、仮想スピーカ信号生成ユニット350、および符号化ユニット360を含む。
仮想スピーカ構成ユニット310は、エンコーダ構成情報に基づいて仮想スピーカ構成パラメータを生成して、複数の仮想スピーカを取得するように構成される。エンコーダ構成情報は、3次元オーディオ信号の順序(または通常HOA順序と呼ばれる)、符号化ビットレート、カスタマイズされた情報などが含まれるが、これらに限定されない。仮想スピーカ構成パラメータは、仮想スピーカの数量、仮想スピーカの順序、仮想スピーカの位置座標などが含まれるが、これらに限定されない。例えば、2048、1669、1343、1024、530、512、256、128、または64個の仮想スピーカがあってもよい。仮想スピーカの順序は、順序2から順序6のいずれか1つであってもよい。仮想スピーカの位置座標は、水平角および傾斜角を含む。
仮想スピーカ構成ユニット310によって出力される仮想スピーカ構成パラメータは、仮想スピーカセット生成ユニット320の入力として使用される。
仮想スピーカセット生成ユニット320は、仮想スピーカ構成パラメータに基づいて候補仮想スピーカのセットを生成するように構成される。候補仮想スピーカのセットは、複数の仮想スピーカを含む。具体的には、仮想スピーカセット生成ユニット320は、仮想スピーカの数量に基づいて、候補仮想スピーカのセットに含まれる複数の仮想スピーカを決定し、仮想スピーカの位置情報(例えば、座標)および仮想スピーカの順序に基づいて、仮想スピーカの係数を決定する。例えば、仮想スピーカ座標を決定するための方法は、等しい距離に基づいて複数の仮想スピーカを生成すること、または聴覚原理に基づいて、均等に分布していない複数の仮想スピーカを生成すること、次いで、仮想スピーカの数量に基づいて仮想スピーカの座標を生成することを含むが、これに限定されない。
あるいは、仮想スピーカの係数は、3次元オーディオ信号の生成原理に基づいて生成されてもよい。式(3)におけるθsおよびφsは、それぞれ仮想スピーカの位置座標として設定され、
はN次仮想スピーカの係数を表す。仮想スピーカの係数は、ambisonics係数と呼ばれることもある。
符号化解析ユニット330は、3次元オーディオ信号の符号化解析、例えば、3次元オーディオ信号の音場分布特徴、すなわち、3次元オーディオ信号の音源の数量、音源の指向性、音源の分散などの特徴を解析するように構成される。
仮想スピーカセット生成ユニット320によって出力される候補仮想スピーカのセットに含まれる複数の仮想スピーカの係数は、仮想スピーカ選択ユニット340の入力として使用される。
3次元オーディオ信号のものであり、符号化解析ユニット330によって出力される音場分布特徴は、仮想スピーカ選択ユニット340の入力として使用される。
仮想スピーカ選択ユニット340は、符号化対象の3次元オーディオ信号、3次元オーディオ信号の音場分布特徴、および複数の仮想スピーカの係数に基づいて、3次元オーディオ信号に一致する代表仮想スピーカを決定するように構成される。
本出願のこの実施形態におけるエンコーダ300は、符号化解析ユニット330を含まなくてもよい。このことは限定されない。具体的には、エンコーダ300は入力信号を解析しなくてもよく、仮想スピーカ選択ユニット340は、デフォルト構成を使用して代表仮想スピーカを決定する。例えば、仮想スピーカ選択ユニット340は、3次元オーディオ信号と複数の仮想スピーカの係数のみに基づいて、3次元オーディオ信号に一致する代表仮想スピーカを決定する。
エンコーダ300は、エンコーダ300の入力として、取り込みデバイスから取得される3次元オーディオ信号を使用しても、人工オーディオオブジェクトを使用して合成された3次元オーディオ信号を使用してもよい。加えて、エンコーダ300によって入力される3次元オーディオ信号は、時間領域3次元オーディオ信号または周波数領域3次元オーディオ信号であってもよい。このことは限定されない。
仮想スピーカ選択ユニット340によって出力される代表仮想スピーカの位置情報および代表仮想スピーカの係数は、仮想スピーカ信号生成ユニット350および符号化ユニット360の入力として使用される。
仮想スピーカ信号生成ユニット350は、3次元オーディオ信号および代表仮想スピーカの属性情報に基づいて仮想スピーカ信号を生成するように構成される。代表仮想スピーカの属性情報は、代表仮想スピーカの位置情報、代表仮想スピーカの係数、および3次元オーディオ信号の係数のうちの少なくとも1つを含む。属性情報が代表仮想スピーカの位置情報である場合、代表仮想スピーカの係数は、代表仮想スピーカの位置情報に基づいて決定される。属性情報が3次元オーディオ信号の係数を含む場合、代表仮想スピーカの係数は、3次元オーディオ信号の係数に基づいて取得される。具体的には、仮想スピーカ信号生成ユニット350は、3次元オーディオ信号の係数および代表仮想スピーカの係数に基づいて仮想スピーカ信号を計算する。
例えば、行列Aが仮想スピーカの係数を表し、行列XがHOA信号のHOA係数を表すと想定される。行列Xは、行列Aの逆行列である。理論上の最適解wは、最小二乗法を使用して取得され、wは仮想スピーカ信号を表す。仮想スピーカ信号は、式(5)を満たす。
w=A-1X 式(5)
A-1は行列Aの逆行列を表す。行列Aのサイズは(M×C)であり、Cは仮想スピーカの数量を表し、MはN次HOA信号のオーディオチャネルの数量を表し、aは仮想スピーカの係数を表す。行列Xのサイズは(M×L)であり、LはHOA信号の係数の数量を表し、xはHOA信号の係数を表す。代表仮想スピーカの係数は、代表仮想スピーカのHOA係数または代表仮想スピーカのambisonics係数、例えば、
および
であってもよい。
仮想スピーカ信号生成ユニット350によって出力される仮想スピーカ信号は、符号化ユニット360の入力として使用される。
符号化ユニット360は、仮想スピーカ信号に対してコア符号化処理を行ってビットストリームを取得するように構成される。コア符号化処理は、変換、量子化、心理音響モデルの使用、ノイズシェーピング、帯域幅拡張、ダウンミックス、算術符号化、ビットストリーム生成などが含まれるが、これらに限定されない。
空間エンコーダ1131は、仮想スピーカ構成ユニット310、仮想スピーカセット生成ユニット320、符号化解析ユニット330、仮想スピーカ選択ユニット340、および仮想スピーカ信号生成ユニット350を含んでもよいことに留意されたい。言い換えると、仮想スピーカ構成ユニット310、仮想スピーカセット生成ユニット320、符号化解析ユニット330、仮想スピーカ選択ユニット340、および仮想スピーカ信号生成ユニット350は、空間エンコーダ1131の機能を実施する。コアエンコーダ1132は、符号化ユニット360を含んでもよい。言い換えると、符号化ユニット360は、コアエンコーダ1132の機能を実施する。
図3に示されるエンコーダは、1つの仮想スピーカ信号を生成してもよいし、複数の仮想スピーカ信号を生成してもよい。複数の仮想スピーカ信号は、図3に示されるエンコーダによって行われる複数の動作によって取得されてもよく、または図3に示されるエンコーダによって行われる1つの動作によって取得されてもよい。
以下では、添付図面を参照して、3次元オーディオ信号の符号化/復号手順について説明する。図4は、本出願の一実施形態による3次元オーディオ信号符号化/復号方法の概略フローチャートである。本明細書では、図1のソースデバイス110および宛先デバイス120が3次元オーディオ信号の符号化/復号手順を行う一例が説明のために使用される。図4に示されているように、本方法は以下のステップを含む。
S410:ソースデバイス110は、3次元オーディオ信号の現在フレームを取得する。
前述の実施形態で説明されたように、ソースデバイス110がオーディオ取得デバイス111を含む場合、ソースデバイス110は、オーディオ取得デバイス111を使用して元のオーディオを取得してもよい。任意選択的に、ソースデバイス110は、あるいは、他のデバイスによって取得された元のオーディオを受信しても、またはソースデバイス110のメモリもしくは他のメモリから元のオーディオを取得してもよい。元のオーディオは、現実世界からリアルタイムで取得された音、デバイスに記憶されたオーディオ、および複数のオーディオから合成されたオーディオのうちの少なくとも1つを含んでもよい。この実施形態では、元のオーディオを取得する方式および元のオーディオのタイプは限定されない。
元のオーディオを取得した後、ソースデバイス110は、3次元オーディオ技術および元のオーディオに基づいて3次元オーディオ信号を生成し、聴取者に「没入型」スピーカ効果を提供する。3次元オーディオ信号を生成するための具体的な方法については、前述の実施形態におけるプリプロセッサ112の説明および従来技術の説明を参照されたい。
加えて、オーディオ信号は、連続的なアナログ信号である。オーディオ信号処理手順では、フレームシーケンスのデジタル信号を生成するために、オーディオ信号が最初にサンプリングされてもよい。フレームは、複数のサンプルを含んでもよい。あるいは、フレームは、サンプリングを通して取得されたサンプルであってもよい。あるいは、フレームは、フレームを分割することによって取得されたサブフレームを含んでもよい。あるいは、フレームは、フレームを分割することによって取得されたサブフレームであってもよい。例えば、フレームの長さがLサンプルであり、フレームがN個のサブフレームに分割される場合、各サブフレームはL/Nサンプルに対応する。オーディオ符号化/復号は、一般に、複数のサンプルを含むオーディオフレームシーケンスを処理することを意味する。
オーディオフレームは、現在フレームまたは前フレームを含んでもよい。本出願の実施形態で説明される現在フレームまたは前フレームは、フレームまたはサブフレームであってもよい。現在フレームは、現時点で符号化/復号されているフレームである。前フレームは、現時点の直前に符号化/復号されたフレームである。前フレームは、現時点の前の瞬間のフレームまたは現時点の前の複数の瞬間のフレームであってもよい。本出願のこの実施形態では、3次元オーディオ信号の現在フレームは、3次元オーディオ信号のものであり、現時点で符号化/復号されているフレームである。前フレームは、3次元オーディオ信号のものであり、現時点より前に符号化/復号されたフレームである。3次元オーディオ信号の現在フレームは、3次元オーディオ信号の符号化対象の現在フレームであってもよい。3次元オーディオ信号の現在フレームは、略して現在フレームと呼ばれる場合がある。3次元オーディオ信号の前フレームは、略して前フレームと呼ばれる場合がある。
S420:ソースデバイス110は、候補仮想スピーカのセットを決定する。
ある場合には、候補仮想スピーカのセットがソースデバイス110のメモリに事前構成される。ソースデバイス110は、候補仮想スピーカのセットをメモリから読み出しうる。候補仮想スピーカのセットは、複数の仮想スピーカを含む。仮想スピーカは、空間音場に仮想的に存在するスピーカを示す。仮想スピーカは、宛先デバイス120が再構築された3次元オーディオ信号を再生するように、3次元オーディオ信号に基づいて仮想スピーカ信号を計算するように構成される。
他の場合には、仮想スピーカ構成パラメータがソースデバイス110のメモリに事前構成される。ソースデバイス110は、仮想スピーカ構成パラメータに基づいて候補仮想スピーカのセットを生成する。任意選択的に、ソースデバイス110は、ソースデバイス110のコンピューティングリソース(例えば、プロセッサ)の能力および現在フレームの特徴(例えば、チャネルおよびデータ量)に基づいて、候補仮想スピーカのセットをリアルタイムで生成する。
候補仮想スピーカのセットを生成するための具体的な方法については、従来の技術ならびに上記の実施形態における仮想スピーカ構成ユニット310および仮想スピーカセット生成ユニット320の説明を参照されたい。
S430:ソースデバイス110は、3次元オーディオ信号の現在フレームに基づいて、候補仮想スピーカのセットから現在フレーム代表仮想スピーカを選択する。
ソースデバイス110は、現在フレームの係数および仮想スピーカの係数に基づいて仮想スピーカに投票し、仮想スピーカの票値に基づいて候補仮想スピーカのセットから現在フレーム代表仮想スピーカを選択する。候補仮想スピーカのセットは、限られた数量の現在フレーム代表仮想スピーカについて探され、限られた数量の現在フレーム代表仮想スピーカが、符号化対象の現在フレームの最良に一致する仮想スピーカとして使用される。このようにして、符号化対象の3次元オーディオ信号に対してデータ圧縮が行われる。
図5は、本出願の一実施形態による仮想スピーカ選択方法の概略フローチャートである。図5の方法手順は、図4のS430に含まれる具体的な動作手順を説明する。本明細書では、図1に示されるソースデバイス110のエンコーダ113が仮想スピーカ選択手順を行う一例が説明のために使用される。具体的には、仮想スピーカ選択ユニット340の機能が実施される。図5に示されるように、本方法は、以下のステップを含む。
S510:エンコーダ113は、現在フレームの代表係数を取得する。
代表係数は、周波数領域代表係数または時間領域代表係数であってもよい。周波数領域代表係数は、周波数領域代表周波数ビンまたはスペクトル代表係数とも呼ばれる場合がある。時間領域代表係数は、時間領域代表サンプルとも呼ばれる場合がある。現在フレームの代表係数を取得するための具体的な方法については、図7のS6101およびS6102の以下の説明を参照されたい。
S520:エンコーダ113は、候補仮想スピーカのセットの仮想スピーカのものであり、現在フレームの代表係数に基づいて取得された票値に基づいて、候補仮想スピーカのセットから現在フレーム代表仮想スピーカを選択する。S440からS460が行われる。
エンコーダ113は、現在フレームの代表係数および仮想スピーカの係数に基づいて候補仮想スピーカのセットの仮想スピーカに投票し、仮想スピーカの現在フレーム最終票値に基づいて候補仮想スピーカのセットから現在フレーム代表仮想スピーカを選択(検索)する。現在フレーム代表仮想スピーカを選択するための具体的な方法については、図8および図7のS6103の説明を参照されたい。
エンコーダは、最初に、候補仮想スピーカのセットに含まれる仮想スピーカをトラバースし、候補仮想スピーカのセットから選択された現在フレーム代表仮想スピーカを使用して現在フレームを圧縮することに留意されたい。しかしながら、連続するフレームに対する仮想スピーカの選択結果が大きく異なる場合、再構築された3次元オーディオ信号の空間画像が不安定になり、再構築された3次元オーディオ信号の音質が低下する。本出願のこの実施形態では、エンコーダ113は、前フレーム代表仮想スピーカの前フレーム最終票値に基づいて、候補仮想スピーカのセットに含まれる仮想スピーカの現在フレーム初期票値を更新して、仮想スピーカの現在フレーム最終票値を取得し、次いで、仮想スピーカの現在フレーム最終票値に基づいて候補仮想スピーカのセットから現在フレーム代表仮想スピーカを選択してもよい。このようにして、現在フレーム代表仮想スピーカは、前フレーム代表仮想スピーカに基づいて選択され、その結果、現在フレームの現在フレーム代表仮想スピーカを選択するとき、エンコーダは、前フレーム代表仮想スピーカと同じ仮想スピーカを選択する傾向がある。このようにして、連続するフレーム間の方向連続性が高められ、連続するフレームに対する仮想スピーカの選択結果が大きく異なるという問題が解決される。したがって、本出願のこの実施形態は、S530をさらに含みうる。
S530:エンコーダ113は、候補仮想スピーカのセットの仮想スピーカの現在フレーム初期票値を、前フレーム代表仮想スピーカの前フレーム最終票値に基づいて調整して、仮想スピーカの現在フレーム最終票値を取得する。
エンコーダ113は、現在フレームの代表係数および仮想スピーカの係数に基づいて候補仮想スピーカのセットの仮想スピーカに投票して、仮想スピーカの現在フレーム初期票値を取得し、次いで、前フレーム代表仮想スピーカの前フレーム最終票値に基づいて候補仮想スピーカのセットの仮想スピーカの現在フレーム初期票値を調整して、仮想スピーカの現在フレーム最終票値を取得する。前フレーム代表仮想スピーカは、エンコーダ113が前フレームを符号化するときに使用される仮想スピーカである。候補仮想スピーカのセットの仮想スピーカの現在フレーム初期票値を調整するための具体的な方法については、図6のS620およびS630ならびに図8のS810からS840の以下の説明を参照されたい。
いくつかの実施形態では、現在フレームが元のオーディオの最初のフレームである場合、エンコーダ113はS510およびS520を行う。現在フレームが元のオーディオの第2のフレームに続く任意のフレームである場合、エンコーダ113は、連続するフレーム間の方向連続性を確保し、符号化の複雑さを低減するために、前フレーム代表仮想スピーカが現在フレームを符号化するために再利用されるかどうかを最初に決定するか、または仮想スピーカを探すかどうかを決定しうる。本出願のこの実施形態は、S540をさらに含みうる。
S540:エンコーダ113は、前フレーム代表仮想スピーカおよび現在フレームに基づいて、仮想スピーカを探すかどうかを決定する。
エンコーダ113が仮想スピーカを探すと決定した場合、S510からS530が行われる。任意選択的に、エンコーダ113は最初にS510を行ってもよい。具体的には、エンコーダ113は、現在フレームの代表係数を取得する。エンコーダ113は、現在フレームの代表係数および前フレーム代表仮想スピーカの係数に基づいて、仮想スピーカを探すかどうかを決定する。エンコーダ113が仮想スピーカを探すことを決定した場合、S520およびS530が行われる。
エンコーダ113が仮想スピーカを探さないと決定した場合、S550が行われる。
S550:エンコーダ113は、前フレーム代表仮想スピーカを再使用することによって現在フレームを符号化することを決定する。
エンコーダ113は、前フレーム代表仮想スピーカを再使用することによって現在フレームに基づいて仮想スピーカ信号を生成し、仮想スピーカ信号を符号化してビットストリームを取得し、ビットストリームを宛先デバイス120に送信する。言い換えると、S450およびS460が行われる。
仮想スピーカを探すかどうかを決定するための具体的な方法については、図9のS650からS680の以下の説明を参照されたい。
S440:ソースデバイス110は、3次元オーディオ信号の現在フレームおよび現在フレーム代表仮想スピーカに基づいて仮想スピーカ信号を生成する。
ソースデバイス110は、現在フレームの係数および現在フレーム代表仮想スピーカの係数に基づいて仮想スピーカ信号を生成する。仮想スピーカ信号を生成するための具体的な方法については、従来の技術および前述の実施形態における仮想スピーカ信号生成ユニット350の説明を参照されたい。
S450:ソースデバイス110は、仮想スピーカ信号を符号化してビットストリームを取得する。
ソースデバイス110は、仮想スピーカ信号に対して変換または量子化などの符号化動作を行ってビットストリームを生成しうる。このようにして、符号化対象の3次元オーディオ信号に対してデータ圧縮が行われる。ビットストリームを生成するための具体的な方法については、従来技術および前述の実施形態における符号化ユニット360の説明を参照されたい。
S460:ソースデバイス110は、ビットストリームを宛先デバイス120に送信する。
すべての元のオーディオを符号化した後、ソースデバイス110は、元のオーディオのビットストリームを宛先デバイス120に送信しうる。あるいは、ソースデバイス110は、あるいは、3次元オーディオ信号をフレームごとにリアルタイムで符号化し、フレームを符号化した後に1つのフレームのビットストリームを送信しうる。ビットストリームを送信するための具体的な方法については、従来の技術ならびに前述の実施形態における通信インターフェース114および通信インターフェース124の説明を参照されたい。
S470:宛先デバイス120は、ソースデバイス110によって送信されたビットストリームを復号し、3次元オーディオ信号を再構築して、再構築された3次元オーディオ信号を取得する。
ビットストリームを受信した後、宛先デバイス120は、ビットストリームを復号して仮想スピーカ信号を取得し、次いで、候補仮想スピーカのセットおよび仮想スピーカ信号に基づいて3次元オーディオ信号を再構築して、再構築された3次元オーディオ信号を取得する。宛先デバイス120は、再構築された3次元オーディオ信号を再生する。あるいは、宛先デバイス120は、再構築された3次元オーディオ信号を他の再生デバイスに伝送し、他の再生デバイスは、再構築された3次元オーディオ信号を再生する。このように、聴取者にとって、映画、コンサートホール、または仮想シーンなどのシナリオを模倣した「没入型」サウンド効果がより鮮やかになる。
連続するフレーム間の方向連続性を高め、連続するフレームに対する仮想スピーカの選択結果が大きく異なるという問題を解決するために、エンコーダ113は、前フレーム代表仮想スピーカの前フレーム最終票値に基づいて候補仮想スピーカのセットの仮想スピーカの現在フレーム初期票値を調整して、仮想スピーカの現在フレーム最終票値を取得する。図6は、本出願の一実施形態による他の仮想スピーカ選択方法の概略フローチャートである。本明細書では、図1のソースデバイス110のエンコーダ113が仮想スピーカ選択手順を行う一例が説明のために使用される。図6の方法手順は、図5のS530に含まれる具体的な動作手順を説明する。図6に示されるように、本方法は以下のステップを含む。
S610:エンコーダ113は、3次元オーディオ信号の現在フレームに対する第1の数量の現在フレーム初期票値を取得する。
エンコーダ113は、現在フレームの代表係数を使用して候補仮想スピーカのセットの各仮想スピーカに投票して、仮想スピーカの現在フレーム初期票値を取得し、票値に基づいて現在フレーム代表仮想スピーカを選択しうる。このようにして、仮想スピーカを探す計算の複雑さが低減され、エンコーダの計算負荷が低減される。
図7は、本出願の一実施形態による他の3次元オーディオ信号符号化方法の概略フローチャートである。本明細書では、図1のソースデバイス110のエンコーダ113が仮想スピーカ選択手順を行う一例が説明のために使用される。図7の方法手順は、図5のS510およびS520に含まれる具体的な動作手順を説明する。図7に示すように、本方法は以下のステップを含む。
S6101:エンコーダ113は、3次元オーディオ信号の現在フレームの第4の数量の係数、および第4の数量の係数の周波数領域特徴値を取得する。
3次元オーディオ信号はHOA信号であると想定される。エンコーダ113は、HOA信号の現在フレームをサンプリングして、L×(N+1)2サンプルを取得し、すなわち、第4の数量の係数を取得しうる。NはHOA信号の順序を示す。例えば、HOA信号の現在フレームの持続時間が20ミリ秒であると想定される。エンコーダ113は、48 kHzの周波数に基づいて現在フレームをサンプリングして、時間領域において960×(N+1)2個のサンプルを取得する。サンプルは、時間領域係数と呼ばれることもある。
3次元オーディオ信号の現在フレームの周波数領域係数は、3次元オーディオ信号の現在フレームの時間領域係数に基づいて時間周波数変換を行うことによって取得されうる。時間領域を周波数領域に変換するための方法は限定されない。時間領域を周波数領域に変換するための方法は、例えば、修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)を使用することによって周波数領域において960×(N+1)2個の周波数領域係数を取得することを含む。周波数領域係数は、スペクトル係数または周波数ビンと呼ばれることもある。
サンプルの周波数領域特徴値は、p(j)=norm(x(j))を満たし、j=1、2、...、およびLである。Lはサンプリング時点の数量を表し、xは3次元オーディオ信号の現在フレームの周波数領域係数、例えばMDCT係数を表し、normは2-ノルムを取得する演算であり、x(j)はj番目のサンプリング時点での(N+1)2個のサンプルの周波数領域係数を表す。
S6102:エンコーダ113は、第4の数量の係数の周波数領域特徴値に基づいて、第4の数量の係数から第3の数量の代表係数を選択する。
エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を少なくとも1つのサブバンドに分割する。エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を1つのサブバンドに分割する。サブバンドのスペクトル範囲は、第4の数量の係数によって示されるスペクトル範囲に等しい、すなわち、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を分割しないことが理解されうる。
エンコーダ113が第4の数量の係数によって示されるスペクトル範囲を少なくとも2つの周波数サブバンドに分割する場合、ある場合には、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を少なくとも2つのサブバンドに均等に分割する。少なくとも2つのサブバンドの各々は、同じ数量の係数を含む。
他の場合には、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を不均等に分割する。分割を通して取得された少なくとも2つのサブバンドに含まれる係数の数量が異なるか、または分割を通して取得された少なくとも2つのサブバンドの各々に含まれる係数の数量が異なる。例えば、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲の低周波数範囲、中間周波数範囲、および高周波数範囲に基づいて、第4の数量の係数によって示されるスペクトル範囲を不均等に分割してもよく、その結果、低周波数範囲、中間周波数範囲、および高周波数範囲内の各スペクトル範囲は、少なくとも1つのサブバンドを含む。低周波数範囲の少なくとも1つのサブバンドの各々は、同じ数量の係数を含む。中間周波数範囲の少なくとも1つのサブバンドの各々は、同じ数量の係数を含む。高周波数範囲の少なくとも1つのサブバンドの各々は、同じ数量の係数を含む。低周波数範囲、中間周波数範囲、および高周波数範囲の3つのスペクトル範囲のサブバンドは、異なる数量の係数を含みうる。
さらに、エンコーダ113は、第4の数量の係数の周波数領域特徴値に基づいて、第4の数量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから代表係数を選択して、第3の数量の代表係数を取得する。第3の数量は第4の数量よりも小さく、第4の数量の係数は第3の数量の代表係数を含む。
例えば、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドの各々における係数の周波数領域特徴値の降順に基づいて、各サブバンドからZ個の代表係数を選択し、少なくとも1つのサブバンドのZ個の代表係数を組み合わせて、第3の数量の代表係数を取得し、Zは正の整数である。
他の例では、少なくとも1つのサブバンドが少なくとも2つのサブバンドを含むとき、エンコーダ113は、少なくとも2つのサブバンドの各サブバンドの第1の候補係数の周波数領域特徴値に基づいて各サブバンドの重みを決定し、各サブバンドの重みに基づいて各サブバンドの第2の候補係数の周波数領域特徴値を調整して、各サブバンドの第2の候補係数の調整された周波数領域特徴値を取得する。第1の候補係数および第2の候補係数は、サブバンドの係数のうちのいくつかである。エンコーダ113は、少なくとも2つのサブバンドの第2の候補係数の調整された周波数領域特徴値および少なくとも2つのサブバンドの第2の候補係数以外の係数の周波数領域特徴値に基づいて、第3の数量の代表係数を決定する。
エンコーダが現在フレームのすべての係数からいくつかの係数を代表係数として選択し、現在フレームのすべての係数を少数量の代表係数で置き換えて候補仮想スピーカのセットから代表仮想スピーカを選択するため、エンコーダによって仮想スピーカを探す計算の複雑さが効果的に低減される。このようにして、3次元オーディオ信号に対して圧縮符号化する計算の複雑さが低減され、エンコーダの計算負荷が低減される。
S6103:エンコーダ113は、現在フレームの第3の数量の代表係数、候補仮想スピーカのセット、および投票ラウンド数に基づいて、第1の数量の仮想スピーカおよび第1の数量の票値を決定する。
投票ラウンド数は、仮想スピーカに対する投票の回数を制限するために使用される。投票ラウンド数は1以上の整数である。投票ラウンド数は、候補仮想スピーカのセットに含まれる仮想スピーカの数量以下であり、投票ラウンド数は、エンコーダによって伝送される仮想スピーカ信号の数量以下である。例えば、候補仮想スピーカのセットは、第5の数量の仮想スピーカを含む。第5の数量の仮想スピーカは、第1の数量の仮想スピーカを含む。第1の数量は第5の数量以下である。投票ラウンド数は1以上の整数であり、投票ラウンド数は第5の数量以下である。あるいは、仮想スピーカ信号は、現在フレームに対応する現在フレーム代表仮想スピーカのトランスポートチャネルであってもよい。一般に、仮想スピーカ信号の数量は、仮想スピーカの数量以下である。
可能な実装形態では、投票ラウンド数は事前構成されてもよく、またはエンコーダの計算能力に基づいて決定されてもよい。例えば、投票ラウンド数は、エンコーダの符号化レートおよび/または符号化適用シナリオに基づいて決定される。
他の可能な実装形態では、投票ラウンド数は、現在フレームの方向音源の数量に基づいて決定される。例えば、音場の方向音源の数量が2であるとき、投票ラウンド数は2に設定される。
本出願のこの実施形態は、仮想スピーカの第1の数量および票値の第1の数量を決定する3つの可能な実装形態を提供する。以下では、3つの方式について詳細に個別に説明する。
第1の可能な実装形態では、投票ラウンド数は1に等しい。サンプリングを通して複数の代表係数を取得した後、エンコーダ113は、候補仮想スピーカのセットのすべての仮想スピーカのものであり、現在フレームの各代表係数に基づいて取得された票値を取得し、同じシリアル番号を伴う仮想スピーカの票値を累積して、第1の数量の仮想スピーカおよび第1の数量の票値を取得する。候補仮想スピーカのセットは、第1の数量の仮想スピーカを含むことが理解されうる。第1の数量は、候補仮想スピーカのセットに含まれる仮想スピーカの数量に等しい。候補仮想スピーカのセットは第5の数量の仮想スピーカを含むと想定される。第1の数量は第5の数量に等しい。第1の数量の票値は、候補仮想スピーカのセットのすべての仮想スピーカの票値を含む。エンコーダ113は、第1の数量の票値を、第1の数量の仮想スピーカの現在フレーム初期票値として使用しうる。S620からS640が行われる。
仮想スピーカは票値に1対1に対応し、すなわち、1つの仮想スピーカは1つの票値に対応する。例えば、第1の数量の仮想スピーカは、第1の仮想スピーカを含む。第1の数量の票値は、第1の仮想スピーカの票値を含む。第1の仮想スピーカは、第1の仮想スピーカの票値に対応する。第1の仮想スピーカの票値は、現在フレームが符号化されるときに第1の仮想スピーカを使用する優先順位を示す。あるいは、優先順位は優先度として記述されてもよい。具体的には、第1の仮想スピーカの票値は、現在フレームが符号化されるときに第1の仮想スピーカを使用する優先度を示す。第1の仮想スピーカの票値が大きいほど、第1の仮想スピーカのより高い優先順位または優先度を示すことが理解されうる。エンコーダ113は、現在フレームを符号化するために、候補仮想スピーカのセットにあり、第1の仮想スピーカよりも小さい票値を有する仮想スピーカよりも第1の仮想スピーカを選択する傾向がある。
第2の可能な実装形態では、前述の第1の可能な実装形態との違いは、候補仮想スピーカのセットのすべての仮想スピーカのものであり、現在フレームの各代表係数に基づいて取得された票値を取得した後に、エンコーダ113が、候補仮想スピーカのセットのすべての仮想スピーカのものであり、現在フレームの各代表係数に基づいて取得された票値からいくつかの票値を選択し、いくつかの票値に対応する仮想スピーカの中の、同じシリアル番号を有する仮想スピーカの票値を累積して、第1の数量の仮想スピーカおよび第1の数量の票値を取得することにある。候補仮想スピーカのセットは、第1の数量の仮想スピーカを含むことが理解されうる。第1の数量は、候補仮想スピーカのセットに含まれる仮想スピーカの数量以下である。第1の数量の票値は、候補仮想スピーカのセットに含まれるいくつかの仮想スピーカの票値を含むか、または第1の数量の票値は、候補仮想スピーカのセットに含まれるすべての仮想スピーカの票値を含む。
第3の可能な実装形態では、前述の第2の可能な実装形態との違いは、投票ラウンド数が2以上の整数であることである。現在フレームの各代表係数について、エンコーダ113は、候補仮想スピーカのセットのすべての仮想スピーカに対して少なくとも2ラウンドの投票を行い、各ラウンドにおいて最大票値を伴う仮想スピーカを選択する。現在フレームの各代表係数に基づいてすべての仮想スピーカに対して少なくとも2ラウンドの投票が行われた後、同じシリアル番号を伴う仮想スピーカの票値が累積されて、第1の数量の仮想スピーカおよび第1の数量の票値が取得される。
S620:エンコーダ113は、第1の数量の現在フレーム初期票値および第6の数量の前フレーム最終票値に基づいて、第7の数量の仮想スピーカのものであり、現在フレームに対応する第7の数量の現在フレーム最終票値を取得する。
S610の方法によれば、エンコーダ113は、3次元オーディオ信号の現在フレーム、候補仮想スピーカのセット、および投票ラウンド数に基づいて、第1の数量の仮想スピーカおよび第1の数量の票値を決定し、次いで、第1の数量の票値を、第1の数量の仮想スピーカの現在フレーム初期票値として使用しうる。
仮想スピーカは、現在フレーム初期票値に1対1に対応し、すなわち、1つの仮想スピーカは、1つの現在フレーム初期票値に対応する。例えば、第1の数量の仮想スピーカは、第1の仮想スピーカを含む。現在フレーム初期票値の第1の数量は、第1の仮想スピーカの現在フレーム初期票値を含む。第1の仮想スピーカは、第1の仮想スピーカの現在フレーム初期票値に対応する。第1の仮想スピーカの現在フレーム初期票値は、現在フレームが符号化されるときに第1の仮想スピーカを使用する優先順位を示す。
第6の数量の仮想スピーカは、3次元オーディオ信号の前フレームを符号化するためにエンコーダ113によって使用される前フレーム代表仮想スピーカであってもよい。S650において、エンコーダ113は、3次元オーディオ信号の現在フレームと前フレーム代表仮想スピーカのセットの間の第1の相関を取得する。前フレーム代表仮想スピーカのセットは、第6の数量の仮想スピーカを含む。
具体的には、エンコーダ113は、第6の数量の以前フレーム最終票値に基づいて第1の数量の現在フレーム初期票値を更新する。具体的には、エンコーダ113は、第1の数量の仮想スピーカおよび第6の数量の仮想スピーカにあり、同じシリアル番号を有する仮想スピーカの現在フレーム初期票値および前フレーム最終票値の合計を計算して、第7の数量の仮想スピーカのものであり、現在フレームに対応する第7の数量の現在フレーム最終票値を取得する。
第1の可能なケースでは、第1の数量の仮想スピーカは第6の数量の仮想スピーカを含む。第1の数量は第6の数量に等しい。第1の数量の仮想スピーカのシリアル番号と第6の数量の仮想スピーカのシリアル番号は同じである。エンコーダ113によって取得された第1の数量の仮想スピーカは第6の数量の仮想スピーカであり、第6の数量の仮想スピーカの前フレーム最終票値は第1の数量の仮想スピーカの前フレーム最終票値であることが理解されうる。エンコーダ113は、第6の数量の仮想スピーカの前フレーム最終票値に基づいて、第1の数量の仮想スピーカの現在フレーム初期票値を更新してもよい。例えば、第7の数量の仮想スピーカも第1の数量の仮想スピーカである。第7の数量の現在フレーム最終票値は、第1の数量の仮想スピーカの前フレーム最終票値と第1の数量の仮想スピーカの現在フレーム初期票値との合計である。
例えば、第6の数量の仮想スピーカが第1の仮想スピーカを含み、第1の数量の仮想スピーカが第1の仮想スピーカを含み、第6の数量の仮想スピーカおよび第1の数量の仮想スピーカが他の仮想スピーカを含まないと想定される。エンコーダ113は、第1の仮想スピーカの前フレーム最終票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新し、第1の仮想スピーカの現在フレーム最終票値を取得してもよい。第1の仮想スピーカの現在フレーム最終票値は、第1の仮想スピーカの前フレーム最終票値と第1の仮想スピーカの現在フレーム初期票値との合計である。
第2の可能なケースでは、第1の数量の仮想スピーカは第6の数量の仮想スピーカを含む。第1の数量は第6の数量よりも大きい、第1の数量の仮想スピーカは、第6の数量の仮想スピーカに加えて他の仮想スピーカをさらに含むことが理解されうる。エンコーダ113は、第6の数量の仮想スピーカの前フレーム最終票値に基づいて、第1の数量の仮想スピーカにあり、第6の数量の仮想スピーカのシリアル番号と同じシリアル番号を有する仮想スピーカの現在フレーム初期票値を更新してもよい。したがって、第7の数量の仮想スピーカは、第1の数量の仮想スピーカを含む。第7の数量は第1の数量に等しい。第7の数量の仮想スピーカのシリアル番号は、第1の数量の仮想スピーカのシリアル番号と同じである。第7の数量の現在フレーム最終票値は、第1の数量の仮想スピーカにあり、第6の数量の仮想スピーカのシリアル番号と同じシリアル番号を有する仮想スピーカの現在フレーム最終票値、および第1の数量の仮想スピーカにあり、第6の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する仮想スピーカの現在フレーム最終票値を含む。
第1の数量の仮想スピーカにあり、第6の数量の仮想スピーカのシリアル番号と同じシリアル番号を有する仮想スピーカの現在フレーム最終票値は、第6の数量の仮想スピーカの前フレーム最終票値と第1の数量の仮想スピーカの現在フレーム初期票値の和である。第1の数量の仮想スピーカにあり、第6の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する仮想スピーカの現在フレーム最終票値は、第1の数量の仮想スピーカにあり、第6の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する仮想スピーカの現在フレーム初期票値である。
例えば、第1の数量の仮想スピーカが第1の仮想スピーカおよび第2の仮想スピーカを含み、第6の数量の仮想スピーカが第1の仮想スピーカを含み、第6の数量の仮想スピーカが第2の仮想スピーカを含まないと想定される。第2の仮想スピーカの現在フレーム最終票値は、第2の仮想スピーカの現在フレーム初期票値に等しい。エンコーダ113は、第1の仮想スピーカの前フレーム最終票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新し、第1の仮想スピーカの現在フレーム最終票値を取得してもよい。第1の仮想スピーカの現在フレーム最終票値は、第1の仮想スピーカの前フレーム最終票値と第1の仮想スピーカの現在フレーム初期票値との合計である。
第3の可能なケースでは、第1の数量の仮想スピーカは第6の数量の仮想スピーカのうちのいくつかを含み、第6の数量の仮想スピーカは、第1の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する他の仮想スピーカをさらに含む。したがって、第7の数量の仮想スピーカは、第1の数量の仮想スピーカ、および第6の数量の仮想スピーカにあり、第1の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する仮想スピーカを含む。第7の数量の現在フレーム最終票値は、第1の数量の仮想スピーカの現在フレーム最終票値、および第6の数量の仮想スピーカにあり、第1の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する仮想スピーカの現在フレーム最終票値を含む。
第1の数量の仮想スピーカの現在フレーム最終票値は、第1の数量の仮想スピーカにあり、第6の数量の仮想スピーカのシリアル番号と同じシリアル番号を有する仮想スピーカの現在フレーム最終票値を含む。任意選択的に、第1の数量の仮想スピーカの現在フレーム最終票値は、第1の数量の仮想スピーカにあり、第6の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する仮想スピーカの現在フレーム最終票値をさらに含んでもよい。
第6の数量の仮想スピーカにあり、第1の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する仮想スピーカの現在フレーム最終票値は、第6の数量の仮想スピーカにあり、第1の数量の仮想スピーカのシリアル番号とは異なるシリアル番号を有する仮想スピーカの前フレーム最終票値である。
例えば、第6の数量の仮想スピーカが第1の仮想スピーカおよび第3の仮想スピーカを含み、第1の数量の仮想スピーカが第1の仮想スピーカを含み、第1の数量の仮想スピーカが第3の仮想スピーカを含まないと想定される。第3の仮想スピーカの現在フレーム最終票値は、第3の仮想スピーカの前フレーム最終票値に等しい。エンコーダ113は、第1の仮想スピーカの前フレーム最終票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新し、第1の仮想スピーカの現在フレーム最終票値を取得してもよい。第1の仮想スピーカの現在フレーム最終票値は、第1の仮想スピーカの前フレーム最終票値と第1の仮想スピーカの現在フレーム初期票値との合計である。
いくつかの実施形態では、図8は、本出願の一実施形態による仮想スピーカの現在フレーム初期票値を更新するための方法の概略フローチャートである。
S810:エンコーダ113は、第1の調整パラメータに基づいて第1の仮想スピーカの前フレーム最終票値を調整して、第1の仮想スピーカの調整された前フレーム票値を取得する。
第1の調整パラメータは、前フレームにおける方向音源の数、現在フレームを符号化するための符号化ビットレート、およびフレームタイプのうちの少なくとも1つに基づいて決定される。第1の仮想スピーカの調整された前フレーム票値は、以下の式(6)を満たす。
VOTE_f’g=VOTE_fg・w1・w2・w3 式(6)
VOTE_f’gは、調整された前フレーム票値のセットを表し、VOTE_fgは、前フレーム最終票値のセットを表し、gは、前フレーム代表仮想スピーカのセットを表し、w1は、符号化ビットレートに関連したパラメータを表し、w2は、フレームタイプに関連したパラメータを表し、w3は、方向音源の数量に関連したパラメータを表す。フレームタイプは、過渡フレームまたは非過渡フレームを含む。
例えば、符号化ビットレートが128 kbps以下である場合、w1=1、または符号化ビットレートが128 kbpsより大きい場合、w1=0である。前フレームが過渡フレームである場合、w2=1である。前フレームが非過渡フレームである場合、w2=0である。方向音源の数量が仮想スピーカ信号の事前設定された数量より大きい場合、w3=0.8、または方向音源の数量が仮想スピーカ信号の事前設定された数量以下である場合、w3=0.5である。
S820:エンコーダ113は、第1の仮想スピーカの調整された前フレーム票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新して、第1の仮想スピーカの現在フレーム最終票値を取得する。
第1の仮想スピーカの現在フレーム最終票値は、第1の仮想スピーカの調整された前フレーム票値と第1の仮想スピーカの現在フレーム初期票値との合計である。第1の仮想スピーカの現在フレーム最終票値は、以下の式(7)を満たす。
VOTE_Mg=VOTE_f’g+VOTEg 式(7)
VOTE_Mgは、現在フレーム最終票値のセットを表し、VOTE_f’gは、調整された前フレーム票値のセットを表し、VOTEgは、現在フレーム初期票値のセットを表す。
任意選択的に、エンコーダ113が第1の仮想スピーカの調整された前フレーム票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新しうることは、具体的には以下のステップを含む。
S830:エンコーダ113は、第2の調整パラメータに基づいて第1の仮想スピーカの現在フレーム初期票値を調整して、第1の仮想スピーカの調整された現在フレーム票値を取得する。
第1の仮想スピーカの調整された現在フレーム票値は、以下の式(8)を満たす。
VOTE’g=VOTEg・w4 式(8)
VOTE’gは、調整された現在フレーム票値のセットを表し、w4は、第2の調整パラメータを表す。例えば、norm(VOTEg)>norm(VOTE_f’g)の場合、
である。現在フレーム初期票値が調整された前フレーム票値より大きいとき、w4は、調整された前フレーム票値を増加させるように指示するために使用されることが理解されうる。
norm(VOTEg)≦norm(VOTE_f’g)の場合、w4=1である。現在フレーム初期票値が調整された前フレーム票値以下であるとき、調整された前フレーム票値を増加させるように指示するためにw4を使用する必要はないことが理解されうる。
第2の調整パラメータは、第1の仮想スピーカの調整された前フレーム票値および第1の仮想スピーカの現在フレーム初期票値に基づいて決定される。
S840:エンコーダ113は、第1の仮想スピーカの調整された前フレーム票値に基づいて第1の仮想スピーカの調整された現在フレーム票値を更新して、第1の仮想スピーカの現在フレーム最終票値を取得する。
第1の仮想スピーカの現在フレーム最終票値は、第1の仮想スピーカの調整された前フレーム票値と第1の仮想スピーカの調整された現在フレーム票値との合計である。第1の仮想スピーカの現在フレーム最終票値は、以下の式(9)を満たす。
VOTE_Mg=VOTE_f’g+VOTE’g 式(9)
VOTE_Mgは、現在フレーム最終票値のセットを表し、VOTE_f’gは、調整された前フレーム票値のセットを表し、VOTE’gは、調整された現在フレーム票値のセットを表す。
S630:エンコーダ113は、第7の数量の現在フレーム最終票値に基づいて、第7の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択する。
エンコーダ113は、第7の数量の現在フレーム最終票値に基づいて、第7の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択する。加えて、第2の数量の現在フレーム代表仮想スピーカの現在フレーム最終票値は、事前設定された閾値よりも大きい。
あるいは、エンコーダ113は、第7の数量の現在フレーム最終票値に基づいて、第7の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択しうる。例えば、第2の数量の現在フレーム最終票値は、第7の数量の現在フレーム最終票値の降順に基づいて、第7の数量の現在フレーム最終票値から決定される。加えて、第7の数量の仮想スピーカにあり、第2の数量の現在フレーム最終票値に対応する仮想スピーカが、第2の数量の現在フレーム代表仮想スピーカとして使用される。
任意選択的に、第7の数量の仮想スピーカにあり、異なるシリアル番号を有する仮想スピーカの票値が同じであり、異なるシリアル番号を伴う仮想スピーカの票値が事前設定された閾値より大きい場合、エンコーダ113は、異なるシリアル番号を伴うすべての仮想スピーカを現在フレーム代表仮想スピーカとして使用しうる。
第2の数量は第7の数量よりも少ないことに留意されたい。第7の数量の仮想スピーカは、第2の数量の現在フレーム代表仮想スピーカを含む。第2の数量は事前設定されてもよく、または第2の数量は現在フレームの音場の音源の数量に基づいて決定されてもよい。例えば、第2の数量は、現在フレームの音場の音源の数量に等しくてもよい。あるいは、現在フレームの音場の音源の数量は、事前設定アルゴリズムに基づいて処理され、処理を通して取得された数量が第2の数量として使用される。事前設定アルゴリズムは、要件に基づいて設計してもよい。例えば、事前設定アルゴリズムは、第2の数量=現在フレームの音場の音源の数量+1、または第2の数量=現在フレームの音場の音源の数量-1であってもよい。
加えて、エンコーダ113が現在フレームの次のフレームを符号化する前に、エンコーダ113が前フレーム代表仮想スピーカを再使用することによって次のフレームを符号化することを決定した場合、エンコーダ113は、第2の数量の現在フレーム代表仮想スピーカを第2の数量の前フレーム代表仮想スピーカとして使用し、第2の数量の前フレーム代表仮想スピーカを使用することによって現在フレームの次のフレームを符号化してもよい。
S640:エンコーダ113は、第2の数量の現在フレーム代表仮想スピーカに基づいて現在フレームを符号化して、ビットストリームを取得する。
エンコーダ113は、第2の数量の現在フレーム代表仮想スピーカおよび現在フレームに基づいて仮想スピーカ信号を生成して、仮想スピーカ信号を符号化してビットストリームを取得する。
仮想スピーカサーチ手順では、実際の音源の位置は必ずしも仮想スピーカの位置と重複しないため、仮想スピーカは必ずしも1対1で実際の音源に対応するとは限らない。加えて、実際の複雑なシナリオでは、仮想スピーカは音場の独立した音源を表さない場合がある。この場合、フレーム間で探されて見つかった仮想スピーカは頻繁に変化しうる。頻繁な変化は、聴取者の聴覚体験に影響を及ぼす。その結果、復号および再構築を通して取得される3次元オーディオ信号には明らかなノイズが現れる。本出願のこの実施形態による仮想スピーカ選択方法では、前フレーム代表仮想スピーカが保持される。具体的には、同じシリアル番号を伴う仮想スピーカの場合、現在フレーム初期票値は、前フレーム最終票値に基づいて調整され、その結果、エンコーダは、前フレーム代表仮想スピーカを選択する傾向がある。このようにして、フレーム間の方向連続性が強化される。加えて、パラメータは、前フレーム最終票値が永続的に保持されないことを確保し、アルゴリズムが音源の移動などの音場変化に適応できない場合を回避するように調整される。
加えて、本出願のこの実施形態は、仮想スピーカ選択方法をさらに提供する。エンコーダは、最初に、前フレーム代表仮想スピーカのセットが再利用されて現在フレームを符号化できるかどうかを決定してもよい。エンコーダが現在フレームを符号化するために前フレーム代表仮想スピーカのセットを再使用する場合、エンコーダは仮想スピーカサーチ手順を行わない。これは、エンコーダによって仮想スピーカを探す計算の複雑さを効果的に低減する。このようにして、3次元オーディオ信号に対して圧縮符号化する計算の複雑さが低減され、エンコーダの計算負荷が低減される。エンコーダが現在フレームを符号化するために前フレーム代表仮想スピーカのセットを再利用することができない場合には、エンコーダは、代表係数を選択し、現在フレームの代表係数を使用することによって候補仮想スピーカのセットの各仮想スピーカを投票し、票値に基づいて現在フレーム代表仮想スピーカを選択して、3次元オーディオ信号に対して圧縮符号化を行う計算の複雑さを低減し、エンコーダの計算負荷を低減する目的を達成する。図9は、本出願の一実施形態による仮想スピーカ選択方法の概略フローチャートである。エンコーダ113が、第1の数量の仮想スピーカのものであり、3次元オーディオ信号の現在フレームに対応する第1の数量の現在フレーム初期票値を取得する前に、すなわち、S610が行われる前に、本方法は、図9に示されるように、以下のステップをさらに含む。
S650:エンコーダ113は、3次元オーディオ信号の現在フレームと前フレーム代表仮想スピーカのセットの間の第1の相関を取得する。
前フレーム代表仮想スピーカのセットに含まれる第6の数量の仮想スピーカ、および第6の数量の仮想スピーカに含まれる仮想スピーカは、3次元オーディオ信号の前フレームが符号化されるときに使用される前フレーム代表仮想スピーカである。第1の相関は、現在フレームが符号化されるときに前フレーム代表仮想スピーカのセットを再使用する優先順位を示す。あるいは、優先順位は優先度として記述されてもよい。具体的には、第1の相関は、現在フレームが符号化されるときに前フレーム代表仮想スピーカのセットが再利用されるかどうかを決定するために使用される。前フレーム代表仮想スピーカのセットの大きな第1の相関は、前フレーム代表仮想スピーカのセットの高い優先順位またはより高い優先度を示すことが理解されうる。エンコーダ113は、現在フレームを符号化するために前フレーム代表仮想スピーカを選択する傾向がある。
S660:エンコーダ113は、第1の相関が再使用条件を満たすかどうか決定する。
第1の相関が再使用条件を満たさない場合、それはエンコーダ113が仮想スピーカを探す傾向があることを示す。現在フレームは、現在フレーム代表仮想スピーカに基づいて符号化される。S610が行われる。エンコーダ113は、第1の数量の仮想スピーカのものであり、3次元オーディオ信号の現在フレームに対応する第1の数量の現在フレーム初期票値を取得する。
任意選択的に、第4の数量の係数の周波数領域特徴値に基づいて第4の数量の係数から第3の数量の代表係数を選択した後、エンコーダ113は、あるいは、第1の相関を取得するための現在フレームの係数として、第3の数量の代表係数の最大代表係数を使用しうる。エンコーダ113は、現在フレームの第3の数量の代表係数の最大の代表係数と、前フレーム代表仮想スピーカのセットの間の第1の相関を取得する。第1の相関が再使用条件を満たさない場合、S6103が行われ、すなわち、エンコーダ113は、第1の数量の票値に基づいて第1の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択する。
第1の相関が再使用条件を満たす場合、それは、エンコーダ113が現在フレームを符号化するために前フレーム代表仮想スピーカを選択する傾向があることを示す。エンコーダ113はS670およびS680を行う。
S670:エンコーダ113は、前フレーム代表仮想スピーカのセットおよび現在フレームに基づいて仮想スピーカ信号を生成する。
S680:エンコーダ113は、仮想スピーカ信号を符号化してビットストリームを取得する。
本出願のこの実施形態による仮想スピーカ選択方法では、現在フレームの代表係数と前フレーム代表仮想スピーカの間の相関に基づいて、仮想スピーカを探すかどうかが決定される。このようにして、相関に基づく現在フレーム代表仮想スピーカの選択精度が確保され、エンコーダ側での複雑さが効果的に低減される。
上記の実施形態における上記の機能を実施するために、エンコーダが機能を行うための対応するハードウェア構成および/またはソフトウェアモジュールを含むことが理解されうる。当業者は、本出願で開示された実施形態で説明された例のユニットおよび方法ステップと組み合わせて、本出願がハードウェア、またはハードウェアとコンピュータソフトウェアとの組み合わせを使用することによって実装されることができることを容易に認識するはずである。機能がハードウェアを使用することによって行われるか、それともコンピュータソフトウェアによって駆動されるハードウェアによって行われるかは、技術的解決策の具体的な用途シナリオおよび設計上の制約に依存する。
以上、図1から図9を参照して、この実施形態による3次元オーディオ信号符号化方法について詳細に説明した。次では、図10および図11を参照して、この実施形態による3次元オーディオ信号符号化装置およびエンコーダについて説明する。
図10は、本出願の一実施形態による3次元オーディオ信号符号化装置の可能な構造の概略図である。これらの3次元オーディオ信号符号化装置は、前述の方法実施形態における3次元オーディオ信号を符号化する機能を実施するように構成されてもよく、したがって、前述の方法実施形態の有益な効果を実施することもできる。この実施形態では、3次元オーディオ信号符号化装置は、図1に示されるエンコーダ113、図3に示されるエンコーダ300、または端末デバイスもしくはサーバに適用されるモジュール(チップなど)であってもよい。
図10に示されるように、3次元オーディオ信号符号化装置1000は、通信モジュール1010、係数選択モジュール1020、仮想スピーカ選択モジュール1030、符号化モジュール1040、および記憶モジュール1050を含む。3次元オーディオ信号符号化装置1000は、図6から図9に示される方法実施形態におけるエンコーダ113の機能を実施するように構成される。
通信モジュール1010は、3次元オーディオ信号の現在フレームを取得するように構成される。任意選択的に、通信モジュール1010は、あるいは、他のデバイスによって取得された3次元オーディオ信号の現在フレームを受信するか、または記憶モジュール1050から3次元オーディオ信号の現在フレームを取得しうる。3次元オーディオ信号の現在フレームはHOA信号である。係数の周波数領域特徴値は、HOA信号の係数に基づいて決定される。
仮想スピーカ選択モジュール1030は、3次元オーディオ信号の現在フレームに対する第1の数量の現在フレーム初期票値を取得するように構成される。第1の数量の仮想スピーカは、現在フレーム初期票値に1対1に対応する。第1の数量の仮想スピーカは第1の仮想スピーカを含み、第1の仮想スピーカの現在フレーム初期票値は、現在フレームが符号化されるときに第1の仮想スピーカを使用する優先順位を示す。
仮想スピーカ選択モジュール1030は、第1の数量の現在フレーム初期票値および第6の数量の前フレーム最終票値に基づいて、第7の数量の仮想スピーカのものであり、現在フレームに対応する第7の数量の現在フレーム最終票値を取得するようにさらに構成される。第7の数量の仮想スピーカは、第1の数量の仮想スピーカを含む。第7の数量の仮想スピーカは、第6の数量の仮想スピーカを含む。第6の数量の仮想スピーカは、第6の数量の前フレーム最終票値に1対1に対応する。第6の数量の仮想スピーカは、3次元オーディオ信号の前フレームが符号化されるときに使用される仮想スピーカである。
第1の数量の仮想スピーカが第2の仮想スピーカを含み、第6の数量の仮想スピーカが第2の仮想スピーカを含まない場合、第2の仮想スピーカの現在フレーム最終票値は、第2の仮想スピーカの現在フレーム初期票値に等しい。あるいは、第6の数量の仮想スピーカが第3の仮想スピーカを含み、第1の数量の仮想スピーカが第3の仮想スピーカを含まない場合、第3の仮想スピーカの現在フレーム最終票値は、第3の仮想スピーカの前フレーム最終票値に等しい。
3次元オーディオ信号符号化装置1000が図6から図9に示された方法実施形態におけるエンコーダ113の機能を実装するように構成されるとき、仮想スピーカ選択モジュール1030は、S610からS630、およびS650からS680に関連した機能を実装するように構成される。
例えば、第1の仮想スピーカの前フレーム最終票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新するときに、仮想スピーカ選択モジュール1030は、第1の調整パラメータに基づいて第1の仮想スピーカの前フレーム最終票値を調整して、第1の仮想スピーカの調整された前フレーム票値を取得し、第1の仮想スピーカの調整された前フレーム票値に基づいて、第1の仮想スピーカの現在フレーム初期票値を更新するように特に構成される。
他の例として、第1の仮想スピーカの調整された前フレーム票値に基づいて第1の仮想スピーカの現在フレーム初期票値を更新するときに、仮想スピーカ選択モジュール1030は、第2の調整パラメータに基づいて第1の仮想スピーカの現在フレーム初期票値を調整して、第1の仮想スピーカの調整された現在フレーム票値を取得し、第1の仮想スピーカの調整された前フレーム票値に基づいて、第1の仮想スピーカの調整された現在フレーム票値を更新するように特に構成される。
第1の調整パラメータは、前フレームにおける方向音源の数、現在フレームを符号化するための符号化ビットレート、およびフレームタイプのうちの少なくとも1つに基づいて決定される。
第2の調整パラメータは、第1の仮想スピーカの調整された前フレーム票値および第1の仮想スピーカの現在フレーム初期票値に基づいて決定される。
3次元オーディオ信号符号化装置1000が図7に示される方法実施形態におけるエンコーダ113の機能を実施するように構成されるとき、係数選択モジュール1020は、S6101およびS6102に関連した機能を実施するように構成される。具体的には、現在フレームの第3の数量の代表係数を取得するとき、係数選択モジュール1020は、現在フレームの第4の数量の係数および第4の数量の係数の周波数領域特徴値を取得し、第4の数量の係数の周波数領域特徴値に基づいて、第4の数量の係数から第3の数量の代表係数を選択するように特に構成される。第3の数量は第4の数量よりも少ない。
符号化モジュール1140は、第2の数量の現在フレーム代表仮想スピーカに基づいて現在フレームを符号化して、ビットストリームを取得するように構成される。
3次元オーディオ信号符号化装置1000が図6から図9に示された方法実施形態におけるエンコーダ113の機能を実施するように構成されるとき、符号化モジュール1140は、S630に関連した機能を実施するように構成される。例えば、符号化モジュール1140は、第2の数量の現在フレーム代表仮想スピーカおよび現在フレームに基づいて仮想スピーカ信号を生成して、仮想スピーカ信号を符号化してビットストリームを取得するように特に構成される。
記憶モジュール1050は、3次元オーディオ信号に関連した係数、候補仮想スピーカのセット、前フレーム代表仮想スピーカのセット、選択された係数、選択された仮想スピーカなどを記憶するように構成され、その結果、符号化モジュール1040は、現在フレームを符号化してビットストリームを取得し、ビットストリームをデコーダに伝送する。
本出願のこの実施形態における3次元オーディオ信号符号化装置1000は、特定用途向け集積回路(application-specific integrated circuit、ASIC)を使用して実装されてもよく、またはプログラマブルロジックデバイス(programmable logic device、PLD)を使用して実装されてもよいことを理解されたい。PLDは、複合プログラマブルロジックデバイス(complex programmable logic device、CPLD)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、ジェネリックアレイロジック(generic array logic、GAL)、またはそれらの任意の組み合わせであってよい。図6から図9に示される3次元オーディオ信号符号化方法がソフトウェアを使用して代替的に実施されうるとき、3次元オーディオ信号符号化装置1000およびそのモジュールはあるいはソフトウェアモジュールでありうる。
通信モジュール1010、係数選択モジュール1020、仮想スピーカ選択モジュール1030、符号化モジュール1040、および記憶モジュール1050のより詳細な説明については、図6から図9に示す方法実施形態の関連した説明を参照されたい。本明細書では詳細は再度説明されない。
図11は、本出願の一実施形態によるエンコーダ1100の構造の概略図である。図11に示されるように、エンコーダ1100は、プロセッサ1110、バス1120、メモリ1130、および通信インターフェース1140を含む。
本発明のこの実施形態では、プロセッサ1110は、中央処理ユニット(central processing unit、CPU)であってもよいことを理解されたい。あるいは、プロセッサ1110は、他の汎用プロセッサ、デジタル信号プロセッサ(digital signal processing、DSP)、ASIC、FPGAまたは他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理デバイス、ディスクリートハードウェア構成要素などであってもよい。汎用プロセッサは、マイクロプロセッサまたは任意の従来のプロセッサなどであってもよい。
あるいは、プロセッサは、本出願の解決策においてプログラム実行を制御するために使用されるグラフィックス処理ユニット(graphics processing unit、GPU)、ニューラルネットワークプロセッサ(neural network processing unit、NPU)、マイクロプロセッサ、または1つもしくは複数の集積回路であってもよい。
通信インターフェース1140は、エンコーダ1100と外部デバイスまたは構成要素の間の通信を実施するように構成される。この実施形態では、通信インターフェース1140は、3次元オーディオ信号を受信するように構成される。
バス1120は、前述の構成要素(例えば、プロセッサ1110およびメモリ1130)間で情報を伝送するために使用される、経路を含んでもよい。バス1120は、データバスに加えて、電力バス、制御バス、およびステータス信号バスなどをさらに含んでもよい。しかしながら、明確な説明のために、図ではバスはバス1120としてマーキングされる。
一例では、エンコーダ1100は、複数のプロセッサを含んでもよい。プロセッサは、マルチコア(multi-CPU)プロセッサであってもよい。本明細書でのプロセッサは、データ(例えば、コンピュータプログラム命令)を処理するように構成された1つまたは複数のデバイス、回路、および/またはコンピューティングユニットであってもよい。プロセッサ1110は、メモリ1130に記憶されている3次元オーディオ信号に関連した係数、候補仮想スピーカのセット、前フレーム代表仮想スピーカのセット、選択された係数、選択された仮想スピーカなどを呼び出しうる。
図11では、エンコーダ1100が1つのプロセッサ1110および1つのメモリ1130を含む一例のみが使用される。本明細書では、プロセッサ1110およびメモリ1130は、構成要素またはデバイスのタイプを別々に示す。特定の実施形態では、各タイプの構成要素またはデバイスの数量は、サービス要件に基づいて決定されうる。
メモリ1130は、3次元オーディオ信号に関連した係数、候補仮想スピーカのセット、前フレーム代表仮想スピーカのセット、選択された係数、および選択された仮想スピーカなどの情報を記憶するように構成された、前述の方法の実施形態における記憶媒体、例えば、ハードディスクドライブまたはソリッドステートドライブなどの磁気ディスクに対応しうる。
エンコーダ1100は、汎用デバイスまたは専用デバイスであってよい。例えば、エンコーダ1100は、X86またはARMベースのサーバであってもよく、あるいはポリシー制御および課金(policy control and charging、PCC)サーバなどの他の専用サーバであってもよい。エンコーダ1100のタイプは、本出願のこの実施形態では限定されない。
この実施形態によるエンコーダ1100は、この実施形態における3次元オーディオ信号符号化装置1100に対応してもよく、図6から図9のいずれか1つによる方法を行う対応する本体に対応してもよいことを理解されたい。加えて、3次元オーディオ信号符号化装置1100のモジュールの上記ならびに他の動作および/または機能は、図6から図9による方法の対応する手順を実施するために別々に使用される。簡潔にするために、本明細書では詳細は再度説明されない。
この実施形態における方法ステップは、ハードウェアを使用して実施されてもよく、あるいはソフトウェア命令を実行するプロセッサによって実施されてもよい。ソフトウェア命令は、対応するソフトウェアモジュールを含んでもよい。ソフトウェアモジュールは、ランダムアクセスメモリ(random access memory、RAM)、フラッシュメモリ、読み出し専用メモリ(read-only memory、ROM)、プログラマブル読み出し専用メモリ(programmable ROM、PROM)、消去可能プログラマブル読み出し専用メモリ(erasable PROM、EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(electrically EPROM、EEPROM)、レジスタ、ハードディスクドライブ、リムーバブルハードディスクドライブ、CD-ROM、または当技術分野で周知の任意の他の形態の記憶媒体に記憶されうる。例えば、プロセッサが記憶媒体から情報を読み出すことができ、記憶媒体に情報を書き込むことができるように、記憶媒体はプロセッサに結合される。もちろん、記憶媒体はプロセッサの構成要素であってもよい。プロセッサおよび記憶媒体は、ASICに配置されてもよい。加えて、ASICは、ネットワークデバイスまたは端末デバイスに配置されてもよい。もちろん、プロセッサおよび記憶媒体は、あるいは、ネットワークデバイスまたは端末デバイスのディスクリートコンポーネントとして存在しうる。
上記の実施形態の全部または一部はソフトウェア、ハードウェア、ファームウェアまたはこれらの任意の組み合わせを使用して実施されてもよい。実施形態を実装するためにソフトウェアが使用されるとき、実施形態の全部または一部は、コンピュータプログラム製品の形態で実装されてもよい。コンピュータプログラム製品は、1つまたは複数のコンピュータプログラムおよび命令を含む。コンピュータプログラムまたは命令がコンピュータにロードされ実行されると、本出願の実施形態における手順または機能の全部または一部が実行される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、ネットワークデバイス、ユーザ機器、または他のプログラマブル装置であってもよい。コンピュータプログラムまたは命令は、コンピュータ可読記憶媒体に記憶されてもよく、またはあるコンピュータ可読記憶媒体から他のコンピュータ可読記憶媒体に伝送されてもよい。例えば、コンピュータプログラムまたは命令は、ウェブサイト、コンピュータ、サーバ、またはデータセンタから他のウェブサイト、コンピュータ、サーバ、またはデータセンタに有線方式または無線方式で伝送されてもよい。コンピュータ可読記憶媒体は、コンピュータによってアクセスされることができる任意の使用可能な媒体であってもよく、または1つまたは複数の使用可能な媒体が統合されるサーバまたはデータセンタなどのデータ記憶デバイスであってもよい。使用可能な媒体は、磁気媒体、例えばフロッピーディスク、ハードディスクドライブ、もしくは磁気テープであってもよく、またはあるいは、光学媒体、例えばデジタルビデオディスク(digital video disc、DVD)であってもよく、またはあるいは、半導体媒体、例えばソリッドステートドライブ(solid state drive、SSD)であってもよい。
前述の説明は、本出願の特定の実装にすぎず、本出願の保護範囲を限定することが意図されるものではない。本出願において開示される技術的範囲内で当業者によって容易に考え出される任意の修正または置換は、本出願の保護範囲内に入るものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
100 オーディオ符号化/復号システム
110 ソースデバイス
111 オーディオ取得デバイス
112 プリプロセッサ
113 エンコーダ
114 通信インターフェース
120 宛先デバイス
121 プレーヤ
122 ポストプロセッサ
123 デコーダ
124 通信インターフェース
130 通信チャネル
300 エンコーダ
310 仮想スピーカ構成ユニット
320 仮想スピーカセット生成ユニット
330 符号化解析ユニット
340 仮想スピーカ選択ユニット
350 仮想スピーカ信号生成ユニット
360 符号化ユニット
1000 3次元オーディオ信号符号化装置
1010 通信モジュール
1020 係数選択モジュール
1030 仮想スピーカ選択モジュール
1040 符号化モジュール
1050 記憶モジュール
1100 エンコーダ
1110 プロセッサ
1120 バス
1130 メモリ
1131 空間エンコーダ
1132 コアエンコーダ
1140 通信インターフェース
1231 コアデコーダ
1232 空間デコーダ

Claims (29)

  1. 3次元オーディオ信号符号化方法であって、
    3次元オーディオ信号の現在フレームの第1の数量の現在フレーム初期票値を取得するステップであって、第1の数量の仮想スピーカは前記現在フレーム初期票値に1対1に対応し、前記第1の数量の仮想スピーカは第1の仮想スピーカを含み、前記第1の仮想スピーカの現在フレーム初期票値は前記第1の仮想スピーカの優先順位を示す、ステップと、
    前記第1の数量の現在フレーム初期票値および第6の数量の前フレーム最終票値に基づいて、第7の数量の仮想スピーカのものであり、前記現在フレームに対応する、第7の数量の現在フレーム最終票値を取得するステップであって、前記第7の数量の仮想スピーカは前記第1の数量の仮想スピーカを含み、前記第7の数量の仮想スピーカは第6の数量の仮想スピーカを含み、前記第6の数量の仮想スピーカは前記第6の数量の前フレーム最終票値に1対1に対応し、前記第6の数量の仮想スピーカは、前記3次元オーディオ信号の前フレームが符号化されるときに使用される仮想スピーカである、ステップと、
    前記第7の数量の現在フレーム最終票値に基づいて前記第7の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択するステップであって、前記第2の数量は前記第7の数量よりも少ない、ステップと、
    前記第2の数量の現在フレーム代表仮想スピーカに基づいて前記現在フレームを符号化して、ビットストリームを取得するステップと
    を含む、方法。
  2. 前記第1の数量の仮想スピーカが第2の仮想スピーカを含み、前記第6の数量の仮想スピーカが前記第2の仮想スピーカを含まない場合、前記第2の仮想スピーカの現在フレーム最終票値は、前記第2の仮想スピーカの現在フレーム初期票値に等しい、または
    前記第6の数量の仮想スピーカが第3の仮想スピーカを含み、前記第1の数量の仮想スピーカが前記第3の仮想スピーカを含まない場合、前記第3の仮想スピーカの現在フレーム最終票値は、前記第3の仮想スピーカの前フレーム最終票値に等しい、
    請求項1に記載の方法。
  3. 前記第6の数量の仮想スピーカが前記第1の仮想スピーカを含む場合、前記第1の数量の現在フレーム初期票値、および前記第6の数量の仮想スピーカのものであり、前記3次元オーディオ信号の前記前フレームに対応する第6の数量の前フレーム票値に基づいて、第7の数量の仮想スピーカのものであり、前記現在フレームに対応する第7の数量の現在フレーム最終票値を取得する前記ステップは、
    前記第1の仮想スピーカの前フレーム最終票値に基づいて前記第1の仮想スピーカの前記現在フレーム初期票値を更新して、前記第1の仮想スピーカの現在フレーム最終票値を取得するステップ
    を含む、請求項1または2に記載の方法。
  4. 前記第1の仮想スピーカの前フレーム最終票値に基づいて前記第1の仮想スピーカの前記現在フレーム初期票値を更新する前記ステップは、
    第1の調整パラメータに基づいて前記第1の仮想スピーカの前記前フレーム最終票値を調整して、前記第1の仮想スピーカの調整された前フレーム票値を取得するステップと、
    前記第1の仮想スピーカの前記調整された前フレーム票値に基づいて、前記第1の仮想スピーカの前記現在フレーム初期票値を更新するステップと
    を含む、請求項3に記載の方法。
  5. 前記第1の仮想スピーカの前記調整された前フレーム票値に基づいて前記第1の仮想スピーカの前記現在フレーム初期票値を更新する前記ステップは、
    第2の調整パラメータに基づいて前記第1の仮想スピーカの前記現在フレーム初期票値を調整して、前記第1の仮想スピーカの調整された現在フレーム票値を取得するステップと、
    前記第1の仮想スピーカの前記調整された前フレーム票値に基づいて、前記第1の仮想スピーカの前記調整された現在フレーム票値を更新するステップと
    を含む、請求項4に記載の方法。
  6. 前記第1の調整パラメータは、前記前フレームの方向音源の数量、前記現在フレームを符号化するための符号化ビットレート、および前記現在フレームのフレームタイプのうちの少なくとも1つに基づいて決定される、請求項4または5に記載の方法。
  7. 前記第2の調整パラメータは、前記第1の仮想スピーカの前記調整された前フレーム票値および前記第1の仮想スピーカの前記現在フレーム初期票値に基づいて決定される、請求項5に記載の方法。
  8. 前記第2の数量は事前設定されるか、または前記第2の数量は前記現在フレームに基づいて決定される、請求項1から7のいずれか一項に記載の方法。
  9. 前記第1の数量の仮想スピーカのものであり、3次元オーディオ信号の現在フレームに対応する第1の数量の現在フレーム初期票値を取得する前記ステップは、
    前記現在フレームの第3の数量の代表係数、候補仮想スピーカのセット、および投票ラウンド数に基づいて前記第1の数量の仮想スピーカおよび前記第1の数量の現在フレーム初期票値を決定するステップであって、候補仮想スピーカの前記セットは第5の数量の仮想スピーカを含み、前記第5の数量の仮想スピーカは前記第1の数量の仮想スピーカを含み、前記第1の数量は前記第5の数量以下であり、票ラウンドの前記数量は1以上の整数であり、票ラウンドの前記数量は前記第5の数量以下である、ステップ
    を含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記現在フレームの第3の数量の代表係数、候補仮想スピーカのセット、および投票ラウンド数に基づいて、前記第1の数量の仮想スピーカおよび前記第1の数量の現在フレーム初期票値を決定する前記ステップの前に、前記方法は、
    前記現在フレームの第4の数量の係数および前記第4の数量の係数の周波数領域特徴値を取得するステップと、
    前記第4の数量の係数の前記周波数領域特徴値に基づいて前記第4の数量の係数から前記第3の数量の代表係数を選択するステップであって、前記第3の数量は前記第4の数量よりも少ない、ステップと
    をさらに含む、請求項9に記載の方法。
  11. 前記方法は、
    前記現在フレームと前フレーム代表仮想スピーカのセットの間の第1の相関を取得するステップであって、前フレーム代表仮想スピーカの前記セットは前記第6の数量の仮想スピーカを含み、前記第6の数量の仮想スピーカは、前記前フレームが符号化されるときに使用される前フレーム代表仮想スピーカであり、前記現在フレームが符号化されるときに前記第1の相関は、前フレーム代表仮想スピーカの前記セットが再使用されるかどうかを決定するために使用される、ステップと、
    前記第1の相関が再使用条件を満たさない場合、前記3次元オーディオ信号の前記現在フレームの前記第4の数量の係数および前記第4の数量の係数の前記周波数領域特徴値を取得するステップと
    をさらに含む、請求項10に記載の方法。
  12. 前記3次元オーディオ信号の前記現在フレームは高次アンビソニックスHOA信号であり、前記現在フレームの前記係数の前記周波数領域特徴値は、前記HOA信号の係数に基づいて決定される、請求項1から11のいずれか一項に記載の方法。
  13. 3次元オーディオ信号符号化装置であって、
    3次元オーディオ信号の現在フレームの第1の数量の現在フレーム初期票値を取得するように構成される仮想スピーカ選択モジュールであって、第1の数量の仮想スピーカは前記現在フレーム初期票値に1対1に対応し、前記第1の数量の仮想スピーカは第1の仮想スピーカを含み、前記第1の仮想スピーカの現在フレーム初期票値は前記第1の仮想スピーカの優先順位を示し、
    前記仮想スピーカ選択モジュールは、前記第1の数量の現在フレーム初期票値および第6の数量の前フレーム最終票値に基づいて、第7の数量の仮想スピーカのものであり、前記現在フレームに対応する、第7の数量の現在フレーム最終票値を取得するようにさらに構成され、前記第7の数量の仮想スピーカは前記第1の数量の仮想スピーカを含み、前記第7の数量の仮想スピーカは第6の数量の仮想スピーカを含み、前記第6の数量の仮想スピーカは前記第6の数量の前フレーム最終票値に1対1に対応し、前記第6の数量の仮想スピーカは、前記3次元オーディオ信号の前フレームが符号化されるときに使用される仮想スピーカであり、
    前記仮想スピーカ選択モジュールは、前記第7の数量の現在フレーム最終票値に基づいて前記第7の数量の仮想スピーカから第2の数量の現在フレーム代表仮想スピーカを選択するようにさらに構成され、前記第2の数量は前記第7の数量よりも少ない、仮想スピーカ選択モジュールと、
    前記第2の数量の現在フレーム代表仮想スピーカに基づいて前記現在フレームを符号化して、ビットストリームを取得するように構成される符号化モジュールと
    を含む、装置。
  14. 前記第1の数量の仮想スピーカが第2の仮想スピーカを含み、前記第6の数量の仮想スピーカが前記第2の仮想スピーカを含まない場合、前記第2の仮想スピーカの現在フレーム最終票値は、前記第2の仮想スピーカの現在フレーム初期票値に等しい、または
    前記第6の数量の仮想スピーカが第3の仮想スピーカを含み、前記第1の数量の仮想スピーカが前記第3の仮想スピーカを含まない場合、前記第3の仮想スピーカの現在フレーム最終票値は、前記第3の仮想スピーカの前フレーム最終票値に等しい、
    請求項13に記載の装置。
  15. 前記第6の数量の仮想スピーカが前記第1の仮想スピーカを含む場合、前記第1の数量の現在フレーム初期票値、および前記第6の数量の仮想スピーカのものであり、前記3次元オーディオ信号の前記前フレームに対応する第6の数量の前フレーム票値に基づいて、第7の数量の仮想スピーカのものであり、前記現在フレームに対応する第7の数量の現在フレーム最終票値を取得するとき、前記仮想スピーカ選択モジュールは、
    前記第1の仮想スピーカの前フレーム最終票値に基づいて前記第1の仮想スピーカの前記現在フレーム初期票値を更新して、前記第1の仮想スピーカの現在フレーム最終票値を取得する
    ように特に構成される、請求項13または14に記載の装置。
  16. 前記第1の仮想スピーカの前フレーム最終票値に基づいて前記第1の仮想スピーカの前記現在フレーム初期票値を更新するとき、前記仮想スピーカ選択モジュールは、
    第1の調整パラメータに基づいて前記第1の仮想スピーカの前記前フレーム最終票値を調整して、前記第1の仮想スピーカの調整された前フレーム票値を取得し、
    前記第1の仮想スピーカの前記調整された前フレーム票値に基づいて、前記第1の仮想スピーカの前記現在フレーム初期票値を更新する
    ように特に構成される、請求項15に記載の装置。
  17. 前記第1の仮想スピーカの前記調整された前フレーム票値に基づいて前記第1の仮想スピーカの前記現在フレーム初期票値を更新するとき、前記仮想スピーカ選択モジュールは、
    第2の調整パラメータに基づいて前記第1の仮想スピーカの前記現在フレーム初期票値を調整して、前記第1の仮想スピーカの調整された現在フレーム票値を取得し、
    前記第1の仮想スピーカの前記調整された前フレーム票値に基づいて、前記第1の仮想スピーカの前記調整された現在フレーム票値を更新する
    ように特に構成される、請求項16に記載の装置。
  18. 前記第1の調整パラメータは、前記前フレームの方向音源の数量、前記現在フレームを符号化するための符号化ビットレート、および前記現在フレームのフレームタイプのうちの少なくとも1つに基づいて決定される、請求項16または17に記載の装置。
  19. 前記第2の調整パラメータは、前記第1の仮想スピーカの前記調整された前フレーム票値および前記第1の仮想スピーカの前記現在フレーム初期票値に基づいて決定される、請求項17に記載の装置。
  20. 前記第2の数量は事前設定されるか、または前記第2の数量は前記現在フレームに基づいて決定される、請求項13から19のいずれか一項に記載の装置。
  21. 第1の数量の仮想スピーカのものであり、3次元オーディオ信号の現在フレームに対応する第1の数量の現在フレーム初期票値を取得するとき、前記仮想スピーカ選択モジュールは、
    前記現在フレームの第3の数量の代表係数、候補仮想スピーカのセット、および投票ラウンド数に基づいて前記第1の数量の仮想スピーカおよび前記第1の数量の現在フレーム初期票値を決定し、候補仮想スピーカの前記セットは第5の数量の仮想スピーカを含み、前記第5の数量の仮想スピーカは前記第1の数量の仮想スピーカを含み、前記第1の数量は前記第5の数量以下であり、票ラウンドの前記数量は1以上の整数であり、票ラウンドの前記数量は前記第5の数量以下である、
    ように特に構成される、請求項13から20のいずれか一項に記載の装置。
  22. 前記装置は係数選択モジュールをさらに含み、
    前記係数選択モジュールは、前記現在フレームの第4の数量の係数および前記第4の数量の係数の周波数領域特徴値を取得するように構成され、
    前記係数選択モジュールは、前記第4の数量の係数の前記周波数領域特徴値に基づいて、前記第4の数量の係数から前記第3の数量の代表係数を選択し、前記第3の数量は前記第4の数量よりも少ない、ようにさらに構成される、
    請求項21に記載の装置。
  23. 前記仮想スピーカ選択モジュールは、
    前記現在フレームと前フレーム代表仮想スピーカのセットの間の第1の相関を取得し、前フレーム代表仮想スピーカの前記セットは前記第6の数量の仮想スピーカを含み、前記第6の数量の仮想スピーカに含まれる前記仮想スピーカは、前記前フレームが符号化されるときに使用される前フレーム代表仮想スピーカであり、前記現在フレームが符号化されるときに前記第1の相関は、前フレーム代表仮想スピーカの前記セットが再使用されるかどうかを決定し、
    前記第1の相関が再使用条件を満たさない場合、前記3次元オーディオ信号の前記現在フレームの前記第4の数量の係数および前記第4の数量の係数の前記周波数領域特徴値を取得する、
    ようにさらに構成される、請求項22に記載の装置。
  24. 前記3次元オーディオ信号の前記現在フレームは高次アンビソニックスHOA信号であり、前記現在フレームの前記係数の前記周波数領域特徴値は、前記HOA信号の係数に基づいて決定される、請求項13から23のいずれか一項に記載の装置。
  25. エンコーダであって、前記エンコーダは、少なくとも1つのプロセッサとメモリとを含み、前記メモリは、コンピュータプログラムが前記少なくとも1つのプロセッサによって実行されるときに請求項1から12のいずれか一項に記載の3次元オーディオ信号符号化方法が実施されることを可能にするために、前記コンピュータプログラムを記憶するように構成される、エンコーダ。
  26. システムであって、前記システムは、請求項25に記載のエンコーダとデコーダとを含み、前記エンコーダは、請求項1から12のいずれか一項に記載の方法の動作ステップを行うように構成され、前記デコーダは、前記エンコーダによって生成されたビットストリームを復号するように構成される、システム。
  27. コンピュータプログラムであって、前記コンピュータプログラムが実行されると、請求項1から12のいずれか一項に記載の3次元オーディオ信号符号化方法が実施される、コンピュータプログラム。
  28. コンピュータソフトウェア命令を含むコンピュータ可読記憶媒体であって、前記コンピュータソフトウェア命令がエンコーダ上で実行されると、前記エンコーダは、請求項1から12のいずれか一項に記載の3次元オーディオ信号符号化方法を行うことが可能にされる、コンピュータ可読記憶媒体。
  29. 請求項1から12のいずれか一項に記載の3次元オーディオ信号符号化方法を使用することによって取得された前記ビットストリームを含む、コンピュータ可読記憶媒体。
JP2023571697A 2021-05-17 2022-05-07 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ Pending JP2024518846A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110536634.9A CN115376530A (zh) 2021-05-17 2021-05-17 三维音频信号编码方法、装置和编码器
CN202110536634.9 2021-05-17
PCT/CN2022/091557 WO2022242479A1 (zh) 2021-05-17 2022-05-07 三维音频信号编码方法、装置和编码器

Publications (1)

Publication Number Publication Date
JP2024518846A true JP2024518846A (ja) 2024-05-07

Family

ID=84058493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023571697A Pending JP2024518846A (ja) 2021-05-17 2022-05-07 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ

Country Status (7)

Country Link
US (1) US20240079017A1 (ja)
EP (1) EP4325485A1 (ja)
JP (1) JP2024518846A (ja)
KR (1) KR20240004869A (ja)
CN (1) CN115376530A (ja)
BR (1) BR112023024118A2 (ja)
WO (1) WO2022242479A1 (ja)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3275249B2 (ja) * 1991-09-05 2002-04-15 日本電信電話株式会社 音声符号化・復号化方法
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
CN103000179B (zh) * 2011-09-16 2014-11-12 中国科学院声学研究所 一种多通道音频编解码系统及其方法
BR112015030103B1 (pt) * 2013-05-29 2021-12-28 Qualcomm Incorporated Compressão de representações decomposta de campo sonoro
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
CN110415712B (zh) * 2014-06-27 2023-12-12 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
EP2963949A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
CN106658345B (zh) * 2016-11-16 2018-11-16 青岛海信电器股份有限公司 一种虚拟环绕声播放方法、装置和设备
CN106993249B (zh) * 2017-04-26 2020-04-14 深圳创维-Rgb电子有限公司 一种声场的音频数据的处理方法及装置
CN110120229A (zh) * 2018-02-05 2019-08-13 北京三星通信技术研究有限公司 虚拟现实vr音频信号的处理方法及相应设备
US11093788B2 (en) * 2018-02-08 2021-08-17 Intel Corporation Scene change detection
CN108538310B (zh) * 2018-03-28 2021-06-25 天津大学 一种基于长时信号功率谱变化的语音端点检测方法
CN110556118B (zh) * 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing

Also Published As

Publication number Publication date
KR20240004869A (ko) 2024-01-11
BR112023024118A2 (pt) 2024-02-15
US20240079017A1 (en) 2024-03-07
WO2022242479A1 (zh) 2022-11-24
EP4325485A1 (en) 2024-02-21
CN115376530A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
US20230298600A1 (en) Audio encoding and decoding method and apparatus
US20240119950A1 (en) Method and apparatus for encoding three-dimensional audio signal, encoder, and system
US20240087580A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
JP2023551016A (ja) オーディオ符号化及び復号方法並びに装置
JP2024518846A (ja) 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ
WO2022242481A1 (zh) 三维音频信号编码方法、装置和编码器
TWI844036B (zh) 三維音訊訊號編碼方法、裝置、編碼器、系統、電腦程式和電腦可讀儲存介質
WO2022242483A1 (zh) 三维音频信号编码方法、装置和编码器
WO2024146408A1 (zh) 场景音频解码方法及电子设备
WO2022257824A1 (zh) 一种三维音频信号的处理方法和装置
WO2022253187A1 (zh) 一种三维音频信号的处理方法和装置
CN118314908A (en) Scene audio decoding method and electronic equipment
CN115346537A (zh) 一种音频编码、解码方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240105