JP7581333B2 - マルチチャネル・オーディオ信号のチャネル識別 - Google Patents
マルチチャネル・オーディオ信号のチャネル識別 Download PDFInfo
- Publication number
- JP7581333B2 JP7581333B2 JP2022512847A JP2022512847A JP7581333B2 JP 7581333 B2 JP7581333 B2 JP 7581333B2 JP 2022512847 A JP2022512847 A JP 2022512847A JP 2022512847 A JP2022512847 A JP 2022512847A JP 7581333 B2 JP7581333 B2 JP 7581333B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- channels
- pair
- identified
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/01—Input selection or mixing for amplifiers or loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/03—Connection circuits to selectively connect loudspeakers or headphones to amplifiers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Stereophonic System (AREA)
Description
本願は、2019年8月30日に出願されたPCT特許出願第PCT/CN2019/103813号、2019年10月8日に出願された米国仮特許出願第62/912,279号、および2019年10月22日に出願された欧州特許出願第19204516.9号の優先権を主張するものであり、これらの各出願は、その全体が参照により本明細書に組み込まれる。
本開示は、チャネル識別の分野に関し、特に、サラウンドサウンド・システムのためのチャネル識別のための方法、装置およびソフトウェアに関する。
マルチチャネル・オーディオ信号において、各ペアの左チャネルを右チャネルの前にリストするのが慣習的である。よって、常にそうであると想定することにより、本方法はより効率的となる。
適用段階は、マルチチャネル・オーディオ信号のチャネルの順序を変更すること;チャネルを識別された再生ソースにリダイレクトする、すなわち、左チャネルが左側のスピーカーによって出力されるようにすること;またはチャネル識別のための本方法の結果である識別されたレイアウトに適合するようにするための、マルチチャネル・オーディオ信号の任意の他の物理的および/またはデジタル操作を含んでいてもよい。
識別されたLFEチャネルは、メタデータを使用して格納されてもよい。
〔EEE1〕
X>1個のチャネルを含むマルチチャネル・オーディオ信号のチャネル識別のための方法であって、当該方法は:
X個のチャネルのうちで、空のチャネルがあればそれを識別し(110)、結果としてY≦X個の空でないチャネルのサブセットを与える段階と;
前記Y個のチャネルのうちに低域効果(LFE)チャネルが存在するかどうかを判定し(120)、LFEチャネルが存在すると判定したら、前記Y個のチャネルのうちの判別されたチャネルをLFEチャネルとして識別する段階と;
対称的なチャネルをマッチングさせることによって、前記Y個のチャネルのうちの、LFEチャネルとして識別されていない残りのチャネルを任意の数のチャネル・ペアに分割する段階と;
前記Y個のチャネルのうちの、LFEチャネルとして識別されたり、またはペアに分割されたりしていない残りの不対チャネルがあればそれを中央チャネルとして識別する(140)段階とを含む、
方法。
〔EEE2〕
前方ペア、側方ペア、後方ペア、および/または他の任意の位置ペアの間で、諸ペアに分割されたチャネルを区別する(150)段階をさらに含む、EEE1に記載の方法。
〔EEE3〕
チャネル・ペア区別段階は、ペアどうしの間のペア間レベル差(inter-pair level difference)を計算することを含み;ペア間レベル差は、各ペアのサブバンド音エネルギー(subband sound energy)の和のデシベル差に比例し、相対的に高いほうのレベルをもつペアが、前方ペアとして区別される、EEE2に記載の方法。
〔EEE4〕
チャネル・ペア区別段階は、ペア間レベル差の計算との関連で振幅パンをさらに含み、振幅パンは仮想音源を生成することを含む、EEE3に記載の方法。
〔EEE5〕
チャネル・ペア区別段階は、前記信号のサブバンド音エネルギーがエネルギー閾値を上回る、各ペアについての前記信号の一つまたは複数のセグメントを選択し;これらのセグメントのみを用いて前記ペアのペア間レベル差を計算することをさらに含む、EEE3または4に記載の方法。
〔EEE6〕
チャネル・ペア区別段階は、絶対的なペア間レベル差が絶対閾値を上回る、各ペアにおける前記信号の一つまたは複数のセグメントを選択し;これらのセグメントのみを用いて前記ペア間レベル差を計算することをさらに含む、EEE3ないし5のうちいずれか一項に記載の方法。
〔EEE7〕
相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合、チャネルのペア間レベル差を計算する段階は、より高い絶対閾値を用いて繰り返される、EEE6に記載の方法。
〔EEE8〕
相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合、識別された中央チャネルとの相対的に最も高い組み合わされた方向一貫性を有するペアが、前記前方ペアとして区別される、EEE3ないし7のうちいずれか一項に記載の方法。
〔EEE9〕
相対的に最も高い平均ペア間レベル差がレベル閾値を下回り、絶対閾値が最大閾値を上回る場合、識別された中央チャネルとの相対的に最も高い組み合わされた方向一貫性をもつペアが、前方ペアとして区別される、EEE7に記載の方法。
〔EEE10〕
前記絶対閾値の最大閾値は2dBである、EEE9に記載の方法。
〔EEE11〕
前記方向一貫性は、時間領域での2つのチャネルの類似性の指標であり、音像方向に関連し、音像方向は、前記チャネル間の位相差を含意する、EEE8~10のいずれか一項に記載の方法。
〔EEE12〕
前記レベル閾値は、2~3dBの間の定数である、EEE7~11のいずれか一項に記載の方法。
〔EEE13〕
位置ペア間の前記区別は、位置ペアの、前記識別された中央チャネルとの類似性に基づく、EEE2~12のうちいずれか一項に記載の方法。
〔EEE14〕
前記識別された中央チャネルに最も類似するペアが前記前方ペアとして区別され、前記識別された中央チャネルに最も類似しないペアが前記後方ペアとして区別される、EEE13に記載の方法。
〔EEE15〕
前記識別された中央チャネルとの類似性は、時間‐周波数特徴、空間的特徴、音像方向、前記チャネル間の位相差、および/またはペア間のレベル差に基づいている、EEE13または14に記載の方法。
〔EEE16〕
前記識別された中央チャネルとの類似性は、遅延パンを用いて計算され、前記中央チャネルとの最も高い方向一貫性を有するペアが、前記前方ペアとして区別される、EEE13~15のうちいずれか一項に記載の方法。
〔EEE17〕
前記識別された中央チャネルとの類似性が、前記チャネルの方向パターンを生成して、前記チャネル・ペアの、中央からペアへの距離を比較することによって計算され、中央チャネルにより近いペアが前記前方ペアとして区別される、EEE13~16のうちいずれか一項に記載の方法。
〔EEE18〕
前記区別をするために使用される特徴に依存して、異なる対が同一の位置ペアとして区別される場合、前記特徴は、階層に従って優先順位を付けられる、EEE2~17のうちいずれか一項に記載の方法。
〔EEE19〕
チャネルのペアの前記区別は、メタデータを用いて格納される、EEE2~18のうちいずれか一項に記載の方法。
〔EEE20〕
空チャネル識別段階は、前記X個のチャネルのうちの各チャネルにおける音エネルギーを測定する段階をさらに含む、EEE1ないし19のうちいずれか一項に記載の方法。
〔EEE21〕
前記X個のチャネルのうちの各チャネルにおける音エネルギーは、短期、中期および/または長期の持続時間において測定される、EEE20に記載の方法。
〔EEE22〕
チャネルは、その総音エネルギーがエネルギー閾値を下回る場合に、空として識別される、EEE20または21に記載の方法。
〔EEE23〕
チャネルは、そのサブバンド音エネルギーのそれぞれがエネルギー閾値を下回る場合に、空として識別される、EEE20~22のいずれか一項に記載の方法。
〔EEE24〕
前記音エネルギーは、時間的、スペクトル的、ウェーブレットおよび/または聴覚領域で測られる、EEE20~20のうちいずれか一項に記載の方法。
〔EEE25〕
空のチャネルの前記識別は、メタデータを用いて格納される、EEE1ないし25のうちいずれか一項に記載の方法。
〔EEE26〕
LFEチャネル決定段階は、前記Y個のチャネルのうちの各チャネルにおける測定された音エネルギーを使用して、LFEチャネルが存在するかどうかを決定する段階をさらに含む、EEE20~25のうちいずれか一項に記載の方法。
〔EEE27〕
LFEチャネル決定段階は、前記Y個のチャネルのうちの各チャネルにエネルギー閾値を上回る音エネルギーが存在する周波数帯域を測定する段階をさらに含む、EEE1~26のうちいずれか一項に記載の方法。
〔EEE28〕
前記Y個のチャネルのうちの各チャネルにエネルギー閾値を上回る音エネルギーが存在する前記周波数帯域が、短期、中期、および/または長期の持続時間において測定される、EEE27に記載の方法。
〔EEE29〕
あるチャネルの低周波数領域におけるサブバンド音エネルギーの和が、そのチャネルにおける他のすべての周波数領域におけるサブバンド音エネルギーの和よりも有意に大きい場合に、前記Y個のチャネルのうちにLFEチャネルが存在すると判定される、EEE26~28のうちいずれか一項に記載の方法。
〔EEE30〕
各周波数領域におけるサブバンド音エネルギーの和が、各周波数領域のサイズによってさらに正規化される、EEE29に記載の方法。
〔EEE31〕
そのような任意のチャネルが前記LFEチャネルとして識別される、EEE29または30に記載の方法。
〔EEE32〕
前記低周波数領域が、200Hz未満のサブバンドを含む、EEE29~31のうちいずれか一項に記載の方法。
〔EEE33〕
前記EEE26~32のうちいずれか一項に記載の方法であって、あるチャネルが周波数閾値未満の周波数領域においてのみ、エネルギー閾値を上回るサブバンド音エネルギーを含む場合に、前記Y個のチャネルのうちにLFEチャネルが存在すると判定される、方法。
〔EEE34〕
そのような任意のチャネルのみが前記LFEチャネルとして識別される、EEE33に記載の方法。
〔EEE35〕
周波数閾値が200Hz以上である、EEE33または34に記載の方法。
〔EEE36〕
前記Y個のチャネルのうちに複数のLFEチャネルが存在すると判定された場合、LFEチャネルが存在するかどうかを判定するために使用される前記特徴(単数または複数)の階層に従って、1つのみが前記LFEチャネルとして識別される、EEE26~35のうちいずれか一項に記載の方法。
〔EEE37〕
前記LFEチャネルの識別がメタデータを用いて格納される、EEE1~37のいずれか一項に記載の方法。
〔EEE38〕
前記チャネル・ペア分割段階における対称的なチャネルの前記マッチングは、各チャネルのオーディオ信号の間の音エネルギー分布および分散を計算するために、時間的特徴、スペクトル特徴、聴覚特徴および/または他のドメイン〔領域〕における特徴を比較して、最も対称的なチャネルどうしをペアとしてマッチングすることをさらに含む、EEE1~38のうちいずれか一項に記載の方法。
〔EEE39〕
EEE38に記載の方法であって、前記チャネル・ペア分割段階における対称的なチャネルの前記マッチングは、さらに、各チャネルの短期、中期および/または長期の持続時間における音エネルギー分布および分散を用いて、前記チャネル間のチャネル間スペクトル距離を計算する段階であって、前記チャネル間スペクトル距離は、複数のサブバンドについて合計された、各チャネルにおける2つのマッチングする音エネルギー・サブバンド間の距離の正規化されたペア毎の指標である、段階と;最も短い距離を有する前記チャネルどうしをペアとしてマッチングする段階とを含む、方法。
〔EEE40〕
使用される距離測度は、ユークリッド距離、マンハッタン距離および/またはミンコフスキー距離である、EEE39に記載の方法。
〔EEE41〕
計算されたチャネル間スペクトル距離の時間にわたる平均が計算され、互いまでの最短の平均距離を有するチャネルどうしをペアとしてマッチングさせるために使用される、EEE38または40に記載の方法。
〔EEE42〕
EEE39~41のうちいずれか一項に記載の方法であって、前記中央チャネル識別段階は、前記Y個のチャネルのうちLFEチャネルとして識別されていない、またはペアに分割されていない残りの任意の不対チャネルの計算されたチャネル間スペクトル距離を解析して、前記中央チャネルを識別する段階をさらに含む、方法。
〔EEE43〕
前記チャネル・ペア分割段階における対称的なチャネルの前記マッチングは、各チャネルの音エネルギー分布の相関を比較して、最も相関しているチャネルどうしをペアとしてマッチングすることをさらに含む、EEE1ないし42のうちいずれか一項に記載の方法。
〔EEE44〕
使用される相関指標は、余弦類似性、ピアソン相関係数、および/または相関行列である、EEE43に記載の方法。
〔EEE45〕
前記チャネル・ペア分割段階は、前記Y個のチャネルのうちLFEチャネルとして識別されていない各チャネルについて、前記チャネルをペアとしてマッチングする前記の諸計算のために使用される少なくとも1つのパラメータを、測定する、またはもしあれば前の測定からインポートすることをさらに含む、EEE38~44のうちいずれか一項に記載の方法。
〔EEE46〕
EEE38~45のうちいずれか一項に記載の方法であって、前記チャネル・ペアが、ペアをマッチングするために使用される特徴(単数または複数)に応じて異なる仕方でマッチングされる場合、使用される特徴の階層が、どのペアリングを適用するかを決定する、方法。
〔EEE47〕
前記チャネル・ペア分割段階は、2つより少ないチャネルが残るまで、前記Y個のチャネルのうちLFEチャネルとして識別されていない対になっていない任意のチャネルをペアリングし続ける、先のEEE1~46のうちいずれか一項に記載の方法。
〔EEE48〕
前記チャネル・ペア分割段階は、各ペア内の前記マルチチャネル・オーディオ信号の最初の受領されたチャネルを前記左チャネルとして割り当て、各ペア内の最後にリストされるチャネルを前記右チャネルとして割り当てることをさらに含む、EEE1ないし47のうちいずれか一項に記載の方法。
〔EEE49〕
チャネルのペアへの前記分割および/またはもしあれば左右のチャネルの前記割り当てがメタデータを用いて格納される、EEE1ないし48のうちいずれか一項に記載の方法。
〔EEE50〕
前記中央チャネル識別段階は、前記YチャネルのうちのLFEチャネルとして識別されていない、またはペアに分割されていない残りの不対チャネルの独立性および/または非相関性を、前記Y個のチャネルのうちの他のチャネルと比較して計算する段階と、前記中央チャネルを、最も独立なおよび/または非相関なチャネルとして識別する段階とをさらに含む、EEE1ないし49のうちいずれか一項に記載の方法。
〔EEE51〕
前記Y個のチャネルのうちLFEチャネルとして識別されていない、またはペアに分割されていない任意の残りの不対チャネルの前記独立性および/または非相関性の前記計算は、ペアに分割されたチャネルと比較してのみ計算される、EEE50に記載の方法。
〔EEE52〕
前記中央チャネル識別段階は、前記チャネル・ペア区別段階の後に行われ、前記Y個のチャネルのうちLFEチャネルとして識別されていない、またはペアに分割されていない任意の残りの不対チャネルの独立性および/または非相関性の前記計算は、前記前方ペアとして区別されたチャネルと比較してのみ計算される、EEE2~19のうちの少なくとも1つに従属するEEE50または51に記載の方法。
〔EEE53〕
前記中央チャネルの前記識別はメタデータを用いて格納される、EEE1ないし52のうちいずれか一項に記載の方法。
〔EEE54〕
当該方法の段階のいずれかの結果についての信頼スコアを計算する段階をさらに含み、前記信頼スコアは、その結果がどのくらい信頼できるかの指標である、EEE1ないし53のうちいずれか一項に記載の方法。
〔EEE55〕
前記マルチチャネル・オーディオ信号の前記持続時間がある持続時間閾値を下回る場合、前記信頼スコアは1未満の重み因子を乗算され、それにより、前記持続時間閾値を下回る持続時間は、より信頼性の低い結果につながる、EEE54に記載の方法。
〔EEE56〕
前記重み因子は、前記持続時間を前記持続時間閾値で割ったものに比例し、その結果、相対的に長い持続時間が、より信頼性の高い結果につながる、EEE55に記載の方法。
〔EEE57〕
EEE55または56に記載の方法であって、前記持続時間が前記持続時間閾値よりも長い場合、前記重み因子は、適用されないか、または1に等しい、方法。
〔EEE58〕
前記持続時間の閾値は、5~30分の間の定数である、EEE55~57のいずれか一項に記載の方法。
〔EEE59〕
EEE54~58のうちいずれか一項に記載の方法であって、前記空チャネル識別段階についての前記信頼スコアは、識別された空のチャネルの音エネルギーに比例し、相対的により低い音エネルギーは、より信頼性の高い結果につながる、方法。
〔EEE60〕
EEE54~59のうちいずれか一項に記載の方法であって、前記LFEチャネル決定段階についての信頼スコアは、前記決定されたLFEチャネルの、前記低周波数領域における前記サブバンド音エネルギーと、他のすべての周波数領域における前記サブバンド音エネルギーとの差に比例し、相対的により大きな差が、より信頼性の高い結果につながる、方法。
〔EEE61〕
前記サブバンド音エネルギーの差は、前記異なる周波数領域における前記サブバンド音エネルギーの和を比較することによって計算される、EEE60に記載の方法。
〔EEE62〕
前記低周波数領域は、200Hz未満の任意のサブバンドを含む、EEE60または61に記載の方法。
〔EEE63〕
前記LFEチャネル決定段階についての前記信頼スコアは、周波数閾値よりも高い周波数領域における前記決定されたLFEチャネルのサブバンド音エネルギーの和に比例し、その結果、相対的に低い和が、より信頼性の高い結果につながる、EEE54~62のうちいずれか一項に記載の方法。
〔EEE64〕
前記周波数閾値が200Hz以上である、EEE63に記載の方法。
〔EEE65〕
EEE54~64のうちいずれか一項に記載の方法であって、前記LFEチャネル決定段階についての前記信頼スコアは、前記決定されたLFEチャネルに存在する最も高い周波数信号に比例し、その結果、相対的により低い最も高い周波数信号が、より信頼性の高い結果につながる、方法。
〔EEE66〕
EEE54~65のうちいずれか一項に記載の方法であって、前記チャネル・ペア分割段階についての前記信頼スコアは、前記マッチングされたペア(単数または複数)の対称性指標に比例し、その結果、相対的に高い対称性指標が、より信頼性の高い結果につながる、方法。
〔EEE67〕
EEE54~66のうちいずれか一項に記載の方法であって、前記チャネル・ペア分割段階についての前記信頼スコアは、前記マッチングされたペア(単数または複数)の間の計算されたチャネル間スペクトル距離に比例し、その結果、相対的により短い距離が、より信頼性の高い結果につながる、方法。
〔EEE68〕
EEE54~67のうちいずれか一項に記載の方法であって、前記チャネル・ペア分割段階についての前記信頼スコアは、前記マッチングされるペア(単数または複数)内の各チャネルと、前記Y個のチャネルのうち前記LFEチャネルとして識別されていない、または前記マッチングされたチャネルでない他のチャネルとの間の計算されたチャネル間スペクトル距離に比例し、相対的に長い距離が、より信頼性の高い結果につながる、方法。
〔EEE69〕
EEE66~68のいずれか一項に記載の方法であって、前記チャネル・ペア分割段階の少なくとも一部は、該段階についての前記信頼スコアが信頼閾値を下回る場合、チャネル間スペクトル距離を計算する際に、異なるサブバンド分割を用いて再実行される、方法。
〔EEE70〕
EEE54~69のうちいずれか一項に記載の方法であって、前記中央チャネル識別段階についての前記信頼スコアは、前記Y個のチャネルのうちLFEチャネルとして識別されていないチャネルと比較した、識別された前記中央チャネルの独立性および/または非相関性に比例し、その結果、相対的に高い独立性および/または非相関性が、より信頼性の高い結果につながる、方法。
〔EEE71〕
EEE54~70のうちいずれか一項に記載の方法であって、前記中央チャネル識別段階についての前記信頼スコアは、前記識別された中央チャネルと、前記Y個のチャネルのうちLFEチャネルとして識別されない他のチャネルとの間の計算されたチャネル間スペクトル距離に比例し、相対的に対称的な距離が、より信頼性の高い結果につながる、方法。
〔EEE72〕
前記中央チャネル識別段階についての前記信頼スコアは、前記チャネル・ペア分割段階が存在する場合、前記チャネル・ペア分割段階の前記信頼スコアに直接比例する、EEE54~71のうちいずれか一項に記載の方法。
〔EEE73〕
EEE2~19のうちの少なくとも1つに従属するEEE54~72のうちのいずれか一項に記載の方法であって、前記チャネル・ペア区別段階の結果について信頼スコアが計算される、方法。
〔EEE74〕
EEE73に記載の方法であって、前記チャネル・ペア区別段階についての前記信頼スコアは、前記識別された中央チャネルと、前記Y個のチャネルのうちLFEチャネルとして識別されていないペアリングされたチャネルとの間の計算されたチャネル間スペクトル距離に比例し、前記前方ペアと前記中央チャネルとの間の相対的に小さなチャネル間スペクトル距離が、より信頼性の高い結果につながる、方法。
〔EEE75〕
EEE73または74に記載の方法であって、前記チャネル・ペア区別段階についての前記信頼スコアは、分割されたペアの前記チャネルの前記方向性に比例し、前記方向性の間の相対的に大きな差が、より信頼性の高い結果につながる、方法。
〔EEE76〕
EEE73~75のうちいずれか一項に記載の方法であって、前記チャネル・ペア区別段階についての前記信頼スコアは、識別された前記中央チャネルおよび分割されたペアのチャネルの方向性に比例し、前記中央チャネルと前記ペアのうちの1つとの方向性の相対的に小さな差が、より信頼性の高い結果につながる、方法。
〔EEE77〕
EEE73~76のうちいずれか一項に記載の方法であって、前記チャネル・ペア区別段階についての前記信頼スコアは、前記チャネル・ペアの前記計算されたペア間レベル差に比例し、相対的に高い平均レベル差が、より信頼性の高い結果につながる、方法。
〔EEE78〕
前記チャネル・ペア区別段階についての前記信頼スコアは、前記チャネル・ペア分割段階および/または前記中央チャネル識別段階の信頼スコアが存在する場合、それらの信頼スコアに直接比例する、EEE73~77のうちいずれか一項に記載の方法。
〔EEE79〕
少なくともEEE4または5に従属するEEE73~78のいずれか一項に記載の方法であって、前記チャネル・ペア区別段階についての信頼スコアは、前記信号の前記選択された一つまたは複数のセグメントの長さに比例し、相対的に長い一つまたは複数のセグメントが、より信頼性の高い結果につながる、方法。
〔EEE80〕
前記チャネル・ペア区別段階の少なくとも一部は、該段階についての信頼スコアが信頼閾値を下回る場合、異なるデータ・セグメントで再実行される、EEE73~70のいずれか一項に記載の方法。
〔EEE81〕
EEE54~80のいずれかに記載の方法であって、当該方法のある段階についての前記信頼スコアのための複数の計算オプションが利用可能である場合、それらは階層で適用される、方法。
〔EEE82〕
前記信頼スコアはメタデータを用いて格納される、EEE54~81のうちいずれか一項に記載の方法。
〔EEE83〕
前記計算された信頼スコアがディスプレイ(60)上に表示される表示段階(160)をさらに含む、EEE54~82のうちいずれか一項に記載の方法。
〔EEE84〕
前記表示段階は、計算された信頼スコアが信頼閾値を下回る場合に警告を表示する段階をさらに含む、EEE83に記載の方法。
〔EEE85〕
識別されたチャネル・レイアウトが表示される表示段階をさらに含む、EEE1ないし84のうちいずれか一項に記載の方法。
〔EEE86〕
前記表示段階は、ボタンまたはタッチスクリーンのようなユーザー・インターフェースを使用するユーザー入力を待つことをさらに含む、EEE83~85のいずれか一項に記載の方法。
〔EEE87〕
EEE85および86に記載の方法であって、前記識別されたチャネル・レイアウトは、前記マルチチャネル・オーディオ信号に適用される前に、ユーザーによって承認される、方法。
〔EEE88〕
ユーザーは、ユーザーの設定レイアウトと同一である識別されたチャネル・レイアウトを承認するよう促されない、EEE87に記載の方法。
〔EEE89〕
前記表示段階は、前記識別されたチャネル・レイアウトがユーザーの設定レイアウトと異なる場合、警告を表示する段階をさらに含む、EEE83~88のいずれか一項に記載の方法。
〔EEE90〕
EEE54~82のうちいずれか一項に従属するEEE89に記載の方法であって、前記警告レベルは、算出された信頼スコア(単数または複数)に比例する。
〔EEE91〕
EEE83~90のうちいずれか一項に記載の方法であって、前記表示段階は、ユーザーが前記表示されたデータを操作することを許容することをさらに含む、方法。
〔EEE92〕
前記操作されたデータが、当該方法の前記チャネル識別の諸段階において使用される、EEE91に記載の方法。
〔EEE93〕
前記表示段階は、ユーザーが前記信号の、無視すべき少なくとも1つのセグメントを選択することを許容することをさらに含む、EEE83~92のうちいずれか一項に記載の方法。
〔EEE94〕
前記識別されたチャネル・レイアウトを前記マルチチャネル・オーディオ信号に適用する段階(170)をさらに含む、EEE1ないし93のうちいずれか一項に記載の方法。
〔EEE95〕
EEE54~82のうちいずれか一項に従属するEEE94に記載の方法であって、前記識別されたチャネル・レイアウトは、計算された信頼スコア(単数または複数)が信頼閾値を超える場合にのみ適用される、方法。
〔EEE96〕
EEE94または95に記載の方法であって、前記適用する段階は、前記識別されたチャネル・レイアウトを前記マルチチャネル・オーディオ信号に適用するために、任意の存在するメタデータを使用することを含む、方法。
〔EEE97〕
当該方法によって識別される前記チャネル・レイアウトは、スピーカー・システムにストリーミングされる際に、前記マルチチャネル・オーディオ信号にリアルタイムで適用される、EEE1~96のうちいずれか一項に記載の方法。
〔EEE98〕
前記マルチチャネル・オーディオ信号は、コンテンツ作成、解析、変換および再生システムのためのマルチチャネル・サラウンドサウンド・ファイルまたはストリームである、EEE1~97のうちいずれか一項に記載の方法。
〔EEE99〕
前記方法の少なくとも1つの段階は、機械学習に基づく方法を使用する、EEE1~98のうちいずれか一項に記載の方法。
〔EEE100〕
前記機械学習に基づく方法が、ディシジョンツリー、アダブースト〔Adaboost〕、GMM、SVM、HMM、DNN、CNNおよび/またはRNNである、EEE99に記載の方法。
〔EEE101〕
マルチチャネル・オーディオ信号のチャネルを識別するように構成された装置であって、当該装置(1)は、請求項1ないし100のうちいずれか一項に記載の方法(100)を実行するように構成された回路を備える、装置。
〔EEE102〕
処理能力を有する装置(1)によって実行されたときに、EEE1ないし100のうちいずれか一項に記載の方法を実行するように適応された命令を有する、非一時的なコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム・プロダクト。
Claims (16)
- X>1個のチャネルを含むマルチチャネル・オーディオ信号のチャネル識別のための方法であって、当該方法は:
前記X個のチャネルのうちで、空のチャネルがあればそれを識別し(110)、結果としてY≦X個の空でないチャネルのサブセットを与える段階と;
前記Y個のチャネルのうちに低域効果(LFE)チャネルが存在するかどうかを判定し(120)、LFEチャネルが存在すると判定したら、前記Y個のチャネルのうちの判別されたチャネルをLFEチャネルとして識別する段階と;
対称的なチャネルをマッチングさせることによって、前記Y個のチャネルのうちの、LFEチャネルとして識別されていない残りのチャネルを任意の数のチャネル・ペアに分割する(130)段階と;
前記Y個のチャネルのうちの、LFEチャネルとして識別されたり、またはペアに分割されたりしていない残りの不対チャネルがあればそれを中央チャネルとして識別する(140)段階とを含む、
方法。 - 諸ペアに分割された前記チャネルを、前方ペア、側方ペア、後方ペア、および/または他の任意の位置ペアの間で区別する(150)段階をさらに含み、チャネル・ペア区別段階は、2つのペアごとの間のペア間レベル差を計算することを含み;前記ペア間レベル差は、各ペアのサブバンド音エネルギーの和のデシベル差に比例し、相対的に最も高いレベルをもつペアが、前方ペアとして区別される、請求項1に記載の方法。
- 前記チャネル・ペア区別段階は、絶対的なペア間レベル差が絶対閾値を上回る、各ペアの各チャネルについての前記信号の一つまたは複数のセグメントを選択し;それらのセグメントのみを用いてチャネルのペア間レベル差を計算することをさらに含む、
請求項2に記載の方法。 - 相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合、チャネルのペア間レベル差を計算する段階は、より高い絶対閾値を用いて繰り返される、請求項3に記載の方法。
- 前記相対的に最も高い平均ペア間レベル差がレベル閾値を下回り、前記絶対閾値が最大閾値を上回る場合、相対的に最も高い方向一貫性をもつペアが、前方ペアとして区別され、ここで、前記方向一貫性は、時間領域における2つのチャネルの類似性の指標であり、これは音像方向に関係し、該音像方向はチャネル間の位相差を含意する、請求項3または4に記載の方法。
- 空チャネル識別段階は、前記X個のチャネルのうちの各チャネルにおける音エネルギーを測ることをさらに含み、チャネルの全音エネルギーがエネルギー閾値未満である場合、そのチャネルは空として識別される、請求項1ないし5のうちいずれか一項に記載の方法。
- 200Hz未満の任意のサブバンドであるチャネルの低周波数領域におけるサブバンド音エネルギーの和が、そのチャネルにおける他のすべての周波数領域におけるサブバンド音エネルギーの和よりも著しく大きい場合に、Y個のチャネルのうちにLFEチャネルが存在すると判定される、請求項1ないし6のうちいずれか一項に記載の方法。
- チャネル・ペア分割段階における対称的なチャネルのマッチングは、各チャネルの計算された音エネルギー分布および分散を用いてチャネル間のチャネル間スペクトル距離を計算する段階であって、前記チャネル間スペクトル距離は、複数のサブバンドについて合計された、各チャネルにおける2つのマッチングする音エネルギー・サブバンド間の距離の正規化されたペア毎の指標である、段階と;最も短い距離をもつチャネルどうしをペアとしてマッチングする段階とをさらに含む、請求項1ないし7のうちいずれか一項に記載の方法。
- チャネル・ペア分割段階は、LFEチャネルとして識別されていない前記Y個のチャネルのうちの対になっていないチャネルがあればそれをペアリングすることを、2つ未満のチャネルが残るまで、続ける、請求項1ないし8のうちいずれか一項に記載の方法。
- 当該方法の諸段階の結果のいずれかについて信頼スコアを計算する段階をさらに含み、前記信頼スコアは、その結果がどれくらい信頼できるかの指標であり、前記マルチチャネル・オーディオ信号の持続時間がある持続時間閾値を下回る場合、前記信頼スコアは1未満の重み因子を乗算され、それにより、前記持続時間閾値を下回る持続時間は、より信頼性の低い結果につながる、請求項1ないし9のうちいずれか一項に記載の方法。
- 計算された信頼スコアがディスプレイ上に表示される表示段階をさらに含み、計算された信頼スコアが信頼閾値を下回る場合、および/または識別されたチャネル・レイアウトがユーザーの設定レイアウトと異なる場合、警告が表示される、請求項10に記載の方法。
- 識別されたチャネル・レイアウトを前記マルチチャネル・オーディオ信号に適用する段階をさらに含む、請求項1ないし11のうちいずれか一項に記載の方法。
- 当該方法によって識別されたチャネル・レイアウトは、前記マルチチャネル・オーディオ信号がスピーカー・システムにストリーミングされる際に、前記マルチチャネル・オーディオ信号にリアルタイムで適用される、請求項1ないし12のうちいずれか一項に記載の方法。
- 当該方法の段階のうちの少なくとも1つは、機械学習に基づく方法を使用し、前記機械学習に基づく方法は、ディシジョンツリー、アダブースト、GMM、SVM、HMM、DNN、CNN、および/またはRNNである、請求項1ないし13のうちいずれか一項に記載の方法。
- マルチチャネル・オーディオ信号のチャネルを識別するように構成された装置であって、当該装置は、請求項1ないし14のうちいずれか一項に記載の方法を実行するように構成された回路を有する、装置。
- 処理能力を有する装置によって実行されたときに、請求項1ないし14のうちいずれか一項に記載の方法を実行するように適応された命令を有する非一時的なコンピュータ読み取り可能記憶媒体を有するコンピュータ・プログラム・プロダクト。
Applications Claiming Priority (7)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CNPCT/CN2019/103813 | 2019-08-30 | ||
| CN2019103813 | 2019-08-30 | ||
| US201962912279P | 2019-10-08 | 2019-10-08 | |
| US62/912,279 | 2019-10-08 | ||
| EP19204516.9 | 2019-10-22 | ||
| EP19204516 | 2019-10-22 | ||
| PCT/US2020/048128 WO2021041623A1 (en) | 2019-08-30 | 2020-08-27 | Channel identification of multi-channel audio signals |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2022545709A JP2022545709A (ja) | 2022-10-28 |
| JPWO2021041623A5 JPWO2021041623A5 (ja) | 2023-09-05 |
| JP7581333B2 true JP7581333B2 (ja) | 2024-11-12 |
Family
ID=72381169
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022512847A Active JP7581333B2 (ja) | 2019-08-30 | 2020-08-27 | マルチチャネル・オーディオ信号のチャネル識別 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US12165657B2 (ja) |
| EP (1) | EP4022606A1 (ja) |
| JP (1) | JP7581333B2 (ja) |
| CN (1) | CN114303392B (ja) |
| WO (1) | WO2021041623A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20230049238A (ko) * | 2021-10-06 | 2023-04-13 | 삼성전자주식회사 | 마이크 어레이의 이상 채널 검출 및 보상 신호 생성 방법 및 장치 |
| KR20230090909A (ko) * | 2021-12-15 | 2023-06-22 | 삼성전자주식회사 | 디스플레이 장치 및 그 제어 방법 |
| US12477292B2 (en) * | 2022-12-13 | 2025-11-18 | Nbcuniversal Media, Llc | Systems and methods for determining audio channels in audio data |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011066868A (ja) | 2009-08-18 | 2011-03-31 | Victor Co Of Japan Ltd | オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置 |
| JP2014522155A (ja) | 2011-07-01 | 2014-08-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 適応的オーディオ信号生成、コーディング、及びレンダリングのためのシステムと方法 |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1427252A1 (en) | 2002-12-02 | 2004-06-09 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for processing audio signals from a bitstream |
| KR100745688B1 (ko) | 2004-07-09 | 2007-08-03 | 한국전자통신연구원 | 다채널 오디오 신호 부호화/복호화 방법 및 장치 |
| US7983922B2 (en) | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
| US20080114478A1 (en) | 2006-11-09 | 2008-05-15 | David Wu | Method and System for Multi-Channel PCM Audio Grouping in Hardware |
| US8000485B2 (en) | 2009-06-01 | 2011-08-16 | Dts, Inc. | Virtual audio processing for loudspeaker or headphone playback |
| US8842842B2 (en) * | 2011-02-01 | 2014-09-23 | Apple Inc. | Detection of audio channel configuration |
| EP2845191B1 (en) * | 2012-05-04 | 2019-03-13 | Xmos Inc. | Systems and methods for source signal separation |
| US9502044B2 (en) * | 2013-05-29 | 2016-11-22 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
| TWM487509U (zh) * | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
| EP2830332A3 (en) | 2013-07-22 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration |
| EP2866227A1 (en) * | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
| EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
| KR102160254B1 (ko) | 2014-01-10 | 2020-09-25 | 삼성전자주식회사 | 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치 |
| RU2648632C2 (ru) | 2014-01-13 | 2018-03-26 | Нокиа Текнолоджиз Ой | Классификатор многоканального звукового сигнала |
| CN105657633A (zh) | 2014-09-04 | 2016-06-08 | 杜比实验室特许公司 | 生成针对音频对象的元数据 |
| CN105898667A (zh) | 2014-12-22 | 2016-08-24 | 杜比实验室特许公司 | 从音频内容基于投影提取音频对象 |
| US9578418B2 (en) | 2015-01-21 | 2017-02-21 | Qualcomm Incorporated | System and method for controlling output of multiple audio output devices |
| EP3220668A1 (en) | 2016-03-15 | 2017-09-20 | Thomson Licensing | Method for configuring an audio rendering and/or acquiring device, and corresponding audio rendering and/or acquiring device, system, computer readable program product and computer readable storage medium |
| GB2563606A (en) | 2017-06-20 | 2018-12-26 | Nokia Technologies Oy | Spatial audio processing |
| CN107170465B (zh) | 2017-06-29 | 2020-07-14 | 数据堂(北京)科技股份有限公司 | 一种音频质量检测方法及音频质量检测系统 |
-
2020
- 2020-08-27 WO PCT/US2020/048128 patent/WO2021041623A1/en not_active Ceased
- 2020-08-27 EP EP20767937.4A patent/EP4022606A1/en active Pending
- 2020-08-27 CN CN202080060506.5A patent/CN114303392B/zh active Active
- 2020-08-27 US US17/639,286 patent/US12165657B2/en active Active
- 2020-08-27 JP JP2022512847A patent/JP7581333B2/ja active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011066868A (ja) | 2009-08-18 | 2011-03-31 | Victor Co Of Japan Ltd | オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置 |
| JP2014522155A (ja) | 2011-07-01 | 2014-08-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 適応的オーディオ信号生成、コーディング、及びレンダリングのためのシステムと方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2021041623A1 (en) | 2021-03-04 |
| EP4022606A1 (en) | 2022-07-06 |
| CN114303392B (zh) | 2024-12-31 |
| US20220319526A1 (en) | 2022-10-06 |
| CN114303392A (zh) | 2022-04-08 |
| JP2022545709A (ja) | 2022-10-28 |
| US12165657B2 (en) | 2024-12-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7581333B2 (ja) | マルチチャネル・オーディオ信号のチャネル識別 | |
| RU2705427C1 (ru) | Способ кодирования многоканального сигнала и кодировщик | |
| US8842842B2 (en) | Detection of audio channel configuration | |
| US8825188B2 (en) | Methods and systems for identifying content types | |
| KR102340151B1 (ko) | 신호 품질-기반 압축 오디오 신호 향상 및 보상 | |
| EP2355097B1 (en) | Signal separation system and method | |
| KR102212225B1 (ko) | 오디오 보정 장치 및 이의 오디오 보정 방법 | |
| JP7631273B2 (ja) | 方向性音量マップベースのオーディオ処理 | |
| US20150243289A1 (en) | Multi-Channel Audio Content Analysis Based Upmix Detection | |
| US20080249769A1 (en) | Method and Apparatus for Determining Audio Spatial Quality | |
| US20140350923A1 (en) | Method and device for detecting noise bursts in speech signals | |
| US11682405B2 (en) | Method and system for triggering events | |
| US12170090B2 (en) | Electronic device, method and computer program | |
| Josupeit et al. | Modeling of speech localization in a multi-talker mixture using periodicity and energy-based auditory features | |
| US9445210B1 (en) | Waveform display control of visual characteristics | |
| Lopatka et al. | Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks | |
| Schimmel et al. | Sound segregation based on temporal envelope structure and binaural cues | |
| Lopatka et al. | Novel 5.1 downmix algorithm with improved dialogue intelligibility | |
| KR101760189B1 (ko) | 신호 처리 방법 및 신호 처리 장치 | |
| EP4252349B1 (en) | Automatic generation and selection of target profiles for dynamic equalization of audio content | |
| George | Objective models for predicting selected multichannel audio quality attributes | |
| US20240013799A1 (en) | Adaptive noise estimation | |
| Lorkiewicz et al. | Algorithm for real-time comparison of audio streams for broadcast supervision | |
| CN118974824A (zh) | 经由多对处理进行多声道和多流源分离 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230824 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230824 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241001 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241030 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7581333 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
