JP6641027B2 - チャネル間時間差パラメータの安定性を増加させるための方法および装置 - Google Patents
チャネル間時間差パラメータの安定性を増加させるための方法および装置 Download PDFInfo
- Publication number
- JP6641027B2 JP6641027B2 JP2018546695A JP2018546695A JP6641027B2 JP 6641027 B2 JP6641027 B2 JP 6641027B2 JP 2018546695 A JP2018546695 A JP 2018546695A JP 2018546695 A JP2018546695 A JP 2018546695A JP 6641027 B2 JP6641027 B2 JP 6641027B2
- Authority
- JP
- Japan
- Prior art keywords
- ictd
- estimate
- icc
- valid
- est
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 45
- 206010019133 Hangover Diseases 0.000 claims description 67
- 238000005314 correlation function Methods 0.000 claims description 14
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000007774 longterm Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000013707 sensory perception of sound Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
rxy[n,τ]=E[x[n]y[n+τ]]、 (1)
ここで、τはタイムラグパラメータであり、E[・]は期待値演算子である。長さNの信号フレームの場合、相互相関は、典型的に次のように推定される。
rxy[τ]=DFT−1(X[k]Y*[k]) (4)
ここで、X[k]は時間領域信号x[n]の離散フーリエ変換(DFT)、すなわち、
であり、DFT−1(・)またはIDFT(・)は逆離散フーリエ変換を表示する。Y*[k]はy(n)のDFTの複素共役である。
ここで、*は畳み込みを表示し、δ(τ−τ0)はクロネッカーデルタ関数であり、すなわち、τ0において1に等しく、他の場合、0に等しい。これは、xとyとの間の相互相関関数が、x[n]についての自己相関関数との畳み込みによって拡散されたデルタ関数であることを意味する。
rxy[τ]=rxx[τ]*Σiδ(τ−τi) (7)
ここで、ψ[k]は周波数重み付けである。とりわけ、空間オーディオの場合、位相変換(PHAT:phase transform)が、低雑音環境における反響のためのそれのロバストネスにより利用されている。
位相変換は、基本的に各周波数係数の絶対値であり、すなわち
が使用される。
またはrxy[τ,m]に基づいて、相互相関関数の相対ピーク振幅をしきい値ICCthres(m)と比較することによって行われ得る。
Valid(ICTDest(m))=ICC(m)>ICCthres(m) (15)
ここで、sort()は入力ベクトルを昇順でソートする関数である。
ここで、定数NHOmax、cおよびdは、たとえば、
に設定され得、
は、最も近い整数に切り詰める/切り捨てる床関数を表示する。max()関数およびmin()関数は両方とも、2つの引数をとり、それぞれ、最大引数および最小引数を返す。この関数の例示が、図5において参照され得る。図5は、信頼できるICTDが抽出され得ないときのフレームのためにサンプリングされる、ローパスフィルタ処理されたチャネル間相関ICCLP(m)を前提とする、ハングオーバフレームNHOの数を決定する、マッピング関数NHO=g(ICCLP(m))を例示する。図5に例示されているように、これは、ICCLP(m)<bの場合、NHOmax=6のハングオーバフレームを割り当て、ICCLP(m)>aの場合、0個のハングオーバフレームを割り当てる、線形減少関数である。b<ICCLP(m)<aの場合、ICCLP(m)を減少させるために増加する数のフレームを用いてハングオーバが適用される。点線は、床/切り捨て演算なしの関数を表す。aのための好適な値はa=0.6であると見られたが、たとえば、範囲[0.5,1)が考慮され得る。対応して、bの場合、好適な値はb=0.3であると見られたが、範囲(0,a)が考慮され得る。
から、それぞれ、ICTD推定器802、ICC推定器804およびICTD検証機806によって生成される。ただし、ICTD推定から分離されたICC測度を有することの利益があり得る。さらに、説明された方法は、ICTDパラメータが有効である(すなわち信頼できる)かどうかを判定する一定の方法を暗示せず、パラメータの有効性についての2値(はい/いいえ)判定を示す任意の測度を用いて実装され得る。さらに図8では、ICC推定値は、好ましくはICCのピークに追従するように調整された、ICCの長期推定値を形成するように、ICCフィルタ805によってフィルタ処理される。ICTDカウンタ807は、連続する有効なICTD推定値の数ICTD_count、ならびにハングオーバ状態におけるハングオーバフレームの数NHOを追跡する。ICTDメモリ803は、ヒステリシスユニットから最後に出力されたICTD判定を思い出す。最終的に、ICTDセレクタ809は、入力ICCLP(m)、ICTD_countおよびNHOをとり、ICTDest(m)、ICTD(m−1)または0のいずれかをICTDパラメータICTD(m)として選択する。
オーディオフレームmについてのICTD推定値(ICTDest(m))を取得することと、取得されたICTD推定値(ICTDest(m))が有効であるかどうかを決定することと、前記ICTD推定値の安定性推定値を取得することと。ICTDest(m)が有効と見られず、決定された十分な数の有効なICTD推定値が先行フレームにおいて見つかった場合、安定性推定値を使用してハングオーバ時間を決定することと、ハングオーバ時間中に、前に取得された有効なICTDパラメータ(ICTD(m−1))を、出力パラメータ(ICTD(m))として選択することと、有効なICTDest(m)がハングオーバ時間中に見つからない場合、出力パラメータ(ICTD(m))を0に設定することと。
ICC チャネル間相関
IC 両耳間コヒーレンス、同じく、IACC 両耳間相互相関のための
ICTD チャネル間時間差
ITD 両耳間時間差
ICLD チャネル間レベル差
ILD 両耳間レベル差
ICPD チャネル間位相差
IPD 両耳間位相差
Claims (15)
- パラメトリックオーディオコーディングにおけるチャネル間時間差(ICTD)パラメータの安定性を増加させるための方法であって、前記方法は、
少なくとも2つのチャネルを備えるマルチチャネルオーディオ入力信号を受信することと、
オーディオフレームmについてのICTD推定値(ICTDest(m))を取得すること(405)と、
前記取得されたICTD推定値(ICTDest(m))が有効であるかどうかを決定すること(407)と、
前記ICTD推定値の安定性推定値を取得することと、
前記ICTDest(m)が有効と見られず(411)、決定された十分な数の有効なICTD推定値が先行フレームにおいて見つかった(431)場合、前記安定性推定値を使用してハングオーバ時間を決定すること(433)と、
前記ハングオーバ時間中に、前に取得された有効なICTDパラメータ(ICTD(m−1))を、出力パラメータ(ICTD(m))として選択すること(437)と、
有効なICTDest(m)が前記ハングオーバ時間中に見つからない場合、前記出力パラメータ(ICTD(m))を0に設定すること(439)と
を備える、方法。 - 前記安定性推定値が、オーディオフレームmについてのチャネルペア間のチャネル間相関(ICC)測度である、請求項1に記載の方法。
- 前記安定性推定値が、ローパスフィルタ処理されたチャネル間相関(ICCLP(m))である、請求項2に記載の方法。
- 前記安定性推定値が、前記ICC測度(ICC(m))を平均化することによって計算される、請求項2に記載の方法。
- ICCLP(m)を減少させるために増加する数のフレームを用いてハングオーバが適用される、請求項3に記載の方法。
- 位相変換を用いた一般化相互相関が、前記フレームmについての前記ICC測度を取得するために使用される、請求項2に記載の方法。
- 前記チャネル間相関測度(ICC(m))がしきい値ICCthres(m)よりも大きい場合、ICTDest(m)が有効であると決定される、請求項2から6のいずれか一項に記載の方法。
- 前記取得されたICTD推定値(ICTDest(m))の有効性が、相互相関関数に基づいて、前記相互相関関数の相対ピーク振幅をしきい値(ICCthres(m))と比較することによって決定される、請求項7に記載の方法。
- ICCthres(m)が、フレームmについての相互相関値の順序セット中の所定の位置における前記相互相関の値を乗算された定数によって形成される、請求項8に記載の方法。
- 有効なICTD推定値の前記十分な数が2である、請求項1から9のいずれか一項に記載の方法。
- 前記ハングオーバ時間が適応型である、請求項1から10のいずれか一項に記載の方法。
- プロセッサ(910)とメモリ(920)とを備えるパラメトリックオーディオコーディングのための装置(900)であって、前記メモリ(920)が、前記プロセッサによって実行可能な命令(930)を含んでおり、それにより、前記装置(900)は、
少なくとも2つのチャネルを備えるマルチチャネルオーディオ入力信号を受信することと、
オーディオフレームmについてのICTD推定値(ICTDest(m))を取得することと、
前記取得されたICTD推定値(ICTDest(m))が有効であるかどうかを決定することと、
前記ICTD推定値の安定性推定値を取得することと、
前記ICTDest(m)が有効と見られず、決定された十分な数の有効なICTD推定値が先行フレームにおいて見つかった場合、前記安定性推定値を使用してハングオーバ時間を決定することと、
前記ハングオーバ時間中に、前に取得された有効なICTDパラメータ(ICTD(m−1))を、出力パラメータ(ICTD(m))として選択することと、
有効なICTDest(m)が前記ハングオーバ時間中に見つからない場合、前記出力パラメータ(ICTD(m))を0に設定することと
を行うように動作可能である、装置(900)。 - 請求項2から11のいずれか一項に記載の方法を実施するように設定された、請求項12に記載の装置。
- 請求項12または13に記載の装置を備えるオーディオエンコーダ。
- 少なくとも1つのプロセッサ上で実行されたとき、前記少なくとも1つのプロセッサに、請求項1から11のいずれか一項に記載の方法を実行させる命令を備える、コンピュータプログラム(930)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662305683P | 2016-03-09 | 2016-03-09 | |
US62/305,683 | 2016-03-09 | ||
PCT/EP2017/055430 WO2017153466A1 (en) | 2016-03-09 | 2017-03-08 | A method and apparatus for increasing stability of an inter-channel time difference parameter |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019236198A Division JP6858836B2 (ja) | 2016-03-09 | 2019-12-26 | チャネル間時間差パラメータの安定性を増加させるための方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019511864A JP2019511864A (ja) | 2019-04-25 |
JP6641027B2 true JP6641027B2 (ja) | 2020-02-05 |
Family
ID=58264521
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018546695A Active JP6641027B2 (ja) | 2016-03-09 | 2017-03-08 | チャネル間時間差パラメータの安定性を増加させるための方法および装置 |
JP2019236198A Active JP6858836B2 (ja) | 2016-03-09 | 2019-12-26 | チャネル間時間差パラメータの安定性を増加させるための方法および装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019236198A Active JP6858836B2 (ja) | 2016-03-09 | 2019-12-26 | チャネル間時間差パラメータの安定性を増加させるための方法および装置 |
Country Status (8)
Country | Link |
---|---|
US (4) | US10832689B2 (ja) |
EP (2) | EP3582219B1 (ja) |
JP (2) | JP6641027B2 (ja) |
AR (1) | AR107842A1 (ja) |
AU (1) | AU2017229323B2 (ja) |
ES (1) | ES2877061T3 (ja) |
WO (1) | WO2017153466A1 (ja) |
ZA (1) | ZA201804224B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742521B (zh) * | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN109215667B (zh) | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
EP3588495A1 (en) * | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
US11606659B2 (en) * | 2021-03-29 | 2023-03-14 | Zoox, Inc. | Adaptive cross-correlation |
CN117501361A (zh) * | 2021-06-15 | 2024-02-02 | 瑞典爱立信有限公司 | 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性 |
WO2024160859A1 (en) | 2023-01-31 | 2024-08-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Refined inter-channel time difference (itd) selection for multi-source stereo signals |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05130067A (ja) * | 1991-10-31 | 1993-05-25 | Nec Corp | 可変閾値型音声検出器 |
WO2010037426A1 (en) * | 2008-10-03 | 2010-04-08 | Nokia Corporation | An apparatus |
CN102292767B (zh) | 2009-01-22 | 2013-05-08 | 松下电器产业株式会社 | 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法 |
PL2671222T3 (pl) * | 2011-02-02 | 2016-08-31 | Ericsson Telefon Ab L M | Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio |
EP2671221B1 (en) * | 2011-02-03 | 2017-02-01 | Telefonaktiebolaget LM Ericsson (publ) | Determining the inter-channel time difference of a multi-channel audio signal |
EP2648418A1 (en) * | 2012-04-05 | 2013-10-09 | Thomson Licensing | Synchronization of multimedia streams |
EP2834814B1 (en) | 2012-04-05 | 2016-03-02 | Huawei Technologies Co., Ltd. | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder |
JP6063555B2 (ja) * | 2012-04-05 | 2017-01-18 | 華為技術有限公司Huawei Technologies Co.,Ltd. | マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法 |
JP5970985B2 (ja) * | 2012-07-05 | 2016-08-17 | 沖電気工業株式会社 | 音声信号処理装置、方法及びプログラム |
-
2017
- 2017-03-08 US US16/082,137 patent/US10832689B2/en active Active
- 2017-03-08 EP EP19189961.6A patent/EP3582219B1/en active Active
- 2017-03-08 AU AU2017229323A patent/AU2017229323B2/en active Active
- 2017-03-08 ES ES19189961T patent/ES2877061T3/es active Active
- 2017-03-08 EP EP17709654.2A patent/EP3427259B1/en active Active
- 2017-03-08 WO PCT/EP2017/055430 patent/WO2017153466A1/en active Application Filing
- 2017-03-08 JP JP2018546695A patent/JP6641027B2/ja active Active
- 2017-03-09 AR ARP170100591A patent/AR107842A1/es active IP Right Grant
-
2018
- 2018-06-22 ZA ZA201804224A patent/ZA201804224B/en unknown
-
2019
- 2019-12-26 JP JP2019236198A patent/JP6858836B2/ja active Active
-
2020
- 2020-10-09 US US17/066,541 patent/US11380337B2/en active Active
-
2022
- 2022-06-16 US US17/842,499 patent/US11869518B2/en active Active
-
2023
- 2023-12-04 US US18/528,082 patent/US20240177719A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2019511864A (ja) | 2019-04-25 |
ZA201804224B (en) | 2019-11-27 |
WO2017153466A1 (en) | 2017-09-14 |
JP6858836B2 (ja) | 2021-04-14 |
EP3427259A1 (en) | 2019-01-16 |
JP2020065283A (ja) | 2020-04-23 |
AR107842A1 (es) | 2018-06-13 |
US10832689B2 (en) | 2020-11-10 |
AU2017229323A1 (en) | 2018-07-05 |
ES2877061T3 (es) | 2021-11-16 |
US20210027793A1 (en) | 2021-01-28 |
US11869518B2 (en) | 2024-01-09 |
EP3582219B1 (en) | 2021-05-05 |
US20240177719A1 (en) | 2024-05-30 |
US20200286495A1 (en) | 2020-09-10 |
EP3427259B1 (en) | 2019-08-07 |
AU2017229323B2 (en) | 2020-01-16 |
US11380337B2 (en) | 2022-07-05 |
US20220392463A1 (en) | 2022-12-08 |
EP3582219A1 (en) | 2019-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6641027B2 (ja) | チャネル間時間差パラメータの安定性を増加させるための方法および装置 | |
US11942098B2 (en) | Method and apparatus for adaptive control of decorrelation filters | |
JP4964943B2 (ja) | オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム | |
EP2671221B1 (en) | Determining the inter-channel time difference of a multi-channel audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181115 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6641027 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |