JP2022543849A - 音響心理学的周波数範囲拡張のための非線形適応フィルタバンク - Google Patents
音響心理学的周波数範囲拡張のための非線形適応フィルタバンク Download PDFInfo
- Publication number
- JP2022543849A JP2022543849A JP2022507651A JP2022507651A JP2022543849A JP 2022543849 A JP2022543849 A JP 2022543849A JP 2022507651 A JP2022507651 A JP 2022507651A JP 2022507651 A JP2022507651 A JP 2022507651A JP 2022543849 A JP2022543849 A JP 2022543849A
- Authority
- JP
- Japan
- Prior art keywords
- components
- target frequency
- quadrature
- spectral
- basis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003044 adaptive effect Effects 0.000 title description 4
- 230000003595 spectral effect Effects 0.000 claims abstract description 104
- 238000001228 spectrum Methods 0.000 claims abstract description 45
- 230000001427 coherent effect Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 33
- 230000000694 effects Effects 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 6
- 230000001052 transient effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 37
- 239000011159 matrix material Substances 0.000 description 21
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000009877 rendering Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000001686 rotational spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
- G10H1/08—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
- G10H1/12—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
- G10H1/125—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms using a digital filter
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/007—Protection circuits for transducers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
- G10H2210/321—Missing fundamental, i.e. creating the psychoacoustic impression of a missing fundamental tone through synthesis of higher harmonics, e.g. to play bass notes pitched below the frequency range of reproducing speakers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/055—Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
- G10H2250/061—Allpass filters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
システムは、スピーカに対して音響心理学的周波数範囲拡張をもたらす回路を含む。回路は、音声チャネルから直交成分を生成し、標準基底から回転基底に直交成分のスペクトルを回転させる前方変換を適用することによって、回転スペクトル直交成分を生成する。回転基底において、回路は、目標周波数において回転スペクトル直交成分の成分を分離し、分離した成分にスケール独立非線形性を適用することによって、重み付けされた位相コヒーレント高調波スペクトル直交成分を生成する。回路は、回転基底から標準基底に重み付けされた位相コヒーレント高調波スペクトル直交成分のスペクトルを回転させる逆変換を適用することによって、高調波スペクトル成分を生成する。回路は、出力チャネルを生成するよう、目標周波数の外の音声チャネルの周波数と高調波スペクトル成分を組み合わせ、スピーカに出力チャネルを提供する。
Description
本開示は概して、音声処理に関し、特に、物理ドライバの帯域幅を越えた周波数の効果を生じさせることに関する。
拡声器、ヘッドフォン、および他の音響アクチュエータの帯域幅は、人間の聴覚系の帯域幅の小領域に制限されることが多い。これは、ほとんどの場合、おおよそ18ヘルツ~250ヘルツの可聴スペクトルの低周波数領域において問題になる。物理ドライバの帯域幅を越えた周波数の効果を生じさせるよう、音声信号を修正することが望ましい。ドライバの周波数応答を単純に拡張すること以外に、用途に応じて、それらの副帯域に存在する物理エネルギーの量を増大させることなく、特定の副帯域の感知を増大させることが望ましいことがある。例えば、ドライバに対するストレスを減少させ、またはデバイスの電力消費特性を改善するために、音響心理学的効果を使用することが望ましいことがある。
いくつかの実施形態は、スピーカに対して音響心理学的周波数範囲拡張をもたらす回路を含むシステムを含む。回路は、音声チャネルの直交表現を定義した音声チャネルから直交成分を生成し、標準基底から回転基底に直交成分のスペクトルを回転させる前方変換を適用することによって、回転スペクトル直交成分を生成する。回転基底において、回路は、目標周波数において回転スペクトル直交成分の成分を分離し、分離した成分にスケール独立非線形性を適用することによって、重み付けされた位相コヒーレント高調波スペクトル直交成分を生成し、回路は、回転基底から標準基底に重み付けされた位相コヒーレント高調波スペクトル直交成分のスペクトルを回転させる逆変換を適用することによって、高調波スペクトル成分を生成する。回路は、出力チャネルを生成するよう、目標周波数の外の音声チャネルの周波数と高調波スペクトル成分を組み合わせ、スピーカに出力チャネルを提供する。
いくつかの実施形態では、高調波スペクトル成分は、音声チャネルの目標周波数の異なる周波数を含み、スピーカによってレンダリングされるときに目標周波数の音響心理学的効果を生じさせる。
いくつかの実施形態では、前方変換は、目標周波数が0ヘルツにマッピングされるように直交成分のスペクトルを回転させる。逆変換は、0ヘルツが目標周波数にマッピングされるように重み付けされた位相コヒーレント高調波スペクトル直交成分のスペクトルを回転させる。
いくつかの実施形態では、目標周波数は、目標周波数の中心周波数である。いくつかの実施形態では、目標周波数は、18ヘルツ~250ヘルツの周波数を含む。いくつかの実施形態では、目標周波数は、高調波スペクトル成分の周波数よりも低い。
いくつかの実施形態では、回路は、スピーカの再現可能範囲、スピーカの電力消費の低減、またはスピーカの増大した寿命に基づいて目標周波数を判定する。
いくつかの実施形態では、スピーカは、モバイルデバイスの構成要素である。
いくつかの実施形態では、回路は、ゲート関数を使用して、目標規模において成分を分離するように更に構成されている。いくつかの実施形態では、回路は、分離した成分に平滑化関数を適用するように更に構成されている。
いくつかの実施形態では、スケール独立非線形性は、因数分解された規模による第1の種類のチェビシェフ多項式の重み付け合計を含む。
いくつかの実施形態は、方法を含む。方法は、回路によって、音声チャネルの直交表現を定義した音声チャネルから直交成分を生成するステップと、標準基底から回転基底に直交成分のスペクトルを回転させる前方変換を適用することによって、回転スペクトル直交成分を生成するステップと、回転基底において、目標周波数において回転スペクトル直交成分の成分を分離するステップと、分離した成分にスケール独立非線形性を適用することによって、重み付けされた位相コヒーレント高調波スペクトル直交成分を生成するステップと、回転基底から標準基底に重み付けされた位相コヒーレント高調波スペクトル直交成分のスペクトルを回転させる逆変換を適用することによって、高調波スペクトル成分を生成するステップと、出力チャネルを生成するよう、目標周波数の外の音声チャネルの周波数と高調波スペクトル成分を組み合わせるステップと、スピーカに出力チャネルを提供するステップと、を含む。
いくつかの実施形態は、記憶した命令を含む非一時的コンピュータ可読媒体であって、命令は、少なくとも1つのプロセッサによって、音声チャネルの直交表現を定義した音声チャネルから直交成分を生成し、標準基底から回転基底に直交成分のスペクトルを回転させる前方変換を適用することによって、回転スペクトル直交成分を生成し、回転基底において、目標周波数において回転スペクトル直交成分の成分を分離し、分離した成分にスケール独立非線形性を適用することによって、重み付けされた位相コヒーレント高調波スペクトル直交成分を生成し、回転基底から標準基底に重み付けされた位相コヒーレント高調波スペクトル直交成分のスペクトルを回転させる逆変換を適用することによって、高調波スペクトル成分を生成し、出力チャネルを生成するよう、目標周波数の外の音声チャネルの周波数と高調波スペクトル成分を組み合わせ、スピーカに出力チャネルを提供する、ように少なくとも1つのプロセッサを構成する。
図面は、例示のみを目的として、様々な実施形態を表す。当業者は、以下の議論から、本明細書で説明される原理から逸脱することなく、本明細書で例示される構造および方法の代替的な実施形態が採用されてもよいことを容易に認識するであろう。
図面および以下の説明は、例示のみによる好ましい実施形態に関連する。以下の説明から、特許請求される原理から逸脱することなく、採用することができる実現可能な代替として、本明細書で開示される構造および方法の代替的な実施形態が容易に認識されることに留意されるべきである。
ここでいくつかの実施形態への参照がなされ、その実施例は、添付図面において例示される。いつでも、実用的な同様または同一の参照符号が図面において使用されてもよく、同様または同一の機能性を示すことができる。図面は、例示のみを目的として、開示されるシステム(または、方法)の実施形態を表す。当業者は、以下の説明から、本明細書で説明される原理から逸脱することなく、本明細書で例示される構造および方法の代替的な実施形態が採用されてもよいことを認識するであろう。
実施形態は、音響心理学的周波数範囲拡張(psychoacoustic frequency range extension)をもたらすことに関する。人間の聴覚系が非線形的にキューに反応することを理由に、実際の刺激が現実的でない仮想刺激を生じさせるために、音響心理学的現象を使用することができる。音声システムは、適応非線形フィルタバンクを設けた回路を含んでもよく、適応非線形フィルタバンクは、音声信号から位相コヒーレント高調波スペクトル(phase-coherent harmonic spectra)を生成するために、高度に調整可能な、スケール独立非線形性(scale-independent nonlinearity)を使用する。位相コヒーレント高調波スペクトルは、物理ドライバの帯域幅を越えた周波数の効果を生じさせるよう、元の音声信号と加算されてもよい。
適応非線形フィルタバンクは、複数の高調波プロセッサを含んでもよい。各々の高調波プロセッサは音声信号内の目標副帯域を分析し、構成可能スペクトル変換により副帯域のデータを再合成する非線形フィルタである。入力スペクトルエンベロープが出力によって適合され、副帯域または副帯域応答(例えば、圧縮、ゲーティングなど)の混合内の振幅ダイナミックスの全体に対する更なる変換が存在することがあるが、スペクトル変換自体は、周波数および位相内容のみに依存することがある。これは、広帯域の様々な音声信号にわたって高程度の一貫性を許容する。
周波数範囲拡張の利点は、特定の周波数をレンダリングすることが可能である(例えば、低品質)スピーカが、それらの周波数音響心理学的効果を生じさせることを可能にすることを含む。モバイルデバイスに対して一般的に発見されるものなどの低コストスピーカは、高品質リスニング経験をもたらすことができる。音響心理学的周波数範囲拡張は、スピーカに対するハードウェア修正を必要とすることなく、モバイルデバイスにおいて発見される処理回路によってなど、音声信号を処理することによって達成される。周波数範囲拡張および周波数応答改善は、準最適な副帯域における物理エネルギーの量を増大させることを訴えることなく達成されるとき、スピーカドライバの電力消費特性および寿命を改善するために有用であることができる。
音声処理システム
図1は、いくつかの実施形態に従った、音声システム100のブロック図である。音声システム100は、非線形フィルタバンクモジュール120を使用して、スピーカ110に対する周波数範囲拡張をもたらす。システム100は、 104(1)、104(2)、104(3)、および104(4)を含むフィルタバンクモジュール120と、オールパスフィルタネットワークモジュール122と、コンバイナモジュール106と、を含む。フィルタバンクモジュール120は、音声チャネルa(t)から位相コヒーレント高調波スペクトルを生成するために、高度に調整可能な、スケール独立非線形性を使用する。いくつかの実施形態では、高調波処理モジュール104は、示されるように、並列して接続されてもよい。いくつかの実施形態は、直列接続高調波処理モジュール104を含んでもよく、所与の高調波処理モジュールの残差は、後続の高調波処理モジュールにカスケード状に渡される。システム100は、レンダリングのためにスピーカ110に提供される出力チャネルo(t)を生成する。フィルタバンクモジュール120の高調波処理モジュール104(1)~104(4)は、スピーカ110の物理帯域幅を越える音声チャネルa(t)に対する音響心理学的周波数範囲拡張をもたらす。
図1は、いくつかの実施形態に従った、音声システム100のブロック図である。音声システム100は、非線形フィルタバンクモジュール120を使用して、スピーカ110に対する周波数範囲拡張をもたらす。システム100は、 104(1)、104(2)、104(3)、および104(4)を含むフィルタバンクモジュール120と、オールパスフィルタネットワークモジュール122と、コンバイナモジュール106と、を含む。フィルタバンクモジュール120は、音声チャネルa(t)から位相コヒーレント高調波スペクトルを生成するために、高度に調整可能な、スケール独立非線形性を使用する。いくつかの実施形態では、高調波処理モジュール104は、示されるように、並列して接続されてもよい。いくつかの実施形態は、直列接続高調波処理モジュール104を含んでもよく、所与の高調波処理モジュールの残差は、後続の高調波処理モジュールにカスケード状に渡される。システム100は、レンダリングのためにスピーカ110に提供される出力チャネルo(t)を生成する。フィルタバンクモジュール120の高調波処理モジュール104(1)~104(4)は、スピーカ110の物理帯域幅を越える音声チャネルa(t)に対する音響心理学的周波数範囲拡張をもたらす。
フィルタバンクモジュール120は、高調波スペクトル成分h(t)(n)を生成する複数の高調波処理モジュール104(n)を含む。いくつかの実施形態では、各々の高調波処理モジュール104(1)~104(4)は、音声チャネルa(t)の全体を分析し、それぞれの高調波スペクトル成分h(t)(1)~h(t)(4)を合成する。いくつかの実施形態では、各々の高調波処理モジュールは、音声チャネルの異なる目標副帯域を分析してもよい。各々の高調波スペクトル成分h(t)(n)は、a(t)におけるデータの位相コヒーレントスペクトル変換である。各々の高調波スペクトル成分h(t)(n)は、a(t)のそれぞれの目標副帯域におけるデータの周波数とは異なる周波数を含む、重み付けられた位相コヒーレント高調波スペクトルを有し、スピーカ110によって出力されるとき、それぞれの目標副帯域の周波数の音響心理学的効果を生じさせる。高調波処理モジュール104(n)のうちの1つまたは複数は、高調波スペクトル成分h(t)(n)を生成して、スピーカ110に対する音響心理学的周波数範囲拡張をもたらすように選択されてもよい。いくつかの実施形態では、目標副帯域の選択は、スピーカ110の周波数応答など、スピーカ110の能力に基づいてもよい。例えば、スピーカ110がサウンドの低周波数を効率的にレンダリングすることが可能でない場合、高調波処理モジュール104は、低周波数と対応する周波数副帯域成分を目標とするように構成されてもよく、それらは、高調波スペクトル成分h(t)(n)に変換されてもよい。音声システム100は、1つまたは複数の高調波処理モジュール104を含んでもよい。高調波処理モジュール104に関する追加の詳細は、図2~5と関連して議論される。
オールパスフィルタネットワークモジュール122は、音声チャネルa(t)がフィルタバンクモジュール120の出力とコヒーレントなままであることを保証するよう、フィルタリングされた音声チャネルa(t)を生成する。オールパスフィルタネットワーク122は、入力信号a(t)に整合する位相変化を適用することによって、高調波処理モジュール104(n)の適用の結果としての位相変化を補償する。これは、操作された位相によるものであるがa(t)とは知覚的に区別することができない信号と、フィルタバンクモジュール120によって生成された高調波スペクトル成分h(t)(n)との間でコヒーレントな加算を行うことを可能にする。
コンバイナモジュール106は、オールパスフィルタネットワークモジュール122からのフィルタリングされた音声チャネルa(t)およびフィルタバンクモジュール120からの1つまたは複数の高調波スペクトル成分h(t)(n)を組み合わせることによって、出力チャネルo(t)を生成する。コンバイナモジュール106は、スピーカ110に出力チャネルo(t)を提供する。いくつかの実施形態では、複数の高調波スペクトル成分h(t)(n)は、所望の非線形特性により出力された集約フィルタバンクを結果としてもたらすよう、減衰することがあり(例えば、独立した調整により)、相互に加算されることがある。いくつかの実施形態では、加算された高調波スペクトル成分h(t)(n)は、例えば、ハイパスフィルタリング、動的範囲処理などにより更に処理されてもよく、フィルタリングされた音声チャネルa(t)と加算されてもよい(場合によっては減衰)。
図2は、いくつかの実施形態に従った、高調波処理モジュール104のブロック図である。高調波処理モジュール104は、非線形フィルタを設け、非線形フィルタは、音声チャネルを分析し、構成可能なスペクトル変換により目標副帯域のデータを再合成する。高調波処理モジュール104は、オールパスネットワークモジュール202、前方トランスフォーマモジュール204、係数演算器モジュール206、および逆トランスフォーマモジュール208を含む。オールパスネットワークモジュール202は、直交成分を生成するために、音声チャネルx(t)に位相における変換のペアを適用する。前方トランスフォーマモジュール204は、スペクトル全体を回転させる直交成分に前方変換を適用し、その結果、回転スペクトル直交成分を生成するよう、選択された周波数が0ヘルツにマッピングされる。0ヘルツへの選択された周波数のシフトは、標準基底(standard basis)から回転基底(rotated basis)への変化と称される。選択された周波数は、目標副帯域の中心周波数または他の周波数であってもよい。係数演算器モジュール206は、周波数、規模(magnitude)、または位相に基づいてデータを選択的にフィルタリングすること、スケール依存非線形性を使用してデータから新たな重み付けされた位相コヒーレント高調波スペクトルを生成すること、および重み付けされた位相コヒーレント回転スペクトル直交成分を生じさせるよう、成分の動的範囲を修正することを含む、回転基底において演算を実行してもよい。逆トランスフォーマモジュール208は、重み付けされた位相コヒーレント回転スペクトル直交成分のスペクトルを回転させるために、逆変換を適用し、その結果、高調波スペクトル成分
を生成するよう、0ヘルツが選択された周波数にマッピングされる。選択された周波数への0ヘルツのシフトは、回転基底から標準基底への変化と称される。高調波スペクトル成分
音声チャネルx(t)の目標副帯域とは異なる周波数を含んでもよいが、スピーカによってレンダリングされるとき、音声チャネルx(t)の目標副帯域の周波数の音響心理学的効果を生じさせる。
いくつかの実施形態では、高調波処理モジュール104に入力された音声成分x(t)は、副帯域成分a(t)(n)であってもよい。この実施例では、目標周波数を選択するための係数演算器モジュール206による選択的フィルタリングがスキップされてもよい。
オールパスネットワーク202は、直交成分y1(t)およびy2(t)を含むベクトルy(t)に音声チャネルx(t)を変換する。直交成分y1(t)およびy2(t)は、90度の位相関係を含む。直交成分y1(t)およびy2(t)ならびに入力信号x(t)は、全ての周波数についての統一規模関係を含む。実数値入力信号x(t)は、オールパスフィルタH1およびH2の整合したペアによって調整された直交値である。この演算は、式(1)に示されるような連続時間プロトタイプを介して定義されてもよい。
いくつかの実施形態は、入力(モノ)信号と2つの(ステレオ)直交成分y1(t)およびy2(t)のいずれかとの間の位相関係を必ずしも保証しないが、90度位相関係を含む直交成分y1(t)およびy2(t)ならびに全ての周波数についての統一規模関係を含む直交成分y1(t)、y2(t)、および入力信号x(t)を結果としてもたらす。
図3は、いくつかの実施形態に従った、前方トランスフォーマモジュール204のブロック図である。前方トランスフォーマモジュール204は、回転行列モジュール302および行列乗算器304を含む。前方トランスフォーマモジュール204は、直交成分y1(t)およびy2(t)を受信し、回転スペクトル直交成分u1(t)およびu2(t)を含むベクトルu(t)を生成するために、前方変換を適用する。回転行列モジュール302を介して時間変化回転行列を生成し、行列乗算器304を介して直交成分にそれを適用し、回転スペクトル直交成分u(t)を結果としてもたらすことによって、この変換が適用される。ベクトルu(t)は、音声信号x(t)のスペクトルの周波数シフトされた形式であり異なる時間における各々のuが回転スペクトル直交成分として定義される係数空間を定義する。ベクトルu(t)によって定義された係数は、x(t)のスペクトルを回転させた結果であり、その結果、所望の中心周波数θcが0ヘルツにある。
前方変換は、式(2)によって定義されるように、直交信号上での時間変化二次元回転として適用されてもよい。
H1は、オールパスフィルタであり、回転
は、角度周波数θcの回転であり、式(3)によって定義される。
式(2)および式(3)は、三角法関数(trigonometry function)への反復呼び出し(iterative calls)を含む。θcが一定である間隔を通じて、三角法関数への反復呼び出しではなく再帰的2D回転によって前方変換が計算されてもよい。この最適化戦略が使用されるとき、sinおよびcosへの呼び出しは、θcが初期化または変更されるときに行われる。この最適化は、無限小回転行列の順次累乗として、すなわち、
として各々の行列
を定義する。2つの2×2行列を共に乗算することが、ほとんどのアーキテクチャに対する高度に最適化された計算であるから、この定義は、それにも関わらず等価である、式(3)に存在する三角法関数への反復呼び出しに対して性能の利点をもたらすことができる。
図4は、いくつかの実施形態に従った、係数演算器モジュール206、のブロック図である。係数演算器モジュール206は、フィルタモジュール402、規模モジュール404、ゲートモジュール406、除算演算器408および410、高調波ジェネレータモジュール412、ならびに乗算演算器414および416を含む。効率的な演算器モジュール206は、回転スペクトル直交成分u1(t)およびu2(t)を含むベクトルu(t)を使用して、重み付けされた位相コヒーレント回転スペクトル直交成分
および
を含む、回転スペクトル
を生成する。いくつかの実施形態では、フィルタモジュール402は、2つのチャネルロウパスフィルタである。このケースでは、高調波処理モジュール104は、フィルタ406のカットオフ周波数を倍にする帯域幅において、θcに中心にされた目標副帯域に対するスペクトル変換を実行するように構成される。規模モジュール404は、2Dベクトルの長さを判定し、2Dベクトルの長さは、除算演算器408および410を使用して、フィルタリングされた信号ベクトルから因数分解される(factored out)、瞬時値の測定規模として使用される。この規模は、その関係がスケールに依存しない信号に基づいて高調波ジェネレータモジュール412が高調波を提供することを可能にするために因数分解される。高調波ジェネレータモジュール412は、回転スペクトル直交成分の目標副帯域に基づいて、高調波スペクトルを生成するよう、重み付けされた非線形性の合計を適用する。規模モジュール404によってもたらされる規模は次いで、ゲートモジュール406を通過するときに再度使用される。ゲートモジュール406は、その瞬時勾配がスルーリミッタ(slew limiter)418によって制限される2Dエンベロープを生成する。結果として生じるスルー制限されたエンベロープは次いで、乗算演算器414および416を介して高調波ジェネレータモジュール412の出力に適用される。重み付けされた高調波の合計は、回転スペクトル
を生成するよう時間変化エンベロープと乗算される。
u(t)の係数は、式(4)を使用して極座標において表現されてもよい。
項||u(t)||は、係数信号の瞬時規模であり、∠u(t)は、瞬時位相である。それらの項は、逆変換ステージの前に操作されてもよい。
u(t)によって定義される係数は、それらの瞬時規模に基づいて選択的にフィルタリングされる。フィルタリングは、ゲートモジュール406によって適用されるゲート関数およびスルーリミッタ418によって適用されるスルー制限フィルタ(slew limiting filter)を含んでもよい。閾値nに基づいたゲート関数は、式(5)によって定義されてもよい。
ケースx>=nは、係数を維持することを結果としてもたらし、ケースx<nは、係数の除去を結果としてもたらす。いくつかの実施形態では、ケースx<nは代わりに、係数の完全な除去ではなく減衰を結果としてもたらす。ゲート関数が瞬時規模の推定に対して動作することを理由に、実数値振幅(real-valued amplitude)に基づいたゲートよりも全体的に応答的であると共に、アーチファクトがより少ない。
非線形フィルタの応答のエンベロープ特性を更に適合させるよう、スルー制限フィルタを介して時間ドメイン平滑化を達成することができる。スルー制限フィルタは、関数の最大(正)勾配および最小(負)勾配の飽和させる非線形フィルタである。S(x)として以下で表される、正および負の飽和点に対して独立した制御による非線形フィルタなど、様々なタイプのスルー制限フィルタまたは要素が使用されてもよい。ゲート関数の出力にスルー制限を適用することは、時間変化エンベロープ:S(G(||u[t]||))を結果としてもたらす。これは、係数のエンベロープをスカルプト(sculpt)するために使用されてもよい。
の位相コヒーレント高調波スペクトルを生成するために、高調波ジェネレータモジュール412は、式(6)によって定義されるような第1の種類のチェビシェフ多項式を使用してもよい。
それらの多項式は、式(7)または式(8)によって定義されるように、それらの出力を加算することによって、高調波の制御された生成を許容する。
または、等価的に、
a=[a0,a1,a2…aN]は、位相コヒーレント高調波スペクトルの各々の高調波に適用される高調波重みであり、Nは、最高の生成された高調波である。両方の表現では、非線形性は。入力スケールと独立する。これは、出力スペクトルが入力音量と共に変動することを防止し、代わりに、スペクトル重みaにより決定される変動のみを許可する。重みが全体的に低下する連続として配列され、人間の聴覚系が順応される自然に発生するサウンドの高調波の連続をエミュレートする。重みの連続は、入来する音声チャネルのスケールとは独立する。
同等であるが、式(7)は、出力段階の直接操作を可能にする利点を有し、一方で、式(8)は、その規模に対して動作する、潜在的に高価な三角法関数を省略する。係数演算器モジュール206は、式(8)に従った演算を表す図4に示される。
図5は、いくつかの実施形態に従った、逆トランスフォーマモジュール208のブロック図である。逆トランスフォーマモジュール208は、回転行列モジュール502、行列乗算器504、射影演算器506、および行列転置演算器508を含む。逆トランスフォーマモジュール208は、位相コヒーレント回転スペクトル直交成分
および
を含む回転スペクトル
から高調波スペクトル成分
を生成する。回転行列モジュール502は、行列モジュール302によって生成された回転行列に同一の回転行列を生成する。回転行列モジュール502によって生成された行列は。行列転置演算器508によって転置され、行列乗算器504によって位相コヒーレント回転スペクトル直交成分
および
の入来する2Dベクトルに適用される。結果として生じる2Dベクトルは、射影演算器506によって単一次元に射影される。
回転基底から標準基底に戻す逆変換を実行するために、式(9)によって定義されるようにその元の位置θcに0ヘルツが戻るように、出力スペクトルがシフトされる。
Pは、式(10)によって定義されるように、二次元実係数空間から単一次元への射影である。
前方変換
が正規直交回転を含むことを理由に、逆変換は転置である。この代数的構造は、前方変換行列のキャッシングおよび係数が乗算される位数を変更することによるそれを反転させることを可能にする。この意味で、図3における回転行列モジュール302および図5における回転行列モジュール502は、同一であると言える。高調波スペクトル成分
は、高調波スペクトル成分h(t)(n)の例であり、よって、より大きなフィルタバンクにおける非線形フィルタの応答であることができる。
実施例の処理
図6は、いくつかの実施形態に従った、音響心理学的周波数範囲拡張のための処理600のフローチャートである。図6に示される処理は、音声システム(例えば、音声システム100)の構成要素によって実行されてもよい。他のエンティティは、他の実施形態では、図6におけるステップの一部または全てを実行してもよい。実施形態は、異なるステップおよび/もしくは追加のステップを含んでもよく、異なる順序においてステップを実行してもよい。
図6は、いくつかの実施形態に従った、音響心理学的周波数範囲拡張のための処理600のフローチャートである。図6に示される処理は、音声システム(例えば、音声システム100)の構成要素によって実行されてもよい。他のエンティティは、他の実施形態では、図6におけるステップの一部または全てを実行してもよい。実施形態は、異なるステップおよび/もしくは追加のステップを含んでもよく、異なる順序においてステップを実行してもよい。
音声システムは、音声チャネルの直交表現を定義した直交成分を生成する(605)。音声チャネルは、ステレオ音声信号の左チャネルまたは右チャネルなどのマルチチャネル音声信号のチャネルであってもよい。直交成分は、90度位相関係を含む。直交成分および音声チャネルは、全ての周波数についての統一規模関係を含む。いくつかの実施形態では、実数値入力信号は、オールパスフィルタの整合したペアによって直交値調整される。
音声システムは、標準基底から回転基底に直交成分のスペクトル(例えば、スペクトル全体)を回転させる前方変換を適用することによって、回転スペクトル直交成分を生成する(610)。標準基底は、回転の前の入力音声チャネルの周波数を指す。回転は、目標周波数が0ヘルツにマッピングされることを結果としてもたらす。この目標周波数は、音響心理学的範囲拡張のための目標副帯域の中心周波数など、高調波処理モジュールの分析領域の中心であってもよい。前方変換は、式(3)によって定義されるような三角法関数への反復呼び出しを使用して、および同等の再帰的2D回転を使用して計算されてもよい。
音声システムは、目標周波数および目標規模において回転スペクトル直交成分の成分を分離する(615)。成分を分離することは、回転基底において実行されてもよい。例えば、目標周波数は、フィルタを使用して分離されてもよい。いくつかの実施形態では、フィルタは、閾値を上回る周波数を除去し、これは、目標副帯域を分離する効果を有し、前方変換が調整された中心周波数θcの周りで対称に閾値に2回及ぶ。いくつかの実施形態では、音声システムは、スピーカの再現可能範囲、スピーカの電力消費の低減、またはスピーカの増大した寿命などの因子に基づいて、目標周波数を判定する。
音声システムはまた、ゲート関数を使用することによってなど、回転スペクトル直交成分から目標規模における成分を分離してもよい。ゲート関数は、副帯域内の望ましくない情報を破棄するか、または振幅エンベロープを保存するかのいずれかであってもよい。ゲート関数は更に、スルー制限フィルタまたは同様の平滑化関数を含んでもよい。
音声システムは、分離した成分にスケール独立非線形性を適用することによって、重み付けされた位相コヒーレント回転スペクトル直交成分を生成する(620)。重み付けされた位相コヒーレント回転スペクトル直交成分は、回転基底において生成されてもよい。この回転基底は、それが二次元ベクトルとして標準基底を表すことを理由に、およびそれが約ゼロの目標周波数に集中することを理由に、設計者のスペクトルの生成に良好に適合する。ベクトルは次いで、特定の周波数に関する情報の短時間フーリエ変換(STFT)記述子における単一のビンの規模およびアーギュメントを計算することと同様である、式(4)に見られる極座標に更に分解されてもよい。この特定の実装は、STFT表現に対していくつかの明確な利点を有する。1つ目の利点は、いずれかのスペクトルに対してではなく、ビン情報が必要に応じてのみ計算されることである。別の利点は、一時データの適切な表現に対して必要とされる時間的分解能において結果が計算されることである。更に、STFT技術におけるウインドウ関数と同様に動作するフィルタは、その残差から目標スペクトルコンテンツを分離する目的のために容易に調整され、複数の高調波処理モジュールのケースでは、非均一調整を有することができる。その関数が回転スペクトル直交成分における位相情報を仮定して位相コヒーレントスペクトルを一次的に生成することである非線形性は、モジュールが動作する分離した成分の瞬時規模を因数分解することによって、スケール依存にされる。非線形性自体は、いくつかの実施形態に従った、第1の種類のチェビシェフ多項式の重み付け合計を含んでもよい。このタイプの非線形性は、回転スペクトル直交成分から分離した成分ごとに調整可能高調波スペクトルを生成してもよい。各々の高調波は、予め定義された高調波重みanによって重み付けされてもよい。
音声システムは、回転基底から標準基底に重み付けされた位相コヒーレント回転スペクトル直交成分のスペクトルを回転させる逆変換を適用することによって、高調波スペクトル成分を生成する(625)。逆変換は、0ヘルツが目標周波数にマッピングされるようにスペクトルを回転させることができる。高調波スペクトル成分は、目標周波数とは異なる周波数を含むが、スピーカによってレンダリングされるときに目標周波数の音響心理学的効果を生じさせる。高調波スペクトル成分の周波数は、スピーカの帯域幅内にあってもよく、副帯域周波数は、スピーカの帯域幅外にあってもよい。いくつかの実施形態では、副帯域周波数は、高調波スペクトル成分の周波数よりも低い。いくつかの実施形態では、副帯域周波数は、18~250ヘルツの周波数を含む。いくつかの実施形態では、目標副帯域または周波数は、スピーカの再現可能範囲内にあってもよいが、例えば、音声システムの電力消費を低減させ、またはスピーカの寿命の改善するためなど、用途特有の理由により選択されていることがある。
音声システムは、出力チャネルを生成するよう、目標周波数の外の音声チャネルの周波数と高調波スペクトル成分を組み合わせ(630)、スピーカに出力チャネルを提供する(635)。いくつかの実施形態では、音声システムは、元の音声チャネルと高調波スペクトル成分を組み合わせることによって、出力チャネルを生成し、スピーカに出力チャネルを提供する。いくつかの実施形態では、音声システムは、音声チャネルまたは他の副帯域成分が高調波スペクトル成分とコヒーレントなままであることを保証するよう、音声チャネルまたは音声チャネルの他の副帯域成分をフィルタリングし(例えば、周波数範囲拡張のために使用される副帯域成分(複数可)を排除する)、スピーカに対して出力チャネルを生成するよう、高調波スペクトル成分とフィルタリングされた音声チャネルまたは他の副帯域成分を組み合わせる。いくつかの実施形態では、フィルタリングされまたは元の音声チャネルおよび高調波スペクトル成分は、スピーカに対して出力チャネルを生成するよう、例えば、等価、圧縮などにより更に処理されてもよい。
図6における処理が単一の音声チャネルの単一の副帯域成分に対して議論されたが、処理は、音声チャネルの複数の副帯域成分および/またはマルチチャネル音声信号の複数の音声チャネルに対して周波数範囲拡張をもたらすために実行されてもよい。いくつかの実施形態では、異なるスピーカは、異なる利用可能な帯域幅または周波数応答を有してもよい。例えば、モバイルデバイス(例えば、携帯電話)は、不均衡なスピーカを含んでもよい。異なるスピーカに対する周波数範囲拡張のために異なる副帯域成分が使用されてもよい。
実施例のコンピュータ
図7は、いくつかの実施形態に従った、コンピュータ700のブロック図である。コンピュータ700は、音声システム100などの音声システムを実装する回路の例である。例示されるのは、チップセット704に結合された少なくとも1つのプロセッサ702である。チップセット704は、メモリコントローラハブ720および入力/出力(I/O)コントローラハブ722を含む。メモリ706およびグラフィックアダプタ712は、メモリコントローラハブ720に結合され、ディスプレイデバイス718は、グラフィックアダプタ712に結合される。記憶装置708、キーボード710、ポインティングデバイス714、およびネットワークアダプタ716は、I/Oコントローラハブ722に結合される。コンピュータ700は、様々なタイプの入力デバイスまたは出力デバイスを含んでもよい。コンピュータ700の他の実施形態は、異なるアーキテクチャを有する。例えば、メモリ706は、いくつかの実施形態では、プロセッサ702に直接結合される。
図7は、いくつかの実施形態に従った、コンピュータ700のブロック図である。コンピュータ700は、音声システム100などの音声システムを実装する回路の例である。例示されるのは、チップセット704に結合された少なくとも1つのプロセッサ702である。チップセット704は、メモリコントローラハブ720および入力/出力(I/O)コントローラハブ722を含む。メモリ706およびグラフィックアダプタ712は、メモリコントローラハブ720に結合され、ディスプレイデバイス718は、グラフィックアダプタ712に結合される。記憶装置708、キーボード710、ポインティングデバイス714、およびネットワークアダプタ716は、I/Oコントローラハブ722に結合される。コンピュータ700は、様々なタイプの入力デバイスまたは出力デバイスを含んでもよい。コンピュータ700の他の実施形態は、異なるアーキテクチャを有する。例えば、メモリ706は、いくつかの実施形態では、プロセッサ702に直接結合される。
記憶装置708は、ハードドライブ、コンパクトディスクリードオンリメモリ(CD-ROM)、DVD、またはソリッドステートメモリデバイスなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含む。メモリ706は、プロセッサ702によって使用されるプログラムコード(1つまたは複数の命令から構成される)およびデータを保持する。プログラムコードは、図1~6を参照して説明された処理態様に対応してもよい。
ポインティングデバイス714は、データをコンピュータシステム700に入力するために、キーボード710と組み合わせて使用される。グラフィックアダプタ712は、画像および他の情報をディスプレイデバイス718に表示する。いくつかの実施形態では、ディスプレイデバイス718は、ユーザ入力および選択を受信するためのタッチスクリーン機能を含む。ネットワークアダプタ716は、コンピュータシステム700をネットワークに結合する。コンピュータ700のいくつかの実施形態は、図7に示された構成要素とは異なる構成要素および/または他の構成要素を有する。
回路は、非一時的コンピュータ可読媒体に記憶されたプログラムコードを実行する1つまたは複数のプロセッサを含んでもよく、プログラムコードは、1つまたは複数のプロセッサによって実行されるとき、音声処理システムの音声処理システムまたはモジュールを実装するよう1つまたは複数のプロセッサを構成する。音声処理システムの音声処理システムまたはモジュールを実装する回路の他の例は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のタイプのコンピュータ回路などの集積回路を含んでもよい。
追加の考慮事項
開示された構成の例示的な利点および/または有利は、デバイスおよび関連する音声レンダリングシステムに適合する拡張された音声システムに起因した動的音声拡張と共に、ユースケース情報など、デバイスOSによって利用可能にされた他の関連する情報(例えば、音声信号がゲームではなく音声再生のために使用されることを示す)を含む。拡張された音声システムは、デバイスに統合されるか(例えば、ソフトウェア開発キットを使用して)、またはオンデマンドでアクセス可能になるようリモートサーバに記憶されるかのいずれかであってもよい。このようにして、デバイスは、その音声レンダリングシステムまたは音声レンダリング構成に特有である音声拡張システムの維持に記憶リソースまたは処理リソースを専念させつ必要がない。いくつかの実施形態では、拡張された音声システムは、システム情報をレンダリングするための可変レベルのクエリを可能にし、その結果、可変レベルの利用可能なデバイス特有レンダリング情報にわたって効果的な音声拡張を適用することができる。
開示された構成の例示的な利点および/または有利は、デバイスおよび関連する音声レンダリングシステムに適合する拡張された音声システムに起因した動的音声拡張と共に、ユースケース情報など、デバイスOSによって利用可能にされた他の関連する情報(例えば、音声信号がゲームではなく音声再生のために使用されることを示す)を含む。拡張された音声システムは、デバイスに統合されるか(例えば、ソフトウェア開発キットを使用して)、またはオンデマンドでアクセス可能になるようリモートサーバに記憶されるかのいずれかであってもよい。このようにして、デバイスは、その音声レンダリングシステムまたは音声レンダリング構成に特有である音声拡張システムの維持に記憶リソースまたは処理リソースを専念させつ必要がない。いくつかの実施形態では、拡張された音声システムは、システム情報をレンダリングするための可変レベルのクエリを可能にし、その結果、可変レベルの利用可能なデバイス特有レンダリング情報にわたって効果的な音声拡張を適用することができる。
本明細書の全体を通じて、複数のインスタンスは、単一のインスタンスとして説明された構成要素、動作、または構造を実装することができる。1つまたは複数の方法の個々の動作は、別個の動作として例示および説明され、個々の動作のうちの1つまたは複数は、同時に実行されてもよく、例示された順序において動作が実行されることを必要としない。実施例の構成における別個の構成要素として提示された構造および機能性は、組み合わされた構造または構成要素として実装されてもよい。同様に、単一の構成要素として提示された構造および機能性は、別個の構成要素として実装されてもよい。それらのおよび他の返希恵、修正、追加、および改善は。本明細書における主題の範囲内にある。
ロジックまたはいくつかの構成要素、モジュール、もしくは機構を含むとして特定の実施形態が本明細書で説明される。モジュールは、ソフトウェアモジュール(例えば、機械可読媒体もしくは伝送信号において具体化されたコード)またはハードウェアモジュールのいずれかを構成してもよい。ハードウェアモジュールは、特定の動作を実行する能力を有する有形単位であり、特定の方式において構成または配列されてもよい。実施例の実施形態では、1つもしくは複数のコンピュータシステム(例えば、スタンドアロン、クライアント、もしくはサーバコンピュータシステム)またはコンピュータシステムの1つもしくは複数のハードウェアモジュール(例えば、プロセッサもしくはプロセッサのグループ)は、本明細書で説明されるような特定の動作を実行するよう動作するハードウェアモジュールとしてソフトウェア(例えば、アプリケーションまたはアプリケーション部分)によって構成されてもよい。
本明細書で説明される実施例の方法の様々な動作は、関連する動作を実行するように一時的に構成され(例えば、ソフトウェアによって)、または永続的に構成された1つまたは複数のプロセッサによって少なくとも部分的に実行されてもよい。一時的または永続的に構成されるかに関わらず、そのようなプロセッサは、1つまたは複数の動作または機能を実行するよう動作するプロセッサ実施モジュールを構成することができる。本明細書で言及されるモジュールは、いくつかの実施例の実施形態では、プロセッサ実施モジュールを含んでもよい。
同様に、本明細書で説明される方法は、少なくとも部分的にプロセッサにより実施されてもよい。例えば、方法の動作の少なくとも一部は、1つのまたは複数のプロセッサまたはプロセッサ実施ハードウェアモジュールによって実行されてもよい。特定の動作の実行は、1つまたは複数のプロセッサにわたって分散されてもよく、単一のマシン内にあるだけでなく、いくつかのマシンにわたって展開されてもよい。いくつかの実施例の実施形態では、プロセッサまたはプロセッサ(複数可)は、単一の位置に位置してもよく(例えば、ホーム環境、オフィス環境内に、またはサーバファームとして)、他の実施形態では、プロセッサは、いくつかの位置にわたって分散されてもよい。
他に特に述べられない限り、「処理」、「コンピューティング」、「計算」、「判定」、「提示」、または「表示」などの用語を使用した議論は、1つまたは複数のメモリ(例えば、揮発性メモリ、不揮発性メモリもしくはそれらの組み合わせ)、レジスタ、または情報を受信、記憶、送信、もしくは表示する他のマシン構成要素内の物理(例えば、電子、磁気、、または光学)量として表されたデータを操作または変換するマシン(例えば、コンピュータ)のアクションまたは処理を指してもよい。
本明細書で使用されるように、「1つの実施形態」または「実施形態」へのいずれかの言及は、実施形態と関連して説明された特定の要素、特徴、構造、または特性が少なくとも1つの実施形態に含まれることを意味する。本明細書内の様々な場所でのフレーズ「1つの実施形態では」の出現は、全てが必ずしも同一の実施形態を指すわけではない。
それらの派生物と共に表現「結合される」および「接続される」を使用して、いくつかの実施形態を説明することができる。それらの用語は、相互に同義語として意図していないことが理解されるべきである。例えば、2つ以上の要素が相互に直接物理接点または電気接点にあることを示すために、用語「接続される」を使用していくつかの実施形態を説明することができる。別の実施例では、2つ以上の要素が直接物理接点または電気接点にあることを示すために、用語「結合される」を使用していくつかの実施形態を説明することができる。しかしながら、用語「結合される」は、2つ以上の要素が相互に直接接点にないが、相互に協調または相互作用することも意味してもよい。実施形態は、このコンテキストに限定されない。
本明細書で使用されるように、用語「備える」、「含む」、「有する」、またはそれらのいずれかの変形は、非排他的包含を網羅することを意図する。例えば、要素のリストを含む処理、方法、物品、または装置は、必ずしもそれらの要素のみに限定されるわけではなく、明示的にリストされてなく、またはそのような処理、方法、物品、もしくは装置に固有の他の要素をも含んでもよい。更に、明示的に反対に述べられない限り、「または」は包括的論理和を指し、排他的論理和を指さない。例えば、条件AまたはBは、Aが真(または、存在する)およびBが偽(または、存在しない)、Aが偽(または、存在しない)およびBが真(またはする)、ならびにAとBの両方が真(または、存在する)、のいずれか1つにより満たされる。
加えて、「a」または「an」の使用は、本明細書における実施形態の要素および構成要素を説明するために採用される。これは、便宜のため、および発明の一般的な意味を与えるために行われるにすぎない。この説明は、他を意味することが明白でない限り、1つまたは少なくとも1つを含み、単数形は複数形をも含むと読まれるべきである。
この説明の一部は、情報に対する演算のアルゴリズムおよびシンボル表現に関して実施形態を説明する。それらのアルゴリズムの説明および表現は、他の当業者にそれらの作業の大意を効果的に伝えるために、データ処理の分野において当業者によって一般的に使用される。それらの演算は、機能的、計算的、または論理的に説明されると共に、コンピュータプログラム、または同等の電子回路もしくはマイクロコードなどによって実装されることが理解されよう。更に、一般性を失うことなく、演算のそれらの配列を指すことが便宜的であることも証明されてきた。説明された演算および関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらのいずれかの組み合わせにおいて具体化されてもよい。
本明細書で説明されたステップ、動作、または処理のいずれかは、1つ以上のハードウェアモジュールまたはソフトウェアモジュールを単独でまたは他のデバイスとの組み合わせで実行または実装されてもよい。一実施形態では、ソフトウェアモジュールは、説明されたステップ、動作、もしくは処理のいずれかまたは全てを実行するためにコンピュータプロセッサによって実行することができるコンピュータプログラムコードを含むコンピュータ可読媒体(例えば、非一時的コンピュータ可読媒体)を含むコンピュータプログラム製品により実装されてもよい。
実施形態は、本明細書における動作を実行する装置をも指してもよい。この装置は特に、必要とされる目的のために構築されてもよく、および/またはコンピュータに記憶されたコンピュータプログラムによって選択的に活性化もしくは再構成される汎用コンピューティングデバイスを含んでもよい。そのようなコンピュータプログラムは、非一時的、有形コンピュータ可読記憶媒体、またはコンピュータシステムバスに結合することができる、電子命令を記憶するために適切ないずれかのタイプの媒体に記憶されてもよい。更に、本明細書において言及されるいずれかのコンピューティングシステムは、単一のプロセッサを含んでもよく、または計算能力を増大させるための複数のプロセッサ設計を採用したアーキテクチャであってもよい。
実施形態は、本明細書で説明される計算処理によって作成される製品にも関連することができる。そのような製品は、計算しょりから結果として生じる情報を含んでもよく、情報は、非一時的、有形コンピュータ可読記憶媒体に記憶されてもよく、本明細書で説明されるコンピュータプログラム製品または他のデータの組み合わせのいずれかの実施形態を含んでもよい。
本開示を読めば、当業者は、本明細書で開示された原理の追加の代替的実施形態を理解するであろう。したがって、特定の実施形態および用途が示されて説明されてきたが、開示された実施形態は、本明細書で開示された正確な構造や構成要素に限定されるものではないことを理解されよう。本明細書で説明された範囲から逸脱することなく、当業者には明らかである様々な修正、変更、および変形が、本明細書で開示された方法および装置の配置、動作および詳細において行われてもよい。
最後に、本明細書において使用される言語は、読むことおよび示すことを目的のために選択されており、特許権を表現または制限するために選択されていない。したがって、特許権の範囲は、この詳細な説明によってではなく、本出願に基づいて発行されるいずれかの請求項によって限定されることを意図する。したがって、実施形態の開示は、以下の請求項において示される、特許権の例示であり、限定ではないことを意図する。
Claims (33)
- 音声チャネルの直交表現を定義した前記音声チャネルから直交成分を生成し、
標準基底から回転基底に前記直交成分のスペクトルを回転させる前方変換を適用することによって、回転スペクトル直交成分を生成し、
前記回転基底において、
目標周波数において前記回転スペクトル直交成分の成分を分離し、
前記分離した成分にスケール独立非線形性を適用することによって、重み付けされた位相コヒーレント高調波スペクトル直交成分を生成し、
前記回転基底から前記標準基底に前記重み付けされた位相コヒーレント高調波スペクトル直交成分のスペクトルを回転させる逆変換を適用することによって、高調波スペクトル成分を生成し、
出力チャネルを生成するよう、前記目標周波数の外の前記音声チャネルの周波数と前記高調波スペクトル成分を組み合わせ、
スピーカに前記出力チャネルを提供する、
ように構成された回路を備えた、システム。 - 前記高調波スペクトル成分は、前記音声チャネルの前記目標周波数の異なる周波数を含み、前記スピーカによってレンダリングされるときに前記目標周波数の音響心理学的効果を生じさせる、請求項1に記載のシステム。
- 前記前方変換は、目標周波数が0ヘルツにマッピングされるように前記直交成分の前記スペクトルを回転させ、
前記逆変換は、0ヘルツが前記目標周波数にマッピングされるように前記重み付けされた位相コヒーレント高調波スペクトル直交成分の前記スペクトルを回転させる、
請求項1に記載のシステム。 - 前記目標周波数は、前記目標周波数の中心周波数である、請求項1に記載のシステム。
- 前記目標周波数は、18ヘルツ~250ヘルツの周波数を含む、請求項1に記載のシステム。
- 前記目標周波数は、前記高調波スペクトル成分の周波数よりも低い、請求項1に記載のシステム。
- 前記回路は、
前記スピーカの再現可能範囲、
前記スピーカの電力消費の低減、または
前記スピーカの増大した寿命、
のうちの少なくとも1つに基づいて前記目標周波数を判定するように更に構成されている、請求項1に記載のシステム。 - 前記スピーカは、モバイルデバイスの構成要素である、請求項1に記載のシステム。
- 前記回路は、ゲート関数を使用して、目標規模において前記成分を分離するように更に構成されている、請求項1に記載のシステム。
- 前記回路は、前記分離した成分に平滑化関数を適用するように更に構成されている、請求項1に記載のシステム。
- 前記スケール独立非線形性は、因数分解された規模による第1の種類のチェビシェフ多項式の重み付け合計を含む、請求項1に記載のシステム。
- 回路によって、
音声チャネルの直交表現を定義した前記音声チャネルから直交成分を生成するステップと、
標準基底から回転基底に前記直交成分のスペクトルを回転させる前方変換を適用することによって、回転スペクトル直交成分を生成するステップと、
前記回転基底において、
目標周波数において前記回転スペクトル直交成分の成分を分離するステップと、
前記分離した成分にスケール独立非線形性を適用することによって、重み付けされた位相コヒーレント高調波スペクトル直交成分を生成するステップと、
前記回転基底から前記標準基底に前記重み付けされた位相コヒーレント高調波スペクトル直交成分のスペクトルを回転させる逆変換を適用することによって、高調波スペクトル成分を生成するステップと、
出力チャネルを生成するよう、前記目標周波数の外の前記音声チャネルの周波数と前記高調波スペクトル成分を組み合わせるステップと、
スピーカに前記出力チャネルを提供するステップと、
を備えた、方法。 - 前記高調波スペクトル成分は、前記音声チャネルの前記目標周波数の異なる周波数を含み、前記スピーカによってレンダリングされるときに前記目標周波数の音響心理学的効果を生じさせる、請求項12に記載の方法。
- 前記前方変換は、目標周波数が0ヘルツにマッピングされるように前記直交成分の前記スペクトルを回転させ、
前記逆変換は、0ヘルツが前記目標周波数にマッピングされるように前記重み付けされた位相コヒーレント高調波スペクトル直交成分の前記スペクトルを回転させる、
請求項12に記載の方法。 - 前記目標周波数は、前記目標周波数の中心周波数である、請求項12に記載の方法。
- 前記目標周波数は、18ヘルツ~250ヘルツの周波数を含む、請求項12に記載の方法。
- 前記目標周波数は、前記高調波スペクトル成分の周波数よりも低い、請求項12に記載の方法。
- 前記回路によって、
前記スピーカの再現可能範囲、
前記スピーカの電力消費の低減、または
前記スピーカの増大した寿命、
のうちの少なくとも1つに基づいて前記目標周波数を判定するステップを更に備えた、請求項12に記載の方法。 - 前記スピーカは、モバイルデバイスの構成要素である、請求項12に記載の方法。
- 前記回路によって、ゲート関数を使用して、目標規模において前記成分を分離するステップを更に備えた、請求項12に記載の方法。
- 前記回路によって、前記分離した成分に平滑化関数を適用するステップを更に備えた、請求項12に記載の方法。
- 前記スケール独立非線形性は、因数分解された規模による第1の種類のチェビシェフ多項式の重み付け合計を含む、請求項12に記載の方法。
- 記憶した命令を含む非一時的コンピュータ可読媒体であって、前記命令は、少なくとも1つのプロセッサによって、
音声チャネルの直交表現を定義した前記音声チャネルから直交成分を生成し、
標準基底から回転基底に前記直交成分のスペクトルを回転させる前方変換を適用することによって、回転スペクトル直交成分を生成し、
前記回転基底において、
目標周波数において前記回転スペクトル直交成分の成分を分離し、
前記分離した成分にスケール独立非線形性を適用することによって、重み付けされた位相コヒーレント高調波スペクトル直交成分を生成し、
前記回転基底から前記標準基底に前記重み付けされた位相コヒーレント高調波スペクトル直交成分のスペクトルを回転させる逆変換を適用することによって、高調波スペクトル成分を生成し、
出力チャネルを生成するよう、前記目標周波数の外の前記音声チャネルの周波数と前記高調波スペクトル成分を組み合わせ、
スピーカに前記出力チャネルを提供する、
ように前記少なくとも1つのプロセッサを構成する、非一時的コンピュータ可読媒体。 - 前記高調波スペクトル成分は、前記音声チャネルの前記目標周波数の異なる周波数を含み、前記スピーカによってレンダリングされるときに前記目標周波数の音響心理学的効果を生じさせる、請求項23に記載の非一時的コンピュータ可読媒体。
- 前記前方変換は、目標周波数が0ヘルツにマッピングされるように前記直交成分の前記スペクトルを回転させ、
前記逆変換は、0ヘルツが前記目標周波数にマッピングされるように前記重み付けされた位相コヒーレント高調波スペクトル直交成分の前記スペクトルを回転させる、
請求項23に記載の非一時的コンピュータ可読媒体。 - 前記目標周波数は、前記目標周波数の中心周波数である、請求項23に記載の非一時的コンピュータ可読媒体。
- 前記目標周波数は、18ヘルツ~250ヘルツの周波数を含む、請求項23に記載の非一時的コンピュータ可読媒体。
- 前記目標周波数は、前記高調波スペクトル成分の周波数よりも低い、請求項23に記載の非一時的コンピュータ可読媒体。
- 前記命令は、
前記スピーカの再現可能範囲、
前記スピーカの電力消費の低減、または
前記スピーカの増大した寿命、
のうちの少なくとも1つに基づいて前記目標周波数を判定するように前記少なくとも1つのプロセッサを更に構成する、請求項23に記載の非一時的コンピュータ可読媒体。 - 前記スピーカは、モバイルデバイスの構成要素である、請求項23に記載の非一時的コンピュータ可読媒体。
- 前記命令は、ゲート関数を使用して、目標規模において前記成分を分離するように前記少なくとも1つのプロセッサを更に構成する、請求項23に記載の非一時的コンピュータ可読媒体。
- 前記命令は、前記分離した成分に平滑化関数を適用するように前記少なくとも1つのプロセッサを更に構成する、請求項23に記載の非一時的コンピュータ可読媒体。
- 前記スケール独立非線形性は、因数分解された規模による第1の種類のチェビシェフ多項式の重み付け合計を含む、請求項23に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962884607P | 2019-08-08 | 2019-08-08 | |
US62/884,607 | 2019-08-08 | ||
PCT/US2020/045137 WO2021026314A1 (en) | 2019-08-08 | 2020-08-06 | Nonlinear adaptive filterbanks for psychoacoustic frequency range extension |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022543849A true JP2022543849A (ja) | 2022-10-14 |
JP7270836B2 JP7270836B2 (ja) | 2023-05-10 |
Family
ID=74498116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022507651A Active JP7270836B2 (ja) | 2019-08-08 | 2020-08-06 | 音響心理学的周波数範囲拡張のための非線形適応フィルタバンク |
Country Status (8)
Country | Link |
---|---|
US (1) | US11006216B2 (ja) |
EP (1) | EP3991169A4 (ja) |
JP (1) | JP7270836B2 (ja) |
KR (1) | KR102578008B1 (ja) |
CN (1) | CN114467313B (ja) |
BR (1) | BR112022002100A2 (ja) |
TW (1) | TWI740599B (ja) |
WO (1) | WO2021026314A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117678014A (zh) * | 2021-07-08 | 2024-03-08 | 博姆云360公司 | 使用全通滤波器网络的仰角感知线索的无色生成 |
CN117616780A (zh) * | 2021-07-15 | 2024-02-27 | 博姆云360公司 | 用于心理声学频率范围扩展的使用尺度依赖非线性的自适应滤波器组 |
US11838732B2 (en) * | 2021-07-15 | 2023-12-05 | Boomcloud 360 Inc. | Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012528344A (ja) * | 2009-05-27 | 2012-11-12 | ドルビー インターナショナル アーベー | オーディオ信号の高周波成分を生成するシステム及び方法 |
US20120316885A1 (en) * | 2011-06-10 | 2012-12-13 | Motorola Mobility, Inc. | Method and apparatus for encoding a signal |
US20160267917A1 (en) * | 2010-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals |
US20180213342A1 (en) * | 2016-03-16 | 2018-07-26 | Huawei Technologies Co., Ltd. | Audio Signal Processing Apparatus And Method For Processing An Input Audio Signal |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60043585D1 (de) | 2000-11-08 | 2010-02-04 | Sony Deutschland Gmbh | Störungsreduktion eines Stereoempfängers |
US8532998B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
KR101365388B1 (ko) * | 2009-05-18 | 2014-02-19 | 하만인터내셔날인더스트리스인코포레이티드 | 효율 최적화된 오디오 시스템 |
US8971551B2 (en) * | 2009-09-18 | 2015-03-03 | Dolby International Ab | Virtual bass synthesis using harmonic transposition |
US8755447B2 (en) | 2010-12-22 | 2014-06-17 | Shure Acquisition Holdings, Inc. | Wireless audio equipment using a quadrature modulation system |
EP2685448B1 (en) * | 2012-07-12 | 2018-09-05 | Harman Becker Automotive Systems GmbH | Engine sound synthesis |
EP2907324B1 (en) * | 2012-10-15 | 2016-11-09 | Dolby International AB | System and method for reducing latency in transposer-based virtual bass systems |
BR122020020705B1 (pt) | 2013-04-05 | 2022-05-03 | Dolby International Ab | Método de decodificação, decodificador, método de codificação e codificador e de áudio para codificação de forma de onda interestratificada |
US9883312B2 (en) | 2013-05-29 | 2018-01-30 | Qualcomm Incorporated | Transformed higher order ambisonics audio data |
WO2015000819A1 (en) | 2013-07-05 | 2015-01-08 | Dolby International Ab | Enhanced soundfield coding using parametric component generation |
US10134412B2 (en) | 2015-09-03 | 2018-11-20 | Shure Acquisition Holdings, Inc. | Multiresolution coding and modulation system |
US9641191B1 (en) * | 2015-11-12 | 2017-05-02 | Guzik Technical Enterprises | Digital down converter with equalization |
EP3171362B1 (en) * | 2015-11-19 | 2019-08-28 | Harman Becker Automotive Systems GmbH | Bass enhancement and separation of an audio signal into a harmonic and transient signal component |
US10075789B2 (en) * | 2016-10-11 | 2018-09-11 | Dts, Inc. | Gain phase equalization (GPEQ) filter and tuning methods for asymmetric transaural audio reproduction |
JP6968376B2 (ja) | 2017-07-23 | 2021-11-17 | ウェイヴス オーディオ リミテッド | ステレオ仮想バス拡張 |
-
2020
- 2020-08-06 CN CN202080067848.XA patent/CN114467313B/zh active Active
- 2020-08-06 WO PCT/US2020/045137 patent/WO2021026314A1/en unknown
- 2020-08-06 KR KR1020227007545A patent/KR102578008B1/ko active IP Right Grant
- 2020-08-06 BR BR112022002100A patent/BR112022002100A2/pt unknown
- 2020-08-06 US US16/986,792 patent/US11006216B2/en active Active
- 2020-08-06 EP EP20849105.0A patent/EP3991169A4/en active Pending
- 2020-08-06 JP JP2022507651A patent/JP7270836B2/ja active Active
- 2020-08-07 TW TW109126951A patent/TWI740599B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012528344A (ja) * | 2009-05-27 | 2012-11-12 | ドルビー インターナショナル アーベー | オーディオ信号の高周波成分を生成するシステム及び方法 |
US20160267917A1 (en) * | 2010-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals |
US20120316885A1 (en) * | 2011-06-10 | 2012-12-13 | Motorola Mobility, Inc. | Method and apparatus for encoding a signal |
US20180213342A1 (en) * | 2016-03-16 | 2018-07-26 | Huawei Technologies Co., Ltd. | Audio Signal Processing Apparatus And Method For Processing An Input Audio Signal |
Also Published As
Publication number | Publication date |
---|---|
KR20220044566A (ko) | 2022-04-08 |
TW202111691A (zh) | 2021-03-16 |
TWI740599B (zh) | 2021-09-21 |
BR112022002100A2 (pt) | 2022-04-12 |
EP3991169A1 (en) | 2022-05-04 |
JP7270836B2 (ja) | 2023-05-10 |
CN114467313B (zh) | 2023-04-14 |
KR102578008B1 (ko) | 2023-09-12 |
US20210044898A1 (en) | 2021-02-11 |
EP3991169A4 (en) | 2023-07-12 |
CN114467313A (zh) | 2022-05-10 |
WO2021026314A1 (en) | 2021-02-11 |
US11006216B2 (en) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7270836B2 (ja) | 音響心理学的周波数範囲拡張のための非線形適応フィルタバンク | |
JP7437493B2 (ja) | スペクトル直交オーディオ成分処理 | |
US10362396B2 (en) | Phase control signal generation device, phase control signal generation method, and phase control signal generation program | |
KR102698128B1 (ko) | 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크 | |
US11838732B2 (en) | Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension | |
KR20240132101A (ko) | 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크 | |
CN117616780A (zh) | 用于心理声学频率范围扩展的使用尺度依赖非线性的自适应滤波器组 | |
TWI727605B (zh) | 用於音訊處理之系統,方法以及非暫時性電腦可讀媒體 | |
KR20230148202A (ko) | 제약 조건이 있는 컬러리스 디코럴레이션을 위한 올패스 네트워크 시스템 | |
CN117641200A (zh) | 滤波器参数确定方法、装置、设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7270836 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |