JP6306718B2 - 欠落データにわたる正弦波内挿 - Google Patents

欠落データにわたる正弦波内挿 Download PDF

Info

Publication number
JP6306718B2
JP6306718B2 JP2016544134A JP2016544134A JP6306718B2 JP 6306718 B2 JP6306718 B2 JP 6306718B2 JP 2016544134 A JP2016544134 A JP 2016544134A JP 2016544134 A JP2016544134 A JP 2016544134A JP 6306718 B2 JP6306718 B2 JP 6306718B2
Authority
JP
Japan
Prior art keywords
segment
peak
spectrum
interpolation
peaks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016544134A
Other languages
English (en)
Other versions
JP2017509006A (ja
Inventor
バスティアン クレイン、ウィレム
バスティアン クレイン、ウィレム
ザキザデ シャベスタリー、トゥーラジ
ザキザデ シャベスタリー、トゥーラジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2017509006A publication Critical patent/JP2017509006A/ja
Application granted granted Critical
Publication of JP6306718B2 publication Critical patent/JP6306718B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/27Built-in tests
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Noise Elimination (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

異なる装置間でのパケット紛失およびクロックドリフトによって、オーディオ信号の欠落セグメントや不連続性が生じ得る。オーディオ信号に対するゼロ挿入およびオーディオ信号の不連続性はどちらも聴者にはっきり聴き取られる。
オーディオ信号の連続性の修復のための様々なアプローチが提案されているが、そのようなアプローチは通常発話信号(speech signals)のみを対象にしたものであり、オーディオ全般についてはうまく機能しない。
本概要は、本開示のいくつかの基本的な態様の理解のために、いくつかの技術的思想を単純化した形態で紹介する。本概要は、本開示の広範囲な概観ではなく、開示の主要なまたは重大な要素を特定したり開示の範囲を明示するようには意図されない。本概要は、以下の詳細な説明の前段として本開示の技術的思想のうちのいくつかを示すのみである。
本開示は、通常信号処理のための方法およびシステムに関する。より具体的には、本開示の態様は、内挿演算および外挿演算を使用して、オーディオ信号の欠落セグメントや不連続性の包隠(concealing)に関する。
本開示の一実施形態は、オーディオ信号中の欠落セグメントの両対向側にある複数のセグメントのスペクトルを計算すること;前記計算後のスペクトルのうち強度のあるピーク(magnitude peaks)を決定すること;前記決定された複数のピークを強度によって順序づけること;前記複数のピークから前記欠落セグメントの対向側における複数の近隣ピークを決定して、複数対のスペクトルピークを形成すること;前記複数対のスペクトルピークを用いる内挿を前記オーディオ信号の前記欠落セグメントにわたって行い、前記欠落セグメント用の修復データを生成することを含む、コンピュータ実装方法に関する。
別例において、コンピュータ実装方法は、前記欠落セグメントの両対向側にある前記複数のセグメントのデータで前記修復データをフェードすることを更に含む。
別例において、コンピュータ実装方法は、前記信号の強度スペクトル(magnitude spectrum)をスムージングすること;スムージング済みスペクトルの局所的傾斜の符号を決定すること;前記局所的傾斜の符号が正から負に変化する地点に基づき前記複数のピークの評価を生成すること:スムージングされていない信号を、対応する評価済みピークの近傍で検索することにより、前記複数のピークの各々の真の位置を決定することとを更に含む。
別例において、行われる内挿のレベルは、補間器によって生成される瞬間的波形と既知の信号セグメントから評価される瞬間的波形との整列の測度を最大にするように、内挿区間(interpolation intervals)の範囲から選択される。
本開示の別例は、オーディオ信号中の欠落セグメントの第1側に位置する第1のセグメントのスペクトルおよび前記オーディオ信号中の前記欠落セグメントの第2側に位置する第2のセグメントのスペクトルを計算すること;前記第1のセグメントおよび前記第2のセグメントのスペクトルにおける、ピークに対応する複数のオブジェクトを特定すること;特定された複数のオブジェクトを対応するピークの振幅によってソートすること;ソートされた複数のオブジェクトのインデックスを決定すること;前記複数のオブジェクトのうちの少なくとも1つに対して、マッチングオブジェクトを特定することを含む、コンピュータ実装方法に関する。
更なる別例において、コンピュータ実装方法では、第1のセグメントおよび第2のセグメントのスペクトルにおける複数のオブジェクトを特定する工程が、オブジェクトリストを生成することを含み、前記第1のセグメントの前記スペクトルおよび前記第2のセグメントの前記スペクトルの両者の各ピークにつき1つのオブジェクトがある。
更なる別例において、オブジェクトのうちの少なくとも1つにおいて、コンピュータ実装方法では、マッチングオブジェクトを特定する工程は、一つのオブジェクトについて、他のすべてのオブジェクトに対する検索を行うことにより、マッチングオブジェクトの候補を特定すること;、前記マッチングオブジェクトの候補から、マッチングオブジェクトを既に有するすべてのオブジェクトを取り除くこと;残りのマッチングオブジェクトの候補の各々について、マッチング基準を評価すること;残りのマッチングオブジェクトの候補のうちの1つを、前記評価したマッチング基準に基づき、前記オブジェクトに対するマッチングオブジェクトとして選択することとを含む。
更なる別例において、コンピュータ実装方法は、残りのマッチングオブジェクトの候補を、相補スペクトルからのピークを備えるオブジェクトと、近隣周波数のピークを備えるオブジェクトとに制限することを更に含む。
更なる別例において、コンピュータ実装方法は、マッチングオブジェクトの候補のないオブジェクトを特定すること;そのオブジェクトの周波数と同一の周波数を有するとともにその同一の周波数でゼロ振幅または相補スペクトルの振幅のいずれかを有する仮想ピークを生成することを更に含む。
別例において、コンピュータ実装方法は、マッチングオブジェクトの候補のないオブジェクトを特定することと、複数のオブジェクトからオブジェクトを取り除くこととを更に含む。
本開示の更なる別例は、オーディオ信号中の欠落セグメントの両対向側にある複数のセグメントのスペクトルを計算すること;前記計算後のスペクトルのうち強度のあるピークを決定すること;前記決定された複数のピークを強度によって順序づけること;前記複数のピークから前記欠落セグメントの対向側における複数の近隣ピークを決定して、複数対のスペクトルピークを形成すること;前記オーディオ信号の前記欠落セグメントの区間にわたって内挿を行なうことを含み、その区間の長さは、位相オフセットの振幅に応じて重み付けした位相オフセットの対応する組を整列することに基づいて決定される、コンピュータ実装方法に関する。
1つ以上の別例において、開示した方法およびシステムは、以下の付加的な特徴のうちの1つ以上を含む。内挿は正弦波内挿である;各ピーク対は、欠落セグメントの第1側における第1のピークと、欠落セグメントの第2側における第2のピークとから構成される;最も高いピークで始まる近隣ピークの決定が前記複数のピークの各々について行われる;修復データは、欠落セグメントの両対向側にある前記複数のセグメントのデータで重畳加算演算を使ってフェードされる;前記信号の前記強度スペクトルは、当該スペクトルにローパスフィルタを適用することによりスムージングされる;内挿区間の範囲は、予期されるパケット紛失と一致するレベルまで受信装置のジッタバッファを満たすように選択される;マッチングオブジェクトの特定は、前記複数のオブジェクトのうちの前記少なくとも1つについて、ソート済みの複数のオブジェクトのインデックスに従って、最大ピークのオブジェクトから開始して最小ピークのオブジェクトまで続けられる;オブジェクトリストは、当該リスト中の複数のオブジェクトの各々について、対応するピークの振幅、対応するピークが位置する周波数、対応するピークが第1あるいは第2のスペクトルに属するかどうかを示すラベル、および対応するピークが属しているスペクトルに対して相補的なスペクトル中のマッチングピークの位置を含む;かつ/または、残りのマッチングオブジェクトの候補のうちの前記1つは、評価したマッチング基準における最高値を有するマッチングオブジェクトの候補に基づき、前記マッチングオブジェクトとして選択される。
以下の詳細な説明から本開示の更なる適用可能な範囲が明らかになるであろう。しかしながら、本開示の趣旨および範囲内での様々な変更および修正が、この詳細な説明から当業者に明らかになるであろう。従って、詳細な説明および特定の例が好ましい実施形態を示し、例示のためにのみ示されることが理解されるべきである。
本開示のこれらおよび他の課題、特徴、および特性は、添付の特許請求の範囲および図面と組み合わせて以下の詳細な説明に関する研究から当業者により明らかになるであろう。これらのすべては本明細書の一部をなす。
図1は、開示した1つ以上の実施形態に従う、内挿演算および外挿演算を使用して、オーディオ信号の欠落セグメントや不連続性を包隠するための例示の適用を示す概略図である。 図2は、開示した1つ以上の実施形態に従う、信号に対する内挿演算および外挿演算の単純化された例を示す概略図である。 図3は、開示した1つ以上の実施形態に従う、修復されるオーディオ信号のセグメントの過去の端部および未来の端部でのデータが利用可能である例示の内挿方法を示すフローチャートである。 図4は、開示した1つ以上の実施形態に従う、ピーク抽出のための例示の方法を示すフローチャートである。 図5は、開示した1つ以上の実施形態に従う、相補ピークの対を選択する例示の方法を示すフローチャートである。 図6は、開示した1つ以上の実施形態に従う、例示のオブジェクトペアリング方法を示すフローチャートである。 図7は、開示した1つ以上の実施形態に従う、オーディオ信号の欠落セグメントの過去および未来のスペクトルにおける正弦波のピークに対応するオブジェクトについての例示のデータを示す表である。 図8は、開示した1つ以上の実施形態に従う、正弦内挿および外挿に基づく、オーディオ信号の欠落セグメントや不連続性を包隠するように構成される例示のコンピューティングデバイスを示すブロック図である。
ここに提供される標題は便宜のためのみであり、本開示で請求されるものの範囲や意味に必ずしも影響しない。
図面において、同様の参照符号および任意の頭文字は、容易に理解するためおよび便宜のために要素を特定するか、あるいは同様または類似の構造体や機能と作用する。図面は、次の詳細な説明の間に詳細に記載されるであろう。
[概観]
様々な例および実施形態が開示される。以下に、完全な理解のための特定の詳細およびこれらの例を可能とする記載が開示される。当業者は、しかしながら、ここに開示した1つ以上の実施形態がこれらの詳細の多くを伴うことなく実施可能であることを理解するであろう。同様に、当業者は、本開示の1つ以上の実施形態がここに詳細に開示されない他の多くの明らかな特徴を含むことができると理解するであろう。加えて、いくつかの周知な構造体あるいは機能は、不必要に関連する記載を不明瞭にしないように以下に詳細には示されず、開示されない。
本開示の実施形態は、オーディオ信号の欠落セグメントや不連続性を包隠し(例えば修復し)、これによりそのオーディオ信号の連続性を修復するための方法およびシステムに関する。この方法およびシステムは、内挿演算および外挿演算に基づきオーディオセグメントを伸張あるいは短縮することに更に使用される。
オーディオ信号の欠落セグメントや不連続性を修復する方法は、パケット紛失の包隠方法と呼ばれることもある。従来のパケット紛失の包隠方法は、典型的には発話のみを対象とする。その理由として、発話信号は、再送信が可能でないリアルタイムアプリケ―ションにおいて一般に行われることが挙げられる。しかしながら、インターネット系アプリケ―ションの増加により、一般的なオーディオ信号のためのパケット紛失の包隠がより重要になっている。発話のみを対象とする既存のパケット紛失包隠方法は、発話信号のピッチ構造に極度に依存し、その結果、発話信号の構造が通常より複雑であり、発話に使用することができる単純モデルによってはうまく表現できない音楽においては、これらの方法はうまく行われない。従って、本開示の方法およびシステムは、(発話のみに対するよりも概括的な意味における)オーディオアプリケ―ションにおいてうまく行われるように構成される。
上述した既存のアプローチの不十分さを考慮して、本開示の実施形態は、リアルタイムに作動することができる、オーディオ信号のパケット紛失および不連続性を包隠するための方法およびシステムを提供する。
ここにより詳細に開示されるように、内挿が外挿に続き、測定データが内挿に続く。内挿および外挿の両演算は、オーディオ信号を正弦波の和として示す。1つ以上の実施形態では、外挿の場合、1組の正弦波が、最後に観測されるデータ中に検知され、内挿の場合には、第1の組の正弦波が欠落セグメントの前に観測または生成されるデータ中に検知され、第2の組の正弦波が欠落データセグメントの後の観測中に検知される。
ここに開示される少なくとも1つの実施形態では、本開示の内挿方法は、欠落セグメントの前及び後に観測される複数の正弦波を対にする前にそれらの振幅によって正弦波をソートする。正弦波は複素指数関数の実部として示される。正弦波の複素利得および周波数は線形に内挿される。
より詳細に後述するように、内挿方法は2つのモード、すなわち、同期モードおよび非同期モードで作動可能である。同期モードでは、欠落データのセグメントの長さは固定である(かつ通常オリジナルの信号と一致する)。内挿モデルが同期モードにおいて欠落データに適合しない場合、複素指数関数がそれらの振幅に偏移を持たせることになり、これは聴き取られ得る。非同期モードでは、欠落データセグメントの長さはこれらの偏移の有意さを低減するように調整される。
図1は、本開示の1つ以上の実施形態に従う、オーディオ信号の外挿および内挿のための例示的適用を示す。例えば、2人のユーザ(例えば、ミュージシャン)120aおよび120bが異なる物理的な位置(例えば遠隔の環境)で音楽を演奏しており、ユーザ120aは「位置1」におり、ユーザ120bは「位置2」にいる。更に、ユーザ120aおよび120bは、例えば有線接続またはネットワークを介して互いに通信し、ユーザ120aおよび120bの各々は、オーディオ(例えば音楽)信号をレンダリングおよびキャプチャをそれぞれするためのスピーカ105およびマイクロホン110を有する。複数の信号源105(例えばスピーカ)が、複数のセンサ120(例えばマイクロホン、人、他のオーディオキャプチャ装置など)の間に配置される。
通信網を介してデータ(例えばオーディオ)パケットを送信する場合、パケットが長期間欠落したり、ネットワークの受信側で受信される前に、すべて紛失することがある。パケットが送信の間に欠落する場合、データのそのような紛失を補うために何かを行う必要がある。例えば、1つの既存のアプローチは欠落データの代わりにゼロを挿入することにある。しかしながら、このようなアプローチは、ユーザが劣化した性能およびオーディオ品質にさらされるため不十分な解決策を提供する。
発話信号の修復を目的とする他の従来のパケット紛失の包隠方法は、典型的には自己回帰(AR)モデル(例えばフィルタ)あるいはそのいくつかの近似法により信号の受信セグメントを外挿する。発話用自己回帰モデルは、通常短期的モデルと長期的モデルとを連結したものとして見られる。短期的モデルはスペクトル包絡線を記述し、長期的モデルはピッチ構造を記述する。パケット紛失の包隠にとってより重要なのは長期的モデルであり、これは典型的には2.5乃至15ミリ秒(ms)の範囲の相関性をキャプチャする。いくつかの場合において、長期的モデルは、単一性フィルタ利得が割り当てられる。パケット紛失の包隠に対するいくつかの既存のアプローチは、欠落サンプルのギャップに対し、ゼロの励起(excitation)によるARモデル(例えばフィルタ)であって、最初のフィルタ状態がギャップの前の信号に基いたものであるARモデルを実行することにより、欠落セグメントの最小平均二乗誤差の外挿の評価をなす。
包隠演算を開始するときに信号の過去のセグメントおよび未来のセグメントの両者が分れば、内挿が使用され得る。内挿的アプローチは、信号修復(例えば損傷した録音のため)に従来使用されており、これは典型的により短いギャップを含む。
AR信号モデルに基づく既存の内挿の一方法は、エンコーダをカルマン推定器のための1組の測定とみなす完全なコード体系について開示する。カルマン推定器は、パケットが失われる際に最適な内挿を自然に導き、ギャップに関して未来および過去における既知のデータを占め得る。しかしながら、この既存のアプローチは既存のコーダと組み合わせた演算に対して互換性をもたない。
いくつかの既存のアプローチは、データが欠落したセグメントに対する外挿あるいは内挿のためのARモデル以外の方法を探究する。例えば、1つのアプローチは、ギャップの前及び後の信号のスペクトルから特定される正弦波間の内挿に、周知の正弦波のモデルを使用する。他のアプローチは、適切な基底ベクトルおよびARモデルの和として信号をモデル化し、次に、基底ベクトルおよびARモデル信号の寄与の利得を同時に最適化する。基底ベクトルは正弦波にあり得るが、基底ベクトルの有効な選択プロセスはこの方法では提供されない。
一般に、既存の内挿方法はコンピュータ的に高価である。例えば、1つのアプローチは、線形予測子により欠落データの非常に長いセグメントにわたって正弦波の時間−周波数トラックを予測することを試みる。実際上、そのようなトラックの予測は信頼できるものとされない。別のアプローチでは、調波の正弦波のモデルは、隠れマルコフモデル(HMM)と組み合わされて既知の発話セグメント間に内挿を行うことに使用され、発話の要素の展開を追跡する。調波の仮定は、そのような方法がオーディオ信号に有効ではないことを示唆する。
オーディオ包隠に対する既存のアプローチの様々な短所を克服するために、本開示の実施形態は欠落セグメントに対する外挿および内挿のための改善された方法およびシステムを提供する。ここに詳細に後述するように、方法およびシステムはオーディオ信号を対象に構成され、正弦波の内挿および外挿に基づいており、正弦波が調波であるという仮定に依存しない。
既存のアプローチに対する他の効果および改良とともに、本開示の方法およびシステムは、(i)非同期内挿を促進し、(ii)信号が調波であれば時間領域(time-domain)波形内挿に対応する内挿手順を使用し、(iii)オーディオ信号に対して有効であるピーク選択手順を有する。
以下、本開示の正弦波に基づく内挿および外挿アプローチの動機を示し、本方法の全体的な構成について詳細に示し、本システムを含む様々な要素について更に開示する。
フーリエ変換は複素指数関数の基礎における信号(例えばオーディオ信号)を表す。信号は実在のものであるため、複素指数における拡張は、正弦波における拡張として再構成され得る。従って、スペクトルのピークは、ピーク周波数における正弦波の利得として解釈され得る。フーリエ変換は定常状態の正弦波の点から信号を拡張する(個別のフーリエ変換の場合には、正弦波は有限の時間セグメントにわたって拡張する)が、この分野での通常の拡張は、信号を、連続的に変化する利得および周波数を有する正弦波の和と見なすことにある。ウィンドウ化された信号セグメントに対するフーリエ変換は、正弦波を表す各ピークでこれらの正弦波の状態のおおよそのスナップショットと解釈することができる。このスナップショットにおけるピークからの徐々の強度ロールオフ(これは、スナップショットの有限の分解と更に考えられる)は、有限のウィンドウ長さを使用することによる副作用である。スナップショット間に個別の正弦波を内挿することが続いて可能である。この原理は、ここに開示される1つ以上の実施形態に従う、オーディオ信号の欠落セグメントに対する内挿のための方法およびシステムの基礎の部分を形成する。
より詳細に後述するように、本開示のアルゴリズムは、連続する欠落データのサンプルのセグメント(そのようなセグメントはオーディオ信号の欠落セグメントあるいは不連続性である)を修復することを目的とする。データは欠落データセグメントの過去の端部で略常に利用可能であるが、このデータは必ずしもセグメントの未来側についての場合ではない。少なくとも1つの実施形態では、アルゴリズムが開始される前に、修復されるデータセグメントの長さは特定される。修復セグメントは欠落データセグメントよりも短く、これにより、欠落セグメントの未来側のデータがまだ受信されていない場合を考慮に入れることができる。その場合、アルゴリズムは外挿を行う。データが欠落セグメントの未来側で利用可能なシナリオでは、続いて内挿が欠落セグメントに対して行われる。従って、方法の少なくとも1つの実施形態では、後の組の外挿演算に内挿演算が続き、内挿演算は、欠落データセグメントの修復を終える。
図2は、ここに開示される1つ以上の実施形態に従う、信号205(例えばオーディオ信号)に対する内挿(220)および外挿(210)の演算を単純化した例である。外挿(210)の適用は、外挿済み信号を、欠落データセグメントの未来端で、外挿済みデータと信号データとの間の併合演算に供するARモデルベースのシステムで広く使用されるものとは異なる。
図3は、ここに開示される1つ以上の実施形態に従う例示の内挿演算300を示し、ここでは、データが、修復対象のオーディオ信号のセグメントの過去の端部および未来の端部の両方で(例えばオーディオ信号の欠落セグメントに連続する前及び後で)利用可能である。
ブロック305では、既に利用可能でなければ、欠落セグメントの前及び後に位置するオーディオ信号の(例えば、欠落セグメントの直前および直後にすなわち前及び後に連続して位置する)セグメント(例えば第1および第2のセグメント)の短期の複素スペクトルが計算される。少なくとも1つの例において、欠落セグメントの前に(例えば、時間的により以前に)連続して来るオーディオ信号のセグメントは、欠落セグメントの第1側(すなわち過去の端部)にあると見なされ、欠落セグメントの後に(例えば、時間的に以後に)連続して来るセグメントは、欠落セグメントの第2側(すなわち未来の端部)にあると見なされる。
ブロック310では、ブロック305で計算されたスペクトルの強度のある複数のピーク(magnitude peaks)が決定される。
ブロック315では、ブロック310で決定されたピークが強度によって順序づけられる(例えば、配列される、リスト化されるなど)。例えば、少なくとも1つの実施形態では、ブロック310で決定されたピークは、リスト形式に配置され、強度の降順または昇順によりソートされる。欠落セグメントの過去の端部および未来の端部のピークが単一のリストに含まれることに注目されるべきである。例えば、ブロック310におけるリストは、ピークが欠落セグメントの過去の端部または未来の端部に属するかどうかの各ピークの情報を含む。
ブロック320では、各ピークについて、最も高いピークから開始して、欠落データセグメント(オーディオ信号の)の反対側において近隣するもの決定される。少なくとも1つの実施形態では、近隣ピークとして既に選択されているピークは、ブロック320の実行の間にスキップされる。強度によるピークのソートにより、最も高いピークが確実に適切な近隣ピークを有する。ブロック320では、演算は、不対の聴的性能に対して重大でない小さなピークを残すことを注目すべきである(残りのピークに対処する1つの方法をより詳細に後述する)。
ブロック325では、欠落データセグメントの未来の端部および過去の端部でのスペクトルのピークの対が、セグメントにわたる内挿の基礎として使用される。
ブロック330では、内挿段階の過去の端部および未来の端部における重畳加算演算により既存のデータを使ってデータがフェード(fade)される。
1つ以上の実施形態では、本開示の外挿演算は、未来の端部のスペクトルが位相の適切な前進(precession)により過去の端部のスペクトルに代えられる点を除いて、内挿演算と同様である。正弦波の周波数は外挿中に一定であると仮定される。少なくとも1つの実施形態では、フェージング演算は、別の外挿が続く場合、外挿演算の未来の端部で省略される。他方、フェージング演算に内挿が続く場合、フェージングは未来および過去のピークの対の一部でない小さなピークを占めるために必要である。
以下に、本開示のパケット紛失の包隠方法の要素に関する付加的な詳細を示す。
スペクトル評価およびピーク抽出
正弦波を内挿することができるように、欠落セグメントの両端部(未来の端部および過去の端部)でこれらを検知する必要があるが、外挿はセグメントの過去の端部で検知されている正弦波に依存する。この検知は様々な方法を使用して行われるが、正弦波の知覚的に正確な内挿を促進する正確さによりピーク振幅および周波数を見つけることが重要である。例えば、少なくとも8Hzの周波数分解能は、この目的のためにうまく機能する。
少なくとも1つの実施形態では、32ミリ秒(ms)のウィンドウが使用される。16kHzで、このウィンドウは512のサンプルに対応する。信号は2048の一連のサンプルを得るためにHannウィンドウでウィンドウ化されるとともにゼロパディングされ、高速フーリエ変換(FFT)が行われる。
図4は、ピーク抽出の例示のプロセスを示す。ピーク抽出のプロセス400は強度スペクトルに対して行われ、少なくとも実施形態では、ブロック405乃至420を含む。ブロック405では、強度スペクトルは小さな局所的ピークが確実に考慮されないようにローパスフィルタリング(例えば、スムージング)される。少なくとも1つの実施では、ブロック405でスペクトルに対するこのローパスフィルタリングはおおよそ0.02秒の帯域幅で行われる。
ブロック410では、ブロック405からのスムージングされたスペクトルの局所的傾斜の符号が決定される。
ブロック415では、ピークの最初の評価は、当該傾斜の符号が正から負に変化する地点に基づき生成される。
ブロック420では、最初のピーク評価の近隣で、元の未スムージング信号における真のピーク位置が検索される。例えば、少なくとも1つの実施形態では、ブロック420で検索される領域は、帯域幅の逆数の半分(例えば25Hz)であり得る。
[対選択]
内挿の例において、欠落信号のセグメントの過去の端部および未来の端部で特定される重要な正弦波は対にされる。少なくとも1つの実施形態では、本開示の方法はピークを順序づけ、続いて最も高いピークから開始して、適切な相補ピークを見つける。最大のピークから開始することは、重大な誤一致の数が少ないことを示す(誤一致があったとしても小さなピークにのみ通常生じる等)。
図5は、ここに開示される1つ以上の実施形態に従う、相補ピークの対を選択するための例示のプロセス500を示す。ブロック505でプロセス500は複数のオブジェクト(例えば、オブジェクトリストや収集を生成する)を特定する。1つのオブジェクトが過去および未来のスペクトルの両者の各ピークについて特定される。課題はオブジェクトに対してマッチングするものを見つけることにある。少なくとも1つの実施形態では、特定されるオブジェクトはそれぞれ4つのラベルを有する:(1)ピーク振幅;(2)ピークが位置する周波数;(3)ピークが未来または過去のスペクトルに属するかどうかを明示するラベル;(4)相補スペクトルにおけるマッチングピークの位置(マッチングするものがない場合、空またはゼロ)。
図7は、上述するとともに図5に示す例示のプロセス500のブロック505で特定されるオブジェクトの各々についてのデータを含む例示の表700を示す。少なくとも1つの実施形態では、表700は、表700を含むエントリーの各々を特定するエントリー(あるいは列)番号705を含む。表700におけるエントリー705はそれぞれ、異なるオブジェクト710(例えば、例示のプロセス500のブロック505で特定されるオブジェクト)であり、オブジェクト710の各々において、オブジェクトの振幅(例えばピーク振幅)715、オブジェクトが位置する周波数720、オブジェクトが未来または過去のスペクトルに属するかどうかを示すラベル725、および相補スペクトルにおけるマッチングピークの表700における位置(例えば、エントリー番号705)(マッチングするものがない場合、空であるかゼロを含む)を含む。ここに開示される1つ以上の実施形態において、表700は上述した例示のデータおよびフォーマットに加えて、あるいはこれに代えて、様々な他のフォーマットで設けられる様々な他のデータを含み、これらは例示の目的にのみ提供される。
図5の例示のプロセス500に戻り、ブロック510では、ピークの振幅によってソートしたときのオブジェクトのインデックスが決定される。ブロック515では、ソートされたリスト中の一連のインデックスを使用して、最大ピークを備えるオブジェクトから最小ピークを備えるオブジェクトまで移り、各オブジェクトについて個別に実際に対にされる。ブロック515のオブジェクトの対に関する付加的な詳細を図6を参照して後述する。ブロック520では、欠落データセグメントの未来の端部および過去の端部のピークの対(ブロック515で形成される)は、セグメントにわたる内挿の基礎として使用される。
図6は、オブジェクトを対にする例示のプロセスを示す。ここに開示される1つ以上の実施形態に従う例示のプロセス600(ブロック605乃至640)は、上述するとともに図5に示した例示のプロセス500におけるブロック515の一部である。ブロック515では、ソートされたリスト中の一連のインデックスにより、最大ピークを備えるオブジェクトから始まり最小ピークを備えるオブジェクトまで、ブロック505で生成されたオブジェクトリストにおける各オブジェクトにおいて個別に対がなされる。
本開示の少なくとも1つの実施形態に従う例示のプロセス600(例えばプロセス600のブロック605乃至630)は、例示のプロセス500のブロック505で生成されるオブジェクトリストにおいてオブジェクトのそれぞれ(例えば過去および未来のスペクトルの両者の各ピークにつき1つのオブジェクト)において繰り返し行われることを理解すべきである。
各オブジェクトにおいて、ブロック605で、評価されているオブジェクト(明瞭に示す目的のためにのみ以下にときに「現在のオブジェクト」と呼ぶ)はマッチングオブジェクトを有するかどうかに関して決定がなされる。ブロック605で現在のオブジェクトがマッチングオブジェクトを有すると判断されると、現在のオブジェクトはブロック610でスキップされる。
他方、ブロック605で、現在のオブジェクトがマッチングオブジェクトを有さないと判断されると、ブロック615で、マッチングオブジェクトの検索が、マッチングオブジェクトの候補を特定するためにすべての他のオブジェクトに対して行われる。
ブロック620では、マッチングオブジェクトの候補は、既にマッチングオブジェクトを有する場合、マッチングオブジェクトの候補から取り除かれる(例えば、マッチングオブジェクトリストから除かれる)。
ブロック625では、マッチング基準は、マッチングオブジェクトの候補の各々において評価される。一例のマッチング基準は、後述する方程式(1)でより詳細に提供される。
ブロック630では、マッチングオブジェクトの候補のうちの1つが、評価されたマッチング基準に基づきオブジェクトにおけるマッチングオブジェクトとして選択される。例えば、ここに開示される一実施形態によると、(例えば、ブロック625で行われた評価に基づき他のマッチングオブジェクトの候補のマッチング基準と比較して)マッチング基準に対する最高値(例えば、最大値)を有するマッチングオブジェクトの候補が、ブロック630で現在のオブジェクトに対するマッチングオブジェクトとして選択される。しかしながら、これは、マッチングオブジェクトが現在のオブジェクトに対して見つからない(例えば、マッチングピークがない)場合であると理解すべきである。例えば、相補スペクトルは、マッチングオブジェクトとして選択するための残りのオブジェクトを有さないか、あるいはマッチング基準は、相補スペクトルからの残りのピークの選択を考慮に入れない。効果的に、本開示のシステムは、そのようなシナリオ(すなわち、マッチングオブジェクトがない)が小さなピークにおいてのみ通常生じるように構成される。
図6に示さないが、ブロック630におけるマッチングオブジェクトの選択に続いて、マッチングオブジェクトのリスト位置は、現在のオブジェクトの4番目のラベルで特定され(例えば、記載、入力、挿入されるなど)、現在のオブジェクトの位置は、選択されたマッチングオブジェクトの4番目のラベルで同様に特定される(例えば、上述するとともに図7に示した例示の表700において)。
上述したように、例示のプロセス600は、例示のプロセス500(上述するとともに図5に示した)のブロック505で生成されるオブジェクトリスト中のオブジェクトの各々に対して反復して行われる(例えば、プロセス600はオブジェクトのすべてに対してループされる)。
方法の少なくとも1つの実施形態では、「周波数の近傍」は100Hzに設定される。基準は、近傍のピークに好適な距離に依存する重み付けを掛けたピーク値に比例する。すなわち、jが候補オブジェクトを特定し、a(j)がそのピーク値を示し、f(j)が候補オブジェクトの周波数を示すものとする。すると、基準は、
であり、ここで、f(k)は現在のオブジェクトの周波数であり、
は、複数の非負実数の周波数を、一つの非負実数の距離ペナルティ値にマッピングする関数である。wに対する合理的な選択は、底fに従う距離による線形減少である:
少なくとも1つの実施形態によると、fは100Hzであり、f=1である。
いくつかの状況において、いくつかのオブジェクトが適切なマッチングオブジェクトの候補を伴わないため、上述したピーク特定アルゴリズムによって特定されるすべてのピークがマッチングするものを得るのではないことが注目されるべきである。ここに開示される少なくとも1つの実施形態では、そのようなオブジェクトは、同一周波数を有する「仮想の」ピークであって、該周波数においてゼロの振幅または相補スペクトルの振幅を有する「仮想の」ピークを生成することにより一致される(例えば、信号が正弦波の単純な和と解釈される場合、ゼロの振幅のアプローチがより合理的である)。
[内挿]
正弦波の内挿は多様な異なる方法で行われ得る。そこで、以下は、それら異なる内挿アプローチのいくつかの基本原理を概略し、本開示の実施形態において利用される内挿方法の詳細を開示する。
正弦波のパラメータは振幅、周波数、および位相である。以下、用語「位相オフセット」は、特定の参照時刻における位相の値を示す。これらのパラメータの各々はスペクトルの一ピークに対して特定される。しかしながら、複雑化要因は、周波数が位相の導関数であるということである。つまり、振幅、周波数、および位相オフセットを線形的に内挿することによって、周波数は、位相オフセットが一定でないために、偏移を受ける。この周波数偏移は、内挿区間にわたって一定であり、内挿間隔の逆数の2分の1以下である。
位相オフセットの線形的内挿は、内挿区間の終点の周波数が、その区間の終点で評価された値と等しくないことを示唆する。第1の既存の内挿アプローチは、両方の終点における測定によって決定されたその値および導関数(周波数)により、位相の三次多項式の内挿を行うことによりこの問題を回避する。全体の位相前進(phase precession)が線形位相オフセットの内挿のものと同一である必要があるため、この第1の既存の内挿アプローチが線形的位相オフセットよりも大きく短い(larger-but-shorter)周波数偏移を導出するに相違ないことは明らかである。この第1の内挿アプローチの更なる短所は、サイン関数の不規則なサンプリングを導出することにあり、その結果、コンピュータ的に効率的な実装構築が阻害され
実施において、上述した第1の内挿アプローチは、発話の反響性に影響されることが分かった。これはおそらく望ましくない周波数偏移に帰する。発話については、反響する性質は第2の内挿アプローチにおいて直ちに取り除くことができる。第2の内挿アプローチは、観測される位相オフセットを使用するのではなく、これに代えて調波最小位相モデルを使用する。しかしながら、この第2のアプローチは正弦波が調波でない音楽に対して適切ではない。更に、この第2のアプローチは、調波信号の発話波形を更に保持しない。
正弦波を複素指数の実部と見なすことにより、第3の内挿アプローチが当然生じる。例えば、次式を検討する。
ここで、fは周波数であり、tは時間であり、φは位相オフセットであり、αは複素係数であり、
であり、オペレータReは、実際の要素を抽出する。
時間における周波数fおよび複素係数αの両者の線形的内挿を行うことが続いて可能である。上述した第1および第2の既存の内挿アプローチに対して、複素係数の内挿は、内挿区間にわたる振幅の変化を導出する。この第3のアプローチは、複素指数の規則的なサンプリングを更に促進し、これは少ない計算量で済む。
正弦波の組が調波であるとともに生じる波形の整列があるシナリオについては、複素係数の内挿は、発話についての波形内挿方法に類似する(例えば、波形内挿は、信号の波形を保持することを試みる)。波形内挿システムは、発話信号についての三次多項式の内挿アプローチほど通常反響しない。第2の内挿方法(上述した)に対して、複素係数の内挿は、発話信号の波形を保持する。
本開示の1つ以上の実施形態では、複素係数の内挿方法が使用される。元の信号が円滑に展開し、再構成されたデータのセグメントの長さが欠落データの長さと等しい場合、この方法はうまく機能する。
システムの内挿パフォーマンスはそのような信号が本来調波であるという事実の利用により言葉に表した発話についてに改善され得る。正弦波の周波数が調波となる状態に近接している場合、これら周波数が完全に調波でない理由は、おそらく測定誤差の結果である。従って、この場合、周波数は調波となるように修正され得る。例えば、実際的な実施では、3000Hz未満の正弦波は言葉に表した発話セグメントに属する場合、次式
の基準を使用して、最初に試験され得る。ここで、fは、ピッチの候補であり、fは正弦波nの周波数であり、aは正弦波nの振幅であり、Nは、3000Hz未満の正弦波の数であり、
の関数は、f/fを最も近い整数に丸める。
第1に、検索がξを最小化するfの値を求めるべく行われ、続いて最良のξについての閾値が、信号が調波であるかどうかを判断するために使用され得る。信号が調波である場合、調波である状態に接近している周波数は、調波である状態に修正される(例えばfの倍数)。
[非同期内挿]
上述した様々な内挿アプローチは、欠落データセグメントの長さを有する所与の区間に対する内挿に焦点を当てた。ここに開示される1つ以上の実施形態において利用される非同期内挿においては、そのような偏移が反響として聴き取られるので、内挿における振幅の偏移を最小化する目的でその区間の長さが調整される。
インデックスnによって特定される正弦波の複素係数の線形的内挿は、
として記載され、ここでtは時間であり、t=0で内挿が開始されるものとする。αn,−は複素係数の開始値であり、αn,1は、変化率に影響する係数である。更に、αn,+は、観測される未来のデータにおけるαについて評価された値を示し、τは名目上の内挿終点を示すものとする。すると、線形的内挿方程式(3)は、
として書き換えられる。
n,−およびfn,+は、修復ギャップの前及び後の正弦波周波数を示すものとする。合理的な目的は、ηを最小化する内挿区間τを見つけることである。
方程式(7)は以下のように解釈される。各時点において、係数αおよび周波数fは「瞬間的」波形を特徴づける。したがって、上記の結果(方程式(7))は、瞬間的信号の波形の整列の測度として理解され得る。
の因数は、正弦波nの重要性の重み付けを示す。
の項は、前記区間に対する正弦波の位相の前進を示し、この前進が平均的には最初の周波数と最後の周波数の平均で進行することを示す。2つの比すなわち
及び
は、開始位相および終了位相を示す。
従って、全体的な目的は、未来の端部で観測される信号の位相と内挿した信号の位相とを並べる修復区間に対する端部時間τを見つけることに一致する。
非同期内挿の上記記載を考慮して、本開示の1つ以上の実施形態では、行われる内挿のレベルは、補間器によって生成される瞬間的波形と既知の信号セグメントから評価される瞬間的波形との整列の測度を最大にするように、内挿区間の範囲から選択される。更に、ここに開示される1つ以上の別例では、内挿区間の範囲は予期されるパケットの紛失と一致するレベルまで受信装置のジッタバッファを満たすように選択される。
なお、本開示の少なくとも1つの実施形態では、方程式(5)中の因数
は、良好な性能を犠牲にせずに、かつコンピュータ的な複雑さの低さを維持しつつ省略されてもよい。
下記は、1つ以上の実施形態に従う本開示の非同期内挿プロセスの例の特性のリストであるが網羅的なものではない。
(1)整列基準(方程式(7))が通常多くの最小限を有するため、基準に対する検索が行われるべきである。
(2)本開示の非同期内挿方法は、ここに開示される方法が周波数の内挿を含むという点で直接的な時間領域整列処理とは区別される。
(3)本開示の非同期内挿方法は、任意の長さのセグメントに対する内挿を備える;観測されるデータおよび欠落セグメントの長さに対するモデルの「合理的な」適合は、もう仮定されない。
(4)本開示の内挿方法は、仮想の欠落セグメントを挿入することにより、およびデータを取り除き内挿を使用することにより、不連続性を取り除くために内挿を使用することにより、オーディオセグメントの速度を落とすために、また、場合によってはオーディオセグメントの速度を上げるために使用される。
(5)ここに開示される内挿方法は、正弦波の振幅偏移を最小化するため、反響を最小化する。この点で、複素係数の内挿方法がいずれの場合も周波数偏移を有さないことに注目することが重要である。
図8は、ここに開示される1つ以上の実施形態による、オーディオ信号の欠落セグメントや不連続性を、正弦波の内挿および外挿に基づき包隠する(例えば、修復する)ように構成される例示的なコンピュータ(800)を示す高次ブロック図である。非常に基礎的な構成(801)において、コンピューティングデバイス(800)は典型的に1つ以上のプロセッサ(810)およびシステムメモリ(820)を備える。メモリバス(830)はプロセッサ(810)とシステムメモリ(820)との間の通信のために使用可能である。
所望の構成に応じて、プロセッサ(810)は、マイクロプロセッサ(μP)、マイクロコントローラ(μC)、デジタル信号プロセサ(DSP)、あるいはこれらの任意の組み合わせを含む任意のタイプであるが、これらに限定されるものではない。プロセッサ(810)は、1次キャッシュ(811)および2次キャッシュ(812)、プロセッサコア(813)、およびレジスタ(814)などの1次以上のキャッシュを含む。プロセッサコア(813)は、論理演算装置(ALU)、浮動小数点ユニット(FPU)、デジタル信号処理コア(DSPコア)、あるいはこれらの任意の組み合わせを含む。メモリコントローラ(816)もプロセッサ(810)と組み合わせて使用可能であるか、あるいは、いくつかの実施において、メモリコントローラ(815)はプロセッサ(810)の内部の部分であり得る。
所望の構成に応じて、システムメモリ(820)は、揮発性メモリ(RAMなど)、不揮発性メモリ(ROM、フラッシュメモリなど)、あるいはこれらの任意の組み合わせを含む任意のタイプであるが、これらに限定されるものではない。システムメモリ(820)はオペレーティングシステム(821)、1つ以上のアプリケーション(822)、およびプログラムデータ(824)を典型的に含む。アプリケーション(822)は、ここに開示される1つ以上の実施形態に従う、オーディオ信号中の連続的な欠落データのサンプルのセグメントを修復するための内挿および外挿アルゴリズム(823)を含む。プログラムデータ(824)は、1つ以上の制御演算装置によって実行されると、ここに開示される1つ以上の実施形態による正弦波用に構成される内挿演算および外挿演算を使用して、オーディオ信号の欠落セグメントや不連続性を包隠する方法を実施する指示を格納することを含む。
加えて、少なくとも1つの実施形態では、プログラムデータ(824)は、例えば信号をウィンドウ化することにより得られるオーディオ信号のサンプルに関するデータを含むオーディオ信号データ(825)を含む。少なくとも1つの実施形態では32ミリ秒(ms)のウィンドウが使用され、これは16kHzで512のサンプルに対応する。少なくとも1つの別例では、オーディオ信号は2048の一連のサンプルを得るためにHannウィンドウでウィンドウ化されるとともにゼロパディングされ、高速フーリエ変換(FFT)が行われる。いくつかの実施形態では、アプリケーション(822)はオペレーティングシステム(821)上でプログラムデータ(824)により作動するように構成可能である。
コンピューティングデバイス(800)は、基本構成(801)と任意の要求される装置とインターフェースとの間の通信を促進する付加的な要素や機能、および付加的なインターフェースを有する。
システムメモリ(820)はコンピュータ記憶装置媒体の例である。コンピュータ記憶装置媒体は、RAM、ROM、EEPROM、フラッシュメモリあるいは他のメモリ技術、CD−ROM、デジタルバーサタイルディスク(DVD)あるいは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置あるいは他の磁気記憶装置、あるいは所望の情報を格納するために使用可能であるとともにコンピューティングデバイス800によってアクセス可能な他の媒体を含むが、これらに制限されるものではない。任意のそのようなコンピュータ記憶媒体が装置(800)の一部になり得る。
コンピューティングデバイス(800)は、上記の機能のうちの任意のものを含む、携帯電話、スマートフォン、パーソナルデータアシスタント(PDA)、パーソナルメディアプレーヤ装置、タブレットコンピュータ(タブレット)、無線ウェブ監視装置、パーソナルヘッドセット装置、アプリケーションに特有の装置、あるいはハイブリッド装置などのスモールフォームファクタポータブル(あるいはモバイル)電子装置の一部として実行することができる。コンピューティングデバイス(800)は、ラップトップコンピュータおよび非ラップトップコンピュータ構造体の両者を含むパソコンとしても実行可能である。
先の詳細な説明は、ブロック図、フローチャート、例を使用することにより、装置やプロセスの様々な実施形態を開示するものであるが、そのようなブロック図、フローチャート、例が1つ以上の機能や演算を含む限り、当業者は、これらのブロック図、フローチャート、あるいは例の範囲内の各機能や演算が、広範囲のハードウェア、ソフトウェア、ファームウェア、あるいは事実上これらの任意の組み合わせによって、個別におよび/または集合的に実行可能であると理解するであろう。一実施形態において、ここに開示される主題のいくつかの部分は、特定用途向けIC(ASIC)、フィールドプログラム可能なゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、あるいは他の統合フォーマットによって実行される。しかしながら、当業者は、ここに開示される実施形態のいくつかの態様が、全体または一部において、集積回路で、1台以上のコンピュータ上で稼動する1つ以上のコンピュータプログラムとして、1つ以上のプロセッサ上で稼動する1つ以上のプログラムとして、ファームウェアとして、あるいは事実上これらの任意の組み合わせとして均等に実施可能であることことを認識するであろうし、回路類の設計、および/またはソフトウェアやファームウェアのためのコードを書くことが本開示に照らして当業者の技術の範囲内にあることを認識するであろう。
更に、当業者は、ここに開示される主題の機構が、様々な形態のプログラム製品として配布可能であり、また、ここに開示される主題の例示的な実施形態が、実際に配布を実行するために使用される特定のタイプの非一時的な信号担持媒体にかかわらず適用されることを認識するであろう。非一時的な信号担持媒体の例は、フロッピー(登録商標)ディスク、ハードディスクドライブ、コンパクトディスク(CD)、デジタルビデオティスク(DVD)、デジタルテープ、コンピュータメモリなどのような記録可能なタイプの媒体;並びにデジタル通信媒体および/またはアナログ通信媒体のような送信タイプの媒体(例えば、光ファイバケーブル、導波管、有線通信リンク、無線通信リンクなど)を含むが、これらに制限されるものではない。
ここでの実質的な任意の複数および/または単数の用語の使用に関して、当業者は、文脈および/または適用に適切な場合、複数を単数に、かつ/または単数を複数にすることができる。様々な単数/複数の置換が、明瞭さを目的として明らかに行われてもよい。
以上のように、主題の特定の実施形態が開示された。別例は以下の特許請求の範囲内にある。いくつかの場合において、特許請求の範囲に記載の実行は、異なる順序で行われても、望ましい結果を得られる。加えて、添付の図面に描かれたプロセスは、望ましい結果を得るべく図示の特定の順序、あるいは連続する順序を必ずしも要求しない。いくつかの実施において、マルチタスクおよび並列処理は効果的である。

Claims (20)

  1. オーディオ信号の連続性を修復するためのコンピュータ実装方法であって、
    オーディオ信号中の欠落セグメントの両対向側にある複数のセグメントのスペクトルを計算すること;
    前記計算後のスペクトルのうち強度のあるピークを決定すること;
    前記決定された複数のピークを強度によって順序づけること;
    前記複数のピークから前記欠落セグメントの対向側における複数の近隣ピークを決定して、複数対のスペクトルピークを形成すること;
    前記複数対のスペクトルピークを用いる複素係数内挿を前記オーディオ信号の前記欠落セグメントにわたって行い、前記欠落セグメント用の修復データを生成するこ
    を含む、コンピュータ実装方法。
  2. 前記内挿は正弦波内挿である、請求項1に記載の方法。
  3. 各ピーク対は、前記欠落セグメントの第1側における第1のピークと、前記欠落セグメントの第2側における第2のピークとから構成される、請求項1に記載の方法。
  4. 最も高いピークで始まる近隣ピークの決定が前記複数のピークの各々について行われる、請求項1に記載の方法。
  5. 前記欠落セグメントの両対向側にある前記複数のセグメントのデータで前記修復データをフェードすることを更に含む、請求項1に記載の方法。
  6. 前記修復データは、前記欠落セグメントの両対向側にある前記複数のセグメントのデータで重畳算演算を使ってフェードされる、請求項5に記載の方法。
  7. 前記信号に対して高速フーリエ変換を行って、前記信号の周波数領域表現を生成すること;
    前記変換後の信号の強度スペクトルをスムージングすること;
    スムージング済みスペクトルの局所的傾斜の符号を決定すること;
    前記局所的傾斜の符号が正から負に変化する地点に基づき前記複数のピークの評価を生成すること;
    スムージングされていない信号を、対応する評価済みピークの近傍で検索することにより、前記複数のピークの各々の真の位置を決定するこ
    を更に含む、請求項1に記載の方法。
  8. 前記信号の前記強度スペクトルは、当該スペクトルにローパスフィルタを適用することによってスムージングされる、請求項7に記載の方法。
  9. 行われる内挿の区間は、補間器によって生成される瞬間的波形と既知の信号セグメントから評価される瞬間的波形との整列の測度を最大にするように、内挿区間の範囲から選択される、請求項1に記載の方法。
  10. 前記内挿区間の範囲は、予期されるパケット紛失と一致するレベルまで受信装置のジッタバッファを満たすように選択される、請求項9に記載の方法。
  11. オーディオ信号の連続性を修復するためのコンピュータ実装方法であって、
    オーディオ信号中の欠落セグメントの第1側に位置する第1のセグメントのスペクトルおよび前記オーディオ信号中の前記欠落セグメントの第2側に位置する第2のセグメントのスペクトルを計算すること;
    前記第1のセグメントおよび前記第2のセグメントのスペクトルにおける、ピークに対応する複数のオブジェクトを特定すること;
    特定された複数のオブジェクトを対応するピークの振幅によってソートすること;
    ソートされた複数のオブジェクトのインデックスを決定すること;
    前記複数のオブジェクトのうちの少なくとも1つに対して、マッチングオブジェクトを特定すること
    前記少なくとも1つのオブジェクト及び前記マッチングオブジェクトを用いる複素係数内挿を前記オーディオ信号の前記欠落セグメントにわたって行い、前記欠落セグメント用の修復データを生成すること
    を含む、コンピュータ実装方法。
  12. マッチングオブジェクトの特定は、前記複数のオブジェクトのうちの前記少なくとも1つについて、ソート済みの複数のオブジェクトのインデックスに従って、最大ピークのオブジェクトから開始して最小ピークのオブジェクトまで続けられる、請求項11に記載の方法。
  13. 前記第1のセグメントおよび前記第2のセグメントのスペクトルにおける前記複数のオブジェクトを特定することは、オブジェクトリストを生成することを含み、前記第1のセグメントの前記スペクトルおよび前記第2のセグメントの前記スペクトルの両者の各ピークにつき1つのオブジェクトがある、請求項11に記載の方法。
  14. 前記オブジェクトリストは、当該リスト中の複数のオブジェクトの各々について、対応するピークの振幅、対応するピークが位置する周波数、対応するピークが前記第1のセグメントの前記スペクトルあるいは前記第2のセグメントの前記スペクトルに属するかどうかを示すラベル、および対応するピークが属しているスペクトルに対して相補的なスペクトル中のマッチングピークの位置を含む、請求項13に記載の方法。
  15. 前記複数のオブジェクトのうちの少なくとも1つに対して、マッチングオブジェクトを特定することは、
    一つのオブジェクトについて、他のすべてのオブジェクトに対する検索を行うことにより、マッチングオブジェクトの候補を特定すること;
    前記マッチングオブジェクトの候補から、マッチングオブジェクトを既に有するすべてのオブジェクトを取り除くこと;
    残りのマッチングオブジェクトの候補の各々について、マッチング基準を評価すること;
    残りのマッチングオブジェクトの候補のうちの1つを、前記評価したマッチング基準に基づき、前記オブジェクトに対するマッチングオブジェクトとして選択するこを含む、請求項11に記載の方法。
  16. 残りのマッチングオブジェクトの候補のうちの前記1つは、評価したマッチング基準における最高値を有するマッチングオブジェクトの候補に基づき、前記マッチングオブジェクトとして選択される、請求項15に記載の方法。
  17. 残りのマッチングオブジェクトの候補を、補スペクトルからのピークを備えるオブジェクトと、近隣周波数のピークを備えるオブジェクトとに制限することを更に含む、請求項15に記載の方法。
  18. マッチングオブジェクトの候補のないオブジェクトを特定すること;
    そのオブジェクトの周波数と同一の周波数を有するとともにその同一の周波数でゼロ振幅または相補スペクトルの振幅のいずれかを有する仮想ピークを生成すること
    を更に含む、請求項15に記載の方法。
  19. マッチングオブジェクトの候補のないオブジェクトを特定すること;
    そのオブジェクトを前記複数のオブジェクトから取り除くことを
    更に含む、請求項15に記載の方法。
  20. オーディオ信号の連続性を修復するためのコンピュータ実装方法であって、
    オーディオ信号中の欠落セグメントの両対向側にある複数のセグメントのスペクトルを計算すること;
    前記計算後のスペクトルのうち強度のあるピークを決定すること;
    前記決定された複数のピークを強度によって順序づけること;
    前記複数のピークから前記欠落セグメントの対向側における複数の近隣ピークを決定して、複数対のスペクトルピークを形成すること;
    前記オーディオ信号の前記欠落セグメントの区間にわたって内挿を行なうことを含み、その区間の長さは、位相オフセットの振幅に応じて重み付けした位相オフセットの対応する組を整列することに基づいて決定される、コンピュータ実装方法。
JP2016544134A 2014-02-28 2015-02-27 欠落データにわたる正弦波内挿 Active JP6306718B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/194,192 2014-02-28
US14/194,192 US9672833B2 (en) 2014-02-28 2014-02-28 Sinusoidal interpolation across missing data
PCT/US2015/017992 WO2015131040A1 (en) 2014-02-28 2015-02-27 Sinusoidal interpolation across missing data

Publications (2)

Publication Number Publication Date
JP2017509006A JP2017509006A (ja) 2017-03-30
JP6306718B2 true JP6306718B2 (ja) 2018-04-04

Family

ID=52686491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016544134A Active JP6306718B2 (ja) 2014-02-28 2015-02-27 欠落データにわたる正弦波内挿

Country Status (8)

Country Link
US (1) US9672833B2 (ja)
EP (1) EP3111444B1 (ja)
JP (1) JP6306718B2 (ja)
KR (2) KR20160102061A (ja)
CN (1) CN105940380B (ja)
AU (1) AU2015222922B2 (ja)
BR (1) BR112016015557B1 (ja)
WO (1) WO2015131040A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3107097B1 (en) * 2015-06-17 2017-11-15 Nxp B.V. Improved speech intelligilibility
US9984701B2 (en) * 2016-06-10 2018-05-29 Apple Inc. Noise detection and removal systems, and related methods
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
CN111640442B (zh) * 2020-06-01 2023-05-23 北京猿力未来科技有限公司 处理音频丢包的方法、训练神经网络的方法及各自的装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3649765A (en) * 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
JPH06130998A (ja) * 1992-10-22 1994-05-13 Oki Electric Ind Co Ltd 圧縮音声復号化装置
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
WO1996037964A1 (en) * 1995-05-22 1996-11-28 Ntt Mobile Communications Network Inc. Sound decoding device
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
WO2002058053A1 (en) * 2001-01-22 2002-07-25 Kanars Data Corporation Encoding method and decoding method for digital voice data
US7143032B2 (en) * 2001-08-17 2006-11-28 Broadcom Corporation Method and system for an overlap-add technique for predictive decoding based on extrapolation of speech and ringinig waveform
US6747581B2 (en) * 2002-02-01 2004-06-08 Octiv, Inc. Techniques for variable sample rate conversion
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
KR101008529B1 (ko) * 2002-12-19 2011-01-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 인코딩에서의 정현파 선택
KR20050085761A (ko) * 2002-12-19 2005-08-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 인코딩에서의 사인곡선 선택
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US8296134B2 (en) * 2005-05-13 2012-10-23 Panasonic Corporation Audio encoding apparatus and spectrum modifying method
US9208821B2 (en) * 2007-08-06 2015-12-08 Apple Inc. Method and system to process digital audio data
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统

Also Published As

Publication number Publication date
KR102188620B1 (ko) 2020-12-08
AU2015222922B2 (en) 2017-12-07
US9672833B2 (en) 2017-06-06
AU2015222922A1 (en) 2016-06-23
CN105940380B (zh) 2019-03-15
KR20180049182A (ko) 2018-05-10
US20150248893A1 (en) 2015-09-03
BR112016015557A2 (ja) 2017-10-03
EP3111444A1 (en) 2017-01-04
CN105940380A (zh) 2016-09-14
EP3111444B1 (en) 2020-09-02
WO2015131040A1 (en) 2015-09-03
JP2017509006A (ja) 2017-03-30
KR20160102061A (ko) 2016-08-26
BR112016015557B1 (pt) 2022-11-29

Similar Documents

Publication Publication Date Title
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US20130246062A1 (en) System and Method for Robust Estimation and Tracking the Fundamental Frequency of Pseudo Periodic Signals in the Presence of Noise
JP6306718B2 (ja) 欠落データにわたる正弦波内挿
TR201810148T4 (tr) Bi̇r ses si̇nyali̇ne yöneli̇k hesaplayici ve faz düzeltme veri̇si̇ni̇n beli̇rlenmesi̇ne yöneli̇k yöntem.
Drugman Residual excitation skewness for automatic speech polarity detection
RU2587652C2 (ru) Способ и устройство для оценки структуры в сигнале
Manfredi et al. Perturbation measurements in highly irregular voice signals: Performances/validity of analysis software tools
KR102037691B1 (ko) 오디오 프레임 손실 은폐
US9646592B2 (en) Audio signal analysis
KR101666521B1 (ko) 입력 신호의 피치 주기 검출 방법 및 그 장치
US20150371641A1 (en) Enhanced audio frame loss concealment
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Karantaidis et al. Assessing spectral estimation methods for electric network frequency extraction
US20150162014A1 (en) Systems and methods for enhancing an audio signal
Reddy et al. Predominant melody extraction from vocal polyphonic music signal by combined spectro-temporal method
Kotnik et al. Noise robust F0 determination and epoch-marking algorithms
Govind et al. Epoch extraction in high pass filtered speech using hilbert envelope
JP6502099B2 (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
Kleijn et al. Sinusoidal interpolation across missing data
Esquef Interpolation of long gaps in audio signals using line spectrum pair polynomials
Buza et al. Algorithm for detection of voice signal periodicity
JP6152690B2 (ja) 音響解析装置
Bartkowiak et al. Hybrid sinusoidal modeling of music with near transparent audio quality
Ghazvini et al. Pitch period detection using second generation wavelet transform
Govind et al. Speech Polarity Detection Using Hilbert Phase Information

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170801

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180308

R150 Certificate of patent or registration of utility model

Ref document number: 6306718

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250