JP2015512060A - 音声/オーディオ信号処理方法および装置 - Google Patents

音声/オーディオ信号処理方法および装置 Download PDF

Info

Publication number
JP2015512060A
JP2015512060A JP2014559077A JP2014559077A JP2015512060A JP 2015512060 A JP2015512060 A JP 2015512060A JP 2014559077 A JP2014559077 A JP 2014559077A JP 2014559077 A JP2014559077 A JP 2014559077A JP 2015512060 A JP2015512060 A JP 2015512060A
Authority
JP
Japan
Prior art keywords
signal
high frequency
frequency signal
time domain
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014559077A
Other languages
English (en)
Other versions
JP6010141B2 (ja
Inventor
▲澤▼新 ▲劉▼
▲澤▼新 ▲劉▼
磊 苗
磊 苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2015512060A publication Critical patent/JP2015512060A/ja
Application granted granted Critical
Publication of JP6010141B2 publication Critical patent/JP6010141B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Transmitters (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本発明の実施形態は、音声/オーディオ信号処理方法および装置を開示する。ある実施形態では、音声/オーディオ信号処理方法は、音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、初期の高周波数信号の時間領域グローバルゲインパラメータを取得するステップと、エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるステップと、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。

Description

関連出願の相互参照
この出願は、2012年3月1日に中国専利局に出願された中国特許出願第201210051672.6号「SPEECH/AUDIO SIGNAL PROCESSING METHOD AND APPARATUS」の優先権を主張し、その全体を参照により本明細書に組み込む。
本発明はデジタル信号処理技術の分野に関し、具体的には、音声/オーディオ信号処理方法および装置に関する。
デジタル通信の分野では、モバイル電話での通話、電話/ビデオ会議、ブロードキャストテレビ、およびマルチメディアエンターテイメントなどの広い範囲のアプリケーションで、音声、画像、オーディオ、およびビデオの送信が必要とされている。オーディオはデジタル化され、オーディオ通信ネットワークを使用して、ある端末から別の端末へと送信される。本明細書の端末は、モバイル電話、デジタル電話端末、または他の任意のタイプのオーディオ端末でよく、デジタル電話端末は、たとえばVOIP電話、ISDN電話、コンピュータ、またはケーブル通信電話である。記憶または送信中に音声/オーディオ信号によって占有されるリソースを減少させるために、送信側で音声/オーディオ信号が圧縮されて、次いで受信側に送信され、また受信側で音声/オーディオ信号が解凍処理によって復元されて再生される。
現在のマルチレート音声/オーディオ符号化では、異なるネットワーク状態のために、ネットワークがビットストリームを異なるビットレートで切り捨て、ビットストリームが符号器からネットワークに送信されて、切り捨てられたビットストリームが復号器で異なる帯域幅の音声/オーディオ信号に復号化される。その結果、出力された音声/オーディオ信号が異なる帯域幅間で切り替わる。
異なる帯域幅の信号間で突然切り替わることによって、人間の耳に明らかな聴覚不快感がもたらされる。さらに、時間-周波数変換または周波数-時間変換の間にフィルタの状態を更新することは、一般的に連続するフレーム間でパラメータの使用を必要とするので、帯域幅の切替え中に何らかの適切な処理が行われていない場合、これらの状態の更新中にエラーが発生することがあり、急激なエネルギー変化および聴覚品質の低下のいくつかの現象を引き起こす。
本発明の実施形態の目的は、音声/オーディオ信号の帯域幅切替え中の聴覚の快適さを改善するために、音声/オーディオ信号処理方法および装置を提供することである。
本発明の実施形態によれば、音声/オーディオ信号処理方法は、
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得するステップと、
補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。
本発明の別の実施形態によれば、音声/オーディオ信号処理方法は、
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
初期の高周波数信号の時間領域グローバルゲインパラメータを取得するステップと、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるステップと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。
本発明の別の実施形態によれば、音声/オーディオ信号処理装置は、
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニットと、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得するように構成されたパラメータ取得ユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニットと、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニットとを含む。
本発明の別の実施形態によれば、音声/オーディオ信号処理装置は、
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニットと、
初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニットと、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニットと、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニットとを含む。
本発明の実施形態では、広い周波数帯域と狭い周波数帯域との間で切り替わる間、広い周波数帯域と狭い周波数帯域との間の高周波数信号のスムースな移行を実現できるようにするために高周波数信号が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除して、さらに、切替え前の高周波数信号の帯域幅切替えアルゴリズムおよび符号化/復号化アルゴリズムが同じ信号領域内にあるので、余分な遅延が追加されずにアルゴリズムがシンプルであることを保証するだけでなく、出力信号の性能も保証する。
本発明の実施形態、または従来技術における技術的ソリューションをより明確に説明するために、以下で、本実施形態または従来技術を説明するために必要な添付の図面を簡単に紹介する。以下の説明における添付の図面は、本発明のいくつかの実施形態を示すにすぎず、当業者は依然として創造的努力なしにこれらの図面から他の図面を取得することができることは明らかである。
本発明による音声/オーディオ信号処理方法の実施形態の概略的流れ図である。 本発明による音声/オーディオ信号処理方法の別の実施形態の概略的流れ図である。 本発明による音声/オーディオ信号処理方法の別の実施形態の概略的流れ図である。 本発明による音声/オーディオ信号処理方法の別の実施形態の概略的流れ図である。 本発明による音声/オーディオ信号処理装置の実施形態の概略的構造図である。 本発明による音声/オーディオ信号処理装置の実施形態の概略的構造図である。 本発明によるパラメータ取得ユニットの実施形態の概略的構造図である。 本発明によるグローバルゲインパラメータ取得ユニットの実施形態の概略的構造図である。 本発明による獲得ユニットの実施形態の概略的構造図である。 本発明による音声/オーディオ信号処理装置の別の実施形態の概略的構造図である。
以下で、本発明の実施形態における添付の図面を参照して、本発明の実施形態における技術的ソリューションを明確かつ完全に説明する。説明される実施形態は、本発明の実施形態のすべてではなく、その一部にすぎないことは明らかである。本発明の実施形態に基づいて、創造的努力なしに当業者によって取得される他のすべての実施形態は、本発明の保護範囲に含まれるものとする。
デジタル信号処理の分野では、モバイル電話、無線装置、携帯情報端末(PDA)、ハンドヘルドまたはポータブルコンピュータ、GPS受信機/ナビゲータ、カメラ、オーディオ/ビデオプレイヤ、ビデオカメラ、ビデオ記録装置、およびモニタリングデバイスなどの様々な電子デバイスに、オーディオコーデックおよびビデオコーデックが広く適用されている。通常、このタイプの電子デバイスはオーディオ符号器またはオーディオ復号器を含み、オーディオ符号器または復号器は、たとえばDSP(デジタル信号プロセッサ)などのデジタル回路またはチップによって直接実装されてもよく、ソフトウェアコード内の処理を実行するためにプロセッサを駆動するソフトウェアコードによって実装されてもよい。
従来技術では、ネットワーク内で送信される音声/オーディオ信号の帯域幅が異なるので、音声/オーディオ信号の送信処理において音声/オーディオ信号の帯域幅が頻繁に変化して、狭い周波数音声/オーディオ信号から広い周波数音声/オーディオ信号への切替え、および広い周波数音声/オーディオ信号から狭い周波数音声/オーディオ信号への切替えの現象が起きる。高周波数帯域と低周波数帯域との間で音声/オーディオ信号を切り替えるそのような処理は、帯域幅切替えと呼ばれる。帯域幅切替えは、狭い周波数信号から広い周波数信号への切替えと、広い周波数信号から狭い周波数信号への切替えとを含む。本発明で言及される狭い周波数信号は、低い周波数成分だけを有する音声信号であり、高周波数成分はアップサンプリングおよびローパスフィルタリングの後は空であり、広い周波数音声/オーディオ信号は低周波数信号成分と高周波数信号成分の両方を有する。狭い周波数信号および広い周波数信号は関連性がある。たとえば、狭帯域信号にとって広帯域信号は広い周波数信号であり、広帯域信号にとって超広帯域信号は広い周波数信号である。一般的に、狭帯域信号はサンプリングレートが8キロヘルツの音声/オーディオ信号であり、広帯域信号はサンプリングレートが16キロヘルツの音声/オーディオ信号であり、超広帯域信号は、サンプリングレートが32キロヘルツの音声/オーディオ信号である。
切替え前の高周波数信号の符号化/復号化アルゴリズムが、異なる信号タイプによって時間領域符号化/復号化アルゴリズムと周波数領域符号化/復号化アルゴリズムとの間で選択される場合、または切替え前の高周波数信号の符号化アルゴリズムが時間領域符号化アルゴリズムである場合、切替えの間の出力信号の連続性を保証するために、切替えアルゴリズムは処理のために信号領域内で保持され、信号領域は切替え前の高周波数符号化/復号化アルゴリズムの信号領域と同じである。すなわち、切替え前に高周波数信号のために時間領域符号化/復号化アルゴリズムが使用される場合、使用されるべき切替えアルゴリズムとして時間領域切替えアルゴリズムが使用され、切替え前に高周波数信号のために周波数領域符号化/復号化アルゴリズムが使用される場合、使用されるべき切替えアルゴリズムとして周波数領域切替えアルゴリズムが使用される。従来技術では、切替え前に時間領域周波数帯域拡張アルゴリズムが使用され、切替え後は類似の時間領域切替え技術は使用されない。
音声/オーディオ符号化では、一般的に、フレームを単位として使用することによって処理が行われる。処理される必要がある現在の入力オーディオフレームは、音声/オーディオ信号の現在のフレームである。音声/オーディオ信号の現在のフレームは、狭い周波数信号および高周波数信号、すなわち、狭い周波数信号の現在のフレームおよび高周波数信号の現在のフレームを含む。高周波数信号の現在のフレームの前の音声/オーディオ信号の任意のフレームは、音声/オーディオ信号の過去のフレームであり、狭い周波数信号の過去のフレームおよび高周波数信号の過去のフレームも含む。音声/オーディオ信号の現在のフレームの前の音声/オーディオ信号のフレームは、音声/オーディオ信号の前のフレームである。
図1を参照すると、本発明の音声/オーディオ信号処理方法の実施形態は、以下を含む。
S101:音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得する。
音声/オーディオ信号の現在のフレームは、狭い周波数信号の現在のフレームおよび高周波数時間領域信号の現在のフレームを含む。帯域幅切替えは、狭い周波数信号から広い周波数信号への切替えと、広い周波数信号から狭い周波数信号への切替えとを含む。狭い周波数信号から広い周波数信号に切り替わる場合、音声/オーディオ信号の現在のフレームは広い周波数信号の現在のフレームであり、狭い周波数信号および高周波数信号を含み、音声/オーディオ信号の現在のフレームの初期の高周波数信号は実信号であり、音声/オーディオ信号の現在のフレームから直接取得され得る。広い周波数から狭い周波数に切り替わる場合、音声/オーディオ信号の現在のフレームは、高周波数時間領域信号の現在のフレームが空である狭い周波数信号の現在のフレームであり、音声/オーディオ信号の現在のフレームの初期の高周波数信号は予測された信号であり、狭い周波数信号の現在のフレームに対応する高周波数信号が予測されて、初期の高周波数信号として使用される必要がある。
S102:初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得する。
狭い周波数信号から広い周波数信号に切り替わる場合、高周波数信号の時間領域グローバルゲインパラメータは復号化によって取得され得る。広い周波数信号から狭い周波数信号に切り替わる場合、高周波数信号の時間領域グローバルゲインパラメータは信号の現在のフレームによって取得され得る。高周波数信号の時間領域グローバルゲインパラメータは、狭い周波数信号のスペクトルチルトパラメータ、および狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって取得される。
S103:エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用して、エネルギー比が、音声/オーディオ信号の過去のフレームの高周波数時間領域信号のエネルギーと音声/オーディオ信号の現在のフレームの初期の高周波数信号のエネルギーとの間の比率である。
最終出力音声/オーディオ信号の過去のフレームが音声/オーディオ信号の過去のフレームとして使用され、初期の高周波数信号が音声/オーディオ信号の現在のフレームとして使用される。エネルギー比はRatio=Esyn(-1)/Esyn_tmpであり、上式でEsyn(-1)は過去のフレームの出力された高周波数時間領域信号synのエネルギーを表し、Esyn_tmpは、現在のフレームに対応する初期の高周波数時間領域信号synのエネルギーを表す。
予測されたグローバルゲインパラメータはgain=alfa*Ratio+beta*gain'であり、gain'は時間領域グローバルゲインパラメータであり、alfa+beta=1であり、alfaの値とbetaの値は異なる信号タイプによって異なる。
S104:補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正する。
補正は、信号が乗算されること、すなわち、初期の高周波数信号に予測されたグローバルゲインパラメータが乗算されることを指す。別の実施形態では、ステップS102で、初期の高周波数信号に対応する時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータが取得される。したがって、ステップS104で、補正された高周波数時間領域信号を取得するために、初期の高周波数信号が、時間領域エンベロープパラメータおよび予測されたグローバルゲインパラメータを使用することよって補正される。すなわち、補正された高周波数時間領域信号を取得するために、予測された高周波数信号に時間領域エンベロープパラメータおよび予測された時間領域グローバルゲインパラメータが乗算される。
狭い周波数信号から広い周波数信号に切り替わる場合、高周波数信号の時間領域エンベロープパラメータは復号化によって取得され得る。広い周波数信号から狭い周波数信号に切り替わる場合、高周波数信号の時間領域エンベロープパラメータは、信号の現在のフレームによって取得され得る。一連のあらかじめ定められた値、または過去のフレームの高周波数時間領域エンベロープパラメータは、音声/オーディオ信号の現在のフレームの高周波数時間領域エンベロープパラメータとして使用され得る。
S105:狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力する。
上述の実施形態では、広い周波数帯域と狭い周波数帯域との間で切り替わる間、広い周波数帯域と狭い周波数帯域との間の高周波数信号のスムースな移行を実現できるようにするために高周波数信号が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除して、さらに、切替え前の高周波数信号の帯域幅切替えアルゴリズムおよび符号化/復号化アルゴリズムが同じ信号領域内にあるので、余分な遅延が追加されずにアルゴリズムがシンプルであることを保証するだけでなく、出力信号の性能も保証する。
図2を参照すると、本発明の音声/オーディオ信号処理方法の別の実施形態は、以下を含む。
S201:広い周波数信号が狭い周波数信号に切り替わる時に、狭い周波数信号の現在のフレームに対応する予測された高周波数信号を予測する。
広い周波数信号が狭い周波数信号に切り替わる時、以前のフレームは広い周波数信号であり、現在のフレームは狭い周波数信号である。狭い周波数信号の現在のフレームに対応する予測された高周波数信号を予測するステップは、狭い周波数信号の現在のフレームによって音声/オーディオ信号の現在のフレームの高周波数信号の励磁信号を予測するステップと、音声/オーディオ信号の現在のフレームの高周波数信号のLPC(Linear Predictive Coding、線形予測符号化)係数を予測するステップと、予測された高周波数信号syn_tmpを取得するために、予測された高周波数励磁信号とLPC係数とを合成するステップとを含む。
ある実施形態では、ピッチ周期、代数コードブック、およびゲインなどのパラメータを狭い周波数信号から抽出することができ、再サンプリングおよびフィルタリングによって高周波数励磁信号が予測される。
別の実施形態では、高周波励磁信号を予測するために、アップサンプリング、ローパス、絶対値または平方の取得などの操作が、狭い周波数時間領域信号または狭い周波数時間領域励磁信号に対して実行され得る。
高周波数信号のLPC係数を予測するために、過去のフレームの高周波LPC係数、または一連のあらかじめ定められた値が現在のフレームのLPC係数として使用されてもよく、異なる信号タイプについて異なる予測方法が使用されてもよい。
S202:予測された高周波数信号に対応する、時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを取得する。
一連のあらかじめ定められた値が、現在のフレームの高周波数時間領域エンベロープパラメータとして使用され得る。一般的に、狭帯域信号はいくつかのタイプに分類することができ、一連の値がタイプごとにあらかじめ設定されてよく、あらかじめ設定された時間領域エンベロープパラメータのグループが狭帯域信号の現在のフレームのタイプによって選択されてよく、または時間領域エンベロープ値のグループが、たとえば時間領域エンベロープの数がMである時に設定されてよく、あらかじめ設定された値はM 0.3536sでよい。この実施形態では、時間領域エンベロープパラメータを取得するステップは任意であり、必要なステップではない。
高周波数信号の時間領域グローバルゲインパラメータが、狭い周波数信号のスペクトルチルトパラメータ、および狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって取得され、ある実施形態では以下のステップを含む。
S2021:音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類して、ある実施形態では、第1のタイプの信号が摩擦信号であり、第2のタイプの信号が非摩擦信号であって、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号を摩擦として分類し、残りを非摩擦として分類する。
狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係を示すパラメータcorは、同じ周波数帯域の信号間のエネルギーの大小関係によって決定されてもよく、いくつかの同じ周波数帯域間のエネルギー関係によって決定されてもよく、時間領域信号間の自己相関または相互相関を示す、または時間領域励磁信号間の自己相関または相互相関を示す式によって計算されてもよい。
S2022:音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用する。すなわち、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1のあらかじめ定められた値以下の場合、スペクトルチルトパラメータの元の値がスペクトルチルトパラメータ制限値として保持され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1のあらかじめ定められた値を上回る場合、第1のあらかじめ定められた値がスペクトルチルトパラメータ制限値として使用される。
時間領域グローバルゲインパラメータgain'は、以下の式によって取得される。
Figure 2015512060
上式で、tiltはスペクトルチルトパラメータであり、∂1は第1のあらかじめ定められた値である。
S2023:音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用する。すなわち、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータは第1の範囲に属し、スペクトルチルトパラメータの元の値がスペクトルチルトパラメータ制限値として保持され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1の範囲の上限を上回る場合、第1の範囲の上限がスペクトルチルトパラメータ制限値として使用され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1の範囲の下限を下回る場合、第1の範囲の下限がスペクトルチルトパラメータ制限値として使用される。
時間領域グローバルゲインパラメータgain'は、以下の式によって取得される。
Figure 2015512060
上式で、tiltはスペクトルチルトパラメータであり、[a,b]は第1の範囲である。
ある実施形態では、狭い周波数信号のスペクトルチルトパラメータtilt、および狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係を示すパラメータcorが取得され、信号の現在のフレームが、tiltおよびcorによって摩擦と非摩擦の2つのタイプに分類され、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦として分類され、残りが非摩擦であり、tiltが0.5<=tilt<=1.0の値の範囲内に制限されて、非摩擦の時間領域グローバルゲインパラメータとして使用され、tiltはtilt<=8.0の値の範囲に制限されて、摩擦の時間領域グローバルゲインパラメータとして使用される。摩擦にとって、スペクトルチルトパラメータは5を上回る任意の値でよく、非摩擦にとって、スペクトルチルトパラメータは5以下の任意の値でもよく、5を上回ってもよい。スペクトルチルトパラメータtiltが、推定された時間領域グローバルゲインパラメータとして使用され得ることを保証するために、tiltが値の範囲内に制限されて、次いで時間領域グローバルゲインパラメータとして使用される。すなわち、tilt>8の場合、tilt=8が摩擦の時間領域グローバルゲインパラメータとして使用されると決定され、tilt<0.5の場合、tilt=0.5であると決定され、またはtilt>1.0の場合、tilt=1.0であると決定され、0.5または1.0が非摩擦の時間領域グローバルゲインパラメータとして使用される。
S203:エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用して、エネルギー比が、音声/オーディオ信号の過去のフレームの高周波数時間領域信号のエネルギーと音声/オーディオ信号の現在のフレームの初期の高周波数信号のエネルギーとの間の比率である。
エネルギー比Ratio=Esyn(-1)/Esyn_tmpに計算が実行され、tiltの重み付けされた値およびRatioが、現在のフレームの予測されたグローバルゲインパラメータgainとして使用され、すなわちgain=alfa*Ratio+beta*gain'であり、gain'は時間領域グローバルゲインパラメータであり、alfa+beta=1であり、alfaの値とbetaの値は異なる信号タイプによって異なり、Esyn(-1)は過去のフレームの最終的に出力された高周波数時間領域信号synのエネルギーを表し、Esyn_tmpは、現在のフレームの予測された高周波数時間領域信号synのエネルギーを表す。
S204:補正された高周波数時間領域信号を取得するために、時間領域エンベロープパラメータおよび予測されたグローバルゲインパラメータを使用することによって予測された高周波数信号を補正する。
補正された高周波数時間領域信号を取得するために、予測された高周波数信号に時間領域エンベロープパラメータおよび予測された時間領域グローバルゲインパラメータが乗算される。
この実施形態では、時間領域エンベロープパラメータは任意である。時間領域グローバルゲインパラメータだけが含まれる場合、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって予測された高周波数信号が補正される。すなわち、補正された高周波数時間領域信号を取得するために、予測された高周波数信号に予測されたグローバルゲインパラメータが乗算される。
S205:狭い周波数時間領域信号の現在のフレームと、補正された高周波数時間領域信号を合成して、合成された信号を出力する。
次のフレームの時間領域グローバルゲインパラメータを予測するために、高周波数時間領域信号synのエネルギーEsynが使用される。すなわち、Esynの値がEsyn(-1)に割り当てられる。
上述の実施形態では、広い周波数帯域と狭い周波数帯域との間の高周波数部分のスムースな移行を実現できるようにするために、広い周波数信号に続く狭い周波数信号の高周波数帯域が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除して、さらに、切換えの間に対応する処理がフレームに実行されるので、パラメータおよびステータス更新の間に発生する問題が間接的に排除される。切替え前の高周波数信号の帯域幅切替えアルゴリズムおよび符号化/復号化アルゴリズムを、同じ信号領域内に保持することによって、余分な遅延が追加されずにアルゴリズムがシンプルであることを保証するだけでなく、出力信号の性能も保証する。
図3を参照すると、本発明の音声/オーディオ信号処理方法の別の実施形態は、以下を含む。
S301:狭い周波数信号が広い周波数信号に切り替わる時に、高周波数信号の現在のフレームを取得する。
狭い周波数信号が広い周波数信号に切り替わる時、以前のフレームは狭い周波数信号であり、現在のフレームは広い周波数信号である。
S302:高周波数信号に対応する時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを取得する。
時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータは、高周波数信号の現在のフレームから直接取得することができる。時間領域エンベロープパラメータを取得するステップは任意のステップである。
S303:エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用して、エネルギー比が、音声/オーディオ信号の過去のフレームの高周波数時間領域信号のエネルギーと音声/オーディオ信号の現在のフレームの初期の高周波数信号のエネルギーとの間の比率である。
現在のフレームは広い周波数信号なので、高周波数信号のパラメータは復号化によってすべて取得することができる。切り替わる間のスムースな移行を保証するために、時間領域グローバルゲインパラメータが以下の方法で平滑化される。
エネルギー比Ratio=Esyn(-1)/Esyn_tmpに計算が実行され、Esyn(-1)は過去のフレームの最終的に出力された高周波数時間領域信号synのエネルギーを表し、Esyn_tmpは現在のフレームの高周波数時間領域信号synのエネルギーを表す。
復号化によって取得された時間領域グローバルゲインパラメータgainの重み付けされた値およびRatioが、現在のフレームの予測されたグローバルゲインパラメータgainとして使用され、すなわち、gain=alfa*Ratio+beta*gain'であり、上式でgain'は時間領域グローバルゲインパラメータであり、alfa+beta=1であり、alfaの値とbetaの値は異なる信号タイプによって異なる。
現在のオーディオフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、特定のステップサイズによる減衰によって取得された値、音声/オーディオ信号の以前のフレームに対応するエネルギー比の重み付け係数alfaが、現在のオーディオフレームに対応するエネルギー比の重み付け係数として使用され、alfaが0になるまで減衰がフレームごとに実行される。
連続するフレームの狭い周波数信号が同じ信号タイプである場合、または、連続するフレームの狭い周波数信号間の相互関係が一定の条件を満たす場合、すなわち、連続するフレームが一定の相互関係を有するか、連続するフレームの信号タイプが類似している場合、一定のステップサイズによって、alfaが0に減衰されるまでalfaがフレームごとに減衰され、連続するフレームの狭い周波数信号が相互関係を有しない場合、alfaは0に直接減衰され、すなわち、重み付けまたは補正を実行せずに現在の復号結果が保持される。
S304:補正された高周波数時間領域信号を取得するために、時間領域エンベロープパラメータおよび予測されたグローバルゲインパラメータを使用することによって高周波数信号を補正する。
補正は、補正された高周波数時間領域信号を取得するために、高周波数信号に時間領域エンベロープパラメータおよび予測された時間領域グローバルゲインパラメータが乗算されることを指す。
この実施形態では、時間領域エンベロープパラメータは任意である。時間領域グローバルゲインパラメータだけが含まれる場合、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって高周波数信号が補正され得る。すなわち、補正された高周波数時間領域信号を取得するために、高周波数信号に予測されたグローバルゲインパラメータが乗算される。
S305:狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力する。
上述の実施形態では、広い周波数帯域と狭い周波数帯域との間の高周波数部分のスムースな移行を実現できるようにするために、狭い周波数信号に続く広い周波数信号の高周波数帯域が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除して、さらに、切換えの間に対応する処理がフレームに実行されるので、パラメータおよびステータス更新の間に発生する問題が間接的に排除される。切替え前の高周波数信号の帯域幅切替えアルゴリズムおよび符号化/復号化アルゴリズムを、同じ信号領域内に保持することによって、余分な遅延が追加されずにアルゴリズムがシンプルであることを保証するだけでなく、出力信号の性能も保証する。
図4を参照すると、本発明の音声/オーディオ信号処理方法の別の実施形態は、以下を含む。
S401:音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得する。
広い周波数信号が狭い周波数信号に切り替わる時、以前のフレームは広い周波数信号であり、現在のフレームは狭い周波数信号である。狭い周波数信号の現在のフレームに対応する初期の高周波数信号を予測するステップは、狭い周波数信号の現在のフレームによって音声/オーディオ信号の現在のフレームの高周波数信号の励磁信号を予測するステップと、音声/オーディオ信号の現在のフレームの高周波数信号のLPC係数を予測するステップと、予測された高周波数信号syn_tmpを取得するために、予測された高周波数励磁信号とLPC係数とを合成するステップとを含む。
ある実施形態では、ピッチ周期、代数コードブック、およびゲインなどのパラメータを狭い周波数信号から抽出することができ、再サンプリングおよびフィルタリングによって高周波数励磁信号が予測される。
別の実施形態では、高周波励磁信号を予測するために、アップサンプリング、ローパス、絶対値または平方の取得などの操作が、狭い周波数時間領域信号または狭い周波数時間領域励磁信号に対して実行され得る。
高周波数信号のLPC係数を予測するために、過去のフレームの高周波LPC係数、または一連のあらかじめ定められた値が現在のフレームのLPC係数として使用されてもよく、異なる信号タイプについて異なる予測方法が使用されてもよい。
S402:音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得する。
ある実施形態では、以下のステップが含まれる。
S2021:音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類して、ある実施形態では、第1のタイプの信号が摩擦信号であり、第2のタイプの信号が非摩擦信号である。
ある実施形態では、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦として分類され、残りが非摩擦である。狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係を示すパラメータcorは、同じ周波数帯域の信号間のエネルギーの大小関係によって決定されてもよく、いくつかの同じ周波数帯域間のエネルギー関係によって決定されてもよく、時間領域信号間の自己相関または相互相関を示す、または時間領域励磁信号間の自己相関または相互相関を示す式によって計算されてもよい。
S2022:音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用する。すなわち、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1のあらかじめ定められた値以下の場合、スペクトルチルトパラメータの元の値がスペクトルチルトパラメータ制限値として保持され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1のあらかじめ定められた値を上回る場合、第1のあらかじめ定められた値がスペクトルチルトパラメータ制限値として使用される。
音声/オーディオ信号の現在のフレームが摩擦信号の場合、時間領域グローバルゲインパラメータgain'は、以下の式によって取得される。
Figure 2015512060
上式で、tiltはスペクトルチルトパラメータであり、∂1は第1のあらかじめ定められた値である。
S2023:音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用する。すなわち、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータは第1の範囲に属し、スペクトルチルトパラメータの元の値がスペクトルチルトパラメータ制限値として保持され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1の範囲の上限を上回る場合、第1の範囲の上限がスペクトルチルトパラメータ制限値として使用され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1の範囲の下限を下回る場合、第1の範囲の下限がスペクトルチルトパラメータ制限値として使用される。
音声/オーディオ信号の現在のフレームが非摩擦信号の場合、時間領域グローバルゲインパラメータgain'は、以下の式によって取得される。
Figure 2015512060
上式で、tiltはスペクトルチルトパラメータであり、[a,b]は第1の範囲である。
ある実施形態では、狭い周波数信号のスペクトルチルトパラメータtilt、および狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係を示すパラメータcorが取得され、信号の現在のフレームが、tiltおよびcorによって摩擦と非摩擦の2つのタイプに分類され、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦として分類され、残りが非摩擦であり、tiltが0.5<=tilt<=1.0の値の範囲内に制限されて、非摩擦の時間領域グローバルゲインパラメータとして使用され、tiltはtilt<=8.0の値の範囲に制限されて、摩擦の時間領域グローバルゲインパラメータとして使用される。摩擦にとって、スペクトルチルトパラメータは5を上回る任意の値でよく、非摩擦にとって、スペクトルチルトパラメータは5以下の任意の値でもよく、5を上回ってもよい。スペクトルチルトパラメータtiltが、予測されたグローバルゲインパラメータとして使用され得ることを保証するために、tiltが値の範囲内に制限されて、次いで時間領域グローバルゲインパラメータとして使用される。すなわち、tilt>8の場合、tilt=8で、8が摩擦信号の時間領域グローバルゲインパラメータとして使用されると決定され、tilt<0.5の場合、tilt=0.5であると決定され、またはtilt>1.0の場合、tilt=1.0であると決定され、0.5または1.0が非摩擦信号の時間領域グローバルゲインパラメータとして使用される。
S403:補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正する。
ある実施形態では、補正された高周波数時間領域信号を取得するために、初期の高周波数信号に時間領域グローバルゲインパラメータが乗算される。
別の実施形態では、ステップS403は、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるステップと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップとを含むことができ、すなわち、補正された高周波数時間領域信号を取得するために、初期の高周波数信号に予測されたグローバルゲインパラメータが乗算される。
任意で、ステップS403の前に、本方法は、
初期の高周波数信号に対応する時間領域エンベロープパラメータを取得するステップをさらに含むことができ、
予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップは、
時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップを含む。
S404:狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力する。
上記の実施形態では、広い周波数帯域から狭い周波数帯域に切り替わる時に、スペクトルチルトパラメータおよびフレーム間の相互関係によって高周波数信号の時間領域グローバルゲインパラメータが取得される。高周波数信号のエネルギーをより良好に推定することができるようにするために、狭い周波数スペクトルチルトパラメータを使用することによって、狭い周波数信号と高周波数信号との間のエネルギー関係を正確に推定することができる。フレーム間の相互関係を使用することによって、狭い周波数フレーム間の相互関係を良好に使用して高周波数信号間のフレーム間の相互関係を推定することができる。このように、高周波数グローバルゲインを取得するために重み付けが実行されると、上記の実情報を良好に使用することができ、望ましくないノイズが導入されない。広い周波数帯域と狭い周波数帯域との間で高周波数部分のスムースな移行を実現できるようにするために、時間領域グローバルゲインパラメータを使用することによって高周波数信号が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除する。
上記の方法実施形態に関連して、本発明は音声/オーディオ信号処理装置をさらに提供する。本装置は、端末デバイス、ネットワークデバイス、または検査デバイスに配置されてよい。音声/オーディオ信号処理装置は、ハードウェア回路によって実装されてもよく、ハードウェアと組み合わされたソフトウェアによって実装されてもよい。たとえば、図5を参照すると、音声/オーディオ信号処理を実現するために、プロセッサが音声/オーディオ信号処理装置を呼び出す。音声/オーディオ信号処理装置は、上記の方法実施形態における方法および処理を実行することができる。
図6を参照すると、音声/オーディオ信号処理装置の実施形態は、
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニット601と、
初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニット602と、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニット603であって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニット604と、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニット605とを含む。
ある実施形態では、帯域幅切替えが広い周波数信号から狭い周波数信号への切替えであり、パラメータ取得ユニット602は、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって、高周波数信号の時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニットを含む。
図7を参照すると、別の実施形態では、帯域幅切替えが広い周波数信号から狭い周波数信号への切替えであり、パラメータ取得ユニット602は、
音声/オーディオ信号の現在のフレームの高周波数時間領域エンベロープパラメータとして、一連のあらかじめ設定された値を使用するように構成された時間領域エンベロープ取得ユニット701と、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって、高周波数信号の時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニット702とを含む。
したがって、補正ユニット604は、補正された高周波数時間領域信号を取得するために、時間領域エンベロープパラメータおよび予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成されている。
さらに、図8を参照すると、グローバルゲインパラメータ取得ユニット702の実施形態は、
音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニット801と、
音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニット802と、
音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニット803とを含む。
さらに、ある実施形態では、第1のタイプの信号が摩擦信号であり、第2のタイプの信号が非摩擦信号であって、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦として分類され、残りが非摩擦であり、第1のあらかじめ定められた値は8であり、第1のあらかじめ設定された範囲は[0.5,1]である。
図9を参照すると、ある実施形態では、獲得ユニット601は、
音声/オーディオ信号の現在のフレームによって高周波数信号の励磁信号を予測するように構成された励磁信号取得ユニット901と、
高周波数信号のLPC係数を予測するように構成されたLPC係数取得ユニット902と、
予測された高周波数信号を取得するために、高周波数信号の励磁信号と、高周波数信号のLPC係数とを合成するように構成された生成ユニット903とを含む。
ある実施形態では、帯域幅切替えが狭い周波数信号から広い周波数信号への切替えであり、音声/オーディオ信号処理装置は、
音声/オーディオ信号の現在のオーディオフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、特定のステップサイズによる減衰によって取得された値、音声/オーディオ信号の以前のフレームに対応するエネルギー比の重み付け係数alfaを、現在のオーディオフレームに対応するエネルギー比の重み付け係数として使用するように構成された重み付け係数設定ユニットをさらに含み、alfaが0になるまで減衰がフレームごとに実行される。
図10を参照すると音声/オーディオ信号処理装置の別の実施形態は、
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニット1001と、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得するように構成されたパラメータ取得ユニット1002と、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニット1003と、
狭い周波数時間領域信号の現在のフレームと、補正された高周波数時間領域信号を合成して、合成された信号を出力するように構成された合成ユニット1004とを含む。
図8を参照すると、パラメータ取得ユニット1002は、
音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニット801と、
音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニット802と、
音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニット803とを含む。
さらに、ある実施形態では、第1のタイプの信号が摩擦信号であり、第2のタイプの信号が非摩擦信号であって、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦として分類され、残りが非摩擦であり、第1のあらかじめ定められた値は8であり、第1のあらかじめ設定された範囲は[0.5,1]である。
任意で、ある実施形態では、音声/オーディオ信号処理装置は、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるユニットをさらに含み、
補正ユニットは、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成されている。
別の実施形態では、パラメータ取得ユニットは、初期の高周波数信号に対応する時間領域エンベロープパラメータを取得するようにさらに構成され、補正ユニットは、時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成されている。
当業者は、本実施形態における方法の処理のすべてまたは一部は、関連するハードウェアに指示するコンピュータプログラムによって実現され得ることを理解できるだろう。プログラムは、コンピュータ可読記憶媒体に格納され得る。プログラムが実行されると、本実施形態における方法の処理が実行される。記憶媒体は、磁気ディスク、光ディスク、読出し専用メモリ(Read-Only Memory、ROM)、またはランダムアクセスモリ(Random Access Memory、RAM)を含み得る。
上記は、本発明を例示するための例示的実施形態にすぎず、本発明の範囲はそれに限定されない。従来技術の当業者には、本発明の趣旨および範囲から逸脱することなしに、修正または変形が容易に明らかである。
601 獲得ユニット
602 パラメータ取得ユニット
603 重み付け処理ユニット
604 補正ユニット
605 合成ユニット
701 時間領域エンベロープ取得ユニット
702 グローバルゲインパラメータ取得ユニット
801 分類ユニット
802 第1の制限ユニット
803 第2の制限ユニット
901 励磁信号取得ユニット
902 LPC係数取得ユニット
903 生成ユニット
1001 予測ユニット
1002 パラメータ取得ユニット
1003 補正ユニット
1004 合成ユニット
現在のオーディオフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、ステップサイズによる減衰によって取得された値、音声/オーディオ信号の以前のフレームに対応するエネルギー比の重み付け係数alfaが、現在のオーディオフレームに対応するエネルギー比の重み付け係数として使用され、alfaが0になるまで減衰がフレームごとに実行される。
連続するフレームの狭い周波数信号が同じ信号タイプである場合、または、連続するフレームの狭い周波数信号間の相互関係が条件を満たす場合、すなわち、連続するフレームが相互関係を有するか、連続するフレームの信号タイプが類似している場合、ステップサイズによって、alfaが0に減衰されるまでalfaがフレームごとに減衰され、連続するフレームの狭い周波数信号が相互関係を有しない場合、alfaは0に直接減衰され、すなわち、重み付けまたは補正を実行せずに現在の復号結果が保持される。
ある実施形態では、帯域幅切替えが狭い周波数信号から広い周波数信号への切替えであり、音声/オーディオ信号処理装置は、
音声/オーディオ信号の現在のオーディオフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、ステップサイズによる減衰によって取得された値、音声/オーディオ信号の以前のフレームに対応するエネルギー比の重み付け係数alfaを、現在のオーディオフレームに対応するエネルギー比の重み付け係数として使用するように構成された重み付け係数設定ユニットをさらに含み、alfaが0になるまで減衰がフレームごとに実行される。

Claims (23)

  1. 音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
    音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータによる前記高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得するステップと、
    補正された高周波数時間領域信号を取得するために、前記時間領域グローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するステップと、
    狭い周波数時間領域信号の現在のフレームと前記補正された高周波数時間領域信号とを合成して、前記合成された信号を出力するステップとを備える、音声/オーディオ信号処理方法。
  2. 音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータによる前記高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得する前記ステップが、
    音声/オーディオ信号の前記現在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および狭い周波数信号の前記現在のフレームと狭い周波数信号の前記過去のフレームとの間の前記相互関係によって第1のタイプの信号または第2のタイプの信号として分類するステップと、
    音声/オーディオ信号の前記現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限するステップと、
    音声/オーディオ信号の前記現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限するステップと、
    前記高周波数信号の前記時間領域グローバルゲインパラメータとして前記スペクトルチルトパラメータ制限値を使用するステップとを備える、請求項1に記載の方法。
  3. 前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号であって、前記スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、前記狭い周波数信号が摩擦として分類され、残りが非摩擦であり、前記第1のあらかじめ定められた値が8であり、前記第1のあらかじめ設定された範囲が[0.5,1]である、請求項2に記載の方法。
  4. 補正された高周波数時間領域信号を取得するために、前記時間領域グローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正する前記ステップが、
    エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、前記エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるステップと、
    前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するステップとを備える、請求項1から3のいずれか一項に記載の方法。
  5. 前記初期の高周波数信号に対応する時間領域エンベロープパラメータを取得するステップをさらに備え、
    前記時間領域グローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正する前記ステップが、
    前記時間領域エンベロープパラメータおよび前記時間領域グローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するステップを備える、請求項1から3のいずれか一項に記載の方法。
  6. 音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
    前記初期の高周波数信号の時間領域グローバルゲインパラメータを取得するステップと、
    エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、前記エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるステップと、
    補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するステップと、
    狭い周波数時間領域信号の現在のフレームと前記補正された高周波数時間領域信号とを合成して、前記合成された信号を出力するステップとを備える、音声/オーディオ信号処理方法。
  7. 前記帯域幅切替えが広い周波数信号から狭い周波数信号への切替えであり、前記初期の高周波数信号に対応するグローバルゲインパラメータを取得する前記ステップが、
    音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータによる前記高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得するステップを備える、請求項6に記載の方法。
  8. 音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる前記高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得する前記ステップが、
    音声/オーディオ信号の前記現在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および狭い周波数信号の前記現在のフレームと狭い周波数信号の前記過去のフレームとの間の前記相互関係によって第1のタイプの信号または第2のタイプの信号として分類するステップと、
    音声/オーディオ信号の前記現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限するステップと、
    音声/オーディオ信号の前記現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限するステップと、
    前記高周波数信号の前記時間領域グローバルゲインパラメータとして前記スペクトルチルトパラメータ制限値を使用するステップとを備える、請求項7に記載の方法。
  9. 前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号であって、前記スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、前記狭い周波数信号が摩擦として分類され、残りが非摩擦であり、前記第1のあらかじめ定められた値が8であり、前記第1のあらかじめ設定された範囲が[0.5,1]である、請求項8に記載の方法。
  10. 前記帯域幅切替えが広い周波数信号から狭い周波数信号への切替えであり、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得する前記ステップが、
    音声/オーディオ信号の前記現在のフレームによって高周波数励磁信号を予測するステップと、
    前記高周波数信号のLPC係数を予測するステップと、
    前記予測された高周波数信号を取得するために、前記高周波数励磁信号と、前記高周波数信号の前記LPC係数とを合成するステップとを備える、請求項6に記載の方法。
  11. 前記帯域幅切替えが狭い周波数信号から広い周波数信号への切替えであり、
    音声/オーディオ信号の前記現在のフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、特定のステップサイズによる減衰によって取得された値、音声/オーディオ信号の前記以前のフレームに対応する前記エネルギー比の重み付け係数alfaを、前記現在のオーディオフレームに対応する前記エネルギー比の重み付け係数として使用するステップをさらに備え、alfaが0になるまで前記減衰がフレームごとに実行される、請求項6に記載の方法。
  12. 音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニットと、
    音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータによる前記高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得するように構成されたパラメータ取得ユニットと、
    補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するように構成された補正ユニットと、
    狭い周波数時間領域信号の現在のフレームと前記補正された高周波数時間領域信号とを合成して、前記合成された信号を出力するように構成された合成ユニットとを備える、音声/オーディオ信号処理装置。
  13. 前記パラメータ取得ユニットが、
    音声/オーディオ信号の現前記在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および音声/オーディオ信号の前記現在のフレームと狭い周波数信号の前記過去のフレームとの間の前記相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニットと、
    音声/オーディオ信号の前記現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、前記高周波数信号の前記時間領域グローバルゲインパラメータとして前記スペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニットと、
    音声/オーディオ信号の前記現在のフレームが第2のタイプの信号の場合、前記スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限して、前記高周波数信号の前記時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニットとを備える、請求項12に記載の装置。
  14. 前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号であって、前記スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、前記狭い周波数信号が摩擦として分類され、残りが非摩擦であり、前記第1のあらかじめ定められた値が8であり、前記第1のあらかじめ設定された範囲が[0.5,1]である、請求項13に記載の装置。
  15. エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、前記エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるユニットをさらに備え、
    前記補正ユニットは、前記補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するように構成されている、請求項12から14のいずれか一項に記載の装置。
  16. 前記パラメータ取得ユニットは、前記初期の高周波数信号に対応する時間領域エンベロープパラメータを取得するようにさらに構成されていて、
    前記補正ユニットは、前記時間領域エンベロープパラメータおよび前記時間領域グローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するように構成されている、請求項12から14のいずれか一項に記載の装置。
  17. 音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニットと、
    前記初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニットと、
    エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、前記エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるユニットと、
    補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するように構成された補正ユニットと、
    狭い周波数時間領域信号の現在のフレームと前記補正された高周波数時間領域信号とを合成して、前記合成された信号を出力するように構成された合成ユニットとを備える、音声/オーディオ信号処理装置。
  18. 前記帯域幅切替えが広い周波数信号から狭い周波数信号への切替えであり、前記パラメータ取得ユニットが、
    音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって、前記高周波数信号の前記時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニットを備える、請求項17に記載の装置。
  19. 前記グローバルゲインパラメータ取得ユニットが、
    音声/オーディオ信号の現前記在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および音声/オーディオ信号の前記現在のフレームと狭い周波数信号の前記過去のフレームとの間の前記相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニットと、
    音声/オーディオ信号の前記現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、前記高周波数信号の前記時間領域グローバルゲインパラメータとして前記スペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニットと、
    音声/オーディオ信号の前記現在のフレームが第2のタイプの信号の場合、前記スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限して、前記高周波数信号の前記時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニットとを備える、請求項18に記載の装置。
  20. 前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号であって、前記スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、前記狭い周波数信号が摩擦として分類され、残りが非摩擦であり、前記第1のあらかじめ定められた値が8であり、前記第1のあらかじめ設定された範囲が[0.5,1]である、請求項19に記載の装置。
  21. 前記帯域幅切替えが狭い周波数信号から広い周波数信号への切替えであり、
    音声/オーディオ信号の前記現在のフレームの高周波数時間領域エンベロープパラメータとして、一連のあらかじめ設定された値を使用するように構成された時間領域エンベロープ取得ユニットをさらに備え、
    前記補正ユニットが、前記補正された高周波数時間領域信号を取得するために、前記時間領域エンベロープパラメータおよび前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するように構成されている、請求項17から20のいずれか一項に記載の装置。
  22. 前記獲得ユニットが、
    音声/オーディオ信号の前記現在のフレームによって前記高周波数信号の励磁信号を予測するように構成された励磁信号取得ユニットと、
    前記高周波数信号のLPC係数を予測するように構成されたLPC係数取得ユニットと、
    前記予測された高周波数信号を取得するために、前記高周波数信号の前記励磁信号と、前記高周波数信号の前記LPC係数とを合成するように構成された合成ユニットとを備える、請求項17から20のいずれか一項に記載の装置。
  23. 前記帯域幅切替えが狭い周波数信号から広い周波数信号への切替えであり、
    音声/オーディオ信号の前記現在のフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、特定のステップサイズによる減衰によって取得された値、音声/オーディオ信号の前記以前のフレームに対応する前記エネルギー比の重み付け係数alfaを、前記現在のオーディオフレームに対応する前記エネルギー比の重み付け係数として使用するように構成された重み付け係数設定ユニットをさらに備え、alfaが0になるまで前記減衰がフレームごとに実行される、請求項17から20のいずれか一項に記載の装置。
JP2014559077A 2012-03-01 2013-03-01 音声/オーディオ信号処理方法および装置 Active JP6010141B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210051672.6A CN103295578B (zh) 2012-03-01 2012-03-01 一种语音频信号处理方法和装置
CN201210051672.6 2012-03-01
PCT/CN2013/072075 WO2013127364A1 (zh) 2012-03-01 2013-03-01 一种语音频信号处理方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016180496A Division JP6378274B2 (ja) 2012-03-01 2016-09-15 音声/オーディオ信号処理方法および装置

Publications (2)

Publication Number Publication Date
JP2015512060A true JP2015512060A (ja) 2015-04-23
JP6010141B2 JP6010141B2 (ja) 2016-10-19

Family

ID=49081655

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2014559077A Active JP6010141B2 (ja) 2012-03-01 2013-03-01 音声/オーディオ信号処理方法および装置
JP2016180496A Active JP6378274B2 (ja) 2012-03-01 2016-09-15 音声/オーディオ信号処理方法および装置
JP2018140054A Active JP6558748B2 (ja) 2012-03-01 2018-07-26 音声/オーディオ信号処理方法および装置

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2016180496A Active JP6378274B2 (ja) 2012-03-01 2016-09-15 音声/オーディオ信号処理方法および装置
JP2018140054A Active JP6558748B2 (ja) 2012-03-01 2018-07-26 音声/オーディオ信号処理方法および装置

Country Status (20)

Country Link
US (4) US9691396B2 (ja)
EP (3) EP3534365B1 (ja)
JP (3) JP6010141B2 (ja)
KR (3) KR101844199B1 (ja)
CN (2) CN103295578B (ja)
BR (1) BR112014021407B1 (ja)
CA (1) CA2865533C (ja)
DK (1) DK3534365T3 (ja)
ES (3) ES2867537T3 (ja)
HU (1) HUE053834T2 (ja)
IN (1) IN2014KN01739A (ja)
MX (2) MX345604B (ja)
MY (1) MY162423A (ja)
PL (1) PL3534365T3 (ja)
PT (2) PT3193331T (ja)
RU (2) RU2585987C2 (ja)
SG (2) SG11201404954WA (ja)
TR (1) TR201911006T4 (ja)
WO (1) WO2013127364A1 (ja)
ZA (1) ZA201406248B (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295578B (zh) 2012-03-01 2016-05-18 华为技术有限公司 一种语音频信号处理方法和装置
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
MX355091B (es) 2013-10-18 2018-04-04 Fraunhofer Ges Forschung Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz.
AU2014336357B2 (en) 2013-10-18 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US20150170655A1 (en) * 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
KR101864122B1 (ko) 2014-02-20 2018-06-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
GB2567503A (en) * 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN112927709B (zh) * 2021-02-04 2022-06-14 武汉大学 一种基于时频域联合损失函数的语音增强方法
CN115294947A (zh) * 2022-07-29 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002528777A (ja) * 1998-10-27 2002-09-03 ボイスエイジ コーポレイション オーバーサンプリングされた合成広帯域信号の高周波数成分回復の方法および装置
WO2006028009A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および信号消失補償方法
WO2007000988A1 (ja) * 2005-06-29 2007-01-04 Matsushita Electric Industrial Co., Ltd. スケーラブル復号装置および消失データ補間方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60040146D1 (de) 1999-04-26 2008-10-16 Lucent Technologies Inc Pfadumschaltung im bezug auf übertragungsbedarf
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6606591B1 (en) 2000-04-13 2003-08-12 Conexant Systems, Inc. Speech coding employing hybrid linear prediction coding
US7113522B2 (en) 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
JP2003044098A (ja) 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
JP2009524101A (ja) 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
RU2414009C2 (ru) * 2006-01-18 2011-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования и декодирования сигнала
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
GB2444757B (en) 2006-12-13 2009-04-22 Motorola Inc Code excited linear prediction speech coding
JP4733727B2 (ja) 2007-10-30 2011-07-27 日本電信電話株式会社 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
BRPI0818927A2 (pt) * 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
KR100930061B1 (ko) * 2008-01-22 2009-12-08 성균관대학교산학협력단 신호 검출 방법 및 장치
CN101499278B (zh) * 2008-02-01 2011-12-28 华为技术有限公司 音频信号切换处理方法和装置
CN101751925B (zh) * 2008-12-10 2011-12-21 华为技术有限公司 一种语音解码方法及装置
JP5448657B2 (ja) * 2009-09-04 2014-03-19 三菱重工業株式会社 空気調和機の室外機
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CN102044250B (zh) * 2009-10-23 2012-06-27 华为技术有限公司 频带扩展方法及装置
JP5287685B2 (ja) * 2009-11-30 2013-09-11 ダイキン工業株式会社 空調室外機
CN101964189B (zh) * 2010-04-28 2012-08-08 华为技术有限公司 语音频信号切换方法及装置
US8000968B1 (en) * 2011-04-26 2011-08-16 Huawei Technologies Co., Ltd. Method and apparatus for switching speech or audio signals
AR085895A1 (es) * 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
CN103295578B (zh) * 2012-03-01 2016-05-18 华为技术有限公司 一种语音频信号处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002528777A (ja) * 1998-10-27 2002-09-03 ボイスエイジ コーポレイション オーバーサンプリングされた合成広帯域信号の高周波数成分回復の方法および装置
WO2006028009A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および信号消失補償方法
WO2007000988A1 (ja) * 2005-06-29 2007-01-04 Matsushita Electric Industrial Co., Ltd. スケーラブル復号装置および消失データ補間方法

Also Published As

Publication number Publication date
DK3534365T3 (da) 2021-04-12
ES2867537T3 (es) 2021-10-20
BR112014021407A2 (pt) 2019-04-16
CN103295578B (zh) 2016-05-18
CA2865533A1 (en) 2013-09-06
US10360917B2 (en) 2019-07-23
KR20170013405A (ko) 2017-02-06
EP3534365A1 (en) 2019-09-04
ES2741849T3 (es) 2020-02-12
SG10201608440XA (en) 2016-11-29
EP2821993B1 (en) 2017-05-10
MX364202B (es) 2019-04-16
SG11201404954WA (en) 2014-10-30
JP6378274B2 (ja) 2018-08-22
US10013987B2 (en) 2018-07-03
PT3193331T (pt) 2019-08-27
US20180374488A1 (en) 2018-12-27
PL3534365T3 (pl) 2021-07-12
JP2017027068A (ja) 2017-02-02
MX345604B (es) 2017-02-03
US20150006163A1 (en) 2015-01-01
RU2585987C2 (ru) 2016-06-10
US10559313B2 (en) 2020-02-11
CA2865533C (en) 2017-11-07
JP2018197869A (ja) 2018-12-13
CN105469805B (zh) 2018-01-12
EP2821993A1 (en) 2015-01-07
HUE053834T2 (hu) 2021-07-28
KR101667865B1 (ko) 2016-10-19
KR101844199B1 (ko) 2018-03-30
MY162423A (en) 2017-06-15
IN2014KN01739A (ja) 2015-10-23
KR20160121612A (ko) 2016-10-19
BR112014021407B1 (pt) 2019-11-12
KR101702281B1 (ko) 2017-02-03
EP3193331A1 (en) 2017-07-19
US20170270933A1 (en) 2017-09-21
RU2014139605A (ru) 2016-04-20
WO2013127364A1 (zh) 2013-09-06
EP2821993A4 (en) 2015-02-25
JP6010141B2 (ja) 2016-10-19
JP6558748B2 (ja) 2019-08-14
US20190318747A1 (en) 2019-10-17
US9691396B2 (en) 2017-06-27
EP3193331B1 (en) 2019-05-15
MX2014010376A (es) 2014-12-05
PT2821993T (pt) 2017-07-13
EP3534365B1 (en) 2021-01-27
ZA201406248B (en) 2016-01-27
TR201911006T4 (tr) 2019-08-21
ES2629135T3 (es) 2017-08-07
CN103295578A (zh) 2013-09-11
KR20140124004A (ko) 2014-10-23
CN105469805A (zh) 2016-04-06
RU2616557C1 (ru) 2017-04-17

Similar Documents

Publication Publication Date Title
JP6558748B2 (ja) 音声/オーディオ信号処理方法および装置
JP6892491B2 (ja) 会話/音声信号処理方法および符号化装置
EP2660812A1 (en) Bandwidth expansion method and apparatus
CN105761724B (zh) 一种语音频信号处理方法和装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150924

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160125

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160915

R150 Certificate of patent or registration of utility model

Ref document number: 6010141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250