JP2017027068A - 音声/オーディオ信号処理方法および装置 - Google Patents
音声/オーディオ信号処理方法および装置 Download PDFInfo
- Publication number
- JP2017027068A JP2017027068A JP2016180496A JP2016180496A JP2017027068A JP 2017027068 A JP2017027068 A JP 2017027068A JP 2016180496 A JP2016180496 A JP 2016180496A JP 2016180496 A JP2016180496 A JP 2016180496A JP 2017027068 A JP2017027068 A JP 2017027068A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- high frequency
- audio
- frequency signal
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 159
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 230000003595 spectral effect Effects 0.000 claims description 97
- 230000005284 excitation Effects 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Transmitters (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
【解決手段】方法は、音声/オーディオ信号が帯域幅を切り替える時に、現在のフレームに対応する初期の高周波数信号を取得し、初期の高周波数信号の時間領域グローバルゲインパラメータを取得し、エネルギー比および時間領域グローバルゲインパラメータに重み付けし、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用し、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率あり、補正された高周波数時間領域信号の取得ために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正し、狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力する。
【選択図】図1
Description
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得するステップと、
補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
初期の高周波数信号の時間領域グローバルゲインパラメータを取得するステップと、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるステップと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニットと、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得するように構成されたパラメータ取得ユニットと、
補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニットと、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニットとを含む。
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニットと、
初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニットと、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニットと、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニットとを含む。
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるステップと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップとを含むことができ、すなわち、補正された高周波数時間領域信号を取得するために、初期の高周波数信号に予測されたグローバルゲインパラメータが乗算される。
初期の高周波数信号に対応する時間領域エンベロープパラメータを取得するステップをさらに含むことができ、
予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップは、
時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップを含む。
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニット601と、
初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニット602と、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニット603であって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニット604と、
狭い周波数時間領域信号の現在のフレームと補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニット605とを含む。
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって、高周波数信号の時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニットを含む。
音声/オーディオ信号の現在のフレームの高周波数時間領域エンベロープパラメータとして、一連のあらかじめ設定された値を使用するように構成された時間領域エンベロープ取得ユニット701と、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって、高周波数信号の時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニット702とを含む。
音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニット801と、
音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニット802と、
音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニット803とを含む。
音声/オーディオ信号の現在のフレームによって高周波数信号の励磁信号を予測するように構成された励磁信号取得ユニット901と、
高周波数信号のLPC係数を予測するように構成されたLPC係数取得ユニット902と、
予測された高周波数信号を取得するために、高周波数信号の励磁信号と、高周波数信号のLPC係数とを合成するように構成された生成ユニット903とを含む。
音声/オーディオ信号の現在のオーディオフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、ステップサイズによる減衰によって取得された値、音声/オーディオ信号の以前のフレームに対応するエネルギー比の重み付け係数alfaを、現在のオーディオフレームに対応するエネルギー比の重み付け係数として使用するように構成された重み付け係数設定ユニットをさらに含み、alfaが0になるまで減衰がフレームごとに実行される。
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニット1001と、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、狭い周波数信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係とを取得するように構成されたパラメータ取得ユニット1002と、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニット1003と、
狭い周波数時間領域信号の現在のフレームと、補正された高周波数時間領域信号を合成して、合成された信号を出力するように構成された合成ユニット1004とを含む。
音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および音声/オーディオ信号の現在のフレームと狭い周波数信号の過去のフレームとの間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニット801と、
音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニット802と、
音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニット803とを含む。
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、エネルギー比が、高周波数時間領域信号の過去のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率であるユニットをさらに含み、
補正ユニットは、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成されている。
602 パラメータ取得ユニット
603 重み付け処理ユニット
604 補正ユニット
605 合成ユニット
701 時間領域エンベロープ取得ユニット
702 グローバルゲインパラメータ取得ユニット
801 分類ユニット
802 第1の制限ユニット
803 第2の制限ユニット
901 励磁信号取得ユニット
902 LPC係数取得ユニット
903 生成ユニット
1001 予測ユニット
1002 パラメータ取得ユニット
1003 補正ユニット
1004 合成ユニット
Claims (11)
- 音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
前記初期の高周波数信号の時間領域グローバルゲインパラメータを取得するステップと、
予測されたグローバルゲインパラメータとして重み付けされた値を取得するために、エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行うステップであって、前記エネルギー比が、高周波数時間領域信号の以前のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率である、ステップと、
補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するステップと、
狭い周波数時間領域信号の現在のフレームと前記補正された高周波数時間領域信号とを合成して、前記合成された信号を出力するステップと
を備える、音声/オーディオ信号処理方法。 - 前記初期の高周波数信号の時間領域グローバルゲインパラメータを取得するステップが、
音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータによる前記高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と以前のフレームの狭い周波数信号との間の相互関係とを取得するステップを備える、請求項1に記載の方法。 - 音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる前記高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と以前のフレームの狭い周波数信号との間の相互関係とを取得する前記ステップが、
音声/オーディオ信号の前記現在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および前記現在のフレームの前記狭い周波数信号と前記以前のフレームの前記狭い周波数信号との間の前記相互関係によって第1のタイプの信号または第2のタイプの信号として分類するステップと、
音声/オーディオ信号の前記現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限するステップと、
音声/オーディオ信号の前記現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限するステップと
を備え、
前記スペクトルチルトパラメータ制限値が、前記高周波数信号の前記時間領域グローバルゲインパラメータを取得するのに使用される、請求項2に記載の方法。 - 前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号であって、前記スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、前記狭い周波数信号が摩擦信号として分類され、残りが非摩擦信号であり、前記第1のあらかじめ定められた値が8であり、前記第1の範囲が[0.5,1]である、請求項3に記載の方法。
- 音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得する前記ステップが、
音声/オーディオ信号の前記現在のフレームによって高周波数励磁信号を予測するステップと、
前記高周波数信号のLPC係数を予測するステップと、
前記予測された高周波数信号を取得するために、前記高周波数励磁信号と、前記高周波数信号の前記LPC係数とを合成するステップと
を備える、請求項1に記載の方法。 - 音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニットと、
前記初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニットと、
予測されたグローバルゲインパラメータとして重み付けされた値を取得するために、エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行うように構成された重み付け処理ユニットであって、前記エネルギー比が、高周波数時間領域信号の以前のフレームのエネルギーと初期の高周波数信号の現在のフレームのエネルギーとの間の比率である、ユニットと、
補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数信号を補正するように構成された補正ユニットと、
狭い周波数時間領域信号の現在のフレームと前記補正された高周波数時間領域信号とを合成して、前記合成された信号を出力するように構成された合成ユニットと
を備える、音声/オーディオ信号処理装置。 - 前記パラメータ取得ユニットが、
音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と以前のフレームの狭い周波数信号との間の相互関係によって、前記高周波数信号の前記時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニットを備える、請求項6に記載の装置。 - 前記グローバルゲインパラメータ取得ユニットが、
音声/オーディオ信号の現前記在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および前記現在のフレームの前記狭い周波数信号と前記以前のフレームの前記狭い周波数信号との間の前記相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニットと、
音声/オーディオ信号の前記現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限するように構成された第1の制限ユニットと、
音声/オーディオ信号の前記現在のフレームが第2のタイプの信号の場合、前記スペクトルチルトパラメータ制限値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限するように構成された第2の制限ユニットと
を備え、
前記スペクトルチルトパラメータ制限値が、前記高周波数信号の前記時間領域グローバルゲインパラメータを取得するのに使用される、請求項7に記載の装置。 - 前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号であって、前記スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、前記狭い周波数信号が摩擦信号として分類され、残りが非摩擦信号であり、前記第1のあらかじめ定められた値が8であり、前記第1の範囲が[0.5,1]である、請求項8に記載の装置。
- 前記獲得ユニットが、
音声/オーディオ信号の前記現在のフレームによって前記高周波数信号の励磁信号を予測するように構成された励磁信号取得ユニットと、
前記高周波数信号のLPC係数を予測するように構成されたLPC係数取得ユニットと、
前記予測された高周波数信号を取得するために、前記高周波数信号の前記励磁信号と、前記高周波数信号の前記LPC係数とを合成するように構成された合成ユニットと
を備える、請求項6から9のいずれか一項に記載の装置。 - 請求項1から5のいずれかに記載の方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210051672.6A CN103295578B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
CN201210051672.6 | 2012-03-01 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014559077A Division JP6010141B2 (ja) | 2012-03-01 | 2013-03-01 | 音声/オーディオ信号処理方法および装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018140054A Division JP6558748B2 (ja) | 2012-03-01 | 2018-07-26 | 音声/オーディオ信号処理方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017027068A true JP2017027068A (ja) | 2017-02-02 |
JP6378274B2 JP6378274B2 (ja) | 2018-08-22 |
Family
ID=49081655
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014559077A Active JP6010141B2 (ja) | 2012-03-01 | 2013-03-01 | 音声/オーディオ信号処理方法および装置 |
JP2016180496A Active JP6378274B2 (ja) | 2012-03-01 | 2016-09-15 | 音声/オーディオ信号処理方法および装置 |
JP2018140054A Active JP6558748B2 (ja) | 2012-03-01 | 2018-07-26 | 音声/オーディオ信号処理方法および装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014559077A Active JP6010141B2 (ja) | 2012-03-01 | 2013-03-01 | 音声/オーディオ信号処理方法および装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018140054A Active JP6558748B2 (ja) | 2012-03-01 | 2018-07-26 | 音声/オーディオ信号処理方法および装置 |
Country Status (20)
Country | Link |
---|---|
US (4) | US9691396B2 (ja) |
EP (3) | EP3193331B1 (ja) |
JP (3) | JP6010141B2 (ja) |
KR (3) | KR101844199B1 (ja) |
CN (2) | CN103295578B (ja) |
BR (1) | BR112014021407B1 (ja) |
CA (1) | CA2865533C (ja) |
DK (1) | DK3534365T3 (ja) |
ES (3) | ES2629135T3 (ja) |
HU (1) | HUE053834T2 (ja) |
IN (1) | IN2014KN01739A (ja) |
MX (2) | MX345604B (ja) |
MY (1) | MY162423A (ja) |
PL (1) | PL3534365T3 (ja) |
PT (2) | PT3193331T (ja) |
RU (2) | RU2616557C1 (ja) |
SG (2) | SG11201404954WA (ja) |
TR (1) | TR201911006T4 (ja) |
WO (1) | WO2013127364A1 (ja) |
ZA (1) | ZA201406248B (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295578B (zh) | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
CN108364657B (zh) | 2013-07-16 | 2020-10-30 | 超清编解码有限公司 | 处理丢失帧的方法和解码器 |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
WO2015055531A1 (en) | 2013-10-18 | 2015-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
KR20160070147A (ko) | 2013-10-18 | 2016-06-17 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념 |
US9524720B2 (en) * | 2013-12-15 | 2016-12-20 | Qualcomm Incorporated | Systems and methods of blind bandwidth extension |
KR101864122B1 (ko) * | 2014-02-20 | 2018-06-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN105225666B (zh) | 2014-06-25 | 2016-12-28 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB2567503A (en) * | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201719734D0 (en) * | 2017-10-30 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN112927709B (zh) * | 2021-02-04 | 2022-06-14 | 武汉大学 | 一种基于时频域联合损失函数的语音增强方法 |
CN113470691B (zh) * | 2021-07-08 | 2024-08-30 | 浙江大华技术股份有限公司 | 一种语音信号的自动增益控制方法及其相关装置 |
CN115294947B (zh) * | 2022-07-29 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007000988A1 (ja) * | 2005-06-29 | 2007-01-04 | Matsushita Electric Industrial Co., Ltd. | スケーラブル復号装置および消失データ補間方法 |
WO2012110482A2 (en) * | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise generation in audio codecs |
JP6010141B2 (ja) * | 2012-03-01 | 2016-10-19 | ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. | 音声/オーディオ信号処理方法および装置 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
DE60040146D1 (de) | 1999-04-26 | 2008-10-16 | Lucent Technologies Inc | Pfadumschaltung im bezug auf übertragungsbedarf |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6606591B1 (en) | 2000-04-13 | 2003-08-12 | Conexant Systems, Inc. | Speech coding employing hybrid linear prediction coding |
US7113522B2 (en) | 2001-01-24 | 2006-09-26 | Qualcomm, Incorporated | Enhanced conversion of wideband signals to narrowband signals |
JP2003044098A (ja) | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
CN101010730B (zh) * | 2004-09-06 | 2011-07-27 | 松下电器产业株式会社 | 可扩展解码装置以及信号丢失补偿方法 |
KR20080101873A (ko) | 2006-01-18 | 2008-11-21 | 연세대학교 산학협력단 | 부호화/복호화 장치 및 방법 |
RU2414009C2 (ru) * | 2006-01-18 | 2011-03-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Устройство и способ для кодирования и декодирования сигнала |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
GB2444757B (en) | 2006-12-13 | 2009-04-22 | Motorola Inc | Code excited linear prediction speech coding |
JP4733727B2 (ja) | 2007-10-30 | 2011-07-27 | 日本電信電話株式会社 | 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 |
JP5547081B2 (ja) * | 2007-11-02 | 2014-07-09 | 華為技術有限公司 | 音声復号化方法及び装置 |
CN100585699C (zh) * | 2007-11-02 | 2010-01-27 | 华为技术有限公司 | 一种音频解码的方法和装置 |
KR100930061B1 (ko) * | 2008-01-22 | 2009-12-08 | 성균관대학교산학협력단 | 신호 검출 방법 및 장치 |
CN101499278B (zh) * | 2008-02-01 | 2011-12-28 | 华为技术有限公司 | 音频信号切换处理方法和装置 |
CN101751925B (zh) * | 2008-12-10 | 2011-12-21 | 华为技术有限公司 | 一种语音解码方法及装置 |
JP5448657B2 (ja) * | 2009-09-04 | 2014-03-19 | 三菱重工業株式会社 | 空気調和機の室外機 |
CN102044250B (zh) * | 2009-10-23 | 2012-06-27 | 华为技术有限公司 | 频带扩展方法及装置 |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
JP5287685B2 (ja) * | 2009-11-30 | 2013-09-11 | ダイキン工業株式会社 | 空調室外機 |
US8000968B1 (en) * | 2011-04-26 | 2011-08-16 | Huawei Technologies Co., Ltd. | Method and apparatus for switching speech or audio signals |
CN101964189B (zh) * | 2010-04-28 | 2012-08-08 | 华为技术有限公司 | 语音频信号切换方法及装置 |
-
2012
- 2012-03-01 CN CN201210051672.6A patent/CN103295578B/zh active Active
- 2012-03-01 CN CN201510991494.9A patent/CN105469805B/zh active Active
-
2013
- 2013-03-01 WO PCT/CN2013/072075 patent/WO2013127364A1/zh active Application Filing
- 2013-03-01 BR BR112014021407-7A patent/BR112014021407B1/pt active IP Right Grant
- 2013-03-01 IN IN1739KON2014 patent/IN2014KN01739A/en unknown
- 2013-03-01 ES ES13754564.6T patent/ES2629135T3/es active Active
- 2013-03-01 ES ES16187948T patent/ES2741849T3/es active Active
- 2013-03-01 TR TR2019/11006T patent/TR201911006T4/tr unknown
- 2013-03-01 PT PT16187948T patent/PT3193331T/pt unknown
- 2013-03-01 KR KR1020177002148A patent/KR101844199B1/ko active IP Right Grant
- 2013-03-01 HU HUE18199234A patent/HUE053834T2/hu unknown
- 2013-03-01 RU RU2016115109A patent/RU2616557C1/ru active
- 2013-03-01 MY MYPI2014002393A patent/MY162423A/en unknown
- 2013-03-01 JP JP2014559077A patent/JP6010141B2/ja active Active
- 2013-03-01 KR KR1020167028242A patent/KR101702281B1/ko active Application Filing
- 2013-03-01 SG SG11201404954WA patent/SG11201404954WA/en unknown
- 2013-03-01 SG SG10201608440XA patent/SG10201608440XA/en unknown
- 2013-03-01 EP EP16187948.1A patent/EP3193331B1/en active Active
- 2013-03-01 MX MX2014010376A patent/MX345604B/es active IP Right Grant
- 2013-03-01 PL PL18199234T patent/PL3534365T3/pl unknown
- 2013-03-01 MX MX2017001662A patent/MX364202B/es unknown
- 2013-03-01 PT PT137545646T patent/PT2821993T/pt unknown
- 2013-03-01 RU RU2014139605/08A patent/RU2585987C2/ru active
- 2013-03-01 DK DK18199234.8T patent/DK3534365T3/da active
- 2013-03-01 EP EP13754564.6A patent/EP2821993B1/en active Active
- 2013-03-01 KR KR1020147025655A patent/KR101667865B1/ko active IP Right Grant
- 2013-03-01 ES ES18199234T patent/ES2867537T3/es active Active
- 2013-03-01 EP EP18199234.8A patent/EP3534365B1/en active Active
- 2013-03-01 CA CA2865533A patent/CA2865533C/en active Active
-
2014
- 2014-08-25 ZA ZA2014/06248A patent/ZA201406248B/en unknown
- 2014-08-27 US US14/470,559 patent/US9691396B2/en active Active
-
2016
- 2016-09-15 JP JP2016180496A patent/JP6378274B2/ja active Active
-
2017
- 2017-06-07 US US15/616,188 patent/US10013987B2/en active Active
-
2018
- 2018-06-28 US US16/021,621 patent/US10360917B2/en active Active
- 2018-07-26 JP JP2018140054A patent/JP6558748B2/ja active Active
-
2019
- 2019-06-28 US US16/457,165 patent/US10559313B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007000988A1 (ja) * | 2005-06-29 | 2007-01-04 | Matsushita Electric Industrial Co., Ltd. | スケーラブル復号装置および消失データ補間方法 |
WO2012110482A2 (en) * | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise generation in audio codecs |
JP6010141B2 (ja) * | 2012-03-01 | 2016-10-19 | ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. | 音声/オーディオ信号処理方法および装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6558748B2 (ja) | 音声/オーディオ信号処理方法および装置 | |
JP6462653B2 (ja) | オーディオ・データを処理するための方法、装置、及びシステム | |
JP6892491B2 (ja) | 会話/音声信号処理方法および符号化装置 | |
JP2014507681A (ja) | 帯域幅を拡張する方法および装置 | |
CN105761724B (zh) | 一种语音频信号处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A132 Effective date: 20171121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180626 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6378274 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |