JP6558748B2 - 音声/オーディオ信号処理方法および装置 - Google Patents
音声/オーディオ信号処理方法および装置 Download PDFInfo
- Publication number
- JP6558748B2 JP6558748B2 JP2018140054A JP2018140054A JP6558748B2 JP 6558748 B2 JP6558748 B2 JP 6558748B2 JP 2018140054 A JP2018140054 A JP 2018140054A JP 2018140054 A JP2018140054 A JP 2018140054A JP 6558748 B2 JP6558748 B2 JP 6558748B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- time domain
- audio
- high frequency
- spectral tilt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 156
- 238000003672 processing method Methods 0.000 title claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 123
- 238000012545 processing Methods 0.000 claims description 34
- 230000005284 excitation Effects 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 20
- 230000000717 retained effect Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 4
- 230000005055 memory storage Effects 0.000 claims 2
- 238000004422 calculation algorithm Methods 0.000 description 26
- 238000012937 correction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Transmitters (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Description
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得するステップと、
補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
初期の高周波数信号の時間領域グローバルゲインパラメータを取得するステップと、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるステップと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニットと、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得するように構成されたパラメータ取得ユニットと、
補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニットと、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニットとを含む。
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニットと、
初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニットと、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニットと、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニットとを含む。
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるステップと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップとを含むことができ、すなわち、補正された高周波数時間領域信号を取得するために、初期の高周波数信号に予測されたグローバルゲインパラメータが乗算される。
初期の高周波数信号に対応する時間領域エンベロープパラメータを取得するステップをさらに含むことができ、
予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップは、
時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップを含む。
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニット601と、
初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニット602と、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニット603であって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニット604と、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニット605とを含む。
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって、高周波数信号の時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニットを含む。
音声/オーディオ信号の現在のフレームの高周波数時間領域エンベロープパラメータとして、一連のあらかじめ設定された値を使用するように構成された時間領域エンベロープ取得ユニット701と、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって、高周波数信号の時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニット702とを含む。
音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニット801と、
音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニット802と、
音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニット803とを含む。
音声/オーディオ信号の現在のフレームによって高周波数信号の励磁信号を予測するように構成された励磁信号取得ユニット901と、
高周波数信号のLPC係数を予測するように構成されたLPC係数取得ユニット902と、
予測された高周波数信号を取得するために、高周波数信号の励磁信号と、高周波数信号のLPC係数とを合成するように構成された生成ユニット903とを含む。
音声/オーディオ信号の現在のオーディオフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、ステップサイズによる減衰によって取得された値、音声/オーディオ信号の以前のフレームに対応するエネルギー比の重み付け係数alfaを、現在のオーディオフレームに対応するエネルギー比の重み付け係数として使用するように構成された重み付け係数設定ユニットをさらに含み、alfaが0になるまで減衰がフレームごとに実行される。
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニット1001と、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得するように構成されたパラメータ取得ユニット1002と、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニット1003と、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニット1004とを含む。
音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニット801と、
音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニット802と、
音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニット803とを含む。
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるユニットをさらに含み、
補正ユニットは、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成されている。
602 パラメータ取得ユニット
603 重み付け処理ユニット
604 補正ユニット
605 合成ユニット
701 時間領域エンベロープ取得ユニット
702 グローバルゲインパラメータ取得ユニット
801 分類ユニット
802 第1の制限ユニット
803 第2の制限ユニット
901 励磁信号取得ユニット
902 LPC係数取得ユニット
903 生成ユニット
1001 予測ユニット
1002 パラメータ取得ユニット
1003 補正ユニット
1004 合成ユニット
Claims (17)
- 現在のフレームの信号が狭い周波数信号であり、前記現在のフレームの以前のフレームの信号が広い周波数信号である場合、音声/オーディオ信号の前記現在のフレームに対応する初期の高周波数時間領域信号を取得するステップと、
前記初期の高周波数時間領域信号の時間領域グローバルゲインパラメータを取得するステップと、
予測されたグローバルゲインパラメータとして重み付けされた値を取得するために、エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行うステップであって、前記エネルギー比が、前記以前のフレームの高周波数時間領域信号のエネルギーと前記現在のフレームの前記初期の高周波数時間領域信号のエネルギーとの間の比率である、ステップと、
補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数時間領域信号を補正するステップと、
前記現在のフレームの狭い周波数時間領域信号と前記補正された高周波数時間領域信号とによって合成された信号を合成するステップと
を備える、音声/オーディオ信号処理方法。 - 前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータを取得する前記ステップが、
音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータ、および前記現在のフレームの狭い周波数信号と前記以前のフレームの狭い周波数信号との間の相互関係によって、前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータを取得するステップを備える、請求項1に記載の方法。 - 音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータ、および前記現在のフレームの狭い周波数信号と前記以前のフレームの狭い周波数信号との間の相互関係によって、前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータを取得する前記ステップが、
音声/オーディオ信号の前記現在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および前記現在のフレームの狭い周波数信号と前記以前のフレームの狭い周波数信号との間の前記相互関係によって、第1のタイプの信号または第2のタイプの信号として分類するステップと、
音声/オーディオ信号の前記現在のフレームが前記第1のタイプの信号の場合、制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限するステップと、
音声/オーディオ信号の前記現在のフレームが前記第2のタイプの信号の場合、前記制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限するステップと、
前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータとして前記制限されたスペクトルチルトパラメータ値を使用するステップと
を備える、請求項2に記載の方法。 - 前記制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを前記第1のあらかじめ定められた値以下に制限する前記ステップが、
前記スペクトルチルトパラメータの値が前記第1のあらかじめ定められた値以下である場合、前記スペクトルチルトパラメータの値が前記制限されたスペクトルチルトパラメータ値として保持され、
前記スペクトルチルトパラメータの値が前記第1のあらかじめ定められた値より大きい場合、前記第1のあらかじめ定められた値が前記制限されたスペクトルチルトパラメータ値として使用される、請求項3に記載の方法。 - 前記制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを前記第1の範囲内の値に制限する前記ステップが、
前記スペクトルチルトパラメータの値が前記第1の範囲に属する場合、前記スペクトルチルトパラメータの値が前記制限されたスペクトルチルトパラメータ値として保持され、
前記スペクトルチルトパラメータの値が前記第1の範囲の上限より大きい場合、前記第1の範囲の上限が前記制限されたスペクトルチルトパラメータ値として使用され、
前記スペクトルチルトパラメータの値が前記第1の範囲の下限より小さい場合、前記第1の範囲の下限が前記制限されたスペクトルチルトパラメータ値として使用される、請求項3に記載の方法。 - 前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号である、請求項3から5のいずれか1項に記載の方法。
- 前記第1のあらかじめ定められた値が8であり、前記第1の範囲が[0.5,1]である、請求項3から6のいずれか1項に記載の方法。
- 音声/オーディオ信号の前記現在のフレームに対応する前記初期の高周波数時間領域信号を取得する前記ステップが、
前記音声/オーディオ信号の前記現在のフレームによって高周波数励磁信号を予測するステップと、
線形予測符号化(LPC)係数を予測するステップと、
前記高周波数励磁信号と前記LPC係数とによって前記初期の高周波数時間領域信号を合成するステップと
を備える、請求項1から7のいずれか1項に記載の方法。 - 音声/オーディオ信号処理装置であって、
命令を記憶するメモリストレージと、
前記メモリストレージと通信している1つまたは複数のプロセッサと
を備え、
前記1つまたは複数のプロセッサが、
現在のフレームの信号が狭い周波数信号であり、前記現在のフレームの以前のフレームの信号が広い周波数信号である場合、音声/オーディオ信号の前記現在のフレームに対応する初期の高周波数時間領域信号を取得するステップであって、前記以前のフレームが前記現在のフレームに隣接している、ステップと、
前記初期の高周波数時間領域信号の時間領域グローバルゲインパラメータを取得するステップと、
予測されたグローバルゲインパラメータとして重み付けされた値を取得するために、エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行うステップであって、前記エネルギー比が、前記以前のフレームの高周波数時間領域信号のエネルギーと前記現在のフレームの前記初期の高周波数時間領域信号のエネルギーとの間の比率である、ステップと、
補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数時間領域信号を補正するステップと、
前記現在のフレームの狭い周波数時間領域信号と前記補正された高周波数時間領域信号とによって合成された信号を合成するステップと
を行うための前記命令を実行する、音声/オーディオ信号処理装置。 - 前記1つまたは複数のプロセッサが、
音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータ、および前記現在のフレームの狭い周波数信号と前記以前のフレームの狭い周波数信号との間の相互関係によって、前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータを取得するステップを行うための前記命令を実行する、請求項9に記載の音声/オーディオ信号処理装置。 - 前記1つまたは複数のプロセッサが、
音声/オーディオ信号の前記現在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および前記現在のフレームの前記狭い周波数信号と前記以前のフレームの前記狭い周波数信号との間の前記相互関係によって第1のタイプの信号または第2のタイプの信号として分類するステップと、
音声/オーディオ信号の前記現在のフレームが前記第1のタイプの信号の場合、制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限するステップと、
音声/オーディオ信号の前記現在のフレームが前記第2のタイプの信号の場合、前記制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限するステップと、
前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータとして前記制限されたスペクトルチルトパラメータ値を使用するステップと
を行うための前記命令を実行する、請求項10に記載の音声/オーディオ信号処理装置。 - 前記1つまたは複数のプロセッサが、
前記スペクトルチルトパラメータの値が前記第1のあらかじめ定められた値以下である場合、前記スペクトルチルトパラメータの値を、前記制限されたスペクトルチルトパラメータ値として使用するステップと、
前記スペクトルチルトパラメータの値が前記第1のあらかじめ定められた値より大きい場合、前記第1のあらかじめ定められた値を、前記制限されたスペクトルチルトパラメータ値として使用するステップと
を行うための前記命令を実行する、請求項11に記載の音声/オーディオ信号処理装置。 - 前記1つまたは複数のプロセッサが、
前記スペクトルチルトパラメータの値が前記第1の範囲に属する場合、前記スペクトルチルトパラメータの値を、前記制限されたスペクトルチルトパラメータ値として使用するステップと、
前記スペクトルチルトパラメータの値が前記第1の範囲の上限より大きい場合、前記第1の範囲の上限を、前記制限されたスペクトルチルトパラメータ値として使用するステップと、
前記スペクトルチルトパラメータの値が前記第1の範囲の下限より小さい場合、前記第1の範囲の下限を、前記制限されたスペクトルチルトパラメータ値として使用するステップと
を行うための前記命令を実行する、請求項11に記載の音声/オーディオ信号処理装置。 - 前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号である、請求項11から13のいずれか1項に記載の音声/オーディオ信号処理装置。
- 前記第1のあらかじめ定められた値が8であり、前記第1の範囲が[0.5,1]である、請求項11から14のいずれか1項に記載の音声/オーディオ信号処理装置。
- 前記1つまたは複数のプロセッサが、
前記音声/オーディオ信号の前記現在のフレームによって高周波数励磁信号を予測するステップと、
線形予測符号化(LPC)係数を予測するステップと、
前記高周波数励磁信号と前記LPC係数とによって前記初期の高周波数時間領域信号を合成するステップと
を行うための前記命令を実行する、請求項9から13のいずれか1項に記載の音声/オーディオ信号処理装置。 - 請求項1から8のいずれかに記載の方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210051672.6 | 2012-03-01 | ||
CN201210051672.6A CN103295578B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016180496A Division JP6378274B2 (ja) | 2012-03-01 | 2016-09-15 | 音声/オーディオ信号処理方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018197869A JP2018197869A (ja) | 2018-12-13 |
JP6558748B2 true JP6558748B2 (ja) | 2019-08-14 |
Family
ID=49081655
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014559077A Active JP6010141B2 (ja) | 2012-03-01 | 2013-03-01 | 音声/オーディオ信号処理方法および装置 |
JP2016180496A Active JP6378274B2 (ja) | 2012-03-01 | 2016-09-15 | 音声/オーディオ信号処理方法および装置 |
JP2018140054A Active JP6558748B2 (ja) | 2012-03-01 | 2018-07-26 | 音声/オーディオ信号処理方法および装置 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014559077A Active JP6010141B2 (ja) | 2012-03-01 | 2013-03-01 | 音声/オーディオ信号処理方法および装置 |
JP2016180496A Active JP6378274B2 (ja) | 2012-03-01 | 2016-09-15 | 音声/オーディオ信号処理方法および装置 |
Country Status (20)
Country | Link |
---|---|
US (4) | US9691396B2 (ja) |
EP (3) | EP2821993B1 (ja) |
JP (3) | JP6010141B2 (ja) |
KR (3) | KR101667865B1 (ja) |
CN (2) | CN103295578B (ja) |
BR (1) | BR112014021407B1 (ja) |
CA (1) | CA2865533C (ja) |
DK (1) | DK3534365T3 (ja) |
ES (3) | ES2867537T3 (ja) |
HU (1) | HUE053834T2 (ja) |
IN (1) | IN2014KN01739A (ja) |
MX (2) | MX364202B (ja) |
MY (1) | MY162423A (ja) |
PL (1) | PL3534365T3 (ja) |
PT (2) | PT2821993T (ja) |
RU (2) | RU2616557C1 (ja) |
SG (2) | SG11201404954WA (ja) |
TR (1) | TR201911006T4 (ja) |
WO (1) | WO2013127364A1 (ja) |
ZA (1) | ZA201406248B (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295578B (zh) | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
KR20160070147A (ko) | 2013-10-18 | 2016-06-17 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념 |
MX355091B (es) | 2013-10-18 | 2018-04-04 | Fraunhofer Ges Forschung | Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz. |
US20150170655A1 (en) * | 2013-12-15 | 2015-06-18 | Qualcomm Incorporated | Systems and methods of blind bandwidth extension |
KR101864122B1 (ko) * | 2014-02-20 | 2018-06-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN106683681B (zh) | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2567503A (en) * | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201719734D0 (en) * | 2017-10-30 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN112927709B (zh) * | 2021-02-04 | 2022-06-14 | 武汉大学 | 一种基于时频域联合损失函数的语音增强方法 |
CN115294947B (zh) * | 2022-07-29 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、电子设备及介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
EP1173998B1 (en) | 1999-04-26 | 2008-09-03 | Lucent Technologies Inc. | Path switching according to transmission requirements |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6606591B1 (en) | 2000-04-13 | 2003-08-12 | Conexant Systems, Inc. | Speech coding employing hybrid linear prediction coding |
US7113522B2 (en) | 2001-01-24 | 2006-09-26 | Qualcomm, Incorporated | Enhanced conversion of wideband signals to narrowband signals |
JP2003044098A (ja) | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
US7895035B2 (en) | 2004-09-06 | 2011-02-22 | Panasonic Corporation | Scalable decoding apparatus and method for concealing lost spectral parameters |
JP5100380B2 (ja) | 2005-06-29 | 2012-12-19 | パナソニック株式会社 | スケーラブル復号装置および消失データ補間方法 |
RU2414009C2 (ru) * | 2006-01-18 | 2011-03-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Устройство и способ для кодирования и декодирования сигнала |
TW200737738A (en) | 2006-01-18 | 2007-10-01 | Lg Electronics Inc | Apparatus and method for encoding and decoding signal |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
GB2444757B (en) | 2006-12-13 | 2009-04-22 | Motorola Inc | Code excited linear prediction speech coding |
JP4733727B2 (ja) | 2007-10-30 | 2011-07-27 | 日本電信電話株式会社 | 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 |
KR101290622B1 (ko) * | 2007-11-02 | 2013-07-29 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 오디오 복호화 방법 및 장치 |
CN100585699C (zh) * | 2007-11-02 | 2010-01-27 | 华为技术有限公司 | 一种音频解码的方法和装置 |
KR100930061B1 (ko) * | 2008-01-22 | 2009-12-08 | 성균관대학교산학협력단 | 신호 검출 방법 및 장치 |
CN101499278B (zh) * | 2008-02-01 | 2011-12-28 | 华为技术有限公司 | 音频信号切换处理方法和装置 |
CN101751925B (zh) * | 2008-12-10 | 2011-12-21 | 华为技术有限公司 | 一种语音解码方法及装置 |
JP5448657B2 (ja) * | 2009-09-04 | 2014-03-19 | 三菱重工業株式会社 | 空気調和機の室外機 |
CN102044250B (zh) * | 2009-10-23 | 2012-06-27 | 华为技术有限公司 | 频带扩展方法及装置 |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
JP5287685B2 (ja) * | 2009-11-30 | 2013-09-11 | ダイキン工業株式会社 | 空調室外機 |
US8000968B1 (en) * | 2011-04-26 | 2011-08-16 | Huawei Technologies Co., Ltd. | Method and apparatus for switching speech or audio signals |
CN101964189B (zh) * | 2010-04-28 | 2012-08-08 | 华为技术有限公司 | 语音频信号切换方法及装置 |
MX2013009305A (es) * | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio. |
CN103295578B (zh) | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
-
2012
- 2012-03-01 CN CN201210051672.6A patent/CN103295578B/zh active Active
- 2012-03-01 CN CN201510991494.9A patent/CN105469805B/zh active Active
-
2013
- 2013-03-01 ES ES18199234T patent/ES2867537T3/es active Active
- 2013-03-01 KR KR1020147025655A patent/KR101667865B1/ko active IP Right Grant
- 2013-03-01 BR BR112014021407-7A patent/BR112014021407B1/pt active IP Right Grant
- 2013-03-01 MX MX2017001662A patent/MX364202B/es unknown
- 2013-03-01 PT PT137545646T patent/PT2821993T/pt unknown
- 2013-03-01 MY MYPI2014002393A patent/MY162423A/en unknown
- 2013-03-01 RU RU2016115109A patent/RU2616557C1/ru active
- 2013-03-01 EP EP13754564.6A patent/EP2821993B1/en active Active
- 2013-03-01 RU RU2014139605/08A patent/RU2585987C2/ru active
- 2013-03-01 WO PCT/CN2013/072075 patent/WO2013127364A1/zh active Application Filing
- 2013-03-01 PL PL18199234T patent/PL3534365T3/pl unknown
- 2013-03-01 EP EP16187948.1A patent/EP3193331B1/en active Active
- 2013-03-01 JP JP2014559077A patent/JP6010141B2/ja active Active
- 2013-03-01 MX MX2014010376A patent/MX345604B/es active IP Right Grant
- 2013-03-01 TR TR2019/11006T patent/TR201911006T4/tr unknown
- 2013-03-01 SG SG11201404954WA patent/SG11201404954WA/en unknown
- 2013-03-01 IN IN1739KON2014 patent/IN2014KN01739A/en unknown
- 2013-03-01 KR KR1020177002148A patent/KR101844199B1/ko active IP Right Grant
- 2013-03-01 PT PT16187948T patent/PT3193331T/pt unknown
- 2013-03-01 CA CA2865533A patent/CA2865533C/en active Active
- 2013-03-01 ES ES16187948T patent/ES2741849T3/es active Active
- 2013-03-01 HU HUE18199234A patent/HUE053834T2/hu unknown
- 2013-03-01 DK DK18199234.8T patent/DK3534365T3/da active
- 2013-03-01 EP EP18199234.8A patent/EP3534365B1/en active Active
- 2013-03-01 ES ES13754564.6T patent/ES2629135T3/es active Active
- 2013-03-01 SG SG10201608440XA patent/SG10201608440XA/en unknown
- 2013-03-01 KR KR1020167028242A patent/KR101702281B1/ko active Application Filing
-
2014
- 2014-08-25 ZA ZA2014/06248A patent/ZA201406248B/en unknown
- 2014-08-27 US US14/470,559 patent/US9691396B2/en active Active
-
2016
- 2016-09-15 JP JP2016180496A patent/JP6378274B2/ja active Active
-
2017
- 2017-06-07 US US15/616,188 patent/US10013987B2/en active Active
-
2018
- 2018-06-28 US US16/021,621 patent/US10360917B2/en active Active
- 2018-07-26 JP JP2018140054A patent/JP6558748B2/ja active Active
-
2019
- 2019-06-28 US US16/457,165 patent/US10559313B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6558748B2 (ja) | 音声/オーディオ信号処理方法および装置 | |
CA3181066A1 (en) | Method, apparatus, and system for processing audio data | |
JP6892491B2 (ja) | 会話/音声信号処理方法および符号化装置 | |
JP2014507681A (ja) | 帯域幅を拡張する方法および装置 | |
CN105761724B (zh) | 一种语音频信号处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190624 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190708 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6558748 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |