JP2017515163A - Conversation / audio bitstream decoding method and apparatus - Google Patents

Conversation / audio bitstream decoding method and apparatus Download PDF

Info

Publication number
JP2017515163A
JP2017515163A JP2017500113A JP2017500113A JP2017515163A JP 2017515163 A JP2017515163 A JP 2017515163A JP 2017500113 A JP2017500113 A JP 2017500113A JP 2017500113 A JP2017500113 A JP 2017500113A JP 2017515163 A JP2017515163 A JP 2017515163A
Authority
JP
Japan
Prior art keywords
conversation
current
voice frame
frame
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017500113A
Other languages
Japanese (ja)
Other versions
JP6542345B2 (en
Inventor
▲興▼▲濤▼ ▲張▼
▲興▼▲濤▼ ▲張▼
▲澤▼新 ▲劉▼
▲澤▼新 ▲劉▼
磊 苗
磊 苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017515163A publication Critical patent/JP2017515163A/en
Application granted granted Critical
Publication of JP6542345B2 publication Critical patent/JP6542345B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本発明の諸実施形態では、会話/音声ビットストリーム復号化方法および装置を開示する。当該会話/音声ビットストリーム復号化方法は、現在の会話/音声フレームの会話/音声復号化パラメータを取得するステップであって、先行する現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、先行する現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームである、ステップと、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップであって、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である、ステップと、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって先行する現在の会話/音声フレームの会話/音声信号を復元するステップとを含んでもよい。本発明の技術的解決策は出力会話/音声信号の品質を高めるのを支援する。Embodiments of the present invention disclose a conversation / voice bitstream decoding method and apparatus. The conversation / voice bitstream decoding method is a step of obtaining a conversation / voice decoding parameter of a current conversation / voice frame, wherein the preceding current conversation / voice frame is a redundant decoded frame. Or the previous conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and post-processing according to the conversation / voice parameters of the X conversation / voice frames. Performing on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame, wherein the preceding X Conversation / speech frames are M conversations / speech frames before and / or preceding current conversation / speech frame Includes the next N conversation / voice frames of the conversation / voice frame, where M and N are positive integers, and the post-processed conversation / voice decoding parameters of the previous current conversation / voice frame Using to restore the conversation / voice signal of the previous current conversation / voice frame. The technical solution of the present invention helps to improve the quality of the output speech / voice signal.

Description

本願は、発明の名称を「会話/音声ビットストリーム復号化方法および装置」とした、2014年3月21日に中国特許庁に出願された中国特許出願第201410108478.6号に対する優先権を主張し、その全体を引用により本明細書に組み込む。   This application claims priority to Chinese Patent Application No. 201410108478.6 filed with the Chinese Patent Office on March 21, 2014 with the name of the invention as “conversation / voice bitstream decoding method and apparatus”. The entirety of which is incorporated herein by reference.

本発明は音声復号化技術に関し、特に、会話/音声ビットストリーム復号化方法および装置に関する。   The present invention relates to a speech decoding technique, and more particularly, to a conversation / voice bitstream decoding method and apparatus.

ボイス・オーバ・インターネット・プロトコル(VoIP、Voice over Internet Protocol)に基づくシステムでは、パケットは、送信プロセスにおいて複数のルータを通過する必要がありうるが、これらのルータは呼プロセスにおいて変化しうるので、当該呼プロセスにおける送信遅延が変化しうる。さらに、2つまたはそれより多くのユーザが同一のゲートウェイを用いることによってネットワークに入ることを試みるとき、ルーティング遅延が変化する可能性があり、かかる遅延の変化は遅延ジッタ(delay jitter)と呼ばれる。同様に、遅延ジッタは、受信端、送信端、ゲートウェイ等が非リアルタイム・オペレーティング・システムを使用するときに生じる可能性があり、厳しい状況では、データ・パケット損失が生じ、VoIP品質の会話/音声歪みおよび悪化の結果となる。   In a system based on the Voice over Internet Protocol (VoIP), packets may need to pass through multiple routers in the transmission process, but these routers can change in the call process, The transmission delay in the call process can vary. In addition, when two or more users attempt to enter the network by using the same gateway, the routing delay can change, and such delay change is called delay jitter. Similarly, delay jitter can occur when the receiving end, transmitting end, gateway, etc. use a non-real-time operating system, and under severe conditions, data packet loss occurs and VoIP quality conversation / voice. As a result of distortion and deterioration.

今日、遅延を減らし、遅延ジッタを平滑化し、パケット損失補償を実施するために、多数の技術が通信システムの様々な層で使用されている。受信端は、高効率ジッタ・バッファ処理(JBM、Jitter Buffer Management)アルゴリズムを使用して、ネットワーク遅延ジッタを或る程度補償することができる。しかし、相対的に高いパケット損失率の場合では、明らかに、JBM技術のみを用いることによって高品質通信要件を満たすことはできない。   Today, a number of techniques are used at various layers of a communication system to reduce delay, smooth delay jitter, and implement packet loss compensation. The receiving end can compensate for network delay jitter to some extent using a high-efficiency jitter buffer processing (JBM) algorithm. However, in the case of relatively high packet loss rates, obviously, high quality communication requirements cannot be met by using only JBM technology.

会話/音声フレームの遅延ジッタに起因する品質悪化問題の回避を支援するために、冗長符号化アルゴリズムが導入されている。即ち、現在の会話/音声フレーム情報を特定のビット速度で符号化することに加えて、エンコーダは、低ビット速度で現在の会話/音声フレーム以外の会話/音声フレーム情報をエンコードし、その他の会話/音声フレーム情報の相対的に低ビット速度のビットストリームを、冗長情報として、復号器側に現在の会話/音声フレームのビットストリーム情報とともに送信する。会話/音声フレームが失われると、ジッタ・バッファ(jitter buffer)が失われた会話/音声フレームの冗長情報をバッファし(または受信したビットストリームが失われた会話/音声フレームの冗長情報を含み)、復号器側が当該冗長情報に従って当該失われた会話/音声フレームを復元し、それにより会話/音声品質を高める。   In order to help avoid quality degradation problems due to speech / speech frame delay jitter, redundant coding algorithms have been introduced. That is, in addition to encoding the current conversation / voice frame information at a specific bit rate, the encoder encodes conversation / voice frame information other than the current conversation / voice frame at a lower bit rate, and other conversations. / The bit stream of the relatively low bit rate of the voice frame information is transmitted as redundancy information together with the bit stream information of the current speech / voice frame to the decoder side. When a conversation / voice frame is lost, a jitter buffer buffers the lost conversation / voice frame redundancy information (or the received bitstream contains lost conversation / voice frame redundancy information) The decoder side restores the lost conversation / voice frame according to the redundant information, thereby improving the conversation / voice quality.

既存の冗長符号化アルゴリズムでは、N番目のフレームの会話/音声フレーム情報を含めることに加えて、当該N番目のフレームのビットストリームは、低ビット速度の(N−M)番目のフレームの会話/音声フレーム情報を含む。送信プロセスでは、当該(N−M)番目のフレームが失われた場合、(N−M)番目のフレームの会話/音声信号を復元するために、復号化処理がN番目のフレームのビットストリームに含まれる(N−M)番目のフレームの会話/音声情報に従って実施される。   In the existing redundant coding algorithm, in addition to including the conversation / voice frame information of the Nth frame, the bitstream of the Nth frame is the (N−M) th frame conversation / low bit rate. Contains audio frame information. In the transmission process, when the (NM) th frame is lost, the decoding process is performed on the bitstream of the Nth frame in order to restore the conversation / voice signal of the (NM) th frame. This is performed according to the conversation / voice information of the (N−M) th frame included.

上述の説明から既存の冗長符号化アルゴリズムでは、冗長ビットストリーム情報が低ビット速度でエンコードすることにより取得され、これがしたがって、信号の不安定さの原因となり、会話/音声信号の出力品質が低い原因となる可能性が高いことが分かり得る。   From the above description, in the existing redundant coding algorithm, the redundant bitstream information is obtained by encoding at a low bit rate, which causes the signal instability and the low output quality of the speech / voice signal. It can be seen that there is a high possibility of becoming.

本発明の諸実施形態では、会話/音声信号の出力品質を高めるのを支援する、会話/音声ビットストリーム復号化方法および装置を提供する。   Embodiments of the present invention provide a conversation / voice bitstream decoding method and apparatus that assists in enhancing the output quality of a conversation / voice signal.

本発明の諸実施形態の第1の態様では会話/音声ビットストリーム復号化方法を提供する。当該方法は、現在の会話/音声フレームの会話/音声復号化パラメータを取得するステップであって、現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームである、ステップと、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップであって、当該X個の会話/音声フレームは現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である、ステップと、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元するステップとを含んでもよい。   In a first aspect of embodiments of the present invention, a speech / voice bitstream decoding method is provided. The method includes obtaining a conversation / voice decoding parameter of a current conversation / voice frame, wherein the current conversation / voice frame is a redundant decoded frame or a current conversation / voice frame. The conversation / voice frame before the frame is a redundant decoded frame, step and post-processing the conversation / voice decoding of the current conversation / voice frame according to the conversation / voice parameters of the X conversation / voice frames. Performing on the parameters to obtain post-processed conversation / voice decoding parameters for the current conversation / voice frame, where the X conversation / voice frames are M before the current conversation / voice frame. Contains the next N conversation / voice frames of the conversation / voice frame and / or the current conversation / voice frame, where M and N are positive integers. And-up, by using the conversation / speech decoding parameters have been processed after the current conversation / speech frame may include the step of restoring the talk / audio signals of the current conversation / speech frame.

第1の態様を参照して、第1の態様の第1の可能な実装方式では、現在の会話/音声フレームの会話/音声復号化パラメータは現在の会話/音声フレームのスペクトル対パラメータを含み、当該X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って後処理を現在の会話/音声フレームのスペクトル対パラメータに実施して、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含む。   Referring to the first aspect, in a first possible implementation manner of the first aspect, the conversation / voice decoding parameter of the current conversation / voice frame includes a spectrum pair parameter of the current conversation / voice frame; Post-processing is performed on the current conversation / voice frame conversation / voice decoding parameters according to the X conversation / voice frame conversation / voice parameters to post-process the current conversation / voice frame post-processed conversation / voice decoding. Obtaining the quantization parameter includes post-processing the current conversation / voice frame according to at least one of the signal class, spectrum twist factor, adaptive codebook gain, or spectrum pair parameter of the X conversation / voice frames. Perform on spectrum pair parameters to obtain post-processed spectrum pair parameters for the current speech / voice frame Including the step.

第1の態様の第1の可能な実装方式を参照して、第1の態様の第2の可能な実装方式では、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って後処理を現在の会話/音声フレームのスペクトル対パラメータに実施して、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップは、
現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータを現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、現在の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームが無音であり、現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ
を含む。
Referring to the first possible implementation manner of the first aspect, in the second possible implementation manner of the first aspect, the signal class, spectral torsion factor, adaptive code of the X conversation / voice frames Performing post-processing on the current speech / speech frame spectral pair parameter according to at least one of the book gain or the spectral pair parameter to obtain a post-processed spectral pair parameter for the current speech / speech frame. ,
The current conversation / voice frame is a regular decoded frame, the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and the current conversation / voice frame signal class Is the silence and the speech / speech frame signal class before the current conversation / speech frame is not silence, the current speech / speech frame spectrum pair parameter is set to the post-processed spectrum pair of the current conversation / speech frame. Using as a parameter, or obtaining a post-processed spectrum pair parameter for the current conversation / voice frame based on the spectrum pair parameter of the current conversation / voice frame, or
The current conversation / voice frame is a regular decoded frame, the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and the current conversation / voice frame signal class Is the silence and the speech / voice frame signal class of the current conversation / voice frame is not silence, the spectrum / parameter of the current conversation / voice frame and the conversation / voice frame before the current conversation / voice frame. Obtaining a post-processed spectrum pair parameter based on the spectrum pair parameter of
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame is silence In some cases, using spectrum / parameter of conversation / voice frame prior to current conversation / voice frame as post-processed spectrum pair parameter of current conversation / voice frame, or before current conversation / voice frame Obtaining a post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum pair parameter of the current talk / voice frame, or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame is silence If present, the post-processed spectrum pair parameter of the current conversation / voice frame is based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the previous conversation / voice frame of the current conversation / voice frame. Step to get, or
The current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and the next conversation / voice frame next conversation / voice frame adaptation of the current conversation / voice frame If the maximum value of the dynamic codebook gain is less than or equal to the first threshold and the spectral torsion factor of the conversation / voice frame prior to the current conversation / voice frame is less than or equal to the second threshold, Using the previous conversation / voice frame spectrum pair parameter as a post-processed spectrum pair parameter of the current conversation / voice frame, or the previous conversation / voice frame spectrum / parameter of the current conversation / voice frame Obtaining a post-processed spectrum pair parameter based on the current speech / voice frame, or
The current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and the next conversation / voice frame next conversation / voice frame adaptation of the current conversation / voice frame If the maximum value of the dynamic codebook gain is less than or equal to the first threshold and the spectral torsion factor of the conversation / voice frame prior to the current conversation / voice frame is less than or equal to the second threshold, Obtaining a post-processed spectrum pair parameter for the current conversation / voice frame based on the spectrum pair parameter and the spectrum pair parameter of the conversation / voice frame prior to the current conversation / voice frame; or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silent, the next conversation / voice frame of the current conversation / voice frame is silent, The maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the current conversation / voice frame is less than or equal to the third threshold, and the spectrum twist of the conversation / voice frame before the current conversation / voice frame If the factor is less than or equal to a fourth threshold, using the spectrum / parameter of the previous conversation / voice frame of the current conversation / voice frame as the post-processed spectrum pair parameter of the current conversation / voice frame; or After the current conversation / voice frame based on the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame Step to obtain the physical spectral pair parameters, or,
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame is silence Yes, the maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the current conversation / voice frame is less than or equal to the third threshold, and the conversation / voice frame before the current conversation / voice frame Is less than or equal to the fourth threshold, the current conversation / speech frame spectrum pair parameter and the current conversation / speech frame previous speech / speech frame spectrum pair parameter Obtaining post-processed spectral pair parameters of the speech frame.

第1の態様の第2の可能な実装方式を参照して、第1の態様の第3の可能な実装方式では、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップは特に、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含み、
lsp[k]は現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、
現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、
現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である。
Referring to the second possible implementation manner of the first aspect, in the third possible implementation manner of the first aspect, the spectrum versus parameter of the current conversation / voice frame and the current conversation / voice frame Obtaining post-processed spectrum pair parameters of the current conversation / voice frame based on the spectrum / parameters of the current conversation / voice frame, in particular, Based on the spectrum versus parameters of the speech / voice frame before the frame, and the following equation:
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Obtaining post-processed spectrum pair parameters for the current speech / voice frame by using
lsp [k] is the post-processed spectrum pair parameter of the current conversation / voice frame, lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame, and lsp_mid [k ] Is the intermediate value of the spectrum / parameter of the current speech / voice frame, lsp_new [k] is the spectrum / parameter of the current speech / voice frame, L is the order of the spectrum / parameter, and α is the current The speech / speech frame spectrum versus parameter weight prior to the speech / speech frame, β is the current speech / speech frame spectrum versus parameter median weight, and δ is the current speech / speech frame spectrum. Is the weight of the pair parameter, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1,
If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, α is equal to 0, or α is less than or equal to the fifth threshold, or
If the current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is less than or equal to a sixth threshold, or
If the current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than or equal to the seventh threshold, or
If the current speech / voice frame is a redundant decoded frame, β is equal to 0 or β is less than or equal to a sixth threshold and δ is equal to 0 or δ is a seventh threshold It is as follows.

第1の態様の第2の可能な実装方式を参照して、第1の態様の第4の可能な実装方式では、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップは特に、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含み、
lsp[k]は現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、δ≧0、およびα+δ=1であり、
現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である。
Referring to the second possible implementation manner of the first aspect, in the fourth possible implementation manner of the first aspect, the spectrum versus parameter of the current conversation / voice frame and the current conversation / voice frame Obtaining post-processed spectrum pair parameters of the current conversation / voice frame based on the spectrum / parameters of the current conversation / voice frame, in particular, Based on the spectrum versus parameters of the speech / voice frame before the frame, and the following equation:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Obtaining post-processed spectrum pair parameters for the current speech / voice frame by using
lsp [k] is the post-processed spectrum pair parameter of the current conversation / voice frame, lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame, and lsp_new [k ] Is the spectrum versus parameter of the current speech / voice frame, L is the order of the spectrum versus parameter, α is the spectrum / parameter weight of the speech / voice frame before the current speech / voice frame, and δ Is the spectrum-versus-parameter weight of the current speech / voice frame, α ≧ 0, δ ≧ 0, and α + δ = 1,
If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, α is equal to 0, or α is less than or equal to the fifth threshold, or
If the current speech / voice frame is a redundant decoded frame, δ is equal to 0 or δ is less than or equal to the seventh threshold.

第1の態様、または第1の態様の第1の可能な実装方式、または第1の態様の第2の可能な実装方式、または第1の態様の第2の可能な実装方式、または第1の態様の第3の可能な実装方式、または第1の態様の第4の可能な実装方式を参照して、第1の態様の第5の可能な実装方式では、
現在の会話/音声フレームの会話/音声復号化パラメータは現在の会話/音声フレームの適応的コードブック利得を含み、当該X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、
当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの適応的コードブック利得に実施して、現在の会話/音声フレームの後処理された適応的コードブック利得を取得するステップ
を含む。
First aspect, or first possible implementation manner of the first aspect, or second possible implementation manner of the first aspect, or second possible implementation manner of the first aspect, or first With reference to the third possible implementation manner of the aspect, or the fourth possible implementation manner of the first aspect, in the fifth possible implementation manner of the first aspect,
The conversation / speech decoding parameter of the current conversation / speech frame includes an adaptive codebook gain of the current conversation / speech frame, and post-processing is performed according to the conversation / speech parameter of the X conversations / speech frame. Performing on speech / speech decoding parameters for a speech frame to obtain post-processed speech / speech decoding parameters for the current speech / speech frame comprises:
Performing post-processing on the adaptive codebook gain of the current speech / voice frame according to at least one of the signal class of the X speech / voice frames, the algebraic codebook gain, or the adaptive codebook gain; Obtaining a post-processed adaptive codebook gain for the current speech / voice frame.

第1の態様の第5の可能な実装方式を参照して、第1の態様の第6の可能な実装方式では、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの適応的コードブック利得に実施するステップは、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、現在のサブフレームの適応的コードブック利得を減衰するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合、現在のサブフレームの適応的コードブック利得を減衰するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、現在の会話/音声フレームの信号クラスが汎用的であり、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、現在の会話/音声フレームのサブフレームの代数コードブック利得が当該サブフレームの前のサブフレームの代数コードブック利得以上である場合、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、現在の会話/音声フレームの信号クラスが汎用的であり、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、現在の会話/音声フレームのサブフレームの代数コードブック利得が現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、現在の会話/音声フレームが有声であり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、現在の会話/音声フレームのサブフレームの代数コードブック利得が当該サブフレームの前のサブフレームの代数コードブック利得以上である場合、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するステップ、または、
現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、現在の会話/音声フレームの信号クラスが有声であり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、現在の会話/音声フレームのサブフレームの代数コードブック利得が現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するステップ
を含む。
Referring to the fifth possible implementation scheme of the first aspect, in the sixth possible implementation scheme of the first aspect, the signal class, algebraic codebook gain, or adaptation of the X conversation / voice frames Performing post-processing on the adaptive codebook gain of the current speech / voice frame according to at least one of the dynamic codebook gains,
The current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and at least one of the next two conversation / voice frames of the current conversation / voice frame If one signal class is silent and the algebraic codebook gain of the current subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the conversation / voice frame before the current conversation / voice frame, Attenuating the adaptive codebook gain of the subframe, or
The current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and at least one of the next two conversation / voice frames of the current conversation / voice frame Adaptation of the current subframe if one signal class is silent and the algebraic codebook gain of the current subframe of the current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the current subframe Attenuating the dynamic codebook gain, or
Either the current conversation / voice frame is a redundant decoded frame or the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame Are redundant decoded frames, and the signal class of the current conversation / voice frame is generic, the signal class of the next conversation / voice frame of the current conversation / voice frame is voiced, If the algebraic codebook gain of the subframe of the current speech / speech frame is greater than or equal to the algebraic codebook gain of the subframe before the subframe, the algebraic codebook gain of the current subframe of the current speech / speech frame The ratio of the subframe adjacent to the current subframe to the algebraic codebook gain, the current subframe of the current speech / voice frame. The ratio of the adaptive codebook gain of the current frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current speech / voice of the algebraic codebook gain of the current subframe of the current speech / voice frame Adjusting the adaptive codebook gain of the current subframe of the current speech / voice frame based on at least one of the ratio of the previous speech / voice frame to the algebraic codebook gain; or
Either the current conversation / voice frame is a redundant decoded frame or the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame Are redundant decoded frames, and the signal class of the current conversation / voice frame is generic, the signal class of the next conversation / voice frame of the current conversation / voice frame is voiced, If the algebraic codebook gain of the subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voiceframe of the current conversation / voiceframe, the current subframe of the current conversation / voiceframe Ratio of algebraic codebook gain to the algebraic codebook gain of subframes adjacent to the current subframe, current speech / voice frame The ratio of the adaptive codebook gain of the current subframe to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current conversation of the algebraic codebook gain of the current subframe of the current speech / voice frame Adjusting the adaptive codebook gain of the current subframe of the current conversation / voice frame based on at least one of the ratio of the previous speech / voice frame / voice frame to the algebraic codebook gain, or
Either the current conversation / voice frame is a redundant decoded frame or the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame Is a redundant decoded frame, and the current conversation / voice frame is voiced, the signal class of the conversation / voice frame before the current conversation / voice frame is generic, and the current conversation If the algebraic codebook gain of the subframe of the voice frame is greater than or equal to the algebraic codebook gain of the subframe before the subframe, the current subframe of the current subframe of the current speech / voice frame Ratio of subframes adjacent to frame to algebraic codebook gain, adaptation of current subframe of current speech / voice frame Ratio of codebook gain to adaptive codebook gain of subframes adjacent to current subframe, or algebraic codebook gain of current subframe of current speech / voice frame Adjusting the adaptive codebook gain of the current subframe of the current speech / voice frame based on at least one of the ratio of the voice frame to the algebraic codebook gain, or
Either the current conversation / voice frame is a redundant decoded frame or the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame Is a redundant decoded frame, and the signal class of the current conversation / voice frame is voiced, the signal class of the conversation / voice frame before the current conversation / voice frame is generic, If the algebraic codebook gain of the subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voiceframe of the current conversation / voiceframe, the current subframe of the current conversation / voiceframe Ratio of algebraic codebook gain to the algebraic codebook gain of subframes adjacent to the current subframe, current speech / voice frame The ratio of the adaptive codebook gain of the current subframe to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current conversation of the algebraic codebook gain of the current subframe of the current speech / voice frame Adjusting the adaptive codebook gain of the current subframe of the current speech / speech frame based on at least one of the ratio of the / speech / speech / speech / speech frame to the algebraic codebook gain.

第1の態様、または第1の態様の第1の可能な実装方式、または第1の態様の第2の可能な実装方式、または第1の態様の第2の可能な実装方式、または第1の態様の第3の可能な実装方式、または第1の態様の第4の可能な実装方式、または第1の態様の第5の可能な実装方式、または第1の態様の第6の可能な実装方式を参照して、第1の態様の第7の可能な実装方式では、現在の会話/音声フレームの会話/音声復号化パラメータは、現在の会話/音声フレームの代数コードブックを含み、当該X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの代数コードブックに実施して現在の会話/音声フレームの後処理された代数コードブックを取得するステップを含む。   First aspect, or first possible implementation manner of the first aspect, or second possible implementation manner of the first aspect, or second possible implementation manner of the first aspect, or first A third possible implementation manner of the aspect, or a fourth possible implementation manner of the first aspect, or a fifth possible implementation manner of the first aspect, or a sixth possible implementation manner of the first aspect. Referring to the implementation scheme, in a seventh possible implementation scheme of the first aspect, the conversation / speech decoding parameter of the current conversation / voice frame includes an algebraic codebook of the current conversation / voice frame, and Post-processing is performed on the current conversation / voice frame conversation / voice decoding parameters according to the X conversation / voice frame conversation / voice parameters to post-process the current conversation / voice frame post-processed conversation / voice decoding. The step of obtaining the parameters After the current conversation / voice frame, post-processing is performed on the algebraic codebook of the current conversation / voice frame according to at least one of the signal class, algebraic codebook, or spectral torsion factor of the conversation / voice frame Obtaining a processed algebraic codebook.

第1の態様の第7の可能な実装方式を参照して、第1の態様の第8の可能な実装方式では、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの代数コードブックに実施するステップは、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を現在のサブフレームの代数コードブックとして使用するステップを含む。
Referring to the seventh possible implementation manner of the first aspect, in the eighth possible implementation manner of the first aspect, the signal class, algebraic codebook, or spectral twist of the X conversation / voice frames. Performing post-processing on the algebraic codebook of the current speech / voice frame according to at least one of the factors comprises:
The current conversation / voice frame is a redundant decoded frame, the next conversation / voice frame signal class of the current conversation / voice frame is silence, and the conversation / voice before the current conversation / voice frame If the spectral torsion factor of the frame is less than or equal to the eighth threshold and the algebraic codebook of the subframe of the current speech / voice frame is 0 or less than the ninth threshold, Using a subframe algebraic codebook or random noise as the current subframe algebraic codebook.

第1の態様、または第1の態様の第1の可能な実装方式、または第1の態様の第2の可能な実装方式、または第1の態様の第2の可能な実装方式、または第1の態様の第3の可能な実装方式、または第1の態様の第4の可能な実装方式、または第1の態様の第5の可能な実装方式、または第1の態様の第6の可能な実装方式、または第1の態様の第7の可能な実装方式、または第1の態様の第8の可能な実装方式を参照して、第1の態様の第9の可能な実装方式では、現在の会話/音声フレームの会話/音声復号化パラメータは現在の会話/音声フレームの帯域幅拡張エンベロープを含み、当該X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップを含む。   First aspect, or first possible implementation manner of the first aspect, or second possible implementation manner of the first aspect, or second possible implementation manner of the first aspect, or first A third possible implementation manner of the aspect, or a fourth possible implementation manner of the first aspect, or a fifth possible implementation manner of the first aspect, or a sixth possible implementation manner of the first aspect. With reference to the implementation scheme, or the seventh possible implementation scheme of the first aspect, or the eighth possible implementation scheme of the first aspect, the ninth possible implementation scheme of the first aspect The conversation / voice decoding parameter of the current conversation / voice frame includes a bandwidth extension envelope of the current conversation / voice frame, and post-processing is performed according to the conversation / voice parameters of the X conversation / voice frames. Conducted on current conversation / voice decoding parameters Obtaining post-processed speech / speech decoding parameters for the speech / speech frame is performed according to at least one of a signal class, a bandwidth extension envelope, or a spectral twist factor of the X speech / speech frames. Processing is performed on the bandwidth extension envelope of the current conversation / voice frame to obtain a post-processed bandwidth extension envelope of the current conversation / voice frame.

第1の態様の第9の可能な実装方式を参照して、第1の態様の第10の可能な実装方式では、
当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップは、
現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ、または、
現在の会話/音声フレームが冗長復号化の予測形式である場合、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ、または、
現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ
を含む。
Referring to the ninth possible implementation scheme of the first aspect, in the tenth possible implementation scheme of the first aspect,
Post-processing is performed on the bandwidth extension envelope of the current conversation / voice frame according to at least one of the signal class, bandwidth extension envelope, or spectral torsion factor of the X conversation / voice frames, and the current conversation The step of obtaining a post-processed bandwidth expansion envelope / speech frame is
The conversation / voice frame before the current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the current conversation / voice frame is next to the current conversation / voice frame. If it is the same as the signal class of the conversation / voice frame, the current conversation based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame Obtaining a post-processed bandwidth expansion envelope / voice frame, or
If the current conversation / voice frame is a predictive form of redundant decoding, based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame Obtaining a post-processed bandwidth extension envelope for the current conversation / voice frame, or
The signal class of the current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the current conversation / voice frame is silence, and the spectrum of the conversation / voice frame before the current conversation / voice frame If the torsion factor is less than or equal to the tenth threshold, modify the bandwidth extension envelope of the current speech / voice frame according to the current speech / voice frame bandwidth extension envelope or the spectral torsion factor Obtaining a post-processed bandwidth extension envelope for the current speech / voice frame.

第1の態様の第10の可能な実装方式を参照して、第1の態様の第11の可能な実装方式では、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップは特に、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップを含み、
GainFrameは現在の会話/音声フレームの後処理された帯域幅拡張エンベロープであり、GainFrame_oldは現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である。
Referring to the tenth possible implementation manner of the first aspect, in an eleventh possible implementation manner of the first aspect, the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and The step of obtaining a post-processed bandwidth expansion envelope of the current conversation / voice frame based on the bandwidth extension envelope of the current conversation / voice frame is notably the conversation / voice frame before the current conversation / voice frame. Based on the bandwidth extension envelope of the current speech / voice frame and the following equation:
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
Obtaining a post-processed bandwidth extension envelope of the current speech / voice frame by using
GainFrame is the post-processed bandwidth extension envelope of the current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame, and GainFrame_new is the current conversation / voice frame The bandwidth extension envelope of the frame, fac1 is the weight of the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame, and fac2 is the weight of the bandwidth extension envelope of the current conversation / voice frame Yes, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1.

第1の態様の第10の可能な実装方式を参照して、第1の態様の第12の可能な実装方式では、現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための修正因子は現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する。   Referring to the tenth possible implementation manner of the first aspect, in the twelfth possible implementation manner of the first aspect, the correction factor for modifying the bandwidth extension envelope of the current speech / voice frame is Current conversation / speech before speech frame / speech frame spectral torsion factor inversely proportional to current speech / speech frame prior to speech frame / speech frame bandwidth extension Envelope current speech / speech frame bandwidth extension Proportional to the ratio to the envelope.

第1の態様、または第1の態様の第1の可能な実装方式、または第1の態様の第2の可能な実装方式、または第1の態様の第2の可能な実装方式、または第1の態様の第3の可能な実装方式、または第1の態様の第4の可能な実装方式、または第1の態様の第5の可能な実装方式、または第1の態様の第6の可能な実装方式、または第1の態様の第7の可能な実装方式、または第1の態様の第8の可能な実装方式、または第1の態様の第9の可能な実装方式、または第1の態様の第10の可能な実装方式、または第1の態様の第11の可能な実装方式、または第1の態様の第12の可能な実装方式を参照して、第1の態様の第13の可能な実装方式では、現在の会話/音声フレームの会話/音声復号化パラメータは現在の会話/音声フレームのピッチ区間を含み、当該X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って、後処理を現在の会話/音声フレームのピッチ区間に実施して、現在の会話/音声フレームの後処理されたピッチ区間を取得するステップを含む。   First aspect, or first possible implementation manner of the first aspect, or second possible implementation manner of the first aspect, or second possible implementation manner of the first aspect, or first A third possible implementation manner of the aspect, or a fourth possible implementation manner of the first aspect, or a fifth possible implementation manner of the first aspect, or a sixth possible implementation manner of the first aspect. Implementation scheme, or seventh possible implementation scheme of the first aspect, or eighth possible implementation scheme of the first aspect, or ninth possible implementation scheme of the first aspect, or first aspect Referring to the tenth possible implementation manner of the first aspect, the eleventh possible implementation manner of the first aspect, or the twelfth possible implementation manner of the first aspect, the thirteenth possible aspect of the first aspect In this implementation, the conversation / voice decoding parameter of the current conversation / voice frame is the current conversation / voice frame parameter. The current conversation / speech frame is post-processed by performing post-processing on the conversation / speech decoding parameter of the current conversation / speech frame according to the conversation / speech parameter of the X conversations / speech frames including the pitch interval Obtaining the speech / speech decoding parameter, performing post-processing on the current speech / voice frame pitch interval according to the signal class and / or pitch interval of the X speech / speech frames. Obtaining a post-processed pitch segment of the speech / voice frame.

本発明の諸実施形態の第2の態様では会話/音声ビットストリームを復号化するための復号器を提供する。当該復号器は、
現在の会話/音声フレームの会話/音声復号化パラメータを取得するように構成されたパラメータ取得ユニットであって、現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームである、パラメータ取得ユニットと、
X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するように構成された後処理ユニットであって、当該X個の会話/音声フレームは現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である、後処理ユニットと、
現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元するように構成された復元ユニットと
を備える。
In a second aspect of embodiments of the present invention, a decoder is provided for decoding a speech / voice bitstream. The decoder is
A parameter acquisition unit configured to obtain conversation / voice decoding parameters of a current conversation / voice frame, wherein the current conversation / voice frame is a redundant decoded frame or the current A parameter acquisition unit, wherein the conversation / voice frame before the conversation / voice frame is a redundant decoded frame;
Post-processing is performed on the current conversation / voice frame conversation / voice decoding parameters according to the X conversation / voice frame conversation / voice parameters to post-process the current conversation / voice frame post-processed conversation / voice decoding. A post-processing unit configured to obtain parameters, wherein the X conversation / voice frames are M conversation / voice frames and / or current conversation / voice frames before the current conversation / voice frame; A post-processing unit that includes the next N conversation / voice frames, where M and N are positive integers;
A restoration unit configured to restore the conversation / voice signal of the current conversation / voice frame by using post-processed conversation / voice decoding parameters of the current conversation / voice frame.

第2の態様を参照して、第2の態様の第1の可能な実装方式では、当該後処理ユニットは特に、現在の会話/音声フレームの会話/音声復号化パラメータが現在の会話/音声フレームのスペクトル対パラメータを含むとき、当該X個の会話/音声フレームのスペクトル対パラメータ、適応的コードブック利得、スペクトル捩れ因子、または信号クラスのうち少なくとも1つに従って、後処理を現在の会話/音声フレームのスペクトル対パラメータに実施して、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成される。   Referring to the second aspect, in the first possible implementation manner of the second aspect, the post-processing unit in particular determines that the conversation / voice decoding parameter of the current conversation / voice frame is the current conversation / voice frame. Are included in the current speech / voice frame according to at least one of the spectrum pair parameters, adaptive codebook gain, spectral torsion factor, or signal class of the X speech / voice frames. And is configured to obtain post-processed spectrum pair parameters for the current speech / voice frame.

第2の態様の第1の可能な実装方式を参照して、第2の態様の第2の可能な実装方式では、当該X個の会話/音声フレームのスペクトル対パラメータ、適応的コードブック利得、スペクトル捩れ因子、または信号クラスのうち少なくとも1つに従って、後処理を現在の会話/音声フレームのスペクトル対パラメータに実施して、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、後処理ユニットは特に、
現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータを現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、現在の会話/音声フレームのスペクトル対パラメータに基づいて現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームが無音であり、現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する
ように構成される。
Referring to the first possible implementation manner of the second aspect, in the second possible implementation manner of the second aspect, the spectrum versus parameters of the X speech / voice frames, the adaptive codebook gain, Aspects of performing post-processing on the current speech / voice frame spectral pair parameters according to at least one of a spectral twist factor or signal class to obtain post-processed spectral pair parameters for the current speech / voice frame In the post-processing unit, in particular,
The current conversation / voice frame is a regular decoded frame, the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and the current conversation / voice frame signal class Is the silence and the speech / speech frame signal class before the current conversation / speech frame is not silence, the current speech / speech frame spectrum pair parameter is set to the post-processed spectrum pair of the current conversation / speech frame. Use as a parameter, or obtain a post-processed spectrum pair parameter for the current conversation / voice frame based on the spectrum pair parameter of the current conversation / voice frame, or
The current conversation / voice frame is a regular decoded frame, the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and the current conversation / voice frame signal class Is the silence and the speech / voice frame signal class of the current conversation / voice frame is not silence, the spectrum / parameter of the current conversation / voice frame and the conversation / voice frame before the current conversation / voice frame. Obtain post-processed spectral pair parameters for the current speech / speech frame based on the spectral pair parameters of
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame is silence In some cases, use spectrum / parameter of conversation / voice frame before current conversation / voice frame as post-processed spectrum pair parameter of current conversation / voice frame, or before current conversation / voice frame Obtain post-processed spectrum pair parameters of the current conversation / voice frame based on the spectrum pair parameters of the current conversation / voice frame, or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame is silence If present, the post-processed spectrum pair parameter of the current conversation / voice frame is based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the previous conversation / voice frame of the current conversation / voice frame. Get or
The current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and the next conversation / voice frame next conversation / voice frame adaptation of the current conversation / voice frame If the maximum value of the dynamic codebook gain is less than or equal to the first threshold and the spectral torsion factor of the conversation / voice frame prior to the current conversation / voice frame is less than or equal to the second threshold, Use spectrum / parameter of previous conversation / voice frame as post-processed spectrum pair parameter of current conversation / voice frame, or to spectrum / parameter of conversation / voice frame before current conversation / voice frame Based on the post-processed spectrum pair parameters based on the current speech / voice frame, or
The current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and the next conversation / voice frame next conversation / voice frame adaptation of the current conversation / voice frame If the maximum value of the dynamic codebook gain is less than or equal to the first threshold and the spectral torsion factor of the conversation / voice frame prior to the current conversation / voice frame is less than or equal to the second threshold, Obtaining a post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum pair parameter and the spectrum / parameter of the conversation / voice frame prior to the current conversation / voice frame; or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silent, the next conversation / voice frame of the current conversation / voice frame is silent, The maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the current conversation / voice frame is less than or equal to the third threshold, and the spectrum twist of the conversation / voice frame before the current conversation / voice frame If the factor is less than or equal to the fourth threshold, use the spectrum / parameter of the previous conversation / voice frame of the current conversation / voice frame as the post-processed spectrum pair parameter of the current conversation / voice frame, or Post-processing of the current conversation / voice frame based on the spectrum / parameters of the conversation / voice frame before the current conversation / voice frame. Acquires spectral pair parameters, or,
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame is silence Yes, the maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the current conversation / voice frame is less than or equal to the third threshold, and the conversation / voice frame before the current conversation / voice frame Is less than or equal to the fourth threshold, the current conversation / speech frame spectrum pair parameter and the current conversation / speech frame previous speech / speech frame spectrum pair parameter It is configured to obtain post-processed spectrum pair parameters for speech frames.

第2の態様の第2の可能な実装方式を参照して、第2の態様の第3の可能な実装方式では、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、
後処理ユニットは特に、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成され、
lsp[k]は現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、
現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、
現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である。
Referring to the second possible implementation manner of the second aspect, in the third possible implementation manner of the second aspect, the spectrum versus parameter of the current conversation / voice frame and the current conversation / voice frame Obtaining post-processed spectral pair parameters of the current speech / voice frame based on the spectral pair parameters of the current speech / voice frame;
The post-processing unit is in particular based on the current speech / speech frame spectrum pair parameter and the previous speech / speech frame speech / speech frame spectrum pair parameter and with the following formula:
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Is configured to obtain post-processed spectrum pair parameters for the current speech / voice frame by using
lsp [k] is the post-processed spectrum pair parameter of the current conversation / voice frame, lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame, and lsp_mid [k ] Is the intermediate value of the spectrum / parameter of the current speech / voice frame, lsp_new [k] is the spectrum / parameter of the current speech / voice frame, L is the order of the spectrum / parameter, and α is the current The speech / speech frame spectrum versus parameter weight prior to the speech / speech frame, β is the current speech / speech frame spectrum versus parameter median weight, and δ is the current speech / speech frame spectrum. Is the weight of the pair parameter, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1,
If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, α is equal to 0, or α is less than or equal to the fifth threshold, or
If the current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is less than or equal to a sixth threshold, or
If the current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than or equal to the seventh threshold, or
If the current speech / voice frame is a redundant decoded frame, β is equal to 0 or β is less than or equal to a sixth threshold and δ is equal to 0 or δ is a seventh threshold It is as follows.

第2の態様の第2の可能な実装方式を参照して、第2の態様の第4の可能な実装方式では、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、
当該後処理ユニットは特に、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成され、
lsp[k]は現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、δ≧0、およびα+δ=1であり、
現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である。
Referring to the second possible implementation manner of the second aspect, in the fourth possible implementation manner of the second aspect, the spectrum versus parameters of the current conversation / voice frame and the current conversation / voice frame Obtaining post-processed spectral pair parameters of the current speech / voice frame based on the spectral pair parameters of the current speech / voice frame;
The post-processing unit is in particular based on the current speech / speech frame spectrum pair parameter and the previous speech / speech frame speech / speech frame spectrum pair parameter and with the following formula:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Is configured to obtain post-processed spectrum pair parameters for the current speech / voice frame by using
lsp [k] is the post-processed spectrum pair parameter of the current conversation / voice frame, lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame, and lsp_new [k ] Is the spectrum versus parameter of the current speech / voice frame, L is the order of the spectrum versus parameter, α is the spectrum / parameter weight of the speech / voice frame before the current speech / voice frame, and δ Is the spectrum-versus-parameter weight of the current speech / voice frame, α ≧ 0, δ ≧ 0, and α + δ = 1,
If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, α is equal to 0, or α is less than or equal to the fifth threshold, or
If the current speech / voice frame is a redundant decoded frame, δ is equal to 0 or δ is less than or equal to the seventh threshold.

第2の態様、または第2の態様の第1の可能な実装方式、または第2の態様の第2の可能な実装方式、または第2の態様の第2の可能な実装方式、または第2の態様の第3の可能な実装方式、または第2の態様の第4の可能な実装方式を参照して、第2の態様の第5の可能な実装方式では、当該後処理ユニットは特に、現在の会話/音声フレームの会話/音声復号化パラメータが現在の会話/音声フレームの適応的コードブック利得を含むとき、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの適応的コードブック利得に実施して、現在の会話/音声フレームの後処理された適応的コードブック利得を取得するように構成される。   Second aspect, or first possible implementation manner of the second aspect, or second possible implementation manner of the second aspect, or second possible implementation manner of the second aspect, or second Referring to the third possible implementation manner of the aspect of FIG. 4 or the fourth possible implementation manner of the second aspect, in the fifth possible implementation manner of the second aspect, the post-processing unit is in particular When the conversation / voice decoding parameters of the current conversation / voice frame include the adaptive codebook gain of the current conversation / voice frame, the signal class, algebraic codebook gain of the X conversation / voice frames, or adaptive Post-processing is performed on the adaptive codebook gain of the current speech / voice frame according to at least one of the codebook gains to obtain a post-processed adaptive codebook gain of the current speech / voice frame. In It is made.

第2の態様の第5の可能な実装方式を参照して、第2の態様の第6の可能な実装方式では、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの適応的コードブック利得に実施する態様において、当該後処理ユニットは特に、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、現在のサブフレームの適応的コードブック利得を減衰するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合、現在のサブフレームの適応的コードブック利得を減衰するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、現在の会話/音声フレームの信号クラスが汎用的であり、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、現在の会話/音声フレームのサブフレームの代数コードブック利得が当該サブフレームの前のサブフレームの代数コードブック利得以上である場合、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、現在の会話/音声フレームの信号クラスが汎用的であり、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、現在の会話/音声フレームのサブフレームの代数コードブック利得が現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、現在の会話/音声フレームが有声であり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、現在の会話/音声フレームのサブフレームの代数コードブック利得が当該サブフレームの前のサブフレームの代数コードブック利得以上である場合、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、現在の会話/音声フレームの信号クラスが有声であり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、現在の会話/音声フレームのサブフレームの代数コードブック利得が現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて、現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節する
ように構成される。
Referring to the fifth possible implementation scheme of the second aspect, in the sixth possible implementation scheme of the second aspect, the signal class, algebraic codebook gain, or adaptation of the X conversation / voice frames In an embodiment in which post-processing is performed on the adaptive codebook gain of the current speech / voice frame according to at least one of the dynamic codebook gains,
The current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and at least one of the next two conversation / voice frames of the current conversation / voice frame If one signal class is silent and the algebraic codebook gain of the current subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the conversation / voice frame before the current conversation / voice frame, Attenuate the adaptive codebook gain of the subframe, or
The current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and at least one of the next two conversation / voice frames of the current conversation / voice frame Adaptation of the current subframe if one signal class is silent and the algebraic codebook gain of the current subframe of the current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the current subframe The dynamic codebook gain, or
Either the current conversation / voice frame is a redundant decoded frame or the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame Are redundant decoded frames, and the signal class of the current conversation / voice frame is generic, the signal class of the next conversation / voice frame of the current conversation / voice frame is voiced, If the algebraic codebook gain of the subframe of the current speech / speech frame is greater than or equal to the algebraic codebook gain of the subframe before the subframe, the algebraic codebook gain of the current subframe of the current speech / speech frame The ratio of the subframe adjacent to the current subframe to the algebraic codebook gain, the current subframe of the current speech / voice frame. The ratio of the adaptive codebook gain of the current frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current speech / voice of the algebraic codebook gain of the current subframe of the current speech / voice frame Adjusting the adaptive codebook gain of the current subframe of the current speech / voice frame based on at least one of the ratio of the previous speech / voice frame to the algebraic codebook gain of the frame, or
Either the current conversation / voice frame is a redundant decoded frame or the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame Are redundant decoded frames, and the signal class of the current conversation / voice frame is generic, the signal class of the next conversation / voice frame of the current conversation / voice frame is voiced, If the algebraic codebook gain of the subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voiceframe of the current conversation / voiceframe, the current subframe of the current conversation / voiceframe Ratio of algebraic codebook gain to the algebraic codebook gain of subframes adjacent to the current subframe, current speech / voice frame The ratio of the adaptive codebook gain of the current subframe to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current conversation of the algebraic codebook gain of the current subframe of the current speech / voice frame Adjusting the adaptive codebook gain of the current subframe of the current conversation / voice frame based on at least one of the ratio of the previous speech / voice frame / voice frame algebraic codebook gain, or
Either the current conversation / voice frame is a redundant decoded frame or the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame Is a redundant decoded frame, and the current conversation / voice frame is voiced, the signal class of the conversation / voice frame before the current conversation / voice frame is generic, and the current conversation If the algebraic codebook gain of the subframe of the voice frame is greater than or equal to the algebraic codebook gain of the subframe before the subframe, the current subframe of the current subframe of the current speech / voice frame Ratio of subframes adjacent to frame to algebraic codebook gain, adaptation of current subframe of current speech / voice frame Ratio of codebook gain to adaptive codebook gain of subframes adjacent to current subframe, or algebraic codebook gain of current subframe of current speech / voice frame Adjusting the adaptive codebook gain of the current subframe of the current speech / voice frame based on at least one of the ratio of the voice frame to the algebraic codebook gain, or
Either the current conversation / voice frame is a redundant decoded frame or the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame Is a redundant decoded frame, and the signal class of the current conversation / voice frame is voiced, the signal class of the conversation / voice frame before the current conversation / voice frame is generic, If the algebraic codebook gain of the subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voiceframe of the current conversation / voiceframe, the current subframe of the current conversation / voiceframe Ratio of algebraic codebook gain to the algebraic codebook gain of subframes adjacent to the current subframe, current speech / voice frame The ratio of the adaptive codebook gain of the current subframe to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current conversation of the algebraic codebook gain of the current subframe of the current speech / voice frame Configured to adjust the adaptive codebook gain of the current subframe of the current conversation / speech frame based on at least one of the ratio of the previous speech / speech frame / speech frame to the algebraic codebook gain. The

第2の態様、または第2の態様の第1の可能な実装方式、または第2の態様の第2の可能な実装方式、または第2の態様の第2の可能な実装方式、または第2の態様の第3の可能な実装方式、または第2の態様の第4の可能な実装方式、または第2の態様の第5の可能な実装方式、または第2の態様の第6の可能な実装方式を参照して、第2の態様の第7の可能な実装方式では、当該後処理ユニットは特に、現在の会話/音声フレームの会話/音声復号化パラメータが現在の会話/音声フレームの代数コードブックを含むとき、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの代数コードブックに実施して、現在の会話/音声フレームの後処理された代数コードブックを取得するように構成される。   Second aspect, or first possible implementation manner of the second aspect, or second possible implementation manner of the second aspect, or second possible implementation manner of the second aspect, or second A third possible implementation manner of the aspect, or a fourth possible implementation manner of the second aspect, or a fifth possible implementation manner of the second aspect, or a sixth possible implementation manner of the second aspect. Referring to the implementation scheme, in the seventh possible implementation scheme of the second aspect, the post-processing unit in particular has a conversation / voice decoding parameter for the current conversation / voice frame that is an algebra of the current conversation / voice frame. When including a codebook, post-processing is performed on the algebraic codebook of the current speech / voice frame according to at least one of the signal class, algebraic codebook, or spectral torsion factor of the X speech / voice frames. , Current conversation / voice Configured to obtain treated algebraic codebooks after frame.

第2の態様の第7の可能な実装方式を参照して、第2の態様の第8の可能な実装方式では、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの代数コードブックに実施する態様において、当該後処理ユニットは特に、現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を現在のサブフレームの代数コードブックとして使用するように構成される。   Referring to the seventh possible implementation manner of the second aspect, in the eighth possible implementation manner of the second aspect, the signal class, algebraic codebook, or spectral twist of the X conversation / voice frames. In an embodiment in which post-processing is performed on the algebraic codebook of the current speech / voice frame according to at least one of the factors, the post-processing unit is in particular a decoded frame in which the current speech / voice frame is redundant. The next conversation / voice frame signal class of the current conversation / voice frame is silent, the spectrum / twist spectrum torsion factor of the previous conversation / voice frame before the current conversation / voice frame is less than or equal to the eighth threshold, If the algebraic codebook of the subframe of the conversation / voice frame is 0 or less than or equal to the ninth threshold, the subframe of the previous subframe of the current conversation / voice frame Configured to use the number code book or random noise as algebraic codebook of the current subframe.

第2の態様、または第2の態様の第1の可能な実装方式、または第2の態様の第2の可能な実装方式、または第2の態様の第2の可能な実装方式、または第2の態様の第3の可能な実装方式、または第2の態様の第4の可能な実装方式、または第2の態様の第5の可能な実装方式、または第2の態様の第6の可能な実装方式、または第2の態様の第7の可能な実装方式、または第2の態様の第8の可能な実装方式を参照して、第2の態様の第9の可能な実装方式では、当該後処理ユニットは特に、現在の会話/音声フレームの会話/音声復号化パラメータが現在の会話/音声フレームの帯域幅拡張エンベロープを含むとき、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するように構成される。   Second aspect, or first possible implementation manner of the second aspect, or second possible implementation manner of the second aspect, or second possible implementation manner of the second aspect, or second A third possible implementation manner of the aspect, or a fourth possible implementation manner of the second aspect, or a fifth possible implementation manner of the second aspect, or a sixth possible implementation manner of the second aspect. With reference to the implementation scheme, or the seventh possible implementation scheme of the second aspect, or the eighth possible implementation scheme of the second aspect, in the ninth possible implementation scheme of the second aspect, The post-processing unit, particularly when the conversation / voice decoding parameters of the current conversation / voice frame include the bandwidth extension envelope of the current conversation / voice frame, the signal class, bandwidth extension of the X conversation / voice frames. At least of envelope or spectral torsion factors One accordingly to implement post-processing bandwidth extension envelope of the current conversation / speech frame, configured to obtain the processed bandwidth extension envelope after the current conversation / speech frame.

第2の態様の第9の可能な実装方式を参照して、第2の態様の第10の可能な実装方式では、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、当該後処理ユニットは特に、
現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームの信号クラスが現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するか、または、
現在の会話/音声フレームが冗長復号化の予測形式である場合、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するか、または、
現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する
ように構成される。
Referring to the ninth possible implementation scheme of the second aspect, in the tenth possible implementation scheme of the second aspect, the signal class, bandwidth extension envelope, or spectrum of the X conversation / voice frames. In an aspect where post-processing is performed on the bandwidth extension envelope of the current speech / voice frame according to at least one of the torsion factors to obtain a post-processed bandwidth extension envelope of the current speech / voice frame. Especially after-treatment units
The conversation / voice frame before the current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the current conversation / voice frame is next to the current conversation / voice frame. If it is the same as the signal class of the conversation / voice frame, the current conversation based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame Get a post-processed bandwidth extension envelope / voice frame, or
If the current conversation / voice frame is a predictive form of redundant decoding, based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame Obtain a post-processed bandwidth extension envelope for the current conversation / voice frame, or
The signal class of the current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the current conversation / voice frame is silence, and the spectrum of the conversation / voice frame before the current conversation / voice frame If the torsion factor is less than or equal to the tenth threshold, modify the bandwidth extension envelope of the current conversation / voice frame or the bandwidth extension envelope of the current talk / voice frame according to the spectral torsion factor. , Configured to obtain a post-processed bandwidth extension envelope for the current speech / voice frame.

第2の態様の第10の可能な実装方式を参照して、第2の態様の第11の可能な実装方式では、
現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、当該後処理ユニットは特に、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって、現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するように構成され、
GainFrameは現在の会話/音声フレームの後処理された帯域幅拡張エンベロープであり、GainFrame_oldは現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である。
Referring to the tenth possible implementation scheme of the second aspect, in the eleventh possible implementation scheme of the second aspect,
Based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame, the post-processed bandwidth extension envelope of the current conversation / voice frame In the obtaining aspect, the post-processing unit is based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame, and The equation,
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
Is configured to obtain a post-processed bandwidth extension envelope for the current conversation / voice frame,
GainFrame is the post-processed bandwidth extension envelope of the current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame, and GainFrame_new is the current conversation / voice frame The bandwidth extension envelope of the frame, fac1 is the weight of the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame, and fac2 is the weight of the bandwidth extension envelope of the current conversation / voice frame Yes, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1.

第2の態様の第10の可能な実装方式を参照して、第2の態様の第12の可能な実装方式では、現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための、後処理ユニットにより使用される修正因子は現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する。   Referring to the tenth possible implementation manner of the second aspect, in a twelfth possible implementation manner of the second aspect, post-processing to modify the bandwidth extension envelope of the current speech / voice frame The correction factor used by the unit is inversely proportional to the spectral torsion factor of the conversation / voice frame prior to the current conversation / voice frame, and the current extension of the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame. Proportional to the ratio of speech / voice frames to the bandwidth expansion envelope.

第2の態様、または第2の態様の第1の可能な実装方式、または第2の態様の第2の可能な実装方式、または第2の態様の第2の可能な実装方式、または第2の態様の第3の可能な実装方式、または第2の態様の第4の可能な実装方式、または第2の態様の第5の可能な実装方式、または第2の態様の第6の可能な実装方式、または第2の態様の第7の可能な実装方式、または第2の態様の第8の可能な実装方式、または第2の態様の第9の可能な実装方式、または第2の態様の第10の可能な実装方式、または第2の態様の第11の可能な実装方式、または第2の態様の第12の可能な実装方式を参照して、第2の態様の第13の可能な実装方式では、当該後処理ユニットは特に、現在の会話/音声フレームの会話/音声復号化パラメータが現在の会話/音声フレームのピッチ区間を含むとき、当該X個の会話/音声フレームの信号クラスまたはピッチ区間のうち少なくとも1つに従って、後処理を現在の会話/音声フレームのピッチ区間に実施して、現在の会話/音声フレームの後処理されたピッチ区間を取得するように構成される。   Second aspect, or first possible implementation manner of the second aspect, or second possible implementation manner of the second aspect, or second possible implementation manner of the second aspect, or second A third possible implementation manner of the aspect, or a fourth possible implementation manner of the second aspect, or a fifth possible implementation manner of the second aspect, or a sixth possible implementation manner of the second aspect. Implementation scheme, or seventh possible implementation scheme of the second aspect, or eighth possible implementation scheme of the second aspect, or ninth possible implementation scheme of the second aspect, or second aspect Referring to the tenth possible implementation manner of the second aspect, the eleventh possible implementation manner of the second aspect, or the twelfth possible implementation manner of the second aspect, the thirteenth possibility of the second aspect In a particular implementation, the post-processing unit in particular has a conversation / voice decoding parameter for the current conversation / voice frame. When including the pitch section of the current conversation / voice frame, post-processing is performed on the pitch section of the current conversation / voice frame according to at least one of the signal class or pitch section of the X conversation / voice frames. , Configured to obtain a post-processed pitch segment of the current conversation / voice frame.

本発明の諸実施形態の第3の態様ではコンピュータ記憶媒体を提供する。当該コンピュータ記憶媒体はプログラムを格納してもよい。実行されているとき、当該プログラムは、本発明の諸実施形態で説明される任意の会話/音声ビットストリーム復号化方法の一部または全部のステップを含む。   In a third aspect of embodiments of the present invention, a computer storage medium is provided. The computer storage medium may store a program. When executed, the program includes some or all of the steps of any speech / voice bitstream decoding method described in the embodiments of the present invention.

本発明の幾つかの諸実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの会話/音声復号化パラメータを取得した後、復号器側は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびフレーム消去隠匿(FEC、Frame erasure concealment)復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。   In some embodiments of the present invention, the current conversation / voice frame is a redundant decoded frame or the previous conversation / voice frame of the current conversation / voice frame is a redundant decoded frame. After obtaining the conversation / voice decoding parameters of the current conversation / voice frame, the decoder side performs post-processing on the current conversation / voice frame according to the conversation / voice parameters of X conversations / voice frames. To the post-processed speech / speech decoding parameter of the current speech / speech frame and to use the post-processed speech decoding parameter of the current speech / speech frame. To restore the conversation / speech signal of the current conversation / voice frame, and the preceding X conversation / speech frames are represented by the preceding current conversation / speech frame. M speech / speech frames before the current and / or N speech / speech frames next to the previous current speech / speech frame, thereby redundantly decoded frames and normal decoding Ensured stable quality of the decoded signal during transitions between decoded frames or between redundant decoded frames and frame erasure concealment (FEC) restored frames It can be seen that the quality of the audio signal is increased.

本発明の諸実施形態または先行技術の技術的解決策をより明確に説明するために、以下では実施形態または先行技術を説明するのに必要な添付図面を簡単に説明する。明らかに、以下の説明における添付図面は本発明の幾つかの実施形態を示すにずぎず、当業者は創造的努力なしにこれらの添付図面から他の図面を依然として導出することができる。   BRIEF DESCRIPTION OF THE DRAWINGS To describe the technical solutions of the embodiments of the present invention or the prior art more clearly, the following briefly describes the accompanying drawings required for describing the embodiments or the prior art. Apparently, the accompanying drawings in the following description show some embodiments of the present invention, and those skilled in the art can still derive other drawings from these accompanying drawings without creative efforts.

本発明の1実施形態に従う会話/音声ビットストリーム復号化方法の略流れ図である。2 is a schematic flowchart of a method for decoding a speech / voice bitstream according to an embodiment of the present invention. 本発明の1実施形態に従う別の会話/音声ビットストリーム復号化方法の略流れ図である。4 is a schematic flow diagram of another speech / audio bitstream decoding method according to an embodiment of the present invention; 本発明の1実施形態に従う復号器の略図である。3 is a schematic diagram of a decoder according to an embodiment of the invention. 本発明の1実施形態に従う別の復号器の略図である。2 is a schematic diagram of another decoder according to an embodiment of the present invention. 本発明の1実施形態に従う別の復号器の略図である。2 is a schematic diagram of another decoder according to an embodiment of the present invention.

本発明の諸実施形態では、出力会話/音声信号の品質を高めるのを支援する、会話/音声ビットストリーム復号化方法および装置を提供する。   Embodiments of the present invention provide a speech / voice bitstream decoding method and apparatus that assists in enhancing the quality of an output speech / voice signal.

本発明の発明の目的、特徴、および利点をより明確かつより理解可能とするために、以下では、本発明の諸実施形態の添付図面を参照して本発明の諸実施形態の技術的解決策を明確かつ十分に説明する。明らかに、以下で説明する実施形態は本発明の諸実施形態の全部ではなく一部にすぎない。当業者が創造的努力なしに本発明の諸実施形態に基づいて得る他の全ての実施形態は本発明の保護範囲に入るものとする。   In order to make the objects, features and advantages of the present invention clearer and more understandable, the technical solutions of the embodiments of the present invention are described below with reference to the accompanying drawings of the embodiments of the present invention. Explain clearly and sufficiently. Apparently, the embodiments described below are only a part rather than all of the embodiments of the present invention. All other embodiments obtained by persons of ordinary skill in the art based on the embodiments of the present invention without creative efforts shall fall within the protection scope of the present invention.

本発明の明細書、特許請求の範囲、および添付図面では、「第1の」、「第2の」、「第3の」、「第4の」等の用語は様々なオブジェクトを区別するためのものであり、特定の順序を示すためのものではない。さらに、「〜を含む」、「〜を含む」という用語、またはその他の任意の変形は、非包括的な包含をカバーすることを意図する。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、またはデバイスは列挙したステップまたはユニットに限定されず、列挙されていないステップまたはユニットを含んでもよい。   In the specification, claims, and accompanying drawings of the present invention, terms such as “first”, “second”, “third”, “fourth”, etc., are used to distinguish various objects. Are not intended to indicate a particular order. Further, the terms “including”, “including”, or any other variations are intended to cover non-inclusive inclusions. For example, a process, method, system, product, or device that includes a series of steps or units is not limited to the listed steps or units, and may include unlisted steps or units.

以下でそれぞれの説明を詳細に与える。   Each explanation is given in detail below.

本発明の諸実施形態で提供する会話/音声ビットストリーム復号化方法を先ず説明する。本発明の諸実施形態で提供する会話/音声ビットストリーム復号化方法は復号器により実行される。当該復号器が、会話を出力する必要がある任意の装置、例えば、携帯電話、ノートブック・コンピュータ、タブレット・コンピュータ、またはパーソナル・コンピュータのようなデバイスであってもよい。   First, the conversation / audio bitstream decoding method provided in the embodiments of the present invention will be described. The speech / audio bitstream decoding method provided in the embodiments of the present invention is executed by a decoder. The decoder may be any device that needs to output a conversation, for example a device such as a mobile phone, a notebook computer, a tablet computer, or a personal computer.

本発明の会話/音声ビットストリーム復号化方法の1実施形態では、当該会話/音声ビットストリーム復号化方法は、現在の会話/音声フレームの会話/音声復号化パラメータを取得するステップであって、先行する現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、先行する現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームである、ステップと、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップであって、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である、ステップと、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって、先行する現在の会話/音声フレームの会話/音声信号を復元するステップとを含んでもよい。   In one embodiment of the speech / speech bitstream decoding method of the present invention, the speech / speech bitstream decoding method is a step of obtaining a speech / speech decoding parameter of a current speech / speech frame, comprising: The current conversation / voice frame to be a redundant decoded frame, or the previous conversation / voice frame to the previous current conversation / voice frame is a redundant decoded frame; According to the conversation / voice parameters of X conversations / voice frames, post-processing is performed on the previous conversation / voice decoding parameters of the current conversation / voice frame preceding, and the previous current conversation / voice frame is post-processed Obtaining a conversation / speech decoding parameter, wherein the preceding X conversation / speech frames are represented by the preceding current conversation / speech frame; Including M conversations / voice frames before the current and / or N conversation / voice frames next to the previous current conversation / voice frame, where M and N are positive integers; Restoring the conversation / voice signal of the previous current conversation / voice frame by using post-processed conversation / voice decoding parameters of the current conversation / voice frame to be processed.

図1を参照すると、図1は、本発明の1実施形態に従う会話/音声ビットストリーム復号化方法の略流れ図である。本発明の当該実施形態で提供する会話/音声ビットストリーム復号化方法が以下の内容を含んでもよい。   Referring to FIG. 1, FIG. 1 is a schematic flowchart of a speech / voice bitstream decoding method according to an embodiment of the present invention. The conversation / audio bitstream decoding method provided in the embodiment of the present invention may include the following contents.

101.現在の会話/音声フレームの会話/音声復号化パラメータを取得する。   101. Get the conversation / voice decoding parameters of the current conversation / voice frame.

先行する現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、先行する現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームである。   The previous current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame.

先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるとき、現在の会話/音声フレームが、正規の復号化されたフレーム、FEC復元フレーム、または冗長な復号化されたフレームであってもよい。現在の会話/音声フレームがFEC復元フレームである場合、現在の会話/音声フレームの会話/音声復号化パラメータをFECアルゴリズムに基づいて予測してもよい。   When the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame is either a regular decoded frame, an FEC recovery frame, or a redundant frame. It may be a decoded frame. If the current conversation / voice frame is an FEC recovery frame, the conversation / voice decoding parameters of the current conversation / voice frame may be predicted based on the FEC algorithm.

102.X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する。先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である。   102. According to the conversation / voice parameters of X conversations / voice frames, post-processing is performed on the previous conversation / voice decoding parameters of the current conversation / voice frame preceding, and the previous current conversation / voice frame is post-processed Get conversation / speech decoding parameters. The preceding X conversation / voice frames are the M conversation / voice frames before the previous current conversation / voice frame and / or the N conversation / voice frames next to the previous current conversation / voice frame. M and N are positive integers.

会話/音声フレーム(例えば、現在の会話/音声フレームまたは現在の会話/音声フレームの前の会話/音声フレーム)が正規の復号化されたフレームであるとは、先行する会話/音声フレームの会話/音声パラメータを当該会話/音声フレームのビットストリームから復号化により直接得ることができることを意味する。会話/音声フレーム(例えば、現在の会話/音声フレームまたは現在の会話/音声フレームの前の会話/音声フレーム)が冗長な復号化されたフレームであるとは、当該会話/音声フレームの会話/音声パラメータを復号化により当該会話/音声フレームのビットストリームから直接得ることはできないが、当該会話/音声フレームの冗長なビットストリーム情報を別の会話/音声フレームのビットストリームから得ることができることを意味する。   A conversation / voice frame (eg, the current conversation / voice frame or the conversation / voice frame before the current conversation / voice frame) is a legitimate decoded frame if the previous conversation / voice frame conversation / It means that voice parameters can be obtained directly from the bit stream of the speech / voice frame by decoding. A conversation / voice frame (e.g., the current conversation / voice frame or the conversation / voice frame before the current conversation / voice frame) is a redundant decoded frame. This means that the parameter cannot be obtained directly from the bit stream of the speech / voice frame by decoding, but redundant bit stream information of the speech / voice frame can be obtained from the bit stream of another speech / voice frame. .

現在の会話/音声フレームの前のM個の会話/音声フレームとは、現在の会話/音声フレームに先行し時間領域内の現在の会話/音声フレームのすぐ隣のM個の会話/音声フレームのことをいう。   The M conversations / voice frames before the current conversation / voice frame are those of the M conversations / voice frames immediately preceding the current conversation / voice frame and immediately adjacent to the current conversation / voice frame in the time domain. That means.

例えば、Mが1、2、3または別の値に等しくてもよい。M=1であるとき、現在の会話/音声フレームの前のM個の会話/音声フレームは現在の会話/音声フレームの前の会話/音声フレームであり、現在の会話/音声フレームの前の会話/音声フレームおよび現在の会話/音声フレームは2つのすぐ隣の会話/音声フレームであり、M=2であるとき、現在の会話/音声フレームの前のM個の会話/音声フレームは現在の会話/音声フレームの前の会話/音声フレーム、および、現在の会話/音声フレームの前の会話/音声フレームの前の会話/音声フレームであり、現在の会話/音声フレームの前の会話/音声フレーム、現在の会話/音声フレームの前の会話/音声フレームの前の会話/音声フレーム、および現在の会話/音声フレームは3つのすぐ隣の会話/音声フレームである等である。   For example, M may be equal to 1, 2, 3, or another value. When M = 1, the M conversations / voice frames before the current conversation / voice frame are the conversation / voice frames before the current conversation / voice frame, and the conversation before the current conversation / voice frame. / Speech frame and current conversation / speech frame are two immediately adjacent conversations / speech frames, and when M = 2, the M conversations / speech frames before the current conversation / speech frame are current conversations / Conversation / voice frame before voice frame and conversation / voice frame before current conversation / voice frame / speech / voice frame before voice frame, conversation / voice frame before current conversation / voice frame, Current conversation / conversation before voice frame / conversation / voice frame before voice frame, current conversation / voice frame are three immediate conversation / voice frames, and so on.

現在の会話/音声フレームの次のN個の会話/音声フレームとは、現在の会話/音声フレームに続き時間領域内の現在の会話/音声フレームのすぐ隣のN個の会話/音声フレームのことをいう。   The next N conversation / voice frames after the current conversation / voice frame are the N conversation / voice frames immediately following the current conversation / voice frame in the time domain following the current conversation / voice frame. Say.

例えば、Nが1、2、3、4または別の値に等しくてもよい。N=1であるとき、現在の会話/音声フレームの次のN個の会話/音声フレームは現在の会話/音声フレームの次の会話/音声フレームであり、現在の会話/音声フレームの次の会話/音声フレームおよび現在の会話/音声フレームは2つのすぐ隣の会話/音声フレームであり、N=2であるとき、現在の会話/音声フレームの次のN個の会話/音声フレームは現在の会話/音声フレームの次の会話/音声フレームおよび現在の会話/音声フレームの次の会話/音声フレームの次の会話/音声フレームであり、現在の会話/音声フレームの次の会話/音声フレーム、現在の会話/音声フレームの次の会話/音声フレームの次の会話/音声フレーム、および現在の会話/音声フレームは3つのすぐ隣の会話/音声フレームである等である。   For example, N may be equal to 1, 2, 3, 4, or another value. When N = 1, the next N conversation / voice frames of the current conversation / voice frame are the next conversation / voice frame of the current conversation / voice frame, and the next conversation of the current conversation / voice frame. / Speech frame and current conversation / speech frame are two immediate neighbors / speech frames, and when N = 2, the next N conversations / speech frames of the current conversation / speech frame are the current conversation / Next conversation of voice frame / voice frame and current conversation / next conversation of voice frame / next conversation / voice frame of voice frame, next conversation / voice frame of current conversation / voice frame, current The next conversation / voice frame of the next conversation / voice frame of the conversation / voice frame, the current conversation / voice frame are the three immediately next conversation / voice frames, and so on.

会話/音声復号化パラメータは、以下のパラメータ、即ち、帯域幅拡張エンベロープ、適応的コードブック利得(gain_pit)、代数コードブック、ピッチ区間、スペクトル捩れ因子、スペクトル対パラメータ等のうち少なくとも1つを含んでもよい。   The speech / speech decoding parameters include at least one of the following parameters: bandwidth extension envelope, adaptive codebook gain (gain_pit), algebraic codebook, pitch interval, spectral torsion factor, spectral pair parameters, etc. But you can.

会話/音声パラメータが会話/音声復号化パラメータ、信号クラス等を含んでもよい。   The conversation / speech parameters may include conversation / speech decoding parameters, signal classes, etc.

会話/音声フレームの信号クラスが、無声(UNVOICED)、有声(VOICED)、汎用(GENERIC)、遷移(TRANSITION)、不活性(INACTIVE)等であってもよい。   The signal class of the conversation / voice frame may be unvoiced (UNVOICED), voiced (VOICED), general purpose (GENERIC), transition (TRANSTION), inactive (INACTIVE), or the like.

スペクトル対パラメータが、例えば、線スペクトル対(LSP:Linear Spectral Pairs)パラメータまたはイミタンス・スペクトル対(ISP:Immittance Spectral Pairs)パラメータのうち少なくとも1つであってもよい。   The spectral pair parameter may be, for example, at least one of a line spectral pair (LSP) parameter or an immittance spectral pair (ISP) parameter.

本発明の当該実施形態では、後処理を、少なくとも1つの、帯域幅拡張エンベロープの会話/音声復号化パラメータ、適応的コードブック利得、代数コードブック、ピッチ区間、または現在の会話/音声フレームのスペクトル対パラメータに実施してもよいことは理解されうる。具体的には、どれだけ多くのパラメータが選択され、どのパラメータが後処理に選択されるかを適用シナリオおよび適用環境に従って決定してもよく、本発明の当該実施形態では限定されない。   In this embodiment of the invention, the post-processing may include at least one bandwidth extension envelope speech / speech decoding parameter, adaptive codebook gain, algebraic codebook, pitch interval, or spectrum of the current speech / speech frame. It can be understood that it may be implemented for paired parameters. Specifically, how many parameters are selected and which parameters are selected for post-processing may be determined according to the application scenario and application environment, and is not limited in this embodiment of the present invention.

異なる後処理を異なる会話/音声復号化パラメータに実施してもよい。例えば、現在の会話/音声フレームのスペクトル対パラメータに実施される後処理が、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを用いて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得することによって実施される適合的重み付けであってもよく、現在の会話/音声フレームの適応的コードブック利得に実施される後処理が、適応的コードブック利得に実施される減衰のような調整であってもよい。   Different post-processing may be performed on different conversation / voice decoding parameters. For example, the post-processing performed on the current speech / speech frame spectral pair parameter uses the current speech / speech frame spectral pair parameter and the previous speech / speech frame speech / speech frame spectral pair parameter. May be adaptive weighting implemented by obtaining post-processed spectrum pair parameters of the current speech / voice frame, and after being implemented on the adaptive codebook gain of the current speech / voice frame. The processing may be an adjustment such as attenuation performed on the adaptive codebook gain.

具体的な後処理方式は本発明の当該実施形態では限定されず、具体的な後処理を、要件に従ってまたは適用環境および適用シナリオに従って設定してもよい。   The specific post-processing method is not limited in the embodiment of the present invention, and the specific post-processing may be set according to the requirements or according to the application environment and the application scenario.

103.先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって、先行する現在の会話/音声フレームの会話/音声信号を復元する。   103. By using post-processed conversation / voice decoding parameters of the previous current conversation / voice frame, the conversation / voice signal of the previous current conversation / voice frame is recovered.

上述の説明から、当該実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの復号化パラメータを取得した後、復号器側は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびFEC復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in this embodiment, the current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the current conversation / voice frame is redundantly decoded. In the scenario of a frame, after obtaining the decoding parameters of the current conversation / voice frame, the decoder side performs post-processing according to the conversation / voice parameters of X conversations / voice frames. Perform on speech / speech decoding parameters to obtain post-processed speech / speech decoding parameters for the previous current conversation / speech frame and use post-speech speech decoding parameters for the current conversation / speech frame To restore the conversation / voice signal of the current conversation / voice frame, and the preceding X conversation / voice frames are represented by the preceding current conversation. Includes M conversation / voice frames before voice frame and / or N conversation / voice frames following previous current conversation / voice frame, thereby redundant decoded frame and normal decoding It can be seen that a stable quality of the decoded signal is ensured during the transition between the decoded frames or between the redundant decoded frame and the FEC recovery frame, which increases the quality of the output speech / voice signal. obtain.

本発明の幾つかの諸実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームのスペクトル対パラメータを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、例えば、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含んでもよい。   In some embodiments of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes a spectrum pair parameter of the previous current conversation / voice frame, and the number of X conversation / voice frames. According to the conversation / speech parameters, post-processing is performed on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame. Performing the current speech / voice frame preceding the post-processing according to, for example, at least one of the signal class, spectral torsion factor, adaptive codebook gain, or spectrum pair parameter of the X speech / voice frames. To the spectrum pair parameter of the previous current speech / voice frame. It includes acquiring the torque versus parameters may.

例えば、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップが、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、先行する現在の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、先行する現在の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ
を含んでもよい。
For example, the spectrum pair parameter of the current speech / voice frame preceding the post-processing according to at least one of the signal class, spectrum twist factor, adaptive codebook gain, or spectrum pair parameter of the X speech / voice frames. Performing a post-processed spectral pair parameter on the preceding current speech / voice frame,
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation If the signal class of the voice / voice frame is silent and the previous voice / speech of the previous voice / voice frame is not silent, the current current preceded spectrum / parameter of the previous current voice / voice frame Using as a post-processed spectrum pair parameter of the previous speech / voice frame, or a post-processed spectrum pair of the previous current talk / voice frame based on the spectrum-pair parameter of the previous current talk / voice frame Step to get parameters, or
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation / If the signal class of the voice frame is silence and the previous current conversation / conversation before the voice frame / the signal class of the voice frame is not silence, then the spectrum / parameter of the current conversation / voice frame and the previous current conversation Obtaining post-processed spectrum pair parameters based on the previous speech / speech frame spectrum pair parameter based on the previous speech / speech frame spectrum pair parameter, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Using the previous speech / speech frame spectrum pair parameter as a post-processed spectrum pair parameter of the preceding current speech / speech frame if the signal class is silent Or obtaining a post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum pair parameter of the previous conversation / voice frame prior to the previous current conversation / voice frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame If the current signal class is silent, the previous current conversation / speech frame spectral pair parameter and the previous current conversation / speech previous to the speech frame / previous current conversation / Obtaining a post-processed spectrum pair parameter for a speech frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold Using the previous pair of speech / speech frames prior to the previous current conversation / voice frame as a post-processed spectrum pair parameter of the previous current conversation / speech frame, or After previous speech / speech frame based on spectrum / parameter of speech / speech frame prior to speech frame Step to obtain the physical spectral pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold A post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum pair parameter of the current conversation / voice frame and the spectrum pair parameter of the previous conversation / voice frame of the previous current conversation / voice frame Step to get, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Is silent, the maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the previous current conversation / voice frame is less than or equal to the third threshold, and the previous current conversation / voice frame If the spectral torsion factor of the previous conversation / voice frame is less than or equal to the fourth threshold, the spectrum / parameters of the previous conversation / voice frame prior to the current conversation / voice frame preceding the current conversation / voice frame Step to use as post-processed spectrum pair parameter, or conversation / voice frame before previous current conversation / voice frame Step to obtain the spectral pairs parameters processed after the current conversation / speech frame preceding based on spectral pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Signal class is silent, the previous conversation of the previous current conversation / speech frame, the maximum value of the adaptive codebook gain of the subframe within the speech / speech frame is less than or equal to the third threshold, and the preceding current conversation / Conversation before speech frame / If the spectral torsion factor of speech frame is less than or equal to the fourth threshold, the previous current conversation / spectrum frame parameter of the speech frame and the preceding current conversation / conversation before speech frame / Obtain post-processed spectrum pair parameters of the previous current speech / voice frame based on the spectrum pair parameters of the voice frame Step may include a that.

先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するための様々な方式がありうる。   Spectral pair parameter of preceding current conversation / voice frame and post-processed spectrum pair of preceding current conversation / voice frame based on previous pair of current conversation / voice frame and previous spectrum / parameter of speech / voice frame There can be various schemes for obtaining the parameters.

例えば、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップが特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づき、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含んでもよい。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は先行する現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは先行する現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である。
For example, the previous current conversation / voice frame spectrum pair parameter and the previous current conversation / voice frame previous conversation / voice frame spectrum pair parameter based on the previous current conversation / voice frame spectrum pair parameter The step of obtaining the spectrum pair parameter is based in particular on the spectrum pair parameter of the previous current conversation / voice frame and the spectrum pair parameter of the previous conversation / voice frame of the previous current conversation / voice frame, and That is,
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
May be used to obtain post-processed spectral pair parameters for the preceding current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_mid [k] is the intermediate value of the spectrum / parameter of the previous current conversation / voice frame, lsp_new [k] is the spectrum / parameter of the previous current conversation / voice frame, and L is the spectrum vs. parameter Where α is the spectrum / parameter weight of the previous conversation / voice frame prior to the previous current conversation / voice frame, and β is the weight of the intermediate value of the spectrum / parameter of the previous current conversation / voice frame. Yes, δ is the spectrum-versus-parameter weight of the previous current speech / voice frame, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1 ,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than the fifth threshold, or if the previous current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is the sixth If it is less than the threshold, or if the preceding current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than the seventh threshold, or the preceding If the current speech / voice frame to be is a redundant decoded frame, β is equal to 0, or β is less than or equal to the sixth threshold, and δ is equal to 0, or δ is the seventh Below threshold.

別の例として、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップが特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づき、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含んでもよい。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、δ≧0、およびα+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である。
As another example, after the previous current conversation / voice frame based on the previous current conversation / voice frame spectrum pair parameter and the previous current conversation / voice frame previous conversation / voice frame spectrum pair parameter Obtaining the processed spectrum pair parameter is based in particular on the spectrum pair parameter of the preceding current conversation / voice frame and the spectrum pair parameter of the conversation / voice frame before the preceding current conversation / voice frame; and The following equation:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
May be used to obtain post-processed spectral pair parameters for the preceding current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_new [k] is the spectrum versus parameter of the previous current conversation / voice frame, L is the order of the spectrum versus parameter, and α is the spectrum of the conversation / voice frame before the previous current conversation / voice frame. Is the weight of the pair parameter, δ is the spectrum pair parameter weight of the previous current speech / voice frame, α ≧ 0, δ ≧ 0, and α + δ = 1,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than the fifth threshold, or if the preceding current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is the seventh Below threshold.

第5の閾値、第6の閾値、および第7の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第5の閾値の値が0に近くてもよい。例えば、第5の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第6の閾値の値が0に近くてもよい。例えば、第6の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第7の閾値の値が0に近くてもよい。例えば、第7の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよい。   Each of the fifth threshold, the sixth threshold, and the seventh threshold may be set to different values according to different application environments or scenarios. For example, the value of the fifth threshold may be close to 0. For example, the fifth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the sixth threshold value may be close to 0. For example, the sixth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the seventh threshold value may be close to 0. For example, the seventh threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0.

第1の閾値、第2の閾値、第3の閾値、および第4の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the first threshold value, the second threshold value, the third threshold value, and the fourth threshold value may be set to different values according to different application environments or scenarios.

例えば第1の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the first threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第2の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the second threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第3の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the third threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第4の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the fourth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

第1の閾値が第3の閾値に等しくてもよくまたは等しくなくてもよく、第2の閾値が第4の閾値に等しくてもよくまたは等しくなくてもよい。   The first threshold may or may not be equal to the third threshold, and the second threshold may or may not be equal to the fourth threshold.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの適応的コードブック利得を含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施して、先行する現在の会話/音声フレームの後処理された適応的コードブック利得を取得するステップを含んでもよい。   In another embodiment of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes an adaptive codebook gain of the previous current conversation / voice frame, According to the conversation / speech parameters, post-processing is performed on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame. The adaptive codebook of the current speech / speech frame that is pre-processed according to at least one of the signal class, algebraic codebook gain, or adaptive codebook gain of the X speech / speech frames. Performing gain to obtain post-processed adaptive codebook gain for the previous current speech / voice frame It may also include a.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施するステップが、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在のサブフレームの適応的コードブック利得を減衰させるステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームまたは当該次の会話/音声フレームの次の会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が、先行する現在のサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍である)、先行する現在のサブフレームの適応的コードブック利得を減衰させるステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行するサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍であってもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(例えば、補強または減衰)するステップ(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(先行する現在の会話/音声フレームのサブフレームの代数コードブック利得は、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)するステップ(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行するサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍であってもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)するステップ(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値は例えば、2、2.1、2.5、3、または別の値に等しい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値は例えば、1、1.1、1.5、2、2.1、または別の値に等しい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)するステップ(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値は例えば、1、1.1、1.5、2、または別の値に等しい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)
を含んでもよい。
For example, according to at least one of the signal class of the X speech / voice frames, the algebraic codebook gain, or the adaptive codebook gain, the adaptive codebook gain of the current speech / voice frame preceding the post-processing is set. The steps to perform are
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next two conversations / Algebra of current conversation / voice frame preceding current conversation / voice frame preceded by algebraic codebook gain of at least one signal class of voice frames that is silent and preceding current conversation / voice frame If it is greater than or equal to the codebook gain (eg, the algebraic codebook gain of the current subframe of the previous current conversation / voice frame is the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame) More than 1 time, for example, 1, 1.5, 2, 2.5, 3, 3.4, or 4 times more), the adaptive code of the previous current subframe Step attenuate codebook gain, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Or at least one signal class of the next conversation / voice frame of the next conversation / voice frame is silent and the algebraic codebook gain of the current subframe of the previous current conversation / voice frame is preceded by the current If it is greater than or equal to the algebraic codebook gain of the subframe before the subframe (eg, the algebraic codebook gain of the current subframe of the previous current speech / voice frame is the subframe before the previous current subframe Algebraic codebook gain of more than 1x, for example 1, 1.5, 2, 2.5, 3, 3.4, or 4x) Step attenuating adaptive codebook gain of subframe or,
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, and the previous current conversation / voice frame If the previous conversation / voice frame is a redundant decoded frame, and the signal class of the previous current conversation / voice frame is generic, the next conversation / If the signal class of the voice frame is voiced and the algebraic codebook gain of the subframe of the previous current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the preceding subframe (eg, leading The algebraic codebook gain of the subframe of the current speech / voice frame is the algebraic code of the subframe before the preceding subframe. Algebraic codebook gain of the current subframe of the previous current speech / voice frame), which may be greater than or equal to 1 ×, eg, 1, 1.5, 2, 2.5, 3, 3.4, or 4) The ratio of the subframe adjacent to the previous current subframe to the algebraic codebook gain, the adaptive codebook gain of the current subframe of the previous current speech / voice frame adjacent to the previous current subframe The ratio of the frame to the adaptive codebook gain, or the algebraic codebook gain of the current subframe of the previous current conversation / voice frame, the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame Adaptive code of current subframe of previous current speech / voice frame based on at least one of the ratio to A step of adjusting (eg, reinforcing or attenuating) the book gain (eg, the algebraic codebook of the subframe adjacent to the previous current subframe of the current subframe of the current subframe of the previous current speech / voice frame) The ratio to gain is greater than or equal to the eleventh threshold (the eleventh threshold may be equal to, for example, 2, 2.1, 2.5, 3, or another value), and the current sub-previous current speech / voice frame The ratio of the adaptive codebook gain of the frame to the adaptive codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, 1, 1.1, 1.5, 2 , 2.1, or may be equal to another value), a previous current association of algebraic codebook gains of the current subframe of the previous current speech / voice frame The ratio of the speech / voice frame to the algebraic codebook gain of the previous speech / voice frame is less than or equal to the thirteenth threshold (even if the thirteenth threshold is equal to, for example, 1, 1.1, 1.5, 2, or another value). (If good) may augment the adaptive codebook gain of the current subframe of the previous current speech / voice frame), or
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, before the previous current conversation / voice frame If the current conversation / voice frame is a redundant decoded frame, and the signal class of the previous current conversation / voice frame is generic and the next conversation / voice of the previous current conversation / voice frame If the signal class of the frame is voiced and the algebraic codebook gain of the subframe of the previous current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current voice / voice frame (Algebraic codebook gain of subframe of previous current conversation / voice frame is the previous conversation of current conversation / voice frame. Algebraic codebook gain of the voice frame is 1 or more times, for example 1, 1.5, 2, 2.5, 3, 3.4, or 4 times or more), the algebraic code of the current subframe of the previous current conversation / voice frame The ratio of the book gain to the algebraic codebook gain of the subframe adjacent to the previous current subframe, adjacent to the current subframe preceding the adaptive codebook gain of the current subframe of the previous current speech / voice frame The ratio of the subframe to the adaptive codebook gain or the algebraic codebook gain of the previous current conversation / voice frame of the previous current conversation / voice frame Current sub-current current speech / voice frame based on at least one of ratio to book gain Adjusting (attenuating or reinforcing) the adaptive codebook gain of the frame (eg, in the subframe adjacent to the previous current subframe of the algebraic codebook gain of the current subframe of the previous current speech / voice frame) The ratio to the algebraic codebook gain is greater than or equal to the eleventh threshold (the eleventh threshold may be equal to, for example, 2, 2.1, 2.5, 3, or another value) and the preceding current speech / voice frame The ratio of the adaptive codebook gain of the current subframe to the adaptive codebook gain of the subframe adjacent to the preceding current subframe is equal to or greater than the twelfth threshold (the twelfth threshold is, for example, 1, 1.1, 1.5, 2, 2.1, or equal to another value), algebraic codebook gain ahead of the current subframe of the previous current conversation / voice frame The ratio of the current conversation / voice frame to the previous conversation / voice frame to the algebraic codebook gain is less than or equal to the thirteenth threshold (the thirteenth threshold is, for example, 1, 1.1, 1.5, 2, or another value) The adaptive codebook gain of the current subframe of the previous current conversation / voice frame may be augmented), or the previous current conversation / voice frame is redundantly decoded Or the previous current conversation / voice frame is a regular decoded frame and the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame. In some cases, the preceding current conversation / voice frame is voiced, the signal class of the conversation / voice frame before the preceding current conversation / voice frame is generic, The algebraic codebook gain of the subframe of the current speech / voice frame to be greater than or equal to the algebraic codebook gain of the subframe before the preceding subframe (eg, the algebra of the subframe of the previous current speech / voice frame) The codebook gain may be 1 or more times the algebraic codebook gain of the subframe before the preceding subframe, eg, 1, 1.5, 2, 2.5, 3, 3.4, or 4 times) The ratio of the algebraic codebook gain of the current subframe of the current speech / voice frame to the algebraic codebook gain of the subframe adjacent to the previous current subframe, of the current subframe of the previous current speech / voice frame For the adaptive codebook gain of the subframe adjacent to the current subframe preceding the adaptive codebook gain At least one of the ratio or the ratio of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous conversation / voice frame Adjusting (attenuating or reinforcing) the adaptive codebook gain of the current subframe of the previous current conversation / voice frame based on (eg, the algebraic codebook of the current subframe of the previous current conversation / voice frame) The ratio of gain to the algebraic codebook gain of the subframe adjacent to the previous current subframe is greater than or equal to the eleventh threshold (the eleventh threshold is equal to, for example, 2, 2.1, 2.5, 3, or another value) ), The previous current sub-adaptive codebook gain of the current subframe of the previous current speech / voice frame. The ratio of subframes adjacent to the subframe to the adaptive codebook gain is greater than or equal to the twelfth threshold (the twelfth threshold is equal to, for example, 1, 1.1, 1.5, 2, 2.1, or another value) The ratio of the algebraic codebook gain of the current subframe of the current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame is less than or equal to the thirteenth threshold (the first 13 thresholds may be equal to, for example, 1, 1.1, 1.5, 2, or another value), the adaptive codebook gain of the current subframe of the previous current speech / voice frame may be augmented Good), or the preceding current conversation / voice frame is a redundant decoded frame, or the preceding current conversation / voice frame is a regular decoded frame; If the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the signal class of the previous current conversation / voice frame is voiced, the previous current conversation / Conversation before speech frame / Signal class of speech frame is generic and current conversation / speech before speech frame / speech with current algebraic codebook gain of subframe of preceding current conversation / speech frame If the algebraic codebook gain of the frame is greater than or equal to the algebraic codebook gain of the previous current conversation / voice frame (eg, the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame) 1 or more times the gain, eg, 1, 1.5, 2, 2.5, 3, 3.4, or 4 times more), the current of the previous current conversation / voice frame The ratio of the algebraic codebook gain of the subframe to the algebraic codebook gain of the subframe adjacent to the previous current subframe, the previous current of the adaptive codebook gain of the current subframe of the previous current speech / voice frame The ratio of the subframes adjacent to the subframe to the adaptive codebook gain, or the algebraic codebook gain of the current subframe of the previous current conversation / voice frame, the previous current conversation / the previous conversation of the voice frame / Adjusting (attenuating or reinforcing) the adaptive codebook gain of the current subframe of the previous current speech / voice frame based on at least one of the ratios of the speech frame to the algebraic codebook gain (eg, preceding Algebra of the current subframe of the current conversation / voice frame The ratio of the codebook gain to the algebraic codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the eleventh threshold (the eleventh threshold is, for example, 2, 2.1, 2.5, 3, or another value) The ratio of the adaptive codebook gain of the current subframe of the previous current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the previous current subframe is 12th An algebraic codebook of the current subframe of the preceding current speech / voice frame that is greater than or equal to the threshold (the twelfth threshold may be equal to, for example, 1, 1.1, 1.5, 2, 2.1, or another value) The ratio of the previous conversation / speech frame to the algebraic codebook gain of the previous conversation / speech frame with the gain is less than or equal to the thirteenth threshold (the thirteenth threshold is, for example, If equal to 1, 1.1, 1.5, 2, or another value), the adaptive codebook gain of the current subframe of the previous current speech / voice frame may be augmented)
May be included.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータが先行する現在の会話/音声フレームの代数コードブックを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施して、先行する現在の会話/音声フレームの後処理された代数コードブックを取得するステップを含んでもよい。   In another embodiment of the present invention, the preceding current conversation / speech frame speech / speech decoding parameter includes an algebraic codebook of the preceding current conversation / speech frame, and X conversations / speech frame conversation / Performing post-processing on the conversation / voice decoding parameters of the previous current conversation / voice frame according to the voice parameters to obtain post-processed conversation / voice decoding parameters of the previous current conversation / voice frame. Performs post-processing on the preceding algebraic codebook of the current speech / voice frame according to at least one of the signal class, algebraic codebook, or spectral torsion factor of the X speech / voice frames, Obtaining a post-processed algebraic codebook for the current conversation / voice frame to be processed.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施するステップは、先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、先行する現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、先行する現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を先行する現在のサブフレームの代数コードブックとして使用するステップを含んでもよい。   For example, performing post-processing on an algebraic codebook of a previous current speech / voice frame according to at least one of the signal class of the X speech / voice frames, an algebraic codebook, or a spectral twist factor, The previous current conversation / voice frame is a redundant decoded frame, the next conversation / voice frame signal class of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the previous speech / voice frame is less than or equal to the eighth threshold and the algebraic codebook of the subframe of the previous current speech / voice frame is 0 or less than or equal to the ninth threshold, Current sub that precedes the algebraic codebook or random noise of the subframe before the previous current speech / voice frame It may include the step of using as the algebraic codebook frame.

第8の閾値および第9の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the eighth threshold value and the ninth threshold value may be set to a different value according to a different application environment or scenario.

例えば第8の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the eighth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第9の閾値を0.1、0.09、0.11、0.07、0.101、0.099、または0に近い別の値に設定してもよい。   For example, the ninth threshold value may be set to 0.1, 0.09, 0.11, 0.07, 0.101, 0.099, or another value close to 0.

第8の閾値が第2の閾値に等しくてもよくまたは等しくなくてもよい。   The eighth threshold may or may not be equal to the second threshold.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの帯域幅拡張エンベロープを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップを含んでもよい。   In another embodiment of the present invention, the conversation / voice decoding parameter of the previous current conversation / voice frame includes a bandwidth extension envelope of the previous current conversation / voice frame, and the conversation of X conversations / voice frames. According to / speech parameters, post-processing is performed on speech / speech decoding parameters of previous current conversation / speech frame to obtain post-processed speech / speech decoding parameters of preceding current conversation / speech frame. Performing the post-processing on the bandwidth extension envelope of the current speech / voice frame preceding according to at least one of the signal class, bandwidth extension envelope, or spectral torsion factor of the X speech / voice frames. Obtaining a post-processed bandwidth extension envelope of the preceding current conversation / voice frame. But good.

例えば、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップが、
先行する現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ、または、
先行する現在の会話/音声フレームが冗長復号化の予測形式である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ、または、
先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ
を含んでもよい。
For example, performing post-processing on the bandwidth extension envelope of the current conversation / voice frame preceding according to at least one of the signal class of the X speech / voice frames, the bandwidth extension envelope, or the spectral torsion factor, Obtaining a post-processed bandwidth extension envelope of the preceding current conversation / voice frame;
The conversation / voice frame before the previous current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the previous current conversation / voice frame is the current conversation / voice. If it is the same as the signal class of the next conversation / voice frame of the frame, the bandwidth extension envelope of the previous current conversation / voice frame, the previous conversation / voice frame and the previous current conversation / voice frame Obtaining a post-processed bandwidth extension envelope based on the envelope for the previous current speech / voice frame, or
If the previous current conversation / voice frame is in the predictive form of redundant decoding, the bandwidth extension envelope of the previous conversation / voice frame before the previous current conversation / voice frame and the bandwidth of the previous current conversation / voice frame Obtaining a post-processed bandwidth expansion envelope based on the width expansion envelope, after the preceding current speech / voice frame, or
The signal class of the previous current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the conversation / voice frame is less than or equal to the tenth threshold, the previous current conversation / voice frame is expanded according to the previous speech / voice frame bandwidth extension envelope or the spectral torsion factor. The method may include modifying the bandwidth extension envelope of the voice frame to obtain a post-processed bandwidth extension envelope of the preceding current speech / voice frame.

第10の閾値を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第10の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   The tenth threshold may be set to different values according to different application environments or scenarios. For example, the tenth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップが特に、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップを含んでもよい。
GainFrameは先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープであり、GainFrame_oldは先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは先行する現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は先行する現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である。
For example, post-processing of previous current conversation / voice frame based on bandwidth extension envelope of previous conversation / voice frame prior to previous current conversation / voice frame and bandwidth extension envelope of previous current conversation / voice frame The step of obtaining a bandwidth extension envelope that is determined based on the bandwidth extension envelope of the previous conversation / voice frame prior to the previous current conversation / voice frame and the bandwidth extension envelope of the preceding current conversation / voice frame, in particular. And the following equation:
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
To obtain a post-processed bandwidth extension envelope of the preceding current speech / voice frame by using.
GainFrame is the post-processed bandwidth extension envelope of the previous current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the previous current conversation / voice frame, and GainFrame_new is the lead Is the bandwidth extension envelope of the current conversation / speech frame, fac1 is the weight of the bandwidth / envelope extension envelope of the previous conversation / speech frame of the previous current conversation / speech frame, and fac2 is the previous current conversation / speech / The weight of the bandwidth expansion envelope of the voice frame, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1.

別の例として、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための修正因子は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの先行する現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する。   As another example, the correction factor for correcting the bandwidth extension envelope of the preceding current conversation / voice frame is inversely proportional to the spectral twist factor of the conversation / voice frame before the previous current conversation / voice frame, Is proportional to the ratio of the previous conversation / voice frame bandwidth extension envelope to the previous conversation / voice frame bandwidth extension envelope.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームのピッチ区間を含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って、後処理を先行する現在の会話/音声フレームのピッチ区間に実施して(例えば、補強または減衰のような後処理を、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って先行する現在の会話/音声フレームのピッチ区間に実施してもよい)、先行する現在の会話/音声フレームの後処理されたピッチ区間を取得するステップを含んでもよい。   In another embodiment of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes the pitch interval of the previous current conversation / speech frame, and the conversation / speech of X conversations / speech frames. According to the parameters, post-processing is performed on the conversation / voice decoding parameters of the preceding current conversation / voice frame to obtain post-processed conversation / voice decoding parameters of the preceding current conversation / voice frame. , Post-processing is performed on the preceding speech / voice frame pitch section according to the signal class and / or pitch section of the X conversation / voice frames (eg, post-processing such as reinforcement or attenuation, In the pitch section of the current conversation / voice frame preceding according to the signal class and / or pitch section of the X conversation / voice frames Subjected may be) may include the step of obtaining the processed pitch interval after the preceding the current conversation / speech frame.

上述の説明から、本発明の幾つかの諸実施形態では、無声会話/音声フレームと非無声会話/音声フレームの間の遷移中に(例えば、現在の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが非無声信号タイプの正規の復号化されたフレームであるとき、または、現在の会話/音声フレームが非無声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、無声会話/音声フレームと非無声会話/音声フレームの間のフレーム間遷移中に生ずるクリック(click)現象の回避が支援され、それにより、出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in some embodiments of the present invention, during a transition between unvoiced / voice frames and non-voiced / voice frames (eg, the current conversation / voice frame is a redundant voice class). A decoded frame, when the current conversation / voice frame is a normal decoded frame of the non-silent signal type, or the current conversation / voice frame is non-voiced A normal decoded frame of the unvoiced signal class and when the current conversation / voice frame is the previous or next conversation / voice frame is a redundant decoded frame of the unvoiced signal class), post-processing is currently The conversation / voice decoding parameters of the conversation / voice frame of the voice are performed so that during the inter-frame transition between the voiceless / voice frame and the voiceless voice / voice frame. Avoidance of cunning click (click) phenomenon is support, thereby, it can be seen that the quality of the output conversation / audio signal is increased.

本発明の他の実施形態では、汎用的な会話/音声フレームと有声の会話/音声フレームの間の遷移中に(現在のフレームが汎用フレームであり冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであるとき、または、現在の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが汎用信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、汎用フレームと有声フレームの間の遷移中に生ずるエネルギ不安定現象の矯正が支援され、これにより出力会話/音声信号の品質が高まる。   In another embodiment of the present invention, during a transition between a generic conversation / voice frame and a voiced conversation / voice frame (the current frame is a generic frame and a redundant decoded frame, When the previous / next conversation / voice frame is a regular decoded frame of the voiced signal class or when the current conversation / voice frame is a regular decoded frame of the voiced signal class Yes, when the previous conversation / voice frame of the current conversation / voice frame or the next conversation / voice frame is a redundant decoded frame of the general signal class), the post-processing is the conversation / voice decoding parameters of the current conversation / voice frame. This assists in correcting energy instability phenomena that occur during transitions between general-purpose frames and voiced frames, thereby providing output speech / voice signals. Quality is enhanced.

本発明のさらに他の実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であるとき、現在のフレームの帯域幅拡張エンベロープを調節して、時間領域帯域幅拡張におけるエネルギ不安定現象を矯正し、出力会話/音声信号の品質を高める。   In yet another embodiment of the invention, the current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and When the signal class of the speech / voice frame is silence, the bandwidth extension envelope of the current frame is adjusted to correct the energy instability phenomenon in the time domain bandwidth extension and improve the quality of the output speech / voice signal.

本発明の当該実施形態における上述の解決策をより良く理解し実装するために、幾つかの具体的な適用シナリオを以下の説明では1例として使用する。   In order to better understand and implement the above-described solution in this embodiment of the present invention, several specific application scenarios are used as an example in the following description.

図2を参照すると、図2は、本発明の別の実施形態に従う別の会話/音声ビットストリーム復号化方法の略流れ図である。本発明の別の実施形態で提供する別の会話/音声ビットストリーム復号化方法は以下の内容を含んでもよい。   Referring to FIG. 2, FIG. 2 is a schematic flowchart of another speech / voice bitstream decoding method according to another embodiment of the present invention. Another speech / voice bitstream decoding method provided in another embodiment of the present invention may include the following contents.

201.現在の会話/音声フレームの復号化ステータスを決定する。   201. Determine the decoding status of the current conversation / voice frame.

具体的には、例えば、JBMアルゴリズムまたは別のアルゴリズムに基づいて、現在の会話/音声フレームの復号化ステータスが正規の復号化されたフレーム、冗長な復号化されたフレーム、またはFEC復元フレームであると判定してもよい。   Specifically, for example, based on the JBM algorithm or another algorithm, the decoding status of the current speech / voice frame is a regular decoded frame, a redundant decoded frame, or an FEC recovery frame. May be determined.

現在の会話/音声フレームが正規の復号化されたフレームであり、現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、ステップ202を実行する。   If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, step 202 is performed.

現在の会話/音声フレームが冗長な復号化されたフレームである場合、ステップ203を実行する。   If the current speech / voice frame is a redundant decoded frame, step 203 is executed.

現在の会話/音声フレームがFEC復元フレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、ステップ204を実行する。   If the current conversation / voice frame is an FEC recovery frame and the previous conversation / voice frame prior to the current conversation / voice frame is a redundant decoded frame, step 204 is performed.

202.現在の会話/音声フレームのビットストリームに基づいて現在の会話/音声フレームの会話/音声復号化パラメータを取得し、ステップ205にジャンプする。   202. The conversation / voice decoding parameters of the current conversation / voice frame are obtained based on the bit stream of the current conversation / voice frame, and the process jumps to step 205.

203.現在の会話/音声フレームの冗長なビットストリームに基づいて先行する現在の会話/音声フレームの会話/音声復号化パラメータを取得し、ステップ205にジャンプする。   203. The conversation / speech decoding parameters of the preceding current conversation / speech frame are obtained based on the redundant bit stream of the current conversation / speech frame, and jump to step 205.

204.FECアルゴリズムに基づく予測により現在の会話/音声フレームの会話/音声復号化パラメータを取得し、ステップ205にジャンプする。   204. The speech / speech decoding parameter of the current speech / speech frame is obtained by prediction based on the FEC algorithm, and the process jumps to step 205.

205.X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する。先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である。   205. According to the conversation / voice parameters of X conversations / voice frames, post-processing is performed on the previous conversation / voice decoding parameters of the current conversation / voice frame preceding, and the previous current conversation / voice frame is post-processed Get conversation / speech decoding parameters. The preceding X conversation / voice frames are the M conversation / voice frames before the previous current conversation / voice frame and / or the N conversation / voice frames next to the previous current conversation / voice frame. M and N are positive integers.

206.先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって、先行する現在の会話/音声フレームの会話/音声信号を復元する。   206. By using post-processed conversation / voice decoding parameters of the previous current conversation / voice frame, the conversation / voice signal of the previous current conversation / voice frame is recovered.

異なる後処理を異なる会話/音声復号化パラメータに実施してもよい。例えば、現在の会話/音声フレームのスペクトル対パラメータに実施される後処理が、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを用いて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得することによって実施される適合的重み付けであってもよく、現在の会話/音声フレームの適応的コードブック利得に実施される後処理が、適応的コードブック利得に実施される減衰のような調整であってもよい。   Different post-processing may be performed on different conversation / voice decoding parameters. For example, the post-processing performed on the current speech / speech frame spectral pair parameter uses the current speech / speech frame spectral pair parameter and the previous speech / speech frame speech / speech frame spectral pair parameter. May be adaptive weighting implemented by obtaining post-processed spectrum pair parameters of the current speech / voice frame, and after being implemented on the adaptive codebook gain of the current speech / voice frame. The processing may be an adjustment such as attenuation performed on the adaptive codebook gain.

本発明の幾つかの諸実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームのスペクトル対パラメータを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、例えば、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含んでもよい。   In some embodiments of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes a spectrum pair parameter of the previous current conversation / voice frame, and the number of X conversation / voice frames. According to the conversation / speech parameters, post-processing is performed on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame. Current speech / speech frame preceded by post-processing according to at least one of, for example, the signal class, spectral torsion factor, adaptive codebook gain, or spectrum pair parameter of the X speech / speech frames. To the spectrum pair parameter of the previous current speech / voice frame. It includes acquiring the torque versus parameters may.

例えば、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップが、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、先行する現在の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、先行する現在の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するステップ、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップ
を含んでもよい。
For example, the spectrum pair parameter of the current speech / voice frame preceding the post-processing according to at least one of the signal class, spectrum twist factor, adaptive codebook gain, or spectrum pair parameter of the X speech / voice frames. Performing a post-processed spectral pair parameter on the preceding current speech / voice frame,
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation If the signal class of the voice / voice frame is silent and the previous voice / speech of the previous voice / voice frame is not silent, the current current preceded spectrum / parameter of the previous current voice / voice frame Using as a post-processed spectrum pair parameter of the previous speech / voice frame, or a post-processed spectrum pair of the previous current talk / voice frame based on the spectrum-pair parameter of the previous current talk / voice frame Step to get parameters, or
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation / If the signal class of the voice frame is silence and the previous current conversation / conversation before the voice frame / the signal class of the voice frame is not silence, then the spectrum / parameter of the current conversation / voice frame and the previous current conversation Obtaining post-processed spectrum pair parameters based on the previous speech / speech frame spectrum pair parameter based on the previous speech / speech frame spectrum pair parameter, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Using the previous speech / speech frame spectrum pair parameter as a post-processed spectrum pair parameter of the preceding current speech / speech frame if the signal class is silent Or obtaining a post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum pair parameter of the previous conversation / voice frame prior to the previous current conversation / voice frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame If the current signal class is silent, the previous current conversation / speech frame spectral pair parameter and the previous current conversation / speech previous to the speech frame / previous current conversation / Obtaining a post-processed spectrum pair parameter for a speech frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold Using the previous pair of speech / speech frames prior to the previous current conversation / voice frame as a post-processed spectrum pair parameter of the previous current conversation / speech frame, or After previous speech / speech frame based on spectrum / parameter of speech / speech frame prior to speech frame Step to obtain the physical spectral pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold A post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum pair parameter of the current conversation / voice frame and the spectrum pair parameter of the previous conversation / voice frame of the previous current conversation / voice frame Step to get, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Is silent, the maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the previous current conversation / voice frame is less than or equal to the third threshold, and the previous current conversation / voice frame If the spectral torsion factor of the previous conversation / voice frame is less than or equal to the fourth threshold, the spectrum / parameters of the previous conversation / voice frame prior to the current conversation / voice frame preceding the current conversation / voice frame Step to use as post-processed spectrum pair parameter, or conversation / voice frame before previous current conversation / voice frame Step to obtain the spectral pairs parameters processed after the current conversation / speech frame preceding based on spectral pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Signal class is silent, the previous conversation of the previous current conversation / speech frame, the maximum value of the adaptive codebook gain of the subframe within the speech / speech frame is less than or equal to the third threshold, and the preceding current conversation / Conversation before speech frame / If the spectral torsion factor of speech frame is less than or equal to the fourth threshold, the previous current conversation / spectrum frame parameter of the speech frame and the preceding current conversation / conversation before speech frame / Obtain post-processed spectrum pair parameters of the previous current speech / voice frame based on the spectrum pair parameters of the voice frame Step may include a that.

先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するための様々な方式がありうる。   Spectral pair parameter of preceding current conversation / voice frame and post-processed spectrum pair of preceding current conversation / voice frame based on previous pair of current conversation / voice frame and previous spectrum / parameter of speech / voice frame There can be various schemes for obtaining the parameters.

例えば、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップが特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づき、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含んでもよい。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は先行する現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは先行する現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である。
For example, the previous current conversation / voice frame spectrum pair parameter and the previous current conversation / voice frame previous conversation / voice frame spectrum pair parameter based on the previous current conversation / voice frame spectrum pair parameter The step of obtaining the spectrum pair parameter is based in particular on the spectrum pair parameter of the previous current conversation / voice frame and the spectrum pair parameter of the previous conversation / voice frame of the previous current conversation / voice frame, and That is,
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
May be used to obtain post-processed spectral pair parameters for the preceding current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_mid [k] is the intermediate value of the spectrum / parameter of the previous current conversation / voice frame, lsp_new [k] is the spectrum / parameter of the previous current conversation / voice frame, and L is the spectrum vs. parameter Where α is the spectrum / parameter weight of the previous conversation / voice frame prior to the previous current conversation / voice frame, and β is the weight of the intermediate value of the spectrum / parameter of the previous current conversation / voice frame. Yes, δ is the spectrum-versus-parameter weight of the previous current speech / voice frame, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1 ,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than the fifth threshold, or if the previous current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is the sixth If it is less than the threshold, or if the preceding current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than the seventh threshold, or the preceding If the current speech / voice frame to be is a redundant decoded frame, β is equal to 0, or β is less than or equal to the sixth threshold, and δ is equal to 0, or δ is the seventh Below threshold.

別の例として、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップが特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づき、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含んでもよい。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、およびα+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である。
As another example, after the previous current conversation / voice frame based on the previous current conversation / voice frame spectrum pair parameter and the previous current conversation / voice frame previous conversation / voice frame spectrum pair parameter Obtaining the processed spectrum pair parameter is based in particular on the spectrum pair parameter of the preceding current conversation / voice frame and the spectrum pair parameter of the conversation / voice frame before the preceding current conversation / voice frame; and The following equation:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
May be used to obtain post-processed spectral pair parameters for the preceding current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_new [k] is the spectrum versus parameter of the previous current conversation / voice frame, L is the order of the spectrum versus parameter, and α is the spectrum of the conversation / voice frame before the previous current conversation / voice frame. Is the weight of the pair parameter, δ is the spectrum pair parameter weight of the previous current speech / voice frame, α ≧ 0, β ≧ 0, and α + δ = 1,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than the fifth threshold, or if the preceding current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is the seventh Below threshold.

第5の閾値、第6の閾値、および第7の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第5の閾値の値が0に近くてもよい。例えば、第5の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第6の閾値の値が0に近くてもよい。例えば、第6の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第7の閾値の値が0に近くてもよい。例えば、第7の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよい。   Each of the fifth threshold, the sixth threshold, and the seventh threshold may be set to different values according to different application environments or scenarios. For example, the value of the fifth threshold may be close to 0. For example, the fifth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the sixth threshold value may be close to 0. For example, the sixth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the seventh threshold value may be close to 0. For example, the seventh threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0.

第1の閾値、第2の閾値、第3の閾値、および第4の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the first threshold value, the second threshold value, the third threshold value, and the fourth threshold value may be set to different values according to different application environments or scenarios.

例えば第1の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the first threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第2の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the second threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第3の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the third threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第4の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the fourth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

第1の閾値が第3の閾値に等しくてもよくまたは等しくなくてもよく、第2の閾値が第4の閾値に等しくてもよくまたは等しくなくてもよい。   The first threshold may or may not be equal to the third threshold, and the second threshold may or may not be equal to the fourth threshold.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの適応的コードブック利得を含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施して、先行する現在の会話/音声フレームの後処理された適応的コードブック利得を取得するステップを含んでもよい。   In another embodiment of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes an adaptive codebook gain of the previous current conversation / voice frame, According to the conversation / speech parameters, post-processing is performed on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame. The adaptive codebook of the current speech / speech frame that is pre-processed according to at least one of the signal class, algebraic codebook gain, or adaptive codebook gain of the X speech / speech frames. Performing gain to obtain post-processed adaptive codebook gain for the previous current speech / voice frame It may also include a.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施するステップが、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在のサブフレームの適応的コードブック利得を減衰させるステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームまたは当該次の会話/音声フレームの次の会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が、先行する現在のサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍である)、先行する現在のサブフレームの適応的コードブック利得を減衰させるステップ、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行するサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍であってもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(例えば、補強または減衰)するステップ(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)するステップ(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行するサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍であってもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)するステップ(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値は例えば、2、2.1、2.5、3、または別の値に等しい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値は例えば、1、1.1、1.5、2、2.1、または別の値に等しい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)するステップ(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)
を含んでもよい。
For example, according to at least one of the signal class of the X speech / voice frames, the algebraic codebook gain, or the adaptive codebook gain, the adaptive codebook gain of the current speech / voice frame preceding the post-processing is set. The steps to perform are
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next two conversations / Algebra of current conversation / voice frame preceding current conversation / voice frame preceded by algebraic codebook gain of at least one signal class of voice frames that is silent and preceding current conversation / voice frame If it is greater than or equal to the codebook gain (eg, the algebraic codebook gain of the current subframe of the previous current conversation / voice frame is the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame) More than 1 time, for example, 1, 1.5, 2, 2.5, 3, 3.4, or 4 times more), the adaptive code of the previous current subframe Step attenuate codebook gain, or
If the previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence and the next conversation / voice of the previous current conversation / voice frame The current class preceded by the algebraic codebook gain of the current subframe of the previous current conversation / voice frame when at least one signal class of the frame or the next conversation / voice frame of the next conversation / voice frame is silent If it is greater than or equal to the algebraic codebook gain of the previous subframe (eg, the algebraic codebook gain of the current subframe of the previous current speech / voice frame is 1 or more times the algebraic codebook gain of the frame, eg 1, 1.5, 2, 2.5, 3, 3.4, or 4 times) Step attenuating adaptive codebook gains of the sub-frame, or
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, and the previous current conversation / voice frame If the previous conversation / voice frame is a redundant decoded frame, and the signal class of the previous current conversation / voice frame is generic, the next conversation / If the signal class of the voice frame is voiced and the algebraic codebook gain of the subframe of the previous current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the preceding subframe (eg, leading The algebraic codebook gain of the subframe of the current speech / voice frame is the algebraic code of the subframe before the preceding subframe. Algebraic codebook gain of the current subframe of the previous current speech / voice frame), which may be greater than or equal to 1 ×, eg, 1, 1.5, 2, 2.5, 3, 3.4, or 4) The ratio of the subframe adjacent to the previous current subframe to the algebraic codebook gain, the adaptive codebook gain of the current subframe of the previous current speech / voice frame adjacent to the previous current subframe The ratio of the frame to the adaptive codebook gain, or the algebraic codebook gain of the current subframe of the previous current conversation / voice frame, the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame Adaptive code of current subframe of previous current speech / voice frame based on at least one of the ratio to A step of adjusting (eg, reinforcing or attenuating) the book gain (eg, the algebraic codebook of the subframe adjacent to the previous current subframe of the current subframe of the current subframe of the previous current speech / voice frame) The ratio to gain is greater than or equal to the eleventh threshold (the eleventh threshold may be equal to, for example, 2, 2.1, 2.5, 3, or another value), and the current sub-previous current speech / voice frame The ratio of the adaptive codebook gain of the frame to the adaptive codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, 1, 1.1, 1.5, 2 , 2.1, or may be equal to another value), a previous current association of algebraic codebook gains of the current subframe of the previous current speech / voice frame The ratio of the speech / voice frame to the algebraic codebook gain of the previous speech / voice frame is less than or equal to the thirteenth threshold (even if the thirteenth threshold is equal to, for example, 1, 1.1, 1.5, 2, or another value). If so, the adaptive codebook gain of the current subframe of the previous current conversation / voice frame may be augmented), or the previous current conversation / voice frame is a redundant decoded frame Or if the previous current conversation / voice frame is a regular decoded frame and the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and The signal class of the previous current conversation / voice frame is generic, the signal class of the next conversation / voice frame of the previous current conversation / voice frame is voiced, If the algebraic codebook gain of the subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame (of the previous current conversation / voice frame) The algebraic codebook gain of the subframe is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame, eg, 1, 1.5, 2, 2.5, 3, 3.4, or 4 The ratio of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the subframe adjacent to the previous current subframe, the previous current conversation / Adaptive code of the subframe adjacent to the current subframe preceding the adaptive codebook gain of the current subframe of the speech frame At least of the ratio to the bookbook gain or the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame Adjusting (attenuating or reinforcing) the adaptive codebook gain of the current subframe of the previous current conversation / voice frame based on one (eg, of the current subframe of the previous current conversation / voice frame) The ratio of the algebraic codebook gain to the algebraic codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the eleventh threshold (the eleventh threshold is, for example, 2, 2.1, 2.5, 3, or another May be equal to the value), an adaptive code for the current subframe of the previous current speech / voice frame. The ratio of the subbook adjacent to the previous current subframe to the adaptive codebook gain is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, 1, 1.1, 1.5, 2, 2.1, or The algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous conversation / voice frame. Is less than or equal to the thirteenth threshold (the thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value), the current subframe of the preceding current conversation / voice frame Adaptive codebook gain may be augmented), or the preceding current conversation / voice frame is a redundant decoded frame, or the preceding current conversation / voice frame Is a regular decoded frame, and the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation / voice frame is Voiced, the conversation / voice frame signal class before the previous current conversation / voice frame is generic, and the algebraic codebook gain of the previous current conversation / voice frame subframe is the preceding subframe If it is greater than or equal to the algebraic codebook gain of the previous subframe (eg, the algebraic codebook gain of the subframe of the previous current speech / voice frame is 1 of the algebraic codebook gain of the subframe of the previous subframe. More than double, eg, 1, 1.5, 2, 2.5, 3, 3.4, or 4 times), current sub of previous current conversation / voice frame The ratio of the algebraic codebook gain of the lem to the algebraic codebook gain of the subframe adjacent to the previous current subframe, the previous current of the adaptive codebook gain of the current subframe of the previous current speech / voice frame The ratio of the subframe adjacent to the subframe to the adaptive codebook gain, or the algebraic codebook gain of the current subframe of the previous current speech / speech frame, the speech / speech before the previous current speech / speech frame Adjusting (attenuating or reinforcing) the adaptive codebook gain of the current subframe of the previous current speech / voice frame based on at least one of the ratio of the frame to the algebraic codebook gain (eg, the previous current Algebra code of the current subframe of the conversation / voice frame of The ratio of the book gain to the algebraic codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the eleventh threshold (the eleventh threshold is, for example, 2, 2.1, 2.5, 3, or another value) The ratio of the adaptive codebook gain of the current subframe of the previous current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the previous current subframe is greater than or equal to the twelfth threshold. (The twelfth threshold is, for example, equal to 1, 1.1, 1.5, 2, 2.1, or another value), the previous current conversation of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame The ratio of the speech / voice frame prior to the voice frame to the algebraic codebook gain of the voice frame is less than or equal to the thirteenth threshold (the thirteenth threshold is, for example, 1, 1.1, 1.5, 2, or another (May be equal to the value), the adaptive codebook gain of the current subframe of the previous current conversation / voice frame may be augmented), or the previous current conversation / voice frame is redundantly decoded Or the previous current conversation / voice frame is a regular decoded frame and the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame. And the signal class of the previous current conversation / voice frame is voiced, the signal class of the conversation / voice frame before the previous current conversation / voice frame is generic, and the previous current Algebraic codebook gain of the current conversation / voice frame prior to the current conversation / voice frame preceded by the algebraic codebook gain of the subframe of the conversation / voice frame (Eg, the algebraic codebook gain of the subframe of the previous current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame; Adjacent to the current subframe preceding the algebraic codebook gain of the current subframe of the previous current speech / voice frame (eg, 1, 1.5, 2, 2.5, 3, 3.4, or more than 4 times) Ratio of subframe to algebraic codebook gain, ratio of adaptive codebook gain of current subframe of previous current speech / voice frame to adaptive codebook gain of subframe adjacent to previous current subframe; Or the previous current conversation / voice frame of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame. Adjust (attenuate or reinforce) the adaptive codebook gain of the current subframe of the previous current conversation / voice frame based on at least one of the ratio of the previous speech / voice frame to the algebraic codebook gain The ratio of the algebraic codebook gain of the current subframe of the preceding current speech / voice frame to the algebraic codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to an eleventh threshold value. (The eleventh threshold may be equal to, for example, 2, 2.1, 2.5, 3, or another value), the previous current of the adaptive codebook gain of the current subframe of the previous current speech / voice frame The ratio of the subframes adjacent to the subframe to the adaptive codebook gain is greater than or equal to the twelfth threshold (the twelfth threshold May be equal to, for example, 1, 1.1, 1.5, 2, 2.1, or another value), the previous current conversation / voice of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame The ratio of the speech / voice frame before frame to the algebraic codebook gain is less than or equal to the thirteenth threshold (the thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value). , May augment the adaptive codebook gain of the current subframe of the previous current speech / voice frame)
May be included.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの代数コードブックを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施して、先行する現在の会話/音声フレームの後処理された代数コードブックを取得するステップを含んでもよい。   In another embodiment of the present invention, the preceding current conversation / voice frame conversation / speech decoding parameter comprises an algebraic codebook of the preceding current conversation / speech frame, and X conversations / speech frame conversation / Performing post-processing on the conversation / voice decoding parameters of the previous current conversation / voice frame according to the voice parameters to obtain post-processed conversation / voice decoding parameters of the previous current conversation / voice frame. Performs post-processing on the preceding algebraic codebook of the current speech / voice frame according to at least one of the signal class, algebraic codebook, or spectral torsion factor of the X speech / voice frames, Obtaining a post-processed algebraic codebook for the current conversation / voice frame to be processed.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施するステップは、先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、先行する現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、先行する現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を先行する現在のサブフレームの代数コードブックとして使用するステップを含んでもよい。   For example, performing post-processing on an algebraic codebook of a previous current speech / voice frame according to at least one of the signal class of the X speech / voice frames, an algebraic codebook, or a spectral twist factor, The previous current conversation / voice frame is a redundant decoded frame, the next conversation / voice frame signal class of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the previous speech / voice frame is less than or equal to the eighth threshold and the algebraic codebook of the subframe of the previous current speech / voice frame is 0 or less than or equal to the ninth threshold, Current sub that precedes the algebraic codebook or random noise of the subframe before the previous current speech / voice frame It may include the step of using as the algebraic codebook frame.

第8の閾値および第9の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the eighth threshold value and the ninth threshold value may be set to a different value according to a different application environment or scenario.

例えば第8の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the eighth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第9の閾値を0.1、0.09、0.11、0.07、0.101、0.099、または0に近い別の値に設定してもよい。   For example, the ninth threshold value may be set to 0.1, 0.09, 0.11, 0.07, 0.101, 0.099, or another value close to 0.

第8の閾値が第2の閾値に等しくてもよくまたは等しくなくてもよい。   The eighth threshold may or may not be equal to the second threshold.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの帯域幅拡張エンベロープを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップを含んでもよい。   In another embodiment of the present invention, the conversation / voice decoding parameter of the previous current conversation / voice frame includes a bandwidth extension envelope of the previous current conversation / voice frame, and the conversation of X conversations / voice frames. According to / speech parameters, post-processing is performed on speech / speech decoding parameters of previous current conversation / speech frame to obtain post-processed speech / speech decoding parameters of preceding current conversation / speech frame. Performing the post-processing on the bandwidth extension envelope of the current speech / voice frame preceding according to at least one of the signal class, bandwidth extension envelope, or spectral torsion factor of the X speech / voice frames. Obtaining a post-processed bandwidth extension envelope of the preceding current conversation / voice frame. But good.

例えば、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップが、
先行する現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ、または、
先行する現在の会話/音声フレームが冗長復号化の予測形式である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ、または、
先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップ
を含んでもよい。
For example, performing post-processing on the bandwidth extension envelope of the current conversation / voice frame preceding according to at least one of the signal class of the X speech / voice frames, the bandwidth extension envelope, or the spectral torsion factor, Obtaining a post-processed bandwidth extension envelope of the preceding current conversation / voice frame;
The conversation / voice frame before the previous current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the previous current conversation / voice frame is the current conversation / voice. If it is the same as the signal class of the next conversation / voice frame of the frame, the bandwidth extension envelope of the previous current conversation / voice frame, the previous conversation / voice frame and the previous current conversation / voice frame Obtaining a post-processed bandwidth extension envelope based on the envelope for the previous current speech / voice frame, or
If the previous current conversation / voice frame is in the predictive form of redundant decoding, the bandwidth extension envelope of the previous conversation / voice frame before the previous current conversation / voice frame and the bandwidth of the previous current conversation / voice frame Obtaining a post-processed bandwidth expansion envelope based on the width expansion envelope, after the preceding current speech / voice frame, or
The signal class of the previous current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the conversation / voice frame is less than or equal to the tenth threshold, the previous current conversation / voice frame is expanded according to the previous speech / voice frame bandwidth extension envelope or the spectral torsion factor. The method may include modifying the bandwidth extension envelope of the voice frame to obtain a post-processed bandwidth extension envelope of the preceding current speech / voice frame.

第10の閾値を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第10の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   The tenth threshold may be set to different values according to different application environments or scenarios. For example, the tenth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップが特に、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップを含んでもよい。
GainFrameは先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープであり、GainFrame_oldは先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは先行する現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は先行する現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である。
For example, post-processing of previous current conversation / voice frame based on bandwidth extension envelope of previous conversation / voice frame prior to previous current conversation / voice frame and bandwidth extension envelope of previous current conversation / voice frame The step of obtaining a bandwidth extension envelope that is determined based on the bandwidth extension envelope of the previous conversation / voice frame prior to the previous current conversation / voice frame and the bandwidth extension envelope of the preceding current conversation / voice frame, in particular. And the following equation:
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
To obtain a post-processed bandwidth extension envelope of the preceding current speech / voice frame by using.
GainFrame is the post-processed bandwidth extension envelope of the previous current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the previous current conversation / voice frame, and GainFrame_new is the lead Is the bandwidth extension envelope of the current conversation / speech frame, fac1 is the weight of the bandwidth / envelope extension envelope of the previous conversation / speech frame of the previous current conversation / speech frame, and fac2 is the previous current conversation / speech / The weight of the bandwidth expansion envelope of the voice frame, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1.

別の例として、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための修正因子は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの先行する現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する。   As another example, the correction factor for correcting the bandwidth extension envelope of the preceding current conversation / voice frame is inversely proportional to the spectral twist factor of the conversation / voice frame before the previous current conversation / voice frame, Is proportional to the ratio of the previous conversation / voice frame bandwidth extension envelope to the previous conversation / voice frame bandwidth extension envelope.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームのピッチ区間を含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップが、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って、後処理を先行する現在の会話/音声フレームのピッチ区間に実施して(例えば、補強または減衰のような後処理を、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って先行する現在の会話/音声フレームのピッチ区間に実施してもよい)、先行する現在の会話/音声フレームの後処理されたピッチ区間を取得するステップを含んでもよい。   In another embodiment of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes the pitch interval of the previous current conversation / speech frame, and the conversation / speech of X conversations / speech frames. According to the parameters, post-processing is performed on the conversation / voice decoding parameters of the preceding current conversation / voice frame to obtain post-processed conversation / voice decoding parameters of the preceding current conversation / voice frame. , Post-processing is performed on the preceding speech / voice frame pitch section according to the signal class and / or pitch section of the X conversation / voice frames (eg, post-processing such as reinforcement or attenuation, In the pitch section of the current conversation / voice frame preceding according to the signal class and / or pitch section of the X conversation / voice frames Subjected may be) may include the step of obtaining the processed pitch interval after the preceding the current conversation / speech frame.

上述の説明から、当該実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの復号化パラメータを取得した後、復号器側は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびFEC復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in this embodiment, the current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the current conversation / voice frame is redundantly decoded. In the scenario of a frame, after obtaining the decoding parameters of the current conversation / voice frame, the decoder side performs post-processing according to the conversation / voice parameters of X conversations / voice frames. Perform on speech / speech decoding parameters to obtain post-processed speech / speech decoding parameters for the previous current conversation / speech frame and use post-speech speech decoding parameters for the current conversation / speech frame To restore the conversation / voice signal of the current conversation / voice frame, and the preceding X conversation / voice frames are represented by the preceding current conversation. Includes M conversation / voice frames before voice frame and / or N conversation / voice frames following previous current conversation / voice frame, thereby redundant decoded frame and normal decoding It can be seen that a stable quality of the decoded signal is ensured during the transition between the decoded frames or between the redundant decoded frame and the FEC recovery frame, which increases the quality of the output speech / voice signal. obtain.

上述の説明から、本発明の幾つかの諸実施形態では、無声会話/音声フレームと非無声会話/音声フレームの間の遷移中に(例えば、現在の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが非無声信号タイプの正規の復号化されたフレームであるとき、または現在の会話/音声フレームが非無声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、無声会話/音声フレームと非無声会話/音声フレームの間のフレーム間遷移中に生ずるクリック(click)現象の回避が支援され、それにより、出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in some embodiments of the present invention, during a transition between unvoiced / voice frames and non-voiced / voice frames (eg, the current conversation / voice frame is a redundant voice class). A decoded frame, when the current conversation / voice frame is a normal decoded frame of the non-silent signal type, or the current conversation / voice frame is non-silent A regular decoded frame of the signal class and when the current conversation / voice frame is the previous or next conversation / voice frame is a redundant decoded frame of the unvoiced signal class), the post-processing is the current Performed on the conversation / voice decoding parameters of the conversation / voice frame so that it is generated during the inter-frame transition between the silent conversation / voice frame and the non-voiceless conversation / voice frame. That avoidance of click (click) phenomenon is support, thereby, it can be seen that the quality of the output conversation / audio signal is increased.

本発明の他の実施形態では、汎用的な会話/音声フレームと有声の会話/音声フレームの間の遷移中に(現在のフレームが汎用フレームであり冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであるとき、または、現在の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが汎用信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、汎用フレームと有声フレームの間の遷移中に生ずるエネルギ不安定現象の矯正が支援され、これにより出力会話/音声信号の品質が高まる。   In another embodiment of the present invention, during a transition between a generic conversation / voice frame and a voiced conversation / voice frame (the current frame is a generic frame and a redundant decoded frame, When the previous / next conversation / voice frame is a regular decoded frame of the voiced signal class or when the current conversation / voice frame is a regular decoded frame of the voiced signal class Yes, when the previous conversation / voice frame of the current conversation / voice frame or the next conversation / voice frame is a redundant decoded frame of the general signal class), the post-processing is the conversation / voice decoding parameters of the current conversation / voice frame. This assists in correcting energy instability phenomena that occur during transitions between general-purpose frames and voiced frames, thereby providing output speech / voice signals. Quality is enhanced.

本発明のさらに他の実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であるとき、現在のフレームの帯域幅拡張エンベロープを調節して、時間領域帯域幅拡張におけるエネルギ不安定現象を矯正し、出力会話/音声信号の品質を高める。   In yet another embodiment of the invention, the current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and When the signal class of the speech / voice frame is silence, the bandwidth extension envelope of the current frame is adjusted to correct the energy instability phenomenon in the time domain bandwidth extension and improve the quality of the output speech / voice signal.

本発明の1実施形態ではさらに、上述の解決策を実装するための関連装置を提供する。   One embodiment of the present invention further provides an associated apparatus for implementing the above solution.

図3を参照すると、本発明の1実施形態では、会話/音声ビットストリームを復号化するための復号器300を提供する。復号器300は、パラメータ取得ユニット310、後処理ユニット320、および復元ユニット330を含んでもよい。   Referring to FIG. 3, one embodiment of the present invention provides a decoder 300 for decoding a conversation / voice bitstream. The decoder 300 may include a parameter acquisition unit 310, a post-processing unit 320, and a restoration unit 330.

パラメータ取得ユニット310は、現在の会話/音声フレームの会話/音声復号化パラメータを取得するように構成される。先行する現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、先行する現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームである。   The parameter acquisition unit 310 is configured to acquire conversation / voice decoding parameters for the current conversation / voice frame. The previous current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame.

先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるとき、現在の会話/音声フレームが、正規の復号化されたフレーム、冗長な復号化されたフレーム、またはFEC復元フレームであってもよい。   When the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame is a regular decoded frame, a redundant decoded frame. Or an FEC recovery frame.

後処理ユニット320は、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するように構成される。先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である。   The post-processing unit 320 performs post-processing on the previous current conversation / voice frame conversation / voice decoding parameters according to the conversation / voice parameters of the X conversation / voice frames, and the previous current conversation / voice. It is configured to obtain post-processed speech / speech decoding parameters for the frame. The preceding X conversation / voice frames are the M conversation / voice frames before the previous current conversation / voice frame and / or the N conversation / voice frames next to the previous current conversation / voice frame. M and N are positive integers.

復元ユニット330は、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって、先行する現在の会話/音声フレームの会話/音声信号を復元するように構成される。   The recovery unit 330 is configured to recover the conversation / voice signal of the previous current conversation / voice frame by using post-processed conversation / voice decoding parameters of the previous current conversation / voice frame. .

会話/音声フレーム(例えば、現在の会話/音声フレームまたは現在の会話/音声フレームの前の会話/音声フレーム)が正規の復号化されたフレームであることは、先行する会話/音声フレームの会話/音声パラメータ等を当該会話/音声フレームのビットストリームから復号化により直接得ることができることを意味する。会話/音声フレーム(例えば、現在の会話/音声フレームまたは現在の会話/音声フレームの前の会話/音声フレーム)が冗長な復号化されたフレームであることは、当該会話/音声フレームの会話/音声パラメータ等を復号化により当該会話/音声フレームのビットストリームから直接得ることはできないが、当該会話/音声フレームの冗長なビットストリーム情報を別の会話/音声フレームのビットストリームから得ることができることを意味する。   The fact that the conversation / voice frame (eg, the current conversation / voice frame or the conversation / voice frame before the current conversation / voice frame) is a regular decoded frame indicates that the previous conversation / voice frame conversation / This means that voice parameters and the like can be obtained directly from the bit stream of the conversation / voice frame by decoding. That a conversation / voice frame (eg, the current conversation / voice frame or the conversation / voice frame before the current conversation / voice frame) is a redundant decoded frame indicates that the conversation / voice of the conversation / voice frame This means that parameters or the like cannot be obtained directly from the bit stream of the conversation / voice frame by decoding, but redundant bit stream information of the conversation / voice frame can be obtained from the bit stream of another conversation / voice frame. To do.

現在の会話/音声フレームの前のM個の会話/音声フレームとは、現在の会話/音声フレームに先行し時間領域内の現在の会話/音声フレームのすぐ隣のM個の会話/音声フレームのことをいう。   The M conversations / voice frames before the current conversation / voice frame are those of the M conversations / voice frames immediately preceding the current conversation / voice frame and immediately adjacent to the current conversation / voice frame in the time domain. That means.

例えば、Mが1、2、3、または別の値に等しくてもよい。M=1であるとき、現在の会話/音声フレームの前のM個の会話/音声フレームは現在の会話/音声フレームの前の会話/音声フレームであり、現在の会話/音声フレームの前の会話/音声フレームおよび現在の会話/音声フレームは2つのすぐ隣の会話/音声フレームであり、M=2であるとき、現在の会話/音声フレームの前のM個の会話/音声フレームは現在の会話/音声フレームの前の会話/音声フレーム、現在の会話/音声フレームの前の会話/音声フレームの前の会話/音声フレームであり、現在の会話/音声フレームの前の会話/音声フレーム、現在の会話/音声フレームの前の会話/音声フレームの前の会話/音声フレーム、および現在の会話/音声フレームは3つのすぐ隣の会話/音声フレームである等である。   For example, M may be equal to 1, 2, 3, or another value. When M = 1, the M conversations / voice frames before the current conversation / voice frame are the conversation / voice frames before the current conversation / voice frame, and the conversation before the current conversation / voice frame. / Speech frame and current conversation / speech frame are two immediately adjacent conversations / speech frames, and when M = 2, the M conversations / speech frames before the current conversation / speech frame are current conversations / Conversation before voice frame / voice frame, current conversation / conversation before voice frame / conversation before voice frame / voice frame, conversation / voice frame before current conversation / voice frame, current The conversation / speech frame before the conversation / speech frame / speech / speech frame before the speech frame, and the current conversation / speech frame are the three immediately adjacent conversation / speech frames, and so on.

現在の会話/音声フレームの次のN個の会話/音声フレームとは、現在の会話/音声フレームに続き時間領域内の現在の会話/音声フレームのすぐ隣のN個の会話/音声フレームのことをいう。   The next N conversation / voice frames after the current conversation / voice frame are the N conversation / voice frames immediately following the current conversation / voice frame in the time domain following the current conversation / voice frame. Say.

例えば、Nが1、2、3、4、または別の値に等しくてもよい。N=1であるとき、現在の会話/音声フレームの次のN個の会話/音声フレームは現在の会話/音声フレームの次の会話/音声フレームであり、現在の会話/音声フレームの次の会話/音声フレームおよび現在の会話/音声フレームは2つのすぐ隣の会話/音声フレームであり、N=2であるとき、現在の会話/音声フレームの次のN個の会話/音声フレームは現在の会話/音声フレームの次の会話/音声フレームおよび現在の会話/音声フレームの次の会話/音声フレームの次の会話/音声フレームであり、現在の会話/音声フレームの次の会話/音声フレーム、現在の会話/音声フレームの次の会話/音声フレームの次の会話/音声フレーム、および現在の会話/音声フレームは3つのすぐ隣の会話/音声フレームである等である。   For example, N may be equal to 1, 2, 3, 4, or another value. When N = 1, the next N conversation / voice frames of the current conversation / voice frame are the next conversation / voice frame of the current conversation / voice frame, and the next conversation of the current conversation / voice frame. / Speech frame and current conversation / speech frame are two immediate neighbors / speech frames, and when N = 2, the next N conversations / speech frames of the current conversation / speech frame are the current conversation / Next conversation of voice frame / voice frame and current conversation / next conversation of voice frame / next conversation / voice frame of voice frame, next conversation / voice frame of current conversation / voice frame, current The next conversation / voice frame of the next conversation / voice frame of the conversation / voice frame, the current conversation / voice frame are the three immediately next conversation / voice frames, and so on.

当該会話/音声復号化パラメータは、以下のパラメータ、即ち、帯域幅拡張エンベロープ、適応的コードブック利得(gain_pit)、代数コードブック、ピッチ区間、スペクトル捩れ因子、スペクトル対パラメータ等のうち少なくとも1つを含んでもよい。   The speech / speech decoding parameter includes at least one of the following parameters: bandwidth extension envelope, adaptive codebook gain (gain_pit), algebraic codebook, pitch interval, spectrum twist factor, spectrum pair parameter, etc. May be included.

当該会話/音声パラメータは、会話/音声復号化パラメータ、信号クラス等を含んでもよい。   The conversation / speech parameters may include conversation / speech decoding parameters, signal classes, and the like.

会話/音声フレームの信号クラスが、無声、有声、汎用、遷移、不活性等であってもよい。   The signal class of the conversation / voice frame may be unvoiced, voiced, general purpose, transition, inactive, etc.

当該スペクトル対パラメータが、例えば、線スペクトル対(LSP)パラメータまたはイミタンス・スペクトル対(ISP)パラメータのうち少なくとも1つであってもよい。   The spectrum pair parameter may be, for example, at least one of a line spectrum pair (LSP) parameter or an immittance spectrum pair (ISP) parameter.

本発明の当該実施形態では、後処理ユニット320が、帯域幅拡張エンベロープ、適応的コードブック利得、代数コードブック、ピッチ区間、または現在の会話/音声フレームのスペクトル対パラメータのうち少なくとも1つの会話/音声復号化パラメータに後処理を実施してもよいことは理解されうる。具体的には、どれだけ多くのパラメータおよびどのパラメータが後処理に選択されるかを適用シナリオおよび適用環境に従って決定してもよく、本発明の当該実施形態では限定されない。   In this embodiment of the invention, the post-processing unit 320 has at least one conversation / parameter of bandwidth extension envelope, adaptive codebook gain, algebraic codebook, pitch interval, or spectrum / parameter of the current conversation / voice frame. It can be appreciated that post-processing may be performed on the speech decoding parameters. Specifically, how many parameters and which parameters are selected for post-processing may be determined according to the application scenario and application environment, and is not limited in this embodiment of the invention.

後処理ユニット320が異なる後処理を異なる会話/音声復号化パラメータに実施してもよい。例えば、後処理ユニット320により現在の会話/音声フレームのスペクトル対パラメータに実施される後処理が、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを用いて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得することによって実施される適合的重み付けであってもよく、後処理ユニット320により現在の会話/音声フレームの適応的コードブック利得に実施される後処理が、適応的コードブック利得に実施される減衰のような調整であってもよい。   Post processing unit 320 may perform different post processing on different conversation / voice decoding parameters. For example, the post processing performed by the post processing unit 320 on the spectrum / parameter of the current conversation / voice frame may include the spectrum / parameter of the current conversation / voice frame and It may be adaptive weighting performed by obtaining a post-processed spectrum pair parameter for the current speech / voice frame using the spectrum pair parameter, and the post-processing unit 320 may The post-processing performed on the adaptive codebook gain may be an adjustment such as attenuation performed on the adaptive codebook gain.

具体的な後処理方式は後処理ユニット320の本発明の当該実施形態では限定されず、具体的な後処理を、要件に従ってまたは適用環境および適用シナリオに従って設定してもよい。   The specific post-processing method is not limited in this embodiment of the present invention of the post-processing unit 320, and the specific post-processing may be set according to the requirements or according to the application environment and the application scenario.

本発明の幾つかの諸実施形態では、後処理ユニット320を特に、先行する現在の会話/音声フレームの会話/音声復号化パラメータが先行する現在の会話/音声フレームのスペクトル対パラメータを含むとき、当該X個の会話/音声フレームのスペクトル対パラメータ、適応的コードブック利得、スペクトル捩れ因子、または信号クラスのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成してもよい。   In some embodiments of the present invention, the post-processing unit 320, particularly when the preceding current conversation / voice frame speech / voice decoding parameters include the preceding current conversation / voice frame spectrum pair parameters, Perform post-processing on the spectrum pair parameters of the previous current speech / voice frame according to at least one of the spectrum pair parameters, adaptive codebook gain, spectrum twist factor, or signal class of the X speech / voice frames. Thus, it may be configured to obtain post-processed spectrum pair parameters for the previous current speech / voice frame.

本発明の幾つかの諸実施形態では、当該X個の会話/音声フレームのスペクトル対パラメータ、適応的コードブック利得、スペクトル捩れ因子、または信号クラスのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、上述の後処理ユニットは特に、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、先行する現在の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する
ように構成される。
In some embodiments of the present invention, the current pre-processing is performed according to at least one of a spectrum pair parameter, an adaptive codebook gain, a spectral twist factor, or a signal class of the X speech / voice frames. In the aspect of performing on the spectral pair parameters of the previous speech / voice frame to obtain the post-processed spectral pair parameters of the preceding current speech / voice frame,
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation If the signal class of the voice / voice frame is silent and the previous voice / speech of the previous voice / voice frame is not silent, the current current preceded spectrum / parameter of the previous current voice / voice frame As a post-processed spectrum pair parameter of the current speech / speech frame or a post-processed spectrum pair of the previous current talk / speech frame based on the spectrum pair parameter of the previous current speech / speech frame Get the parameters, or
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation / If the signal class of the voice frame is silence and the previous current conversation / conversation before the voice frame / the signal class of the voice frame is not silence, then the spectrum / parameter of the current conversation / voice frame and the previous current conversation Obtain a post-processed spectrum pair parameter for the previous current conversation / speech frame based on the spectrum pair parameter for the previous speech / speech frame / speech frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Use the previous speech / voice frame spectrum pair parameter as the post-processed spectrum pair parameter of the previous current conversation / voice frame, Obtain a post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum / parameter of the previous conversation / voice frame prior to the previous current conversation / voice frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame If the current signal class is silent, the previous current conversation / speech frame spectrum pair parameter and the previous current conversation / speech frame previous speech / speech frame spectrum pair parameter / Obtain post-processed spectrum pair parameters for speech frames, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold Use the spectrum / parameter of the previous conversation / voice frame prior to the previous current conversation / voice frame as the post-processed spectrum pair parameter of the previous current conversation / voice frame, or Post processing of previous current conversation / voice frame based on spectrum / parameters of previous speech / voice frame spectrum of voice frame Acquires spectral pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold A post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum pair parameter of the current conversation / voice frame and the spectrum pair parameter of the previous conversation / voice frame of the previous current conversation / voice frame Or get
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Is silent, the maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the previous current conversation / voice frame is less than or equal to the third threshold, and the previous current conversation / voice frame If the spectral torsion factor of the previous conversation / voice frame is less than or equal to the fourth threshold, the spectrum / parameters of the previous conversation / voice frame prior to the current conversation / voice frame preceding the current conversation / voice frame Used as a post-processed spectrum pair parameter or the speech / speech frame spec before the previous current speech / speech frame. Either obtain the spectral pairs parameters processed after the current conversation / speech frame preceding based on Torr pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Signal class is silent, the previous conversation of the previous current conversation / speech frame, the maximum value of the adaptive codebook gain of the subframe within the speech / speech frame is less than or equal to the third threshold, and the preceding current conversation / Conversation before speech frame / If the spectral torsion factor of speech frame is less than or equal to the fourth threshold, the previous current conversation / spectrum frame parameter of the speech frame and the preceding current conversation / conversation before speech frame / Based on the spectrum pair parameter of the voice frame, the post-processed spectrum pair parameter of the preceding current speech / voice frame is obtained. Configured to.

本発明の幾つかの諸実施形態では、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、上述の後処理ユニット320は特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成される。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は先行する現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは先行する現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である。
In some embodiments of the present invention, the previous current speech / speech frame spectrum pair parameter and the previous current speech / speech frame previous speech / speech frame spectrum pair parameter In the aspect of obtaining a post-processed spectrum pair parameter for a speech / voice frame, the post-processing unit 320 described above specifically includes the spectrum pair parameter for the preceding current conversation / voice frame and the preceding current conversation / voice frame before. And the following formula:
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Is used to obtain post-processed spectrum pair parameters for the previous current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_mid [k] is the intermediate value of the spectrum / parameter of the previous current conversation / voice frame, lsp_new [k] is the spectrum / parameter of the previous current conversation / voice frame, and L is the spectrum vs. parameter Where α is the spectrum / parameter weight of the previous conversation / voice frame prior to the previous current conversation / voice frame, and β is the weight of the intermediate value of the spectrum / parameter of the previous current conversation / voice frame. Yes, δ is the spectrum-versus-parameter weight of the previous current speech / voice frame, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1 ,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than or equal to the fifth threshold, or
If the previous current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is less than or equal to a sixth threshold, or
If the previous current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than or equal to the seventh threshold, or
If the previous current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is less than or equal to the sixth threshold, and δ is equal to 0, or δ is the seventh Or less.

本発明の他の実施形態では、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、上述の後処理ユニット320は特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成される。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、δ≧0、およびα+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である。
In another embodiment of the present invention, the preceding current conversation / speech frame spectrum pair parameter and the preceding current conversation / speech frame previous speech / speech frame spectrum pair parameter In the aspect of obtaining a post-processed spectrum pair parameter of a speech frame, the post-processing unit 320 described above specifically includes the spectrum pair parameter of the previous current conversation / voice frame and the previous conversation of the previous current conversation / voice frame. / Based on the spectrum vs. parameters of the speech frame and the following formula:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Is used to obtain post-processed spectrum pair parameters for the previous current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_new [k] is the spectrum versus parameter of the previous current conversation / voice frame, L is the order of the spectrum versus parameter, and α is the spectrum of the conversation / voice frame before the previous current conversation / voice frame. Is the weight of the pair parameter, δ is the spectrum pair parameter weight of the previous current speech / voice frame, α ≧ 0, δ ≧ 0, and α + δ = 1,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than or equal to the fifth threshold, or
If the previous current speech / voice frame is a redundant decoded frame, δ is equal to 0 or δ is less than or equal to the seventh threshold.

第5の閾値、第6の閾値、および第7の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第5の閾値の値が0に近くてもよい。例えば、第5の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第6の閾値の値が0に近くてもよい。例えば、第6の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第7の閾値の値が0に近くてもよい。例えば、第7の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよい。   Each of the fifth threshold, the sixth threshold, and the seventh threshold may be set to different values according to different application environments or scenarios. For example, the value of the fifth threshold may be close to 0. For example, the fifth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the sixth threshold value may be close to 0. For example, the sixth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the seventh threshold value may be close to 0. For example, the seventh threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0.

第1の閾値、第2の閾値、第3の閾値、および第4の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the first threshold value, the second threshold value, the third threshold value, and the fourth threshold value may be set to different values according to different application environments or scenarios.

例えば第1の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the first threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第2の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the second threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第3の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the third threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第4の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the fourth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

第1の閾値が第3の閾値に等しくてもよくまたは等しくなくてもよく、第2の閾値が第4の閾値に等しくてもよくまたは等しくなくてもよい。   The first threshold may or may not be equal to the third threshold, and the second threshold may or may not be equal to the fourth threshold.

本発明の幾つかの諸実施形態では、上述の後処理ユニット320は特に、現在の会話/音声フレームの会話/音声復号化パラメータが先行する現在の会話/音声フレームの適応的コードブック利得を含むとき、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施して、先行する現在の会話/音声フレームの後処理された適応的コードブック利得を取得するように構成される。   In some embodiments of the present invention, the post-processing unit 320 described above specifically includes the adaptive codebook gain of the current conversation / voice frame preceded by the conversation / voice decoding parameters of the current conversation / voice frame. The post-processing is preceded by the adaptive codebook gain of the current speech / speech frame according to at least one of the signal class of the X speech / speech frames, the algebraic codebook gain, or the adaptive codebook gain. Implemented and configured to obtain a post-processed adaptive codebook gain for the previous current speech / voice frame.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施する態様において、上述の後処理ユニットは特に、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、先行する現在のサブフレームの適応的コードブック利得を減衰させるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合、先行する現在のサブフレームの適応的コードブック利得を減衰させるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節する
するように構成される。
For example, according to at least one of the signal class of the X speech / voice frames, the algebraic codebook gain, or the adaptive codebook gain, the adaptive codebook gain of the current speech / voice frame preceding the post-processing is set. In an embodiment to be implemented, the above-mentioned post-processing unit is in particular
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next two conversations / Algebra of current conversation / voice frame preceding current conversation / voice frame preceded by algebraic codebook gain of at least one signal class of voice frames that is silent and preceding current conversation / voice frame If it is greater than or equal to the codebook gain, attenuate the adaptive codebook gain of the previous current subframe, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next two conversations / At least one signal class of speech frames is silent and the algebraic codebook gain of the current subframe of the preceding current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the preceding current subframe Or attenuate the adaptive codebook gain of the previous current subframe, or
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, before the previous current conversation / voice frame If the current conversation / voice frame is a redundant decoded frame, and the signal class of the previous current conversation / voice frame is generic and the next conversation / voice of the previous current conversation / voice frame If the signal class of the frame is voiced and the algebraic codebook gain of the subframe of the previous current conversation / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the previous subframe, the previous current conversation / Algebraic code of the subframe adjacent to the current subframe preceding the algebraic codebook gain of the current subframe of the speech frame The ratio to the adaptive codebook gain of the subframe adjacent to the previous current subframe, or the previous current Current conversation preceding based on at least one of the ratio of the algebraic codebook gain of the current subframe of the conversation / voice frame to the previous current conversation / conversation of the voice frame / the algebraic codebook gain of the voice frame. / Adjust the adaptive codebook gain for the current subframe of the voice frame, or
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, before the previous current conversation / voice frame If the current conversation / voice frame is a redundant decoded frame, and the signal class of the previous current conversation / voice frame is generic and the next conversation / voice of the previous current conversation / voice frame If the signal class of the frame is voiced and the algebraic codebook gain of the subframe of the previous current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current voice / voice frame A sub-adjacent to the current subframe preceding the algebraic codebook gain of the current subframe of the previous current speech / voice frame. The ratio of the frame to the algebraic codebook gain, the ratio of the adaptive codebook gain of the current subframe of the previous current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the previous current subframe, or Preceding based on at least one of the ratios of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame. Adjust the adaptive codebook gain of the current subframe of the current speech / voice frame to be
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, before the previous current conversation / voice frame The conversation / voice frame is a redundant decoded frame, and the preceding current conversation / voice frame is voiced, and the conversation / voice frame signal class before the preceding current conversation / voice frame Is the generic and the current speech / voice frame of the previous current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the previous subframe. The algebraic codebook gain of the subframe adjacent to the current subframe preceding the algebraic codebook gain of the current subframe The ratio of the adaptive codebook gain of the current subframe of the previous current conversation / voice frame to the adaptive codebook gain of the subframe adjacent to the previous current subframe, or the previous current conversation / Preceding current conversation / speech based on at least one ratio of algebraic codebook gain of current subframe of speech frame to preceding current speech / speech of speech frame / algebraic codebook gain of speech frame Adjust the adaptive codebook gain of the current subframe of the frame, or
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, before the previous current conversation / voice frame If the current conversation / voice frame is a redundant decoded frame and the signal class of the previous current conversation / voice frame is voiced, the previous conversation / voice frame before the previous current conversation / voice frame Signal class is generic and the algebraic codebook gain of the subframe of the previous current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame A sub-adjacent to the current subframe preceding the algebraic codebook gain of the current subframe of the previous current speech / voice frame. The ratio of the frame to the algebraic codebook gain, the ratio of the adaptive codebook gain of the current subframe of the previous current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the previous current subframe, or Preceding based on at least one of the ratios of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame. Configured to adjust the adaptive codebook gain of the current subframe of the current speech / voice frame.

本発明の幾つかの諸実施形態では、上述の後処理ユニット320は特に、先行する現在の会話/音声フレームの会話/音声復号化パラメータが先行する現在の会話/音声フレームの代数コードブックを含むとき、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施して、先行する現在の会話/音声フレームの後処理された代数コードブックを取得するように構成される。   In some embodiments of the present invention, the post-processing unit 320 described above specifically includes an algebraic codebook of the current conversation / voice frame preceded by the conversation / voice decoding parameters of the preceding current conversation / voice frame. A post-processing is performed on the preceding algebraic codebook of the current speech / speech frame according to at least one of the signal class of the X speech / speech frames, an algebraic codebook, or a spectral torsion factor. Configured to obtain a post-processed algebraic codebook for the current conversation / speech frame.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施する態様において、上述の後処理ユニット320は特に、先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、先行する現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、先行する現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を先行する現在のサブフレームの代数コードブックとして使用するように構成される。   For example, in an aspect in which post-processing is performed on an algebraic codebook of a preceding current speech / voice frame according to at least one of the signal class of the X speech / voice frames, an algebraic codebook, or a spectral torsion factor, In particular, the post-processing unit 320 described above is a decoded frame in which the previous current conversation / voice frame is a redundant decoded frame, and the signal class of the next conversation / voice frame after the previous current conversation / voice frame is silent. The spectral torsion factor of the previous conversation / voice frame before the previous current conversation / voice frame is less than or equal to the eighth threshold and the algebraic codebook of the subframe of the previous current conversation / voice frame is zero or If it is less than or equal to the ninth threshold, the algebraic codebook of the subframe before the previous current speech / voice frame It is configured to use as the algebraic codebook of the current sub-frame preceding the random noise.

第8の閾値および第9の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the eighth threshold value and the ninth threshold value may be set to a different value according to a different application environment or scenario.

例えば第8の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the eighth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第9の閾値を0.1、0.09、0.11、0.07、0.101、0.099、または0に近い別の値に設定してもよい。   For example, the ninth threshold value may be set to 0.1, 0.09, 0.11, 0.07, 0.101, 0.099, or another value close to 0.

第8の閾値が第2の閾値に等しくてもよくまたは等しくなくてもよい。   The eighth threshold may or may not be equal to the second threshold.

本発明の幾つかの諸実施形態では、上述の後処理ユニット320は特に、先行する現在の会話/音声フレームの会話/音声復号化パラメータが先行する現在の会話/音声フレームの帯域幅拡張エンベロープを含むとき、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するように構成される。   In some embodiments of the present invention, the post-processing unit 320 described above specifically includes the bandwidth extension envelope of the current conversation / voice frame preceded by the conversation / voice decoding parameter of the preceding current conversation / voice frame. When included, post-processing is performed on the bandwidth extension envelope of the previous current speech / voice frame according to at least one of the signal class, bandwidth extension envelope, or spectral torsion factor of the X speech / voice frames. Is configured to obtain a post-processed bandwidth extension envelope for the current speech / voice frame preceding the current one.

例えば、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、上述の後処理ユニットは特に、
先行する現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するか、または、
先行する現在の会話/音声フレームが冗長復号化の予測形式である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するか、または、
先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する
ように構成される。
For example, performing post-processing on the bandwidth extension envelope of the current conversation / voice frame preceding according to at least one of the signal class of the X speech / voice frames, the bandwidth extension envelope, or the spectral torsion factor, In the aspect of obtaining a post-processed bandwidth extension envelope of the preceding current speech / voice frame, the post-processing unit described above in particular
The conversation / voice frame before the previous current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the previous current conversation / voice frame is the current conversation / voice. If it is the same as the signal class of the next conversation / voice frame of the frame, the bandwidth extension envelope of the previous current conversation / voice frame, the previous conversation / voice frame and the previous current conversation / voice frame Based on the envelope, obtain a post-processed bandwidth extension envelope of the previous current conversation / voice frame, or
If the previous current conversation / voice frame is in the predictive form of redundant decoding, the bandwidth extension envelope of the previous conversation / voice frame before the previous current conversation / voice frame and the bandwidth of the previous current conversation / voice frame Obtain a post-processed bandwidth expansion envelope based on the width expansion envelope, or post-processed previous current speech / voice frame, or
The signal class of the previous current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the conversation / voice frame is less than or equal to the tenth threshold, the previous current conversation / voice frame is expanded according to the previous speech / voice frame bandwidth extension envelope or the spectral torsion factor. It is configured to modify the bandwidth extension envelope of the voice frame to obtain a post-processed bandwidth extension envelope of the preceding current speech / voice frame.

第10の閾値を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第10の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   The tenth threshold may be set to different values according to different application environments or scenarios. For example, the tenth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、上述の後処理ユニット320は特に、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するように構成される。
GainFrameは先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープであり、GainFrame_oldは先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは先行する現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は先行する現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である。
For example, post-processing of previous current conversation / voice frame based on bandwidth extension envelope of previous conversation / voice frame prior to previous current conversation / voice frame and bandwidth extension envelope of previous current conversation / voice frame In the aspect of obtaining the determined bandwidth extension envelope, the post-processing unit 320 described above specifically includes the bandwidth extension envelope of the conversation / voice frame prior to the previous current conversation / voice frame and the previous current conversation / voice frame. And the following equation:
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
Is used to obtain a post-processed bandwidth extension envelope of the preceding current speech / voice frame.
GainFrame is the post-processed bandwidth extension envelope of the previous current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the previous current conversation / voice frame, and GainFrame_new is the lead Is the bandwidth extension envelope of the current conversation / speech frame, fac1 is the weight of the bandwidth / envelope extension envelope of the previous conversation / speech frame of the previous current conversation / speech frame, and fac2 is the previous current conversation / speech / The weight of the bandwidth expansion envelope of the voice frame, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1.

別の例として、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための上述の後処理ユニット320により使用される修正因子は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの先行する現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する。   As another example, the correction factor used by the post-processing unit 320 described above to modify the bandwidth extension envelope of the previous current conversation / voice frame is the conversation / voice before the previous current conversation / voice frame. It is inversely proportional to the spectral torsion factor of the frame and is proportional to the ratio of the previous current conversation / voice frame to the previous speech / voice frame bandwidth extension envelope to the previous current conversation / voice frame bandwidth extension envelope.

本発明の幾つかの諸実施形態では、上述の後処理ユニット320は特に、先行する現在の会話/音声フレームの会話/音声復号化パラメータが先行する現在の会話/音声フレームのピッチ区間を含むとき、当該X個の会話/音声フレームの信号クラスまたはピッチ区間のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのピッチ区間に実施して、先行する現在の会話/音声フレームの後処理されたピッチ区間を取得するように構成される。   In some embodiments of the invention, the post-processing unit 320 described above is particularly when the speech / speech decoding parameter of the preceding current conversation / voice frame includes the preceding current conversation / voice frame pitch interval. , Performing post-processing on the pitch section of the preceding current conversation / voice frame according to at least one of the signal class or pitch section of the X conversation / voice frames, A post-processed pitch interval is configured to be acquired.

当該実施形態における復号器300の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは説明しない。復号器300が、会話を出力する必要がある任意の装置、例えば、ノートブック・コンピュータ、タブレット・コンピュータ、またはパーソナル・コンピュータ、または携帯電話のようなデバイスであってもよい。   It can be appreciated that the functionality of the functional modules of the decoder 300 in this embodiment may be implemented in particular according to the method in the method embodiment described above. For the specific implementation process, please refer to the related description of the method embodiments described above. Details are not described here. Decoder 300 may be any device that needs to output a conversation, such as a notebook computer, tablet computer, or personal computer, or a device such as a mobile phone.

上述の説明から、当該実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの復号化パラメータを取得した後、復号器側は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびFEC復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in this embodiment, the current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the current conversation / voice frame is redundantly decoded. In the scenario of a frame, after obtaining the decoding parameters of the current conversation / voice frame, the decoder side performs post-processing according to the conversation / voice parameters of X conversations / voice frames. Perform on speech / speech decoding parameters to obtain post-processed speech / speech decoding parameters for the previous current conversation / speech frame and use post-speech speech decoding parameters for the current conversation / speech frame To restore the conversation / voice signal of the current conversation / voice frame, and the preceding X conversation / voice frames are represented by the preceding current conversation. Includes M conversation / voice frames before voice frame and / or N conversation / voice frames following previous current conversation / voice frame, thereby redundant decoded frame and normal decoding It can be seen that a stable quality of the decoded signal is ensured during the transition between the decoded frames or between the redundant decoded frame and the FEC recovery frame, which increases the quality of the output speech / voice signal. obtain.

上述の説明から、本発明の幾つかの諸実施形態では、無声会話/音声フレームと非無声会話/音声フレームの間の遷移中に(例えば、現在の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが非無声信号タイプの正規の復号化されたフレームであるとき、または現在の会話/音声フレームが非無声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、無声会話/音声フレームと非無声会話/音声フレームの間のフレーム間遷移中に生ずるクリック(click)現象の回避が支援され、それにより、出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in some embodiments of the present invention, during a transition between unvoiced / voice frames and non-voiced / voice frames (eg, the current conversation / voice frame is a redundant voice class). A decoded frame, when the current conversation / voice frame is a normal decoded frame of the non-silent signal type, or the current conversation / voice frame is non-silent A regular decoded frame of the signal class and when the current conversation / voice frame is the previous or next conversation / voice frame is a redundant decoded frame of the unvoiced signal class), the post-processing is the current Performed on the conversation / voice decoding parameters of the conversation / voice frame so that it is generated during the inter-frame transition between the silent conversation / voice frame and the non-voiceless conversation / voice frame. That avoidance of click (click) phenomenon is support, thereby, it can be seen that the quality of the output conversation / audio signal is increased.

本発明の他の実施形態では、汎用的な会話/音声フレームと有声の会話/音声フレームの間の遷移中に(現在のフレームが汎用フレームであり冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであるとき、または、現在の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが汎用信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、汎用フレームと有声フレームの間の遷移中に生ずるエネルギ不安定現象の矯正が支援され、これにより出力会話/音声信号の品質が高まる。   In another embodiment of the present invention, during a transition between a generic conversation / voice frame and a voiced conversation / voice frame (the current frame is a generic frame and a redundant decoded frame, When the previous / next conversation / voice frame is a regular decoded frame of the voiced signal class or when the current conversation / voice frame is a regular decoded frame of the voiced signal class Yes, when the previous conversation / voice frame of the current conversation / voice frame or the next conversation / voice frame is a redundant decoded frame of the general signal class), the post-processing is the conversation / voice decoding parameters of the current conversation / voice frame. This assists in correcting energy instability phenomena that occur during transitions between general-purpose frames and voiced frames, thereby providing output speech / voice signals. Quality is enhanced.

本発明のさらに他の実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であるとき、現在のフレームの帯域幅拡張エンベロープを調節して、時間領域帯域幅拡張におけるエネルギ不安定現象を矯正し、出力会話/音声信号の品質を高める。   In yet another embodiment of the invention, the current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and When the signal class of the speech / voice frame is silence, the bandwidth extension envelope of the current frame is adjusted to correct the energy instability phenomenon in the time domain bandwidth extension and improve the quality of the output speech / voice signal.

図4を参照すると、図4は本発明の1実施形態に従う復号器400の略図である。復号器400は、少なくとも1つのバス401、バス401に接続された少なくとも1つのプロセッサ402、およびバス401に接続された少なくとも1つのメモリ403を含んでもよい。   Referring to FIG. 4, FIG. 4 is a schematic diagram of a decoder 400 according to an embodiment of the present invention. Decoder 400 may include at least one bus 401, at least one processor 402 connected to bus 401, and at least one memory 403 connected to bus 401.

バス401を用いることによって、メモリ403に格納されたコードを起動することによって、プロセッサ402は、現在の会話/音声フレームの会話/音声復号化パラメータを取得し、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって、先行する現在の会話/音声フレームの会話/音声信号を復元するように構成される。先行する現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、先行する現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームであり、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である。   By using the bus 401 to activate the code stored in the memory 403, the processor 402 obtains the conversation / voice decoding parameters for the current conversation / voice frame and X conversations / voice frame conversation. According to / speech parameters, post-processing is performed on the preceding current conversation / speech frame speech / speech decoding parameters to obtain post-processed speech / speech decoding parameters of the preceding current conversation / speech frame. The speech / voice signal of the previous current conversation / voice frame is recovered by using post-processed conversation / voice decoding parameters of the previous current conversation / voice frame. The previous current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame and precedes X conversations / voice frames include M conversations / voice frames before the previous current conversation / voice frame and / or N conversations / voice frames next to the previous current conversation / voice frame. , M and N are positive integers.

当該会話/音声復号化パラメータは、以下のパラメータ、即ち、帯域幅拡張エンベロープ、適応的コードブック利得(gain_pit)、代数コードブック、ピッチ区間、スペクトル捩れ因子、スペクトル対パラメータ等のうち少なくとも1つを含んでもよい。   The speech / speech decoding parameter includes at least one of the following parameters: bandwidth extension envelope, adaptive codebook gain (gain_pit), algebraic codebook, pitch interval, spectrum twist factor, spectrum pair parameter, etc. May be included.

当該会話/音声パラメータは会話/音声復号化パラメータ、信号クラス等を含んでもよい。   The conversation / speech parameters may include conversation / speech decoding parameters, signal classes, and the like.

会話/音声フレームの信号クラスが、無声(UNVOICED)、有声(VOICED)、汎用(GENERIC)、遷移(TRANSIENT)、不活性(INACTIVE)等であってもよい。   The signal class of the conversation / voice frame may be unvoiced (UNVOICED), voiced (VOICED), general purpose (GENERIC), transition (TRANSENTENT), inactive (INACTIVE), or the like.

当該スペクトル対パラメータが、例えば、線スペクトル対(LSP)パラメータまたはイミタンス・スペクトル対(ISP)パラメータのうち少なくとも1つであってもよい。   The spectrum pair parameter may be, for example, at least one of a line spectrum pair (LSP) parameter or an immittance spectrum pair (ISP) parameter.

現在の会話/音声フレームの前のM個の会話/音声フレームとは、現在の会話/音声フレームに先行し時間領域内の現在の会話/音声フレームのすぐ隣のM個の会話/音声フレームのことをいう。   The M conversations / voice frames before the current conversation / voice frame are those of the M conversations / voice frames immediately preceding the current conversation / voice frame and immediately adjacent to the current conversation / voice frame in the time domain. That means.

例えば、Mが1、2、3、または別の値に等しくてもよい。M=1であるとき、現在の会話/音声フレームの前のM個の会話/音声フレームは現在の会話/音声フレームの前の会話/音声フレームであり、現在の会話/音声フレームの前の会話/音声フレームおよび現在の会話/音声フレームは2つのすぐ隣の会話/音声フレームであり、M=2であるとき、現在の会話/音声フレームの前のM個の会話/音声フレームは現在の会話/音声フレームの前の会話/音声フレーム、現在の会話/音声フレームの前の会話/音声フレームの前の会話/音声フレームであり、現在の会話/音声フレームの前の会話/音声フレーム、現在の会話/音声フレームの前の会話/音声フレームの前の会話/音声フレーム、および現在の会話/音声フレームは3つのすぐ隣の会話/音声フレームである等である。   For example, M may be equal to 1, 2, 3, or another value. When M = 1, the M conversations / voice frames before the current conversation / voice frame are the conversation / voice frames before the current conversation / voice frame, and the conversation before the current conversation / voice frame. / Speech frame and current conversation / speech frame are two immediately adjacent conversations / speech frames, and when M = 2, the M conversations / speech frames before the current conversation / speech frame are current conversations / Conversation before voice frame / voice frame, current conversation / conversation before voice frame / conversation before voice frame / voice frame, conversation / voice frame before current conversation / voice frame, current The conversation / speech frame before the conversation / speech frame / speech / speech frame before the speech frame, and the current conversation / speech frame are the three immediately adjacent conversation / speech frames, and so on.

現在の会話/音声フレームの次のN個の会話/音声フレームとは、現在の会話/音声フレームに続き時間領域内の現在の会話/音声フレームのすぐ隣のN個の会話/音声フレームのことをいう。   The next N conversation / voice frames after the current conversation / voice frame are the N conversation / voice frames immediately following the current conversation / voice frame in the time domain following the current conversation / voice frame. Say.

例えば、Nが1、2、3、4、または別の値に等しくてもよい。N=1であるとき、現在の会話/音声フレームの次のN個の会話/音声フレームは現在の会話/音声フレームの次の会話/音声フレームであり、現在の会話/音声フレームの次の会話/音声フレームおよび現在の会話/音声フレームは2つのすぐ隣の会話/音声フレームであり、N=2であるとき、現在の会話/音声フレームの次のN個の会話/音声フレームは現在の会話/音声フレームの次の会話/音声フレームおよび現在の会話/音声フレームの次の会話/音声フレームの次の会話/音声フレームであり、現在の会話/音声フレームの次の会話/音声フレーム、現在の会話/音声フレームの次の会話/音声フレームの次の会話/音声フレーム、および現在の会話/音声フレームは3つのすぐ隣の会話/音声フレームである等である。   For example, N may be equal to 1, 2, 3, 4, or another value. When N = 1, the next N conversation / voice frames of the current conversation / voice frame are the next conversation / voice frame of the current conversation / voice frame, and the next conversation of the current conversation / voice frame. / Speech frame and current conversation / speech frame are two immediate neighbors / speech frames, and when N = 2, the next N conversations / speech frames of the current conversation / speech frame are the current conversation / Next conversation of voice frame / voice frame and current conversation / next conversation of voice frame / next conversation / voice frame of voice frame, next conversation / voice frame of current conversation / voice frame, current The next conversation / voice frame of the next conversation / voice frame of the conversation / voice frame, the current conversation / voice frame are the three immediately next conversation / voice frames, and so on.

本発明の当該実施形態では、メモリ403に格納されたコードを起動することによって、プロセッサ402を、帯域幅拡張エンベロープ、適応的コードブック利得、代数コードブック、ピッチ区間、または現在の会話/音声フレームのスペクトル対パラメータのうち少なくとも1つの会話/音声復号化パラメータに後処理を実施するように構成してもよいことは理解されうる。具体的には、どれだけ多くのパラメータおよびどのパラメータが後処理に選択されるかを適用シナリオおよび適用環境に従って決定してもよく、本発明の当該実施形態では限定されない。   In the present embodiment of the invention, by activating the code stored in memory 403, processor 402 can be made to use bandwidth extension envelope, adaptive codebook gain, algebraic codebook, pitch interval, or current speech / voice frame. It can be appreciated that post processing may be performed on at least one speech / speech decoding parameter of the spectrum pair parameters. Specifically, how many parameters and which parameters are selected for post-processing may be determined according to the application scenario and application environment, and is not limited in this embodiment of the invention.

異なる後処理を異なる会話/音声復号化パラメータに実施してもよい。例えば、現在の会話/音声フレームのスペクトル対パラメータに実施される後処理が、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを用いて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得することによって実施される適合的重み付けであってもよく、現在の会話/音声フレームの適応的コードブック利得に実施される後処理が、適応的コードブック利得に実施される減衰のような調整であってもよい。   Different post-processing may be performed on different conversation / voice decoding parameters. For example, the post-processing performed on the current speech / speech frame spectral pair parameter uses the current speech / speech frame spectral pair parameter and the previous speech / speech frame speech / speech frame spectral pair parameter. May be adaptive weighting implemented by obtaining post-processed spectrum pair parameters of the current speech / voice frame, and after being implemented on the adaptive codebook gain of the current speech / voice frame. The processing may be an adjustment such as attenuation performed on the adaptive codebook gain.

具体的な後処理方式は本発明の当該実施形態では限定されず、具体的な後処理を、要件に従ってまたは適用環境および適用シナリオに従って設定してもよい。   The specific post-processing method is not limited in the embodiment of the present invention, and the specific post-processing may be set according to the requirements or according to the application environment and the application scenario.

本発明の幾つかの諸実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームのスペクトル対パラメータを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成してもよい。   In some embodiments of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes a spectrum pair parameter of the previous current conversation / voice frame, and the number of X conversation / voice frames. According to the conversation / speech parameters, post-processing is performed on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame. In particular, by invoking a code stored in the memory 403, the processor 402 may, among other things, out of the signal class, spectral twist factor, adaptive codebook gain, or spectral pair parameter of the X speech / voice frames. Spectral pair of current speech / voice frame preceded by post-processing according to at least one Was performed on parameters may be configured to acquire spectral pair parameters processed after the current conversation / speech frame preceding.

例えば、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、先行する現在の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する
ように構成してもよい。
For example, the spectrum pair parameter of the current speech / voice frame preceding the post-processing according to at least one of the signal class, spectrum twist factor, adaptive codebook gain, or spectrum pair parameter of the X speech / voice frames. In particular, processor 402 can be implemented by invoking code stored in memory 403 in a manner to implement post-processed spectrum pair parameters in a previous current speech / voice frame.
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation If the signal class of the voice / voice frame is silent and the previous voice / speech of the previous voice / voice frame is not silent, the current current preceded spectrum / parameter of the previous current voice / voice frame As a post-processed spectrum pair parameter of the current speech / speech frame or a post-processed spectrum pair of the previous current talk / speech frame based on the spectrum pair parameter of the previous current speech / speech frame Get the parameters, or
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation / If the signal class of the voice frame is silence and the previous current conversation / conversation before the voice frame / the signal class of the voice frame is not silence, then the spectrum / parameter of the current conversation / voice frame and the previous current conversation Obtain a post-processed spectrum pair parameter for the previous current conversation / speech frame based on the spectrum pair parameter for the previous speech / speech frame / speech frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Use the previous speech / voice frame spectrum pair parameter as the post-processed spectrum pair parameter of the previous current conversation / voice frame, Obtain a post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum / parameter of the previous conversation / voice frame prior to the previous current conversation / voice frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame If the current signal class is silent, the previous current conversation / speech frame spectrum pair parameter and the previous current conversation / speech frame previous speech / speech frame spectrum pair parameter / Obtain post-processed spectrum pair parameters for speech frames, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold Use the spectrum / parameter of the previous conversation / voice frame prior to the previous current conversation / voice frame as the post-processed spectrum pair parameter of the previous current conversation / voice frame, or Post processing of previous current conversation / voice frame based on spectrum / parameters of previous speech / voice frame spectrum of voice frame Acquires spectral pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold A post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum pair parameter of the current conversation / voice frame and the spectrum pair parameter of the previous conversation / voice frame of the previous current conversation / voice frame Or get
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Is silent, the maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the previous current conversation / voice frame is less than or equal to the third threshold, and the previous current conversation / voice frame If the spectral torsion factor of the previous conversation / voice frame is less than or equal to the fourth threshold, the spectrum / parameters of the previous conversation / voice frame prior to the current conversation / voice frame preceding the current conversation / voice frame Used as a post-processed spectrum pair parameter or the speech / speech frame spec before the previous current speech / speech frame. Either obtain the spectral pairs parameters processed after the current conversation / speech frame preceding based on Torr pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Signal class is silent, the previous conversation of the previous current conversation / speech frame, the maximum value of the adaptive codebook gain of the subframe within the speech / speech frame is less than or equal to the third threshold, and the preceding current conversation / Conversation before speech frame / If the spectral torsion factor of speech frame is less than or equal to the fourth threshold, the previous current conversation / spectrum frame parameter of the speech frame and the preceding current conversation / conversation before speech frame / Based on the spectrum pair parameter of the voice frame, the post-processed spectrum pair parameter of the preceding current speech / voice frame is obtained. It may be configured to be.

先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するための様々な方式がありうる。   Spectral pair parameter of preceding current conversation / voice frame and post-processed spectrum pair of preceding current conversation / voice frame based on previous pair of current conversation / voice frame and previous spectrum / parameter of speech / voice frame There can be various schemes for obtaining the parameters.

例えば、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを特に取得するように構成してもよい。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は先行する現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは先行する現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である。
For example, the previous current conversation / voice frame spectrum pair parameter and the previous current conversation / voice frame previous conversation / voice frame spectrum pair parameter based on the previous current conversation / voice frame spectrum pair parameter In an aspect of obtaining the spectrum pair parameter, by invoking code stored in the memory 403, the processor 402 specifically performs the spectrum pair parameter of the previous current conversation / voice frame and the previous current conversation / voice frame before. And the following formula:
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
May be configured to specifically obtain post-processed spectrum pair parameters for the preceding current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_mid [k] is the intermediate value of the spectrum / parameter of the previous current conversation / voice frame, lsp_new [k] is the spectrum / parameter of the previous current conversation / voice frame, and L is the spectrum vs. parameter Where α is the spectrum / parameter weight of the previous conversation / voice frame prior to the previous current conversation / voice frame, and β is the weight of the intermediate value of the spectrum / parameter of the previous current conversation / voice frame. Yes, δ is the spectrum-versus-parameter weight of the previous current speech / voice frame, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1 ,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than the fifth threshold, or if the previous current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is the sixth If it is less than the threshold, or if the preceding current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than the seventh threshold, or the preceding If the current speech / voice frame to be is a redundant decoded frame, β is equal to 0, or β is less than or equal to the sixth threshold, and δ is equal to 0, or δ is the seventh Below threshold.

別の例として、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを特に取得するように構成してもよい。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、δ≧0、およびα+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である。
As another example, after the previous current conversation / voice frame based on the previous current conversation / voice frame spectrum pair parameter and the previous current conversation / voice frame previous conversation / voice frame spectrum pair parameter In the manner of obtaining processed spectrum pair parameters, by invoking code stored in memory 403, processor 402 in particular, spectrum pair parameters and preceding current conversation / speech of the preceding current conversation / speech frame. Based on the spectrum versus parameters of the speech / voice frame before the frame, and the following equation:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
May be configured to specifically obtain post-processed spectrum pair parameters for the preceding current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_new [k] is the spectrum versus parameter of the previous current conversation / voice frame, L is the order of the spectrum versus parameter, and α is the spectrum of the conversation / voice frame before the previous current conversation / voice frame. Is the weight of the pair parameter, δ is the spectrum pair parameter weight of the previous current speech / voice frame, α ≧ 0, δ ≧ 0, and α + δ = 1,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than the fifth threshold, or if the preceding current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is the seventh Below threshold.

第5の閾値、第6の閾値、および第7の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第5の閾値の値が0に近くてもよい。例えば、第5の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第6の閾値の値が0に近くてもよい。例えば、第6の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第7の閾値の値が0に近くてもよい。例えば、第7の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよい。   Each of the fifth threshold, the sixth threshold, and the seventh threshold may be set to different values according to different application environments or scenarios. For example, the value of the fifth threshold may be close to 0. For example, the fifth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the sixth threshold value may be close to 0. For example, the sixth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the seventh threshold value may be close to 0. For example, the seventh threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0.

第1の閾値、第2の閾値、第3の閾値、および第4の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the first threshold value, the second threshold value, the third threshold value, and the fourth threshold value may be set to different values according to different application environments or scenarios.

例えば第1の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the first threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第2の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the second threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第3の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the third threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第4の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the fourth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

第1の閾値が第3の閾値に等しくてもよくまたは等しくなくてもよく、第2の閾値が第4の閾値に等しくてもよくまたは等しくなくてもよい。   The first threshold may or may not be equal to the third threshold, and the second threshold may or may not be equal to the fourth threshold.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの適応的コードブック利得を含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施して、先行する現在の会話/音声フレームの後処理された適応的コードブック利得を取得するように構成してもよい。   In another embodiment of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes an adaptive codebook gain of the previous current conversation / voice frame, According to the conversation / speech parameters, post-processing is performed on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame. In particular, by activating the code stored in the memory 403, the processor 402, in particular, at least one of the signal class, algebraic codebook gain, or adaptive codebook gain of the X speech / voice frames. Perform post-processing on the adaptive codebook gain of the current speech / voice frame preceding, according to It may be configured to obtain the processed adaptive codebook gain after the current conversation / speech frame.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在のサブフレームの適応的コードブック利得を減衰させるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームまたは当該次の会話/音声フレームの次の会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が、先行する現在のサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍である)、先行する現在のサブフレームの適応的コードブック利得を減衰させるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行するサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍であってもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(例えば、補強または減衰)する(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)する(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行するサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍であってもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)する(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値は例えば、2、2.1、2.5、3、または別の値に等しい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値は例えば、1、1.1、1.5、2、2.1、または別の値に等しい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)する(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)
ように構成してもよい。
For example, according to at least one of the signal class of the X speech / voice frames, the algebraic codebook gain, or the adaptive codebook gain, the adaptive codebook gain of the current speech / voice frame preceding the post-processing is set. In an implementation, processor 402 is specifically activated by invoking code stored in memory 403.
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next two conversations / Algebra of current conversation / voice frame preceding current conversation / voice frame preceded by algebraic codebook gain of at least one signal class of voice frames that is silent and preceding current conversation / voice frame If it is greater than or equal to the codebook gain (eg, the algebraic codebook gain of the current subframe of the previous current conversation / voice frame is the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame) More than 1 time, for example, 1, 1.5, 2, 2.5, 3, 3.4, or 4 times more), the adaptive code of the previous current subframe Or attenuate the codebook gain, or,
If the previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence and the next conversation / voice of the previous current conversation / voice frame The current class preceded by the algebraic codebook gain of the current subframe of the previous current conversation / voice frame when at least one signal class of the frame or the next conversation / voice frame of the next conversation / voice frame is silent If it is greater than or equal to the algebraic codebook gain of the previous subframe (eg, the algebraic codebook gain of the current subframe of the previous current speech / voice frame is 1 or more times the algebraic codebook gain of the frame, eg 1, 1.5, 2, 2.5, 3, 3.4, or 4 times) Or attenuate the adaptive codebook gain of the subframe, or,
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, before the previous current conversation / voice frame If the current conversation / voice frame is a redundant decoded frame, and the signal class of the previous current conversation / voice frame is generic and the next conversation / voice of the previous current conversation / voice frame If the signal class of the frame is voiced and the algebraic codebook gain of the subframe of the previous current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the previous subframe (eg, the previous current The algebraic codebook gain of the subframe of the speech / voice frame of the subframe is the algebraic codebook of the subframe before the preceding subframe. (Which may be 1, 1.5, 2, 2.5, 3, 3.4, or 4 times), the current subframe algebraic codebook gain of the previous current speech / voice frame) The ratio of the subframe adjacent to the previous current subframe to the algebraic codebook gain, the subframe adjacent to the previous current subframe of the adaptive codebook gain of the current subframe of the previous current speech / voice frame To the adaptive codebook gain, or the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame An adaptive code block of the current subframe of the previous current speech / voice frame based on at least one of the ratios Adjust (e.g., reinforce or attenuate) the loop gain (e.g., the algebraic codebook of the subframe adjacent to the previous subframe of the current subframe of the previous current speech / voice frame) The ratio to gain is greater than or equal to the eleventh threshold (the eleventh threshold may be equal to, for example, 2, 2.1, 2.5, 3, or another value), and the current sub-previous current speech / voice frame The ratio of the adaptive codebook gain of the frame to the adaptive codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, 1, 1.1, 1.5, 2 2.1, or may be equal to another value), the previous current conversation / voice file of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame. If the ratio of the speech / voice frame before the lem to the algebraic codebook gain is less than or equal to the thirteenth threshold (the thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value) The adaptive codebook gain of the current subframe of the previous current conversation / voice frame may be augmented), or the previous current conversation / voice frame is a redundant decoded frame, or If the previous current conversation / voice frame is a regular decoded frame and the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame; and The signal class of the current conversation / voice frame is generic, the signal class of the next conversation / voice frame of the previous current conversation / voice frame is voiced, and the previous current If the algebraic codebook gain of the subframe of the speech / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame (of the subframe of the previous current conversation / voice frame) Algebraic codebook gain is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame prior to the current conversation / voice frame, eg, 1, 1.5, 2, 2.5, 3, 3.4, or more than four times The ratio of the algebraic codebook gain of the current subframe of the previous current speech / voice frame to the algebraic codebook gain of the subframe adjacent to the previous current subframe, of the previous current speech / voice frame, Adaptive codebook of the subframe adjacent to the current subframe preceding the adaptive codebook gain of the current subframe Or at least one of the ratio of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous conversation / voice frame. Adjust (attenuate or reinforce) the adaptive codebook gain of the current subframe of the previous current speech / voice frame based on one (eg, the algebraic code of the current subframe of the previous current speech / voice frame) The ratio of the book gain to the algebraic codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the eleventh threshold (the eleventh threshold is, for example, 2, 2.1, 2.5, 3, or another value). May be equal), preceding the adaptive codebook gain of the current subframe of the previous current speech / voice frame The ratio of the subframe adjacent to the current subframe to the adaptive codebook gain is greater than or equal to the twelfth threshold (the twelfth threshold is equal to, for example, 1, 1.1, 1.5, 2, 2.1, or another value). And the ratio of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame is 13th. Adaptive codebook for the current subframe of the previous current speech / speech frame if it is less than or equal to the threshold (the thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value) Gain may be augmented), or the previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame And the previous conversation / voice frame preceding the current conversation / voice frame is a redundant decoded frame, and the preceding current conversation / voice frame is voiced and precedes The algebra of the subframe before the subframe preceding the subframe a priori is the algebraic codebook gain of the subframe of the current conversation / voice frame preceding the current conversation / voice frame is generic If it is greater than or equal to the codebook gain (eg, the algebraic codebook gain of the subframe of the previous current speech / voice frame is greater than or equal to one algebraic codebook gain of the subframe prior to the preceding subframe, eg, 1 , 1.5, 2, 2.5, 3, 3.4, or 4 times) an algebraic code for the current subframe of the previous current conversation / voice frame The ratio of the book gain to the algebraic codebook gain of the subframe adjacent to the previous current subframe, adjacent to the current subframe preceding the adaptive codebook gain of the current subframe of the previous current speech / voice frame The ratio of the subframe to the adaptive codebook gain or the algebraic codebook gain of the previous current conversation / voice frame of the previous current conversation / voice frame Adjust (attenuate or reinforce) the adaptive codebook gain of the current subframe of the previous current speech / speech frame based on at least one of the ratios to the book gain (eg, previous current speech / speech frame) Current subframe algebraic codebook gain preceding current The ratio of the subframe adjacent to the subframe to the algebraic codebook gain is greater than or equal to the eleventh threshold (the eleventh threshold is equal to, for example, 2, 2.1, 2.5, 3, or another value) The ratio of the adaptive codebook gain of the current subframe of the speech / voice frame to the adaptive codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, , 1, 1.1, 1.5, 2, 2.1, or equal to another value), the previous current conversation / speech frame prior to the algebraic codebook gain of the current subframe of the previous current conversation / speech frame / Ratio of speech frame to algebraic codebook gain is less than or equal to thirteenth threshold (thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value) The adaptive codebook gain of the current subframe of the previous current speech / voice frame may be augmented), or the previous current speech / voice frame is a redundant decoded frame, or the previous The current conversation / voice frame to be a regular decoded frame, and the previous conversation / voice frame to the previous current conversation / voice frame is a redundant decoded frame, and the previous current The speech / speech frame signal class is voiced, the previous current conversation / speech frame previous speech / speech frame signal class is generic, and the sub-algebra of the previous current speech / speech frame The codebook gain is greater than or equal to the algebraic codebook gain of the previous conversation / speech frame of the previous conversation / speech frame (eg, the preceding The algebraic codebook gain of a subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame, eg, 1, 1.5, 2, 2.5 , 3, 3.4, or more), the ratio of the algebraic codebook gain of the current subframe of the preceding current speech / voice frame to the algebraic codebook gain of the subframe adjacent to the preceding current subframe The ratio of the adaptive codebook gain of the current subframe of the previous current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the previous current subframe, or the previous current speech / voice frame The current conversation / voice frame preceding the current conversation / voice frame preceding the algebraic codebook gain of the current subframe Adjust (attenuate or reinforce) the adaptive codebook gain of the current subframe of the previous current speech / voice frame based on at least one of the ratios to the algebraic codebook gain (eg, previous current conversation / The ratio of the algebraic codebook gain of the current subframe of the speech frame to the algebraic codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the eleventh threshold (the eleventh threshold is, for example, 2, 2.1 , 2.5, 3, or another value), the adaptive codebook gain of the current subframe of the previous current speech / voice frame, the adaptive of the subframe adjacent to the previous current subframe The ratio to codebook gain is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, 1, 1.1, 1.5, 2, 2.1, or another The ratio of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous conversation / voice frame. If less than 13 thresholds (the 13th threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value), the adaptive current subframe of the previous current conversation / voice frame Codebook gain may be reinforced)
You may comprise as follows.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの代数コードブックを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施して、先行する現在の会話/音声フレームの後処理された代数コードブックを取得するように構成してもよい。   In another embodiment of the present invention, the preceding current conversation / voice frame conversation / speech decoding parameter comprises an algebraic codebook of the preceding current conversation / speech frame, and X conversations / speech frame conversation / A mode of performing post-processing on a conversation / voice decoding parameter of a preceding current conversation / voice frame according to the voice parameter to obtain a post-processed conversation / voice decoding parameter of the preceding current conversation / voice frame. , By invoking the code stored in the memory 403, the processor 402 is preceded by post-processing, in particular according to at least one of the signal class, algebraic codebook, or spectral torsion factor of X speech / voice frames. To the algebraic codebook of the current conversation / speech frame to be performed, and the preceding current conversation / speech frame May be configured to obtain the processed algebraic codebook followed.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、先行する現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、先行する現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を先行する現在のサブフレームの代数コードブックとして使用するように構成してもよい。
For example, in an aspect in which post-processing is performed on an algebraic codebook of a preceding current speech / voice frame according to at least one of the signal class of the X speech / voice frames, an algebraic codebook, or a spectral torsion factor, In particular, by activating the code stored in the memory 403, the processor 402
The previous current conversation / voice frame is a redundant decoded frame, the next conversation / voice frame signal class of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the previous speech / voice frame is less than or equal to the eighth threshold and the algebraic codebook of the subframe of the previous current speech / voice frame is 0 or less than or equal to the ninth threshold, The algebraic codebook of the previous subframe prior to the previous current speech / voice frame or random noise may be configured to be used as the algebraic codebook of the previous current subframe.

第8の閾値および第9の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the eighth threshold value and the ninth threshold value may be set to a different value according to a different application environment or scenario.

例えば第8の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the eighth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第9の閾値を0.1、0.09、0.11、0.07、0.101、0.099、または0に近い別の値に設定してもよい。   For example, the ninth threshold value may be set to 0.1, 0.09, 0.11, 0.07, 0.101, 0.099, or another value close to 0.

第8の閾値が第2の閾値に等しくてもよくまたは等しくなくてもよい。   The eighth threshold may or may not be equal to the second threshold.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの帯域幅拡張エンベロープを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するように構成してもよい。   In another embodiment of the present invention, the conversation / voice decoding parameter of the previous current conversation / voice frame includes a bandwidth extension envelope of the previous current conversation / voice frame, and the conversation of X conversations / voice frames. According to / speech parameters, post-processing is performed on speech / speech decoding parameters of previous current conversation / speech frame to obtain post-processed speech / speech decoding parameters of preceding current conversation / speech frame. In an aspect, by invoking code stored in the memory 403, the processor 402, in accordance with at least one of the signal class, bandwidth extension envelope, or spectral torsion factor of the X speech / voice frames, in particular, Performs processing on the bandwidth extension envelope of the current conversation / voice frame that precedes the processing and precedes the current It may be configured to obtain the processed bandwidth extension envelope after conversation / speech frame.

例えば、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、
先行する現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するか、または、
先行する現在の会話/音声フレームが冗長復号化の予測形式である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するか、または、
先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する
ように構成してもよい。
For example, performing post-processing on the bandwidth extension envelope of the current conversation / voice frame preceding according to at least one of the signal class of the X speech / voice frames, the bandwidth extension envelope, or the spectral torsion factor, In particular, by invoking code stored in memory 403 in a manner that obtains a post-processed bandwidth expansion envelope of the preceding current speech / voice frame, processor 402
The conversation / voice frame before the previous current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the previous current conversation / voice frame is the current conversation / voice. If it is the same as the signal class of the next conversation / voice frame of the frame, the bandwidth extension envelope of the previous current conversation / voice frame, the previous conversation / voice frame and the previous current conversation / voice frame Based on the envelope, obtain a post-processed bandwidth extension envelope of the previous current conversation / voice frame, or
If the previous current conversation / voice frame is in the predictive form of redundant decoding, the bandwidth extension envelope of the previous conversation / voice frame before the previous current conversation / voice frame and the bandwidth of the previous current conversation / voice frame Obtain a post-processed bandwidth expansion envelope based on the width expansion envelope, or post-processed previous current speech / voice frame, or
The signal class of the previous current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the conversation / voice frame is less than or equal to the tenth threshold, the previous current conversation / voice frame is expanded according to the previous speech / voice frame bandwidth extension envelope or the spectral torsion factor. The bandwidth extension envelope of the voice frame may be modified to obtain a post-processed bandwidth extension envelope of the preceding current speech / voice frame.

第10の閾値を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第10の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   The tenth threshold may be set to different values according to different application environments or scenarios. For example, the tenth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを特に取得するように構成してもよい。
GainFrameは先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープであり、GainFrame_oldは先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは先行する現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は先行する現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である。
For example, post-processing of the previous current conversation / voice frame based on the bandwidth extension envelope of the previous conversation / voice frame before the previous current conversation / voice frame and the bandwidth extension envelope of the previous current conversation / voice frame. In an aspect of obtaining a bandwidth extension envelope that has been processed, the processor 402 specifically activates code stored in the memory 403 to cause the bandwidth extension envelope of the conversation / voice frame prior to the previous current conversation / voice frame. And based on the bandwidth extension envelope of the preceding current speech / voice frame, and the following equation:
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
May be configured to specifically obtain a post-processed bandwidth extension envelope of the preceding current conversation / voice frame.
GainFrame is the post-processed bandwidth extension envelope of the previous current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the previous current conversation / voice frame, and GainFrame_new is the lead Is the bandwidth extension envelope of the current conversation / speech frame, fac1 is the weight of the bandwidth / envelope extension envelope of the previous conversation / speech frame of the previous current conversation / speech frame, and fac2 is the previous current conversation / speech / The weight of the bandwidth expansion envelope of the voice frame, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1.

別の例として、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための修正因子は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの先行する現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する。   As another example, the correction factor for correcting the bandwidth extension envelope of the preceding current conversation / voice frame is inversely proportional to the spectral twist factor of the conversation / voice frame before the previous current conversation / voice frame, Is proportional to the ratio of the previous conversation / voice frame bandwidth extension envelope to the previous conversation / voice frame bandwidth extension envelope.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームのピッチ区間を含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ403に格納されたコードを起動することによって、プロセッサ402を特に、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って後処理を先行する現在の会話/音声フレームのピッチ区間に実施して(例えば、補強または減衰のような後処理を、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って先行する現在の会話/音声フレームのピッチ区間に実施してもよい)、先行する現在の会話/音声フレームの後処理されたピッチ区間を取得するように構成してもよい。   In another embodiment of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes the pitch interval of the previous current conversation / speech frame, and the conversation / speech of X conversations / speech frames. In an aspect in which post-processing is performed on the conversation / voice decoding parameters of the preceding current conversation / voice frame according to the parameters to obtain post-processed conversation / voice decoding parameters of the preceding current conversation / voice frame. , By invoking the code stored in the memory 403, the processor 402 in particular causes the pitch period of the current speech / voice frame to be post-processed according to the signal class and / or pitch period of the X speech / voice frames. (E.g., post-processing such as reinforcement or attenuation is applied to the signal class of the X speech / voice frames) And / or may be implemented in the pitch section of the previous current conversation / voice frame according to the pitch section), and may be configured to obtain a post-processed pitch section of the previous current conversation / voice frame. .

当該実施形態における復号器400の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは説明しない。復号器400が、会話を出力する必要がある任意の装置、例えば、ノートブック・コンピュータ、タブレット・コンピュータ、またはパーソナル・コンピュータ、または携帯電話のようなデバイスであってもよい。   It can be appreciated that the functionality of the functional modules of the decoder 400 in this embodiment may be implemented in particular according to the method in the method embodiment described above. For the specific implementation process, please refer to the related description of the method embodiments described above. Details are not described here. Decoder 400 may be any device that needs to output a conversation, such as a notebook computer, tablet computer, or personal computer, or a device such as a mobile phone.

上述の説明から、当該実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの復号化パラメータを取得した後、復号器側は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびFEC復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in this embodiment, the current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the current conversation / voice frame is redundantly decoded. In the scenario of a frame, after obtaining the decoding parameters of the current conversation / voice frame, the decoder side performs post-processing according to the conversation / voice parameters of X conversations / voice frames. Perform on speech / speech decoding parameters to obtain post-processed speech / speech decoding parameters for the previous current conversation / speech frame and use post-speech speech decoding parameters for the current conversation / speech frame To restore the conversation / voice signal of the current conversation / voice frame, and the preceding X conversation / voice frames are represented by the preceding current conversation. Includes M conversation / voice frames before voice frame and / or N conversation / voice frames following previous current conversation / voice frame, thereby redundant decoded frame and normal decoding It can be seen that a stable quality of the decoded signal is ensured during the transition between the decoded frames or between the redundant decoded frame and the FEC recovery frame, which increases the quality of the output speech / voice signal. obtain.

上述の説明から、本発明の幾つかの諸実施形態では、無声会話/音声フレームと非無声会話/音声フレームの間の遷移中に(例えば、現在の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが非無声信号タイプの正規の復号化されたフレームであるとき、または現在の会話/音声フレームが非無声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、無声会話/音声フレームと非無声会話/音声フレームの間のフレーム間遷移中に生ずるクリック(click)現象の回避が支援され、それにより、出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in some embodiments of the present invention, during a transition between unvoiced / voice frames and non-voiced / voice frames (eg, the current conversation / voice frame is a redundant voice class). A decoded frame, when the current conversation / voice frame is a normal decoded frame of the non-silent signal type, or the current conversation / voice frame is non-silent A regular decoded frame of the signal class and when the current conversation / voice frame is the previous or next conversation / voice frame is a redundant decoded frame of the unvoiced signal class), the post-processing is the current Performed on the conversation / voice decoding parameters of the conversation / voice frame so that it is generated during the inter-frame transition between the silent conversation / voice frame and the non-voiceless conversation / voice frame. That avoidance of click (click) phenomenon is support, thereby, it can be seen that the quality of the output conversation / audio signal is increased.

本発明の他の実施形態では、汎用的な会話/音声フレームと有声の会話/音声フレームの間の遷移中に(現在のフレームが汎用フレームであり冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであるか、または、現在の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが汎用信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、汎用フレームと有声フレームの間の遷移中に生ずるエネルギ不安定現象の矯正が支援され、これにより出力会話/音声信号の品質が高まる。   In another embodiment of the present invention, during a transition between a generic conversation / voice frame and a voiced conversation / voice frame (the current frame is a generic frame and a redundant decoded frame, The previous / next conversation / voice frame of the conversation / voice frame is a regular decoded frame of the voiced signal class, or the current conversation / voice frame is a regular decoded frame of the voiced signal class Yes, when the previous conversation / voice frame of the current conversation / voice frame or the next conversation / voice frame is a redundant decoded frame of the general signal class), the post-processing is the conversation / voice decoding parameters of the current conversation / voice frame. This helps to correct the energy instability phenomenon that occurs during the transition between the generic frame and the voiced frame, and thereby the output speech / voice signal. The quality is enhanced.

本発明のさらに他の実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であるとき、現在のフレームの帯域幅拡張エンベロープを調節して、時間領域帯域幅拡張におけるエネルギ不安定現象を矯正し、出力会話/音声信号の品質を高める。   In yet another embodiment of the invention, the current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and When the signal class of the speech / voice frame is silence, the bandwidth extension envelope of the current frame is adjusted to correct the energy instability phenomenon in the time domain bandwidth extension and improve the quality of the output speech / voice signal.

図5を参照すると、図5は、本発明の別の実施形態に従う復号器500の構造ブロック図である。復号器500は、少なくとも1つのプロセッサ501、少なくとも1つのネットワーク・インタフェース504または別のユーザ・インタフェース503、メモリ505、および少なくとも1つの通信バス502を含んでもよい。通信バス502は、これらのコンポーネントの間の接続および通信を実装するように構成される。復号器500は任意選択で、ユーザ・インタフェース503を含んでもよい。ユーザ・インタフェース503は、ディスプレイ(例えば、タッチスクリーン、LCD、CRT、ホログラフィ(Holographic)、またはプロジェクタ(Projector))、クリック/タップ・デバイス(例えば、マウス、トラックボール(trackball)、タッチパッド、またはタッチスクリーン)、カメラおよび/またはピックアップ装置等を含む。   Referring to FIG. 5, FIG. 5 is a structural block diagram of a decoder 500 according to another embodiment of the present invention. Decoder 500 may include at least one processor 501, at least one network interface 504 or another user interface 503, memory 505, and at least one communication bus 502. Communication bus 502 is configured to implement connections and communications between these components. Decoder 500 may optionally include a user interface 503. User interface 503 may be a display (eg, touch screen, LCD, CRT, holographic, or projector), a click / tap device (eg, mouse, trackball, touchpad, or touch). Screen), camera and / or pickup device.

メモリ502は、読取専用メモリおよびランダム・アクセス・メモリを含んでもよく、命令およびデータをプロセッサ501に提供する。メモリ502の一部がさらに、不揮発性ランダム・アクセス・メモリ(NVRAM)を含んでもよい。   Memory 502 may include read only memory and random access memory and provides instructions and data to processor 501. A portion of the memory 502 may further include non-volatile random access memory (NVRAM).

幾つかの実装方式では、メモリ505は以下の要素、即ち、様々なシステム・プログラムを含み様々な基本サービスを実装しハードウェア・ベースのタスクを処理するために使用されるオペレーティング・システム5051、様々なアプリケーション・プログラムを含み様々なアプリケーション・サービスを実装するように構成されたアプリケーション・プログラム・モジュール5052、実行可能モジュールまたはデータ構造、またはそのサブセット、またはその拡張セットをを格納する。   In some implementations, the memory 505 includes the following elements: an operating system 5051 that includes various system programs and is used to implement various basic services and handle hardware-based tasks. An application program module 5052, an executable module or data structure, or a subset thereof, or an extension set thereof, configured to implement various application services, including various application programs.

アプリケーション・プログラム・モジュール5052は、パラメータ取得ユニット310、後処理ユニット320、復元ユニット330等を含むがこれらに限られない。   The application program module 5052 includes, but is not limited to, a parameter acquisition unit 310, a post-processing unit 320, a restoration unit 330, and the like.

本発明の当該実施形態では、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を、現在の会話/音声フレームの会話/音声復号化パラメータを取得し、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって、先行する現在の会話/音声フレームの会話/音声信号を復元するように構成してもよい。先行する現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、先行する現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームであり、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である。   In this embodiment of the invention, by invoking a program or instruction stored in memory 505, processor 501 obtains the conversation / voice decoding parameters of the current conversation / voice frame and X conversations / voice. According to the conversation / voice parameters of the frame, post-processing is performed on the previous conversation / voice decoding parameters of the previous current conversation / voice frame to post-process the conversation / voice decoding parameters of the preceding current conversation / voice frame. And using the post-processed conversation / voice decoding parameters of the previous current conversation / voice frame to recover the conversation / voice signal of the previous current conversation / voice frame. Good. The previous current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame and precedes X conversations / voice frames include M conversations / voice frames before the previous current conversation / voice frame and / or N conversations / voice frames next to the previous current conversation / voice frame. , M and N are positive integers.

当該会話/音声復号化パラメータは、以下のパラメータ、即ち、帯域幅拡張エンベロープ、適応的コードブック利得(gain_pit)、代数コードブック、ピッチ区間、スペクトル捩れ因子、スペクトル対パラメータ等のうち少なくとも1つを含んでもよい。   The speech / speech decoding parameter includes at least one of the following parameters: bandwidth extension envelope, adaptive codebook gain (gain_pit), algebraic codebook, pitch interval, spectrum twist factor, spectrum pair parameter, etc. May be included.

当該会話/音声パラメータは会話/音声復号化パラメータ、信号クラス等を含んでもよい。   The conversation / speech parameters may include conversation / speech decoding parameters, signal classes, and the like.

会話/音声フレームの信号クラスが、無声(UNVOICED)、有声(VOICED)、汎用(GENERIC)、遷移(TRANSIENT)、不活性(INACTIVE)等であってもよい。   The signal class of the conversation / voice frame may be unvoiced (UNVOICED), voiced (VOICED), general purpose (GENERIC), transition (TRANSENTENT), inactive (INACTIVE), or the like.

当該スペクトル対パラメータが、例えば、線スペクトル対(LSP)パラメータまたはイミタンス・スペクトル対(ISP)パラメータのうち少なくとも1つであってもよい。   The spectrum pair parameter may be, for example, at least one of a line spectrum pair (LSP) parameter or an immittance spectrum pair (ISP) parameter.

現在の会話/音声フレームの前のM個の会話/音声フレームとは、現在の会話/音声フレームに先行し時間領域内の現在の会話/音声フレームのすぐ隣のM個の会話/音声フレームのことをいう。   The M conversations / voice frames before the current conversation / voice frame are those of the M conversations / voice frames immediately preceding the current conversation / voice frame and immediately adjacent to the current conversation / voice frame in the time domain. That means.

例えば、Mが1、2、3、または別の値に等しくてもよい。M=1であるとき、現在の会話/音声フレームの前のM個の会話/音声フレームは現在の会話/音声フレームの前の会話/音声フレームであり、現在の会話/音声フレームの前の会話/音声フレームおよび現在の会話/音声フレームは2つのすぐ隣の会話/音声フレームであり、M=2であるとき、現在の会話/音声フレームの前のM個の会話/音声フレームは現在の会話/音声フレームの前の会話/音声フレーム、現在の会話/音声フレームの前の会話/音声フレームの前の会話/音声フレームであり、現在の会話/音声フレームの前の会話/音声フレーム、現在の会話/音声フレームの前の会話/音声フレームの前の会話/音声フレーム、および現在の会話/音声フレームは3つのすぐ隣の会話/音声フレームである等である。   For example, M may be equal to 1, 2, 3, or another value. When M = 1, the M conversations / voice frames before the current conversation / voice frame are the conversation / voice frames before the current conversation / voice frame, and the conversation before the current conversation / voice frame. / Speech frame and current conversation / speech frame are two immediately adjacent conversations / speech frames, and when M = 2, the M conversations / speech frames before the current conversation / speech frame are current conversations / Conversation before voice frame / voice frame, current conversation / conversation before voice frame / conversation before voice frame / voice frame, conversation / voice frame before current conversation / voice frame, current The conversation / speech frame before the conversation / speech frame / speech / speech frame before the speech frame, and the current conversation / speech frame are the three immediately adjacent conversation / speech frames, and so on.

現在の会話/音声フレームの次のN個の会話/音声フレームとは、現在の会話/音声フレームに続き時間領域内の現在の会話/音声フレームのすぐ隣のN個の会話/音声フレームのことをいう。   The next N conversation / voice frames after the current conversation / voice frame are the N conversation / voice frames immediately following the current conversation / voice frame in the time domain following the current conversation / voice frame. Say.

例えば、Nが1、2、3、4、または別の値に等しくてもよい。N=1であるとき、現在の会話/音声フレームの次のN個の会話/音声フレームは現在の会話/音声フレームの次の会話/音声フレームであり、現在の会話/音声フレームの次の会話/音声フレームおよび現在の会話/音声フレームは2つのすぐ隣の会話/音声フレームであり、N=2であるとき、現在の会話/音声フレームの次のN個の会話/音声フレームは現在の会話/音声フレームの次の会話/音声フレームおよび現在の会話/音声フレームの次の会話/音声フレームの次の会話/音声フレームであり、現在の会話/音声フレームの次の会話/音声フレーム、現在の会話/音声フレームの次の会話/音声フレームの次の会話/音声フレーム、および現在の会話/音声フレームは3つのすぐ隣の会話/音声フレームである等である。   For example, N may be equal to 1, 2, 3, 4, or another value. When N = 1, the next N conversation / voice frames of the current conversation / voice frame are the next conversation / voice frame of the current conversation / voice frame, and the next conversation of the current conversation / voice frame. / Speech frame and current conversation / speech frame are two immediate neighbors / speech frames, and when N = 2, the next N conversations / speech frames of the current conversation / speech frame are the current conversation / Next conversation of voice frame / voice frame and current conversation / next conversation of voice frame / next conversation / voice frame of voice frame, next conversation / voice frame of current conversation / voice frame, current The next conversation / voice frame of the next conversation / voice frame of the conversation / voice frame, the current conversation / voice frame are the three immediately next conversation / voice frames, and so on.

当該実施形態では、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501が、帯域幅拡張エンベロープ、適応的コードブック利得、代数コードブック、ピッチ区間、または現在の会話/音声フレームのスペクトル対パラメータのうち少なくとも1つの会話/音声復号化パラメータに後処理を実施してもよいことは理解されうる。具体的には、どれだけ多くのパラメータおよびどのパラメータが後処理に選択されるかを適用シナリオおよび適用環境に従って決定してもよく、本発明の当該実施形態では限定されない。   In this embodiment, by invoking a program or instruction stored in memory 505, processor 501 causes bandwidth extension envelope, adaptive codebook gain, algebraic codebook, pitch interval, or current speech / voice frame. It can be appreciated that post-processing may be performed on at least one speech / speech decoding parameter of the spectrum pair parameter. Specifically, how many parameters and which parameters are selected for post-processing may be determined according to the application scenario and application environment, and is not limited in this embodiment of the invention.

異なる後処理を異なる会話/音声復号化パラメータに実施してもよい。例えば、現在の会話/音声フレームのスペクトル対パラメータに実施される後処理が、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを用いて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得することによって実施される適合的重み付けであってもよく、現在の会話/音声フレームの適応的コードブック利得に実施される後処理が、適応的コードブック利得に実施される減衰のような調整であってもよい。   Different post-processing may be performed on different conversation / voice decoding parameters. For example, the post-processing performed on the current speech / speech frame spectral pair parameter uses the current speech / speech frame spectral pair parameter and the previous speech / speech frame speech / speech frame spectral pair parameter. May be adaptive weighting implemented by obtaining post-processed spectrum pair parameters of the current speech / voice frame, and after being implemented on the adaptive codebook gain of the current speech / voice frame. The processing may be an adjustment such as attenuation performed on the adaptive codebook gain.

具体的な後処理方式は本発明の当該実施形態では限定されず、具体的な後処理を、要件に従ってまたは適用環境および適用シナリオに従って設定してもよい。   The specific post-processing method is not limited in the embodiment of the present invention, and the specific post-processing may be set according to the requirements or according to the application environment and the application scenario.

本発明の幾つかの諸実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームのスペクトル対パラメータを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成してもよい。   In some embodiments of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes a spectrum pair parameter of the previous current conversation / voice frame, and the number of X conversation / voice frames. According to the conversation / speech parameters, post-processing is performed on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame. In particular, by invoking a program or instruction stored in the memory 505, the processor 501 specifically causes the signal class, spectral torsion factor, adaptive codebook gain, or spectral versus parameters of the X speech / voice frames. Current conversation / voice frame preceded by post-processing according to at least one of Implemented to spectrum pair parameters may be configured to acquire spectral pair parameters processed after the current conversation / speech frame preceding.

例えば、当該X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームのスペクトル対パラメータに実施して、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、先行する現在の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータとして使用するか、または、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する
ように構成してもよい。
For example, the spectrum pair parameter of the current speech / voice frame preceding the post-processing according to at least one of the signal class, spectrum twist factor, adaptive codebook gain, or spectrum pair parameter of the X speech / voice frames. In particular, processor 501 can be implemented by invoking a program or instruction stored in memory 505 in a manner to implement post-processed spectral pair parameters in a previous current speech / voice frame.
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation If the signal class of the voice / voice frame is silent and the previous voice / speech of the previous voice / voice frame is not silent, the current current preceded spectrum / parameter of the previous current voice / voice frame As a post-processed spectrum pair parameter of the current speech / speech frame or a post-processed spectrum pair of the previous current talk / speech frame based on the spectrum pair parameter of the previous current speech / speech frame Get the parameters, or
The previous current conversation / voice frame is a regular decoded frame, the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, and the previous current conversation / If the signal class of the voice frame is silence and the previous current conversation / conversation before the voice frame / the signal class of the voice frame is not silence, then the spectrum / parameter of the current conversation / voice frame and the previous current conversation Obtain a post-processed spectrum pair parameter for the previous current conversation / speech frame based on the spectrum pair parameter for the previous speech / speech frame / speech frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Use the previous speech / voice frame spectrum pair parameter as the post-processed spectrum pair parameter of the previous current conversation / voice frame, Obtain a post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum / parameter of the previous conversation / voice frame prior to the previous current conversation / voice frame, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame If the current signal class is silent, the previous current conversation / speech frame spectrum pair parameter and the previous current conversation / speech frame previous speech / speech frame spectrum pair parameter / Obtain post-processed spectrum pair parameters for speech frames, or
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold Use the spectrum / parameter of the previous conversation / voice frame prior to the previous current conversation / voice frame as the post-processed spectrum pair parameter of the previous current conversation / voice frame, or Post processing of previous current conversation / voice frame based on spectrum / parameters of previous speech / voice frame spectrum of voice frame Acquires spectral pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame The maximum value of the adaptive codebook gain of the subframes within is less than or equal to the first threshold, and the spectral torsion factor of the speech / voice frame before the previous current conversation / voice frame is less than or equal to the second threshold A post-processed spectrum pair parameter of the previous current conversation / voice frame based on the spectrum pair parameter of the current conversation / voice frame and the spectrum pair parameter of the previous conversation / voice frame of the previous current conversation / voice frame Or get
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Is silent, the maximum value of the adaptive codebook gain of the subframe in the next conversation / voice frame of the previous current conversation / voice frame is less than or equal to the third threshold, and the previous current conversation / voice frame If the spectral torsion factor of the previous conversation / voice frame is less than or equal to the fourth threshold, the spectrum / parameters of the previous conversation / voice frame prior to the current conversation / voice frame preceding the current conversation / voice frame Used as a post-processed spectrum pair parameter or the speech / speech frame spec before the previous current speech / speech frame. Either obtain the spectral pairs parameters processed after the current conversation / speech frame preceding based on Torr pair parameters, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Signal class is silent, the previous conversation of the previous current conversation / speech frame, the maximum value of the adaptive codebook gain of the subframe within the speech / speech frame is less than or equal to the third threshold, and the preceding current conversation / Conversation before speech frame / If the spectral torsion factor of speech frame is less than or equal to the fourth threshold, the previous current conversation / spectrum frame parameter of the speech frame and the preceding current conversation / conversation before speech frame / Based on the spectrum pair parameter of the voice frame, the post-processed spectrum pair parameter of the preceding current speech / voice frame is obtained. It may be configured to be.

先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するための様々な方式がありうる。   Spectral pair parameter of preceding current conversation / voice frame and post-processed spectrum pair of preceding current conversation / voice frame based on previous pair of current conversation / voice frame and previous spectrum / parameter of speech / voice frame There can be various schemes for obtaining the parameters.

例えば、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを特に取得するように構成してもよい。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は先行する現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは先行する現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である。
For example, the previous current conversation / voice frame spectrum pair parameter and the previous current conversation / voice frame previous conversation / voice frame spectrum pair parameter based on the previous current conversation / voice frame spectrum pair parameter In an aspect of obtaining spectrum pair parameters, by invoking a program or instruction stored in memory 505, processor 501 specifically recognizes the spectrum pair parameters and preceding current conversation / voice frame of the previous current conversation / voice frame. Based on the spectrum / parameters of the previous speech / voice frame of and the following equation:
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
May be configured to specifically obtain post-processed spectrum pair parameters for the preceding current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_mid [k] is the intermediate value of the spectrum / parameter of the previous current conversation / voice frame, lsp_new [k] is the spectrum / parameter of the previous current conversation / voice frame, and L is the spectrum vs. parameter Where α is the spectrum / parameter weight of the previous conversation / voice frame prior to the previous current conversation / voice frame, and β is the weight of the intermediate value of the spectrum / parameter of the previous current conversation / voice frame. Yes, δ is the spectrum-versus-parameter weight of the previous current speech / voice frame, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1 ,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than the fifth threshold, or if the previous current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is the sixth If it is less than the threshold, or if the preceding current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than the seventh threshold, or the preceding If the current speech / voice frame to be is a redundant decoded frame, β is equal to 0, or β is less than or equal to the sixth threshold, and δ is equal to 0, or δ is the seventh Below threshold.

別の例として、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、先行する現在の会話/音声フレームのスペクトル対パラメータおよび先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータを特に取得するように構成してもよい。
lsp[k]は先行する現在の会話/音声フレームの後処理されたスペクトル対パラメータであり、lsp_old[k]は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は先行する現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは先行する現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、δ≧0、およびα+δ=1であり、
先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、先行する現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である。
As another example, after the previous current conversation / voice frame based on the previous current conversation / voice frame spectrum pair parameter and the previous current conversation / voice frame previous conversation / voice frame spectrum pair parameter In the manner of obtaining processed spectrum pair parameters, by invoking a program or instruction stored in memory 505, processor 501 in particular, the spectrum pair parameters of the previous current conversation / voice frame and the previous current conversation. / Based on the speech / speech frame prior to the speech frame / speech frame spectrum vs. parameters and:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
May be configured to specifically obtain post-processed spectrum pair parameters for the preceding current speech / voice frame.
lsp [k] is the post-processed spectrum pair parameter of the previous current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the previous current conversation / voice frame , Lsp_new [k] is the spectrum versus parameter of the previous current conversation / voice frame, L is the order of the spectrum versus parameter, and α is the spectrum of the conversation / voice frame before the previous current conversation / voice frame. Is the weight of the pair parameter, δ is the spectrum pair parameter weight of the previous current speech / voice frame, α ≧ 0, δ ≧ 0, and α + δ = 1,
If the previous current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame, α is 0 Is equal to or less than the fifth threshold, or if the preceding current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is the seventh Below threshold.

第5の閾値、第6の閾値、および第7の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第5の閾値の値が0に近くてもよい。例えば、第5の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第6の閾値の値が0に近くてもよい。例えば、第6の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよく、第7の閾値の値が0に近くてもよい。例えば、第7の閾値が0.001、0.002、0.01、0.1、または0に近い別の値に等しくてもよい。   Each of the fifth threshold, the sixth threshold, and the seventh threshold may be set to different values according to different application environments or scenarios. For example, the value of the fifth threshold may be close to 0. For example, the fifth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the sixth threshold value may be close to 0. For example, the sixth threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0, and the seventh threshold value may be close to 0. For example, the seventh threshold may be equal to 0.001, 0.002, 0.01, 0.1, or another value close to 0.

第1の閾値、第2の閾値、第3の閾値、および第4の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the first threshold value, the second threshold value, the third threshold value, and the fourth threshold value may be set to different values according to different application environments or scenarios.

例えば第1の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the first threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第2の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the second threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第3の閾値を0.9、0.8、0.85、0.7、0.89、または0.91に設定してもよい。   For example, the third threshold value may be set to 0.9, 0.8, 0.85, 0.7, 0.89, or 0.91.

例えば第4の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the fourth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

第1の閾値が第3の閾値に等しくてもよくまたは等しくなくてもよく、第2の閾値が第4の閾値に等しくてもよくまたは等しくなくてもよい。   The first threshold may or may not be equal to the third threshold, and the second threshold may or may not be equal to the fourth threshold.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの適応的コードブック利得を含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施して、先行する現在の会話/音声フレームの後処理された適応的コードブック利得を取得するように構成してもよい。   In another embodiment of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes an adaptive codebook gain of the previous current conversation / voice frame, According to the conversation / speech parameters, post-processing is performed on the conversation / speech decoding parameters of the preceding current conversation / speech frame to obtain post-processed conversation / speech decoding parameters of the preceding current conversation / speech frame. In particular, by invoking a program or instruction stored in the memory 505, the processor 501 may, among other things, at least one of the X speech / voice frame signal classes, algebraic codebook gain, or adaptive codebook gain. According to one, the adaptive codebook gain of the current speech / voice frame preceded by post-processing is achieved. To, it may be configured to obtain the processed adaptive codebook gain after the current conversation / speech frame preceding.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの適応的コードブック利得に実施する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在のサブフレームの適応的コードブック利得を減衰させるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームまたは当該次の会話/音声フレームの次の会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が先行する現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が、先行する現在のサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍である)、先行する現在のサブフレームの適応的コードブック利得を減衰させるか、または、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行するサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍であってもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(例えば、補強または減衰)する(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)する(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行するサブフレームの前のサブフレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行するサブフレームの前のサブフレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍であってもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)する(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値は例えば、2、2.1、2.5、3、または別の値に等しい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値は例えば、1、1.1、1.5、2、2.1、または別の値に等しい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)、または
先行する現在の会話/音声フレームが冗長な復号化されたフレームであるか、または先行する現在の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、先行する現在の会話/音声フレームの信号クラスが有声であり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合(例えば、先行する現在の会話/音声フレームのサブフレームの代数コードブック利得が、先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得の1倍以上、例えば、1、1.5、2、2.5、3、3.4、または4倍以上である)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率、または先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節(減衰または補強)する(例えば、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率が第11の閾値以上であり(第11の閾値が例えば、2、2.1、2.5、3、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得の先行する現在のサブフレームに隣接するサブフレームの適応的コードブック利得に対する比率が第12の閾値以上であり(第12の閾値が例えば、1、1.1、1.5、2、2.1、または別の値に等しくてもよい)、先行する現在の会話/音声フレームの現在のサブフレームの代数コードブック利得の先行する現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率が第13の閾値以下である(第13の閾値が例えば、1、1.1、1.5、2、または別の値に等しくてもよい)場合、先行する現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を補強してもよい)
ように構成してもよい。
For example, according to at least one of the signal class of the X speech / voice frames, the algebraic codebook gain, or the adaptive codebook gain, the adaptive codebook gain of the current speech / voice frame preceding the post-processing is set. In an implementation, processor 501 is specifically activated by invoking a program or instruction stored in memory 505.
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next two conversations / Algebra of current conversation / voice frame preceding current conversation / voice frame preceded by algebraic codebook gain of at least one signal class of voice frames that is silent and preceding current conversation / voice frame If it is greater than or equal to the codebook gain (eg, the algebraic codebook gain of the current subframe of the previous current conversation / voice frame is the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame) More than 1 time, for example, 1, 1.5, 2, 2.5, 3, 3.4, or 4 times more), the adaptive code of the previous current subframe Or attenuate the codebook gain, or,
The previous current conversation / voice frame is a redundant decoded frame, the signal class of the previous current conversation / voice frame is not silence, and the next conversation / voice frame of the previous current conversation / voice frame Or at least one signal class of the next conversation / voice frame of the next conversation / voice frame is silent and the algebraic codebook gain of the current subframe of the previous current conversation / voice frame is preceded by the current If it is greater than or equal to the algebraic codebook gain of the subframe before the subframe (eg, the algebraic codebook gain of the current subframe of the previous current speech / voice frame is the subframe before the previous current subframe Algebraic codebook gain of more than 1x, for example 1, 1.5, 2, 2.5, 3, 3.4, or 4x) Or attenuate the adaptive codebook gain of the subframe, or,
The previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame, before the previous current conversation / voice frame If the current conversation / voice frame is a redundant decoded frame, and the signal class of the previous current conversation / voice frame is generic and the next conversation / voice of the previous current conversation / voice frame If the signal class of the frame is voiced and the algebraic codebook gain of the subframe of the previous current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the previous subframe (eg, the previous current The algebraic codebook gain of the subframe of the speech / voice frame of the subframe is the algebraic codebook of the subframe before the preceding subframe. (Which may be 1, 1.5, 2, 2.5, 3, 3.4, or 4 times), the current subframe algebraic codebook gain of the previous current speech / voice frame) The ratio of the subframe adjacent to the previous current subframe to the algebraic codebook gain, the subframe adjacent to the previous current subframe of the adaptive codebook gain of the current subframe of the previous current speech / voice frame To the adaptive codebook gain, or the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame An adaptive code block of the current subframe of the previous current speech / voice frame based on at least one of the ratios Adjust (e.g., reinforce or attenuate) the loop gain (e.g., the algebraic codebook of the subframe adjacent to the previous subframe of the current subframe of the previous current speech / voice frame) The ratio to gain is greater than or equal to the eleventh threshold (the eleventh threshold may be equal to, for example, 2, 2.1, 2.5, 3, or another value), and the current sub-previous current speech / voice frame The ratio of the adaptive codebook gain of the frame to the adaptive codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, 1, 1.1, 1.5, 2 2.1, or may be equal to another value), the previous current conversation / voice file of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame. If the ratio of the speech / voice frame before the lem to the algebraic codebook gain is less than or equal to the thirteenth threshold (the thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value) The adaptive codebook gain of the current subframe of the previous current conversation / voice frame may be augmented), or the previous current conversation / voice frame is a redundant decoded frame, or If the previous current conversation / voice frame is a regular decoded frame and the previous conversation / voice frame before the previous current conversation / voice frame is a redundant decoded frame; and The signal class of the current conversation / voice frame is generic, the signal class of the next conversation / voice frame of the previous current conversation / voice frame is voiced, and the previous current If the algebraic codebook gain of the subframe of the speech / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame (of the subframe of the previous current conversation / voice frame) Algebraic codebook gain is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame prior to the current conversation / voice frame, eg, 1, 1.5, 2, 2.5, 3, 3.4, or more than four times The ratio of the algebraic codebook gain of the current subframe of the previous current speech / voice frame to the algebraic codebook gain of the subframe adjacent to the previous current subframe, of the previous current speech / voice frame, Adaptive codebook of the subframe adjacent to the current subframe preceding the adaptive codebook gain of the current subframe Or at least one of the ratio of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous conversation / voice frame. Adjust (attenuate or reinforce) the adaptive codebook gain of the current subframe of the previous current speech / voice frame based on one (eg, the algebraic code of the current subframe of the previous current speech / voice frame) The ratio of the book gain to the algebraic codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the eleventh threshold (the eleventh threshold is, for example, 2, 2.1, 2.5, 3, or another value). May be equal), preceding the adaptive codebook gain of the current subframe of the previous current speech / voice frame The ratio of the subframe adjacent to the current subframe to the adaptive codebook gain is greater than or equal to the twelfth threshold (the twelfth threshold is equal to, for example, 1, 1.1, 1.5, 2, 2.1, or another value). And the ratio of the algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame is 13th. Adaptive codebook for the current subframe of the previous current speech / speech frame if it is less than or equal to the threshold (the thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value) Gain may be augmented), or the previous current conversation / voice frame is a redundant decoded frame, or the previous current conversation / voice frame is a regular decoded frame And the previous conversation / voice frame preceding the current conversation / voice frame is a redundant decoded frame, and the preceding current conversation / voice frame is voiced and precedes The algebra of the subframe before the subframe preceding the subframe a priori is the algebraic codebook gain of the subframe of the current conversation / voice frame preceding the current conversation / voice frame is generic If it is greater than or equal to the codebook gain (eg, the algebraic codebook gain of the subframe of the previous current speech / voice frame is greater than or equal to one algebraic codebook gain of the subframe prior to the preceding subframe, eg, 1 , 1.5, 2, 2.5, 3, 3.4, or 4 times) an algebraic code for the current subframe of the previous current conversation / voice frame The ratio of the book gain to the algebraic codebook gain of the subframe adjacent to the previous current subframe, adjacent to the current subframe preceding the adaptive codebook gain of the current subframe of the previous current speech / voice frame The ratio of the subframe to the adaptive codebook gain or the algebraic codebook gain of the previous current conversation / voice frame of the previous current conversation / voice frame Adjust (attenuate or reinforce) the adaptive codebook gain of the current subframe of the previous current speech / speech frame based on at least one of the ratios to the book gain (eg, previous current speech / speech frame) Current subframe algebraic codebook gain preceding current The ratio of the subframe adjacent to the subframe to the algebraic codebook gain is greater than or equal to the eleventh threshold (the eleventh threshold is equal to, for example, 2, 2.1, 2.5, 3, or another value) The ratio of the adaptive codebook gain of the current subframe of the speech / voice frame to the adaptive codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, , 1, 1.1, 1.5, 2, 2.1, or equal to another value), the previous current conversation / speech frame prior to the algebraic codebook gain of the current subframe of the previous current conversation / speech frame / Ratio of speech frame to algebraic codebook gain is less than or equal to thirteenth threshold (thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value) The adaptive codebook gain of the current subframe of the previous current speech / voice frame may be augmented), or the previous current speech / voice frame is a redundant decoded frame, or the previous The current conversation / voice frame to be a regular decoded frame, and the previous conversation / voice frame to the previous current conversation / voice frame is a redundant decoded frame, and the previous current The speech / speech frame signal class is voiced, the previous current conversation / speech frame previous speech / speech frame signal class is generic, and the sub-algebra of the previous current speech / speech frame If the codebook gain is greater than or equal to the algebraic codebook gain of the previous conversation / speech frame of the previous current conversation / speech frame (e.g. The algebraic codebook gain of the subframe of the current conversation / voice frame to be greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the previous current conversation / voice frame, eg, 1, 1.5, 2, 2.5, 3, 3.4, or more than 4 times) the algebraic codebook gain of the subframe adjacent to the previous current subframe of the current subframe of the current subframe of the previous current speech / voice frame Ratio, ratio of the adaptive codebook gain of the current subframe of the previous current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the previous current subframe, or the previous current speech / voice The algebraic codebook gain of the current subframe of the frame precedes the current conversation / voice frame prior to the current speech / voice frame. Adjust (attenuate or augment) the adaptive codebook gain of the current subframe of the previous current speech / voice frame based on at least one of its ratio to the algebraic codebook gain (eg, the previous current The ratio of the algebraic codebook gain of the current subframe of the speech / voice frame to the algebraic codebook gain of the subframe adjacent to the preceding current subframe is greater than or equal to the eleventh threshold (the eleventh threshold is, for example, 2 , 2.1, 2.5, 3, or another value), the adaptive codebook gain of the current subframe of the previous current speech / voice frame, of the subframe adjacent to the previous current subframe The ratio to the adaptive codebook gain is greater than or equal to the twelfth threshold (the twelfth threshold is, for example, 1, 1.1, 1.5, 2, 2.1, or The algebraic codebook gain of the current subframe of the previous current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the previous conversation / voice frame. Is less than or equal to the thirteenth threshold (the thirteenth threshold may be equal to, for example, 1, 1.1, 1.5, 2, or another value), the current subframe of the preceding current conversation / voice frame Adaptive codebook gain may be reinforced)
You may comprise as follows.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声 フレームの代数 コードブックを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施して、先行する現在の会話/音声フレームの後処理された代数コードブックを取得するように構成してもよい。   In another embodiment of the present invention, the preceding current conversation / voice frame conversation / speech decoding parameter includes an algebra codebook of the preceding current conversation / speech frame, and X conversations / speech frame conversation / A mode of performing post-processing on a conversation / voice decoding parameter of a preceding current conversation / voice frame according to the voice parameter to obtain a post-processed conversation / voice decoding parameter of the preceding current conversation / voice frame. , By invoking a program or instruction stored in the memory 505, the processor 501 in particular in accordance with at least one of the signal class, algebraic codebook, or spectral torsion factor of the X speech / voice frames. The process is performed on the algebraic codebook of the current conversation / speech frame that precedes, and the previous current It may be configured to obtain the processed algebraic codebooks after conversation / speech frame.

例えば、当該X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの代数コードブックに実施する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、
先行する現在の会話/音声フレームが冗長な復号化されたフレームであり、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、先行する現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、先行する現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を先行する現在のサブフレームの代数コードブックとして使用するように構成してもよい。
For example, in an aspect in which post-processing is performed on an algebraic codebook of a preceding current speech / voice frame according to at least one of the signal class of the X speech / voice frames, an algebraic codebook, or a spectral twist factor In particular, the processor 501 is activated by activating a program or instruction stored in the memory 505.
The previous current conversation / voice frame is a redundant decoded frame, the next conversation / voice frame signal class of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the previous speech / voice frame is less than or equal to the eighth threshold and the algebraic codebook of the subframe of the previous current speech / voice frame is 0 or less than or equal to the ninth threshold, The algebraic codebook of the previous subframe prior to the previous current speech / voice frame or random noise may be configured to be used as the algebraic codebook of the previous current subframe.

第8の閾値および第9の閾値の各々を異なる適用環境またはシナリオに従って異なる値に設定してもよい。   Each of the eighth threshold value and the ninth threshold value may be set to a different value according to a different application environment or scenario.

例えば第8の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   For example, the eighth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば第9の閾値を0.1、0.09、0.11、0.07、0.101、0.099、または0に近い別の値に設定してもよい。   For example, the ninth threshold value may be set to 0.1, 0.09, 0.11, 0.07, 0.101, 0.099, or another value close to 0.

第8の閾値が第2の閾値に等しくてもよくまたは等しくなくてもよい。   The eighth threshold may or may not be equal to the second threshold.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームの帯域幅拡張エンベロープを含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するように構成してもよい。   In another embodiment of the present invention, the conversation / voice decoding parameter of the previous current conversation / voice frame includes a bandwidth extension envelope of the previous current conversation / voice frame, and the conversation of X conversations / voice frames. According to / speech parameters, post-processing is performed on speech / speech decoding parameters of previous current conversation / speech frame to obtain post-processed speech / speech decoding parameters of preceding current conversation / speech frame. In an aspect, by invoking a program or instruction stored in the memory 505, the processor 501 specifically according to at least one of the signal class, bandwidth extension envelope, or spectral torsion factor of the X speech / voice frames. Performs post-processing on the current speech / voice frame bandwidth extension envelope Te, it may be configured to obtain the processed bandwidth extension envelope after the current conversation / speech frame preceding.

例えば、当該X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って後処理を先行する現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、
先行する現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、先行する現在の会話/音声フレームの前の会話/音声フレームの信号クラスが現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するか、または、
先行する現在の会話/音声フレームが冗長復号化の予測形式である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するか、または、
先行する現在の会話/音声フレームの信号クラスが無音でなく、先行する現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する
ように構成してもよい。
For example, performing post-processing on the bandwidth extension envelope of the current conversation / voice frame preceding according to at least one of the signal class of the X speech / voice frames, the bandwidth extension envelope, or the spectral torsion factor, In particular, by invoking a program or instruction stored in memory 505 in a manner that obtains a post-processed bandwidth expansion envelope of a previous current speech / voice frame, processor 501
The conversation / voice frame before the previous current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the previous current conversation / voice frame is the current conversation / voice. If it is the same as the signal class of the next conversation / voice frame of the frame, the bandwidth extension envelope of the previous current conversation / voice frame, the previous conversation / voice frame and the previous current conversation / voice frame Based on the envelope, obtain a post-processed bandwidth extension envelope of the previous current conversation / voice frame, or
If the previous current conversation / voice frame is in the predictive form of redundant decoding, the bandwidth extension envelope of the previous conversation / voice frame before the previous current conversation / voice frame and the bandwidth of the previous current conversation / voice frame Obtain a post-processed bandwidth expansion envelope based on the width expansion envelope, or post-processed previous current speech / voice frame, or
The signal class of the previous current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the previous current conversation / voice frame is silence, and the previous current conversation / voice frame If the spectral torsion factor of the conversation / voice frame is less than or equal to the tenth threshold, the previous current conversation / voice frame is expanded according to the previous speech / voice frame bandwidth extension envelope or the spectral torsion factor. The bandwidth extension envelope of the voice frame may be modified to obtain a post-processed bandwidth extension envelope of the preceding current speech / voice frame.

第10の閾値を異なる適用環境またはシナリオに従って異なる値に設定してもよい。例えば、第10の閾値を0.16、0.15、0.165、0.1、0.161、または0.159に設定してもよい。   The tenth threshold may be set to different values according to different application environments or scenarios. For example, the tenth threshold value may be set to 0.16, 0.15, 0.165, 0.1, 0.161, or 0.159.

例えば、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび先行する現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって、先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを特に取得するように構成してもよい。
GainFrameは先行する現在の会話/音声フレームの後処理された帯域幅拡張エンベロープであり、GainFrame_oldは先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは先行する現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は先行する現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である。
For example, post-processing of previous current conversation / voice frame based on bandwidth extension envelope of previous conversation / voice frame prior to previous current conversation / voice frame and bandwidth extension envelope of previous current conversation / voice frame In a manner to obtain a bandwidth extension envelope that has been processed, by invoking a program or instruction stored in memory 505, processor 501 in particular, the bandwidth of the conversation / voice frame prior to the previous current conversation / voice frame. Based on the extension envelope and the bandwidth extension envelope of the previous current speech / voice frame, and the following equation:
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
May be configured to specifically obtain a post-processed bandwidth extension envelope of the preceding current conversation / voice frame.
GainFrame is the post-processed bandwidth extension envelope of the previous current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the previous current conversation / voice frame, and GainFrame_new is the lead Is the bandwidth extension envelope of the current conversation / speech frame, fac1 is the weight of the bandwidth / envelope extension envelope of the previous conversation / speech frame of the previous current conversation / speech frame, and fac2 is the previous current conversation / speech / The weight of the bandwidth expansion envelope of the voice frame, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1.

別の例として、先行する現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための修正因子は先行する現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、先行する現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの先行する現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する。   As another example, the correction factor for correcting the bandwidth extension envelope of the preceding current conversation / voice frame is inversely proportional to the spectral twist factor of the conversation / voice frame before the previous current conversation / voice frame, Is proportional to the ratio of the previous conversation / voice frame bandwidth extension envelope to the previous conversation / voice frame bandwidth extension envelope.

本発明の他の実施形態では、先行する現在の会話/音声フレームの会話/音声復号化パラメータは先行する現在の会話/音声フレームのピッチ区間を含み、X個の会話/音声フレームの会話/音声パラメータに従って、後処理を先行する現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得する態様において、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を特に、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って後処理を先行する現在の会話/音声フレームのピッチ区間に実施して(例えば、補強または減衰のような後処理を、当該X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って先行する現在の会話/音声フレームのピッチ区間に実施してもよい)、先行する現在の会話/音声フレームの後処理されたピッチ区間を取得するように構成してもよい。   In another embodiment of the present invention, the conversation / speech decoding parameter of the previous current conversation / voice frame includes the pitch interval of the previous current conversation / speech frame, and the conversation / speech of X conversations / speech frames. In an aspect in which post-processing is performed on the conversation / voice decoding parameters of the preceding current conversation / voice frame according to the parameters to obtain post-processed conversation / voice decoding parameters of the preceding current conversation / voice frame. , By invoking a program or instruction stored in memory 505, processor 501, in particular, of the current conversation / voice frame that precedes post-processing according to the signal class and / or pitch duration of the X conversation / voice frames. Implemented in the pitch interval (eg, post-processing such as reinforcement or attenuation, the X conversation / voice frames) Configured to obtain a post-processed pitch interval of the preceding current conversation / voice frame, which may be performed on the pitch interval of the preceding current conversation / voice frame) according to the signal class and / or pitch interval of May be.

当該実施形態における復号器500の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは説明しない。復号器500が、会話を出力する必要がある任意の装置、例えば、ノートブック・コンピュータ、タブレット・コンピュータ、またはパーソナル・コンピュータ、または携帯電話のようなデバイスであってもよい。   It can be appreciated that the functionality of the functional modules of the decoder 500 in this embodiment may be implemented in particular according to the method in the method embodiment described above. For the specific implementation process, please refer to the related description of the method embodiments described above. Details are not described here. Decoder 500 may be any device that needs to output a conversation, such as a notebook computer, tablet computer, or personal computer, or a device such as a mobile phone.

上述の説明から、当該実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの復号化パラメータを取得した後、復号器側は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびFEC復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in this embodiment, the current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the current conversation / voice frame is redundantly decoded. In the scenario of a frame, after obtaining the decoding parameters of the current conversation / voice frame, the decoder side performs post-processing according to the conversation / voice parameters of X conversations / voice frames. Perform on speech / speech decoding parameters to obtain post-processed speech / speech decoding parameters for the previous current conversation / speech frame and use post-speech speech decoding parameters for the current conversation / speech frame To restore the conversation / voice signal of the current conversation / voice frame, and the preceding X conversation / voice frames are represented by the preceding current conversation. Includes M conversation / voice frames before voice frame and / or N conversation / voice frames following previous current conversation / voice frame, thereby redundant decoded frame and normal decoding It can be seen that a stable quality of the decoded signal is ensured during the transition between the decoded frames or between the redundant decoded frame and the FEC recovery frame, which increases the quality of the output speech / voice signal. obtain.

上述の説明から、本発明の幾つかの諸実施形態では、無声会話/音声フレームと非無声会話/音声フレームの間の遷移中に(例えば、現在の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが非無声信号タイプの正規の復号化されたフレームであるとき、または現在の会話/音声フレームが非無声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが無声信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、無声会話/音声フレームと非無声会話/音声フレームの間のフレームの間の遷移中に生ずるクリック(click)現象の回避が支援され、それにより、出力会話/音声信号の品質が高まることが分かり得る。   From the above description, in some embodiments of the present invention, during a transition between unvoiced / voice frames and non-voiced / voice frames (eg, the current conversation / voice frame is a redundant voice class). A decoded frame, when the current conversation / voice frame is a normal decoded frame of the non-silent signal type, or the current conversation / voice frame is non-silent A regular decoded frame of the signal class and when the current conversation / voice frame is the previous or next conversation / voice frame is a redundant decoded frame of the unvoiced signal class), the post-processing is the current Performed on conversation / voice decoding parameters for conversation / voice frames, thereby transitioning between frames between unvoiced / voice frames and unvoiced conversation / voice frames Avoidance of the resulting click (click) phenomenon is support, thereby, it can be seen that the quality of the output conversation / audio signal is increased.

本発明の他の実施形態では、汎用的な会話/音声フレームと有声の会話/音声フレームの間の遷移中に(現在のフレームが汎用フレームであり冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであるか、または、現在の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが汎用信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、汎用フレームと有声フレームの間の遷移中に生ずるエネルギ不安定現象の矯正が支援され、これにより出力会話/音声信号の品質が高まる。   In another embodiment of the present invention, during a transition between a generic conversation / voice frame and a voiced conversation / voice frame (the current frame is a generic frame and a redundant decoded frame, The previous / next conversation / voice frame of the conversation / voice frame is a regular decoded frame of the voiced signal class, or the current conversation / voice frame is a regular decoded frame of the voiced signal class Yes, when the previous conversation / voice frame of the current conversation / voice frame or the next conversation / voice frame is a redundant decoded frame of the general signal class), the post-processing is the conversation / voice decoding parameters of the current conversation / voice frame. This helps to correct the energy instability phenomenon that occurs during the transition between the generic frame and the voiced frame, and thereby the output speech / voice signal. The quality is enhanced.

本発明のさらに他の実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであり、現在の会話/音声フレームの信号クラスが無音でなく、現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であるとき、現在のフレームの帯域幅拡張エンベロープを調節して、時間領域帯域幅拡張におけるエネルギ不安定現象を矯正し、出力会話/音声信号の品質を高める。   In yet another embodiment of the invention, the current conversation / voice frame is a redundant decoded frame, the current conversation / voice frame signal class is not silence, and When the signal class of the speech / voice frame is silence, the bandwidth extension envelope of the current frame is adjusted to correct the energy instability phenomenon in the time domain bandwidth extension and improve the quality of the output speech / voice signal.

本発明の1実施形態ではさらにコンピュータ記憶媒体を提供する。当該コンピュータ記憶媒体はプログラムを格納してもよい。実行されているとき、当該プログラムは、上述の方法の実施形態で説明した任意の会話/音声ビットストリーム復号化方法の一部または全部のステップを含む。   One embodiment of the present invention further provides a computer storage medium. The computer storage medium may store a program. When executed, the program includes some or all of the steps of any of the speech / audio bitstream decoding methods described in the method embodiments above.

説明を簡単にするために、上述の方法の実施形態は一連の動作として表現されていることに留意すべきである。しかし、本発明によれば、幾つかのステップを他のシーケンス内で実施してもよく、または、同時に実施してもよいので、本発明は説明した動作シーケンスには限定されないことを当業者は理解すべきである。さらに、本明細書で説明した実施形態の全ては好適な実施形態であり、関連する動作およびモジュールは必ずしも本発明に必須であるわけではないことも当業者は理解すべきである。   It should be noted that for ease of explanation, the above-described method embodiments are represented as a series of operations. However, according to the present invention, those skilled in the art will recognize that the present invention is not limited to the described operational sequence, as some steps may be performed in other sequences or may be performed simultaneously. Should be understood. Further, it should also be understood by those skilled in the art that all of the embodiments described herein are preferred embodiments and that the associated operations and modules are not necessarily essential to the invention.

上述の実施形態では、各実施形態の説明はそれぞれのフォーカスを有する。実施形態で詳細に説明しなかった部分については他の実施形態における関連説明を参照されたい。   In the embodiments described above, the description of each embodiment has its own focus. For parts that have not been described in detail in the embodiments, refer to related descriptions in other embodiments.

本願で提供した幾つかの実施形態では、開示した装置を別の方式で実装してもよいことは理解されるべきである。例えば、説明した装置の実施形態は例示的なものにすぎない。例えば、ユニット分割は論理的な機能分割にすぎず、実際の実装では他の分割であってもよい。例えば、複数のユニットまたはコンポーネントを、別のシステムに結合するかまたは統合してもよく、または、幾つかの特徴を無視するかまたは実施しなくてもよい。さらに、表示もしくは議論した相互接続または直接接続もしくは通信接続を、幾つかのインタフェースを通じて実装してもよい。装置またはユニットの間の間接接続または通信接続を電子的または他の形態で実装してもよい。   It should be understood that in some embodiments provided herein, the disclosed apparatus may be implemented in other ways. For example, the described apparatus embodiment is merely exemplary. For example, the unit division is merely logical function division, and may be other division in actual implementation. For example, multiple units or components may be combined or integrated into another system, or some features may be ignored or not implemented. Furthermore, the displayed or discussed interconnections or direct connections or communication connections may be implemented through several interfaces. Indirect or communication connections between devices or units may be implemented electronically or otherwise.

別々の部分として説明したユニットが、物理的に別々であってもなくてもよく、ユニットとして表示した部分が物理ユニットであってもなくてもよく、1つの位置に配置してもよく、または、複数のネットワーク・ユニットに分散させてもよい。当該ユニットの一部または全部を、実施形態の解決策の目的を達成するための実際のニーズに従って選択してもよい。   The units described as separate parts may or may not be physically separate, the part displayed as a unit may or may not be a physical unit, or may be placed in one location, or May be distributed over a plurality of network units. Some or all of the units may be selected according to actual needs to achieve the objectives of the solutions of the embodiments.

さらに、本発明の諸実施形態における機能ユニットを1つの処理ユニットに統合してもよく、または、当該ユニットの各々は、物理的に単体で存在してもよく、または、2つもしくはそれより多くのユニットが1つのユニットに統合される。当該統合ユニットが、ハードウェアの形で実装してもよく、または、ソフトウェア機能ユニットの形で実装してもよい。   Further, the functional units in embodiments of the present invention may be integrated into one processing unit, or each of the units may physically exist as a single unit, or two or more. Are integrated into one unit. The integration unit may be implemented in the form of hardware or may be implemented in the form of a software functional unit.

当該統合ユニットがソフトウェア機能ユニットの形で実装され独立な製品として販売または利用されるとき、当該統合ユニットをコンピュータ可読記憶媒体に格納してもよい。かかる理解に基づいて、本発明の技術的解決策は本質的に、または、先行技術に寄与する部分、または、当該技術的解決策の全部もしくは一部をソフトウェア製品の形で実装してもよい。当該ソフトウェア製品は記憶媒体に格納され、本発明の諸実施形態で説明した上述の方法のステップの全部または一部を実施するようにコンピュータ・デバイス(パーソナル・コンピュータ、サーバ、またはネットワーク・デバイスであってもよく、特に、コンピュータ・デバイス内のプロセッサであってもよい)に指示するための幾つかの命令を含む。上述の記憶媒体は、USBフラッシュ・ドライブ、磁気ディスク、ランダム・アクセス・メモリ(RAM、random access memory)、読取専用メモリ(ROM、read−only memory)、取外し可能ハード・ディスク、または光ディスクのような、プログラム・コードを格納できる任意の媒体を含んでもよい。   When the integrated unit is implemented in the form of a software functional unit and sold or used as an independent product, the integrated unit may be stored in a computer-readable storage medium. Based on this understanding, the technical solution of the present invention may be implemented in the form of a software product, essentially or part of the prior art, or all or part of the technical solution. . The software product is stored on a storage medium and is a computer device (a personal computer, server, or network device) that performs all or part of the steps of the method described above in the embodiments of the present invention. In particular, which may be a processor in a computing device). Such storage media can be USB flash drives, magnetic disks, random access memory (RAM), read-only memory (ROM), removable hard disks, or optical disks such as optical disks. Any medium capable of storing program code may be included.

上述の実施形態は本発明の技術的解決策を説明するためのものにすぎず、本発明を限定するためのものではない。上述の実施形態を参照して本発明を詳細に説明したが、当業者が依然として本発明の諸実施形態の技術的解決策の趣旨と範囲から逸脱しない修正を上述の実施形態で説明した技術的解決策に加えるか、または、その幾つかの技術的特徴に均等な置換えを行ってもよいことを当業者は理解すべきである。上述の実施形態は本発明の技術的解決策を説明するためのものにすぎず、本発明を限定するためのものではない。上述の実施形態を参照して本発明を詳細に説明したが、当業者が依然として本発明の諸実施形態の技術的解決策の趣旨と範囲から逸脱しない修正を上述の実施形態で説明した技術的解決策に加えるか、または、その幾つかの技術的特徴に均等な置換えを行ってもよいことを当業者は理解すべきである。   The above-described embodiments are merely illustrative of the technical solutions of the present invention and are not intended to limit the present invention. Although the present invention has been described in detail with reference to the above-described embodiments, those skilled in the art have described the technical descriptions described in the above-described embodiments without departing from the spirit and scope of the technical solutions of the embodiments of the present invention. It should be understood by those skilled in the art that in addition to the solution, or equivalent replacements may be made to some technical features thereof. The above-described embodiments are merely illustrative of the technical solutions of the present invention and are not intended to limit the present invention. Although the present invention has been described in detail with reference to the above-described embodiments, those skilled in the art have described the technical descriptions described in the above-described embodiments without departing from the spirit and scope of the technical solutions of the embodiments of the present invention. It should be understood by those skilled in the art that in addition to the solution, or equivalent replacements may be made to some technical features thereof.

300 復号器
310 パラメータ取得ユニット
320 後処理ユニット
330 復元ユニット
400 復号器
402 プロセッサ
403 メモリ
500 復号器
501 プロセッサ
503 ユーザ・インタフェース
504 ネットワーク・インタフェース
505 メモリ
5051 オペレーティング・システム
5052 アプリケーション・プログラム
300 Decoder 310 Parameter acquisition unit 320 Post-processing unit 330 Restoration unit 400 Decoder 402 Processor 403 Memory 500 Decoder 501 Processor 503 User interface 504 Network interface 505 Memory 5051 Operating system 5052 Application program

ボイス・オーバ・インターネット・プロトコル(VoIP、Voice over Internet Protocol)に基づくシステムでは、パケットは、送信プロセスにおいて複数のルータを通過する必要がありうるが、これらのルータは呼プロセスにおいて変化しうるので、当該呼プロセスにおける送信遅延が変化しうる。さらに、2つまたはそれより多くのユーザが同一のゲートウェイを用いることによってネットワークに入ることを試みるとき、ルーティング遅延が変化する可能性があり、かかる遅延の変化は遅延ジッタ(delay jitter)と呼ばれる。同様に、遅延ジッタは、受信器送信器、ゲートウェイ等が非リアルタイム・オペレーティング・システムを使用するときに生じる可能性があり、厳しい状況では、データ・パケット損失が生じ、VoIP品質の会話/音声歪みおよび悪化の結果となる。
In a system based on the Voice over Internet Protocol (VoIP), packets may need to pass through multiple routers in the transmission process, but these routers can change in the call process, The transmission delay in the call process can vary. In addition, when two or more users attempt to enter the network by using the same gateway, the routing delay can change, and such delay change is called delay jitter. Similarly, delay jitter can occur when receivers , transmitters , gateways, etc. use non-real-time operating systems, and in severe situations, data packet loss results and VoIP quality conversation / voice. As a result of distortion and deterioration.

今日、遅延を減らし、遅延ジッタを平滑化し、パケット損失補償を実施するために、多数の技術が通信システムの様々な層で使用されている。受信器は、高効率ジッタ・バッファ処理(JBM、Jitter Buffer Management)アルゴリズムを使用して、ネットワーク遅延ジッタを或る程度補償することができる。しかし、相対的に高いパケット損失率の場合では、明らかに、JBM技術のみを用いることによって高品質通信要件を満たすことはできない。
Today, a number of techniques are used at various layers of a communication system to reduce delay, smooth delay jitter, and implement packet loss compensation. The receiver can compensate for network delay jitter to some extent using a high efficiency jitter buffer processing (JBM) algorithm. However, in the case of relatively high packet loss rates, obviously, high quality communication requirements cannot be met by using only JBM technology.

会話/音声フレームの遅延ジッタに起因する品質悪化問題の回避を支援するために、冗長符号化アルゴリズムが導入されている。即ち、現在の会話/音声フレーム情報を特定のビット速度で符号化することに加えて、エンコーダは、低ビット速度で現在の会話/音声フレーム以外の会話/音声フレーム情報をエンコードし、その他の会話/音声フレーム情報の相対的に低ビット速度のビットストリームを、冗長情報として、復号器に現在の会話/音声フレームのビットストリーム情報とともに送信する。会話/音声フレームが失われると、ジッタ・バッファが失われた会話/音声フレームの冗長情報をバッファするか、または受信したビットストリームが失われた会話/音声フレームの冗長情報を含み復号器が当該冗長情報に従って当該失われた会話/音声フレームを復元し、それにより会話/音声品質を高める。
In order to help avoid quality degradation problems due to speech / speech frame delay jitter, redundant coding algorithms have been introduced. That is, in addition to encoding the current conversation / voice frame information at a specific bit rate, the encoder encodes conversation / voice frame information other than the current conversation / voice frame at a lower bit rate, and other conversations. / A relatively low bit rate bit stream of audio frame information is transmitted as redundant information to the decoder along with the bit stream information of the current speech / audio frame. When a speech / voice frame is lost, the jitter buffer buffers the lost speech / voice frame redundancy information , or the received bitstream contains lost speech / voice frame redundancy information, and the decoder The lost conversation / voice frame is recovered according to the redundant information, thereby improving the conversation / voice quality.

既存の冗長符号化アルゴリズムでは、N番目のフレームの会話/音声フレーム情報を含めることに加えて、当該N番目のフレームのビットストリームは、低ビット速度の(N−M)番目のフレームの会話/音声フレーム情報を含む。送信プロセスでは、当該(N−M)番目のフレームが失われた場合、(N−M)番目のフレームの会話/音声信号を復元するために、復号化処理がN番目のフレームのビットストリームに含まれる(N−M)番目のフレームの会話/音声フレーム情報に従って実施される。
In the existing redundant coding algorithm, in addition to including the conversation / voice frame information of the Nth frame, the bitstream of the Nth frame is the (N−M) th frame conversation / low bit rate. Contains audio frame information. In the transmission process, when the (NM) th frame is lost, the decoding process is performed on the bitstream of the Nth frame in order to restore the conversation / voice signal of the (NM) th frame. This is performed according to the conversation / voice frame information of the (N−M) th frame included.

本発明の幾つかの諸実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの会話/音声復号化パラメータを取得した後、復号器は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびフレーム消去隠匿(FEC、Frame erasure concealment)復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。
In some embodiments of the present invention, the current conversation / voice frame is a redundant decoded frame or the previous conversation / voice frame of the current conversation / voice frame is a redundant decoded frame. In a scenario, after obtaining the conversation / voice decoding parameters of the current conversation / voice frame, the decoder performs post-processing according to the conversation / voice parameters of X conversations / voice frames for the current conversation / voice frame. implemented in a conversation / speech decoding parameters, to get the talk / speech decoding parameters have been processed after the current conversation / speech frame, a talk / speech decoding parameters have been processed after the current conversation / speech frame Restores the conversation / voice signal of the current conversation / voice frame by using the preceding X conversation / voice frames as the preceding current conversation / sound Includes M conversation / voice frames before the frame and / or N conversation / voice frames next to the previous current conversation / voice frame so that the redundant decoded frame and the normal decoded Stable quality of the decoded signal during transitions between frames, or between redundant decoded frames and frame erasure concealment (FEC) restored frames is ensured, so that the output speech / voice It can be seen that the quality of the signal is increased.

本発明の諸実施形態の技術的解決策をより明確に説明するために、以下では実施形態を説明するのに必要な添付図面を簡単に説明する。明らかに、以下の説明における添付図面は本発明の幾つかの実施形態を示すにずぎず、当業者は創造的努力なしにこれらの添付図面から他の図面を依然として導出することができる。
BRIEF DESCRIPTION OF THE DRAWINGS To describe the technical solutions in the embodiments of the present invention more clearly, the following briefly describes the accompanying drawings required for describing the embodiments . Apparently, the accompanying drawings in the following description show some embodiments of the present invention, and those skilled in the art can still derive other drawings from these accompanying drawings without creative efforts.

本発明の発明の目的、特徴、および利点をより明確かつより理解可能とするために、以下では、本発明の諸実施形態の添付図面を参照して本発明の諸実施形態の技術的解決策を明確に説明する。明らかに、以下で説明する実施形態は本発明の諸実施形態の全部ではなく一部にすぎない。当業者が創造的努力なしに本発明の諸実施形態に基づいて得る他の全ての実施形態は本発明の保護範囲に入るものとする。
In order to make the objects, features and advantages of the present invention clearer and more understandable, the technical solutions of the embodiments of the present invention will be described below with reference to the accompanying drawings of the embodiments of the present invention. Is clearly explained. Apparently, the embodiments described below are only a part rather than all of the embodiments of the present invention. All other embodiments obtained by persons of ordinary skill in the art based on the embodiments of the present invention without creative efforts shall fall within the protection scope of the present invention.

図1は、本発明の1実施形態に従う会話/音声ビットストリーム復号化方法の略流れ図である。本発明の当該実施形態で提供する会話/音声ビットストリーム復号化方法が以下の内容を含んでもよい。
FIG. 1 is a schematic flowchart of a speech / voice bitstream decoding method according to an embodiment of the present invention. The conversation / audio bitstream decoding method provided in the embodiment of the present invention may include the following contents.

会話/音声フレームの信号クラスが、無声(UNVOICED)、有声(VOICED)、汎用(GENERIC)、遷移(TRANSITION)、不活性(INACTIVE)等であってもよい。
Signal conversation class / speech frame, unvoiced (UNVOICED), voiced (VOICED), universal (GENERIC), the transition (TRANSITION), may be an inactive (INACTIVE), and the like.

スペクトル対パラメータが、例えば、線スペクトル対(LSP:Line Spectral Pair)パラメータまたはイミタンス・スペクトル対(ISP:Immittance Spectral Pair)パラメータのうち少なくとも1つであってもよい。
Spectrum pair parameters, for example, a line spectral pair (LSP: Line Spectral Pair) parameters or immittance spectral pairs (ISP: Immittance Spectral Pair) may be at least one of the parameters.

上述の説明から、当該実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの会話/音声復号化パラメータを取得した後、復号器は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびFEC復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。
From the above description, in this embodiment, the current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the current conversation / voice frame is redundantly decoded. In a scenario that is a frame, after obtaining the conversation / voice decoding parameters of the current conversation / voice frame, the decoder performs post-processing on the current conversation / voice frame according to the conversation / voice parameters of X conversations / voice frames. implemented in a conversation / speech decoding parameters of the preceding acquires conversation / speech decoding parameters have been processed after the current conversation / speech frame, speech is processed after the current conversation / speech frame / audio decoding The conversation / voice signal of the current conversation / voice frame is restored by using the activation parameter, and the preceding X conversation / voice frames are A redundant decoded frame including M conversation / voice frames before the current conversation / voice frame and / or N conversation / voice frames next to the previous current conversation / voice frame. And a stable quality of the decoded signal during the transition between regular decoded frames or between redundant decoded frames and FEC recovered frames, thereby ensuring the quality of the output speech / voice signal Can be seen to increase.

本発明の他の実施形態では、汎用的な会話/音声フレームと有声の会話/音声フレームの間の遷移中に(現在の会話/音声フレームが汎用フレームであり冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであるとき、または、現在の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが汎用信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、汎用フレームと有声フレームの間の遷移中に生ずるエネルギ不安定現象の矯正が支援され、これにより出力会話/音声信号の品質が高まる。
In another embodiment of the present invention, during the transition between a generic conversation / voice frame and a voiced conversation / voice frame (the current conversation / voice frame is a generic frame and a redundant decoded frame). When the current conversation / voice frame is the normal decoded frame of the voiced signal class or when the current conversation / voice frame is the normal decoded frame of the voiced signal class Post-processing, when the current conversation / speech frame is a redundant decoded frame of the general signal class) and post-processing is the conversation / speech of the current conversation / speech frame Decoding parameters are implemented, which assists in correcting energy instability phenomena that occur during transitions between general-purpose frames and voiced frames, and thus the output conversation The quality of the voice signal is increased.

具体的には、例えば、JBMアルゴリズムまたは別のアルゴリズムに基づいて、現在の会話/音声フレームが正規の復号化されたフレーム、冗長な復号化されたフレーム、またはFEC復元フレームであると判定してもよい。
Specifically, for example, based on the JBM algorithm or another algorithm, it is determined that the current speech / voice frame is a regular decoded frame, a redundant decoded frame, or an FEC recovery frame. Also good.

当該実施形態における後処理を会話/音声復号化パラメータに実施することの詳細については、上述の方法の実施形態の関連説明を参照できることは分かりうる。詳細についてはここでは説明しない。It can be seen that the details of performing post-processing on speech / speech decoding parameters in this embodiment can be referred to the related description of the method embodiments described above. Details are not described here.

上述の説明から、当該実施形態では、現在の会話/音声フレームが冗長な復号化されたフレームであるかまたは先行する現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであるシナリオにおいて、現在の会話/音声フレームの会話/音声復号化パラメータを取得した後、復号器は、X個の会話/音声フレームの会話/音声パラメータに従って後処理を現在の会話/音声フレームの会話/音声復号化パラメータに実施して、先行する現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得し、現在の会話/音声フレームの後処理された会話/音声復号化パラメータを用いることによって現在の会話/音声フレームの会話/音声信号を復元し、先行するX個の会話/音声フレームは、先行する現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または先行する現在の会話/音声フレームの次のN個の会話/音声フレームを含み、これにより冗長な復号化されたフレームおよび正規の復号化されたフレームの間または冗長な復号化されたフレームおよびFEC復元フレームの間の遷移中の復号化された信号の安定な品質が保証され、これにより出力会話/音声信号の品質が高まることが分かり得る。
From the above description, in this embodiment, the current conversation / voice frame is a redundant decoded frame, or the previous conversation / voice frame before the current conversation / voice frame is redundantly decoded. In a scenario that is a frame, after obtaining the conversation / voice decoding parameters of the current conversation / voice frame, the decoder performs post-processing on the current conversation / voice frame according to the conversation / voice parameters of X conversations / voice frames. implemented in a conversation / speech decoding parameters of the preceding acquires conversation / speech decoding parameters have been processed after the current conversation / speech frame, speech is processed after the current conversation / speech frame / audio decoding The conversation / voice signal of the current conversation / voice frame is restored by using the activation parameter, and the preceding X conversation / voice frames are A redundant decoded frame including M conversation / voice frames before the current conversation / voice frame and / or N conversation / voice frames next to the previous current conversation / voice frame. And a stable quality of the decoded signal during the transition between regular decoded frames or between redundant decoded frames and FEC recovered frames, thereby ensuring the quality of the output speech / voice signal Can be seen to increase.

本発明の他の実施形態では、汎用的な会話/音声フレームと有声の会話/音声フレームの間の遷移中に(現在の会話/音声フレームが汎用フレームであり冗長な復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであるとき、または、現在の会話/音声フレームが有声信号クラスの正規の復号化されたフレームであり、現在の会話/音声フレームの前または次の会話/音声フレームが汎用信号クラスの冗長な復号化されたフレームであるとき)、後処理が現在の会話/音声フレームの会話/音声復号化パラメータに実施され、これにより、汎用フレームと有声フレームの間の遷移中に生ずるエネルギ不安定現象の矯正が支援され、これにより出力会話/音声信号の品質が高まる。
In another embodiment of the present invention, during the transition between a generic conversation / voice frame and a voiced conversation / voice frame (the current conversation / voice frame is a generic frame and a redundant decoded frame). When the current conversation / voice frame is the normal decoded frame of the voiced signal class or when the current conversation / voice frame is the normal decoded frame of the voiced signal class Post-processing, when the current conversation / speech frame is a redundant decoded frame of the general signal class) and post-processing is the conversation / speech of the current conversation / speech frame Decoding parameters are implemented, which assists in correcting energy instability phenomena that occur during transitions between general-purpose frames and voiced frames, and thus the output conversation The quality of the voice signal is increased.

図4は本発明の1実施形態に従う復号器400の略図である。復号器400は、少なくとも1つのバス401、バス401に接続された少なくとも1つのプロセッサ402、およびバス401に接続された少なくとも1つのメモリ403を含んでもよい。
FIG. 4 is a schematic diagram of a decoder 400 according to an embodiment of the present invention. Decoder 400 may include at least one bus 401, at least one processor 402 connected to bus 401, and at least one memory 403 connected to bus 401.

バス401を用いることによって、メモリ403に格納されたコードを起動することによって、プロセッサ402は以前の方法の実施形態で説明したステップを実施するように構成され、プロセッサ402の具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照することができる。詳細についてはここでは説明しない。
By using the bus 401 to activate the code stored in the memory 403, the processor 402 is configured to perform the steps described in the previous method embodiment, and for the specific implementation process of the processor 402 Can refer to the relevant description of the method embodiments described above. Details are not described here.

図5を参照すると、図5は、本発明の別の実施形態に従う復号器500の構造ブロック図である。復号器500は、少なくとも1つのプロセッサ501、少なくとも1つのネットワーク・インタフェース504またはユーザ・インタフェース503、メモリ505、および少なくとも1つの通信バス502を含んでもよい。通信バス502は、これらのコンポーネントの間の接続および通信を実装するように構成される。復号器500は任意選択で、ユーザ・インタフェース503を含んでもよい。ユーザ・インタフェース503は、ディスプレイ(例えば、タッチスクリーン、LCD、CRT、ホログラフィック・デバイス、またはプロジェクタ(Projector))、クリック/タップ・デバイス(例えば、マウス、トラックボール(trackball)、タッチパッド、またはタッチスクリーン)、カメラおよび/またはピックアップ装置等を含む。
Referring to FIG. 5, FIG. 5 is a structural block diagram of a decoder 500 according to another embodiment of the present invention. Decoder 500 may include at least one processor 501, at least one network interface 504 or user interface 503, memory 505, and at least one communication bus 502. Communication bus 502 is configured to implement connections and communications between these components. Decoder 500 may optionally include a user interface 503. User interface 503 includes a display (e.g., touch screen, LCD, CRT, holographic click device or a projector, (Projector)), click / tap device (e.g., a mouse, a trackball (trackball), touch pad, or, Touch screen), camera and / or pick-up device.

メモリ505は、読取専用メモリおよびランダム・アクセス・メモリを含んでもよく、命令およびデータをプロセッサ501に提供する。メモリ505の一部がさらに、不揮発性ランダム・アクセス・メモリ(NVRAM)を含んでもよい。
Memory 505 may include read only memory and random access memory and provides instructions and data to processor 501. A portion of the memory 505 may further include non-volatile random access memory (NVRAM).

本発明の当該実施形態では、メモリ505に格納されたプログラムまたは命令を起動することによって、プロセッサ501を、以前の方法の実施形態で説明したステップを実施するように構成してもよい。
In this embodiment of the invention, the processor 501 may be configured to perform the steps described in the previous method embodiments by invoking a program or instruction stored in the memory 505.

異なる後処理を異なる会話/音声復号化パラメータに実施してもよい。例えば、現在の会話/音声フレームのスペクトル対パラメータに実施される後処理が、現在の会話/音声フレームのスペクトル対パラメータおよび現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを用いて、現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得することによって実施される適合的重み付けであってもよく、現在の会話/音声フレームの適応的コードブック利得に実施される後処理が、適応的コードブック利得に実施される減衰のような調整であってもよい。後処理に関する具体的な実装の詳細については、上述の方法の実施形態の関連説明を参照することができる。
Different post-processing may be performed on different conversation / voice decoding parameters. For example, the post-processing performed on the current speech / speech frame spectral pair parameter uses the current speech / speech frame spectral pair parameter and the previous speech / speech frame speech / speech frame spectral pair parameter. May be adaptive weighting implemented by obtaining post-processed spectrum pair parameters of the current speech / voice frame, and after being implemented on the adaptive codebook gain of the current speech / voice frame. The processing may be an adjustment such as attenuation performed on the adaptive codebook gain. For specific implementation details regarding post-processing, reference may be made to the relevant descriptions of the method embodiments described above.

説明を簡単にするために、上述の方法の実施形態は一連の動作として表現されていることに留意すべきである。しかし、本発明によれば、幾つかのステップを他のシーケンス内で実施してもよく、または、同時に実施してもよいので、本発明は説明した動作シーケンスには限定されないことを当業者は理解すべきである。
It should be noted that for ease of explanation, the above-described method embodiments are represented as a series of operations. However, according to the present invention, those skilled in the art will recognize that the present invention is not limited to the described operational sequence, as some steps may be performed in other sequences or may be performed simultaneously. Ru der should be understood.

上述の実施形態は本発明の技術的解決策を説明するためのものにすぎず、本発明を限定するためのものではない。上述の実施形態を参照して本発明を詳細に説明したが、当業者が依然として本発明の諸実施形態の技術的解決策の範囲から逸脱しない修正を上述の実施形態で説明した技術的解決策に加えるか、または、その幾つかの技術的特徴に均等な置換えを行ってもよいことを当業者は理解すべきである。
The above-described embodiments are merely illustrative of the technical solutions of the present invention and are not intended to limit the present invention. Although the present invention has been described in detail with reference to the above-described embodiments, technical solutions described in the above-described embodiments by those skilled in the art that still do not depart from the scope of the technical solutions of the embodiments of the present invention. either added to, or, some of those skilled in the art that may be performed equally replaced with technical features Ru der to be understood.

Claims (28)

現在の会話/音声フレームの会話/音声復号化パラメータを取得するステップであって、前記現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームである、ステップと、
X個の会話/音声フレームの会話/音声パラメータに従って後処理を前記現在の会話/音声フレームの前記会話/音声復号化パラメータに実施して、前記現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップであって、前記X個の会話/音声フレームは前記現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または前記現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である、ステップと、
前記現在の会話/音声フレームの前記後処理された会話/音声復号化パラメータを用いることによって前記現在の会話/音声フレームの会話/音声信号を復元するステップと、
を含む、会話/音声ビットストリーム復号化方法。
Obtaining a conversation / voice decoding parameter of a current conversation / voice frame, wherein the current conversation / voice frame is a redundant decoded frame or of the current conversation / voice frame; The previous speech / voice frame is a redundant decoded frame; and
Post-processing is performed on the conversation / voice decoding parameters of the current conversation / voice frame according to the conversation / voice parameters of X conversations / voice frames to post-process the conversation / voice-frame of the current conversation / voice frame. Obtaining speech decoding parameters, wherein the X conversation / voice frames are M conversation / voice frames before the current conversation / voice frame and / or next to the current conversation / voice frame. Including N conversation / voice frames, where M and N are positive integers;
Restoring the conversation / voice signal of the current conversation / voice frame by using the post-processed conversation / voice decoding parameters of the current conversation / voice frame;
A speech / audio bitstream decoding method comprising:
前記現在の会話/音声フレームの前記会話/音声復号化パラメータは前記現在の会話/音声フレームのスペクトル対パラメータを含み、前記X個の会話/音声フレームの会話/音声パラメータに従って後処理を前記現在の会話/音声フレームの前記会話/音声復号化パラメータに実施して、前記現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、前記X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って後処理を前記現在の会話/音声フレームのスペクトル対パラメータに実施して、前記現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップを含む、請求項1に記載の方法。   The conversation / speech decoding parameter of the current conversation / speech frame includes a spectrum pair parameter of the current conversation / speech frame, and post-processing is performed according to the conversation / speech parameter of the X conversations / speech frames. Performing on the conversation / voice decoding parameters of a conversation / voice frame to obtain post-processed conversation / voice decoding parameters of the current conversation / voice frame comprises: Post-processing is performed on the spectrum / parameters of the current speech / voice frame according to at least one of a signal class, a spectral torsion factor, an adaptive codebook gain, or a spectrum pair parameter to The method of claim 1, comprising obtaining post-processed spectral pair parameters. Method of. 前記X個の会話/音声フレームの信号クラス、スペクトル捩れ因子、適応的コードブック利得、またはスペクトル対パラメータのうち少なくとも1つに従って後処理を前記現在の会話/音声フレームのスペクトル対パラメータに実施して、前記現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するステップは、
前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、前記現在の会話/音声フレームのスペクトル対パラメータを前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータとして使用するステップ、または前記現在の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップ、または、
前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータとして使用するステップ、または前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータとして使用するステップ、または前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームが無音であり、前記現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータとして使用するステップ、または前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップ
を含む、請求項2に記載の方法。
Post-processing is performed on the spectrum / parameter of the current conversation / voice frame according to at least one of the signal class, spectrum twist factor, adaptive codebook gain, or spectrum pair parameter of the X speech / voice frames. Obtaining a post-processed spectrum pair parameter for the current speech / voice frame,
The current conversation / voice frame is a regular decoded frame, the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and the current conversation / voice frame If the signal class of the current conversation / voice frame is not silence and the signal class of the conversation / voice frame prior to the current conversation / voice frame is not silence, the spectrum / parameter of the current conversation / voice frame is Using as a post-processed spectrum pair parameter, or obtaining the post-processed spectrum pair parameter of the current speech / speech frame based on the spectrum pair parameter of the current speech / speech frame; Or
The current conversation / voice frame is a regular decoded frame, the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and the current conversation / voice frame If the signal class of the current conversation / voice frame is not silence and the signal class of the conversation / voice frame prior to the current conversation / voice frame is not silence, then the spectrum pair parameter of the current conversation / voice frame and the current conversation / voice frame Obtaining the post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum pair parameter of the previous conversation / voice frame; or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame Using the current speech / voice frame spectrum pair parameter as the post-processed spectrum pair parameter of the current speech / voice frame, or the current speech / voice frame Obtaining the post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum / parameter of the conversation / voice frame before the conversation / voice frame; or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame After the current conversation / voice frame, based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame. Obtaining processed spectral pair parameters, or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and a sub-frame in the next conversation / voice frame of the current conversation / voice frame If the maximum adaptive codebook gain for a frame is less than or equal to a first threshold and the spectral torsion factor of the previous conversation / voice frame before the current conversation / voice frame is less than or equal to a second threshold, the current Using the spectrum / parameter of the conversation / voice frame before the conversation / voice frame as the post-processed spectrum pair parameter of the current conversation / voice frame, or the conversation / Based on the spectrum pair parameter of the speech frame, the post-processed spectrum pair parameter of the current speech / speech frame. Step to get the meter or,,
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and a sub-frame in the next conversation / voice frame of the current conversation / voice frame If the maximum adaptive codebook gain for a frame is less than or equal to a first threshold and the spectral torsion factor of the previous conversation / voice frame before the current conversation / voice frame is less than or equal to a second threshold, the current Obtain the post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum / parameter of the talk / voice frame and the spectrum / parameter of the conversation / voice frame prior to the current conversation / voice frame. Step or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silent, and the next conversation / voice frame of the current conversation / voice frame is silent Yes, the maximum value of the adaptive codebook gain of a subframe in the next conversation / voice frame of the current conversation / voice frame is less than or equal to a third threshold, and the conversation / If the spectral torsion factor of the speech frame is less than or equal to a fourth threshold, the speech / speech frame spectrum pair parameter prior to the current speech / speech frame is set to the post-processed spectrum pair of the current speech / speech frame. Using as a parameter, or based on a spectrum / parameter of a conversation / voice frame prior to the current conversation / voice frame Te, step acquires the post-processed spectral pair parameters of the current conversation / speech frame or,
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame Is silent, and the maximum adaptive codebook gain of subframes in the next conversation / voice frame of the current conversation / voice frame is less than or equal to a third threshold, If the spectral torsion factor of the current speech / voice frame is less than or equal to a fourth threshold, the current speech / voice frame spectrum pair parameter and the previous conversation / voice frame speech / voice frame spectrum pair parameter Obtaining the post-processed spectrum pair parameter of the current speech / voice frame based on 2. The method according to 2.
前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップは特に、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップを含み、
lsp[k]は前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータであり、lsp_old[k]は前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は前記現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は前記現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは前記現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは前記現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である、
請求項3に記載の方法。
The post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame. Based on the current speech / speech frame spectrum pair parameter and the previous speech / speech frame speech / speech frame spectrum pair parameter, and the following equation:
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Obtaining the post-processed spectrum pair parameters of the current speech / voice frame by using
lsp [k] is the post-processed spectrum pair parameter of the current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame; lsp_mid [k] is the intermediate value of the spectrum / parameter of the current speech / voice frame, lsp_new [k] is the spectrum / parameter of the current conversation / voice frame, and L is the order of the spectrum / parameter. , Α is the spectrum / parameter weight of the speech / speech frame prior to the current speech / speech frame, β is the weight of the intermediate value of the spectrum / parameter of the current speech / speech frame, and δ is the The spectrum versus parameter weight of the current conversation / voice frame, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1,
If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, is α equal to 0? Or α is less than or equal to the fifth threshold, or
If the current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is less than or equal to a sixth threshold, or
If the current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than or equal to a seventh threshold, or
If the current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is less than or equal to a sixth threshold, δ is equal to 0, or δ is the seventh Below the threshold,
The method of claim 3.
前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップは特に、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するステップを含み、
lsp[k]は前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータであり、lsp_old[k]は前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は前記現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは前記現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、δ≧0、およびα+δ=1であり、
前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である、
請求項3に記載の方法。
The post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame. Based on the current speech / speech frame spectrum pair parameter and the previous speech / speech frame speech / speech frame spectrum pair parameter, and the following equation:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Obtaining the post-processed spectrum pair parameters of the current speech / voice frame by using
lsp [k] is the post-processed spectrum pair parameter of the current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame; lsp_new [k] is the spectrum pair parameter of the current conversation / voice frame, L is the order of the spectrum pair parameter, and α is the spectrum pair parameter of the conversation / voice frame before the current conversation / voice frame. Is the weight of the spectrum / parameter of the current speech / voice frame, α ≧ 0, δ ≧ 0, and α + δ = 1,
If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, is α equal to 0? Or α is less than or equal to the fifth threshold, or
If the current speech / voice frame is a redundant decoded frame, δ is equal to 0 or δ is less than or equal to a seventh threshold;
The method of claim 3.
前記現在の会話/音声フレームの前記会話/音声復号化パラメータは前記現在の会話/音声フレームの適応的コードブック利得を含み、前記X個の会話/音声フレームの会話/音声パラメータに従って後処理を前記現在の会話/音声フレームの前記会話/音声復号化パラメータに実施して、前記現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、前記X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記適応的コードブック利得に実施して、前記現在の会話/音声フレームの後処理された適応的コードブック利得を取得するステップを含む、 請求項1乃至5の何れか1項に記載の方法。   The conversation / voice decoding parameter of the current conversation / voice frame includes an adaptive codebook gain of the current conversation / voice frame, and post-processing is performed according to the conversation / voice parameters of the X conversation / voice frames. Performing on the conversation / voice decoding parameters of the current conversation / voice frame to obtain post-processed conversation / voice decoding parameters of the current conversation / voice frame comprises: Post-processing is performed on the adaptive codebook gain of the current speech / speech frame according to at least one of a frame signal class, an algebraic codebook gain, or an adaptive codebook gain, and the current speech / 6. Obtaining a post-processed adaptive codebook gain of a speech frame, according to claim 1. The method described. 前記X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記適応的コードブック利得に実施するステップは、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、前記現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、前記現在のサブフレームの適応的コードブック利得を減衰するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、前記現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が前記現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合、前記現在のサブフレームの適応的コードブック利得を減衰するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、前記現在の会話/音声フレームの信号クラスが汎用的であり、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、前記現在の会話/音声フレームのサブフレームの代数コードブック利得が前記サブフレームの前のサブフレームの代数コードブック利得以上である場合、前記現在の会話/音声フレームの前記現在のサブフレームの代数コードブック利得の前記現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、前記現在の会話/音声フレームの前記現在のサブフレームの前記適応的コードブック利得の前記現在のサブフレームに隣接する前記サブフレームの適応的コードブック利得に対する比率、または前記現在の会話/音声フレームの前記現在のサブフレームの前記代数コードブック利得の前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて前記現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、前記現在の会話/音声フレームの信号クラスが汎用的であり、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、前記現在の会話/音声フレームのサブフレームの代数コードブック利得が前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、前記現在の会話/音声フレームの前記現在のサブフレームの代数コードブック利得の前記現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、前記現在の会話/音声フレームの前記現在のサブフレームの前記適応的コードブック利得の前記現在のサブフレームに隣接する前記サブフレームの適応的コードブック利得に対する比率、または前記現在の会話/音声フレームの前記現在のサブフレームの前記代数コードブック利得の前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて前記現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、前記現在の会話/音声フレームが有声であり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、前記現在の会話/音声フレームのサブフレームの代数コードブック利得が前記サブフレームの前のサブフレームの代数コードブック利得以上である場合、前記現在の会話/音声フレームの前記現在のサブフレームの代数コードブック利得の前記現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、前記現在の会話/音声フレームの前記現在のサブフレームの前記適応的コードブック利得の前記現在のサブフレームに隣接する前記サブフレームの適応的コードブック利得に対する比率、または前記現在の会話/音声フレームの前記現在のサブフレームの前記代数コードブック利得の前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて前記現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するステップ、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、前記現在の会話/音声フレームの信号クラスが有声であり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、前記現在の会話/音声フレームのサブフレームの代数コードブック利得が前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、前記現在の会話/音声フレームの前記現在のサブフレームの代数コードブック利得の前記現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、前記現在の会話/音声フレームの前記現在のサブフレームの前記適応的コードブック利得の前記現在のサブフレームに隣接する前記サブフレームの適応的コードブック利得に対する比率、または前記現在の会話/音声フレームの前記現在のサブフレームの前記代数コードブック利得の前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて前記現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するステップ
を含む、請求項6に記載の方法。
Post-processing is performed on the adaptive codebook gain of the current speech / voice frame according to at least one of the signal class of the X speech / voice frames, algebraic codebook gain, or adaptive codebook gain. The steps are
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the next two conversation / voice frames of the current conversation / voice frame At least one of the signal classes is silent and the algebraic codebook gain of the current subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the conversation / voice frame before the current conversation / voice frame. Attenuating the adaptive codebook gain of the current subframe, if any, or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the next two conversation / voice frames of the current conversation / voice frame If at least one signal class is silence and the algebraic codebook gain of the current subframe of the current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe prior to the current subframe, Attenuating the adaptive codebook gain of the current subframe, or
The current conversation / voice frame is a redundant decoded frame, or the current conversation / voice frame is a regular decoded frame, and the conversation before the current conversation / voice frame The voice / voice frame is a redundant decoded frame, and the signal class of the current conversation / voice frame is generic and the signal class of the next conversation / voice frame of the current conversation / voice frame Is voiced and the algebraic codebook gain of the subframe of the current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe prior to the subframe, the current speech / voice frame The ratio of the algebraic codebook gain of the subframe to the algebraic codebook gain of the subframe adjacent to the current subframe, previous The ratio of the adaptive codebook gain of the current subframe of the current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the of the current speech / voice frame The current conversation / voice frame current based on at least one of the ratio of the algebraic codebook gain of the current subframe to the algebraic codebook gain of the previous conversation / voice frame of the current conversation / voice frame. Adjusting the adaptive codebook gain of the subframe, or
The current conversation / voice frame is a redundant decoded frame, or the current conversation / voice frame is a regular decoded frame, and the conversation before the current conversation / voice frame The voice / voice frame is a redundant decoded frame, and the signal class of the current conversation / voice frame is generic and the signal class of the next conversation / voice frame of the current conversation / voice frame Is voiced and the algebraic codebook gain of the subframe of the current conversation / speech frame is greater than or equal to the algebraic codebook gain of the conversation / speech prior to the current conversation / speech frame / Algebraic codebook gain of a subframe adjacent to the current subframe of algebraic codebook gain of the current subframe of a speech frame The ratio of the adaptive codebook gain of the current subframe of the current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current speech / The current speech / speech based on at least one of a ratio of the algebraic codebook gain of the current subframe of a speech frame to the algebraic codebook gain of the speech / speech prior to the current speech / speech frame Adjusting the adaptive codebook gain of the current subframe of the frame, or
The current conversation / voice frame is a redundant decoded frame, or the current conversation / voice frame is a regular decoded frame, and the conversation before the current conversation / voice frame The voice / voice frame is a redundant decoded frame, and the current conversation / voice frame is voiced, and the signal class of the conversation / voice frame before the current conversation / voice frame is generic. Yes, if the algebraic codebook gain of the subframe of the current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the subframe, the current subframe of the current speech / voice frame The ratio of the algebraic codebook gain to the algebraic codebook gain of the subframe adjacent to the current subframe, the current conversation The ratio of the adaptive codebook gain of the current subframe of a speech frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current subframe of the current speech / speech frame Adapting the current subframe of the current conversation / voice frame based on at least one of the ratio of the algebraic codebook gain of the current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the current conversation / voice frame Adjusting the dynamic codebook gain, or
The current conversation / voice frame is a redundant decoded frame, or the current conversation / voice frame is a regular decoded frame, and the conversation before the current conversation / voice frame / The voice frame is a redundant decoded frame, and the signal class of the current conversation / voice frame is voiced, and the signal class of the conversation / voice frame before the current conversation / voice frame is If it is generic and the algebraic codebook gain of a subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the current conversation / voice frame, the current conversation / Algebraic codebook gain of a subframe adjacent to the current subframe of algebraic codebook gain of the current subframe of a speech frame The ratio of the adaptive codebook gain of the current subframe of the current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current speech / The current speech / speech based on at least one of a ratio of the algebraic codebook gain of the current subframe of a speech frame to the algebraic codebook gain of the speech / speech prior to the current speech / speech frame 7. The method of claim 6, comprising adjusting the adaptive codebook gain of the current subframe of the frame.
前記現在の会話/音声フレームの前記会話/音声復号化パラメータは前記現在の会話/音声フレームの代数コードブックを含み、前記X個の会話/音声フレームの会話/音声パラメータに従って後処理を前記現在の会話/音声フレームの前記会話/音声復号化パラメータに実施して、前記現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、前記X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記代数コードブックに実施して前記現在の会話/音声フレームの後処理された代数コードブックを取得するステップを含む、請求項1乃至7の何れか1項に記載の方法。   The conversation / speech decoding parameter of the current conversation / speech frame includes an algebraic codebook of the current conversation / speech frame, and post-processing is performed according to the conversation / speech parameter of the X conversations / speech frames. Performing on the conversation / voice decoding parameters of a conversation / voice frame to obtain post-processed conversation / voice decoding parameters of the current conversation / voice frame comprises: Post-processing the algebraic codebook of the current speech / voice frame by performing post-processing on the algebraic codebook of the current speech / voice frame according to at least one of a signal class, an algebraic codebook, or a spectral twist factor The method according to any one of claims 1 to 7, comprising the step of obtaining a codebook. 前記X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記代数コードブックに実施するステップは、前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、前記現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、前記現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を前記現在のサブフレームの代数コードブックとして使用するステップを含む、請求項8に記載の方法。   Performing post-processing on the algebraic codebook of the current speech / voice frame according to at least one of the signal class of the X speech / voice frames, an algebraic codebook, or a spectral torsion factor, The conversation / voice frame of the current conversation / voice frame is a redundant decoded frame, the signal class of the next conversation / voice frame of the current conversation / voice frame is silence, and the conversation / If the spectral torsion factor of the speech frame is less than or equal to an eighth threshold and the algebraic codebook of the subframe of the current speech / speech frame is 0 or less than the ninth threshold, the current speech / speech The algebraic codebook of the subframe before the frame or random noise as the algebraic codebook of the current subframe Comprising the step of use, method of claim 8. 前記現在の会話/音声フレームの前記会話/音声復号化パラメータは前記現在の会話/音声フレームの帯域幅拡張エンベロープを含み、前記X個の会話/音声フレームの会話/音声パラメータに従って後処理を前記現在の会話/音声フレームの前記会話/音声復号化パラメータに実施して、前記現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、前記X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、前記現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップを含む、請求項1乃至9の何れか1項に記載の方法。   The conversation / voice decoding parameter of the current conversation / voice frame includes a bandwidth extension envelope of the current conversation / voice frame, and post-processing is performed according to the conversation / voice parameters of the X conversation / voice frames. Performing on the conversation / voice decoding parameters of the current conversation / voice frame to obtain post-processed conversation / voice decoding parameters of the current conversation / voice frame, the X conversation / voice frames Post-processing on the current speech / voice frame bandwidth extension envelope according to at least one of a signal class, a bandwidth extension envelope, or a spectral twist factor; 10. A method according to any one of claims 1 to 9, comprising the step of obtaining a modified bandwidth extension envelope. Law. 前記X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、前記現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するステップは、
前記現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび前記現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得するステップ、または、
前記現在の会話/音声フレームが冗長復号化の予測形式である場合、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび前記現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得するステップ、または、
前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って前記現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得するステップ
を含む、請求項10に記載の方法。
Post-processing is performed on the bandwidth extension envelope of the current speech / voice frame according to at least one of a signal class, a bandwidth extension envelope, or a spectral torsion factor of the X speech / voice frames, and Obtaining a post-processed bandwidth extension envelope of the speech / voice frame of
The conversation / voice frame before the current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the current conversation / voice frame is the current conversation / voice frame. Based on the bandwidth extension envelope of the previous conversation / voice frame and the bandwidth extension envelope of the current talk / voice frame. Obtaining the post-processed bandwidth extension envelope of the current speech / voice frame, or
If the current conversation / voice frame is in a predictive form of redundant decoding, the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame Obtaining the post-processed bandwidth extension envelope of the current speech / voice frame based on:
The signal class of the current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the current conversation / voice frame is silence, and the conversation / voice before the current conversation / voice frame If the spectral torsion factor of the frame is less than or equal to the tenth threshold, the current speech / voice frame bandwidth extension according to the speech / voice frame bandwidth extension envelope or spectral torsion factor prior to the current speech / voice frame The method of claim 10, comprising modifying an envelope to obtain the post-processed bandwidth extension envelope of the current speech / voice frame.
前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび前記現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得するステップは特に、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび前記現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって、前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得するステップを含み、
GainFrameは前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープであり、GainFrame_oldは前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは前記現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は前記現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である、
請求項11に記載の方法。
The post-processed bandwidth of the current conversation / voice frame based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame The step of obtaining a width extension envelope is based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame, and The equation,
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
Obtaining the post-processed bandwidth extension envelope of the current speech / voice frame by using
GainFrame is the post-processed bandwidth extension envelope of the current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame, and GainFrame_new is the current Is the bandwidth expansion envelope of the current conversation / voice frame, fac1 is the weight of the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame, and fac2 is the bandwidth of the current conversation / voice frame The weight of the width expansion envelope, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1
The method of claim 11.
前記現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための修正因子は前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの前記現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する、請求項11に記載の方法。   The modification factor for modifying the bandwidth extension envelope of the current conversation / voice frame is inversely proportional to the spectral twist factor of the conversation / voice frame prior to the current conversation / voice frame, and The method of claim 11, wherein the method is proportional to a ratio of a bandwidth extension envelope of a previous conversation / voice frame to a bandwidth extension envelope of the current conversation / voice frame. 前記現在の会話/音声フレームの前記会話/音声復号化パラメータは、前記現在の会話/音声フレームのピッチ区間を含み、前記X個の会話/音声フレームの会話/音声パラメータに従って後処理を前記現在の会話/音声フレームの前記会話/音声復号化パラメータに実施して、前記現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するステップは、前記X個の会話/音声フレームの信号クラスおよび/またはピッチ区間に従って、後処理を前記現在の会話/音声フレームの前記ピッチ区間に実施して、前記現在の会話/音声フレームの後処理されたピッチ区間を取得するステップを含む、請求項1乃至13の何れか1項に記載の方法。   The conversation / voice decoding parameter of the current conversation / voice frame includes a pitch interval of the current conversation / voice frame, and post-processing is performed according to the conversation / voice parameters of the X conversation / voice frames. Performing on the conversation / voice decoding parameters of a conversation / voice frame to obtain post-processed conversation / voice decoding parameters of the current conversation / voice frame comprises: Performing post-processing on the pitch period of the current conversation / voice frame according to a signal class and / or pitch period to obtain a post-processed pitch period of the current conversation / voice frame. Item 14. The method according to any one of Items 1 to 13. 会話/音声ビットストリームを復号化するための復号器であって、
現在の会話/音声フレームの会話/音声復号化パラメータを取得するように構成されたパラメータ取得ユニットであって、前記現在の会話/音声フレームは冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームの前の会話/音声フレームは冗長な復号化されたフレームである、パラメータ取得ユニットと、
X個の会話/音声フレームの会話/音声パラメータに従って後処理を前記現在の会話/音声フレームの前記会話/音声復号化パラメータに実施して、前記現在の会話/音声フレームの後処理された会話/音声復号化パラメータを取得するように構成された後処理ユニットであって、前記X個の会話/音声フレームは前記現在の会話/音声フレームの前のM個の会話/音声フレームおよび/または前記現在の会話/音声フレームの次のN個の会話/音声フレームを含み、MおよびNは正の整数である、後処理ユニットと、
前記現在の会話/音声フレームの前記後処理された会話/音声復号化パラメータを用いることによって前記現在の会話/音声フレームの会話/音声信号を復元するように構成された復元ユニットと、
を備える、復号器。
A decoder for decoding a conversation / audio bitstream,
A parameter acquisition unit configured to acquire conversation / voice decoding parameters of a current conversation / voice frame, wherein the current conversation / voice frame is a redundant decoded frame; or A parameter acquisition unit, wherein the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame;
Post-processing is performed on the conversation / voice decoding parameters of the current conversation / voice frame according to the conversation / voice parameters of X conversations / voice frames to post-process the conversation / voice-frame of the current conversation / voice frame. A post-processing unit configured to obtain speech decoding parameters, wherein the X speech / speech frames are M speech / speech frames prior to the current speech / speech frame and / or the current A post-processing unit including the next N conversation / voice frames of the conversation / voice frames of
A restoration unit configured to restore a conversation / voice signal of the current conversation / voice frame by using the post-processed conversation / voice decoding parameters of the current conversation / voice frame;
A decoder.
前記後処理ユニットは特に、前記現在の会話/音声フレームの前記会話/音声復号化パラメータが前記現在の会話/音声フレームのスペクトル対パラメータを含むとき、前記X個の会話/音声フレームのスペクトル対パラメータ、適応的コードブック利得、スペクトル捩れ因子、または信号クラスのうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームのスペクトル対パラメータに実施して、前記現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得するように構成される、請求項15に記載の復号器。   The post-processing unit, in particular, when the speech / speech decoding parameters of the current speech / speech frame include a spectrum pair parameter of the current speech / speech frame, the spectrum pair parameter of the X speech / speech frames. Post-processing the current speech / voice frame according to at least one of: adaptive codebook gain, spectral torsion factor, or signal class, and performing post-processing on the spectrum / parameter of the current speech / voice frame The decoder of claim 15, wherein the decoder is configured to obtain a measured spectrum pair parameter. 前記X個の会話/音声フレームのスペクトル対パラメータ、適応的コードブック利得、スペクトル捩れ因子、または信号クラスのうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームのスペクトル対パラメータに実施して、前記現在の会話/音声フレームの後処理されたスペクトル対パラメータを取得する態様において、前記後処理ユニットは特に、
前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、前記現在の会話/音声フレームのスペクトル対パラメータを前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータとして使用するか、または、前記現在の会話/音声フレームのスペクトル対パラメータに基づいて前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するか、または、
前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが無音でない場合、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータとして使用するか、または、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音である場合、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータとして使用するか、または、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第1の閾値以下であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第2の閾値以下である場合、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームが無音であり、前記現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータを前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータとして使用するか、または、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの次の会話/音声フレーム内のサブフレームの適応的コードブック利得の最大値が第3の閾値以下であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第4の閾値以下である場合、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得する
ように構成される、請求項16に記載の復号器。
Post-processing is performed on the spectrum / parameters of the current speech / speech frame according to at least one of spectrum pair parameters, adaptive codebook gain, spectrum twist factor, or signal class of the X speech / speech frames. In the aspect of obtaining post-processed spectrum pair parameters of the current speech / voice frame, the post-processing unit in particular
The current conversation / voice frame is a regular decoded frame, the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and the current conversation / voice frame If the signal class of the current conversation / voice frame is not silence and the signal class of the conversation / voice frame prior to the current conversation / voice frame is not silence, the spectrum / parameter of the current conversation / voice frame is To use as the post-processed spectrum pair parameter or to obtain the post-processed spectrum pair parameter of the current speech / voice frame based on the spectrum pair parameter of the current speech / voice frame; Or
The current conversation / voice frame is a regular decoded frame, the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, and the current conversation / voice frame If the signal class of the current conversation / voice frame is not silence and the signal class of the conversation / voice frame prior to the current conversation / voice frame is not silence, then the spectrum pair parameter of the current conversation / voice frame and the current conversation / voice frame Obtaining the post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum pair parameter of the previous conversation / voice frame, or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame Is used as the post-processed spectrum pair parameter of the current conversation / voice frame, or the current conversation / voice frame spectrum pair parameter is used as the post-processed spectrum pair parameter of the current conversation / voice frame, or Obtaining the post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum / parameter of the conversation / voice frame before the conversation / voice frame of
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame The post-processing of the current conversation / voice frame based on the current conversation / voice frame spectrum pair parameter and the previous conversation / voice frame spectrum pair parameter Obtain the measured spectrum pair parameter, or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and a sub-frame in the next conversation / voice frame of the current conversation / voice frame If the maximum adaptive codebook gain for a frame is less than or equal to a first threshold and the spectral torsion factor of the previous conversation / voice frame before the current conversation / voice frame is less than or equal to a second threshold, the current Use the spectrum / parameter of the conversation / voice frame before the conversation / voice frame as the post-processed spectrum / parameter of the current conversation / voice frame, or the conversation before the current conversation / voice frame / The post-processed spectrum versus parameter of the current speech / voice frame based on the spectrum pair parameter of the voice frame To get, or,
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and a sub-frame in the next conversation / voice frame of the current conversation / voice frame If the maximum adaptive codebook gain for a frame is less than or equal to a first threshold and the spectral torsion factor of the previous conversation / voice frame before the current conversation / voice frame is less than or equal to a second threshold, the current Whether to obtain the post-processed spectrum pair parameter of the current speech / speech frame based on the spectrum pair parameter of the speech / speech frame and the spectrum pair parameter of the previous speech / speech frame of the current conversation / speech frame Or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silent, and the next conversation / voice frame of the current conversation / voice frame is silent Yes, the maximum value of the adaptive codebook gain of a subframe in the next conversation / voice frame of the current conversation / voice frame is less than or equal to a third threshold, and the conversation / If the spectral torsion factor of the speech frame is less than or equal to a fourth threshold, the speech / speech frame spectrum pair parameter prior to the current speech / speech frame is set to the post-processed spectrum pair of the current speech / speech frame. Used as a parameter or based on the spectrum / parameter of a conversation / voice frame prior to the current conversation / voice frame Serial to obtain the post-processed spectral pair parameters of the current conversation / speech frame or,
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the signal class of the next conversation / voice frame of the current conversation / voice frame Is silent, and the maximum adaptive codebook gain of subframes in the next conversation / voice frame of the current conversation / voice frame is less than or equal to a third threshold, If the spectral torsion factor of the current speech / voice frame is less than or equal to a fourth threshold, the current speech / voice frame spectrum pair parameter and the previous conversation / voice frame speech / voice frame spectrum pair parameter The system is configured to obtain the post-processed spectrum pair parameters of the current speech / voice frame based on 16. The decoder according to 16.
前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得する態様において、
前記後処理ユニットは特に、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するように構成され、
lsp[k]は前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータであり、lsp_old[k]は前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_mid[k]は前記現在の会話/音声フレームのスペクトル対パラメータの中間値であり、lsp_new[k]は前記現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、βは前記現在の会話/音声フレームのスペクトル対パラメータの中間値の重みであり、δは前記現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、β≧0、δ≧0、およびα+β+δ=1であり、
前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であるか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下であるか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームである場合、βは0に等しいか、またはβは第6の閾値以下であり、δは0に等しいか、またはδは第7の閾値以下である、
請求項17に記載の復号器。
The post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame. In the aspect of obtaining
The post-processing unit is in particular based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame, and with the following formula:
lsp [k] = α * lsp_old [k] + β * lsp_mid [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Is configured to obtain the post-processed spectrum pair parameters of the current speech / voice frame,
lsp [k] is the post-processed spectrum pair parameter of the current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame; lsp_mid [k] is the intermediate value of the spectrum / parameter of the current speech / voice frame, lsp_new [k] is the spectrum / parameter of the current conversation / voice frame, and L is the order of the spectrum / parameter. , Α is the spectrum / parameter weight of the speech / speech frame prior to the current speech / speech frame, β is the weight of the intermediate value of the spectrum / parameter of the current speech / speech frame, and δ is the The spectrum versus parameter weight of the current conversation / voice frame, α ≧ 0, β ≧ 0, δ ≧ 0, and α + β + δ = 1,
If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, is α equal to 0? Or α is less than or equal to the fifth threshold, or
If the current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is less than or equal to a sixth threshold, or
If the current speech / voice frame is a redundant decoded frame, δ is equal to 0, or δ is less than or equal to a seventh threshold, or
If the current speech / voice frame is a redundant decoded frame, β is equal to 0, or β is less than or equal to a sixth threshold, δ is equal to 0, or δ is the seventh Below the threshold,
The decoder according to claim 17.
前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得する態様において、
前記後処理ユニットは特に、前記現在の会話/音声フレームのスペクトル対パラメータおよび前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータに基づいて、かつ、以下の式、即ち、
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≦k≦L
を用いることによって、前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータを取得するように構成され、
lsp[k]は前記現在の会話/音声フレームの前記後処理されたスペクトル対パラメータであり、lsp_old[k]は前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータであり、lsp_new[k]は前記現在の会話/音声フレームのスペクトル対パラメータであり、Lはスペクトル対パラメータのオーダであり、αは前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル対パラメータの重みであり、δは前記現在の会話/音声フレームのスペクトル対パラメータの重みであり、α≧0、δ≧0、およびα+δ=1であり、
前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、αは0に等しいか、またはαは第5の閾値以下であるか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームである場合、δは0に等しいか、またはδは第7の閾値以下である、
請求項17に記載の復号器。
The post-processed spectrum pair parameter of the current conversation / voice frame based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame. In the aspect of obtaining
The post-processing unit is in particular based on the spectrum / parameter of the current conversation / voice frame and the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame, and with the following formula:
lsp [k] = α * lsp_old [k] + δ * lsp_new [k] 0 ≦ k ≦ L
Is configured to obtain the post-processed spectrum pair parameters of the current speech / voice frame,
lsp [k] is the post-processed spectrum pair parameter of the current conversation / voice frame, and lsp_old [k] is the spectrum / parameter of the conversation / voice frame before the current conversation / voice frame; lsp_new [k] is the spectrum pair parameter of the current conversation / voice frame, L is the order of the spectrum pair parameter, and α is the spectrum pair parameter of the conversation / voice frame before the current conversation / voice frame. Is the weight of the spectrum / parameter of the current speech / voice frame, α ≧ 0, δ ≧ 0, and α + δ = 1,
If the current conversation / voice frame is a regular decoded frame and the conversation / voice frame before the current conversation / voice frame is a redundant decoded frame, is α equal to 0? Or α is less than or equal to the fifth threshold, or
If the current speech / voice frame is a redundant decoded frame, δ is equal to 0 or δ is less than or equal to a seventh threshold;
The decoder according to claim 17.
前記後処理ユニットは特に、前記現在の会話/音声フレームの前記会話/音声復号化パラメータが前記現在の会話/音声フレームの適応的コードブック利得を含むとき、前記X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記適応的コードブック利得に実施して、前記現在の会話/音声フレームの後処理された適応的コードブック利得を取得するように構成される、請求項15乃至19の何れか1項に記載の復号器。   The post-processing unit specifically signals the X conversation / voice frames when the conversation / voice decoding parameters of the current conversation / voice frame include an adaptive codebook gain of the current conversation / voice frame. Post-processing is performed on the adaptive codebook gain of the current speech / voice frame according to at least one of class, algebraic codebook gain, or adaptive codebook gain to A decoder according to any one of claims 15 to 19, configured to obtain a post-processed adaptive codebook gain. 前記X個の会話/音声フレームの信号クラス、代数コードブック利得、または適応的コードブック利得のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記適応的コードブック利得に実施する態様において、前記後処理ユニットは特に、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、前記現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、前記現在のサブフレームの適応的コードブック利得を減衰するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の2つの会話/音声フレームのうち少なくとも1つの信号クラスが無音であり、前記現在の会話/音声フレームの現在のサブフレームの代数コードブック利得が前記現在のサブフレームの前のサブフレームの代数コードブック利得以上である場合、前記現在のサブフレームの適応的コードブック利得を減衰するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、前記現在の会話/音声フレームの信号クラスが汎用的であり、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、前記現在の会話/音声フレームのサブフレームの代数コードブック利得が前記サブフレームの前のサブフレームの代数コードブック利得以上である場合、前記現在の会話/音声フレームの前記現在のサブフレームの代数コードブック利得の前記現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、前記現在の会話/音声フレームの前記現在のサブフレームの前記適応的コードブック利得の前記現在のサブフレームに隣接する前記サブフレームの適応的コードブック利得に対する比率、または前記現在の会話/音声フレームの前記現在のサブフレームの前記代数コードブック利得の前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて前記現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、前記現在の会話/音声フレームの信号クラスが汎用的であり、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが有声であり、前記現在の会話/音声フレームのサブフレームの代数コードブック利得が前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、前記現在の会話/音声フレームの前記現在のサブフレームの代数コードブック利得の前記現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、前記現在の会話/音声フレームの前記現在のサブフレームの前記適応的コードブック利得の前記現在のサブフレームに隣接する前記サブフレームの適応的コードブック利得に対する比率、または前記現在の会話/音声フレームの前記現在のサブフレームの前記代数コードブック利得の前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて前記現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、前記現在の会話/音声フレームが有声であり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、前記現在の会話/音声フレームのサブフレームの代数コードブック利得が前記サブフレームの前のサブフレームの代数コードブック利得以上である場合、前記現在の会話/音声フレームの前記現在のサブフレームの代数コードブック利得の前記現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、前記現在の会話/音声フレームの前記現在のサブフレームの前記適応的コードブック利得の前記現在のサブフレームに隣接する前記サブフレームの適応的コードブック利得に対する比率、または前記現在の会話/音声フレームの前記現在のサブフレームの前記代数コードブック利得の前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて前記現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節するか、または、
前記現在の会話/音声フレームが冗長な復号化されたフレームであるか、または、前記現在の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームが冗長な復号化されたフレームである場合、かつ、前記現在の会話/音声フレームの信号クラスが有声であり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが汎用的であり、前記現在の会話/音声フレームのサブフレームの代数コードブック利得が前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得以上である場合、前記現在の会話/音声フレームの前記現在のサブフレームの代数コードブック利得の前記現在のサブフレームに隣接するサブフレームの代数コードブック利得に対する比率、前記現在の会話/音声フレームの前記現在のサブフレームの前記適応的コードブック利得の前記現在のサブフレームに隣接する前記サブフレームの適応的コードブック利得に対する比率、または前記現在の会話/音声フレームの前記現在のサブフレームの前記代数コードブック利得の前記現在の会話/音声フレームの前の会話/音声フレームの代数コードブック利得に対する比率のうち少なくとも1つに基づいて前記現在の会話/音声フレームの現在のサブフレームの適応的コードブック利得を調節する
ように構成される、請求項20に記載の復号器。
Post-processing is performed on the adaptive codebook gain of the current speech / voice frame according to at least one of the signal class of the X speech / voice frames, algebraic codebook gain, or adaptive codebook gain. In an embodiment, the aftertreatment unit is in particular
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the next two conversation / voice frames of the current conversation / voice frame At least one of the signal classes is silent and the algebraic codebook gain of the current subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the conversation / voice frame before the current conversation / voice frame. Attenuate the adaptive codebook gain of the current subframe, if any, or
The current conversation / voice frame is a redundant decoded frame, the signal class of the current conversation / voice frame is not silence, and the next two conversation / voice frames of the current conversation / voice frame If at least one signal class is silence and the algebraic codebook gain of the current subframe of the current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe prior to the current subframe, Attenuate the adaptive codebook gain of the current subframe, or
The current conversation / voice frame is a redundant decoded frame, or the current conversation / voice frame is a regular decoded frame, and the conversation before the current conversation / voice frame The voice / voice frame is a redundant decoded frame, and the signal class of the current conversation / voice frame is generic and the signal class of the next conversation / voice frame of the current conversation / voice frame Is voiced and the algebraic codebook gain of the subframe of the current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe prior to the subframe, the current speech / voice frame The ratio of the algebraic codebook gain of the subframe to the algebraic codebook gain of the subframe adjacent to the current subframe, previous The ratio of the adaptive codebook gain of the current subframe of the current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the of the current speech / voice frame The current conversation / voice frame current based on at least one of the ratio of the algebraic codebook gain of the current subframe to the algebraic codebook gain of the previous conversation / voice frame of the current conversation / voice frame. Adjust the adaptive codebook gain of the subframe, or
The current conversation / voice frame is a redundant decoded frame, or the current conversation / voice frame is a regular decoded frame, and the conversation before the current conversation / voice frame The voice / voice frame is a redundant decoded frame, and the signal class of the current conversation / voice frame is generic and the signal class of the next conversation / voice frame of the current conversation / voice frame Is voiced and the algebraic codebook gain of the subframe of the current conversation / speech frame is greater than or equal to the algebraic codebook gain of the conversation / speech prior to the current conversation / speech frame / Algebraic codebook gain of a subframe adjacent to the current subframe of algebraic codebook gain of the current subframe of a speech frame The ratio of the adaptive codebook gain of the current subframe of the current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current speech / The current speech / speech based on at least one of a ratio of the algebraic codebook gain of the current subframe of a speech frame to the algebraic codebook gain of the speech / speech prior to the current speech / speech frame Adjust the adaptive codebook gain of the current subframe of the frame, or
The current conversation / voice frame is a redundant decoded frame, or the current conversation / voice frame is a regular decoded frame, and the conversation before the current conversation / voice frame The voice / voice frame is a redundant decoded frame, and the current conversation / voice frame is voiced, and the signal class of the conversation / voice frame before the current conversation / voice frame is generic. Yes, if the algebraic codebook gain of the subframe of the current speech / voice frame is greater than or equal to the algebraic codebook gain of the subframe before the subframe, the current subframe of the current speech / voice frame The ratio of the algebraic codebook gain to the algebraic codebook gain of the subframe adjacent to the current subframe, the current conversation The ratio of the adaptive codebook gain of the current subframe of a speech frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current subframe of the current speech / speech frame Adapting the current subframe of the current conversation / voice frame based on at least one of the ratio of the algebraic codebook gain of the current conversation / voice frame to the algebraic codebook gain of the previous conversation / voice frame of the current conversation / voice frame Adjusting the dynamic codebook gain, or
The current conversation / voice frame is a redundant decoded frame, or the current conversation / voice frame is a regular decoded frame, and the conversation before the current conversation / voice frame / The voice frame is a redundant decoded frame, and the signal class of the current conversation / voice frame is voiced, and the signal class of the conversation / voice frame before the current conversation / voice frame is If it is generic and the algebraic codebook gain of a subframe of the current conversation / voice frame is greater than or equal to the algebraic codebook gain of the previous conversation / voice frame of the current conversation / voice frame, the current conversation / Algebraic codebook gain of a subframe adjacent to the current subframe of algebraic codebook gain of the current subframe of a speech frame The ratio of the adaptive codebook gain of the current subframe of the current speech / voice frame to the adaptive codebook gain of the subframe adjacent to the current subframe, or the current speech / The current speech / speech based on at least one of a ratio of the algebraic codebook gain of the current subframe of a speech frame to the algebraic codebook gain of the speech / speech prior to the current speech / speech frame 21. The decoder of claim 20, configured to adjust an adaptive codebook gain for a current subframe of a frame.
前記後処理ユニットは特に、前記現在の会話/音声フレームの前記会話/音声復号化パラメータが前記現在の会話/音声フレームの代数コードブックを含むとき、前記X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記代数コードブックに実施して、前記現在の会話/音声フレームの後処理された代数コードブックを取得するように構成される、請求項15乃至21の何れか1項に記載の復号器。   The post-processing unit, in particular, when the conversation / voice decoding parameters of the current conversation / voice frame include an algebraic codebook of the current conversation / voice frame, the signal class of the X conversation / voice frames, Post-processing the algebraic codebook of the current speech / voice frame according to at least one of an algebraic codebook or a spectral torsion factor to post-process the algebraic codebook of the current speech / voice frame The decoder according to any one of claims 15 to 21, wherein the decoder is configured to obtain. 前記X個の会話/音声フレームの信号クラス、代数コードブック、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記代数コードブックに実施する態様において、前記後処理ユニットは特に、前記現在の会話/音声フレームが冗長な復号化されたフレームであり、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第8の閾値以下であり、前記現在の会話/音声フレームのサブフレームの代数コードブックが0であるかまたは第9の閾値以下である場合、前記現在の会話/音声フレームの前のサブフレームの代数コードブックまたはランダム雑音を前記現在のサブフレームの代数コードブックとして使用するように構成される、請求項22に記載の復号器。   In the aspect wherein post-processing is performed on the algebraic codebook of the current speech / voice frame according to at least one of the signal class of the X speech / voice frames, an algebraic codebook, or a spectral twist factor In particular, the processing unit is a decoded frame in which the current conversation / voice frame is redundant, the signal class of the next conversation / voice frame of the current conversation / voice frame is silence, and the current conversation / voice frame is silent. When the spectral torsion factor of the speech / speech frame before the speech frame is less than or equal to an eighth threshold and the algebraic codebook of the subframe of the current speech / speech frame is 0 or less than the ninth threshold An algebraic codebook or random noise of a subframe prior to the current speech / voice frame; Configured for use as an algebraic codebook beam Decoder according to claim 22. 前記後処理ユニットは特に、前記現在の会話/音声フレームの前記会話/音声復号化パラメータが前記現在の会話/音声フレームの帯域幅拡張エンベロープを含むとき、前記X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、前記現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得するように構成される、請求項15乃至23の何れか1項に記載の復号器。   The post-processing unit, in particular, the signal class of the X conversation / voice frames when the conversation / voice decoding parameters of the current conversation / voice frame include a bandwidth extension envelope of the current conversation / voice frame. Performing post-processing on the bandwidth extension envelope of the current speech / voice frame according to at least one of a bandwidth extension envelope, or a spectral torsion factor, to post-process the bandwidth of the current speech / voice frame 24. A decoder as claimed in any one of claims 15 to 23, configured to obtain a width expanded envelope. 前記X個の会話/音声フレームの信号クラス、帯域幅拡張エンベロープ、またはスペクトル捩れ因子のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの帯域幅拡張エンベロープに実施して、前記現在の会話/音声フレームの後処理された帯域幅拡張エンベロープを取得する態様において、前記後処理ユニットは特に、
前記現在の会話/音声フレームの前の会話/音声フレームが正規の復号化されたフレームであり、前記現在の会話/音声フレームの前の会話/音声フレームの信号クラスが前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスと同じである場合、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび前記現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得するか、または、
前記現在の会話/音声フレームが冗長復号化の予測形式である場合、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび前記現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得するか、または、
前記現在の会話/音声フレームの信号クラスが無音でなく、前記現在の会話/音声フレームの次の会話/音声フレームの信号クラスが無音であり、前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子が第10の閾値以下である場合、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープまたはスペクトル捩れ因子に従って前記現在の会話/音声フレームの帯域幅拡張エンベロープを修正して、前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得する
ように構成される、請求項24に記載の復号器。
Post-processing is performed on the bandwidth extension envelope of the current speech / voice frame according to at least one of a signal class, a bandwidth extension envelope, or a spectral torsion factor of the X speech / voice frames, and In an aspect of obtaining a post-processed bandwidth extension envelope of a speech / voice frame of the post-processing unit,
The conversation / voice frame before the current conversation / voice frame is a regular decoded frame, and the signal class of the conversation / voice frame before the current conversation / voice frame is the current conversation / voice frame. Based on the bandwidth extension envelope of the previous conversation / voice frame and the bandwidth extension envelope of the current talk / voice frame. Obtaining the post-processed bandwidth extension envelope of the current speech / voice frame, or
If the current conversation / voice frame is in a predictive form of redundant decoding, the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame Obtaining the post-processed bandwidth extension envelope of the current speech / voice frame based on
The signal class of the current conversation / voice frame is not silence, the signal class of the next conversation / voice frame of the current conversation / voice frame is silence, and the conversation / voice before the current conversation / voice frame If the spectral torsion factor of the frame is less than or equal to the tenth threshold, the current speech / voice frame bandwidth extension according to the speech / voice frame bandwidth extension envelope or spectral torsion factor prior to the current speech / voice frame 25. The decoder of claim 24, configured to modify an envelope to obtain the post-processed bandwidth extension envelope of the current speech / voice frame.
前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび前記現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得する態様において、前記後処理ユニットは特に、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープおよび前記現在の会話/音声フレームの帯域幅拡張エンベロープに基づいて、かつ、以下の式、即ち、
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new
を用いることによって、前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープを取得するように構成され、
GainFrameは前記現在の会話/音声フレームの前記後処理された帯域幅拡張エンベロープであり、GainFrame_oldは前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープであり、GainFrame_newは前記現在の会話/音声フレームの帯域幅拡張エンベロープであり、fac1は前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac2は前記現在の会話/音声フレームの帯域幅拡張エンベロープの重みであり、fac1≧0、fac2≧0、およびfac1+fac2=1である、
請求項25に記載の復号器。
The post-processed bandwidth of the current conversation / voice frame based on the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame and the bandwidth extension envelope of the current conversation / voice frame In an aspect of obtaining a width expansion envelope, the post-processing unit is particularly based on a bandwidth expansion envelope of a conversation / voice frame before the current conversation / voice frame and a bandwidth extension envelope of the current conversation / voice frame. And the following equation:
GainFrame = fac1 * GainFrame_old + fac2 * GainFrame_new
Is configured to obtain the post-processed bandwidth extension envelope of the current speech / voice frame,
GainFrame is the post-processed bandwidth extension envelope of the current conversation / voice frame, GainFrame_old is the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame, and GainFrame_new is the current Is the bandwidth expansion envelope of the current conversation / voice frame, fac1 is the weight of the bandwidth extension envelope of the conversation / voice frame before the current conversation / voice frame, and fac2 is the bandwidth of the current conversation / voice frame The weight of the width expansion envelope, fac1 ≧ 0, fac2 ≧ 0, and fac1 + fac2 = 1
The decoder according to claim 25.
前記現在の会話/音声フレームの帯域幅拡張エンベロープを修正するための、前記後処理ユニットにより使用される修正因子は前記現在の会話/音声フレームの前の会話/音声フレームのスペクトル捩れ因子に反比例し、前記現在の会話/音声フレームの前の会話/音声フレームの帯域幅拡張エンベロープの前記現在の会話/音声フレームの帯域幅拡張エンベロープに対する比率に比例する、請求項25に記載の復号器。   The modification factor used by the post-processing unit to modify the bandwidth extension envelope of the current conversation / voice frame is inversely proportional to the spectral torsion factor of the conversation / voice frame before the current conversation / voice frame. 26. The decoder of claim 25, wherein the decoder is proportional to a ratio of a bandwidth extension envelope of a previous conversation / voice frame to a bandwidth extension envelope of the current conversation / voice frame to the current conversation / voice frame. 前記後処理ユニットは特に、前記現在の会話/音声フレームの前記会話/音声復号化パラメータが前記現在の会話/音声フレームのピッチ区間を含むとき、前記X個の会話/音声フレームの信号クラスまたはピッチ区間のうち少なくとも1つに従って、後処理を前記現在の会話/音声フレームの前記ピッチ区間に実施して、前記現在の会話/音声フレームの後処理されたピッチ区間を取得するように構成される、請求項15乃至27の何れか1項に記載の復号器。   The post-processing unit, in particular, the signal class or pitch of the X conversation / voice frames when the conversation / voice decoding parameters of the current conversation / voice frame include a pitch interval of the current conversation / voice frame. Configured to perform post-processing on the pitch section of the current conversation / voice frame to obtain a post-processed pitch section of the current conversation / voice frame according to at least one of the sections. The decoder according to any one of claims 15 to 27.
JP2017500113A 2014-03-21 2015-01-13 Speech / voice bit stream decoding method and apparatus Active JP6542345B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410108478.6A CN104934035B (en) 2014-03-21 2014-03-21 The coding/decoding method and device of language audio code stream
CN201410108478.6 2014-03-21
PCT/CN2015/070594 WO2015139521A1 (en) 2014-03-21 2015-01-13 Voice frequency code stream decoding method and device

Publications (2)

Publication Number Publication Date
JP2017515163A true JP2017515163A (en) 2017-06-08
JP6542345B2 JP6542345B2 (en) 2019-07-10

Family

ID=54121177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017500113A Active JP6542345B2 (en) 2014-03-21 2015-01-13 Speech / voice bit stream decoding method and apparatus

Country Status (13)

Country Link
US (2) US10269357B2 (en)
EP (1) EP3121812B1 (en)
JP (1) JP6542345B2 (en)
KR (2) KR101924767B1 (en)
CN (4) CN107369454B (en)
AU (1) AU2015234068B2 (en)
BR (1) BR112016020082B1 (en)
CA (1) CA2941540C (en)
MX (1) MX360279B (en)
MY (1) MY184187A (en)
RU (1) RU2644512C1 (en)
SG (1) SG11201607099TA (en)
WO (1) WO2015139521A1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751849B (en) 2013-12-31 2017-04-19 华为技术有限公司 Decoding method and device of audio streams
CN107369454B (en) * 2014-03-21 2020-10-27 华为技术有限公司 Method and device for decoding voice frequency code stream
CN108011686B (en) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 Information coding frame loss recovery method and device
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
CN108510993A (en) * 2017-05-18 2018-09-07 苏州纯青智能科技有限公司 A kind of method of realaudio data loss recovery in network transmission
CN107564533A (en) * 2017-07-12 2018-01-09 同济大学 Speech frame restorative procedure and device based on information source prior information
US11646042B2 (en) * 2019-10-29 2023-05-09 Agora Lab, Inc. Digital voice packet loss concealment using deep learning
CN111277864B (en) 2020-02-18 2021-09-10 北京达佳互联信息技术有限公司 Encoding method and device of live data, streaming system and electronic equipment

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003533916A (en) * 2000-05-11 2003-11-11 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Forward error correction in speech coding
JP2005534950A (en) * 2002-05-31 2005-11-17 ヴォイスエイジ・コーポレーション Method and apparatus for efficient frame loss concealment in speech codec based on linear prediction
WO2008056775A1 (en) * 2006-11-10 2008-05-15 Panasonic Corporation Parameter decoding device, parameter encoding device, and parameter decoding method
WO2009008220A1 (en) * 2007-07-09 2009-01-15 Nec Corporation Sound packet receiving device, sound packet receiving method and program
JP2009538460A (en) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 Method and apparatus for concealing frame loss on high band signals
US20100125455A1 (en) * 2004-03-31 2010-05-20 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US20130191121A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Devices for redundant frame coding and decoding

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US5717824A (en) 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
US5615298A (en) 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5699478A (en) 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
JP3747492B2 (en) * 1995-06-20 2006-02-22 ソニー株式会社 Audio signal reproduction method and apparatus
US5907822A (en) 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6385576B2 (en) 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
EP1686563A3 (en) 1997-12-24 2007-02-07 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech decoding
US6952668B1 (en) 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6973425B1 (en) 1999-04-19 2005-12-06 At&T Corp. Method and apparatus for performing packet loss or Frame Erasure Concealment
WO2000063883A1 (en) * 1999-04-19 2000-10-26 At & T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6597961B1 (en) 1999-04-27 2003-07-22 Realnetworks, Inc. System and method for concealing errors in an audio transmission
EP1199709A1 (en) 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
JP3558031B2 (en) * 2000-11-06 2004-08-25 日本電気株式会社 Speech decoding device
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
JP3582589B2 (en) 2001-03-07 2004-10-27 日本電気株式会社 Speech coding apparatus and speech decoding apparatus
US7590525B2 (en) 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7047187B2 (en) 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4215448B2 (en) * 2002-04-19 2009-01-28 日本電気株式会社 Speech decoding apparatus and speech decoding method
US20040083110A1 (en) * 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
JP4438280B2 (en) 2002-10-31 2010-03-24 日本電気株式会社 Transcoder and code conversion method
US7486719B2 (en) 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
US6985856B2 (en) * 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US8725501B2 (en) 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
US20060088093A1 (en) 2004-10-26 2006-04-27 Nokia Corporation Packet loss compensation
US7519535B2 (en) 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
CN100561576C (en) 2005-10-25 2009-11-18 芯晟(北京)科技有限公司 A kind of based on the stereo of quantized singal threshold and multichannel decoding method and system
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US20090248404A1 (en) 2006-07-12 2009-10-01 Panasonic Corporation Lost frame compensating method, audio encoding apparatus and audio decoding apparatus
KR20080075050A (en) * 2007-02-10 2008-08-14 삼성전자주식회사 Method and apparatus for updating parameter of error frame
EP2128855A1 (en) 2007-03-02 2009-12-02 Panasonic Corporation Voice encoding device and voice encoding method
CN101256774B (en) * 2007-03-02 2011-04-13 北京工业大学 Frame erase concealing method and system for embedded type speech encoding
CN101325537B (en) 2007-06-15 2012-04-04 华为技术有限公司 Method and apparatus for frame-losing hide
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR100998396B1 (en) * 2008-03-20 2010-12-03 광주과학기술원 Method And Apparatus for Concealing Packet Loss, And Apparatus for Transmitting and Receiving Speech Signal
CN101261836B (en) 2008-04-25 2011-03-30 清华大学 Method for enhancing excitation signal naturalism based on judgment and processing of transition frames
CN102057424B (en) 2008-06-13 2015-06-17 诺基亚公司 Method and apparatus for error concealment of encoded audio data
MX2011000375A (en) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Audio encoder and decoder for encoding and decoding frames of sampled audio signal.
MX2011000369A (en) * 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Audio encoder and decoder for encoding frames of sampled audio signals.
PL3002750T3 (en) * 2008-07-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CN101751925B (en) * 2008-12-10 2011-12-21 华为技术有限公司 Tone decoding method and device
CN101866649B (en) * 2009-04-15 2012-04-04 华为技术有限公司 Coding processing method and device, decoding processing method and device, communication system
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CN101777963B (en) 2009-12-29 2013-12-11 电子科技大学 Method for coding and decoding at frame level on the basis of feedback mechanism
CN101894558A (en) * 2010-08-04 2010-11-24 华为技术有限公司 Lost frame recovering method and equipment as well as speech enhancing method, equipment and system
KR20120032444A (en) * 2010-09-28 2012-04-05 한국전자통신연구원 Method and apparatus for decoding audio signal using adpative codebook update
PL3154057T3 (en) * 2011-04-05 2019-04-30 Nippon Telegraph & Telephone Acoustic signal decoding
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CN103688306B (en) 2011-05-16 2017-05-17 谷歌公司 Method and device for decoding audio signals encoded in continuous frame sequence
EP2710589A1 (en) * 2011-05-20 2014-03-26 Google, Inc. Redundant coding unit for audio codec
CN102726034B (en) 2011-07-25 2014-01-08 华为技术有限公司 A device and method for controlling echo in parameter domain
CN102915737B (en) * 2011-07-31 2018-01-19 中兴通讯股份有限公司 The compensation method of frame losing and device after a kind of voiced sound start frame
CN102438152B (en) 2011-12-29 2013-06-19 中国科学技术大学 Scalable video coding (SVC) fault-tolerant transmission method, coder, device and system
CN103325373A (en) 2012-03-23 2013-09-25 杜比实验室特许公司 Method and equipment for transmitting and receiving sound signal
CN103366749B (en) 2012-03-28 2016-01-27 北京天籁传音数字技术有限公司 A kind of sound codec devices and methods therefor
CN102760440A (en) * 2012-05-02 2012-10-31 中兴通讯股份有限公司 Voice signal transmitting and receiving device and method
CN102968997A (en) * 2012-11-05 2013-03-13 深圳广晟信源技术有限公司 Method and device for treatment after noise enhancement in broadband voice decoding
CN104751849B (en) 2013-12-31 2017-04-19 华为技术有限公司 Decoding method and device of audio streams
CN107369454B (en) * 2014-03-21 2020-10-27 华为技术有限公司 Method and device for decoding voice frequency code stream

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003533916A (en) * 2000-05-11 2003-11-11 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Forward error correction in speech coding
JP2005534950A (en) * 2002-05-31 2005-11-17 ヴォイスエイジ・コーポレーション Method and apparatus for efficient frame loss concealment in speech codec based on linear prediction
US20100125455A1 (en) * 2004-03-31 2010-05-20 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
WO2008056775A1 (en) * 2006-11-10 2008-05-15 Panasonic Corporation Parameter decoding device, parameter encoding device, and parameter decoding method
WO2009008220A1 (en) * 2007-07-09 2009-01-15 Nec Corporation Sound packet receiving device, sound packet receiving method and program
JP2009538460A (en) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 Method and apparatus for concealing frame loss on high band signals
US20130191121A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Devices for redundant frame coding and decoding

Also Published As

Publication number Publication date
RU2644512C1 (en) 2018-02-12
CN107369454B (en) 2020-10-27
CN107369455B (en) 2020-12-15
SG11201607099TA (en) 2016-10-28
CN104934035B (en) 2017-09-26
CA2941540A1 (en) 2015-09-24
MX360279B (en) 2018-10-26
US11031020B2 (en) 2021-06-08
KR101839571B1 (en) 2018-03-19
US20190214025A1 (en) 2019-07-11
CA2941540C (en) 2020-08-18
CN104934035A (en) 2015-09-23
MX2016012064A (en) 2017-01-19
EP3121812B1 (en) 2020-03-11
BR112016020082B1 (en) 2020-04-28
EP3121812A1 (en) 2017-01-25
CN107369453B (en) 2021-04-20
KR20160124877A (en) 2016-10-28
WO2015139521A1 (en) 2015-09-24
AU2015234068B2 (en) 2017-11-02
KR20180029279A (en) 2018-03-20
US10269357B2 (en) 2019-04-23
AU2015234068A1 (en) 2016-09-15
US20160372122A1 (en) 2016-12-22
KR101924767B1 (en) 2019-02-20
CN107369454A (en) 2017-11-21
MY184187A (en) 2021-03-24
CN107369453A (en) 2017-11-21
CN107369455A (en) 2017-11-21
JP6542345B2 (en) 2019-07-10
EP3121812A4 (en) 2017-03-15

Similar Documents

Publication Publication Date Title
JP6542345B2 (en) Speech / voice bit stream decoding method and apparatus
JP6151405B2 (en) System, method, apparatus and computer readable medium for criticality threshold control
JP5587405B2 (en) System and method for preventing loss of information in speech frames
US8498861B2 (en) Apparatus and method for concealing frame erasure and voice decoding apparatus and method using the same
US10121484B2 (en) Method and apparatus for decoding speech/audio bitstream
WO2015064346A1 (en) Speech signal processing device, speech signal processing method, and speech signal processing program
JP2005091749A (en) Device and method for encoding sound source signal
JP6352487B2 (en) Audio signal processing method and audio signal processing apparatus
JP2018165824A (en) Method for processing sound signal, and sound signal processing device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180611

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190306

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190513

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190612

R150 Certificate of patent or registration of utility model

Ref document number: 6542345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250