JP2010186190A - Quantized lsp parameter dynamic feature extractor and quantized lsp parameter dynamic feature extracting method - Google Patents

Quantized lsp parameter dynamic feature extractor and quantized lsp parameter dynamic feature extracting method Download PDF

Info

Publication number
JP2010186190A
JP2010186190A JP2010072748A JP2010072748A JP2010186190A JP 2010186190 A JP2010186190 A JP 2010186190A JP 2010072748 A JP2010072748 A JP 2010072748A JP 2010072748 A JP2010072748 A JP 2010072748A JP 2010186190 A JP2010186190 A JP 2010186190A
Authority
JP
Japan
Prior art keywords
mode
quantized lsp
lsp parameter
speech
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010072748A
Other languages
Japanese (ja)
Other versions
JP4954310B2 (en
Inventor
Hiroyuki Ebara
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2010072748A priority Critical patent/JP4954310B2/en
Publication of JP2010186190A publication Critical patent/JP2010186190A/en
Application granted granted Critical
Publication of JP4954310B2 publication Critical patent/JP4954310B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To change the coding mode of a sound source section and efficiently code a speech signal without coding/transmitting mode information. <P>SOLUTION: An adder 606 calculates the difference between a smooth quantized LPS parameter at present processing unit time and another smooth quantized LPS parameter of the preceding processing unit time. A square sum calculating means 607 calculates the square sum of the difference for each order about output of the adder 606. An AR type average calculating means 611 calculates the average LSP parameter in a noise section. An adder 612 calculates the difference of the quantized LSP parameter at the present processing unit time and the average quantized LSP parameter in the noise section for each order. A square sum calculating means 613 calculates the square sum for each order about the adder 612. A speech section detecting means 619 determines whether or not an input signal in the present processing unit time be in the speech section. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、音声信号を符号化して伝送する移動通信システム等における低ビットレート音声符号化装置、特に音声信号を声道情報と音源情報とに分離して表現するようなCELP(Code Excited Linear Prediction)型音声符号化装置等に関するものである。特に、本発明は、音声区間を検出するために用いられるパラメータの動的特徴を抽出する量子化LSPパラメータ動的特徴抽出器及び量子化LSPパラメータ動的特徴抽出方法に関するものである。 The present invention relates to a low bit rate speech encoding apparatus in a mobile communication system or the like that encodes and transmits a speech signal, and in particular, CELP (Code Excited Linear Prediction) that expresses a speech signal separately into vocal tract information and sound source information. ) Type speech encoding apparatus and the like. In particular, the present invention relates to a quantized LSP parameter dynamic feature extractor and a quantized LSP parameter dynamic feature extraction method for extracting dynamic features of parameters used for detecting a speech section .

ディジタル移動通信や音声蓄積の分野においては、電波や記憶媒体の有効利用のために音声情報を圧縮し、高能率で符号化するための音声符号化装置が用いられている。中でもCELP(Code Excited Linear Prediction:符号励振線形予測符号化)方式をベースにした方式が中・低ビットレートにおいて広く実用化されている。CELPの技術については、M.R.Schroeder and B.S.Atal:"Code-Excited Linear Prediction (CELP):High-quality Speech at Very Low Bit Rates",Proc.ICASSP-85, 25.1.1, pp.937-940, 1985" に示されている。   In the fields of digital mobile communication and voice storage, voice coding apparatuses for compressing voice information and coding with high efficiency for effective use of radio waves and storage media are used. Among them, a method based on the CELP (Code Excited Linear Prediction) method has been widely put into practical use at medium and low bit rates. For the CELP technology, see M.R. Schroeder and B.S. Atal: “Code-Excited Linear Prediction (CELP): High-quality Speech at Very Low Bit Rates”, Proc. ICASSP-85, 25.1.1, pp.937-940, 1985 ".

CELP型音声符号化方式は、音声をある一定のフレーム長(5ms〜50ms程度)に区切り、各フレーム毎に音声の線形予測を行い、フレーム毎の線形予測による予測残差(励振信号)を既知の波形からなる適応符号ベクトルと雑音符号ベクトルを用いて符号化するものである。適応符号ベクトルは過去に生成した駆動音源ベクトルを格納している適応符号帳から、雑音符号ベクトルは予め用意された定められた数の定められた形状を有するベクトルを格納している雑音符号帳から選択されて使用される。雑音符号帳に格納される雑音符号ベクトルには、ランダムな雑音系列のベクトルや何本かのパルスを異なる位置に配置することによって生成されるベクトルなどが用いられる。   The CELP speech coding method divides speech into a certain frame length (about 5 ms to 50 ms), performs speech linear prediction for each frame, and knows the prediction residual (excitation signal) by linear prediction for each frame. The encoding is performed using the adaptive code vector and the noise code vector having the waveform. The adaptive code vector is from an adaptive code book that stores drive excitation vectors generated in the past, and the noise code vector is from a noise code book that stores a vector having a predetermined number of predetermined shapes prepared in advance. Selected and used. As the noise code vector stored in the noise code book, a random noise sequence vector, a vector generated by arranging several pulses at different positions, or the like is used.

図13に従来のCELP符号化装置の基本ブロックの構成例を示す。このCELP符号化装置では、入力されたディジタル信号を用いてLPCの分析・量子化とピッチ探索と雑音符号帳探索と利得符号帳探索とが行われ、量子化LPC符号(L)とピッチ周期(P)と雑音符号帳インデックス(S)と利得符号帳インデックス(G)とが復号器に伝送される。   FIG. 13 shows a configuration example of a basic block of a conventional CELP encoding apparatus. In this CELP encoding apparatus, LPC analysis / quantization, pitch search, noise codebook search, and gain codebook search are performed using the input digital signal, and the quantized LPC code (L) and pitch period ( P), the noise codebook index (S), and the gain codebook index (G) are transmitted to the decoder.

しかしながら、上記従来の音声符号化装置においては、1種類の雑音符号帳で有声音声や無声音声さらには背景雑音等についても対応しなければならず、これら全ての入力信号を高品質で符号化することは困難であった。   However, in the above conventional speech coding apparatus, it is necessary to deal with voiced speech, unvoiced speech, background noise, etc. with one kind of noise codebook, and encodes all these input signals with high quality. It was difficult.

本発明は、以上のような実情に鑑みてなされたものであり、モード情報を新たに伝送することなしに音源符号化のマルチモード化を図ることができ、特に有声区間/無声区間の判定に加えて音声区間/非音声区間の判定を行うことも可能で、マルチモード化による符号化/復号化性能の改善度をより高めることを可能としたマルチモード音声符号化装置および音声復号化装置を提供することを目的とする。また、本発明は、入力信号の音声区間検出を精度良く行うためのパラメータの動的特徴を抽出する量子化LSPパラメータ動的特徴抽出器及び量子化LSPパラメータ動的特徴抽出方法を提供することを目的とする。 The present invention has been made in view of the above circumstances, and can achieve multi-mode excitation coding without newly transmitting mode information, particularly for determination of voiced / unvoiced intervals. In addition, a multi-mode speech encoding apparatus and speech decoding apparatus that can also determine speech sections / non-speech sections and that can further improve the improvement in encoding / decoding performance by multi-mode conversion. The purpose is to provide. The present invention also provides a quantized LSP parameter dynamic feature extractor and a quantized LSP parameter dynamic feature extraction method for extracting dynamic features of parameters for accurately detecting a speech section of an input signal. Objective.

本発明は、スペクトル特性を表す量子化パラメータの静的/動的特徴を用いたモード判定を行い、音声区間/非音声区間、有声区間/無声区間を示すモード判定結果に基づいて駆動音源の符号化に用いる各種符号帳のモードを切替えるようにした。また符号化の際に使用したモード情報を復号化時に用いて復号化に用いる各種符号帳のモードを切替えるようにした。また、本発明は、平均量子化LSPパラメータと現在の量子化LSPパラメータとの距離を計算するようにした。 The present invention performs mode determination using static / dynamic features of quantization parameters representing spectral characteristics, and codes of driving sound sources based on mode determination results indicating speech / non-speech and voiced / unvoiced intervals. The mode of various codebooks used for conversion was changed. In addition, mode information used for encoding is used for decoding, and various codebook modes used for decoding are switched. In the present invention, the distance between the average quantized LSP parameter and the current quantized LSP parameter is calculated.

本発明によればスペクトル特性を表すパラメータの量子化データにおける静的および動的特徴を用いて音源符号化および/または復号後処理のモード切替を行う構成なので、モード情報を新たに伝送することなしに音源符号化のマルチモード化が図れる。特に有声区間/無声区間の判定に加えて音声区間/非音声区間の判定を行うことも可能なので、マルチモード化による符号化性能の改善度をより高めることを可能とした音声符号化装置および音声復号化装置を提供できる。また、本発明によれば、入力信号の音声区間検出を精度良く行うためのパラメータとの動的特徴を抽出することができる量子化LSPパラメータ動的特徴抽出器及び量子化LSPパラメータ動的特徴抽出方法を提供できる。 According to the present invention, the mode is switched between excitation coding and / or post-decoding processing using static and dynamic features in the quantized data of the parameter representing the spectral characteristics, so that mode information is not newly transmitted. In addition, multi-mode excitation coding can be achieved. In particular, since it is possible to determine voice / non-speech intervals in addition to determination of voiced / unvoiced intervals, a speech coding apparatus and speech that can further improve the degree of improvement in coding performance by multi-mode conversion A decoding device can be provided. In addition, according to the present invention, a quantized LSP parameter dynamic feature extractor and a quantized LSP parameter dynamic feature extraction capable of extracting a dynamic feature with a parameter for accurately detecting a speech section of an input signal. Can provide a method .

本発明の実施の形態1における音声符号化装置の構成を示すブロック図FIG. 1 is a block diagram showing the configuration of a speech coding apparatus according to Embodiment 1 of the present invention. 本発明の実施の形態2における音声復号化装置の構成を示すブロック図The block diagram which shows the structure of the audio | voice decoding apparatus in Embodiment 2 of this invention. 本発明の実施の形態1における音声符号化処理の流れを示す流れ図Flow chart showing the flow of speech coding processing in Embodiment 1 of the present invention 本発明の実施の形態2における音声復号化処理の流れを示す流れ図The flowchart which shows the flow of the audio | voice decoding process in Embodiment 2 of this invention. 本発明の実施の形態3における音声信号送信装置および受信装置の構成を示すブロック図The block diagram which shows the structure of the audio | voice signal transmission apparatus and receiver in Embodiment 3 of this invention. 本発明の実施の形態4におけるモード選択器の構成を示すブロック図The block diagram which shows the structure of the mode selector in Embodiment 4 of this invention. 本発明の実施の形態5におけるマルチモード後処理器の構成を示すブロック図The block diagram which shows the structure of the multi-mode post-processor in Embodiment 5 of this invention. 本発明の実施の形態4における前段のモード選択処理の流れを示す流れ図The flowchart which shows the flow of the mode selection process of the front | former stage in Embodiment 4 of this invention 本発明の実施の形態4における後段のモード選択処理の流れを示す流れ図Flow chart showing the flow of the subsequent mode selection process in Embodiment 4 of the present invention 本発明の実施の形態4におけるモード選択処理の全体の流れを示す流れ図Flow chart showing the overall flow of mode selection processing in Embodiment 4 of the present invention 本発明の実施の形態5における前段のモード選択処理の流れを示す流れ図Flowchart showing the flow of the previous mode selection process in the fifth embodiment of the present invention 本発明の実施の形態5における後段のモード選択処理の流れを示す流れ図Flowchart showing the flow of subsequent mode selection processing in Embodiment 5 of the present invention 従来の音声符号化装置の構成を示すブロック図The block diagram which shows the structure of the conventional audio | voice encoding apparatus.

本発明の第1の態様は、音声信号に含まれる声道情報を表す少なくとも1種類以上のパラメータを符号化する第1符号化手段と、前記音声信号に含まれる音源情報を表す少なくとも1種類以上のパラメータを幾つかのモードで符号化可能な第2符号化手段と、前記第1符号化手段で符号化された特定パラメータの動的特徴に基づいて前記第2符号化手段のモード切替を行うモード切替手段と、前記第1、第2符号化手段によって符号化された複数種類のパラメータ情報によって入力音声信号を合成する合成手段と、を具備する構成を採る。   According to a first aspect of the present invention, there is provided first encoding means for encoding at least one parameter representing vocal tract information included in an audio signal, and at least one type indicating sound source information included in the audio signal. The second encoding means capable of encoding the parameters in several modes and the mode switching of the second encoding means based on the dynamic characteristics of the specific parameter encoded by the first encoding means A mode switching unit and a synthesizing unit that synthesizes an input speech signal with a plurality of types of parameter information encoded by the first and second encoding units are employed.

この構成によれば、第1符号化手段の符号化結果を用いて、第2符号化手段の符号化モードを決定するため、モードを示すための新たな情報を付加することなく第2符号化手段のマルチモード化ができ、符号化性能を向上できる。   According to this configuration, since the encoding result of the first encoding unit is used to determine the encoding mode of the second encoding unit, the second encoding is performed without adding new information for indicating the mode. The means can be made multi-mode and the encoding performance can be improved.

本発明の第2の態様は、第1の態様において、モード切替手段が、音声のスペクトル特性を表す量子化パラメータを用いて、駆動音源を符号化する第2符号化手段のモード切替を行う構成を採る。   According to a second aspect of the present invention, in the first aspect, the mode switching unit performs mode switching of the second encoding unit that encodes the driving sound source using a quantization parameter that represents a spectral characteristic of speech. Take.

この構成によれば、スペクトル特性を表すパラメータと駆動音源を表すパラメータとを独立的に符号化する形態の音声符号化装置において、新たな伝送情報を増やすことなく駆動音源の符号化をマルチモード化ができ、符号化性能を向上できる。   According to this configuration, in a speech encoding apparatus that independently encodes a parameter representing spectral characteristics and a parameter representing driving excitation, the encoding of the driving excitation is made multi-mode without increasing new transmission information. Encoding performance can be improved.

本発明の第3の態様は、第2の態様において、モード切替手段が、音声のスペクトル特性を表す量子化パラメータの静的および動的特徴を用いて、駆動音源を符号化する手段のモード切替を行う構成を採る。   According to a third aspect of the present invention, in the second aspect, the mode switching of the means for encoding the driving sound source using the static and dynamic features of the quantization parameter representing the spectral characteristics of the speech. The structure which performs is taken.

この構成によれば、動的特徴を用いることによって定常雑音部の検出ができるようになるので、駆動音源符号化のマルチモード化によって定常雑音部に対する符号化性能を改善できる。   According to this configuration, since the stationary noise part can be detected by using the dynamic feature, the coding performance for the stationary noise part can be improved by the multi-mode driving excitation coding.

本発明の第4の態様は、第2,3の態様において、モード切替手段が、量子化LSPパラメータを用いて駆動音源を符号化する手段のモード切替を行う構成を採る。   According to a fourth aspect of the present invention, in the second and third aspects, the mode switching means switches the mode of the means for encoding the driving sound source using the quantized LSP parameter.

この構成によれば、スペクトル特性を表すパラメータとしてLSPパラメータを用いているCELP方式に容易に適用できる。   According to this configuration, the present invention can be easily applied to a CELP system that uses LSP parameters as parameters representing spectral characteristics.

本発明の第5の態様は、第4の態様において、モード切替手段が、量子化LSPパラメータの静的および動的特徴を用いて、駆動音源を符号化する手段のモード切替を行う構成を採る。   The fifth aspect of the present invention employs a configuration in which, in the fourth aspect, the mode switching means performs mode switching of the means for encoding the driving sound source using the static and dynamic features of the quantized LSP parameter. .

この構成によれば、スペクトル特性を表すパラメータとしてLSPパラメータを用いているCELP方式に簡単に適用でき、また、周波数領域のパラメータであるLSPパラメータを用いるためスペクトルの定常性の判定が良好に行うことができ、定常雑音に対する符号化性能を改善できる。   According to this configuration, the present invention can be easily applied to the CELP system that uses the LSP parameter as a parameter representing the spectrum characteristic, and the LSP parameter that is a frequency domain parameter is used, so that the spectral steadiness can be determined satisfactorily. Encoding performance for stationary noise can be improved.

本発明の第6の態様は、第4,5の態様において、モード切替手段が、量子化LSPの定常性を過去および現在の量子化LSPパラメータを用いて判定する手段と、現在の量子化LSPを用いて有声性を判定する手段と、を備え、判定結果に基づいて駆動音源を符号化する手段のモード切替を行う構成を採る。   According to a sixth aspect of the present invention, in the fourth and fifth aspects, the mode switching means determines the stationarity of the quantized LSP using past and current quantized LSP parameters, and the current quantized LSP. And a means for switching the mode of the means for encoding the driving sound source based on the determination result.

この構成によれば、駆動音源の符号化を定常雑音部と無声音声部と有声音声部とで切替えて行うことができるので、各部に対応した駆動音源の符号化モードを準備することによって符号化性能を改善できる。   According to this configuration, since the encoding of the driving sound source can be performed by switching between the stationary noise unit, the unvoiced speech unit, and the voiced speech unit, the encoding is performed by preparing the driving excitation encoding mode corresponding to each unit. Performance can be improved.

本発明の第7の態様は、音声信号に含まれる声道情報を表す少なくとも1種類以上のパラメータを復号化する手段と、前記音声信号に含まれる音源情報を表す少なくとも1種類以上のパラメータを復号化する第2復号化手段と、前記第1復号化手段で復号化された特定パラメータの動的特徴に基づいて前記第2復号化手段のモード切替を行うモード切替手段と、前記第1、第2復号化手段によって復号化された複数種類のパラメータ情報によって音声信号を音声信号を復号する合成手段と、を具備する構成をとる。   According to a seventh aspect of the present invention, there is provided means for decoding at least one parameter representing vocal tract information included in an audio signal and decoding at least one parameter representing sound source information included in the audio signal. Second decoding means for converting, mode switching means for switching the mode of the second decoding means based on the dynamic characteristics of the specific parameter decoded by the first decoding means, and the first and second And a synthesizing unit that decodes the audio signal based on a plurality of types of parameter information decoded by the decoding unit.

この構成によれば、第1の態様の音声符号化装置で符号化された信号を復号できる。   According to this configuration, the signal encoded by the speech encoding device of the first aspect can be decoded.

本発明の第8の態様は、第7の態様において、モード切替手段が、音声のスペクトル特性を表す量子化パラメータを用いて、駆動音源を復号化する第2復号化手段のモード切替を行う構成を採る。   According to an eighth aspect of the present invention, in the seventh aspect, the mode switching unit performs mode switching of the second decoding unit that decodes the driving sound source using a quantization parameter that represents a spectral characteristic of the speech. Take.

この構成によれば、第2の態様の音声符号化装置で符号化された信号を復号できる。   According to this configuration, the signal encoded by the speech encoding apparatus according to the second aspect can be decoded.

本発明の第9の態様は、第7の態様において、モード切替手段が、音声のスペクトル特性を表す量子化パラメータの静的および動的特徴を用いて、駆動音源を復号化する手段のモード切替を行う構成をとる。   According to a ninth aspect of the present invention, in the seventh aspect, the mode switching of the means for decoding the driving sound source using the static and dynamic features of the quantization parameter representing the spectral characteristics of the speech. The structure which performs is taken.

この構成によれば、第3の態様の音声符号化装置で符号化された信号を復号できる。   According to this configuration, the signal encoded by the speech encoding apparatus of the third aspect can be decoded.

本発明の第10の態様は、第7の態様において、モード切替手段が、量子化LSPパラメータを用いて、駆動音源を復号化する手段のモード切替を行う構成を採る。   The tenth aspect of the present invention employs a configuration in which, in the seventh aspect, the mode switching means performs mode switching of the means for decoding the driving sound source using the quantized LSP parameter.

この構成によれば、第4の態様の音声符号化装置で符号化された信号を復号できる。   According to this configuration, it is possible to decode the signal encoded by the speech encoding device according to the fourth aspect.

本発明の第11の態様は、第7の態様において、モード切替手段が、量子化LSPパラメータの静的および動的特徴を用いて、駆動音源を復号化する手段のモード切替を行う構成を採る。   The eleventh aspect of the present invention employs a configuration in which, in the seventh aspect, the mode switching means performs mode switching of the means for decoding the driving sound source using the static and dynamic features of the quantized LSP parameter. .

この構成によれば、第5の態様の音声符号化装置で符号化された信号を復号できる。   According to this configuration, the signal encoded by the speech encoding apparatus according to the fifth aspect can be decoded.

本発明の第12の態様は、第7の態様において、モード切替手段が、量子化LSPの定常性を過去および現在の量子化LSPパラメータを用いて判定する手段と、現在の量子化LSPを用いて有声性を判定する手段とを備え、判定結果に基づいて駆動音源を復号化する手段のモード切替を行う構成を採る。   According to a twelfth aspect of the present invention, in the seventh aspect, the mode switching means uses means for determining the continuity of the quantized LSP using past and current quantized LSP parameters, and the current quantized LSP. And means for switching the mode of the means for decoding the driving sound source based on the determination result.

この構成によれば、第6の態様の音声符号化装置で符号化された信号を復号できる。   According to this configuration, the signal encoded by the speech encoding apparatus according to the sixth aspect can be decoded.

本発明の第13の態様は、第7〜第12の態様のいずれかにおいて、判定手段の判定結果に基づいて復号信号に対する後処理の切替えを行う構成を採る。   A thirteenth aspect of the present invention employs a configuration in any one of the seventh to twelfth aspects, in which post-processing switching for a decoded signal is performed based on a determination result of a determination unit.

この構成によれば、第1〜第6の態様のいずれかのマルチモード音声符号化装置で符号化された信号を復号でき、さらに後処理によって定常的な背景雑音環境下の音声信号に対する符号化性能を改善できる。   According to this configuration, it is possible to decode a signal encoded by the multimode audio encoding device according to any one of the first to sixth aspects, and further to encode an audio signal in a steady background noise environment by post-processing. Performance can be improved.

本発明の第14の態様は、量子化LSPパラメータのフレーム間変化を算出する手段と、量子化LSPパラメータが定常的であるフレームにおける平均的量子化LSPパラメータを算出する手段と、前記平均的量子化LSPパラメータと現在の量子化LSPパラメータとの距離を算出する手段と、を備える構成を採る。   According to a fourteenth aspect of the present invention, there is provided means for calculating an inter-frame change of a quantized LSP parameter, means for calculating an average quantized LSP parameter in a frame in which the quantized LSP parameter is stationary, and the average quantum And a means for calculating a distance between the quantized LSP parameter and the current quantized LSP parameter.

この構成によれば、入力信号の音声区間検出を精度良く行うための動的特徴を抽出することができる。   According to this configuration, it is possible to extract a dynamic feature for accurately detecting a voice section of an input signal.

本発明の第15の態様は、量子化LSPパラメータから線形予測残差パワを算出する手段と、隣接する次数の量子化LSPパラメータの間隔を算出する手段と、を備える構成を採る。   A fifteenth aspect of the present invention employs a configuration including means for calculating linear prediction residual power from quantized LSP parameters and means for calculating intervals between adjacent order quantized LSP parameters.

この構成によれば、入力信号のスペクトル包絡の山谷の特徴を抽出することができ、音声区間である可能性が高い区間を検出するための静的特徴を抽出することができる。   According to this configuration, it is possible to extract the features of the peaks and valleys of the spectrum envelope of the input signal, and it is possible to extract static features for detecting a section that is highly likely to be a speech section.

本発明の第16の態様は、第14の態様の動的特徴抽出器と、第15の態様の静的特徴抽出器とを備え、前記動的特徴抽出器によって抽出された量子化LSPパラメータの動的特徴と、前記静的特徴抽出器によって抽出された量子化LSPパラメータの静的特徴との少なくとも一方を用いて音声区間の検出を行う構成を採る。   A sixteenth aspect of the present invention includes the dynamic feature extractor according to the fourteenth aspect and the static feature extractor according to the fifteenth aspect, and the quantized LSP parameter extracted by the dynamic feature extractor. A configuration is adopted in which a speech section is detected using at least one of a dynamic feature and a static feature of a quantized LSP parameter extracted by the static feature extractor.

この構成によれば、精度良く音声区間と定常雑音区間との切り分けを行うことができる。   According to this configuration, it is possible to accurately separate the speech section and the stationary noise section.

本発明の第17の態様は、第16の態様の音声区間検出器と、有声無声判定手段とを備え、前記音声区間検出器の検出結果と、前記有声無声判定手段の判定結果との少なくとも一方の情報を用いてモード判定を行う構成を採る。   A seventeenth aspect of the present invention includes the speech section detector of the sixteenth aspect and voiced / unvoiced determination means, and at least one of the detection result of the voice section detector and the determination result of the voiced / unvoiced determination means. A configuration is adopted in which mode determination is performed using this information.

この構成によれば、音声区間/雑音区間と有声区間/無声区間との切り分け情報を用いたマルチモード構成を実現することができる。   According to this configuration, it is possible to realize a multi-mode configuration using the information for separating the voice interval / noise interval and the voiced interval / unvoiced interval.

本発明の第18の態様は、前記有声無声判定手段が、量子化LSPパラメータから反射係数を算出する手段と、量子化LSPパラメータから線形予測残差パワを算出する手段と、を備える量子化LSPパラメータの静的特徴抽出器によって抽出される情報を利用する構成を採る。   According to an eighteenth aspect of the present invention, the voiced / unvoiced judging means includes: a means for calculating a reflection coefficient from a quantized LSP parameter; and a means for calculating a linear prediction residual power from the quantized LSP parameter. A configuration using information extracted by a static feature extractor of parameters is adopted.

この構成によれば、有声/無声の判定を精度よく行うことができる。   According to this configuration, voiced / unvoiced determination can be performed with high accuracy.

本発明の第19の態様は、第1の態様において、前記モード選択器によりモード切替手段を構成する。   According to a nineteenth aspect of the present invention, in the first aspect, a mode switching means is constituted by the mode selector.

この構成によれば、入力音声の特徴に応じて音源符号化をマルチモードで行うことができる。   According to this configuration, excitation encoding can be performed in multimode according to the characteristics of the input speech.

本発明の第20の態様は、第7の態様において、前記モード選択器によりモード切替手段を構成する。   According to a twentieth aspect of the present invention, in the seventh aspect, a mode switching means is configured by the mode selector.

この構成によれば、第19の態様の符号化装置を用いて符号化された音声信号を復号できる。   According to this configuration, an audio signal encoded using the encoding device according to the nineteenth aspect can be decoded.

本発明の第21の態様は、復号LSPパラメータを用いて音声区間か否かの判定を行う判定手段と、信号のFFT処理を行うFFT処理手段と、前記FFT処理によって得られた位相スペクトルを前記判定手段の判定結果に応じてランダム化する位相スペクトルランダム化手段と、前記FFT処理によって得られた振幅スペクトルを前記判定結果に応じて平滑化する振幅スペクトル平滑化手段と、前記位相スペクトルランダム化手段によってランダム化された位相スペクトルと前記振幅スペクトル平滑化手段によって平滑化された位相スペクトルとの逆FFT処理を行うIFFT処理手段と、を備える構成を採る。   According to a twenty-first aspect of the present invention, a determination unit that determines whether or not a speech section is used by using a decoded LSP parameter, an FFT processing unit that performs FFT processing of a signal, and a phase spectrum obtained by the FFT processing Phase spectrum randomizing means for randomizing according to the determination result of the determination means, amplitude spectrum smoothing means for smoothing the amplitude spectrum obtained by the FFT processing according to the determination result, and the phase spectrum randomizing means And IFFT processing means for performing inverse FFT processing on the phase spectrum randomized by the above and the phase spectrum smoothed by the amplitude spectrum smoothing means.

この構成によれば、マルチモードで後処理を行うことができ、特に定常雑音区間の主観品質を改善できる。   According to this configuration, post-processing can be performed in multimode, and in particular, the subjective quality of the stationary noise section can be improved.

本発明の第22の態様は、第21の態様において、音声区間においては過去の非音声区間における平均的振幅スペクトルを用いてランダム化する位相スペクトルの周波数を決定し、非音声区間においては聴覚重みづけ領域における全周波数の振幅スペクトルの平均値を用いてランダム化する位相スペクトルと平滑化する振幅スペクトルの周波数を決定する構成を採る。   According to a twenty-second aspect of the present invention, in the twenty-first aspect, the frequency of the phase spectrum to be randomized is determined using the average amplitude spectrum in the past non-voice interval in the voice interval, and the auditory weight is determined in the non-voice interval. A configuration is employed in which the phase spectrum to be randomized and the frequency of the amplitude spectrum to be smoothed are determined using the average value of the amplitude spectrum of all frequencies in the subscript region.

この構成によれば、音声区間と雑音区間の後処理を適応的に行うことができる。   According to this configuration, it is possible to adaptively perform post-processing of the voice section and the noise section.

本発明の第23の態様は、第21の態様において、音声区間においては過去の非音声区間における平均的振幅スペクトルを用いて生成した雑音を重畳する構成を採る。   A twenty-third aspect of the present invention employs a configuration in which, in the twenty-first aspect, noise generated using an average amplitude spectrum in a past non-voice section is superimposed in the voice section.

この構成によれば、定常的な背景雑音のある復号音声信号の聴感的品質を改善できる。   According to this configuration, it is possible to improve the perceptual quality of the decoded speech signal having stationary background noise.

本発明の第24の態様は、第21の態様において、前記音声区間か否かの判定を第16の態様における音声区間検出手段と、過去の非音声区間における平均的振幅スペクトルと現在の振幅スペクトルとの差の大きさと、を用いて行う構成を採る。   According to a twenty-fourth aspect of the present invention, in the twenty-first aspect, the speech section detection means in the sixteenth aspect determines whether or not it is the speech section, and the average amplitude spectrum and the current amplitude spectrum in the past non-speech section. And the size of the difference.

この構成によれば、復号信号のパワが急に大きくなるような場合を検出できるので、第16の態様における音声区間検出手段による検出誤りが生じた場合に対応することができる。   According to this configuration, since it is possible to detect a case where the power of the decoded signal suddenly increases, it is possible to cope with a case where a detection error by the speech section detection means in the sixteenth aspect occurs.

本発明の第25の態様は、第13の態様において、後処理を第21の態様におけるマルチモード後処理器を用いて行う構成を採る。   A twenty-fifth aspect of the present invention employs a configuration in which, in the thirteenth aspect, post-processing is performed using the multimode post-processor in the twenty-first aspect.

この構成によれば、マルチモードで後処理を行うことによって特に定常雑音区間の主観品質を改善できる音声復号化装置を実現できる。   According to this configuration, it is possible to realize a speech decoding apparatus that can improve the subjective quality of the stationary noise section in particular by performing post-processing in multimode.

本発明の第26の態様は、第1の態様の音声符号化装置と、第7の態様の音声復号化装置と、を備える構成を採る。   A twenty-sixth aspect of the present invention employs a configuration including the speech coding apparatus according to the first aspect and the speech decoding apparatus according to the seventh aspect.

この構成によれば、第1の態様の音声符号化装置と第7の態様の音声復号化装置とを備え音声符号化復号化装置を実現できる。   According to this configuration, it is possible to realize a speech encoding / decoding device including the speech encoding device according to the first aspect and the speech decoding device according to the seventh aspect.

本発明の第27の態様は、音声信号を電気的信号に変換する音声入力装置と、この音声入力装置から出力される信号をディジタル信号に変換するA/D変換器と、このA/D変換器から出力されるディジタル信号の符号化を行う第1〜第6の態様のいずれかの音声符号化装置と、この音声符号化装置から出力される符号化情報に対して変調処理等を行うRF変調器と、このRF変調器から出力された信号を電波に変換して送信する送信アンテナと、を具備する構成を採る。   According to a twenty-seventh aspect of the present invention, an audio input device that converts an audio signal into an electrical signal, an A / D converter that converts a signal output from the audio input device into a digital signal, and the A / D conversion A voice encoding device according to any one of the first to sixth aspects for encoding a digital signal output from the transmitter, and an RF for performing modulation processing or the like on the encoded information output from the speech encoding device A configuration including a modulator and a transmission antenna that converts a signal output from the RF modulator into a radio wave and transmits the signal is employed.

この構成によれば、第1〜第6の態様のいずれかの音声符号化装置を備えた音声信号送信装置を実現でき、品質の高い低ビットレート音声符号化が可能となる。   According to this configuration, it is possible to realize an audio signal transmitting device including the audio encoding device according to any one of the first to sixth aspects, and it is possible to perform high-quality low bit rate audio encoding.

本発明の第28の態様は、受信電波を受信する受信アンテナと、この受信アンテナで受信した信号の復調処理を行うRF復調器と、このRF復調器によって得られた情報の復号化を行う第7〜第13の態様のいずれかの音声復号化装置と、この音声復号化装置によって復号されたディジタル音声信号をD/A変換するD/A変換器と、このD/A変換器によって出力される電気的信号を音声信号に変換する音声出力装置と、を具備する構成をとる。   According to a twenty-eighth aspect of the present invention, there is provided a receiving antenna that receives a received radio wave, an RF demodulator that demodulates a signal received by the receiving antenna, and a decoder that decodes information obtained by the RF demodulator. The speech decoding device according to any of the seventh to thirteenth aspects, a D / A converter for D / A converting a digital speech signal decoded by the speech decoding device, and output by the D / A converter And an audio output device that converts an electrical signal to an audio signal.

この構成によれば、第7〜第13の態様のいずれかの音声復号化装置を備えた音声信号受信装置を実現でき、第27の態様の音声信号送信装置から送信された信号を受信し復号化できる。   According to this configuration, an audio signal receiving device including the audio decoding device according to any of the seventh to thirteenth aspects can be realized, and a signal transmitted from the audio signal transmitting apparatus according to the twenty-seventh aspect can be received and decoded. Can be

本発明の第29の態様は、第27の態様の音声信号送信装置および第28の態様の音声信号受信装置の少なくとも一方を備える構成を採る。   A twenty-ninth aspect of the present invention employs a configuration including at least one of the sound signal transmitting apparatus according to the twenty-seventh aspect and the sound signal receiving apparatus according to the twenty-eighth aspect.

この構成によれば、第27の態様の音声信号送信装置および/または第28の態様の音声信号受信装置を備えた移動局装置を実現でき、高音質の移動局装置を実現できる。   According to this configuration, a mobile station apparatus provided with the audio signal transmitting apparatus according to the 27th aspect and / or the audio signal receiving apparatus according to the 28th aspect can be realized, and a mobile station apparatus with high sound quality can be realized.

本発明の第30の態様は、第27の態様の音声信号送信装置および第28の態様の音声信号受信装置の少なくとも一方を備える構成を採る。   The 30th aspect of the present invention employs a configuration comprising at least one of the audio signal transmitting apparatus of the 27th aspect and the audio signal receiving apparatus of the 28th aspect.

この構成によれば、第27の態様の音声信号送信装置および/または第28の態様の音声信号受信装置を備えた基地局装置を実現でき、高音質の基地局装置を実現できる。   According to this configuration, a base station apparatus including the audio signal transmitting apparatus according to the twenty-seventh aspect and / or the audio signal receiving apparatus according to the twenty-eighth aspect can be realized, and a high-quality base station apparatus can be realized.

本発明の第31の態様は、コンピュータに、量子化LSPの定常性を過去および現在の量子化LSPパラメータを用いて判定する手順と、現在の量子化LSPを用いて有声性を判定する手順と、前記手順によって判定された結果に基づいて駆動音源を符号化する手順のモード切替を行う手順と、を実行させるためのプログラムを記録した機械読み取り可能な記録媒体である。   A thirty-first aspect of the present invention provides a computer with a procedure for determining the continuity of a quantized LSP using past and current quantized LSP parameters, and a procedure for determining voicedness using the current quantized LSP. A machine-readable recording medium recording a program for executing a mode switching procedure of a procedure for encoding a driving sound source based on a result determined by the procedure.

この記録媒体によれば、記録されたプログラムをコンピュータにインストールすることにより第6の態様の音声符号化装置と同等の機能を持たせることができる。   According to this recording medium, a function equivalent to that of the speech coding apparatus according to the sixth aspect can be provided by installing the recorded program in the computer.

本発明の第32の態様は、コンピュータに、量子化LSPの定常性を過去および現在の量子化LSPパラメータを用いて判定する手順と、現在の量子化LSPを用いて有声性を判定する手順と、前記手順によって判定された結果に基づいて駆動音源を復号化する手順のモード切替を行う手順と、前記手順によって判定された結果に基づいて復号信号に対する後処理手順の切替えを行う手順と、を実行させるためのプログラムを記録した機械読み取り可能な記録媒体である。   A thirty-second aspect of the present invention provides a computer with a procedure for determining the continuity of a quantized LSP using past and current quantized LSP parameters, and a procedure for determining voicedness using the current quantized LSP. A procedure for switching the mode of the procedure for decoding the driving sound source based on the result determined by the procedure, and a procedure for switching the post-processing procedure for the decoded signal based on the result determined by the procedure. A machine-readable recording medium on which a program to be executed is recorded.

この記録媒体によれば、記録されたプログラムをコンピュータにインストールすることにより第13の態様の音声復号化装置と同等の機能を持たせることができる。   According to this recording medium, a function equivalent to that of the speech decoding apparatus according to the thirteenth aspect can be provided by installing the recorded program in the computer.

本発明の第33の態様は、音声のスペクトル特性を表す量子化パラメータの静的および動的特徴を用いて駆動音源を符号化するモードのモード切替を行う構成を採る。   A thirty-third aspect of the present invention employs a configuration for performing mode switching of a mode for encoding a driving sound source using static and dynamic features of quantization parameters representing the spectral characteristics of speech.

この構成によれば、動的特徴を用いることによって定常雑音部の検出ができるようになるので、駆動音源符号化のマルチモード化によって定常雑音部に対する符号化性能を改善できる。   According to this configuration, since the stationary noise part can be detected by using the dynamic feature, the coding performance for the stationary noise part can be improved by the multi-mode driving excitation coding.

本発明の第34の態様は、音声のスペクトル特性を表す量子化パラメータの静的および動的特徴を用いて駆動音源を復号化するモードのモード切替を行う構成を採る。   A thirty-fourth aspect of the present invention employs a configuration for performing mode switching of a mode for decoding a driving sound source using static and dynamic features of a quantization parameter representing a spectral characteristic of speech.

この構成によれば、第33の態様の音声符号化方法によって符号化した信号を復号可能な復号化方法を提供できる。   According to this configuration, it is possible to provide a decoding method capable of decoding a signal encoded by the speech encoding method of the thirty-third aspect.

本発明の第35の態様は、第34の態様の音声復号化方法において、復号信号に対する後処理を行う工程と、モード情報に基づいて前記後処理工程の切替えを行う工程と、を具備する構成を採る。   A thirty-fifth aspect of the present invention is a speech decoding method according to the thirty-fourth aspect, comprising a step of performing post-processing on a decoded signal and a step of switching the post-processing step based on mode information. Take.

この構成によれば、第34の態様の音声復号化方法を用いて復号化した信号の定常雑音品質をさらに改善できる音声復号化方法を提供できる。   According to this configuration, it is possible to provide a speech decoding method capable of further improving the stationary noise quality of a signal decoded using the speech decoding method of the 34th aspect.

本発明の第36の態様は、量子化LSPパラメータのフレーム間変化を算出する工程と、量子化LSPパラメータが定常的であるフレームにおける平均的量子化LSPパラメータを算出する工程と、前記平均的量子化LSPパラメータと現在の量子化LSPパラメータとの距離を算出する工程と、を具備する構成を採る。   A thirty-sixth aspect of the present invention includes a step of calculating a change in the quantized LSP parameter between frames, a step of calculating an average quantized LSP parameter in a frame in which the quantized LSP parameter is stationary, and the average quantum And a step of calculating a distance between the quantized LSP parameter and the current quantized LSP parameter.

この構成によれば、入力信号の音声区間検出を精度良く行うための動的特徴を抽出することができる。   According to this configuration, it is possible to extract a dynamic feature for accurately detecting a voice section of an input signal.

本発明の第37の態様は、量子化LSPパラメータから線形予測残差パワを算出する工程と、隣接する次数の量子化LSPパラメータの間隔を算出する工程と、を具備する構成を採る。   A thirty-seventh aspect of the present invention employs a configuration including a step of calculating linear prediction residual power from quantized LSP parameters and a step of calculating intervals between adjacent order quantized LSP parameters.

この構成によれば、入力信号のスペクトル包絡の山谷の特徴を抽出することができ、音声区間である可能性が高い区間を検出するための静的特徴を抽出することができる。   According to this configuration, it is possible to extract the features of the peaks and valleys of the spectrum envelope of the input signal, and it is possible to extract static features for detecting a section that is highly likely to be a speech section.

本発明の第38の態様は、第36の態様における動的特徴抽出工程と、第37の態様における静的特徴抽出工程と、を具備し、前記動的特徴抽出工程において抽出された量子化LSPパラメータの動的特徴と、前記静的特徴抽出工程において抽出された量子化LSPパラメータの静的特徴と、の少なくとも一方を用いて音声区間の検出を行う構成を採る。   A thirty-eighth aspect of the present invention comprises the dynamic feature extraction step in the thirty-sixth aspect and the static feature extraction step in the thirty-seventh aspect, and the quantized LSP extracted in the dynamic feature extraction step A configuration is adopted in which a speech section is detected using at least one of a dynamic feature of a parameter and a static feature of a quantized LSP parameter extracted in the static feature extraction step.

この構成によれば、精度良く音声区間と定常雑音区間との切り分けを行うことができる。   According to this configuration, it is possible to accurately separate the speech section and the stationary noise section.

本発明の第39の態様は、第38の態様における音声区間検出方法によって得られる音声検出結果を用いてモード判定を行う構成を採る。   A thirty-ninth aspect of the present invention employs a configuration in which mode determination is performed using a voice detection result obtained by the voice section detection method according to the thirty-eighth aspect.

この構成によれば、音声区間/雑音区間と有声区間/無声区間との切り分け情報を用いたマルチモード構成を実現することができる。   According to this configuration, it is possible to realize a multi-mode configuration using the information for separating the voice interval / noise interval and the voiced interval / unvoiced interval.

本発明の第40の態様は、復号LSPパラメータを用いて音声区間か否かの判定を行う判定工程と、信号のFFT処理を行うFFT処理工程と、前記FFT処理によって得られた位相スペクトルを前記判定工程における判定結果に応じてランダム化する位相スペクトルランダム化工程と、前記FFT処理によって得られた振幅スペクトルを前記判定結果に応じて平滑化する振幅スペクトル平滑化工程と、前記位相スペクトルランダム化工程においてランダム化された位相スペクトルと前記振幅スペクトル平滑化工程において平滑化された位相スペクトルとの逆FFT処理を行うIFFT処理工程と、を具備する構成を採る。   According to a 40th aspect of the present invention, there is provided a determination step of determining whether or not a speech section is detected using a decoded LSP parameter, an FFT processing step of performing FFT processing of a signal, and a phase spectrum obtained by the FFT processing as described above. A phase spectrum randomizing step for randomizing according to a determination result in the determination step, an amplitude spectrum smoothing step for smoothing an amplitude spectrum obtained by the FFT processing according to the determination result, and the phase spectrum randomizing step And an IFFT processing step for performing an inverse FFT process on the phase spectrum randomized in step 1 and the phase spectrum smoothed in the amplitude spectrum smoothing step.

この構成によれば、マルチモードで後処理を行うことができ、特に定常雑音区間の主観品質を改善できる。   According to this configuration, post-processing can be performed in multimode, and in particular, the subjective quality of the stationary noise section can be improved.

以下、本発明の実施の形態における音声符号化装置等について、図1から図9を用いて説明する。   Hereinafter, a speech encoding apparatus and the like according to an embodiment of the present invention will be described with reference to FIGS.

(実施の形態1)
図1に本発明の実施の形態1にかかる音声符号化装置の構成を示す。
(Embodiment 1)
FIG. 1 shows the configuration of a speech encoding apparatus according to Embodiment 1 of the present invention.

ディジタル化された音声信号等からなる入力データが前処理器101に入力される。前処理器101は、ハイパスフィルタやバンドパスフィルタ等を用いて直流成分のカットや入力データの帯域制限等を行ってLPC分析器102と加算器105とに出力する。なお、この前処理器101において何も処理を行わなくても後続する符号化処理は可能であるが、前述したような処理を行った方が符号化性能は向上する。   Input data including a digitized audio signal or the like is input to the preprocessor 101. The pre-processor 101 cuts the DC component, limits the bandwidth of the input data, etc. using a high-pass filter, a band-pass filter, etc., and outputs the result to the LPC analyzer 102 and the adder 105. The subsequent encoding process can be performed without performing any process in the pre-processor 101, but the encoding performance is improved by performing the process as described above.

LPC分析器102は、線形予測分析を行って線形予測係数(LPC)を算出してLPC量子化器103へ出力する。   The LPC analyzer 102 performs linear prediction analysis, calculates a linear prediction coefficient (LPC), and outputs the linear prediction coefficient (LPC) to the LPC quantizer 103.

LPC量子化器103は、入力したLPCを量子化し、量子化後のLPCを合成フィルタ104とモード選択器105に、また、量子化LPCを表現する符号Lを復号器に夫々出力する。なお、LPCの量子化は補間特性の良いLSP(Line Spectrum Pair:線スペクトル対)に変換して行うのが一般的である。   The LPC quantizer 103 quantizes the input LPC, and outputs the quantized LPC to the synthesis filter 104 and the mode selector 105, and outputs a code L representing the quantized LPC to the decoder. Note that LPC quantization is generally performed by converting to LSP (Line Spectrum Pair) having good interpolation characteristics.

合成フィルタ104は、入力した量子化LPCを用いてLPC合成フィルタを構築する。この合成フィルタに対して加算器114から出力される駆動音源信号を入力としてフィルタ処理を行って合成信号を加算器106に出力する。   The synthesis filter 104 constructs an LPC synthesis filter using the input quantized LPC. The synthesized filter is subjected to filter processing with the driving sound source signal output from the adder 114 as an input, and the synthesized signal is output to the adder 106.

モード選択器105は、LPC量子化器103から入力した量子化LPCを用いて雑音符号帳109のモードを決定する。   The mode selector 105 determines the mode of the noise codebook 109 using the quantized LPC input from the LPC quantizer 103.

ここで、モード選択器105は、過去に入力した量子化LPCの情報も蓄積しており、フレーム間における量子化LPCの変動の特徴と現フレームにおける量子化LPCの特徴の双方を用いてモードの選択を行う。このモードは少なくとも2種類以上あり、例えば有声音声部に対応するモードと無声音声部および定常雑音部等に対応するモードから成る。また、モードの選択に用いる情報は量子化LPCそのものである必要はなく、量子化LSPや反射係数や線形予測残差パワなどのパラメータに変換したものを用いた方が効果的である。   Here, the mode selector 105 also stores information on quantized LPC input in the past, and uses both the characteristics of the variation of the quantized LPC between frames and the features of the quantized LPC in the current frame. Make a selection. There are at least two types of modes, for example, a mode corresponding to a voiced voice part, a mode corresponding to an unvoiced voice part, a stationary noise part, and the like. In addition, the information used for mode selection does not need to be the quantized LPC itself, and it is more effective to use information converted into parameters such as quantized LSP, reflection coefficient, and linear prediction residual power.

加算器106は、前処理器101から入力される前処理後の入力データと合成信号との誤差を算出し、聴覚重みづけフィルタ107へ出力する。   The adder 106 calculates an error between the preprocessed input data input from the preprocessor 101 and the synthesized signal and outputs the error to the auditory weighting filter 107.

聴覚重み付けフィルタ107は、加算器106において算出された誤差に対して聴覚的な重み付けを行って誤差最小化器108へ出力する。   The auditory weighting filter 107 performs auditory weighting on the error calculated by the adder 106 and outputs the result to the error minimizer 108.

誤差最小化器108は、雑音符号帳インデックスSiと適応符号帳インデックス(ピッチ周期)Piとゲイン符号帳インデックスGiとを調整しながら夫々雑音符号帳109と適応符号帳110とゲイン符号帳111とに出力し、聴覚重み付けフィルタ107から入力される聴覚的重み付けされた誤差が最小となるように雑音符号帳109と適応符号帳110とゲイン符号帳111とが生成する雑音符号ベクトルと適応符号ベクトルと雑音符号帳利得および適応符号帳利得とを夫々決定し、雑音符号ベクトルを表現する符号Sと適応符号ベクトルを表現するPとゲイン情報を表現する符号Gを夫々復号器に出力する。   The error minimizer 108 adjusts the noise codebook index Si, the adaptive codebook index (pitch period) Pi, and the gain codebook index Gi to the noise codebook 109, the adaptive codebook 110, and the gain codebook 111, respectively. The noise code vector, adaptive code vector, and noise generated by the noise codebook 109, the adaptive codebook 110, and the gain codebook 111 so that the perceptually weighted error input from the perceptual weighting filter 107 is minimized. A codebook gain and an adaptive codebook gain are determined, respectively, and a code S representing a noise code vector, P representing an adaptive code vector, and a code G representing gain information are output to a decoder.

雑音符号帳109は、予め定められた個数の形状の異なる雑音符号ベクトルが格納されており、誤差最小化器108から入力される雑音符号ベクトルのインデックスSiによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳109は少なくとも2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部等に対応するモードではより雑音的な雑音符号ベクトルを生成するような構造となっている。雑音符号帳109から出力される雑音符号ベクトルは前記2種類以上のモードのうちモード選択器105で選択された1つのモードから生成され、乗算器112で雑音符号帳利得Gsが乗じられた後に加算器114に出力される。   The random code book 109 stores a predetermined number of different random code vectors, and outputs a random code vector specified by the noise code vector index Si input from the error minimizer 108. The noise codebook 109 has at least two types of modes. For example, in a mode corresponding to a voiced voice part, a more pulsed noise code vector is generated, and it corresponds to an unvoiced voice part or a stationary noise part. In this mode, a more noisy noise code vector is generated. The noise code vector output from the noise codebook 109 is generated from one mode selected by the mode selector 105 out of the two or more modes, and is added after the noise codebook gain Gs is multiplied by the multiplier 112. Is output to the device 114.

適応符号帳110は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、誤差最小化器108から入力される適応符号帳インデックス(ピッチ周期(ピッチラグ))Piを用いて適応符号ベクトルを生成する。適応符号帳110にて生成された適応符号ベクトルは乗算器113で適応符号帳利得Gaが乗じられた後に加算器114に出力される。   The adaptive codebook 110 performs buffering while sequentially updating drive excitation signals generated in the past, and uses the adaptive codebook index (pitch period (pitch lag)) Pi input from the error minimizer 108 to perform adaptive codebooking. Generate a vector. The adaptive code vector generated by adaptive codebook 110 is multiplied by adaptive codebook gain Ga by multiplier 113 and then output to adder 114.

ゲイン符号帳111は、適応符号帳利得Gaと雑音符号帳利得Gsのセット(ゲインベクトル)を予め定められた個数だけ格納しており、誤差最小化器108から入力されるゲイン符号帳インデックスGiによって指定されるゲインベクトルの適応符号帳利得成分Gaを乗算器113に、雑音符号帳利得成分Gsを乗算器112に夫々出力する。なお、ゲイン符号帳は多段構成とすればゲイン符号帳に要するメモリ量やゲイン符号帳探索に要する演算量の削減が可能である。また、ゲイン符号帳に割り当てられるビット数が十分であれば、適応符号帳利得と雑音符号帳利得とを独立してスカラ量子化することもできる。   The gain codebook 111 stores a predetermined number of sets (gain vectors) of the adaptive codebook gain Ga and the noise codebook gain Gs, and uses the gain codebook index Gi input from the error minimizer 108. The adaptive codebook gain component Ga of the designated gain vector is output to the multiplier 113, and the noise codebook gain component Gs is output to the multiplier 112. If the gain codebook has a multi-stage configuration, it is possible to reduce the amount of memory required for the gain codebook and the amount of calculation required for the gain codebook search. Also, if the number of bits allocated to the gain codebook is sufficient, the adaptive codebook gain and the noise codebook gain can be independently scalar quantized.

加算器114は、乗算器112および113から入力される雑音符号ベクトルと適応符号ベクトルの加算を行って駆動音源信号を生成し、合成フィルタ104および適応符号帳110に出力する。   Adder 114 adds the noise code vector and adaptive code vector input from multipliers 112 and 113 to generate a drive excitation signal, and outputs it to synthesis filter 104 and adaptive codebook 110.

なお、本実施の形態においては、マルチモード化されているのは雑音符号帳109のみであるが、適応符号帳110およびゲイン符号帳111をマルチモード化することによってさらに品質改善を行うことも可能である。   In the present embodiment, only the noise codebook 109 has been converted to the multimode, but the quality can be further improved by converting the adaptive codebook 110 and the gain codebook 111 to the multimode. It is.

次に図3を参照して上記実施の形態における音声符号化方法の処理の流れを示す。本説明においては、音声符号化処理を予め定められた時間長の処理単位(フレーム:時間長にして数十ミリ秒程度)毎に処理を行い、1フレームをさら整数個の短い処理単位(サブフレーム)毎に処理を行う例を示す。   Next, referring to FIG. 3, a processing flow of the speech coding method in the above embodiment will be described. In this description, the speech encoding process is performed for each predetermined time length processing unit (frame: about several tens of milliseconds in time length), and one frame is further divided into a short number of processing units (sub An example in which processing is performed for each frame) will be described.

ステップ301において、適応符号帳の内容、合成フィルタメモリ、入力バッファ等の全てのメモリをクリアする。   In step 301, all the memories such as the contents of the adaptive codebook, the synthesis filter memory, and the input buffer are cleared.

次に、ステップ302においてディジタル化された音声信号等の入力データを1フレーム分入力し、ハイパスフィルタまたはバンドパスフィルタ等をかけることによって入力データのオフセット除去や帯域制限を行う。前処理後の入力データは入力バッファにバッファリングされ、以降の符号化処理に用いられる。   Next, input data such as a voice signal digitized in step 302 is input for one frame, and an input data offset removal or band limitation is performed by applying a high-pass filter or a band-pass filter. The input data after the preprocessing is buffered in the input buffer and used for the subsequent encoding processing.

次に、ステップ303において、LPC分析(線形予測分析)が行われ、LPC係数(線形予測係数)が算出される。   Next, in step 303, LPC analysis (linear prediction analysis) is performed to calculate LPC coefficients (linear prediction coefficients).

次に、ステップ304において、ステップ303にて算出されたLPC係数の量子化が行われる。LPC係数の量子化方法は種々提案されているが、補間特性の良いLSPパラメータに変換して多段ベクトル量子化やフレーム間相関を利用した予測量子化を適用すると効率的に量子化できる。また、例えば1フレームが2つのサブフレームに分割されて処理される場合には、第2サブフレームのLPC係数を量子化して、第1サブフレームのLPC係数は直前フレームにおける第2サブフレームの量子化LPC係数と現フレームにおける第2サブフレームの量子化LPC係数とを用いて補間処理によって決定する。   Next, in step 304, the LPC coefficient calculated in step 303 is quantized. Various methods for quantizing LPC coefficients have been proposed. However, when LSP parameters are converted into LSP parameters having good interpolation characteristics and predictive quantization using multi-stage vector quantization or inter-frame correlation is applied, the LPC coefficients can be efficiently quantized. For example, when one frame is divided into two subframes and processed, the LPC coefficient of the second subframe is quantized, and the LPC coefficient of the first subframe is quantized of the second subframe in the immediately preceding frame. This is determined by interpolation using the quantized LPC coefficient and the quantized LPC coefficient of the second subframe in the current frame.

次に、ステップ305において、前処理後の入力データに聴覚重みづけを行う聴覚重みづけフィルタを構築する。   Next, in step 305, an auditory weighting filter that constructs auditory weighting on the preprocessed input data is constructed.

次に、ステップ306において、駆動音源信号から聴覚重み付け領域の合成信号を生成する聴覚重み付け合成フィルタを構築する。このフィルタは、合成フィルタと聴覚重み付けフィルタとを従属接続したフィルタであり、合成フィルタはステップ304にて量子化された量子化LPC係数を用いて構築され、聴覚重み付けフィルタはステップ303において算出されたLPC係数を用いて構築される。   Next, in step 306, a perceptual weighting synthesis filter that generates a perceptual weighting region composite signal from the driving sound source signal is constructed. This filter is a filter in which a synthesis filter and an auditory weighting filter are connected in cascade. The synthesis filter is constructed using the quantized LPC coefficients quantized in step 304, and the auditory weighting filter is calculated in step 303. Constructed using LPC coefficients.

次に、ステップ307において、モードの選択が行われる。モードの選択はステップ304において量子化された量子化LPC係数の動的および静的特徴を用いて行われる。具体的には、量子化LSPの変動や量子化LPC係数から算出される反射係数や予測残差パワ等を用いる。本ステップにおいて選択されたモードに従って雑音符号帳の探索が行われる。本ステップにおいて選択されるモードは少なくとも2種類以上あり、例えば有声音声モードと無声音声および定常雑音モードの2モード構成等が考えられる。   Next, in step 307, a mode is selected. Mode selection is performed using the dynamic and static features of the quantized LPC coefficients quantized in step 304. Specifically, a variation of the quantized LSP, a reflection coefficient calculated from the quantized LPC coefficient, a prediction residual power, and the like are used. A noise codebook search is performed according to the mode selected in this step. There are at least two modes selected in this step. For example, a two-mode configuration of voiced voice mode, unvoiced voice, and stationary noise mode can be considered.

次に、ステップ308において、適応符号帳の探索が行われる。適応符号帳の探索は、前処理後の入力データに聴覚重みづけを行った波形に最も近くなるような聴覚重みづけ合成波形が生成される適応符号ベクトルを探索することであり、前処理後の入力データをステップ305で構築された聴覚重み付けフィルタでフィルタリングした信号と適応符号帳から切り出した適応符号ベクトルを駆動音源信号としてステップ306で構築された聴覚重み付け合成フィルタでフィルタリングした信号との誤差が最小となるように、適応符号ベクトルを切り出す位置を決定する。   Next, in step 308, an adaptive codebook search is performed. The search of the adaptive codebook is to search for an adaptive code vector that generates an auditory weighted composite waveform that is closest to the waveform obtained by performing auditory weighting on the preprocessed input data. Minimal error between the signal filtered by the perceptual weighting filter constructed in step 305 and the signal filtered by the perceptual weighting synthesis filter constructed in step 306 using the adaptive code vector cut out from the adaptive codebook as the driving excitation signal The position to cut out the adaptive code vector is determined so that

次に、ステップ309において、雑音符号帳の探索が行われる。雑音符号帳の探索は、前処理後の入力データに聴覚重みづけを行った波形に最も近くなるような聴覚重みづけ合成波形が生成される駆動音源信号を生成する雑音符号ベクトルを選択することであり、駆動音源信号が適応符号ベクトルと雑音符号ベクトルとを加算して生成されることを考慮した探索が行われる。したがって、既にステップ308にて決定された適応符号ベクトルと雑音符号帳に格納されている雑音符号ベクトルとを加算して駆動音源信号を生成し、生成された駆動音源信号をステップ306で構築された聴覚重みづけ合成フィルタでフィルタリングした信号と前処理後の入力データをステップ305で構築された聴覚重みづけフィルタでフィルタリングした信号との誤差が最小となるように、雑音符号帳の中から雑音符号ベクトルを選択する。なお、雑音符号ベクトルに対してピッチ周期化等の処理を行う場合は、その処理も考慮した探索が行われる。また、この雑音符号帳は少なくとも2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを格納している雑音符号帳を用いて探索が行われ、無声音声部や定常雑音部等に対応するモードではより雑音的な雑音符号ベクトルを格納している雑音符号帳を用いて探索が行われる。探索時にどのモードの雑音符号帳を用いるかは、ステップ307にて選択される。   Next, in step 309, a noise codebook search is performed. The noise codebook search is performed by selecting a noise code vector that generates a driving sound source signal that generates an auditory weighted composite waveform that is closest to the waveform obtained by performing auditory weighting on input data after preprocessing. There is a search taking into account that the driving excitation signal is generated by adding the adaptive code vector and the noise code vector. Therefore, the drive excitation signal is generated by adding the adaptive code vector already determined in step 308 and the noise code vector stored in the noise codebook, and the generated drive excitation signal is constructed in step 306. The noise code vector is extracted from the noise codebook so that the error between the signal filtered by the auditory weighting synthesis filter and the signal obtained by filtering the preprocessed input data by the auditory weighting filter constructed in step 305 is minimized. Select. When processing such as pitch periodization is performed on the noise code vector, a search that takes that processing into consideration is also performed. In addition, this noise codebook has at least two modes. For example, in a mode corresponding to the voiced voice part, a search is performed using a noise codebook storing a more pulsed noise code vector. In a mode corresponding to an unvoiced voice part, a stationary noise part, etc., a search is performed using a noise codebook storing more noisy noise code vectors. In step 307, the mode of the noise codebook to be used during the search is selected.

次に、ステップ310において、ゲイン符号帳の探索が行われる。ゲイン符号帳の探索は、既にステップ308にて決定された適応符号ベクトルとステップ309にて決定された雑音符号ベクトルのそれぞれに対して乗じる適応符号帳利得と雑音符号帳利得の組をゲイン符号帳の中から選択することであり、適応符号帳利得乗算後の適応符号ベクトルと雑音符号利得乗算後の雑音符号ベクトルとを加算して駆動音源信号を生成し、生成した駆動音源信号をステップ306にて構築された聴覚重みづけ合成フィルタでフィルタリングした信号と前処理後の入力データをステップ305で構築された聴覚重みづけフィルタでフィルタリングした信号との誤差が最小となるような適応符号帳利得と雑音符号帳利得の組をゲイン符号帳の中から選択する。   Next, in step 310, a gain codebook search is performed. The search of the gain codebook is performed by obtaining a set of the adaptive codebook gain and the noise codebook gain to be multiplied with respect to each of the adaptive code vector already determined in step 308 and the noise code vector determined in step 309. And the adaptive codebook gain multiplied adaptive code vector and the noise code gain multiplied noise code vector are added to generate a drive excitation signal, and the generated drive excitation signal is sent to step 306. Adaptive codebook gain and noise that minimize the error between the signal filtered by the perceptual weighting synthesis filter constructed in step 305 and the signal filtered by the perceptual weighting filter constructed in step 305 from the preprocessed input data A set of codebook gains is selected from the gain codebook.

次に、ステップ311において、駆動音源信号が生成される。駆動音源信号は、ステップ308にて選択された適応符号ベクトルにステップ310にて選択された適応符号帳利得を乗じたベクトルと、ステップ309にて選択された雑音符号ベクトルにステップ310において選択された雑音符号帳利得を乗じたベクトルと、を加算して生成される。   Next, in step 311, a driving sound source signal is generated. The driving excitation signal is selected in step 310 by the vector obtained by multiplying the adaptive code vector selected in step 308 by the adaptive codebook gain selected in step 310 and the noise code vector selected in step 309. It is generated by adding the vector multiplied by the noise codebook gain.

次に、ステップ312において、サブフレーム処理のループで用いられるメモリの更新が行われる。具体的には、適応符号帳の更新や聴覚重みづけフィルタおよび聴覚重みづけ合成フィルタの状態更新等が行われる。   Next, in step 312, the memory used in the subframe processing loop is updated. Specifically, the adaptive codebook is updated, the state of the auditory weighting filter and the auditory weighting synthesis filter is updated, and the like.

上記ステップ305〜312はサブフレーム単位の処理である。   The above steps 305 to 312 are processing in units of subframes.

次に、ステップ313において、フレーム処理のループで用いられるメモリの更新が行われる。具体的には、前処理器で用いられるフィルタの状態更新や量子化LPC係数バッファの更新や入力データバッファの更新等が行われる。   Next, in step 313, the memory used in the frame processing loop is updated. Specifically, the state of the filter used in the preprocessor, the update of the quantized LPC coefficient buffer, the update of the input data buffer, and the like are performed.

次に、ステップ314において、符号化データの出力が行われる。符号化データは伝送される形態に応じてビットストリーム化や多重化処理等が行われて伝送路に送出される。   Next, in step 314, encoded data is output. The encoded data is sent to the transmission line after being subjected to bit stream or multiplexing processing according to the transmission form.

上記ステップ302〜304および313〜314がフレーム単位の処理である。また、フレーム単位およびサブフレーム単位の処理は入力データがなくなるまで繰り返し行われる。   The above steps 302 to 304 and 313 to 314 are processing in units of frames. Further, the processing in units of frames and subframes is repeated until there is no input data.

(実施の形態2)
図2に本発明の実施の形態2にかかる音声復号化装置の構成を示す。
(Embodiment 2)
FIG. 2 shows the configuration of a speech decoding apparatus according to the second exemplary embodiment of the present invention.

符号器から伝送された、量子化LPCを表現する符号Lと雑音符号ベクトルを表現する符号Sと適応符号ベクトルを表現する符号Pとゲイン情報を表現する符号Gとが、それぞれLPC復号器201と雑音符号帳203と適応符号帳204とゲイン符号帳205とに入力される。   The code L representing the quantized LPC, the code S representing the noise code vector, the code P representing the adaptive code vector, and the code G representing the gain information transmitted from the encoder are respectively an LPC decoder 201 and The noise codebook 203, the adaptive codebook 204, and the gain codebook 205 are input.

LPC復号器201は、符号Lから量子化LPCを復号し、モード選択器202と合成フィルタ209に夫々出力する。   The LPC decoder 201 decodes the quantized LPC from the code L and outputs the decoded LPC to the mode selector 202 and the synthesis filter 209, respectively.

モード選択器202は、LPC復号器201から入力した量子化LPCを用いて雑音符号帳203および後処理器211のモードを決定し、モード情報Mを雑音符号帳203および後処理器211とに夫々出力する。なお、モード選択器202は過去に入力した量子化LPCの情報も蓄積しており、フレーム間における量子化LPCの変動の特徴と現フレームにおける量子化LPCの特徴の双方を用いてモードの選択を行う。このモードは少なくとも2種類以上あり、例えば有声音声部に対応するモードと無声音声部に対応するモードと定常雑音部等に対応するモードから成る。また、モードの選択に用いる情報は量子化LPCそのものである必要はなく、量子化LSPや反射係数や線形予測残差パワなどのパラメータに変換したものを用いた方が効果的である。   The mode selector 202 determines the modes of the noise codebook 203 and the post-processor 211 using the quantized LPC input from the LPC decoder 201, and sends the mode information M to the noise codebook 203 and the post-processor 211, respectively. Output. Note that the mode selector 202 also stores information on quantized LPC input in the past, and selects a mode using both the characteristics of the quantized LPC variation between frames and the quantized LPC characteristics of the current frame. Do. There are at least two types of modes, and for example, a mode corresponding to a voiced voice part, a mode corresponding to an unvoiced voice part, and a mode corresponding to a stationary noise part are included. In addition, the information used for mode selection does not need to be the quantized LPC itself, and it is more effective to use information converted into parameters such as quantized LSP, reflection coefficient, and linear prediction residual power.

雑音符号帳203は、予め定められた個数の形状の異なる雑音符号ベクトルが格納されており、入力した符号Sを復号して得られる雑音符号帳インデックスによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳203は少なくとも2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部等に対応するモードではより雑音的な雑音符号ベクトルを生成するような構造となっている。雑音符号帳203から出力される雑音符号ベクトルは前記2種類以上のモードのうちモード選択器202で選択された1つのモードから生成され、乗算器206で雑音符号帳利得Gsが乗じられた後に加算器208に出力される。   The noise code book 203 stores a predetermined number of different noise code vectors, and outputs a noise code vector designated by a noise code book index obtained by decoding the input code S. The noise codebook 203 has at least two or more modes. For example, in the mode corresponding to the voiced voice part, a more pulsed noise code vector is generated, and the voice code part 203 is compatible with the voiceless voice part and the stationary noise part. In this mode, a more noisy noise code vector is generated. The noise code vector output from the noise codebook 203 is generated from one mode selected by the mode selector 202 from the two or more modes, and is added after the noise codebook gain Gs is multiplied by the multiplier 206. Is output to the device 208.

適応符号帳204は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、入力した符号Pを復号して得られる適応符号帳インデックス(ピッチ周期(ピッチラグ))を用いて適応符号ベクトルを生成する。適応符号帳204にて生成された適応符号ベクトルは乗算器207で適応符号帳利得Gaが乗じられた後に加算器208に出力される。   The adaptive codebook 204 is buffered while sequentially updating the driving excitation signal generated in the past, and the adaptive codebook 204 uses an adaptive codebook index (pitch period (pitch lag)) obtained by decoding the input code P. Generate a vector. The adaptive code vector generated by adaptive codebook 204 is multiplied by adaptive codebook gain Ga by multiplier 207 and then output to adder 208.

ゲイン符号帳205は、適応符号帳利得Gaと雑音符号帳利得Gsのセット(ゲインベクトル)を予め定められた個数だけ格納しており、入力した符号Gを復号して得られるゲイン符号帳インデックスによって指定されるゲインベクトルの適応符号帳利得成分Gaを乗算器207に、雑音符号帳利得成分Gsを乗算器206に夫々出力する。   The gain codebook 205 stores a predetermined number of sets (gain vectors) of the adaptive codebook gain Ga and the noise codebook gain Gs, and uses a gain codebook index obtained by decoding the input code G. The adaptive codebook gain component Ga of the designated gain vector is output to the multiplier 207, and the noise codebook gain component Gs is output to the multiplier 206.

加算器208は、乗算器206および207から入力される雑音符号ベクトルと適応符号ベクトルの加算を行って駆動音源信号を生成し、合成フィルタ209および適応符号帳204に出力する。   Adder 208 adds the noise code vector and adaptive code vector input from multipliers 206 and 207 to generate a drive excitation signal, and outputs the generated signal to synthesis filter 209 and adaptive codebook 204.

合成フィルタ209は、入力した量子化LPCを用いてLPC合成フィルタを構築する。この合成フィルタに対して加算器208から出力される駆動音源信号を入力としてフィルタ処理を行って合成信号をポストフィルタ210に出力する。   The synthesis filter 209 constructs an LPC synthesis filter using the input quantized LPC. The synthesized filter is subjected to filter processing with the driving sound source signal output from the adder 208 as an input, and the synthesized signal is output to the post filter 210.

ポストフィルタ210は、合成フィルタ209から入力した合成信号に対して、ピッチ強調、ホルマント強調、スペクトル傾斜補正、利得調整等の音声信号の主観的品質を改善させるための処理を行い、後処理器211に出力する。   The post filter 210 performs processing for improving the subjective quality of the audio signal, such as pitch emphasis, formant emphasis, spectral tilt correction, and gain adjustment, on the synthesized signal input from the synthesis filter 209, and the post-processor 211. Output to.

後処理器211は、ポストフィルタ210から入力した信号に対して、振幅スペクトルのフレーム間平滑化処理、位相スペクトルのランダマイズ処理等の定常雑音部の主観品質の改善させるための処理を、モード選択器202から入力されるモード情報Mを利用して適応的に行う。例えば有声音声部や無声音声部に対応するモードでは前記平滑化処理やランダマイズ処理はほとんど行わず、定常雑音部等に対応するモードでは前記平滑化処理やランダマイズ処理を適応的に行う。後処理後の信号はディジタル化された復号音声信号等の出力データとして出力される。   The post-processor 211 performs a process for improving the subjective quality of the stationary noise part, such as an inter-frame smoothing process of the amplitude spectrum and a randomization process of the phase spectrum, on the signal input from the post filter 210. This is adaptively performed using mode information M input from 202. For example, the smoothing process and the randomization process are hardly performed in the mode corresponding to the voiced voice part and the unvoiced voice part, and the smoothing process and the randomization process are adaptively performed in the mode corresponding to the stationary noise part. The post-processed signal is output as output data such as a digitized decoded speech signal.

なお、本実施の形態においては、モード選択器202から出力されるモード情報Mは、雑音符号帳203のモード切替と後処理器211のモード切替の双方で用いられる構成としたが、どちらか一方のみのモード切替に用いても効果が得られる。この場合、どちらか一方のみがマルチモード処理となる。   In the present embodiment, the mode information M output from the mode selector 202 is configured to be used for both mode switching of the noise codebook 203 and mode switching of the post-processor 211. Even if it is used for only mode switching, an effect can be obtained. In this case, only one of them is multimode processing.

次に図4を参照して上記実施の形態における音声復号化方法の処理の流れを示す。本説明においては、音声符号化処理を予め定められた時間長の処理単位(フレーム:時間長にして数十ミリ秒程度)毎に処理を行い、1フレームをさら整数個の短い処理単位(サブフレーム)毎に処理を行う例を示す。   Next, referring to FIG. 4, the flow of processing of the speech decoding method in the above embodiment is shown. In this description, the speech encoding process is performed for each predetermined time length processing unit (frame: about several tens of milliseconds in time length), and one frame is further divided into a short number of processing units (sub An example in which processing is performed for each frame) will be described.

ステップ401において、適応符号帳の内容、合成フィルタメモリ、出力バッファ等の全てのメモリをクリアする。   In step 401, all the memories such as the contents of the adaptive codebook, the synthesis filter memory, and the output buffer are cleared.

次に、ステップ402において、符号化データが復号される。具体的には、多重化されている受信信号の分離化やビットストリーム化されている受信信号を量子化LPC係数と適応符号ベクトルと雑音符号ベクトルとゲイン情報とを夫々表現する符号に夫々変換する。   Next, in step 402, the encoded data is decoded. Specifically, the multiplexed received signal is separated or the bit stream is converted into a code that represents a quantized LPC coefficient, an adaptive code vector, a noise code vector, and gain information, respectively. .

次に、ステップ403において、LPC係数を復号する。LPC係数は、ステップ402にて得られた量子化LPC係数を表現する符号から、実施の形態1に示したLPC係数の量子化方法の逆の手順によって復号される。   Next, in step 403, the LPC coefficients are decoded. The LPC coefficient is decoded from the code representing the quantized LPC coefficient obtained in step 402 by the reverse procedure of the LPC coefficient quantization method described in the first embodiment.

次に、ステップ404において、ステップ403にて復号されたLPC係数を用いて合成フィルタが構築される。   Next, in step 404, a synthesis filter is constructed using the LPC coefficients decoded in step 403.

次に、ステップ405において、ステップ403にて復号されたLPC係数の静的および動的特徴を用いて、雑音符号帳および後処理のモード選択が行われる。具体的には、量子化LSPの変動や量子化LPC係数から算出される反射係数や予測残差パワ等を用いる。本ステップにおいて選択されたモードに従って雑音符号帳の復号および後処理が行われる。このモードは少なくとも2種類以上あり、例えば有声音声部に対応するモードと無声音声部に対応するモードと定常雑音部等に対応するモードとから成る。   Next, in step 405, using the static and dynamic features of the LPC coefficients decoded in step 403, a noise codebook and post-processing mode selection is performed. Specifically, a variation of the quantized LSP, a reflection coefficient calculated from the quantized LPC coefficient, a prediction residual power, and the like are used. The noise codebook is decoded and post-processed according to the mode selected in this step. There are at least two types of modes, and for example, a mode corresponding to the voiced voice part, a mode corresponding to the unvoiced voice part, and a mode corresponding to the stationary noise part or the like are included.

次に、ステップ406において、適応符号ベクトルが復号される。適応符号ベクトルは、適応符号ベクトルを表現する符号から適応符号ベクトルを適応符号帳から切り出す位置を復号してその位置から適応符号ベクトルを切り出すことによって、復号される。   Next, in step 406, the adaptive code vector is decoded. The adaptive code vector is decoded by decoding a position where the adaptive code vector is cut out from the adaptive codebook from a code representing the adaptive code vector, and cutting out the adaptive code vector from the position.

次に、ステップ407において、雑音符号ベクトルが復号される。雑音符号ベクトルは、雑音符号ベクトルを表現する符号から雑音符号帳インデックスを復号してそのインデックスに対応する雑音符号ベクトルを雑音符号帳から取り出すことによって、復号される。雑音符号ベクトルのピッチ周期化等を適用する際は、さらにピッチ周期化等を行った後のものが復号雑音符号ベクトルとなる。また、この雑音符号帳は少なくとも2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部等に対応するモードではより雑音的な雑音符号ベクトルを生成するようになっている。   Next, in step 407, the random code vector is decoded. The noise code vector is decoded by decoding the noise codebook index from the code representing the noise code vector and extracting the noise code vector corresponding to the index from the noise codebook. When applying the pitch periodization of the noise code vector, the decoded noise code vector is obtained after further pitch periodization and the like. This noise codebook has at least two types of modes. For example, in a mode corresponding to a voiced voice part, a more pulsating noise code vector is generated, and it corresponds to an unvoiced voice part or a stationary noise part. In the mode, a more noisy noise code vector is generated.

次に、ステップ408において、適応符号帳利得と雑音符号帳利得が復号される。ゲイン情報を表す符号からゲイン符号帳インデックスを復号してこのインデックスで示される適応符号帳利得と雑音符号帳利得の組をゲイン符号帳の中から取り出すことによって、ゲイン情報が復号される。   Next, in step 408, the adaptive codebook gain and the noise codebook gain are decoded. The gain information is decoded by decoding the gain codebook index from the code representing the gain information and taking out the set of the adaptive codebook gain and the noise codebook gain indicated by this index from the gain codebook.

次に、ステップ409において、駆動音源信号が生成される。駆動音源信号は、ステップ406にて選択された適応符号ベクトルにステップ408にて選択された適応符号帳利得を乗じたベクトルと、ステップ407にて選択された雑音符号ベクトルにステップ408において選択された雑音符号帳利得を乗じたベクトルと、を加算して生成される。   Next, in step 409, a driving sound source signal is generated. The driving excitation signal is selected in step 408 by multiplying the adaptive code vector selected in step 406 by the adaptive codebook gain selected in step 408 and the noise code vector selected in step 407. It is generated by adding the vector multiplied by the noise codebook gain.

次に、ステップ410において、復号信号が合成される。ステップ409にて生成された駆動音源信号を、ステップ404にて構築された合成フィルタでフィルタリングすることによって、復号信号が合成される。   Next, in step 410, the decoded signal is synthesized. The decoded signal is synthesized by filtering the driving sound source signal generated in step 409 with the synthesis filter constructed in step 404.

次に、ステップ411において、復号信号に対してポストフィルタ処理が行われる。ポストフィルタ処理は、ピッチ強調処理やホルマント強調処理やスペクトル傾斜補正処理や利得調整処理等の復号信号特に復号音声信号の主観的品質を改善するための処理から成っている。   Next, in step 411, post-filter processing is performed on the decoded signal. The post filter processing includes processing for improving the subjective quality of the decoded signal, particularly the decoded speech signal, such as pitch enhancement processing, formant enhancement processing, spectral tilt correction processing, and gain adjustment processing.

次に、ステップ412において、ポストフィルタ処理後の復号信号に対して最終的な後処理が行われる。この後処理は、主に振幅スペクトルの(サブ)フレーム間平滑化処理や位相スペクトルのランダマイズ処理等の復号信号における定常雑音部分の主観的品質を改善するための処理から成っており、ステップ405にて選択されたモードに対応した処理を行う。例えば有声音声部や無声音声部に対応するモードでは前記平滑化処理やランダマイズ処理はほとんど行われず、定常雑音部等に対応するモードでは前記平滑化処理やランダマイズ処理が適応的に行われるようになっている。本ステップで生成される信号が出力データとなる。   Next, in step 412, final post-processing is performed on the decoded signal after post-filter processing. This post-processing mainly includes processing for improving the subjective quality of the stationary noise portion in the decoded signal, such as (sub) interframe smoothing processing of the amplitude spectrum and randomization processing of the phase spectrum. The processing corresponding to the mode selected in the above is performed. For example, in the mode corresponding to the voiced voice part and the unvoiced voice part, the smoothing process and the randomizing process are hardly performed, and in the mode corresponding to the stationary noise part and the like, the smoothing process and the randomizing process are adaptively performed. ing. The signal generated in this step is output data.

次に、ステップ413において、サブフレーム処理のループで用いられるメモリの更新が行われる。具体的には、適応符号帳の更新やポストフィルタ処理に含まれる各フィルタの状態更新等が行われる。   Next, in step 413, the memory used in the subframe processing loop is updated. Specifically, the update of the adaptive codebook, the state update of each filter included in the post filter processing, and the like are performed.

上記ステップ404〜413はサブフレーム単位の処理である。   Steps 404 to 413 are processing in units of subframes.

次に、ステップ414において、フレーム処理のループで用いられるメモリの更新が行われる。具体的には、量子化(復号)LPC係数バッファの更新や出力データバッファの更新等が行われる。   Next, in step 414, the memory used in the frame processing loop is updated. Specifically, quantization (decoding) LPC coefficient buffer update, output data buffer update, and the like are performed.

上記ステップ402〜403および414はフレーム単位の処理である。また、フレーム単位の処理は符号化データがなくなるまで繰り返し行われる。   Steps 402 to 403 and 414 are processes in units of frames. Further, the processing for each frame is repeated until there is no encoded data.

(実施の形態3)
図5は実施の形態1の音声符号化装置または実施の形態2の音声復号化装置を備えた音声信号送信機および受信機を示したブロック図である。図5(a)は送信機、図5(b)は受信機を示す。
(Embodiment 3)
FIG. 5 is a block diagram showing a speech signal transmitter and receiver including the speech coding apparatus according to the first embodiment or the speech decoding apparatus according to the second embodiment. FIG. 5A shows a transmitter, and FIG. 5B shows a receiver.

図5(a)の音声信号送信機では、音声が音声入力装置501によって電気的アナログ信号に変換され、A/D変換器502に出力される。アナログ音声信号はA/D変換器502によってディジタル音声信号に変換され、音声符号化器503に出力される。音声符号化器503は音声符号化処理を行い、符号化した情報をRF変調器504に出力する。RF変調器は符号化された音声信号の情報を変調・増幅・符号拡散等の電波として送出するための操作を行い、送信アンテナ505に出力する。最後に送信アンテナ505から電波(RF信号)506が送出される。   In the audio signal transmitter of FIG. 5A, audio is converted into an electrical analog signal by the audio input device 501 and output to the A / D converter 502. The analog speech signal is converted into a digital speech signal by the A / D converter 502 and output to the speech encoder 503. The voice encoder 503 performs a voice encoding process and outputs the encoded information to the RF modulator 504. The RF modulator performs an operation for transmitting the information of the encoded audio signal as a radio wave such as modulation / amplification / code spreading, and outputs it to the transmission antenna 505. Finally, a radio wave (RF signal) 506 is transmitted from the transmission antenna 505.

一方、図5(b)の受信機においては、電波(RF信号)506を受信アンテナ507で受信し、受信信号はRF復調器508に送られる。RF復調器508は符号逆拡散・復調等電波信号を符号化情報に変換するための処理を行い、符号化情報を音声復号化器509に出力する。音声復号化器509は、符号化情報の復号処理を行ってディジタル復号音声信号をD/A変換器510へ出力する。D/A変換器510は音声復号化器509から出力されたディジタル復号音声信号をアナログ復号音声信号に変換して音声出力装置511に出力する。最後に音声出力装置511が電気的アナログ復号音声信号を復号音声に変換して出力する。   On the other hand, in the receiver of FIG. 5B, a radio wave (RF signal) 506 is received by the receiving antenna 507, and the received signal is sent to the RF demodulator 508. The RF demodulator 508 performs processing for converting a radio wave signal such as code despreading / demodulation into encoded information, and outputs the encoded information to the speech decoder 509. The audio decoder 509 performs a decoding process on the encoded information and outputs a digital decoded audio signal to the D / A converter 510. The D / A converter 510 converts the digital decoded speech signal output from the speech decoder 509 into an analog decoded speech signal and outputs it to the speech output device 511. Finally, the audio output device 511 converts the electrical analog decoded audio signal into decoded audio and outputs it.

上記送信装置および受信装置は携帯電話等の移動通信機器の移動機または基地局装置として利用することが可能である。なお、情報を伝送する媒体は本実施の形態に示したような電波に限らず、光信号などを利用することも可能であり、さらには有線の伝送路を使用することも可能である。   The transmission device and the reception device can be used as a mobile device or a base station device of a mobile communication device such as a mobile phone. Note that the medium for transmitting information is not limited to the radio wave as shown in this embodiment mode, and an optical signal or the like can be used, and a wired transmission path can also be used.

なお、上記実施の形態1に示した音声符号化装置および上記実施の形態2に示した音声復号化装置および上記実施の形態3に示した送信装置および送受信装置は、磁気ディスク、光磁気ディスク、ROMカートリッジ等の記録媒体にソフトウェアとして記録して実現することも可能であり、その記録媒体を使用することにより、このような記録媒体を使用するパーソナルコンピュータ等により音声符号化装置/復号化装置および送信装置/受信装置を実現することができる。   The speech encoding apparatus shown in the first embodiment, the speech decoding apparatus shown in the second embodiment, and the transmission apparatus and transmission / reception apparatus shown in the third embodiment are a magnetic disk, a magneto-optical disk, It can also be realized by recording as software on a recording medium such as a ROM cartridge, and by using the recording medium, a speech encoding apparatus / decoding apparatus and a personal computer using such a recording medium can be realized. A transmitter / receiver can be realized.

(実施の形態4)
実施の形態4は、上述した実施の形態1、2におけるモード選択器105、202の構成例を示した例である。
(Embodiment 4)
The fourth embodiment is an example showing a configuration example of the mode selectors 105 and 202 in the first and second embodiments described above.

図6に実施の形態4にかかるモード選択器の構成を示す。   FIG. 6 shows the configuration of the mode selector according to the fourth embodiment.

本実施の形態にかかるモード選択器は、量子化LSPパラメータの動的特徴を抽出する動的特徴抽出部601と、量子化LSPパラメータの静的特徴を抽出する第1、第2の静的特徴抽出部602、603とを備える。   The mode selector according to the present embodiment includes a dynamic feature extraction unit 601 that extracts a dynamic feature of a quantized LSP parameter, and first and second static features that extract a static feature of the quantized LSP parameter. Extractors 602 and 603 are provided.

動的特徴抽出部601は、AR型平滑化手段604に量子化LSPパラメータを入力して平滑化処理を行う。AR型平滑化手段604では、処理単位時間毎に入力される各次の量子化LSPパラメータを時系列データとして(1)式に示す平滑化処理を行う。   The dynamic feature extraction unit 601 performs the smoothing process by inputting the quantized LSP parameter to the AR type smoothing unit 604. The AR-type smoothing unit 604 performs the smoothing process shown in the equation (1) using each next-order quantized LSP parameter input every processing unit time as time-series data.

Ls[i]=(1-α)×Ls[i]+α×L[i], i=1,2,…,M、 0<α<1 …(1)
Ls[i]:i次の平滑化量子化LSPパラメータ
L[i]:i次の量子化LSPパラメータ
α:平滑化係数
M:LSP分析次数
なお、(1)式において、αの値は0.7程度に設定し、それほど強い平滑化にならないようにする。上記(1)式で求めた平滑化した量子化LSPパラメータは遅延手段605を経由して加算器606へ入力されるものと直接加算器606へ入力されるものとに分岐される。
Ls [i] = (1-α) × Ls [i] + α × L [i], i = 1, 2,..., M, 0 <α <1 (1)
Ls [i]: i-th order smoothed quantized LSP parameter
L [i]: i th order quantized LSP parameter
α: Smoothing coefficient
M: LSP analysis order In the equation (1), the value of α is set to about 0.7 so that the smoothing is not so strong. The smoothed quantized LSP parameter obtained by the above equation (1) is branched into one that is input to the adder 606 via the delay means 605 and one that is directly input to the adder 606.

遅延手段605は、入力した平滑化した量子化LSPパラメータを1処理単位時間だけ遅延させて加算器606に出力する。   The delay means 605 delays the input smoothed quantized LSP parameter by one processing unit time and outputs it to the adder 606.

加算器606は、現在の処理単位時間における平滑化された量子化LSPパラメータと1つ前の処理単位時間における平滑化された量子化LSPパラメータとが入力される。この加算器606において、現在の処理単位時間における平滑化量子化LSPパラメータと1つ前の処理単位時間における平滑化量子化LSPパラメータとの差を算出する。この差はLSPパラメータの各次数毎に算出される。加算器606による算出結果は2乗和算出手段607に出力する。   The adder 606 receives the smoothed quantized LSP parameter in the current processing unit time and the smoothed quantized LSP parameter in the previous processing unit time. The adder 606 calculates the difference between the smoothed quantized LSP parameter in the current processing unit time and the smoothed quantized LSP parameter in the previous processing unit time. This difference is calculated for each order of the LSP parameter. The calculation result by the adder 606 is output to the square sum calculation means 607.

2乗和算出手段607は、現在の処理単位時間における平滑化された量子化LSPパラメータと1つ前の処理単位時間における平滑化された量子化LSPパラメータとの次数毎の差の2乗和を計算する。   The sum-of-squares calculation means 607 calculates the sum of squares of the difference for each order between the smoothed quantized LSP parameter in the current processing unit time and the smoothed quantized LSP parameter in the previous processing unit time. calculate.

動的特徴抽出部601では、AR型平滑化手段604と並列に遅延手段608にも量子化LSPパラメータを入力している。遅延手段608では、1処理単位時間だけ遅延させて、スイッチ609を介してAR型平均値算出手段611に出力する。   In the dynamic feature extraction unit 601, the quantized LSP parameter is also input to the delay unit 608 in parallel with the AR type smoothing unit 604. The delay unit 608 delays by one processing unit time and outputs the result to the AR type average value calculation unit 611 via the switch 609.

スイッチ609は、遅延手段610から出力されるモード情報が雑音モードであった場合に閉じて、遅延手段608から出力される量子化LSPパラメータをAR型平均値算出手段611へ入力するように動作する。   The switch 609 closes when the mode information output from the delay unit 610 is a noise mode, and operates to input the quantized LSP parameter output from the delay unit 608 to the AR-type average value calculation unit 611. .

遅延手段610は、モード判定手段621から出力されるモード情報を入力し、1処理単位時間だけ遅延させて、スイッチ609へ出力する。   The delay means 610 receives the mode information output from the mode determination means 621, delays it by one processing unit time, and outputs it to the switch 609.

AR型平均値算出手段611は、AR型平滑化手段604と同様に(1)式に基づいて雑音区間における平均的LSPパラメータを算出し、加算器612に出力する。ただし、(1)式におけるαの値は、0.05程度とし、極めて強い平滑化処理を行うことによって、平均的なLSPパラメータを算出する。   The AR-type average value calculation unit 611 calculates an average LSP parameter in the noise section based on the equation (1), similarly to the AR-type smoothing unit 604, and outputs the average LSP parameter to the adder 612. However, the value of α in equation (1) is set to about 0.05, and an extremely strong smoothing process is performed to calculate an average LSP parameter.

加算器612は、現在の処理単位時間における量子化LSPパラメータと、AR型平均値算出手段611によって算出された雑音区間における平均的量子化LSPパラメータとの差を各次数毎に算出し、2乗和算出手段613に出力する。   The adder 612 calculates, for each order, the difference between the quantized LSP parameter in the current processing unit time and the average quantized LSP parameter in the noise interval calculated by the AR type average value calculating unit 611 for each order. It outputs to the sum calculation means 613.

2乗和算出手段613は、加算器612から出力された量子化LSPパラメータの差分情報を入力し、各次数の2乗和を算出して、音声区間検出手段619に出力する。   The sum of squares calculation means 613 receives the difference information of the quantized LSP parameters output from the adder 612, calculates the square sum of each order, and outputs it to the speech section detection means 619.

以上の604から613までの要素によって、量子化LSPパラメータの動的特徴抽出部601が構成される。   The dynamic feature extraction unit 601 for the quantized LSP parameter is configured by the above elements 604 to 613.

第1の静的特徴抽出部602は、線形予測残差パワ算出手段614において量子化LSPパラメータから線形予測残差パワを算出する。また、隣接LSP間隔算出手段615において、(2)式に示すように量子化LSPパラメータの隣接する次数毎に間隔を算出する。   The first static feature extraction unit 602 calculates linear prediction residual power from the quantized LSP parameter in the linear prediction residual power calculation unit 614. Further, the adjacent LSP interval calculation means 615 calculates an interval for each adjacent order of the quantized LSP parameter as shown in the equation (2).

Ld[i]=L[i+1]-L[i], i=1,2,…M-1 …(2)
L[i]:i次の量子化LSPパラメータ
隣接LSP間隔算出手段615の算出値は分散値算出手段616へ与えられる。分散値算出手段616は、隣接LSP間隔算出手段615から出力された量子化LSPパラメータ間隔の分散値をする。分散値を算出する際、全てのLSPパラメータ間隔データを用いずに、低域端(Ld[1])のデータを除くことによって、最低域以外の部分に存在するスペクトルの山谷の特徴を反映することができる。低域が持ち上がっているような特性をもつ定常雑音に対して、ハイパスフィルタを通した場合、フィルタの遮断周波数付近にスペクトルの山が常にできるので、この様なスペクトルの山の情報を取り除く効果がある。
Ld [i] = L [i + 1] -L [i], i = 1, 2,... M-1 (2)
L [i]: i-th order quantized LSP parameter The calculated value of the adjacent LSP interval calculating means 615 is given to the variance value calculating means 616. The variance value calculation unit 616 calculates the variance value of the quantized LSP parameter interval output from the adjacent LSP interval calculation unit 615. When calculating the variance value, the characteristics of the peaks and valleys of the spectrum existing in the portion other than the lowest range are reflected by excluding the low end (Ld [1]) data without using all the LSP parameter interval data. be able to. When stationary noise with the characteristic that the low range is raised is passed through a high-pass filter, there is always a peak of the spectrum near the cutoff frequency of the filter, so the effect of removing such spectral peak information is effective. is there.

以上の614、615、616の要素によって、量子化LSPパラメータの第1の静的特徴抽出部602が構成される。   The first static feature extraction unit 602 for the quantized LSP parameter is configured by the above elements 614, 615, and 616.

また、第2の静的特徴抽出部603では、反射係数算出手段617が量子化LSPパラメータを反射係数に変換して、有声/無声判定手段620に出力する。これとともに線形予測残差パワ算出手段618が、量子化LSPパラメータから線形予測残差パワを算出して、有声/無声判定手段620に出力する。   Further, in the second static feature extraction unit 603, the reflection coefficient calculation unit 617 converts the quantized LSP parameter into a reflection coefficient and outputs it to the voiced / unvoiced determination unit 620. At the same time, the linear prediction residual power calculation unit 618 calculates the linear prediction residual power from the quantized LSP parameter and outputs the linear prediction residual power to the voiced / unvoiced determination unit 620.

なお、線形予測残差パワ算出手段618は、線形予測残差パワ算出手段614と同じものなので、614と618は共用させることが可能である。   Note that the linear prediction residual power calculation means 618 is the same as the linear prediction residual power calculation means 614, so that 614 and 618 can be shared.

以上の617と618の要素によって、量子化LSPパラメータの第2の静的特徴抽出部603が構成される。   The second static feature extraction unit 603 for quantized LSP parameters is configured by the elements 617 and 618 described above.

動的特徴抽出部601及び第1の静的特徴抽出部602の出力は音声区間検出手段619へ与えられる。音声区間検出手段619は、2乗和算出手段607から平滑化量子化LSPパラメータの変動量を入力し、2乗和算出手段613から雑音区間の平均的量子化LSPパラメータと現在の量子化LSPパラメータとの距離を入力し、線形予測残差パワ算出手段614から量子化線形予測残差パワを入力し、分散値算出手段616から隣接LSP間隔データの分散情報を入力する。そして、これらの情報を用いて、現在の処理単位時間における入力信号(または復号信号)が音声区間であるか否かの判定を行い、判定結果をモード判定手段621に出力する。より具体的な音声区間か否かの判定方法は、図8を用いて後述する。   The outputs of the dynamic feature extraction unit 601 and the first static feature extraction unit 602 are given to the speech section detection means 619. The speech section detecting means 619 receives the variation amount of the smoothed quantized LSP parameter from the square sum calculating means 607 and receives the average quantized LSP parameter of the noise section and the current quantized LSP parameter from the square sum calculating means 613. , The quantized linear prediction residual power is input from the linear prediction residual power calculation means 614, and the variance information of the adjacent LSP interval data is input from the variance value calculation means 616. Then, using these pieces of information, it is determined whether or not the input signal (or decoded signal) in the current processing unit time is a speech section, and the determination result is output to the mode determination means 621. A more specific method for determining whether or not the speech section is present will be described later with reference to FIG.

一方、第2の静的特徴抽出部603の出力は有声/無声判定手段620へ与えられる。有声/無声判定手段620は、反射係数算出手段617から入力した反射係数と、線形予測残差パワ算出手段618から入力した量子化線形予測残差パワとをそれぞれ入力する。そして、これらの情報を用いて、現在の処理単位時間における入力信号(または復号信号)が有声区間であるか無声区間であるかの判定を行い、判定結果をモード判定手段621に出力する。より具体的な有音/無音判定方法は、図9を用いて後述する。   On the other hand, the output of the second static feature extraction unit 603 is given to the voiced / unvoiced determination means 620. Voiced / unvoiced determination means 620 receives the reflection coefficient input from reflection coefficient calculation means 617 and the quantized linear prediction residual power input from linear prediction residual power calculation means 618, respectively. Then, using these pieces of information, it is determined whether the input signal (or decoded signal) in the current processing unit time is a voiced interval or an unvoiced interval, and the determination result is output to the mode determination means 621. A more specific sound / silence determination method will be described later with reference to FIG.

モード判定手段621は、音声区間検出手段619から出力される判定結果と、有声/無声判定手段620から出力される判定結果とをそれぞれ入力し、これらの情報を用いて現在の処理単位時間における入力信号(または復号信号)のモードを決定して出力する。より具体的なモードの分類方法は図10を用いて後述する。   The mode determination unit 621 receives the determination result output from the voice section detection unit 619 and the determination result output from the voiced / unvoiced determination unit 620, and inputs the current processing unit time using these pieces of information. The mode of the signal (or decoded signal) is determined and output. A more specific mode classification method will be described later with reference to FIG.

なお、本実施の形態においては、平滑化手段や平均値算出手段にAR型のものを用いたが、それ以外の方法を用いて平滑化や平均値算出を行うことも可能である。   In the present embodiment, the AR type is used for the smoothing means and the average value calculating means, but it is also possible to perform smoothing and average value calculation using other methods.

次に、図8を参照して、上記実施の形態における音声区間判定方法の詳細について説明する。   Next, the details of the speech segment determination method in the above embodiment will be described with reference to FIG.

まず、ステップ801において、第1の動的パラメータ(Para1)を算出する。第1の動的パラメータの具体的内容は、処理単位時間毎の量子化LSPパラメータの変動量であり、
(3)式に示されるものである。
First, in step 801, a first dynamic parameter (Para1) is calculated. The specific content of the first dynamic parameter is a variation amount of the quantization LSP parameter for each processing unit time,
(3) It is shown by Formula.

Figure 2010186190
次に、ステップ802において、第1の動的パラメータが予め定めてある閾値Th1より大きいかどうかをチェックする。閾値Th1を越えている場合は、量子化LSPパラメータの変動量が大きいので、音声区間であると判定する。一方、閾値Th1以下の場合は、量子化LSPパラメータの変動量が小さいので、ステップ803に進み、さらに別のパラメータを用いた判定処理のステップに進んでゆく。
Figure 2010186190
Next, in step 802, it is checked whether or not the first dynamic parameter is larger than a predetermined threshold value Th1. When the threshold value Th1 is exceeded, the quantized LSP parameter has a large amount of variation, and therefore, it is determined that the voice section is being used. On the other hand, when the threshold value is less than or equal to Th1, the quantized LSP parameter variation is small, so the process proceeds to step 803, and further proceeds to a determination process step using another parameter.

ステップ802において、第1の動的パラメータが閾値Th1以下の場合は、ステップ803に進んで、過去にどれだけ定常雑音区間と判定されたかを示すカウンターの数をチェックする。カウンターは初期値が0で、本モード判定方法によって定常雑音区間であると判定された処理単位時間毎に1ずつインクリメントされる。ステップ803において、カウンターの数が、予め設定されている閾値ThC以下の場合は、ステップ804に進み、静的パラメータを用いて音声区間か否かの判定を行う。一方、閾値ThCを越えている場合は、ステップ806に進み、第2の動的パラメータを用いて音声区間か否かの判定を行う。   In step 802, when the first dynamic parameter is equal to or smaller than the threshold Th1, the process proceeds to step 803, and the number of counters indicating how much the stationary noise period has been determined in the past is checked. The counter has an initial value of 0 and is incremented by 1 for each processing unit time determined to be a stationary noise section by the mode determination method. In step 803, if the number of counters is equal to or smaller than a preset threshold value ThC, the process proceeds to step 804, where it is determined whether or not it is a voice segment using a static parameter. On the other hand, if the threshold ThC is exceeded, the process proceeds to step 806, where it is determined whether or not it is a voice segment using the second dynamic parameter.

ステップ804では2種類のパラメータを算出する。一つは量子化LSPパラメータから算出される線形予測残差パワであり(Para3)、もう一つは量子化LSPパラメータの隣接次数の差分情報の分散である(Para4)。線形予測残差パワは、量子化LSPパラメータを線形予測係数に変換し、Levinson-Durbinのアルゴリズムにある関係式を用いることにより、求めることができる。線形予測残差パワは有声部より無声部の方が大きくなる傾向が知られているので、有声/無声の判定基準として利用できる。量子化LSPパラメータの隣接次数の差分情報は(2)式に示したもので、これらのデータの分散を求める。ただし、雑音の種類や帯域制限のかけかたによっては、低域にスペクトルの山(ピーク)が存在するので、低域端の隣接次数の差分情報((2)式において、i=1)は用いずに、(2)式において、i=2からM−1(Mは分析次数)までのデータを用いて分散を求める方が良い。音声信号においては、電話帯域(200Hz〜3.4kHz)内に3つ程度のホルマントを持つため、LSPの間隔が狭い部分と広い部分がいくつかあり、間隔のデータの分散が大きくなる傾向がある。一方、定常ノイズでは、ホルマント構造を持たないため、LSPの間隔は比較的等間隔であることが多く、前記分散は小さくなる傾向がある。この性質を利用して、音声区間か否かの判定を行うことが可能である。ただし、前述のように雑音の種類等によっては、低域にスペクトルの山(ピーク)をもつ場合があり、この様な場合は最も低域側のLSP間隔が狭くなるので、全ての隣接LSP差分データを用いて分散を求めると、ホルマント構造の有無による差が小さくなり、判定精度が低くなる。したがって、低域端の隣接LSP差分情報を除いて分散を求めることによって、この様な精度劣化を回避する。ただし、この様な静的パラメータは、動的パラメータに比べると判定能力が低いので、補助的な情報として用いるのが良い。ステップ804にて算出された2種類のパラメータはステップ805で用いられる。   In step 804, two types of parameters are calculated. One is the linear prediction residual power calculated from the quantized LSP parameter (Para3), and the other is the variance of the difference information of the adjacent order of the quantized LSP parameter (Para4). The linear prediction residual power can be obtained by converting the quantized LSP parameter into a linear prediction coefficient and using a relational expression in the Levinson-Durbin algorithm. Since it is known that the linear prediction residual power tends to be larger in the unvoiced part than in the voiced part, it can be used as a criterion for voiced / unvoiced. The difference information of the adjacent order of the quantized LSP parameter is shown in the equation (2), and the variance of these data is obtained. However, depending on the type of noise and how the band is limited, there is a peak (peak) of the spectrum in the low band, so the difference information of the adjacent order at the low band end (i = 1 in equation (2)) is not used. In addition, in equation (2), it is better to obtain the variance using data from i = 2 to M-1 (M is the analysis order). Since an audio signal has about three formants in the telephone band (200 Hz to 3.4 kHz), there are some portions where the LSP interval is narrow and wide, and there is a tendency that the dispersion of the interval data increases. . On the other hand, since stationary noise does not have a formant structure, the LSP interval is often relatively equal and the variance tends to be small. Using this property, it is possible to determine whether or not it is a voice section. However, as described above, depending on the type of noise or the like, there may be a peak (peak) of the spectrum in the low band. In such a case, the LSP interval on the lowest band side becomes narrow, so all adjacent LSP differences When the variance is obtained using data, the difference due to the presence or absence of the formant structure is reduced, and the determination accuracy is lowered. Accordingly, by obtaining the variance by excluding the adjacent LSP difference information at the low band end, such accuracy deterioration is avoided. However, since such a static parameter has a lower determination ability than a dynamic parameter, it is preferably used as auxiliary information. The two types of parameters calculated in step 804 are used in step 805.

次に、ステップ805において、ステップ804にて算出された2種類のパラメータを用いた閾値処理が行われる。具体的には線形予測残差パワ(Para3)が閾値Th3より小さく、かつ、隣接LSP間隔データの分散(Para4)が閾値Th4より大きい場合に、音声区間と判定する。それ以外の場合は、定常雑音区間(非音声区間)と判定する。定常雑音区間と判定された場合は、カウンターの値を1増やす。   Next, in step 805, threshold processing using the two types of parameters calculated in step 804 is performed. Specifically, when the linear prediction residual power (Para3) is smaller than the threshold value Th3 and the variance (Para4) of adjacent LSP interval data is larger than the threshold value Th4, it is determined as a speech section. In other cases, it is determined as a stationary noise section (non-voice section). If it is determined that it is a stationary noise section, the counter value is increased by one.

ステップ806においては、第2の動的パラメータ(Para2)が算出される。第2の動的パラメータは過去の定常雑音区間における平均的な量子化LSPパラメータと現在の処理単位時間における量子化LSPパラメータとの類似度を示すパラメータであり、具体的には(4)式に示したように、前記2種類の量子化LSPパラメータを用いて各次数毎に差分値を求め、2乗和を求めたものである。求められた第2の動的パラメータは、ステップ807にて閾値処理に用いられる。   In step 806, the second dynamic parameter (Para2) is calculated. The second dynamic parameter is a parameter indicating the degree of similarity between the average quantized LSP parameter in the past stationary noise interval and the quantized LSP parameter in the current processing unit time. As shown, a difference value is obtained for each order using the two types of quantized LSP parameters, and a sum of squares is obtained. The obtained second dynamic parameter is used for threshold processing in step 807.

Figure 2010186190
次に、ステップ807において、第2の動的パラメータが閾値Th2を越えているかどうかの判定が行われる。閾値Th2を越えていれば、過去の定常雑音区間における平均的な量子化LSPパラメータとの類似度が低いので、音声区間と判定し、閾値Th2以下であれば、過去の定常雑音区間における平均的な量子化LSPパラメータとの類似度が高いので、定常雑音区間と判定する。定常雑音区間と判定された場合は、カウンターの値を1増やす。
Figure 2010186190
Next, in step 807, it is determined whether or not the second dynamic parameter exceeds the threshold value Th2. If the threshold Th2 is exceeded, the similarity to the average quantized LSP parameter in the past stationary noise section is low, so it is determined as a speech section. If the threshold Th2 or less, the average in the past stationary noise section is averaged. Since it is highly similar to a quantized LSP parameter, it is determined as a stationary noise section. If it is determined that it is a stationary noise section, the counter value is increased by one.

次に、図9を参照して上記実施の形態における有声無声区間判定方法の詳細について説明する。   Next, the details of the voiced / unvoiced section determination method in the above embodiment will be described with reference to FIG.

まず、ステップ901において、現在の処理単位時間における量子化LSPパラメータから1次の反射係数を算出する。反射係数は、LSPパラメータを線形予測係数に変換して算出される。   First, in step 901, a primary reflection coefficient is calculated from the quantized LSP parameter in the current processing unit time. The reflection coefficient is calculated by converting the LSP parameter into a linear prediction coefficient.

次に、ステップ902において、前記反射係数が第1の閾値Th1を越えているかどうかの判定が行われる。閾値Th1を越えていれば、現在の処理単位時間は無声区間であると判定して有声無声判定処理を終了し、閾値Th1以下であれば、さらに有声無声判定の処理を続ける。   Next, in step 902, it is determined whether the reflection coefficient exceeds a first threshold Th1. If the threshold value Th1 is exceeded, it is determined that the current processing unit time is an unvoiced section and the voiced / unvoiced determination process is terminated. If the threshold value Th1 or less, the voiced / unvoiced determination process is continued.

ステップ902において無声と判定されなかった場合は、ステップ903において、前記反射係数が第2の閾値Th2を越えているかどうかの判定が行われる。閾値Th2を越えていれば、ステップ905に進み、閾値Th2以下であれば、ステップ904に進む。   If it is not determined in step 902 that there is no voice, it is determined in step 903 whether the reflection coefficient exceeds the second threshold Th2. If it exceeds the threshold Th2, the process proceeds to Step 905, and if it is equal to or less than the threshold Th2, the process proceeds to Step 904.

ステップ903において、前記反射係数が第2の閾値Th2以下だった場合は、ステップ904において、前記反射係数が第3の閾値Th3を越えているかどうかの判定が行われる。閾値Th3を越えていれば、ステップ907に進み、閾値Th3以下であれば、有声区間と判定して有声無声判定処理を終了する。   If it is determined in step 903 that the reflection coefficient is equal to or smaller than the second threshold value Th2, it is determined in step 904 whether the reflection coefficient exceeds the third threshold value Th3. If it exceeds the threshold value Th3, the process proceeds to step 907. If it is equal to or less than the threshold value Th3, it is determined as a voiced section, and the voiced / unvoiced determination process is terminated.

ステップ903において、前記反射係数が第2の閾値Th2を越えた場合は、ステップ905において、線形予測残差パワが算出される。線形予測残差パワは、量子化LSPを線形予測係数に変換してから算出される。   If the reflection coefficient exceeds the second threshold value Th2 in step 903, linear prediction residual power is calculated in step 905. The linear prediction residual power is calculated after converting the quantized LSP into a linear prediction coefficient.

ステップ905に続いて、ステップ906において、前記線形予測残差パワが閾値Th4を越えているかどうかの判定が行われる。閾値Th4を越えていれば、無声区間と判定して有声無声判定処理を終了し、閾値Th4以下であれば、有声区間と判定して有声無声判定処理を終了する。   Following step 905, in step 906, a determination is made whether the linear prediction residual power exceeds a threshold Th4. If the threshold value Th4 is exceeded, it is determined as an unvoiced section and the voiced / unvoiced determination process is terminated, and if it is equal to or less than the threshold value Th4, it is determined as a voiced section and the voiced / unvoiced determination process is terminated.

ステップ904において、前記反射係数が第3の閾値Th3を越えた場合は、ステップ907において、線形予測残差パワが算出される。   If the reflection coefficient exceeds the third threshold Th3 in step 904, linear prediction residual power is calculated in step 907.

ステップ907に続いて、ステップ908において、前記線形予測残差パワが閾値Th5を越えているかどうかの判定が行われる。閾値Th5を越えていれば、無声区間と判定して有声無声判定処理を終了し、閾値Th5以下であれば、有声区間と判定して有声無声判定処理を終了する。   Following step 907, in step 908, a determination is made whether the linear prediction residual power exceeds a threshold Th5. If it exceeds the threshold value Th5, it is determined as a voiced section and the voiced / unvoiced determination process is terminated. If it is equal to or less than the threshold value Th5, it is determined as a voiced section and the voiced / unvoiced determination process is terminated.

次に図10を参照して、モード判定手段621に用いられる、モード判定方法について説明する。   Next, with reference to FIG. 10, the mode determination method used for the mode determination means 621 will be described.

まず、ステップ1001において、音声区間検出結果が入力される。本ステップは音声区間検出処理を行うブロックそのものであっても良い。   First, in step 1001, a speech segment detection result is input. This step may be the block itself that performs the voice section detection process.

次に、ステップ1002において、音声区間であるか否かの判定結果に基づいて定常雑音モードと判定するか否かが決定される。音声区間である場合は、ステップ1003に進み、音声区間でない(定常雑音区間である)場合には、定常雑音モードであるというモード判定結果を出力して、モード判定処理を終了する。   Next, in step 1002, it is determined whether or not to determine the stationary noise mode based on the determination result of whether or not it is a speech section. If it is a speech section, the process proceeds to step 1003. If it is not a speech section (a stationary noise section), a mode determination result indicating that it is a stationary noise mode is output, and the mode determination process is terminated.

ステップ1002において、定常雑音区間モードではないと判定された場合は、続いてステップ1003において、有声無声判定結果の入力が行われる。本ステップは有声無声判定処理を行うブロックそのものであっても良い。   If it is determined in step 1002 that the mode is not the stationary noise section mode, then in step 1003, a voiced / unvoiced determination result is input. This step may be a block itself that performs voiced / unvoiced determination processing.

ステップ1003に続いて、ステップ1004において、有声無声判定結果に基づいて有声区間モードであるか、無声区間モードであるか、のモード判定が行われる。有声区間である場合には、有声区間モードであるというモード判定結果を出力してモード判定処理を終了し、無声区間である場合には、無声区間モードであるというモード判定結果を出力してモード判定処理を終了する。以上のように、音声区間検出結果と有声無声判定結果とを用いて、現在の処理単位ブロックにおける入力信号(または復号信号)のモードを3つのモードに分類する。   Subsequent to step 1003, in step 1004, based on the voiced / unvoiced determination result, it is determined whether the mode is the voiced section mode or the unvoiced section mode. If it is a voiced section, a mode determination result indicating that it is a voiced section mode is output and the mode determination process is terminated, and if it is a voiceless section, a mode determination result indicating that it is a voiceless section mode is output and a mode is output. The determination process ends. As described above, the mode of the input signal (or decoded signal) in the current processing unit block is classified into three modes using the speech segment detection result and the voiced / unvoiced determination result.

(実施の形態5)
図7に本発明の実施の形態5にかかる後処理器の構成を示す。本後処理器は、実施の形態4に示したモード判定器と組合わせて、実施の形態2に示した音声信号復号装置にて使用するものである。同図に示す後処理器は、モード切替スイッチ705、708、707、711、振幅スペクトル平滑化手段706、位相スペクトルランダム化手段709、710、閾値設定手段703、716をそれぞれ備える。
(Embodiment 5)
FIG. 7 shows the configuration of the post-processor according to the fifth embodiment of the present invention. This post-processor is used in the speech signal decoding apparatus shown in the second embodiment in combination with the mode determiner shown in the fourth embodiment. The post-processor shown in the figure includes mode changeover switches 705, 708, 707, and 711, amplitude spectrum smoothing means 706, phase spectrum randomizing means 709 and 710, and threshold setting means 703 and 716, respectively.

重み付け合成フィルタ701は、前記音声復号装置のLPC復号器201から出力される復号LPCを入力して聴覚重み付け合成フィルタを構築し、を前記音声復号装置の合成フィルタ209またはポストフィルタ210から出力される合成音声信号に対して重み付けフィルタ処理を行い、FFT処理手段702に出力する。   The weighting synthesis filter 701 inputs the decoded LPC output from the LPC decoder 201 of the speech decoding apparatus to construct a perceptual weighting synthesis filter, and outputs it from the synthesis filter 209 or the post filter 210 of the speech decoding apparatus. A weighting filter process is performed on the synthesized speech signal and output to the FFT processing means 702.

FFT処理手段702は、重み付け合成フィルタ701から出力された重み付け処理後の復号信号のFFT処理を行い、振幅スペクトルWSAiを第1の閾値設定手段703と第1の振幅スペクトル平滑化手段706と第1の位相スペクトルランダム化手段709とに、それぞれ出力する。   The FFT processing unit 702 performs FFT processing on the decoded signal after the weighting process output from the weighting synthesis filter 701, and converts the amplitude spectrum WSAi into the first threshold value setting unit 703, the first amplitude spectrum smoothing unit 706, and the first. To the phase spectrum randomizing means 709.

第1の閾値設定手段703は、FFT処理手段702にて算出された振幅スペクトルの平均値を全周波数成分を用いて算出し、この平均値を基準として閾値Th1を、第1の振幅スペクトル平滑化手段706と第1の位相スペクトルランダム化手段709とに、それぞれ出力する。   The first threshold value setting means 703 calculates the average value of the amplitude spectrum calculated by the FFT processing means 702 using all frequency components, and uses the average value as a reference to set the threshold value Th1 as the first amplitude spectrum smoothing. It outputs to the means 706 and the 1st phase spectrum randomization means 709, respectively.

FFT処理手段704は、前記音声復号装置の合成フィルタ209またはポストフィルタ210から出力される合成音声信号のFFT処理を行い、振幅スペクトルを、モード切換スイッチ705、712、加算器715、第2の位相スペクトルランダム化手段710に、位相スペクトルを、モード切換スイッチ708に、それぞれ出力する。   The FFT processing means 704 performs FFT processing on the synthesized speech signal output from the synthesis filter 209 or the post filter 210 of the speech decoding apparatus, and converts the amplitude spectrum into mode changeover switches 705 and 712, an adder 715, and a second phase. The phase spectrum is output to the spectrum randomizing means 710 to the mode switch 708, respectively.

モード切替スイッチ705は、前記音声復号装置のモード選択器202から出力されるモード情報(Mode)と、前記加算器715から出力される差分情報(Diff)と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間と判定した場合は、モード切換スイッチ707に接続し、定常雑音区間と判定した場合は、第1の振幅スペクトル平滑化手段706に接続する。   The mode changeover switch 705 receives the mode information (Mode) output from the mode selector 202 of the speech decoding apparatus and the difference information (Diff) output from the adder 715 and inputs the current processing unit. It is determined whether the decoded signal in time is a speech interval or a stationary noise interval. If it is determined to be a speech interval, it is connected to the mode changeover switch 707. If it is determined to be a stationary noise interval, the first amplitude spectrum smoothing means. Connect to 706.

第1の振幅スペクトル平滑化手段706は、モード切換スイッチ705を介して、FFT処理手段704から振幅スペクトルSAiを入力し、別途入力した第1の閾値Th1と重み付け振幅スペクトルWSAiとによって決定される周波数成分に対して平滑化処理を行い、モード切換スイッチ707に出力する。平滑化する周波数成分の決定方法は、重み付け振幅スペクトルWSAiが第1の閾値Th1以下であるかどうかによって、決定される。即ち、WSAiがTh1以下である周波数成分iに対してのみ平滑化処理が行われる。この平滑化処理によって、定常雑音区間における、符号化歪みに起因する振幅スペクトルの時間的不連続性が緩和される。この平滑化処理を、例えば(1)式の様なAR型で行った場合の係数αは、FFT点数128点、処理単位時間10msの場合で、0.1程度に設定できる。   The first amplitude spectrum smoothing means 706 inputs the amplitude spectrum SAi from the FFT processing means 704 via the mode changeover switch 705, and the frequency determined by the separately input first threshold Th1 and weighted amplitude spectrum WSAi. The component is smoothed and output to the mode changeover switch 707. The method of determining the frequency component to be smoothed is determined depending on whether the weighted amplitude spectrum WSAi is equal to or less than the first threshold value Th1. That is, the smoothing process is performed only for the frequency component i whose WSAi is equal to or less than Th1. By this smoothing process, the temporal discontinuity of the amplitude spectrum due to coding distortion in the stationary noise section is alleviated. For example, the coefficient α when the smoothing process is performed in the AR type as shown in the equation (1) can be set to about 0.1 when the number of FFT points is 128 points and the processing unit time is 10 ms.

モード切換スイッチ707は、モード切換スイッチ705と同様にして、前記音声復号装置のモード選択器202から出力されるモード情報(Mode)と、前記加算器715から出力される差分情報(Diff)と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間と判定した場合は、モード切換スイッチ705に接続し、定常雑音区間と判定した場合は、第1の振幅スペクトル平滑化手段706に接続する。前記判定結果は、モード切換スイッチ705の判定結果と同一である。モード切換スイッチ707の他端はIFFT処理手段720に接続されている。   The mode changeover switch 707 is similar to the mode changeover switch 705, and mode information (Mode) output from the mode selector 202 of the speech decoding apparatus, difference information (Diff) output from the adder 715, To determine whether the decoded signal in the current processing unit time is a speech section or a stationary noise section. If it is determined to be a speech section, it is connected to the mode changeover switch 705 and if it is determined to be a stationary noise section. , Connected to the first amplitude spectrum smoothing means 706. The determination result is the same as the determination result of the mode switch 705. The other end of the mode switch 707 is connected to the IFFT processing means 720.

モード切換スイッチ708は、モード切換スイッチ705と連動して切り替わるスイッチであり、前記音声復号装置のモード選択器202から出力されるモード情報(Mode)と、前記加算器715から出力される差分情報(Diff)と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間と判定した場合は、第2の位相スペクトルランダム化手段710に接続し、定常雑音区間と判定した場合は、第1の位相スペクトルランダム化手段709に接続する。前記判定結果は、モード切換スイッチ705の判定結果と同一である。即ち、モード切換スイッチ705が第1の振幅スペクトル平滑化手段706に接続されている場合は、モード切換スイッチ708は第1の位相スペクトルランダム化手段709に接続されており、モード切換スイッチ705がモード切換スイッチ707に接続されている場合は、モード切換スイッチ708は第2の位相スペクトルランダム化手段710に接続されている。   The mode changeover switch 708 is a switch that is switched in conjunction with the mode changeover switch 705, and mode information (Mode) output from the mode selector 202 of the speech decoding apparatus and difference information (from the adder 715) ( Diff) is input to determine whether the decoded signal in the current processing unit time is a speech section or a stationary noise section. If it is determined to be a speech section, it is connected to the second phase spectrum randomizing means 710. If the stationary noise section is determined, the first phase spectrum randomizing means 709 is connected. The determination result is the same as the determination result of the mode switch 705. That is, when the mode changeover switch 705 is connected to the first amplitude spectrum smoothing means 706, the mode changeover switch 708 is connected to the first phase spectrum randomizing means 709, and the mode changeover switch 705 is switched to the mode. When connected to the changeover switch 707, the mode changeover switch 708 is connected to the second phase spectrum randomizing means 710.

第1の位相ランダム化手段709は、モード切換スイッチ708を介して、FFT処理手段704から出力される位相スペクトルSPiを入力し、別途入力した第1の閾値Th1と重み付け振幅スペクトルWSAiとによって決定される周波数成分に対してランダム化処理を行い、モード切換スイッチ711に出力する。ランダム化する周波数成分の決定方法は、前記第1の振幅スペクトルの平滑化手段706において平滑化を行う周波数成分を決定する方法と同一である。即ち、WSAiがTh1以下である周波数成分iに対してのみ位相スペクトルSPiのランダム化処理が行われる。   The first phase randomizing means 709 receives the phase spectrum SPi output from the FFT processing means 704 via the mode changeover switch 708, and is determined by the first threshold Th1 and the weighted amplitude spectrum WSAi separately input. The frequency component is randomized and output to the mode switch 711. The method of determining the frequency component to be randomized is the same as the method of determining the frequency component to be smoothed by the smoothing means 706 of the first amplitude spectrum. That is, the randomization process of the phase spectrum SPi is performed only for the frequency component i whose WSAi is equal to or less than Th1.

第2の位相スペクトルランダム化手段710は、モード切換スイッチ708を介して、FFT処理手段704から出力される位相スペクトルSPiを入力し、別途入力した第2の閾値Th2iと振幅スペクトルSAiとによって決定される周波数成分に対してランダム化処理を行い、モード切換スイッチ711に出力する。ランダム化する周波数成分の決定方法は、前記第1の位相スペクトルランダム化手段709と同様である。即ち、SAiがTh2i以下である周波数成分iに対してのみ位相スペクトルSPiのランダム化処理が行われる。   The second phase spectrum randomizing means 710 receives the phase spectrum SPi output from the FFT processing means 704 via the mode changeover switch 708 and is determined by the separately input second threshold Th2i and amplitude spectrum SAi. The frequency component is randomized and output to the mode switch 711. The method for determining the frequency component to be randomized is the same as that of the first phase spectrum randomizing means 709. That is, the randomization process of the phase spectrum SPi is performed only for the frequency component i whose SAi is equal to or less than Th2i.

モード切換スイッチ711は、モード切換スイッチ707と連動しており、モード切換スイッチ707と同様にして、前記音声復号装置のモード選択器202から出力されるモード情報(Mode)と、前記加算器715から出力される差分情報(Diff)と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間と判定した場合は、第2の位相スペクトルランダム化手段710に接続し、定常雑音区間と判定した場合は、第1の位相スペクトルランダム化手段709に接続する。前記判定結果は、モード切換スイッチ708の判定結果と同一である。モード切換スイッチ711の他端はIFFT処理手段720に接続されている。   The mode changeover switch 711 is linked to the mode changeover switch 707, and in the same manner as the mode changeover switch 707, mode information (Mode) output from the mode selector 202 of the speech decoding apparatus and the adder 715. The difference information (Diff) to be output is input, and it is determined whether the decoded signal in the current processing unit time is a speech section or a stationary noise section. If the decoded signal is determined to be a speech section, the second phase spectrum random If it is determined that it is a stationary noise section, the first phase spectrum randomizing unit 709 is connected. The determination result is the same as the determination result of the mode switch 708. The other end of the mode switch 711 is connected to the IFFT processing means 720.

モード切換スイッチ712は、モード切換スイッチ705と同様にして、前記音声復号装置のモード選択器202から出力されるモード情報(Mode)と、前記加算器715から出力される差分情報(Diff)と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間でない(定常雑音区間である)と判定した場合は、スイッチを接続して、第2の振幅スペクトル平滑化手段713に、FFT処理手段704から出力される振幅スペクトルSAiを出力する。音声区間と判定した場合は、モード切換スイッチ712は、開放され、第2の振幅スペクトル平滑化手段713に、振幅スペクトルSAiは出力されない。   In the same manner as the mode changeover switch 705, the mode changeover switch 712 includes mode information (Mode) output from the mode selector 202 of the speech decoding apparatus, difference information (Diff) output from the adder 715, To determine whether the decoded signal in the current processing unit time is a speech section or a stationary noise section. If it is determined that the decoded signal is not a speech section (a stationary noise section), a second switch is connected to The amplitude spectrum SAi output from the FFT processing means 704 is output to the amplitude spectrum smoothing means 713. When it is determined that the voice section is selected, the mode switch 712 is opened and the amplitude spectrum SAi is not output to the second amplitude spectrum smoothing means 713.

第2の振幅スペクトル平滑化手段713は、モード切替スイッチ712を介して、FFT処理手段704から出力される振幅スペクトルSAiを入力し、全周波数帯域成分について平滑化処理を行う。この平滑化処理によって、定常雑音区間における平均的な振幅スペクトルが得られる。この平滑化処理は、第1の振幅スペクトル平滑化手段706で行われる処理と同様である。また、モード切換スイッチ712が開放されている時は、本手段において処理は行われず、最後に処理が行われたときの定常雑音区間の平滑化振幅スペクトルSSAiが出力される。第2の振幅スペクトル平滑化処理手段713によって平滑化された振幅スペクトルSSAiは遅延手段714、第2の閾値設定手段716、モード切換スイッチ718、にそれぞれ出力される。   The second amplitude spectrum smoothing means 713 receives the amplitude spectrum SAi output from the FFT processing means 704 via the mode switch 712, and performs the smoothing process on all frequency band components. By this smoothing process, an average amplitude spectrum in the stationary noise section is obtained. This smoothing process is the same as the process performed by the first amplitude spectrum smoothing means 706. When the mode changeover switch 712 is opened, no processing is performed in this means, and the smoothed amplitude spectrum SSAi in the stationary noise section when the processing is performed last is output. The amplitude spectrum SSAi smoothed by the second amplitude spectrum smoothing processing unit 713 is output to the delay unit 714, the second threshold setting unit 716, and the mode switch 718, respectively.

遅延手段714は、第2の振幅スペクトル平滑化手段713から出力されるSSAiを入力し、1処理単位時間だけ遅延させて、加算器715に出力する。   The delay means 714 receives the SSAi output from the second amplitude spectrum smoothing means 713, delays it by one processing unit time, and outputs it to the adder 715.

加算器715は、1処理単位時間前の定常雑音区間平滑化振幅スペクトルSSAiと現在の処理単位時間における振幅スペクトルSAiとの距離Diffを算出し、モード切換スイッチ705、707、708、711、712、718、719、にそれぞれ出力する。   The adder 715 calculates a distance Diff between the stationary noise section smoothed amplitude spectrum SSAi one processing unit time before and the amplitude spectrum SAi in the current processing unit time, and mode selector switches 705, 707, 708, 711, 712, 718 and 719, respectively.

第2の閾値設定手段716は、第2の振幅スペクトル平滑化手段713から出力される、定常雑音区間平滑化振幅スペクトルSSAiを基準として閾値Th2iを設定して、第2の位相スペクトルランダム化手段710に出力する。   The second threshold value setting means 716 sets the threshold value Th2i with reference to the stationary noise section smoothed amplitude spectrum SSAi output from the second amplitude spectrum smoothing means 713, and the second phase spectrum randomizing means 710. Output to.

ランダム位相スペクトル生成手段717は、ランダムに生成した位相スペクトルを、モード切換スイッチ719に出力する。   The random phase spectrum generation means 717 outputs the randomly generated phase spectrum to the mode switch 719.

モード切換スイッチ718は、モード切換スイッチ712と同様にして、前記音声復号装置のモード選択器202から出力されるモード情報(Mode)と、前記加算器715から出力される差分情報(Diff)と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間であると判定した場合は、スイッチを接続して、第2の振幅スペクトル平滑化手段713の出力を、IFFT処理手段720に出力する。音声区間でない(定常雑音区間である)と判定した場合は、モード切換スイッチ718は、開放され、第2の振幅スペクトル平滑化手段713の出力は、IFFT処理手段720に出力されない。   In the same manner as the mode changeover switch 712, the mode changeover switch 718 includes mode information (Mode) output from the mode selector 202 of the speech decoding apparatus, difference information (Diff) output from the adder 715, To determine whether the decoded signal in the current processing unit time is a speech section or a stationary noise section. If it is determined that the decoded signal is a speech section, a second amplitude spectrum smoothing means is connected by connecting a switch. The output of 713 is output to the IFFT processing means 720. If it is determined that it is not a speech section (a stationary noise section), the mode switch 718 is opened, and the output of the second amplitude spectrum smoothing means 713 is not output to the IFFT processing means 720.

モード切換スイッチ719は、モード切換スイッチ718と連動して切り替わり、モード切換スイッチ718と同様にして、前記音声復号装置のモード選択器202から出力されるモード情報(Mode)と、前記加算器715から出力される差分情報(Diff)と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間であると判定した場合は、スイッチを接続して、ランダム位相生成手段717の出力を、IFFT処理手段720に出力する。音声区間でない(定常雑音区間である)と判定した場合は、モード切換スイッチ719は、開放され、ランダム位相生成手段717の出力は、IFFT処理手段720に出力されない。   The mode changeover switch 719 is switched in conjunction with the mode changeover switch 718. Similarly to the mode changeover switch 718, mode information (Mode) output from the mode selector 202 of the speech decoding apparatus and the adder 715 are used. The difference information (Diff) to be output is input, and it is determined whether the decoded signal in the current processing unit time is a speech section or a stationary noise section. If it is determined that it is a speech section, connect a switch. Then, the output of the random phase generation means 717 is output to the IFFT processing means 720. If it is determined that it is not a speech section (a steady noise section), the mode switch 719 is opened, and the output of the random phase generation means 717 is not output to the IFFT processing means 720.

IFFT処理手段720は、モード切換スイッチ707から出力される振幅スペクトルと、モード切換スイッチ711から出力される位相スペクトルと、モード切換スイッチ718から出力される振幅スペクトルと、モード切換スイッチ719から出力される位相スペクトルと、を夫々入力して、逆FFT処理を行い、後処理後の信号を出力する。モード切換スイッチ718、719が開放されている場合は、モード切換スイッチ707から入力される振幅スペクトルと、モード切換スイッチ711から入力される位相スペクトルとを、FFTの実部スペクトルと虚部スペクトルとに変換し、逆FFT処理を行い、結果の実部を時間信号として出力する。一方、モード切換スイッチ718、717が接続されている場合は、モード切換スイッチ707から入力される振幅スペクトルと、モード切換スイッチ711から入力される位相スペクトルとを、第1の実部スペクトルと第1の虚部スペクトルに変換したものに加えて、モード切換スイッチ718から入力される振幅スペクトルと、モード切換スイッチ719から入力される位相スペクトルとを、第2の実部スペクトルと第2の虚部スペクトルとに変換したものを加算して、逆FFT処理を行う。即ち、第1の実部スペクトルと第2の実部スペクトルとを加算したものを第3の実部スペクトルとし、第1の虚部スペクトルと第2の虚部スペクトルとを加算したものを第3の虚部スペクトルとすると、第3の実部スペクトルと第3の虚部スペクトルとを用いて逆FFT処理を行う。前記スペクトルの加算時には、第2の実部スペクトルおよび第2の虚部スペクトルは、定数倍あるいは適応的に制御される変数によって減衰される。例えば、前記スペクトルの加算において、第2の実部スペクトルは0.25倍された後に、第1の実部スペクトルと加算され、第2の虚部スペクトルは0.25倍された後に、第1の虚部スペクトルと加算されて、第3の実部スペクトルおよび第3の虚部スペクトルが夫々得られる。   The IFFT processing means 720 outputs the amplitude spectrum output from the mode changeover switch 707, the phase spectrum output from the mode changeover switch 711, the amplitude spectrum output from the mode changeover switch 718, and the mode changeover switch 719. Each of the phase spectra is input, inverse FFT processing is performed, and a post-processed signal is output. When the mode changeover switches 718 and 719 are opened, the amplitude spectrum input from the mode changeover switch 707 and the phase spectrum input from the mode changeover switch 711 are converted into an FFT real part spectrum and an imaginary part spectrum. Convert, perform inverse FFT processing, and output the real part of the result as a time signal. On the other hand, when the mode changeover switches 718 and 717 are connected, the amplitude spectrum input from the mode changeover switch 707 and the phase spectrum input from the mode changeover switch 711 are converted into the first real part spectrum and the first spectrum. In addition to the one converted into the imaginary part spectrum, the amplitude spectrum input from the mode changeover switch 718 and the phase spectrum input from the mode changeover switch 719 are converted into the second real part spectrum and the second imaginary part spectrum. Then, the inverse FFT process is performed by adding the converted data. That is, the third real part spectrum is obtained by adding the first real part spectrum and the second real part spectrum, and the third real part spectrum is obtained by adding the first imaginary part spectrum and the second imaginary part spectrum. , The inverse FFT processing is performed using the third real part spectrum and the third imaginary part spectrum. At the time of the addition of the spectrum, the second real part spectrum and the second imaginary part spectrum are attenuated by a variable that is controlled by a constant multiple or adaptively. For example, in the addition of the spectrum, the second real part spectrum is multiplied by 0.25 and then added to the first real part spectrum, and the second imaginary part spectrum is multiplied by 0.25 and then the first imaginary part spectrum is added. Are added to obtain a third real part spectrum and a third imaginary part spectrum, respectively.

次に、図11及び図12を用いて前記後処理方法について説明する。図11は本実施の形態における後処理方法の具体的処理を示した流れ図を示している。   Next, the post-processing method will be described with reference to FIGS. FIG. 11 is a flowchart showing specific processing of the post-processing method in the present embodiment.

まず、ステップ1101において、聴覚重み付けをした入力信号(復号音声信号)のFFT対数振幅スペクトル(WSAi)を計算する。   First, in step 1101, the FFT logarithmic amplitude spectrum (WSAi) of the input signal (decoded speech signal) subjected to auditory weighting is calculated.

次に、ステップ1102において、第1の閾値Th1を計算する。Th1は、WSAiの平均値に定数k1を加えたものである。k1の値は経験的に決定し、例えば、常用対数領域で0.4程度である。FFT点数をNとし、FFT振幅スペクトルをWSAi(i=1,2,...N)とすると、WSAiはi=N/2とi=N/2+1を境に対称となるので、N/2本のWSAiの平均値を計算すれば、WSAiの平均値を求められる。   Next, in step 1102, a first threshold Th1 is calculated. Th1 is obtained by adding a constant k1 to the average value of WSAi. The value of k1 is determined empirically and is, for example, about 0.4 in the common logarithm region. Assuming that the number of FFT points is N and the FFT amplitude spectrum is WSAi (i = 1, 2,... N), WSAi is symmetric about i = N / 2 and i = N / 2 + 1. If the average value of WSAi of a book is calculated, the average value of WSAi can be obtained.

次に、ステップ1103において、聴覚重み付けをしない入力信号(復号音声信号)のFFT対数振幅スペクトル(SAi)とFFT位相スペクトル(SPi)を計算する。   Next, in step 1103, the FFT logarithmic amplitude spectrum (SAi) and the FFT phase spectrum (SPi) of the input signal (decoded speech signal) without auditory weighting are calculated.

次に、ステップ1104において、スペクトル変動(Diff)を計算する。スペクトル変動は、過去に定常雑音区間と判定された区間における平均的なFFT対数振幅スペクトル(SSAi)を現在のFFT対数振幅スペクトル(SAi)から減じて、得られた残差スペクトルの総和である。本ステップにおいて求められるスペクトル変動(Diff)は、現在のパワが定常雑音区間の平均的なパワと比較して大きくなっていないかどうかを判定するためのパラメータで、大きくなっていれば、定常雑音成分とは異なる信号が存在する区間であり、定常雑音区間ではないと判断できる。   Next, in step 1104, the spectral variation (Diff) is calculated. The spectrum fluctuation is the sum of the residual spectra obtained by subtracting the average FFT logarithmic amplitude spectrum (SSAi) from the current FFT logarithmic amplitude spectrum (SAi) in the section determined as the stationary noise section in the past. The spectral fluctuation (Diff) obtained in this step is a parameter for determining whether the current power is not large compared to the average power in the stationary noise section. It is a section where a signal different from the component exists and can be determined not to be a stationary noise section.

次に、ステップ1105において、過去に定常雑音区間と判定された回数を示すカウンタをチェックする。カウンタの数が、一定値以上、即ち過去にある程度安定して定常雑音区間であると判定されている場合は、ステップ1107に進み、そうでない場合、即ち過去に定常雑音区間であると判定されたことがあまりない場合は、ステップ1106に進む。ステップ1106とステップ1107との違いは、スペクトル変動(Diff)を判定基準に用いるか用いないかの違いである。スペクトル変動(Diff)は過去に定常雑音区間と判定された区間における平均的なFFT対数振幅スペクトル(SSAi)を用いて算出される。この様な平均的なFFT対数振幅スペクトル(SSAi)を求めるには、過去にある程度十分な時間長の定常的雑音区間が必要となるため、ステップ1105を設けて、過去に十分な時間長の定常的雑音区間がない場合は、雑音区間の平均的FFT対数振幅スペクトル(SSAi)が十分平均化されていないと考えられるため、スペクトル変動(Diff)を用いないステップ1106に進むようにしている。カウンタの初期値は0である。   Next, in step 1105, a counter indicating the number of times determined to be a stationary noise section in the past is checked. If the number of counters is greater than or equal to a certain value, that is, if it has been determined that the steady noise interval is stable to some extent in the past, the process proceeds to step 1107. Otherwise, it is determined that the counter is a stationary noise interval in the past. If there is not much, go to Step 1106. The difference between step 1106 and step 1107 is whether or not spectrum variation (Diff) is used as a criterion. The spectrum variation (Diff) is calculated by using an average FFT logarithmic amplitude spectrum (SSAi) in a section determined as a stationary noise section in the past. In order to obtain such an average FFT logarithmic amplitude spectrum (SSAi), since a steady noise section having a sufficiently long time length is required in the past, step 1105 is provided, and a steady time period having a sufficient time length in the past is provided. If there is no static noise section, it is considered that the average FFT logarithmic amplitude spectrum (SSAi) of the noise section is not sufficiently averaged, and therefore, the process proceeds to step 1106 without using the spectrum variation (Diff). The initial value of the counter is zero.

次に、ステップ1106またはステップ1107において、定常雑音区間か否かの判定が行われる。ステップ1106では、音声復号装置においてすでに決定されている音源モードが定常雑音区間モードである場合を定常雑音区間と判定し、ステップ1107では、音声復号装置において既に決定されている音源モードが定常雑音区間モードでかつ、ステップ1104で計算された振幅スペクトル変動(Diff)が閾値k3以下である場合を定常雑音区間と判定する。ステップ1106またはステップ1107において、定常雑音区間であると判定された場合は、ステップ1108へ進み、定常雑音区間でない、即ち音声区間であると判定された場合は、ステップ1113へ進む。   Next, in step 1106 or step 1107, it is determined whether or not it is a stationary noise section. In step 1106, a case where the sound source mode already determined in the speech decoding apparatus is the stationary noise interval mode is determined as a stationary noise interval, and in step 1107, the excitation mode already determined in the speech decoding apparatus is the stationary noise interval. When the mode and the amplitude spectrum fluctuation (Diff) calculated in step 1104 is less than or equal to the threshold k3, it is determined as a stationary noise interval. If it is determined in step 1106 or step 1107 that it is a stationary noise section, the process proceeds to step 1108, and if it is determined that it is not a stationary noise section, that is, a voice section, the process proceeds to step 1113.

定常雑音区間であると判定された場合は、次に、ステップ1108において、定常雑音区間の平均的FFT対数スペクトル(SSAi)を求めるための平滑化処理が行われる。ステップ1108の式において、βは0.0〜1.0の範囲の平滑化の強さを示す定数で、FFT点数128点、処理単位時間10ms(8kHzサンプリングで80点)の場合には、β=0.1程度で良い。この平滑化処理は、全ての対数振幅スペクトル(SAi,i=1,…N,NはFFT点数)について行われる。   If it is determined that it is a stationary noise interval, then in step 1108, a smoothing process for obtaining an average FFT logarithmic spectrum (SSAi) in the stationary noise interval is performed. In the expression of step 1108, β is a constant indicating the strength of smoothing in the range of 0.0 to 1.0. In the case where the number of FFT points is 128 points and the processing unit time is 10 ms (8 points at 8 kHz sampling), β is about 0.1. good. This smoothing process is performed for all logarithmic amplitude spectra (SAi, i = 1,... N, N is the number of FFT points).

次に、ステップ1109において、定常雑音区間の振幅スペクトルの変動を滑らかにするためのFFT対数振幅スペクトルの平滑化処理が行われる。この平滑化処理は、ステップ1108の平滑化処理と同様だが、全ての対数振幅スペクトル(SAi)について行うのではなく、聴覚重み付け対数振幅スペクトル(WSAi)が閾値Th1より小さい周波数成分iについてのみ行われる。ステップ1109の式におけるγは、ステップ1108におけるβと同様であり、同じ値でも良い。ステップ1109にて、部分的に平滑化された対数振幅スペクトルSSA2iが得られる。   Next, in step 1109, the FFT logarithmic amplitude spectrum is smoothed to smooth the fluctuation of the amplitude spectrum in the stationary noise section. This smoothing process is the same as the smoothing process in step 1108, but is not performed for all logarithmic amplitude spectra (SAi), but only for the frequency component i whose auditory weighted logarithmic amplitude spectrum (WSAi) is smaller than the threshold Th1. . Γ in the expression of Step 1109 is the same as β in Step 1108, and may be the same value. In step 1109, a partially smoothed logarithmic amplitude spectrum SSA2i is obtained.

次に、ステップ1110おいて、FFT位相スペクトルのランダム化処理が行われる。このランダム化処理は、ステップ1109の平滑化処理と同様に、周波数選択的に行われる。即ち、ステップ1109と同様に、聴覚重み付け対数振幅スペクトル(WSAi)が閾値Th1より小さい周波数成分iについてのみ行われる。ここで、Th1はステップ1109と同じ値で良いが、より良い主観品質が得られるように調整された異なる値に設定しても良い。また、ステップ1110におけるrandom(i)は乱数的に生成した−2π〜+2πの範囲の数値である。random(i)の生成は、毎回新たに乱数を生成しても良いが、演算量を節約する場合は、予め生成した乱数をテーブルに保持しておき、処理単位時間毎に、テーブルの内容を巡回させて利用することも可能である。この場合、テーブルの内容をそのまま利用する場合と、テーブルの内容をオリジナルのFFT位相スペクトルに加算して用いる場合とが考えられる。   Next, in step 1110, the FFT phase spectrum is randomized. This randomization process is performed in a frequency-selective manner, similarly to the smoothing process in step 1109. That is, similar to step 1109, the processing is performed only for the frequency component i whose auditory weighting logarithmic amplitude spectrum (WSAi) is smaller than the threshold Th1. Here, Th1 may be the same value as in step 1109, but may be set to a different value adjusted so as to obtain better subjective quality. Also, random (i) in step 1110 is a numerical value in the range of −2π to + 2π generated randomly. For random (i) generation, a new random number may be generated each time, but to save the calculation amount, the previously generated random number is stored in a table, and the contents of the table are changed for each processing unit time. It is also possible to go around and use it. In this case, there are a case where the contents of the table are used as they are and a case where the contents of the table are added to the original FFT phase spectrum.

次に、ステップ1111において、FFT対数振幅スペクトルとFFT位相スペクトルとから、複素FFTスペクトルを生成する。実部はFFT対数振幅スペクトルSSA2iを対数領域から線形領域に戻した後に、位相スペクトルRSP2iの余弦を乗じて求められる。虚部はFFT対数振幅スペクトルSSA2iを対数領域から線形領域に戻した後に、位相スペクトルRSP2iの正弦を乗じて求められる。   Next, in step 1111, a complex FFT spectrum is generated from the FFT logarithmic amplitude spectrum and the FFT phase spectrum. The real part is obtained by returning the FFT logarithmic amplitude spectrum SSA2i from the logarithmic domain to the linear domain and then multiplying by the cosine of the phase spectrum RSP2i. The imaginary part is obtained by returning the FFT logarithmic amplitude spectrum SSA2i from the logarithmic domain to the linear domain and then multiplying by the sine of the phase spectrum RSP2i.

次に、ステップ1112において、定常雑音区間と判定された区間のカウンタを1増やす。   Next, in step 1112, the counter of the section determined as the stationary noise section is incremented by one.

一方、ステップ1106または1107において、音声区間(定常雑音区間ではない)と判定された場合は、次に、ステップ1113において、FFT対数振幅スペクトルSAiが平滑化対数スペクトルSSA2iにコピーされる。即ち、対数振幅スペクトルの平滑化処理は行わない。   On the other hand, if it is determined in step 1106 or 1107 that the speech section is not a stationary noise section, then in step 1113, the FFT logarithmic amplitude spectrum SAi is copied to the smoothed logarithmic spectrum SSA2i. That is, the logarithmic amplitude spectrum is not smoothed.

次に、ステップ1114において、FFT位相スペクトルのランダム化処理が行われる。このランダム化処理は、ステップ1110の場合と同様にして、周波数選択的に行われる。ただし、周波数選択に用いる閾値はTh1ではなく、過去にステップ1108で求められているSSAiに定数k4を加えたものを用いる。この閾値は図7における第2の閾値Th2iに相当する。即ち、定常雑音区間における平均的な振幅スペクトルより小さい振幅スペクトルになっている周波数成分のみ、位相スペクトルのランダム化を行う。   Next, in step 1114, the FFT phase spectrum is randomized. This randomization process is performed in a frequency selective manner in the same manner as in step 1110. However, the threshold used for frequency selection is not Th1, but a value obtained by adding a constant k4 to SSAi previously obtained in step 1108 is used. This threshold corresponds to the second threshold Th2i in FIG. That is, the phase spectrum is randomized only for the frequency component having an amplitude spectrum smaller than the average amplitude spectrum in the stationary noise section.

次に、ステップ1115において、FFT対数振幅スペクトルとFFT位相スペクトルとから、複素FFTスペクトルを生成する。実部はFFT対数振幅スペクトルSSA2iを対数領域から線形領域に戻した後に、位相スペクトルRSP2iの余弦を乗じたものと、FFT対数振幅スペクトルSSAiを対数領域から線形領域に戻した後に、位相スペクトルrandom2(i)の余弦を乗じたものに、定数k5を乗じたものと、を加算して求められる。虚部はFFT対数振幅スペクトルSSA2iを対数領域から線形領域に戻した後に、位相スペクトルRSP2iの正弦を乗じたものと、FFT対数振幅スペクトルSSAiを対数領域から線形領域に戻した後に、位相スペクトルrandom2(i)の正弦を乗じたものに、定数k5を乗じたものと、を加算して求められる。定数k5は0.0〜1.0の範囲で、より具体的には、0.25程度に設定される。なお、k5は適応的に制御された変数でも良い。k5倍した、平均的な定常雑音を重畳することによって、音声区間における背景定常雑音の主観的品質が向上できる。random2(i)は、random(i)と同様の乱数である。   Next, in step 1115, a complex FFT spectrum is generated from the FFT logarithmic amplitude spectrum and the FFT phase spectrum. The real part returns the FFT logarithmic amplitude spectrum SSA2i from the logarithmic domain to the linear domain, then multiplies the cosine of the phase spectrum RSP2i, and after the FFT logarithmic amplitude spectrum SSAi returns from the logarithmic domain to the linear domain, the phase spectrum random2 ( It is obtained by adding the product of the cosine of i) and the product of the constant k5. The imaginary part is obtained by returning the FFT logarithmic amplitude spectrum SSA2i from the logarithmic domain to the linear domain and then multiplying by the sine of the phase spectrum RSP2i, and after returning the FFT logarithmic amplitude spectrum SSAi from the logarithmic domain to the linear domain, the phase spectrum random2 ( This is obtained by adding the product of the sine of i) and the product of the constant k5. The constant k5 is set in the range of 0.0 to 1.0, more specifically, about 0.25. Note that k5 may be an adaptively controlled variable. By superimposing the average stationary noise multiplied by k5, the subjective quality of the background stationary noise in the speech section can be improved. random2 (i) is a random number similar to random (i).

次に、ステップ1116において、ステップ1111または1115にて生成された複素FFTスペクトル(Re(S2)i、Im(S2)i)の逆FFTを行い、複素数(Re(s2)i、Im(s2)i)を得る。   Next, in step 1116, the inverse FFT of the complex FFT spectrum (Re (S2) i, Im (S2) i) generated in step 1111 or 1115 is performed, and complex numbers (Re (s2) i, Im (s2)) are obtained. i) get.

最後に、ステップ1117において、逆FFTによって得られた複素数の実部Re(s2)iを出力信号として出力する。   Finally, in step 1117, the complex real part Re (s2) i obtained by inverse FFT is output as an output signal.

103 LPC量子化器
104 合成フィルタ
105 モード選択器
109 雑音符号帳
110 適応符号帳
111 ゲイン符号帳
201 LPC復号器
202 モード選択器
209 合成フィルタ
210 ポストフィルタ
501 音声入力装置
503 音声符号化器
509 音声復号化器
511 音声出力装置
601 動的特徴抽出部
602 静的特徴抽出部
604 AR型平滑化手段
609 スイッチ
611 AR型平均値算出手段
614 線形予測残差パワ算出手段
615 隣接LSP間隔算出手段
616 分散値算出手段
617 反射係数算出手段
618 線形予測残差パワ算出手段
619 音声区間検出手段
620 有声/無声判定手段
621 モード判定手段
702 FFT処理手段
703 第1の閾値設定手段
705 モード切換スイッチ
706 第1の振幅スペクトル平滑化手段
707、708 モード切換スイッチ
709 第1の位相スペクトルランダム化手段
710 第2の位相スペクトルランダム化手段
711、712 モード切換スイッチ
713 第2の振幅スペクトル平滑化手段
716 第2の閾値設定手段
717 ランダム位相スペクトル生成手段
718、719 モード切換スイッチ
720 逆FFT処理手段
DESCRIPTION OF SYMBOLS 103 LPC quantizer 104 Synthesis filter 105 Mode selector 109 Noise codebook 110 Adaptive codebook 111 Gain codebook 201 LPC decoder 202 Mode selector 209 Synthesis filter 210 Post filter 501 Speech input device 503 Speech encoder 509 Speech decoding 511 Voice output device 601 Dynamic feature extraction unit 602 Static feature extraction unit 604 AR type smoothing unit 609 Switch 611 AR type average value calculation unit 614 Linear prediction residual power calculation unit 615 Adjacent LSP interval calculation unit 616 Variance value Calculation means 617 Reflection coefficient calculation means 618 Linear prediction residual power calculation means 619 Voice segment detection means 620 Voiced / unvoiced determination means 621 Mode determination means 702 FFT processing means 703 First threshold setting means 705 Mode changeover switch 706 First 1 amplitude spectrum smoothing means 707, 708 mode changeover switch 709 first phase spectrum randomization means 710 second phase spectrum randomization means 711,712 mode changeover switch 713 second amplitude spectrum smoothing means 716 second Threshold setting means 717 Random phase spectrum generation means 718, 719 Mode changeover switch 720 Inverse FFT processing means

Claims (2)

量子化LSPパラメータの平滑化処理を行う手段と、Means for smoothing the quantized LSP parameters;
現在の処理単位時間における平滑化量子化LSPパラメータと1つ前の処理単位時間における平滑化量子化LSPパラメータとの次数毎の差の2乗和により、平滑化量子化LSPパラメータのフレーム間変動を算出する手段と、The inter-frame variation of the smoothed quantized LSP parameter is calculated by the sum of squares of the difference in each order between the smoothed quantized LSP parameter in the current processing unit time and the smoothed quantized LSP parameter in the previous processing unit time. Means for calculating;
量子化LSPパラメータが定常的であるフレームにおける平均量子化LSPパラメータを算出する手段と、Means for calculating an average quantized LSP parameter in a frame in which the quantized LSP parameter is stationary;
前記平均量子化LSPパラメータと現在の量子化LSPパラメータとの次数毎の差の2乗和により、前記平均量子化LSPパラメータと前記現在の量子化LSPパラメータとの距離を計算する手段と、を備える、Means for calculating a distance between the average quantized LSP parameter and the current quantized LSP parameter based on a sum of squares of differences of the average quantized LSP parameter and the current quantized LSP parameter for each order. ,
量子化LSPパラメータ動的特徴抽出器。Quantized LSP parameter dynamic feature extractor.
量子化LSPパラメータの平滑化処理を行い、Performs smoothing processing of quantized LSP parameters,
現在の処理単位時間における平滑化量子化LSPパラメータと1つ前の処理単位時間における平滑化量子化LSPパラメータとの次数毎の差の2乗和により、平滑化量子化LSPパラメータのフレーム間変動を算出し、The inter-frame variation of the smoothed quantized LSP parameter is calculated by the sum of squares of the difference in each order between the smoothed quantized LSP parameter in the current processing unit time and the smoothed quantized LSP parameter in the previous processing unit time. Calculate
量子化LSPパラメータが定常的であるフレームにおける平均量子化LSPパラメータを算出し、Calculating an average quantized LSP parameter in a frame in which the quantized LSP parameter is stationary;
前記平均量子化LSPパラメータと現在の量子化LSPパラメータとの次数毎の差の2乗和により、前記平均量子化LSPパラメータと前記現在の量子化LSPパラメータとの距離を計算する、A distance between the average quantized LSP parameter and the current quantized LSP parameter is calculated by a sum of squares of the difference in each order between the average quantized LSP parameter and the current quantized LSP parameter;
量子化LSPパラメータ動的特徴抽出方法。Quantized LSP parameter dynamic feature extraction method.
JP2010072748A 1998-08-21 2010-03-26 Mode determining apparatus and mode determining method Expired - Lifetime JP4954310B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010072748A JP4954310B2 (en) 1998-08-21 2010-03-26 Mode determining apparatus and mode determining method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP23614798 1998-08-21
JP1998236147 1998-08-21
JP2010072748A JP4954310B2 (en) 1998-08-21 2010-03-26 Mode determining apparatus and mode determining method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009055573A Division JP4527175B2 (en) 1998-08-21 2009-03-09 Spectral parameter smoothing apparatus and spectral parameter smoothing method

Publications (2)

Publication Number Publication Date
JP2010186190A true JP2010186190A (en) 2010-08-26
JP4954310B2 JP4954310B2 (en) 2012-06-13

Family

ID=40814840

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009055573A Expired - Lifetime JP4527175B2 (en) 1998-08-21 2009-03-09 Spectral parameter smoothing apparatus and spectral parameter smoothing method
JP2010072748A Expired - Lifetime JP4954310B2 (en) 1998-08-21 2010-03-26 Mode determining apparatus and mode determining method

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009055573A Expired - Lifetime JP4527175B2 (en) 1998-08-21 2009-03-09 Spectral parameter smoothing apparatus and spectral parameter smoothing method

Country Status (1)

Country Link
JP (2) JP4527175B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9531344B2 (en) 2011-02-26 2016-12-27 Nec Corporation Signal processing apparatus, signal processing method, storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4619549B2 (en) * 2000-01-11 2011-01-26 パナソニック株式会社 Multimode speech decoding apparatus and multimode speech decoding method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191895A (en) * 1986-02-18 1987-08-22 松下電器産業株式会社 Voice recognition equipment
JPH02266400A (en) * 1989-04-07 1990-10-31 Oki Electric Ind Co Ltd Sound/silence decision circuit
JPH04115299A (en) * 1990-09-05 1992-04-16 Matsushita Electric Ind Co Ltd Method and device for voiced/voiceless sound decision making
JPH0566797A (en) * 1991-09-09 1993-03-19 Sekisui Chem Co Ltd Word recognition method
JPH10177397A (en) * 1996-12-18 1998-06-30 Kyocera Corp Method for detecting voice

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63281200A (en) * 1987-05-14 1988-11-17 沖電気工業株式会社 Voice section detecting system
JPH05165496A (en) * 1991-12-16 1993-07-02 Nippon Telegr & Teleph Corp <Ntt> Voice detector
JPH07152397A (en) * 1993-11-29 1995-06-16 Sony Corp Method of detecting voice section, device for communicating voice and device for recognizing voice
KR100307065B1 (en) * 1994-07-18 2001-11-30 마츠시타 덴끼 산교 가부시키가이샤 Voice detection device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191895A (en) * 1986-02-18 1987-08-22 松下電器産業株式会社 Voice recognition equipment
JPH02266400A (en) * 1989-04-07 1990-10-31 Oki Electric Ind Co Ltd Sound/silence decision circuit
JPH04115299A (en) * 1990-09-05 1992-04-16 Matsushita Electric Ind Co Ltd Method and device for voiced/voiceless sound decision making
JPH0566797A (en) * 1991-09-09 1993-03-19 Sekisui Chem Co Ltd Word recognition method
JPH10177397A (en) * 1996-12-18 1998-06-30 Kyocera Corp Method for detecting voice

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9531344B2 (en) 2011-02-26 2016-12-27 Nec Corporation Signal processing apparatus, signal processing method, storage medium

Also Published As

Publication number Publication date
JP4527175B2 (en) 2010-08-18
JP2009122710A (en) 2009-06-04
JP4954310B2 (en) 2012-06-13

Similar Documents

Publication Publication Date Title
JP4308345B2 (en) Multi-mode speech encoding apparatus and decoding apparatus
RU2262748C2 (en) Multi-mode encoding device
CA2099655C (en) Speech encoding
EP1619664B1 (en) Speech coding apparatus, speech decoding apparatus and methods thereof
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US6098036A (en) Speech coding system and method including spectral formant enhancer
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
EP0837453B1 (en) Speech analysis method and speech encoding method and apparatus
JP4176349B2 (en) Multi-mode speech encoder
US6047253A (en) Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal
WO1998039768A1 (en) A high resolution post processing method for a speech decoder
JPH08123495A (en) Wide-band speech restoring device
EP1727130A2 (en) Speech signal decoding method and apparatus
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
JP4954310B2 (en) Mode determining apparatus and mode determining method
JP3888097B2 (en) Pitch cycle search range setting device, pitch cycle search device, decoding adaptive excitation vector generation device, speech coding device, speech decoding device, speech signal transmission device, speech signal reception device, mobile station device, and base station device
JP2001242899A (en) Speech coding method and apparatus, and speech decoding method and apparatus
JP4295372B2 (en) Speech encoding device
JP3785363B2 (en) Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method
JP4619549B2 (en) Multimode speech decoding apparatus and multimode speech decoding method
JP2002073097A (en) Celp type voice coding device and celp type voice decoding device as well as voice encoding method and voice decoding method
JPH0736484A (en) Sound signal encoding device
CN112233686A (en) Voice data processing method of NVOCPLUS high-speed broadband vocoder

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120313

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

EXPY Cancellation because of completion of term