JP2005114814A - Method, device, and program for speech encoding and decoding, and recording medium where same is recorded - Google Patents

Method, device, and program for speech encoding and decoding, and recording medium where same is recorded Download PDF

Info

Publication number
JP2005114814A
JP2005114814A JP2003345608A JP2003345608A JP2005114814A JP 2005114814 A JP2005114814 A JP 2005114814A JP 2003345608 A JP2003345608 A JP 2003345608A JP 2003345608 A JP2003345608 A JP 2003345608A JP 2005114814 A JP2005114814 A JP 2005114814A
Authority
JP
Japan
Prior art keywords
band
signal
encoding
packet
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003345608A
Other languages
Japanese (ja)
Inventor
Yuusuke Hiwazaki
祐介 日和▲崎▼
Naka Omuro
仲 大室
Takeshi Mori
岳至 森
Sachiko Kurihara
祥子 栗原
Akitoshi Kataoka
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003345608A priority Critical patent/JP2005114814A/en
Publication of JP2005114814A publication Critical patent/JP2005114814A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To obtain interconnectivity between wide-band encoding of an intermediate band and wider and telephone band encoding of a narrow band. <P>SOLUTION: This device performs a band dividing process of dividing a wide-band speech signal into a telephone-band speech signal of a narrow band, a high-frequency speech signal of an intermediate band, and a high-frequency speech signal of a wide band, a frequency characteristic compensating process of changing frequency characteristics of the band-divided telephone-band speech signal into high-frequency emphasized characteristics, an encoding process of encoding the telephone-band speech signal after the frequency characteristic compensating process, the high-frequency speech signal of the intermediate band, and the high-frequency speech signal of the wide band respectively, and a packet structuring process of sending out respective encoded data as packet signals. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、インターネットを始めとするパケット通信ネットワークにおいて音声を伝送し、音声信号を保存して再生する音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、これらを記録した記録媒体に関する。   The present invention relates to an audio encoding / decoding method, an audio encoding / decoding device, an audio encoding / decoding program, which transmits audio in a packet communication network such as the Internet, stores and reproduces an audio signal, The present invention relates to a recording medium on which these are recorded.

従来の広帯域音声符号化は、狭帯域の電話帯域(0〜3.4kHz)、や中帯域(0〜7kHz)、広帯域(0〜15kHz)までの音声信号を帯域分割を行なわず、単一の符号化方法を用いることが多い。電話帯域の音声信号を符号化する例としては、波形符号化としてG.711(非特許文献1)に用いられる非線形波形圧縮符号化(μ則・A則PCM)や、G.726(非特許文献2)などに用いられる差分予測波形圧縮符号化波形方式(ADPCM)が挙げられる。中帯域(0〜7kHz)については、AMR−WBなどのCELP方式などが挙げられる。
ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T G.711‐Pulse code modulation (PCM) of voice frequencies, Nov. 1988. ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T G.726‐40, 32, 24, 16 kbit/s adaptive, differential pulse code modulation (ADPCM), Dec. 1990.
Conventional wideband speech coding does not divide a speech signal up to a narrow band telephone band (0 to 3.4 kHz), a medium band (0 to 7 kHz), and a wide band (0 to 15 kHz), but a single band. Encoding methods are often used. Examples of encoding voice signals in a telephone band include nonlinear waveform compression encoding (μ-law / A-law PCM) used in G.711 (Non-Patent Document 1) as waveform encoding, and G.726 (Non-patent). The differential prediction waveform compression coding waveform method (ADPCM) used for literature 2) etc. is mentioned. For the middle band (0 to 7 kHz), a CELP system such as AMR-WB can be used.
ITU-T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland.ITU-T G.711-Pulse code modulation (PCM) of voice frequencies, Nov. 1988. ITU-T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland.ITU-T G.726-40, 32, 24, 16 kbit / s adaptive, differential pulse code modulation (ADPCM), Dec. 1990.

中帯域以上の広帯域符号化と広く一般に普及している狭帯域の電話帯域符号化は相互接続性がない。また、従来技術として挙げた、電話帯域符号化方式は広く普及しているため、広帯域符号化へ網全体を一遍に変更することは容易ではない。本発明の課題は、広帯域での高品質再生機能を達成しながら、かつ狭帯域の再生能力しかない従来の再生機器における再生をも可能にすることである。   Wideband coding over the middle band and narrowband telephone band coding, which is widely used, are not interconnected. In addition, since the telephone band coding method cited as the prior art is widely used, it is not easy to change the entire network uniformly to wideband coding. An object of the present invention is to enable playback on a conventional playback device having only a narrow-band playback capability while achieving a high-quality playback function in a wide band.

この発明では、広帯域音声信号を狭帯域の電話帯域音声信号と、中帯域の高域側音声信号と、広帯域の高域側音声信号とに帯域分割する帯域分割処理と、帯域分割された電話帯域音声信号の周波数特性を高域強調特性に変更する周波数特性補償処理と、周波数特性補償処理が施された電話帯域音声信号と中帯域の高域側音声信号と広帯域の高域側音声信号のそれぞれを符号化する符号化処理と、各符号化処理された符号化データをパケット信号として送出するパケット構築処理とを含む音声符号化方法を提案する。
この発明では更に、着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データ、電話帯域の音声符号化データに分解するパケット分解処理と、これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化処理と、復号化処理された音声信号を合成し、広帯域信号を再生する合成処理とを含む音声復号化方法を提案する。
According to the present invention, a band division process for dividing a wideband audio signal into a narrowband telephone band audio signal, a medium band high band side audio signal, and a wideband high band side audio signal, and a band divisional telephone band Frequency characteristics compensation processing that changes the frequency characteristics of the audio signal to high frequency emphasis characteristics, and each of the phone band audio signal, medium frequency high frequency audio signal, and broadband high frequency audio signal that have been subjected to frequency characteristic compensation processing A speech encoding method is proposed, which includes an encoding process for encoding a packet and a packet construction process for transmitting each encoded data as a packet signal.
The present invention further provides packet decomposition processing for decomposing an incoming packet signal into wideband high-frequency side voice encoded data, medium band high-frequency side voice encoded data, telephone band voice encoded data, and these voice codes. A speech decoding method is proposed that includes a decoding process for decoding each of the encoded data into a voice signal, and a synthesis process for synthesizing the decoded voice signal and reproducing a wideband signal.

この発明によれば帯域分割により広帯域信号から電話帯域の音声信号を分割し、この分割した音声信号の周波数特性を高域強調特性に変更したから、この周波数補償により従来からの電話網での伝送特性によく合致し、従来の電話網への互換が維持され、電話レベルでの音声の再生が可能である。更に、電話帯域の音声信号に加えて中帯域の音声信号の高域側及び広帯域の音声信号の高域側も符号化し、パケットとして伝送するから、中帯域及び広帯域の再生機能を持つ端末でも不足なく忠実度の高い広帯域の音声を再生することができる。   According to the present invention, the voice signal in the telephone band is divided from the wideband signal by the band division, and the frequency characteristic of the divided voice signal is changed to the high frequency emphasis characteristic. It closely matches the characteristics, maintains compatibility with the conventional telephone network, and can reproduce voice at the telephone level. Furthermore, in addition to the voice signal of the telephone band, the high band side of the medium band voice signal and the high band side of the wide band voice signal are also encoded and transmitted as a packet, so even a terminal having a medium band and wide band reproduction function is insufficient. And high-fidelity broadband sound can be reproduced.

また、本発明によれば、従来型(G.711やG.726)の音声受信機構しか備えない音声受信機構と対に接続する場合は、パケット構築部で、中帯域及び広帯域高域側のデータをパケットに詰めずに電話音声データのみをペイロードとしてネットワークAPIに渡せば、余分に符号化を行なうことなく相互接続が可能となる。
また、ここで本発明はスケーラブル符号化の一種であるため、実施例1に示す図1で与えられる32kHzサンプリングで入力され符号化された音声信号データパケットを図8に与えても、パケット分解部に擬似広帯域高域側符号データを無視して処理しないようにすれば、問題なく音声が再生できるという利点もある。
In addition, according to the present invention, when connecting to a voice receiving mechanism having only a conventional (G.711 or G.726) voice receiving mechanism, the packet constructing unit uses a medium band and a broadband high band side. If only the telephone voice data is transferred as a payload to the network API without packing the data in a packet, the interconnection can be performed without extra encoding.
Here, since the present invention is a kind of scalable coding, even if an audio signal data packet input and encoded at 32 kHz sampling given in FIG. 1 shown in FIG. In addition, if the pseudo wideband high-frequency code data is ignored and not processed, there is an advantage that sound can be reproduced without any problem.

帯域分割フィルタはウェーブレット変換技術を利用した帯域分割フィルタバンクで構成することができる。帯域分割フィルタバンクに広帯域入力音声信号を入力し、その出力側に擬似電話帯域音声信号と、擬似中帯域高域側音声信号と、擬似広帯域高域側音声信号を分離して出力する。
擬似中帯域高域側音声信号と擬似広帯域高域側音声信号はそのまま各帯域に適した符号化方法により符号化し、パケット構築部に入力する。
電話帯域音声信号は周波数特性補償部で旧来の電話網における伝送特性に合致させるべく、高域強調特性に補償し、この周波数特性が補償された電話帯域信号を符号化し、パケット構築部に入力する。
The band division filter can be composed of a band division filter bank using a wavelet transform technique. A wideband input audio signal is input to the band division filter bank, and a pseudo telephone band audio signal, a pseudo midband high frequency side audio signal, and a pseudo wideband high frequency side audio signal are separated and output on the output side.
The pseudo mid-band high-frequency audio signal and the pseudo wide-band high-frequency audio signal are encoded as they are by an encoding method suitable for each band, and input to the packet construction unit.
The telephone band voice signal is compensated by the high frequency emphasis characteristic in the frequency characteristic compensator so as to match the transmission characteristic in the conventional telephone network, and the telephone band signal compensated for this frequency characteristic is encoded and input to the packet construction unit. .

パケット構築部では各符号化部から入力される電話帯域音声符号化データ、中帯域高域側符号データ、広帯域高域側符号化データをパケット化し、パケット通信網に送出する。
受信側では着信したパケットをパケット分解部で擬似広帯域高域側符号データと、擬似中帯域高域側符号データと、擬似電話帯域符号データに分解し、これらを復号部で音声信号に復号し、復号した音声信号を再合成フィルタバンクで合成し、広帯域の音声信号を再生する。
電話帯域のみを利用する場合は送信側では電話帯域音声信号のみを符号化し、パケットとして送信すればよく、また中帯域の音声信号を伝送する場合は電話帯域と中帯域の高域側音声信号を符号化し、この符号化データをパケットとして伝送すればよく、広帯域の信号を伝送するには電話帯域の音声信号と、中帯域の高域側音声信号と広帯域の高域側音声信号を符号化し、これらの符号データをパケットとして伝送すればよい。広帯域の音声信号の伝送中又は中帯域の音声信号の伝送中のどの状態でも、電話帯域の再生機能しか持たない端末は電話帯域のデータだけを用いて音声を再生することができる。
The packet building unit packetizes the telephone band voice encoded data, the medium band high band side code data, and the wide band high band side encoded data input from each encoding unit, and sends them to the packet communication network.
On the receiving side, the received packet is decomposed into pseudo wideband high band side code data, pseudo medium band high band side code data, and pseudo telephone band band code data by the packet decomposing unit, and these are decoded into voice signals by the decoding unit, The decoded audio signal is synthesized by a resynthesis filter bank to reproduce a wideband audio signal.
When using only the telephone band, the transmitting side only needs to encode the telephone band voice signal and transmit it as a packet. When transmitting the middle band voice signal, the telephone band and the middle band high band voice signal are transmitted. The encoded data may be transmitted as a packet. To transmit a wideband signal, a telephone band voice signal, a middle band high band voice signal, and a wide band high band voice signal are encoded, What is necessary is just to transmit these code | symbol data as a packet. In any state during transmission of a broadband audio signal or transmission of an intermediate band audio signal, a terminal having only a telephone band reproduction function can reproduce audio using only the data of the telephone band.

更にまた、帯域分割手段として双直交フィルタバンクを用いると、基本的には符号化及び復号化の処理を経て得られる信号に重畳される雑音信号(すなわち復号化信号と原信号との差分信号)が合成時に直交化されて加算されるため、再合成フィルタ通過時にノイズが加算されて強調されることがなく、符号化などの処理には都合が良い。つまり、通常のoverlap and add方式のフィルタバンクより、双直交変換あるいはそれに準ずる変換方式を用いれば雑音信号の影響を低減することができる。ここで、帯域分割方法には従来から用いられるQMF(Quadrature Mirror Filter)などが挙げられる。このような変換は厳密には「フレーム」と呼ばれ、数学的にもそのような特性を持つことが証明されている(参考文献1)。   Furthermore, when a bi-orthogonal filter bank is used as the band dividing means, basically a noise signal (that is, a difference signal between the decoded signal and the original signal) superimposed on the signal obtained through the encoding and decoding processes. Are orthogonalized and added at the time of synthesis, noise is not added and emphasized when passing through the re-synthesis filter, which is convenient for processing such as encoding. That is, the influence of the noise signal can be reduced by using a bi-orthogonal transform or a transform method based on the normal overlap and add filter bank. Here, the band division method includes a conventionally used QMF (Quadrature Mirror Filter). Strictly speaking, such conversion is called “frame”, and it has been proved mathematically that it has such characteristics (Reference 1).

そのような条件を満たすフィルタバンクには、離散フーリエ変換(DFT)や離散ウェーブレット変換(DWT)(参考文献2)などが考えられるが、本実施例では高速離散ウェーブレット変換(FWT)(参考文献3)を用いた場合の実装について述べる。ここで、ウェーブレット変換を用いる理由としては、人間の聴覚は、低い周波数帯域では時間分解能よりも周波数分解能の方が重要で逆に高い周波数帯域では周波数分解能よりも時間分解能の方が重要であるということに基づく。つまり、例えば32kHzサンプリングの音声信号を符号化する場合には15kHzを電話帯域(0〜4kHz帯域)と中帯域の高域(4〜8kHz)、そして残りの広帯域の高域(8〜15kHz)と分割した方が既存の符号化方式にも適用しやすく、また人間の聴覚特性とも一致する。また、ウェーブレット分解によって得られるウェーブレット展開係数やスケーリング係数は、サンプリング変換に必要な低域通過フィルタ処理とサンプル間引き処理を同時に行うので高速に処理が可能であるという利点もある。
[参考文献1]
S. Mallat. A Wavelet Tour of Signal Processing. Academic Press, San Diego, 2nd edition, 1999.
[参考文献2]
G. Strang and T. Nguyen. Wavelets and Filter Banks. Wellesley‐Ca‐
Mbridge Press, Wallesley, MA, 1996.
[参考文献3]
I. Daubechies. Ten Lectures on Wavelets. SIAM, Philadelphia, PN, 1992.
基底(厳密には「フレーム基底」)としては、Mayers, Daubechies、Mexican Hatなど多数挙げられるが、Symmletを用い、14タップ長程度のものを用いることとする。このウェーブレット基底は時間領域では係数が比較的対称な形を持つという性質を持つため、時間領域の局所化の妥当性が高く、効率の良い符号化結果が望める。タップ数は大きくなると分割した帯域の重なりが減り、低域だけを再生した時にエイリアジングによる雑音が低減できるというメリットがあるが、演算量が増加してしまうためあまり好ましくない。
As filter banks satisfying such conditions, discrete Fourier transform (DFT), discrete wavelet transform (DWT) (reference document 2), and the like can be considered, but in this embodiment, fast discrete wavelet transform (FWT) (reference document 3). The implementation when using) is described. Here, the reason why the wavelet transform is used is that, for human hearing, frequency resolution is more important than time resolution in the low frequency band, and conversely time resolution is more important than frequency resolution in the high frequency band. Based on that. In other words, for example, when encoding a sound signal of 32 kHz sampling, 15 kHz is defined as a telephone band (0 to 4 kHz band), a medium band high band (4 to 8 kHz), and a remaining wide band high band (8 to 15 kHz). The division is easier to apply to existing coding schemes, and also matches human auditory characteristics. In addition, the wavelet expansion coefficient and scaling coefficient obtained by wavelet decomposition have the advantage that they can be processed at high speed since the low-pass filter processing and sample thinning processing necessary for sampling conversion are performed simultaneously.
[Reference 1]
S. Mallat. A Wavelet Tour of Signal Processing. Academic Press, San Diego, 2nd edition, 1999.
[Reference 2]
G. Strang and T. Nguyen. Wavelets and Filter Banks. Wellesley‐Ca‐
Mbridge Press, Wallesley, MA, 1996.
[Reference 3]
I. Daubechies. Ten Lectures on Wavelets. SIAM, Philadelphia, PN, 1992.
There are a number of bases (strictly, “frame bases”) such as Mayers, Daubechies, Mexican Hat, etc., but Symmmlet is used, and those having a length of about 14 taps are used. Since this wavelet base has a property that the coefficients have a relatively symmetrical shape in the time domain, the validity of the localization in the time domain is high, and an efficient coding result can be expected. When the number of taps is increased, there is a merit that the overlapping of the divided bands is reduced and noise due to aliasing can be reduced when only the low frequency band is reproduced, but this is not preferable because the amount of calculation increases.

電話帯域音声信号の符号化に、既存のG.711やG.726などの高音質な符号化方式を用いても、本来それらが入力として期待するIRS特性(高域強調特性)に沿わない入力信号(例えば平坦の周波数特性の信号)が与えられると、本来の性能を発揮できず雑音が顕著に知覚できるようになってしまうため、周波数特性補償を用いれば、高音質の符号化処理が可能で、相互接続性を保つことができる。
しかし、周波数特性の補償だけでは、広帯域音声として再生した場合、低域が欠落しているために、臨場感のない信号しか再生できない。ここで、2段目に原音との差分信号を量子化するような機構を入れれば電話帯域のみの再生と広帯域の再生の双方の品質を高品質に保つことができる。
Input that does not conform to the IRS characteristics (high frequency emphasis characteristics) that are expected to be input even when existing high-quality encoding methods such as G.711 and G.726 are used for encoding telephone band audio signals. If a signal (for example, a signal with a flat frequency characteristic) is given, the original performance cannot be exhibited and noise can be perceived remarkably. If frequency characteristic compensation is used, high-quality encoding processing is possible. Thus, the interconnectivity can be maintained.
However, only the compensation of the frequency characteristics can reproduce only a signal without a sense of presence when reproduced as wideband sound because the low frequency is missing. Here, if a mechanism for quantizing the difference signal from the original sound is added to the second stage, the quality of both the reproduction of only the telephone band and the reproduction of the wide band can be kept high.

また、周波数特性の補償は音声信号の場合、信号のパワーはほぼ低域に集中していることにより、周波数特性補正により多くのパワーを損失し、明瞭性が低下する可能性がある。その音質劣化を回避するためには、利得調整を行えばよいのだが、逆に広帯域で再生する場合には、パワーが増大して不一致ができてしまう。ここで、受信機構では補正利得を乗ずることによって、その状態を回避することが可能となる。   Further, in the case of an audio signal, the frequency characteristic is compensated for because the power of the signal is concentrated in a low frequency range, so that much power is lost due to the frequency characteristic correction, and the clarity may be lowered. In order to avoid the deterioration of the sound quality, it is only necessary to adjust the gain. On the other hand, when reproducing in a wide band, the power increases and a mismatch occurs. Here, in the receiving mechanism, it is possible to avoid the state by multiplying the correction gain.

図1に本発明の音声符号化方法を実施した場合の送信側のブロック図を示す。
本実施例では、広帯域入力音声信号を入力とする。この入力音声信号は、32kHzサンプリングでも良いし、それより大きなサンプリング周波数の信号を入力とする場合には、予め32kHzまでダウンサンプリングしておく必要がある。
本実施例で述べる処理系は、実時間処理を目的とするため通常5ms〜50ms程度の短時間処理フレーム毎の処理が行われる。もちろん、オフラインで実施するのであれば、メモリの許す限り信号を保存して一括処理をしても同じ結果が得られる。
FIG. 1 shows a block diagram on the transmission side when the speech encoding method of the present invention is implemented.
In this embodiment, a wide-band input audio signal is input. This input audio signal may be sampled at 32 kHz, and when a signal having a higher sampling frequency is input, it is necessary to downsample to 32 kHz in advance.
Since the processing system described in this embodiment is intended for real-time processing, processing is usually performed for each short-time processing frame of about 5 ms to 50 ms. Of course, if the operation is performed off-line, the same result can be obtained even if the signal is stored and batch-processed as long as the memory permits.

まず広帯域入力音声信号を帯域分割フィルタバンク10を用いて分割し、擬似電話帯域音声信号と擬似中帯域高域側音声信号、擬似広帯域高域側音声信号を得る。この帯域分割には、双直交変換であるフィルタバンクを用いる。そのような条件を満たすフィルタバンクとしては、一般的なQMF(Quadrature Mirror Filter)や高速ウェーブレット変換(FWT)を用いたフィルタバンクなどが挙げられる。FWTを用いた帯域分割フィルタバンク10の実装例を図2に示す。ここでは、スケーリング係数分析フィルタ10−1と、ウェーブレット展開係数分析フィルタ10−2と、スケーリング係数分析フィルタ10‐3と、ウェーブレット展開係数分析フィルタ10−4とによって構成した場合を示す。ここで得られる各帯域の音声信号はウェーブレット分析で得られるスケーリング係数及びウェーブレット展開係数であるため、擬似電話帯域音声信号や擬似中帯域高域側音声信号、擬似広帯域高域側音声信号と呼ぶ。   First, the wideband input voice signal is divided by using the band division filter bank 10 to obtain a pseudo telephone band voice signal, a pseudo middle band high band voice signal, and a pseudo wide band high band voice signal. For this band division, a filter bank which is bi-orthogonal transformation is used. Examples of the filter bank that satisfies such conditions include a filter bank using a general QMF (Quadrature Mirror Filter) and a fast wavelet transform (FWT). An implementation example of the band division filter bank 10 using FWT is shown in FIG. Here, the case where it comprises with the scaling coefficient analysis filter 10-1, the wavelet expansion coefficient analysis filter 10-2, the scaling coefficient analysis filter 10-3, and the wavelet expansion coefficient analysis filter 10-4 is shown. Since the audio signal of each band obtained here is a scaling coefficient and a wavelet expansion coefficient obtained by wavelet analysis, it is called a pseudo telephone band audio signal, a pseudo medium band high frequency side audio signal, or a pseudo wide band high frequency side audio signal.

こうして得られた擬似電話帯域音声信号(低域音声信号)は周波数特性補償部11で、周波数特性を平坦なものから、IRS特性等に代表される従来の電話器から出力される信号の周波数特性に準ずるものに変更される。ここでの IRS特性(参考文献4)とは、図3のような緩やかな高域強調特性を持つ。この周波数特性の操作には10〜20タップのFIRフィルタとして実装する。また、IRSに準ずる周波数特性とは、図4に示すような、擬似IRS特性として高域通過フィルタを代用することで聴感的に同じ効果を得られる。この場合より短いタップ長のフィルタで実装が可能である。
[参考文献4]
ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T P.830 Anner D‐modifired IRS send and receive characteristics, Feb. 1996.
次に周波数特性補償部11を経た信号は利得調整部12で利得調整をされる。この利得調整部12では音声通信の場合ならば1.0〜4.0の範囲の値を取る定数gをサンプルに乗ずることである。
The pseudo telephone band audio signal (low frequency audio signal) thus obtained is frequency characteristic compensator 11 which has a flat frequency characteristic and a frequency characteristic of a signal output from a conventional telephone represented by an IRS characteristic or the like. It is changed to the thing according to. The IRS characteristic (reference document 4) here has a gentle high-frequency emphasis characteristic as shown in FIG. This frequency characteristic operation is implemented as a 10-20 tap FIR filter. Further, the frequency characteristic according to IRS can obtain the same audible effect by substituting a high-pass filter as the pseudo IRS characteristic as shown in FIG. In this case, it can be implemented with a filter having a shorter tap length.
[Reference 4]
ITU-T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland.ITU-T P.830 Anner D-modifired IRS send and receive characteristics, Feb. 1996.
Next, the gain of the signal that has passed through the frequency characteristic compensation unit 11 is adjusted by the gain adjustment unit 12. In the case of voice communication, the gain adjustment unit 12 multiplies the sample by a constant g that takes a value in the range of 1.0 to 4.0.

こうして得られた擬似電話帯域音声信号は電話帯域符号化部13で符号化される。このとき、電話帯域符号化部13は、従来の波形符号化方法を用いるが圧縮符号化を行なわなずに、デジタルデータそのままを送信しても良い。
これと共に、擬似電話帯域音声信号は、位相遅れ補償部14で位相操作が行われる。この位相遅れ補償部14は、原音声信号をバッファリングして電話帯域信号を遅れさせる機能を持つ。この位相遅れ補償部14は、位相のみを操作する全通過フィルタとしても実装することも可能である。この位相遅れは、周波数特性補償部11を経由して得られる位相遅れと一致しているものを用いるが、周波数特性補償部11がFIRフィルタで実装されている場合、そのフィルタのタップ長の半分だけ遅れさせればよい。
The pseudo telephone band voice signal thus obtained is encoded by the telephone band encoding unit 13. At this time, the telephone band encoding unit 13 may use the conventional waveform encoding method, but may transmit the digital data as it is without performing compression encoding.
At the same time, the phase operation of the pseudo telephone band audio signal is performed by the phase delay compensation unit 14. The phase delay compensation unit 14 has a function of buffering the original voice signal and delaying the telephone band signal. The phase delay compensation unit 14 can also be implemented as an all-pass filter that operates only the phase. This phase lag is the same as the phase lag obtained via the frequency characteristic compensator 11, but when the frequency characteristic compensator 11 is implemented with an FIR filter, it is half the tap length of the filter. Just delay.

次に位相遅れが補償された原擬似電話帯域音声信号は、周波数特性を変更された信号との差分を減算部15でとり、電話帯域補償符号化部16に渡され、符号化される。
中帯域高域側(4〜8kHz帯域)および広帯域の高域側(8〜16kHz帯域)の信号はそれぞれ符号化部17および18に渡されて符号化データを得る。通常従来の電話帯域の符号化方式では広帯域を用いないため、これらの符号化方式は独自のものを用いてもよいし、従来の電話帯域符号化を用いても同じ効果が得られる。
その後、これらの符号化データはパケット構築部19に渡され、IPパケットのペイロードデータとしてネットワークAPIに渡されてIPネットワークに伝送される。この時、各帯域の符号データの優先度を演算し、優先度毎にパケット化して伝送することも可能である。尚この優先度付きパケット出力方法に関しては後に詳しく説明する。
Next, the original pseudo telephone band voice signal whose phase delay has been compensated is subtracted by the subtractor 15 from the signal whose frequency characteristic has been changed, passed to the telephone band compensation encoder 16 and encoded.
The middle band high band side (4 to 8 kHz band) and wide band high band side (8 to 16 kHz band) signals are respectively passed to the encoding units 17 and 18 to obtain encoded data. Usually, the conventional telephone band encoding method does not use a wide band, so these encoding methods may be unique, or the same effect can be obtained by using the conventional telephone band encoding.
Thereafter, these encoded data are transferred to the packet construction unit 19, and are transferred to the network API as payload data of the IP packet and transmitted to the IP network. At this time, the priority of the code data of each band can be calculated, and packetized for each priority and transmitted. Note that the packet output method with priority will be described in detail later.

図5に本発明の音声復合化方法を実施した場合の受信側の機構ブロック図を示す。ここでは、ネットワークAPIから受信したパケットのペイロード部分からパケット分解部50で擬似電話帯域補償符号データ、擬似電話帯域符号データおよび擬似中帯域高域側符号データ、擬似広帯域高域側符号データを分割し、それぞれ対応する復号部51、52、53、54に渡す。
電話帯域復号部以外の復号部53、54から出力された各信号は、位相遅れ補償部55でそれぞれ位相遅れ補償を施される。送信側で述べたとおり、この位相遅れ補償は信号のサンプルを遅れさせるバッファとして実装しても良いし、位相のみを操作する全通過フィルタとして実装することもできる。ここでは行う位相操作には図1に示した送信機構の位相遅れ補償部14と同じものを用いることができる。
FIG. 5 shows a mechanism block diagram on the receiving side when the speech decoding method of the present invention is implemented. Here, the pseudo telephone band compensation code data, the pseudo telephone band code data, the pseudo medium band high band side code data, and the pseudo wide band high band side code data are divided by the packet decomposition unit 50 from the payload portion of the packet received from the network API. , Respectively, to the corresponding decoding units 51, 52, 53, 54.
Each signal output from the decoding units 53 and 54 other than the telephone band decoding unit is subjected to phase lag compensation by the phase lag compensation unit 55. As described on the transmission side, this phase delay compensation may be implemented as a buffer that delays the signal sample, or may be implemented as an all-pass filter that operates only on the phase. Here, the same phase operation as the phase lag compensation unit 14 of the transmission mechanism shown in FIG.

電話帯域復号部52から得られる信号については、利得補償部56で補正利得を乗じる。この補正利得は、送信機構(図1)で用いた利得gの逆数(1/g)を用いる。この信号は加算部57で位相遅れ補償された電話帯域補償信号との和を取り、擬似電話帯域再生信号とする。
こうして擬似電話帯域復号信号、擬似中帯域高域側復号信号、擬似広帯域広域側復号信号は再合成フィルタバンク58へと渡され、広帯域音声に再合成される。このときの逆FWTによる再合成フィルタバンクの実装例を図6に示す。図6に示す例では再合成フィルタバンク58を2個のスケーリング係数合成フィルタ58−1および58−3と2個のウェーブレット展開係数合成フィルタ58−2、58−4とによって構成した場合を示す。
A gain compensation unit 56 multiplies the signal obtained from the telephone band decoding unit 52 by a correction gain. This correction gain uses the reciprocal (1 / g) of the gain g used in the transmission mechanism (FIG. 1). This signal is summed with the telephone band compensation signal whose phase delay has been compensated by the adder 57 to obtain a pseudo telephone band reproduction signal.
Thus, the pseudo telephone band decoded signal, the pseudo medium band high band side decoded signal, and the pseudo wide band wide side decoded signal are passed to the recombination filter bank 58 and re-synthesized into the wide band voice. An implementation example of the recombination filter bank by inverse FWT at this time is shown in FIG. In the example shown in FIG. 6, the re-synthesis filter bank 58 is configured by two scaling coefficient synthesis filters 58-1 and 58-3 and two wavelet expansion coefficient synthesis filters 58-2 and 58-4.

再合成フィルタバンク58を経て得られた広帯域音声信号は32kHzよりも大きい所望のサンプリング周波数にアップサンプリングされる。32kHzサンプリングのまま使用する場合は、アップサンプリングの必要はない。
なお、従来型(G.711やG.726)の音声受信機構しか備えない音声送信機構と対に接続する場合は、中帯域および広帯域高域側のデータに0を詰めて再合成フィルタバンク58を通過させることにより相互接続が可能となる。また、電話帯域復号部52のみを動かし、得られた8kHzサンプリングの再生音声信号を32kHzにアップサンプリングすることにより同じ効果を得ることができ、低演算量で実現することも可能である。
The wideband audio signal obtained through the resynthesis filter bank 58 is upsampled to a desired sampling frequency greater than 32 kHz. Upsampling is not necessary when using 32 kHz sampling.
When connecting with a voice transmission mechanism having only a conventional (G.711 or G.726) voice reception mechanism, the data in the middle band and the wideband high band is filled with 0 and the resynthesis filter bank 58 is connected. Interconnection is possible by passing the. Further, the same effect can be obtained by moving only the telephone band decoding unit 52 and up-sampling the reproduced audio signal obtained by sampling at 8 kHz to 32 kHz, and can be realized with a small amount of calculation.

上述した実施例では、まず32kHzサンプリングの広帯域高域側音声を符号化する例を挙げたが、拡声系を用いた音声会議システムに於いては16kHzサンプリングの中帯域高域側音声でも十分とされる場合がある。そのような入力音声信号に適用する場合には、帯域分割フィルタバンク10は電話帯域が出力できるよう電話帯域音声信号と中帯域高音側音声信号の2分割で実装が可能となり、広帯域高域側音声信号を符号化および復号する機構は不要となる。この実装のブロック図を図7に示す。これに対となる受信機構のブロック図を図8に示す。また、その場合の帯域分割フィルタバンク10および再合成フィルタバンク58の実装例をそれぞれ図9と図10に示す。   In the above-described embodiment, an example was given in which a high-frequency voice on a wide band at 32 kHz sampling was first coded. However, in a voice conference system using a loudspeaker system, a high-frequency voice on the middle band at 16 kHz sampling is sufficient. There is a case. When applied to such an input audio signal, the band division filter bank 10 can be implemented by dividing the telephone band audio signal and the mid-band high-frequency side audio signal into two so that the telephone band can be output. A mechanism for encoding and decoding the signal is not required. A block diagram of this implementation is shown in FIG. FIG. 8 shows a block diagram of a receiving mechanism that forms a pair. Also, examples of implementation of the band division filter bank 10 and the recombination filter bank 58 in that case are shown in FIGS. 9 and 10, respectively.

図11に、実施例1の機構に1段目の電話帯域符号化部13で発生する雑音を2段目の電話帯域符号化部で補償する形の実施例を示す。
ここでは、1段目の電話帯域符号化器13から得られた符号データを電話帯域復号部111で復号し得られた信号に、利得補償部112で補正利得を乗じ、位相遅れ補償部14で位相補償された擬似電話帯域信号との差分信号を減算部113で求め、電話帯域補償符号化器114に与える。利得補償部112の補正利得は、実施例1の受信側と同様に、利得gの逆数(1/g)を用いる。
FIG. 11 shows an embodiment in which the noise generated in the first-stage telephone band encoding unit 13 is compensated by the second-stage telephone band encoding unit in the mechanism of the first embodiment.
Here, the signal obtained by decoding the code data obtained from the first-stage telephone band encoder 13 by the telephone band decoding unit 111 is multiplied by the correction gain by the gain compensation unit 112, and the phase delay compensation unit 14 is used. A difference signal from the phase-compensated pseudo telephone band signal is obtained by the subtractor 113 and provided to the telephone band compensation encoder 114. As the correction gain of the gain compensator 112, the reciprocal (1 / g) of the gain g is used as in the receiving side of the first embodiment.

ここで得られる効果は、もし1段目の電話帯域符号化部13で十分なSNRが得られない場合、補償符号化で1段目で発生する雑音を含んだ形で符号化するため、受信側で雑音を相殺することができ、再生される音声の品質向上が望めることである。
これと対に用いる音声受信機構には、図5と同じものを用いる。
上述したこの発明の音声符号化装置および音声復号化装置はコンピュータにより機能させることもできる。その場合は上述したこの発明の方法の各ステップをコンピュータに実行させるためのプログラムをCD−ROM、磁気ディスクなどの記録媒体から当該装置として機能させるコンピュータにインストールし、或は通信回線を介してダウンロードして実行させればよい。
The effect obtained here is that if the first-stage telephone band encoding unit 13 cannot obtain a sufficient SNR, it is encoded in a form including noise generated in the first stage in the compensation encoding. The noise can be canceled on the side, and the quality of the reproduced voice can be improved.
The same voice receiving mechanism as that shown in FIG. 5 is used as a pair.
The speech encoding apparatus and speech decoding apparatus of the present invention described above can also be functioned by a computer. In that case, a program for causing the computer to execute the steps of the above-described method of the present invention is installed in a computer functioning as the device from a recording medium such as a CD-ROM or a magnetic disk, or downloaded via a communication line. And execute it.

以下では優先度付パケット信号の出力方法に関して説明する。
与えられたネットワークやシステム資源(音声、映像など)を用いて最大の効果が得られるように、各メディアの品質(アプリケーション品質)を調整することを、インターネットで自動的に制御する技術、いわゆるインターネットQoS(Quality of Service)制御技術として、DiffServ(参考文献5、6)が注目されている。この手法は特にネットワークに入るパケットを予め優先度でクラス分けしておき、輻輳時に各ネットワークロードで優先度の低いパケットから破棄する仕組みである。この仕組みを音声通信で利用するためには、音声の処理単位(すなわちパケット)毎に優先度が演算されているようにしておけば有効なネットワークの活用ができる。
Hereinafter, a method for outputting a packet signal with priority will be described.
Technology that automatically controls the adjustment of the quality (application quality) of each media so as to obtain the maximum effect using a given network and system resources (voice, video, etc.), so-called Internet As a QoS (Quality of Service) control technique, DiffServ (reference documents 5 and 6) is attracting attention. This method is a mechanism in which packets entering the network are classified in advance according to priority, and packets with low priority are discarded at each network load during congestion. In order to use this mechanism in voice communication, an effective network can be used if the priority is calculated for each voice processing unit (that is, packet).

一般に音声信号伝送に用いられているVAD(Voice Activity Detection)(参考文献7)は、基本的には音声信号の有無の制御に主眼が置かれ、音声区間と非音声区間と2つの粗い区別しかなかった。つまり従来の音声信号パケットにおいては、音声区間を高い優先度とし、無音区間を低い優先度とする2段階しかなかった。
[参考文献5]
IETF‐RFC2474 : Definition of the Differentiated Services Field (DS Field)in the IPv4 and IPv6 Headers,1998.
[参考文献6]
IETF‐RFC2475 : An architecture for Differentiated Services,1998.
[参考文献7]
3GPP : ETSI TS 146 032, “Digital cellular telecommunications system (Phase 2+) ; Voice Activity Detection (VAD) , 2002
今後普及するであろう音声、音楽、映像とデータとの統合ネットワ−ク環境では一般的なピーク伝送レートの高い「データ通信」と、伝送レートが低くとも遅延時間が品質劣化に直接結びついてしまう「音声、音楽、映像通信」とが効率良く混在する必要がある。この場合滑らかな階段の優先度を持つパケットを生成して音声、楽音や映像などを品質を落とさずに効率良く伝送を可能とすることが望まれる。
In general, VAD (Voice Activity Detection) (reference document 7) used for audio signal transmission mainly focuses on the control of the presence / absence of an audio signal. There wasn't. In other words, in the conventional voice signal packet, there are only two stages in which the voice section is set to a high priority and the silent section is set to a low priority.
[Reference 5]
IETF‐RFC2474: Definition of the Differentiated Services Field (DS Field) in the IPv4 and IPv6 Headers, 1998.
[Reference 6]
IETF‐RFC2475: An architecture for Differentiated Services, 1998.
[Reference 7]
3GPP: ETSI TS 146 032, “Digital cellular telecommunications system (Phase 2+); Voice Activity Detection (VAD), 2002
In an integrated network environment of voice, music, video, and data that will become popular in the future, “data communication”, which has a high peak transmission rate, and delay time directly leads to quality degradation even if the transmission rate is low. "Voice, music, video communication" needs to be mixed efficiently. In this case, it is desired to generate packets with smooth staircase priorities so that voice, music, video, etc. can be transmitted efficiently without degrading quality.

このような要求に応えるべく、本出願人は特願2003−63445号にて滑らかな優先度を持つパケットを生成し、楽音や映像などを品質を落とさずに効率良く伝送を可能としたディジタル信号パケット出力方法を提案した。
この先願の方法によればディジタル信号をフレームごとに分割し、その分割されたフレーム毎のディジタル信号を符号化し、上記符号化に基づく特徴量又は/及び上記ディジタル信号の特徴量を説明変数として求め、上記説明変数の複数個を線形結合して指標値を求め、その指標値を量子化して優先度を求め、この優先度と上記符号化の符号とをパケットとして出力する。
In order to meet such demands, the present applicant has created a packet with smooth priority in Japanese Patent Application No. 2003-63445, and can efficiently transmit music and video without degrading quality. A packet output method is proposed.
According to the method of the prior application, a digital signal is divided for each frame, the digital signal for each divided frame is encoded, and the feature amount based on the encoding or / and the feature amount of the digital signal are obtained as explanatory variables. The index value is obtained by linearly combining a plurality of the explanatory variables, the priority is obtained by quantizing the index value, and the priority and the encoding code are output as a packet.

更に好ましくはディジタル信号をフレームごとに複数帯域に分割し、各帯粋ごとのディジタル信号を符号化し、フレーム及び帯域毎に符号化に基づく特徴量、及び/又は帯域毎の各ディジタル信号の特徴量の複数個を説明変数として求め、これら説明変数を1時結合して1つの指標値を求め、その指標値を量子化し優先度を求め、フレーム及び帯域毎のその優先度及び符号化符号を組みとし、少なくともその組の一つを含むパケットとして出力する。フレームが消失した場合に、その説明変数が主観評価値に与える影響度を線形結合の各係数と対応づけて決定する。   More preferably, the digital signal is divided into a plurality of bands for each frame, the digital signal for each frame is encoded, the feature amount based on the encoding for each frame and band, and / or the feature amount of each digital signal for each band Are calculated as explanatory variables, and these explanatory variables are combined at one time to obtain one index value, the index value is quantized to obtain a priority, and the priority and coding code for each frame and band are combined. And output as a packet including at least one of the sets. When the frame disappears, the degree of influence of the explanatory variable on the subjective evaluation value is determined in association with each coefficient of the linear combination.

図12に先願の第1実施形態を示す。入力端子1211からの各サンプルがディジタル値とされた音声ディジタル信号(以下音声信号と記す)s[n]はこの種の一般的な符号化器と同様に5ミリ秒から20ミリ秒の単位のフレームにフレーム分割部1212で分割され、各フレーム毎に、つまり音声信号s[n](nは離散的時刻)がまとめてNサンプル毎に符号化部1213で符号化される。例えば32kHzサンプリングの音声信号であれば、N=160サンプルからN=640サンプルである。またフレーム毎にパケットの優先度を優先度決定部1214で決定する。優先度決定部1214の具体例を図13に示す。この例ではそのフレームの音声信号s[n]の特徴量を、複数の説明変数生成部1311、1312、1313でそれぞれ説明変数x1[i]、x2[i]、x3[i]として生成する。i番目の処理フレームの説明変数をxj[i]として、そのフレームの音声信号s[n]を入力して、その絶対電力を説明変数生成部1311で次式(1)を計算して求める。   FIG. 12 shows a first embodiment of the prior application. An audio digital signal (hereinafter referred to as an audio signal) s [n] in which each sample from the input terminal 1211 is a digital value is in units of 5 milliseconds to 20 milliseconds as in this type of general encoder. The frame is divided by the frame dividing unit 1212, and the audio signal s [n] (n is a discrete time) is collectively encoded by the encoding unit 1213 every N samples. For example, in the case of a sound signal of 32 kHz sampling, N = 160 samples to N = 640 samples. Further, the priority determination unit 1214 determines the priority of the packet for each frame. A specific example of the priority determination unit 1214 is shown in FIG. In this example, the feature amount of the audio signal s [n] of the frame is generated as the explanatory variables x1 [i], x2 [i], and x3 [i] by the plurality of explanatory variable generation units 1311, 1312, and 1313, respectively. The explanatory variable of the i-th processing frame is set to xj [i], the audio signal s [n] of the frame is input, and the absolute power is calculated by the following equation (1) by the explanatory variable generation unit 1311.

x1[i]=(1/N)Σn=1 s[Ni+n] (1)
あるいは、次式(2)に示すように絶対電力の対数表現としてx1[i]を求める。
x1[i]=log10((1/N)Σn=1 s[Ni+n]) (2)
説明変数生成部1312では説明変数生成部1311よりの説明変数x1[i]と、前フレーム(i−1)の説明変数x1[i−1]を入力して現フレームの電力の前フレームの電力に対する比を次式(3)により計算して説明変数x2[i]を出力する。
x1 [i] = (1 / N) Σ n = 1 N s [Ni + n] 2 (1)
Alternatively, as shown in the following equation (2), x1 [i] is obtained as a logarithmic expression of absolute power.
x1 [i] = log 10 ((1 / N) Σ n = 1 N s [Ni + n] 2 ) (2)
The explanatory variable generation unit 1312 receives the explanatory variable x1 [i] from the explanatory variable generation unit 1311 and the explanatory variable x1 [i-1] of the previous frame (i-1), and the power of the previous frame of the power of the current frame. The explanatory variable x2 [i] is output by calculating the ratio to the following equation (3).

x2[i]=x1[i]/(x1[i−1]) (3)
前フレームの説明変数x1[i−1]を前フレームバッファ1312aに格納しておき、式(3)の計算を計算部1312bで行い、現フレームの説明変数x1「i」で前フレームバッファ1312aに保持する説明変数を更新する。
更に説明変数生成部1313では音声信号s「n」を入力して、その自己相関関数(ρ[n])の最大値(周期性)を次式(4)により計算して説明変数x3[i]とする。
x3[i]=max(ρ[k]) (4)
ここで正規化された自己相関関数ρ[n]は、次式(5)を用いて計算する。
x2 [i] = x1 [i] / (x1 [i-1]) (3)
The explanatory variable x1 [i−1] of the previous frame is stored in the previous frame buffer 1312a, the calculation of Expression (3) is performed by the calculation unit 1312b, and the explanatory variable x1 “i” of the current frame is stored in the previous frame buffer 1312a. Update the explanatory variables to be retained.
Further, the explanatory variable generation unit 1313 receives the audio signal s “n”, calculates the maximum value (periodicity) of the autocorrelation function (ρ [n]) by the following equation (4), and calculates the explanatory variable x3 [i ].
x3 [i] = max (ρ i [k]) (4)
The autocorrelation function ρ [n] normalized here is calculated using the following equation (5).

ρ[k]=Σn=0 (s[Ni+n])(s[Ni+n+k])/
Σn=0 (s[Ni+n]) (5)
kは1、2…とし、kの最大値は音声信号s[n]のピッチ周期相当程度とする。この時、自己相関関数をアップサンプリングして、つまり補間してより正確な値を計算するようにした方が良い結果が得られる。
これら求めた説明変数x1[i]、x2[i]、x3[i]を指標値計算部1314で線形結合して指標値y[i]を求める。つまり例えば次式(6)、(7)を計算する。
ρ i [k] = Σ n = 0 N (s [Ni + n]) (s [Ni + n + k]) /
Σ n = 0 N (s [Ni + n]) 2 (5)
k is 1, 2,..., and the maximum value of k is approximately equivalent to the pitch period of the audio signal s [n]. At this time, a better result can be obtained by up-sampling the autocorrelation function, that is, by interpolating and calculating a more accurate value.
The index value y [i] is obtained by linearly combining the obtained explanatory variables x1 [i], x2 [i], and x3 [i] by the index value calculation unit 1314. That is, for example, the following equations (6) and (7) are calculated.

y[i]=α0+Σj=1 αjxj[i]^ (6)
xj[i]^は説明変数xjの確率分布の平均を0、分散を1に正規化したもの、つまり次式(7)で求まる。
xj[i]^=(xj[i]−xj´)/γj (7)
xj´、γjはそれぞれ説明変数xjの平均値、標準偏差である。
これらの線形結合係数α0、α1は重回帰分析(例えば奥野忠−他:多変量解析法(改訂版)、日科技連、1981参照)を用いて事前に最適化した偏回帰係数値を用いる。例えば1つのパケット(フレーム)を消失させたときの受聴者が主観評価したMOS値をy[i]´とした時、このy[i]´と式(6)により計算された指標値y[i]との誤差が最小となるように、最小自乗法を用いて、係数αjを求める。α0はMOS値1〜5の平均値である。ここでMOS値1は「非常に悪い」、MOS値5は「非常に良い」と対応する。
y [i] = α0 + Σ j = 1 3 αjxj [i] ^ (6)
xj [i] ^ is obtained by normalizing the average probability distribution of the explanatory variable xj to 0 and the variance to 1, that is, the following equation (7).
xj [i] ^ = (xj [i] -xj ′) / γj (7)
xj ′ and γj are the average value and standard deviation of the explanatory variable xj, respectively.
These linear combination coefficients α0 and α1 use partial regression coefficient values optimized in advance using multiple regression analysis (see, for example, Tadashi Okuno et al .: Multivariate analysis method (revised version), Nikka Giren, 1981). For example, when a MOS value subjectively evaluated by a listener when one packet (frame) is lost is y [i] ′, this index value y [i] calculated by y [i] ′ and Expression (6) is used. The coefficient αj is obtained using the method of least squares so that the error from i] is minimized. α0 is an average value of MOS values 1 to 5. Here, MOS value 1 corresponds to “very bad” and MOS value 5 corresponds to “very good”.

係数α0〜α3は、このように決められるから、αjの絶対値が大きいことはその説明変数(特徴量)がパケット(フレーム)消失時の主観評価品質に大きく影響し、αjの絶対値が小さければその説明変数(特徴量)はパケット(フレーム)消失時の主観評価品質への影響が比較的小さいことになる。つまり主観評価品質への影響度が大きい程、係数αjが大きくなるようにαjが決定されている。また指標値y[i]は複数の説明変数(特徴量)x1[i]〜x3[i]を係数α1〜α3を用いて線形結合させたものであるから、1つの説明変数(特徴量)のみにて、パケット(フレーム)消失の主観評価品質に与える影響の程度よりも、より正しく、影響の程度を示すことになる。主観評価品質に対して大きく影響を与えるフレーム、この場合音声であるから聴感的に重要なものは指標値y[i]が小さくなり、重要でないものは指標値が大きくなる傾向になる。   Since the coefficients α0 to α3 are determined in this way, if the absolute value of αj is large, the explanatory variable (feature value) greatly affects the subjective evaluation quality when the packet (frame) is lost, and the absolute value of αj is small. For example, the explanatory variable (feature amount) has a relatively small influence on the subjective evaluation quality when the packet (frame) is lost. That is, αj is determined so that the coefficient αj increases as the degree of influence on the subjective evaluation quality increases. Since the index value y [i] is obtained by linearly combining a plurality of explanatory variables (feature quantities) x1 [i] to x3 [i] using coefficients α1 to α3, one explanatory variable (feature quantity). As a result, the degree of influence is more correctly shown than the degree of influence of the packet (frame) loss on the subjective evaluation quality. A frame that greatly affects the subjective evaluation quality, in this case, a speech, and those that are audibly important tend to have a small index value y [i], and those that are not important tend to have a large index value.

図13中の指標値計算部1314において、各説明変数x1〜x3はそれぞれ正規化部1314a1〜1314a3で正規化され、正規化説明変数x1〜x3はそれぞれ正規化部1314b1〜1314b3で係数α1〜α3がそれぞれ乗算され、これら乗算結果と定数α0は加算部1314c1、1314c2により加算されて指標値y[i]が出力される。
こうして求められた指標値y[i]は、量子化部1315でスカラ量子化され、離散的な値、例えば0、1、…、7の何れかの値の優先度p[i]が出力される。つまり一般的に指標値の小さいパケットは高優先度のものへ、大きいものは低優先度のものへと写像する。写像は以下のような関数で表わすことができる。
In the index value calculation unit 1314 in FIG. 13, the explanatory variables x1 to x3 are normalized by the normalization units 1314a1 to 1314a3, respectively, and the normalized explanatory variables x1 to x3 are coefficients α1 to α3 by the normalization units 1314b1 to 1314b3, respectively. Are multiplied by the addition units 1314c1 and 1314c2, and an index value y [i] is output.
The index value y [i] obtained in this way is scalar quantized by the quantizing unit 1315, and a discrete value, for example, a priority p [i] of any one of 0, 1,. The That is, generally, a packet with a small index value is mapped to a high priority packet, and a packet with a large index value is mapped to a low priority packet. The mapping can be expressed by the following function.

p[i]=f(y[i]) (8)
このとき用いる写像関数f(y)は、パケットを総優先度ステップ数に写像するスカラ量子化を用いればよい。このときの量子化のしきい値は、指標値y「i」を等確率で分割する方法や、指標値y[i]の範囲を等分割する等の方法がある。
線形結合係数の各値は例えばα1=−0.37、α2=−0.1、α3=−0.2であり、その絶対値が大きい程、主観評価品質への影響が大きい。これらの3つの説明変数(特徴量)において絶対電力が大きいフレームが消失すると、主観評価品質への影響が最も大きい、これは音声信号中の大きなレベルのフレームが消失すれば大きな影響を与えることを意味している。自己相関関数の最大値が大きいフレームが消失すると主観評価品質への影響は次に大きい。このことは、そのフレームの絶対電力が小さくても、音声信号があれば、自己相関関数の最大値が大きくなり、そのように音声信号を含むフレームの消失は小さい絶対電力でも比較的大きく影響することを意味している。
p [i] = f (y [i]) (8)
The mapping function f (y) used at this time may use scalar quantization that maps the packet to the total priority step number. The quantization threshold at this time includes a method of dividing the index value y “i” with an equal probability, and a method of equally dividing the range of the index value y [i].
Each value of the linear combination coefficient is, for example, α1 = −0.37, α2 = −0.1, and α3 = −0.2. The larger the absolute value, the greater the influence on the subjective evaluation quality. If a frame with a large absolute power disappears in these three explanatory variables (features), the influence on the subjective evaluation quality is the greatest. This means that if a frame with a large level in the audio signal disappears, it has a significant effect. I mean. When a frame having a large autocorrelation function is lost, the influence on the subjective evaluation quality is the next largest. This means that even if the absolute power of the frame is small, if there is an audio signal, the maximum value of the autocorrelation function becomes large. Thus, the loss of the frame including the audio signal has a relatively large effect even if the absolute power is small. It means that.

従って、説明変数x1〜x3のうち少なくともx1とx3を用い、更にx2も用いると、一層なめらかな階段をもつ優先度p「i」が得られ、そのフレームの消失の主観評価品質への影響がより正確になる。以上の具体例は係数が負の値であり、評価値y[i]が小さい程、高い優先度p[i]とされる。
このようにして各フレームごとに決定された優先度p[i]は符号化部1213よりのそのフレームiの符号P「i」と、パケット送出部1215(図12)でパケットとして組立てられて出力される。
Therefore, if at least x1 and x3 are used among the explanatory variables x1 to x3, and further x2 is used, the priority p "i" having a smoother step is obtained, and the influence of the loss of the frame on the subjective evaluation quality is affected. Become more accurate. In the above specific example, the coefficient is a negative value, and the smaller the evaluation value y [i], the higher the priority p [i].
The priority p [i] determined for each frame in this way is output as a packet P "i" of the frame i from the encoding unit 1213 and assembled as a packet by the packet sending unit 1215 (FIG. 12). Is done.

第2実施形態
この第2実施形態は広帯域音声信号を複数帯域に分割して符号化を行なう場合に適用したものである。
図14に示すように広帯域音声信号はフレーム分割部1212で一定区間ごとのフレームに分割され、帯域分割部1411で帯域通過フィルタを用いてF個の複数帯域に分割される。この帯域の分割方法は、音声信号s[n]が例えば16kHzサンプリングであれば上下各4kHz帯域(F=2)に分割し、32kHzサンプリングであればF=3で0〜4kHz帯域と、4kHz〜8kHz帯域と、8kHz〜16kHz帯域というようにウェーブレットで分割しても良いし、F=4で総て等間隔に各4kHz帯域に分割しても良い。各帯域分割された音声信号は個々の符号化器で、固定時間長(フレーム)ごとに符号化される。このときの音声ブロック(パケット)の分割イメージを図15に示す。図15の例はF=3でフレームごとに各帯域の信号がそれぞれブロック(パケット)とされ、フレームごとに3つのブロック(パケット)が生成されることになる。
Second Embodiment This second embodiment is applied to a case where a wideband audio signal is divided into a plurality of bands and encoded.
As shown in FIG. 14, the wideband audio signal is divided into frames for each predetermined section by the frame dividing unit 1212, and is divided into F multiple bands by using the bandpass filter by the band dividing unit 1411. For example, if the audio signal s [n] is 16 kHz sampling, the band is divided into upper and lower 4 kHz bands (F = 2), and if it is 32 kHz sampling, F = 3 and 0 to 4 kHz band and 4 kHz to 4 kHz band. It may be divided by wavelets such as 8 kHz band and 8 kHz to 16 kHz band, or may be divided into 4 kHz bands at equal intervals with F = 4. Each band-divided audio signal is encoded for each fixed time length (frame) by an individual encoder. FIG. 15 shows a divided image of the voice block (packet) at this time. In the example of FIG. 15, F = 3, and each band signal is made into a block (packet) for each frame, and three blocks (packets) are generated for each frame.

図14に示す例では音声信号を上、下2帯域に分割した場合で、分離された低域音声信号s1[n]、高域音声信号s2[n]はそれぞれ低域符号化部1412L、高域符号化部1412Hで符号化される。また低域音声信号s1[n]、高域音声信号s2[n]はそれぞれ低域優先度決定部1413L、高域優先度決定部1413Hに入力され、フレームごとのパケット優先度がそれぞれ決定される。
低域優先度決定部1413Lの具体例を図16に示す。図16において図13と対応する機能構成部分に同一番号を付し、その番号に符号Lを付けてある。低域音声信号s1[n]は説明変数生成部1311Lで式(1)又は(2)と同様に絶対電力又はその対数が計算されて説明変数x1[1,i]が生成される。説明変数生成部1312Lで式(3)と同様に前フレーム電力比が計算されて説明変数x2[1,i]が生成される。また説明変数生成部1313Lで式(4)、(5)と同様に自己相関関数の最大値が計算されて、説明変数x3[1,i]が生成される。
In the example shown in FIG. 14, the audio signal is divided into two upper and lower bands, and the low-frequency audio signal s1 [n] and the high-frequency audio signal s2 [n] separated are the low-frequency encoding unit 1412L and the high-frequency audio signal s2 [n], respectively. It is encoded by the area encoding unit 1412H. The low frequency audio signal s1 [n] and the high frequency audio signal s2 [n] are respectively input to the low frequency priority determining unit 1413L and the high frequency priority determining unit 1413H, and the packet priority for each frame is determined. .
A specific example of the low frequency priority determination unit 1413L is shown in FIG. In FIG. 16, the same number is attached | subjected to the function structure part corresponding to FIG. 13, and the code | symbol L is attached | subjected to the number. The explanatory variable generator 1311L calculates the absolute power or the logarithm of the low frequency audio signal s1 [n] in the same manner as in the equation (1) or (2) to generate the explanatory variable x1 [1, i]. The explanatory variable generation unit 1312L calculates the previous frame power ratio in the same manner as Expression (3) to generate the explanatory variable x2 [1, i]. Further, the explanatory variable generation unit 1313L calculates the maximum value of the autocorrelation function in the same manner as Expressions (4) and (5) to generate the explanatory variable x3 [1, i].

更にこの実施形態では説明変数生成部1316Lでこの帯域の絶対電力x1[f,i]と、他帯域の絶対電力とが入力されてこの帯域の絶対電力の総電力に対する比が次式(9)により計算され、説明変数x4[f、i]として出力される。
x4[f,i]=x1[f,i]/Σf=1 x1[f,i] (9)
図16の例ではF=2であるから、低域のx1[1,i]と高域のx1[2,i]により
x4[1,i]=x1[1,i]/(x1[1,i]+x1[2,i])
が計算される。
Furthermore, in this embodiment, the absolute power x1 [f, i] of this band and the absolute power of other bands are input by the explanatory variable generation unit 1316L, and the ratio of the absolute power of this band to the total power is expressed by the following equation (9). And is output as an explanatory variable x4 [f, i].
x4 [f, i] = x1 [f, i] / Σ f = 1 F x1 [f, i] (9)
In the example of FIG. 16, since F = 2, x4 [1, i] = x1 [1, i] / (x1 [1] is obtained by x1 [1, i] in the low band and x1 [2, i] in the high band. , I] + x1 [2, i])
Is calculated.

指標値計算部1314Lで説明変数x1[1,i]、x2[1,i]、x3[1,i]、x4[1,i]が線形結合され、次式による指標値y[1,i]が計算される。
y[1,i]=α0+Σj=1 αjxj[1,i]^
xj[1,i]^=(xj[1,i]−xj[1]´)/γj[1]
この指標値y[1,i]は量子化部1315Lで量子化され、優先度p[1,i]=f(y[1,i])が出力される。
同様にして高域優先度決定部1413Hで指標値
y[2,i]=α0+Σj=1 αjxj[2,i]^
xj[2,i]^=(xj[2,i]−xj[2]´)/γj[2]
が計算され、更に優先度p[2,i]=f(y[2,i])が出力される。パケット送出部1215は、低域符号化部1412Lよりの符号化符号P[1,i]と優先度p[1,i]が1つのパケットとして、また符号化部1412Hよりの符号化符号P[2,i]と優先度p[2,i]が1つのパケットとして送出される。
The index value calculation unit 1314L linearly combines the explanatory variables x1 [1, i], x2 [1, i], x3 [1, i], x4 [1, i], and the index value y [1, i ] Is calculated.
y [1, i] = α0 + Σ j = 1 4 αjxj [1, i] ^
xj [1, i] ^ = (xj [1, i] −xj [1] ′) / γj [1]
The index value y [1, i] is quantized by the quantization unit 1315L, and the priority p [1, i] = f 1 (y [1, i]) is output.
Similarly, the high band priority determination unit 1413H uses the index value y [2, i] = α0 + Σ j = 1 4 αjxj [2, i] ^
xj [2, i] ^ = (xj [2, i] −xj [2] ′) / γj [2]
And the priority p [2, i] = f 2 (y [2, i]) is output. The packet sending unit 1215 uses the encoded code P [1, i] and the priority p [1, i] from the low frequency encoding unit 1412L as one packet, and the encoded code P [ 2, i] and priority p [2, i] are transmitted as one packet.

なお一般にF個に帯域分割された場合、f番目の帯域の指標値y[f,i]は
y[f,i]=α0+Σj=1 αjxj[f,i]^
xj[f,i]^=(xj[f,i]−xj[f]´)/γj[f]
により計算され、優先度p[f,i]はf(y[f,i])により求められる。
係数α4は例えば−0.43であり、α1より大とされる。つまり分割された帯域のフレームの全帯域電力に対する比が大きいことは、その部分に大きな電力の音声信号成分があることになりα1〜α4中で優先度を最も高くすることが好ましいことを意味している。
In general, when the band is divided into F, the index value y [f, i] of the f-th band is y [f, i] = α0 + Σ j = 1 4 αjxj [f, i] ^
xj [f, i] ^ = (xj [f, i] −xj [f] ′) / γj [f]
The priority p [f, i] is obtained by f f (y [f, i]).
The coefficient α4 is −0.43, for example, and is larger than α1. In other words, a large ratio of the divided band to the total band power means that there is a voice signal component with a large power in that portion, and it is preferable that the priority is the highest among α1 to α4. ing.

第3実施形態
第3実施形態は単一帯域の品質スケーラブル符号化器、つまり各種の品質の符号化を行うことができる符号化器を用いて音声を符号化する場合にこの発明を適用した実施形態である。この場合の音声ブロック(パケット)の分割イメージは図15中に括弧書きで品質qとフレームとの関係を示すようになる。またQ=2段構成の、一般的な固定処理時間単位で音声信号を符合化する場合に適用した機能構成を図17に示す。
音声信号s[n]はフレーム分割部1212でフレーム単位で分割され、1段目符号化部1412‐1でフレームごとに符号化されると共に1段目優先度決定部1413−1で優先度p[1,i]が決定される。1段目符号化部1412−1よりの符号化符号P[1,i]は1段目復号化部1711−1で復号化され、この復号化信号が音声信号から減算部1712−1で差し引かれて、1段目の残差信号(符号化誤差信号)e1[n]が生成される。この残差信号は2段目符号化部1412−2でフレームごとに符号化されると共に2段目優先度決定部1413−2で優先度p2[2,i]が決定される。2段目符号化部1412−2よりの符号化符号P[2,i]は2段目復号化部1711−2で復号化され、その復号化信号が、1段目の残差信号e1[n]から減算部1712−2で差し引かれて2段目残差信号e2[n]が生成される。
Third Embodiment The third embodiment is an embodiment in which the present invention is applied to a case where speech is encoded using a single-band quality scalable encoder, that is, an encoder capable of performing various quality encodings. It is a form. In this case, the audio block (packet) divided image is shown in parentheses in FIG. 15 to indicate the relationship between the quality q and the frame. FIG. 17 shows a functional configuration applied to a case where an audio signal is encoded in a general fixed processing time unit with a Q = 2 stage configuration.
The audio signal s [n] is divided in frame units by the frame dividing unit 1212, encoded for each frame by the first-stage encoding unit 1412-1, and the priority p in the first-stage priority determining unit 1413-1. [1, i] is determined. The encoded code P [1, i] from the first stage encoding unit 1412-1 is decoded by the first stage decoding unit 1711-1, and this decoded signal is subtracted from the audio signal by the subtraction unit 1712-1. Thus, the first stage residual signal (encoding error signal) e1 [n] is generated. The residual signal is encoded for each frame by the second-stage encoding unit 1412-2, and the priority p2 [2, i] is determined by the second-stage priority determining unit 1413-2. The encoded code P [2, i] from the second-stage encoding unit 1412-2 is decoded by the second-stage decoding unit 1711-2, and the decoded signal is the first-stage residual signal e1 [ n] is subtracted by subtracting unit 1712-2 to generate second stage residual signal e2 [n].

1段目優先度決定部1413−1の具体例を図18に示す。図13に示した優先度決定部1214と同様に、絶対電力の説明変数x1[1,i]と前フレーム電力比の説明変数x2[1,i]と、自己相関関数最大値の説明変数x3[1,i]とがそれぞれ説明変数生成部1311と1312と1313で生成される。
この第3実施形態では更に説明変数生成部1317で符号P[1,i]の品質、例えば信号に対する雑音比が説明変数x5[1,i]として生成される。すなわち信号電力計算部1317aでS=Σn=1 s[Ni+n]が計算され、また雑音計算部1317bでE=Σn=1 e1[Ni+n]が計算され、これらの比の対数log10E/Sが対数割算部1317cで計算され、その結果が説明変数x5[1,i]として出力される。
A specific example of the first-stage priority determination unit 1413-1 is shown in FIG. Similar to the priority determination unit 1214 shown in FIG. 13, the explanatory variable x1 [1, i] of the absolute power, the explanatory variable x2 [1, i] of the previous frame power ratio, and the explanatory variable x3 of the autocorrelation function maximum value. [1, i] are generated by the explanatory variable generation units 1311, 1312, and 1313, respectively.
In the third embodiment, the explanatory variable generator 1317 further generates the quality of the code P [1, i], for example, the noise ratio for the signal, as the explanatory variable x5 [1, i]. That is, the signal power calculation unit 1317a S = Σ n = 1 N s [Ni + n] 2 are calculated, also being calculated by the noise calculation unit 1317b is E = Σ n = 1 N e1 [Ni + n] 2, these ratios logarithm Log 10 E / S is calculated by the logarithmic division unit 1317c, and the result is output as the explanatory variable x5 [1, i].

これら4個の説明変数は指標計算部1314で線形結合されて指標値y[1,i]が計算される。例えば先の場合と同様に正規化部1414aj(j=1,…,4)で説明変数xj[1,i]がそれぞれ正規化され、その正規化値xj[1,i]^が線形結合y[1,i]=α0+Σj=1 αjxj[1,i]^、xj[1,i]^=(xj[1,i]−xj[1]´)γjされる。この指標値y[1,i]は量子化部1315で量子化され、1段目優先度p[1,i]が出力される。
2段目優先度p[2,i]も同様に求められる。この場合は図18中に括弧書きで示しているように、1段目残差信号e1[n]の代わりに2段目残差信号e2[n]がそれぞれ入力され、これら信号に対して同様に処理され、2段目優先度p[2、i]が出力される。
These four explanatory variables are linearly combined by the index calculation unit 1314 to calculate the index value y [1, i]. For example, as in the previous case, the normalization unit 1414aj (j = 1,..., 4) normalizes the explanatory variables xj [1, i], respectively, and the normalized value xj [1, i] ^ is linearly combined y [1, i] = α0 + Σ j = 1 4 αjxj [1, i] ^, xj [1, i] ^ = (xj [1, i] −xj [1] ′) γj. The index value y [1, i] is quantized by the quantization unit 1315, and the first-stage priority p [1, i] is output.
The second-stage priority p [2, i] is obtained in the same manner. In this case, as shown in parentheses in FIG. 18, the second-stage residual signal e2 [n] is input instead of the first-stage residual signal e1 [n], and the same applies to these signals. And the second stage priority p [2, i] is output.

パケット送出部1215(図17)では1段目符号P[1,i]と優先度p[1,i]を1つのパケットとし、2段目符号P[2,i]と優先度p[2,i]を1つのパケットとして出力する。
この説明変数x5[q,i](q=1,2,…,Q)は符号化に基づく特徴量といえる。これを求める計算式は一般的に示すと以下となる。
x5[q,i]=log10(Σn=1 eq[Ni+n]/Σn=1 s[Ni+n]
この場合の線形結合係数α5は−0.1程度が考えられる。qが大きいものは高品質の信号の再生には必要であるが、トラヒックが輻輳している状態では品質よりも伝送される情報の意味内容がより需要であるから、qが大きいパケットはx5[q,i]が小さくなり、かつα5が比較的小さいから優先度にあまり関与しないようになる。
In the packet sending unit 1215 (FIG. 17), the first-stage code P [1, i] and the priority p [1, i] are one packet, and the second-stage code P [2, i] and the priority p [2 , I] are output as one packet.
This explanatory variable x5 [q, i] (q = 1, 2,..., Q) can be said to be a feature quantity based on encoding. A general formula for calculating this is as follows.
x5 [q, i] = log 10n = 1 N eq [Ni + n] 2 / Σ n = 1 N s [Ni + n] 2 )
In this case, the linear combination coefficient α5 can be about −0.1. A packet having a large q is necessary for reproduction of a high-quality signal. However, when traffic is congested, the meaning content of transmitted information is more demanding than the quality. q, i] becomes small, and α5 is relatively small, so that the priority is not so much involved.

第4実施形態
一般的なスケーラブル複数帯域符号化器の場合は、第1実施形態に挙げた説明変数x1[i]、x2[i]、x3[i]の他に、第2実施形態に挙げた説明変数x4[f,i]と第3実施形態に挙げた説明変数x5[q,i]の双方を用いて指標値y[f,q,i]の演算を行なう。このときの音声ブロック(パケット)の分割イメージを図19に示す。
つまり各種サンプリング周波数、各種サンプル量子化精度(振幅ビット数)の組合せを持つ各品質の音声信号に符号化する、いわゆるスケーラブル符号化の場合で、図19はサンプリング周波数は3段階、量子化精度(品質)も3段階とした場合で周波数帯域がf=1、f=2、f=3の3帯域に分割され、振幅ビット長がq=1、q=2、q=3の3領域に分割され、互に直交する周波数帯軸(帯域番号)と品質軸(振幅ビット分割番号)と時間軸(フレーム番号)で表わされていた3次現空間における1つの信号ブロック(パケット)として[f,q,i]で識別される。
Fourth Embodiment In the case of a general scalable multiband encoder, in addition to the explanatory variables x1 [i], x2 [i], and x3 [i] listed in the first embodiment, they are listed in the second embodiment. The index value y [f, q, i] is calculated using both the explanatory variable x4 [f, i] and the explanatory variable x5 [q, i] mentioned in the third embodiment. FIG. 19 shows a divided image of the voice block (packet) at this time.
That is, in the case of so-called scalable coding in which audio signals of various qualities having combinations of various sampling frequencies and various sample quantization accuracy (number of amplitude bits) are shown, FIG. 19 shows three sampling frequencies and quantization accuracy ( (Quality) is also divided into three stages, the frequency band is divided into three bands of f = 1, f = 2, and f = 3, and the amplitude bit length is divided into three areas of q = 1, q = 2, and q = 3. As a signal block (packet) in the tertiary current space represented by the frequency band axis (band number), quality axis (amplitude bit division number), and time axis (frame number) orthogonal to each other, [f , Q, i].

この場合の各説明変数はそれぞれ次式で求める。帯域f、品質(ビット分割番号q)の音声信号をsfqと表わす。
x1[f,q,i]=(1/N)Σn=1 sfq[Ni+n]
又はx1[f,q,i]=log10((1/N)Σn=1 sfq[Ni+n])
x2[f,q,i]=x1[f,q,i]/x1[f,q,i−1]
x3[f,q,i]=max(ρf,q,i[k])
ρf,q,i[k]=Σn=0 (sfq[Ni+n])(sfq[Ni+n+k])/Σn=0 (sfq[Ni+n])
x4[f,q,i]=x1[f,q,i]/Σf=1 x1[f,q,i]
x5[f,q,i]=log10(Σn=1 efq[Ni+n]/Σn=1 sfq[Ni+n]
指標値y[f,q,i]=α0+Σj=1 αjxj[f,q,i]
優先度p[f,q,i]=ff,q(y[f,q,i])
このようにして決定された優先度p[f,q,i]と対応する符号化符号P[f,q,i]とを一つのパケットとして送出する。
Each explanatory variable in this case is obtained by the following equation. An audio signal of band f and quality (bit division number q) is represented as sfq.
x1 [f, q, i] = (1 / N) Σ n = 1 N sfq [Ni + n] 2
Or x1 [f, q, i] = log 10 ((1 / N) Σ n = 1 N sfq [Ni + n]) 2
x2 [f, q, i] = x1 [f, q, i] / x1 [f, q, i-1]
x3 [f, q, i] = max (ρ f, q, i [k])
ρ f, q, i [k] = Σ n = 0 N (sfq [Ni + n]) (sfq [Ni + n + k]) / Σ n = 0 N (sfq [Ni + n]) 2
x4 [f, q, i] = x1 [f, q, i] / Σ f = 1 F x1 [f, q, i]
x5 [f, q, i] = log 10n = 1 N efq [Ni + n] 2 / Σ n = 1 N sfq [Ni + n] 2 )
Index value y [f, q, i] = α0 + Σ j = 1 5 αjxj [f, q, i]
Priority p [f, q, i] = f f, q (y [f, q, i])
The priority p [f, q, i] determined in this way and the corresponding encoded code P [f, q, i] are transmitted as one packet.

第5実施形態
上述においては分割された各音声ブロックごとその符号化符号と優先度とを組として
1パケットとして出力したが、第5実施形態では同一優先度の信号ブロックの符号をまとめて1つのパケットとして送出する。
例えば図20に示すようにフレーム分割された音声信号を、F個の帯域に帯域分割部1411で分割し、これら1〜F番目の帯域信号をそれぞれ符号化部2011−1〜2011−Fで符号化すると共に優先度決定部2012−1〜2012−Fでそれぞれ優先度を決定する。この第5実施形態ではこれら符号化符号P[1,i]〜P[F,i]と優先度p[1,i]〜p[F,i]をパケット集約部2013に供給し、所定フレーム数ごとに、同一優先度の符号をまとめて、1つのパケットとして送出部1215より送出する。
入力音声信号s[n]を例えばウェーブレット分析を用いた0−4kHz、4kHz−8kHz、8−16kHzのF=3帯域に分割し、5msで時間方向に分割し、時間20msごとにパケット送出するものとする。各パケット送出番号tにおけるフレーム番号i=1,…,4とし、フレーム番号iの帯域番号fの信号ブロックの符号化符号をP[f,i]と、優先度をp[f,i]とそれぞれ表わす。各第t番目の送出区間における各ブロックの符号P[f、i]と優先度p[f,i]が図21Aに示すようになった場合パケット集約部2013では図21Bに示すように、同じ優先度を持つブロックをそれぞれ集約して1つのパケットする。この例では優先度p=4のブロック(1,2)及び(1,3)の符号P[1,2]、P[1,3]をまとめ、かつその各符号P[1,2]、P[1,3]の帯域−時間座標上の位置情報(1,2)、(1,3)を優先度p=4のパケットに組み込む。優先度p=3のパケットには符号P[2,2],P[1,4]とその位置情報(2,2)、(1,4)を組み込む。以下同様に同一優先度の符号をまとめ、その位置情報と共に一つのパケットとして組み込む。
In the above fifth embodiment , each divided audio block is output as one packet with its encoding code and priority set as a set. In the fifth embodiment, the codes of signal blocks having the same priority are combined into one packet. Send out as a packet.
For example, as shown in FIG. 20, a frame-divided audio signal is divided into F bands by a band dividing unit 1411, and the 1st to Fth band signals are encoded by encoding units 2011-1 to 2011-F, respectively. And priorities are determined by the priority determination units 2012-1 to 2012 -F. In the fifth embodiment, the encoded codes P [1, i] to P [F, i] and the priorities p [1, i] to p [F, i] are supplied to the packet aggregating unit 2013, and a predetermined frame is received. For each number, codes of the same priority are collected and sent from the sending unit 1215 as one packet.
Input audio signal s [n] is divided into F = 3 bands of 0-4 kHz, 4 kHz-8 kHz, and 8-16 kHz using, for example, wavelet analysis, divided in the time direction in 5 ms, and transmitted in packets every 20 ms And The frame number i = 1,..., 4 in each packet transmission number t, the encoding code of the signal block of the band number f of the frame number i is P [f, i], and the priority is p [f, i]. Represent each. When the code P [f, i] and the priority p [f, i] of each block in each t-th transmission section are as shown in FIG. 21A, the packet aggregating unit 2013 is the same as shown in FIG. 21B. Each block having priority is aggregated to form one packet. In this example, the codes P [1,2] and P [1,3] of the blocks (1,2) and (1,3) with the priority p = 4 are put together, and the codes P [1,2], The position information (1, 2), (1, 3) on the band-time coordinate of P [1, 3] is incorporated into the packet with the priority p = 4. Codes P [2, 2], P [1, 4] and their position information (2, 2), (1, 4) are incorporated into a packet of priority p = 3. In the same manner, codes having the same priority are collected and incorporated as one packet together with the position information.

こうして同一の優先順位を持つ符号が集約されたパケットは、この例では20ms毎にネットワークへと送出される。このとき、ネットワークの状況に応じて、優先度が低いパケットは品質への影響が少ないので、送出しなくても良い。また、ネットワークの各ノ−ドにおいてトラフィックの混雑状況に応じて低い優先度のパケットは破棄されても通話品質への影響は最小限に留められる。
こうして、ネットワークに送出されたパケットは、受信側において図22に示すようにパケット分解部2211でt番目の送出区間の全てのパケット、図21の場合は優先度p=1〜p=4の4つのパケットP[1,t]〜P[4,t]を図21に示した組立てと逆の手順を経て帯域−時間座標上に再構成し、各帯域符号P[1,i]〜P[F,i]を復号化部2212−1〜2212−Fでそれぞれ帯域音声復号に復号する。このとき、受信側に到達しなかった低い優先度の符号がある場合は、基本的にはその符号に対する復号化部の動作を停止する。高優先度の符号が到達しない場合は、フレーム(ブロック)消失対策をブロック消失補償部2213−1〜2213−Fの対応する部分で行い、品質低下を避ける。このようにして復号され、必要に応じて消失補償された各帯域音声信号は帯域合成部2214で合成されて再生音声信号s[n]として出力される。なおパケット分解部2211よりブロック消失情報がブロック消失補償部2213−1〜2213−Fへ供給されている。このブロック消失補償は公知の技術により行なえばよい。
In this example, packets in which codes having the same priority are aggregated are sent to the network every 20 ms. At this time, a packet having a low priority has little influence on the quality according to the state of the network, and therefore does not need to be transmitted. Further, even if a low-priority packet is discarded in each node of the network according to traffic congestion, the influence on the call quality is kept to a minimum.
In this way, the packets sent to the network are all packets in the t-th sending section at the receiving side as shown in FIG. 22 on the receiving side, and in the case of FIG. Two packets P [1, t] to P [4, t] are reconstructed on band-time coordinates through the reverse procedure of the assembly shown in FIG. 21, and each band code P [1, i] to P [ F, i] are decoded by the decoding units 2212-1 to 2212 -F into band audio decoding. At this time, if there is a low priority code that has not reached the receiving side, basically the operation of the decoding unit for that code is stopped. When the high priority code does not arrive, the frame (block) loss countermeasure is taken in the corresponding part of the block loss compensation units 2213-1 to 2213 -F to avoid quality degradation. Each band audio signal decoded in this way and subjected to erasure compensation as necessary is synthesized by the band synthesizing unit 2214 and output as a reproduced audio signal s [n]. Note that block loss information is supplied from the packet decomposition unit 2211 to the block loss compensation units 2213-1 to 2213 -F. This block disappearance compensation may be performed by a known technique.

図19に示したように音声信号を3次元座標(空間)にブロック化する第4実施形態の場合も所定のフレーム数ごとに、同一優先度のブロック符号をその位置情報と共にまとめて1つのパケットとして送出するようにしてもよい。
上述では、優先度付パケット出力方法を音声信号に適用したが、音楽信号、映像信号にも適用できる。また符号化に基づく特徴量の説明変数としては次のものなども考えられる。例えば、予測符号化を用いた音声符号化器によっては語頭などのパケットが破棄されると、その後の音声品質(SN比)が著しく劣化する可能性がある。そのようなパケットが破棄されることによって伝播するSN比の劣化も説明変数xj(m,j)としてもよい。音声信号の特徴量の説明変数、符号化に基づく特徴量の説明変数の何れも上述した例に限らず、各種のものを使用することができる。
As shown in FIG. 19, in the case of the fourth embodiment in which the audio signal is blocked in three-dimensional coordinates (space), a block code having the same priority is grouped together with its position information for each predetermined number of frames. May be sent out.
In the above description, the prioritized packet output method is applied to the audio signal, but it can also be applied to the music signal and the video signal. In addition, the following may be considered as explanatory variables of feature amounts based on encoding. For example, depending on the speech coder using predictive coding, if a packet such as a word head is discarded, the speech quality (S / N ratio) thereafter may be significantly degraded. Degradation of the S / N ratio that propagates when such a packet is discarded may be used as the explanatory variable xj (m, j). The explanatory variable of the feature amount of the audio signal and the explanatory variable of the feature amount based on the encoding are not limited to the above-described examples, and various types can be used.

以上説明した優先度付パケット送出方法は図1乃至図11で説明した本発明の音声符号化方法及び符号化方法に適用することができる。その適用によりトラヒックが輻輳している状況でも通話品質への影響は最小限に留められる効果が得られる。   The prioritized packet transmission method described above can be applied to the speech encoding method and the encoding method of the present invention described with reference to FIGS. As a result, it is possible to obtain an effect that the influence on the call quality is kept to a minimum even in a situation where traffic is congested.

この発明の音声符号化方法、復号化方法はインターネットのようなパケット通信網で利用することができ、低機能の端末から高機能の端末まで相互接続が可能となる。   The speech encoding method and decoding method of the present invention can be used in a packet communication network such as the Internet, and can be interconnected from a low function terminal to a high function terminal.

この発明の音声符号化方法を実行する音声符号化装置の第1実施例を説明するためのブロック図。BRIEF DESCRIPTION OF THE DRAWINGS The block diagram for demonstrating 1st Example of the audio | voice encoding apparatus which performs the audio | voice encoding method of this invention. 図1に示した実施例に用いた帯域分割フィルタバンクの構成を説明するためのブロック図。The block diagram for demonstrating the structure of the band division | segmentation filter bank used for the Example shown in FIG. 図1に示した実施例に用いた周波数特性補償部の周波数特性の一例を説明するためのグラフ。The graph for demonstrating an example of the frequency characteristic of the frequency characteristic compensation part used for the Example shown in FIG. 図1に示した実施例に用いた周波数特性補償部の周波数特性の他の例を説明するためのグラフ。The graph for demonstrating the other example of the frequency characteristic of the frequency characteristic compensation part used for the Example shown in FIG. この発明の音声復号化方法を実行する音声復号化装置の実施例を説明するためのブロック図。The block diagram for demonstrating the Example of the audio | voice decoding apparatus which performs the audio | voice decoding method of this invention. 図5に示した音声復号化装置に用いた再合成フィルタバンクの構成を説明するためのブロック図。The block diagram for demonstrating the structure of the resynthesis filter bank used for the audio | voice decoding apparatus shown in FIG. 図1に示した音声符号化装置を16kHzサンプリングに適用した場合の音声符号化装置の実施例を示すブロック図。The block diagram which shows the Example of the audio | voice encoding apparatus at the time of applying the audio | voice encoding apparatus shown in FIG. 1 to 16kHz sampling. 図7に示した音声符号化装置で送信したパケットを着信して復号する音声復号化装置の構成を示すブロック図。The block diagram which shows the structure of the audio | voice decoding apparatus which arrives and decodes the packet transmitted with the audio | voice encoding apparatus shown in FIG. 図7に示した音声符号化装置に用いた帯域分割フィルタバンクの構成の一例を説明するためのブロック図。The block diagram for demonstrating an example of a structure of the band division | segmentation filter bank used for the audio | voice coding apparatus shown in FIG. 図8に示した音声復号化装置に用いた再合成フィルタバンクの構成の一例を説明するためのブロック図。The block diagram for demonstrating an example of a structure of the resynthesis filter bank used for the audio | voice decoding apparatus shown in FIG. この発明の実施例2で説明した音声符号化装置の実施例を説明するためのブロック図。The block diagram for demonstrating the Example of the audio | voice coding apparatus demonstrated in Example 2 of this invention. この発明に適用することができる優生度付パケット信号の送出方法の第1実施形態の機能構成例を示すブロック図。The block diagram which shows the function structural example of 1st Embodiment of the transmission method of the packet signal with a eugenicity applicable to this invention. 図13中の優先度決定部1214の具体的機能構成例を示すブロック図。FIG. 14 is a block diagram illustrating a specific functional configuration example of a priority determination unit 1214 in FIG. 13. この優先度付パケット信号の送出方法の第2実施形態の機能構成例を示すブロック図。The block diagram which shows the function structural example of 2nd Embodiment of the transmission method of this packet signal with a priority. 信号を帯域−時間座標のブロックに分割した例を示す図。The figure which shows the example which divided | segmented the signal into the block of a band-time coordinate. 図14中の低域優先度決定部1413Lの具体的機能構成例を示すブロック図。FIG. 15 is a block diagram showing a specific functional configuration example of a low frequency priority determination unit 1413L in FIG. 14. 優先度付パケット送出方法の第3実施形態の機能構成例を示すブロック図。The block diagram which shows the function structural example of 3rd Embodiment of the packet transmission method with a priority. 図17中の1段目優先度決定部1413−1の具体的機能構成例を示すブロック図。FIG. 18 is a block diagram illustrating a specific functional configuration example of a first-stage priority determination unit 1413-1 in FIG. 優先度付パケット送出方法の第4実施形態に用いる品質−帯域−時間の3次元座標に信号をブロック分割する例を示す図。The figure which shows the example which divides | segments a signal into the three-dimensional coordinate of the quality-band-time used for 4th Embodiment of the packet transmission method with a priority. 優先度付パケット送出方法の第5実施形態の機能構成例を示すブロック図。The block diagram which shows the function structural example of 5th Embodiment of the packet transmission method with a priority. 図20の中のパケット集約部2013の処理を説明するための図。The figure for demonstrating the process of the packet aggregation part 2013 in FIG. 図20に示したパケット送出装置と対応するパケット受信装置の機能構成例を示すブロック図。The block diagram which shows the function structural example of the packet receiver corresponding to the packet transmitter shown in FIG.

符号の説明Explanation of symbols

10 帯域分割フィルタバンク 50 パケット分解部
11 周波数特性補償部 51 電話帯域補償復号部
12 利得調整部 52 電話帯域復号部
13 電話帯域符号化部 53 中帯域高域側復号部
14 位相遅れ補償部 54 広帯域高域側復号部
15 減算部 55 位相遅れ補償部
16 電話帯域補償符号化部 56 利得調整部
17 中帯域高域側符号化部 57 加算部
18 広帯域高域側符号化部 58 再合成フィルタバンク
19 パケット構築部
DESCRIPTION OF SYMBOLS 10 Band-division filter bank 50 Packet decomposition part 11 Frequency characteristic compensation part 51 Telephone band compensation decoding part 12 Gain adjustment part 52 Telephone band decoding part 13 Telephone band encoding part 53 Middle band high band side decoding part 14 Phase delay compensation part 54 Wide band High band side decoding unit 15 Subtraction unit 55 Phase delay compensation unit 16 Telephone band compensation coding unit 56 Gain adjustment unit 17 Middle band high band side coding unit 57 Addition unit 18 Wide band high band side coding unit 58 Resynthesis filter bank 19 Packet building department

Claims (18)

広帯域音声信号を狭帯域の電話帯域音声信号と、中帯域の高域側音声信号と、広帯域の高域側音声信号とに帯域分割する帯域分割処理と、
帯域分割された上記電話帯域音声信号の周波数特性を高域強調特性に変更する周波数特性補償処理と、
周波数特性補償処理が施された電話帯域音声信号と、上記中帯域の高域側音声信号と広帯域の高域側音声信号のそれぞれを符号化する符号化処理と、
各符号化処理された符号化データをパケット信号として送出するパケット構築処理と、
を含むことを特徴とする音声符号化方法。
Band division processing for dividing a wideband audio signal into a narrowband telephone band audio signal, a medium band highband audio signal, and a wideband highband audio signal;
Frequency characteristic compensation processing for changing the frequency characteristic of the telephone band voice signal that has been divided into high-frequency emphasis characteristics;
An encoding process for encoding each of the telephone band audio signal subjected to the frequency characteristic compensation process, and the medium-band high-frequency audio signal and the broadband high-frequency audio signal;
A packet construction process for sending each encoded data as a packet signal;
A speech encoding method comprising:
請求項1記載の音声符号化方法において、上記符号化処理前の上記電話帯域音声信号に利得補償を施すことを特徴とする音声符号化方法。   The speech encoding method according to claim 1, wherein gain compensation is performed on the telephone band speech signal before the encoding process. 請求項1又は2記載の音声符号化方法の何れかにおいて、上記各帯域音声信号の優先度を求め、優先度付きディジタル信号パケット出力方法を併用することを特徴とする音声符号化方法。   3. The speech encoding method according to claim 1, wherein the priority of each band speech signal is obtained and the digital signal packet output method with priority is used together. 請求項1乃至3記載の音声符号化方法の何れかにおいて、上記周波数特性補償処理を施した電話帯域音声信号と周波数特性補償処理を施さない電話帯域音声信号との差を求め、この差分信号を符号化処理し、その符号化データを補償符号データとしてパケット化し、送出することを特徴とする音声符号化方法。   4. The voice encoding method according to claim 1, wherein a difference between the telephone band voice signal subjected to the frequency characteristic compensation processing and the telephone band voice signal not subjected to the frequency characteristic compensation processing is obtained, and the difference signal is obtained. An audio encoding method comprising: encoding processing; packetizing the encoded data as compensation code data; 請求項1乃至3記載の音声符号化方法の何れかにおいて、上記電話帯域音声信号の符号化処理された符号化データを復号する復号処理と、この復号処理された電話帯域信号と上記周波数特性補償処理しない電話帯域音声信号との差を求める減算処理と、この減算処理で得られた差分信号を符号化する符号化処理と、この符号化処理で得られた補償符号データをパケット信号として送出するパケット構築処理とを付加することを特徴とする音声符号化方法。   4. The speech encoding method according to claim 1, wherein the decoding processing for decoding the encoded data obtained by encoding the telephone band speech signal, the telephone band signal subjected to the decoding processing, and the frequency characteristic compensation. A subtraction process for obtaining a difference from the unprocessed telephone band voice signal, an encoding process for encoding the difference signal obtained by the subtraction process, and the compensation code data obtained by the encoding process are transmitted as a packet signal. A speech coding method characterized by adding a packet construction process. 着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データと、電話帯域の音声符号化データに分解するパケット分解処理と、
これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化処理と、
復号化処理された音声信号を合成し、広帯域信号を再生する合成処理と、
を含むことを特徴とする音声復号化方法。
Packet decomposition processing for decomposing an incoming packet signal into wideband high-frequency voice encoded data, medium-band high-frequency voice encoded data, and telephone band voice encoded data;
A decoding process for decoding each of these audio encoded data into an audio signal;
A synthesis process for synthesizing the decoded audio signal and reproducing a wideband signal;
A speech decoding method comprising:
請求項6記載の音声復号化方法において、上記パケット分解処理で補償符号データを抽出し、この補償符号データを復号処理し、復号処理した補償成分を上記電話帯域音声信号に加算する処理を付加したことを特徴とする音声復号化方法。   7. The voice decoding method according to claim 6, wherein a process of extracting compensation code data by the packet decomposition process, decoding the compensation code data, and adding the decoded compensation component to the telephone band voice signal is added. A speech decoding method characterized by the above. 請求項6又は7記載の音声復号化方法の何れかにおいて、上記電話帯域符号化データを復号処理して得られた音声信号に利得補正処理を施すことを特徴とする音声復号化方法。   8. The speech decoding method according to claim 6, wherein a gain correction process is performed on a speech signal obtained by decoding the telephone band encoded data. 広帯域音声信号を狭帯域の電話帯域と、中帯域の広域側音声信号と、広帯域の広域側音声信号とに帯域分割する帯域分割部と、
帯域分割された上記電話音声信号の周波数特性を高域強調特性に変更する周波数特性補償部と、
周波数特性補償部で周波数特性補償された電話帯域音声信号と上記中帯域の広域側音声信号と広帯域の広域側音声信号のそれぞれを符号化する符号化部と、
各符号化部で符号化された符号化データをパケット信号として送出するパケット構築部と、
を具備することを特徴とする音声符号化装置。
A band dividing unit that divides a wideband audio signal into a narrowband telephone band, a medium-band wide-area voice signal, and a wide-band wideband voice signal;
A frequency characteristic compensator for changing the frequency characteristic of the telephone voice signal subjected to the band division to a high frequency emphasis characteristic;
An encoding unit that encodes each of the telephone band audio signal frequency-compensated by the frequency characteristic compensator, the medium-band wide-band audio signal, and the wide-band wide-band audio signal;
A packet construction unit that sends out the encoded data encoded by each encoding unit as a packet signal;
A speech encoding apparatus comprising:
請求項9記載の音声符号化装置において、上記符号化部に入力される電話帯域音声信号に利得補償を施す利得補償部を付加したことを特徴とする音声符号化装置。   10. The speech coding apparatus according to claim 9, further comprising a gain compensation unit that performs gain compensation on a telephone band speech signal input to the coding unit. 請求項9又は10記載の音声符号化装置の何れかにおいて、上記周波数特性補償部で周波数特性補償された上記電話帯域音声信号と周波数特性補償を施さない電話帯域信号の差分を求める減算部と、この減算部で減算して求めた差分信号を符号化する符号化部と、この符号化部で符号化した差分符号化データをパケットとして送出するパケット構築部とを具備したことを特徴とする音声符号化装置。   The subtractor for obtaining a difference between the telephone band voice signal frequency-compensated by the frequency characteristic compensator and the telephone band signal not subjected to frequency characteristic compensation, according to any one of the voice encoding devices according to claim 9 or 10, An audio comprising: an encoding unit that encodes a difference signal obtained by subtraction by the subtraction unit; and a packet construction unit that transmits the differentially encoded data encoded by the encoding unit as a packet. Encoding device. 請求項9又は10記載の音声符号化装置の何れかにおいて、上記電話帯域音声信号の符号化データを復号する復号部と、この復号部で復号した電話帯域信号と上記周波数特性補償部で周波数特性補償しない電話帯域信号との差を求める減算部と、この減算部で得られた差分信号を符号化する符号化処理と、この符号化処理で得られた補償符号データをパケット信号として送出するパケット構築部とを具備したことを特徴とする音声符号化装置。   11. The voice encoding device according to claim 9, wherein a decoding unit that decodes encoded data of the telephone band voice signal, a telephone band signal decoded by the decoding unit, and a frequency characteristic by the frequency characteristic compensation unit. A subtractor for obtaining a difference from a non-compensated telephone band signal, an encoding process for encoding the difference signal obtained by the subtractor, and a packet for transmitting the compensation code data obtained by the encoding process as a packet signal A speech coding apparatus comprising: a construction unit. 着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データと、電話帯域の音声符号化データに分解するパケット分解部と、
これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化部と、
復号化処理された音声信号を合成し、広帯域信号を再生する合成部と、
を具備することを特徴とする音声復号化装置。
A packet decomposing unit for decomposing an incoming packet signal into wideband high-frequency side voice encoded data, medium-band high-frequency side audio encoded data, and telephone band voice-encoded data;
A decoding unit for decoding each of these audio encoded data into an audio signal;
A synthesis unit that synthesizes the decoded audio signal and reproduces the wideband signal;
A speech decoding apparatus comprising:
請求項13記載の音声復号化装置において、上記パケット分解部で補償符号データを抽出し、この補償符号データを復号処理し、復号処理した補償成分を上記電話帯域音声信号に加算する加算部を付加したことを特徴とする音声復号化装置。   14. The speech decoding apparatus according to claim 13, wherein an addition unit is provided for extracting compensation code data by the packet decomposition unit, decoding the compensation code data, and adding the decoded compensation component to the telephone band speech signal. A speech decoding apparatus characterized by that. 請求項13又は14記載の音声復号化装置の何れかにおいて、上記電話帯域符号化データを復号して得られた音声信号に利得補正を施す利得調整部を設けたことを特徴とする音声復号化装置。   15. The speech decoding apparatus according to claim 13, further comprising: a gain adjusting unit that performs gain correction on the speech signal obtained by decoding the telephone band encoded data. apparatus. コンピュータに請求項1乃至5記載の音声符号化方法の少なくとも一つを各処理ステップに従って実行させる音声符号化プログラム。   A speech encoding program for causing a computer to execute at least one of the speech encoding methods according to claim 1 according to each processing step. コンピュータに請求項6乃至8記載の音声復号化方法の少なくとも一つを各処理ステップに従って実行させる音声復号化プログラム。   A speech decoding program for causing a computer to execute at least one of the speech decoding methods according to claim 6 according to each processing step. コンピュータが読み取り可能な記録媒体で構成され、請求項16及び17記載の音声符号化プログラム、音声復号化プログラムの少なくとも一つを記録した記録媒体。

18. A recording medium comprising a computer-readable recording medium on which at least one of the voice encoding program and the voice decoding program according to claim 16 and 17 is recorded.

JP2003345608A 2003-10-03 2003-10-03 Method, device, and program for speech encoding and decoding, and recording medium where same is recorded Pending JP2005114814A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003345608A JP2005114814A (en) 2003-10-03 2003-10-03 Method, device, and program for speech encoding and decoding, and recording medium where same is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003345608A JP2005114814A (en) 2003-10-03 2003-10-03 Method, device, and program for speech encoding and decoding, and recording medium where same is recorded

Publications (1)

Publication Number Publication Date
JP2005114814A true JP2005114814A (en) 2005-04-28

Family

ID=34538826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003345608A Pending JP2005114814A (en) 2003-10-03 2003-10-03 Method, device, and program for speech encoding and decoding, and recording medium where same is recorded

Country Status (1)

Country Link
JP (1) JP2005114814A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005176367A (en) * 2003-12-07 2005-06-30 Lucent Technol Inc Frame intensive method
WO2009093466A1 (en) 2008-01-25 2009-07-30 Panasonic Corporation Encoding device, decoding device, and method thereof
JP2010506207A (en) * 2006-10-06 2010-02-25 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ Encoding method, decoding method, encoder, decoder, and computer program product
CN109863556A (en) * 2016-08-23 2019-06-07 弗劳恩霍夫应用研究促进协会 The device and method that audio signal is encoded for using offset
WO2022097242A1 (en) * 2020-11-05 2022-05-12 日本電信電話株式会社 Sound signal high frequency compensation method, sound signal post-processing method, sound signal decoding method, devices therefor, program, and recording medium
WO2022097240A1 (en) * 2020-11-05 2022-05-12 日本電信電話株式会社 Sound-signal high-frequency compensation method, sound-signal postprocessing method, sound signal decoding method, apparatus therefor, program, and recording medium

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005176367A (en) * 2003-12-07 2005-06-30 Lucent Technol Inc Frame intensive method
JP2010506207A (en) * 2006-10-06 2010-02-25 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ Encoding method, decoding method, encoder, decoder, and computer program product
WO2009093466A1 (en) 2008-01-25 2009-07-30 Panasonic Corporation Encoding device, decoding device, and method thereof
US8422569B2 (en) 2008-01-25 2013-04-16 Panasonic Corporation Encoding device, decoding device, and method thereof
CN109863556A (en) * 2016-08-23 2019-06-07 弗劳恩霍夫应用研究促进协会 The device and method that audio signal is encoded for using offset
CN109863556B (en) * 2016-08-23 2023-09-26 弗劳恩霍夫应用研究促进协会 Apparatus and method for encoding audio signal using compensation value
US11935549B2 (en) 2016-08-23 2024-03-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding an audio signal using an output interface for outputting a parameter calculated from a compensation value
WO2022097242A1 (en) * 2020-11-05 2022-05-12 日本電信電話株式会社 Sound signal high frequency compensation method, sound signal post-processing method, sound signal decoding method, devices therefor, program, and recording medium
WO2022097240A1 (en) * 2020-11-05 2022-05-12 日本電信電話株式会社 Sound-signal high-frequency compensation method, sound-signal postprocessing method, sound signal decoding method, apparatus therefor, program, and recording medium

Similar Documents

Publication Publication Date Title
JP4777918B2 (en) Audio processing apparatus and audio processing method
JP3881943B2 (en) Acoustic encoding apparatus and acoustic encoding method
JP4977472B2 (en) Scalable decoding device
EP1939862B1 (en) Encoding device, decoding device, and method thereof
US8738372B2 (en) Spectrum coding apparatus and decoding apparatus that respectively encodes and decodes a spectrum including a first band and a second band
US8195471B2 (en) Sampling rate conversion apparatus, coding apparatus, decoding apparatus and methods thereof
KR101303145B1 (en) A system for coding a hierarchical audio signal, a method for coding an audio signal, computer-readable medium and a hierarchical audio decoder
US8428959B2 (en) Audio packet loss concealment by transform interpolation
JP4864201B2 (en) System and method for masking quantization noise in speech signals
JP5301471B2 (en) Speech coding system and method
JP3881946B2 (en) Acoustic encoding apparatus and acoustic encoding method
JP7297367B2 (en) Frequency band extension method, apparatus, electronic device and computer program
US7467082B2 (en) Method and apparatus for transmitting wideband speech signals
WO2005027095A1 (en) Encoder apparatus and decoder apparatus
Bhatt et al. A novel approach for artificial bandwidth extension of speech signals by LPC technique over proposed GSM FR NB coder using high band feature extraction and various extension of excitation methods
JP2005114814A (en) Method, device, and program for speech encoding and decoding, and recording medium where same is recorded
JP2003110429A (en) Coding method and device, decoding method and device, transmission method and device, and storage medium
JP2010020333A (en) Scalable coder and scalable decoder
JP6713424B2 (en) Audio decoding device, audio decoding method, program, and recording medium
JP4004431B2 (en) Packet sending apparatus, index value calculation method and program for priority used in the same
Patel et al. Bandwidth Extension of Speech Signals Using Quadrature Mirror Filter (QMF)
JP3920796B2 (en) Digital signal packet output method, apparatus and program thereof
JPH11194799A (en) Music encoding device, music decoding device, music coding and decoding device, and program storage medium
Ghous et al. Modified Digital Filtering Algorithm to Enhance Perceptual Evaluation of Speech Quality (PESQ) of VoIP

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060411

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090908