JP5119716B2 - Speech coding apparatus, speech coding method, and program - Google Patents

Speech coding apparatus, speech coding method, and program Download PDF

Info

Publication number
JP5119716B2
JP5119716B2 JP2007098406A JP2007098406A JP5119716B2 JP 5119716 B2 JP5119716 B2 JP 5119716B2 JP 2007098406 A JP2007098406 A JP 2007098406A JP 2007098406 A JP2007098406 A JP 2007098406A JP 5119716 B2 JP5119716 B2 JP 5119716B2
Authority
JP
Japan
Prior art keywords
band
unit
residual
signal
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007098406A
Other languages
Japanese (ja)
Other versions
JP2008256912A (en
Inventor
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2007098406A priority Critical patent/JP5119716B2/en
Publication of JP2008256912A publication Critical patent/JP2008256912A/en
Application granted granted Critical
Publication of JP5119716B2 publication Critical patent/JP5119716B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve quality of reproduced speech, while maintaining simplicity of a device and a less transmission information amount, in an analysis-synthesis type speech encoding and decoding. <P>SOLUTION: A speech encoding device 1 makes an input speech signal subjected to predictive analysis, to be decomposed into a predictive coefficient and a residue signal. Information is compressed by the quantization of the predictive coefficient and a feature amount extraction of the residue signal. When the residue signal is pitch-like, for example, the predetermined number of markedly large samples for constituting the residue signal are selected, and only sufficient information for reproducing the samples is transmitted to a speech decoding device. As a result, while the speech decoding device restores the residue signal with high accuracy, information amount to be transmitted is reduced, and the quality of the reproduced speech is improved. <P>COPYRIGHT: (C)2009,JPO&amp;INPIT

Description

本発明は、分析合成型の音声圧縮復元を実行する際に必要となる、音声符号化装置音声符号化方法及び、プログラムに関する。 The present invention relates to a speech coding apparatus , a speech coding method , and a program that are required when executing analysis / synthesis speech compression / decompression.

移動体通信の分野においては、利用者の増加に対処するためや、端末機器を簡素化するためといった理由から、低ビットレートにて音声を効率的に圧縮符号化する方法が求められている。例えば、8kbpsの音声符号化方法として、ITU-T勧告G.729に示される音声符号化方法がある。該勧告に係る音声符号化方法は、基本的には、音声信号を予測分析により予測係数と残差信号とに分解してから送信する方法である。予測分析としては、例えば、線型予測分析や、MLSA(Mel Log Spectrum Approximation)分析(例えば、非特許文献1参照。)が知られている。   In the field of mobile communication, there is a need for a method for efficiently compressing and encoding speech at a low bit rate in order to cope with an increase in users and simplify terminal equipment. For example, as an 8 kbps speech coding method, there is a speech coding method shown in ITU-T recommendation G.729. The speech coding method according to the recommendation is basically a method of transmitting a speech signal after decomposing it into a prediction coefficient and a residual signal by predictive analysis. As prediction analysis, for example, linear prediction analysis and MLSA (Mel Log Spectrum Approximation) analysis (for example, refer to Non-Patent Document 1) are known.

今井聖著、「音声信号処理」、POD版、森北出版株式会社、2005年4月、p.169−200Sei Imai, “Audio Signal Processing”, POD version, Morikita Publishing Co., Ltd., April 2005, p. 169-200

分析合成型の符号化及び復号において上述の低ビットレート通信を可能にするためには、音声符号化装置側から音声復号装置側へ、予測係数と残差信号とに関する情報を、いかに効率的に伝達するか、に、工夫が必要となる。   In order to enable the above-described low bit rate communication in the analysis and synthesis type encoding and decoding, information on prediction coefficients and residual signals is efficiently transmitted from the speech encoding device side to the speech decoding device side. Ingenuity is required to communicate.

上述のITU-T勧告G.729に示される音声符号化方法は、かかる工夫のひとつである。確かにこれは、音声符号化装置のユーザの発話内容を、音声復号装置が、そのユーザが理解できる程度の音質で再生することを可能にする。しかし、今日、移動体通信に求められる音質は、単に発話内容が伝達され得る音質にとどまらず、例えば外国語学習のための正確な発音を伝達する用途にも耐え得る等、いっそう高い音質であることが求められている。   The speech encoding method shown in the above-mentioned ITU-T recommendation G.729 is one of such devices. Certainly, this enables the speech decoding device to reproduce the speech content of the speech coding device user with a sound quality that the user can understand. However, today, the sound quality required for mobile communication is not limited to the quality of speech that can be transmitted, but it can withstand the use of transmitting accurate pronunciation for foreign language learning, for example. It is demanded.

なお、送信機である音声符号化装置により生成された残差信号は、受信機である音声復号装置においては音声再生のための励起信号として使われる。つまり、残差信号という用語と励起信号という用語とは、局面によって使い分けがなされるに過ぎず、実体としては同じものを指す。よって、以下では、両用語の区別に拘泥しない場合がある。   Note that the residual signal generated by the speech encoding device that is a transmitter is used as an excitation signal for speech reproduction in the speech decoding device that is a receiver. In other words, the term “residual signal” and the term “excitation signal” are used differently depending on the situation, and are the same in substance. Therefore, in the following, there is a case where the distinction between both terms is not limited.

本発明は、上記実情に鑑みてなされたもので、音声圧縮復元技術において、音声符号化装置及び音声復号装置の簡素さと、ビットレートの低さと、を、従来なみに維持しつつも、さらなる高音質を図ることを目指す。   The present invention has been made in view of the above circumstances, and in the audio compression / decompression technique, the simplicity of the audio encoding device and the audio decoding device and the low bit rate are maintained at the same level as in the prior art. Aim to improve sound quality.

そのために、残差信号を帯域別に扱いつつ残差信号の強度として適切な値を音声符号化装置が求めて音声復号装置に伝達することと、特に励起用の信号がピッチ的な性質を有する場合には、ピッチ長を特徴付ける残差信号標本とともに顕著な大きさを有する他の残差信号標本を選びとり、それらの標本の強度等を伝達することと、により、装置の簡素さ、低ビットレート通信、及び、高音質再生、を同時に達成することのできる、音声符号化装置音声符号化方法及び、プログラムを提供することを目的とする。 Therefore, when the residual signal is handled for each band, the speech encoding device obtains an appropriate value as the strength of the residual signal and transmits it to the speech decoding device, and particularly when the excitation signal has a pitch characteristic In addition to the residual signal samples that characterize the pitch length, other residual signal samples having a significant size are selected and the intensity of those samples is transmitted, thereby simplifying the device and reducing the bit rate. An object of the present invention is to provide a speech coding apparatus , speech coding method , and program capable of simultaneously achieving communication and high-quality sound reproduction.

この発明に係る音声符号化装置は、
音声信号を予測係数と残差標本の時系列である残差信号とに分解する予測分析部と、
前記残差信号からピッチ長を抽出するピッチ長抽出部と、
前記残差標本のうち最大の絶対値を有する残差標本である基準残差標本を特定し、該基準残差標本の絶対値である残差標本最大絶対値を求め、該基準残差標本に対応する時刻を始点とする前記ピッチ長1個に相当する時間帯を所定の個数の区分時間帯に分割し、該区分時間帯毎に残差標本の平均値を前記残差標本最大絶対値により除した値である区分時間別残差標本強度比率を求める特徴量抽出部と、
前記予測係数と前記ピッチ長と前記区分時間別残差標本強度比率とを符号化する符号化部と、
を備える。
The speech coding apparatus according to the present invention is:
A prediction analysis unit that decomposes a speech signal into a prediction signal and a residual signal that is a time series of residual samples;
A pitch length extraction unit for extracting a pitch length from the residual signal;
A reference residual sample that is a residual sample having the largest absolute value among the residual samples is identified, a residual sample maximum absolute value that is an absolute value of the reference residual sample is obtained, and the reference residual sample is obtained. A time zone corresponding to one pitch length starting from the corresponding time is divided into a predetermined number of segment time zones, and an average value of residual samples is determined by the residual sample maximum absolute value for each segment time zone. A feature amount extraction unit for obtaining a residual sample strength ratio by segment time, which is a value obtained by dividing,
An encoding unit that encodes the prediction coefficient, the pitch length, and the segmented time residual sample intensity ratio;
Is provided.

本発明によれば、分析合成型の音声信号通信において、装置の簡素さ、低ビットレート通信、及び、高音質再生、を同時に達成することができる。   According to the present invention, in the analysis and synthesis type audio signal communication, it is possible to simultaneously achieve the simplicity of the apparatus, the low bit rate communication, and the high sound quality reproduction.

以下では、本発明の実施の形態について説明する。実施形態を順次記述するにあたっては、原則として、同一の部材については同一の符号を付すこととし、また、その説明は省略することがある。   Hereinafter, embodiments of the present invention will be described. In describing the embodiments sequentially, in principle, the same members are denoted by the same reference numerals, and the description thereof may be omitted.

(実施形態1)
図1は、本発明の実施形態1に係る音声符号化装置1の機能構成図である。
(Embodiment 1)
FIG. 1 is a functional configuration diagram of a speech encoding apparatus 1 according to Embodiment 1 of the present invention.

音声符号化装置1は、図示するように、マイクロフォン11と、A/D変換部13と、予測分析部15と、ベクトル正規化部19と、スカラー量子化部21と、ベクトル量子化部23と、合成フィルタ算出部25と、疑似合成フィルタ部27と、残差信号特徴量抽出部29と、残差信号復元試行部31と、修正因子決定部33と、符号化部35と、送信部37と、を備える。   As shown in the figure, the speech encoding apparatus 1 includes a microphone 11, an A / D conversion unit 13, a prediction analysis unit 15, a vector normalization unit 19, a scalar quantization unit 21, and a vector quantization unit 23. The synthesis filter calculation unit 25, the pseudo synthesis filter unit 27, the residual signal feature amount extraction unit 29, the residual signal restoration trial unit 31, the correction factor determination unit 33, the encoding unit 35, and the transmission unit 37 And comprising.

予測分析部15は、予測分析用逆フィルタ算出器17を内蔵している。   The prediction analysis unit 15 includes a prediction analysis inverse filter calculator 17.

マイクロフォン11に入力されたアナログ入力音声信号は、A/D変換部13により、例えば16kHzサンプリングにより、デジタル入力音声信号に変換されてから、予測分析部15に引き渡される。該デジタル入力信号は、以後、後述の同一メインフレームの中において添字jで識別されるサブフレームという時間長12〜20ms程度の時間区間と、連続したZ個のサブフレームから構成され添字iで識別されるメインフレームという時間区間と、に分けて扱われる。例えばZ=4とするのが好適である。そして、ひとかたまりのデジタル入力信号は、M個のメインフレームから構成されているものとする。   The analog input audio signal input to the microphone 11 is converted into a digital input audio signal by the A / D conversion unit 13 by, for example, 16 kHz sampling, and then delivered to the prediction analysis unit 15. This digital input signal is composed of a time interval of about 12 to 20 ms, which is a subframe identified by the subscript j in the same main frame described later, and a continuous Z number of subframes, and is identified by the subscript i. It is divided into a time section called a main frame. For example, Z = 4 is preferable. A group of digital input signals is assumed to be composed of M main frames.

ここで、ひとかたまりのデジタル入力信号とは、以下の説明において、一括的に処理されることが想定される時間長に対応した信号を指す。該時間長は固定長であっても可変長であってもかまわない。換言するとMは固定値でも可変値でもかまわない。該時間長は、後述の音声復号装置2が備える後述の記憶部315の記憶容量が許すならば、例えば、音声符号化装置1のユーザが一息で話す時間に合わせてもよい。   Here, a group of digital input signals refers to a signal corresponding to a time length assumed to be collectively processed in the following description. The time length may be fixed or variable. In other words, M may be a fixed value or a variable value. If the storage capacity of a later-described storage unit 315 included in the later-described speech decoding apparatus 2 allows, the time length may be adjusted to, for example, the time when the user of the speech encoding apparatus 1 speaks at a breath.

しかし、該時間長に基づき一括的な信号処理がなされることから、該時間長は、音声符号化装置1から後述の音声復号装置2への通信に際しての最小時間単位に相当する。すなわち、該時間長は、理想的なリアルタイム通話からの遅延時間の下限を決定する。音声符号化装置1のユーザと後述の音声復号装置2のユーザとにとっては、できるだけリアルタイム通話に近い通話が可能となるような通信が可能となる方が、使い勝手の観点からは望ましいと考えられるので、その点では、後述のCPU311や無線通信部317等が動作するに際して過剰な負荷がかかることによりかえって処理速度を低下させてしまわない限度で、該時間長を短くしてもよい。   However, since the batch signal processing is performed based on the time length, the time length corresponds to the minimum time unit for communication from the speech encoding device 1 to the speech decoding device 2 described later. That is, the time length determines the lower limit of the delay time from an ideal real-time call. For the user of the speech encoding device 1 and the user of the speech decoding device 2 described later, it is considered that it is desirable from the viewpoint of usability that it is possible to communicate so as to make a call as close as possible to a real-time call. In that respect, the time length may be shortened as long as the CPU 311 and the wireless communication unit 317, which will be described later, operate, and an excessive load is applied to the processing speed.

このように、メインフレームは、理解の便宜上の一括処理の単位という意義を有する。ただし、メインフレームは、他に、より本質的な意義として、後述するように、ベクトル量子化を行うための単位であるという意義を有する。   As described above, the main frame has a meaning as a unit of batch processing for convenience of understanding. However, the main frame has a meaning that it is a unit for performing vector quantization as will be described later.

以下で扱われるデジタル入力信号は、サブフレーム単位では、時間順に、S0、0、・・・、S0、j、・・・、S0、Z-1、S1、0、・・・、Si-1、Z-1、Si、0、・・・、Si、j、・・・Si、Z-1、Si+1、0、・・・、SM-2、Z-1、SM-1、0、・・・、SM-1、Z-1のように、0≦i≦M-1、0≦j≦Z-1、の添字i、jによって表すことにする。 The digital input signals handled in the following are S 0 , 0 ,..., S 0, j ,..., S 0, Z−1 , S 1 , 0,. , S i-1, Z-1 , S i, 0 , ..., S i, j , ... S i, Z-1 , S i + 1 , 0 , ..., S M-2, Z−1 , S M−1 , 0 ,..., S M−1, Z−1 , etc. are represented by subscripts i and j of 0 ≦ i ≦ M−1 and 0 ≦ j ≦ Z−1. I will decide.

各サブフレームには、サンプルがL個ずつ含まれているとし、iとjとで識別されるサブフレームにおけるサンプルを、時間順に、Si、j={si、j、0、・・・、si、j、t、・・・、si、j、L-1}(0≦t≦L-1)のように表すことにする。 Assume that each subframe includes L samples, and samples in the subframe identified by i and j are expressed in time order as S i, j = {s i, j, 0 ,. , S i, j, t ,..., S i, j, L-1 } (0 ≦ t ≦ L−1).

本実施形態においては、発明の理解を容易にするために、通信処理を含めた各種処理の方式として上述のようなひとかたまりの信号に対する一括処理という態様を想定するが、当然のことながら、任意の既知の信号処理方式や通信方式、例えばある処理は一括処理とし別の処理はより細切れの情報単位での処理とする等の方式を採用してもよい。   In the present embodiment, in order to facilitate understanding of the invention, a mode of batch processing for a group of signals as described above is assumed as a method of various processing including communication processing. A known signal processing method or communication method, for example, a method in which some processing is batch processing and another processing is processing in units of smaller information may be adopted.

予測分析部15は、引き渡されたデジタル音声信号に、N次の予測分析、好ましくはやMLSA(Mel Log Spectrum Approximation)分析、を施す。そしてその結果、予測分析部15は、該デジタル音声信号を、サブフレーム毎に、予測係数と残差信号とに分解する。該分解は、実際には、まず予測分析部15が各サブフレームについてMLSA係数等の予測係数を算出し、次に、該予測係数から、予測分析用逆フィルタ算出器17が、予測分析用逆フィルタ(図示せず。)を求め、デジタル音声信号が該予測分析用逆フィルタに入力された結果として、残差信号が求まる。   The prediction analysis unit 15 performs Nth-order prediction analysis, preferably MLSA (Mel Log Spectrum Approximation) analysis, on the delivered digital audio signal. As a result, the prediction analysis unit 15 decomposes the digital audio signal into a prediction coefficient and a residual signal for each subframe. In actuality, the prediction analysis unit 15 first calculates a prediction coefficient such as an MLSA coefficient for each subframe, and then the prediction analysis inverse filter calculator 17 uses the prediction analysis inverse filter calculator 17 based on the prediction coefficient. A filter (not shown) is obtained, and a residual signal is obtained as a result of the digital audio signal being input to the prediction analysis inverse filter.

iとjとで識別されるサブフレームにおける予測係数は、次数の昇順に、Ci、j={ci、j、0、・・・、ci、j、k、・・・、ci、j、N-1}(0≦k≦N-1)のように表すことにする。 The prediction coefficients in the subframes identified by i and j are C i, j = {c i, j, 0 ,..., c i, j, k ,. , J, N−1 } (0 ≦ k ≦ N−1).

Nは予測分析の次数であり、上述のようにサンプリングレートとして16kHzサンプリングを採用した場合には、15乃至20とすることが好適である。   N is the order of the predictive analysis. When 16 kHz sampling is employed as the sampling rate as described above, N is preferably 15 to 20.

iとjとで識別されるサブフレームにおける残差信号は、時間順に、Di、j={di、j、0、・・・、di、j、t、・・・、di、j、L-1}(0≦t≦L-1)のように表すことにする。 The residual signals in the subframes identified by i and j are, in chronological order, D i, j = {d i, j, 0 , ..., d i, j, t , ..., d i, j, L-1 } (0 ≦ t ≦ L−1).

なお、このように、予測係数も残差信号も、特定のサブフレームに属するものとして表記するが、実際に予測分析部15が行う予測分析の計算のための時間区間は、サブフレームよりも長くてもさしつかえない。あるサブフレームに属するものとして表記される予測係数及び残差信号は、あくまでも、該サブフレームを代表する予測係数及び残差信号であればよい。   As described above, both the prediction coefficient and the residual signal are described as belonging to a specific subframe, but the time interval for the prediction analysis calculation actually performed by the prediction analysis unit 15 is longer than the subframe. It doesn't matter. The prediction coefficient and residual signal described as belonging to a certain subframe may be any prediction coefficient and residual signal representative of the subframe.

例えば、あるサブフレームにおける予測分析のために、該サブフレームに対応する時間帯に実際に含まれる信号サンプルデータに加えて、計算上、時系列においてひとつ前のサブフレームの後半に対応する時間帯に実際に含まれる信号サンプルデータと、ひとつ後のサブフレームの前半に対応する時間帯に実際に含まれる信号サンプルデータと、をも用いてもよい。   For example, for prediction analysis in a subframe, in addition to the signal sample data actually included in the time zone corresponding to the subframe, the time zone corresponding to the second half of the previous subframe in the time series is calculated. Alternatively, signal sample data actually included in the signal and signal sample data actually included in the time zone corresponding to the first half of the next subframe may be used.

予測分析部15により算出された予測係数は、そのままベクトル正規化部19に引き渡される。   The prediction coefficient calculated by the prediction analysis unit 15 is transferred to the vector normalization unit 19 as it is.

ベクトル正規化部19は、後にフローチャートを参照して詳しく説明するように、予測係数をメインフレーム毎かつ次数毎にまとめることにより、係数ベクトルを生成する。続いて、該係数ベクトルを、正規化する。ベクトル正規化部19は、続いて、正規化のために用いたスカラーである係数ベクトル最大絶対値をスカラー量子化部21に、正規化の結果得られたベクトルである正規化ベクトルをベクトル量子化部23に、それぞれ引き渡す。   The vector normalization part 19 produces | generates a coefficient vector by putting together a prediction coefficient for every main frame and every order so that it may explain in detail with reference to a flowchart later. Subsequently, the coefficient vector is normalized. Subsequently, the vector normalization unit 19 vector-quantizes the coefficient vector maximum absolute value, which is a scalar used for normalization, to the scalar quantization unit 21 and normalizes the normalized vector, which is a vector obtained as a result of normalization. Delivered to the unit 23.

スカラー量子化部21は、引き渡された係数ベクトル最大絶対値をスカラー量子化することによりスカラー量子化係数ベクトル最大絶対値を求め、合成フィルタ算出部25と、符号化部35と、に引き渡す。   The scalar quantization unit 21 obtains a scalar quantized coefficient vector maximum absolute value by performing scalar quantization on the delivered coefficient vector maximum absolute value, and passes it to the synthesis filter calculating unit 25 and the encoding unit 35.

ベクトル量子化部23は、引き渡された正規化係数ベクトルをベクトル量子化することによりベクトル量子化正規化係数ベクトルを求め、合成フィルタ算出部25と、符号化部35と、に引き渡す。   The vector quantization unit 23 obtains a vector quantization normalized coefficient vector by vector quantization of the delivered normalization coefficient vector, and delivers it to the synthesis filter calculation unit 25 and the encoding unit 35.

合成フィルタ算出部25は、スカラー量子化部21から引き渡されたスカラー量子化係数ベクトル最大絶対値を逆スカラー量子化した値を、ベクトル量子化部23から引き渡されたベクトル量子化正規化係数ベクトルを逆ベクトル量子化したベクトルに乗じることにより、逆量子化係数ベクトルを生成する。合成フィルタ算出部25は、続いて、逆量子化係数ベクトルの成分を取り出して疑似予測係数を生成し、該疑似予測係数により、疑似合成フィルタ部27の合成フィルタとしての仕様を定義する。   The synthesis filter calculation unit 25 performs inverse scalar quantization on the scalar quantization coefficient vector maximum absolute value delivered from the scalar quantization unit 21, and the vector quantization normalized coefficient vector delivered from the vector quantization unit 23. An inverse quantization coefficient vector is generated by multiplying the inverse vector quantized vector. Subsequently, the synthesis filter calculation unit 25 extracts a dequantized coefficient vector component to generate a pseudo prediction coefficient, and defines a specification as a synthesis filter of the pseudo synthesis filter unit 27 based on the pseudo prediction coefficient.

予測分析部15により求められた残差信号は、残差信号特徴量抽出部29に引き渡される。   The residual signal obtained by the prediction analysis unit 15 is delivered to the residual signal feature amount extraction unit 29.

残差信号特徴量抽出部29は、引き渡された残差信号から、該残差信号を特徴付ける量である特徴量を抽出し、符号化部35と残差信号復元試行部31とに引き渡す。なお、残差信号特徴量抽出部29の詳細については、後に図面を改めて説明する。   The residual signal feature quantity extraction unit 29 extracts a feature quantity, which is a quantity that characterizes the residual signal, from the delivered residual signal, and delivers it to the encoding unit 35 and the residual signal restoration trial unit 31. The details of the residual signal feature quantity extraction unit 29 will be described later.

残差信号復元試行部31は、特徴量を残差信号特徴量抽出部29から取得するとともに、予測分析部15が算出した予測係数の一部をも取得した上で、特徴量を手がかりに、予測分析部15が求めた残差信号にできる限り近い信号を、試行用励起信号として生成する。生成された試行用励起信号は、疑似合成フィルタ部27への入力信号となる。なお、残差信号復元試行部31の詳細については、後に図面を改めて説明する。   The residual signal restoration trial unit 31 acquires the feature amount from the residual signal feature amount extraction unit 29 and also acquires a part of the prediction coefficient calculated by the prediction analysis unit 15, and then uses the feature amount as a clue. A signal as close as possible to the residual signal obtained by the prediction analysis unit 15 is generated as a trial excitation signal. The generated trial excitation signal becomes an input signal to the pseudo synthesis filter unit 27. Details of the residual signal restoration trial unit 31 will be described later.

疑似合成フィルタ部27は、合成フィルタ算出部25が生成した疑似予測係数により定義された後、残差信号復元試行部31が生成した試行用励起信号が入力されることにより、試行用再生音声信号を生成する。   The pseudo synthesis filter unit 27 is defined by the pseudo prediction coefficient generated by the synthesis filter calculation unit 25, and then receives the trial excitation signal generated by the residual signal restoration trial unit 31. Is generated.

修正因子決定部33には、修正方針を決定するための基礎データとして、疑似合成フィルタ部27が生成した試行用再生音声信号と、A/D変換部13が求めたデジタル入力音声信号と、が提供される。修正因子決定部33は、該試行用再生音声信号と該デジタル入力音声信号とを比較して、修正方針を決定する。該修正方針は、本実施形態の場合は、信号強度に関する修正方針であるので、以下では、かかる修正方針全般又は具体的な信号強度値を指して、単に修正強度と呼ぶことにする。修正因子決定部33は、決定した修正強度を、符号化部35に引き渡す。   The correction factor determination unit 33 includes, as basic data for determining a correction policy, a trial reproduction audio signal generated by the pseudo synthesis filter unit 27 and a digital input audio signal obtained by the A / D conversion unit 13. Provided. The correction factor determination unit 33 compares the trial reproduction audio signal and the digital input audio signal to determine a correction policy. In the case of this embodiment, the correction policy is a correction policy related to signal strength. Therefore, in the following, the correction policy is generally referred to as a correction strength, or a specific signal strength value. The correction factor determination unit 33 passes the determined correction strength to the encoding unit 35.

符号化部35は、スカラー量子化部21からスカラー量子化係数ベクトル最大絶対値を、ベクトル量子化部23からベクトル量子化正規化係数ベクトルを、残差信号特徴量抽出部29から特徴量を、修正因子決定部33から修正強度を、それぞれ受け取り、これらをまとめて、任意の既知の手法により符号化し、かかる符号化により得られた符号を、送信部37に引き渡す。   The encoding unit 35 receives the scalar quantization coefficient vector maximum absolute value from the scalar quantization unit 21, the vector quantization normalized coefficient vector from the vector quantization unit 23, the feature amount from the residual signal feature amount extraction unit 29, The correction strengths are received from the correction factor determination unit 33, and are collectively encoded by any known method, and the code obtained by the encoding is delivered to the transmission unit 37.

送信部37は、符号化部35から引き渡された符号を、後述の音声復号装置2に向けて、送信する。送信方法は、本実施形態においては、無線通信によるものとするが、他の、有線や、有線と無線の併用など、様々な通信方法によるものであってもよい。   The transmission unit 37 transmits the code delivered from the encoding unit 35 to the speech decoding apparatus 2 described later. In this embodiment, the transmission method is based on wireless communication. However, the transmission method may be based on various other communication methods such as wired or a combination of wired and wireless.

図2は、本実施形態に係る音声復号装置2の機能構成図である。   FIG. 2 is a functional configuration diagram of the speech decoding apparatus 2 according to the present embodiment.

音声復号装置2は、図示するように、受信部61と、復号部63と、残差信号復元部65と、D/A変換部67と、スピーカ69と、を備える。   The audio decoding device 2 includes a receiving unit 61, a decoding unit 63, a residual signal restoration unit 65, a D / A conversion unit 67, and a speaker 69, as illustrated.

音声復号装置2は、図中で太枠で示されているとおり、合成フィルタ算出部25と、疑似合成フィルタ部27と、をさらに備える。これら、合成フィルタ算出部25及び疑似合成フィルタ部27は、それぞれ、音声符号化装置1における、図1の中で太線で示されている合成フィルタ算出部25及び疑似合成フィルタ部27と同じものである。   The speech decoding apparatus 2 further includes a synthesis filter calculation unit 25 and a pseudo synthesis filter unit 27 as indicated by a thick frame in the drawing. The synthesis filter calculation unit 25 and the pseudo synthesis filter unit 27 are the same as the synthesis filter calculation unit 25 and the pseudo synthesis filter unit 27 indicated by bold lines in FIG. is there.

図2に示す音声復号装置2の受信部61は、図1に示す音声符号化装置1の送信部37から送信される、スカラー量子化係数ベクトル最大絶対値とベクトル量子化正規化係数ベクトルと特徴量と修正強度とが符号化されたものである符号を受け取り、図2に示す復号部63に引き渡す。   The receiving unit 61 of the speech decoding device 2 shown in FIG. 2 has a scalar quantization coefficient vector maximum absolute value, a vector quantization normalization coefficient vector, and features transmitted from the transmitting unit 37 of the speech encoding device 1 shown in FIG. A code in which the amount and the correction strength are encoded is received and delivered to the decoding unit 63 shown in FIG.

復号部63は、受信部から引き渡された符号を、音声符号化装置3の符号化部35で用いられた符号化方法に対応する復号方法により復号することにより、スカラー量子化係数ベクトル最大絶対値とベクトル量子化正規化係数ベクトルと特徴量と修正強度とを生成する。復号部63は、これらのうち、スカラー量子化係数ベクトル最大絶対値とベクトル量子化正規化係数ベクトルとを合成フィルタ算出部25に引き渡し、特徴量と修正強度とを残差信号復元部65に引き渡す。   The decoding unit 63 decodes the code delivered from the reception unit by a decoding method corresponding to the encoding method used by the encoding unit 35 of the speech encoding device 3, thereby allowing the scalar quantization coefficient vector maximum absolute value to be decoded. A vector quantization normalization coefficient vector, a feature amount, and a correction strength are generated. Among these, the decoding unit 63 passes the scalar quantization coefficient vector maximum absolute value and the vector quantization normalized coefficient vector to the synthesis filter calculation unit 25, and delivers the feature amount and the correction strength to the residual signal restoration unit 65. .

合成フィルタ算出部25は、復号部63から引き渡されたスカラー量子化係数ベクトル最大絶対値を逆スカラー量子化した値を、同じく復号部63から引き渡されたベクトル量子化正規化係数ベクトルを逆ベクトル量子化したベクトルに乗じることにより、逆量子化係数ベクトルを生成する。合成フィルタ算出部25は、続いて、逆量子化係数ベクトルの成分を取り出して疑似予測係数を生成し、該疑似予測係数により、疑似合成フィルタ部27の合成フィルタとしての仕様を定義する。   The synthesis filter calculation unit 25 performs inverse scalar quantization on the scalar quantization coefficient vector maximum absolute value delivered from the decoding unit 63, and the vector quantization normalized coefficient vector delivered from the decoding unit 63 as an inverse vector quantum. An inverse quantized coefficient vector is generated by multiplying the converted vector. Subsequently, the synthesis filter calculation unit 25 extracts a dequantized coefficient vector component to generate a pseudo prediction coefficient, and defines a specification as a synthesis filter of the pseudo synthesis filter unit 27 based on the pseudo prediction coefficient.

残差信号復元部65は、特徴量と修正強度とを復号部63から取得するとともに、特徴量を手がかりに、該修正強度を加味しつつ、音声符号化装置1の予測分析部15が求めた残差信号に近い信号であることが期待される信号を、復号用励起信号として生成する。生成された復号用励起信号は、疑似合成フィルタ部27への入力信号となる。なお、残差信号復元部65は、音声符号化装置1の残差信号復元試行部31に似た動作を行う。この点については、後に、残差信号復元試行部31の詳細とともに説明する。   The residual signal restoration unit 65 obtains the feature amount and the correction strength from the decoding unit 63, and the prediction analysis unit 15 of the speech coding apparatus 1 obtains the feature amount as a clue while adding the correction strength. A signal expected to be a signal close to the residual signal is generated as a decoding excitation signal. The generated decoding excitation signal becomes an input signal to the pseudo synthesis filter unit 27. The residual signal restoration unit 65 performs an operation similar to the residual signal restoration trial unit 31 of the speech encoding apparatus 1. This point will be described later together with details of the residual signal restoration trial unit 31.

疑似合成フィルタ部27は、合成フィルタ算出部25が生成した疑似予測係数により定義された後、残差信号復元部65が生成した復号用励起信号が入力されることにより、デジタル再生音声信号を生成する。   The pseudo synthesis filter unit 27 generates a digital reproduction audio signal by being input with the decoding excitation signal generated by the residual signal restoration unit 65 after being defined by the pseudo prediction coefficient generated by the synthesis filter calculation unit 25 To do.

デジタル再生音声信号はD/A変換部67によりアナログ再生音声信号に変換された後、スピーカ69に送られる。こうして、スピーカ69からは、復元された音声信号が、人間の耳に聞こえる態様にて発せられる。   The digital playback audio signal is converted into an analog playback audio signal by the D / A converter 67 and then sent to the speaker 69. Thus, the restored audio signal is emitted from the speaker 69 in a manner that can be heard by the human ear.

図3は、図1の音声符号化装置1の残差信号特徴量抽出部29の詳細な機能構成を示す図である。   FIG. 3 is a diagram showing a detailed functional configuration of the residual signal feature amount extraction unit 29 of the speech encoding device 1 of FIG.

残差信号特徴量抽出部29は、引き渡された各サブフレームの残差信号Di、j={di、j、0、・・・、di、j、L-1}を、内蔵の総合ピッチ判別部3と、帯域フィルタ部115と、標本選択部141と、原則的にはピッチ抽出部113と、に引き渡す。ただし、ピッチ抽出部113にはピッチ抽出用スイッチ部111が前置されているため、ピッチ抽出部113に対しては、残差信号Di、jが引き渡されるとは限らない。 The residual signal feature quantity extraction unit 29 incorporates the residual signals D i, j = {d i, j, 0 ,..., D i, j, L-1 } of each delivered subframe. It is handed over to the total pitch discriminating unit 3, the band filter unit 115, the sample selecting unit 141, and in principle the pitch extracting unit 113. However, since the pitch extraction switch unit 111 is placed in front of the pitch extraction unit 113, the residual signals D i, j are not necessarily delivered to the pitch extraction unit 113.

総合ピッチ判別部3は、残差信号Di、jからピッチを抽出することができるか否かを判別する。該判別には任意の既知の手法を用いてよい。例えば、残差信号Di、jについて、規格化された自己相関関数
CREG(τ)=C(τ)/REG(τ)
(ただし、
C(τ)=di、j、0×di、j、τ+・・・
+di、j、L-1-τ×di、j、L-1
であり、
REG(τ)={(di、j、0 2+・・・+di、j、L-1-τ 2)
×(di、j、τ 2+・・・+di、j、L-1 2)}0.5
である。)
を計算し、CREG(τ)が例えば0.5よりも大きい極大値を有する場合はピッチを抽出することができると判別し、CREG(τ)が0.5よりも大きい極大値を有しない場合はピッチを抽出することができないと判別する。
The total pitch determination unit 3 determines whether or not the pitch can be extracted from the residual signals Di, j . Any known method may be used for the determination. For example, the normalized autocorrelation function for the residual signal D i, j
C REG (τ) = C (τ) / REG (τ)
(However,
C (τ) = d i, j, 0 × d i, j, τ + ...
+ d i, j, L-1-τ × d i, j, L-1
And
REG (τ) = {(d i, j, 0 2 + ... + d i, j, L-1-τ 2 )
× (d i, j, τ 2 + ... + d i, j, L-1 2 )} 0.5
It is. )
If C REG (τ) has a maximum value greater than 0.5, for example, it is determined that the pitch can be extracted, and if C REG (τ) does not have a maximum value greater than 0.5, the pitch It is determined that cannot be extracted.

総合ピッチ判別部3は、残差信号Di、jからピッチを抽出することができると判別した場合は、ピッチ抽出用スイッチ部111に対して、スイッチを閉じるよう、指令を送る。該指令を受けたピッチ抽出用スイッチ部111はスイッチを閉じて、残差信号Di、jがピッチ抽出部113に送られるようにする。 When it is determined that the pitch can be extracted from the residual signals Di, j , the overall pitch determination unit 3 sends a command to the pitch extraction switch unit 111 to close the switch. Upon receiving the command, the pitch extraction switch unit 111 closes the switch so that the residual signals D i, j are sent to the pitch extraction unit 113.

一方、総合ピッチ判別部3は、残差信号Di、jからピッチを抽出することができないと判別した場合は、ピッチ抽出用スイッチ部111に対して、スイッチを開くよう、指令を送る。該指令を受けたピッチ抽出用スイッチ部111はスイッチを開いて、残差信号Di、jがピッチ抽出部113に送られないようにする。 On the other hand, when it is determined that the pitch cannot be extracted from the residual signals Di, j , the overall pitch determination unit 3 sends a command to the pitch extraction switch unit 111 to open the switch. Upon receiving the command, the pitch extraction switch unit 111 opens the switch so that the residual signals D i, j are not sent to the pitch extraction unit 113.

ピッチ抽出部113は、残差信号Di、jが送られてきた場合には、該残差信号Di、jのピッチ長Pi、jを求める。ピッチ抽出部113に残差信号が送られてきたということは、ピッチ抽出用スイッチ部111のスイッチの開閉を指示する総合ピッチ判別部5が、該残差信号からピッチを抽出することができると判別したということである。したがって、ピッチ抽出部113は、送られてきた残差信号のピッチ長を求めることができるはずである。一方、ピッチ抽出部113は、残差信号Di、jが送られてこなかった場合には、何もしない。 Pitch extraction unit 113, the residual signal D i, if j is sent, said residue difference signal D i, the pitch length of the j P i, obtaining the j. The fact that the residual signal has been sent to the pitch extracting unit 113 means that the total pitch discriminating unit 5 that instructs opening / closing of the switch of the pitch extracting switch unit 111 can extract the pitch from the residual signal. It means that it has been determined. Therefore, the pitch extraction unit 113 should be able to obtain the pitch length of the transmitted residual signal. On the other hand, the pitch extraction unit 113 does nothing if the residual signal Di, j has not been sent.

ピッチ抽出部113が残差信号Di、jのピッチ長Pi、jを求めるためには、任意の既知の手法を用いてよい。もっとも、総合ピッチ判別部3が上述の規格化された自己相関関数CREG(τ)を用いてピッチを抽出することができるか否かを判別した場合には、該判別の過程でCREG(τ)の所定の極大値を与えるτの値が副産物として容易に求まる。かつ、かかるτの値は、CREG(τ)の定義に鑑みれば、ピッチ長の値に相当すると考えられる。よって、ピッチ抽出部113は、総合ピッチ判別部5からかかるτの値を取得し、それをそのままピッチ長Pi、jとするのが簡易である。 In order for the pitch extraction unit 113 to obtain the pitch lengths P i, j of the residual signals D i, j , any known method may be used. However, when the overall pitch discriminating unit 3 discriminates whether or not the pitch can be extracted using the above-mentioned standardized autocorrelation function C REG (τ), C REG ( The value of τ that gives a predetermined maximum value of τ) is easily obtained as a by-product. Further, in view of the definition of C REG (τ), the value of τ is considered to correspond to the value of the pitch length. Therefore, it is easy for the pitch extraction unit 113 to acquire the value of τ from the total pitch determination unit 5 and use it as the pitch length P i, j as it is.

ピッチ抽出部113は、ピッチ長を求めた場合には、該ピッチ長を帯域別強度決定部131と標本選択部141とに引き渡す。   When the pitch extraction unit 113 determines the pitch length, the pitch extraction unit 113 passes the pitch length to the band-specific intensity determination unit 131 and the sample selection unit 141.

帯域フィルタ部115は、内蔵の第1帯域フィルタ117、第2帯域フィルタ119、第3帯域フィルタ121、・・・を用いて、各サブフレームの残差信号Di、jを、帯域毎の残差信号に分割する。帯域フィルタ部115は、例えば、残差信号を帯域1乃至8に分割し、帯域1を0〜1kHz、帯域2を1〜2kHz、帯域3を2〜3kHz、帯域4を3〜4kHz、帯域5を4〜5kHz、帯域6を5kHz〜6kHz、帯域7を6kHz〜7kHz、帯域8を7kHz〜8kHz、とするのが好適である。 The band filter unit 115 uses the built-in first band filter 117, second band filter 119, third band filter 121,... To convert the residual signal D i, j of each subframe to the remaining band for each band. Divide into difference signals. The band filter unit 115 divides the residual signal into bands 1 to 8, for example, band 1 is 0 to 1 kHz, band 2 is 1 to 2 kHz, band 3 is 2 to 3 kHz, band 4 is 3 to 4 kHz, band 5 Is preferably 4 to 5 kHz, band 6 is 5 kHz to 6 kHz, band 7 is 6 kHz to 7 kHz, and band 8 is 7 kHz to 8 kHz.

残差信号Di、jが第1帯域フィルタ117に通されることにより帯域1の帯域別残差信号Di、j、1={di、j、1、0、・・・、di、j、1、L-1}が生成され、残差信号Di、jが第2帯域フィルタ119に通されることにより帯域2の帯域別残差信号Di、j、2={di、j、2、0、・・・、di、j、2、L-1}が生成され、残差信号Di、jが第3帯域フィルタ121に通されることにより帯域3の帯域別残差信号Di、j、3={di、j、3、0、・・・、di、j、3、L-1}が生成され、以下、同様である。 Residual signal D i, band-by-band residual signal of the band 1 by j is passed through the first band filter 117 D i, j, 1 = {d i, j, 1,0, ···, d i , J, 1, L-1 } are generated, and the residual signal D i, j is passed through the second band filter 119, so that the band 2 residual signal D i, j, 2 = {d i , J, 2, 0 ,..., D i, j, 2, L-1 } are generated, and the residual signals D i, j are passed through the third band filter 121, so that the band 3 is classified by band. Residual signals D i, j, 3 = {d i, j, 3,0 ,..., D i, j, 3, L-1 } are generated, and so on.

このように、帯域フィルタ部115は、ここでは、帯域別残差信号生成部として機能する。   Thus, here, the band filter unit 115 functions as a band-specific residual signal generation unit.

帯域識別のための変数をωと表記することにする。例えば、第1帯域フィルタ117により生成される信号はω=1の帯域の信号であるとし、第2帯域フィルタ119により生成される信号はω=2の帯域の信号であるとする。また、ωの最大値をωMaxとする。1≦ω≦ωMaxとなる。 A variable for band identification is denoted by ω. For example, it is assumed that the signal generated by the first band filter 117 is a signal in the band of ω = 1, and the signal generated by the second band filter 119 is a signal in the band of ω = 2. The maximum value of ω is ω Max . 1 ≦ ω ≦ ω Max .

生成された帯域1の帯域別残差信号Di、j、1は、帯域別雑音判別部123の中の第1帯域雑音判別器125と、帯域別強度決定部131の中の第1帯域強度算出器133と、に引き渡され、生成された帯域2の帯域別残差信号Di、j、2は、帯域別雑音判別部123の中の第2帯域雑音判別器127と、帯域別強度決定部131の中の第2帯域強度算出器135と、に引き渡され、以下、同様である。 The generated band-specific residual signals D i, j, 1 of the band 1 are the first band noise discriminator 125 in the band-by-band noise discriminating unit 123 and the first band intensity in the band-by-band intensity determining unit 131. The band-specific residual signals D i, j, 2 generated in the band 2 and handed over to the calculator 133 are determined by the second band noise discriminator 127 in the band-specific noise discriminating unit 123 and the band-specific strength determination. The same is applied to the second band intensity calculator 135 in the unit 131.

第1帯域雑音判別器125は、帯域1の帯域別残差信号Di、j、1が雑音であるか否かを判別し、該判別結果をフラグ生成部129に伝える。第2帯域雑音判別器127は、帯域2の帯域別残差信号Di、j、2が雑音であるか否かを判別し、該判別結果をフラグ生成部129に伝える。以下、同様である。 The first band noise discriminator 125 discriminates whether or not the band-by-band residual signal D i, j, 1 in the band 1 is noise, and notifies the flag generation unit 129 of the discrimination result. The second band noise discriminator 127 discriminates whether or not the band-specific residual signal D i, j, 2 in band 2 is noise, and notifies the flag generation unit 129 of the discrimination result. The same applies hereinafter.

第ω帯域雑音判別器は、任意の既知の手法により、帯域ωの帯域別残差信号Di、j、ω={di、j、ω、0、・・・、di、j、ω、L-1}が雑音であるか否かを判別する。例えば、上で、総合ピッチ判別部3が残差信号Di、jからピッチを抽出することができるか否かを判別するために用いる手法の例として挙げた、規格化された自己相関関数を計算することによる手法を用いるのが好適である。 The ω-band noise discriminator is obtained by any known method, and the band-by-band residual signal D i, j, ω = {d i, j, ω, 0 , ..., d i, j, ω , L-1 } is determined as noise. For example, the normalized autocorrelation function given above as an example of the technique used to determine whether or not the overall pitch determination unit 3 can extract the pitch from the residual signals Di, j It is preferable to use a calculation method.

すなわち、残差信号Di、j、ωについて、規格化された自己相関関数
CREG、ω(τ)=Cω(τ)/REGω(τ)
(ただし、
Cω(τ)=di、j、ω、0×di、j、ω、τ+・・・
+di、j、ω、L-1-τ×di、j、ω、L-1
であり、
REGω(τ)={(di、j、ω、0 2+・・・+di、j、ω、L-1-τ 2)
×(di、j、ω、τ 2+・・・+di、j、ω、L-1 2)}0.5
である。)
を計算し、CREG、ω(τ)が例えば0.5よりも大きい極大値を有する場合はピッチを抽出することができるとして雑音ではないと判別し、CREG、ω(τ)が0.5よりも大きい極大値を有しない場合はピッチを抽出することができないとして雑音であると判別する。
That is, the normalized autocorrelation function for the residual signal Di, j, ω
C REG, ω (τ) = C ω (τ) / REG ω (τ)
(However,
C ω (τ) = d i, j, ω, 0 × d i, j, ω, τ + ...
+ d i, j, ω, L-1-τ × d i, j, ω, L-1
And
REG ω (τ) = {(d i, j, ω, 0 2 + ... + d i, j, ω, L-1-τ 2 )
× (d i, j, ω, τ 2 + ... + d i, j, ω, L-1 2 )} 0.5
It is. )
If C REG, ω (τ) has a maximum value greater than 0.5, for example, it is determined that the pitch can be extracted and is not noise, and C REG, ω (τ) is greater than 0.5. If it does not have a maximum value, it is determined that the pitch cannot be extracted and that it is noise.

フラグ生成部129は、帯域別雑音判別部123から、帯域1についての雑音か否かの判別結果と、帯域2についての雑音か否かの判別結果と、・・・、帯域ωについての雑音か否かの判別結果と、・・・、帯域ωMaxについての雑音か否かの判別結果と、を伝えられる。フラグ生成部129は、これら各帯域についての判別結果を反映した各帯域についてのフラグを生成する。換言すれば、フラグをみれば該フラグが対応する帯域の帯域別残差信号が雑音であると判別されたか否かが分かるようなフラグを生成する。 The flag generation unit 129 determines whether the noise for the band 1 is determined from the noise determination unit 123 for each band, the determination result whether the noise is for the band 2, and the noise for the band ω. The determination result of whether or not, and the determination result of whether or not the noise is in the band ω Max are transmitted. The flag generation unit 129 generates a flag for each band reflecting the determination result for each band. In other words, a flag is generated so that it can be seen from the flag whether or not the band-specific residual signal in the band corresponding to the flag is determined to be noise.

帯域別強度決定部131には、各帯域の帯域別残差信号Di、j、ωが帯域フィルタ部115から引き渡され、さらに、総合ピッチ判別部5が残差信号からピッチを抽出することができると判別した場合にはピッチ抽出部113からピッチ長Pi、jが引き渡される。 The band-specific intensity determining unit 131 receives the band-specific residual signals Di , j, and ω of each band from the band filter unit 115, and further, the total pitch discriminating unit 5 extracts the pitch from the residual signal. When it is determined that it can be performed, the pitch length P i, j is delivered from the pitch extraction unit 113.

帯域別強度決定部131の中の第1帯域強度算出器133は、帯域1の帯域別残差信号Di、j、1の強度を算出する。第2帯域強度算出器135は、帯域2の帯域別残差信号Di、j、2の強度を算出する。以下、同様である。第ω帯域強度算出器が帯域ωの帯域別残差信号Di、j、ωの強度を算出するには、任意の既知の手法を用いてよいが、例えば、次のような手法が好適である。 The first band intensity calculator 133 in the band-specific intensity determination unit 131 calculates the intensity of the band-specific residual signal Di , j, 1 in the band 1. The second band intensity calculator 135 calculates the intensity of the band-specific residual signal Di , j, 2 in the band 2. The same applies hereinafter. For the ω-th band intensity calculator to calculate the intensity of the band-specific residual signals Di , j, and ω in the band ω, any known technique may be used. For example, the following technique is suitable. is there.

まず、所定の時間にわたり帯域別残差信号の2乗を時間積分した後、その平方根を、帯域別絶対強度Hi、j、ωとする。帯域別残差信号Di、j、ωはDi、j、ω={di、j、ω、0、・・・、di、j、ω、L-1}なるデジタル信号であるので、具体的には、積分は和で代用されて、
Hi、j、ω=sqrt(di、j、ω、0 2+・・・+di、j、ω、Y-1 2)
のように計算される。ただし、記号sqrtは平方根を意味する。
First, the square of the residual signal for each band over time is integrated over time, and the square root is defined as the absolute intensity for each band H i, j, ω . Since the band-specific residual signals D i, j, ω are digital signals of D i, j, ω = {d i, j, ω, 0 , ..., d i, j, ω, L-1 }. Specifically, the integral is substituted with a sum,
H i, j, ω = sqrt (d i, j, ω, 0 2 + ... + d i, j, ω, Y-1 2 )
It is calculated as follows. However, the symbol sqrt means a square root.

また、Yは、帯域別強度決定部131にピッチ抽出部113からピッチ長Pi、jが送られていない場合には、できるだけ長い範囲で積分したほうが正確な強度が得られると期待されるため、Y=Lとするのが好適である。 In addition, Y is expected to be obtained more accurately by integrating in the longest possible range when the pitch length Pi, j is not sent from the pitch extracting unit 113 to the band-specific intensity determining unit 131. , Y = L is preferable.

それに対して、ピッチ長Pi、jが送られている場合には、総合ピッチ判別部3が、残差信号Di、jが全体としてピッチ的な性質を有すると判別したということであるから、位相のずれに起因する誤差を生じさせずに正確な強度を得るには、時間積分を行う時間長をピッチ長Pi、jの整数倍にするのが適切である。そしてさらに、この場合にも、できるだけ長い範囲で積分したほうが正確な強度が得られると期待されるため、
m×Pi、j≦L-1<(m+1)×Pi、j
なる整数mを求め、Y= m×Pi、j+1とするのが好適である。
On the other hand, when the pitch length P i, j is sent, the total pitch discriminating unit 3 discriminates that the residual signal D i, j has a pitch characteristic as a whole. In order to obtain an accurate intensity without causing an error due to a phase shift, it is appropriate to set the time length for time integration to an integral multiple of the pitch length Pi, j . And even in this case, it is expected that an accurate intensity can be obtained by integrating over as long a range as possible.
m × P i, j ≦ L-1 <(m + 1) × P i, j
It is preferable to obtain an integer m such that Y = m × P i, j +1.

帯域別絶対強度H i、j、ωは、後にフローチャートを用いて説明するように、サブフレーム毎に相対強度に変換される。以下では、この相対強度を、単に帯域別強度h i、j、ωと呼ぶ。 The band-specific absolute intensities H i, j, ω are converted into relative intensities for each subframe, as will be described later using a flowchart. Hereinafter, this relative intensity is simply referred to as band-specific intensity h i, j, ω .

標本選択部141は、ピッチ抽出用スイッチ111のスイッチが閉じた場合、すなわち、総合ピッチ判別部3がピッチ長を求めることができると判別しピッチ抽出部113がピッチ長Pi、jを求めた場合、に動作し、そうでない場合は何もしない。 The sample selection unit 141 determines that the pitch extraction switch 111 is closed, that is, the total pitch determination unit 3 can determine the pitch length, and the pitch extraction unit 113 determines the pitch length P i, j . If it works, don't do anything else.

標本選択部141は、動作する場合には、引き渡された残差信号Di、jとピッチ長Pi、jとに基づき、該残差信号に含まれる標本di、j、0、・・・、di、j、L-1のうち、所定の条件に従って残差信号を特徴付ける標本を選択し、該標本がどれであるかを図2の音声復号装置2が判別することができるような情報を、標本選択情報として出力する。 When the sample selection unit 141 operates, the samples d i, j, 0 ,... Included in the residual signal based on the delivered residual signals D i, j and the pitch lengths P i, j. .. , D i, j, L−1, a sample characterizing the residual signal is selected according to a predetermined condition, and the speech decoding apparatus 2 in FIG. 2 can determine which sample is the sample Information is output as sample selection information.

つまり、音声復号装置2が励起用の信号として用いることになる残差信号がピッチ的な性質を有する場合には、図1の音声符号化装置1の残差信号特徴量抽出部29は、内蔵の標本選択部141により、ピッチ長Pi、jを特徴付ける残差信号標本以外に、例えば顕著な大きさを有する等、残差信号を特徴付けると考えられる残差信号標本をいくつか選びとる。 That is, when the residual signal that the speech decoding apparatus 2 uses as a signal for excitation has a pitch property, the residual signal feature quantity extraction unit 29 of the speech encoding apparatus 1 in FIG. In addition to the residual signal samples that characterize the pitch lengths P i, j , the sample selection unit 141 selects several residual signal samples that are considered to characterize the residual signal, such as having a significant size.

これらの標本の強度等は、符号化部35により符号化され、送信部37により図2の音声復号装置に伝達される。   The strengths of these samples are encoded by the encoding unit 35 and transmitted to the speech decoding apparatus of FIG.

これにより、残差信号標本の全てを符号化した場合に比べて、音声符号化装置が音声復号装置に伝達すべき情報量が少なくて済み、低ビットレート通信に向く。また、音声復号装置は、ピッチ長を特徴付ける残差信号標本以外の標本をも参照しつつ励起用の信号を生成することができるため、再生音声は、音声符号化装置に入力された元の音声をより忠実に再現することができる。   Thereby, compared with the case where all of the residual signal samples are encoded, the amount of information that the speech encoding apparatus should transmit to the speech decoding apparatus is small, which is suitable for low bit rate communication. In addition, since the speech decoding apparatus can generate a signal for excitation while referring to a sample other than the residual signal sample that characterizes the pitch length, the reproduced speech is the original speech input to the speech coding apparatus. Can be reproduced more faithfully.

残差信号を特徴付ける標本を選択する際の前記所定の条件については、後に図を改めて説明する。   The predetermined condition when selecting a sample characterizing the residual signal will be described later.

結局、残差信号特徴量抽出部29は、内蔵のフラグ生成部129が生成した各帯域についてのフラグと、同じく内蔵の帯域別強度決定部131が求めた各帯域の帯域別強度h i、j、ωと、を、残差信号特徴量として出力する。残差信号特徴量抽出部29は、ピッチ抽出部113がピッチ長Pi、jを求めた場合には、該ピッチ長及び標本選択情報も含めて、特徴量として出力する。 Eventually, the residual signal feature quantity extraction unit 29 uses the band-specific strengths h i, j of the respective bands obtained by the built-in band-specific strength determination unit 131 as well as the flags for the respective bands generated by the built-in flag generation unit 129. , Ω are output as residual signal feature values. When the pitch extraction unit 113 obtains the pitch length Pi, j , the residual signal feature quantity extraction unit 29 outputs the residual signal feature quantity including the pitch length and sample selection information as a feature quantity.

このように、残差信号を帯域別に扱うことにより、各帯域における帯域別残差信号の特徴の違いに応じた符号化がなされるため、復号して再生した音声の品質が向上する。また、かかる特徴は、おおまかには、雑音的であるか否かという単純な判別結果を示すフラグにより表されるので、音声符号化及び音声復号方式の簡素さは維持される。   As described above, since the residual signal is handled for each band, encoding according to the difference in the characteristics of the residual signal for each band in each band is performed, so that the quality of the decoded and reproduced sound is improved. In addition, since such a feature is roughly represented by a flag indicating a simple determination result of whether or not it is noisy, the simplicity of the speech encoding and speech decoding methods is maintained.

換言すれば、残差信号の帯域別の特徴をおおまかに雑音的であるか否かという点から捉えるために、音声符号化装置1は簡素なもので済む。一方、音声復号に際しては、雑音パルス列及びピッチパルス列の生成手段と帯域分割手段があれば、全ての帯域の帯域別残差信号の復元が可能になり、簡素でありながらも、残差信号を帯域別に扱ったことによる音声品質の向上が期待される。   In other words, the speech coding apparatus 1 can be simple in order to grasp the characteristics of the residual signal for each band from the viewpoint of whether or not it is roughly noisy. On the other hand, in the case of speech decoding, if there is a noise pulse train and pitch pulse train generation means and band division means, it is possible to restore the residual signal by band of all bands, and although it is simple, It is expected to improve the voice quality by handling it separately.

図4は、図1の音声符号化装置1の残差信号復元試行部31の詳細な機能構成を示す図である。   FIG. 4 is a diagram showing a detailed functional configuration of the residual signal restoration trial unit 31 of the speech encoding device 1 of FIG.

残差信号復元試行部31は、各帯域についてのフラグと、各帯域の帯域別強度h i、j、ωと、を、特徴量として、残差信号特徴量抽出部29(図1、図3)から受け取る。残差信号復元試行部31は、残差信号特徴量にピッチ長Pi、j及び標本選択情報が含まれていた場合には、該ピッチ長及び該標本選択情報も受け取る。 The residual signal restoration trial unit 31 uses the flag for each band and the band-specific intensities h i, j, and ω as the feature amounts, and the residual signal feature amount extraction unit 29 (FIGS. 1 and 3). ) Receive from. When the residual signal feature quantity includes the pitch length Pi, j and sample selection information, the residual signal restoration trial unit 31 also receives the pitch length and the sample selection information.

残差信号復元試行部31の中のピッチパルス列生成部4は、残差信号特徴量にピッチ長Pi、j及び標本選択情報が含まれていた場合には、該ピッチ長及び該標本選択情報に基づいてピッチパルス列を生成し、帯域フィルタ部115に引き渡す。一方、残差信号特徴量にピッチ長Pi、jも標本選択情報も含まれていない場合には、何もしない。 The pitch pulse train generation unit 4 in the residual signal restoration trial unit 31 includes the pitch length and the sample selection information when the residual signal feature quantity includes the pitch length Pi, j and the sample selection information. , A pitch pulse train is generated and passed to the band filter unit 115. On the other hand, if the residual signal feature quantity contains neither the pitch length P i, j nor sample selection information, nothing is done.

ピッチパルス列4がピッチ長Pi、j及び該標本選択情報に基づいてどのようにピッチパルス列を生成するかについては、後に図を改めて説明する。 How the pitch pulse train 4 generates the pitch pulse train based on the pitch length Pi , j and the sample selection information will be described later.

図4においてピッチパルス列生成部4の下に描かれた帯域フィルタ部115は、上述の、図3に示された帯域フィルタ部115と同じ機能を有する。ただし、ピッチパルス列生成部4の下に描かれた帯域フィルタ部115は、ピッチパルス列生成部4から引き渡されたピッチパルス列を帯域分割して帯域別ピッチパルス列を生成することを目的とする。つまり、ピッチパルス列生成部4の下に描かれた帯域フィルタ部115は、帯域別ピッチパルス列生成部として機能する。   In FIG. 4, the band filter unit 115 drawn below the pitch pulse train generation unit 4 has the same function as the band filter unit 115 shown in FIG. However, the band filter unit 115 drawn below the pitch pulse train generation unit 4 aims to generate a band-specific pitch pulse sequence by dividing the pitch pulse train delivered from the pitch pulse train generation unit 4 into bands. That is, the band filter unit 115 drawn under the pitch pulse train generation unit 4 functions as a band-specific pitch pulse train generation unit.

生成された各帯域の帯域別ピッチパルス列は、帯域別試行用励起信号生成部221に引き渡される。帯域別試行用励起信号生成部221は第1帯域別試行用励起信号生成器223と、第2帯域別試行用励起信号生成器225と、・・・、第ω帯域別試行用励起信号生成器(図示せず。)と、・・・、第ωMax帯域別試行用励起信号生成器(図示せず。)と、を内蔵している。第1帯域別試行用励起信号生成器223は、帯域1の帯域別ピッチパルス列を受け取る。第2帯域別試行用励起信号生成器225は、帯域2の帯域別ピッチパルス列を受け取る。以下、同様である。 The generated band-by-band pitch pulse train of each band is delivered to the band-by-band trial excitation signal generation unit 221. The band-specific trial excitation signal generator 221 includes a first band-specific trial excitation signal generator 223, a second band-specific trial excitation signal generator 225,... (Not shown), and ..., a trial excitation signal generator (not shown) for each ω Max band trial. The first band-specific trial excitation signal generator 223 receives the band-specific pitch pulse train of band 1. The second band-specific trial excitation signal generator 225 receives the band-specific pitch pulse train of band 2. The same applies hereinafter.

残差信号復元試行部31の中の雑音パルス列生成部211は、雑音パルス列を生成し、帯域フィルタ部115に引き渡す。   The noise pulse train generation unit 211 in the residual signal restoration trial unit 31 generates a noise pulse train and passes it to the band filter unit 115.

図4において雑音パルス列生成部211の下に描かれた帯域フィルタ部115は、上述の、図3に示された帯域フィルタ部115及び図4においてピッチパルス列生成部4の下に描かれた帯域フィルタ部115と同じ機能を有する。ただし、雑音パルス列生成部211の下に描かれた帯域フィルタ部115は、雑音パルス列生成部211から引き渡された雑音パルス列を帯域分割して帯域別雑音パルス列を生成することを目的とする。つまり、雑音パルス列生成部211の下に描かれた帯域フィルタ部115は、帯域別雑音パルス列生成部として機能する。   The band filter unit 115 depicted below the noise pulse train generation unit 211 in FIG. 4 is the band filter unit 115 depicted in FIG. 3 and the band filter depicted below the pitch pulse train generation unit 4 in FIG. It has the same function as the unit 115. However, the band filter unit 115 drawn under the noise pulse train generation unit 211 is intended to generate a noise pulse train for each band by dividing the noise pulse train delivered from the noise pulse train generation unit 211 into bands. That is, the band filter unit 115 drawn under the noise pulse train generation unit 211 functions as a band-specific noise pulse train generation unit.

生成された各帯域の帯域別雑音パルス列は、帯域別試行用励起信号生成部221に引き渡される。帯域別試行用励起信号生成部221の中の第1帯域別試行用励起信号生成器223は、帯域1の帯域別雑音パルス列を受け取る。帯域別試行用励起信号生成部221の中の第2帯域別試行用励起信号生成器225は、帯域2の帯域別雑音パルス列を受け取る。以下、同様である。   The generated noise pulse train for each band of each band is delivered to the excitation signal generation unit 221 for each band trial. The first band-specific trial excitation signal generator 223 in the band-specific trial excitation signal generator 221 receives the band-specific noise pulse train of band 1. The second band-specific trial excitation signal generator 225 in the band-specific trial excitation signal generation unit 221 receives the band-specific noise pulse train of band 2. The same applies hereinafter.

特徴量として残差信号復元試行部31に引き渡された各帯域の帯域別残差信号の強度と、各帯域についてのフラグと、は、帯域別試行用励起信号生成部221に送られる。その際、帯域1における帯域別残差信号の強度及び帯域1についてのフラグは、帯域別試行用励起信号生成部221の中の第1帯域別試行用励起信号生成器223に送られる。帯域2における帯域別残差信号の強度及び帯域2についてのフラグは、帯域別試行用励起信号生成部221の中の第2帯域別試行用励起信号生成器225に送られる。以下、同様である。   The band-specific residual signal strength of each band and the flag for each band passed to the residual signal restoration trial unit 31 as the feature amount are sent to the band-specific trial excitation signal generation unit 221. At that time, the intensity of the band-specific residual signal in the band 1 and the flag for the band 1 are sent to the first band-specific trial excitation signal generator 223 in the band-specific trial excitation signal generator 221. The strength of the band-specific residual signal in the band 2 and the flag for the band 2 are sent to the second band-specific trial excitation signal generator 225 in the band-specific trial excitation signal generation unit 221. The same applies hereinafter.

結局、帯域別試行用励起信号生成部223の中の第ω帯域別試行用励起信号生成器には、帯域ωについてのフラグと、帯域ωにおける帯域別残差信号の強度と、帯域ωの帯域別雑音パルス列と、が引き渡され、さらに、特徴量にピッチ長が含まれていた場合には、帯域ωの帯域別ピッチパルス列も引き渡される。第ω帯域別試行用励起信号生成器は、これら3乃至4種類の情報から、試行用励起信号の帯域ωの成分としてふさわしいことが期待される信号である、帯域ωの帯域別試行用励起信号を生成する。   After all, the ω-th band trial excitation signal generator in the band-specific trial excitation signal generator 223 includes a flag for the band ω, the intensity of the residual signal for each band in the band ω, and the band of the band ω. When a different noise pulse train is delivered, and when the pitch length is included in the feature quantity, a per-band pitch pulse train of the bandwidth ω is also delivered. The ω-band trial excitation signal generator is a signal that is expected to be suitable as a component of the band ω of the trial excitation signal from these three to four types of information. Is generated.

かかる生成過程の詳細については、後にフローチャートを参照しつつ述べる。概略としては、第ω帯域別試行用励起信号生成器は、帯域ωについてのフラグが、帯域ωの帯域別残差信号が雑音的性質を有することを示している場合には、生成される信号も雑音的性質を有することが適切であるから、帯域ωの帯域別雑音パルス列に帯域ωにおける残差信号の強度を乗じることにより、目的の信号を生成する。一方、帯域ωについてのフラグが、帯域ωの帯域別残差信号が雑音的性質を有していないことを示している場合には、生成される信号も雑音的性質を有さないことが適切であるから、第ω帯域別試行用励起信号生成器は、帯域ωの帯域別ピッチパルス列に帯域ωにおける残差信号の強度を乗じることにより、目的の信号を生成する。   Details of the generation process will be described later with reference to a flowchart. In general, the ω-band trial excitation signal generator generates a signal when the flag for band ω indicates that the band-by-band residual signal of band ω has noisy properties. Since it is appropriate to have noise characteristics, the target signal is generated by multiplying the noise pulse train for each band in the band ω by the intensity of the residual signal in the band ω. On the other hand, if the flag for the band ω indicates that the band-specific residual signal of the band ω does not have noise characteristics, it is appropriate that the generated signal also has no noise characteristics. Therefore, the trial excitation signal generator for each ω-th band generates a target signal by multiplying the band-by-band pitch pulse train of the band ω by the intensity of the residual signal in the band ω.

ただし、たとえフラグがその対応する帯域に雑音的性質のないことを示唆している場合でも、残差信号特徴量にピッチ長が含まれていなかったときには、残差信号復元試行部31においてはピッチパルス列はもちろんのこと帯域別ピッチパルス列も生成されないので、雑音的性質を有さない目的信号を作りようがない点には、注意が必要である。もっとも、これは、全体としての残差信号には周期性がないにもかかわらず、帯域別残差信号のうちには周期性があるものが存在するという、原理的には生じにくい事態であって、単に計算上の例外処理を適切に整えておく必要があるということにすぎないともいえる。   However, even if the flag suggests that the corresponding band does not have noise characteristics, if the residual signal feature quantity does not include the pitch length, the residual signal restoration trial unit 31 determines the pitch. Since a pulse train for each band as well as a pulse train is not generated, care must be taken that there is no attempt to create a target signal having no noise characteristics. However, this is a situation that is unlikely to occur in principle because there are periodic residual signals in each band even though the residual signal as a whole has no periodicity. In other words, it can be said that it is merely necessary to properly prepare exception handling in calculation.

なお、後に詳しく述べる信号生成過程から明らかなように、帯域別雑音パルス列、帯域別ピッチパルス列、及び、帯域毎の残差信号の強度は、いずれもある種の規格化を施されており、これらに対して相互に乗算等の操作を行っても、ある種の相対値を求めることしかできない。   As will be clear from the signal generation process described in detail later, the intensity of the noise pulse train for each band, the pitch pulse train for each band, and the intensity of the residual signal for each band have been subjected to a certain standardization. Even if operations such as multiplication are performed on each other, only a certain relative value can be obtained.

ところが、本実施形態においては、信号の絶対的な値を扱うことが重要である。そのため、帯域別試行用励起信号生成部221は、基準となる特定の値を上述の相対値に乗じて、各帯域の帯域別試行用励起信号を生成する必要がある。後に修正因子決定部33によるフィードバックがかかるので、この基準となる特定の値は、厳密に決定する必要はない。よって、経験則に基づいてあらかじめ所定の固定値を決めておいてもよいが、帯域別試行用励起信号生成部221は、かかる基準となる特定の値を、図1の点線矢印及び図4の点線矢印で表されるように、予測分析部15が求めた予測係数の一部を手がかりにして、決定することが、より好適である。この具体的な方法については、後に説明する。   However, in this embodiment, it is important to handle the absolute value of the signal. Therefore, the band-specific trial excitation signal generation unit 221 needs to generate a band-specific trial excitation signal for each band by multiplying the above-described relative value by a specific value as a reference. Since the feedback by the correction factor determination unit 33 is applied later, the specific value serving as the reference does not need to be determined strictly. Therefore, a predetermined fixed value may be determined in advance based on an empirical rule, but the band-specific trial excitation signal generation unit 221 determines the specific value serving as the reference as a dotted arrow in FIG. 1 and FIG. As represented by the dotted line arrow, it is more preferable to determine a part of the prediction coefficient obtained by the prediction analysis unit 15 as a clue. This specific method will be described later.

帯域別試行用励起信号生成部221が生成した各帯域の帯域別試行用励起信号は、試行用励起信号生成部227に引き渡される。試行用励起信号生成部227は、引き渡された帯域別試行用励起信号を重ね合わせることにより、試行用励起信号を生成し、該信号を出力する。   The band-specific trial excitation signal generated by the band-specific trial excitation signal generation unit 221 is delivered to the trial excitation signal generation unit 227. The trial excitation signal generation unit 227 generates a trial excitation signal by superimposing the passed band-specific trial excitation signals, and outputs the signal.

音声復号装置2が備える残差信号復元部65(図2)は、以上のように図4を参照して説明した残差信号復元試行部31に酷似している。いずれも特徴量から励起用信号を生成するという共通した目的を有するからである。ただし、残差信号復元試行部65は、修正因子決定部33(図1)が決定した修正強度を受け取り、それを反映しつつ励起用の信号を生成する。よって、予測分析部15(図1)が求めた残差信号に対して、残差信号復元部65が出力する信号は、残差信号復元試行部31が出力する信号に比べてよりよく近似した信号となる。また、残差信号復元部65においては、サブフレーム間で信号強度にスムージング処理が施される。残差信号復元試行部65の動作の詳細については後述する。   The residual signal restoration unit 65 (FIG. 2) included in the speech decoding apparatus 2 is very similar to the residual signal restoration trial unit 31 described with reference to FIG. 4 as described above. This is because both have the common purpose of generating excitation signals from feature quantities. However, the residual signal restoration trial unit 65 receives the correction strength determined by the correction factor determination unit 33 (FIG. 1), and generates an excitation signal while reflecting the correction strength. Therefore, the signal output from the residual signal restoration unit 65 is better approximated to the signal output from the residual signal restoration trial unit 31 with respect to the residual signal obtained by the prediction analysis unit 15 (FIG. 1). Signal. Further, in the residual signal restoration unit 65, smoothing processing is performed on the signal strength between subframes. Details of the operation of the residual signal restoration trial unit 65 will be described later.

ここまで機能構成図である図1乃至図4を参照して説明してきた本実施形態に係る音声符号化装置1及び音声復号装置2は、物理的には、ユーザにとっての使い勝手の良さを考慮して、両装置の機能を統合した、本実施形態に係る音声符号化兼復号装置5により実現される。   The speech encoding apparatus 1 and the speech decoding apparatus 2 according to the present embodiment that have been described with reference to FIGS. 1 to 4 which are functional configuration diagrams so far are physically considered in consideration of ease of use for the user. Thus, the speech encoding / decoding device 5 according to the present embodiment is realized by integrating the functions of both devices.

図5は、本実施形態に係る音声符号化兼復号装置5を示したものである。音声符号化兼復号装置5としては、例えば、携帯電話機が想定される。   FIG. 5 shows a speech encoding / decoding device 5 according to this embodiment. As the voice encoding / decoding device 5, for example, a mobile phone is assumed.

音声符号化兼復号装置5は、図1で既に示してあるマイクロフォン11と、図2で既に示してあるスピーカ69と、を備える。該装置は、アンテナ325と、操作キー327と、をさらに備える。該装置は、システムバス323により相互に接続された、CPU(Central Processing Unit)311と、ROM(Read Only Memory)313と、記憶部315と、音声処理部319と、無線通信部317と、操作キー入力処理部321と、をさらに備える。記憶部315は、例えば、RAM(Random Access Memory)329と、ハードディスク331と、を備える。   The speech encoding / decoding device 5 includes a microphone 11 already shown in FIG. 1 and a speaker 69 already shown in FIG. The apparatus further includes an antenna 325 and operation keys 327. The apparatus includes a CPU (Central Processing Unit) 311, a ROM (Read Only Memory) 313, a storage unit 315, an audio processing unit 319, a wireless communication unit 317, and an operation connected to each other via a system bus 323. A key input processing unit 321. The storage unit 315 includes, for example, a RAM (Random Access Memory) 329 and a hard disk 331.

ROM313には、音声符号化及び復号のための動作プログラムが格納されている。また、ベクトル量子化に必要な代表ベクトルの初期セット等、前記動作プログラムの中で参照されることになっている各種データも格納されている。   The ROM 313 stores an operation program for voice encoding and decoding. Also stored are various data to be referred to in the operation program, such as an initial set of representative vectors necessary for vector quantization.

CPU311は、該動作プログラムに従って動作する。そして、CPU311は、内蔵のレジスタ(図示せず。)と記憶部315との間で適宜データのやりとりを行いながら、数値演算により、音声符号化兼復号装置5に、図1に示す音声符号化装置1及び図2に示す音声復号装置2としての機能を発揮させる。CPU311は、その際、必要に応じて音声処理部319、無線通信部317、操作キー入力処理部321とデータのやりとりを行う。   The CPU 311 operates according to the operation program. Then, the CPU 311 performs numerical computation while appropriately exchanging data between a built-in register (not shown) and the storage unit 315, and sends the speech coding shown in FIG. The function as the apparatus 1 and the speech decoding apparatus 2 shown in FIG. 2 is exhibited. At that time, the CPU 311 exchanges data with the voice processing unit 319, the wireless communication unit 317, and the operation key input processing unit 321 as necessary.

図5の音声処理部319は、図1のA/D変換部13及び図2のD/A変換部67として動作することができる。無線通信部317は、図1の送信部37及び図2の受信部61として動作することができる。符号の送受信は、基本的には、図5のアンテナ325を用いた無線通信により行われるが、別の方法、例えば有線通信により行われてもよい。操作キー入力処理部321は、操作キー327からの操作信号を受け付けて、操作信号に対応するキーコード信号をCPU311に伝達する。操作キー327は、通信の相手方となる音声符号化兼復号装置5を特定する、つまり例えば携帯電話の場合であればいわゆる電話番号を入力するのに使われる他、基本的には設定済みの各種事項をユーザの好みに応じて変化させるために用いられてもよい。   The voice processing unit 319 in FIG. 5 can operate as the A / D conversion unit 13 in FIG. 1 and the D / A conversion unit 67 in FIG. The wireless communication unit 317 can operate as the transmission unit 37 in FIG. 1 and the reception unit 61 in FIG. The transmission / reception of the code is basically performed by wireless communication using the antenna 325 of FIG. 5, but may be performed by another method, for example, wired communication. The operation key input processing unit 321 receives an operation signal from the operation key 327 and transmits a key code signal corresponding to the operation signal to the CPU 311. The operation key 327 is used to specify the voice encoding / decoding device 5 to be a communication partner, that is, for example, to input a so-called telephone number in the case of a mobile phone, and basically, various types that have been set. It may be used to change matters according to user preferences.

(量子化について)
本実施形態に係る音声符号化装置1(図1)は、予測係数を量子化することにより、音声復号装置2(図2)に伝達すべき情報量を減少させ低ビットレート通信を実現する一助とする。本実施形態においては、量子化には図1のスカラー量子化部21によるスカラー量子化とベクトル量子化部23によるベクトル量子化とが併用される。以下では、かかる量子化が、本実施形態ではどのように行われるかを説明する。
(About quantization)
The speech coding apparatus 1 (FIG. 1) according to the present embodiment helps to realize low bit rate communication by reducing the amount of information to be transmitted to the speech decoding apparatus 2 (FIG. 2) by quantizing the prediction coefficient. And In the present embodiment, the quantization uses both the scalar quantization by the scalar quantization unit 21 and the vector quantization by the vector quantization unit 23 in FIG. Hereinafter, how such quantization is performed in the present embodiment will be described.

本実施形態においては、本来スカラーである予測係数をいくつか集めて、各予測係数を成分とするベクトルを構成した後に、ベクトル量子化を行う。ただし、そのように構成されたベクトルを直接にベクトル量子化するのではなく、ベクトル正規化過程を挿入して、スカラー量子化に供される値を抜き取る。このように両種の量子化を組み合わせることにより、量子化の効率が向上する。   In the present embodiment, vector quantization is performed after collecting a number of prediction coefficients that are inherently scalars and constructing a vector having each prediction coefficient as a component. However, instead of directly quantizing the vector thus configured, a vector normalization process is inserted to extract a value to be subjected to scalar quantization. Thus, the efficiency of quantization improves by combining both types of quantization.

図6(a)は、予測係数の時系列を表にまとめたものである。既に述べたように、メインフレームは添字iで識別され、同一メインフレーム内のサブフレームは添字jで識別される。各メインフレームには0、・・・j、・・・、Z-1という番号が付けられたZ個のサブフレームが含まれる。i番のメインフレームの中のj番のサブフレームの残差信号についての予測係数Ci、jは、既に述べたように、また、図6(a)では各列として示されているとおり、Ci、j={ci、j、0、・・・、ci、j、k、・・・、ci、j、N-1}(0≦k≦N-1)という0乃至N-1次の予測係数の集まりである。 FIG. 6A summarizes a time series of prediction coefficients in a table. As described above, the main frame is identified by the suffix i, and the subframes in the same main frame are identified by the suffix j. Each main frame includes Z subframes numbered 0,..., J,. The prediction coefficients C i, j for the residual signal of the j-th subframe in the i-th main frame, as already described, and as shown in FIG. 6A as each column, C i, j = {ci , j, 0 , ..., ci , j, k , ..., ci , j, N-1 } (0≤k≤N-1) 0 to N A collection of -1st order prediction coefficients.

ここで、同一のメインフレームに含まれ、かつ、次数が共通する、合計Z個の予測係数を成分として、係数ベクトルを構成する。すなわち、図6(a)に点線の枠で囲んで示すように、係数ベクトルはメインフレームを表す添字iと次数を表す添字kとで特定されるのでVi、kと表記することにすれば、その成分は、
Vi、k ={ ci、0、k、・・・、ci、j、k、・・・、ci、Z-1、k}となる。
Here, a coefficient vector is configured with a total of Z prediction coefficients included in the same main frame and having the same order as components. That is, as shown in FIG. 6A surrounded by a dotted frame, the coefficient vector is specified by a subscript i representing the main frame and a subscript k representing the order, so that V i and k are represented. The ingredients are
V i, k = {ci , 0, k , ..., ci , j, k , ..., ci , Z-1, k }.

つまり、サブフレームが予測分析に対応した時間区間を意味するのに対して、メインフレームは係数ベクトルを構成する時間区間を意味する。   That is, the subframe means a time interval corresponding to prediction analysis, whereas the main frame means a time interval constituting a coefficient vector.

このように構成された係数ベクトルVi、kは、Z次元空間において、模式的には図6(b)のように表される。具体的なベクトル量子化の手法は様々であり、本実施形態においては任意の既知の手法を用いてよい。どの手法においても、原理的には、それぞれに番号が割り当てられた、有限個の代表ベクトルのセットを用意しておき、与えられたベクトルを、それに最も近い代表ベクトル又はそれらの線形結合で近似することとし、該与えられたベクトルを、該代表ベクトルに割り当てられた番号に変換する等する。取り扱いの便宜上、番号はテーブルとしてまとめられることが多い。 The coefficient vectors V i, k configured in this way are schematically represented as shown in FIG. 6B in the Z-dimensional space. There are various specific vector quantization methods, and any known method may be used in the present embodiment. In any method, in principle, a set of a finite number of representative vectors, each assigned a number, is prepared, and a given vector is approximated by the nearest representative vector or a linear combination thereof. In other words, the given vector is converted into a number assigned to the representative vector. For convenience of handling, numbers are often collected as a table.

例えば図6(b)では、図示された係数ベクトルVi、kは、代表ベクトルのうち、点線で表されたベクトルに近いとする。このとき、この点線で表されたベクトルが、量子化係数ベクトルq[V]i、kである。また、Vi、kとq[V]i、kとの差分は、ベクトル量子化によって省略された情報であるといえる。 For example, in FIG. 6B, the illustrated coefficient vector V i, k is assumed to be close to the vector represented by the dotted line among the representative vectors. At this time, the vector represented by the dotted line is the quantization coefficient vector q [V] i, k . Further, it can be said that the difference between V i, k and q [V] i, k is information omitted by vector quantization.

なお、上述のとおり、係数ベクトルは、ベクトル量子化を施されるとテーブルにまとめられる。よって、量子化係数ベクトルは、少なくとも見かけ上は、ベクトルではないともいえる。もっとも、該テーブルに記載された数値に対して、ベクトルとしての意味を与える、すなわち逆量子化を施すと、量子化係数ベクトルq[V]i、kが得られる。よって、無用の混乱を避けるために、以下では、係数ベクトルに量子化を施すことによりテーブルとして得られた結果と、該テーブルに逆量子化を施すことによって得られたベクトルと、を、ともに、量子化係数ベクトルq[V]i、kと呼ぶこととする。 As described above, the coefficient vectors are collected in a table when vector quantization is performed. Therefore, it can be said that the quantization coefficient vector is not a vector at least in appearance. However, if a numerical value described in the table is given a meaning as a vector, that is, inverse quantization is performed, quantized coefficient vectors q [V] i, k are obtained. Therefore, in order to avoid unnecessary confusion, in the following, both the result obtained as a table by applying quantization to the coefficient vector and the vector obtained by applying inverse quantization to the table are both: These are referred to as quantization coefficient vectors q [V] i, k .

このように同一次元のフィルタ係数をメインフレームすなわち連続するZ個のサブフレームにわたりまとめて係数ベクトルを構成することが、本実施形態においては、情報圧縮の点で効率が高い。   In this embodiment, it is highly efficient in terms of information compression that the filter vectors of the same dimension are combined over the main frame, that is, consecutive Z subframes, to form a coefficient vector.

この理由は、音声が定常状態にある時間帯では、係数ベクトルVi、kの各成分が相互に近い値となり、このために、音声継続時間全体から得られる係数ベクトルVi、kの分布に大きな偏りが生じるためである。一般に、分布に偏りがあるベクトルの集合に対してベクトル量子化を施すと、情報圧縮効率が良い。 This is because the coefficient vectors V i, k are close to each other in the time zone in which the speech is in a steady state, and therefore, the distribution of the coefficient vectors V i, k obtained from the entire speech duration is This is because a large bias occurs. In general, when vector quantization is applied to a set of vectors with a biased distribution, information compression efficiency is good.

(予測分析の手順)
以下では、図1の予測分析部15が行う予測分析について、図7に示すフローチャートを参照しつつ説明する。予測分析としては、例えば、線型予測分析やMLSA(Mel Log Spectrum Approximation)分析が知られている。
(Predictive analysis procedure)
Hereinafter, the prediction analysis performed by the prediction analysis unit 15 of FIG. 1 will be described with reference to the flowchart shown in FIG. As prediction analysis, for example, linear prediction analysis and MLSA (Mel Log Spectrum Approximation) analysis are known.

記憶部315(図5)には、既に、デジタル入力音声信号Si、j={si、j、0、・・・、si、j、L-1}(0≦i≦M-1)が格納されているとする。CPU311(図5)は、内蔵のカウンタレジスタ(図示せず)をメインフレームカウンタiの格納に用いることとし、初期値として、i=0とする(図7のステップS7)。 The storage unit 315 (FIG. 5) already has a digital input audio signal S i, j = {s i, j, 0 ,..., S i, j, L-1 } (0 ≦ i ≦ M−1). ) Is stored. The CPU 311 (FIG. 5) uses a built-in counter register (not shown) for storing the main frame counter i, and sets i = 0 as an initial value (step S7 in FIG. 7).

CPU311は、内蔵の別のカウンタレジスタ(図示せず)をサブフレームカウンタjの格納に用いることとし、初期値として、j=0とする(ステップS111)。   The CPU 311 uses another built-in counter register (not shown) for storing the subframe counter j, and sets j = 0 as an initial value (step S111).

CPU311は、内蔵の汎用レジスタ(図示せず)に、記憶部315から、入力音声信号Si、j={si、j、0、・・・、si、j、L-1}をロードする(ステップS113)。 The CPU 311 loads the input audio signal S i, j = {si , j, 0 ,..., Si , j, L-1 } from the storage unit 315 to a built-in general-purpose register (not shown). (Step S113).

CPU311は、入力音声信号Si、jに予測分析を施ることにより、予測係数Ci、j={ ci、j、0、・・・、ci、j、N-1}を計算する(ステップS115)。Nは予測分析の次数である。予測分析としては、例えば、MLSA分析を採用するのが好適である。 The CPU 311 performs prediction analysis on the input speech signal S i, j to calculate a prediction coefficient C i, j = {ci , j, 0 ,..., C i, j, N−1 }. (Step S115). N is the order of predictive analysis. As the predictive analysis, for example, MLSA analysis is preferably adopted.

CPU311は、計算した予測係数Ci、jを記憶部315に格納する(ステップS117)。 The CPU 311 stores the calculated prediction coefficient C i, j in the storage unit 315 (step S117).

CPU311は、任意の既知の手法により、予測係数Ci、jから、予測分析用逆フィルタ係数Inv[Ci、j]を計算する。この逆フィルタ係数Inv[Ci、j]により、予測分析用逆フィルタ17(図1)が定義される。換言すれば、予測分析用逆フィルタ17の仕様が定まる、あるいは、該フィルタが生成される(ステップS119)。 The CPU 311 calculates an inverse filter coefficient Inv [C i, j ] for prediction analysis from the prediction coefficient C i, j by any known method. The inverse filter for prediction analysis 17 (FIG. 1) is defined by the inverse filter coefficient Inv [C i, j ]. In other words, the specifications of the prediction analysis inverse filter 17 are determined, or the filter is generated (step S119).

CPU311は、入力音声信号Si、jを、定義された前記予測分析用逆フィルタ17に通すことに相当する計算を行うことにより、残差信号Di、j={di、j、0、・・・、di、j、L-1}を求める(ステップS121)。 The CPU 311 performs a calculation corresponding to passing the input speech signal S i, j through the defined inverse filter 17 for predictive analysis, so that the residual signal D i, j = {d i, j, 0 , ..., D i, j, L−1 } are obtained (step S121).

CPU311は、求めた残差信号Di、jを記憶部315に格納する(ステップS123)。 The CPU 311 stores the obtained residual signal D i, j in the storage unit 315 (step S123).

CPU311は、サブフレームカウンタjがZ-1に達しているか否かを判別する(ステップS125)。達していると判別された場合は(ステップS125;Yes)、ステップS129に進む。一方、達していないと判別された場合は(ステップS125;No)、同じメインフレームの中の次のサブフレームの入力音声信号についての処理を行うために、jを1増加してから(ステップS127)、ステップS113以降の処理を繰り返す。   The CPU 311 determines whether or not the subframe counter j has reached Z-1 (step S125). If it is determined that it has been reached (step S125; Yes), the process proceeds to step S129. On the other hand, if it is determined that it has not been reached (step S125; No), j is incremented by 1 in order to perform processing on the input audio signal of the next subframe in the same main frame (step S127). ), And the process after step S113 is repeated.

ステップS129では、CPU311は、メインフレームカウンタiがM-1に達しているか否かを判別する。達していると判別された場合は(ステップS129;Yes)、処理を終了する。達していないと判別された場合は(ステップS129;No)、次のメインフレームの入力音声信号についての処理を行うために、iを1増加してから(ステップS131)、ステップS111以降の処理を繰り返す。   In step S129, the CPU 311 determines whether or not the main frame counter i has reached M-1. If it is determined that it has been reached (step S129; Yes), the process is terminated. If it is determined that it has not been reached (step S129; No), i is incremented by 1 (step S131), and the processing after step S111 is performed in order to perform processing for the input audio signal of the next mainframe. repeat.

(ベクトル量子化の手順)
以下では、図1のベクトル正規化部19、スカラー量子化部21、及び、ベクトル量子化部23が行う、ベクトル正規化とスカラー量子化とベクトル量子化の手順を、図8に示すフローチャートを参照しつつ説明する。
(Vector quantization procedure)
Hereinafter, the procedure of vector normalization, scalar quantization, and vector quantization performed by the vector normalization unit 19, the scalar quantization unit 21, and the vector quantization unit 23 of FIG. 1 will be described with reference to the flowchart shown in FIG. However, it will be explained.

予測係数Ci、j(0≦i≦M-1、0≦j≦Z-1)は、既に、図6に示されるように係数ベクトルVi、k(0≦i≦M-1、0≦k≦N-1)としてまとめられ、記憶部315に格納されているものとする。 The prediction coefficients C i, j (0 ≦ i ≦ M−1, 0 ≦ j ≦ Z−1) have already been calculated as coefficient vectors V i, k (0 ≦ i ≦ M−1, 0 as shown in FIG. 6). ≦ k ≦ N−1) and are stored in the storage unit 315.

CPU311は、メインフレームカウンタiを、i=0に設定する(ステップS8)。   The CPU 311 sets the main frame counter i to i = 0 (step S8).

CPU311は、次数カウンタkを、k=0に設定する(ステップS161)。   The CPU 311 sets the order counter k to k = 0 (step S161).

CPU311は、係数ベクトルVi、k={ci、0、k、・・・、ci、Z-1、k}を記憶部315からレジスタにロードし(ステップS163)、ci、0、k、・・・、ci、Z-1、kのうちから、絶対値が最大のものを特定し、該絶対値を係数ベクトル最大絶対値Max[c]i、kとする(ステップS165)。 The CPU 311 loads the coefficient vector V i, k = {c i, 0, k ,..., C i, Z−1, k } from the storage unit 315 to the register (step S163), c i, 0, k ,..., c i, Z−1, k are identified with the maximum absolute value, and the absolute value is set as the coefficient vector maximum absolute value Max [c] i, k (step S165). .

CPU311は、係数ベクトル最大絶対値Max[c]i、kを任意の既知の手法によりスカラー量子化し(ステップS167)、その結果得られたスカラー量子化係数ベクトル最大絶対値q[Max[c]]i、kを記憶部315に格納する(ステップS169)。 The CPU 311 scalar quantizes the coefficient vector maximum absolute value Max [c] i, k by any known method (step S167), and the scalar quantization coefficient vector maximum absolute value q [Max [c]] obtained as a result thereof. i and k are stored in the storage unit 315 (step S169).

CPU311は、係数ベクトルVi、kと係数ベクトル最大絶対値Max[c]i、kとから、正規化係数ベクトルn[c]i、k={n[c]i、0、k、・・・、n[c]i、Z-1、k}を、n[c]i、k={ ci、0、k/Max[c]i、k、・・・、ci、Z-1、k/Max[c]i、k}のように計算して求める(ステップS171)。 The CPU 311 determines the normalized coefficient vector n [c] i, k = {n [c] i, 0, k ,... From the coefficient vector V i, k and the coefficient vector maximum absolute value Max [c] i, k. , N [c] i, Z-1, k }, n [c] i, k = {c i, 0, k / Max [c] i, k , ..., c i, Z-1 , K / Max [c] i, k } to calculate (step S171).

CPU311は、任意の既知の手法により、正規化係数ベクトルn[c]i、kをベクトル量子化し(ステップS173)、その結果得られたベクトル量子化係数ベクトルq[n[c]]i、k={q[n[c]]i、0、k、・・・、q[n[c]]i、Z-1、k}を記憶部315に格納する(ステップS175)。 The CPU 311 vector-quantizes the normalized coefficient vector n [c] i, k by any known method (step S173), and the resulting vector quantization coefficient vector q [n [c]] i, k = {q [n [c]] i, 0, k ,..., q [n [c]] i, Z-1, k } are stored in the storage unit 315 (step S175).

CPU311は、kがN-1に達したか否かを判別する(ステップS177)。達したと判別された場合は(ステップS177;Yes)、ステップS181に進む。達していないと判別された場合は(ステップS177;No)、kを1増加してから(ステップS179)、ステップS163に戻る。   The CPU 311 determines whether k has reached N−1 (step S177). If it is determined that it has been reached (step S177; Yes), the process proceeds to step S181. If it is determined that it has not been reached (step S177; No), k is incremented by 1 (step S179), and the process returns to step S163.

ステップS181では、CPU311は、iがM-1に達したか否かを判別する。達したと判別された場合は(ステップS181;Yes)、処理を終了する。達していないと判別された場合は(ステップS181;No)、iを1増加してから(ステップS183)、ステップS161に戻る。   In step S181, the CPU 311 determines whether i has reached M-1. If it is determined that it has been reached (step S181; Yes), the process is terminated. If it is determined that it has not been reached (step S181; No), i is increased by 1 (step S183), and the process returns to step S161.

(残差信号から特徴量を生成する手順)
以下では、本実施形態に係る音声符号化装置2において、図1及び図3に示す残差信号特徴量抽出部29が行う、残差信号からピッチ長と標本選択情報とフラグと帯域別強度とを生成する手順を、図9に示すフローチャートを参照しつつ説明する。
(Procedure for generating feature value from residual signal)
In the following, in the speech coding apparatus 2 according to the present embodiment, the residual signal feature quantity extraction unit 29 shown in FIGS. 1 and 3 performs the pitch length, the sample selection information, the flag, the intensity by band, from the residual signal. The procedure for generating is described with reference to the flowchart shown in FIG.

なお、前提として、既に残差信号Di、j={di、j、0、・・・、di、j、L-1}(0≦i≦M-1、0≦j≦Z-1)が求められていて、記憶部315に格納されているものとする。 As a premise, the residual signals D i, j = {d i, j, 0 , ..., d i, j, L-1 } (0≤i≤M-1, 0≤j≤Z- 1) is obtained and stored in the storage unit 315.

CPU311は、メインフレームカウンタiを、i=0に設定する(ステップS9)。   The CPU 311 sets the main frame counter i to i = 0 (step S9).

CPU311は、サブフレームカウンタjを、j=0に設定する(ステップS211)。   The CPU 311 sets the subframe counter j to j = 0 (step S211).

CPU311は、記憶部315からレジスタに、残差信号Di、j={di、j、0、・・・、di、j、L-1}をロードする(ステップS213)。 The CPU 311 loads the residual signal D i, j = {d i, j, 0 ,..., D i, j, L-1 } from the storage unit 315 to the register (step S213).

CPU311は、残差信号Di、jからピッチ長を抽出することができるか否かを判別する(ステップS215)。該判別には、既に図3を用いて、残差信号特徴量抽出部29の中の総合ピッチ判別部5について説明したように、例えば、規格化された自己相関関数を用いる。 The CPU 311 determines whether or not the pitch length can be extracted from the residual signals D i, j (step S215). For this discrimination, for example, a standardized autocorrelation function is used as described for the total pitch discrimination unit 5 in the residual signal feature amount extraction unit 29 with reference to FIG.

ピッチ長を抽出することができると判別された場合は(ステップS215;Yes)、CPU311は、ピッチ長Pi、jと標本選択情報とを求める(ステップS217)。 If it is determined that the pitch length can be extracted (step S215; Yes), the CPU 311 obtains the pitch length P i, j and sample selection information (step S217).

ピッチ長Pi、jは、既に図3を用いて、残差信号特徴量抽出部29の中のピッチ抽出部113について説明したように、例えば、総合ピッチ判別部3が規格化された自己相関関数を用いてピッチを抽出することができるか否かを判別した際の副産物として求まる。 The pitch length P i, j is, for example, an autocorrelation standardized by the total pitch discriminating unit 3 as described for the pitch extracting unit 113 in the residual signal feature amount extracting unit 29 with reference to FIG. It is obtained as a by-product when it is determined whether or not a pitch can be extracted using a function.

標本選択情報の求め方の一例については、後に図を改めて説明する。   An example of how to obtain the specimen selection information will be described later.

CPU311はその後、求めたピッチ長Pi、jと標本選択情報とを記憶部315に格納してから(ステップS219)、ステップS221に進む。 Thereafter, the CPU 311 stores the obtained pitch length Pi, j and sample selection information in the storage unit 315 (step S219), and then proceeds to step S221.

一方、ピッチ長を抽出することができないと判別された場合は(ステップS215;No)、すぐにステップS221に進む。   On the other hand, when it is determined that the pitch length cannot be extracted (step S215; No), the process immediately proceeds to step S221.

ステップS221では、CPU321は、帯域識別変数ωを、ω=1に設定する。   In step S221, the CPU 321 sets the band identification variable ω to ω = 1.

CPU311は、帯域別残差信号生成部としての帯域フィルタ部115(図3)として機能することにより、帯域ωの帯域別残差信号Di、j、ω={di、j、ω、0、・・・、di、j、ω、L-1}を生成する(図9のステップS223)。 The CPU 311 functions as a band filter unit 115 (FIG. 3) as a band-specific residual signal generation unit, so that the band-specific residual signals D i, j, ω = {d i, j, ω, 0 ,..., D i, j, ω, L−1 } are generated (step S223 in FIG. 9).

CPU311は、帯域別雑音判別部123(図3)及びフラグ生成部129として機能することにより、帯域別残差信号Di、j、ωが雑音であるか否かを判別し、その結果を反映した帯域ωについてのフラグFlagi、j、ωを生成し(図9のステップS225)、記憶部315に格納する(ステップS227)。フラグが変数としてとり得る値は、後に図を改めて説明する。 The CPU 311 functions as the band-specific noise determination unit 123 (FIG. 3) and the flag generation unit 129 to determine whether or not the band-specific residual signals Di , j, and ω are noises and reflect the results. The flags Flag i, j, and ω for the band ω are generated (step S225 in FIG. 9) and stored in the storage unit 315 (step S227). The values that the flag can take as variables will be described later.

CPU311は、帯域別強度決定部131(図3)として機能することにより、帯域別残差信号Di、j、ωの帯域別絶対強度Hi、j、ωを求める(図9のステップS229)。この求め方については、後に図を改めて説明する。 The CPU 311 functions as the band-by-band intensity determining unit 131 (FIG. 3) to obtain band-by-band absolute intensities H i, j, ω of the band-by-band residual signals D i, j, ω (step S229 in FIG. 9). . This method will be described later.

CPU311は、ωがωMaxに達したか否かを判別する(ステップS231)。 The CPU 311 determines whether or not ω has reached ω Max (step S231).

ωがωMaxに達したと判別された場合には(ステップS231;Yes)、ステップS235に進む。ωがωMaxに達していないと判別された場合には(ステップS231;No)、ωを1増加してから(ステップS233)、ステップS223に戻る。 If it is determined that ω has reached ω Max (step S231; Yes), the process proceeds to step S235. If it is determined that ω has not reached ω Max (step S231; No), ω is increased by 1 (step S233), and the process returns to step S223.

ステップS235に達した時点では、サブフレーム内でのωについてのループ処理(ステップS231、ステップS233等)が終了しているので、CPU311は、相対値である帯域別強度hi、j、ωを求めることができる。CPU311は帯域別強度hi、j、ωを求め(ステップS235)、記憶部315に格納する(ステップS237)。帯域別強度hi、j、ωの具体的な求め方については、後に図を改めて説明する。 When step S235 is reached, since the loop processing (step S231, step S233, etc.) for ω in the subframe is completed, the CPU 311 calculates the band-specific intensities h i, j, ω that are relative values. Can be sought. The CPU 311 obtains the band-specific intensities h i, j, ω (step S235) and stores them in the storage unit 315 (step S237). A specific method for obtaining the band-specific intensities h i, j, ω will be described later.

CPU311は、jがZ-1に達したか否かを判別する(ステップS239)。達したと判別された場合には(ステップS239;Yes)、ステップS243に進む。達していないと判別された場合には(ステップS239;No)、jを1増加してから(ステップS241)、ステップS213に戻る。   The CPU 311 determines whether j has reached Z-1 (step S239). If it is determined that it has been reached (step S239; Yes), the process proceeds to step S243. If it is determined that it has not been reached (step S239; No), j is incremented by 1 (step S241), and the process returns to step S213.

ステップS243では、CPU311は、iがM-1に達したか否かを判別する。達したと判別された場合は(ステップS243;Yes)、処理を終了する。達していないと判別された場合は(ステップS243;No)iを1増加してから(ステップS245)、ステップS211に戻る。   In step S243, the CPU 311 determines whether i has reached M-1. If it is determined that it has been reached (step S243; Yes), the process is terminated. If it is determined that it has not been reached (step S243; No), i is increased by 1 (step S245), and the process returns to step S211.

図9のステップS217で行われる、標本選択情報を生成する処理について、図10に示すフローチャート及び図11に示す残差信号等の模式図を参照しつつ、説明する。   The process for generating the sample selection information performed in step S217 of FIG. 9 will be described with reference to the flowchart shown in FIG. 10 and the schematic diagram of the residual signal shown in FIG.

図11(a)は、iとjとにより識別されるサブフレームにおける残差信号Di、jの模式図である。該残差信号中の標本di、j、0、・・・、di、j、L-1の値が時系列として示されている。 FIG. 11A is a schematic diagram of residual signals D i, j in subframes identified by i and j. The values of the samples d i, j, 0 ,..., D i, j, L-1 in the residual signal are shown as time series.

CPU311は、これらの標本di、j、0、・・・、di、j、L-1のうちから、絶対値が最大となる標本である基準残差標本di、j、u(0)を特定する(図10のステップS10)。 The CPU 311 selects a reference residual sample di , j, u (0) which is a sample having the maximum absolute value from among these samples di , j, 0 ,..., Di , j, L-1. ) Is specified (step S10 in FIG. 10).

このように特定された基準残差標本di、j、u(0)から時系列上で後方にピッチ長Pi、jぶんの範囲内にある標本のうちから、残差信号を特徴付けることが期待される標本を選択する。標本が選択され得るかかる範囲のことを、以下では、検索対象区間と呼ぶことにする。 It is possible to characterize the residual signal from the samples within the range of the pitch length Pi , j in the time series from the reference residual sample di , j, u (0) identified in this way. Select the expected specimen. Such a range in which a sample can be selected is hereinafter referred to as a search target section.

検索対象区間が確保されるためには、前記基準残差標本di、j、u(0)が、時系列上での最終の標本であるdi、j、L-1からピッチ長Pi、j以上手前に存在する必要がある。すなわち、不等式u(0)≦L-1-Pi、jが満たされる必要がある。そこで、上述のように選択された基準残差標本がこの不等式を満たさない場合には、標本di、j、0、・・・、di、j、L-1のうちから、絶対値が2番目となる標本を基準残差標本di、j、u(0)として特定し直す(図10のステップS911)。なお、このように特定し直した基準残差標本もまた前記不等式を満たさない場合には、絶対値が3番目となる標本を基準残差標本として再び特定し直す。以下、同様に、前記不等式が満たされるまで、基準残差標本の決め直しを繰り返す。 In order to secure the search target section, the reference residual samples d i, j, u (0) are pitch lengths P i from the last samples d i, j, L-1 on the time series. , J or more must be present. That is, the inequality u (0) ≦ L-1-P i, j needs to be satisfied. Therefore, if the reference residual sample selected as described above does not satisfy this inequality, the absolute value of the samples d i, j, 0 ,..., D i, j, L−1 is The second sample is specified again as the reference residual sample d i, j, u (0) ( step S911 in FIG. 10). If the reference residual sample re-specified in this way also does not satisfy the inequality, the sample with the third absolute value is specified again as the reference residual sample. Hereinafter, similarly, the re-decision of the reference residual sample is repeated until the inequality is satisfied.

図11(b)は、図11(a)における検索対象区間を拡大して示したものである。検索対象区間には、標本が、図示するとおり、di、j、u(0)、・・・、di、j、u(0)+Pi、j-1の、合計Pi、j個存在する。 FIG. 11B is an enlarged view of the search target section in FIG. In the search section, the specimen is, as illustrated, d i, j, u ( 0), ···, d i, j, u (0) + Pi, of j-1, total P i, j-number Exists.

これらPi、j個の標本からdi、j、u(0)を除いたdi、j、u(0)+1、・・・、di、j、u(0)+Pi、j-1を、任意の既知の手法により絶対値の降順にソートする。そして、先頭からσ番目までの標本di、j、u(1)、・・・、di、j、u(σ)について、u(1)-u(0)とdi、j、u(1)/|di、j、u(0)|、・・・、u(σ)-u(0)とdi、j、u(1)/|di、j、u(0)|を求める(ステップS913)。 These P i, d i from the j samples, j, u (0) except for the d i, j, u (0 ) +1, ···, d i, j, u (0) + Pi, j Sort -1 in descending order of absolute value by any known method. Then, the sample d i from the beginning to σ th, j, u (1), ···, d i, j, for u (σ), u (1 ) -u (0) and d i, j, u (1) / | d i, j, u (0) |, ..., u (σ) -u (0) and d i, j, u (1) / | d i, j, u (0) | Is obtained (step S913).

σは原理的には最大でPi、j-1とすることができる。しかし、標本選択情報を生成する意義は、残差信号を特徴付けることが期待される標本を少数選択して低ビットレート通信に適合させることにある。よって、与えられた情報伝達許容量と達成したい再生音声の品質とを比較衡量して、選択する標本の個数を決定する。 In principle, σ can be set to Pi and j−1 at maximum. However, the significance of generating sample selection information is to select a small number of samples that are expected to characterize the residual signal and to adapt to low bit rate communication. Therefore, the number of samples to be selected is determined by comparing the given information transmission allowance with the quality of reproduced speech to be achieved.

なお、かかる標本の個数はあらかじめ定めておいてもよいが、必ずしも固定値である必要はない。例えば、図1の符号化部35がエントロピ符号化等の、情報圧縮率が一定にならない符号化方式を採用している場合には、情報圧縮率がたまたま高くなったために伝達可能容量にゆとりがある時間帯には多数の標本を選択する等、標本の個数を動的に定めるようにしてもよい。   Note that the number of specimens may be determined in advance, but is not necessarily a fixed value. For example, when the encoding unit 35 in FIG. 1 employs an encoding method in which the information compression rate does not become constant, such as entropy encoding, there is room in the transmittable capacity because the information compression rate happens to be high. The number of samples may be determined dynamically, such as selecting a large number of samples in a certain time zone.

図11(c)に示すように、選択された標本の基準残差標本に対する時系列上の相対位置と、該選択された標本を該基準残差標本の絶対値により規格化した値と、が、標本選択情報となり(図10のステップS915)、処理は終了する。   As shown in FIG. 11C, the relative position of the selected sample with respect to the reference residual sample in time series, and a value obtained by normalizing the selected sample with the absolute value of the reference residual sample are: The sample selection information is obtained (step S915 in FIG. 10), and the process ends.

理解を容易にするために、ここで、図2の音声復号装置2が前記標本選択情報に基づいて復号用励起信号を生成する処理の概要を、図12を参照しつつ説明する。   In order to facilitate understanding, an outline of processing in which the speech decoding apparatus 2 of FIG. 2 generates a decoding excitation signal based on the sample selection information will be described with reference to FIG.

図1の音声符号化装置1から標本選択情報を受け取った図2の音声復号装置2は、標本選択情報に上述のとおり選択された標本の基準残差標本に対する相対位置及び相対標本値が含まれていることから、図12(a)に示すように、基準残差標本から開始する1ピッチぶんの信号を生成することができる。   The speech decoding apparatus 2 of FIG. 2 that has received the sample selection information from the speech encoding apparatus 1 of FIG. 1 includes the relative position and relative sample value of the sample selected as described above with respect to the reference residual sample. Therefore, as shown in FIG. 12A, it is possible to generate a signal of one pitch starting from the reference residual sample.

続いて、音声復号装置2は、図12(b)に示すように、前記1ピッチ分の信号を時系列上で繰り返し接続することにより、復号用励起信号を生成する。   Subsequently, as shown in FIG. 12B, the speech decoding apparatus 2 generates a decoding excitation signal by repeatedly connecting the signals for one pitch in time series.

なお、このとき同時に、基準残差標本の大きさが後述のようにsqrt(Pi、j)となるような拡大又は縮小を、基準残差標本及び選択された標本に施す。 At the same time, the reference residual sample and the selected sample are subjected to enlargement or reduction so that the size of the reference residual sample becomes sqrt (P i, j ) as described later.

図12(c)は、図11(a)と同じく、元の残差信号を示す模式図である。図12(b)を図12(c)と比較すれば明らかなように、復号用励起信号は、定性的には、元の残差信号のうち目立つ標本を少数選択し、それらをピッチ長単位で繰り返すことにより生成される。   FIG. 12C is a schematic diagram showing the original residual signal, as in FIG. As is clear from comparing FIG. 12B with FIG. 12C, the decoding excitation signal qualitatively selects a small number of conspicuous samples from the original residual signal, and selects them in units of pitch length. It is generated by repeating.

図13は、図9のステップS225で行われる、帯域ωについてのフラグFlagi、j、ωを生成する処理を示すフローチャートである。 FIG. 13 is a flowchart showing the processing for generating the flags Flag i, j, and ω for the band ω performed in step S225 of FIG.

CPU311は、図3の帯域別雑音判別部123として機能することにより、帯域ωの帯域別残差信号Di、j、ω={di、j、ω、0、・・・、di、j、ω、L-1}が雑音であるか否かを判別する(ステップS13)。判別のための手法としては、例えば、既に図3の第ω帯域雑音判別器の動作として説明したように、規格化された自己相関関数を計算することによる手法を用いるのが好適である。 CPU311, by functioning as a band-by-band noise determination unit 123 of FIG. 3, the band-by-band residual signal D i of band ω, j, ω = {d i, j, ω, 0, ···, d i, It is determined whether j, ω, L−1 } is noise (step S13). As a technique for discrimination, for example, it is preferable to use a technique by calculating a standardized autocorrelation function as already described as the operation of the ω-th band noise discriminator in FIG.

雑音であると判別された場合は(ステップS13;Yes)、CPU311は、変数Flagi、j、ωを"UV"に設定してから(ステップS261)、処理を終了する。雑音ではないと判別された場合は(ステップS13;No)、CPU311は、、変数Flagi、j、ωを"V"に設定してから(ステップS263)、処理を終了する。 If it is determined that the noise is detected (step S13; Yes), the CPU 311 sets the variables Flag i, j, and ω to “UV” (step S261), and ends the process. When it is determined that it is not noise (step S13; No), the CPU 311 sets the variables Flag i, j, and ω to “V” (step S263), and ends the process.

図14は、図9のステップS229で行われる、帯域別残差信号Di、j、ωの帯域別絶対強度Hi、j、ωを求める処理を示すフローチャートである。 FIG. 14 is a flowchart showing processing for obtaining the band-specific absolute intensities H i, j, ω of the band-specific residual signals D i, j, ω performed in step S229 of FIG.

CPU311は、記憶部315の中を検索し、記憶部315にピッチ長Pi、jが格納されているか否かを判別する(ステップS14)。記憶部315にピッチ長Pi、jが格納されているとすれば、それは図9のステップS219によるものであり、ステップS219を経ているということは、ステップS215で残差信号Di、jには全体としてピッチ的な性質が存在すると判別されたことを意味する。記憶部315にピッチ長Pi、jが格納されていないとすれば、ステップS215で残差信号Di、jには全体としてピッチ的な性質が存在しないと判別されたことを意味する。 The CPU 311 searches the storage unit 315 and determines whether or not the pitch length P i, j is stored in the storage unit 315 (step S14). If the pitch length P i, j is stored in the storage unit 315, this is due to step S219 in FIG. 9, and the fact that it has undergone step S219 indicates that the residual signal D i, j has been stored in step S215. Means that it is determined that a pitch-like property exists as a whole. If the pitch length P i, j is not stored in the storage unit 315, it means that it is determined in step S215 that the residual signal D i, j does not have pitch characteristics as a whole.

記憶部315にピッチ長Pi、jが格納されていると判別された場合は(ステップS14;Yes)、既に図3の帯域別強度決定部131について説明したように、例えば、所定の時間にわたり帯域別残差信号の2乗を時間積分した後、その平方根を、帯域別絶対強度Hi、j、ωとする(ステップS271)。さらに、上述のように、本ステップに進んだということは、残差信号Di、jが全体としてピッチ的な性質を帯びていることであるから、これも既に図3の帯域別強度決定部131についての説明で触れたように、前記所定の時間は、Pi、jの整数倍でありかつできるだけ長い時間であることが好ましい。この後、処理は終了する。 When it is determined that the pitch length P i, j is stored in the storage unit 315 (step S14; Yes), for example, over the predetermined time, as described for the band-specific strength determination unit 131 in FIG. After the square of the residual signal for each band is time-integrated, the square root is set as the absolute intensity for each band H i, j, ω (step S271). Further, as described above, the fact that the process has proceeded to this step means that the residual signals D i, j have a pitch-like nature as a whole, and this is also already determined by the band-specific intensity determining unit of FIG. As mentioned in the description of 131, the predetermined time is preferably an integral multiple of Pi, j and is as long as possible. Thereafter, the process ends.

記憶部315にピッチ長Pi、jが格納されていないと判別された場合は(ステップS14;No)、これも既に図3の帯域別強度決定部131の説明で触れたように、例えば、帯域別残差信号Di、j、ωの全継続時間にわたる積分に基づいて、帯域別絶対強度Hi、j、ωを求める(ステップS273)。この後、処理は終了する。 When it is determined that the pitch length P i, j is not stored in the storage unit 315 (step S14; No), as already mentioned in the description of the band-specific strength determination unit 131 in FIG. Based on the integration over the entire duration of the band-specific residual signals D i, j, ω , band-specific absolute intensities H i, j, ω are obtained (step S273). Thereafter, the process ends.

図14が、強度の絶対的な大きさを示す帯域別絶対強度Hi、j、ωを求める処理を示すフローチャートであったのに対して、図15は、図9のステップS235で行われる、相対的な強度である帯域別強度hi、j、ωを生成する処理を示すフローチャートである。 FIG. 14 is a flowchart showing a process for obtaining the absolute intensity H i, j, ω by band indicating the absolute magnitude of the intensity, whereas FIG. 15 is performed in step S235 of FIG. It is a flowchart which shows the process which produces | generates the intensity | strength classified by band hi, j, and which is a relative intensity | strength.

帯域別強度hi、j、ωは、iとjとで特定されるサブフレームにおいて、最大の帯域別絶対強度Hi、j、ωを1としたときの、強度の相対値である。 The band-specific intensities h i, j, ω are relative values of the intensity when the maximum band-specific absolute intensity H i, j, ω is 1 in the subframe specified by i and j.

CPU311は、帯域別残差信号Di、j、ωの帯域別絶対強度Hi、j、1、・・・、Hi、j、ωMaxのうちから値が最大のものを特定し、該値を帯域別絶対強度最大値Hi、j、Maxとする(ステップS15)。 The CPU 311 specifies the highest value among the band-specific absolute intensities H i, j, 1 ,..., H i, j, ωMax of the band-specific residual signals D i, j, ω , Are set to the band-specific absolute intensity maximum values Hi, j, Max (step S15).

CPU311は、帯域識別変数ωを、ω=1に設定する(ステップS281)。   The CPU 311 sets the band identification variable ω to ω = 1 (step S281).

CPU311は、帯域別強度hi、j、ωを、hi、j、ω=Hi、j、ω/Hi、j、Maxにより求める(ステップS283)。 The CPU 311 obtains the band-specific intensities h i, j, ω from h i, j, ω = Hi, j, ω / Hi , j, Max (step S283).

CPU311は、ωがωMaxに達したか否かを判別する(ステップS285)。達したと判別された場合は(ステップS285;Yes)、処理を終了する。達していないと判別された場合は(ステップS285;No)、ωを1増加してから(ステップS287)、ステップS283を繰り返す。 The CPU 311 determines whether or not ω has reached ω Max (step S285). If it is determined that it has been reached (step S285; Yes), the process is terminated. If it is determined that it has not been reached (step S285; No), ω is increased by 1 (step S287), and step S283 is repeated.

(特徴量から試行用励起信号を生成する手順)
以下では、本実施形態に係る音声符号化装置1において、図1及び図4に示す残差信号復元試行部31が行う、ピッチ長と標本選択情報とフラグと帯域別強度とから試行用励起信号を生成する手順を、図16に示すフローチャートを参照しつつ説明する。
(Procedure for generating a trial excitation signal from features)
In the following, in the speech encoding apparatus 1 according to the present embodiment, the trial excitation signal based on the pitch length, the sample selection information, the flag, and the intensity for each band, which is performed by the residual signal restoration trial unit 31 illustrated in FIGS. 1 and 4. The procedure for generating is described with reference to the flowchart shown in FIG.

なお、前提として、既にフラグFlagi、j、ωと帯域別強度hi、j、ωとが求められていて、記憶部315に格納されているものとする(0≦i≦M-1、0≦j≦Z-1、1≦ω≦ωMax)。また、Di、jからピッチ長Pi、jを抽出することができきた場合には(図9のステップS215;Yes)、ピッチ長Pi、j及び標本選択情報も求められていて記憶部315に格納されているものとする。 As a premise, it is assumed that the flags Flag i, j, ω and the band-specific intensities h i, j, ω have already been obtained and stored in the storage unit 315 (0 ≦ i ≦ M−1, 0 ≦ j ≦ Z−1, 1 ≦ ω ≦ ω Max ). If the pitch length P i, j can be extracted from D i, j (step S215 in FIG. 9; Yes), the pitch length P i, j and the sample selection information are also obtained and stored in the storage unit. It is assumed that it is stored in 315.

CPU311は、メインフレームカウンタiを、i=0に設定する(ステップS16)。   The CPU 311 sets the main frame counter i to i = 0 (step S16).

CPU311は、サブフレームカウンタjを、j=0に設定する(ステップS311)。   The CPU 311 sets the subframe counter j to j = 0 (step S311).

CPU311は、記憶部315の中を検索して、ピッチ長Pi、jが記憶部315に格納されているか否かを判別する(ステップS313)。 The CPU 311 searches the storage unit 315 to determine whether or not the pitch length P i, j is stored in the storage unit 315 (step S313).

ピッチ長Pi、jが記憶部315に格納されていると判別された場合は(ステップS313;Yes)、CPU311は、ピッチ長Pi、j及び標本選択情報を記憶部315からレジスタにロードする(ステップS315)。続いて、CPU311は、図4のピッチパルス列生成部4及び帯域フィルタ部115として機能することにより、該ピッチ長Pi、jに基づいて、帯域別ピッチパルス列Ppti、j、ω={ppti、j、ω、0、・・・、ppti、j、ω、L-1}を生成してから(図16のステップS317)、ステップS319に進む。帯域別ピッチパルス列Ppti、j、ωの具体的な求め方の一例については、後に図を改めて説明する。 When it is determined that the pitch length P i, j is stored in the storage unit 315 (step S313; Yes), the CPU 311 loads the pitch length P i, j and sample selection information from the storage unit 315 to the register. (Step S315). Subsequently, the CPU 311 functions as the pitch pulse train generation unit 4 and the band filter unit 115 in FIG. 4, so that the band-specific pitch pulse trains Ppt i, j, ω = {ppt i based on the pitch lengths P i, j. , J, ω, 0 ,..., Ppt i, j, ω, L−1 } are generated (step S317 in FIG. 16), and the process proceeds to step S319. An example of a specific method for obtaining the band-specific pitch pulse train Ppt i, j, ω will be described later.

ピッチ長Pi、jが記憶部315に格納されていないと判別された場合は(ステップS313;No)、すぐにステップS319に進む。 If it is determined that the pitch length P i, j is not stored in the storage unit 315 (step S313; No), the process immediately proceeds to step S319.

ステップS319では、CPU311は、図6の雑音パルス列生成部211及び帯域フィルタ部115として機能することにより、帯域別雑音パルス列Rpti、j、ω={rpti、j、ω、0、・・・、rpti、j、ω、L-1}を生成する。帯域別雑音パルス列Rpti、j、ωの具体的な求め方の一例については、後に図を改めて説明する。 In step S319, the CPU 311 functions as the noise pulse train generation unit 211 and the band filter unit 115 in FIG. 6, so that the noise pulse trains for each band Rpt i, j, ω = {rpt i, j, ω, 0 ,. , Rpt i, j, ω, L-1 }. An example of a specific method for obtaining the band-specific noise pulse trains Rpt i, j, ω will be described later.

CPU311は、試行用励起信号Exi、j={exi、j、0、・・・、exi、j、L-1}を、Exi、j={0、・・・、0}に初期化する(ステップS321)。 The CPU 311 changes the trial excitation signal Ex i, j = {ex i, j, 0 , ..., ex i, j, L-1 } to Ex i, j = {0, ..., 0}. Initialization is performed (step S321).

CPU311は、帯域識別変数ωを、ω=1に設定する(ステップS323)。   The CPU 311 sets the band identification variable ω to ω = 1 (step S323).

CPU311は、フラグFlag i、j、ωと帯域別強度hi、j、ωとを記憶部315からレジスタにロードする(ステップS325)。 The CPU 311 loads the flags Flag i, j, ω and the band-specific strengths h i, j, ω from the storage unit 315 to the register (step S325).

CPU311は、図4の帯域別試行用励起信号生成部221として機能することにより、帯域別試行用励起信号Exi、j、ω={exi、j、ω、0、・・・、exi、j、ω、L-1}を生成する(図16のステップS327)。帯域別試行用励起信号Exi、j、ωの具体的な求め方の一例については、後に図を改めて説明する。 CPU311, by functioning as a band-by-band trial excitation signal generation unit 221 of FIG. 4, the excitation signal band by trial Ex i, j, ω = { ex i, j, ω, 0, ···, ex i , J, ω, L−1 } are generated (step S327 in FIG. 16). An example of a specific method for obtaining the band-specific trial excitation signals Ex i, j, ω will be described later.

CPU311は、試行用励起信号Exi、jを、Exi、j+Exi、j、ωに更新する(ステップS329)。 The CPU 311 updates the trial excitation signal Ex i, j to Ex i, j + Ex i, j, ω (step S329).

CPU311は、ωがωMaxに達したか否かを判別する(ステップS331)。達していると判別された場合は(ステップS331;Yes)、ステップS335に進む。達していないと判別された場合は(ステップS331;No)、ωを1増加してから(ステップS333)、ステップS325に戻る。 The CPU 311 determines whether or not ω has reached ω Max (step S331). If it is determined that it has been reached (step S331; Yes), the process proceeds to step S335. If it is determined that the value has not been reached (step S331; No), ω is increased by 1 (step S333), and the process returns to step S325.

ステップS335では、CPU311は、この時点で全帯域の帯域別試行用励起信号の和となっている、試行用励起信号Exi、jを、記憶部315に格納する。 In step S335, the CPU 311 stores in the storage unit 315 the trial excitation signal Ex i, j which is the sum of the band-specific trial excitation signals for all bands at this time.

CPU311は、jがZ-1に達したか否かを判別する(ステップS337)。達していると判別された場合は(ステップS337;Yes)、ステップS341に進む。達していないと判別された場合は(ステップS337;No)、jを1増加してから(ステップS339)、ステップS313に戻る。   The CPU 311 determines whether j has reached Z-1 (step S337). If it is determined that it has been reached (step S337; Yes), the process proceeds to step S341. If it is determined that it has not been reached (step S337; No), j is incremented by 1 (step S339), and the process returns to step S313.

ステップS341では、CPU311は、iがM-1に達したか否かを判別する。達していると判別された場合は(ステップS341;Yes)、処理を終了する。達していないと判別された場合は(ステップS341;No)、iを1増加してから(ステップS343)、ステップS311に戻る。   In step S341, the CPU 311 determines whether i has reached M-1. If it is determined that it has been reached (step S341; Yes), the process is terminated. When it is determined that it has not been reached (step S341; No), i is increased by 1 (step S343), and the process returns to step S311.

図17(a)は、図16のステップS317で行われる、帯域別ピッチパルス列Ppti、j、ωを生成する処理を示すフローチャートである。 FIG. 17A is a flowchart showing the processing for generating the band-specific pitch pulse trains Ppt i, j, ω performed in step S317 of FIG.

CPU311は、図4のピッチパルス列生成部4として機能することにより、ピッチ長Pi、jと標本選択情報とに基づいて、図17(b)に模式的に示すピッチパルス列Ppti、j={ppti、j、0、・・・、ppti、j、L-1}を生成する(ステップS17)。この図17(b)は、既に参照した図12(b)と同じ図である。そして、ピッチ長Pi、jと標本選択情報とに基づくピッチパルス列Ppti、jの生成方法は、既に図11及び図12を参照して説明したとおりである。 The CPU 311 functions as the pitch pulse train generation unit 4 in FIG. 4, so that the pitch pulse train Ppt i, j = {schematically shown in FIG. 17B is based on the pitch length P i, j and the sample selection information. ppt i, j, 0 ,..., ppt i, j, L-1 } are generated (step S17). FIG. 17B is the same as FIG. 12B already referred to. A method of generating the pitch pulse train Ppt i, j based on the pitch length P i, j and the sample selection information is as already described with reference to FIGS.

CPU311は、帯域識別変数ωを、ω=1に設定する(ステップS351)。   The CPU 311 sets the band identification variable ω to ω = 1 (step S351).

CPU311は、図4の帯域別ピッチパルス列生成部としての帯域フィルタ部115として機能することにより、ピッチパルス列Ppti、jの帯域ωの成分である帯域別ピッチパルス列Ppti、j、ω={ppti、j、ω、0、・・・、ppti、j、ω、L-1}を生成する(図17のステップS353)。 CPU311, by functioning as a band pass filter section 115 as the per-band pitch pulse train generating unit of FIG. 4, the pitch pulse train Ppt i, the band-by-band pitch pulse train which is a component of the band omega of j Ppt i, j, ω = {ppt i, j, ω, 0 ,..., ppt i, j, ω, L−1 } are generated (step S353 in FIG. 17).

CPU311は、ωがωMaxに達したか否かを判別する(ステップS355)。達していると判別された場合は(ステップS355;Yes)、処理を終了する。達していないと判別された場合は、(ステップS355;No)、ωを1増加してから(ステップS357)、ステップS353を繰り返す。 The CPU 311 determines whether or not ω has reached ω Max (step S355). If it is determined that it has been reached (step S355; Yes), the process is terminated. If it is determined that it has not been reached (step S355; No), ω is incremented by 1 (step S357), and step S353 is repeated.

図18(a)は、図16のステップS319で行われる、帯域別雑音パルス列Rpti、j、ωを生成する処理を示すフローチャートである。 FIG. 18A is a flowchart showing the processing for generating the band-specific noise pulse trains Rpt i, j, ω performed in step S319 of FIG.

CPU311は、図4の雑音パルス列生成部211として機能することにより、図18(b)に模式的に示すような、大きさが-1以上+1以下の乱数であるパルスが並んだ雑音パルス列Rpti、j={rpti、j、0、・・・、rpti、j、L-1}を生成する(ステップS18)。 The CPU 311 functions as the noise pulse train generation unit 211 in FIG. 4, so that a noise pulse train Rpt in which pulses having random numbers of −1 or more and +1 or less are arranged as schematically shown in FIG. 18B. i, j = {rpt i, j, 0 ,..., rpt i, j, L-1 } are generated (step S18).

CPU311は、帯域識別変数ωを、ω=1に設定する(ステップS371)。   The CPU 311 sets the band identification variable ω to ω = 1 (step S371).

CPU311は、図4の帯域別雑音パルス列生成部としての帯域フィルタ部115として機能することにより、雑音パルス列Ppti、jの帯域ωの成分である帯域別雑音パルス列Rpti、j、ω={rpti、j、ω、0、・・・、rpti、j、ω、L-1}を生成する(図18のステップS373)。 CPU311, by functioning as a band pass filter section 115 as the per-band noise pulse train generating unit of FIG. 4, the noise pulse train Ppt i, per-band noise pulse train which is a component of the band omega of j Rpt i, j, ω = {rpt i, j, ω, 0 ,..., rpt i, j, ω, L−1 } are generated (step S373 in FIG. 18).

CPU311は、ωがωMaxに達したか否かを判別する(ステップS375)。達していると判別された場合は(ステップS375;Yes)、処理を終了する。達していないと判別された場合は、(ステップS375;No)、ωを1増加してから(ステップS377)、ステップS373を繰り返す。 The CPU 311 determines whether or not ω has reached ω Max (step S375). If it is determined that it has been reached (step S375; Yes), the process is terminated. If it is determined that it has not been reached (step S375; No), ω is increased by 1 (step S377), and step S373 is repeated.

図19は、図16のステップS327で行われる、帯域別試行用励起信号Exi、j、ω={exi、j、ω、0、・・・、exi、j、ω、L-1}を生成する処理を示すフローチャートである。 FIG. 19 shows the band-specific trial excitation signals Ex i, j, ω = {ex i, j, ω, 0 ,..., Ex i, j, ω, L-1 performed in step S327 of FIG. It is a flowchart which shows the process which produces | generates.

CPU311は、試行強度I(0)i、jを求める(ステップS19)。この値は、後に修正を施されるものであるので、本ステップで厳密な値を求める必要はない。もっとも、当然のことながら、試行値といえどもできるだけ正確な値、すなわち後の修正ができるだけ少なくて済むような値、を採用するのが望ましい。かかる観点に鑑み、本実施形態の場合は、図1及び図4で点線矢印にて示したように、試行強度I(0)を、予測係数の0次の係数ci、j、0に基づいて、
I(0)i、j=exp(ci、j、0)
により求め、記憶部315に格納する(図19のステップS391)。
The CPU 311 obtains the trial strength I (0) i, j (step S19). Since this value is corrected later, it is not necessary to obtain an exact value in this step. Of course, it is desirable to adopt a trial value that is as accurate as possible, that is, a value that requires as little correction as possible. In view of such viewpoints, in the present embodiment, as shown by the dotted line arrows in FIGS. 1 and 4, on the basis of the trial the intensity I (0), the coefficient c i, j, 0 of zero-order prediction coefficients And
I (0) i, j = exp (c i, j, 0 )
And stored in the storage unit 315 (step S391 in FIG. 19).

CPU311は、記憶部315の中を調べて、ピッチ長Pi、jが記憶部315に格納されているか否かを判別する(図19のステップS393)。 The CPU 311 checks the storage unit 315 to determine whether or not the pitch length P i, j is stored in the storage unit 315 (step S393 in FIG. 19).

なお、基本的には、以下に述べるように、雑音的な性質を帯びていることがフラグにより示されている帯域については雑音パルス列に基づき該帯域の帯域別試行用励起信号を生成し、一方、ピッチ的な性質を帯びていることがフラグにより示されている帯域についてはピッチパルス列に基づき該帯域の帯域別試行用励起信号を生成する。しかし、そもそも残差信号全体がピッチ的性質を帯びていない場合は、図16のステップS313でNoと判別されてステップS317を経ないためピッチパルス列が生成されない。したがって、図19のステップS393のように、まず、ピッチ長の存否が判別され、もし存在しないのであればフラグに関係なく全帯域について雑音パルス列に基づき帯域別試行用励起信号が生成される手順にする必要がある。   Basically, as described below, for a band indicated by a flag as having a noisy nature, a trial excitation signal is generated for each band based on the noise pulse train, For the band indicated by the flag as having a pitch-like property, a trial excitation signal for each band of the band is generated based on the pitch pulse train. However, if the entire residual signal does not have a pitch characteristic in the first place, it is determined No in step S313 in FIG. 16 and step S317 is not passed, and therefore no pitch pulse train is generated. Accordingly, as in step S393 in FIG. 19, first, it is determined whether or not the pitch length exists, and if it does not exist, a procedure for generating a trial excitation signal for each band based on the noise pulse train is generated for all bands regardless of the flag. There is a need to.

よって、ピッチ長Pi、jが記憶部315に格納されていないと判別された場合は(ステップS393;No)、CPU311は、フラグの値を参照することなく、すぐにステップS397に進む。 Therefore, if it is determined that the pitch length P i, j is not stored in the storage unit 315 (step S393; No), the CPU 311 immediately proceeds to step S397 without referring to the value of the flag.

ピッチ長Pi、jが記憶部315に格納されていると判別された場合は(ステップS393;Yes)、CPU311は、続いて、フラグFlagi、j、ω="UV"か否かを判別する(ステップS395)。フラグFlagi、j、ω="UV"であると判別された場合は(ステップS395;Yes)、ステップS397に進む。フラグFlagi、j、ω="UV"ではないと判別された場合は(ステップS395;No)、ステップS399に進む。 When it is determined that the pitch length P i, j is stored in the storage unit 315 (step S393; Yes), the CPU 311 subsequently determines whether or not the flag Flag i, j, ω = “UV”. (Step S395). If it is determined that the flag Flag i, j, ω = “UV” (step S395; Yes), the process proceeds to step S397. When it is determined that the flag Flag i, j, ω is not “UV” (step S395; No), the process proceeds to step S399.

ステップS397では、帯域別試行用励起信号Exi、j、ωを、
Exi、j、ω=I(0)i、j×hi、j、ω×Rpti、j、ω
により求める。
In step S397, the trial excitation signal for each band Ex i, j, ω is
Ex i, j, ω = I (0) i, j × h i, j, ω × Rpt i, j, ω
Ask for.

ステップS399では、帯域別試行用励起信号Exi、j、ωを、
Exi、j、ω=I(0)i、j×hi、j、ω×Ppti、j、ω
により求める。
In step S399, the band-specific trial excitation signals Ex i, j, ω are
Ex i, j, ω = I (0) i, j × h i, j, ω × Ppt i, j, ω
Ask for.

(係数ベクトルと逆量子化係数ベクトルの関係)
後に、図1の疑似合成フィルタ部27が試行用再生音声信号を生成する手順と、図2の音声復号装置2が復号用励起信号を生成するために必要な修正強度を図1の修正因子決定部33が求める手順と、を説明するが、理解を容易にするために、まず、係数ベクトルと逆量子化係数ベクトルの関係を整理して図20に示す。
(Relationship between coefficient vector and inverse quantization coefficient vector)
After that, the pseudo synthesis filter unit 27 of FIG. 1 generates a trial reproduction speech signal, and the correction strength necessary for the speech decoding apparatus 2 of FIG. 2 to generate the decoding excitation signal is determined as the correction factor of FIG. The procedure obtained by the unit 33 will be described. In order to facilitate understanding, first, the relationship between the coefficient vector and the inverse quantization coefficient vector is organized and shown in FIG.

量子化された係数ベクトルはテーブルとして表記されるものである一方、逆量子化ベクトルは該表記を具体的なベクトルとして捉えたものであるが、既にベクトル量子化について説明したように、ここでは両者を特に区別することなく用いる。例えば、符号qは、ある量が量子化されたことを表す符号として用いているが、同時に、逆量子化されその量と直接比較し得る量のことも示すものとする。つまり、量子化された結果と、それが逆量子化された量とを、表記の上では区別しないこととする。本実施形態においては、量子化の結果の表現態様が重要なのではなく、量子化によって近似による情報量削減が達成されることが重要なためである。   While the quantized coefficient vector is represented as a table, the inverse quantized vector is a representation of the notation as a concrete vector, but as already explained for vector quantization, here both Are used without distinction. For example, the symbol q is used as a symbol indicating that a certain amount has been quantized, but at the same time, it also indicates the amount that can be dequantized and directly compared with the amount. That is, the quantized result and the amount obtained by dequantizing the result are not distinguished on the notation. This is because, in the present embodiment, the expression mode of the quantization result is not important, but it is important that the information amount reduction by approximation is achieved by quantization.

図20に示す表は、既に図6(a)に示した、係数ベクトルの時系列毎かつ次元毎の一覧表に、各係数ベクトルに対応する近似結果を付記した表である。CPU311が図3のベクトル正規化部19、スカラー量子化部21、及び、ベクトル量子化部23として機能した結果、図8のフローチャートのステップS169及びステップS175において、記憶部315には、スカラー量子化係数ベクトル最大絶対値q[Max[c]]i,kとベクトル量子化正規化係数ベクトルq[n[c]]i、kとが格納されている。図20に示すように、係数ベクトル
Vi、k={ci、0、k、・・・、ci、Z-1、k}
は、量子化の結果、疑似係数ベクトル
q[V]i、k
={ q[Max[c]]i、k×q[n[c]]i、0、k、・・・、q[Max[c]]i、k×q[n[c]]i、Z-1、k}
に近似される。
The table shown in FIG. 20 is a table in which approximation results corresponding to each coefficient vector are added to the list of coefficient vectors for each time series and each dimension already shown in FIG. As a result of the CPU 311 functioning as the vector normalization unit 19, the scalar quantization unit 21, and the vector quantization unit 23 in FIG. 3, in step S <b> 169 and step S <b> 175 in the flowchart in FIG. 8, the storage unit 315 stores the scalar quantization. The coefficient vector maximum absolute value q [Max [c]] i, k and the vector quantization normalized coefficient vector q [n [c]] i, k are stored. As shown in FIG.
V i, k = {c i, 0, k , ..., c i, Z-1, k }
Is the pseudo coefficient vector resulting from the quantization
q [V] i, k
= {q [Max [c]] i, k × q [n [c]] i, 0, k ,..., q [Max [c]] i, k × q [n [c]] i, Z-1, k }
Is approximated by

(試行用再生音声信号を生成する手順)
以下では、本実施形態に係る音声符号化装置1において、図1に示す合成フィルタ算出部25及び疑似合成フィルタ部27が行う、試行用励起信号から試行用再生音声信号を生成する手順を、図21に示すフローチャートを参照しつつ説明する。
(Procedure for generating a trial playback audio signal)
In the following, in the speech encoding apparatus 1 according to the present embodiment, the procedure for generating the trial reproduction speech signal from the trial excitation signal performed by the synthesis filter calculation unit 25 and the pseudo synthesis filter unit 27 shown in FIG. This will be described with reference to the flowchart shown in FIG.

なお、前提として、試行用励起信号Exi、jと、図20の表に示したスカラー量子化係数ベクトル最大絶対値q[Max[c]]i、k及びベクトル量子化正規化係数ベクトルq[n[c]]i、kと、は、既に求められていて、記憶部315に格納されているものとする(0≦i≦M-1、0≦j≦Z-1、0≦k≦N-1)。 As a premise, the trial excitation signal Ex i, j and the scalar quantization coefficient vector maximum absolute value q [Max [c]] i, k and the vector quantization normalization coefficient vector q [shown in the table of FIG. n [c]] i and k are already obtained and stored in the storage unit 315 (0 ≦ i ≦ M−1, 0 ≦ j ≦ Z−1, 0 ≦ k ≦ N-1).

CPU311は、メインフレームカウンタiを、i=0に設定する(ステップS21)。   The CPU 311 sets the main frame counter i to i = 0 (step S21).

CPU311は、スカラー量子化係数ベクトル最大絶対値q[Max[c]]i、0、・・・、q[Max[c]]i、N-1と、ベクトル量子化正規化係数ベクトルq[n[c]]i、0、・・・、q[n[c]]i、N-1と、を、記憶部315からレジスタにロードする(ステップS411)。続いてCPU311は、疑似係数ベクトルq[V]i、kを、
q[V]i、k=q[Max[c]]i、k×q[n[c]]i、k(0≦k≦N-1)
という乗算により求める(ステップS413)。
The CPU 311 determines the scalar quantization coefficient vector maximum absolute value q [Max [c]] i, 0 ,..., Q [Max [c]] i, N−1 and the vector quantization normalization coefficient vector q [n. [c]] i, 0 ..., q [n [c]] i, N−1 are loaded from the storage unit 315 to the register (step S411). Subsequently, the CPU 311 converts the pseudo coefficient vector q [V] i, k into
q [V] i, k = q [Max [c]] i, k × q [n [c]] i, k (0 ≦ k ≦ N-1)
(Step S413).

CPU311は、サブフレームカウンタjを、j=0に設定する(ステップS415)。   The CPU 311 sets the subframe counter j to j = 0 (step S415).

CPU311は、試行用励起信号Exi、jを記憶部315からレジスタにロードする(ステップS417)。 The CPU 311 loads the trial excitation signal Ex i, j from the storage unit 315 to the register (step S417).

CPU311は、疑似係数ベクトルq[V]i、0、・・・、q[V]i、N-1のそれぞれの第j成分であるq[Max[c]]i、0×q[n[c]]i、j、0、・・・、q[Max[c]]i、N-1×q[n[c]]i、j、N-1により、iで識別されるメインフレームの中のjで識別されるサブフレームにおける疑似合成フィルタを定義する(ステップS419)。これにより、図1の疑似合成フィルタ部27の仕様が決定される。 CPU311 is pseudo coefficient vector q [V] i, 0, ···, q [V] i, respectively of the j-th component of the N-1 q [Max [c ]] i, 0 × q [n [ c]] i, j, 0 ,..., q [Max [c]] i, N-1 × q [n [c]] i, j, N-1 A pseudo synthesis filter in the subframe identified by j in the middle is defined (step S419). Thereby, the specification of the pseudo synthesis filter unit 27 of FIG. 1 is determined.

CPU311は、ステップS419により定義された疑似合成フィルタに試行用励起信号Exi、jを通すことに相当する演算を行うことにより、試行用再生音声信号W(0)i、j={w(0)i、j、0、・・・、w(0)i、j 、L-1}を生成し(ステップS421)、記憶部315に格納する(ステップS423)。 The CPU 311 performs a calculation corresponding to passing the trial excitation signal Ex i, j through the pseudo synthesis filter defined in step S419, thereby performing the trial reproduction audio signal W (0) i, j = {w (0 ) i, j, 0 ,..., w (0) i, j , L-1 } are generated (step S421) and stored in the storage unit 315 (step S423).

CPU311は、jがZ-1に達したか否かを判別する(ステップS425)。達していると判別された場合は(ステップS425;Yes)、ステップS429に進む。達していないと判別された場合は(ステップS425;No)、jを1増加してから(ステップS427)、ステップS417に戻る。   The CPU 311 determines whether j has reached Z-1 (step S425). If it is determined that it has reached (step S425; Yes), the process proceeds to step S429. If it is determined that it has not been reached (step S425; No), j is incremented by 1 (step S427), and the process returns to step S417.

ステップS429では、CPU311は、iがM-1に達したか否かを判別する。達していると判別された場合は(ステップS429;Yes)、処理を終了する。達していないと判別された場合は(ステップS429;No)、iを1増加してから(ステップS431)、ステップS411に戻る。   In step S429, the CPU 311 determines whether i has reached M-1. If it is determined that it has been reached (step S429; Yes), the process is terminated. If it is determined that it has not been reached (step S429; No), i is increased by 1 (step S431), and the process returns to step S411.

(修正強度を生成する手順)
以下では、本実施形態に係る音声符号化装置1において、図1に示す修正因子決定部33が行う、修正強度を生成する手順を、図22に示すフローチャートを参照しつつ説明する。
(Procedure for generating correction strength)
Hereinafter, in the speech coding apparatus 1 according to the present embodiment, the procedure for generating the correction strength performed by the correction factor determination unit 33 illustrated in FIG. 1 will be described with reference to the flowchart illustrated in FIG.

なお、前提として、入力音声信号Si、jは記憶部315に格納されたまま残されているものとし、試行強度I(0)i、jと試行用再生音声信号W(0)i、jとは、既に求められて記憶部315に格納されているもものとする。また、図3のピッチ抽出部113により図9のステップS217においてピッチ長Pi、jが求められている場合には、ステップS219に示すとおり、ピッチ長Pi、jは記憶部315に格納されているものとする(0≦i≦M-1、0≦j≦Z-1)。 It is assumed that the input audio signal S i, j is left stored in the storage unit 315, and the trial intensity I (0) i, j and the trial reproduction audio signal W (0) i, j Is already obtained and stored in the storage unit 315. When the pitch length P i, j is obtained in step S217 of FIG. 9 by the pitch extraction unit 113 of FIG. 3, the pitch length P i, j is stored in the storage unit 315 as shown in step S219. (0 ≦ i ≦ M−1, 0 ≦ j ≦ Z−1).

CPU311は、メインフレームカウンタiを、i=0に設定する(ステップS22)。   The CPU 311 sets the main frame counter i to i = 0 (step S22).

CPU311は、サブフレームカウンタjを、j=0に設定する(ステップS461)。   The CPU 311 sets the subframe counter j to j = 0 (step S461).

CPU311は記憶部315の中を検索し、ピッチ長Pi、jが記憶部315に格納されているか否かを判別する(ステップS463)。 The CPU 311 searches the storage unit 315 to determine whether or not the pitch length P i, j is stored in the storage unit 315 (step S463).

格納されていると判別された場合には(ステップS463:Yes)、CPU311はピッチ長Pi、jを記憶部315からレジスタにロードし(ステップS465)、
m×Pi、j≦L-1<(m+1)×Pi、j
なる整数mを求め、Y= m×Pi、j+1に設定し(ステップS467)、ステップS471に進む。
If it is determined that it is stored (step S463: Yes), the CPU 311 loads the pitch length Pi , j from the storage unit 315 to the register (step S465),
m × P i, j ≦ L-1 <(m + 1) × P i, j
An integer m is obtained, Y = m × P i, j +1 is set (step S467), and the process proceeds to step S471.

一方、格納されていないと判別された場合には(ステップS463;No)、CPU311は、Y=Lに設定し(ステップS469)、ステップS471に進む。   On the other hand, if it is determined that it is not stored (step S463; No), the CPU 311 sets Y = L (step S469), and proceeds to step S471.

ステップS471では、CPU311は、入力音声信号Si、j={si、j、0、・・・、si、j、L-1}、試行用再生音声信号W(0)i、j={w(0)i、j、0、・・・、w(0)i、j、L-1}、及び、試行強度I(0)i、jを記憶部315からレジスタにロードする。続いて、ステップS473では、CPU311は、入力音声信号強度sqrt(ΣSi、j 2)と試行用再生音声信号強度sqrt(ΣW(0)i、j 2)とを、
sqrt(ΣSi、j 2)=sqrt(si、j、0 2+・・・+si、j、Y-1 2)
sqrt(ΣW(0)i、j 2)=sqrt(w(0)i、j、0 2+・・・+w(0)i、j、Y-1 2)
のように計算する。
In step S471, the CPU 311 determines that the input audio signal S i, j = {s i, j, 0 ,..., S i, j, L-1 }, the trial reproduction audio signal W (0) i, j = {w (0) i, j, 0 ,..., w (0) i, j, L-1 } and trial intensity I (0) i, j are loaded from the storage unit 315 to the register. Subsequently, in step S473, the CPU 311 calculates the input audio signal strength sqrt (ΣS i, j 2 ) and the trial reproduction audio signal strength sqrt (ΣW (0) i, j 2 ),
sqrt (ΣS i, j 2 ) = sqrt (s i, j, 0 2 + ... + s i, j, Y-1 2 )
sqrt (ΣW (0) i, j 2 ) = sqrt (w (0) i, j, 0 2 + ... + w (0) i, j, Y-1 2 )
Calculate as follows.

かかる計算は、図14のステップS271及びステップS273で行われた、帯域別絶対強度Hi、j、ωの計算方法と同様のものである。また、図14のステップS271及びステップS273の使い分けと同様に、図22においても、ピッチ長Pi、jの存否により、積分時間長に相当するYの値の決定方法を変化させている。ピッチ長Pi、jが存在しない場合は、単にできるだけ長時間にわたる積分を行うことにより精度を高める一方、ピッチ長Pi、jが存在する場合には、積分する時間長をなるべく長くするだけではなく、該ピッチ長の整数倍とすることにより、位相のずれに起因する誤差が生じないようにする。 This calculation is the same as the calculation method of the absolute intensity H i, j, ω by band performed in step S271 and step S273 in FIG. Similarly to the proper use of step S271 and step S273 in FIG. 14, in FIG. 22, the method for determining the Y value corresponding to the integration time length is changed depending on the presence or absence of the pitch length Pi , j . If the pitch length P i, j does not exist, the accuracy is improved by simply performing integration for as long as possible. On the other hand, if the pitch length P i, j exists, simply increasing the integration time length as much as possible. Rather, an integer multiple of the pitch length prevents an error caused by a phase shift.

続いて、CPU311は、修正強度I(1)i、jを、
I(1)i、j = I(0)i、j×{sqrt(ΣSi、j 2)/sqrt(ΣW(0)i、j 2)}
のように求め(ステップS475)、記憶部315に格納する(ステップS477)。
Subsequently, the CPU 311 determines the correction strength I (1) i, j ,
I (1) i, j = I (0) i, j × {sqrt (ΣS i, j 2 ) / sqrt (ΣW (0) i, j 2 )}
(Step S475) and stored in the storage unit 315 (Step S477).

CPU311は、jがZ-1に達したか否かを判別する(ステップS479)。達していると判別された場合は(ステップS479;Yes)、ステップS483に進む。達していないと判別された場合は(ステップS479;No)、jを1増加してから(ステップS481)、ステップS463に戻る。   The CPU 311 determines whether j has reached Z-1 (step S479). If it is determined that it has reached (step S479; Yes), the process proceeds to step S483. If it is determined that it has not been reached (step S479; No), j is incremented by 1 (step S481), and the process returns to step S463.

ステップS483では、CPU311は、iがM-1に達したか否かを判別する。達していると判別された場合は(ステップS483;Yes)、処理を終了する。達していないと判別された場合は(ステップS483;No)、iを1増加してから(ステップS485)、ステップS461に戻る。   In step S483, the CPU 311 determines whether i has reached M-1. If it is determined that it has been reached (step S483; Yes), the process is terminated. If it is determined that it has not been reached (step S483; No), i is increased by 1 (step S485), and the process returns to step S461.

(特徴量から復号用励起信号を生成する手順)
以下では、図2に示す音声復号装置2の動作について説明する。まず、残差信号復元部65が、復号用励起信号を生成する手順について説明する。
(Procedure for generating the excitation signal for decoding from the feature value)
Below, operation | movement of the audio | voice decoding apparatus 2 shown in FIG. 2 is demonstrated. First, a procedure in which the residual signal restoration unit 65 generates a decoding excitation signal will be described.

前提として、復号部63により、特徴量であるフラグFlagi、j、ωと帯域別強度hi、j、ωとが復号されて、記憶部315に格納されているものとする。さらに、存在する場合にはピッチ長Pi、j及び標本選択情報も復号されて、記憶部315に格納されているものとする。また、修正強度I(1)i、jも同じく復号され記憶部315に格納されているものとする。 As a premise, it is assumed that the flag Flag i, j, ω and the band-specific intensities h i, j, ω are decoded by the decoding unit 63 and stored in the storage unit 315. Furthermore, if it exists, it is assumed that the pitch length P i, j and sample selection information are also decoded and stored in the storage unit 315. Further, it is assumed that the correction strengths I (1) i, j are also decoded and stored in the storage unit 315.

既に述べたとおり、図2に示す残差信号復元部65は、図1に示す残差信号特徴量抽出部29に極めて似た動作を行う。いずれも、特徴量から、合成フィルタに入力するための励起用の信号を生成する点で、共通しているからである。ただし、前者は実際に音声を復元するための信号を生成するものであるのに対して、後者は修正因子である修正強度を求めるためのものである。後者の動作により求められた修正強度は、前者の動作に際しては、与えられる量となる。   As already described, the residual signal restoration unit 65 shown in FIG. 2 performs an operation very similar to the residual signal feature amount extraction unit 29 shown in FIG. This is because both are common in that a signal for excitation to be input to the synthesis filter is generated from the feature amount. However, the former is for generating a signal for actually restoring the voice, whereas the latter is for obtaining a correction strength which is a correction factor. The correction strength obtained by the latter operation is a given amount in the former operation.

以上の点に留意すると、特徴量から復号用励起信号を生成する手順は、図16に示した、特徴量から試行用励起信号を生成する処理とほぼ同じとなる。つまり概ね、図16にある試行用励起信号という用語を、復号用励起信号と読み替えればよい。そこで、煩雑になるのを避けるため、ここでは図16とは別のフローチャートを示すことはしない。   With the above points in mind, the procedure for generating the decoding excitation signal from the feature quantity is almost the same as the process of generating the trial excitation signal from the feature quantity shown in FIG. That is, in general, the term “trial excitation signal” in FIG. 16 may be read as a decoding excitation signal. Therefore, in order to avoid complication, a flowchart different from FIG. 16 is not shown here.

ただし、図16のステップS327の詳細が示された図19におけるステップS19及びステップS391の代わりに、CPU311が記憶部315からレジスタに修正強度I(1)i、jをロードするステップが挿入され、ステップS397及びステップS399ではI(0)i、jの代わりにI(1)i、jが用いられることになる。 However, instead of steps S19 and S391 in FIG. 19 in which the details of step S327 in FIG. 16 are shown, a step in which the CPU 311 loads the correction strength I (1) i, j from the storage unit 315 to the register is inserted. In steps S397 and S399, I (1) i, j is used instead of I (0) i, j .

さらに、好ましくは、サブフレームの境界でサブフレーム別残差信号強度が急激に変化することにより再生音声信号が不自然になることのないよう、帯域別にスムージング処理を行う。そのためには、復号用励起信号の生成における図16のステップS327に相当するステップである、帯域別復号用励起信号Exi、j、ωを生成する手順を、図23に示すようなものとする。 Further, preferably, smoothing processing is performed for each band so that the reproduced signal does not become unnatural due to abrupt change in the residual signal strength for each subframe at the subframe boundary. For this purpose, the procedure for generating the band-specific decoding excitation signals Ex i, j, ω, which is a step corresponding to step S327 of FIG. 16 in generating the decoding excitation signal, is as shown in FIG. .

図23のフローチャートに示すように、CPU311は、修正強度I(1)i、jを記憶部315からレジスタにロードする。また、CPU311は、iとjとで特定されるサブフレームの直前のサブフレームにおける修正強度、フラグ、及び、帯域別強度である修正強度I(1)pre、フラグFlagpre、ω、及び、帯域別強度hpre、ωを、記憶部315からレジスタにロードする(ステップS23)。 As shown in the flowchart of FIG. 23, the CPU 311 loads the correction strength I (1) i, j from the storage unit 315 to the register. Further, the CPU 311 determines the correction strength I (1) pre , the flag Flag pre, ω 2 , and the bandwidth in the subframe immediately before the subframe specified by i and j, and the strength of each band. Another strength h pre, ω is loaded from the storage unit 315 to the register (step S23).

CPU311は、記憶部315の中を検索して、ピッチ長Pi、jが記憶部315に格納されているか否かを判別する(ステップS511)。格納されていると判別された場合には(ステップS511;Yes)、判別ステップS513に進む。格納されていないと判別された場合には(ステップS511;No)、別の判別ステップS515に進む。 The CPU 311 searches the storage unit 315 to determine whether or not the pitch length P i, j is stored in the storage unit 315 (step S511). If it is determined that it is stored (step S511; Yes), the process proceeds to determination step S513. If it is determined that it is not stored (step S511; No), the process proceeds to another determination step S515.

ステップS513では、CPU311は、フラグFlagi、j、ωがFlagi、j、ω="UV"であるか否かを判別する。"UV"であると判別された場合には(ステップS513;Yes)、判別ステップS515に進む。"UV"ではないと判別された場合には(ステップS513;No)、別の判別ステップS517に進む。 In step S513, the CPU 311 determines whether or not the flags Flag i, j, ω are Flag i, j, ω = “UV”. If it is determined that it is “UV” (step S513; Yes), the process proceeds to determination step S515. If it is determined that it is not “UV” (step S513; No), the process proceeds to another determination step S517.

ステップS515では、CPU311は、Flagi、j、ω=Flagpre、ωであるか否かを判別する。Flagi、j、ω=Flagpre、ωであると判別された場合には(ステップS515;Yes)、ステップS551に進む。Flagi、j、ω=Flagpre、ωではないと判別された場合には(ステップS515;No)、ステップS553に進む。 In step S515, the CPU 311 determines whether or not Flag i, j, ω = Flag pre, ω . If it is determined that Flag i, j, ω = Flag pre, ω (step S515; Yes), the process proceeds to step S551. If it is determined that Flag i, j, ω = Flag pre, ω is not satisfied (step S515; No), the process proceeds to step S553.

ステップS517でも同様に、CPU311は、Flagi、j、ω=Flagpre、ωであるか否かを判別し、そうであると判別された場合には(ステップS517;Yes)ステップS555に、そうでないと判別された場合には(ステップS517;No)ステップS559に、それぞれ進む。 Similarly in step S517, the CPU 311 determines whether or not Flag i, j, ω = Flag pre, ω , and if so (step S517; Yes), the process proceeds to step S555. If it is determined that it is not (step S517; No), the process proceeds to step S559.

以上のステップを経てステップS551、ステップS553、ステップS555、及び、ステップS559に達したということは、それぞれ、iとjとで特定されるサブフレームにおける帯域別復号用励起信号が、直前のサブフレームにおけるそれとの間で、雑音から雑音、非雑音から雑音、非雑音から非雑音、及び、雑音から非雑音へと、つながるべきこと又は切り替わるべきことを意味する。これらの各ステップ終了後に、処理は終了する。   Having reached step S551, step S553, step S555, and step S559 through the above steps means that the band-by-band decoding excitation signal in the subframe specified by i and j is the previous subframe, respectively. It means to connect to or switch from noise to noise, non-noise to noise, non-noise to non-noise, and noise to non-noise. After each of these steps, the process ends.

このうち、非雑音から雑音に切り替わる場合(ステップS553)と、雑音から非雑音に切り替わる場合(ステップS559)とには、上述のスムージング処理を行わず、単に図19のステップS397とステップS399とに相当するExi、j、ω=I(1)i、j×hi、j、ω×Rpti、j、ω(ステップS553)とExi、j、ω=I(1)i、j×hi、j、ω×Ppti、j、ω(ステップS559)という計算により、帯域別復号用励起信号Exi、j、ωを生成する。 Of these, in the case of switching from non-noise to noise (step S553) and in the case of switching from noise to non-noise (step S559), the above-described smoothing processing is not performed and only steps S397 and S399 in FIG. 19 are performed. Corresponding Ex i, j, ω = I (1) i, j × h i, j, ω × Rpt i, j, ω (step S553) and Ex i, j, ω = I (1) i, j × By calculating h i, j, ω × Ppt i, j, ω (step S559), the band-specific decoding excitation signals Ex i, j, ω are generated.

雑音と非雑音とは、性質の違いのため、信号強度を直接比較しても有益な情報は得られない。そこで、ステップS553及びステップS559の場合のような、同一の帯域において、雑音的性質を有するサブフレームと雑音的性質を有さないサブフレームとが隣接している場合には、むしろ上述のスムージング処理は行わないほうが再生音声信号が自然なものとなる。   Because noise and non-noise are different in nature, no useful information can be obtained by directly comparing the signal strengths. Therefore, when the subframe having noise characteristics and the subframe having no noise characteristics are adjacent to each other in the same band as in the case of step S553 and step S559, the above-described smoothing process is rather performed. If this is not performed, the reproduced audio signal becomes natural.

ステップS551及びステップS555では、サブフレームの境界で帯域別復号用励起信号の強度がなだらかに変化するように帯域別復号用励起信号Exi、j、ωを生成する。 In steps S551 and S555, band-specific decoding excitation signals Ex i, j, and ω are generated so that the intensity of the band-specific decoding excitation signal changes gently at the subframe boundaries.

その具体的な手順、すなわちスムージング処理の一例を、図24のフローチャートに示す。CPU311は、時系列カウンタtをt=0に設定する(ステップS24)。   An example of the specific procedure, that is, the smoothing process is shown in the flowchart of FIG. The CPU 311 sets the time series counter t to t = 0 (step S24).

ステップS551の場合、すなわち、雑音サブフレーム同士が隣接する場合には、帯域別復号用励起信号Exi、j、ωの第(t+1)番目の要素であるexi、j、ω、tを、
exi、j、ω、t
={(L-t)×I(1)pre×hpre、ω+t×I(1)i、j×hi、j、ω}×rpti、j、ω、t/L
により求める。
In the case of step S551, that is, when noise subframes are adjacent to each other, ex i, j, ω, t, which are the (t + 1) -th elements of the band-by-band decoding excitation signals Ex i, j, ω . The
ex i, j, ω, t
= {(Lt) × I (1) pre × h pre, ω + t × I (1) i, j × h i, j, ω } × rpt i, j, ω, t / L
Ask for.

ステップS555の場合、すなわち、非雑音サブフレーム同士が隣接する場合には、帯域別復号用励起信号Exi、j、ωの第(t+1)番目の要素であるexi、j、ω、tを、
exi、j、ω、t
={(L-t)×I(1)pre×hpre、ω+t×I(1)i、j×hi、j、ω}×ppti、j、ω、t/L
により求める(ステップS561)。
If in step S555, i.e., when the non-noise sub-frame are adjacent to each other, the bandwidth for a different decoded excitation signal Ex i, j, a second (t + 1) th element of omega ex i, j, omega, t
ex i, j, ω, t
= {(Lt) × I (1) pre × h pre, ω + t × I (1) i, j × h i, j, ω } × ppt i, j, ω, t / L
(Step S561).

CPU311は、tがL-1に達したか否かを判別する(ステップS563)。達していると判別された場合は(ステップS563;Yes)、処理を終了する。達していないと判別された場合は(ステップS563;No)、tを1増加してから(ステップS565)、ステップS561を繰り返す。   The CPU 311 determines whether or not t has reached L−1 (step S563). If it is determined that it has been reached (step S563; Yes), the process is terminated. If it is determined that it has not been reached (step S563; No), t is increased by 1 (step S565), and then step S561 is repeated.

以上のように求められた帯域別復号用励起信号は全ての帯域にわたり合計され、復号用励起信号として図2の残差信号復元部65から出力される。   The band-specific decoding excitation signals obtained as described above are summed over all the bands, and are output from the residual signal restoration unit 65 of FIG. 2 as decoding excitation signals.

(音声再生信号を生成する手順)
図2の残差信号復元部65により上述のように生成され復号用励起信号として出力された信号は、疑似合成フィルタ部27を通されることにより、再生音声信号に変換される。具体的な手順は、図21に準ずる。試行用再生音声信号を単なる再生音声信号に、試行用励起信号を復号用励起信号に、それぞれ読み替える等する。
(Procedure for generating audio playback signal)
The signal generated as described above by the residual signal restoration unit 65 of FIG. 2 and output as the excitation signal for decoding is passed through the pseudo synthesis filter unit 27 to be converted into a reproduced audio signal. The specific procedure is based on FIG. The trial reproduction audio signal is replaced with a simple reproduction audio signal, the trial excitation signal is replaced with a decoding excitation signal, and the like.

例えば、図4の疑似合成フィルタ部27は、合成フィルタ算出部25により、図20の表に示された疑似係数ベクトルq[V]i、kの成分の値により定義される(図21のステップS419に相当。)。 For example, the pseudo synthesis filter unit 27 in FIG. 4 is defined by the synthesis filter calculation unit 25 by the values of the components of the pseudo coefficient vectors q [V] i and k shown in the table of FIG. 20 (step of FIG. 21). Equivalent to S419).

(実施形態2)
実施形態1に係る音声符号化装置1は、基準残差標本を特定し、該基準残差標本から時系列上で後方に1ピッチ長以内の区間すなわち検索対象区間に存在する標本のうちから、絶対値の大きい標本をいくつか選択して、それらの標本の、基準残差標本に対する相対的な大きさと、基準残差標本に対する時系列上の相対的な位置と、を、標本選択情報とした。
(Embodiment 2)
The speech encoding apparatus 1 according to the first embodiment identifies a reference residual sample, and from among the samples existing in a section within one pitch length backward in time series from the reference residual sample, that is, in a search target section, Select several samples with large absolute values, and the relative size of these samples with respect to the reference residual sample and the relative position on the time series with respect to the reference residual sample are used as sample selection information. .

本実施形態に係る音声符号化装置も、検索対象区間の決定は、実施形態1に係る音声符号化装置1と同様に行う。   The speech encoding apparatus according to the present embodiment also determines the search target section in the same manner as the speech encoding apparatus 1 according to the first embodiment.

しかし、本実施形態に係る音声符号化装置は、検索対象区間をあらかじめ所定の個数の小区間に等分しておき、それぞれの小区間毎に最大の絶対値を有する標本を特定し、該標本の基準残差標本に対する相対的な大きさを標本選択情報とする。   However, the speech encoding apparatus according to the present embodiment equally divides the search target section into a predetermined number of small sections in advance, specifies a sample having the maximum absolute value for each small section, and The relative size with respect to the reference residual sample is used as sample selection information.

そして、本実施形態においては、検索対象区間に含まれる小区間の個数は、音声符号化装置と音声復号装置との間で、あらかじめ同じ個数に取り決められている。   In this embodiment, the number of small sections included in the search target section is determined in advance between the speech coding apparatus and the speech decoding apparatus.

さらに、音声符号化装置と音声復号装置との間では、前者から後者へ、標本選択情報を例えば時系列順に送信するというように取り決められている。   Furthermore, between the speech coding apparatus and the speech decoding apparatus, it is agreed that the sample selection information is transmitted from the former to the latter, for example, in chronological order.

そして、そのように標本選択情報を受け取った音声復号装置は、1番目の標本として受け取った標本を1番目の小区間に割り当てる。音声復号装置は続いて、2番目の標本として受け取った標本を2番目の小区間に割り当てる。以下、同様である。このようにして、本実施形態に係る音声復号装置は、復号用励起信号を生成するためのピッチパルス列を生成する。   Then, the speech decoding apparatus that receives the sample selection information in this way assigns the sample received as the first sample to the first subsection. Subsequently, the speech decoding apparatus assigns the sample received as the second sample to the second small section. The same applies hereinafter. In this manner, the speech decoding apparatus according to the present embodiment generates a pitch pulse train for generating a decoding excitation signal.

音声復号装置は、小区間内の先頭サンプリング時刻を基準とした所定の時刻に、受け取った標本を割り当てるものとする。   It is assumed that the speech decoding apparatus assigns the received sample to a predetermined time with reference to the leading sampling time in the small section.

このため、実施形態1の場合と異なり、ひとつには、音声符号化装置側で、絶対値が比較的大きい2個の標本がたまたま同一小区間に属している場合には、一方の標本が、その顕著さにもかかわらず、選択されない。よって当然のことながら、音声復号装置側はそのように捨象された標本を再現し得ない。そしてもうひとつには、音声復号装置は、標本が存在するべき厳密なサンプリング時刻を知らされず、単に標本がどの小区間に属しているかということだけを知らされる。よって、選択された標本は、音声符号化装置から音声復号装置への情報伝達の過程において、最大で小区間の時間長ぶんだけ、時系列上の位置が移動してしまう。   For this reason, unlike the case of the first embodiment, in the case where two samples having relatively large absolute values happen to belong to the same small section on the speech encoding device side, one sample is Despite its saliency, it is not selected. Therefore, as a matter of course, the speech decoding apparatus cannot reproduce such a sample that has been discarded. The other is that the speech decoding apparatus is not informed of the exact sampling time at which the sample should be present, but only in which subsection the sample belongs. Therefore, the position of the selected sample in time series is shifted by the maximum time length of a small section in the process of information transmission from the speech coding apparatus to the speech decoding apparatus.

つまり、同一個数の標本を送受信するという条件で比較した場合、本実施形態に係る音声復号装置は、実施形態1に係る音声復号装置2ほど的確には、ピッチパルス列を生成しないといえる。   That is, when compared under the condition that the same number of samples are transmitted and received, it can be said that the speech decoding apparatus according to the present embodiment does not generate a pitch pulse train as accurately as the speech decoding apparatus 2 according to the first embodiment.

しかし、本実施例の場合、実施形態1の場合と異なり、音声符号化装置は、音声復号装置に対して、基準残差標本に対する選択した標本の相対的な位置を通知する必要がない。   However, in the case of the present example, unlike the case of the first embodiment, the speech encoding device does not need to notify the speech decoding device of the relative position of the selected sample with respect to the reference residual sample.

よって、実施形態1の場合と同じ数の標本について標本選択情報を生成した場合、該情報は少なくて済むので、通信ビットレートに制約がある場合には有利である。   Therefore, when sample selection information is generated for the same number of samples as in the first embodiment, the information is small, which is advantageous when the communication bit rate is limited.

以下では、ここまでに述べてきた本実施形態における標本の選択の仕方及び音声復号装置側でのピッチパルス列の生成の仕方について、図25と図26とに示された具体例を用いて、説明する。   Hereinafter, the method of selecting a sample and the method of generating a pitch pulse train on the speech decoding apparatus side in the present embodiment described so far will be described with reference to specific examples shown in FIGS. To do.

残差信号は図25(a)に示すとおりのものであるとする。これは、実施形態1について説明した際に参照した図11(a)と同じものである。よって、本実施形態の、実施形態1と比べた場合の特徴は、図25及び図26を、図11及び図12と比較すると、容易に理解できる。   The residual signal is assumed to be as shown in FIG. This is the same as FIG. 11A referred to when the first embodiment is described. Therefore, the features of this embodiment compared to Embodiment 1 can be easily understood by comparing FIGS. 25 and 26 with FIGS.

ピッチ長Pi、jに相当する時間区間を、図25(b)に示すように、ここでは、4個の小区間に分割するとする。すると、図25(c)に示すように、各小区間の中で最大の絶対値を有する標本が選択される。 As shown in FIG. 25B, the time interval corresponding to the pitch length P i, j is assumed to be divided into four small intervals here. Then, as shown in FIG. 25C, the sample having the maximum absolute value in each small section is selected.

同じ個数の標本が選択される図11(c)とは、選択される標本が異なる。本実施形態の場合は、実施形態1の場合とは標本の選択の仕方が異なるためである。例えば、図11(c)ではu(2)として選択されている標本は、比較的顕著な大きさを有するものの、図25(c)では選択されない。図25(c)では、該標本とたまたま同じ小区間に含まれる、より大きい標本だけが、u(1)として選択されるためである。   The selected specimen is different from FIG. 11C in which the same number of specimens are selected. This is because the sample selection method is different from the case of the first embodiment. For example, the sample selected as u (2) in FIG. 11 (c) has a relatively significant size, but is not selected in FIG. 25 (c). This is because in FIG. 25C, only the larger sample that happens to be included in the same small section as the sample is selected as u (1).

ここで、選択された標本は、音声復号装置側では、小区間の先頭のサンプリング時刻に割り当てられるとあらかじめ決めてあるものとする。すると、本実施形態の場合に音声復号装置側でピッチパルス列の繰り返し単位となる信号は、図26(a)のようなものである。図25(c)と比べると、標本の位置がずれている。これは、本実施形態に係る音声復号装置は、標本の時系列上の位置を、小区間単位でしか把握しないためである。この点、実施形態1の場合、図11(c)と図12(a)とに示されるとおり、標本の位置がずれることはない。   Here, it is assumed that the selected sample is predetermined on the speech decoding apparatus side to be assigned to the first sampling time of the small section. Then, in the case of this embodiment, the signal which becomes the repetition unit of the pitch pulse train on the speech decoding apparatus side is as shown in FIG. Compared to FIG. 25 (c), the position of the sample is shifted. This is because the speech decoding apparatus according to the present embodiment grasps the position of the sample in time series only in units of small sections. In this regard, in the case of the first embodiment, as shown in FIGS. 11C and 12A, the position of the specimen does not shift.

本実施形態に係る音声復号装置により生成されるピッチパルス列は、図26(b)に示すものとなる。図12(b)に示される実施形態1の場合とは、異なっている。なお、図26(c)は、元の残差信号であり、図25(a)、図11(a)、及び、図12(c)と同じものである。   The pitch pulse train generated by the speech decoding apparatus according to this embodiment is as shown in FIG. This is different from the case of the first embodiment shown in FIG. FIG. 26C shows the original residual signal, which is the same as FIGS. 25A, 11A, and 12C.

(実施形態3)
実施形態2では、小区間の中から絶対値が最大の標本を選択した。それに対して、本実施形態では、小区間に含まれる全ての標本の平均値を基準残差標本の絶対値により除した値を、標本選択情報とする。
(Embodiment 3)
In the second embodiment, the sample having the maximum absolute value is selected from the small sections. On the other hand, in this embodiment, a value obtained by dividing the average value of all samples included in the small section by the absolute value of the reference residual sample is used as sample selection information.

つまり、実施形態2の場合は、小区間に含まれる特定のひとつの標本により、該小区間を代表させるのに対して、本実施形態の場合は、小区間に含まれる全標本に基づいて計算された値により、該小区間を代表させる。   That is, in the case of the second embodiment, the specific small sample included in the small section is used to represent the small section. In the case of the present embodiment, the calculation is performed based on all the samples included in the small section. The small section is represented by the obtained value.

実施形態1と比較した場合の本実施形態の特徴は、実施形態2の場合と同様である。   The features of this embodiment compared to the first embodiment are the same as those of the second embodiment.

なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。上述のハードウェア構成やブロック構成、フローチャートはあくまでも説明のための例示であって、本発明の範囲を限定するための例示ではない。   In addition, this invention is not limited to the said embodiment, A various deformation | transformation and application are possible. The above-described hardware configuration, block configuration, and flowchart are merely examples for explanation, and are not examples for limiting the scope of the present invention.

例えば、図5に示される音声符号化兼復号装置3の例として携帯電話機を挙げたが、PHS(Personal Handyphone System)、PDA(Personal Digital Assistants)、ノート型及びデスクトップ型パーソナルコンピュータ等による音声処理においても、同様に本発明を適用することができる。例えば本発明をパーソナルコンピュータに適用する場合には、パーソナルコンピュータに音声入出力装置や通信装置等を付加すれば、ハードウェアとしては携帯電話機の機能を有するようにすることができる。そして、上述の処理をコンピュータに実行させるためのコンピュータプログラムが記録媒体や通信により配布されれば、これをコンピュータにインストールして実行させることにより、該コンピュータをこの発明に係る音声符号化装置又は音声復号装置として機能させることも可能である。   For example, a mobile phone has been cited as an example of the speech encoding / decoding device 3 shown in FIG. 5. Similarly, the present invention can be applied. For example, when the present invention is applied to a personal computer, if a voice input / output device, a communication device, or the like is added to the personal computer, it can have the function of a mobile phone as hardware. Then, if a computer program for causing a computer to execute the above-described processing is distributed by a recording medium or communication, the computer is installed and executed on the computer, thereby causing the computer to execute the speech encoding apparatus or the speech according to the present invention. It is also possible to function as a decoding device.

すなわち、上記実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。   That is, the said embodiment is for description and does not restrict | limit the scope of the present invention. Therefore, those skilled in the art can employ embodiments in which each or all of these elements are replaced with equivalent ones, and these embodiments are also included in the scope of the present invention.

本発明の実施形態1に係る音声符号化装置の機能構成を示す図である。It is a figure which shows the function structure of the audio | voice coding apparatus which concerns on Embodiment 1 of this invention. 本発明の実施形態1に係る音声復号装置の機能構成を示す図である。It is a figure which shows the function structure of the speech decoding apparatus which concerns on Embodiment 1 of this invention. 残差信号特徴量抽出部の詳細な機能構成を示す図である。It is a figure which shows the detailed functional structure of a residual signal feature-value extraction part. 残差信号復元試行部の詳細な機能構成を示す図である。It is a figure which shows the detailed functional structure of a residual signal restoration trial part. 本発明の実施形態1に係る音声符号化兼復号装置の物理的な構成を示す図である。It is a figure which shows the physical structure of the audio | voice encoding and decoding apparatus which concerns on Embodiment 1 of this invention. 予測係数から構成される係数ベクトルを表として示すとともに、係数ベクトルが量子化される様子を模式的に示す図である。It is a figure which shows typically a mode that a coefficient vector comprised from a prediction coefficient is shown as a table | surface, and a coefficient vector is quantized. 予測分析の流れを示す図である。It is a figure which shows the flow of a prediction analysis. ベクトル正規化とスカラー量子化とベクトル量子化とを行う流れを示す図である。It is a figure which shows the flow which performs vector normalization, scalar quantization, and vector quantization. 残差信号からピッチ長と標本選択情報とフラグと帯域別強度とを生成する流れを示す図である。It is a figure which shows the flow which produces | generates pitch length, sample selection information, a flag, and the intensity | strength according to a band from a residual signal. 標本選択情報を生成する流れを示す図である。It is a figure which shows the flow which produces | generates sample selection information. 本発明の実施形態1における標本選択及びピッチパルス列生成の具体例の前半を示す図である。It is a figure which shows the first half of the specific example of sample selection and pitch pulse train generation in Embodiment 1 of this invention. 本発明の実施形態1における標本選択及びピッチパルス列生成の具体例の後半を示す図である。It is a figure which shows the second half of the specific example of the sample selection and pitch pulse train generation in Embodiment 1 of this invention. 帯域ωについてのフラグを生成する流れを示す図である。It is a figure which shows the flow which produces | generates the flag about band (omega). 帯域別残差信号の帯域別絶対強度を求める流れを示す図である。It is a figure which shows the flow which calculates | requires the absolute strength according to zone | band of the residual signal according to zone | band. 帯域別強度を生成する流れを示す図である。It is a figure which shows the flow which produces | generates the intensity | strength according to zone | band. ピッチ長と標本選択情報とフラグと帯域別強度とから試行用励起信号を生成する流れを示す図である。It is a figure which shows the flow which produces | generates the excitation signal for trial from pitch length, sample selection information, a flag, and the intensity | strength according to a zone | band. 帯域別ピッチパルス列を生成する流れを示すとともに、ピッチパルス列を模式的に示す図である。It is a figure which shows the flow which produces | generates the pitch pulse train according to zone | band, and shows a pitch pulse train typically. 帯域別雑音パルス列を生成する流れを示すとともに、雑音パルス列を模式的に示す図である。It is a figure which shows the flow which produces | generates the noise pulse train according to zone | band, and shows a noise pulse train typically. 帯域別試行用励起信号を生成する流れを示す図である。It is a figure which shows the flow which produces | generates the excitation signal for trial according to band. 係数ベクトルと疑似係数ベクトルとを並べて表として示した図である。It is the figure which showed the coefficient vector and the pseudo coefficient vector side by side as a table. 試行用再生音声信号を生成する流れを示す図である。It is a figure which shows the flow which produces | generates the reproduction audio | voice signal for trial. 修正強度を生成する流れを示す図である。It is a figure which shows the flow which produces | generates correction intensity | strength. 帯域別復号用励起信号を生成する流れを示す図である。It is a figure which shows the flow which produces | generates the excitation signal for decoding according to zone | bands. サブフレームの境界で強度がなめらかに変化するように帯域別復号用励起信号を生成する流れを示す図である。It is a figure which shows the flow which produces | generates the excitation signal for decoding according to a band so that an intensity | strength may change smoothly in the boundary of a sub-frame. 本発明の実施形態2における標本選択及びピッチパルス列生成の具体例の前半を示す図である。It is a figure which shows the first half of the specific example of the sample selection and pitch pulse train generation in Embodiment 2 of this invention. 本発明の実施形態2における標本選択及びピッチパルス列生成の具体例の後半を示す図である。It is a figure which shows the second half of the specific example of the sample selection and pitch pulse train production | generation in Embodiment 2 of this invention.

符号の説明Explanation of symbols

1・・・実施形態1に係る音声符号化装置、2・・・実施形態1に係る音声復号装置、3・・・総合ピッチ判別部、4・・・ピッチパルス列生成部、5・・・実施形態1に係る音声符号化兼復号装置、11・・・マイクロフォン、13・・・A/D変換部、15・・・予測分析部、17・・・予測分析用逆フィルタ算出器、19・・・ベクトル正規化部、21・・・スカラー量子化部、23・・・ベクトル量子化部、25・・・合成フィルタ算出部、27・・・疑似合成フィルタ部、29・・・残差信号特徴量抽出部、31・・・残差信号復元試行部、33・・・修正因子決定部、35・・・符号化部、37・・・送信部、61・・・受信部、63・・・復号部、65・・・残差信号復元部、67・・・D/A変換部、69・・・スピーカ、111・・・ピッチ抽出用スイッチ、113・・・ピッチ抽出部、115・・・帯域フィルタ部、117・・・第1帯域フィルタ、119・・・第2帯域フィルタ、121・・・第3帯域フィルタ、123・・・帯域別雑音判別部、125・・・第1帯域雑音判別器、127・・・第2帯域雑音判別器、129・・・フラグ生成部、131・・・帯域別強度決定部、133・・・第1帯域強度算出器、135・・・第2帯域強度算出器、141・・・標本選択部、211・・・雑音パルス列生成部、221・・・帯域別試行用励起信号生成部、223・・・第1帯域別試行用励起信号生成器、225・・・第2帯域別試行用励起信号生成器、227・・・試行用励起信号生成部、311・・・CPU、313・・・ROM、315・・・記憶部、317・・・無線通信部、319・・・音声処理部、321・・・操作キー入力処理部、323・・・システムバス、325・・・アンテナ、327・・・操作キー、329・・・RAM、331・・・ハードディスク   DESCRIPTION OF SYMBOLS 1 ... Speech coding apparatus according to Embodiment 1, 2 ... Speech decoding apparatus according to Embodiment 1, 3 ... Total pitch discrimination unit, 4 ... Pitch pulse train generation unit, 5 ... Implementation Speech encoding and decoding apparatus according to embodiment 1, 11 ... microphone, 13 ... A / D conversion unit, 15 ... prediction analysis unit, 17 ... inverse filter calculator for prediction analysis, 19 ... -Vector normalization unit, 21 ... scalar quantization unit, 23 ... vector quantization unit, 25 ... synthesis filter calculation unit, 27 ... pseudo synthesis filter unit, 29 ... residual signal feature Quantity extraction unit 31 ... Residual signal restoration trial unit 33 ... Correction factor determination unit 35 ... Coding unit 37 ... Transmission unit 61 ... Reception unit 63 ... Decoding unit, 65... Residual signal restoration unit, 67... D / A conversion unit, 69. DESCRIPTION OF SYMBOLS 11 ... Switch for pitch extraction, 113 ... Pitch extraction part, 115 ... Band filter part, 117 ... 1st band filter, 119 ... 2nd band filter, 121 ... 3rd band Filter, 123... Noise discrimination unit for each band, 125... First band noise discriminator, 127... Second band noise discriminator, 129. , 133... 1st band intensity calculator, 135... 2nd band intensity calculator, 141... Sample selection section, 211... Noise pulse train generator, 221. Signal generation unit, 223 ... Trial excitation signal generator for each first band, 225 ... Trial excitation signal generator for each second band, 227 ... Trial excitation signal generation unit, 311 ... CPU 313 ... ROM, 315 ... memory 317: Wireless communication unit, 319 ... Audio processing unit, 321 ... Operation key input processing unit, 323 ... System bus, 325 ... Antenna, 327 ... Operation key, 329 ...・ RAM, 331 ... Hard disk

Claims (3)

音声信号を予測係数と残差標本の時系列である残差信号とに分解する予測分析部と、
前記残差信号からピッチ長を抽出するピッチ長抽出部と、
前記残差標本のうち最大の絶対値を有する残差標本である基準残差標本を特定し、該基準残差標本の絶対値である残差標本最大絶対値を求め、該基準残差標本に対応する時刻を始点とする前記ピッチ長1個に相当する時間帯を所定の個数の区分時間帯に分割し、該区分時間帯毎に残差標本の平均値を前記残差標本最大絶対値により除した値である区分時間別残差標本強度比率を求める特徴量抽出部と、
前記予測係数と前記ピッチ長と前記区分時間別残差標本強度比率とを符号化する符号化部と、
を備える音声符号化装置。
A prediction analysis unit that decomposes a speech signal into a prediction signal and a residual signal that is a time series of residual samples;
A pitch length extraction unit for extracting a pitch length from the residual signal;
A reference residual sample that is a residual sample having the largest absolute value among the residual samples is identified, a residual sample maximum absolute value that is an absolute value of the reference residual sample is obtained, and the reference residual sample is obtained. A time zone corresponding to one pitch length starting from the corresponding time is divided into a predetermined number of segment time zones, and an average value of residual samples is determined by the residual sample maximum absolute value for each segment time zone. A feature amount extraction unit for obtaining a residual sample strength ratio by segment time, which is a value obtained by dividing,
An encoding unit that encodes the prediction coefficient, the pitch length, and the segmented time residual sample intensity ratio;
A speech encoding device comprising:
音声信号を予測係数と残差標本の時系列である残差信号とに分解する予測分析ステップと、
前記残差信号からピッチ長を抽出するピッチ長抽出ステップと、
前記残差標本のうち最大の絶対値を有する残差標本である基準残差標本を特定し、該基準残差標本の絶対値である残差標本最大絶対値を求め、該基準残差標本に対応する時刻を始点とする前記ピッチ長1個に相当する時間帯を所定の個数の区分時間帯に分割し、該区分時間帯毎に残差標本の平均値を前記残差標本最大絶対値により除した値である区分時間別残差標本強度比率を求める特徴量抽出ステップと、
前記予測係数と前記ピッチ長と前記区分時間別残差標本強度比率とを符号化する符号化ステップと、
から構成される音声符号化方法。
A predictive analysis step that decomposes the speech signal into a prediction signal and a residual signal that is a time series of residual samples;
A pitch length extraction step for extracting a pitch length from the residual signal;
A reference residual sample that is a residual sample having the largest absolute value among the residual samples is identified, a residual sample maximum absolute value that is an absolute value of the reference residual sample is obtained, and the reference residual sample is obtained. A time zone corresponding to one pitch length starting from the corresponding time is divided into a predetermined number of segment time zones, and an average value of residual samples is determined by the residual sample maximum absolute value for each segment time zone. A feature amount extraction step for obtaining a residual sample strength ratio by segment time, which is a value obtained by dividing,
An encoding step for encoding the prediction coefficient, the pitch length, and the residual sample strength ratio by segment time;
A speech encoding method comprising:
コンピュータに、
音声信号を予測係数と残差標本の時系列である残差信号とに分解する予測分析ステップと、
前記残差信号からピッチ長を抽出するピッチ長抽出ステップと、
前記残差標本のうち最大の絶対値を有する残差標本である基準残差標本を特定し、該基準残差標本の絶対値である残差標本最大絶対値を求め、該基準残差標本に対応する時刻を始点とする前記ピッチ長1個に相当する時間帯を所定の個数の区分時間帯に分割し、該区分時間帯毎に残差標本の平均値を前記残差標本最大絶対値により除した値である区分時間別残差標本強度比率を求める特徴量抽出ステップと、
前記予測係数と前記ピッチ長と前記区分時間別残差標本強度比率とを符号化する符号化ステップと、
を実行させるためのプログラム。
On the computer,
A predictive analysis step that decomposes the speech signal into a prediction signal and a residual signal that is a time series of residual samples;
A pitch length extraction step for extracting a pitch length from the residual signal;
A reference residual sample that is a residual sample having the largest absolute value among the residual samples is identified, a residual sample maximum absolute value that is an absolute value of the reference residual sample is obtained, and the reference residual sample is obtained. A time zone corresponding to one pitch length starting from the corresponding time is divided into a predetermined number of segment time zones, and an average value of residual samples is determined by the residual sample maximum absolute value for each segment time zone. A feature amount extraction step for obtaining a residual sample strength ratio by segment time, which is a value obtained by dividing,
An encoding step for encoding the prediction coefficient, the pitch length, and the residual sample strength ratio by segment time;
A program for running
JP2007098406A 2007-04-04 2007-04-04 Speech coding apparatus, speech coding method, and program Expired - Fee Related JP5119716B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007098406A JP5119716B2 (en) 2007-04-04 2007-04-04 Speech coding apparatus, speech coding method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007098406A JP5119716B2 (en) 2007-04-04 2007-04-04 Speech coding apparatus, speech coding method, and program

Publications (2)

Publication Number Publication Date
JP2008256912A JP2008256912A (en) 2008-10-23
JP5119716B2 true JP5119716B2 (en) 2013-01-16

Family

ID=39980553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007098406A Expired - Fee Related JP5119716B2 (en) 2007-04-04 2007-04-04 Speech coding apparatus, speech coding method, and program

Country Status (1)

Country Link
JP (1) JP5119716B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373594B (en) * 2016-08-31 2019-11-26 华为技术有限公司 A kind of tone detection methods and device

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60128500A (en) * 1983-12-15 1985-07-09 松下電器産業株式会社 Drive signal generation for synthesization of voice
JP2539351B2 (en) * 1984-01-18 1996-10-02 株式会社日立製作所 Speech synthesis method
JPS61256400A (en) * 1985-05-10 1986-11-13 株式会社日立製作所 Voice analysis/synthesization system
JPS61296398A (en) * 1985-06-26 1986-12-27 株式会社日立製作所 Voice analysis/sythesization system
JPS62194296A (en) * 1986-02-21 1987-08-26 株式会社日立製作所 Voice coding system
JPH01293398A (en) * 1988-05-23 1989-11-27 Hitachi Ltd Speech encoding system

Also Published As

Publication number Publication date
JP2008256912A (en) 2008-10-23

Similar Documents

Publication Publication Date Title
JP6790029B2 (en) A device for managing voice profiles and generating speech signals
US8548801B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
JP4005359B2 (en) Speech coding and speech decoding apparatus
EP1667112B1 (en) Apparatus, method and medium for coding an audio signal using correlation between frequency bands
JP4390803B2 (en) Method and apparatus for gain quantization in variable bit rate wideband speech coding
CN113223540B (en) Method, apparatus and memory for use in a sound signal encoder and decoder
US20080040104A1 (en) Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and computer readable recording medium
CN111508470A (en) Training method and device of speech synthesis model
KR20240022588A (en) Compress audio waveforms using neural networks and vector quantizers
JP4359949B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP5119716B2 (en) Speech coding apparatus, speech coding method, and program
KR20050006883A (en) Wideband speech coder and method thereof, and Wideband speech decoder and method thereof
JP4872748B2 (en) Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program
KR100718487B1 (en) Harmonic noise weighting in digital speech coders
JP2004348120A (en) Voice encoding device and voice decoding device, and method thereof
JP4935280B2 (en) Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program
JP4935329B2 (en) Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program
JP2002073097A (en) Celp type voice coding device and celp type voice decoding device as well as voice encoding method and voice decoding method
JP4932530B2 (en) Acoustic processing device, acoustic processing method, acoustic processing program, verification processing device, verification processing method, and verification processing program
JP3350340B2 (en) Voice coding method and voice decoding method
JP3700310B2 (en) Vector quantization apparatus and vector quantization method
KR20220022337A (en) A bit-stream-based modified vocoder using autoencoder, computer-readable storage medium and computer program
Sach et al. A Maximum Entropy Information Bottleneck (MEIB) Regularization for Generative Speech Enhancement with HiFi-GAN
JP3715417B2 (en) Audio compression encoding apparatus, audio compression encoding method, and computer-readable recording medium storing a program for causing a computer to execute each step of the method
JP2000305597A (en) Coding for speech compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120925

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5119716

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees