JPH08194499A - 音声符号化装置 - Google Patents
音声符号化装置Info
- Publication number
- JPH08194499A JPH08194499A JP7004921A JP492195A JPH08194499A JP H08194499 A JPH08194499 A JP H08194499A JP 7004921 A JP7004921 A JP 7004921A JP 492195 A JP492195 A JP 492195A JP H08194499 A JPH08194499 A JP H08194499A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- signal
- pitch
- mode
- dividing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ms以下と短くしても、モード判別の時間的変動による
音質劣化を起こすことなく、良好な音質を得ることがで
きる音声符号化装置を提供する。 【構成】 音声符号化装置内に、入力される聴感重み付
け信号を基に、特徴量としてピッチ予測ゲインを計算す
る機能と、少なくとも1フレーム分過去のピッチ予測ゲ
インを記憶しておく機能と、現フレームのピッチ予測ゲ
インと少なくとも1フレーム分過去のピッチ予測ゲイン
との重み付け和を算出する機能と、算出された重み付け
和を基にモードを判定する機能とを備える提案型モード
判別回路20A を設ける。
Description
り、たとえば、5ms−10ms以下の短いフレーム単
位で、音声信号を高品質に符号化する音声符号化装置に
関する。
とえば、オザワ(K.Ozawa) 氏らによる“M-LCEP Speech
Coding at 4kb/s with Multi-Mode and Mult-Codebook
”(IEICE Trans. Commun.,vol. E77-B, No.9,pp.1114-
1121,1994) と題した論文などが知られている。以下、
この論文に記載されている符号化方式の概要を説明す
る。
0ms)に音声信号から線型予測(LPC)分析を用い
て、音声信号のスペクトル特性を表すスペクトルパラメ
ータを抽出し、フレーム単位の信号もしくはフレーム単
位の信号に聴感重み付けを行った信号から特徴量を計算
し、その特徴量を用いて、たとえば、母音部と子音部の
判別といったモード判別を行い、モード判別結果に応じ
てアルゴリズムあるいはコードブックを切り替えて符号
化が行われる。
ーム(たとえば、8ms)に分割し、サブフレーム毎に
過去の音源信号を基に適応コードブックにおけるパラメ
ータ(ピッチ周期に対応する遅延パラメータとゲインパ
ラメータ)を抽出し、適応コードブックにより、サブフ
レームの音声信号をピッチ予測し、ピッチ予測して求め
た残差信号に対して、予め定められた種類の雑音信号か
らなる音声コードブック(ベクトル量子化コードブッ
ク)から最適音源コードベクトルを選択し、最適なゲイ
ンを計算することにより、音源信号を量子化する。
音信号により合成した信号と、上述の残差信号との誤差
電力を最小化するように行われ、選択されたコードベク
トルの種類を示すインデクスとゲイン並びに、スペクト
ルパラメータと適応コードブックのパラメータがマルチ
プレクサ部により組み合わせて伝送されている。
号化方法では、処理遅延を低減するためにはフレーム長
を短くすることが必要となるが、たとえば、フレーム長
を5ms以下にした場合には、特徴量の時間的が大きく
なるため、不安定で誤ったモード切り替えが生じ、音質
劣化がおこるという問題があった。
を算出することによって行われるが、フレーム長を、5
msとすると、N=40となる。すなわち、次式を用い
たピッチ抽出では、ET を計算する区間長が短いため
に、時間的に大きく変化するピッチが求められることに
なり、やはり、音質劣化が生じてしまう。
別による音質劣化が起こりにくい音声符号化装置を提供
することにある。
抽出による音質劣化が起こりにくい音声符号化装置を提
供することにある。
(イ)音声信号を所定サイズのフレーム単位の信号に分
割する分割手段と、(ロ)この分割手段が分割した現フ
レームの信号と、分割手段が少なくとも1フレーム分過
去に分割したフレームの信号とを基に決定される特徴量
を用いて、音声信号のモードの判別を行うモード判別手
段と、(ハ)このモード判別手段の判別したモードに応
じて特定されるアルゴリズムを用いて分割手段が分割し
たフレーム単位で音声信号の符号化を行う符号化手段と
を具備する。
レームの信号と、分割手段が少なくとも1フレーム分過
去に分割したフレームの信号とを基に決定される特徴量
(たとえば、ピッチ予測ゲイン)を用いて、音声信号の
モードの判別を行うように、音声符号化装置を構成する
ことによって、誤ったモード判別が生じないようにす
る。
所定サイズのフレーム単位の信号に分割する分割手段
と、(ロ)この分割手段が分割した現フレームの信号か
ら求めた特徴量と、分割手段が少なくとも1フレーム分
過去に分割したフレームの信号から求めた特徴量との重
み付け和を用いて、音声信号のモードの判別を行うモー
ド判別手段と、(ハ)このモード判別手段の判別したモ
ードに応じて特定されるアルゴリズムを用いて分割手段
が分割したフレーム単位で音声信号の符号化を行う符号
化手段とを具備する。
レームの信号から求めた特徴量(たとえば、ピッチ予測
ゲイン)と、分割手段が少なくとも1フレーム分過去に
分割したフレームの信号から求めた特徴量との重み付け
和を用いて、音声信号のモードの判別を行うように、音
声符号化装置を構成することによって、誤ったモード判
別が生じないようにする。
所定サイズのフレーム単位の信号に分割する分割手段
と、(ロ)この分割手段が分割した現フレームの信号
と、分割手段が少なくとも1フレーム分過去に分割した
フレームの信号とを用いてピッチを抽出するピッチ抽出
手段と、(ハ)このピッチ抽出手段が抽出したピッチを
用いて、分割手段が分割したフレーム単位で音声信号の
符号化を行う符号化手段とを具備する。
レームの信号と、分割手段が少なくとも1フレーム分過
去に分割したフレームの信号とを用いてピッチを抽出す
るように、音声符号化装置を構成することによって、誤
ったピッチ抽出が生じないようにする。なお、請求項4
記載の発明において、ピッチ抽出手段がピッチを抽出す
る際に用いる信号は、聴感重み付け信号であっても良
い。
所定サイズのフレーム単位の信号に分割する分割手段
と、(ロ)この分割手段が分割した現フレームの信号
と、分割手段が少なくとも1フレーム分過去に分割した
フレームの信号とを用いてピッチを抽出するピッチ抽出
手段と、(ハ)分割手段が分割したフレーム単位の信号
の特徴量を基に、音声信号のモードの判別を行うモード
判別手段と、(ニ)ピッチ抽出手段が抽出したピッチを
用いて、モード判別手段の判別したモードに応じて特定
されるアルゴリズムによって分割手段が分割したフレー
ム単位で音声信号の符号化を行う符号化手段とを具備す
る。声符号化装置。
レームの信号と、分割手段が少なくとも1フレーム分過
去に分割したフレームの信号とを用いてピッチが抽出さ
れ、そのピッチと、音声信号の特徴量を基に符号化が行
われるように、音声符号化装置を構成することによっ
て、誤ったピッチ抽出が生じないようにする。なお、請
求項5記載の発明において、ピッチ抽出手段がピッチを
抽出する際に用いる信号は、聴感重み付け信号であって
も良い。
る。
符号化装置の概略構成を示す。以下、この図を用いて、
第1の実施例の音声符号化装置の動作を説明する。
ら入力された音声信号を、フレーム(たとえば、5m
s)毎に分割する回路であり、サブフレーム分割回路1
2は、フレーム分割回路11が出力するフレームを、さ
らに短いフレーム(たとえば、2.5ms)に分割す
る。
なくとも1つのサブフレームの音声信号に対して、サブ
フレーム長よりも長い窓(たとえば、24ms)をかけ
て、音声を切り出してスペクトルパラメータを予め定め
られた次数(たとえば、P=10次)分計算する回路で
あり、実施例のスペクトルパラメータ計算回路13は、
Burg分析を用いて、スペクトルパラメータを計算す
るように構成されている。Burg分析の詳細は、中溝
著“信号解析とシステム同定”(コロナ社1998年刊)の
82〜88ページに記載されているので、その説明は省略す
る。なお、このスペクトルパラメータ計算回路として
は、たとえば、LPC分析などの他の計算法によって計
算が行われるものを用いることができる。
3では、Burg法により計算された線形予測係数αi
(i=1、…、10)を量子化や補間に適したLSPパ
ラメータに変換する処理も行われる。実施例のスペクト
ルパラメータ計算回路13でにおける線形予測係数から
LSPへの変換は、菅村他による“線スペクトル対(L
SP)音声分析合成方式による音声情報圧縮”と題した
論文(電子通信学会論文誌、J64-A 、pp.599-606、1981
年)を参照したものとしている。
13は、第2サブフレームでBurg法により求めた線
形予測係数を、LSPパラメータに変換し、第1サブフ
レームのLSPを直線補間により求めて、第1サブフレ
ームのLSPを逆変換して線形予測係数に戻し、第1、
2サブフレームの線形予測係数αil(i=1、…、1
0、l=1、…、5)を聴感重み付け回路17に、第
1、2サブフレームのLSPをスペクトルパラメータ量
子化回路14へ出力している。
予め定められたサブフレームのLSPパラメータを量子
化する回路であり、実施例のスペクトルパラメータ量子
化回路14は、量子化法として、ベクトル量子化を用
い、第2サブフレームのLSPパラメータを量子化する
ものとなっている。このLSPパラメータのベクトル量
子化の具体的な手順に関しては、特開平4−17150
0号公報(特願平2−297600号)や、特開平4−
363000号公報(特願平3−261925号)や、
特開平5−6199号公報(特願平3−155049
号)や、ノムラ(T.Nomura)等による“LSP Coding Using
VQ-SVQ With Interpolation in 4.075 kbpsM-LCELP Sp
eech Coder ”と題した論文(Proc. Mobile Multimedia
Communications, pp.B.2.5, 1993)等を参照されたい。
14では、第2サブフレームで量子化したLSPパラメ
ータを基に、第1、2サブフレームのLSPパラメータ
が復元される。実施例のスペクトルパラメータ量子化回
路14では、現フレームの第2サブフレームの量子化L
SPパラメータと1つ過去のフレームの第2サブフレー
ムの量子化LSPパラメータとを直線補間することによ
って、第1、2サブフレームのLSPが復元されてい
る。
SPとの誤差電力を最小化するコードベクトルを1種類
選択した後に、直線補間することにより第1〜第4サブ
フレームのLSPを復元できる。また、さらに性能を向
上させるためには、誤差電力を最小化するコードベクト
ルを複数候補選択した後に、各々の候補について、累積
歪を評価し、累積歪を最小化する候補と補間LSPの組
みを選択するようにすることもできる。
パターンを予め定められたビット数(たとえば2ビッ
ト)分用意しておき、これらのパターンの各々に対し
て、第1、2サブフレームの累積歪を最小化するコード
ベクトルと補間パターンの組みを選択するようにしても
良い。このようにすると補間パターンのビット数分だけ
伝送情報が増加することになるが、LSPのフレーム内
での時間的な変化をより精密に表すことができる。
のLSPデータに用いて学習して作成するようにしても
良く、予め定められたパターンを格納するようにしても
良い。後者の場合には、たとえば、タニグチ(T.Taniguc
hi) 氏等による“Improved CELP sppech coding at 4kb
/s and below”と題する論文(Proc. ICSLP, pp.41-44,
1992) に記載のパターンを用いることができる。また、
さらに、性能を改善するためには、補間パターンを選択
した後に、予め定められたサブフレームにおいて、LS
Pの真の値とLSPの補間値との誤差信号を求め、その
誤差信号をさらに誤差コードブックで表すようにしても
良い。
上記のような形で復元した第1、2サブフレームのLS
Pと第2サブフレームの量子化LSPを、サブフレーム
毎に線形予測係数αil′(i=1、…、10、l=1、
…、5)に変換し、インパルス応答計算回路16へ出力
するとともに、第2サブフレームの量子化LSPのコー
ドベクトルを表すインデクスをマルチプレクサ28に出
力する。
ルパラメータ計算回路13から、各サブフレーム毎に、
量子化前の線形予測係数αil(i=1、…、10、l=
1、…、5)を入力し、サブフレームの音声信号に対し
て、聴感重み付けを行い、聴感重み付け信号を出力す
る。そして、提案型モード判別回路20A は、聴感重み
付け回路17からフレーム単位で聴感重み付け信号を受
け取り、現在のフレームの特徴量と過去の1つのフレー
ムの特徴量とを基に、モード判別を行う。
す。図示してあるように、提案型モード判別回路20A
は、特徴量計算回路31とフレーム遅延器(D)32と
重み付け和計算回路33とモード判別回路34によって
構成されており、入力端子52からフレーム単位に聴感
重み付け信号が入力される。
基に、特徴量として、ピッチ予測ゲインGを計算し出力
する。重み付け計算回路32では、特徴量計算回路31
の出力と、フレーム遅延器32に格納されている1つ前
(過去)のフレームの特徴量との重み付け和GAVを(1)
式により求めて出力する。なお、(1) 式において、ν i
は、重み係数である。
AVを、予め定められた複数個のしきい値と比較して、モ
ード判別を行い、モード判別結果を出力する。たとえ
ば、4種類のモードに分ける場合には、モード判別回路
34内に3種類のしきい値が設定される。この提案型モ
ード判別回路20A 内のモード判別回路34が出力する
モード判別結果は、図1に示してあるように、適応コー
ドブック回路22と音声量子化回路24とマルチプレク
サ28に出力される。
メータ計算回路13からの線形予測係数αilと、スペク
トルパラメータ量子化回路14からの線形予測係数
αil′を基に、サブフレーム毎に、保存されているフィ
ルタメモリの値を用いて、入力信号d(n)を“0”と
した応答信号を1サブフレーム分計算し、減算器21に
出力する。この応答信号計算回路18が出力する応答信
号xz (n) は、(2) 式で表される。なお、(2) 式におい
て、γは、聴感重み付け量を制御する重み係数である。
器21は、(4) 式に従って、聴感重み付け信号から応答
信号を1サブフレーム分減算し、その減算結果を適応コ
ードブック回路22に出力する。
変換が、(4) 式で表される重み付けフィルタのインパル
ス応答hw (n) を予め定めた点数Lだけ計算し、適応コ
ードブック回路22、音源量子化回路24へ出力する。
メータを求めるとともに、ピッチ予測を(5) 式に従い行
い、適応コードブック予測算差信号Z(n)を出力する。な
お、(5) 式において、b(n)は、適応コードブックピッチ
予測信号であり、適応コードブックピッチ予測信号は、
β、Tを、それぞれ、適応コードブックのゲイン、遅延
とし、V(n)を適応コードベクトル、記号*を畳み込み演
算記号とすると、(6)式で表される。
ク25は、各々のベクトルの“0”でない成分の個数が
異なるスパースコードブックであり、音源量子化回路2
4では、不均一パルス数型スパース音源コードブック2
5に格納された音源コードベクトルの全部あるいは一部
に対して、(7) 式を最小化するように音源コードベクト
ルcj (n) が選択される。
のコードベクトルが選択されるようになっており、以下
に記載するゲイン量子化の際に最良のコードベクトルが
1種特定されるようになっているが、この選択の際に、
コードベクトルを1種に特定してしまっても良い。ま
た、一部の音源コードベクトルに対してのみ、(7) 式を
適用するときには、複数個の音源コードベクトルを予備
選択しておき、予備選択された音源コードベクトルに対
して(7) 式を適用することもできる。
ック27からゲインコードベクトルを読み出し、音源量
子化回路24によって選択された音源コードベクトルに
対して、(8) 式を最小化するように、音源コードベクト
ルとゲインコードベクトルの組み合わせを選択し、選択
した音源コードベクトルとゲインコードベクトルを表す
インデクスをマルチプレクサ28に出力する。なお、
(8) 式において、βK ′、γK ′は、ゲインコードブッ
ク27に格納されている2次元ゲインコードブックにお
けるk番目のコードベクトルである。
パラメータ計算回路13の出力パラメータおよび各イン
デクスを基に、それぞれのインデクスに対応するコード
ベクトルを読み出し、まず、(9) 式に基づき、駆動音源
信号v(n)を求める。
の出力パラメータ、スペクトルパラメータ量子化回路1
4の出力パラメータを用いて、(10)式により、重み付け
信号sw (n) をサブフレーム毎に計算し、計算した重み
付け信号を応答信号計算回路18に出力する。
置では、フレーム長よりも長い時間長にわたって平均化
されたモード情報が出力されることになるので、誤った
モード判別に起因する音質劣化を抑制できることにな
る。
符号化装置の構成を示す。図から明らかなように、第2
の実施例による音声符号化装置は、第1の実施例による
音声符号化装置内に設けられている提案型モード判別回
路20A を提案型モード判別回路20B に置換したもの
であり、他の回路の構成は、全く同一のものであるの
で、提案型モード判別回路20B に関する説明だけを行
うことにする。
備えられる提案型モード判別回路の構成を示す。図示し
てあるように、提案型モード判別回路20B は、フレー
ム遅延器(D)35と特徴量計算回路36とモード判別
回路37によって構成されており、入力端子52からフ
レーム単位に聴感重み付け信号が入力される。
信号およびフレーム遅延器35から入力される1フレー
ム分過去の信号を基に、ピッチ予測ゲインG(特徴量)
を、(11)ないし(13)式に従って、計算し、モード判別回
路37に出力する。なお、(13)式におけるTは、予測ゲ
インを最大化する最適遅延である。
36が出力するピッチ予測ゲインを、予め定められた複
数個のしきい値と比較して、モード判別を行い、モード
判別結果を、適応コードブック回路22と音声量子化回
路24とマルチプレクサ28に出力する。
とによっても、第1の実施例の音声符号化装置と同様
に、フレーム長よりも長い時間長にわたって平均化され
たモード情報が出力されることになり、その結果とし
て、誤ったモード判別に起因する音質劣化を抑制できる
ことになる。
符号化装置の概略構成を示す。以下、この図を用いて、
第3の実施例の音声符号化装置の動作を説明する。
ら入力された音声信号を、フレーム(たとえば、5m
s)毎に分割する回路であり、サブフレーム分割回路1
2は、フレーム分割回路11が出力するフレームを、さ
らに短いフレーム(たとえば、2.5ms)に分割す
る。
なくとも1つのサブフレームの音声信号に対して、サブ
フレーム長よりも長い窓(たとえば、24ms)をかけ
て、音声を切り出してスペクトルパラメータを予め定め
られた次数(たとえば、P=10次)分計算する回路で
あり、実施例のスペクトルパラメータ計算回路13は、
Burg分析を用いて、スペクトルパラメータを計算す
るように構成されている。Burg分析の詳細は、中溝
著“信号解析とシステム同定”(コロナ社1998年刊)の
82〜88ページに記載されているので、その説明は省略す
る。なお、このスペクトルパラメータ計算回路として
は、たとえば、LPC分析などの他の計算法によって計
算が行われるものを用いることができる。
3では、Burg法により計算された線形予測係数αi
(i=1、…、10)を量子化や補間に適したLSPパ
ラメータに変換する処理も行われる。実施例のスペクト
ルパラメータ計算回路13でにおける線形予測係数から
LSPへの変換は、菅村他による“線スペクトル対(L
SP)音声分析合成方式による音声情報圧縮”と題した
論文(電子通信学会論文誌、J64-A 、pp.599-606、1981
年)を参照したものとしている。
13は、第2サブフレームでBurg法により求めた線
形予測係数を、LSPパラメータに変換し、第1サブフ
レームのLSPを直線補間により求めて、第1サブフレ
ームのLSPを逆変換して線形予測係数に戻し、第1、
2サブフレームの線形予測係数αil(i=1、…、1
0、l=1、…、5)を聴感重み付け回路17に、第
1、2サブフレームのLSPをスペクトルパラメータ量
子化回路14へ出力している。
予め定められたサブフレームのLSPパラメータを量子
化する回路であり、実施例のスペクトルパラメータ量子
化回路14は、量子化法として、ベクトル量子化を用
い、第2サブフレームのLSPパラメータを量子化する
ものとなっている。このLSPパラメータのベクトル量
子化の具体的な手順に関しては、特開平4−17150
0号公報(特願平2−297600号)や、特開平4−
363000号公報(特願平3−261925号)や、
特開平5−6199号公報(特願平3−155049
号)や、“T.Nomura”等による“LSP Coding U
sing VQ-SVQ With Interpolation in 4.075kbps M-LCEL
P Speech Coder ”と題した論文(Proc. Mobile Multime
dia Communications, pp.B.2.5, 1993)等を参照された
い。
14では、第2サブフレームで量子化したLSPパラメ
ータを基に、第1、2サブフレームのLSPパラメータ
が復元される。実施例のスペクトルパラメータ量子化回
路14では、現フレームの第2サブフレームの量子化L
SPパラメータと1つ過去のフレームの第2サブフレー
ムの量子化LSPパラメータとを直線補間することによ
って、第1、2サブフレームのLSPが復元されてい
る。
SPとの誤差電力を最小化するコードベクトルを1種類
選択した後に、直線補間することにより第1〜第4サブ
フレームのLSPを復元できる。また、さらに性能を向
上させるためには、誤差電力を最小化するコードベクト
ルを複数候補選択した後に、各々の候補について、累積
歪を評価し、累積歪を最小化する候補と補間LSPの組
みを選択するようにすることもできる。
パターンを予め定められたビット数(たとえば2ビッ
ト)分用意しておき、これらのパターンの各々に対し
て、第1、2サブフレームの累積歪を最小化するコード
ベクトルと補間パターンの組みを選択するようにしても
良い。このようにすると補間パターンのビット数分だけ
伝送情報が増加することになるが、LSPのフレーム内
での時間的な変化をより精密に表すことができる。
のLSPデータに用いて学習して作成するようにしても
良く、予め定められたパターンを格納するようにしても
良い。後者の場合には、たとえば、タニグチ(T.Taniguc
hi) 氏等による“Improved CELP sppech coding at 4kb
/s and below”と題する論文(Proc. ICSLP, pp.41-44,
1992) に記載のパターンを用いることができる。また、
さらに、性能を改善するためには、補間パターンを選択
した後に、予め定められたサブフレームにおいて、LS
Pの真の値とLSPの補間値との誤差信号を求め、その
誤差信号をさらに誤差コードブックで表すようにしても
良い。
上記のような形で復元した第1、2サブフレームのLS
Pと第2サブフレームの量子化LSPを、サブフレーム
毎に線形予測係数αil′(i=1、…、10、l=1、
…、5)に変換し、インパルス応答計算回路16へ出力
するとともに、第2サブフレームの量子化LSPのコー
ドベクトルを表すインデクスをマルチプレクサ28に出
力する。
メータ計算回路13から、各サブフレーム毎に、量子化
前の線形予測係数αil(i=1、…、10、l=1、
…、5)を入力し、サブフレームの音声信号に対して、
聴感重み付けを行い、聴感重み付け信号を、提案型ピッ
チ抽出回路29A と減算器21に対して出力する。
付け回路17からフレーム単位で聴感重み付け信号を受
け取り、ピッチを求め、適応コードブック回路22に出
力する。
す。図示してあるように、提案型ピッチ抽出回路29A
は、フレーム遅延器(D)35とピッチ計算回路37に
よって構成されており、入力端子52からフレーム単位
に聴感重み付け信号が入力される。
け信号およびフレーム遅延器35からの1フレーム過去
の聴感重み付け信号を用いて、ピッチを計算し、出力す
る回路であり、ピッチTの抽出は、(14)、(15)式によっ
て表される誤差電力ET を最小にするTを求めることに
より行われる。なお、(14)、(15)式におい、Nは、フレ
ームに含まれる音声サンプル数である。
チTは、図1に示してあるように、適応コードブック回
路22に出力される。また、適応コードブック回路22
には、以下のように動作する応答信号計算回路18から
の信号が減算器21を介して入力されている。
メータ計算回路13からの線形予測係数αilと、スペク
トルパラメータ量子化回路14からの線形予測係数
αil′を基に、サブフレーム毎に、保存されているフィ
ルタメモリの値を用いて、入力信号d(n)を“0”と
した応答信号を1サブフレーム分計算し、減算器21に
出力する。この応答信号計算回路18が出力する応答信
号xz (n) は、(16)式で表される。なお、(16)式におい
て、γは、聴感重み付け量を制御する重み係数である。
器21は、(17)式に従って、聴感重み付け信号から応答
信号を1サブフレーム分減算し、その減算結果を適応コ
ードブック回路22に出力する。
変換が、(18)式で表される重み付けフィルタのインパル
ス応答hw (n) を予め定めた点数Lだけ計算し、適応コ
ードブック回路22、音源量子化回路24へ出力する。
案型ピッチ抽出回路29A により求められたピッチTの
近傍をクローズドループ探索により探索し、遅延パラメ
ータを求める。また、ピッチ予測を(19)式に従い行い、
適応コードブック予測算差信号Z(n)を出力する。なお、
(19)式において、b(n)は、適応コードブックピッチ予測
信号であり、β、Tを、それぞれ、適応コードブックの
ゲイン、遅延とし、V(n)を適応コードベクトル、記号*
を畳み込み演算記号とすると、(20)式で表される。
ク25は、各々のベクトルの“0”でない成分の個数が
異なるスパースコードブックであり、音源量子化回路2
4では、不均一パルス数型スパース音源コードブック2
5に格納された音源コードベクトルの全部あるいは一部
に対して、(21)式を最小化するように音源コードベクト
ルcj (n) を選択する。
量子化回路24では、2種以上のコードベクトルが選択
され、ゲイン量子化の際に、最良のコードベクトルを1
種特定するように構成してあるが、この選択の際に、コ
ードベクトルを1種に特定してしまっても良い。また、
一部の音源コードベクトルに対してのみ、(21)式を適用
するときには、複数個の音源コードベクトルを予備選択
しておき、予備選択された音源コードベクトルに対して
(21)式を適用することもできる。
コードブック27からゲインコードベクトルを読み出
し、音源量子化回路24によって選択された音源コード
ベクトルに対して、(22)式を最小化するように、音源コ
ードベクトルとゲインコードベクトルの組み合わせを選
択し、選択した音源コードベクトルとゲインコードベク
トルを表すインデクスをマルチプレクサ28に出力す
る。なお、(22)式において、βK ′、γK ′は、ゲイン
コードブック27に格納されている2次元ゲインコード
ブックにおけるk番目のコードベクトルである。
パラメータ計算回路13の出力パラメータおよび各イン
デクスを基に、それぞれのインデクスに対応するコード
ベクトルを読み出し、まず、(23)式に基づき、駆動音源
信号v(n)を求める。
の出力パラメータ、スペクトルパラメータ量子化回路1
4の出力パラメータを用いて、(24)式により、重み付け
信号sw (n) をサブフレーム毎に計算し、計算した重み
付け信号を応答信号計算回路18に出力する。
置では、フレーム長よりも長い時間長にわたって平均化
された信号によりピッチ抽出が行われることになり、そ
の結果として、誤ったピッチ抽出に起因する音質劣化を
抑制できることになる。
符号化装置の構成を示す。図から明らかなように、第4
の実施例による音声符号化装置は、第3の実施例による
音声符号化装置と、提案型ピッチ抽出回路とモード抽出
回路と適応コードブック回路と音源量子化回路が異なる
ものとなっており、これらについてのみ説明を行うこと
にする。
抽出回路の構成を示す。図示してあつように、提案型ピ
ッチ抽出回路29B は、フレーム遅延器35とピッチ・
ピッチ予測ゲイン計算回路38によって構成されてお
り、入力端子52からフレーム単位に聴感重み付け信号
が入力される。
は、現在の聴感重み付け信号およびフレーム遅延器35
からの1フレーム過去の聴感重み付け信号を用いて、ピ
ッチTおよびピッチ予測ゲインGを計算し、出力する回
路であり、ピッチTの計算は、前述の(14),(15) 式を用
いて行われ、ピッチ予測ゲインGは、(14),(15) 式によ
って得られるET とPを基に、(25)式を用いて算出され
る。
られたモードにおいて、提案型ピッチ抽出回路29B に
より求められたピッチTの近傍をクローズドループ探索
により探索し、遅延パラメータを求める。また、音源量
子化回路24は、接続されているN種類の音源コードブ
ック251 〜25N から、モード毎に音源コードブック
251 〜25N を切り替えて、音源コードブック251
〜25N に格納された全部あるいは一部の音源コードベ
クトルに対して、(22)式を最小化するように最良の音源
コードベクトルcj (n) を選択する。第4の実施例の音
声符号化装置では、この選択の際に、2種以上のコード
ベクトルを選んでおいて、ゲイン量子化の際に、1種に
本選択しているいが、この選択の際に、1種に本選択し
ても良い。
ないし3記載の音声符号化装置によれば、低遅延とする
ために、フレーム長を5〜10msと短くしても、モー
ド判別の時間的変動による音質劣化を起こすことがない
ので、良好な音質が維持できることになる。
装置では、低遅延とするために、フレーム長を5〜10
msと短くしても、抽出したピッチの時間的変動による
音質劣化を起こすことがないので、良好な音質が維持で
きることになる。
構成を示すブロック図である。
る提案型モード判別回路の構成を示すブロック図であ
る。
構成を示すブロック図である。
る提案型モード判別回路の構成を示すブロック図であ
る。
構成を示すブロック図である。
る提案型ピッチ抽出回路の構成を示すブロック図であ
る。
構成を示すブロック図である。
る提案型ピッチ抽出回路の構成を示すブロック図であ
る。
Claims (6)
- 【請求項1】 音声信号を所定サイズのフレーム単位の
信号に分割する分割手段と、 この分割手段が分割した現フレームの信号と、前記分割
手段が少なくとも1フレーム分過去に分割したフレーム
の信号とを基に決定される特徴量を用いて、前記音声信
号のモードの判別を行うモード判別手段と、 このモード判別手段の判別したモードに応じて特定され
るアルゴリズムを用いて前記分割手段が分割したフレー
ム単位で前記音声信号の符号化を行う符号化手段とを具
備することを特徴とする音声符号化装置。 - 【請求項2】 音声信号を所定サイズのフレーム単位の
信号に分割する分割手段と、 この分割手段が分割した現フレームの信号から求めた特
徴量と、前記分割手段が少なくとも1フレーム分過去に
分割したフレームの信号から求めた特徴量との重み付け
和を用いて、前記音声信号のモードの判別を行うモード
判別手段と、 このモード判別手段の判別したモードに応じて特定され
るアルゴリズムを用いて前記分割手段が分割したフレー
ム単位で前記音声信号の符号化を行う符号化手段とを具
備することを特徴とする音声符号化装置。 - 【請求項3】 前記特徴量として、ピッチ予測ゲインを
用いることを特徴とする請求項1または請求項2記載の
音声符号化装置。 - 【請求項4】 音声信号を所定サイズのフレーム単位の
信号に分割する分割手段と、 この分割手段が分割した現フレームの信号と、前記分割
手段が少なくとも1フレーム分過去に分割したフレーム
の信号とを用いてピッチを抽出するピッチ抽出手段と、 このピッチ抽出手段が抽出したピッチを用いて、前記分
割手段が分割したフレーム単位で前記音声信号の符号化
を行う符号化手段とを具備することを特徴とする音声符
号化装置。 - 【請求項5】 音声信号を所定サイズのフレーム単位の
信号に分割する分割手段と、 この分割手段が分割した現フレームの信号と、前記分割
手段が少なくとも1フレーム分過去に分割したフレーム
の信号とを用いてピッチを抽出するピッチ抽出手段と、 前記分割手段が分割したフレーム単位の信号の特徴量を
基に、前記音声信号のモードの判別を行うモード判別手
段と、 前記ピッチ抽出手段が抽出したピッチを用いて、前記モ
ード判別手段の判別したモードに応じて特定されるアル
ゴリズムによって前記分割手段が分割したフレーム単位
で前記音声信号の符号化を行う符号化手段とを具備する
ことを特徴とする音声符号化装置。 - 【請求項6】 前記ピッチ抽出手段がピッチを抽出する
際に用いる信号が、聴感重み付け信号であることを特徴
とする請求項4または請求項5記載の音声符号化装置。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07004921A JP3089967B2 (ja) | 1995-01-17 | 1995-01-17 | 音声符号化装置 |
DE69609089T DE69609089T2 (de) | 1995-01-17 | 1996-01-16 | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
DE69615870T DE69615870T2 (de) | 1995-01-17 | 1996-01-16 | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
EP99111363A EP0944038B1 (en) | 1995-01-17 | 1996-01-16 | Speech encoder with features extracted from current and previous frames |
DE69615227T DE69615227T2 (de) | 1995-01-17 | 1996-01-16 | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
EP96100544A EP0723258B1 (en) | 1995-01-17 | 1996-01-16 | Speech encoder with features extracted from current and previous frames |
EP99109387A EP0944037B1 (en) | 1995-01-17 | 1996-01-16 | Speech encoder with features extracted from current and previous frames |
US08/588,005 US5787389A (en) | 1995-01-17 | 1996-01-17 | Speech encoder with features extracted from current and previous frames |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07004921A JP3089967B2 (ja) | 1995-01-17 | 1995-01-17 | 音声符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08194499A true JPH08194499A (ja) | 1996-07-30 |
JP3089967B2 JP3089967B2 (ja) | 2000-09-18 |
Family
ID=11597087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07004921A Expired - Fee Related JP3089967B2 (ja) | 1995-01-17 | 1995-01-17 | 音声符号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3089967B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017515154A (ja) * | 2014-04-29 | 2017-06-08 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声符号化方法および関連装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3180762B2 (ja) | 1998-05-11 | 2001-06-25 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
JP3180786B2 (ja) | 1998-11-27 | 2001-06-25 | 日本電気株式会社 | 音声符号化方法及び音声符号化装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61128300A (ja) * | 1984-11-27 | 1986-06-16 | 日本電気株式会社 | ピツチ抽出装置 |
JPS61187000A (ja) * | 1985-02-15 | 1986-08-20 | シャープ株式会社 | 音声のピツチ周波数抽出装置 |
JPH02139600A (ja) * | 1988-10-20 | 1990-05-29 | Nec Corp | 音声符号化復号化方式及びその装置 |
JPH064099A (ja) * | 1992-06-19 | 1994-01-14 | Kokusai Electric Co Ltd | 音声符号化装置 |
-
1995
- 1995-01-17 JP JP07004921A patent/JP3089967B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61128300A (ja) * | 1984-11-27 | 1986-06-16 | 日本電気株式会社 | ピツチ抽出装置 |
JPS61187000A (ja) * | 1985-02-15 | 1986-08-20 | シャープ株式会社 | 音声のピツチ周波数抽出装置 |
JPH02139600A (ja) * | 1988-10-20 | 1990-05-29 | Nec Corp | 音声符号化復号化方式及びその装置 |
JPH064099A (ja) * | 1992-06-19 | 1994-01-14 | Kokusai Electric Co Ltd | 音声符号化装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017515154A (ja) * | 2014-04-29 | 2017-06-08 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声符号化方法および関連装置 |
US10262671B2 (en) | 2014-04-29 | 2019-04-16 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
US10984811B2 (en) | 2014-04-29 | 2021-04-20 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP3089967B2 (ja) | 2000-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2746039B2 (ja) | 音声符号化方式 | |
US5778334A (en) | Speech coders with speech-mode dependent pitch lag code allocation patterns minimizing pitch predictive distortion | |
JP3094908B2 (ja) | 音声符号化装置 | |
JP3196595B2 (ja) | 音声符号化装置 | |
EP1005022B1 (en) | Speech encoding method and speech encoding system | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JP3266178B2 (ja) | 音声符号化装置 | |
JP3616432B2 (ja) | 音声符号化装置 | |
JP2624130B2 (ja) | 音声符号化方式 | |
JP3308764B2 (ja) | 音声符号化装置 | |
JP3003531B2 (ja) | 音声符号化装置 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP3360545B2 (ja) | 音声符号化装置 | |
JP3299099B2 (ja) | 音声符号化装置 | |
JPH08194499A (ja) | 音声符号化装置 | |
JP3144284B2 (ja) | 音声符号化装置 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JPH113098A (ja) | 音声符号化方法および装置 | |
JP3047761B2 (ja) | 音声符号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JPH08320700A (ja) | 音声符号化装置 | |
JP3471542B2 (ja) | 音声符号化装置 | |
JP3092654B2 (ja) | 信号符号化装置 | |
JP2907019B2 (ja) | 音声符号化装置 | |
JP3144244B2 (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070721 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080721 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090721 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100721 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110721 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110721 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130721 Year of fee payment: 13 |
|
LAPS | Cancellation because of no payment of annual fees |