JP2778035B2 - 音声符号化方式 - Google Patents

音声符号化方式

Info

Publication number
JP2778035B2
JP2778035B2 JP63084296A JP8429688A JP2778035B2 JP 2778035 B2 JP2778035 B2 JP 2778035B2 JP 63084296 A JP63084296 A JP 63084296A JP 8429688 A JP8429688 A JP 8429688A JP 2778035 B2 JP2778035 B2 JP 2778035B2
Authority
JP
Japan
Prior art keywords
pitch
audio
audio signal
coefficient
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63084296A
Other languages
English (en)
Other versions
JPH01255900A (ja
Inventor
茂 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP63084296A priority Critical patent/JP2778035B2/ja
Publication of JPH01255900A publication Critical patent/JPH01255900A/ja
Application granted granted Critical
Publication of JP2778035B2 publication Critical patent/JP2778035B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、離散音声信号を特定区間の基準再生音声信
号の線形結合で表す音声符号化方式に関する。
〔従来技術〕 単区間の音声信号s(n)を、位相の異なる線形フィ
ルタのインパルス応答の和で表すものがマルチパルス駆
動型音声符号化法として知られており、初めビー・エス
・アタル(B.S.Atal)らにより、文献1:[ア ニュウー
モデル オブ エル ピーシー エキサイテイション
フォー プロデューシング ナチュラル サウンディ
ング スピーチ アット ロウ ビット レイツ(A ne
w model of LPC excitation for producing natural so
unding speech at low bit rates)」、アイ・シー・エ
ー・エス・エス・ビー82(ICASSP 82)の614から617ペ
ージで提案された。この符号化法は16kb/s程度のビット
レイトでは自然性の高い再生音を提供できることが確認
されているが、ビットレイトをさらに低くすると、パル
スの数、即ちインパルス応答の数が少なくなり、再生音
声の品質が劣化する。これに対する対策として、ピッチ
予測を組み込むもの(文献2:小沢、小野、荒関「マルチ
パルス駆動型音声符号化法の品質改善」音響学会音声研
究会資料、S83−78(昭59)がある。本方式のブロック
図を第2図に示す。
入力端子10は一定間隔のフレームに分割された離散的
な音声信号を入力する入力端子である。フレームの長さ
は20msecから30msecが普通である。入力された音声信号
は、線形予測分析器20とピッチ予測分析器30とバッファ
40とに供給される。線形予測分析器20においては、線形
予測係数或はPARCOR係数を求め、それを局所マルチパル
ス符号器50と局所マルチパルス復号器60に供給するとと
もにマルチプレクサ90へ出力する。ピッチ予測分析器30
は、入力音声信号の自己相関関数を計算しその最大値を
与える時間遅れの値から入力音声信号の基本周期(ピッ
チ周期)並びにピッチ予測係数を算出するものである。
算出されたピッチ周期並びにピッチ予測係数はピッチ予
測器70とマルチプレクサ90とに出力される。バッファ40
は入力音声信号をピッチ予測分析器30で抽出されたピッ
チ周期毎に分割し、各ピッチ周期毎に入力音声信号を減
算器80に出力し、ピッチ予測器70の出力との差即ちピッ
チ予測残差を計算する。計算されたピッチ予測残差は局
所マルチパルス符号器50に供給される。局所マルチパル
ス符号器50は、減算器80から入力されるピッチ予測残差
に前記文献1の符号化方法を適用するもので、線形予測
分析器20から入力される線形予測係数で定まるフィルタ
のインパルス応答とピッチ予測残渣とをもとにピッチ予
測残差も最も良く表すインパルス応答の線形結合パラメ
ータ、即ち音源パルスの振幅並びに位置を算出し、出力
するものである。算出されたパルス振幅並びに位置はマ
ルチプレクサ90と局所マルチパルス復号器60とに出力さ
れる。局所マルチルス復号器60は局所マルチパルス符号
器50から出力されるパルスの振幅並びに位置を受け取
り、それと線形予測分析器20から出力される線形予測係
数とをもとに当該区間の再生信号を合成するものであ
る。合成された再生信号は、加算器85に送られ、そこで
ピッチ予測器70の出力と加算されて当該区間の再生音声
信号となる。再生音声信号はピッチ予測器70に供給され
る。マルチプレクサ90は線形予測係数とピッチ情報とパ
ルス振幅とパルス位置とを表す符号を多重化して出力端
子99に出力する。
〔発明が解決しようとしている課題〕
しかし、前記文献2の従来方式ではフレーム内のピッ
チ周期を一定としており、フレーム内におけるピッチ周
期の変動成分はピッチ予測残差に含まれることになる。
一般に音声信号は時間的に大きく変動しているため、こ
のようにフレーム内のピッチ変動を無視する構成ではピ
ッチ予測残差の変動成分は大きく、それを高品質で表す
には多く音源パルス情報を必要とする。ピッチ情報は、
音声知覚の上で重要な特徴と考えられるため、時間的に
変動するピッチ情報を高品質に符号化することは高品質
音声符号化にとって大変重要である。
本発明の目的は、フレーム内の音声信号の基本周期長
の平均的な特性を表す基準再生音声信号を合成し、入力
音声信号を前記基準再生音声信号の線形和で表し、この
線形和を合成するための係数並びに位相成分を前記入力
音声のピッチ変動に忠実に追随するように求めること
で、フレーム内のピッチ変動を吸収することを可能にす
る高品質音声符号化方式を提供することと、前記線形結
合係数を量子化する際に線形結合係数と基本周期情報と
の間にある相関を利用して低ビットレート音声符号化方
式とを提供することである。
〔課題を解決するための手段〕
本発明によれば、一定間隔に分割された離散的な音声
信号列を入力し、前記入力した音声信号の基本周期成分
を抽出し、前記入力した音声信号列から前記基本周期成
分に相当する区間長の平均的な特性を表す基準再生音声
信号列を合成し、前記基準再生音声信号列の線形結合か
ら再生音声信号列を形成する音声符号化方式であって、
前記入力音声信号列と前記再生音声信号とが近くなるよ
うに前記線形係数を求めることを特徴とする音声符号化
方式が得られる。
〔作 用〕
いま、一フレーム内の音声信号をs(n)(注:ここ
では当該フレーム内のサンプル点を表している)、s
(n)の線形予測分析により定まる線形予測係数を係数
に持つ全極フィルタのインパルス応答をh(n)とする
と、当該フレームの一ピッチ区間の平均的な特性を表す
基準再生音声信号b(n)は、 と表せる。係数{gi}、位置{mi}、i=1,…,M(M:b
(n)を形成するインパルス応答h(n)の数)の決定
法は幾つか考えられるが、最も望ましいものは、次の重
み付き平均二乗誤差Eを最小化するものである。
ここで、*は畳み込みを示し、Tはフレーム内の平均
ピッチ周期、w(n)は重み関数である。w(n)は、
目的に合った任意の関数を選択することができる。例え
ば、文献1のように入力音声信号のスペクトル包絡によ
って決まるものや、音声信号の周期性を協調するコムフ
ィルタ特性を用いるものなどがある。尚、第(2)式に
おいて{aj}と{gi}とは積の関係にあるので、{gi
を陽に求めることは難しい。そこで、例えば、全てのaj
を1、τを0として求めることとする。すると、第
(2)式は、 と表される。ここで、Tは既知であるから、第(3)式
をできるだけ小さくする{gi}と{mi}を求める問題
は、前記文献1にあるマルチパルス符号化におけるパル
スの振幅と位相を求める問題と同一になり、従来から良
く知られている。例えば、そのためのアルゴリズムは、
前記文献1や文献3:K.オザワ,S.オノ,およびT.アラセ
キ「アスタディ オン パルス サーチ ロガリズムズ
フォー マルチ−パルス エクサイテッド スピーチ
コーダ リアライゼイション」IEEE SAC.第4巻,133
−141頁,1月,1986(K.Ozawa,S.Ono,and T.Araseki,“A
Study on Pulse Search Logorithms for Multi−Pulse
Excited Speech Coder Realization,"IEEE SAC,Vol−4.
pp.133−141,January 1986.)に記載されているものを
利用することができる。これは、第(3)式の両辺を
{gi}で偏微分して零として正規方程式を求め、Gauss
の消去法などの数値解析の手法を用いて正規方程式の解
を求めるものである。
次に、定まったb(n)の線形結合で入力音声信号s
(n)を表すことを考える。これは、次式の近似間題を
解くことに等しく、重み付き平均二乗誤差 をなるべく小さくする{ck}と{dk}、k=1,……K
(K:線形結合を形成するb(n)の数)を求めるもので
ある。{ck}と{dk}を求める問題は、やはり、第
(3)式の場合と同様にマルチパルス符号化におけるパ
ルス探索問題となり、従来例である前記文献1や前記文
献3に詳しく述べられているアルゴリズムを用いて解く
ことができる。具体的に、{ck}と{dk}をkに関して
逐次的に求める方法を説明する。いま、{ci}、{di
がi=1からk−1まで定まっていて、新たにk番目の
ckとdkを求めるとする。そのとき第(4)式は、 となる。この第(5)式をckで偏微分し、零とおくと これから、 これのときのE2となる。したがって、第(6)式のdkにフレーム内の全
サンプルを代入し、それぞれのckを計算する。そして、
計算されたckに対して第(7)式のE2を最小化、または
Ck 2を最大化するdkを求める。このようにして計算したc
kとdkが所望の第k番目のパラメータとなる。この第
(6)式と第(7)式の計算をk=1からKまで行えば
全て{ck}と{dk}が求まる。
一方、音声再生するためには なる信号を形成し、 v(n)=x(n)*y(n) (8) なるv(n)で線形予測係数合成フィルタを駆動すれば
よい。
上記の説明から分かるように、{dk}の自己相関関数
はピッチ周期Tに近い周期性を示すことが期待される。
従って、{dk}を量子化する際には、ピッチ周期Tを利
用することが考えられ、{dk}を直接量子化するのでは
なく、dkとkTとの差を量子化するようにすれば効率的に
なる。また、{ck}はピッチ周期毎の入力音声信号系列
と基準再生音声信号系列との相関係数という性質を持っ
ているので、入力音声信号が急峻に変化しない限り隣り
合う{ck}には高い相関があると考えられるので、
{ck}と直接量子化する代わりにck-1とckとの差を量子
化することで高い圧縮率が期待できる。
以上で、本発明の原理に関する説明を終える。
〔実施例〕
第1図に本発明の一実施例である音声符号化方式を表
すブロック図を示す。図の符号化側の処理において、10
0は入力端子で、一定間隔のフレームに分割されたNサ
ンプルの離散的音声信号(例えば、8kHzサンプリング
で、N=160(20msec))を入力し、線形予測分析器110
とピッチ予測分析器120とに供給する。線形予測分析器1
10は入力端子100から入力した音声信号からPARCOR係数
を求め、量子化した後、基準音声成分計算器130とマル
チプレクサ150とに出力する。ピッチ分析器120は、当該
フレーム内の音声信号の基本周期成分と平均的なピッチ
予測係数を求めるもので、入力音声信号の自己相関関数
の最大値から定められる。その他の平均ピッチ周期成分
Tを求める手段は、例えば、文献4:古井著、ディジタル
音声処理、東海大学出版会(昭和60)の第4章に纒めら
れている。計算されたピッチは量子化した後、基準音声
成分計算器130と音声変動成分計算器140とマルチプレク
サ150とに出力される。基準音声成分計算器130は、前記
(作用)の第(1)式で示したb(n)を求めるもので
ある。線形予測分析器110から供給されるPARCOR係数を
逆量子化したあとそれを線形予測係数に変換し当該全極
フィルタのインパルス応答h(n)を計算する。計算さ
れたh(n)と、入力端子100から入力される離散音声
信号と、ピッチ分析器120から入力されるピッチ周期と
から前記第(3)式で表される最小化問題を解いて、所
望の{gi}と{mi}とを求める。前記第(3)式にある
重み関数w(n)は、例えば前記文献1にあるように、 δ():単位インパルス {ai}:線形予測係数 γ:係数(0<γ<1) として計算できる。また、この重み関数は、線形予測係
数の時間的変化、即ち過去のフレームに於ける線形予測
係数に応じて選ぶこともできる。{gi}と{mi}との計
算の仕方は、前記文献4の外、例えば文献5:特許願「音
声符号化方法」(昭58−150783)に詳しく説明されてい
るので、ここでは簡単に説明する。まず、第(3)式の
両辺を{gi}で偏微分して零とおく。それは整理すると
次のような正規方程式になる。
(記載の簡易化のため重み関数w(n)は省略してあ
る) 例えば、上式をjが1から所望の値までの各問題に対
して解いていけばよい。{mj}は各Kと全ての可能なmj
に対して第(10)式で求めた{gj}に対して第(3)式
を計算し、その時の値を最も小さくするmjが求めるもの
となる。計算した{gj}と{mi}は量子化されたマルチ
プレクサ150に供給されるとともに、第(1)式のb
(n)に相当する信号に変換されて音声変動成分計算器
140に供給される。音声変動成分計算器140は、入力端子
100から入力する音声信号と基準音声成分計算器130から
入力基準音声成分b(n)と、ピッチ分析器120から入
力するピッチ周期と、線形予測分析器110から入力され
る線形予測係数とから、前記第(4)式の最小化問題を
解いて、所望の{ck)と{dk}とを求めるものである。
これは例えば、前記作用で説明したように第(6)式と
第(7)式とを循環的に解いて求めることができる。こ
こで、重荷関数は前記第(6)式と同じものを用いる。
{dk}と{ck}の量子化は、前記作用で述べたように、
ピッチ周期情報を使うことで効率良く実現できる。ここ
では、{dk}を d′=d1 d′=(dk−d1)−(k−1)T と変換して、{dk}量子化する。また{ck}は、 と変換して{ck}を量子化する。更に、{dk}を求める
際に、パルス位置{dk}がピッチ周期内に偏らないよう
に{dk}の各要素間の距離がピッチ周期Tを用いて制御
させることで、より{d′}の変動を小さくすること
もできる。求めた{ck}と{dk}とは、量子化された
後、マルチプレクサ150に出力される。マルチプレクサ1
50は、線形予測分析器110からPARCOR係数を表す符号
を、ピッチ分析器120から平均ピッチ周期を表す符号
を、基準音声成分計算器130から基準音声成分の{gi
と{mi}とを表す符号を、音声変動成分計算器140から
音声変動成分の{ck}と{dk}とを表す符号とを入力
し、それらを多重化して出力端子160から出力する。復
号化側では、符号入力端子200より多重化された符号列
を入力し、デマルチプレクサ210で、音声の変動成分{c
k}と{dk}と表す符号と、基準音声信号{gi}と
{mi}とを表す符号に、平均ピッチ周期Tを表す符号を
音源再生器220へ出力し、PARCOR係数を表す符号を音声
再生器230へ出力する。音源再生器220は、復号化・逆量
子化した各パラメータから、 を計算して、音源信号e(n)を再生する。再生された
e(n)は音声再生器230で出力される。音声再生器230
では、デマルチプレクサ210により供給されるPARCOR係
数から線形予測係数{ai}を求め、音源再生器220から
供給される音源e(n)から次式に従って音声信号s
(n)を計算する。
s(n)=−Σais(n−i)+e(n) (12) 再生信号s(n)は出力端子240より出力される。
尚、以上の説明において、パルス振幅{gi}並びに
{ck}の量子化法は種々考えられ、例えばスカラー量子
化を用いる場合は文献6のジャイヤントとノルの著書、
ディジタル コーディング オブ ウェイブフォーム、
プレンティスホール、1984(N.S.Jaiyant and Peter No
ll,DIGITAL CODING OF WAVEFORMS,Prentice−Hall 198
4.)の第4章に詳しく記載されている。一方、PARCOR係
数の量子化法も既に良く知られており、例えば文献7:北
脇、板倉、斉藤、“PARCOR形音声分析合成系における最
適符号構成、”電子通信学会論文誌J61−A、2、pp.11
9〜126(昭52−2)に詳しく述べられている。
〔発明の効果〕
本発明は、フレーム内におけるピッチ構造(主にピッ
チ周期)の時間的変化を高品質に符号化するために、フ
レーム内音声の平均的な特性を表す一定区間長(例えば
ピッチ周期と同じ長さ)の基準音声信号を基本に、その
基準音声信号の線形結合を形成させながらフレーム内の
ピッチ構造の変化に追随するようにしたことと、線形結
合パラメータを量子化においてパラメータ変動とピッチ
周期との関係を利用した効率的な量子化器を備えてい
る。この構成により本発明は、ピッチ構造のパラメータ
をフレーム内で固定する従来方式と比較して、高品質で
かつ低いビットレートにピッチ情報を符号化できる効果
がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図で、第2図
は従来例を示すブロック図である。 10……入力端子、20……線形予測分析器、30……ピッチ
予測分析器、40……バッファ、50……局所マルチパルス
符号器、60……局所マルチパルス復号器、70……ピッチ
予測器、80……減算器、85……加算器、90……マルチプ
レクサ、99……出力端子、100……入力端子、110……線
形予測分析器、120……ピッチ分析器、130……基準音声
成分計算器、140……音声変動成分計算器、150……マル
チプレクサ、160……出力端子、200……符号入力端子、
210……デマルチプレクサ、220……音源再生器、230…
…音声再生器、240……再生音声出力端子。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】一定間隔に分割された離散的な音声信号列
    を入力し、前記入力した音声信号列の基本周期成分を抽
    出し、前記入力した音声信号列から前記基本周期成分に
    相当する区間長の平均的な特性を表す基準再生音声信号
    列を合成し、前記基準再生音声信号列の線形結合から再
    生音声信号列を形成する音声符号化方式であって、前記
    入力音声信号列と前記再生音声信号とが近くなるように
    前記線形係数を求めることを特徴とする音声符号化方
    式。
JP63084296A 1988-04-05 1988-04-05 音声符号化方式 Expired - Lifetime JP2778035B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63084296A JP2778035B2 (ja) 1988-04-05 1988-04-05 音声符号化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63084296A JP2778035B2 (ja) 1988-04-05 1988-04-05 音声符号化方式

Publications (2)

Publication Number Publication Date
JPH01255900A JPH01255900A (ja) 1989-10-12
JP2778035B2 true JP2778035B2 (ja) 1998-07-23

Family

ID=13826508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63084296A Expired - Lifetime JP2778035B2 (ja) 1988-04-05 1988-04-05 音声符号化方式

Country Status (1)

Country Link
JP (1) JP2778035B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020006164A (ko) * 2000-07-11 2002-01-19 송문섭 음성 신호 부호화시 격자방법을 이용한 고정소수점선형예측부호화 계수 추출 방법

Also Published As

Publication number Publication date
JPH01255900A (ja) 1989-10-12

Similar Documents

Publication Publication Date Title
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
JP2776050B2 (ja) 音声符号化方式
US5953697A (en) Gain estimation scheme for LPC vocoders with a shape index based on signal envelopes
JPH0990995A (ja) 音声符号化装置
JPH09281998A (ja) 音声符号化装置
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JPH09258795A (ja) ディジタルフィルタおよび音響符号化/復号化装置
JP2970407B2 (ja) 音声の励振信号符号化装置
JP2778035B2 (ja) 音声符号化方式
JPH10143199A (ja) 音声符号化方法および復号化方法
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JPH0782360B2 (ja) 音声分析合成方法
JP3583945B2 (ja) 音声符号化方法
JPH0738116B2 (ja) マルチパルス符号化装置
JP3153075B2 (ja) 音声符号化装置
JPH08234795A (ja) 音声符号化装置
JP3299099B2 (ja) 音声符号化装置
JPH08185199A (ja) 音声符号化装置
JPH06202698A (ja) 適応ポストフィルタ
JP3071800B2 (ja) 適応ポストフィルタ
JP3192051B2 (ja) 音声符号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP2853170B2 (ja) 音声符号化復号化方式
JPH08320700A (ja) 音声符号化装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term