JPH0235997B2 - - Google Patents

Info

Publication number
JPH0235997B2
JPH0235997B2 JP57087479A JP8747982A JPH0235997B2 JP H0235997 B2 JPH0235997 B2 JP H0235997B2 JP 57087479 A JP57087479 A JP 57087479A JP 8747982 A JP8747982 A JP 8747982A JP H0235997 B2 JPH0235997 B2 JP H0235997B2
Authority
JP
Japan
Prior art keywords
frame
frames
transmission
basic
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57087479A
Other languages
English (en)
Other versions
JPS58203500A (ja
Inventor
Satoru Taguchi
Masanori Kobayashi
Takayuki Ishikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP57087479A priority Critical patent/JPS58203500A/ja
Publication of JPS58203500A publication Critical patent/JPS58203500A/ja
Publication of JPH0235997B2 publication Critical patent/JPH0235997B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 本発明は可変長フレーム型線形予測ボコーダ、
特に伝送パラメータである線形予測係数を最適線
形近似の手法を用いて伝送する可変長フレーム型
線形予測ボコーダに関する。
可変長フレーム型線形予測ボコーダは、入力音
声信号を分析し伝送すべきパラメータを抽出して
これを送信する分析側(送信側)において、入力
音声信号を、たとえば10mSEC程度の基本分析フ
レーム周期ごとに線形予測分析を行ない、得られ
る線形予測係数を他の音源情報、たとえばピツチ
周波数、短時間平均電力、有声無声判定信号等と
ともに、これを合成側(受信側)に伝送し、合成
側ではこれらのパラメータから元の入力音声信号
を合成し、再生する。
この場合、前記線形予測係数としては、通常
PARCOR(偏自己相関)パラメータと呼ばれるK
パラメータが広く用いられていることはよく知ら
れており、さらに、伝送すべき音声情報の情報量
をできるだけ圧縮するため一般的に次のような手
法が用いられていることもまたよく知られてい
る。
すなわち、従来のこの種のボコーダにおいて
は、基本フレーム周期ごとに得られる線形予測係
数をこの周期ごとに忠実に分析側から合成側に伝
送するかわりに、特定数のNt個の基本フレーム
分をまとめて1個の代表基本フレームを選び、こ
の代表基本フレームの線形予測係数とその繰返し
数Ntとを伝送する。
繰返し数Ntは、予め定めた最大数をMとする
と、1NtMによつて示される正の整数であ
り、また次に述べるような最適値をもつようにダ
イナミツクプログラミング手法によつて求めら
れ、時間とともに変化する。
基本フレームごとに得られる線形予測係数、あ
るいはこれに予め設定した一定の演算処理を施し
て得られる数値の組をX(i) lとする。ここでi=1,
2,…P,lは基本フレーム番号とすると、X(i) l
はP次元空間における1つの空間ベクトルを表わ
すものと考えることができ、従つてこれはP次元
空間における距離ベクトルとして扱うことができ
る。
いま、ある1つの伝送フレームを考え、その中
に含まれる任意の基本フレームlの距離ベクトル
をX(i) lとし、この伝送フレーム中から選択する前
述した代表基本フレームの距離ベクトルはX(i) S
すると、これら基本フレームと代表基本フレーム
との距離dlsは次の(1)式で示される。
従つて、一般的にt番目の伝送フレームにおけ
る各基本フレームと代表基本フレームとの距離の
和Dtは次の(2)式の如くなる。
Dt= 〓l dls ……(2) (2)式におけるlは前述の如く、t番目の伝送フ
レーム中のすべての基本フレームの番号に対応す
るものである。前述したダイナミツクプログラミ
ングによる各Ntおよび代表フレームの選出は、
ある条件のもとで(2)式に示すようなDtの和が最
小となるような組合せを選択するために行われる
ものである。
このようにして決定されるNiの数の基本フレ
ームを各々が有することにより、可変長フレーム
の組合せによる伝送フレーム群を構成し、各基本
フレームごとに線形予測係数を忠実に伝送するか
わりに、各伝送フレームごとに代表基本フレーム
の線形予測係数と、この伝送フレームのフレーム
長とを伝送することによりいわゆる最適矩形近似
(参考文献:「最適矩形波近似を用いた可変フレー
ム周期音声分析合成方式」、日本音響学会講演論
文集3−2−23、昭和53年5月)を行なつて情報
量の低減を図つた伝送データを合成側に送出し
て、合成側ではこれから入力音声信号を合成する
という方法をとつている。
しかしながら、このような従来の方式において
は、有音区間とともに、実際には音声が存在しな
い無音区間に対しても上述した最適矩形近似を行
なつているため、聴覚的に意味のない無音区間の
伝送データも送信しなければならず、さらに分析
側で行なつているこの最適矩形近似処理によつて
伝送された伝送データを受ける合成側では、再生
すべき入力音声信号の品質を保持するため、入力
した伝送データに対する線形補間を行なつてお
り、最適矩形近似処理によつて各伝送フレームの
境界面で発生する伝送データの不連続分までは処
理されることなく、合成音としての最適化処理が
実施されないために合成音の品質もこの分損なわ
れるという欠点がある。
本発明の目的は上述した欠点を除去し、伝送す
べき可変長フレームを有音区間に限定したうえ、
各伝送フレームごとに代表する線形予測係数は、
これら各伝送フレームに分布する線形予測係数を
入力音声信号の特性によつて決定する複数の伝送
フレーム区間にわたつて最適線形近似した近似直
線で代表するという手段を備えることにより、伝
送すべきデータの情報量の低減と、合成音の品質
の向上を図つた可変長フレーム型線形予測ボコー
ダを提供することにある。
本発明のボコーダは、入力音声信号を線形予測
分析し抽出した線形予測係数を前記入力音声信号
の音声情報として伝送しこの音声信号から前記入
力音声信号を合成し再生する可変長フレーム型線
形予測ボコーダにおいて、前記入力音声信号を音
声音および無声音の少なくとも一方を含む有音区
間と音声を含まない無音区間とに判別する有音無
音判別手段と、この有音無音判別手段によつて判
別された前記有音区間をそれぞれ可変長フレーム
によつて分割し分割される可変長フレーム間を線
形補間し時間歪が最小となるように最適線形近似
するとともに前記無音区間の間に介在する連続し
た所定の有音区間(大フレーム)においても可変
長フレームによる前記入力音声信号の分析を行な
う最適線形近似手段と、この最適線形近似手段か
ら出力され伝送される前記音声信号を受けそれに
所定の線形補間を施して前記入力音声信号を合成
し再生せしめる線形予測係数補間手段とを備え
る。
次に図面を参照して本発明を詳細に説明する。
第1図は本発明の一実施例を示すブロツク図で
ある。第1図の実施例は、分析側(送信側)1,
合成側(受信側)2および伝送路3から構成さ
れ、分析側1は低域フイルタ・A/Dコンバータ
101,ウインドウ処理部102,自己相関係数
計測器103,自己相関係数メモリ104,線形
予測係数(LPC)分析器105,自己相関係数
二次差分計測器106,距離ベクトルメモリ10
7,距離計測器108,フレーム選択器109,
有声/無声/無音判別器110,ピツチ抽出器1
11,および符号化器112を含んで構成され、
また合成側2は、復号化器201,Kパラメータ
メモリ202,Kパラメータ補間器203,線形
近似区間制御器204,補間制御器205,Kパ
ラメータ/αパラメータ変換器206,LPC
(Linear Prediction Coefficient,線形予測係数)
フイルタ207,ピツチ発生器208,切替器2
09,雑音発生器210,可変利得増幅器21
1,およびD/Aコンバータ・低域フイルタ21
2を含んで構成される。
分析側1の入力端子1000を介して入力した
入力音声信号1001は、低域フイルタ・A/D
コンバータ101によつて低域フイルタリングさ
れたのちA/Dコンバータによつてデジタル化さ
れる。本実施例においては、この低域フイルタの
遮断周波数は3.4KHzとしこれ以上の高域成分は
遮断しており、これを分析側1の内蔵するタイミ
ング回路(図示せず)の出力する8KHzのサンプ
リング周波数によつてサンプリングしたものを
A/Dコンバータにより1サンプル当り12ビツト
の量子化音声信号1012に量子化し、これをウ
インドウ処理器102に送出する。
ウインドウ処理器102は、入力した量子化音
声信号1012を、一旦内部メモリにストアす
る。このメモリは入力した量子化入力音声信号の
たとえば30mSEC分、すなわち240サンプルの窓
時間分を記憶し、これにハミング関数あるいは矩
形関数等をウインドウ関数として乗算するウイン
ドウ処理を行なう。このウインドウ処理は
10mSEC周期で繰返しており、これが前述した基
本フレーム周期となる。
このようにしてウインドウ処理された入力音声
信号の音声波形データ1021は、前記基本フレ
ーム周期ごとに自己相関計測器103,有声/無
声/無音判別器110およびピツチ抽出器111
に送出される。
自己相関係数計測器103は、ウインドウ処理
器102から次次に入力した音声波形データを利
用し乗算回路等によつて各遅れ時間における自己
相関係数を必要な遅れ時間の範囲で計測し、この
自己相関係数データ1031を自己相関係数メモ
リ104および自己相関係数二次差分計測器10
6に送出する。
自己相関係数計測器103は、さらに、遅れ時
間0における自己相関係数、すなわち基本フレー
ムあたりの平均電力を計測し、これをその基本フ
レームの音声電力データ1032として符号化器
112に送出する。
自己相関係数メモリ104は、自己相関係数計
測器103から送出された自己相関係数データ1
031をバツフアメモリに各基本フレームごとに
ストアしておくためのメモリである。この自己相
関係数メモリ104にストアされた自己相関係数
データ1031は、後述するフレーム選択器10
9によつて選択される代表基本フレーム番号デー
タ1090を入力すると、この基本フレーム番号
データ1090によつて指定されたフレームの自
己相関係数データの組1041が読出されて線形
予測係数分析器105に出力される。
線形予測係数分析器105は、このようにして
フレーム選択器109の制御のもとに指定される
フレームの自己相関係数のデータの組が、自己相
関係数メモリ104から読出され送出されると、
このデータの組からKパラメータを予め定める所
定の次数までオートコリレーシヨン(AUTO
CORRELATION)法によつて抽出し、抽出され
たKパラメータ1051は符号化器113に送出
する。
線形予測係数、すなわちKパラメータの分析内
容については、たとえばジヨン マツコール:
“リニア プレデイクシヨン:ア チユートリア
ル レビユー”(John Makhoul:“Linear
Prediction:A Tutorial Review”)
Proceedings of the IEEE,Vol.63,No.4pp.561
〜580,April,1975やその他多くの文献に詳細に
記載されている。
自己相関関数二次差分計測器106は、自己相
関係数計測器103から自己相関係数データ10
31を入力すると、この二次差分データを計測
し、これを距離ベクトル1061として距離ベク
トルメモリ107に送出する。この二次差分デー
タは次のようにして算出される。
すなわち、サンプリング周期を単位として、そ
のj倍(j=1,2,…K)の遅れ時間を有し、
自己相関係数計測器103から送出される自己相
関係数をρjとすると、その一次差分ρl′は、次の(3)
式で示される。
ρl′=ρl−ρl+1 ……(3) (3)式においてl=1,2,…K−1である。こ
の(3)式からさらにρjの二次差分ρq″を求めると次
の(4)式の如くなる。
ρq″=ρq′−ρq+1 ……(4) (4)式においてq=1,2,…K−2である。こ
のようにして定義される自己相関係数の二次差分
データが、基本フレーム間の距離を表わす距離ベ
クトルとして利用するのに特に適していることは
よく知られている。
距離ベクトルメモリ107は、各基本フレーム
に対する距離ベクトル、すなわち(4)式に示す自己
相関係数の二次差分データを各基本フレームごと
に次次にストアし記憶する。
距離計測器108は距離ベクトルメモリ107
から基本フレーム番号を指定しその距離ベクトル
1071を読出して入力し、次のようにして距離
計測を行う。
すなわち、任意のa番目とb番目の基本フレー
ム間の距離をdabとすると、dabは次の(5)式で表
わすことができる。
(5)式においてX(i) aおよびX(i) bは、それぞれa番目
およびb番目の基本フレームの距離ベクトルのi
番目の成分、すなわちそれぞれ(4)式で示される基
本フレームのρi″に相当する量である。
(5)式を用いて計測された基本フレーム間の距離
データ1081は、フレーム選択器109に送出
される。
有声/無声/無音判別器110は、ウインドウ
処理器102につてウインドウ処理された音声波
形データ1021を受け、各基本フレームごと
に、フレームに含まれる入力音声信号のデータが
有声音か無声音か、あるいはまた全く音声が存在
しない無音かのいずれかの状態かを判別し、その
結果の判別データ1101をフレーム選択器10
9および符号化器112に送出する。
有声、無声および無音の状態を判別する方法
は、いわばパターン認識とも通ずる技術としてよ
く知られており、これに関しては、ビー・エス・
エイタル他:“ア パターン リコグニツシヨン
アプローチ ツウ ボイスドーアンボイスド−
サイレンス クラシフイケーシヨン ウイズ ア
プリケーシヨン ツウ スピーチ リコグニツシ
ヨン”(B.S.Atal他:“A Pattern Recognition
Approach to Voiced−Unvoicec silence
Classifi−cation with Application to Speech
Re−cognition”,IEEE Trans,onA.,S.,S.,
P.,Vol.ASSP−24,No.3,pp201〜212,June,
1976やその他多くの文献に詳細に記載されてい
る。
フレーム選択器109は、このような公知の技
術によつて入力音声信号の有声、無声および無音
を判別する音声/無声/無音判別器110から出
力する有声/無声/無音の判別信号1101と、
距離計測器108から出力する距離データ108
1とを受け、これらのデータを利用してダイナミ
ツクプログラミング手法によつて次のような演算
を行う。
すなわち、入力音声信号を有声音または無声音
の有音の基本フレームの連続した有音区間と、無
音の基本フレームの連続した無音区間とに分離
し、これら2つの区間においてそれぞれ可変長伝
送フレームのフレーム長を求めるとともに、さら
に有音区間からは各伝送フレームごとに代表基本
フレームも同時に選択する。このような有音区間
と無音区間における可変長伝送フレーム次のよう
にして決定する。
無音区間における伝送フレームの設定について
は、基本フレームを単位とした最大長は予め設定
したLs max以下とすることにより容易に伝送フ
レーム長を決定できる。すなわち、無音の基本フ
レームの連続した長さがLs max以下のときに
は、その長さをそのまま伝送フレーム長とすれば
よく、無音の基本フレームの連続した長さがLs
max以上のときには、Ls maxの長さの伝送フレ
ームを次次に設定し、残余の部分がLs max以下
になつたときこれをそのまま最後の伝送フレーム
長とすればよい。
有音区間における伝送フレームの設定について
は、伝送すべきある有音区間の長さが、基本フレ
ームを単位とし、このV倍の長さVにわたつて連
続しているとする。いまこのVの長さの部分を、
可変フレーム長の伝送フレームに分解するとす
る。またこのように無音区間に隣接し、かつ無音
区間に挾まれた区間に連続して存在する有音区間
は大フレームと呼ばれるが、いまの例では大フレ
ームの長さはVとなる。まず、この長さVの大フ
レームの中に含まれるべき代表基本フレームの数
Nvを決定する。これは予め定めた演算からVに
対する関数としてのNvを求めるか、または予め
用意されているVとNvとの対応表を参照するこ
と等により決定することができる。なおNvは
V/NvLs maxを満足するように定められて
いる。ただし、本実施例においては、有音区間に
おける伝送フレームの最大長を2Ls maxとして
いる。
このようにして、代表基本フレームの数Nvを
求めたあと、次に長さVの大フレームの中に相互
の間隔がLs max以下となるようにしてNv個の
代表基本フレームを選び、かつこの代表基本フレ
ームをそれぞれ1個ずつその中に含むようなNv
個の伝送フレームが隣接するよう設定する。
このような代表基本フレームの選び方と伝送フ
レームの設定の仕方は明らかに有限個の組合せし
かないので、この有限個の組合せの中から、さら
に次の条件を満足するものを求めて決定すること
ができる。
第2図は代表基本フレームと伝送フレームの設
定の仕方を示す代表基本フレームおよび伝送フレ
ーム設定関係図である。
入力音声信号に対応する距離特性を示す曲線D
は第2図の如く有音区間と無音区間とからなるも
のとし、無音区間についての伝送フレームの設定
の仕方は上述したとおりである。さて、有音区間
については上述の如くNv個の代表基本フレーム
とNv個の伝送フレームの組合せの中から、その
組合せが曲線Dに最適線形近似するものを選べば
よい。伝送フレーム1v,2v,3v…(N)v
はこうして選ばれた伝送フレームとなるが、これ
は次のようにして設定することができる。
たとえば、フレーム1vにおいては、代表基本
フレームN1とN2が曲線D上に有する点P1およ
びP2を結んだ点線P1,P2によつて示される各基
本フレームの示す距離の和と、この伝送フレーム
1vの区間の曲線部分dによつて示される各基本
フレームの示す距離の和との差が最小になるよう
にN1およびN2の代表基本フレームを選んでお
り、他の伝送フレーム2v,3v,…(N)vに
ついても全く同様である。これは次のようにして
求めることができる。
いま、ある選択したg番目(g=1,2,3,
…Nv-1)の代表基本フレームからはじまる伝送
フレームに含まれる各基本フレームの距離ベクト
ルをX(i) gとし、このとき設定された近似直線の中
心位置における距離ベクトル、たとえば第2図の
伝送フレーム1vではmで表される距離ベクトル
を一般的にX(i) gとすると、各基本フレームと、こ
の中心位置の示す距離との和Dgは次の(6)式の如
くなる。
この場合、各基本フレームとの距離の和Dgを
求める距離ベクトルの設定位置を、相隣る代表基
本フレームの中心位置としたのは、この位置が近
似直線の中心値を示すものであり、無音区間に隣
接する距離ベクトル値をX(i) g′とすることを避け、
また後述する合成側での線形補間の始点ともなる
べき位置だからである。
さて、Vの長さの大フレーム有音区間に含まれ
るすべての伝送フレームにおけるこのような距離
の和Dgの総和はD= 〓g ′Dgとなる。
代表フレーム基本の選択の仕方と伝送フレーム
の設定の仕方の条件はこのDが最小になる組合せ
を選択すればよく、このような選択の1つとして
よく知られるダイナミツクプログラミング手法が
あり、これによつて比較的容易に処理することが
できる。
このような演算、処理によつて無音区間を除い
たVの長さの有音区間について、与えられた距離
ベクトルを用いて可変長の伝送フレームの組合せ
が決定される。したがつて、これらの可変長フレ
ームはそれらのフレームの有する各基本フレーム
中のはじめの基本フレームの距離データを有する
ものを代表基本フレームとし、これと各フレーム
長とを伝送すべき情報として合成側に送信すれば
よい。
このような可変伝送フレームの情報伝送のあり
方は、相接する伝送フレームをそれぞれ1個の矩
形近似による代表フレームによつて代表させた代
表値と基本フレーム数とで構成する矩形近似方式
と異なり、次次に伝送される伝送フレームの初期
値でもある代表基本フレームのもつ距離の変化
が、同時に送出する基本フレーム数で直線的に行
なわれると見做す直線近似情報として伝送するこ
とができる。
以上の演算により、無音区間を除いた長さVの
有音区間について与えられた距離ベクトルから最
適線形近似による可変フレーム長の伝送フレーム
が設定され、同時に各伝送フレームの代表フレー
ムも選択されたこととなる。
第1図の実施例において、フレーム選択器10
9は、こうして設定された最適線形近似情報に含
まれる代表基本フレーム番号を指定する代表基本
フレーム番号データ1090を自己相関係数メモ
リ104に送出し、これらの各代表基本フレーム
に対する自己相関係数データ1041を読出して
線型予測係数分析器105に送出せしめ、また各
伝送フレームのフレーム長は繰返し数制御信号1
091として符号化器112に送出する。
線型予測係数分析器105は、自己相関係数メ
モリ104から読出される代表基本フレームの自
己相関係数データ1041を入力し、前述したK
パラメータの演算を行ない、このKパラメータデ
ータ1051を符号化器112に送出する。
ピツチ抽出器111は、ウインドウ処理器10
2から各基本フレームの音声波形データ1021
を受け、これからピツチ情報1111を抽出し符
号化器11に送出する。
符号化器112は、こうして送出された上述の
各種の入力情報を適宜組合せて伝送符号化を行な
い伝送路3を介して合成側2に伝送する。この場
合、無音区間の符号化は、無音区間の指定と、そ
の無音区間の長さまたは無音区間の伝送フレーム
の長さを指定する情報とを伝送するだけとし、ま
た有音区間については各基本フレームごとのKパ
ラメータを送るかわりに選択した代表基本フレー
ムのKパラメータと、このKパラメータを含む伝
送フレーム長とを組合せて伝送し、各伝送フレー
ム中の代表基本フレーム以外のKパラメータは、
そのKパラメータ値から隣接する伝送フレームの
はじめに送る代表基本フレームのKパラメータ値
まで各伝送フレームに含まれる基本フレームの数
で増減する直線近似で近似させるものとして伝送
フレーム長をこのKパラメータの繰返し数を指定
する情報として扱うことによつて情報量の圧縮を
図つている。
合成側2においては、伝送路3を介して伝送さ
れた、このような符信号化号を複号化器201で
受信する。
復号化器201は受信した諸情報を復号化し、
再生した情報のうち代表基本フレームのKパラメ
ータ2011はKパラメータメモリ202に、伝
送フレーム長を指定する情報2012は線形近似
区間制御器204に、またピツチ情報2013は
ピツチ発生器208にそれぞれ送出する。
Kパラメータメモリ202は入力した各代表基
本フレームのKパラメータをメモリにストアし、
また線形近似区間制御器204は入力した伝送フ
レーム長を指定する情報により各伝送フレームの
長さ、すなわち各線形近似区間を指定する線形近
似区間指定信号2041を発生し、これを補間制
御器205に送出する。
補間制御器205は、線形近似区間制御器20
4から受けた線形近似区間指定信号2041を受
け、これによりKパラメータメモリ制御信号20
51,Kパラメータ補間器制御信号2052を出
力する。
Kパラメータメモリ202からは、Kパラメー
タメモリ制御信号2051の制御のもとに各可変
伝送フレームの代表基本フレームのKパラメータ
が次次に読出され、各伝送フレームの代表基本フ
レームごとのKパラメータ系列が再現され、この
Kパラメータ系列2021はKパラメータ補間器
203に出力される。
Kパラメータ補間器203は、こうして入力し
た各伝送フレームの代表基本フレームのKパラメ
ータと、各伝送フレームごとの基本フレーム数と
の情報により、補間制御器205から受けるKパ
ラメータ補間器制御信号2052によつて供給さ
れるKパラメータの変化点すなわち各伝送フレー
ムの代表基本フレームの位置を示す情報を利用し
て代表基本フレーム間の基本フレームごとのKパ
ラメータの再生、補間を行う。
この再生および補間は、無音区間に隣接する有
音区間の伝送フレームが、無音区間との無意味な
補間を受けることを避けるために、各伝送フレー
ムの時間中心位置をそれぞれの補間始点とし、こ
れらの補間始点を結んだ折線の近似直線とするも
のである。
第3図は合成側における線形補間の内容を示す
合成側線形補間図である。
点a1,a2,a3,a4,a5およびa6は任意の入力音
信号の伝送フレームの代表基本フレームのKパラ
メータ値を示し、これらはまた、それぞれの伝送
フレームの初期基本フレームのKパラメータ値で
ある。点a1′,a2′,a3′a4′およびa5′はそれぞれa1

a2,a3,a4およびa5の示すKパラメータ値に等し
く、たとえば線分a1a1′の長さf1はa1のKパラメー
タ値を有する基本フレームを代表基本フレームと
する伝送フレーム長に等しく、線分a2a2′,a3a3′,
a4a4′およびa5a5′についてもそれぞれ次次に隣接
する伝送フレーム長f2,f3,f4,およびf5に対応
するそれぞれの可変伝送フレーム長である。通常
の可変長フレーム線形予測ボコーダにおいては、
伝送フレームf1,f2,f3,f4およびf5を代表する代
表基本フレームとともに、これらの伝送フレーム
に含まれる基本フレーム数を分析側から合成側に
伝送して入力音声信号を合成する、いわゆる矩形
近似を行つているが、この方法によれば伝送フレ
ームf1からf2に移行するとき、Kパラメータの値
が、たとえば伝送フレームf1ではa1′すなわちa1
らa2にステツプ的に不連続変化し、このため再生
すべき音声の品質を劣化せしめることとなる。
本実施例においては、伝送フレームf1,f2,f3
f4,f5およびf6の時間中心点 m1,m2,m3,m4
およびm5をそれぞれ補間始点とし、第3図の点
線で示すように次次に直線で結んだものをそれぞ
れの伝送フレームにおけるKパラメータに対応す
る特性とし、の点線に対応して各伝送フレームに
含まれる各基本フレームがもつべきKパラメータ
を設定している。また、このようなKパラメータ
の設定は、基本フレーム間をさらに必要に応じ所
望の分割数、たとえば4分割して前後の基本フレ
ームのKパラメータ値を利用して補間値とするこ
とも可能であり、このことは所望に応じて任意の
基本フレームに設定できるものである。なお、第
3図において、伝送フレームf1では点m1を補間
始点として補間を行なつているが、これは伝送フ
レームf1には無音区間が隣接するためこれと無意
味な補間を避けるため上述した如くm1を補間の
始点としているためである。
Kパラメータ/αパラメータ変換器206は、
このようにして送出されるKパラメータ2031
をαパラメータに変換し、このαパラメータ20
61をLPCフイルタ207のフイルタ係数とし
て供給する。このLPCフイルタ207はαパラ
メータをフイルタ係数とするデジタル合成フイル
タであり、また線形予測係数フイルタとしてよく
知られるものであり、αパラメータおよび後述す
る音源励振電力とを入力し音声波形を再生するも
のである。
さて、復号化器201は前述した如く分析側1
から入力した情報を復号化するが、このうち各代
表基本フレームにおける音声電力を表わす情報を
再生したものは利得制御情報2014として可変
利得増幅器211に送出される。また、有声音/
無声音を区別する情報を復号化し再生したものは
有声/無声切換信号2015としてこれを切替器
209に送出し、さらに前述した如くピツチ周波
数を指定する情報を復号化し再生したピツチ周波
数指定信号2013はピツチ発生器208に送出
する。
ピツチ発生器208は指定された周波数のピツ
チパルスデータ2081を発生し、これを切替器
209に送出する。
切替器209は復号化器201より送出される
有声/無声切換信号2015が有声を指定すると
きにはピツチ発生器208からのピツチパルスデ
ータ2081を選択するように切替接続し、これ
を可変利得増幅器211に接続する。また有声/
無声切換信号2014が無声を指定するときに
は、雑音発生器210の出力する白色雑音信号2
101を可変利得増幅器211に接続するように
切替え動作する。
可変利得増幅器211は、このようにして入力
したピツチパルスデータ2081,または白色雑
音信号2101を、別に入力した利得制御情報2
014に対応した重み付けを行なうことにより可
変増幅し音源励振信号2111を出力し、これを
LPCフイルタ207に送出する。
LPCフイルタはKパラメータ/αパラメータ
変換器206から受けるαパラメータ2061を
フイルタ係数とし、可変利得増幅器211から受
ける音源励振信号2111を得て音声データ20
71を再生しこれをD/Aコンバータ・低域フイ
ルタ212に送出する。
D/Aコンバータ・低域フイルタ212に送出
された音声データ207は、D/Aコンバータお
よび低域フイルタによりアナログ変換され、不要
の高域成分が除去されてアナログ音声信号となり
出力端子2000から出力する。
なお、上述したKパラメータ/αパラメータ変
換器206は前述したオートコリレーシヨン法等
を用いて容易に構成することができ、またLPC
フイルタ207は巡回型フイルタとして容易に構
成できる。
ところで、上述した第1図の実施例において
は、いわゆる大フレームとしての区間を、ある無
音区間と次の無音区間とにはさまれる区間を以つ
て取扱つた。可変長伝送フレームを用いて最適線
形近似を行う場合には、少くとも大フレーム分の
入力音声を処理した後はじめてこの有音区間の情
報を分析側1から合成側2に送り込むことができ
る。従つて合成側2で音声が再生されるまでには
不特定の大きな時間の遅れが発生する可能性があ
るが、これを避けるためには次の如くすればよ
い。
すなわち、許容される最大の遅れ時間に基づい
て予め大フレーム長の最大値を設定しておく。こ
の最大値をVmaxとすると、有音区間が開始し、
それがVmax以上連続する場合はこの有音区間を
Vmaxごとに区切つてこれを大フレームとして取
扱い、1つの大フレームの入力が終了するごとに
この大フレームを最適線形近似による可変長の伝
送フレームに分解する上述の処理を行う。
このようにすることによつて予め定めた遅れ時
間内で実時間処理を行うことができる。
本発明は、可変長フレーム型線形予測ポコーダ
において、伝送すべき可変長フレーム区間を有音
区間に限定したうえ、この有音区間を所定の大フ
レームを含み最適線形近似する点に基本的特徴を
有するものであり、本実施例の変形も種種考えら
れる。
たとえば第1図の実施例において、入力音声信
号の距離ベクトルは自己相関係数二次差分計測器
106によつて得られる自己相関係数の二次差分
を利用しているが、これは同じ自己相関係数から
求めることが出来る他のKパラメータ、αパラメ
ータ、LSP(ライン スペクトラム ペアズ)、お
よびケプストラム等のいずれかを用いても差支え
ない。
これらの他のパラメータを用いるときには、自
己相関係数計測器103から得られる自己相関係
数からこれらのいずれかのパラメータをそれぞれ
公知の手段を利用して抽出し、それらを利用すれ
ばよい。
また、有声/無声/無音判別器110およびピ
ツチ抽出器111の入力は、本実施例においては
ウインドウ処理器102の出力を受けてこの出力
の自己相関係数をとつて、これを利用して処理し
ているが、この自己相関係数は自己相関係数計測
器103から得られるものを利用する方法で処理
してもよいことは明らかである。さらに、本実施
例においては、各可変フレームの基本フレーム間
の距離を距離計測器108によつて演算、計測す
る場合、これを(5)式によつて計測し、これをその
まま利用しているが、これに聴覚的に重み付けを
行なつて利用することも可能である。すなわち(5)
式によつて距離を計測する基本フレームaと基本
フレームbとに、それぞれ有声音フレームか無声
音フレームであるかの情報によつて異る重み付け
係数WVV,WUVおよびWUUを乗じたもの新しくそ
の基本フレーム間の距離とし、他の処理は全く同
様にして伝送フレームおよび代表フレームを決定
することによつて、有声音および無声音によつて
異る聴覚的重み付けを行なつた処理が可能とな
る。この場合の重み付け係数WVVは基本フレーム
aおよびbがいずれも有声音フレームの場合の重
み付け係数、WUVは基本フレームaおよびbのい
ずれか一方のみが有声音フレームの場合の重み付
け係数、WUUは基本フレームaおよびbがいずれ
も無声音のときの重み付け係数とする。
このような聴覚的重み付けはまた、次のように
して他の手段で行うことができることも明らかで
ある。
たとえば、基本フレームaの音声電力、すなわ
ち基本フレームaにおける遅れ時間0の自己相関
係数をPa、基本フレームbの音声電力をPbとし、
基本フレームaと基本フレームbとの距離dabに
PaとPbとの幾何平均√を乗じた値√
dabを新しく基本フレームa,b間の距離として
利用することにより、有声音および無声音に対応
して異る音声電力を介して聴覚的重み付けを行う
ことができることは明らかである。
また、本実施例においては合成側2において行
う線形補間の際、第3図に示す如く設定した各可
変フレームの中心位置をそれぞれ補間始点として
いるが、これは無音区間と隣接する伝送フレー
ム、たとえばf1およびf5等にあつては聴覚的に無
意な無音区間との線形補間を避けるとともに、各
伝送フレームほぼ中心位置ではそのフレームを代
表する距離ベクトル、従つてKパラメータ等の安
定した値が得易いためであり、この補間始点は他
の方法、たとえば補間すべき隣接伝送フレーム間
のKパラメータ値の差に対応する割合で中心位置
からシフトさせた位置に設定しこれらの点を接続
する近似直線によつて線形補間を行うことなども
容易に実施できるものであり、このような線形補
間の1つとして、第3図における各伝送フレーム
f1,f2,f3,……f5等を代表する代表基本フレー
ムのKパラメータ値a1,a2,a3,…a6等を接続し
た直線系列を補間用の近似直線とすること等も所
望により容易に実施できる。
なお、第3図における点a1,a2,a3,…a6等で
示されるKパラメータ値を有する代表基本フレー
ムを選択するために、本実施例においては前述し
たダイナミツクプログラミング分析手法を用いて
いるが、これは別なダイナミツクプログラミング
分析によつて実施することも可能である。第4図
は本発明におけるダイナミツクプログラミング分
析の第2の手法を説明するための第2のダイナミ
ツクプログラミング分析説明図である。
第4図に示す如く、長さ10mSECの基本フレー
ムをたとえば20フレーム並べてダイナミツクプロ
グラミングフレームAを構成する。このダイナミ
ツクプログラミング(DP)フレームAの長さは
200mSECであり、第4図に示す如く基本フレー
ムF1からF9までは有音区間、基本フレームF10
らF15までは無音区間、さらに基本フレームF16
らF20までは有音区間であるとする。このDPフレ
ームAの各基本フレームごとに有音無音の判別を
行ない基本フレームF10からF15までの無音区間を
除いて基本フレームを並べ新DPフレームBを得
る。この新DPフレームのうち有音区間の基本フ
レームF1からF9までをグループ、基本フレー
ムF16からF20までをグループとし、このおよ
びのフレームグループ内で計測される距離には
係数xを、またグループとグループとにまた
がるフレーム間の距離は係数yをかける。この場
合x≪yとすることにより有音区間と無音区間と
の境界がいつも可変フレームの境界となるように
する。また、DPすべきフレーム内に無音区間が
存在しないときは、たとえばDPフレームAがす
べて有音区間の20基本フレームとしこの中から5
個の基本フレームを選択しようとする場合、DP
フレームBの14基本フレームからは4基本フレー
ムを選択すればよいというようにする。
このようなダイナミツクプログラミング手法を
実施することにより分析側2における分析遅延時
間が一定となすことができ、ダイナミツクプログ
ラミング処理を簡単にすることができる。このよ
うなダイナミツクプログラミング手段をとるか、
前述した実施例におけるダイナミツクプログラミ
ング手段をとるかは分析すべき入力音声信号の内
容、処理すべき装置の規模、および処理目的等を
勘案し所望により任意に設定できる。
最後に伝送符号の効率化について説明する。本
実施例における分析側から合成側に伝送すべきデ
ータの伝送符号を効率化するために、無音区間の
伝送フレーム長を表現するビツトと有音区間にお
ける伝送フレーム長を表現するビツトとを互いに
独立させることにより容易に実施できる。
第5図は伝送符号の構成を示す伝送符号構成図
である。第5図Aは有音区間における伝送符号構
成図、第5図Bは無音区間における伝送符号構成
図である。
第5図Aに示すように伝送符号フレームの区切
りを示すフレームビツトFには2値の論理値
“1”が、続いて伝送フレーム長フイールドLに
は伝送フレーム長を指定する2値の論理値の組合
せを配置し、次は伝送すべき代表基本フレームの
各種伝送パラメータを配置する。
これに対し無音区間では第5図Bに示すよう
に、フレームの区切りを示すフレームビツトFの
論理値“1”に続いて無音区間指定フイールドS
の内容をすべて論理値“0”として、これが無音
区間を示す符号であることを指定する。これは第
5図AのLの代りに伝送される。続いて第5図A
のPに指定されるパラメータ符号の代りに無音区
間の伝送フレーム長を指示するフイールドL′とし
て使用する。このような形式で符号化することに
より、無音区間における伝送フイールドの最大長
を有音区間の伝送フイールドの最大長に比較して
充分長く選ぶことができ、それだけ符号の効率化
が図れることとなる。
あるいはまた、伝送符号フレーム中の特定のビ
ツト、たとえば第5図AおよびBの伝送符号フレ
ームビツトFを専用の有音区間/無音区間判別ビ
ツトとして使用し、これ以外の符号の構成は、有
音区間と無音区間とでは全く独立的にそれぞれに
最適なフイールド構成をとるようにしてもよい。
いずれをとるかは所望により任意に設定でき、こ
れらはいずれも符号の効率化が得られるものであ
る。
無音区間を除いた有音区間を可変長伝送フレー
ムを用いた最適線形近似を行ない、また合成にお
いては線形補間を施すという手段を備えることに
より、伝送すべき情報量の大幅な節減が可能とな
り、伝送情報の低ビツトレート化および低ビツト
レート伝送における再生音質の大幅な改善が得ら
れるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロツク図、
第2図は代表基本フレームおよび伝送フレーム設
定関係図、第3図は合成側線形補間図、第4図は
ダイナミツクプログラミング分析の第2の手法を
示す第2のダイナミツクプログラミング分析説明
図、第5図は有音区間における伝送符号構成図で
ある。 1……合成側、2……分析側、3……伝送路、
101……低域フイルタ・A/Dコンバータ、1
02……ウインドウ処理器、103……自己相関
係数計測器、104……自己相関係数メモリ、1
05……線形予測係数分析器、106……自己相
関係数二次差分計測器、107……距離ベクトル
メモリ、108……距離計測器、109……フレ
ーム選択器、110……有声/無声/無音判別
器、111……ピツチ抽出器、112……符号化
器、201……復号化器、202……Kパラメー
タメモリ、203……Kパラメータ補間器、20
4……線形近似区間制御器、205……補間制御
器、206……Kパラメータ/αパラメータ変換
器、207……LPCフイルタ、208……ピツ
チ抽出器、209……切替器、210……雑音発
生器、211……可変利得増幅器、212……
D/Aコンバータ・低域フイルタ。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声信号を線形予測分析し抽出した線形
    予測係数を前記入力音声信号の音声情報として伝
    送しこの音声情報から前記入力音声信号を合成し
    再生する可変長フレーム型線形予測ボコーダにお
    いて、前記入力音声信号を有声音および無声音の
    少なくとも一方を含む有音区間と音声を含まない
    無音区間とに判別する有音無音判別手段と、この
    有音無音判別手段によつて判別された前記有音区
    間をそれぞれ可変長フレームによつて分割し分割
    される可変長フレーム間を線形補間し時間歪が最
    小となるように最適線形近似するとともに前記無
    音区間の間に介在する連続した所定の有音区間
    (大フレーム)においても可変長フレームによる
    前記入力音声信号の分析を行なう最適線形近似手
    段と、この最適線形近似手段から出力され伝送さ
    れる前記音声情報を受けそれに所定の線形補間を
    施して前記入力音声信号を合成し再生せしめる線
    形予測係数補間手段とを備えて成ることを特徴と
    する可変長フレーム型線形予測ボコーダ。
JP57087479A 1982-05-24 1982-05-24 可変長フレ−ム型線形予測ボコ−ダ Granted JPS58203500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57087479A JPS58203500A (ja) 1982-05-24 1982-05-24 可変長フレ−ム型線形予測ボコ−ダ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57087479A JPS58203500A (ja) 1982-05-24 1982-05-24 可変長フレ−ム型線形予測ボコ−ダ

Publications (2)

Publication Number Publication Date
JPS58203500A JPS58203500A (ja) 1983-11-26
JPH0235997B2 true JPH0235997B2 (ja) 1990-08-14

Family

ID=13916061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57087479A Granted JPS58203500A (ja) 1982-05-24 1982-05-24 可変長フレ−ム型線形予測ボコ−ダ

Country Status (1)

Country Link
JP (1) JPS58203500A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4658853B2 (ja) * 2006-04-13 2011-03-23 日本電信電話株式会社 適応ブロック長符号化装置、その方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JPS58203500A (ja) 1983-11-26

Similar Documents

Publication Publication Date Title
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
US5305421A (en) Low bit rate speech coding system and compression
KR100615480B1 (ko) 음성 대역 확장 장치 및 음성 대역 확장 방법
EP1096476B1 (en) Speech signal decoding
JP2586043B2 (ja) マルチパルス符号化装置
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
JPH0235997B2 (ja)
JP3510168B2 (ja) 音声符号化方法及び音声復号化方法
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP2943983B1 (ja) 音響信号の符号化方法、復号方法、そのプログラム記録媒体、およびこれに用いる符号帳
JP2650355B2 (ja) 音声分析合成装置
JP3055901B2 (ja) 音声信号符号化復号化方法及び音声信号符号化装置
JP2560682B2 (ja) 音声信号符号化復号化方法とその装置
JP3163206B2 (ja) 音響信号符号化装置
JP2000298500A (ja) 音声符号化方法
JPH0235994B2 (ja)
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP2508002B2 (ja) 音声符号化方法とその装置
JPH0235996B2 (ja)
JPH05165497A (ja) コード励振線形予測符号化器及び復号化器
JPH0738119B2 (ja) 音声波形符号復号化装置
JPH01258000A (ja) 音声信号符号化復号化方法並びに音声信号符号化装置及び音声信号復号化装置
JP2596143B2 (ja) 音声符号化方法
JPH11184499A (ja) 音声符号化方法および音声符号化方法