JPH0754438B2 - 音声処理装置 - Google Patents

音声処理装置

Info

Publication number
JPH0754438B2
JPH0754438B2 JP61063329A JP6332986A JPH0754438B2 JP H0754438 B2 JPH0754438 B2 JP H0754438B2 JP 61063329 A JP61063329 A JP 61063329A JP 6332986 A JP6332986 A JP 6332986A JP H0754438 B2 JPH0754438 B2 JP H0754438B2
Authority
JP
Japan
Prior art keywords
frame
analysis
representative
data
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61063329A
Other languages
English (en)
Other versions
JPS621000A (ja
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPS621000A publication Critical patent/JPS621000A/ja
Publication of JPH0754438B2 publication Critical patent/JPH0754438B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は入力音声信号を分析して特徴パラメータを抽出
する場合における区分的最適関数近似方法に特徴を有す
る音声処理装置に関する。
〔従来の技術〕
入力音声信号を分析してその特徴パラメータを抽出し、
スペクトル包格データと音源データとからなる特徴パラ
メータを伝送路を介して合成側から合成側に送出し、合
成側ではこれら特徴パラメータにもとづいて入力音声信
号を再生する音声分析合成方式とその装置はよく知られ
ている。
このような音声分析合成方法とその装置において、入力
音声に関する分析情報のうちの特徴パラメータを分析フ
レーム単位で分析側から合成側に送出する代りに、それ
ぞれ相連続する複数個の分析周期からなる区分を矩形関
数等の段階状関数によって入力音声と最適近似せしめた
うえこれら各区分の分析フレーム数と代表特徴パラメー
タとを音源情報とともに分析側から合成側に供給するこ
とによって伝送データ量の圧縮を図る手法は可変長フレ
ームボコーダ等の応用によっても近時よく知られつつあ
る。
可変長フレームとして設定される区分は、入力音声を矩
形近似等を介して入力音声を最適近似せしめて得られる
ものであり、演算量の点から効率的はDPが多用される。
このDPによる各区分ごとの代表分析フレームの選択は、
各区分ごとに設定される最大数M個の代表分析フレーム
数(1<M<K,ただしKは各区分の分析フレーム総数)
を残留歪を評価尺度としてこれを最小とする組合せの内
容を決定するものである。残留歪は近似関数と入力音声
信号とによって示される特徴パラメータの空間ベクトル
距離によって示されこれが小さい程近似度が高いものと
なる。
〔発明が解決しようとする問題点〕
しかしながら上述したDPを利用する従来の区分的最適近
似関数近似には次に述べるような欠点がある。
すなわち、相連続する区分に対し前区分で選択された最
終分析フレームと現区分で選択される先行代表分析フレ
ームはそれぞれの区分を対象とするDP手法で個別に決定
され基本的には連続性を保持しないことが多い。つまり
前区分の最終選択代表フレームとは無関係に現フレーム
の第1番目の代表分析フレームが選択されてこのため隣
接区分間の代表フレームの不連続による近似性の低下が
避けられないことが多いという欠点がある。
本発明の目的も上述した欠点を除去し、区分間の連続性
を大幅に改善した処理効率のよい区分的最適関数近似方
法を有する音声処理装置を提供することにある。
〔問題点を解決するための手段〕
本発明による音声処理装置は、予め設定した一定の分析
フレームごとに入力音声信号を分析して特徴パラメータ
を抽出したうえ予め設定した複数個の連続する前記分析
フレームからなる区分ごとの前記特徴パラメータから任
意の数の代表特徴パラメータを選択して前記各区分を区
分的最適関数によって近似する区分的最適関数近似方法
とその装置において、前区分の最終選択フレームによっ
て第1番目の代表フレームより時間的に先行して存在す
る現区分の先行フレームが代替されることを許容するDP
にもとづいて前記各区分を最終近似せしめる区分的最適
関数近似手段を備えて構成される。
〔実施例〕
次に図面を参照して本発明を詳細に説明する。
第1図は本発明による音声処理装置における区分的最適
関数近似方法の一実施例の構成を示すブロック図であ
る。
第1図に示す実施例の構成は区分的最適関数近似器1と
して示し、また音源情報分析器100も併記して示してい
る。区分的最適関数近似器1はLSP分析器11,パラメータ
メモリ12,DPプロセッサ13および前区分選択パラメータ
メモリ14等を備えて構成される。
LSP分析器11は入力音声を受けると、予め定めた分析フ
レームごとにこれをLPC(Linear Prediction Coefficie
nt,線形予測係数)分析してLPC係数を抽出したあとこれ
ら分析フレームごとのLPC係数から公知の技術、たとえ
ばニュートン(Newton)の反復法を利用する高次方程式
を解く手法などを利用して予め設定する次数のLSP(Lin
e Spectrum Pairs,線スペクトル対)係数列を求めこれ
ら特徴パラメータをパラメータメモリ12に供給する。
DPプロセッサ13はこうしてパラメータメモリ12に供給さ
れた分析フレームごとのパラメータに対し内蔵プログラ
ムの制御のもとに区分的最適関数近似をDP手法を利用し
て実施する。DPプロセッサ13はこの処理においてパラメ
ータメモリ12から常時前区分での最終選択フレームを読
出して前区分選択パラメータメモリ14に格納せしめ、前
区分の最終選択フレームのLSP係数を含むLSP係数列を対
象として区分的最適関数近似を実行する。このようにし
て前区分の最終選択フレームによって現区分の先行選択
フレームが代替されることを許容するDP処理を実施する
ことにより現区分の特徴パラメータのみを対象とするDP
処理に比して残留歪を大幅に減少した近似結果を得てい
る。
このようにして得られた選択特徴パラメータデータは音
源情報分析器100によって抽出された音源情報データと
ともに伝送路を介して合成側に送出される。
音源情報分析器100は入力音声の音源情報としての音源
の強さ、有声/無声/無音の別ならびにピッチ周期に関
するデータを公知の手段で分析フレームごとに抽出し出
力する。
次に本発明の最も重要な部分であるDPプロセッサ13の動
作を図を用いて説明する。第2図は特徴パラメータベク
トル分析周期を10msec、区分長を200msec(従って一区
分内に20ケの特徴パラメータベクトルが含まれる)、代
表特徴パラメータベクトル数を5とした場合のDPプロセ
ッサ13の説明図である。DPプロセッサ13は5ケの代表パ
ラメータベクトルを選択し、且つ代表パラメータベクト
ルが代表する区間を決定するものであり、その動作は以
下の通りである。
第2図においては前区分の最終代表分析フレーム〜
は現区分の分析フレーム番号である。
さて、第1代表分析フレーム候補としては区分中の時間
的先行順で分析フレーム〜のうちいずれかが対象と
なる。同様にして第5フレーム候補となるのが分析フレ
ーム〜である。
また第1代表分析フレーム候補に引続いて第2代表分析
フレーム候補となりうる分析フレームは、分析フレーム
もしくはが代表分析フレームとして指定されること
を条件に入れると分析フレーム〜のうちのいずれか
が対象となり、全く同様にして第4フレーム候補として
は分析フレーム〜のうちのいずれかが対象となり、
また第3フレーム候補としては分析フレーム〜のう
ちのいずれかが対象となることも自明の内容である。
さて、第2図において、いま仮に分析フレームが第1
フレームとして選択された場合を考えてみる。これに対
して第2フレームとなりうる可能性のある分析フレーム
は〜である。これら第1および第2フレーム候補の
組合せを例とし発生する歪を考えてみると次のようにな
る。
分析フレーム代替によるスプクトル歪すなわち時間歪
は、代表分析フレームと代替される分析フレームとのス
ペクトル距離によって表わすことができ次の(1)式に
よって示される。
(1)式においてi,jはスペクトル距離Dijの計測を行
なう2つの分析フレームのフレーム番号でありNは特徴
パラメータベクトル要素数、Wkは各ベクトル要素のス
ペクトヲ感度▲P(i) k▼,▲P(j) k▼はフレームi,jの
特徴パラメータベクトル要素である。(1)式で示され
るDijはフレーム相互間のスペクトル距離であるととも
に観点を変えると分析フレームjとiでで代替する場合
に発生するスペクトル歪、すなわち時間歪である。
さて、分析フレームととがそれぞれ第1および第2
代表分析フレームとなったような場合はフレーム代替に
よる時間歪は発生しない。
次に、第2代表分析フレームとして分析フレームが選
択された場合を考えてみると次の(2)式に示す▲D
(2) 3▼が分析フレーム〜を、第2代表分析フレーム
をとし、このを含む現区文2ケの代表フレームと前
区分最終選択フレームとにより代表した場合の最小の
総歪として定義される。
(2)式において▲D(2) 3▼は第2代表分析フレーム候
補として分析フレーム(3)を選択したときに発生する
総歪であり、また▲D(1) 1▼および▲D(1) 2▼はそれぞ
れ第1代表分析フレームとして分析フレーム(1)また
は(2)を選択したときのそれぞれの総歪を表わす。
上述した第1代表分析フレーム候補における総和は下記
(3)式により求められる。
(3)式において▲D(1) 1▼〜▲D(1) 16▼はそれぞれ
分析フレーム,〜,〜,……,〜とした
場合に、第1代表分析フレームと、前区分最終選択フレ
ームとで代表したことにより発生する総歪、DL,2
L,16は次の(4)〜(5)式で定義される時間歪の和
を示す。
(4),(5)式においてdL,1は分析フレームと
間の時間歪、dL,iは分析フレームと間の時間歪で
ある。
再び(2)式の説明に戻る。(2)式においてD1,3
フレーム〜を代表フレームととを用いて最適に
近似した場合の歪を表わし下記(11)式で示される。
又、D2,3はフレーム,間に代替すべきフレームが
存在しないためD2,3=0となる。
さて、次に第2代表分析フレームとして分析フレーム
が選ばれる場合の最小の総歪▲D(2) 4▼について考えて
みる。
この場合は第1代表分析フレームとして存在しうる可能
性があるのは分析フレームのほかにおよびがあり
総歪▲D(2) 4▼は次の(7)式で示される。
(7)式においてD1,4,D2,4ならびにD3,4はそれぞれ
時間歪を表わし、たとえばD1,4は次の式で示される。
(8)式においてd1,2およびd1,3は分析フレームと
との間に介在する分析フレームととがそれぞれ分
析フレームによって代表されるときに発生する時間
歪、d4,2およびd4,3は分析フレームととの間に介
在する分析フレームととがそれぞれ分析フレーム
によって代表されるときに発生する時間歪である。
前述した(7)式の意味することは、第2代表分析フレ
ームとしてを選択した場合、これによって最小の総歪
を与える第1代表分析フレームならびにこれら第1およ
び第2代表分析フレームによって代表される分析フレー
ムの組合せが決定されるということである。このように
して第1から第5までの各代表分析フレーム候補を対象
として次次に同様な手順で(2)式や(7)式に示すよ
うな総歪を第5代表分析フレーム候補まで求めていく。
このような総歪は入力音声信号のスペクトル包絡パラメ
ータとの近似処理差いわゆる残留歪を最小とする近似関
数を設定する尺度となるものである。
こうしてたとえば分析フレームを第2代表分析フレー
ムとする場合は第1代表分析フレームとしては歩行の分
析フレーム〜が、また分析フレームが第2代表分
析フレームとなる場合は先行の分析フレーム〜がそ
れぞれ第1代表分析フレームとなりうる設定で総歪を計
算しつつ第5代表分析フレーム候補に及び、この第5代
表分析フレーム候補の分析フレーム〜にはさらに次
の演算を実施する。
(9)式によって示されるDlは第5代表分析フレーム
として分析フレーム〜までのいずれかが選択された
とき、これによって代表される他の分析フレームによる
総歪の影響を最小とするものを選択することを示し、▲
(5) 5▼〜▲D(5) 20▼はそれぞれ第5代表分析フレー
ムとして分析フレーム〜のいずれかが選択されたと
きそれら分析フレームに発生する総歪であり、また は分析フレームと分析フレームからまでのそれぞ
れとの時間歪の総和を、 は分析フレームと分析フレームからまでのそれぞ
れとの時間歪の総和を、またd19,20は分析フレーム
,間の時間歪を示す。
(9)式によって決定されるDlが区分ごとに決定した
とき、直ちに第1から第5代表分析フレーム候補の組合
せのう権総歪の最小なDPパスを決定する5個の代表分析
フレームとこれら代表分析フレームによっそ代表される
分析フレームが決定され、こうして区分的最適関数近似
による可変長フレーム化が容易に実施される。
次にDPプロセッサ13を図面を用いて詳細に説明する。第
7図はDPプロセッサ13の構成を示すブロック図であり、
パラメータメモリ12と前区分選択パラメータメモリ14と
を併記してある。第8図に示すDPプロセッサ13は時間歪
算出器131と制御演算器133とで構成されている。制御演
算器は例えばマイクロプロセッサをベースにした計算シ
ステムでありRAMを内蔵している。この内蔵RAMを説明の
都合上、エリア表現する事とする。これらのエリアはFO
RTRNプログラムで次のよに表現されるものである。
DIMENSION ALSP(N),BLSP(20,N),IDP(5,20,
2), QDP(5,20),DMAB1(2*N),Q1(20),QB(2
0) さて、前区分選択パラメータメモリ14に記憶されている
フレームON次LSPパラメータがアドレスライン142より
供給されるアドレス信号に対応して、入出力ライン141
を介し、制御演算器133へ供給される。制御演算器133は
このデータをエリアALSPへ記憶する。次にパラメータメ
モリ12に記憶されているフレーム〜のN次LSPパラ
メータがアドレスライン122より供給されるアドレス信
号に対応して、出力ライン121を介し、制御演算器133へ
供給される。制御演算器133はこのデータをエリアBLSP
へ記憶する。
最初に制御演算器133は(3)式に示す▲D(1) 1▼〜▲
(1) 16▼を算出し、対応するパスを決定する。D1
“0"であるため、総歪を記憶するためのエリアQDP(1,
1)を“0"とする。又、フレームに代替されるフレー
ムが存在しないため、DPパスを記憶するエリア(1,1,
1)=0 が代替するフレームの範囲を示すエリア
(1,1,2)=1が書込まれる。内を示すDPパスをここ
では“0"で表現している。
次に▲D(1) 2▼(=DL,2)を(4)式により算出す
る。先ずdL,1が次のように算出される。エリアDMAB1の
番地(1)〜(N)にALSPの番地(1)〜(N)のデー
タが、DMAB1番地(N+1)〜(2*N)にBLSPの番地
(1,1)〜(1,N)のデータが転送される。制御演算器13
3はDMAB1のデータを番地(2*N)より順々に(1)ま
で連続的に出力ライン134を介して時間歪算出器131へ出
力する。制御演算器133は又、このデータに同期したパ
ルス、2*N個分をクロックライン135を介して時間歪
算出器131へ出力する。
第8図は時間歪算出器131を詳細に説明するためのブロ
ック図である。第8図に於いて時間歪算出器131はレジ
スタ1311−1〜N,1312−1〜N、減算器1313−1〜N、
掛算器1314−1〜N、掛算器1315−1〜N、およびアキ
ュムレータ1316を有して構成される。レジスタ1311およ
び1312は例えば16bitのレジスタであり、クロックライ
ン135を介して供給されるパルスに同期してデータを記
憶する。出力ライン134を介して供給されたデータは、
前述の2*N個分のパルスにより、次々と記憶され、最
終的にはレジスタ1311−1にDMAB1(1),レジスタ131
1−NにDMAB1(N)、レジスタ1312−1にDMAB1(N+
1),レジスタ1312−NにDMAB1(2*N)の内容が記
憶される。即ち、レジスタ1311−1−Nにフレーム
の、レジスタ1312−1〜NにフレームのN次LSPデー
タが記憶される。減算器1313−1はレジスタ1311−1に
記憶されているフレームのパラメータ▲P(L) 1▼と、
レジスタ1312−1に記憶されているフレームのパラメ
ータ▲P(1) 1▼との差を算出し掛算器1314−1に出力す
る。掛算器1314−1はこの差の二乗を算出し、掛算器13
15−1の一つの入力端子へ出力する。掛算器1315−1の
他の入力端子には定数としてスペクトル感度W1が印加
されている。従って掛算器1315−1の出力はW1(▲P
(L) 1▼−▲P(1) 1▼)2となる。同様に1315−Nの出力
はWN(▲P(L) N▼−▲P(1) N▼)2となる。その結果ア
キュムレータ1316の出力は前記(1)式に示す時間歪を
フレーム,間で算出した時間歪dL,1となる。時間
歪算出器131は算出したdL,1を入力ライン136へ出力す
る。
再び第7図を用いて説明する。制御演算器133は入力ラ
イン136を介して供給されたdL,1をエリアQ1の番地
(1)に記憶する。
次にd2,1がdL,1と同様に次のように算出される。エリ
アDMAB1の番地(1)〜(N)にSLSPの番地(2,1)〜
(2,N)のデータが、DMAB1の番地(N+1)〜(2*
N)にBLSPの番地(1,1)〜(1,N)のデータが転送され
る。制御演算器133はDMAB1のデータを時間歪算出器131
へ出力する。時間歪算出器133はd2,1を算出し制御演算
器133へ出力する。制御演算器133はd2,1をエリアQ1の
番地(20)に書込む。尚、この番地(20)はイメージ上
の番地(0)に相等する。
制御演算器133は更にQ1(1)のデータとQ1(20)のデ
ータとを比較し、小さいデータをDL,2,即ち▲D(1) 2
▼とし、この▲D(1) 2▼をエリアQDP(1,2)に記憶す
る。無論DL,2決定と同時に最小のものがdL,1かd2,1
かが判明している。この結果に基づいてエリアIDP(1,
2,1)〜(1,2,2)に次のデータが書込まれる。IDP(1,
2,1)はDPパスとしてに対応する“0"を書込まれる。I
DP(1,2,2)は代表フレームに代替されるフレームの
範囲をフレームの番号で表現したもの、この場合は“1"
又は“2"が書込まれる。
次に制御演算器133は▲D(1) 3▼(=DL,3)を算出す
る。まずフレームにフレーム,が代替される場合
の歪 が次の手順で算出される。dL,1が前述の手順で算出さ
れエリアQ1(2)に記憶される。次にdL,2がdL,1と同
様に算出される。制御演算器133はこのdL,1とQ1(2)
の内容の和、即ち を求め、これをエリアQ1(2)に再び記憶する。
次にdL,1+d3,2が次のように算出される。dL,1が算
出され、エリアQ1(1)に書込まれる。更にd3,2が前
述のd2,1と同様の手順で求められる。制御演算器133は
このd3,2とQ1(1)の内容の和、即ちdL,1+d3,2
求め、これをエリアQ1(1)に再び記憶する。
次に が求められる。まずd3,1が算出され、エリアQ1(20)
に書込まれる。更にd3,2が算出されQ1(20)の内容と
加算され、再びQ1(20)に書込まれる。
制御演算器133はQ1(1),Q1(2),Q1(20)の内容の
うち最小のものを検索し、この結果をDL,3、即ち▲D
(1) 3▼とし、この▲D(1) 3▼をエリアQDP(1,3)に、対
応するDPパスをエリアISP(1,3,1)〜(1,3,2)に書込
む。無論IDP(1,3,1)はDPパスとしてに対応する“0"
が書込まれる。IDP(1,3,2)には代表フレームに代替
されるフレームの範囲がフレーム番号の形式で書込まれ
る。この場合は“1",“2"、または“3"のいずれかが書
込まれる事となる。
次々に制御演算器133に▲D(1) 4▼(=DL,4)〜▲D
(1) 16▼(=DL,16)を算出し、総歪をQDP(1,4)〜
(1,16)へ、DPパスデータをIDP(1,4,μ)〜(1,16,
μ),(μ=1,…,2)に書込む。以上が第1代表分析
フレーム候補に関するDPプロセッサ13の処理の詳細であ
る。
引続いてDPプロセッサ13は第2代表分析フレーム候補に
関する処理を実施する。前述のように第2代表分析フレ
ーム候補は〜が対象となる。
最初にフレームに関する処理が行なわれる。を第2
代表分析フレーム候補とした場合、バスの対象となる第
1代表分析フレーム候補はのみである。又、フレーム
,間には被代替フレームは存在しない。従ってD
1,2=0である。又、前述のように▲D(1) 1▼=0であ
り▲D(2) 2▼=▲D(1) 1▼+D1,2であるため▲D(2) 2
▼=0となる。制御演算器133は総歪“0"をQDP(2,2)
に書込む。更に制御演算器133はDPパスデータとしてIDP
(2,2,1)に“1"を(2,2,2)に“2"を書込む。
次にフレームに関する処理が行なわれる。を第2代
表分析フレーム候補とした場合、パスの対象となる第1
代表分析フレーム候補はおよびである。まずフレー
ム,を代表フレームとして、フレームをどちらか
の代表フレーム、もしくはこれらの補間データで代替し
た場合の時間歪D1,3がDL,2と同様の方法で算出され、
エリアQB(1)に書込まれる。次にパスの対象をフレー
ムとした場合の時間歪D2,3をQB(2)に書込む。無
論、D2,3は“0"である。更に制御演算器133はQB(1)
の内容にQDP(1,1)の内容を加算し、これを再びQB
(1)に書込む。同様にQB(2)の内容にQDP(1,2)の
内容を加算し、これを再びQB(2)に書込む。更に制御
演算器133はQB(1)とQB(2)の内容の大小を比較
し、小さいものを選択し、これを▲D(2) 3▼としてQDP
(2,3)を書込み、対応するDPパス情報をIDP(2,3,1)
〜(2,3,2)に書込む。なお、上記のD3を算出する処理
は前記(2)式を実行したものである。
次にフレームに関する処理が、パスの対象をフレーム
〜として実施される。上記と同様の手順でD1,4
2,4、D3,4がQB(1)、QB(2),QB(3)に書込ま
れる。次にQB(i)(i=123)の内容とQDP(1,
i)(i=123)の内容とQDP(1,i)(i
123)の内容の加算結果が再びQB(i)(i=1
23)に書込まれる。QB(i)(i=1,……3)の最小
値が検索され、これを▲D(2) 4▼としてQDP(2,4)に書
込み、対応するDPパス情報をIDP(2,4,1)〜(2,4,2)
に書込む。なお、上記▲D(2) 4▼に関する処理は前記
(7)式を実行したものである。
以下、同様に▲D(2) 5▼〜▲D(2) 17▼が算出されQDP
(2,5)〜(2,17)に書込まれる。無論DPパス情報もIDP
の対応する番地に書込まれる。
引続きDPプロセッサ13は第3代表フレーム候補に関する
処理をフレーム〜を対象として、第4代表フレーム
候補に関する処理をフレーム〜を対象として、第5
代表フレーム候補に関する処理をフレーム〜を対象
として実施する。
最後にDPプロセッサ13は前記(9)式に示す処理を以下
の手順で実施する。制御演算器133はd5,6を算出し、こ
の結果とQDP(5.5)の内容を加算し、加算結果をQDP
(5,5)へ再び書込む。次にd5,7を算出し、同様にQDP
(5.5)の内容を加算し、結果をQDP(5.5)へ書込む。
以下、次々とd5,8,d5,9,……d5,20をQDP(5,5)にア
キュムレートする。このアキュムレートした結果は である。以下、同様に次々と を算出する。更に制御演算器133はQDP(5,5)〜QDP(5,
20)の内容の最小値、即ち(14)式に示すDlを求め、
第5代表フレームを決定する。第5代表フレームが決定
されるとIDPに記憶されているDPパスデータから、第4
〜第1代表フレームが同時に決定され、更に第1第5代
表フレームが直接他のフレームを代替する区間、及び代
表フレームの補間データが他のフレームを代替する区間
が決定される。これらの区間情報はリピートビツトとし
て符号化器201へ出力される。又、第1〜第5代表フレ
ームのパラメータはBLSPより符号化器201へ出力され
る。更に第5代表フレームのパラメータは次の区分の
として前区分選択パラメータメモリ14へ出力される。
本実施例においてはLSP分析器11によるLSP係数列抽出の
際の前処理として、入力音声データの高域強調を行なう
ために波形の一次差分を利用してプリエンファシス処理
を実施し、さらに自己相関係数領域におけるLag関数に
よるLagウインドウ処理を実施してLSP係数間の最小周波
数間隔を広げLSP量子化感度の低減を図って合成側のデ
ィジタルフィルタの安定度を増大させる処理を行なって
いる。さらに本実施例ではLSP係数は10次の次数とし、
かくして得られた分析フレームごとのLSP係数に対しDP
プロセッサ13は前述のDP処理を行なう。DPプロセッサ13
は制御演算器133に内蔵されたプログラムの制御のもと
に前区分の最終選択フレームにより現区分の選択フレー
ムが代替されることを許容するDP処理が行なわれる。な
お、第1図におけるDP処理は矩形関数による近似を実施
しているがこれを固定傾斜区間型台形関数による近似と
してもよい。
第3図は第1図に示す区分的最適関数近似方法を利用し
た可変長フレーム型ボコーダの一実施の構成を示すブロ
ック図である。
第3図に示す可変長フレームボコダは可変長フレームボ
コダ分析側2および可変長フレームボコーダ合成側3を
備えて構成される。さらに可変長フレームボコーダ分析
側2は区分的最適関数近似器1,音源情報分析器100,符号
化器201,202およびマルチプレクサ203を備えて構成さ
れ、また可変長フレームボコーダ合成側3はデマルチプ
レクサ301,ピッチパルス発生器302,雑音発生器303,切替
器304,可変増幅器305,補間器306,LSP合成フィルタ307,D
/Aコンバータ308およびLPF(Low Pass Filter)309を備
えて構成される。
分析測の区分的最適関数近似器1と音源情報分析器100
はそれぞれ選択特徴パラメータデータと音源情報データ
とを出力し符号化器201,202によって符号化を受けたの
ちマルチプレクサ203に供給され所定の形式の多重化処
理を行なって伝送ライン2001を介して合成側に送出され
る。
本実施例において区分的最適関数近似器1は区分的最適
関数近似を行なってフレーム圧縮を図ったLSP係数を選
択特徴パラメータとして出力する。すなわち予め設定し
た分析フレーム数を単位とする区分ごとに予め設定した
最大数以下の数の代表フレームとこれら代表フレームに
たって表現されるフレーム数に関する情報を出力しまた
音源情報分析器100は音源の強さ、有声/無声/無音の
別,ピッチ周期に関するデータを出力する。
さて、合成側ではデマルチプレクサ301によって多重化
分離を行ないさらに復号化したデータのうち選択特徴パ
ラメータデータは補間器306に、音源情報データのうち
ピッチ周期データはピッチパルス発生器302に、有声/
無声/無音判別データは切替器304に、また音源強度デ
ータは可変利得増幅器305にそれぞれ供給される。
補間器306は区分ごとに選択された代表フレームによるL
SP係数列ならびにこの代表フレームによって指定される
分析フレームに関する情報にもとづいて区分ごとの全分
析フレームに関するLSP係数を補間,再生しこれをLSP合
成フィルタ307に供給しそのフィルタ係数として利用せ
しめる。
一方、切替器304は、入力した有声/無声/無音判別デ
ータが有声を指定するときはピッチパルス発生器302の
出力を、また無声もしくは無音を指定するときは雑音発
生器303の出力を可変利得増幅器305に供給せしめるよう
に切替える。従って、有声のときはピッチ周期に対応し
た繰返し周波数のピッチパルスが、また無声もしくは無
音のときは雑音発生器303の発生する白色雑音がそれぞ
れ可変利得増幅器305に供給される。
可変利得増幅器305は音源強度データに対応した利得設
定を行なってピッチパルスもしくは白色雑音を増幅した
うえこれらを駆動音源としてLSP合成フィルタ307に供給
し、かくしてLSP合成フィルタ307はディジタル量の入力
音声を再生し、このあとD/Aコンバータ308,LPF309を介
してアナログ量の音声として出力される。
このようにして第1図に示す区分的最適関数近似方法を
用いた可変長フレーム型ボコーダが実源できる。
第4図は第1図に示す区分的最適関数近似方法を利用
し、かつ分析データを蓄積しつつ入力音声を合成する音
声合成器の一実施例の構成を示すブロック図である。
第4図に示す音声合成器4はメモリ310を除く他の構成
要素はすべて第3図に示す可変長フレームボコーダ合成
側3の同一記号のものと同一であるのでこれらに関する
詳細な説明は省略する。
音声合成器4のメモリ310には予め設定した各種音声資
料に対して本発明による区分的最適関数近似を施して得
られた特徴パラメータと音源情報に関する符号化データ
が蓄積されており、制御ライン4001を介して受ける読出
しコマンド信号を入力するごとにこの読出しコマンド信
号によって指定された内容の音声資料に関する特徴パラ
メータ情報と音源情報とを、デマルチプレクサ301に出
力する。
デマルチプレクサ301はこうして供給された入力をデコ
ードし、特徴パラメータデータは補間器306に、また音
源情報のうちピッチ周期データはピッチパルス発生器30
2に、有声/無声/無音判別データは切替器304に、音源
強度データは可変利得増幅器305にそれぞれ供給され
る。
切替器304は、入力する有声/無声/無音判別データが
有声を指定するときピッチパルス発生器302の出力を、
また無声/無音を指定するときは雑音発生器303の出力
を可変利得増幅器305に供給するように切替る。
LSP合成フィルム307は可変利得増幅器305の出力を受け
るとこれを駆動音源とし、また補間器306から受ける特
徴パラメータをフィルタ係数として動作し入力音声信号
を再生する。このディジタル再生信号はD/Aコンバータ3
08,LPE309を介して所望のアナログ量に変換され出力さ
れる。
第4図に示す実施例において、メモリ310に蓄積される
分析データは分析側において第1図に示す区分的最適関
数近似手段にもとづいて抽出された特徴パラメータを利
用するものであり、本実施例においてはLSP係数列を特
徴パラメータとして利用している。
第5図は第1図に示す区分的最適関数近似方法を利用し
て抽出した入力音声の特徴パラメータを用いる波形符号
化装置の一実施例の構成を示すブロック図である。
第5図に示す波形符号化装置5は区分的最適関数近似器
1,ノイズ重み付け器501,符号化復号化器502,補間器503,
相関係数算出器504,自己相関係数算出器505,マルチパル
ス検索器506,符号化器507およびマルチプレクサ508を備
えて構成され、これら構成要素のうち区分的最適関数近
似器1とマルチプレクサ508以外の部分が区分的最適関
数近似器1によって抽出された特徴パラメータを利用し
て入力音声の波形符号化を図る部分であり、本実施例で
はこれらの構成要素によって音源波形としてのマルチパ
ルスを公知の相関領域評価手法を利用して求めている。
入力音声は区分的最適関数近似器1とノイズ重み付け器
501とに供給される。
ノイズ重み付け器501は区分的最適関数近似器1によっ
て抽出される特徴パラメータの次数や音声資料等にもと
づいて決定した伝達関数のノイズフィルタを有し区分的
最適関数近似器1の出力との畳み込み乗算を実施する。
区分的最適関数近似器1は所定の次数のLPC係数を区分
的最適関数近似方法によって抽出しこの特徴パラメータ
をノイズ重み付け器501に供給する。この特徴パラメー
タはまた符号化復号化器502にも供給されて符号化され
マルチプレクサ508に特徴パラメータデータとして供給
される符号化された特徴パラメータはふれれび復号化さ
れたあと補間器503に供給される。
補間器503は区分的最適関数近似器1から符号化復号化
器502を介して供給される特徴パラメータが区分ごとに
選択された代表分析フレームとこの代表分析フレームに
よって指定される分析フレームの情報とを利用し特徴パ
ラメータを代表分析フレーム間で補間処理し分析フレー
ムごとに再生したあと声道フィルタのインパルスポンス
を求めこれを相互相関係算出器505と自己相関係数算出
器505とに供給する。
相互相関係数算出器504はこうして供給される声道フィ
ルタのインパルスレスポンスとノイズ重み付け後の入力
音声データとの畳み込み積分を行なって両者の相互相関
をとり得られた相互相関係数をマルチパルス検索器504
に供給する。
自己相関係数算出器505は補間器503から声道フィルタの
インパルスレスポンスに関するデータを受けるとこの自
己相関係数を計算しこれをマルチパルス検索器506に供
給する。
マルチパルス検索器506はこうして入力した相互相関係
数と自己相関係数とを利用し公知の相関領域評価にもと
づく手法によってマルチパルス列を検索しこれを符号化
器507によって符号化したうえこれを音源データとして
マルチプレクサ508に供給する。この音源データは音源
波形情報そのものといってよく、このようにして特徴パ
ラメータを利用する波形符号化装置が実現できる。
なお、この場合符号化すべき波形情報は特徴パラメータ
から得られたマルチパルスを利用しているが他の波形情
報抽出手段、たとえば合成フィルタとは周波数応答特性
が逆なLPC逆フィルタを備え区分的最適関数近似器1か
らLPCパラメータの供給を受けつつこれと入力音声信号
とによって残差信号を発生しこの波形情報を符号化する
などの手段によっても同様に波形符号化できることは明
らかである。
第6図は第1図に示す区分的最適関数近似方法を利用し
た圧縮DP型単語音声認識装置の一実施例の構成を示すブ
ロック図である。
第6図に示す圧縮DP型単語音声認識装置6は区分的最大
関数近似器1のほか切替器601,標準パタンメモリ602,パ
タンマッチング器603および最小距離検索器604を備えて
構成される。
第6図に示す圧縮DP型単語音声認識装置6は特定話者の
発する単語音声に関する特徴パラメータを標準パタンと
して予めストアしておきこれと入力する単語音声の特徴
パラメータのパタンマッチングを実施して入力単語音声
を認識するものでありその基本動作は次のようである。
すなわち、区分的最大関数近似器1は第1図によって示
した如く入力音声信号の分析フレームごとにLPC係数を
所定の次数で抽出したあと公知の手法でLPCパラメータ
に変換し、このあとDP手法によってフレーム圧縮を予め
設定する区分単位で実施する。こうして区分ごとに予め
設定した最大数を越えない代表フレームと、この代表フ
レームによって指定される分析フレームの最適組合せが
選択され、このようにして得られた可変長フレームが先
ず切替器601の登録時の接続によって標準パタンメモリ6
02にストアされる。
次に切替器601が認識側に切替られ特定話者が標準パタ
ンメモリ602に内蔵されている単語音声を発すると登録
時と全く同じ処理を受けてパタンマッチング器603にLSP
パラメータが供給される。
パタンマッチング器603はスペクトル距離計測器や補間
器等を備え、区分的最大関数近似器1によって圧縮処理
された両入力の区分ごとの代表分析フレーム間に補間値
を設定しつつスペクトル距離計測器で両入力の特徴パラ
メータパタンのスペクトル距離を予め設定する範囲の対
応点間で求めこれを全標準パタンについて実施したあと
次に最小距離検索器604に標準パタン指定番号とともに
供給する。
最小距離検索器604はスペクトル距離が最小の標準パタ
ンを選定しその指定番号を認識結果として出力、かくし
て圧縮DP型単語音声認識処理が区分的最小関数近似方法
を利用して実現できる。
なお第6図に於いて登録時,認識時共に区分的最適関数
近似器を用いて標準パタン,被認識パタン共にフレーム
圧縮を実施しているが、これは登録時のみフレーム圧縮
を実施する構成に容易に変更し得る。
上述した第3〜第6図はいずれも第1図によって説明し
た区分的最適関数近似方法を利用する装置でありこれに
よって処理量に比し再生品質の優れた効率のいい近似手
段を実現することてできる。
〔発明の効果〕
以上説明した如く本発明によれば、区分的最適関数近似
方法とその装置において、前区分の最終選択フレームに
より現区分の選択フレームが代替されることを許容する
動的計画法を用いた区分的最適関数近似を実施する手段
を備えることによって近似度対処理量の著しい効果化が
図れる。
【図面の簡単な説明】
第1図は本発明による音声処理装置の区分別最適関数近
似方法の一実施例の構成を示すブロック図、第2図は本
発明による区分的最適関数近似方法を詳細に説明するた
めの説明図、第3図は第1図に示す区分的最適関数近似
方法を利用した可変長フレーム型ボコーダの一実施例の
構成を示すブロック図、第4図は第1図に示す区分的最
適関数近似方法を利用し、かつ分析データを蓄積しつつ
入力音声を合成する音声合成器の一実施例の構成を示す
ブロック図、第5図は第1図に示す区分的最適関数近似
方法を利用して抽出した入力音声の特徴パラメータを用
いる波形符号化装置の一実施例の構成を示すブロック
図、第6図は第1図に示す区分的最適関数近似方法を利
用した圧縮DP型単語音声認識装置の一実施例の構成を示
すブロック図、第7図は第1図に示すDPプロセッサ13の
一実施例を詳細に示すブロック図、第8図は第7図に示
す時間歪算出器131の一実施例を詳細に示すブロック図
である。 1……区分的最適関数近似器、2……可変長フレームボ
コーダ分析側、3……可変長フレームボコーダ合成側、
4……音声合成器、5……波形符号化装置、6……圧縮
DP型単誤音声認識装置、11……LSP分析器、12……パラ
メータメモリ、13……DPプロセッサ、14……前区分選択
パラメータメモリ、201……符号化器、202……符号化
器、203……マルチプレクサ、301……デマルチプレク
サ、302……ピッチパルス発生器、303……雑音発生器、
304……切替器、305……可変利得増幅器、306……補間
器、307……LSP合成フィルタ、308……D/Aコンバータ、
309……LPF、310……メモリ、501……ノイズ重み付け
器、502……符号化復号化器、503……補間器、504……
相互相関係数算出器、505……自己相関係数算出器、506
……マルチパルス検索器、507……符号化器、508……マ
ルチプレクサ、601……切替器、602……標準パタンメモ
リ、603……パタンマッチング器、604……最小距離検索
器、100……音源情報分析器、131……時間歪算出器、13
3……制御演算器、1311−1〜N……レジスタ、1312−
1〜N……レジスタ、1313−1〜N……減算器、1314−
1〜N……掛算器、1315−1〜N……掛算器、1316……
アーキュムレータ。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】予め設定した一定の分析フレームごとに入
    力音声信号を分析して特徴パラメータを抽出したうえ予
    め設定した複数個の連続する前記分析フレームからなる
    区分ごとの前記特徴パラメータから任意の数の代表特徴
    パラメータを選択して前記各区分を区分的最適関数によ
    って近似する音声処理装置において、前区分の最終選択
    フレームによって現区分の先行フレームが代替されるこ
    とを許容する動的計画法(Dynamic Programming,以下DP
    と略称する)にもとづいて前記各区分を最適近似せしめ
    る区分的最適関数近似手段を備えて成ることを特徴とす
    る音声処理装置。
JP61063329A 1985-03-20 1986-03-19 音声処理装置 Expired - Lifetime JPH0754438B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP60-57324 1985-03-20
JP5732485 1985-03-20

Publications (2)

Publication Number Publication Date
JPS621000A JPS621000A (ja) 1987-01-06
JPH0754438B2 true JPH0754438B2 (ja) 1995-06-07

Family

ID=13052394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61063329A Expired - Lifetime JPH0754438B2 (ja) 1985-03-20 1986-03-19 音声処理装置

Country Status (1)

Country Link
JP (1) JPH0754438B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3469567B2 (ja) 2001-09-03 2003-11-25 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
JPWO2003042648A1 (ja) * 2001-11-16 2005-03-10 松下電器産業株式会社 音声符号化装置、音声復号化装置、音声符号化方法および音声復号化方法

Also Published As

Publication number Publication date
JPS621000A (ja) 1987-01-06

Similar Documents

Publication Publication Date Title
US4220819A (en) Residual excited predictive speech coding system
KR100615480B1 (ko) 음성 대역 확장 장치 및 음성 대역 확장 방법
JP2954588B2 (ja) 音声の符号化装置、復号装置及び符号化・復号システム
EP0477960A2 (en) Linear prediction speech coding with high-frequency preemphasis
US5027404A (en) Pattern matching vocoder
KR100422261B1 (ko) 음성코딩방법및음성재생장치
JP3255190B2 (ja) 音声符号化装置並びにその分析器及び合成器
JP2615548B2 (ja) 高能率音声符号化方式とその装置
KR20020084199A (ko) 파라메트릭 엔코딩에서 신호 성분들의 링킹
JPH0754438B2 (ja) 音声処理装置
JPH0736119B2 (ja) 区分的最適関数近似方法
JP3088204B2 (ja) コード励振線形予測符号化装置及び復号化装置
JPS6162100A (ja) マルチパルス型符号化復号化装置
JPH0235994B2 (ja)
JP3112462B2 (ja) 音声符号化装置
JP2715437B2 (ja) マルチパルス符号化装置
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JPS62102294A (ja) 音声符号化方式
JPS58188000A (ja) 音声認識合成装置
JP2844590B2 (ja) 音声符号化方式とその装置
JP2615862B2 (ja) 音声符号化復号化方法とその装置
JP3263136B2 (ja) 信号のピッチ同期位置抽出方式及び信号合成方式
JPH0690638B2 (ja) 音声分析方式
JPH077275B2 (ja) 音声信号符号化方式とその装置
JPH0833756B2 (ja) 音声信号符号化方法とその装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term