JPS5848100A

JPS5848100A - 音声分析合成装置

Info

Publication number: JPS5848100A
Application number: JP56146368A
Authority: JP
Inventors: 古谷　哲夫; 徹三瓶; 斉藤　規; 義注太田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1981-09-18
Filing date: 1981-09-18
Publication date: 1983-03-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音声分析合成装置に関するものである。

従来の音声分析合成装置は、分析部において入力音声信
号を１０［ｒｎａ）、２０（ｍａ）　　などの一定時間
のフレーム毎に分析し、各フレームの特性を表わす特徴
パラメータを抽出し、これを符号化してメモリに記録し
、合成時にはこれをメモリより読み出し、復号化して合
成部に入力し、合成音信号を発生する方式である。しか
し、この方式によると、入力音声信号が長時間の場合、
必要なメモリの容量がぼり大なものとなるのが欠点であ
る。たとえば入力音声信号が１０００［’ａ］の場合、
フレーム長を２０　（ｍａ〕　とするとフレーム数は５
０，０００となり、必要なメモリ容量１ｄ　４８　［ｂ
ｌｔ／フレーム〕で合成した場合、２．４　ＣＭｂｉｔ
）　　以上となる。

この方式の改良法として、日本音響学会音声研究会資料
８８０−４５　　ｒ話者を限定した場合のバタンマツチ
ングによる音声清報圧縮」（管材昇、板倉文忠）の例に
よれば、入力音声信号のすべてのフレームより、いくつ
かの代表フレームを選出し、各フレームの特徴パラメー
タをそれと最も類似度の冒い代表フレームの特徴パラメ
ータで代用する事により合成用データの圧縮を行なう方
法がいくつか考案されており、前記の５０，０００フレ
ームの中から代表フレーム約１０００個を選出し、合成
用データを１／３以下に圧縮している。

しかし、上記のように当該フレームの特徴パラメータを
全代表７レームの特徴パラメータのうち最も類似度の茜
いもので代用する方法によると、同じような音質の音声
信号が連続する場合、つまり原音声信号のフンームの特
徴パラメータの時間的変動がほとんＰな−い場合、個々
のフレームとそれに対応する代表フレームとの特徴パラ
メータの類似度は高くても、時間的にみである代表７レ
ー３− ムと、その前後の代表フレームとの特徴パラメータの類
似度がそれほど高くない場合がしばしば生じ、このため
に合成音信号のフレームの特徴パラメータの時間的変動
が生ずる事により合成音にふるえが生じ音質が劣化する
。

本発明の目的は、合成用データを圧縮する事により、こ
れを記録するメモリの容量を低減し、かつ上記した音質
劣化をなくすことのできる音声分析合成装置を提供する
ことにある。

本発明による音声分析合成装置は、あらかじめ全フレー
ムよりいくつかの代表フレームを選出した上で、各フレ
ームに対応する代表フレームを決定し、合成時には当該
フレームに対応する代表フレームの特徴パラメータによ
り合成音信号を発生する方式であり、当該フレームに対
応する代表フレームを決定する方法は、まず当該フレー
ムとの特徴パラメータの類似度の最大値を与える代表７
レームを選出し、前記最大値と、当該フレームとその前
後の少なくとも１以上のフレームとの間の特徴パラメー
タの類似度とを比較し、その結果に一４＝よって前記の最大値を与える代表フレームを対応づける
か、当該フレームの前後のフレームに対応する代表フレ
ームの一つを対応づけるかを決定するという方法を採っ
ていることを特徴とする。

次に図を参照して本発明の一実施例を説明する。

図は本発明の一実施例を示すブロック図である。

図において、ｌｔｊ音声信号入力端子、２はＡ／Ｄ変換
器、３は音声分析装置、４はバッファーメモリ、５＃′
ｉ第１の演算装置、６は第１の制御装置、７はメモリ、
８は第２の演舞装龍、９は第２の制御装置、１０，１１
．１２はそれぞれ第１．第２および第３の符号化器、１
３，１４．１５はそれぞれ第１．第２および第３の復号
化器、１６は第３の制御装置、１７は音声合成装置、１
８１ｄＤ／Ａ変換器、１９は合成音信号出力端子である
。

なお、本発明による音声分析合成装置の特徴として、各
フレームに対応する代表フレームを決定する方法は、ま
ず当該フレームとの特徴パラメータの類似度の最大値を
与える代表フレームを選出し、前記最大値と、当該フレ
ームとその前後の少なくとも１以上のフレームとの間の
特徴パラメータの類似度とを比較し、その結果によって
決定する点に特徴があると述べたが、これから説明する
実施例では、前記最大値と、当該フレームとその直前の
フレームとの間の特徴パラメータの類似度とを比較する
場合を例として説明する。

さて入力端子１より入力したアナログ音声信号はＡ／Ｄ
変換器２によりディジタル信号に変換され、音声分析装
置３は入力されたディジタル音声信号をたとえば１０　
［ｍｓ）　、あるいは２０　［ｍｓｌなどの一定時間の
フレームごとに分析し、各フレームの特性を表わす特徴
パラメータを抽出する。ここで音声分析装置３の抽出す
る特徴パラメータは、音の振幅を表わすパラメータ、音
の轟さを表わすパラメータ、および１次からｌθ次′ま
たは８次１での偏自己相関係数である。バッファメモリ
（４−１）には音声分析装置３で抽申された特徴パラメ
ータのうち第１の演算装置５の入力の対象とする後述の
ものを記録する。第１の演算装置５は、バッファメモリ
（４−１）に記録されている特徴パラメータにもとづい
て、すべてのフレーム相互間の特徴パラメータの類似度
を＃Ｉ′算し、その結果をバックアメモリ（４−２）に
記録する。

本実施例の／Ｉ？徴パラメータの類似度の尺度について
述べる。まず各７レームについてフレームの音声信号を
予測した時の予測誤差の二乗平均値を最小とするような
最適な一定次数１での線形予測係数を考える。上記一定
次数は偏自己相関係数の最大次数と同一であり、１０次
または８次である。

２個のフレーム間の特徴パラメータの類似度の尺度は、
比較の対象とするフレームの音声信号をこのフレーム自
身の前記最適な線形予測係数で予測した場合の予測誤差
の二乗平均値と、同じ音声信号を、基準とするフレーム
の前記最適な線形予測係数で予測した場合の予測誤差の
二乗平均値との比の値とする。名フレームにおいて、同
じ次数１での前記最適な線形予測係数と偏自己相関係数
とは一対一の対応関係がある。

本実施例では音声分析装置３において、各フレームの偏
自己相関係数を計算する過程において前記最適な線形予
測係数を計算し、これらを偏自己相関係数とともにバッ
ファメモリ（４−１）に記録し、第１の演算装＃５にお
いては、これらにもとづいてフレーム相互間の特徴パラ
メータの類似度を計算する。第１の制御装置６はバッフ
ァメモリ（４−２）から読出されたデータにもとづいて
各フレームごとに、これとの特徴パラメータの類似度が
あらかじめメモリ（７−１）に設定されている基準値以
上である７レームを判別し、その総数が最大となるフレ
ームを１つの代表フレームとして決定し代表フレーム番
号を与え、このフレームの偏自己相関係数をバッファメ
モリ（４−１）より入力し、第３の符号化器１２により
符号化してメモリ（７−５）に代表フレーム番号順に記
録する。ここで代表フレーム番号は決定した順に１から
与えていくものとする。またバックアメモリ（４−１）
に記録されている内容のうちこのフレームに関するもの
をバッファメモリ（４−３）に転送し、代表フレーム番
号順に配列する。

次に、今回決定した代表フレームおよび、これと特徴パ
ラメータの類似度が前記一定値以上であるフレームの集
合を除いた残りの全フレームを対象として上記の代表フ
レームを１個決定し、その特徴パラメータのうち所定の
ものをバッファメモリ（４−１）より読み出して第３の
符号化器１２およびバッファメモリ（４−３）に転送す
る動作を行なう。

このように１つの代表を決定し、これと特徴パラメータ
の類似度が前記一定値以上であるフレームを次回の代表
決定の対象外とする動作を、全フレームが対象外となる
までくり返す。第２の演算装置８は、フレームの時間的
順序に従い、１つのフレームの特徴パラメータを順次バ
ッファメモ１Ｊ（４−１）より入力し、バッファメモリ
（４−３）に記録されているすべての代表フレームの特
徴パラメータとの類似度を計算し、最大の類似度および
それを与える代表フレームの番号を出力する。第２の制
御装置９は第２の演算装を府８より出力された、１つの
フレームについての代表フレームとの特徴パラメータの
類似度の最大（ＦＭおよびそれを与える代表フレーム番
号を入力し、バッファーメモリ（４−２）より、このフ
レームと直前の７レームとの特徴パラメータの類似度を
入力し、両者を比較して前者の方が大の場合、およびこ
のフレームが最初のフレームである場合および面前のフ
レームが無音フレームである場合には前記類似度の最大
値を力える代表フレームをこのフレームに対応する代表
フレームとして決定し、後者の方が大の場合には、直前
のフレームに対応する代表フレームをこのフレームに対
応する代表フレームとして決定する。

メモリ（７−２）にＩ／′ｉ１つのフレームに対応する
代表フレームが決定するごとにその代表フレーム番号を
記録し、次薗の代表フレーム決定の際に直前のフレーム
に対応する代表フレームの番号として参照する。各フレ
ームに対応する代表フレームの番号は順次第２の符号化
器１１により符号化され、メモリ（７−４）に記録され
る。

なお、音声分析装［３により抽出される各フレームの特
徴パラメータのうち、音の振幅を表わすパラメータおよ
び音の高さを表わすパラメータは順次第１の符号化器１
０により符号化され、メモ！／　（７−３）に記録され
る。音声合成時には、Ｍ３の制御装置ｔｉ　１６　Ｈフ
レームの時間的順序に従い、個々のフレームの音の振幅
を表わすパラメータと音の高さを表わすパラメータをメ
モリ（７〜３）より読み出して第１の復号化器１３によ
り復号化して入力し、これらを音声合成装置１ｔ１７へ
出力し、°この動作に同期して、同じフレームに対応す
る代表フレームの番号をメモリ（７−４）より第２の復
号化器１４により復号化して入力し、この番号に該当す
る代表フレームの偏自己相関係数をメモリ（７−５）よ
り第３の復号化器１５により得号化して入力し、これを
音声合成装置１７に出力する動作を行なう。

これらの動作はフレーム要分の周期で行なう。音声合成
装置１７は第３の制御装置１６よりフレーム要分の周期
で出力される個々の７し〜ムの特徴パラメータにもとづ
いてフレーム要分のテイジタル合成音信号を発生（−２
Ｄ／Ａ変換器Ｉ８によりこれをアナログ合成音ｇＫ刊に
変換して合成音信号出力端子１９に出力する。

図における音声・箇号入力端子１、Ａ／Ｄ変換器２、１
１− Ｄ／Ａ変換器１８、合成音信号出力端子１９以外の部分
の動作は汎用計算機による演算におきかえる事も可能で
ある。

また本実施例においては「前後の少なくとも１以上の７
レーム」が当該フレームの直前のフレームである例につ
いて説明したが、これを当該フレームの前後の複類間の
フレームとして本発明を適用すればより大きな効果が得
られ、さらに当該フレームと全代表フレームとの特徴パ
ラメータの類（Ｊ！度の最大値と、その前後の少なくと
も１以上Ωフレームの特徴パラメータの類似度とに適当
な重み係数を乗じた後、両者の比較を行なえばより大き
な効果が得られる。

以上のように、本発明によれば、当該７レームに、あら
かじめ確定された有限個の代表フレーム中の１個を選択
して対応づけ、当該フレームの特徴パラメータを対応す
る代表フレームの特徴パラメータで代用して合成音信号
を生成する方式において、当該フレームに対応する代表
フレームの決定において、当該フレームとの特徴パラメ
ータの１２− 類似度の最大値を与える代表フレームを対応づけるか、
当該フレームの前後のフレームに対応する代表フレーム
のうち一つを対応づけるかを、当該フレームと代表フレ
ームとの特徴パラメータの類似度の最大値と、尚該フレ
ームのその前後の少なくとも１以上のフレームとの特徴
パラメータの類似度とを比較した結果によって決定して
いるので同じような音質の音声信号が時間的に連続する
場合、つまりフレームの特徴パラメータの時間的変動が
ほとんどない音声信号の１合、前記した従来方式に比較
して、音声合成装置に入力される％徴パラメータに時間
的に小刻みな変動が生じず合成音にふるえが生じない。

以−ヒにおいては各フレームの主要な特徴パラメータと
して偏自己相関係数を用いる音声分析合成装行において
、偏自己相関係数にもとづく尺度を用いて当該フレーム
とその前後のフレームおよび代表フレームとの特徴パラ
メータの類似度を計算しその結果ＶＣより当該フレーム
に対応する代表フレームを選択する方式について説明し
たが、線スベクトルパラメータを主要な特徴パラメータ
として用いる音声分析合成装置においても同様に紳スペ
クトルパラメータにもとづく尺度を用いて当該フレーム
とその前後のフレームおよび代表フレームとの特徴パラ
メータの類似度を計算し、その結果により当該フレーム
に対応する代表フレームを選択する事により同様の効果
を得ることができる０

【図面の簡単な説明】

図は本発明の一実施例を示すブロック図である。符号説明１・・・音声信号入力端子、２・・・Ａ／Ｄ変換器、３
・・・音声分析装置、４・・・バッファーメモリ、５・
・・演算装置（１）、６・・・制御装置（１）、７・・
・メモリ、８・・・演算装置（２）、９・・・制御装置
（２）、１０・・・符号化器（１）、１１・・・符号化
器（２）、１２・・・符号化器（３）、１３・・・復号
化器（１）、１４・・・復号化器（２）、１５・・・復
号化器（３）、１６・・・制御装置（３）、１７・・・
音声合成装置、１８・・・Ｄ／Ａ変換器、１９・・・合
成音信号出力端子。代理人　弁理士　並　木　昭　夫１５−

Claims

【特許請求の範囲】１）アナログ入力信号をディジタル信号に変換″　し、
一定時間のフレームに区切って分析演算を行ない各フレ
ームの特徴パラメータを抽出する手段と、すべてのフレ
ーム相互間の特徴パラメータの類似度を計算する手段と
、該計算結果を用いて前記のフレーム全体より代表のフ
レームを選出する手段と、前記により選出された代表フ
レームの特徴パラメータをメモリに記録する手段と、各
フレームに代表フレームから１個を選択して対応づける
操作を行なう対応付は操作手段と、前記により各フレー
ムに対応づけられた代表フレームの番号をメモリに記録
する手段と、フレームの時間的順序に従って当該フレー
ムに対応する代表フレームの番号を前記メモリより入力
し、該当する番号の代表フレームの特徴パラメータを前
記メモリより読み出して出力する手段と、前記により出
力されり特徴パラメータにもとづいてディジタル合成音
信号を発生し、これをアナログ信号に変換する手段とを
有して成り、入力音声信号の清報量を圧縮して記録し、
再生を行なうようにした音声分析合成装置において、前
記対応付は操作手段は、各フレームに代表フレームから
１１１ｉ’ｊを選択して対応づける際、当該フレームと
全代表フレームとの特徴パラメータの類似度の最大値と
、当該フレームとその前後の少なくともｌ以−ヒのフレ
ームとの特徴パラメータの類似度とを比較した結果にも
とづいて前記最大値を与える代表フレームを当該フレー
ムに対応づけるか、当該フレームの前後のフレームに対
応する代表フレームのうち一つを当該フレームに対応づ
けるかを決定するようにしたことを特徴とする音声分析
合成装置。２、特許請求の範囲第１項に記載の音声分析合成装置に
おいて、前記対応付は操作手段が、当該フレームと全代
表フレームとの％微パラメータの類似度の最大値と、当
該フレームとその前後の少なくとも１以上のフレームと
の特徴パラメータの類似度とに所定の重み係数を乗じた
結果を比較した結果にもとづいて、前記最大値を与える
代表フレームと、前後のフレームに対応する代表フレー
ムのうち一つとのいずれかを当該フレームに対応づける
かを決定するようにしたことを特徴とする音声分析合成
装置。