JPS5848100A - 音声分析合成装置 - Google Patents

音声分析合成装置

Info

Publication number
JPS5848100A
JPS5848100A JP56146368A JP14636881A JPS5848100A JP S5848100 A JPS5848100 A JP S5848100A JP 56146368 A JP56146368 A JP 56146368A JP 14636881 A JP14636881 A JP 14636881A JP S5848100 A JPS5848100 A JP S5848100A
Authority
JP
Japan
Prior art keywords
frame
frames
representative
feature parameters
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56146368A
Other languages
English (en)
Inventor
古谷 哲夫
徹 三瓶
斉藤 規
義注 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP56146368A priority Critical patent/JPS5848100A/ja
Publication of JPS5848100A publication Critical patent/JPS5848100A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Seasonings (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音声分析合成装置に関するものである。
従来の音声分析合成装置は、分析部において入力音声信
号を10[rna)、20(ma)  などの一定時間
のフレーム毎に分析し、各フレームの特性を表わす特徴
パラメータを抽出し、これを符号化してメモリに記録し
、合成時にはこれをメモリより読み出し、復号化して合
成部に入力し、合成音信号を発生する方式である。しか
し、この方式によると、入力音声信号が長時間の場合、
必要なメモリの容量がぼり大なものとなるのが欠点であ
る。たとえば入力音声信号が1000[’a]の場合、
フレーム長を20 (ma〕 とするとフレーム数は5
0,000となり、必要なメモリ容量1d 48 [b
lt/フレーム〕で合成した場合、2.4 CMbit
)  以上となる。
この方式の改良法として、日本音響学会音声研究会資料
880−45  r話者を限定した場合のバタンマツチ
ングによる音声清報圧縮」(管材昇、板倉文忠)の例に
よれば、入力音声信号のすべてのフレームより、いくつ
かの代表フレームを選出し、各フレームの特徴パラメー
タをそれと最も類似度の冒い代表フレームの特徴パラメ
ータで代用する事により合成用データの圧縮を行なう方
法がいくつか考案されており、前記の50,000フレ
ームの中から代表フレーム約1000個を選出し、合成
用データを1/3以下に圧縮している。
しかし、上記のように当該フレームの特徴パラメータを
全代表7レームの特徴パラメータのうち最も類似度の茜
いもので代用する方法によると、同じような音質の音声
信号が連続する場合、つまり原音声信号のフンームの特
徴パラメータの時間的変動がほとんPな−い場合、個々
のフレームとそれに対応する代表フレームとの特徴パラ
メータの類似度は高くても、時間的にみである代表7レ
ー3− ムと、その前後の代表フレームとの特徴パラメータの類
似度がそれほど高くない場合がしばしば生じ、このため
に合成音信号のフレームの特徴パラメータの時間的変動
が生ずる事により合成音にふるえが生じ音質が劣化する
本発明の目的は、合成用データを圧縮する事により、こ
れを記録するメモリの容量を低減し、かつ上記した音質
劣化をなくすことのできる音声分析合成装置を提供する
ことにある。
本発明による音声分析合成装置は、あらかじめ全フレー
ムよりいくつかの代表フレームを選出した上で、各フレ
ームに対応する代表フレームを決定し、合成時には当該
フレームに対応する代表フレームの特徴パラメータによ
り合成音信号を発生する方式であり、当該フレームに対
応する代表フレームを決定する方法は、まず当該フレー
ムとの特徴パラメータの類似度の最大値を与える代表7
レームを選出し、前記最大値と、当該フレームとその前
後の少なくとも1以上のフレームとの間の特徴パラメー
タの類似度とを比較し、その結果に一4= よって前記の最大値を与える代表フレームを対応づける
か、当該フレームの前後のフレームに対応する代表フレ
ームの一つを対応づけるかを決定するという方法を採っ
ていることを特徴とする。
次に図を参照して本発明の一実施例を説明する。
図は本発明の一実施例を示すブロック図である。
図において、ltj音声信号入力端子、2はA/D変換
器、3は音声分析装置、4はバッファーメモリ、5#′
i第1の演算装置、6は第1の制御装置、7はメモリ、
8は第2の演舞装龍、9は第2の制御装置、10,11
.12はそれぞれ第1.第2および第3の符号化器、1
3,14.15はそれぞれ第1.第2および第3の復号
化器、16は第3の制御装置、17は音声合成装置、1
81dD/A変換器、19は合成音信号出力端子である
なお、本発明による音声分析合成装置の特徴として、各
フレームに対応する代表フレームを決定する方法は、ま
ず当該フレームとの特徴パラメータの類似度の最大値を
与える代表フレームを選出し、前記最大値と、当該フレ
ームとその前後の少なくとも1以上のフレームとの間の
特徴パラメータの類似度とを比較し、その結果によって
決定する点に特徴があると述べたが、これから説明する
実施例では、前記最大値と、当該フレームとその直前の
フレームとの間の特徴パラメータの類似度とを比較する
場合を例として説明する。
さて入力端子1より入力したアナログ音声信号はA/D
変換器2によりディジタル信号に変換され、音声分析装
置3は入力されたディジタル音声信号をたとえば10 
[ms) 、あるいは20 [mslなどの一定時間の
フレームごとに分析し、各フレームの特性を表わす特徴
パラメータを抽出する。ここで音声分析装置3の抽出す
る特徴パラメータは、音の振幅を表わすパラメータ、音
の轟さを表わすパラメータ、および1次からlθ次′ま
たは8次1での偏自己相関係数である。バッファメモリ
(4−1)には音声分析装置3で抽申された特徴パラメ
ータのうち第1の演算装置5の入力の対象とする後述の
ものを記録する。第1の演算装置5は、バッファメモリ
(4−1)に記録されている特徴パラメータにもとづい
て、すべてのフレーム相互間の特徴パラメータの類似度
を#I′算し、その結果をバックアメモリ(4−2)に
記録する。
本実施例の/I?徴パラメータの類似度の尺度について
述べる。まず各7レームについてフレームの音声信号を
予測した時の予測誤差の二乗平均値を最小とするような
最適な一定次数1での線形予測係数を考える。上記一定
次数は偏自己相関係数の最大次数と同一であり、10次
または8次である。
2個のフレーム間の特徴パラメータの類似度の尺度は、
比較の対象とするフレームの音声信号をこのフレーム自
身の前記最適な線形予測係数で予測した場合の予測誤差
の二乗平均値と、同じ音声信号を、基準とするフレーム
の前記最適な線形予測係数で予測した場合の予測誤差の
二乗平均値との比の値とする。名フレームにおいて、同
じ次数1での前記最適な線形予測係数と偏自己相関係数
とは一対一の対応関係がある。
本実施例では音声分析装置3において、各フレームの偏
自己相関係数を計算する過程において前記最適な線形予
測係数を計算し、これらを偏自己相関係数とともにバッ
ファメモリ(4−1)に記録し、第1の演算装#5にお
いては、これらにもとづいてフレーム相互間の特徴パラ
メータの類似度を計算する。第1の制御装置6はバッフ
ァメモリ(4−2)から読出されたデータにもとづいて
各フレームごとに、これとの特徴パラメータの類似度が
あらかじめメモリ(7−1)に設定されている基準値以
上である7レームを判別し、その総数が最大となるフレ
ームを1つの代表フレームとして決定し代表フレーム番
号を与え、このフレームの偏自己相関係数をバッファメ
モリ(4−1)より入力し、第3の符号化器12により
符号化してメモリ(7−5)に代表フレーム番号順に記
録する。ここで代表フレーム番号は決定した順に1から
与えていくものとする。またバックアメモリ(4−1)
に記録されている内容のうちこのフレームに関するもの
をバッファメモリ(4−3)に転送し、代表フレーム番
号順に配列する。
次に、今回決定した代表フレームおよび、これと特徴パ
ラメータの類似度が前記一定値以上であるフレームの集
合を除いた残りの全フレームを対象として上記の代表フ
レームを1個決定し、その特徴パラメータのうち所定の
ものをバッファメモリ(4−1)より読み出して第3の
符号化器12およびバッファメモリ(4−3)に転送す
る動作を行なう。
このように1つの代表を決定し、これと特徴パラメータ
の類似度が前記一定値以上であるフレームを次回の代表
決定の対象外とする動作を、全フレームが対象外となる
までくり返す。第2の演算装置8は、フレームの時間的
順序に従い、1つのフレームの特徴パラメータを順次バ
ッファメモ1J(4−1)より入力し、バッファメモリ
(4−3)に記録されているすべての代表フレームの特
徴パラメータとの類似度を計算し、最大の類似度および
それを与える代表フレームの番号を出力する。第2の制
御装置9は第2の演算装を府8より出力された、1つの
フレームについての代表フレームとの特徴パラメータの
類似度の最大(FMおよびそれを与える代表フレーム番
号を入力し、バッファーメモリ(4−2)より、このフ
レームと直前の7レームとの特徴パラメータの類似度を
入力し、両者を比較して前者の方が大の場合、およびこ
のフレームが最初のフレームである場合および面前のフ
レームが無音フレームである場合には前記類似度の最大
値を力える代表フレームをこのフレームに対応する代表
フレームとして決定し、後者の方が大の場合には、直前
のフレームに対応する代表フレームをこのフレームに対
応する代表フレームとして決定する。
メモリ(7−2)にI/′i1つのフレームに対応する
代表フレームが決定するごとにその代表フレーム番号を
記録し、次薗の代表フレーム決定の際に直前のフレーム
に対応する代表フレームの番号として参照する。各フレ
ームに対応する代表フレームの番号は順次第2の符号化
器11により符号化され、メモリ(7−4)に記録され
る。
なお、音声分析装[3により抽出される各フレームの特
徴パラメータのうち、音の振幅を表わすパラメータおよ
び音の高さを表わすパラメータは順次第1の符号化器1
0により符号化され、メモ!/ (7−3)に記録され
る。音声合成時には、M3の制御装置ti 16 Hフ
レームの時間的順序に従い、個々のフレームの音の振幅
を表わすパラメータと音の高さを表わすパラメータをメ
モリ(7〜3)より読み出して第1の復号化器13によ
り復号化して入力し、これらを音声合成装置1t17へ
出力し、°この動作に同期して、同じフレームに対応す
る代表フレームの番号をメモリ(7−4)より第2の復
号化器14により復号化して入力し、この番号に該当す
る代表フレームの偏自己相関係数をメモリ(7−5)よ
り第3の復号化器15により得号化して入力し、これを
音声合成装置17に出力する動作を行なう。
これらの動作はフレーム要分の周期で行なう。音声合成
装置17は第3の制御装置16よりフレーム要分の周期
で出力される個々の7し〜ムの特徴パラメータにもとづ
いてフレーム要分のテイジタル合成音信号を発生(−2
D/A変換器I8によりこれをアナログ合成音gK刊に
変換して合成音信号出力端子19に出力する。
図における音声・箇号入力端子1、A/D変換器2、1
1− D/A変換器18、合成音信号出力端子19以外の部分
の動作は汎用計算機による演算におきかえる事も可能で
ある。
また本実施例においては「前後の少なくとも1以上の7
レーム」が当該フレームの直前のフレームである例につ
いて説明したが、これを当該フレームの前後の複類間の
フレームとして本発明を適用すればより大きな効果が得
られ、さらに当該フレームと全代表フレームとの特徴パ
ラメータの類(J!度の最大値と、その前後の少なくと
も1以上Ωフレームの特徴パラメータの類似度とに適当
な重み係数を乗じた後、両者の比較を行なえばより大き
な効果が得られる。
以上のように、本発明によれば、当該7レームに、あら
かじめ確定された有限個の代表フレーム中の1個を選択
して対応づけ、当該フレームの特徴パラメータを対応す
る代表フレームの特徴パラメータで代用して合成音信号
を生成する方式において、当該フレームに対応する代表
フレームの決定において、当該フレームとの特徴パラメ
ータの12− 類似度の最大値を与える代表フレームを対応づけるか、
当該フレームの前後のフレームに対応する代表フレーム
のうち一つを対応づけるかを、当該フレームと代表フレ
ームとの特徴パラメータの類似度の最大値と、尚該フレ
ームのその前後の少なくとも1以上のフレームとの特徴
パラメータの類似度とを比較した結果によって決定して
いるので同じような音質の音声信号が時間的に連続する
場合、つまりフレームの特徴パラメータの時間的変動が
ほとんどない音声信号の1合、前記した従来方式に比較
して、音声合成装置に入力される%徴パラメータに時間
的に小刻みな変動が生じず合成音にふるえが生じない。
以−ヒにおいては各フレームの主要な特徴パラメータと
して偏自己相関係数を用いる音声分析合成装行において
、偏自己相関係数にもとづく尺度を用いて当該フレーム
とその前後のフレームおよび代表フレームとの特徴パラ
メータの類似度を計算しその結果VCより当該フレーム
に対応する代表フレームを選択する方式について説明し
たが、線スベクトルパラメータを主要な特徴パラメータ
として用いる音声分析合成装置においても同様に紳スペ
クトルパラメータにもとづく尺度を用いて当該フレーム
とその前後のフレームおよび代表フレームとの特徴パラ
メータの類似度を計算し、その結果により当該フレーム
に対応する代表フレームを選択する事により同様の効果
を得ることができる0
【図面の簡単な説明】
図は本発明の一実施例を示すブロック図である。 符号説明 1・・・音声信号入力端子、2・・・A/D変換器、3
・・・音声分析装置、4・・・バッファーメモリ、5・
・・演算装置(1)、6・・・制御装置(1)、7・・
・メモリ、8・・・演算装置(2)、9・・・制御装置
(2)、10・・・符号化器(1)、11・・・符号化
器(2)、12・・・符号化器(3)、13・・・復号
化器(1)、14・・・復号化器(2)、15・・・復
号化器(3)、16・・・制御装置(3)、17・・・
音声合成装置、18・・・D/A変換器、19・・・合
成音信号出力端子。 代理人 弁理士 並 木 昭 夫 15−

Claims (1)

  1. 【特許請求の範囲】 1)アナログ入力信号をディジタル信号に変換″ し、
    一定時間のフレームに区切って分析演算を行ない各フレ
    ームの特徴パラメータを抽出する手段と、すべてのフレ
    ーム相互間の特徴パラメータの類似度を計算する手段と
    、該計算結果を用いて前記のフレーム全体より代表のフ
    レームを選出する手段と、前記により選出された代表フ
    レームの特徴パラメータをメモリに記録する手段と、各
    フレームに代表フレームから1個を選択して対応づける
    操作を行なう対応付は操作手段と、前記により各フレー
    ムに対応づけられた代表フレームの番号をメモリに記録
    する手段と、フレームの時間的順序に従って当該フレー
    ムに対応する代表フレームの番号を前記メモリより入力
    し、該当する番号の代表フレームの特徴パラメータを前
    記メモリより読み出して出力する手段と、前記により出
    力されり特徴パラメータにもとづいてディジタル合成音
    信号を発生し、これをアナログ信号に変換する手段とを
    有して成り、入力音声信号の清報量を圧縮して記録し、
    再生を行なうようにした音声分析合成装置において、前
    記対応付は操作手段は、各フレームに代表フレームから
    111i’jを選択して対応づける際、当該フレームと
    全代表フレームとの特徴パラメータの類似度の最大値と
    、当該フレームとその前後の少なくともl以−ヒのフレ
    ームとの特徴パラメータの類似度とを比較した結果にも
    とづいて前記最大値を与える代表フレームを当該フレー
    ムに対応づけるか、当該フレームの前後のフレームに対
    応する代表フレームのうち一つを当該フレームに対応づ
    けるかを決定するようにしたことを特徴とする音声分析
    合成装置。 2、特許請求の範囲第1項に記載の音声分析合成装置に
    おいて、前記対応付は操作手段が、当該フレームと全代
    表フレームとの%微パラメータの類似度の最大値と、当
    該フレームとその前後の少なくとも1以上のフレームと
    の特徴パラメータの類似度とに所定の重み係数を乗じた
    結果を比較した結果にもとづいて、前記最大値を与える
    代表フレームと、前後のフレームに対応する代表フレー
    ムのうち一つとのいずれかを当該フレームに対応づける
    かを決定するようにしたことを特徴とする音声分析合成
    装置。
JP56146368A 1981-09-18 1981-09-18 音声分析合成装置 Pending JPS5848100A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56146368A JPS5848100A (ja) 1981-09-18 1981-09-18 音声分析合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56146368A JPS5848100A (ja) 1981-09-18 1981-09-18 音声分析合成装置

Publications (1)

Publication Number Publication Date
JPS5848100A true JPS5848100A (ja) 1983-03-19

Family

ID=15406134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56146368A Pending JPS5848100A (ja) 1981-09-18 1981-09-18 音声分析合成装置

Country Status (1)

Country Link
JP (1) JPS5848100A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01501541A (ja) * 1986-12-02 1989-06-01 グラマン・アエロスペース・コーポレーション リフトエンジンとリフト/巡航エンジンを組合せたvtol航空機
JPH027088A (ja) * 1988-03-01 1990-01-11 Kontron Holding Ag ブラウン管表示装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01501541A (ja) * 1986-12-02 1989-06-01 グラマン・アエロスペース・コーポレーション リフトエンジンとリフト/巡航エンジンを組合せたvtol航空機
JPH027088A (ja) * 1988-03-01 1990-01-11 Kontron Holding Ag ブラウン管表示装置

Similar Documents

Publication Publication Date Title
CA2430111C (en) Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
JPH06506070A (ja) スペクトル補間および高速コードブックサーチを有する音声コーダおよび方法
US5488704A (en) Speech codec
US6910009B1 (en) Speech signal decoding method and apparatus, speech signal encoding/decoding method and apparatus, and program product therefor
KR100327969B1 (ko) 음성재생속도변환장치및음성재생속도변환방법
US5933802A (en) Speech reproducing system with efficient speech-rate converter
JPS5848100A (ja) 音声分析合成装置
JP2931059B2 (ja) 音声合成方式およびこれに用いる装置
JP2001255882A (ja) 音声信号処理装置及びその信号処理方法
JP4357852B2 (ja) 時系列信号の圧縮解析装置および変換装置
JP2002049397A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JPH05303399A (ja) 音声時間軸圧縮伸長装置
JP3462958B2 (ja) 音声符号化装置および記録媒体
JP3010655B2 (ja) 圧縮符号化装置及び方法、並びに復号装置及び方法
JPH0888525A (ja) 無声音検出による自動利得制御装置
JPH0235320B2 (ja)
JP2005242126A (ja) 音響信号の再生装置
JP2008090311A (ja) 音声符号化方法
JPH0833742B2 (ja) 音声合成方式
JPH0528647A (ja) デイジタル音声信号の記録再生方法
JP3092519B2 (ja) コード駆動線形予測音声符号化方式
JPH06259096A (ja) 音声符号化装置
JP3418803B2 (ja) 音声符号復号化装置
JPS62999A (ja) 区分的最適関数近似方法
KR0130875B1 (ko) 펄스 코드 변조(pcm) 파형 오디오 및 엠팩(mpeg) 오디오 신호 재생장치