JP2583883B2 - 音声分析装置および音声合成装置 - Google Patents

音声分析装置および音声合成装置

Info

Publication number
JP2583883B2
JP2583883B2 JP62079208A JP7920887A JP2583883B2 JP 2583883 B2 JP2583883 B2 JP 2583883B2 JP 62079208 A JP62079208 A JP 62079208A JP 7920887 A JP7920887 A JP 7920887A JP 2583883 B2 JP2583883 B2 JP 2583883B2
Authority
JP
Japan
Prior art keywords
sound source
parameter
signal
source waveform
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62079208A
Other languages
English (en)
Other versions
JPS63244100A (ja
Inventor
博也 藤崎
マッツ・ユンクヴィスト
泰雄 佐藤
隆之 大山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62079208A priority Critical patent/JP2583883B2/ja
Publication of JPS63244100A publication Critical patent/JPS63244100A/ja
Application granted granted Critical
Publication of JP2583883B2 publication Critical patent/JP2583883B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔目 次〕 概要 産業上の利用分野 従来の技術 (i)波形符号化方式 (ii)分析合成方式 発明が解決しようとする問題点 問題点を解決するための手段 (i)第1発明 (ii)第2発明 作用 (i)第1発明 (ii)第2発明 実施例 I.実施例と第1図との対応関係 (i)第1発明 (ii)第2発明 II.実施例の構成および動作 (i)音声分析装置 (i−1)音声分析装置の構成 (i−2)音声分析装置の動作 (ii)音声合成装置 (ii−1)音声合成装置の構成 (ii−2)音声合成装置の動作 III.実施例のまとめ V.発明の変形態様 発明の効果 〔概 要〕 音声分析装置であって、複数のパラメータを選択的に
決定して音源波形をモデル化し、そのモデル化による音
源波形に基づいて入力音声信号を自己回帰移動平均分析
し、そのときの誤差に応じて最適なパラメータを決定す
ることによって音声分析を行なうことにより、音声に関
する情報量が効率的に圧縮される。
また、音声合成装置であって、そのような自己回帰移
動平均分析によって得られた各種のパラメータに応じ
て、音源波形のモデル化用に導入されるパラメータに基
づいて音源波形をモデル化と共に、自己回帰移動平均分
析において得られた複数のパラメータを受けて、音声合
成を行なうことにより、高品質な合成音声が得られる。
〔産業上の利用分野〕
本発明は、音声分析装置および音声合成装置に関し、
特に、所謂A−b−S(Analysis−by−Synthesis)の
手法を採ることにより、平均二乗誤差が最小となるよう
に声帯音源波形モデルのパラメータを定め、声帯音源波
形モデルを自己回帰移動平均(以後ARMAと称する)と組
み合わせことにより音声を分析および音声の合成を行な
うようにした音声分析装置および音声合成装置に関する
ものである。
〔従来の技術〕
従来から、音声の認識,伝送,蓄積等にあっては、音
声に関する情報量をできるだけ圧縮し、且つ、その音声
に関する情報から高品質の音声の再生を可能にするもの
として、各種の方式が提案されている。その際、音声に
関する情報量の圧縮率を高めることおよび自然性に富む
音声の再現が望まれる。
そのような要請に応えるものとして、例えば、ADPCM
等の音声の波形をそのまま符号化する「波形符号化方
式」がある。また、これに対するものとして、ボコーダ
(VOCODER)による狭義の「分析合成方式」がある。こ
れらの方式を分けて説明しておく。
(i)波形符号化方式 「波形符号化方式」にあっては、音声信号を線形予測
分析し、線形予測係数と予測誤差を得ることによって、
その予測誤差を量子化するものである。また、再生する
場合には、量子化された予測誤差を分析で得られた線形
予測係数によるフィルタで駆動する。この波形符号化方
式による再生音声の歪みは予測誤差の量子化によるもの
であり、高品質の再生音声が得られる。
しかしながら、その情報量は、例えば16kbps〜64kbps
であり、音声に関する情報量はかなり多くなる。つま
り、この「波形符号化方式」の圧縮率はあまり大きくな
く、音声の認識,伝送,蓄積等が効率的ではない。
(ii)分析合成方式 「分析合成方式」にあっては、人の発する音声を分析
する際に、当該音声の周波数スペクトル包絡情報と音現
情報とに分けて情報圧縮を行なうようにしている。従っ
て、音声の生成機構をモデル化し、音源信号と調音器官
による音響フィルタ特性とに着目している。
例えば、音響フィルタを線形予測フィルタとして、有
音声の音源信号を周期的インパルス列とすると共に無音
声の音源信号を白色雑色とする。これによれば、例え
ば、音声は有声音/無声音の区別情報,周期音源に関す
るピッチ周波数,振幅情報,線形予測係数によって表さ
れる。言い換えれば、予測誤差分をモデル化していると
みることができ、音声情報を例えば1.2kbps〜9.6kbps程
度に圧縮できる。
しかしながら、この分析合成方式により合成される音
声の品質は、上述した「波形符号化方式」に比べるとか
なり低い。
〔発明が解決しようとする問題点〕
このように、上述した「波形符号化方式」および「分
析合成方式」による音声の分析または合成にあっても、
音声に関する情報量が多く、あるいは、合成後の音質が
不充分であった。そのため、「波形符号化方式」なみに
高品質であり、また、「分析合成方式」なみに情報圧縮
できる音声の分析方式および合成方式が要望されてい
た。
このような要請に応えるものとして、本出願人は、特
開昭61−128299(特願昭59−250133)「音声分析/分析
合成方式」を既に提案した。
この特許願による技法は、音源波形のモデル化にあた
って音源をパルスと雑音信号とで近似するのではなく、
ローゼンベルグ(Rosenberg)波形等の声帯音源波形を
使用することとしている。ここで、この音声音源波形モ
デルを規定するためのピッチ周期,立ち上がり時間,立
ち下がり時間および振幅の4種パラメータを、A−b−
S手法によって求めるようにしている。
つまり、音源波形をモデル化した情報に基づいて音声
の分析または音声の分析合成を行なう場合に、少なくと
もピッチ周期,立ち上がり時間,立ち下がり時間および
振幅の4種パラメータによって規定される音源信号で駆
動される線形予測フィルタによて音声信号を生成する音
声合成系を有し、4種のパラメータを逐次選択して、そ
の選択された4種のパラメータについて線形予測フィル
タにより得られる合成音声信号と入力音声信号との誤差
を求め、その合成音声信号と入力音声信号との誤差がよ
り小となるように4種のパラメータに関する最適化を行
ない、当該4種のパラメータを決定するようにして、該
4種のパラメータおよび線形予測係数に基づいて音声の
分析または音声の分析合成を行なうようにするものであ
る。
しかしながら、このような技法にあっても、音声に関
するパラメータを得て圧縮する場合、いまだ情報量の圧
縮率が低く、また、合成音声の品質が低いという問題点
があった。
本発明は、このような点に鑑みて創作されたものであ
って、音声に関する情報量の圧縮率が大きい音声分析装
置と、その分析結果によって音声合成を行なう場合に高
品質な合成音声が得られる音声合成装置とを提供するこ
とを目的としている。
〔問題点を解決するための手段〕
本発明による問題点を解決するための手段としては、
「音声分析装置」および「音声合成装置」がある。
(i)第1発明 第1図(A)は、第1発明による音声分析装置の原理
ブロック図である。
図において、パラメータ決定手段113は、音源波形の
モデル化に必要な複数のパラメータを選択的に決定し、
その決定されたパラメータを表すモデル化パラメータ信
号111を出力する。
音源波形生成手段117は、モデル化パラメータ信号111
によって表される複数のパラメータに応じて音源波形の
モデル化を行ない、そのモデル化された音源波形を表す
音源波形信号115を出力する。
自己回帰移動平均分析手段125は、分析対象の入力音
声信号119および音源波形信号115を受けて自己回帰移動
平均分析を行なって誤差を求め、その誤差を表す誤差信
号121をパラメータ決定手段113に供給するすると共に、
自己回帰移動平均分析によるパラメータを表す分析パラ
メータ出力信号123を出力する。
従って、全体として、誤差信号121によって表される
前記誤差に応じて、パラメータ決定手段113の前記複数
のパラメータを変化させるように構成されている。
(ii)第2発明 第1図(B)は、第2発明による音声合成装置の原理
ブロック図である。
図において、音源波形生成手段135は、分析対象の音
声信号を自己回帰移動平均分析する際に必要とされる音
源波形をモデル化するために得られる複数の第1パラメ
ータを表すモデル化パラメータ信号131を受け、該第1
パラメータに基づいて音源波形をモデル化し、そのモデ
ル化した音源波形を表す音源波形信号133を出力する。
自己回帰移動平均合成手段141は、自己回帰移動平均
分析において得られた複数の第2パラメータを表すパラ
メータ信号137と、音源波形生成手段135からの音源波形
信号133とを受けて、第1パラメータおよび第2パラメ
ータに基づいて音声合成を行なって合成音声出力信号13
9を出力する。
従って、全体として、自己回帰移動平均分析によって
得られた各種のパラメータに応じて、音源波形のモデル
化を行なうと共に、自己回帰移動平均分析パラメータに
基づいて音声合成を行なうように構成されている。
〔作 用〕
(i)第1発明 パラメータ決定手段113において選択的に決定された
複数のパラメータに応じて、音源波形生成手段117は音
源波形をモデル化する。そのモデル化された音源波形の
音源波形信号115に基づいて、自己回帰移動平均分析手
段125は入力音声信号119を自己回帰移動平均分析する。
そのときの誤差がパラメータ決定手段113に与えられ
て、該パラメータ決定手段113は、複数のパラメータを
最適化する。
このパラメータ決定手段113でのパラメータの最適化
の結果として、該パラメータ決定手段113から音源波形
パラメータが得られると共に、自己回帰移動平均分析手
段125から自己回帰移動平均パラメータが得られる。
なお、本発明装置がより具体的な動作を行なう上では
(実施態様に相当する)、パラメータ決定手段113にお
いて選択され且つ最適化される複数のパラメータは、ピ
ッチ周期,声門開放時間,声門開放区間内での音源の歪
み、声門閉鎖からの体積流が負の最大値に達する時間,
声門開放開始時の体積流波形の傾き,声門閉鎖直前の体
積流波形の傾きおよび声門閉鎖直後の体積流波形の傾き
の7種である。これらのパラメータによって音源波形を
モデル化する。
本発明にあっては、パラメータ決定手段113でのパラ
メータの最適化によって、音源波形パラメータおよび自
己回帰移動平均パラメータが得られるので、音声に関す
る情報量が効率的に圧縮される。
(ii)第2発明 既に得られている音源波形パラメータに基づいて、モ
デル化パラメータ信号131は音源波形をモデル化する。
このモデル化によって得られた音源波形と、既に得ら
れた自己回帰移動平均パラメータとに基づいて、自己回
帰移動平均合成手段141は音声合成を行なう。
なお、本発明装置がより具体的な動作を行なう上では
(実施態様に相当する)、既に得られている音源波形パ
ラメータは、ピッチ周期,声門開放時間,声門開放区間
内での音源の歪み、声門閉鎖からの体積流が負の最大値
に達する時間,声門開放開始時の体積流波形の傾き,声
門閉鎖直前の体積流波形の傾きおよび声門閉鎖直後の体
積流波形の傾きの7種である。これらのパラメータによ
って音源波形をモデル化する。
本発明にあっては、既に得られた音源波形パラメータ
および自己回帰移動平均パラメータに基づいて、自己回
帰移動平均によって音声合成を行なうことにより、高品
質な合成音声が得られる。
〔実施例〕
以下、図面に基づいて本発明の実施例について詳細に
説明する。
第2図は、本発明の一実施例による音声分析装置を示
す。第3図は第2図の音声分析装置において利用される
音源波形モデルを示す。第4図は本発明の一実施例によ
る音声合成装置を示す。第5図は第4図に示す音声合成
装置におけるARMAフィルタを具体的に示す。
I.実施例と第1図との対応関係 ここで、本発明の実施例と第1図との対応関係を示し
ておく。
(i)第1発明 モデル化パラメータ信号111は、音源波形パラメータ
信号227に相当する。
パラメータ決定手段113は、最適パラメータ決定部22
3,パラメータ選択部225に相当する。
音源波形信号115は、声帯音源波形信号217に相当す
る。
音源波形生成手段117は、声帯音源波形生成部215に相
当する。
入力音声信号119は、入力音声信号211に相当する。
誤差信号121は、ARMA分析部213からの誤差信号221に
相当する。
分析パラメータ出力信号123は、ARMAパラメータ信号2
19に相当する。
自己回帰移動平均分析手段125は、ARMA分析部213に相
当する。
(ii)第2発明 モデル化パラメータ信号131は、音源波形パラメータ
信号411に相当する。
音源波形信号133は、声帯音源波形信号415に相当す
る。
音源波形生成手段135は、声帯音源波形生成部413に相
当する。
パラメータ信号137は、ARMAパラメータ信号417に相当
する。
合成音声出力信号139は、合成音声信号421に相当す
る。
自己回帰移動平均合成手段141は、ARMAフィルタ419に
相当する。
第1発明および第2発明が、以上のような対応関係が
あるものとして、以下本発明の実施例について説明す
る。
II.実施例の構成および動作 本発明は、「音声分析装置」および「音声合成装置」
に関するので、以下、場合を分けて説明する。
(i)音声分析装置 先ず、第1発明が適用された音声分析装置について、
以下説明する。ここで、分析対象となっているのは、人
によって発声された音声であるものとする。
(i−1)音声分析装置の構成 第2図において、マイクロホン231は分析対象となっ
ている発音を採取するものであり、該マイクロホン231
からの採取信号はアナログ−ディジタル(A/D)変換器2
33に供給されるようになっている。
このA/D変換器233において量子化され、ディジタル化
されて得られた入力音声信号211が、分析対象としてARM
A分析部213に供給される。このARMA分析部213は、声帯
音源波形生成部215からの声帯音源波形信号217に基づい
て音声分析をして、ARMAパラメータを表すARMAパラメー
タ信号219を出力するものである。
音声分析の過程にあっては、入力音声信号211と声帯
音源波形信号217とによる誤差を表す誤差信号221が発生
されて、最適パラメータ決定部223に供給される。この
最適パラメータ決定部223は、パラメータ選択部225を具
えており、該最適パラメータ決定部223でのパラメータ
を適宜選択して切り換えるものである。パラメータ選択
部225によって選択された音源波形パラメータを表す音
源波形パラメータ信号227が出力され、声帯音源波形生
成部215に供給されるようになっている。
(i−2)音声分析装置の動作 上記構成の本発明実施例にあっては、音声分析のため
の音源のモデル化には、周期音源としてインパルスを用
いるのではなく、声帯音源波形モデルを採用している。
例えば人の声には、明瞭な声や嗄れ声など種々の変化が
ある。これには、音源の相違による影響が考えられ、一
律にインパルスで近似した場合、妥当な結果を得ること
は困難である。声帯音源波形モデルを用いることによ
り、より近似性を向上させることができる。
第3図は、一例としての声帯音源波形g(t)および
その微分波形(t)を示す。
ところで、モデル化された声帯音源波形は、ピッチ周
期T,声門開放時間W,声門開放区間内での音源の歪みS、
声門閉鎖からの体積流が負の最大値に達する時間D,声門
開放開始時の体積流波形の傾きA,声門閉鎖直前の体積流
波形の傾きBおよび声門閉鎖直後の体積流波形の傾きC
の7種のパラメータによって表すことができる。そこ
で、声帯音源波形の微分波形(t)を、時間tによっ
て分けて表す。
0<t≦Rの場合、 (t)=A−(2A+R3α)t/R +(2A+R3α)t2/R2 ……(1) R<t≦Wの場合、 (t)=α(t−R) +(3B−2αF)(t−R)2/F2 +(2B−αF)(t−R)3/F3 ……(2) W<t≦W+Dの場合、 (t)=C−2(C−β)(t−W)/D +(C−β)(t−W)2/D2 ……(3) W+D<t≦Tの場合、 (t)=β ……(4) となる。
ここで、α,βは、以下のように表される。
α=(4AR+6FB)/(2R2−F2) ……(5) β=CD/(D−3(T−W)) ……(6) ところで、声門開放時間Wおよび声門開放区間内での
音源の歪みSは、 W=R+F ……(7) S=(R−F)/(R+F) ……(8) によって表される。
そこで、第2図に示す構成において、予め定められた
ピッチ周期T,声門開放時間W,声門開放区間内での音源の
歪みS、声門閉鎖からの体積流が負の最大値に達する時
間D,声門開放開始時の体積流波形の傾きA,声門閉鎖直前
の体積流波形の傾きBおよび声門閉鎖直後の体積流波形
の傾きCの7種のパラメータの適当な初期値が、最適パ
ラメータ決定部223に与えられる。
パラメータ選択部225では、最初に、これら7種のパ
ラメータを初期値により選択し、音源波形パラメータ信
号227として出力し、声帯音源波形生成部215に与える。
声帯音源波形生成部215では、これら7種のパラメー
タ(ピッチ周期T,声門開放時間W,声門開放区間内での音
源の歪みS、声門閉鎖からの体積流が負の最大値に達す
る時間D,声門開放開始時の体積流波形の傾きA,声門閉鎖
直前の体積流波形の傾きBおよび声門閉鎖直後の体積流
波形の傾きC)に基づいて積分により、第3図に示すよ
うな声帯音源波形g(t)を合成して得る。その合成結
果たる声帯音源波形g(t)を表す声帯音源波形信号21
7がARMA分析部213に与えられる。
なお、この声帯音源波形g(t)には、必要に応じ
て、所謂放射特性を加味した補正が為されていてもよ
い。
声帯音源波形信号217と入力音声信号211とに基づいて
音声分析を行なうARMA分析部213は、ARMAパラメータに
基づく周波数スペクトル包絡に従って疑似音声を合成
し、声帯音源波形信号217とを比較する。これら両信号
間での誤差が最小となるように、音源波形パラメータお
よびARMAパラメータを求める。
いま、ARMA分析部213でのARMA分析では、音声信号s
(n)は、 として表される。
ここで、αはARパラメータであり、βはMAパラメ
ータである。pおよびqはそれぞれの予測係数、g
(n)は音源信号、e(n)は予測誤差信号である。α
iを合わせてARMAパラメータと称し、周波数スペク
トル包絡を示すものであり、これらのパラメータはARMA
パラメータ信号219として外部(例えば、第4図におい
て後述する音声合成装置)に供される。
ARMA分析部213において、最小化されるべき誤差E
(誤差信号221によって表される)は、 として表される。
このようにして求められた誤差Eは最適パラメータ決
定部223へ供給される。
最適パラメータ決定部223は、この予測誤差を小さく
するために、声帯音源波形を規定するパラメータを少し
ずつ変化させていくように、パラメータ選択部225に指
示を与える。このパラメータ選択部225は、以前のパラ
メータと異なる値をとるパラメータを選択して、声帯音
源波形生成部215に出力する。
ところで、このパラメータの選択は、例えばホルマン
ト抽出に採られるA−b−S(Analysis−by−Systhesi
s)手法としている。
以上のような手順を繰り返して、最適な7種のパラメ
ータ(ピッチ周期T,声門開放時間W,声門開放区間内での
音源の歪みS、声門閉鎖からの体積流が負の最大値に達
する時間D,声門開放開始時の体積流波形の傾きA,声門閉
鎖直前の体積流波形の傾きBおよび声門閉鎖直後の体積
流波形の傾きC)を決定する。即ち、所謂A−b−S手
法を用いることにより、時間領域における平均二乗誤差
が最小となるように、上記7種のパラメータを定める。
このようにして入力音声信号211に対するARMA分析が
行なわれ、その分析結果として、ARMAパラメータ信号21
9によって表されるARMAパラメータおよび音源波形パラ
メータ信号227によって表される音源波形パラメータ
(ピッチ周期T,声門開放時間W,声門開放区間内での音源
の歪みS、声門閉鎖からの体積流が負の最大値に達する
時間D,声門開放開始時の体積流波形の傾きA,声門閉鎖直
前の体積流波形の傾きBおよび声門閉鎖直後の体積流波
形の傾きCの7種のパラメータ)が得られる。
これらARMAパラメータおよび音源パラメータによって
入力音声が表されるので、それらを圧縮情報として、該
音声の情報を圧縮したことになる。また、後の音声合成
のために、これら複数のパラメータを外部装置(メモリ
等)によって蓄積しておけばよい。従って、これらのパ
ラメータを利用して、音声分析装置とは別個に構成され
た音声合成装置(後述する)によって、逆に音声合成を
行なうことができる。
(ii)音声合成装置 次に、第2発明が適用された音声合成装置について以
下説明する。この音声合成装置は、上述した音源分析装
置によるARMA分析によって得られたパラメータで駆動さ
れるものである。なお、各種のパラメータは、音声合成
を行なう際に通信回線を介して受領してもよく、また、
予めROM化されたものを利用してもよい。
(ii−1)音声合成装置の構成 第4図に示す「音声合成装置」は、その音声合成のた
めの各種パラメータを、第2図に示した「音声分析装
置」から直にもらうものとする。
第4図において、音源波形パラメータ信号411が入力
される声帯音源波形生成部413は、第2図に示した声帯
音源波形生成部215と同じである。音源波形パラメータ
信号411によって表される音源波形パラメータに基づい
て、音源波形をモデル化し、そのモデル化によって得ら
れた声帯音源波形信号415を発生するものである。
また、ARMAパラメータ信号417を受けるARMAフィルタ4
19は、声帯音源波形生成部413からの声帯音源波形信号4
15に基づいて音声合成をして、その合成結果たる合成音
声信号421を出力するものである。
ところで、音源波形パラメータ信号411およびARMAパ
ラメータ信号417によって表される音源波形パラメータ
およびARMAパラメータは、上述した音声分析装置での分
析結果として得られるパラメータである。従って、音源
波形パラメータは、ピッチ周期T,声門開放時間W,声門開
放区間内での音源の歪みS、声門閉鎖から体積流が負の
最大値に達する時間D,声門開放開始時の体積流波形の傾
きA,声門閉鎖直前の体積流波形の傾きBおよび声門閉鎖
直後の体積流波形の傾きCの7種のパラメータで成る。
第5図は、第4図のARMAフィルタ419の詳細構成を示
す。ここで、ARMAパラメータ信号417によって表されるA
RMAパラメータ(ARパラメータαおよびMAパラメータ
β)は、p個の係数器5111,5112,……,513q,……,511
pに、また、他のq個の5131,5132,……,513qにそれぞれ
供給されるようになっている。ここで、pおよびqは、
予測次数である。
更に、直列に接続されたp個の遅延素子5151,5152,…
…,515q,……,515pが具わっており、それぞれの遅延素
子は、時間要素Zで定まる単位時間の時間遅れ要素で
る。各遅延素子によって、順次遅延された出力信号が、
対応する次数の係数器511および係数器513に共通に供給
されるようになっている。
声帯音源波形生成部413からの声帯音源波形信号415
と、p個の係数器5111〜511pからの出力信号が加算器51
7に供給され、該加算器517の加算出力信号は、係数器51
11および別な加算器519に共通に供給されるものであ
る。また、加算器519には、q個の係数器5131〜513q
出力信号も供給され、合成音声信号421が出力されるよ
うになっている。
(ii−2)音声合成装置の動作 上述した構成による音声合成装置において、「(i)
音声分析装置」にて前述した『音声分析装置』の最適パ
ラメータ決定部223からの音源波形パラメータ信号227に
よって提供される音源波形パラメータが、先ず、声帯音
源波形生成部413に与えられる。この声帯音源波形生成
部413は、前述した『音声分析装置』の声帯音源波形生
成部215と同じ構成および動作を為すものであり、与え
られた音源波形パラメータ(ピッチ周期T,声門開放時間
W,声門開放区間内での音源の歪みS、声門閉鎖からの体
積流が負の最大値に達する時間D,声門開放開始時の体積
流波形の傾きA,声門閉鎖直前の体積流波形の傾きBおよ
び声門閉鎖直後の体積流波形の傾きCの7種のパラメー
タ)に基づいて、音源波形をモデル化して声帯音源波形
g(t)を生成し、声帯音源波形信号415として出力す
る。
一方、これに対して、ARMAフィルタ419内のp個の係
数器5111,5112,……,511q,……,511pの係数は、ARパラ
メータα(α12,……,αq,……,α)に応じて
変化し、当該ARMAフィルタ419にとって最適な係数が決
定される。同様にして、他のq個の係数器5131,5132,…
…,513qのそれぞれの係数も、MAパラメータβ(β1,
β2,……,β)に応じて変化して決定される。
そのように、音声合成する上で最適なものとして決定
されたp個の係数器5111〜511pおよび他のq個の係数器
5131〜513qのそれぞれの係数に基づいて、声帯音源波形
生成部413においてモデル化された声帯音源波形信号415
(g(t))をフィルタリングする。
いま、加算器517の出力信号をS517とすると、第1遅
延素子5151の出力信号S5151は、加算器517の出力信号S
517を単位時間(時間要素Zで定まる)だけ遅延させた
ものである。また、第2遅延素子5152の出力信号S5152
は、第1遅延素子5151の出力信号S5151を単位時間だけ
遅延させたものである。同様にして、他の遅延素子の出
力信号は、順次単位時間だけ遅延されている。
そのため、係数器5111および他の係数器5131の出力信
号S5111およびS5131は、α・S5151およびβ・S5151
で表される。また、次の係数器5112および他の係数器51
32の出力信号S5112およびS5132は、α・S5152および
β・S5152で表される。その他の係数器についても同
様にして、各遅延素子による出力信号を係数倍して出力
する。
これらp個の係数器5111〜511pの出力信号が前段の加
算器517に供給され、声帯音源波形生成部413からの声帯
音源波形(g(t))信号415との総計和が取られる。
また、他のq個の係数器5131〜513qの出力信号が後段
の係数供給519に供給され、加算器517の出力信号S517
共に総計和が取られる。この加算器519によって合成さ
れた音声信号が、当該音声合成装置の合成音声信号421
として出力される。
III.実施例のまとめ このように、本発明実施例の「音声分析装置」にあっ
ては、複数のモデル化パラメータを選択的に決定して音
源波形をモデル化し、そのモデル化による音源波形に基
づいて入力音声信号211を自己回帰移動平均分析し、そ
のときの誤差に応じて、最適なパラメータを決定するこ
とにより、音声分析を行なう。
また、「音声合成装置」にあっては、音声分析装置側
での自己回帰移動平均分析によって得られた音源波形パ
ラメータに応じて声帯音源波形生成部413で音源波形を
モデル化している。更に、音声分析装置側での自己回帰
移動平均分析によって得られたARパラメータαi,MAパラ
メータβに応じて、ARMAフィルタ419が音声合成を行
なっている。
いずれも、ARMAによっているので、音声に関する情報
量が効率的に圧縮され、且つ、高品質な合成音声が得ら
れることとなる。
第6図は、原音声の周波数スペクトル(ORIG)と本方
式(GARMA)および従来方式(ARMA,GLPC,LPC)によって
推定された鼻音化母音の周波数スペクトル包絡の比較を
示している。
ここで、本方式(GARMA)は、分析用の「音響フィル
タ」としてRMAモデルに基づく極零フィルタを、また、
「音響」として第3図に示す声帯音源波形を採用してい
る。
これに対して、従来方式としてARMAは、分析用の「音
響フィルタ」としてARMAモデルに基づく極零フィルタ
を、「音源」としてパルスを採用した場合である。ま
た、従来方式のGLPCは、「音響フィルタ」として線形予
測法による全極型フィルタを、「音源」として第3図に
示す声帯音源波形を採用した場合である。更に、従来方
式のLPCは、「音響フィルタ」として線形予測法による
全極型フィルタを、「音源」としてパルスを採用した場
合である。
このように、本方式(GARMA)は、従来方式に比較し
てより良く原音のスペクトル包絡を近似しており、再生
の際には原音に忠実となることが分かる。
ところで、本発明実施例は、特に、有声音に対して有
効であり、無声音部分に対して分析を行なう場合、例え
ば、その部分だけ、従来の波形符号化方式を用い、本発
明実施例による方式と従来用いられている方式とを組み
合わせて、本発明を実施することができる。
IV.発明の変形態様 なお、上述した本発明の実施例にあっては、「音声分
析装置」および「音声合成装置」を対として一体的に構
成されるようにしたが、これに限られることはない。つ
まり、音声分析装置および音声合成装置は互いに別々に
構成され且つ使用され得るものである。従って、例え
ば、ある1つの「音声分析装置」によって得られた分析
結果たる種々のパラメータ(音源波形パラメータおよび
ARMAパラメータ)をROM等によって、複数の「音声合成
装置」のそれぞれに個別に提供し、各音声合成装置にお
いて個別に音声合成を行なうよにしてもよい。
また、「I.実施例と第1図との対応関係」において、
第1図と本発明との対応関係を説明しておいたが、これ
に限られることはなく、各種の変形態様があることは当
業者であれば容易に推考できるであろう。
〔発明の効果〕
上述したように、本発明による音声分析装置では、音
源波形モデル化のパラメータを選択的に決定して音源波
形をモデル化し、そのモデル化による音源波形に基づい
て入力音声信号を自己回帰移動平均分析し、そのときの
誤差に応じて最適なパラメータを決定することによって
音声分析を行なうようにしている。
また、本発明による音声合成装置では、そのような自
己回帰移動平均分析によって得られた各種のパラメータ
に応じ、音源波形のモデル化用に導入されるパラメータ
に基づいて音源波形をモデル化し、自己回帰移動平均分
析において得られた複数のパラメータを受けて音声合成
を行なうようにしている。
従って、自己回帰移動平均分析および合成による結果
として、音声に関する情報量が効率的に圧縮され且つ高
品質な合成音声が得られるので、実用的には極めて有用
である。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は本発明の一実施例による音声分析装置の構成ブ
ロック図、 第3図は第2図に示す音声分析装置において利用される
音源波形の説明図、 第4図は本発明の一実施例による音声合成装置の構成ブ
ロック図、 第5図は第4図に示す音声合成装置に用いられるARMAフ
ィルタの具体的な構成を示すブロック図、 第6図は本発明実施例による方式と従来方式とによる音
声の周波数スペクトル包絡の比較を示す説明図である。 図において、 111はモデル化パラメータ信号、 113はパラメータ決定手段、 115は音源波形信号、 117は音源波形生成手段、 119は入力音声信号、 121は誤差信号、 123は分析パラメータ出力信号、 125は自己回帰移動平均分析手段、 131はモデル化パラメータ信号、 133は音源波形信号、 135は音源波形生成手段、 137はパラメータ信号、 139は合成音声出力信号、 141は自己回帰移動平均合成手段、 211は入力音声信号、 213はARMA分析部、 215は声帯音源波形生成部、 217は声帯音源波形信号、 219はARMAパラメータ信号、 223は最適パラメータ決定部、 225はパラメータ選択部、 227は音源波形パラメータ信号、 411は音源波形パラメータ信号、 413は声帯音源波形生成部、 415は声帯音源波形信号、 417はARMAパラメータ信号、 419はARMAフィルタ、 421は合成音声信号、 5111〜511p,5131〜513qは係数器、 5151〜515pは遅延素子、 517,519は加算器である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大山 隆之 川崎市中原区上小田中1015番地 富士通 株式会社内 (56)参考文献 特開 昭55−92060(JP,A) 特開 昭61−58080(JP,A) 特開 昭62−70770(JP,A) 特公 昭61−18887(JP,B2)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】音源波形のモデル化に必要な複数のパラメ
    ータを選択的に決定し、該決定されたパラメータを表す
    モデル化パラメータ信号(111)を出力するパラメータ
    決定手段(113)と、 該モデル化パラメータ信号(111)によって表される前
    記複数のパラメータに応じて音源波形のモデル化を行な
    い、そのモデル化された音源波形を表す音源波形信号
    (115)を出力する音源波形生成手段(117)と、 分析対象の入力音声信号(119)および音源波形信号(1
    15)を受けて自己回帰移動平均分析を行なって誤差を求
    め、該誤差を表す誤差信号(121)をパラメータ決定手
    段(113)に供給するすると共に、前記自己回帰移動平
    均分析によるパラメータを表す分析パラメータ出力信号
    (123)を出力する自己回帰移動平均分析手段(125)
    と、 を具え、誤差信号(121)によって表される前記誤差に
    応じて、パラメータ決定手段(113)の前記複数のパラ
    メータを変化させて最適なパラメータを決定するように
    構成したことを特徴とする音声分析装置。
  2. 【請求項2】前記音源波形のモデル化に必要な複数のパ
    ラメータは、声帯音源波形モデルを規定するピッチ周
    期,声門開放時間,声門開放区間内での音源の歪み,声
    門閉鎖から体積流が負の最大値に達する時間,声門開放
    開始時の体積流波形の傾き,声門閉鎖直前の体積流波形
    の傾きおよび声門閉鎖直後の体積流波形の傾きの7種で
    あることを特徴とする特許請求の範囲第1項記載の音声
    分析装置。
  3. 【請求項3】パラメータ決定手段(113)における前記
    複数のパラメータの最適化は、誤差信号(121)によっ
    て表される誤差が最小となる方向で、前記複数のパラメ
    ータを変化させるように構成したことを特徴とする特許
    請求の範囲第1項記載の音声分析装置。
  4. 【請求項4】分析パラメータ出力信号(123)によって
    表される前記パラメータは、自己回帰移動平均分析手段
    (125)での自己回帰移動平均分析によって得られる自
    己回帰移動平均パラメータであることを特徴とする特許
    請求の範囲第1項記載の音声分析装置。
  5. 【請求項5】分析対象の音声信号を自己回帰移動平均分
    析する際に必要とされる音源波形をモデル化するために
    得られる複数の第1パラメータを表すモデル化パラメー
    タ信号(131)を受け、該第1パラメータに基づいて音
    源波形をモデル化し、該モデル化した音源波形を表す音
    源波形信号(133)を出力する音源波形生成手段(135)
    と、 前記自己回帰移動平均分析において得られた複数の第2
    パラメータを表すパラメータ信号(137)を受けると共
    に、音源波形生成手段(135)からの音源波形信号(13
    3)を受けて、前記第1パラメータおよび第2パラメー
    タに基づいて音声合成を行なって合成音声出力信号(13
    9)を出力する自己回帰移動平均合成手段(141)と、 を具えるように構成したことを特徴とする音声合成装
    置。
  6. 【請求項6】前記第1パラメータは声帯音源波形モデル
    を規定するのに必要なピッチ周期,声門開放時間,声門
    開放区間内での音源の歪み,声門閉鎖から体積流が負の
    最大値に達する時間,声門開放開始時の体積流波形の傾
    き,声門閉鎖直前の体積流波形の傾きおよび声門閉鎖直
    後の体積流波形の傾きの7種のパラメータであり、ま
    た、前記第2パラメータは自己回帰移動平均パラメータ
    であることを特徴とする特許請求の範囲第5項記載の音
    声合成装置。
JP62079208A 1987-03-31 1987-03-31 音声分析装置および音声合成装置 Expired - Fee Related JP2583883B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62079208A JP2583883B2 (ja) 1987-03-31 1987-03-31 音声分析装置および音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62079208A JP2583883B2 (ja) 1987-03-31 1987-03-31 音声分析装置および音声合成装置

Publications (2)

Publication Number Publication Date
JPS63244100A JPS63244100A (ja) 1988-10-11
JP2583883B2 true JP2583883B2 (ja) 1997-02-19

Family

ID=13683526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62079208A Expired - Fee Related JP2583883B2 (ja) 1987-03-31 1987-03-31 音声分析装置および音声合成装置

Country Status (1)

Country Link
JP (1) JP2583883B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03222000A (ja) * 1990-01-29 1991-09-30 Nec Corp 声帯音源波モデルを用いた音声分析装置
JP4999757B2 (ja) * 2008-03-31 2012-08-15 日本電信電話株式会社 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP6860901B2 (ja) * 2017-02-28 2021-04-21 国立研究開発法人情報通信研究機構 学習装置、音声合成システムおよび音声合成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6118887A (ja) * 1984-07-06 1986-01-27 Yokogawa Hokushin Electric Corp チヨツパ−

Also Published As

Publication number Publication date
JPS63244100A (ja) 1988-10-11

Similar Documents

Publication Publication Date Title
JP2787179B2 (ja) 音声合成システムの音声合成方法
RU2439721C2 (ru) Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал
JP4550289B2 (ja) Celp符号変換
JP4843124B2 (ja) 音声信号を符号化及び復号化するためのコーデック及び方法
US7013270B2 (en) Determining linear predictive coding filter parameters for encoding a voice signal
US20100004934A1 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
EP0380572A1 (en) SPEECH SYNTHESIS FROM SEGMENTS OF DIGITAL COARTICULATED VOICE SIGNALS.
JP2000515992A (ja) 言語コーディング
JP2583883B2 (ja) 音声分析装置および音声合成装置
JP2600384B2 (ja) 音声合成方法
JP3583945B2 (ja) 音声符号化方法
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP2004151423A (ja) 帯域拡張装置及び方法
JPS61128299A (ja) 音声処理装置
JP3342310B2 (ja) 音声復号化装置
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
JP3071800B2 (ja) 適応ポストフィルタ
JP3967571B2 (ja) 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム
JPH06250685A (ja) 音声合成方式および規則合成装置
JPH10232697A (ja) 音声符号化方法および復号化方法
JPH10105200A (ja) 音声符号化/復号化方法
Wiggins Low Cost Voice Response Systems Based on Speech Synthesis
JPH0318900A (ja) 音声合成装置
JPH0377999B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees