JP3035939B2 - 音声分析合成装置 - Google Patents

音声分析合成装置

Info

Publication number
JP3035939B2
JP3035939B2 JP1310926A JP31092689A JP3035939B2 JP 3035939 B2 JP3035939 B2 JP 3035939B2 JP 1310926 A JP1310926 A JP 1310926A JP 31092689 A JP31092689 A JP 31092689A JP 3035939 B2 JP3035939 B2 JP 3035939B2
Authority
JP
Japan
Prior art keywords
sound source
vocal
waveform
filter
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1310926A
Other languages
English (en)
Other versions
JPH03171100A (ja
Inventor
幸夫 三留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1310926A priority Critical patent/JP3035939B2/ja
Publication of JPH03171100A publication Critical patent/JPH03171100A/ja
Application granted granted Critical
Publication of JP3035939B2 publication Critical patent/JP3035939B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声を分析し合成する装置に関し、特に声
帯波形を音源として用いる音声分析合成装置に関する。
〔従来の技術〕
人間が発声した音声を分析して子音や母音の組合せか
らなる単位音声データを作成し、それを編集して任意の
音声を合成する音声規則合成では、分析時には音声音の
ピッチを変化させる必要がある。線形予測分析を用いて
得られたデータを合成フィルタの係数として与え、イン
パルス音源で駆動する方法によるものは、ピッチ変化の
制御は容易であるが音質が十分でない。
そこで、有声音の音源として、単なるインパルスでは
なく声帯波形をモデル化したものを用いるものが提案さ
れており、これは制御が容易であるうえに音質も比較的
自然である。このようなモデルに基づいた音声の分析合
成の第1の例としては、藤崎らによって、電子情報通信
学会論文誌J−72D II、No.8の1109ページから1117ペー
ジに示された、“声帯音源波形の新しいモデルとその音
声分析への応用”と題する論文がある。この第1の従来
例では、声帯波形の1周期を4つの区間に分け、それぞ
れを2次ないし3次の曲線でモデル化したものであり、
6個程度のパラメータでモデル化できる。以前から知ら
れている線形予測法では、声帯と声道のパラメータを分
離して分析することができなかったのに対し、この第1
の従来例の分析合成によって音声を分析すれば、声帯波
形と声道の特性を表すパラメータを抽出できる。
一方、第2の例として、声道の特性を推定し、その逆
特性を有するフィルタで音声信号をフィルタリングし、
声帯音源波形を抽出する方法が、アイ・イー・イー・イ
ー トランザクション、エイ・エス・エス・ピー・27、
ナンバー4(IEEE Trans.ASSP−27 No.4)に掲載され
たディー・ワイ・ウォン(D.Y.Wong)による論文“リー
スト スクエアーズ グロッタル インバース フィル
タリング フロム アコースティック スピーチ ウェ
イブフォ−ム(Least Squares Glottal Inverse Fi
ltering from the Acoustic Speech Waveform)”
に示されている。この例では、声道の特性を共分散法と
呼ばれる線形予測分析によって推定し、その線形予測係
数を零回路の係数とするフィルタを用いて音声をフィル
タリングし、声帯波形を抽出している。
〔発明が解決しようとする課題〕
第1の従来例では、音源波形をいくつかのパラメータ
でモデル化しているから規則によって制御しやすいとい
う特徴がある。しかし、実際の音声波形は2次曲線や3
次曲線で近似できるほど単純ではないので、単なるイン
パルスを音源とするものよりは音質が良いものの、まだ
不十分である。
これに対し、第2従来例の逆フィルタリングによって
得られた声帯波形は、それをそのまま合成の音源として
用いるならば、原音声波形が忠実に再現できるが、声道
特性の分析の不完全さなどの理由から、声帯の閉鎖区間
に微少ではあるが複雑な形状の信号成分が残っているの
で、歪を生じさせずにピッチ周期を変化させて音声を合
成することが難しい。また、声門が開いている区間に相
当する声帯パルス波形にも微少な雑音が重なって抽出さ
れるためその成分も音質を劣化させる。このように従来
の音声分析合成装置には得られる音声の質に関し解決す
べき課題があった。
本発明の目的は、自然で歪の少ない合成音が得られる
音声分析合成装置を提供することにある。
〔課題を解決するための手段〕
前述の課題を解決するために本願の第1の発明が提供
する手段は、声帯波形を音源として用いる型の音声分析
合成装置であって、 声道の伝達特性を推定する手段と、声道の伝達特性の
逆フィルタと、この逆フィルタで音声をフィルタリング
して得られた信号から声帯パルス波形と閉鎖区間を抽出
する手段と、閉鎖区間の波形を予め用意された信号で置
き換えたものを音源として生成する手段と、合成フィル
タとを有し、 この合成フィルタは、前記音源生成手段で生成された
音源を、前記声道伝達特性推定手段で推定された伝達特
性を設定してフィルタリングして音声を合成する ことを特徴とする。
また、前述の課題を解決するために本願の第2の発明
が提供する音声分析合成装置は、声帯波形を音源として
用いる型の音声分析合成装置であって、 声道の伝達特性を推定する手段と、声道の伝達特性の
逆フィルタと、この逆フィルタで音声をフィルタリング
して得られた信号から声帯パルス波形と閉鎖区間を抽出
する手段と、この声帯パルス波形をフーリエ変換して該
声帯パルス波形信号のスペクトルを算出する手段と、そ
のスペクトルをスムージングする手段と、そのスムージ
ングされたスペクトルのフーリエ逆変換により得た波形
を用いて音源を生成する手段と、合成フィルタと有し、 この合成フィルタは、前記音源生成手段で生成された
音源を、前記声道伝達特性推定手段で推定された伝達特
性を設定した合成フィルタでフィルタリングして音声を
合成することを特徴とする。
〔作用〕
有声の音声は、声帯のパルス波形を声道の伝達特性で
フィルタリングしされに唇での放射特性に相当するフィ
ルタを通って生成されると考えられる。唇での放射特性
が微分特性であるから、推定された声道の特性の逆特性
でフィルタリングして得られる信号は、声帯音源波形の
微分波形(ディジタル信号処理では差分波形)である
(これを逆フィルタリングによる声帯波形の微分波形と
呼ぶことにする)。従って声帯波形は、その声帯波形の
微分波形を積分器(ディジタル信号処理では逐次総和を
取る回路)に通して得られる(これを逆フィルタリング
による声帯波形と呼ぶことにする)。
声帯パルスは、その逆フィルタリングによる声帯波形
の1ピッチ周期の区間内のピークを検出し、その前後の
ゼロクロス位置を検出することによって抽出できる。ま
た、声帯波形の閉鎖区間は、前記のようにして抽出され
た声帯パルスの間として抽出される。
前述のように、このようにして得られた声帯波形は、
閉鎖区間にも信号が残されているのでピッチ制御が難し
いといった問題があった。
本願の第1の発明においては、逆フィルタリングして
得られた声帯波形の閉鎖区間を検出し、閉鎖区間の波形
を予め用意された信号で置き換えたものを音源として音
声を合成する。ここで、置き換える信号としては、閉鎖
区間全てをゼロにするものや、負の値で、一旦振幅がわ
ずかに増加してその後短時間の間に振幅が減衰してゼロ
になる波形等が考えられ、従来音声音源波形のモデルと
して提案されているものの閉鎖区間の部分を使うことが
できる。このようにして生成された音源波形は、波形パ
ルスの部分は自然音声から抽出されたものなので自然な
合成音が得られ、閉鎖区間はモデルによる人工的な信号
であるのでピッチの制御が容易である。
また本願第2の発明は、音声を逆フィルタリングして
得られた信号から声帯パルス波形を抽出し、高速フーリ
エ変換器等を用いて、その声帯パルス波形のスペクトル
を算出し、そのスペクトルをスムージングしたものをフ
ーリエ逆変換した波形を音源として音声を生成する。ス
ムージングの方法としては、従来からよく知られている
二乗誤差を最小にする多項式近似法などを利用すること
ができる。このようにこの発明では周波数領域でスムー
ジングするため音源の持つスペクトルの根本的形状は保
存される上、雑音成分を取り除くことができる。
〔実施例〕
次に、図面を参照して本発明の実施例を説明する。
第1図は、本願の第1の発明の実施例を示すブロック
図である。
図において、1は入力バッファ、2は声道特性分析
器、3は声道逆フィルタ、4は声帯パルス抽出器、5は
音源生成回路、6は合成フィルタである。
入力バッファ1は信号線101から入力された音声を一
時記憶し、信号線104を介して声道特性分析器2および
声道逆フィルタ3へ送る。
声道特性分析器2は、前記第1の従来例と同様にし
て、入力バッファ1から信号線104を通じて送られる音
声を分析して声道の伝達特性を表すパラメータ値を抽出
し、そのデータを信号線105へと出力する回路である。
この分析器における音声を生成する声道モデルは全極型
のフィルタ回路であり、パラメータはその全極フィルタ
の係数である。
声道逆フィルタ3は、全零型のフィルタ回路で、声道
特性分析器2で抽出されて信号線105を介して送られる
パラメータ値をそのまま全零型のフィルタ係数に与える
ように制御される。このように係数を設定された声道逆
フィルタ3は、前記の入力バッファ1に記憶されている
音声をフィルタリングして声帯音源波形の微分波形を信
号線106に出力する。
声帯パルス抽出器4は、声道逆フィルタ3で得られた
声帯音源波形の微分波形を積分し、その1ピッチ周期の
区間内のピークを検出し、その前後のゼロクロス位置を
検出して声帯パルスを抽出し、この声帯パルスの間を声
帯波形の閉鎖区間として抽出し、信号線107へと送出す
る。
音源生成回路5は、声帯パルス抽出器4において抽出
された前記の声帯パルスを受け取り、信号線102から入
力されるピッチ情報に基づいてそのパルスの間隔を制御
し、その間を零にして声帯音源波形を生成し、さらに唇
の放射特性である微分回路(ディジタル信号処理では差
分回路を用いる)を通して合成のための音源波形を生成
し信号線108を介して合成フィルタ6へ送る。なお、前
述のように閉鎖区間のモデルとしては、零でない値を持
つ波形モデルの信号も利用できる。
合成フィルタ6は、前記の声道特性分析器2における
声道モデルを実現する全極型のフィルタ回路であり、声
道特性分析器2で得られたパラメータ値を係数とし、音
源生成回路5から送られる音源をフィルタリングして音
声を生成し信号線103へと出力する。
なお、本実施例は有声の音声のピッチを制御して合成
するもので、この出力をさらに、無声の音声と組み合わ
せて最終的な合成音声が生成される。その無声音はピッ
チを制御する必要がないので、従来から知られた装置を
利用することができる。
第2図は、本願の第2の発明の実施例を示すブロック
図である。図において、1は入力バッファ、2は声道特
性分析器、3は声道逆フィルタ、4は声帯パルス抽出
器、5は音源生成回路、6は合成フィルタ、7はフーリ
エ変換器、8はスペクトルスムージンク回路、9はフー
リエ逆変換器である。これらのうち、入力バッファ1、
声道特性分析器2、声道逆フィルタ3、声帯パルス抽出
器4および合成フィルタ6は、それぞれ第1の実施例と
同様の動作をする。
フーリエ変換器7は、声帯パルス抽出器4で抽出され
て信号線107を介して送られる声帯パルス波形のフーリ
エ変換を算出し信号線109に出力する回路で、よく知ら
れた高速フーリエ変換回路で実現される。
スペクトルスムージンク回路8は、二乗誤差を最小に
する多項式近似により、スペクトルの微少な誤差成分を
取り除き、滑らかなスペクトル形状を抽出して信号線11
0を介してフーリエ逆変換器9へ送出する。
フーリエ逆変換器9は、スペクトルスムージング回路
8で抽出された滑らかなスペクトルに対しフーリエ逆変
換を行い、スペクトルをスムージングされた音源パルス
波形を算出し、信号線111を介して音源生成回路5へ送
出する回路で、これも高速フーリエ変換回路で実現され
る。
音源生成回路5は、スペクトルをスムージングされた
音源パルス波形を基に、信号線102から送られるピッチ
情報に基づいてそのパルスの間隔を制御し、その波形の
微分(差分)をもとめて音決波形を生成する。
合成フィルタ6は、前記の声道特性分析器2における
声道モデルを実現する全極型のフィルタ回路であり、声
道特性分析器2で得られたパラメータ値を係数とし、音
源生成回路5から送られる音源をフィルタリングして音
声を生成し、信号線103へ出力する。
〔発明の効果〕
以上に説明したように、本願の第1の発明では、自然
音声を分析して得られた声帯パルスを音源に用いるか
ら、自然な合成音が得られる上にピッチの制御が容易で
ある。また、本願の第2の発明では、声帯パルス波形の
スペクトルをスムージングした音源を用いるので、雑音
が少ない上、従来のように単純なモデルでは実現できな
かった自然な合成音声が得られる。このように、本願の
発明によれば、従来の装置より音質に優れより自然な合
成音を得ることができる。
【図面の簡単な説明】
第1図は、本願の第1の発明の実施例を示すブロック
図、第2図は、本願の第2の発明の実施例を示すブロッ
ク図である。 図において、1は入力バッファ、2は声道特性分析器、
3は声道逆フィルタ、4は声帯パルス抽出器、5は音源
生成回路、6は合成フィルタ、7はフーリエ変換器、8
はスペクトルスムージング回路、9はフーリエ逆変換器
をそれぞれ表す。
フロントページの続き (56)参考文献 特開 昭58−145994(JP,A) ・S.PARTHASARATHY. et al,”Excitation− Synchronous Modeli ng of Voiced Speec h”,IEEE Transactio n on Acoustics,Spe ech and Signal Pro cessing,ASSP−35 No. 9,September 1987,pp 1241−1249 (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】声帯波形を音源として用いる型の音声分析
    合成装置において、 声道の伝達特性を推定する手段と、声道の伝達特性の逆
    フィルタと、この逆フィルタで音声をフィルタリングし
    て得られた信号から声帯パルス波形と閉鎖区間を抽出す
    る手段と、閉鎖区間の波形を予め用意された信号で置換
    えたものを音源として生成する手段と、合成フィルタと
    を有し、 この合成フィルタは、前記音源生成手段で生成された音
    源を、前記声道伝達特性推定手段で推定された伝達特性
    を設定した合成フィルタでフィルタリングして音声を合
    成することを特徴とする音声分析合成装置。
  2. 【請求項2】声帯波形を音源として用いる型の音声分析
    合成装置において、 声道の伝達特性を推定する手段と、声道の伝達特性の逆
    フィルタと、この逆フィルタで音声をフィルタリングし
    て得られた信号から声帯パルス波形と閉鎖区間を抽出す
    る手段と、この声帯パルス波形をフーリエ変換して該声
    帯パルス波形信号のスペクトルを算出する手段と、その
    スペクトルをスムージングする手段と、そのスムージン
    グされたスペクトルのフーリエ逆変換により得た波形を
    用いて音源を生成する手段と、合成フィルタとを有し、 この合成フィルタは、前記音源生成手段で生成された音
    源を、前記声道伝達特性推定手段で推定された伝達特性
    を設定した合成フィルタでフィルタリングして音声を合
    成することを特徴とする音声分析合成装置。
JP1310926A 1989-11-30 1989-11-30 音声分析合成装置 Expired - Lifetime JP3035939B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1310926A JP3035939B2 (ja) 1989-11-30 1989-11-30 音声分析合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1310926A JP3035939B2 (ja) 1989-11-30 1989-11-30 音声分析合成装置

Publications (2)

Publication Number Publication Date
JPH03171100A JPH03171100A (ja) 1991-07-24
JP3035939B2 true JP3035939B2 (ja) 2000-04-24

Family

ID=18011051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1310926A Expired - Lifetime JP3035939B2 (ja) 1989-11-30 1989-11-30 音声分析合成装置

Country Status (1)

Country Link
JP (1) JP3035939B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2750791B2 (ja) * 1992-02-07 1998-05-13 株式会社エイ・ティ・アール視聴覚機構研究所 音声合成装置
JP5120749B2 (ja) * 2007-12-25 2013-01-16 株式会社国際電気通信基礎技術研究所 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
JP4970371B2 (ja) * 2008-07-16 2012-07-04 株式会社東芝 情報処理装置
JP7139628B2 (ja) * 2018-03-09 2022-09-21 ヤマハ株式会社 音処理方法および音処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
・S.PARTHASARATHY.et al,"Excitation−Synchronous Modeling of Voiced Speech",IEEE Transaction on Acoustics,Speech and Signal Processing,ASSP−35 No.9,September 1987,pp1241−1249

Also Published As

Publication number Publication date
JPH03171100A (ja) 1991-07-24

Similar Documents

Publication Publication Date Title
JP2763322B2 (ja) 音声処理方法
AU656787B2 (en) Auditory model for parametrization of speech
EP0822538B1 (en) Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function
EP1005021B1 (en) Method and apparatus to extract formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
Kawahara et al. An instantaneous-frequency-based pitch extraction method for high-quality speech transformation: revised TEMPO in the STRAIGHT-suite
Alku et al. Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering
JPH02242298A (ja) 声門波形に基づく話者識別装置
EP1422693B1 (en) Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program
JPH0677200B2 (ja) デジタル化テキストの音声合成用デジタルプロセッサ
RU2296377C2 (ru) Способ анализа и синтеза речи
Cabral et al. Glottal spectral separation for parametric speech synthesis
CN108281150B (zh) 一种基于微分声门波模型的语音变调变嗓音方法
CN110648684A (zh) 一种基于WaveNet的骨导语音增强波形生成方法
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
JPH05307399A (ja) 音声分析方式
JP3035939B2 (ja) 音声分析合成装置
JP2904279B2 (ja) 音声合成方法および装置
JPH08305396A (ja) 音声帯域拡大装置および音声帯域拡大方法
Hasan et al. An approach to voice conversion using feature statistical mapping
Alku et al. Preliminary experiences in using automatic inverse filtering of acoustical signals for the voice source analysis
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
JP2899533B2 (ja) 音質改善装置
JPS6363100A (ja) 声質変換方法
Schwardt et al. Voice conversion based on static speaker characteristics
Gishamer et al. Audio-denoising with Neural Network Architectures