JPH05307399A

JPH05307399A - 音声分析方式

Info

Publication number: JPH05307399A
Application number: JP4112627A
Authority: JP
Inventors: Keiichi Yamada; 敬一山田; Naoto Iwahashi; 直人岩橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1992-05-01
Filing date: 1992-05-01
Publication date: 1993-11-19
Also published as: US5452398A

Abstract

(57)【要約】【目的】音声信号の分析合成において、ピッチ変更時
にスペクトル歪みの発生を軽減して品質の良好な合成音
を得ることができるようにするために、音声信号の位相
情報に関する欠落の無い音声分析方式を提供する。【構成】スペクトル包絡／位相情報抽出部４により分
析音声信号Ｘ（ｎ）の振幅情報Ａ（ω）と位相情報Ｐ_x
（ω）を求めるとともに、音声信号の時間軸に対して音
源情報となるパルス列Ｓ（ｎ）をパルス設定部５におい
て分析音声信号Ｘ（ｎ）のピッチ周期に対応するように
設定し、そのパルス列Ｓ（ｎ）の位相情報Ｐ_s（ω）と
上記分析音声信号の位相情報Ｐ_x（ω）との差分Ｐ
（ω）を差分抽出部７において求め、この差分Ｐ（ω）
を分析音声信号内の所望の１ピッチ周期分の位相情報と
する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声分析合成システム
に適用される音声分析方式に関する。

【０００２】

【従来の技術】人間の聴覚は一種のスペクトル分析器で
あって、パワースペクトルが等しければ同じ音として聞
こえるという性質がある。この性質を利用して合成音を
得る方法が音声の分析合成法である。

【０００３】上記合成音を得るには、分析側で入力信号
を分析し、ピッチ情報、有声音／無声音の判別情報、振
幅情報等を抽出あるいは検出し、合成側でそれらの情報
を基に人工的に音声を作り出す。特に、合成側は、その
合成の方式により、音声編集方式、パラメータ編集方
式、規則合成方式等に分類されている。

【０００４】上記音声編集方式は、予め人が発生した音
声波形を単語や文節等を単位としてそのままあるいは波
形符号化して蓄積（録音）しておき、必要に応じてそれ
らを読み出して接続（編集）することにより、音声を合
成するものである。

【０００５】上記パラメータ編集方式は、上記音声編集
方式と同様に単語や文節等を単位とするが、予め人が発
生した音声波形を音声生成モデルに基づいて分析して、
パラメータ時系列の形で蓄え、必要に応じて接続したパ
ラメータ時系列を用いて音声合成器を駆動することによ
り、音声を合成するものである。

【０００６】上記規則合成方式は、文字や音声記号など
の離散的記号で表現された系列を、連続的に変換する技
術である。変換の過程で、音声生成の普遍的諸性質や人
為的諸性質が合成規則として適用される。

【０００７】上記各合成方式は、いずれも何らかの形で
音道特性を模擬し、すれに音源波とほぼ同じスペクトル
を持つ信号を使って合成音を得ている。

【０００８】

【発明が解決しようとする課題】ところで、音声信号の
分析合成において高品質な制御を行う場合、従来は残差
駆動型の分析合成方式が多く用いられているが、音源情
報と音道情報の分離が不完全であるため、ピッチ変更時
にスペクトル歪みを発生させ、合成音の品質劣化の原因
となっている。

【０００９】そこで、本発明は、上述の如き従来の問題
点に鑑み、ピッチ変更時にスペクトル歪みの発生を軽減
して品質の良好な合成音を得ることができるようにする
ことを目的とする。

【００１０】

【課題を解決するための手段】本発明に係る音声分析方
式は、上述の課題を解決するために、分析音声信号の時
間軸に対して音源情報となるパルス列を音声信号のピッ
チ周期に対応するように設定し、そのパルス列の位相情
報と分析音声信号の位相情報との差分を求め、この差分
を分析音声信号内の所望の１ピッチ周期分の位相情報と
し、この位相情報と振幅情報を所望の１ピッチ周期分の
データとすることを特徴とする。

【００１１】また、本発明に係る音声分析方式は、上述
の課題を解決するために、分析音声信号の時間軸に対し
て音源情報となるパルス列を音声信号のピッチ周期に対
応するように設定し、そのパルス列の位相情報と分析音
声信号の位相情報との差分を求め、この差分を分析音声
信号内の所望の１ピッチ周期分の位相情報とし、分析音
声信号の高速フーリエ変換処理を施して、そのスペクト
ラム成分からケプストラムを求め、このケプストラムか
ら１ピッチ周期内の低次の成分を切り出し、これから１
ピッチ周期に対応したスペクトル情報を求め、このスペ
クトル情報を上記位相情報とともに逆高速フーリエ変換
して１ピッチ周期分のインパルス応答を求め、このイン
パルス応答を所望の１ピッチ周期分のデータとすること
を特徴とする。

【００１２】

【作用】本発明に係る音声分析方式では、音声信号の音
道情報として振幅情報のみならずその位相情報も保存す
る。また、本発明に係る音声分析方式では、音声信号の
音道情報としてスペクトル包絡情報及び位相情報を保存
する。

【００１３】

【実施例】以下、本発明に係る音声分析方式の一実施例
について図面を参照しながら詳細に説明する。

【００１４】本発明に係る音声分析方式では、例えば図
１に示すような構成のシステムにより、所望の１ピッチ
周期分の位相情報を得る。

【００１５】すなわち、図１に示すシステムにおいて、
分析音声信号はアナログ・ディジタル（Ａ／Ｄ）変換器
１を介して有音部／無音部・識別部２に供給される。

【００１６】上記有声部／無声部識別部２は、上記Ａ／
Ｄ変換器１によりディジタル変換された音声信号Ｘ
（ｎ）を有声部分と無声部分とに分離する。この有声部
／無声部識別部２により分離された無声部分は、そのま
ま波形が切り出され、データとして保存される。

【００１７】そして、この有声部／無声部識別部２によ
り分離された有声部分Ｘ_voiced（ｎ）について、まず、
ピッチ検出部３により自己相関法などによりピッチ周期
を求める。また、上記有声部分Ｘ_voiced（ｎ）について
スペクトル包絡／位相情報抽出部４において高速フーリ
エ変換（ＦＦＴ）処理によりスペクトル包絡成分Ａ
（ω）と位相成分Ｐ_x（ω）を求める。この位相成分Ｐ
_x（ω）は分析波形中の１ピッチ周期分に相当するもの
が求められる。

【００１８】また、この分析波形とは別に、パルス設定
部５において、上記ピッチ検出部３で求められたピッチ
周期を用いて時間軸上で分析波形のピッチ周期と対応す
るようにパルス列Ｓ（ｎ）を設定する。そして、このパ
ルス列Ｓ（ｎ）について位相情報抽出部５において高速
フーリエ変換（ＦＦＴ）処理により位相成分Ｐ_S（ω）
を求める。

【００１９】次に、差分抽出部６において、分析波形の
位相成分Ｐ_x（ω）とパルス列Ｓ（ｎ）の位相成分Ｐ_S
（ω）との差分Ｐ（ω）＝Ｐ_x（ω）−Ｐ_S（ω）を求
め、その結果Ｐ（ω）を所望の１ピッチ周期の音声波形
の位相成分として上記スペクトル包絡成分Ａ（ω）とと
も分析結果として出力する。

【００２０】すなわち、この第１の実施例では、分析音
声信号の時間軸に対して音源情報となるパルス列Ｓ
（ｎ）を音声信号のピッチ周期に対応するように設定
し、そのパルス列（ｎ）の位相情報Ｐ_S（ω）と分析音
声信号Ｘ（ｎ）の位相情報Ｐ_x（ω）との差分Ｐ（ω）
＝Ｐ_x（ω）−Ｐ_S（ω）を求め、この差分Ｐ（ω）を
分析音声信号内の所望の１ピッチ周期分の位相情報と
し、この位相情報と振幅情報を所望の１ピッチ周期分の
データとする。

【００２１】この実施例の音声分析方式では分析の際に
音声信号の位相情報に関しては欠落が無いので、保存さ
れたデータから音声を合成する際に大幅なピッチ変換を
行っても品質劣化を軽減することが可能である。また、
音源情報がパルス列であるため、保存された情報から音
声を合成する際にパルス列の周期を変えてピッチを変更
しても、それによる合成音声のスペクトル歪みがかなり
軽減できる。

【００２２】次に、本発明に係る音声分析方式の第２の
実施例について、図２乃至図４を参照して詳細に説明す
る。

【００２３】この第２の実施例においても、図２に示す
ように、分析音声信号はアナログ・ディジタル（Ａ／
Ｄ）変換器１１を介して有音部／無音部・識別部１２に
供給される。

【００２４】上記有声部／無声部識別部１２は、上記Ａ
／Ｄ変換器１１によりディジタル変換された音声信号Ｘ
（ｎ）を有声部分と無声部分とに分離する。この有声部
／無声部識別部１２により分離された無声部分は、その
まま波形が切り出され、データとして保存される。

【００２５】そして、この有声部／無声部識別部１２に
より分離された有声部分Ｘ_voiced（ｎ）について、ま
ず、ピッチ検出部１３により自己相関法などによりピッ
チ周期を求める。また、上記有声部分Ｘ_voiced（ｎ）か
らスペクトル包絡／位相情報抽出部１４においてスペク
トル包絡成分Ａ（ω）と位相成分Ｐ_x（ω）を求める。

【００２６】この第２の実施例において上記スペクトル
包絡／位相情報抽出部１４は、図３に示すように、上記
有声部分Ｘ_voiced（ｎ）について先ず第１の高速フーリ
エ変換（ＦＦＴ）処理部４１においてＦＦＴ処理により
スペクトル包絡成分Ａ_X（ω）と位相成分Ｐ_x（ω）を
求める。このＦＦＴ処理部４１により得られた位相成分
Ｐ_x（ω）は、このまま位相情報抽出出力とされる。

【００２７】また、上記ＦＦＴ処理部４１により得られ
たスペクトル包絡成分Ａ_X（ω）は、対数スペクトル変
換部４２において対数変換され、さらに、逆高速フーリ
エ変換（ＩＦＦＴ）処理部４１においてＩＦＦＴ処理が
施される。これにより、図４に示すように、分析音声信
号Ｘ（ｎ）のケプストラムＣ_X（ω）が求められる。こ
のケプストラムＣ_X（ω）から低域通過リフタ４４によ
り１ピッチ周期内の低次のケプストラムＣ（ω）を取り
出す。この低次のケプストラムＣ（ω）に第２の高速フ
ーリエ変換（ＦＦＴ）処理部４５においてＦＦＴ処理が
施され、さらに、指数変換部４６において指数変換処理
を施される。これにより、所望の１ピッチ周期のスペク
トル包絡成分Ａ（ω）を求められる。上記指数変換部４
６において得られるスペクトル包絡成分Ａ（ω）はスペ
クトル包絡情報抽出出力とされる。

【００２８】また、この分析波形とは別に、パルス設定
部１５において、上記ピッチ検出部１３で求められたピ
ッチ周期を用いて時間軸上で分析波形のピッチ周期と対
応するようにパルス列Ｓ（ｎ）を設定する。そして、こ
のパルス列Ｓ（ｎ）について位相情報抽出部１６におい
て高速フーリエ変換（ＦＦＴ）処理により位相成分Ｐ _S
（ω）を求める。

【００２９】次に、差分抽出部１７において、分析波形
の位相成分Ｐ_x（ω）とパルス列Ｓ（ｎ）の位相成分Ｐ
_S（ω）との差分Ｐ（ω）＝Ｐ_x（ω）−Ｐ_S（ω）を
求めその結果Ｐ（ω）を上記スペクトル包絡成分Ａ
（ω）に対応する所望の１ピッチに対応するインパルス
応答の位相成分とする。

【００３０】そして、上記スペクトル包絡成分Ａ（ω）
と位相成分Ｐ（ω）の両者を用いて逆高速フーリエ変換
（ＩＦＦＴ）処理部１８においてＩＦＦＴ処理を施すこ
とにより所望の１ピッチに対応したインパルス応答Ｒ
（ω）を求め、これを分析結果として出力する。

【００３１】すなわち、この第２の実施例では、分析音
声信号の時間軸に対して音源情報となるパルス列Ｓ
（ｎ）を音声信号のピッチ周期に対応するように設定
し、そのパルス列（ｎ）の位相情報Ｐ_S（ω）と分析音
声信号Ｘ（ｎ）の位相情報Ｐ_x（ω）との差分Ｐ（ω）
＝Ｐ_x（ω）−Ｐ_S（ω）を求め、この差分Ｐ（ω）を
分析音声信号内の所望の１ピッチ周期分の位相情報と
し、分析音声信号の高速フーリエ変換処理により得られ
るスペクトル包絡成分Ａ（ω）から分析音声信号Ｘ
（ｎ）のケプストラムＣ_X（ω）を求め、このケプスト
ラムＣ_X（ω）から１ピッチ周期内の低次の成分Ｃ
（ω）を切り出し、これから１ピッチ周期に対応したス
ペクトル包絡成分Ａ（ω）を求め、このスペクトル包絡
成分Ａ（ω）と位相成分Ｐ（ω）を逆高速フーリエ変換
して１ピッチ周期分のインパルス応答Ｒ（ω）を求め、
このインパルス応答Ｒ（ω）を所望の１ピッチ周期分の
データとする。

【００３２】この第２の実施例の音声分析方式でも分析
の際に音声信号の位相情報に関しては欠落が無いので、
保存されたデータから音声を合成する際に大幅なピッチ
変換を行っても品質劣化を軽減することが可能である。
また、音源情報がパルス列であるため、保存された情報
から音声を合成する際にパルス列の周期を変えてピッチ
を変更しても、それによる合成音声のスペクトル歪みが
かなり軽減できる。

【００３３】

【発明の効果】以上のように、本発明に係る音声分析方
式では、分析の際に音声信号の位相情報に関しては欠落
が無いので、保存されたデータから音声を合成する際に
大幅なピッチ変換を行っても品質劣化を軽減することが
可能である。また、音源情報がパルス列であるため、保
存された情報から音声を合成する際にパルス列の周期を
変えてピッチを変更しても、それによる合成音声のスペ
クトル歪みがかなり軽減できる。

【図面の簡単な説明】

【図１】本発明に係る音声分析方式の第１の実施例とな
るシステムの構成を示すブロック図である。

【図２】本発明に係る音声分析方式の第２の実施例とな
るシステムの構成を示すブロック図である。

【図３】図２に示した第２の実施例におけるスペクトラ
ム包絡／位相情報検出部の具体的な構成を示すブロック
図である。

【図４】図２に示した第２の実施例の動作説明に供する
信号波形図である。

【符号の説明】

１，１１・・・Ａ／Ｄ変換器２，１２・・・有声部／無声部識別部３，１３・・・ピッチ検出部４，１４・・・スペクトル包絡／位相情報抽出部５，１５・・・パルス設定部６，１６・・・位相情報抽出部７，１７・・・差分抽出部１８・・・・・ＩＦＦＴ処理部

Claims

【特許請求の範囲】

【請求項１】分析音声信号の時間軸に対して音源情報
となるパルス列を音声信号のピッチ周期に対応するよう
に設定し、そのパルス列の位相情報と分析音声信号の位相情報との
差分を求め、この差分を分析音声信号内の所望の１ピッチ周期分の位
相情報とし、この位相情報と振幅情報を所望の１ピッチ周期分のデー
タとすることを特徴とする音声分析方式。
【請求項２】分析音声信号の時間軸に対して音源情報
となるパルス列を音声信号のピッチ周期に対応するよう
に設定し、そのパルス列の位相情報と分析音声信号の位相情報との
差分を求め、この差分を分析音声信号内の所望の１ピッチ周期分の位
相情報とし、分析音声信号の高速フーリエ変換処理を施して、そのス
ペクトラム成分からケプストラムを求め、このケプストラムから１ピッチ周期内の低次の成分を切
り出し、これから１ピッチ周期に対応したスペクトル情
報を求め、このスペクトル情報を上記位相情報とともに逆高速フー
リエ変換して１ピッチ周期分のインパルス応答を求め、
このインパルス応答を所望の１ピッチ周期分のデータと
することを特徴とする音声分析方式。