JP3199338B2 - フォルマント抽出方法 - Google Patents

フォルマント抽出方法

Info

Publication number
JP3199338B2
JP3199338B2 JP24718593A JP24718593A JP3199338B2 JP 3199338 B2 JP3199338 B2 JP 3199338B2 JP 24718593 A JP24718593 A JP 24718593A JP 24718593 A JP24718593 A JP 24718593A JP 3199338 B2 JP3199338 B2 JP 3199338B2
Authority
JP
Japan
Prior art keywords
formant
spectrum
analysis
audio signal
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP24718593A
Other languages
English (en)
Other versions
JPH07104796A (ja
Inventor
秀之 水野
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP24718593A priority Critical patent/JP3199338B2/ja
Publication of JPH07104796A publication Critical patent/JPH07104796A/ja
Application granted granted Critical
Publication of JP3199338B2 publication Critical patent/JP3199338B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声信号のスペクトル
特微量であるフォルマントを抽出するフォルマント抽出
方法に関する。
【0002】
【従来の技術】従来より、音声信号の分析・合成処理に
おいて、音声信号のスペクトル特徴量であるフォルマン
トを抽出する作業が必要とされており、各種のフォルマ
ント抽出方法が知られている。従来のフォルマント抽出
方法は、大別して、3種類の方法に分類される。以下、
各方法の概略を説明する。
【0003】第1の方法は、スペクトル分析に基づく方
法であり、音声信号を帯域フィルタバンクやFFT(fa
st Fourier transform)等を用いてスペクトル分析し、
極大点抽出やモーメント計算等によりフォルマントを求
めるものである。また、第2の方法は、音声のモデル化
に基づく方法である。この方法では、音声を定常確率過
程としてモデル化し、音声信号から全極型の声道伝達関
数を求め、その声道伝達関数の極の中で、Q値の高いも
のをフォルマントとするものである。
【0004】また、第3の方法は、分析合成に基づく方
法である。この方法では、まず、音声信号のスペクトル
を、フォルマント(スペクトル包絡の極)とアンチフォ
ルマント(スペクトル包絡の零)とでモデル化する。そ
して、当該モデルに基づくパラメータ合成処理と、その
結果得られる音声信号と原音声信号との誤差分析とを繰
り返し行い、誤差が最小となるようにフォルマントを決
定するものである。
【0005】
【発明が解決しようとする課題】上述した各種フォルマ
ント抽出方法において、ほぼ安定して抽出を行うことが
でき、誤差を小とすることができるのは第3の方法であ
るが、各パラメータの分析・合成や変更という過程を繰
り返す必要があるため、計算時間が膨大になるという問
題がある。また、誤差が最小となるまで、上記過程を繰
り返すため、収束するまでの計算時間を予測することが
できないという問題もある。
【0006】そのため、計算時間とフォルマントの抽出
精度という点で、比較的バランスがとれている第2の方
法が、主に用いられている。しかしながら、第2の方法
では、フォルマントの抽出精度が不十分であり、抽出さ
れたフォルマントを、そのまま音声合成処理や音声認識
処理に用いることは困難であった。本発明は、上述した
事情に鑑みて為されたものであり、フォルマントを高精
度に抽出するフォルマント抽出方法を提供することを目
的とする。
【0007】
【課題を解決するための手段】本発明によるフォルマン
ト抽出方法は、音声信号のスペクトル特微量であるフォ
ルマントを求めるフォルマント抽出方法において、音声
信号をスペクトル分析するスペクトル分析過程と、前記
スペクトル分析過程で得られた分析結果を、予め作成し
ておいたコードブックに基づいてベクトル量子化するベ
クトル量子化過程と、前記ベクトル量子化過程で得られ
たコードベクトルから求められたフォルマントに基づい
て、前記音声信号のフォルマントを抽出するフォルマン
ト抽出過程とからなることを特徴としている。
【0008】
【作用】上記方法によれば、音声信号がスペクトル分析
され、その分析結果がコードブックに基づいてベクトル
量子化されてコードベクトルが得られる。このコードベ
クトルに基づいて、前記音声信号のフォルマントが抽出
される。したがって、フォルマントが高精度で抽出され
る。
【0009】
【実施例】以下、図面を参照して、本発明の一実施例に
ついて説明する。図1は、本発明の一実施例によるフォ
ルマント抽出方法の手順を示す図である。この図に示す
ように、ステップ11では、フォルマントを抽出される
べき入力音声信号に対してスペクトル分析を施す。ここ
では、スペクトル分析として、線形予測分析(以後、L
PC分析と称す)を行うものとする。これにより、入力
音声信号に対応するLPCパラメータ(線形予測係数)
が得られる。
【0010】次に、ステップ12では、ステップ11で
得られたLPCパラメータを、予め作成されたコードブ
ック14に基づいてベクトル量子化する。コードブック
14は、音声信号を効率よく表現するために、音声信号
の特徴を示すパラメータ(以後、音声特徴量と称す)を
用いて、音声信号が統計的に分類されて記録されたもの
である。以下、コードブック14の作成過程について、
図2を参照して説明する。図2は、コードブック14の
作成手順を示す図である。
【0011】この図において、ステップ21では、入力
された学習用音声データ22に対して、LPC分析を施
す。なお、音声信号を特徴づけるパラメータとしては、
LPC分析によるLPCパラメータや、FFT分析によ
るスペクトル密度等があるが、ここでは、LPCパラメ
ータを用いた例について説明する。本ステップ21で
は、LPC分析により、学習用音声データ22に対応し
たLPCパラメータが得られる。ステップ21は、統計
的に充分に多くの学習用音声データ22に対して行われ
る。
【0012】次に、ステップ23では、ステップ21で
得られた複数組のLPCパラメータに対して、クラスタ
リング(分類)が行われる。ここで用いることのできる
クラスタリングの手法としては、代表的な方法であるL
BG(Linde-Buzo-Gray )アルゴリズム等がある。LB
Gアルゴリズムの詳細は、例えば、Lindeら、”An algo
lithm for vector quantization Design”(IEEE com-2
8(1980-01))に記載されている。
【0013】上記クラスタリングの結果、学習用音声デ
ータ22に対応した複数組のLPCパラメータが統計的
に分類されたパラメータコードブックが得られる。次
に、ステップ24でフォルマント抽出処理が行われる。
具体的には、学習用音声データ22に対してスペクトル
分析を施し、その結果から、手作業により、直接、フォ
ルマントを抽出する。あるいは、手作業の手間を省くた
め、スペクトル分析の結果から、従来のフォルマント抽
出方法によりフォルマントを抽出し、抽出されたフォル
マントを手作業で修正する。上述したフォルマント抽出
処理が、複数の学習用音声データ22に対して施され
る。
【0014】こうして抽出された複数組のフォルマント
は、ステップ23で得られたパラメータコードブックと
ともに、コードブック14に記録される。コードブック
14は、図3に示すように、複数(通常256〜512
程度)のコードベクトル31から構成されている。各コ
ードベクトル31は、1〜256の自然数が順に割り当
てられるコードベクトル番号32、各学習用音声データ
22に対応するスペクトル特徴量(LPCパラメータ)
33および各フォルマントデータ34から構成される。
【0015】再び、図1を参照し、本実施例によるフォ
ルマント抽出方法について説明する。ステップ12で行
われるベクトル量子化処理は、ステップ11で得られた
LPCパラメータに最も似かよっているスペクトル特徴
量33を有するコードベクトル31を、コードブック1
4から抽出する処理である。そして、後続するステップ
13では、入力音声信号に対応するコードベクトル31
のフォルマントデータ34に基づいたフォルマント抽出
処理が行われる。
【0016】ステップ13では、フォルマント抽出の基
本的な方法として、従来の第2の方法(音声のモデル化
に基づく方法)や、第3の方法(分析合成に基づく方
法)を利用することができるが、本実施例では上記第2
の方法を用いたフォルマント抽出処理について説明す
る。なお、音声のモデル化に基づく方法の詳細は、例え
ば、板倉ら、「統計的手法による音声スペクトル密度と
フォルマント周波数の推定」(信学会論文誌、53-A,1,P
P.35-42(1970))に記載されている。
【0017】まず、フォルマントとして、以下に示す
(1)式で表現される全極型の線形予測フィルタの極の
中から適当なものを選択する。 H(z)=1/(1+Σαi-i) … (1) ここで、選択された極をzk とすると、その共振周波数
K およびバンド幅Bk は、サンプリング周期をΔTと
すると、以下に示す(2),(3)式で表される。 Fk =arg(zk)/(2πΔT)[Hz] … (2) Bk =log|zk|/(πΔT) [Hz] … (3)
【0018】ここで、選択された極zk のうちBk /F
k の値が小なるものは、スペクトルのピーク点を示し、
フォルマントの候補として考えられる。従来の方法で
は、さらに、Bk /Fk の値や、近傍の極との連続性を
選択基準としてフォルマントを抽出していたが、本実施
例では、さらに、コードベクトル31から得られたフォ
ルマントの周波数をFr kとし、以下に示す(4)式を満
たすもののみフォルマントとして選択する。 |Fk−Fr k| < ε (ただし、εは適当な定数) … (4) したがって、定数εを充分に小なる値とすれば、高い精
度でフォルマントを求めることができる。
【0019】以上説明したように、コードブック14を
作成し、当該コードブック14中のコードベクトル31
が有するフォルマントデータ34を用いて、(4)式を
満たすように、入力音声信号のフォルマントを求めるた
め、求められたフォルマントは、高精度なものとなる。
また、コードブック14は、学習用音声データ22をL
PC分析し、その分析結果をクラスタリングしたもの
に、対応するフォルマントデータ34を対応させて構成
されており、学習量を増大させることにより、当該コー
ドブック14を用いて求められるフォルマントを、さら
に、高精度とすることができる。
【0020】
【発明の効果】以上説明したように、本発明によれば、
音声信号がスペクトル分析され、その分析結果がコード
ブックに基づいてベクトル量子化されてコードベクトル
が得られる。このコードベクトルに基づいて、前記音声
信号のフォルマントが抽出される。したがって、フォル
マントを高精度に抽出することができるという効果があ
る。
【図面の簡単な説明】
【図1】本発明の一実施例によるフォルマント抽出方法
の手順を示す図である。
【図2】同実施例で用いられるコードブック14の作成
過程を示す図である。
【図3】コードブック14の構造を示す概念図である。
【符号の説明】
14 コードブック 31 コードベクトル 33 スペクトル特徴量 34 フォルマントデータ
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 11/00

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声信号のスペクトル特微量であるフォ
    ルマントを求めるフォルマント抽出方法において、 音声信号をスペクトル分析するスペクトル分析過程と、 前記スペクトル分析過程で得られた分析結果を、予め作
    成しておいたコードブックに基づいてベクトル量子化す
    るベクトル量子化過程と、 前記ベクトル量子化過程で得られたコードベクトルから
    求められたフォルマントに基づいて、前記音声信号のフ
    ォルマントを抽出するフォルマント抽出過程とからなる
    ことを特徴とするフォルマント抽出方法。
  2. 【請求項2】 前記フォルマント抽出過程は、学習用音
    声信号をスペクトル分析し、その分析結果を統計的に分
    類して得られたコードブックのスペクトル特微量から抽
    出したフォルマントを用いて、前記音声信号のフォルマ
    ントを抽出することを特徴とする請求項1に記載のフォ
    ルマント抽出方法。
JP24718593A 1993-10-01 1993-10-01 フォルマント抽出方法 Expired - Lifetime JP3199338B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24718593A JP3199338B2 (ja) 1993-10-01 1993-10-01 フォルマント抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24718593A JP3199338B2 (ja) 1993-10-01 1993-10-01 フォルマント抽出方法

Publications (2)

Publication Number Publication Date
JPH07104796A JPH07104796A (ja) 1995-04-21
JP3199338B2 true JP3199338B2 (ja) 2001-08-20

Family

ID=17159711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24718593A Expired - Lifetime JP3199338B2 (ja) 1993-10-01 1993-10-01 フォルマント抽出方法

Country Status (1)

Country Link
JP (1) JP3199338B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100511316B1 (ko) 2003-10-06 2005-08-31 엘지전자 주식회사 음성신호의 포만트 주파수 검출방법

Also Published As

Publication number Publication date
JPH07104796A (ja) 1995-04-21

Similar Documents

Publication Publication Date Title
US7035791B2 (en) Feature-domain concatenative speech synthesis
JP4354653B2 (ja) ピッチ追跡方法および装置
CN110223673B (zh) 语音的处理方法及装置、存储介质、电子设备
CN112885336B (zh) 语音识别系统的训练、识别方法、装置、电子设备
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
WO1993018505A1 (en) Voice transformation system
CN111128236B (zh) 一种基于辅助分类深度神经网络的主乐器识别方法
JP6992873B2 (ja) 音源分離装置、音源分離方法およびプログラム
CN109979428B (zh) 音频生成方法和装置、存储介质、电子设备
EP1465153B1 (en) Method and apparatus for formant tracking using a residual model
EP1511007B1 (en) Vocal tract resonance tracking using a target-guided constraint
JPH08123484A (ja) 信号合成方法および信号合成装置
CN112037764A (zh) 一种音乐结构的确定方法、装置、设备及介质
US5202926A (en) Phoneme discrimination method
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
CN111259188B (zh) 一种基于seq2seq网络的歌词对齐方法及系统
Radfar et al. Monaural speech segregation based on fusion of source-driven with model-driven techniques
JPH08248994A (ja) 声質変換音声合成装置
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP3199338B2 (ja) フォルマント抽出方法
Singh et al. Application of different filters in mel frequency cepstral coefficients feature extraction and fuzzy vector quantization approach in speaker recognition
JP3282693B2 (ja) 声質変換方法
JP2912579B2 (ja) 声質変換音声合成装置
Koniaris et al. Selecting static and dynamic features using an advanced auditory model for speech recognition
Mores Vowel quality in violin sounds—A timbre analysis of Italian masterpieces

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090615

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090615

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100615

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100615

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110615

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120615

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130615

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140615

Year of fee payment: 13

EXPY Cancellation because of completion of term