JP3199338B2 - フォルマント抽出方法 - Google Patents
フォルマント抽出方法Info
- Publication number
- JP3199338B2 JP3199338B2 JP24718593A JP24718593A JP3199338B2 JP 3199338 B2 JP3199338 B2 JP 3199338B2 JP 24718593 A JP24718593 A JP 24718593A JP 24718593 A JP24718593 A JP 24718593A JP 3199338 B2 JP3199338 B2 JP 3199338B2
- Authority
- JP
- Japan
- Prior art keywords
- formant
- spectrum
- analysis
- audio signal
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
特微量であるフォルマントを抽出するフォルマント抽出
方法に関する。
おいて、音声信号のスペクトル特徴量であるフォルマン
トを抽出する作業が必要とされており、各種のフォルマ
ント抽出方法が知られている。従来のフォルマント抽出
方法は、大別して、3種類の方法に分類される。以下、
各方法の概略を説明する。
法であり、音声信号を帯域フィルタバンクやFFT(fa
st Fourier transform)等を用いてスペクトル分析し、
極大点抽出やモーメント計算等によりフォルマントを求
めるものである。また、第2の方法は、音声のモデル化
に基づく方法である。この方法では、音声を定常確率過
程としてモデル化し、音声信号から全極型の声道伝達関
数を求め、その声道伝達関数の極の中で、Q値の高いも
のをフォルマントとするものである。
法である。この方法では、まず、音声信号のスペクトル
を、フォルマント(スペクトル包絡の極)とアンチフォ
ルマント(スペクトル包絡の零)とでモデル化する。そ
して、当該モデルに基づくパラメータ合成処理と、その
結果得られる音声信号と原音声信号との誤差分析とを繰
り返し行い、誤差が最小となるようにフォルマントを決
定するものである。
ント抽出方法において、ほぼ安定して抽出を行うことが
でき、誤差を小とすることができるのは第3の方法であ
るが、各パラメータの分析・合成や変更という過程を繰
り返す必要があるため、計算時間が膨大になるという問
題がある。また、誤差が最小となるまで、上記過程を繰
り返すため、収束するまでの計算時間を予測することが
できないという問題もある。
精度という点で、比較的バランスがとれている第2の方
法が、主に用いられている。しかしながら、第2の方法
では、フォルマントの抽出精度が不十分であり、抽出さ
れたフォルマントを、そのまま音声合成処理や音声認識
処理に用いることは困難であった。本発明は、上述した
事情に鑑みて為されたものであり、フォルマントを高精
度に抽出するフォルマント抽出方法を提供することを目
的とする。
ト抽出方法は、音声信号のスペクトル特微量であるフォ
ルマントを求めるフォルマント抽出方法において、音声
信号をスペクトル分析するスペクトル分析過程と、前記
スペクトル分析過程で得られた分析結果を、予め作成し
ておいたコードブックに基づいてベクトル量子化するベ
クトル量子化過程と、前記ベクトル量子化過程で得られ
たコードベクトルから求められたフォルマントに基づい
て、前記音声信号のフォルマントを抽出するフォルマン
ト抽出過程とからなることを特徴としている。
され、その分析結果がコードブックに基づいてベクトル
量子化されてコードベクトルが得られる。このコードベ
クトルに基づいて、前記音声信号のフォルマントが抽出
される。したがって、フォルマントが高精度で抽出され
る。
ついて説明する。図1は、本発明の一実施例によるフォ
ルマント抽出方法の手順を示す図である。この図に示す
ように、ステップ11では、フォルマントを抽出される
べき入力音声信号に対してスペクトル分析を施す。ここ
では、スペクトル分析として、線形予測分析(以後、L
PC分析と称す)を行うものとする。これにより、入力
音声信号に対応するLPCパラメータ(線形予測係数)
が得られる。
得られたLPCパラメータを、予め作成されたコードブ
ック14に基づいてベクトル量子化する。コードブック
14は、音声信号を効率よく表現するために、音声信号
の特徴を示すパラメータ(以後、音声特徴量と称す)を
用いて、音声信号が統計的に分類されて記録されたもの
である。以下、コードブック14の作成過程について、
図2を参照して説明する。図2は、コードブック14の
作成手順を示す図である。
された学習用音声データ22に対して、LPC分析を施
す。なお、音声信号を特徴づけるパラメータとしては、
LPC分析によるLPCパラメータや、FFT分析によ
るスペクトル密度等があるが、ここでは、LPCパラメ
ータを用いた例について説明する。本ステップ21で
は、LPC分析により、学習用音声データ22に対応し
たLPCパラメータが得られる。ステップ21は、統計
的に充分に多くの学習用音声データ22に対して行われ
る。
得られた複数組のLPCパラメータに対して、クラスタ
リング(分類)が行われる。ここで用いることのできる
クラスタリングの手法としては、代表的な方法であるL
BG(Linde-Buzo-Gray )アルゴリズム等がある。LB
Gアルゴリズムの詳細は、例えば、Lindeら、”An algo
lithm for vector quantization Design”(IEEE com-2
8(1980-01))に記載されている。
ータ22に対応した複数組のLPCパラメータが統計的
に分類されたパラメータコードブックが得られる。次
に、ステップ24でフォルマント抽出処理が行われる。
具体的には、学習用音声データ22に対してスペクトル
分析を施し、その結果から、手作業により、直接、フォ
ルマントを抽出する。あるいは、手作業の手間を省くた
め、スペクトル分析の結果から、従来のフォルマント抽
出方法によりフォルマントを抽出し、抽出されたフォル
マントを手作業で修正する。上述したフォルマント抽出
処理が、複数の学習用音声データ22に対して施され
る。
は、ステップ23で得られたパラメータコードブックと
ともに、コードブック14に記録される。コードブック
14は、図3に示すように、複数(通常256〜512
程度)のコードベクトル31から構成されている。各コ
ードベクトル31は、1〜256の自然数が順に割り当
てられるコードベクトル番号32、各学習用音声データ
22に対応するスペクトル特徴量(LPCパラメータ)
33および各フォルマントデータ34から構成される。
ルマント抽出方法について説明する。ステップ12で行
われるベクトル量子化処理は、ステップ11で得られた
LPCパラメータに最も似かよっているスペクトル特徴
量33を有するコードベクトル31を、コードブック1
4から抽出する処理である。そして、後続するステップ
13では、入力音声信号に対応するコードベクトル31
のフォルマントデータ34に基づいたフォルマント抽出
処理が行われる。
本的な方法として、従来の第2の方法(音声のモデル化
に基づく方法)や、第3の方法(分析合成に基づく方
法)を利用することができるが、本実施例では上記第2
の方法を用いたフォルマント抽出処理について説明す
る。なお、音声のモデル化に基づく方法の詳細は、例え
ば、板倉ら、「統計的手法による音声スペクトル密度と
フォルマント周波数の推定」(信学会論文誌、53-A,1,P
P.35-42(1970))に記載されている。
(1)式で表現される全極型の線形予測フィルタの極の
中から適当なものを選択する。 H(z)=1/(1+Σαiz-i) … (1) ここで、選択された極をzk とすると、その共振周波数
FK およびバンド幅Bk は、サンプリング周期をΔTと
すると、以下に示す(2),(3)式で表される。 Fk =arg(zk)/(2πΔT)[Hz] … (2) Bk =log|zk|/(πΔT) [Hz] … (3)
k の値が小なるものは、スペクトルのピーク点を示し、
フォルマントの候補として考えられる。従来の方法で
は、さらに、Bk /Fk の値や、近傍の極との連続性を
選択基準としてフォルマントを抽出していたが、本実施
例では、さらに、コードベクトル31から得られたフォ
ルマントの周波数をFr kとし、以下に示す(4)式を満
たすもののみフォルマントとして選択する。 |Fk−Fr k| < ε (ただし、εは適当な定数) … (4) したがって、定数εを充分に小なる値とすれば、高い精
度でフォルマントを求めることができる。
作成し、当該コードブック14中のコードベクトル31
が有するフォルマントデータ34を用いて、(4)式を
満たすように、入力音声信号のフォルマントを求めるた
め、求められたフォルマントは、高精度なものとなる。
また、コードブック14は、学習用音声データ22をL
PC分析し、その分析結果をクラスタリングしたもの
に、対応するフォルマントデータ34を対応させて構成
されており、学習量を増大させることにより、当該コー
ドブック14を用いて求められるフォルマントを、さら
に、高精度とすることができる。
音声信号がスペクトル分析され、その分析結果がコード
ブックに基づいてベクトル量子化されてコードベクトル
が得られる。このコードベクトルに基づいて、前記音声
信号のフォルマントが抽出される。したがって、フォル
マントを高精度に抽出することができるという効果があ
る。
の手順を示す図である。
過程を示す図である。
Claims (2)
- 【請求項1】 音声信号のスペクトル特微量であるフォ
ルマントを求めるフォルマント抽出方法において、 音声信号をスペクトル分析するスペクトル分析過程と、 前記スペクトル分析過程で得られた分析結果を、予め作
成しておいたコードブックに基づいてベクトル量子化す
るベクトル量子化過程と、 前記ベクトル量子化過程で得られたコードベクトルから
求められたフォルマントに基づいて、前記音声信号のフ
ォルマントを抽出するフォルマント抽出過程とからなる
ことを特徴とするフォルマント抽出方法。 - 【請求項2】 前記フォルマント抽出過程は、学習用音
声信号をスペクトル分析し、その分析結果を統計的に分
類して得られたコードブックのスペクトル特微量から抽
出したフォルマントを用いて、前記音声信号のフォルマ
ントを抽出することを特徴とする請求項1に記載のフォ
ルマント抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24718593A JP3199338B2 (ja) | 1993-10-01 | 1993-10-01 | フォルマント抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24718593A JP3199338B2 (ja) | 1993-10-01 | 1993-10-01 | フォルマント抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07104796A JPH07104796A (ja) | 1995-04-21 |
JP3199338B2 true JP3199338B2 (ja) | 2001-08-20 |
Family
ID=17159711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24718593A Expired - Lifetime JP3199338B2 (ja) | 1993-10-01 | 1993-10-01 | フォルマント抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3199338B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100511316B1 (ko) | 2003-10-06 | 2005-08-31 | 엘지전자 주식회사 | 음성신호의 포만트 주파수 검출방법 |
-
1993
- 1993-10-01 JP JP24718593A patent/JP3199338B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH07104796A (ja) | 1995-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7035791B2 (en) | Feature-domain concatenative speech synthesis | |
JP4354653B2 (ja) | ピッチ追跡方法および装置 | |
CN110223673B (zh) | 语音的处理方法及装置、存储介质、电子设备 | |
CN112885336B (zh) | 语音识别系统的训练、识别方法、装置、电子设备 | |
JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
WO1993018505A1 (en) | Voice transformation system | |
CN111128236B (zh) | 一种基于辅助分类深度神经网络的主乐器识别方法 | |
JP6992873B2 (ja) | 音源分離装置、音源分離方法およびプログラム | |
CN109979428B (zh) | 音频生成方法和装置、存储介质、电子设备 | |
EP1465153B1 (en) | Method and apparatus for formant tracking using a residual model | |
EP1511007B1 (en) | Vocal tract resonance tracking using a target-guided constraint | |
JPH08123484A (ja) | 信号合成方法および信号合成装置 | |
CN112037764A (zh) | 一种音乐结构的确定方法、装置、设备及介质 | |
US5202926A (en) | Phoneme discrimination method | |
Chadha et al. | Optimal feature extraction and selection techniques for speech processing: A review | |
CN111259188B (zh) | 一种基于seq2seq网络的歌词对齐方法及系统 | |
Radfar et al. | Monaural speech segregation based on fusion of source-driven with model-driven techniques | |
JPH08248994A (ja) | 声質変換音声合成装置 | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP3199338B2 (ja) | フォルマント抽出方法 | |
Singh et al. | Application of different filters in mel frequency cepstral coefficients feature extraction and fuzzy vector quantization approach in speaker recognition | |
JP3282693B2 (ja) | 声質変換方法 | |
JP2912579B2 (ja) | 声質変換音声合成装置 | |
Koniaris et al. | Selecting static and dynamic features using an advanced auditory model for speech recognition | |
Mores | Vowel quality in violin sounds—A timbre analysis of Italian masterpieces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090615 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090615 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100615 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100615 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110615 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120615 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130615 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140615 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term |