JPH0519793A - ピツチ抽出方法 - Google Patents

ピツチ抽出方法

Info

Publication number
JPH0519793A
JPH0519793A JP17093891A JP17093891A JPH0519793A JP H0519793 A JPH0519793 A JP H0519793A JP 17093891 A JP17093891 A JP 17093891A JP 17093891 A JP17093891 A JP 17093891A JP H0519793 A JPH0519793 A JP H0519793A
Authority
JP
Japan
Prior art keywords
frequency
pitch
maximum
spectrum
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP17093891A
Other languages
English (en)
Inventor
吉章 ▲浅▼川
Yoshiaki Asakawa
Hiroyuki Uno
宏幸 宇野
Katsuya Yamazaki
山崎  勝也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17093891A priority Critical patent/JPH0519793A/ja
Publication of JPH0519793A publication Critical patent/JPH0519793A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【目的】本発明は音声の分析方法に係り、ピッチ抽出精
度が音声データに依存せず、劣化音声に対しても高いピ
ッチ抽出精度が得られるようなピッチ抽出方法を提供す
ることである。 【構成】逆フィルタ(4)によって予測残差信号(5)
を得、Nの設定部(9)によって設定されたNのそれぞ
れに対してスペクトル積(11)に基づくピッチ周波数
の候補(17)を抽出し、多数決論理部(18)におい
て最大得票を得たピッチ周波数を出力することによって
達成される。 【効果】スペクトルが平坦化された予測残差を用い、多
数決論理によって本来のピッチ周波数の高低によらず安
定にピッチ周波数が抽出でき、劣化音声に対しても高い
ピッチ抽出率が得られる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声の分析方法に係り、
特に雑音が重畳した音声信号から正確にピッチ周波数、
またはピッチ周期を抽出するに好適なピッチ抽出方法に
関する。
【0002】
【従来の技術】声の高さに対応するピッチ周波数、ある
いはその逆数であるピッチ周期は、音声情報処理におけ
る重要なパラメータである。特に低ビットレートで音声
を伝送したり、蓄積したりするボコーダでは、ピッチ周
期が駆動音源を生成するための必須のパラメータである
ため、ピッチ抽出精度が合成音声品質に直接影響する。
従来音声のピッチ抽出法としては、自己相関法や変形相
関法、ケプストラム法等が良く用いられている。しか
し、雑音が付加されたり、電話音声のようにピッチ周波
数付近の成分が失われたりした劣化音声に対しては、正
確なピッチを抽出しにくいと言った問題があった。これ
に対し、スペクトル圧縮の概念を用いた最大スペクトル
積ピリオドグラム法(以下、MSPP法と略す)が提案
されている(加藤、板倉、「最大スペクトル積ピリオド
グラム法(MSPP法)による劣化音声のピッチ抽
出」、日本音響学会講演論文集、pp.151−15
2,昭和62年3月)。以下、MMPP法について説明
する。
【0003】MSPP法では、次式のスペクトル積を用
いる。
【0004】
【数2】
【0005】ここで、X(f)は音声信号列の短時間ス
ペクトル、HPは共役を示す。また、n<m≦Nでnとm
は1以外の公約数を持たない組み合わせである。各n、
mに対し、スペクトル積SP(n,m,f)が最大とな
る周波数を最大スペクトル積周波数fnmとする。この
fnmがピッチ周波数の高周波成分と考えられるので、
fnmを1からN+1−mまでの整数で割ることで得ら
れる約数周波数を用いてヒストグラムを作成し、その最
大頻度の周波数をピッチ周波数と決定する。
【0006】
【発明が解決しようとする課題】MSPP法は劣化音声
に対してはケプストラム法や変形相関法等に比べてピッ
チ抽出性能が良好ではあるが、音声信号の短時間スペク
トルを基にしているために、ホルマントの影響が現れ、
ピッチを誤抽出することがあった。また、整数Nの値は
通常5程度が用いられるが、ピッチ抽出程度の観点から
は、Nの最適値は音声データに依存し、必ずしも一定で
はない。その結果、Nの設定が不適切だとピッチを誤抽
出することがあった。本発明の目的は、ホルマントの影
響を除去し、ピッチ抽出精度が音声データに依存しない
ようなピッチ抽出方法を提供することである。
【0007】
【課題を解決するための手段】第1の課題に対しては、
音声信号を線形予測分析し、逆フィルタリングによって
予測残差を抽出する手段を設け、この予測残差に対し、
短時間スペクトルを求めるようにした。第2の課題に対
しては、整数Nの値を複数個設定し、その各々について
MSPP法によってピッチ周波数を求め、これをピッチ
周波数の候補と考えて多数決論理を適用する手段を設け
た。
【0008】
【作用】音声を線形予測分析すると、ホルマントなどの
特徴を示すスペクトル包絡(スペクトルの概形)が抽出
される。このスペクトル包絡の逆特性を有するようなフ
ィルタが逆フィルタであり、これに元の音声を通すこと
によりホルマントの影響が取り除かれた平坦なスペクト
ルを持つ予測残差が得られる。この予測残差にMPSS
法を適用することにより、音韻の影響を受けにくくな
り、安定なピッチが抽出できる。
【0009】一方、実際の(真の)ピッチ周波数が高い
場合、音声データの帯域内の高調波成分の数は少なくな
る。高調波成分の数と整数Nの関係によっては、ピッチ
を誤抽出する場合がある。この場合、整数Nの値を複数
個設定し、それぞれに対してピッチを抽出すれば、正し
いピッチが抽出される可能性が高くなる。そこでそれぞ
れのNに対して抽出されたピッチ周波数の多数決をとる
ことにより、正しいピッチ周波数が選択される。
【0010】
【実施例】以下、図面を用いて本発明の一実施例を説明
する。
【0011】図1は従来のMSPP法によるピッチ抽出
のブロック図である。短時間のフレーム(通常20〜3
0ms)に分割された音声信号1はフーリエ変換器6に
入力され、複素フーリエスペクトル7に変換される。図
2に複素フーリエスペクトルを対数パワースペクトルに
変換したものの一例を示す。同図にはスペクトル包絡も
示してあり、入力音声のホルマントを反映し、起伏の多
い形状になっていることがわかる。
【0012】図1において、複素フーリエスペクトル7
はスペクトル積計算部8に入力される。スペクトル積計
算部8では、あらかじめ設定された整数Nの値に対し、
n、mの値を求め、その各々の組み合わせについて数2
に示すスペクトル積SP(n,m,f)、11を計算す
る。Nを5とすれば、n、mの組み合わせは、(n,
m)=(1,2)、(1,3)、(1,4)、(1,
5)、(2,3)、(2,5)、(3,4)、(3,
5)、(4,5)の9通りとなる。各々のスペクトル積
11はピーク検出部12に入力され、スペクトル積の最
大値を与える最大スペクトル積周波数fnm、13を検
出する。
【0013】ヒストグラム作成部14では、最大スペク
トル積周波数fnm、13を1からN+1−mまでの整
数で割ることで得られる約数周波数を用いてヒストグラ
ムを作成する。例えば、N=5、(n,m)=(2,
3)の場合は、f23を整数1、2、3で割った周波数の
度数を1ずつ増加させる。ヒストグラムは(n,m)の
全ての組み合わせについて求めた約数周波数をまとめて
作成する。
【0014】完成したヒストグラム15は最大頻度検出
部16に入力され、最大頻度(度数)を与える周波数が
ピッチ周波数19として出力される。
【0015】次に、図3に本発明のピッチ抽出方法のブ
ロック図を示す。従来方法との主な違いは、線形予測残
差を求めるために、線形予測分析器2と逆フィルタ4を
設けた点と、最後に多数決論理部18を付加した点であ
る。以下、主として従来方法との違いについて説明す
る。
【0016】線形予測分析器2はフレームに分割された
音声1を入力し、線形予測係数、又はPARCOR係数
3を出力する。逆フィルタ4は、線形予測係数3に基づ
いて入力音声のスペクトル包絡の逆特性を有するような
フィルタであり、これに入力音声1を通過させることに
より、スペクトル包絡が平坦化された線形予測残差信号
5を出力する。ここで、線形予測分析器2と逆フィルタ
4はいずれも公知の技術であり、例えば中田和男著「音
声」(コロナ社、昭和52年)に記載されている。図4
に線形予測残差を入力したときの複素フーリエスペクト
ルを、対数パワースペクトルに変換したものの一例を示
す。同図にはスペクトル包絡も示してあり、スペクトル
包絡が平坦化され、音声信号を入力した場合に比べ、起
伏が少ない形状になっていることがわかる。
【0017】図3において、線形予測残差5に対し、従
来方法のMSPP法を適用する。ただし、Nの設定部9
においてNの値を複数個設定する。例えば、N=5,
6,7の3通りとし、この値10をスペクトル積計算部
8へ入力する。まず、N=5として従来のMSPP法と
同様にスペクトル積11の計算から最大頻度検出までを
行い、ピッチ周波数の候補17を決定する。同様に、N
=6、及びN=7についてもピッチ周波数の候補17を
決定する。多数決論理部では、これらのピッチ周波数の
候補17(この例では3個)に対して多数決を行い、最
大得票を得たピッチ周波数の候補を最終的なピッチ周波
数19として出力する。
【0018】図5に本実施例の効果を示す。音声に周期
性雑音を付加したときのピッチ抽出率を、様々なSN比
に対して測定したものであり、いずれのSN比において
も本発明のピッチ抽出率が、従来のMSPP法の抽出率
を上回っている。
【0019】
【発明の効果】本発明によれば、音韻性や本来のピッチ
周波数の高低によらず、正確なピッチ周波数を抽出する
ことができ、雑音が重畳した音声などの劣化音声に対し
ても従来のMSPP法よりも高いピッチ抽出率が得られ
る。
【図面の簡単な説明】
【図1】従来のMSPP法によるピッチ抽出法のブロッ
ク図である。
【図2】音声信号を入力としたときの対数パワースペク
トルを示す図である。
【図3】本発明によるピッチ抽出法のブロック図であ
る。
【図4】線形予測残差を入力としたときの対数パワース
ペクトルを示す図である。
【図5】雑音重畳音声に対するピッチ抽出率を示す図で
ある。
【符号の説明】 2…線形予測分析器、4…逆フィルタ、6…フーリエ変
換器、8…スペクトル積計算部、9…Nの設定部、12
…ピーク検出部、14…ヒストグラム作成部、16…最
大頻度検出部、18…多数決論理部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】入力音声のフーリエスペクトルXを計算
    し、あらかじめ定めた整数Nに対して互いに素で、かつ
    n<m≦Nなる整数n、mを用い、fを周波数とする
    と、 【数1】 なるスペクトル積を計算し(ただし、HPは共役を表
    す)、該スペクトル積の最大値を与える最大スペクトル
    積周波数を1からN+1−mまでの整数で割ることで得
    られる約数周波数を用いてヒストグラムを作成し、該ヒ
    ストグラムの最大頻度の周波数をもってピッチ周波数と
    決定するピッチ抽出方法において、前期フーリエスペク
    トルは前記入力音声の予測残差を用いて計算することを
    特徴とするピッチ抽出方法。
  2. 【請求項2】請求項1に記載のピッチ抽出方法におい
    て、前記整数Nの値として複数個の数値をあらかじめ定
    めておき、前記整数Nの各値ごとに前記ヒストグラムの
    最大頻度の周波数を求め、該周波数の多数決論理によっ
    てピッチ周波数を決定することを特徴とするピッチ抽出
    方法。
  3. 【請求項3】音声を入力する手段、前記入力音声を線形
    予測分析し、予測残差を抽出する手段、前期予測残差を
    フーリエ変換し、スペクトルを抽出する手段、整数Nの
    値を複数個設定する手段、前記スペクトルからスペクト
    ル積を算出する手段、前記スペクトル積から最大スペク
    トル積周波数を検出する手段、前記最大スペクトル積周
    波数からヒストグラムを作成し、最大頻度の周波数を検
    出する手段、前記最大頻度の周波数に対して多数決論理
    を実行する手段を有することを特徴とするピッチ抽出方
    法。
JP17093891A 1991-07-11 1991-07-11 ピツチ抽出方法 Pending JPH0519793A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17093891A JPH0519793A (ja) 1991-07-11 1991-07-11 ピツチ抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17093891A JPH0519793A (ja) 1991-07-11 1991-07-11 ピツチ抽出方法

Publications (1)

Publication Number Publication Date
JPH0519793A true JPH0519793A (ja) 1993-01-29

Family

ID=15914158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17093891A Pending JPH0519793A (ja) 1991-07-11 1991-07-11 ピツチ抽出方法

Country Status (1)

Country Link
JP (1) JPH0519793A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006132159A1 (ja) * 2005-06-09 2006-12-14 A.G.I. Inc. ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006132159A1 (ja) * 2005-06-09 2006-12-14 A.G.I. Inc. ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
US8738370B2 (en) 2005-06-09 2014-05-27 Agi Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program

Similar Documents

Publication Publication Date Title
EP0388104B1 (en) Method for speech analysis and synthesis
US6741960B2 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
US20040243402A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
US7630883B2 (en) Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals
US6188979B1 (en) Method and apparatus for estimating the fundamental frequency of a signal
US20060064301A1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
EP1031141B1 (en) Method for pitch estimation using perception-based analysis by synthesis
US20040023677A1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
JP4100721B2 (ja) 励起パラメータの評価
US20130046540A9 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
KR19990080416A (ko) 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
US4081605A (en) Speech signal fundamental period extractor
EP1239458B1 (en) Voice recognition system, standard pattern preparation system and corresponding methods
JP3335841B2 (ja) 信号符号化装置
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
US6253171B1 (en) Method of determining the voicing probability of speech signals
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
JPH0519793A (ja) ピツチ抽出方法
US6662153B2 (en) Speech coding system and method using time-separated coding algorithm
Ramabadran et al. The ETSI extended distributed speech recognition (DSR) standards: server-side speech reconstruction
JP2001147700A (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JPH0650440B2 (ja) Lsp型パタンマツチングボコ−ダ
JP3112462B2 (ja) 音声符号化装置
JPS62278598A (ja) 帯域分割型ボコ−ダ