JP3288052B2 - 基本周波数抽出方法 - Google Patents
基本周波数抽出方法Info
- Publication number
- JP3288052B2 JP3288052B2 JP00321991A JP321991A JP3288052B2 JP 3288052 B2 JP3288052 B2 JP 3288052B2 JP 00321991 A JP00321991 A JP 00321991A JP 321991 A JP321991 A JP 321991A JP 3288052 B2 JP3288052 B2 JP 3288052B2
- Authority
- JP
- Japan
- Prior art keywords
- fundamental frequency
- signal
- neural network
- output
- signal waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【産業上の利用分野】本発明は、音声信号、音響信号、
及び画像信号等の信号の基本周波数を抽出する基本周波
数抽出方法に関するものである。
及び画像信号等の信号の基本周波数を抽出する基本周波
数抽出方法に関するものである。
【0002】
【従来の技術】従来、この種の分野の技術としては、例
えば図2のようなものがあった。以下、図2を参照しつ
つ従来の基本周波数抽出方法について説明する。図2は
従来の基本周波数抽出方法の処理手順を示すフローチャ
ートであり、各処理を順番にステップS1〜S6で表
す。まず、処理の対象となる信号波形に窓関数を乗じて
所望の時間領域の信号を取り出した後(ステップS
1)、信号波形の自己相関関数を求める(ステップS
2)。続いて、ステップS2で求められた自己相関関数
をもとに線形予測係数を求め(ステップS3)、さら
に、この線形予測係数に基づき信号波形に対する線形予
測を行って予測残差信号を求める(ステップS4)。そ
の後、予測残差信号のピークを抽出してエポック点を検
出し(ステップS5)、エポック点の時間間隔から基本
周波数を計算する(ステップS6)。ここで、エポック
点とは、信号波形の基本周波数に対応した時刻であり、
音声信号の場合は、例えば声帯が最も収縮した発声時の
時刻をいう。
えば図2のようなものがあった。以下、図2を参照しつ
つ従来の基本周波数抽出方法について説明する。図2は
従来の基本周波数抽出方法の処理手順を示すフローチャ
ートであり、各処理を順番にステップS1〜S6で表
す。まず、処理の対象となる信号波形に窓関数を乗じて
所望の時間領域の信号を取り出した後(ステップS
1)、信号波形の自己相関関数を求める(ステップS
2)。続いて、ステップS2で求められた自己相関関数
をもとに線形予測係数を求め(ステップS3)、さら
に、この線形予測係数に基づき信号波形に対する線形予
測を行って予測残差信号を求める(ステップS4)。そ
の後、予測残差信号のピークを抽出してエポック点を検
出し(ステップS5)、エポック点の時間間隔から基本
周波数を計算する(ステップS6)。ここで、エポック
点とは、信号波形の基本周波数に対応した時刻であり、
音声信号の場合は、例えば声帯が最も収縮した発声時の
時刻をいう。
【0003】次に、各処理の内容を説明する。 (1)ステップS1の処理 時間領域で離散的な信号波形をs(m)とし(但し、m
は離散的な時刻)、適当な窓関数をw(m)とする。
今、処理対象となる信号波形のうち、基本周波数を求め
たい所望の離散的な時刻をnとする。このとき、所望の
時刻nにおける信号波形sn(m)は次式(1)で求め
る。 sn(m)=s(m+n)w(m) ・・・(1) 但し、0≦m≦N−1、(N;所望の窓関数の大きさ)
(2)ステップS2の処理 所望の時刻nにおける信号波形の自己相関関数R
n(k)を次式(2)により求める。
は離散的な時刻)、適当な窓関数をw(m)とする。
今、処理対象となる信号波形のうち、基本周波数を求め
たい所望の離散的な時刻をnとする。このとき、所望の
時刻nにおける信号波形sn(m)は次式(1)で求め
る。 sn(m)=s(m+n)w(m) ・・・(1) 但し、0≦m≦N−1、(N;所望の窓関数の大きさ)
(2)ステップS2の処理 所望の時刻nにおける信号波形の自己相関関数R
n(k)を次式(2)により求める。
【数1】
【0004】(3)ステップS3の処理 線形予測係数を求める。ダービン(Durbin)の再
帰法によれば、次式(3)〜(7)によって線形予測係
数αj を求めることができる。ここで、jは第j次の予
測係数であることを示し、pは線形予測の次数で任意で
ある。 E(0) =R(0) ・・・(3)
帰法によれば、次式(3)〜(7)によって線形予測係
数αj を求めることができる。ここで、jは第j次の予
測係数であることを示し、pは線形予測の次数で任意で
ある。 E(0) =R(0) ・・・(3)
【数2】 αj (i) =ki ・・・(5) αj (i) =αj (i-1) - kiαi-j (i-1) ・・・(6) 但し、1≦j≦i−1 E(i) =(1−ki 2 )E(i-1) ・・・(7) 計算の手順としては、まず、式(3)によりE(0) を得
る。次に、式(4)から式(7)までの計算を行い、α
j (i) を1≦i≦pの範囲で順に再帰的に求める。そし
て、最後に、 αj =αj (p) ・・・(8) 但し、1≦j≦p として線形予測係数αj を得る。
る。次に、式(4)から式(7)までの計算を行い、α
j (i) を1≦i≦pの範囲で順に再帰的に求める。そし
て、最後に、 αj =αj (p) ・・・(8) 但し、1≦j≦p として線形予測係数αj を得る。
【0005】(4)ステップS4の処理 ステップS3で求めた線形予測係数αj を用いて予測残
差信号e(n)を求める。予測残差信号e(n)は次式
(9)で計算される。
差信号e(n)を求める。予測残差信号e(n)は次式
(9)で計算される。
【数3】 (5)ステップS5の処理 残差信号e(n)のピークをエポック点として求める。
この処理はある一定の閾値Hを定め、残差信号e(n)
がこの閾値Hを終えてピークを生じた離散的な時刻をエ
ポック点とし、各エポック点の離散的な時刻をT0 ,T
1 ,T2 ,……とする。 (6)ステップS6の処理 最後にエポック点の間隔とサンプリング周波数fsか
ら、b番目のピッチにおける基本周波数fbを次式(1
0)により計算する。 fb=fs/(Tb−Tb-1) ・・・(10)
この処理はある一定の閾値Hを定め、残差信号e(n)
がこの閾値Hを終えてピークを生じた離散的な時刻をエ
ポック点とし、各エポック点の離散的な時刻をT0 ,T
1 ,T2 ,……とする。 (6)ステップS6の処理 最後にエポック点の間隔とサンプリング周波数fsか
ら、b番目のピッチにおける基本周波数fbを次式(1
0)により計算する。 fb=fs/(Tb−Tb-1) ・・・(10)
【0006】
【発明が解決しようとする課題】しかしながら、上記の
基本周波数抽出方法では、次のような課題があった。
予測残差信号e(n)の波高値の変化範囲は一定では
ないため、エポック点検出のための閾値Hの設定によっ
てはエポック点が正確に検出できない。 予測残差信
号e(n)の波形は複雑であり、ピークが多数生ずる。
そのため、どのピークがエポック点によるものかが判別
しにくく、正確な基本周波数の検出が困難である。本発
明は前記従来技術の持っていた課題として、正確なエポ
ック点の検出が困難である点、正確な基本周波数の抽出
が困難である点について解決した基本周波数抽出方法を
提供するものである。
基本周波数抽出方法では、次のような課題があった。
予測残差信号e(n)の波高値の変化範囲は一定では
ないため、エポック点検出のための閾値Hの設定によっ
てはエポック点が正確に検出できない。 予測残差信
号e(n)の波形は複雑であり、ピークが多数生ずる。
そのため、どのピークがエポック点によるものかが判別
しにくく、正確な基本周波数の検出が困難である。本発
明は前記従来技術の持っていた課題として、正確なエポ
ック点の検出が困難である点、正確な基本周波数の抽出
が困難である点について解決した基本周波数抽出方法を
提供するものである。
【0007】
【課題を解決するための手段】本発明は、前記課題を解
決するために、所定の時間区間にわたって正規化された
学習用の提示信号波形を入力し、誤差逆伝搬法により前
記時間区間の所定の位置と前記提示信号波形のエポック
点との一致時のみに出力波形がピークとなるように学習
処理が施された神経回路網を用い、所定の時間区間にわ
たって正規化された入力信号波形を前記神経回路網に入
力し、非線形処理により、前記入力信号波形の時刻を移
動させて得られる前記神経回路網の出力系列波形のピー
クを前記エポック点として複数、検出し、前記検出され
た各エポック点の時間間隔から前記入力信号波形の基本
周波数を算出するようにしたものである。また、前記提
示信号波形及び前記入力信号波形は、電力によって正規
化してもよい。
決するために、所定の時間区間にわたって正規化された
学習用の提示信号波形を入力し、誤差逆伝搬法により前
記時間区間の所定の位置と前記提示信号波形のエポック
点との一致時のみに出力波形がピークとなるように学習
処理が施された神経回路網を用い、所定の時間区間にわ
たって正規化された入力信号波形を前記神経回路網に入
力し、非線形処理により、前記入力信号波形の時刻を移
動させて得られる前記神経回路網の出力系列波形のピー
クを前記エポック点として複数、検出し、前記検出され
た各エポック点の時間間隔から前記入力信号波形の基本
周波数を算出するようにしたものである。また、前記提
示信号波形及び前記入力信号波形は、電力によって正規
化してもよい。
【0008】
【作用】本発明は、以上のように基本周波数抽出方法を
構成したので、神経回路網に提示信号波形を入力させて
誤差逆伝搬法により学習処理を施せば、神経回路網は、
入力された提示信号波形の時間区間の所定の位置とエポ
ック点との一致時のみに出力がピークとなるような信号
波形を出力して、基本周波数を有する信号が入力される
とその信号のエポック点が自動的に検出されるようにな
る。このように学習がなされた神経回路網に、基本周波
数が未知である入力信号波形を入力し、その入力信号波
形の時刻をわずかづつ移動させて得られる神経回路網の
出力系列波形のピークをエポック点として複数、検出し
た後、そのエポック点の時間間隔から入力信号波形の基
本周波数を計算する。このように、非線形処理によって
エポック点の時刻を強調して出力することにより、基本
周波数に相当するエポック点の時刻を正確に検出でき、
正確な基本周波数を抽出できる。したがって、前記課題
を解決できるのである。
構成したので、神経回路網に提示信号波形を入力させて
誤差逆伝搬法により学習処理を施せば、神経回路網は、
入力された提示信号波形の時間区間の所定の位置とエポ
ック点との一致時のみに出力がピークとなるような信号
波形を出力して、基本周波数を有する信号が入力される
とその信号のエポック点が自動的に検出されるようにな
る。このように学習がなされた神経回路網に、基本周波
数が未知である入力信号波形を入力し、その入力信号波
形の時刻をわずかづつ移動させて得られる神経回路網の
出力系列波形のピークをエポック点として複数、検出し
た後、そのエポック点の時間間隔から入力信号波形の基
本周波数を計算する。このように、非線形処理によって
エポック点の時刻を強調して出力することにより、基本
周波数に相当するエポック点の時刻を正確に検出でき、
正確な基本周波数を抽出できる。したがって、前記課題
を解決できるのである。
【0009】
【実施例】図1(a),(b)は、本発明の実施例を示
す基本周波数抽出方法の処理手順を示すフローチャート
であり、同図(a)は学習処理の手順を示すフローチャ
ート及び同図(b)は基本周波数抽出処理の手順を示す
フローチャートである。また、図3は本発明の実施例を
示す基本周波数抽出方法を実施するための基本周波数抽
出装置の概略の構成図である。図3において、この基本
周波数抽出装置は、処理対象となる音声信号等の信号波
形51をアナログ/ディジタル変換してディジタルデー
タを求める図示しないアナログ/ディジタル変換器を有
し、その出力側には入力層を形成する複数個の処理ユニ
ット(以下、単にセルという)52が接続されている。
さらに、通信回路53を介して入力層の各セル52が中
間層のセル52に、中間層の各セル52が出力層のセル
52にそれぞれ接続されている。これら各セル52は神
経細胞に相当するものであり、それぞれマイクロプロセ
ッサで構成されている。通信回路53は神経細胞間の接
続ニューロンに対応するものであり、ローカルエリアネ
ットワークで構成されている。さらに、出力層のセル5
2から出力される出力系列54をディジタルデータとし
て蓄積する図示しないメモリが設けられている。このよ
うなハード構成により、非線形強調処理を行うパーセプ
トロン型の神経回路網が形成される。
す基本周波数抽出方法の処理手順を示すフローチャート
であり、同図(a)は学習処理の手順を示すフローチャ
ート及び同図(b)は基本周波数抽出処理の手順を示す
フローチャートである。また、図3は本発明の実施例を
示す基本周波数抽出方法を実施するための基本周波数抽
出装置の概略の構成図である。図3において、この基本
周波数抽出装置は、処理対象となる音声信号等の信号波
形51をアナログ/ディジタル変換してディジタルデー
タを求める図示しないアナログ/ディジタル変換器を有
し、その出力側には入力層を形成する複数個の処理ユニ
ット(以下、単にセルという)52が接続されている。
さらに、通信回路53を介して入力層の各セル52が中
間層のセル52に、中間層の各セル52が出力層のセル
52にそれぞれ接続されている。これら各セル52は神
経細胞に相当するものであり、それぞれマイクロプロセ
ッサで構成されている。通信回路53は神経細胞間の接
続ニューロンに対応するものであり、ローカルエリアネ
ットワークで構成されている。さらに、出力層のセル5
2から出力される出力系列54をディジタルデータとし
て蓄積する図示しないメモリが設けられている。このよ
うなハード構成により、非線形強調処理を行うパーセプ
トロン型の神経回路網が形成される。
【0010】この神経回路網の処理内容を以下に説明す
る。本発明の処理は、神経回路網の学習処理とその学習
処理が終わった神経回路網による基本周波数の抽出処理
とに分かれる。まず、神経回路網の学習処理について図
1(a)及び図4を参照しつつ説明する。なお、図4は
学習処理における各信号の説明図である。神経回路網の
学習のために入力として加える提示信号300として、
男性の発生した母音波形を12kHz,12ビットでサ
ンプリングしたものを用い、さらに、提示信号300に
対して人間の視察により教師信号のピークを与えるエポ
ック点の位置310(以下、教師エポック点という)を
予め設定しておく。また、時間領域で離散的な信号波形
をs(m)とし、提示信号300を特にsa(m)とす
る。
る。本発明の処理は、神経回路網の学習処理とその学習
処理が終わった神経回路網による基本周波数の抽出処理
とに分かれる。まず、神経回路網の学習処理について図
1(a)及び図4を参照しつつ説明する。なお、図4は
学習処理における各信号の説明図である。神経回路網の
学習のために入力として加える提示信号300として、
男性の発生した母音波形を12kHz,12ビットでサ
ンプリングしたものを用い、さらに、提示信号300に
対して人間の視察により教師信号のピークを与えるエポ
ック点の位置310(以下、教師エポック点という)を
予め設定しておく。また、時間領域で離散的な信号波形
をs(m)とし、提示信号300を特にsa(m)とす
る。
【0011】 (1) 提示信号入力処理(ステップS100) 提示信号300を入力するための処理は次のようにして
行われる。まず、提示信号300を教師エポック点を中
心とした区間から取り出し、教師信号として0.9を定
める。この場合の提示信号300の時間区間330の長
さは神経回路網の入力層のセル数に等しいサンプル数と
し、本実施例では512点のサンプルを提示信号300
とする。この場合の提示信号300をs a0.9 (m) で表
す。但し、0≦m≦511とする。そして、神経回路網
の入力として、この提示信号s a0.9 (m) を次式(1
1)によってパワ正規化してオフセットを加え、入力層
の各セルの出力o1j (0) とする。なお、opj (q) はq番
目の層におけるp番目のパタンに対するj番目のセルの
出力を表し、ここでは、提示信号s a0.9 (m) を1番目
のパタンとし、入力層を0番目の層としている。Cは正
規化のための正定数である。
行われる。まず、提示信号300を教師エポック点を中
心とした区間から取り出し、教師信号として0.9を定
める。この場合の提示信号300の時間区間330の長
さは神経回路網の入力層のセル数に等しいサンプル数と
し、本実施例では512点のサンプルを提示信号300
とする。この場合の提示信号300をs a0.9 (m) で表
す。但し、0≦m≦511とする。そして、神経回路網
の入力として、この提示信号s a0.9 (m) を次式(1
1)によってパワ正規化してオフセットを加え、入力層
の各セルの出力o1j (0) とする。なお、opj (q) はq番
目の層におけるp番目のパタンに対するj番目のセルの
出力を表し、ここでは、提示信号s a0.9 (m) を1番目
のパタンとし、入力層を0番目の層としている。Cは正
規化のための正定数である。
【0012】
【数4】 (2) 神経回路網の順方向伝搬処理(ステップS11
0) 本実施例の神経回路網の構造は入力層を第0番目の層と
して、第1番目の層を中間層、第2番目の層を出力層と
する3層構造であり、第q番目の層の出力は次式(1
2)で計算する。
0) 本実施例の神経回路網の構造は入力層を第0番目の層と
して、第1番目の層を中間層、第2番目の層を出力層と
する3層構造であり、第q番目の層の出力は次式(1
2)で計算する。
【数5】 ここで、1≦q≦2である。式(12)中のopj (q) は
第q番目の層における第j番目のセルの出力であり、第
p番目のパタンを提示した場合のものである。Nq は、
第q番目の層におけるセルの数であり、wji (q) は第q
−1番目の層の第i番目のセルから第q番目の層の第j
番目のセルへの重み係数、vj (q) は第q番目の層の第
j番目のセルのバイアスである。本実施例ではN0 は5
12、N1 は64、N2 は1である。重み係数wji (q)
とバイアスvj (q) は学習前にはランダムな小さな値に
設定しておく。式(12)の計算をすべてのqに対して
計算し、第2番目の出力層のセルの出力op0 (2) を得
る。
第q番目の層における第j番目のセルの出力であり、第
p番目のパタンを提示した場合のものである。Nq は、
第q番目の層におけるセルの数であり、wji (q) は第q
−1番目の層の第i番目のセルから第q番目の層の第j
番目のセルへの重み係数、vj (q) は第q番目の層の第
j番目のセルのバイアスである。本実施例ではN0 は5
12、N1 は64、N2 は1である。重み係数wji (q)
とバイアスvj (q) は学習前にはランダムな小さな値に
設定しておく。式(12)の計算をすべてのqに対して
計算し、第2番目の出力層のセルの出力op0 (2) を得
る。
【0013】 (3) 神経回路網の出力誤差計算処理(ステップS1
20) q番目の層の第j番目のセルにおける第p番目の入力に
対する誤差をδpj (q) で表すと、第q番目の提示信号に
対する教師信号をtpjとして、出力層における誤差δp0
(2) を次式(13)で計算する。 δp0 (2) =(tp0 −op0 (2) )op0 (2) (1−op0 (2) )・・・(13) (4) 神経回路網の誤差逆伝搬学習処理(ステップS
130) 第q番目の層の各セルの誤差δpj (q) が計算済みのと
き、第(q−1)層の各セルの誤差δpj (q-1) を次式
(14)で計算しておく。
20) q番目の層の第j番目のセルにおける第p番目の入力に
対する誤差をδpj (q) で表すと、第q番目の提示信号に
対する教師信号をtpjとして、出力層における誤差δp0
(2) を次式(13)で計算する。 δp0 (2) =(tp0 −op0 (2) )op0 (2) (1−op0 (2) )・・・(13) (4) 神経回路網の誤差逆伝搬学習処理(ステップS
130) 第q番目の層の各セルの誤差δpj (q) が計算済みのと
き、第(q−1)層の各セルの誤差δpj (q-1) を次式
(14)で計算しておく。
【数6】 さらに誤差δpj (q) を用いて第(q−1)層から第q層
への重み係数wji (q)の修正量ΔpWji (q) を次式(1
5)で計算する。 ΔpWji (q) =ηδpj (q) opi (q-1) ・・・(15) また、第q層の第j番目のセルのバイアスv j (q) に対
する修正量ΔpWjv (q) も次式(16)で計算する。
への重み係数wji (q)の修正量ΔpWji (q) を次式(1
5)で計算する。 ΔpWji (q) =ηδpj (q) opi (q-1) ・・・(15) また、第q層の第j番目のセルのバイアスv j (q) に対
する修正量ΔpWjv (q) も次式(16)で計算する。
【0014】 ΔpWjv (q) =ηδpj (q) ・・・(16) ここで、ηは学習の速度を決定する定数である。これら
の計算を層の番号qを減じながら全ての出力層、中間層
について実行し、全ての重み係数wji (q) 及びバイアス
に対する修正量ΔpWji (q) 及びΔpv j (q) を求め
る。全ての修正量ΔpWji (q) 及びΔpv j (q) を計算
した後、この修正量を用いて全ての重み係数wji (q) 及
びバイアスv j (q) を次式(17)によって修正する。 Wji (q) =Wji (q) +ΔpWji (q) ・・・(17) 以上の処理をp=1として、提示信号s a0.9 (m) に対
して行う。この時、教師信号t10としては0.9を与え
る。
の計算を層の番号qを減じながら全ての出力層、中間層
について実行し、全ての重み係数wji (q) 及びバイアス
に対する修正量ΔpWji (q) 及びΔpv j (q) を求め
る。全ての修正量ΔpWji (q) 及びΔpv j (q) を計算
した後、この修正量を用いて全ての重み係数wji (q) 及
びバイアスv j (q) を次式(17)によって修正する。 Wji (q) =Wji (q) +ΔpWji (q) ・・・(17) 以上の処理をp=1として、提示信号s a0.9 (m) に対
して行う。この時、教師信号t10としては0.9を与え
る。
【0015】 (5) 学習終了判定処理(ステップS140) 学習処理の繰り返しによって重み係数wji (q) が最適な
値に近づくと、出力誤差δp0 (2) が0に近づく。出力誤
差δp0 (2) が十分に小さな値εよりも小さな値になった
かどうかを判定し、出力誤差δp0 (2) が大きければ学習
未終了であると判定し、処理ステップS100に戻る。
出力誤差δp0 (2) が小さければ、すべての学習処理を終
了する。次に、処理ステップS100に戻った場合に
は、提示信号として前述の教師エポック点を中心としな
い区間320をとる。区間320の中心の教師エポック
点からのずれはランダムとする。この場合の提示信号s
a0.1 (m) を次式(18)でパワ正規化してオフセット
を加え、入力層の各セルの出力o2j (0) とする。
値に近づくと、出力誤差δp0 (2) が0に近づく。出力誤
差δp0 (2) が十分に小さな値εよりも小さな値になった
かどうかを判定し、出力誤差δp0 (2) が大きければ学習
未終了であると判定し、処理ステップS100に戻る。
出力誤差δp0 (2) が小さければ、すべての学習処理を終
了する。次に、処理ステップS100に戻った場合に
は、提示信号として前述の教師エポック点を中心としな
い区間320をとる。区間320の中心の教師エポック
点からのずれはランダムとする。この場合の提示信号s
a0.1 (m) を次式(18)でパワ正規化してオフセット
を加え、入力層の各セルの出力o2j (0) とする。
【数7】 このときの教師信号t20は0.1とし、処理ステップS
110以降は前述と同様の処理を行う。以上の学習処理
を繰返し行うことにより、最終的に最適な重み係数が得
られる。
110以降は前述と同様の処理を行う。以上の学習処理
を繰返し行うことにより、最終的に最適な重み係数が得
られる。
【0016】次に、学習後の神経回路網を用いた基本周
波数抽出処理について、図1(b)及び図5を参照しつ
つ説明する。なお、図5は基本周波数抽出処理における
各信号の説明図であり、符号400は基本周波数抽出の
対象となる入力信号、符号420は神経回路網に入力す
るある1つの入力信号の区間、符号421は区間420
に対する神経回路網の出力、符号430は神経回路網に
入力する次の1つの入力信号の区間、符号431は区間
430に対する神経回路網の出力、符号440は基本周
波数抽出処理によって得られる神経回路網の出力系列、
及び符号450は出力系列から抽出されたエポック点を
示す。
波数抽出処理について、図1(b)及び図5を参照しつ
つ説明する。なお、図5は基本周波数抽出処理における
各信号の説明図であり、符号400は基本周波数抽出の
対象となる入力信号、符号420は神経回路網に入力す
るある1つの入力信号の区間、符号421は区間420
に対する神経回路網の出力、符号430は神経回路網に
入力する次の1つの入力信号の区間、符号431は区間
430に対する神経回路網の出力、符号440は基本周
波数抽出処理によって得られる神経回路網の出力系列、
及び符号450は出力系列から抽出されたエポック点を
示す。
【0017】 (A)神経回路網の信号入力処理(ステップS150) 時間領域で離散的な基本周波数が未知の入力信号をx
(m)とし、本実施例では学習処理に用いた提示信号と
は別の話者の母音音声を入力信号として用いることにす
る。ここで、現在着目している時刻uを中心とした時間
区間における入力信号をxu (m) とする。この入力信号
を神経回路網の入力として次式(19)によってパワ正
規化してオフセットを加え、入力層の各セルの出力ouj
(0) とする。ここで、ouj (q) はq番目の層における時
刻uを中心とした入力信号に対するj番目のセルの出力
を示し、Cは正規化のための正定数である。
(m)とし、本実施例では学習処理に用いた提示信号と
は別の話者の母音音声を入力信号として用いることにす
る。ここで、現在着目している時刻uを中心とした時間
区間における入力信号をxu (m) とする。この入力信号
を神経回路網の入力として次式(19)によってパワ正
規化してオフセットを加え、入力層の各セルの出力ouj
(0) とする。ここで、ouj (q) はq番目の層における時
刻uを中心とした入力信号に対するj番目のセルの出力
を示し、Cは正規化のための正定数である。
【数8】
【0018】 (B)神経回路網の順方向伝搬処理(ステップS16
0) この順方向伝搬処理は、式(12)におけるpをuに置
き換えて計算することにより、学習処理における順方向
伝搬処理と同様に行う。この処理によって出力層のセル
からは出力ou0 (2) が得られる。さらに、入力信号を時
刻u+1を中心とする時間区間からとり、同様な処理を
行う。この様な処理を繰返し、時刻uに対する出力ou0
(2) の系列を得る。この出力系列の一例を図5の符号4
40として示す。入力信号を取り出した時間区間の中心
と入力信号のエポック点とが一致すると、出力系列には
ピークが生ずる。このピークを検出し、ピーク間の間隔
を測定することによって入力信号の基本周波数を求める
ことができる。
0) この順方向伝搬処理は、式(12)におけるpをuに置
き換えて計算することにより、学習処理における順方向
伝搬処理と同様に行う。この処理によって出力層のセル
からは出力ou0 (2) が得られる。さらに、入力信号を時
刻u+1を中心とする時間区間からとり、同様な処理を
行う。この様な処理を繰返し、時刻uに対する出力ou0
(2) の系列を得る。この出力系列の一例を図5の符号4
40として示す。入力信号を取り出した時間区間の中心
と入力信号のエポック点とが一致すると、出力系列には
ピークが生ずる。このピークを検出し、ピーク間の間隔
を測定することによって入力信号の基本周波数を求める
ことができる。
【0019】 (C)神経回路網の出力ピーク検出処理(ステップS1
70) 出力系列に対するピーク検出処理は、出力が次式(2
0)の条件を満たす離散的な時刻vdをエポック点の時
刻として検出する。
70) 出力系列に対するピーク検出処理は、出力が次式(2
0)の条件を満たす離散的な時刻vdをエポック点の時
刻として検出する。
【数9】 ここで、Pはピークを検出するための閾値であり、本実
施例では定数0.5を用いる。dは検出したピークに付
与する番号である。 (D)基本周波数算出処理(ステップS180) 検出したエポック点の時刻vd の間隔とサンプリング周
波数fsから、d番目のピッチにおける基本周波数fd
を次式(21)により計算する。 fd=fs/(vd −vd-1 ) ・・・(21) 本実施例は、信号波形のエポック点を自動的に検出する
神経回路網を学習処理によって構成し、非線形処理によ
ってエポック点の時刻を強調して出力するので、従来の
線形予測法による残差信号を用いた基本周波数抽出方法
に比べて以下のような利点がある。
施例では定数0.5を用いる。dは検出したピークに付
与する番号である。 (D)基本周波数算出処理(ステップS180) 検出したエポック点の時刻vd の間隔とサンプリング周
波数fsから、d番目のピッチにおける基本周波数fd
を次式(21)により計算する。 fd=fs/(vd −vd-1 ) ・・・(21) 本実施例は、信号波形のエポック点を自動的に検出する
神経回路網を学習処理によって構成し、非線形処理によ
ってエポック点の時刻を強調して出力するので、従来の
線形予測法による残差信号を用いた基本周波数抽出方法
に比べて以下のような利点がある。
【0020】 (1) 神経回路網の出力セルから得られる出力ou0
(2) は、その値が0.0から1.0までの間であり、閾
値Pは厳密な設定が不要である。 (2) 神経回路網の出力セルから得られる出力ou0
(2) は、単純なパルス列となっており、ピーク位置の検
出が容易であり、正確な基本周波数が検出しやすい。以
上の利点を明確に示すために、実際のデータによって得
られた各信号の例を図6(a),(b),(c)に示
す。同図(a)は男性が発生した「ア」の一部である入
力信号s(m)の波形図、同図(b)は線形予測分析に
よって得られた予測残差信号e(n)の波形図、及び同
図(c)は神経回路網によって得られた出力系列ou0
(2) の波形図である。なお、図中の縦線は人間の視察に
よって得られたエポック点の時刻であり、離散的な時刻
m,n,uの位置が互いに同一の時刻の部分を示してい
る。
(2) は、その値が0.0から1.0までの間であり、閾
値Pは厳密な設定が不要である。 (2) 神経回路網の出力セルから得られる出力ou0
(2) は、単純なパルス列となっており、ピーク位置の検
出が容易であり、正確な基本周波数が検出しやすい。以
上の利点を明確に示すために、実際のデータによって得
られた各信号の例を図6(a),(b),(c)に示
す。同図(a)は男性が発生した「ア」の一部である入
力信号s(m)の波形図、同図(b)は線形予測分析に
よって得られた予測残差信号e(n)の波形図、及び同
図(c)は神経回路網によって得られた出力系列ou0
(2) の波形図である。なお、図中の縦線は人間の視察に
よって得られたエポック点の時刻であり、離散的な時刻
m,n,uの位置が互いに同一の時刻の部分を示してい
る。
【0021】図6(b)で明らかなように、線形予測分
析による残差信号波形e(n)は複雑であり、この信号
波形からエポック点を正確に抽出して基本周波数を計算
することは難しい。一方、神経回路網による出力系列o
u0 (2) は、学習処理によって生成された最適な非線形処
理により単純なインパルス列の形状を示し、この出力系
列からエポック点を正確に抽出して基本周波数を計算す
ることは容易である。なお、本発明は、図示の実施例に
限定されず、種々の変形が可能である。例えば、図4の
提示信号300としては実施例に用いた以外の他の母音
波形などの任意の周期性信号を与え、音響信号、画像信
号等の一般的な信号波形に対してエポック点が検出でき
る神経回路網を構成することも可能である。
析による残差信号波形e(n)は複雑であり、この信号
波形からエポック点を正確に抽出して基本周波数を計算
することは難しい。一方、神経回路網による出力系列o
u0 (2) は、学習処理によって生成された最適な非線形処
理により単純なインパルス列の形状を示し、この出力系
列からエポック点を正確に抽出して基本周波数を計算す
ることは容易である。なお、本発明は、図示の実施例に
限定されず、種々の変形が可能である。例えば、図4の
提示信号300としては実施例に用いた以外の他の母音
波形などの任意の周期性信号を与え、音響信号、画像信
号等の一般的な信号波形に対してエポック点が検出でき
る神経回路網を構成することも可能である。
【0022】
【発明の効果】以上詳細に説明したように、本発明によ
れば、信号波形のエポック点を自動的に検出する神経回
路網を学習処理によって構成し、その神経回路網に所定
の時間区間にわたって正規化された入力信号波形を入力
する。さらに、入力信号波形の時刻を移動させて得られ
る前記神経回路網の出力系列波形のピークをエポック点
として検出し、検出された各エポック点の時間間隔から
前記入力信号波形の基本周波数を算出するようにした。
そのため、基本周波数に相当するエポック点の時刻を正
確に検出でき、正確な基本周波数を抽出することが可能
となる。また、提示信号波形及び入力信号波形を電力に
よって正規化すれば、正規化処理が簡単かつ的確に行え
る。
れば、信号波形のエポック点を自動的に検出する神経回
路網を学習処理によって構成し、その神経回路網に所定
の時間区間にわたって正規化された入力信号波形を入力
する。さらに、入力信号波形の時刻を移動させて得られ
る前記神経回路網の出力系列波形のピークをエポック点
として検出し、検出された各エポック点の時間間隔から
前記入力信号波形の基本周波数を算出するようにした。
そのため、基本周波数に相当するエポック点の時刻を正
確に検出でき、正確な基本周波数を抽出することが可能
となる。また、提示信号波形及び入力信号波形を電力に
よって正規化すれば、正規化処理が簡単かつ的確に行え
る。
【図1】本発明の実施例を示す基本周波数抽出方法のフ
ローチャートであり、同図(a)は学習処理のフローチ
ャート及び同図(b)は基本周波数抽出処理のフローチ
ャートである。
ローチャートであり、同図(a)は学習処理のフローチ
ャート及び同図(b)は基本周波数抽出処理のフローチ
ャートである。
【図2】図2は従来の基本周波数抽出方法のフローチャ
ートである。
ートである。
【図3】本発明の実施例の基本周波数抽出方法を実施す
るための基本周波数抽出装置の概略の構成図である。
るための基本周波数抽出装置の概略の構成図である。
【図4】本発明の実施例の学習処理における各信号の説
明図である。
明図である。
【図5】本発明の実施例の基本周波数抽出処理における
各信号の説明図である。
各信号の説明図である。
【図6】本発明の効果を示す図であり、同図(a)は入
力信号の波形図、同図(b)は従来の線形予測分析によ
る波形図、及び同図(c)は神経回路網による出力系列
の波形図である。
力信号の波形図、同図(b)は従来の線形予測分析によ
る波形図、及び同図(c)は神経回路網による出力系列
の波形図である。
51 信号波形 52 セル 53 通信回路 54,440 出力系列 300 提示信号 310,450 エポック点 320,330,420,430 時間区間 400 入力信号
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−238697(JP,A) 特開 平1−243169(JP,A) 特開 平2−5098(JP,A) 加藤誠巳他,”ニューラルネットを用 いたピッチ抽出の一手法”,情報処理学 会第40回(平成2年前期)全国大会講演 論文集,pp.150−151 (58)調査した分野(Int.Cl.7,DB名) G10L 11/04,15/16 G06F 15/18
Claims (2)
- 【請求項1】 所定の時間区間にわたって正規化された
学習用の提示信号波形を入力し、誤差逆伝搬法により前
記時間区間の所定の位置と前記提示信号波形のエポック
点との一致時のみに出力波形がピークとなるように学習
処理が施された神経回路網を用い、 所定の時間区間にわたって正規化された入力信号波形を
前記神経回路網に入力し、非線形処理により、 前記入力信号波形の時刻を移動させ
て得られる前記神経回路網の出力系列波形のピークを前
記エポック点として複数、検出し、前記 検出された各エポック点の時間間隔から前記入力信
号波形の基本周波数を算出することを特徴とする基本周
波数抽出方法。 - 【請求項2】 請求項1記載の基本周波数抽出方法にお
いて、 前記提示信号波形及び前記入力信号波形は、電力によっ
て正規化した基本周波数抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00321991A JP3288052B2 (ja) | 1991-01-16 | 1991-01-16 | 基本周波数抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00321991A JP3288052B2 (ja) | 1991-01-16 | 1991-01-16 | 基本周波数抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04241400A JPH04241400A (ja) | 1992-08-28 |
JP3288052B2 true JP3288052B2 (ja) | 2002-06-04 |
Family
ID=11551331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP00321991A Expired - Fee Related JP3288052B2 (ja) | 1991-01-16 | 1991-01-16 | 基本周波数抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3288052B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025911B (zh) * | 2016-01-29 | 2019-03-12 | 重庆工商职业学院 | 基于粒子群优化的基音频率检测方法 |
-
1991
- 1991-01-16 JP JP00321991A patent/JP3288052B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
加藤誠巳他,"ニューラルネットを用いたピッチ抽出の一手法",情報処理学会第40回(平成2年前期)全国大会講演論文集,pp.150−151 |
Also Published As
Publication number | Publication date |
---|---|
JPH04241400A (ja) | 1992-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR0134158B1 (ko) | 음성인식장치 | |
Dubnowski et al. | Real-time digital hardware pitch detector | |
JPS58134698A (ja) | 音声認識方法および装置 | |
US20050091045A1 (en) | Pitch detection method and apparatus | |
CN110599987A (zh) | 基于卷积神经网络的钢琴音符识别算法 | |
CN109346087B (zh) | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 | |
CN101751921A (zh) | 一种在训练数据量极少条件下的实时语音转换方法 | |
JPH0736475A (ja) | 音声分析における基準パターン形成方法 | |
US7626110B2 (en) | Energy-based audio pattern recognition | |
US7563971B2 (en) | Energy-based audio pattern recognition with weighting of energy matches | |
Aibinu et al. | Artificial neural network based autoregressive modeling technique with application in voice activity detection | |
US20110178615A1 (en) | Method for calculating measures of similarity between time signals | |
CN112820279A (zh) | 基于语音上下文动态特征的帕金森病检测方法 | |
CN115047290A (zh) | 基于深度学习的电缆故障放电声音的检测方法 | |
CN101030374B (zh) | 基音周期提取方法及装置 | |
JPS592040B2 (ja) | 音声認織装置 | |
JPS5857758B2 (ja) | 音声ピッチ周期抽出装置 | |
Djeffal et al. | Noise-robust speech recognition: A comparative analysis of LSTM and CNN approaches | |
JP3288052B2 (ja) | 基本周波数抽出方法 | |
Harere et al. | Mispronunciation detection of basic quranic recitation rules using deep learning | |
Schramm et al. | Automatic Solfège Assessment. | |
US6275799B1 (en) | Reference pattern learning system | |
CN112786068A (zh) | 一种音频音源分离方法、装置及存储介质 | |
Krishnendu | Classification Of Carnatic Music Ragas Using RNN Deep Learning Models | |
JPH05188986A (ja) | 有声音無声音判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020305 |
|
LAPS | Cancellation because of no payment of annual fees |