JP3219868B2 - 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置 - Google Patents

音声のピッチ周期抽出装置およびピッチ区間自動抽出装置

Info

Publication number
JP3219868B2
JP3219868B2 JP30869292A JP30869292A JP3219868B2 JP 3219868 B2 JP3219868 B2 JP 3219868B2 JP 30869292 A JP30869292 A JP 30869292A JP 30869292 A JP30869292 A JP 30869292A JP 3219868 B2 JP3219868 B2 JP 3219868B2
Authority
JP
Japan
Prior art keywords
pitch
waveform
section
period
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP30869292A
Other languages
English (en)
Other versions
JPH06161494A (ja
Inventor
徹 都木
信正 清山
栄一 宮坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP30869292A priority Critical patent/JP3219868B2/ja
Publication of JPH06161494A publication Critical patent/JPH06161494A/ja
Application granted granted Critical
Publication of JP3219868B2 publication Critical patent/JP3219868B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声のピッチ周波数やピ
ッチ周期を対象とした分析装置や音声処理装置あるいは
音声合成装置等で使用される音声のピッチ周期抽出装置
およびピッチ区間自動抽出装置に関する。
【0002】[発明の概要]この発明は人の声を一時記
録し、1ピッチ毎にそのピッチ周期を抽出し、その周期
毎に音声波形を区切る技術に関するもので、入力音声を
A/D変換した後、有声区間を抽出し、その中のパワー
の大きい部分について複数の異なる窓幅で自己相関関数
を求め、各自己相関関数のピーク値の中から最適と思わ
れる時間遅れに存在するものを選択して、その時間遅れ
を仮のピッチ周期とし、この仮のピッチ周期を目安にし
つつ、有声区間全体について各フレーム毎にピッチ周期
の候補を複数求め、全体として連続性やパワーの変化を
考慮してその候補から一つを採用し、ピッチ周波数の時
間軌跡を形成し、かつそれを平滑化し、このピッチ周波
数軌跡より若干高いカットオフ周波数を用いて各フレー
ム毎に入力波形に低域ろ波を施し、有声区間全体として
連続な正弦波状の波形を得、この波形とパワーの変化を
基に1ピッチ毎のピッチ周期のスケールを構成した後、
有声区間の途中の最適な位置から時間的に前後に、1ピ
ッチ周期内の波形の短時間パワーが急激に上昇する直前
の零交差がピッチ区間の開始点となるように、ピッチ周
期のスケールに合わせて最適なピッチ開始点を求めてい
くことにより、入力音声の発声者の年齢や男女の違いに
関係なく正確にピッチ周期を抽出し、1ピッチ区間を単
位とした波形処理に適する位置で、入力波形の各ピッチ
区間を自動的に区切るようにする方法である。
【0003】
【従来の技術】人の声の科学的な分析を行なう装置や音
声の補聴機能を有する装置、文字列を音声に変換する装
置等を構成する場合、あるいは放送、映画、音楽産業等
において、声を処理する場合、音声処理装置によって人
の声質の一つの特徴である声の高さの時間変化パターン
を視覚的に表示したり、音声合成技術と組み合わせて、
声の高さや抑揚、発声速度を変化させたりビブラートを
付加したりするなどを行なうとき、各種の音声処理方法
を使用して必要な音声処理を行なう。
【0004】そして、このような音声処理方法におい
て、音声をピッチ区間毎に区切る際の事前の処理として
必要なピッチ周期抽出方法として、従来よりさまざまな
もの、例えば波形処理方式や相関処理方式、スペクトル
処理方式などの各種方式が提案されている。
【0005】波形処理方式は入力波形そのもの、または
これを低域ろ波した上で周期的なピークまたは零交差を
検出する方式であり、処理手順が簡便であるとともに、
アナログおよびディジタルの両処理で実現できるという
特徴を持っている。
【0006】しかしながら、この波形処理方式では、語
頭や語尾、有声子音部など、波形のレベルやスペクトル
が大きく変化する部分において抽出誤りを起こし易く、
また発声者の個人差も抽出精度に大きく影響するという
欠点がある。
【0007】また、相関処理方式は入力波形から適当な
窓幅で切り出した波形、またはこれを線形予測分析して
得られる残差信号波形の自己相関関数を求めたとき、ピ
ッチ周期に相当する時間遅れの位置に大きなピーク値が
得られる性質を利用する方式であり、最近のディジタル
信号処理において最も広く用いられている。
【0008】そして、この相関処理方式を改善した方式
として、自己相関関数を求める前に入力波形や残差信号
波形に低域ろ波を施すと抽出精度が向上することを利用
する方式も開発されている。
【0009】しかしながら、これらの各相関処理方式で
は、上述した波形処理方式に比べて、波形の乱れや個人
差による抽出精度の低下は少ないものの、入力波形を切
り出す窓幅の設定が最適でないと、半分や2倍の周期を
誤って抽出してしまうという欠点がある。
【0010】また、スペクトル処理方式は入力波形から
適当な窓幅で切り出した波形の離散的フーリエ変換を行
なったとき、パワースペクトル上で、ピッチ周波数の整
数倍の位置毎に高調波成分が現れる性質を利用する方式
であり、音声信号をデジタル処理するとき、良く使用さ
れる。
【0011】しかしながら、このスペクトル処理方式で
は、上述した相関処理方式と同様に入力波形を切り出す
窓幅の設定が最適でないと抽出誤りが多くなるという欠
点がある。
【0012】このため、従来法のほとんどは、これら波
形処理方式や相関処理方式、スペクトル処理方式をその
まま用いたり、変形して単独で用いたり、相互の欠点を
補う形で組み合わせて用いたりしている。
【0013】しかし、いずれの方法においても、万人の
音声のピッチ周期を完全に正確に抽出できるものではな
いため、任意の話者の音声波形を1ピッチ区間毎に正確
に区切るためには、上記の何らかの方式で予めピッチ周
期を推定した後、波形の視察等の人手による修正を行な
うことが必要である。
【0014】つまり、ピッチ周期の抽出から波形を1ピ
ッチ区間毎に区切るまでの一連の処理を、正確にかつ自
動的に行なう方法は、未だ実用化されていない。
【0015】
【発明が解決しようとする課題】ところで、老若男女す
べてを対象とした音声のピッチ周波数は、低いものでは
40Hz程度、高いものでは800Hz程度まで変化す
る上、同一話者でも短時間のうちに2オクターブ近く変
化することがある。また、語頭や語尾では完全な周期性
を持たないこともあり、任意の音声のピッチ周期を正確
に抽出することは、音声処理技術上の難題とされてき
た。
【0016】従来の技術においては、対象とする音声の
老若男女の別毎に、ピッチ周波数の存在範囲を予め設定
して、ピッチ周期抽出アルゴリズムで使用する各種パラ
メータを最適に調整してから分析を行なうことが一般的
で、例えば相関処理方式やスペクトル処理方式の波形切
り出し窓幅がこれにあたる。また、語頭や語尾の周期性
の乱れた部分の処理方法も、正確さを期するためには、
話者によって微妙にパラメータ値を変更することが必要
とされていた。
【0017】また、通常の発声では、/r/や/d/な
どの有声子音部分において、前後の母音よりも若干ピッ
チ周期が長くなる傾向がある。
【0018】相関処理方式やスペクトル処理方式では、
分析窓幅の中に含まれる複数のピッチ区間の平均的なピ
ッチ周期が抽出されるが、有声子音の持続時間は分析窓
幅より短いことが多く、この場合には、前後の母音部の
影響を受けて有声子音部の正しいピッチ周期を求めるこ
とができない。
【0019】さらに、このようなピッチ周期の抽出を行
なうとき、従来のピッチ抽出方式の範囲内では、任意の
入力音声のピッチ周期を正しく抽出しようとすれば、い
ずれの方式を使用しても、分析前かまたは分析後に人手
による調整または修正が必要であり、自動化を計る上で
の障害となっていた。
【0020】また、ピッチ周期や話速の変換などを目的
とした加工を波形上で行なう場合、その最適な単位は1
ピッチ区間毎の波形であるが、上述のような理由から各
ピッチ区間を正確かつ自動的に分割する方法が確立され
ていないため、このような加工を自動的に行なう装置で
は、従来、ピッチ単位とは直接関係のない、一定の窓幅
のフレーム単位で波形の伸縮や繰り返し、間引きといっ
た操作を行なわなければならず、その結果得られた変換
音声は、フレーム単位操作特有のエコー感などの音質劣
化が避けられなかった。
【0021】本発明は上記の事情に鑑み、任意の音声波
形に対し、波形各部のピッチ周期の抽出に始まり、波形
の1ピッチ区間毎の開始点を求めるまでの一連の処理
を、正確にかつ自動的に行なうことができ、これによっ
て音声のピッチ周波数の正確な分析を可能にするととも
に、ピッチ周期や話速の変換など、本来1ピッチ単位の
波形処理が適している音声変換装置や音声合成装置の処
理品質を向上させることができる音声のピッチ周期抽出
装置およびピッチ区間自動抽出装置を提供することを目
的としている。
【0022】
【課題を解決するための手段】上記の目的を達成するた
めに、請求項1では、取り込んだ入力音声波形から、複
数の異なる分析窓幅により自己相関関数R(τ)を求
め、それぞれの自己相関関数について、τ>0における
最大値をR(τ)max として、V=R(τ)max/R(0)
とその時の時間遅れτの値を求めていき、Vの大きさ
とτの値のばらつきを考慮して、最も信頼できるτの値
を当該有音声のピッチ周期τpとすることを特徴として
いる。請求項2では、入力音声波形を取り込むととも
に、そのうちの有声音区間の適当な部分で請求項1に記
載のピッチ周期抽出を行なうピッチ周期の予備抽出手段
と、予備抽出された結果に基づいて、有声音区間全体の
各部分ごとに複数のピッチ候補を求めていき、どの候補
が最も適しているか判定する判定手段と、この判定手段
によって得られたピッチ周期に基づいて各ピッチ区間の
開始点を決定して前記入力音声波形を各ピッチ区間毎に
区切って出力する開始点決定手段と、を備え、前記判定
手段は、当該有声音区間の開始点より、数ミリ秒毎に適
当な窓幅の分析フレームで、ピッチ周期τpを参考にし
ながら、フレーム内の平均ピッチ周期抽出のための分析
を行ってその候補を複数求め、全体として連続性やパワ
ーの変化を考慮しながら、各フレームの候補のうちどれ
かを採用して、ピッチ周波数(ピッチ周期の逆数)の時
間軌跡を決定し、当該ピッチ周波数時間軌跡を平滑化し
た後、入力波形に含まれる周波数成分のうち、時々刻々
当該ピッチ周波数時間軌跡以下の周波数成分を残すこと
を目的にカットオフ周波数を適応的に変化させる低域ろ
波を施し、当該有声音区間全体として連続な正弦波状の
波形を得、この波形の開始点からパワーの変化を考慮し
ながら逐次その周期を測定して1ピッチ毎のピッチ周期
のスケールを構成し、前記開始点決定手段は、1ピッチ
毎のピッチ周期のスケールを取り込み、当該有声音区間
の中央部の波形の正負のピーク値や1ms前後の短区間
パワーを基に、最も確実に決定できる部分から、時間的
に前後に、1ピッチ周期内の波形の短時間のパワーが急
激に上昇する直前の零交差がピッチ区間の開始点となる
ように、前記ピッチ周期のスケールに合わせて最適なピ
ッチ開始点を求めていくことを特徴としている。
【0023】
【作用】上記の構成によって、請求項1では、取り込ん
だ入力音声波形から、複数の異なる分析窓幅により自己
相関関数R(τ)を求め、それぞれの自己相関関数につ
いて、τ>0における最大値をR(τ)max として、V
=R(τ)max /R(0)とその時の時間遅れτの値を求
めていき、Vの大きさとτの値のばらつきを考慮して、
最も信頼できるτの値を当該有音声のピッチ周期τpと
することにより、音声のピッチ周期の抽出を正確にかつ
自動的に行ない、これによって音声のピッチ周波数の正
確な分析を可能にするとともに、ピッチ周期や話速の変
換など、本来1ピッチ単位の波形処理が適している音声
変換装置や音声合成装置の処理品質を向上させる。請求
項2では、入力音声波形を取り込むとともに、そのうち
の有声音区間の適当な部分でピッチ周期の予備抽出を行
ない、その結果に基づいて、有声音区間全体の各部分ご
とに複数のピッチ候補を求めていき、どの候補が最も適
しているか判定し、この判定処理によって得られたピッ
チ周期に基づいて各ピッチ区間の開始点を決定すること
により、任意の音声波形に対し、波形各部のピッチ周期
の予備抽出に始まり、波形の各ピッチ区間の開始点を抽
出するまでの一連の処理を、正確にかつ自動的に行な
い、これによって音声のピッチ周波数の正確な分析を可
能にするとともに、ピッチ周期や話速の変換など、本来
1ピッチ単位の波形処理が適している音声変換装置や音
声合成装置の処理品質を向上させる。
【0024】
【実施例】以下、図面を参照しながら、本発明による音
声のピッチ周期抽出装置およびピッチ区間自動抽出装置
の実施例を詳細に説明する。
【0025】図1は本発明による音声のピッチ周期抽出
装置およびピッチ区間自動抽出装置の一実施例を適用し
た音声処理システムの一例を示すブロック図である。
【0026】この図に示す音声処理システムは、有声・
無声・無音の判定部2と、ピッチ周期の予備抽出部4
と、1ピッチ毎の周期の抽出部6と、各ピッチ区間の開
始点の決定部8とを備えており、A/D変換されて標本
化された音声波形を取り込むとともに、そのうちの有声
音区間の適当な部分でピッチ周期の予備抽出を行ない、
その結果に基づいて、有声音区間全体の各部分ごとに複
数のピッチ候補を求めていき、どの候補が最も適してい
るか判定し、この判定処理によって得られたピッチ周期
に基づいて各ピッチ区間の開始点を決定して音声波形を
各ピッチ区間毎に区切って出力する。
【0027】有声・無声・無音の判定部2は、電子計算
機内に構築され、ROM、RAMあるいはディスクメモ
リ等のメモリを併用しながら、音声波形の有声、無声、
無音の判定処理を行なう部分であり、A/D変換されて
標本化された音声波形を取り込むとともに、この音声波
形に対して有声、無音の判別を行なった後、有音部分に
ついて有声、無声の判別を実行し、この処理結果をピッ
チ周期の予備抽出部4に供給する。
【0028】ピッチ周期の予備抽出部4は、電子計算機
内に構築され、ROM、RAMあるいはディスクメモリ
等のメモリを併用しながら、ピッチ周期の予備抽出を行
なう部分であり、前記有声・無声・無音の判定部2から
出力される有声、無声、無音の判定結果を取り込むとと
もに、1つの有声音区間中の適当な部分について、複数
の異なる分析窓幅で自己相関関数を求めて予備的なピッ
チ周期の抽出を行ない、この処理によって得られたピッ
チ候補(予備的なピッチ周期)を1ピッチ毎の周期の抽
出部6に供給する。
【0029】1ピッチ毎の周期の抽出部6は、電子計算
機内に構築され、ROM、RAMあるいはディスクメモ
リ等のメモリを併用しながら、1ピッチ毎の周期の抽出
を行なってスケールを構成する部分であり、ピッチ周期
の予備抽出部4から出力される予備的なピッチ周期を取
り込むとともに、この予備的なピッチ周期に基づいて有
声音区間全体に渡り、自己相関分析によりピッチ周波数
軌跡を求めた後、入力波形に対して、時々刻々このピッ
チ周波数軌跡以下の周波数成分のみを残す目的で、カッ
トオフ周波数を適応的に変化させる低域ろ波を行なうと
ともに、ろ波波形のピークを検出して1ピッチごとの周
期を求め、この周期に基づいてピッチ周期のスケールを
求めてこれを各ピッチ区間の開始点の決定部8に供給す
る。
【0030】各ピッチ区間の開始点の決定部8は、電子
計算機内に構築され、ROM、RAMあるいはディスク
メモリ等のメモリを併用しながら、各ピッチ区間の開始
点を決定してピッチ区間毎に区切られた音声波形を生成
する部分であり、1ピッチ毎の周期の抽出部6から出力
されるスケールを取り込むとともに、1ピッチ周期内の
波形の短時間パワーが急激に上昇する直前の零交差がピ
ッチ区間の開始点となるように、前記ピッチ周期のスケ
ールに合わせて最適なピッチ開始点を求めて、ピッチ区
間毎に音声波形を区切り、これを出力する。
【0031】そして、これら有声・無声・無音の判定部
2〜各ピッチ区間の開始点の決定部8は、以上の一連の
処理により、1つの有声音区間について、ピッチ区間毎
に開始点を算出し、ピッチ区間毎に区切られた音声波形
を算出し、次の有声音区間の処理に移る。
【0032】次に、図2に示すフローチャートを参照し
ながら、この実施例の動作を説明する。
【0033】<有声・無声・無音の判定部2の動作>ま
ず、量子化ビット数16bit、標本化周波数15kH
zでA/D変換された音声波形が入力される毎に、有声
・無声・無音の判定部2はこれを取り込んで、フレーム
の幅6.66ms、フレームのシフト幅3.33msで
入力音声全体について、パワーと零交差数を逐次、算出
するとともに(ステップST1)、各フレーム毎に、パ
ワーPと零交差数Zについてしきい値を設定して、有
声、無声、無音を判定する(ステップST2)。
【0034】この場合、有声、無声、無音の判定基準と
しては、例えば以下のような優先順位で有声、無声、無
音を判定する。
【0035】まず、パワーPがしきい値Pmin より小さ
いかどうかをチェックし、小さいときには、無音と判定
し、この条件が満たされていないときには、パワーPが
しきい値Pmax より大きいかどうかをチェックし、大き
いときには、有声と判定する。
【0036】そして、この条件が満たされなていないと
きには、零交差数Zがしきい値Zmax より大きいかどう
かをチェックし、大きいときには、無声と判定し、この
条件が満たされていないときには、零交差数Zがしきい
値Zmin より小さいかどうかをチェックし、小さいとき
には、有声と判定する。
【0037】また、これらパワーPに対するしきい値P
min 、Pmax および零交差数Zに対するしきい値Zmax
、Zmin によって無音、有声、無声の判定を行なうこ
とができないときには、当該フレームの中央を中心に、
30msの幅のハミング窓を設定して、入力波形を切り
出した後、自己相関関数R(τ)を求め、τ>0におけ
る最大値をR(τ)max として、有声度V=R(τ)ma
x /R(0) の値がしきい値Vmax より大きいときは有声
と判定する。
【0038】この場合、この処理で使用されるR(τ)
はfs を標準化周波数、変数Kを0以上の整数として、
τ=K/fs となる離散的な点でのみ定義され、30m
sの窓幅に相当する標本点数をNとし、切り出された波
形をx(1) 〜x(N) とし、さらにn<0のとき、x(n)
=0とすると、
【数1】 となる。
【0039】そして、この判定処理において、有声度V
=R(τ)max /R(0) の値がしきい値Vmax より以下
であると判定されたときには、パワーPがしきい値Pmi
n2(但し、Pmin <Pmin2<Pmax )より小さいかどう
かをチェックし、小さいときには、無音と判定し、前記
パワーPがしきい値Pmin2以上であるときには、無声と
判定する。
【0040】次いで、有声・無声・無音の判定部2は、
上述した有声、無声、無音の判定処理において有声と判
定されたフレームが6フレーム以上、時間に換算して2
3.3ms以上連続している部分を検出し、これを1有
声区間と判定し、この判定結果をピッチ周期の予備抽出
部4に供給する(ステップST3)。
【0041】<ピッチ周期の予備抽出部4の動作>ピッ
チ周期の予備抽出部4は、前記有声・無声・無音の判定
部2のステップST3で決定された1つの有声音区間に
ついて、その開始点より時間的に後方に向いた133m
s以内で、パワーPが前記しきい値Pmin より20dB
以上大きくなり始める点があるかどうかをチェックし、
この条件を満たす点があれば、この点を点Tpとし、ま
たこのような条件を満たす点がなければ、前記しきい値
Pmin より10dB以上大きくなり始める点があるかど
うかをチェックし、この条件を満たす点があれば、この
点を点Tpとする(ステップST4)。
【0042】また、上述した点Tpの検出処理において
(ステップST4)、上述した各条件を満たす点がなけ
れば、ピッチ周期の予備抽出部4はピッチ周期の予備抽
出を中止し、開始点から有声音区間長の3分の1の点を
仮の点Tpとするとともに、仮のピッチ周期τpを10
msとして、これを1ピッチ毎の周期の抽出部6に供給
し、以下に述べる低域ろ波処理、ダウンサンプリング処
理、自己相関関数の算出処理、予備的なピッチ周期τp
の決定処理をスキップする。
【0043】この後、ピッチ周期の予備抽出部4は、上
述した点Tpの検出処理によって得られた点Tpを開始
点として、40msの長さに渡り、ピッチ周期抽出に対
する1000Hzより高い周波数成分の影響を除くとと
もに、以後の処理の演算量を低減するための処理、すな
わち予め設定されている条件のLPF、例えば31次の
FIR型フィルタ(Finite Impulse Response Filter)
を用いて1000Hz程度のカットオフ周波数で低域ろ
波を行ない、さらにこの処理によって得られたろ波波形
に対し、5ポイントに1ポイントだけ残すダウンサンプ
リングを施す(ステップST5)。
【0044】次いで、ピッチ周期の予備抽出部4は1
3.3msから40msまで変化する9種の異なる幅W
n =13.3+(n−1)×3.33[ms](1≦n
≦9)のハミング窓で、ダウンサンプリング波形の開始
点から切り出すとともに、各変数nについて、前記
(1)式に準じた演算式に基づいて自己相関関数R
n (τ)を計算し、τpn-1 /3≦τ≦Wn /2の範囲
に存在する最大値を自己相関関数Rn (τ)max とし
て、有声度Vn =Rn (τ)max /R(0) と、そのとき
の遅れ時間τpn とを記録していく(ステップST
6)。但し、この場合、初期値τp0 は、τp0 =3.
75msとする。
【0045】この後、ピッチ周期の予備抽出部4は、上
述したステップST6で記録された比較値(有声度)V
n の大きさと、遅れ時間τpn の値とを取り込むととも
に、次式で定義される重み関数gnjおよび次式で示す演
算式に基づいて前記比較値Vn の大きさと、遅れ時間τ
n の値とのバラツキを考慮したパラメータUn を求め
た後、これを最大にする変数nをnmax として、このn
max に対応する遅れ時間τpnmaxをその有声音区間の仮
のピッチ周期τpとし、これを1ピッチ毎の周期の抽出
部6に供給する(ステップST7)。
【0046】
【数2】 <1ピッチ毎の周期の抽出部6>1ピッチ毎の周期の抽
出部6は前記ピッチ周期の予備抽出部4で得られた予備
的なピッチ周期τpを取り込むとともに、次式に示す演
算を行なって間引き率M’を求めた後、この間引き率
M’の小数点以下を切り捨てて間引き率Mを求める。但
し、M’<1ならば、M=1、M’>5ならば、M=5
とする。
【0047】 M’=5.7375・log10(fs ・τp)−6.475 …(4) 但し、fs :標本化周波数であり、単位はkHz。
【0048】τp:予備的なピッチ周期であり、単位は
ms。
【0049】この後、1ピッチ毎の周期の抽出部6は、
次式に示す間引き率Mに対応するカットオフ周波数を用
いて前記有声・無声・無音の判定部2で決定された有声
音区間にその前後、各40msを加えた入力音声波形に
対し、低域ろ波を行なう。
【0050】M=1のとき、低域ろ波を中止。
【0051】M=2のとき、2900Hz。
【0052】M=3のとき、1500Hz。
【0053】M=4のとき、1000Hz。
【0054】 M=5のとき、630Hz。 …(5) この場合、使用されるLPFとしては、例えばフィルタ
係数がh1 〜h2T-1(ここでは、T=16)となり、h
K =h2T-Kとなるように各フィルタ係数が設定された3
1次のFIR型フィルタが使用される。
【0055】これによって、n番目の入力波形x(n) に
対するフィルタ出力x’(n) は、
【数3】 となり、入力波形x(n)と、フィルタ出力x’(n)
との間で、全周波数帯域にわたり、位相のずれがなくな
り、両者の時間的な位置の対応がつけ易くなる。この低
域ろ波は、以下に述べるダウンサンプリングの準備であ
ると同時に、ピッチ周期抽出に対する高い周波数成分の
影響を除く効果もある。
【0056】次いで、1ピッチ毎の周期の抽出部6は、
間引き率Mが1以外のとき、上述した低域ろ波処理で得
られた有声音区間のフィルタ出力x’(n) に対し、以後
の処理の演算量を低減するために、Mポイントに1ポイ
ントだけ残すダウンサンプリングを行なう(ステップS
T8)。
【0057】これによって、入力音声波形が図3(a)
に示す波形であるとき、このダウンサンプリング処理に
よって図3(b)に示す波形が導き出される。
【0058】次いで、1ピッチ毎の周期の抽出部6は、
予備抽出部4で得られた予備的なピッチ周期τpに基づ
いて、上述したステップST8のダウンサンプリング処
理で得られた波形の有声音区間の部分全体に渡り、3.
33msのシフト幅でフレームの中心点を移動させなが
ら、フレーム長を適応的に変化させて自己相関関数を計
算して、ピッチ周期の候補を2個ずつ求め、どちらかを
選択していく(ステップST9)。
【0059】ここで、自己相関関数を計算する窓幅
r 、自己相関関数上でピッチ周期の候補を検索する時
間遅れの範囲をNsからNeまでとするとき、それぞれ
の値は以下のように決定する。
【0060】《ステップST4において得られたTpに
相当する点以前》Wr=τp×3.0、Ns=τp/
1.41、Ne=τp×2.0を条件とする。
【0061】《Tpに相当する点より後》Nbを1つ前
のフレームで選択決定されたピッチ周期として、Wr=
τp×2.5、Ns=Nb/1.35を条件とする。但
し、検索終了値Neについては、一般的に自然音声に関
してパワーが減少傾向にある場合、ピッチ周期が長くな
っていく傾向があることを考慮し、ステップST1にお
いて時間的に対応する部分で求めたパワーPを用いて、
当該フレームと1つ前のフレームとのパワーの比Prを
用いて次式に示す如く定義する。
【0062】 Pr≧1ならば、Ne=Nb×1.35 Pr<1ならば、Ne=Nb×(1.74−0.185・Pr) …(7) この場合、Pr<1が成り立つときは、パワーが減少傾
向にある場合である。
【0063】以上の条件により、1ピッチ毎の周期の抽
出部6は各フレームにおいて、自己相関関数を計算し、
遅れ時間τがNs≦τ≦Neの範囲における自己相関関
数R(τ)の極大値を大きいものから順に自己相関関数
R(τ1 )、R(τ2 )とし、ピッチ周期の候補τ1
τ2 のいずれか一方を選択する。
【0064】そして、これらピッチ周期の候補τ1 、τ
2 のどちらかを選択するかは、以下のようにする。
【0065】《ステップST4において得られたTpに
相当する点以前》まず、1ピッチ毎の周期の抽出部6は
点Tpを含むフレームにおいて、ピッチ周期の候補τ1
を選択し、以後時間的に前方に向い順次、ひとつ後方の
フレームで選択されたピッチ周期に近いτを選択してい
く。
【0066】《Tpに相当する点より後》この場合、1
ピッチ毎の周期の抽出部6は基本的には、ピッチ周期の
候補τを選択していくが、次の条件が成立する場合に
は、ピッチ周期の候補τ2 を選択する。
【0067】但し、ここで、Rr =R(τ2 )/R(τ
1 )、V1 =R(τ1 )/R(0) 、V2 =R(τ2 )/
R(0) 、D1 =|τ1 −Nb|、D2 =|τ2 −Nb
|、Rt =1.49−0.185・Pr とし、前提条件
として次のものを設定する。
【0068】前提条件:Pr <0.87かつV1 <0.
6かつτ2 /Nb <Rt
【0069】そして、1ピッチ毎の周期の抽出部6は、
これらの各条件および前提条件に基づいて以下に示す判
定条件Aまたは判定条件Bのいずれかが成立する場合に
ピッチ周期の候補τ2 を選択する。
【0070】[判定条件A]τ1 <τ2 であって、さら
に以下の(1)〜(3)のいずれかが成立、 (1)Rr ≧0.5 (2)Rr >0.33かつV2 ≧0.1 (3)V1 <0.45かつV2 <0.45かつD1 >D
2 [判定条件B]τ1 ≧τ2 かつD1 >D2 であって、さ
らに以下の(1)〜(4)のいずれかが成立、 (1)τ2 >Nb かつRr ≧0.5 (2)τ2 >Nb かつRr >0.33かつV2 ≧0.1 (3)τ1 /Nb <Rt かつRr ≧0.5 (4)τ1 /Nb <Rt かつRr >0.33かつV2
0.1 また、前提条件が成立しない場合においても、以下の判
定条件C、Dのいずれかが成立するならば、1ピッチ毎
の周期の抽出部6はピッチ周期の候補τ2 を選択する。
【0071】[判定条件C] D1 >D2 かつV1 <0.65 [判定条件D] D1 >D2 かつRr >0.7 このように、この1ピッチ毎の周期の抽出部6は以上の
手順により、当該有声音区間の全体について、3.3m
sの間隔で、ピッチ周期を抽出する。
【0072】次いで、1ピッチ毎の周期の抽出部6は上
述したステップST9のピッチ周期抽出処理で得られた
ピッチ周期の逆数を求め、かつ対数をとった後、これを
3.3ms毎に標本化されたピッチ周波数の時間変化波
形とみなし、この時間変化波形に対し、前記(6)式に
準じた方法で、中央の係数を中心に対象な係数値を持つ
51次のFIR型フィルタ(カットオフ周波数は11H
z)で低域ろ波を行なうとともに、各標本点の値を用い
てべき乗し、平滑化されたピッチ周波数の時間変化パタ
ーンを求める(ステップST10)。
【0073】この場合、1ピッチ毎の周期の抽出部6は
前記(6)式に準じた計算を行なうとき、パターンの外
側で25点ずつの標本点が不足するので、予め、パター
ンの内側両端の18ms分ずつの標本点で直線近似を行
ない、外側はこの直線を延長して補間し、これによって
平滑化処理時に時折り生じるピッチ抽出誤りを無くす。
【0074】この後、1ピッチ毎の周期の抽出部6は上
述したステップST8のダウンサンプリング処理で得ら
れた波形に対し、フレーム幅6.66ms、シフト幅
3.33msの各フレームで、ステップST10で得ら
れたピッチ周波数より若干高いカットオフ周波数で前記
(6)式に準じた方法で低域ろ波を行なった後、フレー
ムの中心で1、両端で0となる三角窓を掛けるととも
に、両隣りのフレームで同様に処理された波形と加算
し、図3(c)に示すような有声区間全体として連続な
正弦波状の波形を求める(ステップST11)。
【0075】但し、この場合、実際に用いるカットオフ
周波数fc としては、49.6Hzから793.6Hz
までの4オクターブの間を1/3オクターブ毎に分割し
た、13通りの周波数を予め用意し、793.6Hzを
上限とし、ステップST10で得られたピッチ周波数よ
り高くて、かつ最も近いものを選択する。もし、79
3.6Hz以上の高いピッチ周波数が頻繁に現われるこ
とが予測される場合には、さらに高い周波数まで用意す
る。
【0076】また、この処理で使用されるFIR型フィ
ルタの次数は、ステップST8でダウンサンプリングさ
れた標本化周波数をf’s として、0.833×f’s
/fc の少数点以下を切り捨てた後、2倍にしたものに
1を加えて用いる。
【0077】次いで、1ピッチ毎の周期の抽出部6はス
テップST11で得られた波形の正の極大値を検出し、
波形の開始点より、隣接する極大値との位置の間隔を順
次、測定していき、ピッチ周期の変化に同期した、図3
(d)に示すようなピッチ周期のスケールを作成し、こ
れを各ピッチ区間の開始点の決定部8に供給する(ステ
ップST12)。しかし、場合によっては、1ピッチ周
期内に複数の極大値が検出されることがあるので、以下
の(1)〜(6)のいずれかの条件を満足する極大値の
みを採用する。
【0078】但し、ここでは、候補となっている極大値
と、1つ前に採用された極大値の時間間隔W2 と、2つ
の前と1つ前に採用された極大値の時間間隔W1 の比W
2 /W1 をWr とする。また、ステップST1でフレー
ム単位で求めたパワーPのうち、候補となっている極大
値の位置に対応する点を含むフレームで求めたものと、
その1つ前のフレームで求めたものとの比をPr とす
る。
【0079】 (1)0.90<Pr <1.10、かつWr >0.85 (2) Pr <0.87、かつWr >0.75 (3)0.87≦Pr ≦0.90、かつWr >0.65 (4)1.10≦Pr ≦1.35、かつWr >0.65 (5)1.35<Pr ≦1.50、かつWr >0.60 (6)1.50<Pr 、かつWr >0.50 この場合、条件(1)はパワーの変化が少なく波形が安
定していて、ピッチ周期の変化が少ない場合であり、条
件(2)、(3)はパワーが減少傾向にあり、ピッチ周
期が長くなっていく可能性が高い場合である。
【0080】また、条件(4)、(5)、(6)はパワ
ーが増加傾向にあり、ピッチ周期が短くなっていく可能
性が高い場合である。
【0081】<各ピッチ区間の開始点の決定部8の動作
>各ピッチ区間の開始点の決定部8はまず、当該有声音
区間の入力波形の開始点にステップST12で得られた
ピッチ周期のスケールの開始点を合わせて当てはめ、入
力波形の1ピッチ周期毎にその周期内における正負のピ
ーク値や短時間のパワー変化を調べていき、当該有声音
区間全体の中でピッチ区間の開始点を最も確実に決定で
きる1ピッチ周期区間を検索する(ステップST1
3)。
【0082】この場合、この処理は、各ピッチ周期区間
毎に次式で定義される確実度βを求め、その最大値を検
出することによって行なう。但し、基本的には有声音区
間の開始、終了それぞれの2ピッチ周期区間は除いて処
理する。
【0083】 β=L×(Lr +0.1074・Sr ) …(8) 但し、ピッチ周期内の正側のピーク値をLp 、負側のピ
ークの絶対値をLm としたとき、 L:Lp とLm とのうち、大きい方。
【0084】Lr :Lp ≧Lm ならば、Lp /Lm 、L
p <Lm ならば、Lm /Lp
【0085】Sr :ピッチ周期内において、窓幅C、シ
フト幅C/2の矩形窓内で標本値の自乗和Pj (j=
1、2、…、K)を求めていき、この短時間パワーの変
化度と、1標本点当たりの正規化パワーの積によって定
義される量S(j) =(Pj /Pj-2 )・(Pj /Nc
2 )の3≦j≦kの範囲における最大値である。但
し、スケールで示されるピッチ周期をτ[ms]とし
て、1.15・τの小数点以下を切り捨てたものをNd
(但し、τ<5msの場合はNd =4で固定)として、
C=τ/Nd 、K=2・Nd −1であり、Nc はC時間
幅に相当する標本点数、Qは標本値の正または負の最大
入力レベルで、量子化ビット数をqとすると、Q=2
(q-1) である。
【0086】次いで、各ピッチ区間の開始点の決定部8
は前記ステップST13の処理において確実度βの最大
値が検出れさたピッチ周期区間(n番目とする)内にお
いてピッチ区間の開始点Pn を決定する(ステップST
14)。
【0087】この処理では、n番目のピッチ周期区間内
の波形の短時間のパワーが急激に上昇する直前の零交差
点を選択するが、具体的には以下のようにする。
【0088】まず、各ピッチ区間の開始点の決定部8は
確実度βの最大値が検出されたピッチ周期内において、
r =S(m) であったとして、n番目の短時間パワー算
出区間(幅CでPj (j=m)を算出)の開始点Sm
求めるとともに、ピッチ周期をτn として、Sm ±τn
/6の範囲の入力音声波形について、前記(6)式に準
じた、カットオフ周波数2000Hzで21次のFIR
型フィルタにより低域ろ波を行なった後、ろ波波形に対
し、波形の零交差点と、波形の正または負のピーク値
(または、絶対値の最大値)とを検出する。
【0089】この場合、これらは一般に複数個ずつ存在
するが、ここでは、零交差点とは、隣接する2つの標本
値の積が負または零になる場合において、絶対値の小さ
い方の標本点を指す。
【0090】この後、各ピッチ区間の開始点の決定部8
は前記ろ波波形上で、以下に示す判定条件Aまたは判定
条件Bのいずれかの条件を満足する零交差点zのうち、
時間的に最も後方に位置するものを仮のピッチ区間開始
点Pn とする。
【0091】[判定条件A]零交差点zより時間的に前
方にある最大ピーク値(または、絶対値の最大値)の大
きさが、零交差点zの後方にある最大ピーク値(また
は、絶対値の最大値)の大きさの60%を越えないこ
と。
【0092】[判定条件B]零交差点zが時間的に最も
前方の零交差点であること。
【0093】またこのとき、ろ波波形上で、零交差点z
が検出されない場合には、各ピッチ区間の開始点の決定
部8は絶対値が最小となる点で、時間的に最も後方に位
置するものを仮のピッチ区間開始点Pn とする。
【0094】この後、各ピッチ区間の開始点の決定部8
は入力波形上で時間的に仮のピッチ区間開始点Pn に対
応する点を中心に±2点の標本点のなかで、絶対値が最
小になる点を検索し、これを最終的なピッチ区間開始点
n とする。
【0095】そして、この一連の処理によって最終的な
ピッチ区間開始点Pn が決定されれば、各ピッチ区間の
開始点の決定部8は前記ステップST13で入力音声波
形に当てはめたピッチ周期のスケールをシフトして、前
記ステップST14で得られたピッチ区間開始点Pn
最も近いピッチ区切りの目盛り(スケールの目盛り)を
前記ピッチ区間開始点Pn に合わせ(図3(e)参
照)、以下スケールの残りのピッチ区切りの目盛りが示
す点の近傍の入力音声波形について、Pn+1 からPN
で、またPn-1 からP1 まで、隣りですでに決定された
ピッチ区間開始点の近傍との波形の形状の類似度を考慮
しながら、順次ピッチ区間の開始点を決定していく(ス
テップST15)。但し、Nはスケールで示される当該
有音区間の全ピッチ周期区間数である。
【0096】そして、この処理で使用されるピッチ区間
の開始点の決定手順として、例えば次に述べる手順を用
いて逐次、Pi (n<i≦N)を決定する。
【0097】ます、各ピッチ区間の開始点の決定部8は
ピッチ周期のスケールで示される点P’i をPi の最初
の候補点とし、同様にスケールで示されるi−1番目の
ピッチ周期をτi-1 とした後、次式に示す演算式に基づ
いてひつと前で決定されたPi-1 の近傍と、P’i の近
傍との波形の類似度θ(Pi-1 、P’i )を算出する。
【0098】
【数4】 但し、xd :ステップST8で求めたダウンサンプリン
グ波形で、ki-1 、k’i はそれぞれxd 上で時間的に
i-1 、P’i に対応する点。
【0099】Hi-1 :xd 上でτi-1 /5の時間幅に相
当する標本点数。
【0100】次に、各ピッチ区間の開始点の決定部8
は、k’i を前後に1点ずつ最大±Hi-1 点までシフト
して、各々についてki-1 点の近傍との類似度を計算
し、合計2・hi-1 +1個の類似度θ(ki-1
k’i )のうち、最大値を与えるk’iを求め、この点
に入力音声波形上で対応する点を新たな候補点P’i
する。そして、P’i ±τi-1 /14の範囲の入力音声
波形について、前記(6)式に準じた、カットオフ周波
数2000Hzで21次のFIR型フィルタにより低域
ろ波を行なう。
【0101】この後、各ピッチ区間の開始点の決定部8
はろ波波形に対し、波形の零交差点と、波形の正または
負のピーク値(または、絶対値の最大値)とを検出す
る。
【0102】この場合、これらは一般に複数個ずつ存在
するが、ここでは、零交差点とは、隣接する2つの標本
値の積が負または零になる場合において、絶対値の小さ
い方の標本点を指す。
【0103】この後、各ピッチ区間の開始点の決定部8
はろ波波形状で、以下に示す判定条件Aまたは判定条件
Bのいずれかの条件を満足する零交差点zのうち、時間
的に最も後方に位置するものを仮のPi とする。
【0104】[判定条件A]零交差点zより時間的に前
方にある最大ピーク値(または、絶対値の最大値)の大
きさが、零交差点zの後方にある最大ピーク値(また
は、絶対値の最大値)の大きさの60%を越えないこ
と。
【0105】[判定条件B]零交差点zが時間的に最も
前方の零交差点であること。
【0106】またこのとき、ろ波波形上で、零交差点z
が検出されない場合には、各ピッチ区間の開始点の決定
部8は絶対値が最小となる点で、時間的に最も後方に位
置するものを仮のPi とする。
【0107】この後、各ピッチ区間の開始点の決定部8
は入力波形上で時間的に仮のPi に対応する点を中心に
±2点の標本点のなかで、絶対値が最小になる点を検索
し、これを最終的なPi を決定し、これを入力音声波形
上での最終的なPi とする。
【0108】以下、各ピッチ区間の開始点の決定部8は
iを1増やしてi=Nまで、上述した最終的なPi の決
定処理を繰り返し行なう。
【0109】また、各ピッチ区間の開始点の決定部8は
i (n>i≧1)についても、上述した手法に準じた
手法で1ピッチ区間につき、iを1ずつ減少させなが
ら、各ピッチ区間毎に類似度θ(Pi+1 、P’i )を最
大にするP’i をPi としていく。
【0110】以上のようにして、当該有声音区間全体に
ついて、1ピッチ区間毎の開始点を決定する(図3
(f)参照)。
【0111】但し、この場合、決定された各ピッチ区間
の開始点は入力音声波形の零交差点を選択しているの
で、最終的な各ピッチ区間の長さは、ステップST12
で得られたピッチ周期のスケールで示される各ピッチ周
期とは必ずしも一致しない。
【0112】以上説明したように、本実施例によれば、
老若男女の個人差によらず、また有声音区間の開始や終
了部分あるいは有声子音部等、ピッチ周波数が大きく変
化したり、局所的に変化する部分においても、何ら事前
のパラメータの調整もなく、波形の各有声区間内の各ピ
ッチ周期の正しい抽出が可能となり、波形を1ピッチ区
間毎に区切るまでの一連の処理を、正確にかつ自動的に
行なうことができる。
【0113】また、その結果を用いて、声の高さや話速
の変換などを目的とした波形の加工を、その最適な単位
である1ピッチ単位の波形処理を用いて自動的に行なう
ことができる。
【0114】したがって、従来のようにな一定の窓幅の
フレーム単位での処理に比べ、波形の短縮や繰り返し、
間引きといった操作をエコー感などの音質劣化を引き起
こすことなく、高品質に実現することができる。
【0115】
【発明の効果】以上説明したように本発明によれば、任
意の音声波形に対し、波形各部のピッチ周期の抽出に始
まり、波形を1ピッチ区間毎に区切るまでの一連の処理
を、正確にかつ自動的に行なうことができ、これによっ
て音声のピッチ周波数の正確な分析を可能にするととも
に、ピッチ周期や話速の変換など、本来1ピッチ単位の
波形処理が適している音声変換装置や音声合成装置の処
理品質を向上させることができる。
【図面の簡単な説明】
【図1】本発明による音声のピッチ周期抽出装置および
ピッチ区間自動抽出装置の一実施例を用いた音声処理シ
ステムの一例を示すブロック図である。
【図2】図1に示す音声処理システムの動作例を示すフ
ローチャートである。
【図3】図1に示す音声処理システムの動作例を示す波
形図である。
【符号の説明】
2 有声・無声・無音の判定部 4 ピッチ周期の予備抽出部 6 1ピッチ毎の周期の抽出部 8 各ピッチ区間の開始点の決定部
フロントページの続き (56)参考文献 特開 昭64−40999(JP,A) 特開 昭62−54296(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/04

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 取り込んだ入力音声波形から、複数の異
    なる分析窓幅により自己相関関数R(τ)を求め、それ
    ぞれの自己相関関数について、τ>0における最大値を
    R(τ)max として、V=R(τ)max /R(0) とその
    時の時間遅れτの値を求めていき、Vの大きさとτの値
    のばらつきを考慮して、最も信頼できるτの値を当該有
    音声のピッチ周期τpとする、 ことを特徴とする音声のピッチ周期抽出装置。
  2. 【請求項2】 入力音声波形を取り込むとともに、その
    うちの有声音区間の適当な部分で請求項1に記載のピッ
    チ周期抽出を行なうピッチ周期の予備抽出手段と、 予備抽出された結果に基づいて、有声音区間全体の各部
    分ごとに複数のピッチ候補を求めていき、どの候補が最
    も適しているか判定する判定手段と、 この判定手段によって得られたピッチ周期に基づいて各
    ピッチ区間の開始点を決定して前記入力音声波形を各ピ
    ッチ区間毎に区切って出力する開始点決定手段と、を備
    え、 前記判定手段は、 当該有声音区間の開始点より、数ミリ秒毎に適当な窓幅
    の分析フレームで、ピッチ周期τpを参考にしながら、
    フレーム内の平均ピッチ周期抽出のための分析を行って
    その候補を複数求め、全体として連続性やパワーの変化
    を考慮しながら、各フレームの候補のうちどれかを採用
    して、ピッチ周波数(ピッチ周期の逆数)の時間軌跡を
    決定し、 当該ピッチ周波数時間軌跡を平滑化した後、入力波形に
    含まれる周波数成分のうち、時々刻々当該ピッチ周波数
    時間軌跡以下の周波数成分を残すことを目的にカットオ
    フ周波数を適応的に変化させる低域ろ波を施し、当該有
    声音区間全体として連続な正弦波状の波形を得、この波
    形の開始点からパワーの変化を考慮しながら逐次その周
    期を測定して1ピッチ毎のピッチ周期のスケールを構成
    し、 前記開始点決定手段は、 1ピッチ毎のピッチ周期のスケールを取り込み、当該有
    声音区間の中央部の波形の正負のピーク値や1ms前後
    の短区間パワーを基に、最も確実に決定できる部分か
    ら、時間的に前後に、1ピッチ周期内の波形の短時間の
    パワーが急激に上昇する直前の零交差がピッチ区間の開
    始点となるように、前記ピッチ周期のスケールに合わせ
    て最適なピッチ開始点を求めていく、 ことを特徴とする音声のピッチ区間自動抽出装置。
JP30869292A 1992-11-18 1992-11-18 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置 Expired - Lifetime JP3219868B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30869292A JP3219868B2 (ja) 1992-11-18 1992-11-18 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30869292A JP3219868B2 (ja) 1992-11-18 1992-11-18 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置

Publications (2)

Publication Number Publication Date
JPH06161494A JPH06161494A (ja) 1994-06-07
JP3219868B2 true JP3219868B2 (ja) 2001-10-15

Family

ID=17984140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30869292A Expired - Lifetime JP3219868B2 (ja) 1992-11-18 1992-11-18 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置

Country Status (1)

Country Link
JP (1) JP3219868B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3500690B2 (ja) 1994-03-28 2004-02-23 ソニー株式会社 オーディオピッチ抽出装置及びオーディオ処理装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JP3888370B2 (ja) * 1996-11-20 2007-02-28 ヤマハ株式会社 音信号分析装置及び方法
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP4505899B2 (ja) * 1999-10-26 2010-07-21 ソニー株式会社 再生速度変換装置及び方法
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP4682344B2 (ja) * 2006-02-22 2011-05-11 独立行政法人産業技術総合研究所 発声位置推定方法およびそれを用いた発声位置推定装置、電動車椅子
JP4998761B2 (ja) * 2010-12-09 2012-08-15 独立行政法人産業技術総合研究所 電動車椅子
JP6152690B2 (ja) * 2013-05-02 2017-06-28 ヤマハ株式会社 音響解析装置
JP6746963B2 (ja) * 2016-03-04 2020-08-26 ヤマハ株式会社 会話評価装置、プログラムおよび会話評価方法
JP6988601B2 (ja) * 2018-03-15 2022-01-05 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置
CN111292748B (zh) * 2020-02-07 2023-07-28 普强时代(珠海横琴)信息技术有限公司 一种可适应多种频率的语音录入系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3500690B2 (ja) 1994-03-28 2004-02-23 ソニー株式会社 オーディオピッチ抽出装置及びオーディオ処理装置

Also Published As

Publication number Publication date
JPH06161494A (ja) 1994-06-07

Similar Documents

Publication Publication Date Title
JP3219868B2 (ja) 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP2612868B2 (ja) 音声の発声速度変換方法
CN101290775B (zh) 一种快速实现语音信号变速的方法
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
JP2904279B2 (ja) 音声合成方法および装置
Wang et al. Frequency domain adaptive postfiltering for enhancement of noisy speech
Samad et al. Pitch detection of speech signals using the cross-correlation technique
JP3266124B2 (ja) アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
CN112420062B (zh) 一种音频信号处理方法及设备
Mannell Formant diphone parameter extraction utilising a labelled single-speaker database.
OʼShaughnessy Formant estimation and tracking
JP2612867B2 (ja) 音声ピッチ変換方法
RU2174714C2 (ru) Способ выделения основного тона
CN110634473A (zh) 一种基于mfcc的语音数字识别方法
JP3559485B2 (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JP2612869B2 (ja) 声質変換方法
JP2004145154A (ja) 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体
JP2001083978A (ja) 音声認識装置
JP3233543B2 (ja) インパルス駆動点抽出方法およびピッチ波形抽出方法とその装置
Lee et al. A simple strategy for natural Mandarin spoken word stretching via the vocoder
JP2003150191A (ja) 音声スペクトル推定方法、その装置、そのプログラムおよびその記録媒体
JP3308847B2 (ja) ピッチ波形切り出し基準位置決定方法とその装置
Pesce Realtime-stretching of speech signals

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090810

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130810

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130810

Year of fee payment: 12